JP5254900B2 - 映像再構成方法、映像再構成装置および映像再構成プログラム - Google Patents

映像再構成方法、映像再構成装置および映像再構成プログラム Download PDF

Info

Publication number
JP5254900B2
JP5254900B2 JP2009177287A JP2009177287A JP5254900B2 JP 5254900 B2 JP5254900 B2 JP 5254900B2 JP 2009177287 A JP2009177287 A JP 2009177287A JP 2009177287 A JP2009177287 A JP 2009177287A JP 5254900 B2 JP5254900 B2 JP 5254900B2
Authority
JP
Japan
Prior art keywords
feature
video
segment
impact
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009177287A
Other languages
English (en)
Other versions
JP2011035489A (ja
Inventor
豪 入江
隆 佐藤
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009177287A priority Critical patent/JP5254900B2/ja
Publication of JP2011035489A publication Critical patent/JP2011035489A/ja
Application granted granted Critical
Publication of JP5254900B2 publication Critical patent/JP5254900B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Image Analysis (AREA)

Description

本発明は、処理対象となる映像を入力とし、これを最も大きな印象的インパクトを与えるように再構成する映像再構成方法およびその装置と、その映像再構成方法の実現に用いられる映像再構成プログラムとに関する。
放送や劇場公開に限らず、通信やWebの世界においても映像の利用が活発化している。映像は、画像と音の時系列データである。一般に、撮影した映像がそのままの形で流通することは稀であり、post-production の一つとして再構成するプロセスを経たのちに流通する。
ここでいう再構成とは、元の映像に対して、以下の操作を実施することである。
・部分区間を削除する(シーンの取捨選択)
・時間順序を並び替える
・別の映像(シーン)を挿入する
具体的には、編集して、一部を切りだして要約したり、予告篇を作成したり、さらには、別の映像、例えばCMを挿入したりするといった場合がこれにあたる。
このような再構成の目的は、撮影直後の整理されていない映像を、「視聴に適する形」に整理することである。例えば、主張点を明確にするために、冗長で無駄だと感じられるシーンを削除したり、内容の理解を助けるために、あえて時間順序を入れ替えたりといった場合がある。
視聴者の反応に目を向けてみると、見たい映像に対する希望や、見た映像の感想を述べる際に、「楽しい映像が見たい」、「泣ける映像だった」などというように、印象による表現を用いることが多いということに気付く。このことは、視聴者が映像の価値として、印象を重視することの表れであると考えられよう。
また、映画やドラマの予告編や、CM(Commercial Message)などの映像は、宣伝を目的としているため、視聴者に強い印象的インパクトを与え、記憶に残すことが好ましい。印象的インパクトという観点で見た場合、その強さは、記憶と関連することが知られている。したがって、より印象的インパクトの強い映像を作成することは、映像の広告価値を高めることにもつながる。
以上述べたように、映像を再構成する際に注力すべきことの一つは、再構成した結果生成される映像が、強い印象的インパクトを持つことである。
このような再構成は、ある程度専門的知識や主観的判断が必要となるため、訓練を積んだ映像作成者、編集者などの人手によるものでなければ、十分な効果を得ることができないのが現状である。
しかしながら、大量の映像が流通している昨今において、これらをすべて人手によって実施することは不可能といえる状況となっており、印象的インパクトの大きい再構成を自動的に実施できる技術が求められている。
本発明に関連する先行技術として、下記の特許文献1には、映像の情報を分析して、感情的な区間を検出し、感情的な区間をわかりやすくユーザに提示して、編集を支援する映像編集技術が開示されている。
特開2009−111938号公報
特許文献1で開示された映像編集技術は、感情的な区間をわかりやすく提示することで、ユーザにとって利用しやすい編集支援ツールを提供していた。
しかしながら、この映像編集技術は、印象的インパクトを大きくするような映像の再構成を得ることを目的としたものではないため、この映像編集技術を利用することによって得られる結果は、必ずしも印象的インパクトの大きい再構成映像とはならなかった。
また、この映像編集技術は、最終的にどの区間を用いるかについてはユーザが選択することになっており、自動的に編集するものではなかった。
この課題を解決すべく、本発明は、処理対象の映像に対して、その画像、音の情報を分析することにより、印象的インパクトを最大化する再構成映像を自動生成し、出力する新たな映像再構成技術の提供を目的とするものである。
この目的を達成するために、本発明の映像再構成装置は、映像作成者や編集手段の人手を介することなく、処理対象の映像を再構成することを実現するために、(1)処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量ベクトル(以下、単に特徴量という)を抽出する抽出手段と、(2)抽出手段の抽出した特徴量に基づいて、処理対象の映像を1つ以上のセグメントに分割する分割手段と、(3)抽出手段の抽出した特徴量をベクトル量子化して有限個の符号に変換したのち、分割手段の分割したセグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成する生成手段と、(4)分割手段の分割したセグメント毎に、生成手段の生成したヒストグラムに基づいて、複数の特徴量グループへの帰属度合いを示す確率値ベクトルを算出する算出手段と、(5)分割手段の分割したセグメント毎に、算出手段の算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する決定手段とを備えるように構成する。
この構成を採るときに、決定手段は、(イ)各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出するセグメント内インパクト算出手段と、(ロ)セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出するセグメント間インパクト算出手段と、(ハ)セグメント内インパクト算出手段の算出したセグメント内インパクトと、セグメント間インパクト算出手段の算出したセグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定する再構成映像決定手段とを備えることで、最適な再構成映像を決定するように処理することがある。
以上の各処理手段が動作することで実現される本発明の映像再構成方法はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される本発明の映像再構成装置では、処理対象の映像を入力すると、その処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量を抽出する。
例えば、フレーム毎に、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴のうち少なくとも1つを特徴量として抽出することで、各フレームの持つ特徴量を抽出する。
続いて、抽出した特徴量に基づいて、処理対象の映像を1つ以上のセグメントに分割する。
このとき、ストーリーや文脈情報を考慮したセグメント分割を実施するために、まず最初に、抽出した特徴量に基づいて、処理対象の映像を仮にこまかなセグメントに分割し、続いて、この仮に分割したセグメントについて、後述する方法によって得られる確率値ベクトルに基づいて、この仮に分割したセグメントをまとめることで、処理対象の映像を最終的にセグメントに分割するように処理することがある。
続いて、抽出した特徴量をベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成することで、各セグメントに対して、それが持つ特徴量に応じたヒストグラムを付与する。
続いて、セグメント毎に、それに付与したヒストグラムに基づいて、pLSA(Probabilistic Latent Semantic Analysis)やLDA(Latent Dirichlet Allocation) などの手法を適用することで、予め設定された特徴量グループ(学習用の映像をヒストグラムに基づいて分類することで設定されることになる)への帰属度合いを示す確率値ベクトルを算出する。
ここで、各特徴量グループは、印象に寄与するセグメントの特徴を表現するものであって、例えば、「画面が明るく、鮮やかで、動きが大きく、軽快な音楽がなっている」とか、「画面が暗く、怖い音楽とサウンドがなっている」といったようなグループが抽出される。
続いて、セグメント毎に、算出した確率値ベクトル(各特徴量グループへの帰属度合いを示す確率値ベクトル)と、各特徴量グループに対して割り付けられた印象とに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて、最も大きな印象的インパクトとなる最適な再構成映像を決定する。印象的インパクトの推定値を求めるうえで、学習用の映像から算出した確率値ベクトルと、これらを視聴した視聴者が付与する印象との関係を分析しておき、これに基づいて印象的インパクトの推定を実施することになる。
このとき、各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出するとともに、セグメント間の遷移の仕方によって視聴者に与える印象的インパクトの影響を考慮することがある。
すなわち、セグメント単体としては非常にインパクトがあるセグメントでも、視聴者の“慣れ”や“飽き”の影響によって、同様の印象を与えるセグメントを見続けていると、次第にそのセグメントのインパクトが下がっていくという性質があることや、安らぎのある印象のシーンから、急に正反対の印象を持つ激しい印象のシーンを視聴すると、より大きな印象的インパクトを受けることなどを考慮して、セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出した後、そのセグメント内インパクトとセグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定するように処理するものである。
このようにして、本発明の映像再構成装置では、映像作成者や編集手段の人手を介することなく、処理対象の映像を再構成するように処理するのである。
本発明によれば、本発明のユーザは、映像を入力するだけで、当該映像を再構成して得られる多くの組み合わせの中から、印象的インパクトが大きくなる再構成映像を自動的に得ることができるようになる。
これにより、本発明によれば、訓練を積んでいる映像作成者や編集者の人手を介することなく、視聴者に強い印象的インパクトを与える再構成映像を得ることができるようになる。
本発明の映像再構成装置の装置構成図である。 本発明の映像再構成装置の実行するフローチャートである。 本発明の映像再構成装置の実行する処理の入出力関係を抽象化した説明図である。 ヒストグラム生成処理の説明図である。 セグメント分割処理の説明図である。 再構成映像の決定処理の基本的なアルゴリズムの説明図である。 セグメント間インパクトの算出処理の説明図である。
以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明を具備する映像再構成装置1の装置構成の一例を図示する。
この図に示すように、本発明の映像再構成装置1は、映像入力手段100と、映像記憶手段101と、フレーム特徴量抽出手段102と、フレーム特徴量記憶手段103と、セグメント分割手段104と、セグメント情報記憶手段105と、ヒストグラム生成手段106と、ヒストグラム記憶手段107と、学習用映像記憶手段108と、学習用ヒストグラム生成手段109と、学習用ヒストグラム記憶手段110と、トピック数設定手段111と、学習用ヒストグラム分類手段112と、特徴量グループ情報記憶手段113と、インパクト度設定手段114と、トピック推定手段115と、映像再構成手段116と、再構成映像出力手段117とを備える。
映像入力手段100は、再構成の処理対象となる映像を入力して、それを映像記憶手段101に格納する。
フレーム特徴量抽出手段102は、処理対象の映像の持つ画像情報や音情報に基づいて各フレームの持つ特徴量を抽出して、その抽出した特徴量の情報(各フレームの持つ特徴量の情報)をフレーム特徴量記憶手段103に格納する。
セグメント分割手段104は、フレーム特徴量抽出手段102の抽出した特徴量に基づいて、処理対象の映像を複数のセグメントに分割して、その分割情報(各セグメントを構成するフレームがどれであるのかを示す情報)をセグメント情報記憶手段105に格納する。
ヒストグラム生成手段106は、フレーム特徴量抽出手段102の抽出した特徴量をベクトル量子化して有限個の符号に変換したのち、セグメント分割手段104の分割したセグメント毎に、その変換した符号の数をカウントすることで、処理対象の映像の持つ各セグメントに付与するヒストグラムを生成して、それをヒストグラム記憶手段107に格納する。
学習用映像記憶手段108は、ヒストグラム生成手段106の生成したヒストグラムの背後にあるトピックの生成に用いられる学習用映像を記憶する。ここで、学習用映像記憶手段108は、予めセグメントに分割された形の学習用映像を記憶するようにしているとともに、それらの各セグメントの持つ特徴量(フレーム特徴量抽出手段102と同様の処理に従って抽出された特徴量)を記憶するようにしている。
学習用ヒストグラム生成手段109は、ヒストグラム生成手段106と同様の処理を実行することで、学習用映像の持つ各セグメントに付与するヒストグラム(学習用ヒストグラム)を生成して、それを学習用ヒストグラム記憶手段110に格納する。
トピック数設定手段111は、設計者の入力によって、トピック(ヒストグラム生成手段106の生成したヒストグラムの傾向を表現するもの)の数を設定する。
学習用ヒストグラム分類手段112は、学習用ヒストグラム記憶手段110の記憶する学習用ヒストグラムを分類することで、トピック数設定手段111の設定した数分の特徴量グループを生成して、その特徴量グループの情報(各特徴量グループに区分けされた学習用ヒストグラムの情報)を特徴量グループ情報記憶手段113に格納する。
インパクト度設定手段114は、特徴量グループ情報記憶手段113に記憶される各特徴量グループと印象との関係を学習する。この際、学習用の映像(セグメント)に対して、あらかじめ視聴者が視聴した際の印象を回答した印象ラベルが付与されている必要がある。特徴量グループ情報記憶手段113に記憶される各特徴量グループは、学習用ヒストグラムに基づいて分類されたものであり、各特徴量グループは、例えば、「画面が明るく、鮮やかで、動きが大きく、軽快な音楽がなっている」とか、「画面が暗く、怖い音楽とサウンドがなっている」といった、視聴者の印象に影響を与えるセグメントの特徴を表現するものであるため、これらの特徴量グループと視聴者によって付与された印象ラベルとの関係を効果的に抽出することができる。
トピック推定手段115は、セグメント分割手段104の分割したセグメント毎に、ヒストグラム生成手段106の生成したヒストグラムに基づいて、特徴量グループ情報記憶手段113に記憶される各特徴量グループへの帰属度合いを示す確率値ベクトルを算出することで、ヒストグラム生成手段106の生成したヒストグラムの背後にあるトピックを推定する。
映像再構成手段116は、セグメント分割手段104の分割したセグメント毎に、トピック推定手段115の算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する。
再構成映像出力手段117は、映像再構成手段116の決定した最適な再構成映像を出力する。
このように構成される本発明の映像再構成装置1では、処理対象の映像を入力すると、その処理対象の映像の持つ画像情報や音情報から、フレーム毎に特徴量を抽出し、その抽出した特徴量に基づいて、処理対象の映像をセグメントに分割する。
続いて、抽出した特徴量をベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成することで、各セグメントに対して、それが持つ特徴量に応じたヒストグラムを付与する。
続いて、セグメント毎に、それに付与したヒストグラムに基づいて、pLSA(Probabilistic Latent Semantic Analysis)やLDA(Latent Dirichlet Allocation) などの手法を適用することで、予め設定された複数の特徴量グループへの帰属度合いを示すトピック確率値のベクトルを算出することで、その背後にあるトピックを推定する。
続いて、セグメント毎に、算出したトピック確率値のベクトルと、各特徴量グループと印象との関係とに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて、より大きな印象的インパクトを示すセグメントを優先する形で選択することで最適な再構成映像を決定して、それを出力する。
このようにして、本発明の映像再構成装置では、映像作成者や編集手段の人手を介することなく、処理対象の映像を再構成するように処理するのである。
図2に、このように構成される本発明の映像再構成装置1の実行する映像再構成処理のフローチャートを図示する。
次に、このフローチャートを用いて、本発明の実行する映像再構成処理の一例について詳述する。
図3に、本発明の映像再構成装置1の実行する処理の入出力関係を抽象化した様子を図示する。
本発明は、図3に示すように、元映像Xを入力として受け取る。この元映像Xは、後述するセグメント分割処理によって、有限個のセグメントに分割される。図3の例では、9つのセグメントx1 、x2 、・・・、x9 に分割されるものとする。
本発明は、このように分割されたセグメント時系列に対して、
・セグメントの削除
・セグメントの結合
・セグメントの時間順序交換
の3つの操作を施すことによって得られる、すべての再構成映像の集合の中から、最も印象的インパクトが大きい再構成映像を1つ選び、それを出力する。図3の例では、5 つのセグメントy1 、y2 、・・・、y5 を選び、それらをつなぎ合わせたものを出力する例を示している。
本発明は、この処理を実現するために、図2のフローチャートに示すように、まず、ステップS101で、処理対象となる映像(元映像)を入力すると、続いて、ステップS102で、映像中の画像・音情報から、フレーム毎に、特徴量の抽出を行う。
続いて、ステップS103で、ステップS102で抽出した特徴量を元に、映像全体を一つ以上のセグメント(区間)に分割する。
続いて、ステップS104で、ステップS102で抽出した特徴量をベクトル量子化して符号(シンボル)に変換したのち、ステップS103で得た複数のフレームで構成される各セグメント毎に、各符号が何回生起しているかをカウントすることによって、ヒストグラムを生成する。この処理によって、各セグメントには、その特徴量に応じたヒストグラムが付与されることになる。
続いて、ステップS105で、ステップS104で得たヒストグラムから、そのセグメントの背後にあるトピックを推定する。このトピックは、あらかじめ定められた数の次元を持つトピック確率値のベクトルで表現される。ここまでの処理で、元映像はセグメントとそれについて推定されたトピックのリストとに変換されている。
続いて、ステップS106で、このセグメントのリストを入力として受け取り、印象的インパクトが最大となる再構成映像を生成する。
最後に、ステップS107で、ステップS106で得られた再構成映像を出力して、処理を終了する。
次に、上記の各ステップで実行する処理の詳細について説明する。
〔1〕ステップS102の詳細処理
ステップS102では、画像・音の情報から、特徴量を抽出する。特徴量は、画像から抽出するものと、音から抽出するものがある。いずれも、例えば、50msなどの微小な区間から抽出することを想定しており、例えば、画像特徴の場合は、当該区間に含まれる画像フレームから抽出し、音特徴の場合は、当該区間の音声信号から抽出する。
画像から抽出する特徴としては、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴がある。
明るさ特徴、色特徴、動き特徴などは、それぞれ、ピクセル毎の明度、RGB値、動きベクトルを計算することによって求めることができる。
テクスチャ特徴としては、濃淡ヒストグラムの統計量(コントラスト)やパワースペクトルなどを求めればよい。また、これらは、一枚の画像全体に対する平均や分散などの統計量を用いるものとしてもよいし、あるいは、例えば8×8、16×16などの小さなピクセル領域ごとにヒストグラムを取り、ベクトルとして抽出するものとしてもよい。
カット特徴とは、シーンの切り替わり(カット)の有無、あるいは、頻度を表す特徴量である。厳密には単一の画像から抽出することができないため、近傍の画像を用いて求めることとなる。カット特徴を抽出するためには、まずカットの有無を検出する必要があるが、これには、例えば、下記の参考文献1に記載される方法など、公知のものを用いることができる。
参考文献1:Y. Tonomura, A. Akutsu, Y. Taniguchi, and G. Suzuki, "Structured Video Computing," IEEE Multimedia, pp.34-43, 1994.
カット特徴としては、このような方法によって得られたカット点の有無を用いるものとしてもよいし、あるいは、カットの頻度を用いるものとしてもよい。頻度の取り方としては、例えば、単位時間区間あたりのカット回数としてもよいし、隣り合うカット点までの時間などとして表現してもよい。
オブジェクト特徴とは、画像に収められている物体である。本発明の実施形態では、物体認識、すなわち、その物体が何であるかを同定するようなことはせず、物体認識に用いられる局所特徴をオブジェクト特徴として利用する。局所特徴としては、例えば、下記の参考文献2に記載されるSIFT (Scale Invariant Feature Transform)や、下記の参考文献3に記載されるSURF (Speeded Up Robust Features) などを用いることができる。
参考文献2:D.G. Lowe, "Distinctive Image Features from Scale-Invariant Keyp oints," International Journal of Computer Vision, pp.91-110, 200 4.
参考文献3:H. Bay, T. Tuytelaars, and L.V. Gool, "SURF: Speeded Up Robust F eatures," Lecture Notes in Computer Science, vol. 3951, pp.404-4 17, 2006.
また、オブジェクト特徴として、特定の物体に焦点を当て、検出するといった方法を用いることも考えられる。例えば、顔の出現やその表情を得るといったアプローチが代表的である。顔を検出する方法としては、例えば、下記の参考文献4に記載される方法などを用いればよい。さらに表情も認識する場合には、下記の参考文献5に記載される方法などを用いればよい。
参考文献4:H.A. Rowley, S. Baluja, and T. Kanade, "Neural Network-based Fac e Detection," IEEE Computer Society Conference on Computer Visio n and Pattern Recognition, pp.203-208, 1996.
参考文献5:I. Cohen, N. Sebe, A. Garg, L.S. Chen, and T.S. Huang, "Facial E xpression Recognition from Video Sequences: Temporal and Static Modeling," Computer Vision and Image Understanding, vol.91, issu es 1-2, pp.160-187, 2003.
画像イベント特徴とは、映像中に生起する事象のことである。例えば、急激なカメラワークや、テロップの出現などがある。例えば、急激なカメラワークを用いる場合は、上記の参考文献1に記載される方法などを用いることによって検出することができる。また、テロップを用いる場合は、下記の参考文献6に記載される方法などを用いることによって検出することができる。
参考文献6:桑野秀豪, 倉掛正治, 小高和己, “映像データ検索のためのテロップ文 字抽出法”, 電子情報通信学会技術研究報告, PRMU, 96(385), pp.39-4 6, 1996.
一方、音情報から抽出する特徴量としては、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴などがある。
音高特徴は、例えば、ピッチを取るものとすればよく、下記の参考文献7に記載される方法などを用いて抽出することができる。
参考文献7:古井貞熙, “ディジタル音声処理, 4. 9ピッチ抽出”, pp.57-59, 19 85.
音量特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。
スペクトル特徴としては、例えば、メル尺度ケプストラム係数(Mel-Frequency Cepstral Coefficients: MFCC)を用いることができる。
リズム特徴としては、例えば、テンポを抽出すればよい。テンポを抽出するには、例えば、下記の参考文献8に記載される方法などを用いることができる。
参考文献8:E.D. Scheirer, "Tempo and Beat Analysis of Acoustic Musical Sign als," Journal of Acoustic Society America, Vol.103, Issue 1, pp. 588-601, 1998.
発話特徴、音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば、下記の参考文献9に記載される方法などを用いればよい。
参考文献9:K. Minami, A. Akutsu, H. Hamada, and Y. Tonomura, "Video Handlin g with Music and Speech Detection," IEEE Multimedia, vol.5, no.3 , pp.17-25, 1998.
音イベント情報としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには、例えば、下記の参考文献10(特許文献)に記載される方法などを用いればよい。
参考文献10:WO/2008/032787
〔2〕ステップS103/ステップS104/ステップS105の詳細処理
ステップS103では、ステップS102で得た特徴量、あるいはその一部に基づいて、セグメント分割を行う。
特徴量、あるいはその一部を利用する場合、最も単純な処理の一例は、カット点を境界としてセグメントを切ることである。音特徴を用いる場合には、例えば、発話区間や音楽区間に合わせてセグメントを切ることもできる。あるいは、得られた特徴量すべてに対して、下記の参考文献11に記載されるTime-Constrained Clustering を適用する方法を取ってもよい。
参考文献11:M.M. Yeung, and B.-L. Yeo, "Time-Constrained Clustering for Se gmentation of Video into Story Unites," International Conferen ce on Pattern Recognition, vol.3, pp.375-380, 1996.
しかしながら、これらの方法では、各セグメントが細かく分割されすぎる傾向があるという問題点がある。そこで、さらにもう少し意味レベルの高い、ストーリーや文脈情報を考慮したセグメント分割を実施し、適当な数のセグメントを得ることが好ましい。
このようなセグメント分割処理を実施する方法としては、セグメントが表現しているトピックを推定し、これに基づいてセグメント分割を行う方法がある。この方法は、後の処理であるステップS104、ステップS105の処理結果を利用するため、まずこれらの処理について説明する。
まず、事前に、上記で述べたいずれかの方法によって、一度、セグメント分割を実施しておく。以降、便宜上、このセグメントを小セグメントと呼ぶ。図4の例では、カット点によるセグメント分割を施している。小セグメント内には、いくつかのフレームを含んでいる。ステップS102では、フレーム毎に特徴量を抽出している。図4の例では、特徴量をベクトルとしてとらえ、小セグメントに含まれるフレーム毎に、特徴量ベクトルをw1 、w2 、・・・、wn と表記している。
続いて、ステップS104に相当する処理として、各特徴量ベクトルをベクトル量子化し、有限個の符号に変換する。この量子化処理は、例えば、K−Means法やLBGアルゴリズムなど任意のものを用いてよい。このような量子化処理の実施によって、特徴量に重畳する不要な雑音を除去することができる。この量子化処理および符号への変換処理の結果、特徴量は符号で表現されることとなる。
続いて、各セグメントに含まれる符号の数をカウントする。セグメント毎に符号の出現する数をカウントすることになるため、セグメントを符号ヒストグラムとして記述することに等しい。ここまでの処理が、ステップS104で実行するヒストグラム生成処理である。
続いて、ステップS105に相当するトピック推定処理を行う。ヒストグラムは、ある符号cが何回生起したかを表す情報であるので、多項分布に従うとしてモデル化することができる。多項分布に従う変数から、その背後にあるトピックを推定するためのトピックモデルとしては、いくつか公知のものが存在する。代表的なものに、下記の参考文献12に記載されるpLSA(Probabilistic Latent Semantic Analysis)や、下記の参考文献13に記載されるLDA(Latent Dirichlet Allocation) などがある。
参考文献12:T. Hofmann, "Probabilistic Latent Semantic Indexing," Internat ional ACM SIGIR Conference, pp.50-57, 1999.
参考文献13:D.M. Blei, A.Y. Ng, and M.I. Jordan, "Latent Dirichlet Allocat ion," The Journal of Machine Learning Research, vol.3, pp.993- 1022, 2003.
これらのモデルはいずれも、ヒストグラムhs と、その背後にあるトピックts の同時確率p(hs ,ts )として表現される。このモデルに従い、セグメントxs のヒストグラムhs が与えられたときに、その背後にあるトピックts は、下記の式(1)によって計算することができる。
Figure 0005254900
この式(1)は、一般には厳密に計算することができないため、必要に応じて、Gibbs Samplingや変分ベイズ近似などの近似手法を利用して求める。この結果、計算されるp(ts |hs )は、あらかじめ設定したトピックの数と同じ次元を持つ確率値のベクトルである。以降、特に断りのない限り、この確率値のベクトルをトピックと呼ぶ。ここまでが、ステップS105で実行するトピック推定処理の詳細である。
ステップS103で実行するセグメント分割処理では、図5に示すように、以上のように推定されたトピックを用いて、小セグメントをまとめる処理を実施する。得られているトピックが、確率値(実数値)のベクトルであるので、l2ノルムなどの適当な距離尺度を用いたクラスタリング処理を適用することによって、任意の粒度にセグメントをまとめることができる。望ましくは、上記の参考文献11に記載されるTime-Constrained Clustering を用いるものとする。
以上に説明した処理が、ステップS103で実行するセグメント分割処理の詳細である。また、同時に、ステップS104で実行するヒストグラム生成処理の詳細と、ステップS105で実行するトピック推定処理の詳細についても説明を行った。
〔3〕ステップS106の詳細処理
ステップS105までの処理の結果、入力された元映像は、いくつかのセグメントとして表現されている。また、ステップS105の処理によって、各セグメントには、その背後にあるトピック確率値のベクトルが付与されている。
ステップS106では、このセグメントの配列を受け取り、印象的インパクトが最大化されるような再構成映像を決定する。以降、この処理の詳細について説明する。
図6に、基本的なアルゴリズムの流れを示す。
ステップS105までに得られている元映像のセグメントの集合は、時間順序を考慮すれば配列と見なすことができる。この元映像のセグメント配列をL1 と置く。同様に、再構成映像のセグメント配列をL2 と置く。最初は、L2 にはセグメントが一切格納されていないため、空(φ)の配列となる。
ステップS106で実行する再構成処理では、図6に記載するように、L1 にあるセグメントの中から、セグメント決定関数F(xs ;L2 )の値が最も大きくなるセグメントxs を選び出し、L1 からL2 に移す、という処理を、終了条件が満たされるまで繰り返すことによって実施する。
ここで、重要となるのは、セグメント決定関数F(xs ;L2 )である。本発明の処理の一例では、セグメント決定関数F(xs ;L2 )が、セグメント内インパクトf1 (xs )と、セグメント間インパクトf2 (xs ,L2 )とによって決定されると仮定し、下記の式(2)で表す。
Figure 0005254900
ここで、αは0〜1までの間の実数値であり、あらかじめ定めるものとしてもよいし、学習などによって決定するものとしてもよい。
次に、セグメント内インパクトf1 (xs )と、セグメント間インパクトf2 (xs ,L2 )とについて詳述する。
セグメント内インパクトf1 (xs )とは、ある単一のセグメントが視聴者に与える印象的インパクトのことである。セグメントxs におけるトピック(確率値のベクトル)をts 、その際の印象的インパクトをes と置く。このとき、f1 (xs )を、トピックts が与えられた下での印象的インパクトes として定義し、確率関数を用いて、
1 (xs )=p(es |ts
と定義する。
これは、最尤推定法に基づく学習によって獲得することができる。
ここで、視聴者の立場にたてば、あるセグメントxs を視聴しているときに、xs から受ける印象的インパクトes は、それまでに受けていた印象的インパクトes-1 にも依存すると考えられる。そこで、単純に、
1 (xs )=p(es |ts
とするのではなくて、
1 (xs ,es-1 )=p(es |es-1 ,ts
とするものとしてもよい。
このとき、p(es |es-1 ,ts )は、例えば、es-1 からes への遷移のし易さを表す重み関数p(es |es-1 )などを用いて、下記の式(3)のように求める。
Figure 0005254900
ここで、p(es |es-1 )については、予め定めておくものとしてもよいし、学習によって決定するものとしてもよい。
セグメント内インパクトf1 (xs )が、ある単一のセグメントが視聴者に与える印象的インパクトを表すのに対して、セグメント間インパクトf2 (xs ,L2 )は、L2 にすでに含まれているセグメントの集合を踏まえ、セグメントxs の印象的インパクトの大きさを計算する。
例えば、単一のセグメントとしては、非常にインパクトがあるようなセグメントがあるとする。このとき、仮に、ずっと同じセグメントを見続けると、次第に、そのセグメントのインパクトは下がっていくものと想定される。本発明で用いるセグメント間インパクトf2 (xs ,L2 )とは、この効果の影響を考慮するものである。
次に、セグメント間インパクトf2 (xs ,L2 )における処理の詳細を、図7を用いて説明する。
例えば、ある視聴者が、図7に示すように、x1 ,x2 ,・・・,xs-3 ,xs-2 ,xs-1 という順番でセグメントを視聴したとする。以降、xs ,xs+1 ・・・と続いていくわけであるが、xs-1 までを視聴した時点で、視聴者は次にどのようなセグメントであるかについては知らない。したがって、本処理で考えるべきセグメント間インパクトf2 (xs ,L2 )は、「xs-1 までを視聴した視聴者が期待・予測する次のセグメントxs を視聴した際に受ける印象」に対する、「実際にセグメントxs を視聴した際に受ける印象」との差であると考えられる。
ステップS105までの処理によって、セグメントxs の特徴は、トピックts によって表現されている。したがって、図7に示すように、L2 に含まれているセグメントx1 ,x2 ,・・・,xs-1 を視聴した際に抱く次のセグメントxs での印象es を予測する予測分布p(es |t1 ,t2 ,・・・,ts-1 )と、実際にセグメントsまでを視聴した際の印象の分布(フィルタ分布)p(es |t1 ,t2 ,・・・,ts )との差分を考えればよい。
予測分布p(es |t1 ,t2 ,・・・,ts-1 )とフィルタ分布p(es |t1 ,t2 ,・・・,ts )の計算にあたっては、セグメント内インパクトを計算する際に用いたp(es |ts )とp(es |es-1 )を用いる。ここで、ベイズ規則に従って、下記の式(4)が成立する。
Figure 0005254900
このとき考えるべき予測分布p(es |t1 ,t2 ,・・・,ts-1 )とフィルタ分布p(es |t1 ,t2 ,・・・,ts )は、下記の式(5)によって再帰的に計算できる。
Figure 0005254900
続いて、これら求めた予測分布とフィルタ分布との差分を求め、これをセグメント間インパクトf2 (xs ,L2 )とする。予測分布、フィルタ分布ともに確率分布であるので、一般には確率分布間の距離、あるいは、偽距離を表す尺度を用いればよい。最も良く知られた尺度は、カルバック・ライブラーダイバージェンス(KLダイバージェンス)であり、下記の式(6)によって計算できる。
Figure 0005254900
ここで、KLダイバージェンスは、対称性を満たさない偽距離であるため、対称性を保持したい場合には、対称KLダイバージェンス、あるいは、イェンセン・シャノンダイバージェンス(JSダイバージェンス)などを用いてもよい。また、相互情報量など、その他の尺度を用いても構わない。
一方で、単純なKLダイバージェンスでは、とにかく両者の分布に差があればあるほど、大きな値となってしまう。すなわち、連続する二つのセグメントxs-1 ,xs の間で極端に印象が変わってしまうことが必ずしもよくない場合があるため、「“適度に”差があるようなものがよい」という指標を与える方が良い場合もある。
このような場合に対応するためには、例えば、フィルタ付加を利用することができる。例えば、KLダイバージェンスを、ガウスフィルタ付加によって下記の式(7)のように補正する。
Figure 0005254900
これで、μをピークにして、それよりも小さければ小さいほど、反対に大きければ大きいほど、小さい値となるKL’を作ることができる。これ以外にも、例えば、補正項を付加するなどの方法を取ってもよい。
以上が、セグメント内インパクトf1 (xs )と、セグメント間インパクトf2 (xs ,L2 )である。
以上説明した処理を、終了条件が満たされるまで実行する。終了条件は、例えばL2 の再構成映像の時間長が一定以上となったときとしてもよいし、セグメント決定関数の値がL1 に含まれる全てのセグメントに対して一定値以下となったときなどとしてもよい。
ここまで説明した再構成処理は、セグメント決定関数値が最も大きいセグメントxs *を順次採用していく、いわば貪欲な方法に基づくものである。一方で、この再構成処理を、「L2 に含めるセグメントを順次決定する」という多段決定問題であると見なすこともでき、この場合は動的計画法によってL2 を決定することもできる。この方法によれば、L1 内のセグメントの時間順序関係を保持することになるが、すべての組み合わせの中から最適なL2 を決定することができるというメリットがある。
以上が、本発明の実施形態の一例における映像再構成方法の説明である。この映像再構成方法で実施される処理プロセスを、コンピュータで読み取り可能なプログラムとして記述することも可能であることはいうまでもない。
以上、本発明の実施形態の一例における映像再構成方法について詳細に説明した。本発明は説明した実施形態の一例に限定されるものでなく、特許請求の範囲に記載した技術的範囲において各種の変形を行うことが可能である。
例えば、本発明は、IPTVやデジタルサイネージ、VOD(Video on Demand) などといった様々な映像配信・通信サービスに用いることができる。具体的には、視聴者の嗜好を考慮した映像自動編集の実現や、映像広告効果を高めるアレンジメント、最も印象的なインパクトが大きくなるような映像プレイリストの自動生成などのアプリケーションサービスを実現することができる。
本発明は、処理対象の映像を大きな印象的インパクトを与えるように再構成する場合に適用できるものであり、本発明を適用することで、ユーザは処理対象の映像を入力するだけで、その映像を再構成して得られる多くの組み合わせの中から、印象的インパクトが大きくなる再構成映像を自動的に得ることができるようになる。
1 映像再構成装置
100 映像入力手段
101 映像記憶手段
102 フレーム特徴量抽出手段
103 フレーム特徴量記憶手段
104 セグメント分割手段
105 セグメント情報記憶手段
106 ヒストグラム生成手段
107 ヒストグラム記憶手段
108 学習用映像記憶手段
109 学習用ヒストグラム生成手段
110 学習用ヒストグラム記憶手段
111 トピック数設定手段
112 学習用ヒストグラム分類手段
113 特徴量グループ情報記憶手段
114 インパクト度設定手段
115 トピック推定手段
116 映像再構成手段
117 再構成映像出力手段

Claims (9)

  1. 処理対象の映像を再構成する映像再構成方法であって、
    処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量ベクトルを抽出する過程と、
    前記抽出した特徴量ベクトルに基づいて、処理対象の映像を1つ以上のセグメントに分割する過程と、
    前記抽出した特徴量ベクトルをベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成する過程と、
    セグメント毎に、前記生成したヒストグラムに基づいて、複数の特徴量グループへの帰属度合いを示す確率値ベクトルを算出する過程と、
    セグメント毎に、前記算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する過程とを備えることを、
    特徴とする映像再構成方法。
  2. 請求項1に記載の映像再構成方法において、
    前記決定する過程は、
    各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出する過程と、
    セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出する過程と、
    前記セグメント内インパクトと前記セグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定する過程とを備えることを、
    特徴とする映像再構成方法。
  3. 請求項1または2に記載の映像再構成方法において、
    前記分割する過程では、まず、前記抽出した特徴量ベクトルに基づいて、処理対象の映像を仮にセグメントに分割し、続いて、この仮に分割したセグメントについて得られる前記確率値ベクトルに基づいて、この仮に分割したセグメントをまとめることで、処理対象の映像を最終的にセグメントに分割することを、
    特徴とする映像再構成方法。
  4. 請求項1ないし3のいずれか1項に記載の映像再構成方法において、
    前記抽出する過程では、処理対象の映像の持つ画像情報、音情報から、フレーム毎に、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴のうち少なくとも1つを特徴量ベクトルとして抽出することを、
    特徴とする映像再構成方法。
  5. 処理対象の映像を再構成する映像再構成装置であって、
    処理対象の映像の持つ画像情報および/または音情報から、フレーム毎に、特徴量ベクトルを抽出する手段と、
    前記抽出した特徴量ベクトルに基づいて、処理対象の映像を1つ以上のセグメントに分割する手段と、
    前記抽出した特徴量ベクトルをベクトル量子化して有限個の符号に変換したのち、セグメント毎に、その変換した符号の数をカウントしてヒストグラムを生成する手段と、
    セグメント毎に、前記生成したヒストグラムに基づいて、複数の特徴量グループへの帰属度合いを示す確率値ベクトルを算出する手段と、
    セグメント毎に、前記算出した確率値ベクトルに基づいて、視聴者に与える印象的インパクトの推定値を求めて、それに基づいて最適な再構成映像を決定する手段とを備えることを、
    特徴とする映像再構成装置。
  6. 請求項5に記載の映像再構成装置において、
    前記決定する手段は、
    各々のセグメントが視聴者に与える印象的インパクトの推定値をセグメント内インパクトとして算出する手段と、
    セグメント間の遷移によって視聴者に与える印象的インパクトの推定値をセグメント間インパクトとして算出する手段と、
    前記セグメント内インパクトと前記セグメント間インパクトとの加重和を評価関数として、より大きな評価値を示すセグメントに基づいて最適な再構成映像を決定する手段とを備えることを、
    特徴とする映像再構成装置。
  7. 請求項5または6に記載の映像再構成装置において、
    前記分割する手段は、まず、前記抽出した特徴量ベクトルに基づいて、処理対象の映像を仮にセグメントに分割し、続いて、この仮に分割したセグメントについて得られる前記確率値ベクトルに基づいて、この仮に分割したセグメントをまとめることで、処理対象の映像を最終的にセグメントに分割することを、
    特徴とする映像再構成装置。
  8. 請求項5ないし7のいずれか1項に記載の映像再構成装置において、
    前記抽出する手段は、処理対象の映像の持つ画像情報、音情報から、フレーム毎に、明るさ特徴、色特徴、動き特徴、テクスチャ特徴、カット特徴、オブジェクト特徴、画像イベント特徴、音高特徴、音量特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴のうち少なくとも1つを特徴量ベクトルとして抽出することを、
    特徴とする映像再構成装置。
  9. 請求項1ないし4のいずれか1項に記載の映像再構成方法をコンピュータに実行させるための映像再構成プログラム。
JP2009177287A 2009-07-30 2009-07-30 映像再構成方法、映像再構成装置および映像再構成プログラム Active JP5254900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009177287A JP5254900B2 (ja) 2009-07-30 2009-07-30 映像再構成方法、映像再構成装置および映像再構成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009177287A JP5254900B2 (ja) 2009-07-30 2009-07-30 映像再構成方法、映像再構成装置および映像再構成プログラム

Publications (2)

Publication Number Publication Date
JP2011035489A JP2011035489A (ja) 2011-02-17
JP5254900B2 true JP5254900B2 (ja) 2013-08-07

Family

ID=43764157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009177287A Active JP5254900B2 (ja) 2009-07-30 2009-07-30 映像再構成方法、映像再構成装置および映像再構成プログラム

Country Status (1)

Country Link
JP (1) JP5254900B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7209293B2 (ja) 2019-05-17 2023-01-20 三菱重工機械システム株式会社 加速空洞

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3358692B2 (ja) * 1995-08-02 2002-12-24 日本電信電話株式会社 映像ブロック分類方法及び装置
JP4812733B2 (ja) * 2007-11-01 2011-11-09 日本電信電話株式会社 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7209293B2 (ja) 2019-05-17 2023-01-20 三菱重工機械システム株式会社 加速空洞

Also Published As

Publication number Publication date
JP2011035489A (ja) 2011-02-17

Similar Documents

Publication Publication Date Title
Brezeale et al. Automatic video classification: A survey of the literature
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
Snoek et al. Multimedia event-based video indexing using time intervals
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
Essid et al. Smooth nonnegative matrix factorization for unsupervised audiovisual document structuring
US20140245463A1 (en) System and method for accessing multimedia content
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US20110243529A1 (en) Electronic apparatus, content recommendation method, and program therefor
JP2021069117A5 (ja)
JP2009095013A (ja) ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム
WO1999036863A2 (en) System and method for selective retrieval of a video sequence
JP5209593B2 (ja) 映像編集装置,映像編集方法および映像編集プログラム
CN108307250B (zh) 一种生成视频摘要的方法及装置
Wang et al. A multimodal scheme for program segmentation and representation in broadcast video streams
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
US20240005943A1 (en) Methods and systems for augmenting audio content
US7349477B2 (en) Audio-assisted video segmentation and summarization
JPH10187182A (ja) 映像分類方法および装置
JP5600040B2 (ja) 映像要約装置,映像要約方法および映像要約プログラム
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
Acar et al. Fusion of learned multi-modal representations and dense trajectories for emotional analysis in videos
Schindler et al. A music video information retrieval approach to artist identification
JP5129198B2 (ja) 映像予告生成装置、映像予告生成方法および映像予告生成プログラム
Xu et al. Automatic generated recommendation for movie trailers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130418

R150 Certificate of patent or registration of utility model

Ref document number: 5254900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350