JP2014179906A - 映像要約装置、映像要約方法及び映像要約プログラム - Google Patents

映像要約装置、映像要約方法及び映像要約プログラム Download PDF

Info

Publication number
JP2014179906A
JP2014179906A JP2013053910A JP2013053910A JP2014179906A JP 2014179906 A JP2014179906 A JP 2014179906A JP 2013053910 A JP2013053910 A JP 2013053910A JP 2013053910 A JP2013053910 A JP 2013053910A JP 2014179906 A JP2014179906 A JP 2014179906A
Authority
JP
Japan
Prior art keywords
video
modal
similarity
matrix
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013053910A
Other languages
English (en)
Inventor
Shuhei Tarashima
周平 田良島
Taiga Yoshida
大我 吉田
Ken Tsutsuguchi
けん 筒口
Hiroyuki Arai
啓之 新井
Yukinobu Taniguchi
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013053910A priority Critical patent/JP2014179906A/ja
Publication of JP2014179906A publication Critical patent/JP2014179906A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】情報損失の発生を抑制し、質の高い要約映像を得る。
【解決手段】映像のモーダル毎に映像を複数の映像区間に分割する手段と、映像区間のそれぞれについて特徴量を抽出する手段と、特徴量に基づき、映像区間と他の映像区間との類似度を要素とする類似度行列をモーダル毎に構築する手段と、一方のモーダルの映像区間と、他方のモーダルの映像区間との共起関係を用いて、映像区間の関係行列を構築する手段と、類似度行列と、関係行列とを用いて、モーダル間で類似度の伝播処理を行い、モーダルそれぞれの映像区間の類似度が反映された主モーダルにおける類似度行列を生成する手段と、主モーダルの類似度行列を用いて、クラスタリングを行い、複数のクラスタに分類するクラスタリング部とクラスタのそれぞれから代表映像区間を抽出し、得られた代表映像区間を結合することによって要約映像を生成して出力する手段とを備える。
【選択図】図1

Description

本発明は、映像から要約映像を生成する映像要約装置、映像要約方法及び映像要約プログラムに関する。
放送波やインターネットを介して個人がアクセス可能な映像メディアは既に膨大な規模であり、またその規模は増加の一途を辿っている。視聴者はこのような大規模映像から情報を抽出する必要があるが、映像は時間軸を有するメディアであるため、それらを全て視聴するには膨大な労力と時間がかかる。この問題に対し、短時間での映像視聴を可能にする技術として、種々の映像要約技術が発明されてきた。ここで、映像要約技術とは、一つ以上の映像から、有益な情報を含む映像区間を選択する技術と定義する。例えば、特許文献1では、見た目の切り替わりを検出することで映像区間を分割し、見た目と音声の変化が特徴的な映像区間から構成される要約映像を出力する技術が開示されている。また特許文献2では、一定の映像区間から種々の特徴量を抽出し、個々の特徴量の重みを視聴者自身に設定させることで、個々の視聴者が重要と考える特徴量を多く含むよう組み合わされた映像区間から構成される要約映像を出力する技術が開示されている。
このように従来の映像要約技術では、例えば見た目や音声のような映像内で定義される複数モーダルから得られる特徴を組み合わせ、多様な観点をふまえたうえで要約に含むべき映像区間を抽出するといったことが行われる。映像は、見た目や音声、発話内容の意味といった多様なモーダルから構成されるメディアである。映像区間を要約に含めるか否かは、多様なモーダルから得られる情報から総合的に判断されるべきであり、よって様々なモーダルの観点から得られる特徴をふまえること自体は、より質の高い要約映像を出力するうえで必要不可欠である。
特開2010−39877号公報 特開2012−44390号公報
更には、単に複数のモーダルを考慮するのみではなく、各モーダルが定義される映像区間の違いも考慮する必要がある。図6は、いくつかのモーダルの例について情報が定義される映像区間の違いを示す図である。映像では何かしらの視覚的情報が提示され続けるため、見た目のモーダルはあらゆる映像区間が定義することができる。しかし、発話内容や音楽、メタデータのモーダルについては、そのモーダルに関する情報が存在しない映像区間が存在しうる。また、発話や音楽などが継続する映像区間は、一定の見た目が継続する映像区間と必ずしも同期するものではない。このように、各モーダルで定義される映像区間は多様であり、それ自体が情報を有している。質の高い要約映像を出力するためには、単に多様なモーダルを考慮するだけでなく、各モーダルにおいて映像区間がいかに定義されるのか、その情報も考慮されて然るべきである。
ところが、特許文献1、特許文献2に記載の技術をはじめとする従来技術では、設定される映像区間は考慮されるモーダルによらず一定である。設定されている映像区間が考慮される全てのモーダルについて妥当である場合、従来技術で問題はない。しかし実際には、図6に示すように一定の映像区間が全てのモーダルにおいて妥当なものであるとは限らず、そのためモーダルによっては情報が損失されてしまうという問題が発生する。
これについて図7を用いて説明する。図7は、モーダル間で一定の映像区間を定義することが妥当でない例を示す図である。いま、見た目のモーダルから得られる特徴量と、発話のモーダルから得られる意味の特徴を処理する場合について説明する。映像区間は見た目の切り替わりで区切られているが、発話の開始時刻および終了時刻は見た目の切り替わりと同期していない。このとき、映像区間の定義は見た目に基づいて行われるため、図7に示すような、文の途中での不自然な分割が発生することになる。文語、口語問わず、文を途中で分割するということは、その文の意味を破壊する可能性がある。したがって、発話のモーダルの意味から得られる特徴が持つ情報が損失されてしまう。
この例は見た目のモーダルと発話のモーダルのみを取り上げて説明したが、このような問題は一般的なあらゆるモーダルに対して発生しうる。すなわち、従来技術のような共通の映像区間から得られる特徴の組み合わせに基づく要約映像は、モーダル間で情報が定義される映像区間が本来異なることが反映されず、よって情報の損失が発生し、その結果得られる要約映像の質が低いという問題がある。この問題を解決するためには、多様なモーダルが有する情報を、各モーダルが定義される映像区間の情報をふまえつつ反映する方法が必要となる。
本発明は、このような事情に鑑みてなされたもので、情報損失の発生を抑制し、質の高い要約映像を得ることができる映像要約装置、映像要約方法及び映像要約プログラムを提供することを目的とする。
本発明は、映像から要約映像を生成する映像要約装置であって、前記映像のモーダル毎に前記映像を複数の映像区間に分割する映像区間分割部と、前記映像区間のそれぞれについて特徴量を抽出する映像区間特徴抽出部と、前記特徴量に基づき、前記映像区間と他の映像区間との類似度を要素とする類似度行列を前記モーダル毎に構築する類似度行列構築部と、一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間との共起関係を用いて、前記映像区間の関係行列を構築する関係行列構築部と、前記類似度行列と、前記関係行列とを用いて、前記モーダル間で類似度の伝播処理を行い、前記モーダルそれぞれの前記映像区間の類似度が反映された主モーダルにおける類似度行列を生成する類似度伝播処理部と、前記主モーダルの前記類似度行列を用いて、クラスタリングを行い、複数のクラスタに分類するクラスタリング部と、前記クラスタのそれぞれから代表映像区間を抽出し、得られた前記代表映像区間を結合することによって要約映像を生成して出力する要約映像出力部とを備えることを特徴とする。
本発明は、前記類似度行列構築部は、前記モーダルのうち、情報が存在しない映像区間は行列構築に用いないことを特徴とする。
本発明は、前記関係行列構築部は、一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間とにおいて、同一の区間が存在する場合に共起していると定義することを特徴とする。
本発明は、映像から要約映像を生成する映像要約装置が行う映像要約方法であって、前記映像のモーダル毎に前記映像を複数の映像区間に分割する映像区間分割ステップと、前記映像区間のそれぞれについて特徴量を抽出する映像区間特徴抽出ステップと、前記特徴量に基づき、前記映像区間と他の映像区間との類似度を要素とする類似度行列を前記モーダル毎に構築する類似度行列構築ステップと、一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間との共起関係を用いて、前記映像区間の関係行列を構築する関係行列構築ステップと、前記類似度行列と、前記関係行列とを用いて、前記モーダル間で類似度の伝播処理を行い、前記モーダルそれぞれの前記映像区間の類似度が反映された主モーダルにおける類似度行列を生成する類似度伝播処理ステップと、前記主モーダルの前記類似度行列を用いて、クラスタリングを行い、複数のクラスタに分類するクラスタリングステップと、前記クラスタのそれぞれから代表映像区間を抽出し、得られた前記代表映像区間を結合することによって要約映像を生成して出力する要約映像出力ステップとを有することを特徴とする。
本発明は、コンピュータを、前記映像要約装置として機能させるための映像要約プログラムである。
本発明によれば、情報損失の発生を抑制し、質の高い要約映像を得ることができるという効果が得られる。
本発明の一実施形態の構成を示すブロック図である。 図1に示す映像要約装置1の動作を示すフローチャートである。 モーダルが2つの場合の関係行列の構築の動作を示す図である。 モーダルが3つの場合の関係行列の構築の動作を示す図である。 要約映像を生成する全体動作を示す図である。 いくつかのモーダルの例について情報が定義される映像区間の違いを示す図である。 モーダル間で一定の映像区間を定義することが妥当でない例を示す図である。
以下、図面を参照して、本発明の一実施形態による映像要約装置を説明する。以下の説明では、一つ以上の映像から構成されるものを映像群と称する。図1は同実施形態の構成を示すブロック図である。この図において、符号1は、コンピュータ装置で構成する映像要約装置である。符号11は、要約を生成する対象の映像群を入力する映像入力部である。符号12は、映像入力部11によって入力した映像群を記憶する記憶部である。記憶されるデータは、複数存在してもよい。また、映像に付与されているメタデータが存在する場合、それらも合わせて記憶することとする。メタデータについて、例えば、映像のタイトルや概要、映像内での発話内容とその時刻が記録されたクローズドキャプション、映像の視聴された回数や評価といったものがある。
符号13は、記憶部12に記憶された映像群を映像区間群に分割する映像区間分割部である。符号14は、映像区間分割部13において得られた映像区間から、特徴量を抽出する映像区間特徴量抽出部である。符号15は、映像区間特徴抽出部14において得られた各映像区間の特徴の類似性に基づき、映像区間間の類似度を要素とする行列を生成する類似度行列構築部である。符号16は、モーダル間での類似度伝播を行うため、各モーダルで定義された映像区間の共起関係を示す関係行列を構築する関係行列構築部である。符号17は、類似度行列および関係行列を用いて、周辺モーダルの類似度を主モーダルへと伝播する処理を行う類似度伝播処理部である。符号18は、類似度伝播処理部17において得られた周辺モーダルの類似度が伝播された主モーダルの類似度行列に基づきクラスタリング処理を行い、類似要素を一つのクラスタとしてまとめるクラスタリング部である。符号19は、各クラスタから代表映像区間を抽出し、得られた映像区間を結合することによって要約映像を出力する要約映像出力部である。
次に、図2を参照して、図1に示す映像要約装置1の動作を説明する。図2は、図1に示す映像要約装置1の動作を示すフローチャートである。まず、映像入力部11は、要約対象となる映像群を入力し、記憶部12へ記憶する(ステップS1)。
次に、映像区間分割部13は、記憶部12に記憶された各映像を映像区間群に分割する(ステップS2)。ここでの分割は、考慮すべき各モーダル個々で独立して行う。ここで考慮すべきモーダルは、記憶部12に記憶された映像そのもの、もしくは映像に付与されているメタデータから抽出することができるものであれば任意のものを用いることができる。例えば見た目のモーダルや、映像内での発話のモーダル、クローズドキャプションのモーダルを用いることができる。各モーダルにおける映像区間の分割は、そのモーダルで定義される情報要素が無理なく分割可能な点で分割されることが望ましい。
無理なく分割可能な点とは、例えば見た目のモーダルであれば、見た目が不連続切り替わる点で分割すればよい。そのためには、例えば、参考文献1「Y. Tonomura, A. Akutsu, Y. Taniguchi and G. Suzuki: Structured Video Computing, IEEE Multimedia, pp.34-43, 1994.」に開示されている方法を用いればよい。また発話のモーダルで映像区間の分割を行うためには発話区間の検出を行えばよい。そのために、例えば参考文献2「K. Minami, A. Akutsu, H. Hamada and Y. Tonomura: Video Handling with Music and Speech Detection,IEEE Multimedia, vol.5, no.3, pp.17-25, 1998.」に開示されている方法を用いればよい。クローズドキャプションのモーダルを用いる場合、例えば文単位で映像区間を分割すればよく、そのためにはクローズドキャプションの各テキストが発話される開始/終了時刻にもとづいて映像を分割すればよい。
次に、映像区間特徴抽出部14は、映像区間分割部13において考慮する各モーダルについて得られた映像区間から、特徴量を抽出する(ステップS3)。ここで抽出する特徴は、考慮しているモーダルの情報から得られるものとする。映像区間分割部12で挙げた例を用いるならば、見た目のモーダルについては動画像から得られる特徴、発話のモーダルについて音声特徴、クローズドキャプションについてはテキスト特徴を、各モーダルで定義される各映像区間に対して抽出する。
動画像特徴として、例えば、参考文献3「A. Oliva and A. Torralba: Building the Gist of a Scene: The Role of Global Image Features in Recognition、Progress in Brain Research, 155, pp. 23-36, 2006.」で開示される、景観に関する特徴を表したGIST記述子を用いて得られるベクトル特徴量や、一定間隔の画像フレーム間の動きベクトルの大きさおよび角度の頻度を数え上げることで得られる動きヒストグラム特徴量を用いることができる。
また、音声特徴の場合、例えば音声の韻律に関する特徴を表したメル尺度ケプストラム係数(MFCC:Mel-Frequency Cepstral Coefficients)を用いることができる。また、メタデータ特徴の場合、例えば一つの映像区間を文書、映像区間に付与されたメタデータを単語とみなし、各単語に関するTF−IDF値を算出、その値を要素とする文書ベクトルを用いることができる。
次に、類似度行列構築部15は、映像区間特徴抽出部14において得られた各映像区間の特徴の類似性に基づき、映像区間間の類似度を要素とする行列を生成する(ステップS4)。類似度行列構築部15は、各モーダルについて独立に処理する。類似度の算出には任意の尺度を用いることが可能で、例えばコサイン類似度やJaccard係数といった公知の尺度を用いればよい。また、図6に示すように、モーダルによっては情報が存在しない映像区間が発生することも考えられる。その場合、情報が発生しない映像区間については、類似度行列構築の際に考慮しないこととする。
次に、関係行列構築部16は、モーダル間での類似度伝播を行うため、各モーダルで定義された映像区間の共起関係を示す関係行列を構築する(ステップS5)。図3は、モーダルが2つの場合の関係行列の構築動作を示す図である。図3では1つの映像に対し2つのモーダルA、モーダルBが定義され、映像がモーダルAでは2つの映像区間(a、a)、モーダルBでは4つの映像区間(b、b、b、b)に分割されていることを示している。ここで映像区間の共起とは、前述の通り、異なるモーダルの情報が同一の映像内時刻に同時に発生していることを指す。この定義に基づくと、モーダルAの映像区間aには、モーダルBの映像区間b、b、bの3つが共起しており、またaには、モーダルBの映像区間b、bの2つが共起している。この共起関係を行列として表現すると、関係行列Zのようになる(図3参照)。関係行列Zについて、非零要素は対応する2つの映像区間が共起していることを示し、個々の要素の値は、共起する映像区間の数の逆数として表現される。
一般化すると、映像区間aとbの関係を示す関係行列の要素zの値は、(1)式で表される。ここでθは、aと共起するモーダルBの映像区間の数を表す。ここで、実際に共起関係が生じる映像区間の組み合わせの数はモーダル間の全ての映像区間の組み合わせの数に比べ十分に小さいことが多く、よって多くの場合疎行列である。
Figure 2014179906
以上の説明は、考慮されるモーダルが2種類である場合について説明したものであるが、実際には3種類以上のモーダルが考慮されることもある。図4は、モーダルが3つの場合の関係行列の構築の動作を示す図である。図4に示すように、考慮されるモーダルのうち、後述するクラスタリング部18で処理の対象となるモーダルと、それ以外のモーダルとの映像区間間の関係行列を構築する。以降では、クラスタリング部18で処理対象となるモーダルを主モーダル、その他の考慮されるモーダルを周辺モーダルと定義する。図4に示すように、1つの主モーダル(この場合モーダルB)と2つの周辺モーダル(モーダルAとモーダルC)個々の間で、計2つの関係行列が構築されることになる。
いずれのモーダルを主モーダルとするかは任意であるが、どのモーダルを主モーダルとするかによって得られる要約映像は異なる。例えば発話モーダルを主モーダルとした場合、得られる要約映像は何かしらの発話が含まれる区間のみから構成されることになるし、音楽区間を主モーダルとした場合、音楽を含む映像区間から構成される要約映像が出力される。
次に、類似度伝播処理部17は、類似度行列構築部15において得られた類似度行列と、関係行列構築部16において得られた関係行列とを用いて、周辺モーダルの類似度を主モーダルへと伝播する(ステップS6)。以下では説明のため、まず2種類のモーダルが考慮されているときの類似度伝播について説明し、その後に3種類以上のモーダルが考慮される場合の類似度伝播処理について説明する。
まず2種類のモーダルのみが考慮されているとき、類似度伝播処理は、(2)式に基づいて行われる。
Figure 2014179906
ここで、Mは主モーダルの類似度行列、Mは周辺モーダルの類似度行列であり、Z、Zはモーダル間の関係行列およびその転置である。αおよびβはパラメータ、λは減衰係数である。MおよびMに付与されているサフィックスpは繰り返し処理の回数を表している。すなわち(2)式は、繰り返し実行され、MおよびMの類似度行列はその度に更新されていく。(2)式による更新処理で得られた主モーダルもしくは周辺モーダルの類似度行列が収束した時点で繰り返し処理は終了され、最終的に得られたM’が続くクラスタリング処理部18で用いられる。類似度行列の収束は任意の方法で評価することが可能で、例えばp−1段の処理で得られた類似度行列とp段の処理で得られた類似度行列の要素差の絶対値の和が、一定の閾値を下回ったときに終了するといった方法を用いることができる。
ここで、(2)式右辺の意味について説明する。まず右辺第一項は、該当モーダルの類似度行列そのものである。一方、第二項は、他方のモーダルの類似度行列に関係行列を左右から乗算されたものとなっており、これは共起関係によって伝播される他方のモーダルの類似度行列であると言うことができる。(2)式のいずれの式も、上述した2項の重み付け線形和の形となっており、一方から他方への伝播度合いがパラメータα、βによって調節される。直感的に述べるならば、αもしくはβが大きいほど、他方からの類似度伝播の影響は小さくなる。
以上が、2種類のモーダルが考慮されている場合の類似度伝播処理である。3種類以上のモーダルが考慮されている場合の類似度伝播は、基本的には上述した処理の拡張として記述することが可能で、具体的には以下の(3)式のように表される。
Figure 2014179906
(3)式において、Mは主モーダルの類似度行列、Mはi番目の周辺モーダルの類似度行列を表す。ZはMとMの関係行列を表し、Z はその転置を表す。α、α、…αNM、β、γ…はパラメータであり、中でも主モーダルの類似度伝播に用いられるパラメータα、α、αNMは以下の(4)式を満たす。
Figure 2014179906
(3)式においても同様に、サフィックスpに基づいて処理は繰り返し行われ、得られる類似度行列が十分収束した時点で終了となる。結果得られた主モーダルM’が続くクラスタリング処理部18で用いられる。
なお、行列乗算の計算オーダは一般的にデータ数の3乗に比例し、特にデータ数が多い場合そのコストは非常に高い。しかし、前述したように、多くの場合関係行列は疎行列として表現できることを考えると、(2)式および(3)式における行列演算は、疎行列を含む行列演算のみから構成されるため、多くの場合高速に処理することができる。疎行列による行列演算を高速に処理は任意の方法を用いることができるが、中でも最も簡単な方法として、行列内非ゼロ要素のみを考慮して処理を行うという方法を用いることができる。
次に、クラスタリング部18は、類似度伝播処理部17において得られた周辺モーダルの類似度が伝播された主モーダルの類似度行列に基づきクラスタリング処理を行い、類似要素を一つのクラスタとしてまとめる(ステップS7)。クラスタリングには種々の方法を用いることが可能であり、それらは大きく(i)類似度行列から直接クラスタリングを行う方法と、(ii)類似度行列からグラフを生成し、得られたグラフのクラスタリングを行う方法とが適用できる。
(i)類似度行列から直接クラスタリングを行う方法として、例えば凝集型階層クラスタリングや、スペクトラルクラスタリング、参考文献4「B.J. Frey and D. Dueck: Clustering by Passing Messages Between Data Points, Science, 315, pp.972-976, 2007.」に開示されているAffinity Propagationといった公知の方法を用いることができる。
(ii)類似度行列から生成したグラフのクラスタリングを行う方法について、まず類似度行列からグラフを構築する必要がある。このとき構築されるグラフとしては、映像区間をノード、映像区間間の類似度をエッジとするグラフを構築するものとする。グラフ構築方法は任意に方法で行うことが可能で、例えば各ノードの近傍k要素にエッジを張る方法や、各ノードとの類似度がε以上のノードについてエッジを張る方法を用いればよい。ここでkは正の整数、εは正の実数をとるパラメータである。以上の処理で構築されたグラフに基づいて、クラスタリングを行う。グラフのクラスタリング方法としては任意の方法を用いることが可能で、例えば参考文献5「U. Brandes1, D. Delling, M. Gaertler, R. Gorke, M. Hoefer1, Z. Nikoloski and D. Wagner: On Modularity Clustering, IEEE Transaction of Knowledge and Data Engineering, 20, 2 pp.172-188, 2008.」に開示されているmodularityに基づくクラスタリングを用いることができる。
次に、要約映像出力部19は、クラスタリング部18において得られた各クラスタから代表映像区間を抽出し、得られた映像区間を結合することによって要約映像を出力する(ステップS8)。ここで各クラスタの代表映像区間は、クラスタ内で類似要素を最も多く持つものを抽出することとする。これは、類似度伝播処理部で得られた主モーダルの類似度行列を用いて、クラスタ内要素間類似度が最も高い映像区間を代表映像区間として抽出することで実現できる。あるいはクラスタリング部でグラフを構築した場合、各ノードに張られたエッジの数を表す次数を評価基準とし、クラスタ内次数が最も高いノードに対応する映像区間を代表映像区間として抽出するといった方法を用いても良い。
最後に、得られた代表映像区間を結合することで要約映像を出力する。結合順序としては任意の方法を用いることができ、例えば類似した要素を多く持つクラスタほど重要であるという仮説のもと、要素数の多いクラスタ順に代表映像区間を結合する方法や、タイムスタンプなどの時系列情報が映像区間に付与されている場合、それに基づいた順序で映像区間を結合する方法を用いればよい。
次に、図5を参照して、要約映像を生成する全体の動作を説明する。図5は、要約映像を生成する全体動作を示す図である。まず、同一の映像区間を適用することによる情報の損失を防ぐため、映像区間は考慮する各モーダルで自然な分割を行う。図5においては、○印は分割した映像区間であり、見た目で分割した場合は、1〜4の映像区間となり、発話内容で分割した場合は、a〜cの映像区間となる。そして、特徴抽出を行い、映像区間と他の映像区間との類似度を算出する。そして得られた情報を組み合わせるため、異なるモーダルで定義されている映像区間が同時に発生しているという情報を用いる。以降、異なるモーダルで定義された映像区間が同一の区間を共有する場合、それらの映像区間は共起していると定義する。例えば、映像区間aと映像区間1は、その映像区間内に同一の区間を有しているため、映像区間aと映像区間1は、共起しているものとする。そして、モーダル毎にグラフ構築し、この映像区間の共起の情報を介してモーダル内で定義された類似度を他モーダルへ伝播することによって、多モーダルの情報を損失なく反映し、結果質の高い要約映像を出力することができる。
以上説明したように、映像区間の分割、映像区間毎の特徴抽出および類似度行列の構築を各モーダル独立で行うことで、各モーダルの情報を正確に反映させて質の高い要約映像を出力することができる。また、モーダル毎に定義される映像区間の共起性を表現した関係行列を構築し、それを用いてモーダル間で類似度を伝播することで、各モーダルで正確に抽出された情報を、正確に一つのモーダルに統合することが可能となり、質の高い要約映像を出力することが可能となる。
また、モーダル毎に類似度行列を構築する際、各映像区間の特徴と特に類似した特徴を有する映像区間のみとの類似度を非ゼロ要素として有する疎行列として類似度行列を構築することで、類似度伝播処理部における行列演算を疎行列のみから構成することが可能となり、多モーダルを処理しても高速処理を実現することができる。
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより映像要約処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行っても良い。
情報損失の発生を抑制し、質の高い要約映像を得ることが不可欠な用途に適用できる。
1・・・映像要約装置、11・・・映像入力部、12・・・記憶部、13・・・映像区間分割部、14・・・映像区間特徴量抽出部、15・・・類似度行列構築部、16・・・関係行列構築部、17・・・類似度伝播処理部、18・・・クラスタリング部、19・・・要約映像出力部

Claims (5)

  1. 映像から要約映像を生成する映像要約装置であって、
    前記映像のモーダル毎に前記映像を複数の映像区間に分割する映像区間分割部と、
    前記映像区間のそれぞれについて特徴量を抽出する映像区間特徴抽出部と、
    前記特徴量に基づき、前記映像区間と他の映像区間との類似度を要素とする類似度行列を前記モーダル毎に構築する類似度行列構築部と、
    一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間との共起関係を用いて、前記映像区間の関係行列を構築する関係行列構築部と、
    前記類似度行列と、前記関係行列とを用いて、前記モーダル間で類似度の伝播処理を行い、前記モーダルそれぞれの前記映像区間の類似度が反映された主モーダルにおける類似度行列を生成する類似度伝播処理部と、
    前記主モーダルの前記類似度行列を用いて、クラスタリングを行い、複数のクラスタに分類するクラスタリング部と、
    前記クラスタのそれぞれから代表映像区間を抽出し、得られた前記代表映像区間を結合することによって要約映像を生成して出力する要約映像出力部と
    を備えることを特徴とする映像要約装置。
  2. 前記類似度行列構築部は、前記モーダルのうち、情報が存在しない映像区間は行列構築に用いないことを特徴とする請求項1に記載の映像要約装置。
  3. 前記関係行列構築部は、一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間とにおいて、同一の区間が存在する場合に共起していると定義することを特徴とする請求項1または2に記載の映像要約装置。
  4. 映像から要約映像を生成する映像要約装置が行う映像要約方法であって、
    前記映像のモーダル毎に前記映像を複数の映像区間に分割する映像区間分割ステップと、
    前記映像区間のそれぞれについて特徴量を抽出する映像区間特徴抽出ステップと、
    前記特徴量に基づき、前記映像区間と他の映像区間との類似度を要素とする類似度行列を前記モーダル毎に構築する類似度行列構築ステップと、
    一方のモーダルの前記映像区間と、他方のモーダルの前記映像区間との共起関係を用いて、前記映像区間の関係行列を構築する関係行列構築ステップと、
    前記類似度行列と、前記関係行列とを用いて、前記モーダル間で類似度の伝播処理を行い、前記モーダルそれぞれの前記映像区間の類似度が反映された主モーダルにおける類似度行列を生成する類似度伝播処理ステップと、
    前記主モーダルの前記類似度行列を用いて、クラスタリングを行い、複数のクラスタに分類するクラスタリングステップと、
    前記クラスタのそれぞれから代表映像区間を抽出し、得られた前記代表映像区間を結合することによって要約映像を生成して出力する要約映像出力ステップと
    を有することを特徴とする映像要約方法。
  5. コンピュータを、請求項1から3のいずれか1項に記載の映像要約装置として機能させるための映像要約プログラム。
JP2013053910A 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム Pending JP2014179906A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013053910A JP2014179906A (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013053910A JP2014179906A (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Publications (1)

Publication Number Publication Date
JP2014179906A true JP2014179906A (ja) 2014-09-25

Family

ID=51699397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013053910A Pending JP2014179906A (ja) 2013-03-15 2013-03-15 映像要約装置、映像要約方法及び映像要約プログラム

Country Status (1)

Country Link
JP (1) JP2014179906A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874936A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 图像传播监测方法及装置
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874936A (zh) * 2017-01-17 2017-06-20 腾讯科技(上海)有限公司 图像传播监测方法及装置
CN106874936B (zh) * 2017-01-17 2023-07-11 腾讯科技(上海)有限公司 图像传播监测方法及装置
WO2019242278A1 (zh) * 2018-06-20 2019-12-26 北京达佳互联信息技术有限公司 内容描述生成模型的损失值获取方法及装置

Similar Documents

Publication Publication Date Title
Hossain et al. Audio-visual emotion recognition using multi-directional regression and Ridgelet transform
US11210328B2 (en) Apparatus and method for learning narrative of document, and apparatus and method for generating narrative of document
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
CN107203636B (zh) 基于超图主集聚类的多视频摘要获取方法
JP2007507784A (ja) オーディオビジュアルコンテント合成システム及び方法
US9898448B2 (en) Method for text processing
WO2008016102A1 (fr) dispositif de calcul de similarité et dispositif de recherche d'informations
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
EP4295358A1 (en) Lookup-table recurrent language model
Zhu et al. Siamese Recurrent Auto-Encoder Representation for Query-by-Example Spoken Term Detection.
Illa et al. Closed-set speaker conditioned acoustic-to-articulatory inversion using bi-directional long short term memory network
Victor et al. Application of extractive text summarization algorithms to speech-to-text media
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
JP2014179906A (ja) 映像要約装置、映像要約方法及び映像要約プログラム
Tran et al. Multi-modal speech emotion recognition: Improving accuracy through fusion of vggish and bert features with multi-head attention
JP6552353B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP2023071785A (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
Choi et al. Pansori: ASR corpus generation from open online video contents
JP5976037B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム
Hernandez et al. Multimodal corpus analysis of autoblog 2020: lecture videos in machine learning
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
Thakur et al. Audio and text-based emotion recognition system using deep learning