JP5886733B2

JP5886733B2 - 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム

Info

Publication number: JP5886733B2
Application number: JP2012266063A
Authority: JP
Inventors: 周平田良島; 佐藤　隆; 隆佐藤; 東野　豪; 豪東野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2016-03-16
Anticipated expiration: 2032-12-05
Also published as: JP2014112280A

Description

本発明は、映像群を再構成し、再構成後の映像を要約する技術に関する。

映像コンテンツの増加はとどまるところを知らず、日々膨大な量の新しい映像が生成され、放送網やネットワークを介して流通している。映像は時間軸を有するメディアである。

そのため、膨大な映像コンテンツ群の中からその傾向を把握したり、有益な情報含むシーン、そのものが魅力的であるシーンを発見したりすることには、多大な労力と時間を要する。

そこで、膨大な映像コンテンツ群をわかりやすく整理したり、いわゆる「見どころ」のシーンを抽出したりすることにより、映像コンテンツの効果的な視聴を補助するための仕組みが求められている。

ひとえに映像と言っても多種多様な構成が考えられるが、代表的な映像構成の一つとして、複数の話題から構成される映像というものが挙げられる。例えば、テレビで放映されるニュース映像はその一例である。

多くの場合、地上波放送や衛星放送等で放映される一つのニュース番組の中では、政治、経済、国際、芸能、スポーツといった様々なトピックが扱われている。番組内で各トピックが扱われる順番や映像長について、番組放送時点における最新の情報および出来事に強く影響されるため、明確なルールは一般には存在しない。

講義映像も、複数の話題から構成される映像の一例である。例えば、特定の科目に関する講義映像を考えたとき、例えば、数学における「微積分」や「ベクトル」のような分野を話題と捉えれば、講義映像は複数の話題から構成される映像であると言える。

更には、国会や県議会、市議会の様子を収めた議会映像も、複数の話題から構成される映像の例である。例えば、「今年度の予算」や「条例の改定」といった議題を話題と捉えれば、議会映像が複数の話題から構成される映像であることは明らかである。

これらの例に代表される、複数の話題から構成される映像が複数存在するとき、これらの映像群を効率的に視聴する一つの方法として、映像群を、映像群の中で扱われている話題に基づいて再構成し、話題毎の映像又はそのダイジェスト映像を生成するといった方法が考えられる。

これについて、「ある一週間の間に複数の放送局で放送されたニュース映像群」を例に具体的に述べる。いま、一週間のニュース映像群の中で扱われている、政治に関連する話題の映像区間のみが抽出され、視聴可能であるとする。この映像区間群を時系列順に視聴することにより、その一週間における政治の流れを容易に把握することができる。

また、話題毎に再構成された映像の中から、重要な映像区間のみを視聴することにより、政治の流れをより短時間で視聴、把握することが可能となる。更には、例えば、複数の放送局で同時刻又は同日に放送された同一の話題に関する映像を視聴比較するなど、時間やチャンネルの観点などを考慮した視聴方法をとることにより、例えば、同一の話題に対するチャンネル間での意見の差異といったものを容易かつ明確に把握することが可能となる。

このように、映像群を話題毎に再構成し、話題毎の視聴又は要約映像の視聴が可能になることにより、映像群をより効率的に視聴することが可能になると考えられる。

映像群を短時間で効率的に視聴するための要約映像を生成する技術として、特許文献１では、（１）ユーザの要求に対する適合性、（２）意味的な網羅性、（３）見た目の網羅性、（４）視聴しやすさ、（５）時間長を考慮し、映像群から一本の要約映像を生成する技術が開示されている。

また、複数の話題から構成される映像を含む映像群を話題毎に再構成し、更に要約するためには、各映像における話題の切り替わりを検出し、その結果得られた各映像区間がいかなる話題を扱ったものかを割り当てる必要がある。

以降、映像の話題の切り替わりの検出をトピックセグメンテーションとも呼称する。トピックセグメンテーションに関連する技術は、特許文献２や非特許文献１に開示されている。

特開２０１２−１９３０５号公報特開２００５−１６７４５２号公報

別所克人、"クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション"、言語処理学会・自然言語処理研究会、研究報告、自然言語処理154-25、2003年3月7日、p.177-183

しかしながら、特許文献１の技術では、映像の順序的な見やすさは考慮されるものの、各映像区間に含まれる話題の情報は必ずしも反映されない。よって、例えば、「政治トピック→スポーツトピック→政治トピック」というように、同一の話題の間に異なるトピックの映像区間が挿入された要約映像が往々にして生成される可能性があり、必ずしもわかりやすい映像が出力されるとは限らないという問題点がある。

また、特許文献２や非特許文献１の技術は、学習コーパス等の事前知識を必要とする。特に即時性が求められるニュース番組のような映像の場合、番組内で発話又は字幕表示される単語は既存のコーパスには含まれていないものも少なくないため、事前知識はその都度最新のものへと更新する必要があり、その時間的コストは高いという問題点がある。

本発明は、上記事情を鑑みてなされたものであり、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成することを目的とする。

請求項１記載の映像群再構成・要約装置は、時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約装置において、前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って１つ以上のセグメントに分割するセグメント初期化手段と、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新手段と、前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリング手段と、当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出手段と、各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力手段と、を有することを要旨とする。

本発明によれば、時間区間付きテキストデータを時間軸に沿って１つ以上のセグメントに分割し、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返し、繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするため、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成できる。

請求項２記載の映像群再構成・要約装置は、請求項１記載の映像群再構成・要約装置において、前記トピック割り当て・セグメント更新手段は、セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを要旨とする。

請求項３記載の映像群再構成・要約装置は、請求項１又は２記載の映像群再構成・要約装置において、前記セグメント初期化手段は、セグメントあたりの情報量が閾値よりも大きく、１つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを要旨とする。

請求項４記載の映像群再構成・要約装置は、請求項２記載の映像群再構成・要約装置において、前記トピック割り当て・セグメント更新手段は、時間的に前及び／又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを要旨とする。

請求項５記載の映像群再構成・要約方法は、時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約方法において、コンピュータにより、前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って１つ以上のセグメントに分割するセグメント初期化ステップと、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新ステップと、前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリングステップと、当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出ステップと、各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力ステップと、を有することを要旨とする。

請求項６記載の映像群再構成・要約方法は、請求項５記載の映像群再構成・要約方法において、前記トピック割り当て・セグメント更新ステップは、セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを要旨とする。

請求項７記載の映像群再構成・要約方法は、請求項５又は６記載の映像群再構成・要約方法において、前記セグメント初期化ステップは、セグメントあたりの情報量が閾値よりも大きく、１つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを要旨とする。

請求項８記載の映像群再構成・要約方法は、請求項６記載の映像群再構成・要約方法において、前記トピック割り当て・セグメント更新ステップは、時間的に前及び／又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを要旨とする。

請求項９記載の映像群再構成・要約プログラムは、請求項５乃至８のいずれかに記載の映像群再構成・要約方法をコンピュータに実行させることを要旨とする。

本発明によれば、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成することができる。

処理全体の概要を説明する図である。時間区間付きテキストデータの例を示す図である。映像群再構成・要約装置の機能ブロック構成を示す図である。キーワード情報管理テーブルの例を示す図である。句読点を基準としたセグメント初期化の例を示す図である。情報量を基準としたセグメント初期化の例を示す図である。映像の切り替わりを基準としたセグメント初期化の例を示す図である。セグメント情報管理テーブルの例を示す図である。トピック割り当て・セグメント更新の処理フローを示す図である。セグメント特徴量の算出例を示す図である。トピック−単語重要度テーブルの例を示す図である。セグメント情報更新テーブルの更新例を示す図である。セグメント群のクラスタリング例を示す図である。映像視聴インタフェースの例を示す図である。効果の概要を示す図である。ニュース映像群に対する適用例を示す図である。教材映像群（数学の問題演習講義）に対する適用例を示す図である。議会映像群に対する適用例を示す図である。

本発明は、映像に付与されるテキストデータの部分要素群へのトピック割り当て処理、及びトピックの類似度に基づく隣接要素の結合処理を繰り返すことにより、トピック割り当て及びトピックセグメンテーションの精度を高めていくことを特徴としている。

図１を用いてその処理の概要を説明する。本発明では、まず、各映像に付与された時間区間付きテキストデータ群を適当な部分要素群に分割する。続いて、各要素のテキストデータからキーワードおよび特徴量を抽出した後、この要素群にトピックを割り当てる処理を行う。そして、割り当てられたトピックの類似度に基づいて、隣り合う部分要素の結合を行う。

このトピック割り当て処理及び部分要素結合処理を複数回繰り返すことにより、最終的に得られた各部分要素には、トピックが割り当てられる。また、各トピックについて、各キーワードのトピックに対する重要度が得られる。

そして、トピックに基づいて要素群をクラスタリングすることにより、トピック毎に再構成された映像を得ることが可能となる。また、各キーワードの各トピックに対する重要度を用いて重要な映像区間を決定することにより、トピック毎の要約映像を得ることが可能となる。

上述した時間区間付きテキストデータとは、例えば図２のような、１つの映像ファイルに対応する、開始時間および終了時間を有するテキスト群から構成されるデータを指す。

具体的には、例えば、映像に付与された字幕やクローズドキャプション、音声認識処理の結果得られるテキストデータを用いることができる。なお、入力されたテキストデータと映像とは一対一に対応付けられているものとし、時間区間付きテキストデータを持たない映像や、映像に対応付けされていない時間区間付きテキストデータの存在は仮定しないものとする。

以降、時間区間付きテキストデータの部分要素を、セグメントと呼称する。セグメントは、時間区間付きテキストデータにおいて、いくつかの隣り合う時間区間のテキスト又はその一部から構成される。

具体的には、例えば図２のように、１行目から２行目の下線部を１つのセグメントとして定義したり、５行目のテキスト先頭から句点までをセグメントとして定義したりする。以下、本発明を実施する一実施の形態について説明する。

〔映像群再構成・要約装置１の機能について〕
図３は、本実施の形態に係る映像群再構成・要約装置１の機能ブロック構成を示す図である。映像群再構成・要約装置１は、データ記憶部１１と、セグメント初期化部１２と、トピック割り当て・セグメント更新部１３と、セグメント群クラスタリング部１４と、重要映像区間抽出部１５と、映像出力部１６とで構成される。

データ記憶部１１は、入力として与えられ、データベース上で管理された映像群、及びその映像群のそれぞれに対応する時間区間を有するテキストデータ群を記憶する機能を有している。

セグメント初期化部１２は、データ記憶部１１から時間区間付きテキストデータ群を読み出して、そのテキストデータ群からキーワードを抽出するキーワード抽出処理や、時間軸に沿って１つ以上のセグメントに分割するセグメント初期化処理を行う機能を有している。

トピック割り当て・セグメント更新部１３は、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てるトピック割り当て処理と、割り当てられたトピックの類似度に基づいて時間的に隣接するセグメントを結合するセグメント結合処理とを所定の回数繰り返し行う機能を有している。

セグメント群クラスタリング部１４は、トピック割り当て・セグメント更新部１３での処理により最終的に得られた各セグメントを、その各セグメントに割り当てられたトピック毎にクラスタリングするクラスタリング処理を行う機能を有している。ここで得られた各クラスタが上述したトピックに相当する。

重要映像区間抽出部１５は、トピック割り当て・セグメント更新部１３の処理により得られた各キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間候補の中から重要な映像区間を要約映像として抽出する処理を行う機能を有している。

映像出力部１６は、セグメント群クラスタリング部１４の処理により得られた各クラスタに対応する映像区間と、重要映像区間抽出部１５の処理により得られた各クラスタの重要映像区間との少なくとも一方に基づいて映像を出力する機能を有している。

以上説明した各機能部１１〜１６の処理を実行することにより、トピック毎に再構成された映像群や、重要映像区間が抽出されたトピック毎の要約映像群を出力として得ることが可能となる。

なお、各機能部１１〜１６はメモリやＣＰＵを備えたコンピュータにより実現可能であり、その処理はプログラムによって実行される。

〔セグメント初期化部１２の処理について〕
次に、セグメント初期化部１２の処理について説明する。セグメント初期化部１２では、各映像に対応した時間区間付きテキストデータからキーワードを抽出し、セグメントの初期状態を決定することにより、各セグメントについて、セグメントに関する情報が格納されたセグメント情報管理テーブルを作成する。

（キーワードの抽出について）
まず、時間区間付きテキストデータ群からのキーワード抽出について説明する。ここでは、入力された時間区間付きテキストデータから、キーワードおよびそのデータ全体におけるキーワードの頻度（以下では、データ全体におけるキーワードの頻度を総頻度とも呼称する）を抽出する。

キーワードを抽出する方法としては、テキストデータを形態素解析し、名詞句などの特定の句をキーワードとして抽出してもよい。例えば、漢字が一定数以上連続する文字列など、特定の規則を持つ文字列をキーワードとして抽出するなどしてもよい。

このときストップワードと呼ばれる、どの映像に対しても出現頻度が非常に高くキーワードとして機能しないような語句は、例えば、時間区間付きテキストデータを一つの文書とみなしたときのキーワードのｔｆ−ｉｄｆ値を評価するなどして、あらかじめ除去することが望ましい。

抽出されたキーワードおよびその頻度の情報は、例えば図４に示されるような、キーワードＩＤがキーワード自体とその総頻度に紐付く形式でデータ記憶部１１に格納される。図４は一例であり、これらの要素以外にも、例えば先ほど算出したｔｆ−ｉｄｆ値が要素として含まれていても構わない。

なお、前述した形態素解析の方法としては、例えば、「松本裕治、“形態素解析システム「茶筌」”、情報処理、41巻11号、2000年11月、p.1208-1214」、「“Yet Another Part-of-Speech and Morphological Analyzer”、[onlile]、[平成24年11月15日検索]、＜URL: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html＞」に記載されているものを用いることができる。

（セグメントの初期化について）
次に、セグメントの初期状態構築処理について説明する。本実施の形態において、セグメント初期化部１２の処理により得られた各セグメントは、トピック割り当ての最小単位である。

以降の処理で、トピックの類似度に基づき隣接するセグメントを結合していくことにより、トピックセグメンテーションの精度およびセグメントに対するトピック割り当ての精度を高めていく。

セグメントの初期状態を構築する方法としては様々な方法が考えられるが、その際に考慮すべき観点として、（ａ）セグメントあたりの情報量を増やす、（ｂ）１つのセグメントが複数のトピックに跨らないよう初期セグメントを構築する、の２つの要素が挙げられる。

後述するトピック割り当て・セグメント更新部１３において、各セグメントへのトピック割り当ては、セグメントに含まれるキーワードの頻度、又はそれに関連する情報に基づいて行われる。

一般に、セグメントあたりに含まれる情報量が多いほど、後述するトピック割り当て処理により割り当てられるトピックの妥当性は高いため、セグメントあたりの情報量を閾値よりも大きくするという上記（ａ）の観点は重要である。

一方で、後述するトピック割り当て・セグメント更新部１３におけるセグメント初期化処理において、初期セグメントが複数トピックを含んでいる場合、トピックセグメンテーションの精度が低下するため、上記（ｂ）の観点も重要である。

以上の理由から、上記（ａ）、（ｂ）の両観点から妥当なセグメント初期化方法を適用する必要がある。具体的には、（１）句読点を基準としたセグメント初期化、（２）セグメントあたりの情報量を基準としたセグメント初期化、（３）映像の切り替わりを基準としたセグメント初期化、の３通りの方法が考えられる。

（１）の方法は、句点又は読点を基準として文章を区切り、初期セグメントを構築する方法である。図５は、句点ごとに文章を区切り、初期セグメントを構成している例を示している。

一般的に、句読点で区切られる文章又は句が複数のトピックを含む可能性は低い。そのため、（１）の方法により得られた初期セグメントが、複数トピックを有する可能性は低く、その点でセグメントの初期化方法として好適である。その一方で、例えば「おはようございます。」といったセグメントなど、情報量が非常に小さい、又は存在しないセグメントが発生する可能性があり、トピック割り当てが困難となるセグメントが発生しうるというデメリットがある。

（２）の方法は、例えば文章の文字数やキーワードの数といった情報量を基準として分割を行う方法である。図６は、文章を一定の長さで文章を区切り、初期セグメントを構成する例を示している。この他にも、キーワードの抽出処理で得られたキーワードの数がセグメント毎に等しくなるように、セグメントを構成するといった方法も考えられる。

この方法により得られる各々の初期セグメントは、（１）の方法のように情報量が小さくトピック割り当てが困難であるようなセグメントは発生しないものの、初期セグメントが複数トピックに跨がる可能性があり、その場合、トピックによる映像区間の分割精度が下がるというデメリットがある。

（３）の方法は、映像や音声の切り替わりによって定義される映像区間に含まれるテキストデータをセグメントとして定義する方法である。図７は、映像が切り替わるごとに文章を区切り、初期セグメントを構成する例を示している。

この方法により得られる各初期セグメントは、（１）の方法に比べて初期セグメントのサイズを大きく設定することができるため、後述するトピック割り当て・セグメント更新部１３における繰り返し処理の回数を少なく抑えることができる。

なお、映像や音声の切り替わりは、例えば、特開平８−２１４２１０号公報や特開平１１−１８０２８号公報に記載されている方法を用いて検出することができる。実際にセグメントの初期化を行う際には、（ａ）（ｂ）の観点、およびデータの特性を照らし合わせながら、（１）〜（３）の中から適切な方法を選択すればよい。

（セグメント情報管理テーブルの生成について）
以上の処理結果に基づき、セグメント初期化部１２は、図８に示すようなセグメント情報管理テーブルを構築する。セグメント情報管理テーブルには、セグメントが属する映像のＩＤ、セグメントの開始時間および終了時間、セグメントのテキスト、セグメントに含まれるキーワードとその頻度が格納される。

図８は一例であり、他にも映像のチャンネルに関する情報が与えられていた場合、チャンネルＩＤの要素をテーブルに追加するなどしてもよい。映像の放送日時（以下、タイムスタンプと呼ぶ）が付与されている場合、そのデータをテーブルに追加してもよい。

以降、各セグメントにおけるキーワードの頻度を、セグメント内頻度とも呼称する。セグメント情報管理テーブルに格納されるキーワードの情報は、キーワード情報管理テーブルで管理されているキーワードＩＤであり、キーワードそのものや総頻度と紐付けられていることが望ましい。セグメント内頻度は、各セグメントのテキスト中に、キーワードが何回出現したかを数え上げることで得られる。

なお、各セグメントの開始時間および終了時間を設定する方法については、様々なものが考えられる。最も単純な方法として、セグメントに含まれる文章の一部分を含む時間区間のうち、最も早い開始時間と、最も遅い終了時間とをセグメントの開始時間および終了時間として定義するといったものがある。

〔トピック割り当て・セグメント更新部１３の処理について〕
続いて、トピック割り当て・セグメント更新部１３の処理について説明する。トピック割り当て・セグメント更新部１３では、各セグメントへのトピック割り当ておよびトピック類似度に基づく隣接セグメントの結合処理を所定の回数繰り返すことにより、トピックセグメンテーションおよびトピック割り当ての精度を向上する。

具体的には、図９に示すように、ステップＳ１０１のセグメント特徴量算出処理と、ステップＳ１０２のトピック割り当て処理と、ステップＳ１０３のセグメント結合処理とを、ステップＳ１０４のセグメント更新終了判定条件を満たすまで繰り返す。

この繰り返し処理によって、セグメント初期化部１２により生成されたセグメント情報管理テーブルが更新され、最終的に得られたテーブルの情報を用いて、続くセグメント群クラスタリング部１４の処理が行われる。

（ステップＳ１０１：セグメント特徴量の算出処理について）
まず、セグメント特徴量算出部では、キーワード情報管理テーブルおよびセグメント情報管理テーブルをもとに、セグメント毎にその特徴量を算出する。

特徴量としては、セグメントに含まれるキーワードの頻度に基づくヒストグラムを抽出する。ここで抽出するヒストグラムは、例えばキーワードのセグメント内頻度をそのまま用いてもよいし、セグメントを一つの文書とみなし、各キーワードについてｔｆ−ｉｄｆのような公知の技術を用いて得られたスコアを用いてもよい。

ここで、各セグメントの特徴量を算出するにあたっては、セグメントそのものの情報量と、セグメント間の距離を考慮したうえで、周辺セグメントが持つ情報も考慮し特徴量を算出する。

図１０は、周辺セグメントも考慮に入れたセグメント特徴量算出の一例である。この例において、ｎ番目のセグメント（「西日本と東日本の都市部では、昨夜からけさに」）における特徴量は、このセグメントの前後２セグメントが持つ情報も考慮した上で算出する。

周辺セグメントの情報は、ｎ番目のセグメントに隣り合うセグメントについては０．６倍、ｎ番目のセグメントの２つ隣りのセグメントについては０．２倍の重み付けがなされたうえで考慮され、その結果、同図の右側に示されるような値がｎ番目のセグメントのヒストグラム特徴量として得られる。

セグメント初期化部１２において用いる方法によっては、情報量が非常に小さくトピック割り当てが困難なセグメントが発生する可能性がある。そのような場合、周辺セグメントの情報も考慮したうえで特徴量を算出することは、仮想的にセグメントの情報量を増やすことができるという点で有効である。

一方で、セグメントそのものが十分な情報量を有している場合、周辺トピックの情報を考慮することは、かえってセグメントの特徴量の質を低下させてしまう可能性もある。そのため、考慮の対象とするセグメントの数は、セグメントそのものの情報量が多いほど少なく設定されることが望ましい。

セグメントそのものの情報量と、セグメント間の距離を考慮したうえで周辺セグメントの情報を考慮する方法については様々な方法が考えられる。例えば、特徴量算出の際に考慮する周辺セグメントの最大値を２Ｎ_ｂ、ｎ番目のセグメントに含まれるキーワードの総数をＮ_ｗとしたとき、σ＝Ｎ_ｂ／（Ｎ_ｗ＋１）と定義して、以下の式（１）および式（２）より計算されるＷを、セグメントＢ_ｉに含まれる情報にかかる重みとするといった方法が考えられる。なお、｜Ｂ_ｎ−Ｂ_ｉ｜は、ｎ番目のセグメントＢ_ｎとｉ番目のＢ_ｉとが離れているセグメント数を示す。

（ステップＳ１０２：トピック割り当て処理について）
続いて、トピック割り当て部では、セグメント特徴量算出部により得られた各セグメントの特徴量に基づき、各セグメントにトピックの割り当てを行う。

前述したセグメント特徴量算出部では、各セグメントについて特徴量がヒストグラムとして与えられる。ヒストグラムは、ある符号ｃが何回生起したかを表す情報であるため、多項分布に従うとしてモデル化することができる。

多項分布に従う変数から、その背後にあるトピックを推定するためのトピックモデルとしては、いくつか公知のものが存在する。代表的なものに、「T. Hoffmann、“Probabilistic Latent Semantic Indexing”、SIGIR'99、1999年、p.50-57」や「D.M. Blei、外２名、“Latent Dirichlet Allocation”、Journal of Machine Learning Research 3、2003年、p.993-1022」に記載されたｐＬＳＡ（Probabilistic Latent Semantic Analysis）やＬＤＡ（Latent Dirichlet Allocation）などがある。

トピックモデルでは、「ある文書に含まれる各単語は、文書固有のトピック比率θ_Ｂに従ってあるトピックを選択した後、そのトピックに固有の単語出現確率分布Φ_ｚに従って生成される」と仮定する。

いま、セグメントＢ_ｉをトピックモデルにおける文書とみなすと、トピックモデルは、セグメントＢ_ｉと、その背後にあるトピックｚｉの同時確率ｐ（Ｂ_ｉ，ｚ）として表現される。

同時確率ｐ（Ｂ_ｉ，ｚ）は、一般には厳密に計算することができないため、必要に応じて、Gibbs Samplingや変分ベイズ近似などの近似手法を利用して求める。これらの近似手法から直接的に求められるのは、文書固有のトピック比率θ_ｂおよびトピック固有の単語出現確率分布Φ_ｚである。

文書固有のトピック比率θ_ｂは、あらかじめ設定したトピックの数Ｎ_Ｚと同じ次元を持つ確率値のベクトルである。以降、この確率値のベクトルをトピックベクトルと呼ぶ。各セグメントＢ_ｉについてθ_ｂｉを計算することが、セグメントへのトピック割り当てに相当する。

一方、トピック固有の単語出現確率分布Φ_ｚは、全セグメントに含まれる全単語数Ｎ_ｗと同じ次元を持つ確率値のヒストグラムであり、Ｎ_Ｚ個のヒストグラムが生成される。単語出現確率分布Φ_ｚの各要素の値は、トピックｚにおける単語ｗの出現確率であり、これは、トピックｚ内での単語ｗの重要度を表していると解釈できる。

単語出現確率分布Φ_ｚの結果を用いて、図１１のような、トピックＩＤおよびキーワードＩＤをキーとするトピック−単語重要度テーブルを構築する。トピック−単語重要度テーブルの構築について、全てのトピックとキーワードの組み合わせに対する重要度を格納したテーブルを構築してもよい。その要素数は、（トピックの数）×（キーワードの数）となる。その他、ある一定値以上の重要度をもつ要素のみを格納したり、各トピックについて上位数件のみを格納したりしてもよい。後述する重要映像区間抽出部１５では、このトピック−単語重要度テーブルを用いることにより、重要映像区間の抽出を行う。

（ステップＳ１０３：セグメント結合処理について）
続いて、セグメント結合部では、トピック割り当て部により得られた各セグメントのトピックベクトルに基づく、隣接セグメントの類似度を評価することによって、セグメントの結合を行う。

トピック割り当て処理で述べたように、各セグメントに割り当てられるトピックベクトルは、Ｎ_Ｚ次元の確率ベクトルである。トピックベクトルに基づくセグメント間類似度を算出する方法として、例えば、トピックベクトル間の内積を計算したり、相互相関を計算したりするなどすればよい。

この計算によって得られた類似度に対し、閾値を設定することで隣接セグメントを結合するか否かを決定する。閾値は、例えば、あらかじめ一定の値を決めておいたり、トピック類似度の平均値から閾値を動的に設定したりするなど、様々な方法を用いることができる。

隣り合う２つのセグメントが結合すると判定された場合、セグメント情報管理テーブルが更新される。図１２は、セグメント情報更新テーブルの更新の例を示している。２つのセグメントどちらにも出現するキーワードが存在した場合、そのセグメント内頻度は合算され、一つの要素としてテーブルに格納される。

（ステップＳ１０４：セグメント更新終了判定について）
最後に、セグメント更新終了判定部では、トピック割り当て・セグメント更新部１３の処理終了判定を行う。終了判定を行う方法は様々なものが考えられる。

例えば。あらかじめトピック割り当て・セグメント更新部１３の繰り返し回数が一定数を超えた時点で終了と判定してもよい。新たに結合されたセグメントの数を判定条件として用いて、結合されるセグメントの数が一定数以下となった時点で終了と判定してもよい。

〔セグメント群クラスタリング部１４の処理について〕
続いて、セグメント群クラスタリング部１４の処理について説明する。セグメント群クラスタリング部１４では、トピック割り当て・セグメント更新部１３の処理の結果、得られた各セグメントのトピックを用いて、セグメントをまとめる処理を行う。

前述した通り、トピックは確率値のベクトルであるため、図１３に示すように、例えばＬ２ノルムなどの適当な距離尺度を用いたクラスタリング処理を適用することによって、セグメントをクラスタにまとめることができる。

クラスタリングの方法としては、k-meansや、「M.M. Yeung、外１名、“Time-Constrained Clustering for Segmentation of Video into Story Unites”、International Conference on Pattern Recognition、vol.3、1996年、p.375-380」に記載されたTime-Constrained Clusteringといった公知の方法を用いることができる。

セグメント群クラスタリング処理によって各セグメントに割り当てられたクラスタは、セグメント情報管理テーブルの要素に追加するなどしてデータ記憶部１１に格納すればよい。

〔重要映像区間抽出部１５の処理について〕
続いて、重要映像区間抽出部１５の処理について説明する。重要映像区間抽出部１５では、トピック割り当て・セグメント更新部１３の処理により得られた単語重要度を用いて、映像区間候補の中から、重要な区間の抽出を行う。

映像区間候補の与え方は様々考えられるが、各候補は、トピック割り当て・セグメント更新部１３の処理により最終的に得られたセグメントの部分要素として定義されるものとする。

映像区間候補の与え方として、例えば、入力された時間区間付きテキストの全要素を重要映像区間と定義したり、セグメント初期化部１２の処理により得られた初期セグメントを重要映像区間の候補としたりする方法が考えられる。

これら映像区間候補の中から、重要な区間を抽出する方法としては、例えば、以下の式（３）に基づいて各トピックについて各候補のスコアＳｃｏｒｅを算出し、スコアＳｃｏｒｅの高い候補を重要映像区間とするといった方法が考えられる。

ここで、Ｓｃｏｒｅ（Ｂ^０ _ｊ）は初期セグメントＢ^０ _ｊのスコアを表す。Ｎ_ｂｊｗｉはセグメントＢ^０ _ｊに含まれるキーワードｗ_ｉの頻度、Φ_{ｚｋ,ｗｉ}はトピックｚ_ｋにおけるキーワードｗ_ｉの重要度、θ_{Ｂｊ，ｚｋ}はセグメントＢ^０ _ｊに割り当てられた確率ベクトルのうちトピックｚ_ｋに対応する要素の値を表す。

式（３）は、各初期セグメントに関するスコアを与える式であるが、セグメントＢ^０ _ｊに対応する部分を適宜変更することで、異なる区間が定義された場合にも定義可能である。

〔映像出力部１６の処理について〕
最後に、映像出力部１６の処理について説明する。映像出力部１６では、セグメント群クラスタリング部１４の処理により得られた各クラスタの映像区間および重要映像区間抽出部１５の処理により得られた各クラスタの重要映像区間の少なくとも一方を用いて、映像を出力する。

映像出力の方法は様々なものが考えられる。最も単純な方法の一つとして、クラスタ毎に再構成された各映像区間群を、各映像のタイムスタンプ順で出力するといった方法が考えられる。他にも、入力された映像群にチャンネルの情報が付与されている場合、チャンネルごとに映像区間をソートしたり、チャンネルごとにビデオプレイヤーを設置し、それらを同時に出力するなどしてもよい。

セグメント群クラスタリング部１４の処理により得られた各クラスタおよび重要映像区間抽出部１５の処理により得られた各クラスタの重要映像区間を併用する方法として、図１４に示すような映像視聴インタフェースを用意してもよい。

図１４において、映像再生部１７の下には、映像群に含まれる各映像に対応するバーが表示されている。バーの長さは、各映像の映像長に比例しており、ドット部は、本実施の形態により得られたあるクラスタに含まれる映像区間を表している。その中における重要映像区間が、バー内の斜線部で表示されている。

バーの任意の場所に対しクリック等の操作を行うことによって、該当シーンへのシークが行われる。図１４のようなインタフェースによって、映像群の全体像を把握しつつ、任意のクラスタに含まれるシーンの映像視聴が可能となる。

なお、ここで示したものはあくまでも映像出力方法の例であり、本発明の技術が適用可能な範囲において、いかなる映像出力形態をとっても構わない。

以上より、本実施の形態によれば、時間区間付きテキストデータを時間軸に沿って１つ以上のセグメントに分割し、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理とトピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返し、繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするので、図１５〜図１８に示すように、何らの事前知識を用いることなく映像群を自動的に話題毎の映像区間群に再構成できる。再構成された映像は話題毎にまとめられたものであるため、視聴者はこれを視聴することにより、容易に話題の内容を把握することができる。

また、本実施の形態によれば、上記繰り返された後のトピックに対するキーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出するため、話題毎の要約映像を出力することができる。この要約映像を視聴することにより、視聴者はより短時間で話題の内容を把握することができる。

１…映像群再構成・要約装置
１１…データ記憶装置
１２…セグメント初期化部
１３…トピック割り当て・セグメント更新部
１４…セグメント群クラスタリング部
１５…重要映像区間抽出部
１６…映像出力部
１７…映像再生部
Ｓ１０１〜Ｓ１０４…ステップ

Claims

時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約装置において、
前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って１つ以上のセグメントに分割するセグメント初期化手段と、
各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新手段と、
前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリング手段と、
当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出手段と、
各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力手段と、
を有することを特徴とする映像群再構成・要約装置。
前記トピック割り当て・セグメント更新手段は、
セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを特徴とする請求項１記載の映像群再構成・要約装置。
前記セグメント初期化手段は、
セグメントあたりの情報量が閾値よりも大きく、１つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを特徴とする請求項１又は２記載の映像群再構成・要約装置。
前記トピック割り当て・セグメント更新手段は、
時間的に前及び／又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを特徴とする請求項２記載の映像群再構成・要約装置。
時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約方法において、
コンピュータにより、
前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って１つ以上のセグメントに分割するセグメント初期化ステップと、
各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新ステップと、
前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリングステップと、
当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出ステップと、
各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力ステップと、
を有することを特徴とする映像群再構成・要約方法。
前記トピック割り当て・セグメント更新ステップは、
セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを特徴とする請求項５記載の映像群再構成・要約方法。
前記セグメント初期化ステップは、
セグメントあたりの情報量が閾値よりも大きく、１つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを特徴とする請求項５又は６記載の映像群再構成・要約方法。
前記トピック割り当て・セグメント更新ステップは、
時間的に前及び／又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを特徴とする請求項６記載の映像群再構成・要約方法。
請求項５乃至８のいずれかに記載の映像群再構成・要約方法をコンピュータに実行させることを特徴とする映像群再構成・要約プログラム。