JP5886733B2 - 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム - Google Patents

映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム Download PDF

Info

Publication number
JP5886733B2
JP5886733B2 JP2012266063A JP2012266063A JP5886733B2 JP 5886733 B2 JP5886733 B2 JP 5886733B2 JP 2012266063 A JP2012266063 A JP 2012266063A JP 2012266063 A JP2012266063 A JP 2012266063A JP 5886733 B2 JP5886733 B2 JP 5886733B2
Authority
JP
Japan
Prior art keywords
segment
video
topic
segments
summarization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012266063A
Other languages
English (en)
Other versions
JP2014112280A (ja
Inventor
周平 田良島
周平 田良島
佐藤 隆
隆 佐藤
東野 豪
豪 東野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012266063A priority Critical patent/JP5886733B2/ja
Publication of JP2014112280A publication Critical patent/JP2014112280A/ja
Application granted granted Critical
Publication of JP5886733B2 publication Critical patent/JP5886733B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、映像群を再構成し、再構成後の映像を要約する技術に関する。
映像コンテンツの増加はとどまるところを知らず、日々膨大な量の新しい映像が生成され、放送網やネットワークを介して流通している。映像は時間軸を有するメディアである。
そのため、膨大な映像コンテンツ群の中からその傾向を把握したり、有益な情報含むシーン、そのものが魅力的であるシーンを発見したりすることには、多大な労力と時間を要する。
そこで、膨大な映像コンテンツ群をわかりやすく整理したり、いわゆる「見どころ」のシーンを抽出したりすることにより、映像コンテンツの効果的な視聴を補助するための仕組みが求められている。
ひとえに映像と言っても多種多様な構成が考えられるが、代表的な映像構成の一つとして、複数の話題から構成される映像というものが挙げられる。例えば、テレビで放映されるニュース映像はその一例である。
多くの場合、地上波放送や衛星放送等で放映される一つのニュース番組の中では、政治、経済、国際、芸能、スポーツといった様々なトピックが扱われている。番組内で各トピックが扱われる順番や映像長について、番組放送時点における最新の情報および出来事に強く影響されるため、明確なルールは一般には存在しない。
講義映像も、複数の話題から構成される映像の一例である。例えば、特定の科目に関する講義映像を考えたとき、例えば、数学における「微積分」や「ベクトル」のような分野を話題と捉えれば、講義映像は複数の話題から構成される映像であると言える。
更には、国会や県議会、市議会の様子を収めた議会映像も、複数の話題から構成される映像の例である。例えば、「今年度の予算」や「条例の改定」といった議題を話題と捉えれば、議会映像が複数の話題から構成される映像であることは明らかである。
これらの例に代表される、複数の話題から構成される映像が複数存在するとき、これらの映像群を効率的に視聴する一つの方法として、映像群を、映像群の中で扱われている話題に基づいて再構成し、話題毎の映像又はそのダイジェスト映像を生成するといった方法が考えられる。
これについて、「ある一週間の間に複数の放送局で放送されたニュース映像群」を例に具体的に述べる。いま、一週間のニュース映像群の中で扱われている、政治に関連する話題の映像区間のみが抽出され、視聴可能であるとする。この映像区間群を時系列順に視聴することにより、その一週間における政治の流れを容易に把握することができる。
また、話題毎に再構成された映像の中から、重要な映像区間のみを視聴することにより、政治の流れをより短時間で視聴、把握することが可能となる。更には、例えば、複数の放送局で同時刻又は同日に放送された同一の話題に関する映像を視聴比較するなど、時間やチャンネルの観点などを考慮した視聴方法をとることにより、例えば、同一の話題に対するチャンネル間での意見の差異といったものを容易かつ明確に把握することが可能となる。
このように、映像群を話題毎に再構成し、話題毎の視聴又は要約映像の視聴が可能になることにより、映像群をより効率的に視聴することが可能になると考えられる。
映像群を短時間で効率的に視聴するための要約映像を生成する技術として、特許文献1では、(1)ユーザの要求に対する適合性、(2)意味的な網羅性、(3)見た目の網羅性、(4)視聴しやすさ、(5)時間長を考慮し、映像群から一本の要約映像を生成する技術が開示されている。
また、複数の話題から構成される映像を含む映像群を話題毎に再構成し、更に要約するためには、各映像における話題の切り替わりを検出し、その結果得られた各映像区間がいかなる話題を扱ったものかを割り当てる必要がある。
以降、映像の話題の切り替わりの検出をトピックセグメンテーションとも呼称する。トピックセグメンテーションに関連する技術は、特許文献2や非特許文献1に開示されている。
特開2012−19305号公報 特開2005−167452号公報
別所克人、"クラスター内変動最小アルゴリズムに基づくトピックセグメンテーション"、言語処理学会・自然言語処理研究会、研究報告、自然言語処理154-25、2003年3月7日、p.177-183
しかしながら、特許文献1の技術では、映像の順序的な見やすさは考慮されるものの、各映像区間に含まれる話題の情報は必ずしも反映されない。よって、例えば、「政治トピック→スポーツトピック→政治トピック」というように、同一の話題の間に異なるトピックの映像区間が挿入された要約映像が往々にして生成される可能性があり、必ずしもわかりやすい映像が出力されるとは限らないという問題点がある。
また、特許文献2や非特許文献1の技術は、学習コーパス等の事前知識を必要とする。特に即時性が求められるニュース番組のような映像の場合、番組内で発話又は字幕表示される単語は既存のコーパスには含まれていないものも少なくないため、事前知識はその都度最新のものへと更新する必要があり、その時間的コストは高いという問題点がある。
本発明は、上記事情を鑑みてなされたものであり、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成することを目的とする。
請求項1記載の映像群再構成・要約装置は、時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約装置において、前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って1つ以上のセグメントに分割するセグメント初期化手段と、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新手段と、前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリング手段と、当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出手段と、各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力手段と、を有することを要旨とする。
本発明によれば、時間区間付きテキストデータを時間軸に沿って1つ以上のセグメントに分割し、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返し、繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするため、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成できる。
請求項2記載の映像群再構成・要約装置は、請求項1記載の映像群再構成・要約装置において、前記トピック割り当て・セグメント更新手段は、セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを要旨とする。
請求項3記載の映像群再構成・要約装置は、請求項1又は2記載の映像群再構成・要約装置において、前記セグメント初期化手段は、セグメントあたりの情報量が閾値よりも大きく、1つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを要旨とする。
請求項4記載の映像群再構成・要約装置は、請求項2記載の映像群再構成・要約装置において、前記トピック割り当て・セグメント更新手段は、時間的に前及び/又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを要旨とする。
請求項5記載の映像群再構成・要約方法は、時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約方法において、コンピュータにより、前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って1つ以上のセグメントに分割するセグメント初期化ステップと、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新ステップと、前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリングステップと、当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出ステップと、各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力ステップと、を有することを要旨とする。
本発明によれば、時間区間付きテキストデータを時間軸に沿って1つ以上のセグメントに分割し、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返し、繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするため、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成できる。
請求項6記載の映像群再構成・要約方法は、請求項5記載の映像群再構成・要約方法において、前記トピック割り当て・セグメント更新ステップは、セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを要旨とする。
請求項7記載の映像群再構成・要約方法は、請求項5又は6記載の映像群再構成・要約方法において、前記セグメント初期化ステップは、セグメントあたりの情報量が閾値よりも大きく、1つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを要旨とする。
請求項8記載の映像群再構成・要約方法は、請求項6記載の映像群再構成・要約方法において、前記トピック割り当て・セグメント更新ステップは、時間的に前及び/又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを要旨とする。
請求項9記載の映像群再構成・要約プログラムは、請求項5乃至8のいずれかに記載の映像群再構成・要約方法をコンピュータに実行させることを要旨とする。
本発明によれば、何らの事前知識を用いることなく映像群を話題毎の映像区間群に再構成することができる。
処理全体の概要を説明する図である。 時間区間付きテキストデータの例を示す図である。 映像群再構成・要約装置の機能ブロック構成を示す図である。 キーワード情報管理テーブルの例を示す図である。 句読点を基準としたセグメント初期化の例を示す図である。 情報量を基準としたセグメント初期化の例を示す図である。 映像の切り替わりを基準としたセグメント初期化の例を示す図である。 セグメント情報管理テーブルの例を示す図である。 トピック割り当て・セグメント更新の処理フローを示す図である。 セグメント特徴量の算出例を示す図である。 トピック−単語重要度テーブルの例を示す図である。 セグメント情報更新テーブルの更新例を示す図である。 セグメント群のクラスタリング例を示す図である。 映像視聴インタフェースの例を示す図である。 効果の概要を示す図である。 ニュース映像群に対する適用例を示す図である。 教材映像群(数学の問題演習講義)に対する適用例を示す図である。 議会映像群に対する適用例を示す図である。
本発明は、映像に付与されるテキストデータの部分要素群へのトピック割り当て処理、及びトピックの類似度に基づく隣接要素の結合処理を繰り返すことにより、トピック割り当て及びトピックセグメンテーションの精度を高めていくことを特徴としている。
図1を用いてその処理の概要を説明する。本発明では、まず、各映像に付与された時間区間付きテキストデータ群を適当な部分要素群に分割する。続いて、各要素のテキストデータからキーワードおよび特徴量を抽出した後、この要素群にトピックを割り当てる処理を行う。そして、割り当てられたトピックの類似度に基づいて、隣り合う部分要素の結合を行う。
このトピック割り当て処理及び部分要素結合処理を複数回繰り返すことにより、最終的に得られた各部分要素には、トピックが割り当てられる。また、各トピックについて、各キーワードのトピックに対する重要度が得られる。
そして、トピックに基づいて要素群をクラスタリングすることにより、トピック毎に再構成された映像を得ることが可能となる。また、各キーワードの各トピックに対する重要度を用いて重要な映像区間を決定することにより、トピック毎の要約映像を得ることが可能となる。
上述した時間区間付きテキストデータとは、例えば図2のような、1つの映像ファイルに対応する、開始時間および終了時間を有するテキスト群から構成されるデータを指す。
具体的には、例えば、映像に付与された字幕やクローズドキャプション、音声認識処理の結果得られるテキストデータを用いることができる。なお、入力されたテキストデータと映像とは一対一に対応付けられているものとし、時間区間付きテキストデータを持たない映像や、映像に対応付けされていない時間区間付きテキストデータの存在は仮定しないものとする。
以降、時間区間付きテキストデータの部分要素を、セグメントと呼称する。セグメントは、時間区間付きテキストデータにおいて、いくつかの隣り合う時間区間のテキスト又はその一部から構成される。
具体的には、例えば図2のように、1行目から2行目の下線部を1つのセグメントとして定義したり、5行目のテキスト先頭から句点までをセグメントとして定義したりする。以下、本発明を実施する一実施の形態について説明する。
〔映像群再構成・要約装置1の機能について〕
図3は、本実施の形態に係る映像群再構成・要約装置1の機能ブロック構成を示す図である。映像群再構成・要約装置1は、データ記憶部11と、セグメント初期化部12と、トピック割り当て・セグメント更新部13と、セグメント群クラスタリング部14と、重要映像区間抽出部15と、映像出力部16とで構成される。
データ記憶部11は、入力として与えられ、データベース上で管理された映像群、及びその映像群のそれぞれに対応する時間区間を有するテキストデータ群を記憶する機能を有している。
セグメント初期化部12は、データ記憶部11から時間区間付きテキストデータ群を読み出して、そのテキストデータ群からキーワードを抽出するキーワード抽出処理や、時間軸に沿って1つ以上のセグメントに分割するセグメント初期化処理を行う機能を有している。
トピック割り当て・セグメント更新部13は、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てるトピック割り当て処理と、割り当てられたトピックの類似度に基づいて時間的に隣接するセグメントを結合するセグメント結合処理とを所定の回数繰り返し行う機能を有している。
セグメント群クラスタリング部14は、トピック割り当て・セグメント更新部13での処理により最終的に得られた各セグメントを、その各セグメントに割り当てられたトピック毎にクラスタリングするクラスタリング処理を行う機能を有している。ここで得られた各クラスタが上述したトピックに相当する。
重要映像区間抽出部15は、トピック割り当て・セグメント更新部13の処理により得られた各キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間候補の中から重要な映像区間を要約映像として抽出する処理を行う機能を有している。
映像出力部16は、セグメント群クラスタリング部14の処理により得られた各クラスタに対応する映像区間と、重要映像区間抽出部15の処理により得られた各クラスタの重要映像区間との少なくとも一方に基づいて映像を出力する機能を有している。
以上説明した各機能部11〜16の処理を実行することにより、トピック毎に再構成された映像群や、重要映像区間が抽出されたトピック毎の要約映像群を出力として得ることが可能となる。
なお、各機能部11〜16はメモリやCPUを備えたコンピュータにより実現可能であり、その処理はプログラムによって実行される。
〔セグメント初期化部12の処理について〕
次に、セグメント初期化部12の処理について説明する。セグメント初期化部12では、各映像に対応した時間区間付きテキストデータからキーワードを抽出し、セグメントの初期状態を決定することにより、各セグメントについて、セグメントに関する情報が格納されたセグメント情報管理テーブルを作成する。
(キーワードの抽出について)
まず、時間区間付きテキストデータ群からのキーワード抽出について説明する。ここでは、入力された時間区間付きテキストデータから、キーワードおよびそのデータ全体におけるキーワードの頻度(以下では、データ全体におけるキーワードの頻度を総頻度とも呼称する)を抽出する。
キーワードを抽出する方法としては、テキストデータを形態素解析し、名詞句などの特定の句をキーワードとして抽出してもよい。例えば、漢字が一定数以上連続する文字列など、特定の規則を持つ文字列をキーワードとして抽出するなどしてもよい。
このときストップワードと呼ばれる、どの映像に対しても出現頻度が非常に高くキーワードとして機能しないような語句は、例えば、時間区間付きテキストデータを一つの文書とみなしたときのキーワードのtf−idf値を評価するなどして、あらかじめ除去することが望ましい。
抽出されたキーワードおよびその頻度の情報は、例えば図4に示されるような、キーワードIDがキーワード自体とその総頻度に紐付く形式でデータ記憶部11に格納される。図4は一例であり、これらの要素以外にも、例えば先ほど算出したtf−idf値が要素として含まれていても構わない。
なお、前述した形態素解析の方法としては、例えば、「松本裕治、“形態素解析システム「茶筌」”、情報処理、41巻11号、2000年11月、p.1208-1214」、「“Yet Another Part-of-Speech and Morphological Analyzer”、[onlile]、[平成24年11月15日検索]、<URL: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html>」に記載されているものを用いることができる。
(セグメントの初期化について)
次に、セグメントの初期状態構築処理について説明する。本実施の形態において、セグメント初期化部12の処理により得られた各セグメントは、トピック割り当ての最小単位である。
以降の処理で、トピックの類似度に基づき隣接するセグメントを結合していくことにより、トピックセグメンテーションの精度およびセグメントに対するトピック割り当ての精度を高めていく。
セグメントの初期状態を構築する方法としては様々な方法が考えられるが、その際に考慮すべき観点として、(a)セグメントあたりの情報量を増やす、(b)1つのセグメントが複数のトピックに跨らないよう初期セグメントを構築する、の2つの要素が挙げられる。
後述するトピック割り当て・セグメント更新部13において、各セグメントへのトピック割り当ては、セグメントに含まれるキーワードの頻度、又はそれに関連する情報に基づいて行われる。
一般に、セグメントあたりに含まれる情報量が多いほど、後述するトピック割り当て処理により割り当てられるトピックの妥当性は高いため、セグメントあたりの情報量を閾値よりも大きくするという上記(a)の観点は重要である。
一方で、後述するトピック割り当て・セグメント更新部13におけるセグメント初期化処理において、初期セグメントが複数トピックを含んでいる場合、トピックセグメンテーションの精度が低下するため、上記(b)の観点も重要である。
以上の理由から、上記(a)、(b)の両観点から妥当なセグメント初期化方法を適用する必要がある。具体的には、(1)句読点を基準としたセグメント初期化、(2)セグメントあたりの情報量を基準としたセグメント初期化、(3)映像の切り替わりを基準としたセグメント初期化、の3通りの方法が考えられる。
(1)の方法は、句点又は読点を基準として文章を区切り、初期セグメントを構築する方法である。図5は、句点ごとに文章を区切り、初期セグメントを構成している例を示している。
一般的に、句読点で区切られる文章又は句が複数のトピックを含む可能性は低い。そのため、(1)の方法により得られた初期セグメントが、複数トピックを有する可能性は低く、その点でセグメントの初期化方法として好適である。その一方で、例えば「おはようございます。」といったセグメントなど、情報量が非常に小さい、又は存在しないセグメントが発生する可能性があり、トピック割り当てが困難となるセグメントが発生しうるというデメリットがある。
(2)の方法は、例えば文章の文字数やキーワードの数といった情報量を基準として分割を行う方法である。図6は、文章を一定の長さで文章を区切り、初期セグメントを構成する例を示している。この他にも、キーワードの抽出処理で得られたキーワードの数がセグメント毎に等しくなるように、セグメントを構成するといった方法も考えられる。
この方法により得られる各々の初期セグメントは、(1)の方法のように情報量が小さくトピック割り当てが困難であるようなセグメントは発生しないものの、初期セグメントが複数トピックに跨がる可能性があり、その場合、トピックによる映像区間の分割精度が下がるというデメリットがある。
(3)の方法は、映像や音声の切り替わりによって定義される映像区間に含まれるテキストデータをセグメントとして定義する方法である。図7は、映像が切り替わるごとに文章を区切り、初期セグメントを構成する例を示している。
この方法により得られる各初期セグメントは、(1)の方法に比べて初期セグメントのサイズを大きく設定することができるため、後述するトピック割り当て・セグメント更新部13における繰り返し処理の回数を少なく抑えることができる。
なお、映像や音声の切り替わりは、例えば、特開平8−214210号公報や特開平11−18028号公報に記載されている方法を用いて検出することができる。実際にセグメントの初期化を行う際には、(a)(b)の観点、およびデータの特性を照らし合わせながら、(1)〜(3)の中から適切な方法を選択すればよい。
(セグメント情報管理テーブルの生成について)
以上の処理結果に基づき、セグメント初期化部12は、図8に示すようなセグメント情報管理テーブルを構築する。セグメント情報管理テーブルには、セグメントが属する映像のID、セグメントの開始時間および終了時間、セグメントのテキスト、セグメントに含まれるキーワードとその頻度が格納される。
図8は一例であり、他にも映像のチャンネルに関する情報が与えられていた場合、チャンネルIDの要素をテーブルに追加するなどしてもよい。映像の放送日時(以下、タイムスタンプと呼ぶ)が付与されている場合、そのデータをテーブルに追加してもよい。
以降、各セグメントにおけるキーワードの頻度を、セグメント内頻度とも呼称する。セグメント情報管理テーブルに格納されるキーワードの情報は、キーワード情報管理テーブルで管理されているキーワードIDであり、キーワードそのものや総頻度と紐付けられていることが望ましい。セグメント内頻度は、各セグメントのテキスト中に、キーワードが何回出現したかを数え上げることで得られる。
なお、各セグメントの開始時間および終了時間を設定する方法については、様々なものが考えられる。最も単純な方法として、セグメントに含まれる文章の一部分を含む時間区間のうち、最も早い開始時間と、最も遅い終了時間とをセグメントの開始時間および終了時間として定義するといったものがある。
〔トピック割り当て・セグメント更新部13の処理について〕
続いて、トピック割り当て・セグメント更新部13の処理について説明する。トピック割り当て・セグメント更新部13では、各セグメントへのトピック割り当ておよびトピック類似度に基づく隣接セグメントの結合処理を所定の回数繰り返すことにより、トピックセグメンテーションおよびトピック割り当ての精度を向上する。
具体的には、図9に示すように、ステップS101のセグメント特徴量算出処理と、ステップS102のトピック割り当て処理と、ステップS103のセグメント結合処理とを、ステップS104のセグメント更新終了判定条件を満たすまで繰り返す。
この繰り返し処理によって、セグメント初期化部12により生成されたセグメント情報管理テーブルが更新され、最終的に得られたテーブルの情報を用いて、続くセグメント群クラスタリング部14の処理が行われる。
(ステップS101:セグメント特徴量の算出処理について)
まず、セグメント特徴量算出部では、キーワード情報管理テーブルおよびセグメント情報管理テーブルをもとに、セグメント毎にその特徴量を算出する。
特徴量としては、セグメントに含まれるキーワードの頻度に基づくヒストグラムを抽出する。ここで抽出するヒストグラムは、例えばキーワードのセグメント内頻度をそのまま用いてもよいし、セグメントを一つの文書とみなし、各キーワードについてtf−idfのような公知の技術を用いて得られたスコアを用いてもよい。
ここで、各セグメントの特徴量を算出するにあたっては、セグメントそのものの情報量と、セグメント間の距離を考慮したうえで、周辺セグメントが持つ情報も考慮し特徴量を算出する。
図10は、周辺セグメントも考慮に入れたセグメント特徴量算出の一例である。この例において、n番目のセグメント(「西日本と東日本の都市部では、昨夜からけさに」)における特徴量は、このセグメントの前後2セグメントが持つ情報も考慮した上で算出する。
周辺セグメントの情報は、n番目のセグメントに隣り合うセグメントについては0.6倍、n番目のセグメントの2つ隣りのセグメントについては0.2倍の重み付けがなされたうえで考慮され、その結果、同図の右側に示されるような値がn番目のセグメントのヒストグラム特徴量として得られる。
セグメント初期化部12において用いる方法によっては、情報量が非常に小さくトピック割り当てが困難なセグメントが発生する可能性がある。そのような場合、周辺セグメントの情報も考慮したうえで特徴量を算出することは、仮想的にセグメントの情報量を増やすことができるという点で有効である。
一方で、セグメントそのものが十分な情報量を有している場合、周辺トピックの情報を考慮することは、かえってセグメントの特徴量の質を低下させてしまう可能性もある。そのため、考慮の対象とするセグメントの数は、セグメントそのものの情報量が多いほど少なく設定されることが望ましい。
セグメントそのものの情報量と、セグメント間の距離を考慮したうえで周辺セグメントの情報を考慮する方法については様々な方法が考えられる。例えば、特徴量算出の際に考慮する周辺セグメントの最大値を2N、n番目のセグメントに含まれるキーワードの総数をNとしたとき、σ=N/(N+1)と定義して、以下の式(1)および式(2)より計算されるWを、セグメントBに含まれる情報にかかる重みとするといった方法が考えられる。なお、|B−B|は、n番目のセグメントBとi番目のBとが離れているセグメント数を示す。
Figure 0005886733
(ステップS102:トピック割り当て処理について)
続いて、トピック割り当て部では、セグメント特徴量算出部により得られた各セグメントの特徴量に基づき、各セグメントにトピックの割り当てを行う。
前述したセグメント特徴量算出部では、各セグメントについて特徴量がヒストグラムとして与えられる。ヒストグラムは、ある符号cが何回生起したかを表す情報であるため、多項分布に従うとしてモデル化することができる。
多項分布に従う変数から、その背後にあるトピックを推定するためのトピックモデルとしては、いくつか公知のものが存在する。代表的なものに、「T. Hoffmann、“Probabilistic Latent Semantic Indexing”、SIGIR'99、1999年、p.50-57」や「D.M. Blei、外2名、“Latent Dirichlet Allocation”、Journal of Machine Learning Research 3、2003年、p.993-1022」に記載されたpLSA(Probabilistic Latent Semantic Analysis)やLDA(Latent Dirichlet Allocation)などがある。
トピックモデルでは、「ある文書に含まれる各単語は、文書固有のトピック比率θに従ってあるトピックを選択した後、そのトピックに固有の単語出現確率分布Φに従って生成される」と仮定する。
いま、セグメントBをトピックモデルにおける文書とみなすと、トピックモデルは、セグメントBと、その背後にあるトピックziの同時確率p(B,z)として表現される。
同時確率p(B,z)は、一般には厳密に計算することができないため、必要に応じて、Gibbs Samplingや変分ベイズ近似などの近似手法を利用して求める。これらの近似手法から直接的に求められるのは、文書固有のトピック比率θおよびトピック固有の単語出現確率分布Φである。
文書固有のトピック比率θは、あらかじめ設定したトピックの数Nと同じ次元を持つ確率値のベクトルである。以降、この確率値のベクトルをトピックベクトルと呼ぶ。各セグメントBについてθbiを計算することが、セグメントへのトピック割り当てに相当する。
一方、トピック固有の単語出現確率分布Φは、全セグメントに含まれる全単語数Nと同じ次元を持つ確率値のヒストグラムであり、N個のヒストグラムが生成される。単語出現確率分布Φの各要素の値は、トピックzにおける単語wの出現確率であり、これは、トピックz内での単語wの重要度を表していると解釈できる。
単語出現確率分布Φの結果を用いて、図11のような、トピックIDおよびキーワードIDをキーとするトピック−単語重要度テーブルを構築する。トピック−単語重要度テーブルの構築について、全てのトピックとキーワードの組み合わせに対する重要度を格納したテーブルを構築してもよい。その要素数は、(トピックの数)×(キーワードの数)となる。その他、ある一定値以上の重要度をもつ要素のみを格納したり、各トピックについて上位数件のみを格納したりしてもよい。後述する重要映像区間抽出部15では、このトピック−単語重要度テーブルを用いることにより、重要映像区間の抽出を行う。
(ステップS103:セグメント結合処理について)
続いて、セグメント結合部では、トピック割り当て部により得られた各セグメントのトピックベクトルに基づく、隣接セグメントの類似度を評価することによって、セグメントの結合を行う。
トピック割り当て処理で述べたように、各セグメントに割り当てられるトピックベクトルは、N次元の確率ベクトルである。トピックベクトルに基づくセグメント間類似度を算出する方法として、例えば、トピックベクトル間の内積を計算したり、相互相関を計算したりするなどすればよい。
この計算によって得られた類似度に対し、閾値を設定することで隣接セグメントを結合するか否かを決定する。閾値は、例えば、あらかじめ一定の値を決めておいたり、トピック類似度の平均値から閾値を動的に設定したりするなど、様々な方法を用いることができる。
隣り合う2つのセグメントが結合すると判定された場合、セグメント情報管理テーブルが更新される。図12は、セグメント情報更新テーブルの更新の例を示している。2つのセグメントどちらにも出現するキーワードが存在した場合、そのセグメント内頻度は合算され、一つの要素としてテーブルに格納される。
(ステップS104:セグメント更新終了判定について)
最後に、セグメント更新終了判定部では、トピック割り当て・セグメント更新部13の処理終了判定を行う。終了判定を行う方法は様々なものが考えられる。
例えば。あらかじめトピック割り当て・セグメント更新部13の繰り返し回数が一定数を超えた時点で終了と判定してもよい。新たに結合されたセグメントの数を判定条件として用いて、結合されるセグメントの数が一定数以下となった時点で終了と判定してもよい。
〔セグメント群クラスタリング部14の処理について〕
続いて、セグメント群クラスタリング部14の処理について説明する。セグメント群クラスタリング部14では、トピック割り当て・セグメント更新部13の処理の結果、得られた各セグメントのトピックを用いて、セグメントをまとめる処理を行う。
前述した通り、トピックは確率値のベクトルであるため、図13に示すように、例えばL2ノルムなどの適当な距離尺度を用いたクラスタリング処理を適用することによって、セグメントをクラスタにまとめることができる。
クラスタリングの方法としては、k-meansや、「M.M. Yeung、外1名、“Time-Constrained Clustering for Segmentation of Video into Story Unites”、International Conference on Pattern Recognition、vol.3、1996年、p.375-380」に記載されたTime-Constrained Clusteringといった公知の方法を用いることができる。
セグメント群クラスタリング処理によって各セグメントに割り当てられたクラスタは、セグメント情報管理テーブルの要素に追加するなどしてデータ記憶部11に格納すればよい。
〔重要映像区間抽出部15の処理について〕
続いて、重要映像区間抽出部15の処理について説明する。重要映像区間抽出部15では、トピック割り当て・セグメント更新部13の処理により得られた単語重要度を用いて、映像区間候補の中から、重要な区間の抽出を行う。
映像区間候補の与え方は様々考えられるが、各候補は、トピック割り当て・セグメント更新部13の処理により最終的に得られたセグメントの部分要素として定義されるものとする。
映像区間候補の与え方として、例えば、入力された時間区間付きテキストの全要素を重要映像区間と定義したり、セグメント初期化部12の処理により得られた初期セグメントを重要映像区間の候補としたりする方法が考えられる。
これら映像区間候補の中から、重要な区間を抽出する方法としては、例えば、以下の式(3)に基づいて各トピックについて各候補のスコアScoreを算出し、スコアScoreの高い候補を重要映像区間とするといった方法が考えられる。
Figure 0005886733
ここで、Score(B )は初期セグメントB のスコアを表す。NbjwiはセグメントB に含まれるキーワードwの頻度、Φzk,wiはトピックzにおけるキーワードwの重要度、θBj,zkはセグメントB に割り当てられた確率ベクトルのうちトピックzに対応する要素の値を表す。
式(3)は、各初期セグメントに関するスコアを与える式であるが、セグメントB に対応する部分を適宜変更することで、異なる区間が定義された場合にも定義可能である。
〔映像出力部16の処理について〕
最後に、映像出力部16の処理について説明する。映像出力部16では、セグメント群クラスタリング部14の処理により得られた各クラスタの映像区間および重要映像区間抽出部15の処理により得られた各クラスタの重要映像区間の少なくとも一方を用いて、映像を出力する。
映像出力の方法は様々なものが考えられる。最も単純な方法の一つとして、クラスタ毎に再構成された各映像区間群を、各映像のタイムスタンプ順で出力するといった方法が考えられる。他にも、入力された映像群にチャンネルの情報が付与されている場合、チャンネルごとに映像区間をソートしたり、チャンネルごとにビデオプレイヤーを設置し、それらを同時に出力するなどしてもよい。
セグメント群クラスタリング部14の処理により得られた各クラスタおよび重要映像区間抽出部15の処理により得られた各クラスタの重要映像区間を併用する方法として、図14に示すような映像視聴インタフェースを用意してもよい。
図14において、映像再生部17の下には、映像群に含まれる各映像に対応するバーが表示されている。バーの長さは、各映像の映像長に比例しており、ドット部は、本実施の形態により得られたあるクラスタに含まれる映像区間を表している。その中における重要映像区間が、バー内の斜線部で表示されている。
バーの任意の場所に対しクリック等の操作を行うことによって、該当シーンへのシークが行われる。図14のようなインタフェースによって、映像群の全体像を把握しつつ、任意のクラスタに含まれるシーンの映像視聴が可能となる。
なお、ここで示したものはあくまでも映像出力方法の例であり、本発明の技術が適用可能な範囲において、いかなる映像出力形態をとっても構わない。
以上より、本実施の形態によれば、時間区間付きテキストデータを時間軸に沿って1つ以上のセグメントに分割し、各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理とトピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返し、繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするので、図15〜図18に示すように、何らの事前知識を用いることなく映像群を自動的に話題毎の映像区間群に再構成できる。再構成された映像は話題毎にまとめられたものであるため、視聴者はこれを視聴することにより、容易に話題の内容を把握することができる。
また、本実施の形態によれば、上記繰り返された後のトピックに対するキーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出するため、話題毎の要約映像を出力することができる。この要約映像を視聴することにより、視聴者はより短時間で話題の内容を把握することができる。
1…映像群再構成・要約装置
11…データ記憶装置
12…セグメント初期化部
13…トピック割り当て・セグメント更新部
14…セグメント群クラスタリング部
15…重要映像区間抽出部
16…映像出力部
17…映像再生部
S101〜S104…ステップ

Claims (9)

  1. 時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約装置において、
    前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って1つ以上のセグメントに分割するセグメント初期化手段と、
    各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新手段と、
    前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリング手段と、
    当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出手段と、
    各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力手段と、
    を有することを特徴とする映像群再構成・要約装置。
  2. 前記トピック割り当て・セグメント更新手段は、
    セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを特徴とする請求項1記載の映像群再構成・要約装置。
  3. 前記セグメント初期化手段は、
    セグメントあたりの情報量が閾値よりも大きく、1つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを特徴とする請求項1又は2記載の映像群再構成・要約装置。
  4. 前記トピック割り当て・セグメント更新手段は、
    時間的に前及び/又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを特徴とする請求項2記載の映像群再構成・要約装置。
  5. 時間区間付きテキストデータが付与されている映像から構成される映像群を再構成し、映像を要約する映像群再構成・要約方法において、
    コンピュータにより、
    前記時間区間付きテキストデータをデータ記憶手段から読み出して、時間軸に沿って1つ以上のセグメントに分割するセグメント初期化ステップと、
    各セグメント内のキーワードに応じたトピックを各セグメントにそれぞれ割り当てる処理と、前記トピックの類似度に基づいて時間的に隣接するセグメントを結合する処理とを繰り返すトピック割り当て・セグメント更新ステップと、
    前記繰り返された後の各セグメントを当該セグメントに割り当てられたトピック毎にクラスタリングするセグメント群クラスタリングステップと、
    当該トピックに対する前記キーワードの重要度に基づいて、クラスタリングされたトピック内のセグメントに対応する映像区間から重要映像区間を抽出する重要映像区間抽出ステップと、
    各クラスタの前記映像区間と各クラスタの前記重要映像区間との少なくとも一方に基づいて映像を出力する映像出力ステップと、
    を有することを特徴とする映像群再構成・要約方法。
  6. 前記トピック割り当て・セグメント更新ステップは、
    セグメントに含まれるキーワードの使用頻度に基づいて当該セグメントの特徴量を算出するセグメント特徴量算出処理と、前記特徴量に基づくトピックベクトルを当該セグメントに割り当てるトピック割り当て処理と、前記トピックベクトルを用いて計算されたセグメント間の類似度が閾値以上の場合に前記隣接するセグメントを結合するセグメント結合処理とを、所定の終了条件を満たすまで繰り返すことを特徴とする請求項5記載の映像群再構成・要約方法。
  7. 前記セグメント初期化ステップは、
    セグメントあたりの情報量が閾値よりも大きく、1つのセグメントが複数のトピックに跨らないように前記時間区間付きテキストデータを分割することを特徴とする請求項5又は6記載の映像群再構成・要約方法。
  8. 前記トピック割り当て・セグメント更新ステップは、
    時間的に前及び/又は後のセグメントの特徴量を更に用いて前記セグメント特徴量算出処理を実行することを特徴とする請求項6記載の映像群再構成・要約方法。
  9. 請求項5乃至8のいずれかに記載の映像群再構成・要約方法をコンピュータに実行させることを特徴とする映像群再構成・要約プログラム。
JP2012266063A 2012-12-05 2012-12-05 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム Expired - Fee Related JP5886733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012266063A JP5886733B2 (ja) 2012-12-05 2012-12-05 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012266063A JP5886733B2 (ja) 2012-12-05 2012-12-05 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム

Publications (2)

Publication Number Publication Date
JP2014112280A JP2014112280A (ja) 2014-06-19
JP5886733B2 true JP5886733B2 (ja) 2016-03-16

Family

ID=51169387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012266063A Expired - Fee Related JP5886733B2 (ja) 2012-12-05 2012-12-05 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム

Country Status (1)

Country Link
JP (1) JP5886733B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6290046B2 (ja) * 2014-09-03 2018-03-07 株式会社東芝 映像装置および映像装置の制御方法
US10140880B2 (en) * 2015-07-10 2018-11-27 Fujitsu Limited Ranking of segments of learning materials
US10929707B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10949463B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10708635B2 (en) * 2017-03-02 2020-07-07 Ricoh Company, Ltd. Subsumption architecture for processing fragments of a video stream
US10956494B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Behavioral measurements in a video stream focalized on keywords
US10956773B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Computation of audience metrics focalized on displayed content
US10949705B2 (en) 2017-03-02 2021-03-16 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10943122B2 (en) 2017-03-02 2021-03-09 Ricoh Company, Ltd. Focalized behavioral measurements in a video stream
US10929685B2 (en) 2017-03-02 2021-02-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
US10720182B2 (en) 2017-03-02 2020-07-21 Ricoh Company, Ltd. Decomposition of a video stream into salient fragments
US10719552B2 (en) 2017-03-02 2020-07-21 Ricoh Co., Ltd. Focalized summarizations of a video stream
US10713391B2 (en) 2017-03-02 2020-07-14 Ricoh Co., Ltd. Tamper protection and video source identification for video processing pipeline
US10956495B2 (en) 2017-03-02 2021-03-23 Ricoh Company, Ltd. Analysis of operator behavior focalized on machine events
JP6917210B2 (ja) * 2017-06-20 2021-08-11 日本放送協会 要約映像生成装置およびそのプログラム
CN109379633B (zh) * 2018-11-08 2020-01-10 北京微播视界科技有限公司 视频编辑方法、装置、计算机设备及可读存储介质
CN111798879B (zh) * 2019-04-08 2022-05-03 百度(美国)有限责任公司 用于生成视频的方法和装置
CN111866610B (zh) * 2019-04-08 2022-09-30 百度时代网络技术(北京)有限公司 用于生成信息的方法和装置
JP2021033366A (ja) * 2019-08-15 2021-03-01 ヤフー株式会社 提供装置、提供方法および提供プログラム
WO2022003983A1 (ja) * 2020-07-03 2022-01-06 日本電気株式会社 時系列データ処理方法、時系列データ処理装置、時系列データ処理システム、記録媒体
CN111783709B (zh) * 2020-07-09 2022-09-06 中国科学技术大学 针对教育视频的信息预测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5250381B2 (ja) * 2008-10-21 2013-07-31 Kddi株式会社 索引ビデオ生成装置、動画像検索装置及び動画像検索システム

Also Published As

Publication number Publication date
JP2014112280A (ja) 2014-06-19

Similar Documents

Publication Publication Date Title
JP5886733B2 (ja) 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム
CN108009293B (zh) 视频标签生成方法、装置、计算机设备和存储介质
US11197036B2 (en) Multimedia stream analysis and retrieval
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
US11210328B2 (en) Apparatus and method for learning narrative of document, and apparatus and method for generating narrative of document
CN105069102A (zh) 信息推送方法和装置
CN103052953A (zh) 信息处理设备、信息处理方法和程序
Tapaswi et al. Aligning plot synopses to videos for story-based retrieval
CN105005610B (zh) 一种专辑分类方法和装置
CN108108353B (zh) 一种基于弹幕的视频语义标注方法、装置及电子设备
Zhou et al. A survey on trends of cross-media topic evolution map
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
US20090216739A1 (en) Boosting extraction accuracy by handling training data bias
Pan et al. Video clip recommendation model by sentiment analysis of time-sync comments
Di Massa et al. Implicit news recommendation based on user interest models and multimodal content analysis
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
Wartena Comparing segmentation strategies for efficient video passage retrieval
Camelin et al. Frnewslink: a corpus linking tv broadcast news segments and press articles
CN115130453A (zh) 互动信息生成方法和装置
Kim et al. TrendsSummary: a platform for retrieving and summarizing trendy multimedia contents
Rakib et al. Fast clustering of short text streams using efficient cluster indexing and dynamic similarity thresholds
KR101643979B1 (ko) 비디오 컨텐츠 증강 방법
Phan et al. Tweet Integration by Finding the Shortest Paths on a Word Graph
Luo et al. Multimedia news exploration and retrieval by integrating keywords, relations and visual features
CN112732867B (zh) 文件的处理方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160212

R150 Certificate of patent or registration of utility model

Ref document number: 5886733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees