JP4109185B2

JP4109185B2 - 映像シーン区間情報抽出方法，映像シーン区間情報抽出装置，映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体

Info

Publication number: JP4109185B2
Application number: JP2003401171A
Authority: JP
Inventors: 秀豪桑野; 義博松尾; 雄彦川添
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-12-01
Filing date: 2003-12-01
Publication date: 2008-07-02
Anticipated expiration: 2023-12-01
Also published as: JP2005167452A

Description

本発明は，映像中から抽出したテキスト情報等の映像特徴量と映像の台本に含まれるテキスト情報との対応付け処理を利用して，映像から意味的なシーン区間の情報を抽出する技術に関するものである。

映像中から抽出したテキスト情報等の特徴量と映像の台本データ中の情報との対応付け処理を利用して，映像を複数の意味的なシーン区間に分割する技術に関する技術としては，下記の非特許文献１または非特許文献２で提案されている方法がある。これを従来技術１とする。

また，映像中の音声データを認識して得られるテキストデータだけを対象に意味的なシーン区間に分割する技術として，非特許文献３で提案される方法がある。これを従来技術２とする。

従来技術１は，ドラマ映像を対象としたものであり，ドラマ映像中の音声区間長の情報，音声認識結果のテキスト情報，およびカット点の情報を抽出し，これらと台本中のセリフ等のテキストの文字数から音声区間の時間長を推定したものと，テキストそのものとを対応付け，台本中の意味的シーン区間の情報をもとに映像を意味的なシーン区間に分割する方法である。テキスト同士の対応付けにはテキストをベクトル表現し，ベクトル間の距離を計算し，これをテキスト同士の類似度としている。この類似度についてＤＰマッチングを適用することで，映像と台本の情報が時間的には完全に同期しなくとも最適な対応パターンを取得できるところに特徴がある。

従来技術２は，映像中の字幕，音声認識結果のテキスト情報を時系列データとして扱い，時系列に対して，一定幅の窓を設け，窓内のテキストデータに対して分割点を設けた場合の結束度を算出し，結束度が極値をとる時点を意味的なシーンの区切りに相当する時間として決定するものである。主に字幕や音声が多く含まれているニュース映像を意味的なシーン区間に分割する際に効果を発揮するものである。

なお，本発明を実施に関係する技術として，下記の非特許文献４に，二つのテキストの距離値を定義するベクトル空間法が記載されている。これは，テキスト中に含まれる単語辞書中の個々の単語の出現状況をベクトルで表現し，これらベクトルのベクトル空間における距離を内積を用いて計算する方法である。
"映像と関連テキストのマッチングによるドラマ映像記述システム"，電子情報通信学会・パターン認識メディア理解研究会技術報告，２００２年３月 "音声認識を用いたドラマのシナリオヘの時刻情報付与"，言語処理学会・第５回年次大会，１９９９年３月別所克人著"クラスター内変動最小化アルゴリズムに基づくトピックセグメンテーション"，言語処理学会・自然言語処理研究会，研究報告，１５４−２５，pp.177-183，２００３年３月岩波講座ソフトウェア科学１５"自然言語処理"

しかしながら，前記の従来技術１，２とも映像中の意味的なシーン区間の抽出精度の点で下記のような問題点がある。

従来技術１の方法は，映像から抽出した個々の音声情報，カット情報と台本中の個々のセリフが１対１に完全一致することを前提とした方法である。しかし，この方法では，映像中の音声，字幕をテキスト化したものと台本中のテキストとが完全一致しない場合には，そもそも音声認識の結果が正しくても良好な対応付け結果は得られず，最終的に映像から抽出される意味的なシーン区間は誤った情報になってしまう。

誤った結果になる具体的な映像ジャンルとしては，例えばニュース映像等があり，ニュース映像の台本として番組進行表のようなニュース項目のタイトル相当の情報がメモ書き程度に書かれているものと，映像中の音声，字幕を認識した結果のテキスト情報とでは，互いに完全一致せずに前記のように誤った対応付けが生じる可能性が高くなる。

例えば，台本中の１つのテキスト情報として，「あす選挙，各候補者の状況」といったニュースタイトル相当の情報が記されているのに対して，映像中の個々の字幕，音声の中には「総選挙の投票日あす」とか「各候補者の表情をお伝えします」というように，台本中のテキスト「あす選挙，各候補者の状況」と同一の表現が含まれていなければ，これと完全一致する映像中の情報は存在しないことから正確な対応付けをとることは困難である。

また，仮に映像中の音声，字幕のテキストと台本中のテキストとが完全一致する映像から抽出する個々の音声情報，カット情報に誤りが含まれると，これらの情報と台本中のテキストとの対応付けの処理も影響を受け，対応付けの精度も悪くなってしまう場合がある。

一方，従来技術２の方法は，そもそも台本データは参照せず，映像データから得られる字幕や音声の認識結果のテキストだけを使って，意味的なシーン区間を抽出するものである。このため，認識の処理に誤りがあったり，テキスト時系列に適用する窓枠の設け方やテキストの結束度といった処理パラメータが多い処理であることから，パラメータを最適に設定できなかった場合には，誤った意味的なシーン区間を抽出することがある。

従来技術１，２によると上記のような問題点があるため，この問題を解決する必要がある。本発明は，以上の点を考慮してなされたもので，映像から得られる個々の字幕，音声のテキストと台本に含まれる個々のテキスト情報が完全一致しなかったり，映像中の字幕，音声認識処理の結果に誤りがあったりしても，ロバストに映像と台本とを対応付け，従来技術よりも高精度に映像中の意味的なシーン区間を抽出することを目的とする。

前記課題を解決するために，本発明の映像シーン区間情報抽出方法は，映像についての台本データを読み込み，前記台本データから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻，および前記区間に含まれる台本データ中のテキストデータを取得する台本テキスト区間取得段階と，前記映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて，前記映像区間中の字幕情報，音声情報を時系列のテキストデータとして取得し，得られたテキストデータに対し，複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い，時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成段階と，予め決められた方法を用いて前記映像テキスト区間生成段階で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得段階で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算段階と，前記の各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記の台本テキスト区間を前記の映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け段階と，前記映像テキスト区間生成段階の前記関連度に関わる値の閾値が予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという条件が満たされるまで，前記関連度に関わる値の閾値を一定値だけ前記限界値に近づけた値に設定し，前記テキスト対応付け段階で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト区間生成段階，前記テキスト類似度計算段階，および前記テキスト対応付け段階を繰り返し行う再帰処理制御段階と，前記再帰処理制御段階における前記条件が満たされた後，時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合段階とを有することを特徴とする。

また，前記課題を解決するために，本発明の映像シーン区間情報抽出装置は，映像についての台本データを読み込み，前記台本データから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻，および前記区間に含まれる台本データ中のテキストデータを取得する台本テキスト区間取得手段と，前記映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて，前記映像区間中の字幕情報，音声情報を時系列のテキストデータとして取得し，得られたテキストデータに対し，複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い，時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成手段と，予め決められた方法を用いて前記映像テキスト区間生成手段で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得手段で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算手段と，前記の各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記の台本テキスト区間を前記の映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け手段と，前記映像テキスト区間生成手段の前記関連度に関する値の閾値が予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという条件が満たされるまで，前記関連度に関する値の閾値を一定値だけ前記限界値に近づけた値に設定し，前記テキスト対応付け手段で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト区間生成手段，前記テキスト類似度計算手段，および前記テキスト対応付け手段による処理を繰り返し行わせる再帰処理制御手段と，前記再帰処理制御手段による処理における前記条件が満たされた後，時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合手段とを備えることを特徴とする。

また，前記課題を解決するために，本発明の映像シーン区間情報抽出方法を実現するプログラムは，前記映像シーン区間情報抽出方法における各段階をコンピュータに実行させるためのプログラムとして構成したことを特徴とする。

また，前記課題を解決するために，本発明の映像シーン区間情報抽出方法を実現するプログラムを記録した記録媒体は，前記映像シーン区間情報抽出方法における各段階をコンピュータに実行させるためのプログラムを，該コンピュータが読み取り可能な記録媒体に記録したことを特徴とする。

本発明の作用は，以下のとおりである。本発明では，映像と台本の情報とを対応付けて，映像中の意味的なシーン区間を抽出する際に，映像中の字幕，音声認識処理の結果として得られるテキスト情報だけを用いて，一旦，複数のテキスト群からなる映像テキスト区間を生成し，これと台本中のテキストとの対応付けを行う。すなわち，映像から抽出した個々の音声情報，カット情報と台本中の個々のセリフとが１対１に完全一致しない場合でも，映像テキスト区間を一旦作成し，映像テキスト区間中の複数のテキストを一つのテキストとして扱うことで，映像テキスト区間を作成しない場合に比べ，台本中の個々のテキストが映像テキスト区間のテキストの一部として包含される確率が向上する。

図１に例を示す。図１は，台本中のテキストと映像中のテキストとが互いに完全一致しない場合において，映像テキスト区間作成前後のテキスト対応付け結果の比較例を示したものである。この例では，映像中の個々の字幕，音声の中のテキストとして，「総選挙の投票日あす」と「各候補者の表情をお伝えします」というものがあり，台本中のテキストには，「あす選挙，各候補者の状況」というものがある。これらは同一の表現にはなっていない。図１（Ａ）が映像テキスト空間を作成しない従来例に相当し，図１（Ｂ）が映像テキスト区間を作成してテキスト間の類似度を計算する本発明に相当する。

映像テキスト区間の作成前では，テキスト間の類似度を計算しても，互いに完全一致しないため，類似度は低い。ここで，一旦，映像テキスト区間を作成し，前記の「総選挙の投票日あす」と「各候補者の表情をお伝えします」の２つのテキストが同一の映像テキスト区間に含まれると判断されれば，両者は結合され「総選挙の投票日あす，各候補者の表情をお伝えします」となる。これと前記の台本中のテキスト「あす選挙，各候補者の状況」との類似度を計算すると，台本中のテキストが映像テキスト区間のテキストに包含されるため，映像テキスト区間作成前に比べ，テキスト間の類似度が向上する。

すなわち，映像テキスト区間を作成してから台本中のテキストとの対応付けを行う本発明は，映像テキスト区間を作成しないで映像から得られる個々のテキストと台本中のテキストとの対応付けを行う従来技術に比べ，テキスト間の類似度が向上するため，対応付けの結果の精度も向上する。これにより，最終的な映像中からの意味的なシーン区間の抽出精度も従来技術よりも向上させることが可能となる。

また，本発明では，映像テキスト区間の生成処理と生成された映像テキスト区間と台本テキスト区間との対応付け処理を再帰的に繰り返し行うことで，映像からの意味的なシーン区間の生成判断を１度だけでなく，予め設定した条件が満たされるまで複数回試行することを可能としている。すなわち，１個の映像テキスト区間に対しての台本テキスト区間との対応付けの処理回数が従来技術よりも多い分，最終的に得られる映像中の意味的なシーン区間の抽出精度も従来技術より向上させることが可能となる。

さらには，本発明では，従来技術１のように映像テキスト区間と台本テキスト区間をＤＰマッチングで対応付けるのではなく，テキスト間の類似度に対しての閾値処理により行うため，映像中の意味的なシーン区間の出現順と台本中の意味的なシーン区間の出現順が合致していないような場合についても，両者の対応付けを行うことが可能である。

以上のように，本発明によれば，従来技術１，２に比べ，映像中からの意味的なシーン区間情報の抽出の精度を向上させることが可能となる。

本発明によれば，映像中から得られる字幕や音声といったテキスト情報と台本中のテキスト情報との対応付けの処理を利用して，映像中から意味的なシーン区間の情報を抽出する際に，映像から得られる個々の字幕，音声のテキストと台本に含まれる個々のテキスト情報とが完全一致しない場合や映像と台本のシーン区間の出現順序が合致しない場合であっても，対応付け処理の前に映像テキスト区間を作成することで，映像と台本のテキストのロバストな対応付けができ，また，両者の対応付け処理そのものを再帰的に実行したり，後処理として，同一の台本テキストと対応する複数の映像テキスト区間を統合させることで，従来技術に比べ，映像中からの意味的なシーン区間の抽出精度を向上させることができるという効果がある。

以下，本発明の実施の形態について，図面を参照しながら説明する。図２は本発明の実施の形態における映像シーン区間情報抽出装置の構成を示す図である。図２において，１はＣＰＵおよびメモリと，本発明を実施するためのソフトウェアプログラム等からなる映像シーン区間情報抽出装置である。

映像シーン区間情報抽出装置１内において，１１は台本データ記憶手段，１２は映像データ記憶手段，１３は台本テキスト区間取得手段，１４は映像テキスト区間生成手段，１５はテキスト類似度計算手段，１６はテキスト対応付け手段，１７は再帰処理制御手段，１８は映像テキスト区間統合手段である。

台本テキスト区間取得手段１３は，解析しようとする映像についての台本データを，台本データ記憶手段１１から読み込み，台本テキストから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻，および前記区間に含まれる台本データ中のテキストデータを取得する。台本データは，ネットワークを介して他の装置から取得してもよい。

映像テキスト区間生成手段１４は，映像データ記憶手段１２から映像データを入力し，入力映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて，入力映像区間中の字幕情報，音声情報を時系列のテキストデータとして取得し，得られたテキストデータに対し，複数のテキスト間の意味的な関連度の閾値処理を行い，時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する。映像データは，ネットワークを介して他の装置から入力することもできる。

テキスト類似度計算手段１５は，映像テキスト区間生成手段１４で得られた個々の区間毎のテキスト情報と台本テキスト区間取得手段１３で得られた個々の区間毎のテキスト情報との類似度を計算する。

テキスト対応付け手段１６は，各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす台本テキスト区間を映像テキスト区間と対応する台本テキスト区間として確定する。

再帰処理制御手段１７は，映像テキスト区間生成手段１４におけるテキスト間の関連度の閾値が予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという条件が満たされるまで，テキスト間の関連度の閾値を一定値だけ限界値に近づけた値に設定し，テキスト対応付け手段１６による処理で対応する台本テキスト区間が確定されない映像テキスト区間を対象に映像テキスト区間生成手段１４，テキスト類似度計算手段１５，およびテキスト対応付け手段１６による処理を繰り返し行わせる。

映像テキスト区間統合手段１８は，再帰処理制御手段１７による処理における終了条件が満たされた後，時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する。

図３は，本発明の実施の形態における映像シーン区間情報抽出処理フローの一例を示す図である。以下，図２に示す映像シーン区間情報抽出装置１が行う処理を，図３に従って詳細に説明する。まず，台本テキスト区間取得段階Ｐ１では，台本テキスト区間取得手段１３が，台本データ記憶手段１１から，解析しようとする映像についての台本データを読み込み（ステップＳ１），その台本データから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻，および前記区間に含まれる台本データ中のテキストデータを取得する（ステップＳ２）。

図４は，台本テキスト区間取得段階Ｐ１における具体的な処理内容を説明するための模式図である。図４（Ａ）は台本データの例，図４（Ｂ）は本段階Ｐ１において取得される台本テキスト区間の具体的な例を示している。

図４（Ａ）では台本データの例として，ニュース番組映像の番組進行表の内容を示しており，２１には放送年月日と番組タイトル名が記されている。２２には番組内のニュース項目の番号としての項番，２３には前記項番に対応するニュースの放送開始時刻，２４には前記項番に対応するニュースの放送時間の長さ，２５には前記項番に対応するニュース項目のタイトル名がそれぞれ記されている。

例えば，１番目のニュース項目は，９月２３日，１１時３０分００秒から１分２０秒間放送され，ニュースタイトルは「国会議員選挙あす投票」ということになる。２番目のニュース項目は，９月２３日，１１時３１分２０秒から２分３０秒間放送され，ニュースタイトルは「円高さらに進む」である。また，３番目のニュース項目は，９月２３日，１１時３３分５０秒から１分１０秒間放送され，ニュースタイトルは「迷子のイルカ保護される」，４番目のニュース項目は，９月２３日，１１時３５分００秒から５０秒間放送され，ニュースタイトルは「世界陸上，日本金メダル」であり，５番目のニュース項目は，９月２３日，１１時３５分５０秒から１分３０秒間放送され，ニュースタイトルは「世界のサッカー情報」である。

台本テキスト区間取得手段１３が，この台本データからステップＳ２により意味的なまとまりのある複数の時間区間の開始時刻，終了時刻，および関連するテキスト情報を取得した結果の一例は，図４（Ｂ）に示すような台本テキスト区間となる。図４（Ｂ）の台本テキスト区間の情報は，図４（Ａ）に示す台本データからニュース番組中の各ニュース項目の放送開始時刻２３を０からの開始に変換した時刻情報，および放送開始時刻２３を０からの開始に変換した時刻情報に放送時間の長さ２４を加えた放送終了時刻，およびタイトル名２５を抽出したものになる。

例えば，１番目のニュース項目（タイトル名「国会議員選挙あす投票」）の図４（Ａ）の台本データ中の放送開始時刻（１１時３０分００秒）を０分００秒に変換して，この０分００秒を放送開始時刻とし，放送開始時刻０分００秒に台本データ中の放送時間の長さ（１分２０秒）を加えた１分２０秒を放送終了時刻とする。２番目のニュース項目（タイトル名「円高さらに進む」）の放送開始時刻は，図４（Ａ）の台本データ中の１１時３１分２０秒を変換して１分２０秒とし，放送終了時刻はこの放送開始時刻に放送時間の長さ（２分３０秒）を加えた３分５０秒とする。３〜５番目の台本テキスト区間の情報も同様である。

なお，図４の例では，テキスト情報としてニュースのタイトルを挙げたが，タイトル以外にもニュース映像中にアナウンサーが読み上げる原稿テキストの情報を用いてもよい。台本テキスト区間取得段階Ｐ１で得られた図４（Ｂ）の内容を，以降の後段の処理で映像データから取得されるテキスト情報との対応付けの処理に用いる。

次に，映像テキスト区間生成手段１４は，図３の映像テキスト区間生成段階Ｐ２において，入力映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて，入力映像区間中の字幕情報，音声情報を時系列のテキストデータとして取得し（ステップＳ３），得られたテキストデータに対し，複数のテキスト間の意味的な関連度の閾値処理を行い（ステップＳ４），時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する（ステップＳ５）。

図５，図６，図７は，映像テキスト区間生成段階Ｐ２における具体的な処理内容を説明するための模式図である。図５は，映像中のある区間中の字幕情報をテキストデータとして取得する処理の例であり，図５では時系列上に映像中のフレーム画像を示したものと，画像中に含まれる字幕をテキスト化したものとを示した。映像中の時刻「０：００」に表示される「国会議員選挙あす投票」，「０：１０」に表示される「候補者の演説」，「０：２３」に表示される「投票者は…」という字幕に対して，各字幕をテキスト化した結果，および対応する映像中の時刻情報は，矢印右側に示すようなものになる。

このような字幕をテキスト化する方法としては，例えばＮＴＴ−ＩＴ社から製品化されている映像中の字幕認識用のソフトウェア「ＩＴ−Ｔｅｌｏｐ」で使用されている方法を用いることで実現可能である。字幕をテキスト化した情報は，以降の映像テキスト区間を生成するための情報として利用される。

また，図６は，映像中のある区間中の音声情報をテキストデータとして取得する処理の例を示した模式図である。図６では時系列上に映像中の音声データを示したものと，音声データをテキスト化したものとを示した。映像中の時刻「０：００」に「国会議員選挙がいよいよあすにせまりました。」，「０：０８」に「東京都１区の候補者の演説の様子です。」，「０：２０」に「投票者の意見を聞いてみました。」という音声が含まれているのに対して，各音声をテキスト化した結果，および対応する映像中の時刻情報は，矢印右側に示すようなものになる。

このような音声をテキスト化する方法としては，ＮＴＴ−ＩＴ社等から製品化されている音声認識用のソフトウェアで利用されている方法を用いることで実現可能である。音声をテキスト化した情報は前記の字幕をテキスト化した情報と同様，以降の映像テキスト区間を生成するための情報として利用される。ここでは，字幕のテキスト化と音声のテキスト化の双方を実施した例を説明するが，本発明は，いずれか一方だけでも実施することができる。

図７は，映像中の字幕，音声をテキスト化したデータを対象に，それらを時間軸上において意味的なまとまり毎に区切り，区切られた区間を映像テキスト区間として取得する処理を説明するための模式図である。図７中の矢印の左側に，字幕，音声のテキスト化の結果を時間順に並べたものを示し，矢印の右側に，左側の内容に対して時間軸上の区切りの情報を追加したものを示している。

この例では，映像テキスト区間Ａとして，「０：００」の「国会議員選挙あす投票」から「０：２３」の「投票者は…」までの区間，映像テキスト区間Ｂとして，「０：３０」の「総理大臣のコメント」から「１：００」の「民主党幹事長は」までの区間，映像テキスト区間Ｃとして，「１：２０」の「円高さらに進む」から「１：２５」の「１ドル１３０円」までの区間が生成されている。

このように，映像中の字幕，音声をテキスト化したデータを対象に，時間軸上においてテキスト間の関連度に対しての閾値処理を利用することで，意味的なまとまり毎に区切りを付ける処理は，例えば前記の従来技術２としてあげた非特許文献３に記載の方法を用いることで実現可能である。なお，この意味的なまとまり毎に区切りを付ける方法は，特願２００２−３２３０９０号「トピック境界決定方法及び装置及びトピック境界決定プログラム」でも提案されている。

また，例えば前記の非特許文献３に記載の方法では，意味的な区間を定義する際のテキスト間の結束度に対して閾値を変更すると結果も変わってくる。図７では，映像テキスト区間Ａと映像テキスト区間Ｂは別々の区間と定義された例を示したが，これは前者が選挙関係の話題，後者が政党関係の話題ということで別々の意味区間として判断された結果である。しかしながら，テキスト間の関連度の閾値の設定を変更することで，両者は政治関係の話題ということで同一の意味区間，すなわち同一の映像テキスト区間として生成することも可能である。この映像テキスト区間情報中のテキストの情報は，以降の後段の処理におけるテキスト類似度計算段階Ｐ３，テキスト対応付け段階Ｐ４において利用されるテキスト情報となる。

次に，テキスト類似度計算手段１５は，図３のテキスト類似度計算段階Ｐ３において，予め決められた方法を用いて映像テキスト区間生成段階Ｐ２で得られた個々の区間毎のテキスト情報と台本テキスト区間取得段階Ｐ１で得られた個々の区間毎のテキスト情報との類似度を計算する（ステップＳ６）。

映像テキスト情報と台本テキストとの類似度としては，両テキスト同士の距離値を計算することで取得できる。二つのテキストの距離値を定義する方法の例として，非特許文献４に掲載されるベクトル空間法がある。これは，テキスト中に含まれる単語辞書中の個々の単語の出現状況をベクトルで表現し，これらベクトルのベクトル空間における距離を計算する方法である。ベクトル空間中の二つのベクトルの距離は，例えば両者の内積を用いて計算する。

前記のように，本発明では，映像中の個々の字幕，音声のテキストと台本中の個々のテキストの類似度を計算するのではなく，前記の映像テキスト区間生成段階Ｐ２で生成した映像テキスト区間に対応するテキスト群と台本中のテキストとを対応付けるため，映像と台本のテキストが完全一致しない場合でも，両者の対応付け精度を向上させることが可能となる。

台本テキストが，図４の例のように各ニュースのタイトル程度の少量のテキストであって，映像から得られるテキストが，図７の個々の字幕，音声の認識結果のように台本テキストに比べてその量が著しく多い場合でも，高精度に対応付けることが可能である。

次に，テキスト対応付け手段１６は，図３のテキスト対応付け段階Ｐ４において，各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす台本テキスト区間を映像テキスト区間と対応する台本テキスト区間として確定する（ステップＳ７）。

図８に，テキスト対応付け段階Ｐ４の具体的な処理内容を説明する図を示す。図８の配列表では，映像テキスト区間Ａ〜Ｅと台本テキスト区間１〜５について，個々の映像テキスト区間と台本テキスト区間の全ての組み合わせのテキスト間の類似度を，両者の距離値として得られた値を示している。

距離値の計算は，前記非特許文献４に掲載されるベクトル空間法を適用することで取得することができる。この結果に対し，類似度への閾値として，例えば「１．０」という値を設定したとする。テキスト対応付け段階Ｐ４では，各映像テキスト区間について，この閾値「１．０」より小さく，かつ最も小さい類似度を持つ台本テキスト区間を対応付ける処理を行う。すなわち，図８における映像テキスト区間Ａは台本テキスト区間１と，映像テキスト区間Ｂは台本テキスト区間１と，映像テキスト区間Ｃは台本テキスト区間２と，映像テキスト区間Ｄは台本テキスト区間３と対応し，映像テキスト区間Ｅは対応する台本テキスト区間は存在しないものとして確定される。

図８の映像テキスト区間Ａ，Ｂを図７の映像テキスト区間Ａ，Ｂに，図８の台本テキスト区間１を図４の項番１のニュース項目にそれぞれ置き換えると，例えば映像テキスト区間生成段階Ｐ２の終了時点で得られる映像テキスト区間としては，両者はＡ，Ｂとして別々の意味的なシーン区間として生成されたが，テキスト対応付け段階Ｐ４により，両方とも「国会議員選挙あす投票」というタイトルのニュース項目内に含まれる区間ということになる。

また，テキスト対応付け段階Ｐ４によれば，映像テキスト区間と台本テキスト区間の順序が合致していない場合でも両者を対応付けることが可能である。この対応関係，および類似度の情報をもとに，以降の再帰処理制御段階Ｐ５と映像テキスト区間統合段階Ｐ６の処理が実行される。

次に，再帰処理制御手段１７は，図３の再帰処理制御段階Ｐ５において，映像テキスト区間生成段階Ｐ２におけるテキスト間の関連度の閾値が予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという終了条件が満たされるまで，テキスト間の関連度の閾値を一定値だけ限界値に近づけた値に設定し（ステップＳ９），テキスト対応付け段階Ｐ４で対応する台本テキスト区間が確定されない映像テキスト区間を対象に，映像テキスト区間生成段階Ｐ２，テキスト類似度計算段階Ｐ３，およびテキスト対応付け段階Ｐ４を繰り返し行う（ステップＳ１０）。

図８，図９を用いて，再帰処理制御段階Ｐ５の具体的な処理内容を説明する。図８において，映像テキスト区間Ｅは，対応する台本テキスト区間が存在しないことから，再帰処理制御段階Ｐ５において，映像テキスト区間Ｅだけを対象に，再度，テキスト関連度に関する閾値を一定値だけ限界値に近づけた値に設定して，映像テキスト区間生成段階Ｐ２の処理を行う。その結果，例えば，図９（Ａ）に示すように，新しい映像テキスト区間Ｅ−１，Ｅ−２，Ｅ−３という三つの区間が生成されたとすると，区間Ｅ−１，Ｅ−２，Ｅ−３のそれぞれを対象に，前記のテキスト類似度計算段階Ｐ３とテキスト対応付け段階Ｐ４の処理を行い，台本テキスト区間との対応付けを行う。

その結果，区間Ｅ−１，Ｅ−２，Ｅ−３とも対応する台本テキスト区間が存在すれば，再帰処理制御段階Ｐ５は終了する。一つでも対応付く台本テキスト区間が存在しない映像テキスト区間が残れば，残った映像テキスト区間を対象に，対応付く台本テキスト区間が見つかるまでか，あるいは，映像テキスト区間生成段階Ｐ２におけるテキスト関連度の閾値が限界値に達するまで再帰処理制御段階Ｐ５による再帰処理を繰り返し行う。

再帰処理制御段階Ｐ５を終了しても，対応する台本テキスト区間が存在しない映像テキスト区間が存在すれば，処理対象の映像がニュース映像の場合，その区間は緊急の飛び込みニュースのような，元々は台本には存在しなかった区間として確定する。図９（Ｂ）に示す例では，映像テキスト区間Ｅ−１は台本テキスト区間４と，映像テキスト区間Ｅ−３は台本テキスト区間５と対応付けられる。また，映像テキスト区間Ｅ−２は，対応する台本テキスト区間が存在しない。すなわち，映像テキスト区間Ｅ−２の区間内の映像は，ニュースであれば，飛び込みの緊急ニュースとしてみなされることを示している。

このように，本発明によれば，入力映像データ中の意味的な区間に対して，元々の台本に存在するものか，しないものかの区別をつけることが可能となる。再帰処理制御段階Ｐ５の結果として得られる映像テキスト区間と対応する台本テキスト区間の情報は，以降の映像テキスト区間統合段階Ｐ６の処理において利用される。

次に，映像テキスト区間統合手段１８は，図３の映像テキスト区間統合段階Ｐ６において，再帰処理制御段階Ｐ５における終了条件が満たされた後，時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する（ステップＳ１０）。

図９（Ｃ）を用いて映像テキスト区間統合段階Ｐ６の具体的な処理内容を説明する。映像テキスト区間統合段階Ｐ６では，図９（Ｃ）に示す例のように，図８で示したテキスト対応付け段階Ｐ４の処理内容の結果として，映像テキスト区間Ａと映像テキスト区間Ｂが両方とも台本テキスト区間１と対応しているため，両者を同一の区間Ａ’として統合する。

これは，映像テキスト区間Ａと映像テキスト区間Ｂは前記の映像テキスト区間生成段階Ｐ２では別々の意味的な区間として生成されたが，両方とも同じ台本テキストの情報と対応付くということから，元々は両方とも同じ台本中の区間に対応する区間であったとみなしたものである。これにより，本来の台本上は同一の意味的な区間が，映像テキスト区間生成段階Ｐ２では複数の別々の意味的な区間として生成された場合でも，それらを統合し，一つの区間として定義することが可能となる。

図７の映像テキスト区間ＡとＢが両方とも図４の項番１のニュースと対応付く場合には，映像テキスト区間Ａ，Ｂは統合され，一つの映像テキスト区間として確定される。すなわち，台本テキスト情報により，映像テキスト区間生成段階Ｐ２の処理結果の修正を行うことが可能となり，最終的な映像中からの意味的な区間を抽出する処理の精度を従来よりも向上させることが可能となる。

以上の映像シーン区間情報抽出装置１の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも，ネットワークを通して提供することも可能である。

映像テキスト区間作成前後のテキスト対応付け結果の比較例を示す図である。映像シーン区間情報抽出装置の構成を示す図である。映像シーン区間情報抽出処理フローの一例を示す図である。台本テキスト区間取得段階における処理内容の模式図である。映像中の字幕認識処理により得られるテキスト情報の一例を示す図である。映像中の音声認識処理により得られるテキスト情報の一例を示す図である。映像テキスト区間生成段階で得られる映像テキスト区間の一例を示す図である。テキスト対応付け段階の具体的な処理内容の一例を示す図である。再帰処理制御段階と映像テキスト区間統合段階の具体的な処理内容の一例を示す図である。

符号の説明

１映像シーン区間情報抽出装置
１１台本データ記憶手段
１２映像データ記憶手段
１３台本テキスト区間取得手段
１４映像テキスト区間生成手段
１５テキスト類似度計算手段
１６テキスト対応付け手段
１７再帰処理制御手段
１８映像テキスト区間統合手段
２１放送年月日と番組タイトル名
２２項番
２３放送開始時刻
２４放送時間の長さ
２５タイトル名

Claims

映像に含まれる意味的なシーン区間の情報を抽出する映像シーン区間情報抽出方法であって，
前記映像についての台本データを読み込み，前記台本データから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻および前記区間に含まれる前記台本データ中のテキストデータを取得する台本テキスト区間取得段階と，
前記映像中の予め決められた任意の映像区間に対して，その映像区間中の字幕情報もしくは音声情報またはその双方を時系列のテキストデータとして取得し，得られたテキストデータに対し，複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い，時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成段階と，
前記映像テキスト区間生成段階で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得段階で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算段階と，
前記各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記台本テキスト区間を前記映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け段階と，
時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合段階とを有する
ことを特徴とする映像シーン区間情報抽出方法。
請求項１記載の映像シーン区間情報抽出方法において，
前記テキスト対応付け段階の後，前記映像テキスト区間生成段階の前記関連度に関わる値の閾値が，予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという条件が満たされるまで，前記関連度に関わる値の閾値を一定値だけ前記限界値に近づけた値に設定し，前記テキスト対応付け段階で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト生成段階，前記テキスト類似度計算段階および前記テキスト対応付け段階を繰り返し行う再帰処理制御段階を有する
ことを特徴とする映像シーン区間情報抽出方法。
映像に含まれる意味的なシーン区間の情報を抽出する映像シーン区間情報抽出装置であって，
前記映像についての台本データを読み込み，前記台本データから意味的なまとまりのある複数の時間区間の開始時刻，終了時刻および前記区間に含まれる前記台本データ中のテキストデータを取得する台本テキスト区間取得手段と，
前記映像中の予め決められた任意の映像区間に対して，その映像区間中の字幕情報もしくは音声情報またはその双方を時系列のテキストデータとして取得し，得られたテキストデータに対し，複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い，時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成手段と，
前記映像テキスト区間生成手段で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得手段で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算手段と，
前記各映像テキスト区間のテキスト情報と最も類似し，かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記台本テキスト区間を前記映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け手段と，
時間的に隣接する映像テキスト区間で，対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合手段とを備える
ことを特徴とする映像シーン区間情報抽出装置。
請求項３記載の映像シーン区間情報抽出装置において，さらに，
前記映像テキスト区間生成手段の前記関連度に関する値の閾値が予め決められた限界値に達するか，あるいは，全ての映像テキスト区間について，対応する台本テキスト区間が確定されるという条件が満たされるまで，前記関連度に関する値の閾値を一定値だけ前記限界値に近づけた値に設定し，前記テキスト対応付け手段で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト生成手段，前記テキスト類似度計算手段および前記テキスト対応付け手段による処理を繰り返し行わせる再帰処理制御手段を備える
ことを特徴とする映像シーン区間情報抽出装置。
請求項１または請求項２に記載の映像シーン区間情報抽出方法をコンピュータに実行させるための映像シーン区間情報抽出プログラム。
請求項１または請求項２に記載の映像シーン区間情報抽出方法をコンピュータに実行させるための映像シーン区間情報抽出プログラムを記録した記録媒体。