JP4109185B2 - 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4109185B2
JP4109185B2 JP2003401171A JP2003401171A JP4109185B2 JP 4109185 B2 JP4109185 B2 JP 4109185B2 JP 2003401171 A JP2003401171 A JP 2003401171A JP 2003401171 A JP2003401171 A JP 2003401171A JP 4109185 B2 JP4109185 B2 JP 4109185B2
Authority
JP
Japan
Prior art keywords
text
video
section
script
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003401171A
Other languages
English (en)
Other versions
JP2005167452A (ja
Inventor
秀豪 桑野
義博 松尾
雄彦 川添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003401171A priority Critical patent/JP4109185B2/ja
Publication of JP2005167452A publication Critical patent/JP2005167452A/ja
Application granted granted Critical
Publication of JP4109185B2 publication Critical patent/JP4109185B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は,映像中から抽出したテキスト情報等の映像特徴量と映像の台本に含まれるテキスト情報との対応付け処理を利用して,映像から意味的なシーン区間の情報を抽出する技術に関するものである。
映像中から抽出したテキスト情報等の特徴量と映像の台本データ中の情報との対応付け処理を利用して,映像を複数の意味的なシーン区間に分割する技術に関する技術としては,下記の非特許文献1または非特許文献2で提案されている方法がある。これを従来技術1とする。
また,映像中の音声データを認識して得られるテキストデータだけを対象に意味的なシーン区間に分割する技術として,非特許文献3で提案される方法がある。これを従来技術2とする。
従来技術1は,ドラマ映像を対象としたものであり,ドラマ映像中の音声区間長の情報,音声認識結果のテキスト情報,およびカット点の情報を抽出し,これらと台本中のセリフ等のテキストの文字数から音声区間の時間長を推定したものと,テキストそのものとを対応付け,台本中の意味的シーン区間の情報をもとに映像を意味的なシーン区間に分割する方法である。テキスト同士の対応付けにはテキストをベクトル表現し,ベクトル間の距離を計算し,これをテキスト同士の類似度としている。この類似度についてDPマッチングを適用することで,映像と台本の情報が時間的には完全に同期しなくとも最適な対応パターンを取得できるところに特徴がある。
従来技術2は,映像中の字幕,音声認識結果のテキスト情報を時系列データとして扱い,時系列に対して,一定幅の窓を設け,窓内のテキストデータに対して分割点を設けた場合の結束度を算出し,結束度が極値をとる時点を意味的なシーンの区切りに相当する時間として決定するものである。主に字幕や音声が多く含まれているニュース映像を意味的なシーン区間に分割する際に効果を発揮するものである。
なお,本発明を実施に関係する技術として,下記の非特許文献4に,二つのテキストの距離値を定義するベクトル空間法が記載されている。これは,テキスト中に含まれる単語辞書中の個々の単語の出現状況をベクトルで表現し,これらベクトルのベクトル空間における距離を内積を用いて計算する方法である。
"映像と関連テキストのマッチングによるドラマ映像記述システム",電子情報通信学会・パターン認識メディア理解研究会技術報告,2002年3月 "音声認識を用いたドラマのシナリオヘの時刻情報付与",言語処理学会・第5回年次大会,1999年3月 別所克人著"クラスター内変動最小化アルゴリズムに基づくトピックセグメンテーション",言語処理学会・自然言語処理研究会,研究報告,154−25,pp.177-183,2003年3月 岩波講座ソフトウェア科学15"自然言語処理"
しかしながら,前記の従来技術1,2とも映像中の意味的なシーン区間の抽出精度の点で下記のような問題点がある。
従来技術1の方法は,映像から抽出した個々の音声情報,カット情報と台本中の個々のセリフが1対1に完全一致することを前提とした方法である。しかし,この方法では,映像中の音声,字幕をテキスト化したものと台本中のテキストとが完全一致しない場合には,そもそも音声認識の結果が正しくても良好な対応付け結果は得られず,最終的に映像から抽出される意味的なシーン区間は誤った情報になってしまう。
誤った結果になる具体的な映像ジャンルとしては,例えばニュース映像等があり,ニュース映像の台本として番組進行表のようなニュース項目のタイトル相当の情報がメモ書き程度に書かれているものと,映像中の音声,字幕を認識した結果のテキスト情報とでは,互いに完全一致せずに前記のように誤った対応付けが生じる可能性が高くなる。
例えば,台本中の1つのテキスト情報として,「あす選挙,各候補者の状況」といったニュースタイトル相当の情報が記されているのに対して,映像中の個々の字幕,音声の中には「総選挙の投票日あす」とか「各候補者の表情をお伝えします」というように,台本中のテキスト「あす選挙,各候補者の状況」と同一の表現が含まれていなければ,これと完全一致する映像中の情報は存在しないことから正確な対応付けをとることは困難である。
また,仮に映像中の音声,字幕のテキストと台本中のテキストとが完全一致する映像から抽出する個々の音声情報,カット情報に誤りが含まれると,これらの情報と台本中のテキストとの対応付けの処理も影響を受け,対応付けの精度も悪くなってしまう場合がある。
一方,従来技術2の方法は,そもそも台本データは参照せず,映像データから得られる字幕や音声の認識結果のテキストだけを使って,意味的なシーン区間を抽出するものである。このため,認識の処理に誤りがあったり,テキスト時系列に適用する窓枠の設け方やテキストの結束度といった処理パラメータが多い処理であることから,パラメータを最適に設定できなかった場合には,誤った意味的なシーン区間を抽出することがある。
従来技術1,2によると上記のような問題点があるため,この問題を解決する必要がある。本発明は,以上の点を考慮してなされたもので,映像から得られる個々の字幕,音声のテキストと台本に含まれる個々のテキスト情報が完全一致しなかったり,映像中の字幕,音声認識処理の結果に誤りがあったりしても,ロバストに映像と台本とを対応付け,従来技術よりも高精度に映像中の意味的なシーン区間を抽出することを目的とする。
前記課題を解決するために,本発明の映像シーン区間情報抽出方法は,映像についての台本データを読み込み,前記台本データから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻,および前記区間に含まれる台本データ中のテキストデータを取得する台本テキスト区間取得段階と,前記映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて,前記映像区間中の字幕情報,音声情報を時系列のテキストデータとして取得し,得られたテキストデータに対し,複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い,時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成段階と,予め決められた方法を用いて前記映像テキスト区間生成段階で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得段階で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算段階と,前記の各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記の台本テキスト区間を前記の映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け段階と,前記映像テキスト区間生成段階の前記関連度に関わる値の閾値が予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという条件が満たされるまで,前記関連度に関わる値の閾値を一定値だけ前記限界値に近づけた値に設定し,前記テキスト対応付け段階で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト区間生成段階,前記テキスト類似度計算段階,および前記テキスト対応付け段階を繰り返し行う再帰処理制御段階と,前記再帰処理制御段階における前記条件が満たされた後,時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合段階とを有することを特徴とする。
また,前記課題を解決するために,本発明の映像シーン区間情報抽出装置は,映像についての台本データを読み込み,前記台本データから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻,および前記区間に含まれる台本データ中のテキストデータを取得する台本テキスト区間取得手段と,前記映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて,前記映像区間中の字幕情報,音声情報を時系列のテキストデータとして取得し,得られたテキストデータに対し,複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い,時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成手段と,予め決められた方法を用いて前記映像テキスト区間生成手段で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得手段で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算手段と,前記の各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記の台本テキスト区間を前記の映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け手段と,前記映像テキスト区間生成手段の前記関連度に関する値の閾値が予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという条件が満たされるまで,前記関連度に関する値の閾値を一定値だけ前記限界値に近づけた値に設定し,前記テキスト対応付け手段で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト区間生成手段,前記テキスト類似度計算手段,および前記テキスト対応付け手段による処理を繰り返し行わせる再帰処理制御手段と,前記再帰処理制御手段による処理における前記条件が満たされた後,時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合手段とを備えることを特徴とする。
また,前記課題を解決するために,本発明の映像シーン区間情報抽出方法を実現するプログラムは,前記映像シーン区間情報抽出方法における各段階をコンピュータに実行させるためのプログラムとして構成したことを特徴とする。
また,前記課題を解決するために,本発明の映像シーン区間情報抽出方法を実現するプログラムを記録した記録媒体は,前記映像シーン区間情報抽出方法における各段階をコンピュータに実行させるためのプログラムを,該コンピュータが読み取り可能な記録媒体に記録したことを特徴とする。
本発明の作用は,以下のとおりである。本発明では,映像と台本の情報とを対応付けて,映像中の意味的なシーン区間を抽出する際に,映像中の字幕,音声認識処理の結果として得られるテキスト情報だけを用いて,一旦,複数のテキスト群からなる映像テキスト区間を生成し,これと台本中のテキストとの対応付けを行う。すなわち,映像から抽出した個々の音声情報,カット情報と台本中の個々のセリフとが1対1に完全一致しない場合でも,映像テキスト区間を一旦作成し,映像テキスト区間中の複数のテキストを一つのテキストとして扱うことで,映像テキスト区間を作成しない場合に比べ,台本中の個々のテキストが映像テキスト区間のテキストの一部として包含される確率が向上する。
図1に例を示す。図1は,台本中のテキストと映像中のテキストとが互いに完全一致しない場合において,映像テキスト区間作成前後のテキスト対応付け結果の比較例を示したものである。この例では,映像中の個々の字幕,音声の中のテキストとして,「総選挙の投票日あす」と「各候補者の表情をお伝えします」というものがあり,台本中のテキストには,「あす選挙,各候補者の状況」というものがある。これらは同一の表現にはなっていない。図1(A)が映像テキスト空間を作成しない従来例に相当し,図1(B)が映像テキスト区間を作成してテキスト間の類似度を計算する本発明に相当する。
映像テキスト区間の作成前では,テキスト間の類似度を計算しても,互いに完全一致しないため,類似度は低い。ここで,一旦,映像テキスト区間を作成し,前記の「総選挙の投票日あす」と「各候補者の表情をお伝えします」の2つのテキストが同一の映像テキスト区間に含まれると判断されれば,両者は結合され「総選挙の投票日あす,各候補者の表情をお伝えします」となる。これと前記の台本中のテキスト「あす選挙,各候補者の状況」との類似度を計算すると,台本中のテキストが映像テキスト区間のテキストに包含されるため,映像テキスト区間作成前に比べ,テキスト間の類似度が向上する。
すなわち,映像テキスト区間を作成してから台本中のテキストとの対応付けを行う本発明は,映像テキスト区間を作成しないで映像から得られる個々のテキストと台本中のテキストとの対応付けを行う従来技術に比べ,テキスト間の類似度が向上するため,対応付けの結果の精度も向上する。これにより,最終的な映像中からの意味的なシーン区間の抽出精度も従来技術よりも向上させることが可能となる。
また,本発明では,映像テキスト区間の生成処理と生成された映像テキスト区間と台本テキスト区間との対応付け処理を再帰的に繰り返し行うことで,映像からの意味的なシーン区間の生成判断を1度だけでなく,予め設定した条件が満たされるまで複数回試行することを可能としている。すなわち,1個の映像テキスト区間に対しての台本テキスト区間との対応付けの処理回数が従来技術よりも多い分,最終的に得られる映像中の意味的なシーン区間の抽出精度も従来技術より向上させることが可能となる。
さらには,本発明では,従来技術1のように映像テキスト区間と台本テキスト区間をDPマッチングで対応付けるのではなく,テキスト間の類似度に対しての閾値処理により行うため,映像中の意味的なシーン区間の出現順と台本中の意味的なシーン区間の出現順が合致していないような場合についても,両者の対応付けを行うことが可能である。
以上のように,本発明によれば,従来技術1,2に比べ,映像中からの意味的なシーン区間情報の抽出の精度を向上させることが可能となる。
本発明によれば,映像中から得られる字幕や音声といったテキスト情報と台本中のテキスト情報との対応付けの処理を利用して,映像中から意味的なシーン区間の情報を抽出する際に,映像から得られる個々の字幕,音声のテキストと台本に含まれる個々のテキスト情報とが完全一致しない場合や映像と台本のシーン区間の出現順序が合致しない場合であっても,対応付け処理の前に映像テキスト区間を作成することで,映像と台本のテキストのロバストな対応付けができ,また,両者の対応付け処理そのものを再帰的に実行したり,後処理として,同一の台本テキストと対応する複数の映像テキスト区間を統合させることで,従来技術に比べ,映像中からの意味的なシーン区間の抽出精度を向上させることができるという効果がある。
以下,本発明の実施の形態について,図面を参照しながら説明する。図2は本発明の実施の形態における映像シーン区間情報抽出装置の構成を示す図である。図2において,1はCPUおよびメモリと,本発明を実施するためのソフトウェアプログラム等からなる映像シーン区間情報抽出装置である。
映像シーン区間情報抽出装置1内において,11は台本データ記憶手段,12は映像データ記憶手段,13は台本テキスト区間取得手段,14は映像テキスト区間生成手段,15はテキスト類似度計算手段,16はテキスト対応付け手段,17は再帰処理制御手段,18は映像テキスト区間統合手段である。
台本テキスト区間取得手段13は,解析しようとする映像についての台本データを,台本データ記憶手段11から読み込み,台本テキストから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻,および前記区間に含まれる台本データ中のテキストデータを取得する。台本データは,ネットワークを介して他の装置から取得してもよい。
映像テキスト区間生成手段14は,映像データ記憶手段12から映像データを入力し,入力映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて,入力映像区間中の字幕情報,音声情報を時系列のテキストデータとして取得し,得られたテキストデータに対し,複数のテキスト間の意味的な関連度の閾値処理を行い,時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する。映像データは,ネットワークを介して他の装置から入力することもできる。
テキスト類似度計算手段15は,映像テキスト区間生成手段14で得られた個々の区間毎のテキスト情報と台本テキスト区間取得手段13で得られた個々の区間毎のテキスト情報との類似度を計算する。
テキスト対応付け手段16は,各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす台本テキスト区間を映像テキスト区間と対応する台本テキスト区間として確定する。
再帰処理制御手段17は,映像テキスト区間生成手段14におけるテキスト間の関連度の閾値が予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという条件が満たされるまで,テキスト間の関連度の閾値を一定値だけ限界値に近づけた値に設定し,テキスト対応付け手段16による処理で対応する台本テキスト区間が確定されない映像テキスト区間を対象に映像テキスト区間生成手段14,テキスト類似度計算手段15,およびテキスト対応付け手段16による処理を繰り返し行わせる。
映像テキスト区間統合手段18は,再帰処理制御手段17による処理における終了条件が満たされた後,時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する。
図3は,本発明の実施の形態における映像シーン区間情報抽出処理フローの一例を示す図である。以下,図2に示す映像シーン区間情報抽出装置1が行う処理を,図3に従って詳細に説明する。まず,台本テキスト区間取得段階P1では,台本テキスト区間取得手段13が,台本データ記憶手段11から,解析しようとする映像についての台本データを読み込み(ステップS1),その台本データから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻,および前記区間に含まれる台本データ中のテキストデータを取得する(ステップS2)。
図4は,台本テキスト区間取得段階P1における具体的な処理内容を説明するための模式図である。図4(A)は台本データの例,図4(B)は本段階P1において取得される台本テキスト区間の具体的な例を示している。
図4(A)では台本データの例として,ニュース番組映像の番組進行表の内容を示しており,21には放送年月日と番組タイトル名が記されている。22には番組内のニュース項目の番号としての項番,23には前記項番に対応するニュースの放送開始時刻,24には前記項番に対応するニュースの放送時間の長さ,25には前記項番に対応するニュース項目のタイトル名がそれぞれ記されている。
例えば,1番目のニュース項目は,9月23日,11時30分00秒から1分20秒間放送され,ニュースタイトルは「国会議員選挙あす投票」ということになる。2番目のニュース項目は,9月23日,11時31分20秒から2分30秒間放送され,ニュースタイトルは「円高さらに進む」である。また,3番目のニュース項目は,9月23日,11時33分50秒から1分10秒間放送され,ニュースタイトルは「迷子のイルカ保護される」,4番目のニュース項目は,9月23日,11時35分00秒から50秒間放送され,ニュースタイトルは「世界陸上,日本金メダル」であり,5番目のニュース項目は,9月23日,11時35分50秒から1分30秒間放送され,ニュースタイトルは「世界のサッカー情報」である。
台本テキスト区間取得手段13が,この台本データからステップS2により意味的なまとまりのある複数の時間区間の開始時刻,終了時刻,および関連するテキスト情報を取得した結果の一例は,図4(B)に示すような台本テキスト区間となる。図4(B)の台本テキスト区間の情報は,図4(A)に示す台本データからニュース番組中の各ニュース項目の放送開始時刻23を0からの開始に変換した時刻情報,および放送開始時刻23を0からの開始に変換した時刻情報に放送時間の長さ24を加えた放送終了時刻,およびタイトル名25を抽出したものになる。
例えば,1番目のニュース項目(タイトル名「国会議員選挙あす投票」)の図4(A)の台本データ中の放送開始時刻(11時30分00秒)を0分00秒に変換して,この0分00秒を放送開始時刻とし,放送開始時刻0分00秒に台本データ中の放送時間の長さ(1分20秒)を加えた1分20秒を放送終了時刻とする。2番目のニュース項目(タイトル名「円高さらに進む」)の放送開始時刻は,図4(A)の台本データ中の11時31分20秒を変換して1分20秒とし,放送終了時刻はこの放送開始時刻に放送時間の長さ(2分30秒)を加えた3分50秒とする。3〜5番目の台本テキスト区間の情報も同様である。
なお,図4の例では,テキスト情報としてニュースのタイトルを挙げたが,タイトル以外にもニュース映像中にアナウンサーが読み上げる原稿テキストの情報を用いてもよい。台本テキスト区間取得段階P1で得られた図4(B)の内容を,以降の後段の処理で映像データから取得されるテキスト情報との対応付けの処理に用いる。
次に,映像テキスト区間生成手段14は,図3の映像テキスト区間生成段階P2において,入力映像中の予め決められた任意の映像区間に対して予め決められた方法を用いて,入力映像区間中の字幕情報,音声情報を時系列のテキストデータとして取得し(ステップS3),得られたテキストデータに対し,複数のテキスト間の意味的な関連度の閾値処理を行い(ステップS4),時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する(ステップS5)。
図5,図6,図7は,映像テキスト区間生成段階P2における具体的な処理内容を説明するための模式図である。図5は,映像中のある区間中の字幕情報をテキストデータとして取得する処理の例であり,図5では時系列上に映像中のフレーム画像を示したものと,画像中に含まれる字幕をテキスト化したものとを示した。映像中の時刻「0:00」に表示される「国会議員選挙あす投票」,「0:10」に表示される「候補者の演説」,「0:23」に表示される「投票者は…」という字幕に対して,各字幕をテキスト化した結果,および対応する映像中の時刻情報は,矢印右側に示すようなものになる。
このような字幕をテキスト化する方法としては,例えばNTT−IT社から製品化されている映像中の字幕認識用のソフトウェア「IT−Telop」で使用されている方法を用いることで実現可能である。字幕をテキスト化した情報は,以降の映像テキスト区間を生成するための情報として利用される。
また,図6は,映像中のある区間中の音声情報をテキストデータとして取得する処理の例を示した模式図である。図6では時系列上に映像中の音声データを示したものと,音声データをテキスト化したものとを示した。映像中の時刻「0:00」に「国会議員選挙がいよいよあすにせまりました。」,「0:08」に「東京都1区の候補者の演説の様子です。」,「0:20」に「投票者の意見を聞いてみました。」という音声が含まれているのに対して,各音声をテキスト化した結果,および対応する映像中の時刻情報は,矢印右側に示すようなものになる。
このような音声をテキスト化する方法としては,NTT−IT社等から製品化されている音声認識用のソフトウェアで利用されている方法を用いることで実現可能である。音声をテキスト化した情報は前記の字幕をテキスト化した情報と同様,以降の映像テキスト区間を生成するための情報として利用される。ここでは,字幕のテキスト化と音声のテキスト化の双方を実施した例を説明するが,本発明は,いずれか一方だけでも実施することができる。
図7は,映像中の字幕,音声をテキスト化したデータを対象に,それらを時間軸上において意味的なまとまり毎に区切り,区切られた区間を映像テキスト区間として取得する処理を説明するための模式図である。図7中の矢印の左側に,字幕,音声のテキスト化の結果を時間順に並べたものを示し,矢印の右側に,左側の内容に対して時間軸上の区切りの情報を追加したものを示している。
この例では,映像テキスト区間Aとして,「0:00」の「国会議員選挙あす投票」から「0:23」の「投票者は…」までの区間,映像テキスト区間Bとして,「0:30」の「総理大臣のコメント」から「1:00」の「民主党幹事長は」までの区間,映像テキスト区間Cとして,「1:20」の「円高さらに進む」から「1:25」の「1ドル130円」までの区間が生成されている。
このように,映像中の字幕,音声をテキスト化したデータを対象に,時間軸上においてテキスト間の関連度に対しての閾値処理を利用することで,意味的なまとまり毎に区切りを付ける処理は,例えば前記の従来技術2としてあげた非特許文献3に記載の方法を用いることで実現可能である。なお,この意味的なまとまり毎に区切りを付ける方法は,特願2002−323090号「トピック境界決定方法及び装置及びトピック境界決定プログラム」でも提案されている。
また,例えば前記の非特許文献3に記載の方法では,意味的な区間を定義する際のテキスト間の結束度に対して閾値を変更すると結果も変わってくる。図7では,映像テキスト区間Aと映像テキスト区間Bは別々の区間と定義された例を示したが,これは前者が選挙関係の話題,後者が政党関係の話題ということで別々の意味区間として判断された結果である。しかしながら,テキスト間の関連度の閾値の設定を変更することで,両者は政治関係の話題ということで同一の意味区間,すなわち同一の映像テキスト区間として生成することも可能である。この映像テキスト区間情報中のテキストの情報は,以降の後段の処理におけるテキスト類似度計算段階P3,テキスト対応付け段階P4において利用されるテキスト情報となる。
次に,テキスト類似度計算手段15は,図3のテキスト類似度計算段階P3において,予め決められた方法を用いて映像テキスト区間生成段階P2で得られた個々の区間毎のテキスト情報と台本テキスト区間取得段階P1で得られた個々の区間毎のテキスト情報との類似度を計算する(ステップS6)。
映像テキスト情報と台本テキストとの類似度としては,両テキスト同士の距離値を計算することで取得できる。二つのテキストの距離値を定義する方法の例として,非特許文献4に掲載されるベクトル空間法がある。これは,テキスト中に含まれる単語辞書中の個々の単語の出現状況をベクトルで表現し,これらベクトルのベクトル空間における距離を計算する方法である。ベクトル空間中の二つのベクトルの距離は,例えば両者の内積を用いて計算する。
前記のように,本発明では,映像中の個々の字幕,音声のテキストと台本中の個々のテキストの類似度を計算するのではなく,前記の映像テキスト区間生成段階P2で生成した映像テキスト区間に対応するテキスト群と台本中のテキストとを対応付けるため,映像と台本のテキストが完全一致しない場合でも,両者の対応付け精度を向上させることが可能となる。
台本テキストが,図4の例のように各ニュースのタイトル程度の少量のテキストであって,映像から得られるテキストが,図7の個々の字幕,音声の認識結果のように台本テキストに比べてその量が著しく多い場合でも,高精度に対応付けることが可能である。
次に,テキスト対応付け手段16は,図3のテキスト対応付け段階P4において,各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす台本テキスト区間を映像テキスト区間と対応する台本テキスト区間として確定する(ステップS7)。
図8に,テキスト対応付け段階P4の具体的な処理内容を説明する図を示す。図8の配列表では,映像テキスト区間A〜Eと台本テキスト区間1〜5について,個々の映像テキスト区間と台本テキスト区間の全ての組み合わせのテキスト間の類似度を,両者の距離値として得られた値を示している。
距離値の計算は,前記非特許文献4に掲載されるベクトル空間法を適用することで取得することができる。この結果に対し,類似度への閾値として,例えば「1.0」という値を設定したとする。テキスト対応付け段階P4では,各映像テキスト区間について,この閾値「1.0」より小さく,かつ最も小さい類似度を持つ台本テキスト区間を対応付ける処理を行う。すなわち,図8における映像テキスト区間Aは台本テキスト区間1と,映像テキスト区間Bは台本テキスト区間1と,映像テキスト区間Cは台本テキスト区間2と,映像テキスト区間Dは台本テキスト区間3と対応し,映像テキスト区間Eは対応する台本テキスト区間は存在しないものとして確定される。
図8の映像テキスト区間A,Bを図7の映像テキスト区間A,Bに,図8の台本テキスト区間1を図4の項番1のニュース項目にそれぞれ置き換えると,例えば映像テキスト区間生成段階P2の終了時点で得られる映像テキスト区間としては,両者はA,Bとして別々の意味的なシーン区間として生成されたが,テキスト対応付け段階P4により,両方とも「国会議員選挙あす投票」というタイトルのニュース項目内に含まれる区間ということになる。
また,テキスト対応付け段階P4によれば,映像テキスト区間と台本テキスト区間の順序が合致していない場合でも両者を対応付けることが可能である。この対応関係,および類似度の情報をもとに,以降の再帰処理制御段階P5と映像テキスト区間統合段階P6の処理が実行される。
次に,再帰処理制御手段17は,図3の再帰処理制御段階P5において,映像テキスト区間生成段階P2におけるテキスト間の関連度の閾値が予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという終了条件が満たされるまで,テキスト間の関連度の閾値を一定値だけ限界値に近づけた値に設定し(ステップS9),テキスト対応付け段階P4で対応する台本テキスト区間が確定されない映像テキスト区間を対象に,映像テキスト区間生成段階P2,テキスト類似度計算段階P3,およびテキスト対応付け段階P4を繰り返し行う(ステップS10)。
図8,図9を用いて,再帰処理制御段階P5の具体的な処理内容を説明する。図8において,映像テキスト区間Eは,対応する台本テキスト区間が存在しないことから,再帰処理制御段階P5において,映像テキスト区間Eだけを対象に,再度,テキスト関連度に関する閾値を一定値だけ限界値に近づけた値に設定して,映像テキスト区間生成段階P2の処理を行う。その結果,例えば,図9(A)に示すように,新しい映像テキスト区間E−1,E−2,E−3という三つの区間が生成されたとすると,区間E−1,E−2,E−3のそれぞれを対象に,前記のテキスト類似度計算段階P3とテキスト対応付け段階P4の処理を行い,台本テキスト区間との対応付けを行う。
その結果,区間E−1,E−2,E−3とも対応する台本テキスト区間が存在すれば,再帰処理制御段階P5は終了する。一つでも対応付く台本テキスト区間が存在しない映像テキスト区間が残れば,残った映像テキスト区間を対象に,対応付く台本テキスト区間が見つかるまでか,あるいは,映像テキスト区間生成段階P2におけるテキスト関連度の閾値が限界値に達するまで再帰処理制御段階P5による再帰処理を繰り返し行う。
再帰処理制御段階P5を終了しても,対応する台本テキスト区間が存在しない映像テキスト区間が存在すれば,処理対象の映像がニュース映像の場合,その区間は緊急の飛び込みニュースのような,元々は台本には存在しなかった区間として確定する。図9(B)に示す例では,映像テキスト区間E−1は台本テキスト区間4と,映像テキスト区間E−3は台本テキスト区間5と対応付けられる。また,映像テキスト区間E−2は,対応する台本テキスト区間が存在しない。すなわち,映像テキスト区間E−2の区間内の映像は,ニュースであれば,飛び込みの緊急ニュースとしてみなされることを示している。
このように,本発明によれば,入力映像データ中の意味的な区間に対して,元々の台本に存在するものか,しないものかの区別をつけることが可能となる。再帰処理制御段階P5の結果として得られる映像テキスト区間と対応する台本テキスト区間の情報は,以降の映像テキスト区間統合段階P6の処理において利用される。
次に,映像テキスト区間統合手段18は,図3の映像テキスト区間統合段階P6において,再帰処理制御段階P5における終了条件が満たされた後,時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する(ステップS10)。
図9(C)を用いて映像テキスト区間統合段階P6の具体的な処理内容を説明する。映像テキスト区間統合段階P6では,図9(C)に示す例のように,図8で示したテキスト対応付け段階P4の処理内容の結果として,映像テキスト区間Aと映像テキスト区間Bが両方とも台本テキスト区間1と対応しているため,両者を同一の区間A’として統合する。
これは,映像テキスト区間Aと映像テキスト区間Bは前記の映像テキスト区間生成段階P2では別々の意味的な区間として生成されたが,両方とも同じ台本テキストの情報と対応付くということから,元々は両方とも同じ台本中の区間に対応する区間であったとみなしたものである。これにより,本来の台本上は同一の意味的な区間が,映像テキスト区間生成段階P2では複数の別々の意味的な区間として生成された場合でも,それらを統合し,一つの区間として定義することが可能となる。
図7の映像テキスト区間AとBが両方とも図4の項番1のニュースと対応付く場合には,映像テキスト区間A,Bは統合され,一つの映像テキスト区間として確定される。すなわち,台本テキスト情報により,映像テキスト区間生成段階P2の処理結果の修正を行うことが可能となり,最終的な映像中からの意味的な区間を抽出する処理の精度を従来よりも向上させることが可能となる。
以上の映像シーン区間情報抽出装置1の処理は,コンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。
映像テキスト区間作成前後のテキスト対応付け結果の比較例を示す図である。 映像シーン区間情報抽出装置の構成を示す図である。 映像シーン区間情報抽出処理フローの一例を示す図である。 台本テキスト区間取得段階における処理内容の模式図である。 映像中の字幕認識処理により得られるテキスト情報の一例を示す図である。 映像中の音声認識処理により得られるテキスト情報の一例を示す図である。 映像テキスト区間生成段階で得られる映像テキスト区間の一例を示す図である。 テキスト対応付け段階の具体的な処理内容の一例を示す図である。 再帰処理制御段階と映像テキスト区間統合段階の具体的な処理内容の一例を示す図である。
符号の説明
1 映像シーン区間情報抽出装置
11 台本データ記憶手段
12 映像データ記憶手段
13 台本テキスト区間取得手段
14 映像テキスト区間生成手段
15 テキスト類似度計算手段
16 テキスト対応付け手段
17 再帰処理制御手段
18 映像テキスト区間統合手段
21 放送年月日と番組タイトル名
22 項番
23 放送開始時刻
24 放送時間の長さ
25 タイトル名

Claims (6)

  1. 映像に含まれる意味的なシーン区間の情報を抽出する映像シーン区間情報抽出方法であって,
    前記映像についての台本データを読み込み,前記台本データから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻および前記区間に含まれる前記台本データ中のテキストデータを取得する台本テキスト区間取得段階と,
    前記映像中の予め決められた任意の映像区間に対して,その映像区間中の字幕情報もしくは音声情報またはその双方を時系列のテキストデータとして取得し,得られたテキストデータに対し,複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い,時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成段階と,
    前記映像テキスト区間生成段階で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得段階で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算段階と,
    前記各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記台本テキスト区間を前記映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け段階と,
    時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合段階とを有する
    ことを特徴とする映像シーン区間情報抽出方法。
  2. 請求項1記載の映像シーン区間情報抽出方法において,
    前記テキスト対応付け段階の後,前記映像テキスト区間生成段階の前記関連度に関わる値の閾値が,予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという条件が満たされるまで,前記関連度に関わる値の閾値を一定値だけ前記限界値に近づけた値に設定し,前記テキスト対応付け段階で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト生成段階,前記テキスト類似度計算段階および前記テキスト対応付け段階を繰り返し行う再帰処理制御段階を有する
    ことを特徴とする映像シーン区間情報抽出方法。
  3. 映像に含まれる意味的なシーン区間の情報を抽出する映像シーン区間情報抽出装置であって,
    前記映像についての台本データを読み込み,前記台本データから意味的なまとまりのある複数の時間区間の開始時刻,終了時刻および前記区間に含まれる前記台本データ中のテキストデータを取得する台本テキスト区間取得手段と,
    前記映像中の予め決められた任意の映像区間に対して,その映像区間中の字幕情報もしくは音声情報またはその双方を時系列のテキストデータとして取得し,得られたテキストデータに対し,複数のテキスト間の意味的な関連度に関わる値の閾値処理を行い,時間的に連続する複数の意味的なまとまり時間区間を映像テキスト区間として生成する映像テキスト区間生成手段と,
    前記映像テキスト区間生成手段で得られた個々の区間毎のテキスト情報と前記台本テキスト区間取得手段で得られた個々の区間毎のテキスト情報との類似度を計算するテキスト類似度計算手段と,
    前記各映像テキスト区間のテキスト情報と最も類似し,かつ類似度が予め設定される閾値より高いテキスト情報を持つという条件を満たす前記台本テキスト区間を前記映像テキスト区間と対応する台本テキスト区間として確定するテキスト対応付け手段と,
    時間的に隣接する映像テキスト区間で,対応する台本テキスト区間が同一である複数の映像テキスト区間を一つの映像テキスト区間として統合する映像テキスト区間統合手段とを備える
    ことを特徴とする映像シーン区間情報抽出装置。
  4. 請求項3記載の映像シーン区間情報抽出装置において,さらに,
    前記映像テキスト区間生成手段の前記関連度に関する値の閾値が予め決められた限界値に達するか,あるいは,全ての映像テキスト区間について,対応する台本テキスト区間が確定されるという条件が満たされるまで,前記関連度に関する値の閾値を一定値だけ前記限界値に近づけた値に設定し,前記テキスト対応付け手段で対応する台本テキスト区間が確定されない映像テキスト区間を対象に前記映像テキスト生成手段,前記テキスト類似度計算手段および前記テキスト対応付け手段による処理を繰り返し行わせる再帰処理制御手段を備える
    ことを特徴とする映像シーン区間情報抽出装置。
  5. 請求項1または請求項2に記載の映像シーン区間情報抽出方法をコンピュータに実行させるための映像シーン区間情報抽出プログラム。
  6. 請求項1または請求項2に記載の映像シーン区間情報抽出方法をコンピュータに実行させるための映像シーン区間情報抽出プログラムを記録した記録媒体。
JP2003401171A 2003-12-01 2003-12-01 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体 Expired - Fee Related JP4109185B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003401171A JP4109185B2 (ja) 2003-12-01 2003-12-01 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003401171A JP4109185B2 (ja) 2003-12-01 2003-12-01 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005167452A JP2005167452A (ja) 2005-06-23
JP4109185B2 true JP4109185B2 (ja) 2008-07-02

Family

ID=34725183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003401171A Expired - Fee Related JP4109185B2 (ja) 2003-12-01 2003-12-01 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4109185B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4635891B2 (ja) * 2006-02-08 2011-02-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4580885B2 (ja) 2006-03-27 2010-11-17 株式会社東芝 シーン情報抽出方法、シーン抽出方法および抽出装置
JP4162691B2 (ja) 2006-09-27 2008-10-08 株式会社東芝 番組構造化装置、番組構造化方法およびプログラム
JP2008140168A (ja) * 2006-12-01 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> シンボル列集合類似度算出方法及びメタデータ生成装置及びメタデータ付与装置及びプログラム
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
JP5265445B2 (ja) * 2009-04-28 2013-08-14 日本放送協会 話題境界検出装置及びコンピュータプログラム
JP5213797B2 (ja) * 2009-06-03 2013-06-19 日本電信電話株式会社 メタデータ検索装置、メタデータ検索方法、メタデータ検索プログラム、及びメタデータ検索システム
US9955103B2 (en) 2013-07-26 2018-04-24 Panasonic Intellectual Property Management Co., Ltd. Video receiving device, appended information display method, and appended information display system
WO2015015712A1 (ja) 2013-07-30 2015-02-05 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
WO2015033501A1 (ja) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
JP6281125B2 (ja) 2013-09-04 2018-02-21 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
WO2015145493A1 (ja) 2014-03-26 2015-10-01 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
JP6194483B2 (ja) 2014-03-26 2017-09-13 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
EP3171609B1 (en) 2014-07-17 2021-09-01 Panasonic Intellectual Property Management Co., Ltd. Recognition data generation device, image recognition device, and recognition data generation method
EP3185577B1 (en) 2014-08-21 2018-10-24 Panasonic Intellectual Property Management Co., Ltd. Content identification apparatus and content identification method
KR102535121B1 (ko) * 2017-12-05 2023-05-22 한국전자통신연구원 컨텐츠의 태그정보 생성 장치 및 방법
CN111866610B (zh) * 2019-04-08 2022-09-30 百度时代网络技术(北京)有限公司 用于生成信息的方法和装置
CN114666663A (zh) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 用于生成视频的方法和装置
CN115619891A (zh) * 2021-07-15 2023-01-17 上海幻电信息科技有限公司 分镜脚本生成方法和系统
CN117808923A (zh) * 2024-02-29 2024-04-02 浪潮电子信息产业股份有限公司 一种图像生成方法、系统、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP2005167452A (ja) 2005-06-23

Similar Documents

Publication Publication Date Title
JP4109185B2 (ja) 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US20110093263A1 (en) Automated Video Captioning
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
CN111161739A (zh) 语音识别方法及相关产品
KR20090111825A (ko) 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치
JP5296598B2 (ja) 音声情報抽出装置
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
CN110287376B (zh) 一种基于剧本和字幕分析的抽取重要电影片段的方法
CN116361510A (zh) 一种利用影视类作品和剧本建立剧本场景片段视频自动提取和检索的方法和装置
CN106550268B (zh) 视频处理方法和视频处理装置
CN114461366A (zh) 多任务模型训练方法、处理方法、电子设备及存储介质
JP6406988B2 (ja) 音声認識誤り修正装置
Bang et al. Automatic construction of a large-scale speech recognition database using multi-genre broadcast data with inaccurate subtitle timestamps
Soe et al. Evaluating AI assisted subtitling
KR20080052304A (ko) 응답 문장 생성 장치 및 방법
JP6358744B2 (ja) 音声認識誤り修正装置
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
Dufour et al. Investigation of spontaneous speech characterization applied to speaker role recognition
KR102443629B1 (ko) 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 시스템
JP2006251553A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
CN112668581A (zh) 一种文书标题识别方法和装置
JP2007316323A (ja) トピック分割処理方法、トピック分割処理装置及びトピック分割処理プログラム。
CN115022733B (zh) 摘要视频生成方法、装置、计算机设备及存储介质
JP4305921B2 (ja) 動画像話題分割方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110411

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120411

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130411

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140411

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees