JP2005236543A

JP2005236543A - 映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラム

Info

Publication number: JP2005236543A
Application number: JP2004041591A
Authority: JP
Inventors: Hidenobu Osada; 秀信長田; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-02-18
Filing date: 2004-02-18
Publication date: 2005-09-02
Anticipated expiration: 2024-02-18
Also published as: JP4079096B2

Abstract

【課題】映像音声とシナリオテキストを短時間で正確に対応付ける。
【解決手段】本発明は、入力された映像音声と、入力されたシナリオテキストとを整合させ、映像音声とシナリオとの時間的な対応情報が記載されたインデックス情報テーブルを生成し、整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合する。
【選択図】図１

Description

本発明は、映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラムに係り、特に、映像音声の内容に従った台詞や映像音声の内容の進行を記述した構成表等のシナリオテキストと、当該シナリオテキストの複数箇所を映像音声における再生時間をパターンマッチングにより対応付けたマッチングパス情報を修正するための映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラムに関する。

映像の内容に基づいて特定のシーンを検索したいという要求がある。例えば、ドラマ映像を短編に編集する際、長時間（数時間から十数時間）に及ぶドラマ映像の中から、特定の内容のシーンや、特定の人物の話すシーンを素早く探したいという要求がある。ドラマ、映画、及びニュースといった放送番組は、放映以前の制作段階において、番組のシナリオをまず作成し、シナリオに基づいて映像が制作される。

シナリオには場面の情報や、人物の会話・話題の進行などが含まれるため、シナリオを完成した映像音声と対応付けることができれば、先に述べた内容検索が実現できる。このような技術を実現するために、映像音声から認識技術等を用いてテキストを抽出し、それとシナリオテキストとをマッチングさせることにより、映像音声とシナリオテキストとを関連付ける技術がある（例えば、非特許文献１〜７参照）。

また、２つのパターン（ベクトル）の比較において、時間を非線形に伸縮させる整合方式がある。この方式は、時間の伸縮において、始終端の制約、局所連続性の制約、及び全体パス制約の３つの制約を用いることが一般的である（例えば、非特許文献８参照）。
柳沼、和泉、坂内『同期されたシナリオ文書を用いた映像編集方式の一提案』電子情報通信学会論文誌 D-II, Vol.J79-D-II, No.4, pp.547-558, 1996 柳沼、坂内『ＤＰマッチングを用いたドラマ映像・音声・シナリオ文書の対応付け手法の一提案』電子情報通信学会論文誌 D-II, Vol70-D-II, No.5, pp.747-755, 1996 谷村、中川『音声認識を用いたドラマのシナリオへの時刻情報付与』言語処理学会第５回年次大会講演論文集、pp.513-516, 1999、電子情報通信学会総合大会講演論文集、pp.377-378, 1999 谷村、中川『テレビドラマのシナリオと、音声トラックの自動対応付け』情報処理学会自然言語処理音声言語情報処理合同研究会 pp.23-29 谷村、中川「テレビドラマにおけるシナリオのセリフと音声トラックの同期システム」１９９９年度第１３回人工知能学会全国大会講演論文集、pp.205-208,1999 谷村、中川『ドラマのビデオ音声トラックとシナリオのセリフの時刻同期法』情報処理学会、知識と複雑系研究会、pp.25-31, 1999 Wenli Zhang, Yoshitomo Yaginuma, Masao Sakauchi "A Video Movie Annotation System---Annotation Movie with its Script---" Proc. ICSP2000, pp. 1362-1366, 2000 Lawrence Rabiner, Biing-Hwang Juang（共著）、古井卓煕（監訳）、『音声認識の基礎（上）pp.242-287,ＮＴＴアドバンステクノロジ、東京、1995

しかしながら、上記従来の技術では、以下のような問題がある。

・映像音声から認識技術等によって得られるテキスト情報は、一般に誤認識による誤りを含むため、それらの誤りを含むパターンを用いてマッチングを行う場合、最適なマッチングパスへ収束させることが困難である場合がある。

・最適なマッチングパスが仮に得られ、それを用いて映像音声とシナリオテキストとの整合を行ったとしても、その結果意味的に正しい対応付けができることを保証することはできない。

・従来では、誤った対応付けが行われた部分を修正し、それを拘束条件として再度整合を行うといった再帰的な対応付け方法が採られていない。そのため、誤って対応付けがなされた部分を効率的に修正することが困難となっており、結局は手作業で、先頭から対応付け作業を再度行うことで修正することがある。この修正手法によった場合、自動対応付けの結果を全て破棄することと同じである。

結果として、従来の技術では、映像音声とシナリオテキストとの整合状態を修正するために、極めて大きな時間的コストがかかるという問題がある。

本発明は、上記の点に鑑みなされたもので、各話者の発話情報に基づいて映像音声とシナリオテキストとを整合させることができ、正しい整合状態に至らしめるまでの作業時間を短縮することが可能な映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明は、映像音声とシナリオを整合させた状態を修正する装置における、映像音声とシナリオの整合状態の修正支援方法において、
映像音声入力手段から入力された映像音声と、シナリオテキスト入力手段から入力されたシナリオテキストとを整合させるパターン整合ステップ（ステップ１）と、
映像音声とシナリオとの時間的な対応情報を得るため、パターン整合ステップによって得られるマッチングパス情報に基づいて、インデックス情報テーブルを参照するインデックス情報テーブル参照ステップ（ステップ２）と、
整合された結果をユーザに提示する（ステップ３）ことにより得られた修正指示について（ステップ４）、インデックス情報テーブルを参照して（ステップ２）、再整合するマッチングパス情報修正ステップ（ステップ５）と、からなる。

また、本発明は、上記のパターン整合ステップにおいて、
映像音声入力手段から映像音声を入力し、シナリオテキスト入力手段からシナリオテキストを入力する入力ステップと、
入力された映像音声とシナリオテキストから、話者毎に一意に付与される話者ＩＤに基づくパターンを生成するパターン生成ステップと、
パターンの各要素と、映像音声及びシナリオテキストとの対応関係を記載したインデックス情報を生成するインデックス情報生成ステップと、
対応付けを行う２つのパターンを指定するパターン対指定ステップと、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化ステップと、
パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出しステップと、
マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録ステップと、を行う。

また、本発明は、上記のマッチング評価関数呼び出しステップにおいて、
パターンマッチングを行うパターンの整合区間の始端と終端の番号を取得する始端終端取得ステップと、
パターン間の距離を計算するパターン間距離計算ステップと、
パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択ステップと、を行う。

また、本発明は、上記のマッチングパス情報修正ステップにおいて、
パターン整合ステップによって得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定ステップと、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出ステップと、
パターン甲の各要素のスコアを全て算出するために、スコア算出ステップを繰り返す繰り返しステップと、
スコア算出ステップにより得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を提示する映像提示ステップと、
ユーザにより修正された映像音声とシナリオテキストとの対応関係からインデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得ステップと、
修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定ステップと、
整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合ステップと、を行う。

また、本発明は、上記のスコア算出ステップにおいて、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎが、パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とする。

図２は、本発明の原理構成図である。

本発明は、映像音声とシナリオを整合させた状態を修正する整合状態修正支援装置であって、
映像音声入力手段１から入力された映像音声し、話者インデクシングを行い、話者毎に一意に付与される話者ＩＤの並んだパターンと、パターンの各要素が映像のどこに対応するのかを記したインデックス情報を生成する映像音声解析手段３と、
シナリオテキスト入力手段２から入力されたシナリオテキストを解析し、台詞から話者ＩＤの並んだパターンと、パターンの各要素が該シナリオテキストのどこに対応するのかを記したインデックス情報を生成するシナリオテキスト解析手段３と、
映像音声解析手段３とシナリオテキスト解析手段４において生成されたインデックス情報を格納するインデックス情報テーブル８と、
映像音声解析手段３から取得したパターンと、シナリオテキスト解析手段４から取得したパターンとを整合させるパターン整合手段５と、
パターン整合手段５で整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合する修正手段２０と、を有する。

また、本発明のパターン整合手段５は、
映像音声解析手段３とシナリオ解析手段４から取得したパターンから、対応付けを行う２つのパターンを指定するパターン対指定手段と、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化手段と、
パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出し手段と、
マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録手段と、を含む。

また、上記のマッチング評価関数呼び出し手段は、
パターンマッチングを行うパターンの整合区間の始端と終端の番号を取得する始端終端取得手段と、
パターン間の距離を計算するパターン間距離計算手段と、
パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択手段と、を含む。

また、上記の修正手段２０は、
パターン整合手段５で得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定手段と、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出手段と、
パターン甲の各要素のスコアを全て算出するために、スコア算出手段を繰り返す制御を行う繰り返し手段と、
スコア算出手段により得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を表示手段に出力する映像提示手段と、
ユーザにより修正された映像音声とシナリオテキストとの対応関係からインデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得手段と、
修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定手段と、
整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合手段と、を含む。

また、上記のスコア算出手段は、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎが、パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とする手段を含む。

本発明は、映像音声とシナリオを整合させた状態を修正するコンピュータに実行させる整合状態修正支援プログラムであって、
映像音声入力手段から入力された映像音声と、シナリオテキスト入力手段から入力されたシナリオテキストとを整合させるパターン整合ステップと、
映像音声とシナリオとの時間的な対応情報を得るため、パターン整合ステップによって得られるマッチングパス情報に基づいて、インデックス情報テーブルを参照するインデックス情報テーブル参照ステップと、
整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合するマッチングパス情報修正ステップと、をコンピュータに実行させる。

また、上記のパターン整合ステップにおいて、
映像音声入力手段から映像音声を入力させ、シナリオテキスト入力手段からシナリオテキストを入力させる入力ステップと、
入力された映像音声とシナリオテキストから、話者毎に一意に付与される話者ＩＤに基づくパターンを生成するパターン生成ステップと、
パターンの各要素と、映像音声及び前記シナリオテキストとの対応関係を記載したインデックス情報を生成するインデックス情報生成ステップと、
対応付けを行う２つのパターンを指定するパターン対指定ステップと、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化ステップと、
パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出しステップと、
マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録ステップと、をコンピュータに実行させる。

また、上記のマッチング評価関数呼び出しステップにおいて、
パターンマッチングを行うパターンの整合区間の始端と終端の番号を取得する始端終端取得ステップと、
パターン間の距離を計算するパターン間距離計算ステップと、
パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択ステップと、をコンピュータに実行させる。

また、上記のマッチングパス情報修正ステップにおいて、
パターン整合ステップによって得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定ステップと、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出ステップと、
パターン甲の各要素のスコアを全て算出するために、スコア算出ステップを繰り返す繰り返しステップと、
スコア算出ステップにより得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を提示する映像提示ステップと、
ユーザにより修正された映像音声とシナリオテキストとの対応関係からインデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得ステップと、
修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定ステップと、
整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合ステップと、をコンピュータに実行させる。

また、上記のスコア算出ステップにおいて、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎに対応付けられるパターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
パターンＰに含まれる任意の要素ｐ_ｎが、パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とするステップをコンピュータに実行させる。

上記のように、本発明によれば、各話者の発話情報に基づいて映像音声とシナリオテキストとを整合させることが可能である。このとき、本発明によれば、手作業によって意味的に正しい対応付けを行うべき箇所が自動的に検知されユーザに提示され、ユーザの操作（修正の入力）を反映して対応付けが再帰的に行われるため、従来の技術に比較して、正しい整合状態に至らしめるまでの作業時間を短縮することが可能である。

なお、正しい整合状態に至ったか否かを確かめるため、映像の先頭からの確認を要するという点では、本発明は従来の技術と同様であるが、本発明では、映像の先頭から確認を開始する前の段階において、少ない入力操作で、意味的に正しい対応付けに近い結果がえら得るという特徴がある。すなわち、従来の技術にあったように、先頭から全ての対応関係を入力する入力作業が主ではなく、正しく対応付けられているか否かを判断する確認作業が主となるため、従来に比較して作業量（時間）が少なくことは自明である。

この点については、式によっても明らかにすることができる。すなわち、今、本発明をＧＵＩ等のプログラム上で実施する場合、整合の確認作業と入力作業に必要な稼動をそれぞれＷｃ，Ｗｉとし、入力が確認に比較してｔ倍作業量が必要（すなわち、Ｗｉ＝ｔＷｃ）と仮定する。

全ての確認に要する回数をＭ回、本発明の手法によって正しい対応付け結果が得られるまでの回数をｍ回とすると、本発明による手法と従来手法による作業量の差Ｄは、
Ｄ｛Ｗｃ（Ｍ−ｍ）＋ｍＷｉ｝−ＭＷｉ＝Ｗｃ（Ｍ−ｍ）（１−ｔ）
となる。Ｗｃ＞０及びＭ−ｍ≧０は自明であることから、ｔ＞１であれば必ずＤ≦０となり、本発明の手法による作業量が従来手法に比較して少なくなることがわかる。

一般に、入力作業と確認作業では、入力作業の方が負荷を伴う（ｔ＞１である）ことから、本発明によって作業量（時間）を必ず削減することが可能であるといってよい。

以下、図面と共に本発明の実施の形態を説明する。

まず、以下の説明で用いられる用語について説明する。

映像音声の内容に従って台詞を記述したもの、及び、映像音声の内容の進行を記述した構成表等を総じて「シナリオテキスト」と呼ぶ。シナリオテキストの複数箇所を、映像音声における再生時間を対応付けることを「整合」と呼ぶ。話者ＩＤの時系列情報を「パターン」と呼び、これが整合の対象となる。また、整合の際に用いるパターンマッチング処理において、２つのパターンの各要素の対応情報を「マッチングパス情報」と呼ぶ。マッチングパス情報に基づいて作られるシナリオテキストに映像音声の再生時間が関連付けられた情報を、「インデックス情報」と呼ぶ。

図３は、本発明の一実施の形態における整合状態修正支援装置の構成を示す。

同図に示す整合状態修正支援装置は、映像音声入力部１、シナリオ入力部２、映像音声解析部３、シナリオテキスト解析部４、パターン整合処理部５、パターン統合処理部６、Ｓｎスコア計算部７、インデックス情報テーブル８、映像／シナリオテキスト表示部９、入力部１０、及びパターン分割処理部１１から構成される。

映像音声入力部１は、ＶＴＲ入力やアンテナ等であり、映像音声を入力し、映像音声解析部３に渡す。

映像音声解析部３は、映像音声入力部１から取得した映像を解析し、話者インデクシングを行い、話者毎に一意に付与される話者ＩＤの並んだパターンをパターン整合処理部５へ、当該パターンの各要素が映像音声のどこに対応するかを記したインデックス情報をインデックス情報テーブル８のそれぞれに出力する。

シナリオ入力部２は、パーソナルコンピュータ等であり、シナリオテキストを入力し、シナリオテキスト解析部４に渡す。

シナリオテキスト解析部４は、シナリオテキストを解析し、文字列検索および文字列の長さに基づいて、台詞から話者ＩＤの並んだパターンをパターン整合処理部５へ、当該パターンの各要素が、シナリオテキストのどこに対応するかを記したインデックス情報をインデックス情報テーブル８に、それぞれ出力する。

パターン整合処理部５は、映像音声解析部３とシナリオテキスト解析部４、または、後述するパターン分割処理部１１から出力されるパターンを整合する。映像音声解析部３とシナリオテキスト解析部４からパターンが出力された場合には、話者ＩＤに基づくパターンを生成し、対応付けを行う２つのパターンを指定し、パターンマッチングを行う始端・終端を初期化し、マッチング評価関数を呼び出して、当該マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを記憶手段（図示せず）に記録する。

ここで、２つのパターン間の距離を評価する際の式を以下に示す。

パターン統合処理部６は、パターン分割処理部１１から出力されたパターンの場合に、パターンを統合する。詳細な動作については後述する。

Ｓｎスコア計算部７は、パターン整合処理部５からマッチングパスを取得し、スコアを算出する。ここでは、整合の結果、複数のマッチングパスが存在する場合を考える。すなわち、パターンＰ中の任意の要素Ｐｎに注目して、Ｐｎと対応付けられたパターンＱ中の要素ｑがｋ通り（^ｎｑ_ｉ，ｉ＝０，１，…，ｋ−１）である場合を想定する。全てのｎ（ｎ＝０，１，…，ｍ−１）について、以下の３つのスコアＳ１_ｎ〜Ｓ３_ｎを求める。

ここで、Ｓ１_ｎは、ｎ番目の要素ｐに対応付けられるパターンＱ側の要素がいくつあるかを示す批評であり、Ｓ２_ｎは、ｎ番目の要素ｐ_ｎに対応付けられるパターンＱ側の要素がどの程度分布するかを示す指標であり、Ｓ３_ｎは、ｎ番目の要素ｐ_ｎが、パターン全体の中点にどれだけ近いかを示す指標である。

Ｓ１_ｎ＝ｋ；
Ｓ２_ｎ＝｛Max（^ｎｑ_ｉ）―Min（^ｎｑ_ｉ）｝、（ｉ＝０，１，…，ｋ−１）；
ｓ３_ｎ＝Δ（ｎ）（但し、Δ（ｎ）は、ｎ＝０．５×（ｍ−１）で最大値をとるような線形関数）；
あるｎに与えられるスコアＳ_ｎは、上記Ｓ１_ｎ〜Ｓ３_ｎを用い、
Ｓ_ｎ＝Ｓ１_ｎ＋Ｓ２_ｎ＋Ｓ３_ｎ（２）
の計算を行う。

また、上記の計算式（２）に限定されることなく、各Ｓ１_ｎ〜Ｓ３_ｎに任意の重みをかけて、
Ｓ_ｎ＝ｗ_１・Ｓ１_ｎ＋ｗ_２・Ｓ２_ｎ＋ｗ_３・Ｓ３_ｎ
としてもよい。

さらに、Ｓ_ｎ＝Ｓ３_ｎ（Ｓ１_ｎ＋Ｓ２_ｎ）または、Ｓ_ｎ＝Ｓ３_ｎ−Ｓ１_ｎ＋Ｓ２_ｎとしてもよい。

インデックス情報テーブル８は、スコアＳｎ＞閾値となるｎに対し、そのｎに対応する映像／シナリオテキストを探すために参照される、映像音声解析部３とシナリオテキスト解析部４から出力されたインデックス情報を格納する記憶手段である。

映像／シナリオテキスト表示部９は、上記のＳｎスコア計算部７で計算されたＳｎの値に基づいて、インデックス情報テーブル８を参照し、Ｓｎが最大値となる候補が修正に最適な候補であるとして、ディスプレイ等の表示手段に表示する。

入力部１０は、ユーザが必要に応じて修正操作を行うキーボードやマウス等の機器である。

パターン分割部１１は、ユーザが入力部１０から入力した情報に基づいて、インデックス情報テーブル８を参照して、パターン要素番号にそれを変換し、得られたパターン番号を境界としてパターンを２つに分割する。

以下、上記構成の動作を説明する。

図４は、本発明の一実施の形態における全体の動作のフローチャートである。

ステップ１０）パターン整合処理部５において、映像音声解析部３が映像音声入力部１から映像を取得し、解析した結果と、シナリオテキスト解析部４がシナリオテキスト入力部２からシナリオテキストを取得し、解析した結果とを時間的に整合する。詳細な動作は、図５で後述する。

ステップ２０）パターン統合処理部６、Ｓｎスコア計算部７、パターン分割処理部１１、映像／シナリオテキスト表示装置９において、パターン整合処理部５において得られた整合の状態を修正する。

次に、上記のステップ１０の動作を詳細に説明する。

図５は、本発明の一実施の形態におけるパターン整合処理のフローチャートである。

ステップ１１０）映像音声解析部３は、映像音声入力部１から映像を取得し、シナリオテキスト解析部４がシナリオテキスト入力部２からシナリオテキストを取得する。

ステップ１２０）映像音声解析部３は、話者のインデクシングを行い、話者ＩＤの時系列情報（パターン）を生成する。また、シナリオテキスト解析部４は、文字列検索等により、台詞から話者ＩＤの並んだパターンを生成する。

ステップ１３０）映像音声解析部３は、話者ＩＤの並んだパターンと当該パターンの各要素が映像のどこに対応するのかを記したインデックス情報を生成し、シナリオテキスト解析部４は、台詞から話者ＩＤの並んだパターンと当該パターンの各要素がシナリオテキストのどこに対応するのかを記したインデックス情報を生成し、インデックス情報はインデックス情報テーブル８に送られる。

ステップ１４０）パターン整合処理部５は、ステップ１２０で生成されたパターンを２つずつ（1つの映像パターンと1つのシナリオパターン）組み合わせ、対応付けを行う。

ステップ１５０）ステップ１４０で指定された２つのパターン（対）のパターンマッチングを行う区間の始端（ｓ＝ｓ_０＝ｈ）と終端（ｅ＝ｅ_０＝ｍ）とを指定することにより整合区間の初期化を行う。

ステップ１６０）ステップ１４０で指定された２つのパターン（対）をステップ１５０で指定された区間内でマッチングさせるため、マッチング評価関数を呼び出し、マッチング処理を行う。詳細な処理については、図６で後述する。

ステップ１７０）マッチング評価関数を呼び出すことにより得られたマッチングパス情報を一時的にメモリ等に出力する。

次に、パターン整合処理部５における、上記のステップ１６０のマッチング評価関数を用いたマッチングについて説明する。

図６は、本発明の一実施の形態におけるマッチング処理のフローチャートである。

ステップ１６１）前述のステップ１５０で決定されたパターンマッチングの該当区間（整合区間）を取得することで、整合区間の始端ｓと終端ｅを取得する。

ステップ１６２）上記の式（１）により、上記の始端ｓと終端ｅとの間でステップ１４０で指定された２つのパターン間の距離を計算する。

ステップ１６３）ステップ１６２で計算されたマッチングパスのうち、距離が最小となるマッチングパスを選択し、一時的に記憶手段（図示せず）に記録する。なお、距離が最小となるマッチングパスが複数存在する場合には、複数のマッチングパスを選択し、記録する。

次に、図４における、マッチングパス情報の修正処理（ステップ２０）について説明する。

ステップ２１０）Ｓｎスコア計算部７は、終了判定用変数ｎを０に初期化し、パターン整合処理部５からＮ個のマッチングパス情報を取得する。

ステップ２２０）ｎ＞Ｎであるかを判定し、ｎ＞Ｎであるときステップ２３０に移行する。

ステップ２３０）以下の式に基づいて、マッチングパスの修正を終了するかを判定する。

ｉｆ（Ｓｎ−Ｔｈ）（Ｓ１ｎ−１）Ｓ２ｎ≦０
ステップ２４０）ステップ２２０において、ｎ＜Ｎである場合は、前述の式（２）によりスコアＳｎを算出し、ｎ＝ｎ＋１として、ステップ２２０に戻る。

ステップ２５０）映像／シナリオテキスト表示部９は、上記のステップ２４０，２２０の処理により得られるスコアＳｎ（ｎ＝０，１，２，…，Ｎ）のうち、Ｓｎが最大値を取るようなｎを持つパターン要素に基づいて、インデックス情報テーブル８及び上記のステップ１６３で記録されたマッチングパス情報を参照し、映像のタイオムコードとそれに対応するシナリオテキストの文字列とを取得する。さらに、一般的な手法（ＨＴＭＬ及びWindows（登録商標）Media等）の方法により、前述のタイムコードに相当する部分映像音声を取得し、部分映像とシナリオテキストとを表示手段へと出力する。

ステップ２６０）提示された部分映像をユーザが確認し、ＧＵＩ等（入力部１０）を用いて適切なシナリオテキストを選択する。ユーザは、ＧＵＩ上でシナリオテキストの番号を入力／選択できる。

ステップ２７０）パターン分割処理部１１は、ステップ２５０においてＳｎが最大値をとるｎをもつパターン要素の番号及び、ユーザが選択したシナリオテキストのパターン要素の番号を取得する。

ステップ２８０）パターン分割処理部１１は、ステップ２７０で得られた番号に基づいて、マッチング評価関数で用いるパターンの始端・終端の番号（ｓ←ｓ_０，ｅ←ｐ_ｎ）を指定する。

ステップ２９０）評価関数に、上記で指定された始端・終端の番号を入力し、マッチングパスを得る。

ステップ３００）パターン分割処理部１１は、さらに、マッチング評価関数で用いるパターンの始端・終端の番号（ｓ←ｐ_ｎ＋１、ｅ←ｅ_０）を指定する。

ステップ３１０）再度、上記で指定された始端・終端の番号を評価関数に入力し、マッチングパスを得る。

ステップ３２０）パターン分割処理部１１は、ステップ２９０及びステップ３１０で得られたマッチングパスをパターン整合処理部５を介してパターン統合処理部６に転送する。これにより、パターン統合処理部６において、ステップ２９０及び、ステップ３１０で得られたマッチングパスを、ステップ２７０で得られたパターン要素番号を境界として統合する。

図８に、本発明のシナリオ整合ＧＵＩの例を示す。同図中左側の画面は、整合操作画面であり、右側の画面が整合状態表示画面である。整合操作画面では、再生画面とテキスト画面が表示され、オペレータは、再生画面とテキスト画面間に表示されている対応位置の修正コントロールボタンを操作することにより、整合の操作を行う。オペレータはこの対応位置の修正コントロールボタンを操作して、映像側の送り戻しの表示操作と思案リオテキストの表示をリンクさせる。シナリオテキスト側についても同様であり、ボタンを押して映像は映像だけで、シナリオはシナリオだけで別々にシーン操作ができる。このような操作により整合した画面が右側に表示される。

なお、上記の図４〜図７の処理をプログラムとして構築し、整合修正支援装置として利用されるコンピュータにインストールし、ＣＰＵ等の制御手段により実行させる、またはは、ネットワークを介して流通させるようにしてもよい。

また、構築されたプログラムを整合修正支援装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールすることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ビデオ、テレビ放送番組等の映像音声とシナリオとの対応付けを行うための処理に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における整合状態修正支援装置の構成図である。本発明の一実施の形態における全体の動作のフローチャートである。本発明の一実施の形態におけるパターン整合処理のフローチャートである。本発明の一実施の形態におけるマッチング処理のフローチャートである。本発明の一実施の形態におけるマッチングパス情報の修正の処理のフローチャートである。本発明の一実施の形態におけるシナリオ整合ＧＵＩの例である。

符号の説明

１映像音声入力手段、映像音声入力部
２シナリオテキスト入力手段、シナリオテキスト入力部
３映像音声解析手段、映像音声解析部
４シナリオテキスト解析手段、シナリオテキスト解析部
５パターン整合手段、パターン整合処理部
６パターン統合処理部
７Ｓｎスコア計算部
８インデックス情報テーブル
９映像／シナリオテキスト表示部
１０入力部
１１パターン分割処理部
２０修正手段

Claims

映像音声とシナリオを整合させた状態を修正する装置における、映像音声とシナリオの整合状態の修正支援方法において、
映像音声入力手段から入力された映像音声と、シナリオテキスト入力手段から入力されたシナリオテキストとを整合させるパターン整合ステップと、
映像音声とシナリオとの時間的な対応情報を得るため、前記パターン整合ステップによって得られるマッチングパス情報に基づいて、インデックス情報テーブルを参照するインデックス情報テーブル参照ステップと、
整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合するマッチングパス情報修正ステップと、からなることを特徴とする映像音声とシナリオの整合状態の修正支援方法。
前記パターン整合ステップにおいて、
前記映像音声入力手段から前記映像音声を入力し、前記シナリオテキスト入力手段から前記シナリオテキストを入力する入力ステップと、
入力された前記映像音声と前記シナリオテキストから、話者毎に一意に付与される話者ＩＤに基づくパターンを生成するパターン生成ステップと、
前記パターンの各要素と、前記映像音声及び前記シナリオテキストとの対応関係を記載したインデックス情報を生成するインデックス情報生成ステップと、
対応付けを行う２つのパターンを指定するパターン対指定ステップと、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化ステップと、
前記パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出しステップと、
前記マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録ステップと、を行う請求項１記載の映像音声とシナリオの整合状態の修正支援方法。
前記マッチング評価関数呼び出しステップにおいて、
パターンマッチングを行うパターンの前記整合区間の始端と終端の番号を取得する始端終端取得ステップと、
パターン間の距離を計算するパターン間距離計算ステップと、
前記パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択ステップと、を行う請求項２記載の映像音声とシナリオの整合状態の修正支援方法。
前記マッチングパス情報修正ステップにおいて、
前記パターン整合ステップによって得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定ステップと、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出ステップと、
前記パターン甲の各要素のスコアを全て算出するために、前記スコア算出ステップを繰り返す繰り返しステップと、
前記スコア算出ステップにより得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を提示する映像提示ステップと、
前記ユーザにより修正された映像音声とシナリオテキストとの対応関係から前記インデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得ステップと、
前記修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定ステップと、
前記整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合ステップと、を行う請求項１記載の映像音声とシナリオの整合状態の修正支援方法。
前記スコア算出ステップにおいて、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎが、前記パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とする請求項４記載の映像音声とシナリオの整合状態の修正支援方法。
映像音声とシナリオを整合させた状態を修正する整合状態修正支援装置であって、
映像音声入力手段から入力された映像音声し、話者インデクシングを行い、話者毎に一意に付与される話者ＩＤの並んだパターンと、パターンの各要素が映像のどこに対応するのかを記したとインデックス情報を生成する映像音声解析手段と、
シナリオテキスト入力手段から入力されたシナリオテキストを解析し、台詞から話者ＩＤの並んだパターンと、パターンの各要素が該シナリオテキストのどこに対応するのかを記したインデックス情報を生成するシナリオテキスト解析手段と、
前記映像音声解析手段と前記シナリオテキスト解析手段において生成された前記インデックス情報を格納するインデックス情報テーブルと、
前記映像音声解析手段から取得したパターンと、前記シナリオテキスト解析手段から取得したパターンとを整合させるパターン整合手段と、
前記パターン整合手段で整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合する修正手段と、を有することを特徴とする整合状態修正支援装置。
前記パターン整合手段は、
前記映像音声解析手段と前記シナリオ解析手段から取得したパターンから、対応付けを行う２つのパターンを指定するパターン対指定手段と、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化手段と、
前記パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出し手段と、
前記マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録手段と、を含む請求項６記載の整合状態修正支援装置。
前記マッチング評価関数呼び出し手段は、
パターンマッチングを行うパターンの前記整合区間の始端と終端の番号を取得する始端終端取得手段と、
パターン間の距離を計算するパターン間距離計算手段と、
前記パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択手段と、を含む請求項７記載の整合状態修正支援装置。
前記修正手段は、
前記パターン整合手段で得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定手段と、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出手段と、
前記パターン甲の各要素のスコアを全て算出するために、前記スコア算出手段を繰り返す制御を行う繰り返し手段と、
前記スコア算出手段により得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を表示手段に出力する映像提示手段と、
前記ユーザにより修正された映像音声とシナリオテキストとの対応関係から前記インデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得手段と、
前記修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定手段と、
前記整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合手段と、を含む請求項６記載の整合状態修正支援装置。
前記スコア算出手段は、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎが、前記パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とする手段を含む請求項９記載の整合状態修正支援装置。
映像音声とシナリオを整合させた状態を修正するコンピュータに実行させる整合状態修正支援プログラムであって、
映像音声入力手段から入力された映像音声と、シナリオテキスト入力手段から入力されたシナリオテキストとを整合させるパターン整合ステップと、
前記映像音声と前記シナリオとの時間的な対応情報を得るため、前記パターン整合ステップによって得られるマッチングパス情報に基づいて、インデックス情報テーブルを参照するインデックス情報テーブル参照ステップと、
整合された結果をユーザに提示することにより得られた修正指示について、インデックス情報テーブルを参照して再整合するマッチングパス情報修正ステップと、をコンピュータに実行させることを特徴とする整合状態修正支援プログラム。
前記パターン整合ステップにおいて、
前記映像音声入力手段から前記映像音声を入力させ、前記シナリオテキスト入力手段から前記シナリオテキストを入力させる入力ステップと、
入力された前記映像音声と前記シナリオテキストから、話者毎に一意に付与される話者ＩＤに基づくパターンを生成するパターン生成ステップと、
前記パターンの各要素と、前記映像音声及び前記シナリオテキストとの対応関係を記載したインデックス情報を生成するインデックス情報生成ステップと、
対応付けを行う２つのパターンを指定するパターン対指定ステップと、
パターンマッチングを行う整合区間の始端と終端を初期化する整合区間初期化ステップと、
前記パターンマッチングを行うためのマッチング評価関数を再帰的に呼び出すマッチング評価関数呼び出しステップと、
前記マッチング評価関数によって計算されるパターン間距離が最小となるようなマッチングパスを取得し、記憶手段に記録するマッチングパス情報記録ステップと、をコンピュータに実行させる請求項１１記載の整合状態修正支援プログラム。
前記マッチング評価関数呼び出しステップにおいて、
パターンマッチングを行うパターンの前記整合区間の始端と終端の番号を取得する始端終端取得ステップと、
パターン間の距離を計算するパターン間距離計算ステップと、
前記パターン間の距離が最小となるマッチングパスを選択するマッチングパス選択ステップと、をコンピュータに実行させる請求項１２記載の整合状態修正支援プログラム。
前記マッチングパス情報修正ステップにおいて、
前記パターン整合ステップによって得られたマッチングパスについて、マッチングの修正を行う余地があるか否かを判定する終了条件判定ステップと、
ある１つのパターン（以下、パターン甲）の各要素に対する、ユーザに修正を促すか否かの判定基準となるスコアを算出するスコア算出ステップと、
前記パターン甲の各要素のスコアを全て算出するために、前記スコア算出ステップを繰り返す繰り返しステップと、
前記スコア算出ステップにより得られたスコアに基づいて、整合の状態をユーザに修正させるために、視覚的に映像を提示する映像提示ステップと、
前記ユーザにより修正された映像音声とシナリオテキストとの対応関係から前記インデックス情報テーブルを参照して、修正パターン要素番号を取得する修正パターン要素番号取得ステップと、
前記修正パターン要素番号に基づいて、再帰的にマッチング評価関数を呼び出すために必要な整合区間を指定する整合区間指定ステップと、
前記整合区間指定ステップで指定された区間でパターンマッチングを行うマッチング評価関数を呼び出し、パターンマッチングを行うことにより得られたマッチングパス情報を統合するマッチングパス統合ステップと、をコンピュータに実行させる請求項１１記載の整合状態修正支援プログラム。
前記スコア算出ステップにおいて、
ｍ個の要素からなる２つのパターンＰ（ｐ_０，ｐ_１，…，ｐ_ｎ−１）とパターンＱ（ｑ_０，ｑ_１，…，ｑ_ｍ−１）であるとき、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素がいくつあるのかを示す指標ｓ１_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎに対応付けられる前記パターンＱ側の要素とがどの程度分布するかを示す指標ｓ２_ｎと、
前記パターンＰに含まれる任意の要素ｐ_ｎが、前記パターンＰ全体の中点にどれだけ近いかを示す指標ｓ３_ｎと、を用いて計算し、スコアＳｎが最大となるパターン要素ｎが修正に最適な候補とするステップをコンピュータに実行させる請求項１４記載の整合状態修正支援プログラム。