JP4346613B2

JP4346613B2 - 映像要約装置及び映像要約方法

Info

Publication number: JP4346613B2
Application number: JP2006003973A
Authority: JP
Inventors: 晃司山本; 龍也上原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-01-11
Filing date: 2006-01-11
Publication date: 2009-10-21
Anticipated expiration: 2026-01-11
Also published as: US20070168864A1; JP2007189343A

Description

本発明は、映像要約装置及び方法に関する。

従来の映像要約装置には特開２００５−１０９５６６公報に開示されているように、属性情報が付与された映像からユーザの好みに基づいて重要度の高い区間を抽出し、同時にその映像の内容に合わせて、得点状況や画面内の選手のプレイを説明するナレーションを作成するナレーション付き映像要約装置があった。ここで、属性情報とはスポーツ中継映像の中で発生した事象（サッカーのシュートや野球のホームランなど）の内容を時刻情報と共に記述したものである。しかしながら、この装置で使用されるナレーションは属性情報から作成され、もともと映像に含まれる音声についてはナレーションとして使用していなかった。そのため、場面ごとに詳細にプレイを説明するナレーションを作成するためには、プレイの内容を詳細に記述した属性情報を必要とした。そのような属性情報は自動で作成することは困難であるため、人手による入力に頼らざるを得ず、負担が大きかった。
特開２００５−１０９５６６公報

上述したように、従来、要約映像データにナレーションを付加するためには、映像の内容を記述した属性情報を必要とし、映像の内容をより詳細に説明するためには、多量の属性情報を予め作成する必要があるという問題点があった。

そこで本発明は、上記問題点を解決するためになされたものであって、映像データ中の音声を要約映像データの内容を説明するナレーションとして利用できる映像要約装置及び方法を提供することを目的とする。

本発明の映像要約装置は、映像及び音声を含む時系列な映像データを記憶する映像記憶手段と、前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段とを備え、前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択し、前記映像記憶手段に記憶されている映像データのうち、選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する。一方、前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出して、検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出し、前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する。

本発明によれば、映像データ中の音声を要約映像データの内容を説明するナレーションとして利用できる。

以下、本発明の実施形態について図面を参照して説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る映像要約装置の構成例を示すブロック図である。

図１の映像要約装置は、条件入力部１００、映像データ記憶部１０１、属性情報記憶部１０２，容赦句映像生成部１０３、説明文生成部１０４、説明文出力部１０５，再生部１０６，音声カット検出部１０７、音声区間抽出部１０８、映像区間制御部１０９を含む。

映像データ記憶部１０１は、映像及び音声を含む映像データが記憶されている。この映像データ記憶部１０１に記憶されている映像データから、要約映像データ、当該要約映像データに対応するナレーションが図１の映像要約装置から生成される。

属性情報記憶部１０２は、映像データ記憶部１０１に記憶されている映像データの各映像区間について、当該映像区間内の映像の内容を示した属性情報が記憶されている。また、属性情報と、映像データ記憶部１０１に記憶されている映像データは、ここでは、映像データの先頭からカウントされる時刻あるいはフレーム番号で対応付けられている。例えば、ある映像区間に対応する属性情報は、当該映像区間の開始時刻及び終了時刻を含み、この開始時刻及び終了時刻で属性情報と映像区間の映像データとを対応付けることができる。また、映像データ中のある事象が発生した時刻を中心に、予め定められた時間幅を１つの映像区間とした場合、当該映像区間に対応する属性情報は、当該事象の発生時刻を含み、この発生時刻で、属性情報と当該発生時刻を中心とする予め定められた時間幅の映像区間の映像データとを対応付けることができる。また、１つの映像区間は、その開始時刻から次の映像区間の開始時刻までであるとすると、当該映像区間に対応する属性情報は、当該映像区間の開始時刻を含み、この開始時刻で属性情報と映像区間とを対応付けることができる。さらに、時刻の代わりに、映像のフレーム番号を用いてもよい。なお、ここでは、属性情報は、映像データ中の任意の事象の発生時刻を含み、この発生時刻で、属性情報と映像区間とを対応付ける場合を例にとり説明する。この場合、１つの映像区間は、ある事象が発生した時刻を中心とする予め定められた時間区間内の映像データを含む。

映像データ記憶部１０１に記憶されている映像データが、野球の中継番組の映像データである場合の属性情報記憶部１０２に記憶されている属性情報の一例を図４に示す。

図４に示す属性情報では、ヒット、三振、ホームランなどが発生した時刻（タイムコード）と、このような事象（ここでは、ヒット、三振、ホームランなどの打席の結果）が発生したときの打席の回、表裏、アウトカウント、出塁状況、チーム名、打者名、得点状況などが項目別に記述されている。なお、図４に示した項目は一例であり、図４とは異なる項目であってもよい。

条件入力部１００は、映像データ記憶部１０１に記憶されている映像データから、所望の映像区間を検索するための条件が入力される。

要約映像生成部１０３は、条件入力部１００から入力された条件に一致する属性情報を選択し、選択された属性情報に対応付けられている映像区間の映像データを基に要約映像データを生成する。

説明文生成部１０４は、少なくとも、条件入力部１００で入力された条件に一致する属性情報から、要約映像に対する説明文を生成し、説明文出力部１０５は、生成された説明文の合成音声及びテキスト（あるいは、説明文の合成音声とテキストのうちのいずれか一方）を生成し、出力する。再生部１０６は、要約映像データと説明文の合成音声及びテキスト（あるいは、説明文の合成音声とテキストのうちのいずれか一方）を同期させて再生する。

音声カット検出部１０７は、映像データ記憶部１０１に記憶されている映像データに含まれる音声の区切り位置を検出し、音声区間抽出部１０８は、検出された音声の区切り位置を基に、映像データに含まれる音声から、要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する。映像区間制御部１０９は、この抽出された音声区間に基づいて、要約映像生成部１０３で生成される要約映像中の映像区間を修正する。

図２は、図１の映像要約装置の処理動作を説明するためのフローチャートである。次に、図２を参照して、図１の映像要約装置の処理動作について説明する。

まず、条件入力部１００より、要約映像作成時の条件となるユーザの嗜好を示すキーワードや、要約映像全体の再生時間などを入力する（ステップＳ０１）。

次に、要約映像生成部１０３は、属性情報記憶部１０２に記憶されている属性情報のなかから、入力された条件を満たす（例えば、ここでは、条件として指定されたキーワードを含む）属性情報を選択し、映像データ記憶部１０１に記憶されている映像データのうち、当該選択された属性情報に対応する映像区間の映像データを選択する（ステップＳ０２）。

ここで、図３を参照して、ステップＳ０２の処理動作について、より具体的に説明する。なお、図３では、映像データ記憶部１０１に記憶されている映像データが、野球の中継番組の映像データである場合を示している。この映像データの属性情報が図４であるとする。

ステップＳ０１で条件として入力された「チームＢ」や「ヒット」などのキーワードが入力され、ステップＳ０２では、これらキーワードを含む属性情報が検索され、検索された属性情報に対応付けられている映像区間２０１、２０２等を選択する。後述するように、これら選択された映像区間の長さを修正した後、修正後の各映像区間の映像データを時系列に接続して、要約映像データ２０３が生成される。

映像区間の選択は、例えば特開２００４−１２６８１１公報（コンテンツ情報編集装置とその編集プログラム）に記載されている手法を用いて行うことができる。以下、映像要約処理を例に映像区間の選択処理を説明する。

図１７は映像要約処理について説明する図である。図４の例では個々の属性情報について、発生時刻のみを記述し、区間の開始と終了は記述していなかった。この手法は要約映像に含める属性情報の選択とともに、各区間の開始・終了点を同時に決定する。

まず属性情報とユーザの嗜好を比較し、図１７（ａ）に示すように、属性情報ごとの重要度ｗ_ｉを算出する。

次に、属性情報の重要度と、図１７（ｂ）に示すような重要度関数とから個々の属性情報の重要度の時間的変化を示すＥ_ｉ（ｔ）を算出する。重要度関数ｆ_ｉ（ｔ）はｉ番目の属性情報の重要度の変化をモデル化した時間ｔの関数である。この重要度関数を用い、ｉ番目の属性情報の重要度曲線Ｅ_ｉ（ｔ）を次式で定義する。

Ｅ_ｉ（ｔ）＝（１＋ｗ_ｉ）ｆ_ｉ（ｔ）
次に、イベントごとの重要度曲線から、次式に従い、図１７（ｃ）に示すように、映像コンテンツ全体の重要度曲線ＥＲ（ｔ）を算出する。ただし、Ｍａｘ（Ｅ_ｉ（ｔ））は時刻ｔにおけるＥ_ｉ（ｔ）の最大値を示す。
ＥＲ（ｔ）＝Ｍａｘ（Ｅ_ｉ（ｔ））
最後に、太線で示された区間１２０３のようにコンテンツ全体の重要度曲線ＥＲ（ｔ）が閾値ＥＲ_ｔｈより大きい区間を抽出し、要約映像とする。なお、閾値ＥＲ_ｔｈは、その値が小さい（低い）ほど、要約映像区間は長くなり、大きい（高い）ほど要約映像区間は短くなる。そこで、閾値ＥＲ_ｔｈは抽出された区間の合計時間が要約作成条件に含まれる全体の再生時間を満足するように決定される。

以上により、属性情報と要約作成条件に含まれるユーザの嗜好から要約映像に含める区間を選択する。

上述の手法の詳細については、例えば特開２００４−１２６８１１公報（コンテンツ情報編集装置とその編集プログラム）にも記載されている。

次に、説明文生成部１０４は、検索された属性情報から説明文を生成する（ステップＳ０３）。説明文の生成は、例えば特開２００５−１０９５６６公報に記載されている手法により行うことができる。以下、説明文の生成について要約映像のナレーション生成を例に説明する。

図１８は要約映像のナレーション生成について説明する図である。ナレーション生成は属性情報を文章テンプレート（雛形）に当てはめることで行う。例えば、属性情報１１００を文章テンプレート１１０１に当てはめ、ナレーション１１０２を生成する。しかし、毎回同じ文章テンプレートを用いていたのでは、画一的なナレーションしか生成できず、不自然になってしまう。

そこで、自然なナレーションを生成するために、文章テンプレートを複数用意し、映像の内容に応じた切り替えを行うとよい。映像の内容を反映する状態遷移モデルを作成し、試合の状況を管理する。属性情報が入力されると、状態遷移モデル上での遷移が生じ、文章テンプレートが選択される。遷移条件は属性情報の項目などによって定義される。

図１８の例ではノード１１０３が属性情報が入力される前の現状態を示す。属性情報１１００が入力されて状態１１０４に遷移すると、対応づけられたテンプレート１１０１が選択される。同様に他のノードに対する遷移に対してもテンプレートが対応付けられており、そちらの遷移が起これば文章テンプレートが選択される。実際には状態遷移モデルは１つではなく、得点状況を管理するモデル、攻撃の状況を管理するモデルなど複数のモデルが存在し、属性情報はこれらの状態遷移モデルから得られるナレーションを統合して生成される。得点の例では、「同点」、「逆転」、「追加点」では異なる遷移をたどり、同じ得点のナレーションであっても試合の状況に応じて文章が生成される。

例えば、映像区間２０１の属性情報が、図４の属性情報３００であるとする。この属性情報３００は、映像データの時刻「０：５３：１９」に発生した事象（打者がヒットを打った、という事象）を記述した属性情報であるが、この属性情報からは、「チームＢは５回の裏の攻撃で、バッターはコバヤシ。」という説明文を生成する。

なお、映像区間２０１の映像データのうち、この生成された説明文は、図３では、映像区間２０１の先頭部分の（先頭のたかだか数フレーム分）の映像データ２０５に対応する説明文２０６となる。

次に、説明文出力部１０５は、生成された説明文の合成音声、すなわち、音声ナレーションを生成する（ステップＳ０４）。

次に、音声カット検出部１０７は、映像データに含まれる音声の区切り位置を検出する（ステップＳ０５）。一例として音響パワーが一定の値を下回る区間を無音区間とし、区切り位置を無音区間の任意の一時点（例えば、無音区間の中間点、無音区間の開始時点から所定時間後の時点など）に設定する。

ここで、図５を参照して、音声カット検出部１０７における、区切り位置の検出方法について説明する。ここでは、ステップＳ０２で求めた映像区間２０１およびこの映像区間２０１近傍における音声の波形（図５（ａ））と、その音響パワー（図５（ｂ））を示したものである。

音響パワーをPとすると、Ｐ＜Ｐｔｈとなる区間を無音区間とする。ただし、Ｐｔｈは無音と判定するための予め定められた閾値である。図５（ｂ）において、音声カット検出部１０７は、音響パワーが閾値Ｐｔｈ未満の太線で表された区間を、無音区間４０４と判定し、この各無音区間４０４内の任意の時点を区切り位置として設定する。区切り位置から区切り位置までの区間を１つの音声区間とする。

次に、音声区間抽出部１０８は、ステップＳ０２で選択された各映像区間の映像に対し、当該映像区間近傍に存在する、音声カット検出部１０７で検出された音声の区切り位置で区切られた音声区間のなかから、当該映像区間の説明音声として用いる音声区間を抽出する（ステップＳ０６）。

例えば、音声区間抽出部１０８は、映像区間２０１の開始時刻や、映像区間２０１の事象の発生時刻（ここでは、属性情報に記述されている時刻）を含む音声区間を選択及び抽出してもよい。あるいは、映像区間２０１の開始時刻や、映像区間２０１の事象の発生時刻に一番近い時刻に発生する音声区間を選択及び抽出してもよい。

図５では、映像区間２０１の事象（打者がヒットを打った、という事象）の発生時刻が４０５であるとすると、これを含む音声区間４０６が選択及び抽出される。この音声区間４０６は、図３では、打者が実際にヒットを打った場面の映像２０７の実況音声であったとする。

次に、音声区間制御部１０９は、ステップＳ０２で選択された各映像区間に対し抽出された音声区間に従い、要約映像として用いる各映像区間の長さを修正する（ステップＳ０７）。これは、各映像区間に対応する音声区間を完全に含むように、当該映像区間を延長することで可能である。

例えば、図５において、映像区間２０１に対し抽出された音声区間４０６は、映像区間２０１の終端時刻よりも後まで続いている。この場合、音声区間４０６を完全に含むような映像区間に修正すべく、映像区間２０１に、その後の所定時間幅の映像データ２１１を追加して、映像区間２０１の終端時刻を延長する。すなわち、区間修正後の映像区間２０１は、映像区間２０１と映像区間２１１とを合わせた区間である。

あるいは、ステップＳ０２で選択された各映像区間の終了時点が、当該映像区間に対し抽出された音声区間の終了時点の区切り位置と一致するように、当該映像区間の終了時点を修正してもよい。

また、ステップＳ０２で選択された各映像区間の開始時点及び終了時点が、当該映像区間に対し抽出された音声区間の開始時点及び終了時点の区切り位置を含むように、当該映像区間の開始時点及び終了時点を修正してもよい。

さらに、ステップＳ０２で選択された各映像区間の開始時点及び終了時点が、当該映像区間に対し抽出された音声区間の開始時点及び終了時点の区切り位置と一致するように、当該映像区間の開始時点及び終了時点を修正してもよい。

このようにして、音声区間制御部１０９により、要約映像生成部１０３で生成された、要約映像として用いる各映像区間の区間が修正される。

次に、再生部１０６は、以上の処理により得られた、区間修正後の各映像区間の映像データを時系列に繋げてなる要約映像データ（映像区間（修正された場合には修正後の映像区間の）映像及び説明音声）と、ステップＳ０４で生成された説明文の音声ナレーションとを、同期させて再生する（ステップＳ０８）。

以上説明したように、上記第１の実施形態によれば、音声の区切り位置を基に区切られた映像データからなる要約映像を生成することができ、当該要約映像の属性情報から生成された説明文のナレーションの他に、当該要約映像の映像データに含まれる音声により、要約映像に含まれる映像に関する詳細な情報が得られる。すなわち、要約映像の映像データにもともと含まれている音声情報からも、要約映像に関する情報を得られるため、詳細な説明文を生成するための詳細な属性情報を予め作成する必要がない。属性情報は、映像データから、所望の場面を検索するためのインデックスとして利用することができる程度の情報があればよく、属性情報作成のための負荷を軽減することができる。

（音声の区切り位置の他の検出方法）
図２のステップＳ０５では、映像データに含まれる音声の無音区間あるいは音の小さい区間を検出することによって、区切り位置を検出したが、区切り位置を検出する方法はこの手法に限らない。

以下、図６、図７を参照して、音声カット検出部１０７における音声の区切り位置の他の検出方法について説明する。

図６では、複数の話者がいる場合は、話者の切り替わりを、音声の区切り位置として検出する手法を説明したものである。話者の切り替わりは、例えば特開２００３−２６３１９３（音声認識システムで話者の交代を自動検出する方法）記載の手法を用いて検出することが可能である。

図１９は、話者の交代を検出する処理について説明する図である。セミコンティニュアス隠れマルコフモデルＳＣＨＭＭを用いた音声認識システムにおいて、コードブックを標準コードブック１３００以外に話者ごとに学習させた複数のコードブックを用意する。各コードブックはn次の正規分布から形成され、平均値ベクトルμおよびその共変マトリクスＫにより表される。話者ごとに学習させたコードブックとは、これらの平均値ベクトル及び／あるいは共変マトリクスを話者ごとに固有に変更したものである。例として話者Ａに適応するコードブック１３０１と話者Ｂに適応するコードブック１３０２を用意する。

音声認識システムはベクトル量子化を用いて話者から独立したコードブック及び話者に依存するコードブックを相関させる。この相関に基づいて音声認識システムでは音声信号を該当するコードブックに割り当て、これにより話者の同一性を判断する。具体的には音声信号１３０３から得られた各特徴ベクトルごとに全コードブック１３００〜１３０２に含まれる各正規分布へのベクトル量子化を行う。１つのコードブックにｋ個の正規分布が含まれるとき、各正規分布の確率をｐ（ｘ，ｋ）とする。各コードブックにおいて、ｐ（ｘ，ｋ）のうち、閾値を上回る確率値の数をＮとすると正規化係数Fを次式により求める。

Ｆ＝１／（ｐ（ｘ，１）＋ｐ（ｘ，２）＋・・・＋ｐ（ｘ，Ｎ））
正規化係数とは閾値を上回る確率値に乗ずることにより、その合計を「１」にすることができる係数である。音声の特徴ベクトルがいずれかのコードブックの正規分布に近づくにつれて、確率値が大きくなる。すなわち、正規化係数が小さくなる。正規化係数が最も小さいコードブックを選択することにより、話者の判別が可能であり、話者の交代も検出することができる。

図６において、２人の話者Ａが発話している音声区間５００ａ、５００ｂと、話者Ｂが発話している音声区間５０１ａ、５０１ｂが検出されたとすると、話者が切り替わる区間５０２ａ、５０２ｂが求まる。そこで、ある話者の発話が終了し、別の話者の発話が開始するまでの区間（話者が切り替わる区間）５０２ａ、５０２ｂの任意の時点（例えば、中間時点）を区切り位置を設定する。

図６では、映像区間２０１の事象（打者がヒットを打った、という事象）の発生時刻が４０５を含み、映像区間２０１の最も近傍にある話者Ａの発話区間５００ａ及び５００ｂを含む音声区間が、音声区間抽出部１０８により選択及び抽出される。

音声区間制御部１０９は、この抽出された音声区間を完全に含むような映像区間に修正すべく、映像区間２０１に、その後の所定時間幅の映像データ２１１を追加して、映像区間２０１の終端時刻を延長する。

図７では、映像データ中の音声を文章や句に分解し、その切れ目を音声の区切り位置として検出する手法を説明したものである。音声を文章や句に分解するには音声認識を用いて、音声をテキスト情報に変換した上で、自然言語処理することで可能である。図７（ａ）に示すような映像データ中の映像区間２０２及びその前後の時間区間内の音声を音声認識することにより、図７（ｂ）に示すような３つの文章Ａ〜Ｃが得られたとする。このとき、文章の変わり目６０２ａ、６０２ｂを区切り位置とする。同様に、句や単語の切れ目を区切り位置としてもよい。

図７では、映像区間２０１の事象（打者がヒットを打った、という事象）の発生時刻が４０５を含み、映像区間２０１に最も近傍の文書Ｂの音声区間が、音声区間抽出部１０８により選択及び抽出される。

図６、図７に示した音声の区切り位置の検出方法は、音声の内容によって区切り位置を決定するため、図５に示したような無音区間を検出する場合と比較して、より意味的なまとまりのある音声区間に区切ることが可能である。

（他の音声区間抽出方法）
図２のステップＳ０６では、要約映像データに含まれる各映像区間の説明音声として用いる音声区間を、各映像区間の属性情報に記述された事象の発生時刻と音声区間の時間的位置との関係に従って決定したが、音声区間を選択する方法はこの限りではない。

次に、図８に示すフローチャートを参照して、他の音声区間抽出方法について説明する。

まず、要約映像に含まれる各映像区間について、当該映像区間の属性情報に記述されている事象の発生時刻の付近に、未処理の音声区間が存在するか調べる（ステップＳ１１）。事象の発生時刻の付近とは例えば、事象の発生時刻をｔ（秒）とするとｔ−ｔ1（秒）〜ｔ−ｔ２（秒）の区間を指す。ただし、ｔ１、ｔ２（秒）は閾値である。あるいは、当該映像区間を基準として用い、映像区間の開始時刻をｔs（秒）、終了時刻をｔe（秒）として、ｔs−ｔ１（秒）〜ｔe＋ｔ２（秒）を事象の発生時刻の付近としてもよい。

次に、事象の発生時刻付近の区間に含まれる未処理の音声区間を１つ選択し、テキスト情報を取得する（ステップＳ１２）。音声区間はステップＳ０５において検出された区切り位置によって区切られる区間である。テキスト情報を得るには音声認識を用いることで可能である。あるいは、音声に対応した字幕情報やクローズドキャプションなどのテキスト情報が提供される場合はそれを用いてもよい。

次に、テキスト情報がステップＳ０３において説明文として出力される内容を含むか否かを判断する（ステップＳ１３）。これは、「得点」など説明文を生成するもととなる属性情報がテキスト情報に含まれるかによって行うことが可能である。説明文以外の内容を含む場合はステップＳ１４へ進み、説明文以外の内容を含まない場合はステップＳ１１へ進む。これをステップＳ１１において、未処理の音声区間がなくなるまで繰り返す。

テキスト情報が説明文以外の内容を含む場合はその音声区間を、当該映像区間の説明音声として採用する（ステップＳ１４）。

このように、要約映像データとして用いる各映像区間に対し、当該映像区間に対応する属性情報から生成した説明文以外の内容を含む音声区間を抽出することで、その内容が説明文と重複することにより冗長で不自然となるような音声区間の音声を利用することを防ぐことが可能となる。

（第２の実施形態）
図９、図１０、図１１を参照して、第２の実施形態について説明する。図９は第２の実施形態に係る映像要約装置の構成例を示すブロック図である。なお、図９において、図１と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図９では、図１の映像区間制御部１０９に代えて、要約映像データの音量を調整する音量制御部７００を備えている。

図１の映像区間制御部１０９は、図２のステップＳ０７において、抽出された音声区間に合わせて、映像区間の時間的位置を修正したが、図２の音量制御部７００は、図１１のステップＳ０７´に示すように、音量を調整する。すなわち、要約映像データに含まれる映像区間に対し説明音声として抽出された音声区間の音声の音量は、大きくし、説明音声以外の音声は小さく設定する。

次に、図１０を参照して、音量制御部７００の処理動作について説明する。音声区間抽出部１０８において、要約映像に含まれる映像区間２０１に対応する音声区間８０１が抽出されたとする。このとき、音量制御部７００は、音声のゲインを、図１０（ｃ）に示すように、抽出された音声区間の部分（説明音声）８０３は、所定の第１の閾値よりも高く、抽出された音声区間（説明音声）以外の部分８０４は、上記第１の閾値よりも低い第２の閾値よりも低く設定する。

上記第２の実施形態に係る映像要約装置によれば、要約映像データの内容に適当な音声区間を検出してナレーションとして用いることで、ナレーション作成のための詳細な属性情報が不要となる。また、第１の実施形態と比較し、要約映像データ中の各映像区間の修正が不要で、要約映像全体の長さの変更が生じないため、ユーザの指定した時間に厳密に一致した長さの要約映像を作成することが可能である。

なお、図９では、図１の映像区間制御部１０９に代えて、要約映像データの音量を調整する音量制御部７００を備えている場合を示しているが、図９に、映像区間制御部１０９をさらに追加した構成もあり得る。

この場合、図１１のステップＳ０７´において、図５に示したように、映像区間２０１に対し抽出された音声区間４０６の終了時点が、映像区間２０１の終了時点よりも後であるような場合や、映像区間２０１よりも音声区間４０６が長い場合には、映像区間制御部１０９が、映像区間２０１の修正を行う。例えば、この場合、映像区間２０１の終了時点を音声区間４０６の終了時点まで延長する。その結果、要約映像データ中の各映像区間に対し抽出された音声区間が、当該映像区間に完全に含まれるような時間的位置及び長さとなるので（図１０において、映像区間２０１に対する音声区間８０１のような場合）、音量制御部７００が、音量の制御を行う。すなわち、映像区間制御部１０９で終点時点、あるいは終点時点及び始点時点の修正された映像区間を含む要約映像データ中の各映像区間の説明音声の音量を上記第１の閾値よりも高く設定し、当該映像区間内の当該説明音声以外の音声の音量は、上記第２の閾値よりも低く設定する。

以上のような処理動作により、音量が制御され、映像区間の修正が行われた各映像区間の映像データを含む要約映像データが生成される。その後、当該生成された要約映像データと、説明文の合成音声が、ステップＳ０８において再生される。

（第３の実施形態）
図１２、図１３、図１４を参照して第３の実施形態について説明する。図１２は第３の実施形態に係る映像要約装置の構成例を示すブロック図である。なお、図１２において、図１と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図１２では、図１の映像区間制御部１０９に代えて、要約映像データ中の映像区間の説明音声として抽出された音声区間の時間位置をずらす音声区間制御部９００を備えている。

図１の映像区間制御部１０９は、図２のステップＳ０７において、抽出された音声区間に合わせて、映像区間の開始時点や終了時点を修正したが、図１２の要約映像生成装置では、映像区間の時間位置は変更せず、音声区間制御部９００は、図１４のステップＳ０７´´に示すように、説明音声として抽出された音声区間内の音声の時間的置だけをずらす。つまり、元の映像データに対して、ずれた音声が再生されるようになる。

次に、図１３を参照して、音声区間制御部９００の処理動作について説明する。音声区間抽出部１０８において、要約映像に含まれる映像区間２０１に対し、説明音声として音声区間８０１が抽出されたとする。このとき、図１３（ａ）に示すように、音声区間８０１のうち、区間８１１の部分が映像区間８０１に納まらなかった部分である場合、この区間８１１の時間長さだけ、音声区間８０１の時間位置を前にずらす（図１３（ｂ））。そして、再生部１０６は、映像区間２０１に納まるようずらした時間位置で音声区間８０１の音声を再生する。

上記第３の実施形態に係る映像要約装置によれば、要約映像の内容に適当な音声区間を検出してナレーションとして用いることで、ナレーション作成のための詳細な属性情報が不要となる。また、第１の実施形態と比較し、要約映像中の各映像区間の修正が不要で、要約映像全体の長さの変更が生じないため、ユーザの指定した時間に厳密に一致した長さの要約映像を作成することが可能である。

（第４の実施形態）
なお、図１２では、図１の映像区間制御部１０９に代えて、要約映像データの音量を調整する音量制御部７００を備えている場合を示しているが、図１５に示すように、図１２に、第２の実施形態で説明した音量制御部７００や、第１の実施形態で説明した映像区間制御部１０９をさらに追加した構成もあり得る。この場合、要約映像データ中の各映像区間と、当該映像区間に対し説明音声として抽出された音声区間の長さ及び時間的位置関係を基に、要約映像データ中の各映像区間に対し、映像区間制御部１０９と、音量制御部７００と、音声区間制御部９００のいずれか１つを選択するための切替部１０００が追加されている。図１５の映像要約装置の処理動作を図１６に示す。なお、図１６では、要約映像データ中の各映像区間に対し、切替部１０００により、映像区間制御部１０９と、音量制御部７００と、音声区間制御部９００のいずれかが選択されて、映像区間の修正、音量の制御、音声区間の制御が行われる点が、図２、図１１、図１４と異なる。

すなわち、切替部１０００は、要約映像データ中の各映像区間と、当該映像区間に対し抽出された音声区間の長さと時間的位置関係を調べ、当該音声区間が当該映像区間よりも短く、当該音声区間の時間的位置が当該映像区間に完全に含まれるような場合には（図１０において、映像区間２０１に対する音声区間８０１のような場合）、当該映像区間に対し、音量制御部７００を選択し、第２の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う（ステップＳ０７ｂ）。

また、図１３に示したように、映像区間２０１に対し抽出された音声区間８０１の長さは、当該映像区間２０１よりも短いが、当該音声区間８０１の終了時点が、映像区間２０１の終了時点よりも遅い場合には、当該映像区間２０１に対し、音声区間制御部９００を選択し、第３の実施形態で説明したように、音声区間の時間的位置をずらす（ステップＳ０７ｃ）。その後、切替部１０００は、当該映像区間に対し、音量制御部７００を選択し、第２の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う（ステップＳ０７ｂ）。

さらに、図５に示したように、映像区間２０１に対し抽出された音声区間４０６の長さは、当該映像区間２０１よりも長い場合には、当該映像区間２０１に対し、映像区間制御部１０９を選択し、第１の実施形態で説明したように、映像区間の終了時点、あるいは終了時点及び開始時点を修正する（ステップＳ０７ａ）。なお、この場合、切替部１０００は、まず、映像区間制御部１０９を選択し、映像区間２０１の終了時点を延長して、映像区間２０１の長さを、音声区間４０６と同じに、あるいは音声区間４０６よりも長くした後（ステップＳ０７ａ）、次に、音声区間制御部９００を選択して、音声区間４０６の時間的位置が、修正された映像区間２０１内となるように、ずらすようにしてもよい（ステップＳ０７ｃ）。映像区間の修正、あるいは映像区間の修正及び音声区間をずらした後に、切替部１０００は、音量制御部７００を選択し、第２の実施形態で説明したように、当該映像区間内の説明音声と説明音声以外の音声の音量の制御を行う（ステップＳ０７ｂ）。

このような処理動作により、映像区間が修正されたり、音声区間がずらされたり、音量が制御された各映像区間の映像データを含む要約映像データが生成される。その後、当該生成された要約映像データと、説明文の合成音声が、ステップＳ０８において再生される。

以上第１乃至第４の実施形態によれば、映像データから、当該映像データに含まれる音声をその映像データの内容を説明するナレーションとして利用できる要約映像データを生成することができる。その結果、要約映像データとして用いる映像区間に対し、当該映像区間の詳細な説明文を生成する必要がなくなるため、属性情報の情報量を極力抑えることができる。

なお、この映像要約装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、コンピュータ装置が備える記憶手段を、映像データ記憶部１０１、属性情報記憶部１０２として用い、条件入力部１００、要約映像生成部１０３、説明文生成部１０４、説明文出力部１０５、再生部１０６、音声カット検出部１０７、音声区間抽出部１０８、および映像区間制御部１０９、音声制御部７００、音声区間制御部９００の各処理ステップを記述したプログラムを、上記のコンピュータ装置に搭載されたプロセッサに実行させることにより実現することができる。このとき、映像要約装置は、上記プログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記プログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、映像データ記憶部１０１および属性情報記憶部１０２は、上記コンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

第１の実施形態に係る映像要約装置の構成例を示すブロック図。映像要約装置の処理動作を説明するためのフローチャート。要約映像とする映像区間の選択、及び要約映像について説明するための図。属性情報の一例を示した図。音声の大きさを用いた区切り位置の検出方法について説明するための図。話者の切り替わりを用いた区切り位置の検出方法について説明するための図。文章の構成を用いた区切り位置の検出方法について説明するための図。説明文と内容が重複しない音声区間の選択動作を説明するためのフローチャート。第２の実施形態に係る映像要約装置の構成例を示すブロック図。音量制御部の動作を説明するための図。図９の映像要約装置の処理動作を説明するためのフローチャート。第３の実施形態に係る映像要約装置の構成例を示すブロック図。音声区間制御部の動作を説明するための図。図１２の映像要約装置の処理動作を説明するためのフローチャート。第４の実施形態に係る映像要約装置の構成例を示すブロック図。図１５の映像要約装置の処理動作を説明するためのフローチャート。映像区間の選択処理を説明するための図。要約映像の説明文（ナレーション）の生成処理を説明するための図。話者の切り替わりの検出方法を説明するための図。

符号の説明

１００…条件入力部、１０１…映像データ記憶部、１０２…属性情報記憶部、１０３…要約映像生成部、１０４…説明文生成部、１０５…説明文出力部、１０６…再生部、１０７…音声カット検出部、１０８…音声区間抽出部、１０９…映像区間制御部、７００…音量制御部、９００…音声区間制御部、１０００…切替部

Claims

映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
前記検出手段で検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出手段と、
前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
前記修正手段で修正された映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御手段と、
を具備したことを特徴とする映像要約装置。
映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
前記検出手段で検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出手段と、
前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さ以下のときに、当該音声区間の時間的位置を当該映像区間内となるようにずらす音声区間制御手段と、
前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さよりも長いとき、当該映像区間の終了時点が当該音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
前記修正手段で修正された映像区間及び前記音声区間制御手段で音声区間をずらした映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御手段と、
を具備したことを特徴とする映像要約装置。
前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
前記説明文の合成音声を生成する合成音声生成手段と、
さらに具備し、
前記抽出手段は、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項１または２記載の映像要約装置。
前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
前記説明文の合成音声を生成する合成音声生成手段と、
さらに具備し、
前記抽出手段は、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項１または２記載の映像要約装置。
映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
前記説明文の合成音声を生成する合成音声生成手段と、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
前記検出手段で検出された区切り位置で区切られた音声区間のうち前記要約映像データ中の各映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出する抽出手段と、
前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
を具備したことを特徴とする映像要約装置。
映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択手段と、
前記映像記憶手段に記憶されている映像データのうち、前記選択手段で選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成手段と、
前記選択手段で選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成手段と、
前記説明文の合成音声を生成する合成音声生成手段と、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出手段と、
前記検出手段で検出された区切り位置で区切られた音声区間のうち前記要約映像データ中の各映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出する抽出手段と、
前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出手段で抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正手段と、
を具備したことを特徴とする映像要約装置。
前記映像データ中の各映像区間に対応する属性情報は、当該映像区間内に発生した事象の発生時刻を含むことを特徴とする請求項１、２、５、及び６のうちのいずれか１つに記載の映像要約装置。
前記検出手段は、前記映像データに含まれる音声の大きさが、予め定められた値より小さい無音区間の任意の一時点を前記区切り位置として検出することを特徴とする請求項１、２、５、及び６のうちのいずれか１つに記載の映像要約装置。
前記検出手段は、前記映像データに含まれる音声の話者の切り替わりを前記区切り位置として検出することを特徴とする請求項１、２、５、及び６のうちのいずれか１つに記載の映像要約装置。
前記検出手段は、前記映像データに含まれる音声の文章あるいは句の切れ目を前記区切り位置として検出することを特徴とする請求項１、２、５、及び６のうちのいずれか１つに記載の映像要約装置。
映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
を備えた映像要約装置における映像要約方法であって、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択ステップと、
前記映像記憶手段に記憶されている映像データのうち、前記選択ステップで選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成ステップと、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出ステップと、
前記検出ステップで検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出ステップと、
前記要約映像データ中の映像区間の終了時点が、当該映像区間に対し前記抽出ステップで抽出された音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正ステップと、
前記修正ステップで修正された映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御ステップと、
を含む映像要約方法。
映像及び音声を含む時系列的な映像データを記憶する映像記憶手段と、
前記映像データ中の複数の映像区間のそれぞれについて、当該映像区間内の映像の内容を示した属性情報を記憶する属性情報記憶手段と、
を備えた映像要約装置における映像要約方法であって、
前記属性情報記憶手段から、指定されたキーワードを含む属性情報を選択する選択ステップと、
前記映像記憶手段に記憶されている映像データのうち、前記選択ステップで選択された属性情報に対応する映像区間の映像データを時系列に接続することにより、要約映像データを生成する要約映像生成ステップと、
前記映像記憶手段に記憶されている前記映像データに含まれる音声の区切り位置を検出する検出ステップと、
前記検出ステップで検出された区切り位置で区切られた音声区間のなかから、前記要約映像データ中の各映像区間に対し、当該映像区間の説明音声として用いる音声区間を抽出する抽出ステップと、
前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さ以下のときに、当該音声区間の時間的位置を当該映像区間内となるようにずらす音声区間制御ステップと、
前記要約映像データ中の映像区間に対し抽出された音声区間の終了時点が当該映像区間の終了時点よりも遅く、且つ、当該音声区間の長さが当該映像区間の長さよりも長いとき、当該映像区間の終了時点が当該音声区間の終了時点と一致あるいは以後となるように、当該映像区間の終了時点を修正する修正ステップと、
前記修正ステップで修正された映像区間及び前記音声区間制御手段で音声区間をずらした映像区間を含む前記要約映像データ中の各映像区間の前記説明音声の音量を、当該映像区間内の当該説明音声以外の音声よりも大きく設定する音量制御ステップと、
を含む映像要約方法。
前記選択ステップで選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成ステップと、
前記説明文の合成音声を生成する合成音声生成ステップと、
をさらに含み、
前記抽出ステップは、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間を音声認識することにより、当該映像区間の説明音声として、音声認識結果に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項１１または１２記載の映像要約方法。
前記選択ステップで選択された各属性情報を基に、前記要約映像データの説明文を生成する説明文生成ステップと、
前記説明文の合成音声を生成する合成音声生成ステップと、
をさらに含み、
前記抽出ステップは、前記要約映像データ中の各映像区間について、当該映像区間近傍の各音声区間の音声の字幕情報を用いて、当該映像区間の説明音声として、前記字幕情報に前記説明文に含まれる前記属性情報以外の情報が含まれている音声区間を抽出することを特徴とする請求項１１または１２記載の映像要約方法。