JP4390407B2

JP4390407B2 - 映像要約方法、および制御プログラム

Info

Publication number: JP4390407B2
Application number: JP2001203878A
Authority: JP
Inventors: 望高橋
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-07-04
Filing date: 2001-07-04
Publication date: 2009-12-24
Anticipated expiration: 2021-07-04
Also published as: JP2003018540A

Description

【０００１】
【発明の属する技術分野】
本発明は、一般に多大な時間を必要とする映像の再生・視聴を行わずに、映像の概要把握を可能とする映像要約方法およびその制御プログラムに関するものである。
【０００２】
【従来の技術】
映像情報の内容を把握するには、映像を再生し視聴する必要がある。しかし、一般にこの作業には映像時間と略同時間程度の時間が必要になり、単に映像情報の概要のみを把握したい場合は極めて面倒である。
このような問題に着目し、作業の効率化を計ったものとして、例えば、特開２０００−３０８００８号公報と、特開平１０−１１２８３５号公報に開示された発明がある。
【０００３】
特開２０００−３０８００８号公報に開示されたビデオのセグメント重要度を決定する方法およびフレームセットを限定領域にパックする方法は、ビデオの各々のショットの重要度を決定し、重要度に基づいてビデオ要約を生成し、重要度に基づいて代表フレームのサイズを変更し限定領域にパックすることを目的としている。
【０００４】
その解決手段として、重要度の測定値が、ビデオのセグメント化された部分について計算される。重要度の測定値は、最も重要なセグメントを選択して、選択されたセグメントについての代表フレームを生成するために使用することができる。閾値処理を行うプロセスは、フレームによって表されるべきショット或いはセグメントの予め決められた数、或いは、実行中に生成される適切な数を供給するために、重要度スコアに適用される。次いで、代表フレームは、ビデオ要約にパックされる。パックされるべきフレームのサイズは、それらの重要度の測定値によって予め決められ、使用可能空間に従って調整される、としている。
【０００５】
特開平１０−１１２８３５号公報に開示された映像要約方法および映像表示方法は、映像内容の多様性および使用者の好みの多様性に対応する映像要約装置および要約情報を効率的に表示するための映像表示装置を提供することを目的としている。
【０００６】
その解決手段として、この発明の映像要約システムは取り込まれた映像を所定の基準に基づいて分割して形成した複数のシーンより映像の要約情報を抽出するための複数の映像要約手段を含む映像要約装置と、これらの要約情報を選択することのできる映像表示装置を備えている。この構成により、一定の映像要約基準のみで画一的に代表画像を選択する従来の映像要約装置や代表画像を映像の長さに関係なく選択する従来の映像表示装置と比べて、映像内容の多様性および使用者の好みの多様性に対応することができる、としている。
【０００７】
ところで、現在、国際標準化機構および国際電気標準会議において、デジタルコンテンツを特徴によって検索する方式として、「マルチメディアコンテントの記述インターフェース」すなわち、ＭＰＥＧ−７の標準化が進められている。
ここで、映像に対するセグメントおよび内容記述情報の例を図５に示す。
図５に示すように、「学会発表の報告」の映像があったとする。この「学会発表の報告」は、学会での発表報告を中心にその前後、つまり、「出発前の練習」、「学会会場までの道程」と続いて「会場内」そして「発表」といった具合に、まず大きな節から成り、さらに、例えば「学会会場までの道程」を例にとると、そのシーンは、「市外」、「信号待ち」、「駅前広場」…、といったようにツリー構造をなしており、映像情報として一般的である。なお、このようにツリー構造を成すショット・シーン・意味的なまとまりのような部分映像を、以下、「映像セグメント」という。
【０００８】
そして、この内容記述情報とは、映像の内容に関して記述したテキスト情報のことをいうが、例えば、単純な場合は登場人物や撮影場所名、日時、概要などが記述されている。さらに豊富な情報を含む場合は、シーンに関連する背景などの情報や内容記述者の主観的感想などを記述することも可能であり、図５に示すように、夫々のシーンにおいて内容記述情報を付加することが可能である。
この内容記述情報は、上述したように、現在、ＭＰＥＧ−７などでその標準化がすすめられている。一般に、これらの内容記述情報は膨大な量の映像データを持つ映像データベースからセグメントを検索するためのインデックスとして利用される。
【０００９】
【発明が解決しようとする課題】
一方、従来の技術として挙げた先行技術は、その両者とも上記の作業を効率化するために、画像の色情報などを利用し映像を自動的にショットに分割・代表フレームを選択し、各ショットの代表フレーム間の類似度から似たショットを併合あるいは削除することで、ショット数を減らし、それらの各ショットの代表フレームおよびショットの説明を紙媒体のような二次元表示媒体にマッピングすることにより、映像情報の効率的な把握を行っている。なお、これらを映像情報の要約と呼んでいる。
【００１０】
しかしながら、これらの方法は画像の特徴に依存するものであり、ショット間が画像（視覚）的に全く異なる場合、例えショットの意味的な内容が似ていても、一方のショットが併合・削除されることはない。すなわち、これらの方法から生成される映像要約は映像中の画像の要約ではあるが、映像の内容の要約とは言えない。
【００１１】
そこで、本発明は、上記問題を解決するため、映像セグメントごとに付加された内容記述情報を利用し、映像の内容の要約を行うことにより、映像情報の概要把握の効率を向上させた映像要約方法およびその制御プログラムを提供することを目的とする。
【００１２】
【課題を解決するための手段】
従来技術として挙げた先行技術でも述べられているように、映像の要約とは、すなわちセグメントの併合を繰り返すことである。そこで本件発明者は、画像情報ではなく、上記内容記述情報のテキストの類似度とセグメントの時間長を利用することによって、効率的に映像の内容を把握できる映像要約情報を生成されることを見出し、発明するに至った。
【００１３】
すなわち、上記課題を達成するため、請求項１の発明は、シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約方法であって、前記内容記述情報同士の類似度を計算する計算工程と、前記計算工程で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第１併合工程と、を有してなり、予め指定された映像セグメント数になるまで前記計算工程と前記第１併合工程とを繰り返し行うことを特徴とする映像要約方法にある。
【００１４】
請求項２の発明は、請求項１において、前記内容記述情報が複数項目から構成されてなり、前記計算工程が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする映像要約方法にある。
【００１５】
請求項３の発明は、請求項１において、前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算工程が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第１併合工程が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする映像要約方法にある。
【００１７】
請求項４の発明は、請求項３において、前記第１併合工程は、前記類似度が最も映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする映像要約方法にある。
【００１８】
請求項５の発明は、請求項１から４のいずれかにおいて、前記第１併合工程が、前記併合対象となった各映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする映像要約方法にある。
【００１９】
請求項６の発明は、請求項５において、前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする映像要約方法にある。
【００２０】
請求項７の発明は、請求項１から４のいずれかにおいて、前記第１併合工程が、前記併合対象となった各高い複数の映像セグメントの内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする映像要約方法にある。
【００２１】
請求項８の発明は、請求項１から７のいずれかにおいて、前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第２併合工程を加えてなることを特徴とする映像要約方法にある。
【００２２】
請求項９の発明は、請求項１から８のいずれかにおいて、前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更工程を加えたことを特徴とする映像要約方法にある。
【００２４】
請求項１０の発明は、請求項１から９のいずれかにおいて、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力工程を加えたことを特徴する映像要約方法にある。
【００２５】
請求項１１の発明は、シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約における制御プログラムであって、前記内容記述情報同士の類似度を計算する計算手段と、前記計算手段で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第１併合手段と、を有してなり、コンピュータに前記計算手段、前記第１併合手段、として機能させ、予め指定された映像セグメント数になるまで繰り返し行うことを特徴とする映像要約における制御プログラムにある。
【００２６】
請求項１２の発明は、請求項１１において、前記内容記述情報が複数項目から構成されてなり、前記計算手段が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする映像要約における制御プログラムにある。
【００２７】
請求項１３の発明は、請求項１１において、前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算手段が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第１併合手段が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする映像要約における制御プログラムにある。
【００２９】
請求項１４の発明は、請求項１３において、前記第１併合手段は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする映像要約における制御プログラムにある。
【００３０】
請求項１５の発明は、請求項１１から１４のいずれかにおいて、前記第１併合手段が、前記併合対象となった各映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする映像要約における制御プログラムにある。
【００３１】
請求項１６の発明は、請求項１５において、前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする映像要約における制御プログラムにある。
【００３２】
請求項１７の発明は、請求項１１から１４のいずれかにおいて、前記第１併合手段が、前記併合対象となった各映像セグメントの内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする映像要約における制御プログラムにある。
【００３３】
請求項１８の発明は、請求項１１から１７のいずれかにおいて、前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第２併合手段を加えてなり、コンピュータに該第２併合手段として機能させることを特徴とする映像要約における制御プログラムにある。
【００３４】
請求項１９の発明は、請求項１１から１８のいずれかにおいて、前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更手段を加えてなり、コンピュータに該変更手段として機能させたことを特徴とする映像要約における制御プログラムにある。
【００３６】
請求項２０の発明は、請求項１１から１９のいずれかにおいて、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力手段を加えてなり、コンピュータに該要約出力手段として機能させたことを特徴する映像要約における制御プログラムにある。
【００３７】
【発明の実施の形態】
以下、添付図面を参照しながら、本発明の実施の形態を詳細に説明する。
まず、本実施形態における映像要約における制御プログラムを説明する前に、内容記述情報が付加された映像情報について図５を用いて説明する。
この映像情報は、図５は、従来の技術の欄で説明したように、「学会発表の報告」の映像について例示している。すなわち、この「学会発表の報告」は、学会での発表報告を中心にその前後、つまり、「出発前の練習」、「学会会場までの道程」と続いて「会場内」そして「発表」といった具合に、まず大きな節から成り、例えば「学会会場までの道程」を例にとると、さらにそのシーンは、「市外」、「信号待ち」、「駅前広場」…、といったようにツリー構造（階層構造）になった部分映像によって構成されている。
【００３８】
夫々映像時間が異なった各レイヤー（層）夫々の部分映像は、各シーンが特定できるようにSegmentID が振られており、このSegmentID に、Who 、When、Where 、WhatAction、WhatObject、Why 、FreeTextの７つの項目からなる内容記述情報（テキスト）が夫々付加されて映像セグメントが構成され、検索、管理、編集などが容易に行えるようになっている。
なお、この内容記述情報は、図示したような７項目に限定されず、またこのような項目分けによる態様にも限らず、その他、映像セグメントと対応付けられればその形式は問わない。
【００３９】
ここで、説明を簡単にするために、図５において映像の一部、すなわち、学会会場までの道程SegmentID 1.2 の下層レイヤーのうち、SegmentID 1.2.3 と、SegmentID 1.2.4 と、SegmentID 1.2.5 の各映像セグメントに対応する内容記述情報について着目して説明を進める。
これらの内容記述情報は以下のようになっている。
【００４０】
（１） SegmentID 1.2.3 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日
"Where = "Capitole市街, Toulouse, France"
WhatAction= " 駅前広場まで説明しながら歩く"
WhatObject = "すれ違う人々"
Why = "IDMS'99発表会場へ向かう
"FreeText = " きれいな街。いろいろな人々が行き交う。赤信号で止まる。
【００４１】
（２） SegmentID 1.2.4 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Capitole 市街, Toulouse, France"
WhatAction = "信号待ち"
WhatObject = "信号機"
Why = "IDMS'99発表会場へ向かう"
FreeText = "警報機のような何かが鳴っていると思ったら、どうやら信号らしい。青の時にわたる。"
【００４２】
（３） SegmentID 1.2.5 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Metro Capitole Station 駅前広場, Toulouse, France"
WhatAction = "駅構内への階段を下る"
WhatObject = "メトロの入り口と看板"
Why = "IDMS'99発表会場へ向かう"
FreeText = "公園のようにきれい。メトロの看板。"
【００４３】
本実施形態における映像要約における制御プログラムは、図１に示すように、内容記述情報パース手段１と、画像情報取得手段２と、映像要約出力手段３とを備えて構成されている。
内容記述情報パース手段１は、映像情報と内容記述情報とを併合させるものであり、内容記述情報に基づいて各映像セグメントを併合する第１併合手段１１と、各映像セグメントの時間長に基づいて各映像セグメントを併合する第２併合手段１２と、レイヤーによるセグメント併合手段１３とを備えてなる。
【００４４】
第１併合手段１１は、各映像セグメントに付加された内容記述情報の類似度を計算する計算手段が具備され、映像情報を構成する複数の映像セグメントの該内容記述情報に対して漸次類似度を計算していき、類似度の高い映像セグメント同士を抽出して併合を行なうようになっている。
この第１併合手段１１における併合動作を説明すると、まず、ツリー中の全葉ノードの映像セグメントに付加された内容記述情報の全組み合わせに対して、その類似度を計算する。
【００４５】
類似度の計算法の簡単な例としては、各項目ごと（Who 、Where 、・・・）に以下の式で類似度を計算し、その平均を類似度とするなどがある。この場合、値の範囲は0.0 〜1.0 で、値が大きいほど類似度が高くなる。
【００４６】
【数１】

【００４７】
本発明では、テキスト間の類似度を計算できれば特に計算法は限定しない。しかし、言葉の揺れ（例えば" おはよう" 、" おはよー" ）を吸収できる機能を持つテキスト比較エンジンがより好ましい。
また、上記計算法例で言えば、平均ではなく各項目ごとに重みをつけることで、内容記述情報の任意の項目（複数でも可）に注目して類似度を計算することも可能である。
【００４８】
【数２】

【００４９】
ここで、重み(n) とは、７項目夫々に設定された類似判断を行う際の優先的な度合いであり、その総和は１となる。例えば、Where と WhatAction の項目に対する度合いを夫々”０．３”とし、WhatObjectとWhy の項目に対する度合いを夫々”０．２”とし、残りのWho とWhenとFreeTextの項目に対する度合いを夫々”０”とした場合、まず、Where と WhatAction の項目に対して類似度を計算し、続いて、WhatObjectとWhy の項目に対して類似度を計算する。このとき、残りのWho とWhenとFreeTextの項目が同一または極めて類似していても類似度の計算は行わない。このように特定項目についてのみ類似度を計算させて、その平均値とせずに各項目毎に類似度を判断してもよく、その場合、この項目ごとに異なる度合いが判断時における優先度を表すことになる。なお、このような重みをつけずに、単純に特定の項目のみ類似度を計算させて、その平均値を類似度としても良い。
【００５０】
このようにして、ツリー中の全葉ノードの映像セグメントに付加された内容記述情報の全組み合わせに対して、その類似度を漸次計算していく。そして、内容記述情報の全組み合わせの類似度の中で、類似度の高かった映像セグメントの組を映像情報および内容記述情報の併合対象と決定し併合する。続いて、併合された映像セグメントと、その他の映像セグメントとの全組み合わせに対して類似度を漸次計算、併合していく。この一連の動作は、予め指定された映像セグメント数になるまで繰り返し行われる。
【００５１】
このように計算手段によって、各映像セグメントに付加された内容記述情報の類似度を計算したら、類似度の高い組の併合を行う。
この二つの映像セグメントにおける内容記述情報の併合は、例えば以下の３種類が挙げられる。併合対象の二つの映像セグメントにおける内容記述情報をＣとＤ、併合結果の映像セグメントにおける内容記述情報をＥとして考える。
【００５２】
ＣとＤとの内容記述情報間に包含関係がある場合、包含する側の映像セグメントの内容記述情報のみを、Ｅの内容記述情報とする。すなわち、以下の通りである。
▲１▼ Ｃのテキスト⊃Ｄのテキストが成り立つ時、
Ｅの内容記述情報＝Ｃの内容記述情報
▲２▼ Ｃのテキスト⊂Ｄのテキストが成り立つ時、
Ｅの内容記述情報＝Ｄの内容記述情報
▲３▼ Ｃのテキスト＝Ｄのテキストが成り立つ時、
Ｅの内容記述情報はＣ、Ｄのどちらでも良い。
【００５３】
このようにして、新たな内容記述情報が決定したら、併合対象となった各映像セグメントのうち、包含関係上位の映像セグメントにおける部分映像に新たな内容記述情報を付加し、包含関係下位の映像セグメントを切り捨てる。このようにすることで、類似度の高い複数の映像セグメントを一つにまとめていく。
なお、この併合は、各レイヤー層を関係なく全ての映像セグメントの全組合わせで行ったり、各レイヤー層毎に組み合わせを限定して行ったり、あるいは、最下層のレイヤー層から上位のレイヤー層に向かって漸次行ったり、またはその逆から行ったり、各レイヤー層毎に併合させる優先度である”重み”を付けて併合を行う等、映像セグメントを併合させる形態は特に限定されない。
【００５４】
また、上記した新たな内容記述情報を決定する他の方法して、ＣとＤの内容記述情報をマージし、その結果を、Ｅの内容記述情報としても良い。
マージの方法は、項目ごとに単純に語をつなぎあわせ、重複する部分は省くという方法や、FreeText部に関しては、既存技術である複数の類似文書からの要約方式（稲垣博人ら、類似意味内容の統合による伝達型電子化文書要約方式の提案、情報処理学会第５６回全国大会講演論文集、分冊２、pp.255-256,1998 ）を用いても良い。
また、単純に語（文章）をつなぎあわせていく場合は、SegmentID の若いほうを先頭にした場合のほうが、無理のない語（文章）となる場合が多く、好ましいものである。
前者の例としてSegmentID1.2.3、SegmentID1.2.4の内容記述情報をマージした結果を以下に示す。
【００５５】
（１） SegmentID 1.2.3 とSegmentID 1.2.4 をマージした後の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Capitole 市街, Toulouse, France"
WhatAction = "駅前広場まで説明しながら歩く信号待ち"
WhatObject = "すれ違う人々信号機"
Why = "IDMS'99発表会場へ向かう"
FreeText = "きれいな街。いろいろな人々が行き交う。赤信号で止まる。警報機のような何かが鳴っていると思ったら、どうやら信号らしい。青の時にわたる。"
【００５６】
このように、SegmentID1.2.3とSegmentID1.2.4との組を比較すると、FreeText部において”信号”が同数で一致し、Who 部とWhen部とWhere 部とWhy 部とが夫々完全一致して併合対象となり、SegmentID の若いほうを先頭にマージさせると共に、SegmentID の若いほうの部分映像にこのマージされた内容記述情報を付加させる。そしてSegmentID1.2.4を削除する。
【００５７】
類似度が高い組が複数あった場合は、二つの映像セグメントの合計時間長が最小の組に対して併合処理を行う。この場合において時間長の短い部分映像は切り捨てても良いし、あるいは、単純に部分映像同士を繋げても良いものである。
また、類似度の高い組が複数あった場合に、ツリー構造のレイヤー深さが深い映像セグメントの組の方を優先して併合処理を行うことが好ましい。
【００５８】
次に、セグメント時間長に基づく第２併合手段１２を説明する。
第２併合手段１２は、各映像セグメントにおける内容記述情報の類似判断は行わずに、単に各映像セグメントの夫々の映像時間の和が最短となる組を見つけ出し、その組を併合させるものであり、二つの各映像セグメントにおける内容記述情報の併合は以下の通りになる。
【００５９】
ＣとＤの時間長を比較して、長い方の映像セグメントの内容記述情報のみをＥの内容記述情報とする。すなわち、以下の通りである。
▲１▼ Ｃの時間長＞Ｄの時間長が成り立つ時、
Ｅの内容記述情報＝Ｃの内容記述情報
▲２▼ Ｃの時間長＜Ｄの時間長が成り立つ時、
Ｅの内容記述情報＝Ｄの内容記述情報
▲３▼ Ｃの時間長＝Ｄの時間長が成り立つ時、
Ｅの内容記述情報はＣ、Ｄのどちらでも良い。
【００６０】
このようにして、新たな内容記述情報が決定したら、併合対象となった各映像セグメントのうち、映像時間の短いほうの映像セグメントを切り捨てたり、あるいは、部分映像同士を接続して新たな内容記述情報を付加して一つにまとめる。
【００６１】
レイヤーによるセグメント併合手段１３は、ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、その重みに応じて併合する映像セグメントの優先度を変更する変更手段を、上記した第１併合手段と第２併合手段夫々に加えたものである。
【００６２】
例えば、図５において映像情報「学会の発表」のレイヤー層は、”３”であり、中段のレイヤー層の重みを”０．６”とし、最下のレイヤー層の重みを”０，４”とした場合、まず、中段のレイヤー層で併合できる映像セグメントはないか上記した第１併合手段または第２併合手段を用いてサーチを行う。そして中段のレイヤー層で併合対象がなくなったら、最下のレイヤー層に移って併合できる映像セグメントはないか上記した第１併合手段または第２併合手段を用いてサーチを行う。そして、この、”重み”を併合する際の優先順位とし、中段のレイヤー層における併合をし、続いて、最下のレイヤー層における併合をして、所望の映像セグメント数になるまで併合処理を行う。この場合、中段のレイヤー層による併合のみで所望の映像セグメント数になった場合は、そこで処理を終了させる。
【００６３】
またこれとは別に、”重み”を単純な割合として捉えて、複数の映像セグメント数で構成されたオリジナルの映像情報を所望数の映像セグメントで再構築する際に、減らす映像セグメント数を各層の割合に置き換えて上記した第１併合手段１１または第２併合手段１２を用いてサーチ、併合を行っても良い。
【００６４】
画像情報取得手段２は、画像情報によるセグメント併合手段２１からなり、この技術的手段は各部分映像の画像特徴を利用した公知技術であり、その詳細は本願要旨ではないため説明は省略する。
【００６５】
映像要約出力手段３は、上記した第１併合手段１１、第２併合手段１２、レイヤーによるセグメント併合手段１３、画像情報によるセグメント併合手段２１のうち１つを選択し、複数の映像セグメント数で構成されたオリジナルの映像情報を所望する数の映像セグメントになるまで併合し、再構築された映像情報を出力させるものである。
その態様としては、単純に、要約された映像情報を”動画”としてディスプレイ上に表示させたり、要約された各映像セグメントのフロントフレームを抜き出し、そのフロントフレームと、その内容記述情報とを一覧形式でディスプレイ上に表示または印刷出力させる等があげられる。
【００６６】
後者の一覧形式で出力させた要約前の出力例を図２(SegmentID1.2.3 〜1.2.5 が例示) に要約後の出力例を図３(SegmentID 1.2.3〜1.2.6 が例示) に示す。この図面は、GUI 環境を実現したOSがインストールされたコンピュータに、本実施形態における映像要約における制御プログラムをインストールし、動作させて出力させたものである。
この出力例で用いられた要約手段は、内容記述情報同士をマージし、その結果を新たな内容記述情報とする第１併合手段１１を用いている。
【００６７】
図３に示すようにSegmentID1.2.3とSegmentID1.2.4との組を比較すると、FreeText部において”信号”が一致し、Who 部とWhen部とWhere 部とWhy 部とが夫々完全一致して併合対象となる。そして図４に示すように、映像セグメントIDの若い方を先頭に内容記述情報同士を単純にマージすると共に、映像セグメントIDの若い方を残してSegmentID1.2.4の映像セグメントは削除してディスプレイ上に一覧形式で表示させる。この例で言えば、本発明により閲覧者は、画像数で三枚分ダウンロード量が削減され、一画面のうちで三映像セグメントしか閲覧できなかったものを四映像セグメントを閲覧できるようになっている。なお、この要約された一覧は印刷可能である。
【００６８】
以上、本実施形態における映像要約の制御プログラムの各手段の機能について説明したが、図１に示すように各併合手段を適宜切り替えて映像要約を出力させたり、組み合わせて画像要約を行う。
ここで、各手段それぞれの機能を特定して映像要約を行う一連の手順の一例を図４のフローチャートを用いて説明する。
【００６９】
まず、要約後の映像セグメント数を決定する。仮に映像セグメント数が３００で構成された映像情報を１００の映像セグメント数にする場合は、２００の映像セグメントを削除することとなる。
要約後の映像セグメント数が決定したら、セグメントIDの若い方から総当りで映像セグメントに付加された１組の内容記述情報同士について各項目ごと（Who 、Where 、・・・）に類似度を計算し、その平均値を類似度としていく。計算が終わったらその類似度の最も高い組をサーチする（ステップＳ１００）。
【００７０】
このとき、類似度の高い組が複数あった場合に、ツリー構造のレイヤー深さが深い映像セグメントの組の方を、併合する際の優先順位（併合順番）を上げておく（ステップＳ１０１）。また、二つの映像セグメントの合計時間長が最小の組も優先の対象とする（ステップＳ１０２）。なお、この両者の優先度兼ね合いは、合計時間長とレイヤー深さとを勘案してある設定値によって割り振られている。
【００７１】
このようにして併合対象が決まったら、優先順位（併合順番）の一番高い組の映像セグメント同士を併合させていく。この場合、内容記述情報は単純にセグメントIDの若い方を先頭にマージすると共に、内容記述情報の一致文字数が上位の方の映像セグメントの部分映像にこのマージされた内容記述情報を付加し、下位の方の映像セグメントは削除する（ステップＳ１０３）。
【００７２】
そして、所望した要約後の映像セグメント数に達したか否か判断する（ステップＳ１０４）。達していないと判断したらステップＳ１００に戻り再度併合を行うまでの手順を踏んで併合を行う（ステップＳ１０４：ＮＯ）。所望した要約後の映像セグメント数に達したら（ステップＳ１０４：ＹＥＳ）、各部分映像の画像特徴を捉えてさらに画像セグメントの併合を行って（ステップＳ１０５）、要約された画像情報を得る。このようにして得られた画像情報は、要約された各映像セグメントのフロントフレームを抜き出し、そのフロントフレームと、その内容記述情報とを一覧形式でディスプレイ上に表示させたり印刷出力がされて処理が終了する。
【００７３】
なお、ユーザーが設定した類似度に閾値を与えることで制限を加えることも可能である。この場合、全ての内容記述情報の組の類似度が閾値以下に収まるまで繰り返し行われる。
【００７４】
また、これとは逆に先に画像特徴による要約方法を利用してから本手法を用いること、交互に組み合わせて利用しても同様の映像セグメント数を減らすことも可能である。これは、本手法である内容記述情報を利用した要約と画像特徴を利用した要約だけに限らず、その他の手法、例えば、映像セグメント時間長や音声情報を利用した要約などを組み合わせることが可能である。もちろん本手法である内容記述情報を利用した要約手段だけで構成しても良いものである。
【００７５】
【発明の効果】
本発明は以上のように構成したから、下記の有利な効果を奏する。
本発明によると、映像セグメント毎に付加された内容記述情報に記述された類似度を算出しそれに基づいて映像セグメントを併合させていくから、従来のような画像の要約ではなく、映像の内容の要約が確実にできる。従って、映像情報の概要を把握する際に、短時間で映像の内容が把握でき、例えば、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を一覧出力させた場合、映像を再生し視聴する必要がなくなり、この作業にかかる時間コストが削減できる。
また、インターネットのようなネットワーク越しに映像の概要を公開するときなど、全ての映像セグメントの代表フレームおよび内容記述情報をダウンロードする必要はなくなり、時間コストやネットワーク帯域利用コストを低減することができ、極めて好適な画像要約方法および制御プログラムを提供できる。
【図面の簡単な説明】
【図１】本発明における画像要約における制御プログラムの構成を示す説明図である。
【図２】一覧形式で出力させた要約前の出力例を示す説明図である。
【図３】一覧形式で出力させた要約後の出力例を示す説明図である。
【図４】映像要約を行う一連の手順の一例を示したフローチャートである。
【図５】ツリー構造を呈した映像情報の一例を示した概念図である。
【符号の説明】
１内容記述情報パース手段
１１第１併合手段
１２第２併合手段
１３レイヤーによるセグメント併合手段
２画像情報取得手段
３映像要約出力手段

Claims

シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約方法であって、
前記内容記述情報同士の類似度を計算する計算工程と、
前記計算工程で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第１併合工程と、を有してなり、
予め指定された映像セグメント数になるまで前記計算工程と前記第１併合工程とを繰り返し行うことを特徴とする映像要約方法。
前記内容記述情報が複数項目から構成されてなり、前記計算工程が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする請求項１記載の映像要約方法。
前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算工程が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第１併合工程が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする請求項１記載の映像要約方法。
前記第１併合工程は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする請求項３記載の映像要約方法。
前記第１併合工程が、前記併合対象となった各映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする請求項１から４のいずれか１項に記載の映像要約方法。
前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする請求項５記載の映像要約方法。
前記第１併合工程が、前記併合対象となった各映像セグメントの内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする請求項１から４のいずれか１項に記載の映像要約方法。
前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第２併合工程を加えてなることを特徴とする請求項１から７のいずれか１項に記載の映像要約方法。
前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更工程を加えたことを特徴とする請求項１から８のいずれか１項に記載の映像要約方法。
要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力工程を加えたことを特徴する請求項１から９のいずれか１項に記載の映像要約方法。
シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約における制御プログラムであって、
前記内容記述情報同士の類似度を計算する計算手段と、
前記計算手段で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第１併合手段と、を有してなり、
コンピュータに前記計算手段、前記第１併合手段、として機能させ、予め指定された映像セグメント数になるまで繰り返し行うことを特徴とする映像要約における制御プログラム。
前記内容記述情報が複数項目から構成されてなり、前記計算手段が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする請求項１１記載の映像要約における制御プログラム。
前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算手段が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第１併合手段が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする請求項１１記載の映像要約における制御プログラム。
前記第１併合手段は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする請求項１３のいずれか１項に記載の映像要約における制御プログラム。
前記第１併合手段が、前記併合対象となった各映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする請求項１１から１４のいずれか１項に記載の映像要約における制御プログラム。
前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする請求項１５記載の映像要約における制御プログラム。
前記第１併合手段が、前記併合対象となった各映像セグメントの内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする請求項１１から１４のいずれか１項に記載の映像要約における制御プログラム。
前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第２併合手段を加えてなり、コンピュータに該第２併合手段として機能させることを特徴とする請求項１１から１７のいずれか１項に記載の映像要約における制御プログラム。
前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更手段を加えてなり、コンピュータに該変更手段として機能させたことを特徴とする請求項１１から１８のいずれか１項に記載の映像要約における制御プログラム。
要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力手段を加えてなり、コンピュータに該要約出力手段として機能させたことを特徴する請求項１１から１９のいずれか１項に記載の映像要約における制御プログラム。