JP4390407B2 - 映像要約方法、および制御プログラム - Google Patents

映像要約方法、および制御プログラム Download PDF

Info

Publication number
JP4390407B2
JP4390407B2 JP2001203878A JP2001203878A JP4390407B2 JP 4390407 B2 JP4390407 B2 JP 4390407B2 JP 2001203878 A JP2001203878 A JP 2001203878A JP 2001203878 A JP2001203878 A JP 2001203878A JP 4390407 B2 JP4390407 B2 JP 4390407B2
Authority
JP
Japan
Prior art keywords
video
description information
content description
merging
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001203878A
Other languages
English (en)
Other versions
JP2003018540A (ja
Inventor
望 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001203878A priority Critical patent/JP4390407B2/ja
Publication of JP2003018540A publication Critical patent/JP2003018540A/ja
Application granted granted Critical
Publication of JP4390407B2 publication Critical patent/JP4390407B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、一般に多大な時間を必要とする映像の再生・視聴を行わずに、映像の概要把握を可能とする映像要約方法およびその制御プログラムに関するものである。
【0002】
【従来の技術】
映像情報の内容を把握するには、映像を再生し視聴する必要がある。しかし、一般にこの作業には映像時間と略同時間程度の時間が必要になり、単に映像情報の概要のみを把握したい場合は極めて面倒である。
このような問題に着目し、作業の効率化を計ったものとして、例えば、特開2000−308008号公報と、特開平10−112835号公報に開示された発明がある。
【0003】
特開2000−308008号公報に開示されたビデオのセグメント重要度を決定する方法およびフレームセットを限定領域にパックする方法は、ビデオの各々のショットの重要度を決定し、重要度に基づいてビデオ要約を生成し、重要度に基づいて代表フレームのサイズを変更し限定領域にパックすることを目的としている。
【0004】
その解決手段として、重要度の測定値が、ビデオのセグメント化された部分について計算される。重要度の測定値は、最も重要なセグメントを選択して、選択されたセグメントについての代表フレームを生成するために使用することができる。閾値処理を行うプロセスは、フレームによって表されるべきショット或いはセグメントの予め決められた数、或いは、実行中に生成される適切な数を供給するために、重要度スコアに適用される。次いで、代表フレームは、ビデオ要約にパックされる。パックされるべきフレームのサイズは、それらの重要度の測定値によって予め決められ、使用可能空間に従って調整される、としている。
【0005】
特開平10−112835号公報に開示された映像要約方法および映像表示方法は、映像内容の多様性および使用者の好みの多様性に対応する映像要約装置および要約情報を効率的に表示するための映像表示装置を提供することを目的としている。
【0006】
その解決手段として、この発明の映像要約システムは取り込まれた映像を所定の基準に基づいて分割して形成した複数のシーンより映像の要約情報を抽出するための複数の映像要約手段を含む映像要約装置と、これらの要約情報を選択することのできる映像表示装置を備えている。この構成により、一定の映像要約基準のみで画一的に代表画像を選択する従来の映像要約装置や代表画像を映像の長さに関係なく選択する従来の映像表示装置と比べて、映像内容の多様性および使用者の好みの多様性に対応することができる、としている。
【0007】
ところで、現在、国際標準化機構および国際電気標準会議において、デジタルコンテンツを特徴によって検索する方式として、「マルチメディアコンテントの記述インターフェース」すなわち、MPEG−7の標準化が進められている。
ここで、映像に対するセグメントおよび内容記述情報の例を図5に示す。
図5に示すように、「学会発表の報告」の映像があったとする。この「学会発表の報告」は、学会での発表報告を中心にその前後、つまり、「出発前の練習」、「学会会場までの道程」と続いて「会場内」そして「発表」といった具合に、まず大きな節から成り、さらに、例えば「学会会場までの道程」を例にとると、そのシーンは、「市外」、「信号待ち」、「駅前広場」…、といったようにツリー構造をなしており、映像情報として一般的である。なお、このようにツリー構造を成すショット・シーン・意味的なまとまりのような部分映像を、以下、「映像セグメント」という。
【0008】
そして、この内容記述情報とは、映像の内容に関して記述したテキスト情報のことをいうが、例えば、単純な場合は登場人物や撮影場所名、日時、概要などが記述されている。さらに豊富な情報を含む場合は、シーンに関連する背景などの情報や内容記述者の主観的感想などを記述することも可能であり、図5に示すように、夫々のシーンにおいて内容記述情報を付加することが可能である。
この内容記述情報は、上述したように、現在、MPEG−7などでその標準化がすすめられている。一般に、これらの内容記述情報は膨大な量の映像データを持つ映像データベースからセグメントを検索するためのインデックスとして利用される。
【0009】
【発明が解決しようとする課題】
一方、従来の技術として挙げた先行技術は、その両者とも上記の作業を効率化するために、画像の色情報などを利用し映像を自動的にショットに分割・代表フレームを選択し、各ショットの代表フレーム間の類似度から似たショットを併合あるいは削除することで、ショット数を減らし、それらの各ショットの代表フレームおよびショットの説明を紙媒体のような二次元表示媒体にマッピングすることにより、映像情報の効率的な把握を行っている。なお、これらを映像情報の要約と呼んでいる。
【0010】
しかしながら、これらの方法は画像の特徴に依存するものであり、ショット間が画像(視覚)的に全く異なる場合、例えショットの意味的な内容が似ていても、一方のショットが併合・削除されることはない。すなわち、これらの方法から生成される映像要約は映像中の画像の要約ではあるが、映像の内容の要約とは言えない。
【0011】
そこで、本発明は、上記問題を解決するため、映像セグメントごとに付加された内容記述情報を利用し、映像の内容の要約を行うことにより、映像情報の概要把握の効率を向上させた映像要約方法およびその制御プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
従来技術として挙げた先行技術でも述べられているように、映像の要約とは、すなわちセグメントの併合を繰り返すことである。そこで本件発明者は、画像情報ではなく、上記内容記述情報のテキストの類似度とセグメントの時間長を利用することによって、効率的に映像の内容を把握できる映像要約情報を生成されることを見出し、発明するに至った。
【0013】
すなわち、上記課題を達成するため、請求項1の発明は、シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約方法であって、前記内容記述情報同士の類似度を計算する計算工程と、前記計算工程で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して併合する第1併合工程と、を有してなり、予め指定された映像セグメント数になるまで前記計算工程と前記第1併合工程とを繰り返し行うことを特徴とする映像要約方法にある。
【0014】
請求項2の発明は、請求項1において、前記内容記述情報が複数項目から構成されてなり、前記計算工程が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする映像要約方法にある。
【0015】
請求項3の発明は、請求項1において、前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算工程が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第1併合工程が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする映像要約方法にある。
【0017】
請求項4の発明は、請求項3において、前記第1併合工程は、前記類似度が最も映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする映像要約方法にある。
【0018】
請求項5の発明は、請求項1から4のいずれかにおいて、前記第1併合工程が、前記併合対象となった映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする映像要約方法にある。
【0019】
請求項6の発明は、請求項5において、前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする映像要約方法にある。
【0020】
請求項7の発明は、請求項1から4のいずれかおいて、前記第1併合工程が、前記併合対象となった各高い複数の映像セグメント内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする映像要約方法にある。
【0021】
請求項の発明は、請求項1からのいずれかにおいて、前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第2併合工程を加えてなることを特徴とする映像要約方法にある。
【0022】
請求項の発明は、請求項1からのいずれかにおいて、前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更工程を加えたことを特徴とする映像要約方法にある。
【0024】
請求項10の発明は、請求項1からのいずれかにおいて、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力工程を加えたことを特徴する映像要約方法にある。
【0025】
請求項11の発明は、シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約における制御プログラムであって、前記内容記述情報同士の類似度を計算する計算手段と、前記計算手段で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第1併合手段と、を有してなり、コンピュータに前記計算手段、前記第1併合手段、として機能させ、予め指定された映像セグメント数になるまで繰り返し行うことを特徴とする映像要約における制御プログラムにある。
【0026】
請求項12の発明は、請求項11において、前記内容記述情報が複数項目から構成されてなり、前記計算手段が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする映像要約における制御プログラムにある。
【0027】
請求項13の発明は、請求項11において、前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算手段が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第1併合手段が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする映像要約における制御プログラムにある。
【0029】
請求項14の発明は、請求項13において、前記第1併合手段は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする映像要約における制御プログラムにある。
【0030】
請求項15の発明は、請求項11から14のいずれかにおいて、前記第1併合手段が、前記併合対象となった映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする映像要約における制御プログラムにある。
【0031】
請求項16の発明は、請求項15において、前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする映像要約における制御プログラムにある。
【0032】
請求項17の発明は、請求項11から14のいずれかにおいて、前記第1併合手段が、前記併合対象となった各映像セグメント内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする映像要約における制御プログラムにある。
【0033】
請求項18の発明は、請求項11から17のいずれかにおいて、前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第2併合手段を加えてなり、コンピュータに該第2併合手段として機能させことを特徴とする映像要約における制御プログラムにある。
【0034】
請求項19の発明は、請求項11から18のいずれかにおいて、前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更手段を加えてなり、コンピュータに該変更手段として機能させたことを特徴とする映像要約における制御プログラムにある。
【0036】
請求項20の発明は、請求項11から19のいずれかにおいて、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力手段を加えてなり、コンピュータに該要約出力手段として機能させたことを特徴する映像要約における制御プログラムにある。
【0037】
【発明の実施の形態】
以下、添付図面を参照しながら、本発明の実施の形態を詳細に説明する。
まず、本実施形態における映像要約における制御プログラムを説明する前に、内容記述情報が付加された映像情報について図5を用いて説明する。
この映像情報は、図5は、従来の技術の欄で説明したように、「学会発表の報告」の映像について例示している。すなわち、この「学会発表の報告」は、学会での発表報告を中心にその前後、つまり、「出発前の練習」、「学会会場までの道程」と続いて「会場内」そして「発表」といった具合に、まず大きな節から成り、例えば「学会会場までの道程」を例にとると、さらにそのシーンは、「市外」、「信号待ち」、「駅前広場」…、といったようにツリー構造(階層構造)になった部分映像によって構成されている。
【0038】
夫々映像時間が異なった各レイヤー(層)夫々の部分映像は、各シーンが特定できるようにSegmentID が振られており、このSegmentID に、Who 、When、Where 、WhatAction、WhatObject、Why 、FreeTextの7つの項目からなる内容記述情報(テキスト)が夫々付加されて映像セグメントが構成され、検索、管理、編集などが容易に行えるようになっている。
なお、この内容記述情報は、図示したような7項目に限定されず、またこのような項目分けによる態様にも限らず、その他、映像セグメントと対応付けられればその形式は問わない。
【0039】
ここで、説明を簡単にするために、図5において映像の一部、すなわち、学会会場までの道程SegmentID 1.2 の下層レイヤーのうち、SegmentID 1.2.3 と、SegmentID 1.2.4 と、SegmentID 1.2.5 の各映像セグメントに対応する内容記述情報について着目して説明を進める。
これらの内容記述情報は以下のようになっている。
【0040】
(1) SegmentID 1.2.3 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日
"Where = "Capitole市街, Toulouse, France"
WhatAction= " 駅前広場まで説明しながら歩く"
WhatObject = "すれ違う人々"
Why = "IDMS'99発表会場へ向かう
"FreeText = " きれいな街。いろいろな人々が行き交う。赤信号で止まる。
【0041】
(2) SegmentID 1.2.4 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Capitole 市街, Toulouse, France"
WhatAction = "信号待ち"
WhatObject = "信号機"
Why = "IDMS'99発表会場へ向かう"
FreeText = "警報機のような何かが鳴っていると思ったら、どうやら信号らしい。青の時にわたる。"
【0042】
(3) SegmentID 1.2.5 の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Metro Capitole Station 駅前広場, Toulouse, France"
WhatAction = "駅構内への階段を下る"
WhatObject = "メトロの入り口と看板"
Why = "IDMS'99発表会場へ向かう"
FreeText = "公園のようにきれい。メトロの看板。"
【0043】
本実施形態における映像要約における制御プログラムは、図1に示すように、内容記述情報パース手段1と、画像情報取得手段2と、映像要約出力手段3とを備えて構成されている。
内容記述情報パース手段1は、映像情報と内容記述情報とを併合させるものであり、内容記述情報に基づいて各映像セグメントを併合する第1併合手段11と、各映像セグメントの時間長に基づいて各映像セグメントを併合する第2併合手段12と、レイヤーによるセグメント併合手段13とを備えてなる。
【0044】
第1併合手段11は、各映像セグメントに付加された内容記述情報の類似度を計算する計算手段が具備され、映像情報を構成する複数の映像セグメントの該内容記述情報に対して漸次類似度を計算していき、類似度の高い映像セグメント同士を抽出して併合を行なうようになっている。
この第1併合手段11における併合動作を説明すると、まず、ツリー中の全葉ノードの映像セグメントに付加された内容記述情報の全組み合わせに対して、その類似度を計算する。
【0045】
類似度の計算法の簡単な例としては、各項目ごと(Who 、Where 、・・・)に以下の式で類似度を計算し、その平均を類似度とするなどがある。この場合、値の範囲は0.0 〜1.0 で、値が大きいほど類似度が高くなる。
【0046】
【数1】
Figure 0004390407
【0047】
本発明では、テキスト間の類似度を計算できれば特に計算法は限定しない。しかし、言葉の揺れ(例えば" おはよう" 、" おはよー" )を吸収できる機能を持つテキスト比較エンジンがより好ましい。
また、上記計算法例で言えば、平均ではなく各項目ごとに重みをつけることで、内容記述情報の任意の項目(複数でも可)に注目して類似度を計算することも可能である。
【0048】
【数2】
Figure 0004390407
【0049】
ここで、重み(n) とは、7項目夫々に設定された類似判断を行う際の優先的な度合いであり、その総和は1となる。例えば、Where と WhatAction の項目に対する度合いを夫々”0.3”とし、WhatObjectとWhy の項目に対する度合いを夫々”0.2”とし、残りのWho とWhenとFreeTextの項目に対する度合いを夫々”0”とした場合、まず、Where と WhatAction の項目に対して類似度を計算し、続いて、WhatObjectとWhy の項目に対して類似度を計算する。このとき、残りのWho とWhenとFreeTextの項目が同一または極めて類似していても類似度の計算は行わない。このように特定項目についてのみ類似度を計算させて、その平均値とせずに各項目毎に類似度を判断してもよく、その場合、この項目ごとに異なる度合いが判断時における優先度を表すことになる。なお、このような重みをつけずに、単純に特定の項目のみ類似度を計算させて、その平均値を類似度としても良い。
【0050】
このようにして、ツリー中の全葉ノードの映像セグメントに付加された内容記述情報の全組み合わせに対して、その類似度を漸次計算していく。そして、内容記述情報の全組み合わせの類似度の中で、類似度の高かった映像セグメントの組を映像情報および内容記述情報の併合対象と決定し併合する。続いて、併合された映像セグメントと、その他の映像セグメントとの全組み合わせに対して類似度を漸次計算、併合していく。この一連の動作は、予め指定された映像セグメント数になるまで繰り返し行われる。
【0051】
このように計算手段によって、各映像セグメントに付加された内容記述情報の類似度を計算したら、類似度の高い組の併合を行う。
この二つの映像セグメントにおける内容記述情報の併合は、例えば以下の3種類が挙げられる。併合対象の二つの映像セグメントにおける内容記述情報をCとD、併合結果の映像セグメントにおける内容記述情報をEとして考える。
【0052】
CとDとの内容記述情報間に包含関係がある場合、包含する側の映像セグメントの内容記述情報のみを、Eの内容記述情報とする。すなわち、以下の通りである。
▲1▼ Cのテキスト⊃Dのテキストが成り立つ時、
Eの内容記述情報=Cの内容記述情報
▲2▼ Cのテキスト⊂Dのテキストが成り立つ時、
Eの内容記述情報=Dの内容記述情報
▲3▼ Cのテキスト=Dのテキストが成り立つ時、
Eの内容記述情報はC、Dのどちらでも良い。
【0053】
このようにして、新たな内容記述情報が決定したら、併合対象となった各映像セグメントのうち、包含関係上位の映像セグメントにおける部分映像に新たな内容記述情報を付加し、包含関係下位の映像セグメントを切り捨てる。このようにすることで、類似度の高い複数の映像セグメントを一つにまとめていく。
なお、この併合は、各レイヤー層を関係なく全ての映像セグメントの全組合わせで行ったり、各レイヤー層毎に組み合わせを限定して行ったり、あるいは、最下層のレイヤー層から上位のレイヤー層に向かって漸次行ったり、またはその逆から行ったり、各レイヤー層毎に併合させる優先度である”重み”を付けて併合を行う等、映像セグメントを併合させる形態は特に限定されない。
【0054】
また、上記した新たな内容記述情報を決定する他の方法して、CとDの内容記述情報をマージし、その結果を、Eの内容記述情報としても良い。
マージの方法は、項目ごとに単純に語をつなぎあわせ、重複する部分は省くという方法や、FreeText部に関しては、既存技術である複数の類似文書からの要約方式(稲垣博人ら、類似意味内容の統合による伝達型電子化文書要約方式の提案、情報処理学会第56回全国大会講演論文集、分冊2、pp.255-256,1998 )を用いても良い。
また、単純に語(文章)をつなぎあわせていく場合は、SegmentID の若いほうを先頭にした場合のほうが、無理のない語(文章)となる場合が多く、好ましいものである。
前者の例としてSegmentID1.2.3、SegmentID1.2.4の内容記述情報をマージした結果を以下に示す。
【0055】
(1) SegmentID 1.2.3 とSegmentID 1.2.4 をマージした後の内容記述情報
Who = " 高橋望"
When = "1999年10月16日"
Where = "Capitole 市街, Toulouse, France"
WhatAction = "駅前広場まで説明しながら歩く 信号待ち"
WhatObject = "すれ違う人々 信号機"
Why = "IDMS'99発表会場へ向かう"
FreeText = "きれいな街。いろいろな人々が行き交う。赤信号で止まる。警報機のような何かが鳴っていると思ったら、どうやら信号らしい。青の時にわたる。"
【0056】
このように、SegmentID1.2.3とSegmentID1.2.4との組を比較すると、FreeText部において”信号”が同数で一致し、Who 部とWhen部とWhere 部とWhy 部とが夫々完全一致して併合対象となり、SegmentID の若いほうを先頭にマージさせると共に、SegmentID の若いほうの部分映像にこのマージされた内容記述情報を付加させる。そしてSegmentID1.2.4を削除する。
【0057】
類似度が高い組が複数あった場合は、二つの映像セグメントの合計時間長が最小の組に対して併合処理を行う。この場合において時間長の短い部分映像は切り捨てても良いし、あるいは、単純に部分映像同士を繋げても良いものである。
また、類似度の高い組が複数あった場合に、ツリー構造のレイヤー深さが深い映像セグメントの組の方を優先して併合処理を行うことが好ましい。
【0058】
次に、セグメント時間長に基づく第2併合手段12を説明する。
第2併合手段12は、各映像セグメントにおける内容記述情報の類似判断は行わずに、単に各映像セグメントの夫々の映像時間の和が最短となる組を見つけ出し、その組を併合させるものであり、二つの各映像セグメントにおける内容記述情報の併合は以下の通りになる。
【0059】
CとDの時間長を比較して、長い方の映像セグメントの内容記述情報のみをEの内容記述情報とする。すなわち、以下の通りである。
▲1▼ Cの時間長>Dの時間長が成り立つ時、
Eの内容記述情報=Cの内容記述情報
▲2▼ Cの時間長<Dの時間長が成り立つ時、
Eの内容記述情報=Dの内容記述情報
▲3▼ Cの時間長=Dの時間長が成り立つ時、
Eの内容記述情報はC、Dのどちらでも良い。
【0060】
このようにして、新たな内容記述情報が決定したら、併合対象となった各映像セグメントのうち、映像時間の短いほうの映像セグメントを切り捨てたり、あるいは、部分映像同士を接続して新たな内容記述情報を付加して一つにまとめる。
【0061】
レイヤーによるセグメント併合手段13は、ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、その重みに応じて併合する映像セグメントの優先度を変更する変更手段を、上記した第1併合手段と第2併合手段夫々に加えたものである。
【0062】
例えば、図5において映像情報「学会の発表」のレイヤー層は、”3”であり、中段のレイヤー層の重みを”0.6”とし、最下のレイヤー層の重みを”0,4”とした場合、まず、中段のレイヤー層で併合できる映像セグメントはないか上記した第1併合手段または第2併合手段を用いてサーチを行う。そして中段のレイヤー層で併合対象がなくなったら、最下のレイヤー層に移って併合できる映像セグメントはないか上記した第1併合手段または第2併合手段を用いてサーチを行う。そして、この、”重み”を併合する際の優先順位とし、中段のレイヤー層における併合をし、続いて、最下のレイヤー層における併合をして、所望の映像セグメント数になるまで併合処理を行う。この場合、中段のレイヤー層による併合のみで所望の映像セグメント数になった場合は、そこで処理を終了させる。
【0063】
またこれとは別に、”重み”を単純な割合として捉えて、複数の映像セグメント数で構成されたオリジナルの映像情報を所望数の映像セグメントで再構築する際に、減らす映像セグメント数を各層の割合に置き換えて上記した第1併合手段11または第2併合手段12を用いてサーチ、併合を行っても良い。
【0064】
画像情報取得手段2は、画像情報によるセグメント併合手段21からなり、この技術的手段は各部分映像の画像特徴を利用した公知技術であり、その詳細は本願要旨ではないため説明は省略する。
【0065】
映像要約出力手段3は、上記した第1併合手段11、第2併合手段12、レイヤーによるセグメント併合手段13、画像情報によるセグメント併合手段21のうち1つを選択し、複数の映像セグメント数で構成されたオリジナルの映像情報を所望する数の映像セグメントになるまで併合し、再構築された映像情報を出力させるものである。
その態様としては、単純に、要約された映像情報を”動画”としてディスプレイ上に表示させたり、要約された各映像セグメントのフロントフレームを抜き出し、そのフロントフレームと、その内容記述情報とを一覧形式でディスプレイ上に表示または印刷出力させる等があげられる。
【0066】
後者の一覧形式で出力させた要約前の出力例を図2(SegmentID1.2.3 〜1.2.5 が例示) に要約後の出力例を図3(SegmentID 1.2.3〜1.2.6 が例示) に示す。この図面は、GUI 環境を実現したOSがインストールされたコンピュータに、本実施形態における映像要約における制御プログラムをインストールし、動作させて出力させたものである。
この出力例で用いられた要約手段は、内容記述情報同士をマージし、その結果を新たな内容記述情報とする第1併合手段11を用いている。
【0067】
図3に示すようにSegmentID1.2.3とSegmentID1.2.4との組を比較すると、FreeText部において”信号”が一致し、Who 部とWhen部とWhere 部とWhy 部とが夫々完全一致して併合対象となる。そして図4に示すように、映像セグメントIDの若い方を先頭に内容記述情報同士を単純にマージすると共に、映像セグメントIDの若い方を残してSegmentID1.2.4の映像セグメントは削除してディスプレイ上に一覧形式で表示させる。この例で言えば、本発明により閲覧者は、画像数で三枚分ダウンロード量が削減され、一画面のうちで三映像セグメントしか閲覧できなかったものを四映像セグメントを閲覧できるようになっている。なお、この要約された一覧は印刷可能である。
【0068】
以上、本実施形態における映像要約の制御プログラムの各手段の機能について説明したが、図1に示すように各併合手段を適宜切り替えて映像要約を出力させたり、組み合わせて画像要約を行う。
ここで、各手段それぞれの機能を特定して映像要約を行う一連の手順の一例を図4のフローチャートを用いて説明する。
【0069】
まず、要約後の映像セグメント数を決定する。仮に映像セグメント数が300で構成された映像情報を100の映像セグメント数にする場合は、200の映像セグメントを削除することとなる。
要約後の映像セグメント数が決定したら、セグメントIDの若い方から総当りで映像セグメントに付加された1組の内容記述情報同士について各項目ごと(Who 、Where 、・・・)に類似度を計算し、その平均値を類似度としていく。計算が終わったらその類似度の最も高い組をサーチする(ステップS100)。
【0070】
このとき、類似度の高い組が複数あった場合に、ツリー構造のレイヤー深さが深い映像セグメントの組の方を、併合する際の優先順位(併合順番)を上げておく(ステップS101)。また、二つの映像セグメントの合計時間長が最小の組も優先の対象とする(ステップS102)。なお、この両者の優先度兼ね合いは、合計時間長とレイヤー深さとを勘案してある設定値によって割り振られている。
【0071】
このようにして併合対象が決まったら、優先順位(併合順番)の一番高い組の映像セグメント同士を併合させていく。この場合、内容記述情報は単純にセグメントIDの若い方を先頭にマージすると共に、内容記述情報の一致文字数が上位の方の映像セグメントの部分映像にこのマージされた内容記述情報を付加し、下位の方の映像セグメントは削除する(ステップS103)。
【0072】
そして、所望した要約後の映像セグメント数に達したか否か判断する(ステップS104)。達していないと判断したらステップS100に戻り再度併合を行うまでの手順を踏んで併合を行う(ステップS104:NO)。所望した要約後の映像セグメント数に達したら(ステップS104:YES)、各部分映像の画像特徴を捉えてさらに画像セグメントの併合を行って(ステップS105)、要約された画像情報を得る。このようにして得られた画像情報は、要約された各映像セグメントのフロントフレームを抜き出し、そのフロントフレームと、その内容記述情報とを一覧形式でディスプレイ上に表示させたり印刷出力がされて処理が終了する。
【0073】
なお、ユーザーが設定した類似度に閾値を与えることで制限を加えることも可能である。この場合、全ての内容記述情報の組の類似度が閾値以下に収まるまで繰り返し行われる。
【0074】
また、これとは逆に先に画像特徴による要約方法を利用してから本手法を用いること、交互に組み合わせて利用しても同様の映像セグメント数を減らすことも可能である。これは、本手法である内容記述情報を利用した要約と画像特徴を利用した要約だけに限らず、その他の手法、例えば、映像セグメント時間長や音声情報を利用した要約などを組み合わせることが可能である。もちろん本手法である内容記述情報を利用した要約手段だけで構成しても良いものである。
【0075】
【発明の効果】
本発明は以上のように構成したから、下記の有利な効果を奏する。
本発明によると、映像セグメント毎に付加された内容記述情報に記述された類似度を算出しそれに基づいて映像セグメントを併合させていくから、従来のような画像の要約ではなく、映像の内容の要約が確実にできる。従って、映像情報の概要を把握する際に、短時間で映像の内容が把握でき、例えば、要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を一覧出力させた場合、映像を再生し視聴する必要がなくなり、この作業にかかる時間コストが削減できる。
また、インターネットのようなネットワーク越しに映像の概要を公開するときなど、全ての映像セグメントの代表フレームおよび内容記述情報をダウンロードする必要はなくなり、時間コストやネットワーク帯域利用コストを低減することができ、極めて好適な画像要約方法および制御プログラムを提供できる。
【図面の簡単な説明】
【図1】本発明における画像要約における制御プログラムの構成を示す説明図である。
【図2】一覧形式で出力させた要約前の出力例を示す説明図である。
【図3】一覧形式で出力させた要約後の出力例を示す説明図である。
【図4】映像要約を行う一連の手順の一例を示したフローチャートである。
【図5】ツリー構造を呈した映像情報の一例を示した概念図である。
【符号の説明】
1 内容記述情報パース手段
11 第1併合手段
12 第2併合手段
13 レイヤーによるセグメント併合手段
2 画像情報取得手段
3 映像要約出力手段

Claims (20)

  1. シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約方法であって、
    前記内容記述情報同士の類似度を計算する計算工程と、
    前記計算工程で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第1併合工程と、を有してなり、
    予め指定された映像セグメント数になるまで前記計算工程と前記第1併合工程とを繰り返し行うことを特徴とする映像要約方法。
  2. 前記内容記述情報が複数項目から構成されてなり、前記計算工程が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする請求項1記載の映像要約方法。
  3. 前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算工程が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第1併合工程が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする請求項1記載の映像要約方法。
  4. 前記第1併合工程は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする請求項3記載の映像要約方法。
  5. 前記第1併合工程が、前記併合対象となった映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする請求項1から4のいずれか1項に記載の映像要約方法。
  6. 前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする請求項5記載の映像要約方法。
  7. 前記第1併合工程が、前記併合対象となった各映像セグメント内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメントの内容記述情報とすることを特徴とする請求項1から4のいずれか1項に記載の映像要約方法。
  8. 前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第2併合工程を加えてなることを特徴とする請求項1から7のいずれか1項に記載の映像要約方法。
  9. 前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更工程を加えたことを特徴とする請求項1から8のいずれか1項に記載の映像要約方法。
  10. 要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力工程を加えたことを特徴する請求項1から9のいずれか1項に記載の映像要約方法。
  11. シーンやカット等の部分映像毎にその映像内容を表現する文字情報からなる内容記述情報が該部分映像に付加されて映像セグメントが構成され、該映像セグメントがツリー状に複数連なって構成された映像情報を要約する映像要約における制御プログラムであって、
    前記内容記述情報同士の類似度を計算する計算手段と、
    前記計算手段で算出された類似度のうち、類似度が最も高い映像セグメント同士の組み合わせを併合対象とし、前記併合対象となった各映像セグメントのうち代表となる一つの映像セグメントを構成する部分映像を残して削除すると共に、該部分映像に内容記述情報を付加して、併合する第1併合手段と、を有してなり、
    コンピュータに前記計算手段、前記第1併合手段、として機能させ、予め指定された映像セグメント数になるまで繰り返し行うことを特徴とする映像要約における制御プログラム。
  12. 前記内容記述情報が複数項目から構成されてなり、前記計算手段が、該内容記述情報のうち指定した一部の項目に関してのみ類似度を計算することを特徴とする請求項11記載の映像要約における制御プログラム。
  13. 前記内容記述情報が複数項目から構成されてなり、各項目毎に映像要約を実行させる度合いである重みを与え、前記計算手段が、該重みが付けられた項目にのみ類似度を計算すると共に、前記第1併合手段が、該重みの度合いに応じて併合させる優先順位の決定をし、所望数の映像セグメントになるまで該優先順位に基づいて映像セグメント同士を併合することを特徴とする請求項11記載の映像要約における制御プログラム。
  14. 前記第1併合手段は、前記類似度が最も高い映像セグメントの組が複数あった場合において、ツリー構造のレイヤー深さが深い映像セグメントの組を優先して併合を行うことを特徴とする請求項13のいずれか1項に記載の映像要約における制御プログラム。
  15. 前記第1併合手段が、前記併合対象となった映像セグメントのうち代表となる映像セグメントの内容記述情報を併合後の映像セグメントの内容記述情報とすることを特徴とする請求項11から14のいずれか1項に記載の映像要約における制御プログラム。
  16. 前記代表となる映像セグメントは、前記併合対象となった各映像セグメントのうち、包含関係にある上位の映像セグメントであることを特徴とする請求項15記載の映像要約における制御プログラム。
  17. 前記第1併合手段が、前記併合対象となった各映像セグメントの内容記述情報をマージし、そのマージされた内容記述情報を併合された映像セグメント内容記述情報とすることを特徴とする請求項11から14のいずれか1項に記載の映像要約における制御プログラム。
  18. 前記映像セグメント毎に異なる映像時間の和が最短となる映像セグメントの組をサーチし併合させると共に、その組において映像時間の長い方の映像セグメントに付加された内容記述情報を併合された映像セグメントの内容記述情報とする第2併合手段を加えてなり、コンピュータに該第2併合手段として機能させることを特徴とする請求項11から17のいずれか1項に記載の映像要約における制御プログラム。
  19. 前記ツリー状を呈した映像情報の各レイヤー層毎に映像要約を実行させる度合いである重みを与え、該重みに応じて併合する映像セグメントの優先度を変更する変更手段を加えてなり、コンピュータに該変更手段として機能させたことを特徴とする請求項11から18のいずれか1項に記載の映像要約における制御プログラム。
  20. 要約された映像情報を構成する各映像セグメントの静止フレームとその静止フレームに対する内容記述情報とで映像要約を作成、出力する要約出力手段を加えてなり、コンピュータに該要約出力手段として機能させたことを特徴する請求項11から19のいずれか1項に記載の映像要約における制御プログラム。
JP2001203878A 2001-07-04 2001-07-04 映像要約方法、および制御プログラム Expired - Fee Related JP4390407B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001203878A JP4390407B2 (ja) 2001-07-04 2001-07-04 映像要約方法、および制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001203878A JP4390407B2 (ja) 2001-07-04 2001-07-04 映像要約方法、および制御プログラム

Publications (2)

Publication Number Publication Date
JP2003018540A JP2003018540A (ja) 2003-01-17
JP4390407B2 true JP4390407B2 (ja) 2009-12-24

Family

ID=19040437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001203878A Expired - Fee Related JP4390407B2 (ja) 2001-07-04 2001-07-04 映像要約方法、および制御プログラム

Country Status (1)

Country Link
JP (1) JP4390407B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI310545B (en) * 2003-10-04 2009-06-01 Samsung Electronics Co Ltd Storage medium storing search information and reproducing apparatus
EP1531626B1 (en) * 2003-11-12 2008-01-02 Sony Deutschland GmbH Automatic summarisation for a television programme suggestion engine based on consumer preferences
WO2006031053A2 (en) * 2004-09-13 2006-03-23 Lg Electronics Inc. Recording medium, method for searching contents recorded within the recording medium, and method and apparatus for reproducing the recorded contents

Also Published As

Publication number Publication date
JP2003018540A (ja) 2003-01-17

Similar Documents

Publication Publication Date Title
JP4987907B2 (ja) メタデータ処理装置
Prabhakaran Multimedia database management systems
KR100878094B1 (ko) 기억 장치 및 기록 매체
US20210117471A1 (en) Method and system for automatically generating a video from an online product representation
JP2002135747A (ja) 個人用映画プレゼンテーションおよび個人用映画コレクションの作成を可能にするシステムおよび方法
JP2003511801A (ja) 効率的な概観及びブラウジングのためのビデオ要約記述構造と、ビデオ要約記述データ生成の方法及びシステム
JP2002108892A (ja) データ管理システム、データ管理方法、及び、記録媒体
JP4390407B2 (ja) 映像要約方法、および制御プログラム
JP4309127B2 (ja) 動画像コンテンツを検索するための検索情報を管理する装置
JP2006099761A (ja) マルチメディアのコンテンツ検索方法
WO2001082131A1 (fr) Dispositif d'extraction d'informations
Klippgen et al. The Use of Metadata for the Rendering of Personalized Video Delivery.
KR102027297B1 (ko) 장면 기반 동영상 네비게이션 장치
EP1331577A1 (en) Dynamic image content search information managing apparatus
JP2008136183A (ja) ヒント情報記述方法
US20230359325A1 (en) User interface for editing of a composite document through intelligently zoomed previews
JP2002092019A (ja) マルチメディアコンテンツ管理及びコーディネート支援方法と装置並びにその方法を実行するためのプログラムを記録した記録媒体
JPH11266449A (ja) 映像構造化装置及び映像化のためのプログラムを記録した記録媒体
CN118283294A (zh) 一种直播视频自动化剪切方法
JP2006202301A (ja) 記憶装置およびコンピュータ読取り可能な記録媒体
Marcelino A computational approach to the art of visual storytelling
Lyu et al. iview: An intelligent video over internet and wireless access system
CN117014679A (zh) 一种内容检测的方法、相关装置、设备以及存储介质
JP2004040393A (ja) 静止画像出力装置、クライアント装置および静止画像出力システム
JP4833346B2 (ja) 記憶装置およびコンピュータ読取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090929

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091006

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees