JP3608758B2 - 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置 - Google Patents

索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置 Download PDF

Info

Publication number
JP3608758B2
JP3608758B2 JP14247796A JP14247796A JP3608758B2 JP 3608758 B2 JP3608758 B2 JP 3608758B2 JP 14247796 A JP14247796 A JP 14247796A JP 14247796 A JP14247796 A JP 14247796A JP 3608758 B2 JP3608758 B2 JP 3608758B2
Authority
JP
Japan
Prior art keywords
frame
video
frames
preview
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14247796A
Other languages
English (en)
Other versions
JPH099202A (ja
Inventor
ベンカテッシュ プラサド ケー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH099202A publication Critical patent/JPH099202A/ja
Application granted granted Critical
Publication of JP3608758B2 publication Critical patent/JP3608758B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)
  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する分野】
本発明は、ビデオレコーディング技術に係り、特に、ビデオレコードの索引生成、索引付け及び編集のための技術に関する。
【0002】
【従来の技術】
ビデオ技術は、テレビニュースビデオやデスクトップテレビ会議のような応用分野でビデオデータベースが一般的になるほど進歩した。しかし、ビデオデータベースの発展に伴い、ビデオデータベースから特定のビデオ部分を検索するための、より一層効率的な方法の必要性が増してきた。ビデオデータベースに対する現在の検索方法の多くは、タイムスタンプ法を利用する。タイムスタンプ法では、人がある特定のビデオ部分の日時を知っていれば、そのビデオ部分を検索することができる。しかしながら、人はビデオ部分の内容については多少知っていたとしても、日時を知らないことが多い。したがって、内容ベースのビデオ索引付け方法に対する関心が高まっている。
【0003】
既存の内容ベースの索引付け方法の中には、低レベル又は中間レベルのオブジェクト、例えば画素または画素領域に類似(similarity)手法を適用するものがある。例えば、ある画素ベースの方法は、まず各フレームを、輝度レベル毎の画素数を表すヒストグラムに変換する。そして、そのヒストグラムに対し相関関数のような類似手法を適用することにより、2フレームが「一致する」か判定する。画素領域ベースの方法は、まず、各フレームをいくつかの均一輝度レベルの画素領域の形で表現し、次に、その表現をエンコードし、最後に、エンコードされた表現に対し相似手法を適用する。しかし、低レベル又は中間レベルのオブジェクトの認識よりも、ビデオ場面内の高レベルのオブジェクトを直接的に検索できるほうが好ましいかもしれない。例えば、ユーザーが「赤いスポーツ車を含む全フレームの一覧表を作成せよ」というような高レベルな照会を使ってビデオデータベースに照会できると効率的であろう。このような方法はブロードなコンテキストでは未だ無理であるが、コンテキストが限定されるとしても高レベルオブジェクト認識を提供できれば望ましい。
【0004】
ビデオデータベースの発展によってもたらされたもう一つのことは、より効率的なビデオ編集方法の必要性が増大したことである。ビデオデータベースの利用により、ビデオ編集時にフィルムを物理的に切ってつなぐ必要は殆どなくなった。物理的に切ってつなぐのではなく、フレームを加工すべくコンピュータにコマンドを入力することにより、データベースに格納されているビデオをコンピュータ上で電子的に編集することができる。しかし、場合によっては、このような方法によるビデオ編集は非現実的であったり、好ましくないかもしれない。例えば、編集者はビデオが格納されているデータベースの近くに現実にいることができないかもしれないし、あるいは、編集者はコンピュータシステム又は適当なソフトウエアを利用できないかもしれない。したがって、編集者が、データベースに直接アクセスせずに、データベースに格納されているビデオを効率的に編集できる編集手法を提供することが望まれる。特に、編集者に、編集すべきフレームを表すハードコピーに編集コマンドを手描きすることによるビデオ編集機能を提供し、編集記号が記入されたハードコピーが自動的に解釈されることによって、その後に、また望むならば別の場所で、ビデオが編集できると望ましい。
【0005】
【発明が解決しようとする課題】
よって、本発明の目的は、以上に述べた従来技術の不十分な点を改善し、また上述の要求に応えるため、新たな索引生成、索引付け、ビデオ議事録生成及びフレーム編集の手段を提供することにある。
【0006】
【課題を解決するための手段】
本発明によれば、音声及び映像の内容を持つレコードの索引を生成する方法及び装置が提供される。索引は複数のラベルからなる。レコードは複数のフレームからなる。それらフレーム中の若干数のフレームには、少なくとも複数のアイコン中の一つがそれぞれ含まれる。この索引生成方法は、1)複数のアイコンを使って複数のラベルを生成するステップ、2)フレーム中で、複数のアイコン中の一つを含まない各フレームを、その内容が複数のラベル中の一つに割り当てられたアイコンの内容と一致するならば、そのラベルに索引付けするステップからなる。
【0007】
また、本発明によれば、人間の情動(affect)を利用して、少なくとも1人の人間を描写している映像内容を持つレコードの索引付けをする方法及び装置も提供される。レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ、人間の複数の情動中の一つを含んでいる。この方法は、1)複数フレーム中のどのフレームがある情動を含んでいるか調べるステップ、2)ある情動を描写するフレームをそれぞれ、複数ラベル中の1つのラベル(1フレームにつき1つ)として格納するステップ、3)フレーム中で、ある情動を描写する各フレーム毎に、そのフレームより生成されたラベルに、そのフレームに対応する他のフレームそれぞれを索引付けするステップからなる。
【0008】
また、本発明によれば、テレビ電子会議のレコードのビデオ議事録を生成する方法も提供される。テレビ電子会議には複数の参加者がいる。レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ、参加者中の1人による複数の有意な動きの中の一つの動きを描写する。この方法は、1)フレーム中で、有意な動きを表す各フレームを複数のラベル中の一つとして格納するステップ(有意な動きを表す各フレームより一つのラベルが生成される)、
2)フレーム中で、ある有意な動きを描写する各フレーム毎に、そのフレームから生成されたラベルに、そのフレームに対応する他フレーム中の各フレームを索引付けするステップからなる。
【0009】
本発明によれば、記録されたニュース放送の映像索引を生成する方法も提供される。記録されたニュース放送は一定のプレビュー場面(footage)と関連付けられている。記録されたニュース放送は複数のニュースフレームからなる。プレビュー場面は複数のプレビューフレームからなる。ニュースフレームとプレビューフレームは両方とも音声及び映像の内容を持つ。索引は複数のラベルからなる。この方法は、1)プレビューフレームをメモリに格納するステップ、2)プレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームを識別するステップ、3)プレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームから複数のラベルを生成するステップからなる。
【0010】
本発明によれば、ビデオレコードの複数のフレームを編集する方法及び装置も提供される。それらフレームはそれぞれ、静的ディスプレイ上に表示される。この方法は、1)静的ディスプレイを調べてユーザにより手描きされた編集記号を探すステップ、2)静的ディスプレイ上に手描きされた編集記号を認識するステップ、3)編集コマンドを表す編集記号の表に基づいて、静的ディスプレイ上に手描きされた編集記号それぞれを、複数の編集コマンド中の一つのコマンドに関連付けるステップ、4)静的ディスプレイ上に手書きされた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正するステップからなる。
【0011】
本発明の上記特徴及び他の特徴は、添付図面及び以下の詳細な説明から明らかになろう。
【0012】
【発明の実施の形態】
以下、本発明による内容ベースのビデオ索引付け及び編集方法について説明する。以下の記述においては、説明用に、本発明を十分理解できるよう多くの具体例が提示される。しかし、それらの具体例によらずに本発明を実施し得ることは当業者には明白であろう。他方、周知の構造及び装置は、本発明をいたずらに難解にしないためブロック図として表される。
【0013】
以下の記述において、”ビデオ”なる用語が頻繁に使用される。本明細書において、”ビデオ”なる用語は、連続して素早く表示されると被写体の動きや他のアニメーションを表現する、関連した画像の時間順シーケンスと定義される。このようなシーケンスは普通、動画と呼ばれる。
【0014】
図1は本発明が実施されるコンピュータシステム1を示す。このコンピュータシステム1は中央処理装置(CPU)10、メモリ20、データ記憶装置3
(例えば磁気ディスク、CD−ROM)、プリンタ40、デジタルビデオチップ(DVC)50、ビデオモニター60、キーボード70、マウス80、スキャナ90、ビデオ入力装置(VIU)100をシステムバス110により結合してなる。VIU100は、図3に示されるように、ビデオソースであるレーザーディスクプレイヤー120、ビデオカメラ140及びビデオカセットレコーダー(VCR)130、又は信号RSを送出するリモートソースよりビデオデータを受け取るフレームグラバー(grabber)150を含む。このリモートソースは、例えば、RFソース(テレビケーブル又はアンテナ等)又はISDNソースである。メモリ20は、図2に示されるように、個別のフレームにフォーマットされたビデオデータを記憶する。図3において、フレームグラバー150はVCR130、ビデオカメラ140、レーザーディスクプレイヤー120又はリモートソースよりビデオデータを受け取り、そのデータを個々のフレームにフォーマットし、フォーマットしたビデオデータをシステムバス110を介してメモり20へ与える。本発明は、データ記憶装置30に格納されたソフトウエアコードによって実施されても、図1にDVC50として示されている専用チップにより実施されてもよい。以下にさらに述べるように、マウス80は、ライトペン、スタイラス、トラックボール等の他の同等なカーソル制御装置で置き換えられてもよい。また、タッチスクリーンを持つモニターを用いることにより、モニター60とマウス80の特定機能が結合されてもよい。
【0015】
本発明は、テレビニュース放送の音声映像レコードに適用可能である。図4は、あるテレビ局による放送の数時間分の時間割を示す。この放送はメインニュース放送200で終わる。このメインニュース放送200の前に、番組A、番組B及び番組Cのような様々な番組(放送)210が組み入れられている。各番組210の間に、コマーシャル212が差し込まれている。さらに、各番組210の前に、約10秒から30秒までの長さで、ニュースアンカー(ニュースを伝える人)が「11時のニュースの時間です ...」で始まる言い回しを話すことが特徴の、短いニュースプレビュー214がある。メインニュース放送200の前には、アンカーによるヘッドライン216のアナウンスもある。
【0016】
ニュースビデオは、一定の高レベルのオブジェクトを容易に認識できる比較的狭いコンテキストを提供する。さて、図5に、ニュース放送のフレーム300が示されている。このフレーム300は高レベルのオブジェクト、すなわちニュースアイコン320、アンカー330及びニュースロゴ340からなっている。ニュースアイコン320は、その後に続くニュースのテーマを絵で示すものである。これらの高レベル・オブジェクトは、ニュースビデオのコンテキストに頻出し、また、フレーム内の予測可能な位置に出現するため、比較的簡単に検出できる。その検出は、一般に、各オブジェクトに関連した大体のオブジェクト領域(ROR)310をサーチすることによりなされる。ビデオ索引付けの分野で周知の多くのオブジェクト検出法が存在するが、そのいずれかにより検出を行うことができる。
【0017】
ニュースアイコン
第1の実施例は、ニュースビデオの索引付けのためにニュースアイコンを利用する。これは、ニュース放送の重要なテーマの前に関連したニュースアイコンが出るのが普通であり、このニュースアイコンは通常、図5に示すようにアンカー330の顔の隣に表示されるとの仮定に基づいている。図6は、フレーム401〜416からなるニュースビデオのフレームシーケンスを表している。フレーム401,402,405はそれぞれニュースアイコン320を描写しているが、このニュースアイコンはポニーを描写するとともにテキスト”PONY TALE”を含む。ニュースアイコン320はフレーム406〜412に描写されるポニーに関するニュースに関連している。同様に、フレーム403,404は、帽子をかぶった男を描写したニュースアイコン321を含んでいる。このニュースアイコン321はフレーム414〜416の内容に関連している。本発明によれば、ニュースアイコンを探すため、入手できるニュース場面(すなわちフレーム404〜416)がサーチされる。見つかった各ニュースアイコンは”ビデオラベル”に選ばれ、これに他のフレームが索引付けされる。本記述において、索引付けとは、一定のフレームの音声、映像又はその両方の内容と特定のビデオラベルとの間に、そのビデオラベルを参照することにより、ある決まった方法でその内容を検索できるような対応関係を作ることと定義される。ビデオラベルはテキストのサーチに利用されるキーワードに類似している。
【0018】
ニュースアイコンをサーチした後、周知の類似法を使って残りのフレームをビデオラベルに索引付けする。利用し得る類似法の例は、相関関数又は主要成分分析である。そして、各ビデオラベル(ニュースアイコン)を拡大して表すアイコンサマリーが生成される。図7はアイコンサマリー345の一例であり、これはビデオラベル350〜359を表し、その中のビデオラベル350,351はそれぞれニュースアイコン320,321に相当する。このアイコンサマリー345はプリンタ40を用いてハードコピーに印刷したり、モニター60に表示したり、あるいはその両方をすることができる。
【0019】
図8はニュースアイコンに基づいてニュースビデオを索引付けする方法600を示すフローチャートである。図6と図8を参照し、方法600をフレーム401〜416に関連して説明する。まず、サーチすべきビデオの最初のフレームがメモリ20より取り出される(ステップ602)。ニュースアイコンがないかフレーム401をサーチすると(ステップ604)、ニュースアイコン320がフレーム401で検出される。そこで、ニュースアイコン320はビデオラベル350としてメモリ20に格納される(ステップ618)。ついで、残りのフレーム402〜416について、その内容がニュースアイコン320の内容と一致するか周知の類似法により調べられる(ステップ620〜624)。あるフレームの内容がニュースアイコン320の内容と一致すると、そのフレームはビデオラベル350(すなわちニュースアイコン320)に索引付けされる。図6を参照すると、ニュースアイコン320はポニーの絵を含んでいるので、類似法を適用すると、少なくともポニーの一部を表しているフレーム406〜412はニュースアイコン320の内容との高い類似度が割り当てられることになろう。フレーム402〜416のそれぞれに類似法が適用された後、別のニュースアイコンが存在するか調べるためフレーム401〜416が再びサーチされる。フレーム403を調べた時に、帽子をかぶった男を表すニュースアイコン321が検出され、ビデオラベル351として格納される。再び、類似法が利用され、その結果、帽子をかぶった男を表すフレーム414〜416にニュースアイコン321の内容との高い類似度が割り当てられる。結果として、フレーム406〜412はニュースアイコン320に対応するビデオラベル350に索引付けされ、その一方、フレーム414〜416はニュースアイコン321に対応するビデオラベル351に索引付けされる。
【0020】
しばしば、一定のフレームの映像内容それ自体は、ニュースに関連したニュースアイコンの内容とはっきりとは関係がない。そのような場合、フレームの映像内容だけを調べる類似法では、そのフレームを適当なニュースアイコンに索引付けすることができないであろう。しかし、そのようなフレームに関連した音声内容は、普通は、視聴者にとってニュースのテーマの映像内容と結びついている。実際には、音声内容はニュースアイコン中のテキストと密接に対応した言葉を含んでいるであろう。したがって、ここで述べる方法は、映像だけでなく、ニュースビデオに関連した音声、それと利用できるならばテキストも利用する。テキストは、聴力障害者のための字幕もしくはクローズド・キャプション(Closed
Caption)サービス及びニュースワイヤ(newswire)サービスを提供するためにしばしば利用される。したがって、ビデオの任意のフレームは3つの形態、つまり映像、音声及びテキストを持つ可能性がある。類似法の利用により、あるフレーム中の映像のポニー(CV)が検出されなかったときは、音声とテキストが内容一致を検出するための補助的な基準として用いられる。
【0021】
図9は、フレーム701〜707と、ポニーを描写するニュースアイコン320を示す。ここで、方法600により、ニュースアイコン320の内容Cと一致するものを探すためにサーチが行われているとする。ニュースアイコン320はポニーの絵を含んでいるので、ポニーを表しているフレーム701〜707のどの映像内容も”Cv”として表現できる。同様に、フレーム701〜707に関連した音声内容中に発せられる単語”PONY”は”CA”により表現できる。フレーム701〜707のテキスト内容中に出現する単語”PONY”を”CT”により表現できる。図9のフレーム701〜707のどれにもCV,CA又は
CTが存在するということは、それらフレーム中に映像、音声又はテキストの
”PONY”がそれぞれ存在することを意味する。よって、図9において、フレーム701,702,707はポニーの映像のみならず、”PONY”及び/又は”TALE”なる単語の音声及びテキストを含んでいる。フレーム704,705はポニーの映像だけを含んでいるのに対し、フレーム706は”PONY”もしくは”TALE”又はその両方の単語の音声だけを含んでいる。
【0022】
マルチモーダル(multi−modal)の内容検出法の概要が図10のフローチャートに示されている。まず、あるフレームにポニーの映像が存在するか判定するために類似法が適用される(ステップ802)。その結果、対象フレームの映像内容とニュースアイコンの映像内容との間の類似度を表す値SVが生成される。この類似度SVがある閾値を超えるときには(ステップ804)、内容は一致する
(ステップ806)。この場合、今調べているフレームはニュースアイコンに対応すると思われるので、そのフレームは対応したビデオラベルに索引付けされる(ステップ806)。類似度SVが閾値を超えないときには(ステップ804)、調べているフレームの音声内容が、任意の既存のスピーチ・テキスト変換方法によってテキストに変換される(ステップ807)。次に、対象フレームの変換された音声内容及びすべてのテキスト内容がニュースアイコンに含まれるすべてのテキストと比較されることにより、音声の類似度SA及びテキストの類似度STがそれぞれ決まる(ステップ808)。必要ならば、SA,STを生成する際の比較は、対象フレームの音声及びテキストの内容がニュースアイコンのすべてのテキストとだけでなく、ニュースアイコンを含むフレームの全ての音声内容(テキストへ変換された)又はテキスト内容と比較されるように拡張してもよい。例えば、ニュースアイコン自体がテキストを全く含まない場合に、ニュースアイコンを含むフレームの音声内容(テキストに変換された)又はテキスト内容を利用できる。
【0023】
再び図9を参照する。ニュースアイコン320は単語”PONTY TALE”を含んでいるので、ビデオ場面をサーチして同様内容を探す時に、対応フレームの音声及びテキストは単語”PONY”及び単語”TALE”と一致比較されることになろう。そして、各フレームの映像、音声及びテキスト内容の類似度
SV,SA,STに重み値WV,WA,WTがそれぞれ割り当てられる(ステップ810)。よって、重み付けした類似度を結合することにより、ニュースアイコンの内容と対象フレームの内容との全体的な類似度を決定することができ、この全体的類似度が閾値と比較される(ステップ810)。全体的類似度が所定の閾値を超えないときには、一致が検出されず対象フレームはニュースアイコンに対応したビデオラベルに索引付けされない(ステップ812)。閾値を超えたときには、一致が検出され、対象フレームはニュースアイコンを表すビデオラベルに索引付けされる(ステップ806)。
【0024】
情緒的索引付け
以下に述べる方法は”情緒的(affective)索引付け”と呼ばれる。この方法は、人は話している時や話を聞いている時に様々な身振りをしたり、表情を変えたり、声の大きさを変えたり、あるいは、それらの振る舞いを同時にしがちであることを利用する。これらの振る舞いは”情動(affects)”と呼んでよいであろう。ここで、”情動”とは、自分の気分や他人に対する反応を示し、あるいは人の話の内容と密接に対応する人の動作又は反応のことである。ある音声映像レコードに一定の情動が存在するということは、その情動が現れるフレームのすぐ後に有意な情報が来るということを暗示する。よって、情緒的索引付けにおいては、音声映像レコードに捕捉された人の情動が識別されてレコードの索引付けに利用されるが、これについて以下に詳細に述べる。
【0025】
情緒的索引付けは、1人の話者のレコードの索引付けに利用できる。しかし、情緒的索引付けは、二人以上の参加者間のテレビ電子会議のレコードに適用された時に特に効果的であろう。つまり、情緒的索引付けをテレビ電子会議の索引付けに用いると、その会議の”ビデオ議事録”に相当する映像索引を得られる。映像レコードに関連した音声レベルの変化の検出や2つのビデオフレーム間の相対的動き(表情の変化や身振り等)の検出のための技術には、いくつもの公知の手法が存在している。そのような手法の詳細は、本発明を理解する目的には重要ではないので、ここでは説明しない。そのような公知の手法の一つが、上に述べたような情動を含んでいる電子会議ビデオのフレームを識別するために使用される。そして、そのようなフレームはビデオラベルとして用いられ、これに残りのフレームが索引付けされる。そして、ビデオラベルとして利用されるフレームを表す図7に示したものと同様なサマリー(summary)が、ハードコピーとして又はモニター60上に生成される。このサマリーは電子会議の”ビデオ議事録”として利用できる。すなわち、このサマリーは、文書の”議事録”が会議や集会の記録を提供するために一般に利用されるのと同じような方法で、電子会議の重要な瞬間や出来事を提供する。
【0026】
図11は、電子会議ビデオを索引付けしてビデオ議事録を生成する本方法900の概要を示す。まず、一つのフレームがメモリ20より取り出される(ステップ902)。取り出されたフレームは、公知の検出手法によって、情動の存在を検出するためサーチされる(ステップ904)。本方法900において探索される情動は被写体である人間の何らかの動きであるが、前に言及したように音声レベルの有意な変化を識別するように探索を拡張することも容易であろう。ある有意な動きが見つかると(ステップ906)、それが見つかったフレームがビデオラベルとして利用される(ステップ910)。データファイルの最後のフレームまで達していなければ(ステップ914)、次のフレームが取り出され(ステップ916)、有意な動きがないか調べられる(ステップ904)。このフレームとその前のフレームとの間に意味のある変化が検出されなければ、すなわち有意な動きが検出されなければ(ステップ906)、そのフレームは最も最近選ばれたビデオラベルに索引付けされる(ステップ912)。しかし、そのフレームが新たな有意な動きを含んでいるときには、その有意な動きを含むフレームから新たなビデオラベルが生成される(ステップ910)。したがって、異なった有意な動きを含む2つのフレームの間にある全てのフレームは、その2フレーム中の一つ目のフレームより作られたビデオラベルに索引付けされる。フレーム全部がビデオラベルの生成のために利用されるか、あるいはビデオラベルに索引付けされたならば、ビデオラベルのサマリーが電子会議のビデオ”議事録”として生成される(ステップ918)。
【0027】
この索引付け方法900は、アテンション・ドリブン(attention−driven)索引付けと呼ばれる別種の索引付けと組み合わせることもできる。アテンション・ドリブン索引付けは、テレビ電子会議における二人以上の参加者による有意な動きは、しばしば有意な情報のやり取りと時間的に密接に関連しているという事実に基づくものである。テレビ電子会議は、別々の参加者に焦点を合わせた複数のカメラを使って記録されるであろう。したがって、図12に複数のソースによる電子会議のビデオが同時に表示された画面950を示す。図12において、ウインドウ961〜964はそれぞれ記録した参加者965〜968の映像を表示する。アテンション・ドリブン索引付けによれば、参加者965〜968の1人1人について、その動きの大きさと方向を示す動きベクトルが周期的に計算される。ある時点における二人以上の参加者に関連した動きベクトル間の類似度が高ければ、それら参加者による”同調した(coherent)動き”を意味する。(2つ以上のソースに関連した)2つ以上の同時点のビデオフレームにおける同調した動きの発生が、残りのフレームを索引付けするために利用される。つまり、その同調した動きと一致するウインドウ961,962,963又は964に表された同時点フレームのどれからビデオラベルを生成してもよい。ビデオラベルのサマリーは、前述の方法により生成できる。
【0028】
プレビュー索引付け
本発明による3番目の方法は、図4に示したプレビュー場面214を利用する。この方法の基礎となっているのは、プレビュー場面214が概して数時間にわたりメインニュース放送200に先行して繰り返されるものであること、したがって、頻繁に繰り返されるフレームが、他のフレームが索引付けされるビデオラベルとして利用される、ということである。このビデオラベルは、プレビュー場面214又はメインニュース放送(場面)200、あるいは、その両方の他のフレームの索引付けに利用することができる。
【0029】
図13は、プレビュー場面214を使ってメインニュース放送200を索引付けする方法1100の概要を示すフローチャートである。あるプレビューフレームが公知の類似法により残りのプレビュー場面と比較される(ステップ1104)。そして、内容”一致”の数が所定の閾値と比較される(ステップ1106)。その一致数が閾値を超えたならば、そのフレームはビデオラベルとして利用される(ステップ1108)。そのフレームに関連し、かつそのフレームのすぐ後に続くテキスト又は音声をセーブし、そのビデオラベルに索引付けすることができる。次に、メインニュース放送(場面)200のフレームが、ビデオラベルとして利用されたプレビューフレームと内容が一致するか調べられ、前に述べたやり方で索引付けされる(ステップ1110〜1120)。最後に、メインニュース放送200の全てのフレームが索引付けされた後、プレビューフレームを代表するビデオラベルのサマリーが生成される(ステップ1124)。
【0030】
ビデオの編集
本発明は、編集者が、フレームシーケンスのハードコピー上に編集記号を手描きすることによって、索引付けの済んだビデオを編集したり検索したりできるようにする手法も包含する。図7に戻り、アイコンサマリー345は、コンピュータシステムにより、紙片又はスキャナ90に読み取らせることが可能な他の材料に出力される。あるいは、アイコンサマリー345をモニタ60に表示させるだけでもよい。ユーザーがサマリー345内のビデオラベル351に関連した映像及び音声を視聴したいと思ったとする。そこで、ユーザーはビデオラベル351を囲む円501を手描きする。このマークを記入したサマリーはスキャナ90に送り込まれ、そこでデジタイズされてメモリ20にロードされる。サマリー345がモニタ60に表示されるだけの場合には、ユーザーは、ライトペンやタッチスクリーンモニタを利用できるなら、それを使ってビデオラベルを囲む円を手描きしてよい。コンピュータシステム1は、記号認識論理を使って手描き記号501をユーザに選択されたものと解釈し、それに対応した記録ビデオ部分を検索して再生する。コンピュータシステム1は、各ビデオラベルのハードコピー上のX−Y座標値を予め記憶しているため、各手描き記号から適切なビデオラベルを知ることができる。あるいは、ハードコピーのサイドチャネル(すなわち余白)に、ハードコピー上の各ビデオラベルの物理的位置を判断する手段として2次元バーコード又は同様の識別模様を設けてもよい。
【0031】
さて、図14を参照する。ユーザーは拡大したフレーム1201〜1216の時間順シーケンスを表した紙上の(又はモニタ60に表示された)フレームディスプレイ1200を手に入れることができる。ユーザは、このフレームシーケンスのフレーム1202〜1204とフレーム1213〜1216を削除する編集をしたいとする。さらに、ユーザはフレーム1205をフレーム1201で置き換えたいとする。しかして、ユーザは削除すべきフレームの上に削除記号1217を、また、フレーム1201,1205の上に切り取り/貼り付け記号1218を手書きする。つぎに、この記号が記入されたフレームディスプレイはスキャナ90に送り込まれ、そこでデジタイズされて用意された論理により解釈される。そして、解釈された編集コマンドに基づいて、図15に示すように編集されたビデオシーケンス1220が生成される。
【0032】
図16は、フレームディスプレイを表すハードコピー(又はモニタ60)上にユーザが手描きすることができる編集記号の表を示す。当該技術分野において周知の標準的な記号認識法を手描き記号の認識に利用できる。図16の編集記号表を使って行うことができる編集機能の例は、フレームを削除すること、フレームを切り取って貼り付けること、フレームを切り取って挿入すること、指定角度だけフレームを左又は右に回転させること、フレームをぼけさせたり鮮明化すること、及び、選んだRBG値のブランクフレームを生成することである。図16に示した編集記号表は、それが全てというわけではなく、本発明の範囲を逸脱しない範囲で、他の編集機能を含むよう容易に拡張できることは明白であろう。
【0033】
表1は図16に示した編集記号表により実行可能な編集機能をまとめたものである。
【0034】
【表1】
Figure 0003608758
【0035】
図17及び図18は、図16に示した編集コマンドのいくつかを、別のフレームディスプレイ1400に適用した例を表している。図18及び図19は、編集コマンドを解釈実行して得られる出力(編集後のフレーム)を示す。図17において、記号1414がフレーム1401の上に描かれているが、これは”左45度回転”コマンドを意味する。したがって、フレーム1401の画像を左に45度回転したものが図18に見える。フレーム1402〜1404及びフレーム1409〜1412の上に別の記号1415が描かれており、それらフレームを新たな(別の)ファイルにセーブすべきことを指示している。しかして、図19に示す新たなファィルは、フレーム1402〜1404,1409〜1412と同じフレーム1431〜1437を含む。フレーム1405の上には”200%拡大”コマンドを意味する編集記号が描かれている。フレーム1406の上には50%縮小”コマンドを意味する編集記号1416が描かれている。編集コマンドを組み合わせることができることは、フレーム1406,1408に関して示す通りである。フレーム1406からフレーム1408まで矢印が描かれているが、フレーム1406の縮小結果をフレーム1408にスーパーインポーズする
(貼り付ける)ことを指示する。その結果は図18に見られる。
【0036】
図20は、異なった編集記号が描かれた別のフレームディスプレイ1500を表している。図21は、その結果として出力されるフレームシーケンス1520を示している。記号1518がフレーム1501〜1503の上に描かれ、フレーム1501を現在位置から切り取ってフレーム1503の前に挿入することを指示している。別の記号1519がフレーム1504,1407,1510の上に描かれ、フレーム1504をコピーしてフレーム1510の前に挿入することを指示している。
【0037】
なお、コマンドの結合を可能にするためには、数学の場合と同様に、コマンドの優先順を管理するためのルールセットを開発しなければならない。例えば、
”全ての拡大縮小コマンドは他のどのコマンドよりも先に実行すべき”といったルールが適用されるかもしれない。特定の用途又はユーザーのニーズに合わせるため特有の優先順ルールを開発してもよい。
【0038】
よって、以上に説明した編集記号表とその対応方法は、編集者に、データベースに格納されているビデオを、そのデータベースを直接的にアクセスせず、効率的に編集できる編集技法を提供する。つまり、編集者は、編集したいフレームを表すハードコピーに編集コマンドを手描きすることによりビデオ編集が可能であり、その記入したハードコピーを自動的に解釈させることにより、その後に、希望するならば別の場所で、ビデオを編集することができる。
【0039】
特定の実施例に関連して本発明を説明したが、特許請求の範囲に記載された本発明の精神と範囲から逸脱することなく、様々な変形と変更をしてもよいことは明白であろう。よって、本明細書及び図面は、本発明を説明するためのものであって、本発明の限定を意図したものではないと考えるべきである。
【0040】
【発明の効果】
以上に詳細に説明した如く、本発明によれば、ニュース放送に見られるニュースアイコン等のような、ビデオ場面内の高レベルのオブジェクトであるアイコンや、ニュース放送のメインニュースの前に繰り返されるプレビューフレームを利用して、ニュース放送等のレコードの内容ベースの索引生成及び索引付けを行うことができる。フレームの映像のほかに音声及び/又はテキストの情報を索引生成及び索引付けに利用することにより、映像だけでは索引付けが困難なフレームに関しても適切な索引付けが可能になる。人間の情動を利用することにより、人間を描写するビデオレコードの索引生成及び索引付けが可能になり、また、テレビ電子会議レコードの”ビデオ議事録”を得ることができる。ビデオレコードの編集したいフレームを紙等に表したフレームディスプレイに編集記号を記入するだけで、ビデオデータベースにアクセスすることなく、簡単にフレーム編集を行うことができるようになる、等々の多くの効果を得られる。
【図面の簡単な説明】
【図1】本発明の一実施例を実現するコンピュータシステムを示すブロック図である。
【図2】ビデオデータのフレームを格納するメモリの説明図である。
【図3】ビデオデータのフレームをバスへ転送するためのビデオ入力ユニット(VIU)を示すブロック図である。
【図4】テレビ放送局によるテレビ放送の数時間分の時間割りを示す図である。
【図5】ニュース放送の一つのフレームを示す図である。
【図6】ニュースビデオのフレームシーケンスを示す図である。
【図7】ビデオラベルを表すアイコンサマリーを示す図である。
【図8】ニュースアイコンに基づきニュースビデオを索引付けする方法を示すフローチャートである。
【図9】ビデオフレームのシーケンス、及び、それらフレームの内容と比較されるニュース・アイコンを示す図である。
【図10】マルチモードの内容検出を映像、音声及びテキストに基づいて行う方法を示すフローチャートである。
【図11】電子会議ビデオを索引付けして電子会議のビデオ議事録を生成する方法を示すフローチャートである。
【図12】テレビ電子会議に用いられる、4人の参加者を描写しているビデオディスプレイを示す図である。
【図13】プレビュー場面を利用してニュースビデオを索引付けする方法の概要を示すフローチャートである。
【図14】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図15】図14に示された手描き編集コマンドに従って編集されたビデオフレームの出力シーケンスを示す図である。
【図16】フレームディスプレイ上に手描きできる編集記号の表を示す図である。
【図17】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図18】図17に示した手描き編集コマンドに従って生成されたビデオフレームの出力シーケンスを示す図である。
【図19】図17に示した手描き編集コマンドに従って生成されたビデオフレームの出力シーケンスを示す図である。
【図20】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図21】図20に表した手描き編集コマンドに従って編集されたビデオフレームの出力シーケンスを示す図である。
【符号の説明】
1 コンピュータシステム
10 中央処理装置(CPU)
20 メモリ
30 データ記憶装置
40 プリンタ
50 デジタルビデオチップ(DVC)
60 ビデオモニタ
70 キーボード
80 マウス
90 スキャナ
100 ビデオ入力装置(VIU)
110 システムバス
120 レーザーディスクプレイヤー
130 ビデオカセットレコーダー(VCR)
140 ビデオカメラ
150 フレームグラバー
200 メインニュース放送(場面)
210 番組
212 コマーシャル
214 ニュースプレビュー(場面)
216 ヘッドライン
300 フレーム
310 オブジェクト領域
320 ニュースアイコン
330 アンカー
340 ニュースロゴ
404〜416 フレーム
345 アイコンサマリー
350〜359 ビデオラベル
701〜707 フレーム
961〜964 ウインドウ
965〜968 参加者
1200 フレームディスプレイ
1201〜1216 フレーム
1217〜1218 編集記号
1301〜1313 編集記号
1400 フレームディスプレイ
1401〜1412 フレーム
1414から1416 編集記号
1500 フレームディスプレイ
1501〜1516 フレーム
1518,1519 編集記号

Claims (68)

  1. 映像内容を持つレコードの索引を生成する方法であって、索引は複数のラベルからなり、レコードは複数のフレームからなり、その中の若干数のフレームはそれぞれ少なくとも複数のアイコン中の一つのアイコンを含み、
    アイコンを利用して複数のラベルを生成するステップ、
    及び
    複数のフレーム中の一つのフレームの内容が複数のラベル中の一つのラベルに関連したアイコンの内容と一致するときに、該一つのフレームを該一つのラベルに索引付けするステップ、を含む索引生成方法。
  2. 請求項1記載の索引生成方法において、レコードはテレビニュース放送のレコードであり、若干数のアイコンはニュースアイコンであり、かつ、レコードは音声内容を持つ、ことを特徴とする索引生成方法。
  3. ラベルからなるアイコンサマリーを生成するステップをさらに含むことを特徴とする請求項2記載の索引生成方法。
  4. 該一つのフレームの内容と複数のアイコン中の一つのアイコンの内容との間の類似度を測定するステップをさらに含み、該一つのフレームの内容と該一つのラベルに関連した該アイコンの内容とが一致するのは、該フレームの内容と該アイコンの内容との間の類似度が所定の閾値を超える場合であることを特徴とする請求項2記載の索引生成方法。
  5. テレビニュース放送の映像音声レコードの映像索引を生成する方法であって、索引は複数のビデオラベルからなり、レコードは音声及び映像の内容を持つ複数のフレームからなり、
    (a)複数のフレームをサーチし、あるニュースアイコンを探すステップ、
    (b)該ニュースアイコンが見つかったときに、該ニュースアイコンを複数のビデオラベル中の一つのビデオラベルとして格納するステップ、
    (c)該ニュースアイコンを含むフレームの後に続く各フレームの内容と該ニュースアイコンの内容との間の類似度を測定するステップ、
    (d)該類似度に基づいて、どのフレームが該ニュースアイコンと一致するか判定するステップ、
    (e)該ニュースアイコンと一致する各フレームを該ビデオラベルに索引付けするステップ、及び
    (f)ニュースアイコンを含まないフレームのほぼ全部が一つのビデオラベルに索引付けされるよう、前記(a)から(e)のステップを繰り返して複数のビデオラベルを生成するステップ、を含む索引生成方法。
  6. ビデオラベルからなるアイコンサマリーを生成するステップをさらに含む請求項5記載の索引生成方法。
  7. 請求項5記載の索引生成方法において、索引付けのステップ(e)は該ニュースアイコンと一致する各フレームの音声及び映像の内容を該ビデオラベルに関連付けるステップを含むことを特徴とする索引生成方法。
  8. 請求項5記載の索引生成方法において、類似度は相関手法により測定されることを特徴とする索引生成方法。
  9. 請求項5記載の索引生成方法において、類似度はフレームの映像内容に基づくことを特徴とする索引生成方法。
  10. 請求項9記載の索引生成方法において、類似度はさらにフレームの音声内容にも基づくことを特徴とする索引生成方法。
  11. 請求項10記載の索引生成方法において、ニュースアイコンはテキスト内容を持ち、類似度を測定するステップ(c)は、フレームの音声内容をテキストに変換するステップ、及び、該テキストをニュースアイコンのテキスト内容と比較して類似度の音声成分を決定するステップを含むことを特徴とする索引生成方法。
  12. 請求項9記載の索引生成方法において、類似度はさらにフレームのテキスト内容にも基づくことを特徴とする索引生成方法。
  13. 請求項12記載の索引生成方法において、ニュースアイコンはテキスト内容を持ち、各フレームの類似度を測定するステップ(c)はフレームのテキスト内容をニュースアイコンのテキスト内容と比較して類似度のテキスト成分を決定するステップを含むことを特徴とする索引生成方法。
  14. 音声映像レコードの映像索引を生成する装置であって、索引は複数のラベルからなり、レコードは映像内容を持つ複数のフレームからなり、
    フレームをサーチし、あるアイコンを探す手段、
    該アイコンを見つけたときに該アイコンを複数のラベル中の一つのラベルとして格納する手段、
    該アイコンを含むフレームの後に続く各フレームの内容と該アイコンの内容との間の類似度を測定する手段、
    該類似度に基づいて、どのフレームが該アイコンと一致するか判定する手段、及び
    該アイコンと一致する各フレームを該ビデオラベルに索引付けする手段、を具備する索引生成装置。
  15. 請求項14記載の索引生成装置において、音声映像レコードはテレビニュース放送のレコードであり、アイコンはニュースアイコンであることを特徴とする索引生成装置。
  16. ラベルからなるアイコンサマリーを生成する手段をさらに有することを特徴とする請求項14記載の索引生成装置。
  17. 請求項14記載の索引生成装置において、索引付けの手段は複数のフレーム中で該アイコンと一致する各フレームの音声及び映像の内容を該ラベルに関係付ける手段を含むことを特徴とする索引生成装置。
  18. 請求項14記載の索引生成装置において、類似度はフレームの映像内容に基づくことを特徴とする索引生成装置。
  19. 請求項18記載の索引生成装置において、類似度はさらにフレームの音声内容にも基づくことを特徴とする索引生成装置。
  20. 請求項19記載の索引生成装置において、アイコンはテキスト内容を持ち、類似度を測定する手段は、フレームの音声内容をテキストに変換する手段、及び、該テキストをアイコンのテキスト内容と比較して類似度の音声成分を決定する手段を含むことを特徴とする索引生成装置。
  21. 請求項18記載の索引生成装置において、類似度はさらにフレームのテキスト内容にも基づくことを特徴とする索引生成装置。
  22. 請求項21記載の索引生成装置において、アイコンはテキスト内容を持ち、類似度を測定する手段は、フレームのテキスト内容をアイコンのテキスト内容と比較して類似度のテキスト成分を決定する手段を含むことを特徴とする索引生成装置。
  23. テレビニュース放送の音声映像レコードを索引付けする装置であって、
    音声及び映像の内容を持つ複数のフレームを格納するメモリを有し、その複数フレーム中の若干数のフレームは少なくとも複数のニュースアイコン中の一つのアイコンを含み、かつ
    複数のニュースアイコンから複数のビデオラベルを生成し、複数のフレーム中で、複数のニュースアイコン中の一つのニュースアイコンを含まない各フレームの内容と、複数のニュースアイコン中の各ニュースアイコンの内容との一致比較をし、複数のフレーム中で、複数のニュースアイコン中の一つのニュースアイコンの内容と一致した内容を持つ各フレームを、そのニュースアイコンに相当するビデオラベルに索引付けする、該メモリに接続されたプロセッサロジックを有する索引付け装置。
  24. 請求項23記載の索引付け装置において、プロセッサロジックがラベルからなるアイコンサマリーを作ることを特徴とする索引付け装置。
  25. 1人以上の人間を描写する映像内容を持つレコードを索引付けする方法であって、レコードは複数のフレームからなり、そのフレーム中の若干数のフレームはそれぞれ少なくとも1人の人間に関する複数の情動中の一つの情動を含み、
    どのフレームがある情動を含むか判定するステップ、
    複数のフレーム中で、ある情動を描写する各フレーム、複数のラベル中の一つのラベルとして、ただし1フレームにつき1ラベルとして、記憶するステップ、及び
    複数のフレーム中で、ある情動を描写する各フレームについて、該情動を描写するフレームに対応する他のフレームそれぞれを、該情動を描写するフレームから生成されたラベルに索引付けするステップを含む索引付け方法。
  26. 請求項25記載の索引付け方法において、複数の情動は少なくとも1人の人間による複数の有意な動きを含むことを特徴とする索引付け方法。
  27. 請求項25記載の索引付け方法において、レコードはさらに音声内容を含み、レコードの各フレームは音声レベルを持ち、複数の情動に複数のフレーム中の一つのフレームの音声レベルの有意な変化が含まれることを特徴とする索引付け方法。
  28. 請求項25記載の索引付け方法において、複数のラベル中の各ラベルは、ある情動を含む複数のフレーム中の一つのフレームに相当することを特徴とする索引付け方法。
  29. 複数のラベルからなるサマリーを生成するステップをさらに含むことを特徴とする請求項25の索引付け方法。
  30. 請求項25記載の索引付け方法において、索引付けのステップは、ある情動を含む各フレームに関し、そのフレームに、その後に続くフレーム中のどれが一致するか判定するステップを含むことを特徴とする索引付け方法。
  31. 請求項25記載の索引付け方法において、判定のステップは、ある情動を含む第1のフレームの後に続くフレームをサーチして別の情動を含む第2のフレームを探すステップ、及び、該第2のフレームが見つかったときに該第1のフレームと該第2のフレームとの間のフレームを該第1のフレームに相当するラベルに索引付けし、また、該第2のフレームが見つからないときには該第1のフレームの後に続くフレームを該ラベルに索引付けするステップを含むことを特徴とする索引付け方法。
  32. 請求項25記載の索引付け方法において、判定のステップは、情動を含むフレームの内容と、該フレームの後に続くフレームの内容との間の類似度を測定するステップ、及び、該類似度に基づいて、どのフレームが該情動を含むフレームと一致するか判定するステップを含むことを特徴とする索引付け方法。
  33. 請求項32記載の索引付け方法において、類似度はフレームの映像内容に基づくことを特徴とする索引付け方法。
  34. 複数の参加者間の音声映像電子会議のレコードのビデオ議事録を生成する方法であって、レコードは映像内容を持つ複数のフレームからなり、
    (a)複数のフレームをサーチして1人以上の参加者による第1の有意な動きを探すステップ、
    (b)該第1の有意な動きを含むフレームが見つかったときに、該フレームを一つのビデオラベルとして記憶するステップ;
    (c)該第1の有意な動きを含むフレームの後に続くフレームの中で、該第1の有意な動きを含むフレームと一致する各フレームを、該ビデオラベルに索引付けするステップ、及び
    (d)複数のフレームのほぼ全部が一つのビデオラベルに索引付けされるよう、前記(a)から(c)のステップを繰り返して複数のビデオラベルを生成するステップ、を含むビデオ議事録生成方法。
  35. 請求項34記載のビデオ議事録生成方法であって、ステップ(b)でビデオラベルとして記憶されたフレームからなるアイコンサマリーを生成するステップをさらに含むことを特徴とするビデオ議事録生成方法。
  36. 請求項34記載のビデオ議事録生成方法であって、有意な動きを含むフレームの後に続くフレームのどれが、該有意な動きを含むフレームと一致するか判定するステップをさらに含むことを特徴とするビデオ議事録生成方法。
  37. 請求項34記載のビデオ議事録生成方法において、有意な動きが参加者の二人以上の同調した動きであることを特徴するビデオ議事録生成方法。
  38. 参加者の1人の動きをそれぞれ示す複数の動きベクトルを計算するステップ、
    該動きベクトル中の2以上のベクトル間の類似度を測定するステップ、及び
    該動きベクトル中の2以上のベクトル間の類似度が所定の閾値を超えたときに同調した動きを検出するステップをさらに含む請求項37記載のビデオ議事録生成方法。
  39. 1人以上の人間を描写する映像内容を持つレコードを索引付けする装置であって、レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ該人間の複数の情動中の一つの情動を描写し、
    フレームを記憶するメモリ;及び
    複数の情動を含むフレームを見つけ出してそれらフレームから複数のラベルを生成し、情動を含まないフレームのほぼ全てを、それらフレームと情動を含むフレームとの間の一致関係によりラベルに索引付けする、該メモリと結合されたプロセッサロジックを具備する索引付け装置。
  40. 請求項39記載の索引付け装置において、プロセッサロジックがさらにラベルからなるサマリーを生成することを特徴とする索引付け装置。
  41. 記録されたニュース放送の映像索引を生成する方法であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面と関連付けられ、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
    複数のプレビューフレームをメモリに格納するステップ、
    複数のプレビューフレーム中で、プレビュー場面内で内容的にみて実質的に所定回数以上繰り返される各プレビューフレームを識別するステップ、
    複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームから複数のラベルを生成するステップ、及び
    複数のニュースフレーム中で、前記繰り返されるプレビューフレームの一つと実質的に同一の各ニュースフレームを前記繰り返されるプレビューフレームに対応するラベルに索引付けするステップ、を含む索引生成方法。
  42. ラベルの映像サマリーを生成するステップをさらに含むことを特徴とする請求項41記載の索引生成方法。
  43. 複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される選択された一つのプレビューフレームと実質的に同一の各プレビューフレームを、該選択された一つのプレビューフレームに対応したラベルに索引付けするステップをさらに含むことを特徴とする請求項41記載の索引生成方法。
  44. 記録されたニュース放送の映像索引を生成する方法であって、索引は複数のビデオラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面に対応し、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
    (a)複数のプレビューフレーム中の一つのプレビューフレームを選択するステップ、
    (b)該選択されたプレビューフレームと実質的に同一のプレビューフレームの数を計数するステップ、
    (c)該選択されたプレビューフレームと実質的に同一のプレビューフレームの数が所定数を超えた場合に、該選択さたプレビューフレームを複数のビデオラベル中の一つのビデオラベルとして記憶するステップ、及び
    (d)複数のプレビューフレームのほぼ全てが前記ステップ(a)により選択されるよう、前記(a)から(c)のステップを繰り返して複数のビデオラベルを生成するステップ、を含む索引生成方法。
  45. 複数のプレビューフレーム中のどのプレビューフレームが選択されたプレビューフレームと実質的に同一であるか判定するステップをさらに含むことを特徴とする請求項44記載の索引生成方法。
  46. 請求項45記載の索引生成方法において、判定のステップがプレビューフレームの映像内容に基づくことを特徴とする索引生成方法。
  47. 請求項46記載の索引生成方法において、判定のステップがさらにプレビューフレームの音声内容にも基づくことを特徴とする索引生成方法。
  48. 請求項46記載の索引生成方法において、プレビューフレームはテキスト内容を持ち、判定のステップがさらにプレビューフレームのテキスト内容にも基づくことを特徴とする索引生成方法。
  49. 複数のビデオラベルからなるサマリーを生成するステップをさらに含むことを特徴とする請求項44記載の索引生成方法。
  50. 複数のプレビューフレーム中の選択されたプレビューフレームと内容が実質的に同一の各プレビューフレームをビデオラベルに索引付けするステップをさらに含むことを特徴とする請求項44記載の索引生成方法。
  51. 記録されたニュース放送の映像索引を生成する装置であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面に対応し、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
    (a)複数のプレビューフレーム中の一つのプレビューフレームを選択する手段、
    (b)該選択されたプレビューフレームと実質的に同一のプレビューフレームの数を計数する手段、
    (c)該選択されたプレビューフレームと実質的に同一のプレビューフレームの数が所定数を超えるか判定する手段、
    (d)該選択されたプレビューフレームと実質的に同一のフレームの数が該所定数を超えた場合に、該選択さたプレビューフレームを複数のビデオラベル中の一つのビデオラベルとして記憶する手段、及び
    (e)複数のプレビューフレームのほぼ全てが前記ステップ(a)により選択されるよう、前記(a)から(c)のステップを繰り返して複数のラベルを生成する手段、を具備する索引生成装置。
  52. 複数のラベルからなるサマリーを生成する手段をさらに含むことを特徴とする請求項51記載の索引生成装置。
  53. 複数のプレビューフレーム中で、該選択されたプレビューフレームと実質的に同一の各プレビューフレームを該ラベルに索引付けする手段をさらに含むことを特徴とする請求項51記載の索引生成装置。
  54. 記録されたニュース放送の映像索引を生成する装置であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面と関連付けられ、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
    複数のプレビューフレームを格納するメモリ;及び
    複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームを識別し、識別した各プレビューフレームから複数のビデオラベルを生成する、該メモリと結合されたプロセッサロジックを具備する索引生成装置。
  55. ビデオレコードの複数のフレームを編集する方法であって、フレームはそれぞれフレームディスプレイに表され、
    フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べるステップ、
    フレームディスプレイに描かれた編集記号を認識するステップ、
    編集コマンドを表す編集記号の表に基づき、フレームディスプレイに描かれた編集記号のそれぞれを複数の編集コマンド中の一つの編集コマンドに関連付けるステップ、及び
    フレームディスプレイに描かれた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正するステップを含むフレーム編集方法。
  56. 編集記号表を提供するステップをさらに含むことを特徴とする請求項55記載のフレーム編集方法。
  57. 請求項55記載のフレーム編集方法において、フレームディスプレイは実質的に紙様の物に表示されることを特徴とするフレーム編集方法。
  58. 請求項55記載のフレーム編集方法において、フレームディスプレイはビデオモニタに表示され、編集記号はカーソル制御装置を利用してフレームディスプレイ上に描かれることを特徴とするフレーム編集方法。
  59. 請求項58記載のフレーム編集方法において、ビデオモニタはタッチスクリーンを持ち、編集記号は該タッチスクリーンを用いて該タッチスクリーン上に描かれることを特徴とするフレーム編集方法。
  60. ビデオレコードの複数のフレームを編集する装置であって、フレームはそれぞれフレームディスプレイに表され、
    フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べる手段、
    フレームディスプレイに描かれた編集記号を認識する手段、
    編集コマンドを表す編集記号の表に基づき、フレームディスプレイに描かれた編集記号のそれぞれを複数の編集コマンド中の一つの編集コマンドに関連付ける手段、及び
    フレームディスプレイに描かれた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正する手段を具備するフレーム編集装置。
  61. 編集記号表を提供する手段をさらに有することを特徴とする請求項60記載のフレーム編集装置。
  62. 請求項60記載のフレーム編集装置において、フレームディスプレイは実質的に紙様の物に表示されることを特徴とするフレーム編集装置。
  63. 請求項60記載のフレーム編集装置において、フレームディスプレイはビデオモニタに表示され、編集記号はそれをフリーハンドで描くためのカーソル制御装置を利用してフレームディスプレイに描かれることを特徴とするフレーム編集装置。
  64. 請求項63記載のフレーム編集装置において、ビデオモニタはタッチスクリーンを持ち、編集記号はタッチスクリーンに線描具を物理的に当てることによりタッチスクリーン上に描かれることを特徴とするフレーム編集装置。
  65. ビデオレコードの複数のフレームを編集する装置であって、フレームはそれぞれフレームディスプレイ上に視覚的に表され、
    フレームディスプレイを格納するメモリ、
    該メモリと結合され、フレームディスプレイを受け取りそれを該メモリに供給する入力装置、及び
    フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べ、フレームディスプレイ上に描かれた編集記号を認識し、編集記号の表に基づいてフレームディスプレイ上に描かれた編集記号それぞれを複数の編集コマンド中の一つの編集コマンドに関連付け、フレームディスプレイに手描きされた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正する、該メモリと結合されたプロセッサロジックを具備するフレーム編集装置。
  66. 請求項65記載のフレーム編集装置において、入力装置はフレームディスプレイを入力してデジタイズするスキャナであり、編集記号はスキャナがフレームディスプレイを入力する前にフレームディスプレイに描かれることを特徴とするフレーム編集装置。
  67. フレームの内容と、ニュースアイコンを含むあるフレームの内容との間の第2の類似度を測定するステップ(c)(1)をさらに含み、どのフレームがニュースアイコンと一致するか判定するステップ(d)はさらに該第2の類似度にも基づくことを特徴とする請求項5記載の索引生成方法。
  68. フレームの内容と、アイコンを含むあるフレームの内容との間の第2の類似度を測定する手段をさらに含み、どのフレームがアイコンと一致するか判定する手段はさらに該第2の類似度に基づいてどのフレームがアイコンと一致するか判定することを特徴とする請求項14記載の索引生成装置。
JP14247796A 1995-06-23 1996-06-05 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置 Expired - Fee Related JP3608758B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US49415895A 1995-06-23 1995-06-23
US08/494158 1995-06-23

Publications (2)

Publication Number Publication Date
JPH099202A JPH099202A (ja) 1997-01-10
JP3608758B2 true JP3608758B2 (ja) 2005-01-12

Family

ID=23963286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14247796A Expired - Fee Related JP3608758B2 (ja) 1995-06-23 1996-06-05 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置

Country Status (1)

Country Link
JP (1) JP3608758B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3733984B2 (ja) * 1997-01-29 2006-01-11 富士ゼロックス株式会社 情報蓄積装置および情報蓄積方法
JP3496866B2 (ja) * 1998-03-11 2004-02-16 日本電信電話株式会社 マンガ型映像編集方法及び装置ならびに該編集方法を記録した記録媒体
JP3838775B2 (ja) * 1998-03-12 2006-10-25 株式会社東芝 マルチメディア処理装置、記録媒体
JP4513165B2 (ja) * 2000-04-20 2010-07-28 ソニー株式会社 番組記録方法及び番組記録装置及び番組記録再生装置及び番組記録再生方法
GB2371194B (en) * 2000-10-06 2005-01-26 Canon Kk Image processing apparatus
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
KR100422699B1 (ko) * 2001-05-22 2004-03-12 엘지전자 주식회사 비디오 콘텐트의 재생 제어방법과 장치
JP2005277445A (ja) * 2004-03-22 2005-10-06 Fuji Xerox Co Ltd 会議映像処理装置、会議映像処理方法およびプログラム
JP2011109292A (ja) * 2009-11-16 2011-06-02 Canon Inc 撮像装置、その制御方法及びプログラム並びに記憶媒体
CN102547213A (zh) * 2011-12-23 2012-07-04 南京超然科技有限公司 一种用于视频会议系统的视频成像预览方法
JP5626321B2 (ja) * 2012-11-26 2014-11-19 ヤマハ株式会社 番組記録装置
JP5770918B1 (ja) * 2014-12-18 2015-08-26 株式会社Cygames 情報処理プログラム、及び情報処理方法
CN110826471B (zh) * 2019-11-01 2023-07-14 腾讯科技(深圳)有限公司 视频标签的标注方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
JPH099202A (ja) 1997-01-10

Similar Documents

Publication Publication Date Title
JP3758754B2 (ja) 情報蓄積再生装置および情報蓄積再生方法
Chang The holy grail of content-based media analysis
US7139767B1 (en) Image processing apparatus and database
US5664227A (en) System and method for skimming digital audio/video data
US7298930B1 (en) Multimodal access of meeting recordings
US6578040B1 (en) Method and apparatus for indexing of topics using foils
KR102148392B1 (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
US7725830B2 (en) Assembling verbal narration for digital display images
JP3185505B2 (ja) 会議録作成支援装置
JP3608758B2 (ja) 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置
JP2002057981A (ja) データストリームにアクセスするインタフェース、データストリームへのアクセス用検索の形成方法、データストリームアクセス方法及びノートからビデオにアクセスするためのデバイス
EP1112549A1 (en) Method of face indexing for efficient browsing and searching of people in video
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
Zhang Content-based video browsing and retrieval
Gauch et al. The VISION digital video library
US20180374512A1 (en) Method to automate media stream curation utilizing speech and non-speech audio cue analysis
Shim et al. CAMEO-camera, audio and motion with emotion orchestration for immersive cinematography
JP7133367B2 (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
Zhang et al. AI video editing: A survey
JP2005267278A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US20240135973A1 (en) Video segment selection and editing using transcript interactions
US20240126994A1 (en) Transcript paragraph segmentation and visualization of transcript paragraphs
US20240134597A1 (en) Transcript question search for text-based video editing
Kung et al. Neural networks for intelligent multimedia processing
US20240127855A1 (en) Speaker thumbnail selection and speaker visualization in diarized transcripts for text-based video

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041008

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071022

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091022

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101022

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees