JP3608758B2

JP3608758B2 - 索引生成方法、索引生成装置、索引付け装置、索引付け方法、ビデオ議事録生成方法、フレーム編集方法及びフレーム編集装置

Info

Publication number: JP3608758B2
Application number: JP14247796A
Authority: JP
Inventors: ベンカテッシュプラサドケー
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-06-23
Filing date: 1996-06-05
Publication date: 2005-01-12
Anticipated expiration: 2016-06-05
Also published as: JPH099202A

Description

【０００１】
【発明の属する分野】
本発明は、ビデオレコーディング技術に係り、特に、ビデオレコードの索引生成、索引付け及び編集のための技術に関する。
【０００２】
【従来の技術】
ビデオ技術は、テレビニュースビデオやデスクトップテレビ会議のような応用分野でビデオデータベースが一般的になるほど進歩した。しかし、ビデオデータベースの発展に伴い、ビデオデータベースから特定のビデオ部分を検索するための、より一層効率的な方法の必要性が増してきた。ビデオデータベースに対する現在の検索方法の多くは、タイムスタンプ法を利用する。タイムスタンプ法では、人がある特定のビデオ部分の日時を知っていれば、そのビデオ部分を検索することができる。しかしながら、人はビデオ部分の内容については多少知っていたとしても、日時を知らないことが多い。したがって、内容ベースのビデオ索引付け方法に対する関心が高まっている。
【０００３】
既存の内容ベースの索引付け方法の中には、低レベル又は中間レベルのオブジェクト、例えば画素または画素領域に類似（ｓｉｍｉｌａｒｉｔｙ）手法を適用するものがある。例えば、ある画素ベースの方法は、まず各フレームを、輝度レベル毎の画素数を表すヒストグラムに変換する。そして、そのヒストグラムに対し相関関数のような類似手法を適用することにより、２フレームが「一致する」か判定する。画素領域ベースの方法は、まず、各フレームをいくつかの均一輝度レベルの画素領域の形で表現し、次に、その表現をエンコードし、最後に、エンコードされた表現に対し相似手法を適用する。しかし、低レベル又は中間レベルのオブジェクトの認識よりも、ビデオ場面内の高レベルのオブジェクトを直接的に検索できるほうが好ましいかもしれない。例えば、ユーザーが「赤いスポーツ車を含む全フレームの一覧表を作成せよ」というような高レベルな照会を使ってビデオデータベースに照会できると効率的であろう。このような方法はブロードなコンテキストでは未だ無理であるが、コンテキストが限定されるとしても高レベルオブジェクト認識を提供できれば望ましい。
【０００４】
ビデオデータベースの発展によってもたらされたもう一つのことは、より効率的なビデオ編集方法の必要性が増大したことである。ビデオデータベースの利用により、ビデオ編集時にフィルムを物理的に切ってつなぐ必要は殆どなくなった。物理的に切ってつなぐのではなく、フレームを加工すべくコンピュータにコマンドを入力することにより、データベースに格納されているビデオをコンピュータ上で電子的に編集することができる。しかし、場合によっては、このような方法によるビデオ編集は非現実的であったり、好ましくないかもしれない。例えば、編集者はビデオが格納されているデータベースの近くに現実にいることができないかもしれないし、あるいは、編集者はコンピュータシステム又は適当なソフトウエアを利用できないかもしれない。したがって、編集者が、データベースに直接アクセスせずに、データベースに格納されているビデオを効率的に編集できる編集手法を提供することが望まれる。特に、編集者に、編集すべきフレームを表すハードコピーに編集コマンドを手描きすることによるビデオ編集機能を提供し、編集記号が記入されたハードコピーが自動的に解釈されることによって、その後に、また望むならば別の場所で、ビデオが編集できると望ましい。
【０００５】
【発明が解決しようとする課題】
よって、本発明の目的は、以上に述べた従来技術の不十分な点を改善し、また上述の要求に応えるため、新たな索引生成、索引付け、ビデオ議事録生成及びフレーム編集の手段を提供することにある。
【０００６】
【課題を解決するための手段】
本発明によれば、音声及び映像の内容を持つレコードの索引を生成する方法及び装置が提供される。索引は複数のラベルからなる。レコードは複数のフレームからなる。それらフレーム中の若干数のフレームには、少なくとも複数のアイコン中の一つがそれぞれ含まれる。この索引生成方法は、１）複数のアイコンを使って複数のラベルを生成するステップ、２）フレーム中で、複数のアイコン中の一つを含まない各フレームを、その内容が複数のラベル中の一つに割り当てられたアイコンの内容と一致するならば、そのラベルに索引付けするステップからなる。
【０００７】
また、本発明によれば、人間の情動（ａｆｆｅｃｔ）を利用して、少なくとも１人の人間を描写している映像内容を持つレコードの索引付けをする方法及び装置も提供される。レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ、人間の複数の情動中の一つを含んでいる。この方法は、１）複数フレーム中のどのフレームがある情動を含んでいるか調べるステップ、２）ある情動を描写するフレームをそれぞれ、複数ラベル中の１つのラベル（１フレームにつき１つ）として格納するステップ、３）フレーム中で、ある情動を描写する各フレーム毎に、そのフレームより生成されたラベルに、そのフレームに対応する他のフレームそれぞれを索引付けするステップからなる。
【０００８】
また、本発明によれば、テレビ電子会議のレコードのビデオ議事録を生成する方法も提供される。テレビ電子会議には複数の参加者がいる。レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ、参加者中の１人による複数の有意な動きの中の一つの動きを描写する。この方法は、１）フレーム中で、有意な動きを表す各フレームを複数のラベル中の一つとして格納するステップ（有意な動きを表す各フレームより一つのラベルが生成される）、
２）フレーム中で、ある有意な動きを描写する各フレーム毎に、そのフレームから生成されたラベルに、そのフレームに対応する他フレーム中の各フレームを索引付けするステップからなる。
【０００９】
本発明によれば、記録されたニュース放送の映像索引を生成する方法も提供される。記録されたニュース放送は一定のプレビュー場面（ｆｏｏｔａｇｅ）と関連付けられている。記録されたニュース放送は複数のニュースフレームからなる。プレビュー場面は複数のプレビューフレームからなる。ニュースフレームとプレビューフレームは両方とも音声及び映像の内容を持つ。索引は複数のラベルからなる。この方法は、１）プレビューフレームをメモリに格納するステップ、２）プレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームを識別するステップ、３）プレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームから複数のラベルを生成するステップからなる。
【００１０】
本発明によれば、ビデオレコードの複数のフレームを編集する方法及び装置も提供される。それらフレームはそれぞれ、静的ディスプレイ上に表示される。この方法は、１）静的ディスプレイを調べてユーザにより手描きされた編集記号を探すステップ、２）静的ディスプレイ上に手描きされた編集記号を認識するステップ、３）編集コマンドを表す編集記号の表に基づいて、静的ディスプレイ上に手描きされた編集記号それぞれを、複数の編集コマンド中の一つのコマンドに関連付けるステップ、４）静的ディスプレイ上に手書きされた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正するステップからなる。
【００１１】
本発明の上記特徴及び他の特徴は、添付図面及び以下の詳細な説明から明らかになろう。
【００１２】
【発明の実施の形態】
以下、本発明による内容ベースのビデオ索引付け及び編集方法について説明する。以下の記述においては、説明用に、本発明を十分理解できるよう多くの具体例が提示される。しかし、それらの具体例によらずに本発明を実施し得ることは当業者には明白であろう。他方、周知の構造及び装置は、本発明をいたずらに難解にしないためブロック図として表される。
【００１３】
以下の記述において、”ビデオ”なる用語が頻繁に使用される。本明細書において、”ビデオ”なる用語は、連続して素早く表示されると被写体の動きや他のアニメーションを表現する、関連した画像の時間順シーケンスと定義される。このようなシーケンスは普通、動画と呼ばれる。
【００１４】
図１は本発明が実施されるコンピュータシステム１を示す。このコンピュータシステム１は中央処理装置（ＣＰＵ）１０、メモリ２０、データ記憶装置３
（例えば磁気ディスク、ＣＤ−ＲＯＭ）、プリンタ４０、デジタルビデオチップ（ＤＶＣ）５０、ビデオモニター６０、キーボード７０、マウス８０、スキャナ９０、ビデオ入力装置（ＶＩＵ）１００をシステムバス１１０により結合してなる。ＶＩＵ１００は、図３に示されるように、ビデオソースであるレーザーディスクプレイヤー１２０、ビデオカメラ１４０及びビデオカセットレコーダー（ＶＣＲ）１３０、又は信号ＲＳを送出するリモートソースよりビデオデータを受け取るフレームグラバー（ｇｒａｂｂｅｒ）１５０を含む。このリモートソースは、例えば、ＲＦソース（テレビケーブル又はアンテナ等）又はＩＳＤＮソースである。メモリ２０は、図２に示されるように、個別のフレームにフォーマットされたビデオデータを記憶する。図３において、フレームグラバー１５０はＶＣＲ１３０、ビデオカメラ１４０、レーザーディスクプレイヤー１２０又はリモートソースよりビデオデータを受け取り、そのデータを個々のフレームにフォーマットし、フォーマットしたビデオデータをシステムバス１１０を介してメモり２０へ与える。本発明は、データ記憶装置３０に格納されたソフトウエアコードによって実施されても、図１にＤＶＣ５０として示されている専用チップにより実施されてもよい。以下にさらに述べるように、マウス８０は、ライトペン、スタイラス、トラックボール等の他の同等なカーソル制御装置で置き換えられてもよい。また、タッチスクリーンを持つモニターを用いることにより、モニター６０とマウス８０の特定機能が結合されてもよい。
【００１５】
本発明は、テレビニュース放送の音声映像レコードに適用可能である。図４は、あるテレビ局による放送の数時間分の時間割を示す。この放送はメインニュース放送２００で終わる。このメインニュース放送２００の前に、番組Ａ、番組Ｂ及び番組Ｃのような様々な番組（放送）２１０が組み入れられている。各番組２１０の間に、コマーシャル２１２が差し込まれている。さらに、各番組２１０の前に、約１０秒から３０秒までの長さで、ニュースアンカー（ニュースを伝える人）が「１１時のニュースの時間です．．．」で始まる言い回しを話すことが特徴の、短いニュースプレビュー２１４がある。メインニュース放送２００の前には、アンカーによるヘッドライン２１６のアナウンスもある。
【００１６】
ニュースビデオは、一定の高レベルのオブジェクトを容易に認識できる比較的狭いコンテキストを提供する。さて、図５に、ニュース放送のフレーム３００が示されている。このフレーム３００は高レベルのオブジェクト、すなわちニュースアイコン３２０、アンカー３３０及びニュースロゴ３４０からなっている。ニュースアイコン３２０は、その後に続くニュースのテーマを絵で示すものである。これらの高レベル・オブジェクトは、ニュースビデオのコンテキストに頻出し、また、フレーム内の予測可能な位置に出現するため、比較的簡単に検出できる。その検出は、一般に、各オブジェクトに関連した大体のオブジェクト領域（ＲＯＲ）３１０をサーチすることによりなされる。ビデオ索引付けの分野で周知の多くのオブジェクト検出法が存在するが、そのいずれかにより検出を行うことができる。
【００１７】
ニュースアイコン
第１の実施例は、ニュースビデオの索引付けのためにニュースアイコンを利用する。これは、ニュース放送の重要なテーマの前に関連したニュースアイコンが出るのが普通であり、このニュースアイコンは通常、図５に示すようにアンカー３３０の顔の隣に表示されるとの仮定に基づいている。図６は、フレーム４０１〜４１６からなるニュースビデオのフレームシーケンスを表している。フレーム４０１，４０２，４０５はそれぞれニュースアイコン３２０を描写しているが、このニュースアイコンはポニーを描写するとともにテキスト”ＰＯＮＹＴＡＬＥ”を含む。ニュースアイコン３２０はフレーム４０６〜４１２に描写されるポニーに関するニュースに関連している。同様に、フレーム４０３，４０４は、帽子をかぶった男を描写したニュースアイコン３２１を含んでいる。このニュースアイコン３２１はフレーム４１４〜４１６の内容に関連している。本発明によれば、ニュースアイコンを探すため、入手できるニュース場面（すなわちフレーム４０４〜４１６）がサーチされる。見つかった各ニュースアイコンは”ビデオラベル”に選ばれ、これに他のフレームが索引付けされる。本記述において、索引付けとは、一定のフレームの音声、映像又はその両方の内容と特定のビデオラベルとの間に、そのビデオラベルを参照することにより、ある決まった方法でその内容を検索できるような対応関係を作ることと定義される。ビデオラベルはテキストのサーチに利用されるキーワードに類似している。
【００１８】
ニュースアイコンをサーチした後、周知の類似法を使って残りのフレームをビデオラベルに索引付けする。利用し得る類似法の例は、相関関数又は主要成分分析である。そして、各ビデオラベル（ニュースアイコン）を拡大して表すアイコンサマリーが生成される。図７はアイコンサマリー３４５の一例であり、これはビデオラベル３５０〜３５９を表し、その中のビデオラベル３５０，３５１はそれぞれニュースアイコン３２０，３２１に相当する。このアイコンサマリー３４５はプリンタ４０を用いてハードコピーに印刷したり、モニター６０に表示したり、あるいはその両方をすることができる。
【００１９】
図８はニュースアイコンに基づいてニュースビデオを索引付けする方法６００を示すフローチャートである。図６と図８を参照し、方法６００をフレーム４０１〜４１６に関連して説明する。まず、サーチすべきビデオの最初のフレームがメモリ２０より取り出される（ステップ６０２）。ニュースアイコンがないかフレーム４０１をサーチすると（ステップ６０４）、ニュースアイコン３２０がフレーム４０１で検出される。そこで、ニュースアイコン３２０はビデオラベル３５０としてメモリ２０に格納される（ステップ６１８）。ついで、残りのフレーム４０２〜４１６について、その内容がニュースアイコン３２０の内容と一致するか周知の類似法により調べられる（ステップ６２０〜６２４）。あるフレームの内容がニュースアイコン３２０の内容と一致すると、そのフレームはビデオラベル３５０（すなわちニュースアイコン３２０）に索引付けされる。図６を参照すると、ニュースアイコン３２０はポニーの絵を含んでいるので、類似法を適用すると、少なくともポニーの一部を表しているフレーム４０６〜４１２はニュースアイコン３２０の内容との高い類似度が割り当てられることになろう。フレーム４０２〜４１６のそれぞれに類似法が適用された後、別のニュースアイコンが存在するか調べるためフレーム４０１〜４１６が再びサーチされる。フレーム４０３を調べた時に、帽子をかぶった男を表すニュースアイコン３２１が検出され、ビデオラベル３５１として格納される。再び、類似法が利用され、その結果、帽子をかぶった男を表すフレーム４１４〜４１６にニュースアイコン３２１の内容との高い類似度が割り当てられる。結果として、フレーム４０６〜４１２はニュースアイコン３２０に対応するビデオラベル３５０に索引付けされ、その一方、フレーム４１４〜４１６はニュースアイコン３２１に対応するビデオラベル３５１に索引付けされる。
【００２０】
しばしば、一定のフレームの映像内容それ自体は、ニュースに関連したニュースアイコンの内容とはっきりとは関係がない。そのような場合、フレームの映像内容だけを調べる類似法では、そのフレームを適当なニュースアイコンに索引付けすることができないであろう。しかし、そのようなフレームに関連した音声内容は、普通は、視聴者にとってニュースのテーマの映像内容と結びついている。実際には、音声内容はニュースアイコン中のテキストと密接に対応した言葉を含んでいるであろう。したがって、ここで述べる方法は、映像だけでなく、ニュースビデオに関連した音声、それと利用できるならばテキストも利用する。テキストは、聴力障害者のための字幕もしくはクローズド・キャプション（Ｃｌｏｓｅｄ
Ｃａｐｔｉｏｎ）サービス及びニュースワイヤ（ｎｅｗｓｗｉｒｅ）サービスを提供するためにしばしば利用される。したがって、ビデオの任意のフレームは３つの形態、つまり映像、音声及びテキストを持つ可能性がある。類似法の利用により、あるフレーム中の映像のポニー（ＣＶ）が検出されなかったときは、音声とテキストが内容一致を検出するための補助的な基準として用いられる。
【００２１】
図９は、フレーム７０１〜７０７と、ポニーを描写するニュースアイコン３２０を示す。ここで、方法６００により、ニュースアイコン３２０の内容Ｃと一致するものを探すためにサーチが行われているとする。ニュースアイコン３２０はポニーの絵を含んでいるので、ポニーを表しているフレーム７０１〜７０７のどの映像内容も”Ｃｖ”として表現できる。同様に、フレーム７０１〜７０７に関連した音声内容中に発せられる単語”ＰＯＮＹ”は”ＣＡ”により表現できる。フレーム７０１〜７０７のテキスト内容中に出現する単語”ＰＯＮＹ”を”ＣＴ”により表現できる。図９のフレーム７０１〜７０７のどれにもＣＶ，ＣＡ又は
ＣＴが存在するということは、それらフレーム中に映像、音声又はテキストの
”ＰＯＮＹ”がそれぞれ存在することを意味する。よって、図９において、フレーム７０１，７０２，７０７はポニーの映像のみならず、”ＰＯＮＹ”及び／又は”ＴＡＬＥ”なる単語の音声及びテキストを含んでいる。フレーム７０４，７０５はポニーの映像だけを含んでいるのに対し、フレーム７０６は”ＰＯＮＹ”もしくは”ＴＡＬＥ”又はその両方の単語の音声だけを含んでいる。
【００２２】
マルチモーダル（ｍｕｌｔｉ−ｍｏｄａｌ）の内容検出法の概要が図１０のフローチャートに示されている。まず、あるフレームにポニーの映像が存在するか判定するために類似法が適用される（ステップ８０２）。その結果、対象フレームの映像内容とニュースアイコンの映像内容との間の類似度を表す値ＳＶが生成される。この類似度ＳＶがある閾値を超えるときには（ステップ８０４）、内容は一致する
（ステップ８０６）。この場合、今調べているフレームはニュースアイコンに対応すると思われるので、そのフレームは対応したビデオラベルに索引付けされる（ステップ８０６）。類似度ＳＶが閾値を超えないときには（ステップ８０４）、調べているフレームの音声内容が、任意の既存のスピーチ・テキスト変換方法によってテキストに変換される（ステップ８０７）。次に、対象フレームの変換された音声内容及びすべてのテキスト内容がニュースアイコンに含まれるすべてのテキストと比較されることにより、音声の類似度ＳＡ及びテキストの類似度ＳＴがそれぞれ決まる（ステップ８０８）。必要ならば、ＳＡ，ＳＴを生成する際の比較は、対象フレームの音声及びテキストの内容がニュースアイコンのすべてのテキストとだけでなく、ニュースアイコンを含むフレームの全ての音声内容（テキストへ変換された）又はテキスト内容と比較されるように拡張してもよい。例えば、ニュースアイコン自体がテキストを全く含まない場合に、ニュースアイコンを含むフレームの音声内容（テキストに変換された）又はテキスト内容を利用できる。
【００２３】
再び図９を参照する。ニュースアイコン３２０は単語”ＰＯＮＴＹＴＡＬＥ”を含んでいるので、ビデオ場面をサーチして同様内容を探す時に、対応フレームの音声及びテキストは単語”ＰＯＮＹ”及び単語”ＴＡＬＥ”と一致比較されることになろう。そして、各フレームの映像、音声及びテキスト内容の類似度
ＳＶ，ＳＡ，ＳＴに重み値ＷＶ，ＷＡ，ＷＴがそれぞれ割り当てられる（ステップ８１０）。よって、重み付けした類似度を結合することにより、ニュースアイコンの内容と対象フレームの内容との全体的な類似度を決定することができ、この全体的類似度が閾値と比較される（ステップ８１０）。全体的類似度が所定の閾値を超えないときには、一致が検出されず対象フレームはニュースアイコンに対応したビデオラベルに索引付けされない（ステップ８１２）。閾値を超えたときには、一致が検出され、対象フレームはニュースアイコンを表すビデオラベルに索引付けされる（ステップ８０６）。
【００２４】
情緒的索引付け
以下に述べる方法は”情緒的（ａｆｆｅｃｔｉｖｅ）索引付け”と呼ばれる。この方法は、人は話している時や話を聞いている時に様々な身振りをしたり、表情を変えたり、声の大きさを変えたり、あるいは、それらの振る舞いを同時にしがちであることを利用する。これらの振る舞いは”情動（ａｆｆｅｃｔｓ）”と呼んでよいであろう。ここで、”情動”とは、自分の気分や他人に対する反応を示し、あるいは人の話の内容と密接に対応する人の動作又は反応のことである。ある音声映像レコードに一定の情動が存在するということは、その情動が現れるフレームのすぐ後に有意な情報が来るということを暗示する。よって、情緒的索引付けにおいては、音声映像レコードに捕捉された人の情動が識別されてレコードの索引付けに利用されるが、これについて以下に詳細に述べる。
【００２５】
情緒的索引付けは、１人の話者のレコードの索引付けに利用できる。しかし、情緒的索引付けは、二人以上の参加者間のテレビ電子会議のレコードに適用された時に特に効果的であろう。つまり、情緒的索引付けをテレビ電子会議の索引付けに用いると、その会議の”ビデオ議事録”に相当する映像索引を得られる。映像レコードに関連した音声レベルの変化の検出や２つのビデオフレーム間の相対的動き（表情の変化や身振り等）の検出のための技術には、いくつもの公知の手法が存在している。そのような手法の詳細は、本発明を理解する目的には重要ではないので、ここでは説明しない。そのような公知の手法の一つが、上に述べたような情動を含んでいる電子会議ビデオのフレームを識別するために使用される。そして、そのようなフレームはビデオラベルとして用いられ、これに残りのフレームが索引付けされる。そして、ビデオラベルとして利用されるフレームを表す図７に示したものと同様なサマリー（ｓｕｍｍａｒｙ）が、ハードコピーとして又はモニター６０上に生成される。このサマリーは電子会議の”ビデオ議事録”として利用できる。すなわち、このサマリーは、文書の”議事録”が会議や集会の記録を提供するために一般に利用されるのと同じような方法で、電子会議の重要な瞬間や出来事を提供する。
【００２６】
図１１は、電子会議ビデオを索引付けしてビデオ議事録を生成する本方法９００の概要を示す。まず、一つのフレームがメモリ２０より取り出される（ステップ９０２）。取り出されたフレームは、公知の検出手法によって、情動の存在を検出するためサーチされる（ステップ９０４）。本方法９００において探索される情動は被写体である人間の何らかの動きであるが、前に言及したように音声レベルの有意な変化を識別するように探索を拡張することも容易であろう。ある有意な動きが見つかると（ステップ９０６）、それが見つかったフレームがビデオラベルとして利用される（ステップ９１０）。データファイルの最後のフレームまで達していなければ（ステップ９１４）、次のフレームが取り出され（ステップ９１６）、有意な動きがないか調べられる（ステップ９０４）。このフレームとその前のフレームとの間に意味のある変化が検出されなければ、すなわち有意な動きが検出されなければ（ステップ９０６）、そのフレームは最も最近選ばれたビデオラベルに索引付けされる（ステップ９１２）。しかし、そのフレームが新たな有意な動きを含んでいるときには、その有意な動きを含むフレームから新たなビデオラベルが生成される（ステップ９１０）。したがって、異なった有意な動きを含む２つのフレームの間にある全てのフレームは、その２フレーム中の一つ目のフレームより作られたビデオラベルに索引付けされる。フレーム全部がビデオラベルの生成のために利用されるか、あるいはビデオラベルに索引付けされたならば、ビデオラベルのサマリーが電子会議のビデオ”議事録”として生成される（ステップ９１８）。
【００２７】
この索引付け方法９００は、アテンション・ドリブン（ａｔｔｅｎｔｉｏｎ−ｄｒｉｖｅｎ）索引付けと呼ばれる別種の索引付けと組み合わせることもできる。アテンション・ドリブン索引付けは、テレビ電子会議における二人以上の参加者による有意な動きは、しばしば有意な情報のやり取りと時間的に密接に関連しているという事実に基づくものである。テレビ電子会議は、別々の参加者に焦点を合わせた複数のカメラを使って記録されるであろう。したがって、図１２に複数のソースによる電子会議のビデオが同時に表示された画面９５０を示す。図１２において、ウインドウ９６１〜９６４はそれぞれ記録した参加者９６５〜９６８の映像を表示する。アテンション・ドリブン索引付けによれば、参加者９６５〜９６８の１人１人について、その動きの大きさと方向を示す動きベクトルが周期的に計算される。ある時点における二人以上の参加者に関連した動きベクトル間の類似度が高ければ、それら参加者による”同調した（ｃｏｈｅｒｅｎｔ）動き”を意味する。（２つ以上のソースに関連した）２つ以上の同時点のビデオフレームにおける同調した動きの発生が、残りのフレームを索引付けするために利用される。つまり、その同調した動きと一致するウインドウ９６１，９６２，９６３又は９６４に表された同時点フレームのどれからビデオラベルを生成してもよい。ビデオラベルのサマリーは、前述の方法により生成できる。
【００２８】
プレビュー索引付け
本発明による３番目の方法は、図４に示したプレビュー場面２１４を利用する。この方法の基礎となっているのは、プレビュー場面２１４が概して数時間にわたりメインニュース放送２００に先行して繰り返されるものであること、したがって、頻繁に繰り返されるフレームが、他のフレームが索引付けされるビデオラベルとして利用される、ということである。このビデオラベルは、プレビュー場面２１４又はメインニュース放送（場面）２００、あるいは、その両方の他のフレームの索引付けに利用することができる。
【００２９】
図１３は、プレビュー場面２１４を使ってメインニュース放送２００を索引付けする方法１１００の概要を示すフローチャートである。あるプレビューフレームが公知の類似法により残りのプレビュー場面と比較される（ステップ１１０４）。そして、内容”一致”の数が所定の閾値と比較される（ステップ１１０６）。その一致数が閾値を超えたならば、そのフレームはビデオラベルとして利用される（ステップ１１０８）。そのフレームに関連し、かつそのフレームのすぐ後に続くテキスト又は音声をセーブし、そのビデオラベルに索引付けすることができる。次に、メインニュース放送（場面）２００のフレームが、ビデオラベルとして利用されたプレビューフレームと内容が一致するか調べられ、前に述べたやり方で索引付けされる（ステップ１１１０〜１１２０）。最後に、メインニュース放送２００の全てのフレームが索引付けされた後、プレビューフレームを代表するビデオラベルのサマリーが生成される（ステップ１１２４）。
【００３０】
ビデオの編集
本発明は、編集者が、フレームシーケンスのハードコピー上に編集記号を手描きすることによって、索引付けの済んだビデオを編集したり検索したりできるようにする手法も包含する。図７に戻り、アイコンサマリー３４５は、コンピュータシステムにより、紙片又はスキャナ９０に読み取らせることが可能な他の材料に出力される。あるいは、アイコンサマリー３４５をモニタ６０に表示させるだけでもよい。ユーザーがサマリー３４５内のビデオラベル３５１に関連した映像及び音声を視聴したいと思ったとする。そこで、ユーザーはビデオラベル３５１を囲む円５０１を手描きする。このマークを記入したサマリーはスキャナ９０に送り込まれ、そこでデジタイズされてメモリ２０にロードされる。サマリー３４５がモニタ６０に表示されるだけの場合には、ユーザーは、ライトペンやタッチスクリーンモニタを利用できるなら、それを使ってビデオラベルを囲む円を手描きしてよい。コンピュータシステム１は、記号認識論理を使って手描き記号５０１をユーザに選択されたものと解釈し、それに対応した記録ビデオ部分を検索して再生する。コンピュータシステム１は、各ビデオラベルのハードコピー上のＸ−Ｙ座標値を予め記憶しているため、各手描き記号から適切なビデオラベルを知ることができる。あるいは、ハードコピーのサイドチャネル（すなわち余白）に、ハードコピー上の各ビデオラベルの物理的位置を判断する手段として２次元バーコード又は同様の識別模様を設けてもよい。
【００３１】
さて、図１４を参照する。ユーザーは拡大したフレーム１２０１〜１２１６の時間順シーケンスを表した紙上の（又はモニタ６０に表示された）フレームディスプレイ１２００を手に入れることができる。ユーザは、このフレームシーケンスのフレーム１２０２〜１２０４とフレーム１２１３〜１２１６を削除する編集をしたいとする。さらに、ユーザはフレーム１２０５をフレーム１２０１で置き換えたいとする。しかして、ユーザは削除すべきフレームの上に削除記号１２１７を、また、フレーム１２０１，１２０５の上に切り取り／貼り付け記号１２１８を手書きする。つぎに、この記号が記入されたフレームディスプレイはスキャナ９０に送り込まれ、そこでデジタイズされて用意された論理により解釈される。そして、解釈された編集コマンドに基づいて、図１５に示すように編集されたビデオシーケンス１２２０が生成される。
【００３２】
図１６は、フレームディスプレイを表すハードコピー（又はモニタ６０）上にユーザが手描きすることができる編集記号の表を示す。当該技術分野において周知の標準的な記号認識法を手描き記号の認識に利用できる。図１６の編集記号表を使って行うことができる編集機能の例は、フレームを削除すること、フレームを切り取って貼り付けること、フレームを切り取って挿入すること、指定角度だけフレームを左又は右に回転させること、フレームをぼけさせたり鮮明化すること、及び、選んだＲＢＧ値のブランクフレームを生成することである。図１６に示した編集記号表は、それが全てというわけではなく、本発明の範囲を逸脱しない範囲で、他の編集機能を含むよう容易に拡張できることは明白であろう。
【００３３】
表１は図１６に示した編集記号表により実行可能な編集機能をまとめたものである。
【００３４】
【表１】

【００３５】
図１７及び図１８は、図１６に示した編集コマンドのいくつかを、別のフレームディスプレイ１４００に適用した例を表している。図１８及び図１９は、編集コマンドを解釈実行して得られる出力（編集後のフレーム）を示す。図１７において、記号１４１４がフレーム１４０１の上に描かれているが、これは”左４５度回転”コマンドを意味する。したがって、フレーム１４０１の画像を左に４５度回転したものが図１８に見える。フレーム１４０２〜１４０４及びフレーム１４０９〜１４１２の上に別の記号１４１５が描かれており、それらフレームを新たな（別の）ファイルにセーブすべきことを指示している。しかして、図１９に示す新たなファィルは、フレーム１４０２〜１４０４，１４０９〜１４１２と同じフレーム１４３１〜１４３７を含む。フレーム１４０５の上には”２００％拡大”コマンドを意味する編集記号が描かれている。フレーム１４０６の上には５０％縮小”コマンドを意味する編集記号１４１６が描かれている。編集コマンドを組み合わせることができることは、フレーム１４０６，１４０８に関して示す通りである。フレーム１４０６からフレーム１４０８まで矢印が描かれているが、フレーム１４０６の縮小結果をフレーム１４０８にスーパーインポーズする
（貼り付ける）ことを指示する。その結果は図１８に見られる。
【００３６】
図２０は、異なった編集記号が描かれた別のフレームディスプレイ１５００を表している。図２１は、その結果として出力されるフレームシーケンス１５２０を示している。記号１５１８がフレーム１５０１〜１５０３の上に描かれ、フレーム１５０１を現在位置から切り取ってフレーム１５０３の前に挿入することを指示している。別の記号１５１９がフレーム１５０４，１４０７，１５１０の上に描かれ、フレーム１５０４をコピーしてフレーム１５１０の前に挿入することを指示している。
【００３７】
なお、コマンドの結合を可能にするためには、数学の場合と同様に、コマンドの優先順を管理するためのルールセットを開発しなければならない。例えば、
”全ての拡大縮小コマンドは他のどのコマンドよりも先に実行すべき”といったルールが適用されるかもしれない。特定の用途又はユーザーのニーズに合わせるため特有の優先順ルールを開発してもよい。
【００３８】
よって、以上に説明した編集記号表とその対応方法は、編集者に、データベースに格納されているビデオを、そのデータベースを直接的にアクセスせず、効率的に編集できる編集技法を提供する。つまり、編集者は、編集したいフレームを表すハードコピーに編集コマンドを手描きすることによりビデオ編集が可能であり、その記入したハードコピーを自動的に解釈させることにより、その後に、希望するならば別の場所で、ビデオを編集することができる。
【００３９】
特定の実施例に関連して本発明を説明したが、特許請求の範囲に記載された本発明の精神と範囲から逸脱することなく、様々な変形と変更をしてもよいことは明白であろう。よって、本明細書及び図面は、本発明を説明するためのものであって、本発明の限定を意図したものではないと考えるべきである。
【００４０】
【発明の効果】
以上に詳細に説明した如く、本発明によれば、ニュース放送に見られるニュースアイコン等のような、ビデオ場面内の高レベルのオブジェクトであるアイコンや、ニュース放送のメインニュースの前に繰り返されるプレビューフレームを利用して、ニュース放送等のレコードの内容ベースの索引生成及び索引付けを行うことができる。フレームの映像のほかに音声及び／又はテキストの情報を索引生成及び索引付けに利用することにより、映像だけでは索引付けが困難なフレームに関しても適切な索引付けが可能になる。人間の情動を利用することにより、人間を描写するビデオレコードの索引生成及び索引付けが可能になり、また、テレビ電子会議レコードの”ビデオ議事録”を得ることができる。ビデオレコードの編集したいフレームを紙等に表したフレームディスプレイに編集記号を記入するだけで、ビデオデータベースにアクセスすることなく、簡単にフレーム編集を行うことができるようになる、等々の多くの効果を得られる。
【図面の簡単な説明】
【図１】本発明の一実施例を実現するコンピュータシステムを示すブロック図である。
【図２】ビデオデータのフレームを格納するメモリの説明図である。
【図３】ビデオデータのフレームをバスへ転送するためのビデオ入力ユニット（ＶＩＵ）を示すブロック図である。
【図４】テレビ放送局によるテレビ放送の数時間分の時間割りを示す図である。
【図５】ニュース放送の一つのフレームを示す図である。
【図６】ニュースビデオのフレームシーケンスを示す図である。
【図７】ビデオラベルを表すアイコンサマリーを示す図である。
【図８】ニュースアイコンに基づきニュースビデオを索引付けする方法を示すフローチャートである。
【図９】ビデオフレームのシーケンス、及び、それらフレームの内容と比較されるニュース・アイコンを示す図である。
【図１０】マルチモードの内容検出を映像、音声及びテキストに基づいて行う方法を示すフローチャートである。
【図１１】電子会議ビデオを索引付けして電子会議のビデオ議事録を生成する方法を示すフローチャートである。
【図１２】テレビ電子会議に用いられる、４人の参加者を描写しているビデオディスプレイを示す図である。
【図１３】プレビュー場面を利用してニュースビデオを索引付けする方法の概要を示すフローチャートである。
【図１４】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図１５】図１４に示された手描き編集コマンドに従って編集されたビデオフレームの出力シーケンスを示す図である。
【図１６】フレームディスプレイ上に手描きできる編集記号の表を示す図である。
【図１７】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図１８】図１７に示した手描き編集コマンドに従って生成されたビデオフレームの出力シーケンスを示す図である。
【図１９】図１７に示した手描き編集コマンドに従って生成されたビデオフレームの出力シーケンスを示す図である。
【図２０】編集コマンドが手描きされたビデオフレームのシーケンスを表すフレームディスプレイを示す図である。
【図２１】図２０に表した手描き編集コマンドに従って編集されたビデオフレームの出力シーケンスを示す図である。
【符号の説明】
１コンピュータシステム
１０中央処理装置（ＣＰＵ）
２０メモリ
３０データ記憶装置
４０プリンタ
５０デジタルビデオチップ（ＤＶＣ）
６０ビデオモニタ
７０キーボード
８０マウス
９０スキャナ
１００ビデオ入力装置（ＶＩＵ）
１１０システムバス
１２０レーザーディスクプレイヤー
１３０ビデオカセットレコーダー（ＶＣＲ）
１４０ビデオカメラ
１５０フレームグラバー
２００メインニュース放送（場面）
２１０番組
２１２コマーシャル
２１４ニュースプレビュー（場面）
２１６ヘッドライン
３００フレーム
３１０オブジェクト領域
３２０ニュースアイコン
３３０アンカー
３４０ニュースロゴ
４０４〜４１６フレーム
３４５アイコンサマリー
３５０〜３５９ビデオラベル
７０１〜７０７フレーム
９６１〜９６４ウインドウ
９６５〜９６８参加者
１２００フレームディスプレイ
１２０１〜１２１６フレーム
１２１７〜１２１８編集記号
１３０１〜１３１３編集記号
１４００フレームディスプレイ
１４０１〜１４１２フレーム
１４１４から１４１６編集記号
１５００フレームディスプレイ
１５０１〜１５１６フレーム
１５１８，１５１９編集記号

Claims

映像内容を持つレコードの索引を生成する方法であって、索引は複数のラベルからなり、レコードは複数のフレームからなり、その中の若干数のフレームはそれぞれ少なくとも複数のアイコン中の一つのアイコンを含み、
アイコンを利用して複数のラベルを生成するステップ、
及び
複数のフレーム中の一つのフレームの内容が複数のラベル中の一つのラベルに関連したアイコンの内容と一致するときに、該一つのフレームを該一つのラベルに索引付けするステップ、を含む索引生成方法。
請求項１記載の索引生成方法において、レコードはテレビニュース放送のレコードであり、若干数のアイコンはニュースアイコンであり、かつ、レコードは音声内容を持つ、ことを特徴とする索引生成方法。
ラベルからなるアイコンサマリーを生成するステップをさらに含むことを特徴とする請求項２記載の索引生成方法。
該一つのフレームの内容と複数のアイコン中の一つのアイコンの内容との間の類似度を測定するステップをさらに含み、該一つのフレームの内容と該一つのラベルに関連した該アイコンの内容とが一致するのは、該フレームの内容と該アイコンの内容との間の類似度が所定の閾値を超える場合であることを特徴とする請求項２記載の索引生成方法。
テレビニュース放送の映像音声レコードの映像索引を生成する方法であって、索引は複数のビデオラベルからなり、レコードは音声及び映像の内容を持つ複数のフレームからなり、
（ａ）複数のフレームをサーチし、あるニュースアイコンを探すステップ、
（ｂ）該ニュースアイコンが見つかったときに、該ニュースアイコンを複数のビデオラベル中の一つのビデオラベルとして格納するステップ、
（ｃ）該ニュースアイコンを含むフレームの後に続く各フレームの内容と該ニュースアイコンの内容との間の類似度を測定するステップ、
（ｄ）該類似度に基づいて、どのフレームが該ニュースアイコンと一致するか判定するステップ、
（ｅ）該ニュースアイコンと一致する各フレームを該ビデオラベルに索引付けするステップ、及び
（ｆ）ニュースアイコンを含まないフレームのほぼ全部が一つのビデオラベルに索引付けされるよう、前記（ａ）から（ｅ）のステップを繰り返して複数のビデオラベルを生成するステップ、を含む索引生成方法。
ビデオラベルからなるアイコンサマリーを生成するステップをさらに含む請求項５記載の索引生成方法。
請求項５記載の索引生成方法において、索引付けのステップ（ｅ）は該ニュースアイコンと一致する各フレームの音声及び映像の内容を該ビデオラベルに関連付けるステップを含むことを特徴とする索引生成方法。
請求項５記載の索引生成方法において、類似度は相関手法により測定されることを特徴とする索引生成方法。
請求項５記載の索引生成方法において、類似度はフレームの映像内容に基づくことを特徴とする索引生成方法。
請求項９記載の索引生成方法において、類似度はさらにフレームの音声内容にも基づくことを特徴とする索引生成方法。
請求項１０記載の索引生成方法において、ニュースアイコンはテキスト内容を持ち、類似度を測定するステップ（ｃ）は、フレームの音声内容をテキストに変換するステップ、及び、該テキストをニュースアイコンのテキスト内容と比較して類似度の音声成分を決定するステップを含むことを特徴とする索引生成方法。
請求項９記載の索引生成方法において、類似度はさらにフレームのテキスト内容にも基づくことを特徴とする索引生成方法。
請求項１２記載の索引生成方法において、ニュースアイコンはテキスト内容を持ち、各フレームの類似度を測定するステップ（ｃ）はフレームのテキスト内容をニュースアイコンのテキスト内容と比較して類似度のテキスト成分を決定するステップを含むことを特徴とする索引生成方法。
音声映像レコードの映像索引を生成する装置であって、索引は複数のラベルからなり、レコードは映像内容を持つ複数のフレームからなり、
フレームをサーチし、あるアイコンを探す手段、
該アイコンを見つけたときに該アイコンを複数のラベル中の一つのラベルとして格納する手段、
該アイコンを含むフレームの後に続く各フレームの内容と該アイコンの内容との間の類似度を測定する手段、
該類似度に基づいて、どのフレームが該アイコンと一致するか判定する手段、及び
該アイコンと一致する各フレームを該ビデオラベルに索引付けする手段、を具備する索引生成装置。
請求項１４記載の索引生成装置において、音声映像レコードはテレビニュース放送のレコードであり、アイコンはニュースアイコンであることを特徴とする索引生成装置。
ラベルからなるアイコンサマリーを生成する手段をさらに有することを特徴とする請求項１４記載の索引生成装置。
請求項１４記載の索引生成装置において、索引付けの手段は複数のフレーム中で該アイコンと一致する各フレームの音声及び映像の内容を該ラベルに関係付ける手段を含むことを特徴とする索引生成装置。
請求項１４記載の索引生成装置において、類似度はフレームの映像内容に基づくことを特徴とする索引生成装置。
請求項１８記載の索引生成装置において、類似度はさらにフレームの音声内容にも基づくことを特徴とする索引生成装置。
請求項１９記載の索引生成装置において、アイコンはテキスト内容を持ち、類似度を測定する手段は、フレームの音声内容をテキストに変換する手段、及び、該テキストをアイコンのテキスト内容と比較して類似度の音声成分を決定する手段を含むことを特徴とする索引生成装置。
請求項１８記載の索引生成装置において、類似度はさらにフレームのテキスト内容にも基づくことを特徴とする索引生成装置。
請求項２１記載の索引生成装置において、アイコンはテキスト内容を持ち、類似度を測定する手段は、フレームのテキスト内容をアイコンのテキスト内容と比較して類似度のテキスト成分を決定する手段を含むことを特徴とする索引生成装置。
テレビニュース放送の音声映像レコードを索引付けする装置であって、
音声及び映像の内容を持つ複数のフレームを格納するメモリを有し、その複数フレーム中の若干数のフレームは少なくとも複数のニュースアイコン中の一つのアイコンを含み、かつ
複数のニュースアイコンから複数のビデオラベルを生成し、複数のフレーム中で、複数のニュースアイコン中の一つのニュースアイコンを含まない各フレームの内容と、複数のニュースアイコン中の各ニュースアイコンの内容との一致比較をし、複数のフレーム中で、複数のニュースアイコン中の一つのニュースアイコンの内容と一致した内容を持つ各フレームを、そのニュースアイコンに相当するビデオラベルに索引付けする、該メモリに接続されたプロセッサロジックを有する索引付け装置。
請求項２３記載の索引付け装置において、プロセッサロジックがラベルからなるアイコンサマリーを作ることを特徴とする索引付け装置。
１人以上の人間を描写する映像内容を持つレコードを索引付けする方法であって、レコードは複数のフレームからなり、そのフレーム中の若干数のフレームはそれぞれ少なくとも１人の人間に関する複数の情動中の一つの情動を含み、
どのフレームがある情動を含むか判定するステップ、
複数のフレーム中で、ある情動を描写する各フレーム、複数のラベル中の一つのラベルとして、ただし１フレームにつき１ラベルとして、記憶するステップ、及び
複数のフレーム中で、ある情動を描写する各フレームについて、該情動を描写するフレームに対応する他のフレームそれぞれを、該情動を描写するフレームから生成されたラベルに索引付けするステップを含む索引付け方法。
請求項２５記載の索引付け方法において、複数の情動は少なくとも１人の人間による複数の有意な動きを含むことを特徴とする索引付け方法。
請求項２５記載の索引付け方法において、レコードはさらに音声内容を含み、レコードの各フレームは音声レベルを持ち、複数の情動に複数のフレーム中の一つのフレームの音声レベルの有意な変化が含まれることを特徴とする索引付け方法。
請求項２５記載の索引付け方法において、複数のラベル中の各ラベルは、ある情動を含む複数のフレーム中の一つのフレームに相当することを特徴とする索引付け方法。
複数のラベルからなるサマリーを生成するステップをさらに含むことを特徴とする請求項２５の索引付け方法。
請求項２５記載の索引付け方法において、索引付けのステップは、ある情動を含む各フレームに関し、そのフレームに、その後に続くフレーム中のどれが一致するか判定するステップを含むことを特徴とする索引付け方法。
請求項２５記載の索引付け方法において、判定のステップは、ある情動を含む第１のフレームの後に続くフレームをサーチして別の情動を含む第２のフレームを探すステップ、及び、該第２のフレームが見つかったときに該第１のフレームと該第２のフレームとの間のフレームを該第１のフレームに相当するラベルに索引付けし、また、該第２のフレームが見つからないときには該第１のフレームの後に続くフレームを該ラベルに索引付けするステップを含むことを特徴とする索引付け方法。
請求項２５記載の索引付け方法において、判定のステップは、情動を含むフレームの内容と、該フレームの後に続くフレームの内容との間の類似度を測定するステップ、及び、該類似度に基づいて、どのフレームが該情動を含むフレームと一致するか判定するステップを含むことを特徴とする索引付け方法。
請求項３２記載の索引付け方法において、類似度はフレームの映像内容に基づくことを特徴とする索引付け方法。
複数の参加者間の音声映像電子会議のレコードのビデオ議事録を生成する方法であって、レコードは映像内容を持つ複数のフレームからなり、
（ａ）複数のフレームをサーチして１人以上の参加者による第１の有意な動きを探すステップ、
（ｂ）該第１の有意な動きを含むフレームが見つかったときに、該フレームを一つのビデオラベルとして記憶するステップ；
（ｃ）該第１の有意な動きを含むフレームの後に続くフレームの中で、該第１の有意な動きを含むフレームと一致する各フレームを、該ビデオラベルに索引付けするステップ、及び
（ｄ）複数のフレームのほぼ全部が一つのビデオラベルに索引付けされるよう、前記（ａ）から（ｃ）のステップを繰り返して複数のビデオラベルを生成するステップ、を含むビデオ議事録生成方法。
請求項３４記載のビデオ議事録生成方法であって、ステップ（ｂ）でビデオラベルとして記憶されたフレームからなるアイコンサマリーを生成するステップをさらに含むことを特徴とするビデオ議事録生成方法。
請求項３４記載のビデオ議事録生成方法であって、有意な動きを含むフレームの後に続くフレームのどれが、該有意な動きを含むフレームと一致するか判定するステップをさらに含むことを特徴とするビデオ議事録生成方法。
請求項３４記載のビデオ議事録生成方法において、有意な動きが参加者の二人以上の同調した動きであることを特徴するビデオ議事録生成方法。
参加者の１人の動きをそれぞれ示す複数の動きベクトルを計算するステップ、
該動きベクトル中の２以上のベクトル間の類似度を測定するステップ、及び
該動きベクトル中の２以上のベクトル間の類似度が所定の閾値を超えたときに同調した動きを検出するステップをさらに含む請求項３７記載のビデオ議事録生成方法。
１人以上の人間を描写する映像内容を持つレコードを索引付けする装置であって、レコードは複数のフレームを持ち、それらフレーム中の若干数のフレームはそれぞれ該人間の複数の情動中の一つの情動を描写し、
フレームを記憶するメモリ；及び
複数の情動を含むフレームを見つけ出してそれらフレームから複数のラベルを生成し、情動を含まないフレームのほぼ全てを、それらフレームと情動を含むフレームとの間の一致関係によりラベルに索引付けする、該メモリと結合されたプロセッサロジックを具備する索引付け装置。
請求項３９記載の索引付け装置において、プロセッサロジックがさらにラベルからなるサマリーを生成することを特徴とする索引付け装置。
記録されたニュース放送の映像索引を生成する方法であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面と関連付けられ、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
複数のプレビューフレームをメモリに格納するステップ、
複数のプレビューフレーム中で、プレビュー場面内で内容的にみて実質的に所定回数以上繰り返される各プレビューフレームを識別するステップ、
複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームから複数のラベルを生成するステップ、及び
複数のニュースフレーム中で、前記繰り返されるプレビューフレームの一つと実質的に同一の各ニュースフレームを前記繰り返されるプレビューフレームに対応するラベルに索引付けするステップ、を含む索引生成方法。
ラベルの映像サマリーを生成するステップをさらに含むことを特徴とする請求項４１記載の索引生成方法。
複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される選択された一つのプレビューフレームと実質的に同一の各プレビューフレームを、該選択された一つのプレビューフレームに対応したラベルに索引付けするステップをさらに含むことを特徴とする請求項４１記載の索引生成方法。
記録されたニュース放送の映像索引を生成する方法であって、索引は複数のビデオラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面に対応し、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
（ａ）複数のプレビューフレーム中の一つのプレビューフレームを選択するステップ、
（ｂ）該選択されたプレビューフレームと実質的に同一のプレビューフレームの数を計数するステップ、
（ｃ）該選択されたプレビューフレームと実質的に同一のプレビューフレームの数が所定数を超えた場合に、該選択さたプレビューフレームを複数のビデオラベル中の一つのビデオラベルとして記憶するステップ、及び
（ｄ）複数のプレビューフレームのほぼ全てが前記ステップ（ａ）により選択されるよう、前記（ａ）から（ｃ）のステップを繰り返して複数のビデオラベルを生成するステップ、を含む索引生成方法。
複数のプレビューフレーム中のどのプレビューフレームが選択されたプレビューフレームと実質的に同一であるか判定するステップをさらに含むことを特徴とする請求項４４記載の索引生成方法。
請求項４５記載の索引生成方法において、判定のステップがプレビューフレームの映像内容に基づくことを特徴とする索引生成方法。
請求項４６記載の索引生成方法において、判定のステップがさらにプレビューフレームの音声内容にも基づくことを特徴とする索引生成方法。
請求項４６記載の索引生成方法において、プレビューフレームはテキスト内容を持ち、判定のステップがさらにプレビューフレームのテキスト内容にも基づくことを特徴とする索引生成方法。
複数のビデオラベルからなるサマリーを生成するステップをさらに含むことを特徴とする請求項４４記載の索引生成方法。
複数のプレビューフレーム中の選択されたプレビューフレームと内容が実質的に同一の各プレビューフレームをビデオラベルに索引付けするステップをさらに含むことを特徴とする請求項４４記載の索引生成方法。
記録されたニュース放送の映像索引を生成する装置であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面に対応し、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
（ａ）複数のプレビューフレーム中の一つのプレビューフレームを選択する手段、
（ｂ）該選択されたプレビューフレームと実質的に同一のプレビューフレームの数を計数する手段、
（ｃ）該選択されたプレビューフレームと実質的に同一のプレビューフレームの数が所定数を超えるか判定する手段、
（ｄ）該選択されたプレビューフレームと実質的に同一のフレームの数が該所定数を超えた場合に、該選択さたプレビューフレームを複数のビデオラベル中の一つのビデオラベルとして記憶する手段、及び
（ｅ）複数のプレビューフレームのほぼ全てが前記ステップ（ａ）により選択されるよう、前記（ａ）から（ｃ）のステップを繰り返して複数のラベルを生成する手段、を具備する索引生成装置。
複数のラベルからなるサマリーを生成する手段をさらに含むことを特徴とする請求項５１記載の索引生成装置。
複数のプレビューフレーム中で、該選択されたプレビューフレームと実質的に同一の各プレビューフレームを該ラベルに索引付けする手段をさらに含むことを特徴とする請求項５１記載の索引生成装置。
記録されたニュース放送の映像索引を生成する装置であって、索引は複数のラベルからなり、記録されたニュース放送は複数のニュースフレームを含み、かつ複数のプレビューフレームからなるプレビュー場面と関連付けられ、プレビューフレーム及びニュースフレームは音声映像内容を持ち、
複数のプレビューフレームを格納するメモリ；及び
複数のプレビューフレーム中で、プレビュー場面内で所定回数以上繰り返される各プレビューフレームを識別し、識別した各プレビューフレームから複数のビデオラベルを生成する、該メモリと結合されたプロセッサロジックを具備する索引生成装置。
ビデオレコードの複数のフレームを編集する方法であって、フレームはそれぞれフレームディスプレイに表され、
フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べるステップ、
フレームディスプレイに描かれた編集記号を認識するステップ、
編集コマンドを表す編集記号の表に基づき、フレームディスプレイに描かれた編集記号のそれぞれを複数の編集コマンド中の一つの編集コマンドに関連付けるステップ、及び
フレームディスプレイに描かれた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正するステップを含むフレーム編集方法。
編集記号表を提供するステップをさらに含むことを特徴とする請求項５５記載のフレーム編集方法。
請求項５５記載のフレーム編集方法において、フレームディスプレイは実質的に紙様の物に表示されることを特徴とするフレーム編集方法。
請求項５５記載のフレーム編集方法において、フレームディスプレイはビデオモニタに表示され、編集記号はカーソル制御装置を利用してフレームディスプレイ上に描かれることを特徴とするフレーム編集方法。
請求項５８記載のフレーム編集方法において、ビデオモニタはタッチスクリーンを持ち、編集記号は該タッチスクリーンを用いて該タッチスクリーン上に描かれることを特徴とするフレーム編集方法。
ビデオレコードの複数のフレームを編集する装置であって、フレームはそれぞれフレームディスプレイに表され、
フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べる手段、
フレームディスプレイに描かれた編集記号を認識する手段、
編集コマンドを表す編集記号の表に基づき、フレームディスプレイに描かれた編集記号のそれぞれを複数の編集コマンド中の一つの編集コマンドに関連付ける手段、及び
フレームディスプレイに描かれた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正する手段を具備するフレーム編集装置。
編集記号表を提供する手段をさらに有することを特徴とする請求項６０記載のフレーム編集装置。
請求項６０記載のフレーム編集装置において、フレームディスプレイは実質的に紙様の物に表示されることを特徴とするフレーム編集装置。
請求項６０記載のフレーム編集装置において、フレームディスプレイはビデオモニタに表示され、編集記号はそれをフリーハンドで描くためのカーソル制御装置を利用してフレームディスプレイに描かれることを特徴とするフレーム編集装置。
請求項６３記載のフレーム編集装置において、ビデオモニタはタッチスクリーンを持ち、編集記号はタッチスクリーンに線描具を物理的に当てることによりタッチスクリーン上に描かれることを特徴とするフレーム編集装置。
ビデオレコードの複数のフレームを編集する装置であって、フレームはそれぞれフレームディスプレイ上に視覚的に表され、
フレームディスプレイを格納するメモリ、
該メモリと結合され、フレームディスプレイを受け取りそれを該メモリに供給する入力装置、及び
フレームディスプレイ上にユーザにより手描きされた編集記号が存在するかフレームディスプレイを調べ、フレームディスプレイ上に描かれた編集記号を認識し、編集記号の表に基づいてフレームディスプレイ上に描かれた編集記号それぞれを複数の編集コマンド中の一つの編集コマンドに関連付け、フレームディスプレイに手描きされた編集記号に関連付けられた編集コマンドに従ってビデオレコードのフレームを修正する、該メモリと結合されたプロセッサロジックを具備するフレーム編集装置。
請求項６５記載のフレーム編集装置において、入力装置はフレームディスプレイを入力してデジタイズするスキャナであり、編集記号はスキャナがフレームディスプレイを入力する前にフレームディスプレイに描かれることを特徴とするフレーム編集装置。
フレームの内容と、ニュースアイコンを含むあるフレームの内容との間の第２の類似度を測定するステップ（ｃ）（１）をさらに含み、どのフレームがニュースアイコンと一致するか判定するステップ（ｄ）はさらに該第２の類似度にも基づくことを特徴とする請求項５記載の索引生成方法。
フレームの内容と、アイコンを含むあるフレームの内容との間の第２の類似度を測定する手段をさらに含み、どのフレームがアイコンと一致するか判定する手段はさらに該第２の類似度に基づいてどのフレームがアイコンと一致するか判定することを特徴とする請求項１４記載の索引生成装置。