JP4333808B2

JP4333808B2 - 映像の検索方法および装置

Info

Publication number: JP4333808B2
Application number: JP2008203715A
Authority: JP
Inventors: 晃朗長坂; 孝文宮武
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-08-07
Filing date: 2008-08-07
Publication date: 2009-09-16
Anticipated expiration: 2017-05-16
Also published as: JP2009022018A

Description

本発明は放送中のビデオ映像またはデータベース中のビデオ映像の検索方法に関し、特
にビデオ映像の特徴を手掛かりとした検索が高速に行えるビデオ映像の検索方法に関する
。

近年のマルチメディア情報処理システムではビデオやテキスト等様々な情報を蓄積して
ユーザに提示することが可能であるが、それらを検索する場合、キーワード等の言語によ
る検索方法が主流となっている。この場合はキーワード付けの作業が必要であり、大量の
情報量を持つビデオ映像の１枚１枚のフレームについてキーワード付けを行うことは非常
にコストが大きい。さらにキーワードはデータベース構築者が自由に付けるものであるか
ら、ユーザの視点がデータベース構築者と異なる場合にはこれらのキーワードが役に立た
なくなるという問題がある。このような事情から、キーワード以外に画像独自の特徴から
検索を行いたいという要求があるが、画像の特徴量を手掛かりとして検索するためには膨
大なフレーム数からなるビデオの特徴量とその問い合わせ用ビデオの特徴量との高速照合
技術が必要になる。ビデオ映像に対して適用可能なだけの高速な照合技術としては、これ
まで特開平７−１１４５６７号「ビデオの検索方法および装置」が提案されているが、こ
の方法は、すべてのフレームについて照合するのではなく、映像中のカットの変わり目の
画像についてのみ照合することで処理量の低減を図っている。これによって、放送中の映
像に対しても照合を行えるだけの高速性を実現しているが、その反面、１つのカットのみ
で構成されるシーンや、編集等によってカットの変わり目が前後に変動したシーンに対し
て、うまく照合ができないという問題点があった。また、検索の際には、他の一般的なデ
ータベースシステムと同様、検索キーとして指定されたシーン以外は探さないため、シー
ンの検索が必要になるたびに、膨大な量の映像情報についてその最初から最後まで繰り返
し照合を行う必要がある。シーンの照合処理には、特徴量の抽出や読み出しの処理をはじ
め、検索するシーンが違っても共通に行われる処理が多々あり、そのような処理を重複し
て行うことにはまだ無駄がある。

特開平7−114567号公報

本発明が解決しようとする第一の課題は、映像検索のためのキーワード付け作業を行う
ことなく、検索対象映像の特徴量と、問い合わせのために用意するサンプル映像の特徴量
とを高速に照合し、フレーム精度で同一の区間を検出できる映像検索方法を提供すること
にある。また対象映像は放送中およびデータベース中のいずれの映像も対応可能とする。

本発明が解決しようとする第二の課題は、対象映像中に存在する同一シーンを、それが
検索キーとして予め指定されているか否かにかかわらず、一様に対象映像の入力と同時に
検出しておく手法を提供することにある。

本発明の第三の課題は、映像の撮影中に時々刻々と入力されている画像列を録画する際
に、録画済みの画像と照合して、一致する画像と関連づけながら録画するビデオカメラを
提供することにある。

上記課題を解決するために、本発明では、照合したいビデオ映像について、各フレームの
特徴量が互いに特定の範囲内の変動幅で収まる区間単位に分割し、該区間ごとに１つもし
くは複数の特徴量を抽出し、該区間の該映像中における位置を表わすアドレス情報と対応
づけて記憶格納しておき、その上で、検索対象であるビデオ映像から順次１枚ずつフレー
ム画像を入力し、該フレーム画像の特徴量を順に並べた任意の時点の特徴列と、該記憶格
納された映像を構成する各区間の特徴量を区間の長さ分ずつ順に並べた特徴列とが、互い
に同等と判定できる特定の長さ以上の部分を持つ場合に、その部分を同一の映像として検
出する。このとき、区間の先頭から同等の場合は、該区間に対応するアドレス情報を、ま
た、区間の途中から同等と判定された場合には、その区間の先頭からの相対位置を求め、
該区間に対応するアドレス情報を補正した値を検索結果として出力する。また、検索対象
として入力されたフレーム画像列について、フレームの特徴量が互いに特定の範囲内の変
動幅で収まる区間ごとにまとめ、該区間ごとに１つもしくは複数の特徴量を抽出し、該区
間の該対象映像中における位置を表わすアドレス情報と対応づけた情報も記憶格納し、次
回からの照合対象映像の中に追加する。さらに、入力されたある特徴列について、同一と
して検出された映像部分が複数存在した場合には、それらを組にして対応づけて記憶格納
する。

以上の検索方法を実現する装置は、任意のビデオ映像に対して、フレームの特徴量が互
いに特定の範囲内の変動幅で収まる区間単位に分割する手段と、該区間ごとに１つもしく
は複数の特徴量を抽出する手段と、該区間の該映像中における位置を表わすアドレス情報
と対応づけて記憶格納する手段と、検索対象であるビデオ映像から順次１枚ずつフレーム
画像を入力する手段と、該フレーム画像の特徴量を順に並べた任意の時点の特徴列を保持
する手段と、該記憶格納された映像を構成する各区間の特徴量を区間の長さ分ずつ順に並
べた特徴列を生成する手段と、それらの特徴列が互いに同等と判定できる特定の長さ以上
の部分を持つかどうかを判定する手段とから構成される。また、区間の先頭から同等と判
定された場合は、該区間に対応するアドレス情報を、また、区間の途中から同等と判定さ
れた場合には、その区間の先頭からの相対位置を求め、該区間に対応するアドレス情報を
補正した値を検索結果として出力する手段も併せ持つ。また、検索対象として入力された
フレーム画像列について、フレームの特徴量が互いに特定の範囲内の変動幅で収まる区間
ごとにまとめる手段と、該区間ごとに１つもしくは複数の特徴量を抽出する手段と、該区
間の該対象映像中における位置を表わすアドレス情報と対応づけた情報も記憶格納し、次
回からの照合対象映像の中に追加する手段とを有する。さらに、入力されたある特徴列に
ついて、同一として検出されたシーンが複数存在した場合には、それらを組にして対応づ
けて記憶格納する手段も有する。

上記の方法により、本発明では、ほとんど同じ特徴量が続く冗長な区間をひとつにまと
めた単位に照合を行うので、照合を毎フレームについて行う必要がなくなり、大幅に計算
量が削減できる同時に、照合にあたっては、擬似的にフレーム単位の特徴列間で比較する
形になるため、フレーム精度で同一映像区間の特定を行える特徴がある。また、１回のフ
レーム入力があるたびに、その１枚のフレームに関してのみの照合を行うため、１フレー
ム入力あたりの処理量が小さくなり、放送映像をはじめとしたリアルタイム性が要求され
る映像の処理に好適である。また、同時に検出された複数の映像部分は、全く同じ映像で
あるので、それらを１つの組として記憶格納しておくことにより、１つの部分映像を探し
たい要求があった場合には、組になった他の部分映像を提示することで検索は完了し、極
めて高速な応答が期待できる。

以下、本発明の一実施例を図を用いて説明する。

図１は、本発明を実現するためのシステム構成の概略ブロック図の一例である。１はＣ
ＲＴ等のディスプレイ装置であり、コンピュータ２の出力画面を表示する。コンピュータ
の出力が音声である場合には、13のスピーカを通して出力する。コンピュータ２に対する
命令は、ポインティングデバイス３やキーボード４を使って行うことができる。５のビデ
オ再生装置は、光ディスクやビデオデッキ等である。ビデオ再生装置５から出力される映
像信号は、逐次、６のビデオ入力装置によってデジタル画像データに変換され、コンピュ
ータに送られる。また場合によっては放送中の映像を取り込むことも可能であり、放送受
信機７からの映像信号をビデオ入力装置６へ入力する。５のビデオ再生装置の替わりに、
デジタルデータとして映像を記録するビデオサーバやデジタルビデオ等を用いる場合には
、６のビデオ入力装置は不要か、もしくは圧縮記録された画像データを伸張して非圧縮画
像データに変換する機能を司る。放送受信機７についても、放送がデジタル方式の場合に
は同様である。コンピュータ内部では、デジタル画像データは、インタフェース８を介し
てメモリ９に入り、メモリ９に格納されたプログラムに従って、ＣＰＵ１０によって処理
される。１０が扱うビデオがビデオ再生装置５から送られている場合は各フレーム画像に
は、ビデオの先頭から順に番号（フレーム番号）が付けられている。フレーム番号を制御
線１１によってビデオ再生装置に送ることで、当該場面のビデオが再生するよう制御可能
である。また放送受信機７から送られてくるビデオの場合、フレーム番号はないので必要
に応じて、処理開始時を０とした連番や時刻等を記録してフレーム番号の代わりに使用す
る。コンピュータ内部処理の必要に応じて、各種情報を１２の外部情報記憶装置に蓄積す
ることができる。メモリ９には、以下に説明する処理によって作成される各種のデータが
格納され、必要に応じて参照される。

図２は、本発明の映像検索処理の処理概要を示す全体ブロック図である。この処理は、
コンピュータ２の内部で実行される。処理プログラムはメモリ９に格納され、ＣＰＵ１０
において実行される。以下では、各部がＣＰＵ10によって実行されるソフトウェア手順と
して記述されることを前提に説明を行うが、本手順と等価な機能をハードウェアによって
実現できることは言うまでもない。なお、以下の説明において、ソフトウエアにより行わ
れる処理が便宜上ブロック化して示した。従って、例えば、図２において問い合わせ用映
像入力部は問い合わせ用映像入力処理を示している。本実施例では、見つけ出したいシー
ンの映像（以下、問合せ映像と呼ぶ）１００は、検索に先立って予め、問合せ用映像入力
部１０２によってフレーム毎に逐次入力され、メモリ９に一時的に格納される。フレーム
特徴量抽出部１０６は、メモリ９のフレーム画像１０４から特徴量１０８を抽出する。特
徴量テーブル作成部１１０は、特徴量が許容変動範囲内にある一続きの区間ごとに、その
特徴量と、その先頭フレーム番号とを対にして、特徴量テーブル１１２を作成し、記憶装
置１１４に記録する。検索対象であるビデオ映像１１６も、問合せ映像と同様にして照合
対象映像入力部１１８によってフレーム毎に逐次入力され、メモリ９に一時的に格納され
る。フレーム特徴量抽出部１２２は、メモリ９のフレーム画像１２０から特徴量１２４を
抽出する。ここで、１２２は１０６と全く同じ処理を行う。特徴量照合部１３０は、１２
２から次々と送られてくる特徴量１２４の最新の時系列の並びと、記録された特徴量テー
ブル３００（データ内容は１１２と同一）とが一致するか比較照合する。照合の途中経過
は、記憶装置１２６に後述する候補リスト４００の形で記憶され、新しいフレームの入力
ごとに更新される。もし、特徴量が一致すれば、その特徴量テーブルに対応する映像区間
を、後述する検索結果テーブル６００として記憶装置１２８もしくはその他の処理装置に
出力する。このとき、その検索された映像に何らかの名称や属性等が対応づけられていた
場合、その名称や属性を出力することも当然可能である。

次に、上記各部で行われる処理について、より詳細に説明する。

図３は、問合せ用映像が入力されて特徴量テーブルが作成されるまでの一連の流れ（１
００〜１１４）を示したものである。この処理の目的は、より多くの種類の問合せ用映像
を記憶しリアルタイムで一度に照合できるように、問合せ用映像を、その特徴を表現しう
る最低限度の情報に圧縮することにある。具体的には、まず次々と入力されるフレーム画
像から特徴量を抽出する。このとき、特徴量は、フレーム画像全体の平均色など数バイト
程度で表現できる情報に限定する。
さらに、得られた特徴量の時系列の並びを、許容変動範囲内にある一続きの区間ごとにま
とめ、それぞれの区間につき１つの特徴量で代表させる。図中、Ａ’、Ａ”と表記したの
は、Ａを基準として、その特徴量の値からの差の絶対値が特定閾値以内の特徴量であるこ
とを示している。入力された映像の各フレームには、t₁から順にt₂、t₃、…とフレーム番
号が添えられており、各区間の先頭フレームのフレーム番号t_i、t_j、t_k、…と特徴量Ａ、
Ｂ、Ｃ、…とを対にしてリストを作り、特徴量テーブルとする。ここで、映像は１秒あた
り３０枚ものフレーム画像から構成されるため、探したい映像の種類にも依存するが、平
均区間長が１０フレームとして、わずか数秒分のシーンからでも１０個以上の特徴量から
なる順列パターンが得られる。これに各区間の長さも制約条件に加えれば、このときの特
徴量テーブルの順列組合せの数はきわめて大きな数になり、多数の映像中にあっても十分
に１つのシーンを特定できるだけの性能が期待できる。

図４は、検索対象のビデオ映像と、予め記憶してある問合せ用映像との間の照合の様子
（特徴照合処理１３０）を模式的に示したものである。上述のように検索対象映像は、逐
次フレーム画像入力され、特徴量が抽出される（１１６から１２４）。一方、特徴量テー
ブルの形で圧縮されていた問合せ用映像は、照合時（１３０）には、各区間の長さ分ずつ
特徴量がならべられ、ラン単位からフレーム単位の特徴列に戻される。照合にあたっては
、対象映像から入力されたばかりの最新のフレームを最末尾とする特定閾値以上の長さの
特徴列と一致する特徴列を持つ問合せ用映像を検索結果として返す。このとき、完全一致
だけでなく部分的な特徴列の一致も検出し、その一致した部分の長さが同閾値以上の場合
には、それも検索結果として返すようにする。これにより、編集等で長さが微妙に異なっ
ているシーンに対しても正しく検索ができるようになる。

図５は、本発明における照合処理をより詳細に示したものである。上述したような不定
長の特徴列の照合を行う場合、単純に行うと、対象映像からフレーム画像が新しく入力さ
れる都度、図６に示したような、様々なフレーム長を想定した比較照合を繰り返さなけれ
ばならない。このときのフレーム間比較の数は、図から明らかなように極めて膨大であり
、とりわけ1/30秒に一度の割合で続々と新しいフレームが入力されるようなリアルタイム
照合用途には不向きである。これは、フレーム入力のたびごとに以前の照合処理とは全く
独立に照合処理を行っているためであり、直前の処理で、ある程度の長さ分の一致が確認
されたとしても、その情報を次の照合処理に活かすことができない。そこで本発明では、
１回のフレーム入力で行う照合処理を削減し、フレーム入力の都度、直前までの処理を補
足するように照合処理を段階的に行うアプローチをとる。具体的には、次のようにして照
合を行う。

(1)あるフレームが対象映像から入力されたとき、そのフレームの特徴量と同じ特徴量
が問合せ用映像中にあるかどうかを探して、見つかったフレームをすべて候補として一時
的に記憶する。
(2)次のフレームが対象映像から入力されたとき、そのフレームの特徴量が、直前に候補
として記憶したフレームの直後のフレームの特徴量と一致するかどうかを調べる。
(3)一致しなかった場合には候補から外し、また、今回入力されたフレームの特徴量と同
じ特徴量を持つフレームを新たに候補として追加する。このとき、候補から外されたフレ
ームが、それまでに特定閾値以上の長さ分だけ一致し続けていた場合には、そのフレーム
を先頭にした一致区間を検索結果として出力する。
(4)以上を繰り返す。

以下、図５の例に従い、本発明による照合の原理を具体的に説明する。
まず対象映像から新規のフレーム入力があり、特徴量Ｘが得られたフレーム(1)について
考える。問合せ用映像の中に特徴量Ｘは存在しないので、何もしない。
フレーム(2)も同様である。フレーム(3)が入力されて特徴量Ａ’が得られると、Ａ’と一
致する特徴量Ａが問合せ用映像中に存在するので、特徴量Ａを持つ問合せ用映像中のすべ
てのフレームa〜dを候補に入れる。対象映像から今後入力されるフレームの特徴量の現れ
かたによっては、これらの候補フレームのいずれも、そのフレームを先頭とした一続きの
区間が検索シーンとなる可能性を秘めている。図５の下の表において、フレーム(3)の行
に書き込まれている〈１〉〜〈４〉が、この時点で候補に入れられた問合せ用映像中のフ
レームを示している。続くフレーム(4)でも特徴量Ａ’が得られるが、まず前回候補に入
ったすべてのフレームについて、その次のフレームが特徴量が一致するかどうかを調べる
。結果は、〈１〉〜〈３〉のフレームについては一致するが、〈４〉のフレームについて
は、次のフレーム〈５〉で特徴量がＢに変わっているので一致しない。表中４行目に×と
表記されている部分がそれで、フレーム(3)で候補に入った〈４〉については、この時点
で候補から外される。また同時に、フレーム(4)における候補として、表中４行目に、(3)
と同じ〈１〉〜〈４〉が新たに加えられる。(3)行目で加えられた〈１〉〜〈４〉と(4)行
目で加えられた〈１〉〜〈４〉とは、同じフレームではあるが、照合の候補としては全く
別物として扱う。さらに、フレーム(5)ではＢ”が得られ、ここで(3)で候補に入った〈１
〉〈２〉と、(4)で候補に入った〈１〉〜〈３〉が候補が外される。そして、同様にして
〈５〉と〈６〉が、この時点で候補に入れられる。以上の処理を、対象映像からフレーム
を入力するたびに繰り返すと、フレーム(8)の段階まで一致し続けている候補は、(3)で候
補に入った〈３〉と、(4)で候補に入った〈４〉、(5)で候補に入った〈５〉、(6)で候補
に入った〈６〉、(7)で候補に入った〈７〉だけである。そして、フレーム(9)が来て照合
がとれなくなった時点で、対象映像のフレーム(3)〜(8)と,問合せ用映像の〈３〉〜〈８
〉とが最も長く一致する区間であったことがわかる。これらの結果は、先に図６で示した
従来方法を用い、フレーム(8)を基点として順に長さを変えながらシーンの照合を調べた
場合の照合結果と一致する。この場合、問合せ用映像のフレーム数をnとすると、１回の
フレーム入力あたりに行わなければならないフレーム間比較の回数は、図６に示したよう
にn(n+1)(n+2)/6回となり、その計算量のオーダーはO(n³)となる。しかし、本手法によれ
ば、(1) 新たに入力されたフレームの特徴量と、候補フレームの次フレームの特徴量との
一致を調べる回数cと、(2)問合せ用映像の中に、新たに入力されたフレームの特徴量と同
じ特徴量があるかを調べる回数n、の和だけでよく、一般にn>>cとなってオーダーはO(n)
となる。この差は、直前のフレームまでの処理結果をもとにして、現在のフレームを加え
た結果を求める帰納的な手法としたことによる。また、nは、前述した特徴量テーブルの
利用によって、もともとのフレーム数よりも少なくでき、さらに高速な照合が期待できる
。そしてまた、この検索結果は、明らかにフレーム精度で位置決めができている。

以上の説明では、問合せ用映像が一つの場合を想定して説明したが、複数の場合でも問
題なく適用できる。フレーム入力ごとの照合にあたって、問合せ用映像の数だけ上記の処
理を繰り返せばよいだけである。但し、図７に示したように、問合せ用映像のそれぞれに
同じ映像部分が含まれていながら、それらが編集のしかたが異なるなどの影響で微妙に前
後が違っている場合がある。図では、〈１〉、〈２〉、〈３〉の３種類が示されている。
１つの問合せ用映像の中に複数の同一映像部分が含まれている場合も同様である。問合せ
用映像の中に一致する部分があるかどうかだけが必要なときには問題にならないが、検索
の目的によっては、その一致区間の正確な位置と長さに基づいて分類まで行いたいことも
ある。その場合、どの区間がどの区間と一致するかを明確に検索結果として出力できなく
てはならない。また、図中のNo.2とNo.3にあるように、重なりがある場合には、その包含
関係を考慮した上で示せなければならない。本発明の手法では、この課題についても基本
的な照合原理を変更することなく高速処理が可能である。本手法における照合処理では、
対象映像からフレームが入力されて特徴量が得られると、問合せ用映像中から、それと同
じ特徴量を持つ一群のフレームが候補に入れられると述べた。このとき、同時に候補に入
ったフレームを先頭とし、検出閾値以上の長さに達した一致区間の一群は、互いに同一の
映像である。図７の例では、〈２〉の区間は３つの問合せ用映像のいずれにも存在し、各
問合せ用映像における区間先頭フレームはすべて、対象映像から〈２〉の先頭にあたるフ
レームが入力された時点で同時に候補に入る。他にも同時に候補に入るフレームがある可
能性があるが、それらは検出閾値以上の長さに達する前に候補から外れることになる。そ
して、〈２〉の区間の末尾まで到達し、その次のフレームの照合を行った時点で、No.1と
No.3の問合せ用映像における一致区間が候補から外される。対象映像にとっては、まだNo
.2との間では一致しつづけているが、ここでひとまず〈２〉の区間を確定し、問合せ用映
像No.1〜3で〈２〉が見つかったことを検索結果として出力する。しかし、問合せ用映像N
o.2は、区間〈２〉が終わっても、次のフレームもまだ対象映像と一致しているので候補
として残り続け、最終的に区間〈３〉が確定する。また、〈１〉のように、〈２〉より手
前に区間があっても同様に一致区間が検出され確定する。このように、本発明の手法によ
れば、候補に入るときと外れるときに簡単なチェックを行うだけで、フレーム入力ごとの
照合の処理量は少ないまま、微妙に前後が違っている様々なバリエーションのシーンをそ
れぞれ区別して検出することができる。

以上の説明では、問合せ用映像をあらかじめ用意しておき、その上で対象映像から検索
を行うケースについて説明したが、本手法は問合せ用映像が対象映像そのものであっても
適用できる。図８にその概念図を示す。対象映像を入力し、それをすべて記憶しておき、
それをあたかも上述の問合せ用映像であるかのように扱う。これは、図９のブロック図に
よって実現することができる。ほとんど図２のブロック図と変らないが、問合せ用映像と
対象映像とが同一なため、フレーム特徴量の抽出までが共用でき、フレーム特徴量１０８
が記憶用と照合用にそれぞれ分配される。この機構により、対象映像から入力された最新
の映像部分〈１〉が、過去に入力されたどの部分に現れているかを入力と同時に検出する
ことができる。また、過去に複数回現れたシーンであれば、上述の照合原理から、それら
すべてが同時に検出されるので、検出された同一シーンごとにまとめて分類整理する、い
わば映像の自己組織化がリアルタイムで自動的に成される。たとえば、数週間分のテレビ
番組を録画できる装置に、本発明を数週間分のテレビ番組をすべて記憶できるだけのメモ
リ容量を持たせて適用すれば、一般に番組のオープニングには毎度同じ映像が流れるので
、その映像を検出して前後の映像をまとめることで番組の分類整理が録画と同時にリアル
タイムで行える。同じシーンが複数あることがわかれば、映像そのものは１つだけ残して
おいて、残りについてはポインタだけ残して消してしまえるので、録画するときのメディ
アの利用効率を向上させることができる。また、コマーシャルも繰り返し流される映像の
一つであるが、録画した番組を再生する場合に、必要に応じて自動でスキップさせること
もできる。このとき、コマーシャルの特徴として、長さが15秒もしくは30秒ちょうどであ
ることを利用すれば、コマーシャルかどうかの判定性能が向上する。

以上説明した中で、図９で示したブロック図を実現する処理について、より具体的にフ
ローチャートで表現すると、図１０のようになる。図２のブロック図を実現する処理につ
いても、図１０より自明となる。また、上記では説明を簡単にするため、問い合わせ用映
像の特徴量を一度ラン単位からフレーム単位に戻して照合したが、ここではより実用に近
い仕様となるよう、ラン単位のままで照合する方法を示す。

まず処理２００で装置や各種変数の初期化を行う。変数mcとmmに０が入る。次に、対象
映像からフレーム画像を1枚入力し（２０２）、そのフレーム画像から特徴量Ｆを抽出す
る（２０４）。特徴量Ｆは、フレーム画像中に存在する全画素の色の平均を用いる。各画
素の色はＲＧＢ３つのコンポーネントから表現されているが、各コンポーネントの値につ
いてそれぞれ全画面分の平均をとり、３つの値の組（Ra, Ga, Ba）を得、この組をもって
特徴量Ｆとなす。もし、初めてのフレーム入力ならば、図１１に示した特徴量テーブル構
造体３００を新規に作成し、最初の区間（区間番号１）の特徴量として３０２にＦを書き
込む。また、このときのフレーム番号も対にして一緒に３０４に書き込む。このようにし
て作成された特徴量テーブルが、今後既に述べた問合せ用映像として機能することになる
。このとき、特徴量テーブル３００に記憶されている区間の最大値を示す変数mcを１つ増
やし、そのまま２０２に戻る。一方、2回目以降のフレーム入力ならば、処理２０６を行
う。２０６では、特徴量テーブルに記憶された最新の区間（区間番号mc-1の区間）の特徴
量ＦＣと今回の特徴量Ｆとを比較し、その差異が閾値CTH以下であるかどうかを判定する
。ここで、特徴量は上述のように３つの値の組であるが、３つの値の差がすべて閾値CTH
以下であるときにのみ、差異が閾値CTH以下と表現することにする。もし、差異が閾値CTH
以下であれば、今回入力されたフレームは、直前までのフレームと同じ区間にまとめるこ
とができると判断され、処理２０８に進む。２０８ではループカウンタiを０にリセット
する。iは２２６で１ずつ増やされ、iがmmより大きくなるまで２１０〜２２４の処理を繰
り返す。ここでmmは、これまでに入力した全映像（特徴量テーブル３００として記憶）の
中で、現在新たに入力されつつある映像と同じ部分である可能性があるとして継続審査の
段階にある候補の数である。すべての候補について、それぞれ審査段階を表わす状態変数
を格納する構造体５００が作られており、図１２に示すような候補リスト構造体４００に
よって管理されている。４００には、候補構造体５００へのポインタが格納され、追加や
削除が実行中に動的に行われる。図１３は、候補構造体５００の構造を示しており、候補
として登録されたときの区間番号が照合開始区間番号５０２として、その区間からスター
トして現在照合の対象となっている区間の番号が照合対象区間番号５０４として格納され
ている。
また、一致フレーム数カウンタ５０６は、候補に入ってから一致しつづけた回数、すなわ
ち一致区間の長さである。照合開始フレームオフセット５０８は、ラン単位で比較しなが
らフレーム精度での位置決めを行うために必要な変数であり、後述する。そして、同時照
合開始候補へのポインタ５１０は、同時に登録された一群の候補どうしを連接リスト形式
で結んでおり、５１０を参照していくことで同時に登録された候補を次々に辿ることがで
きる。さて、処理２１０では、候補i（mm個ある候補の中のi番目の候補という意味で表記
）が、現在照合対象となっている区間の末尾まで照合し終わったのかどうかを調べる。こ
れは照合開始区間番号５０２で示される区間のフレーム番号に、一致フレーム数カウンタ
５０６を足したフレーム番号が、現在照合対象となっている区間の次の区間のフレーム番
号に達していれば、末尾に達しているとわかる。もし、達していなければ、候補iの一致
フレーム数カウンタを１増やして（２１６）、処理２２６に進む。達していれば、現在照
合対象となっている区間に後続する区間の特徴量を参照し、それとＦとの差異が閾値STH
以下かどうかを調べる（２１２）。もし、差異が閾値STH以下ならば、照合対象の区間を
その後続区間に変更して照合を継続する（２１４）。これによって、区間が変わる場所が
入力映像と異なっている場合でも安定して照合ができる。これは、映像入力時のノイズや
機器の特性等によって映像信号が変動することがあるため、区間の変化点が、同じ映像を
入力していても必ずしも同一になるとは限らないために必要な処理である。また、区間の
変わり目を決定する閾値CTHと異なる閾値STHをここで用いているのも、同様に映像の変動
を吸収し、安定した照合を行うためである。一方、処理２１２で、差異が閾値STHより大
きければ、現在照合対象となっている区間の特徴量と、今回の特徴量Ｆとの差異が閾値ST
H以下かどうかを調べる（２１８）。もし、差異が閾値STH以下ならば、何もせずに処理２
２６に進む。これは、候補に入るのがフレーム単位でなく区間単位であり、必ずしも区間
の先頭から一致するとは限らないために、現在照合対象の区間と同じ特徴量の入力映像が
得られている間は、とりあえず位置合わせしながら待ってみるのである。もし、差異が閾
値STHより大きければ、もう一致しなくなったみなす。このとき、候補iの一致フレーム数
カウンタが閾値FTH以上ならば（２２０）、検索シーンとして候補iを出力する（２２２）
。そして、候補iを候補リストから削除し（２２４）、処理２２６に進む。

さて、処理２０６において、差異が閾値CTHより大きければ、今回入力されたフレーム
は、直前までのフレームと同じ区間にまとめることができないと判断され、新規区間を特
徴量テーブル３００に追加する（２２８）。このとき、 mcを１つ増やし、ＦＣにはＦを
代入しておく。２３０ではループカウンタiを０にリセットする。iは２４８で１ずつ増や
され、iがmmより大きくなるまで２３２〜２４６の処理を繰り返す。処理２３２では、候
補iが、現在照合対象となっている区間の末尾まで照合し終わったのかどうかを調べる。
これは処理２１０と同様の方法で求められる。もし達していれば、照合対象の区間をその
後続する区間に変更し（２３４）、そうでなければ何もしない。次に現在照合対象となっ
ている区間の特徴量と、最新の特徴量Ｆとの差異が閾値STH以下かどうかを調べる（２３
６）。もし、差異が閾値STH以下ならば、候補iの一致フレーム数カウンタを１増やし（２
３８）、処理２４８に進む。もし、差異が閾値STHより大きければ、現在照合対象となっ
ている区間の後続区間について直後の１つだけでなく順番に調べていき、今回の特徴量Ｆ
と同じ特徴量を持つ区間があるかを調べる（２４０）。もしあれば、その後続区間を照合
対象の区間に変更し、また、その区間のフレーム番号と当初の照合しようとしていたフレ
ーム番号との差を照合開始フレームオフセット５０８に代入してから、処理２４８に進む
。これもまた必ずしも区間の先頭から一致するとは限らないためで、このオフセットを利
用することでフレーム精度の位置合わせができるようになっている。このとき、オフセッ
トの大きさが、候補に入れられたときの区間の長さを超えていたら、一致する後続区間が
見つからなかったと同じ扱いで処理２４２に進む。さもなければ、最初に候補に入ったと
きの区間の後方の区間から照合開始したと等価であり、そのときは、その後方の区間から
照合開始したものが順調に一致を続けているはずで処理が重複することになる。一致する
後続区間が見つからなかった場合、候補iの一致フレーム数カウンタが閾値FTH以上ならば
（２４２）、検索シーンとして候補iを出力する（２４４）。そして、候補iを候補リスト
から削除し（２４６）、処理２４８に進む。全部の候補について処理が終わったら、今回
入力されたフレーム画像の特徴量と同じ特徴量を持つ区間を、特徴量テーブルに記憶され
た区間の中からすべて探し出し、それらの区間を照合開始区間とする候補構造体を作成し
て候補リストに追加する（２５０〜２５６）。

以上の処理の中の２２２、２４４において、見つかったシーンの情報をそのまま出力す
るほかに、図１４に示した形式で出力することもできる。６００は検索結果テーブルで、
見つかったシーンを同一シーンごとにまとめてグループを作り、各グループのエントリを
管理する。同一シーンのグループは、先に図７で説明したようにして得られる。見つかっ
たシーンの一つ一つは検索区間構造体７００で表現され、同一シーンは相互にポインタを
持ち合う連接リスト形式で一つのグループを表現する。連接リストを形成する同一シーン
へのポインタは７０４に格納され、また、それぞれの区間の先頭フレーム番号が７０２に
格納される。そして、グループを表わす連接リストの先頭となった検索区間構造体へのポ
インタが、そのグループのエントリとして６０２に格納される。同一グループでは、グル
ープ内のすべてのシーンの区間長は同じなので、エントリと対にして６０４に格納する。

以上の処理を繰り返すことで、過去に一度でも現れたことのあるシーンは再び現れた瞬
間に検出され、その区間の先頭と長さがフレーム精度で位置決めされる。区間の先頭は、
候補構造体の照合開始区間番号で示される区間のフレーム番号に、同じく照合開始フレー
ムオフセットを加えたフレームであり、長さは、一致フレーム数カウンタの値そのもので
ある。あとは先に図７を用いて説明したように、同じ区間ごとにまとめることで自動自己
組織化ができる。但し、静止画が長く続くようなシーンの場合、フレーム１枚あたりの特
徴量を減らしている本手法では特徴量の特徴的な時間変化が得られず、他の静止画シーン
と間違って一致する確率が高くなるという問題もある。この場合については、たとえばフ
レーム画像１枚あたりの特徴量を増やすことで対応できるのはいうまでもない。また、同
様に特徴量に変化が少ないシーンの場合には、数フレーム程度のずれがあっても一致しう
る。このような場合、複数の区間が同じ範囲に重なり合って検出される。この典型的な例
として、入力されたばかりの映像が、同じカット（映像を構成する単位の一つ。１台のカ
メラで途切れなく撮影されたひとまとまりの映像区間）内の少しだけ前のほうの区間と一
致する場合がある。映像の冗長性から、同じカット内の各フレームは画像的に良く似てい
るためである。これには、公知のカットの変わり目の検出手法を導入し、同じカット内で
は一致とみなさないといった処理を行うことで問題を回避できる。

図１５は、本発明、特に図８に示した手法を利用した、次世代ビデオレコーダシステム
の一実施例を示す概念図である。テレビ番組などの映像を録画すると同時に、本発明の機
能も実行する。録画する映像の各フレームにはフレーム番号等のアドレス情報を付与し、
そのアドレス情報を、本発明で生成する特徴量テーブル３００のフレーム番号３０４とし
て用い、映像データと特徴量テーブルとの１対１の同期をとる。録画終了時には、本発明
で用いる特徴量テーブルや各種変数は不揮発性の記録装置に記録され、次回録画開始時に
読み出されて再開できるようにする。これにより、映像を新しく入力すると同時に、映像
アーカイブの中にすでに記録された映像とリアルタイムで照合し、同一シーンどうしを自
動的に関連づけることができる。そして、例えば、入力された映像と主題歌の部分が照合
する番組がすでに格納されていれば、それらは連続番組であり、同じ分類としてまとめて
整理することが自動的にできる。もし、連続番組の初回を見たときに、その連続番組全般
の共通属性として情報を付与したならば、入力されたばかりの映像にも、その情報を直ち
に共有させることができる。また、繰り返し現れるコマーシャルも同様にして検出でき、
コマーシャルをスキップすることができると先に述べた。しかし、録画格納されている映
像に存在するコマーシャルをもとにしただけでは、限られた数のコマーシャルしか検出で
きない。そこで、映像を録画しないときも２４時間映像を調べるようにし、繰り返しシー
ンからコマーシャル部分を検出し、そのコマーシャル部分の映像については、映像の録画
はしないまでも特徴量テーブルだけは作成し記録しておくようにする。これにより、映像
の容量を抑えたまま、より多くのコマーシャルが検出できるようになり、また、コマーシ
ャルのスキップがより確実に行えるようになる。このように、本発明を次世代ビデオレコ
ーダシステムに搭載することで、録画した番組を自動分類整理したり、コマーシャルを自
動スキップしたり、といったことが簡単にでき、非常に使い勝手がよくなる。ここでは放
送映像を対象とできることを強調したが、ファイル等に格納された映像が対象であっても
構わないことはいうまでもない。

図１６はユーザとの対話に利用する表示画面の一実施例である。映像のフレーム画像は
コンピュータのディスプレイ上のモニタウインドウ５０に再生表示される。同じ画面上に
表示されるウインドウには、５０のほか、映像中の代表的なフレーム画像を一覧にして表
示するウインドウ５２、映像やシーンの属性を入力するテキストウインドウ５５、検索結
果を表示するウインドウ５４などがある。検索結果が５２に表示される場合もある。これ
らのウインドウは、ポインティングデバイス３の一つであるマウスを使って自由に動かせ
るカーソル５３を操作して画面上の任意の位置に移動できる。テキストの入力にはキーボ
ード４などを用いる。ウインドウ５２に表示される代表フレームは、例えば、映像をカッ
ト単位に分割した際の各カットの先頭フレームとする。ボタン５１は、映像の再生状態を
制御するためのボタンで、マウスでクリックすると、映像の再生や早送り・巻き戻しとい
った制御ができる。また、再生するシーンについては、ウインドウ５２に一覧表示されて
いる代表フレーム画像をクリックすることによって連動的に選択を行うこともできる。そ
のとき、再生するビデオは、コンピュータに接続されたビデオ再生装置５が出力する映像
を用いることもできるし、外部情報記憶装置に登録されたデジタル化された映像でもよい
。ビデオ再生装置５の場合には、シーンの先頭のフレーム番号をビデオ再生装置に送り、
そのフレーム番号に対応するシーンから再生を開始する。そして、シーン末尾のフレーム
番号に到達した時点で再生を中断する命令をビデオ再生装置５に送る。デジタル化された
映像の場合も基本的に同様だが、デジタル映像データを読み取った後、計算機向けの描画
データに変換してグラフィックの一種として表示する。１フレーム分の表示処理が終了す
ると、次のフレームの表示処理を連続して行い、これにより動画像の表示とする。表示処
理に要する時間に合わせ、一定時間あたりに表示するフレーム画像の枚数を調節し、映像
が早送り気味になったりスロー気味になったりしないようにする。またモニタウインドウ
５０には放送受信機７からの映像の表示も行える。

ユーザが図１６の画面を用いて映像検索を行う操作手順を以下のべる。まず問合せ用映
像の指定を行う。最も単純な方法は、５１の操作ボタンを用いて早送りや巻戻しを行い、
モニタウインドウ５０に映される映像を確認しながら任意のシーンを見つける方法である
。また、ウィンドウ５２に並んだ代表フレームの一覧は、本でいうところの目次や索引に
相当するもので、それを参照することで、より手早く所望のシーンを見つけることができ
る。指定する際には、そのシーンの範囲を正確に指定する必要はなく、そのシーンに含ま
れる任意のフレームを指定すればよい。これはモニタウインドウ５０に表示中のフレーム
をマウスでクリックして指定するのでもよいし、５２の代表フレーム一覧の中に、問合せ
用映像に含まれるフレーム画像が表示されているならば、それをマウスクリックするので
もよい。次にテキストウィンドウ５５で、選択したシーンやその映像全体のタイトルや人
名等の属性情報をキーボードから入力し登録する。尚、登録数は任意であり、また、属性
情報を今後再利用する必要がない場合には、属性情報の登録は一切行う必要がない。最後
にユーザは検索開始要求を出す。これは５５のＯＫボタンをクリックすることで行う。こ
れにより、システムは検索処理を開始する。
システムは、指定されたフレームをちょうど中間とする一定の長さの区間を仮想的に作り
、その区間を問合せ用映像として本発明の検索手法にかける。対象映像はビデオ再生装置
から新たに入力してもよいし、すでにデータベースとして登録され特徴量テーブルが作成
されている映像ならば、その特徴量テーブルに対して照合処理を行う。このとき、得られ
た検索結果の区間の中に、最初に指定したフレームが含まれていれば、それが検索結果と
なる。さらに、部分一致なのか、全区間一致なのかを調べて、全区間一致しているときに
は、区間を前方および後方に広げて一致区間を正確に求めることもできる。これは、部分
的に一致する区間も高速に探し出せる本発明の手法のメリットを活かした検索方法となっ
ている。

検索結果はウィンドウ５４に表示される。表示内容は属性情報、時間情報等である。あ
るいは検索結果を、図１７に示した形でグラフィカルに表示することも可能である。図１
７は、ウインドウ５２の拡大図になっており、８００が各代表フレームのアイコン画像で
ある。横棒８０６がアイコン画像の下に添えられることで、そのアイコン画像に対応する
シーンに、検索結果が存在していることがわかるようになっている。検索結果が、アイコ
ン画像の複数のシーンにまたがれば、棒もその分だけ長くなる。また、棒は色もしくはハ
ッチングパターンで分類されており、同じシーンの検索で見つかった複数のシーンはいず
れも同じ色で、一方、あるシーンの検索結果と別のシーンの検索結果とでは違う色で表示
される。
代表フレーム一覧は、前述のように映像の目次や索引として用いることができ、問合せ用
映像を見つけるのに非常に有用であるが、代表フレームは映像に含まれるすべての画像で
はなく、かといって、すべての画像を一覧にすれば、それらの中から所望のものを見つけ
るのが困難になる、というジレンマがある。そのため、映像を解析することで、代表フレ
ームが表わすシーンの典型的な特徴を抽出し、例えば、各アイコン画像８００に、特徴を
表現する情報８０２や時間情報８０４を合わせて表示することで、代表フレームの画像に
ない部分の映像も探し出せるようにすることが考えられる。このようなシーンの特徴を表
現する情報には、人物の有無やカメラワーク（ズームやパン、チルトなど）、特殊効果（
フェードイン／アウト、デゾルブ、ワイプなど）の有無、字幕の有無、などがある。画像
の検出を行う画像認識手法には、先に本発明者らが特許出願した特願平7-210409号（H7.8
.18出願）を利用すればよい。本発明の手法を適用すれば、また別のアプローチから、代
表フレーム一覧のジレンマの解消に役立てることができる。代表フレーム一覧には、繰り
返しシーンであれば、それらのシーンの全部ではなくても、その幾つかが一覧の中に含ま
れていることがある。例えば、図１８において、カーソル５３で、繰り返しシーンの一枚
をクリックし検索を行えば、そのシーンと同じ映像部分を持つシーンをすべて見つけて、
ユーザに提示するようにする。検索結果の提示は、たとえば、アイコン画像８０８に重畳
表示した星印８１０のように、検索された区間を含むシーンのアイコン画像を強調する形
で行う。
このとき、表示するアイコン画像自体も、検索された区間の中のフレーム画像で置き換え
ると、さらにわかりやすくなる。これによって、代表フレーム一覧の中に、見つけたいシ
ーンと同じシーンの画像が一つでもあれば、それを頼りに所望のシーンを見つけることが
可能になり、代表フレーム一覧の利便性が高まる。同様の手法は、モニタウインドウ５０
で表示中の映像についても適用でき、表示中のフレームをクリックするなどして指定して
、そのフレームを含むシーンと同じシーンを検索し、見つかったシーンの一つにジャンプ
させるといったこともできる。このようなことを実現するためには、これまでリンクノー
ドの設定などの面倒な準備が予め必要であったが、本発明の手法を用いれば、非常に高速
に検索ができるので、必要な都度検索を行えばよく、前もって準備しておく必要はない。

尚、図９のブロック図で表わされる自己組織化処理の実行にあたっては、ユーザは検索
のための特別な処理を何ら行う必要はなく、ただ映像を入力しさえすれば計算機が自動的
に処理を実行する。

また、以上の説明では、映像の画像特徴に基づき検索を行う方法について述べたが、音
声特徴を用いてもよく、また、映像に限らず、逐次的に扱うことのできるメディアであれ
ば、いずれにでも本検索手法を適用できることは言うまでもない。

図１９に本発明の画像検索技術をビデオカメラに適用した例を示す。処理入力手段1960
に設けられた電源スイッチ1961により電源が投入され、録画ボタン1962により録画が指示
されると、音声・画像入力手段1910は、マイク1911から音声信号を、カメラ1912から画像
信号を入力する処理を行う。音声・画像入力手段における処理には、入力された音声・画
像信号に対してA/D変換処理、圧縮処理が含まれる。特徴抽出手段1970は入力された画像
信号からフレーム単位の特徴を抽出する。処理の内容は、図２、図９の106と同じである
。抽出された特徴は特徴量テーブルとしてメモリ1940に記憶される。メモリ1940は内蔵さ
れた半導体メモリ、着脱式のメモリカードを用いる。メモリ1940には入力された音声・画
像信号が保持され、再生ボタン1963からの再生指示により、メモリ1940から読み出され、
音声・画像出力処理手段において、信号圧縮に対する伸長処理や、D/A変換処理が施され
、画像は表示画面1921に出力され、音声はスピーカ1922から出力される。制御手段1930は
このビデオカメラの信号処理全般を管理し制御する。入力された画像はフレーム毎にその
特徴が抽出されメモリに蓄積されるが、制御手段1930では入力画像の特徴量をメモリ1940
中に保持されている過去のフレームの特徴量と照合する。照合処理は、図２、図９の特徴
量照合処理130と同じようにすればよい。照合した結果、特徴量が類似するシーンの区間
が検索結果テーブル（図２、図９の128）と同様の形式でメモリ1940に保持される。1950
はビデオカメラを駆動するための電源を供給する端子であり、バッテリーを装着するよう
にしてもよい。画像検索メニューボタン1964は、録画された動画像を例えば図１６、図１
７、図１８のように表示画面上1921に表示された画面で、ボタン1964を複数回押すことに
より、シーンの並び替えや削除等の簡単な編集処理や、所望のシーンを指示して類似のシ
ーンにを検索して再生させるといった処理を指示する。シーンの区分けに用いられる動画
像の変化点検出に関する技術は先に発明者らが特許出願した特願平成7-32027号(H7.2.21
出願)を参照すればよい。シーンの検索は、図２、図９で行った画像の特徴量の照合処理
を用いて行う。このようなビデオカメラは、特徴量の照合処理の条件をゆるめに調整する
必要がある。テレビ番組とは違い、一般にユーザがビデオカメラで映像を撮影するときに
は、全く同じ映像を撮影することはほとんどないからである。従って、同じ様な風景や、
同じ服装の人が同程度の大きさで写ったときには、類似シーンとして検索されるように照
合条件を設定する。録画と同時に撮影された画像が解析され、シーン毎のグループ分けと
類似シーン間でのインデックス付けが完了しており、撮影直後に録画画像の編集が可能に
なり、ユーザの使い勝手が向上する。

本発明の一実施例を実行するシステムのブロック図である。本発明の一実施例を実行する処理のブロック図である。本発明の一実施例の特徴量抽出方法を示す概略図である。本発明の一実施例の特徴量照合方法を示す概略図である。本発明の一実施例の特徴量照合の流れの一例を示す図である。従来の照合方法の一例を示す概略図である。本発明の一実施例の照合方法を説明するための概略図である。本発明の一実施例の照合方法を説明するための概略図である。本発明の一実施例を実行する処理のブロック図である。本発明の一実施例のフローチャートである。本発明の一実施例で使われる特徴量テーブル構造体を示す図である。本発明の一実施例で使われる候補リスト構造体を示す図である。本発明の一実施例で使われる候補構造体を示す図である。本発明の一実施例で使われる検索結果テーブルと検索区間構造体を示す図である。本発明の一実施例を応用したビデオレコーダシステムの概略図である。本発明により自己組織化された映像の映像検索時の表示画面例を示す図である。本発明により自己組織化された映像の映像検索時の表示画面例を示す図である。本発明により自己組織化された映像の映像検索時の表示画面例を示す図である。本発明をビデオカメラに適用したときの構成概略図である。

符号の説明

１…ディスプレィ、２…コンピュータ、３…ポインティングデバイス、４…キーボード、
５…ビデオ再生装置、６…ビデオ入力装置、７…放送受信機、１２…外部情報記憶装置。

Claims

映像を逐次フレーム毎に入力する手段と、
入力したフレーム画像から特徴量を夫々抽出する手段と、
該抽出された特徴量を比較して、該特徴量の変動が、１の前記抽出された特徴量を基準とした許容値内にある連続するフレーム間の代表特徴量を上記基準とした特徴量から得て、前記代表特徴量を該代表特徴量によって代表される区間長を示す情報とともに逐次記憶する手段と、
該記憶された代表特徴量と上記入力されたフレーム画像の特徴量との間で逐次照合する手段と、
当該照合の結果と、上記入力されたフレーム画像の各々において該照合により一致するフレームの区間長を途中経過として記憶しておく手段を有し、該照合手段では照合の途中経過を更新しながら、一致する映像シーンを探索するようにしたことを特徴とする映像検索装置。
請求項１記載の映像検索装置において、
前記映像は放送中の番組であることを特徴とする映像検索装置。
請求項１記載の映像検索装置において、前記探索される映像シーンを分類することを特徴とする映像検索装置。