JP2006039753A

JP2006039753A - 画像処理装置、画像処理方法

Info

Publication number: JP2006039753A
Application number: JP2004216094A
Authority: JP
Inventors: Satoru Yashiro; 哲八代
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-07-23
Filing date: 2004-07-23
Publication date: 2006-02-09

Abstract

【課題】少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させること。
【解決手段】登録動画像におけるそれぞれの区間の代表画像の特徴量のうち、クエリとしての静止画像の特徴量との相関が所定以上である特徴量の代表画像を特定し（Ｓ６０２〜Ｓ６０６）、特定した代表画像に係る情報を上記クエリに対する検索結果として表示する（Ｓ６０９）。
【選択図】図６

Description

本発明は、動画像を検索するための技術に関するものである。

近年、動画が撮影可能なディジタルカメラや、携帯電話、ディジタルビデオカムコーダ等の普及により、個人でも撮影によって動画をクリエイトできるようになってきている。また、テレビチューナーカード、ＭＰＥＧ２、ＭＰＥＧ４に代表される動画圧縮技術がハードウェア化されたエンコーダ、デコーダカードによりパソコンがビデオデッキとしての機能を実現しており、また、インターネットを通じた動画配信など、手軽に大量の動画が入手可能である。

このような動画を現在普及価格帯のパソコンで蓄積、フォーマットや解像度などの各種変換、動画編集などをすることが可能になっている。ＤＶＤなどの外部記憶媒体に高画質な動画を蓄積し、パソコン本体には管理用に低解像度のサムネイル動画を蓄積するのであれば１台のパソコンに１万時間以上の動画が蓄積できる。また、パソコンが使えない人でも、ハードディスクを搭載したビデオデッキも市場に出てきており、この装置には１０００時間以上の動画が蓄積できる物もある。

このような環境で静止画や動画をクエリーとして、蓄積された動画から類似している箇所を検索したいというニーズが増している。

これに関し、従来の技術では、動画のカットの開始、または、一定の間隔でフレーム画像を抽出し、そのフレーム画像から得た特徴量を使ってビデオを検索していた（例えば特許文献１を参照）。しかし、これではクエリ側と蓄積側の比較するフレームの時間が同期しないため、対応するフレーム同士を比較することができず、正確な類似度が判定できないという問題があった。

そこで、これを解決するために、クエリ側と蓄積側の対応するフレームの時刻が一致するよう、前後のフレームの特徴量からマッチングに必要な時刻のフレームの特徴量を補完して生成することで同期をあわせて照合を行っていた（例えば特許文献２を参照）。
特登録３３４０５３２特登録３４５１９８５

しかしながら、従来の技術では、前後のフレームの時間的距離を考慮した重み付け平均をとるなどして必要なフレームを補完していたため、補完の際に誤差が生じ、その誤差が類似度の誤差となっていた。この誤差は特徴量を蓄積するフレームの間隔が例えば１／１０秒の様に短い場合には小さいが、フレームの間隔が長くなるにつれて誤差が大きくなるという問題があった。

誤差を少なくして類似度の精度を向上するためには、特徴量を生成するフレームの間隔を狭くする必要があった。毎秒３０フレームの１時間の動画は１０万以上のフレームからなる。従来技術では特徴量を生成するフレームの間隔が狭いとデータ量が膨大になってしまい、記憶コストが高い。また検索時にも類似度を算出するフレームの量が増えるために、検索処理コストが高くなってしまうという問題があった。

本発明は以上の問題に鑑みてなされたものであり、少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させるための技術を提供することを目的とする。

本発明の目的を達成するために、例えば本発明の画像処理装置は以下の構成を備える。

即ち、動画像を検索するための管理情報を作成する画像処理装置であって、
動画像のデータを入力する入力手段と、
前記入力手段が入力した動画像を構成する各フレームを複数の区間に分割する分割手段と、
前記分割手段が分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定手段と、
前記分割手段が分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成手段と
を備えることを特徴とする。

本発明の目的を達成するために、例えば本発明の画像処理方法は以下の構成を備える。

即ち、動画像を検索するための管理情報を作成する画像処理方法であって、
動画像のデータを入力する入力工程と、
前記入力工程で入力した動画像を構成する各フレームを複数の区間に分割する分割工程と、
前記分割工程で分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定工程と、
前記分割工程で分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成工程と
を備えることを特徴とする。

本発明の構成により、少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させることができる。

以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。

［第１の実施形態］
図２は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。本実施形態では画像処理装置を一般のＰＣ（パーソナルコンピュータ）やＷＳ（ワークステーション）に適用した場合について説明するが、それ以外のハードウェアに適用しても良いことはいうまでもない。

同図において２０１はＣＰＵで、ＲＯＭ２０２やＲＡＭ２０３に格納されているプログラムやデータを用いて本装置全体の制御を行うと共に、後述する一連の処理を実行する。

２０２はＲＯＭで、本装置の起動プログラムや、本装置の設定データなどを格納する。

２０３はＲＡＭで、ＨＤＤ（ハードディスクドライブ）２０５からロードされたプログラムやデータを一時的に格納するためのエリア、動画入力部２０６から入力する動画像のデータを一時的に格納する為のエリア、ネットワークＩ／Ｆ２１０を介して外部から受信したプログラムやデータを一時的に格納するためのエリア、そしてＣＰＵ２０１が各種の処理を実行する際に使用するワークエリアを備える。なお、これらのエリアの一部もしくは全部をバッファメモリ２０７に設けるようにしても良い。

２０４はドライブＩ／Ｆで、バス２１１とＨＤＤ２０５との間のデータの送受信の為のＩ／Ｆとして機能するものである。

２０５はＨＤＤで、ここにＯＳ（オペレーティングシステム）や、ＣＰＵ２０１に後述する各処理を実行させるためのプログラムやデータが保存されている。また必要に応じて、動画入力部２０６やネットワークＩ／Ｆ２１０を介して受信したプログラムやデータを保存することもできる。

２０６は動画入力部で、ディジタルもしくはアナログのテレビ放送を受信し、ＰＡＬやＮＴＳＣなどのビデオ信号を入力し、アナログ信号の場合はアナログ・デジタル変換を行うＩ／Ｆ機器である。また、ビデオカメラやビデオデッキ、チューナーなどの外部ＡＶ機器からＩＥＥＥ１３９４やＵＳＢ２．０などを介して動画を入力するためのＩ／Ｆ機器である。またこの動画入力部２０６は、ＣＰＵ２０１に代わって動画の符号化、復号機能を併せ持ってもよく、画像の特徴量抽出を行った後、ＨＤＤ２０５に蓄積するとき等に符号化してデータ量を減らすことが出来る。

２０８は入力部で、キーボードやマウスなどにより構成されており、操作者が操作することで各種の指示をＣＰＵ２０１に対して入力することができる。

２０９は表示部で、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ２０１による処理結果を画像や文字などでもって表示することができる。

２１０はネットワークＩ／Ｆで、本装置をインターネットやＬＡＮなどのネットワークに接続するためのＩ／Ｆとして機能するものであり、このネットワークＩ／Ｆ２１０を介して本装置は外部機器とのデータ通信を行うことができる。

２１１は上述の各部を繋ぐバスである。

次に、上記構成を備える画像処理装置が行う、各処理について説明する。

＜動画像の登録＞
静止画像をクエリとして入力した場合に、この静止画像に類似する画像を、先に登録された動画像から検索処理を実現するために、動画像の登録時には以下説明する処理を行う。

図３は、動画像の登録処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはＨＤＤ２０５に保存されており、必要に応じてＲＡＭ２０３に読み出され、ＣＰＵ２０１がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。

先ず、動画入力部２０６を介して本装置内に動画像のデータが入力されたことをＣＰＵ２０１が検知すると、ＣＰＵ２０１はこの入力されたデータを順次ＲＡＭ２０３に格納する処理を行う（ステップＳ３０１）。なお、そのサイズが大きい場合にはそのデータの一部もしくは全部をＨＤＤ２０５に保存するようにしても良いが、以下の処理を行う際には処理対象となるぶんだけのデータを順次ＲＡＭ２０３に読み出すことになる。またこのようなデータの保存、読み出し等は周知の通りＣＰＵ２０１が行う。

また、動画像データの入力は動画入力部２０６を介して行うものに限定するものではなく、ネットワークＩ／Ｆ２１０を介してダウンロードした動画像のデータをＲＡＭ２０３に入力するようにしても良いし、ＨＤＤ２０５に予め保存されている動画像のファイルのうち１つもしくは複数を本装置の操作者に選択させ、選択された動画像のファイルをＲＡＭ２０３に読み出すようにしても良い。このように、動画像のデータをＲＡＭ２０３に入力する形態は特に限定するものではない。

なお、１つの動画像について、全部ではなくその一部をＲＡＭ２０３に入力する場合には、入力の前段で開始フレーム、終了フレームを指定する必要がある。

以下では１つの動画像のデータ（ファイル）に対する処理について説明するが、複数の動画像について行う指示が入力されている場合には、それぞれの動画像について以下説明する処理を行えばよい。

先ず、１つの動画像を時間方向に複数の区間に分割する処理を行う（ステップＳ３０２）。この分割方法としては例えば、先頭フレームの画像から順次参照していき、現在参照しているフレームの画像と先頭フレームの画像との相関が所定値以下となった場合には、この先頭フレームから現在参照しているフレームの１つ前のフレームまでを１つの区間とする。そして次に、現在参照しているフレームの画像を次の区間の先頭フレームの画像として以下、同様の処理を行う。これにより、動画像はいくつかの区間に分割される。

この分割方法では、動画像の各フレームにおける画像の変化が大きい（動きが激しい）ときには、短い区間に分割され、また変化が小さい（変化が乏しい）ときには長い区間に分割される。ただし、これでは短すぎる分割が連続したり、非常に長い間分割が行われない場合があるので、時間的な条件を組み合わせて、最低、および最長の分割区間を制限しても良い。

なお、ステップＳ３０２において２つの画像間の相関を計算する方法については特に限定しないが、例えばこの２つの画像について後述する類似性距離を求め、これをこの２つの画像間の相関を示す値とするようにしても良い。

次に、それぞれの区間について１つ代表フレームを決定（抽出）する（ステップＳ３０３）。この決定処理では、区間内の一定の間隔をあけた２つのフレームの相関を求め、区間内で最も相関の高い（類似性距離の少ない）２つのフレームの中間点のフレームを代表フレームとする。

図４は代表フレームを抽出する処理を説明する図である。４０１、４０３は各区間の先頭フレームの画像である。４０２はフレーム画像４０１を先頭、フレーム画像４０３よりも１つ前のフレームを終端とする区間内の代表フレームである。

同図ではフレーム画像４０１とそこから５番目のフレーム画像を比較し、類似性距離を算出する。また、２番目と６番目、３番目と７番目、、、というように、同様にして類似性距離を算出する。

ここで、類似性距離を求める方法について説明する。先ず、比較する２つの画像のそれぞれの特徴量を計算するのであるが、この特徴量としては、画像を格子状に複数のブロックに分割した場合に、それぞれのブロック内の画素のＲ、Ｇ、Ｂの平均値を用いる。従って、１つの画像についての特徴量は、分割したそれぞれのブロックについてのＲ、Ｇ、Ｂの平均値である。

そして、比較する２つの画像（一方を第１画像、他方を第２画像とする）のそれぞれの特徴量を用いて、それぞれの画像間の類似性距離を求める。具体的には、先ず、それぞれの画像で位置的に対応するブロック同士でＲ、Ｇ、Ｂの差の自乗和を求める。そして全てのブロックについて求めた自乗和を加算することで、この２つの画像間の類似性距離を求める。よってこの類似性距離の値が小さいほど、それぞれの画像におけるＲ、Ｇ、Ｂの差は小さいと考えられるので、それぞれの画像は類似している（相関性が高い）と判断することができ、逆に、類似性距離の値が大きいほど、それぞれの画像におけるＲ、Ｇ、Ｂの差は大きいと考えられるので、それぞれの画像は類似していない（相関性が低い）と判断することができる。

この類似性距離Ｄを求めるための具体的な式は以下に示すとおりである。

Ｄ＝Σ｛（Ｐ１_ｉＲ−Ｐ２_ｉＲ）^２＋（Ｐ１_ｉＧ−Ｐ２_ｉＧ）^２＋（Ｐ１_ｉＢ−Ｐ２_ｉＢ）^２｝（１）
ここで、各変数の内容は以下の通りである。

ｉ：処理中のブロック
Ｋ：分割ブロック数
Ｐ１_ｉＲ：第１画像のｉ番目のブロック内のＲの平均値
Ｐ１_ｉＧ：第１画像のｉ番目のブロック内のＧの平均値
Ｐ１_ｉＢ：第１画像のｉ番目のブロック内のＢの平均値
Ｐ２_ｉＲ：第２画像のｉ番目のブロック内のＲの平均値
Ｐ２_ｉＧ：第２画像のｉ番目のブロック内のＧの平均値
Ｐ２_ｉＢ：第２画像のｉ番目のブロック内のＢの平均値
また、Σはｉを１からＫ（１つの画像について分割したブロックの個数）までを加算することを意味する。

よって、式（１）に従った計算を区間内で対応する２つの画像（図４の例では１番目と５番目、２番目と６番目、３番目と７番目、、、）について行い、そして全ての組で求めた類似性距離Ｄのうち、最も小さい値の類似性距離の２つの画像の中央のフレームの画像を代表フレームとする。例えば３番目のフレーム画像と７番目のフレーム画像との間の類似性距離が他のどの類似性距離よりも小さい値を示す場合には、３番目のフレーム画像と７番目のフレーム画像との真ん中のフレーム画像、即ち、５番目のフレーム画像が代表フレームとなる。なお、代表フレーム画像は、２つの画像の真ん中に限定するものではない。

そしてこのように区間内における代表フレームを求める処理を、全ての区間について行う。これにより、それぞれの区間について１つ代表フレームを決定することができる。なお、本実施形態ではＲ、Ｇ、Ｂの色成分を用いて類似性距離を求めたが、色成分としてはこれ以外にも考えられ、例えば、輝度成分のみを用いるようにしても良い。

次に、区間内の各フレーム画像と代表フレーム画像との類似性距離を上記式（１）に従って求め、求めたそれぞれの類似性距離のうち最も大きい値の類似性距離を、この区間に対する特徴量付加情報とする（ステップＳ３０５）。即ち、区間内における各フレーム画像のうち、代表フレーム画像と最も低い相関性を示す類似性距離を特徴量付加情報として求める。このように、１つの区間について１つの特徴量付加情報を求める処理を全ての区間について行う。

そして処理をステップＳ３０６に進め、それぞれの区間について求めた代表フレーム画像の特徴量、特徴量付加情報を記述したヘッダ情報を作成し、これを動画像のデータと共に「動画像ファイル」としてＨＤＤ２０５に保存（記録）する（ステップＳ３０６）。ヘッダ情報としては例えば、それぞれの区間について、区間の先頭フレームのフレーム番号（動画像の先頭フレームからカウントした場合のフレーム番号）と代表フレーム画像の特徴量、特徴量付加情報とを関連付けたものが上げられるが、これに限定するものではない。

図５は、動画像ファイルの構成（フォーマット）例を示す図である。同図に示す如く、本実施形態に係る動画像ファイルのフォーマットは大まかにはヘッダ情報５０１と、動画像を構成する各フレームの画像データ５０２とに大別される。ヘッダ情報５０１は更に、この動画像ファイルのファイル名５０３、そして各区間に係るデータ５０４〜５０７（同図では区間数はＫとしている）により構成されている。それぞれの区間に係るデータは何れも同じであるが、その一例として区間１に係るデータ５０４の構成について説明すると、区間１に係るデータ５０４は、代表フレームの画像の特徴量のデータ５０８（代表フレーム画像の各ブロック内のＲ、Ｇ、Ｂの平均値のデータ）、特徴量付加情報（最大類似度）５０９、区間１の先頭フレームのフレーム番号５１０，区間１における代表フレームのフレーム番号５１１、そして代表フレームの画像のサムネイル画像５１２により構成されている。この代表フレームの画像のサムネイル画像は、ヘッダ情報の作成時に作成するものとする。

以上説明した処理により、静止画像をクエリとして動画像中のフレームを検索可能なように、動画像のファイルをＨＤＤ２０５に登録することができる。なお、複数の動画像を登録するように指示されている場合には、複数の動画像のそれぞれについて上記処理を行えばよい。

また、動画像を登録する先は本実施形態ではＨＤＤ２０５であるが、画像処理装置とは別個の装置（例えばネットワークＩ／Ｆ２１０を介してネットワーク上に接続されているサーバ装置やコンピュータなど）であってもよいことはいうまでもない。

なお、図１は、図３のフローチャートに従った処理をＣＰＵ２０１に実行させるためのプログラムの機能構成を示すブロック図である。

動画像入力部１０１は、ステップＳ３０１における処理をＣＰＵ２０１に実行させるためのプログラムである。動画像分割部１０２は、ステップＳ３０２における処理をＣＰＵ２０１に実行させるためのプログラムである。代表フレーム抽出部１０３は、ステップＳ３０３における処理をＣＰＵ２０１に実行させるためのプログラムである。画像特徴量付加部１０５は、ステップＳ３０５における処理をＣＰＵ２０１に実行させるためのプログラムである。動画像蓄積部１０６は、ステップＳ３０６における処理をＣＰＵ２０１に実行させるためのプログラムである。

なお、図１に示した各部のうち一部もしくは全部を専用のハードウェアでもって構成するようにしても良い。

＜検索処理＞
次に、操作者が指示した静止画像に似ているフレーム画像を、この静止画像をクエリとして、上記処理によってＨＤＤ２０５に登録された１以上の動画像から検索する処理について説明する。

図６は、検索処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはＨＤＤ２０５に保存されており、必要に応じてＲＡＭ２０３に読み出され、ＣＰＵ２０１がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。

先ず、検索条件入力を受け付けるためのＧＵＩ（グラフィカルユーザインターフェース）を表示部２０９に表示し、検索条件入力を受け付ける（ステップＳ６０１）。図７は、検索条件入力を受け付けるためのＧＵＩの表示例を示す図である。

７０１〜７０４はスクロールボタンであり、このボタン領域にマウスカーソルを移動してクリックする（以降、スクロールボタンをクリックするという。）ことで、静止画像表示領域７０８内の表示内容をスクロールさせることができる。

７０５，７０６はスクロールバーで、この領域にマウスカーソルを移動しマウスボタンを押下したままマウスを上下に移動し、所望の位置でマウスボタンを放すことで、静止画像表示領域７０８内の表示内容をスクロールさせることができる。このように、スクロールボタン、スクロールバーを用いて表示内容をスクロールさせる技術については周知の技術を用いる。

またマウスは入力部２０６に含まれるものである。

７０７は文字列エリアであり、クエリとしての静止画像のファイルが格納されたディレクトリやＵＲＩなどを入力するためのものである。操作者はこのエリア７０７に入力部２０６に含まれるキーボードを用いて、クエリとしての静止画像のファイルの存在するディレクトリやＵＲＩを入力する。

７０８は、領域７０７で指定されたディレクトリやＵＲＩに存在する画像のサムネイル画像を一覧表示するための領域である。この領域７０８に表示されている内容をスクロールさせるため、もしくはこの領域７０８に表示しきれない内容を表示させるために、上記スクロールボタン、スクロールバーを用いてこの領域７０８内をスクロールさせる。

７０９は領域７０８に表示されているサムネイル画像のうち、現在選択されているサムネイル画像を視覚的に明瞭にするために表示される枠の画像である。操作者はマウスを操作して選択したいサムネイル画像上にマウスカーソルを移動させ、そこでクリックすることで、選択したいサムネイル画像を選択することができる。またその際には選択したサムネイル画像上には枠の画像７０９が表示される。なお、現在選択されているサムネイル画像を視覚的に明瞭にする方法はこのように枠の画像を表示することに限定するものではない。

７１０は検索ボタンであり、これをクリックすることで、現在選択しているサムネイル画像（同図では枠の画像７０９が表示されているサムネイル画像）がクエリとして選択され、以下説明する検索処理が開始される。

７１１はキャンセルボタンであり、これをクリックすることで検索をせずに処理を終了することが出来る。

なお、このようなＧＵＩの操作方法については一例であり、上記操作方法に限定するものではない。また、ＧＵＩの構成についてもこれに限定するものではなく、様々なものが考えられる。

図６に戻って、クエリとしての静止画像が選択されると、ＣＰＵ２０１がこれを検知し、選択された静止画像のデータをＲＡＭ２０３にロード（ダウンロード）し、そして、この静止画像の特徴量を計算する（ステップＳ６０２）。この特徴量の計算方法については、ステップＳ３０３におけるそれと同様である。即ち、静止画像を格子状に複数のブロックに分割した場合に、それぞれのブロック内の画素のＲ、Ｇ、Ｂの平均値を計算し、これをこの静止画像の特徴量として求める。

次に、ＨＤＤ２０５に保存されている複数の動画像ファイルのうち１つを読み出し、読み出したファイル中のヘッダ情報に記録されている「各区間の代表フレームの特徴量」（図５では各区間におけるデータ５０８に相当）を取得する（ステップＳ６０３）。

そして、ステップＳ６０２で求めた静止画像の特徴量と、ステップＳ６０３で取得した各区間の代表フレームの特徴量との類似性距離を上記式（１）に従って求める（ステップＳ６０４）。なお、求めた類似性距離のデータは、このデータを求める際に用いた代表フレームの画像の特徴量が記録されている「区間に係るデータ」（図５ではデータ５０８から５１２に相当）、及びこの区間に係るデータに付加されている「動画像ファイルのファイル名」（図５ではデータ５０３に相当）と共に、ＲＡＭ２０３に格納する。

例えば、ステップＳ６０２で求めた静止画像の特徴量と、図５における区間１の代表フレームの特徴量との類似性距離を求めた場合、求めた類似性距離のデータには、区間１データ５０４におけるデータ５０３、及びデータ５０８〜５０９が付加されてＲＡＭ２０３に格納されることになる。

そして処理をステップＳ６０５を介してステップＳ６０３に戻し、次の動画像ファイルを読み出し、上記処理（ステップＳ６０３，Ｓ６０４における処理）を繰り返す。

一方、全ての動画像のファイルを読み出して上記処理（ステップＳ６０３，Ｓ６０４における処理）を行った場合には処理をステップＳ６０５からステップＳ６０６に進め、ステップＳ６０３からステップＳ６０５で求めた各類似性距離のうち、所定値以下の類似性距離のデータと共にＲＡＭ２０３に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をＲＡＭ２０３中の所定のエリア（以下、検索結果エリア）に記録すると共に、所定値以下の類似性距離のデータの個数をカウントする（ステップＳ６０６）。即ち、静止画像の特徴量との類似性距離が所定値以下である特徴量を有する代表フレームの画像の個数をカウントする。

そしてカウントした数が所定数Ａ以下である場合、検索結果の数を増やすために（検索条件を緩和して再度検索する処理を行うために）、処理をステップＳ６０７からステップＳ６０８に進める。即ち、静止画像の特徴量との類似性距離が所定値以下である特徴量を有する代表フレームの画像の個数が所定個数に満たない場合には、検索結果の数を所定個数Ａ以上にするために、検索条件を緩和して再度検索する。

ステップＳ６０８では、ステップＳ６０３からステップＳ６０５で求めた各類似性距離のうち所定値よりも大きい類似性距離から、この類似性距離のデータと共にＲＡＭ２０３に記録した「区間に係るデータ」中の特徴量付加情報５０９が示す値を減じた値を計算する。そして該当する全ての類似性距離のデータについてこの減算処理を行った結果、減算結果の値の小さい順から上記所定個数Ａに満たない分の類似性距離のデータと共にＲＡＭ２０３に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をＲＡＭ２０３中の上記検索結果エリアに記録する。

これにより、ＲＡＭ２０３中の検索結果エリアには、静止画像の特徴量と類似するとされるＡ個の代表フレームの画像が属する区間に係るデータ、この代表フレームが属する動画像ファイルのファイル名が記録されることになる。

そして、次に、検索結果エリアに記録されたデータを用いて、検索結果、即ち、静止画像の特徴量と類似するとされるＡ個の代表フレームの画像と、それに係る情報を表示部２０９の表示画面上に表示する（ステップＳ６０９）。

図８は、ステップＳ６０９で表示部２０９の表示画面上に表示される表示例を示す図である。同図においてライン８０２はステップＳ６０６で検索結果エリアに記録された結果に基づく検索結果、ステップＳ６０８で追加検索した結果を分けて表示するための境界線を示しており、ライン８０２を挟んで上側の領域８０１にはステップＳ６０６で検索結果エリアに記録された結果に基づく検索結果、下側の領域８０３にはステップＳ６０８で追加検索した結果が表示される。

領域８０１には、同図では３つの検索結果が表示されている。またこの領域８０１には上側から静止画像の特徴量との類似性距離が近い順に検索結果が表示されている。従って８０４は検索結果のうち静止画像の特徴量との類似性距離が最も近いものである。同図では検索結果には、静止画像の特徴量との類似性距離が最も近い代表フレームのサムネイル画像８０５，この代表フレームが属する動画像ファイルのファイル名８０６、この代表フレームの画像が属する区間の先頭、終端のフレーム番号に該当する時刻８０７、静止画像の特徴量との類似性距離が最も近い代表フレームが属する区間の前後数区間における代表フレームの画像のサムネイル画像８０８ａ、８０８ｂ、８０８ｃ、８０８ｄが表示されている。

ステップＳ６０９では、検索結果エリアに記録された「区間に係るデータ」を参照し、このデータ中の代表フレームサムネイル画像のデータ５１２を読み出して、画像８０５として表示する。また同様に、検索結果エリアに記録された「動画像ファイルのファイル名」を参照し、ファイル名８０６として表示する。

また、時刻８０７については、検索結果エリアに記録された「区間に係るデータ」を参照し、このデータ中の先頭フレーム番号のデータ５１０を参照すると共に、この区間の次の区間の先頭フレーム番号のデータ５１０を参照することで、区間の先頭と終端のフレーム番号を特定することができ、また、各フレームにおける時刻は各フレームにコードとして添付されているので、これを参照して、区間の先頭と終端における時刻を求め、これを時刻８０７として表示する。

また、サムネイル画像８０８ａ、８０８ｂ、８０８ｃ、８０８ｄについては、区間の前後数区間の「区間に係るデータ」を参照し、このデータ中の代表フレームサムネイル画像のデータ５１２を読み出して、画像８０８ａ、８０８ｂ、８０８ｃ、８０８ｄとして表示する。

尚、検索結果として表示すべきものはこれに限定するものではなく、様々なものが考えられる。

［第２の実施形態］
本実施形態では、動画像をクエリとして、この動画像を一部に含むであろう動画像ファイルの検索処理を行う場合について説明する。このように動画像をクエリとする検索は、静止画をクエリに用いる場合に比べてクエリの情報量がはるかに多いため、より精度の高い検索を行うことが出来る。

なお、動画像ファイルの登録処理については第１の実施形態と同じであり、検索処理が第１の実施形態とは異なるので、以下では、本実施形態に係る検索処理について説明する。

図９は、検索処理の登録処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはＨＤＤ２０５に保存されており、必要に応じてＲＡＭ２０３に読み出され、ＣＰＵ２０１がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。

先ず、検索条件入力を受け付けるためのＧＵＩ（グラフィカルユーザインターフェース）を表示部２０９に表示し、検索条件入力を受け付ける（ステップＳ９０１）。このＧＵＩでは、クエリとしての動画像のデータを指定する。クエリとしての動画像のデータ（ファイル）は、ＨＤＤ２０５内やネットワークＩ／Ｆ２１０を介して接続されているネットワーク上の装置などに保存されており、この保存位置（ディレクトリ、ＵＲＩなど）を指示することで、指示した保存位置に保存されている動画像のデータをＲＡＭ２０３にロード（ダウンロード）することができる。

また、ＲＡＭ２０３にロードした動画像のデータのうち、ある区間の動画像をクエリとして用いたい場合には、更に区間の開始位置（開始フレーム番号、もしくは開始時刻）と終端位置（終端フレーム番号、もしくは終了時刻）を指示する必要がある。これらの指示は入力部２０６に含まれるマウスやキーボードを用う。

また、動画像データのＲＡＭ２０３への入力方法はこれに限定するものではなく、外部の動画再生機器により動画像を再生し、本装置の動画入力部２０６に動画信号を入力させ、その結果、この動画信号をＲＡＭ２０３に動画像のデータとして入力するようにしても良い。

次に、クエリとして入力した動画像（以下、クエリ動画像と呼称する場合がある）を構成する各フレームのうち、代表フレームの画像を特定し、特定した代表フレームの画像の特徴量を取得する（ステップＳ９０２）。この処理はステップＳ３０３と同様に行うことで、クエリ動画像の各代表フレームの画像の特徴量を得ることができる。

次に、ＨＤＤ２０５に保存されている複数の動画像ファイルのうち１つを読み出し、読み出したファイル中のヘッダ情報に記録されている「各区間の代表フレームの特徴量」（図５では各区間におけるデータ５０８に相当）を取得する（ステップＳ９０３）。

そして、ステップＳ９０２で求めた各代表フレームの特徴量と、ステップＳ９０３で取得した各代表フレームの特徴量とを用いて、それぞれで対応するであろう代表フレーム間の類似性距離を式（１）に従って求める（ステップＳ９０４）。ステップＳ９０４における処理の詳細を図１０を用いて説明する。

図１０は、クエリ動画像における代表フレーム画像の特徴量と、ＨＤＤ２０５から読み出した１つの動画像（同図では「登録動画像」）における代表フレーム画像の特徴量とを比較するために示した図である。

同図において１００１〜１００４はステップＳ９０２において求めた、クエリ動画像における各代表フレームの特徴量である。同図ではクエリ動画像の先頭から５フレーム目、１２フレーム目、２０フレーム目、２４フレーム目のそれぞれのフレームの画像が代表フレーム画像となっている。

一方、１００５〜１００７はＨＤＤ２０５から読み出した１つの動画像における各区間における代表フレーム画像の特徴量である。同図ではこの動画像の先頭から６フレーム目、２０フレーム目、２２フレーム目のそれぞれのフレームの画像が代表フレーム画像となっている。

このような状態で、クエリ動画像と、登録動画像との間の類似性距離を計算する場合、先ず、クエリ動画像の５フレーム目の特徴量１００１との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が５に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。同図の場合、６フレーム目の代表フレーム画像の特徴量１００５が検索されることになる。そこで、６フレーム目の代表フレーム画像の特徴量１００５を、クエリ動画像の５フレーム目の特徴量１００１との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の５フレーム目の特徴量１００１と、登録動画像の６フレーム目の特徴量１００５との類似性距離を上記式（１）に従って求める。

しかし、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は異なる。従って異なった分だけ、求めた類似性距離を大きくする更新処理を行う。その一例としては、クエリ動画像と登録動画像とで用いら代表フレームのフレーム番号の差分をΔ、求めた類似性距離ｄを（ｄ＋ａ×Δ）に更新する。ここでａはパラメータであって、更新結果に対するΔの影響が多分に大きくならないように、パラメータａの値は十分に小さいものとする。なお、求めた類似性距離のデータは第１の実施形態と同様に、６フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、ＲＡＭ２０３に格納する。

次に、クエリ動画像の１２フレーム目の特徴量１００２との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が１２に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。同図の場合、２０フレーム目の代表フレーム画像の特徴量１００６が検索されることになるが、クエリ動画像にも２０フレーム目の代表フレームの特徴量１００３が存在するので、この場合、クエリ動画像の１２フレーム目の特徴量１００２との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量は存在しないとして次の処理に移行する。

次に、クエリ動画像の２０フレーム目の特徴量１００３との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が２０に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。しかし、先に検索した特徴量以降のものを検索の対象とする。同図の場合、特徴量１００５は先に検索結果として参照したので、特徴量１００６以降を今回の検索の対象とする。

その結果、同図の場合、２０フレーム目の代表フレーム画像の特徴量１００６が検索されることになる。そこで、２０フレーム目の代表フレーム画像の特徴量１００６を、クエリ動画像の２０フレーム目の特徴量１００３との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の２０フレーム目の特徴量１００３と、登録動画像の２０フレーム目の特徴量１００６との類似性距離を上記式（１）に従って求める。ここで、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は同じであるので、求めた類似性距離の上述のような更新は行わない。

そして、求めた類似性距離のデータは第１の実施形態と同様に、２０フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、ＲＡＭ２０３に格納する。

次に、クエリ動画像の２４フレーム目の特徴量１００４との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が２４に近いフレーム番号を有する代表フレーム画像（先に検索した特徴量以降のものを検索の対象とする）の特徴量を検索する。同図の場合、２２フレーム目の代表フレーム画像の特徴量１００７が検索されることになる。そこで、２２フレーム目の代表フレーム画像の特徴量１００７を、クエリ動画像の２４フレーム目の特徴量１００４との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の２４フレーム目の特徴量１００４と、登録動画像の２２フレーム目の特徴量１００７との類似性距離を上記式（１）に従って求める。ここで、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は異なるので、上述のように、求めた類似性距離の更新を行う。

そして、求めた類似性距離のデータは第１の実施形態と同様に、２２フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、ＲＡＭ２０３に格納する。

このように、クエリ動画像と登録動画像とで対応する代表フレーム同士の特徴量を用いて、類似性距離を求める。なお、クエリ動画像と登録動画像とで対応する代表フレーム同士の特徴量を用いて、類似性距離を求める処理方法についてはこれに限定するものではない。

なお、登録動画像における代表フレーム画像の特徴量、及びこの代表フレームのフレーム番号はこの登録動画像のヘッダ情報中の各区間データ５０３〜５０７におけるデータ５０８，５１１を参照することで得られる。

図９に戻って、１つの登録動画像についてクエリ動画像との類似性距離を求めると、処理をステップＳ９０３に戻し、次の登録動画像について同様の処理（ステップＳ９０３，Ｓ９０４における処理）を行う。

全ての登録動画像についてクエリ動画像との類似性距離を求める処理を完了すると、処理をステップＳ９０６に進め、ステップＳ９０３〜ステップＳ９０５で求めた各類似性距離のうち、所定値以下の類似性距離のデータと共にＲＡＭ２０３に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をＲＡＭ２０３中の検索結果エリアに記録する（ステップＳ９０６）。

そして、ステップＳ９０６で検索結果エリアに記録された上記データを用いて図８に示すような、検索結果を示す画面を表示部２０９の表示画面上に表示する（ステップＳ９０９）。ここで、ライン８０２は表示されず、また、領域８０３には何も表示しない。

また、領域８０４に表示する情報としては、クエリ動画像の何れかの代表フレーム画像の特徴量との類似性距離が最も近い（登録動画像における）代表フレームのサムネイル画像８０５，この代表フレームが属する動画像ファイルのファイル名８０６、この代表フレームの画像が属する区間の先頭、終端のフレーム番号に該当する時刻８０７、クエリ動画像の何れかの代表フレーム画像の特徴量との類似性距離が最も近い（登録動画像における）代表フレームが属する区間の前後数区間における代表フレームの画像のサムネイル画像８０８ａ、８０８ｂ、８０８ｃ、８０８ｄが表示される。

［第３の実施形態］
図１１は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。尚同図において図２と同じ部分については同じ番号を付けており、その説明を省略する。本実施形態に係る画像処理装置の構成は第１の実施形態に加えてドライブＩ／Ｆ２０４に更にＣＤ／ＤＶＤドライブ１１０１を接続したものである。

即ち本実施形態に係る画像処理装置は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の記憶媒体１１０２に記録されているプログラムやデータを読み出して、ＲＡＭ２０３やＨＤＤ２０５に出力するための構成を備える。この構成により、例えば登録する動画像のファイルを記憶媒体１１０２に記録しておき、このファイルを本装置に入力する場合には、この記憶媒体１１０２をＣＤ／ＤＶＤドライブ１１０１に挿入し、ＣＰＵ２０１がこの挿入を検知してＣＤ／ＤＶＤドライブ１１０１を制御することで、ＣＤ／ＤＶＤドライブ１１０１によりこの動画像のファイルを読み出し、ＲＡＭ２０３やＨＤＤ２０５に入力するようにしても良い。

また、上記実施形態、及び下記の実施形態で説明する「ＣＰＵ２０１が行うべき処理」をＣＰＵ２０１に実行させるためのプログラムやデータをこの記憶媒体１１０２に記録しておき、必要時にＲＡＭ２０３にロードするようにしても良いし、ＨＤＤ２０５にインストールするようにしても良い。

なお、上記プログラムやデータ、ファイルなどは圧縮されていても良く、その場合には本装置に入力後、その使用時に復号する。

［第４の実施形態］
上記実施形態において、１つの動画像を時間方向に複数の区間に分割する（ステップＳ３０２における処理）場合、処理を簡単にするために、同じフレーム数毎に分割するようにしても良い。また、従来技術のカット検出を行い、カットの境界で分割してもよい。カット検出の方法としては、隣り合うフレームの相関が極端に異なったことを検知する方法がある。動画像をクエリとした検索を行う場合でクエリに十分なカット数がある場合には、クエリ側も同様な手法でカット検出を行えばよい。ただし、クエリの先頭および末尾のカットは端部が欠落している場合が多いので無視する。

また、１つの動画像を時間方向に複数の区間に分割する別の方法としては、動画像と共に記録される音声情報を参照する方法がある。即ち、各フレームにおいて無音区間から有音区間になる箇所で分割しても良い。この場合は、代表フレームを分割した箇所にするのが好適である。動画をクエリとした検索を行う場合は同様な手法で分割および代表フレームの抽出を行えばよい。

また、１つの動画像を時間方向に複数の区間に分割する別の方法としては、カメラを水平に回転して撮影したパンや鉛直方向に回転して撮影したチルトや、ズーミングなどのカメラワークに基づいて、分割しても、さらに上記分割方法を組み合わせても良い。

また、上記実施形態において、動画像中の代表フレームの画像を特定する（ステップＳ３０３における処理）場合、区間の先頭フレームを代表フレームとして用いても良い。また、区間の先頭から、所定の時間が経過した点のフレームや、区間の長さに一定の比率を乗じた位置のフレームを用いても良い。ただし、編集効果でディゾルブやフェードインなどのトラジションが用いられている場合には、これを検出して、編集効果の種類をメタ情報として扱って検索できるようにした方が良く、代表フレームは編集効果が終了した後のフレームを選択対象にした方が良い。また、区間内の各フレームの特徴量空間における平均に最も近いフレームとしても良い。

また、動画像中の代表フレームの画像を特定する別の方法としては、区間内に存在するフレームを選択するのではなく、特徴量空間における重心など、各種画像処理によって、実際に存在しない代表フレームを生成しても良い。この場合、検索結果として表示する代表フレームの画像情報は動画区間の先頭など、本明細書中に示した代表フレームの抽出方法のいずれか、あるいは組み合わせによればよい。

また、上記実施形態において、ステップＳ３０５において求める特徴量付加情報は、動画区間内の各フレームの特徴量を算出し、各特徴量ごとに最大、最小値を求め、これを特徴量付加情報としても良い。ステップＳ３０３で説明した特徴量では各ブロックあたりＲＧＢの３チャンネルがあるので、画像全体では（３×Ｋ）次元のベクトルとなるので、これについて最大、最小値を求めてもよい。

また、特徴量のベクトルの次元数を減らしても良い。例えば、上記実施形態において、代表フレームと区間内の各フレームの各ブロックについて、ブロック同士のＲＧＢ各チャンネルの差の二乗和の最大値を特徴量付加情報としても良い。最小値は一律に０とすることができ、ブロック数と同じｋ次元の最大値のみを特徴量付加情報とすればよくなる。一般に用いられている特徴量ベクトルの主成分分析を行って、ベクトルの次元数を減らせばよい。

また、上記実施形態において、ステップＳ６０３〜ステップＳ６０４では、蓄積されたすべてのフレームとの類似性距離を算出していたが、公知のクラスタリング手法、Ｒ−ＴＲＥＥやＳＲ−ＴＲＥＥなど多次元ベクトルのインデックス手法によって比較するフレームを限定することが可能である。

また、上記実施形態では、フレーム画像から特徴特徴量を求めていたが、フレーム画像に色変換やエッジの抽出、トリミング、マスキング、アフィン変換、ハフ変換、周波数空間への変換などの画像処理処理を加えて２次的に得られる画像を用いてもよい。また、近隣のフレームと時間的に平均したものでもよい。時間的に平均することで、ノイズやフラッシュなどで１フレームだけ極端に前後のフレームと異なっていた場合にもその影響を抑えた検索が可能となる。

また、上記実施形態では、画像の相関を求めるために対応するブロックの差を利用していたが、フレーム全体の色ヒストグラムを特徴量としてもよく、特開平１１−３９３０９号公報で開示されているようなＤＰマッチングを２次元的な画像に応用した手法を利用してもよい。ＤＰマッチングを利用することによって、移動量を反映させた相関値を求めることが出来る。また、例えば、ＩＳＯ／ＩＥＣ１５９３８−３に規定されている、色やテクスチャや形状等の画像の特徴記述子を用いてもよい。

［第５の実施形態］
上記実施形態ではヘッダ情報は動画像に添付するものとして作成したが、これに限定するものではなく、各動画像に対するヘッダ情報を登録するためのデータベースをＨＤＤ２０５内、もしくは外部機器の記憶装置内に設けるようにしても良い。そしてこのデータベースを参照して上記各検索処理を行う。この場合、ヘッダ情報は動画像データに係る情報を管理するための管理情報として作成され、上記データベースに登録される。

［その他の実施形態］
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体（または記憶媒体）を、カメラのＣＰＵやＭＰＵが記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

また、カメラが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、カメラ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、カメラに挿入された機能拡張カードやカメラに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャート（機能構成）に対応するプログラムコードが格納されることになる。

図３のフローチャートに従った処理をＣＰＵ２０１に実行させるためのプログラムの機能構成を示すブロック図である。本発明の第１の実施形態に係る画像処理装置の基本構成を示すブロック図である。動画像の登録処理のフローチャートである。代表フレームを抽出する処理を説明する図である。動画像ファイルの構成（フォーマット）例を示す図である。検索処理のフローチャートである。検索条件入力を受け付けるためのＧＵＩの表示例を示す図である。ステップＳ６０９で表示部２０９の表示画面上に表示される表示例を示す図である。検索処理の登録処理のフローチャートである。クエリ動画像における代表フレーム画像の特徴量と、ＨＤＤ２０５から読み出した１つの動画像（同図では「登録動画像」）における代表フレーム画像の特徴量とを比較するために示した図である。本発明の第３の実施形態に係る画像処理装置の基本構成を示すブロック図である。

Claims

動画像を検索するための管理情報を作成する画像処理装置であって、
動画像のデータを入力する入力手段と、
前記入力手段が入力した動画像を構成する各フレームを複数の区間に分割する分割手段と、
前記分割手段が分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定手段と、
前記分割手段が分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成手段と
を備えることを特徴とする画像処理装置。
前記決定手段は、
区間内の第１の画像と、当該区間内且つ当該第１の画像から所定フレーム後の第２の画像と、をそれぞれ複数のブロックに分割するブロック分割手段と、
ブロック内の各色成分の平均値を求める平均値計算手段と、
前記第１の画像と前記第２の画像とで位置的に対応するブロック同士で、前記平均値計算手段が求めたそれぞれの色成分についての平均値の差分を求め、求めた差分を全ての色成分について加算した結果を、前記第１の画像と前記第２の画像との類似性距離として求める類似性距離計算手段とを備え、
前記第１の画像として区間内の各フレームを適用した場合に前記ブロック分割手段、前記平均値計算手段、前記類似性距離計算手段によって求めたそれぞれの類似性距離のうち、最も値の大きい類似性距離が計算された２つの画像の間の１つの画像を、当該区間における代表画像に決定することを特徴とする請求項２に記載の画像処理装置。
前記代表画像に係る情報には、前記決定手段によって前記代表画像を決定する際に、前記代表画像について前記ブロック分割手段、前記平均値計算手段によって求めた、ブロック毎の色成分の平均値が、前記代表画像の特徴量として含まれていることを特徴とする請求項２に記載の画像処理装置。
更に、前記決定手段が決定した代表画像が属する区間内の各フレームの特徴量のうち、当該代表画像の特徴量との差分が最も大きい特徴量を求める特徴量差分計算手段を備え、
前記管理情報には更に、前記特徴量差分計算手段が求めた特徴量が含まれることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
更に、クエリとしての静止画像を入力する第１のクエリ入力手段と、
前記それぞれの区間の代表画像の特徴量のうち、前記静止画像の特徴量との相関が所定以上である特徴量の代表画像を特定する第１の特定手段と、
前記第１の特定手段により特定された代表画像に係る情報を、前記クエリに対する検索結果として表示する第１の表示手段と
を備えることを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記第１の特定手段は、
前記静止画像を複数のブロックに分割する第２の分割手段と、
ブロック内の色成分の平均値を求める第２の平均値計算手段と、
前記代表画像と前記静止画像とで位置的に対応するブロック同士で、前記平均値の差分を求め、求めた差分を全ての色成分について加算した結果を、前記代表画像と前記静止画像との類似性距離として求める第２の類似性距離計算手段とを備え、
前記それぞれの区間の代表画像について、前記静止画像との類似性距離を、前記第２のブロック分割手段、前記第２の平均値計算手段、前記第２の類似性距離計算手段によって求め、求めたそれぞれの類似性距離のうち、前記静止画像の特徴量との類似性距離が所定値以下の特徴量の代表画像を前記検索結果として特定することを特徴とする請求項５に記載の画像処理装置。
更に、クエリとしての動画像を入力する第２のクエリ入力手段と、
前記第１のクエリ入力手段が入力した動画像を構成する各フレームの画像に基づいて、当該各フレームを複数の区間に分割する第２の分割手段と、
前記第２の分割手段が分割したそれぞれの区間毎に、区間内の各フレームの画像の特徴量を用いて当該区間内の各フレームの画像を代表する代表画像を１つ決定する第２の決定手段と、
前記入力手段が入力した動画像におけるそれぞれの代表画像の特徴量のうち、前記第２の決定手段が決定したそれぞれの代表フレームの画像の何れかの特徴量との相関が所定以上である特徴量の代表画像を特定する特定手段と、
前記特定手段により特定された代表画像に係る情報を、前記クエリに対する検索結果として表示する表示手段と
を備えることを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
動画像を検索するための管理情報を作成する画像処理方法であって、
動画像のデータを入力する入力工程と、
前記入力工程で入力した動画像を構成する各フレームを複数の区間に分割する分割工程と、
前記分割工程で分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定工程と、
前記分割工程で分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成工程と
を備えることを特徴とする画像処理方法。
コンピュータに請求項８に記載の画像処理方法を実行させることを特徴とするプログラム。
請求項９に記載のプログラムを格納することを特徴とする、コンピュータ読み取り可能な記憶媒体。