JP2006039753A - 画像処理装置、画像処理方法 - Google Patents
画像処理装置、画像処理方法 Download PDFInfo
- Publication number
- JP2006039753A JP2006039753A JP2004216094A JP2004216094A JP2006039753A JP 2006039753 A JP2006039753 A JP 2006039753A JP 2004216094 A JP2004216094 A JP 2004216094A JP 2004216094 A JP2004216094 A JP 2004216094A JP 2006039753 A JP2006039753 A JP 2006039753A
- Authority
- JP
- Japan
- Prior art keywords
- image
- frame
- section
- representative
- moving image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
【課題】 少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させること。
【解決手段】 登録動画像におけるそれぞれの区間の代表画像の特徴量のうち、クエリとしての静止画像の特徴量との相関が所定以上である特徴量の代表画像を特定し(S602〜S606)、特定した代表画像に係る情報を上記クエリに対する検索結果として表示する(S609)。
【選択図】 図6
【解決手段】 登録動画像におけるそれぞれの区間の代表画像の特徴量のうち、クエリとしての静止画像の特徴量との相関が所定以上である特徴量の代表画像を特定し(S602〜S606)、特定した代表画像に係る情報を上記クエリに対する検索結果として表示する(S609)。
【選択図】 図6
Description
本発明は、動画像を検索するための技術に関するものである。
近年、動画が撮影可能なディジタルカメラや、携帯電話、ディジタルビデオカムコーダ等の普及により、個人でも撮影によって動画をクリエイトできるようになってきている。また、テレビチューナーカード、MPEG2、MPEG4に代表される動画圧縮技術がハードウェア化されたエンコーダ、デコーダカードによりパソコンがビデオデッキとしての機能を実現しており、また、インターネットを通じた動画配信など、手軽に大量の動画が入手可能である。
このような動画を現在普及価格帯のパソコンで蓄積、フォーマットや解像度などの各種変換、動画編集などをすることが可能になっている。DVDなどの外部記憶媒体に高画質な動画を蓄積し、パソコン本体には管理用に低解像度のサムネイル動画を蓄積するのであれば1台のパソコンに1万時間以上の動画が蓄積できる。また、パソコンが使えない人でも、ハードディスクを搭載したビデオデッキも市場に出てきており、この装置には1000時間以上の動画が蓄積できる物もある。
このような環境で静止画や動画をクエリーとして、蓄積された動画から類似している箇所を検索したいというニーズが増している。
これに関し、従来の技術では、動画のカットの開始、または、一定の間隔でフレーム画像を抽出し、そのフレーム画像から得た特徴量を使ってビデオを検索していた(例えば特許文献1を参照)。しかし、これではクエリ側と蓄積側の比較するフレームの時間が同期しないため、対応するフレーム同士を比較することができず、正確な類似度が判定できないという問題があった。
そこで、これを解決するために、クエリ側と蓄積側の対応するフレームの時刻が一致するよう、前後のフレームの特徴量からマッチングに必要な時刻のフレームの特徴量を補完して生成することで同期をあわせて照合を行っていた(例えば特許文献2を参照)。
特登録3340532
特登録3451985
しかしながら、従来の技術では、前後のフレームの時間的距離を考慮した重み付け平均をとるなどして必要なフレームを補完していたため、補完の際に誤差が生じ、その誤差が類似度の誤差となっていた。この誤差は特徴量を蓄積するフレームの間隔が例えば1/10秒の様に短い場合には小さいが、フレームの間隔が長くなるにつれて誤差が大きくなるという問題があった。
誤差を少なくして類似度の精度を向上するためには、特徴量を生成するフレームの間隔を狭くする必要があった。毎秒30フレームの1時間の動画は10万以上のフレームからなる。従来技術では特徴量を生成するフレームの間隔が狭いとデータ量が膨大になってしまい、記憶コストが高い。また検索時にも類似度を算出するフレームの量が増えるために、検索処理コストが高くなってしまうという問題があった。
本発明は以上の問題に鑑みてなされたものであり、少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させるための技術を提供することを目的とする。
本発明の目的を達成するために、例えば本発明の画像処理装置は以下の構成を備える。
即ち、動画像を検索するための管理情報を作成する画像処理装置であって、
動画像のデータを入力する入力手段と、
前記入力手段が入力した動画像を構成する各フレームを複数の区間に分割する分割手段と、
前記分割手段が分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定手段と、
前記分割手段が分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成手段と
を備えることを特徴とする。
動画像のデータを入力する入力手段と、
前記入力手段が入力した動画像を構成する各フレームを複数の区間に分割する分割手段と、
前記分割手段が分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定手段と、
前記分割手段が分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成手段と
を備えることを特徴とする。
本発明の目的を達成するために、例えば本発明の画像処理方法は以下の構成を備える。
即ち、動画像を検索するための管理情報を作成する画像処理方法であって、
動画像のデータを入力する入力工程と、
前記入力工程で入力した動画像を構成する各フレームを複数の区間に分割する分割工程と、
前記分割工程で分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定工程と、
前記分割工程で分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成工程と
を備えることを特徴とする。
動画像のデータを入力する入力工程と、
前記入力工程で入力した動画像を構成する各フレームを複数の区間に分割する分割工程と、
前記分割工程で分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定工程と、
前記分割工程で分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成工程と
を備えることを特徴とする。
本発明の構成により、少ない記憶コスト、マッチング時の処理コストで類似度の判定精度を向上させることができる。
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
[第1の実施形態]
図2は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。本実施形態では画像処理装置を一般のPC(パーソナルコンピュータ)やWS(ワークステーション)に適用した場合について説明するが、それ以外のハードウェアに適用しても良いことはいうまでもない。
図2は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。本実施形態では画像処理装置を一般のPC(パーソナルコンピュータ)やWS(ワークステーション)に適用した場合について説明するが、それ以外のハードウェアに適用しても良いことはいうまでもない。
同図において201はCPUで、ROM202やRAM203に格納されているプログラムやデータを用いて本装置全体の制御を行うと共に、後述する一連の処理を実行する。
202はROMで、本装置の起動プログラムや、本装置の設定データなどを格納する。
203はRAMで、HDD(ハードディスクドライブ)205からロードされたプログラムやデータを一時的に格納するためのエリア、動画入力部206から入力する動画像のデータを一時的に格納する為のエリア、ネットワークI/F210を介して外部から受信したプログラムやデータを一時的に格納するためのエリア、そしてCPU201が各種の処理を実行する際に使用するワークエリアを備える。なお、これらのエリアの一部もしくは全部をバッファメモリ207に設けるようにしても良い。
204はドライブI/Fで、バス211とHDD205との間のデータの送受信の為のI/Fとして機能するものである。
205はHDDで、ここにOS(オペレーティングシステム)や、CPU201に後述する各処理を実行させるためのプログラムやデータが保存されている。また必要に応じて、動画入力部206やネットワークI/F210を介して受信したプログラムやデータを保存することもできる。
206は動画入力部で、ディジタルもしくはアナログのテレビ放送を受信し、PALやNTSCなどのビデオ信号を入力し、アナログ信号の場合はアナログ・デジタル変換を行うI/F機器である。また、ビデオカメラやビデオデッキ、チューナーなどの外部AV機器からIEEE1394やUSB2.0などを介して動画を入力するためのI/F機器である。またこの動画入力部206は、CPU201に代わって動画の符号化、復号機能を併せ持ってもよく、画像の特徴量抽出を行った後、HDD205に蓄積するとき等に符号化してデータ量を減らすことが出来る。
208は入力部で、キーボードやマウスなどにより構成されており、操作者が操作することで各種の指示をCPU201に対して入力することができる。
209は表示部で、CRTや液晶画面などにより構成されており、CPU201による処理結果を画像や文字などでもって表示することができる。
210はネットワークI/Fで、本装置をインターネットやLANなどのネットワークに接続するためのI/Fとして機能するものであり、このネットワークI/F210を介して本装置は外部機器とのデータ通信を行うことができる。
211は上述の各部を繋ぐバスである。
次に、上記構成を備える画像処理装置が行う、各処理について説明する。
<動画像の登録>
静止画像をクエリとして入力した場合に、この静止画像に類似する画像を、先に登録された動画像から検索処理を実現するために、動画像の登録時には以下説明する処理を行う。
静止画像をクエリとして入力した場合に、この静止画像に類似する画像を、先に登録された動画像から検索処理を実現するために、動画像の登録時には以下説明する処理を行う。
図3は、動画像の登録処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはHDD205に保存されており、必要に応じてRAM203に読み出され、CPU201がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。
先ず、動画入力部206を介して本装置内に動画像のデータが入力されたことをCPU201が検知すると、CPU201はこの入力されたデータを順次RAM203に格納する処理を行う(ステップS301)。なお、そのサイズが大きい場合にはそのデータの一部もしくは全部をHDD205に保存するようにしても良いが、以下の処理を行う際には処理対象となるぶんだけのデータを順次RAM203に読み出すことになる。またこのようなデータの保存、読み出し等は周知の通りCPU201が行う。
また、動画像データの入力は動画入力部206を介して行うものに限定するものではなく、ネットワークI/F210を介してダウンロードした動画像のデータをRAM203に入力するようにしても良いし、HDD205に予め保存されている動画像のファイルのうち1つもしくは複数を本装置の操作者に選択させ、選択された動画像のファイルをRAM203に読み出すようにしても良い。このように、動画像のデータをRAM203に入力する形態は特に限定するものではない。
なお、1つの動画像について、全部ではなくその一部をRAM203に入力する場合には、入力の前段で開始フレーム、終了フレームを指定する必要がある。
以下では1つの動画像のデータ(ファイル)に対する処理について説明するが、複数の動画像について行う指示が入力されている場合には、それぞれの動画像について以下説明する処理を行えばよい。
先ず、1つの動画像を時間方向に複数の区間に分割する処理を行う(ステップS302)。この分割方法としては例えば、先頭フレームの画像から順次参照していき、現在参照しているフレームの画像と先頭フレームの画像との相関が所定値以下となった場合には、この先頭フレームから現在参照しているフレームの1つ前のフレームまでを1つの区間とする。そして次に、現在参照しているフレームの画像を次の区間の先頭フレームの画像として以下、同様の処理を行う。これにより、動画像はいくつかの区間に分割される。
この分割方法では、動画像の各フレームにおける画像の変化が大きい(動きが激しい)ときには、短い区間に分割され、また変化が小さい(変化が乏しい)ときには長い区間に分割される。ただし、これでは短すぎる分割が連続したり、非常に長い間分割が行われない場合があるので、時間的な条件を組み合わせて、最低、および最長の分割区間を制限しても良い。
なお、ステップS302において2つの画像間の相関を計算する方法については特に限定しないが、例えばこの2つの画像について後述する類似性距離を求め、これをこの2つの画像間の相関を示す値とするようにしても良い。
次に、それぞれの区間について1つ代表フレームを決定(抽出)する(ステップS303)。この決定処理では、区間内の一定の間隔をあけた2つのフレームの相関を求め、区間内で最も相関の高い(類似性距離の少ない)2つのフレームの中間点のフレームを代表フレームとする。
図4は代表フレームを抽出する処理を説明する図である。401、403は各区間の先頭フレームの画像である。402はフレーム画像401を先頭、フレーム画像403よりも1つ前のフレームを終端とする区間内の代表フレームである。
同図ではフレーム画像401とそこから5番目のフレーム画像を比較し、類似性距離を算出する。また、2番目と6番目、3番目と7番目、、、というように、同様にして類似性距離を算出する。
ここで、類似性距離を求める方法について説明する。先ず、比較する2つの画像のそれぞれの特徴量を計算するのであるが、この特徴量としては、画像を格子状に複数のブロックに分割した場合に、それぞれのブロック内の画素のR、G、Bの平均値を用いる。従って、1つの画像についての特徴量は、分割したそれぞれのブロックについてのR、G、Bの平均値である。
そして、比較する2つの画像(一方を第1画像、他方を第2画像とする)のそれぞれの特徴量を用いて、それぞれの画像間の類似性距離を求める。具体的には、先ず、それぞれの画像で位置的に対応するブロック同士でR、G、Bの差の自乗和を求める。そして全てのブロックについて求めた自乗和を加算することで、この2つの画像間の類似性距離を求める。よってこの類似性距離の値が小さいほど、それぞれの画像におけるR、G、Bの差は小さいと考えられるので、それぞれの画像は類似している(相関性が高い)と判断することができ、逆に、類似性距離の値が大きいほど、それぞれの画像におけるR、G、Bの差は大きいと考えられるので、それぞれの画像は類似していない(相関性が低い)と判断することができる。
この類似性距離Dを求めるための具体的な式は以下に示すとおりである。
D=Σ{(P1iR−P2iR)2+(P1iG−P2iG)2+(P1iB−P2iB)2} (1)
ここで、各変数の内容は以下の通りである。
i :処理中のブロック
K :分割ブロック数
P1iR :第1画像のi番目のブロック内のRの平均値
P1iG :第1画像のi番目のブロック内のGの平均値
P1iB :第1画像のi番目のブロック内のBの平均値
P2iR :第2画像のi番目のブロック内のRの平均値
P2iG :第2画像のi番目のブロック内のGの平均値
P2iB :第2画像のi番目のブロック内のBの平均値
また、Σはiを1からK(1つの画像について分割したブロックの個数)までを加算することを意味する。
K :分割ブロック数
P1iR :第1画像のi番目のブロック内のRの平均値
P1iG :第1画像のi番目のブロック内のGの平均値
P1iB :第1画像のi番目のブロック内のBの平均値
P2iR :第2画像のi番目のブロック内のRの平均値
P2iG :第2画像のi番目のブロック内のGの平均値
P2iB :第2画像のi番目のブロック内のBの平均値
また、Σはiを1からK(1つの画像について分割したブロックの個数)までを加算することを意味する。
よって、式(1)に従った計算を区間内で対応する2つの画像(図4の例では1番目と5番目、2番目と6番目、3番目と7番目、、、)について行い、そして全ての組で求めた類似性距離Dのうち、最も小さい値の類似性距離の2つの画像の中央のフレームの画像を代表フレームとする。例えば3番目のフレーム画像と7番目のフレーム画像との間の類似性距離が他のどの類似性距離よりも小さい値を示す場合には、3番目のフレーム画像と7番目のフレーム画像との真ん中のフレーム画像、即ち、5番目のフレーム画像が代表フレームとなる。なお、代表フレーム画像は、2つの画像の真ん中に限定するものではない。
そしてこのように区間内における代表フレームを求める処理を、全ての区間について行う。これにより、それぞれの区間について1つ代表フレームを決定することができる。なお、本実施形態ではR、G、Bの色成分を用いて類似性距離を求めたが、色成分としてはこれ以外にも考えられ、例えば、輝度成分のみを用いるようにしても良い。
次に、区間内の各フレーム画像と代表フレーム画像との類似性距離を上記式(1)に従って求め、求めたそれぞれの類似性距離のうち最も大きい値の類似性距離を、この区間に対する特徴量付加情報とする(ステップS305)。即ち、区間内における各フレーム画像のうち、代表フレーム画像と最も低い相関性を示す類似性距離を特徴量付加情報として求める。このように、1つの区間について1つの特徴量付加情報を求める処理を全ての区間について行う。
そして処理をステップS306に進め、それぞれの区間について求めた代表フレーム画像の特徴量、特徴量付加情報を記述したヘッダ情報を作成し、これを動画像のデータと共に「動画像ファイル」としてHDD205に保存(記録)する(ステップS306)。ヘッダ情報としては例えば、それぞれの区間について、区間の先頭フレームのフレーム番号(動画像の先頭フレームからカウントした場合のフレーム番号)と代表フレーム画像の特徴量、特徴量付加情報とを関連付けたものが上げられるが、これに限定するものではない。
図5は、動画像ファイルの構成(フォーマット)例を示す図である。同図に示す如く、本実施形態に係る動画像ファイルのフォーマットは大まかにはヘッダ情報501と、動画像を構成する各フレームの画像データ502とに大別される。ヘッダ情報501は更に、この動画像ファイルのファイル名503、そして各区間に係るデータ504〜507(同図では区間数はKとしている)により構成されている。それぞれの区間に係るデータは何れも同じであるが、その一例として区間1に係るデータ504の構成について説明すると、区間1に係るデータ504は、代表フレームの画像の特徴量のデータ508(代表フレーム画像の各ブロック内のR、G、Bの平均値のデータ)、特徴量付加情報(最大類似度)509、区間1の先頭フレームのフレーム番号510,区間1における代表フレームのフレーム番号511、そして代表フレームの画像のサムネイル画像512により構成されている。この代表フレームの画像のサムネイル画像は、ヘッダ情報の作成時に作成するものとする。
以上説明した処理により、静止画像をクエリとして動画像中のフレームを検索可能なように、動画像のファイルをHDD205に登録することができる。なお、複数の動画像を登録するように指示されている場合には、複数の動画像のそれぞれについて上記処理を行えばよい。
また、動画像を登録する先は本実施形態ではHDD205であるが、画像処理装置とは別個の装置(例えばネットワークI/F210を介してネットワーク上に接続されているサーバ装置やコンピュータなど)であってもよいことはいうまでもない。
なお、図1は、図3のフローチャートに従った処理をCPU201に実行させるためのプログラムの機能構成を示すブロック図である。
動画像入力部101は、ステップS301における処理をCPU201に実行させるためのプログラムである。動画像分割部102は、ステップS302における処理をCPU201に実行させるためのプログラムである。代表フレーム抽出部103は、ステップS303における処理をCPU201に実行させるためのプログラムである。画像特徴量付加部105は、ステップS305における処理をCPU201に実行させるためのプログラムである。動画像蓄積部106は、ステップS306における処理をCPU201に実行させるためのプログラムである。
なお、図1に示した各部のうち一部もしくは全部を専用のハードウェアでもって構成するようにしても良い。
<検索処理>
次に、操作者が指示した静止画像に似ているフレーム画像を、この静止画像をクエリとして、上記処理によってHDD205に登録された1以上の動画像から検索する処理について説明する。
次に、操作者が指示した静止画像に似ているフレーム画像を、この静止画像をクエリとして、上記処理によってHDD205に登録された1以上の動画像から検索する処理について説明する。
図6は、検索処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはHDD205に保存されており、必要に応じてRAM203に読み出され、CPU201がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。
先ず、検索条件入力を受け付けるためのGUI(グラフィカルユーザインターフェース)を表示部209に表示し、検索条件入力を受け付ける(ステップS601)。図7は、検索条件入力を受け付けるためのGUIの表示例を示す図である。
701〜704はスクロールボタンであり、このボタン領域にマウスカーソルを移動してクリックする(以降、スクロールボタンをクリックするという。)ことで、静止画像表示領域708内の表示内容をスクロールさせることができる。
705,706はスクロールバーで、この領域にマウスカーソルを移動しマウスボタンを押下したままマウスを上下に移動し、所望の位置でマウスボタンを放すことで、静止画像表示領域708内の表示内容をスクロールさせることができる。このように、スクロールボタン、スクロールバーを用いて表示内容をスクロールさせる技術については周知の技術を用いる。
またマウスは入力部206に含まれるものである。
707は文字列エリアであり、クエリとしての静止画像のファイルが格納されたディレクトリやURIなどを入力するためのものである。操作者はこのエリア707に入力部206に含まれるキーボードを用いて、クエリとしての静止画像のファイルの存在するディレクトリやURIを入力する。
708は、領域707で指定されたディレクトリやURIに存在する画像のサムネイル画像を一覧表示するための領域である。この領域708に表示されている内容をスクロールさせるため、もしくはこの領域708に表示しきれない内容を表示させるために、上記スクロールボタン、スクロールバーを用いてこの領域708内をスクロールさせる。
709は領域708に表示されているサムネイル画像のうち、現在選択されているサムネイル画像を視覚的に明瞭にするために表示される枠の画像である。操作者はマウスを操作して選択したいサムネイル画像上にマウスカーソルを移動させ、そこでクリックすることで、選択したいサムネイル画像を選択することができる。またその際には選択したサムネイル画像上には枠の画像709が表示される。なお、現在選択されているサムネイル画像を視覚的に明瞭にする方法はこのように枠の画像を表示することに限定するものではない。
710は検索ボタンであり、これをクリックすることで、現在選択しているサムネイル画像(同図では枠の画像709が表示されているサムネイル画像)がクエリとして選択され、以下説明する検索処理が開始される。
711はキャンセルボタンであり、これをクリックすることで検索をせずに処理を終了することが出来る。
なお、このようなGUIの操作方法については一例であり、上記操作方法に限定するものではない。また、GUIの構成についてもこれに限定するものではなく、様々なものが考えられる。
図6に戻って、クエリとしての静止画像が選択されると、CPU201がこれを検知し、選択された静止画像のデータをRAM203にロード(ダウンロード)し、そして、この静止画像の特徴量を計算する(ステップS602)。この特徴量の計算方法については、ステップS303におけるそれと同様である。即ち、静止画像を格子状に複数のブロックに分割した場合に、それぞれのブロック内の画素のR、G、Bの平均値を計算し、これをこの静止画像の特徴量として求める。
次に、HDD205に保存されている複数の動画像ファイルのうち1つを読み出し、読み出したファイル中のヘッダ情報に記録されている「各区間の代表フレームの特徴量」(図5では各区間におけるデータ508に相当)を取得する(ステップS603)。
そして、ステップS602で求めた静止画像の特徴量と、ステップS603で取得した各区間の代表フレームの特徴量との類似性距離を上記式(1)に従って求める(ステップS604)。なお、求めた類似性距離のデータは、このデータを求める際に用いた代表フレームの画像の特徴量が記録されている「区間に係るデータ」(図5ではデータ508から512に相当)、及びこの区間に係るデータに付加されている「動画像ファイルのファイル名」(図5ではデータ503に相当)と共に、RAM203に格納する。
例えば、ステップS602で求めた静止画像の特徴量と、図5における区間1の代表フレームの特徴量との類似性距離を求めた場合、求めた類似性距離のデータには、区間1データ504におけるデータ503、及びデータ508〜509が付加されてRAM203に格納されることになる。
そして処理をステップS605を介してステップS603に戻し、次の動画像ファイルを読み出し、上記処理(ステップS603,S604における処理)を繰り返す。
一方、全ての動画像のファイルを読み出して上記処理(ステップS603,S604における処理)を行った場合には処理をステップS605からステップS606に進め、ステップS603からステップS605で求めた各類似性距離のうち、所定値以下の類似性距離のデータと共にRAM203に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をRAM203中の所定のエリア(以下、検索結果エリア)に記録すると共に、所定値以下の類似性距離のデータの個数をカウントする(ステップS606)。即ち、静止画像の特徴量との類似性距離が所定値以下である特徴量を有する代表フレームの画像の個数をカウントする。
そしてカウントした数が所定数A以下である場合、検索結果の数を増やすために(検索条件を緩和して再度検索する処理を行うために)、処理をステップS607からステップS608に進める。即ち、静止画像の特徴量との類似性距離が所定値以下である特徴量を有する代表フレームの画像の個数が所定個数に満たない場合には、検索結果の数を所定個数A以上にするために、検索条件を緩和して再度検索する。
ステップS608では、ステップS603からステップS605で求めた各類似性距離のうち所定値よりも大きい類似性距離から、この類似性距離のデータと共にRAM203に記録した「区間に係るデータ」中の特徴量付加情報509が示す値を減じた値を計算する。そして該当する全ての類似性距離のデータについてこの減算処理を行った結果、減算結果の値の小さい順から上記所定個数Aに満たない分の類似性距離のデータと共にRAM203に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をRAM203中の上記検索結果エリアに記録する。
これにより、RAM203中の検索結果エリアには、静止画像の特徴量と類似するとされるA個の代表フレームの画像が属する区間に係るデータ、この代表フレームが属する動画像ファイルのファイル名が記録されることになる。
そして、次に、検索結果エリアに記録されたデータを用いて、検索結果、即ち、静止画像の特徴量と類似するとされるA個の代表フレームの画像と、それに係る情報を表示部209の表示画面上に表示する(ステップS609)。
図8は、ステップS609で表示部209の表示画面上に表示される表示例を示す図である。同図においてライン802はステップS606で検索結果エリアに記録された結果に基づく検索結果、ステップS608で追加検索した結果を分けて表示するための境界線を示しており、ライン802を挟んで上側の領域801にはステップS606で検索結果エリアに記録された結果に基づく検索結果、下側の領域803にはステップS608で追加検索した結果が表示される。
領域801には、同図では3つの検索結果が表示されている。またこの領域801には上側から静止画像の特徴量との類似性距離が近い順に検索結果が表示されている。従って804は検索結果のうち静止画像の特徴量との類似性距離が最も近いものである。同図では検索結果には、静止画像の特徴量との類似性距離が最も近い代表フレームのサムネイル画像805,この代表フレームが属する動画像ファイルのファイル名806、この代表フレームの画像が属する区間の先頭、終端のフレーム番号に該当する時刻807、静止画像の特徴量との類似性距離が最も近い代表フレームが属する区間の前後数区間における代表フレームの画像のサムネイル画像808a、808b、808c、808dが表示されている。
ステップS609では、検索結果エリアに記録された「区間に係るデータ」を参照し、このデータ中の代表フレームサムネイル画像のデータ512を読み出して、画像805として表示する。また同様に、検索結果エリアに記録された「動画像ファイルのファイル名」を参照し、ファイル名806として表示する。
また、時刻807については、検索結果エリアに記録された「区間に係るデータ」を参照し、このデータ中の先頭フレーム番号のデータ510を参照すると共に、この区間の次の区間の先頭フレーム番号のデータ510を参照することで、区間の先頭と終端のフレーム番号を特定することができ、また、各フレームにおける時刻は各フレームにコードとして添付されているので、これを参照して、区間の先頭と終端における時刻を求め、これを時刻807として表示する。
また、サムネイル画像808a、808b、808c、808dについては、区間の前後数区間の「区間に係るデータ」を参照し、このデータ中の代表フレームサムネイル画像のデータ512を読み出して、画像808a、808b、808c、808dとして表示する。
尚、検索結果として表示すべきものはこれに限定するものではなく、様々なものが考えられる。
[第2の実施形態]
本実施形態では、動画像をクエリとして、この動画像を一部に含むであろう動画像ファイルの検索処理を行う場合について説明する。このように動画像をクエリとする検索は、静止画をクエリに用いる場合に比べてクエリの情報量がはるかに多いため、より精度の高い検索を行うことが出来る。
本実施形態では、動画像をクエリとして、この動画像を一部に含むであろう動画像ファイルの検索処理を行う場合について説明する。このように動画像をクエリとする検索は、静止画をクエリに用いる場合に比べてクエリの情報量がはるかに多いため、より精度の高い検索を行うことが出来る。
なお、動画像ファイルの登録処理については第1の実施形態と同じであり、検索処理が第1の実施形態とは異なるので、以下では、本実施形態に係る検索処理について説明する。
図9は、検索処理の登録処理のフローチャートである。なお、同図のフローチャートに従ったプログラムはHDD205に保存されており、必要に応じてRAM203に読み出され、CPU201がこれを実行することで、本実施形態に係る画像処理装置は以下説明する処理を実現する。
先ず、検索条件入力を受け付けるためのGUI(グラフィカルユーザインターフェース)を表示部209に表示し、検索条件入力を受け付ける(ステップS901)。このGUIでは、クエリとしての動画像のデータを指定する。クエリとしての動画像のデータ(ファイル)は、HDD205内やネットワークI/F210を介して接続されているネットワーク上の装置などに保存されており、この保存位置(ディレクトリ、URIなど)を指示することで、指示した保存位置に保存されている動画像のデータをRAM203にロード(ダウンロード)することができる。
また、RAM203にロードした動画像のデータのうち、ある区間の動画像をクエリとして用いたい場合には、更に区間の開始位置(開始フレーム番号、もしくは開始時刻)と終端位置(終端フレーム番号、もしくは終了時刻)を指示する必要がある。これらの指示は入力部206に含まれるマウスやキーボードを用う。
また、動画像データのRAM203への入力方法はこれに限定するものではなく、外部の動画再生機器により動画像を再生し、本装置の動画入力部206に動画信号を入力させ、その結果、この動画信号をRAM203に動画像のデータとして入力するようにしても良い。
次に、クエリとして入力した動画像(以下、クエリ動画像と呼称する場合がある)を構成する各フレームのうち、代表フレームの画像を特定し、特定した代表フレームの画像の特徴量を取得する(ステップS902)。この処理はステップS303と同様に行うことで、クエリ動画像の各代表フレームの画像の特徴量を得ることができる。
次に、HDD205に保存されている複数の動画像ファイルのうち1つを読み出し、読み出したファイル中のヘッダ情報に記録されている「各区間の代表フレームの特徴量」(図5では各区間におけるデータ508に相当)を取得する(ステップS903)。
そして、ステップS902で求めた各代表フレームの特徴量と、ステップS903で取得した各代表フレームの特徴量とを用いて、それぞれで対応するであろう代表フレーム間の類似性距離を式(1)に従って求める(ステップS904)。ステップS904における処理の詳細を図10を用いて説明する。
図10は、クエリ動画像における代表フレーム画像の特徴量と、HDD205から読み出した1つの動画像(同図では「登録動画像」)における代表フレーム画像の特徴量とを比較するために示した図である。
同図において1001〜1004はステップS902において求めた、クエリ動画像における各代表フレームの特徴量である。同図ではクエリ動画像の先頭から5フレーム目、12フレーム目、20フレーム目、24フレーム目のそれぞれのフレームの画像が代表フレーム画像となっている。
一方、1005〜1007はHDD205から読み出した1つの動画像における各区間における代表フレーム画像の特徴量である。同図ではこの動画像の先頭から6フレーム目、20フレーム目、22フレーム目のそれぞれのフレームの画像が代表フレーム画像となっている。
このような状態で、クエリ動画像と、登録動画像との間の類似性距離を計算する場合、先ず、クエリ動画像の5フレーム目の特徴量1001との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が5に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。同図の場合、6フレーム目の代表フレーム画像の特徴量1005が検索されることになる。そこで、6フレーム目の代表フレーム画像の特徴量1005を、クエリ動画像の5フレーム目の特徴量1001との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の5フレーム目の特徴量1001と、登録動画像の6フレーム目の特徴量1005との類似性距離を上記式(1)に従って求める。
しかし、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は異なる。従って異なった分だけ、求めた類似性距離を大きくする更新処理を行う。その一例としては、クエリ動画像と登録動画像とで用いら代表フレームのフレーム番号の差分をΔ、求めた類似性距離dを(d+a×Δ)に更新する。ここでaはパラメータであって、更新結果に対するΔの影響が多分に大きくならないように、パラメータaの値は十分に小さいものとする。なお、求めた類似性距離のデータは第1の実施形態と同様に、6フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、RAM203に格納する。
次に、クエリ動画像の12フレーム目の特徴量1002との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が12に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。同図の場合、20フレーム目の代表フレーム画像の特徴量1006が検索されることになるが、クエリ動画像にも20フレーム目の代表フレームの特徴量1003が存在するので、この場合、クエリ動画像の12フレーム目の特徴量1002との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量は存在しないとして次の処理に移行する。
次に、クエリ動画像の20フレーム目の特徴量1003との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が20に近いフレーム番号を有する代表フレーム画像の特徴量を検索する。しかし、先に検索した特徴量以降のものを検索の対象とする。同図の場合、特徴量1005は先に検索結果として参照したので、特徴量1006以降を今回の検索の対象とする。
その結果、同図の場合、20フレーム目の代表フレーム画像の特徴量1006が検索されることになる。そこで、20フレーム目の代表フレーム画像の特徴量1006を、クエリ動画像の20フレーム目の特徴量1003との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の20フレーム目の特徴量1003と、登録動画像の20フレーム目の特徴量1006との類似性距離を上記式(1)に従って求める。ここで、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は同じであるので、求めた類似性距離の上述のような更新は行わない。
そして、求めた類似性距離のデータは第1の実施形態と同様に、20フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、RAM203に格納する。
次に、クエリ動画像の24フレーム目の特徴量1004との類似性距離を計算するための、登録動画像における代表フレーム画像の特徴量を決定するのであるが、そのためには、登録動画像における代表フレーム画像の特徴量のうち、フレーム番号が24に近いフレーム番号を有する代表フレーム画像(先に検索した特徴量以降のものを検索の対象とする)の特徴量を検索する。同図の場合、22フレーム目の代表フレーム画像の特徴量1007が検索されることになる。そこで、22フレーム目の代表フレーム画像の特徴量1007を、クエリ動画像の24フレーム目の特徴量1004との類似性距離を計算するために用いるべきものであると判断し、その結果、クエリ動画像の24フレーム目の特徴量1004と、登録動画像の22フレーム目の特徴量1007との類似性距離を上記式(1)に従って求める。ここで、クエリ動画像と登録動画像とで用いる代表フレームのフレーム番号は異なるので、上述のように、求めた類似性距離の更新を行う。
そして、求めた類似性距離のデータは第1の実施形態と同様に、22フレーム目の代表フレームが属する区間に係るデータ、この登録動画像ファイルのファイル名と共に、RAM203に格納する。
このように、クエリ動画像と登録動画像とで対応する代表フレーム同士の特徴量を用いて、類似性距離を求める。なお、クエリ動画像と登録動画像とで対応する代表フレーム同士の特徴量を用いて、類似性距離を求める処理方法についてはこれに限定するものではない。
なお、登録動画像における代表フレーム画像の特徴量、及びこの代表フレームのフレーム番号はこの登録動画像のヘッダ情報中の各区間データ503〜507におけるデータ508,511を参照することで得られる。
図9に戻って、1つの登録動画像についてクエリ動画像との類似性距離を求めると、処理をステップS903に戻し、次の登録動画像について同様の処理(ステップS903,S904における処理)を行う。
全ての登録動画像についてクエリ動画像との類似性距離を求める処理を完了すると、処理をステップS906に進め、ステップS903〜ステップS905で求めた各類似性距離のうち、所定値以下の類似性距離のデータと共にRAM203に格納した「区間に係るデータ」、「動画像ファイルのファイル名」をRAM203中の検索結果エリアに記録する(ステップS906)。
そして、ステップS906で検索結果エリアに記録された上記データを用いて図8に示すような、検索結果を示す画面を表示部209の表示画面上に表示する(ステップS909)。ここで、ライン802は表示されず、また、領域803には何も表示しない。
また、領域804に表示する情報としては、クエリ動画像の何れかの代表フレーム画像の特徴量との類似性距離が最も近い(登録動画像における)代表フレームのサムネイル画像805,この代表フレームが属する動画像ファイルのファイル名806、この代表フレームの画像が属する区間の先頭、終端のフレーム番号に該当する時刻807、クエリ動画像の何れかの代表フレーム画像の特徴量との類似性距離が最も近い(登録動画像における)代表フレームが属する区間の前後数区間における代表フレームの画像のサムネイル画像808a、808b、808c、808dが表示される。
[第3の実施形態]
図11は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。尚同図において図2と同じ部分については同じ番号を付けており、その説明を省略する。本実施形態に係る画像処理装置の構成は第1の実施形態に加えてドライブI/F204に更にCD/DVDドライブ1101を接続したものである。
図11は、本実施形態に係る画像処理装置の基本構成を示すブロック図である。尚同図において図2と同じ部分については同じ番号を付けており、その説明を省略する。本実施形態に係る画像処理装置の構成は第1の実施形態に加えてドライブI/F204に更にCD/DVDドライブ1101を接続したものである。
即ち本実施形態に係る画像処理装置は、CD−ROMやDVD−ROM等の記憶媒体1102に記録されているプログラムやデータを読み出して、RAM203やHDD205に出力するための構成を備える。この構成により、例えば登録する動画像のファイルを記憶媒体1102に記録しておき、このファイルを本装置に入力する場合には、この記憶媒体1102をCD/DVDドライブ1101に挿入し、CPU201がこの挿入を検知してCD/DVDドライブ1101を制御することで、CD/DVDドライブ1101によりこの動画像のファイルを読み出し、RAM203やHDD205に入力するようにしても良い。
また、上記実施形態、及び下記の実施形態で説明する「CPU201が行うべき処理」をCPU201に実行させるためのプログラムやデータをこの記憶媒体1102に記録しておき、必要時にRAM203にロードするようにしても良いし、HDD205にインストールするようにしても良い。
なお、上記プログラムやデータ、ファイルなどは圧縮されていても良く、その場合には本装置に入力後、その使用時に復号する。
[第4の実施形態]
上記実施形態において、1つの動画像を時間方向に複数の区間に分割する(ステップS302における処理)場合、処理を簡単にするために、同じフレーム数毎に分割するようにしても良い。また、従来技術のカット検出を行い、カットの境界で分割してもよい。カット検出の方法としては、隣り合うフレームの相関が極端に異なったことを検知する方法がある。動画像をクエリとした検索を行う場合でクエリに十分なカット数がある場合には、クエリ側も同様な手法でカット検出を行えばよい。ただし、クエリの先頭および末尾のカットは端部が欠落している場合が多いので無視する。
上記実施形態において、1つの動画像を時間方向に複数の区間に分割する(ステップS302における処理)場合、処理を簡単にするために、同じフレーム数毎に分割するようにしても良い。また、従来技術のカット検出を行い、カットの境界で分割してもよい。カット検出の方法としては、隣り合うフレームの相関が極端に異なったことを検知する方法がある。動画像をクエリとした検索を行う場合でクエリに十分なカット数がある場合には、クエリ側も同様な手法でカット検出を行えばよい。ただし、クエリの先頭および末尾のカットは端部が欠落している場合が多いので無視する。
また、1つの動画像を時間方向に複数の区間に分割する別の方法としては、動画像と共に記録される音声情報を参照する方法がある。即ち、各フレームにおいて無音区間から有音区間になる箇所で分割しても良い。この場合は、代表フレームを分割した箇所にするのが好適である。動画をクエリとした検索を行う場合は同様な手法で分割および代表フレームの抽出を行えばよい。
また、1つの動画像を時間方向に複数の区間に分割する別の方法としては、カメラを水平に回転して撮影したパンや鉛直方向に回転して撮影したチルトや、ズーミングなどのカメラワークに基づいて、分割しても、さらに上記分割方法を組み合わせても良い。
また、上記実施形態において、動画像中の代表フレームの画像を特定する(ステップS303における処理)場合、区間の先頭フレームを代表フレームとして用いても良い。また、区間の先頭から、所定の時間が経過した点のフレームや、区間の長さに一定の比率を乗じた位置のフレームを用いても良い。ただし、編集効果でディゾルブやフェードインなどのトラジションが用いられている場合には、これを検出して、編集効果の種類をメタ情報として扱って検索できるようにした方が良く、代表フレームは編集効果が終了した後のフレームを選択対象にした方が良い。また、区間内の各フレームの特徴量空間における平均に最も近いフレームとしても良い。
また、動画像中の代表フレームの画像を特定する別の方法としては、区間内に存在するフレームを選択するのではなく、特徴量空間における重心など、各種画像処理によって、実際に存在しない代表フレームを生成しても良い。この場合、検索結果として表示する代表フレームの画像情報は動画区間の先頭など、本明細書中に示した代表フレームの抽出方法のいずれか、あるいは組み合わせによればよい。
また、上記実施形態において、ステップS305において求める特徴量付加情報は、動画区間内の各フレームの特徴量を算出し、各特徴量ごとに最大、最小値を求め、これを特徴量付加情報としても良い。ステップS303で説明した特徴量では各ブロックあたりRGBの3チャンネルがあるので、画像全体では(3×K)次元のベクトルとなるので、これについて最大、最小値を求めてもよい。
また、特徴量のベクトルの次元数を減らしても良い。例えば、上記実施形態において、代表フレームと区間内の各フレームの各ブロックについて、ブロック同士のRGB各チャンネルの差の二乗和の最大値を特徴量付加情報としても良い。最小値は一律に0とすることができ、ブロック数と同じk次元の最大値のみを特徴量付加情報とすればよくなる。一般に用いられている特徴量ベクトルの主成分分析を行って、ベクトルの次元数を減らせばよい。
また、上記実施形態において、ステップS603〜ステップS604では、蓄積されたすべてのフレームとの類似性距離を算出していたが、公知のクラスタリング手法、R−TREEやSR−TREEなど多次元ベクトルのインデックス手法によって比較するフレームを限定することが可能である。
また、上記実施形態では、フレーム画像から特徴特徴量を求めていたが、フレーム画像に色変換やエッジの抽出、トリミング、マスキング、アフィン変換、ハフ変換、周波数空間への変換などの画像処理処理を加えて2次的に得られる画像を用いてもよい。また、近隣のフレームと時間的に平均したものでもよい。時間的に平均することで、ノイズやフラッシュなどで1フレームだけ極端に前後のフレームと異なっていた場合にもその影響を抑えた検索が可能となる。
また、上記実施形態では、画像の相関を求めるために対応するブロックの差を利用していたが、フレーム全体の色ヒストグラムを特徴量としてもよく、特開平11−39309号公報で開示されているようなDPマッチングを2次元的な画像に応用した手法を利用してもよい。DPマッチングを利用することによって、移動量を反映させた相関値を求めることが出来る。また、例えば、ISO/IEC 15938−3に規定されている、色やテクスチャや形状等の画像の特徴記述子を用いてもよい。
[第5の実施形態]
上記実施形態ではヘッダ情報は動画像に添付するものとして作成したが、これに限定するものではなく、各動画像に対するヘッダ情報を登録するためのデータベースをHDD205内、もしくは外部機器の記憶装置内に設けるようにしても良い。そしてこのデータベースを参照して上記各検索処理を行う。この場合、ヘッダ情報は動画像データに係る情報を管理するための管理情報として作成され、上記データベースに登録される。
上記実施形態ではヘッダ情報は動画像に添付するものとして作成したが、これに限定するものではなく、各動画像に対するヘッダ情報を登録するためのデータベースをHDD205内、もしくは外部機器の記憶装置内に設けるようにしても良い。そしてこのデータベースを参照して上記各検索処理を行う。この場合、ヘッダ情報は動画像データに係る情報を管理するための管理情報として作成され、上記データベースに登録される。
[その他の実施形態]
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、カメラのCPUやMPUが記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体(または記憶媒体)を、カメラのCPUやMPUが記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
また、カメラが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、カメラ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、カメラに挿入された機能拡張カードやカメラに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明を上記記録媒体に適用する場合、その記録媒体には、先に説明したフローチャート(機能構成)に対応するプログラムコードが格納されることになる。
Claims (10)
- 動画像を検索するための管理情報を作成する画像処理装置であって、
動画像のデータを入力する入力手段と、
前記入力手段が入力した動画像を構成する各フレームを複数の区間に分割する分割手段と、
前記分割手段が分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定手段と、
前記分割手段が分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成手段と
を備えることを特徴とする画像処理装置。 - 前記決定手段は、
区間内の第1の画像と、当該区間内且つ当該第1の画像から所定フレーム後の第2の画像と、をそれぞれ複数のブロックに分割するブロック分割手段と、
ブロック内の各色成分の平均値を求める平均値計算手段と、
前記第1の画像と前記第2の画像とで位置的に対応するブロック同士で、前記平均値計算手段が求めたそれぞれの色成分についての平均値の差分を求め、求めた差分を全ての色成分について加算した結果を、前記第1の画像と前記第2の画像との類似性距離として求める類似性距離計算手段とを備え、
前記第1の画像として区間内の各フレームを適用した場合に前記ブロック分割手段、前記平均値計算手段、前記類似性距離計算手段によって求めたそれぞれの類似性距離のうち、最も値の大きい類似性距離が計算された2つの画像の間の1つの画像を、当該区間における代表画像に決定することを特徴とする請求項2に記載の画像処理装置。 - 前記代表画像に係る情報には、前記決定手段によって前記代表画像を決定する際に、前記代表画像について前記ブロック分割手段、前記平均値計算手段によって求めた、ブロック毎の色成分の平均値が、前記代表画像の特徴量として含まれていることを特徴とする請求項2に記載の画像処理装置。
- 更に、前記決定手段が決定した代表画像が属する区間内の各フレームの特徴量のうち、当該代表画像の特徴量との差分が最も大きい特徴量を求める特徴量差分計算手段を備え、
前記管理情報には更に、前記特徴量差分計算手段が求めた特徴量が含まれることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。 - 更に、クエリとしての静止画像を入力する第1のクエリ入力手段と、
前記それぞれの区間の代表画像の特徴量のうち、前記静止画像の特徴量との相関が所定以上である特徴量の代表画像を特定する第1の特定手段と、
前記第1の特定手段により特定された代表画像に係る情報を、前記クエリに対する検索結果として表示する第1の表示手段と
を備えることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。 - 前記第1の特定手段は、
前記静止画像を複数のブロックに分割する第2の分割手段と、
ブロック内の色成分の平均値を求める第2の平均値計算手段と、
前記代表画像と前記静止画像とで位置的に対応するブロック同士で、前記平均値の差分を求め、求めた差分を全ての色成分について加算した結果を、前記代表画像と前記静止画像との類似性距離として求める第2の類似性距離計算手段とを備え、
前記それぞれの区間の代表画像について、前記静止画像との類似性距離を、前記第2のブロック分割手段、前記第2の平均値計算手段、前記第2の類似性距離計算手段によって求め、求めたそれぞれの類似性距離のうち、前記静止画像の特徴量との類似性距離が所定値以下の特徴量の代表画像を前記検索結果として特定することを特徴とする請求項5に記載の画像処理装置。 - 更に、クエリとしての動画像を入力する第2のクエリ入力手段と、
前記第1のクエリ入力手段が入力した動画像を構成する各フレームの画像に基づいて、当該各フレームを複数の区間に分割する第2の分割手段と、
前記第2の分割手段が分割したそれぞれの区間毎に、区間内の各フレームの画像の特徴量を用いて当該区間内の各フレームの画像を代表する代表画像を1つ決定する第2の決定手段と、
前記入力手段が入力した動画像におけるそれぞれの代表画像の特徴量のうち、前記第2の決定手段が決定したそれぞれの代表フレームの画像の何れかの特徴量との相関が所定以上である特徴量の代表画像を特定する特定手段と、
前記特定手段により特定された代表画像に係る情報を、前記クエリに対する検索結果として表示する表示手段と
を備えることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。 - 動画像を検索するための管理情報を作成する画像処理方法であって、
動画像のデータを入力する入力工程と、
前記入力工程で入力した動画像を構成する各フレームを複数の区間に分割する分割工程と、
前記分割工程で分割したそれぞれの区間毎に、区間内のフレームの画像を代表する代表画像を決定する決定工程と、
前記分割工程で分割したそれぞれの区間毎の代表画像に係る情報と当該それぞれの区間とを関連付けた管理情報を作成する作成工程と
を備えることを特徴とする画像処理方法。 - コンピュータに請求項8に記載の画像処理方法を実行させることを特徴とするプログラム。
- 請求項9に記載のプログラムを格納することを特徴とする、コンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004216094A JP2006039753A (ja) | 2004-07-23 | 2004-07-23 | 画像処理装置、画像処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004216094A JP2006039753A (ja) | 2004-07-23 | 2004-07-23 | 画像処理装置、画像処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006039753A true JP2006039753A (ja) | 2006-02-09 |
Family
ID=35904717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004216094A Withdrawn JP2006039753A (ja) | 2004-07-23 | 2004-07-23 | 画像処理装置、画像処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006039753A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323319A (ja) * | 2006-05-31 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 類似検索処理方法及び装置及びプログラム |
JP2008164867A (ja) * | 2006-12-27 | 2008-07-17 | Casio Comput Co Ltd | 投影装置、表示装置、画像投影方法及びプログラム |
JP2009531776A (ja) * | 2006-03-29 | 2009-09-03 | オラクル・インターナショナル・コーポレイション | 協調環境の状況検索 |
WO2010073905A1 (ja) * | 2008-12-25 | 2010-07-01 | シャープ株式会社 | 動画像視聴装置 |
WO2011125322A1 (en) * | 2010-04-09 | 2011-10-13 | Sony Corporation | Apparatus and method for identifying a still image contained in moving image contents |
JP2011223327A (ja) * | 2010-04-09 | 2011-11-04 | Sony Corp | コンテンツ検索装置および方法、並びにプログラム |
JP2017054552A (ja) * | 2016-12-16 | 2017-03-16 | オリンパス株式会社 | 画像検索装置、画像表示装置、画像検索方法、および画像表示方法 |
CN107924586A (zh) * | 2015-08-13 | 2018-04-17 | 诺基亚技术有限公司 | 搜索图像内容 |
JP2021149232A (ja) * | 2020-03-17 | 2021-09-27 | ヤフー株式会社 | 動画解析システム、動画解析装置、動画解析方法、およびプログラム |
-
2004
- 2004-07-23 JP JP2004216094A patent/JP2006039753A/ja not_active Withdrawn
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009531776A (ja) * | 2006-03-29 | 2009-09-03 | オラクル・インターナショナル・コーポレイション | 協調環境の状況検索 |
JP2007323319A (ja) * | 2006-05-31 | 2007-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 類似検索処理方法及び装置及びプログラム |
JP2008164867A (ja) * | 2006-12-27 | 2008-07-17 | Casio Comput Co Ltd | 投影装置、表示装置、画像投影方法及びプログラム |
WO2010073905A1 (ja) * | 2008-12-25 | 2010-07-01 | シャープ株式会社 | 動画像視聴装置 |
CN102860031A (zh) * | 2010-04-09 | 2013-01-02 | 索尼公司 | 用于识别运动图像内容中包含的静止图像的装置和方法 |
JP2011223327A (ja) * | 2010-04-09 | 2011-11-04 | Sony Corp | コンテンツ検索装置および方法、並びにプログラム |
WO2011125322A1 (en) * | 2010-04-09 | 2011-10-13 | Sony Corporation | Apparatus and method for identifying a still image contained in moving image contents |
US8971633B2 (en) | 2010-04-09 | 2015-03-03 | Sony Corporation | Content retrieval to facilitate recognizing content details of a moving image |
US9594957B2 (en) | 2010-04-09 | 2017-03-14 | Sony Corporation | Apparatus and method for identifying a still image contained in moving image contents |
US9881215B2 (en) | 2010-04-09 | 2018-01-30 | Sony Corporation | Apparatus and method for identifying a still image contained in moving image contents |
CN107924586A (zh) * | 2015-08-13 | 2018-04-17 | 诺基亚技术有限公司 | 搜索图像内容 |
CN107924586B (zh) * | 2015-08-13 | 2021-04-06 | 诺基亚技术有限公司 | 搜索图像内容的方法、装置以及计算机可读存储介质 |
JP2017054552A (ja) * | 2016-12-16 | 2017-03-16 | オリンパス株式会社 | 画像検索装置、画像表示装置、画像検索方法、および画像表示方法 |
JP2021149232A (ja) * | 2020-03-17 | 2021-09-27 | ヤフー株式会社 | 動画解析システム、動画解析装置、動画解析方法、およびプログラム |
JP7428855B2 (ja) | 2020-03-17 | 2024-02-07 | Lineヤフー株式会社 | 動画解析システム、動画解析装置、動画解析方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6342904B1 (en) | Creating a slide presentation from full motion video | |
US7594177B2 (en) | System and method for video browsing using a cluster index | |
EP0729117B1 (en) | Method and apparatus for detecting a point of change in moving images | |
US8184947B2 (en) | Electronic apparatus, content categorizing method, and program therefor | |
US8938153B2 (en) | Representative image or representative image group display system, representative image or representative image group display method, and program therefor | |
WO2007126097A1 (ja) | 画像処理装置及び画像処理方法 | |
KR20070090751A (ko) | 화상 표시방법 및 동영상 재생장치 | |
EP1195696A2 (en) | Image retrieving apparatus, image retrieving method and recording medium for recording program to implement the image retrieving method | |
JP2004110821A (ja) | マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム | |
KR20040088351A (ko) | 시각적으로 표현되는 비디오 썸네일의 생성 | |
EP2123015A1 (en) | Automatic detection, removal, replacement and tagging of flash frames in a video | |
US20090110366A1 (en) | Image processing apparatus and image processing method, program, and recording medium | |
JP5424930B2 (ja) | 画像編集装置およびその制御方法およびプログラム | |
JP4197014B2 (ja) | 映像の検索方法および装置 | |
US20110182561A1 (en) | System and method for continuous playing of moving picture between two devices | |
CN103984778A (zh) | 一种视频检索方法及系统 | |
JP4078085B2 (ja) | 変倍画像生成装置、方法、及びそのコンピュータプログラムとコンピュータ読み取り可能な記憶媒体 | |
JP2006039753A (ja) | 画像処理装置、画像処理方法 | |
JP2006217046A (ja) | 映像インデックス画像生成装置及び映像のインデックス画像を生成するプログラム | |
US7844163B2 (en) | Information editing device, information editing method, and computer product | |
JP2004254065A (ja) | 動画像中の代表画像抽出装置,動画像中の代表画像抽出方法,動画像中の代表画像抽出プログラムおよび動画像中の代表画像抽出プログラムの記録媒体 | |
JP5066172B2 (ja) | 動画表示装置、動画表示方法、プログラム及び端末装置 | |
JP2008166895A (ja) | 映像表示装置及びその制御方法、プログラム、記録媒体 | |
KR100650665B1 (ko) | 동영상 검색방법 | |
US7747130B2 (en) | Apparatus and method for extracting representative still images from MPEG video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071002 |