JP5553152B2

JP5553152B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP5553152B2
Application number: JP2010090609A
Authority: JP
Inventors: 健司田中; 邦雄川口; 和政田中; 義博高橋; 大介菊地; 直秀山田; 裕之森崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-04-09
Filing date: 2010-04-09
Publication date: 2014-07-16
Anticipated expiration: 2030-04-09
Also published as: JP2011221807A; EP2375349A1; US20110252035A1; US8620971B2; CN102214195A

Description

本発明は、画像処理装置および方法、並びにプログラムに関し、特に、多くの動画像コンテンツを容易に検索し、管理できるようにする画像処理装置および方法、並びにプログラムに関する。

多くの動画像コンテンツを管理する技術が一般に普及しつつある。

特に放送局などでは、毎日放送される放送番組が記録され続けることになるため、膨大な量の動画像コンテンツが増え続けることになる。このため、多くの動画像コンテンツから特定の動画像コンテンツを検索できるようにするのは、困難を極める。

これらの問題に対応するため、検索しようとする動画像コンテンツに含まれるいずれかの例示画像のメタデータと、予め登録されている蓄積された動画像コンテンツのメタデータとを比較して、類似する動画像コンテンツを検索する技術が提案されている（特許文献１参照）。

特開２００１−１３４５８９号公報

しかしながら、特許文献１に記載の技術では、同一のメタデータからなる画像を含む動画像コンテンツが重複して存在している場合、検索結果から、さらに別の例示動画像により検索する必要がある。また、類似した画像を多く含む動画像コンテンツが膨大な場合、検索したい動画像コンテンツのうち、余程特徴的な例示動画像を用いて検索しない限り、管理する動画像コンテンツが増えるほど絞り込むことが困難になる。結果として、欲しい動画像コンテンツを検索するためには、さらなる検索に係る手間や時間が必要となる恐れがある。

本発明はこのような状況に鑑みてなされたものであり、特に、膨大な量の動画像コンテンツの管理を容易なものとすると共に、管理している膨大な量の動画像コンテンツの中から検索したい動画像コンテンツを容易に検索できるようにするものである。

本発明の一側面の画像処理装置は、動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、前記クラス分類手段における、前記距離計算ステップの処理により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、前記重心距離が最小となるクラスに登録するデータベース登録手段と、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段とを含む。

前記第１階層要約データは、前記動画像コンテンツを構成する画像のうち、前記第１の頻度で抽出される画像が複数の分割領域に分割された、前記分割領域毎の画素値、輝度値、アクティビティ、音声ボリューム、および所定の音声周波数帯域の振幅の平均値のいずれか、または組み合わせから構成されるものとし、前記第１のサイズとすることができ、前記第２階層要約データは、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像が複数の分割領域に分割された、前記分割領域毎の画素値、輝度値、アクティビティ、音声ボリューム、または所定の音声周波数帯域の振幅の平均値の少なくともいずれかまた組み合わせから構成されるものとし、前記第１のサイズより小さな第２のサイズであるものとすることができる。

前記第１の頻度、および前記第２の頻度は、前記動画像コンテンツのうち、周期的、または非周期的に抽出される画像の頻度であるようにすることができる。

前記周期的とは、所定のフレーム数毎であるものとし、前記非周期的とは、前記動画像コンテンツにおけるシーンチェンジにおけるタイミング毎、または音声データの無音部分から無音部分でなくなるタイミング毎であるものとすることができる。

本発明の一側面の画像処理方法は、動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、前記距離計算手段により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、重心距離が最小となるクラスに登録するデータベース登録手段と、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段とを含む画像処理装置の画像処理方法であって、前記距離計算手段における、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算ステップと、前記クラス分類手段における、前記距離計算ステップの処理により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類ステップと、前記重心ベクトル計算手段における、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算ステップと、前記データベース登録手段における、前記入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算ステップの処理により計算される、重心距離が最小となるクラスに登録するデータベース登録ステップと、前記第２階層要約データ生成手段における、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成ステップと、前記格納手段における、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納ステップと、前記第１の検索手段における、前記第１階層要約データ生成ステップの処理により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索ステップと、前記第２の検索手段における、前記第１の検索ステップの処理により検索された動画像コンテンツのうち、前記第２階層要約データ生成ステップの処理により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索ステップとを含む。

本発明の一側面のプログラムは、動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、前記距離計算手段により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、前記重心距離が最小となるクラスに登録するデータベース登録手段と、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段とを含む画像処理装置を制御するコンピュータに、前記距離計算手段における、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算ステップと、前記クラス分類手段における、前記距離計算ステップの処理により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類ステップと、前記重心ベクトル計算手段における、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算ステップと、前記データベース登録手段における、前記入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算ステップの処理により計算される、前記重心距離が最小となるクラスに登録するデータベース登録ステップと、前記第２階層要約データ生成手段における、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成ステップと、前記格納手段における、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納ステップと、前記第１の検索手段における、前記第１階層要約データ生成ステップの処理により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索ステップと、前記第２の検索手段における、前記第１の検索ステップの処理により検索された動画像コンテンツのうち、前記第２階層要約データ生成ステップの処理により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索ステップとを含む処理を実行させる。

本発明の一側面においては、データベースにより、動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データが登録され、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離が計算され、求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データが同一のクラスに分類され、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツが複数のクラスに分類され、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルが計算され、入力された動画像コンテンツの前記第１階層要約データが、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として計算される、重心距離が最小となるクラスに登録され、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データが生成され、前記動画像コンテンツと対応して、前記第２階層要約データが格納され、生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツが検索され、検索された動画像コンテンツのうち、生成された前記第２階層要約データに基づいて、対応する動画像コンテンツが検索される。

本発明の画像処理装置は、独立した装置であっても良いし、画像処理を行うブロックであっても良い。

本発明の一側面によれば、多くの動画像コンテンツを容易に検索し、管理することが可能となる。

本発明を適用した画像処理装置の一実施の形態の構成例を示すブロック図である。画像蓄積処理を説明するフローチャートである。第１階層要約データ生成処理を説明するフローチャートである。第１階層要約データ生成処理を説明する図である。クラスタリング処理を説明するフローチャートである。第２階層要約データ生成処理を説明する図である。初期クラスタリング処理を説明するフローチャートである。初期クラスタリング処理を説明する図である。初期クラスタリング処理を説明する図である。検索抽出処理を説明するフローチャートである。検索抽出処理を説明する図である。検索抽出処理を説明する図である。圧縮処理を説明するフローチャートである。圧縮処理を説明する図である。汎用のパーソナルコンピュータの構成例を説明する図である。

［画像処理装置の構成例］
図１は、本発明を適用した画像処理装置のハードウェアの一実施の形態の構成例を示している。図１の画像処理装置１１は、動画像コンテンツを蓄積すると共に、必要に応じて検索して抽出するものである。

画像処理装置１１は、画像取得部２１、バッファ２２、動画像コンテンツデータ登録部２３、記憶部２４、検索抽出部２５、コンテンツファイル圧縮部２６、および表示部２７を備えている。

画像取得部２１は、登録しようとする動画像コンテンツ、または検索しようとする動画像コンテンツの一部となるサンプルデータを取得し、バッファ２２に一時的に記憶させる。サンプルデータは、例えば、インターネット上でダウンロード可能な動画像コンテンツの部分的なものや、関連する画像、およびサンプル動画像などである。

動画像コンテンツデータ登録部２３は、バッファ２２に記憶されている、登録しようとする動画像コンテンツについて、第１階層要約データ、および第２階層要約データを生成する。そして、動画像コンテンツデータ登録部２３は、第１階層要約データを記憶部２４の第１階層要約データDB（データベース）１０１に登録する。また、動画像コンテンツデータ登録部２３は、第２階層要約データからなる第２階層要約データファイル１１２と動画像コンテンツからなる動画像コンテンツファイル１１１とをコンテンツデータペア１０２として記憶部２４に記憶させる。この際、記憶部２４に記憶されている動画像コンテンツがクラスタリング（クラスに分類）されている場合、動画像コンテンツデータ登録部２３は、第１階層要約データに基づいて、動画像コンテンツをいずれかのクラスに分類して、記憶させる。

尚、図１の記憶部２４においては、第１階層要約データDB１０１、および複数のクラスＡ乃至Ｄが含まれている。各クラスＡ乃至Ｄには、それぞれコンテンツデータペア１０２−１乃至１０２−ａ，１０２−ｂ乃至１０２−ｃ，１０２−ｄ乃至１０２−ｅ，１０２−ｆ乃至１０２−ｇが含まれている。さらに、コンテンツデータペア１０２−１乃至１０２−ａには、それぞれ動画像コンテンツファイル１１１−１乃至１１１−ａ、および第２階層要約データファイル１１２−１乃至１１２−ａが含まれている。また、コンテンツデータペア１０２−ｂ乃至１０２−ｃには、それぞれ動画像コンテンツファイル１１１−ｂ乃至１１１−ｃ、および第２階層要約データファイル１１２−ｂ乃至１１２−ｃが含まれている。さらに、コンテンツデータペア１０２−ｄ乃至１０２−ｅには、それぞれ動画像コンテンツファイル１１１−ｄ乃至１１１−ｅ、および第２階層要約データファイル１１２−ｄ乃至１１２−ｅが含まれている。また、コンテンツデータペア１０２−ｆ乃至１０２−ｇには、それぞれ動画像コンテンツファイル１１１−ｆ乃至１１１−ｇ、および第２階層要約データファイル１１２−ｆ乃至１１２−ｇが含まれている。

尚、これらを特に区別する必要がない場合、単に、コンテンツデータペア１０２、動画像コンテンツファイル１１１、および第２階層要約データファイル１１２と称するものとし、その他の構成についても同様に称するものとする。また、これらのクラスＡ乃至Ｄの構成については、第１階層要約データDB１０１に管理される第１階層要約データに対して所属するクラスの情報が対応して記録されているのみであり、記憶部２４内において、クラスＡ乃至Ｄといった個別のフォルダなどにより管理されているわけではない。図１の記憶部２４内の記載は、あくまでもクラス構造を模式的に示したものであって、実際には、記憶部２４内において、コンテンツデータペア１０２が個別に分類されたクラス単位で統一された領域に記録されているわけではない。また、コンテンツデータペア１０２における動画像コンテンツファイル１１１、および第２階層要約データファイル１１２については、対応付けて記録されるが、個別に存在するファイルであり、個別に管理可能なものである。

動画像コンテンツデータ登録部２３は、アクティビティ計算部４１、画像スライド部４２、第１階層要約データ生成部４３、第２階層要約データ生成部４４、およびクラスタリング部４５を含む。アクティビティ計算部４１は、動画像コンテンツに含まれる画像の隣接画素間の画素値の差分値を画素値とした画像をアクティビティ画像として求める。画像スライド部４２は、アクティビティ計算部４１により計算されたアクティビティ画像に基づいて、アクティビティの最も高い位置を画像の中心としてスライドさせる。すなわち、画像の中でアクティビティの最も高い位置は、人間の視覚において意識を引き付ける位置であるので、その位置を画像の中心とすることにより、抽出される第１階層要約データ、および第２階層要約データが正規化されるようにする。

第１階層要約データ生成部４３は、画像分割部６１、ＲＧＢ画素値平均値計算部６２、およびシーンチェンジ検出部６３を備えている。第１階層要約データ生成部４３は、入力される動画像コンテンツの所定間隔毎のフレーム、または、シーンチェンジ検出部６３により検出されたシーンチェンジのタイミングとなるフレームを注目フレームとして、その注目フレームより第１階層要約データを生成する。すなわち、第１階層要約データ生成部４３は、画像分割部６１を制御して、注目フレームを所定数の分割領域に分割させる。次に、第１階層要約データ生成部４３は、ＲＧＢ画素値平均値計算部６２を制御して、分割領域毎にＲＧＢ（赤色画素、緑色画素、青色画素）のそれぞれの画素値の平均値を求めさせる。そして、第１階層要約データ生成部４３は、このようにして分割領域毎に求められたＲＧＢのそれぞれの平均値を要素とし、１００バイト程度の情報量からなるフレーム単位のベクトルを第１階層要約データとして求め、第１階層要約データＤＢ１０１に登録する。

第２階層要約データ生成部４４は、画像分割部７１、およびＲＧＢ画素値平均値計算部７２を備えており、動画像コンテンツの全フレームより第２階層要約データを生成する。尚、画像分割部７１、およびＲＧＢ画素値平均値計算部７２については、それぞれ第１階層要約データ生成部４３の画像分割部６１、およびＲＧＢ画素値平均値計算部６２と同様のものである。

すなわち、第２階層要約データ生成部４４は、画像分割部７１を制御して、注目フレームを所定数の分割領域に分割させる。次に、第２階層要約データ生成部４４は、ＲＧＢ画素値平均値計算部７２を制御して、分割領域毎にＲＧＢ（赤色画素、緑色画素、青色画素）のそれぞれの画素値の平均値を求めさせる。そして、第２階層要約データ生成部４４は、このようにして分割領域毎に求められたＲＧＢのそれぞれの平均値を要素とし、３０バイト程度の情報量からなるフレーム単位のベクトルを第２階層要約データとして求める。さらに、第２階層要約データ生成部４４は、このようにして求められた第２階層要約データを時系列配置したファイルを第２階層要約データファイル１１２と、動画像コンテンツファイル１１１とを、コンテンツデータペア１０２として記憶部２４に記憶させる。

尚、第１階層要約データ、および第２階層要約データは、いずれにおいても、いずれの動画像コンテンツファイルに所属するものであるかを示す情報が含まれている。また、第１階層要約データは、３０フレーム毎に１００バイト程度の情報量の情報であり、第２階層要約データは、１フレーム毎に３０バイト程度の情報量の情報であるものとしているが、第１階層要約データの方が、第２階層要約データよりもフレーム数の頻度が低く、情報量が多いものであれば、他のフレーム数毎であって、異なる情報量であってもよい。すなわち、第１階層要約データについては、第１階層要約データDB１０１において検索に利用されるため、単独で利用されるため、多少大きめのデータでもよい。しかしながら、第２階層要約データは、時系列に管理される複数のものを含む第２階層要約データファイル１１２の単位で利用されることになるため、個々には小さなデータサイズとする必要があるためである。

クラスタリング部４５は、重心計算部８１、距離計算部８２、および初期登録部８３を備えている。クラスタリング部４５は、記憶部２４に記憶されている複数のコンテンツデータペア１０２を第１階層要約データDB１０１に登録されている第１階層要約データに基づいて、類似したもの同士を同一クラスに分類する（クラスタリングする）。

クラスタリング部４５は、既に、クラスタリングが完了している記憶部２４に新たに動画像コンテンツファイル１１１を登録するとき、その新たに登録しようとする動画像コンテンツの第１階層要約データに基づいてクラスを分類する。すなわち、クラスタリング部４５は、重心計算部８１を制御して、各クラスに属するベクトルからなる第１階層要約データの重心ベクトルを計算させる。次に、クラスタリング部４５は、距離計算部８２を制御して各クラスの重心ベクトルと、新たに登録しようとする動画像コンテンツの第１階層要約データを構成するベクトルとの距離を計算させる。そして、クラスタリング部４５は、新たに登録しようとする動画像コンテンツの第１階層要約データからなるベクトルとの距離が最小となる重心ベクトルのクラスに、新たに登録しようとする動画像コンテンツを分類する。

また、記憶部２４に登録されているコンテンツデータペア１０２がクラスに分類されていない場合、クラスタリング部４５は、各コンテンツデータペア１０２をクラスに分類する。すなわち、クラスタリング部４５は、距離計算部８２を制御して、各動画像コンテンツの第１階層要約データDB１０１に登録されている第１階層要約データを構成するベクトル間の距離を計算し、所定の距離の範囲内に存在する動画像コンテンツデータを同一のクラスに分類する。そして、クラスタリング部４５は、初期登録部８３を制御して、各動画像コンテンツが分類された第１階層要約データのクラスを登録する。

検索抽出部２５は、アクティビティ計算部１５１、画像スライド部１５２、第１階層予約データ検索部１５３、第２階層要約データ検索抽出部１５４、クラス検索部１５５、および検索結果表示画像生成部１５６を備えている。検索抽出部２５は、画像取得部２１により取得されバッファ２２に記憶された検索しようとする動画像コンテンツに関連するサンプルデータに基づいて、動画像コンテンツを検索し、検索結果を表示部２７に表示する。

より詳細には、アクティビディ計算部１５１、および画像スライド部１５２は、動画像コンテンツデータ登録部２３におけるアクティビディ計算部４１、および画像スライド部４２と同様のものである。すなわち、アクティビティ計算部１５１は、検索しようとする動画像コンテンツに関連する画像（フレーム）の隣接画素間の差分値からなるアクティビティを計算し、アクティビティを画素値とするアクティビティ画像を生成する。画像スライド部１５２は、計算されたアクティビティ画像のうち、最もアクティビティの大きな位置を画像の中心位置にスライドさせる。

第１階層要約データ検索部１５３は、画像分割部１７１、ＲＧＢ画素値平均値計算部１７２、および比較部１７３を備えている。第１階層要約データ検索部１５３は、検索しようとする動画像コンテンツに関連するサンプルデータの代表画像より第１階層要約データを生成する。すなわち、第１階層要約データ検索部１５３は、画像分割部１７１を制御して、代表画像を所定数の分割領域に分割させる。次に、第１階層要約データ検索部１５３は、ＲＧＢ画素値平均値計算部１７２を制御して、分割領域毎にＲＧＢ（赤色画素、緑色画素、青色画素）のそれぞれの画素値の平均値を求めさせる。そして、第１階層要約データ検索部１５３は、このようにして分割領域毎に求められたＲＧＢのそれぞれの平均値を要素とし、１００バイト程度の情報量からなるフレーム単位のベクトルを第１階層要約データとして求める。尚、サンプルデータの代表画像は、サンプルデータを構成する動画像コンテンツの先頭画像、またはシーンチェンジのタイミングにおける画像である。

第１階層要約データ検索部１５３は、比較部１７３を制御して、サンプルデータより求められた代表画像の第１階層要約データと、第１階層要約データDB１０１に登録された第１階層要約データとをそれぞれ構成するベクトルとを比較し、一致、または類似しているか否かを判定させる。そして、第１階層要約データ検索部１５３は、サンプルデータの第１階層要約データに対応する検索対象となる動画像コンテンツの候補を検索する。この際、クラス検索部１５５により代表画像の第１階層要約データのベクトルと、各クラスに分類される第１階層要約データの重心ベクトルとの一致、または類似しているか否かの比較結果に基づいて、一致するクラスの重心ベクトルが求められていた場合、第１階層要約データ検索部１５３は、対象となるクラスに属する第１階層要約データと一致、または類似するか否かの比較結果により、サンプルデータの第１階層要約データに対応する動画像コンテンツを検索する。すなわち、各クラスは、第１階層要約データを構成するベクトル間の距離が近いもの同士が集められて構成される。このため、第１階層要約データ検索部１５３は、第１階層要約データDB１０１に登録されている第１階層要約データのうち、代表画像の第１階層要約データと一致する重心ベクトルを持つクラスに属する第１階層要約データのみを比較すればよいので検索速度を向上させることができる。

第２階層要約データ検索抽出部１５４は、検索しようとするサンプルデータの動画像コンテンツの動画像情報に基づいて、第２検索要約データを生成する。そして、第２階層要約データ検索抽出部１５４は、サンプルデータの第２検索要約データと、第１階層要約データ検索部１５３により検索された第１階層要約データの動画像コンテンツの第２階層要約データファイル１１２とが一致するものを検索する。すなわち、第２階層要約データ検索抽出部１５４は、画像分割部１８１を制御して、検索しようとするサンプルデータの動画像コンテンツの動画像情報の各フレームを所定数の分割領域に分割させる。次に、第２階層要約データ検索抽出部１５４は、ＲＧＢ画素値平均値計算部１８２を制御して、分割領域毎にＲＧＢ（赤色画素、緑色画素、青色画素）のそれぞれの画素値の平均値を求めさせる。そして、第２階層要約データ検索抽出部１５４は、このようにして分割領域毎に求められたＲＧＢのそれぞれの平均値を要素とし、３０バイト程度の情報量からなるフレーム単位のベクトルをサンプルデータの第２階層要約データとして求める。すなわち、第２階層要約データファイル１１２は、毎フレームごとに求められた第２階層要約データが時系列に配置されたものである。従って、サンプルデータの第２階層要約データが時系列に配置されたものが、登録された第２階層要約データファイル１１２の時系列に配置された第２階層要約データ上で、１フレームずつスライドされるとき、対応するフレーム同士の第２階層要約データ間の差分が順次求められるとき、その差分の最小値が所定の閾値よりも小さければ、検索対象となる動画像コンテンツと一致、または類似しているものとして検索される。また、検索対象となる動画像コンテンツと一致、または類似していれば、その差分が最小となるときのスライド位置が、そのサンプルデータの、検索しようとする動画像コンテンツ上の再生位置として特定される。

クラス検索部１５５は、サンプルデータの代表画像より求められた第１階層要約データを構成するベクトルと、記憶部２４に記憶されている第１階層要約データDB１０１に登録された各クラスの重心ベクトルとの距離を求め、所定の範囲内のクラスを検索する。すなわち、クラス検索部１５５は、重心計算部１９１を制御して、クラス毎にそのクラスに属する第１階層要約データを構成するベクトルの重心ベクトルを求める。そして、クラス検索部１５５は、代表画像の第１階層要約データからなるベクトルと、重心ベクトルとの距離を求めて所定の距離内の重心ベクトルのクラスを検索する。

検索結果表示画像生成部１５６は、第２階層要約データ検索抽出部１５４により検索された動画像コンテンツの第１階層要約データに対応する画像を、LCD（Liquid Crystal Display）などからなる表示部２７に表示する。

コンテンツファイル圧縮部２６は、同一部分検索部２１１、不一致部分検索部２１２、編集部２１３、および更新部２１４を備えている。コンテンツファイル圧縮部２６は、第２階層要約データ検索抽出部１５４により検索された第２階層要約データファイル１１２における同一部分、および不一致部分を検索すると共に、相互に同一部分を１つのみ残して消去し、その他の不一致部分と接合するなどの編集を行い、動画像コンテンツファイル１１１のデータ量を圧縮する。すなわち、コンテンツファイル圧縮部２６は、同一部分検索部２１１を制御して、検索された第２階層要約データファイル１１２のうち、同一部分となる範囲を検索させる。コンテンツファイル圧縮部２６は、不一致部分検索部２１２を制御して、検索されたもののうち、不一致部分となる範囲を検索させる。次に、コンテンツファイル圧縮部２６は、編集部２１３を制御して、同一部分となる範囲を１箇所残すのみとし、その他を削除させ、必要に応じて不一致部分を接合するように編集させる。そして、コンテンツファイル圧縮部２６は、新たに生成された動画像コンテンツファイル１１１により動画像コンテンツファイル１１１を更新する。

［動画像コンテンツ蓄積処理］
次に、図１の画像処理装置１１における動画像コンテンツ蓄積処理について説明する。

ステップＳ１１において、画像取得部２１は、記憶部２４に蓄積すべき動画像コンテンツを取得し、バッファ２２に格納する。

ステップＳ１２において、動画像コンテンツデータ登録部２３は、バッファ２２より動画像コンテンツを読み出して、第１階層要約データ生成処理を実行し、第１階層要約データを生成して記憶部２４の第１階層要約データDB１０１に登録する。

［第１階層要約データ生成処理］
ここで、図３のフローチャートを参照して、第１階層要約データ生成処理について説明する。

ステップＳ３１において、動画像コンテンツデータ登録部２３は、フレーム数をカウントするためのカウンタｆを１に初期化する。

ステップＳ３２において、動画像コンテンツデータ登録部２３は、順次動画像コンテンツを読み出し、未処理の次のフレーム画像が存在するか否かを判定する。ステップＳ３２において、未処理の次のフレーム画像が存在しない場合、処理は終了する。一方、ステップＳ３２において、次の動画像コンテンツのフレーム画像が存在する場合、処理は、ステップＳ３３に進む。

ステップＳ３３において、第１階層要約データ生成部４３は、シーンチェンジ検出部６３を制御して、供給されてくるフレーム画像が直前の画像との比較によりシーンチェンジしているフレーム画像であるか否かを判定する。すなわち、シーンチェンジ検出部６３は、例えば、処理対象であるフレーム画像と直前画像との各画素の画素値の差分値の総和を求めて、所定の閾値よりも大きくなる場合、シーンチェンジが発生したものとみなす。すなわち、連続する動画像の場合、直前のフレーム画像との変化は小さいと考えられるため、画素値の差分値の総和は、所定の閾値よりも小さいと考えられる。しかしながら、シーンチェンジが発生する場合、直前のフレーム画像とは全く異なる画像となることが多いため、各画素間の画素値の差分値の総和は大きく変化するものと考えられる。そこで、シーンチェンジ検出部６３は、各画素間の画素値の差分値の総和と、所定の閾値との比較によりシーンチェンジが発生しているか否かを判定する。

ステップＳ３３において、例えば、直前の画像との各画素の画素値の差分値の総和が所定の閾値よりも小さく、シーンチェンジが発生していないものとみなされた場合、処理は、ステップＳ３４に進む。

ステップＳ３４において、動画像コンテンツデータ登録部２３は、カウンタｆが３０であるか否かを判定し、３０ではない場合、処理は、ステップＳ３５に進み、カウンタｆが１インクリメントされて、処理は、ステップＳ３２に戻る。すなわち、シーンチェンジがない限り、３０フレームが経過するまで、ステップＳ３２乃至Ｓ３５の処理が繰り返される。

そして、ステップＳ３３において、直前の画像との各画素の画素値の差分値の総和が所定の閾値よりも大きく、シーンチェンジが発生しているとみなされた場合、または、ステップＳ３４において、カウンタｆが３０になった場合、処理は、ステップＳ３６に進む。

ステップＳ３６において、動画像コンテンツデータ登録部２３は、バッファ２２より直前のフレームから３０フレーム目にあたる注目フレームの画像をバッファ２２より抽出する。

ステップＳ３７において、動画像コンテンツデータ登録部２３は、アクティビティ計算部４１を制御して、抽出した注目フレームの画像におけるアクティビティを計算させる。より詳細には、アクティビティ計算部４１は、各画素について水平垂直に隣接する画素間の差分の合計を画素のアクティビティとして計算し、全画素について同様に計算することで、全画素の画素値がアクティビティからなるアクティビティ画像を計算により求める。

ステップＳ３８において、動画像コンテンツデータ登録部２３は、画像スライド部４２を制御して、求められたアクティビティ画像のうち、アクティビティが最も高い画素の位置を、注目フレームの画像における中心位置に移動させる。すなわち、アクティビティが高い画素位置は、人間の視覚において、最も視線が向けられ易い位置であるため、注目フレームにおけるその最も視線が向けられ易い位置が画像の中心位置となるようにスライドされて移動されることで、以降の処理が正規化される。尚、複数に最も高いアクティビティを取る画素が存在する場合、その最もアクティビティが高い画素により構成される被写体に視線が向けられ易いことになるため、その場合、それらの画素の重心位置を注目フレームの画像の中心位置とするようにしてもよい。

ステップＳ３９において、第１階層要約データ生成部４３は、画像分割部６１を制御して、中心位置がスライドされた第Ｆフレームを、N個の分割領域Ｐ（ｎ）に分割する。すなわち、例えば、N＝３２である場合、第Ｆフレームの画像は、図４で示されるように分割領域Ｐ（１）乃至Ｐ（３２）に分割される。

ステップＳ４０において、第１階層要約データ生成部４３は、分割領域Ｐ（ｎ）をカウントするためのカウンタｎを１に初期化する。

ステップＳ４１において、第１階層要約データ生成部４３は、ＲＧＢ画素値平均値計算部６２を制御して、分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値をそれぞれ求める。

ステップＳ４２において、第１階層要約データ生成部４３は、カウンタｎが所定の分割数Ｎであるか否かを判定する。すなわち、図４の場合、第１階層要約データ生成部４３は、カウンタｎが所定の分割数Ｎ＝３２であるか否かを判定する。ステップＳ４２において、カウンタｎが所定の分割数Ｎではない場合、ステップＳ４３において、第１階層要約データ生成部４３は、カウンタｎを１インクリメントして、処理は、ステップＳ４１に戻る。すなわち、全ての分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値がそれぞれ求められる。

そして、ステップＳ４２において、カウンタｎが分割数Ｎに達した場合、処理は、ステップＳ４３に進む。

ステップＳ４４において、第１階層要約データ生成部４３は、分割領域Ｐ（１）乃至Ｐ（Ｎ）のそれぞれのＲＧＢの平均値を要素とするベクトルからなり、１００バイト程度のデータ量の第１階層要約データＣ１を第１階層要約データDB１０１に登録して記憶部２４に記憶させ、処理は、ステップＳ３１に戻る。

以上の処理により動画像コンテンツのうち、先頭から順次３０フレーム毎に、または、シーンチェンジがあるとき、そのときのフレームが注目フレームとされて、順次、所定数の分割領域Ｐ（ｎ）に分割されて、それぞれのＲＧＢの平均値が求められる。そして、求められた各分割領域Ｐ（ｎ）のＲＧＢの平均値を要素とするベクトルであって、１００バイト程度のデータ量の第１階層要約データＣ１が、第１階層要約データDB１０１に順次登録される。すなわち、例えば、図４で示されるように、注目フレームが３２分割され、ＲＧＢのそれぞれの諧調が16であって、１バイトで表現されるとき、第１階層要約データＣ１は、各要素が１バイトで表現され、９６バイトからなる９６次元のベクトルにより構成されるものとなる。このため、第１階層要約データDB１０１に登録されている情報は、時系列の情報を含まない第１階層要約データを構成するベクトルの集合からなる特徴量であると考えることができる。

ここで、図２のフローチャートの説明に戻る。

ステップＳ１２において、登録しようとする動画像データの第１階層要約データが記憶部２４の第１階層要約データDB１０１に登録されると、ステップＳ１３において、クラスタリング部４５は、クラスタリング処理を実行し、登録しようとする動画像コンテンツの第１階層要約データのクラスを分類する。

［クラスタリング処理］
ここで、図５のフローチャートを参照し、クラスタリング処理について説明する。

ステップＳ５１において、クラスタリング部４５は、第１階層要約データDB１０１に登録されている第１階層要約データのうち、登録しようとする動画像コンテンツを除いたものであって、クラスに分類されているものを抽出する。さらに、クラスタリング部４５は、重心計算部８１を制御して、同一クラスに分類されている第１階層要約データからなるベクトルの重心ベクトルを計算させる。すなわち、例えば、図１のクラスＡにおいては、クラスタリング部４５は、重心計算部８１を制御して、クラスＡのコンテンツデータペア１０２−１乃至１０２−ａのそれぞれのに対応する第１階層要約データからなるベクトルの重心ベクトルを求めさせる。同様に、クラスＢ乃至Ｄについても、それぞれの第１階層要約データからなるベクトルの重心ベクトルが求められる。

ステップＳ５２において、クラスタリング部４５は、登録しようとする動画像コンテンツの第１階層要約データのうち、未処理のものを処理対象の第１階層要約データＣ１に設定する。

ステップＳ５３において、クラスタリング部４５は、クラスをカウントするカウンタｍを１に初期化する。

ステップＳ５４において、クラスタリング部４５は、距離計算部８２を制御して、処理対象の第１階層要約データＣ１を構成するベクトルと、クラスｍの重心ベクトルとの距離ｄｍを計算させる。より詳細には、距離計算部８２は、例えば、自乗ノルムを用いて、それぞれのベクトル間距離ｄｍを求める。

ステップＳ５５において、クラスタリング部４５は、求められたベクトル間の距離ｄｍが所定の閾値ｔｈ１よりも小さいか否かを判定し、例えば、ベクトル間の距離ｄｍが所定の閾値ｔｈ１よりも小さい場合、処理は、ステップＳ５６に進む。

ステップＳ５６において、クラスタリング部４５は、処理対象とする第１階層要約データＣ１をクラスｍに仮登録する。

ステップＳ５７において、クラスタリング部４５は、カウンタｍが分類されているクラス数Ｍに達したか否かを判定し、達していない場合、処理は、ステップＳ５８に進む。そして、ステップＳ５８において、クラスタリング部４５は、カウンタｍを１インクリメントして、処理は、ステップＳ５４に戻る。すなわち、全てのクラスの重心ベクトルとのベクトル間距離が所定の閾値ｔｈ１よりも小さいか否かが判定されるまで、ステップＳ５４乃至Ｓ５８の処理が繰り返される。

そして、ステップＳ５７において、カウンタｍがクラス数Ｍであると判定された場合、ステップＳ５９において、クラスタリング部４５は、処理対象となっている第１階層要約データＣ１が、いずれかのクラスに分類されて仮登録されているか否かを判定する。そして、ステップＳ５９において、いずれかのクラスに分類されて仮登録されている場合、処理は、ステップＳ６０に進む。

ステップＳ６０において、クラスタリング部４５は、処理対象とする第１階層要約データＣ１が仮登録されているクラスのうち、距離ｄｍが最小となるクラスｍを処理対象とする第１階層要約データＣ１のクラスｍに分類する。すなわち、処理対象とする第１階層要約データＣ１が、複数のクラスに分類されている場合、そのいずれかに分類する必要があるため、第１階層要約データＣ１のベクトルが、重心ベクトルと最も近い（最も類似している）クラスに分類される。

ステップＳ６１において、クラスタリング部４５は、分類されたクラスに、同一の動画像コンテンツの第１階層要約データが既に登録されているか否かを判定する。ステップＳ６１において、例えば、分類されたクラスに、同一の動画像コンテンツの第１階層要約データが登録されていない場合、ステップＳ６２において、クラスタリング部４５は、分類されたクラスに処理対象となる第１階層要約データを分類し、第１階層要約データDB１０１に登録する。

一方、ステップＳ５９において、いずれのクラスにも分類されていない場合、または、ステップＳ６１において、既に、同一の動画像コンテンツの第１階層要約データが登録されている場合、処理は、ステップＳ６３に進む。

ステップＳ６３において、クラスタリング部４５は、登録しようとする動画像コンテンツについて、未処理の第１階層要約データが存在するか否かを判定し、未処理の第１階層要約データが存在する場合、処理は、ステップＳ５２に戻る。すなわち、サンプルデータの動画像コンテンツについて、未処理の第１階層要約データが存在しない状態となるまで、ステップＳ５２乃至Ｓ６３の処理が繰り返される。

そして、ステップＳ６３において、登録しようとする動画像コンテンツについて、未処理の第１階層要約データが存在しないと判定された場合、処理は、終了する。

以上の処理により、登録しようとする動画像コンテンツの第１階層要約データについて、各クラスに最大１つの第１階層要約データが分類される。

ここで、図２のフローチャートの説明に戻る。

ステップＳ１３において、登録しようとする動画像コンテンツの第１階層要約データについて、各クラスに最大１つの第１階層要約データが分類されると、処理は、ステップＳ１４に進む。

ステップＳ１４において、第２階層要約データ生成部４４は、第２階層要約データ生成処理を実行し、第２階層要約データからなる第２階層要約データファイル１１２を生成し、動画像コンテンツファイル１１１と共にコンテンツデータペア１０２として記憶部２４に記憶させる。

［第２階層要約データ生成処理］
ここで、図６のフローチャートを参照して、第２階層要約データ生成処理について説明する。

ステップＳ８１において、動画像コンテンツデータ登録部２３は、フレーム数をカウントするためのカウンタＦを１に初期化する。

ステップＳ８２において、動画像コンテンツデータ登録部２３は、バッファ２２に蓄積されている、登録しようとする動画像コンテンツに次のフレーム画像が存在するか否かを判定し、次のフレーム画像が存在しない場合、処理は終了する。また、ステップＳ８２において、次のフレーム画像が存在する場合、処理は、ステップＳ８３に進む。

ステップＳ８３において、動画像コンテンツデータ登録部２３は、バッファ２２よりフレーム（Ｆ）を注目フレームの画像としてバッファ２２より抽出する。

ステップＳ８４において、動画像コンテンツデータ登録部２３は、アクティビティ計算部４１を制御して、抽出した注目フレームの画像におけるアクティビティ画像を計算させる。

ステップＳ８５において、動画像コンテンツデータ登録部２３は、画像スライド部４２を制御して、求められたアクティビティ画像のうち、アクティビティが最も高い画素の位置を、注目フレームの画像における中心位置に移動させる。

ステップＳ８６において、第２階層要約データ生成部４４は、画像分割部７１を制御して、中心位置がスライドされた第Ｆフレームを、N個の分割領域Ｐ（ｎ）に分割する。

ステップＳ８７において、第２階層要約データ生成部４４は、分割領域Ｐ（ｎ）をカウントするためのカウンタｎを１に初期化する。

ステップＳ８８において、第２階層要約データ生成部４４は、ＲＧＢ画素値平均値計算部７２を制御して、分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値をそれぞれ求める。

ステップＳ８９において、第２階層要約データ生成部４４は、カウンタｎが所定の分割数Ｎであるか否かを判定する。ステップＳ８９において、カウンタｎが所定の分割数Ｎではない場合、ステップＳ９０において、第２階層要約データ生成部４４は、カウンタｎを１インクリメントして、処理は、ステップＳ８８に戻る。すなわち、全ての分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値がそれぞれ求められる。

そして、ステップＳ９０において、カウンタｎが分割数Ｎに達した場合、処理は、ステップＳ９１に進む。

ステップＳ９１において、第２階層要約データ生成部４４は、分割領域Ｐ（１）乃至Ｐ（Ｎ）のそれぞれのＲＧＢの平均値を要素とするベクトルからなり、３０バイト程度のデータ量の第２階層要約データＣ２を新規の第２階層要約データファイル１１２に登録する。この際、第２階層要約データ生成部４４は、処理されたフレーム順に第２階層要約データＣ２を新規の第２階層要約データファイル１１２に登録して記憶部２４に記憶させる。

そして、ステップＳ９２において、カウンタＦが１インクリメントされると、処理は、ステップＳ８２に戻る。

以上の処理により動画像コンテンツの各フレームが順次注目フレームとされて、所定数の分割領域Ｐ（ｎ）に分割されて、それぞれのＲＧＢの平均値が求められる。そして、求められた各分割領域Ｐ（ｎ）のＲＧＢの平均値を要素とするベクトルであって、３０バイト程度のデータ量の第２階層要約データＣ２が、順次、処理されたフレーム順に第２階層要約データファイル１１２に登録される。すなわち、例えば、図４で示されるように、注目フレームが３２分割され、ＲＧＢのそれぞれの諧調が４であって、２ビットで表現されるとき、１つの第２階層要約データＣ２は、各要素が２ビットで表現され、２４バイトからなる９６次元のベクトルにより構成されるものとなる。さらに、第２階層要約データファイル１１２には、この第２階層要約データＣ２が時系列にフレーム順に記憶される構造となる。このため、第２階層要約データファイル１１２に記憶されている第２階層要約データＣ２をフレーム順に配置したデータは、時系列の情報を含む第２階層要約データＣ２のベクトルからなる特徴量であるといえる。

ここで、図２のフローチャートの説明に戻る。

ステップＳ１４において、第２階層要約データ生成処理により第２階層要約データファイル１１２が生成されると、処理は、ステップＳ１５に進む。

ステップＳ１５において、動画像コンテンツデータ登録部２３は、登録しようとする動画像コンテンツからなる動画像コンテンツファイル１１１と対応する第２階層要約データファイル１１２とからなるコンテンツデータペア１０２を記憶部２４に登録する。

以上の処理により動画像コンテンツを登録する際、所定間隔毎のフレーム単位、またはシーンチェンジのあったフレーム単位で抽出される第１階層要約データが第１階層要約データDB１０１に登録される。また、毎フレーム単位で抽出される第２階層要約データがフレーム順に配置された状態で第２階層要約データファイル１１２として登録され、動画像コンテンツファイル１１１とのコンテンツデータペア１０２として記憶部２４に登録される。

尚、第１階層要約データDB１０１の情報は、毎フレーム単位ではないが、所定間隔のフレーム単位、またはシーンチェンジのあるフレーム単位で抽出される第１階層要約データＣ１そのものがデータベースとして登録されているのみである。このため、第１階層要約データDB１０１の情報は、時系列の情報を持たない代わりに、データ検索に優れたデータベースとして登録されている。このため、第１階層要約データDB１０１の情報は、後述する検索しようとするサンプルデータの動画像コンテンツのデータとの照合により、検索しようとするサンプルデータの動画像コンテンツを特定するのに優れている特徴量であるといえる。

また、第１階層要約データについては、第１階層要約データDB１０１において、クラスタリングされて登録されているため、第１階層要約データを検索する際、クラス毎の重心ベクトル等を用いて、いずれのクラスに所属しているのかを特定した後、さらに、特定されたクラス内の第１階層要約データを検索するようにすることで、検索速度を向上させることが可能となる。

［初期クラスタリング処理］
さらに、以上においては、既に記憶部２４に登録されている動画像コンテンツファイル１１１は、いずれもクラスタリングされていることが前提となる処理であった。しかしながら、クラスタリングされることなく動画像コンテンツファイル１１１が記憶部２４に登録されている場合、初期クラスタリング処理が必要となる。そこで、次に、図７のフローチャートを参照して、初期クラスタリング処理について説明する。尚、第１階層要約データ生成処理により、全ての動画像コンテンツについての第１階層要約データが、第１階層要約データDB１０１に登録済みであることを前提とする。このため、図２のフローチャートにおけるステップＳ１３の処理を除くステップＳ１１，Ｓ１２，Ｓ１４，Ｓ１５の処理によりクラスタリングされていない状態で記憶部２４に動画像コンテンツが記憶されているものとする。

ステップＳ１１１において、クラスタリング部４５は、第１階層要約データDB１０１のうち、注目する第１階層要約データＣ１（ｑ）と、比較対象となる第１階層要約データＣ１（ｒ）とを識別するカウンタｑ，ｒをｑ＝１，ｒ＝２に初期化する。

ステップＳ１１２において、クラスタリング部４５は、距離計算部８２を制御して、第１階層要約データＣ１（ｑ）と第１階層要約データＣ１（ｒ）との距離ｄｍを計算させる。

ステップＳ１１３において、クラスタリング部４５は、計算された距離ｄｍが、所定の閾値ｔｈ１よりも小さいか否かを判定し、例えば、距離ｄｍが、所定の閾値ｔｈ１よりも小さい場合、すなわち、類似していると判定された場合、処理は、ステップＳ１１４に進む。

ステップＳ１１４において、クラスタリング部４５は、初期登録部８３を制御して、第１階層要約データＣ１（ｒ）の属する動画像コンテンツの他の第１階層要約データＣ１が、注目する第１階層要約データＣ１（ｑ）と同一のクラスに既に分類されて登録されているか否かを判定する。

ステップＳ１１４において、第１階層要約データＣ１（ｒ）の属する動画像コンテンツの他の第１階層要約データＣ１が、注目する第１階層要約データＣ１（ｑ）と同一のクラスに既に分類されて登録されていない場合、処理は、ステップＳ１１５に進む。

ステップＳ１１５において、初期登録部８３は、第１階層要約データＣ１（ｒ）を注目する第１階層要約データＣ１（ｑ）と同一のクラスに分類して登録する。

すなわち、注目する第１階層要約データＣ１（ｑ）と同一のクラスとみなされたその他の比較対象となる第１階層要約データＣ１（ｒ）が既に登録されていると、同一のクラスに同一の動画像コンテンツから異なる第１階層要約データが複数登録されることになる。クラスとは、動画像コンテンツ同士で類似している、または同一であるフレーム画像をまとめたものである。従って、同一の動画像コンテンツの第１階層要約データが、複数も同一のクラスに登録する必要がない。このため、既に登録されたものがない場合にのみ、比較対象となる第１階層要約データＣ１（ｒ）が注目する第１階層要約データＣ１（ｑ）と同一のクラスに分類されて登録される。

ステップＳ１１６において、クラスタリング部４５は、カウンタｒが、第１階層要約データＣ１の総数Ｑとなったか否かを判定し、カウンタｒが総数Ｑではない場合、ステップＳ１１７において、カウンタｒを１インクリメントして処理は、ステップＳ１１２に戻る。

一方、ステップＳ１１３において、距離ｄｍが所定の閾値ｔｈ１より大きく、また、ステップＳ１１４において、注目する第１階層要約データＣ１（ｑ）と同一のクラスとみなされたその他の比較対象となる第１階層要約データＣ１（ｒ）が既に登録されている場合、ステップＳ１１５の処理はスキップされて、処理は、ステップＳ１１６に進む。

すなわち、注目する第１階層要約データＣ１（ｑ）と、それ以外の全ての比較対象となる第１階層要約データＣ１（ｒ）との比較処理が全て完了するまで、ステップＳ１１２乃至Ｓ１１６の処理が繰り返される。

そして、ステップＳ１１６において、カウンタｒが総数Ｑになった場合、ステップＳ１１８において、クラスタリング部４５は、カウンタｑが総数Ｑになったか否かを判定する。ステップＳ１１６において、カウンタｑが総数Ｑではない場合、ステップＳ１１９において、クラスタリング部４５は、カウンタｑを１インクリメントし、さらに、ステップＳ１２０において、カウンタｒをカウンタｑより１大きな値にする。そして、処理は、ステップＳ１１２に戻る。

すなわち、第１階層要約データDB１０１の第１階層要約データ間の比較をするため、重複した比較をする必要がないので、注目する第１階層要約データＣ１（ｑ）に対して、比較対象となる第１階層要約データＣ１（ｒ）は、カウンタｑより上位のものであればよい。そこで、カウンタｒは、ｑ＋１から総数Ｑまでの処理となる。そして、これらの比較が、全ての第１階層要約データ間でなされるまで、ステップＳ１１２乃至Ｓ１２０の処理が繰り返される。

そして、ステップＳ１１８において、カウンタｑが総数Ｑであると判定された場合、処理は終了する。

以上の処理により、第１階層要約データ間で類似しているもの、または同一のものについて、それぞれが同一のクラスに分類され、さらに、各クラスには同一の動画像コンテンツに属する第１階層要約データは、最大１個となるように分類される。この結果、例えば、異なる動画像コンテンツから６種類の第１階層要約データが集められて１クラスが設けられるような場合、図８の最上段の６枚のフレーム画像で示されるように、同一の人物が存在するような画像が抽出される。または、図８の上から２段目の６枚のフレーム画像で示されるように、同一の灯台と海が存在するような画像や、図８の上から３段目の６枚のフレーム画像で示されるように、２機の航空機が存在するような画像や、図８の上から４段目の６枚のフレーム画像で示されるように、同一のロケット発射台が存在するような画像が抽出され、それぞれの６枚が同一のクラスとして分類される。すなわち、図８における各段の６枚のフレーム画像の第１階層要約データは、相互にベクトル間距離が所定の距離内の画像である。

尚、同一のクラスに分類される第１階層要約データ数毎にクラス数を求めた場合、例えば、図９で示されるような傾向が見られることが知られている。すなわち、図９においては、縦軸が、同一のクラスに分類される第１階層要約データ数（同一のクラスに分類されるフレーム画像数）を示し、横軸が、クラス数を示している。この結果、同一のクラスに分類される第１階層要約データ数が少数（例えば、３乃至５個）のクラス数は非常に多く、同一のクラスに分類される第１階層要約データ数が多数（例えば、１６個以上）であると極端に少ないことがわかる。このことから、第１階層要約データ数の多いクラスについては、クラスを特定すれば、対応する動画像コンテンツも特定されることがわかる。従って、動画像コンテンツを検索するときには、クラスを特定し、特定したクラスに属する第１階層要約データとの比較をすることで、検索処理負荷を低減し、検索速度を向上させることが可能になることがわかる。また、図９で示されるような、クラスの分布をそのまま用いて、データマイニングすることも可能となり、例えば、毎日同一の番組を動画像コンテンツとして蓄積するような場合、月間の利用が多かったシーンを統計的に分析することも可能である。

［検索抽出処理］
次に、図１０のフローチャートを参照して、検索抽出処理について説明する。

ステップＳ１４１において、画像取得部２１は、検索しようとする動画像コンテンツのサンプルデータを構成する動画像コンテンツを取得し、バッファ２２に格納する。

ステップＳ１４２において、検索抽出部２５は、バッファ２２に格納されているサンプルデータの動画像より代表画像となるフレームの画像を抽出する。そして、検索抽出部２５は、アクティビティ計算部１５１を制御して、検索しようとする動画像コンテンツの代表画像となるフレームにおけるアクティビティ画像を計算させる。

ステップＳ１４３において、検索抽出部２５は、画像スライド部１５２を制御して、求められたアクティビティ画像のうち、アクティビティが最も高い画素の位置を、代表画像となるフレームの画像における中心位置に移動させる。

ステップＳ１４４において、第１階層要約データ検索部１５３は、画像分割部１７１を制御して、中心位置がスライドされた代表画像となるフレームを、N個の分割領域Ｐ（ｎ）に分割する。

ステップＳ１４５において、第１階層要約データ検索部１５３は、分割領域Ｐ（ｎ）をカウントするためのカウンタｎを１に初期化する。

ステップＳ１４６において、第１階層要約データ検索部１５３は、ＲＧＢ画素値平均値計算部１７２を制御して、分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値をそれぞれ求める。

ステップＳ１４７において、第１階層要約データ検索部１５３は、カウンタｎが所定の分割数Ｎであるか否かを判定する。ステップＳ１４７において、カウンタｎが所定の分割数Ｎではない場合、ステップＳ１４８において、第１階層要約データ検索部１５３は、カウンタｎを１インクリメントして、処理は、ステップＳ１４６に戻る。すなわち、全ての分割領域Ｐ（ｎ）のＲＧＢの各画素について、画素値の平均値がそれぞれ求められる。

そして、ステップＳ１４７において、カウンタｎが分割数Ｎに達した場合、処理は、ステップＳ１４９に進む。

ステップＳ１４９において、第１階層要約データ検索部１５３は、分割領域Ｐ（１）乃至Ｐ（Ｎ）のそれぞれのＲＧＢの平均値を要素とするベクトルからなり、１００バイト程度のデータ量の、検索しようとする動画像コンテンツのサンプルデータの代表画像の第１階層要約データＣ１ｔを記憶し、処理は、ステップＳ１５０に進む。

ステップＳ１５０において、クラス検索部１５５は、第１階層要約データDB１０１に登録されている第１階層要約データのうち、クラスに分類されているものを抽出する。さらに、クラス検索部１５５は、重心計算部１９１を制御して、同一クラスに分類されている第１階層要約データからなるベクトルの重心ベクトルを計算させる。

ステップＳ１５１において、クラス検索部１５５は、クラスを識別するカウンタｍを１に初期化する。

ステップＳ１５２において、クラス検索部１５５は、比較部１９２を制御して、代表画像のフレームの第１階層要約データＣ１ｔのベクトルと、クラスｍの重心ベクトルとを比較し、一致（または類似）するか否かを判定する。このとき、例えば、３ビットで０乃至７の数値を用いて表現した（３，４，０，４）および（２，４，１，４）は、例えば、２ビットで０乃至３の数値を用いて表現した（１，２，０，２）および（１，２，０，２）に写像される。このため、このようなビット変換により一致する場合については、一致する、または類似するものと判定するようにしてもよい。また、例えば３ビットで、（３，２，３，０）および（４，２，４，０）の２つのベクトルの場合、そのまま２ビットにすると、（１，１，１，０）および（２，１，２，０）となり、一致しないが、量子化ステップの半分、すなわち１を加算すると、（４，３，４，１）および（５，３，５，１）となる。そこで、これを２ビットにすると（２，１，２，０）および（２，１，２，０）となって、一致させることができる。すなわち、量子化を行う際、予め量子化ステップの半分の値を加算しておき、その後、２ビットに変換することで一致するような場合も、一致する、または類似するものとみなすようにしてもよい。このようにすることで、数値上の比較は完全一致とすることで、極端に検索対象が狭くなることによる、不一致の可能性を低減させることが可能となる。

ステップＳ１５２において、第１階層要約データＣ１ｔのベクトルと、クラスｍの重心ベクトルとが一致する場合、ステップＳ１５３において、クラス検索部１５５は、クラスｍを登録する。また、ステップＳ１５２において、第１階層要約データＣ１ｔのベクトルと、クラスｍの重心ベクトルとが一致しない場合、ステップＳ１５３の処理は、スキップされる。

ステップＳ１５４において、クラス検索部１５５は、カウンタｍがクラス数Ｍに達したか否かを判定し、クラス数Ｍに達していない場合、ステップＳ１５５において、カウンタｍを１インクリメントして、処理は、ステップＳ１５２に進む。

そして、全てのクラスｍの重心ベクトルとの比較がなされると、ステップＳ１５４において、カウンタｍがクラス数Ｍに達したものとみなされ、処理は、ステップＳ１５６に進む。

ステップＳ１５６において、第１階層要約データ検索部１５３は、上述したステップＳ１５３の処理により登録された、クラスｍの集合を処理対象のクラスｘとする。尚、クラスｘは複数のクラスｍとするようにしてもよい。

ステップＳ１５７において、第１階層要約データ検索部１５３は、クラスｘに属する第１階層要約データＣ１（ｓ）を識別するカウンタｓを１に初期化する。

ステップＳ１５８において、第１階層要約データ検索部１５３は、比較部１７３を制御して、代表画像のフレームの第１階層要約データＣ１ｔのベクトルと、クラスｘに属する第１階層要約データＣ１（ｓ）のベクトルとが一致するか否かを比較し、一致するか否かを判定する。尚、ベクトル間の一致については、ステップＳ１５２における処理で説明したように、ビット数変換や、量子化ステップ幅の半分を加算した上でビット数を変化させるといった処理により一致しても、一致したものとして扱うものとする。

ステップＳ１５８において、第１階層要約データＣ１ｔのベクトルと、クラスｘに属する第１階層要約データＣ１（ｓ）のベクトルとが一致する場合、ステップＳ１５９において、第１階層要約データ検索部１５３は、クラスｘに属する第１階層要約データＣ１（ｓ）のベクトルを登録する。また、ステップＳ１５８において、第１階層要約データＣ１ｔのベクトルと、クラスｘに属する第１階層要約データＣ１（ｓ）のベクトルとが一致しない場合、ステップＳ１５９の処理は、スキップされる。

ステップＳ１６０において、第１階層要約データ検索部１５３は、カウンタｓがクラスｘに属する第１階層要約データＣ１（ｓ）の総数Ｓに達したか否かを判定し、総数Ｓに達していない場合、ステップＳ１６１において、カウンタｓを１インクリメントして、処理は、ステップＳ１５８に戻る。

そして、全てのクラスｘに属する第１階層要約データＣ１（ｓ）のベクトルとの比較がなされると、ステップＳ１６０において、カウンタｓが総数Ｓに達したものとみなされ、処理は、ステップＳ１６２に進む。

ステップＳ１６２において、クラスｘに属する第１階層要約データＣ１（ｓ）のベクトルのうち、検索しようとする動画像コンテンツのサンプルデータより抽出された第１階層要約データＣ１ｔのベクトルと一致した第１階層要約データＣ１の動画像コンテンツに対応するコンテンツデータペア１０２を読み出す。

ステップＳ１６３において、第２階層要約データ検索抽出部１５４は、画像分割部１８１、および、ＲＧＢ画素値平均値計算部１８２を、第２階層要約データ生成部４４が画像分割部７１、およびＲＧＢ画素値平均値計算部７２を制御するのと同様に制御して、第２階層要約データ生成処理を実行して、検索しようとする動画像コンテンツのサンプルデータの第２階層要約データファイル１１２を生成する。尚、第２階層要約データ生成処理については、図６のフローチャートを参照して説明した処理と同様であるので、その説明は省略する。

ステップＳ１６４において、第２階層要約データ検索抽出部１５４は、スライドマッチング検索部１８３を制御して、検索しようとする動画像コンテンツのサンプルデータの第２階層要約データファイル１１２と、ステップＳ１６２の処理により読み出されたコンテンツデータペア１０２に含まれる第２階層要約データファイル１１２とをスライドさせながら、フレーム間の第２階層要約データ間の差分絶対値和からなる類似度を求める。

そして、ステップＳ１６５において、第２階層要約データ検索抽出部１５４は、類似度に基づいて、検索しようとする動画像コンテンツと、動画像コンテンツにおけるサンプルデータの再生位置を特定する。より詳細には、第２階層要約データ検索抽出部１５４は、ずらしたフレーム数に対応して得られる類似度のうち、最小となるものが、所定の閾値よりも小さい場合、サンプルデータの動画像コンテンツと、ステップＳ１６２において読み出されたコンテンツデータペア１０２の動画像コンテンツとが一致するものとみなし、検索しようとする動画像コンテンツとして特定する。このとき、類似度が最小となるスライド位置が、検索しようとする動画像コンテンツにおける、サンプルデータの再生位置であることも特定されることになる。

すなわち、スライドマッチング検索部１８３は、図１１の最上段で示されるサンプルデータの第２階層要約データファイル１１２Ａと、２段目に示されるステップＳ１６２の処理で読み出された第２階層要約データファイル１１２Ｂとの対応する第２階層要約データ間の差分絶対値和を類似度として求める。尚、図１１においては、サンプルデータの第２階層要約データファイル１１２Ａは、フレームＦ２０１乃至Ｆ２０３より構成され、それぞれの第２階層要約データは、１次元のベクトルとして表現されており、フレーム順に１０，１１，７と表記されている。また、第２階層要約データファイル１１２Ｂは、フレームＦ１１１乃至Ｆ１１５より構成され、それぞれ第２階層要約データは、１次元のベクトルとして表現されており、フレーム順に８，１０，１１，７，６と表記されている。

最初の処理では、最上段の第２階層要約データファイル１１２Ａと中段の第２階層要約データファイル１１２Ｂとが対応するフレーム順にその差分絶対値和が類似度として求められる。この場合、類似度は、７（＝｜１０−８｜＋｜１１−１０｜＋｜７−１１｜）として求められる。次の処理では、第２階層要約データファイル１１２Ａが、図１１の下段で示されるように、図中右方向に１フレーム分スライドされることにより、類似度は、０（＝｜１０−１０｜＋｜１１−１１｜＋｜７−７｜）となる。すなわち、この場合、第２階層要約データファイル１１２Ｂの動画像コンテンツが、第２階層要約データファイル１１２Ａが求められた動画像より検索しようとしていた動画像コンテンツであることが特定される。また、この際、検索しようとした動画像コンテンツと一致するタイミングが、第２階層要約データファイル１１２ＢにおけるフレームＦ１１２乃至Ｆ１１３であることが特定されるため、一致する動画像の再生位置を特定することができる。尚、図１１の例においては、類似度が０となる場合に第２階層要約データファイルが一致したものとしているが、所定の閾値よりも小さい値となれば、一致するものと特定するようにしてもよい。

例えば、図１２で示されるように、異なる動画像コンテンツによるフレーム毎の第２階層要約データの値の変化が類似している、または一致しているもの同士は同一の動画像コンテンツであるものとみなすことができる。

尚、図１２においては、ｓｌｏｔ０乃至９は動画像コンテンツを識別する識別子であり、横軸がフレーム番号を、縦軸が各フレームにおける１次元のベクトル要素からなる第２階層要約データの変化を示している。また、ｓｌｏｔ０乃至９は、スライドマッチングにより類似度が最小（最も類似している状態）となるようにフレームのスライド位置の調整が済んだ波形である。

すなわち、図１２においては、例えば、ｓｌｏｔ１で示される波形が、サンプルデータの動画像コンテンツより求められた第２階層要約データファイルのものであるとすれば、ｓｌｏｔ２，３の動画像コンテンツの第２階層要約データファイルの波形と、十分に類似しているということが言える。この結果、ｓｌｏｔ１の動画像コンテンツは、ｓｌｏｔ２，３の動画像コンテンツと一致しているとみなすことができ、検索しようとしていた動画像コンテンツが、ｓｌｏｔ２，３の波形で示されるものであったということができる。

ステップＳ１６６において、検索結果表示画像生成部１５６は、類似度が所定の値より低い第２階層要約データファイル１１２と同一のコンテンツデータペア１０２の動画像コンテンツファイル１１１を読み出し、再生位置と共に検索結果として表示部２７に表示する。

以上の処理により、サンプルデータの動画像コンテンツを入力するだけで、容易で、かつ、迅速に目的とする記憶部２４に登録された動画像コンテンツを検索することが可能となる。

また、第１階層要約データ、および第２階層要約データといった階層化された要約データを用いることにより、上位階層の時系列の情報を持たない特徴量である第１階層要約データによる絞込みを行った後に、下位階層となる時系列の情報を持った第２階層要約データファイルによる検索を行うようにしたので、検索負荷を低減し、検索速度の高速化を実現することが可能となる。

さらに、第１階層要約データは、データベースとして管理することにより、検索を容易で高速なものとすることが可能となる。また、第１階層要約データは、クラスタリング処理されてクラス単位で管理されているため、クラス毎の重心ベクトルを利用することにより、第１階層要約データを絞り込むことができ、絞り込んだ第１階層要約データのみを詳細に比較するだけでよくなるので、第１階層要約データのみの検索処理を高速に実現することが可能となる

［圧縮処理］
以上においてはサンプルデータである１部の動画像コンテンツを入力するだけで、容易で、かつ、迅速に目的とする動画像コンテンツを検索される例について説明してきたが、同一のシーンを含んだ、個別に異なる動画像コンテンツが大量に検索されてしまう場合がある。この場合、重複するシーンを含む動画像コンテンツが大量に記憶部２４に蓄積されていることとなる。そこで、重複しているシーンについては削除した上で、必要なシーンだけ繋ぎ合わせて必要最小限の動画像コンテンツファイルとすることで、動画像コンテンツファイルを圧縮し、記憶部２４の記憶容量を節約するようにしてもよい。

ここで、図１３を参照して、上述した圧縮処理について説明する。

ステップＳ１８１において、検索抽出部２５は、検索抽出処理を実行して、サンプルデータとなる１部の動画像コンテンツに基づいて、同一、または類似する動画像コンテンツを検索して、再生位置と共に特定する。尚、検索抽出処理については、図１０のフローチャートを参照して、説明した処理と同様であるので、その説明は省略するものとする。

ステップＳ１８２において、コンテンツファイル圧縮部２６は、同一部分検索部２１１を制御して、検索された複数の動画像コンテンツファイルより、同一部分を検索させる。すなわち、図１１を参照して説明したようにフレーム単位でスライドマッチングにより第２階層要約データファイル１１２が比較されることにより、サンプルデータの動画像コンテンツのどのフレームと、同一、または類似していると見なされた動画像コンテンツのどのフレームとが一致するかについては検索されることになる。

この結果、複数の動画像コンテンツが検索された場合、サンプルの動画像コンテンツの一致部分を揃える事で、検索結果となる複数の動画像コンテンツ間のフレーム間の対応は認識することができる。そこで、同一部分検索部２１１は、動画像コンテンツファイルの一致するフレームを揃えて比較し、同一部分を検索する。例えば、図１４の上段で示される動画像コンテンツファイルＣｏｎｔ１の第２階層要約データファイル１１２と、図１４の２段目で示される動画像コンテンツファイルＣｏｎｔ２の第２階層要約データファイル１１２とは、いずれもフレームＦ１の位置で揃えられている。尚、図１４においては、帯状で示される範囲のうち、動画像コンテンツＣｏｎｔ１の第２階層要約データファイル１１２が、右上がりの斜線部で示されたフレームＦｓ１乃至Ｆｅ１の範囲であり、動画像コンテンツＣｏｎｔ２の第２階層要約データファイル１１２が、左上がりの斜線部で示されたフレームＦｓ２乃至Ｆｅ２の範囲である。したがって、同一部分検索部２１１は、動画コンテンツＣｏｎｔ１（または２）におけるフレームＦｓ１乃至フレームＦｅ２の範囲が同一部分であることを検索する。

ステップＳ１８３において、コンテンツファイル圧縮部２６は、不一致部分検索部２１２を制御して、検索された複数の動画像コンテンツファイルの第２階層要約データファイル１１２より、不一致部分を検索させる。すなわち、図１４の場合、動画像コンテンツＣｏｎｔ２におけるフレームＦｓ２乃至フレームＦｓ１の範囲、および動画像コンテンツＣｏｎｔ１におけるフレームＦｅ２乃至コンテンツフレームＦｅ１の範囲が不一致部分となる。

ステップＳ１８４において、コンテンツファイル圧縮部２６は、編集部２１３を制御して、同一部分、および不一致部分を編集させて繋ぎ合せる。すなわち、編集部２１３は、第２階層要約データファイル１１２に対応する動画コンテンツＣｏｎｔ１（または２）の動画像コンテンツファイル１１１におけるフレームＦｓ１乃至フレームＦｅ２、並びに、動画像コンテンツＣｏｎｔ２の動画像コンテンツファイル１１１におけるフレームＦｓ２乃至フレームＦｓ１の範囲、および動画像コンテンツＣｏｎｔ１の動画像コンテンツファイル１１１におけるフレームＦｅ２乃至コンテンツフレームＦｅ１の範囲を繋ぎ合せる。この場合、動画像コンテンツＣｏｎｔ２を基準にすると、図１４の３段目で示されるように、動画像コンテンツＣｏｎｔ１におけるフレームＦｅ２乃至コンテンツフレームＦｅ１の範囲を編集により繋ぎ合せるのみでよいので、格子状の範囲で示されるように繋ぎ合わせて、図１４の３段目で示されるような新たな動画像コンテンツを生成する。尚、図１４で示される各帯は、第２階層要約データファイル１１２の構成であり、編集部２１３は、第２階層要約データファイル１１２の構成に基づいて、動画像コンテンツファイル１１１を編集する。

ステップＳ１８５において、更新部２１４は、新たに生成した動画像コンテンツに対応するように、第１階層要約データDB１０１、並びに、動画像コンテンツファイル１１１、および第２階層要約データファイル１１２からなるコンテンツデータペア１０２を更新する。この際、更新部２１４は、不要となった動画像コンテンツＣｏｎｔ１，２のコンテンツデータペア１０２は削除する。

以上の処理により動画像コンテンツファイルを実質的に圧縮することが可能となり、動画像コンテンツにかかる記憶部２４の記憶容量を節約することが可能となる。また、このような圧縮処理により、検索対象となる動画像コンテンツそのものが減少することになるので、管理にかかるを負担を低減させると共に、サンプルデータによる動画像コンテンツの検索の負荷を低減し、検索速度を向上させることが可能となる。

尚、以上においては、第１階層要約データおよび第２階層要約データとして、画像を複数領域に分割し、分割領域毎のＲＧＢの画素値の平均値を用いる例について説明してきたが、フレーム単位の特徴量を生成できればよいのでこれ限るものではない。例えば、分割領域毎のＲＧＢの画素値の平均値に代えて、分割領域毎の輝度値の平均値、分割領域毎のアクティビティの値の平均値とするようにしてもよい。また、分割領域毎の輝度ヒストグラムを、データ化したものなどでもよく、例えば、輝度方向の分解能を３乃至５ビット程度としたものとし、例えば、４ビットの場合、１６次元のベクトルとするようにしてもよい。また、輝度値ではなくＲＧＢの画素値を用いたものでもよいし、ＲＧＢで表現される色立体を、各軸を、例えば、２乃至４ビットの分解能で分割し、それぞれに対して頻度を付したものとしてもよく、３ビットとして、８^３=５１２次元のベクトルとするようにしてもよい。さらに、画像のみならず、音声の情報に基づいてフレーム単位で第１階層要約データおよび第２階層要約データを生成するようにしてもよく、例えば、音声ボリューム、または所定の音声周波数帯域毎の振幅の平均値や、これらを画像の情報と組み合わせたものとしても良い。

また、画像に対して、色クラスタリング（ＲＧＢの３次元で表現される色の分布に対し、ベクトル量子化を試みる一般的な画像処理手法）を行い、最も頻繁に用いられている色を代表色として、そのＲＧＢの値を３次元ベクトルで表現したものとしてもよい。

さらに、画像を分割する際、画面下部、上部などにテロップが頻繁に表示される画像の場合、テロップが頻繁に登場する領域は、より大雑把に分割するといった工夫をすることによりテロップによる影響を緩和するようにしても良い。

また、以上においては、第１階層要約データについては、３０フレーム毎、またはシーンチェンジのタイミングにおけるフレームにおいて、求められるものとしてきたが、その他の周期的に求められるものとしたり、または、動画像コンテンツに変化がおきる非周期的なものであってもよい。従って、周期的なものとしては、例えば、その他のフレーム数間隔おきのフレームから第１階層要約データを求めるようにしてもよいし、非周期的なものとしては、音声の無音部分が終了するタイミングのフレームから第１階層要約データを求めるようにしてもよい。さらに、第２階層要約データについては、毎フレーム求める例について説明してきたが、第１階層要約データよりも頻度が低いフレーム数で求められれば良いものであるので、第１階層要約データよりも頻度が低いという条件を満たす限り、第１階層要約データのように、数フレーム間隔といった周期的なものでもよいし、シーンチェンジなどの所定の条件を満たすような非周期的なものであってもよい。

また、以上においては、第１階層要約データ、および第２階層要約データの抽出に当たっては、事前にアクティビティ画像を求めてアクティビティの高い位置を中心位置とするようにして、画像を正規化するようにする例について説明してきたが、例えば、画像の自己相関関数が所定量（例えば０．９倍）だけ変化する距離で正規化を行うことにより、スケーリングの自由度を許容して同一画像を検出することができるようにしてもよい。

さらに、ベクトルの比較により一致するか否かを判定する処理において、距離が所定の値以下におさまることを条件にするが、この所定の値を用途に応じて変化させてもよい。例えば、完全に一致する動画像コンテンツを検索したい場合、所定値を小さくするようにしてもよい。また、同じ画像でもテロップやカラーコレクションの有無などを許容し一致判定を行いたい場合には、所定値を大きくするようにしてもよい。

また、以上の検出抽出処理においては、第１階層要約データからなるベクトルを比較する際、ベクトルが一致するか否かに基づいて判定する例について説明してきたが、クラスタリング処理や初期クラスタリング処理において用いたように、ベクトル間の距離を求めて、所定の距離より小さく十分に相互が類似しているか否かに基づいて判定するようにしてもよい。逆に、クラスタリング処理や初期クラスタリング処理におけるベクトル間の距離を求めて所定の距離よりも小さく十分に類似しているか否かを判定する処理に代えて、検出抽出処理で用いたベクトルが一致するか否かに基づいて判定するようにしてもよい。

さらに、以上においては、第１階層要約データ、および第２階層要約データの２階層構造の要約データを用いる例について説明してきたが、さらに、多階層の要約データを構成するようにしても良く、さらに、各階層にクラスタリング処理を施し、クラス分類するようにしてもよい。

以上の如く、本発明によれば、膨大な量の動画像コンテンツを容易に管理することが可能になると共に、管理している膨大な量の動画像コンテンツの中から検索したい動画像コンテンツを容易に検索することが可能となる。

ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

図１５は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタ-フェイス１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

入出力インタ-フェイス１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブルメディア１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア１０１１から読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

尚、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理は、もちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理を含むものである。

１１画像処理装置，２１画像取得部，２２バッファ，２３コンテンツデータ登録部，２４記憶部，２５検索抽出部，２６コンテンツファイル圧縮部，２７表示部，４１アクティビティ計算部，４２画像スライド部，４３第１階層要約データ生成部，４４第２階層要約データ生成部，４５クラスタリング部，１５１アクティビティ計算部，１５２画像スライド部，１５３第１階層要約データ検索部，１５４第２階層要約データ検索抽出部，４５クラス検索部

Claims

動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、
前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、
前記距離計算手段により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、
前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、
入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、重心距離が最小となるクラスに登録するデータベース登録手段と、
前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、
前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、
前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、
前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段と
を含む画像処理装置。
前記第１階層要約データは、前記動画像コンテンツを構成する画像のうち、前記第１の頻度で抽出される画像が複数の分割領域に分割された、前記分割領域毎の画素値、輝度値、アクティビティ、音声ボリューム、および所定の音声周波数帯域の振幅の平均値のいずれか、または組み合わせから構成され、前記第１のサイズであり、
前記第２階層要約データは、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像が複数の分割領域に分割された、前記分割領域毎の画素値、輝度値、アクティビティ、音声ボリューム、または所定の音声周波数帯域の振幅の平均値の少なくともいずれかまた組み合わせから構成され、前記第１のサイズより小さな第２のサイズである
請求項１に記載の画像処理装置。
前記第１の頻度、および前記第２の頻度は、前記動画像コンテンツのうち、周期的、または非周期的に抽出される画像の頻度である
請求項１に記載の画像処理装置。
前記周期的とは、所定のフレーム数毎であり、前記非周期的とは、前記動画像コンテンツにおけるシーンチェンジにおけるタイミング毎、または音声データの無音部分から無音部分でなくなるタイミング毎である
請求項３に記載の画像処理装置。
動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、
前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、
前記距離計算手段により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、
前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、
入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、重心距離が最小となるクラスに登録するデータベース登録手段と、
前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、
前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、
前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、
前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段とを含む画像処理装置の画像処理方法であって、
前記距離計算手段における、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算ステップと、
前記クラス分類手段における、前記距離計算ステップの処理により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類ステップと、
前記重心ベクトル計算手段における、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算ステップと、
前記データベース登録手段における、前記入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算ステップの処理により計算される、前記重心距離が最小となるクラスに登録するデータベース登録ステップと、
前記第２階層要約データ生成手段における、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成ステップと、
前記格納手段における、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納ステップと、
前記第１の検索手段における、前記第１階層要約データ生成ステップの処理により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索ステップと、
前記第２の検索手段における、前記第１の検索ステップの処理により検索された動画像コンテンツのうち、前記第２階層要約データ生成ステップの処理により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索ステップと
を含む画像処理方法。
動画像コンテンツを構成する画像のうち、第１の頻度で抽出される画像より第１のサイズの第１階層要約データを登録するデータベースと、
前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算手段と、
前記距離計算手段により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類手段と、
前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算手段と、
入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算手段により計算される、重心距離が最小となるクラスに登録するデータベース登録手段と、
前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成手段と、
前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納手段と、
前記第１階層要約データ生成手段により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索手段と、
前記第１の検索手段により検索された動画像コンテンツのうち、前記第２階層要約データ生成手段により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索手段とを含む画像処理装置を制御するコンピュータに、
前記距離計算手段における、前記データベースに登録されている前記第１階層要約データの構成要素からなるベクトル間の距離に基づいて、前記第１階層要約データ間の距離を計算する距離計算ステップと、
前記クラス分類手段における、前記距離計算ステップの処理により求められた前記第１階層要約データ間の距離が所定の距離内の前記第１階層要約データを同一のクラスに分類し、前記第１階層要約データが分類されたクラスに基づいて、動画像コンテンツを複数のクラスに分類するクラス分類ステップと、
前記重心ベクトル計算手段における、前記クラス毎に前記第１階層要約データの構成要素からなるベクトルの重心ベクトルを計算する重心ベクトル計算ステップと、
前記データベース登録手段における、前記入力された動画像コンテンツの前記第１階層要約データを、前記第１階層要約データの構成要素からなるベクトルと、前記データベースの前記重心ベクトルとの間の距離として前記距離計算ステップの処理により計算される、前記重心距離が最小となるクラスに登録するデータベース登録ステップと、
前記第２階層要約データ生成手段における、前記動画像コンテンツを構成する画像のうち、前記第１の頻度よりも高い第２の頻度で抽出される画像より、前記第１のサイズよりも小さな第２のサイズの第２階層要約データを生成する第２階層要約データ生成ステップと、
前記格納手段における、前記動画像コンテンツと対応して、前記第２階層要約データを格納する格納ステップと、
前記第１の検索手段における、前記第１階層要約データ生成ステップの処理により生成された前記第１階層要約データに基づいて、前記データベースのうち、前記重心距離が所定の距離よりも近いクラスの、対応する動画像コンテンツを検索する第１の検索ステップと、
前記第２の検索手段における、前記第１の検索ステップの処理により検索された動画像コンテンツのうち、前記第２階層要約データ生成ステップの処理により生成された前記第２階層要約データに基づいて、対応する動画像コンテンツを検索する第２の検索ステップとを含む処理を実行させる
プログラム。