JP2007306559A

JP2007306559A - 画像特徴符号化方法及び画像検索方法

Info

Publication number: JP2007306559A
Application number: JP2007121649A
Authority: JP
Inventors: Shunichi Sekiguchi; 俊一関口; Etsuhisa Yamada; 悦久山田; Chao James; チャオジェームズ; Kotaro Asai; 光太郎浅井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-05-02
Filing date: 2007-05-02
Publication date: 2007-11-22

Abstract

【課題】多くのユーザが、様々な検索ツールを用いて画像を検索することができる画像特徴符号化方法及び画像検索方法を提供する。
【解決手段】キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、キーフレームと時系列で離間した画像フレーム内におけるキーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、矩形セグメントの特徴が記述される階層に符号化する符号化工程を備える。
【選択図】図５

Description

この発明は、アナログ又はデジタルで記録された映像、静止画などの画像データの特徴量を抽出・符号化し、符号化された特徴量を利用して画像データの検索を行う画像特徴符号化方法及び画像検索方法に関するものである。

図１は、非特許文献１に記載された従来の画像検索処理システムを説明するブロック図である。図において、９１は、静止画像２０１を各セグメントに領域分割し、分割された各セグメントに対してキーワードを付与し、概念キーワード２０３とシーン記述キーワード２０４を出力する前処理部であり、９２は、ユーザ９７があらかじめ用意されているキーワード２０５を入力し、概念キーワード２０３とシーン記述キーワード２０４と照合して、静止画像２０１を検索する検索ツールである。

ここで、概念キーワード２０３は、各セグメントの色情報及び特徴量を示すキーワードであり、シーン記述キーワード２０４は、各セグメントの画像特徴量を、「位置」、「色」、「形状」、「大きさ」、「向き」等に関する述語を用いて表現したキーワードである。

図１の前処理部９１において、９３は静止画像２０１を各セグメントに領域分割する領域分割部、９４は、色情報に対してあらかじめ割り当てられている概念キーワードを用いて、領域分割部９３により分割された各セグメントの色及び特徴量から、概念キーワード２０３を抽出する概念キーワード抽出部、９５は、領域分割部９３により分割された各セグメントの画像特徴量について、ユーザ９６があらかじめ定義されている述語から選択して記述する述語記述２０２を入力することにより、シーン記述キーワード２０４を記述するシーン記述キーワード記述部である。

図１の検索ツール９２において、９８は、ユーザ９７が選択したキーワード２０５と、前処理部９１からの概念キーワード２０３、シーン記述キーワード２０４から特徴量の同定を行う特徴同定部である。

次に動作について説明する。
静止画像２０１が前処理部９１に入力されると、領域分割部９３は静止画像２０１を各セグメントに領域分割する。概念キーワード抽出部９４は、色情報に対してあらかじめ割り当てられている概念キーワードを用いて、分割された各セグメントの色及び特徴量から、概念キーワード２０３を抽出する。また、シーン記述キーワード記述部９５は、分割された各セグメントの画像特徴量について、ユーザ９６からの述語記述２０２により、シーン記述キーワード２０４を記述する。

ユーザ９７は、静止画像２０１を検索するにあたり、あらかじめ用意されている概念キーワード２０３やシーン記述キーワード２０４の中から選択したキーワード２０５を検索ツール９２に入力する。特徴同定部９８は、ユーザ９７からのキーワード２０５と、前処理部９１からの概念キーワード２０３、シーン記述キーワード２０４から、特徴量の同定を行い、ユーザ９７が求める静止画像２０１を検索する。

電子情報通信学会論文誌Ｄ−ＩＩ，１９９６年４月号（Ｖｏｌ．７９−Ｄ−ＩＩ，Ｎｏ．４，ｐｐ．４７６−４８３）

上記の画像検索処理システムは、静止画像２０１のみを対象としているために、動画像を検索することが困難であるという課題があった。

また、各キーワードの記述方法・記憶方法などについて考慮されていないため、画像サーバとクライアント（検索ツール９２）とは、１対１に対応している必要があり、ネットワークを介して、多くのユーザが様々な検索ツールを用いて、画像の検索を行う画像検索処理システムを構築することができないという課題があった。

この発明は上記のような課題を解決するためになされたもので、多くのユーザが、様々な検索ツールを用いて画像を検索することができる画像特徴符号化方法及び画像検索方法を得ることを目的とする。

この発明に係る画像特徴符号化方法は、画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及びキーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、キーフレームと時系列で離間した画像フレーム内におけるキーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えるものである。

この発明によれば、検索効率を向上可能な特徴ストリームを生成できるという効果を奏する。

実施の形態１．
この実施の形態１では、ビデオシーケンス中に含まれる被写体に着目し、各フレームに含まれる被写体領域を囲む矩形領域をセグメントと定義し、ビデオ信号の各フレーム中からセグメントを抽出して、その特徴量を求めて特徴ストリームを生成する処理を行う装置について説明する。

まず、前提として同装置を使用するシステムについて説明する。図２は、この発明が利用される典型的なシステム構成を示すブロック図である。図において、１はクライアント、２はサーバ、３はビデオコンテンツ１１１を記憶しているビデオコンテンツ記憶部、４は、ビデオコンテンツ記憶部３に記憶されているビデオコンテンツ１１１の中から、デジタル圧縮されたビットストリーム１０１を復号し、ビデオ信号１０２を出力する復号処理部である。

また、図２において、５は、復号処理部４により復号されたビデオ信号１０２を入力し、特徴ストリーム１０３を生成する特徴符号化部、６は、ユーザ指示・設定１０４により、特徴符号化部５を制御するユーザＩ／Ｆ、７は特徴符号化部５により生成された特徴ストリーム１０３を記憶する特徴ストリーム記憶部である。ビデオコンテンツ記憶部３と特徴ストリーム記憶部７は、サーバ２内に別々に設置されているが、同一の記憶部に記憶されていても良い。

クライアント１において、８は、ユーザ指示・設定１０５により、クライアント１の制御のために、検索制御信号１０６を出力するユーザＩ／Ｆ、９は、検索制御信号１０６を入力して、検索指示１０７と検索キー１０８を出力する検索処理部である。

さらに、図２において、１０は、検索処理部９からの検索指示１０７により、特徴ストリーム記憶部７に記憶されている特徴ストリーム１０３を復号し、復号特徴量１０９を出力する特徴復号部、１１は、検索処理部９からの検索キー１０８と、特徴復号部１０からの復号特徴量１０９を入力してマッチング処理を行い、特徴ストリーム番号を示すポインタ１１０を出力する特徴同定部である。１１１は、特徴同定部１１が出力したポインタ１１０により、ビデオコンテンツ記憶部３から出力されたビデオコンテンツである。

次に動作について説明する。
図２に示されるシステムは、ビデオコンテンツ記憶部３に保持される各々のビデオコンテンツ１１１に対応づけられた特徴ストリーム１０３に基づいて、ユーザが所望のビデオコンテンツ１１１を検索・ブラウズ（拾い読み）するシステムである。ここでは便宜上、サーバ・クライアントモデルを用い、検索システムをクライアント１、コンテンツ記憶・送出システムをサーバ２とみなして説明する。

クライアント１とサーバ２は、ネットワークを介して動作してもよいし、同一装置内で動作してもよい。図２では、ネットワーク経由の動作は便宜上図示していないが、以下でネットワーク処理に必要な動作は適宜説明する。

（１）特徴ストリームの意義
図３はビデオコンテンツ１１１と特徴ストリーム１０３の対応を説明する図である。図において、ＶＣはビデオコンテンツ（ＶｉｄｅｏＣｏｎｔｅｎｔ）１１１を示し、ＦＳは特徴ストリーム（ＦｅａｔｕｒｅＳｔｒｅａｍ）１０３を示している。ＶＣ及びＦＳそれぞれに、対応する番号を付しており、ＦＳｎは、ビデオコンテンツＶＣｎの特徴量を記述した特徴ストリームである。ＶＣｎとＦＳｎは、各ポインタ１１０により対応づけられている。

図３に示すように、ＶＣ１の第ｋフレームに「青い空」が含まれているとすれば、ＦＳ１はＶＣ１の第ｋフレームに「代表色が青で、かつフレーム画面中の８０％を占める領域」が存在することを記述する。このように、特徴量を属性として持つ領域を以下ではセグメントと呼ぶ。これにより、図２におけるクライアント１から「代表色が青で、かつフレーム画面中の８０％を占めるセグメント」という指定を行うことで、特徴ストリーム１０３から対応する特徴量を探し出し、対応するフレーム画面を含むビデオコンテンツ１１１を引き出すことを可能とする。

特徴量としては、代表色、サイズ、画面内位置、形状、位置の変化（動き）、明るさ・色の変化、コントラストなど様々な属性を定義することができる。もちろん、特徴量の指定方法は任意であり、クライアント１の検索処理部９に適当な解析機能を設けることで、ユーザは、より直感的な指定を行うようにすることもできる。

このように、ビデオコンテンツ（ＶＣｎ）１１１中の特徴量を、特徴ストリーム（ＦＳｎ）１０３に記述しておくことにより、ユーザは大量のビデオコンテンツ１１１のデータの中から、直感的な検索キー１０８を用いて、所望のコンテンツ１１１を探し出すことが容易になる。このような検索方法は、極めて膨大な数のビデオコンテンツ１１１を含むビデオライブラリ・データベース、ビデオテープなどから、所望のコンテンツ１１１を探し出す処理を効率化することができる。

（２）特徴ストリームの生成
特徴ストリーム１０３の生成処理は、ビデオコンテンツ（ＶＣｎ）１１１に対応する特徴ストリーム（ＦＳｎ）１０３を生成し、特徴ストリーム記憶部７に格納する処理に相当する。この処理を行うのは、復号処理部４，特徴符号化部５，ユーザＩ／Ｆ６である。復号処理部４は、ビデオコンテンツ（ＶＣｎ）１１１がデジタル圧縮されたビットストリーム１０１の形式で記憶されている場合にのみ必要で、ビデオ信号１０２を出力する。ビデオコンテンツ（ＶＣｎ）１１１が直接表示可能な画像データである場合には、復号処理部４は不要である。

特徴符号化部５は、ビデオ信号１０２に基づいて、特徴ストリーム（ＦＳｎ）１０３を生成し、特徴ストリーム記憶部７に格納する。特徴ストリーム１０３の生成処理の詳細は後述する。

（３）検索処理
検索処理はクライアント１によって行われる。クライアント１は、ユーザが、ビデオコンテンツ記憶部３に記憶されているビデオコンテンツ１１１の中から、所望のコンテンツ１１１を検索するための処理部である。ユーザは、ユーザ指示・設定１０５により、クライアント１のユーザＩ／Ｆ８を介して、特徴ストリーム１０３として符号化されている特徴量に対応する値を求めるために、検索制御信号１０６を検索処理部９に与える。

図３を例にとり、「青い空」が含まれるビデオコンテンツ（ＶＣ１）１１１を、すべてのビデオコンテンツ（ＶＣｎ）１１１の中から検索する例を簡単に説明する。この検索処理は、すべての特徴ストリーム（ＦＳｎ）１０３に対して、「青い空」を示す特徴量をサーチし、それを含む特徴ストリーム（ＦＳｎ）１０３に対応するビデオコンテンツ（ＶＣｎ）１１１を特定する処理である。検索処理部９は、検索制御信号１０６から検索すべき特徴量の値を求めて、検索キー１０８として送出すると同時に、検索指示１０７をアクティブにする。

もし、クライアント１とサーバ２がネットワーク接続されているとすれば、検索指示１０７と検索キー１０８は、ネットワークを通じて、サーバ２及び特徴量同定処理を行う装置（特徴復号部１０と特徴同定部１１）に伝送される。

検索指示１０７がアクティブになると、特徴復号部１０は特徴ストリーム記憶部７から順次特徴ストリーム（ＦＳｎ）１０３を取り出し、特徴ストリーム１０３から特徴量の値を復号する。その結果、得られた復号特徴量１０９は、特徴同定部１１において、検索キー１０８とマッチング処理される。ここで、検索キー１０８と一致する復号特徴量１０９が見つかった場合は、対応する特徴量を含む特徴ストリーム１０３のポインタ１１０から、ビデオコンテンツ（ＶＣｎ）１１１を特定する。図３の例では、「青い空」を含むのがＶＣ１のみなので、ＦＳ１における第ｋフレーム目のセグメントの中に、検索キー１０８に一致する復号特徴量１０９が見つかり、ＶＣ１の第ｋフレームが検索結果として出力される。

ここで、特徴量同定処理を行う装置（特徴復号部１０と特徴同定部１１）は、クライアント１に含まれていてもよいし、サーバ２に含まれていてもよいし、ネットワーク中に存在する別の装置に含まれていてもよい。もちろん、クライアント１とサーバ２とが同一装置になっている場合は、同一装置内に含まれる。

検索結果として出力されたビデオコンテンツ１１１は、クライアント１に送られ、ユーザはユーザＩ／Ｆ８により、その画像の内容をブラウズできる。また、「青い空」を示す特徴量によって、検索結果として複数のビデオコンテンツ１１１が見つかった場合でも、ユーザＩ／Ｆ８に表示することで、複数のビデオコンテンツ１１１をブラウズするようにすることもできる。このようなシステムによって、ユーザは直接ビデオコンテンツ１１１の中身をすべてブラウズすることなく、所望のセグメントを含むビデオコンテンツ１１１だけに絞り込んで内容を確認することができ、検索の効率が向上する。

（４）インタラクティブ機能
同システムにおいては、特徴符号化部５がビデオ信号１０２から特徴ストリーム１０３を生成する際に、ユーザ指示・設定１０４により、ユーザＩ／Ｆ６を介して、ビデオコンテンツ（ＶＣｎ）１１１に含まれるセグメントを定義するための各種の条件設定や、セグメントの追加・削除、あるいはセグメントを定義するフレーム位置設定など、ユーザが任意に特徴ストリーム１０３の生成処理を制御できる。

（５）特徴ストリームの伝送・配信
特徴ストリーム（ＦＳｎ）１０３は、対応するビデオコンテンツ（ＶＣｎ）１１１へのポインタ１１２を持つ限り、ビデオコンテンツ１１１と共に、サーバ２に格納しておく必要はなく、どこに存在していてもよい。例えば、特徴ストリーム１０３だけが含まれるＣＤ−ＲＯＭがあり、クライアント１において、当該ＣＤ−ＲＯＭを読むことにより、特徴ストリーム１０３に対応するビデオコンテンツ１１１の場所を特定することもできる。この場合、例えば特徴ストリーム１０３がビデオコンテンツのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）などを保持していればよい。

また、一般に、特徴ストリーム１０３は、ビデオコンテンツ１１１のデータ量に比べて小さいので、より小さな蓄積メディアに格納して、ノート型ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）などの携帯端末で利用するということも可能である。

さらに、特徴ストリーム１０３は、ビデオコンテンツ１１１に付加して、ネットワークを介して伝送・配信することもできる。上記（４）で述べたインタラクティブ機能により、特徴ストリーム１０３を受信した側で、再度特徴ストリーム１０３の内容を加工・編集して、再利用・再配信もできるので、あらゆるメディア間で検索の自由度を失うことなく、ビデオコンテンツ１１１を自由に流通することができる。

次に、特徴ストリーム１０３の生成処理について詳しく説明する。
特徴ストリーム１０３の生成処理は、上述したように、主に特徴符号化部５において行われる。図４は実施の形態１による特徴符号化部５の内部構成を示すブロック図である。図において、２１は、ビデオ信号１０２を入力して、キーフレーム設定指示１２１に基づきキーフレームを決定し、キーフレーム番号１２２とキーフレーム画像１２３を出力するキーフレーム決定部、２２は、キーフレーム決定部２１からのビデオ信号１０２をモニタするモニタ部である。

また、図４において、２３は、キーフレーム決定部２１が決定したキーフレーム画像１２３からセグメントを抽出し、セグメントの代表色１２５，セグメント番号１２６を出力すると共に、例えばビデオコンテンツ１１１の復号時に出力されるキーフレームサイズ１２４により、セグメントのサイズ情報１２７を出力するセグメント抽出部である。

さらに、図４において、２４は、セグメント抽出部２３からのセグメントの代表色１２５を、カラーマップテーブル１２８を用いて符号化し、符号化されたセグメントの代表色１２９を出力すると共に、セグメント番号１２６，セグメントのサイズ情報１２７を符号化し、符号化されたセグメント番号１３０，符号化されたセグメントのサイズ情報１３１を出力するセグメント符号化部である。

さらに、図４において、２５は、キーフレーム画像１２３より、縮小画像を生成し、縮小画像データ１３２を出力する縮小画像生成部、２６は、縮小画像データ１３２を符号化し、符号化された縮小画像データ１３３を出力する縮小画像符号化部である。

さらに、図４において、２７は、カラーマップテーブル１２８，符号化されたセグメントの代表色１２９，符号化されたセグメント番号１３０，符号化されたセグメントのサイズ情報１３１，符号化された縮小画像データ１３３を多重化する多重化部である。

次に特徴符号化部５の動作について説明する。
図５は実施の形態１による特徴符号化部５の動作を示すフローチャートである。
（Ａ）キーフレームの決定
まず、キーフレーム決定部２１において、ビデオコンテンツ１１１中のキーとなるフレーム画像であるキーフレームを決定する（ステップＳＴ１）。キーフレームは、ビデオコンテンツ１１１中の意味内容の変化点（シーンチェンジ）となるフレームや、ユーザが特に検索時の特徴点としたいフレームと定義する。

図６は図４におけるキーフレーム決定部２１の内部構成を示すブロック図である。図６において、３１は、ビデオ信号１０２のフレーム番号をカウントするフレームカウンタ、３２は、キーフレーム設定指示１２１により、キーフレーム番号１２２を出力するスイッチ、３３は、キーフレーム設定指示１２１により、キーフレーム画像１２３を出力するスイッチである。図６では、ユーザがビデオ信号１０２をモニタ部２２によりモニタリングしながら、所望のフレームをキーフレームとして指定する。

ビデオ信号１０２は、１フレームごとにキーフレーム決定部２１に入力され、フレームカウンタ３１により、フレーム番号がカウントされる。フレームカウンタ３１は、ビデオ信号１０２の最初の入力時点でゼロにリセットされる。

また、ビデオ信号１０２は同時にモニタ部２２に送られ、ユーザはモニタ部２２に表示されるビデオ信号１０２を見ながら、キーフレームとすべきフレームを選択する。選択指示は、キーフレーム設定指示１２１をアクティブにすることで行う。キーフレーム設定指示１２１がアクティブになると、スイッチ３２は選択したキーフレームのフレーム番号をキーフレーム番号１２２として出力し、スイッチ３３は選択したキーフレームのキーフレーム画像１２３を出力する。

図７は図４におけるキーフレーム決定部２１の他の内部構成を示すブロック図である。図７において、４１はビデオ信号１０２からシーンチェンジを検出し、キーフレーム画像１２３とキーフレーム設定指示１４１を出力するシーンチェンジ検出部、４２は、キーフレーム設定指示１４１により、キーフレーム番号１２２を出力するスイッチである。フレームカウンタ３１は、図６におけるフレームカウンタ３１と同一である。ここでは、キーフレームは、シーンチェンジ点に位置するフレームとしており、キーフレーム決定部２１は、シーンチェンジ検出部４１を備えている。

ビデオ信号１０２は、図６に示すキーフレーム決定部２１と同様に、フレームカウンタ３１に入力されて、フレーム番号がカウントされると共に、シーンチェンジ検出部４１に入力されて、シーンチェンジ検出が実施される。シーンチェンジ検出の方法については、長坂、宮武、上田「カットの時系列コーディングに基づく映像シーンの実時間識別法」（電子情報通信学会論文誌、Ｄ−ＩＩ，Ｖｏｌ．Ｊ７９−Ｄ−ＩＩ，Ｎｏ．４，ｐｐ５３１−５３７）などの先行技術があるが、この発明では具体的なアルゴリズムは対象外とする。

シーンチェンジが検出されると、キーフレーム設定指示１４１がアクティブになり、スイッチ４２は、これに従って、その時点でのフレームカウント値をキーフレーム番号１２２として出力する。また、シーンチェンジ検出部４１は、検出されたシーンチェンジフレームを、キーフレーム画像１２３として出力する。

また、図示はしていないが、一定間隔で現れるイントラ符号化フレームを、キーフレームに設定することも可能である。例えば、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｒｅｔｓＧｒｏｕｐ）−１やＭＰＥＧ−２、ＭＰＥＧ−４では、フレーム全体を、フレーム間予測を使わずに符号化するイントラ符号化フレームモードがあり、特にイントラ符号化フレームは、ビデオコンテンツ１１１の符号化中に周期的に挿入して、ランダムアクセスのポイントなどに利用することが多い。従って、キーフレームとしての要件を満たしていると考えられる。

（Ｂ）セグメントの抽出
キーフレーム画像１２３が選択されると、図４におけるセグメント抽出部２３が、キーフレーム画像１２３の中に含まれるセグメントを抽出する。ここで、セグメントとは「キーフレーム上の指定領域、又は、ビデオコンテンツ１１１中に現れる被写体などの物体（＝オブジェクト）に対応したキーフレーム中の領域」と定義する。

図８はセグメントを説明する図である。図８で、赤い車がビデオコンテンツ１１１の複数のフレームにわたって現れる場合、赤い車がオブジェクトに相当し、セグメントはキーフレーム画像１２３上に現れるオブジェクト領域（車の外接四角形であらわす）である。ここでは、セグメントは、その領域の代表色とサイズ情報（フレーム全体に対するセグメント領域の面積率）という２つの特徴量を持っている。

セグメントの代表色が特徴ストリーム１０３の中に記述されていると、ユーザは「赤いセグメント」、「青いセグメント」を含むビデオコンテンツ１１１といった形式で、特徴ストリーム１０３の中の値と検索したい値とのマッチングをとることにより、ある程度、自動的に要求に合致するキーフレームを探し出すことができる。

また、サイズ情報については、セグメントがキーフレームの中で、どれくらいの面積を占めているかを記述することができるので、キーフレームにおけるセグメントの重要度の一側面を表現することができる。例えば、「画面いっぱいのサイズで、肌色の代表色を持つセグメント」などの指定の仕方により、画面いっぱいに映る顔画像を含むキーフレームを検索するといったことが、ほぼ自動的に行える。また、サイズ情報はサイズ計測の起点となる矩形の左上隅頂点や矩形の重心位置などの位置情報を含んでも良い。

図９はビデオシーケンスにおけるセグメントの位置づけを説明する図である。図９では、オブジェクトである「赤い車」が時間の経過に従って、画面の左から徐々にズームアップしながら、画面の右方向へ移動するシーンを示しており、キーフレーム毎にセグメントの特徴量が変化する様子を示している。図９では、図８に示した各キーフレームの特徴量のほか、オブジェクトの動きとして、セグメントにおける左上隅の頂点（セグメント位置）の移動量を、時間方向の特徴量として持つことを示している。これによって、「画面の左から右へ移動するオブジェクト」という検索の仕方が可能になる。

また、例えばＭＰＥＧ−４ビデオ符号化方式（ＩＳＯ／ＩＥＣ，ＪＴＣ１／ＳＣ２９／ＷＧ１１，Ｎ２２０２）で規定されているビデオオブジェクトも、本定義におけるオブジェクトとみなすことができる。この場合、セグメントはＭＰＥＧ−４ビデオのビデオオブジェクトプレーン（ＶＯＰ）に対応する。この場合、厳密な定義は異なるが、ＶＯＰの水平・垂直サイズは、セグメントの矩形の水平・垂直サイズに、概念的には対応している。それに対し、ＭＰＥＧ−１やＭＰＥＧ−２では、もともとオブジェクトの概念がないため、キーフレームからの抽出を行うことによって始めてセグメントが決定される。

セグメント抽出処理は、キーフレーム画像１２３の中から、以上のようなセグメントを切り出し、その特徴量を決定・獲得する処理であり、図４のセグメント抽出部２３で行われる。図１０は図４におけるセグメント抽出部２３の内部構成を示すブロック図である。図１０において、５１は、キーフレーム画像１２３を入力し、セグメント番号１２６，セグメント内画像サンプル値１５１，矩形で示したセグメントの水平・垂直サイズ１５２（画素数×ライン数）を出力するセグメント抽出処理部、５２は、セグメント内画像サンプル値１５１により、代表色１２５を割り当てる代表色割当部、５３は、セグメントの水平・垂直サイズ１５２と、キーフレームサイズ１２４により、面積率で示されるサイズ１２７を算出するサイズ算出部である。

図１０におけるセグメント抽出部２３は、まず、セグメント抽出処理部５１において、キーフレーム画像１２３から、既存の領域分割処理などの方法によりセグメントを切り出す（図５のステップＳＴ２）。この例では、セグメントとオブジェクトの関係を厳密に結びつけないものとしている。すなわち、この例では、セグメントは単なるキーフレーム中の特定画像領域であり、キーフレーム間でオブジェクトとして関連付けるための機構を備えず、個々のキーフレームで独立したセグメントを定義する。

セグメント切り出し方法としては、例えば、色成分空間で類似色を集めるクラスタリングを行うなどの方法があるが、ここでは、その具体的な実現手法については対象外とし、セグメント抽出処理部５１により、特定の意味内容を持つ画像領域（セグメント）が、外接四角形に囲まれた形で得られるものとする。

セグメント抽出処理部５１は、抽出した画像領域（セグメント）ごとに順次番号をつけてカウントし、カウント値をセグメント番号１２６として出力する（ステップＳＴ３）。

また、セグメント抽出処理部５１は、セグメント内画像サンプル値１５１を代表色割当部５２に出力し、代表色割当部５２は、代表色１２５を求める（ステップＳＴ４）。例えば、セグメント内画像サンプル値１５１が、各８ビットのＲＧＢ表現になっている場合、セグメント中のＲ，Ｇ，Ｂの各空間での平均値をとり、得られるＲＧＢの平均値のセットを代表色として割り当てるなどの処理を行う。または、セグメント中の本質的な領域に含まれる画素をあらかじめ特定し、その内部での平均をとるなどの方法を用いることもできる。

ＭＰＥＧ−４のＶＯＰをセグメントとするならば、セグメント中の本質的な領域は、ＶＯＰの形状を表現するアルファプレーンによって得られる。図１１はＭＰＥＧ−４のビデオオブジェクトプレーン（ＶＯＰ）を説明する図であり、ＶＯＰの画素データとアルファプレーンとの関係を示している。図に示すように、アルファプレーンとは、ＶＯＰを囲む外接四角形のうち、オブジェクト内画素の位置の時に２５５を割り当て、それ以外の時に０を割り当てた２値のプレーンである。０と２５５の変化点がＶＯＰの形状をあらわす。つまり、アルファプレーンが２５５であるような位置の画素だけを用いて代表色を求める、という処理が可能となる。

このほか、代表色の求めかたとして、セグメント抽出処理部５１で色情報に基づいた切り出しを行い、クラスタリングの結果として、セグメントに割り当てられた色情報を用いる方法もある。

また、図１０において、セグメント抽出処理部５１は、矩形で示したセグメントの水平・垂直サイズ１５２（画素数×ライン数）を、サイズ算出部５３に出力する。サイズ算出部５３は、別途入力されるキーフレームの水平・垂直サイズ１２４を用いて、セグメントの当該キーフレーム上に占める面積率を計算し、サイズ１２７として出力する（ステップＳＴ５）。例えば、セグメントの水平・垂直サイズ１５２が（１７６画素×１４４ライン）で、キーフレームのサイズ１２４が（３５２画素×２８８ライン）である場合、サイズ算出部５３により算出された面積率（サイズ１２７）は２５％となる。

（Ｃ）セグメントの符号化
図４において、セグメント抽出部２３で得られた特徴量（代表色１２５，セグメント番号１２６，サイズ１２７など）は、セグメント符号化部２４に入力され、多重化部２７により特徴ストリーム１０３の形式に符号化される（ステップＳＴ６）。

図１２は図１０のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す図である。ここで特徴ストリーム１０３は、ビデオコンテンツ１１１，キーフレーム、セグメントの階層構造を有する。ビデオコンテンツ１１１の階層では、フレーム番号ビット長やカラーマップテーブル１２８などのビデオコンテンツ自体に固有の情報をヘッダとして持ち、それに続いてＫ枚のキーフレーム階層のデータを含む。ここで、各キーフレームの時間位置（キーフレーム番号１２２）を各キーフレームのヘッダに多重化するため、そのビット長を規定するために最大フレームカウント値が表現可能なビット長を、ビデオコンテンツ１１１のヘッダに含めるものとする。さらに、各セグメントにおける代表色の符号化のため、ビデオコンテンツ１１１を通じて用いられる色階調を規定するカラーマップテーブル１２８を含める。

ｋ番目のキーフレームをＫＦ（ｋ）と表記すると、ＫＦ（ｋ）はビデオコンテンツ１１１の中での時間位置（キーフレーム番号１２２）と、その画面上に存在するセグメントの数（Ｍ）をヘッダとして持ち、それに続いてＭ個のセグメント階層のデータを含む。また、ブラウジングのために後述の縮小画像のデータを持っている。ｍ番目のセグメントをＳＧ（ｍ）と表記すると、ＳＧ（ｍ）は対応する代表色１２５とサイズ１２７から構成される。代表色１２５として、カラーマップテーブル１２８のインデックス（ｉｎｄｅｘ）値を符号化する。

図１３はカラーマップテーブル１２８の具体例を示す図である。これは、Ｘ−Ｗｉｎｄｏｗｓ（登録商標）システムで用いられるカラーマップテーブル１２８を例にとったものであり、他にも様々な表現方法が考えられるが、ここでは、具体的なカラーマップテーブル１２８のデータ形式の定義については対象外とする。

このように、一つのインデックスにＲ，Ｇ，Ｂの値のセットが対応しており、インデックスの数（ｎ）を増やすことによって、階調を増やすことができる。

サイズ１２７は面積率であり、高々１〜１００（％）の範囲の値であるため、７ビットあれば表現可能である。

図４において、セグメント符号化部２４により、最終的に得られた各特徴量符号化データは、多重化部２７に送られ、図１２で示される特徴ストリーム１０３に追加される。セグメント抽出部２３によるセグメントの特徴量算出、及びセグメント符号化部２４による符号化は、キーフレーム内で切り出されたセグメント数の分だけ繰り返す（図５のステップＳＴ７）。

（Ｄ）縮小画像の生成
図４において、縮小画像生成部２５，縮小画像符号化部２６は、キーフレームの概要画像（以下、サムネイル又はサムネイル画像と呼ぶ）を、キーフレームの特徴量として特徴ストリーム１０３に添付する目的で備えられる。キーフレームにアイコン的なサムネイル画像が用意されていれば、ユーザはデジタル圧縮されたコンテンツを直接復号して再生する必要がなくなるので、ブラウズの効率を向上できる。

ここでは、サムネイル画像として、キーフレーム画像１２３のＮ×Ｎ画素ごとの平均値（ＤＣ値）を求めることにより、縮小画像を生成し（図５のステップＳＴ８）、その値を適当な符号化方式により符号化する（ステップＳＴ９）。

図４において、縮小画像生成部２５は、ＤＣ値の縮小画像データ１３２を求める処理を行い、縮小画像符号化部２６は、得られたＤＣ値の縮小画像データ１３２を圧縮符号化し、符号化された縮小画像データ１３３を出力する。

キーフレーム画像１２３は、すでに非可逆圧縮符号化されたビットストリームからの復号画像である場合が多いので、縮小画像符号化部２６での圧縮符号化は、ＤＰＣＭ（ＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）などの簡易で圧縮率の低い符号化を用いることが適当である。Ｎ×Ｎ画素ごとのＤＣ値を求めることで、少なくともサンプル数は１／Ｎ² まで削減でき、特徴ストリーム１０３に追加しても、大きな符号量的負荷にならないようにすることができる。

符号化された縮小画像１３３は多重化部２７に送られ、図１２の形式で特徴ストリーム１０３に多重化される。

以上のように、この実施の形態１によれば、上記特徴符号化部５の構成を取ることにより、ユーザはビデオコンテンツ１１１の特徴を記述した特徴ストリーム１０３を生成することができる。また、ビデオコンテンツ１１１から、マニュアル的又は自動的にキーフレームを設定することができ、さらに各キーフレーム中に存在する特定の画像領域（セグメント）に代表色１２５とそのサイズ１２７などを特徴量として設定することができる。これらの特徴量を検索キーとすることで、ビデオコンテンツの検索処理を、ある程度自動化することができ、自動検索によって絞り込んだ候補を、さらにサムネイル画像でラフにブラウズしたりできるので、ビデオコンテンツの検索効率を向上することができる。

さらに、この実施の形態１におけるセグメントの定義は、フレーム画像を静止画とみなして考えることができるので、膨大な静止画像ライブラリから、所望の画像を検索する場合にも利用可能である。静止画の場合、図１２のキーフレームの階層が最上位階層になる。

実施の形態２．
図１４はこの発明の実施の形態２によるセグメント抽出部２３の内部構成を示すブロック図である。図において、６１は、キーフレーム画像１２３よりセグメントデータ１６１を抽出するセグメント抽出処理部、６２は、参照画像メモリ６３に記憶されている過去のキーフレーム画像１２３とマッチング処理を行いセグメントを同定するセグメント同定処理部である。

この例では、セグメントはフレーム間でマッチングをとり、ビデオコンテンツ１１１内のオブジェクトと対応づけられる。すなわち、セグメントはキーフレームで閉じることなく、ビデオコンテンツ１１１における被写体のある瞬間を表す画像領域として抽出される。

セグメント抽出処理部６１により、キーフレーム画像１２３から複数のセグメントデータ１６１が抽出されると、セグメント同定処理部６２において、各セグメントについて、参照画像メモリ６３における過去のキーフレーム画像１２３との間でマッチング処理を行い、セグメントの同定を行う。この際に同定されたセグメントについては、過去のセグメントと同一番号を付してセグメント番号１２６として出力する。また、過去のセグメントと一致しなかった場合は、新規セグメントとして新しいセグメント番号１２６を与えて出力する。

また、セグメント同定処理部６２は、セグメント内画像サンプル値１５１，セグメントの水平・垂直サイズ１５２を出力し、代表色割当部５２，サイズ算出部５３は、図１０と同様に、それぞれ代表色１２５，サイズ１２７の算出を行う。

図１５は図１４のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す説明図である。ここでは、セグメントがビデオコンテンツ１１１内のオブジェクトに対応づけられるため、セグメント数（Ｍ）は、ビデオコンテンツ１１１の階層のヘッダに置かれる。

セグメントＳＧ（ｍ）はＦｌａｇ（１）を追加で持つ。Ｆｌａｇ（１）は、ＳＧ（ｍ）がＫＦ（ｋ）上に存在するか否かを示す。各キーフレームは常にＭ個のセグメントを符号化するものとし、実際にＳＧ（ｍ）がＫＦ（ｋ）に存在しない場合、Ｆｌａｇ（１）をＯＦＦにして、代表色１２５，サイズ１２７を符号化しないようにする。また、このＦｌａｇ（１）は、図４における多重化部２７により付加される。

また、ＳＧ（ｍ）がＫＦ（ｋ）には存在するがＫＦ（ｋ−１）には存在しない、つまりフレームｋにおいて登場する、という場合に特定の登場フラグで示すことや、ＳＧ（ｍ）がＫＦ（ｋ）には存在するがＫＦ（ｋ＋１）には存在しない、つまりフレームｋを最後に退場する、という場合に特定の退場フラグで示すということも、フラグの追加により可能である。

最終的に得られた各特徴量符号化データは、多重化部２７に送られ、図１５の特徴ストリーム１０３の形式で出力される。

以上のように、この実施の形態２によれば、図１４のセグメント抽出部２３の構成を取ることにより、ビデオコンテンツ１１１内のオブジェクトと複数のキーフレームのセグメントを関連付けて、セグメントの数がオブジェクトの個数に対応して出力されるので、ユーザが求めるビデオコンテンツ１１１を効率的に検索することができる。

実施の形態３．
図１６は実施の形態３によるセグメント抽出部２３の内部構成を示すブロック図である。図において、７１は、キーフレーム画像１２３を入力し、参照画像メモリ６３を参照して、セグメント番号１２６，セグメント内画像サンプル値１５１，セグメントの水平・垂直サイズ１５２を出力すると共に、動き情報１７１を出力するセグメント追跡処理部である。代表色割当部５２，サイズ算出部５３は図１４と同一である。

この例では、セグメントはビデオコンテンツ１１１を通じて、オブジェクトをトラッキング（追跡）した結果、各キーフレーム上に現れる画像領域として得られる。オブジェクトトラッキングは、セグメント追跡処理部７１において行われる。

オブジェクトトラッキングの方法については、様々な手法が提案されており、ここでは、その方法自体は対象外とする。適当なアルゴリズムを用いることにより、オブジェクトが途中で画面から消えたり再出現したりといったレベルまで追跡できるものと仮定する。

結果として得られる各キーフレーム画像上のセグメントについて、図１０や図１４に示すセグメント抽出部２３と同様に、代表色１２５，サイズ１２７が算出されるほか、同一オブジェクトである限りは、同一のセグメント番号１２６が出力される。また、ここでは、トラッキングの結果として、セグメントの移動量が得られるものとし、それを動き情報１７１として出力する。

図４の構成では、セグメント抽出部２３から、動き情報１７１は出力されていないが、図１６のセグメント抽出部２３を用いる場合は、動き情報１７１も出力するものと考え、これがセグメント符号化部２４で符号化されるものとする。

図１７は図１６のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す説明図である。図１５と異なるのは、セグメントの構造だけで、この場合は、初めて現れたセグメントかどうかを示すフラグＦｌａｇ（２）を設け、Ｆｌａｇ（２）がアクティブの場合に、動き情報１７１をまとめて多重化する構成になっている。

このような構造をとることにより、ビデオコンテンツ１１１の中でオブジェクトが新規発生した個所に、それ以降の動きの履歴がすべて含まれているため、たとえば「左から右へ移動した」などの検索キーに、すばやく対応することが可能となる。図１７に図示はしていないが、もちろん、動き情報１７１は各キーフレーム内のセグメントごとに付加してもよい。

図４において、セグメント符号化部２４により最終的に得られた各特徴量符号化データは、多重化部２７に送られ、図１７の特徴ストリーム１０３の形式として出力される。

以上のように、この実施の形態３によれば、動き情報１７１を設定することにより、各キーフレーム間で移動するオブジェクトを検索することができる。

実施の形態４．
この実施の形態では、図２のクライアント１によるビデオコンテンツ１１１の検索処理について説明する。ユーザは、クライアント１のユーザＩ／Ｆ８を用いて、ユーザ指示・設定１０５により、検索したいビデオコンテンツ１１１の大まかなパラメータの入力操作を行う。入力方法としては、クライアント１が、あらかじめ用意する複数のパラメータ（キーワード）の中から選択を行ったり、ユーザＩ／Ｆ８を用いて概要の入力を行ったりすることで実現できる。

クライアント１が用意するパラメータとしては、例えば「青」、「赤」といった色情報や、明るさの情報、セグメントの面積比率、「丸」、「四角」などのセグメントの形状情報、画面の「上」、「右下」といった位置情報などが挙げられる。

このようなパラメータの組み合わせで、例えば「青」と「８０％」を指定することにより、前述の「代表色が青で、かつフレーム画面中の８０％を占めるセグメント」の記述が入力されたこととなる。また、「赤」色の「四角」い形状のセグメントが画面の「下」の方で「２０％」を占めている、というように指定することにより、前述の「赤い車」の記述が入力されたこととなる。また、「赤い車」と「青い空」を含むビデオコンテンツ１１１等のように、複数のセグメントの特徴量を組み合わせて検索を行うこともできる。クライアント１が用意されたパラメータを選択した場合には、この選択結果が、そのまま検索キー１０８となり、検索処理部９から出力される。

図２において、特徴復号部１０は、検索処理部９からの検索指示１０７に従って、特徴ストリーム記憶部７から特徴ストリーム１０３を読み出して復号を行い、復号特徴量１０９を出力する。特徴ストリーム１０３は、図１２、図１５、図１７などのように、代表色１２５，サイズ１２７，セグメント数、キーフレーム番号１２２，縮小画像などの複数の特徴量が情報量を圧縮するために符号化されているため、同定のための特徴量の値を得るのに復号処理が必要となる。

特徴復号部１０から出力された復号特徴量１０９は、特徴同定部１１において検索キー１０８とのマッチング処理が行われる。図１８は実施の形態４による特徴同定部１１の内部構成を示すブロック図である。図において、８１ａ〜８１ｅは、検索キー１０８と復号特徴量１０９とのマッチング処理を行うマッチング処理部、８２は、各マッチング処理部８１ａ〜８１ｅの同定結果を総合的に判定し、マッチングの度合いの高いビデオコンテンツ１１１のポインタ１１０を出力するマッチング判定部である。

ここで、マッチング処理部８１は複数用意され（８１ａ〜８１ｅ等）、それぞれ対応する特徴量についてマッチング処理を行う。例えば、マッチング処理部８１ａでは、復号された復号特徴量１０９の中から「青」の特徴量、また別のマッチング処理部８１ｂでは、「８０％」の特徴量とのマッチングを行う。このとき、「水色」や「紺」といった「青」に近い色の特徴量や、「７０％」や「９０％」の特徴量に対しても、ユーザが求めている映像に近い可能性があるため、特徴同定部１１は、検索キー１０８とのマッチングを行う際に、完全に一致するものだけではなく、一致の度合いが高いものも候補とする。

各マッチング処理部８１ａ〜８１ｅの同定結果は、マッチング判定部８２に送られ、ここで各特徴量の一致の度合いが総合的に判定され、最終的にマッチング判定部８２からの結果が、復号特徴量１０９と検索条件である検索キー１０８との一致度になる。一致の度合いを規定する閾値は、システムとして標準仕様のデフォルトの値が設定されるだけでなく、ユーザからも設定できるものとする（図示はしていない）。

特徴同定部１１は、マッチングの度合いの高いビデオコンテンツ１１１のポインタ１１０を、サーバ２に対して出力し、サーバ２は、そのポインタ１１０に応じて、ビデオコンテンツ１１１をクライアント１に対して出力する。

クライアント１は、ビデオコンテンツ１１１をユーザＩ／Ｆ８に表示し、ユーザが所望したビデオコンテンツ１１１であれば、検索処理を終了する。異なっている場合には、さらに別の検索キー１０８が生成されるように、ユーザは再度パラメータの選択を行う。

ビデオコンテンツ１１１として、クライアント１に送られる画像データは、ビデオコンテンツ記憶部３に記憶されているビデオコンテンツ１１１の実態である必要はなく、前述の特徴ストリーム１０３の縮小画像（サムネイル画像）でも構わない。サムネイル画像を用いる場合には、サーバ２からクライアント１へ送られるビデオコンテンツ１１１のデータ量を削減でき、またユーザＩ／Ｆ８に表示できる画面のサイズは限定されているため、サムネイル画像であれば、複数の候補画像を同時に表示することが可能であり、検索処理の操作性が向上する。

ビデオコンテンツ記憶部３に記憶されている画像が、あらかじめ限定されている場合には、ユーザＩ／Ｆ８は、特徴ストリーム記憶部７に記憶されている特徴ストリーム１０３におけるサムネイル画像を、パラメータとして表示することも可能である。

以上のように、この実施の形態４によれば、上記のような検索処理を行うクライアント１，特徴復号部１０，特徴同定部１１により、ユーザは所望のビデオコンテンツ１１１の候補となるビデオコンテンツ１１１を、ほぼ自動的にかつ迅速に検索することが可能になる。特徴ストリーム１０３のデータ量は、一般に対応するビデオコンテンツ１１１よりも小さいので、特徴復号部１０の処理も、ビデオ信号１０２を伸長復号する処理に比べれば極めて軽い処理である。

また、特徴ストリーム１０３の中に、サムネイル画像を含む場合は、多数の候補のビデオコンテンツ１１１の内容を一度に表示させ、かつブラウズするように構成することができるので検索の効率が著しく向上する。

なお、この実施の形態４では、図２のシステムを前提とした検索処理を実施するクライアント１について説明したが、この実施の形態におけるクライアント１と同じ動作で、静止画像のライブラリから、所望の画像データを検索する処理を実現することも可能である。この場合は、特徴ストリーム１０３はビデオコンテンツ１１１ごとでなく、各静止画像ごとに作成される。

また、特徴ストリーム１０３は、ネットワークを通じて遠隔地に伝送することも可能であり、受信側で検索処理部９だけでなく、特徴符号化部５のような特徴ストリーム１０３の生成機能を備えていれば、既存の特徴ストリーム１０３の記述を書き換えて、新しい特徴ストリーム１０３を生成したり、それによって、ビデオコンテンツ１１１の表示規則を変更するなどのコンテンツ操作を行うことも可能である。もちろん、クライアント１とサーバ２の機能を併せ持つ装置を構成することも可能である。

実施の形態５．
図２において、クライアント１が、上記の特徴同定部１１において評価されたマッチングの度合いの情報を検索処理部９に入力して（図示せず）、表示する候補画像に対して、画像の順番や表示の大きさに重み付けを行うことにより、操作性を向上させることが可能である。図１９は優先度付き検索候補提示の例を示す図であり、特徴同定部１１におけるマッチングの度合いに対応して、検索された候補コンテンツを、優先度をつけてユーザに提示している様子を示している。

以上のように、この実施の形態５によれば、優先度付き検索候補を提示することにより、ユーザは、より自分の検索要求に即したコンテンツを迅速に探し出すことができる。

実施の形態６．
この実施の形態では、ユーザＩ／Ｆ８を介した他の検索条件入力方法について説明する。ユーザＩ／Ｆ８を用いて、概要の入力を行う方法としては、マウス等のポインターデバイスを用いて、直接形状を書き込んだり、色を塗ったりして、おおまかなスケッチを描くような方法が考えられる。

例えば、図１９の第２候補のセグメントに示すように、画面の下の方に大きく「赤」色を描いたり、第３候補のセグメントに示すように、画面の左の方に小さく「赤い車」の絵を描いたり、第４候補のセグメントに示すように、画面の右のように、大きく「青」色を描いたりする。図２において、ユーザ指示・設定１０５により、ユーザの直感的な概要入力を行った場合には、検索キー１０８を抽出するための処理が、検索処理部９において行われる。

検索処理部９では、概要入力から、色情報などを用いて個々のセグメントに分割し、その色が描かれた面積を算出したり、画面内の位置を求めたりする。このような処理により、「青」、「赤」といった色情報や、各色情報の面積比率、各色の形状や位置などが抽出されて、検索キー１０８として出力される。

以上のように、この実施の形態６によれば、ユーザの直感的な概要入力を行うことにより、ビデオコンテンツ１１１を効率的に検索することができる。

実施の形態７．
実施の形態３で述べたセグメントの動き情報１７１が抽出されている場合には、検索キー１０８として、動き情報１７１を用いることが可能である。ユーザＩ／Ｆ８は、選択できるパラメータとして、「左から右へ」、「上から下へ」、「ズームイン」といった動き情報１７１を用意しておく。また、映像信号の時間的変化が抽出されている場合には、色の変化や明るさの変化のパラメータを用意しておき、ユーザが選択できるようにする。

ユーザが映像内容の概要入力を行う際に、１つの入力のみを行うのではなく、例えば、入力を２回行い、その２つの画像間の時間を入力できれば、検索処理部９は、２つの入力画像とその時間間隔から、オブジェクトの動き量や、映像信号の時間変化情報を抽出して、検索キー１０８を生成することができる。

以上のように、この実施の形態７によれば、動き情報１７１を用いてユーザが求めるビデオコンテンツ１１１を検索することができる。

以上のように、この発明に係る画像特徴符号化方法及び画像検索方法は、多くのユーザが様々な検索ツールを用いて、画像を検索するのに適している。

従来の画像検索処理システムを示すブロック図である。この発明が利用される典型的なシステム構成を示すブロック図である。ビデオコンテンツと特徴ストリームの対応を説明する図である。この発明の実施の形態１による特徴符号化部５の内部構成を示すブロック図である。この発明の実施の形態１による特徴符号化部５の動作を示すフローチャートである。図４におけるキーフレーム決定部２１の内部構成を示すブロック図である。図４におけるキーフレーム決定部２１の他の内部構成を示すブロック図である。セグメントを説明する図である。ビデオシーケンスの中でのセグメントの位置づけを説明する図である。図４におけるセグメント抽出部２３の内部構成を示すブロック図である。ＭＰＥＧ−４のビデオオブジェクトプレーン（ＶＯＰ）を説明する図である。図１０のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す図である。カラーマップテーブル１２８の具体例を示す図である。この発明の実施の形態２によるセグメント抽出部２３の内部構成を示すブロック図である。図１４のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す図である。この発明の実施の形態３によるセグメント抽出部２３の内部構成を示すブロック図である。図１６のセグメント抽出部２３を用いる場合の特徴符号化部５による特徴ストリーム１０３の構成を示す図である。この発明の実施の形態４による特徴同定部１１の内部構成を示すブロック図である。この発明の実施の形態５による優先度付き検索候補提示の例を示す図である。

符号の説明

１クライアント、２サーバ、３ビデオコンテンツ記憶部、４復号処理部、５特徴符号化部、６，８ユーザＩ／Ｆ、７特徴ストリーム記憶部、９検索処理部、１０特徴復号部、１１特徴同定部、２１キーフレーム決定部、２２モニタ部、２３セグメント抽出部、２４セグメント符号化部、２５縮小画像生成部、２６縮小画像符号化部、２７多重化部、３１フレームカウンタ、３２，３３，４２スイッチ、４１シーンチェンジ検出部、５１セグメント抽出処理部、５２代表色割当部、５３サイズ算出部、９１前処理部、９２検索ツール、９３領域分割部、９４概念キーワード抽出部、９５シーン記述キーワード記述部、１０１ビットストリーム、１０２ビデオ信号、１０３特徴ストリーム、１０４，１０５ユーザ指示・設定、１０６検索制御信号、１０７検索指示、１０８検索キー、１０９復号特徴量、１１０ポインタ、１１１ビデオコンテンツ、１２１，１４１キーフレーム設定指示、１２２キーフレーム番号、１２３キーフレーム画像、１２４キーフレームサイズ、１２５セグメントの代表色、１２６セグメント番号、１２７セグメントのサイズ情報、１２８カラーマップテーブル、１２９符号化されたセグメントの代表色、１３０符号化されたセグメント番号、１３１符号化されたセグメントのサイズ情報、１３２縮小画像データ、１３３符号化された縮小画像データ、１５１セグメント内画像サンプル値、１５２水平・垂直サイズ、１７１動き情報、２０１静止画像、２０２述語記述、２０３概念キーワード、２０４シーン記述キーワード、２０５あらかじめ用意されているキーワード。

Claims

画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、上記キーフレームと時系列で離間した画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、上記キーフレームと時系列で離間した画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。
画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記キーフレームを検索するための特徴量として上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記キーフレームを検索するための特徴量として上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。
画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量と、上記キーフレーム内の矩形セグメント内の色の統計量に関する特徴量とを上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量と、上記キーフレーム内の矩形セグメント内の色の統計量に関する特徴量とを上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。