JP2007306559A - 画像特徴符号化方法及び画像検索方法 - Google Patents

画像特徴符号化方法及び画像検索方法 Download PDF

Info

Publication number
JP2007306559A
JP2007306559A JP2007121649A JP2007121649A JP2007306559A JP 2007306559 A JP2007306559 A JP 2007306559A JP 2007121649 A JP2007121649 A JP 2007121649A JP 2007121649 A JP2007121649 A JP 2007121649A JP 2007306559 A JP2007306559 A JP 2007306559A
Authority
JP
Japan
Prior art keywords
image
feature
segment
key frame
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007121649A
Other languages
English (en)
Inventor
Shunichi Sekiguchi
俊一 関口
Etsuhisa Yamada
悦久 山田
Chao James
チャオ ジェームズ
Kotaro Asai
光太郎 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007121649A priority Critical patent/JP2007306559A/ja
Publication of JP2007306559A publication Critical patent/JP2007306559A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】多くのユーザが、様々な検索ツールを用いて画像を検索することができる画像特徴符号化方法及び画像検索方法を提供する。
【解決手段】キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、キーフレームと時系列で離間した画像フレーム内におけるキーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、矩形セグメントの特徴が記述される階層に符号化する符号化工程を備える。
【選択図】図5

Description

この発明は、アナログ又はデジタルで記録された映像、静止画などの画像データの特徴量を抽出・符号化し、符号化された特徴量を利用して画像データの検索を行う画像特徴符号化方法及び画像検索方法に関するものである。
図1は、非特許文献1に記載された従来の画像検索処理システムを説明するブロック図である。図において、91は、静止画像201を各セグメントに領域分割し、分割された各セグメントに対してキーワードを付与し、概念キーワード203とシーン記述キーワード204を出力する前処理部であり、92は、ユーザ97があらかじめ用意されているキーワード205を入力し、概念キーワード203とシーン記述キーワード204と照合して、静止画像201を検索する検索ツールである。
ここで、概念キーワード203は、各セグメントの色情報及び特徴量を示すキーワードであり、シーン記述キーワード204は、各セグメントの画像特徴量を、「位置」、「色」、「形状」、「大きさ」、「向き」等に関する述語を用いて表現したキーワードである。
図1の前処理部91において、93は静止画像201を各セグメントに領域分割する領域分割部、94は、色情報に対してあらかじめ割り当てられている概念キーワードを用いて、領域分割部93により分割された各セグメントの色及び特徴量から、概念キーワード203を抽出する概念キーワード抽出部、95は、領域分割部93により分割された各セグメントの画像特徴量について、ユーザ96があらかじめ定義されている述語から選択して記述する述語記述202を入力することにより、シーン記述キーワード204を記述するシーン記述キーワード記述部である。
図1の検索ツール92において、98は、ユーザ97が選択したキーワード205と、前処理部91からの概念キーワード203、シーン記述キーワード204から特徴量の同定を行う特徴同定部である。
次に動作について説明する。
静止画像201が前処理部91に入力されると、領域分割部93は静止画像201を各セグメントに領域分割する。概念キーワード抽出部94は、色情報に対してあらかじめ割り当てられている概念キーワードを用いて、分割された各セグメントの色及び特徴量から、概念キーワード203を抽出する。また、シーン記述キーワード記述部95は、分割された各セグメントの画像特徴量について、ユーザ96からの述語記述202により、シーン記述キーワード204を記述する。
ユーザ97は、静止画像201を検索するにあたり、あらかじめ用意されている概念キーワード203やシーン記述キーワード204の中から選択したキーワード205を検索ツール92に入力する。特徴同定部98は、ユーザ97からのキーワード205と、前処理部91からの概念キーワード203、シーン記述キーワード204から、特徴量の同定を行い、ユーザ97が求める静止画像201を検索する。
電子情報通信学会論文誌D−II,1996年4月号(Vol.79−D−II,No.4,pp.476−483)
上記の画像検索処理システムは、静止画像201のみを対象としているために、動画像を検索することが困難であるという課題があった。
また、各キーワードの記述方法・記憶方法などについて考慮されていないため、画像サーバとクライアント(検索ツール92)とは、1対1に対応している必要があり、ネットワークを介して、多くのユーザが様々な検索ツールを用いて、画像の検索を行う画像検索処理システムを構築することができないという課題があった。
この発明は上記のような課題を解決するためになされたもので、多くのユーザが、様々な検索ツールを用いて画像を検索することができる画像特徴符号化方法及び画像検索方法を得ることを目的とする。
この発明に係る画像特徴符号化方法は、画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及びキーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、キーフレームと時系列で離間した画像フレーム内におけるキーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えるものである。
この発明によれば、検索効率を向上可能な特徴ストリームを生成できるという効果を奏する。
実施の形態1.
この実施の形態1では、ビデオシーケンス中に含まれる被写体に着目し、各フレームに含まれる被写体領域を囲む矩形領域をセグメントと定義し、ビデオ信号の各フレーム中からセグメントを抽出して、その特徴量を求めて特徴ストリームを生成する処理を行う装置について説明する。
まず、前提として同装置を使用するシステムについて説明する。図2は、この発明が利用される典型的なシステム構成を示すブロック図である。図において、1はクライアント、2はサーバ、3はビデオコンテンツ111を記憶しているビデオコンテンツ記憶部、4は、ビデオコンテンツ記憶部3に記憶されているビデオコンテンツ111の中から、デジタル圧縮されたビットストリーム101を復号し、ビデオ信号102を出力する復号処理部である。
また、図2において、5は、復号処理部4により復号されたビデオ信号102を入力し、特徴ストリーム103を生成する特徴符号化部、6は、ユーザ指示・設定104により、特徴符号化部5を制御するユーザI/F、7は特徴符号化部5により生成された特徴ストリーム103を記憶する特徴ストリーム記憶部である。ビデオコンテンツ記憶部3と特徴ストリーム記憶部7は、サーバ2内に別々に設置されているが、同一の記憶部に記憶されていても良い。
クライアント1において、8は、ユーザ指示・設定105により、クライアント1の制御のために、検索制御信号106を出力するユーザI/F、9は、検索制御信号106を入力して、検索指示107と検索キー108を出力する検索処理部である。
さらに、図2において、10は、検索処理部9からの検索指示107により、特徴ストリーム記憶部7に記憶されている特徴ストリーム103を復号し、復号特徴量109を出力する特徴復号部、11は、検索処理部9からの検索キー108と、特徴復号部10からの復号特徴量109を入力してマッチング処理を行い、特徴ストリーム番号を示すポインタ110を出力する特徴同定部である。111は、特徴同定部11が出力したポインタ110により、ビデオコンテンツ記憶部3から出力されたビデオコンテンツである。
次に動作について説明する。
図2に示されるシステムは、ビデオコンテンツ記憶部3に保持される各々のビデオコンテンツ111に対応づけられた特徴ストリーム103に基づいて、ユーザが所望のビデオコンテンツ111を検索・ブラウズ(拾い読み)するシステムである。ここでは便宜上、サーバ・クライアントモデルを用い、検索システムをクライアント1、コンテンツ記憶・送出システムをサーバ2とみなして説明する。
クライアント1とサーバ2は、ネットワークを介して動作してもよいし、同一装置内で動作してもよい。図2では、ネットワーク経由の動作は便宜上図示していないが、以下でネットワーク処理に必要な動作は適宜説明する。
(1)特徴ストリームの意義
図3はビデオコンテンツ111と特徴ストリーム103の対応を説明する図である。図において、VCはビデオコンテンツ(Video Content)111を示し、FSは特徴ストリーム(Feature Stream)103を示している。VC及びFSそれぞれに、対応する番号を付しており、FSnは、ビデオコンテンツVCnの特徴量を記述した特徴ストリームである。VCnとFSnは、各ポインタ110により対応づけられている。
図3に示すように、VC1の第kフレームに「青い空」が含まれているとすれば、FS1はVC1の第kフレームに「代表色が青で、かつフレーム画面中の80%を占める領域」が存在することを記述する。このように、特徴量を属性として持つ領域を以下ではセグメントと呼ぶ。これにより、図2におけるクライアント1から「代表色が青で、かつフレーム画面中の80%を占めるセグメント」という指定を行うことで、特徴ストリーム103から対応する特徴量を探し出し、対応するフレーム画面を含むビデオコンテンツ111を引き出すことを可能とする。
特徴量としては、代表色、サイズ、画面内位置、形状、位置の変化(動き)、明るさ・色の変化、コントラストなど様々な属性を定義することができる。もちろん、特徴量の指定方法は任意であり、クライアント1の検索処理部9に適当な解析機能を設けることで、ユーザは、より直感的な指定を行うようにすることもできる。
このように、ビデオコンテンツ(VCn)111中の特徴量を、特徴ストリーム(FSn)103に記述しておくことにより、ユーザは大量のビデオコンテンツ111のデータの中から、直感的な検索キー108を用いて、所望のコンテンツ111を探し出すことが容易になる。このような検索方法は、極めて膨大な数のビデオコンテンツ111を含むビデオライブラリ・データベース、ビデオテープなどから、所望のコンテンツ111を探し出す処理を効率化することができる。
(2)特徴ストリームの生成
特徴ストリーム103の生成処理は、ビデオコンテンツ(VCn)111に対応する特徴ストリーム(FSn)103を生成し、特徴ストリーム記憶部7に格納する処理に相当する。この処理を行うのは、復号処理部4,特徴符号化部5,ユーザI/F6である。復号処理部4は、ビデオコンテンツ(VCn)111がデジタル圧縮されたビットストリーム101の形式で記憶されている場合にのみ必要で、ビデオ信号102を出力する。ビデオコンテンツ(VCn)111が直接表示可能な画像データである場合には、復号処理部4は不要である。
特徴符号化部5は、ビデオ信号102に基づいて、特徴ストリーム(FSn)103を生成し、特徴ストリーム記憶部7に格納する。特徴ストリーム103の生成処理の詳細は後述する。
(3)検索処理
検索処理はクライアント1によって行われる。クライアント1は、ユーザが、ビデオコンテンツ記憶部3に記憶されているビデオコンテンツ111の中から、所望のコンテンツ111を検索するための処理部である。ユーザは、ユーザ指示・設定105により、クライアント1のユーザI/F8を介して、特徴ストリーム103として符号化されている特徴量に対応する値を求めるために、検索制御信号106を検索処理部9に与える。
図3を例にとり、「青い空」が含まれるビデオコンテンツ(VC1)111を、すべてのビデオコンテンツ(VCn)111の中から検索する例を簡単に説明する。この検索処理は、すべての特徴ストリーム(FSn)103に対して、「青い空」を示す特徴量をサーチし、それを含む特徴ストリーム(FSn)103に対応するビデオコンテンツ(VCn)111を特定する処理である。検索処理部9は、検索制御信号106から検索すべき特徴量の値を求めて、検索キー108として送出すると同時に、検索指示107をアクティブにする。
もし、クライアント1とサーバ2がネットワーク接続されているとすれば、検索指示107と検索キー108は、ネットワークを通じて、サーバ2及び特徴量同定処理を行う装置(特徴復号部10と特徴同定部11)に伝送される。
検索指示107がアクティブになると、特徴復号部10は特徴ストリーム記憶部7から順次特徴ストリーム(FSn)103を取り出し、特徴ストリーム103から特徴量の値を復号する。その結果、得られた復号特徴量109は、特徴同定部11において、検索キー108とマッチング処理される。ここで、検索キー108と一致する復号特徴量109が見つかった場合は、対応する特徴量を含む特徴ストリーム103のポインタ110から、ビデオコンテンツ(VCn)111を特定する。図3の例では、「青い空」を含むのがVC1のみなので、FS1における第kフレーム目のセグメントの中に、検索キー108に一致する復号特徴量109が見つかり、VC1の第kフレームが検索結果として出力される。
ここで、特徴量同定処理を行う装置(特徴復号部10と特徴同定部11)は、クライアント1に含まれていてもよいし、サーバ2に含まれていてもよいし、ネットワーク中に存在する別の装置に含まれていてもよい。もちろん、クライアント1とサーバ2とが同一装置になっている場合は、同一装置内に含まれる。
検索結果として出力されたビデオコンテンツ111は、クライアント1に送られ、ユーザはユーザI/F8により、その画像の内容をブラウズできる。また、「青い空」を示す特徴量によって、検索結果として複数のビデオコンテンツ111が見つかった場合でも、ユーザI/F8に表示することで、複数のビデオコンテンツ111をブラウズするようにすることもできる。このようなシステムによって、ユーザは直接ビデオコンテンツ111の中身をすべてブラウズすることなく、所望のセグメントを含むビデオコンテンツ111だけに絞り込んで内容を確認することができ、検索の効率が向上する。
(4)インタラクティブ機能
同システムにおいては、特徴符号化部5がビデオ信号102から特徴ストリーム103を生成する際に、ユーザ指示・設定104により、ユーザI/F6を介して、ビデオコンテンツ(VCn)111に含まれるセグメントを定義するための各種の条件設定や、セグメントの追加・削除、あるいはセグメントを定義するフレーム位置設定など、ユーザが任意に特徴ストリーム103の生成処理を制御できる。
(5)特徴ストリームの伝送・配信
特徴ストリーム(FSn)103は、対応するビデオコンテンツ(VCn)111へのポインタ112を持つ限り、ビデオコンテンツ111と共に、サーバ2に格納しておく必要はなく、どこに存在していてもよい。例えば、特徴ストリーム103だけが含まれるCD−ROMがあり、クライアント1において、当該CD−ROMを読むことにより、特徴ストリーム103に対応するビデオコンテンツ111の場所を特定することもできる。この場合、例えば特徴ストリーム103がビデオコンテンツのURL(Uniform Resource Locator)などを保持していればよい。
また、一般に、特徴ストリーム103は、ビデオコンテンツ111のデータ量に比べて小さいので、より小さな蓄積メディアに格納して、ノート型PC(Personal Computer)やPDA(Personal Digital Assistants)などの携帯端末で利用するということも可能である。
さらに、特徴ストリーム103は、ビデオコンテンツ111に付加して、ネットワークを介して伝送・配信することもできる。上記(4)で述べたインタラクティブ機能により、特徴ストリーム103を受信した側で、再度特徴ストリーム103の内容を加工・編集して、再利用・再配信もできるので、あらゆるメディア間で検索の自由度を失うことなく、ビデオコンテンツ111を自由に流通することができる。
次に、特徴ストリーム103の生成処理について詳しく説明する。
特徴ストリーム103の生成処理は、上述したように、主に特徴符号化部5において行われる。図4は実施の形態1による特徴符号化部5の内部構成を示すブロック図である。図において、21は、ビデオ信号102を入力して、キーフレーム設定指示121に基づきキーフレームを決定し、キーフレーム番号122とキーフレーム画像123を出力するキーフレーム決定部、22は、キーフレーム決定部21からのビデオ信号102をモニタするモニタ部である。
また、図4において、23は、キーフレーム決定部21が決定したキーフレーム画像123からセグメントを抽出し、セグメントの代表色125,セグメント番号126を出力すると共に、例えばビデオコンテンツ111の復号時に出力されるキーフレームサイズ124により、セグメントのサイズ情報127を出力するセグメント抽出部である。
さらに、図4において、24は、セグメント抽出部23からのセグメントの代表色125を、カラーマップテーブル128を用いて符号化し、符号化されたセグメントの代表色129を出力すると共に、セグメント番号126,セグメントのサイズ情報127を符号化し、符号化されたセグメント番号130,符号化されたセグメントのサイズ情報131を出力するセグメント符号化部である。
さらに、図4において、25は、キーフレーム画像123より、縮小画像を生成し、縮小画像データ132を出力する縮小画像生成部、26は、縮小画像データ132を符号化し、符号化された縮小画像データ133を出力する縮小画像符号化部である。
さらに、図4において、27は、カラーマップテーブル128,符号化されたセグメントの代表色129,符号化されたセグメント番号130,符号化されたセグメントのサイズ情報131,符号化された縮小画像データ133を多重化する多重化部である。
次に特徴符号化部5の動作について説明する。
図5は実施の形態1による特徴符号化部5の動作を示すフローチャートである。
(A)キーフレームの決定
まず、キーフレーム決定部21において、ビデオコンテンツ111中のキーとなるフレーム画像であるキーフレームを決定する(ステップST1)。キーフレームは、ビデオコンテンツ111中の意味内容の変化点(シーンチェンジ)となるフレームや、ユーザが特に検索時の特徴点としたいフレームと定義する。
図6は図4におけるキーフレーム決定部21の内部構成を示すブロック図である。図6において、31は、ビデオ信号102のフレーム番号をカウントするフレームカウンタ、32は、キーフレーム設定指示121により、キーフレーム番号122を出力するスイッチ、33は、キーフレーム設定指示121により、キーフレーム画像123を出力するスイッチである。図6では、ユーザがビデオ信号102をモニタ部22によりモニタリングしながら、所望のフレームをキーフレームとして指定する。
ビデオ信号102は、1フレームごとにキーフレーム決定部21に入力され、フレームカウンタ31により、フレーム番号がカウントされる。フレームカウンタ31は、ビデオ信号102の最初の入力時点でゼロにリセットされる。
また、ビデオ信号102は同時にモニタ部22に送られ、ユーザはモニタ部22に表示されるビデオ信号102を見ながら、キーフレームとすべきフレームを選択する。選択指示は、キーフレーム設定指示121をアクティブにすることで行う。キーフレーム設定指示121がアクティブになると、スイッチ32は選択したキーフレームのフレーム番号をキーフレーム番号122として出力し、スイッチ33は選択したキーフレームのキーフレーム画像123を出力する。
図7は図4におけるキーフレーム決定部21の他の内部構成を示すブロック図である。図7において、41はビデオ信号102からシーンチェンジを検出し、キーフレーム画像123とキーフレーム設定指示141を出力するシーンチェンジ検出部、42は、キーフレーム設定指示141により、キーフレーム番号122を出力するスイッチである。フレームカウンタ31は、図6におけるフレームカウンタ31と同一である。ここでは、キーフレームは、シーンチェンジ点に位置するフレームとしており、キーフレーム決定部21は、シーンチェンジ検出部41を備えている。
ビデオ信号102は、図6に示すキーフレーム決定部21と同様に、フレームカウンタ31に入力されて、フレーム番号がカウントされると共に、シーンチェンジ検出部41に入力されて、シーンチェンジ検出が実施される。シーンチェンジ検出の方法については、長坂、宮武、上田「カットの時系列コーディングに基づく映像シーンの実時間識別法」(電子情報通信学会論文誌、D−II,Vol.J79−D−II,No.4,pp531−537)などの先行技術があるが、この発明では具体的なアルゴリズムは対象外とする。
シーンチェンジが検出されると、キーフレーム設定指示141がアクティブになり、スイッチ42は、これに従って、その時点でのフレームカウント値をキーフレーム番号122として出力する。また、シーンチェンジ検出部41は、検出されたシーンチェンジフレームを、キーフレーム画像123として出力する。
また、図示はしていないが、一定間隔で現れるイントラ符号化フレームを、キーフレームに設定することも可能である。例えば、MPEG(Moving Picture Exprets Group)−1やMPEG−2、MPEG−4では、フレーム全体を、フレーム間予測を使わずに符号化するイントラ符号化フレームモードがあり、特にイントラ符号化フレームは、ビデオコンテンツ111の符号化中に周期的に挿入して、ランダムアクセスのポイントなどに利用することが多い。従って、キーフレームとしての要件を満たしていると考えられる。
(B)セグメントの抽出
キーフレーム画像123が選択されると、図4におけるセグメント抽出部23が、キーフレーム画像123の中に含まれるセグメントを抽出する。ここで、セグメントとは「キーフレーム上の指定領域、又は、ビデオコンテンツ111中に現れる被写体などの物体(=オブジェクト)に対応したキーフレーム中の領域」と定義する。
図8はセグメントを説明する図である。図8で、赤い車がビデオコンテンツ111の複数のフレームにわたって現れる場合、赤い車がオブジェクトに相当し、セグメントはキーフレーム画像123上に現れるオブジェクト領域(車の外接四角形であらわす)である。ここでは、セグメントは、その領域の代表色とサイズ情報(フレーム全体に対するセグメント領域の面積率)という2つの特徴量を持っている。
セグメントの代表色が特徴ストリーム103の中に記述されていると、ユーザは「赤いセグメント」、「青いセグメント」を含むビデオコンテンツ111といった形式で、特徴ストリーム103の中の値と検索したい値とのマッチングをとることにより、ある程度、自動的に要求に合致するキーフレームを探し出すことができる。
また、サイズ情報については、セグメントがキーフレームの中で、どれくらいの面積を占めているかを記述することができるので、キーフレームにおけるセグメントの重要度の一側面を表現することができる。例えば、「画面いっぱいのサイズで、肌色の代表色を持つセグメント」などの指定の仕方により、画面いっぱいに映る顔画像を含むキーフレームを検索するといったことが、ほぼ自動的に行える。また、サイズ情報はサイズ計測の起点となる矩形の左上隅頂点や矩形の重心位置などの位置情報を含んでも良い。
図9はビデオシーケンスにおけるセグメントの位置づけを説明する図である。図9では、オブジェクトである「赤い車」が時間の経過に従って、画面の左から徐々にズームアップしながら、画面の右方向へ移動するシーンを示しており、キーフレーム毎にセグメントの特徴量が変化する様子を示している。図9では、図8に示した各キーフレームの特徴量のほか、オブジェクトの動きとして、セグメントにおける左上隅の頂点(セグメント位置)の移動量を、時間方向の特徴量として持つことを示している。これによって、「画面の左から右へ移動するオブジェクト」という検索の仕方が可能になる。
また、例えばMPEG−4ビデオ符号化方式(ISO/IEC,JTC1/SC29/WG11,N2202)で規定されているビデオオブジェクトも、本定義におけるオブジェクトとみなすことができる。この場合、セグメントはMPEG−4ビデオのビデオオブジェクトプレーン(VOP)に対応する。この場合、厳密な定義は異なるが、VOPの水平・垂直サイズは、セグメントの矩形の水平・垂直サイズに、概念的には対応している。それに対し、MPEG−1やMPEG−2では、もともとオブジェクトの概念がないため、キーフレームからの抽出を行うことによって始めてセグメントが決定される。
セグメント抽出処理は、キーフレーム画像123の中から、以上のようなセグメントを切り出し、その特徴量を決定・獲得する処理であり、図4のセグメント抽出部23で行われる。図10は図4におけるセグメント抽出部23の内部構成を示すブロック図である。図10において、51は、キーフレーム画像123を入力し、セグメント番号126,セグメント内画像サンプル値151,矩形で示したセグメントの水平・垂直サイズ152(画素数×ライン数)を出力するセグメント抽出処理部、52は、セグメント内画像サンプル値151により、代表色125を割り当てる代表色割当部、53は、セグメントの水平・垂直サイズ152と、キーフレームサイズ124により、面積率で示されるサイズ127を算出するサイズ算出部である。
図10におけるセグメント抽出部23は、まず、セグメント抽出処理部51において、キーフレーム画像123から、既存の領域分割処理などの方法によりセグメントを切り出す(図5のステップST2)。この例では、セグメントとオブジェクトの関係を厳密に結びつけないものとしている。すなわち、この例では、セグメントは単なるキーフレーム中の特定画像領域であり、キーフレーム間でオブジェクトとして関連付けるための機構を備えず、個々のキーフレームで独立したセグメントを定義する。
セグメント切り出し方法としては、例えば、色成分空間で類似色を集めるクラスタリングを行うなどの方法があるが、ここでは、その具体的な実現手法については対象外とし、セグメント抽出処理部51により、特定の意味内容を持つ画像領域(セグメント)が、外接四角形に囲まれた形で得られるものとする。
セグメント抽出処理部51は、抽出した画像領域(セグメント)ごとに順次番号をつけてカウントし、カウント値をセグメント番号126として出力する(ステップST3)。
また、セグメント抽出処理部51は、セグメント内画像サンプル値151を代表色割当部52に出力し、代表色割当部52は、代表色125を求める(ステップST4)。例えば、セグメント内画像サンプル値151が、各8ビットのRGB表現になっている場合、セグメント中のR,G,Bの各空間での平均値をとり、得られるRGBの平均値のセットを代表色として割り当てるなどの処理を行う。または、セグメント中の本質的な領域に含まれる画素をあらかじめ特定し、その内部での平均をとるなどの方法を用いることもできる。
MPEG−4のVOPをセグメントとするならば、セグメント中の本質的な領域は、VOPの形状を表現するアルファプレーンによって得られる。図11はMPEG−4のビデオオブジェクトプレーン(VOP)を説明する図であり、VOPの画素データとアルファプレーンとの関係を示している。図に示すように、アルファプレーンとは、VOPを囲む外接四角形のうち、オブジェクト内画素の位置の時に255を割り当て、それ以外の時に0を割り当てた2値のプレーンである。0と255の変化点がVOPの形状をあらわす。つまり、アルファプレーンが255であるような位置の画素だけを用いて代表色を求める、という処理が可能となる。
このほか、代表色の求めかたとして、セグメント抽出処理部51で色情報に基づいた切り出しを行い、クラスタリングの結果として、セグメントに割り当てられた色情報を用いる方法もある。
また、図10において、セグメント抽出処理部51は、矩形で示したセグメントの水平・垂直サイズ152(画素数×ライン数)を、サイズ算出部53に出力する。サイズ算出部53は、別途入力されるキーフレームの水平・垂直サイズ124を用いて、セグメントの当該キーフレーム上に占める面積率を計算し、サイズ127として出力する(ステップST5)。例えば、セグメントの水平・垂直サイズ152が(176画素×144ライン)で、キーフレームのサイズ124が(352画素×288ライン)である場合、サイズ算出部53により算出された面積率(サイズ127)は25%となる。
(C)セグメントの符号化
図4において、セグメント抽出部23で得られた特徴量(代表色125,セグメント番号126,サイズ127など)は、セグメント符号化部24に入力され、多重化部27により特徴ストリーム103の形式に符号化される(ステップST6)。
図12は図10のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す図である。ここで特徴ストリーム103は、ビデオコンテンツ111,キーフレーム、セグメントの階層構造を有する。ビデオコンテンツ111の階層では、フレーム番号ビット長やカラーマップテーブル128などのビデオコンテンツ自体に固有の情報をヘッダとして持ち、それに続いてK枚のキーフレーム階層のデータを含む。ここで、各キーフレームの時間位置(キーフレーム番号122)を各キーフレームのヘッダに多重化するため、そのビット長を規定するために最大フレームカウント値が表現可能なビット長を、ビデオコンテンツ111のヘッダに含めるものとする。さらに、各セグメントにおける代表色の符号化のため、ビデオコンテンツ111を通じて用いられる色階調を規定するカラーマップテーブル128を含める。
k番目のキーフレームをKF(k)と表記すると、KF(k)はビデオコンテンツ111の中での時間位置(キーフレーム番号122)と、その画面上に存在するセグメントの数(M)をヘッダとして持ち、それに続いてM個のセグメント階層のデータを含む。また、ブラウジングのために後述の縮小画像のデータを持っている。m番目のセグメントをSG(m)と表記すると、SG(m)は対応する代表色125とサイズ127から構成される。代表色125として、カラーマップテーブル128のインデックス(index)値を符号化する。
図13はカラーマップテーブル128の具体例を示す図である。これは、X−Windows(登録商標)システムで用いられるカラーマップテーブル128を例にとったものであり、他にも様々な表現方法が考えられるが、ここでは、具体的なカラーマップテーブル128のデータ形式の定義については対象外とする。
このように、一つのインデックスにR,G,Bの値のセットが対応しており、インデックスの数(n)を増やすことによって、階調を増やすことができる。
サイズ127は面積率であり、高々1〜100(%)の範囲の値であるため、7ビットあれば表現可能である。
図4において、セグメント符号化部24により、最終的に得られた各特徴量符号化データは、多重化部27に送られ、図12で示される特徴ストリーム103に追加される。セグメント抽出部23によるセグメントの特徴量算出、及びセグメント符号化部24による符号化は、キーフレーム内で切り出されたセグメント数の分だけ繰り返す(図5のステップST7)。
(D)縮小画像の生成
図4において、縮小画像生成部25,縮小画像符号化部26は、キーフレームの概要画像(以下、サムネイル又はサムネイル画像と呼ぶ)を、キーフレームの特徴量として特徴ストリーム103に添付する目的で備えられる。キーフレームにアイコン的なサムネイル画像が用意されていれば、ユーザはデジタル圧縮されたコンテンツを直接復号して再生する必要がなくなるので、ブラウズの効率を向上できる。
ここでは、サムネイル画像として、キーフレーム画像123のN×N画素ごとの平均値(DC値)を求めることにより、縮小画像を生成し(図5のステップST8)、その値を適当な符号化方式により符号化する(ステップST9)。
図4において、縮小画像生成部25は、DC値の縮小画像データ132を求める処理を行い、縮小画像符号化部26は、得られたDC値の縮小画像データ132を圧縮符号化し、符号化された縮小画像データ133を出力する。
キーフレーム画像123は、すでに非可逆圧縮符号化されたビットストリームからの復号画像である場合が多いので、縮小画像符号化部26での圧縮符号化は、DPCM(Differential Pulse Code Modulation)などの簡易で圧縮率の低い符号化を用いることが適当である。N×N画素ごとのDC値を求めることで、少なくともサンプル数は1/N2 まで削減でき、特徴ストリーム103に追加しても、大きな符号量的負荷にならないようにすることができる。
符号化された縮小画像133は多重化部27に送られ、図12の形式で特徴ストリーム103に多重化される。
以上のように、この実施の形態1によれば、上記特徴符号化部5の構成を取ることにより、ユーザはビデオコンテンツ111の特徴を記述した特徴ストリーム103を生成することができる。また、ビデオコンテンツ111から、マニュアル的又は自動的にキーフレームを設定することができ、さらに各キーフレーム中に存在する特定の画像領域(セグメント)に代表色125とそのサイズ127などを特徴量として設定することができる。これらの特徴量を検索キーとすることで、ビデオコンテンツの検索処理を、ある程度自動化することができ、自動検索によって絞り込んだ候補を、さらにサムネイル画像でラフにブラウズしたりできるので、ビデオコンテンツの検索効率を向上することができる。
さらに、この実施の形態1におけるセグメントの定義は、フレーム画像を静止画とみなして考えることができるので、膨大な静止画像ライブラリから、所望の画像を検索する場合にも利用可能である。静止画の場合、図12のキーフレームの階層が最上位階層になる。
実施の形態2.
図14はこの発明の実施の形態2によるセグメント抽出部23の内部構成を示すブロック図である。図において、61は、キーフレーム画像123よりセグメントデータ161を抽出するセグメント抽出処理部、62は、参照画像メモリ63に記憶されている過去のキーフレーム画像123とマッチング処理を行いセグメントを同定するセグメント同定処理部である。
この例では、セグメントはフレーム間でマッチングをとり、ビデオコンテンツ111内のオブジェクトと対応づけられる。すなわち、セグメントはキーフレームで閉じることなく、ビデオコンテンツ111における被写体のある瞬間を表す画像領域として抽出される。
セグメント抽出処理部61により、キーフレーム画像123から複数のセグメントデータ161が抽出されると、セグメント同定処理部62において、各セグメントについて、参照画像メモリ63における過去のキーフレーム画像123との間でマッチング処理を行い、セグメントの同定を行う。この際に同定されたセグメントについては、過去のセグメントと同一番号を付してセグメント番号126として出力する。また、過去のセグメントと一致しなかった場合は、新規セグメントとして新しいセグメント番号126を与えて出力する。
また、セグメント同定処理部62は、セグメント内画像サンプル値151,セグメントの水平・垂直サイズ152を出力し、代表色割当部52,サイズ算出部53は、図10と同様に、それぞれ代表色125,サイズ127の算出を行う。
図15は図14のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す説明図である。ここでは、セグメントがビデオコンテンツ111内のオブジェクトに対応づけられるため、セグメント数(M)は、ビデオコンテンツ111の階層のヘッダに置かれる。
セグメントSG(m)はFlag(1)を追加で持つ。Flag(1)は、SG(m)がKF(k)上に存在するか否かを示す。各キーフレームは常にM個のセグメントを符号化するものとし、実際にSG(m)がKF(k)に存在しない場合、Flag(1)をOFFにして、代表色125,サイズ127を符号化しないようにする。また、このFlag(1)は、図4における多重化部27により付加される。
また、SG(m)がKF(k)には存在するがKF(k−1)には存在しない、つまりフレームkにおいて登場する、という場合に特定の登場フラグで示すことや、SG(m)がKF(k)には存在するがKF(k+1)には存在しない、つまりフレームkを最後に退場する、という場合に特定の退場フラグで示すということも、フラグの追加により可能である。
最終的に得られた各特徴量符号化データは、多重化部27に送られ、図15の特徴ストリーム103の形式で出力される。
以上のように、この実施の形態2によれば、図14のセグメント抽出部23の構成を取ることにより、ビデオコンテンツ111内のオブジェクトと複数のキーフレームのセグメントを関連付けて、セグメントの数がオブジェクトの個数に対応して出力されるので、ユーザが求めるビデオコンテンツ111を効率的に検索することができる。
実施の形態3.
図16は実施の形態3によるセグメント抽出部23の内部構成を示すブロック図である。図において、71は、キーフレーム画像123を入力し、参照画像メモリ63を参照して、セグメント番号126,セグメント内画像サンプル値151,セグメントの水平・垂直サイズ152を出力すると共に、動き情報171を出力するセグメント追跡処理部である。代表色割当部52,サイズ算出部53は図14と同一である。
この例では、セグメントはビデオコンテンツ111を通じて、オブジェクトをトラッキング(追跡)した結果、各キーフレーム上に現れる画像領域として得られる。オブジェクトトラッキングは、セグメント追跡処理部71において行われる。
オブジェクトトラッキングの方法については、様々な手法が提案されており、ここでは、その方法自体は対象外とする。適当なアルゴリズムを用いることにより、オブジェクトが途中で画面から消えたり再出現したりといったレベルまで追跡できるものと仮定する。
結果として得られる各キーフレーム画像上のセグメントについて、図10や図14に示すセグメント抽出部23と同様に、代表色125,サイズ127が算出されるほか、同一オブジェクトである限りは、同一のセグメント番号126が出力される。また、ここでは、トラッキングの結果として、セグメントの移動量が得られるものとし、それを動き情報171として出力する。
図4の構成では、セグメント抽出部23から、動き情報171は出力されていないが、図16のセグメント抽出部23を用いる場合は、動き情報171も出力するものと考え、これがセグメント符号化部24で符号化されるものとする。
図17は図16のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す説明図である。図15と異なるのは、セグメントの構造だけで、この場合は、初めて現れたセグメントかどうかを示すフラグFlag(2)を設け、Flag(2)がアクティブの場合に、動き情報171をまとめて多重化する構成になっている。
このような構造をとることにより、ビデオコンテンツ111の中でオブジェクトが新規発生した個所に、それ以降の動きの履歴がすべて含まれているため、たとえば「左から右へ移動した」などの検索キーに、すばやく対応することが可能となる。図17に図示はしていないが、もちろん、動き情報171は各キーフレーム内のセグメントごとに付加してもよい。
図4において、セグメント符号化部24により最終的に得られた各特徴量符号化データは、多重化部27に送られ、図17の特徴ストリーム103の形式として出力される。
以上のように、この実施の形態3によれば、動き情報171を設定することにより、各キーフレーム間で移動するオブジェクトを検索することができる。
実施の形態4.
この実施の形態では、図2のクライアント1によるビデオコンテンツ111の検索処理について説明する。ユーザは、クライアント1のユーザI/F8を用いて、ユーザ指示・設定105により、検索したいビデオコンテンツ111の大まかなパラメータの入力操作を行う。入力方法としては、クライアント1が、あらかじめ用意する複数のパラメータ(キーワード)の中から選択を行ったり、ユーザI/F8を用いて概要の入力を行ったりすることで実現できる。
クライアント1が用意するパラメータとしては、例えば「青」、「赤」といった色情報や、明るさの情報、セグメントの面積比率、「丸」、「四角」などのセグメントの形状情報、画面の「上」、「右下」といった位置情報などが挙げられる。
このようなパラメータの組み合わせで、例えば「青」と「80%」を指定することにより、前述の「代表色が青で、かつフレーム画面中の80%を占めるセグメント」の記述が入力されたこととなる。また、「赤」色の「四角」い形状のセグメントが画面の「下」の方で「20%」を占めている、というように指定することにより、前述の「赤い車」の記述が入力されたこととなる。また、「赤い車」と「青い空」を含むビデオコンテンツ111等のように、複数のセグメントの特徴量を組み合わせて検索を行うこともできる。クライアント1が用意されたパラメータを選択した場合には、この選択結果が、そのまま検索キー108となり、検索処理部9から出力される。
図2において、特徴復号部10は、検索処理部9からの検索指示107に従って、特徴ストリーム記憶部7から特徴ストリーム103を読み出して復号を行い、復号特徴量109を出力する。特徴ストリーム103は、図12、図15、図17などのように、代表色125,サイズ127,セグメント数、キーフレーム番号122,縮小画像などの複数の特徴量が情報量を圧縮するために符号化されているため、同定のための特徴量の値を得るのに復号処理が必要となる。
特徴復号部10から出力された復号特徴量109は、特徴同定部11において検索キー108とのマッチング処理が行われる。図18は実施の形態4による特徴同定部11の内部構成を示すブロック図である。図において、81a〜81eは、検索キー108と復号特徴量109とのマッチング処理を行うマッチング処理部、82は、各マッチング処理部81a〜81eの同定結果を総合的に判定し、マッチングの度合いの高いビデオコンテンツ111のポインタ110を出力するマッチング判定部である。
ここで、マッチング処理部81は複数用意され(81a〜81e等)、それぞれ対応する特徴量についてマッチング処理を行う。例えば、マッチング処理部81aでは、復号された復号特徴量109の中から「青」の特徴量、また別のマッチング処理部81bでは、「80%」の特徴量とのマッチングを行う。このとき、「水色」や「紺」といった「青」に近い色の特徴量や、「70%」や「90%」の特徴量に対しても、ユーザが求めている映像に近い可能性があるため、特徴同定部11は、検索キー108とのマッチングを行う際に、完全に一致するものだけではなく、一致の度合いが高いものも候補とする。
各マッチング処理部81a〜81eの同定結果は、マッチング判定部82に送られ、ここで各特徴量の一致の度合いが総合的に判定され、最終的にマッチング判定部82からの結果が、復号特徴量109と検索条件である検索キー108との一致度になる。一致の度合いを規定する閾値は、システムとして標準仕様のデフォルトの値が設定されるだけでなく、ユーザからも設定できるものとする(図示はしていない)。
特徴同定部11は、マッチングの度合いの高いビデオコンテンツ111のポインタ110を、サーバ2に対して出力し、サーバ2は、そのポインタ110に応じて、ビデオコンテンツ111をクライアント1に対して出力する。
クライアント1は、ビデオコンテンツ111をユーザI/F8に表示し、ユーザが所望したビデオコンテンツ111であれば、検索処理を終了する。異なっている場合には、さらに別の検索キー108が生成されるように、ユーザは再度パラメータの選択を行う。
ビデオコンテンツ111として、クライアント1に送られる画像データは、ビデオコンテンツ記憶部3に記憶されているビデオコンテンツ111の実態である必要はなく、前述の特徴ストリーム103の縮小画像(サムネイル画像)でも構わない。サムネイル画像を用いる場合には、サーバ2からクライアント1へ送られるビデオコンテンツ111のデータ量を削減でき、またユーザI/F8に表示できる画面のサイズは限定されているため、サムネイル画像であれば、複数の候補画像を同時に表示することが可能であり、検索処理の操作性が向上する。
ビデオコンテンツ記憶部3に記憶されている画像が、あらかじめ限定されている場合には、ユーザI/F8は、特徴ストリーム記憶部7に記憶されている特徴ストリーム103におけるサムネイル画像を、パラメータとして表示することも可能である。
以上のように、この実施の形態4によれば、上記のような検索処理を行うクライアント1,特徴復号部10,特徴同定部11により、ユーザは所望のビデオコンテンツ111の候補となるビデオコンテンツ111を、ほぼ自動的にかつ迅速に検索することが可能になる。特徴ストリーム103のデータ量は、一般に対応するビデオコンテンツ111よりも小さいので、特徴復号部10の処理も、ビデオ信号102を伸長復号する処理に比べれば極めて軽い処理である。
また、特徴ストリーム103の中に、サムネイル画像を含む場合は、多数の候補のビデオコンテンツ111の内容を一度に表示させ、かつブラウズするように構成することができるので検索の効率が著しく向上する。
なお、この実施の形態4では、図2のシステムを前提とした検索処理を実施するクライアント1について説明したが、この実施の形態におけるクライアント1と同じ動作で、静止画像のライブラリから、所望の画像データを検索する処理を実現することも可能である。この場合は、特徴ストリーム103はビデオコンテンツ111ごとでなく、各静止画像ごとに作成される。
また、特徴ストリーム103は、ネットワークを通じて遠隔地に伝送することも可能であり、受信側で検索処理部9だけでなく、特徴符号化部5のような特徴ストリーム103の生成機能を備えていれば、既存の特徴ストリーム103の記述を書き換えて、新しい特徴ストリーム103を生成したり、それによって、ビデオコンテンツ111の表示規則を変更するなどのコンテンツ操作を行うことも可能である。もちろん、クライアント1とサーバ2の機能を併せ持つ装置を構成することも可能である。
実施の形態5.
図2において、クライアント1が、上記の特徴同定部11において評価されたマッチングの度合いの情報を検索処理部9に入力して(図示せず)、表示する候補画像に対して、画像の順番や表示の大きさに重み付けを行うことにより、操作性を向上させることが可能である。図19は優先度付き検索候補提示の例を示す図であり、特徴同定部11におけるマッチングの度合いに対応して、検索された候補コンテンツを、優先度をつけてユーザに提示している様子を示している。
以上のように、この実施の形態5によれば、優先度付き検索候補を提示することにより、ユーザは、より自分の検索要求に即したコンテンツを迅速に探し出すことができる。
実施の形態6.
この実施の形態では、ユーザI/F8を介した他の検索条件入力方法について説明する。ユーザI/F8を用いて、概要の入力を行う方法としては、マウス等のポインターデバイスを用いて、直接形状を書き込んだり、色を塗ったりして、おおまかなスケッチを描くような方法が考えられる。
例えば、図19の第2候補のセグメントに示すように、画面の下の方に大きく「赤」色を描いたり、第3候補のセグメントに示すように、画面の左の方に小さく「赤い車」の絵を描いたり、第4候補のセグメントに示すように、画面の右のように、大きく「青」色を描いたりする。図2において、ユーザ指示・設定105により、ユーザの直感的な概要入力を行った場合には、検索キー108を抽出するための処理が、検索処理部9において行われる。
検索処理部9では、概要入力から、色情報などを用いて個々のセグメントに分割し、その色が描かれた面積を算出したり、画面内の位置を求めたりする。このような処理により、「青」、「赤」といった色情報や、各色情報の面積比率、各色の形状や位置などが抽出されて、検索キー108として出力される。
以上のように、この実施の形態6によれば、ユーザの直感的な概要入力を行うことにより、ビデオコンテンツ111を効率的に検索することができる。
実施の形態7.
実施の形態3で述べたセグメントの動き情報171が抽出されている場合には、検索キー108として、動き情報171を用いることが可能である。ユーザI/F8は、選択できるパラメータとして、「左から右へ」、「上から下へ」、「ズームイン」といった動き情報171を用意しておく。また、映像信号の時間的変化が抽出されている場合には、色の変化や明るさの変化のパラメータを用意しておき、ユーザが選択できるようにする。
ユーザが映像内容の概要入力を行う際に、1つの入力のみを行うのではなく、例えば、入力を2回行い、その2つの画像間の時間を入力できれば、検索処理部9は、2つの入力画像とその時間間隔から、オブジェクトの動き量や、映像信号の時間変化情報を抽出して、検索キー108を生成することができる。
以上のように、この実施の形態7によれば、動き情報171を用いてユーザが求めるビデオコンテンツ111を検索することができる。
以上のように、この発明に係る画像特徴符号化方法及び画像検索方法は、多くのユーザが様々な検索ツールを用いて、画像を検索するのに適している。
従来の画像検索処理システムを示すブロック図である。 この発明が利用される典型的なシステム構成を示すブロック図である。 ビデオコンテンツと特徴ストリームの対応を説明する図である。 この発明の実施の形態1による特徴符号化部5の内部構成を示すブロック図である。 この発明の実施の形態1による特徴符号化部5の動作を示すフローチャートである。 図4におけるキーフレーム決定部21の内部構成を示すブロック図である。 図4におけるキーフレーム決定部21の他の内部構成を示すブロック図である。 セグメントを説明する図である。 ビデオシーケンスの中でのセグメントの位置づけを説明する図である。 図4におけるセグメント抽出部23の内部構成を示すブロック図である。 MPEG−4のビデオオブジェクトプレーン(VOP)を説明する図である。 図10のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す図である。 カラーマップテーブル128の具体例を示す図である。 この発明の実施の形態2によるセグメント抽出部23の内部構成を示すブロック図である。 図14のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す図である。 この発明の実施の形態3によるセグメント抽出部23の内部構成を示すブロック図である。 図16のセグメント抽出部23を用いる場合の特徴符号化部5による特徴ストリーム103の構成を示す図である。 この発明の実施の形態4による特徴同定部11の内部構成を示すブロック図である。 この発明の実施の形態5による優先度付き検索候補提示の例を示す図である。
符号の説明
1 クライアント、2 サーバ、3 ビデオコンテンツ記憶部、4 復号処理部、5 特徴符号化部、6,8 ユーザI/F、7 特徴ストリーム記憶部、9 検索処理部、10 特徴復号部、11 特徴同定部、21 キーフレーム決定部、22 モニタ部、23 セグメント抽出部、24 セグメント符号化部、25 縮小画像生成部、26 縮小画像符号化部、27 多重化部、31 フレームカウンタ、32,33,42 スイッチ、41 シーンチェンジ検出部、51 セグメント抽出処理部、52 代表色割当部、53 サイズ算出部、91 前処理部、92 検索ツール、93 領域分割部、94 概念キーワード抽出部、95 シーン記述キーワード記述部、101 ビットストリーム、102 ビデオ信号、103 特徴ストリーム、104,105 ユーザ指示・設定、106 検索制御信号、107 検索指示、108 検索キー、109 復号特徴量、110 ポインタ、111 ビデオコンテンツ、121,141 キーフレーム設定指示、122 キーフレーム番号、123 キーフレーム画像、124 キーフレームサイズ、125 セグメントの代表色、126 セグメント番号、127 セグメントのサイズ情報、128 カラーマップテーブル、129 符号化されたセグメントの代表色、130 符号化されたセグメント番号、131 符号化されたセグメントのサイズ情報、132 縮小画像データ、133 符号化された縮小画像データ、151 セグメント内画像サンプル値、152 水平・垂直サイズ、171 動き情報、201 静止画像、202 述語記述、203 概念キーワード、204 シーン記述キーワード、205 あらかじめ用意されているキーワード。

Claims (6)

  1. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
    上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、上記キーフレームと時系列で離間した画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
  2. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレームであって、上記キーフレームと時系列で離間した画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
    上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。
  3. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
    上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記キーフレームを検索するための特徴量として上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
  4. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量を、上記キーフレームを検索するための特徴量として上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
    上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。
  5. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有する特徴ストリームを生成する画像特徴符号化方法において、
    上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量と、上記キーフレーム内の矩形セグメント内の色の統計量に関する特徴量とを上記矩形セグメントの特徴が記述される階層に符号化する符号化工程を備えたことを特徴とする画像特徴符号化方法。
  6. 画像フレーム群によって構成されるビデオシーケンスの特徴が記述される階層、上記ビデオシーケンス内で特定された画像フレームであるキーフレームの特徴が記述される階層及び上記キーフレーム内の所定の画像領域である矩形セグメントの特徴が記述される階層からなる階層構造を有し、上記キーフレーム内の矩形セグメントと上記キーフレーム以外の画像フレーム内における上記キーフレーム内の矩形セグメントに対応する矩形セグメントとの間の動きを示す動き特徴量と、上記キーフレーム内の矩形セグメント内の色の統計量に関する特徴量とを上記矩形セグメントの特徴が記述される階層に符号化することによって生成される特徴ストリームを復号し復号特徴量を得る復号工程と、
    上記復号工程によって得られた復号特徴量と入力された検索条件とに基づいて上記画像フレーム群から所望の画像フレームを検索する検索工程とを備えたことを特徴とする画像検索方法。
JP2007121649A 2007-05-02 2007-05-02 画像特徴符号化方法及び画像検索方法 Pending JP2007306559A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007121649A JP2007306559A (ja) 2007-05-02 2007-05-02 画像特徴符号化方法及び画像検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007121649A JP2007306559A (ja) 2007-05-02 2007-05-02 画像特徴符号化方法及び画像検索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000596738A Division JP4536261B2 (ja) 1999-01-29 1999-01-29 画像特徴符号化方法及び画像検索方法

Publications (1)

Publication Number Publication Date
JP2007306559A true JP2007306559A (ja) 2007-11-22

Family

ID=38840071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007121649A Pending JP2007306559A (ja) 2007-05-02 2007-05-02 画像特徴符号化方法及び画像検索方法

Country Status (1)

Country Link
JP (1) JP2007306559A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010263327A (ja) * 2009-04-30 2010-11-18 Kddi Corp 特徴量算出装置およびプログラム
JP2013506342A (ja) * 2009-09-29 2013-02-21 インテル・コーポレーション 異種のコンテンツソースの関連付け

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10234035A (ja) * 1997-02-20 1998-09-02 Tsushin Hoso Kiko 画像符号化復号化方法および装置
JPH10320400A (ja) * 1997-05-16 1998-12-04 Hitachi Ltd 映像の検索方法および装置
JP2000112975A (ja) * 1998-10-05 2000-04-21 Matsushita Electric Ind Co Ltd マルチメディア・コンテンツ検索方法
JP2000222584A (ja) * 1999-01-29 2000-08-11 Toshiba Corp 映像情報記述方法、映像検索方法及び映像検索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10234035A (ja) * 1997-02-20 1998-09-02 Tsushin Hoso Kiko 画像符号化復号化方法および装置
JPH10320400A (ja) * 1997-05-16 1998-12-04 Hitachi Ltd 映像の検索方法および装置
JP2000112975A (ja) * 1998-10-05 2000-04-21 Matsushita Electric Ind Co Ltd マルチメディア・コンテンツ検索方法
JP2000222584A (ja) * 1999-01-29 2000-08-11 Toshiba Corp 映像情報記述方法、映像検索方法及び映像検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010263327A (ja) * 2009-04-30 2010-11-18 Kddi Corp 特徴量算出装置およびプログラム
JP2013506342A (ja) * 2009-09-29 2013-02-21 インテル・コーポレーション 異種のコンテンツソースの関連付け

Similar Documents

Publication Publication Date Title
JP4536261B2 (ja) 画像特徴符号化方法及び画像検索方法
KR100492437B1 (ko) 화상 검색 시스템 및 화상 검색 방법
US8515933B2 (en) Video search method, video search system, and method thereof for establishing video database
CN100501742C (zh) 表示图像组的方法和装置
US20090077034A1 (en) Personal ordered multimedia data service method and apparatuses thereof
KR20150056381A (ko) 영상 처리 장치 및 방법
US5838830A (en) Vertex-based hierarchical shape representation and coding method and apparatus
TWI443535B (zh) 視訊搜尋方法、系統及建立視訊資料庫的方法
US20090079840A1 (en) Method for intelligently creating, consuming, and sharing video content on mobile devices
KR100547370B1 (ko) 객체 형상 정보를 이용한 요약영상 추출 장치 및 그방법과 그를 이용한 동영상 요약 및 색인 시스템
TW200921454A (en) Method and apparatus for video digest generation
Wang et al. A surveillance video analysis and storage scheme for scalable synopsis browsing
KR20090045288A (ko) 적응형 비디오 표현을 위한 방법 및 디바이스
JP2020528680A (ja) デジタルビデオコンテンツの修正
CA3057924A1 (en) System and method to optimize the size of a video recording or video transmission by identifying and recording a region of interest in a higher definition than the rest of the image that is saved or transmitted in a lower definition format
CN103984778A (zh) 一种视频检索方法及系统
US7020192B1 (en) Method of retrieving video picture and apparatus therefor
JP2002513487A (ja) オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム
JP4770875B2 (ja) 画像特徴データ生成装置、画像特徴判定装置および画像検索システム
JP2007306559A (ja) 画像特徴符号化方法及び画像検索方法
KR20050111801A (ko) 화상 검색 방법, 화상 특징량 부호화 방법 및 화상 특징량복호 방법
JPH09294277A (ja) 予測符号化画像データ管理方法及び装置
CN112446819A (zh) 合成影像生成方法、服务器以及记录介质
JP2006018831A (ja) 画像検索システムおよび画像検索方法
Meessen et al. Content browsing and semantic context viewing through JPEG 2000-based scalable video summary

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070910

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100921