JP2006505075A - 複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法 - Google Patents
複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法 Download PDFInfo
- Publication number
- JP2006505075A JP2006505075A JP2005501857A JP2005501857A JP2006505075A JP 2006505075 A JP2006505075 A JP 2006505075A JP 2005501857 A JP2005501857 A JP 2005501857A JP 2005501857 A JP2005501857 A JP 2005501857A JP 2006505075 A JP2006505075 A JP 2006505075A
- Authority
- JP
- Japan
- Prior art keywords
- edge
- image
- video sequence
- sub
- edge histogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
- G06V10/507—Summing image-intensity values; Histogram projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
減少されたビット数で複数のビデオシーケンスを表現するイメージ情報を有するデータベースを構成する方法を提供すること。
複数のビデオシーケンスを表現するデジタルビデオデータ情報−前記複数のビデオシーケンスのそれぞれは、前記デジタルビデオデータのイメージフレームセットを含む−を有するデータベース構築方法において、前記各ビデオシーケンスの前記各イメージフレームをL個(Lは正の整数)の副画像(sub−image)−前記各副画像は、S x T個(S及びTはそれぞれ正の整数)のイメージブロック(image−block)にさらに分割される−に分割する第1ステップと、前記各イメージブロックに対し、5個の基準エッジ(reference edge)−前記基準エッジは、4個の方向性(directional)エッジ及び1個の無方向性(non−directional)エッジを含む−のうち何れか1つを割り当て、前記各イメージフレームに対してL個のエッジヒストグラム(edge histogram)−前記エッジヒストグラムは、M個のエッジヒストグラムビンの(edge histogram bin)を含む−を生成する第2ステップと、前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンを、S x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第3ステップと、前記各イメージフレームの正規化されたエッジヒストグラムビンに基づいて、前記各ビデオシーケンスに対するL個の代表(representative)エッジヒストグラムを生成するために前記各ビデオシーケンスに対してM個の代表エッジヒストグラムビンを計算する第4ステップと、前記データベースに格納される前記各代表エッジヒストグラムに対する第2イメージ記述子としてM個の量子化インデックス値を生成するために、前記代表エッジヒストグラムビンを非線形的に量子化する第5ステップとを含む。
複数のビデオシーケンスを表現するデジタルビデオデータ情報−前記複数のビデオシーケンスのそれぞれは、前記デジタルビデオデータのイメージフレームセットを含む−を有するデータベース構築方法において、前記各ビデオシーケンスの前記各イメージフレームをL個(Lは正の整数)の副画像(sub−image)−前記各副画像は、S x T個(S及びTはそれぞれ正の整数)のイメージブロック(image−block)にさらに分割される−に分割する第1ステップと、前記各イメージブロックに対し、5個の基準エッジ(reference edge)−前記基準エッジは、4個の方向性(directional)エッジ及び1個の無方向性(non−directional)エッジを含む−のうち何れか1つを割り当て、前記各イメージフレームに対してL個のエッジヒストグラム(edge histogram)−前記エッジヒストグラムは、M個のエッジヒストグラムビンの(edge histogram bin)を含む−を生成する第2ステップと、前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンを、S x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第3ステップと、前記各イメージフレームの正規化されたエッジヒストグラムビンに基づいて、前記各ビデオシーケンスに対するL個の代表(representative)エッジヒストグラムを生成するために前記各ビデオシーケンスに対してM個の代表エッジヒストグラムビンを計算する第4ステップと、前記データベースに格納される前記各代表エッジヒストグラムに対する第2イメージ記述子としてM個の量子化インデックス値を生成するために、前記代表エッジヒストグラムビンを非線形的に量子化する第5ステップとを含む。
Description
本発明は、イメージデータ検索方法に関し、さらに詳細には、複数のイメージセットを含むビデオシーケンスに対する減少されたビットを有するエッジヒストグラム記述子のビット表現を構成する方法、及び前記エッジヒストグラム記述子のインコーディングされた表現から効果的に抽出された情報を利用してビデオシーケンスを検索する方法に関する。
JPEG(Joint Photographic Experts Group)は、停止イメージの国際的な標準であり、MPEG−1(Moving Picture Experts Group−1)及びMPEG−2は、動画の国際標準である。圧縮イメージ情報において、各イメージの特徴情報は、キーフレーム抽出、イメージ検索、ブラウジングなどのようなアプリケーションのために抽出される。
特徴情報を抽出するために、明暗またはカラーヒストグラムが広く用いられる。明暗ヒストグラム及びカラーヒストグラムそれぞれは、1つのイメージにおいて、明暗及びカラー(赤、緑または青)の相対的な頻度を示す。特に、最近では、デジタル格納された停止イメージまたはデジタルビデオデータ検索のためのヒストグラム比較方法がたくさん提案されている。ヒストグラムが、イメージ検索及び画面境界探知(Shot boundary detection)に用いられることによって、既存のヒストグラム技術が向上するであろう。すなわち、エッジヒストグラムのようにイメージ内容をさらに効率的に表現できるヒストグラム記述子が適用される必要がある。また、記述子の二進化表現が簡潔でなければならず、類似度マッチングのための演算の複雑度も低くならなければならない。
画面境界探知のためにカラーヒストグラム及びエッジマップを使用する方法が、「METHOD AND SYSTEM FOR DETECTING SCENES AND SUMMARIZING VIDEO SEQUENCES」という名称(特許文献1参照)で開示されている。前記発明が人間の視覚システムに比べて色情報を抽出し遂げるのに効果的であるとはいえ、明暗情報を抽出しきることができない。
また、色情報を受信した後、ヒストグラムインターセクション方法(histogram intersection technique)を利用してイメージの類似度を測定することによって、インデクシングする方法が論文に開示されている(非特許文献1参照)。しかし、この方法は、明暗及びエッジ情報を用いず、正確性が保障されない。また、既存の方法では、離散量子化方法を用いてヒストグラムを生成するため、同じ効果を得るためには相対的に多くの数のヒストグラムビン(histogram bin)が必要である。結果的に、格納及び類似度の測定において、非効率的である。その上、既存では、特徴抽出がピクセル単位でなされるため、特徴情報が制限して生成されるという問題がある。
一方、ヒストグラムがイメージ検索などに広く用いられるため、最近では、ヒストグラム情報を効率的に格納することができる方法が要求される。すなわち、既存のヒストグラム格納方法によると、ヒストグラムビン値が線形量子化(linear quatization)を通した正規化によって固定された大きさの格納領域に格納される。その結果、このようなヒストグラム格納に対する線形量子化方法は、ビット量が増加するほど問題点が深刻化する。
国際標準化機構(International Organization for Standardization,ISO)/国際電機標準会議(International Electrotechnical Commission,IEC)合同技術委員会(Joint Technical Committee 1)(ISO/IEC JTC1)では、MPEG−7と関連して内容基盤マルチメディアデータ検索(Content Based Multimedia Retrieval)技術に対する標準を制定している。
内容基盤マルチメディアは、デジタルビデオデータのような動画及び停止イメージを含む。デジタルビデオデータ、すなわちビデオシーケンス(video sequence)は、少なくとも1つの動きオブジェクト(moving object)に対する複数のイメージフレームを含む。ビデオシーケンス検索のために、動きオブジェクトに対する動き記述子(moving descriptor)は、イメージフレームから抽出されるが、動き記述子はイメージフレームの動きオブジェクトに対する動き情報を含む。動き記述子が抽出された後、質疑ビデオシーケンスとデータベースとに格納されているビデオシーケンスの動き記述子の間の類似度が演算される。最終的に、演算される類似度によって所望のビデオシーケンスが検索される。
米国特許第5,805,733号明細書
米国特許出願第09/978,668号明細書
国際公開第WO 02/33978号パンフレット
M.J.Swain,etal.,"Color Indexing",International Journal of Computer Vision,Vol.7−1,pp.11−32,1991
一般的に、内容基盤マルチメディア検索方法において、動き記述子として動き経路記述子(motion trajectory descriptor)が広く用いられる。動き経路記述子は、ビデオシーケンスのイメージフレームに含まれている動きオブジェクトの動き経路情報を含む。動き経路記述子は、動きオブジェクトの位置及び速度に基づいた媒介変数方程式(parametric equation)を利用することによって、動きオブジェクトの動き経路を含む。動き経路記述子を利用する従来の技術によると、花火または滝などのイメージを含むビデオデータのように多くの動きオブジェクトを含む「テクスチャビデオシーケンス」を表現できない。すなわち、テクスチャビデオシーケンスでは、動き経路記述子として表現されなければならない動きオブジェクトが非常に多い。結果的に、多数の動きオブジェクトに対する多くの動き経路記述子を抽出するための演算量が非常に多いという問題点がある。
したがって、テクスチャビデオシーケンスを含むデジタルビデオデータを検索するために、新しいデジタルビデオデータ検索方法及び強化された技術方法が要求される。
本発明は、上述した従来の技術の問題点を解決するためになされたものであって、その目的とするところは、減少されたビット数で複数のビデオシーケンスを表現するイメージ情報を有するデータベースを構成する方法を提供することにある。
本発明のもう1つの目的は、質疑ビデオシーケンスに応じて、高速検索と正確度の高さでデータベースに格納されている対応ビデオシーケンスを検索する方法を提供することにある。
本発明のもう1つの目的は、質疑ビデオシーケンスに応じて、高速検索と正確度の高さでデータベースに格納されており、テクスチャビデオを含む対応ビデオシーケンスを検索する方法を提供することにある。
前記のような目的を達成するために本発明は、複数のビデオシーケンスを表現するデジタルビデオデータ情報−前記複数のビデオシーケンスのそれぞれは、前記デジタルビデオデータのイメージフレームセットを含む−を有するデータベース構築方法において、前記各ビデオシーケンスの前記各イメージフレームをL個(Lは正の整数)の副画像(sub−image)−前記各副画像は、S x T個(S及びTはそれぞれ正の整数)のイメージブロック(image−block)にさらに分割される−に分割する第1ステップと、前記各イメージブロックに対し、5個の基準エッジ(reference edge)−前記基準エッジは、4個の方向性(directional)エッジ及び1個の無方向性(non−directional)エッジを含む−のうち何れか1つを割り当て、前記各イメージフレームに対してL個のエッジヒストグラム(edge histogram)−前記エッジヒストグラムは、M個のエッジヒストグラムビンの(edge histogram bin)を含む−を生成する第2ステップと、
前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンを、S x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第3ステップと、前記各イメージフレームの正規化されたエッジヒストグラムビンに基づいて、前記各ビデオシーケンスに対するL個の代表(representative)エッジヒストグラムを生成するために前記各ビデオシーケンスに対してM個の代表エッジヒストグラムビンを計算する第4ステップと、前記データベースに格納される前記各代表エッジヒストグラムに対する第2イメージ記述子としてM個の量子化インデックス値を生成するために、前記代表エッジヒストグラムビンを非線形的に量子化する第5ステップとを含むことを特徴とする方法を提供する。
前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンを、S x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第3ステップと、前記各イメージフレームの正規化されたエッジヒストグラムビンに基づいて、前記各ビデオシーケンスに対するL個の代表(representative)エッジヒストグラムを生成するために前記各ビデオシーケンスに対してM個の代表エッジヒストグラムビンを計算する第4ステップと、前記データベースに格納される前記各代表エッジヒストグラムに対する第2イメージ記述子としてM個の量子化インデックス値を生成するために、前記代表エッジヒストグラムビンを非線形的に量子化する第5ステップとを含むことを特徴とする方法を提供する。
また、前記のような目的を達成するために本発明は、データベースを基盤に、質疑ビデオシーケンスに対するデジタルビデオデータのイメージフレームセットを有する対応するビデオシーケンスを検索する方法において、前記質疑ビデオシーケンスに対するイメージ記述子として、前記質疑ビデオシーケンスのL個(Lは正の整数)代表エッジヒストグラム−前記各代表エッジヒストグラムは、前記質疑ビデオシーケンスに含まれたイメージフレームの副画像に含まれた5個の基準エッジの代表空間分布を示し、前記基準エッジは、4個の方向性エッジと1個の無方向性エッジを含む−を計算する第1ステップと、デジタルビデオデータ情報に基づき、前記データベースからビデオシーケンスに対する複数のイメージ記述子−前記各ビデオシーケンスに対する各イメージ記述子は、前記各ビデオシーケンスに対するL個の代表エッジヒストグラムビンを含む−を抽出する第2ステップと、前記質疑ビデオシーケンスに対するイメージ記述子を、前記各ビデオシーケンスに対する前記各イメージ記述子と比較し、比較結果を生成する第3ステップと、前記比較結果によって、前記質疑ビデオシーケンスと類似の少なくとも1つのビデオシーケンスを検索する第4ステップとを含むことを特徴とする方法を提供する。
また、前記のような目的を達成するために本発明は、それぞれが複数のデジタルビデオデータイメージフレームを有するビデオシーケンスに対するイメージ記述子を抽出する方法において、対象イメージフレームとしてイメージフレームのうち何れか1つを選択する第1ステップと、前記対象イメージのL個のエッジヒストグラム−前記エッジヒストグラムそれぞれは、5個の正規化されたエッジヒストグラムビンを有して、副画像に5個の基準エッジの空間分布を示し、前記基準エッジは4個の方向性エッジ及び1個の無方向性エッジを含む−を生成するために、Lx5個(Lは正の整数)の正規化されたエッジヒストグラムビンを計算する第2ステップと、対象イメージとして、次のイメージフレームを選択する第3ステップと、全てのイメージフレームのL個のエッジヒストグラムが計算されるまで、前記第2ステップ及び第3ステップを繰り返す第4ステップと、前記各イメージフレームのL個のエッジヒストグラムに基づき、前記ビデオシーケンスに対するLx5個の正規化されたエッジヒストグラムビンを有する代表エッジヒストグラムを計算する第5ステップと、前記ビデオシーケンスに対するイメージ記述子として、Lx5個の量子化インデックス値を生成するために前記代表エッジヒストグラムのLx5個の正規化されたエッジヒストグラムビンを非線形的に量子化する第6ステップと、前記Lx5個の量子化インデックス値を前記データベースに格納する第7ステップとを含むことを特徴とする方法を提供する。
前記のような本発明は、複数のイメージフレームを有するビデオシーケンスに対する量子化インデックス値を格納するのに必要なビットの数が非常に減少できる。また、類似度の演算の複雑度は、非線形量子化によって、非常に減少できる。
また、本発明は、エッジヒストグラム記述子を利用してテクスチャビデオを含むデジタルビデオデータを効率的に検索できる。
以下の内容は、ただ本発明の原理を例示する。したがって、当業者は、本明細書に明確に説明されるか、または図示できなかったが、本発明の原理を具現して本発明の概念と範囲とに含まれた多様な装置を発明できるものである。また、本明細書に列挙された全ての条件付き用語及び実施の形態は原則的に、本発明の概念が分かるようにするための目的としてだけ明確に意図され、このように特別に列挙された実施の形態及び状態に制約的ではないものと理解しなければならない。また、本発明の原理、観点及び実施の形態だけでなく、特定実施の形態を列挙する全ての詳細な説明は、このような事項の構造的及び機能的均等物を含むように意図されなければならないと理解しなければならない。また、このような均等物は、現在公知された均等物だけでなく、将来に開発される均等物、すなわち構造と関係がなく同じ機能を行うように発明された全ての素子を含むこと理解しなければならない。したがって、例えば、本明細書のブロック図は、本発明の原理を具体化する例示的な回路の概念的な観点を示すものと理解しなければならない。これと同様にし、全てのフローチャート、状態変換図、意思コードなどは、コンピュータが読み取り可能な媒体に実質的に示すことができ、コンピュータまたはプロセッサが明確に図示されたのか否かを問わず、コンピュータまたはプロセッサによって行われる多様なプロセスを示すものと理解しなければならない。
プロセッサ、またはこれと類似の概念で表示された機能ブロックを含む図に示す多様な素子の機能は、専用ハードウェアだけでなく、適切なソフトウェアと関連してソフトウェアを実行する能力を有するハードウェアの使用として提供され得る。プロセッサにより提供されている時、前記機能は、単一専用プロセッサ、単一共有プロセッサ、または複数の個別的プロセッサにより提供され得り、これらのうちの一部は共有できる。またプロセッサ、制御がまたはこれと類似の概念で提示される用語の明確な使用は、ソフトウェアを実行する能力を有したハードウェアを排他的に引用して解析されるか否か、制限無しでデジタル信号プロセッサ(DSPハードウェア、ソフトウェアを格納するためのロム(ROM)、ラム(RAM)及び非揮発性メモリを暗示的に含むものと理解しなければならない。周知寛容の他のハードウェアも含まれ得る。同様に、図に示しているスイッチは、概念的にだけ提示されたものであり得る。このようなスイッチの作用は、プログラムロジックまたは専用ロジックを通してプログラム制御及び専用ロジックの相互作用を通してか、または手動で行うことができるものと理解しなければならない。特定の技術は、本明細書のさらに詳細な理解として設計者によって選択され得る。
本明細書の請求の範囲において、詳細な説明に記載された機能を行うための手段として表現された構成要素は、例えば、前記機能を行う回路素子の組み合わせまたはファームウェア/マイクロコードなどを含む全ての形式のソフトウェアを含む機能を行う全ての方法を含むものとして意図され、上記の機能を行うように、上記ソフトウェアを実行するための適切な回路と組み合わせられる。このような請求の範囲により定義される本発明は、多様に列挙された手段により提供される機能などが結合され、請求項が要求する方式と結合されるため、上記の機能を提供できるいかなる手段も本明細書から把握されるものと均等なものとして理解しなければならない。
上述した目的、特徴及び長所などは、添付された図面と関連した次の詳細な説明を通してより明確になるだろう。まず、各図面の構成要素などに参照番号を付することにおいて、同じ構成要素などに限っては、例え、異なる図面上に表示されても、できるだけ同じ番号を持つようにしていることに留意しなければならない。また、本発明を説明するにおいて、関連した公知技術に対する具体的な説明が本発明の要旨を不必要にする恐れがあると判断される場合、その詳細な説明を省略する。以下、添付された図面を参照して本発明に係る好ましい実施例を詳細に説明する。
図1Aは、本発明の一実施の形態によって対応するビデオシーケンスに対する複数のイメージ記述子を構成するための並列プロセスを示すブロック図である。図に示しているように、対象ビデオシーケンスは、複数のイメージフレームを含み各イメージフレームのエッジヒストグラムが同時に生成される。
処理ブロック(S101)でK個のイメージフレームが、処理ブロック(S102)に入力される。処理ブロック(S102)で、各イメージフレームは、N x N個(Nは正の整数)、例えば4 x 4個の副画像に分割される。各イメージフレームに対する副画像は、処理ブロック(S103)に送信されてビデオシーケンスの各イメージフレームに対するエッジヒストグラムが生成される。すなわち、各副画像に対するエッジヒストグラムが複数のエッジによって獲得され、各イメージフレームに対する80個の正規化された局部(local)エッジヒストグラムビンが処理ブロック(S104)に送信される。
処理ブロック(S104)で、ビデオシーケンスに含まれた各イメージフレームの80個の正規化されたエッジヒストグラムビンに基づいて、代表エッジヒストグラムビンの80個を計算することによって、第1イメージ記述子として対象ビデオシーケンスの代表エッジヒストグラムが計算される。
各代表エッジヒストグラムビンは、各イメージフレームの対応する正規化されたエッジヒストグラムビンの平均値(mean value)、または中間値(median value)のうち何れか1つであり得る。また、各代表エッジヒストグラムビンは、対応する正規化されたエッジヒストグラムビン間のインターセクション値(intersection value)、またはキー値(key value)を選択し、各イメージフレームの対応する正規化されたエッジヒストグラムビンのうち何れか1つにすることができる。
一方、代表エッジヒストグラムを計算した後、オブジェクトの変化図(variation)を示す他の統計値を代表エッジヒストグラムを有する要求されるビデオシーケンスを検索するのに利用できる。他の統計値は、2個以上のイメージフレームの差を示す分散(variance)を含む。
処理ブロック(S105)で、代表エッジヒストグラムは非線形的に量子化されて対応する第2イメージ記述子、例えば、量子化インデックス値グループが生成される。
次に、対象ビデオシーケンスに対する第2イメージ記述子は、データベース(S106)に入力されて格納される。前記プロセスは、データベースに格納される複数のビデオシーケンスを利用して行われる。
図1Bは、本発明によってデジタルビデオデータのイメージフレームセットを含むビデオシーケンスのそれぞれに対する複数のイメージ記述子を有するデータベースを構成するための直列プロセスを説明するためのフローチャートである。
上述のように、ビデオシーケンスは、複数のイメージフレームを有して、各イメージフレームのエッジヒストグラムが直列的に生成されて代表エッジヒストグラムが獲得される。
ステップS110で、ビデオシーケンスのイメージフレームの1つが、対象イメージフレームに選ばれる。ステップS111で、選ばれたイメージフレームは、N x N個、例えば、4 x 4個の副画像に分割される。ステップS112で、エッジヒストグラムが副画像から抽出される。ステップS113で、全ての副画像のエッジヒストグラムが生成されたのか判断される。全ての副画像のエッジヒストグラムが生成されない場合には、ステップS114で次の副画像が選択され、次の副画像のエッジヒストグラムがステップS112で生成される。全ての副画像のエッジヒストグラムが生成された場合には、ステップS115でビデオシーケンスの次に、イメージフレームを選択するために整数Kが1つ増加される。次いで、ステップS116で、ビデオシーケンスの全てのイメージフレームが選択されたのか判断される。ビデオシーケンスの全てのイメージフレームが選択されない場合には、次のイメージフレームが新しい対象フレームとして選択され、前記ステップS110ないしステップS115が繰り返される。すなわち、各副画像に対するエッジヒストグラムが、各副画像に含まれた複数のエッジによって獲得され、各イメージフレームに対する80個の正規化された局部エッジヒストグラムビンが獲得される。
ビデオシーケンスに含まれた全てのイメージフレームの全てのエッジヒストグラムが生成された後、ステップS117で、各イメージフレームの80個の正規化されたエッジヒストグラムビンに基づいて、80個の代表エッジヒストグラムビンを計算することによって、第1イメージ記述子として代表エッジヒストグラムが生成される。各代表エッジヒストグラムビンは、全てのイメージフレームの対応する正規化された局部エッジヒストグラムビンの平均値、または中間値のうち何れか1つになることができる。また、各代表エッジヒストグラムビンは、正規化されたエッジヒストグラムビンの間のインターセクション値、またはキー値を選択し、全てのイメージフレームの対応する正規化された局部エッジヒストグラムビンのうち何れか1つにすることができる。
ステップS118において、代表エッジヒストグラムは、非線形的に量子化されて対応する第2イメージ記述子、例えば、量子化インデックス値グループが生成される。次いで、ビデオシーケンスに対する第2イメージ記述子は、データベースに入力されて格納される。前記プロセスは、全てのビデオシーケンスがデータベースに格納されるまで繰り返される。
図1Cは、本発明の他の実施の形態によって、デジタルビデオデータのイメージフレームを有する対応するビデオシーケンスに対する複数のイメージ記述子を有するデータベースを構成するための直列プロセスを説明するためのフローチャートである。図に示しているように、図1Cのフローチャートは、ステップS119を除いては、図1Bのフローチャートと同じである。したがって便宜上ステップS110ないしステップS117の説明は省略する。
ステップS117で代表エッジヒストグラムが生成された後、ステップS119では、2個以上のイメージフレーム間の差を示す変化値(variation value)が計算される。変化値は、デジタルビデオデータに含まれた各イメージフレームのエッジヒストグラムに対する変化図も計算することによって獲得できる。オブジェクトの変化度も示す変化値はまた要求されるビデオシーケンスを検索するのに利用される。分散または標準偏差(Standard deviation)が変化値になることができる。分散は、代表エッジヒストグラムのようにデジタルビデオデータを詳細に検索するのに利用され得る。
図2ないし図6は、図1で説明された第1イメージ記述子を獲得するプロセスを説明するための図であり、図2は、イメージ記述子によって表現される16個の副画像を有するイメージを説明するための図、図3Aないし3Eは、本発明によってエッジ決定プロセスに用いられる5種類のエッジを説明するための図、図4は、それぞれのフィルタ係数が割り当てられた4個の副ブロックに分割されたイメージブロックを説明するための図、図5Aないし5Eは、イメージブロックであり、各イメージブロックの副ブロックに5個のエッジに対する対応フィルタ係数が割り当てられたイメージブロックを説明するための図、図6は、各イメージフレームに対応する80個のエッジヒストグラムビンの配列を説明するための図である。
図2に示しているように、ビデオシーケンスに含まれた各イメージフレームの対応するエッジヒストグラムを獲得するために、デジタルビデオデータの入力イメージ200は4 x 4個の重ならない(non−overlapping)副画像に分割され、16個の長方形の副画像(211ないし226)を形成する。それぞれの副画像は、多数のピクセルを含む。
エッジヒストグラムを抽出するために各副画像は、M x T個の重ならない正四角形のイメージブロックに分割される。イメージブロックの大きさは、イメージの大きさによって決定される。各イメージブロックは、エッジのうち何れか1つを用いて、イメージブロックが記述されるエッジ決定過程で用いられる。
本発明の一実施の形態によって、図3Aないし3Eに示しているように、エッジ決定過程には、5個のエッジが含まれ、そのうちの1つのエッジがイメージブロックに対して選択される。エッジは垂直エッジ、水平エッジ、45゜エッジ及び135゜エッジ(301、303、305及び307)のような方向性(directional)エッジ及び特定方向を指さない、少なくとも1つのエッジを含む無方向性(non−directional)エッジを含む。
副画像に対するエッジヒストグラムを生成するために、イメージブロックからエッジ特徴を探し出すことが必要である。すなわち、エッジ決定過程は、イメージブロックにどのようなエッジを割り当てるのか決定するために行われる。このようなエッジ抽出は、空間領域でデジタルフィルタを適用する方法を利用して行われる。
図4に示しているように、エッジ決定過程でイメージブロックは、4個の副ブロックに分割される。すなわち、図に示しているように、図面符号400は、イメージブロックを、図面符号411、413、415及び417は、それぞれ副ブロックを示す。副ブロックは、イメージブロック400に対し0、1、2及び3にレーベルされる。ここで、各副ブロックに対応するフィルタ係数が割り当てられてエッジの大きさのセットが獲得できる。
本発明の一実施の形態によると、各イメージブロック400は、2 x 2個の副ブロックに分割され、各副ブロックは、0、1、2、または3にレーベルされる。
各イメージブロックに対し、次の数式を用いて5個種類のエッジに対応する5個のエッジの大きさのセットが獲得される。
前記数式1ないし数式5で、mv(i,j)、mh(i,j)、md−45(i,j)、md−135(i,j)及びmnd(i,j)それぞれは、(i,j)番目イメージブロックに対する垂直エッジ、水平エッジ、45゜エッジ、135゜エッジ及び無方向性エッジの大きさ、ak(i,j)は、(i,j)番目イメージブロックでKに割り当てられた副ブロックに対する平均グレイレベル(grey level)、fv(k)、fh(k)、fd−45(k)、fd−135(k)及びfnd(k)は、それぞれKに割り当てられた副ブロックで垂直エッジ、水平エッジ、45゜エッジ、135゜エッジ及び無方向性エッジに対するフィルタ係数を意味する。ここでK=0、1、2及び3は、それぞれの副ブロックにレーベルリングされる数を示す。
図5Aないし図5Eは、各エッジに対するフィルタ係数を示す。図に示しているように、図面符号501、503、505、507及び509は、それぞれ前記垂直エッジ、水平エッジ、45゜エッジ、135゜エッジ及び無方向性エッジに対するフィルタ係数を示す。各イメージブロックは、5個のエッジの大きさのうちで選択されたエッジの大きさを利用して表現できる。ここで、それぞれの大きさは、各エッジに対して計算される。
1つのイメージブロックに対応するエッジを決定するために、前記数式を通して獲得された5個のエッジの大きさが相互に比較される。比較結果、最大エッジの大きさを有するエッジによってイメージブロックが表現される。ここで、最大エッジの大きさは、所定の臨界値より大きくなければならない。万一、最大エッジの大きさが、所定臨界値より小さい場合、当該イメージブロックは、エッジを含まないものと決定される。
エッジの大きさの比較結果として、イメージブロックに対するエッジが決定されると、副画像に対する対応エッジヒストグラムビンが1つ増加される。エッジヒストグラムビンには、垂直ビン、水平ビン、45゜ビン、135゜ビン及び無方向性ビンの5個の種類がある。5個のエッジヒストグラムビンは、エッジヒストグラムを表現するための構成要素である。副画像に含まれた全てのイメージブロックに対する対応エッジが検出された後、検出された各エッジに対応するエッジヒストグラムビンが1つ増加され、局部エッジヒストグラムという副画像に対するエッジヒストグラムが生成される。16個の副画像全てに対し、エッジ検出過程及びエッジヒストグラム生成過程が行われる。
局部エッジヒストグラムは、1つの副画像に含まれた5個のエッジの分布を示す。すなわち、1つの副画像に対するエッジヒストグラムを示す。副画像の数は、16個に固定されており、各副画像には、5個のエッジヒストグラムビンが割り当てられているため、16個の副画像の全てに対する対応局部エッジヒストグラムを生成するためには、80個のエッジヒストグラムビンが必要である。すなわち、ビン番号(Bin Counts)の各ビンの意味は、表1のように定義される。
ここで、ビン番号[0]、ビン番号[1]、...、ビン番号[79]は、それぞれエッジヒストグラム記述子に対するインコーディングされたビンを示す。
図6は、1つのビデオシーケンスに含まれた各イメージフレームに対応する80個のエッジヒストグラムビンの配列を示す説明図である。
例えば、図2のイメージ200の(0,0)において、副画像211に対するエッジヒストグラムは、第1イメージフレームの垂直エッジヒストグラムビン、水平エッジヒストグラムビン、45゜エッジヒストグラムビン、135゜エッジヒストグラムビン及び無方向性エッジヒストグラムビン(600、601、602、603及び604)を含む。
図6では、ビン番号[1,0]、ビン番号[1,1]、ビン番号[1,3](図示せず)及びビン番号[1,4](図示せず)で示されている。同じように、図2の(0,1)で副画像212に対する局部エッジヒストグラムは、5個のエッジヒストグラムビンの(605、606、607、608及び609)を副画像211に対するビンと同じ順序で含む。
図6では、ビン番号[1,5]、ビン番号[1,6]、ビン番号[1,7]及びビン番号[1,9](図示せず)で示されている。したがって、16個の副画像全てに対する16個のエッジヒストグラムのそれぞれを生成するためには、総80個のエッジヒストグラムビンが必要である。ここで、80個のビンは、5個のエッジヒストグラムビンを16個の副画像に掛け算することで計算される。
ビデオシーケンスの各イメージフレームに対するエッジヒストグラムを獲得するために、1つの副画像に対する局部エッジヒストグラムの各エッジヒストグラムビンは、各ビンを副画像に含まれたイメージブロックの総数で除算して正規化される。したがって、局部エッジヒストグラムに対するエッジヒストグラムビンのそれぞれは、0から1までの範囲にあるビン値を有するようになる。
デジタルビデオデータに含まれた各イメージフレームの全てのエッジヒストグラムを計算した後、ビデオシーケンスに含まれたイメージフレームの80個の正規化された局部エッジヒストグラムビンに基づいて、80個の代表エッジヒストグラムビンを計算することによって、第1イメージ記述子としてビデオシーケンスの代表エッジヒストグラムが計算される。
各代表エッジヒストグラムビンは、全てのイメージフレームに含まれた対応する正規化されたエッジヒストグラムビンの平均値、または中間値のうち何れか1つになることができる。また、各代表エッジヒストグラムビンは、同じ位置の局部エッジヒストグラムビンの間のインターセクション値、またはキー値を選択して全てのイメージフレームの対応する正規化されたエッジヒストグラムビンのうち何れか1つにすることができる。
例えば、代表エッジヒストグラムを計算するために平均値が使われる場合、代表エッジヒストグラムは次のように計算される。
図6に示しているように、各イメージフレームに対する同一位置の対応エッジヒストグラムビンが合算され、ビデオシーケンスに含まれたフレームの個数で除算され、代表エッジヒストグラムビンが生成される。例えば、対応エッジヒストグラムビンのビン番号[K,0]、ビン番号[K−1,0]、...、ビン番号[1,0]が合算され、フレームの個数で除算されて代表エッジヒストグラムビンのビン番号[0]が生成される。全ての他のエッジヒストグラムビンもまた合算され、デジタルビデオデータのフレーム個数で除算され、ビン番号[0]、ビン番号[1]、...、ビン番号[79]のような代表エッジヒストグラムビンが生成される。全ての代表エッジヒストグラムビンが計算された後、上述のように、ビデオシーケンスの代表エッジヒストグラムは、ビデオシーケンスの第1イメージ記述子として格納される。
デジタルビデオデータに含まれた代表エッジヒストグラムの正規化されたビン値は、図1Aの処理ブロック(S105)に送信される。処理ブロック(S105)で、代表エッジヒストグラムは、多数の量子化テーブルを利用して非線形的に量子化される。
すなわち、第2イメージ記述子を獲得するために正規化ビン値は、量子化され、二進表現で獲得される。量子化は、代表エッジヒストグラムの正規化された80個ビン値に対して行われる。ここで、正規化ビン値は、非線形的に量子化されるため、前記二進表現のために用いられる全体ビット数は、最小化される。前記プロセスは、データベースに格納される全てのビデオシーケンスに対して行われる。
その結果、量子化索引値グループが、第2イメージ記述子として獲得される。非線形量子化は、例えば、本発明の一実施の形態によって、ロイド−マックス(Lloyd−Max)アルゴリズムで設計された非線形量子化器を用いて実行される。
量子化を行うために、表2ないし表6のように垂直エッジヒストグラムビン、水平エッジヒストグラムビン、45゜エッジヒストグラムビン、135゜エッジヒストグラムビン及び無方向性エッジヒストグラムビンに対する5個の非線形量子化テーブルがそれぞれ用いられる。
ここで、本発明によると、8個の量子化レベルを有するためには、量子化テーブルでビット/ビンの最適数は3に固定される。第2イメージ記述子は、データベース(S106)に格納され、質疑イメージ入力に応答して検索される。
図7は、本発明によって、質疑ビデオシーケンスの入力に応答して要求されるビデオシーケンスを検索するプロセスを説明するための図である。
質疑イメージは、受信される場合、質疑ビデオシーケンスは図1Aの処理ブロック(S101)及び処理ブロック(S103)で処理される。すなわち、質疑ビデオシーケンスに対する各イメージフレームのエッジヒストグラムは、上述のような方法で獲得され、質疑ビデオシーケンスに対する各イメージフレームのエッジヒストグラムは、質疑ビデオシーケンスに対する正規化されたエッジヒストグラムを含む。
次に、ビデオシーケンスに含まれた各イメージフレームの局部エッジヒストグラム、ビデオシーケンスの代表エッジヒストグラム、質疑ビデオシーケンスに対する全域(global)エッジヒストグラム及び半−全域(semi−global)ヒストグラムがイメージ記述子である正規化エッジヒストグラムビンに基づいて生成される。全域エッジヒストグラムは、全体イメージ区域でのエッジ分布を示す。全域エッジヒストグラム及び半−全域ヒストグラムは以下でさらに詳細に記述される。
一方、図7には、本発明の好ましい実施の形態によって、多数の非線形逆量子化(inverse quantization)テーブルを利用することによって、質疑ビデオシーケンスの入力に応じて要求されるデジタルビデオデータを検索する方法が示されている。ここで、非線形逆量子化テーブルは、前記表2ないし表6がなり得る。
質疑ビデオシーケンスが入力されると、処理ブロック(S101)と同じ過程、すなわち、イメージ分割過程が処理ブロック(S701)で実行される。
処理ブロック(S702)では、処理ブロック(S103)と同じ過程、すなわち、各イメージフレームのエッジヒストグラム生成過程が実行される。
処理ブロック(S703)では、ビデオシーケンスに含まれた各イメージフレームのエッジヒストグラムに基づいて、ビデオシーケンスの代表エッジヒストグラムが生成される。
ビデオシーケンスの代表エッジヒストグラムが計算された後、図1Aの処理ブロック(S105)と同じように非線形量子化過程が行われる。
高い検索性能を得るために、質疑ビデオシーケンスに対する全域エッジヒストグラム及び半−全域エッジヒストグラムは、代表エッジヒストグラムの非線形逆量子化過程(S704)後、処理ブロック(S703)で生成された代表エッジヒストグラムビンに基づいて、さらに生成され得る。
データマッチング過程において、各ビデオシーケンスに対する複数の第2イメージ記述子が事前設定されたデータベース(S107)から順次に検索される。格納されている対象ビデオシーケンスにおいて、量子化インデックス値グループが検索され、非線形逆量子化テーブル(S704)に送信される。非線形逆量子化テーブルの利用を通して量子化インデックス値が検索されたビデオシーケンスに対する正規化されたエッジヒストグラムビンに変換される。
処理ブロック(S705)で、要求されるビデオシーケンス検索のために質疑ビデオシーケンスの代表エッジヒストグラム及び検索されたビデオシーケンスが比較される。
検索されたビデオシーケンスと質疑ビデオシーケンスとの詳細なマッチングのために、全域エッジヒストグラム及び半−全域エッジヒストグラムが利用され得る。例えば、データマッチング処理ブロック(S705)は、全域エッジヒストグラム及び半−全域エッジヒストグラムを利用して説明される。
正規化エッジヒストグラムビンは、ビデオシーケンスの代表エッジヒストグラム、質疑ビデオシーケンスに対する全域エッジヒストグラム及び半−全域エッジヒストグラムを抽出するのに用いられる。すなわち、検索性能を高めるために、正規化された代表エッジヒストグラムビンの、全域エッジヒストグラム及び半−全域エッジヒストグラムを有する代表エッジヒストグラムが、データマッチング過程で検索ビデオシーケンスに対するイメージ記述子として利用される。
本発明の出願人が出願した「NON−LINEAR QUANTIZATION AND SIMILARITY MATCHING METHOD FOR RETRIEVING IMAGE DATA」という名称の2001年10月18日出願の米国出願(特許文献2参照)およびこれに対応する2002年04月25日公開のPCT出願(特許文献3参照)は、全域エッジヒストグラム及び半−全域エッジヒストグラムの生成に対して詳細に開示しており、その開示される事項は、本明細書で参照することによって結合する。
データマッチング過程(S705)で、質疑ビデオシーケンスAと対象ビデオシーケンスBとの代表エッジヒストグラム、半−全域エッジヒストグラム及び全域エッジヒストグラムの間の距離を計算することによって、2ビデオ間の類似度が次のように決定される。
ここで、Local_A[i]とLocal_B[i]とは、それぞれビデオシーケンスA及びBの代表エッジヒストグラムそれぞれのi番目ビンに割り当てられたインデックス値、Global_A[]及びGlobal_B[]は、それぞれデジタルビデオデータA及びBの全域エッジヒストグラムそれぞれのi番目ビンに割り当てられたインデックス値、Semi_Global_A[]及びSemi_Global_B[]は、それぞれビデオシーケンスA及びBの半−全域エッジヒストグラムそれぞれのi番目ビンに割り当てられたインデックス値を示す。全域エッジヒストグラムに対するビンの個数は代表エッジヒストグラム及び半−全域エッジヒストグラムのそれより相対的に小さいため、加重値5が前記数式に適用される。
上述のように、数式6を利用して逆量子化テーブルを参照することによって、2個のデジタルビデオデータAとBとの間の類似度が測定できる。この場合、イメージに対する代表エッジヒストグラムビン値は、逆量子化テーブルを参照してデコーディングされるため、数式6は正確な検索のための応用分野で広く用いられる。ここで、逆量子化テーブルそれぞれは、表2ないし表6に示されたエッジ量子化テーブルそれぞれに対応する。
前記過程は、全てのビデオシーケンスが処理されるまで繰り返される。
尚、本発明は、上記した本実施の形態に限られるものではなく、本発明の技術的思想から逸脱しない範囲内で多様に変更が可能であり、それらも本発明の技術的範囲に属する。
Claims (41)
- 複数のビデオシーケンスを表現するデジタルビデオデータ情報−前記複数のビデオシーケンスのそれぞれは、前記デジタルビデオデータのイメージフレームセットを含む−を有するデータベース構築方法において、
前記各ビデオシーケンスの前記各イメージフレームをL個(Lは正の整数)の副画像(sub−image)−前記各副画像は、S x T個(S及びTはそれぞれ正の整数)のイメージブロック(image−block)にさらに分割される−に分割する第1ステップと、
前記各イメージブロックに対し、5個の基準エッジ(reference edge)−前記基準エッジは、4個の方向性(directional)エッジ及び1個の無方向性(non−directional)エッジを含む−のうち何れか1つを割り当て、前記各イメージフレームに対してL個のエッジヒストグラム(edge histogram)−前記エッジヒストグラムは、M個のエッジヒストグラムビン(edge histogram bin)を含む−を生成する第2ステップと、
前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンを、S x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第3ステップと、
前記各イメージフレームの正規化されたエッジヒストグラムビンに基づいて、前記各ビデオシーケンスに対するL個の代表(representative)エッジヒストグラムを生成するために、前記各ビデオシーケンスに対してM個の代表エッジヒストグラムビンを計算する第4ステップと、
前記データベースに格納される前記各代表エッジヒストグラムに対する第2イメージ記述子としてM個の量子化インデックス値を生成するために、前記代表エッジヒストグラムビンを非線形的に量子化する第5ステップと
を含むことを特徴とする方法。 - 前記方向性エッジが、
垂直(vertical)エッジ、水平(horizontal)エッジ、45゜エッジ及び135゜エッジを含み、
前記無方向性エッジが、
前記4の方向性エッジを除外した、決まった方向がないエッジを示すことを特徴とする請求項1に記載の方法。 - 前記第1ステップが、
前記各イメージフレームをN x N個(Nは正の整数)の重ならない(non−overlapping)副画像に分割し、L個の長方形の模様の副画像を生成する第11ステップと、
前記副画像をS x T個の重ならないブロックに分割し、S x T個の正四角形の模様のイメージブロックを生成する第12ステップと
を含むことを特徴とする請求項3に記載の方法。 - 前記第2ステップが、
前記各イメージブロックに前記基準エッジのうち何れか1つを割り当てる第21ステップと、
前記各イメージフレームに対してL個のエッジヒストグラムを生成するために、前記各副画像に含まれた各基準エッジの個数をカウントする第22ステップと
を含むことを特徴とする請求項4に記載の方法。 - 前記第21ステップが、
各イメージブロックを2 x 2個の副ブロックに分割する第211ステップと、
対応フィルタ係数を前記各副ブロックに割り当てる第212ステップと、
前記フィルタ係数を利用して前記各イメージブロックに対する5個のエッジに対応する5個のエッジの大きさのセットを計算する第213ステップと、
前記計算されたエッジの大きさを相互に比較し、前記イメージブロックを最大エッジの大きさを有するエッジで示す第214ステップと
を含むことを特徴とする請求項5に記載の方法。 - 前記5個のエッジの大きさは次の5個の数式によって算出されることを特徴とする請求項6に記載の方法。
ak(i,j)は、(i,j)番目イメージブロックでKに割り当てられた副ブロックに対する平均グレイレベル(grey level)、
fv(k)、fh(k)、fd−45(k)、fd−135(k)及びfnd(k)は、それぞれKに割り当てられた副ブロックで垂直エッジ、水平エッジ、45゜エッジ、135゜エッジ及び無方向性エッジに対するフィルタ係数を意味する) - 前記最大エッジの大きさが所定の臨界値より小さい場合、前記イメージブロックはエッジを1つも含まないものとして取扱うことを特徴とする請求項6に記載の方法。
- 前記代表エッジヒストグラムビンが、
前記ビデオシーケンスのイメージフレームの対応するエッジヒストグラムビンの平均値に基づいて、計算されることを特徴とする請求項1に記載の方法。 - 前記第5ステップが、
前記各基準エッジに対応する5個の非線形量子化テーブルのうちで対応する非線形量子化テーブルを利用して、前記各代表エッジヒストグラムビンを非線形的に量子化する第51ステップを含むことを特徴とする請求項1に記載の方法。 - 前記第51ステップが、
前記各代表エッジヒストグラムビンを、前記各対応基準エッジ量子化テーブルに含まれた代表値でマッピングする第521ステップと、
前記各代表エッジヒストグラムビンに対する代表値を示す量子化インデックス値3ビットを生成し、前記ビデオシーケンスに対する第2イメージ記述子としてLx5個の量子化インデックス値を生成する第522ステップと
を含むことを特徴とする請求項10に記載の方法。 - 前記正規化エッジヒストグラムビンが、
ロイド−マックス(Lloyd−Max)アルゴリズムを基盤とする非線形量子化器によって、非線形的に量子化されることを特徴とする請求項10に記載の方法。 - 前記Nは4であることを特徴とする請求項5に記載の方法。
- 前記ビデオシーケンスの変化値(variation value)−前記変化値は、前記各イメージフレームの前記エッジヒストグラムの分散(variance)を含む−を計算し、前記変化値を前記データベースに格納する第6ステップをさらに含むことを特徴とする請求項1に記載の方法。
- データベースを基盤に、質疑ビデオシーケンスに対するデジタルビデオデータのイメージフレームセットを有する対応するビデオシーケンスを検索する方法において、
前記質疑ビデオシーケンスに対するイメージ記述子として、前記質疑ビデオシーケンスのL個(Lは正の整数)代表エッジヒストグラム−前記各代表エッジヒストグラムは、前記質疑ビデオシーケンスに含まれたイメージフレームの副画像に含まれた5個の基準エッジの代表空間分布を示し、前記基準エッジは、4個の方向性エッジと1個の無方向性エッジを含む−を計算する第1ステップと、
デジタルビデオデータ情報に基づき、前記データベースからビデオシーケンスに対する複数のイメージ記述子−前記各ビデオシーケンスに対する各イメージ記述子は、前記各ビデオシーケンスに対するL個の代表エッジヒストグラムビンを含む−を抽出する第2ステップと、
前記質疑ビデオシーケンスに対するイメージ記述子を、前記各ビデオシーケンスに対する前記各イメージ記述子と比較し、比較結果を生成する第3ステップと、
前記比較結果によって、前記質疑ビデオシーケンスと類似した少なくとも1つのビデオシーケンスを検索する第4ステップと
を含むことを特徴とする方法。 - 前記各エッジヒストグラムが、
基準エッジに対応する5個のエッジヒストグラムビンを有することを特徴とする請求項21に記載の方法。 - 前記方向性エッジが、
垂直エッジ、水平エッジ、45゜エッジ及び135゜エッジを含み、
前記無方向性エッジが、
前記4個の方向性エッジを除外した、決まった方向がないエッジを示すことを特徴とする請求項21に記載の方法。 - 前記第1ステップが、
前記各質疑ビデオシーケンスの前記各イメージフレームを、L個(Lは正の整数)の副画像−前記各副画像はS x T個(S及びTはそれぞれ正の整数)のイメージブロックにさらに分割される−に分割する第11ステップと、
前記各イメージブロックに対し、5個の基準エッジ−前記基準エッジは、4個の方向性エッジ及び1個の無方向性エッジを含む−のうち何れか1つを割り当て、前記各イメージフレームに対し、L個のエッジヒストグラム−前記エッジヒストグラムは、M個のエッジヒストグラムビンを含む−を生成する第12ステップと、
前記各エッジヒストグラムに含まれた前記エッジヒストグラムビンをS x Tに正規化し、前記各イメージフレームに対してM個の正規化されたエッジヒストグラムビンを生成する第13ステップと、
前記各イメージフレームの正規化されたエッジヒストグラムビンに基づき、前記各ビデオシーケンスに対するL個の代表エッジヒストグラムを生成するために、前記質疑ビデオシーケンスに対し、M個の代表エッジヒストグラムビンを計算する第4ステップと、
を含むことを特徴とする請求項21に記載の方法。 - 前記第22ステップが、
前記各イメージブロックに前記基準エッジのうち何れか1つを割り当てる第221ステップと、
前記各イメージフレームに対し、L個のエッジヒストグラムを生成するために、前記各副画像に含まれた各基準エッジの個数をカウントする第222ステップ
を含むことを特徴とする請求項23に記載の方法。 - 前記第221ステップが、
各イメージブロックを2 x 2個の副ブロックに分割する第2211ステップと、
対応フィルタ係数を前記各副ブロックに割り当てる第2212ステップと、
前記フィルタ係数を利用して前記各イメージブロックに対する5個のエッジに対応する5個のエッジの大きさのセットを計算する第2213ステップと、
前記計算されたエッジの大きさを相互に比較し、前記イメージブロックを最大エッジの大きさを有するエッジで表現する第2214ステップと
を含むことを特徴とする請求項25に記載の方法。 - 前記5個のエッジの大きさが、次の5個の数式によって算出されることを特徴とする請求項26に記載の方法。
ak(i,j)は(i,j)番目イメージブロックでKに割り当てられた副ブロックに対する平均グレイレベル、
fv(k)、fh(k)、fd−45(k)、fd−135(k)及びfnd(k)は、それぞれKに割り当てられた副ブロックで垂直エッジ、水平エッジ、45゜エッジ、135゜エッジ及び無方向性エッジに対するフィルタ係数を意味する) - 前記最大エッジの大きさが所定の臨界値より小さい場合、前記イメージブロックは、エッジを1つも含まないことで取扱うことを特徴とする請求項26に記載の方法。
- 前記質疑ビデオシーケンス及び対象ビデオシーケンスに対するイメージ記述子が、それぞれLx5個の代表エッジヒストグラムビンに基づいた全域エッジヒストグラム及びR個(Rは正の整数)の半−全域ヒストグラムを含むことを特徴とする請求項21に記載の方法。
- 前記全域エッジヒストグラムが、
前記質疑ビデオシーケンス及び対象ビデオシーケンスの全体空間でのエッジ分布を示し、
前記各半−全域エッジヒストグラムが、
前記質疑ビデオシーケンス及び対象ビデオシーケンスの対応する副画像セットでのエッジ分布を示すことを特徴とする請求項29に記載の縷縷方法。 - 前記NとRが、それぞれ4と13であることを特徴とする請求項29に記載の方法。
- 前記13個の半−全域エッジヒストグラムそれぞれが、4個の副画像の13個のセットそれぞれに対して生成され、
前記13個のセットが、
前記イメージの垂直方向に1番目の例ないし4番目の列それぞれの4個の副画像を各セットが含む4個の副画像の4個のセットと、
前記イメージの水平方向に1番目の例ないし4番目の列それぞれの4個の副画像を各セットが含む4個の副画像の4個のセットと、
1個の対応副画像−前記対応副画像は、それぞれ左側上段、右側上段、左側下段及び右側下段に位置する−及び前記対応副画像に隣接した3個の副画像を各セットが含む4個の副画像の4個のセットと、
前記イメージ中心を囲んだ4個の副画像を含む1個のセットと
を含むことを特徴とする請求項31に記載の方法。 - 前記第2ステップが、
前記各対象ビデオシーケンスに対するLx5個の量子化インデックス値を検索する第21ステップと、
5個の非線形逆量子化テーブルを使用して前記Lx5個の量子化インデックス値それぞれを前記各対象ビデオシーケンスに対するLx5個の代表エッジヒストグラムビンに変換させる第22ステップと、
前記Lx5個の正規化エッジヒストグラムビンによって、L個の代表エッジヒストグラムを生成する第23ステップと
を含むことを特徴とする請求項21に記載の方法。 - 前記第2ステップが、
前記Lx5個の代表エッジヒストグラムビンによって、前記各対象ビデオシーケンスに対する全域エッジヒストグラム及びR個の半−全域ヒストグラムを生成する第24ステップと
をさらに含むことを特徴とする請求項33に記載の方法。 - 前記第2ステップが、
前記各対象ビデオシーケンスに対するLx5個の量子化インデックス値を検索する第21ステップと、
前記Lx5個の量子化インデックス値を正規化し、前記Lx5個の量子化インデックス値それぞれを前記各対象ビデオシーケンスに対するLx5個の代表エッジヒストグラムビンに変換させる第22ステップと、
前記Lx5個代表エッジヒストグラムビンによって、L個の代表エッジヒストグラムを生成する第23ステップと
を含むことを特徴とする請求項21に記載の方法。 - 前記第2ステップが、
前記Lx5個の正規化されたエッジヒストグラムビンによって、前記各対象イメージに対する全域エッジヒストグラム及びR個の半−全域ヒストグラムを生成する第24ステップと
をさらに含むことを特徴とする請求項35に記載の方法。 - 前記第3ステップが、次の数式によって前記質疑ビデオシーケンスと前記各対象ビデオシーケンス間の距離を測定するステップを含むことを特徴とする請求項34に記載の方法。
Global_A[]及びGlobal_B[]は、それぞれ前記質疑イメージA及び対象イメージBの全域エッジヒストグラムに対するエッジヒストグラムビンの、
Semi_Global_A[]及びSemi_Global_B[]は、それぞれ前記質疑ビデオシーケンスA及び対象ビデオシーケンスBの半−全域エッジヒストグラムビンに対するヒストグラムビン値を意味する) - 前記第3ステップが、次の数式によって前記質疑ビデオシーケンスと前記各対象ビデオシーケンス間の距離を測定するステップとを含むことを特徴とする請求項36に記載の方法。
Global_A[]及びGlobal_B[]は、それぞれ前記質疑ビデオシーケンスA及び対象ビデオシーケンスBの全域エッジヒストグラムに対するエッジヒストグラムビンの、
Semi_Global_A[]及びSemi_Global_B[]は、それぞれ前記質疑ビデオシーケンスA及び対象ビデオシーケンスBの半−全域エッジヒストグラムビンに対するヒストグラムビン値を意味する) - それぞれが複数のデジタルビデオデータイメージフレームを有するビデオシーケンスに対するイメージ記述子を抽出する方法において、
対象イメージフレームとしてイメージフレームのうち何れか1つを選択する第1ステップと、
前記対象イメージのL個のエッジヒストグラム−前記エッジヒストグラムそれぞれは、5個の正規化されたエッジヒストグラムビンを有して、副画像に5個の基準エッジの空間分布を示し、前記基準エッジは4個の方向性エッジ及び1個の無方向性エッジを含む−を生成するために、Lx5個(Lは正の整数)の正規化されたエッジヒストグラムビンを計算する第2ステップと、
対象イメージとして、次のイメージフレームを選択する第3ステップと、
全てのイメージフレームのL個のエッジヒストグラムが計算されるまで、前記第2ステップ及び第3ステップを繰り返す第4ステップと、
前記各イメージフレームのL個のエッジヒストグラムに基づき、前記ビデオシーケンスに対するLx5個の正規化されたエッジヒストグラムビンを有する代表エッジヒストグラムを計算する第5ステップと、
前記ビデオシーケンスに対するイメージ記述子として、Lx5個の量子化インデックス値を生成するために前記代表エッジヒストグラムのLx5個の正規化されたエッジヒストグラムビンを非線形的に量子化する第6ステップと、
前記Lx5個の量子化インデックス値を前記データベースに格納する第7ステップと
を含むことを特徴とする方法。 - 前記各量子化インデックス値が、3ビットで表現されることを特徴とする請求項39に記載の方法。
- 前記方向性エッジが、
垂直エッジ、水平エッジ、45゜エッジ及び135゜エッジを含み、
前記無方向性エッジが、
前記4個の方向性エッジを除外した、決まった方向がないエッジを示すことを特徴とする請求項39に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20020067299 | 2002-10-31 | ||
KR20030002074 | 2003-01-13 | ||
PCT/KR2003/000101 WO2004040912A1 (en) | 2002-10-31 | 2003-01-16 | Non-linear quantization and similarity matching methods for retrieving video sequence having a set of image frames |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006505075A true JP2006505075A (ja) | 2006-02-09 |
Family
ID=32232774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005501857A Pending JP2006505075A (ja) | 2002-10-31 | 2003-01-16 | 複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7702152B2 (ja) |
EP (1) | EP1559273A4 (ja) |
JP (1) | JP2006505075A (ja) |
AU (1) | AU2003301737A1 (ja) |
WO (1) | WO2004040912A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008085539A (ja) * | 2006-09-27 | 2008-04-10 | Sony Corp | プログラム、検出方法、検出装置、画像処理方法、及び画像処理装置 |
JP2010182295A (ja) * | 2008-12-31 | 2010-08-19 | Intel Corp | グローバルな類似性に基づく分類法を用いた物体認識 |
JP2013171405A (ja) * | 2012-02-20 | 2013-09-02 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
JP2013258646A (ja) * | 2012-06-14 | 2013-12-26 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
JP2014059643A (ja) * | 2012-09-14 | 2014-04-03 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4366119B2 (ja) * | 2003-05-29 | 2009-11-18 | キヤノン株式会社 | 文書処理装置 |
KR100580188B1 (ko) * | 2004-01-28 | 2006-05-16 | 삼성전자주식회사 | 스캐닝된 이미지 처리 방법 및 장치 |
US7529003B2 (en) * | 2004-02-06 | 2009-05-05 | Canon Kabushiki Kaisha | Image scanning device and its control method |
JP4784281B2 (ja) * | 2005-11-18 | 2011-10-05 | 富士ゼロックス株式会社 | 復号化装置、逆量子化方法及びこれらのプログラム |
US7840899B2 (en) * | 2006-06-02 | 2010-11-23 | Microsoft Corporation | Strategies for navigating through a list |
US8090016B2 (en) * | 2007-05-17 | 2012-01-03 | Zoran Corporation | Activity normalization for video encoding |
US8260048B2 (en) * | 2007-11-14 | 2012-09-04 | Exelis Inc. | Segmentation-based image processing system |
WO2009111047A2 (en) | 2008-03-05 | 2009-09-11 | Ebay Inc. | Method and apparatus for image recognition services |
US9495386B2 (en) | 2008-03-05 | 2016-11-15 | Ebay Inc. | Identification of items depicted in images |
US8818978B2 (en) | 2008-08-15 | 2014-08-26 | Ebay Inc. | Sharing item images using a similarity score |
US8825660B2 (en) * | 2009-03-17 | 2014-09-02 | Ebay Inc. | Image-based indexing in a network-based marketplace |
US9158990B2 (en) * | 2009-09-23 | 2015-10-13 | Ramot At Tel-Aviv University Ltd. | System, method and computer program product for motion detection using sets of trinary bits |
US9164577B2 (en) | 2009-12-22 | 2015-10-20 | Ebay Inc. | Augmented reality system, method, and apparatus for displaying an item image in a contextual environment |
US10127606B2 (en) | 2010-10-13 | 2018-11-13 | Ebay Inc. | Augmented reality system and method for visualizing an item |
US9449342B2 (en) | 2011-10-27 | 2016-09-20 | Ebay Inc. | System and method for visualization of items in an environment using augmented reality |
US9934522B2 (en) | 2012-03-22 | 2018-04-03 | Ebay Inc. | Systems and methods for batch- listing items stored offline on a mobile device |
US10846766B2 (en) | 2012-06-29 | 2020-11-24 | Ebay Inc. | Contextual menus based on image recognition |
ITTO20130835A1 (it) * | 2013-10-16 | 2015-04-17 | St Microelectronics Srl | Procedimento per produrre descrittori compatti a partire da punti di interesse di immagini digitali, sistema, apparecchiatura e prodotto informatico corrispondenti |
CN106795215A (zh) * | 2014-06-24 | 2017-05-31 | 通用电气医疗集团生物工艺研发股份公司 | 层析方法 |
CN105160694B (zh) * | 2015-10-15 | 2017-05-03 | 深圳大学 | 一种数据隐藏方法及隐藏系统 |
US10789261B1 (en) * | 2016-03-28 | 2020-09-29 | Arimo, LLC | Visual distributed data framework for analysis and visualization of datasets |
CN109963164A (zh) * | 2017-12-14 | 2019-07-02 | 北京搜狗科技发展有限公司 | 一种在视频中查询对象的方法、装置和设备 |
CN108763266B (zh) * | 2018-04-03 | 2022-04-29 | 南昌奇眸科技有限公司 | 一种基于图像特征提取的商标检索方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6246804B1 (en) | 1994-11-15 | 2001-06-12 | Canon Kabushiki Kaisha | Image retrieval method and apparatus using a compound image formed from a plurality of detected regions |
KR100240655B1 (ko) | 1997-10-21 | 2000-01-15 | 정선종 | 압축된 영상 정보의 내용 추출 방법 |
US6253201B1 (en) * | 1998-06-23 | 2001-06-26 | Philips Electronics North America Corporation | Scalable solution for image retrieval |
US6807298B1 (en) * | 1999-03-12 | 2004-10-19 | Electronics And Telecommunications Research Institute | Method for generating a block-based image histogram |
KR100512118B1 (ko) | 1999-06-10 | 2005-09-02 | 엘지전자 주식회사 | 칼라스페이스의 최적 양자화 방법 |
KR20020031015A (ko) | 2000-10-21 | 2002-04-26 | 오길록 | 에지 히스토그램 빈의 비선형 양자화 및 유사도 계산 |
-
2003
- 2003-01-16 JP JP2005501857A patent/JP2006505075A/ja active Pending
- 2003-01-16 WO PCT/KR2003/000101 patent/WO2004040912A1/en active Application Filing
- 2003-01-16 AU AU2003301737A patent/AU2003301737A1/en not_active Abandoned
- 2003-01-16 EP EP03809877A patent/EP1559273A4/en not_active Withdrawn
- 2003-01-16 US US10/533,385 patent/US7702152B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008085539A (ja) * | 2006-09-27 | 2008-04-10 | Sony Corp | プログラム、検出方法、検出装置、画像処理方法、及び画像処理装置 |
JP2010182295A (ja) * | 2008-12-31 | 2010-08-19 | Intel Corp | グローバルな類似性に基づく分類法を用いた物体認識 |
JP2013171405A (ja) * | 2012-02-20 | 2013-09-02 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
JP2013258646A (ja) * | 2012-06-14 | 2013-12-26 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
JP2014059643A (ja) * | 2012-09-14 | 2014-04-03 | Nippon Hoso Kyokai <Nhk> | 階調削減装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
AU2003301737A1 (en) | 2004-05-25 |
US20060013481A1 (en) | 2006-01-19 |
US7702152B2 (en) | 2010-04-20 |
EP1559273A1 (en) | 2005-08-03 |
WO2004040912A1 (en) | 2004-05-13 |
EP1559273A4 (en) | 2007-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006505075A (ja) | 複数のイメージフレームを有するビデオシーケンス検索のための非線形量子化及び類似度マッチング方法 | |
KR100556832B1 (ko) | 영상정보 검색을 위한 비선형 양자화 및 유사도 매칭 방법 | |
EP1233374B1 (en) | Apparatus and method for extracting objects based on feature matching between segmented regions in images | |
RU2505856C2 (ru) | Способ и устройство для представления и идентификации дескрипторов признаков с использованием сжатой гистограммы градиентов | |
CN103218427B (zh) | 局部描述子的提取方法、图像检索方法及图像匹配方法 | |
US8340412B2 (en) | Image processing | |
GB2431793A (en) | Image comparison | |
Diana Andrushia et al. | Saliency-based image compression using Walsh–Hadamard transform (WHT) | |
US20170026665A1 (en) | Method and device for compressing local feature descriptor, and storage medium | |
CN102236675A (zh) | 图像特征点匹配对处理、图像检索方法及设备 | |
Xie et al. | Bag-of-words feature representation for blind image quality assessment with local quantized pattern | |
KR101021044B1 (ko) | 유사도 산출 방법 및 장치 및 컴퓨터 판독가능한 기록 매체 | |
CN112561976A (zh) | 一种图像主颜色特征提取方法、图像检索方法、存储介质及设备 | |
CN104751459B (zh) | 多维特征的相似性度量优化方法及图像匹配方法 | |
CN110766708A (zh) | 基于轮廓相似度的图像比较方法 | |
KR100959053B1 (ko) | 복수의 이미지 프레임을 갖는 비디오 시퀀스 검색을 위한비선형 양자화 및 유사도 매칭 방법 | |
Varish et al. | A content based image retrieval using color and texture features | |
KR100464224B1 (ko) | 화상처리방법 및 그 장치, 기억매체 | |
Elsheh et al. | Content Based Image Retrieval using Color Histogram and Discrete Cosine Transform | |
CN100446569C (zh) | 用于检索具有图像帧组视频序列的非线性量化和相似性匹配方法 | |
KR20140104789A (ko) | 정지영상의 식별자 생성 방법 및 이를 수행하는 영상 처리 장치 | |
KR20030009674A (ko) | 내용 기반 영상 검색 장치 및 방법 | |
Monclús et al. | Efficient selection of representative views and navigation paths for volume data exploration | |
Al-Shweiki et al. | Video Compression Enhancement Based On Speeded Up Robust Features (SURF) Algorithm and Scene Segmentation | |
Bucak et al. | Mid-level feature based local descriptor selection for image search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080708 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081205 |