JP5175854B2 - 画像認識のための画像記述子 - Google Patents

画像認識のための画像記述子 Download PDF

Info

Publication number
JP5175854B2
JP5175854B2 JP2009531911A JP2009531911A JP5175854B2 JP 5175854 B2 JP5175854 B2 JP 5175854B2 JP 2009531911 A JP2009531911 A JP 2009531911A JP 2009531911 A JP2009531911 A JP 2009531911A JP 5175854 B2 JP5175854 B2 JP 5175854B2
Authority
JP
Japan
Prior art keywords
image
function
deriving
dimensional function
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009531911A
Other languages
English (en)
Other versions
JP2010506323A (ja
Inventor
ボバー、ミロスロー
ブラスネット、ポール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric R&D Centre Europe BV Netherlands
Original Assignee
Mitsubishi Electric R&D Centre Europe BV Netherlands
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric R&D Centre Europe BV Netherlands filed Critical Mitsubishi Electric R&D Centre Europe BV Netherlands
Publication of JP2010506323A publication Critical patent/JP2010506323A/ja
Application granted granted Critical
Publication of JP5175854B2 publication Critical patent/JP5175854B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/431Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像を表現する方法及び装置、並びに、例えば検索又は検証のために画像を比較又は照合する方法及び装置に関する。
多数の画像データベースが存在し、特定の画像のコピー或いはその画像の変更バージョンを探し出す必要がある場合も多い。このような機能は、例えば、権利管理或いは検索のために必要であり得る。種々のウェブサイトに載せられた同一画像は、同様のコンテンツを示す可能性があるため、貴重な検索の手掛かりとなる。別の重要な用途は、「フィルム」写真及びネガと、他のディジタルアーカイブとの間の識別及び紐付けである。
MD5等のハッシュアルゴリズムを用いて同一画像を検出することができる。ハッシュ関数はコンテンツに基づく値を生成するものであり、2つの画像が同じであればそのハッシュ値も同じになる。しかしながら、MD5等の従来の手法はビットに敏感(sensitive)である、すなわち、たった1ビットの変化が全く異なるハッシュ値を生じることになる。通常、画像には何らかの形の変更、例えば圧縮が施されるため、従来のハッシュ法では失敗してしまう。
重複画像を検出する1つの一般的な画像処理手法は、画像対を位置合わせして共通領域間の差異を見つけ出そうと試みることである。この問題として、位置合わせ工程が計算上複雑であり、大規模データベースでは検索に膨大な時間がかかる。新たな問い合わせ画像が提示される度に、完全な位置合わせ及び照合工程をデータベースの各エントリに対して行う必要がある。さらに重大な欠点は、検索を行うために原画像が利用可能で(又は送信され)なければならないことである。
代替的な手法は、画像の特徴を捉える小さな識別子の抽出を伴う。このような工程の利点は、識別子を一度だけ抽出して記憶すればよいことである。したがって、照合工程が効率的であれば、この方法は高速な検索性能を提供する。画像識別子は通常、画像を表現するビット列である(図2を参照)。
画像識別子は色分布又は階調分布に基づくものであってもよい。H. Chi Wong、Marshall Bern、David Goldberg著「An Image Signature for any Kind of Image」(Proc. ICIP 2002, pp. 409-412, 2002)[参考文献1]では、m×nの格子点を用いて、特徴を抽出する位置を定義する。これらの特徴は、画素とその8近傍画素との間のグレーレベルの強度差に基づく。したがって、特徴ベクトルのサイズは8mnとなる。2つの特徴ベクトル間の比較は、正規化L2距離測度を用いて行われる。この距離測度は、ヒストグラム間の差分絶対値和に基づく。提示される結果は、この手法がサイズ変更及び圧縮に対しては非常に正確に機能するが、回転に対しては正確に機能しないことを示唆する。
米国特許第6,671,407号[参考文献14]の請求項は、R. Venkatesan、S.-M. Koon、M. H. Jakubowski、P. Moulin著「Robust Image Hashing」(Proc. IEEE ICIP 2000, pp. 664-666, Sep., 2000)[参考文献2]における研究に基づく。画像をデータベースに記憶し、画像に埋め込む透かしを生成するために、ハッシュ関数が生成される。ハッシュ関数は、入力画像にウェーブレット変換を行うことによって生成される。各サブバンドはランダムな大きさのブロックに分割され、各ブロックの統計量(平均又は分散)が計算される。次に、これらの統計量が8レベルに量子化され、この量子化が変更に対して或る程度のロバスト性を与える。量子化された値は、3ビットのバイナリ列で表現される。
上記の2つの方法は、入力画像を矩形領域に分割する事に依存する。したがって、いずれの方法も、いくらかの量の画像回転があると失敗してしまう。
色分布及び階調分布の代案として、周波数領域情報が画像識別子に用いられることがある。離散ウェーブレット変換(DWT)に基づく手法が、ドベシィ(Daubechies)フィルタを用いるEdward Y. Chang、James Ze Wang、Chen Li、Gio Wiederhold著「RIME: A Replicated Image Detector for the World Wide Web」(Proc. of SPIE Symp. of Voice, Video, and Data Comms., pp. 58-67, Boston, MA, Nov., 1998)[参考文献3]に記載されている。ウェーブレット変換の最下位階層の部分領域を用いて画像が表現される。DWTに基づく上記[参考文献2]の方法では、DWTのDCT成分を求め、反復的且つ決定論的な領域成長法を用いて、原画像のバイナリバージョンを形成する。この方法は、大きな量の回転にはロバストでない。
ラドン変換に基づくF. Lefebvre、J. Czyz、B. Macq著「A Robust Soft Hash Algorithm for Digital Image Signature」(Proc. IEEE Int. Conf. Image Processing, pp. 495-498, 2003)[参考文献4]において、画像ハッシュ関数が開発されている。このハッシュ関数は透かし入れのために開発されたものであるが、回転、スケーリング、圧縮、フィルタリング、及びぼかし処理に対するロバスト性等のいくつかの非常に有用な特性を有するように設計されている。ラドン変換の後、共分散行列が計算され、2つの最大固有値に対応する固有ベクトルから署名が形成される。
Jin S. Seo、Jaap Haitsma、Ton Kalker、Chang D. Yoo著「A Robust Image Fingerprinting System using the Radon Transform」(Signal Processing: Image Communication, 19, pp. 325-339, 2004)[参考文献5]では、画像のラドン変換を用いて画像識別子が形成される。ラドン変換を行った後、自己相関、対数マッピング、及び2Dフーリエ変換を含むいくつかのステップが行われる。これにより、2Dのバイナリ識別子が抽出される。この方法は画像の左右反転に対してロバストでない。
識別子の抽出に対する最後の代案は、画像特徴の使用である。ウェーブレット変換を用いて特徴点の検出及び抽出を行う手法が、Vishal Monga、Brian Evans著「Robust Perceptual Image Hashing using Feature Points」(Proc. IEEE ICIP 2004, pp. 677-680, Oct., 2004)[参考文献6]に提案されている。検出された特徴を用いて画像署名が構築される。この方法は、回転に対するロバスト性に欠ける。
Alejandro Jaimes、Shih-Fu Chang、Alexander C. Loui著「Detection of Non-Identical Duplicate Consumer Photographs」(ICICS-PCM 2003, pp. 16-20, Dec., 2003)[参考文献7]では、特徴点が検出され、RANSACアルゴリズムを用いて大域的な画像の位置合わせが行われる。相関及び自己顕著性マップから類似点の一致度が導出される。
米国特許出願第2004/0103101号[参考文献8]は、画像の幾何変換コピーを検出する問題の解決に関するものである。これは、2つの画像間で一致する物体及び特徴の検出に基づく。画像間で一致が見つかると幾何変換が計算され、その2つの画像が位置合わせされ、画像間の類似度マップとして差分が計算される。
一般に、特徴点検出に基づく方法に用いられる検索工程及び照合工程は、高い計算能力が要求される。そのため、大規模データベースでの使用や、処理能力が限られている場合の使用には適していない。
エッジに基づく画像検索システムが、米国特許第6,072,904号[参考文献9]に開示されている。画像中のエッジ特徴に基づく固有ベクトルが画像毎に形成され、これらのベクトルの比較により検索が行われる。
画像特徴に基づくハッシュ値を生成する方式が、米国特許出願第5,465,353号[参考文献10]に開示されている。画像毎に局所特徴点の集合が抽出される。特徴から3つ一組のハッシュ値が形成され、画像がデータベースに記憶される。問い合わせ画像に最も一致する特徴を有する文書を検索することができる投票方式が説明されている。使用される投票方式により、検索に高い計算能力が要求される。
米国特許出願第5,819,288号[参考文献11]、米国特許出願第5,852,823号[参考文献12]、及び米国特許出願第5,899,999号[参考文献13]に提示される方法では、特徴は、一組の事前定義されたガウス導関数(25個のフィルタ)を用いる多重解像度(3レベル)処理から導出される。これにより、各カラーチャネルにつき15,625(253)個の特徴、すなわち、46,875個の特徴が得られる。全ての画像にわたって特徴の統計量(平均及び分散)を計算することによって、画像の集合を記憶及び/又は問い合わせのためにグループ化することができる。この方法により用いられる記憶要件は非常に高い。
トレース変換に基づく画像特徴の抽出方法が、Maria Petrou、Alexander Kadyrov著「Affine Invariant Features from the Trace Transform」(IEEE Trans. on PAMI, 26(1), Jan, 2004, pp 30-44)[参考文献16]に提案されている。汎関数の組み合わせを用いて、(7×6×14)588個の数字から成る特徴ベクトルが得られる。この手法は、特徴ベクトルの588個の全ての数字を得るためにトレース変換を画像毎に何度も行う必要があるため、計算量が多い。
既存のアルゴリズム及びシステムの主な問題として以下が挙げられる。
・特徴の抽出及び/又は照合に関して計算量が多い。
・記述子が膨大な記憶空間を必要とする。
・画像の変更に対するロバスト性に欠ける。
・誤受入率(false acceptance rate)が高すぎて大規模なデータセットには効果的に使用できない。
本発明の態様が添付の特許請求の範囲に記載される。
本発明は、効率的な特徴抽出及び非常に単純で高速な照合を提供する。また、識別子は非常に小さく、通常128ビット(16バイト)以下である。そのため、1KBでは64個の画像識別子を記憶し、1MBでは65,536個の識別子を記憶することができる。
最も良く知られている従来技術の方法は、画像当たり400ビットを必要とする。
本発明の誤受入率は百万分の1程度である。
本発明は、画像から識別子を抽出する新規の方法に関する。一実施の形態において、トレース変換の使用と、フーリエ変換の振幅に基づく係数のバイナリ符号化とを組み合わせる方法により、ロバストな識別子が得られる。バイナリ符号化方法は、(トレース変換の)サーカス関数(circus function)のフーリエ変換を用いて、バイナリ識別子を抽出する。
トレース変換では、直線によって画像をトレースし、この直線に沿って画像強度又はカラー関数の特定の汎関数Tを計算する。種々のトレース汎関数Tを用いて、単一の入力画像から様々なトレース変換を作成してもよい。2D平面において、線は、2つのパラメータ(d,θ)により特徴付けることができる。そのため、2D画像のトレース変換は、各トレース線のパラメータ(d,θ)の2D関数となる。
次に、トレース変換の(トレース領域の)列に沿ってダイアメトリック汎関数(diametric functional)Pを適用することによって「サーカス関数」を計算する(すなわち、距離パラメータdにわたってダイアメトリック汎関数Pを適用し、角度θに関する1Dサーカス関数を得る)。
本発明によれば、サーカス関数の周波数表現(例えばフーリエ変換)が得られ、周波数振幅成分に対して関数が定義され、その符号がバイナリ記述子として採用される。
本方法の他の態様は、異なる汎関数の組み合わせを用いることにより得られる識別子の「族」から部分的に選択したものを組み合わせて単一の記述子にする。このような組み合わせを用いることによって識別子の性能は大きく向上する。
添付図面を参照して本発明の実施形態を説明する。
画像を示す図である。 図1aの画像を縮小したバージョンを示す図である。 図1aの画像を回転させたバージョンを示す図である。 図1aの画像をぼかしたバージョンを示す図である。 従来技術による画像及びそのビット列表現を示す図である。 本発明の一実施形態の方法のステップを示す図である。 本発明の一実施形態の別の方法のステップを示す図である。 トレース変換の線パラメータ化を示す図である。 種々の画像から導出される関数を示す図である。 本発明の一実施形態による装置のブロック図である。 複数のトレース変換を用いる一実施形態を示すブロック図である。 図8の実施形態により作成されるビットストリームを示す図である。
画像表現を導出すると共に、そのような表現を例えば1つ又は複数の画像の識別、照合、或いは検証のために用いる様々な実施形態を以下に説明する。本発明は、上述のように画像を識別するために特に有用であるが、画像の識別に限定されるものではない。同様に、実施形態で説明される画像識別子は画像表現又は画像記述子の一例である。
本発明の一実施形態による視覚識別子の具体的設計は、ロバスト性を持たせたい画像の変更の種類、識別子の大きさ、抽出及び照合の複雑度、目標誤検出率(target false-alarm rate)等に関連する要件によって決まる。
ここでは、画像に対する以下の変更にロバストな識別子をもたらす一般的設計を示す。
・減色
・ぼかし
・輝度値変更
・反転(左右及び上下)
・グレースケール変換
・ヒストグラム等化
・JPEG圧縮
・ノイズ
・回転
・スケーリング
識別子は、広範な画像に対して百万分の1という非常に低い誤検出率を達成することが好ましい。
図1は、画像及びその画像の変更バージョンの一例を示す。より具体的には、図1aは原画像であり、図1bは図1aの画像を縮小したバージョンであり、図1cは図1aの画像を回転させたバージョンであり、図1dは図1aの画像をぼかしたバージョンである。
本発明の実施形態は画像の表現を導出する。より具体的には、画像に対応する信号を処理することによって画像識別子を導出する。
図3は、本発明の一実施形態による画像識別子を導出する方法のステップ、すなわち識別子抽出工程を示す。
トレース変換を適用する前処理として、画像をサイズ変更し(ステップ110)、また任意選択でフィルタリングする(ステップ120)。サイズ変更ステップ110は、画像を処理前に正規化するために用いられる。ステップ120は、画像に対して行われた何らかの処理、及び/又は、原画像全体を用いるのではなく領域を選択することにより生じるエイリアシング等の効果を除去するためのフィルタリングを含み得る。本方法の好適な一実施形態では、さらなる処理のために画像の中心から円形領域が抽出される。
ステップ130において、トレース変換T(d,θ)が行われる。トレース変換130は、全ての可能な線を画像に射影してこれらの線に汎関数を適用する。汎関数は、通常は関数のベクトル空間V上の実数値関数である。
トレース変換の場合、画像中の線にトレース汎関数Tが適用される。図5に示されるように、線はd及びθによりパラメータ化される。次にステップ140において、トレース変換の列に(すなわち距離パラメータdに沿って)さらなる汎関数Dを適用して、実数値ベクトルを得ることができる。この第2の汎関数Pはダイアメトリック汎関数として知られ、結果として得られるベクトル(θに関する1次元関数)はサーカス関数として知られる。第3の汎関数であるサーカス汎関数(circus functionl)をサーカス関数に適用して、単一の数を得ることができる。この結果の特性は、3つの異なる汎関数(トレース汎関数、ダイアメトリック汎関数、及びサーカス汎関数)を適切に選択することによって制御することができる。画像及び対応するトレース変換の例を含むトレース変換の全詳細は、例えば参照として本明細書中に援用されるAlexander Kadyrov、Maria Petrou著「The Trace Transform and Its Applications」(IEEE Trans. PAMI, 23(8), Aug., 2001, pp 811-828)[参考文献15]に見ることができる。
本発明の実施形態の方法では、最初の2つのステップのみをトレース変換において行う。すなわち、トレース変換の後にダイアメトリック汎関数を適用して1次元のサーカス関数を得る。
本方法の1つの特定の例において、トレース汎関数Tは
Figure 0005175854
によって与えられ、ダイアメトリック汎関数Pは
Figure 0005175854
によって与えられる。
サーカス関数が様々な画像処理操作により受ける影響の例を図6に見ることができる。図6は、画像の様々な変形に対応するサーカス関数を示す。図6(a)は原画像に対応し、図6(b)は元画像を回転させたバージョンに対応し、図6(c)は元画像をぼかしたバージョンに対応する。回転は関数をシフトさせる(と共にスケール変化を生じる)ことが見て取れる。
上で挙げた全ての画像の変更操作に関して、汎関数を適切に選択することにより、画像aのサーカス関数f(a)は、変更された画像a’のサーカス関数f(a’)がシフト又は(振幅が)スケーリングされたものに過ぎないことを示すことができる(参考文献15の第3章を参照)。
Figure 0005175854
次に、式(3)のフーリエ変換を行うことによって次式が得られる。
Figure 0005175854
次に、式(6)の振幅を取ると次式が得られる。
Figure 0005175854
式(7)から、変更された画像及び原画像はもはや、スケーリング係数κを除いて同じであることが分かる。
ここで、本実施形態によれば、関数c(ω)が複数のフーリエ変換係数の振幅係数上で定義される。この関数の1つの例示は、隣り合う係数の差分を取ることである。
Figure 0005175854
式(8)の結果として得られるベクトルに以下のような閾値を適用することによって、バイナリ列を抽出することができる。
Figure 0005175854
次に、これらの値B={b0,...,bn}から、本発明の実施形態の画像識別子が構築される。
共に長さNの2つの異なる識別子B1及びB2間での識別子の照合を行うために、正規化ハミング距離を取る。
Figure 0005175854
ここで、
Figure 0005175854
は排他的OR(XOR)演算子である。識別子又は表現における他の比較方法も用いることができる。
識別子中の特定ビットを選択することにより、性能をさらに高めることができる。下位ビットは一般にロバスト性がより高く、上位ビットは識別性がより高い。本発明の特定の一実施形態では、最初のビットは無視され、識別子はその次の64ビットから作られる。
上記の方法を行う本発明の一実施形態による装置の一例を図7に示す。具体的には、画像記憶モジュール210により画像200が受け取られ、画像データベース230に記憶される。さらに、識別子抽出記憶モジュール220が、受け取った画像毎に本発明の方法に従って画像識別子を抽出し、それらの画像識別子を識別子データベース240に記憶する。このとき、任意選択では画像のコンテンツに関連する他の情報も一緒に適宜記憶する。
図7はさらに、上記の方法を用いて抽出された画像識別子を用いる画像検索エンジンを具現化する装置を示す。問い合わせ画像250の受け取りに応答して、画像検索エンジンによって画像の検証又は照合が行われる。本発明の方法に従って、識別子抽出モジュール260において問い合わせ画像250の画像識別子が抽出される。識別子照合モジュール270は、問い合わせ画像250の画像識別子を、識別子データベース240に記憶されている画像識別子と比較する。画像検索モジュール280は、画像データベース230から一致画像290を取り出す。以下で詳述するように、この一致画像290は、問い合わせ画像識別子と一致する画像識別子を有する。
図4は、フーリエ変換係数に対するバイナリ関数を定義する代替方法を示す。詳細には、フーリエ変換係数を得た(ステップ171)後、複数のフーリエ変換係数の振幅の対数を得る(ステップ172及び173)。係数の差分を上記の式(8)と同様に計算し(ステップ174)、その後、この差分の符号を取り、この符号によりバイナリ値を割り当てる(ステップ175)。次に、このバイナリ値を用いてバイナリ識別子を形成する。
上述した基本識別子は、図8及び図9に示すように、複数のトレース変換を用いて、別個の変換からのビットを組み合わせることによって改良することができる。2つの別個の変換361及び362からのバイナリ列を組み合わせる具体的な方法は、それらを連結して識別子363を得ることである。このようにして、式(1)のトレース汎関数Tを、式(2)によって与えられるダイアメトリック汎関数Pと共に用いて1つのバイナリ列を得た後、式(1)のトレース汎関数Tをダイアメトリック汎関数P
Figure 0005175854
と共に用いて第2の列を得ることによって良好な結果を得ている。各バイナリ列の最初のビットは飛ばし、双方のストリングにおけるその次の64ビットが連結されて128ビットの識別子を得る。
この識別子の1つの応用は、図7に示し上述したような画像検索エンジンとしての応用である。データベース240は、ファイル名、画像、撮影者、取得日時、及び任意の他の有用な情報等の関連する情報と共に、画像のバイナリ識別子を抽出して記憶することによって構築される。次に、問い合わせ画像aqが与えられると、バイナリ識別子が抽出され、データベース中の全ての識別子B0...BMと比較される。問い合わせ画像に対するハミング距離が閾値未満である全ての画像が返される。
様々なトレース汎関数T及びダイアメトリック汎関数Dを用いることができ、例として以下が挙げられる(網羅的でないリスト)。
Figure 0005175854
2つ又はそれ以上の識別子を組み合わせて、画像をもっとよく特徴付けすることができる。この組み合わせは、複数の識別子の連結によって行われることが好ましい。
回転、平行移動、及びスケーリングよりも高次の幾何変換の場合、上述した識別子のバージョンは適切ではなく、式(3)の関係は成り立たない。識別子のロバスト性は、正規化工程を用いることによってアフィン変換まで拡張することができる。この正規化工程の全詳細は、上記[参考文献16]に見ることができる。サーカス関数を正規化するために2つのステップが導入される。最初のステップは、いわゆる関連サーカス(associated circus)を求めることを含み、2番目のステップは、正規化された関連サーカス関数を求めることを含む。この正規化の結果、(3)の関係が真であることが示される。これにより、上記と同様に識別子の抽出工程を継続することができる。
正規化工程と共に用いられるいくつかの適切なトレース汎関数が以下の(G1)及び(G2)で与えられる。また、ダイアメトリック汎関数の適切な選択が(G3)で与えられる。
Figure 0005175854
ここで、r≡t−cであり、c≡median({tkk,{|g(tk)|}k)である。非負の重みw1,w2,...,wnを有する数列y1,y2,...,ynの加重中央値を、この数列が重みにより昇順でソートされると仮定した場合に次式が成り立つ最大インデックスmを見つけることによって定義する。
Figure 0005175854
(式12の)不等式が厳密である場合、中央値はymとなる。しかし、不等式が等式である場合、中央値は(ym+ym-1)/2となる。
識別子を連続ビットブロックから構築する代わりに、実験的に選択を行うこともできる。このやり方の一例は、2組のデータ、すなわち、i)独立した画像と、ii)原画像及び変更された画像とを用意することである。識別子の性能は、独立したデータの誤受入率(false acceptance rate)と、原画像及び変更された画像の誤拒否率(false rejection rate)とを比較することによって測定することができる。関心がある点は、等価エラー率(equal error rate)、又は、1×10-6の誤受入率における誤拒否率である。最適化は、ビットが選択されていない状態で開始される。各ビットを1つずつ検査して、どのビットが(例えば等価エラー率又は何らかの同様の測度に関して)最良の性能を発揮するかを調べることが可能である。これにより、最良の結果を与えるビットが選択される。次に、全ての残りのビットを試験して、どれが最初のビットと組み合わせた際に最良の性能を発揮するかを見つけ出す。ここでもまた、エラー率が最低のビットが選択される。この手順は、全てのビットが選択されるまで繰り返される。そうすると、全体として最良の性能をもたらすビットの組み合わせを選択することが可能になる。
識別子を構造化して検索性能を高めることもできる。例えば、2パス探索を実施して、半分のビットを用いて1回目の探索を行い、次に所与のレベルの精度を有するものにのみ2回目の探索を行う。
リード・マラー(Reed-Muller)復号器或いはウイナー・ジブ(Wyner-Ziv)復号器等の方法を用いて識別子を圧縮し、さらにサイズを縮小することができる。
識別子はまた、ビデオシーケンス中のフレームをインデックス付けするために用いることもできる。新たなシーケンスが与えられると、フレームから識別子を抽出し、次に、同一シーケンスを見つけるために検索を行うことができる。これは、著作権の検出及びシーケンスの識別のために有用であり得る。
複数の放送会社が同一のコンテンツ、例えば広告又は株式ニュースの映像を送信する場合が多い。放送会社間のナビゲーションのために、識別子を用いてこれらのコンテンツ間にリンクを形成することができる。
画像識別子は、画像によりコンテンツを結びつける機会を提供する。ユーザがウェブページ上の特定の画像に興味がある場合、同一画像を有する他のページを見つける有効な方法は現在のところない。識別子を用いて、画像間のナビゲーション経路を提供することができる。
識別子を用いてブロードキャストフィード中の広告を検出することができる。これを用いて、広告主が自社のキャンペーンを追跡するための自動監視を行うことができる。
大規模な商用セットからパーソナルコンピュータ上の小規模なコレクションまで多くの画像データベースが存在する。データベースが厳格に制御されていない限り、通常はセット中の画像に重複があり、余分な記憶領域を無駄に必要とする。識別子は、これらのデータセット中の重複画像を削除又は紐付けするツールとして用いることができる。
本明細書中、「画像」という用語は、フィルタリング、解像度の変更、アップサンプリング、ダウンサンプリング等の後処理を含む画像単位を説明するために用いられるが、フレーム、フィールド、ピクチャ、又は画像、フレーム等のサブユニット若しくは領域等の他の同様の用語にも当てはまる。本明細書中、画像という用語は、文脈から明らかである場合を除き、画像全体又は画像の領域を意味する。同様に、画像の領域は画像全体を意味し得る。画像は、フレーム又はフィールドを含み、静止画、又はフィルム若しくはビデオ等の画像シーケンス、又は関連画像群中の画像に関連する。画像は、グレースケール画像又はカラー画像、又は別のタイプのマルチスペクトル画像、例えば、IR、UV若しくは他の電磁波画像、又は音響画像等であり得る。
実施形態において、周波数表現はフーリエ変換を用いて導出されるが、周波数表現はハール変換等の他の技法を用いて導出することもできる。特許請求の範囲において、フーリエ変換という単語は、DFT及びFFT等の変形を網羅するものとする。
本発明は、適切な装置を用いて電気信号を処理することによって実施されることが好ましい。
本発明は、例えば、適切なソフトウェア及び/又はハードウェアの変更を加えたコンピュータシステムにおいて実施することができる。例えば、本発明は、プロセッサ若しくは制御装置等の制御手段若しくは処理手段、メモリ、磁気記憶装置、CD、DVD等のような画像記憶手段を含むデータ記憶手段、ディスプレイ若しくはモニタ若しくはプリンタ等のデータ出力手段、キーボード等のデータ入力手段、及びスキャナ等の画像入力手段、又はこれらの構成要素の任意の組み合わせを他の付加的な構成要素と共に有するコンピュータ等を用いて実施することができる。本発明の態様は、ソフトウェア及び/若しくはハードウェアの形態において提供することができる。又は、特定用途向け装置或いはチップ等の特定用途向けモジュールを提供することができる。本発明の一実施形態による装置におけるシステムの構成要素は、他の構成要素から離れた場所に、例えばインターネットを介して設けられてもよい。
当業者であれば理解するように、説明した実施形態に対して多くの変形及び修正を行ってもよい。これは、添付の特許請求の範囲に規定される本発明の精神及び範囲に入る変形、修正及び等価物を全て含むことが意図される。

Claims (25)

  1. 画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
    前記画像の1次元関数を導出することであって、該1次元関数はサーカス関数であり、前記画像を平行移動、拡大縮小、又は回転させたものの1次元関数は、前記画像の前記1次元関数を平行移動又は拡大縮小させたものである、前記画像の1次元関数を導出することと、
    前記1次元関数の複数の周波数成分を求めることと、
    前記1次元関数の前記複数の周波数成分の振幅を計算することと、
    各成分とその次の成分との間の前記振幅の差分を求めることと
    を含む、画像の表現を導出する方法。
  2. 前記周波数成分の前記振幅の差分を用いて表現関数を定義することを含む、請求項に記載の方法。
  3. 前記表現関数はバイナリ識別子である、請求項に記載の方法。
  4. 前記表現は、前記表現関数の値を含む、請求項に記載の方法。
  5. 前記周波数成分は、フーリエ変換又はハール変換を用いて求められる、請求項1〜のいずれか一項に記載の方法。
  6. 画像に対応する信号を処理することによって該画像の表現を導出する方法であって、
    前記画像の1次元関数を導出することであって、該1次元関数はサーカス関数であり、前記画像を平行移動、拡大縮小、又は回転させたものの1次元関数は、前記画像の前記1次元関数を平行移動又は拡大縮小させたものである、前記画像の1次元関数を導出することと、
    前記1次元関数の複数の周波数成分を求めることと、
    前記1次元関数の前記複数の周波数成分の振幅の対数を計算することと、
    各成分とその次の成分との間の前記振幅の対数の差分を求めることと
    を含む、画像の表現を導出する方法。
  7. 前記バイナリ識別子は、前記求められた各差分に閾値を適用することによって導出され、該差分が0未満である場合にはバイナリ値0を与え、該差分が0以上である場合にはバイナリ値1を与えることによって、一連のバイナリ値として導出される、請求項に記載の方法。
  8. 2つ以上のそれぞれのサーカス関数を用いて2つ以上の表現を導出することと、
    該2つ以上の表現を組み合わせることと
    を含む、請求項1〜のいずれか一項に記載の方法。
  9. 前記組み合わせることは、前記2つ以上の表現を連結することを含む、請求項に記載の方法。
  10. n個の数字又はビットを有する表現を導出することを含み、
    m個の数字又はビットの部分集合を選択することをさらに含む、
    請求項1〜のいずれか一項に記載の方法。
  11. 前記1次元関数は、以下の関数:
    Figure 0005175854
    (ここで、tは画像中の各θ及び距離dによりパラメータ化される線上の位置である)のうちの1つ又は複数を用いて導出される、請求項1〜10のいずれか一項に記載の方法。
  12. 周波数成分を求める前に前記1次元関数を正規化することを含む、請求項1〜11のいずれか一項に記載の方法。
  13. 関連サーカス関数又は正規化されたサーカス関数を導出することを含む、請求項12に記載の方法。
  14. 以下の関数:
    Figure 0005175854
    (ここで、r≡t−cであり、c≡median({tkk,{|g(tk)|}k)である)のうちの1つ又は複数を用いる、請求項13に記載の方法。
  15. 画像を識別又は比較するための、請求項1〜14のいずれか一項に記載の方法。
  16. 画像を識別する方法であって、
    請求項1〜14のいずれか一項に記載の方法を用いて該画像の表現を導出することと、
    該表現を該画像と関連付けることと
    を含む、画像を識別する方法。
  17. 画像を比較する方法であって、
    請求項1〜14のいずれか一項に記載の方法を用いて導出される各画像の表現を比較することを含む、画像を比較する方法。
  18. 2つの異なる識別子B1及びB2の比較は、次式:
    Figure 0005175854
    を用いてハミング距離を求めることを含み、
    Figure 0005175854
    は排他的OR(XOR)演算子であり、Nは前記識別子の長さである、
    請求項17に記載の方法。
  19. 表現の前記比較に基づいて画像を選択することを含む、請求項17又は18に記載の方法。
  20. 請求項1〜19のいずれか一項に記載の方法を実行する装置。
  21. 請求項1〜19のいずれか一項に記載の方法を実行するために前記装置の動作を制御する制御装置を備える、請求項20に記載の装置。
  22. 画像及び/又は画像の表現を記憶する記憶手段、例えば画像データベース及び/又は記述子データベース、表示手段、並びに画像選択手段のうちの1つ又は複数をさらに備える、請求項21に記載の装置。
  23. コンピュータに請求項1〜19のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
  24. コンピュータに請求項1〜19のいずれか一項に記載の方法を実行させるためのプログラムを記録したコンピュータ読取り可能な記憶媒体。
  25. 請求項1〜19のいずれか一項に記載の方法を実行するシステム。
JP2009531911A 2006-10-11 2007-10-11 画像認識のための画像記述子 Active JP5175854B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06255239A EP1912160B1 (en) 2006-10-11 2006-10-11 Image descriptor for image recognition
EP06255239.3 2006-10-11
PCT/GB2007/003859 WO2008044026A1 (en) 2006-10-11 2007-10-11 Image descriptor for image recognition

Publications (2)

Publication Number Publication Date
JP2010506323A JP2010506323A (ja) 2010-02-25
JP5175854B2 true JP5175854B2 (ja) 2013-04-03

Family

ID=37491811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009531911A Active JP5175854B2 (ja) 2006-10-11 2007-10-11 画像認識のための画像記述子

Country Status (5)

Country Link
US (1) US8655103B2 (ja)
EP (2) EP1912160B1 (ja)
JP (1) JP5175854B2 (ja)
CN (1) CN101523415B (ja)
WO (1) WO2008044026A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013078451A1 (en) * 2011-11-22 2013-05-30 Mayo Foundation For Medical Education And Research Methods of determining local spectrum at a pixel using a rotationally invariant s-transform (rist)
GB0712388D0 (en) 2007-06-26 2007-08-01 Mitsubishi Electric Inf Tech High Performance Image Identification
AU2007214319A1 (en) * 2007-08-30 2009-03-19 Canon Kabushiki Kaisha Improvements for Spatial Wyner Ziv Coding
GB0719833D0 (en) 2007-10-10 2007-11-21 Mitsubishi Electric Inf Tech Enhanced image identification
GB0800364D0 (en) 2008-01-09 2008-02-20 Mitsubishi Electric Inf Tech Feature-based signatures for image identification
GB0807411D0 (en) * 2008-04-23 2008-05-28 Mitsubishi Electric Inf Tech Scale robust feature-based indentfiers for image identification
US8170341B2 (en) * 2009-01-23 2012-05-01 Nec Corporation Image signature extraction device
GB0901262D0 (en) 2009-01-26 2009-03-11 Mitsubishi Elec R&D Ct Europe Video identification
GB0901263D0 (en) * 2009-01-26 2009-03-11 Mitsubishi Elec R&D Ct Europe Detection of similar video segments
EP2407932B1 (en) 2009-03-13 2019-11-27 Nec Corporation Image identifier extraction device
US10133956B2 (en) 2009-03-13 2018-11-20 Nec Corporation Image signature extraction device
KR101355299B1 (ko) * 2009-04-14 2014-01-23 닛본 덴끼 가부시끼가이샤 이미지 시그니처 추출 장치
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
GB0917417D0 (en) 2009-10-05 2009-11-18 Mitsubishi Elec R&D Ct Europe Multimedia signature coding and decoding
RU2567213C2 (ru) * 2009-10-22 2015-11-10 Конинклейке Филипс Электроникс Н.В. Выравнивание упорядоченного стека изображений образца
US9678688B2 (en) 2010-07-16 2017-06-13 EMC IP Holding Company LLC System and method for data deduplication for disk storage subsystems
CN102622366B (zh) * 2011-01-28 2014-07-30 阿里巴巴集团控股有限公司 相似图像的识别方法和装置
SG183594A1 (en) * 2011-03-04 2012-09-27 Creative Tech Ltd A method and an apparatus for facilitating efficient information coding
CN102930493B (zh) * 2011-08-12 2017-08-08 索尼公司 防篡改的图像处理方法和装置
US9818187B2 (en) 2011-11-22 2017-11-14 Mayo Foundation For Medical Education And Research Determining local spectrum at a pixel using a rotationally invariant S-transform (RIST)
US9009149B2 (en) 2011-12-06 2015-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for mobile search using Bag of Hash Bits and boundary reranking
US9319690B2 (en) * 2012-04-23 2016-04-19 Telecom Italia S.P.A. Method and system for image analysis
US9773228B2 (en) * 2012-11-02 2017-09-26 Facebook, Inc. Systems and methods for sharing images in a social network
US20150019585A1 (en) * 2013-03-15 2015-01-15 Optinera Inc. Collaborative social system for building and sharing a vast robust database of interactive media content
IL226219A (en) * 2013-05-07 2016-10-31 Picscout (Israel) Ltd Efficient comparison of images for large groups of images
US9390315B1 (en) * 2015-06-25 2016-07-12 A9.Com, Inc. Image match for featureless objects
WO2017023884A1 (en) 2015-08-03 2017-02-09 The Research Foundation For The State University Of New York Solid-state silver-lithium / iodine dual-function battery formed via self-assembly
US10628736B2 (en) * 2015-09-24 2020-04-21 Huron Technologies International Inc. Systems and methods for barcode annotations for digital images
CN106846607B (zh) * 2017-01-11 2019-06-07 深圳怡化电脑股份有限公司 一种纸币识别方法及装置
WO2019183712A1 (en) * 2018-03-29 2019-10-03 Huron Technologies International Inc. Methods of generating an encoded representation of an image and systems of operating thereof
US11042772B2 (en) 2018-03-29 2021-06-22 Huron Technologies International Inc. Methods of generating an encoded representation of an image and systems of operating thereof
WO2020093152A1 (en) 2018-11-05 2020-05-14 Hamid Reza Tizhoosh Systems and methods of managing medical images
EP4252190A4 (en) 2020-11-24 2024-09-11 Huron Tech International Inc SYSTEMS AND METHODS FOR GENERATING CODED REPRESENTATIONS FOR MULTIPLE MAGNIFICATIONS OF IMAGE DATA

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465353A (en) 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US5899999A (en) 1996-10-16 1999-05-04 Microsoft Corporation Iterative convolution filter particularly suited for use in an image classification and retrieval system
US5852823A (en) 1996-10-16 1998-12-22 Microsoft Image classification and retrieval system using a query-by-example paradigm
US5819288A (en) 1996-10-16 1998-10-06 Microsoft Corporation Statistically based image group descriptor particularly suited for use in an image classification and retrieval system
US6072904A (en) 1997-12-31 2000-06-06 Philips Electronics North America Corp. Fast image retrieval using multi-scale edge representation of images
US6421463B1 (en) * 1998-04-01 2002-07-16 Massachusetts Institute Of Technology Trainable system to search for objects in images
JP3583924B2 (ja) * 1998-05-11 2004-11-04 株式会社沖データ 解像度変換方法及び変換装置
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
JP4219542B2 (ja) * 2000-09-07 2009-02-04 富士ゼロックス株式会社 画像処理装置、画像処理方法および画像処理プログラムが格納された記録媒体
US7076659B2 (en) * 2002-02-25 2006-07-11 Matsushita Electric Industrial Co., Ltd. Enhanced method for digital data hiding
US7228006B2 (en) 2002-11-25 2007-06-05 Eastman Kodak Company Method and system for detecting a geometrically transformed copy of an image
EP1498848A3 (en) * 2003-07-18 2007-03-07 Samsung Electronics Co., Ltd. GoF/GoP texture description, and texture-based GoF/GoP retrieval
JP4345426B2 (ja) * 2003-10-07 2009-10-14 ソニー株式会社 画像照合方法、プログラム、および画像照合装置
GB0700468D0 (en) * 2007-01-10 2007-02-21 Mitsubishi Electric Inf Tech Improved image identification
GB0719833D0 (en) * 2007-10-10 2007-11-21 Mitsubishi Electric Inf Tech Enhanced image identification

Also Published As

Publication number Publication date
EP1912160B1 (en) 2012-05-16
WO2008044026A1 (en) 2008-04-17
EP2315161A1 (en) 2011-04-27
US8655103B2 (en) 2014-02-18
CN101523415B (zh) 2013-12-18
CN101523415A (zh) 2009-09-02
EP1912160A1 (en) 2008-04-16
JP2010506323A (ja) 2010-02-25
US20100008589A1 (en) 2010-01-14

Similar Documents

Publication Publication Date Title
JP5175854B2 (ja) 画像認識のための画像記述子
US11163818B2 (en) Media fingerprinting and identification system
JP5054122B2 (ja) 改良された画像識別
Yan et al. Multi-scale image hashing using adaptive local feature extraction for robust tampering detection
US7127106B1 (en) Fingerprinting and recognition of data
JP5261493B2 (ja) 拡張画像識別
Himeur et al. Robust video copy detection based on ring decomposition based binarized statistical image features and invariant color descriptor (RBSIF-ICD)
Xu et al. A novel image copy detection scheme based on the local multi-resolution histogram descriptor
JP5199349B2 (ja) 高性能画像識別
Brasnett et al. Robust visual identifier using the trace transform
Lee et al. An identification framework for print-scan books in a large database
Fatourechi et al. Image and Video Copy Detection Using Content-Based Fingerprinting
Manudhane et al. Methodology for evidence reconstruction in digital image forensics
Allili et al. Multiple image copy detection and evolution visualisation using tree graphs
Singh et al. Gray Level Co-occurrence Matrix with Binary Robust Invariant Scalable Keypoints for Detecting Copy Move Forgeries
Mehmood et al. Passive Framework of Sparse Region Duplication Detection from Digital Images
Rajkumar et al. A Robust and Efficient Copy-Move Forgery Detection Technique based on SIFT and SVD

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120410

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121016

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130107

R150 Certificate of patent or registration of utility model

Ref document number: 5175854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250