JP5247646B2 - 特徴記述子ベクトル生成方法、システムおよびプログラム - Google Patents

特徴記述子ベクトル生成方法、システムおよびプログラム Download PDF

Info

Publication number
JP5247646B2
JP5247646B2 JP2009229788A JP2009229788A JP5247646B2 JP 5247646 B2 JP5247646 B2 JP 5247646B2 JP 2009229788 A JP2009229788 A JP 2009229788A JP 2009229788 A JP2009229788 A JP 2009229788A JP 5247646 B2 JP5247646 B2 JP 5247646B2
Authority
JP
Japan
Prior art keywords
primary
image
point
sample point
primary sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009229788A
Other languages
English (en)
Other versions
JP2010086540A (ja
Inventor
リュウ チョン
浩教 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Corp
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Corp, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2010086540A publication Critical patent/JP2010086540A/ja
Application granted granted Critical
Publication of JP5247646B2 publication Critical patent/JP5247646B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Description

本発明は一般にコンピュータビジョンの分野に関し、特徴記述子ベクトル生成方法、システムおよびプログラムに係る。特には、スケール・回転、画像位置や照明といった環境因子に対して不変(invariant)であるように記述される特徴記述子ベクトルを利用した画像中の局所特徴の検出および記述子に関する。
同一対象物の複数の画像間における点対応の検出は、画像検索、物体認識、シーン同定、および3D形状評価において重要である。画像検索、物体認識その他の目的のための画像中の注目点をキーポイントと呼ぶ。このキーポイントは、画像のスケールや回転に対して不変であり、かなりの範囲のひずみ、3次元上の視点の変化、照明のノイズや変化があってもしっかりと対応が取れるように、選択されかつ処理されなければならない。さらに、画像検索や物体認識などのタスクに好適であるためには、多数の画像からなる大量の特徴データベースの中から1つの特徴を高い確率で正確に一致検索できるという意味で、このキーポイントが高い弁別性を有する必要がある。
この注目点、すなわちキーポイントが検出され、場所が特定されると、さまざまな記述子を用いて表現される。それから、キーポイントに対応し、記述子で表された個別の特徴が、既知のオブジェクトの特徴データベースと照合される。従って、対応検索システムは3つのモジュールに分離できる。すなわち、注目点検出モジュール、画像点記述子モジュール、および対応特定モジュールである。これらの3つのモジュールの中で、記述子の構造の複雑さおよび次元が、システム全体としての性能に直接的かつ重大な影響をもっている(例えば、SIFT記述子を構成するのに、特徴抽出時間全体の約3/4がかかる)。以下の議論では、キーポイント近傍の記述子ベクトルの構築方法を中心に述べる。
これまでに文献でいくつかの画像点記述子が提案されてきた。SIFT(Scale−invariant feature transform)は、コンピュータビジョンにおいて、画像中の局所特徴の検知および記述に利用されるアルゴリズムの1つである。SURF(Speeded−up robust features)が、画像中の局所特徴を検出し記述するもう1つのアルゴリズムである。SIFTおよびSURFは物体認識および3次元構造の復元に適用される。文献では、これらの画像点記述子の比較および評価も行われている。それらの比較によれば、SIFTとSURFは同じような弁別性を与えるが、SURFはスピードが早く、SIFTは広い基線画像マッチングの割には有害なアーチファクト(偽信号)が少ない。SIFTの場合には記述子の弁別性は、記述子の固有値の和で計測される。和が、異なる識別子で捕捉された分散量に対応し、従って弁別性に対応する。
図1はSIFT記述子の構築方法のフローチャートである。
このフローチャートがSIFT特徴計算の要約を示している。手法がステップ1000で始まる。ステップ1001で入力画像が受け取られる。
ステップ1002で、入力画像に対して段階的なガウスぼかしが行われて(Gaussian−blurred)ガウシアンピラミッド(Gaussian pyramid)が構築される。ガウスぼかしは通常、原画像I(x,y)をスケールkiσのガウスぼかし関数G(x,y,ki,σ)で畳み込んだものを含み、ガウスぼかし関数L(x,y,kiσ)はL(x,y,kiσ)=G(x,y,kiσ)*I(x,y)で定義される。ここでkiσは、画像のぼかしに利用されるガウス関数の標準偏差を表す。kiが変化すれば標準偏差kiσが変化し、段階的なぼかしが得られる。第1のぼかし関数の標準偏差をσで表し、kiが標準偏差を変える倍数である。原画像Iをガウス関数Gで漸進的に畳み込んでぼかし像を得る場合、ぼかし画像Lはスケール空間において一定ファクタkiだけ分離している。
ステップ1003において、ガウシアンピラミッドにおける任意の連続する2つのガウスぼかし画像の差分を計算することによって、ガウス関数の差分(DoG(Difference of Gaussian))ピラミッドが構築される。こうして、DoG空間においてD(x,y,σ)=L(x,y,ki σ)−L(x,y,(ki −1)σ)が得られる。DoG画像D(x, y, σ) は、スケール kiσ と(ki −1)σにおけるガウスぼかし画像の差分である。D(x,y,σ)のスケールはkiσと(ki −1)σの間のどこかにあり、ガウスぼかし画像の数が増加し、ガウシアンピラミッドに与えられる近似が連続空間に近づくにつれ、2つのスケールは1つの値に近づく。畳み込まれた画像Lはオクターブでグループ分けされる。ここでオクターブは標準偏差σの値を2倍にすることに相当する。さらに、倍数kiの値はオクターブごとに一定数の畳み込み画像が得られるように選択される。そうして、オクターブごとに隣接するガウスぼかし画像からDoG画像Dが得られる。1つのオクターブが終わる度、ガウス画像が1/2にダウンサンプリングされて、上記のプロセスが反復される。
ステップ1004において、DoG空間における極大および極小が見つかり、これらの極大、極小の位置がDoG空間におけるキーポイント位置として利用される。極大および極小を見つけるために、DoG画像Dの中の各ピクセルと、同一スケールの8つの隣接ピクセル、および上下両面の隣接スケール各々の中の9つの隣接ピクセルの計26ピクセル(9×2+8=26)との比較を行う。そのピクセルの値が比較した全部で26のピクセルの中で最大もしくは最小である場合に、キーポイントとして選択される。この後、キーポイントはさらに処理されて、より正確に位置が特定され、コントラストの低いキーポイントやエッジにあるキーポイントは切り捨てられる。
ステップ1005において、局所画像勾配の方向に基づいて、キーポイントに1つまたは複数の配向すなわち方向が割り当てられる。局所画像の特性に基づいて各キーポイントに一貫した配向を割り当てることにより、キーポイント記述子をこの配向に対して相対的に表現することができ、従って画像回転に対する不変性を実現できる。ガウスぼかし画像L中でキーポイントスケールにある、キーポイントの周りの近傍領域におけるすべてのピクセルに対して大きさおよび方向の計算がおこなわれる。位置(x,y)にあるキーポイントに対する勾配の大きさはm(x,y)で表され、位置(x,y)にあるキーポイントに対する勾配の配向はTheta(x,y)で表される。キーポイントのスケールは、このキーポイントのスケールに最も近いスケールを有するガウスぼかし画像Lを選択するのに用いられ、その結果すべての計算がスケール不変で行うことができる。このスケールにおける各画像標本L(x,y)に対して、勾配の大きさm(x,y)と配向Theta(x,y)が、m(x,y)= SQRT[(L(x+1,y)−L(x−1,y))2+L(x,y+1)−L(x,y−1))2]に従って、ピクセルの差分を用いて計算される。配向Theta(x,y)はTheta(x,y)=arctan[(L(x,y+1)−L(x,y−1))/(L(x+1,y)−L(x−1,y))]として計算される。ここで、L(x,y)は、キーポイントのスケールでもあるスケールσにおけるガウスぼかし画像L(x,y,σ)の1標本である。
実際には、DoG空間のキーポイントの面よりも高いスケールの、ガウシアンピラミッド中で上にある面、あるいはキーポイントの面よりも低いスケールの、ガウシアンピラミッド中で下にある面のいずれかに対して勾配は一貫して計算される。いずれの場合でも、キーポイント各々に対して、キーポイントを取り巻く矩形領域において1つの同一スケールで勾配が計算される。さらに、画像信号の周波数が、ガウスぼかし画像のスケールに反映される。しかも、SIFTは矩形領域のすべてのピクセルの勾配の値を単純に使用する。矩形ブロックはキーポイントを囲んで画定され、サブブロックがブロックの内部に画定される。標本はサブブロックの中に画定され、この構造はキーポイントのスケールが異なる場合でもすべてのキーポイントに対して同様である。従って、同一オクターブ内でガウシアン平滑化フィルタを連続的に使用して、画像信号の周波数が変わったとしても、異なるスケールにおいて特定されるキーポイントとして、画像信号周波数の変化とは関係なしに、スケールで表わされる数と同一の数の標本がサンプリングされる。
ステップ1006において、ガウス関数で重み付けされた勾配の分布が各ブロックに対して計算される。ここで、各ブロックは2サブブロック×2サブブロックの計4サブブロックである(実際には所望の弁別性を実現するためには、SIFTでは4サブブロック×4サブブロックの計16サブブロックを必要とする)。ガウス関数で重み付けされた勾配の分布を計算するために、キーポイントの周りの領域の一部を含むいくつかの階級(bin)で配向ヒストグラムを作成する。配向ヒストグラムは、360度の配向範囲の10度ずつを含む36階級に分けている。あるいはまた、ヒストグラムは、360度の配向範囲を45度ずつの8つの階級に分けてもよい。
ヒストグラムに加えられた標本各々は、キーポイントのスケールの1.5倍の標準偏差を持つガウシアン荷重円ウィンドウ内の勾配の大きさで重み付けされる。配向ヒストグラムのピークは局所勾配の主方向に対応する。ヒストグラムの最高ピークが検出される。そして、たとえば最高ピークの80%というようなあるパーセンテージ内にある他の任意の局所ピークも、その配向を有するキーポイントを生成するのに用いられる。従って、同じような大きさの複数のピークを有する場所に対しては、同一場所、同一スケールで、ただし配向の異なる複数のキーポイントが生成され得る。
ステップ1007において、サブブロックからのヒストグラムを連結して、このキーポイントに対する特徴記述子ベクトルが得られる。16サブブロックからの8階級ヒストグラムの中の勾配が用いられる場合には、128次元の特徴記述子ベクトルが生じる。ステップ1008でこの方法が終了する。
一例では、特徴記述子は、キーポイント近傍の(4×4)ブロックの配向ヒストグラムのセットとして計算される。各ヒストグラムは8つの階級があり、各記述子がキーポイントの周りに8階級ヒストグラムの4×4=16のアレイを含む。このことは、SIFT特徴ベクトルが(4×4)×8=128の要素を持つことになる。このベクトルは照明の変化に対する不変性を強化するために正規化される。
SIFTにおいては、この記述子の次元、すなわち128は高い。しかしながら、より低い次元の記述子ではマッチング作業の範囲にわたって同じようには機能しなかった。記述子が長ければよりよい性能が続くが、それもそれほど顕著なものではない。しかも変形や遮蔽への感度が過敏となるという別の危険がある。
図2はSIFT記述子の構築を概略的に表示したものである。
図1のフローチャートのステップが図2に概略的に示されている。例えば、ガウシアンピラミッドを構築するための画像のぼかしのステップ(1002)および差分をとるステップ(1003)が上の左隅に示されている。そして、上右隅の極大、極小を位置づけることによりキーポイントを計算するステップ(1004)へ進む。勾配ベクトルの計算(1005)が下左隅に示される。ヒストグラムでの勾配分布の計算(1006)が下右隅に示される。最後に、ヒストグラムの連結(1007)である特徴記述子ベクトルも下右隅に示されている。
図2においては、キーポイント200が、キーポイント200を囲む矩形ブロック202の中心に位置している。
下左(1005)に、ピラミッドの各レベルに対して事前に計算された勾配が各標本領域206に小さい矢印で示されている。図に示すように、4×4の標本領域206がサブブロック204を形成し、2×2のサブブロック領域がブロック202を形成する。ブロック202は記述子ウィンドウとも呼ばれる。ガウシアン重み付け関数が円220で示され、各標本点206の大きさに重み付けを割り当てるのに用いられる。円形ウィンドウ220の荷重は滑らかに減少する。ガウシアンウィンドウ220の目的は、ウィンドウの位置のわずかな変化によって記述子に急激な変化が起きることを防ぐことであり、また記述子の中心から遠いところの勾配の影響を軽減することである。配向ヒストグラムの2×2=4の配列が2×2のサブブロックから得られ、各ヒストグラムの階級が8つの配向を有するので、特徴記述子ベクトルは(2×2)×8=32次元となる。しかし、別の検討結果から、各々が8つの方向を持つヒストグラム(8階級ヒストグラム)の4×4の配列、すなわち(4×4)×8=128次元の特徴記述子ベクトルを各々のキーポイントに用いることにより、より良い結果が得られることがわかっている。
特徴記述子ベクトルは、照明などの他の変数に対する不変性を実現するために、この後さらに修正されてもよい。
米国特許第6,711,293号明細書
ベルナ・エロル(Berna Erol)、エミリオ・アンツネッツ(Emilio Antunez)、ジョナサン・ジェイ・ハル(Jonathan J.Hull)、「ホットペーパ:携帯電話を用いたマルチメディアと紙との相互作用」(HOTPAPER:multimedia interaction with paper using mobile phones)、カナダ、第16回マルチメディアに関するACM国際学会議事録、2008年10月26−31日、p399−408
本発明の方法は、特徴記述子を生成するための従来の技術に関連する、上記およびその他の問題の1つまたは複数を実質的に防ぐ方法およびシステムを対象とする。
本発明の第1の態様によれば、画像識別のための特徴記述子ベクトルの生成方法であって、前記方法が、入出力インタフェース、記憶媒体、1つまたは複数のプロセッサ、および各手段間の通信を提供するリンクを含むコンピュータシステムで実行され、前記方法が、前記入出力インタフェースにより、入力画像を受け取り、構築手段により、入力パラメータに基づく各々が異なるぼかしスケールを有するガウスぼかしフィルタを前記受け取った入力画像に適用してガウスぼかし画像を生成することにより前記入力画像のガウシアンピラミッド空間を構築し、検出手段により、前記構築したガウシアンピラミッド空間中でキーポイントを検出し、特定手段により、前記検出したキーポイント各々に対して該キーポイントからの3次元相対位置で定義される一次標本点を前記ガウシアンピラミッド空間中で特定し、計算手段により、前記特定した一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算し、 生成手段により、前記計算した一次画像勾配を連結することにより前記入力画像に対する特徴記述子ベクトルを生成する、ことを含む、特徴記述子ベクトルの生成方法が提供される。
本発明の第2の態様によれば、第1の態様において、前記ガウシアンピラミッド空間中で前記キーポイントを検出することが、連続した前記ガウスぼかし画像間での差分をとることにより、差分ガウス空間を構築し、前記差分ガウス空間内の平面における局所極大点又は局所極小点を前記キーポイントとして設定する、ことを含んでもよい。
本発明の第3の態様によれば、第1の態様において、前記一次標本点各々に対応する二次標本点が、前記一次画像勾配を取得するために用いられてもよく、対応する一次標本点に対する前記二次標本点の位置が、前記一次標本点のスケールに基づいて定義されてもよい。
本発明の第4の態様によれば、第1の態様において、前記ガウスぼかし画像が一連のガウスぼかしフィルタを適用することにより生成されてもよい。
本発明の第5の態様によれば、第1の態様において、前記キーポイント各々に対する前記一次標本点を特定する3次元ベクトルが予め定められていてもよい。
本発明の第6の態様によれば、第1の態様において、前記入力パラメータがスケール因子および標本パラメータを含み、前記標本パラメータは一次標本パラメータおよび二次標本パラメータを含んでもよい。
本発明の第7の態様によれば、第6の態様において、前記キーポイント各々の3次元ベクトルが、該キーポイントを原点とする副座標系内で定義されてもよい。
本発明の第8の態様によれば、第7の態様において、前記一次標本パラメータが第1のパラメータdrおよび第2のパラメータsdrを含み、前記一次標本点の座標が、前記一次標本パラメータおよび前記キーポイントのスケール因子sから、
d=dr×s
sd=sdr×s
に従って決定されるd、sdに基づいて決定されてもよい。
本発明の第9の態様によれば、第8の態様において、指標iが0から4まで変化して5つの一次標本点を示し、第1の一次標本点が前記キーポイントに対応して座標(0,0,0)を有し、第2の一次標本点が座標(d,0,sd)を有し、第3の一次標本点が座標(0,d,sd)を有し、第4の一次標本点が座標(-d,0,sd)を有し、 第5の一次標本点が座標(0,-d,sd)を有してもよい。
本発明の第10の態様によれば、第8の態様において、前記二次標本パラメータが第3のパラメータrrを含み、 前記第3のパラメータrr、前記一次標本パラメータの前記第2のパラメータsdr、および対応する前記一次標本点の前記キーポイントの前記スケール因子sに基づき、前記二次標本点が
0=rr×s
r=r0(1+sdr)
に従って決定し、前記二次標本点は、半径rの円周上の等間隔点に位置してもよい。
本発明の第11の態様によれば、第1の態様において、前記一次画像勾配は、前記二次標本点各々における二次画像勾配を含んでもよく、前記二次画像勾配は、前記一次標本点各々と該一次標本点に対応する前記二次標本点との間の画像変化を、
ij=max(I(Oi)−I(Oij)),0)
に従って示してもよく、ここで、指標iは前記一次標本点を示し、i=0・・・n,n+1は前記一次標本点の番号であり、ここで、指標jは二次標本点を示し、j=0・・・m,m+1は前記二次標本点の番号であり、Oiは前記一次標本点iを定義する前記3次元ベクトルであり、Oijは前記二次標本点i,jを定義する前記3次元ベクトルであり、I(Oi)は前記一次標本点iにおける画像強度レベルを示し、I(Oij)は前記二次標本点ijにおける画像強度レベルを示し、Iijは前記一次標本点iと、前記一次標本点iに対応する前記二次標本点ijとの間の画像強度の変化に対応する、負でないスカラーを示し、前記一次標本点i各々における前記一次画像勾配は
ij=Iij/[SQRT(Σ(Iij2)]
ここで、j=0,…,m
i=[Vi0(Oi−Oi0)/|(Oi−Oi0)|,・・・,Vim(Oi−Oim)/|(Oi−Oim)|]
により得られてもよく、Vijは前記二次標本点ijにおける前記二次画像勾配成分の大きさを示すスカラーを与え、Viは前記一次標本点iにおける前記一次画像勾配ベクトルを与え、各Viはjの総数に等しい次元を有し、前記キーポイント各々における前記特徴記述子ベクトルは、
V=[V0,… Vi …,Vn
に従って前記一次画像勾配の連結から得られてもよく、nは前記キーポイントに対して特定される前記一次標本点の数である。
また、第1の態様において、前記入出力インタフェースにより前記入力パラメータを受け取ることを更に含んでもよい。
本発明の第12の態様によれば、画像識別のための特徴記述子ベクトル生成用のコンピュータシステムであって、入力画像を受け取り、特徴記述子ベクトルを出力する入出力インタフェースと、入力パラメータに基づく各々異なるぼかしスケールを有するガウスぼかしフィルタを前記受け取った入力画像に適用してガウスぼかし画像を生成することにより前記入力画像のガウシアンピラミッド空間を構築する構築手段と、前記構築されたガウシアンピラミッド空間中でキーポイントを検出する検出手段と、前記検出されたキーポイントからの3次元の相対位置で定義される一次標本点を、前記キーポイント各々に対して前記ガウシアンピラミッド空間中で特定する特定手段と、前記特定された一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算する計算手段と、前記計算された一次画像勾配を連結することによって前記入力画像に対する前記特徴記述子ベクトルを生成する生成手段と、を備える、コンピュータシステムが提供される。
本発明の第13の態様によれば、第13の態様において、前記ガウシアンピラミッド空間中で前記キーポイントを検出することが、連続した前記ガウスぼかし画像の間の差分をとることにより、差分ガウス空間を構築し、前記差分ガウス空間内の平面における局所極大点又は局所極小点を前記キーポイントとして設定する、ことを含んでもよい。
本発明の第14の態様によれば、第12の態様において、前記一次標本点各々に対応する二次標本点が、前記一次画像勾配の取得に用いられ、対応する一次標本点に関する前記二次標本点の位置が、前記一次標本点の前記スケールに基づいていてもよい。
本発明の第15の態様によれば、第12の態様において、前記ガウスぼかし画像が一連のガウスぼかしフィルタを適用することにより生成されてもよい。
本発明の第16の態様によれば、第12の態様において、前記キーポイント各々に対する前記一次標本点を特定する3次元ベクトルが予め定められていてもよい。
本発明の第17の態様によれば、第12の態様において、前記入力パラメータがスケール因子siおよび標本パラメータdr、sdr、rrを含み、 指標iが前記一次標本点各々を決定し、前記標本パラメータが一次標本パラメータおよび二次標本パラメータを含んでもよい。
本発明の第18の態様によれば、第17の態様において、前記キーポイント各々の3次元ベクトルが、該キーポイントを原点(0,0,0)とする副座標系内で定義されてもよい。
本発明の第19の態様によれば、第18の態様において、前記一次標本パラメータが第1のパラメータdrおよび第2のパラメータsdrを含み、前記一次標本点の座標が、前記一次標本パラメータおよび前記スケール因子sから、
d=dr×s
sd=sdr×s
に従って決定されるd、sdに基づいて決定されてもよい。
本発明の第20の態様によれば、第19の態様において、指標iが0から4まで変化して5つの一次標本点を示し、第1の一次標本点が前記キーポイントに対応する座標(0,0,0)を有し、第2の一次標本点が座標(d,0,sd)を有し、第3の一次標本点が座標(0,d,sd)を有し、第4の一次標本点が座標(-d,0,sd)を有し、第5の一次標本点が座標(0,-d,sd)を有してもよい。
本発明の第21の態様によれば、第19の態様において、前記二次標本パラメータが第3のパラメータrrを含み、前記第3のパラメータrr、前記一次標本パラメータの前記第2のパラメータsdr、および対応する前記一次標本点の前記スケールsiに基づき、前記二次標本点が
0=rr×s
r=r0(1+sdr)
により決定し、前記二次標本点は、半径rの円周上の等間隔点に位置してもよい。
本発明の第22の態様によれば、第12の態様において、前記一次画像勾配は、前記二次標本点各々における二次画像勾配を含み、前記二次画像勾配は、前記一次標本点各々と前記一次標本点に対応する前記二次標本点との間の画像変化を、
ij=max(I(Oi)−I(Oij)), 0)
に従って示してもよく、ここで、指標iは前記一次標本点を示し、i=0・・・n,n+1は前記一次標本点の番号であり、ここで、指標jは前記二次標本点を示し、j=0・・・m,m+1は前記二次標本点の番号であり、Oiは前記一次標本点iを定義する3次元ベクトルであり、Oijは前記二次標本点ijを定義する前記3次元ベクトルであり、 I(Oi)は前記一次標本点iにおける画像強度レベルを示し、I(Oij)は前記二次標本点ijにおける画像強度レベルを示し、Iij は前記一次標本点iと、前記一次標本点iに対応する前記二次標本点ijとの間の画像強度の変化に対応する、負でないスカラーを示し、前記一次標本点i各々における前記一次画像勾配は
ij=Iij/[SQRT(Σ(Iij2)]
ここで、j=0,…,m
i=[Vi0(Oi−Oi0)/|(Oi−Oi0)|,・・・,Vim(Oi−Oim)/|(Oi−Oim)|]
により得られてもよく、Vijは前記二次標本点ijにおける前記二次画像勾配成分の大きさを示すスカラーを与え、Viは前記一次標本点iにおける前記一次画像勾配ベクトルを与え、各Viはjの総数に等しい次元を有し、前記キーポイント各々における前記特徴記述子ベクトルは、
V=[V0,… Vi …,Vn
に従って前記一次画像勾配の連結から得られてもよく、nは前記キーポイントに対して特定される前記一次標本点の数である。
本発明の第23の態様によれば、コンピュータに、前記入出力インタフェースにより入力画像を受け取り、入力パラメータに基づく各々異なるぼかしスケールを有するガウスぼかしフィルタを前記入力画像に適用してガウスぼかし画像を生成することにより前記受け取った入力画像のガウシアンピラミッド空間を構築し、前記構築したガウシアンピラミッド空間中でキーポイントを検出し、前記検出したキーポイントからの3次元相対位置で定義される一次標本点を、前記キーポイント各々に対して前記ガウシアンピラミッド空間中で特定し、前記特定した一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算し、前記計算した一次画像勾配を連結することにより前記入力画像に対する特徴記述子ベクトルを生成する、画像識別のための特徴記述子ベクトル生成処理を実行させるためのプログラムが提供される。
本発明の態様は、SIFTがSURFよりもすぐれている点を失わずに、SIFTよりも高速に計算できる記述子を提供する。本発明の一態様によれば、高い弁別性を有し、かつ計算上の複雑さおよび次元を大幅に削減した、記述子が提供される。
本明細書に組み込まれ、本明細書の一部を成す添付の図面は、本発明の実施態様を例示し、説明と相俟って、本発明技術の原理の説明および例示に供する。具体的には以下のとおりである。
SIFT記述子の構築方法のフローチャートである。 SIFT記述子の構築を概略的に表示したものである。 本発明の態様による、新しい特徴セットを構築するための高速不変変換(FIT)計算を実行する方法のフローチャートである。 本発明の態様による、FIT画像記述子の構築を概略的に示す図である。 本発明の態様による、画像記述子構築方法のフローチャートである。 本発明の態様による図5Aに示した画像記述子構築方法の特定の実施例のフローチャートである。 本発明の態様による、画像記述子の構築を概略的に示す図である。 本発明のシステムが実装されているコンピュータプラットフォームの実施例である。 本発明の一態様と図7のコンピュータプラットフォームとの関係を示す図である。
以下の詳細な説明では添付の図面を参照する。ここで同一の機能的要素は同様の符号で示される。前述の添付の図面は、本発明の原理に合致する特定の実施態様および実装形態を限定としてではなく例示として示す。これらの実装形態は、当業者が本発明を実施できるように十分に詳細に説明される。また、本発明の趣旨および範囲を逸脱することなしに、他の実装形態が利用されてもよいこと、および様々な要素の構造上の変更および/または代用が行われてもよいことを理解されたい従って、以下の詳細な説明は、限定的な意味で解釈されるべきではない。さらに、説明される本発明の様々な実施形態は、汎用コンピュータ上で実行されるソフトウェアの形態、または専用ハードウェアの形態、あるいはソフトウェアとハードウェアの組合せ、のいずれで実装されてもよい。
本発明の態様は、画像識別用の特徴記述子の生成方法を提供する。この方法は、入力画像を受け取るステップと、入力パラメータを受け取るステップと、入力画像にガウスぼかしフィルタを適用してガウスぼかし画像を生成することにより入力画像のガウシアンピラミッド空間を構築するステップと、ガウシアンピラミッド空間に2つ以上の異なるスケールでキーポイントを見つけ出すステップと、ガウシアンピラミッド空間の3次元ベクトルを利用して、各キーポイントに対する一次標本点を特定するステップと、一次標本点に対応する一次画像勾配を計算するステップと、一次画像勾配を連結することにより入力画像に対する特徴記述子ベクトルを生成するステップと、を含む。特徴記述子ベクトルがユーザに提供される。ガウスぼかしフィルタは各々異なるスケールのぼかしを有し、そのスケールは入力パラメータに基づいている。各キーポイントの3次元ベクトルが、キーポイントに対して一次標本点を定義する。一次画像勾配は、一次標本点近傍における画像の変化を示すベクトルである。この方法は、入出力インタフェース、記憶媒体、1つまたは複数のプロセッサ、およびコンポーネント間の通信を提供するバス、を含むコンポーネントを有する計算機によって実装される。入力画像および入力パラメータは入出力インタフェースで受け取られ、特徴記述子ベクトルは入出力インタフェースを介してユーザに提供される。1つまたは複数のプロセッサが処理ステップを実行する。
本発明の態様は、画像識別用の特徴記述子の生成システムを提供する。システムは、入力画像を受け取るためおよび入力パラメータを受け取るための入出力インタフェースと、入力画像にガウスぼかしフィルタを適用してガウスぼかし画像を生成することにより入力画像のガウシアンピラミッド空間を構築するための1つまたは複数のプロセッサとを含む。1つまたは複数のプロセッサが、ガウシアンピラミッド空間に2以上の異なるスケールでキーポイントを見つけ出す。1つまたは複数のプロセッサが、ガウシアンピラミッド空間の3次元ベクトルを利用して、各キーポイントに対する一次標本点を特定する。ここで、各キーポイントの3次元ベクトルが、キーポイントに対して一次標本点を定義する。1つまたは複数のプロセッサが、一次画像勾配を、一次標本点に対応して計算する。一次画像勾配は、一次標本点近傍における画像の変化を示すベクトルである。1つまたは複数のプロセッサが、一次画像勾配を連結することによって入力画像に対する特徴記述子ベクトルを生成する。入出力インタフェースが、ユーザに対して入出力インタフェースを介して特徴記述子ベクトルを提供する。
前述および以下の説明はいずれも単に例示および説明を目的とするものであり、特許請求の範囲に記載の発明もしくはその適用を限定することは意図していないことを理解されたい。
本発明の態様は、文書画像あるいは従来の写真における対応点のマッチングをとるために設計された、新規の画像記述子の生成を対象とする。本発明の態様による新しい特徴セットを構築する方法は、本明細書においては、高速不変変換(FIT(Fast Invariant Transform))と称される。
本発明の態様が、SIFTによる画像記述子よりもはるかに高速演算可能な(一実験例では、今のところ特徴抽出全体で約4倍、記述子構築だけに限れば約70倍高速の)画像記述子を提供する。本発明の態様は、キーポイントスケールよりも上の多数の粗スケールでのスケール依存勾配を直接計算する。これは、すべての局所勾配をキーポイントのスケールで計算するSIFTとは異なる。さらに、本発明の態様においては、SIFTで行われる多大な時間を必要とする勾配重み付けプロセスが除外される。その代わりに、ガウシアンピラミッドに生成されたデータが直接利用される。一方SIFTでは、勾配が計算された後に、計算された局所勾配に対してガウシアン重み付けが行われ、これによって余計な計算ステップが追加される。
いくつかの例で,FITで得られた結果とSIFTで得られた結果との違いを示す。SIFTは128次元の記述子ベクトルを提供して、1つのスケールレベルでの情報を収集する。これとは対照的に、FITは、たとえば40次元の記述子ベクトルを提供し、これによって多数スケールでの情報を収集する。この設計により、空間領域を占有する記述子の自由度と共に記述子の次元を縮減する自由度が増す。本発明の態様の40次元の記述子と128次元のSIFT記述子とを、2006年マルチメディア国際会議(ICME06)の論文1000ページを対象に比較してみると、SIFTは 99.93%のページ認識率であったが、本発明の態様による方法では99.9%のページ認識率を達成した。この2つの認識率は同等であるが、本発明の態様による方法が、識別子の構築およびその後の検索において著しく高速である。
さらに、SIFTの128次元の記述子ベクトルに比べて、この例では記述子が40次元しかないということから、FIT記述子はSIFT記述子が必要とする記憶容量の約1/3しか必要としない。この記憶容量の節約は、大量のデータを検索し指標付けするときに重要となる。本発明の態様が必要とする容量および計算の要求仕様は、認識率は同等であるにもかかわらず、SURFの要求仕様に比べて50%低い。
SIFT記述子とFIT記述子との探索速度を、同じ近似最近傍探索(ANN(approximate nearest neighbor))アルゴリズムを用いて1000ページの論文で比較してみると、FIT記述子を利用するアルゴリズムの方が約9.17倍速い。より大きなデータセットでの探索ではスピードはさらに増すと思われる。さらに、FITアルゴリズムは、広い基線画像マッチング用のアクセシブルな情報システム(DAISY(digital accessible information system))の記述子よりもはるかに高速であり得る。理論では、SURFが広い基線画像マッチングに対してもたらすような有害なアーチファクト(偽信号)をFIT記述子は持たない。
図3は本発明の態様による、新しい特徴セットを構築するための高速不変変換(FIT)計算を実行する方法のフローチャートを示す。
本発明の概念の特徴に従った、FIT特徴構築の例示的プロセスはステップ3000から始まる。ステップ3001で入力画像が受け取られる。この段階、あるいはその後で、その他の入力パラメータも受け取られる。ステップ3002で、入力画像に対して段階的なガウスぼかしが行われてガウシアンピラミッドが構築される。ステップ3003において、ガウシアンピラミッドにおける任意の連続する2つのガウスぼかし画像の差分を計算することによって、DoGピラミッドが構築される。ステップ3004においてキーポイントが選択される。一例では、DoG空間における極大および極小が決定され、これらの極大、極小の位置およびスケールがDoG空間およびガウシアンピラミッド空間におけるキーポイント位置として利用される。このステップまでは、FITプロセスは図1のSIFTプロセスと同様に行われる。
ステップ3005において、一次標本点(primary sampling point)と称される記述子の標本点が、ガウシアンピラミッド空間の各キーポイント位置に基づいて特定される。一次標本点という用語は、これらの記述子標本点を二次標本点(secondary sampling point)と称されるポイントと区別するために用いられる。二次標本点のいくつかは、以下の図5Aに関してさらに説明するように、一次標本点の各々に関連する。一次標本点各々とそれに対応するキーポイントとの間の関係は、空間型−スケール空間の3次元ベクトルによって定義される。より具体的には、キーポイントに始点を持ち、対応する一次標本点に終点を持つスケール依存の3次元ベクトルが、そのキーポイントの一次標本点を特定するために利用される。
ステップ3006で、各一次標本点におけるスケール依存の勾配が計算される。これらの勾配は、一次標本点とそれに関連する二次標本点各々との間の画像強度の差に基づいて得られる。画像強度の差が負の場合には、二次標本点における画像強度が一次標本点における強度よりも高いことを示し、差はゼロに設定される。
ステップ3007において、キーポイントの一次標本点のすべてからの勾配が連結されて特徴記述子としてのベクトルを形成する。
ステップ3008でこの方法が終了する。
図3のフローチャートで示されるFITは、図1に示すSIFTよりも速く、その理由をこの節で検討する。128次元のSIFT記述子各々に対しては、キーポイントの周りの4サブブロック×4サブブロックのブロックが使用され、各サブブロックは少なくとも4ピクセル×4ピクセルを含み、全体として16ピクセル×16ピクセルとなる。従って、勾配の値はキーポイントの周りの16×16=256ピクセルすなわち標本点について計算する必要がある。さらに、各サブブロックが4ピクセル×4ピクセル以上の領域を含むことが一般的である。各サブブロックが4ピクセル×4ピクセル以上の領域を含む場合には、アルゴリズムとしてはさらに大きい数のポイントについて勾配を計算しなければならない。勾配はベクトルであり、大きさと方向すなわち配向の両方を有する。個々のピクセルについて勾配の大きさm(x,y)および配向Theta(x,y)を計算するには、この方法では、足し算を5回、掛け算を2回、割り算を1回、平方根を1回、そしてアークタンジェントを1回計算しなければならない。本方法では、これらの256の勾配値に、16×16のガウシアンウィンドウで重み付けする必要もある。勾配値を各ポイントに対して正確に計算しようとすると、SIFTではスケール空間での補間を必要とする。計算コストが絡むために、SIFTの実装においては、適正なスケールでの勾配の評価は一般的にかなり大雑把である。
一方、FITプロセスに反映された本発明の態様では、この例においては、基本操作として40の加算を必要とする。40の勾配値を補間する負担(コスト)はかなり小さいので、勾配をより正確に評価するためにスケール空間での補間が行われる。
図4は本発明の態様による、FIT記述子の構築を概略的に示す。
図3のフローチャートのステップが図4に概略的に示されている。ガウシアンピラミッド(3002)を構築するための画像のぼかし、およびDoG空間を得るための差分(3003)が上左隅に示されており、キーポイントの計算の手順が右上隅(3004)に示されている。個々のキーポイント6001に対する5つの一次標本点6002の特定、6001の特定が下左隅(3005)に示されている。空間型−スケール空間(3006)における各一次標本点の勾配の計算、および特徴記述子ベクトル(3007)に至る5つの一次標本点からの勾配の連結が、下右隅に示されている。
図5Aは、本発明の態様による、画像記述子構築方法のフローチャートである。
図5Aおよび図5Bは、図3のステップ3004から3007までのより詳細な例として示されている。しかし、図5Aおよび図5Bに示されている画像記述子構築法は図3の方法に限定されるわけではなく、入力パラメータを受け取るステップと、スケールを定義するガウシアンピラミッドを構築すると共に入力画像を受け取るかあるいは直接キーポイントを受け取るステップとを含む別のプロセスがこの前に行われていてもよい。ただし、図5Aおよび図5Bの方法に先行するステップに、図3に示した、キーポイントを探し出すために使用される差分ガウス空間の構築は含まれても、含まれなくてもよい。キーポイントはそれに代わる方法で抽出されてもよい。そしてキーポイントがスケール変化するガウシアンピラミッドの内部にありさえすれば、図5Aおよび図5Bの方法は有効である。
この方法はステップ5000で始まる。ステップ5001でキーポイントが抽出される。キーポイントは多くの異なる方法で抽出することができる。そのうちの1つを図5Bの例示フローチャートに示す。ステップ5002で一次標本点が、入力パラメータ(そのうちの1つはスケールである)に基づいて特定される。ステップ5003で、二次標本点が、入力パラメータのいくつか(これにもスケールが含まれる)を利用して、各一次標本点について特定される。ステップ5004で、各一次標本点における一次画像勾配が得られる。各一次標本点とそれに対応する二次標本点との間の画像強度ないしは別の画像特性の変化を示す二次画像勾配に基づいて、一次画像勾配が算出される。ステップ5005で、キーポイントに対応するすべての一次標本点に対する一次画像勾配を連結することによって、キーポイントに対する記述子ベクトルが生成される。ステップ5006でこの方法が終了する。
図5Bは本発明の態様による図5Aに示した画像記述子構築方法の特定の実施例のフローチャートである。
ステップ5100でこの方法が開始される。ステップ5101で差分ガウス空間の中にキーポイントが抽出され、各キーポイントが副座標系の中心に置かれる。ステップ5102で、いくつかの入力パラメータに基づいて一次標本点が特定される。これらの入力パラメータの1つがスケールを決定し、別の2つが、キーポイントを中心とする副座標系の中の一次標本点の座標を決定する。一次標本点は、キーポイントを起点とし、ガウシアンピラミッド内の異なるスケールにおける一次標本点を終点とするベクトルによって定義される。ステップ5103で、いくつかの入力パラメータを用いて各一次標本点に対して8つの二次標本点が定義される。ここで、このいくつかの入力パラメータにもスケールが含まれ、さらには、一次標本点を中心とする半径を決定するパラメータも含まれている。8つの二次標本点は一次標本点を中心とする円周に定義され、その半径は一次標本点のスケールに応じて変化する。二次標本点はキーポイントを起点とし、二次標本点を終点とするベクトルによって定義される。ステップ5104で、5つの一次標本点各々における一次画像勾配が得られる。一次画像勾配は、一次標本点の8つの二次画像勾配をその成分ベクトルとして含む。ステップ5105で、キーポイントに対応する5つの一次標本点すべてに対する一次画像勾配を連結することによって、キーポイントに対する記述子ベクトルが生成される。ステップ5106でこの方法が終了する。
図6は本発明の態様による、画像記述子の構築を概略的に示す図である。
本発明のさまざまな態様において、ガウシアンピラミッドおよびDoGピラミッドは連続3次元空間型−スケール空間内にあると考えられる。連続3次元空間型−スケール空間の座標系において、空間平面は2つの直交軸uとvで定義される。スケールの次元である、第3の次元が、空間軸uおよびvで形成される平面に垂直な第3の軸wによって定義される。スケール次元とは、ガウシアンフィルタのスケールを指す。従って、空間型−スケール空間は、空間平面と、第3の次元を加えるスケールベクトルとによって構成される。画像は2次元空間平面中に形成される。画像の段階的ぼかしが第3の次元をもたらし、これがスケール次元である。キーポイント6001各々は、局所副座標系の原点となり、u、v、wの各軸が原点とする。
この空間型−スケール座標系において、画像中の任意の点はI(x,y,s)で表現される。ここで、(x,y)は空間型ドメイン(画像ドメイン)中の位置に対応し、sはスケールドメイン中のガウシアンフィルタスケールに対応する。空間型ドメインとは、画像が形成されるドメインである。従って、Iは位置(x,y)で、スケールsのガウシアンフィルタによってぼかされた画像に対応する。キーポイントを原点とする局所副座標系は、空間型−スケール空間での記述子の詳細を記述するために定義される。この副座標系において、キーポイント6001そのものは座標(0,0,0)を有し、u方向は空間型ドメインのキーポイントの配向に一致する。キーポイントの配向は、SIFTと同じようにして決められる勾配ヒストグラムの主要階級によって決定される。空間型ドメインのv方向は、空間型ドメインの中で原点を中心としてu軸を反時計方向に90度回転して得られる。スケール変化に対応するw軸は空間型ドメインに垂直で、スケールの増大する方向に向いている。これらの方向は例示的なものであって、計算のやりやすさで選択される。副座標系に加えて、スケールパラメータd、sdおよびrが、一次標本点6002の定義と、各一次標本点の周りの情報収集の制御のために用いられる。
図示された例示の態様においては、キーポイント6001各々に対して、記述子情報が5つの一次標本点6001、6002で収集される。これにはキーポイントそのものは含まれても、含まれなくてもよい。図6は、キーポイント6001が原点である副座標系における一次標本点の分布を示している。これらの一次標本点を、副座標系の原点(0,0,0)から標本点位置までの3次元ベクトルOiで定義する。ここでi=0,1,2,3,4である。従って、定義により原点(0,0,0)に位置するキーポイントに対応する一次標本点は次のベクトルで定義される。
0=[0 0 0]
1=[d 0 sd]
2=[0 d sd]
3=[−d 0 sd]
4=[0 −d sd]
一次標本点ベクトルOi各々において、最初の2つの座標はベクトルの終点のu座標とv座標を示し、3番目の座標はスケールに対応するw座標を表す。各一次標本点ベクトルOiはキーポイントを始点とする。
本発明の他の実施形態および態様においては、異なる数の一次標本点が用いられる。
図に示した例示の態様においては、一次標本点には原点すなわちキーポイント6001そのものも含まれる。しかし、一次標本点はキーポイントを含まないように選択されてもよい。一次標本点の座標が示すように、これらのポイントは異なるスケールで選択される。示された例示の態様においては、一次標本点は2つの異なるスケール、0およびsdで選択されている。しかし、一次標本点は各々異なるスケールで選ばれてもよいし、異なるスケールの任意の組合せで選ばれてもよい。一次標本点がすべて同一のスケールで選択されたとしても、本発明の態様は、一次および二次標本点の両方の選択方法においてSIFTとは区別される。
例示した態様においては、5つの一次標本点各々で8つの勾配値が計算される。まず、ベクトルOiで示される各一次標本点のまわりに、次式に従って、ベクトルOijで表示される8つの二次標本点が定義される。
ij−Oi,=[ri cos(2πj/8) ri sin(2πj/8) 0] ここで、i=0 for j=1,…,7
ij−Oi,=[ri cos(2πj/8) ri sin(2πj/8) sd] ここで、i≠0 for j=1,…,7
上の式によれば、これらの8つの二次標本点は、図6に示すように、一次標本点を中心とする円周上に均一に分布している。円の半径は一次標本点のある平面のスケールに依存し、従ってスケールが大きくなれば半径も大きくなる。半径の増大と共に、一次標本点からも、また相互にも遠く離れた二次標本点が収集され、高いスケールでは密にサンプリングする必要のないことを示している。8つの二次標本点Oijおよびそれに対応する中心の一次標本点Oiに基づいて、各一次標本点に対する一次画像勾配ベクトルViは次式で計算される。
ij=max(I(Oi)−I(Oij)), 0)
この式において、Iij はスカラーである。
ij=Iij/[SQRT(Σ(Iij2)]
この式において、j=0,…,7、Vijはスカラーである。
i=[Vi0(Oi−Oi0)/|(Oi−Oi0)|,
i1(Oi−Oi1)/|(Oi−Oi1)|,
i2(Oi−Oi2)/|(Oi−Oi2)|,
i3(Oi−Oi3)/|(Oi−Oi3)|,
i4(Oi−Oi4)/|(Oi−Oi4)|,
i5(Oi−Oi5)/|(Oi−Oi5)|,
i6(Oi−Oi6)/|(Oi−Oi6)|,
i7(Oi−Oi7)/|(Oi−Oi7)|]
上の式においてViは、方向[Oi−Oi0, Oi−Oi1, Oi−Oi2, Oi−Oi3, Oi−Oi4, Oi−Oi5, Oi−Oi6, Oi−Oi7]にスカラー成分 [Vi0, Vi1, Vi2, Vi3, Vi4, Vi5, Vi6, Vi7]を持つベクトルである。方向ベクトルはその大きさで割って正規化される。
スカラー値Iは特定の位置における画像強度レベルに対応する。スカラー値Iij は、一次標本点の画像強度I(Oi)各々と、ある特定の標本点を中心とする円周上に等間隔で選択された、8つの二次標本点の画像強度I(Oij)各々との差を与えている。画像強度におけるこの差がゼロより小さく、負の値を持つ場合には、この値はゼロに設定される。従って、結果として成分の値Vijは負の成分とはならない。各円の周りに、つまりi=0,…,4の5つの一次標本点各々に対してj=0,…,7の8つの二次標本点がある。従って、8つの成分ベクトルIi0i0/|Oi0|, … ,Ii7i7/|Oi7|が、5つの一次標本点各々に対する1つの成分ベクトルViとなる。成分ベクトルVi各々は、それ自身が8つの成分を持っている。Ii0,… ,Ii7 に対応する成分ベクトルは二次画像勾配ベクトルと呼ばれ、成分ベクトルViは一次画像勾配ベクトルと呼ばれる。
5つの一次標本点で計算される5つの一次画像勾配ベクトルを連結することにより、キーポイントに対する記述子ベクトルVが次式で与えられる。
V=[V0,V1,V2,V3,V4
上の式において、パラメータd、sd、rはすべて副座標系におけるキーポイントのスケールに依存する。キーポイントスケールはスケールsで表され、基準標準偏差すなわちスケールs0の整数あるいは非整数の倍数であってもよいし、別の方法で決められてもよい。決定方法にかかわらず、スケールsはキーポイントの位置によって変わり得る。3つの一定値dr、sdr、rrが系への入力として与えられる。5つの一次標本点の座標を決定するd、sd、riの値は、スケールsと共に3つの定数dr、sdr、 rrを用いて得られる。二次標本点が位置する、一次標本点を中心とする円の半径も、同じ入力定数値で得られる。一次および二次標本点のどちらの座標も、このように以下の式により得られる。
d=dr×s
sd=sdr×s
i=r0(1+sdr)
ここで r0=rr×s
上の式はすべてスケール因子sを含んでおり、座標がスケールの関数で変化するようにすべてスケールに依存している。例えば、各一次標本点が位置している平面のスケールは、別の一次標本点が位置している平面のスケールとは違う可能性がある。従って、一次標本点が変わると、スケールsが変化し、すべての座標d、sd および 半径riも同様に変わる。スケール依存性が組み込まれている限りは、一次および二次標本点の座標を得るのに他の式を用いてもよい。
ある状況においては、各勾配ベクトルのスケールsはガウシアンピラミッド中の計算された画像平面の間にあってもよい。このような状況では、勾配値は一次標本点に最近接の2つの画像平面上でまず計算される。その後、ラグランジェ補間法を用いて一次標本点のスケールにおける勾配ベクトルを計算する。
本発明の1つの例示的態様においては、ガウシアンピラミッド構築に用いるガウシアンフィルタの標準偏差が既定値としてシステムに入力される。この標準偏差パラメータをs0で表す。そうすると、可変スケールsは、s=mi0のようにs0の整数倍もしくは非整数倍で定義される。他の例においては、sの変化は、図2および図4に示す各オクターブの最初と最後の平面の間にある3つの平面に合うように決定される。
本発明の態様による評価例を以下に示す。
実験的な評価例において、パラメータs0、dr、sdr、rrは実験的に決定され、本発明の方法およびシステムに入力された。パラメータs0は、異なるぼかし度合いでガウスぼかし画像を取得するのに用いた基準標準偏差である。
実験例として本発明の方法およびシステムを、ICME06会議録の1000ページに適用した。各ページを306×396の画像に変換し、キーポイントおよび特徴ベクトルを抽出するトレーニング用画像としてシステムに供給した。各ページの画像を0.18倍から2倍の間でランダムに拡大、縮小し、0度から360度の間の角度でランダムに回転させて、各入力ページに対応する3つのテスト画像を取得して3000のテスト画像を生成した。同一の画像の異なるサイズおよび回転を用いたシステムのテストで、システムが拡大・縮小や回転に対して不変であるかどうかが示される。3000のテスト画像がシステムに与えられた。結果として得られた出力は、この入力画像に対してページの認識率が99.9%であった。一方で、同一の探索アルゴリズム、同一のトレーニング用画像、同一のテスト画像を用いたSIFT記述子の場合には、ページ認識率が99.93%であった。本発明の方法およびシステムのより大きなデータセットに対する実現可能性を、ICME06会議録の2188ページを利用してテストした。このより大きなデータセットに対する本発明の方法およびシステムの認識率は99.6%であった。これらの実験に基づけば、本発明の方法およびシステムを適用して得られる特徴セットは,SIFTで得られる特徴セットに対して認識率において同等あるいはそれ以上である。
また同時に、本発明の態様による探索スピードはSIFTシステムのスピードを凌ぎ、本発明の態様の探索時間は,SIFTシステムが要する時間よりも約1桁小さかった。本発明の態様による特徴セットに基づく探索時間と、SIFT特徴セットによる探索時間が記録され比較された。この比較では、探索は近似最近傍探索(ANN)アルゴリズムに基づいており、前に述べたように、トレーニング用データセットは1000ページであり、テスト画像は3000画像である。本発明の態様による記述子ベクトルを用いた場合、実験的に得られた平均画像探索時間は24msであった。一方、SIFT記述子を用いた場合の平均探索時間は220msであった。従って、SIFTに比べて本発明の態様がより高速で同等の認識率を与えることが実験的に示された。
前述したように、本発明の態様は、各キーポイントを始点とし、異なるスケールに対応する位置を終点とする一連の3次元ベクトルを利用する。この3次元ベクトルの終点が、各キーポイントに対するガウシアンピラミッド空間における一次標本点を定義する。本発明の態様に対比してSIFTでは、標本点の代わりに標本矩形、すなわち標本を用い、そしてSIFTのすべての標本矩形は,SIFTにおいて選択されたキーポイントと同一のスケール上にある。
さらに本発明の態様では、各一次標本点の周りのスケール依存勾配を計算し、1つのキーポイントに関するすべての一次標本点からの勾配を連結して特徴記述子ベクトルを形成する。一実施例では、各キーポイントのサンプリングに5つの一次標本点が用いられ、その5つの一次標本点各々を中心とする円の周りに8つの二次標本点が決定される場合、キーポイント各々に対し40次元の特徴記述子ベクトルが得られる。この本発明の態様とは対照的に、SIFTでは同一スケールの隣接ピクセル間だけで勾配が算出され、単一スケールレベルに関する大きな領域に亘って勾配が平均化される。画像認識において同等のレベルの精度を得ようとすると、SIFTでは128次元の特徴記述子ベクトルの使用が必要となる。
従って本発明の態様では、不変画像特徴ベクトルの構築が高速化され、対応する画像特徴を探索する時間幅が短縮可能となり、大容量の画像データを指標付けするメモリスペースおよびディスクスペースが節約可能であり、ハード、ソフトおよびエネルギのコストが節約可能となる。
図7は、本発明による方法の実施形態を実装することが可能なコンピュータ/サーバ
システム7000の実施形態を示すブロック図である。
システム7000は、コンピュータ/サーバプラットフォーム7001と、周辺装置7002と、ネットワークリソース7003とを含む。
コンピュータプラットフォーム7001は、このコンピュータプラットフォーム7001の全体に亘る情報あるいはコンピュータプラットフォーム7001の様々な部分間での情報をやり取りするためのデータバス7005または他の通信機構と、情報を処理し他の計算タスクおよび制御タスクを実行するためにバス7001に連結されたプロセッサ7005と、を含むことができる。また、コンピュータプラットフォーム7001は、プロセッサ7005で実行される命令および様々な情報を格納するためにバス7004に連結された、ランダムアクセスメモリ(RAM)のような揮発性ストレージ7006や他の動的ストレージデバイスも含む。また、揮発性ストレージ7006は、プロセッサ7005による命令の実行中に一時変数や、その他の中間情報を格納するために使用することも可能である。コンピュータプラットフォーム7001は、種々のシステム構成パラメータや基本入出力システム(BIOS)などのような、静的情報およびプロセッサ7005用の命令を格納するために、バス7004に連結された読み取り専用メモリ(ROMあるいはEPROM)7007や、その他の静的ストレージデバイスをさらに含むことができる。磁気ディスク、光ディスク、ソリッドステートフラッシュメモリデバイスなどの永続ストレージデバイス7008が、情報および命令を格納するために提供され、バス7001に連結される。
コンピュータプラットフォーム7001は、コンピュータプラットフォーム7001のシステム管理者あるいはユーザに対して情報を表示するために、陰極線管(CRT)、プラズマディスプレイ、液晶ディスプレイ(LCD)のようなディスプレイ7009にバス7004を介して連結することができる。英数字キーおよびその他のキーを含む入力デバイス7010が、情報およびコマンド選択をプロセッサ7005に通信するためにバス7004に連結される。別のタイプのユーザ入力デバイスとして、マウスやトラックボールやカーソル方向キーのようなカーソル制御デバイス7011があり、方向情報およびコマンド選択をプロセッサ7005に通信し、またディスプレイ7009上のカーソル移動を制御する。通常、この入力デバイスは、第1の軸(たとえばx軸)および第2の軸(例えばy軸)の2つ軸における自由度2を有しており、これにより平面上の位置を特定することができる。
コンピュータプラットフォーム7001に付加的、あるいはリムーバブルなストレージ容量を提供するために、外部ストレージデバイス7012をバス7004を介してコンピュータプラットフォーム7001に接続することができる。コンピュータシステム7000のある実施形態においては、他のコンピュータシステムとのデータ交換を容易にするために外部のリムーバブルストレージデバイス7012を使用することができる。
本発明は、本明細書で説明する技術を実施するためのコンピュータシステム7000の使用に関する。ある実施態様では、本発明のシステムがコンピュータプラットフォーム7001のようなマシンに備わっている。本発明の一実施態様によれば、ここで説明する技術は、揮発性メモリ7006に含まれる1つまたは複数の命令の1つまたは複数のシーケンスを、プロセッサ7005が実行するのに応答して、コンピュータシステム7000で実行される。このような命令は、永続ストレージデバイス7008のような別のコンピュータ可読媒体から揮発性メモリ7006に読み込むことができる。揮発性メモリ7006に含まれる命令のシーケンスを実行することにより、プロセッサ7005がここに説明するプロセスステップを遂行する。別の実施態様では、本発明を実施するのに、ソフトウェアによる命令の代わりに、あるいはソフトウェアによる命令と組み合わせて、配線による回路を使用することができる。したがって、本発明の実施態様は、ハードウェア回路とソフトウェアのいかなる特定の組み合わせにも限定されるものではない。
本明細書で使用される「コンピュータ可読媒体」という用語は、プロセッサ7005に実効命令を与えることに関与する任意の媒体を指す。コンピュータ可読媒体は、本明細書で説明する任意の方法および/または技術を実施するための命令を伝えることができる、マシン可読媒体の一例に過ぎない。このような媒体は多くの形態を取ることができ、不揮発性媒体、揮発性媒体および伝送媒体などが含まれる。ただしこれに限定されるものではない。不揮発性媒体には、ストレージデバイス7008のような、例えば光ディスク、あるいは磁気ディスクが含まれる。揮発性媒体には、揮発性ストレージ7006のようなダイナミックメモリが含まれる。伝送媒体には、データバス7004を構成する配線を含め、同軸ケーブル、銅線および光ファイバが含まれる。
コンピュータ可読媒体の一般的形態として、例えば、フロッピディスク(登録商標)、フレキシブルディスク、ハードディスク、磁気テープ、あるいは他の任意の磁気媒体、CD−ROM、他の任意の光媒体、パンチカード、紙テープ、その他の孔でパターンを形成する任意の物理媒体、RAM、PROM、EPROM、フラッシュEPROM、フラッシュドライブ、メモリカード、その他の任意のメモリチップまたはメモリカートリッジ、あるいはコンピュータが読み取ることができる他の任意の媒体、が含まれる。
様々な形態のコンピュータ可読媒体が、プロセッサ7005での実行のために、1つまたは複数の命令の1つまたは複数のシーケンスの伝送に関与し得る。例えば、命令が先ず、リモートコンピュータから磁気ディスクへ伝送されてもよい。もしくは、リモートコンピュータが命令をリモートコンピュータのダイナミックメモリに書込み、モデムを使用して電話線で命令を送信することもできる。コンピュータシステム7000にローカルなモデムが電話線上でデータを受信し、赤外線送信機を使用してそのデータを赤外線信号に変換することができる。赤外線検出器が赤外線信号で伝送されるデータを受信し、適切な回路によってそのデータをデータバス7004に乗せることができる。バス7004がデータを揮発性ストレージ7006に伝送し、そこからプロセッサ7005が命令を取り出して、実行する。揮発性メモリ7006によって受け取られる命令は、プロセッサ7005の実行の前後のいずれかにオプションとして、永続ストレージデバイス7008上に格納されてもよい。この命令は、当技術分野で周知の様々なネットワークデータ通信プロトコルを使用して、インタネットを介してコンピュータプラットフォーム7001にダウンロードすることも可能である。
コンピュータプラットフォーム7001は、データバス7004に連結されたネットワークインタフェースカード7013のような、通信インタフェースも含む。通信インタフェース7013は、ローカルエリアネットワーク(LAN)7015に接続されたネットワークリンク7014に連結する双方向のデータ通信を提供する。例えば、通信インタフェース7013が、対応する型式の電話線とのデータ通信接続を提供する、総合デジタル通信網(ISDN)カードあるいはモデムであってもよい。別の例としては、通信インタフェース7013が、互換性のあるLANとのテータ通信接続を提供する、ローカルエリアネットワークインタフェースカード(LAN NIC)であってもよい。よく知られた7002.11a、7002.11b、7002.11gおよびブルートゥース(Bluetooth(登録商標))などのような無線リンクもネットワーク実装に用いることができる。これらのいずれの実装においても、通信インタフェース7013が、種々のタイプの情報を表すデジタルデータストリームを伝送する電気信号、電磁信号、あるいは光信号を送受信する。
ネットワークリンク7013が、通常、1つまたは複数のネットワークを介して他のネットワークリソースへのデータ通信を提供する。例えば、ネットワークリンク7014が、LAN7015を介してホストコンピュータ7016、あるいはネットワークストレージ/サーバ7017への接続を提供することができる。これに加えて、もしくはこれに代わって、ネットワークリンク7013がゲートウェイ/ファイアウォール7017を介して、インタネットのような、広域ネットワークあるいはグローバルネットワーク7018へ接続することもできる。このようにしてコンピュータプラットフォーム7001が、リモートネットワークストレージ/サーバ7019のような、インタネット7018上のどこにあるネットワークリソースへでもアクセスすることができる。その一方で、コンピュータプラットフォーム7001も、LAN7015、および/またはインタネット7018の上のどこにいるクライアントからでもアクセスされうる。ネットワーククライアント7020および7021自体が、プラットフォーム7001と同様のコンピュータプラットフォームに基づいて実装されてもよい。
LAN7015およびインタネット7018はともに、デジタルデータストリームを伝送する電気信号、電磁信号あるいは光信号を使用する。コンピュータプラットフォーム7001へ向けて、またはコンピュータプラットフォーム7001から、デジタルデータを伝送する、さまざまなネットワークを介する信号、ならびにネットワークリンク7014上の信号および通信インタフェース7013を介する信号が、情報を搬送するキャリア波の例示的な形態である。
コンピュータプラットフォーム7001が、インタネット7018およびLAN7015を含む様々なネットワーク、およびネットワークリンク7014および通信インタフェース7013を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インタネットの例では、システム7001がネットワークサーバとして作用する場合に、インタネット7018、ゲートウェイ/ファイアウォール7017、LAN7015および通信インタフェース7013を介して、クライアント7020および/または7021上で動作するアプリケーションプログラム用の所望のコードあるいはデータを送信することが可能である。同様に、システムが他のネットワークソースからコードを受け取ることもできる。
受信されるコードはそのままでプロセッサ7005で実行されるか、および/または、後での実行に備えて永続ストレージデバイス7008あるいは揮発性ストレージデバイス7006に格納されるか、あるいは、その他の不揮発性ストレージに格納されることが可能である。このように、コンピュータシステム7001が伝送波の形式でアプリケーションコードを入手することができる。
図8は本発明の一態様と図7のコンピュータプラットフォームとの関係を示す図である。
本発明のいくつかの態様に関連して前述されたプロセスは図8に示すコンピュータプラットフォームシステム8000上に実装されてもよい。入力画像は外部ストレージデバイス8012に格納されるか、ネットワークインタフェースカード8014を介してネットワークから受信するか、あるいはスキャナ8011を介して受信してもよい。入力パラメータはキーボード8010を介してシステムに提供される。入力画像および中間出力はユーザに対してディスプレイ8009上に表示されてもよい。CPU8005、揮発性ストレージ8006および永続ストレージ8008は、データバス8004を介して共に通信し、入力画像および入力パラメータを処理するさまざまなステップを実行して画像記述子ベクトルを取得し、それをユーザに対してディスプレイ8009上に表示できるようにしてもよい。
最後に、本明細書で説明したプロセスおよび技術は特定の装置に生得的に関係するものではなく、構成要素の任意の適切な組み合わせによって実施可能であることを理解されたい。さらに、種々のタイプの汎用デバイスを、ここで説明した教示にしたがって使用することが可能である。ここで説明した方法のステップを実行するための専用の装置を構築することが有利な場合もありうるであろう。本発明を特定の例に関連して説明したが、これらは全ての点において限定的ではなく説明的であることを意図している。ハードウェア、ソフトウェア、およびファームウェアの多くの異なる組み合わせが本発明の実行に適することが、当業者には理解されるであろう。例えば、説明したソフトウェアは、アセンブラ、C/C++、perl、shell、PHP、Java(登録商標)、などの広範なプログラム言語あるいはスクリプト言語によって実施することが可能である。
さらに本発明の他の実施態様が、ここに開示した本発明の明細書および実施を考慮することにより当業者には明らかとなるであろう。説明した実施態様の様々な態様および/または構成要素は、本発明のシステムに単独もしくは任意の組み合わせで使用することが可能である。明細書および実施例は例示としてのみ理解されるべきであり、本発明の真の範囲と精神は添付の特許請求の範囲およびその均等物によって示されるものとする。

Claims (23)

  1. 画像識別のための特徴記述子ベクトルの生成方法であって、
    前記方法が、入出力インタフェース、記憶媒体、1つまたは複数のプロセッサ、および各手段間の通信を提供するリンクを含むコンピュータシステムで実行され、
    前記方法が、
    前記入出力インタフェースにより、入力画像を受け取り、
    構築手段により、入力パラメータに基づく各々が異なるぼかしスケールを有するガウスぼかしフィルタを前記受け取った入力画像に適用してガウスぼかし画像を生成することにより前記入力画像のガウシアンピラミッド空間を構築し、
    検出手段により、前記構築したガウシアンピラミッド空間中でキーポイントを検出し、
    特定手段により、前記検出したキーポイント各々に対して該キーポイントからの3次元相対位置で定義される一次標本点を前記ガウシアンピラミッド空間中で特定し、
    計算手段により、前記特定した一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算し、
    生成手段により、前記計算した一次画像勾配を連結することにより前記入力画像に対する特徴記述子ベクトルを生成する、
    ことを含む、特徴記述子ベクトルの生成方法。
  2. 前記ガウシアンピラミッド空間中で前記キーポイントを検出することが、
    連続した前記ガウスぼかし画像間での差分をとることにより、差分ガウス空間を構築し、
    前記差分ガウス空間内の平面における局所極大点又は局所極小点を前記キーポイントとして設定する、
    ことを含む請求項1に記載の方法。
  3. 前記一次標本点各々に対応する二次標本点が、前記一次画像勾配を取得するために用いられ、
    対応する一次標本点に対する前記二次標本点の位置が、前記一次標本点のスケールに基づいて定義される
    請求項1に記載の方法。
  4. 前記ガウスぼかし画像が一連のガウスぼかしフィルタを適用することにより生成される請求項1に記載の方法。
  5. 前記キーポイント各々に対する前記一次標本点を特定する3次元ベクトルが予め定められている請求項1に記載の方法。
  6. 前記入力パラメータがスケール因子および標本パラメータを含み、前記標本パラメータは一次標本パラメータおよび二次標本パラメータを含む請求項1に記載の方法。
  7. 前記キーポイント各々の3次元ベクトルが、該キーポイントを原点とする副座標系内で定義される請求項6に記載の方法。
  8. 前記一次標本パラメータが第1のパラメータdrおよび第2のパラメータsdrを含み、
    前記一次標本点の座標が、前記一次標本パラメータおよび前記キーポイントのスケール因子sから、
    d=dr×s
    sd=sdr×s
    に従って決定されるd、sdに基づいて決定される
    請求項7に記載の方法。
  9. 指標iが0から4まで変化して5つの一次標本点を示し、
    第1の一次標本点が前記キーポイントに対応して座標(0,0,0)を有し、
    第2の一次標本点が座標(d,0,sd)を有し、
    第3の一次標本点が座標(0,d,sd)を有し、
    第4の一次標本点が座標(-d,0,sd)を有し、
    第5の一次標本点が座標(0,-d,sd)を有する
    請求項8に記載の方法。
  10. 前記二次標本パラメータが第3のパラメータrrを含み、
    前記第3のパラメータrr、前記一次標本パラメータの前記第2のパラメータsdr、および対応する前記一次標本点の前記キーポイントの前記スケール因子sに基づき、前記二次標本点が
    0=rr×s
    r=r0(1+sdr)
    に従って決定し、
    前記二次標本点は、半径rの円周上の等間隔点に位置する
    請求項8に記載の方法。
  11. 前記一次画像勾配は、前記二次標本点各々における二次画像勾配を含み、
    前記二次画像勾配は、前記一次標本点各々と該一次標本点に対応する前記二次標本点との間の画像変化を、
    ij=max(I(Oi)−I(Oij)),0)
    に従って示し、
    ここで、指標iは前記一次標本点を示し、i=0・・・n,n+1は前記一次標本点の番号であり、
    ここで、指標jは二次標本点を示し、j=0・・・m,m+1は前記二次標本点の番号であり、
    iは前記一次標本点iを定義する前記3次元ベクトルであり、
    ijは前記二次標本点i,jを定義する前記3次元ベクトルであり、
    I(Oi)は前記一次標本点iにおける画像強度レベルを示し、
    I(Oij)は前記二次標本点ijにおける画像強度レベルを示し、
    ijは前記一次標本点iと、前記一次標本点iに対応する前記二次標本点ijとの間の画像強度の変化に対応する、負でないスカラーを示し、
    前記一次標本点i各々における前記一次画像勾配は
    ij=Iij/[SQRT(Σ(Iij2)]
    ここで、j=0,…,m
    i=[Vi0(Oi−Oi0)/|(Oi−Oi0)|,・・・,Vim(Oi−Oim)/|(Oi−Oim)|]
    により得られ、
    ijは前記二次標本点ijにおける前記二次画像勾配成分の大きさを示すスカラーを与え、
    iは前記一次標本点iにおける前記一次画像勾配ベクトルを与え、各Viはjの総数に等しい次元を有し、
    前記キーポイント各々における前記特徴記述子ベクトルは、
    V=[V0,… Vi …,Vn
    に従って前記一次画像勾配の連結から得られ、
    nは前記キーポイントに対して特定される前記一次標本点の数である
    請求項1に記載の方法。
  12. 画像識別のための特徴記述子ベクトル生成用のコンピュータシステムであって、
    入力画像を受け取り、特徴記述子ベクトルを出力する入出力インタフェースと、
    入力パラメータに基づく各々異なるぼかしスケールを有するガウスぼかしフィルタを前記受け取った入力画像に適用してガウスぼかし画像を生成することにより前記入力画像のガウシアンピラミッド空間を構築する構築手段と、
    前記構築されたガウシアンピラミッド空間中でキーポイントを検出する検出手段と、
    前記検出されたキーポイントからの3次元の相対位置で定義される一次標本点を、前記キーポイント各々に対して前記ガウシアンピラミッド空間中で特定する特定手段と、
    前記特定された一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算する計算手段と、
    前記計算された一次画像勾配を連結することによって前記入力画像に対する前記特徴記述子ベクトルを生成する生成手段と、
    を備える、コンピュータシステム。
  13. 前記ガウシアンピラミッド空間中で前記キーポイントを検出することが、
    連続した前記ガウスぼかし画像の間の差分をとることにより、差分ガウス空間を構築し、
    前記差分ガウス空間内の平面における局所極大点又は局所極小点を前記キーポイントとして設定する、
    ことを含む請求項12に記載のシステム。
  14. 前記一次標本点各々に対応する二次標本点が、前記一次画像勾配の取得に用いられ、
    対応する一次標本点に関する前記二次標本点の位置が、前記一次標本点の前記スケールに基づいている
    請求項12に記載のシステム。
  15. 前記ガウスぼかし画像が一連のガウスぼかしフィルタを適用することにより生成される請求項12に記載の方法。
  16. 前記キーポイント各々に対する前記一次標本点を特定する3次元ベクトルが予め定められている請求項12に記載のシステム。
  17. 前記入力パラメータがスケール因子siおよび標本パラメータdr、sdr、rrを含み、
    指標iが前記一次標本点各々を決定し、
    前記標本パラメータが一次標本パラメータおよび二次標本パラメータを含む
    請求項12に記載のシステム。
  18. 前記キーポイント各々の3次元ベクトルが、該キーポイントを原点(0,0,0)とする副座標系内で定義される請求項17に記載のシステム。
  19. 前記一次標本パラメータが第1のパラメータdrおよび第2のパラメータsdrを含み、
    前記一次標本点の座標が、前記一次標本パラメータおよび前記スケール因子sから、
    d=dr×s
    sd=sdr×s
    に従って決定されるd、sdに基づいて決定される請求項18に記載のシステム。
  20. 指標iが0から4まで変化して5つの一次標本点を示し、
    第1の一次標本点が前記キーポイントに対応する座標(0,0,0)を有し、
    第2の一次標本点が座標(d,0,sd)を有し、
    第3の一次標本点が座標(0,d,sd)を有し、
    第4の一次標本点が座標(-d,0,sd)を有し、
    第5の一次標本点が座標(0,-d,sd)を有する
    請求項19に記載の方法。
  21. 前記二次標本パラメータが第3のパラメータrrを含み、
    前記第3のパラメータrr、前記一次標本パラメータの前記第2のパラメータsdr、および対応する前記一次標本点の前記スケールsiに基づき、前記二次標本点が
    0=rr×s
    r=r0(1+sdr)
    により決定し、
    前記二次標本点は、半径rの円周上の等間隔点に位置する
    請求項19に記載のシステム。
  22. 前記一次画像勾配は、前記二次標本点各々における二次画像勾配を含み、
    前記二次画像勾配は、前記一次標本点各々と前記一次標本点に対応する前記二次標本点との間の画像変化を、
    ij=max(I(Oi)−I(Oij)), 0)
    に従って示し、
    ここで、指標iは前記一次標本点を示し、i=0・・・n,n+1は前記一次標本点の番号であり、
    ここで、指標jは前記二次標本点を示し、j=0・・・m,m+1は前記二次標本点の番号であり、
    iは前記一次標本点iを定義する3次元ベクトルであり、
    ijは前記二次標本点ijを定義する前記3次元ベクトルであり、
    I(Oi)は前記一次標本点iにおける画像強度レベルを示し、
    I(Oij)は前記二次標本点ijにおける画像強度レベルを示し、
    ij は前記一次標本点iと、前記一次標本点iに対応する前記二次標本点ijとの間の画像強度の変化に対応する、負でないスカラーを示し、
    前記一次標本点i各々における前記一次画像勾配は
    ij=Iij/[SQRT(Σ(Iij2)]
    ここで、j=0,…,m
    i=[Vi0(Oi−Oi0)/|(Oi−Oi0)|,・・・,Vim(Oi−Oim)/|(Oi−Oim)|]
    により得られ、
    ijは前記二次標本点ijにおける前記二次画像勾配成分の大きさを示すスカラーを与え、
    iは前記一次標本点iにおける前記一次画像勾配ベクトルを与え、各Viはjの総数に等しい次元を有し、
    前記キーポイント各々における前記特徴記述子ベクトルは、
    V=[V0,… Vi …,Vn
    に従って前記一次画像勾配の連結から得られ、
    nは前記キーポイントに対して特定される前記一次標本点の数である
    請求項12に記載のシステム。
  23. コンピュータに、
    前記入出力インタフェースにより入力画像を受け取り、
    入力パラメータに基づく各々異なるぼかしスケールを有するガウスぼかしフィルタを前記入力画像に適用してガウスぼかし画像を生成することにより前記受け取った入力画像のガウシアンピラミッド空間を構築し、
    前記構築したガウシアンピラミッド空間中でキーポイントを検出し、
    前記検出したキーポイントからの3次元相対位置で定義される一次標本点を、前記キーポイント各々に対して前記ガウシアンピラミッド空間中で特定し、
    前記特定した一次標本点近傍における画像変化を示すベクトルである一次画像勾配を前記一次標本点に対応して計算し、
    前記計算した一次画像勾配を連結することにより前記入力画像に対する特徴記述子ベクトルを生成する、
    画像識別のための特徴記述子ベクトル生成処理を実行させるためのプログラム。
JP2009229788A 2008-10-01 2009-10-01 特徴記述子ベクトル生成方法、システムおよびプログラム Expired - Fee Related JP5247646B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10194808P 2008-10-01 2008-10-01
US61/101,948 2008-10-01
US12/566,580 2009-09-24
US12/566,580 US8363973B2 (en) 2008-10-01 2009-09-24 Descriptor for image corresponding point matching

Publications (2)

Publication Number Publication Date
JP2010086540A JP2010086540A (ja) 2010-04-15
JP5247646B2 true JP5247646B2 (ja) 2013-07-24

Family

ID=42057560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009229788A Expired - Fee Related JP5247646B2 (ja) 2008-10-01 2009-10-01 特徴記述子ベクトル生成方法、システムおよびプログラム

Country Status (2)

Country Link
US (1) US8363973B2 (ja)
JP (1) JP5247646B2 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100092093A1 (en) * 2007-02-13 2010-04-15 Olympus Corporation Feature matching method
US8744122B2 (en) * 2008-10-22 2014-06-03 Sri International System and method for object detection from a moving platform
KR101323439B1 (ko) 2008-11-12 2013-10-29 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티 특징 디스크립터를 표현하고 식별하는 방법, 장치 및 컴퓨터 판독가능 저장 매체
JP5527554B2 (ja) * 2009-03-04 2014-06-18 公立大学法人大阪府立大学 画像検索方法、画像検索プログラム及び画像登録方法
US8571273B2 (en) * 2009-05-22 2013-10-29 Nokia Corporation Method and apparatus for performing feature extraction using local primitive code
AU2009347563B2 (en) * 2009-06-03 2015-09-24 National Ict Australia Limited Detection of objects represented in images
US8687891B2 (en) * 2009-11-19 2014-04-01 Stanford University Method and apparatus for tracking and recognition with rotation invariant feature descriptors
US8897572B2 (en) 2009-12-02 2014-11-25 Qualcomm Incorporated Fast subspace projection of descriptor patches for image recognition
US8582889B2 (en) * 2010-01-08 2013-11-12 Qualcomm Incorporated Scale space normalization technique for improved feature detection in uniform and non-uniform illumination changes
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
US9251432B2 (en) * 2010-07-06 2016-02-02 Jastec Co. Method and apparatus for obtaining a symmetry invariant descriptor from a visual patch of an image
US9449026B2 (en) * 2010-08-31 2016-09-20 Microsoft Technology Licensing, Llc Sketch-based image search
US8548237B2 (en) 2010-10-18 2013-10-01 Hewlett-Packard Development Company, L.P. Ordinal and spatial local feature vector based image representation
US8965130B2 (en) * 2010-11-09 2015-02-24 Bar-Ilan University Flexible computer vision
JP5417312B2 (ja) * 2010-12-20 2014-02-12 日本電信電話株式会社 画像検索装置、および画像検索プログラム
GB2487375B (en) 2011-01-18 2017-09-20 Aptina Imaging Corp Interest point detection
GB2487377B (en) 2011-01-18 2018-02-14 Aptina Imaging Corp Matching interest points
TWI463438B (zh) 2011-03-07 2014-12-01 Ind Tech Res Inst 特徵點描述壓縮方法及特徵點描述壓縮裝置
US8868323B2 (en) 2011-03-22 2014-10-21 Honeywell International Inc. Collaborative navigation using conditional updates
US8660338B2 (en) 2011-03-22 2014-02-25 Honeywell International Inc. Wide baseline feature matching using collobrative navigation and digital terrain elevation data constraints
US8805117B2 (en) * 2011-07-19 2014-08-12 Fuji Xerox Co., Ltd. Methods for improving image search in large-scale databases
US8423881B2 (en) 2011-08-05 2013-04-16 Fuji Xerox Co., Ltd. Systems and methods for placing visual links to digital media on physical media
US8866924B2 (en) * 2011-10-28 2014-10-21 Hewlett-Packard Development Company, L.P. Local image feature descriptors according to circular distribution information
WO2013076365A1 (en) * 2011-11-22 2013-05-30 Nokia Corporation Method for image processing and an apparatus
JP5865687B2 (ja) * 2011-12-07 2016-02-17 日本放送協会 画像特徴量抽出装置およびそのプログラム
US9031326B2 (en) * 2012-02-16 2015-05-12 Sony Corporation System and method for effectively performing an image categorization procedure
CN103294983A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于分块Gabor特征的静态图片中场景识别的方法
CN102682091A (zh) * 2012-04-25 2012-09-19 腾讯科技(深圳)有限公司 基于云服务的视觉搜索方法和系统
KR101904203B1 (ko) * 2012-06-20 2018-10-05 삼성전자주식회사 시프트 알고리즘을 이용하여 대용량 소스 이미지의 특징점 정보를 추출하는 장치 및 방법
US8942515B1 (en) * 2012-10-26 2015-01-27 Lida Huang Method and apparatus for image retrieval
JP6106799B2 (ja) * 2013-04-01 2017-04-05 アセルサン・エレクトロニク・サナイ・ヴェ・ティジャレット・アノニム・シルケティAselsan Elektronik Sanayi ve Ticaret Anonim Sirketi 画像アウトラインを記述するシステム及び方法
US9147125B2 (en) 2013-05-03 2015-09-29 Microsoft Technology Licensing, Llc Hand-drawn sketch recognition
CN103295014B (zh) * 2013-05-21 2017-04-12 上海交通大学 基于像素位置排列直方图的图像局部特征描述方法
US9460515B2 (en) * 2013-10-25 2016-10-04 Ricoh Co., Ltd. Processing of light fields by transforming to scale and depth space
CN103544504B (zh) * 2013-11-18 2017-02-15 康江科技(北京)有限责任公司 一种基于多尺度图匹配核的场景字符识别方法
EP3092602A1 (en) 2014-01-10 2016-11-16 Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi Method for describing planar curves using morphological scale spaces
CN104077770B (zh) * 2014-06-17 2017-03-15 中国科学院合肥物质科学研究院 一种植物叶片图像局部自适应树形结构特征匹配方法
US9576218B2 (en) * 2014-11-04 2017-02-21 Canon Kabushiki Kaisha Selecting features from image data
DE102016120775A1 (de) 2015-11-02 2017-05-04 Cognex Corporation System und Verfahren zum Erkennen von Linien in einem Bild mit einem Sichtsystem
US10937168B2 (en) 2015-11-02 2021-03-02 Cognex Corporation System and method for finding and classifying lines in an image with a vision system
CN105574898A (zh) * 2015-12-07 2016-05-11 中国科学院合肥物质科学研究院 一种基于图像检测的植株倒伏情况监测方法及系统
CN105631860B (zh) * 2015-12-21 2018-07-03 中国资源卫星应用中心 基于局部排序方向直方图描述子的图像同名点提取方法
CN107767358B (zh) * 2016-08-23 2021-08-13 斑马智行网络(香港)有限公司 一种图像中物体模糊度确定方法和装置
FR3069087B1 (fr) * 2017-07-11 2019-08-23 Commissariat A L'energie Atomique Et Aux Energies Alternatives Procede de traitement d'une image
US11347685B2 (en) * 2017-09-26 2022-05-31 Huawei Technologies Co., Ltd. File management method and apparatus
CN109145929A (zh) * 2017-10-09 2019-01-04 苏州高科中维软件科技有限公司 一种基于sift尺度空间特征信息提取方法
GB2572756B (en) * 2018-04-05 2020-05-06 Imagination Tech Ltd Sampling for feature detection
US10769474B2 (en) * 2018-08-10 2020-09-08 Apple Inc. Keypoint detection circuit for processing image pyramid in recursive manner
KR102528453B1 (ko) 2018-10-18 2023-05-02 삼성전자주식회사 영상 내의 특징 추출 방법, 이를 이용하는 영상 매칭 방법 및 영상 처리 방법
CN109242769B (zh) * 2018-12-13 2019-03-19 腾讯科技(深圳)有限公司 一种图像处理方法和装置
CN112784761A (zh) * 2021-01-26 2021-05-11 哈尔滨理工大学 一种特殊纹理背景遥感图像匹配方法
US11494880B2 (en) * 2021-03-19 2022-11-08 Apple Inc. Image pyramid generation for image keypoint detection and descriptor generation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674915B1 (en) * 1999-10-07 2004-01-06 Sony Corporation Descriptors adjustment when using steerable pyramid to extract features for content based search
GB0112773D0 (en) * 2001-05-25 2001-07-18 Univ Manchester Object identification
US7382897B2 (en) * 2004-04-27 2008-06-03 Microsoft Corporation Multi-image feature matching using multi-scale oriented patches
US20060159367A1 (en) * 2005-01-18 2006-07-20 Trestle Corporation System and method for creating variable quality images of a slide
EP2092483A4 (en) * 2006-09-19 2010-12-22 Cedara Software Corp SYSTEM AND METHOD FOR SHIELD SCREEN DETECTION

Also Published As

Publication number Publication date
US8363973B2 (en) 2013-01-29
JP2010086540A (ja) 2010-04-15
US20100080469A1 (en) 2010-04-01

Similar Documents

Publication Publication Date Title
JP5247646B2 (ja) 特徴記述子ベクトル生成方法、システムおよびプログラム
KR101303124B1 (ko) 특징점 기술자에 의한 객체 추적장치 및 방법, 그리고 에러 특징점 제거장치 및 방법
JP5503018B2 (ja) 一様なおよび一様でない照明の変化の中での特徴検出を改善するための尺度空間正規化技術
JP5602940B2 (ja) 事前計算されたスケール空間からのデイジー記述子生成
JP5427883B2 (ja) 画像識別のためのスケールにロバストな特徴に基づく識別子
EP2534612B1 (en) Efficient scale-space extraction and description of interest points
KR101191223B1 (ko) 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
US10311099B2 (en) Method and system for 3D model database retrieval
US20050147282A1 (en) Image matching apparatus, image matching method, and image matching program
WO2011069023A2 (en) Fast subspace projection of descriptor patches for image recognition
JP5747733B2 (ja) 対象検出装置、対象検出方法、分類器作成装置及び分類器作成方法
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
CN105139013B (zh) 一种融合形状特征和兴趣点的物体识别方法
CN110738204A (zh) 一种证件区域定位的方法及装置
KR20240013085A (ko) 기계 시각을 위한 이미지 데이터 처리 방법들 및 장치
CN116188805B (zh) 海量图像的图像内容分析方法、装置和图像信息网络
CN112037130A (zh) 一种自适应图像拼接融合方法、装置、电子设备及存储介质
Arjun et al. An efficient image retrieval system based on multi-scale shape features
Liu et al. Improved global context descriptor for describing interest regions
Isnanto et al. Determination of the optimal threshold value and number of keypoints in scale invariant feature transform-based copy-move forgery detection
Kazak et al. Improved multi-spiral local binary pattern in texture recognition
JP2010092426A (ja) 画像処理装置、画像処理方法およびプログラム
Majtner et al. Texture analysis using 3D Gabor features and 3D MPEG-7 Edge Histogram descriptor in fluorescence microscopy
CN117726691A (zh) 双目相机标定方法、装置、飞行器以及存储介质
Shekar et al. 3D Face Recognition Using Orientation Maps

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Ref document number: 5247646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees