JP4963216B2 - コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法 - Google Patents

コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法 Download PDF

Info

Publication number
JP4963216B2
JP4963216B2 JP2006300351A JP2006300351A JP4963216B2 JP 4963216 B2 JP4963216 B2 JP 4963216B2 JP 2006300351 A JP2006300351 A JP 2006300351A JP 2006300351 A JP2006300351 A JP 2006300351A JP 4963216 B2 JP4963216 B2 JP 4963216B2
Authority
JP
Japan
Prior art keywords
covariance matrix
image
covariance
data samples
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006300351A
Other languages
English (en)
Other versions
JP2007164772A (ja
Inventor
ファティー・エム・ポリクリ
オンセル・チュゼル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2007164772A publication Critical patent/JP2007164772A/ja
Application granted granted Critical
Publication of JP4963216B2 publication Critical patent/JP4963216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、包括的にはデータサンプルの記述子の作成に関し、特に、記述子を用いてデータサンプルの検出、認識、及び分類を行うことに関する。
画像中の物体及びテクスチャの検出、認識、及び分類において重要な最初のステップは、適切な特徴の選択である。良い特徴は、識別性があり、誤り耐性があり、判別し易く、処理効率が高くなければならない。
画素の強度、色、及び勾配は、コンピュータビジョンアプリケーションで使用することができる特徴の例である。しかし、これらの特徴は、照明の変化及び非剛体運動がある場合に信頼性が低い。画素特徴の自然な拡張がヒストグラムであり、ヒストグラムでは、画像領域が画素特徴の結合分布の非パラメータ推定値を用いて表現される。ヒストグラムは非剛体物体の追跡に広く用いられている。ヒストグラムは、テクスチャの表現、並びに物体及びテクスチャの分類にも用いることができる。しかし、いくつかの特徴の結合分布の算出は時間がかかる。
積分画像(integral image)中のハール特徴がカスケード型アダブースト分類器とともに顔検出のために用いられている。Viola, P.、Jones, M.著「Rapid object detection using a boosted cascade of simple features」Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Vol. 1., pp. 511-518, 2001(参照により本明細書中に援用される)。
別の方法は、キーポイントを定位するためにスケール空間極値を検出し、キーポイント記述子に方向ヒストグラムのアレイを用いる。Lowe, D.著「Distinctive image features from scale-invariant keypoints」Intl. J. of Comp. Vision, Vol. 60, pp. 91-110, 2004。
これらの記述子は、画像中の局所近傍を照合する上で非常に効率が高いが、グローバルコンテキスト情報を有しない。
本発明は、データサンプルのセット、例えば画像中の選択された画素のサブセット又は領域について記述子を作成する方法を提供する。領域の特徴が抽出され、それらの特徴から共分散行列が作成される。共分散行列は、物体の検出及びテクスチャの分類に用いることができる領域の記述子である。他のアプリケーションへの拡張も記載される。
データセットが2D画像である場合、領域記述子はd特徴(d-features)の共分散行列、例えば、画素強度の一次導関数及び二次導関数の3次元色ベクトル及びノルムの形態である。共分散行列は画像中の関心領域を特徴付ける。
共分散行列は積分画像から求めることができる。共分散行列はユークリッド空間にないため、本方法は、正定値行列のリー群の構造から導かれる一般化固有値を含む距離メトリックを用いる。
特徴の照合は、距離メトリックに従って最近傍探索を用いて行われる。共分散に基づく記述子の性能は、従来技術の特徴に基づく方法よりも優れている。さらに、記述子は、非剛体運動及び照明の変化に対して不変である。
本発明は、特徴の共分散行列を物体の検出及びテクスチャの分類に用いる方法を提供する。本方法は幾通りかに拡張することができる。例えば、先ずビデオ中の物体を検出し、次にその物体を追跡する。
図1は、本発明の1実施の形態による、データサンプルのセットについて記述子を作成する方法を示す。記述子は、いくつかの実際のアプリケーション、特にデータサンプルのセットを検出、認識、及び分類するコンピュータアプリケーションによって用いることができる。
サンプルの取得
本方法は、シーン1について取得110されるデータサンプル111のセットに対して作用する。「シーン」という用語は本明細書中において広義に定義される。例えば、シーンは、人物、顔、又は何らかの他の物体を含む自然シーンであり得る。シーンはまた、何らかの既知のモデリングプロセスによって生成される仮想シーンであり得る。データサンプル111を取得110する任意の既知の手段、例えば、カメラ、アンテナ、3Dイメージングデバイス、超音波センサ等を用いることができる。サンプルは合成的に生成することもできる。実際のサンプル取得ステップはオプションである。サンプルは、何らかの前処理ステップで得た上で、本明細書中に記載するような処理のためにメモリに記憶することができることを理解すべきである。
データサンプル111は、任意数の次元を有することができる。例えば、データサンプルが画像の形態である場合、サンプルは2次元の画素データ、例えば画素位置(x,y)及び各位置の画素強度を含む。画像がカラーである場合、RGBカラーチャネル毎の強度がある。データサンプルは容積データ、例えば医療スキャンとすることもできる。この場合、データは、3次元を有する座標(x,y,z)を含む。データサンプルがビデオの形態である場合、各画素は2次元の空間及び1次元の時間(x,y,t)を有する。時間はフレーム番号に対応する。いずれにせよ、データサンプルのセットは、位置であれ時空間座標であれ、サンプルのインデックスを含む。
サンプルは、振幅、位相、周波数、極性、速度、重さ、密度、透明度、反射率、硬度、温度等といった任意数の他の物理的特徴又は特性と関連付けることができることを理解すべきである。
サンプルの選択
サンプルの1つ又は複数のサブセット121をデータサンプル111のセットから選択120する。例えば、サンプルが画像中の画素であり、アプリケーションが顔認識である場合、顔を含む領域のサンプルのみを選択してさらなる処理を行う。この説明の目的上、サブセットは、全ての取得サンプル、例えば画像全体を包含することができる。
特徴の抽出
特徴131をサンプル毎に抽出130する。特徴は、積み重ねてd次元ベクトルにすることができる。特徴は、サンプルのインデックス、及び、低レベルの物理的特徴の高次の統計量、例えば勾配、導関数、ノルム等を含むことを理解すべきである。
共分散の作成
所与のサンプルサブセット121の全ての特徴ベクトル131を結合140して共分散行列を作成する。記述子141はサブセット121に対応135する。記述子は、物体検出及びテクスチャ分類等のアプリケーション150に用いることができる。
記述子としての共分散
本発明の実施の形態の詳細を、画素画像をデータサンプル111のセットの一例として用いて説明する。
Iを画像の形態のサンプル111のデータセットとする。画像は、可視光、赤外線、又は他の電磁放射線を用いて取得することができる。Fを、画像Iの領域(サブセット)から抽出したW×H×d次元の特徴画像とする。
Figure 0004963216
ここで、関数φは、インデックス、強度、色、勾配、導関数、フィルタ応答、特徴の統計量等といった任意の特徴写像とすることができる。
矩形領域R⊂Fにおいて、サブセット{zk=1,...,nは、領域Rのd次元のサンプル特徴ベクトル131を含む。本発明では、領域Rのサンプルサブセット121をサンプル特徴のd×dの共分散行列C141で表す。
Figure 0004963216
ここで、nはサンプル数であり、zは特徴を表し、μは特徴サンプルの平均であり、Tは転置演算子である。
共分散行列を画像領域121の記述子141として用いることには、いくつかの利点がある。領域121から抽出される単一の共分散行列があれば通常は、様々な視点で様々な姿勢について領域を照合するのに十分である。実際に、本発明では、サンプルの特定の分布の共分散が、その特定の分布を他の分布と区別するのに十分であると仮定する。
共分散行列141は、他の方法で相関し得る複数の特徴131を結合する自然な方法を提供する。共分散行列141の対角要素は各特徴の分散を表し、非対角要素は特徴の相関を表す。個々のサンプルに関連するノイズは、共分散行列を作成140する際に平均フィルタを用いてフィルタリングすることができる。
共分散行列は、ヒストグラム等の従来技術の領域記述子と比べると比較的低次元である。対称性のために、行列Cは(d+2)/2個の異なる値のみを有するが、同一の領域を生の特徴値で表現する場合、n×d次元を必要とする。結合特徴ヒストグラムを用いる場合、b次元が必要であり、ここで、bは、特徴毎に用いられるヒストグラムビン数である。
画像領域Rが与えられると、その共分散行列Cは、その領域中のサンプルの順序及び数に関する情報を何ら有しない。これは、異なる画像中の異なる領域にわたってスケール及び回転に一定の不変性があることを示唆する。それにもかかわらず、x及びyに対する勾配のノルム等の、サンプルの方向に関する情報が表現される場合、共分散記述子の回転は不変でなくなる。同じことがスケール及び照明にも当てはまる。回転及び照明に依存する統計量は、コンピュータビジョンアプリケーションにおける認識及び分類に重要である。
共分散行列に関する距離スコアの計算
本明細書中に記載する共分散行列141はユークリッド空間にない。例えば、負のスカラーの乗法下で空間は閉じていない。ほとんどの一般的な機械学習方法はユークリッド空間のみで働く。したがって、それらの方法は、共分散行列で表される本発明の特徴に適していない。
したがって、本発明の1実施の形態は、共分散行列がユークリッド幾何学に適合しないため、内部平均(intrinsic mean)行列IMM×Mを作成する。このような行列の平均をとると不正確になる。正定値共分散行列はリー群の構造を有するため、リーマン幾何学を用いて、いくつかの共分散行列の平均を求めることが可能である。
リー群は、同じく群である解析的多様体であり、乗法及び逆元の群演算は微分可能な写像である。リー群は局所的に、ベクトル空間に位相同型であると見なすことができる。したがって、任意の群の元の局所近傍は、その正接空間で適切に記述することができる。群の単位元における正接空間はリー代数を形成する。リー代数は、リー括弧積内の閉じたベクトル空間である。
いくつかのアプリケーションにおいて、リー代数は、リー群の内部平均を求めるために用いられる。リー代数はベクトル空間であるため、この空間で真平均又は内部平均の一次近似を求めることができる。
初期行列Cで開始して、内部平均の一次近似を反復的に求めると、群の固定点に収束する。反復プロセスは次のように表される。
Figure 0004963216
プロセスの各反復における誤差は、ベイカー・キャンベル・ハウスドルフの公式によって高次項で表すことができ、写像は、誤差が確実に最小化されるようにする。反復が終了すると、内部平均IM=(^)Cが得られる((^)Cは、Cの上に^があることを表す。)。P. Fletcher、C. Lu、及びS. Joshi著「Statistics of shape via principal geodesic analysis on lie groups」Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Vol. 1, pp. 95-101, 2003、V. Govindu著「Lie-algebraic averaging for globally consistent motion estimation」Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Vol. 1, pp. 684-691, 2003、並びにO. Tuzel、R. Subbarao、及びP. Meer著「Simultaneous multiple 3d motion estimation via mode finding on lie groups」Proc. 10th Intl. Conf. on Computer Vision, Vol. 1, pp. 18-25, 2005を参照。
図2及び図5に示すように、本発明では、最近傍プロセスを用いて、共分散行列201及び202間の距離スコアを求める。本発明では、Forstner, W.、Moonen, B.著「A metric for covariance matrices」Technical report, Dept. of Geodesy and Geoinformatics, Stuttgart University, 1999(参照により本明細書中に援用される)によって記載される距離メトリック501を適合させる。
式210は、一対の共分散行列(C,C)の「非類似度」である。
Figure 0004963216
ここで、{λ(C,C)}i=1,...,nは、
Figure 0004963216
から求められるC及びCの一般化固有値であり、x≠0は一般化固有ベクトルである。距離スコアρ203は、正定値対称行列C、C、及びCについてのメトリック501の以下の公理を満たす。
1.ρ(C,C)≧0且つC=Cである場合にのみρ(C,C)=0
2.ρ(C,C)=ρ(C,C
3.ρ(C,C)+ρ(C,C)≧ρ(C,C
距離スコアはまた、正定値行列のリー群の構造から導かれる。リー群は、群特性に従い、群演算が微分可能であるという付加的な条件を満たす微分可能な多様体である。詳細についてはForstnerを参照。正定値行列のリー代数から同型(equivalent form)を導出することができる。
共分散の高速計算のための積分画像
図12に示すように、積分画像は、領域の加算に用いられる中間画像表現である。Viola他を参照。矩形領域R(x’,y’,x”,y”)121、例えばサブセットが、(1,1)及び(W,H)によって定義される画像111の左上角及び右下角によって定義される。領域中の各サンプルには、d次元の特徴ベクトル131が関連付けられる。
積分画像Rの各画素は、画像の左上角と、関心画素とを境界とする矩形内の全ての画素の和である。強度画像Iの場合、その積分画像(Integral Image)は次のように定義される。
Figure 0004963216
この表現を用いて、一定の時間内に任意の矩形領域の和を求めることができる。積分画像は高次元に拡張することができる。Porikli, F.著「Integral histogram: A fast way to extract histograms in Cartesian spaces」Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Vol. 1., pp. 829-836, 2005(参照により本明細書中に援用される)を参照。
本発明では、領域の共分散を求める同様の技法を用いる。式(2)で定義される共分散行列の(i,j)番目の元を次のように書き表すことができる。
Figure 0004963216
平均を展開して項を並べ換えると、次のように書き表すことができる。
Figure 0004963216
所与の矩形領域Rの共分散を求めるために、各特徴次元z(i)i=1,...,nの和及び任意の2つの特徴次元の乗法z(i)z(j)i,j=1,...,nの和を求める。本発明では、各特徴次元z(i)及び任意の2つの特徴次元の乗法z(i)z(j)についてd+d個の積分画像を作成する。
Pを積分画像の一次のW×H×dのテンソルとし、
Figure 0004963216
Qを積分画像の二次のW×H×d×dのテンソルとする。
Figure 0004963216
Viola他は、画像の1回のパスで積分画像を求めることができる方法を記載する。本明細書中の表記において、px,yはd次元ベクトルであり、Qx,yはd×d次元行列である。
Figure 0004963216
x,yは対称行列であり、d+(d+d)/2回のパスが、p及びQの両方を求めるために十分であることに留意されたい。
R(x’,y’;x”,y”)を矩形領域とし、ここで、図12に示すように、(x’,y’)は左上座標であり、(x”,y”)は右下座標である。(1,1)及び(x’,y’)を境界とする領域の共分散は、
Figure 0004963216
であり、ここで、n=x’・y’である。同様に、領域R(x’,y’;x”,y”)の共分散は、
Figure 0004963216
であり、ここで、n=(x”−x’)・(y”−y’)である。
物体の位置
物体の位置について、画像中の物体の位置を、非剛体変換後の物体の任意の姿勢について求めることが望ましい。
図3は、物体の位置を求める一般的なステップを示す。領域301を識別し、サンプル(画素)のサブセット311を選択310する。共分散行列321を求め320、行列321を並べて330、領域301の記述子331である単一の集合(aggregate)行列Cにする。集合行列Cは単純に、全ての共分散行列の全ての元を並べて、例えばそれらの行列を積み重ねることによって1つの行列にしている。
図4に示すように、マスク401を選択ステップ310の一部として定義して適用410することができる。
図5に示すように、記述子331は以下のように作成することもできる。共分散距離メトリック501を上述のように定義する。共分散行列の全ての可能な対間の距離スコアを求める510。距離スコアを用いて、領域中の物体の記述子331である自己距離(auto-distance)行列ADM×M、例えば、d11,d12,d13,...,d21,d22,d23,...を作成520する。図6に示すように、代替的な算出610により、内部平均行列IMM×Mを記述子331として作成する。内部平均については、以下でより詳細に説明する。
図7は、本発明の1実施の形態による、画像中の複数の領域を比較することができる方法を示す。1つ又は複数の画像の領域701及び702からサブセットを選択710する。共分散行列の記述子721及び722を距離メトリック711に従って作成720する。メトリック731〜733を用いて距離スコア741及び742を求める730。距離スコア741は対間距離であり、相互距離(cross-distances)742は、全ての可能な対の共分散行列間の距離を測定する。
図8は、未知の画像中の物体の位置を特定する方法の詳細を示す。基本入力画像は、何らかのターゲット画像の、既知の関心物体を含むターゲット領域801、及びテスト画像803である。目標は、テスト画像において、ターゲット領域に示されるものと同様の物体、例えば顔の位置を推定することである。
ターゲット領域801からサブセットを選択810し、メトリック802に従って記述子821を求める820。テスト画像803において1つ又は複数の候補領域841及び842を選択840する。上述のように、領域のサブセット840の共分散行列から記述子861及び862を求める860。
ターゲット領域801中の既知の物体の記述子821と記述子861及び862との間の距離を求める830。これらの距離のうちの最小距離をテスト画像803中の物体の推定位置871として選択870する。
図9は、物体の位置を求める代替的な実施の形態を示す。上述のように、既知の物体を含むターゲット領域901がある。テスト画像902の或る領域において同様の物体の位置を特定することが望ましい。ターゲット領域901から記述子903を抽出910する。テスト画像902のスケール(画素解像度)を変更する920ことができ、記述子抽出940のための候補領域を選択930することができる。記述子903及び904の間の距離を求める945ことができる。この距離は、新たな候補領域を選択するためのスケールを変更する920ために用いることができる。
距離はまた、初期の領域セットの選択950に続いて、後述する重なり合うマスクを適用960して、マスキングされた領域の記述子971を抽出970するために用いることもできる。距離を求めて980、テスト画像902中の物体の推定位置991を求めるために最小距離を選択する990。
図10及び図11は、上述のような基本共分散に基づく技法を用いて画像中のテクスチャを分類する方法のステップを示す。画像領域1001及び1002は、様々なクラスの「既知の」テクスチャを表す。サブセットを選択1010し、共分散行列を求めて1020、様々なクラスのテクスチャの記述子1021及び1022を抽出する。上記ステップは全て、前処理中に1度、テクスチャ分類データベースを訓練及び設定するために行うことができる。
テスト領域1009を供給する。テスト領域中の「未知の」テクスチャを分類することが望ましい。テスト領域からサブセットを選択1010し、共分散行列により記述子1003を得る1020。ステップ1040は、テスト領域と、既に分類した領域との間の距離を求める。K個の最小距離を求め1050、多数決1060を用いて票1061を投じ、テスト領域中のテクスチャが、分類した領域のうちの1つのテクスチャと類似する確率を求める。
図11に示すように、票1061は、確率分布関数(pdf)1111を作成1110するために用いることができる。次に、pdfを用いて、pdfの最大値に対応するクラスを選択1120することができ、pdfの分散を用いて、選択の信頼度を割り当てる1130ことができる。
次に、上記ステップの詳細を説明する。
特徴
本発明では、サンプルの画素位置(x,y)又はインデックス、カラー(RGB)値、並びにx及びyに対する強度の一次導関数及び二次導関数のノルムをサンプル特徴として用いる。画像の各画素は9次元の特徴ベクトルF131に変換される。
Figure 0004963216
ここで、x及びyはインデックスであり、R、G、及びBはRGBカラー値であり、Iは強度である。画像導関数は、フィルタ[−1 0 1]及び[−1 2 −1]を用いて求めることができる。したがって、領域は、9×9の共分散行列141によって特徴付けられる。画素位置(x,y)の分散は、同一サイズの全ての領域について同じであるが、これらの分散と他の特徴の分散との相関が共分散行列141の非対角要素として用いられるため、なお重要である。
図13に示すように、本発明では、画像1300中の物体を、5つの選択された領域1301〜1305(画素サンプルのサブセット)について求めた画像特徴の5つの共分散行列C,...,Cで表す。最初に、領域1301全体の共分散を入力画像から求める。
同様の共分散行列を有する領域のターゲット画像を探索し、式(3)を用いて相違度を測定する。ターゲット画像中の全ての位置において、9つの異なるスケール、すなわち、4つのより小さなスケール及び4つのより大きなスケールで分析して、一致する領域を見つける(図9のステップ920)。本発明では、積分画像を用いて任意の領域の共分散を非常に高速で求めることができるため、完全な探索を行う。
ターゲット画像をスケーリング920する代わりに、本発明では探索窓のサイズを変える。2つの連続するスケール間には15%のスケーリングファクタがある。x成分及びy成分の分散は、サイズの異なる領域について同じではない。したがって、本発明では、共分散行列中の対応する行及び列を標準化する。最小サイズの窓において、3画素を2つの探索位置間で水平方向又は垂直方向に動かす。より大きな窓の場合、さらに15%飛び、各スケールにおいて次の整数に切り上げる。
本発明では、1000個の最も良く一致する位置及びスケールを保持する。第2段階において、この1000個の検出位置について、共分散行列Ci=1,...,5を用いて探索を繰り返す。物体領域とターゲット領域の相違度は次のように表される。
Figure 0004963216
ここで、C 及びC はそれぞれ物体の共分散及びターゲットの共分散である。本発明では、共分散の差が最も大きい領域を無視する。これにより、遮蔽及び大きな照明変化の可能性が存在する場合の性能が上がる。最小相違度が最も小さい領域を推定位置における一致領域として選択990する。
テクスチャの分類
従来技術において、最も成功したテクスチャ分類方法はテクストンを用いる。テクストンの背景については、Julesz, B.著「Textons, the elements of texture perception and their interactions」Nature, Vol. 290, pp. 91-97, 1981を参照。テクストンは、入力画像から導出される特徴空間におけるクラスタ中心である。特徴空間は、入力画像中の全ての画素において適用されるフィルタバンクの出力から作成される。以下で簡単に検討するように、様々なフィルタバンクを適用することができる。
LMは、48個の異方性フィルタ及び等方性フィルタの組み合わせを用いる。Leung, T.、Malik, J.著「Representing and recognizing the visual appearance of materials using three-dimensional textons」Intl. J. of Comp. Vision, Vol. 43, pp. 29-44, 2001。特徴空間は48次元である。
Sは、13個の円対称フィルタのセットを用いる。Schmid, C.著「Constructing models for content-based image retrieval」Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Kauai, HI, pp. 39-45, 2001。特徴空間は13次元である。
M4及びM8がVarma, M.、Zisserman, A.著「Statistical approaches to material classification」Proc. European Conf. on Computer Vision, 2002に記載されている。これらのフィルタは、回転対称フィルタ及び指向性フィルタを含むが、最大応答指向性フィルタのみを特徴ベクトルに含める。特徴空間はそれぞれ4次元及び8次元である。
通常、k平均クラスタリングを用いてテクストンの位置を特定する。最も顕著なテクストンは、テクストンライブラリに集約され、テクストンヒストグラムがテクスチャ表現として用いられる。X距離を用いて、2つのヒストグラムの類似度を測定する。テスト画像からの距離が最小である訓練画像が、テスト画像のクラスを決める。このプロセスは、画像を大きなフィルタバンクで畳み込み、ほとんどの場合に高次元空間におけるクラスタリングを必要とするため、計算に時間がかかる。
テクスチャ分類のための共分散
図14は、上で紹介したような本発明の1実施の形態によるテクスチャ分類方法を図式的に示す。本方法はテクストンを用いない。
この分類は、分類領域1001及び1002中の既知のテクスチャを用いる前処理訓練段階を有する。分類は、未知のテクスチャを有するテスト領域1009に対して作用する。
訓練中に、各サンプル又は画素の特徴を抽出130することから開始する。テクスチャ分類の場合、特徴は、画素のインデックス、画素強度、並びにx方向及びy方向の両方における強度の一次導関数及び二次導関数のノルムを含む。各画素は、d=5次元の特徴ベクトル131に写像される。
Figure 0004963216
データサンプル又は画像111の各セットからランダムに選択120した領域をサンプリングする。領域のサイズは、16×16画素〜128×128画素の範囲である。上述のような積分画像を用いて各領域121の共分散行列141を作成する。次に、各テクスチャ画像がs個の共分散行列を用いて表現される。各テクスチャクラスからのu個の訓練テクスチャ画像、及び合計でs×u個の共分散行列も有する。このプロセスをc個のテクスチャクラスについて繰り返し、既知の各テクスチャクラスの表現を同様に作成する。
テスト画像1009が与えられた状態で、上述のように、ランダムに選択された領域の共分散行列も作成する。各共分散行列について、訓練セットの全ての行列から、式(3)を用いて距離を測定し、k−NNクラスタリングを用いて、k個の最近傍行列における多数決1060に従ってラベルを予測する。概して、Fix, E.及びHodges著「Discriminatory analysis: Nonparametric discrimination: consistency properties」Report 4, Project number 21-49-004, USAF School of Aviation Medicine, Randolph Field, Texas, 1951を参照。
本発明の分類器は弱分類を行い、s個の弱分類器における最多票に従ってテクスチャのクラスを判定する。
本発明を、好適な実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応形態及び修正形態を実施することができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るこのような変形形態及び修正形態をすべて網羅することである。
本発明の1実施の形態による、データセットの記述子を作成する方法のフロー図である。 本発明の1実施の形態による、距離スコアを求めるフロー図である。 本発明の1実施の形態による、距離スコアを記述子として合計する方法のフロー図である。 本発明の別の実施の形態による、距離スコアを記述子として合計する方法のフロー図である。 本発明の別の実施の形態による、距離スコアを記述子として合計する方法のフロー図である。 本発明の別の実施の形態による、距離スコアを記述子として合計する方法のフロー図である。 本発明の1実施の形態による、画像中の複数の領域の相互距離スコアを求めるフロー図である。 本発明の1実施の形態による、画像中の物体の位置を推定するフロー図である。 本発明の別の実施の形態による、画像中の物体の位置を推定するフロー図である。 本発明の1実施の形態による、テクスチャを分類するフロー図である。 本発明の別の実施の形態による、テクスチャを分類するフロー図である。 本発明の1実施の形態による積分画像のブロック図である。 本発明の1実施の形態による物体及び画像領域の画像である。 本発明の1実施の形態によるテクスチャ分類のブロック図である。

Claims (29)

  1. コンピュータにより実施される、データサンプルのセットについて、検出、認識及び分類の少なくとも1つを行う記述子を作成する方法であって、
    前記データサンプルのセットから複数のサンプルサブセットを選択するステップと、
    各サンプルサブセット中の各サンプルについてd次元の、対応するサンプルのインデックス及び前記サンプルの特性を含む、特徴ベクトルを抽出するステップと、
    各サンプルサブセットの前記特徴ベクトルを結合してd×d次元の、対応するサンプルサブセットの記述子である、共分散行列にするステップと、
    2つの共分散行列間の距離スコアを求めて、対応するサンプルサブセットの類似度を測定するステップと
    共分散距離メトリックを定義するステップと、
    前記共分散行列の対間の対間距離スコアを求めるステップと、
    前記対間距離スコアからd×d次元の自己距離行列を作成するステップと、
    前記自己距離行列を前記データサンプルのセットの前記記述子として割り当てるステップと
    を含む、コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法。
  2. 前記共分散行列を並べて、前記データサンプルのセットの前記記述子としての集合共分散行列にするステップをさらに含む
    請求項1記載の方法。
  3. データサンプルのセットにマスクを適用するステップをさらに含む
    請求項1記載の方法。
  4. 前記インデックスは、空間である
    請求項1記載の方法。
  5. 前記インデックスは、時間である
    請求項1記載の方法。
  6. 前記インデックスは、時空間である
    請求項1記載の方法。
  7. 前記データサンプルのセットは、画像の画素を含む
    請求項記載の方法。
  8. 前記データサンプルのセットは、ビデオの画素を含む
    請求項記載の方法。
  9. 前記データサンプルのセットは、容積データセットの点を含む
    請求項記載の方法。
  10. 前記特徴ベクトルは、前記画像中の前記画素の位置を含む
    請求項記載の方法。
  11. 前記特徴ベクトルは、前記画素の強度、前記画素の色情報、前記画素の色勾配、前記画素の色導関数、及び前記画素のフィルタ応答を含む
    請求項10記載の方法。
  12. 前記特徴ベクトルは、前記画素の座標を含む
    請求項記載の方法。
  13. 前記共分散行列は、
    Figure 0004963216
    であり、ここで、nは前記サブセット中のサンプル数であり、zは前記特徴ベクトルを表し、μは前記特徴の平均であり、Tは転置演算子である
    請求項1記載の方法。
  14. 前記共分散行列の対角要素は、前記特徴の分散を表し、非対角要素は、前記特徴の相関を表す
    請求項1記載の方法。
  15. 前記特徴ベクトルを抽出する前に前記データサンプルのセットをフィルタリングするステップをさらに含む
    請求項1記載の方法。
  16. 前記距離スコアは、
    Figure 0004963216
    であり、ここで、{λi(C1,C2)}i=1,...,nは、2つの共分散行列C1及びC2の、λiC1xi−C2xi=0(i=1,...,d)に従う一般化固有値であり、xi≠0は前記共分散行列の一般化固有ベクトルである
    請求項1記載の方法。
  17. 前記画像から積分画像のセットを求めるステップと、
    前記積分画像のセットから前記共分散行列を導出するステップとをさらに含む
    請求項記載の方法。
  18. 前記積分画像の一次を
    Figure 0004963216
    として求め、前記積分画像の二次を
    Figure 0004963216
    として求めるステップをさらに含み、
    ここで、x及びyは前記画素の前記位置を表す
    請求項17記載の方法。
  19. 様々なサイズの領域の前記共分散行列を前記一次積分画像及び前記二次積分画像の角の点の値から作成するステップをさらに含む
    請求項17記載の方法。
  20. 複数の対間距離から相互距離行列を作成するステップをさらに含む
    請求項1記載の方法。
  21. 前記共分散行列に従ってテスト画像中の物体の位置を特定するステップをさらに含む
    請求項記載の方法。
  22. 前記物体を含む前記テスト画像の領域全体の画素及び前記物体を含む小領域中の画素について共分散行列を作成するステップと、
    前記複数の共分散行列を前記物体の記述子として割り当てるステップとをさらに含む
    請求項21記載の方法。
  23. 前記テスト画像から複数のテスト領域を選択するステップと、
    複数の共分散行列をテスト領域の記述子として作成するステップと、
    前記テスト領域について距離スコアを求めるステップと、
    最小の距離スコアを前記テスト画像中の前記物体の推定位置として割り当てるステップとをさらに含む
    請求項21記載の方法。
  24. 初期サイズをターゲット領域に割り当てて、前記物体を含む候補領域を得るステップと、
    前記初期サイズを有する前記画像から複数のテスト領域を選択するステップと、
    前記記述子間の距離スコアを求めるステップと、
    サイズを変更するステップと、
    前記選択するステップ及び前記求めるステップを繰り返すステップとをさらに含む
    請求項23記載の方法。
  25. 前記距離スコアを
    Figure 0004963216
    として求めるステップをさらに含み、
    ここで、COi及びCTiは様々な共分散行列を表す
    請求項1記載の方法。
  26. 前記画像中のテクスチャを前記共分散行列に従って分類するステップをさらに含む
    請求項記載の方法。
  27. 既知の領域中の既知のテクスチャの各クラスを第1の共分散行列セットとして表すステップと、
    未知のテクスチャを有する各テスト領域を第2の共分散行列セットとして表すステップと、
    前記第1の共分散行列及び前記第2の共分散行列の間の距離スコアを求めるステップと、
    最小の距離スコアを有するクラスを前記テスト領域のクラスとして選択するステップとをさらに含む
    請求項26記載の方法。
  28. 前記テスト領域の各共分散行列に対して最小の距離スコアを有する特定のクラスに対して一票を投じるステップと、
    過半数の票を有するクラスを前記テスト領域のクラスとして選択するステップとをさらに含む
    請求項27記載の方法。
  29. 前記クラス票の分散を計算するステップと、
    前記分散を信頼度スコアとして割り当てるステップとをさらに含む
    請求項28記載の方法。
JP2006300351A 2005-12-14 2006-11-06 コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法 Active JP4963216B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/305,427 2005-12-14
US11/305,427 US7720289B2 (en) 2005-12-14 2005-12-14 Method for constructing covariance matrices from data features

Publications (2)

Publication Number Publication Date
JP2007164772A JP2007164772A (ja) 2007-06-28
JP4963216B2 true JP4963216B2 (ja) 2012-06-27

Family

ID=38139437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006300351A Active JP4963216B2 (ja) 2005-12-14 2006-11-06 コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法

Country Status (2)

Country Link
US (1) US7720289B2 (ja)
JP (1) JP4963216B2 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454058B2 (en) * 2005-02-07 2008-11-18 Mitsubishi Electric Research Lab, Inc. Method of extracting and searching integral histograms of data samples
US7724961B2 (en) * 2006-09-08 2010-05-25 Mitsubishi Electric Research Laboratories, Inc. Method for classifying data using an analytic manifold
US7899253B2 (en) 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds
US8244015B2 (en) * 2006-11-22 2012-08-14 General Electric Company Methods and apparatus for detecting aneurysm in vasculatures
US10410221B2 (en) * 2008-02-07 2019-09-10 Urban Science Applications, Inc. System and method for determining a grouping of segments within a market
US8442278B2 (en) * 2008-02-28 2013-05-14 Honeywell International Inc. Covariance based face association
US20090232365A1 (en) * 2008-03-11 2009-09-17 Cognimatics Ab Method and device for face recognition
US8139860B2 (en) * 2008-07-31 2012-03-20 Fuji Xerox Co., Ltd. Retrieving and sharing electronic documents using paper
US8559726B2 (en) * 2008-08-22 2013-10-15 Hewlett-Packard Development Company, L.P. Image analysis based on pixel brightness grouping
CN101383007B (zh) * 2008-09-28 2010-10-13 腾讯科技(深圳)有限公司 基于积分直方图的图像处理方法及系统
KR101522985B1 (ko) * 2008-10-31 2015-05-27 삼성전자주식회사 영상처리 장치 및 방법
US8401342B2 (en) * 2009-01-16 2013-03-19 A9.Com, Inc. System and method to match images using topologically equivalent correspondences
US8358855B2 (en) * 2009-07-08 2013-01-22 Honeywell International Inc. Determining probabilities from compared covariance appearance models to detect objects of interest in images
US8229219B1 (en) 2009-08-06 2012-07-24 Google Inc. Full-length video fingerprinting
US7953245B2 (en) * 2009-08-18 2011-05-31 General Electric Company System, method and program product for camera-based object analysis
US8290918B1 (en) * 2009-09-29 2012-10-16 Google Inc. Robust hashing of digital media data
JP5367601B2 (ja) * 2010-01-28 2013-12-11 東芝情報システム株式会社 画像処理装置、画像処理方法及び画像処理用プログラム
JP5441737B2 (ja) * 2010-01-28 2014-03-12 東芝情報システム株式会社 画像処理装置、画像処理方法及び画像処理用プログラム
FR2962821B1 (fr) * 2010-07-13 2013-02-22 Commissariat Energie Atomique Procede et systeme de classification de signaux neuronaux, et procede de selection d'electrodes pour commande neuronale directe.
US8792728B2 (en) 2010-09-27 2014-07-29 Hewlett-Packard Development Company, L.P. Near-duplicate image detection
US8965116B2 (en) * 2010-10-19 2015-02-24 3M Innovative Properties Company Computer-aided assignment of ratings to digital samples of a manufactured web product
US8600172B2 (en) * 2011-03-16 2013-12-03 Sensormatic Electronics, LLC Video based matching and tracking by analyzing one or more image abstractions
US20130156343A1 (en) * 2011-12-20 2013-06-20 Harman International Industries, Incorporated System for communicating relationship data associated with image characteristics
WO2013132836A1 (ja) * 2012-03-05 2013-09-12 パナソニック株式会社 物体検出装置、物体検出方法、及び物体検出プログラム
US9307926B2 (en) * 2012-10-05 2016-04-12 Volcano Corporation Automatic stent detection
JP5889820B2 (ja) 2013-03-22 2016-03-22 株式会社東芝 特徴量抽出装置、特徴量抽出方法、および画像識別装置
WO2014175480A1 (ko) * 2013-04-24 2014-10-30 전자부품연구원 하드웨어 장치 및 적분 이미지 생성 방법
US9275308B2 (en) * 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US9189864B2 (en) * 2013-10-17 2015-11-17 Honeywell International Inc. Apparatus and method for characterizing texture
US9238889B2 (en) 2013-10-17 2016-01-19 Honeywell International Inc. Apparatus and method for closed-loop control of creped tissue paper structure
US9303977B2 (en) 2013-10-17 2016-04-05 Honeywell International Inc. Apparatus and method for measuring caliper of creped tissue paper based on a dominant frequency of the paper and a standard deviation of diffusely reflected light including identifying a caliper measurement by using the image of the paper
EP3074926A4 (en) * 2013-11-30 2017-10-11 Beijing Sensetime Technology Development Co., Ltd. Method and system for exacting face features from data of face images
WO2015082957A1 (en) * 2013-12-03 2015-06-11 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Adaptive integral histogram calculation for image thresholding
GB201405045D0 (en) * 2014-03-21 2014-05-07 Secr Defence Recognition of objects within a video
JP6361387B2 (ja) * 2014-09-05 2018-07-25 オムロン株式会社 識別装置および識別装置の制御方法
JP6692804B2 (ja) * 2014-10-07 2020-05-13 バタフライ ネットワーク,インコーポレイテッド 超音波信号処理回路ならびに関連装置および方法
US9443164B2 (en) * 2014-12-02 2016-09-13 Xerox Corporation System and method for product identification
WO2017103035A1 (en) 2015-12-18 2017-06-22 Ventana Medical Systems, Inc. Systems and methods of unmixing images with varying acquisition properties
CN107203579B (zh) * 2016-03-18 2020-12-25 北京嘀嘀无限科技发展有限公司 基于用户打车数据的休息日分类方法及装置
JP7101084B2 (ja) * 2018-08-29 2022-07-14 株式会社東芝 情報処理装置、情報処理システム及び情報処理方法
CN109711244A (zh) * 2018-11-05 2019-05-03 天津大学 一种基于协方差描述符的人类行为识别方法
US10884499B2 (en) 2018-11-20 2021-01-05 Andrew Jay KELLER Headware for computer control
USD881879S1 (en) 2018-11-20 2020-04-21 Andrew Jay KELLER Headwear
CN111062003A (zh) * 2019-12-13 2020-04-24 武汉轻工大学 样本总体协方差判定方法、装置、设备及存储介质
USD929991S1 (en) 2020-06-17 2021-09-07 Neurosity, Inc. Headwear
US11747903B2 (en) 2020-07-01 2023-09-05 Neurosity, Inc. Headware for computer control
CN111858991A (zh) * 2020-08-06 2020-10-30 南京大学 一种基于协方差度量的小样本学习算法
USD972735S1 (en) 2021-06-04 2022-12-13 Neurosity, Inc. Headwear
CN113422766B (zh) * 2021-06-18 2022-08-23 北京理工大学 一种DDoS攻击下的网络系统安全风险评估方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5048095A (en) * 1990-03-30 1991-09-10 Honeywell Inc. Adaptive image segmentation system
JP2002032760A (ja) * 2000-07-17 2002-01-31 Mitsubishi Electric Corp 動物体抽出方法および装置
US7065544B2 (en) * 2001-11-29 2006-06-20 Hewlett-Packard Development Company, L.P. System and method for detecting repetitions in a multimedia stream
JP3894782B2 (ja) * 2001-12-10 2007-03-22 株式会社国際電気通信基礎技術研究所 物体認識装置
US7123760B2 (en) * 2002-11-21 2006-10-17 General Electric Company Method and apparatus for removing obstructing structures in CT imaging
EP1644867B1 (en) * 2003-04-18 2010-08-11 Medispectra, Inc. A system and diagnostic method for optical detection of suspect portions of a tissue sample
US7194111B1 (en) * 2003-07-10 2007-03-20 The United States Of America As Represented By The Secretary Of The Navy Hyperspectral remote sensing systems and methods using covariance equalization
JP2005346474A (ja) * 2004-06-03 2005-12-15 Canon Inc 画像処理方法及び装置及びプログラム及び記憶媒体
US7715597B2 (en) * 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
JP4495606B2 (ja) * 2005-01-19 2010-07-07 日本放送協会 色識別装置及び色識別プログラム

Also Published As

Publication number Publication date
US7720289B2 (en) 2010-05-18
US20070133878A1 (en) 2007-06-14
JP2007164772A (ja) 2007-06-28

Similar Documents

Publication Publication Date Title
JP4963216B2 (ja) コンピュータにより実施される、データサンプルのセットについて記述子を作成する方法
Tuzel et al. Region covariance: A fast descriptor for detection and classification
Creusot et al. A machine-learning approach to keypoint detection and landmarking on 3D meshes
Bay et al. Speeded-up robust features (SURF)
US20110286628A1 (en) Systems and methods for object recognition using a large database
JP5818327B2 (ja) 三次元物体認識用画像データベースの作成方法および作成装置
Eynard et al. Multimodal diffusion geometry by joint diagonalization of Laplacians
Kobyshev et al. Matching features correctly through semantic understanding
Bąk et al. Re-identification by covariance descriptors
Kamencay et al. Feature extraction for object recognition using PCA-KNN with application to medical image analysis
Sebe et al. Salient Points for Content-Based Retrieval.
CN103064857B (zh) 图像查询方法及图像查询设备
Satare et al. Image matching with SIFT feature
Ion et al. Shape matching using the geodesic eccentricity transform-a study
Banerjee et al. Development of speed up robust feature algorithm for aerial image feature extraction
Al-Azzawy Eigenface and SIFT for gender classification
Tsay et al. On visual clothing search
Rasche Computer Vision
Kavitha et al. Experimental analysis of SIFT and SURF features for multi-object image retrieval
San Biagio et al. Encoding classes of unaligned objects using structural similarity cross-covariance tensors
Ameer et al. A Comparison Between SURF and SIFT Methods For Biometric Feature Extraction
Suzuki et al. A 2D texture image retrieval technique based on texture energy filters
Aubry Representing 3D models for alignment and recognition
Hussein et al. Interest Point Descriptor between SURF and SIFT Method for Multibiometric
Bouteldja On the feature generation for high spatial resolution satellite image characterization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120322

R150 Certificate of patent or registration of utility model

Ref document number: 4963216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250