JP2004527863A

JP2004527863A - 物体の識別

Info

Publication number: JP2004527863A
Application number: JP2003500826A
Authority: JP
Inventors: ティモシー・フランシス・クーツ; クリストファー・ジョン・テイラー
Original assignee: ザ・ビクトリア・ユニバーシテイ・オブ・マンチエスター
Priority date: 2001-05-25
Filing date: 2002-05-24
Publication date: 2004-09-09
Anticipated expiration: 2022-05-24
Also published as: DE60223361D1; DE60223361T2; EP1393243A1; US20040170323A1; ATE377805T1; CA2448448C; WO2002097720A1; EP1393243B1; US7295709B2; GB0112773D0; AU2002304495B2; HK1058847A1; JP4150665B2; CA2448448A1

Abstract

物体識別の方法であり、本方法は、識別されるべき物体の画像に対し、前記画像における１組の位置のセットの各々について隣接する位置に対する強度変化の勾配が最大である方向を、その勾配の大きさとともに、決定するステップ、非線形関数を用いて勾配の大きさを修正し、その修正された勾配、および、位置のセットに対応する方向がその画像を表すベクトルを提供するステップ、ならびに、そのベクトルを、予め生成された、物体識別を供与する統計的モデルと比較するステップ、を含んでいる。

Description

【技術分野】
【０００１】
本発明は見えモデルに関する。
【背景技術】
【０００２】
見えに関する統計モデルは計算機視覚において広範に用いられ、多くの利用用途があり、それらには、医療用画像の解釈、および、顔を含む画像(image)の解釈が含まれる。
【０００３】
従来より、画像、または、画像の一部に渡る（グレースケール、または、カラーの）強度(intensity)の変動(variation)を表す統計モデルが構築されている。顔の見えモデルの場合、多くの顔の画像を用いてモデルを生成しており、これら画像は教育画像(training images)として知られている。あらゆる所与の顔においておそらく見られるであろう強度変動は、類似のパターンを有する傾向が見られるであろうし、その統計モデルはこれらのパターンを表している。ひとたび統計モデルが構築されれば、その新しい画像が顔の強度パターンを有するかどうかを判断することで、新しい画像に顔が含まれているかどうかを判断するようにその統計モデルが用いられる。画像における顔の識別は、画像において見出された強度パターンと既知の顔の識別パターンとを比較することにより決定される。肯定的識別は、誤差距離(error metric)の二乗の合計のような適当な誤差の指標(measure)が所定の閾値を下回った場合に、与えられる。
【０００４】
いくつかの統計的見えモデルを生成する方法が知られており、そのモデルを用いて画像における顔またはその他の物体を識別、および／または、認識している。２つの周知のモデル、動的形状モデル(Active Shape Model)（ＡＳＭ）［３、４］、および、動的見えモデル(Active Appearance Model)（ＡＡＭ）［２］は英国、ヴィクトリア・ユニバーシティ・オブ・マンチェスター(Victoria University of Manchester)で開発され、広く用いられている。これら両モデルは規格化された強度値の使用を基にしている。ＡＳＭ、および、ＡＡＭは共に、固有顔モデル(eigen-face models)［６］の一般化である。固有顔モデルも強度値の使用に基づいており、また広く使用されている。
【０００５】
強度変動の情報に基づいた統計的見えモデルの不利点は、これらモデルは照明効果の変化がある場合に不正確に機能する傾向があることである。例えば、モデルを生成する際に用いられた照明とは異なる角度から照明されている顔は誤りを生じることがある。
【０００６】
非線形フィルタを適用した画像を用いてＡＳＭを生成することが知られている。そのようなフィルタの１つは、所与の画像における縁部(edge)の位置を特定するために配され、縁部でない全ての強度をゼロに設定する（これはカニー・エッジ・オペレータ(Canny Edge Operator)として知られている。）ＡＳＭを用いて画像における物体を識別、および／または、認識する場合、同じフィルタを新しい画像に適用する。フィルタの出力は一対の画像であり、その一方は画像の縁部の方向(direction)を表しており、他方は、縁部の大きさ(magnitude)を表している。この方法には２つの不利点が存在する。第１の不利点は現れる画像が二値画像であり、各縁部は「オン(on)」の値で表され、その結果、画像に関する情報の大部分は失われる。特に、縁部に近接した構造に関する情報が損なわれる。この方法の第２の不利点は各画像のあらゆる領域で同一のフィルタパラメータのままであり、また、あらゆる画像で同じままであることである。フィルタパラメータを調整することは可能であるが、この方法は、あらゆる調整に基づくあらゆる測定を供与するものではない。
【発明の開示】
【発明が解決しようとする課題】
【０００７】
本発明の目的は、上記不利点の少なくとも１つを克服、または、軽減する見えモデルを提供することである。
【課題を解決するための手段】
【０００８】
本発明により、物体識別の方法が提供され、その方法は、識別されるべき物体の画像に対し、前記画像における１組の位置のセット(a set of locations)の各々について隣接する位置に対する強度変化の勾配が最大である方向を、その勾配の大きさとともに、決定するステップ、非線形関数を用いて勾配の大きさを修正し、その修正された勾配、および、位置のセットに対応する方向がその画像を表すベクトルを提供するステップ、ならびに、そのベクトルを、予め生成された、物体識別を供与する統計的モデルと比較するステップ、を含んでいる。
【０００９】
用語「画像」には、画像、または、興味の対象となる画像領域の意味を含むことを意図している。
【００１０】
適切には、非線形関数が勾配の大きさを固定的な値の範囲にマッピングする。
【００１１】
適切には、非線形関数のパラメータは、所与の位置、または、画像内の領域に、その位置、または、領域の性質(property)に従って、設定される。
【００１２】
適切には、その性質の１つは、画像の位置、または、領域のスケールである。
【００１３】
適切には、その性質の１つは、画像の位置、または、領域の方向性(orientation)である。
【００１４】
適切には、その性質の１つは、画像の位置、または、領域の統計である。
【００１５】
適切には、非線形関数は、勾配の大きさの和で割った勾配の大きさと勾配の大きさの期待値の平均もしくは中央値のモジュラスである(the modulus of the gradient magnitude divided by the sum of the gradient magnitude and the mean or median of the expected values of the gradient magnitude)。
【００１６】
適切には、非線形関数は、画像における有効ノイズ(effective noise)に起因する勾配の大きさの累積確率分布を表している単調関数である。
【００１７】
適切には、ノイズ分散(noise variance)によって表されるような有効ノイズは、画像、または、画像の領域に渡る勾配の分布から得る。
【００１８】
適切には、ノイズ分散によって表されるような有効ノイズは、画像に対し総体的に予測される。
【００１９】
適切には、非線形関数は勾配の大きさを規格化する作用を有する。
【００２０】
適切には、勾配の方向は２πを法として表される。
【００２１】
適切には、勾配の方向はπを法として表される。
【００２２】
適切には、所定の物体の位置およびサイズは、勾配の方向および大きさを決定する前に推定される。
【００２３】
適切には、本方法は物体のクラスの識別を供する。
【００２４】
適切には、本方法は、物体のクラスに含まれる特定の物体の認識を供する。
【００２５】
適切には、物体のクラスは顔である。
【００２６】
適切には、予め生成される見えモデルは、動的形状モデルである。
【００２７】
適切には、動的形状モデルは、プロファイルモデル(profile models)を使用する。
【００２８】
適切には、プロファイルモデルは１次元モデルである。
【００２９】
適切には、予め生成される見えモデルは複合見えモデル(Combined Appearance Model)である。
【００３０】
適切には、予め生成される見えモデルは動的見えモデルである。
【００３１】
本発明はまた、所定の物体の画像を表しているデータのセットを有する見えモデルを提供し、そのモデルは、画像における１組の位置のセットの各々について隣接する位置に対する強度変化の勾配が最大である方向を、その勾配の大きさとともに、決定すること、非線形関数を用いて勾配を修正すること、ならびに、その修正された勾配および対応する方向のセットと他の画像に対して決定されている修正された勾配および対応する方向のセットを統合してデータセットを形成することにより、構築される。
【発明を実施するための最良の形態】
【００３２】
次に、本発明の特定の実施形態について添付の図面を参照し、単に例示的に説明する。
【００３３】
本発明の第１の実施形態は動的形状モデル（ＡＳＭ）に基づいており、これについてはアペンディックス１に詳細に説明されている。従来技術におけるＡＳＭは、各モデルポイントにおいて画像の強度に関する統計的モデルを備えている。
【００３４】
本発明の第１の実施形態は、単に強度の測定を用いる代わりに、画像の構造を勾配として表し、その勾配は大きさおよび方向によって明確にされている。あらゆる所与の画素に対し、勾配の方向はその画素から隣接する画素へ移動する場合に最大の強度変化となる方向を示している。形体の縁部が通る、または、その縁部に隣接する画素においては、勾配の方向はその縁部を横断する方向となるであろう。勾配の大きさは測定の正確さに関する信頼性の指標を、換言すれば縁部が存在していることに対する信頼性に関する指標を提供する。原則として、よく規定された縁部においては、勾配の方向がよく規定されるので、指標も強く出るが、原則的に、画像のフラットでノイジーな領域においては、指標は弱く出るか、または、ゼロになる。強度情報の代わりに勾配を用いることは有利である。なぜなら、特有の(inherent)画像内縁部識別を供するからである。
【００３５】
所与の画素に対する勾配は非線形フィルタにより操作され、ＡＳＭに（ＡＳＭ生成の間に）付加される。この点が、非線形フィルタが画像にわたって適用され、画素に対する勾配が後から決定される周知の従来技術と顕著な対照をなす点である。
【００３６】
本発明の第１の有利点は、従来技術によるＡＳＭにより保持されるよりも多くの情報が保持される点である。特に、必要な手段により、縁部ではないと判明した領域に関する情報を捨てながら縁部の位置を特定する目的でフィルタを使用する代わりに、画像全体に関する勾配の情報を提供する目的でフィルタを使用している（情報を捨てる必要がない。）。非線形フィルタは、画像の所定の領域と関連する傾向の低い情報の重要度を抑制するように作用する。
【００３７】
本発明の用いる方法の第２の有利点は、調査している画像の特定領域のため、容易にフィルタのパラメータを調整する点である。特に、乱雑な画像で所定の物体の例を探す場合、規格化関数のパラメータは、画像全体の統計量に基づくよりもむしろ、モデル位置(model position)に関する現在の評価の下、調査している領域における画像の統計量に基づいて選択される。これにより、画像全体に対して１つのフィルタパラメータの組み合わせを用いる従来技術から実質的向上が得られる。
【００３８】
ＡＳＭを生成する際、従来技術のＡＳＭまたは本発明によるＡＳＭであれば、重要な位置は手動的に各画像にマークされ、ＡＳＭに付加される（アペンディックス１にて説明する。）。ここではＡＳＭは、口の隅部、目の隅部、等、を含む所定の位置に着目している。所定の形体に関する位置がわかっているので、画像の別の領域に対してフィルタのパラメータを調整することができる。例えば、顔モデルに対しては、口の隅部外側直近に位置する画素の効果を抑制するように、フィルタのパラメータを設定してもよい。なぜなら、これらの画素は極めて有用な情報を有する見込みのない画素だからである（画素は頬を表している。）。同様にして、フィルタのパラメータを、口の隅部の間に位置する水平な縁部を強調するように設定してもよい。なぜなら、これらの画素は非常に有用な情報を含んでいる傾向があるからである（画素は口を表している。）。顔の方向性は判っているので、マークされたポイントの定位より、フィルタをかける前に、顔のあらゆる回転を正すことができる。
【００３９】
ＡＳＭを用いて、新しい画像における所定の物体の位置を特定する場合、フィルタのパラメータは、ＡＳＭ生成の間に調整した方法と同じ方法で、再調整される。ひとたび、所定の物体の、最初の位置(initial location)、スケール、および、方向が決定されれば（その方法はアペンディックス２に説明されている。）、フィルタのパラメータは、位置に関する現在の評価の周囲の領域において、画像の統計量、スケール、および、方向、に従って設定される。
【００４０】
見えモデルは所定の物体の周囲の領域において、画像の構造を表している。ＡＳＭの場合、これは各モデルポイントの周りの小領域であって、ポイントにおける境界に垂直なプロファイル、または、ポイント周囲の小２Ｄ領域である。
【００４１】
モデル生成、および、新しい画像の調査、の両方の間、所定の画像は所定の各領域にわたって標本化され、その標本値はその領域の画像の構造を表すベクトルとして配置される。先行技術のＡＳＭにおいては、通例、単にその領域における各画素の強度値をとってそれらをベクトルとして配置するケースである。本発明の第１の実施形態では、以下の方法を用いて各領域をベクトルで表している。
【００４２】
１．ｘおよびｙによってポイントＸにおける局所勾配を評価する。勾配は、先ずｘ方向エッジフィルタを適用し（本質的には（−１０１）フィルタでの畳み込み）、次にｙ方向に適用し、決定される。これにより、各ポイントＸに対して勾配値ｇ_ｘ、ｇ_ｙが得られる。勾配が最大である方向は、ベクトル（ｇ_ｘ、ｇ_ｙ）により与えられる。
【００４３】
２．勾配の大きさ、ｇ＝√（ｇ_ｘ ^２＋ｇ_ｙ ^２）を計算する。
【００４４】
３．非線形関数、ｆ（ｇ、Ｘ）を適用し、勾配の方向および強さに関する表現、（ｇ’_ｘ、ｇ’_ｙ）＝ｆ（ｇ、Ｘ）（ｇ_ｘ／ｇ、ｇ_ｙ／ｇ）を得る。
【００４５】
４．ｇ’_ｘ、ｇ’_ｙをその領域を代表する値を含んでいる形体ベクトルに加える。
【００４６】
５．領域内の全てのポイントに対して繰り返す。
【００４７】
モデル構築に関するその他の全てのステップはアペンディックス１に記載の先行技術、および、記載したリファレンスと変わるところがない。そのステップとは、
【００４８】
６．形体ベクトルをＡＳＭに加える。
【００４９】
７．多数の領域に対して繰り返す。必要とされる領域の数はモデルの統計量の質によって決定される。
【００５０】
勾配の方向は２πを法として表される（つまり、０から２πの間の角度で表される。）。勾配が測定される方向はモデルのフレームにおいて決定され、本方法が回転、および、画像におけるモデル例(model instance)のスケールとは独立であることを保証する。
【００５１】
新しい動的形状モデル（ＡＳＭ）に値を加える場合、従来技術のＡＳＭにおいては所与の画像に対する全ての強度値の連鎖である、規格化強度形体ベクトルｇは、画像に対する全ての勾配値の連鎖であり、ｇ^Ｔ＝（．．．，ｇ’_ｘｉ，ｇ’_ｙｉ，．．．）の形式を有する２倍の長さの形体ベクトルにとって代わられる。ＡＳＭに対するその他の全ての計算は同じである。
【００５２】
非線形関数ｆ（ｇ，Ｘ）は、有望な縁部を強調し、ノイズである可能性の高い構造を抑制するように選択される。この関数を使用しなければ、ＡＳＭに入力される値は単なる勾配である。テストによれば、無修正の勾配を使用すると、周知の強度値に基づいたＡＳＭと比較して性能の向上の見られないＡＳＭが得られる。
【００５３】
一般性を損なうことなく、全てのｇに対し、０≦ｆ（ｇ，Ｘ）≦１、つまり、非線形関数が勾配に関して０から１までの値に規格化する。これにより、扱いやすい値で統計的モデルを生成することが可能となる。当然のことながら、あらゆる２つの値の間の勾配に関する規格化を用いてもよい。
【００５４】
画像の全域において非線形関数は変化してもよい。このことは、例えば、非極大縁部(non-maximal edges)を抑制、または、画像の別の部分における異なるノイズ特性を予想することで実施される。代わりに、非線形関数は画像の位置から独立であってもよく、その場合、ｆ（ｇ，Ｘ）＝ｆ（ｇ）である。
【００５５】
有効な非線形関数として、ｆ（ｇ）＝｜ｇ｜／（｜ｇ｜＋ｇ_０）が見出され、ここで、ｇ_０はｇの期待値の平均、または、中央値である。動的形状モデルの場合、これは、画像の所定の領域にわたって測定されたｇの平均、または、中央値でよい。異なる値のｇ_０を画像の別の領域に対して使用してもよい（例えば、画像を領域に分割し、各領域に対して個別的に平均または中央値を決定することによる。）。関数には、平均ノイズ値よりも小さいｇ値はゼロに近くマッピングし、平均を超過しているｇ値は１に近くマッピングするような、望ましい性質が備わっている。関数の有用な性質は、平均勾配は最大勾配との比較においてかなり小さくなるという事実に基づいている。このことは、あらゆる所与の画像において、隣接するポイント間の強度の変動が僅かしかない領域が多数存在する可能性が高いからである。
【００５６】
代わりとなる非線形関数には、ｆ（ｇ）＝Ｐ_ｎ（ｇ）があり、ここで、Ｐ_ｎ（ａ）は画像において有効ノイズに起因する縁部の大きさの累積確率分布である。
【００５７】
Ｐ_ｎ（ａ）は、分布より抽出された確率変数(random value)、ｂ、が所与のａよりも小
さい確率がＰ_ｎ（ａ）である（つまりは、Ｐｒｏｂ［ｂ＜ａ］＝Ｐ_ｎ（ａ））ような、［０，１］の範囲の値を有する単調関数である。また、ノイズの影響を受けている可能性の高いｇ値はゼロに近くマッピングされ、ノイズである可能性の低いｇ値は興味深い構造として扱われ、効果的に強調される。各画素におけるノイズがガウス分布(Gaussian)に従うなら、導関数、ｇ_ｘ、ｇ_ｙ、上のノイズもガウス分布に従い、よってｇ^２＝ｇ_ｘ ^２＋ｇ_ｙ ^２は、ガンマ関数でＰ_ｎ（ｇ）を解析的評価可能な、χ^２分布に従うであろうことを注記する。ノイズ分散の推定は、標本化領域にわたるｇの分布から得られ、また、必要に応じ、画像全体で予測可能である。
【００５８】
新しいＡＳＭは、ひとたび生成されれば、画像における顔、または、その他の物体を識別、ならびに／または、認識するのに用いることができる。このことは、所定の物体の最初の評価位置(initial estimated position)を決定し、先に述べたステップ１ないし５を実行してＡＳＭと比較される形体ベクトルを生成することにより実施される。用いられる非線形フィルタ、および、それに対応するパラメータは、モデルを生成するために用いたフィルタおよびパラメータを基にしている。新しい画像におけるノイジーでおよそフラットな領域はゼロに近い値として表される傾向があり、よって、最適化に及ぼす影響は僅かしかない。実験では、本発明は画像における所定の構造の境界の位置の特定をより正確でありかつ信頼性高く供しており、特に、標的となる画像が元の教育セット(original training set)と比較して著しく異なる照明条件を有する場合に、画像における所定の構造の境界の位置の特定より正確でありかつ信頼性高く供している。
【００５９】
形体ベクトルが特定のクラスに対して有効例であることをチェックすることで、新しい画像、または画像の領域は、そのクラスに属していることを確かめることができる（つまり、特定の固定ベクトルに対して「十分に近い(close enough)」、または、そのクラスを表している確率密度分布によって生成された可能性が十分に高いことである。）。
【００６０】
いくつかの場合においては、縁部の構造の方向を、原則的に縁部の勾配の方向を識別するがその極性を識別しない、法πまでのみで表すことが有利である。これは、画像の背景が前もって知らされていない場合に有用である。画像における所定の物体が背景よりも暗くとも、または、背景よりも明るくともよく、そうであるならば、縁部の方向と位置はわかるが、その極性（暗部から明部、または、明部から暗部）はわからない。この状況は、先ず縁部の方向を極座標で表して対処することができる、（ｇ_ｘ，ｇ_ｙ）→（ｇ，θ）。角度はそれから２倍され、マッピングされる、つまり、（ｈ_ｘ，ｈ_ｙ）＝（ｇｃｏｓ２θ，ｇｓｉｎ２θ）＝（ｇ_ｘ ^２−ｇ_ｙ ^２，２ｇ_ｘｇ_ｙ）／ｇ。
そして、上記のように、適切な非線形規格化が適用される。
(g'_x,g'_y)=f(g)(h_x/g,h_y/g)=f(g)(g_x ²-g_y ²,2g_xg_y)/g²
πを法とするデータは、上記のように新しい動的形状モデルを生成することに用いられる（πを法とする、および、２πを法とするデータは単一のモデルにおいて統合されない。）。
【００６１】
本発明の第１の実施形態によるＡＳＭは、この位置の境界と垂直にポイントを通るプロファイルに沿って測定された勾配の統計的モデルを用いて、各ポイント近傍の領域の構造をモデル化する。ここでは、プロファイルモデルが使用されるべきであって、それらは、上記のように構造をベクトルのｘおよびｙ成分の両方に寄与する各画素を用いて表すか、または、ただ１次元にて用いられるモデルであってよい。
【００６２】
ただ１次元のみが使用される場合、プロファイルに沿ったポイントにおける勾配は単にプロファイルの方向に沿って測定される（例えば、g(i)=I(p+u(i+1))-I(p+u(i-1))、ここで、ｐはプロファイルの中心であり、ｕはプロファイルに沿ったステップである。）。
【００６３】
本発明の実施形態では、これに非線形規格化を適用し、g'(i)=f(g'(i),Ｘ)であり、ここで、f(g,Ｘ)は、前述のものと性質を同じくする適切な非線形関数である。これは、ｇ’_ｘおよびｇ’_ｙの表す情報と全く同等の情報を含んでいるものではないが、通例、計算は高速である。
【００６４】
本発明の第２の実施形態は動的見えモデル（ＡＡＭ）に基づいており、これについてはアペンディックス２にて詳細に説明している。周知の従来技術のＡＡＭは、先ず画像をワーピング(warping)して形状の変動性を補正した後、画像における物体にわたる強度の変動の統計的モデルを使用する。本発明の第２の実施形態においては、画像はワープされて形状の変動性が補正され、それから、強度の変動を用いる代わりに非線形規格化勾配を用いて、新しいＡＡＭの生成、ならびに、新しいＡＡＭを用いた物体の識別および／もしくは認識、の両方を行う。
【００６５】
見えモデルは所定の物体の周りの領域における画像の構造を表す。一般に、ＡＡＭの場合においては、これは物体の全体または部分をカバーする２Ｄ領域である。
【００６６】
モデルの構築および画像の調査の両方の間、所定の画像は各所定の領域にわたって標本化され、ベクトルとして配置される標本値がその領域における画像の構造を表している。先行技術のＡＡＭにおいては、これは通例、単に領域内の各画素の強度値を取り、そしてベクトルとしてそれらを配置するケースである。本発明の第２の実施形態では、以下の方法で各領域をベクトルで表している。
【００６７】
２Ｄ画像に対し、以下のステップを、各画素で実施する。
【００６８】
１．ｘおよびｙでポイントＸにおける局所勾配を評価する。勾配は先ず、ｘ方向にエッジフィルタを適用し（本質的には（−１０１）フィルタでの畳み込み）、次にｙ方向に適用し、決定される。これによって、各ポイントＸにおける勾配値ｇ_ｘ、ｇ_ｙが得られる。勾配が最大である方向は、ベクトル（ｇ_ｘ，ｇ_ｙ）で与えられる。
【００６９】
２．勾配の大きさを計算する。ｇ＝√（ｇ_ｘ ^２＋ｇ_ｙ ^２）。
【００７０】
３．非線形関数、ｆ（ｇ，Ｘ）を適用して勾配の方向および強さに関する表現、
（ｇ’_ｘ，ｇ’_ｙ）＝ｆ（ｇ，Ｘ）（ｇ_ｘ／ｇ，ｇ_ｙ／ｇ）を得る。
【００７１】
４．値、ｇ’_ｘ、ｇ’_ｙを、その領域の代表値を含んでいる形体ベクトルに加える。
【００７２】
５．その領域の全てのポイントに対して繰り返す。
【００７３】
モデル構築に関するその他全てのステップは従来の技術と変わりなく、アペンディックス１、および、記載したリファレンスの記述のとおりである。
【００７４】
６．形体ベクトルをＡＡＭに加える。
【００７５】
７．多数の領域に対して繰り返す。必要とされる領域の数はモデルの統計量の質によって決定される。
【００７６】
当然のことながら、上述の本発明の第１の実施形態の特徴は本発明の第２の実施形態に対しても適用される。例えば、フィルタパラメータを異なる画像の範囲に対して調整する方法は、本発明の第２の実施形態に適用してもよい。
【００７７】
非線形的な勾配の表現を用いて生成されるモデルは、そのままの(raw)強度値による直接的なモデルよりも、照明の変化に対して強固(robust)である点で、本発明は有益である。よって、クラシフィケーション／レコグニション・フレームワークで用いる場合、本発明はより信頼性の高い結果をもたらす。
【００７８】
（アペンディックス１−動的形状モデル（ＡＳＭ））
本発明の第１の態様は動的形状モデル（［３、４］）に基づく。本発明に動的形状モデルを適用する方法を確実に、完全に、理解するため、従来技術の動的形状モデルを以下に説明する。
【００７９】
動的形状モデルは、新しい画像における物体の例に合うように逐次的に変形する、物体の形状に関する統計的モデルである。形状は統計的形状モデル(Statistical Shape Model)によって制約を受け、ラベル付の例(labelled examples)の教育セットにおいて見られるような方法でのみ変化する。
【００８０】
形状モデルに加え、我々は各モデルポイントの周りでの画像の見えに関するモデルを必要としている。最もシンプルなものは、強い縁部上のポイントを推測することである。さらに複雑なモデルを構築し、ポイントを通るプロファイルの、そのポイントにおける境界のカーブに垂直な勾配の統計的変動を表すことができる。
【００８１】
我々は、姿勢(pose)および形状のパラメータ（例えば、平均形状）に対する最初の推定値を有すると仮定する。これは、以下のようにして逐次的にアップデートされる。
・法線に沿って各モデルポイントをよく調べ、このポイントにおける画像の見えのモデルに対する、最高の局所的適合を見つける（例えば最も強い隣接縁部）。
・姿勢および形状のパラメータをアップデートし、見つけたポイントとモデル例とが最も適するようにする。
・収束するまで繰り返す。
ガウシアン画像ピラミッドの粗いレベルについて調査を開始し、漸次的に精緻化する、複−解像度による実施を行うことで、性能は著しく向上する。これにより、さらに高速で、より正確かつ強固な調査になる。
【００８２】
動的形状モデルは、以下に記載の統計的形状モデルを用いている。
形状例のセットがあれば、統計的形状モデルを構築可能である。教育セットの各形状は、ｎ個のラベル付の目標ポイントで表されており、ある形状とその次の形状とはコンシステントでなければならない。例えば、手の例では、７番目のポイントは常に親指の先端に対応している。
【００８３】
そのようなラベルの付された教育例のセットがあれば、プロクルステス解析(Procrustes Analysis)を用いてそれらを共通の座標フレームに合わせる。これは、セットの平均との二乗距離の合計が最小になるように、各教育形状の形を変え(translate)、回転し、また、拡大縮小(scale)している。各形状は２ｎ個の成分からなるベクトルによって表される。
x=(x_1, ..., x_n, y_1, ..., y_n)
合わせられた教育セットは２ｎ次元空間における点群(cloud)を形成し、確率密度関数からの例であると考えることができる。
【００８４】
最もシンプルな定式化では、点群をガウシアンで近似する。主成分分析（ＰＣＡ）を用いて点群の主軸選び、そして、変動の主要部を占める最初の僅かな例のみモデル化する。
【００８５】
形状モデルは以下のようになる。
x=x_mean+Pb
ここで、x_meanは揃えられた教育例の平均であり、Ｐは２ｎ×ｔの行列であり、その列は点群の主軸に沿った単位ベクトルである。ｂは形状パラメータのｔ成分ベクトルである。
（このモデルは「点分布モデル(Point Distribution Model)」（ＰＤＭ）と称されているが、統計における点分布(Point Distribution)とは殆ど関係がない。）
【００８６】
教育セットから習得した限界内で形状パラメータを変化させることにより、新しい例を生成することができる。
【００８７】
上述のように、このようなモデルは動的形状モデルのフレームワークにおいて、新しい画像の新しい例の位置を特定することに用いられる。
【００８８】
（アペンディックス２−動的見えモデル（ＡＡＭ））
本発明の第２の態様は動的見えモデル(Active Appearance Model)（Ｇ．エドワーズ(Edwards)、Ｃ．テイラー(Taylor)、および、Ｔ．クーツ(Cootes)、動的見えモデルを用いた顔画像解釈(Interpreting face images using active appearance models)、第３回顔とジェスチャ自動認識国際会議(In 3^rdInternational Conference on Automatic Face and Gesture Recognition 1998)、３００−３０５頁、奈良、日本、１９９８年４月、ＩＥＥＥコンピュータ学会出版(IEEE Computer Society Press)）に基づいており、更なる説明がクーツ(Cootes)らによりなされている（Ｔ．クーツ、Ｇ．Ｊ．エドワーズ、および、Ｃ．Ｊ．テイラー、動的見えモデル(Active Appearance Model)、第５回計算機視覚欧州会議(In 5^thEuropean Conference on Computer Vision)、４８４−４９８頁、シュプリンガー(Springer)、１９９８年６月）。本発明に動的見えモデルを適用する方法が確実に全て理解されるように、先行技術による動的見えモデルを以下に記載する。
【００８９】
動的見えモデルは、モデルによって生成された再構成画像と内在する標的画像との差異を用いてモデルパラメータをより良い値の方に駆動する。先の教育段階においては、周知の変位、δｃ、が周知のモデル例に適用され、その結果現れるモデルと画像との差異、δｖが測定される。多変量直線回帰をそのような教育変位(training displacements)の大きなセットに適用し、近似的線形関係を確立する。
δｃ＝Ａδｖ
画像を調査する際、現在のモデルと画像との差異、δｖ、を用い、モデル適合性を向上させる、モデルパラメータに対する調整量、−δｃ、を予測する。表記の簡単化のため、ベクトルδｃは、スケール、回転、および、変形(translation)における変位を含んでいるものと仮定する。
【００９０】
動的見えモデルは顔画像のセットを用いて構成される。これを実施するため、エドワーズら（Ｇ．エドワーズ、Ａ．ラニティス(Lanitis)、Ｃ．テイラー、および、Ｔ．クーツ、顔画像の統計的モデル−特定性の向上(Statistical model of face images - improving specificity)、イメージ・アンド・ビジョンコンピューティング(Image and Vision Computing)、１６、２０３−２１１頁、１９９８）が記した方法に従って顔見えモデル(Facial appearance models)が生成される。モデルは、顔の形状の変動に関するモデルと形状が規格化された顔の見えの変動に関するモデルとを組み合わせることにより生成される。モデルは４００の顔画像を習得し、それぞれは手がかりとなる特徴の場所を表している１２２の目標ポイントを示すラベルが付されている。形状モデルは、目標の各セットをベクトルｘとして表し、データに主成分分析（ＰＣＡ）を適用することで、生成される。あらゆる例は以下を用いて近似可能である。
x=x^-+P_sb_s （１）
ここでx^-は平均形状であり、P_sは直交する変動モード(orthogonal modes of variation)のセットであり、b_sは形状パラメータのセットである。各例画像はワープされて、そのコントロールポイントが（三角測量アルゴリズム(triangulation algorithm)を用いて）平均形状に一致され、そして、グレーレベル情報ｇがこの形状規格化顔パッチ(shape-normalised face patch)から標本化される。このデータにＰＣＡを適用することで同様のモデルが得られる。
g=g^-+P_gb_g （２）
【００９１】
いかなる例の形状や見えであってもこのようにベクトルb_sおよびb_gで取りまとめることが可能である。形状およびグレーレベルの変動の間には相関性があるので、さらにＰＣＡを連結されたベクトルに適用し、以下の形式の複合見えモデル(combined appearance model)を得る。
x=x^-+Q_sc （３）
g=g^-+Q_gc （４）
ここで、ｃはモデルの形状およびグレーレベルの両方をコントロールしている見えパラメータベクトルであり、Q_sおよびQ_gは、形状および形状規格化グレーレベルのデータにおける変化に対するｃの値をマッピングする。顔は所与のｃに対し、形状フリーグレーレベル画像をベクトルｇから生成し、ｘで記述されるコントロールポイントを用いてワープすることで、合成される（この過程は［３］に詳細に説明されている。）。式３および式４は複合見えモデルとして知られる、見えの統計的モデルを定義している。
【００９２】
４００の例から、２３の形状パラメータ、ｂ_ｓ、および、１１４のグレーレベルパラメータ、ｂ_ｇが導かれる。だが、観測される変動の９８％を解釈するために必要とされる複合見えモデルのパラメータ、ｃ、はたった８０である。
【００９３】
見えモデルを顔画像と一致させるため、２段階的方策(two-stage strategy)を採用する。その第１のステップは、シンプルかつ迅速な手法によっておおよその一致を見つけることである。最初の知識には、顔が画像内のどこに存在するか、または、そのスケール、および、方向に関する推定はない。簡単な固有顔モデル（Ｍ．ターク(Turk)、および、Ａ．ペントランド(Pentland)、固有顔による認識、認知神経科学論文誌(Journal of Cognitive Neuroscience)、３（１）、７１−８６頁、１９９１）をこの位置特定の段階に用いている。画像データの固有顔表現、Ｍ、と画像それ自体、Ｉ、との相関のスコアは、様々なスケール、場所、および、方向で計算可能である。
Ｓ＝｜Ｉ−Ｍ^２｜（５）
【００９４】
原理的には網羅的に画像を調査することも可能だが、マタス(Matas)らのスキーム（Ｋ．Ｊ．Ｊ．マタス、および、Ｊ．キトラー(Kittler)、高速顔位置測定および照合(Fast face localisation and verification)、於英国機会視覚会議(In British Machine Vision Conference)１９９７、コールチェスター(Colchester)、英国、１９９７）と類似の確率論的スキームを使用することがさらに効果的である。モデルおよび画像は２段抽出され、モデル標本ポイントのごく少量のみを用いて相関のスコアを計算する。図２は、この方法によって生成された標準的顔仮説(typical face hypotheses)を示している。位置特定にかかる平均時間は、モデル標本ポイントの１０％を使えば、およそ０．２秒である。
【００９５】
ひとたび顔の場所に関する始動用の概算が決まれば、できる限り画像と一致する合成顔が生成されるように見えモデルのパラメータが調整される。
【００９６】
解釈は、実際の顔画像と、見えモデルによって合成された顔画像との差異が最小となるような、最適化問題として扱われる。差異ベクトルδＩは以下のように定義される。
δＩ＝Ｉ_ｉ−Ｉ_ｍ（６）
ここで、Ｉ_ｉは画像におけるグレーレベル値に関するベクトルであり、Ｉ_ｍは現在のモデルのパラメータに対するグレーレベル値に関するベクトルである。
【００９７】
モデルと画像との最高の一致を見出すため、差異ベクトルの大きさ、Δ＝｜δＩ^２｜、を、モデルパラメータ、ｃ、を変化させて最小化する。
【００９８】
モデルはおよそ８０のパラメータを有するので、当初、非常に高次元の空間におけるサーチを含んでいる、非常に困難な最適化問題のように思われる。だが、モデルを新しい顔画像に一致させるための試行のそれぞれは実際、相似な最適化問題であることが知られている。よって、モデルは予めこのような問題のクラスを解決する方法について何らかを習得する。画像調査の間にモデルパラメータを調整する方法に関する先験的知識を提供することにより、効率的なランタイムのアルゴリズムに帰着する。特に、モデルパラメータがどのような状態であるか、についての情報を記号化する、δＩの空間パターンを変更し、よりよいフィットを実現すべきである、と考えてもよいと思われる。例えば、顔の側部において、モデルと像との差異が最大であれば、それは、モデルの顔の幅を調整するパラメータを調整すべきであることを暗に意味している。これにより見込まれる効果は図３に示されており、オリジナル画像を上部左に、摂動を加えられたモデルの変位を上部右に示し、形状規格化差異画像は底部中央に示している。
【００９９】
このやり方を採用する場合、問題に対して２つの部分があって、それらは、δＩとモデルパラメータにおける誤差、δｃ、との関係性を学習すること、および、この知識を、Δを最小化するための逐次的アルゴリズムで用いることである。
【０１００】
ΔＩと、モデルパラメータにおける誤差（およびそのために必要な補正）との関係性に関して、選択可能な最もシンプルなモデルは線形である。
δｃ＝ＡδＩ（７）
【０１０１】
これは、良い結果を得るには十分に良好な近似である。Ａを求めるには、周知のモデル変位、δｃ、および、それに対応した際画像、δＩ、の多くの標本に対して複数の多変量線形回帰を実施する。これらの、ランダムな変位の大きなセットは、教育セットの画像に対する「真の」モデルパラメータに周知の量の摂動を加えることで、生成される。モデルパラメータにおける摂動のみならず、２Ｄの位置、スケール、および、方向における小さな変位もまた、モデル化される。表記の簡単のため、これら付加的な４つのパラメータは単にベクトルδｃの付加的成分とみなすことができるのだが、これらは回帰において盛り込まれる。良いふるまいをする関係性を得るため、画像の差異を計算する、参照フレームを慎重に選択することが重要である。最適な参照フレームは上記の形状規格化顔パッチである。差異はこのように計算される。現在の、モデルの位置に対し、現在の位置での画像データを形状規格化顔パッチにワープすることにより、画像のグレーレベル標本ベクトル、ｇ_ｉ、を計算する。これは式４を用いて計算され、モデルのグレーレベル標本ベクトル、ｇ_ｍ、と比較される。
δｇ＝ｇ_ｉ−ｇ_ｍ（８）
【０１０２】
よって、式７は修正可能である。
δｃ＝Ａδｇ（９）
【０１０３】
教育の間に用いるべきδｃの値で最も良い範囲は、実験的に決定される。理想では、誤差範囲、δｇ、の可能な限り大きな範囲で保持される関係性をモデル化することが望まれる。だが、実際の関係性は、限定的な値域のみでの線形な関係性として見出される。実験では、モデルは８０のパラメータを使用した。最適な摂動レベルは、各モデルパラメータに対し、（教育セットの）およそ０．５標準偏差であることがわかった。各パラメータは、０から１標準偏差までの間の値によって、平均からの摂動が加えられる。スケール、角度、および、位置は０から±１０％（顔の幅に比する位置の変位）の範囲の値で摂動が加えられる。線形回帰を実施した後で、Ｒ^２統計を各パラメータの摂動、δｃ_１、に対して計算し、どの程度よく変位が誤差ベクトルδｇによって「予測」されるかを測定する。８０のパラメータに対し、平均Ｒ^２値は０．８２であり、最高は０．９８（第１のパラメータ）であり、最小は０．４８である。図３はδｇに対して再構成された形状フリー誤差画像を、第１のモデルパラメータにおける標準偏差の２倍の偏差、および、水平方向変位１０画素に対して示している。
【０１０４】
モデルパラメータに対してする必要のある補正を予測する方法があれば、最適化問題を解決するための逐次的方法を構成してもよい。所与の、画像ｃへのモデル射影に対し、グレーレベル標本誤差ベクトルδｇが計算され、モデル推定はこのようにアップデートされる。
ｃ’＝ｃ−Ａδｇ（１０）
【０１０５】
始動用概算が正しい解からかけ離れていれば、第１イタレーションにおける予測モデルは一般には非常に正確とはいえないが、差異画像におけるエネルギを減少させているべきである。このことは、教育セットの全ての例に対し、予測が差異ベクトル｜δｇ^２｜の大きさを減少させるようなスケーリングＡによって保証可能である。モデルパラメータの値が改善されれば、次のイタレーションでなされる予測はよりよくなる。この手続きは収束するまで反復される。一般に、アルゴリズムは、相当にひどい指導用概算から、およそ５−１０イタレーションで収束する。より定量的データは以下に記される。
【０１０６】
本方法は８０個の前もって見たことがない顔画像セットについて試験された。図４は試験に用いられる３つの例画像、および、顔の位置および形状に関するハンド・アノテーション(hand-annotation)に基づく、「真の」モデルの再構成を示している。
【０１０７】
図５はＡＡＭ調査をこれら画像に適用した結果を示している。左手の画像は、顔の位置に関する最初の仮説をかぶせたオリジナルである。一般に、用いられる始動用仮説はここに示されているものよりはよい。だが、確率論的ジェネレータにより生成される仮説は、ＡＡＭ調査の収束性を示すため、故意に離している。最初の概算と並んで、１回、５回、および、１２回のイタレーション後の調査結果をそれぞれ示している。
【０１０８】
ＡＡＭ調査の再構成誤差は８０の前もって見たことがない画像のセットで試験された。各画像に対する再構成誤差は形状規格化グレーレベル標本ベクトル、｜δｇ｜^２の大きさとして計算される。図６は再構成誤差対イタレーションのグラフである。図６には２つのプロットがある。実曲線は試験セットについての平均誤差対イタレーションのプロットである。破曲線は試験において遭遇した最悪のケースを示している。２つの水平線は、それぞれ平均および最悪のケースで、モデルを、正確な、手でラベルを付したポイント(hand-labelled points)を用いて適合させたときに測定された誤差を示している。誤差は、標本画素当りの平均グレーレベル差異として測定されており、ここでは画素は０ないし６３の値をとる。
【０１０９】
（リファレンス）
［１］
Ｈ．ボッシュ(Bosch)、Ｓ．Ｃ．ミッチェル(Mitchell)、Ｐ．Ｆ．ボウデヴィン(Boudewijn)、Ｐ．Ｆ．ライエベルト(Leieveldt)、Ｆ．ナイランド(Nijland)、Ｏ．カンプ(Kamp)、Ｍ．ソンカ(Sonka)、および、Ｊ．ライバー(Reiber)、
心エコー図の時系列における心内膜の輪郭検出のための動的見え−運動モデル(Active appearance-motion models for endocardial contour detection in time sequences of echocardiograms)
ＳＰＩＥ医療用画像(In SPIE Medical Imaging)、２００１年、２月。
［２］
Ｔ．Ｆ．クーツ(Cootes)、Ｇ．Ｊ．エドワーズ(Edwards)、および、Ｃ．Ｊ．テイラー(Taylor)、
動的見えモデル(Active appearance models)、
Ｈ．ブルクハルト(Burkhardt)、Ｂ．ノイマン(Neumann)編、第５回計算機視覚欧州会議(In 5^thEuropean Conference in Computer Vision)、巻２、４８４−４９８頁、シュプリンガー(Springer)、ベルリン、１９９８年。
［３］
Ｔ．Ｆ．クーツ、Ａ．ヒル(Hill)、Ｃ．Ｊ．テイラー、および、Ｊ．ハスラム(Haslam)、
医療用画像における構造の位置特定のための動的形状モデルの利用(The use of active shape models for locating structures in medical images)、
イメージ・アンド・ビジョン・コンピューティング(Image and Vision Computing)、１２（６）、２７６−２８６頁、１９９４年、６月。
［４］
Ｔ．Ｆ．クーツ、Ｃ．Ｊ．テイラー、Ｄ．クーパー(Cooper)、および、Ｊ．グラハム(Graham)、
動的形状モデル−その教育と応用(Active shape models - their training and application)、
コンピュータ・ビジョン・アンド・イメージ・アンダスタンディング(Computer Vision and Image Understanding)、６１（１）、３８−５９頁、１９９５年、１月。
［５］
Ｄ．ホンド(Hond)、および、Ｌ．スパシェク(Spacek)、
顔処理の特徴的描写(Distinctive descriptions for face processing)、
第８回英国機械視覚会議(In 8^thBritish Machine Vision Conference)、巻１、３２０−３２９頁、コールチェスター(Colchester)、英国、１９９７年。
【図面の簡単な説明】
【０１１０】
【図１】本発明の第１の実施形態にて使用する重み付け関数を表すグラフである。

Claims

識別されるべき物体を含む画像に対し、前記画像における１組の位置のセットの各々について隣接する位置に対する強度変化の勾配が最大である方向を、前記勾配の大きさとともに、決定するステップ、
非線形関数を用いて前記勾配の大きさを修正し、位置の前記セットに対する前記修正された勾配、および、対応する方向が前記画像を表すベクトルを提供するステップ、ならびに、
前記ベクトルを、前もって生成されている、前記物体の識別を供与する統計的モデルと比較するステップ、を有する物体識別の方法。
前記非線形関数が前記勾配の前記大きさを固定的値域にマッピングする、ことを特徴とする請求項１に記載の物体識別の方法。
前記非線形関数の前記パラメータが、前記画像における所与の位置、または、領域に対し、前記位置、または、前記領域の特性に依存して設定される、ことを特徴とする請求項１または２に記載の物体識別の方法。
前記特性の１つが前記画像の、前記位置、または、前記領域のスケールである、ことを特徴とする請求項３に記載の物体識別の方法。
前記特性の１つが前記画像の前記位置、または、前記領域の方向である、ことを特徴とする請求項３または４に記載の物体識別の方法。
前記特性の１つが前記画像の前記位置、または、前記領域の統計量である、ことを特徴とする請求項３ないし５のいずれか１つに記載の物体識別の方法。
前記非線形関数が、前記勾配の大きさの和で割った前記勾配の大きさと前記勾配の大きさの期待値の平均もしくは中央値のモジュラスである、ことを特徴とする請求項１ないし６のいずれか１つに記載の物体識別の方法。
前記非線形関数が、前記画像における有効ノイズによる勾配の大きさに関する累積確率分布を表している単調関数である、ことを特徴とする請求項１ないし７のいずれか１つに記載の物体識別の方法。
ノイズの分散により表される、前記有効ノイズを、前記画像、または、前記画像の領域にわたる前記勾配の分布より得る、ことを特徴とする請求項８に記載の物体識別の方法。
ノイズの分散により表される、前記有効ノイズを、前記画像に対して総括的に予め計算する、ことを特徴とする請求項８に記載の物体識別の方法。
前記非線形関数が前記勾配の大きさを規格化する作用を有する、ことを特徴とする請求項１ないし１０のいずれか１つに記載の物体識別の方法。
前記勾配の前記方向を、２πを法として表す、ことを特徴とする請求項１ないし１１のいずれか１つに記載の物体識別の方法。
前記勾配の前記方向を、πを法として表す、ことを特徴とする請求項１ないし１１のいずれか１つに記載の物体識別の方法。
前記勾配の方向および大きさを決定する前に、所定の物体の前記位置および大きさを推定する、ことを特徴とする請求項１ないし１３のいずれか１つに記載の物体識別の方法。
前記方法が、物体のクラスの識別を供する、ことを特徴とする請求項１ないし１４のいずれか１つに記載の物体識別の方法。
前記方法が、物体のクラスに含まれる特定の物体の認識を供する、請求項１ないし１５のいずれか１つに記載の物体識別の方法。
前記物体のクラスが顔である、請求項１ないし１６のいずれか１つに記載の物体識別の方法。
予め生成される見えモデルが動的形状モデルである、ことを特徴とする請求項１ないし１７のいずれか１つに記載の物体識別の方法。
前記動的形状モデルがプロファイルモデルを使用する、ことを特徴とする請求項１８に記載の物体識別の方法。
前記プロファイルモデルが１次元モデルである、ことを特徴とする請求項１９に記載の物体識別の方法。
前もって生成される見えモデルが複合見えモデルである、ことを特徴とする請求項１ないし１７のいずれか１つに記載の物体識別の方法。
前もって生成される見えモデルが動的見えモデルである、ことを特徴とする請求項１ないし１７のいずれか１つに記載の物体識別の方法。
所定の物体の画像を表しているデータのセットを有する見えモデルであって、
前記モデルは、前記画像における１組の位置のセットの各々について、隣接する位置に対する強度変化の勾配が最大である方向を、前記勾配の大きさとともに、決定すること、
非線形関数を用いて前記勾配を修正すること、ならびに、
その結果生じる、修正された勾配および対応する方向のセットと、他の画像に対して決定されている修正された勾配および対応する方向のセットを統合し、データセットを形成することにより構築される、見えモデル。