JP2006268850A

JP2006268850A - ブースティングを使用して画像ベースの回帰を実行する方法

Info

Publication number: JP2006268850A
Application number: JP2006075038A
Authority: JP
Inventors: Kevin Zhou Shaohua; ケヴィンツォウシャオフア; Bogdan Georgescu; ゲオルゲシュボグダン; Zhou Xiang; ツォウシャン; Comaniciu Dorin; コマニチドリン
Original assignee: Siemens Corporate Research Inc
Current assignee: Siemens Corporate Research Inc
Priority date: 2005-03-17
Filing date: 2006-03-17
Publication date: 2006-10-05
Also published as: US20070071313A1; DE102006012499A1; US7804999B2

Abstract

【課題】画像に関連しているエンティティを推測する方法を提供する。
【解決手段】ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する。ここでは画像毎に関連したエンティティがわかっている複数の画像に対して回帰関数を学習する。さらに学習したこの回帰関数を使用して、画像に関連し未知であるエンティティを予測する。
【選択図】図１

Description

関連する発明の相互参照
本発明は、２００５年３月１７日に提出された米国暫定特許第６０／６６２，８７７号に優先権を主張するものであり、ここにその全体を組み込むものである。

発明の分野
本発明は、視覚化についての課題を解決する方法に関し、より具体的には、ブースティングを使用して画像ベースの回帰を実行し、画像に関連しているエンティティを推測することに関する。

発明の背景
画像ベースの回帰（ＩＢＲ Image Based Regression）は、視覚化処理において登場する難題である。ＩＢＲの問題はつぎのように定義される。すなわち、画像ｘが与えられた場合にこの画像ｘに関連しているエンティティｙ(ｘ)を推測したいと定義されるのである。ｙ(ｘ)の意味は、アプリケーションが異なれば大きく変化する。例えば、これは、この画像を特徴付ける属性（feature）（例えば、人間の年齢の推定）、この画像に関連しているパラメタ（例えば、腫瘍の位置および非等方性の広がり（anisotropic spread））、または別の有意な量（例えば心内膜壁の位置）などになり得るのである。

公知の１視覚化処理法では、サポートベクトル回帰（support vector regression）を使用して形状変形ベクトル（shape deformation vector）を推測している。別の視覚化処理法は、関連ベクトル回帰（relevance vector regression）を使用して、シルエットから３次元（３Ｄ）の人間のポーズを推測している。しかしながらこれらの方法のいずれにおいてもリグレッサ（regressor）への入力は画像そのものではなく、むしろ前処理されたエンティティ、例えばランドマーク位置および形状コンテキスト記述子（shape context descriptor）である。

回帰問題を一般的に取り扱うため、これまでに数多くの機械学習アプローチが提案されている。殊にデータドリブンアなプローチは広く普及している。このようなアプローチの例に含まれるのは、ノンパラメトリックカーネル回帰（ＮＰＲ nonparametric kernel regression）、線形法（linear method）およびこれらの非線形カーネルの変形形態、すなわちカーネルリッジ回帰（ＫＲＲ kernel ridge regression）およびサポートベクトル回帰（ＳＶＲ support vector regression）などである。しかしながら難題が多いことに起因して、これらの手法は、視覚化の課題に直接適用するのには困難であるか、または不十分であることが多い。１つの難題は、次元の大害（curse of dimensionarity）と称されている。入力画像（すなわちイメージデータ）は、高次元である。理想的にはサンプル空間を良好に表すため、所要の画像サンプルの数は、入力空間の濃度（cardinality）の指数とすべきである。しかしながら実用上はトレーニングサンプルの数は、入力空間の濃度と比較して極端に少ないことが多い。慎重に扱わなければ、オーバーフィッティングが発生しがちである。

別の難題は、画像に表れる外観が変化することである。第１に、前景にある関心対象のオブジェクトの外観に影響を及ぼすファクタが数多く存在する。オブジェクト間の本質的な違いを別にして、外来性のファクタに含まれるのは、カメラシステム、イメージングの幾何学構成、ライティング条件、メークアップなどである。第２に、上記の変化は、同様に外観が変化するバックグラントが存在することによっても発生する。第３の変化は、位置合わせに起因して発生する。回帰法は、位置合わせエラーを許容するか、または位置合わせパラメタを回帰推測（regress out）して、効率的に動作するようにしなければならない。

出力値が複数であることも難題である。それは出力変数も同様に高次元だからである。ほとんどの回帰アプローチ、例えばＳＶＲは、単一出力の回帰問題を極めてロバストに扱うことができる。これらを複数の出力構成に拡張することは、ＳＶＲの場合のほど自明ではない。複数出力の問題を安直にデカップリングして、分離された複数の単一の出力タスクにすると、出力変数の異なる次元間の統計的な依存性が無視されてしまう。

記憶および計算も考慮すべき問題である。ノンパラメトリックカーネル回帰（ＮＰＲ）、カーネルリッジ回帰（ＫＲＲ）およびサポートベクトル回帰（ＳＶＲ）などの回帰法はデータドリブンである。このようなデータドリブンのアプローチには主に２つの欠点がある。すなわち記憶および計算である。第１のこれらの手法では、大量のトレーニングデータを記憶しなければならない。ＮＰＲおよびＫＲＲではすべてのトレーニングデータが記憶される。ＳＶＲではサポートベクトルが記憶される。トレーニングデータは、高次元の画像であるため、これらのトレーニング画像を記憶するためには大量の記憶スペースが必要になり得る。第２にデータドリブン回帰関数の評価は遅い。それは入力画像と、記憶されたトレーニング画像との比較には時間がかかるからである。

一般的に回帰によって見つけられるのはつぎの最小化問題の解である。すなわち、

ε_{ｐ（ｘ，ｙ）}は、生成分布（generating distribution）ｐ(ｘ,ｙ)における期待値であり、関数Ｌ(Ｏ, Ｏ)は、リグレッサ出力ｇ(ｘ)と真の出力ｙ(ｘ)との偏差にペナルティを課す損失関数である。

実用的には上記の期待値を計算することは不可能である。それは分布ｐ(ｘ,ｙ)は未知だからである。トレーニング例の集合

が与えられた場合、コスト関数ε_{ｐ（ｘ，ｙ）}Ｌ(ｙ(ｘ),ｇ(ｘ))は、トレーニングエラー

として近似される。

サンプルの数Ｎが無限に大きい場合、上記の近似は、大数の法則によって精確である。残念なことに殊に画像データおよび高次元の出力パラメタを扱う場合、実用上のＮの値は決して十分に大きいとはいえないのである。一層重大な問題は、オーバフィッティングである。トレーニング例の数が限られる場合、トレーニングエラーがゼロになる関数ｇ(ｘ)を構成することは容易である。オーバフィッティングを抑制するため、付加的な正則化制約がしばしば使用される。これにより、組み合わせ式のコスト関数が得られる（スケーリングファクタＮ^−１は無視する）。

ここでλ＞０は、正則化の度合いを制御する正規化係数であり、Ｒ(ｇ)は正則化項である。正則化により、出力関数にある程度の滑らかさが課されるか、または出力についての前もっての信頼性が反映されることが多い。

ＮＰＲはｋＮＮ（k-nearest neighbor）回帰を滑らかにしたものである。ｋＮＮリグレッサは、Ｌ^２における最適推定、条件付きの平均を近似する。ＮＰＲはつぎの形になる。すなわち、

であり、ここでｈ_σ(Ｏ,ｘ_ｎ)は、カーネル関数である。最も広く使用されるカーネル関数はＲＢＦカーネル

である。

ＲＢＦカーネルは、コンパクトでない台を有する。コンパクトな台を有する他のカーネル関数、例えばエパネチニコフ（Epanechnikov）カーネルも使用可能である。一般に画像ベースの回帰のシナリオに立ち向かう場合、ＮＰＲは、滑らかであっても、データがオーバフィットしがちである。すなわち小さなバイアスおよび大きなバリアンスになるである。

ＫＰＲによって仮定されるのは、複数出力の回帰関数が線形の形

をとることであり、ここでｋ(ｘ:ｘ_ｎ)は、再生カーネル関数（reproducing kernel function）であり、α_ｎはこのカーネル関数に重み付けを行うｑ×１ベクトルである。再生カーネル関数に対する選択肢には含まれるのは、ＲＢＦカーネル、多項式カーネルなどである。トレーニングデータから得られる複数出力ＫＲＲの解は、
ｇ(ｘ) ＝Ｙ(Ｋ＋λＩ)^−１κ(ｘ) （６）
であり、ここでＹ_ｑ×Ｎ＝ [ｙ(ｘ_１),ｙ(ｘ_２),…,ｙ(ｘ_Ｎ)]は、トレーニング出力行列、Ｋ_Ｎ×Ｎ＝ [ｋ(ｘ_ｉ;ｘ_ｊ)]は、トレーニングデータに対するグラム行列であり、またκ(ｘ)_Ｎ×１＝ [ｋ(ｘ;ｘ_１), ｋ(ｘ;ｘ_２),…, ｋ(ｘ;ｘ_Ｎ)]^Ｔである。

一般に、線形のカーネルが使用される場合、ＫＲＲはデータにアンダーフィットしがちである。すなわち、大きなバイアスと小さなバリアンスになる。それは単純な一次形式を使用するからである。非線形のカーネル関数を使用することによって、性能が高められることが多い。ＫＲＲにおける計算上の１つの難点は、Ｎ×Ｎ行列κ＋λＩの逆行列を求めることである。

ＳＶＲはロバストな回帰法である。その現在の定式化は、単一の出力データに対して、すなわちｑ＝１に対して有効である。ＳＶＲによってつぎのコスト関数

が最小化され、ここで｜Ｏ｜_εは、ε不感応関数であり、

であり、ただしｋ(ｘ;ｘ_ｎ)は再生カーネル関数、ｗ_ｎはその重み付けであり、ｗ＝[ｗ_１,ｗ_２,…,ｗ_ｎ]^Ｔである。２次プログラミングプロシージャ（quadratic programming procedure）を介して見つけることのできるいくつかの係数ｗ_ｎは、ゼロ値であるため、ゼロでない重み付けに関連しているサンプルｘ_ｎはサポートベクトルと称される。

ＳＶＲにより、バイアスとバリアンスとの間の良好なバランスのトレードオフが得られるため、極めてロバストである。残念ながら複数出力の回帰問題にＳＶＲを直接適用することは困難である。ブースティングを使用して学習される複数出力構成を目標とすることの可能なリグレッサが必要である。

発明の要約
本発明は、ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する方法に関する。ここでは画像毎に関連したエンティティが既知である複数の画像に対して回帰関数を学習する。学習したこの回帰関数を使用して、画像に関連しこの画像において未知であるエンティティを予想する。

本発明の有利な実施形態を添付の図面に基づき、以下に詳しく説明する。ここでは類似の参照符号は類似の要素を示す。

詳細な説明
本発明は、ブースティングを使用して画像ベースの回帰を実行し、画像に関連したエンティティを推測する方法に関する。図１は、本発明を実施するシステムのブロック図を示している。カメラ１０２は画像を捕捉するために使用され、ここではこれらの画像に対して画像ベースの回帰が適用される。この画像ベースの回帰の目的に依存して、多数の相異なるタイプの画像を得ることができる。図２にはいくつかの画像の例が示されており、これらの画像に対して、画像ベースの回帰足タスクを実行することができる。例えば、この画像は、年齢推測を行う人間の顔２０２とすることができる。別の例ではこの画像は、肺腫瘍２０４とすることができ、この肺腫瘍において腫瘍の位置および非等方性の広がりが決定される。別の例に含まれるのは、人間の心臓の超音波画像２０６または心エコー図であり、これらの画像に対して左心室の心内膜壁を自動的に描画することができる。

上記の画像はプロセッサ１０４に伝送され、このプロセッサにより、以下にさらに詳しく説明する画像ベースの回帰タスクが実行される。画像ベースの回帰タスクを実行してしまえば、結果は、出力装置１０６を介して伝達することができる。出力装置１０６により、画像ベースの回帰によって実行されたタスクの結果が供給される。出力装置１０６には、処理した画像を見るためのディスプレイが含まれている。このディスプレイにより、カメラ１０２によって撮影された画像の像も、画像ベースの回帰タスクから得られた所望の情報も共に供給される。これらの画像はデータベース１０８に記憶することができる。

本発明によって扱われるのは、複数の画像およびそれに関連するエンティティが与えられた場合に回帰関数をどのように学習するかである。図３に示したように回帰関数により、画像入力および出力エンティティからなる和空間において非線形の多様体がトレースされる。観測されるのは上記の多様体のうちのわずかなサンプルだけである。すなわち、画像ｘ_１−ｘ_ｎおよび出力ｙ_１−ｙ_ｎである。上記の回帰関数はデータベースから推測される。学習タスクは、コスト関数Ｊ(ｇ)を最小化するタスクとして定式化され、ここでこのコスト関数は、（ｉ）データベースにおけるデータに対するリグレッサｇ(ｘ)の予測精度と、（ii）オーバフィッティングを回避するための特定の滑らかさの条件とを反映するために構成される。このようなコスト関数の１例は式（２）に示されている。

上記の学習タスクへの取り組みは、図４に示したブースティングを介して行われる。ブースティングとは、コスト関数Ｊ(ｇ)を徐々に最小化する繰り返し処理のことである。言い換えると、リグレッサｇ(ｘ)の予測精度が増大（ブースト）されるのである。繰り返しのインデックスをｔで表すとすると、Ｊ(ｇ_ｔ)は、ｔについての単調減少関数である。これは、リグレッサｇ_ｔ(ｘ)に１つまたは複数の項ａ_ｔｈ_ｔ(ｘ)を加えることによって得られる。すなわちｇ_ｔ(ｘ) ＝ｇ_ｔ−１(ｘ)＋ａ_ｔｈ_ｔ(ｘ)であり、ここでａ_ｔは実係数であり、ｈ_ｔ(ｘ)は弱関数（weak function）である。ブースティングより、選択された弱関数の集合が強関数（strong function）に結合される。ブースティングの最終的な出力は、回帰関数ｇ(ｘ) ＝ａ_１ｈ_１(ｘ)＋ａ_２ｈ_２(ｘ)＋…＋ａ_Ｔｈ_Ｔ(ｘ)であり、これは図５に示したように照会画像ｘ_ｑに対する出力ｇ(ｘ_ｑ)を予想するために使用される。

本発明により、極めて冗長なHaarライクな属性の集合を介して画像が表される。ここでこのHaarライクな属性は極めて高速に評価可能である。各弱関数は、回帰出力が１次元である場合には１つ属性に関連しているか、または回帰出力が多次元の場合には次元毎に１つ属性である複数の属性に関連している。すべての弱関数を含む集合は辞書集合Ｈと称される。したがってブースティングの各繰り返しにより、辞書集合から弱関数、または同等に関連する属性が選択されてコスト関数が最大限に低減される。ブースティングを行った後、トレーニングデータを保持する必要はない。すなわち、トレーニングデータの知識は完全に複数の弱関数およびそれらの係数によって吸収されるのである。テスト中、トレーニングデータの記憶装置は不要であり、回帰関数はほとんど時間を消費することなく評価される。ここでは単純な決定木の切り株（decision stump）が弱関数として使用される。それはこれらが外見の変化に対してロバストだからである。

ブースティングを使用して画像ベースの回帰を行う方法の説明において、焦点となるのはＬ^２損失関数である。一般的な取り扱いを可能にし、相異なるデータ次元をスケーリングする作業を扱うため、つぎの正規化エラーコストを使用する。すなわち、
Ｌ(ｙ(ｘ)，ｇ(ｘ)) ＝ [ｙ(ｘ)−ｇ(ｘ)]^ＴＡ[ｙ(ｘ)−ｇ(ｘ)] （８）
＝ ‖ｙ(ｘ)−ｇ(ｘ)‖^２ _Ａ
を使用し、ここでＡ_ｑ×ｑは、正定値でなればならない正規化行列であり、ｑは出力変数の次元である。

正則化の形態はさまざまである。ここではデータドリブンの正則化項‖μ−ｇ(ｘ)‖^２ _Ｂが使用され、ただしＢ_ｑ×ｑは、正定値でなればならない正規化行列である。この正則化項は、部分空間解釈（subspace interpretation）を有しており、ここでμは平均であり、Ｂ^−１は分散行列である。

つぎに以下のコスト関数を最小化しなければならない。

ここでｒ(ｘ) ＝ｙ(ｘ)−ｇ(ｘ)は近似誤差、ｓ(ｘ) ＝ μ−ｇ(ｘ)は偏差（deviation error）、行列Ｒ_ｑ×ＮおよびＳ_ｑ×Ｎはそれぞれつぎのように定められる。すなわち、
Ｒ＝ [ｒ(ｘ_１),ｒ(ｘ_２),…,ｒ(ｘ_Ｎ)]，Ｓ＝ [ｓ(ｘ_１), ｓ(ｘ_２),…, ｓ(ｘ_Ｎ)] （１０）
である。

上記のコスト関数が与えられたとすると、繰り返しｔにおけるコスト関数Ｊ(ｇ_ｔ)とＪ(ｇ_ｔ−１)とはつぎのような関係になること確かめることは容易である。すなわち

であり、ここでＨ＝ [ｈ_ｔ(ｘ_１), ｈ_ｔ (ｘ_２),…, ｈ_ｔ (ｘ_Ｎ)]である。同様に繰り返しｔに対して値ε(ｈ_ｔ)を最大にする最良の関数ｈ_ｔ(ｘ)が選択される。弱関数が見つかった後、それに関連する係数α_ｔ(ｈ_ｔ)は相応に

と計算される。

本発明のブースティング方法の要約は図６に示されている。最初に繰り返しのインデックスｔをゼロに初期化する（ステップ６０２）。これに必然的に伴うのは、固定のパラメタ値、すなわちμ（平均ベクトル）、ＡおよびＢ（正規化行列）、λ（正則化係数）、およびη（収縮ファクタ）を設定することである。つぎに停止判定条件に関連する値、すなわちＴ_ｍａｘ（繰り返しの最大数）、Ｊ_ｍｉｎ（最小コスト関数）、ε_ｍｉｎおよびα_ｍｉｎである。つぎにｔ＝０，ｇ_０(ｘ)＝０，ｒ_０(ｘ)＝ｙ(ｘ)およびｓ_０(ｘ)＝μのように初期値が設定される。

つぎにｔ＝１，…，Ｔ_ｍａｘに対する繰り返しが決定される。まず

を見つける（ステップ６０４）。新しい関数

を形成する（ステップ６０６）。つぎに近似誤差ｒ_ｔ(ｘ) ＝ｙ(ｘ)−ｇ_ｔ(ｘ)，偏差ｓ_ｔ(ｘ) ＝ μ−ｇ_ｔ(ｘ)およびコスト関数Ｊ(ｇ_ｔ)を評価する（ステップ６０８）。つぎに収束をチェックする。例えば、Ｊ(ｇ_ｔ)＜Ｊ_ｍｉｎ，α_ｔ＜α_ｍｉｎ，ε_ｔ＜ε_ｍｉｎまたはこれらの組み合わせが成り立つか否かが決定される（ステップ６１０）。

上で述べたように辞書集合Ｈは、Haarライクな属性を介して画像と関連している。直感的にはこの関数の集合は十分に大きく、線形結合を介して極めて複雑な出力関数ｙ(ｘ)を描画できるはずである。１次元の決定木の切り株は、辞書集合Ｈを構成するために使用されるプリミティブである。決定木の切り株を使用することの利点として挙げられるのは、（ｉ）外見の変化に対してロバストである；（ii）局所的な属性である；（iii）いわゆるインテグラールイメージ（integral image）を使用して高速に評価されることであり、また最も重要であるのは、（iv）以下さらに詳しく説明するインクリメント式属性選択法（incremental feature selection scheme）が適用可能なことである。

１次元（１Ｄ）の決定木の切り株ｈ(ｘ)は、Haarフィルタ属性ｆ(ｘ)、決定閾値θおよび＋１かまたは−１かのいずれの２値をとるパリティ方向インジケータ（parity direction indicator）ｐに関連している。

各Haarフィルタｆ(ｘ)は固有の属性、すなわち、タイプ、ウィンドウ位置、ウィンドウサイズを有する。中程度のサイズの画像が与えられる場合、フィルタ属性を変化させることによって極めて多くのHaarフィルタを形成することができる。Haarフィルタの数をＭで示す。閾値θを調整することによって（例えばＫ個の等間隔のレベル）、Haarフィルタ毎にさらにＫ個の決定木の切り株を生成することができる。合計すると２ＫＭ個の１Ｄの決定木の切り株が存在することになる。数２ＫＭは極めて大きくなり、トレーニング中にこれらの決定木の切り株のすべてを記憶することさえも困難なり得ることに注意されたい。

出力の次元がｑであるとする。弱関数は、ｑ個の１Ｄの決定木の切り株を単純にスタックするｑ次元（ｑ−Ｄ）の決定木の切り株ｈ(ｘ)として構成される。

ｈ(ｘ)_ｑ×１＝ [ｈ_１(ｘ)，ｈ_２(ｘ)，…，ｈ_ｎ(ｘ)]^Ｔ（１２）
上に示した各ｈ_ｊ(ｘ)は異なるパラメタに関連づけられ得ることに注意されたい。したがって(２ＫＭ)^ｑ個の関数を含む十分に大きな弱関数の集合を構成することができるのである。

ブースティングは属性選択オラクル（feature selection oracle）として動作する。ブースティングの一回り毎に、コスト関数を最大減に低減することの可能な属性が選択される。図６に概略を示したようにこの方法ではステップ６０４に貪欲属性選択法（greedy feature selection scheme）が含まれており、この評価にはコストがかかりすぎることがある。それはここでは、膨大な計算タスクである(２ＭＮＫ)^ｑ個の決定木の切り株を評価しなければならないからである。

本発明の１実施形態によれば、ｑ−Ｄの回帰問題は、ｑ個の独立した１Ｄ回帰問題に分解することができ、独立式属性選択法（independent feature selection scheme）になる。この結果、ブースティングの一回り毎にわずかに２ｑＭＮＫの決定木の切り株だけが評価される。しかしながらこの分解は、出力次元間の発生し得る統計的な依存性を無視している。

本発明の別の実施形態によれば、ｑ−Ｄの回帰問題を互いに依存するｑ個の１Ｄ回帰問題に分解することにより、インクリメント式属性選択法が使用される。このインクリメント式属性選択法は図７に概略的に示されている。初期化は、｛１，２，…，ｑ｝のランダムな入れ替えを形成することによって行われ、これによって｛<1>，<2>，…，<q>｝が得られる（ステップ７０２）。つぎに出力変数ｉ＝１，２，…，ｑの次元にわたる繰り返しを実行する。まずＭ′個のHaarフィルタが辞書集合からサンプリングされる（ステップ７０４）。弱関数を少なくした集合Ｈ′を形成する（ステップ７０６）。つぎにＮ′個のデータ点をトレーニング集合からサンプリングする（ステップ７０８）。フィルタインデックスｍ＝１，２，…，Ｍ′および閾値レベルインデックスｋ＝１，２，…，Ｋにわたってループして、ｈ_＜ｉ＞＝ arg max_ｈ∈Ｈ′ε^＜ｉ＞(h)を見つける（ステップ７１０）。新たなベクトルｈ^＜ｉ＞＝ [ｈ^{＜ｉ−１＞Ｔ}，ｈ_＜ｉ＞]^Ｔを形成する（ステップ７１２）。つぎに再利用可能な量tr{Ｄ^＜ｉ＞Ｈ^＜ｉ＞Ｔ}およびtr{‖Ｈ^＜ｉ＞‖^２ _Ｃ<i>}が計算される。

上記の方式はインクリメント式のベクトル
ｈ_ｉ(ｘ)_ｉ×ｉ＝ [ｈ_１(ｘ),ｈ_２(ｘ),…,ｈ_ｉ(ｘ)]^Ｔ＝ [ｈ^ｉ−１(ｘ)^Ｔ,ｈ_ｉ(ｘ)]^Ｔ（１３）
とインクリメント式行列Ｃ^ｉ，Ｄ^ｉおよびＨ^ｉ

を使用する。

インクリメント式係数は、

と定義される。

したがって１Ｄの決定木の切り株ｈ_ｉ(ｘ)は一度に学習される。

計算の点から見れば、上記のインクリメント式選択法では２ｑＭＮＫ個の決定木の切り株を評価しなければならない。これは独立式選択法と同じである。独立式の方式と比較すると、インクリメンタル方式ではオーバヘッドとなる計算が必要である。それは行列に関する量、tr{Ｄ^ｉＨ^ｉＴ}および‖Ｈ^ｉ‖^２ _Ｃiなどを計算しなければならないからである。これに対して独立式属性選択法においてこれに相当するのはベクトルの内積である。しかしながら再利用可能な計算を組み込むことができる。例えば、

となることを示すことができる。

ロバストネスを改善してバイアスを取り除くため、出力変数の次元の順序をランダムに入れ替える。前述した計算上の効率を改善するための別のアプローチに含まれるのは、(ｉ)辞書集合をランダムにサンプリングする。すなわち、Ｍをより小さなＭ′に置き換えること；および(ii)トレーニングデータ集合をランダムにサンプリングする。すなわち、Ｎをより小さなＮ′に置き換えることである。

上で示したように本発明の方法は、さまざまな多くの問題を解決するために使用可能である。図５は本発明の方法を一般的に概略的に示している。照会画像は受け取られ、回帰関数がこの照会した画像に適用されてエンティティの存在が決定され、これが出力として供給される。

例えば、本発明の画像ベースの回帰法は年齢推定に使用可能である。１例を以下に説明する。顔の分析および認識には年齢モデリング（Aging modeling）が重要である。この１側面をなすのは、人間の年齢を推定することである。ここでは顔画像のデータベースが使用される。５つのランダムな区分が形成され、ここでは画像の約８０％がトレーニングに使用され、残りの２０％がテストに使用される。年齢の範囲は０〜６９才である。多数のランドマーク点を位置合わせして、つぎにゼロ平均ユニット変量（zero-mean-unit-variance）演算を行うことによって正規化を行う。

入力ｘは６０×６０の画像であり、出力ｙは彼／彼女の正規化された年齢である。実際の年齢はｙ＝log(ｙ＋１)に変換されて負のリグレッサ出力が回避される。顔画像には、照明、ポーズ、表情、あごひげ、くちひげ、眼鏡などを含めた考えられ得るすべての変化形態が必要である。図８には一人の人間の異なる年齢の画像およびさまざまな外見上の変化を伴った画像が示されている。画像の１集合８０２は正規化の前を示しており、また別の集合８０４は正規化された画像を示している。絶対的な年齢差は、誤差測定値（error measurement）として計算される。この例では５００個の弱関数が評価され、正則化係数はλ＝０．１であり、収縮ファクタはη＝０．５である。

本発明の別の応用により、コンピュータトモグラフィ（ＣＴ）画像において肺腫瘍が検出される。入力ＣＴ画像が与えられたとすると、腫瘍の中心位置（ｔ，ｓ）および非等方性の広がりが回帰推定される。２Ｄの非等方性の広がりは、ａ_１１＞０，ａ_２２＞０である２×２の正定値行列[ａ_１１，ａ_１２；ａ_２１，ａ_２２]によって表される。ＣＴ画像のデータベースが使用され、ここでこれらの画像はランダムな４つの区分に分割される。画像の約８０％がトレーニング画像として指定され、残りの２０％がテスト画像と指定される。中心位置はほぼ画像中心の６ピクセル内にあるが、非等方性の広がりのスケールおよび方向はかなり自由である。

入力ｘは３３×３３の画像であり、白色化の後、出力ｙは５−Ｄの変数、すなわちｑ＝５である。ａ_１１およびａ_２２の負の出力値を回避するため、log(ａ_１１)およびlog(ａ_２２)を使用する。すなわち白色化フィルタを[ｔ，ｓ，log(ａ_１１)，ａ_１２，log(ａ_２２)]^Ｔに適用するのである。図９にはグランドトゥルース（ground truth）および回帰結果を有するＣＴ画像のいくつかの例が示されている。これらの画像には、典型的な外見上の変化が含まれている。すなわち、クラッタ付きの背景、イメージングノイズ、自由な形状、偽信号などが含まれているのである。

各出力パラメタは２Ｄ画像の楕円６０２において定められるため、エリア非オーバラッピング比（area non-overlapping ratio）ｒを使用して性能を測定する。２つの楕円ＡおよびＢが与えられた場合、ｒはｒ＝１−[area(Ａ∩Ｂ)／area(Ａ∪Ｂ)]と定義される。比ｒが小さければ小さいほど、２つの楕円より一層良好に重なり合う。

心筋壁の位置決定および追跡は、心エコー検査画像（すなわち心臓の超音波２Ｄ画像）の処理において困難な作業である。殊に左心室の精確な位置決定は、臨床上の心臓の解析に重要である。この例において焦点となるのは、左心室の心筋壁を心尖の４室の像（apical four chamber view）において位置決定することである。ここでは超音波画像のデータベースが使用され、これらの画像はランダムな５つの区分に分割される。約８０％の画像がトレーニング画像に指定され、残りの２０％がテスト画像に指定される。

入力画像ｘは８０×７４の画像であり、出力ｙは７−Ｄの変数である。すなわちｑ＝７である。心内膜壁は、１７個の制御点によってパラメトライズされる半固定の開いた輪郭であり、３４個の変数を有する。白色化の後、最上位の７個の主要なコンポーネントだけ保持される。音波検査者のイメージング経験、患者の解剖学的な構造および組織の特徴に依存して、心尖、隔壁、外側壁、乳頭筋、環（annulus）などを含めた左心室の外見は患者毎に大きく異なる。また超音波イメージングでは信号の欠落が頻繁に発生する。その結果、心内膜の境界は大きく変形する。図１０には外見上の変化を説明するサンプル超音波画像が示されている。平均ピクセルエラーが制御点に対して測定される。

上ではブースティングを使用して画像ベースの回帰を実行し、画像に関連づけられたエンティティを推測する方法に対していくつかの実施形態を説明したが、上に示したことを考え合わせれば当業者はさまざま変更を行い、また変形形態を構成し得ることに注意されたい。したがって上で示した本発明の特定の実施形態においてさまざまな変更を行うことができるが、これらの変更も添付の特許請求の範囲に定められた本発明の範囲および精神内にあることを理解されたい。特許法によって要求される詳細さで本発明を説明したが、請求を行いまた特許法によって保護されること所望されるものは添付の特許請求の範囲に記載されている。

本発明にしたがって画像ベースの回帰を行うシステムのブロック図である。本発明にしたがって画像ベースの回帰タスクが実行される画像の例を示す図である。本発明にしたがって回帰関数を学習する方法を示す図である。本発明によるインクリメント式属性選択法の概略を示す図である。本発明による照会画像に対する最終的な出力の概略を示す図である。本発明にしたがい、ブースティングを使用して画像ベースの回帰を実行する方法の概略を示すフローチャートである。本発明によるインクリメント式属性選択の概略を示すフローチャートである。一人の人間の異なる年齢における、正規化の前および後のサンプル画像である。グランドトゥルースおよび回帰結果を有するＣＴ画像である。グランドトゥルースおよび回帰結果を有する心エコー検査画像である。

Claims

ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する方法において、
該方法は、
画像毎に関連したエンティティが既知である複数の画像に対して回帰関数を学習するステップと、
学習した当該の回帰関数を使用して、画像に関連しかつ当該画像にて未知であるエンティティを予想するステップとを有することを特徴とする、
ブースティングを使用して画像ベースの回帰を実行する方法。
前記のブースティングを使用して回帰関数を学習するステップはさらに
前記回帰関数を関数の加法で近似するステップと、
当該の関数の加法の各繰り返しにてさらに１つの属性を前記回帰関数に付加するステップと、
当該の繰り返し形の回帰関数により、付加された属性がエンティティの予測精度を改善するか否かを決定するステップと、
前記の繰り返し形の回帰関数の予測精度を最大に改善する前記の付加された属性を選択するステップとを有する、
請求項１に記載の方法。
前記の付加された属性を選択するステップはさらに
利用可能なデータベースに対して回帰関数の予測精度を示すコスト関数を最小化する属性を過剰完全な集合から選択するステップを有しており、ここで当該コスト関数はＬ^２損失関数および正則化項を含んでおり、さらに
出力次元にわたって貪欲式、またはインクリメンタル式、または独立式に属性選択を適用するステップを有する、
請求項２に記載の方法。
各属性をHaarフィルタとして表す、
請求項２に記載の方法。
前記オブジェクトは多次元である、
請求項３に記載の方法。
のように決定木の切り株を使用して属性を選択する、
請求項５に記載の方法。
前記の学習した回帰関数を使用するステップはさらに
関連したエンティティが未知であるオブジェクトの画像を受け取るステップと、
リグレッサにおいて属性の関数を評価するステップと、
すべての属性の関数を結合して、前記オブジェクトに関連したエンティティを推測するステップとを有する、
請求項１に記載の方法。
前記オブジェクトは、人間の顔であり、推測されるエンティティは年齢である、
請求項７に記載の方法。
前記オブジェクトは解剖学的構造であり、エンティティは腫瘍の位置および非等方性の広がりである、
請求項７に記載の方法。
前記オブジェクトは人間の心臓であり、エンティティは心内膜壁の位置である、
請求項７に記載の方法。