JP2006268850A - ブースティングを使用して画像ベースの回帰を実行する方法 - Google Patents
ブースティングを使用して画像ベースの回帰を実行する方法 Download PDFInfo
- Publication number
- JP2006268850A JP2006268850A JP2006075038A JP2006075038A JP2006268850A JP 2006268850 A JP2006268850 A JP 2006268850A JP 2006075038 A JP2006075038 A JP 2006075038A JP 2006075038 A JP2006075038 A JP 2006075038A JP 2006268850 A JP2006268850 A JP 2006268850A
- Authority
- JP
- Japan
- Prior art keywords
- image
- regression
- function
- attribute
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
【課題】画像に関連しているエンティティを推測する方法を提供する。
【解決手段】ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する。ここでは画像毎に関連したエンティティがわかっている複数の画像に対して回帰関数を学習する。さらに学習したこの回帰関数を使用して、画像に関連し未知であるエンティティを予測する。
【選択図】図1
【解決手段】ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する。ここでは画像毎に関連したエンティティがわかっている複数の画像に対して回帰関数を学習する。さらに学習したこの回帰関数を使用して、画像に関連し未知であるエンティティを予測する。
【選択図】図1
Description
関連する発明の相互参照
本発明は、2005年3月17日に提出された米国暫定特許第60/662,877号に優先権を主張するものであり、ここにその全体を組み込むものである。
本発明は、2005年3月17日に提出された米国暫定特許第60/662,877号に優先権を主張するものであり、ここにその全体を組み込むものである。
発明の分野
本発明は、視覚化についての課題を解決する方法に関し、より具体的には、ブースティングを使用して画像ベースの回帰を実行し、画像に関連しているエンティティを推測することに関する。
本発明は、視覚化についての課題を解決する方法に関し、より具体的には、ブースティングを使用して画像ベースの回帰を実行し、画像に関連しているエンティティを推測することに関する。
発明の背景
画像ベースの回帰(IBR Image Based Regression)は、視覚化処理において登場する難題である。IBRの問題はつぎのように定義される。すなわち、画像xが与えられた場合にこの画像xに関連しているエンティティy(x)を推測したいと定義されるのである。y(x)の意味は、アプリケーションが異なれば大きく変化する。例えば、これは、この画像を特徴付ける属性(feature)(例えば、人間の年齢の推定)、この画像に関連しているパラメタ(例えば、腫瘍の位置および非等方性の広がり(anisotropic spread))、または別の有意な量(例えば心内膜壁の位置)などになり得るのである。
画像ベースの回帰(IBR Image Based Regression)は、視覚化処理において登場する難題である。IBRの問題はつぎのように定義される。すなわち、画像xが与えられた場合にこの画像xに関連しているエンティティy(x)を推測したいと定義されるのである。y(x)の意味は、アプリケーションが異なれば大きく変化する。例えば、これは、この画像を特徴付ける属性(feature)(例えば、人間の年齢の推定)、この画像に関連しているパラメタ(例えば、腫瘍の位置および非等方性の広がり(anisotropic spread))、または別の有意な量(例えば心内膜壁の位置)などになり得るのである。
公知の1視覚化処理法では、サポートベクトル回帰(support vector regression)を使用して形状変形ベクトル(shape deformation vector)を推測している。別の視覚化処理法は、関連ベクトル回帰(relevance vector regression)を使用して、シルエットから3次元(3D)の人間のポーズを推測している。しかしながらこれらの方法のいずれにおいてもリグレッサ(regressor)への入力は画像そのものではなく、むしろ前処理されたエンティティ、例えばランドマーク位置および形状コンテキスト記述子(shape context descriptor)である。
回帰問題を一般的に取り扱うため、これまでに数多くの機械学習アプローチが提案されている。殊にデータドリブンアなプローチは広く普及している。このようなアプローチの例に含まれるのは、ノンパラメトリックカーネル回帰(NPR nonparametric kernel regression)、線形法(linear method)およびこれらの非線形カーネルの変形形態、すなわちカーネルリッジ回帰(KRR kernel ridge regression)およびサポートベクトル回帰(SVR support vector regression)などである。しかしながら難題が多いことに起因して、これらの手法は、視覚化の課題に直接適用するのには困難であるか、または不十分であることが多い。1つの難題は、次元の大害(curse of dimensionarity)と称されている。入力画像(すなわちイメージデータ)は、高次元である。理想的にはサンプル空間を良好に表すため、所要の画像サンプルの数は、入力空間の濃度(cardinality)の指数とすべきである。しかしながら実用上はトレーニングサンプルの数は、入力空間の濃度と比較して極端に少ないことが多い。慎重に扱わなければ、オーバーフィッティングが発生しがちである。
別の難題は、画像に表れる外観が変化することである。第1に、前景にある関心対象のオブジェクトの外観に影響を及ぼすファクタが数多く存在する。オブジェクト間の本質的な違いを別にして、外来性のファクタに含まれるのは、カメラシステム、イメージングの幾何学構成、ライティング条件、メークアップなどである。第2に、上記の変化は、同様に外観が変化するバックグラントが存在することによっても発生する。第3の変化は、位置合わせに起因して発生する。回帰法は、位置合わせエラーを許容するか、または位置合わせパラメタを回帰推測(regress out)して、効率的に動作するようにしなければならない。
出力値が複数であることも難題である。それは出力変数も同様に高次元だからである。ほとんどの回帰アプローチ、例えばSVRは、単一出力の回帰問題を極めてロバストに扱うことができる。これらを複数の出力構成に拡張することは、SVRの場合のほど自明ではない。複数出力の問題を安直にデカップリングして、分離された複数の単一の出力タスクにすると、出力変数の異なる次元間の統計的な依存性が無視されてしまう。
記憶および計算も考慮すべき問題である。ノンパラメトリックカーネル回帰(NPR)、カーネルリッジ回帰(KRR)およびサポートベクトル回帰(SVR)などの回帰法はデータドリブンである。このようなデータドリブンのアプローチには主に2つの欠点がある。すなわち記憶および計算である。第1のこれらの手法では、大量のトレーニングデータを記憶しなければならない。NPRおよびKRRではすべてのトレーニングデータが記憶される。SVRではサポートベクトルが記憶される。トレーニングデータは、高次元の画像であるため、これらのトレーニング画像を記憶するためには大量の記憶スペースが必要になり得る。第2にデータドリブン回帰関数の評価は遅い。それは入力画像と、記憶されたトレーニング画像との比較には時間がかかるからである。
一般的に回帰によって見つけられるのはつぎの最小化問題の解である。すなわち、
実用的には上記の期待値を計算することは不可能である。それは分布p(x,y)は未知だからである。トレーニング例の集合
サンプルの数Nが無限に大きい場合、上記の近似は、大数の法則によって精確である。残念なことに殊に画像データおよび高次元の出力パラメタを扱う場合、実用上のNの値は決して十分に大きいとはいえないのである。一層重大な問題は、オーバフィッティングである。トレーニング例の数が限られる場合、トレーニングエラーがゼロになる関数g(x)を構成することは容易である。オーバフィッティングを抑制するため、付加的な正則化制約がしばしば使用される。これにより、組み合わせ式のコスト関数が得られる(スケーリングファクタN−1は無視する)。
NPRはkNN(k-nearest neighbor)回帰を滑らかにしたものである。kNNリグレッサは、L2における最適推定、条件付きの平均を近似する。NPRはつぎの形になる。すなわち、
RBFカーネルは、コンパクトでない台を有する。コンパクトな台を有する他のカーネル関数、例えばエパネチニコフ(Epanechnikov)カーネルも使用可能である。一般に画像ベースの回帰のシナリオに立ち向かう場合、NPRは、滑らかであっても、データがオーバフィットしがちである。すなわち小さなバイアスおよび大きなバリアンスになるである。
KPRによって仮定されるのは、複数出力の回帰関数が線形の形
g(x) = Y(K+λI)−1κ(x) (6)
であり、ここでYq×N = [y(x1),y(x2),…,y(xN)]は、トレーニング出力行列、KN×N = [k(xi;xj)]は、トレーニングデータに対するグラム行列であり、またκ(x)N×1 = [k(x;x1), k(x;x2),…, k(x;xN)]Tである。
一般に、線形のカーネルが使用される場合、KRRはデータにアンダーフィットしがちである。すなわち、大きなバイアスと小さなバリアンスになる。それは単純な一次形式を使用するからである。非線形のカーネル関数を使用することによって、性能が高められることが多い。KRRにおける計算上の1つの難点は、N×N行列κ+λIの逆行列を求めることである。
SVRはロバストな回帰法である。その現在の定式化は、単一の出力データに対して、すなわちq=1に対して有効である。SVRによってつぎのコスト関数
SVRにより、バイアスとバリアンスとの間の良好なバランスのトレードオフが得られるため、極めてロバストである。残念ながら複数出力の回帰問題にSVRを直接適用することは困難である。ブースティングを使用して学習される複数出力構成を目標とすることの可能なリグレッサが必要である。
発明の要約
本発明は、ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する方法に関する。ここでは画像毎に関連したエンティティが既知である複数の画像に対して回帰関数を学習する。学習したこの回帰関数を使用して、画像に関連しこの画像において未知であるエンティティを予想する。
本発明は、ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する方法に関する。ここでは画像毎に関連したエンティティが既知である複数の画像に対して回帰関数を学習する。学習したこの回帰関数を使用して、画像に関連しこの画像において未知であるエンティティを予想する。
本発明の有利な実施形態を添付の図面に基づき、以下に詳しく説明する。ここでは類似の参照符号は類似の要素を示す。
詳細な説明
本発明は、ブースティングを使用して画像ベースの回帰を実行し、画像に関連したエンティティを推測する方法に関する。図1は、本発明を実施するシステムのブロック図を示している。カメラ102は画像を捕捉するために使用され、ここではこれらの画像に対して画像ベースの回帰が適用される。この画像ベースの回帰の目的に依存して、多数の相異なるタイプの画像を得ることができる。図2にはいくつかの画像の例が示されており、これらの画像に対して、画像ベースの回帰足タスクを実行することができる。例えば、この画像は、年齢推測を行う人間の顔202とすることができる。別の例ではこの画像は、肺腫瘍204とすることができ、この肺腫瘍において腫瘍の位置および非等方性の広がりが決定される。別の例に含まれるのは、人間の心臓の超音波画像206または心エコー図であり、これらの画像に対して左心室の心内膜壁を自動的に描画することができる。
本発明は、ブースティングを使用して画像ベースの回帰を実行し、画像に関連したエンティティを推測する方法に関する。図1は、本発明を実施するシステムのブロック図を示している。カメラ102は画像を捕捉するために使用され、ここではこれらの画像に対して画像ベースの回帰が適用される。この画像ベースの回帰の目的に依存して、多数の相異なるタイプの画像を得ることができる。図2にはいくつかの画像の例が示されており、これらの画像に対して、画像ベースの回帰足タスクを実行することができる。例えば、この画像は、年齢推測を行う人間の顔202とすることができる。別の例ではこの画像は、肺腫瘍204とすることができ、この肺腫瘍において腫瘍の位置および非等方性の広がりが決定される。別の例に含まれるのは、人間の心臓の超音波画像206または心エコー図であり、これらの画像に対して左心室の心内膜壁を自動的に描画することができる。
上記の画像はプロセッサ104に伝送され、このプロセッサにより、以下にさらに詳しく説明する画像ベースの回帰タスクが実行される。画像ベースの回帰タスクを実行してしまえば、結果は、出力装置106を介して伝達することができる。出力装置106により、画像ベースの回帰によって実行されたタスクの結果が供給される。出力装置106には、処理した画像を見るためのディスプレイが含まれている。このディスプレイにより、カメラ102によって撮影された画像の像も、画像ベースの回帰タスクから得られた所望の情報も共に供給される。これらの画像はデータベース108に記憶することができる。
本発明によって扱われるのは、複数の画像およびそれに関連するエンティティが与えられた場合に回帰関数をどのように学習するかである。図3に示したように回帰関数により、画像入力および出力エンティティからなる和空間において非線形の多様体がトレースされる。観測されるのは上記の多様体のうちのわずかなサンプルだけである。すなわち、画像x1−xnおよび出力y1−ynである。上記の回帰関数はデータベースから推測される。学習タスクは、コスト関数J(g)を最小化するタスクとして定式化され、ここでこのコスト関数は、(i)データベースにおけるデータに対するリグレッサg(x)の予測精度と、(ii)オーバフィッティングを回避するための特定の滑らかさの条件とを反映するために構成される。このようなコスト関数の1例は式(2)に示されている。
上記の学習タスクへの取り組みは、図4に示したブースティングを介して行われる。ブースティングとは、コスト関数J(g)を徐々に最小化する繰り返し処理のことである。言い換えると、リグレッサg(x)の予測精度が増大(ブースト)されるのである。繰り返しのインデックスをtで表すとすると、J(gt)は、tについての単調減少関数である。これは、リグレッサgt(x)に1つまたは複数の項atht(x)を加えることによって得られる。すなわちgt(x) = gt−1(x)+atht(x)であり、ここでatは実係数であり、ht(x)は弱関数(weak function)である。ブースティングより、選択された弱関数の集合が強関数(strong function)に結合される。ブースティングの最終的な出力は、回帰関数g(x) = a1h1(x)+a2h2(x)+…+aThT(x)であり、これは図5に示したように照会画像xqに対する出力g(xq)を予想するために使用される。
本発明により、極めて冗長なHaarライクな属性の集合を介して画像が表される。ここでこのHaarライクな属性は極めて高速に評価可能である。各弱関数は、回帰出力が1次元である場合には1つ属性に関連しているか、または回帰出力が多次元の場合には次元毎に1つ属性である複数の属性に関連している。すべての弱関数を含む集合は辞書集合Hと称される。したがってブースティングの各繰り返しにより、辞書集合から弱関数、または同等に関連する属性が選択されてコスト関数が最大限に低減される。ブースティングを行った後、トレーニングデータを保持する必要はない。すなわち、トレーニングデータの知識は完全に複数の弱関数およびそれらの係数によって吸収されるのである。テスト中、トレーニングデータの記憶装置は不要であり、回帰関数はほとんど時間を消費することなく評価される。ここでは単純な決定木の切り株(decision stump)が弱関数として使用される。それはこれらが外見の変化に対してロバストだからである。
ブースティングを使用して画像ベースの回帰を行う方法の説明において、焦点となるのはL2損失関数である。一般的な取り扱いを可能にし、相異なるデータ次元をスケーリングする作業を扱うため、つぎの正規化エラーコストを使用する。すなわち、
L(y(x),g(x)) = [y(x)−g(x)]TA[y(x)−g(x)] (8)
= ‖y(x)−g(x)‖2 A
を使用し、ここでAq×qは、正定値でなればならない正規化行列であり、qは出力変数の次元である。
L(y(x),g(x)) = [y(x)−g(x)]TA[y(x)−g(x)] (8)
= ‖y(x)−g(x)‖2 A
を使用し、ここでAq×qは、正定値でなればならない正規化行列であり、qは出力変数の次元である。
正則化の形態はさまざまである。ここではデータドリブンの正則化項‖μ−g(x)‖2 Bが使用され、ただしBq×qは、正定値でなればならない正規化行列である。この正則化項は、部分空間解釈(subspace interpretation)を有しており、ここでμは平均であり、B−1は分散行列である。
つぎに以下のコスト関数を最小化しなければならない。
R = [r(x1),r(x2),…,r(xN)],S = [s(x1), s(x2),…, s(xN)] (10)
である。
上記のコスト関数が与えられたとすると、繰り返しtにおけるコスト関数J(gt)とJ(gt−1)とはつぎのような関係になること確かめることは容易である。すなわち
本発明のブースティング方法の要約は図6に示されている。最初に繰り返しのインデックスtをゼロに初期化する(ステップ602)。これに必然的に伴うのは、固定のパラメタ値、すなわちμ(平均ベクトル)、AおよびB(正規化行列)、λ(正則化係数)、およびη(収縮ファクタ)を設定することである。つぎに停止判定条件に関連する値、すなわちTmax(繰り返しの最大数)、Jmin(最小コスト関数)、εminおよびαminである。つぎにt=0,g0(x)=0,r0(x)=y(x)およびs0(x)=μのように初期値が設定される。
つぎにt=1,…,Tmaxに対する繰り返しが決定される。まず
上で述べたように辞書集合Hは、Haarライクな属性を介して画像と関連している。直感的にはこの関数の集合は十分に大きく、線形結合を介して極めて複雑な出力関数y(x)を描画できるはずである。1次元の決定木の切り株は、辞書集合Hを構成するために使用されるプリミティブである。決定木の切り株を使用することの利点として挙げられるのは、(i)外見の変化に対してロバストである;(ii)局所的な属性である;(iii)いわゆるインテグラールイメージ(integral image)を使用して高速に評価されることであり、また最も重要であるのは、(iv)以下さらに詳しく説明するインクリメント式属性選択法(incremental feature selection scheme)が適用可能なことである。
1次元(1D)の決定木の切り株h(x)は、Haarフィルタ属性f(x)、決定閾値θおよび+1かまたは−1かのいずれの2値をとるパリティ方向インジケータ(parity direction indicator)pに関連している。
各Haarフィルタf(x)は固有の属性、すなわち、タイプ、ウィンドウ位置、ウィンドウサイズを有する。中程度のサイズの画像が与えられる場合、フィルタ属性を変化させることによって極めて多くのHaarフィルタを形成することができる。Haarフィルタの数をMで示す。閾値θを調整することによって(例えばK個の等間隔のレベル)、Haarフィルタ毎にさらにK個の決定木の切り株を生成することができる。合計すると2KM個の1Dの決定木の切り株が存在することになる。数2KMは極めて大きくなり、トレーニング中にこれらの決定木の切り株のすべてを記憶することさえも困難なり得ることに注意されたい。
出力の次元がqであるとする。弱関数は、q個の1Dの決定木の切り株を単純にスタックするq次元(q−D)の決定木の切り株h(x)として構成される。
h(x)q×1 = [h1(x),h2(x),…,hn(x)]T (12)
上に示した各hj(x)は異なるパラメタに関連づけられ得ることに注意されたい。したがって(2KM)q個の関数を含む十分に大きな弱関数の集合を構成することができるのである。
上に示した各hj(x)は異なるパラメタに関連づけられ得ることに注意されたい。したがって(2KM)q個の関数を含む十分に大きな弱関数の集合を構成することができるのである。
ブースティングは属性選択オラクル(feature selection oracle)として動作する。ブースティングの一回り毎に、コスト関数を最大減に低減することの可能な属性が選択される。図6に概略を示したようにこの方法ではステップ604に貪欲属性選択法(greedy feature selection scheme)が含まれており、この評価にはコストがかかりすぎることがある。それはここでは、膨大な計算タスクである(2MNK)q個の決定木の切り株を評価しなければならないからである。
本発明の1実施形態によれば、q−Dの回帰問題は、q個の独立した1D回帰問題に分解することができ、独立式属性選択法(independent feature selection scheme)になる。この結果、ブースティングの一回り毎にわずかに2qMNKの決定木の切り株だけが評価される。しかしながらこの分解は、出力次元間の発生し得る統計的な依存性を無視している。
本発明の別の実施形態によれば、q−Dの回帰問題を互いに依存するq個の1D回帰問題に分解することにより、インクリメント式属性選択法が使用される。このインクリメント式属性選択法は図7に概略的に示されている。初期化は、{1,2,…,q}のランダムな入れ替えを形成することによって行われ、これによって{<1>,<2>,…,<q>}が得られる(ステップ702)。つぎに出力変数i=1,2,…,qの次元にわたる繰り返しを実行する。まずM′個のHaarフィルタが辞書集合からサンプリングされる(ステップ704)。弱関数を少なくした集合H′を形成する(ステップ706)。つぎにN′個のデータ点をトレーニング集合からサンプリングする(ステップ708)。フィルタインデックスm=1,2,…,M′および閾値レベルインデックスk=1,2,…,Kにわたってループして、h<i> = arg maxh∈H′ε<i>(h)を見つける(ステップ710)。新たなベクトルh<i> = [h<i−1>T,h<i>]Tを形成する(ステップ712)。つぎに再利用可能な量tr{D<i>H<i>T}およびtr{‖H<i>‖2 C<i>}が計算される。
上記の方式はインクリメント式のベクトル
hi(x)i×i = [h1(x),h2(x),…,hi(x)]T = [hi−1(x)T,hi(x)]T (13)
とインクリメント式行列Ci,DiおよびHi
hi(x)i×i = [h1(x),h2(x),…,hi(x)]T = [hi−1(x)T,hi(x)]T (13)
とインクリメント式行列Ci,DiおよびHi
インクリメント式係数は、
したがって1Dの決定木の切り株hi(x)は一度に学習される。
計算の点から見れば、上記のインクリメント式選択法では2qMNK個の決定木の切り株を評価しなければならない。これは独立式選択法と同じである。独立式の方式と比較すると、インクリメンタル方式ではオーバヘッドとなる計算が必要である。それは行列に関する量、tr{DiHiT}および‖Hi‖2 Ciなどを計算しなければならないからである。これに対して独立式属性選択法においてこれに相当するのはベクトルの内積である。しかしながら再利用可能な計算を組み込むことができる。例えば、
ロバストネスを改善してバイアスを取り除くため、出力変数の次元の順序をランダムに入れ替える。前述した計算上の効率を改善するための別のアプローチに含まれるのは、(i)辞書集合をランダムにサンプリングする。すなわち、Mをより小さなM′に置き換えること;および(ii)トレーニングデータ集合をランダムにサンプリングする。すなわち、Nをより小さなN′に置き換えることである。
上で示したように本発明の方法は、さまざまな多くの問題を解決するために使用可能である。図5は本発明の方法を一般的に概略的に示している。照会画像は受け取られ、回帰関数がこの照会した画像に適用されてエンティティの存在が決定され、これが出力として供給される。
例えば、本発明の画像ベースの回帰法は年齢推定に使用可能である。1例を以下に説明する。顔の分析および認識には年齢モデリング(Aging modeling)が重要である。この1側面をなすのは、人間の年齢を推定することである。ここでは顔画像のデータベースが使用される。5つのランダムな区分が形成され、ここでは画像の約80%がトレーニングに使用され、残りの20%がテストに使用される。年齢の範囲は0〜69才である。多数のランドマーク点を位置合わせして、つぎにゼロ平均ユニット変量(zero-mean-unit-variance)演算を行うことによって正規化を行う。
入力xは60×60の画像であり、出力yは彼/彼女の正規化された年齢である。実際の年齢はy=log(y+1)に変換されて負のリグレッサ出力が回避される。顔画像には、照明、ポーズ、表情、あごひげ、くちひげ、眼鏡などを含めた考えられ得るすべての変化形態が必要である。図8には一人の人間の異なる年齢の画像およびさまざまな外見上の変化を伴った画像が示されている。画像の1集合802は正規化の前を示しており、また別の集合804は正規化された画像を示している。絶対的な年齢差は、誤差測定値(error measurement)として計算される。この例では500個の弱関数が評価され、正則化係数はλ=0.1であり、収縮ファクタはη=0.5である。
本発明の別の応用により、コンピュータトモグラフィ(CT)画像において肺腫瘍が検出される。入力CT画像が与えられたとすると、腫瘍の中心位置(t,s)および非等方性の広がりが回帰推定される。2Dの非等方性の広がりは、a11>0,a22>0である2×2の正定値行列[a11,a12;a21,a22]によって表される。CT画像のデータベースが使用され、ここでこれらの画像はランダムな4つの区分に分割される。画像の約80%がトレーニング画像として指定され、残りの20%がテスト画像と指定される。中心位置はほぼ画像中心の6ピクセル内にあるが、非等方性の広がりのスケールおよび方向はかなり自由である。
入力xは33×33の画像であり、白色化の後、出力yは5−Dの変数、すなわちq=5である。a11およびa22の負の出力値を回避するため、log(a11)およびlog(a22)を使用する。すなわち白色化フィルタを[t,s,log(a11),a12,log(a22)]Tに適用するのである。図9にはグランドトゥルース(ground truth)および回帰結果を有するCT画像のいくつかの例が示されている。これらの画像には、典型的な外見上の変化が含まれている。すなわち、クラッタ付きの背景、イメージングノイズ、自由な形状、偽信号などが含まれているのである。
各出力パラメタは2D画像の楕円602において定められるため、エリア非オーバラッピング比(area non-overlapping ratio)rを使用して性能を測定する。2つの楕円AおよびBが与えられた場合、rはr=1−[area(A∩B)/area(A∪B)]と定義される。比rが小さければ小さいほど、2つの楕円より一層良好に重なり合う。
心筋壁の位置決定および追跡は、心エコー検査画像(すなわち心臓の超音波2D画像)の処理において困難な作業である。殊に左心室の精確な位置決定は、臨床上の心臓の解析に重要である。この例において焦点となるのは、左心室の心筋壁を心尖の4室の像(apical four chamber view)において位置決定することである。ここでは超音波画像のデータベースが使用され、これらの画像はランダムな5つの区分に分割される。約80%の画像がトレーニング画像に指定され、残りの20%がテスト画像に指定される。
入力画像xは80×74の画像であり、出力yは7−Dの変数である。すなわちq=7である。心内膜壁は、17個の制御点によってパラメトライズされる半固定の開いた輪郭であり、34個の変数を有する。白色化の後、最上位の7個の主要なコンポーネントだけ保持される。音波検査者のイメージング経験、患者の解剖学的な構造および組織の特徴に依存して、心尖、隔壁、外側壁、乳頭筋、環(annulus)などを含めた左心室の外見は患者毎に大きく異なる。また超音波イメージングでは信号の欠落が頻繁に発生する。その結果、心内膜の境界は大きく変形する。図10には外見上の変化を説明するサンプル超音波画像が示されている。平均ピクセルエラーが制御点に対して測定される。
上ではブースティングを使用して画像ベースの回帰を実行し、画像に関連づけられたエンティティを推測する方法に対していくつかの実施形態を説明したが、上に示したことを考え合わせれば当業者はさまざま変更を行い、また変形形態を構成し得ることに注意されたい。したがって上で示した本発明の特定の実施形態においてさまざまな変更を行うことができるが、これらの変更も添付の特許請求の範囲に定められた本発明の範囲および精神内にあることを理解されたい。特許法によって要求される詳細さで本発明を説明したが、請求を行いまた特許法によって保護されること所望されるものは添付の特許請求の範囲に記載されている。
Claims (10)
- ブースティングを使用して画像ベースの回帰を実行し、オブジェクトの画像に関連したエンティティを推測する方法において、
該方法は、
画像毎に関連したエンティティが既知である複数の画像に対して回帰関数を学習するステップと、
学習した当該の回帰関数を使用して、画像に関連しかつ当該画像にて未知であるエンティティを予想するステップとを有することを特徴とする、
ブースティングを使用して画像ベースの回帰を実行する方法。 - 前記のブースティングを使用して回帰関数を学習するステップはさらに
前記回帰関数を関数の加法で近似するステップと、
当該の関数の加法の各繰り返しにてさらに1つの属性を前記回帰関数に付加するステップと、
当該の繰り返し形の回帰関数により、付加された属性がエンティティの予測精度を改善するか否かを決定するステップと、
前記の繰り返し形の回帰関数の予測精度を最大に改善する前記の付加された属性を選択するステップとを有する、
請求項1に記載の方法。 - 前記の付加された属性を選択するステップはさらに
利用可能なデータベースに対して回帰関数の予測精度を示すコスト関数を最小化する属性を過剰完全な集合から選択するステップを有しており、ここで当該コスト関数はL2損失関数および正則化項を含んでおり、さらに
出力次元にわたって貪欲式、またはインクリメンタル式、または独立式に属性選択を適用するステップを有する、
請求項2に記載の方法。 - 各属性をHaarフィルタとして表す、
請求項2に記載の方法。 - 前記オブジェクトは多次元である、
請求項3に記載の方法。 -
請求項5に記載の方法。 - 前記の学習した回帰関数を使用するステップはさらに
関連したエンティティが未知であるオブジェクトの画像を受け取るステップと、
リグレッサにおいて属性の関数を評価するステップと、
すべての属性の関数を結合して、前記オブジェクトに関連したエンティティを推測するステップとを有する、
請求項1に記載の方法。 - 前記オブジェクトは、人間の顔であり、推測されるエンティティは年齢である、
請求項7に記載の方法。 - 前記オブジェクトは解剖学的構造であり、エンティティは腫瘍の位置および非等方性の広がりである、
請求項7に記載の方法。 - 前記オブジェクトは人間の心臓であり、エンティティは心内膜壁の位置である、
請求項7に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US66287705P | 2005-03-17 | 2005-03-17 | |
US11/372,782 US7804999B2 (en) | 2005-03-17 | 2006-03-10 | Method for performing image based regression using boosting |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006268850A true JP2006268850A (ja) | 2006-10-05 |
Family
ID=37891869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006075038A Pending JP2006268850A (ja) | 2005-03-17 | 2006-03-17 | ブースティングを使用して画像ベースの回帰を実行する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7804999B2 (ja) |
JP (1) | JP2006268850A (ja) |
DE (1) | DE102006012499A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009230751A (ja) * | 2008-02-25 | 2009-10-08 | Omron Corp | 年令推定装置 |
JP2013196683A (ja) * | 2012-03-21 | 2013-09-30 | Nec (China) Co Ltd | 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664328B2 (en) * | 2005-06-24 | 2010-02-16 | Siemens Corporation | Joint classification and subtype discovery in tumor diagnosis by gene expression profiling |
US7783097B2 (en) * | 2006-04-17 | 2010-08-24 | Siemens Medical Solutions Usa, Inc. | System and method for detecting a three dimensional flexible tube in an object |
US7949173B2 (en) * | 2006-10-06 | 2011-05-24 | Siemens Corporation | Method and system for regression-based object detection in medical images |
US8117210B2 (en) * | 2006-10-06 | 2012-02-14 | Eastman Kodak Company | Sampling image records from a collection based on a change metric |
US7778446B2 (en) * | 2006-12-06 | 2010-08-17 | Honda Motor Co., Ltd | Fast human pose estimation using appearance and motion via multi-dimensional boosting regression |
US20080208836A1 (en) * | 2007-02-23 | 2008-08-28 | Yahoo! Inc. | Regression framework for learning ranking functions using relative preferences |
TWI393067B (zh) * | 2009-05-25 | 2013-04-11 | Inst Information Industry | 具有電源閘控功能之繪圖處理系統及電源閘控方法,及其電腦程式產品 |
US20110268365A1 (en) * | 2010-04-30 | 2011-11-03 | Acer Incorporated | 3d hand posture recognition system and vision based hand posture recognition method thereof |
US8837771B2 (en) | 2012-02-28 | 2014-09-16 | Siemens Aktiengesellschaft | Method and system for joint multi-organ segmentation in medical image data using local and global context |
US8660306B2 (en) * | 2012-03-20 | 2014-02-25 | Microsoft Corporation | Estimated pose correction |
CN107169454B (zh) * | 2017-05-16 | 2021-01-01 | 中国科学院深圳先进技术研究院 | 一种人脸图像年龄估算方法、装置及其终端设备 |
US11264135B2 (en) | 2017-11-10 | 2022-03-01 | Siemens Medical Solutions Usa, Inc. | Machine-aided workflow in ultrasound imaging |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5781650A (en) * | 1994-02-18 | 1998-07-14 | University Of Central Florida | Automatic feature detection and age classification of human faces in digital images |
US6674880B1 (en) * | 1999-11-24 | 2004-01-06 | Confirma, Inc. | Convolution filtering of similarity data for visual display of enhanced image |
US7158692B2 (en) * | 2001-10-15 | 2007-01-02 | Insightful Corporation | System and method for mining quantitive information from medical images |
US7174029B2 (en) * | 2001-11-02 | 2007-02-06 | Agostinelli John A | Method and apparatus for automatic selection and presentation of information |
US7024033B2 (en) * | 2001-12-08 | 2006-04-04 | Microsoft Corp. | Method for boosting the performance of machine-learning classifiers |
US7689033B2 (en) * | 2003-07-16 | 2010-03-30 | Microsoft Corporation | Robust multi-view face detection methods and apparatuses |
WO2005017807A2 (en) * | 2003-08-13 | 2005-02-24 | Iconix Pharmaceuticals, Inc. | Apparatus and method for classifying multi-dimensional biological data |
US7536044B2 (en) * | 2003-11-19 | 2009-05-19 | Siemens Medical Solutions Usa, Inc. | System and method for detecting and matching anatomical structures using appearance and shape |
US20050177040A1 (en) * | 2004-02-06 | 2005-08-11 | Glenn Fung | System and method for an iterative technique to determine fisher discriminant using heterogenous kernels |
-
2006
- 2006-03-10 US US11/372,782 patent/US7804999B2/en not_active Expired - Fee Related
- 2006-03-16 DE DE102006012499A patent/DE102006012499A1/de not_active Withdrawn
- 2006-03-17 JP JP2006075038A patent/JP2006268850A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009230751A (ja) * | 2008-02-25 | 2009-10-08 | Omron Corp | 年令推定装置 |
JP2013196683A (ja) * | 2012-03-21 | 2013-09-30 | Nec (China) Co Ltd | 姿勢分類器トレーニング方法、対象物分類器トレーニング方法、対象物検出方法、姿勢分類器トレーニング装置、対象物分類器トレーニング装置、及び対象物検出装置 |
Also Published As
Publication number | Publication date |
---|---|
US7804999B2 (en) | 2010-09-28 |
DE102006012499A1 (de) | 2006-11-23 |
US20070071313A1 (en) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006268850A (ja) | ブースティングを使用して画像ベースの回帰を実行する方法 | |
US11961233B2 (en) | Method and apparatus for training image segmentation model, computer device, and storage medium | |
JP7203954B2 (ja) | 顔姿勢推定/3次元顔再構築方法、装置、及び電子デバイス | |
EP1685536B1 (en) | System and method for detecting and matching anatomical structures using appearance and shape | |
Zhou et al. | Image based regression using boosting method | |
Scott et al. | Improving appearance model matching using local image structure | |
Carneiro et al. | Combining multiple dynamic models and deep learning architectures for tracking the left ventricle endocardium in ultrasound data | |
US7876934B2 (en) | Method of database-guided segmentation of anatomical structures having complex appearances | |
US7995820B2 (en) | System and method for detection of fetal anatomies from ultrasound images using a constrained probabilistic boosting tree | |
Zhou et al. | Shape regression machine | |
Zhou | Shape regression machine and efficient segmentation of left ventricle endocardium from 2D B-mode echocardiogram | |
US8396531B2 (en) | System and method for quasi-real-time ventricular measurements from M-mode echocardiogram | |
US20080317382A1 (en) | Adaptive Point-Based Elastic Image Registration | |
CN108830289B (zh) | 一种基于改进的模糊c均值聚类的图像聚类方法及装置 | |
US20210330285A1 (en) | Systems and methods for automated physiological parameter estimation from ultrasound image sequences | |
CN111260701A (zh) | 多模态视网膜眼底图像配准方法及装置 | |
EP2498222B1 (en) | Method and system for regression-based 4D mitral valve segmentation from 2D+T magnetic resonance imaging slices | |
Lu et al. | AutoMPR: Automatic detection of standard planes in 3D echocardiography | |
US11861846B2 (en) | Correcting segmentation of medical images using a statistical analysis of historic corrections | |
Zhou et al. | Discriminative learning for anatomical structure detection and segmentation | |
Hadj-Selem et al. | Iterative smoothing proximal gradient for regression with structured sparsity | |
Güvenç et al. | Generating Synthetic Images from Real MR Images Using Deep Learning Methods | |
Zhong | Federated unlearning for medical image analysis | |
Turkova et al. | Correlative features for the classification of textural images | |
CN115546156A (zh) | 一种甲状腺超声异常区域捕捉方法、系统及电子设备 |