JP2017527040A

JP2017527040A - 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体

Info

Publication number: JP2017527040A
Application number: JP2017512402A
Authority: JP
Inventors: カランランパル
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2017-09-14
Anticipated expiration: 2034-09-11
Also published as: WO2016038647A1; JP6296205B2; US10878582B2; US20170286801A1

Abstract

本発明の目的のひとつは、オブジェクトの一部にオクルージョンが発生している場合であっても、オブジェクトの特徴点を正確に追跡することができる画像処理装置を提供することである。本発明の一実施態様に係る画像処理装置は、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ手段と、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段とを備える。【選択図】図９

Description

本発明は、画像処理技術に関し、特に、特徴点を追跡する画像処理技術に関する。

動画におけるオブジェクトの追跡は、例えば監視において、多くの実用的な重要性を有する。追跡方法のひとつは、形状の回帰によって実現され、そこでは、形状は、特徴点によって規定される。識別学習アプローチは、追跡対象オブジェクトの形状および画像の特徴間の関係を学習するのに使用できる。ここで特徴は、局所的であってもよく、すなわち、特徴点周辺において抽出されてもよく、または、グローバルであってもよい、すなわち、例えば複数の特徴点を含む領域から抽出されてもよい。一般に、形状の予測は、各カスケードで、初期形状が最終予測に至ることを伴う形状の変化を予測する、カスケード方式で行われる。追跡のために、前フレームの予測が、現フレームの初期形状として用いられる。

オクルージョンの処理は、ロバスト追跡アルゴリズムに対する課題のひとつである。オクルージョンのために、追跡装置によって予測される形状は、追跡される物体と遮蔽している物体との間の境界へ向かってずれる。これは、遮蔽されていない部分においても同様に形状の歪みにつながる。数フレーム以上の間オクルージョンが持続すれば、追跡形状は完全に変形され、最終的に失われることになるかもしれない。そのため、再度処理を始めなければならない。

オクルージョンを扱うために、いくつかの方法では、事例を用いて類似形状または類似形状の部分を探索し、それらを整列に用いる（非特許文献１を参照）。非特許文献１では、事例により形状制約が与えられ、グラフマッチング問題を解くことによって位置合わせが行われる。

他の方法では、ロバスト推定法を用いて、ある閾値より下である部分応答を切り捨てる（非特許文献２を参照）。非特許文献２では、オクルージョンの特徴を外れ値であるとみなし、ロバストＭ推定法を用いて、外れ値に適宜重み付けすることによって、位置合わせ問題を解く。

別の種類の方法では、各層で部分位置とオクルージョン状態との両方を予測する訓練の際に、オクルージョンの注釈を用いる（非特許文献３を参照）。非特許文献３に開示される方法は、遮蔽された特徴点の知識を予め必要とする。

特許文献１（Ｙａｎｇｅｔａｌ．）は、オクルージョンを伴うオブジェクト追跡を、オブジェクト空間におけるセグメンテーション問題として開示している。色分布に基づく外観モデルが、前景と背景との間の解釈に使用される。特許文献１に開示される方法は、オブジェクトを剛性モデルによって表すことができる場合に、良好に機能する。

米国特許出願公開第２００９／０００２４８９号

F. Zhou, J. Brandt, and Z. Lin, Exemplar-based graph matching for robust facial landmark localization, ICCV, 2013 J. M. Saragih, S. Lucey, and J. F. Cohn, Deformable model fitting by regularized landmark mean-shift, IJCV, 91(2):200-215, 2011 X. P. Burgos-Artizzu, P. Perona, and P. Doll'ar, Robust face landmark estimation under occlusion, ICCV, 2013

非特許文献１では、事例により形状制約が与えられ、グラフマッチング問題を解くことによって位置合わせが行われる。非特許文献１により開示される方法では、オブジェクト形状における変化は、限定された数の事例を通して捉えることができると仮定される。これは常に成り立つわけではない、というのは、例えば顔などのオブジェクトは、形状、ポーズおよび例えば口、鼻、目等の形状の一部分において多くの変化を有しうるからである。さらに、どのような数の特徴点も遮蔽されうるし、遮蔽物体はどのような外観または形状も有しうる。そのため、そのそれぞれにおける変化を表すことは実行可能ではない。

非特許文献２では、オクルージョンの特徴は外れ値であるとみなされ、ロバストＭ推定法が、外れ値に適宜重み付けすることによって、位置合わせ問題を解くために用いられる。しかしながら、非特許文献２で開示される方法における定式化では、外れ値は、形状モデルと矛盾する特徴点であり、外れ値を形状モデルに整合させるが可能であっても、グランドトゥルースと矛盾する。これは、訓練画像と異なる試験画像がある場合に、形状モデルが、モデルと一致するが試験画像と一致しない推定を予測することを意味する。これらの場合に対してもまた、対処が必要である。

非特許文献３に開示される方法は、遮蔽された特徴点の知識を予め必要とする。そのため、特徴点位置およびオクルージョン情報に関する情報をもつデータベースが必要である。

特許文献１に開示される方法は、オブジェクトを剛性モデルで表現可能である場合に良好に機能する。顔などの非剛性オブジェクトについては、よりロバストなアルゴリズムが必要である。

上述の進歩にもかかわらず、オクルージョンは難しい問題のままである。

オブジェクトの特徴点の追跡中に、いくつかの特徴点のオクルージョンが起こりうる。このことは、遮蔽された特徴点が、実際の形状から離れて、例えばオクルージョンエッジに向かって漂うことにつながる。このことはまた、点の間の関係がオブジェクト形状に暗に符号化されていることから、遮蔽されていない特徴点の位置合わせの誤りにつながる。すべてのタイプの遮蔽オブジェクトについて、形状と特徴との関係を学習することはまた不可能である。そのため、追跡アルゴリズムは、遮蔽されている特徴点の特徴と遮蔽されていない特徴点の特徴とを区別するために十分にロバストでなければならない。また、既に位置合わせされた特徴点の動きを制限する必要がある。

この問題を解決しようとする既存のアプローチがあるが、それらもまた以下のいくつかの欠点を伴う。例えば顔などのオブジェクトは、形状、ポーズにおいて、そして例えば口、鼻、目等の形状の部分においても、多くの変化をなしうる。そのため、事例ベースのアプローチを用いて、そのそれぞれにおける変化を表現するは、実行可能ではない。また、いくつかの別のアプローチは、特徴点位置およびオクルージョン情報に関する情報をもつデータベースを必要とする。さらに、顔などの非剛性オブジェクトに対しては、特許文献１よりもロバストなアルゴリズムが必要である。またロバスト推定法は、外れ値が形状モデルとは矛盾しないがグランドトゥルースと矛盾する事例を扱わない。

本発明は、上記課題を解決することを意図した。上述の存在に加えて、この発明が解決することができる明白で明らかな他の欠点を、詳細な説明および図面で明らかにすることとする。

本発明の目的のひとつは、オブジェクトの一部にオクルージョンが発生している場合であっても、オブジェクトの特徴点を正確に追跡することができる画像処理装置を提供することである。

本発明の一実施態様に係る画像処理装置は、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ手段と、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段とを備える。

本発明の一実施態様に係る画像処理方法は、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出し、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出し、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出し、前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する。

本発明の一実施態様に係るコンピュータ読み取り可能な媒体は、コンピュータを、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を得る位置合わせ手段と、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、前記局所モデルにおいて、該遮蔽された部分として検出されている該サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段と、して動作させるプログラムを記憶する。上述のコンピュータ読み問い可能な記憶媒体に格納されているプログラムも、本発明の一実施態様を実現する。

本発明によれば、オブジェクトの一部にオクルージョンが発生している場合であっても、オブジェクトの特徴点を正確に追跡することが可能である。

図１は、本発明の第１の実施形態に係る画像処理装置１００の構成の例を示すブロック図である。図２は、訓練フェーズにおける、本発明の第１の実施形態に係る画像処理装置１００の動作の例を示すフローチャートである。図３は、訓練フェーズにおける、本発明の第１の実施形態に係る画像処理装置１００の動作の例を示すフローチャートである。図４Ａは、訓練画像のグランドトゥルース形状の例を示す図である。図４Ｂは、全ての訓練画像および試験画像に共通する初期形状（平均形状）の例を示す図である。図４Ｃは、得られた形状の例を示す図である。図５は、本発明の第１の実施形態に係る画像処理装置１００の推定処理を示すフローチャートである。図６は、本発明の第１の実施形態に係る画像処理装置１００の整列処理を示すフローチャートである。図７Ａは、部分的オクルージョンを処理しない位置合わせアプローチの実験結果の例を示す図である。図７Ｂは、第１の実施形態に係る実験結果の例を示す図である。図８Ａは、部分的オクルージョンを処理しない位置合わせアプローチの実験結果の例を示す図である。図８Ｂは、第１の実施形態に係る実験結果の例を示す図である。図９は、本発明の第２の実施形態に係る画像処理装置１００Ａの例を示すブロック図である。図１０は、本発明の実施形態に係る画像処理装置を実現することができるコンピュータ１０００のハードウェア構成の例を示すブロック図である。

上で論じた技術的課題を解決するために、全体的なアプローチについてここで概説する。多くのモデルが学習され、これらのモデルは、制約なしから高制約までの範囲にわたる制約が与えられる、形状の部分に基づいて互いに異なる。これは、ある特定のモデルに関して、ある部分または部分の組合せが、それらの動きを制約されるであろうことを意味する。これらの部分は、前のフレームとの特徴比較によって選択され、最も偏差の大きいものが選択されるであろう。制約の量はまた、特徴比較スコアに逆の依存がある。この特徴比較スコアは、同様の特徴に対してより高くなる。これらのモデルを用いて、オブジェクト形状が推定される。また、異なるモデルからの異なる部分は、最終的な推定形状を与えるように、一緒に結び付けることができる。

＜第１の実施形態＞
以下、本発明の第１の実施形態について詳細に説明する。

図１は、本発明の第１の実施形態に係る画像処理装置１００の構成の例を示すブロック図である。図１を参照すると、画像処理装置１００は、入力部１０１、オブジェクト検出部１０２、特徴抽出部１０３、学習部１０４、モデル記憶部１０５、位置合わせ部１０６、オクルージョン検出部１０７、推定部１０８、形状記憶部１０９、出力部１１０および訓練データセット記憶部１１１を含む。

入力部１０１は、追跡フェーズにおいて、一連のフレーム、すなわち、例えば、動画のフレームまたは静止画等の画像を受信する。入力部１０１は、例えば学習フェーズにおいてまたは学習フェーズ前に、一連のフレーム、すなわち、訓練フレームと、各フレームのグランドトゥルース形状とを受信してもよい。グランドトゥルース形状は、以下において、「グランドトゥルース」とも表記されることがある。入力部１０１は、訓練フレームおよびグランドトゥルース形状を、訓練データセット記憶部１１１に格納してもよい。以下の説明では、複数のフレームおよび複数のフレームにおけるフレームは、それぞれ、「複数の画像」および「画像」と表記されることがある。複数の訓練フレームおよび複数の訓練フレームにおける訓練フレームは、それぞれ、「複数の訓練画像」および「訓練画像」と表記されることがある。

オブジェクト検出部１０２は、フレーム内で、例えば、顔、または、いくつかの部分を含みうる他のオブジェクトの１つなどの、オブジェクトの範囲を検出する。以下の説明では、オブジェクト検出部１０２は、フレーム内の顔の範囲を検出する。

特徴抽出部１０３は、形状に基づいてフレーム内のあるフレームから特徴を抽出する。形状は、特徴点によって表される。グランドトゥルース形状の各々は、訓練フレームの各々における、オブジェクトの真の形状として決定された形状である。形状は、それぞれ１つまたは複数の特徴点である、サブ部分を含む。より具体的には、形状およびサブ部分は、それぞれ、特徴点の座標によって表される。特徴点の各々は、フレーム内の撮像されたオブジェクトの点と予め関連付けられている。本実施形態の、グランドトゥルース形状を含む形状は、フレーム内の特徴点の位置情報のデータ値である。そして、特徴点は、オブジェクトの同じ点と関連付けられる。形状の各々は、特徴点の座標によって表される。座標は、フレーム内に予め設定されている座標系において定められる。

学習部１０４が、形状、すなわち、グランドトゥルース形状を備える、１又は複数の、一連の訓練フレームによって、モデルを学習する。より詳細には、学習部１０４は、グランドトゥルース形状において訓練フレームから抽出された特徴、および、グランドトゥルース形状の間の差異によって、モデルを学習する。学習部１０４は、学習したモデルを、モデル記憶部１０５に格納する。学習部１０４は、訓練データセット記憶部１１１に格納されているグランドトゥルース形状から平均形状を算出し、平均形状を設定してもよい。平均形状は、予め算出されていてもよく、訓練データセット記憶部１１１に格納されていてもよい。

モデルの各々は、特徴と形状の動きとの関係を表す。形状の動きとは、例えば、形状に含まれる特徴点の各々の座標の差異を表すデータ値である。モデルの各々は、特徴を形状の動きに変換するために用いることができる。モデルによって特徴を形状の動きに変換することを、特徴に対してモデルを「適用する」と表記されることがある。例えば、特徴および形状がベクトルによって表されている場合、モデルは行列によって表されてもよい。モデルは、あるグローバルモデルおよび局所モデルを含む。グローバルモデルは、特徴と形状の動きとの関係を表す。局所モデルの各々は、特徴とサブ部分のうちのひとつの動きとの関係を表す。局所モデルの各々は、少なくともひとつのサブ部分の動きを制限する。すなわち、それらの局所モデル内のある局所モデルによって変換された動きでは、その局所モデルによって制限されたサブ部分の動きの大きさはゼロまたはほぼゼロである。

モデル記憶部１０５は、複数のモデルを記憶する。モデル記憶部１０５は、初期形状として平均形状を記憶していてもよい。

位置合わせ部１０６は、それらの複数のモデルに含まれるモデルを初期形状に適用することによって、推定形状を得る。推定形状は、特徴にモデルを適用することによって得られる形状である。初期形状は、予め定められた形状、すなわち、学習部１０４によって導出された、又は、予め与えられた、平均の形状であってもよい。平均の形状は、以下において、「平均形状」と称表記されることがある。前フレームから導出された推定形状がある場合、初期形状は、フレーム（すなわち、現在のフレーム）の前フレームから導出された推定形状であってもよい。本発明の本実施形態においては、現在のフレームを「現在の画像」と表記することがあり、前のフレームを「前フレーム」と表記することがある。

オクルージョン検出部１０７は、フレームの前フレームからの推定形状と、フレームから初期形状において抽出された特徴に対してグローバルモデルを適用することによってフレームから導出された推定形状と、を比較することにより、サブ部分において、遮蔽されたサブ部分を検出する。前フレームからの推定形状は、フレームの前フレームから導出される最終出力フレームであり、それは後述される。

推定部１０８は、遮蔽されているサブ部分として検出されるサブ部分の動きを制限する局所モデルを選択し、最終出力形状すなわち最終推定形状として、選択された局所モデルを適用することによって導出される推定形状を組み合わせる。言い換えると、推定部１０８は、選択された局所モデルを適用することで得られた推定形状を、最終出力形状として組み合わせることによって、最終出力形状を導出する。推定部１０８は、最終出力形状を形状記憶部１０９に格納する。上述したように、形状の各々に含まれる特徴点の各々は、フレームにおいて撮像されたオブジェクトの所定の位置に関連付けられている。従って、最終出力形状を得ることは、オブジェクトの特徴点を追跡することと同等である。

形状記憶部１０９は、形状記憶部１０９内において、最終出力形状を記憶する。

出力部１１０は、最終出力形状を出力する。出力部１１０は、フレームの、最終出力形状に含まれる特徴点の座標によって表される位置に、所定マークをプロットし、プロットしたマークとともにフレームを出力してもよい。

訓練データセット記憶部１１１は、グランドトゥルース形状を備える一連の訓練フレームである訓練データセットを記憶する。

次に、第１の実施形態による画像処理装置１００の動作について、図面を参照しながら詳細に説明することとする。

図２は、訓練フェーズにおける、本発明の第１の実施形態による画像処理装置１００の動作の例を示すフローチャートである。

本発明の第１の実施形態による画像処理装置１００の動作は、大まかに訓練フェーズおよび追跡フェーズに分けることができる。この段落では、図２を参照して本発明の概要を説明することとし、追跡フェーズについて説明することとする。前述のように、特徴点の追跡は、初期フレームにおけるオブジェクトの検出および後続のフレームにおけるオブジェクトの追跡により開始される。図１に見られるように、フレームがシステムに入力され（ステップＳ１０１）、オブジェクト検出部１０２が、前フレームオブジェクト（またはオブジェクト形状）、すなわち前の顔が存在するかどうかを見出すための確認を行う（ステップＳ１０２）。前の顔は、受信フレームの前フレームに基づいて推定される形状である。前の顔が存在しない場合（ステップＳ１０２でＮＯ）、オブジェクト検出部１０２は、顔を含む、受信フレームの部分領域を検出するだけの顔検出（ステップＳ１０３）を行う。オブジェクト検出部１０２は、一般的なオブジェクト検出器の具体的な実装であってもよい。ここで、検出された顔領域は、初期形状、すなわち、予め与えられた平均形状によって表される（ステップＳ１０４）。オブジェクト検出部は、平均形状が検出された顔領域に含まれるように、検出された顔領域に基づいて平均形状の大きさおよび位置を決定してもよい。この場合、第１の推定部１０６は、初期形状として平均形状を用いる。前の顔が存在する場合（ステップＳ１０２でＹＥＳ）、前の顔が初期形状として用いられる（ステップＳ１０５）。この場合、位置合わせ部１０６は、初期形状として前の顔を用いる。ここで、形状は、全ての特徴点の１つのベクトルへの、特徴点の位置の結合を指す。平均形状は、訓練中に得られてよく、後に説明される。初期形状は推定処理において用いられる（ステップＳ１０６）。

位置合わせ処理について、後で詳細に説明する。以下は、位置合わせ処理の簡単な説明である。特徴抽出部１０３が、初期形状を用いて特徴を抽出する。本実施形態に係る特徴は、形状またはテクスチャの記述に役立つオペレータに関連する。

次に、位置合わせ部１０６が、訓練フェーズ中に学習したグローバルモデルを用いて位置合わせ処理を行い、全ての特徴点についての方向を含む動きを追う。訓練フェーズおよび位置合わせ処理の、数式を用いたさらなる説明は後で提供する。形状の変化は、入力として抽出された特徴を与えられた、モデルの出力である。この処理はカスケードで行われることが可能であり、カスケードの各段階の出力が、該カスケードの次の段階への入力として働き、カスケードの数は、推定形状とグランドトゥルース形状との間の位置合わせ誤差に依存し、訓練フェーズ中に学習される。この手順中で、形状の偏差も測定され、オクルージョン検出部１０７によって、オクルージョン検出および特徴点の動きの制約に用いられる。偏差は、現在および前フレームの形状間での特徴比較によって、第１のフレームにはオクルージョンは無いと仮定して、スコアを生成するために測定される。オクルージョンの検出および防止に関する詳細については、図面に従って後述する。

次に、偏差スコア情報を用いて、推定部１０８は、それにより推定部１０８が特定の部分の動きを制限する一方、他の部分を位置合わせする、部分ベースのモデルを選択する。部分ベースのモデルは、上述の「局所モデル」と表記される。部分は、訓練フェーズにおいて予め定義されて学習される。最終出力は、部分ベースのモデルのそれぞれからの形状の出力の組合せである。部分ベースのモデルの組合せも、学習する問題であり、モデルの位置合わせの精度が、特徴点がそのモデルから選択されるか否かを決定する。推定部１０８が、部分ベースのモデルの、形状の出力を組み合わせる。

次に、出力部１１０が、推定形状、すなわち上述の最終出力を出力する（ステップＳ１０７）。画像処理装置１００の処理が終了していない場合（ステップＳ１０８でＮＯ）、入力部１０１は、次のフレームを受信する（ステップＳ１０１）。画像処理装置１００の処理が、入力装置（図示せず）を介した画像処理装置１００の利用者からの指示によって終了する場合（ステップＳ１０８でＹＥＳ）、画像処理装置１００は、図２に示す処理を終了する。

次に、訓練フェーズにおける第１の実施形態による画像処理装置１００の動作について、図面を参照しながら詳細に説明する。

図３は、訓練フェーズにおける、第１の実施形態による画像処理装置１００の動作の例を示すフローチャートである。

上述のように、モデルは学習される必要がある。そのため、追跡が適用可能となる前に訓練フェーズが必要であり、そこで第１の実施形態に係るモデルは、訓練データセットから学習される。訓練データセットは、訓練データセット記憶部１１１に格納されている。訓練データセットは、多数の画像（すなわち、訓練フレーム）と、真の形状として与えられる形状である、グランドトゥルースまたはグランドトゥルース形状と表記される、それらの対応する顔形状情報（すなわち、画像における特徴点の座標）とを含む。特徴点の座標は、「ｘ」および「ｙ」軸の値で表されてもよい。まず、訓練セットから、平均形状Ｓ_０を得る。これは、以下のように得られる。

数１に示す数式において、Ｓ_ｉは、ｉ番目の画像の形状ベクトルであり、Ｓ_ｉ＝［ｘ_１，ｙ_１．．．ｘ_ｎ，ｙ_ｎ］により与えられ、ここでｘ_ｉ、ｙ_ｉはｉ番目の特徴点の「ｘ」および「ｙ」軸の値であり、ｎは特徴点の数であり、ｍは訓練画像の総数である。定数ｎは固定である。特徴点の「ｘ」および「ｙ」軸の値は、人手で、または特定のオペレータによって決定されてもよい。ｎ個の特徴点のそれぞれは、ｎ個の特徴点のそれぞれがオブジェクト上の固定された点を示すように決定される。固定された点は、例えば、左の口角、右の目尻等であってもよい。しかし、形状の間での、回転、拡大縮小および並進による差異は、除去する必要がある。これは、多数の方法を用いて行うことが可能であり、最も一般の方法はプロクルステス分析による。一般に、類似の場合について、原点を中心とする２つの形状ベクトルｚおよびｚ’の位置合わせを行うために、行列Ａがｄによるｚの回転を行う場合に、｜ｃＡｚ−ｚ’｜を最小化するように、ｃおよびｄによって、ｚを拡大縮小および回転する必要があることが示されうる。

数２および数３によって算出されるａおよびｂを用いて、数式ｃ^２＝ａ^２＋ｂ^２およびｄ＝ｔａｎ^−１ｂ／ａによって、ｃおよびｄは算出される。形状は、Ｓ_ｉ−Ｓ_ｉ ^Ｇにより、原点を中心とすることが可能である。

この数式において、ｘ_ｊ ^ｉおよびｙ_ｊ ^ｉは、ｉ番目の画像のｊ番目の特徴点についての「ｘ」および「ｙ」軸の値であり、平均形状Ｓ_ｉ ^Ｇは、形状の重心である。ここで、平均形状を、モデルを訓練するために、初期形状として用いることが可能である。

上述のように、学習部１０４は、訓練データセット記憶部１１１に格納されたグランドトゥルース形状から平均形状を算出し（ステップＳ２０１）、平均形状を初期形状に設定してもよい。平均形状は、予め算出されていてもよく、訓練データセット記憶部１１１に格納されていてもよい。

本発明の本実施形態では、モデルは、グローバルモデルと表記されるモデルと、局所モデルまたは部分ベースのモデルと表記されるモデルとを含む。グローバルモデルと部分ベースのモデルとの違いは、部分ベースのモデルがオブジェクト形状のサブ部分を位置合わせするのみである一方で、グローバルモデルは全ての特徴点を位置合わせすることである。サブ部分は、全体形状の部分領域を形成する特徴点の、ある論理的なグループとして予め定義される。オブジェクトが顔である場合、サブ部分は、例えば、左目に属する特徴点、右目に属する特徴点、鼻に属する特徴点、口に属する特徴点、及び、顎に属する特徴点等であってよい。図３を参照すると、特徴抽出部１０３が、初期形状に関して特徴を抽出する（ステップＳ２０２）。初期形状としてグランドトゥルース形状および平均形状を用いて、抽出された特徴の間の関係が見つかる。抽出された特徴は、例えばＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎｓ）、正規化された勾配などの特徴を指す。これらの特徴は、グローバル、すなわち全体的形状について抽出されてもよく、局所的、すなわち特徴点のそれぞれが中心であるパッチについて抽出されてもよい。回帰を用いて、学習部１０４は、モデル、すなわち抽出された特徴と初期形状およびグランドトゥルース形状間の形状の差異との関係を表すデータ値を算出する（ステップＳ２０３）。この関係は、線形モデルを用いて定義される。これは、位置合わせ手順とも表記される。

学習部１０４は、モデルを初期形状に対して適用することにより推定される形状である推定形状を算出し、形状の変化を算出する（ステップＳ２０４）。

位置合わせ手順は、多数の特徴点（ｎ）の位置合わせを伴うため、位置合わせ手順は大変複雑であり、そのため正確な位置合わせのためには１つより多くの段階が必要である。そのため、カスケード型アプローチが用いられ、そこでは各カスケード段階の出力が、次の段階のカスケードへの入力として働く。カスケードの数は、推定形状およびグランドトゥルース形状の間の位置合わせの誤りに依存し、そして訓練フェーズの間に学習されてもよい。各カスケードで、変化形状が出力される。学習部１０４は、推定形状およびグランドトゥルース形状間の位置合わせの誤りに基づいて、画像処理装置１００が次のカスケード段階に移行するか否かを判断してもよい（ステップＳ２０５）。画像処理装置１００が、次のカスケード段階へ移行する場合（ステップＳ２０５でＹＥＳ）、学習部１０４は推定形状を初期形状に設定する（ステップＳ２０６）。画像処理装置１００が、次のカスケード段階へ移行しない場合（ステップＳ２０５でＮＯ）、学習部１０４は、モデルをモデル記憶部１０５に格納する。最終形状は、初期形状と各カスケードでの変化形状との組合せである（Ｓ２０７）。

抽出された特徴と形状の差異との関係を学習するためのモデルの訓練は、次の最小化問題として理解することができる。

Ｓ_ＧＴはグランドトゥルース形状であり、Ｓは推定形状である。最小化問題を解くために、学習部１０４は、抽出された特徴とオブジェクト形状との間の、関係すなわち動きの方向を学習するように、最小二乗回帰法を適用してもよい。この設定において、形状の位置合わせを以下のように考えることができる。

ここでｄｘ_＊ ^ｉ＝（ｘ_＊ ^ｉ−ｘ_０ ^ｉ）は、形状変化であり、Ｐ_０ ^ｉ＝ｆ（Ｉ^ｉ，ｘ_０ ^ｉ）は、全ての抽出された特徴を結合することによって得られる特徴ベクトルであり、Ｉは画像であり、ｉは画像番号である。また、ｈ_ｔは、動きの方向であるｔによりパラメータ化されたモデルであり、ｘ_０ ^ｉおよびｘ_＊ ^ｉは、それぞれ、ｉ番目の初期形状およびグランドトゥルース形状（画像とともに与えられ、データセット内に存在する）である。

図４Ａ、図４Ｂおよび図４Ｃは、グランドトゥルース、平均形状およびそれらの位置合わせがどのように見えるかを示す図である。図４Ａは、訓練画像のグランドトゥルース形状の例を示す図である。図４Ｂは、初期形状（平均形状）の例を示す図であり、それは全ての訓練および試験画像に共通である。図４Ｃは、学習部１０４によって学習されるモデルにより予測され、グランドトゥルース形状と重ねられた、結果の形状すなわち推定形状の例を示す図であり、いくつかのカスケードの後の初期形状が、グランドトゥルース形状と位置合わせされている。図４Ａ、図４Ｂおよび図４Ｃは、一般の位置合わせ手順の働きを可視化するためであるので、図４Ａ、図４Ｂおよび図４Ｃの例ではオクルージョンは示されていない。

オクルージョンが発生した場合、遮蔽された特徴点は、遮蔽されていない特徴点にも影響することによって歪む。たとえ、結果の形状が形状モデルと矛盾しないとしても、結果の形状は、現在のフレームの特徴点位置を表さない。本実施形態では、この観測は認められ、部分的なオクルージョンの問題を解くために用いられる。この点について、オブジェクト形状の、例えば口、目、顎等の、異なるサブ部分に適用される動きの制約をそれぞれもつ、多数のモデルすなわちｈ_ｔが、上で説明した最小化手順を用いて、訓練される。サブ部分の数および種類は、実験的に決定される。動きの制約は、また、学習部１０４によって、訓練フェーズの間に、数７の数式を用いて学習される（ステップＳ２０４）。学習部１０４は、サブ部分内の特徴点を比較する。学習部１０４は、ヒストグラムインターセクションカーネル（Histogram intersection kernel）、平均絶対距離（Mean Absolute Distance）、距離二乗和（Sum of Square Distance）等に基づいて、特徴点を比較できる。学習部１０４は、訓練フェーズの間、動きの制約重みの学習のための、比較のスコアを用いる。これは、以下の式に帰着する。

数７において、Ｓ_ｄは特徴点間の偏差スコアであり、ｗは動きの制約重みを表す。数７において、Ｐは抽出された特徴を表す。これらの特徴は、先述の位置合わせステップに用いたものと同じであってもよく、または、それらは新しいものであってもよい。また、ｑ_ｊはｊ番目の特徴点の存在を表し、ｑ_ｊは、である値｛０，１｝すなわち特徴点が領域に存在するか否か、を取りうる。項Ｐ（ｑ^ｊ，Ｉ^ｉ）は、ｊ番目の特徴点が存在する画像（Ｉ）の、抽出された特徴を表す。追跡の間、これらの異なるモデルの中から、適切なモデルが選択され、そして、推定部１０８によって適用される。これらのモデルの選択および組合せは、後で説明される。

用いられる様々なモデルを組み合わせることによって、最終形状が生み出される。これに関して、例えば、１つのモデルが、位置合わせされた、顎についての特徴点位置に対応する一方で、別のモデルは、顎を除く他の特徴点についての良好な位置合わせに帰着する。従って、多様なモデルから最良の組合せを選択するために関数を学習することが重要である。そのため、推定部１０８は、次の最適化問題を以下によって解く。

数９によって表される数式が成り立つ場合、数９によって表される数式は、Ｊ番目の特徴点がＫ番目のモデルから選択されることを特定する（全てのモデルをＶとする）。

また、数１０によって表される数式は、学習部１０４によって、ｊ番目の特徴点が、多様なモデルの中から一回のみ選択されるという制約条件を明示する。

ここで、ｘ^ｉは、ｉ番目の画像（Ｉ）の形状である。関数ｈ_ｒは、以下によって与えられる線形関数であると仮定する。

ｒ^Ｔは、関数ｈ_ｒのパラメータであり、訓練フェーズの間に学習でき、そして、Ｐに関する項は、数８により表される問題の解の下で、ｉ番目の画像（Ｉ）の抽出された特徴を表す。上記問題は、以下のように組み立てることができる。

数１２において、第１の項は、推定形状Ｓとグランドトゥルース形状Ｓ_ＧＴとの間における損失を評価するために用いられ、後者は、正則化パラメータであるＬでｒ^Ｔを正則化するために用いられる。パラメータＬは、訓練画像の中からホールドアウト集合における交差検証により見つけることができる。

次に、図５を参照しながら、追跡フェーズの推定処理（ステップＳ１０６）について詳細に説明する。図５は、本発明の第１の実施形態に係る画像処理装置１００の推定処理を示すフローチャートである。図５に示す推定処理は、モデルの組合せに伴う、異常な動きの検出と動きの制約とを含む。図５を参照すると、特徴抽出部１０３が、グローバルモデル、すなわち、位置合わせに関してオクルージョンがないモデルを選択する（ステップＳ３０１）。次に、位置合わせ処理（ステップＳ３０２）が、画像処理装置１００によって行われる。位置合わせ処理は、後に詳細に説明する。位置合わせ処理により、画像処理装置１００が、特徴の推定、すなわち現在のフレームからの予測形状を得る。

オクルージョン検出部１０７が、特徴点の異常な動きを検出することによってオクルージョンを検出する（ステップＳ３０３）。オクルージョン検出部１０７は、現在および前フレームにおける特徴点を中心とする対応するパッチの間の類似性を検出すること（すなわち、例えば類似度に対して正の相関を有する類似スコアを算出すること）によって、異常な動きを検出する。オクルージョン検出部１０７は、検出された類似性に応じた逸脱が著しいことを判定することによって、オクルージョンが存在するか否かを判定する（ステップＳ３０４）。ステップＳ３０４における判断は、類似スコアにおける閾値を用いて、特徴点の異常な動きがあるか否かに基づいてなされる。閾値は、実験的に見出される。類似スコアが閾値以下であれば、オクルージョンが存在し（ステップＳ３０４でＹＥＳ）、異常な動きが大きいほど、類似スコアは小さくなる。オクルージョン検出部１０７は、様々なサブ部分に存在する特徴点の類似スコアを検討することにより、現在のフレームの予測形状の、遮蔽された部分を位置決めする（ステップＳ３０５）。オクルージョン検出部１０７は、現在のフレームの予測形状のサブ部分が、類似スコアが閾値を下回る特徴点を含む場合、そのサブ部分が遮蔽されていると判定してもよい。オクルージョン検出部１０７は、現在のフレームの予測形状のサブ部分が、類似スコアが閾値を下回る特徴点を、割合閾値を超える割合で含む場合、そのサブ部分が遮蔽されていると判定してもよい。

推定部１０８は、オクルージョン検出部１０７によって位置決めされた、遮蔽された部分を、適切なモデルを選択するために用いる、というのは、モデルが様々なサブ部分を表しているからであり、それらは修正された形状を予測するために用いられる。推定部１０８は、数８で示される数式により定式化される上述の最適化問題を解くことによって、適切なモデルを選択してもよい。しかし、オクルージョンがなければ（ステップＳ３０４でＮＯ）、その場合、予測形状は、修正無しで、最終形状、すなわち最終出力形状としてとして用いられる（ステップＳ３０６）。位置合わせ部１０６は、選択されたモデルのそれぞれについて、位置合わせ処理を行う（ステップＳ３０８）。ステップＳ３０８において、位置合わせ部１０６は、それぞれ異なる、選択されたモデルから、推定形状を導出する。次に、推定部１０８は、ステップＳ３０８において導出された、異なるモデルから推定される形状を、最終形状として生成するために組み合わせる。推定部１０８は、高い位置合わせの精度を有するモデルから特徴点を選択することによって、最終出力形状を得るために、モデルを組み合わせるための学習された重みを用いる。推定部１０８は、最終出力形状を形状記憶部１０９に格納する。

次に、画像処理装置１００の位置合わせ処理について、図面を参照しながら説明する。

図６は、本発明の第１の実施形態に係る画像処理装置１００の位置合わせ処理を示すフローチャートである。カスケード型アプローチがまた用いられ、各カスケード段階の出力が、次の段階のカスケードへの入力として働く。

図６を参照すると、特徴抽出部１０３が、初期形状に基づいて特徴を抽出する（ステップＳ４０１）。位置合わせ部１０６は、初期形状に対してモデルを適用する、すなわちモデルおよび初期形状を用いて変化形状を算出する（ステップＳ４０２）。カスケード数が、予め設定された数を下回る場合（ステップＳ４０３でＹＥＳ）、特徴抽出部１０３および位置合わせ部１０６は、次のカスケード段階を行う。この場合、位置合わせ部１０６が、推定形状を次の初期形状に設定する（ステップＳ４０４）。ステップＳ４０４において、推定形状が、位置合わせ処理の前に設定されている初期形状および変化形状によって表されていてもよい。そして、ステップＳ４０１およびステップＳ４０２が繰り返され、そしてカスケード数が予め設定された数に到達した場合（ステップＳ４０３でＮＯ）、特徴抽出部１０３および位置合わせ部１０６は、次のカスケード段階を行わない。この場合、位置合わせ部１０６は、位置合わせ処理の前に設定されている初期形状および増分形状を用いて、推定形状を算出してもよい（ステップＳ４０５）。位置合わせ処理の出力が、推定形状である。出力の推定形状は、位置合わせ処理の前に設定されている初期形状および変化形状であってもよい。

いくつかの実験結果が、図７Ａ、図７Ｂ、図８Ａおよび図８Ｂに示される図において見られる。図７Ａ及び図７Ｂは、例えば他の人物の顔などの他のオブジェクトに起因する、オクルージョンの代表的な例を示す。図８Ａおよび図８Ｂは、例えば髪の毛などの、オブジェクト自体の一部分に起因する、オクルージョンの代表的な例を示す。図７Ａ及び図８Ａはそれぞれ、部分的オクルージョンを処理しない標準的な位置合わせアプローチの結果を示す。図７Ｂおよび図８Ｂは、それぞれ、オクルージョンの処理後の結果を示す。Ｘ印はグランドトゥルース形状を示し、ドットは推定形状である。破線により描かれる枠は、顔検出の結果として得られた境界枠である。オブジェクト（すなわち顔）および他のオブジェクトの主輪郭が、図７Ａ、図７Ｂ、図８Ａおよび図８Ｂに参考のために示されている。図７Ａおよび図８Ａを図７Ｂおよび図８Ｂと比較すると、オクルージョンが、単に実際に遮蔽されているものだけでなく全ての特徴点の妨げであることを見ることができる。

本実施形態の第１の効果は、オクルージョン下でさえも、オブジェクトの特徴点を正確に追跡することが可能であることである。

本実施形態によれば、推定部１０８が、局所モデルの中で、オクルージョン検出部１０７によって遮蔽されているサブ部分として検出されたサブ部分の動きをそれぞれ制限する局所モデルを選択する。そして、推定部１０８が、最終出力形状を生成するために、位置合わせ部１０６によって選択された局所モデルを適用することによって導出される、推定形状を組み合わせる。上記したように、本実施形態では、最終出力形状を導出することは、オブジェクトの特徴点を追跡することと等価である。

以下では、本実施形態の他の効果について説明する。本実施形態の利点は、オクルージョンによって引き起こされる、遮蔽されていない部分に対する歪みが、その部分の動きを制限することによって修正されることである。また、最終形状を表すために、最良の部分が、全てのモデルから選択される。第２に、オクルージョン情報をもつ特別なデータベースは、本発明に係る画像処理装置１００には必要なく、特徴点の位置情報をもつ通常のデータベースで十分である。また、剛性および非剛性な形状を容易に追跡できる。さらに、形状、ポーズおよび部分における変化に関する事例は必要でない。また、形状の位置合わせが形状回帰問題の形をとるため、例えばロバスト推定法などの、回帰問題を解くための方法が、容易に適用できる。

＜第２の実施形態＞
次に、本発明の第２の実施形態について、図面を参照しながら詳細に説明する。

図９は、本発明の第２の実施形態による画像処理装置１００Ａの例を示すブロック図である。図９を参照すると、画像処理装置１００Ａは、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて上記画像から特徴を抽出する特徴抽出部１０３と、上記特徴と上記形状の動きとの関係を表すグローバルモデルと、上記複数のサブ部分に含まれるサブ部分において上記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ部１０６と、上記複数のサブ部分において、前の画像からの推定形状と、上記グローバルモデルを適用することによって上記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出部１０７と、上記局所モデルにおいて、上記遮蔽されたサブ部分として検出されている上記サブ部分の動きをそれぞれ制限する局所モデルを選択して、選択された上記局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定部１０８とを含む。

第２の実施形態は、第１の実施形態の第１の効果と同じ効果を有する。上記効果を生じさせる理由は、第１の実施形態の第１の効果の理由と同じである。

＜他の実施形態＞
画像処理装置１００および画像処理装置１００Ａのそれぞれは、コンピュータとそのコンピュータを制御するプログラム、専用ハードウェア、または、コンピュータとそのコンピュータを制御するプログラムとの組合せ及び専用ハードウェアを用いて実現できる。

図１０は、上で説明した、画像処理装置１００および画像処理装置１００Ａを実現することができる、コンピュータ１０００のハードウェア構成の例を示すブロック図である。図１０を参照すると、コンピュータ１０００は、バス１００６を介して通信可能に接続される、プロセッサ１００１、メモリ１００２、記憶装置１００３およびインタフェース１００４を含む。コンピュータ１０００は、記憶媒体１００５にアクセスできる。メモリ１００２および記憶装置１００３のそれぞれは、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）またはハードディスクドライブ等の、記憶装置であってもよい。記憶媒体１００５は、ＲＡＭ、例えばハードディスクドライブ等の記憶装置、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、または可搬記憶媒体であってもよい。記憶装置１００３が、記憶媒体１００５として動作してもよい。プロセッサ１０００は、メモリ１００２及び記憶装置１００３から、データおよびプログラムを読み出すことができ、メモリ１００２および記憶装置１００３にデータおよびプログラムを書き込むことができる。プロセッサ１００１は、インタフェース１００４を介して、プロセッサ１００１対してフレームを提供するサーバ（図示せず）、及び、最終出力形状を出力するための端末（図示せず）等と通信できる。プロセッサ１００１は、記憶媒体１００５にアクセスできる。記憶媒体１００５は、コンピュータ１０００を画像処理装置１００または画像処理装置１００Ａとして動作させるプログラムを記憶する。

プロセッサ１００１は、記憶媒体１００５に格納される、コンピュータ１０００を画像処理装置１００または画像処理装置１００Ａとして動作させるプログラムを、メモリ１００２にロードする。コンピュータ１０００は、メモリ１００２にロードされたプログラムを実行することによって、画像処理装置１００または画像処理装置１００Ａとして動作する。

入力部１０１、オブジェクト検出部１０２、特徴抽出部１０３、学習部１０４、位置合わせ部１０６、オクルージョン検出部１０７、推定部１０８および出力部１１０は、記憶媒体１００５からメモリ１００２にロードされ、上述の各部を実現する専用プログラムと、その専用プログラムを実行するプロセッサ１００１とによって実現できる。モデル記憶部１０５、形状記憶部１０９および訓練データセット記憶部１１１は、メモリ１００２および／または例えばハードディスク装置等の記憶装置によって実現できる。入力部１０１、オブジェクト検出部１０２、特徴抽出部１０３、学習部１０４、モデル記憶部１０５、位置合わせ部１０６、オクルージョン検出部１０７、推定部１０８、形状記憶部１０９、出力部１１０および訓練データセット記憶部１１１の一部または全部は、上述の部の機能を実現する、専用の回路によって実現できる。

最後に、ここで記述し説明した処理、技術および方法は、特定の装置に限定されず、または特定の装置に関連しないことは、明確であろう。それは構成要素の組合せを使用して実装できる。また、ここに含まれる指示に従って、様々な種類の汎用装置を用いてもよい。本発明はまた、例の特定の組合せを用いて記述された。しかし、これらは単に説明であって限定ではない。例えば、説明したソフトウェアは、例えばＣ＋＋、Ｊａｖａ（登録商標）、ＰｙｔｈｏｎおよびＰｅｒｌなどの多様な言語で実装されてもよい。また、この発明の技術の他の実装は、当業者にとって明らかであろう。

本発明は、その実施形態を参照して示し説明したが、この発明はこれらの実施形態に限定されない。請求項に規定されるような本発明の精神およびスコープを逸脱することなく、その形態および詳細に対して様々な変更をできることは当業者によって理解されるであろう。

１００画像処理装置
１００Ａ画像処理装置
１０１入力部
１０２オブジェクト検出部
１０３特徴抽出部
１０４学習部
１０５モデル記憶部
１０６位置合わせ部
１０７オクルージョン検出部
１０８推定部
１０９形状記憶部
１１０出力部
１１１訓練データセット記憶部
１０００コンピュータ
１００１プロセッサ
１００２メモリ
１００３記憶装置
１００４インタフェース
１００５記憶媒体
１００６バス

Claims

画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、
前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ手段と、
前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、
前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段と
を備える画像処理装置。
前記位置合わせ手段は、前記初期形状を最初の開始形状として設定し、前記開始形状に基づいて前記画像から抽出された特徴に対して前記モデルを適用することによって前記形状の動きを算出することと、算出された前記動きが前記開始形状に加えられた形状である推定形状を前記開始形状として設定することとを繰り返すことによって、前記推定形状を導出する、
請求項１記載の画像処理装置。
１つ以上の一連の訓練画像および真の形状として与えられる形状によって、前記モデルを学習する学習手段
をさらに備える請求項１または２に記載の画像処理装置。
前記初期形状は、前記画像の前の画像から導出された推定形状である、
請求項１から３のいずれか一項に記載の画像処理装置。
前記形状および前記サブ部分は、前記特徴点の位置情報によって表わされる、
請求項１から３のいずれか一項に記載の画像処理装置。
画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出し、
前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出し、
前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出し、
前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する、
画像処理方法。
コンピュータを、
画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ１つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、
前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を得る位置合わせ手段と、
前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、
前記局所モデルにおいて、該遮蔽された部分として検出されている該サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段と、
して動作させるプログラムを記憶するコンピュータ読み取り可能な媒体。
前記位置合わせ手段は、前記初期形状を最初の開始形状として設定し、前記開始形状に基づいて前記画像から抽出された特徴に対して前記モデルを適用することによって前記形状の動きを算出することと、算出された前記動きが前記開始形状に加えられた形状である推定形状を前記開始形状として設定することとを繰り返すことによって、前記推定形状を導出する、
請求項７記載のコンピュータ読み取り可能な媒体。
コンピュータを、
１つ以上の一連の訓練画像および真の形状として与えられる形状によって、前記モデルを学習する学習手段
として動作させるプログラムを記憶する、請求項７または８に記載のコンピュータ読み取り可能な媒体。
前記初期形状は、前記画像の前の画像から導出された推定形状である、
請求項７から９のいずれか一項に記載のコンピュータ読み取り可能な媒体。