JP6296205B2 - 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体 - Google Patents

画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体 Download PDF

Info

Publication number
JP6296205B2
JP6296205B2 JP2017512402A JP2017512402A JP6296205B2 JP 6296205 B2 JP6296205 B2 JP 6296205B2 JP 2017512402 A JP2017512402 A JP 2017512402A JP 2017512402 A JP2017512402 A JP 2017512402A JP 6296205 B2 JP6296205 B2 JP 6296205B2
Authority
JP
Japan
Prior art keywords
shape
sub
model
image
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017512402A
Other languages
English (en)
Other versions
JP2017527040A (ja
Inventor
カラン ランパル
カラン ランパル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2017527040A publication Critical patent/JP2017527040A/ja
Application granted granted Critical
Publication of JP6296205B2 publication Critical patent/JP6296205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • G06T7/344Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7553Deformable models or variational models, e.g. snakes or active contours based on shape, e.g. active shape models [ASM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理技術に関し、特に、特徴点を追跡する画像処理技術に関する。
動画におけるオブジェクトの追跡は、例えば監視において、多くの実用的な重要性を有する。追跡方法のひとつは、形状の回帰によって実現され、そこでは、形状は、特徴点によって規定される。識別学習アプローチは、追跡対象オブジェクトの形状および画像の特徴間の関係を学習するのに使用できる。ここで特徴は、局所的であってもよく、すなわち、特徴点周辺において抽出されてもよく、または、グローバルであってもよい、すなわち、例えば複数の特徴点を含む領域から抽出されてもよい。一般に、形状の予測は、各カスケードで、初期形状が最終予測に至ることを伴う形状の変化を予測する、カスケード方式で行われる。追跡のために、前フレームの予測が、現フレームの初期形状として用いられる。
オクルージョンの処理は、ロバスト追跡アルゴリズムに対する課題のひとつである。オクルージョンのために、追跡装置によって予測される形状は、追跡される物体と遮蔽している物体との間の境界へ向かってずれる。これは、遮蔽されていない部分においても同様に形状の歪みにつながる。数フレーム以上の間オクルージョンが持続すれば、追跡形状は完全に変形され、最終的に失われることになるかもしれない。そのため、再度処理を始めなければならない。
オクルージョンを扱うために、いくつかの方法では、事例を用いて類似形状または類似形状の部分を探索し、それらを整列に用いる(非特許文献1を参照)。非特許文献1では、事例により形状制約が与えられ、グラフマッチング問題を解くことによって位置合わせが行われる。
他の方法では、ロバスト推定法を用いて、ある閾値より下である部分応答を切り捨てる(非特許文献2を参照)。非特許文献2では、オクルージョンの特徴を外れ値であるとみなし、ロバストM推定法を用いて、外れ値に適宜重み付けすることによって、位置合わせ問題を解く。
別の種類の方法では、各層で部分位置とオクルージョン状態との両方を予測する訓練の際に、オクルージョンの注釈を用いる(非特許文献3を参照)。非特許文献3に開示される方法は、遮蔽された特徴点の知識を予め必要とする。
特許文献1(Yang et al.)は、オクルージョンを伴うオブジェクト追跡を、オブジェクト空間におけるセグメンテーション問題として開示している。色分布に基づく外観モデルが、前景と背景との間の解釈に使用される。特許文献1に開示される方法は、オブジェクトを剛性モデルによって表すことができる場合に、良好に機能する。
米国特許出願公開第2009/0002489号
F. Zhou, J. Brandt, and Z. Lin, Exemplar-based graph matching for robust facial landmark localization, ICCV, 2013 J. M. Saragih, S. Lucey, and J. F. Cohn, Deformable model fitting by regularized landmark mean-shift, IJCV, 91(2):200-215, 2011 X. P. Burgos-Artizzu, P. Perona, and P. Doll'ar, Robust face landmark estimation under occlusion, ICCV, 2013
非特許文献1では、事例により形状制約が与えられ、グラフマッチング問題を解くことによって位置合わせが行われる。非特許文献1により開示される方法では、オブジェクト形状における変化は、限定された数の事例を通して捉えることができると仮定される。これは常に成り立つわけではない、というのは、例えば顔などのオブジェクトは、形状、ポーズおよび例えば口、鼻、目等の形状の一部分において多くの変化を有しうるからである。さらに、どのような数の特徴点も遮蔽されうるし、遮蔽物体はどのような外観または形状も有しうる。そのため、そのそれぞれにおける変化を表すことは実行可能ではない。
非特許文献2では、オクルージョンの特徴は外れ値であるとみなされ、ロバストM推定法が、外れ値に適宜重み付けすることによって、位置合わせ問題を解くために用いられる。しかしながら、非特許文献2で開示される方法における定式化では、外れ値は、形状モデルと矛盾する特徴点であり、外れ値を形状モデルに整合させるが可能であっても、グランドトゥルースと矛盾する。これは、訓練画像と異なる試験画像がある場合に、形状モデルが、モデルと一致するが試験画像と一致しない推定を予測することを意味する。これらの場合に対してもまた、対処が必要である。
非特許文献3に開示される方法は、遮蔽された特徴点の知識を予め必要とする。そのため、特徴点位置およびオクルージョン情報に関する情報をもつデータベースが必要である。
特許文献1に開示される方法は、オブジェクトを剛性モデルで表現可能である場合に良好に機能する。顔などの非剛性オブジェクトについては、よりロバストなアルゴリズムが必要である。
上述の進歩にもかかわらず、オクルージョンは難しい問題のままである。
オブジェクトの特徴点の追跡中に、いくつかの特徴点のオクルージョンが起こりうる。このことは、遮蔽された特徴点が、実際の形状から離れて、例えばオクルージョンエッジに向かって漂うことにつながる。このことはまた、点の間の関係がオブジェクト形状に暗に符号化されていることから、遮蔽されていない特徴点の位置合わせの誤りにつながる。すべてのタイプの遮蔽オブジェクトについて、形状と特徴との関係を学習することはまた不可能である。そのため、追跡アルゴリズムは、遮蔽されている特徴点の特徴と遮蔽されていない特徴点の特徴とを区別するために十分にロバストでなければならない。また、既に位置合わせされた特徴点の動きを制限する必要がある。
この問題を解決しようとする既存のアプローチがあるが、それらもまた以下のいくつかの欠点を伴う。例えば顔などのオブジェクトは、形状、ポーズにおいて、そして例えば口、鼻、目等の形状の部分においても、多くの変化をなしうる。そのため、事例ベースのアプローチを用いて、そのそれぞれにおける変化を表現するは、実行可能ではない。また、いくつかの別のアプローチは、特徴点位置およびオクルージョン情報に関する情報をもつデータベースを必要とする。さらに、顔などの非剛性オブジェクトに対しては、特許文献1よりもロバストなアルゴリズムが必要である。またロバスト推定法は、外れ値が形状モデルとは矛盾しないがグランドトゥルースと矛盾する事例を扱わない。
本発明は、上記課題を解決することを意図した。上述の存在に加えて、この発明が解決することができる明白で明らかな他の欠点を、詳細な説明および図面で明らかにすることとする。
本発明の目的のひとつは、オブジェクトの一部にオクルージョンが発生している場合であっても、オブジェクトの特徴点を正確に追跡することができる画像処理装置を提供することである。
本発明の一実施態様に係る画像処理装置は、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ手段と、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段とを備える。
本発明の一実施態様に係る画像処理方法は、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出し、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出し、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出し、前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する。
本発明の一実施態様に係るコンピュータ読み取り可能な媒体は、コンピュータを、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を得る位置合わせ手段と、前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、前記局所モデルにおいて、該遮蔽された部分として検出されている該サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段と、して動作させるプログラムを記憶する。上述のコンピュータ読み問い可能な記憶媒体に格納されているプログラムも、本発明の一実施態様を実現する。
本発明によれば、オブジェクトの一部にオクルージョンが発生している場合であっても、オブジェクトの特徴点を正確に追跡することが可能である。
図1は、本発明の第1の実施形態に係る画像処理装置100の構成の例を示すブロック図である。 図2は、訓練フェーズにおける、本発明の第1の実施形態に係る画像処理装置100の動作の例を示すフローチャートである。 図3は、訓練フェーズにおける、本発明の第1の実施形態に係る画像処理装置100の動作の例を示すフローチャートである。 図4Aは、訓練画像のグランドトゥルース形状の例を示す図である。 図4Bは、全ての訓練画像および試験画像に共通する初期形状(平均形状)の例を示す図である。 図4Cは、得られた形状の例を示す図である。 図5は、本発明の第1の実施形態に係る画像処理装置100の推定処理を示すフローチャートである。 図6は、本発明の第1の実施形態に係る画像処理装置100の整列処理を示すフローチャートである。 図7Aは、部分的オクルージョンを処理しない位置合わせアプローチの実験結果の例を示す図である。 図7Bは、第1の実施形態に係る実験結果の例を示す図である。 図8Aは、部分的オクルージョンを処理しない位置合わせアプローチの実験結果の例を示す図である。 図8Bは、第1の実施形態に係る実験結果の例を示す図である。 図9は、本発明の第2の実施形態に係る画像処理装置100Aの例を示すブロック図である。 図10は、本発明の実施形態に係る画像処理装置を実現することができるコンピュータ1000のハードウェア構成の例を示すブロック図である。
上で論じた技術的課題を解決するために、全体的なアプローチについてここで概説する。多くのモデルが学習され、これらのモデルは、制約なしから高制約までの範囲にわたる制約が与えられる、形状の部分に基づいて互いに異なる。これは、ある特定のモデルに関して、ある部分または部分の組合せが、それらの動きを制約されるであろうことを意味する。これらの部分は、前のフレームとの特徴比較によって選択され、最も偏差の大きいものが選択されるであろう。制約の量はまた、特徴比較スコアに逆の依存がある。この特徴比較スコアは、同様の特徴に対してより高くなる。これらのモデルを用いて、オブジェクト形状が推定される。また、異なるモデルからの異なる部分は、最終的な推定形状を与えるように、一緒に結び付けることができる。
<第1の実施形態>
以下、本発明の第1の実施形態について詳細に説明する。
図1は、本発明の第1の実施形態に係る画像処理装置100の構成の例を示すブロック図である。図1を参照すると、画像処理装置100は、入力部101、オブジェクト検出部102、特徴抽出部103、学習部104、モデル記憶部105、位置合わせ部106、オクルージョン検出部107、推定部108、形状記憶部109、出力部110および訓練データセット記憶部111を含む。
入力部101は、追跡フェーズにおいて、一連のフレーム、すなわち、例えば、動画のフレームまたは静止画等の画像を受信する。入力部101は、例えば学習フェーズにおいてまたは学習フェーズ前に、一連のフレーム、すなわち、訓練フレームと、各フレームのグランドトゥルース形状とを受信してもよい。グランドトゥルース形状は、以下において、「グランドトゥルース」とも表記されることがある。入力部101は、訓練フレームおよびグランドトゥルース形状を、訓練データセット記憶部111に格納してもよい。以下の説明では、複数のフレームおよび複数のフレームにおけるフレームは、それぞれ、「複数の画像」および「画像」と表記されることがある。複数の訓練フレームおよび複数の訓練フレームにおける訓練フレームは、それぞれ、「複数の訓練画像」および「訓練画像」と表記されることがある。
オブジェクト検出部102は、フレーム内で、例えば、顔、または、いくつかの部分を含みうる他のオブジェクトの1つなどの、オブジェクトの範囲を検出する。以下の説明では、オブジェクト検出部102は、フレーム内の顔の範囲を検出する。
特徴抽出部103は、形状に基づいてフレーム内のあるフレームから特徴を抽出する。形状は、特徴点によって表される。グランドトゥルース形状の各々は、訓練フレームの各々における、オブジェクトの真の形状として決定された形状である。形状は、それぞれ1つまたは複数の特徴点である、サブ部分を含む。より具体的には、形状およびサブ部分は、それぞれ、特徴点の座標によって表される。特徴点の各々は、フレーム内の撮像されたオブジェクトの点と予め関連付けられている。本実施形態の、グランドトゥルース形状を含む形状は、フレーム内の特徴点の位置情報のデータ値である。そして、特徴点は、オブジェクトの同じ点と関連付けられる。形状の各々は、特徴点の座標によって表される。座標は、フレーム内に予め設定されている座標系において定められる。
学習部104が、形状、すなわち、グランドトゥルース形状を備える、1又は複数の、一連の訓練フレームによって、モデルを学習する。より詳細には、学習部104は、グランドトゥルース形状において訓練フレームから抽出された特徴、および、グランドトゥルース形状の間の差異によって、モデルを学習する。学習部104は、学習したモデルを、モデル記憶部105に格納する。学習部104は、訓練データセット記憶部111に格納されているグランドトゥルース形状から平均形状を算出し、平均形状を設定してもよい。平均形状は、予め算出されていてもよく、訓練データセット記憶部111に格納されていてもよい。
モデルの各々は、特徴と形状の動きとの関係を表す。形状の動きとは、例えば、形状に含まれる特徴点の各々の座標の差異を表すデータ値である。モデルの各々は、特徴を形状の動きに変換するために用いることができる。モデルによって特徴を形状の動きに変換することを、特徴に対してモデルを「適用する」と表記されることがある。例えば、特徴および形状がベクトルによって表されている場合、モデルは行列によって表されてもよい。モデルは、あるグローバルモデルおよび局所モデルを含む。グローバルモデルは、特徴と形状の動きとの関係を表す。局所モデルの各々は、特徴とサブ部分のうちのひとつの動きとの関係を表す。局所モデルの各々は、少なくともひとつのサブ部分の動きを制限する。すなわち、それらの局所モデル内のある局所モデルによって変換された動きでは、その局所モデルによって制限されたサブ部分の動きの大きさはゼロまたはほぼゼロである。
モデル記憶部105は、複数のモデルを記憶する。モデル記憶部105は、初期形状として平均形状を記憶していてもよい。
位置合わせ部106は、それらの複数のモデルに含まれるモデルを初期形状に適用することによって、推定形状を得る。推定形状は、特徴にモデルを適用することによって得られる形状である。初期形状は、予め定められた形状、すなわち、学習部104によって導出された、又は、予め与えられた、平均の形状であってもよい。平均の形状は、以下において、「平均形状」と称表記されることがある。前フレームから導出された推定形状がある場合、初期形状は、フレーム(すなわち、現在のフレーム)の前フレームから導出された推定形状であってもよい。本発明の本実施形態においては、現在のフレームを「現在の画像」と表記することがあり、前のフレームを「前フレーム」と表記することがある。
オクルージョン検出部107は、フレームの前フレームからの推定形状と、フレームから初期形状において抽出された特徴に対してグローバルモデルを適用することによってフレームから導出された推定形状と、を比較することにより、サブ部分において、遮蔽されたサブ部分を検出する。前フレームからの推定形状は、フレームの前フレームから導出される最終出力フレームであり、それは後述される。
推定部108は、遮蔽されているサブ部分として検出されるサブ部分の動きを制限する局所モデルを選択し、最終出力形状すなわち最終推定形状として、選択された局所モデルを適用することによって導出される推定形状を組み合わせる。言い換えると、推定部108は、選択された局所モデルを適用することで得られた推定形状を、最終出力形状として組み合わせることによって、最終出力形状を導出する。推定部108は、最終出力形状を形状記憶部109に格納する。上述したように、形状の各々に含まれる特徴点の各々は、フレームにおいて撮像されたオブジェクトの所定の位置に関連付けられている。従って、最終出力形状を得ることは、オブジェクトの特徴点を追跡することと同等である。
形状記憶部109は、形状記憶部109内において、最終出力形状を記憶する。
出力部110は、最終出力形状を出力する。出力部110は、フレームの、最終出力形状に含まれる特徴点の座標によって表される位置に、所定マークをプロットし、プロットしたマークとともにフレームを出力してもよい。
訓練データセット記憶部111は、グランドトゥルース形状を備える一連の訓練フレームである訓練データセットを記憶する。
次に、第1の実施形態による画像処理装置100の動作について、図面を参照しながら詳細に説明することとする。
図2は、訓練フェーズにおける、本発明の第1の実施形態による画像処理装置100の動作の例を示すフローチャートである。
本発明の第1の実施形態による画像処理装置100の動作は、大まかに訓練フェーズおよび追跡フェーズに分けることができる。この段落では、図2を参照して本発明の概要を説明することとし、追跡フェーズについて説明することとする。前述のように、特徴点の追跡は、初期フレームにおけるオブジェクトの検出および後続のフレームにおけるオブジェクトの追跡により開始される。図1に見られるように、フレームがシステムに入力され(ステップS101)、オブジェクト検出部102が、前フレームオブジェクト(またはオブジェクト形状)、すなわち前の顔が存在するかどうかを見出すための確認を行う(ステップS102)。前の顔は、受信フレームの前フレームに基づいて推定される形状である。前の顔が存在しない場合(ステップS102でNO)、オブジェクト検出部102は、顔を含む、受信フレームの部分領域を検出するだけの顔検出(ステップS103)を行う。オブジェクト検出部102は、一般的なオブジェクト検出器の具体的な実装であってもよい。ここで、検出された顔領域は、初期形状、すなわち、予め与えられた平均形状によって表される(ステップS104)。オブジェクト検出部は、平均形状が検出された顔領域に含まれるように、検出された顔領域に基づいて平均形状の大きさおよび位置を決定してもよい。この場合、第1の推定部106は、初期形状として平均形状を用いる。前の顔が存在する場合(ステップS102でYES)、前の顔が初期形状として用いられる(ステップS105)。この場合、位置合わせ部106は、初期形状として前の顔を用いる。ここで、形状は、全ての特徴点の1つのベクトルへの、特徴点の位置の結合を指す。平均形状は、訓練中に得られてよく、後に説明される。初期形状は推定処理において用いられる(ステップS106)。
位置合わせ処理について、後で詳細に説明する。以下は、位置合わせ処理の簡単な説明である。特徴抽出部103が、初期形状を用いて特徴を抽出する。本実施形態に係る特徴は、形状またはテクスチャの記述に役立つオペレータに関連する。
次に、位置合わせ部106が、訓練フェーズ中に学習したグローバルモデルを用いて位置合わせ処理を行い、全ての特徴点についての方向を含む動きを追う。訓練フェーズおよび位置合わせ処理の、数式を用いたさらなる説明は後で提供する。形状の変化は、入力として抽出された特徴を与えられた、モデルの出力である。この処理はカスケードで行われることが可能であり、カスケードの各段階の出力が、該カスケードの次の段階への入力として働き、カスケードの数は、推定形状とグランドトゥルース形状との間の位置合わせ誤差に依存し、訓練フェーズ中に学習される。この手順中で、形状の偏差も測定され、オクルージョン検出部107によって、オクルージョン検出および特徴点の動きの制約に用いられる。偏差は、現在および前フレームの形状間での特徴比較によって、第1のフレームにはオクルージョンは無いと仮定して、スコアを生成するために測定される。オクルージョンの検出および防止に関する詳細については、図面に従って後述する。
次に、偏差スコア情報を用いて、推定部108は、それにより推定部108が特定の部分の動きを制限する一方、他の部分を位置合わせする、部分ベースのモデルを選択する。部分ベースのモデルは、上述の「局所モデル」と表記される。部分は、訓練フェーズにおいて予め定義されて学習される。最終出力は、部分ベースのモデルのそれぞれからの形状の出力の組合せである。部分ベースのモデルの組合せも、学習する問題であり、モデルの位置合わせの精度が、特徴点がそのモデルから選択されるか否かを決定する。推定部108が、部分ベースのモデルの、形状の出力を組み合わせる。
次に、出力部110が、推定形状、すなわち上述の最終出力を出力する(ステップS107)。画像処理装置100の処理が終了していない場合(ステップS108でNO)、入力部101は、次のフレームを受信する(ステップS101)。画像処理装置100の処理が、入力装置(図示せず)を介した画像処理装置100の利用者からの指示によって終了する場合(ステップS108でYES)、画像処理装置100は、図2に示す処理を終了する。
次に、訓練フェーズにおける第1の実施形態による画像処理装置100の動作について、図面を参照しながら詳細に説明する。
図3は、訓練フェーズにおける、第1の実施形態による画像処理装置100の動作の例を示すフローチャートである。
上述のように、モデルは学習される必要がある。そのため、追跡が適用可能となる前に訓練フェーズが必要であり、そこで第1の実施形態に係るモデルは、訓練データセットから学習される。訓練データセットは、訓練データセット記憶部111に格納されている。訓練データセットは、多数の画像(すなわち、訓練フレーム)と、真の形状として与えられる形状である、グランドトゥルースまたはグランドトゥルース形状と表記される、それらの対応する顔形状情報(すなわち、画像における特徴点の座標)とを含む。特徴点の座標は、「x」および「y」軸の値で表されてもよい。まず、訓練セットから、平均形状Sを得る。これは、以下のように得られる。
Figure 0006296205
数1に示す数式において、Sは、i番目の画像の形状ベクトルであり、S=[x,y...x,y]により与えられ、ここでx、yはi番目の特徴点の「x」および「y」軸の値であり、nは特徴点の数であり、mは訓練画像の総数である。定数nは固定である。特徴点の「x」および「y」軸の値は、人手で、または特定のオペレータによって決定されてもよい。n個の特徴点のそれぞれは、n個の特徴点のそれぞれがオブジェクト上の固定された点を示すように決定される。固定された点は、例えば、左の口角、右の目尻等であってもよい。しかし、形状の間での、回転、拡大縮小および並進による差異は、除去する必要がある。これは、多数の方法を用いて行うことが可能であり、最も一般の方法はプロクルステス分析による。一般に、類似の場合について、原点を中心とする2つの形状ベクトルzおよびz’の位置合わせを行うために、行列Aがdによるzの回転を行う場合に、|cAz−z’|を最小化するように、cおよびdによって、zを拡大縮小および回転する必要があることが示されうる。
Figure 0006296205
Figure 0006296205
数2および数3によって算出されるaおよびbを用いて、数式c=a+bおよびd=tan−1b/aによって、cおよびdは算出される。形状は、S−S により、原点を中心とすることが可能である。
Figure 0006296205
この数式において、x およびy は、i番目の画像のj番目の特徴点についての「x」および「y」軸の値であり、平均形状S は、形状の重心である。ここで、平均形状を、モデルを訓練するために、初期形状として用いることが可能である。
上述のように、学習部104は、訓練データセット記憶部111に格納されたグランドトゥルース形状から平均形状を算出し(ステップS201)、平均形状を初期形状に設定してもよい。平均形状は、予め算出されていてもよく、訓練データセット記憶部111に格納されていてもよい。
本発明の本実施形態では、モデルは、グローバルモデルと表記されるモデルと、局所モデルまたは部分ベースのモデルと表記されるモデルとを含む。グローバルモデルと部分ベースのモデルとの違いは、部分ベースのモデルがオブジェクト形状のサブ部分を位置合わせするのみである一方で、グローバルモデルは全ての特徴点を位置合わせすることである。サブ部分は、全体形状の部分領域を形成する特徴点の、ある論理的なグループとして予め定義される。オブジェクトが顔である場合、サブ部分は、例えば、左目に属する特徴点、右目に属する特徴点、鼻に属する特徴点、口に属する特徴点、及び、顎に属する特徴点等であってよい。図3を参照すると、特徴抽出部103が、初期形状に関して特徴を抽出する(ステップS202)。初期形状としてグランドトゥルース形状および平均形状を用いて、抽出された特徴の間の関係が見つかる。抽出された特徴は、例えばHOG(Histogram of Oriented Gradients)、LBP(Local Binary Patterns)、正規化された勾配などの特徴を指す。これらの特徴は、グローバル、すなわち全体的形状について抽出されてもよく、局所的、すなわち特徴点のそれぞれが中心であるパッチについて抽出されてもよい。回帰を用いて、学習部104は、モデル、すなわち抽出された特徴と初期形状およびグランドトゥルース形状間の形状の差異との関係を表すデータ値を算出する(ステップS203)。この関係は、線形モデルを用いて定義される。これは、位置合わせ手順とも表記される。
学習部104は、モデルを初期形状に対して適用することにより推定される形状である推定形状を算出し、形状の変化を算出する(ステップS204)。
位置合わせ手順は、多数の特徴点(n)の位置合わせを伴うため、位置合わせ手順は大変複雑であり、そのため正確な位置合わせのためには1つより多くの段階が必要である。そのため、カスケード型アプローチが用いられ、そこでは各カスケード段階の出力が、次の段階のカスケードへの入力として働く。カスケードの数は、推定形状およびグランドトゥルース形状の間の位置合わせの誤りに依存し、そして訓練フェーズの間に学習されてもよい。各カスケードで、変化形状が出力される。学習部104は、推定形状およびグランドトゥルース形状間の位置合わせの誤りに基づいて、画像処理装置100が次のカスケード段階に移行するか否かを判断してもよい(ステップS205)。画像処理装置100が、次のカスケード段階へ移行する場合(ステップS205でYES)、学習部104は推定形状を初期形状に設定する(ステップS206)。画像処理装置100が、次のカスケード段階へ移行しない場合(ステップS205でNO)、学習部104は、モデルをモデル記憶部105に格納する。最終形状は、初期形状と各カスケードでの変化形状との組合せである(S207)。
抽出された特徴と形状の差異との関係を学習するためのモデルの訓練は、次の最小化問題として理解することができる。
Figure 0006296205
GTはグランドトゥルース形状であり、Sは推定形状である。最小化問題を解くために、学習部104は、抽出された特徴とオブジェクト形状との間の、関係すなわち動きの方向を学習するように、最小二乗回帰法を適用してもよい。この設定において、形状の位置合わせを以下のように考えることができる。
Figure 0006296205
ここでdx =(x −x )は、形状変化であり、P =f(I,x )は、全ての抽出された特徴を結合することによって得られる特徴ベクトルであり、Iは画像であり、iは画像番号である。また、hは、動きの方向であるtによりパラメータ化されたモデルであり、x およびx は、それぞれ、i番目の初期形状およびグランドトゥルース形状(画像とともに与えられ、データセット内に存在する)である。
図4A、図4Bおよび図4Cは、グランドトゥルース、平均形状およびそれらの位置合わせがどのように見えるかを示す図である。図4Aは、訓練画像のグランドトゥルース形状の例を示す図である。図4Bは、初期形状(平均形状)の例を示す図であり、それは全ての訓練および試験画像に共通である。図4Cは、学習部104によって学習されるモデルにより予測され、グランドトゥルース形状と重ねられた、結果の形状すなわち推定形状の例を示す図であり、いくつかのカスケードの後の初期形状が、グランドトゥルース形状と位置合わせされている。図4A、図4Bおよび図4Cは、一般の位置合わせ手順の働きを可視化するためであるので、図4A、図4Bおよび図4Cの例ではオクルージョンは示されていない。
オクルージョンが発生した場合、遮蔽された特徴点は、遮蔽されていない特徴点にも影響することによって歪む。たとえ、結果の形状が形状モデルと矛盾しないとしても、結果の形状は、現在のフレームの特徴点位置を表さない。本実施形態では、この観測は認められ、部分的なオクルージョンの問題を解くために用いられる。この点について、オブジェクト形状の、例えば口、目、顎等の、異なるサブ部分に適用される動きの制約をそれぞれもつ、多数のモデルすなわちhが、上で説明した最小化手順を用いて、訓練される。サブ部分の数および種類は、実験的に決定される。動きの制約は、また、学習部104によって、訓練フェーズの間に、数7の数式を用いて学習される(ステップS204)。学習部104は、サブ部分内の特徴点を比較する。学習部104は、ヒストグラムインターセクションカーネル(Histogram intersection kernel)、平均絶対距離(Mean Absolute Distance)、距離二乗和(Sum of Square Distance)等に基づいて、特徴点を比較できる。学習部104は、訓練フェーズの間、動きの制約重みの学習のための、比較のスコアを用いる。これは、以下の式に帰着する。
Figure 0006296205
数7において、Sは特徴点間の偏差スコアであり、wは動きの制約重みを表す。数7において、Pは抽出された特徴を表す。これらの特徴は、先述の位置合わせステップに用いたものと同じであってもよく、または、それらは新しいものであってもよい。また、qはj番目の特徴点の存在を表し、qは、である値{0,1}すなわち特徴点が領域に存在するか否か、を取りうる。項P(q,I)は、j番目の特徴点が存在する画像(I)の、抽出された特徴を表す。追跡の間、これらの異なるモデルの中から、適切なモデルが選択され、そして、推定部108によって適用される。これらのモデルの選択および組合せは、後で説明される。
用いられる様々なモデルを組み合わせることによって、最終形状が生み出される。これに関して、例えば、1つのモデルが、位置合わせされた、顎についての特徴点位置に対応する一方で、別のモデルは、顎を除く他の特徴点についての良好な位置合わせに帰着する。従って、多様なモデルから最良の組合せを選択するために関数を学習することが重要である。そのため、推定部108は、次の最適化問題を以下によって解く。
Figure 0006296205
数9によって表される数式が成り立つ場合、数9によって表される数式は、J番目の特徴点がK番目のモデルから選択されることを特定する(全てのモデルをVとする)。
Figure 0006296205
また、数10によって表される数式は、学習部104によって、j番目の特徴点が、多様なモデルの中から一回のみ選択されるという制約条件を明示する。
Figure 0006296205
ここで、xは、i番目の画像(I)の形状である。関数hは、以下によって与えられる線形関数であると仮定する。
Figure 0006296205
は、関数hのパラメータであり、訓練フェーズの間に学習でき、そして、Pに関する項は、数8により表される問題の解の下で、i番目の画像(I)の抽出された特徴を表す。上記問題は、以下のように組み立てることができる。
Figure 0006296205
数12において、第1の項は、推定形状Sとグランドトゥルース形状SGTとの間における損失を評価するために用いられ、後者は、正則化パラメータであるLでrを正則化するために用いられる。パラメータLは、訓練画像の中からホールドアウト集合における交差検証により見つけることができる。
次に、図5を参照しながら、追跡フェーズの推定処理(ステップS106)について詳細に説明する。図5は、本発明の第1の実施形態に係る画像処理装置100の推定処理を示すフローチャートである。図5に示す推定処理は、モデルの組合せに伴う、異常な動きの検出と動きの制約とを含む。図5を参照すると、特徴抽出部103が、グローバルモデル、すなわち、位置合わせに関してオクルージョンがないモデルを選択する(ステップS301)。次に、位置合わせ処理(ステップS302)が、画像処理装置100によって行われる。位置合わせ処理は、後に詳細に説明する。位置合わせ処理により、画像処理装置100が、特徴の推定、すなわち現在のフレームからの予測形状を得る。
オクルージョン検出部107が、特徴点の異常な動きを検出することによってオクルージョンを検出する(ステップS303)。オクルージョン検出部107は、現在および前フレームにおける特徴点を中心とする対応するパッチの間の類似性を検出すること(すなわち、例えば類似度に対して正の相関を有する類似スコアを算出すること)によって、異常な動きを検出する。オクルージョン検出部107は、検出された類似性に応じた逸脱が著しいことを判定することによって、オクルージョンが存在するか否かを判定する(ステップS304)。ステップS304における判断は、類似スコアにおける閾値を用いて、特徴点の異常な動きがあるか否かに基づいてなされる。閾値は、実験的に見出される。類似スコアが閾値以下であれば、オクルージョンが存在し(ステップS304でYES)、異常な動きが大きいほど、類似スコアは小さくなる。オクルージョン検出部107は、様々なサブ部分に存在する特徴点の類似スコアを検討することにより、現在のフレームの予測形状の、遮蔽された部分を位置決めする(ステップS305)。オクルージョン検出部107は、現在のフレームの予測形状のサブ部分が、類似スコアが閾値を下回る特徴点を含む場合、そのサブ部分が遮蔽されていると判定してもよい。オクルージョン検出部107は、現在のフレームの予測形状のサブ部分が、類似スコアが閾値を下回る特徴点を、割合閾値を超える割合で含む場合、そのサブ部分が遮蔽されていると判定してもよい。
推定部108は、オクルージョン検出部107によって位置決めされた、遮蔽された部分を、適切なモデルを選択するために用いる、というのは、モデルが様々なサブ部分を表しているからであり、それらは修正された形状を予測するために用いられる。推定部108は、数8で示される数式により定式化される上述の最適化問題を解くことによって、適切なモデルを選択してもよい。しかし、オクルージョンがなければ(ステップS304でNO)、その場合、予測形状は、修正無しで、最終形状、すなわち最終出力形状としてとして用いられる(ステップS306)。位置合わせ部106は、選択されたモデルのそれぞれについて、位置合わせ処理を行う(ステップS308)。ステップS308において、位置合わせ部106は、それぞれ異なる、選択されたモデルから、推定形状を導出する。次に、推定部108は、ステップS308において導出された、異なるモデルから推定される形状を、最終形状として生成するために組み合わせる。推定部108は、高い位置合わせの精度を有するモデルから特徴点を選択することによって、最終出力形状を得るために、モデルを組み合わせるための学習された重みを用いる。推定部108は、最終出力形状を形状記憶部109に格納する。
次に、画像処理装置100の位置合わせ処理について、図面を参照しながら説明する。
図6は、本発明の第1の実施形態に係る画像処理装置100の位置合わせ処理を示すフローチャートである。カスケード型アプローチがまた用いられ、各カスケード段階の出力が、次の段階のカスケードへの入力として働く。
図6を参照すると、特徴抽出部103が、初期形状に基づいて特徴を抽出する(ステップS401)。位置合わせ部106は、初期形状に対してモデルを適用する、すなわちモデルおよび初期形状を用いて変化形状を算出する(ステップS402)。カスケード数が、予め設定された数を下回る場合(ステップS403でYES)、特徴抽出部103および位置合わせ部106は、次のカスケード段階を行う。この場合、位置合わせ部106が、推定形状を次の初期形状に設定する(ステップS404)。ステップS404において、推定形状が、位置合わせ処理の前に設定されている初期形状および変化形状によって表されていてもよい。そして、ステップS401およびステップS402が繰り返され、そしてカスケード数が予め設定された数に到達した場合(ステップS403でNO)、特徴抽出部103および位置合わせ部106は、次のカスケード段階を行わない。この場合、位置合わせ部106は、位置合わせ処理の前に設定されている初期形状および増分形状を用いて、推定形状を算出してもよい(ステップS405)。位置合わせ処理の出力が、推定形状である。出力の推定形状は、位置合わせ処理の前に設定されている初期形状および変化形状であってもよい。
いくつかの実験結果が、図7A、図7B、図8Aおよび図8Bに示される図において見られる。図7A及び図7Bは、例えば他の人物の顔などの他のオブジェクトに起因する、オクルージョンの代表的な例を示す。図8Aおよび図8Bは、例えば髪の毛などの、オブジェクト自体の一部分に起因する、オクルージョンの代表的な例を示す。図7A及び図8Aはそれぞれ、部分的オクルージョンを処理しない標準的な位置合わせアプローチの結果を示す。図7Bおよび図8Bは、それぞれ、オクルージョンの処理後の結果を示す。X印はグランドトゥルース形状を示し、ドットは推定形状である。破線により描かれる枠は、顔検出の結果として得られた境界枠である。オブジェクト(すなわち顔)および他のオブジェクトの主輪郭が、図7A、図7B、図8Aおよび図8Bに参考のために示されている。図7Aおよび図8Aを図7Bおよび図8Bと比較すると、オクルージョンが、単に実際に遮蔽されているものだけでなく全ての特徴点の妨げであることを見ることができる。
本実施形態の第1の効果は、オクルージョン下でさえも、オブジェクトの特徴点を正確に追跡することが可能であることである。
本実施形態によれば、推定部108が、局所モデルの中で、オクルージョン検出部107によって遮蔽されているサブ部分として検出されたサブ部分の動きをそれぞれ制限する局所モデルを選択する。そして、推定部108が、最終出力形状を生成するために、位置合わせ部106によって選択された局所モデルを適用することによって導出される、推定形状を組み合わせる。上記したように、本実施形態では、最終出力形状を導出することは、オブジェクトの特徴点を追跡することと等価である。
以下では、本実施形態の他の効果について説明する。本実施形態の利点は、オクルージョンによって引き起こされる、遮蔽されていない部分に対する歪みが、その部分の動きを制限することによって修正されることである。また、最終形状を表すために、最良の部分が、全てのモデルから選択される。第2に、オクルージョン情報をもつ特別なデータベースは、本発明に係る画像処理装置100には必要なく、特徴点の位置情報をもつ通常のデータベースで十分である。また、剛性および非剛性な形状を容易に追跡できる。さらに、形状、ポーズおよび部分における変化に関する事例は必要でない。また、形状の位置合わせが形状回帰問題の形をとるため、例えばロバスト推定法などの、回帰問題を解くための方法が、容易に適用できる。
<第2の実施形態>
次に、本発明の第2の実施形態について、図面を参照しながら詳細に説明する。
図9は、本発明の第2の実施形態による画像処理装置100Aの例を示すブロック図である。図9を参照すると、画像処理装置100Aは、画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて上記画像から特徴を抽出する特徴抽出部103と、上記特徴と上記形状の動きとの関係を表すグローバルモデルと、上記複数のサブ部分に含まれるサブ部分において上記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ部106と、上記複数のサブ部分において、前の画像からの推定形状と、上記グローバルモデルを適用することによって上記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出部107と、上記局所モデルにおいて、上記遮蔽されたサブ部分として検出されている上記サブ部分の動きをそれぞれ制限する局所モデルを選択して、選択された上記局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定部108とを含む。
第2の実施形態は、第1の実施形態の第1の効果と同じ効果を有する。上記効果を生じさせる理由は、第1の実施形態の第1の効果の理由と同じである。
<他の実施形態>
画像処理装置100および画像処理装置100Aのそれぞれは、コンピュータとそのコンピュータを制御するプログラム、専用ハードウェア、または、コンピュータとそのコンピュータを制御するプログラムとの組合せ及び専用ハードウェアを用いて実現できる。
図10は、上で説明した、画像処理装置100および画像処理装置100Aを実現することができる、コンピュータ1000のハードウェア構成の例を示すブロック図である。図10を参照すると、コンピュータ1000は、バス1006を介して通信可能に接続される、プロセッサ1001、メモリ1002、記憶装置1003およびインタフェース1004を含む。コンピュータ1000は、記憶媒体1005にアクセスできる。メモリ1002および記憶装置1003のそれぞれは、例えばRAM(Random Access Memory)またはハードディスクドライブ等の、記憶装置であってもよい。記憶媒体1005は、RAM、例えばハードディスクドライブ等の記憶装置、ROM(Read Only Memory)、または可搬記憶媒体であってもよい。記憶装置1003が、記憶媒体1005として動作してもよい。プロセッサ1000は、メモリ1002及び記憶装置1003から、データおよびプログラムを読み出すことができ、メモリ1002および記憶装置1003にデータおよびプログラムを書き込むことができる。プロセッサ1001は、インタフェース1004を介して、プロセッサ1001対してフレームを提供するサーバ(図示せず)、及び、最終出力形状を出力するための端末(図示せず)等と通信できる。プロセッサ1001は、記憶媒体1005にアクセスできる。記憶媒体1005は、コンピュータ1000を画像処理装置100または画像処理装置100Aとして動作させるプログラムを記憶する。
プロセッサ1001は、記憶媒体1005に格納される、コンピュータ1000を画像処理装置100または画像処理装置100Aとして動作させるプログラムを、メモリ1002にロードする。コンピュータ1000は、メモリ1002にロードされたプログラムを実行することによって、画像処理装置100または画像処理装置100Aとして動作する。
入力部101、オブジェクト検出部102、特徴抽出部103、学習部104、位置合わせ部106、オクルージョン検出部107、推定部108および出力部110は、記憶媒体1005からメモリ1002にロードされ、上述の各部を実現する専用プログラムと、その専用プログラムを実行するプロセッサ1001とによって実現できる。モデル記憶部105、形状記憶部109および訓練データセット記憶部111は、メモリ1002および/または例えばハードディスク装置等の記憶装置によって実現できる。入力部101、オブジェクト検出部102、特徴抽出部103、学習部104、モデル記憶部105、位置合わせ部106、オクルージョン検出部107、推定部108、形状記憶部109、出力部110および訓練データセット記憶部111の一部または全部は、上述の部の機能を実現する、専用の回路によって実現できる。
最後に、ここで記述し説明した処理、技術および方法は、特定の装置に限定されず、または特定の装置に関連しないことは、明確であろう。それは構成要素の組合せを使用して実装できる。また、ここに含まれる指示に従って、様々な種類の汎用装置を用いてもよい。本発明はまた、例の特定の組合せを用いて記述された。しかし、これらは単に説明であって限定ではない。例えば、説明したソフトウェアは、例えばC++、Java(登録商標)、PythonおよびPerlなどの多様な言語で実装されてもよい。また、この発明の技術の他の実装は、当業者にとって明らかであろう。
本発明は、その実施形態を参照して示し説明したが、この発明はこれらの実施形態に限定されない。請求項に規定されるような本発明の精神およびスコープを逸脱することなく、その形態および詳細に対して様々な変更をできることは当業者によって理解されるであろう。
100 画像処理装置
100A 画像処理装置
101 入力部
102 オブジェクト検出部
103 特徴抽出部
104 学習部
105 モデル記憶部
106 位置合わせ部
107 オクルージョン検出部
108 推定部
109 形状記憶部
110 出力部
111 訓練データセット記憶部
1000 コンピュータ
1001 プロセッサ
1002 メモリ
1003 記憶装置
1004 インタフェース
1005 記憶媒体
1006 バス

Claims (10)

  1. 画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出手段と、
    前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出する位置合わせ手段と、
    前記複数のサブ部分において、前の画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出手段と、
    前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定手段と
    を備える画像処理装置。
  2. 前記位置合わせ手段は、前記初期形状を最初の開始形状として設定し、前記開始形状に基づいて前記画像から抽出された特徴に対して前記モデルを適用することによって前記形状の動きを算出することと、算出された前記動きが前記開始形状に加えられた形状である推定形状を前記開始形状として設定することとを繰り返すことによって、前記推定形状を導出する、
    請求項1記載の画像処理装置。
  3. 1つ以上の一連の訓練画像および真の形状として与えられる形状によって、前記モデルを学習する学習手段
    をさらに備える請求項1または2に記載の画像処理装置。
  4. 前記初期形状は、前記画像の前の画像から導出された推定形状である、
    請求項1から3のいずれか一項に記載の画像処理装置。
  5. 前記形状および前記サブ部分は、前記特徴点の位置情報によって表わされる、
    請求項1から3のいずれか一項に記載の画像処理装置。
  6. 画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出し、
    前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を導出し、
    前記複数のサブ部分において、前画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出し、
    前記局所モデルにおいて、前記遮蔽されたサブ部分として検出されている前記サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する、
    画像処理方法。
  7. コンピュータ
    画像において撮像されたオブジェクトにおける位置にそれぞれ関連付けられる、それぞれ1つ以上の特徴点である、複数のサブ部分を含む形状に基づいて、前記画像から特徴を抽出する特徴抽出処理と、
    前記特徴と前記形状の動きとの関係を表すグローバルモデルと、前記複数のサブ部分に含まれるサブ部分において前記特徴と動きとの関係をそれぞれ表す局所モデルとを含む、複数のモデルにおけるモデルを、初期形状に対して適用することによって、推定形状を得る位置合わせ処理と、
    前記複数のサブ部分において、前画像からの推定形状と、前記グローバルモデルを適用することによって前記画像から得られる推定形状とを比較することによって、遮蔽されたサブ部分を検出するオクルージョン検出処理と、
    前記局所モデルにおいて、該遮蔽された部分として検出されている該サブ部分の動きをそれぞれ制限する局所モデルを選択し、選択された当該局所モデルを適用することによって得られた推定形状を組み合わせて最終出力を生成する推定処理と、
    を実行させるプログラム
  8. 前記位置合わせ処理は、前記初期形状を最初の開始形状として設定し、前記開始形状に基づいて前記画像から抽出された特徴に対して前記モデルを適用することによって前記形状の動きを算出することと、算出された前記動きが前記開始形状に加えられた形状である推定形状を前記開始形状として設定することとを繰り返すことによって、前記推定形状を導出する、
    請求項7記載のプログラム
  9. コンピュータ
    1つ以上の一連の訓練画像および真の形状として与えられる形状によって、前記モデルを学習する学習処理
    を実行させる請求項7または8に記載のプログラム
  10. 前記初期形状は、前記画像の前の画像から導出された推定形状である、
    請求項7から9のいずれか一項に記載のプログラム
JP2017512402A 2014-09-11 2014-09-11 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体 Active JP6296205B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/004705 WO2016038647A1 (en) 2014-09-11 2014-09-11 Image processing device, image processing method and storage medium storing program thereof

Publications (2)

Publication Number Publication Date
JP2017527040A JP2017527040A (ja) 2017-09-14
JP6296205B2 true JP6296205B2 (ja) 2018-03-20

Family

ID=55458440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017512402A Active JP6296205B2 (ja) 2014-09-11 2014-09-11 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体

Country Status (3)

Country Link
US (1) US10878582B2 (ja)
JP (1) JP6296205B2 (ja)
WO (1) WO2016038647A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016206114A1 (en) * 2015-06-26 2016-12-29 Intel Corporation Combinatorial shape regression for face alignment in images
US10252417B2 (en) * 2016-03-02 2019-04-09 Canon Kabushiki Kaisha Information processing apparatus, method of controlling information processing apparatus, and storage medium
CN107451156B (zh) * 2016-05-31 2021-08-20 杭州华为企业通信技术有限公司 一种图像再识别方法及识别装置
CN108304758B (zh) * 2017-06-21 2020-08-25 腾讯科技(深圳)有限公司 人脸特征点跟踪方法及装置
JP2019109709A (ja) * 2017-12-18 2019-07-04 株式会社東芝 画像処理装置、画像処理方法およびプログラム
CN109359510B (zh) * 2018-08-27 2022-03-22 广州大学 一种对异常行为的视觉分析处理方法
CN111145097B (zh) * 2019-12-31 2023-09-01 华为技术有限公司 图像处理方法、装置和图像处理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558402B2 (en) * 2003-03-07 2009-07-07 Siemens Medical Solutions Usa, Inc. System and method for tracking a global shape of an object in motion
JP4708909B2 (ja) 2005-08-09 2011-06-22 富士フイルム株式会社 デジタル画像の対象物検出方法および装置並びにプログラム
US20090002489A1 (en) 2007-06-29 2009-01-01 Fuji Xerox Co., Ltd. Efficient tracking multiple objects through occlusion
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
JP2011060038A (ja) * 2009-09-10 2011-03-24 Seiko Epson Corp 画像処理装置
US8983203B2 (en) * 2011-10-14 2015-03-17 Ulsee Inc. Face-tracking method with high accuracy
US9558396B2 (en) * 2013-10-22 2017-01-31 Samsung Electronics Co., Ltd. Apparatuses and methods for face tracking based on calculated occlusion probabilities

Also Published As

Publication number Publication date
US20170286801A1 (en) 2017-10-05
JP2017527040A (ja) 2017-09-14
US10878582B2 (en) 2020-12-29
WO2016038647A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
JP6296205B2 (ja) 画像処理装置、画像処理方法およびそのプログラムを記憶する記憶媒体
Le et al. Interactive facial feature localization
US10380413B2 (en) System and method for pose-invariant face alignment
Wu et al. Robust facial landmark detection under significant head poses and occlusion
KR101304374B1 (ko) 객체 특징을 위치결정하는 방법
Tulyakov et al. Regressing a 3D face shape from a single image
US11138464B2 (en) Image processing device, image processing method, and image processing program
US10657625B2 (en) Image processing device, an image processing method, and computer-readable recording medium
US20140098988A1 (en) Fitting Contours to Features
Santiago et al. 2D segmentation using a robust active shape model with the EM algorithm
JPWO2019003973A1 (ja) 顔認証装置、顔認証方法およびプログラム
EP3300025A1 (en) Image processing device and image processing method
US20140099031A1 (en) Adjusting a Contour by a Shape Model
CN108154176B (zh) 一种针对单一深度图像的3d人体姿态估计算法
Johnson et al. Combining discriminative appearance and segmentation cues for articulated human pose estimation
Donoser et al. Robust planar target tracking and pose estimation from a single concavity
Demirkus et al. Multi-layer temporal graphical model for head pose estimation in real-world videos
Alsheakhali et al. CRF‐Based Model for Instrument Detection and Pose Estimation in Retinal Microsurgery
Guo et al. Hand gesture recognition and interaction with 3D stereo camera
Celestino et al. 2D Image head pose estimation via latent space regression under occlusion settings
JP2011232845A (ja) 特徴点抽出装置および方法
Schmeckpeper et al. Semantic keypoint-based pose estimation from single RGB frames
Dong et al. Robust facial landmark localization using multi partial features
Wu et al. Facial 3D model registration under occlusions with sensiblepoints-based reinforced hypothesis refinement
Kao et al. Human upper-body motion capturing using kinect

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180205

R150 Certificate of patent or registration of utility model

Ref document number: 6296205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150