JP6681729B2

JP6681729B2 - オブジェクトの３ｄ姿勢およびオブジェクトのランドマーク点の３ｄロケーションを求める方法、およびオブジェクトの３ｄ姿勢およびオブジェクトのランドマークの３ｄロケーションを求めるシステム

Info

Publication number: JP6681729B2
Application number: JP2016021810A
Authority: JP
Inventors: マイケル・ジェイ・ジョーンズ; ティム・マークス; シャフダル・パパツォフ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-02-26
Filing date: 2016-02-08
Publication date: 2020-04-15
Anticipated expiration: 2036-02-08
Also published as: US10515259B2; US20160253807A1; JP2016161569A

Description

本発明は、包括的には、コンピュータビジョンに関し、詳細には、オブジェクトの３Ｄ姿勢およびオブジェクトのランドマーク点の３Ｄロケーションを求めることに関し、より詳細には、３Ｄ頭部姿勢と顔ランドマーク（ｆａｃｉａｌｌａｎｄｍａｒｋ）の３Ｄロケーションとを求めることに関する。

複数のコンピュータビジョンアプリケーションが、三次元（３Ｄ）ポイントクラウドから、オブジェクトの３Ｄ姿勢（３Ｄ回転角度および３Ｄ並進）と、オブジェクトにおけるランドマーク点の３Ｄロケーションとを自動的に求めることを必要とする。特に、いくつかの用途では、３Ｄポイントクラウドから、人間の頭部の３Ｄ姿勢と、眼の重心等の顔ランドマークの３Ｄロケーションとが必要である。３Ｄポイントクラウドは、通常、ＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔ（商標）、ＣｒｅａｔｉｖｅＳｅｎｚ３Ｄ（商標）センサまたはステレオカメラ等の奥行きセンサによって取得される奥行き画像から構築される。３Ｄポイントクラウドは、オブジェクトの３Ｄモデルを用いて合成的に生成することもできるし、Ｃｙｂｅｒｗａｒｅ（商標）スキャナ等の３Ｄスキャナを直接用いて取得することもできる。

頭部姿勢および顔ランドマークロケーションを自動的に求めることは、ほんの数例の用途を挙げると、顔認識システム、人間とコンピュータとのインターフェース、および拡張現実システムのために重要である。顔認識システムにおいて、例えば、高精度に対する障害のうちの１つは頭部の姿勢の変動である。姿勢を正確に求めることによって、コンピュータグラフィック技法を用いて正面姿勢の顔を再レンダリングすることができ、このため、姿勢に起因した変動を大幅に解消することができる。

別の例として、ヘッドアップディスプレイとしてフロントガラスを用いる車のための拡張現実システムは、情報がフロントガラスを通じて見える世界のオブジェクトと適切に位置合わせされるようにヘッドアップディスプレイ上に情報を適切にオーバーレイするために、運転者の眼の３Ｄ位置を精密に求める必要がある。

頭部姿勢および顔ランドマーク推定の問題に対する複数の従来技術の解決策が存在する。多くの解決策は、グレースケールカメラまたはカラーカメラによって取得された２Ｄ画像を用い、例えば、３Ｄモーフィングモデルの姿勢、形状および照明パラメータを最適化して、入力画像に可能な限り厳密に一致する２Ｄレンダリングを得ることによって、３Ｄ姿勢およびロケーションを推測する。

この問題を解決するためのいくつかの従来技術の方法は、奥行き画像（奥行きマップとしても知られる）を用いる。奥行き画像は、各ピクセルにおける値が奥行き値を表す２Ｄ画像であるか、または各ピクセルが色値および奥行き値を有する、色＋奥行き画像である。色＋奥行き画像を捕捉するセンサは、ＲＧＢ−Ｄ（赤、緑、青、奥行き）センサと呼ばれる場合があり、センサが生成する画像は、ＲＧＢ−Ｄ画像と呼ばれる場合があることに留意されたい。単色＋奥行き画像（例えば、グレースケール＋奥行き）は、色＋奥行き画像の一種とみなすことができることにも留意されたい。

１つの方法は、ステレオ画像対を用いて奥行きを求め、次に、肌の色を用いて頭部を検出する。３層ニューラルネットワークは、頭部領域のスケーリングされた奥行き画像を所与として姿勢を推定する。非特許文献１を参照されたい。

別の方法は、低ノイズ奥行き画像取得システムと、グラフィックスプロセッシングユニット（ＧＰＵ）の速度とを利用する、頭部姿勢推定のためのより正確でより高速なシステムを用いる。まず、候補３Ｄ鼻位置が、高品質奥行き画像において検出される。次に、ＧＰＵを用いて、入力奥行き画像と、各候補鼻位置に配置された平均頭部モデルから生成された複数の記憶された奥行き画像との間の最良の一致が特定される。非特許文献２を参照されたい。

他の方法は、高品質の３Ｄ奥行き画像も入力として用いる。これらの方法は、ランダム回帰フォレストと、奥行き画像のパッチから頭部姿勢角度または顔ランドマークロケーションへの学習されたマッピングとに基づく。事後確認作業において、Ｋｉｎｅｃｔセンサが用いられる。Ｋｉｎｅｃｔセンサは、前の作業において用いられる高品質スキャンと比較して大幅にノイズの多いデータを提供する。非特許文献３、非特許文献４および非特許文献５を参照されたい。

１つの方法は、入力に最も一致するテンプレートの３Ｄ回転を求めることによって、Ｋｉｎｅｃｔセンサの奥行き画像を用いて姿勢を推定する。しかしながら、その方法は、既知の姿勢の人物固有の初期テンプレートを必要とする。これによって、その方法は多くの用途で実現不可能となっている。非特許文献６を参照されたい。

特許文献１および特許文献２は、人間の身体の姿勢推定方法について記載している。この方法における目標は、身体の骨格の関節位置を推定することである。その方法において、奥行き画像のパッチを用いて特徴ベクトルを求める。特徴ベクトルは、近似最近傍アルゴリズムを用いて、関節位置に対する既知の変位を有するトレーニングパッチからの特徴ベクトルのデータベースに対し照合される。各最近傍一致を用いて、関節のロケーションに対する変位が得られる。次に、これらの変位を用いて所望の関節位置の推定値が導出される。

米国特許第８，５８２，８６７号米国特許第８，８２４，７８１号

Ｓｅｅｍａｎ他「Ｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｕｓｉｎｇｓｔｅｒｅｏｖｉｓｉｏｎｆｏｒｈｕｍａｎ−ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎ」ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．６２６−６３１，Ｍａｙ２００４Ｂｒｅｉｔｅｎｓｔｅｉｎ他「Ｒｅａｌ−ｔｉｍｅｆａｃｅｐｏｓｅｅｓｔｉｍａｔｉｏｎｆｒｏｍｓｉｎｇｌｅｒａｎｇｅｉｍａｇｅｓ」ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．１−８，Ｊｕｎｅ２００８Ｆａｎｅｌｌｉ他「Ｒａｎｄｏｍｆｏｒｅｓｔｓｆｏｒｒｅａｌｔｉｍｅ３Ｄｆａｃｅａｎａｌｙｓｉｓ」ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１０１：４３７−４５８，２０１３Ｆａｎｅｌｌｉ他「Ｒｅａｌｔｉｍｅｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｗｉｔｈｒａｎｄｏｍｒｅｇｒｅｓｓｉｏｎｆｏｒｅｓｔｓ」ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１１Ｆａｎｅｌｌｉ他「Ｒｅａｌｔｉｍｅｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｆｒｏｍｃｏｎｓｕｍｅｒｄｅｐｔｈｃａｍｅｒａｓ」ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＧｅｒｍａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＤＡＧＭ）Ｓｙｍｐｏｓｉｕｍ，２０１１Ｐａｄｅｌｅｒｉｓ他「Ｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｏｎｄｅｐｔｈｄａｔａｂａｓｅｄｏｎｐａｒｔｉｃｌｅｓｗａｒｍｏｐｔｉｍｉｚａｔｉｏｎ」ＣＶＰＲＷｏｒｋｓｈｏｐｏｎＨｕｍａｎＡｃｔｉｖｉｔｙＵｎｄｅｒｓｔａｎｄｉｎｇｆｒｏｍ３ＤＤａｔａ，２０１２

本発明の実施形態は、奥行き画像からまたは色＋奥行き画像内の奥行き情報から構築することができるような３Ｄポイントクラウドから、オブジェクトの３Ｄ姿勢と、オブジェクトにおけるランドマーク点の３Ｄロケーションとを自動的に求める方法およびシステムを提供する。

本方法は、奥行きセンサの特定のモデルまたはタイプに限定されない。なぜなら、トレーニングデータを低ノイズ（またはノイズなし）の３Ｄオブジェクトモデルから生成することができるためである。ノイズの多いセンサを用いて機能する従来技術のモデルでは、トレーニングデータは試験データと同じタイプのセンサを用いて取得されなくてはならないか、またはそうでなければ精度が低減する。本方法は低ノイズまたはゼロノイズ高分解能モデルを用いてトレーニングすることができるので、いかなる特定の用途において用いられる試験センサからも独立している。これによって、本方法は既存の方法よりも汎用的に適用可能かつ移行可能となっている。

３Ｄポイントクラウドから、本方法は３Ｄサーフェスパッチを抽出する。パラメトリックモデルは各３Ｄサーフェスパッチに当てはめられる。パッチに適合するのに用いられるパラメータは、パッチの記述子として、特徴ベクトルの形態で用いられる。次に、近似最近傍探索を用いて、３Ｄポイントクラウドから抽出されるパッチの記述子と、トレーニングデータから抽出された類似のサーフェスパッチの記述子との間の１組の対応関係が求められる。トレーニングサーフェスパッチは、既知の姿勢とオブジェクトランドマーク点の既知のロケーションとを有するオブジェクトのポイントクラウドから抽出される。

各対応関係によって、３Ｄ回転および３Ｄ並進、並びにオブジェクトランドマーク点の３Ｄロケーションを含むオブジェクトの姿勢の推定値が得られる。各個々の推定値はノイズが多い可能性があるが、全ての３Ｄサーフェスパッチからの全ての対応関係の組によって、３Ｄ姿勢およびランドマーク点の３Ｄロケーションの正確な推定値が得られる。

好ましい実施形態では、オブジェクトは人間の頭部であり、ランドマーク点は、鼻の先端、眼の中心、および眼の端等の顔ランドマークである。

好ましい実施形態では、パッチは、頂点が頭部を表す３Ｄポイントクラウドから抽出される基本正三角形に基づく三角形サーフェスパッチ（ＴＳＰ）である。いくつかの実施形態では、各パッチに当てはめるのに用いられるパラメトリックモデルは、三角形ベジエサーフェスである。他の実施形態では、各三角形パッチに当てはめられるパラメトリックモデルはサブ三角形パラメトリックモデルである。他の実施形態は、基本三角形の上下のサーフェスの他のパラメトリックモデルを用いる。

従来技術の方法は通常、３Ｄポイントクラウドによって表される３Ｄサーフェスの３Ｄパッチではなく、奥行き画像の２Ｄパッチを用いる。これらの方法は、ポイントクラウドの局所領域に対しパラメトリックサーフェスを当てはめない。これらの記述子は、奥行き画像の２Ｄパッチに含まれる点に基づく。このため、これらの記述子は、トレーニングセットが、入力試験画像と類似した姿勢の頭部の奥行き画像から抽出されたパッチを含まなくてはいけないという点で、姿勢に固有である。

対照的に、本発明の実施形態によって用いられる記述子は姿勢に固有ではなく、３Ｄポイントクラウドのトレーニングセットは必ずしも何らかの特定の頭部姿勢を表すものではない。

本発明の実施形態による、３Ｄポイントクラウドから頭部の３Ｄ姿勢および顔ランドマークの３Ｄロケーションを求める方法およびシステムの流れ図である。本発明の実施形態によって用いられる正三角形の概略図である。本発明の実施形態による３Ｄ三角形サーフェスパッチ（ＴＳＰ）の概略図である。本発明の実施形態による、無限長の三角形プリズム内の１組の点の概略図である。本発明の実施形態による、サブ三角形パラメトリックモデルと呼ばれる第１のパラメトリックモデルの概略図である。本発明の実施形態による、サブ三角形パラメトリックモデルと呼ばれる第１のパラメトリックモデルの概略図である。本発明の実施形態による、サブ三角形パラメトリックモデルと呼ばれる第１のパラメトリックモデルの概略図である。本発明の実施形態による、トレーニングのために用いられる例示的な３Ｄ頭部の概略図である。本発明の実施形態による、トレーニングのために用いられる基本三角形および関連データの概略図である。本発明の実施形態による、３Ｄ頭部モデルから導出されたポイントクラウドから抽出された、基本三角形にわたって定義された三角形サーフェスパッチ（ＴＳＰ）の概略図である。本発明の実施形態による、３Ｄ頭部モデルから導出されたポイントクラウドから抽出された、基本三角形にわたって定義された三角形サーフェスパッチ（ＴＳＰ）の概略図である。本発明の実施形態によるＴＳＰを近似するベジエ三角形の概略図である。

システムおよび方法の概観
図１に示すように、本発明の実施形態は、頭部１０２の３Ｄ姿勢１１８および例えば顔ランドマークの３Ｄロケーション１１９を自動的に求める方法およびシステムを提供する。３Ｄポイントクラウド１０１が得られる。得る手段は、例えば、奥行きセンサ１０３によって取得された奥行き画像から３Ｄポイントクラウドを計算することによるものとすることができる。３Ｄポイントクラウドから、本方法は３Ｄサーフェスパッチ１１１を抽出する（１１０）。パラメトリックモデル１０９は各３Ｄサーフェスパッチに当てはめられる（１２０）。サーフェスパッチを当てはめるのに用いられるパラメータは、例えば特徴ベクトルの形態で、パッチのための記述子として用いられる。このため、観測された３Ｄポイントクラウドから抽出された情報は、全ての抽出されたサーフェスパッチ１１１の記述子の組１２１に含まれる。近似最近傍アルゴリズムを用いて、３Ｄポイントクラウドから抽出されたパッチの記述子の組と、トレーニングデータから以前に抽出され、ライブラリ１２９に記憶された同様のサーフェスパッチの記述子との間の１組の対応関係が求められる。トレーニングサーフェスパッチは、既知の姿勢および顔ランドマークの既知のロケーションを有する頭部のポイントクラウドから抽出される。好ましい実施形態では、これらのポイントクラウドは、ランダムに生成された合成３Ｄ頭部モデルから得られる。

本方法は、３Ｄポイントクラウドによって表されるオブジェクトが同じオブジェクトクラスにある限り、頭部以外のオブジェクトにも適用することができ、例えば、オブジェクトクラスは、頭部、車両、ロボット等であり得ることが理解される。

各対応関係によって３Ｄ頭部姿勢１１８の推定値が得られる。この推定値は、３Ｄ回転および３Ｄ並進、並びに顔ランドマークの推定３Ｄロケーション１１９を含む。各個々の推定値はノイズを有する可能性があるが、ポイントクラウドから抽出された全ての３Ｄサーフェスパッチからの全ての対応関係の組によって、３Ｄ頭部姿勢および３Ｄ顔ランドマークロケーションの正確な推定値が得られる。

これらのステップは、（３Ｄポイントクラウドおよびライブラリ１２９を記憶するための）メモリおよび（例えば、当該技術分野において既知のバスによってセンサ１０３に接続された）入出力インターフェースに接続されたプロセッサ１００において実行することができる。

本方法への入力は、現実世界のオブジェクト（例えば、頭部）を表す３Ｄポイントクラウドであり、本方法の出力はオブジェクトの３Ｄ姿勢およびランドマークの３Ｄロケーションである。姿勢およびランドマークは、例えば表示デバイスに、または更なる処理を行う別のアプリケーションに送信することができる。

三角形サーフェスパッチ
本発明の好ましい実施形態は、３Ｄ三角形サーフェスパッチ（ＴＳＰ）を用いる。

図２Ａに示すように、各３ＤＴＳＰ１１１は、まず、頂点２０４が概ね３Ｄポイントクラウドによって表されるサーフェス上にある、所定の辺長を有する正三角形Ｔ２０１を定義することによって３Ｄポイントクラウドから抽出される。３Ｄポイントクラウドのサーフェスから３ｍｍ等の閾値距離以内にある頂点が許可される。この三角形ＴをＴＳＰのための基本三角形と呼ぶ。多岐にわたる方法を用いてサーフェス三角形Ｔを選択することができる。好ましい実施形態では、ポイントクラウドによって定義されるサーフェス上のランダムなロケーションおよびランダムな向きから所定のサイズの正三角形を選択する方法を用いる。

正三角形サンプリング
３Ｄポイントクラウドからの高速正三角形サンプリングを、本方法のトレーニングフェーズおよび試験フェーズの双方において用いることができる。問題は以下のように定式化することができる。ポイントクラウド

並びに２つの正の数ｄおよびｌを所与として、各ｑ_ｉとＳからの最近傍点との間の距離がｄよりも小さくなるような辺長ｌを有する正三角形Ｔ＝（ｑ_０，ｑ_１，ｑ_２）を生成する。

明らかに、或る特定のポイントクラウド並びにｄおよびｌの値の場合、そのような三角形は存在しない。しかしながら、本発明によるポイントクラウドは十分密であり、ｄおよびｌの双方が適切な値、例えばｄ＝３ｍｍを有する。

まず、Ｓの点からシード点ｐを一様にサンプリングし、ｐにおいて法線方向ｎを計算する。

Ｓがメッシュの頂点の組である場合、シード点はランダムに選択されたメッシュ三角形の内部から一様にサンプリングされる。ここで、メッシュ三角形を選択する確率はその面積に比例する。この場合、ｎは単に、ｐがサンプリングされたメッシュ三角形の法線である。

Ｓが奥行き画像から再構成されたポイントクラウドである場合（各ポイントは奥行きマップ内の単一のピクセルに対応する）、シード点ｐはポイントクラウド内の点の組から一様にサンプリングすることができる。この場合、ｎを、ｐおよびその４連結近傍の対を通過する面の法線の平均として計算する。ここで、Ｓの近傍構造は、奥行き画像の長方形格子によって課される近傍構造である。

ここで、シード点ｐおよび法線ｎを得ているので、辺長ｌを有する正三角形Ｔを生成し、この正三角形Ｔが、ｐおよびｎによって定義される面内にあり、かつこの正三角形Ｔの重心がｐと合致するようにこの正三角形Ｔを変換する。これは、区間［０、２π）からランダムに選択する角度だけｎの回りを回転させてＴを定義する。

この手順によって、ポイントクラウドに十分近いことを除いて全ての要件を満たすランダムに生成された三角形が得られる。これを達成するために、反復最近傍点（ＩＣＰ）アルゴリズムを用いてＴを変換する。ＩＣＰの各反復において、まず、全ての三角形頂点ｑ_ｉについて、Ｓからｑ’_ｉによって表される最近傍点を計算し、次に、ｑ’_ｉと変換されたｑ_ｉとの間の二乗距離の総和ｉが最小になるようにＴを剛体変換する。

最初は、ＴはＳからあまり離れていないため、ＩＣＰは通常、僅かな数の反復（例えば、３回の反復）以内で収束する。その後、各三角形頂点が実際にＳから距離ｄ以内にあるか否かを検査する。そうでない場合、三角形は拒否され、全体手順が繰り返される。このサンプリング方法は、入力ポイントクラウドを概ね一様にカバーする三角形を生成する。奥行き画像のノイズが多すぎ、かつ法線ｎを確実に計算することができない場合、単にｎを、奥行きセンサのビュー方向の負値（通常、［０、０、−１］）にセットすることができることに留意されたい。この場合、初期三角形もポイントクラウドに位置合わせされず、ＩＣＰは収束するために追加の反復を必要とする可能性が高い。

そのような正三角形Ｔを所与として、３ＤＴＳＰＰ２０２は、図２Ｂに示すように、正三角形の上または下の顔のサーフェス上に位置するポイントクラウドからの点を含む。換言すれば、３ＤＴＳＰは、基本三角形Ｔを有する無限に高い三角形プリズム２０３内に含まれるポイントクラウドからの点の組である。

図２Ｃに示すように、無限範囲のプリズムを有することによって、基本三角形に近い点および頭部の無関係の部分に属する点を含むＴＳＰが導かれる可能性がある。これを回避するために、点がプリズムの内側にあり、かつ基本三角形の重心を中心とし基本三角形の頂点を通る外接球の内部にあるときにのみ、点がＴＳＰ内にあるとみなす。

一般的なサーフェス形状の場合、基本三角形の外接球は基本三角形の過度に上または下にあるサーフェス部分を切り離すことができる。しかしながら、顔は限られた局所的高さ変動を有し、本発明では十分に大きな辺長を有する三角形を用いるので、実際にこれが生じることはない。

基本三角形Ｔおよび対応する三角形サーフェスパッチＰを所与として、ＴＳＰを表すコンパクト記述子を求める。本発明では、パラメトリックモデルを３Ｄサーフェスパッチに当てはめることによってこれを行う。次に、モデルのパラメータをサーフェスパッチの記述子として用いる。サブ三角形パラメトリックモデルまたはベジエ三角形パラメトリックモデル等の、ＴＳＰに当てはめて、ＴＳＰの記述子を与えることができる複数のタイプのパラメトリックモデルが存在する。

サブ三角形パラメトリックモデル
図３Ａに示すような第１のパラメトリックモデルでは、基本三角形はｋ^２個のサブ正三角形（例えば、ｋ＝４）に分割される。ＴＳＰＰ内の点が基本三角形上に垂直に投影される場合、Ｐ内の各点はサブ三角形のうちの１つに投影される。このことを、点がサブ三角形に属す、または同等に、サブ三角形が点を含むと言う。図３Ｂに示すように、Ｐ内の各点は基本三角形からの或る（正または負の）高さ３０１を有する。

各サブ三角形の記述子は、サブ三角形内に含まれる点の平均高である。サブ三角形内の全ての点の平均高を用いることによって、記述子が、ポイントクラウド内のノイズおよびデータ分解能の変動に対しロバストになる。サブ三角形パラメトリックモデルにおいて、ＴＳＰの記述子は、全てのサブ三角形の記述子の連結であるベクトルｖである。ＴＳＰ記述子は、図３Ｃに示すように、ＴＳＰを近似する基本三角形の座標系内で定義される区分的に一定な三角形サーフェスパッチのパラメータ組として解釈することができる。サブ三角形内に含まれるサーフェスパッチの部分は、サブ三角形と合同でありサブ三角形に平行であるが、サブ三角形から離れている、すなわち基本三角形に対し、サブ三角形に含まれる点の平均高だけ、垂直な方向にオフセットされている三角形サブパッチとして近似される。

欠落データの充填
現実世界の奥行き画像の更なる課題は、奥行きセンサにおける制限および頭部の自己遮蔽に起因する穴の存在である。これによって、空のサブ三角形および未定義の記述子を有するＴＳＰが導かれる可能性がある。

これに対処するために、反復手順を用いて、空の（すなわち、埋められていない）サブ三角形にわたってフルの（すなわち、埋められた）サブ三角形の高さ情報を伝搬することによって欠落データを満たす。各反復中、各空のサブ三角形は、そのフルの近傍サブ三角形の平均高を割り当てることによって埋められる。フルの近傍を有しないサブ三角形は、現在の反復中変更されないままである。このプロセスは、全てのサブ三角形が埋められるまで繰り返される。最終的に、固定数の平滑化反復、例えば、近傍サブ三角形内の値の単純な平均化が、元のフルのサブ三角形を変更することなく新たに埋められたサブ三角形のみに適用される。これによって、ポイントクラウド内の任意の穴にわたる高さ情報の平滑な分布がもたらされる。

ベジエ三角形パラメトリックモデル
図５Ａ〜図５Ｃは、第２のパラメトリックモデルの例、すなわち、３Ｄポイントクラウドから抽出された基本三角形５０１にわたって定義されるベジエ三角形を示す。この例において、ポイントクラウドは、高分解能３Ｄメッシュの頂点ロケーションからなる。ＴＳＰ５０２は、ベジエ三角形５０３を用いて近似される。この例では、ベジエ三角形５０３は、ＴＳＰ５０２の平滑な近似である。ベジエ三角形は、ｎ個の制御点によって定義されるサーフェスであり、これらはそれぞれ、基本三角形におけるｎ個の規則的に離間された点に関連付けられる。一般的なベジエ三角形の場合、モデルのパラメータは、基本三角形上の点の位置からの各制御点の３Ｄ変位であり、すなわち、制御点ごとの３つのパラメータである。

モデルを単純化し、ベジエ三角形のパラメータ数を低減するために、各制御点を基本三角形に対し垂直に変位されるように制限する。このため、制御点ごとに、１つのみ対応するパラメータ、すなわち、基本三角形の上または下の制御点の高さが存在する。制御点の数ｎは、ＴＳＰＰにおける３Ｄ点の組に対するベジエ三角形の所望の当てはめに依拠して変動する可能性がある。このモデルを用いると、ＴＳＰ記述子は単に、全ての制御点の高さ（正または負）を含む長さｎのベクトルである。

三角形サーフェスパッチおよびＴＳＰ記述子の利点
本手法の第１の重要な強みは、三角形サーフェスパッチが、奥行き画像ではなく３Ｄポイントクラウドにわたって定義されることである。これによって、パッチは視点の変化を受けたときに、より不変となる。奥行き画像のパッチ上で特徴を直接計算する従来技術の方法は、トレーニングセットが、試験奥行きマップと同様の視点から捕捉された奥行きマップを含むことを必要とする。なぜなら、普通の写真画像と全く同様に、奥行き画像は視点の変化とともに大幅に変動する可能性があるためである。奥行き画像と対照的に、３Ｄポイントクラウドは、より広い範囲の視点変化にわたってその基本形状を維持する。このため、トレーニングデータが特定の始点と関連付けられていないにもかかわらず、本手法は極めて良好に機能する。

本手法の第２の強みは、本発明によるＴＳＰ記述子がローカルなサンプリング密度における変動に対しロバストであり、これによって視点の変化に対するロバスト性がさらに改善し、部分的遮蔽および欠落データの他の原因に対するロバスト性ももたらされることである。３Ｄポイントクラウドが奥行き画像から得られる（例えば、奥行きセンサを用いて取得される）とき、点の密度は、奥行き画像が取得された視点に基づいて変動する。例えば、サーフェス法線が、奥行き画像を取得する奥行きセンサの方を直接向いているオブジェクトサーフェス上のエリアは、ポイントクラウドにおいて密に表される。一方、法線が奥行きセンサの軸に対しほぼ垂直に向いている（すなわち、奥行きセンサからオブジェクトへの方向からほぼ９０度離れた）オブジェクトサーフェス上のエリアは、ポイントクラウドにおける非常に僅かなサーフェスポイントによって表される。本発明によるパラメトリックモデル、サブ三角形パラメトリックモデルおよびベジエ三角形パラメトリックモデルは、ポイントクラウドによって表されるサーフェスの３Ｄ形状を、サンプリング密度の変動による影響を強く受けないように近似する。これは、サンプリング密度における変動の影響を大きく受ける、ヒストグラムに基づくポイントクラウドの３Ｄ記述子と対照的である。

トレーニング
好ましい実施形態では、トレーニングは図４Ａに示す例等の３Ｄ頭部の高分解能メッシュにおいて実行される。いくつかの実施形態では、各メッシュは単一の対象物の高分解能３Ｄスキャンを用いて得られる。好ましい実施形態では、各メッシュはパラメトリック３Ｄ頭部モデルのパラメータをランダムに変動させることによって生成される。パラメトリック３Ｄ頭部モデル自体は、複数の対象物の高分解能３Ｄスキャンから導出することができる。モデルごとのポイントクラウドは、複数の方法、例えば、メッシュの頂点として、またはメッシュ内の多角形の中心として、またはメッシュからランダムにサンプリングされた点として、メッシュから定義することができる。トレーニングセット内の各メッシュから、重なり合う基本三角形におけるメッシュを密にカバーするｎ個の基本正三角形Ｔ_１，．．．，Ｔ_ｎ、例えば、ｎ＝１００００をランダムにサンプリングする。次に、各サンプリングされた基本三角形Ｔ_ｉに対応するＴＳＰを求め、関連付けられた記述子ｖ_ｉを求める。

さらに、各基本三角形Ｔ_ｉと、Ｔ_ｉの重心から或る特定の対象点までのベクトルとを関連付ける。これらは、好ましい実施形態では、モデル重心およびそのモデルの或る特定の顔ランドマーク、例えば、鼻の頂部、鼻の先端および眼の重心である。これらのベクトルは、試験中、顔ランドマークのロケーションを求めるのに用いられる。

ライブラリ
このため、トレーニングモデルごとに、ｎ個のサンプルτ_１，．．．，τ_ｎを生成し記憶する。これらの各サンプルが、基本三角形Ｔ_ｉを関連データτ_ｉ＝｛Ｔ_ｉ，ｖ_ｉ，ｃ_ｉ，ｕ_ｉ１，．．．，ｕ_ｉｑ｝と共に含む。ここで、ｖ_ｉはＴＳＰ記述子であり、ｃ_ｉはＴ_ｉの重心からモデル重心までのベクトルであり、ｕ_ｉｋは、図４Ｂに示すように、Ｔ_ｉの重心からｋ番目の顔ランドマークの位置までのベクトルであり、ｑは各モデル内のランドマークの数である。

全てのトレーニング顔モデルからの全てのサンプルがライブラリ１２９内に記憶される。ライブラリは、ＴＳＰ記述子が所与のクエリサンプルの記述子に最も類似しているサンプルの高速な検索を可能にするように編成される。記述子間の類似性はユークリッド距離によって測定される。ＴＳＰ記述子の最近傍を効率的に得るために、近似最近傍アルゴリズムを用いることができる。例えば、Ｍｕｊａ他「ＳｃａｌａｂｌｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＡｌｇｏｒｉｔｈｍｓｆｏｒＨｉｇｈＤｉｍｅｎｓｉｏｎａｌＤａｔａ」ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ．３６，２０１４を参照されたい。

ＴＳＰ記述子ｖ_ｉは、大きな行列内の行ベクトルとして保存され、τ_ｉの他の成分はアレイ内に対応する順序で記憶される。試験頭部からのサンプルのためのクエリ記述子を所与とすると、近似最近傍アルゴリズムは行列に対し演算を行い、クエリ記述子に概ね最も類似したライブラリ内のＴＳＰ記述子の行インデックスが得られる。これらを用いて、アレイから、対応する基本三角形およびこれらの関連付けられた顔ランドマーク情報を検索することができる。

顔モデルの重心ｃ_ｉおよび顔ランドマークベクトルｕ_ｉ１，．．．，ｕ_ｉｑは全て基本三角形Ｔ_ｉに対して定義されるので、本発明によるモデル表現を用いて、任意の姿勢の、特にセンサ１０３から任意の距離にある頭部について、姿勢および顔ランドマークのロケーションを推定することができる。

さらに、トレーニングは、（対象物から特定の距離にある特定の奥行きセンサから得られた奥行き画像を用いるのではなく）一般的な３Ｄモデルにおいて行われるので、試験中、同じトレーニング結果（例えば、同じライブラリ）を様々なセンサと共に用いることができる。これは、トレーニングおよび試験のために同じセンサ（または同じモデルのセンサ）が用いられなくてはならないほとんどの従来技術の方法について当てはまらない。

試験
試験は、頭部１０２の３ＤポイントクラウドＳ１０１において実行される。好ましい実施形態では、ポイントクラウドは、奥行き画像から再構成された、例えば、Ｋｉｎｅｃｔセンサ等の奥行きセンサ１０３から得られたものである。頭部姿勢（３Ｄ頭部向きおよび３Ｄ頭部重心ロケーションからなる）および顔ランドマークのロケーションは以下のように求められる。

投票
ポイントクラウドＳからサンプリングされた基本正三角形Ｔ’_ｉを検討する。対応するＴＳＰおよび記述子ｖ’_ｉを求める。次に、ｖ’_ｉをキーとして用いて、ライブラリから最も類似した記述子ｖ_ｉを検索する。ｖ_ｉはライブラリサンプルτ_ｉと関連付けられることを想起されたい。ライブラリサンプルτ_ｉはまた、基本三角形Ｔ_ｉと、三角形Ｔ_ｉに対する対応するトレーニング頭部の重心のロケーションを与えるベクトルｃ_ｉと、Ｔ_ｉに対するｑ個の顔ランドマークの各々のロケーションを与えるベクトルであるｕ_ｉ１，．．．，ｕ_ｉｑとを含む。

ｃ_ｉをポイントクラウドＳの座標系に変換する。これは、並進がμ’_ｉである剛体変換によって達成され、その回転行列Ｒ_ｉは以下のようにして得られる。すなわち、Ｔ_ｉおよびＴ’_ｉをそれぞれ並進させて、重心が原点にある

を取得し、次に、

を満たすＲ_ｉを得る。このようにして、試験三角形Ｔ’_ｉに対する照合に基づいて、モデル基本三角形Ｔ_ｉは、頭部向きＲ_ｉおよび頭部重心ロケーションｔ_ｉ＝μ’_ｉ＋Ｒ_ｉｃ_ｉおよび

に対し投票する。

現実世界のデータを扱っているため、入力ポイントクラウドはノイズによって破損する可能性があり、頭部でないオブジェクトを表す可能性もある。さらに、試験する頭部はライブラリ内に表されていない対象物からのものである場合がある。これらの変動に対処するために、試験頭部からｍ個のクエリ基本三角形をサンプリングし、クエリ三角形ごとに、記述子がクエリ三角形の記述子に最も類似しているｈ個のトレーニング三角形を検索する。これらのトレーニング三角形のそれぞれが特定の姿勢に対し投票する。このことを、これらのｈ個のトレーニング三角形がクエリ三角形に一致すると言い、クエリ三角形を、ｈ個のトレーニング三角形に対する一致試験三角形と呼ぶ。

この結果、頭部の向きのための合計ｍｈ個の回転行列投票と、重心ロケーションのためのｍｈ個の位置投票とが得られる。これらの投票は２つの異なる空間内にあることに留意されたい。回転投票は、回転行列ＳＯ（３）の群内にあり、位置投票は３次元ユークリッド空間

内にある。顔ランドマークロケーションが求められる前に、投票フィルタリングを用いて不一致の投票を削除する。

投票フィルタリング
トレーニング中、基本三角形に対するベクトルとして、モデル重心に類似した顔ランドマークロケーションが記憶される。このため、顔ランドマークロケーションに対する投票は、モデル重心に対する投票が行われるのと同じようにして行うことができる。これによって、複数の投票空間、すなわち、頭部の向きのためのＳＯ（３）と、頭部重心およびランドマークロケーションの各々のための別個の投票空間

がもたらされる。各投票空間内のクラスター中心を独立して検出することができる。

投票によって、一貫性のないクラスター中心、すなわち、相対ロケーションが実際の人間の顔では物理的にあり得ない誤った配置の顔ランドマークが導かれる可能性がある。顔は個人間で非剛体的に（ｉｎａｎｏｎ−ｒｉｇｉｄｍａｎｎｅｒ）異なっているにもかかわらず、特定の頭部位置および向きは、鼻、眼、耳等の可能なロケーションに対し強い制約を課す。これは、上記で説明したクラスタリングによって考慮に入れられていない。

共同クラスタリング
したがって、回転および重心投票空間内で共同クラスタリングを実行することによって、一貫性のない投票をフィルタリング除去する。顔ランドマーク投票を用いない理由は以下である。各空間における独立したクラスタリングを用いた試験は、回転推定値が、顔ランドマークの推定値よりも安定していることを示し、ランドマークロケーション推定値が頭部向き推定値よりも頻繁に誤っていることを意味する。

頭部の欠落した並進自由度を得るために、重心投票を用いる。顔ランドマーク推定値の誤差が、基本三角形とランドマーク位置との間の距離の増大と共に増大することに留意されたい。モデル重心は、全ての基本三角形に対する平均距離を概ね最小化するので、重心は全ての位置投票間で最も適切である。共同クラスタリングは以下のように機能する。

各モデル基本三角形Ｔ_ｉが頭部向きＲ_ｉおよび頭部重心ロケーションｔ_ｉの双方に対し投票することを想起されたい。このことを、Ｒ_ｉ∈ＳＯ（３）および

がＴ_ｉの投票であると言う。双方の空間におけるクラスター中心を共同で推定するために、各空間内のＴ_ｉの近傍数をカウントする。Ｔ_ｉの近傍としてカウントする別の基本三角形Ｔ_ｊについて、Ｔ_ｊの回転投票Ｒ_ｊおよび重心投票ｔ_ｊの双方がＴ_ｉの投票に対し所定の距離以内になくてはならない。すなわち、ｄ（Ｒ_ｉ，Ｒ_ｊ）＜ｄ_ｒおよび｜｜ｔ_ｉ−ｔ_ｊ｜｜＜ｄ_ｔの双方の条件が成り立たなくてはならない。ここで、ｄ（Ｒ_ｉ，Ｒ_ｊ）はＳＯ（３）における適切な距離関数である。好ましい実施形態では、ｄ_ｒ＝１５°およびｄ_ｔ＝２５ｍｍを用いる。２つの回転行列の積自体が回転行列であるので、積Ｒ^Ｔ _ｉＲ_ｊは或る軸の回りの角度θの単一の回転に等しい。さらに、関数ｄ_Ｒ（Ｒ_ｉ，Ｒ_ｊ）＝｜θ｜は、リーマン距離として知られる、ＳＯ（３）における距離関数であり、この距離測度を用いて上記で説明した条件を試験する。さらに、リーマン距離｜θ｜は、関係ｄ_Ｆ（Ｒ_ｉ，Ｒ_ｊ）＝２√２｜ｓｉｎθ／２｜によってフロベニウス距離ｄ_Ｆ（Ｒ_ｉ，Ｒ_ｊ）＝｜｜Ｒ_ｉ−Ｒ_ｊ｜｜_Ｆに関係付けられ、ここで、｜｜・｜｜_Ｆは行列のフロベニウスノルムを表す。この関係を用いることによって、効率的に計算されたフロベニウスノルムを用いてリーマン距離条件ｄ_Ｒ（Ｒ_ｉ，Ｒ_ｊ）＜ｄ_ｒを評価することが可能になる。

入選基本三角形（ｗｉｎｎｉｎｇｂａｓｅｔｒｉａｎｇｌｅｓ）という語を用いて、投票を許可された基本三角形の組を指す。入選基本三角形の組は、その基本三角形のほとんどの近傍を有する基本三角形および全ての近傍を有する基本三角形を含む。入選基本三角形をＴ_１，．．．，Ｔ_ｎと呼ぶ。ここで、Ｎは入選基本三角形の数である。各入選基本三角形Ｔ_ｉは、重心μ’_ｉを有する一致試験三角形Ｔ’_ｉを有する。上記で説明したように、この一致に基づいて、Ｔ_ｉは頭部向きＲ_ｉおよび頭部重心ロケーションｔ_ｉ＝μ’_ｉ＋Ｒ_ｉｃ_ｉに対し投票する。頭部向きを入選基本三角形の向きの投票Ｒ_１，．．．，Ｒ_ｎの平均

として推定する。

ＳＯ（３）における平均回転行列

を計算する問題は、以下の最小化問題として定式化することができる。

ここで、ｄはＳＯ（３）における距離関数である。不都合なことに、この最小化は、リーマン距離について閉形式で解くことができない。一方、本発明の場合、入力行列は全て同じ回転行列の近傍にあるので、互いに近接している。この場合、フロベニウス距離の最小化を解くことは良好な近似であり、閉形式

で行うことができる。ここで、ＷおよびＶは入選三角形の向き投票の算術平均の特異値分解（ＳＶＤ）

を計算することによって得られる。

次に入選基本三角形の顔ランドマークベクトルを用いて、試験顔面における顔ランドマークの位置を推定する。

が、ポイントクラウドＳの座標系における試験顔面のｋ番目のランドマーク（例えば、鼻の先端）の位置の本発明による推定値を表すものとする。１つの実施形態では、

によって

を計算する。ここで、ｕ_ｉｋは、Ｔ_ｉの重心からｋ番目の顔ランドマークの位置へのベクトルである。

代替的な実施形態では、全ての個々の入選三角形の向き投票Ｒ_ｉの代わりに平均回転行列

を用いることによって、

の計算を変更する。換言すれば、以下の代替的な式を用いて

を計算する。

これらの代替的な実施形態のいずれにおいても、この手順は一貫した顔ランドマーク推定値を生成する。なぜなら、全ての顔ランドマークベクトルは、類似した頭部向きおよび重心ロケーションに対し投票する基本三角形に由来するためである。

Claims

オブジェクトの三次元（３Ｄ）姿勢および前記オブジェクトのランドマーク点の３Ｄロケーションを求める方法であって、
前記オブジェクトの３Ｄポイントクラウドを得るステップと、
前記３Ｄポイントクラウドから３Ｄサーフェスパッチを抽出するステップであって、各３Ｄサーフェスパッチは、３Ｄ中心ポイントと３Ｄ法線ベクトルと３Ｄ形状の表面とを含み、各３Ｄサーフェスパッチは、前記３Ｄポイントクラウドのそれぞれの３Ｄサーフェスパッチに当てはまるパラメトリックモデルのパラメータを含む記述子として表され、記述子の組を求める、ステップと、
前記記述子の組と、既知の３Ｄ姿勢およびランドマーク点の既知の３Ｄロケーションを有する、得られた前記オブジェクトと同じオブジェクトクラスからのトレーニングオブジェクトから抽出されたパッチのトレーニング記述子の組と、の間の対応関係の組を求めるステップと、
各対応関係に対して前記対応関係の組から３Ｄ回転および３Ｄ並進を求めるステップであって、前記対応関係の組は、トレーニングした３Ｄサーフェスパッチの３Ｄ法線ベクトルを、サンプルされた３Ｄサーフェスパッチの３Ｄ法線ベクトルにマッピングし、得られた３Ｄポイントクラウド上のランドマーク位置に対する前記トレーニングオブジェクト上のランドマーク位置の３Ｄロケーションを示すトレーニングベクトルを変換するために、前記３Ｄ回転および前記３Ｄ並進を用いて、前記オブジェクトの前記ランドマーク点を示す３Ｄ回転、３Ｄ並進、および３Ｄベクトルの組を得る、ステップと、
３Ｄ回転および３Ｄ並進を含む前記オブジェクトの前記３Ｄ姿勢を推定し、前記オブジェクトの前記ランドマーク点を示す３Ｄ回転、３Ｄ並進、および３Ｄベクトルの前記組に含まれる推定から前記オブジェクトの前記ランドマーク点の３Ｄロケーションを推定するステップと、
を備え、
前記ステップは、前記３Ｄポイントクラウドを記憶するメモリに接続されたプロセッサにおいて実行される
方法。
前記オブジェクトは、人間の頭部であり、
前記ランドマーク点は、顔ランドマークである
請求項１に記載の方法。
前記３Ｄポイントクラウドは、奥行き画像から３Ｄポイントクラウドを計算することによって得られる
請求項１に記載の方法。
前記奥行き画像は、奥行きセンサによって取得される
請求項３に記載の方法。
前記求めるステップは、近似最近傍アルゴリズムを用いて行われる
請求項１に記載の方法。
前記３Ｄポイントクラウドは、合成して生成される
請求項１に記載の方法。
前記３Ｄサーフェスパッチは、三角形であり、前記パラメトリックモデルは、サブ三角形パラメトリックモデルである
請求項１に記載の方法。
前記３Ｄサーフェスパッチは、前記３Ｄポイントクラウドによって定義されるサーフェス上のランダムなロケーションおよびランダムな向きから選択される
請求項１に記載の方法。
近傍サブ三角形を用いて前記パラメトリックモデルにおける穴を埋めるステップをさらに備えた
請求項７に記載の方法。
前記推定するステップは、投票技法を用いて行われる
請求項１に記載の方法。
一貫性のない投票は、回転および重心投票空間において共同クラスタリングを行うことによってフィルタリングされる
請求項１０に記載の方法。
前記推定するステップの結果は、ヘッドアップディスプレイを用いる車のための拡張現実システムによって用いられる
請求項１０に記載の方法。
オブジェクトの三次元（３Ｄ）姿勢および前記オブジェクトのランドマーク点の３Ｄロケーションを求めるシステムであって、
過去の３Ｄトレーニングオブジェクトに関する情報が記録されたメモリであって、前記情報は、トレーニングオブジェクトの３Ｄサーフィスパッチ、前記トレーニングオブジェクトの３Ｄ姿勢および３Ｄランドマーク点の３Ｄロケーションを示すトレーニング記述子を含む、メモリと、
前記メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、
前記オブジェクトの３Ｄポイントクラウドにアクセスし、
前記３Ｄポイントクラウドから３Ｄサーフェスパッチを抽出し、各３Ｄサーフェスパッチは、３Ｄ中心ポイントと３Ｄ法線ベクトルと３Ｄ形状の表面とを含み、各３Ｄサーフェスパッチは、前記３Ｄポイントクラウドのそれぞれの３Ｄサーフェスパッチに当てはまるパラメトリックモデルのパラメータを含む記述子として表され、前記記述子の組を求め、抽出された前記３Ｄサーフェスパッチは、平面三角形と、前記平面三角形の面の上、下、または上下に配置された３Ｄポイントを含み、
前記トレーニング記述子の組と、既知の３Ｄ姿勢およびランドマーク点の既知の３Ｄロケーションを有する、アクセスされた前記オブジェクトと同じオブジェクトクラスからのトレーニングオブジェクトから抽出されたパッチの記述子の組と、の間の対応関係の組を求め、
各対応関係に対して前記対応関係の組から３Ｄ回転および３Ｄ並進を求め、前記対応関係の組は、トレーニングした３Ｄサーフェスパッチの３Ｄ法線ベクトルを、サンプルされた３Ｄサーフェスパッチの３Ｄ法線ベクトルにマッピングし、得られた３Ｄポイントクラウド上のランドマーク位置に対する前記トレーニングオブジェクト上のランドマーク位置の３Ｄロケーションを示すトレーニングベクトルを変換するために、前記３Ｄ回転および前記３Ｄ並進を用いて、前記オブジェクトの前記ランドマーク点を示す３Ｄ回転、３Ｄ並進、および３Ｄベクトルの組を取得し、
３Ｄ回転および３Ｄ並進を含む前記オブジェクトの前記３Ｄ姿勢を推定し、前記オブジェクトの前記ランドマーク点を示す３Ｄ回転、３Ｄ並進、および３Ｄベクトルの前記組に含まれる推定から前記オブジェクトの前記ランドマーク点の３Ｄロケーションを推定するプロセッサと、
を備えたシステム。