JP5931215B2

JP5931215B2 - 姿勢を推定する方法及び装置

Info

Publication number: JP5931215B2
Application number: JP2014546326A
Authority: JP
Inventors: トーマスマルティネツ; クリスティアンエーラース; ファビアンティム; エルハルトバルト; サッシャクレメント
Original assignee: ゲスティゴンゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2016-06-08
Anticipated expiration: 2031-12-16
Also published as: ES2558558T3; CN103999126A; KR20140101439A; JP2015505089A; EP2791903A1; CN103999126B; EP2791903B1; EP2791903B8; WO2013087084A1; KR101812379B1; US20140328519A1; CA2858398C; CA2858398A1; US9159134B2

Description

本発明は、画像シーケンスとしてキャプチャされた可動物体の位置及び向きを推定するための、すなわち可動物体の姿勢を推定するための、電子画像シーケンスの実時間対応解析の方法及び装置に関する。本発明はさらに、本発明をソフトウェアに実装すること、及びこれに関連して本発明による方法を実施させるための実行コマンドを格納したコンピュータ可読媒体に関する。

コンピュータによって人間の姿勢を推定することは、ジェスチャ制御型人間−機械対話の基礎である。身体又は手のジェスチャは、カメラによってキャプチャされ、キャプチャされたデジタル画像は、コンピュータ内で処理され、コンピュータによって又はコンピュータにより制御される装置によって最終的に実行されるコマンドとして解釈される。人間のユーザは、命令ジェスチャを習得すればもはや別個の入力装置を必要としなくなる。

ジェスチャ制御の適用が特に関心を持たれる分野の中には、一方では、手術中の医師が補助装置（例えば、超音波又はＭＲＴなどの画像化装置）を直接制御したいが、無菌状態を保護するために自身の手でいずれの制御装置にも触れることができない外科分野があり、他方では、現在でも依然としてどちらかといえば非衛生的なタッチパッドが装備されている公共情報端末又は切符販売機の分野がある。既に商業的に開拓されたさらなる用途の分野は、コンピュータゲーム部門である。

ジェスチャ制御方法の目的は、人間の光学画像に、機械での解釈が可能な意味を与えることである。このことは、人間を電子的に評価できるように画像化し、この画像をその情報内容に関して圧縮し、最終的に人間の圧縮画像を機械での解釈が可能な出力に変換する装置を必要とする。装置の出力は、制御される下流の装置に対する制御命令からなるものとすることができる。しかし、出力は、圧縮画像情報のみを含み、この情報の解釈のための下流装置に提供されるものとすることも可能である。

圧縮画像情報の一例は、例えば、人間の右手の３Ｄ座標系における位置座標の連続的出力である。このプロセスにおいては、例えば人間の全身が画像化されるとしても、手の位置に関する単一の点の座標のみを出力することで十分である場合が多い。人間の動きが画像シーケンスによって画像化される場合、上記の装置は、例えば、動いている間に時間と共に変化する所定の身体部分の３Ｄ座標を提供する。この座標は、例えばそれに応じてスクリーン上のカーソル位置を制御するプログラムへの可変入力としての役割を果たすことができる。

画像セグメント化の際に、画像化された人間に帰属させることができない全ての記録された画像データ（計測値）、すなわち特に背景に関係した画像要素、が除去される。そのような画像要素は、さらなる評価から除外されるべきである。

２次元データを用いた画像セグメント化は、ユーザが、複雑な背景（例えばさらに別の人間がその背景内で動いているような背景）の前で画像化される場合、又は、ユーザがカメラに向かって自身の胴体部分を隠すように手足を動かすようなジェスチャを行う場合には、とりわけ困難である。ジェスチャ制御は実時間で行われるべきであり、姿勢推定は通常２５Ｈｚのビデオフレームレート又はそれ以上において可能となるべきなので、画像セグメント化は、数ミリ秒以内に行うことができることが必要である。この目的のために、通常のカメラのように輝度画像を計測するだけでなく、物体からのカメラまでの距離を計測することができる深度センサカメラを用いることができる。

既知の深度センサカメラは、飛行時間型カメラ（ＴＯＦ）と呼ばれる。これは強度が正弦波的に変調された赤外光を放射する。放射された光と物体によって反射された光との間の位相変位が各ピクセルにおいて計測される。この位相変位から光の伝播時間（飛行時間）を計算することができ、従って物点からのカメラの距離を計算することができる。ＴＯＦカメラは、輝度画像（ＴＯＦ用語においては振幅画像と呼ばれることが多い）に位置合わせされた深度マップを与える。

画像及び距離計測値を同時に取得するためのさらに別の方法は、測定される物体に照射され、それにより反射される構造光に基づく。カメラは、通常は到来角とは異なる角度の反射光を検出し、反射した物体表面の位置又は広がりに起因する投影パターンの構造の変化を記録する。例えば、初めは直線として物体に照射され、カメラによってキャプチャされた反射線の曲率から、反射表面のドーミング、すなわちプロジェクタ及び／又はカメラに対して相対的に変化する距離を計算することが可能である。同様の方法で、空間的に発散した光束は、点反射を検出してそれらの間の距離を決定することによって３次元シーン内の点を投影するのに適している。プロジェクタにより近くに位置する面上では、点の距離は画像背景内の面上より短い。このことが、プロジェクタからの面の距離又は面積を計測するために用いられる。

これにより、深度センサカメラは、各々の画像化される物点に関する２次元輝度画像に加えて距離情報を提供し、その結果、さらに、全ての画像化される物点の深度軸（普通はカメラの光軸と一致する）に沿った位置が計測される装置である。深度センサカメラを用いて記録された距離情報を有する電子的画像は、シーンの２．５次元（２・１／２Ｄ）画像とも呼ばれる。上述の装置は、いかにして２・１／２Ｄ画像を生成することができるかの例に過ぎず、最終的なリストを表すものではない。

とりわけ、特許文献１から、どのようにして２・１／２Ｄ画像の画像セグメント化を正しく行うことができるかを推測することができる。画像セグメント化は、カメラピクセルによって検出された輝度値を、同時に計測されてそのピクセルにより位置合わせされた距離値に従って順序づける。可視性改善の目的では、観測対象の人間がカメラに最も近いところに在ると仮定して、前景の輝度値だけがさらなる評価のために残さる。それゆえ、前景の輝度値は、人間の身体表面の画像化からもたらされたものである。それ自体が既知のカメラ投射パラメータによって、次に画像化された物点の各々に一組の３Ｄ座標を割り当てることができる。次いで、カメラから直接見える人間の全点を含む３Ｄ座標のリストが得られる。３Ｄ空間内の点のこの「雲」の内部に実際の人間が存在し、この３Ｄ点雲の内部には、ジェスチャ制御の目的で決定されることが望まれる所定の身体部分の妥当な座標もまた存在する。

従って、情報圧縮の第２の部分のステップは、画像セグメント化によって決定された人間を表す３Ｄ点雲から、人間の姿勢全体をできるだけ良好に記述する、機械解釈に適した点座標の縮小したセットを決定することにあることがわかる。このステップは、姿勢推定とも呼ばれる。姿勢推定の１つの目標は、ここでは縮小データセットのロバスト性であり、すなわち、人間の姿勢の小さい変化が、その姿勢を記述するデータセットにおいても小さい変化しか生じさせないようにさせることである。具体的には、人間の身体部分を記述する座標は、座標とこれらの身体部分との明確な相関がいかなる時点でも与えられるように、できる限り、時間的に連続な軌道上を動くようにすべきである。

既知の一般的に受容された手法は、可能な限りすばやく３Ｄ点雲にフィッティングされる人間の骨格モデルの定義である。

特許文献１は、２・１／２Ｄ画像シーケンスからの実時間対応姿勢推定の方法を開示しており、ノードとエッジとのトポロジーとして説明される骨格モデルが提案されている。ノードの対として記述することができるエッジが、それらノード間の近傍の構造をコード化する。ノードは、自己組織化マップ（ＳＯＭ）をトレーニングするための学習則を適用することによって、前もって決定された点雲にフィッティングされる。

特許文献１の例示的な実施形態において、人間の身体の上半身は、４４のノード及び６１のエッジによるトポロジーを用いてモデル化される。人間を表す３Ｄ点雲は、凡そ６５００のデータ点（観測された人間がカメラからの距離とは無関係に定義されたサイズを示す実３Ｄ空間内に描かれる）を含み、そのうちの約１０％がＳＯＭをトレーニングするのに使用される。トポロジーの全てのノードは、直接にＳＯＭと考えることができ、他方、エッジを指定することは、学習則に対する特別な要件又は制限として考えることができる。

トポロジーは、ビデオシーケンスのフレームごとに別々にトレーニングされ、ある１つのフレームのトレーニング結果は、同時に、シーケンスの次のフレームのトレーニングを初期化する役割を果たす。シーケンスの第１のフレームの初期化中に、トポロジーのサイズを一回限りのスケール調整によってカメラの前の人間のサイズに一致させ、その重心を３Ｄ点雲の重心に移動させることが好ましい。ひとたびトポロジーのサイズが正しく選択されると、方法はスケール不変的に機能するので、方法の進行中にさらなる適合は必要ない。フレームのトレーニングは、以下のステップ、即ち、
ａ．３Ｄ点雲のデータ点Ｘをランダムに選択するステップ、
ｂ．Ｘからの最短距離を示すトポロジーのノードを決定するステップ、
ｃ．ｂで決定されたノードの全ての隣接ノードをトポロジーのエッジ指定に従って決定するステップ、
ｄ．ｂ．及びｃ．で決定されたノードをＸの方向に移動させるステップ（これに関しては特許文献１の式（２）及び（３）を参照されたい）、
ｅ．移動ベクトルに、ｂ．で決定されたノードに関してｃ．で決定されたノードのちょうど半分のサイズを表す学習率を掛けるステップ（これに関しては特許文献１、ｐ１３、第４段落を参照されたい）、及び
ｆ．学習率を徐々に低減しながら、所定の学習ステップ数にわたってステップａからステップｅまでを繰返すステップ
を有する、パターン毎の（ｐａｔｔｅｒｎ−ｂｙ−ｐａｔｔｅｒｎ）学習則を適用することによって行われる。

姿勢推定（すなわち、この場合には、骨格モデルを３Ｄ点雲にフィッティングし、全ての妥当なノード位置を読み出すこと）を所定の時間間隔の間に行うためには、フレーム毎の最大学習ステップ数を指定することが好都合である。このようにして、画像シーケンスを、ビデオフレームレートで又はそれよりも速く解析することもできる。

特許文献１のアルゴリズムは、実時間姿勢推定の目的を上手く達成しているが、特許文献１自体で部分的に言及されている幾つかの弱点がある。特に、人間がその腕を身体の前で合わせているか又は交差させているシーンを解析する場合、個々のノードがトポロジー内でそれらの実際の隣接ノードから遠くに引き離されると、学習則は、誤った解釈（これはさらなる反復の過程の間で修正することができる）をもたらす可能性がある。この影響に対して特許文献１では、モデル胴体内のアンカー点、及び、該アンカー点から所定の閾値を超えたノードの移動を禁止する学習則の第２の条件により対処している。

特許文献１の教示はさらに、その都度幾つかの異なるノードによって表されることがある人間の関節、肩、及び臀部の正確な位置決定に伴う困難も示している。特許文献１で概説された骨格モデルは、比較的多数のノードを示しており、その数は、姿勢推定における相当な誤差を許容しない限りは２０又はそれ以下に容易に減らすことができない。深度センサカメラによるジェスチャ制御のための市場で入手可能なシステムは、むしろ人間の解剖学的構造に従って設計された１５−２０のノードを有する骨格モデルを使用して、既に機能している。ノード総数を減らすことによって、より高いカメラ画像処理速度を得ることもできる。

解剖学的に動機付けされた骨格モデルは、速く複雑な動き（例えば、ゴルフクラブを振ること）を検出するために記憶された動きパターン（テンプレート）に頼るようにさらに適合される。これらの場合には、ジェスチャ制御ソフトウェアは、検出された姿勢変化の、前もって格納された動きシーケンスに対する最も可能性の高い一致を探索し、この既知のテンプレートを実際の制御に使用する。この技術は既にコンピュータゲームに使用されているが、大量のリソースを使用する。最後ではあるが大事なこととして、記憶された動きデータを生成すること自体が既に相当なコストを生じさせる。

他方、ＳＯＭトレーニングによるジェスチャ制御は、テンプレートが完全に不要であり、むしろ動きの連続性の実時間対応検出可能性にのみ基づくものである。これは、効率的に実装することができる学習則により、人間の速い動きですら高い信頼度で検出する可能性を有すると同時に汎用性を維持するので、複雑である可能性が高い、計測作業に対するソフトウェアの複雑なマッチングが省かれる。

国際公開第２０１０／１３０２４５（Ａ１）号

従って、本発明の目的は、物体のカメラ画像のデジタル画像情報を特に姿勢推定のために圧縮して、その結果、物体の姿勢、特に人間の姿勢の決定を、より少ない計算量で、従ってより速く及び／又はより正確に、実時間で実行することができるようにすることである。

この目的は、独立特許請求項の主題により達成される。本発明の有利な実施形態は、従属特許請求項の主題である。

従って、本発明の一態様は、画像セグメント化と姿勢推定という２つの部分ステップで通常行われる情報圧縮である。この文脈において、本発明は、特に姿勢推定の改善に関する。本発明により、ＳＯＭトレーニングによる姿勢推定が提案され、これは、被観測物体の解剖学的構造に従ってモデル化された、ノード総数が減らされた骨格モデルを用いて機能することができ、各モデルノードを所定の身体部分に高い信頼性で首尾一貫して割り当てることが可能である。ここでは、その姿勢が検出される物体の解剖学的構造が、骨格モデルとしてモデル化される。

３Ｄ空間内の少数の点（以下「ノード」）のみで記述される骨格モデルは、ノードの座標が動いている物体の所定の部分の位置を常に記述するのであれば、画像情報の良好な情報圧縮を表す。同時に、骨格モデルは、例えば、計測された２・１／２Ｄ画像情報内に含まれる、すなわちカメラから見える、連続した物体部分又は随意に物体面を記述するノード対及びまた随意にノード三つ組が骨格モデル内で定義されるという点で、物体の予備知識を表す。骨格モデルは、物体に対応する画像情報にすばやく且つ正確にフィッティングされるべきである。このフィッティングは、ノードを連続的に移動させ、画像シーケンスと歩調を合わせて骨格モデルを更新することによって、画像シーケンスの２つの画像の間で行われる。連続した物体部分又は場合により物体面が既に言及されている場合には、それらは全体として動くものと仮定される。従って、本発明によれば、ノード対又は随意にノード三つ組は、特定の前提条件の下で同時に移動される。以下でさらに説明される移動則は、ノード対又は随意にノード三つ組のノード間距離を必ずしも保持するものではなく、移動がノード対又は随意にノード三つ組のノード間距離の増大をもたらすこともあることをここで強調しておく。

本発明の一実施形態は、３Ｄ点雲のシーケンスに連続的にフィッティングされる骨格モデルのノードの３Ｄ位置座標の移動のコンピュータ計算による、動いている物体（例えば人間又はロボット）の姿勢推定の方法に言及する。ノード座標は、電子的メモリ内に表形式で存在し、３Ｄ点雲は、動いている人間を表す、深度センサカメラからの電子的に記録された画像から決定される。骨格モデルは、Ｎ₁、Ｎ₂＞０及びＮ₃≧０であるＮ₁個のノード、Ｎ₂個のエッジ、及びＮ₃個の三角形をトポロジー要素として示すトポロジーであり、各々のトポロジー要素は、ノード、ノード対、又はノード三つ組によって記述され、物体の一部分（例えば、人間の身体部分又はロボットの一部分）に堅固に割り当てられる。本方法は、算術演算装置によって実行され、以下のステップ、即ち、
ａ．３Ｄ点雲のデータ点Ｘをランダムに選択するステップと、
ｂ．各トポロジー要素を基準としたＸに関する交差点Ｐを計算し、Ｐが各場合においてトポロジー要素の内部に在るかどうかを識別するステップと、
ｃ．Ｘから各トポロジー要素までの距離を差分ベクトルＸ−Ｐのノルムとして計算するステップと、
ｄ．その交差点Ｐがトポロジー要素の内部に在る全てのトポロジー要素の中で、Ｘからの最短距離を示すトポロジー要素を決定するステップと、
ｅ．ステップｄで決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルＸ−Ｐの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、ステップｄで決定されたトポロジー要素を基準としたＸに関する交差点Ｐから生じる重みとが掛けられている、移動させるステップと、
ｆ．学習率を段階的に低減しながら、ステップａからステップｅまでを所定数の学習ステップにわたって繰返すステップと、
ｇ．Ｋ≧１として、所定の学習ステップ数のＫ回のパスの後で電子メモリの表内のノード座標を更新するステップと、
ｈ．さらなる処理のために、少なくとも表内の更新されたノード座標を提供するステップと、
を含む。

本発明のさらに別の実施形態において、ステップｂにおいて、トポロジー要素を基準とした交差点Ｐは、該トポロジー要素を確立するノード座標ベクトルの一次結合として表され、Ｐが該トポロジー要素の内部に在るかどうかは、表示係数から決定される。

本発明のさらに別の実施形態において、ステップｅにおける重みは、Ｐの表示係数から計算される。

本発明のさらに別の実施形態において、ステップａからステップｅまでの繰返し回数は、１，０００と５，０００との間であり、特に２，０００と３，０００との間である。

学習率は、出発値０．５と最終値０．０１との間に置くことができることが有利である。

本発明のさらに別の実施形態は、動いている物体の姿勢推定のための装置を提案する。この装置は、深度センサカメラ、電子メモリ、及びプログラム可能算術演算装置を備え、メモリは、深度センサカメラの電子画像を格納し、算術演算装置は、カメラによる画像記録と時間的に歩調を合わせて、電子画像から物体を表す３Ｄ点雲を決定するように設計される。メモリは、骨格モデルのノードの３Ｄ座標のリストをさらに格納する。算術演算装置は、骨格モデルのトポロジー要素の表現としての個々のノード、所定のノード対、及び所定のノード三つ組に関する３Ｄ座標を読み出し及び変更することができる。算術演算装置は、物体を表す３Ｄ点雲を決定した後で、以下のステップ、即ち、
ａ．３Ｄ点雲のデータ点Ｘをランダムに選択するステップと、
ｂ．各トポロジー要素を基準としたＸに関する交差点Ｐを計算し、Ｐが各場合においてトポロジー要素の内部に在るかどうかを判断するステップと、
ｃ．Ｘから各トポロジー要素までの距離を差分ベクトルＸ−Ｐのノルムとして計算するステップと、
ｄ．交差点Ｐがトポロジー要素の内部に在る全てのトポロジー要素から、Ｘからの最短距離を示すトポロジー要素を決定するステップと、
ｅ．ステップｄで決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルＸ−Ｐの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、ステップｄで決定されたトポロジー要素を基準としたにＸに関する交差点Ｐから生じる重みとが掛けられている、移動させるステップと、
ｆ．学習率を徐々に低減しながら、ステップａからステップｅまでを所定の学習ステップ数にわたって繰返すステップと、
ｇ．Ｋ≧１として、所定の学習ステップ数のＫ回のパスの後で電子メモリの表内のノード座標を更新するステップと、
ｈ．さらなる処理のために、少なくとも表内の更新されたノード座標を提供するステップと、を実行するようにさらに設計される。

本発明のさらに別の実施形態は、さらに、マイクロプロセッサによって実行することができ、本発明の前述の実施形態の一つによる姿勢推定の方法をマイクロプロセッサに実行させるコマンドを格納することを特徴とするコンピュータ可読記憶媒体に関する。

本発明は、以下で、図面を参照する例示的な実施形態を用いてさらに詳細に説明される。図中の互いに対応する要素及び細部には同じ参照文字が与えられている。

使用可能な骨格モデルである、ａ）特許文献１によるモデル、ｂ）ノード及びエッジによるモデル、ｃ）ノード、エッジ及び三角形によるモデル、の略図を示す。ａ）特許文献１による学習則の図、ｂ）学習則の重みの幾何学的解釈、及びｃ）エッジ移動の場合の学習則の効果の図を示す。ａ）学習則の重みの幾何学的解釈、及びｂ）三角形の場合の学習則の効果の図を示す。本発明による、３Ｄ点雲及びこれらの点雲にフィッティングされた骨格モデルを有する例示的な画像を示す。

少ないノード総数のみを有する骨格モデルは、ノードの座標が動いている物体の所定の部分の位置を常に記述する場合には、画像情報を効果的に圧縮するのに役立つ。骨格モデルは、その物体に関する予備知識を用いて定義される。例えば、カメラから見える、連続した物体部分及び随意に物体面についての予備知識が存在する。骨格モデルの所定の要素、具体的にはノード対又はノード三つ組は、これらの既に言及された物体部分又は物体面を表すことができ、全体として物体画像にフィッティングすることができる。このフィッティングは、常にノードを移動させ、画像シーケンスと歩調を合わせて骨格モデルを更新することによって、画像シーケンスの２つの画像の間で行われる。連続した物体部分又は物体面は、基本的に全体として動き、従って本発明によれば、ノード対又は随意にノード三つ組は、特定の前提条件の下で同時に移動される。プロセスにおいて、移動則は、ノード対又は随意にノード三つ組のノード間の互いの距離を必ずしも保持するものではない。移動はむしろ、ノード対又は随意にノード三つ組のノード間距離を増大させることがある。本発明の距離の保持の遵守の放棄は、移動ベクトルの必須な計算を簡略化し及び加速さし、それでもなお良好な姿勢推定をもたらす。物体画像への骨格モデルのフィッティングの正確度は、繰返し（学習ステップ）回数とともに向上する。

本発明は、以下で実質的に特許文献１の開示のスタイルで説明される。原則として、特許文献１に記載の姿勢推定は出発点と考えることができること、及び、本発明の少なくとも１つの実施形態は、この刊行物から公知の姿勢推定方法のさらなる発展であると考えることができることに注意されたい。

この文脈で、本発明の実施形態の以下の説明において、２・１／２Ｄ画像を（個々に又はシーケンスとして）記録し、人間を表す３Ｄ点雲を抽出することは、特許文献１に記載のように実行することができると仮定される。本発明は、具体的には、動いた姿勢を推定するための画像及び点雲を２５Ｈｚを超える周波数で提供することができると仮定する。

本発明によれば、ここでは解剖学的に動機付けられた骨格モデルが、比較として図１ａ）に示した特許文献１によるトポロジーの代りに用いられる。図１ｂ）によるモデルは、各ノードを人間の解剖学的構造（例えば、頭部、肩、肘、手、臀部、骨盤、膝、脚）の弁別的な点に明白に関連付けるように特に適合されている。図１ｃ）は、図１ｂ）によるモデルのバリエーションを表し、胴体が三角形（各場合において角を形成する３つのノードによって定義される）によって表されている。

ノードを人の身体部分によって識別することにより、モデルのエッジにも解剖学的解釈が与えられる。従って、例えば図１ｂ）においてノード１（右手）とノード２（右肘）とを結ぶエッジは必然的に右前腕を表す。従って、トポロジーのエッジは、単なるノードの隣接関係以上のものを表す。特許文献１によるＳＯＭに対する学習則の適用ではノード総数が著しく減らされたこのような骨格モデルについてはもはや３Ｄ点雲へのモデルの良好なフィッティングが達成されないので、本発明の解剖学的に動機付けられた骨格モデルの使用に適合された姿勢推定の方法を以下で説明する。

図２ａ）において、左側に、エッジで結ばれた２つのノードＷ₁及びＷ₂を見ることができる。点Ｘは、このトポロジーがフィッティングされる対象の３Ｄ点雲からランダムに選択された点を表す。特許文献１の教示によれば、初めに、点Ｘに最も近いモデルのノード（この場合にはＷ₁）が決定され、Ｘに向かう方向にε（Ｘ−Ｗ₁）だけ移動される。ここでεは実正数である。トポロジーの意味での次の隣接ノードは、エッジによってＷ₁に結ばれたＷ₂である。これもまた、Ｘに向かう方向に（ε／２）（Ｘ−Ｗ₂）だけ移動される。移動されたノードを右側に示す。この学習則は、ノード間のエッジを常に短縮する。

骨格モデルが特許文献１の場合のように多数のノードを含む場合、短縮プロセスは、さらなる反復及びノード移動の一部分として時間の経過の間に再び大きく補償される。しかし、特定のノードと特定の身体部分との明白な関連付けは、必ずしも常に継続的に可能であるとは限らない。

従って、本発明による図１ｂ）又はｃ）の解剖学的トポロジーを使用するために、トポロジーのノード、エッジ、及び随意に三角形を人間の身体部分と関連付けることを常に可能にする新しい学習則が構築される。

本発明の意味における解剖学的トポロジー（又は解剖学的骨格モデル）は、少なくとも、人間の身体部分に関連付けられる第１の数Ｎ₁のノードと、前述のノードの対の解剖学的事実に当てはまる選択として説明される第２の数Ｎ₂のエッジとから構成される。

明確にするために、図１ｂ）において、モデルは、ノードＷ_jを含み、j＝１，．．．，１７であり、ノード対の選択によって表される１７のエッジをさらに含むものとする。例えば、対（Ｗ₁，Ｗ₂）、（Ｗ₂，Ｗ₃）又は（Ｗ₄，Ｗ₈）は、このモデルのエッジの一部分であり、他方、例えば、対（Ｗ₂，Ｗ₆）又は（Ｗ₁₀，Ｗ₁₁）はエッジを表さない。

本発明の有益な設計において、第３の数Ｎ₃の三角形を解剖学的モデルの一部分とすることができる。三角形は、三角形のエッジを指定するノードの三つ組によって記述される。

図１ｃ）において、モデルは、とりわけ、ノード三つ組（Ｗ₃，Ｗ₄，Ｗ₉）、（Ｗ₉，Ｗ₄，Ｗ₁₂）及び（Ｗ₄，Ｗ₅，Ｗ₁₂）によって記述される３つの三角形から構成される。

解剖学的モデルに三角形を挿入することは、内部移動性を殆ど示さず、通常、画像内で動くときに三角形のエッジを形成するノードの相対的位置が互いにごくわずかしか変化しない物体（例えば、身体領域に対応する）をモデル化するのに特に有利である。これは、例えば全身像における人間の胴体に当てはまるが、例えば、手のひら又は手の甲に関した手の大写しの場合にも当てはまり得る。姿勢推定方法のユーザは、どの物体を観測するか、又はどのトポロジーが該ユーザの特定の目的に適している及び／若しくは特に好都合であるかを、最終的には常にユーザ自身で決定する必要がある。

一実施形態により、本発明は、Ｎ₁個のノード、Ｎ₂個のエッジ、及びＮ₃個の三角形による解剖学的トポロジーを３Ｄ点雲にフィッティングするためのＳＯＭ学習則を提供し、ここでＮ₁、Ｎ₂＞０及びＮ３≧０である。ノード、エッジ、及び三角形は、トポロジー要素の用語によって以下のように要約される。

ＳＯＭは、トポロジーのノードで識別される。学習則は、トポロジーが３Ｄ点雲にフィッティングされるようにノード位置を移動させることに向けられる。エッジ及び随意にそれに加えて三角形の指定は、ノードの幾つかの対及び場合により幾つかの三つ組がいずれの場合でも連結間学習則に従う必要があることを意味する。

本発明の一実施形態により、学習則は、以下の概念に従って形成される。連続的な姿勢推定が行われる対象の画像シーケンスの存在から出発し、シーケンスの新たな画像が存在するとその都度、ノード位置（３Ｄ座標系で記述される）、ノード対、及び随意にノード三つ組のリストである骨格モデルが更新される。新たな画像が深度センサカメラによって記録され、画像セグメント化及び投影によって被観測物体（例えば、人間の全身、その胴体、その手など）の表面の点の３Ｄ座標のリスト（３Ｄ点雲）に変換されるとすぐに、ＳＯＭトレーニングが行われ、そこで点雲の個々の点がランダムに選択され、この点に最も近いトポロジー要素が、選択された点の方向に移動される。この移動は、３Ｄ空間内のベクトル加法によって行われ、その結果として上記のノード位置のリスト内の個々のノード位置が変更又は更新される。

この移動の後、３Ｄ点雲の次の点がランダムに選択され、この点に最も近いトポロジー要素（異なる要素である可能性が高い）がこの点に向かって移動される。点の選択及び移動が所定のステップ数にわたって繰返され、全般的な移動距離はステップ毎に減少する。骨格モデルは、最終的には、十分に多くの所定ステップ数の後で新たな画像に関して更新される。

骨格モデルを３Ｄ点雲にフィッティングするために、少なくとも１，０００回、高々５，０００回のトポロジー要素の移動が行われることが好ましい。移動回数が２，０００回と３，０００回との間であることが特に好ましい。ノード位置の数千回の移動は、今日のコンピュータでは数ミリ秒以内で達成可能である。

これによれば、選択された点に最も近いトポロジー要素は、ノードでなくてもよい。エッジ又は三角形は、エッジ又は三角形を定める全てのノードを連結間方式で移動させることによって移動される。移動はまた、移動されるトポロジー要素に応じて、１つ、２つ又は３つのノードに同時に関係するものとすることができる。

最も近いトポロジー要素の決定が以下でより詳しく説明され、トポロジー要素に関する特定の移動則が明示される。

まず、全てのトポロジー要素に関してのＸの交差点が、深度センサカメラを用いて観測された物体の画像化並びにそれに続く画像セグメント化及び投影の後で人間の身体表面の点を表す、それらの全ての点からランダムに選択された、３Ｄ点雲の点Ｘ（すなわち３Ｄ空間内の座標点）に関して最初に決定される。トポロジー要素を基準としたＸの交差点Ｐは、トポロジー要素によって形成される、３Ｄ空間の部分空間の、点Ｘに最も近い点である。このプロセスにおいて、ノードは、そのノード自身のみを含むゼロ次元部分空間を形成する。エッジは、そのエッジを定めるノードを通る３Ｄ空間内の直線を形成する。三角形は、その三角形を定めるノードを含む３Ｄ空間内の平面を形成する。

トポロジー要素によって形成される部分空間の、点Ｘに最も近い点は、距離尺度を用いて計算される。３Ｄ空間内の距離は、任意のノルムを用いて決定することもできる。ユークリッドノルム（また、Ｌ₂ノルム又はピタゴラス距離）を用いることが好ましいが、他の距離尺度を用いることもできる。

交差点Ｐは、トポロジー要素がノードである場合にはノード内に位置し、まさにこのノードと一致する。

交差点Ｐは、トポロジー要素がエッジである場合には３Ｄ空間内の直線上に位置する。
（１）Ｐ＝Ｗ＋αΔＷ
式中、Ｗは、エッジの任意の（第１の）ノードを表し、ΔＷは、エッジの第２のノードと第１のノードとの間の差分ベクトルを表し、αは実数を表す。明確にするために、このエッジはノード対（Ｗ，Ｗ＋ΔＷ）によって記述されるものとする。

交差点Ｐは、トポロジー要素が三角形である場合には３Ｄ空間内の平面上に位置する。
この点Ｐは次式で表すことができ、
（２）Ｐ＝Ｗ＋σ ₁ΔＷ₁＋σ ₂ΔＷ₂
式中、Ｗは、三角形の任意の（第１の）ノードを表し、ΔＷ₁、ΔＷ₂は、三角形の第２及び／又は第３のノードと第１のノードとの間の差分ベクトルを表し、σ₁、σ₂は実数を表す。明確にするために、三角形はノード三つ組（Ｗ，Ｗ＋ΔＷ₁，Ｗ＋ΔＷ₂）によって記述されるものとする。

式（１）及び式（２）に由来する係数α、σ₁、σ₂を、以下、交差点の「トポロジー整合表示係数（ｔｏｐｏｌｏｇｙ−ｃｏｎｆｏｒｍｉｎｇｒｅｐｒｅｓｅｎｔａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）」と呼ぶものとする。形式的には、これらは、Ｐが決定されたトポロジー要素によって形成される３Ｄ空間の部分空間の非規格化基底及び随意に斜角化基底に対する、ベクトルＰの成分である。また、あるトポロジー要素を基準とした交差点Ｐは、そのトポロジー要素を決定するノード座標ベクトルの一次結合として表されると言うこともできる。

次に、トポロジー要素を基準とした点Ｘの交差点が、これらのトポロジー要素の内部に在るかどうかがチェックされる。

定義により、ノードを基準とした全ての交差点は、ノードの内部に在る。同様に定義により、ノードを基準とした交差点のトポロジー整合表示係数は、常に１である。

エッジを基準とした交差点は、そのエッジを定めるノード間に位置する場合、まさにエッジの内部に在る。これは、その表示係数αが０と１との間に在るときかつそのときに限って交差点がエッジの内部に在ることを意味する。

三角形を基準とした交差点は、ノードによって定められる三角形表面内部に在る場合、まさに三角形の内部に在る。このことは、三角形を基準とした交差点について、その表示係数σ₁、σ₂及びそれらの和σ₁＋σ₂が０と１との間に在るときかつそのときに限って成り立つ。

トポロジー要素からの３Ｄ点雲の点Ｘの距離は、Ｘと交差点Ｐとの間の差分ベクトルＤ、即ちＤ：＝Ｘ−Ｐ、のノルムとして計算することができる。ユークリッドノルムを使用することが好ましい。このようにして、ｘ₁、ｘ₂、ｘ₃、ｐ₁、ｐ₂、ｐ₃を３Ｄ点雲及び骨格モデルの両方が記述される通常の３Ｄ座標系を基準としたベクトルＸ及びＰの実成分として、距離、

が各々のトポロジー要素について計算される。

トポロジー要素からの点Ｘの距離は、このトポロジー要素を基準とした交差点Ｐが該トポロジー要素の内部に在る場合にのみ、さらに使用される。そうでない場合には交差点は棄却され、距離は計算されないか、又は計算された距離はそれ以降無視される。

この選択は、さらなる処理の際に、骨格モデルのフィッティングの目的で実際に役立つ距離のみが考慮に入れられることを保証する。点Ｘは、例えば、人間の胴体を表す三角形によって形成される３Ｄ空間内の平面内にまさに存在することがある。そのとき交差点ＰはＸと一致し、距離ｄはゼロになる。しかし、同時に、その点が右手を表すノードの位置の近傍に位置しており、右腕が身体から離れて延びるように保持される場合、移動則はそのノードに適用されるべきであり、その平面のＸからの数値距離がノードのＸからの数値距離より短い場合でも、胴体の三角形には適用されない。

全ての計算された距離、かつ評価に残った距離から、最小値を探すことにより、点Ｘに最も近い、すなわちＸからの最短距離を示すトポロジー要素が識別される。

本発明により、識別されたトポロジー要素がここで移動され、そのトポロジー要素を定めるノードも可能であれば一緒に移動される。

点Ｘに最も近いトポロジー要素がノードである場合、移動は、従来技術によって既に知られているように次式に従って行われる。

特許文献１の式（４）では、繰返しステップの関数である次式の学習率もまた説明されている。

式中、ε_i及びε_fは、学習率の所定の出発値及び最終値であり、ｔ_maxは学習ステップの所定の最大数である。実行指数（ｒｕｎｎｉｎｇｉｎｄｅｘ）ｔは、学習ステップ（繰返し）をｔ_maxに至るまでカウントする。３Ｄ点雲の新たに選択された点Ｘの各々に対して、分子ｔは、ｔ_maxに達するまで１ずつ増加する。学習率の好ましい条件は、ε_i＝０．５及びε_f＝０．０１である。

点Ｘに最も近いトポロジー要素がエッジである場合、移動は次式に従って行われる。

図２ｂ）には、エッジ（Ｗ，Ｗ＋ΔＷ）、３Ｄ点雲の点Ｘ、及びそれに関連付けられたエッジを基準とした交差点Ｐ、及び差分ベクトルＤ＝Ｘ−Ｐが描かれている。トポロジー整合表示係数αは、ノードＷから出発して点Ｐに達するまで、ΔＷの方向に歩行する必要があるエッジ長||ΔＷ||₂の分率であると見なされる。明らかに、図２ｂ）においては０＜α＜１が成立し、それゆえ交差点はエッジの内部に在る。

図２ｃ）は２つのノードの移動の概要を示す。両方ともベクトルＤ＝Ｘ−Ｐの方向に移動し、すなわち従来技術の場合のように直接にＸの方向には移動しない。点ＸがノードＷ＋ΔＷよりもノードＷに近ければ、これは交差点Ｐにも当てはまり、従ってα＜０．５となる。するとノードＷは、ノードＷ＋ΔＷよりも大きく移動される。このようにして、エッジ全体が、Ｘ及び／又はＰのノードからの距離に従って重みを付けられて点Ｘに近づく。

点Ｘの最も近いトポロジー要素が三角形である場合、移動は次式に従って行われる。

図３は、三角形の移動則を示す。
図３ａ）は、骨格モデルの出発三角形、及びランダムに選択された点Ｘを示す。Ｘに関連付けられた交差点Ｐは三角形面内に在り、式（２）に従うノード座標ベクトルの１次結合として表すことができる。説明のために、表示係数σ₁、σ₂が三角形の辺に示されている。これらは、図２ｂ）における係数αと同様に三角形の辺の長さの分率と解釈される。交差点が三角形の内部に在るので、三角形からのＸの距離は、ベクトルＤ＝Ｘ−Ｐのノルムとして決定され、さらなる計算の際に使用される。この距離が骨格モデルの全てのトポロジー要素からのＸの最短距離となることが判明した場合、三角形は移動される。

移動された三角形の概要が図３ｂ）に示される。この場合もやはり、全てのノードが三角形の辺上及び三角形の面内のすべての点と共に、点Ｘ及びＰからのノードの元の距離で重みを付けられて移動される。この距離による重み付けは、それにより無用の誤りが回避されるので姿勢推定の効率にとって重要である。この利点は、特に図３ｂ）を見ると容易に理解することができる。点Ｐが、三角形を確立する３つのノードのうちの１つに非常に近い場合、三角形は、ほとんどこの最も近いノードのみが動き、一方、他の２つは基本的にそれらの位置を維持するように移動される。従って、本明細書で説明する方法には、ノード、エッジ、及び三角形の移動の間に「滑らかな移行」が存在する。

図２ｃ）から、エッジ（Ｗ，Ｗ＋ΔＷ）は、学習則（６）及び（７）を適用することによって決して短くなることはなく、延びる可能性がかなり高いことが容易に認識される。同じことは、学習則（８）から（１０）までを適用したときの三角形（Ｗ，Ｗ＋ΔＷ₁，Ｗ＋ΔＷ₂）の辺にも当てはまる。

トレーニング過程の間に、手に負えないほどのエッジ長さ及び三角形の辺の長さが得られることがないように、本発明のさらに別の実施形態において「収縮パラメータ」δが導入される。これは、例えばδ＝０．０５のように設定することができる。同時に、学習則は、移動の際にノード同士が互いに向かって僅かに動くように修正される。

学習則（６）及び（７）の代りに、

を使用することが好ましく、学習則（８）から（１０）までの式の代りに、

を使用することが好ましい。

前述の方法は、図１におけるように人間の解剖学的構造に従ってモデル化された骨格モデルのノードの移動を計算することによって人間の姿勢を推定するために用いることができる。しかし、同じ方法を動物又は動いているロボットの動きに同様に適用することができることが明らかである。本発明は、互いに接続されて互いに対して可動な部分から成り、それに対するノード、エッジ、及び随意に三角形による骨格モデルを都合良く定義することができる、全ての物体の姿勢推定を包含する。

骨格モデルは、トポロジーのノードの３Ｄ座標の表、並びに、エッジ及び三角形を確立する所定のノード対及び随意にノード３つ組を有するリストである。ノード対及びノード３つ組のリストは変更することができず、ノード座標のみを姿勢推定の実行中に変更することができる。ノード座標を有する表は、電子メモリ内で利用可能であり、算術演算装置によって読み出すことができる。算術演算装置は、点雲への骨格モデルの連続的フィッティングに関連したノード位置の移動を、同様に格納された深度センサカメラによる画像及びそこから決定された３Ｄ点雲を用いて決定する。

解剖学的モデルを点雲にフィッティングし、従ってＳＯＭをトレーニングすることは、本発明の実施形態に従って行われ、これは、
ａ．３Ｄ点雲のデータ点Ｘをランダムに選択するステップと、
ｂ．トポロジー要素を基準としたＸに関する交差点Ｐを計算し、その少なくとも１つのトポロジー整合表示係数を決定するステップと、
ｃ．交差点がトポロジー要素の内部にない場合に該交差点を棄却することと、
ｄ．Ｘからトポロジー要素までの距離を差分ベクトルＸ−Ｐのノルムとして計算するステップと、
ｅ．解剖学的モデルの全てのトポロジー要素についてステップｂ．からステップｄ．までを繰返すステップと、
ｆ．Ｘからの最短距離を示すトポロジー要素を決定するステップと、
ｇ．ｆ．で決定されたトポロジー要素を、該トポロジー要素を確立する全てのノードをベクトルＸ−Ｐの方向に移動させることによって移動させるステップであって、この移動ベクトルには、学習率と、ｅ．で決定された、トポロジー要素を基準としたＸに関する交差点Ｐのトポロジー整合表示係数から生じる重みとが掛けられている、移動させるステップと、
ｈ．学習率を徐々に低減しながら、ステップａ．からステップｇ．までを所定の学習ステップ数にわたって繰返すステップと、
によって要約される。

ステップｇにおいて言及した重みがどのようにトポロジー整合表示係数から生じるかについての厳密な様式は、式（６）から式（１０）まで、又は代替として式（１１）から式（１５）までから推測することができ、後者の式は付加的な所定のパラメータδを含む。定義により、ノードであるトポロジー要素の移動の重みは、式（４）により１である。

学習ステップの所定数に達すると、算術演算装置は、骨格モデルの全てのノードについて移動後の座標を計算したことになる。移動後の座標は、概して全てのノードについて初めに表にまとめられたノード座標からずれることになるが、例外的な場合には個々のノードについて初めのノード座標と同一になることがある。

移動したノードの座標は、算術演算装置によって電子メモリに書込まれ、初めの座標エントリは、ｉ）上書きされるか、又はｉｉ）期限切れとして指定され、さらなる学習ステップではもはや使用されなくなる。このようにしてノード座標が電子メモリの表内で更新される。電子メモリの表内のノード座標を更新するステップを所定数の学習ステップの１パスのみの後に行い、その後、深度センサカメラからの画像シーケンスの次の画像及びそれから決定される点雲を用いてステップａからステップｈまでの次のパスを開始することができることが、有利である。

同様に、学習ステップを１つの同じ点雲に対して数回次々に繰返してノード座標の複数の移動を計算することも可能である。その後、この複数の移動を例えば算術的に平均することができ、ノード座標は、電子メモリの表内でこの平均移動のみと共に更新される。この手続きは、計算の観点からはより複雑であり、それゆえにより遅いが、何らかの偶発的に起る望ましくない移動（例えば、点雲が、ランダムに選択された部外位置の点も含む場合）を効果的に抑制することができる。

大まかに言えば、ノード座標を更新するステップは、所定の学習ステップ数のＫ回のパスの後に行われる（Ｋ≧１）。

図１ｂ）の骨格モデルを用いた本発明の姿勢推定方法の例示的な実施形態をビデオシーケンスからの例示的な画像を用いて図４に示す。深度センサカメラのビデオ画像は、それ自体知られている画像セグメント化を用いて、動いている人間を表す３Ｄ点雲を絶えず提供する。解剖学的な骨格モデルが前述の学習則を用いて実時間でフィッティングされ、人間の種々の身体部分へのモデルノードの関係付けは、図４から明白に推察できるように初めから終わりまで正しく維持される。

ここで達成されたノード−身体部分のロバストな関係付けは、ジェスチャ制御による著しく安定なコマンド入力を、例えば単に右手の動きを単に追跡することによることによって可能にする。骨格−ノード位置を解釈する機械は、必要に応じて、残りのモデルノードを無視することもでき、又はそれらノードを付加的な入力として分類することもできる。従って、例えば、右手の動きと左手の動きを同時にかつ別々に追跡し解釈することによって、より複雑な入力を行うことが可能である。左手を頭の高さまで持ち上げることを、例えばキーボード上の特定のキー（例えば、シフトキー）を押すこと、又は右手の入力のためのコマンド解釈の別のセットを呼び込むことに等しいものとすることができる。

深度センサカメラによる２・１／２Ｄ画像のすばやい検出及び提供に加えて、前述の方法は、計測データを少なくとも一時的に格納するため、及び解剖学的骨格モデルのトポロジー要素の位置座標を格納するための電子メモリ、並びに、このメモリと通信し、前述の計算を実行し、特にメモリ内のトポロジー要素の位置座標の継続的な更新を促す、電子的算術演算装置もまた必要とする。さらに、同じ算術演算装置を、単独でそれぞれの現在の骨格モデルを時間的に歩調を合わせて解釈し、例えばそれを従属装置のための制御コマンドに変換することができるもの、又は、場合によっては選択されたノード位置をさらなる解釈のために出力するだけのもの、のいずれかとすることができる。

初めに説明したように、姿勢推定のための前述の方法は、装置、具体的には算術演算装置によって実施することができる。算術演算装置は、市販のプログラム可能マイクロプロセッサとすることができるが、ＦＰＧＡ又はＡＳＩＣを使用することも可能である。本発明のさらなる実施形態は、算術演算装置によって実行することができて該算術演算装置に姿勢推定の目的で本明細書において説明した計算を実行させるコマンドを格納する記憶媒体に関する。

距離座標を決定するための算術演算装置を備えた深度センサカメラは、特に本発明の方法を実行するために直接設計することもできる。本発明に従って設計される少なくとも１つの算術演算装置を有する構成ユニットとしてのそうしたカメラは、相応して、動いている人間の画像をその不可欠な身体部分の３Ｄ座標に直接変換するのに適している。これはモーションキャプチャ装置に相当するものであるが、これまでは普通であった人間の身体上のマーカーを不要にすることが可能である。

Claims

３Ｄ点雲のシーケンスに連続的にフィッティングされる骨格モデルのノードの３Ｄ位置座標の移動のコンピュータ計算による、動いている物体の姿勢推定の方法であって、前記ノードの座標は、電子メモリ内に表形式で存在し、前記３Ｄ点雲は、前記動いている物体を表す、深度センサカメラの電子的に記録された画像から決定され、
前記骨格モデルは、Ｎ₁、Ｎ₂＞０及びＮ₃≧０であるＮ₁個のノード、Ｎ₂個のエッジ、及びＮ₃個の三角形をトポロジー要素として示すトポロジーであり、各々のトポロジー要素は、ノード、ノード対、又はノード三つ組によって記述され、前記動いている物体の一部分に堅固に割り当てられており、算術演算装置が、以下の
ａ．前記３Ｄ点雲のデータ点Ｘをランダムに選択するステップと、
ｂ．各トポロジー要素を基準としたＸに関する交差点Ｐを計算し、Ｐが各場合において前記トポロジー要素の内部に在るかどうかを識別するステップと、
ｃ．Ｘから各トポロジー要素までの距離を差分ベクトルＸ−Ｐのノルムとして計算するステップと、
ｄ．その交差点Ｐがトポロジー要素の内部に在る全てのトポロジー要素の中で、Ｘからの最短距離を示すトポロジー要素を決定するステップと、
ｅ．ステップｄで決定された前記トポロジー要素を、該トポロジー要素を確立する全てのノードを前記ベクトルＸ−Ｐの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、前記ステップｄで決定された前記トポロジー要素を基準としたＸに関する交差点Ｐから生じる重みとが掛けられている、移動させるステップと、
ｆ．前記学習率を徐々に低減しながら、ステップａからステップｅまでを所定の学習ステップ数にわたって繰返すステップと、
ｇ．Ｋ≧１として、前記所定の学習ステップ数のＫ回のパスの後で前記電子メモリの前記表内の前記ノード座標を更新するステップと、
ｈ．さらなる処理のために、少なくとも前記表内の前記更新されたノード座標を提供するステップと、
を実行することを特徴とする方法。
前記ステップｂにおいて、トポロジー要素を基準とした交差点Ｐは、該トポロジー要素を確立するノードの座標ベクトルの一次結合として表され、Ｐが該トポロジー要素の内部に在るかどうかは表示係数から決定されることを特徴とする、請求項１に記載の方法。
前記ステップｅにおける前記重みは、Ｐの表示係数から計算されることを特徴とする、請求項１〜請求項２のいずれかに記載の方法。
前記ステップａから前記ステップｅまでの前記繰返し回数が１，０００と５，０００との間であり、特に２，０００と３，０００との間であることを特徴とする、請求項１〜請求項３のいずれか記載の方法。
前記学習率は、出発値０．５と最終値０．０１との間であることを特徴とする、請求項１〜請求項４のいずれかに記載の方法。
制御される装置に対する制御コマンドを、前記更新されたノード座標の前記表からの情報に基づいて生成するステップと、前記制御される装置を前記制御コマンドによって制御するステップと、をさらに含むことを特徴とする、請求項１〜請求項５のいずれかに記載の方法。
動いている物体の姿勢推定のための装置であって、
前記動いている物体の電子画像を検出するための深度センサカメラと、
前記深度センサカメラの前記電子画像を格納するための電子メモリと、
前記カメラによる画像記録と時間的に歩調を合わせて、前記電子画像から前記物体を表す３Ｄ点雲を決定するように設計された算術演算装置と、
を備え、
前記メモリは、骨格モデルのノードの３Ｄ座標のリストをさらに格納し、前記算術演算装置は、前記骨格モデルのトポロジー要素の表現としての個々のノード、所定のノード対、及び所定のノード三つ組に関するこれらの座標を読み出し及び変更することが可能であり、
前記算術演算装置は、前記物体を表す前記３Ｄ点雲を決定した後で、
ａ．前記３Ｄ点雲のデータ点Ｘをランダムに選択するステップと、
ｂ．各トポロジー要素を基準としたＸに関する交差点Ｐを計算し、Ｐが各場合において前記トポロジー要素の内部に在るかどうかを識別するステップと、
ｃ．Ｘから各トポロジー要素までの距離を差分ベクトルＸ−Ｐのノルムとして計算するステップと、
ｄ．前記交差点Ｐがトポロジー要素の内部に在る全てのトポロジー要素の中で、Ｘからの最短距離を示すトポロジー要素を決定するステップと、
ｅ．ステップｄで決定された前記トポロジー要素を、該トポロジー要素を確立する全てのノードを前記ベクトルＸ−Ｐの方向に移動させることによって移動させるステップであって、ノードの移動ベクトルに、学習率と、前記ステップｄで決定された前記トポロジー要素を基準としたＸに関する前記交差点Ｐから生じる重みとが掛けられている、移動させるステップと、
ｆ．前記学習率を徐々に低減しながら、ステップａからステップｅまでを所定数の学習ステップ数について繰返すステップと、
ｇ．Ｋ≧１として、前記所定の学習ステップ数のＫ回のパスの後で前記電子メモリの前記表内の前記ノード座標を更新するステップと、
ｈ．さらなる処理のために、少なくとも前記表内の前記更新されたノード座標を提供するステップと、
を実行するようにさらに設計されることを特徴とする装置。
算術演算装置によって実行されると前記算術演算装置に請求項１〜請求項６のいずれかに記載の方法を実行させるコマンドを格納することを特徴とする、コンピュータ可読記憶媒体。