JP2017208126A

JP2017208126A - オブジェクト認識装置、分類ツリー学習装置及びその動作方法

Info

Publication number: JP2017208126A
Application number: JP2017146234A
Authority: JP
Inventors: インユ，ビョン; Byung In Yoo; ギュチェー，チャン; Chang Kyu Choi; ギョリ，チャン; Chang Kyo Lee; ジュンハン，ジェ; Jae Joon Han
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-01-11
Filing date: 2017-07-28
Publication date: 2017-11-24
Anticipated expiration: 2033-01-09
Also published as: EP2804111B1; JP6522060B2; KR101919831B1; US20190122385A1; WO2013105783A1; US20150023557A1; JP6357421B2; US10163215B2; US10867405B2; JP2015505108A; EP2804111A1; CN103890752A; KR20130082425A; CN103890752B; EP2804111A4; US20170039720A1; US9508152B2

Abstract

【課題】オブジェクト認識装置、分類ツリー学習装置、及びその動作方法が開示される。【解決手段】オブジェクト認識装置は、分析対象に対する深度映像が入力される入力部と、分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識する処理部を備える。【選択図】図１

Description

開示される技術は、オブジェクトを認識することのできるオブジェクト認識装置及びその動作方法とオブジェクト認識装置が用いる学習された分類ツリーを生成することのできる分類ツリー学習装置及びその動作方法に関する。

体動作をセンシングしてユーザインターフェースを制御する技術は、グラフィック基盤ゲームの入力手段を越えてインタラクティブビデオ（ＩｎｔｅｒａｃｔｉｖｅＶｉｄｅｏ）を制御するための手段として積極的に活用される可能性を示す。

実施形態は、分析対象に対する単一深度映像を用いて分析対象の見える部分だけではなく見えない隠された部分までも認識する技術を提供する。

実施形態は、分析対象に対する単一深度映像から分析対象を構成する複数の構成（例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体などになり得る）を認識する技術を提供する。

実施形態は、分析された結果に基づいて分析対象に関するボリュームを構成する技術を提供する。

一実施形態に係るオブジェクト認識装置は、分析対象に対する深度映像が入力される入力部と、分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識する処理部とを備える。

一実施形態に係るオブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置は、前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成する学習部を備えてもよい。

一実施形態に係るオブジェクト認識装置の動作方法は、分析対象に対する深度映像が入力されるステップと、分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識するステップとを含む。

一実施形態に係るオブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置の動作方法は、前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成するステップを含む。

実施形態は、分析対象に対する単一深度映像を用いて分析対象の見える部分だけではなく見えない隠された部分までも認識する技術を提供することができる。

実施形態は、分析対象に対する単一深度映像から分析対象を構成する複数の構成（例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体などになり得る）を認識する技術を提供することができる。

実施形態は、分析された結果に基づいて分析対象に関するボリュームを構成する技術を提供することができる。

一実施形態に係るオブジェクト認識システムの動作を示す図である。可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。一実施形態に係る分類ツリー学習装置の動作を示す図である。一実施形態に係る分類ツリー学習装置の構成を示す図である。一実施形態に係る分類ツリー学習装置が光線−出力（Ｒａｙ−Ｃａｓｔｉｎｇ）方式を用いてトレーニングデータを生成する動作を示す図である。一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。学習部が分類ツリーを学習する動作の一実施形態を示す図である。一実施形態に係るオブジェクト認識装置の構成を示す図である。一実施形態に係るオブジェクト認識装置が複数の学習された分類ツリーを用いて入力された映像に対する認識を行う動作を示す図である。オブジェクト認識装置の動作を示すフローチャートである。一実施形態に係るオブジェクト認識装置が複数の学習された分類ツリーを用いる動作を示す図である。一実施形態に係るオブジェクト認識装置が学習された分類ツリーに格納された情報を用いて分析された対象を認識する動作を示す図である。一実施形態に係るオブジェクト認識装置が学習当時の３次元オブジェクトモデルと入力されたオブジェクトの大きさの差を反映してオブジェクト認識性能を向上させる動作を示す図である。一実施形態に係るオブジェクト認識装置がリーフノードを決定する動作を示す図である。

以下、添付する図面を参照しながら実施形態を詳細に説明する。

図１は、一実施形態に係るオブジェクト認識システムの動作を示す図である。図１を参照すると、オブジェクト認識システムは、分析対象に対する単一深度映像（ＳｉｎｇｌｅＤｅｐｔｈＩｍａｇｅ）１１１を用いて分析対象の見える部分（ＶｉｓｉｂｌｅＰａｒｔ）だけではなく見えない隠された部分（ＨｉｄｄｅｎＰａｒｔ）までも認識することができ、さらに分析された結果に基づいて分析対象に対するボリュームを構成することができる。加えて説明すると、オブジェクト認識システムは、何枚の深度映像を利用しなくても分析対象に対する一枚の深度映像から分析対象を構成する複数の構成（例えば、分析対象が人である場合、複数の構成は人の各身体部位−手、腕、足、胴体など−になり得る）を認識できる。分析対象は人、動物、物体などの様々なオブジェクトであってもよい。

オブジェクト認識システムは、分類ツリー学習装置とオブジェクト認識装置を構成として含んでもよい。分類ツリー学習装置は分類ツリーを学習してもよく、オブジェクト認識装置は、ここで学習された分類ツリー１２１、１２２を用いてもよい。オブジェクト認識装置は分類ツリー学習装置が生成した、学習された分類ツリー１２１、１２２を用いて深度映像１１１から分析対象の可視オブジェクトパート（ＶｉｓｉｂｌｅＯｂｊｅｃｔＰａｒｔ）及び隠しオブジェクトパート（ＨｉｄｄｅｎＯｂｊｅｃｔＰａｒｔ）を認識する（１２０）。ここで、実施形態によってオブジェクト認識装置自ら学習された分類ツリー１２１、１２２を生成し、学習された分類ツリー１２１、１２２を用いて分析対象の可視／隠しオブジェクトパートを認識する。学習された分類ツリーは、必要に応じて図面に示すように複数使用してもよく、１つのみを使用してもよい。可視オブジェクトパートは、分析対象に対する映像で直接的に見える部分を示す。また、隠しオブジェクトパートは、映像の角度、撮影方向などにより直接見えない部分を示す。

実施形態に係るオブジェクト認識装置は、学習された分類ツリー１２１、１２２を用いて分析対象に対する可視レイヤと、１つまたは複数の隠しレイヤを復元する（１３０）。例えば、オブジェクト認識装置は、認識された結果から深度映像で直接見える部分（すなわち、可視パート）及び直接見えない部分（すなわち、隠しパート）に対する識別子（ＩＤ）をそれぞれ分類する（１３１）。また、オブジェクト認識装置は、認識された結果から隠しパートに対する深度値を復元する（１３２）。さらに、オブジェクト認識装置は、復元された情報に基づいて分析対象に対するボリュームを復元したりポーズを推定する（１４０）。

オブジェクト認識システムは、オブジェクトの認識が要求される全ての種類のデバイスに用いられてもよい。例えば、オブジェクト認識システムは、ＬＦＤ（ＬａｒｇｅＦｏｒｍａｔＤｉｓｐｌａｙ）を含むスマートＴＶ、スマートフォン、カメラを含むモバイルデバイス、タブレット、ノート型パソコン、オールインワンＰＣ（Ａｌｌ−ｉｎ−ｏｎｅＰＣ）、デスクトップを含む個人用コンピュータなどに用いられてもよい。

また、オブジェクト認識システムは、アプリケーションとして用いられてもよい。例えば、オブジェクト認識システムは、エクササイズゲーム（ＥｘｅｒｃｉｓｅＧａｍｅ、Ｅｘｅｒｇａｍｅ）、仮想スポーツ（ＶｉｒｔｕａｌＳｐｏｒｔｓ）、仮想環境（ＶｉｒｔｕａｌＥｎｔｅｒｔａｉｎｍｅｎｔ）、グラフィックアニメーション（ＧｒａｐｈｉｃａｌＡｎｉｍａｔｉｏｎ）、ビデオオブジェクト探査（ＶｉｄｅｏＯｂｊｅｃｔＥｘｐｌｏｒａｔｉｏｎ）、人体工学（Ｅｒｇｏｎｏｍｉｃｓ）、人間ロボット相互動作（ＨｕｍａｎＲｏｂｏｔＩｎｔｅｒａｃｔｉｏｎ）、監視（Ｓｕｒｖｅｉｌｌａｎｃｅ）、家電製品用自然なＵＩ（ＮａｔｕｒａｌＵｓｅｒＩｎｔｅｒｆａｃｅｓｆｏｒＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ）などの技術分野に適用されてもよい。例えば、オブジェクト認識システムは、ミュージックビデオ、音楽放送市場、健康ビデオ市場などでインタラクティブビデオを制御するための技術として活用されてもよい。

以下、可視オブジェクトパート及び隠しオブジェクトパートについて説明し、オブジェクト認識装置及び分類ツリー学習装置の動作に対して詳細に説明する。

図２〜図６は、可視オブジェクトパートと隠しオブジェクトパートの実施形態を示す図である。可視オブジェクトパートはオブジェクトを撮影した映像（例えば、カラー映像または深度映像）で直接目で確認できる見える部分を示し、隠しアプリケーションパートは、他の部分に遮られて見えない後方の部分や内側の部分を示す。例えば、イメージセンサによってオブジェクトを撮影する場合、センナプレイン（ＳｅｎｓｏｒＰｌａｎｅ）に結像する部分を可視オブジェクトパートデータといい、オブジェクトのセルフオクルージョン（ＳｅｌｆＯｃｃｌｕｓｉｏｎ）や他のオブジェクトによってオクルージョンが発生するオブジェクト領域を隠しオブジェクトパートデータという。

図２を参照すると、オブジェクトが正六面体である場合、正六面体に対する可視オブジェクトパートは正六面体の正面ビュー（ＦｒｏｎｔＶｉｅｗ）２０２で見える３つの面であり、正六面体に対する隠しオブジェクトパートは正六面体の後方ビュー（ＲｅａｒＶｉｅｗ）２０３で見える３つの面である。図３を参照すると、オブジェクトが人であり、人の左側の側面を撮影した映像である場合、可視オブジェクトパート３０１は左腕と左脚などを含む身体の一部になり、隠しオブジェクトパートデータ３０２は左腕と左脚によって遮られる右腕、左胴、右脚などになる。図４を参照すると、オブジェクトが人の右手であり、人の右手の左側の側面を撮影した映像である場合、可視オブジェクトパートデータ４０１は親指、人差し指などになり、隠しオブジェクトパートデータ４０３は中指の一部分４０２、薬指の一部分４０３などになる。

図２〜図４を参照して説明した隠しオブジェクトパートは、オブジェクトに対する撮影映像で他の部分によって遮られたり撮影センサと反対側にあるなどの理由によって直接見えない部分を示す。一方、実施形態に係る隠しオブジェクトパートはオブジェクト内部に位置する部分であってもよい。例えば、図５を参照すると、オブジェクトが人である場合、人に対する可視オブジェクトパート５０１は人の外観になり、人に対する隠しオブジェクトパート５０２は人の内部に存在する筋肉、骨格、内臓、心血管、神経系などである。また、図６を参照すると、オブジェクトが建築物である場合、可視オブジェクトパートデータ６０１は目に見える建築物の外形であり、隠しオブジェクトパートデータ６０２は建築物の内部構造である。

以下、図７ａ〜図９を参照して分類ツリー学習装置の動作に対して説明し、図１０ａ〜図１４ｂを参照してオブジェクト認識装置の動作に対して説明する。前に図２〜図６を参照して様々なオブジェクトの例を開示したが、以下の分類ツリー学習場分及びオブジェクト認識装置の動作は図３に示す人のポーズを例に挙げて説明する。

図７ａは、一実施形態に係る分類ツリー学習装置の動作を示す図である。分類ツリー学習装置は、オブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる学習された分類ツリーを生成してもよい。実施形態によって、分類ツリー学習装置が分類ツリーを学習するための前処理過程として、オブジェクト認識システムは、オブジェクトに対する３次元オブジェクトモデル（３ＤＯｂｊｅｃｔＭｏｄｅｌ）７１２を生成する。ここで、オブジェクト認識システムは、オブジェクトに対する物理的情報７１１から３次元オブジェクトモデル７１２を生成する（７１０）。また、オブジェクト認識システムは、オブジェクトに対するモーションキャプチャー７２１を行ってＩＫ（ｉｎｖｅｒｓｅｋｉｎｅｍａｔｉｃｓ）動作を行い（７２０）モーションデータ７２２を収集し、収集したモーションデータ７２２を３次元オブジェクトモデル７１２に適用して３次元オブジェクトモデル７１２に関する情報を更新する（７２３）。

分類ツリー学習装置は、分類ツリーを学習するためのトレーニングデータ（ＴｒａｉｎｉｎｇＤａｔａ）を生成するために更新された３次元オブジェクトモデル７１２を用いてボリューム分解（Ｖｏｌｕｍｅｄｅｃｏｍｐｏｓｉｔｉｏｎ）する（７２４）。分類ツリー学習装置は、レイ−キャスティング（Ｒａｙ−Ｃａｓｔｉｎｇ）方式を用いてボリューム分解を行う。分類ツリー学習装置は、ボリューム分解を行ってオブジェクトに対する識別子情報と深度値を収集し（７２５）、収集した情報に基づいてトレーニングデータを生成し、生成されたトレーニングデータを用いて分類ツリーを学習する（７２６）。実施形態に係る分類ツリー学習装置は、ランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔ）を分類ツリーとして用いる。

図７ｂは、一実施形態に係る分類ツリー学習装置の構成を示す図である。図７ｂを参照すると、分類ツリー学習装置は学習部７３０を含んでもよい。学習部７３０は、分析対象（オブジェクト）に関するトレーニングデータを用いて学習された分類ツリーを生成してもよい。すなわち、学習部７３０は、トレーニングデータを用いて分類ツリーを学習してもよい。実施形態に係る学習部７３０は、トレーニングデータを直接生成してもよい。学習部７３０は、出力部７３１、映像レイヤ生成部７３２、収集部７３３及びトレーニングデータ生成部７３４を備える。

図７ｃを参照すると、出力部７３１は、仮想カメラ７５１を用いて分析対象（例えば、人）の３次元オブジェクトモデル７５２の複数のボクセル（Ｖｏｘｅｌ）に向かって光線を出力する。映像レイヤ生成部７３２は、光線が３次元オブジェクトモデル７５２の表面を透過する度毎に順次映像レイヤを生成してもよい。例えば、映像レイヤ生成部７３２は、光線が３次元オブジェクトモデル７５２を初めて透過する点（または、ボクセル）を集めて可視レイヤを生成してもよい。また、映像レイヤ生成部７３２は、光線が３次元オブジェクトモデル７５２を通過した後再び透過するとき（すなわち、２回透過する場合）、このような透過点（または、ボクセル）を集めて第１隠しレイヤを生成してもよい。同じ論理に基づいて、映像レイヤ生成部７３２は、第２、第３、第４隠しレイヤを生成する。隠しレイヤは、オブジェクトの形状、姿勢などと仮想カメラ７５１とオブジェクトとの間の方向などによって１つ生成されてもよく、複数生成されてもよい。

収集部７３３は、複数の各映像レイヤごとに光線が透過する表面のボクセルを識別子（ＶｏｘｅｌＩＤ）及び深度値（ＤｅｐｔｈＶａｌｕｅ）を収集してもよい。また、収集部７３３は、収集した識別子及び深度値を複数の映像レイヤそれぞれに格納してもよい。例えば、収集部７３３は、光線が３次元オブジェクトモデル７５２を初めて透過する点（または、ボクセル）に対する識別子を収集して可視レイヤに格納することで、可視レイヤに表示されたオブジェクトパートに対する識別子イメージ７５３を生成してもよい。また、収集部７３３は、光線が３次元オブジェクトモデル７５２を初めて透過する点（または、ボクセル）に対する深度値を収集して可視レイヤに格納することで、可視レイヤに対する深度値イメージ７５６を生成してもよい。このように収集部７３３は、光線が３次元オブジェクトモデル７５２を通過した後再び透過するとき（すなわち、２回透過する場合）、このような透過点（または、ボクセル）に対する識別子を収集して第１隠しレイヤに格納することで、第１隠しレイヤに表示されたオブジェクトパートに対する識別子イメージ７５４を生成してもよい。また、収集部７３３は、光線が３次元オブジェクトモデル７５２を通過した後再び透過するとき、このような透過点（または、ボクセル）に対する深度値を収集して第１隠しレイヤに格納することで、第１隠しレイヤに対する深度値イメージ７５７を生成してもよい。

同様に、収集部７３３は、第２、第３、第４隠しレイヤに対して第１隠しレイヤの動作を同一に適用してもよい。例えば、収集部７３３は、第２隠しレイヤに表示されたオブジェクトパートに対する識別子イメージ７５５及び第２隠しレイヤに対する深度値イメージ７５８を生成してもよい。

トレーニングデータ生成部７３４は、仮想カメラ７５１との距離が最小である映像レイヤ（すなわち、可視レイヤ）を可視オブジェクトパートに対するデータに設定してもよい。可視オブジェクトパートに対するデータは、識別子及び深度値を含んでもよい。同様に、トレーニングデータ生成部７３４は、残りの映像レイヤ（すなわち、隠しレイヤ）を識別子及び深度値を含む隠しオブジェクトパートに対するデータに設定してもよい。トレーニングデータ生成部７３４は、このように設定された可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータを用いてトレーニングデータを生成してもよい。

以上で図７ｂ〜図７ｃを参照して説明したように、学習部７３０は、分類ツリーを学習させるためのトレーニングデータを直接生成してもよい。しかし、学習部７３０がこれに限定することなく、別途の方法によって生成されたトレーニングデータを用いてもよい。以下、生成されたトレーニングデータを用いて分類ツリーを学習する動作に対して説明する。

図７ｄ及び図８は、一実施形態に係る分類ツリー学習装置がトレーニングデータを用いて分類ツリーを学習する動作を示す図である。図７ｄ及び図８を参照すると、分類ツリー学習装置は、トレーニングデータで分類ツリーの学習に用いる可視オブジェクトパートに対するデータＤ_ｖ７０１と、隠しオブジェクトパートに対するデータＤ_ｈ７０２を選択する（８０１）。再び説明すると、分類ツリー学習装置は、学習対象データＤを任意に選択してもよい。ここで、オブジェクトの各パート（例えば、オブジェクトが人である場合、腕、足、胴、頭などのパート）が各クラス（ｃｌａｓｓ）を形成してもよい。

分類ツリー学習装置は、選択されたトレーニングデータを入力して分類ツリー７０３を生成して学習する（８０２）。再び説明すると、分類ツリー学習装置は、選択された学習対象データＤを用いて分類ツリーを生成して学習してもよい。ここで、ＤはＤ_ｖとＤ_ｈに構成してもよい。

分類ツリー学習装置は、入力されたデータ（可視オブジェクトパートに対するデータＤ_ｖ７０１と隠しオブジェクトパートに対するデータＤ_ｈ７０２）がオブジェクトのいずれかのパートに該当するかを確率値に表示したヒストグラムを生成して各ノードに格納してもよい。一実施形態に係るヒストグラムの横軸は、複数のオブジェクトパートＩＤになり、縦軸は入力されたデータが横軸の複数のオブジェクトパートＩＤそれぞれに該当する確率値を示す。例えば、オブジェクトが人である場合、人に対するオブジェクトパートは頭、腕、胴、脚などである。ここで、分類ツリー学習装置は、分類ツリーの各ノードで人に対する映像が特定ノードで頭と認識される確率、腕と認識される確率、胴と認識される確率、脚と認識される確率などを表示したヒストグラムを生成してもよい。

分類ツリー７０３のルートノード（ＲｏｏｔＮｏｄｅ）７０４では、入力されたデータが自身のクラス（パート）に該当する確率が全て均等に演算して格納され得る。しかし、分類ツリー学習装置がトレーニングデータを継続して学習して分類ツリーの下位ノードに探索して行くほど、入力されたデータが該当する確率がクラスごとに差が発生することがある。したがって、分類ツリー７０３のリーフノード（ＬｅａｆＮｏｄｅ）７０５では、入力されたデータが該当する確率が最も高いクラス（パート）が決定される。再び説明すると、学習が進行されてオブジェクトパート分類ツリー７０３のレベル（Ｌｅｖｅｌ）が増加するほど次第に特定クラスの確率が高く保持され、他のクラスの確率は低くなる。

ここで、分類ツリー学習装置は、リーフノード７０５で可視オブジェクトパートデータＤ_ｖ７０１に対する深度値と隠しオブジェクトパートデータＤ_ｈ７０２に対する深度値との間の差値を演算して相対的深度値（ＲｅｌａｔｉｖｅＤｅｐｔｈＶａｌｕｅ）を演算し、リーフノード７０５にヒストグラムと共に格納してもよい。

実施形態に係る分類ツリー学習装置は、ステップ８０１〜８０２の動作を繰り返し行って複数の学習された分類ツリーを生成する（８０３）。例えば、分類ツリー学習装置は、Ｋ個の分類ツリーで構成されたランダムフォレスト（ＲａｎｄｏｍＦｏｒｅｓｔ）を学習するためにステップ８０１とステップ８０２をＫ回繰り返し行ってもよい。

図９は、学習部が分類ツリーを学習する動作の一実施形態を示す図である。図７ｂ及び図９を参照すると、学習部７３０は分類ツリーを学習するために、特徴選択部７４１、特徴空間変換部７４２、閾値選択部７４３、分割部７４４、情報利益演算部７４５、及び分類ツリー生成部７４６を備える。

特徴選択部７４１は、複数の特徴セット（ＦｅａｔｕｒｅＳｅｔ）のいずれか１つの特徴を任意に選択する（９０１）。特徴空間変換部７４２は、選択した特徴を用いて可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータを特徴空間に変換する（９０２）。ここで、可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータは、トレーニングデータに含まれたデータを示す。

一実施形態に係る特徴は深度比較特徴であってもよく、特徴空間変換部７４２は、下記の（数式１−１）のような深度比較特徴（ＤｅｐｔｈＣｏｍｐａｒｉｓｏｎＦｅａｔｕｒｅ）式を用いて特徴空間変換を行う。

ここで、ｄ_Ｉ（ｘ）は映像Ｉでピクセルｘ（ｐｉｘｅｌｘ）の深度を示し、ｕとｖはｘから任意に選択されたオフセットポイントを示す。ここで、ｆ_{（ｕ、ｖ）}（Ｉ、ｘ）は、分割部のスプリット関数で用いられてもよい。深度比較特徴の他の特徴が選択されてもよく、特徴空間変換部７４２は、特徴空間変換を行うために前記（数式１−１）の他にもレベルセット、ＨｏＧ（ＨｉｓｔｏｇｒａｍｏｆＧｒａｄｉｅｎｔ）などの特徴空間変換のための方法を用いてもよい。しかし、特徴空間変換部７４２がこのような方法で限定されて動作することはない。

閾値選択部７４３は、特徴空間の最小値と最大値の範囲内で閾値を任意に選択する（９０３）。（数式２−１）は、閾値選択部７４３が閾値ｔを特徴空間の最小値と最大値の範囲内で選択する動作を示す。

ここで、ｉはＤ_ｖ及びＤ_ｈに属するデータを示す。また、Ｄ_ｖまたはＤ_ｈはイメージのピクセルであってもよく、イメージのパッチ（ｐａｔｃｈ）であってもよいが、特定データ形態に限定されることはない。

分割部７４４は、閾値、特徴空間、及び可視オブジェクトパートに対するデータをスプリット関数に入力し、可視オブジェクトパートに対するデータを２種類に分割してもよい。このような２種類を便宜上左側と右側に呼ぶことにす。したがって、分割部７４４は、可視オブジェクトパートに対するデータを左側可視オブジェクトパートに対するデータ及び右側可視オブジェクトパートに対するデータに分割する（９０４）。分割部７４４が左側／右側可視オブジェクトパートのデータに分割する動作は、分類ツリーで現在ノードの下位ノードそれぞれ分割することである。したがって、所定のデータを左側データに分割するか右側に分割するかは任意に選択してもよい。

分割部７４４は、（数式２−２）のスプリット関数を用いて可視オブジェクトパートに対するデータを分割してもよい。

ここで、ｉはＤ_ｖに属するデータを示す。また、Ｄ_{ｖｌｅｆｔ}は左側可視オブジェクトパートデータであり、Ｄ_{ｖｒｉｇｈｔ}は右側可視オブジェクトパートデータである。分割部７４４は、ｉをスプリット関数ｆ（ｘ）に入力して演算された結果値が閾値ｔよりも小さければ、ｉを左側可視オブジェクトパートデータに分割し、演算された結果値が閾値ｔよりも大きいか同一であれば、ｉを右側可視オブジェクトパートデータに分割してもよい。

同様に、分割部７４４は、（数式２−３）のスプリット関数を用いて隠しオブジェクトパートに対するデータを分割してもよい。

ここで、Ｄ_{ｈｌｅｆｔ}は左側隠しオブジェクトパートデータであり、Ｄ_{ｈｒｉｇｈｔ}は右側隠しオブジェクトパートデータであり、Ｄ_ｈは隠しオブジェクトパートデータである。

情報利益演算部７４５は、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータに関する情報利益を演算する（９０５）。例えば、情報利益演算部７４５は、左側可視オブジェクトパートに対するデータ及び右側可視オブジェクトパートに対するデータの第１中間情報利益を演算してもよい。また、情報利益演算部７４５は、左側隠しオブジェクトパートに対するデータ及び右側隠しオブジェクトパートに対するデータの第２中間情報利益を演算してもよい。第１、第２中間情報利益を演算した後、情報利益演算部７４５は第１中間情報利益及び第２中間情報利益に基づいて最終的な情報利益を演算してもよい。

第１、第２中間情報利益を算出する、例えば、情報利益演算部７４５は各ノードでシャノンエントロピー（Ｅ（Ｄ））に基づく（数式２−４）を用いてもい。

ここで、Ｅ（Ｄ）はシャノンエントロピーを示し、ｃはクラスの個数を示し、Ｃ_ｉはｉ番目のオブジェクトパートクラスを示し、Ｄは特定のノードでのデータセット（ＤａｔａＳｅｔ）を示す。ここで、Ｐ（ｃ_ｉ｜Ｄ）は、データＤのうちｉ番目のオブジェクトパートクラスの確率を示す。ここで、確率は、データＤの個数からｉ番目のオブジェクトパートクラスが占める個数の比率を示す。例えば、全体Ｄの個数が１００であり、３番目の特定オブジェクトパートクラスの一例である手のボクセル個数が１５である場合、Ｐ（ｃ_３｜Ｄ）の値は０．１５となる。

実施形態に係る情報利益演算部７４５は、シャノンエントロピーだけではなくジニーエントロピー（ＧｉｎｉＥｎｔｒｏｐｙ）などを用いて識別されるクラスセット（ＤｉｓｃｒｉｍｉｎａｔｉｖｅＣｌａｓｓｅｓＳｅｔ）が見つけられたか否かを測定する。

情報利益演算部７４５は、各ノードの可視オブジェクトパートデータの識別大きさΔＥ_ｖを（数式２−５）のように演算してもよい。

また、情報利益演算部７４５は、各ノードのｎ番目の隠しオブジェクトパートデータの識別大きさΔＥ_ｈｎを（数式２−６）のように演算してもよい。

（数式２−４）から２−６を用いて算出した値に基づいて、情報利益演算部７４５は最終的な情報利益を下記の（数式２−７）のように演算してもよい。

ここで、αの大きさを０から１の間に調整することによって、情報利益演算部７４５は、可視オブジェクトパートデータと隠しオブジェクトパートデータのいずれか一側に加重値をおいて情報利益を演算するかを調節する。例えば、情報利益演算部７４５は、可視オブジェクトパートデータの情報利益のみを考慮しようとすると、αを１に設定してもよい。また、αが１に近いほど可視オブジェクトパートデータが識別性のあるよう構成されたかを考慮することができ、０に近いほど隠しオブジェクトパートデータが識別性のあるよう構成されたかを考慮することができる。α＝０．５である場合、情報利益演算部７４５は、可視オブジェクトパートデータと隠しオブジェクトパートデータを同じ重要度であると考慮してもよい。

分類ツリー生成部７４６は、演算された情報利益が予め設定された最適基準範囲内の値であるか否かを判断する（９０６）。情報利益が最適基準範囲の外にある場合、分類ツリー生成部７４６は閾値を任意に再び選択してもよい。また、再び選択された閾値を用いてステップ９０３〜９０６を繰り返し行う。情報利益が最適基準範囲内にある場合、分類ツリー生成部７４６は、分類ツリーの現在ノードに選択した特徴の値、閾値、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータを格納する（９０７）。

その後、分類ツリー生成部７４６は、閾値を再び選択してステップ９０３〜９０８を複数回（Ｎ回）繰り返し行う（９０８）。また、分類ツリー生成部７４６は、特徴を再び選択してステップ９０１〜９０９を複数回（Ｍ回）繰り返し行う（９０９）。ステップ９０３〜９０８をＮ回繰り返して行い、ステップ９０１〜９０９をＭ回繰り返し実行（Ｉｔｅｒａｔｉｏｎ）することで、Ｎ×Ｍ回のテストを介して最も小さいΔＥｖであるとき（繰り返し実行することによって最適の値を有するものと演算された最終的な情報利益、ＢｅｓｔＧａｉｎＥ）の特徴及び閾値を探す目的を達成することができる。

分類ツリー生成部７４６は、現在ノードが停止基準を満足するかを判断する（９１０）。一例として、分類ツリー生成部７４６は、下記のｉ−ｉｉｉの条件の少なくとも１つ以上を満足する場合、現在ノードが停止基準を満足すると判断してもよい。

i.最終的な情報利益（ＢｅｓｔＧａｉｎＥ）が基準値以下である場合
（例えば、Δ０．５である場合）
ii.分類ツリーのレベルが基準値以上である場合
（例えば、分類ツリーのレベルが２５以上である場合）
iii.可視オブジェクトパートデータ及び隠しオブジェクトパートデータの量が基準値以下である場合
（例えば、データに属するボクセルの数が１０個以下である場合）
分類ツリー生成部７４６は、現在ノードが停止基準を満足すると、現在ノードをリーフノードとして決定し、当該データセットに対して学習する動作を終了してもよい。可視オブジェクトパートの後に数回重畳した隠しオブジェクトパートがある場合、分類ツリー生成部７４６は、１つのリーフノードのうち隠しオブジェクトパートに対するヒストグラムを複数生成してもよい。再び説明すると、重畳したパートが数個ある場合、隠しオブジェクトパートは重畳した数だけ数個存在するが、分類ツリー生成部７４６は、隠しオブジェクトパートに対するヒストグラムを１つのリーフノードのうち複数生成することによって複数の隠しオブジェクトパートそれぞれに関する情報を格納してもよい。

分類ツリー生成部７４６は、それぞれのノードで可視オブジェクトパートに対する第１ヒストグラム及び隠しオブジェクトパートに対する第２ヒストグラムを生成してもよい。ここで、第１ヒストグラムは、分析対象に対する複数のオブジェクトパートそれぞれが可視オブジェクトパートに決定される確率を表示するヒストグラムであり、第２ヒストグラムは複数のオブジェクトパートそれぞれが隠しオブジェクトパートに決定される確率を表示するヒストグラムであってもよい。分類ツリー生成部７４６は、第１ヒストグラム及び第２ヒストグラムを分類ツリーの現在ノードに格納する（９１１、９１２）。

ここで、第１ヒストグラムの確率は、（数式２−４）で用いられた可視オブジェクトパートに対するＰ（ｃ_ｉ｜Ｄ）の意味と同一である。また、第２ヒストグラムの確率は、（数式２−４）で用いられた隠しオブジェクトパートに対するＰ（ｃ_ｉ｜Ｄ）の意味と同一である。

すなわち、学習が進行してリーフノードに残っているデータＤのうち、可視オブジェクトパートに属する各クラスｃ_ｉに対する比率は確率で算出されて第１ヒストグラムに格納され、隠しオブジェクトパートに属する各クラスｃ_ｉに対する比率は確率で算出されて第２ヒストグラムに格納されてもよい。

分類ツリー生成部７４６は、現在ノードがリーフノードと決定されると、可視オブジェクトパートに対する深度値と隠しオブジェクトパートに対する深度値との間の差値を示す相対的深度値（ＲｅｌａｔｉｖｅＤｅｐｔｈＶａｌｕｅ）を演算して格納してもよい。したがって、オブジェクト認識装置が分類ツリー学習装置が生成した学習された分類ツリーを用いて分析対象を認識するとき、リーフノードに相応するよう格納された第１、第２ヒストグラム及び相対的深度値を用いることによって、分析対象の各パートを認識して分析対象のボリュームを再構成することができる。

分類ツリー生成部７４６がリーフノードを決定する動作を可視オブジェクトパートに対するデータ及び隠しオブジェクトパートに対するデータに対して表示すると、図１４ｂのように示すことができる。

図１４ｂを参照すると、分類ツリー生成部７４６は、最初に選択した特徴、閾値とスプリット関数を用いて可視オブジェクトパートに対するデータに含まれた可視レイヤ１４１０を１次分割（１^ｓｔＳｐｌｉｔ）１４０１する。また、分類ツリー生成部７４６は、停止基準を満足するまで特徴、閾値を再び選択して２次分割１４０２、３次分割１４０３などを行う。繰り返しの分割によって現在ノードが停止基準を満足する場合、分類ツリー生成部７４６は当該オブジェクトパートの部分１４０４をリーフノードとして決定してもよい。分類ツリー生成部７４６は、第１隠しレイヤ１４２０〜第ｎ隠しレイヤ１４３０などに対しても可視レイヤ１４１０と同様に、繰り返し分割動作を行ってリーフノードを決定してもよい。

分類ツリー生成部７４６は、現在ノードが停止基準を満足しなければ、分類ツリーの現在ノードをスプリットノードとして決定する（９１３）。分類ツリー生成部７４６は、スプリットノードとして決定されたノードに選択した特徴の値、閾値、左側可視オブジェクトパートに対するデータ、右側可視オブジェクトパートに対するデータ、左側隠しオブジェクトパートに対するデータ、及び右側隠しオブジェクトパートに対するデータを格納してもよい。

また、分類ツリー生成部７４６は、左側可視オブジェクトパートに対するデータ（Ｄ_{ｖｌｅｆｔ}）及び左側隠しオブジェクトパートに対するデータ（Ｄ_{ｈｌｅｆｔ}）を入力として左側子ノード（Ｃｈｉｌｄｎｏｄｅ）を学習し（９１４）、右側可視オブジェクトパートに対するデータ（Ｄ_{ｖｒｉｇｈｔ}）及び右側隠しオブジェクトパートに対するデータ（Ｄ_{ｈｒｉｇｈｔ}）を入力として右側子ノードを学習する（９１５）。すなわち、分類ツリー生成部７４６は、現在ノードが停止基準を満足しなければ、左側可視／隠しオブジェクトパートに対するデータを入力データとして分類ツリーを再帰呼出し（ＲｅｃｕｒｓｉｖｅＣａｌｌ）、右側可視／隠しオブジェクトパートに対するデータを入力データとして分類ツリーを再帰呼出してもよい。ここで、下位ノードを学習する動作は、ステップ９０１〜９１０の動作が同一に適用されてもよい。

以上は図７ａ〜図９を参照して分類ツリー学習装置が分類ツリーを学習する動作について説明した。以下、学習された分類ツリーを用いて分析対象に対する深度映像からオブジェクトパートを認識するオブジェクト認識装置の動作について説明する。

図１０ａは、一実施形態に係るオブジェクト認識装置の構成を示す図である。また、図１１は、オブジェクト認識装置の動作を示すフローチャートである。図１０ａを参照すると、オブジェクト認識装置は、入力部１０１０及び処理部１０２０を備える。入力部１０１０は、分析対象に対する深度映像が入力される（１１０１）。分析対象は、人や物などのオブジェクトを示す。

処理部１０２０は、学習された分類ツリーを用いて深度映像から分析対象の可視オブジェクトパート及び分析対象の隠しオブジェクトパートを認識する（１１０２、１１０３）。図１０ｂを参照すると、学習された分類ツリーが複数である場合に処理部１０２０は、複数の学習された分類ツリー１００１、１００２それぞれに分析対象に対する深度映像を入力し、分析対象の深度映像がどのような可視オブジェクトパートに対応してどのような隠しオブジェクトパートに対応するかを認識する。例えば、処理部１０２０は、学習された分類ツリーの各レベルのスプリットノードに学習によって格納された特徴ｖと閾値ｔを用いて、各ノードで左側に進行するか右側に進行するかを決定した後、最終的にはリーフノードに到達する。リーフノードに学習によって格納された可視オブジェクトパートに対するクラス確率ヒストグラムと隠しオブジェクトパートに対するクラス確率ヒストグラムを用いて、分析対象に対する深度映像がどのような可視オブジェクトパートに属し、どのような隠しオブジェクトパートに属するかを認識する。例えば、一実施形態に係る処理部１０２０は、複数の学習された分類ツリー１００１、１００２のリーフノードで認識された各結果の平均を用いて可視オブジェクトパート及び隠しオブジェクトパートを認識する。

オブジェクト認識装置はボリューム構成部１０３０をさらに含んでもよい。ボリューム構成部１０３０は、認識された可視オブジェクトパート及び認識された隠しオブジェクトパートを用いて１つのデータ空間に分析対象のボリュームを構成する（１１０４）。ボリューム構成部１０３０は、学習された分類ツリーのリーフノードに格納された相対的深度値を用いてボリュームを構成してもよい。すなわち、ボリューム構成部１０３０は、認識された可視オブジェクトパートに対する深度値と認識された隠しオブジェクトパートに対する深度値との間の差値を示すため、入力された深度値から相対的深度値を差し引いたり加えることによって、隠しオブジェクトパートの深度値を演算してもよく、ボリューム構成部１０３０は演算された値に基づいて分析対象に対するボリュームを構成してもよい。

実施形態によって構成されたボリュームに基づいて分析対象に対する付加情報を抽出する（１１０５）。このような付加情報抽出は、オブジェクト認識装置の処理部１２０が担当する。付加情報は、分析対象の形状、姿勢、キージョイント及び構造のうち少なくとも１つに関する情報を含んでもよい。

オブジェクト認識装置は、大きさ調整部１０４０をさらに含んでもよい。大きさ調整部１０４０について後で詳細に説明する。

図１２は、オブジェクト認識装置が複数の学習された分類ツリーを用いる動作の一実施形態を示す図である。図１２を参照すると、オブジェクト認識装置は分析対象に対する深度映像が入力され（１２０１）、複数の学習された分類ツリーのいずれか１つを用いて可視オブジェクトパート及び隠しオブジェクトパートを認識する（１２０２）。また、１つの学習された分類ツリーに対する認識動作を完了すると、他の学習された分類ツリーを用いてステップ１２０１及び１２０２を繰り返し行う。このように複数の学習された分類ツリーを用いて認識する動作を繰り返し行うことによって、オブジェクト認識装置は複数の学習された分類ツリーそれぞれに対する可視／隠しオブジェクトパートに対する確率値Ｐ_ｖ、Ｐ_ｈを取得してもよい。また、オブジェクト認識装置は、複数の学習された分類ツリーそれぞれに対する隠しオブジェクトパートに対する深度値Ｄを取得してもよい。

また、オブジェクト認識装置は、可視オブジェクトパートの確率及び隠しオブジェクトパートの確率の平均と隠しオブジェクトパートデータの平均深度値を算出する（１２０４、１２０５）。例えば、入力されるデータをＩと仮定し、Ｔ個の学習された分類ツリーが提供されるとき、オブジェクト認識装置は可視オブジェクトパートが特定クラスＣ_ｖに属する確率Ｐを（数式３−１）のように演算してもよい。

オブジェクト認識装置は、最終的に（数式３−１）により求められるクラスＣ_ｖのうち最も高い確率値を有するクラスを可視オブジェクトパートの種類として選択してもよい。例えば、頭、腕、手、胴、足、脚のうち手の確率値が最も高ければ、オブジェクト認識装置は可視オブジェクトパートの種類として手を選択してもよい。

同様に、オブジェクト認識装置は、隠しオブジェクトパートが特定クラスＣ_ｈｎに属する確率Ｐを（数式３−２）のように演算してもよい。可視オブジェクトパートの後に数回重畳した隠しオブジェクトパートが存在する場合、複数（ｎ個）のＣ_ｈが存在する。

オブジェクト認識装置は、最終的に（数式３−２）によって求められるクラスＣ_ｈのうち最も高い確率値を有するクラスを重畳したｎ個の隠しオブジェクトパートそれぞれの種類として選択してもよい。例えば、最初の隠しレイヤで頭、腕、手、胴、足、脚のうち脚の確率値が最も高ければ、オブジェクト認識装置は第１隠しオブジェクトパートの種類として脚を選択してもよい。また、２番目の隠しレイヤで頭、腕、手、胴、足、脚のうち足の確率値が最も高ければ、オブジェクト認識装置は第２隠しオブジェクトパートの種類として足を選択してもよい。

図１３は、オブジェクト認識装置が学習された分類ツリーに格納された情報を用いて分析された対象を認識する動作の一実施形態を示す図である。図１３を参照すると、オブジェクト認識装置の処理部１０２０は、学習された分類ツリーに深度映像を入力してもよい。また、学習された分類ツリーの現在ノードがスプリットノードであるか否かを判断する（１３０１）。現在ノードがスプリットノード（ＳｐｌｉｔＮｏｄｅ）であれば、処理部１０２０は、スプリットノードに格納された特徴の値を読み出す（１３０２）。また、処理部１０２０は、スプリットノードに格納された閾値を読み出す（１３０３）。読み出された特徴の値及び閾値をスプリット関数に入力して処理部１０２０は結果値ｒを演算する（１３０４）。スプリット関数は、学習された分類ツリーのスプリットノードに格納されてもよい。

処理部１０２０は、演算された結果値に基づいて学習された分類ツリーの現在ノードに対する左側子ノード及び右側子ノードのいずれか１つのノードを探索してもよい。例えば、処理部１０２０は、演算された結果値ｒと閾値ｔの大きさを比較判断する（１３０５）。演算された結果値ｒが閾値ｔよりも小さければ、処理部１０２０は左側子ノードを探索し（１３０７）、演算された結果値ｒが閾値ｔと同一であるか大きければ、処理部１０２０は右側子ノードを探索する（１３０６）。この場合、（数式２）または（数式２−３）の例のように、分類ツリーが生成されるとき用いられた分類を同一に用いて子ノードを探索することを見せている。もちろん、分類ツリーを生成するとき他の分類が使用されれば、左側／右側は変わり得る。左側または右側ノードを探索すれば、処理部１０２０は、ステップ１３０１に再び戻って探索したノードがスプリットノードであるか否かを判断する。探索したノードがスプリットノードである場合、ステップ１３０１〜１３０７を繰り返し行う。

現地ノードがスプリットノードではなくリーフノードである場合、処理部１０２０は、リーフノードに格納された可視オブジェクトパートに対する第１ヒストグラムを読み出す（１３０８）。また、処理部１０２０は、隠しオブジェクトパートに対する第２ヒストグラムを読み出す（１３０９）。処理部１０２０は、読み出された第１ヒストグラムに基づいて深度映像から可視オブジェクトパートを認識し、第２ヒストグラムに基づいて深度映像から隠しオブジェクトパートを認識する。言い換えれば、処理部１０２０は、入力された深度映像がどの可視オブジェクトパートに該当するか、どの隠しオブジェクトパートに該当するかを認識することができる。

オブジェクトを認識する過程において、深度映像のオブジェクト大きさに関する情報を活用すれば、可視オブジェクト及び隠しオブジェクトの認識性能を高めることができる。そのために、オブジェクト認識装置は、入力オブジェクトの大きさを把握してオブジェクト認識装置内の認識方法を調整する大きさ調整部１０４０をさらに含んでもよい。大きさ調整部１０４０は、処理部１０２０の内部構成として位置してもよい。

図１４ａを参照すると、分類ツリー学習装置で用いたオブジェクトモデル（ＴｒａｉｎｅｄＢｏｄｙＴｙｐｅ）１４４１と実際に入力される深度映像のオブジェクトの体形は異なることもある。その結果、オブジェクト認識装置で可視オブジェクト及び隠しオブジェクトを認識することにおいて、修正されていないオリジナル特徴１４４２を適用した結果のように腰の部分が手に認識されるなどのエラーが発生することがある。このような問題を解決するために、大きさ調整部１０４０は入力オブジェクトの幅１４４４及び高さ１４４５を考慮し、図１３に示す１３０４ステップで特徴空間に変換するとき反映してもよい。

大きさ調整部１０４０は、下記の（数式３−３）のような特徴空間変換式を図１３の１３０４ステップで利用してもよい。

ここで、ｄ_Ｉ（ｘ）は映像Ｉでピクセルｘ（ｐｉｘｅｌｘ）の深度を示し、ｕとｖはｘから任意に選択されたオフセットポイント（ｏｆｆｓｅｔｐｏｉｎｔ）を示す。また、演算子
は２次元で要素ワイズ乗算子（ｅｌｅｍｅｎｔ−ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を示す。

大きさ調整部１０４０は、前記（数式３−３）に用いられる幅Ｗ１４４４と高さＨ１４４５を有するオブジェクトタイプ（例えば、人体タイプ）に対する最適係数Ｋ^＊ _Ｗ，Ｈを（数式３−４）のように演算してもよい。

ここで、Ｋ^＊ _Ｗ，Ｈ＝（Ｗ、Ｈ）は、オブジェクトタイプの幅Ｗ１４４４及び高さＨ１４４５に対応する特徴スケールを調整するための係数パラメータのセットを示す。また、Ｔは分類ツリーの数を示し、ｃは与えられたオブジェクトパート識別子ｂに対する各分類ツリーのオブジェクトパート確率を示す。

可視オブジェクト及び隠しオブジェクトの認識結果は、同一のクラスＩＤを有する複数のオブジェクトパート分布を含んでもよく、オブジェクトスケルトン（例えば、人体スケルトン）のジョイント位置Ｘ^＊は下記の（数式３−５）のようにベイジアン方法（Ｂａｙｅｓｉａｎｍｅｔｈｏｄ）によって予測されることで正確度がより向上する。

ここで、Ｘは与えられたオブジェクト確率ｃのジョイント位置を示し、Ｓはシルエットマッチング確率を示し、Ｌはオブジェクトパート連続性を示す。最も高い確率を有する候補ジョイントＸ^＊は全ての候補のうち選択されてもよく、選択されればオブジェクトのスケルトンを再現するために用いられてもよい。

先に説明したオブジェクト認識装置、分類ツリー学習装置及びその動作方法は、多様なコンピュータ手段によって行うことができるプログラム命令形態で実現され、コンピュータ読み出し可能媒体に記録してもよい。前記コンピュータ録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせたものを含んでもよい。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含んでもよい。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。上述のハードウェア装置は、本発明の動作を行うために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から様々に修正及び変形が可能である。

１１１深度画像
１２１、１２２学習ツリー
３０１、４０１、５０１可視オブジェクトパート
３０２、４０２、５０２隠しオブジェクトパート

Claims

分析対象に対する深度映像が入力される入力部と、
分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識する処理部と、
を備えることを特徴とするオブジェクト認識装置。
前記認識された可視オブジェクトパート及び前記認識された隠しオブジェクトパートを用いて、１つのデータ空間に前記分析対象のボリュームを構成するボリューム構成部をさらに備えることを特徴とする請求項１に記載のオブジェクト認識装置。
前記処理部は、前記ボリュームに基づいて前記分析対象に対する付加情報を抽出することを特徴とする請求項１または２に記載のオブジェクト認識装置。
前記付加情報は、前記分析対象の形状、姿勢、キージョイント、及び構造のうち少なくとも１つに関する情報を含むことを特徴とする請求項３に記載のオブジェクト認識装置。
前記ボリューム構成部は、前記分類ツリーのリーフノードに格納された相対的深度値を用いて前記ボリュームを構成し、
前記相対的深度値は、前記認識された可視オブジェクトパートに対する深度値と前記認識された隠しオブジェクトパートに対する深度値との間の差値を示すことを特徴とする請求項２に記載のオブジェクト認識装置。
前記処理部は、
前記分類ツリーに前記深度映像を入力し、
前記分類ツリーの現在ノードがスプリットノードであれば、前記スプリットノードに格納された特徴の値及び閾値を読み出し、前記特徴の値及び前記閾値をスプリット関数に入力して結果値を演算し、前記演算された結果値に基づいて前記現在ノードに対する左側子ノード及び右側子ノードのいずれか１つのノードを探索し、
前記現在ノードがリーフノードであれば、前記リーフノードに格納された前記可視オブジェクトパートに対する第１ヒストグラム及び前記隠しオブジェクトパートに対する第２ヒストグラムを読み出し、前記第１ヒストグラムに基づいて前記深度映像から前記可視オブジェクトパートを認識して前記第２ヒストグラムに基づいて前記深度映像から前記隠しオブジェクトパートを認識することを特徴とする請求項１乃至５のいずれか一項に記載のオブジェクト認識装置。
前記処理部は、前記演算された結果値が前記閾値よりも小さければ、前記左側子ノードを探索し、前記演算された結果値が前記閾値と同一であるか大きければ、前記右側子ノードを探索することを特徴とする請求項６に記載のオブジェクト認識装置。
前記分析対象に対するオブジェクトモデルの幅及び高さのうち少なくとも１つの大きさを調整する大きさ調整部をさらに備えることを特徴とする請求項１乃至７のいずれか一項に記載のオブジェクト認識装置。
前記分類ツリーは、前記可視オブジェクトパートの確率値及び前記隠しオブジェクトパートの確率値を含むことを特徴とする請求項１乃至８のいずれか一項に記載のオブジェクト認識装置。
前記分類ツリーは、前記可視オブジェクトパートと前記隠しオブジェクトパートの相対的深度値を含むことを特徴とする請求項１乃至８のいずれか一項に記載のオブジェクト認識装置。
前記分類ツリーは、前記隠しオブジェクトパートの少なくとも一部分を複数のレイヤに表現することを特徴とする請求項１乃至８のいずれか一項に記載のオブジェクト認識装置。
オブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置において、
前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成する学習部を備えることを特徴とする分類ツリー学習装置。
前記学習部は、
仮想カメラを用いて前記分析対象の３次元オブジェクトモデルの複数のボクセルに向かって光線を出力する出力部と、
前記光線が前記３次元オブジェクトモデルの表面を透過する度毎に順次に映像レイヤを生成する映像レイヤ生成部と、
前記複数の各映像レイヤごとに前記光線が透過する表面のボクセルを識別子（ＶｏｘｅｌＩＤ）及び深度値（ＤｅｐｔｈＶａｌｕｅ）を収集し、前記収集したボクセルを識別子及び深度値を前記複数の映像レイヤそれぞれに格納する収集部と、
前記仮想カメラとの距離が最小である映像レイヤを前記可視オブジェクトパートに対するデータに設定し、残りの映像レイヤを前記隠しオブジェクトパートに対するデータに設定して前記トレーニングデータを生成するトレーニングデータ生成部と、
を備えることを特徴とする請求項１２に記載の分類ツリー学習装置。
前記学習部は、
複数の特徴セットのいずれか１つの特徴を任意に選択する特徴選択部と、
前記選択した特徴を用いて前記可視オブジェクトパートに対するデータ及び前記隠しオブジェクトパートに対するデータを特徴空間に変換する特徴空間変換部と、
前記特徴空間の最小値と最大値の範囲内で閾値を任意に選択する閾値選択部と、
前記閾値、前記特徴空間、及び前記可視オブジェクトパートに対するデータをスプリット関数に入力し、前記可視オブジェクトパートに対するデータを左側可視オブジェクトパートに対するデータ及び右側可視オブジェクトパートに対するデータに分割し、前記隠しオブジェクトパートに対するデータを左側隠しオブジェクトパートに対するデータ及び右側隠しオブジェクトパートに対するデータに分割する分割部と、
前記左側可視オブジェクトパートに対するデータ、前記右側可視オブジェクトパートに対するデータ、前記左側隠しオブジェクトパートに対するデータ、及び前記右側隠しオブジェクトパートに対するデータに関する情報利益を演算する情報利益演算部と、
前記情報利益が最適基準範囲内である場合、前記分類ツリーの現在ノードに前記選択した特徴の値、前記閾値、前記左側可視オブジェクトパートに対するデータ、前記右側可視オブジェクトパートに対するデータ、前記左側隠しオブジェクトパートに対するデータ、及び前記右側隠しオブジェクトパートに対するデータを格納して前記学習された分類ツリーを生成する分類ツリー生成部と、
を備えることを特徴とする請求項１２または１３に記載の分類ツリー学習装置。
前記情報利益演算部は、
前記左側可視オブジェクトパートに対するデータ及び前記右側可視オブジェクトパートに対するデータの第１中間情報利益と、前記左側隠しオブジェクトパートに対するデータ及び前記右側隠しオブジェクトパートに対するデータの第２中間情報利益を演算し、
前記第１中間情報利益及び前記第２中間情報利益に基づいて前記情報利益を演算することを特徴とする請求項１４に記載の分類ツリー学習装置。
前記分類ツリー生成部は、
前記情報利益が前記最適基準範囲の外である場合、前記複数の特徴セットのいずれか１つの特徴を任意に再び選択し、前記閾値を任意に再び選択して前記現在ノードに対して前記分類ツリーの学習を再び行うように前記特徴選択部、前記特徴空間変換部、前記閾値選択部、前記分割部、及び前記情報利益演算部の動作を制御することを特徴とする請求項１４または１５に記載の分類ツリー学習装置。
前記分類ツリー生成部は、
前記現在ノードが停止基準を満足するかを判断し、
前記現在ノードが前記停止基準を満足しなければ、前記左側可視オブジェクトパートに対するデータ及び前記左側隠しオブジェクトパートに対するデータを入力として左側子ノードを学習し、前記右側可視オブジェクトパートに対するデータ及び前記右側隠しオブジェクトパートに対するデータを入力として右側子ノードを学習し、
前記現在ノードが前記停止基準を満足すれば、前記現在ノードをリーフノードとして決定して前記分類ツリーを学習する動作を終了することを特徴とする請求項１４乃至１６のいずれか一項に記載の分類ツリー学習装置。
前記分類ツリー生成部は、
前記現在ノードが前記リーフノードとして決定されれば、前記分析対象に対する複数のオブジェクトパートそれぞれが前記可視オブジェクトパートに決定される確率を表示する第１ヒストグラムを生成し、前記複数のオブジェクトパートそれぞれが前記隠しオブジェクトパートに決定される確率を表示する第２ヒストグラムを生成し、前記第１ヒストグラム及び前記第２ヒストグラムを前記現在ノードに格納することを特徴とする請求項１４乃至１７のいずれか一項に記載の分類ツリー学習装置。
前記分類ツリー生成部は、
前記現在ノードが前記リーフノードとして決定されれば、前記可視オブジェクトパートに対する深度値と前記隠しオブジェクトパートに対する深度値との間の差値を示す相対的深度値を演算して前記現在ノードに格納することを特徴とする請求項１４乃至１７のいずれか一項に記載の分類ツリー学習装置。
分析対象に対する深度映像が入力されるステップと、
分類ツリーを用いて前記深度映像から前記分析対象の可視オブジェクトパート及び前記分析対象の隠しオブジェクトパートを認識するステップと、
を含むことを特徴とするオブジェクト認識装置の動作方法。
オブジェクト認識装置が分析対象の可視オブジェクトパート及び隠しオブジェクトパートを認識するとき用いる分類ツリーを生成する分類ツリー学習装置の動作方法において、
前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成するステップを含むことを特徴とする分類ツリー学習装置の動作方法。
プログラムが記録されたコンピュータで読み出し可能な記録媒体であって、
プロセッサによって前記プログラムが実行されると、請求項２０または２１に記載の方法を実行する、
コンピュータで読み出し可能な記録媒体。
前記処理部は、単一深度映像に基づいて前記可視オブジェクトパート及び前記隠しオブジェクトパートを認識することを特徴とする請求項１に記載のオブジェクト認識装置。
前記分類ツリーは、前記隠しオブジェクトパートの少なくとも一部分を複数のレイヤに表現し、
前記処理部は、前記リーフノードから複数の隠しオブジェクトヒストグラムを読み出し、前記複数の隠しオブジェクトヒストグラムに基づいて前記深度映像から少なくとも１つの隠しオブジェクトパートを認識することを特徴とする請求項７に記載のオブジェクト認識装置。
前記複数の隠しオブジェクトヒストグラムは、人体の筋肉を表現する隠しオブジェクトヒストグラム、人体の骨格を表現する隠しオブジェクトヒストグラム、人体の内装を表現する隠しオブジェクトヒストグラム、人体の心血管を表現する隠しオブジェクトヒストグラム、人体の神経系を表現する隠しオブジェクトヒストグラムのうち少なくとも１つを含むことを特徴とする請求項２４に記載のオブジェクト認識装置。
前記学習部は、前記分類ツリーの複数のノードそれぞれのための可視及び隠しオブジェクトパートを考慮し、前記分析対象に関するトレーニングデータを用いて前記分類ツリーを生成することを特徴とする請求項１２に記載の分類ツリー学習装置
分類ツリーを取得するステップであり、前記分類ツリーは、前記分類ツリーの複数のノードそれぞれのための可視及び隠しオブジェクトパートを考慮して学習されるステップと、
前記分類ツリー及びオブジェクトの深度映像に基づいて前記オブジェクトの可視オブジェクトパートと隠しオブジェクトパートを認識するステップと、
を含むことを特徴とするオブジェクト認識方法。
前記分類ツリーの複数のノードそれぞれのための可視及び隠しオブジェクトパートを考慮した学習によって前記分類ツリーを生成するステップをさらに含むことを特徴とする請求項２７に記載のオブジェクト認識方法。