JP2021513175A

JP2021513175A - データ処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021513175A
Application number: JP2020558429A
Authority: JP
Inventors: 汪旻; ▲鄒▼壮; ▲劉▼文▲韜▼; ▲錢▼晨; ▲馬▼利庄
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-09-18
Filing date: 2019-04-23
Publication date: 2021-05-20
Anticipated expiration: 2039-04-23
Also published as: CN110909580B; WO2020057121A1; US20210240971A1; CN110909580A; SG11202010510XA; JP6985532B2; US11238273B2

Abstract

本出願の実施例は、データ処理方法及び装置、電子機器並びに記憶媒体を提供する。前記データ処理方法は、参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換し、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成することと、前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得することとを含む。本出願の実施例が提供する技術的解決手段によれば、ターゲットに対して３Ｄ画像を採集することができる。
【選択図】図１Ｂ

Description

（関連出願の相互参照）
本出願は、出願番号が２０１８１１０８９８７２．４であり、出願日が２０１８年０９月１８日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全内容を参照として本出願に援用する。

本出願は、情報技術分野に関するがそれに限定されず、特に、データ処理方法及び装置、電子機器並びに記憶媒体に関する。

体感ゲーム等の体感シーンにおいて、一般的には、体感機器を人体に装着する必要がある。体感機器は、人体の３Ｄ姿勢を採集して被制御機器に伝送して被制御機器の制御を行う。このような被制御機器を制御するために、一般的には、体感機器を利用する必要がある。

これに鑑みて、本出願の実施例は、データ処理方法及び装置、電子機器並びに記憶媒体を提供することが望ましい。

本出願の技術的解決手段は以下のように実現する。

データ処理方法であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換し、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成することと、
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得することとを含む。

データ処理装置であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換し、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成するように構成される第１変換モジュールと、
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得するように構成される第１取得モジュールとを備える。

コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、１つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させる。

電子機器であって、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、１つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させるように構成されるプロセッサとを備える。

本出願の実施例が提供する技術的解決手段によれば、ターゲットに対して３Ｄ画像を採集することができる。該３Ｄ画像は、２Ｄ画像及び深度画像からなる。深度画像は、ターゲットとカメラとの距離を表すための深度値を提供する。３Ｄ画像は、ＲＧＢ又はＹＵＶ等の、２Ｄイメージング平面におけるターゲットの姿勢を提供する。従って、３Ｄ画像は、ターゲットの三次元姿勢の取得に用いられる。例えば、ニューラルネットワーク等の深層学習モジュールによって３Ｄ画像を処理することで、三次元空間におけるターゲットの三次元姿勢を抽出することができる。しかしながら、画像採集過程において、ターゲットは、カメラに対して前後に移動するものであるため、カメラにより採集される深度画像における深度値を変動させる。深層学習モジュールを利用して異なる遠近ターゲットの三次元姿勢を識別する場合、下記の欠点があり、１つは、特定の遠近トレーニングサンプルを利用してトレーニングする必要があり、トレーニングが困難であり、トレーニング周期が長い欠点であり、もう一つは、異なる遠近トレーニングサンプルを利用してトレーニングしても、深層学習モジュールのトレーニング効果が十分に良いものになるとは限らない欠点である。そのため、サンプルが少ない遠近３Ｄ画像に対する三次元姿勢の抽出精度は、依然として不十分である。本出願の実施例において、３Ｄ画像におけるターゲットキーポイントの第１の３Ｄ特徴を深度モデルに入力する前に、２Ｄイメージング平面内でターゲットを水平移動させ、実際深度値を参照深度値に変換することで、参照深度値にある時のターゲットの第１の３Ｄ特徴を取得することができ、そして、該第１の３Ｄ特徴を深層学習モジュールに入力して処理する。用いられている参照深度値が、深層学習モジュールのトレーニング時に使用している深度値であるため、ターゲットの３Ｄ姿勢を正確に抽出すると共に、深層学習モジュールのトレーニングに必要なサンプル及び時間を低減させることができる。

本出願の実施例によるデータ処理方法を示すフローチャートである。本出願の実施例によるデータ処理方法を示すフローチャートである。本出願の実施例による第１の２Ｄ座標から第２の２Ｄ座標への変換を示す概略図である。本出願の実施例によるキーポイントを示す概略図である。本出願の実施例による２Ｄ画像におけるターゲットの水平移動の効果を示す概略図である。本出願の実施例によるキーポイントの第１の２Ｄ座標の取得を示す概略図である。本出願の実施例によるキーポイント及び基準点を示す概略図である。本出願の実施例によるもう１つのキーポイントを示す概略図である。本出願の実施例によるデータ処理装置の構造を示す概略図である。本出願の実施例による電子機器の構造を示す概略図である。本出願の実施例によるニューラルネットワークを示す概略図である。

以下、明細書の図面及び具体的な実施例を参照しながら、本出願の技術的解決手段を更に詳しく説明する。

図１Ａに示すように、本実施例は、データ処理方法を提供する。該方法は以下を含む。

ステップＳ１１０：参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換し、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成する。

ステップＳ１２０：前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得する。

本出願において、データ処理方法を提供する。該データ処理法保は、一台又は複数台の電子機器に適用される。前記電子機器は、プロセッサを備えてもよい。該プロセッサは、コンピュータプログラムなどの実行可能な命令を実行することで、データ処理方法における１つ又は複数の工程を実現させることができる。幾つかの実施例において、単一型電子機器により、集中型データ処理を行うことができる。また、複数台の電子機器により分散型データ処理を行うこともできる。

前記画像は、三次元画像であってもよい。前記三次元画像は、２Ｄ画像及び深度画像を含む。前記２Ｄ画像は、ＲＧＢ画像又はＹＵＶ画像などであってもよい。前記深度画像は、深度採集モジュールにより採集された深度情報であってもよい。前記深度情報の画素値は、深度値である。前記深度値は、画像採集モジュールとターゲットとの距離であってもよい。ここで、本出願の実施例に記載の実際深度は、深度画像からのものである。

第１の２Ｄ座標から第２の２Ｄ座標へ変換することで、ターゲットの実際深度値を参照深度値に変換した後の、カメラ座標系におけるターゲットのキーポイント的２Ｄ座標を得る。

ステップＳ１１０の実行によって、深層学習モジュールにターゲットの３Ｄ姿勢を正確に抽出させるための第１の３Ｄ特徴を得ることに相当する。深層学習モジュールに前記第１の３Ｄ特徴を入力し、深度学習モデルは、ターゲットの３Ｄ姿勢を自動的に出力することができる。前記３Ｄ姿勢は、三次元空間座標系内に位置する第１の３Ｄ特徴同士間の相対的位置を表すために用いられることができる。

ここで、前記第１の３Ｄ特徴は、画像座標系における座標及び参照深度値を含んでもよい。

例えば、前記キーポイントに基づいて、ターゲットの基準点の２Ｄ座標を得る。前記３Ｄ姿勢は、三次元空間における姿勢、姿態を表すための情報であってもよい。具体的には、前記３Ｄ姿勢は、各キーポイントと前記基準点との相対的位置で表されてもよい。３Ｄ空間において、前記基準点の３Ｄ座標が（０，０，０）であり、ターゲットが人体であると仮定すると、人体の骨格を表す複数のキーポイントの、（０，０，０）に対する相対的位置又は相対的座標で表されてもよい。

前記基準点は、人体の股関節両端の間の中心点であってもよい。例えば、前記キーポイントは、頭、頸、肘、手首、股関節、膝及び足首を表すための座標点であってもよい。このように、基準点に対するこれらのキーポイントの相対的位置に基づいて、現在の人体の前、後、左、右への水平移動距離を知ることができる。また、顔のキーポイントと基準点との相対的位置に基づいて、顔の向きを知ることもできる。従って、人体の頭部の回転量及び／又は回転方向などの回転パラメータを知ることができる。胴体のキーポイントと基準点との相対的位置に基づいて、胴体の回転量及び／又は回転方向などの回転パラメータを知ることができる。前記顔のキーポイントは、鼻に位置する１つの点であってもよく、例えば、鼻先の座標点であってもよい。前記胴体のキーポイントは、胸部の中心点座標であってもよい。勿論、上記はキーポイントの例に過ぎず、具体的な実現形態はこれに限定されない。

更に、前記ターゲットが人体である場合、ステップＳ１１０において、Ｎ個のキーポイントの座標に基づいて、Ｎ＋Ｍ個の第２の２Ｄ座標を得ることができる。ここで、追加されたＭ個の第２の２Ｄ座標は、Ｎ個のキーポイントの第１の２Ｄ座標に基づいて生成されたものであってもよい。例えば、前記Ｍが１であってもよい。追加された１つの第２の２Ｄ座標は、人体の基準点の２Ｄ座標に対応し得る。前記Ｎは、１４であってもよい。

ステップＳ１２０において、Ｎ＋１個のキーポイントの第２の２Ｄ座標及び参照深度値を深層学習モジュールに入力し、Ｎ＋Ｓ個のキーポイントの三次元（３Ｄ）座標を得て、前記３Ｄ姿勢として出力することができる。ここで、Ｎ＋Ｓ個のキーポイントのうちのＮ個のキーポイントは、第１の２Ｄ座標のＮ個のキーポイントに一対一に対応する。Ｓ個のキーポイントは、Ｎ個のキーポイントに基づいて生成されたものである。

例えば、人体を例として、Ｎ個の第１の２Ｄ座標は、１４個のキーポイントであってもよい。Ｓは３であってもよい。従って、最終に、１７個のキーポイントの第１の３Ｄ特徴を得る。幾つかの実施例において、１７個のキーポイントのうちの１つは、基準点である。該基準点は、人体の股関節の２つの端点（２つのキーポイントに対応する）の中心点であってもよい。別の２つのキーポイントは、顔の鼻先座標及び胸部の中心点座標であってもよい。勿論、ここで、単なる例であり、具体的な実現形態はこれに限定されない。

図６Ａは、図３に示した１４個のキーポイントに対してキーポイント０が追加されたことを示す概略図である。図６Ｂは、図３に示した１４個のキーポイントに基づいて生成された１７個のキーポイントを示す概略図である。図６Ｂにおける１７個のキーポイントは、図３に示したキーポイントに対して、キーポイント０、キーポイント１５及びキーポイント１６が追加された。ここで、キーポイント１６の２Ｄ座標は、キーポイント１及びキーポイント２の２Ｄ座標に基づいて決定される。キーポイント１５の２Ｄ座標は、キーポイント２の２Ｄ座標及びキーポイント０の２Ｄ座標に基づいて決定される。キーポイント０は、本出願の実施例で提供される基準点であってもよい。

本出願の実施例において、ニューラルネットワークなどの深層学習モジュールトレーニングを行う過程において、異なる実際深度値を有するターゲットの３Ｄ姿勢を直接的に検出できるようにするために、異なる実際深度値を有するトレーニングサンプルを利用してニューラルネットワークをトレーニングする必要がある。このようにすれば、トレーニングに必要なトレーニングサンプルが多く、トレーニングサンプルが多いため、ニューラルネットワークなどの深層学習モジュールの収束速度が遅くなり、トレーニング周期が長くなる。本実施例における方法を利用する場合、ニューラルネットワークなどの深層学習モジュールは、深度値が同じであるトレーニングサンプルのみを利用してトレーニングを行うことができ、従って、トレーニングサンプルのデータ量が小さい。ニューラルネットワークなどの深層学習モジュールの収束速度が速く、トレーニング周期が短いため、ニューラルネットワークなどの深層学習モジュールを簡略化することができる。

また、単一の深度値（即ち、参照深度値）を利用する場合、ニューラルネットワークなどの深層学習モジュールは、異なる深度値を使用するために、単一の深度値に対応する３Ｄ座標の３Ｄ姿勢の抽出精度を犠牲にすることなく、３Ｄ姿勢抽出の精度が高いという特徴を有する。

幾つかの実施例において、前記ステップＳ１１０は、前記実際深度値と前記参照深度値との比、及び前記第１の２Ｄ座標に基づいて、前記第２の２Ｄ座標を得ることを含んでもよい。

更に、例えば、前記ステップＳ１１０は、下記関数関係を利用して前記第２の２Ｄ座標を決定することを含んでもよく、
Ｘ２＝（Ｘ１＊ｄ）／Ｄ、
Ｙ２＝（Ｙ１＊ｄ）／Ｄ、
ただし、Ｘ２は、前記第２の２Ｄ座標の第１方向における座標値であり、Ｘ１は、前記第１の２Ｄ座標の前記第１方向における座標値であり、
Ｙ２は、第２の２Ｄ座標の第２方向における座標値であり、Ｙ１は、前記第１の２Ｄ座標の前記第２方向における座標値であり、前記第２方向は、前記第１方向に垂直しており、
ｄは、前記実際深度値であり、Ｄは、前記参照深度値である。

前記Ｄは、空間距離であってもよく、単位は、ミリメートル、センチメートル又はデシメートル等であってもよい。

図２に示すように、ｏｆは、画像採集の焦点距離（ｆと略称される）であり、カメラのパラメータを確認することによって取得できるものであり、三角関数変換により第２の２Ｄ座標及び参照深度値を得ることができる。第２の２Ｄ座標及び参照深度値は、前記第１の３Ｄ特徴を構成する。標準深度値の第１の３Ｄ特徴を深層学習モジュールに入力して、ターゲットの３Ｄ姿勢を正確に抽出することを実現させることができる。従って、幾つかの実施例において、ｏｄで表される距離は、前記実際深度値であり、ｄと略称される。ｏＤで表される距離は、参照深度値である。三角関数関係とは、ｙ０／ｙ１＝ｆ／ｄ、ｙ２／ｙ１＝ｆ／Ｄ、ｙ０で表される第１の２Ｄ座標、ｙ２で表される第２の２Ｄ座標を指してもよい。従って、ｙ２＝（ｄ＊ｙ０）／Ｄである。

本実施例において、採集された画像における画像キーポイントの２Ｄ座標ついて、本実施例において実際に採集して得られる画像の２Ｄ座標は、第３の２Ｄ座標と呼ばれる。図１Ｂに示すように、前記方法は、以下を更に含む。

ステップＳ１００：前記キーポイントの第２の３Ｄ特徴及び前記画像に対応する光心位置に基づいて、前記第１の２Ｄ座標を得る。

前記キーポイントは実際に採集された２Ｄ画像におけるターゲット人体のキーポイントである。例えば、人体骨格におけるキーポイントである。

前記キーポイントの数は複数であってもよい。例えば、ターゲットが人体であれば、前記キーポイントは、１４個の２Ｄキーポイントを含んでもよい。ここで、２Ｄ画像深層学習モジュールを利用して、２Ｄ画像を処理することで、前記第３の２Ｄ座標を取得することができる。

図３には、人体骨各のキーポイントの２Ｄ座標が示される。図３において、１４個の黒丸印で１４個のキーポイントを表す。

幾つかの実施例において、深層学習モジュールを利用して、前記２Ｄ画像を処理することで、前記第３の２Ｄ座標を取得することができる。該第３の２Ｄ座標及び深度画像から抽出された実際深度値は、第２の３Ｄ特徴を構成することができる。

深層学習モジュールを利用してターゲットの第１の３Ｄ特徴に基づいてターゲットの３Ｄ姿勢を推定する時、現在のターゲットは、画像採集モジュールと近い場合があるし、遠い場合もある。深層学習モジュールをトレーニングする時に、それまで対応するトレーニングサンプルが足りない場合、ターゲットの３Ｄ姿勢を正確に推定することができない。深層学習モジュールは、可能な限り、異なる遠近の３Ｄ画像におけるターゲットの３Ｄ姿勢を正確に抽出する必要があるため、より多くのトレーニングサンプルを導入して深層学習モジュールを処理する必要がある。従って、深層学習モジュールのトレーニング難度が大きく、且つトレーニング周期が長い。前記深層学習モジュールは、様々なニューラルネットワークであってもよく、例えば、完全結合ネットワーク及び残差ネットワークの残差モジュール等の３Ｄ姿勢識別機能を有するネットワークを含んでもよい。従って、本実施例において、ターゲットの３Ｄ姿勢の精度を向上させるために、ターゲットのキーポイントの第１の３Ｄ特徴における深度値を参照深度値に変換する。

前記キーポイントの的第１の３Ｄ特徴における深度値を参照深度値に変換するために、まず、第３の２Ｄ座標を第１の２Ｄ座標に変換し、変換された２Ｄ座標を前記画像の光軸に位置させる必要がある。

図４は２Ｄ画像であり、撮像された人物は、元々、写真の非中央位置に位置する。光心位置の座標の水平移動により、図４における実線で表される人物を第３の２Ｄ座標の所在位置から、点線で表される第１の２Ｄ座標の所在位置に移動することができる。キーポイントにおける基準点をカメラ平面で水平移動することにより、基準点をカメラ平面の光軸に移動させる。深層学習モジュールに第３の２Ｄ座標を直接的に入力するという形態に比べて、干渉を低減させ、３Ｄ姿勢の精度を向上させると共に、３Ｄ姿勢を抽出する深層学習モジュールのトレーニングに必要なデータ及び／又は時間を減少させ、深層学習モジュールのトレーニングを簡略化してトレーニングの速度を向上させることができる。

第３の２Ｄ座標から第１の２Ｄ座標への変換形態は複数あり、以下、１つの任意選択的な形態を提供する。

図５に示すように、前記ステップＳ１００は、以下を含んでもよい。

ステップＳ１０１：前記キーポイントの第２の３Ｄ特徴を移動し、前記キーポイントにおける基準点の３Ｄ特徴を前記光心位置に水平移動させ、各前記キーポイントの第３の３Ｄ特徴を得る。

ステップＳ１０２：前記第３の３Ｄ特徴を２Ｄイメージング平面に投影し、前記第１の２Ｄ座標を得る。

本実施例において、３Ｄ画像におけるキーポイントの第２の３Ｄ特徴に、基準点の第２の３Ｄ特徴が含まれない場合、他のキーポイントの第３の２Ｄ座標に基づいて、基準点の２Ｄ座標を得ることができ、そして基準点の２Ｄ座標に基づいて、深度画像から、基準点に対応する位置の実際深度値を得ることができる。これにより、基準点の第２の３Ｄ特徴を得る。続いて、ステップ１００において、全てのキーポイントを全体的に移動する。移動過程において、基準点の第１の３Ｄ特徴を光心位置に移動させる。例えば、光心位置（０，０，０）に移動させる。基準点の第２の３Ｄ特徴が光心位置に移動する移動ベクトルに基づいて、他のキーポイントの第２の３Ｄ特徴の、基準点と同様な移動ベクトルを利用して移動した後の第３の３Ｄ特徴を解くことができる。

全てのキーポイントの第３の３Ｄ特徴を得てから、第３の３Ｄ特徴を２Ｄイメージング平面に投影すれば、前記第１の２Ｄ座標を得る。

第２の３Ｄ座標の移動により、ターゲットの基準点を画像のカメラ座標系の光軸に移動させる。ニューラルネットワークなどの深層学習モジュールが光軸上のターゲットの３Ｄ姿勢を抽出する精度は比較的に高いため、ターゲットの基準点が光軸以外の位置にあることによって誤差を引き起こすという現象を減少させ、３Ｄ姿勢の精度を向上させる。幾つかの実施例において、前記ターゲットが人体骨格である場合、前記基準点の第１の３Ｄ特徴は、前記キーポイントにおける２つの股関節キーポイントの第２の３Ｄ特徴に基づいて決定される。

図６Ｂに示したキーポイント９及びキーポイント１０の第３の２Ｄ座標によれば、該２つのキーポイントの基準点の２Ｄ座標を算出することができる。該座標は、前記基準点の２Ｄ座標である。

幾つかの実施例において、前記基準点の２Ｄ座標は、ルートノードの２Ｄ座標と呼ばれてもよい。

幾つかの実施例において、前記基準点は、ターゲットの基準点又は中央に近接する点であってもよい。本実施例において、人体の場合、２つの股関節キーポイントの基準点を基準点とする２Ｄ座標は、人体の具体的な構造に適合する。

幾つかの実施例において、前記方法において、前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得することは、前記キーポイントの第２の２Ｄ座標に対応する深度値から前記基準点の深度値を減算し、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を得ることと、
前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得ることと、
深層学習モジュールを利用して、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を処理し、前記ターゲットの３Ｄ姿勢を得ることとを含む。

例えば、正規化された第４の２Ｄ座標及びそれに対応する深度値をそれぞれニューラルネットワークに入力する。ニューラルネットワークは、前記３Ｄ姿勢を直接出力することができる。又は、ニューラルネットワークは、前記３Ｄ姿勢を解くための第４の３Ｄ特徴を出力することができる。第４の３Ｄ特徴の変換により前記３Ｄ姿勢を得ることができる。

本実施例において、正規化処理により、パラメータの異なったカメラでの採集によって発生する差異を取り消すことができ、それによってニューラルネットワークなどの深層学習モデルによる３Ｄ姿勢の抽出の精度が、異なるカメラのパラメータにより、低くなってしまうという課題を解決することができる。従って、ターゲットの３Ｄ姿勢の抽出の精度を更に向上させることができる。

幾つかの実施例において、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得ることは、
第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得ることと、
前記座標平均値、分散、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、正規化された第４の２Ｄ座標を得ることとを含む。

具体的には、前記平均値は、Ｍｅａｎで表され、分散は、Ｓｔｄで表され、前記第４の２Ｄ座標は、下記関数関係により算出される。

Ｘ４’＝（Ｘ４−Ｍｅａｎ）／Ｓｔｄｘ、
Ｙ４’＝（Ｙ４−Ｍｅａｎ）／Ｓｔｄｙ。

Ｘ４は、第４の２Ｄ座標の第１方向における座標値である。Ｙ４は、第４の２Ｄ座標の第２方向における座標値である。Ｘ４’は、正規化された第４の２Ｄ座標の第１方向における座標値である。Ｙ４’は、正規化された第４の２Ｄ座標の第２方向における座標値である。Ｓｔｄｘは、第１方向における座標値の分散である。Ｓｔｄｙは、第１方向における座標値の分散である。

幾つかの実施例において、前記方法は、
前記実際深度値に基づいて、前記３Ｄ姿勢を二次元平面に投影する反復演算を行い、前記第３の２Ｄ座標と距離が最も小さい第５の２Ｄ座標を得ることと、
前記第５の２Ｄ座標及び前記第１の３Ｄ特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得ることとを更に含む。

本実施例において、３Ｄ姿勢を二次元平面に投影することは、３Ｄ姿勢を表す第１の３Ｄ特徴を２Ｄイメージング平面に投影して、２Ｄイメージング平面内の２Ｄ投影画像を得ることを含んでもよい。

投影形態は複数あり、下記の２つの任意選択的な形態を提供する。

任意選択的な形態１：前記３Ｄ姿勢及び投影行列に基づいて、２Ｄイメージング平面に投影される２Ｄ座標を得る。例えば、３Ｄ姿勢を左から投影行列と乗算し、２Ｄイメージング平面に投影される前記座標を得る。ここで投影行列は、カメラパラメータ及び／又は投影の経験値によって決定されてもよい。

任意選択的な形態２：３Ｄ姿勢を２Ｄイメージング平面に投影する投影ニューラルネットワークのような投影モデルを利用し、前記３Ｄ姿勢を入力とし、２Ｄイメージング平面に投影される２Ｄ座標を出力とする。

２Ｄイメージング平面に投影される、出力としての２Ｄ座標（即ち、前記第５の２Ｄ座標）を得てから、第３の２Ｄ座標との距離を算出する。距離が最も小さい一組を選択し、前記回転パラメータ及び前記水平移動パラメータを算出する。投影過程において、深度値を除去し、２Ｄイメージング平面内の２Ｄ座標のみを保留する。しかしながら、本実施例において、実際に、３Ｄ姿勢は、参照深度値に基づいて算出されたものであり、そのため、図２に示した三角関数関係を利用し、３Ｄ姿勢を水平移動して実際深度値の位置まで戻らせることができる。しかしながら、深層学習モジュールの処理誤差及びカメラの処理誤差などを考慮し、実際深度値及びその近似値に基づいて、３Ｄ姿勢を２Ｄイメージング平面に投影することができる。投影過程において、２次元平面に投影される２Ｄ座標と、実際の第３の２Ｄ座標との距離を最も小さくする必要がある。例えば、下記関数を利用して、第５の２Ｄ座標と第３の２Ｄ座標との距離の最小化値を、ｍｉｎ｛（Ｘ５−Ｘ３）^２＋（Ｙ５−Ｙ３）^２｝にし、
（Ｘ５，Ｙ５）は、前記第５の２Ｄ座標であり、（Ｘ３，Ｙ３）は、前記第３の２Ｄ座標である。

続いて、

という関数関係により、前記回転パラメータＲ及び水平移動パラメータＴを解くことができる。Ｓ_３は、キーポイントの第１の３Ｄ特徴を表し、Ｓ_２は、キーポイントの２Ｄ座標を表す。

実際深度値によって反復演算の深度範囲が提供されており、例えば、実際深度値にオフセットを加算すると、前記深度範囲の最大値が得られ、実際深度値からオフセットを減算すると、前記深度範囲の最小値が得られる。前記３Ｄ姿勢を２Ｄイメージング平面に投影する時、該深度範囲内から実際深度値を選択することできる。実際深度値によって深度範囲を選択する理由は、以下のとおりであり、一つの理由は、深度カメラにより採集された画像のバラツキがあるためであり、もう一つの理由は、ネットワークによる誤差を考慮しているためであり、上記の二つの理由を考慮し、深度範囲により、フォールトトレランス処理を行い、３Ｄ姿勢の２Ｄイメージング平面への投影を実現させ、最適な第５の２Ｄ座標を得て、回転パラメータ及び／又は水平移動パラメータを推定する。

前記水平移動パラメータは、ターゲットの水平移動状況を表し、前記回転パラメータは、ターゲットの回転状況を表す。前記水平移動パラメータは、各方向における水平移動変位量を含んでもよい。前記回転パラメータは、各方向における回転変位量を含んでもよい。

本出願の実施例において、反復過程において、実際深度値が既知のものであるため、前記実際深度値を参照深度値として利用することができ、前記実際深度値が含まれる深度範囲内で、前記３Ｄ姿勢を二次元平面に投影し、それによって、深度範囲を提供する実際深度値が存在しない場合での反復演算に比べて、反復回数を大幅に減少させ、演算量を減少させ、演算速度を向上させる。

図７に示すように、本実施例は、データ処理装置を提供する。該装置は、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換し、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成するように構成される第１変換モジュール１１０と
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得するように構成される第１取得モジュール１２０とを備える。

幾つかの実施例において、前記第１変換モジュール１１０及び第１取得モジュール１２０は、プログラムモジュールであってもよい。該プログラムモジュールがプロセッサにより実行されてから、第１の２Ｄ座標から第２の２Ｄ座標への変換及び３Ｄ姿勢の取得を実現させることができる。

別の幾つかの実施例において、前記第１変換モジュール１１０及び第１取得モジュール１２０は、複雑なプログラマブルアレイ又はフィールドプログラマブルゲートアレイのような、ハードウェアモジュールとプログラムモジュールの組み合わせであってもよい。

別の幾つかの実施例において、前記第１変換モジュール１１０及び第１取得モジュール１２０は、ハードウェアモジュールに対応してもよい。例えば、前記第１変換モジュール１１０及び第１取得モジュール１２０は、特定用途向け集積回路であってもよい。

幾つかの実施例において、前記第１変換モジュール１１０は、前記実際深度値と前記参照深度値との比、及び前記第１の２Ｄ座標に基づいて、前記第２の２Ｄ座標を得るように構成される。

幾つかの実施例において、前記第１変換モジュール１１０は、下記関数関係を利用して前記第２の２Ｄ座標を決定するように構成され、
Ｘ２＝（Ｘ１＊ｄ）／Ｄ、
Ｙ２＝（Ｙ１＊ｄ）／Ｄ、
ただし、Ｘ２は、前記第２の２Ｄ座標の第１方向における座標値であり、Ｘ１は、前記第１の２Ｄ座標の前記第１方向における座標値であり、
Ｙ２は、第２の２Ｄ座標の第２方向における座標値であり、Ｙ１は、前記第１の２Ｄ座標の前記第２方向における座標値であり、前記第２方向は、前記第１方向に垂直しており、
ｄは、前記実際深度値であり、Ｄは、前記参照深度値である。

幾つかの実施例において、前記装置は、
前記キーポイントの第２の３Ｄ特徴及び前記画像に対応する光心位置に基づいて、前記第１の２Ｄ座標を得るように構成される第２変換モジュールを更に備え、前記第２の３Ｄ特徴は、２Ｄ画像に基づいて得られた第３の２Ｄ座標と、深度画像に基づいて得られた実際深度値とを含む。

幾つかの実施例において、前記第２変換モジュールは、前記キーポイントの第２の３Ｄ特徴を移動し、前記キーポイントにおける基準点の３Ｄ特徴を前記光心位置に水平移動させ、各前記キーポイントの第３の３Ｄ特徴を得て、前記第３の３Ｄ特徴を２Ｄイメージング平面に投影し、前記第１の２Ｄ座標を得るように構成される。

幾つかの実施例において、前記ターゲットが人体骨格である場合、前記基準点の第１の３Ｄ特徴は、前記キーポイントにおける２つの股関節キーポイントの第２の３Ｄ特徴に基づいて決定されるものである。

幾つかの実施例において、前記第１取得モジュールは、前記キーポイントの第２の２Ｄ座標に対応する深度値から前記基準点の深度値を減算し、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を得て、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得て、深層学習モジュールを利用して、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を処理し、前記ターゲットの３Ｄ姿勢を得るように構成される。

幾つかの実施例において、前記第１取得モジュール１２０は、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得て、前記座標平均値、分散、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、正規化された第４の２Ｄ座標を得るように構成される。

幾つかの実施例において、前記装置は、
前記実際深度値に基づいて、前記３Ｄ姿勢を二次元平面に投影する反復演算を行い、前記第３の２Ｄ座標と距離が最も小さい第５の２Ｄ座標を得るように構成される反復モジュールと、
前記第５の２Ｄ座標及び前記第１の３Ｄ特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得るように構成される第２取得モジュールとを更に備える。

図８に示すように、本出願の実施例は、電子機器を提供する。該電子機器は、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、前記１つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させ、例えば図１Ａ、図１Ｂ及び図５に示した方法のうちの１つ又は複数を実現させるように構成されるプロセッサとを備える。

該メモリは、ランダムメモリ、読み取り専用メモリのような様々なプロセッサであってもよい。前記メモリは、情報記憶に用いられ、例えば、コンピュータによる実行可能な命令などの記憶に用いられる。前記コンピュータによる実行可能な命令は、ターゲットプログラム命令及び／又はソースプログラム命令などのような様々なプログラム命令であってもよい。

前記プロセッサは、中央演算処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像処理装置などのような様々なプロセッサであってもよい。

前記プロセッサは、バスを経由して前記メモリに接続される。前記バスは、集積回路バスなどであってもよい。

幾つかの実施例において、前記端末装置は、通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。

幾つかの実施例において、前記端末装置は、ヒューマンインタラクティブインタフェースを更に備える。例えば、前記ヒューマンインタラクティブインタフェースは、キーボード、タッチパネルなどのような様々な入力出力装置を含んでもよい。

本出願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、前記１つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させ、例えば図１Ａ、図１Ｂ及び図５に示した方法のうちの１つ又は複数を実現させる。

前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。前記記憶媒体は、非一時的記憶媒体であってもよい。

本出願の実施例は、コンピュータプログラム製品を提供する。前記プログラム製品は、コンピュータによる実行可能な命令を含み、前記コンピュータによる実行可能な命令が実行されてから、前記いずれかの実施例で提供されるデータ処理方法を実現させ、例えば図１Ａ、図１Ｂ及び図５に示した方法のうちの１つ又は複数を実現させる。

以下、上記実施例を参照しながら、具体的な例を説明する。

例１：
本例において、深層ニューラルネットワークにより人体の二次元及び三次元キーポイントを予測し、三次元ビジョンアルゴリズムにより、人体の三次元姿勢を算出する。具体的には、下記のステップを含む。

２Ｄ人体のキーポイント推定ツールにより、１４個の人体キーポイントの２Ｄ画像における２Ｄ位置を予測し、
２Ｄ画像に対応する深度画像における１４個の人体キーポイントの実際深度値を抽出し、
三角関数などにより、実際深度値に対応する２Ｄ座標を参照深度値に対応する２Ｄ座標に変換し、
カメラ内部パラメータを利用して、キーポイントの変換された２Ｄ座標に対して、内部パラメータ正規化操作を行い、
更なる座標正規化操作のために、正規化された各キーポイントの平均値と標準差を統計し、正規化された２Ｄ座標及び参照深度値を得、
正規化された２Ｄ座標及び参照深度値を深層ニューラルネットワークに入力し、ニューラルネットワークにより、２Ｄキーポイントから３Ｄキーポイントへの第１の３Ｄ特徴を得て、該第１の３Ｄ特徴に基づいて、三次元ビジョンアルゴリズム等によって、３Ｄ姿勢を得、例えば、透視ｎ点（ＰｎＰ）最適化により、前記第１の３Ｄ特徴に基づいて、３Ｄ姿勢を得る。

図９は、該例で提供される３Ｄ姿勢を得るニューラルネットワークを示す。該ニューラルネットワークは、
全結合層（Ｆｃ）、バッチ処理＋ＲｅＬｕ層及びＤｒｏｐｏｕｔ層を含み、
全結合層によって、１４個のキーポイントの第１の３Ｄ特徴を取得し、出力されるのは３Ｄ姿勢である。

該ニューラルネットワークは、前記３Ｄ姿勢の抽出に用いられることができる。

例２：
該例において、データ処理方法を提供する。該方法は、下記のステップを含む。

深層ニューラルネットワークにより、入力される２Ｄ画像の複数の人体の２Ｄキーポイント（２Ｄ座標に対応する）を取得し、
二次元人体キーポイントに対してカメラ内部パラメータの正規化を行ってから、２番目の深層ニューラルネットワークに入力し、人体の１つのキーポイント（一般的には、骨盤部にある）に対する相対的三次元キーポイントを得、
最後に、得られた二次元キーポイント及び三次元キーポイントのを位置合わせし、ＰｎＰアルゴリズムで、三次元人体空間姿勢を得ることとを得る。

例３：
下記のステップを含む。

各フレームの３Ｄ画像に対して、人体二次元キーポイント検出ツールを利用して、画像における１４個のキーポイントの座標を得、
第１ステップで得られた二次元キーポイント座標を３Ｄキーポイント抽出ネットワークに入力し、対応する三次元人体骨格（１７個のキーポイントであり、ここで、骨盤のキーポイント位置は常に０である）を得、
得られた２つの人体キーポイントモデルを位置合わせし、各キーポイントを物理的に一致させる。

現在の装置の内部パラメータがＫが既知のものであり、ターゲット人体のカメラ座標系における外部パラメータＲ及びＴを算出する。ここで、

である。

は、張正友キャリブレーション法を利用して現在の装置をキャリブレーションして得られるものである。位置合わせされた二次元人体骨格をＳ_２とし、三次元人体骨格をＳ_３とする場合、

という公式で最適化すればよい。連続したビデオを入力として利用しているため、前の１フレームのＲ及びＴは、後の１フレームの初期値として利用することができる。

本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。

上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（Ｒｅａｄ−ｏｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。

以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims

データ処理方法であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換することであって、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成することと、
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得することとを含む、データ処理方法。
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換することは、
前記実際深度値と前記参照深度値との比、及び前記第１の２Ｄ座標に基づいて、前記第２の２Ｄ座標を得ることを含むことを特徴とする
請求項１に記載の方法。
前記実際深度値と前記参照深度値との比及び前記第１の２Ｄ座標に基づいて、前記第２の２Ｄ座標を得ることは、
Ｘ２＝（Ｘ１＊ｄ）／Ｄ、
Ｙ２＝（Ｙ１＊ｄ）／Ｄ、
という関数関係を利用して前記第２の２Ｄ座標を決定することを含み、
ただし、Ｘ２は、前記第２の２Ｄ座標の第１方向における座標値であり、Ｘ１は、前記第１の２Ｄ座標の前記第１方向における座標値であり、
Ｙ２は、第２の２Ｄ座標の第２方向における座標値であり、Ｙ１は、前記第１の２Ｄ座標の前記第２方向における座標値であり、前記第２方向は、前記第１方向に垂直しており、
ｄは、前記実際深度値であり、Ｄは、前記参照深度値であることを特徴とする
請求項２に記載の方法。
前記方法は、
前記キーポイントの第２の３Ｄ特徴及び前記画像に対応する光心位置に基づいて、前記第１の２Ｄ座標を得ることを更に含み、前記第２の３Ｄ特徴は、２Ｄ画像に基づいて得られた第３の２Ｄ座標と、深度画像に基づいて得られた実際深度値とを含むことを特徴とする
請求項１から３のいずれか一項に記載の方法。
前記キーポイントの第２の３Ｄ特徴及び前記画像に対応する光心位置に基づいて、前記第１の２Ｄ座標を得ることは、
前記キーポイントの第２の３Ｄ特徴を移動し、前記キーポイントにおける基準点の３Ｄ特徴を前記光心位置に水平移動させ、各前記キーポイントの第３の３Ｄ特徴を得ることと、
前記第３の３Ｄ特徴を２Ｄイメージング平面に投影し、前記第１の２Ｄ座標を得ることとを含むことを特徴とする
請求項４に記載の方法。
前記ターゲットが人体骨格である場合、前記基準点の第１の３Ｄ特徴は、前記キーポイントにおける２つの股関節キーポイントの第２の３Ｄ特徴に基づいて決定されるものであることを特徴とする
請求項５に記載の方法。
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を得ることは、
前記キーポイントの第２の２Ｄ座標に対応する深度値から前記基準点の深度値を減算し、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を得ることと、
前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得ることと、
深層学習モジュールを利用して、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を処理し、前記ターゲットの３Ｄ姿勢を得ることとを含むことを特徴とする
請求項５に記載の方法。
前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得ることは、
第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得ることと、
前記座標平均値、分散、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、正規化された第４の２Ｄ座標を得ることを含むことを特徴とする
請求項７に記載の方法。
前記方法は、
前記実際深度値に基づいて、前記３Ｄ姿勢を二次元平面に投影する反復演算を行い、前記第３の２Ｄ座標と距離が最も小さい第５の２Ｄ座標を得ることと、
前記第５の２Ｄ座標及び前記第１の３Ｄ特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得ることとを更に含むことを特徴とする
請求項４から７のいずれか一項に記載の方法。
データ処理装置であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第１の２Ｄ座標を第２の２Ｄ座標に変換するように構成される第１変換モジュールであって、前記第２の２Ｄ座標と前記参照深度値が前記キーポイントの第１の３Ｄ特徴を構成する第１変換モジュールと、
前記第１の３Ｄ特徴に基づいて、前記ターゲットの３Ｄ姿勢を取得するように構成される第１取得モジュールと、を備える、データ処理装置。
前記第１変換モジュールは、前記実際深度値と前記参照深度値との比、及び前記第１の２Ｄ座標に基づいて、前記第２の２Ｄ座標を得るように構成されることを特徴とする
請求項１０に記載の装置。
前記第１変換モジュールは、
Ｘ２＝（Ｘ１＊ｄ）／Ｄ、
Ｙ２＝（Ｙ１＊ｄ）／Ｄ、
という関数関係を利用して前記第２の２Ｄ座標を決定するように構成され、
ただし、Ｘ２は、前記第２の２Ｄ座標の第１方向における座標値であり、Ｘ１は、前記第１の２Ｄ座標の前記第１方向における座標値であり、
Ｙ２は、第２の２Ｄ座標の第２方向における座標値であり、Ｙ１は、前記第１の２Ｄ座標の前記第２方向における座標値であり、前記第２方向は、前記第１方向に垂直しており、
ｄは、前記実際深度値であり、Ｄは、前記参照深度値であることを特徴とする
請求項１１に記載の装置。
前記装置は、
前記キーポイントの第２の３Ｄ特徴及び前記画像に対応する光心位置に基づいて、前記第１の２Ｄ座標を得るように構成される第２変換モジュールを更に備え、前記第２の３Ｄ特徴は、２Ｄ画像に基づいて得られた第３の２Ｄ座標と、深度画像に基づいて得られた実際深度値とを含むことを特徴とする
請求項１０から１２のいずれか一項に記載の装置。
前記第２変換モジュールは、前記キーポイントの第２の３Ｄ特徴を移動し、前記キーポイントにおける基準点の３Ｄ特徴を前記光心位置に水平移動させ、各前記キーポイントの第３の３Ｄ特徴を得て、前記第３の３Ｄ特徴を２Ｄイメージング平面に投影し、前記第１の２Ｄ座標を得るように構成されることを特徴とする
請求項１３に記載の装置。
前記ターゲットが人体骨格である場合、前記基準点の第１の３Ｄ特徴は、前記キーポイントにおける２つの股関節キーポイントの第２の３Ｄ特徴に基づいて決定されるものであることを特徴とする
請求項１４に記載の装置。
前記第１取得モジュールは、前記キーポイントの第２の２Ｄ座標に対応する深度値から前記基準点の深度値を減算し、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を得て、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値を正規化処理し、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を得て、深層学習モジュールを利用して、正規化された前記第４の２Ｄ座標及び正規化された前記第４の２Ｄ座標に対応する深度値を処理し、前記ターゲットの３Ｄ姿勢を得るように構成されることを特徴とする
請求項１４に記載の装置。
前記第１取得モジュールは、第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得て、前記座標平均値、分散、前記第４の２Ｄ座標及び前記第４の２Ｄ座標に対応する深度値に基づいて、正規化された第４の２Ｄ座標を得るように構成されることを特徴とする
請求項１５に記載の装置。
前記装置は、
前記実際深度値に基づいて、前記３Ｄ姿勢を二次元平面に投影する反復演算を行い、前記第３の２Ｄ座標と距離が最も小さい第５の２Ｄ座標を得るように構成される反復モジュールと、
前記第５の２Ｄ座標及び前記第１の３Ｄ特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得るように構成される第２取得モジュールとを更に備えることを特徴とする
請求項１０から１７のいずれか一項に記載の装置。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体にはコンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードがコンピュータによって実行されると、請求項１から９のいずれか一項に記載の方法を実現させる、コンピュータ記憶媒体。
電子機器であって、
コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、請求項１から９のいずれか一項に記載の方法を実現させるように構成されるプロセッサとを備える、電子機器。