JP2021513175A - データ処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

データ処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021513175A
JP2021513175A JP2020558429A JP2020558429A JP2021513175A JP 2021513175 A JP2021513175 A JP 2021513175A JP 2020558429 A JP2020558429 A JP 2020558429A JP 2020558429 A JP2020558429 A JP 2020558429A JP 2021513175 A JP2021513175 A JP 2021513175A
Authority
JP
Japan
Prior art keywords
coordinate
depth value
coordinates
feature
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020558429A
Other languages
English (en)
Other versions
JP6985532B2 (ja
Inventor
汪旻
▲鄒▼壮
▲劉▼文▲韜▼
▲錢▼晨
▲馬▼利庄
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021513175A publication Critical patent/JP2021513175A/ja
Application granted granted Critical
Publication of JP6985532B2 publication Critical patent/JP6985532B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本出願の実施例は、データ処理方法及び装置、電子機器並びに記憶媒体を提供する。前記データ処理方法は、参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換し、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成することと、前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得することとを含む。本出願の実施例が提供する技術的解決手段によれば、ターゲットに対して3D画像を採集することができる。
【選択図】図1B

Description

(関連出願の相互参照)
本出願は、出願番号が201811089872.4であり、出願日が2018年09月18日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全内容を参照として本出願に援用する。
本出願は、情報技術分野に関するがそれに限定されず、特に、データ処理方法及び装置、電子機器並びに記憶媒体に関する。
体感ゲーム等の体感シーンにおいて、一般的には、体感機器を人体に装着する必要がある。体感機器は、人体の3D姿勢を採集して被制御機器に伝送して被制御機器の制御を行う。このような被制御機器を制御するために、一般的には、体感機器を利用する必要がある。
これに鑑みて、本出願の実施例は、データ処理方法及び装置、電子機器並びに記憶媒体を提供することが望ましい。
本出願の技術的解決手段は以下のように実現する。
データ処理方法であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換し、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成することと、
前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得することとを含む。
データ処理装置であって、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換し、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成するように構成される第1変換モジュールと、
前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得するように構成される第1取得モジュールとを備える。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、1つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させる。
電子機器であって、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、1つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させるように構成されるプロセッサとを備える。
本出願の実施例が提供する技術的解決手段によれば、ターゲットに対して3D画像を採集することができる。該3D画像は、2D画像及び深度画像からなる。深度画像は、ターゲットとカメラとの距離を表すための深度値を提供する。3D画像は、RGB又はYUV等の、2Dイメージング平面におけるターゲットの姿勢を提供する。従って、3D画像は、ターゲットの三次元姿勢の取得に用いられる。例えば、ニューラルネットワーク等の深層学習モジュールによって3D画像を処理することで、三次元空間におけるターゲットの三次元姿勢を抽出することができる。しかしながら、画像採集過程において、ターゲットは、カメラに対して前後に移動するものであるため、カメラにより採集される深度画像における深度値を変動させる。深層学習モジュールを利用して異なる遠近ターゲットの三次元姿勢を識別する場合、下記の欠点があり、1つは、特定の遠近トレーニングサンプルを利用してトレーニングする必要があり、トレーニングが困難であり、トレーニング周期が長い欠点であり、もう一つは、異なる遠近トレーニングサンプルを利用してトレーニングしても、深層学習モジュールのトレーニング効果が十分に良いものになるとは限らない欠点である。そのため、サンプルが少ない遠近3D画像に対する三次元姿勢の抽出精度は、依然として不十分である。本出願の実施例において、3D画像におけるターゲットキーポイントの第1の3D特徴を深度モデルに入力する前に、2Dイメージング平面内でターゲットを水平移動させ、実際深度値を参照深度値に変換することで、参照深度値にある時のターゲットの第1の3D特徴を取得することができ、そして、該第1の3D特徴を深層学習モジュールに入力して処理する。用いられている参照深度値が、深層学習モジュールのトレーニング時に使用している深度値であるため、ターゲットの3D姿勢を正確に抽出すると共に、深層学習モジュールのトレーニングに必要なサンプル及び時間を低減させることができる。
本出願の実施例によるデータ処理方法を示すフローチャートである。 本出願の実施例によるデータ処理方法を示すフローチャートである。 本出願の実施例による第1の2D座標から第2の2D座標への変換を示す概略図である。 本出願の実施例によるキーポイントを示す概略図である。 本出願の実施例による2D画像におけるターゲットの水平移動の効果を示す概略図である。 本出願の実施例によるキーポイントの第1の2D座標の取得を示す概略図である。 本出願の実施例によるキーポイント及び基準点を示す概略図である。 本出願の実施例によるもう1つのキーポイントを示す概略図である。 本出願の実施例によるデータ処理装置の構造を示す概略図である。 本出願の実施例による電子機器の構造を示す概略図である。 本出願の実施例によるニューラルネットワークを示す概略図である。
以下、明細書の図面及び具体的な実施例を参照しながら、本出願の技術的解決手段を更に詳しく説明する。
図1Aに示すように、本実施例は、データ処理方法を提供する。該方法は以下を含む。
ステップS110:参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換し、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成する。
ステップS120:前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得する。
本出願において、データ処理方法を提供する。該データ処理法保は、一台又は複数台の電子機器に適用される。前記電子機器は、プロセッサを備えてもよい。該プロセッサは、コンピュータプログラムなどの実行可能な命令を実行することで、データ処理方法における1つ又は複数の工程を実現させることができる。幾つかの実施例において、単一型電子機器により、集中型データ処理を行うことができる。また、複数台の電子機器により分散型データ処理を行うこともできる。
前記画像は、三次元画像であってもよい。前記三次元画像は、2D画像及び深度画像を含む。前記2D画像は、RGB画像又はYUV画像などであってもよい。前記深度画像は、深度採集モジュールにより採集された深度情報であってもよい。前記深度情報の画素値は、深度値である。前記深度値は、画像採集モジュールとターゲットとの距離であってもよい。ここで、本出願の実施例に記載の実際深度は、深度画像からのものである。
第1の2D座標から第2の2D座標へ変換することで、ターゲットの実際深度値を参照深度値に変換した後の、カメラ座標系におけるターゲットのキーポイント的2D座標を得る。
ステップS110の実行によって、深層学習モジュールにターゲットの3D姿勢を正確に抽出させるための第1の3D特徴を得ることに相当する。深層学習モジュールに前記第1の3D特徴を入力し、深度学習モデルは、ターゲットの3D姿勢を自動的に出力することができる。前記3D姿勢は、三次元空間座標系内に位置する第1の3D特徴同士間の相対的位置を表すために用いられることができる。
ここで、前記第1の3D特徴は、画像座標系における座標及び参照深度値を含んでもよい。
例えば、前記キーポイントに基づいて、ターゲットの基準点の2D座標を得る。前記3D姿勢は、三次元空間における姿勢、姿態を表すための情報であってもよい。具体的には、前記3D姿勢は、各キーポイントと前記基準点との相対的位置で表されてもよい。3D空間において、前記基準点の3D座標が(0,0,0)であり、ターゲットが人体であると仮定すると、人体の骨格を表す複数のキーポイントの、(0,0,0)に対する相対的位置又は相対的座標で表されてもよい。
前記基準点は、人体の股関節両端の間の中心点であってもよい。例えば、前記キーポイントは、頭、頸、肘、手首、股関節、膝及び足首を表すための座標点であってもよい。このように、基準点に対するこれらのキーポイントの相対的位置に基づいて、現在の人体の前、後、左、右への水平移動距離を知ることができる。また、顔のキーポイントと基準点との相対的位置に基づいて、顔の向きを知ることもできる。従って、人体の頭部の回転量及び/又は回転方向などの回転パラメータを知ることができる。胴体のキーポイントと基準点との相対的位置に基づいて、胴体の回転量及び/又は回転方向などの回転パラメータを知ることができる。前記顔のキーポイントは、鼻に位置する1つの点であってもよく、例えば、鼻先の座標点であってもよい。前記胴体のキーポイントは、胸部の中心点座標であってもよい。勿論、上記はキーポイントの例に過ぎず、具体的な実現形態はこれに限定されない。
更に、前記ターゲットが人体である場合、ステップS110において、N個のキーポイントの座標に基づいて、N+M個の第2の2D座標を得ることができる。ここで、追加されたM個の第2の2D座標は、N個のキーポイントの第1の2D座標に基づいて生成されたものであってもよい。例えば、前記Mが1であってもよい。追加された1つの第2の2D座標は、人体の基準点の2D座標に対応し得る。前記Nは、14であってもよい。
ステップS120において、N+1個のキーポイントの第2の2D座標及び参照深度値を深層学習モジュールに入力し、N+S個のキーポイントの三次元(3D)座標を得て、前記3D姿勢として出力することができる。ここで、N+S個のキーポイントのうちのN個のキーポイントは、第1の2D座標のN個のキーポイントに一対一に対応する。S個のキーポイントは、N個のキーポイントに基づいて生成されたものである。
例えば、人体を例として、N個の第1の2D座標は、14個のキーポイントであってもよい。Sは3であってもよい。従って、最終に、17個のキーポイントの第1の3D特徴を得る。幾つかの実施例において、17個のキーポイントのうちの1つは、基準点である。該基準点は、人体の股関節の2つの端点(2つのキーポイントに対応する)の中心点であってもよい。別の2つのキーポイントは、顔の鼻先座標及び胸部の中心点座標であってもよい。勿論、ここで、単なる例であり、具体的な実現形態はこれに限定されない。
図6Aは、図3に示した14個のキーポイントに対してキーポイント0が追加されたことを示す概略図である。図6Bは、図3に示した14個のキーポイントに基づいて生成された17個のキーポイントを示す概略図である。図6Bにおける17個のキーポイントは、図3に示したキーポイントに対して、キーポイント0、キーポイント15及びキーポイント16が追加された。ここで、キーポイント16の2D座標は、キーポイント1及びキーポイント2の2D座標に基づいて決定される。キーポイント15の2D座標は、キーポイント2の2D座標及びキーポイント0の2D座標に基づいて決定される。キーポイント0は、本出願の実施例で提供される基準点であってもよい。
本出願の実施例において、ニューラルネットワークなどの深層学習モジュールトレーニングを行う過程において、異なる実際深度値を有するターゲットの3D姿勢を直接的に検出できるようにするために、異なる実際深度値を有するトレーニングサンプルを利用してニューラルネットワークをトレーニングする必要がある。このようにすれば、トレーニングに必要なトレーニングサンプルが多く、トレーニングサンプルが多いため、ニューラルネットワークなどの深層学習モジュールの収束速度が遅くなり、トレーニング周期が長くなる。本実施例における方法を利用する場合、ニューラルネットワークなどの深層学習モジュールは、深度値が同じであるトレーニングサンプルのみを利用してトレーニングを行うことができ、従って、トレーニングサンプルのデータ量が小さい。ニューラルネットワークなどの深層学習モジュールの収束速度が速く、トレーニング周期が短いため、ニューラルネットワークなどの深層学習モジュールを簡略化することができる。
また、単一の深度値(即ち、参照深度値)を利用する場合、ニューラルネットワークなどの深層学習モジュールは、異なる深度値を使用するために、単一の深度値に対応する3D座標の3D姿勢の抽出精度を犠牲にすることなく、3D姿勢抽出の精度が高いという特徴を有する。
幾つかの実施例において、前記ステップS110は、前記実際深度値と前記参照深度値との比、及び前記第1の2D座標に基づいて、前記第2の2D座標を得ることを含んでもよい。
更に、例えば、前記ステップS110は、下記関数関係を利用して前記第2の2D座標を決定することを含んでもよく、
X2=(X1*d)/D、
Y2=(Y1*d)/D、
ただし、X2は、前記第2の2D座標の第1方向における座標値であり、X1は、前記第1の2D座標の前記第1方向における座標値であり、
Y2は、第2の2D座標の第2方向における座標値であり、Y1は、前記第1の2D座標の前記第2方向における座標値であり、前記第2方向は、前記第1方向に垂直しており、
dは、前記実際深度値であり、Dは、前記参照深度値である。
前記Dは、空間距離であってもよく、単位は、ミリメートル、センチメートル又はデシメートル等であってもよい。
図2に示すように、ofは、画像採集の焦点距離(fと略称される)であり、カメラのパラメータを確認することによって取得できるものであり、三角関数変換により第2の2D座標及び参照深度値を得ることができる。第2の2D座標及び参照深度値は、前記第1の3D特徴を構成する。標準深度値の第1の3D特徴を深層学習モジュールに入力して、ターゲットの3D姿勢を正確に抽出することを実現させることができる。従って、幾つかの実施例において、odで表される距離は、前記実際深度値であり、dと略称される。oDで表される距離は、参照深度値である。三角関数関係とは、y0/y1=f/d、y2/y1=f/D、y0で表される第1の2D座標、y2で表される第2の2D座標を指してもよい。従って、y2=(d*y0)/Dである。
本実施例において、採集された画像における画像キーポイントの2D座標ついて、本実施例において実際に採集して得られる画像の2D座標は、第3の2D座標と呼ばれる。図1Bに示すように、前記方法は、以下を更に含む。
ステップS100:前記キーポイントの第2の3D特徴及び前記画像に対応する光心位置に基づいて、前記第1の2D座標を得る。
前記キーポイントは実際に採集された2D画像におけるターゲット人体のキーポイントである。例えば、人体骨格におけるキーポイントである。
前記キーポイントの数は複数であってもよい。例えば、ターゲットが人体であれば、前記キーポイントは、14個の2Dキーポイントを含んでもよい。ここで、2D画像深層学習モジュールを利用して、2D画像を処理することで、前記第3の2D座標を取得することができる。
図3には、人体骨各のキーポイントの2D座標が示される。図3において、14個の黒丸印で14個のキーポイントを表す。
幾つかの実施例において、深層学習モジュールを利用して、前記2D画像を処理することで、前記第3の2D座標を取得することができる。該第3の2D座標及び深度画像から抽出された実際深度値は、第2の3D特徴を構成することができる。
深層学習モジュールを利用してターゲットの第1の3D特徴に基づいてターゲットの3D姿勢を推定する時、現在のターゲットは、画像採集モジュールと近い場合があるし、遠い場合もある。深層学習モジュールをトレーニングする時に、それまで対応するトレーニングサンプルが足りない場合、ターゲットの3D姿勢を正確に推定することができない。深層学習モジュールは、可能な限り、異なる遠近の3D画像におけるターゲットの3D姿勢を正確に抽出する必要があるため、より多くのトレーニングサンプルを導入して深層学習モジュールを処理する必要がある。従って、深層学習モジュールのトレーニング難度が大きく、且つトレーニング周期が長い。前記深層学習モジュールは、様々なニューラルネットワークであってもよく、例えば、完全結合ネットワーク及び残差ネットワークの残差モジュール等の3D姿勢識別機能を有するネットワークを含んでもよい。従って、本実施例において、ターゲットの3D姿勢の精度を向上させるために、ターゲットのキーポイントの第1の3D特徴における深度値を参照深度値に変換する。
前記キーポイントの的第1の3D特徴における深度値を参照深度値に変換するために、まず、第3の2D座標を第1の2D座標に変換し、変換された2D座標を前記画像の光軸に位置させる必要がある。
図4は2D画像であり、撮像された人物は、元々、写真の非中央位置に位置する。光心位置の座標の水平移動により、図4における実線で表される人物を第3の2D座標の所在位置から、点線で表される第1の2D座標の所在位置に移動することができる。キーポイントにおける基準点をカメラ平面で水平移動することにより、基準点をカメラ平面の光軸に移動させる。深層学習モジュールに第3の2D座標を直接的に入力するという形態に比べて、干渉を低減させ、3D姿勢の精度を向上させると共に、3D姿勢を抽出する深層学習モジュールのトレーニングに必要なデータ及び/又は時間を減少させ、深層学習モジュールのトレーニングを簡略化してトレーニングの速度を向上させることができる。
第3の2D座標から第1の2D座標への変換形態は複数あり、以下、1つの任意選択的な形態を提供する。
図5に示すように、前記ステップS100は、以下を含んでもよい。
ステップS101:前記キーポイントの第2の3D特徴を移動し、前記キーポイントにおける基準点の3D特徴を前記光心位置に水平移動させ、各前記キーポイントの第3の3D特徴を得る。
ステップS102:前記第3の3D特徴を2Dイメージング平面に投影し、前記第1の2D座標を得る。
本実施例において、3D画像におけるキーポイントの第2の3D特徴に、基準点の第2の3D特徴が含まれない場合、他のキーポイントの第3の2D座標に基づいて、基準点の2D座標を得ることができ、そして基準点の2D座標に基づいて、深度画像から、基準点に対応する位置の実際深度値を得ることができる。これにより、基準点の第2の3D特徴を得る。続いて、ステップ100において、全てのキーポイントを全体的に移動する。移動過程において、基準点の第1の3D特徴を光心位置に移動させる。例えば、光心位置(0,0,0)に移動させる。基準点の第2の3D特徴が光心位置に移動する移動ベクトルに基づいて、他のキーポイントの第2の3D特徴の、基準点と同様な移動ベクトルを利用して移動した後の第3の3D特徴を解くことができる。
全てのキーポイントの第3の3D特徴を得てから、第3の3D特徴を2Dイメージング平面に投影すれば、前記第1の2D座標を得る。
第2の3D座標の移動により、ターゲットの基準点を画像のカメラ座標系の光軸に移動させる。ニューラルネットワークなどの深層学習モジュールが光軸上のターゲットの3D姿勢を抽出する精度は比較的に高いため、ターゲットの基準点が光軸以外の位置にあることによって誤差を引き起こすという現象を減少させ、3D姿勢の精度を向上させる。幾つかの実施例において、前記ターゲットが人体骨格である場合、前記基準点の第1の3D特徴は、前記キーポイントにおける2つの股関節キーポイントの第2の3D特徴に基づいて決定される。
図6Bに示したキーポイント9及びキーポイント10の第3の2D座標によれば、該2つのキーポイントの基準点の2D座標を算出することができる。該座標は、前記基準点の2D座標である。
幾つかの実施例において、前記基準点の2D座標は、ルートノードの2D座標と呼ばれてもよい。
幾つかの実施例において、前記基準点は、ターゲットの基準点又は中央に近接する点であってもよい。本実施例において、人体の場合、2つの股関節キーポイントの基準点を基準点とする2D座標は、人体の具体的な構造に適合する。
幾つかの実施例において、前記方法において、前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得することは、前記キーポイントの第2の2D座標に対応する深度値から前記基準点の深度値を減算し、第4の2D座標及び前記第4の2D座標に対応する深度値を得ることと、
前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得ることと、
深層学習モジュールを利用して、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を処理し、前記ターゲットの3D姿勢を得ることとを含む。
例えば、正規化された第4の2D座標及びそれに対応する深度値をそれぞれニューラルネットワークに入力する。ニューラルネットワークは、前記3D姿勢を直接出力することができる。又は、ニューラルネットワークは、前記3D姿勢を解くための第4の3D特徴を出力することができる。第4の3D特徴の変換により前記3D姿勢を得ることができる。
本実施例において、正規化処理により、パラメータの異なったカメラでの採集によって発生する差異を取り消すことができ、それによってニューラルネットワークなどの深層学習モデルによる3D姿勢の抽出の精度が、異なるカメラのパラメータにより、低くなってしまうという課題を解決することができる。従って、ターゲットの3D姿勢の抽出の精度を更に向上させることができる。
幾つかの実施例において、前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得ることは、
第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得ることと、
前記座標平均値、分散、前記第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、正規化された第4の2D座標を得ることとを含む。
具体的には、前記平均値は、Meanで表され、分散は、Stdで表され、前記第4の2D座標は、下記関数関係により算出される。
X4’=(X4−Mean)/Stdx、
Y4’=(Y4−Mean)/Stdy。
X4は、第4の2D座標の第1方向における座標値である。Y4は、第4の2D座標の第2方向における座標値である。X4’は、正規化された第4の2D座標の第1方向における座標値である。Y4’は、正規化された第4の2D座標の第2方向における座標値である。Stdxは、第1方向における座標値の分散である。Stdyは、第1方向における座標値の分散である。
幾つかの実施例において、前記方法は、
前記実際深度値に基づいて、前記3D姿勢を二次元平面に投影する反復演算を行い、前記第3の2D座標と距離が最も小さい第5の2D座標を得ることと、
前記第5の2D座標及び前記第1の3D特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得ることとを更に含む。
本実施例において、3D姿勢を二次元平面に投影することは、3D姿勢を表す第1の3D特徴を2Dイメージング平面に投影して、2Dイメージング平面内の2D投影画像を得ることを含んでもよい。
投影形態は複数あり、下記の2つの任意選択的な形態を提供する。
任意選択的な形態1:前記3D姿勢及び投影行列に基づいて、2Dイメージング平面に投影される2D座標を得る。例えば、3D姿勢を左から投影行列と乗算し、2Dイメージング平面に投影される前記座標を得る。ここで投影行列は、カメラパラメータ及び/又は投影の経験値によって決定されてもよい。
任意選択的な形態2:3D姿勢を2Dイメージング平面に投影する投影ニューラルネットワークのような投影モデルを利用し、前記3D姿勢を入力とし、2Dイメージング平面に投影される2D座標を出力とする。
2Dイメージング平面に投影される、出力としての2D座標(即ち、前記第5の2D座標)を得てから、第3の2D座標との距離を算出する。距離が最も小さい一組を選択し、前記回転パラメータ及び前記水平移動パラメータを算出する。投影過程において、深度値を除去し、2Dイメージング平面内の2D座標のみを保留する。しかしながら、本実施例において、実際に、3D姿勢は、参照深度値に基づいて算出されたものであり、そのため、図2に示した三角関数関係を利用し、3D姿勢を水平移動して実際深度値の位置まで戻らせることができる。しかしながら、深層学習モジュールの処理誤差及びカメラの処理誤差などを考慮し、実際深度値及びその近似値に基づいて、3D姿勢を2Dイメージング平面に投影することができる。投影過程において、2次元平面に投影される2D座標と、実際の第3の2D座標との距離を最も小さくする必要がある。例えば、下記関数を利用して、第5の2D座標と第3の2D座標との距離の最小化値を、min{(X5−X3)+(Y5−Y3)}にし、
(X5,Y5)は、前記第5の2D座標であり、(X3,Y3)は、前記第3の2D座標である。
続いて、
Figure 2021513175
という関数関係により、前記回転パラメータR及び水平移動パラメータTを解くことができる。Sは、キーポイントの第1の3D特徴を表し、Sは、キーポイントの2D座標を表す。
実際深度値によって反復演算の深度範囲が提供されており、例えば、実際深度値にオフセットを加算すると、前記深度範囲の最大値が得られ、実際深度値からオフセットを減算すると、前記深度範囲の最小値が得られる。前記3D姿勢を2Dイメージング平面に投影する時、該深度範囲内から実際深度値を選択することできる。実際深度値によって深度範囲を選択する理由は、以下のとおりであり、一つの理由は、深度カメラにより採集された画像のバラツキがあるためであり、もう一つの理由は、ネットワークによる誤差を考慮しているためであり、上記の二つの理由を考慮し、深度範囲により、フォールトトレランス処理を行い、3D姿勢の2Dイメージング平面への投影を実現させ、最適な第5の2D座標を得て、回転パラメータ及び/又は水平移動パラメータを推定する。
前記水平移動パラメータは、ターゲットの水平移動状況を表し、前記回転パラメータは、ターゲットの回転状況を表す。前記水平移動パラメータは、各方向における水平移動変位量を含んでもよい。前記回転パラメータは、各方向における回転変位量を含んでもよい。
本出願の実施例において、反復過程において、実際深度値が既知のものであるため、前記実際深度値を参照深度値として利用することができ、前記実際深度値が含まれる深度範囲内で、前記3D姿勢を二次元平面に投影し、それによって、深度範囲を提供する実際深度値が存在しない場合での反復演算に比べて、反復回数を大幅に減少させ、演算量を減少させ、演算速度を向上させる。
図7に示すように、本実施例は、データ処理装置を提供する。該装置は、
参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換し、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成するように構成される第1変換モジュール110と
前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得するように構成される第1取得モジュール120とを備える。
幾つかの実施例において、前記第1変換モジュール110及び第1取得モジュール120は、プログラムモジュールであってもよい。該プログラムモジュールがプロセッサにより実行されてから、第1の2D座標から第2の2D座標への変換及び3D姿勢の取得を実現させることができる。
別の幾つかの実施例において、前記第1変換モジュール110及び第1取得モジュール120は、複雑なプログラマブルアレイ又はフィールドプログラマブルゲートアレイのような、ハードウェアモジュールとプログラムモジュールの組み合わせであってもよい。
別の幾つかの実施例において、前記第1変換モジュール110及び第1取得モジュール120は、ハードウェアモジュールに対応してもよい。例えば、前記第1変換モジュール110及び第1取得モジュール120は、特定用途向け集積回路であってもよい。
幾つかの実施例において、前記第1変換モジュール110は、前記実際深度値と前記参照深度値との比、及び前記第1の2D座標に基づいて、前記第2の2D座標を得るように構成される。
幾つかの実施例において、前記第1変換モジュール110は、下記関数関係を利用して前記第2の2D座標を決定するように構成され、
X2=(X1*d)/D、
Y2=(Y1*d)/D、
ただし、X2は、前記第2の2D座標の第1方向における座標値であり、X1は、前記第1の2D座標の前記第1方向における座標値であり、
Y2は、第2の2D座標の第2方向における座標値であり、Y1は、前記第1の2D座標の前記第2方向における座標値であり、前記第2方向は、前記第1方向に垂直しており、
dは、前記実際深度値であり、Dは、前記参照深度値である。
幾つかの実施例において、前記装置は、
前記キーポイントの第2の3D特徴及び前記画像に対応する光心位置に基づいて、前記第1の2D座標を得るように構成される第2変換モジュールを更に備え、前記第2の3D特徴は、2D画像に基づいて得られた第3の2D座標と、深度画像に基づいて得られた実際深度値とを含む。
幾つかの実施例において、前記第2変換モジュールは、前記キーポイントの第2の3D特徴を移動し、前記キーポイントにおける基準点の3D特徴を前記光心位置に水平移動させ、各前記キーポイントの第3の3D特徴を得て、前記第3の3D特徴を2Dイメージング平面に投影し、前記第1の2D座標を得るように構成される。
幾つかの実施例において、前記ターゲットが人体骨格である場合、前記基準点の第1の3D特徴は、前記キーポイントにおける2つの股関節キーポイントの第2の3D特徴に基づいて決定されるものである。
幾つかの実施例において、前記第1取得モジュールは、前記キーポイントの第2の2D座標に対応する深度値から前記基準点の深度値を減算し、第4の2D座標及び前記第4の2D座標に対応する深度値を得て、前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得て、深層学習モジュールを利用して、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を処理し、前記ターゲットの3D姿勢を得るように構成される。
幾つかの実施例において、前記第1取得モジュール120は、第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得て、前記座標平均値、分散、前記第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、正規化された第4の2D座標を得るように構成される。
幾つかの実施例において、前記装置は、
前記実際深度値に基づいて、前記3D姿勢を二次元平面に投影する反復演算を行い、前記第3の2D座標と距離が最も小さい第5の2D座標を得るように構成される反復モジュールと、
前記第5の2D座標及び前記第1の3D特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得るように構成される第2取得モジュールとを更に備える。
図8に示すように、本出願の実施例は、電子機器を提供する。該電子機器は、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、前記1つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させ、例えば図1A、図1B及び図5に示した方法のうちの1つ又は複数を実現させるように構成されるプロセッサとを備える。
該メモリは、ランダムメモリ、読み取り専用メモリのような様々なプロセッサであってもよい。前記メモリは、情報記憶に用いられ、例えば、コンピュータによる実行可能な命令などの記憶に用いられる。前記コンピュータによる実行可能な命令は、ターゲットプログラム命令及び/又はソースプログラム命令などのような様々なプログラム命令であってもよい。
前記プロセッサは、中央演算処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像処理装置などのような様々なプロセッサであってもよい。
前記プロセッサは、バスを経由して前記メモリに接続される。前記バスは、集積回路バスなどであってもよい。
幾つかの実施例において、前記端末装置は、通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。
幾つかの実施例において、前記端末装置は、ヒューマンインタラクティブインタフェースを更に備える。例えば、前記ヒューマンインタラクティブインタフェースは、キーボード、タッチパネルなどのような様々な入力出力装置を含んでもよい。
本出願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、前記1つ又は複数の技術的解決手段で提供されるデータ処理方法を実現させ、例えば図1A、図1B及び図5に示した方法のうちの1つ又は複数を実現させる。
前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(ROM:Read−only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。前記記憶媒体は、非一時的記憶媒体であってもよい。
本出願の実施例は、コンピュータプログラム製品を提供する。前記プログラム製品は、コンピュータによる実行可能な命令を含み、前記コンピュータによる実行可能な命令が実行されてから、前記いずれかの実施例で提供されるデータ処理方法を実現させ、例えば図1A、図1B及び図5に示した方法のうちの1つ又は複数を実現させる。
以下、上記実施例を参照しながら、具体的な例を説明する。
例1:
本例において、深層ニューラルネットワークにより人体の二次元及び三次元キーポイントを予測し、三次元ビジョンアルゴリズムにより、人体の三次元姿勢を算出する。具体的には、下記のステップを含む。
2D人体のキーポイント推定ツールにより、14個の人体キーポイントの2D画像における2D位置を予測し、
2D画像に対応する深度画像における14個の人体キーポイントの実際深度値を抽出し、
三角関数などにより、実際深度値に対応する2D座標を参照深度値に対応する2D座標に変換し、
カメラ内部パラメータを利用して、キーポイントの変換された2D座標に対して、内部パラメータ正規化操作を行い、
更なる座標正規化操作のために、正規化された各キーポイントの平均値と標準差を統計し、正規化された2D座標及び参照深度値を得、
正規化された2D座標及び参照深度値を深層ニューラルネットワークに入力し、ニューラルネットワークにより、2Dキーポイントから3Dキーポイントへの第1の3D特徴を得て、該第1の3D特徴に基づいて、三次元ビジョンアルゴリズム等によって、3D姿勢を得、例えば、透視n点(PnP)最適化により、前記第1の3D特徴に基づいて、3D姿勢を得る。
図9は、該例で提供される3D姿勢を得るニューラルネットワークを示す。該ニューラルネットワークは、
全結合層(Fc)、バッチ処理+ReLu層及びDropout層を含み、
全結合層によって、14個のキーポイントの第1の3D特徴を取得し、出力されるのは3D姿勢である。
該ニューラルネットワークは、前記3D姿勢の抽出に用いられることができる。
例2:
該例において、データ処理方法を提供する。該方法は、下記のステップを含む。
深層ニューラルネットワークにより、入力される2D画像の複数の人体の2Dキーポイント(2D座標に対応する)を取得し、
二次元人体キーポイントに対してカメラ内部パラメータの正規化を行ってから、2番目の深層ニューラルネットワークに入力し、人体の1つのキーポイント(一般的には、骨盤部にある)に対する相対的三次元キーポイントを得、
最後に、得られた二次元キーポイント及び三次元キーポイントのを位置合わせし、PnPアルゴリズムで、三次元人体空間姿勢を得ることとを得る。
例3:
下記のステップを含む。
各フレームの3D画像に対して、人体二次元キーポイント検出ツールを利用して、画像における14個のキーポイントの座標を得、
第1ステップで得られた二次元キーポイント座標を3Dキーポイント抽出ネットワークに入力し、対応する三次元人体骨格(17個のキーポイントであり、ここで、骨盤のキーポイント位置は常に0である)を得、
得られた2つの人体キーポイントモデルを位置合わせし、各キーポイントを物理的に一致させる。
現在の装置の内部パラメータがKが既知のものであり、ターゲット人体のカメラ座標系における外部パラメータR及びTを算出する。ここで、
Figure 2021513175
である。
Figure 2021513175
は、張正友キャリブレーション法を利用して現在の装置をキャリブレーションして得られるものである。位置合わせされた二次元人体骨格をSとし、三次元人体骨格をSとする場合、
Figure 2021513175
という公式で最適化すればよい。連続したビデオを入力として利用しているため、前の1フレームのR及びTは、後の1フレームの初期値として利用することができる。
本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(Read−only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims (20)

  1. データ処理方法であって、
    参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換することであって、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成することと、
    前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得することとを含む、データ処理方法。
  2. 参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換することは、
    前記実際深度値と前記参照深度値との比、及び前記第1の2D座標に基づいて、前記第2の2D座標を得ることを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記実際深度値と前記参照深度値との比及び前記第1の2D座標に基づいて、前記第2の2D座標を得ることは、
    X2=(X1*d)/D、
    Y2=(Y1*d)/D、
    という関数関係を利用して前記第2の2D座標を決定することを含み、
    ただし、X2は、前記第2の2D座標の第1方向における座標値であり、X1は、前記第1の2D座標の前記第1方向における座標値であり、
    Y2は、第2の2D座標の第2方向における座標値であり、Y1は、前記第1の2D座標の前記第2方向における座標値であり、前記第2方向は、前記第1方向に垂直しており、
    dは、前記実際深度値であり、Dは、前記参照深度値であることを特徴とする
    請求項2に記載の方法。
  4. 前記方法は、
    前記キーポイントの第2の3D特徴及び前記画像に対応する光心位置に基づいて、前記第1の2D座標を得ることを更に含み、前記第2の3D特徴は、2D画像に基づいて得られた第3の2D座標と、深度画像に基づいて得られた実際深度値とを含むことを特徴とする
    請求項1から3のいずれか一項に記載の方法。
  5. 前記キーポイントの第2の3D特徴及び前記画像に対応する光心位置に基づいて、前記第1の2D座標を得ることは、
    前記キーポイントの第2の3D特徴を移動し、前記キーポイントにおける基準点の3D特徴を前記光心位置に水平移動させ、各前記キーポイントの第3の3D特徴を得ることと、
    前記第3の3D特徴を2Dイメージング平面に投影し、前記第1の2D座標を得ることとを含むことを特徴とする
    請求項4に記載の方法。
  6. 前記ターゲットが人体骨格である場合、前記基準点の第1の3D特徴は、前記キーポイントにおける2つの股関節キーポイントの第2の3D特徴に基づいて決定されるものであることを特徴とする
    請求項5に記載の方法。
  7. 前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を得ることは、
    前記キーポイントの第2の2D座標に対応する深度値から前記基準点の深度値を減算し、第4の2D座標及び前記第4の2D座標に対応する深度値を得ることと、
    前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得ることと、
    深層学習モジュールを利用して、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を処理し、前記ターゲットの3D姿勢を得ることとを含むことを特徴とする
    請求項5に記載の方法。
  8. 前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得ることは、
    第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得ることと、
    前記座標平均値、分散、前記第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、正規化された第4の2D座標を得ることを含むことを特徴とする
    請求項7に記載の方法。
  9. 前記方法は、
    前記実際深度値に基づいて、前記3D姿勢を二次元平面に投影する反復演算を行い、前記第3の2D座標と距離が最も小さい第5の2D座標を得ることと、
    前記第5の2D座標及び前記第1の3D特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得ることとを更に含むことを特徴とする
    請求項4から7のいずれか一項に記載の方法。
  10. データ処理装置であって、
    参照深度値及び画像におけるターゲットのキーポイントの実際深度値に基づいて、前記キーポイントの第1の2D座標を第2の2D座標に変換するように構成される第1変換モジュールであって、前記第2の2D座標と前記参照深度値が前記キーポイントの第1の3D特徴を構成する第1変換モジュールと、
    前記第1の3D特徴に基づいて、前記ターゲットの3D姿勢を取得するように構成される第1取得モジュールと、を備える、データ処理装置。
  11. 前記第1変換モジュールは、前記実際深度値と前記参照深度値との比、及び前記第1の2D座標に基づいて、前記第2の2D座標を得るように構成されることを特徴とする
    請求項10に記載の装置。
  12. 前記第1変換モジュールは、
    X2=(X1*d)/D、
    Y2=(Y1*d)/D、
    という関数関係を利用して前記第2の2D座標を決定するように構成され、
    ただし、X2は、前記第2の2D座標の第1方向における座標値であり、X1は、前記第1の2D座標の前記第1方向における座標値であり、
    Y2は、第2の2D座標の第2方向における座標値であり、Y1は、前記第1の2D座標の前記第2方向における座標値であり、前記第2方向は、前記第1方向に垂直しており、
    dは、前記実際深度値であり、Dは、前記参照深度値であることを特徴とする
    請求項11に記載の装置。
  13. 前記装置は、
    前記キーポイントの第2の3D特徴及び前記画像に対応する光心位置に基づいて、前記第1の2D座標を得るように構成される第2変換モジュールを更に備え、前記第2の3D特徴は、2D画像に基づいて得られた第3の2D座標と、深度画像に基づいて得られた実際深度値とを含むことを特徴とする
    請求項10から12のいずれか一項に記載の装置。
  14. 前記第2変換モジュールは、前記キーポイントの第2の3D特徴を移動し、前記キーポイントにおける基準点の3D特徴を前記光心位置に水平移動させ、各前記キーポイントの第3の3D特徴を得て、前記第3の3D特徴を2Dイメージング平面に投影し、前記第1の2D座標を得るように構成されることを特徴とする
    請求項13に記載の装置。
  15. 前記ターゲットが人体骨格である場合、前記基準点の第1の3D特徴は、前記キーポイントにおける2つの股関節キーポイントの第2の3D特徴に基づいて決定されるものであることを特徴とする
    請求項14に記載の装置。
  16. 前記第1取得モジュールは、前記キーポイントの第2の2D座標に対応する深度値から前記基準点の深度値を減算し、第4の2D座標及び前記第4の2D座標に対応する深度値を得て、前記第4の2D座標及び前記第4の2D座標に対応する深度値を正規化処理し、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を得て、深層学習モジュールを利用して、正規化された前記第4の2D座標及び正規化された前記第4の2D座標に対応する深度値を処理し、前記ターゲットの3D姿勢を得るように構成されることを特徴とする
    請求項14に記載の装置。
  17. 前記第1取得モジュールは、第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、前記キーポイントの座標平均値及び分散を得て、前記座標平均値、分散、前記第4の2D座標及び前記第4の2D座標に対応する深度値に基づいて、正規化された第4の2D座標を得るように構成されることを特徴とする
    請求項15に記載の装置。
  18. 前記装置は、
    前記実際深度値に基づいて、前記3D姿勢を二次元平面に投影する反復演算を行い、前記第3の2D座標と距離が最も小さい第5の2D座標を得るように構成される反復モジュールと、
    前記第5の2D座標及び前記第1の3D特徴に基づいて、前記ターゲットの回転パラメータ及び水平移動パラメータを得るように構成される第2取得モジュールとを更に備えることを特徴とする
    請求項10から17のいずれか一項に記載の装置。
  19. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体にはコンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードがコンピュータによって実行されると、請求項1から9のいずれか一項に記載の方法を実現させる、コンピュータ記憶媒体。
  20. 電子機器であって、
    コンピュータによる実行可能な命令を記憶するように構成されるメモリと、
    前記メモリに接続され、前記メモリに記憶されているコンピュータによる実行可能な命令を実行することで、請求項1から9のいずれか一項に記載の方法を実現させるように構成されるプロセッサとを備える、電子機器。
JP2020558429A 2018-09-18 2019-04-23 データ処理方法及び装置、電子機器並びに記憶媒体 Active JP6985532B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811089872.4 2018-09-18
CN201811089872.4A CN110909580B (zh) 2018-09-18 2018-09-18 数据处理方法及装置、电子设备及存储介质
PCT/CN2019/083959 WO2020057121A1 (zh) 2018-09-18 2019-04-23 数据处理方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021513175A true JP2021513175A (ja) 2021-05-20
JP6985532B2 JP6985532B2 (ja) 2021-12-22

Family

ID=69812918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020558429A Active JP6985532B2 (ja) 2018-09-18 2019-04-23 データ処理方法及び装置、電子機器並びに記憶媒体

Country Status (5)

Country Link
US (1) US11238273B2 (ja)
JP (1) JP6985532B2 (ja)
CN (1) CN110909580B (ja)
SG (1) SG11202010510XA (ja)
WO (1) WO2020057121A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353930B (zh) * 2018-12-21 2022-05-24 北京市商汤科技开发有限公司 数据处理方法及装置、电子设备及存储介质
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
US20210312236A1 (en) * 2020-03-30 2021-10-07 Cherry Labs, Inc. System and method for efficient machine learning model training
CN111582204A (zh) * 2020-05-13 2020-08-25 北京市商汤科技开发有限公司 姿态检测方法、装置、计算机设备及存储介质
CN113808227B (zh) * 2020-06-12 2023-08-25 杭州普健医疗科技有限公司 一种医学影像对齐方法、介质及电子设备
US11488325B2 (en) * 2020-06-17 2022-11-01 Microsoft Technology Licensing, Llc Auto calibrating a single camera from detectable objects
CN111985384A (zh) * 2020-08-14 2020-11-24 深圳地平线机器人科技有限公司 获取脸部关键点的3d坐标及3d脸部模型的方法和装置
CN113483661B (zh) * 2021-07-06 2023-06-30 广东南方数码科技股份有限公司 一种点云数据获取方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120139907A1 (en) * 2010-12-06 2012-06-07 Samsung Electronics Co., Ltd. 3 dimensional (3d) display system of responding to user motion and user interface for the 3d display system
CN102800126A (zh) * 2012-07-04 2012-11-28 浙江大学 基于多模态融合的实时人体三维姿态恢复的方法
CN103037226A (zh) * 2011-09-30 2013-04-10 联咏科技股份有限公司 深度融合方法及其装置
CN104243948A (zh) * 2013-12-20 2014-12-24 深圳深讯和科技有限公司 2d图像转3d图像的深度调整方法及装置
JP2015167008A (ja) * 2013-07-30 2015-09-24 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
JP2017097578A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 情報処理装置及び方法
WO2018087933A1 (ja) * 2016-11-14 2018-05-17 富士通株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103988226B (zh) * 2011-08-31 2017-09-26 Metaio有限公司 用于估计摄像机运动以及用于确定实境三维模型的方法
US9275078B2 (en) * 2013-09-05 2016-03-01 Ebay Inc. Estimating depth from a single image
CN104881881B (zh) * 2014-02-27 2018-04-10 株式会社理光 运动对象表示方法及其装置
JP5928748B2 (ja) * 2014-07-31 2016-06-01 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 同一種類の複数の認識対象物体が検索対象画像中に存在する場合に、それぞれの認識対象物体の位置および向きを精度良く求める手法
US10277889B2 (en) * 2016-12-27 2019-04-30 Qualcomm Incorporated Method and system for depth estimation based upon object magnification
CN108230383B (zh) * 2017-03-29 2021-03-23 北京市商汤科技开发有限公司 手部三维数据确定方法、装置及电子设备
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120139907A1 (en) * 2010-12-06 2012-06-07 Samsung Electronics Co., Ltd. 3 dimensional (3d) display system of responding to user motion and user interface for the 3d display system
CN103037226A (zh) * 2011-09-30 2013-04-10 联咏科技股份有限公司 深度融合方法及其装置
CN102800126A (zh) * 2012-07-04 2012-11-28 浙江大学 基于多模态融合的实时人体三维姿态恢复的方法
JP2015167008A (ja) * 2013-07-30 2015-09-24 キヤノン株式会社 姿勢推定装置、姿勢推定方法およびプログラム
CN104243948A (zh) * 2013-12-20 2014-12-24 深圳深讯和科技有限公司 2d图像转3d图像的深度调整方法及装置
JP2017097578A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 情報処理装置及び方法
WO2018087933A1 (ja) * 2016-11-14 2018-05-17 富士通株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN110909580B (zh) 2022-06-10
WO2020057121A1 (zh) 2020-03-26
US20210240971A1 (en) 2021-08-05
CN110909580A (zh) 2020-03-24
SG11202010510XA (en) 2020-11-27
JP6985532B2 (ja) 2021-12-22
US11238273B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
JP6985532B2 (ja) データ処理方法及び装置、電子機器並びに記憶媒体
EP3786890B1 (en) Method and apparatus for determining pose of image capture device, and storage medium therefor
CN104596502B (zh) 一种基于cad模型与单目视觉的物体位姿测量方法
US11468612B2 (en) Controlling display of a model based on captured images and determined information
WO2019161813A1 (zh) 动态场景的三维重建方法以及装置和系统、服务器、介质
WO2018119889A1 (zh) 三维场景定位方法和装置
CN110874864A (zh) 获取对象三维模型的方法、装置、电子设备及系统
US20180338742A1 (en) X-ray system and method for standing subject
WO2021043213A1 (zh) 标定方法、装置、航拍设备和存储介质
EP4307233A1 (en) Data processing method and apparatus, and electronic device and computer-readable storage medium
US20210200190A1 (en) Action imitation method and robot and computer readable storage medium using the same
US10706584B1 (en) Hand tracking using a passive camera system
CN113366491B (zh) 眼球追踪方法、装置及存储介质
JP2008506953A5 (ja)
CN108932734B (zh) 单目图像的深度恢复方法及装置、计算机设备
CN112258567A (zh) 物体抓取点的视觉定位方法、装置、存储介质及电子设备
CN114862973B (zh) 基于固定点位的空间定位方法、装置、设备及存储介质
CN113256718B (zh) 定位方法和装置、设备及存储介质
CN112183506A (zh) 一种人体姿态生成方法及其系统
WO2022018811A1 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN113159161A (zh) 目标匹配方法和装置、设备及存储介质
JP3401512B2 (ja) 移動物体追跡装置
CN109531578B (zh) 仿人机械手臂体感控制方法及装置
CN115862124A (zh) 视线估计方法、装置、可读存储介质及电子设备
CN113048985B (zh) 已知相对旋转角度条件下的像机相对运动估计方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201020

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210323

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250