JP2021514092A - 位置姿勢検出方法及び装置、電子機器並びに記憶媒体 - Google Patents

位置姿勢検出方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021514092A
JP2021514092A JP2020558949A JP2020558949A JP2021514092A JP 2021514092 A JP2021514092 A JP 2021514092A JP 2020558949 A JP2020558949 A JP 2020558949A JP 2020558949 A JP2020558949 A JP 2020558949A JP 2021514092 A JP2021514092 A JP 2021514092A
Authority
JP
Japan
Prior art keywords
position information
feature
feature portion
dimensional
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020558949A
Other languages
English (en)
Other versions
JP7074888B2 (ja
Inventor
汪旻
▲劉▼文▲韜▼
▲錢▼晨
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201810949860.8A external-priority patent/CN109241875B/zh
Priority claimed from CN201810950565.4A external-priority patent/CN109284681B/zh
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021514092A publication Critical patent/JP2021514092A/ja
Application granted granted Critical
Publication of JP7074888B2 publication Critical patent/JP7074888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

位置姿勢検出方法及び装置、電子機器並びに記憶媒体であって、前記方法は、ターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定すること(S100)と、第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定すること(S200)と、前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定すること(S300)とを含む。前記方法は、位置姿勢検出精度を向上させることができる。【選択図】図1

Description

(関連出願の相互参照)
本出願は、2018年08月20日付の中国特許出願第201810950565.4号、及び2018年08月20日付の中国特許出願第201810949860.8号に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
本出願は、画像処理技術分野に関し、特に位置姿勢検出方法及び装置、電子機器並びに記憶媒体に関する。
コンピュータビジョンにおいて、人体姿勢推定は、重要なヒューマンインタラクティブインタフェースである。特に、三次元空間における人体の姿勢及び位置の推定は、インタラクション過程において、最も基本かつ肝心なものである。
従来技術において、高価な深度カメラ装置を利用して、人体に対して大まかな三次元モデリングを行うことで、カメラに対する人体の位置姿勢の予測の目的を達成する。
本出願の実施例は、位置姿勢検出の技術的解決手段を提供する。
本出願の第1態様によれば、位置姿勢検出方法を提供する。該方法は、撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することと、第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含むことと、前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することとを含む。
本出願の実施例において、ターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することは、認識しようとする第1特徴部の情報を取得することと、取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識することと、確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定することとを含む。
本出願の実施例において、第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定することとを含む。
本出願の実施例において、前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることは、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることと、前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定することと、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得ることとを含む。
本出願の実施例において、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることは、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行うことと、歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることとを含む。
本出願の実施例において、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行うことは、第1式を利用して前記第1位置情報に対して前記歪み除去処理を行うことを含み、第1式は下記の通りである。
Figure 2021514092
ただし、第1式における
Figure 2021514092
は、x軸における撮像装置の焦点距離であり、
Figure 2021514092
は、y軸における撮像装置の焦点距離であり、
Figure 2021514092
は、それぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、
Figure 2021514092
はそれぞれ、撮像装置の径方向歪みパラメータであり、
Figure 2021514092
は、撮像装置の接線方向歪みパラメータであり、x及びyはそれぞれ、第1位置情報の横座標値及び縦座標値であり、u及びvはそれぞれ、歪み処理後の横座標値及び縦座標値である。
本出願の実施例において、前記平均値及び分散に基づいて各前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得ることは、第2式を利用して、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行うことを含み、前記第2式は下記の通りである。
Figure 2021514092
ただし、s及びtはそれぞれ、第2位置情報の横座標及び縦座標を表し、
Figure 2021514092
はそれぞれ、i番目の第1特徴の第3位置情報の横座標値及び縦座標値を表し、mean関数は、平均値関数であり、std関数は、分散関数であり、iは正整数である。
本出願の実施例において、各前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定することは、深層学習モデルを含む所定のモデルを利用して前記第1特徴部の第2位置情報に基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を取得することを含む。
本出願の実施例において、第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定することと、前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得ることとを含む。
本出願の実施例において、前記第4位置情報に対して逆正規化処理を行い、各第2特徴部の三次元位置情報を得ることは、第3式を利用して前記第4位置情報に対して逆正規化処理を行い、三次元位置情報を得ることを含み、前記第3式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
はそれぞれ、三次元位置情報の3つの座標値を表し、X、Y及びZはそれぞれ、第4位置情報の3つの座標値を表し、stdは分散関数を表し、meanは平均値関数を表す。
本出願の実施例において、前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて前記ターゲット対象の空間的位置姿勢を決定することは、前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することと、前記補正パラメータに基づいて前記三次元位置情報を補正することと、補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することとを含む。
本出願の実施例において、前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することは、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換すること、前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整することと、前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定することとを含む。
本出願の実施例において、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換することは、第4式により、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換することを含み、前記第4式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
は、撮像装置のx軸における焦点距離であり、
Figure 2021514092
は、撮像装置のy軸における焦点距離であり、
Figure 2021514092
はそれぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、Sは、第5位置情報であり、Sは、三次元位置情報である。
本出願の実施例において、前記第5位置情報と第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰り返してフィードバック調整することは、最適化モデルを利用して前記回転行列及び平行移動行列のフィードバック調整を行い、前記最適化モデルの数式は下記の通りである。
Figure 2021514092
ただし、arg min関数は、差異最小化関数を表し、Sは第2位置情報を表す。
本出願の実施例において、前記補正パラメータに基づいて前記三次元位置情報を補正することは、第5式を利用して前記三次元位置情報を補正することを含み、前記第5式は、下記の通りである。
Figure 2021514092
ただし、Pは、補正前の三次元位置情報であり、P’は、補正後の三次元位置情報であり、Rは、回転行列であり、Tは、平行移動行列である。
本出願の実施例において、前記方法は、ターゲット画像を取得することと、前記ターゲット画像におけるターゲット対象を認識することとを更に含む。
本出願の実施例において、前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含む。
本出願の実施例の第2態様によれば、位置姿勢検出装置を提供する。該装置は、撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定するように構成される第1決定モジュールと、第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定するように構成される第2決定モジュールであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含む第2決定モジュールと、前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される第3決定モジュールと、を備える。
本出願の実施例において、前記第1決定モジュールは、認識しようとする第1特徴部の情報を取得するように構成される情報取得ユニットと、取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識するように構成される特徴認識ユニットと、確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定するように構成される二次元位置決定ユニットとを備える。
本出願の実施例において、前記第2決定モジュールは、前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定するように構成される三次元位置決定ユニットとを備える。
本出願の実施例において、前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得て、前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定し、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得るように構成される。
本出願の実施例において、前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行い、歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得るように構成される。
本出願の実施例において、前記正規化ユニットは更に、第1式を利用して前記第1位置情報に対して前記歪み除去処理を行うように構成され、第1式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
は、x軸における撮像装置の焦点距離であり、
Figure 2021514092
は、y軸における撮像装置の焦点距離であり、
Figure 2021514092
は、それぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、
Figure 2021514092
はそれぞれ、撮像装置の径方向歪みパラメータであり、
Figure 2021514092
は、撮像装置の接線方向歪みパラメータであり、x及びyはそれぞれ、第1位置情報の横座標値及び縦座標値であり、u及びvはそれぞれ、歪み処理後の横座標値及び縦座標値である。
本出願の実施例において、前記正規化ユニットは更に、第2式を利用して、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行うように構成され、前記第2式は下記の通りである。
Figure 2021514092
ただし、s及びtはそれぞれ、第2位置情報の横座標及び縦座標を表し、
Figure 2021514092
はそれぞれ、i番目の第1特徴の第3位置情報の横座標値及び縦座標値を表し、mean関数は、平均値関数であり、std関数は、分散関数であり、iは正整数である。
本出願の実施例において、前記三次元位置決定ユニットは更に、深層学習モデルを含む所定のモデルを利用して前記第1特徴部の第2位置情報に基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を取得するように構成される。
本出願の実施例において、前記第2決定モジュールは、前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定するように構成される三次元位置決定ユニットと、前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得るように構成される逆正規化ユニットとを備える。
本出願の実施例において、前記逆正規化ユニットは更に、第3式を利用して前記第4位置情報に対して逆正規化処理を行い、三次元位置情報を得るように構成され、前記第3式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
はそれぞれ、三次元位置情報の3つの座標値を表し、X、Y及びZはそれぞれ、第4位置情報の3つの座標値を表し、stdは分散関数を表し、meanは平均値関数を表す。
本出願の実施例において、前記第3決定モジュールは、前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定するように構成される補正パラメータ決定ユニットと、前記補正パラメータに基づいて前記三次元位置情報を補正するように構成される補正ユニットと、補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される位置姿勢決定ユニットとを備える。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換し、前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整し、前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定するように構成される。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、第4式により、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換するように構成され、前記第4式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
は、撮像装置のx軸における焦点距離であり、
Figure 2021514092
は、撮像装置のy軸における焦点距離であり、
Figure 2021514092
はそれぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、Sは、第5位置情報であり、Sは、三次元位置情報である。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、最適化モデルを利用して前記回転行列及び平行移動行列のフィードバック調整を行うように構成され、前記最適化モデルの数式は下記の通りである。
Figure 2021514092
ただし、arg min関数は、差異最小化関数を表し、Sは第2位置情報を表す。
本出願の実施例において、前記補正ユニットは更に、第5式を利用して前記三次元位置情報を補正するように構成され、前記第5式は、下記の通りである。
Figure 2021514092
ただし、Pは、補正前の三次元位置情報であり、P’は、補正後の三次元位置情報であり、Rは、回転行列であり、Tは、平行移動行列である。
本出願の実施例において、前記装置は、ターゲット画像を取得するように構成される画像取得モジュールと、前記ターゲット画像におけるターゲット対象を認識するように構成される対象認識モジュールとを更に備える。
本出願の実施例において、前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含む。
本出願の実施例の第3態様によれば、電子機器を提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリと備え、前記プロセッサは、第1態様のいずれか一項に記載の方法を実行するように構成される。
本出願の実施例の第4態様によれば、コンピュータ可読記憶媒体を提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、第1態様のいずれか一項に記載の方法を実現させる。
本出願の実施例の第5態様によれば、コンピュータプログラム製品を提供し、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、第1態様のいずれか一項に記載の方法を実行する。
本出願の実施例は、装置パラメータを参照して、画像における対象の位置姿勢検出を実行する。異なる装置パラメータによる姿勢検出への影響を無くし、位置姿勢検出の精度を向上させることができる。それと同時に、本出願の実施例は、第1位置情報と三次元位置情報との差異を利用して、三次元位置情報を調整するための補正パラメータを決定し、位置姿勢の検出精度を更に向上させることができる。
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
本発明の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。
本出願の実施例による位置姿勢検出方法を示すフローチャートである。 本出願の実施例による位置姿勢検出方法におけるステップS100を示すフローチャートである。 本出願の実施例によるターゲット画像と認識された第1特徴部との対応関係を示す図である。 本出願の実施例による位置姿勢検出方法におけるステップS200を示すフローチャートである。 本出願の実施例による各第2位置情報を利用して第2特徴部の三次元位置情報を決定する第2所定のモデルの構造を示す概略図である。 本出願の実施例による位置姿勢検出方法におけるステップS201を示すフローチャートである。 本出願の実施例による位置姿勢検出方法におけるステップS2011を示すフローチャートである。 本出願の実施例による位置姿勢検出方法におけるステップS200を示すもう1つのフローチャートである。 本出願の実施例による位置姿勢検出方法におけるステップS300を示すフローチャートである。 本出願の実施例による位置姿勢検出方法におけるステップS301を示すフローチャートである。 本出願の実施例による位置姿勢検出装置を示すブロック図である。 本出願の実施例による電子機器を示すブロック図である。 本出願の実施例によるもう1つの電子機器を示すブロック図である。
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
以下、図面を参照しながら本出願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。
ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。
本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つの場合を表す。また、本明細書において、用語「少なくとも1つ」は、複数のうちのいずれか1つ又は複数のうちの少なくとも2つの任意の組み合わせを表す。例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選ばれるいずれか1つ又は複数の要素を含むことを表す。
なお、本出願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。
本出願に言及した上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができ、紙数に限りがあるため、本出願において逐一説明しない。
なお、本出願は、画像処理装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本出願で提供されるいずれか1つの画像処理方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。ここで、詳細な説明を省略する。
図1は、本出願の実施例による位置姿勢検出方法を示すフローチャートである。ここで、図1に示すように、前記位置姿勢検出方法は、以下を含んでもよい。
S100:撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定する。
S200:第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定し、前記第2特徴部が、前記少なくとも1つの第1特徴部を含む。
S300:前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定する。
本出願の実施例で提供される位置姿勢検出方法は、画像における人体対象の位置姿勢検出に用いられる。位置姿勢は、人体対象の各特徴部の位置情報及び空間的姿勢を含んでもよい。ここで、姿勢は、走り、座り、立ち、歩行、ジャンプ、這い、伏せ、飛行などの状態を含んでもよく、他の状態であってもよい。ターゲット対象の空間的状態になり得る空間的状態は、いずれも本出願の実施例により認識される姿勢とすることができる。なお、本出願の実施例は、該画像を撮像する撮像装置のパラメータを参照しながら、人体対象の各特徴部の位置最適化を実行し、決定された補正パラメータを利用して各位置情報を更に最適化し、姿勢検出の正確度を向上させることができる。
本出願におけるターゲット対象とは、姿勢検出に用いられる画像を指す。該ターゲット対象において、姿勢検出がなされる対象は、ターゲット対象と呼ばれる。該ターゲット対象は、人間、動物などを含んでもよい。本出願の実施例において、まずターゲット画像を取得することができる。例えば、記憶されている画像データからターゲット画像を選択してもよいし、他の装置から伝送されるターゲット画像を受信してもよいし、直接的に撮像装置によりターゲット画像を撮ってよい。上記は、ターゲット画像の取得の例示的な説明に過ぎず、本出願は、これを限定するものではない。
ターゲット画像を取得してから、該ターゲット画像におけるターゲット対象を認識することができる。ここで、画像認識アルゴリズムにより、ターゲット画像におけるターゲット対象を認識することができる。トレーニングされた機械学習ネットワークモデルにより、ターゲット対象の認識を実行することもできる。該機械学習ネットワークモデルは、ニューラルネットワークモデル又は深層学習ニューラルネットワークモデルなどを含んでもよく、本出願は、これを限定するものではない。ここで、本出願の実施例において、人間をターゲット対象として説明する。他の実施例において、ターゲット対象は、動物、アニメキャラクタなどであってもよい。
ステップS100において、ターゲット対象を認識してから、ターゲット対象における各第1特徴部の第1位置情報を決定することができる。ここで、ターゲット対象の第1特徴部は、ターゲット対象におけるキーとなる特徴部位である。例えば、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含んでもよい。ここで、肩部は、左肩部と右肩部に分けられてもよく、肘部は、左肘部と右肘部に分けられてもよく、手首部は、左手首部と右手首部に分けられてもよく、股関節部は、左股関節部と右股関節部に分けられてもよく、膝部は、左膝部と右膝部に分けられてもよく、足首部は、左足首部と右足首部に分けられてもよい。ここで、上記第1特徴部の認識は、所定の特徴認識アルゴリズムにより実行されてもよいし、トレーニングされた機械学習ネットワークモデルにより実行されてもよい。また、各第1特徴部を認識してから、各第1特徴部の位置情報を決定することができる。第1特徴部の認識及び決定については、ターゲット画像をトレーニングされた第1所定のモデルに直接的に入力し、該第1所定のモデルにより、ターゲット画像におけるターゲット対象の各第1特徴部を直接的に認識することができる。又は、直接的に第1所定のアルゴリズムを利用してターゲット画像における各第1特徴部を認識することもできる。本出願の実施例は、従来技術を利用して第1所定のモデルのトレーニング及び確立を実行してもよく、これについて限定しない。なお、第1所定のアルゴリズムは、いかなる特徴認識アルゴリズムを含んでもよい。
なお、本出願の実施例は、まず、認識しようとする第1特徴部の情報を取得し、対応する第1特徴部の位置を更に認識してもよい。図2は、本出願の実施例による位置姿勢検出方法におけるステップS100を示すフローチャートである。ここで、ステップS100は、以下を含んでもよい。
S101:認識しようとする第1特徴部の情報を取得する。
S102:取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識する。
S103:確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定する。
まず、認識しようとする第1特徴部の情報を取得する。上記のように、第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含んでもよい。この場合、取得した第1特徴部の情報は、認識しようとする第1特徴部の識別子を含む。該識別子は、対応する特徴部の名称であってもよいし、所定の番号であってもよい。該番号に基づいて、第1特徴部に一意的に対応付けられる。
第1特徴部の情報を取得してから、第1特徴部の認識操作を実行することができる。ここで、第1所定のアルゴリズム又は第1所定のモデルに基づいて、該認識操作を実行することができる。ここで、第1所定のアルゴリズムは、局所特徴点検出アルゴリズム、ブロブ検出アルゴリズム及びコーナー検出アルゴリズムのうちの少なくとも1つを含んでもよいし、第1特徴部の検出及び認識を実現できる他のアルゴリズムを含んでもよい。第1所定のモデルは、上記トレーニングされたネットワークモデルであってもよい。例えば、ニューラルネットワークモデル、深層学習ニューラルネットワークモデルなどのような機械学習ネットワークモデルを含んでもよい。図3は、本出願の実施例によるターゲット画像と認識された第1特徴部との対応関係を示す図である。ここで、認識される各第1特徴部をドットで表す。
各第1特徴部を認識してから、ステップS103を実行し、確立された直角座標系に基づいて、各第1特徴部の第1位置情報を決定し、各第1位置情報を(x,y)のような二次元座標の形態で表す。
ここで、第1位置情報の決定を上記第1所定のモデルにより実現させることもできる。該モデルは、第1特徴部の認識及び対応する位置情報の決定を実現させることができる。又は、認識された第1特徴部同士間の相対的位置により、各第1位置情報を決定することもできる。例えば、1つの第1特徴部の位置を座標の原点として、各第1特徴部同士間の相対的位置関係を利用して、残りの各第1特徴部の位置座標を決定することができる。以上は、第1位置情報の決定の例示的な説明に過ぎず、本出願の実施例はこれを限定するものではない。
ターゲット対象の各第1特徴部の第1位置情報を決定してから、ターゲット画像を撮影する撮像装置の装置パラメータに基づいて、ターゲット対象の第2特徴部の三次元位置情報を決定することができる。ここで、三次元位置情報とは、三次元座標系における位置情報を指す。第1位置情報は、二次元座標系における位置情報である。三次元位置情報により、ターゲット対象の姿勢をより正確に検出することができる。
ここで、本出願の実施例は、まず、撮像装置のパラメータを利用して各第1特徴部の第1位置情報を正規化処理し、異なる装置パラメータによる位置情報の差異の影響を無くす。続いて、正規化処理された第1位置情報に基づいて、第1特徴部の二次元座標から第2特徴部の三次元座標への変換を行い、三次元位置情報を取得する。図4は、本出願の実施例による位置姿勢検出方法におけるステップS200を示すフローチャートである。ここで、本出願の実施例のステップS200は以下を含んでもよい。
S201:前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得る。
S202:前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定する。
ここで、本出願の実施例は、第2所定のモデルを利用して、各第1特徴部の第2位置情報に基づいて第2特徴部の三次元位置情報を決定することができる。本出願の実施例における第1特徴部は、第2特徴部に含まれてもよい。例えば、第2特徴部は、第1特徴部と同じであってもよいし、第1特徴部より多い特徴部を持ってもよい。本出願の実施例において、第2特徴部は、少なくとも1つの第1特徴部を含んでもよいし、第1特徴部以外の他の特徴部を含んでもよい。例えば、本出願の実施例の第2特徴部は、第1特徴部に比べて、股間部中点、腰椎中点、鼻及び脊椎中点のうちの少なくとも1つを更に含んでもよい。ここで、股間部中点は、左股関節部と右股関節部の位置により決定され、脊椎中点は、頸椎と股間部中点により決定され、腰椎中点は、頸椎と股間部中点により決定され、鼻は、頭部特徴点により決定される。
図5は、本出願の実施例による各第2位置情報を利用して第2特徴部の三次元位置情報を決定する第2所定のモデルの構造を示す概略図である。ここで、該第2所定のモデルに各第1特徴部の第2位置情報を入力し、第2所定のモデルの学習操作により、対応する第2特徴部の三次元位置情報を取得することができる。ここで、第2所定のモデルは、深層学習モデルを含んでもよい。第2所定のモデルには、全結合層Aと、バッチ処理及びReLU関数層Bと、dropout関数層Cとが含まれてもよい。第2所定のモデルの生成過程について、本出願の実施例において詳しく説明しない。それは、大量の二次元形態の第1特徴部の情報により学習、トレーニングすることによって、生成される機械学習モデルを最適化することができる。例えば、約30万組のデータを用意し、各組のデータは、二次元人体骨格座標及びそれに対応する三次元人体骨格座標であり、数学的に
Figure 2021514092
で表される。ただし、x…x14はそれぞれ、14個の第1特徴部の第2位置情報の横座標値であり、y…y14はそれぞれ、14個の第1特徴部の第2位置情報の縦座標値であり、(X,Y,Z)はそれぞれ、生成された第2特徴部の三次元位置情報の座標値である。ここで、第1特徴部及び第2特徴部の数は必要に応じて設定されてもよい。第2所定のモデルは、対応する設定情報に基づいて、第2特徴部の決定を実行することができる。
更に、マッチングし合う第1特徴部及び第2特徴部に対応する第1位置情報及び三次元位置情報を利用して三次元位置情報を修正し、修正された三次元位置情報に基づいて、ターゲット対象の空間的位置姿勢を決定することができる。
本出願の実施例の上記設定によれば、撮像装置の装置パラメータに基づいて、異なる装置パラメータによる特徴部位置情報の差異の影響を無くすと共に、対応する特徴部の二次元位置情報及び三次元位置情報に基づいて三次元位置を補正し、姿勢検出の正確度を向上させることができる。
以下、本出願の実施例を詳しく説明する。ここで、上記実施例に記述したように、本出願の実施例は、ステップS100で取得された各第1特徴部の第1位置情報に対して正規化処理を行い、対応する第2位置情報を得ることで、装置パラメータの差異による位置情報検出への影響を無くすことができる。図6は、本出願の実施例による位置姿勢検出方法におけるステップS201を示すフローチャートである。ここで、ステップS201は以下を含んでもよい。
S2011:前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得る。
S2012:前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定する。
S2013:前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得る。
ここで、本出願の実施例は、第1位置情報の正規化処理を実行する時、装置パラメータを利用して、各第1特徴の第1位置情報に対して第1正規化処理を行い、各第1特徴部の第3位置情報を取得することができる。該第1正規化処理により、撮像装置のパラメータによる各第1位置情報の歪み誤差を除去することができる。続いて、歪み処理後の第1位置情報を利用して正規化処理を行い、第3位置情報を得て、異なる装置パラメータによる差異の影響を更に正規化する。
図7は、本出願の実施例による位置姿勢検出方法におけるステップS2011を示すフローチャートである。ここで、ステップS201は以下を含んでもよい。
S20111:前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行う。
S20112:歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得る。ここで、第1式を利用して前記第1位置情報に対して前記歪み除去処理を行うことができる。ここで、第1式は、以下を含んでもよく、
Figure 2021514092
ただし、
Figure 2021514092
は、x軸における撮像装置の焦点距離であり、
Figure 2021514092
は、y軸における撮像装置の焦点距離であり、
Figure 2021514092
は、それぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、
Figure 2021514092
はそれぞれ、撮像装置の径方向歪みパラメータであり、
Figure 2021514092
は、撮像装置の接線方向歪みパラメータであり、x及びyはそれぞれ、第1位置情報の横座標値及び縦座標値であり、u及びvはそれぞれ、歪み処理後の横座標値及び縦座標値である。ここで、径方向歪みとは、長手方向に沿ったベクトル端点の変動drを指す。つまり、動径の変動を指す。接線方向歪みとは、接線方向に沿ったベクトル端点の変動を指す。つまり、角度の変動dtを指す。
上記第1式により、歪み処理された第1位置情報(u,v)を取得することができる。続いて、第1正規化処理を行う。第一正規化処理の式は、以下を含んでもよく、
Figure 2021514092
ただし、
Figure 2021514092
はそれぞれ、第1正規化処理された第3位置情報の横座標及び縦座標値である。上記設定に基づいて、歪み除去処理を実行してから、正規化処理を行い、位置情報の位置決めの精度を更に向上させることができる。
各第1特徴部の第3位置情報を取得してから、各第3位置情報の平均値及び分散を決定し、該分散及び平均値に基づいて、第2正規化処理を更に行い、第1特徴部に対する第2位置情報を得ることができる。本出願の実施例において、各第1特徴部の第3位置情報の平均値及び分散を決定することは、各第1特徴部の第3位置情報の横座標値に基づいて、前記第3位置情報の横座標の平均値及び分散を決定することと、各第1特徴の第3位置情報の縦座標値に基づいて、前記第3位置情報の縦座標の平均値及び分散を決定することができる。ここで、平均値数式及び分散数式を利用して各第1特徴部の第3位置情報の縦座標値の分散及び平均値、縦座標値の分散及び平均値をそれぞれ決定することができる。
又は、本出願の実施例において、各第1特徴部の第3位置情報に基づいて、各第3位置情報の横座標に対応する横座標平均値及び横座標分散を、各第3位置情報の縦座標に対応する縦座標均値及び縦座標分散を生成してもよい。つまり、各第3位置情報の横座標は、それぞれの分散及び平均値に対応しており、縦座標も、それぞれの平均値及び分散に対応している。例えば、第3所定のモデルにより第1位置情報の正規化処理プロセスを実行することができる。第3所定のモデルは、ニューラルネットワークモデルを含んでもよい。該ニューラルネットワークモデルをトレーニングする時、大量のデータによりトレーニングすることができる。例えば、30万組のトレーニングデータを入力することができる。各組のトレーニングデータには、入力された各特徴部の第3位置情報、及び対応する正規化された第2位置情報が含まれてもよい。トレーニングデータにおける各同一の特徴部に基づいた第3位置情報の横座標の平均値及び分散は、該特徴部に対応する横座標平均値及び分散と決定される。トレーニングデータにおける各同一の特徴部に基づいた第3位置情報の縦座標の平均値及び分散は、該特徴部に対応する縦座標平均値及び分散と決定される。
従って、該第3所定のモデルに各第1特徴部の第3位置情報を入力する時、対応する特徴部の横座標平均値、分散及び縦座標平均値、分散を取得することができる。続いて、各特徴部の平均値及び分散に基づいて第3位置情報に対して第2正規化処理を行う。ここで、第2式を利用して、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行うことができ、前記第2式は下記の通りである。
Figure 2021514092
ただし、s及びtはそれぞれ、i番目の第1特徴部の第2位置情報の横座標及び縦座標を表し、
Figure 2021514092
はそれぞれ、i番目の第1特徴部の第3位置情報の横座標値及び縦座標値を表し、mean関数は、第1特徴部に対応する横座標又は縦座標平均値関数であり、std関数は、第1特徴部に対応する横座標又は縦座標分散関数であり、iは正整数である。
各第1特徴部の第2位置情報が決定された時、該第2位置情報を利用して第2特徴部の三次元位置情報の決定プロセスを実行することができる。ここで、本出願の実施例において、各第2特徴部の三次元位置情報に対して逆正規化処理を行い、逆正規化処理された三次元位置情報を撮像装置に対するターゲット対象の実際の位置座標として、ターゲット対象の姿勢をより正確に決定する。ここで、図8は、本出願の実施例による位置姿勢検出方法におけるステップS200を示すもう1つのフローチャートである。ここで、ステップS200は以下を含んでもよい。
S201:前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得る。
S202:所定のモデルを利用して前記第1特徴部の第2位置情報に基づいて、前記ターゲット対象の第2特徴部の三次元形態の第4位置情報を得る。
S203:前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得る。
ここで、S201及びS202は図4に示したステップS201及びS202の処理形態と同じである。本出願の実施例における第4位置情報は、図4に対応する実施例における三次元位置情報に相当し、本出願の実施例は、第4位置情報に対して逆正規化処理を行い、トレーニングパラメータ等による位置情報への影響を減少させることができる。
本出願の実施例において、対各第2特徴部の三次元位置情報又は補正後の三次元位置情報に対して逆正規化処理を行い、逆正規化処理された三次元位置情報をターゲット対象の実際の位置座標とし、ターゲット対象の姿勢をより正確に決定することもできる。本出願の実施例は、補正後の三次元位置情報の逆正規化処理について説明する。補正されていない三次元位置情報に対して直接的に正規化処理を行う過程はそれと類似するため、ここで繰り返しの説明を省略する。ここで、該逆正規化処理プロセスは、
第3式を利用して、補正後の三次元位置情報に対して逆正規化処理を行い、第5位置情報を得ることを含んでもよく、前記第3式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
はそれぞれ、三次元位置情報の3つの座標値を表し、X、Y及びZはそれぞれ、第4位置情報の3つの座標値を表し、stdは分散関数を表し、meanは平均値関数を表す。
なお、本出願の実施例における各第2特徴部の各第4位置情報のX座標平均値は、平均値関数を利用して各第4位置情報のX座標値に基づいて得られたものであってもよい。各第4位置情報のY座標平均値は、平均値関数を利用して各第4位置情報のY座標値に基づいて得られたものであってもよい。各第4位置情報のZ座標平均値は、平均値関数を利用して各第4位置情報のZ座標に基づいて得られたものであってもよい。本出願の実施例における各第4位置情報的X座標の分散は、分散関数を利用して各第4位置情報のX座標値及びX座標平均値に基づいて得られたものであってもよい。第4位置情報のY座標の分散は、分散関数を利用して各第4位置情報のY座標値及びY座標平均値に基づいて得られたものであってもよい。各第4位置情報のZ座標の分散は、分散関数を利用して各第4位置情報のZ座標値和Z座標平均値に基づいて得られたものであってもよい。
又は、本出願の実施例におけるmean函数はそれぞれ、対応する特徴部の三次元位置情報のX、Y又はZび平均値であってもよい。std函数はそれぞれ、対応する特徴部の補正後の三次元位置情報のX、Y又はZの分散であってもよい。つまり、各第2特徴部の第4位置情報は、対応するXの平均値及び分散、Yの平均値及び分散、Zの平均値及び分散を有してもよい。ここで、トレーニングデータを利用して第3所定のモデルをトレーニングする時、トレーニング過程において、得られた各第4位置情報に基づいて、実際に適用する時の各第2特徴部の各第4位置情報におけるXの平均値及ぶ分散、Yの平均値及び分散、Zの平均値及び分散をそれぞれ決定することができる。例えば、トレーニングデータにおける生成された頭部特徴部に関する第4位置情報のXの平均値及ぶ分散、Yの平均値及ぶ分散、Zの平均値及ぶ分散を取得することができる。なお、他の特徴部の第4位置情報のXの平均値及ぶ分散、Yの平均値及ぶ分散、Zの平均値及ぶ分散を取得することもできる。これにより各特徴部の第4位置情報のXの平均値及ぶ分散、Yの平均値及ぶ分散、Zの平均値及ぶ分散を得る。
従って、対応する特徴部の第4位置情報の平均値及ぶ分散を利用して各第2特徴部の逆正規化処理を行い、トレーニングデータによる影響を減少させ、正確な各第2特徴部の三次元位置情報を得ることができる。最終に、該第2特徴部の三次元位置情報に基づいて、ターゲット対象の位置姿勢を取得する。
本出願の実施例において、三次元位置情報を決定してから、三次元位置情報を更に補正し、対応する空間的位置姿勢を決定することもできる。図9は、本出願の実施例による位置姿勢検出方法におけるステップS300を示すフローチャートである。ここで、ステップS300は以下を含んでもよく、
S301:前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定する。
S302:前記補正パラメータに基づいて前記三次元位置情報を補正する。
S303:補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定する。
ここで、上記実施例に記述したように、本出願の実施例における第2特徴部には、少なくとも1つの第1特徴部が含まれてもよいし、第1特徴部以外の他の特徴部が含まれてもよい。従って、三次元位置情報の補正を実行する時、まず、第1特徴部及び第2特徴部における同一の特徴部を決定する必要がある。該同一の特徴部とは、第2特徴部に含まれる第1特徴部を指す。ここで、本出願の実施例における第1特徴部及び第2特徴部はいずれも対応する識別情報を持ってもよい。例えば、第1特徴部は、対応する第1識別子を持ってもよいし、第2特徴部は、対応する第2識別子を持ってもよい。従って、対応する第1特徴部及び第2特徴部の識別情報を整合させることで、同一の特徴部を決定することができる。例えば、同じ識別情報を持つ第1特徴部及び第2特徴部は、補正パラメータの決定に用いられる。同じ識別情報を持つ第1特徴部及び第2特徴部は、実際に、同一の特徴部である。又は、同一の特徴部の第1識別子と第2識別子との間に、対応するマッピング関係が存在してもよい。従って、互いに関連付けられた第1識別子と第2識別子に対応する第1特徴部と第2特徴部を同一の特徴部とすることができる。ここで、識別情報は、特徴部のために割り当てられる一意的識別子であってもよい。ここで、番号又は名称などであってもよい。なお、ステップS301における三次元位置情報は、図4に示した実施例におおける三次元位置情報又は図8に示した実施例における三次元位置情報を含んでもよい。
本出願の実施例において、決定された同一の特徴部に基づいて、補正パラメータの決定を行うことができる。図10は、本出願の実施例による位置姿勢検出方法におけるステップS301を示すフローチャートである。ここで、ステップS301は以下を含んでもよい。
S3011:回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換する。
S3012:前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整する。
S3013:前記差異が所定の要件を満す場合の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定する。
本出願の実施例において、第1特徴部の第1位置情報の正規化処理により得られた第2位置情報は、二次元座標形態であるが、三次元位置情報が三次元座標形態である。従って、補正係数を決定するために、両者の座標形態を整合する必要がある。本出願の実施例において、回転行列及び平行移動行列を利用して三次元位置情報を二次元形態の第4位置情報に変換することができる。ここで、回転行列は、撮像装置に対するターゲット対象の回転ベクトルであり、平行移動行列は、撮像装置に対するターゲット対象の平行移動ベクトルである。本出願の実施例において、上記第3所定のモデルにより該三次元位置情報の補正を行うことができる。ここで、第3所定のモデルは、予め設定された回転行列及び平行移動行列に基づいて、三次元位置情報の、二次元形態への変換を行うことができる。例えば、第4式により、回転行列及び平行移動行列を利用して前記三次元位置情報を二次元形態の第5位置情報に変換することができる。第4式は以下を含んでもよく、
Figure 2021514092
ただし、
Figure 2021514092
は、撮像装置のx軸における焦点距離であり、
Figure 2021514092
は、撮像装置のy軸における焦点距離であり、
Figure 2021514092
はそれぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、Sは、第5位置情報であり、Sは、三次元位置情報である。
なお、第3所定のモデルは、対応する特徴部の第2位置情報と第5位置情報との差異に基づいて、回転行列及び平行移動行列を繰り返してフィードバック調整し、全ての特徴部の第2位置情報と第5位置情報との差異が所定の要件を満たすまで継続する。該所定の要件を満たすことは、2つの位置情報間の距離が所定の距離閾値より小さいことを含んでもよい。ここで、所定の距離閾値は、必要に応じて事前設定された値であってもよい。異なる実施例において、異なる値を設定することができる。また、差異が所定の要件を満した場合の回転行列及び平行移動行列を補正パラメータとすることができる。
又は、本出願の別の実施例において、最適化モデルを利用して前記回転行列及び平行移動行列のフィードバック調整を行うこともでき、前記最適化モデルの数式は下記の通りである。
Figure 2021514092
ただし、arg min関数は、差異最小化関数を表し、Sは第2位置情報を表す。つまり、本出願の実施例において、最適化モデルにより、回転行列R及び平行移動行列Tを調整して、第5位置情報と第2位置情報との差異を最小化することができる。ここで、最適化モデルは、ニューラルネットワークモデル又は他の機械学習モデルを含んでもよい。
なお、所定の要件を満たした時の回転行列R及び平行移動行列Tを取得してから、前記補正パラメータに基づいて前記三次元位置情報を補正することができる。ここで、第5式を利用して前記三次元位置情報を補正することを含んでもよく、前記第5式は下記の通りである。
Figure 2021514092
ただし、Pは、補正前の三次元位置情報であり、P’は、補正後の三次元位置情報であり、Rは、回転行列であり、Tは、平行移動行列である。
つまり、所定の要件を満たした差異に対応する回転行列及び平行移動行列を利用して三次元位置情報を補正し、補正後の三次元位置情報を得て、該三次元位置情報を利用してターゲット対象の空間的位置姿勢を決定することができる。ここで、本出願の実施例は、該補正された各第2特徴部の三次元位置情報を直接的に利用して空間的位置姿勢を決定し、位置姿勢検出の精度を向上させることができる。
本出願の実施例をより明確に説明するために、以下、例を挙げて本出願の実施例の位置姿勢検出アルゴリズムのプロセスを説明する。ここで、位置姿勢検出アルゴリズムは、
ビデオ又はピクチャを含んでもよい画像データを取得することと、
二次元人体キーポイント検出ツールを利用して、画像における14個のキーポイントの位置、即ち、14個の第1特徴部の第1位置情報を得ることと、
二次元キーポイント位置情報を利用して、対応する三次元人体骨格(17個のキーポイントであり、ここで、骨盤のキーポイント位置は常に原点である)を得て、該17個のキーポイントが三次元キーポイントの三次元位置情報であることと、
上記ステップで得られた2つの人体キーポイントに対して位置合わせ操作を行い(即ち、同一の特徴部を決定する)、各キーポイントを物理的には一致させることと、
現在の装置の内部パラメータがKであり、ターゲット人体のカメラ座標系における外部パラメータ回転行列R及び平行移動行列Tを算出することとを含む。ここで、式4に記述したとおりであり、
Figure 2021514092
ただし、
Figure 2021514092
は、張正友較正法で現在の装置を較正することで得られるものである。位置合わせされた二次元人体骨格S及び三次元人体骨格Sについて、最適化公式は、以下のとおりであり、
Figure 2021514092
最適化されたR及びTを決定してから、三次元位置情報を補正することができる。例えば、
Figure 2021514092
によりPを得て、更に位置姿勢を決定することができる。
本出願の実施例において、ビデオデータを画像データとして利用してもよいため、R及びTの最適化操作を行う時、前の1フレームのR及びTを、後の1フレームの初期値として用い、最適化の精度を更に向上させる。
要するに、本出願の実施例は、装置パラメータを利用して画像における対象の位置姿勢検出を実行する。異なるパラメータによる姿勢検出への影響を無くし、位置姿勢検出の精度を向上させると共に、本出願の実施例は、第1位置情報と三次元位置情報との差異を利用して、三次元位置情報を調整するための補正パラメータを決定し、位置姿勢の検出精度を更に向上させることができる。
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、同業者であれば理解すべきである。
図11は、本出願の実施例による位置姿勢検出装置を示すブロック図である。前記装置は、
撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定するように構成される第1決定モジュール10と、
第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定するように構成される第2決定モジュール20であって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含む第2決定モジュール20と、
前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される第3決定モジュール30とを備えてもよい。
本出願の実施例において、前記第1決定モジュールは、
認識しようとする第1特徴部の情報を取得するように構成される情報取得ユニットと、
取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識するように構成される特徴認識ユニットと、
確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定するように構成される二次元位置決定ユニットとを備える。
本出願の実施例において、前記第2決定モジュールは、
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定するように構成される三次元位置決定ユニットとを備える。
本出願の実施例において、前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得て、前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定し、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得るように構成される。
本出願の実施例において、前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行い、歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得るように構成される。
本出願の実施例において、前記正規化ユニットは更に、第1式を利用して前記第1位置情報に対して前記歪み除去処理を行うように構成され、第1式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
は、x軸における撮像装置の焦点距離であり、
Figure 2021514092
は、y軸における撮像装置の焦点距離であり、
Figure 2021514092
は、それぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、
Figure 2021514092
はそれぞれ、撮像装置の径方向歪みパラメータであり、
Figure 2021514092
は、撮像装置の接線方向歪みパラメータであり、x及びyはそれぞれ、第1位置情報の横座標値及び縦座標値であり、u及びvはそれぞれ、歪み処理後の横座標値及び縦座標値である。
本出願の実施例において、前記正規化ユニットは更に、第2式を利用して、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行うように構成され、前記第2式は下記の通りである。
Figure 2021514092
ただし、s及びtはそれぞれ、第2位置情報の横座標及び縦座標を表し、
Figure 2021514092
はそれぞれ、i番目の第1特徴の第3位置情報の横座標値及び縦座標値を表し、mean関数は、平均値関数であり、std関数は、分散関数であり、iは正整数である。
本出願の実施例において、前記三次元位置決定ユニットは更に、深層学習モデルを含む所定のモデルを利用して前記第1特徴部の第2位置情報に基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を取得するように構成される。
本出願の実施例において、前記第2決定モジュールは、
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定するように構成される三次元位置決定ユニットと、
前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得るように構成される逆正規化ユニットとを備える。
本出願の実施例において、前記逆正規化ユニットは更に、第3式を利用して前記第4位置情報に対して逆正規化処理を行い、三次元位置情報を得るように構成され、前記第3式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
はそれぞれ、三次元位置情報の3つの座標値を表し、X、Y及びZはそれぞれ、第4位置情報の3つの座標値を表し、stdは分散関数を表し、meanは平均値関数を表す。
本出願の実施例において、前記第3決定モジュールは、
前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定するように構成される補正パラメータ決定ユニットと、
前記補正パラメータに基づいて前記三次元位置情報を補正するように構成される補正ユニットと、
補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される位置姿勢決定ユニットとを備える。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換し、
前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整し、
前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定するように構成される。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、第4式により、回転行列及び平行移動行列を利用して前記三次元位置情報を二次元形態の第5位置情報に変換するように構成され、前記第4式は下記の通りである。
Figure 2021514092
ただし、
Figure 2021514092
は、撮像装置のx軸における焦点距離であり、
Figure 2021514092
は、撮像装置のy軸における焦点距離であり、
Figure 2021514092
はそれぞれ、撮像装置の光学中心座標位置の横座標値及び縦座標値であり、Sは、第5位置情報であり、Sは、三次元位置情報である。
本出願の実施例において、前記補正パラメータ決定ユニットは更に、最適化モデルを利用して前記回転行列及び平行移動行列のフィードバック調整を行うように構成され、前記最適化モデルの数式は下記の通りである。
Figure 2021514092
ただし、arg min関数は、差異最小化関数を表し、Sは第2位置情報を表す。
本出願の実施例において、前記補正ユニットは更に、第5式を利用して前記三次元位置情報を補正するように構成され、前記第5式は、下記の通りである。
Figure 2021514092
ただし、Pは、補正前の三次元位置情報であり、P’は、補正後の三次元位置情報であり、Rは、回転行列であり、Tは、平行移動行列である。
本出願の実施例において、前記第3決定ユニットは、
前記第1特徴部の第1識別子及び第2特徴部の第2識別子に基づいて、前記第2特徴部に含まれる少なくとも1つの第1特徴部を決定するように構成される整合ユニットを更に備える。
本出願の実施例において、前記装置は、
ターゲット画像を取得するように構成される画像取得モジュールと、
前記ターゲット画像におけるターゲット対象を認識するように構成される対象認識モジュールとを更に備える。
本出願の実施例において、前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含む。
幾つかの実施例において、本出願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は放棄方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
本出願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、上記方法を実現させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。
本出願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能な命令を記憶するためのメモリとを備え、前記プロセッサは、上記方法を実行するように構成される。
本出願の実施例は、コンピュータプログラムを更に提供する。該コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、上記方法を実行する。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図12は一例示的な実施例による電子機器800を示すブロック図である。例えば、電子機器800は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。
図12を参照すると、電子機器800は、処理ユニット802、メモリ804、電源ユニット806、マルチメディアユニット808、オーディオユニット810、入力/出力(I/O)インタフェース812、センサユニット814及び通信ユニット816のうちの1つ又は複数を備えてもよい。
処理ユニット802は一般的には、電子機器800の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット802は、指令を実行するための1つ又は複数のプロセッサ820を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット802は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット802はマルチメディアモジュールを備えることで、マルチメディアユニット808と処理ユニット802とのインタラクションに寄与する。
メモリ804は、各種のデータを記憶することで電子機器800における操作をサポートするように構成される。これらのデータの例として、電子機器800上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ804は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
電源ユニット806は電子機器800の様々なユニットに電力を提供する。電源ユニット806は、電源管理システム、1つ又は複数の電源、及び電子機器800のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
マルチメディアユニット808は、上記電子機器800とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット808は、フロントカメラ及び/又はリアカメラを備える。電子機器800が、撮影モード又は映像モードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
オーディオユニット810は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット810は、マイクロホン(MIC)を備える。電子機器800が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ804に記憶するか、又は通信ユニット816を経由して送信することができる。幾つかの実施例において、オーディオユニット810は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
I/Oインタフェース812は、処理ユニット802と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
センサユニット814は、1つ又は複数のセンサを備え、電子機器800のために様々な状態の評価を行うように構成される。例えば、センサユニット814は、収音音量制御用装置のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器800のディスプレイ及びキーパッドである。センサユニット814は電子機器800又は電子機器800における1つのユニットの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の位置方向又は加速/減速及び電子機器800の温度の変動を検出することもできる。センサユニット814は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット814は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット814は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
通信ユニット816は、電子機器800と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器800は、WiFi、2G又は3G又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット816は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット816は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
例示的な実施例において、電子機器800は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
例示的な実施例において、コンピュータプログラム命令を記憶したメモリ804のような非一時的コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器800のプロセッサ820により実行され上記方法を完了する。
図13は、本出願の実施例によるもう1つの電子機器を示すブロック図である。例えば、電子機器1900は、サーバとして提供されてもよい。図13を参照すると、電子機器1900は、処理ユニット1922を備える。ぞれは1つ又は複数のプロセッサと、メモリ1932で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット1922により実行される命令を記憶するためのものである。メモリ1932に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット1922は、命令を実行して、上記方法を実行するように構成される。
電子機器1900は、電子機器1900の電源管理を実行するように構成される電源ユニット1926と、電子機器1900をネットワークに接続するように構成される有線又は無線ネットワークインタフェース1950と、入力出力(I/O)インタフェース1958を更に備えてもよい。電子機器1900は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)TM, Linux(登録商標)TM、FreeBSDTM又は類似したものような、メモリ1932に記憶されているオペレーティングシステムを実行することができる。
例示的な実施例において、例えば、コンピュータプログラム命令を含むメモリ1932のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器1900の処理ユニット1922により実行されて上記方法を完了する。
本出願は、システム、方法及び/又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。
コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、デジタル多目的ディスク(DVD)、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。
ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング/処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び/又はエッジサーバを含んでもよい。各コンピューティング/処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング/処理装置におけるコンピュータ可読記憶媒体に記憶する。
本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は1つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Smalltalk、C++などのようなオブジェクト指向プログラミング言語と、「C」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる(例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する)。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)又はプログラマブル論理アレイ(PLA)のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。
ここで、本出願の実施例の方法、装置(システム)及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び/又はブロック図の各ブロック及びフローチャート及び/又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び/又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図おける1つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。
コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び/又はブロック図における1つ又は複数のブロック中で規定している機能/操作を実現させる。
図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、1つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。
以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術への改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。
本出願の実施例の第5態様によれば、コンピュータプログラム製品を提供し、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行される時、前記電子機器におけるプロセッサは、第1態様のいずれか一項に記載の方法を実行する。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
位置姿勢検出方法であって、
撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することと、
第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含むことと、
前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することと、を含む、位置姿勢検出方法。
(項目2)
ターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することは、
認識しようとする第1特徴部の情報を取得することと、
取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識することと、
確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定することと、を含むことを特徴とする
項目1に記載の方法。
(項目3)
第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、
記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、
前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定することと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目4)
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることは、
前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることと、
前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定することと、
前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得ることと、を含むことを特徴とする
項目3に記載の方法。
(項目5)
前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることは、
前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行うことと、
歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることと、を含むことを特徴とする
項目4に記載の方法。
(項目6)
第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、
前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定することと、
前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得ることと、を含むことを特徴とする
項目1又は2に記載の方法。
(項目7)
前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて前記ターゲット対象の空間的位置姿勢を決定することは、
前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することと、
前記補正パラメータに基づいて前記三次元位置情報を補正することと、
補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することと、を含むことを特徴とする
項目1−6のいずれか一項に記載の方法。
(項目8)
前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することは、
回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換すること、
前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整することと、
前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定することと、を含むことを特徴とする
項目7に記載の方法
(項目9)
前記方法は、
ターゲット画像を取得することと、
前記ターゲット画像におけるターゲット対象を認識することと、を更に含むことを特徴とする
項目1−8のいずれか一項に記載の方法。
(項目10)
前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含むことを特徴とする
項目1−9のいずれか一項に記載の方法。
(項目11)
位置姿勢検出装置であって、
撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定するように構成される第1決定モジュールと、
第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定するように構成される第2決定モジュールであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含む第2決定モジュールと、
前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される第3決定モジュールと、を備える、位置姿勢検出装置。
(項目12)
前記第1決定モジュールは、
認識しようとする第1特徴部の情報を取得するように構成される情報取得ユニットと、
取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識するように構成される特徴認識ユニットと、
確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定するように構成される二次元位置決定ユニットと、を備えることを特徴とする
項目11に記載の装置。
(項目13)
前記第2決定モジュールは、
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定するように構成される三次元位置決定ユニットと、を備えることを特徴とする
項目11又は12に記載の装置。
(項目14)
前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得て、前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定し、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得るように構成されることを特徴とする
項目13に記載の装置。
(項目15)
前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行い、歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得るように構成されることを特徴とする
項目14に記載の装置。
(項目16)
前記第2決定モジュールは、
前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定するように構成される三次元位置決定ユニットと、
前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得るように構成される逆正規化ユニットと、を備えることを特徴とする
項目11又は12に記載の装置。
(項目17)
前記第3決定モジュールは、
前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定するように構成される補正パラメータ決定ユニットと、
前記補正パラメータに基づいて前記三次元位置情報を補正するように構成される補正ユニットと、
補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される位置姿勢決定ユニットと、を備えることを特徴とする
項目11−16のいずれか一項に記載の装置。
(項目18)
前記補正パラメータ決定ユニットは更に、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換し、
前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整し、
前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定するように構成されることを特徴とする
項目17に記載の装置。
(項目19)
前記装置は、
ターゲット画像を取得するように構成される画像取得モジュールと、
前記ターゲット画像におけるターゲット対象を認識するように構成される対象認識モジュールと、を更に備えることを特徴とする
項目11−18のいずれか一項に記載の装置。
(項目20)
前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含むことを特徴とする
項目11−19のいずれか一項に記載の装置。
(項目21)
電子機器であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
前記プロセッサは、項目1から11のいずれか一項に記載の方法を実行するように構成される、電子機器。
(項目22)
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、項目1から10のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
(項目23)
コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサは、項目1−10のいずれか一項に記載の方法を実行する、コンピュータプログラム。

Claims (23)

  1. 位置姿勢検出方法であって、
    撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することと、
    第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含むことと、
    前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することと、を含む、位置姿勢検出方法。
  2. ターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定することは、
    認識しようとする第1特徴部の情報を取得することと、
    取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識することと、
    確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定することと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、
    記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、
    前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定することと、を含むことを特徴とする
    請求項1又は2に記載の方法。
  4. 前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることは、
    前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることと、
    前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定することと、
    前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得ることと、を含むことを特徴とする
    請求項3に記載の方法。
  5. 前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることは、
    前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行うことと、
    歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得ることと、を含むことを特徴とする
    請求項4に記載の方法。
  6. 第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定することは、
    前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得ることと、
    前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定することと、
    前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得ることと、を含むことを特徴とする
    請求項1又は2に記載の方法。
  7. 前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて前記ターゲット対象の空間的位置姿勢を決定することは、
    前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することと、
    前記補正パラメータに基づいて前記三次元位置情報を補正することと、
    補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定することと、を含むことを特徴とする
    請求項1−6のいずれか一項に記載の方法。
  8. 前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定することは、
    回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換すること、
    前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整することと、
    前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定することと、を含むことを特徴とする
    請求項7に記載の方法
  9. 前記方法は、
    ターゲット画像を取得することと、
    前記ターゲット画像におけるターゲット対象を認識することと、を更に含むことを特徴とする
    請求項1−8のいずれか一項に記載の方法。
  10. 前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含むことを特徴とする
    請求項1−9のいずれか一項に記載の方法。
  11. 位置姿勢検出装置であって、
    撮像装置により撮像されたターゲット画像におけるターゲット対象の少なくとも1つの第1特徴部の第1位置情報を決定するように構成される第1決定モジュールと、
    第1位置情報及び前記撮像装置の装置パラメータに基づいて、前記ターゲット対象の第2特徴部の三次元位置情報を決定するように構成される第2決定モジュールであって、前記第2特徴部が、前記少なくとも1つの第1特徴部を含む第2決定モジュールと、
    前記第2特徴部に含まれる少なくとも1つの第1特徴部の前記第1位置情報及び前記第2特徴部の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される第3決定モジュールと、を備える、位置姿勢検出装置。
  12. 前記第1決定モジュールは、
    認識しようとする第1特徴部の情報を取得するように構成される情報取得ユニットと、
    取得した第1特徴部の情報に基づいて、前記ターゲット対象における前記少なくとも1つの第1特徴部を認識するように構成される特徴認識ユニットと、
    確立された二次元座標系に基づいて、前記少なくとも1つの第1特徴部の第1位置情報を決定するように構成される二次元位置決定ユニットと、を備えることを特徴とする
    請求項11に記載の装置。
  13. 前記第2決定モジュールは、
    前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
    前記第2位置情報を利用して前記第2特徴部の三次元位置情報を決定するように構成される三次元位置決定ユニットと、を備えることを特徴とする
    請求項11又は12に記載の装置。
  14. 前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得て、前記少なくとも1つの第1特徴部の第3位置情報の平均値及び分散を決定し、前記平均値及び分散に基づいて、前記第3位置情報に対して第2正規化処理を行い、前記第2位置情報を得るように構成されることを特徴とする
    請求項13に記載の装置。
  15. 前記正規化ユニットは更に、前記装置パラメータを利用して前記第1位置情報に対して歪み除去処理を行い、歪み除去処理後の第1位置情報に対して第1正規化処理を行い、前記少なくとも1つの第1特徴部の第3位置情報を得るように構成されることを特徴とする
    請求項14に記載の装置。
  16. 前記第2決定モジュールは、
    前記撮像装置の装置パラメータに基づいて、前記第1位置情報を正規化処理し、第2位置情報を得るように構成される正規化ユニットと、
    前記第2位置情報を利用して前記第2特徴部の三次元形態の第4位置情報を決定するように構成される三次元位置決定ユニットと、
    前記第4位置情報に対して逆正規化処理を行い、第2特徴部の三次元位置情報を得るように構成される逆正規化ユニットと、を備えることを特徴とする
    請求項11又は12に記載の装置。
  17. 前記第3決定モジュールは、
    前記第2特徴部に含まれる第1特徴部の第1位置情報、及び該含まれる第1特徴部に対応する、第2特徴部における三次元位置情報に基づいて、補正パラメータを決定するように構成される補正パラメータ決定ユニットと、
    前記補正パラメータに基づいて前記三次元位置情報を補正するように構成される補正ユニットと、
    補正後の三次元位置情報に基づいて、前記ターゲット対象の空間的位置姿勢を決定するように構成される位置姿勢決定ユニットと、を備えることを特徴とする
    請求項11−16のいずれか一項に記載の装置。
  18. 前記補正パラメータ決定ユニットは更に、回転行列及び平行移動行列を利用して前記第1特徴部の第2特徴部における前記三次元位置情報を二次元形態の第5位置情報に変換し、
    前記第5位置情報と、第1位置情報の正規化処理により得られた第2位置情報との差異に基づいて、前記差異が所定の要件を満たすまで、前記回転行列及び平行移動行列を繰返してフィードバック調整し、
    前記差異が所定の要件を満たす時の回転行列及び平行移動行列に基づいて、前記補正パラメータを決定するように構成されることを特徴とする
    請求項17に記載の装置。
  19. 前記装置は、
    ターゲット画像を取得するように構成される画像取得モジュールと、
    前記ターゲット画像におけるターゲット対象を認識するように構成される対象認識モジュールと、を更に備えることを特徴とする
    請求項11−18のいずれか一項に記載の装置。
  20. 前記第1特徴部は、頭部、頸部、肩部、肘部、手首部、股関節部、膝部、足首部のうちの少なくとも1つを含むことを特徴とする
    請求項11−19のいずれか一項に記載の装置。
  21. 電子機器であって、
    プロセッサと、
    プロセッサによる実行可能な命令を記憶するためのメモリと、を備え、
    前記プロセッサは、請求項1から11のいずれか一項に記載の方法を実行するように構成される、電子機器。
  22. コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体にはコンピュータプログラム命令が記憶されており、前記コンピュータプログラム命令がプロセッサにより実行される時、請求項1から10のいずれか一項に記載の方法を実現させる、コンピュータ可読記憶媒体。
  23. コンピュータプログラムであって、前記コンピュータプログラムが電子機器で実行される時、前記電子機器におけるプロセッサは、請求項1−10のいずれか一項に記載の方法を実行する、コンピュータプログラム。
JP2020558949A 2018-08-20 2019-06-28 位置姿勢検出方法及び装置、電子機器並びに記憶媒体 Active JP7074888B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201810950565.4 2018-08-20
CN201810949860.8 2018-08-20
CN201810949860.8A CN109241875B (zh) 2018-08-20 2018-08-20 姿态检测方法及装置、电子设备和存储介质
CN201810950565.4A CN109284681B (zh) 2018-08-20 2018-08-20 位姿检测方法及装置、电子设备和存储介质
PCT/CN2019/093697 WO2020038111A1 (zh) 2018-08-20 2019-06-28 位姿检测方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021514092A true JP2021514092A (ja) 2021-06-03
JP7074888B2 JP7074888B2 (ja) 2022-05-24

Family

ID=69592423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020558949A Active JP7074888B2 (ja) 2018-08-20 2019-06-28 位置姿勢検出方法及び装置、電子機器並びに記憶媒体

Country Status (7)

Country Link
US (1) US11107239B2 (ja)
EP (1) EP3770803A4 (ja)
JP (1) JP7074888B2 (ja)
KR (1) KR102324001B1 (ja)
MY (1) MY188075A (ja)
SG (1) SG11202010514SA (ja)
WO (1) WO2020038111A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210312236A1 (en) * 2020-03-30 2021-10-07 Cherry Labs, Inc. System and method for efficient machine learning model training
US11366983B2 (en) * 2020-09-09 2022-06-21 International Business Machines Corporation Study-level multi-view processing system
KR102282730B1 (ko) * 2020-12-16 2021-07-29 주식회사 버넥트 객체 맞춤형 영상특징 검출 알고리즘 기반의 객체검출 및 자세추정을 수행하는 방법 및 그 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238222A (ja) * 2010-04-30 2011-11-24 Liberovision Ag 多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法、仮想画像をレンダリングするためのコンピュータ実行方法、およびソース画像セグメントのセグメント化を決定するためのコンピュータ実行方法
JP2015090560A (ja) * 2013-11-05 2015-05-11 キヤノン株式会社 画像処理装置、画像処理方法
JP2018055589A (ja) * 2016-09-30 2018-04-05 セイコーエプソン株式会社 プログラム、物体の追跡方法、表示装置
JP2018067115A (ja) * 2016-10-19 2018-04-26 セイコーエプソン株式会社 プログラム、追跡方法、追跡装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251078A (ja) 1998-12-22 2000-09-14 Atr Media Integration & Communications Res Lab 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置
JP4501937B2 (ja) 2004-11-12 2010-07-14 オムロン株式会社 顔特徴点検出装置、特徴点検出装置
US7848548B1 (en) * 2007-06-11 2010-12-07 Videomining Corporation Method and system for robust demographic classification using pose independent model from sequence of face images
CN101339607B (zh) 2008-08-15 2012-08-01 北京中星微电子有限公司 人脸识别方法及系统、人脸识别模型训练方法及系统
CN101441769A (zh) * 2008-12-11 2009-05-27 上海交通大学 单目摄像机实时视觉定位方法
CN101876532B (zh) 2010-05-25 2012-05-23 大连理工大学 测量系统中的摄像机现场标定方法
CN101839692B (zh) 2010-05-27 2012-09-05 西安交通大学 单相机测量物体三维位置与姿态的方法
US8488888B2 (en) * 2010-12-28 2013-07-16 Microsoft Corporation Classification of posture states
US8717418B1 (en) * 2011-02-08 2014-05-06 John Prince Real time 3D imaging for remote surveillance
GB2506338A (en) * 2012-07-30 2014-04-02 Sony Comp Entertainment Europe A method of localisation and mapping
US8805057B2 (en) * 2012-07-31 2014-08-12 Mitsubishi Electric Research Laboratories, Inc. Method and system for generating structured light with spatio-temporal patterns for 3D scene reconstruction
CN105103164B (zh) * 2013-03-21 2019-06-04 皇家飞利浦有限公司 基于视图分类的模型初始化
CN108647631B (zh) 2013-06-28 2023-04-07 日本电气株式会社 人群状态识别设备、方法和计算机可读记录介质
US9798388B1 (en) * 2013-07-31 2017-10-24 Aquifi, Inc. Vibrotactile system to augment 3D input systems
CN103777754B (zh) * 2014-01-10 2017-01-11 上海大学 基于双目红外视觉的手部运动跟踪装置和方法
US9740924B1 (en) * 2014-09-26 2017-08-22 Amazon Technologies, Inc. Feature-based pose detection
GB2536493B (en) * 2015-03-20 2020-11-18 Toshiba Europe Ltd Object pose recognition
CN105235451B (zh) 2015-10-22 2017-03-29 四川膨旭科技有限公司 具有胎压监测功能的驾驶人视觉识别系统
US10082866B2 (en) * 2016-04-12 2018-09-25 International Business Machines Corporation Gaze point detection using dynamic facial reference points under varying lighting conditions
EP4131172A1 (en) 2016-09-12 2023-02-08 Dassault Systèmes Deep convolutional neural network for 3d reconstruction of a real object
CN106346485B (zh) * 2016-09-21 2018-12-18 大连理工大学 基于人手运动姿态学习的仿生机械手的非接触式控制方法
DE102016221123A1 (de) * 2016-10-26 2018-04-26 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zum Betreiben eines Anzeigesystems mit einer Datenbrille
KR102647351B1 (ko) * 2017-01-26 2024-03-13 삼성전자주식회사 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치
US10600203B2 (en) * 2017-06-06 2020-03-24 CapSen Robotics, Inc. Three-dimensional scanner with detector pose identification
CN107491751B (zh) * 2017-08-14 2020-06-09 成都伞森科技有限公司 坐姿分析方法及装置
CN108177143B (zh) 2017-12-05 2021-08-10 上海工程技术大学 一种基于激光视觉引导的机器人定位抓取方法及系统
CN108230397B (zh) 2017-12-08 2021-04-02 深圳市商汤科技有限公司 多目摄像机标定与校正方法和装置、设备、程序和介质
US20190239850A1 (en) * 2018-02-06 2019-08-08 Steven Philip Dalvin Augmented/mixed reality system and method for the guidance of a medical exam
CN109284681B (zh) * 2018-08-20 2020-11-27 北京市商汤科技开发有限公司 位姿检测方法及装置、电子设备和存储介质
CN109241875B (zh) * 2018-08-20 2020-08-25 北京市商汤科技开发有限公司 姿态检测方法及装置、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011238222A (ja) * 2010-04-30 2011-11-24 Liberovision Ag 多関節オブジェクトモデルのポーズを推定するためのコンピュータ実行方法、仮想画像をレンダリングするためのコンピュータ実行方法、およびソース画像セグメントのセグメント化を決定するためのコンピュータ実行方法
JP2015090560A (ja) * 2013-11-05 2015-05-11 キヤノン株式会社 画像処理装置、画像処理方法
JP2018055589A (ja) * 2016-09-30 2018-04-05 セイコーエプソン株式会社 プログラム、物体の追跡方法、表示装置
JP2018067115A (ja) * 2016-10-19 2018-04-26 セイコーエプソン株式会社 プログラム、追跡方法、追跡装置

Also Published As

Publication number Publication date
MY188075A (en) 2021-11-16
EP3770803A1 (en) 2021-01-27
US20210090288A1 (en) 2021-03-25
KR20200135998A (ko) 2020-12-04
SG11202010514SA (en) 2020-11-27
WO2020038111A1 (zh) 2020-02-27
KR102324001B1 (ko) 2021-11-09
US11107239B2 (en) 2021-08-31
JP7074888B2 (ja) 2022-05-24
EP3770803A4 (en) 2021-06-02

Similar Documents

Publication Publication Date Title
CN109284681B (zh) 位姿检测方法及装置、电子设备和存储介质
JP7074888B2 (ja) 位置姿勢検出方法及び装置、電子機器並びに記憶媒体
US11163373B2 (en) Method and electronic device of gesture recognition
JP6944051B2 (ja) キーポイント検出方法及び装置、電子機器並びに記憶媒体
CN108229332B (zh) 骨骼姿态确定方法、装置及计算机可读存储介质
US11074466B2 (en) Anti-counterfeiting processing method and related products
JP2022531188A (ja) 人体キーポイント検出方法及び装置、電子機器並びに記憶媒体
JP2021519474A (ja) ビデオ処理方法及び装置、電子機器並びに記憶媒体
CN105205479A (zh) 人脸颜值评估方法、装置及终端设备
CN109685915B (zh) 一种图像处理方法、装置及移动终端
JP2016531361A (ja) 画像分割方法、画像分割装置、画像分割デバイス、プログラム及び記録媒体
CN109241875B (zh) 姿态检测方法及装置、电子设备和存储介质
WO2020088092A1 (zh) 关键点位置确定方法、装置及电子设备
CN103970500A (zh) 一种图片显示的方法及装置
CN108498102B (zh) 康复训练方法及装置、存储介质、电子设备
CN104123741A (zh) 生成人脸素描的方法和装置
CN111031234B (zh) 一种图像处理方法及电子设备
CN108475119B (zh) 信息处理设备、信息处理方法、以及包含程序的计算机可读记录介质
US20210076150A1 (en) Selecting spatial locations for audio personalization
US20220245403A1 (en) Method and apparatus for upgrading intelligent model, electronic device and non-transitory computer readable storage medium
WO2023137923A1 (zh) 基于姿态指导的行人重识别方法、装置、设备及存储介质
CN115601316A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114299905A (zh) 路径补偿函数确定方法及装置、主动降噪方法及装置
CN109257543B (zh) 拍摄模式控制方法及移动终端
CN113017941A (zh) 机械臂作用力交互控制方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201022

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201022

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220512

R150 Certificate of patent or registration of utility model

Ref document number: 7074888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150