JP7228650B2 - 人体3dキー点検出方法、モデル訓練方法及び関連装置 - Google Patents

人体3dキー点検出方法、モデル訓練方法及び関連装置 Download PDF

Info

Publication number
JP7228650B2
JP7228650B2 JP2021145433A JP2021145433A JP7228650B2 JP 7228650 B2 JP7228650 B2 JP 7228650B2 JP 2021145433 A JP2021145433 A JP 2021145433A JP 2021145433 A JP2021145433 A JP 2021145433A JP 7228650 B2 JP7228650 B2 JP 7228650B2
Authority
JP
Japan
Prior art keywords
human body
coordinate
key point
target
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021145433A
Other languages
English (en)
Other versions
JP2021192294A (ja
Inventor
慶月 孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192294A publication Critical patent/JP2021192294A/ja
Application granted granted Critical
Publication of JP7228650B2 publication Critical patent/JP7228650B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

本願は、画像処理技術、特にコンピュータビジョン技術及び拡張現実技術の分野に関し、具体的に人体3D(three-dimensional)キー点検出方法、モデル訓練方法及び関連装置に関する。
インターネット技術の発達及びヒューマンマシンインタラクションの応用の普及に伴い、人体キー点の取得の応用価値もますます高くなっている。例えば一部の体感ゲーム、人体行動分析、仮想キャラクタアバター(avatar)の駆動等の分野では、人体キー点の応用を必要とすることがあり得る。
人体キー点に対する深層学習技術とは、人体画像を入力して、深層学習モデルによる推定を通じて、所定の人体キー点を出力する技術を指す。現在、人体3Dキー点の検出方式としては、通常、深層学習モデルに基づいてカラーRGB画像の特徴を認識して、人体3Dキー点を得るようにしている。
本開示は、人体3Dキー点検出方法、モデル訓練方法及び関連装置を提供する。
本開示の第一局面によれば、
第一人体画像データが含まれる検出すべき画像を取得することと、
前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3D(three-dimensional)キー点のN個の第一3D熱分布図を得ることと、
前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定することとを含み、
第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である、人体3Dキー点検出方法を提供している。
本開示の第二局面によれば、
各々に第二人体画像データが含まれる複数の訓練画像を取得することと、
前記複数の訓練画像の各々について、前記訓練画像をキー点抽出モデルに入力して、前記第二人体画像データにおけるN個の人体3Dキー点のN個の第三3D熱分布図を得ることと、
前記N個の第三3D熱分布図に基づいて、前記第二人体画像データにおけるN個の人体3Dキー点の座標情報を確定することと、
前記第二人体画像データにおけるN個の人体3Dキー点の座標情報と前記第二人体画像データに対応する座標ラベル情報との差異情報を確定することと、
前記差異情報に基づいて、前記キー点抽出モデルを更新することとを含み、
第三3D熱分布図の各々は、前記第二人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である、モデル訓練方法を提供している。
本開示の第三局面によれば、
第一人体画像データが含まれる検出すべき画像を取得するための第一取得モジュールと、
前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3Dキー点のN個の第一3D熱分布図を得るための第一入力モジュールであって、第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である第一入力モジュールと、
前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定するための第一確定モジュールとを含む、人体3Dキー点検出装置を提供している。
本開示の第四局面によれば、
各々に第二人体画像データが含まれる複数の訓練画像を取得するための第二取得モジュールと、
前記複数の訓練画像の各々について、前記訓練画像をキー点抽出モデルに入力して、前記第二人体画像データにおけるN個の人体3Dキー点のN個の第三3D熱分布図を得るための第二入力モジュールであって、第三3D熱分布図の各々は、前記第二人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である第二入力モジュールと、
前記N個の第三3D熱分布図に基づいて、前記第二人体画像データにおけるN個の人体3Dキー点の座標情報を確定するための第二確定モジュールと、
前記第二人体画像データにおけるN個の人体3Dキー点の座標情報と前記第二人体画像データに対応する座標ラベル情報との差異情報を確定するための第三確定モジュールと、
前記差異情報に基づいて、前記キー点抽出モデルを更新するための更新モジュールとを含む、モデル訓練装置を提供している。
本開示の第五局面によれば、
少なくとも1つのプロセッサと、
少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
メモリには、少なくとも1つのプロセッサによって実行されることが可能な命令が記憶されており、当該命令が少なくとも1つのプロセッサによって実行されることで、少なくとも1つのプロセッサが、第一局面における何れか1つの方法、又は第二局面における何れか1つの方法を実行可能となる、電子機器を提供している。
本開示の第六局面によれば、コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、当該コンピュータ命令は、第一局面における何れか1つの方法、又は第二局面における何れか1つの方法をコンピュータに実行させるためのものである、コンピュータ読取可能な記憶媒体を提供している。
本願に係る技術によれば、人体3Dキー点検出技術に存在する比較的大きな誤差の問題を解決し、人体3Dキー点検出の精度を向上させている。
理解されたいのは、この部分で説明された内容は、本開示の実施例における肝心又は重要な特徴を認識することを意図せず、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の説明により理解され易くなるであろう。
図面は、本技術案をより好く理解するためのものであり、本願に対する制限を構成するものではない。
本願の第一実施例による人体3Dキー点検出方法のフロー模式図である。 本願の第一実施例の一具体例に係る人体3Dキー点検出方法のフロー模式図である。 人体3Dキー点の座標計算の模式図である。 本願の第二実施例によるモデル訓練方法のフロー模式図である。 本願の第三実施例による人体3Dキー点検出装置の構造模式図である。 本願の第四実施例によるモデル訓練装置の構造模式図である。 本願の実施例に係る方法を実現するための電子機器のブロック図である。
以下、図面を参照して本願の例示的な実施例を説明する。理解を助けるために、その中には、本願の実施例の様々な詳細を含むが、これらの詳細は、単に例示的なものであると理解されたい。したがって、当業者であれば、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を加えることができると認識すべきである。同様に、説明の明確化及び簡素化のために、以下の説明では、周知の機能及び構造についての記載が省略される。
第一実施例
図1に示すように、本願は、人体3Dキー点検出方法を提供しており、この方法は、以下のステップS101~S103を含む。
ステップS101:第一人体画像データが含まれる検出すべき画像を取得する。
本実施例において、人体3Dキー点検出方法は、画像処理技術、具体的にコンピュータビジョン技術及び拡張現実技術等の深層学習技術の分野に関するものであり、生放送、フィットネスの監督や指導、知能教育、人体行動分析、3D体感ゲーム等、多くのシーンに広く応用可能である。当該方法は、電子機器に適用可能であり、当該電子機器は、サーバであってもよいし、端末であってもよいが、ここでは、特に限定しない。
前記検出すべき画像は、リアルタイムに収集された画像、又は事前に保存された画像であってもよいし、他の機器から送信された画像であってもよく、或いは、ネットワークから取得された画像であってもよいが、ここでは、特に限定しない。
前記検出すべき画像に第一人体画像データが含まれ、前記第一人体画像データは、人体の比較的完全な画像データ、例えば人体の頭から足までが含まれる完全な画像データであってもよいし、人体の一部の画像データ、例えば人体の上半身が含まれる画像データであってもよいが、ここでは、特に限定しない。人体3Dキー点を比較的完全に検出するために、以下、前記第一人体画像データについて、人体の比較的完全な画像データを例として説明する。
また、前記第一人体画像データは、比較的鮮明でシールドがなく、且つ回転やスケーリング等の他の処理がなされていない人体画像データであってもよいし、顔のシールド等のシールド、顔のぼけ、又は体の回転等のある人体画像データであってもよいが、ここでは、特に限定しない。
例えば、携帯電話やパソコン等の機器を用いて、人体画像データが含まれる画像をリアルタイムに1枚収集し、当該画像に対して人体3Dキー点検出を行ってもよいし、以前に撮影されて機器に保存された画像であって、人体画像データが含まれる画像から1枚を取得し、当該画像に対して人体3Dキー点検出を行ってもよく、或いは、他の機器から送信された画像であって、人体画像データが含まれる画像を1枚受信し、当該画像に対して人体3Dキー点検出を行ってもよいが、勿論、ネットワークから、人体画像データが含まれる画像を1枚取得し、当該画像に対して人体3Dキー点検出を行ってもよい。
ステップS102:前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3D(three-dimensional)キー点のN個の第一3D熱分布図を得、第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である。
このステップにおいて、前記キー点抽出モデルが深層学習モデルとされて、フレームワークとして深層残差ネットワーク(ResNet)が使用され、その入力が画像とされるようにしてもよい。即ち、検出すべき画像をキー点抽出モデルに入力し、その出力を第一人体画像データにおけるN個の人体3Dキー点のN個の3D熱分布図にして、3D熱分布図の各々を1個の人体3Dキー点に対応させるようにすることが可能である。
3D熱分布図は、1個の人体3Dキー点の相対空間内での分布を表すことができ、例えば、人体画像データ内の左足首に対応するキー点について、当該キー点の3D熱分布図は、相対空間内で、左下隅の位置にあるように分布される可能性が比較的に大きいことで、当該位置の色が他の位置の色よりも深くされるのに対して、他の位置に分布される可能性が比較的に小さいことで、そこの色が比較的に浅くされるようにしてもよい。
更に例えば、人体画像データ内の頭部に対応するキー点について、当該キー点の3D熱分布図は、相対空間内で、頂部の中間位置にあるように分布される可能性が比較的に大きいことで、当該位置の色が他の位置の色よりも深くされるのに対して、他の位置に分布される可能性が比較的に小さいことで、そこの色が比較的に浅くされるようにしてもよい。
前記Nは、キー点抽出モデルのパラメータとして事前定義されてもよく、ハードウェア要件及びリソースが許せば、任意数量の人体3Dキー点の3D熱分布図が出力されてもよく、例えばNが16とされ、即ち16個の人体3Dキー点の3D熱分布図が出力される。
また、N個の人体3Dキー点の人体画像データ内での具体的な位置も、事前定義されてもよく、例えば、N個の人体3Dキー点の人体画像データ内での具体的な位置は、頭部、左右の手首、左右の腕、左右の足首、左右の膝等とされてもよい。
前記キー点抽出モデルの出力は、正規化された3D熱分布図であってもよいし、正規化された3D熱分布図ではなくてもよいが、ここでは、特に限定しない。
前記検出すべき画像をキー点抽出モデルに入力すると、N個の第一3D熱分布図を得ることができ、第一3D熱分布図は、第一3D熱分布図に対応する1個の人体3Dキー点のプリセット空間内でのガウス分布を表すことができ、即ち第一3D熱分布図は、正規化された3D熱分布図であり、1個の人体3Dキー点の前記プリセット空間内での分布確率を表すことができる。
つまり、キー点抽出モデルから出力された3D熱分布図が、正規化された3D熱分布図である場合、そのまま第一3D熱分布図を得ることができるのに対して、キー点抽出モデルから出力された3D熱分布図が、正規化された3D熱分布図でない場合、キー点抽出モデルから出力された3D熱分布図内のデータを正規化して、第一3D熱分布図を得る必要がある。
前記プリセット空間は、事前定義されてもよく、キー点抽出モデルのパラメータの1つとしてもよい。キー点抽出モデルは、一定の空間寸法の3D熱分布図を出力してもよい。例えば、前記プリセット空間が100×100×100とされてもよく、そうすれば、キー点抽出モデルからは、一定の空間寸法である100×100×100の3D熱分布図が出力される。
ステップS103:前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定する。
このステップにおいて、人体3Dキー点の各々に1つの座標情報が対応付けられており、前記座標情報は、空間座標系における座標であってもよく、前記空間座標系は、前記プリセット空間に基づいて確立可能であり、例えば、プリセット空間の左下隅の頂点を原点として空間座標系が確立されてもよい。
第一3D熱分布図の各々について、前記第一人体画像データにおける1個の人体3Dキー点の座標情報を確定してもよく、最終的には、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報が得られる。
第一3D熱分布図に基づいて人体3Dキー点の座標情報を確定するには、様々な方式があり得る。例えば、座標次元の各々については、第一3D熱分布図における当該座標次元に対応する2次元平面のデータの最大値に基づいて、人体3Dキー点の当該座標次元での座標値を確定してもよい。
例を挙げると、プリセット空間が100×100×100、空間座標系がX、Y及びZである場合、X軸方向の座標次元については、Y軸方向の座標次元とZ軸方向の座標次元とによって確定された2次元平面を100個含むことになり、2次元平面の各々には、人体3Dキー点の当該2次元平面上での分布確率を表すデータが含まれてもよい。
2次元平面の各々については、当該2次元平面上の最大のデータを取得してもよい。当該2次元平面上の最大のデータは、人体3Dキー点の当該2次元平面上での最大分布確率を表すことができるため、当該最大のデータを当該座標次元の座標候補値の1つとすることができる。当該座標次元上の100個の座標候補値を得てもよい。
最終的に、これらの100個の座標候補値のうち、最大の座標候補値を、人体3Dキー点のX軸方向の座標次元上での座標値として確定してもよい。それに対応して、人体3Dキー点の他の座標次元上での座標値については、その計算方式がX軸方向の座標次元上での座標値の計算方式と類似しているため、ここで繰り返して説明しない。
更に例えば、座標次元の各々については、第一3D熱分布図における当該座標次元に対応する2次元平面のデータの平均値に基づいて、人体3Dキー点の当該座標次元での座標値を確定してもよい。
この方式は、第一3D熱分布図における当該座標次元に対応する2次元平面のデータの最大値に基づいて人体3Dキー点の当該座標次元での座標値を確定する方式との違いとしては、該方式の座標次元上の座標候補値の取得手法が異なることにある。具体的に、引き続きX軸方向の座標次元を例とすると、この方式では、第一3D熱分布図における当該座標次元に対応する2次元平面のデータに対して平均値計算を行って、当該座標次元の座標候補値を1つ得てもよい。最終的には、得られた座標候補値に基づいて、N個の人体3Dキー点の座標情報が確定され得る。
図2を例として、本実施例に係る人体3Dキー点検出方法のフローを簡単に説明する。図2に示すように、検出すべき画像をキー点抽出モデルに入力すると、N個の第一3D熱分布図を得ることができ、N個の第一3D熱分布図に基づいて、第一人体画像データにおけるN個の人体3Dキー点のプリセット空間内での座標情報を確定することができる。
本実施例において、3D熱分布図の方式で、人体3Dキー点のプリセット空間内での分布確率を出力し、3D熱分布図に基づいて人体3Dキー点を確定することで、従来の深層学習モデルが2D座標と深層情報とを個別に出力する方式で人体3Dキー点を検出することによる誤差の影響を回避できるため、人体3Dキー点の検出精度を大幅に向上させることができる。
しかも、本実施例では、人体画像データが含まれる検出すべき画像を1枚取得すれば、人体3Dキー点の検出を行うことができるため、展開が容易で且つ低コストである。
選択的に、前記ステップS102は、
前記検出すべき画像をキー点抽出モデルに入力して、前記N個の人体3Dキー点のN個の第二3D熱分布図を出力することと、
第二3D熱分布図の各々について、前記第二3D熱分布図のデータを正規化して、前記N個の第一3D熱分布図を得ることとを具体的に含み、
前記第二3D熱分布図の空間寸法サイズは、前記プリセット空間となる。
本実施方式において、キー点抽出モデルから出力されるのは、正規化されていない3D熱分布図、即ち第二3D熱分布図である。
第二3D熱分布図が得られた後、ロジスティック回帰モデルであるsoftmax関数によって第二3D熱分布図における各々のデータを正規化してもよく、そうすれば、対応する第一3D熱分布図が得られる。勿論、第二3D熱分布図における各々のデータを、第二3D熱分布図におけるデータの最大値で除算することによっても、正規化が可能である。
本実施方式において、キー点抽出モデルによって第二3D熱分布図を出力し、第二3D熱分布図の各々について、前記第二3D熱分布図のデータを正規化して、前記N個の第一3D熱分布図を得るようにしている。こうして、キー点抽出モデルの設計を簡素化し、モデルの展開を容易にすることができる。
選択的に、前記N個の人体3Dキー点には、ターゲット人体3Dキー点が含まれ、前記ステップS103は、
前記ターゲット人体3Dキー点の3つの座標次元のうちのターゲット座標次元について、前記ターゲット人体3Dキー点に対応する第一3D熱分布図における前記ターゲット座標次元に対応する2次元平面のデータに基づいて平均値計算を行って、前記ターゲット座標次元の複数の座標候補値を得ることと、
前記ターゲット座標次元の複数の座標候補値のうち、最大の座標候補値を、前記ターゲット人体3Dキー点の前記ターゲット座標次元での座標値として確定することと、を具体的に含み、
前記ターゲット座標次元に対応する2次元平面は、前記3つの座標次元のうち、他の2つの座標次元によって確定される平面であり、
前記ターゲット人体3Dキー点の座標情報には、前記ターゲット人体3Dキー点の前記3つの座標次元での座標値が含まれ、
前記ターゲット人体3Dキー点は、前記N個の人体3Dキー点のうち、何れか1個の人体3Dキー点であり、前記ターゲット座標次元は、前記3つの座標次元のうち、何れか1つの座標次元である。
本実施方式において、前記3つの座標次元は、それぞれ、上記で言及されたX軸方向の座標次元、Y軸方向の座標次元及びZ軸方向の座標次元であってもよく、前記ターゲット座標次元は、これらの3つの座標次元のうち、何れか1つの座標次元であってもよい。
図3を参照して、図3は、人体3Dキー点の座標計算の模式図である。図3に示すように、X軸方向の座標次元については、Y軸方向の座標次元とZ軸方向の座標次元とによって確定された各々の2次元平面(YZ2次元平面と略してもよい)におけるデータの平均値を求めて、複数の座標候補値が得られる。
Y軸方向の座標次元については、X軸方向の座標次元とZ軸方向の座標次元とによって確定された各々の2次元平面(XZ2次元平面と略してもよい)におけるデータの平均値を求めて、複数の座標候補値が得られる。
Z軸方向の座標次元については、X軸方向の座標次元とY軸方向の座標次元とによって確定された各々の2次元平面(XY2次元平面と略してもよい)におけるデータの平均値を求めて、複数の座標候補値が得られる。
各座標次元の複数の座標候補値に対してそれぞれsoftargmax計算を行って、各座標次元の複数の座標候補値のうち、最大の座標候補値を確定すると、X軸方向の座標次元の座標値、Y軸方向の座標次元の座標値及びZ軸方向の座標次元の座標値がそれぞれ確定され、これらの座標値によって、人体3Dキー点の座標情報が構成される。
本実施方式において、座標次元の各々について、第一3D熱分布図における当該座標次元に対応する2次元平面のデータの平均値に基づいて、人体3Dキー点の当該座標次元での座標値を確定することで、人体3Dキー点の計算精度を向上させることができる。
第二実施例
図4に示すように、本願は、モデル訓練方法を提供しており、この方法は、
各々に第二人体画像データが含まれる複数の訓練画像を取得するステップS401と、
前記複数の訓練画像の各々について、前記訓練画像をキー点抽出モデルに入力して、前記第二人体画像データにおけるN個の人体3Dキー点のN個の第三3D熱分布図を得るステップであって、第三3D熱分布図の各々は、前記第二人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数であるステップS402と、
前記N個の第三3D熱分布図に基づいて、前記第二人体画像データにおけるN個の人体3Dキー点の座標情報を確定するステップS403と、
前記第二人体画像データにおけるN個の人体3Dキー点の座標情報と前記第二人体画像データに対応する座標ラベル情報との差異情報を確定するステップS404と、
前記差異情報に基づいて、前記キー点抽出モデルを更新するステップS405とを含む。
本実施例で説明されるのは、キー点抽出モデルの訓練手順であり、その目的が、より正確な3D熱分布図をキー点抽出モデルから出力させることにある。
ステップS401では、前記複数の訓練画像の何れにも、第二人体画像データが含まれ、前記第二人体画像データは、比較的鮮明でシールドがなく、且つ回転やスケーリング等の他の処理がなされていない人体画像データであってもよいし、顔のシールド等のシールド、顔のぼけ、又は体の回転等のある人体画像データであってもよいが、ここでは、特に限定しない。
説明すべきなのは、前記第二人体画像データと前記第一人体画像データとは、同じ概念であり、両者とも、画像における人体の画像データを示すものである。ただ、第一人体画像データは、検出すべき画像における人体画像データであるのに対して、第二人体画像データは、訓練画像における人体画像データであり、且つ検出すべき画像と訓練画像とは、その画像自体の内容が異なる可能性があるため、「第一」及び「第二」を用いて区別している。
前記ステップS402は、第一実施例におけるステップS102と類似し、前記ステップS403は、第一実施例におけるステップS103と類似しており、似ている部分について、本実施例では、繰り返して説明しない。
一方、違いとしては、前記キー点抽出モデルの場合、入力が訓練画像であり、出力が第二人体画像データにおけるN個の人体3Dキー点のN個の第三3D熱分布図であり、且つ各々の訓練画像に基づいて行われる操作が同じであることにある。以下、1つの訓練画像を例として説明する。
ステップS404及びステップS405では、各々の訓練画像における第二人体画像データについて、前記第二人体画像データにおけるN個の人体3Dキー点の座標ラベル情報を予め取得しておいてもよく、当該座標ラベル情報は、第二人体画像データにおけるN個の人体3Dキー点の座標の真理値であってもよい。
N個の第三3D熱分布図に基づいて確定された座標情報と座標ラベル情報とを対比し、回帰損失関数L1 Lossの式を用いて、両者の間の差異情報を下記式(1)に示すように計算してもよい。
Lossc=||Oc-Gc||1 (1)
上記式(1)において、Losscは、確定された座標情報と座標ラベル情報との差異情報を示し、Ocは、確定された座標情報を示し、Gcは、座標ラベル情報を示す。
キー点抽出モデルから出力された3D熱分布図によって確定された人体画像データにおける人体3Dキー点の座標情報とその座標ラベル情報との差異情報が、収束又は最小に達するまで、前記差異情報をキー点抽出モデルに返送して、キー点抽出モデルにおけるパラメータを更新する。収束又は最小に達するとき、キー点抽出モデルの訓練が完成し、それに基づいて人体3Dキー点の検出を行うことが可能となる。
本実施例において、訓練中に、キー点抽出モデルによって3D熱分布図を出力し、3D熱分布図に基づいて人体3Dキー点の座標情報を確定し、座標情報と座標ラベル情報との差異情報をキー点抽出モデルに返送して、キー点抽出モデルにパラメータを更新させる。こうして、そのまま3D熱分布図の方式で人体3Dキー点に対して回帰学習が行われ、キー点抽出モデルから、各々の人体3Dキー点のプリセット空間内での分布確率が出力され、人体3Dキー点の検出精度を大幅に向上させることができる。
選択的に、前記ステップS401は、
複数のターゲット訓練画像を取得することと、
前記複数のターゲット訓練画像に対してデータ強化処理を行って、前記複数の訓練画像を得ることとを具体的に含む。
本実施方式において、ターゲット訓練画像の何れにも、比較的完全で、比較的鮮明でシールドがなく、且つ回転やスケーリング等の他の処理がなされていない人体画像データが含まれ得る。
キー点抽出モデルの換算能力を向上させ、限られた画像データを用いて人体3Dキー点検出中に発生し得る状況をより多くシミュレートし、モデルの汎化能力を向上させるためには、前記複数のターゲット訓練画像に対してデータ強化処理を行って、前記複数の訓練画像を得てもよい。
ターゲット訓練画像の各々については、色空間、ランダムシールド、回転、混合背景及びスケーリング等のルールに準じてデータ強化処理を行ってもよい。
こうして、先ず、より多くの訓練画像データを取得できるため、限られた画像データを用いて人体3Dキー点検出中に発生し得る状況をより多くシミュレートでき、そして、キー点抽出モデルの換算能力を向上させ、モデルの汎化能力を向上させることもできる。
第三実施例
図5に示すように、本願は、人体3Dキー点検出装置500を提供しており、この装置は、
第一人体画像データが含まれる検出すべき画像を取得するための第一取得モジュール501と、
前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3Dキー点のN個の第一3D熱分布図を得るための第一入力モジュールであって、第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である第一入力モジュール502と、
前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定するための第一確定モジュール503とを含む。
選択的に、前記第一入力モジュール502は、
前記検出すべき画像をキー点抽出モデルに入力して、前記N個の人体3Dキー点のN個の第二3D熱分布図を出力するための入力ユニットであって、前記第二3D熱分布図の空間寸法サイズは、前記プリセット空間となる入力ユニットと、
第二3D熱分布図の各々について、前記第二3D熱分布図のデータを正規化して、前記N個の第一3D熱分布図を得るための正規化ユニットとを含む。
選択的に、前記N個の人体3Dキー点には、ターゲット人体3Dキー点が含まれ、前記第一確定モジュールは、
前記ターゲット人体3Dキー点の3つの座標次元のうちのターゲット座標次元について、前記ターゲット人体3Dキー点に対応する第一3D熱分布図における前記ターゲット座標次元に対応する2次元平面のデータに基づいて平均値計算を行って、前記ターゲット座標次元の複数の座標候補値を得るための計算ユニットであって、前記ターゲット座標次元に対応する2次元平面は、前記3つの座標次元のうち、他の2つの座標次元によって確定される平面である計算ユニットと、
前記ターゲット座標次元の複数の座標候補値のうち、最大の座標候補値を、前記ターゲット人体3Dキー点の前記ターゲット座標次元での座標値として確定するための確定ユニットであって、前記ターゲット人体3Dキー点の座標情報には、前記ターゲット人体3Dキー点の前記3つの座標次元での座標値が含まれる確定ユニットとを含み、
前記ターゲット人体3Dキー点は、前記N個の人体3Dキー点のうち、何れか1個の人体3Dキー点であり、前記ターゲット座標次元は、前記3つの座標次元のうち、何れか1つの座標次元である。
本願による人体3Dキー点検出装置500は、上記人体3Dキー点検出方法の実施例によって実現された各手順を実現できるとともに、同じ有益な効果を奏することできるが、重複を避けるため、ここで繰り返して説明しない。
第四実施例
図6に示すように、本願は、モデル訓練装置600を提供しており、この装置は、
各々に第二人体画像データが含まれる複数の訓練画像を取得するための第二取得モジュール601と、
前記複数の訓練画像の各々について、前記訓練画像をキー点抽出モデルに入力して、前記第二人体画像データにおけるN個の人体3Dキー点のN個の第三3D熱分布図を得るための第二入力モジュールであって、第三3D熱分布図の各々は、前記第二人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である第二入力モジュール602と、
前記N個の第三3D熱分布図に基づいて、前記第二人体画像データにおけるN個の人体3Dキー点の座標情報を確定するための第二確定モジュール603と、
前記第二人体画像データにおけるN個の人体3Dキー点の座標情報と前記第二人体画像データに対応する座標ラベル情報との差異情報を確定するための第三確定モジュール604と、
前記差異情報に基づいて、前記キー点抽出モデルを更新するための更新モジュール605とを含む。
選択的に、第二取得モジュール601は、
複数のターゲット訓練画像を取得するための取得ユニットと、
前記複数のターゲット訓練画像に対してデータ強化処理を行って、前記複数の訓練画像を得るためのデータ強化処理ユニットとを含む。
本願によるモデル訓練装置600は、上記モデル訓練方法の実施例によって実現された各手順を実現できるとともに、同じ有益な効果を奏することできるが、重複を避けるため、ここで繰り返して説明しない。
本願の実施例によれば、本願には、電子機器及び読取可能な記憶媒体が更に提供されている。
図7に、本願の実施例に係る方法による電子機器のブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークベンチ、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すことを目的としている。電子機器は、パーソナルデジタル処理、セルラフォン、スマートフォン、ウェアラブルデバイス、及びその他の同様のコンピューティング装置等、様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は単なる例であり、本明細書で説明及び/又は要求される本願の実現を制限することを意図するものではない。
図7に示すように、当該電子機器には、1つ又は複数のプロセッサ701と、メモリ702と、高速インターフェース及び低速インターフェースを含めて、様々なコンポーネントを接続するためのインターフェースとが含まれる。各コンポーネントは、異なるバスを使用して相互に接続され、且つ共通のマザーボードに取り付けられるか、或いは、必要に応じて他の方式で取り付けられてもよい。プロセッサは、外部入力/出力装置(例えば、インターフェースに結合された表示機器)にGUI(graphical user interface)のグラフィカル情報を表示するためにメモリに記憶された命令を含めて、電子機器内で実行される命令を処理することが可能である。他の実施例では、必要な場合、複数のプロセッサ及び/又は複数本のバスを複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続して、それぞれの機器が(例えば、サーバアレイ、1セットのブレードサーバ、又はマルチプロセッサシステムとして)、必要な操作の一部を提供するようにしてもよい。図7では、1つのプロセッサ701を例に挙げている。
メモリ702は、本願による非一時的なコンピュータ読取可能な記憶媒体である。前記メモリには、本願による人体3Dキー点検出方法又はモデル訓練方法を少なくとも1つのプロセッサに実行させるために、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読取可能な記憶媒体は、本願による人体3Dキー点検出方法又はモデル訓練方法をコンピュータに実行させるためのコンピュータ命令を記憶するものである。
メモリ702は、非一時的なコンピュータ読取可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本願の実施例における人体3Dキー点検出方法に対応するプログラム命令/モジュール(例として、図5に示す第一取得モジュール501、第一入力モジュール502及び第一確定モジュール503)、又は本願の実施例におけるモデル訓練方法に対応するプログラム命令/モジュール(例として、図6に示す第二取得モジュール601、第二入力モジュール602、第二確定モジュール603、第三確定モジュール604及び更新モジュール605)を記憶することができる。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能的アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における人体3Dキー点検出方法、又は上記方法の実施例におけるモデル訓練方法を実現する。
メモリ702は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、本願の実施例に係る方法による電子機器の使用に応じて作成されたデータ等を記憶することができる。また、メモリ702は、高速ランダムアクセスメモリを含んでもよいし、例えば少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステート記憶デバイス等の非一時的なメモリを含んでもよい。いくつかの実施例において、メモリ702は、プロセッサ701に対して遠隔に配置されたメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介して人体3Dキー点検出方法の電子機器、又はモデル訓練方法の電子機器に接続されることが可能である。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
本願の実施例に係る方法の電子機器は、入力装置703及び出力装置704を更に含んでもよい。プロセッサ701と、メモリ702と、入力装置703と、出力装置704とは、バス又は他の方式で接続可能であり、図7では、バスを介した接続が例示されている。
入力装置703は、入力された数字又は文字情報を受信し、本願の実施例に係る方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、小型キーパッド、マウス、トラックパネル、タッチパネル、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置704は、表示装置、補助照明装置(例えば、LED)、及び触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。当該表示装置は、液晶ディスプレイLCD(liquid crystal display)、発光ダイオードLED(light emitting diode)ディスプレイ、及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施例では、表示装置は、タッチスクリーンであってもよい。
本明細書において上述したシステム及び技術の様々な実行形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路ASIC(application specific integrated circuit)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現可能である。これらの様々な実施例は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈可能な1つ又は複数のコンピュータプログラムで実装されてもよく、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信可能な専用又は汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含んでもよく、そして、これらのコンピュータプログラムは、高レベル過程及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語で実装され得る。本明細書で使用される用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、プログラマブルプロセッサに機械命令及び/又はデータを提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置PLD(programmable logic device))を意味し、機械読取可能な信号としての機械命令を受信する機械読取可能な媒体を含む。「機械読取可能な信号」という用語とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、本明細書に記載のシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管CRT(cathode ray tube)又は液晶ディスプレイLCDモニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施されてもよく、ユーザは、当該キーボード及び当該ポインティング装置を介してコンピュータに入力を提供可能である。他の種類の装置を使用してユーザとのインタラクションを提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、任意の形式(音響入力、音声入力、又は触覚入力を含む)を用いてユーザからの入力を受信してもよい。
本明細書に記載のシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ。ユーザは、当該グラフィカルユーザインターフェース又は当該Webブラウザを介して、ここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネント、ミドルコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステム内で実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互接続してもよい。通信ネットワークの例としては、ローカルエリアネットワークLAN(local area network)、ワイドエリアネットワークWAN(wide area network)及びインターネットが含まれる。
コンピュータシステムは、クライアントとサーバとを含むことが可能である。一般的に、クライアントとサーバとは互いに離れており、通常は通信ネットワークを介してインタラクションする。それぞれのコンピュータで実行され且つ互いにクライアント-サーバの関係を持つコンピュータプログラムによってクライアントとサーバとの関係を生成する。サーバとしては、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略す)に存在する管理の困難さ及びサービスのスケーラビリティの弱さの欠点を解決するために、クラウドコンピューティングサーバとも呼ばれるクラウドサーバ、又は、クラウドコンピューティングサービスシステムにおけるホスト製品の1つとなるクラウドホストであってもよい。
本実施例において、3D熱分布図の方式で、人体3Dキー点のプリセット空間内での分布確率を出力し、3D熱分布図に基づいて人体3Dキー点を確定することで、従来の深層学習モデルが2D座標と深層情報とを個別に出力する方式で人体3Dキー点を検出することによる誤差の影響を回避できるため、人体3Dキー点の検出精度を大幅に向上させることができる。したがって、本願の実施例に係る技術案によれば、人体3Dキー点検出技術に存在する比較的大きな誤差の問題を好適に解決している。
なお、上記に示す様々な形態のフローを使用して、ステップを並べ替え、追加又は削除可能であることを理解されたい。例えば、本願で説明された各ステップは、並列、順次、又は異なる順序で実行可能である。本願で開示された技術案の望ましい結果を達成できればよく、本明細書は、これについて限定しない。
上記の具体的な実施形態は、本願の保護範囲に対する制限を構成するものではない。当業者でれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置き換えを行えることを理解するべきである。本願の精神及び原則内で行われた修正、同等の置き換え、及び改善は、何れも本願の保護範囲に含まれるものとする。

Claims (7)

  1. 第一人体画像データが含まれる検出すべき画像を取得することと、
    前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3D(three-dimensional)キー点のN個の第一3D熱分布図を得ることと、
    前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定することとを含み、
    第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数であ
    前記N個の人体3Dキー点には、ターゲット人体3Dキー点が含まれ、前記の前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定することは、
    前記ターゲット人体3Dキー点の3つの座標次元のうちのターゲット座標次元について、前記ターゲット人体3Dキー点に対応する第一3D熱分布図における前記ターゲット座標次元に対応する2次元平面のデータに基づいて平均値計算を行って、前記ターゲット座標次元の複数の座標候補値を得ることと、
    前記ターゲット座標次元の複数の座標候補値のうち、最大の座標候補値を、前記ターゲット人体3Dキー点の前記ターゲット座標次元での座標値として確定することと、を含み、
    前記ターゲット座標次元に対応する2次元平面は、前記3つの座標次元のうち、他の2つの座標次元によって確定される平面であり、
    前記ターゲット人体3Dキー点の座標情報には、前記ターゲット人体3Dキー点の前記3つの座標次元での座標値が含まれ、
    前記ターゲット人体3Dキー点は、前記N個の人体3Dキー点のうち、何れか1個の人体3Dキー点であり、前記ターゲット座標次元は、前記3つの座標次元のうち、何れか1つの座標次元である、
    人体3Dキー点検出方法。
  2. 前記の前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3Dキー点のN個の第一3D熱分布図を得ることは、
    前記検出すべき画像をキー点抽出モデルに入力して、前記N個の人体3Dキー点のN個の第二3D熱分布図を出力することと、
    第二3D熱分布図の各々について、前記第二3D熱分布図のデータを正規化して、前記N個の第一3D熱分布図を得ることとを含み、
    前記第二3D熱分布図の空間寸法サイズは、前記プリセット空間となる、請求項1に記載の方法。
  3. 第一人体画像データが含まれる検出すべき画像を取得するための第一取得モジュールと、
    前記検出すべき画像をキー点抽出モデルに入力して、前記第一人体画像データにおけるN個の人体三次元3Dキー点のN個の第一3D熱分布図を得るための第一入力モジュールであって、第一3D熱分布図の各々は、前記第一人体画像データにおける1個の人体3Dキー点のプリセット空間内でのガウス分布を表し、Nは正整数である第一入力モジュールと、
    前記N個の第一3D熱分布図に基づいて、前記第一人体画像データにおけるN個の人体3Dキー点の座標情報を確定するための第一確定モジュールとを含
    前記N個の人体3Dキー点には、ターゲット人体3Dキー点が含まれ、前記第一確定モジュールは、
    前記ターゲット人体3Dキー点の3つの座標次元のうちのターゲット座標次元について、前記ターゲット人体3Dキー点に対応する第一3D熱分布図における前記ターゲット座標次元に対応する2次元平面のデータに基づいて平均値計算を行って、前記ターゲット座標次元の複数の座標候補値を得るための計算ユニットであって、前記ターゲット座標次元に対応する2次元平面は、前記3つの座標次元のうち、他の2つの座標次元によって確定される平面である計算ユニットと、
    前記ターゲット座標次元の複数の座標候補値のうち、最大の座標候補値を、前記ターゲット人体3Dキー点の前記ターゲット座標次元での座標値として確定するための確定ユニットであって、前記ターゲット人体3Dキー点の座標情報には、前記ターゲット人体3Dキー点の前記3つの座標次元での座標値が含まれる確定ユニットとを含み、
    前記ターゲット人体3Dキー点は、前記N個の人体3Dキー点のうち、何れか1個の人体3Dキー点であり、前記ターゲット座標次元は、前記3つの座標次元のうち、何れか1つの座標次元である、
    人体3Dキー点検出装置。
  4. 前記第一入力モジュールは、
    前記検出すべき画像をキー点抽出モデルに入力して、前記N個の人体3Dキー点のN個の第二3D熱分布図を出力するための入力ユニットであって、前記第二3D熱分布図の空間寸法サイズは、前記プリセット空間となる入力ユニットと、
    第二3D熱分布図の各々について、前記第二3D熱分布図のデータを正規化して、前記N個の第一3D熱分布図を得るための正規化ユニットとを含む、請求項に記載の装置。
  5. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを含む電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行され得る命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが、請求項1又は2に記載の方法を実行可能となる、電子機器。
  6. コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、請求項1又は2に記載の方法を前記コンピュータに実行させるためのものである、コンピュータ読取可能な記憶媒体。
  7. コンピュータコマンドが含まれるコンピュータプログラムあって、
    前記コンピュータコマンドがプロセッサに実行されると、請求項1又は2に記載の方法を実行する、コンピュータプログラム
JP2021145433A 2020-11-09 2021-09-07 人体3dキー点検出方法、モデル訓練方法及び関連装置 Active JP7228650B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011238135.3A CN112270669B (zh) 2020-11-09 2020-11-09 人体3d关键点检测方法、模型训练方法及相关装置
CN202011238135.3 2020-11-09

Publications (2)

Publication Number Publication Date
JP2021192294A JP2021192294A (ja) 2021-12-16
JP7228650B2 true JP7228650B2 (ja) 2023-02-24

Family

ID=74339771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021145433A Active JP7228650B2 (ja) 2020-11-09 2021-09-07 人体3dキー点検出方法、モデル訓練方法及び関連装置

Country Status (3)

Country Link
US (1) US11816915B2 (ja)
JP (1) JP7228650B2 (ja)
CN (1) CN112270669B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840500B (zh) * 2019-01-31 2021-07-02 深圳市商汤科技有限公司 一种三维人体姿态信息检测方法及装置
CN113033485B (zh) * 2021-04-21 2024-07-26 上海容么么数字科技有限公司 关键点的检测方法和装置
CN113192043B (zh) * 2021-05-13 2022-07-01 杭州健培科技有限公司 基于多尺度拓扑图的医学关键点检测方法、装置及应用
CN114092963B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 关键点检测及模型训练方法、装置、设备和存储介质
CN114757822B (zh) * 2022-06-14 2022-11-04 之江实验室 一种基于双目的人体三维关键点检测方法及系统
CN115578451B (zh) * 2022-09-30 2024-01-23 北京百度网讯科技有限公司 图像处理方法、图像处理模型的训练方法和装置
CN116309591B (zh) * 2023-05-19 2023-08-25 杭州健培科技有限公司 一种医学影像3d关键点检测方法、模型训练方法及装置
CN116912884B (zh) * 2023-07-21 2024-03-19 北京优创新港科技股份有限公司 一种人体关键点检测方法及系统
CN117523645B (zh) * 2024-01-08 2024-03-22 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684920B (zh) * 2018-11-19 2020-12-11 腾讯科技(深圳)有限公司 物体关键点的定位方法、图像处理方法、装置及存储介质
CN109753910B (zh) * 2018-12-27 2020-02-21 北京字节跳动网络技术有限公司 关键点提取方法、模型的训练方法、装置、介质及设备
US10853970B1 (en) * 2019-03-22 2020-12-01 Bartec Corporation System for estimating a three dimensional pose of one or more persons in a scene
CN110020633B (zh) * 2019-04-12 2022-11-04 腾讯科技(深圳)有限公司 姿态识别模型的训练方法、图像识别方法及装置
CN111815754B (zh) * 2019-04-12 2023-05-30 Oppo广东移动通信有限公司 一种三维信息确定方法、三维信息确定装置及终端设备
CN110516643A (zh) 2019-08-30 2019-11-29 电子科技大学 一种基于联合热力图的人脸3d关键点检测方法及系统
CN110991319B (zh) 2019-11-29 2021-10-19 广州市百果园信息技术有限公司 手部关键点检测方法、手势识别方法及相关装置
CN111160375B (zh) * 2019-12-31 2024-01-23 北京奇艺世纪科技有限公司 三维关键点预测及深度学习模型训练方法、装置及设备
US11315254B2 (en) * 2020-01-17 2022-04-26 Ping An Technology (Shenzhen) Co., Ltd. Method and device for stratified image segmentation
US11417011B2 (en) * 2020-02-11 2022-08-16 Nvidia Corporation 3D human body pose estimation using a model trained from unlabeled multi-view data
CN111402228B (zh) 2020-03-13 2021-05-07 腾讯科技(深圳)有限公司 图像检测方法、装置和计算机可读存储介质
CN111523468B (zh) * 2020-04-23 2023-08-08 北京百度网讯科技有限公司 人体关键点识别方法和装置
CN111783948A (zh) * 2020-06-24 2020-10-16 北京百度网讯科技有限公司 模型训练方法、装置、电子设备以及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Georgios Pavlakos et al. ,Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2017年11月09日,pp.1263-1272,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8099622
Qing You, Wenjie Chen, Ye Li,3D Human Motion Capture Based on Neural Network and Triangular Gaussian Point Cloud,2020 39th Chinese Control Conference (CCC),米国,IEEE,2020年07月27日,pp.7481-7486,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9188413
伊佐見 望,坂本 雄児,人物イラストからの3次元姿勢推定におけるデータ拡張手法の検討,映像情報メディア学会技術報告,日本,映像情報メディア学会,2020年02月20日,第44巻,第6号,第123-128頁

Also Published As

Publication number Publication date
JP2021192294A (ja) 2021-12-16
CN112270669A (zh) 2021-01-26
US20210312171A1 (en) 2021-10-07
CN112270669B (zh) 2024-03-01
US11816915B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
JP7228650B2 (ja) 人体3dキー点検出方法、モデル訓練方法及び関連装置
US11715259B2 (en) Method and apparatus for generating virtual avatar, device and storage medium
JP7135125B2 (ja) 近赤外画像の生成方法、近赤外画像の生成装置、生成ネットワークの訓練方法、生成ネットワークの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
JP7258066B2 (ja) 測位方法、測位装置及び電子機器
CN110866977B (zh) 增强现实处理方法及装置、系统、存储介质和电子设备
EP3848897A2 (en) Image adjustment method and apparatus, electronic device and storage medium
US20220051004A1 (en) Image processing method, apparatus, device and storage medium
US11417056B2 (en) Method, apparatus, device and storage medium for three-dimensional reconstruction
JP2021524628A (ja) 照明推定
CN112150551A (zh) 物体位姿的获取方法、装置和电子设备
CN111860167A (zh) 人脸融合模型获取及人脸融合方法、装置及存储介质
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
JP7194215B2 (ja) キーポイントの特定方法及び装置、機器、記憶媒体
US11721037B2 (en) Indoor positioning method and apparatus, electronic device and storage medium
CN111311743B (zh) 三维重建精度测试方法、测试装置和电子设备
KR20210146770A (ko) 실내 측위 방법, 장치, 장비 및 저장 매체
CN112241716A (zh) 训练样本的生成方法和装置
CN112911266A (zh) 基于增强现实技术的物联网实训系统的实现方法及系统
CN116092120B (zh) 基于图像的动作确定方法、装置、电子设备及存储介质
CN115619986B (zh) 场景漫游方法、装置、设备和介质
EP4086853A2 (en) Method and apparatus for generating object model, electronic device and storage medium
CN111898489B (zh) 用于标注手掌位姿的方法、装置、电子设备及存储介质
CN112785524A (zh) 一种人物图像的修复方法、装置及电子设备
Yuan et al. TIPTAB: A tangible interactive projection tabletop for virtual experiments
CN113033258B (zh) 一种图像特征提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230213

R150 Certificate of patent or registration of utility model

Ref document number: 7228650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150