JP2023521952A - 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム - Google Patents

3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2023521952A
JP2023521952A JP2022556105A JP2022556105A JP2023521952A JP 2023521952 A JP2023521952 A JP 2023521952A JP 2022556105 A JP2022556105 A JP 2022556105A JP 2022556105 A JP2022556105 A JP 2022556105A JP 2023521952 A JP2023521952 A JP 2023521952A
Authority
JP
Japan
Prior art keywords
pose estimation
frame
viewing
angle
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022556105A
Other languages
English (en)
Other versions
JP7503643B2 (ja
Inventor
チェン,ウェイドン
ジャン,ウェイ
カン,ディー
バオ,リンチャオ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2023521952A publication Critical patent/JP2023521952A/ja
Application granted granted Critical
Publication of JP7503643B2 publication Critical patent/JP7503643B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

人工知能の分野に関する3次元人体姿勢推定方法及び関連装置である。n個の視野角のビデオフレームシーケンスを取得するステップ(110)と、ニューラルネットワークモデルに基づいてn個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップ(120)であって、ニューラルネットワークモデルの姿勢推定のロバスト性を効果的に利用するステップ(120)と、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップ(130)と、n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果を取得し、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップ(140)と、多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップ(150)を含む。人体姿勢推定の正確性を高め、単一フレーム単視野角の人体姿勢推定が局所極値に陥りやすい状況を回避する。

Description

本出願は、2020年07月27日にて中国特許局に提出された、中国特許出願第202010734364.8号であって、出願の名称が「3次元人体姿勢推定方法、装置、デバイス及媒体」である中国特許出願に基づく優先権を主張し、その全内容を本出願に援用する。
本出願の実施例は、人工知能の分野に関し、特に、3次元人体姿勢推定に関する。
3次元人体姿勢推定は、2次元画像から人体が行う3次元動作を認識する技術である。
関連技術において、ニューラルネットワークモデルに1枚の2次元画像を入力し、画像2次元キーポイント(2D Key point)の制約最適化に基づいて、3次元モデルを用いて表現した3次元人体姿勢を出力する3次元人体姿勢推定方法を提供する。
本出願の実施例は、3次元人体の姿勢推定方法、装置、デバイス、媒体及びコンピュータプログラム製品を提供し、マルチフレーム多視野角のビデオフレームシーケンスを2次元手がかり制約として使用し、人体に対して安定的で正確な3次元人体姿勢推定を実現できる。前記技術案は、以下の通りである。
本出願の一態様によれば、3次元人体姿勢推定方法を提供し、前記方法は、
n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、を含む。
本出願の別の態様によれば、3次元人体姿勢推定装置を提供し、前記装置は、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む。
本出願の別の態様によれば、コンピュータデバイスを提供し、前記コンピュータデバイスは、プロセッサー及びメモリを含み、前記メモリには、少なくとも1つの指令、少なくとも1セグメントのプログラム、コードセット又は指令セットが記憶され、前記少なくとも1つの指令、前記少なくとも1セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、上記の態様に記載の3次元人体姿勢推定方法を実現する。
本出願の別の態様によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムは、上記の態様に記載の3次元人体姿勢推定方法を実行するために使用される。
本出願の実施例のさらに別の態様によれば、コンピュータで実行されるとき、前記コンピュータに上記の態様による3次元人体姿勢推定方法を実行させる指令を含むコンピュータプログラム製品を提供する。
本出願の実施例による技術案によってもたらされる有益な効果は、少なくとも以下を含む。
ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を2次元手がかり制約として、最適化に基づく3次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができ、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。
本出願の実施例における技術案をより明確に説明するために、実施例の説明に使用する必要がある添付の図面を以下に簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。
本出願の例示的な実施例による3次元人体姿勢推定方法のフローチャートである。 本出願の例示的な実施例による多視野角で画像をキャプチャする際の実施形態の概略図である。 本出願の別の例示的な実施例による3次元人体姿勢推定方法のフレーム概略図である。 本出願の別の例示的な実施例による3次元人体姿勢推定方法のフローチャートである。 本出願の例示的な実施例による3次元人体姿勢推定方法の適用シナリオ図である。 本出願の例示的な実施例による3次元人体姿勢推定装置のブロック図である。 本出願の例示的な実施例によるコンピュータデバイスのブロック図である。
本出願の目的、技術案及び利点をより明確にするために、以下は図面を参照しながら本出願の実施形態をさらに詳細に説明する。
多視野角:複数のカメラを用いて、異なる視線角度から同一人物の動作ビデオを同時にキャプチャする。
3次元人体姿勢推定:2次元画像から、人体が行う3次元動作を推定する。通常、人体解剖学における人体関節点を用いて3次元動作を表現するか、又は、3次元人体パラメータ化モデルを用いて3次元動作を表現する。
3次元人体パラメータ化モデル:人体パラメータ化モデルと略称され、人体の3次元メッシュ(mesh)をいくつかの低次元のベクトルセットに表現し、1つの新しい人体は、これらのベクトル基底の線形組み合わせに表現することができる。一般的な人体パラメータ化モデルは、スキニングに基づく複数人の線形(Skinned Multi-Person Linear、SMPL)及び表現に富むSMPL(Skinned Multi-Person Linear eXpressive、SMPL_X)を含む。SMPLは、人の表情及びジェスチャーを表現することができず、SMPL_Xは、SMPLに基づいて、人の表情及びジェスチャーを表現することを拡張した。
SMPLモデルは、ドイツのウマプソンの研究者が提案した骨格駆動のパラメータ化人体モデルであり、関連記事は、国際図形画像協会が発表した2015年SIGGRAPHアジア会議で発表された。SMPLモデルは、簡単で使いやすく、かつ、著者によって公開され(研究用)、多くの科学研究者に広く応用されている。
SMPL_Xモデルは、SMPLモデルに基づいて、10475個の頂点及び54個の関節点を有する。54個の関節点には、首、あご、眼球、指の関節が含まれる。SMPL_Xは、関数M(θ、β、ψ)で定義され、θは、姿勢パラメータであり、βは、体型パラメータ(又は、形状パラメータとも称する)であり、ψは、顔表情パラメータである。
OpenPoseモデルは、人体姿勢認識モデルであり、米カーネギーメロン大学(CMU)がコンボリューションニューラルネットワーク及び教師あり学習に基づいて開発したオープンソースライブラリである。人体の動作、顔表情、指の動きなどの姿勢推定、及び2次元人体キーポイントの出力を実現することができる。OpenPoseモデルは、一人及び複数人に適しており、優れたロバスト性を有する。OpenPoseモデルは、世界における最初の深層学習に基づくリアルタイム複数人2次元姿勢推定アプリケーションである。
本出願の実施例によって提供される技術案は、人工知能における3次元人体姿勢推定技術に関する。本出願の実施例では、人体パラメータ化モデルSMPL_Xに基づいて、マルチフレーム多視野角のビデオフレームシーケンスを2次元手がかり制約として使用して、人体に対する安定的で正確な3次元人体姿勢推定を実現する。
図1は、本出願の例示的な実施例による3次元人体姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下のことを含む。
ステップ110:n個の視野角のビデオフレームシーケンスを取得し、ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である。
視野角は、カメラの視線と参照物の垂直方向のなす角である。参照物が人であることを例にとると、視野角は、カメラの視線と人の真ん前に位置する垂直方向のなす角である。
n個の視野角は、2つ以上の視野角であり、多視野角と略称される。例示的に、n個の視野角における任意の2つの視野角は異なる。現実世界では、n個のカメラが設置され、異なる視野角に従って人物に対してビデオキャプチャを行い、n個の視野角のビデオフレームシーケンス(ビデオと略称される)を取得する。
図2を参照すると、ある室内空間00に3台のカメラが設置され、第1のカメラは、第1の視野角で人物のビデオフレームシーケンスをキャプチャし、第2のカメラは、第2の視野角で人物のビデオフレームシーケンスをキャプチャし、第3のカメラは、第3の視野角で人物のビデオフレームシーケンスをキャプチャする。なお、当該n個のカメラは、カメラのキャリブレーションを必要としないカメラである。
任意選択で、n個の視野角のビデオフレームシーケンスにおけるビデオフレームの数は、同じであり、n個の視野角のビデオフレームシーケンスにおけるフレームレートは同じであり、例えば、毎秒60フレームである。ただし、いくつかの実施例で、n個の視野角のビデオフレームシーケンスにおけるビデオフレームの数が少し異なり、フレームレートが異なる(例えば、倍数又は比例する)場合を排除しない。n個の視野角におけるビデオフレームの数が異なる場合、n個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを削除又は破棄することができる。n個の視野角におけるフレームレートが異なる場合には、n個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを倍数又は比例的に削除又は破棄することができる。
ステップ120:ニューラルネットワークモデルに基づいてn個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する。
例示的に、ニューラルネットワークモデルは、単一フレームビデオフレームを抽出する2次元手がかりを有するモデルである。ニューラルネットワークモデルは、1つ又は複数である。2次元手がかりに2次元人体キーポイント、人体分割結果及び単一フレーム人体姿勢推定が含まれることを例として、ニューラルネットワークモデルは、2次元人体キーポイントを抽出するための第1のモデル、人体分割結果を抽出するための第2のモデル、及び単一フレーム人体姿勢推定を抽出する第3のモデルを含むことができる。例示的に、第1のモデルは、Openposeモデルであり、第2のモデルは、イメージセマンティックセグメンテーションネットワークモデル又は人体解析(Human Parsing)ネットワークであり、第3のモデルは、コンボリューションニューラルネットワーク(CNN)である。少なくともニューラルネットワークモデルによってn個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。
ニューラルネットワークモデルに基づいて、n個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。一例では、初期化姿勢推定は、単一フレームビデオフレームにおける2次元人体キーポイント、単一フレームビデオフレームにおける人体分割結果、単一フレームビデオフレームにおける人体姿勢推定を含む。
n個の視野角には、第1の視野角、第2の視野角、第3の視野角の3つの視野角が含まれることを例にとる。それぞれ第1の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、第2の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、及び、第3の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定する。
ステップ130:初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
n個の視野角における各単一フレームビデオフレームに対して、初期化姿勢推定結果を初期化の入力として、第2の手がかりの制約を用いて単一フレーム単視野角の人体姿勢推定を行い、当該フレームビデオフレームの単視野角姿勢推定結果を取得する。
n個の視野角のそれぞれに対して、同じ視野角における単一ビデオフレームシーケンスに属する各ビデオフレームはそれぞれ、1つの単視野角人体姿勢推定結果に対応するため、同じ視野角における対応する単視野角人体姿勢推定結果のソートに基づいて、当該視野角に対応する単視野角姿勢推定シーケンスを取得することができる。
単一視野角に対応する単視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の単視野角姿勢推定結果を含む。各単視野角姿勢推定結果は、当該視野角における各フレームビデオフレームと1対1の対応関係にある。
ステップ140:n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。
n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスには、同じタイムスタンプに属するn個の単視野角姿勢推定結果が存在する。同じタイムスタンプとは、全く同じタイムスタンプ、又は、時間差が許容差閾値よりも小さいタイムスタンプである。例えば、フレームレートが毎秒60フレームの場合、時間差が1/60(単位:秒)又は1/120(単位:秒)未満の2つのタイムスタンプは、同じタイムスタンプとみなされる。
n個の単視野角姿勢推定シーケンスにありかつ同じタイムスタンプを有するn個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、1つの多視野角姿勢推定結果を取得する。タイムスタンプの前から後の順に、n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有するn個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を順次に行い、複数の多視野角姿勢推定結果を含む多視野角姿勢推定シーケンスを取得する。
任意選択で、多視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の多視野角姿勢推定結果を含み、各多視野角姿勢推定結果には、1対1で対応するタイムスタンプが存在し、異なる多視野角姿勢推定結果は、異なるタイムスタンプに対応する。
ステップ150:多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
任意選択で、当該多視野角マルチフレーム姿勢推定結果は、SMPL_Xモデルにおける姿勢パラメータθで表すことができる。
図3を参照すると、n個の視野角が3つの視野角であることを例として、第1の視野角のビデオフレームシーケンス、第2の視野角のビデオフレームシーケンス及び第3の視野角のビデオフレームシーケンスが存在する。第1の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第1の視野角における各ビデオフレームの2次元手がかり12を取得し、第2の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第2の視野角における各ビデオフレームの2次元手がかり14を取得し、第3の視野角のビデオフレームシーケンスに対して2次元手がかり抽出を行い、第3の視野角における各ビデオフレームの2次元手がかり16を取得する。
第1の視野角における各ビデオフレームの2次元手がかり12に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第1の視野角の単視野角姿勢推定シーケンス22を取得し、第2の視野角における各ビデオフレームの2次元手がかり14に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第2の視野角の単視野角姿勢推定シーケンス24を取得し、第3の視野角における各ビデオフレームの2次元手がかり16に対して、2次元手がかり制約を用いて単一フレーム単視野角推定を行い、第3の視野角の単視野角姿勢推定シーケンス26を取得する。
第1の視野角の単視野角姿勢推定シーケンス22、第2の視野角の単視野角姿勢推定シーケンス24、第3の視野角の単視野角姿勢推定シーケンス26において、同じタイムスタンプを有する単視野角姿勢推定結果に対して多視野角制約を用いて単一フレーム多視野角推定を行い、多視野角姿勢推定シーケンス30を取得する。多視野角姿勢推定シーケンス30に対して時系列制約を用いてマルチフレーム多視野角推定を行い、多視野角マルチフレーム姿勢推定結果40を取得する。
上記のように、本実施例によって提供される方法は、ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を2次元手がかり制約として、最適化に基づく3次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができる一方、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。
ステップ120について、図4は、本出願の例示的な実施例による3次元人体の姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下を含む。
ステップ122:n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出する。
2次元人体キーポイントは、2次元画像上に位置する人体キーポイントである。例示的に、人体キーポイントは、骨格解剖学における人体関節点を用いて表すことができる。一例では、人体キーポイントは、頭、首、肩、肘、手、ヒップ、膝、足を含むが、これらに限定されない。別の例では、人体キーポイントはさらに、人間の表情を認識するための顔キーポイントを含む。別の例では、人体キーポイントはさらに、ジェスチャー動作を認識するための手キーポイントも含む。本実施例では、骨格解剖における人体関節点を人体キーポイントとして使用する。
一例では、本出願は、Openposeモデルを用いて2次元人体キーポイントを抽出する。Openposeモデルは、米カーネギーメロン大学のオープンソースプロジェクトであり、人体関節点の位置決め、顔キーポイントの位置決め及び手キーポイントの位置決めを含む。Openposeモデルは、2次元人体キーポイントを出力できるだけでなく、各2次元人体キーポイントの信頼度を出力することができ、信頼度は、当該2次元人体キーポイントの正確性確率を表すために使用される。
人体分割結果は、2次元画像における人体が位置する画像領域を指示するために使用される。任意選択で、本出願は、人体分割ネットワークによって画像における1つ又は複数の人体に対する人体分割を実現することができる。人体分割ネットワークは、画像特徴に基づいて人体分割を行うか、又は、人体分割ネットワークは、2次元人体キーポイントによって指示される人体骨格特徴に基づいて人体分割を行う。2次元画像に複数の人体が存在する場合、人体分割結果は、複数の人体の人体分割結果を含む。人体分割モデルは、画像意味分割ネットワークモデル又はHuman Parsingネットワークである。
いくつかの実施例では、人体分割結果を決定するステップは、選択可能な実現方式である。
ステップ124:コンボリューションニューラルネットワークによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。
一例では、2次元画像をCNNに入力して、CNNによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。
ステップ126:前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。
いくつかの実施例では、2次元人体キーポイント及び人体姿勢推定を2次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とし、他のいくつかの実施例では、2次元人体キーポイント、人体分割結果及び人体姿勢推定を2次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とする。
選択可能な実現方式では、ステップ130は以下のことを含む。
ステップ132:2次元手がかり制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である。
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある。
例示的に、人体分割結果によって指示される各人体について、2次元人体キーポイントの制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応する単視野角姿勢推定シーケンスを取得する。
任意選択で、以下の式に従って初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行う。
Figure 2023521952000002
Jikは、k番目の視野角におけるi番目のフレームの画像フレームの損失関数であり、推定された人体姿勢推定結果と2次元画像における2次元手がかりとの間の差を表すために使用される。Kは、視野角を表し、iは、フレーム数を表す。βは、人体パラメータ化モデルの体型(shape)係数であり、人体の高さ、太さを表徴するために使用される。θは、人体パラメータ化モデルの姿勢(pose)係数であり、1人の動作を表し、θは、i番目のフレームの画像フレームに対応する姿勢係数を表す。Jest,i,jは、i番目のフレームの画像フレームから推定されたj番目の2次元人体キーポイントを表し、J(β)は、人体パラメータ化モデルの関節点回帰関数であり、人体の高さ、太さに基づいて3次元空間における人体の関節点の位置を返す。R(・)は回転関数であり、姿勢係数によって3次元の人体関節点を正確位置に回転する。
Figure 2023521952000003
は、投影関数であり、推定されたカメラパラメータKに基づいて、3次元の人体関節点を画像空間における2次元点に投影する。Wは、例えば、ユークリッド空間距離やGMoF距離などの距離関数である。wσはソフト損失係数であり、距離関数に作用し、距離に関する増加関数である。r(j、k)は、k番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数であり、非線形変換である。
一例では、
Figure 2023521952000004
であり、
Figure 2023521952000005
は、k番目の視野角におけるj番目の人体キーポイントであり、2次元人体キーポイント検出モデル(例えば、Openposeモデル)によって推定された信頼度である。
一例では、Jest,jは、時系列平滑化及び差分補完後の時系列上のj番目の人体キーポイントである。ビデオフレームシーケンスで推定された2次元人体キーポイントに対して、平滑化及び補間操作を利用する。ξは信頼度閾値であり、ωは重みであり、Confは、j番目の人体キーポイントの信頼度であり、linear_interpは、線形補間関数である。
一例では、wσ及びr(j、k)はいずれも選択可能な係数である。
選択可能な実現方式では、ステップ140は以下のことを含む。
ステップ142:ソフト損失係数の多視野角制約に基づいて、n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。
任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行う。
Figure 2023521952000006
E(・)は損失関数であり、EJikは、k番目の視野角におけるi番目のフレームの画像フレームの損失関数であり、frameiは、i番目のフレームの画像フレームを表し、view kは、k番目の視野角を表す。λは、予め設定された定数を表す。
Figure 2023521952000007
は、加算符号である。Epikは、k番目の視野角におけるi番目のフレームの画像フレームの正則化項損失であり、推定された体型係数及び姿勢係数の平均値(mean)に対するオフセット幅を表すために使用され、不合理なパラメータ(太りすぎたり極端に歪んだりするなど)を回避する。ETiは平滑項であり、隣接するフレームの間の差分損失を表すために使用され、隣接するフレーム間の過度な姿勢振れを回避する。
一例では、上記の初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含む。
上記の多視野角制約は、単一フレームビデオフレームに対応する多視野角姿勢推定結果の第1の再投影点と2次元人体キーポイントとの間の距離損失を含み、第1の再投影点は、多視野角姿勢推定結果における3次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。
ソフト損失係数wσは、第1の再投影点と2次元人体キーポイントとの間の距離に作用する許容係数である。
例えば、
Figure 2023521952000008

であり、dは、再投影点と2次元人体キーポイントとの間の距離である。σは許容度係数である。
選択可能な実現方式では、ステップ150は以下を含む。
ステップ152:時系列制約に基づいて、多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
任意選択で、以下の式によって多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。
Figure 2023521952000009
なお、Mは、所定の体型係数及び姿勢係数で、特定のトポロジー構成による人体パラメータ化モデルの頂点座標セットである。i-1は、i番目のフレームの前のフレームを表す。λ、λ、λは、予め設定された係数である。
上記の式ETiでは、時系列制約は、3つの制約を導入する。
第一、制約
Figure 2023521952000010

は、隣接する2フレームの間の多視野角姿勢推定結果の間の姿勢差分損失であり、隣接する2フレームの間の動作差が大きすぎないことを保証する。
第二、制約
Figure 2023521952000011

は、隣接する2フレームの間の多視野角姿勢推定結果の間の頂点差分損失であり、隣接する2フレームの間の人体のグローバル位置の差が大きすぎないことを保証し、人体のグローバル位置は、人体の向き(global orientation)及び人体の位置(global translation)を含む。
第三、制約
Figure 2023521952000012

は、隣接する2フレームの間の多視野角姿勢推定結果の間の3次元人体関節点の第2の再投影の差分損失であり、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
つまり、多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表すため、人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有する。時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、第2の再投影点は、多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。
上記のように、本実施例によって提供される方法は、2次元人体キーポイント、人体分割結果及びCNNによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、CNNネットワークの2次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。
一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格は人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。
しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Openposeモデルに基づいて抽出される2次元人体キーポイントでは十分に確立できないことを発見し、特に、n個の視野角のカメラは角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Openposeモデルによって抽出される2次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される3次元人体キーポイントとOpenposeモデルによって抽出される2次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。
一方、多視野角マルチフレームの人体姿勢推定では、3つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証でき、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証でき、フレーム間の再投影点差分損失は、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
一方、本実施例によって提供される方法はさらに、係数r(j,k)、r(j,k)をk番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い2次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない2次元人体キーポイントを抑制し、それによって、2次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。
例示的な適用例では、上記の3次元人体姿勢推定方法は、バーチャル人間プロジェクトに適用される。バーチャル人間は、IPバーチャルヒューマン(IP Virual Human、IVH)とも呼ばれ、音声インタラクション及びバーチャル形成生成などを利用したバーチャルキャラクターである。バーチャル人間を生成する際には、まず、ダイナミックスタジオ内に複数の視野角のカメラを設置し、実写俳優が、ダイナミックスタジオ内で身体表演及び表情表演を行い、複数の視野角のカメラが実写俳優の複数のビデオフレームシーケンスをキャプチャし、上記の3次元人体姿勢推定方法により、実写俳優の3次元人体姿勢推定結果を推定し、当該3次元人体姿勢推定結果は、人体パラメータ化モデルSMPLモデルにおける姿勢係数を用いて表す。
次に、SMPLモデルに基づいて1つのIPバーチャル人間を構築する。当該IPバーチャル人間は、漫画のイメージ、アニメーションキャラクター、映画のキャラクター、企業のバーチャルスポークスパーソン、バーチャルニュースキャスターなどであってもよい。上記の手順で推定された実写俳優の3次元人体姿勢推定を用いて、IPバーチャル人間を駆動して実人間に匹敵する身体の動きとダイナミックな表現を実現する。
図6は、本出願の例示的な実施例による3次元人体姿勢推定装置のブロック図である。前記装置は、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュール610であって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュール610と、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュール620と、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュール630と、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュール640と、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュール650と、を含む。
1つの選択可能な実施例では、前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、
前記初期化モジュール620は、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。任意選択で、初期化モジュール620は、Openposeモデルによってn個の視野角における単一フレームビデオフレームの2次元人体キーポイント及び人体分割結果を抽出する。
1つの選択可能な実施例では、前記単視野角推定モジュール630は、前記2次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する。
任意選択で、以下の式に従って初期化姿勢推定に対して単一フレーム単視野角の人体姿勢推定を行う。
Figure 2023521952000013
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある。
1つの選択可能な実施例では、前記多視野角推定モジュール640は、ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。
任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定に対して単一フレーム多視野角の人体姿勢推定を行う。
Figure 2023521952000014
1つの選択可能な実施例では、前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含む。前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は前記距離と正の相関関係がある。
1つの選択可能な実施例では、前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成された人体メッシュを有し、
前記マルチフレーム推定モジュール650は、時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得し、
前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点である。
任意選択で、以下の式に従って多視野角姿勢推定に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定を取得する。
Figure 2023521952000015
上記のように、本実施例によって提供される装置は、2次元人体キーポイント、人体分割結果及びCNNによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、CNNネットワークの2次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。
一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格が人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Openposeモデルに基づいて抽出された2次元人体キーポイントでは十分に確立できないことを発見し、特に、n個の視野角のカメラが角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Openposeモデルによって抽出された2次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される3次元人体キーポイントとOpenposeモデルによって抽出される2次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。
一方、多視野角マルチフレームの人体姿勢推定では、3つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証し、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証し、フレーム間の再投影点差分損失は、2次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。
一方、本実施例によって提供される装置はさらに、係数r(j,k)、r(j,k)をk番目の視野角におけるj番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い2次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない2次元人体キーポイントを抑制し、それによって、2次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。
なお、上記の実施例によって提供される3次元人体姿勢推定装置は、上記の各機能モジュールの分割を例に挙げて説明し、実際の適用では、上記の機能割り当てを必要に応じて異なる機能モジュールによって実現することができ、即ち、デバイスの内部構成を異なる機能モジュールに分割して、以上で説明した機能の全て又は一部を実現することができる。また、上記の実施例によって提供される3次元人体姿勢推定装置は、3次元人体姿勢推定方法の実施例と同じ考え方に属し、その具体的な実現手順について方法の実施例を参照することができ、ここで再度説明しない。
本出願は、コンピュータデバイス(端末又はサーバー)をさらに提供し、当該コンピュータデバイスは、プロセッサー及びメモリを含み、メモリには、少なくとも1つの指令が記憶され、少なくとも1つの指令は、プロセッサーによってロードされ実行されて、上記の各方法実施例による3次元人体姿勢推定方法を実現する。なお、当該コンピュータデバイスは、以下の図7に示されるコンピュータデバイスであってもよい。
図7は、本出願の例示的な実施例によるコンピュータデバイス700の構成ブロック図を示す。当該コンピュータデバイス700は、スマートフォン、タブレットコンピューター、MP3プレーヤ(Moving Picture Experts Group Audio Layer III、動画像専門家圧縮標準オーディオレベル3)、MP4(Moving Picture Experts Group Audio Layer IV、動画像専門家圧縮標準オーディオレベル4)プレーヤ、ノートパソコン又はデスクトップコンピュータであってもよい。コンピュータデバイス700は、ユーザーデバイス、ポータブルコンピュータデバイス、ラップトップコンピュータデバイス、デスクトップコンピュータデバイスなどの他の名称と呼ばれる場合がある。
通常、コンピュータデバイス700は、プロセッサー701及びメモリ702を含む。
プロセッサー701は、1つ又は複数の処理コアを含んでもよく、例えば4コアプロセッサー、8コアプロセッサーなどである。プロセッサー701は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラブルゲートアレイ)、PLA(Programmable Logic Array、プログラブル論理アレイ)の少なくとも1つのハードウェア形態で実現できる。プロセッサー701は、メインプロセッサー及びコプロセッサーを含み、メインプロセッサーは、ウェイクアップ状態でのデータを処理するためのプロセッサーであり、CPU(Central Processing Unit、中央プロセッサー)とも呼ばれ、コプロセッサーは、待機状態でのデータを処理するための低電力消費プロセッサーである。いくつかの実施例では、プロセッサー701は、GPU(Graphics Processing Unit、画像プロセッサー)が統合されてもよく、GPUは、ディスプレイによって表示する必要があるコンテンツのレンダリング及び描画を担当する。いくつかの実施例では、プロセッサー701は、機械学習に関する計算動作を処理するためのAI(Artificial Intelligence、人工知能)プロセッサーを含んでもよい。
メモリ702は、1つ又は複数のコンピュータ可読記憶媒体を含むことができ、当該コンピュータ可読記憶媒体は、非一時的であってもよい。メモリ702はまた、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、1つ又は複数の磁気ディスク記憶装置、フラッシュメモリ記憶装置を含むことができる。いくつかの実施例では、メモリ702のうち非一時的なコンピュータ可読記憶媒体は、本出願の方法実施例によって提供される3次元人体姿勢推定方法を実現するためにプロセッサー701によって実行される少なくとも1つの指令を記憶する。
いくつかの実施例では、コンピュータデバイス700は任意に、周辺機器インターフェース703及び少なくとも1つの周辺機器を含むことができる。プロセッサー701、メモリ702及び周辺機器インターフェース703の間は、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース703に接続されてもよい。具体的に、周辺機器は、無線周波数回路704、タッチディスプレイ705、カメラ706、オーディオ回路707、位置決めコンポーネント708及び電源709のうちの少なくとも1つを含む。
いくつかの実施例では、コンピュータデバイス700には、1つ又は複数のセンサー710がさらに含まれる。当該1つ又は複数のセンサー710は、加速度センサー711、ジャイロセンサー712、圧力センサー713、指紋センサー714、光センサー715及び近接センサー716を含むが、これらに限定されない。
図7に示す構成は、コンピュータデバイス700への制限を構成せず、図示よりも多く又は少ないコンポーネントを含むか、又はいくつかのコンポーネントを組み合わせ、又は異なるコンポーネント配置を採用することができる。
前記メモリには1つ以上のプログラムがさらに含まれ、前記1つ以上のプログラムはメモリに記憶され、前記1つ以上のプログラムにより、本出願の実施例による3次元人体姿勢推定方法を実行する。
本出願は、コンピュータ可読記憶媒体を提供し、前記記憶媒体は、コンピュータプログラムを記憶し、前記コンピュータプログラムにより、上記の実施例による3次元人体姿勢推定方法を実行する。
本出願はさらにコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータで実行されるとき、コンピュータに上記の実施例による3次元人体姿勢推定方法を実行させる。
上記の本出願の実施例の番号は、説明のためのものであり、実施例の優劣を表すものではない。
上記の実施例を実現するステップの全て又は一部は、ハードウェアによって実現することができ、プログラムを介して関連するハードウェアに指示することによって実現することもでき、前記プログラムは、コンピュータ可読記憶媒体に記憶することができ、上記の記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。
上記の説明は、本出願の選択可能な実施例にすぎず、本出願の実施例を限定することを意図するものではなく、本出願の実施例の精神及び原理の範囲内で行われる任意の修正、均等な置換、改善などは全て、本出願の保護範囲内に含まれるものとする。

Claims (14)

  1. コンピュータデバイスが実行する3次元人体姿勢推定方法であって、
    n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
    ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
    前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
    前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
    前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、
    を含む、方法。
  2. 前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する前記ステップは、
    ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得するステップと、
    前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得するステップと、を含み、
    前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項1に記載の方法。
  3. 前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含み、
    前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
    前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は、前記距離と正の相関関係にある、請求項2に記載の方法。
  4. 前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有し、
    前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する前記ステップは、
    時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップを含み、
    前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である、請求項1から3のいずれか1項に記載の方法。
  5. 前記人体パラメータ化モデルに基づいて、前記多視野角マルチフレーム姿勢推定結果を表すための姿勢パラメータによって、前記ビデオフレームシーケンスによって示される人体に対応するバーチャル人間を生成するステップ、をさらに含む請求項4に記載の方法。
  6. 前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する前記ステップは、
    前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップと、
    前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出するステップと、
    前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップと、を含む、請求項1から3のいずれか1項に記載の方法。
  7. 前記ニューラルネットワークモデルはさらに、2次元人体キーポイントを抽出するための第1のモデルと、人体分割結果を抽出するための第2のモデルを含み、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出する前記ステップは、
    前記第1のモデルによって前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップを含み、
    前記方法はさらに、前記第2のモデルによって前記n個の視野角における単一フレームビデオフレームの人体分割結果を抽出するステップを含む、請求項6に記載の方法。
  8. 前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする前記ステップは、
    前記2次元人体キーポイント、前記人体分割結果及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップを含む、請求項7に記載の方法。
  9. 前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する前記ステップは、
    前記2次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップを含み、
    前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
    前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある、請求項6に記載の方法。
  10. 3次元人体姿勢推定装置であって、
    n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
    ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
    前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
    前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
    前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む装置。
  11. 前記多視野角推定モジュールは、ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートし、前記多視野角姿勢推定シーケンスを取得し、
    前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項10に記載の装置。
  12. 前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、前記初期化モジュールは、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする、請求項10又は11に記載の装置。
  13. プロセッサー及びメモリを含むコンピュータデバイスであって、
    前記メモリには、少なくとも1つの指令、少なくとも1セグメントのプログラム、コードセット又は指令セットが記憶され、
    前記少なくとも1つの指令、前記少なくとも1セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、請求項1から9のいずれか1項に記載の3次元人体姿勢推定方法を実現するコンピュータデバイス。
  14. コンピュータで実行されるとき、前記コンピュータに請求項1から9のいずれか1項に記載の3次元人体姿勢推定方法を実行させるための指令を含むコンピュータプログラム。
JP2022556105A 2020-07-27 2021-06-07 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム Active JP7503643B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010734364.8 2020-07-27
CN202010734364.8A CN111738220B (zh) 2020-07-27 2020-07-27 三维人体姿态估计方法、装置、设备及介质
PCT/CN2021/098627 WO2022022063A1 (zh) 2020-07-27 2021-06-07 三维人体姿态估计方法和相关装置

Publications (2)

Publication Number Publication Date
JP2023521952A true JP2023521952A (ja) 2023-05-26
JP7503643B2 JP7503643B2 (ja) 2024-06-20

Family

ID=72656117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022556105A Active JP7503643B2 (ja) 2020-07-27 2021-06-07 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220415076A1 (ja)
EP (1) EP4102400A4 (ja)
JP (1) JP7503643B2 (ja)
CN (1) CN111738220B (ja)
WO (1) WO2022022063A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738220B (zh) * 2020-07-27 2023-09-15 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质
CN112215160B (zh) * 2020-10-13 2023-11-24 厦门大学 一种利用长短期信息融合的视频三维人体姿态估计算法
CN112560757B (zh) * 2020-12-24 2022-08-09 中国科学院大学 端到端多视角三维人体姿态估计方法、系统及存储介质
CN112686123A (zh) * 2020-12-25 2021-04-20 科大讯飞股份有限公司 虚假视频检测方法和装置、电子设备及存储介质
CN112804444B (zh) * 2020-12-30 2022-08-23 影石创新科技股份有限公司 一种视频处理方法、装置、计算设备及存储介质
CN112767534B (zh) * 2020-12-31 2024-02-09 北京达佳互联信息技术有限公司 视频图像处理方法、装置、电子设备及存储介质
CN112819849B (zh) * 2021-01-14 2021-12-03 电子科技大学 一种基于三目的无标记点视觉运动捕捉方法
CN112926475B (zh) * 2021-03-08 2022-10-21 电子科技大学 一种人体三维关键点提取方法
CN114036969B (zh) * 2021-03-16 2023-07-25 上海大学 一种多视角情况下的3d人体动作识别算法
CN113763532B (zh) * 2021-04-19 2024-01-19 腾讯科技(深圳)有限公司 基于三维虚拟对象的人机交互方法、装置、设备及介质
CN113766119B (zh) * 2021-05-11 2023-12-05 腾讯科技(深圳)有限公司 虚拟形象显示方法、装置、终端及存储介质
CN113570699B (zh) * 2021-06-24 2024-06-14 清华大学 三维指纹重建的方法和装置
CN113569781B (zh) * 2021-08-03 2024-06-14 北京达佳互联信息技术有限公司 人体姿态的获取方法、装置、电子设备及存储介质
CN114299128A (zh) * 2021-12-30 2022-04-08 咪咕视讯科技有限公司 多视角定位检测方法及装置
CN114863325B (zh) * 2022-04-19 2024-06-07 上海人工智能创新中心 动作识别方法、装置、设备和计算机可读存储介质
CN115862149B (zh) * 2022-12-30 2024-03-22 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN116403275B (zh) * 2023-03-14 2024-05-24 南京航空航天大学 基于多目视觉检测封闭空间中人员行进姿态的方法及系统
CN116228867B (zh) * 2023-03-15 2024-04-05 北京百度网讯科技有限公司 位姿确定方法、装置、电子设备、介质
CN115984972B (zh) * 2023-03-20 2023-08-11 乐歌人体工学科技股份有限公司 基于运动视频驱动的人体姿态识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004094943A1 (ja) * 2003-04-22 2004-11-04 Hiroshi Arisawa モーションキャプチャ方法、モーションキャプチャ装置、及びモーションキャプチャ用マーカ
JP2007333690A (ja) * 2006-06-19 2007-12-27 Sony Corp モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
JP2008140101A (ja) * 2006-12-01 2008-06-19 Advanced Telecommunication Research Institute International 無制約、リアルタイム、かつマーカ不使用の手トラッキング装置
JP2017097577A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 姿勢推定方法及び姿勢推定装置
CN107240124A (zh) * 2017-05-19 2017-10-10 清华大学 基于时空约束的跨镜头多目标跟踪方法及装置
JP2018129008A (ja) * 2017-02-10 2018-08-16 日本電信電話株式会社 画像合成装置、画像合成方法及びコンピュータプログラム
JP2019079487A (ja) * 2017-10-25 2019-05-23 日本電信電話株式会社 パラメータ最適化装置、パラメータ最適化方法、プログラム
CN109829972A (zh) * 2019-01-19 2019-05-31 北京工业大学 一种面向连续帧点云的三维人体标准骨架提取方法
CN110020611A (zh) * 2019-03-17 2019-07-16 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法
US20190251341A1 (en) * 2017-12-08 2019-08-15 Huawei Technologies Co., Ltd. Skeleton Posture Determining Method and Apparatus, and Computer Readable Storage Medium

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6571024B1 (en) * 1999-06-18 2003-05-27 Sarnoff Corporation Method and apparatus for multi-view three dimensional estimation
US8872899B2 (en) 2004-07-30 2014-10-28 Extreme Reality Ltd. Method circuit and system for human to machine interfacing by hand gestures
CN105809664B (zh) * 2014-12-31 2020-03-17 北京三星通信技术研究有限公司 生成三维图像的方法和装置
CN106056089B (zh) * 2016-06-06 2019-06-11 中国科学院长春光学精密机械与物理研究所 一种三维姿态识别方法及系统
CN107239728B (zh) * 2017-01-04 2021-02-02 赛灵思电子科技(北京)有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN106971145A (zh) * 2017-03-03 2017-07-21 广东工业大学 一种基于极限学习机的多视角动作识别方法及装置
CN109960986A (zh) 2017-12-25 2019-07-02 北京市商汤科技开发有限公司 人脸姿态分析方法、装置、设备、存储介质以及程序
CN108491880B (zh) * 2018-03-23 2021-09-03 西安电子科技大学 基于神经网络的物体分类和位姿估计方法
CN108629801B (zh) * 2018-05-14 2020-11-24 华南理工大学 一种视频序列的三维人体模型姿态与形状重构方法
CN109242950B (zh) * 2018-07-11 2023-05-02 天津大学 多人紧密交互场景下的多视角人体动态三维重建方法
CN110598590A (zh) * 2019-08-28 2019-12-20 清华大学 基于多视角相机的紧密交互人体姿态估计方法及装置
CN111738220B (zh) * 2020-07-27 2023-09-15 腾讯科技(深圳)有限公司 三维人体姿态估计方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004094943A1 (ja) * 2003-04-22 2004-11-04 Hiroshi Arisawa モーションキャプチャ方法、モーションキャプチャ装置、及びモーションキャプチャ用マーカ
JP2007333690A (ja) * 2006-06-19 2007-12-27 Sony Corp モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム
JP2008140101A (ja) * 2006-12-01 2008-06-19 Advanced Telecommunication Research Institute International 無制約、リアルタイム、かつマーカ不使用の手トラッキング装置
JP2017097577A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 姿勢推定方法及び姿勢推定装置
JP2018129008A (ja) * 2017-02-10 2018-08-16 日本電信電話株式会社 画像合成装置、画像合成方法及びコンピュータプログラム
CN107240124A (zh) * 2017-05-19 2017-10-10 清华大学 基于时空约束的跨镜头多目标跟踪方法及装置
JP2019079487A (ja) * 2017-10-25 2019-05-23 日本電信電話株式会社 パラメータ最適化装置、パラメータ最適化方法、プログラム
US20190251341A1 (en) * 2017-12-08 2019-08-15 Huawei Technologies Co., Ltd. Skeleton Posture Determining Method and Apparatus, and Computer Readable Storage Medium
CN109829972A (zh) * 2019-01-19 2019-05-31 北京工业大学 一种面向连续帧点云的三维人体标准骨架提取方法
CN110020611A (zh) * 2019-03-17 2019-07-16 浙江大学 一种基于三维假设空间聚类的多人动作捕捉方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
佐藤 明知、外3名: ""多視点動画像からの人間動作の追跡と再構成"", 電子情報通信学会論文誌, vol. 80, no. 6, JPN6023037436, 25 June 1997 (1997-06-25), JP, pages 1581 - 1589, ISSN: 0005150935 *
山根 亮、外2名: ""スイックモデルを用いたステレオ動画像からの実時間人物動作復元"", 電子情報通信学会技術研究報告, vol. 99, no. 710, JPN6023037434, 17 March 2000 (2000-03-17), JP, pages 89 - 96, ISSN: 0005150933 *
山添 大丈、外3名: ""多視点視覚システムにおけるカメラ位置・姿勢推定の分散化とその人物追跡システムへの適用"", 映像情報メディア学会誌, vol. 58, no. 11, JPN6023037437, 1 November 2004 (2004-11-01), JP, pages 1639 - 1648, ISSN: 0005150936 *
星野 竜也、外3名: ""映像からの実時間身体姿勢計測 −高精度化と頑健化を目指して−"", 電気学会研究会資料 情報処理研究会・産業システム情報化合同研究会, JPN6023037435, 23 August 2002 (2002-08-23), JP, pages 37 - 42, ISSN: 0005150934 *

Also Published As

Publication number Publication date
EP4102400A4 (en) 2023-06-28
US20220415076A1 (en) 2022-12-29
EP4102400A1 (en) 2022-12-14
CN111738220A (zh) 2020-10-02
JP7503643B2 (ja) 2024-06-20
WO2022022063A1 (zh) 2022-02-03
CN111738220B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
JP7503643B2 (ja) 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム
Cao et al. 3D shape regression for real-time facial animation
US9361723B2 (en) Method for real-time face animation based on single video camera
Hauswiesner et al. Virtual try-on through image-based rendering
WO2020029554A1 (zh) 增强现实多平面模型动画交互方法、装置、设备及存储介质
CN111161395B (zh) 一种人脸表情的跟踪方法、装置及电子设备
US20130101164A1 (en) Method of real-time cropping of a real entity recorded in a video sequence
KR20180121494A (ko) 단안 카메라들을 이용한 실시간 3d 캡처 및 라이브 피드백을 위한 방법 및 시스템
US11928778B2 (en) Method for human body model reconstruction and reconstruction system
CN110147737B (zh) 用于生成视频的方法、装置、设备和存储介质
WO2023015409A1 (zh) 物体姿态的检测方法、装置、计算机设备和存储介质
CN112348937A (zh) 人脸图像处理方法及电子设备
Hu et al. Egorenderer: Rendering human avatars from egocentric camera images
Liu et al. Skeleton tracking based on Kinect camera and the application in virtual reality system
Valente et al. A visual analysis/synthesis feedback loop for accurate face tracking
CN115775300B (zh) 人体模型的重建方法、人体重建模型的训练方法及装置
Zhang et al. A multiple camera system with real-time volume reconstruction for articulated skeleton pose tracking
CN114419253A (zh) 一种卡通人脸的构建、直播方法及相关装置
Zhang et al. 3D Gesture Estimation from RGB Images Based on DB-InterNet
Zhou et al. Real-time 3D face and facial action tracking using extended 2D+ 3D AAMs
Lin et al. Multi-view 3D Human Physique Dataset Construction For Robust Digital Human Modeling of Natural Scenes
WO2023185241A1 (zh) 数据处理方法、装置、设备以及介质
Venkatrayappa et al. Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications
Magnor et al. Model-based analysis of multi-video data
Cai et al. Knowledge NeRF: Few-shot Novel View Synthesis for Dynamic Articulated Objects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240610

R150 Certificate of patent or registration of utility model

Ref document number: 7503643

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150