JP2023521952A - 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム - Google Patents
3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2023521952A JP2023521952A JP2022556105A JP2022556105A JP2023521952A JP 2023521952 A JP2023521952 A JP 2023521952A JP 2022556105 A JP2022556105 A JP 2022556105A JP 2022556105 A JP2022556105 A JP 2022556105A JP 2023521952 A JP2023521952 A JP 2023521952A
- Authority
- JP
- Japan
- Prior art keywords
- pose estimation
- frame
- viewing
- angle
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 17
- 238000007906 compression Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 11
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 15
- 230000033001 locomotion Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008921 facial expression Effects 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000037237 body shape Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 210000003484 anatomy Anatomy 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 230000005057 finger movement Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001847 jaw Anatomy 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、を含む。
n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む。
ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を2次元手がかり制約として、最適化に基づく3次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができ、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。
は、隣接する2フレームの間の多視野角姿勢推定結果の間の頂点差分損失であり、隣接する2フレームの間の人体のグローバル位置の差が大きすぎないことを保証し、人体のグローバル位置は、人体の向き(global orientation)及び人体の位置(global translation)を含む。
n個の視野角のビデオフレームシーケンスを取得するための取得モジュール610であって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュール610と、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュール620と、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュール630と、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュール640と、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュール650と、を含む。
前記初期化モジュール620は、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。任意選択で、初期化モジュール620は、Openposeモデルによってn個の視野角における単一フレームビデオフレームの2次元人体キーポイント及び人体分割結果を抽出する。
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある。
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は前記距離と正の相関関係がある。
前記マルチフレーム推定モジュール650は、時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得し、
前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点である。
Claims (14)
- コンピュータデバイスが実行する3次元人体姿勢推定方法であって、
n個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、
を含む、方法。 - 前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する前記ステップは、
ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得するステップと、
前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得するステップと、を含み、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項1に記載の方法。 - 前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける2次元人体キーポイントを含み、
前記多視野角制約は、第1の再投影点と前記2次元人体キーポイントとの間の距離損失を含み、前記第1の再投影点は、前記多視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記ソフト損失係数は、前記第1の再投影点と前記2次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は、前記距離と正の相関関係にある、請求項2に記載の方法。 - 前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有し、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する前記ステップは、
時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップを含み、
前記時系列制約は、隣接する2フレームの間の姿勢推定差分損失、隣接する2フレームの間の頂点差分損失、隣接する2フレームの間の第2の再投影点の差分損失のうち少なくとも1つを含み、前記第2の再投影点は、前記多視野角マルチフレーム姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である、請求項1から3のいずれか1項に記載の方法。 - 前記人体パラメータ化モデルに基づいて、前記多視野角マルチフレーム姿勢推定結果を表すための姿勢パラメータによって、前記ビデオフレームシーケンスによって示される人体に対応するバーチャル人間を生成するステップ、をさらに含む請求項4に記載の方法。
- 前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する前記ステップは、
前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップと、
前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出するステップと、
前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップと、を含む、請求項1から3のいずれか1項に記載の方法。 - 前記ニューラルネットワークモデルはさらに、2次元人体キーポイントを抽出するための第1のモデルと、人体分割結果を抽出するための第2のモデルを含み、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出する前記ステップは、
前記第1のモデルによって前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出するステップを含み、
前記方法はさらに、前記第2のモデルによって前記n個の視野角における単一フレームビデオフレームの人体分割結果を抽出するステップを含む、請求項6に記載の方法。 - 前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする前記ステップは、
前記2次元人体キーポイント、前記人体分割結果及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップを含む、請求項7に記載の方法。 - 前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得する前記ステップは、
前記2次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するステップを含み、
前記2次元手がかりの制約は、第3の再投影点と前記2次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第3の再投影点は、前記単視野角姿勢推定結果における3次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記信頼度圧縮係数は、前記第3の再投影点と前記2次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記2次元人体キーポイントの信頼度と負の相関関係にある、請求項6に記載の方法。 - 3次元人体姿勢推定装置であって、
n個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、nは1より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記n個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、n個の視野角にそれぞれ対応するn個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む装置。 - 前記多視野角推定モジュールは、ソフト損失係数の多視野角制約に基づいて、前記n個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートし、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記n個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項10に記載の装置。 - 前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、前記初期化モジュールは、前記n個の視野角における単一フレームビデオフレームの2次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記2次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの2次元手がかりとして決定し、前記2次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする、請求項10又は11に記載の装置。
- プロセッサー及びメモリを含むコンピュータデバイスであって、
前記メモリには、少なくとも1つの指令、少なくとも1セグメントのプログラム、コードセット又は指令セットが記憶され、
前記少なくとも1つの指令、前記少なくとも1セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、請求項1から9のいずれか1項に記載の3次元人体姿勢推定方法を実現するコンピュータデバイス。 - コンピュータで実行されるとき、前記コンピュータに請求項1から9のいずれか1項に記載の3次元人体姿勢推定方法を実行させるための指令を含むコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010734364.8 | 2020-07-27 | ||
CN202010734364.8A CN111738220B (zh) | 2020-07-27 | 2020-07-27 | 三维人体姿态估计方法、装置、设备及介质 |
PCT/CN2021/098627 WO2022022063A1 (zh) | 2020-07-27 | 2021-06-07 | 三维人体姿态估计方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023521952A true JP2023521952A (ja) | 2023-05-26 |
JP7503643B2 JP7503643B2 (ja) | 2024-06-20 |
Family
ID=72656117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022556105A Active JP7503643B2 (ja) | 2020-07-27 | 2021-06-07 | 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220415076A1 (ja) |
EP (1) | EP4102400A4 (ja) |
JP (1) | JP7503643B2 (ja) |
CN (1) | CN111738220B (ja) |
WO (1) | WO2022022063A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738220B (zh) * | 2020-07-27 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 三维人体姿态估计方法、装置、设备及介质 |
CN112215160B (zh) * | 2020-10-13 | 2023-11-24 | 厦门大学 | 一种利用长短期信息融合的视频三维人体姿态估计算法 |
CN112560757B (zh) * | 2020-12-24 | 2022-08-09 | 中国科学院大学 | 端到端多视角三维人体姿态估计方法、系统及存储介质 |
CN112686123A (zh) * | 2020-12-25 | 2021-04-20 | 科大讯飞股份有限公司 | 虚假视频检测方法和装置、电子设备及存储介质 |
CN112804444B (zh) * | 2020-12-30 | 2022-08-23 | 影石创新科技股份有限公司 | 一种视频处理方法、装置、计算设备及存储介质 |
CN112767534B (zh) * | 2020-12-31 | 2024-02-09 | 北京达佳互联信息技术有限公司 | 视频图像处理方法、装置、电子设备及存储介质 |
CN112819849B (zh) * | 2021-01-14 | 2021-12-03 | 电子科技大学 | 一种基于三目的无标记点视觉运动捕捉方法 |
CN112926475B (zh) * | 2021-03-08 | 2022-10-21 | 电子科技大学 | 一种人体三维关键点提取方法 |
CN114036969B (zh) * | 2021-03-16 | 2023-07-25 | 上海大学 | 一种多视角情况下的3d人体动作识别算法 |
CN113763532B (zh) * | 2021-04-19 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 基于三维虚拟对象的人机交互方法、装置、设备及介质 |
CN113766119B (zh) * | 2021-05-11 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 虚拟形象显示方法、装置、终端及存储介质 |
CN113570699B (zh) * | 2021-06-24 | 2024-06-14 | 清华大学 | 三维指纹重建的方法和装置 |
CN113569781B (zh) * | 2021-08-03 | 2024-06-14 | 北京达佳互联信息技术有限公司 | 人体姿态的获取方法、装置、电子设备及存储介质 |
CN114299128A (zh) * | 2021-12-30 | 2022-04-08 | 咪咕视讯科技有限公司 | 多视角定位检测方法及装置 |
CN114863325B (zh) * | 2022-04-19 | 2024-06-07 | 上海人工智能创新中心 | 动作识别方法、装置、设备和计算机可读存储介质 |
CN115862149B (zh) * | 2022-12-30 | 2024-03-22 | 广州紫为云科技有限公司 | 一种生成3d人体骨骼关键点数据集的方法及系统 |
CN116403275B (zh) * | 2023-03-14 | 2024-05-24 | 南京航空航天大学 | 基于多目视觉检测封闭空间中人员行进姿态的方法及系统 |
CN116228867B (zh) * | 2023-03-15 | 2024-04-05 | 北京百度网讯科技有限公司 | 位姿确定方法、装置、电子设备、介质 |
CN115984972B (zh) * | 2023-03-20 | 2023-08-11 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004094943A1 (ja) * | 2003-04-22 | 2004-11-04 | Hiroshi Arisawa | モーションキャプチャ方法、モーションキャプチャ装置、及びモーションキャプチャ用マーカ |
JP2007333690A (ja) * | 2006-06-19 | 2007-12-27 | Sony Corp | モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム |
JP2008140101A (ja) * | 2006-12-01 | 2008-06-19 | Advanced Telecommunication Research Institute International | 無制約、リアルタイム、かつマーカ不使用の手トラッキング装置 |
JP2017097577A (ja) * | 2015-11-24 | 2017-06-01 | キヤノン株式会社 | 姿勢推定方法及び姿勢推定装置 |
CN107240124A (zh) * | 2017-05-19 | 2017-10-10 | 清华大学 | 基于时空约束的跨镜头多目标跟踪方法及装置 |
JP2018129008A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 画像合成装置、画像合成方法及びコンピュータプログラム |
JP2019079487A (ja) * | 2017-10-25 | 2019-05-23 | 日本電信電話株式会社 | パラメータ最適化装置、パラメータ最適化方法、プログラム |
CN109829972A (zh) * | 2019-01-19 | 2019-05-31 | 北京工业大学 | 一种面向连续帧点云的三维人体标准骨架提取方法 |
CN110020611A (zh) * | 2019-03-17 | 2019-07-16 | 浙江大学 | 一种基于三维假设空间聚类的多人动作捕捉方法 |
US20190251341A1 (en) * | 2017-12-08 | 2019-08-15 | Huawei Technologies Co., Ltd. | Skeleton Posture Determining Method and Apparatus, and Computer Readable Storage Medium |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6571024B1 (en) * | 1999-06-18 | 2003-05-27 | Sarnoff Corporation | Method and apparatus for multi-view three dimensional estimation |
US8872899B2 (en) | 2004-07-30 | 2014-10-28 | Extreme Reality Ltd. | Method circuit and system for human to machine interfacing by hand gestures |
CN105809664B (zh) * | 2014-12-31 | 2020-03-17 | 北京三星通信技术研究有限公司 | 生成三维图像的方法和装置 |
CN106056089B (zh) * | 2016-06-06 | 2019-06-11 | 中国科学院长春光学精密机械与物理研究所 | 一种三维姿态识别方法及系统 |
CN107239728B (zh) * | 2017-01-04 | 2021-02-02 | 赛灵思电子科技(北京)有限公司 | 基于深度学习姿态估计的无人机交互装置与方法 |
CN106971145A (zh) * | 2017-03-03 | 2017-07-21 | 广东工业大学 | 一种基于极限学习机的多视角动作识别方法及装置 |
CN109960986A (zh) | 2017-12-25 | 2019-07-02 | 北京市商汤科技开发有限公司 | 人脸姿态分析方法、装置、设备、存储介质以及程序 |
CN108491880B (zh) * | 2018-03-23 | 2021-09-03 | 西安电子科技大学 | 基于神经网络的物体分类和位姿估计方法 |
CN108629801B (zh) * | 2018-05-14 | 2020-11-24 | 华南理工大学 | 一种视频序列的三维人体模型姿态与形状重构方法 |
CN109242950B (zh) * | 2018-07-11 | 2023-05-02 | 天津大学 | 多人紧密交互场景下的多视角人体动态三维重建方法 |
CN110598590A (zh) * | 2019-08-28 | 2019-12-20 | 清华大学 | 基于多视角相机的紧密交互人体姿态估计方法及装置 |
CN111738220B (zh) * | 2020-07-27 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 三维人体姿态估计方法、装置、设备及介质 |
-
2020
- 2020-07-27 CN CN202010734364.8A patent/CN111738220B/zh active Active
-
2021
- 2021-06-07 EP EP21849589.3A patent/EP4102400A4/en active Pending
- 2021-06-07 JP JP2022556105A patent/JP7503643B2/ja active Active
- 2021-06-07 WO PCT/CN2021/098627 patent/WO2022022063A1/zh unknown
-
2022
- 2022-09-01 US US17/901,700 patent/US20220415076A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004094943A1 (ja) * | 2003-04-22 | 2004-11-04 | Hiroshi Arisawa | モーションキャプチャ方法、モーションキャプチャ装置、及びモーションキャプチャ用マーカ |
JP2007333690A (ja) * | 2006-06-19 | 2007-12-27 | Sony Corp | モーションキャプチャ装置及びモーションキャプチャ方法、並びにモーションキャプチャプログラム |
JP2008140101A (ja) * | 2006-12-01 | 2008-06-19 | Advanced Telecommunication Research Institute International | 無制約、リアルタイム、かつマーカ不使用の手トラッキング装置 |
JP2017097577A (ja) * | 2015-11-24 | 2017-06-01 | キヤノン株式会社 | 姿勢推定方法及び姿勢推定装置 |
JP2018129008A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 画像合成装置、画像合成方法及びコンピュータプログラム |
CN107240124A (zh) * | 2017-05-19 | 2017-10-10 | 清华大学 | 基于时空约束的跨镜头多目标跟踪方法及装置 |
JP2019079487A (ja) * | 2017-10-25 | 2019-05-23 | 日本電信電話株式会社 | パラメータ最適化装置、パラメータ最適化方法、プログラム |
US20190251341A1 (en) * | 2017-12-08 | 2019-08-15 | Huawei Technologies Co., Ltd. | Skeleton Posture Determining Method and Apparatus, and Computer Readable Storage Medium |
CN109829972A (zh) * | 2019-01-19 | 2019-05-31 | 北京工业大学 | 一种面向连续帧点云的三维人体标准骨架提取方法 |
CN110020611A (zh) * | 2019-03-17 | 2019-07-16 | 浙江大学 | 一种基于三维假设空间聚类的多人动作捕捉方法 |
Non-Patent Citations (4)
Title |
---|
佐藤 明知、外3名: ""多視点動画像からの人間動作の追跡と再構成"", 電子情報通信学会論文誌, vol. 80, no. 6, JPN6023037436, 25 June 1997 (1997-06-25), JP, pages 1581 - 1589, ISSN: 0005150935 * |
山根 亮、外2名: ""スイックモデルを用いたステレオ動画像からの実時間人物動作復元"", 電子情報通信学会技術研究報告, vol. 99, no. 710, JPN6023037434, 17 March 2000 (2000-03-17), JP, pages 89 - 96, ISSN: 0005150933 * |
山添 大丈、外3名: ""多視点視覚システムにおけるカメラ位置・姿勢推定の分散化とその人物追跡システムへの適用"", 映像情報メディア学会誌, vol. 58, no. 11, JPN6023037437, 1 November 2004 (2004-11-01), JP, pages 1639 - 1648, ISSN: 0005150936 * |
星野 竜也、外3名: ""映像からの実時間身体姿勢計測 −高精度化と頑健化を目指して−"", 電気学会研究会資料 情報処理研究会・産業システム情報化合同研究会, JPN6023037435, 23 August 2002 (2002-08-23), JP, pages 37 - 42, ISSN: 0005150934 * |
Also Published As
Publication number | Publication date |
---|---|
EP4102400A4 (en) | 2023-06-28 |
US20220415076A1 (en) | 2022-12-29 |
EP4102400A1 (en) | 2022-12-14 |
CN111738220A (zh) | 2020-10-02 |
JP7503643B2 (ja) | 2024-06-20 |
WO2022022063A1 (zh) | 2022-02-03 |
CN111738220B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7503643B2 (ja) | 3次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム | |
Cao et al. | 3D shape regression for real-time facial animation | |
US9361723B2 (en) | Method for real-time face animation based on single video camera | |
Hauswiesner et al. | Virtual try-on through image-based rendering | |
WO2020029554A1 (zh) | 增强现实多平面模型动画交互方法、装置、设备及存储介质 | |
CN111161395B (zh) | 一种人脸表情的跟踪方法、装置及电子设备 | |
US20130101164A1 (en) | Method of real-time cropping of a real entity recorded in a video sequence | |
KR20180121494A (ko) | 단안 카메라들을 이용한 실시간 3d 캡처 및 라이브 피드백을 위한 방법 및 시스템 | |
US11928778B2 (en) | Method for human body model reconstruction and reconstruction system | |
CN110147737B (zh) | 用于生成视频的方法、装置、设备和存储介质 | |
WO2023015409A1 (zh) | 物体姿态的检测方法、装置、计算机设备和存储介质 | |
CN112348937A (zh) | 人脸图像处理方法及电子设备 | |
Hu et al. | Egorenderer: Rendering human avatars from egocentric camera images | |
Liu et al. | Skeleton tracking based on Kinect camera and the application in virtual reality system | |
Valente et al. | A visual analysis/synthesis feedback loop for accurate face tracking | |
CN115775300B (zh) | 人体模型的重建方法、人体重建模型的训练方法及装置 | |
Zhang et al. | A multiple camera system with real-time volume reconstruction for articulated skeleton pose tracking | |
CN114419253A (zh) | 一种卡通人脸的构建、直播方法及相关装置 | |
Zhang et al. | 3D Gesture Estimation from RGB Images Based on DB-InterNet | |
Zhou et al. | Real-time 3D face and facial action tracking using extended 2D+ 3D AAMs | |
Lin et al. | Multi-view 3D Human Physique Dataset Construction For Robust Digital Human Modeling of Natural Scenes | |
WO2023185241A1 (zh) | 数据处理方法、装置、设备以及介质 | |
Venkatrayappa et al. | Survey of 3D Human Body Pose and Shape Estimation Methods for Contemporary Dance Applications | |
Magnor et al. | Model-based analysis of multi-video data | |
Cai et al. | Knowledge NeRF: Few-shot Novel View Synthesis for Dynamic Articulated Objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230912 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7503643 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |