JP2023521952A

JP2023521952A - ３次元人体姿勢推定方法及びその装置、コンピュータデバイス、並びにコンピュータプログラム

Info

Publication number: JP2023521952A
Application number: JP2022556105A
Authority: JP
Inventors: チェン，ウェイドン; ジャン，ウェイ; カン，ディー; バオ，リンチャオ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-07-27
Filing date: 2021-06-07
Publication date: 2023-05-26
Anticipated expiration: 2041-06-07
Also published as: EP4102400A4; US20220415076A1; EP4102400A1; CN111738220A; JP7503643B2; WO2022022063A1; CN111738220B

Abstract

人工知能の分野に関する３次元人体姿勢推定方法及び関連装置である。ｎ個の視野角のビデオフレームシーケンスを取得するステップ（１１０）と、ニューラルネットワークモデルに基づいてｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップ（１２０）であって、ニューラルネットワークモデルの姿勢推定のロバスト性を効果的に利用するステップ（１２０）と、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するステップ（１３０）と、ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果を取得し、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップ（１４０）と、多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップ（１５０）を含む。人体姿勢推定の正確性を高め、単一フレーム単視野角の人体姿勢推定が局所極値に陥りやすい状況を回避する。

Description

本出願は、２０２０年０７月２７日にて中国特許局に提出された、中国特許出願第２０２０１０７３４３６４．８号であって、出願の名称が「３次元人体姿勢推定方法、装置、デバイス及媒体」である中国特許出願に基づく優先権を主張し、その全内容を本出願に援用する。

本出願の実施例は、人工知能の分野に関し、特に、３次元人体姿勢推定に関する。

３次元人体姿勢推定は、２次元画像から人体が行う３次元動作を認識する技術である。

関連技術において、ニューラルネットワークモデルに１枚の２次元画像を入力し、画像２次元キーポイント(２ＤＫｅｙｐｏｉｎｔ)の制約最適化に基づいて、３次元モデルを用いて表現した３次元人体姿勢を出力する３次元人体姿勢推定方法を提供する。

本出願の実施例は、３次元人体の姿勢推定方法、装置、デバイス、媒体及びコンピュータプログラム製品を提供し、マルチフレーム多視野角のビデオフレームシーケンスを２次元手がかり制約として使用し、人体に対して安定的で正確な３次元人体姿勢推定を実現できる。前記技術案は、以下の通りである。

本出願の一態様によれば、３次元人体姿勢推定方法を提供し、前記方法は、
ｎ個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するステップと、
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、を含む。

本出願の別の態様によれば、３次元人体姿勢推定装置を提供し、前記装置は、
ｎ個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む。

本出願の別の態様によれば、コンピュータデバイスを提供し、前記コンピュータデバイスは、プロセッサー及びメモリを含み、前記メモリには、少なくとも１つの指令、少なくとも１セグメントのプログラム、コードセット又は指令セットが記憶され、前記少なくとも１つの指令、前記少なくとも１セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、上記の態様に記載の３次元人体姿勢推定方法を実現する。

本出願の別の態様によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムは、上記の態様に記載の３次元人体姿勢推定方法を実行するために使用される。

本出願の実施例のさらに別の態様によれば、コンピュータで実行されるとき、前記コンピュータに上記の態様による３次元人体姿勢推定方法を実行させる指令を含むコンピュータプログラム製品を提供する。

本出願の実施例による技術案によってもたらされる有益な効果は、少なくとも以下を含む。
ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を２次元手がかり制約として、最適化に基づく３次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができ、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。

本出願の実施例における技術案をより明確に説明するために、実施例の説明に使用する必要がある添付の図面を以下に簡単に紹介する。明らかに、以下の説明における図面は、本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に基づいて他の図面を得ることができる。

本出願の例示的な実施例による３次元人体姿勢推定方法のフローチャートである。本出願の例示的な実施例による多視野角で画像をキャプチャする際の実施形態の概略図である。本出願の別の例示的な実施例による３次元人体姿勢推定方法のフレーム概略図である。本出願の別の例示的な実施例による３次元人体姿勢推定方法のフローチャートである。本出願の例示的な実施例による３次元人体姿勢推定方法の適用シナリオ図である。本出願の例示的な実施例による３次元人体姿勢推定装置のブロック図である。本出願の例示的な実施例によるコンピュータデバイスのブロック図である。

本出願の目的、技術案及び利点をより明確にするために、以下は図面を参照しながら本出願の実施形態をさらに詳細に説明する。

多視野角：複数のカメラを用いて、異なる視線角度から同一人物の動作ビデオを同時にキャプチャする。

３次元人体姿勢推定：２次元画像から、人体が行う３次元動作を推定する。通常、人体解剖学における人体関節点を用いて３次元動作を表現するか、又は、３次元人体パラメータ化モデルを用いて３次元動作を表現する。

３次元人体パラメータ化モデル：人体パラメータ化モデルと略称され、人体の３次元メッシュ(ｍｅｓｈ)をいくつかの低次元のベクトルセットに表現し、１つの新しい人体は、これらのベクトル基底の線形組み合わせに表現することができる。一般的な人体パラメータ化モデルは、スキニングに基づく複数人の線形(ＳｋｉｎｎｅｄＭｕｌｔｉ-ＰｅｒｓｏｎＬｉｎｅａｒ、ＳＭＰＬ)及び表現に富むＳＭＰＬ(ＳｋｉｎｎｅｄＭｕｌｔｉ-ＰｅｒｓｏｎＬｉｎｅａｒｅＸｐｒｅｓｓｉｖｅ、ＳＭＰＬ＿Ｘ)を含む。ＳＭＰＬは、人の表情及びジェスチャーを表現することができず、ＳＭＰＬ＿Ｘは、ＳＭＰＬに基づいて、人の表情及びジェスチャーを表現することを拡張した。

ＳＭＰＬモデルは、ドイツのウマプソンの研究者が提案した骨格駆動のパラメータ化人体モデルであり、関連記事は、国際図形画像協会が発表した２０１５年ＳＩＧＧＲＡＰＨアジア会議で発表された。ＳＭＰＬモデルは、簡単で使いやすく、かつ、著者によって公開され（研究用）、多くの科学研究者に広く応用されている。

ＳＭＰＬ＿Ｘモデルは、ＳＭＰＬモデルに基づいて、１０４７５個の頂点及び５４個の関節点を有する。５４個の関節点には、首、あご、眼球、指の関節が含まれる。ＳＭＰＬ＿Ｘは、関数Ｍ(θ、β、ψ)で定義され、θは、姿勢パラメータであり、βは、体型パラメータ(又は、形状パラメータとも称する)であり、ψは、顔表情パラメータである。

ＯｐｅｎＰｏｓｅモデルは、人体姿勢認識モデルであり、米カーネギーメロン大学(ＣＭＵ)がコンボリューションニューラルネットワーク及び教師あり学習に基づいて開発したオープンソースライブラリである。人体の動作、顔表情、指の動きなどの姿勢推定、及び２次元人体キーポイントの出力を実現することができる。ＯｐｅｎＰｏｓｅモデルは、一人及び複数人に適しており、優れたロバスト性を有する。ＯｐｅｎＰｏｓｅモデルは、世界における最初の深層学習に基づくリアルタイム複数人２次元姿勢推定アプリケーションである。

本出願の実施例によって提供される技術案は、人工知能における３次元人体姿勢推定技術に関する。本出願の実施例では、人体パラメータ化モデルＳＭＰＬ＿Ｘに基づいて、マルチフレーム多視野角のビデオフレームシーケンスを２次元手がかり制約として使用して、人体に対する安定的で正確な３次元人体姿勢推定を実現する。

図１は、本出願の例示的な実施例による３次元人体姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下のことを含む。

ステップ１１０：ｎ個の視野角のビデオフレームシーケンスを取得し、ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である。

視野角は、カメラの視線と参照物の垂直方向のなす角である。参照物が人であることを例にとると、視野角は、カメラの視線と人の真ん前に位置する垂直方向のなす角である。

ｎ個の視野角は、２つ以上の視野角であり、多視野角と略称される。例示的に、ｎ個の視野角における任意の２つの視野角は異なる。現実世界では、ｎ個のカメラが設置され、異なる視野角に従って人物に対してビデオキャプチャを行い、ｎ個の視野角のビデオフレームシーケンス(ビデオと略称される)を取得する。

図２を参照すると、ある室内空間００に３台のカメラが設置され、第１のカメラは、第１の視野角で人物のビデオフレームシーケンスをキャプチャし、第２のカメラは、第２の視野角で人物のビデオフレームシーケンスをキャプチャし、第３のカメラは、第３の視野角で人物のビデオフレームシーケンスをキャプチャする。なお、当該ｎ個のカメラは、カメラのキャリブレーションを必要としないカメラである。

任意選択で、ｎ個の視野角のビデオフレームシーケンスにおけるビデオフレームの数は、同じであり、ｎ個の視野角のビデオフレームシーケンスにおけるフレームレートは同じであり、例えば、毎秒６０フレームである。ただし、いくつかの実施例で、ｎ個の視野角のビデオフレームシーケンスにおけるビデオフレームの数が少し異なり、フレームレートが異なる(例えば、倍数又は比例する)場合を排除しない。ｎ個の視野角におけるビデオフレームの数が異なる場合、ｎ個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを削除又は破棄することができる。ｎ個の視野角におけるフレームレートが異なる場合には、ｎ個の視野角におけるビデオフレームの数が同じになるように、いくつかの視野角におけるビデオフレームを倍数又は比例的に削除又は破棄することができる。

ステップ１２０：ニューラルネットワークモデルに基づいてｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する。

例示的に、ニューラルネットワークモデルは、単一フレームビデオフレームを抽出する２次元手がかりを有するモデルである。ニューラルネットワークモデルは、１つ又は複数である。２次元手がかりに２次元人体キーポイント、人体分割結果及び単一フレーム人体姿勢推定が含まれることを例として、ニューラルネットワークモデルは、２次元人体キーポイントを抽出するための第１のモデル、人体分割結果を抽出するための第２のモデル、及び単一フレーム人体姿勢推定を抽出する第３のモデルを含むことができる。例示的に、第１のモデルは、Ｏｐｅｎｐｏｓｅモデルであり、第２のモデルは、イメージセマンティックセグメンテーションネットワークモデル又は人体解析(ＨｕｍａｎＰａｒｓｉｎｇ)ネットワークであり、第３のモデルは、コンボリューションニューラルネットワーク(ＣＮＮ)である。少なくともニューラルネットワークモデルによってｎ個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。

ニューラルネットワークモデルに基づいて、ｎ個の視野角における各フレームビデオフレームの初期化姿勢推定結果を抽出する。一例では、初期化姿勢推定は、単一フレームビデオフレームにおける２次元人体キーポイント、単一フレームビデオフレームにおける人体分割結果、単一フレームビデオフレームにおける人体姿勢推定を含む。

ｎ個の視野角には、第１の視野角、第２の視野角、第３の視野角の３つの視野角が含まれることを例にとる。それぞれ第１の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、第２の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定し、及び、第３の視野角における各単一フレームビデオフレームの初期化姿勢に対して結果を推定する。

ステップ１３０：初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得する。

ｎ個の視野角における各単一フレームビデオフレームに対して、初期化姿勢推定結果を初期化の入力として、第２の手がかりの制約を用いて単一フレーム単視野角の人体姿勢推定を行い、当該フレームビデオフレームの単視野角姿勢推定結果を取得する。

ｎ個の視野角のそれぞれに対して、同じ視野角における単一ビデオフレームシーケンスに属する各ビデオフレームはそれぞれ、１つの単視野角人体姿勢推定結果に対応するため、同じ視野角における対応する単視野角人体姿勢推定結果のソートに基づいて、当該視野角に対応する単視野角姿勢推定シーケンスを取得することができる。

単一視野角に対応する単視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の単視野角姿勢推定結果を含む。各単視野角姿勢推定結果は、当該視野角における各フレームビデオフレームと１対１の対応関係にある。

ステップ１４０：ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。

ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスには、同じタイムスタンプに属するｎ個の単視野角姿勢推定結果が存在する。同じタイムスタンプとは、全く同じタイムスタンプ、又は、時間差が許容差閾値よりも小さいタイムスタンプである。例えば、フレームレートが毎秒６０フレームの場合、時間差が１/６０(単位：秒)又は１/１２０(単位：秒)未満の２つのタイムスタンプは、同じタイムスタンプとみなされる。

ｎ個の単視野角姿勢推定シーケンスにありかつ同じタイムスタンプを有するｎ個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、１つの多視野角姿勢推定結果を取得する。タイムスタンプの前から後の順に、ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有するｎ個の単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を順次に行い、複数の多視野角姿勢推定結果を含む多視野角姿勢推定シーケンスを取得する。

任意選択で、多視野角姿勢推定シーケンスは、タイムスタンプの前から後の順にソートされた複数の多視野角姿勢推定結果を含み、各多視野角姿勢推定結果には、１対１で対応するタイムスタンプが存在し、異なる多視野角姿勢推定結果は、異なるタイムスタンプに対応する。

ステップ１５０：多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。

任意選択で、当該多視野角マルチフレーム姿勢推定結果は、ＳＭＰＬ＿Ｘモデルにおける姿勢パラメータθで表すことができる。

図３を参照すると、ｎ個の視野角が３つの視野角であることを例として、第１の視野角のビデオフレームシーケンス、第２の視野角のビデオフレームシーケンス及び第３の視野角のビデオフレームシーケンスが存在する。第１の視野角のビデオフレームシーケンスに対して２次元手がかり抽出を行い、第１の視野角における各ビデオフレームの２次元手がかり１２を取得し、第２の視野角のビデオフレームシーケンスに対して２次元手がかり抽出を行い、第２の視野角における各ビデオフレームの２次元手がかり１４を取得し、第３の視野角のビデオフレームシーケンスに対して２次元手がかり抽出を行い、第３の視野角における各ビデオフレームの２次元手がかり１６を取得する。

第１の視野角における各ビデオフレームの２次元手がかり１２に対して、２次元手がかり制約を用いて単一フレーム単視野角推定を行い、第１の視野角の単視野角姿勢推定シーケンス２２を取得し、第２の視野角における各ビデオフレームの２次元手がかり１４に対して、２次元手がかり制約を用いて単一フレーム単視野角推定を行い、第２の視野角の単視野角姿勢推定シーケンス２４を取得し、第３の視野角における各ビデオフレームの２次元手がかり１６に対して、２次元手がかり制約を用いて単一フレーム単視野角推定を行い、第３の視野角の単視野角姿勢推定シーケンス２６を取得する。

第１の視野角の単視野角姿勢推定シーケンス２２、第２の視野角の単視野角姿勢推定シーケンス２４、第３の視野角の単視野角姿勢推定シーケンス２６において、同じタイムスタンプを有する単視野角姿勢推定結果に対して多視野角制約を用いて単一フレーム多視野角推定を行い、多視野角姿勢推定シーケンス３０を取得する。多視野角姿勢推定シーケンス３０に対して時系列制約を用いてマルチフレーム多視野角推定を行い、多視野角マルチフレーム姿勢推定結果４０を取得する。

上記のように、本実施例によって提供される方法は、ニューラルネットワークモデルによって抽出された初期化姿勢推定結果を２次元手がかり制約として、最適化に基づく３次元姿勢推定方法を採用してマルチフレーム多視野角の人体姿勢推定を行うことにより、ニューラルネットワークモデルの姿勢推定のロバスト性を利用することができる一方、最適化に基づく方法の正確性を利用することができ、全く新しい多視野角マルチフレームの人体姿勢推定方法を提供し、人体姿勢推定の正確性を高め、多視野角制約及び時系列制約を利用して、単一フレーム単視野角の人体姿勢推定が不良な局所極値に陥りやすい状況を回避した。

ステップ１２０について、図４は、本出願の例示的な実施例による３次元人体の姿勢推定方法のフローチャートを示す。本実施例は、当該方法がコンピュータデバイスに適用される例を挙げて説明する。当該方法は以下を含む。

ステップ１２２：ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出する。

２次元人体キーポイントは、２次元画像上に位置する人体キーポイントである。例示的に、人体キーポイントは、骨格解剖学における人体関節点を用いて表すことができる。一例では、人体キーポイントは、頭、首、肩、肘、手、ヒップ、膝、足を含むが、これらに限定されない。別の例では、人体キーポイントはさらに、人間の表情を認識するための顔キーポイントを含む。別の例では、人体キーポイントはさらに、ジェスチャー動作を認識するための手キーポイントも含む。本実施例では、骨格解剖における人体関節点を人体キーポイントとして使用する。

一例では、本出願は、Ｏｐｅｎｐｏｓｅモデルを用いて２次元人体キーポイントを抽出する。Ｏｐｅｎｐｏｓｅモデルは、米カーネギーメロン大学のオープンソースプロジェクトであり、人体関節点の位置決め、顔キーポイントの位置決め及び手キーポイントの位置決めを含む。Ｏｐｅｎｐｏｓｅモデルは、２次元人体キーポイントを出力できるだけでなく、各２次元人体キーポイントの信頼度を出力することができ、信頼度は、当該２次元人体キーポイントの正確性確率を表すために使用される。

人体分割結果は、２次元画像における人体が位置する画像領域を指示するために使用される。任意選択で、本出願は、人体分割ネットワークによって画像における１つ又は複数の人体に対する人体分割を実現することができる。人体分割ネットワークは、画像特徴に基づいて人体分割を行うか、又は、人体分割ネットワークは、２次元人体キーポイントによって指示される人体骨格特徴に基づいて人体分割を行う。２次元画像に複数の人体が存在する場合、人体分割結果は、複数の人体の人体分割結果を含む。人体分割モデルは、画像意味分割ネットワークモデル又はＨｕｍａｎＰａｒｓｉｎｇネットワークである。

いくつかの実施例では、人体分割結果を決定するステップは、選択可能な実現方式である。

ステップ１２４：コンボリューションニューラルネットワークによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。

一例では、２次元画像をＣＮＮに入力して、ＣＮＮによって単一フレームビデオフレームの人体姿勢推定結果を抽出する。

ステップ１２６：前記２次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。

いくつかの実施例では、２次元人体キーポイント及び人体姿勢推定を２次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とし、他のいくつかの実施例では、２次元人体キーポイント、人体分割結果及び人体姿勢推定を２次元手がかりとして決定し、単一フレームビデオフレームの初期化姿勢推定とする。

選択可能な実現方式では、ステップ１３０は以下のことを含む。

ステップ１３２：２次元手がかり制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得する。

前記２次元手がかりの制約は、第３の再投影点と前記２次元人体キーポイントとの距離損失及び信頼度圧縮係数を含み、前記第３の再投影点は、前記単視野角姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である。

前記信頼度圧縮係数は、前記第３の再投影点と前記２次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記２次元人体キーポイントの信頼度と負の相関関係にある。

例示的に、人体分割結果によって指示される各人体について、２次元人体キーポイントの制約に基づいて、初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応する単視野角姿勢推定シーケンスを取得する。

任意選択で、以下の式に従って初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行う。

Ｅ_Ｊｉｋは、ｋ番目の視野角におけるｉ番目のフレームの画像フレームの損失関数であり、推定された人体姿勢推定結果と２次元画像における２次元手がかりとの間の差を表すために使用される。Ｋは、視野角を表し、ｉは、フレーム数を表す。βは、人体パラメータ化モデルの体型(ｓｈａｐｅ)係数であり、人体の高さ、太さを表徴するために使用される。θは、人体パラメータ化モデルの姿勢(ｐｏｓｅ)係数であり、１人の動作を表し、θ_ｉは、ｉ番目のフレームの画像フレームに対応する姿勢係数を表す。Ｊ_{ｅｓｔ,ｉ,ｊ}は、ｉ番目のフレームの画像フレームから推定されたｊ番目の２次元人体キーポイントを表し、Ｊ(β)は、人体パラメータ化モデルの関節点回帰関数であり、人体の高さ、太さに基づいて３次元空間における人体の関節点の位置を返す。Ｒ（・）は回転関数であり、姿勢係数によって３次元の人体関節点を正確位置に回転する。

は、投影関数であり、推定されたカメラパラメータＫに基づいて、３次元の人体関節点を画像空間における２次元点に投影する。Ｗ_ｊは、例えば、ユークリッド空間距離やＧＭｏＦ距離などの距離関数である。ｗ_σはソフト損失係数であり、距離関数に作用し、距離に関する増加関数である。ｒ(ｊ、ｋ)は、ｋ番目の視野角におけるｊ番目の人体キーポイントの信頼度の圧縮関数であり、非線形変換である。

一例では、

であり、

は、ｋ番目の視野角におけるｊ番目の人体キーポイントであり、２次元人体キーポイント検出モデル(例えば、Ｏｐｅｎｐｏｓｅモデル)によって推定された信頼度である。

一例では、Ｊ_{ｅｓｔ,ｊ}は、時系列平滑化及び差分補完後の時系列上のｊ番目の人体キーポイントである。ビデオフレームシーケンスで推定された２次元人体キーポイントに対して、平滑化及び補間操作を利用する。ξは信頼度閾値であり、ω_ｉは重みであり、Ｃｏｎｆ_ｉは、ｊ番目の人体キーポイントの信頼度であり、ｌｉｎｅａｒ＿ｉｎｔｅｒｐは、線形補間関数である。

一例では、ｗ_σ及びｒ(ｊ、ｋ)はいずれも選択可能な係数である。

選択可能な実現方式では、ステップ１４０は以下のことを含む。

ステップ１４２：ソフト損失係数の多視野角制約に基づいて、ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する。

前記ソフト損失係数は、前記ｎ個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。

任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行う。

Ｅ（・）は損失関数であり、Ｅ_Ｊｉｋは、ｋ番目の視野角におけるｉ番目のフレームの画像フレームの損失関数であり、ｆｒａｍｅｉは、ｉ番目のフレームの画像フレームを表し、ｖｉｅｗｋは、ｋ番目の視野角を表す。λは、予め設定された定数を表す。

は、加算符号である。Ｅ_ｐｉｋは、ｋ番目の視野角におけるｉ番目のフレームの画像フレームの正則化項損失であり、推定された体型係数及び姿勢係数の平均値(ｍｅａｎ)に対するオフセット幅を表すために使用され、不合理なパラメータ(太りすぎたり極端に歪んだりするなど)を回避する。Ｅ_Ｔｉは平滑項であり、隣接するフレームの間の差分損失を表すために使用され、隣接するフレーム間の過度な姿勢振れを回避する。

一例では、上記の初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける２次元人体キーポイントを含む。

上記の多視野角制約は、単一フレームビデオフレームに対応する多視野角姿勢推定結果の第１の再投影点と２次元人体キーポイントとの間の距離損失を含み、第１の再投影点は、多視野角姿勢推定結果における３次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。

ソフト損失係数ｗ_σは、第１の再投影点と２次元人体キーポイントとの間の距離に作用する許容係数である。

例えば、

であり、ｄは、再投影点と２次元人体キーポイントとの間の距離である。σは許容度係数である。

選択可能な実現方式では、ステップ１５０は以下を含む。

ステップ１５２：時系列制約に基づいて、多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。

任意選択で、以下の式によって多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する。

なお、Ｍ_ｉは、所定の体型係数及び姿勢係数で、特定のトポロジー構成による人体パラメータ化モデルの頂点座標セットである。ｉ-１は、ｉ番目のフレームの前のフレームを表す。λ_ｐ、λ_ｍ、λ_ｋは、予め設定された係数である。

上記の式Ｅ_Ｔｉでは、時系列制約は、３つの制約を導入する。

第一、制約

は、隣接する２フレームの間の多視野角姿勢推定結果の間の姿勢差分損失であり、隣接する２フレームの間の動作差が大きすぎないことを保証する。

第二、制約

は、隣接する２フレームの間の多視野角姿勢推定結果の間の頂点差分損失であり、隣接する２フレームの間の人体のグローバル位置の差が大きすぎないことを保証し、人体のグローバル位置は、人体の向き(ｇｌｏｂａｌｏｒｉｅｎｔａｔｉｏｎ)及び人体の位置(ｇｌｏｂａｌｔｒａｎｓｌａｔｉｏｎ)を含む。

第三、制約

は、隣接する２フレームの間の多視野角姿勢推定結果の間の３次元人体関節点の第２の再投影の差分損失であり、２次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。

つまり、多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表すため、人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有する。時系列制約は、隣接する２フレームの間の姿勢推定差分損失、隣接する２フレームの間の頂点差分損失、隣接する２フレームの間の第２の再投影点の差分損失のうち少なくとも１つを含み、第２の再投影点は、多視野角マルチフレーム姿勢推定結果における３次元人体キーポイントが単一フレームビデオフレームの所在する画像平面上に再投影される点である。

上記のように、本実施例によって提供される方法は、２次元人体キーポイント、人体分割結果及びＣＮＮによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、ＣＮＮネットワークの２次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。

一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格は人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。

しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Ｏｐｅｎｐｏｓｅモデルに基づいて抽出される２次元人体キーポイントでは十分に確立できないことを発見し、特に、ｎ個の視野角のカメラは角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Ｏｐｅｎｐｏｓｅモデルによって抽出される２次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される３次元人体キーポイントとＯｐｅｎｐｏｓｅモデルによって抽出される２次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。

一方、多視野角マルチフレームの人体姿勢推定では、３つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証でき、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証でき、フレーム間の再投影点差分損失は、２次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。

一方、本実施例によって提供される方法はさらに、係数ｒ(ｊ，ｋ)、ｒ(ｊ，ｋ)をｋ番目の視野角におけるｊ番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い２次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない２次元人体キーポイントを抑制し、それによって、２次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。

例示的な適用例では、上記の３次元人体姿勢推定方法は、バーチャル人間プロジェクトに適用される。バーチャル人間は、ＩＰバーチャルヒューマン(ＩＰＶｉｒｕａｌＨｕｍａｎ、ＩＶＨ)とも呼ばれ、音声インタラクション及びバーチャル形成生成などを利用したバーチャルキャラクターである。バーチャル人間を生成する際には、まず、ダイナミックスタジオ内に複数の視野角のカメラを設置し、実写俳優が、ダイナミックスタジオ内で身体表演及び表情表演を行い、複数の視野角のカメラが実写俳優の複数のビデオフレームシーケンスをキャプチャし、上記の３次元人体姿勢推定方法により、実写俳優の３次元人体姿勢推定結果を推定し、当該３次元人体姿勢推定結果は、人体パラメータ化モデルＳＭＰＬモデルにおける姿勢係数を用いて表す。

次に、ＳＭＰＬモデルに基づいて１つのＩＰバーチャル人間を構築する。当該ＩＰバーチャル人間は、漫画のイメージ、アニメーションキャラクター、映画のキャラクター、企業のバーチャルスポークスパーソン、バーチャルニュースキャスターなどであってもよい。上記の手順で推定された実写俳優の３次元人体姿勢推定を用いて、ＩＰバーチャル人間を駆動して実人間に匹敵する身体の動きとダイナミックな表現を実現する。

図６は、本出願の例示的な実施例による３次元人体姿勢推定装置のブロック図である。前記装置は、
ｎ個の視野角のビデオフレームシーケンスを取得するための取得モジュール６１０であって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である、取得モジュール６１０と、
ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュール６２０と、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュール６３０と、
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュール６４０と、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュール６５０と、を含む。

１つの選択可能な実施例では、前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、
前記初期化モジュール６２０は、前記ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記２次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする。任意選択で、初期化モジュール６２０は、Ｏｐｅｎｐｏｓｅモデルによってｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイント及び人体分割結果を抽出する。

１つの選択可能な実施例では、前記単視野角推定モジュール６３０は、前記２次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得する。

任意選択で、以下の式に従って初期化姿勢推定に対して単一フレーム単視野角の人体姿勢推定を行う。

前記２次元手がかりの制約は、第３の再投影点と前記２次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第３の再投影点は、前記単視野角姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記信頼度圧縮係数は、前記第３の再投影点と前記２次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記２次元人体キーポイントの信頼度と負の相関関係にある。

１つの選択可能な実施例では、前記多視野角推定モジュール６４０は、ソフト損失係数の多視野角制約に基づいて、前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記ｎ個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される。

任意選択で、以下の式に従って同じタイムスタンプを有する単視野角姿勢推定に対して単一フレーム多視野角の人体姿勢推定を行う。

１つの選択可能な実施例では、前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける２次元人体キーポイントを含む。前記多視野角制約は、第１の再投影点と前記２次元人体キーポイントとの間の距離損失を含み、前記第１の再投影点は、前記多視野角姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点であり、
前記ソフト損失係数は、前記第１の再投影点と前記２次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は前記距離と正の相関関係がある。

１つの選択可能な実施例では、前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成された人体メッシュを有し、
前記マルチフレーム推定モジュール６５０は、時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得し、
前記時系列制約は、隣接する２フレームの間の姿勢推定差分損失、隣接する２フレームの間の頂点差分損失、隣接する２フレームの間の第２の再投影点の差分損失のうち少なくとも１つを含み、前記第２の再投影点は、前記多視野角マルチフレーム姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影された点である。

任意選択で、以下の式に従って多視野角姿勢推定に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定を取得する。

上記のように、本実施例によって提供される装置は、２次元人体キーポイント、人体分割結果及びＣＮＮによって予測された人体姿勢推定を単一フレームビデオフレームの初期化姿勢推定として決定することにより、ＣＮＮネットワークの２次元人体姿勢推定におけるロバスト性を十分に利用することができ、本出願によって提供される姿勢推定方案の実用化におけるロバスト性を向上させることができる。

一方、多視野角単一フレームの人体姿勢推定では、依存する必要がある前提を、複数の視野角における人体が同一の人体骨格(複数の人体関節点を含む)を共有し、同一の人体骨格が人体パラメータ化モデルにおいて同じ体型係数を用いて標識すると仮定する。しかしながら、本発明者らは、当該多視野角が同一グループの体型係数を共有するという仮定が、Ｏｐｅｎｐｏｓｅモデルに基づいて抽出された２次元人体キーポイントでは十分に確立できないことを発見し、特に、ｎ個の視野角のカメラが角度がキャリブレーションされていないため、撮影スケールや撮影角度などの撮影条件に大きな違いがある場合、Ｏｐｅｎｐｏｓｅモデルによって抽出された２次元人体キーポイントに大きなオフセットが発生する。そこで、本実施例によって提供される方法では、発明者は、革新的にソフト損失係数を提案することによって、当該ソフト損失係数を介して、多視野角から推定される３次元人体キーポイントとＯｐｅｎｐｏｓｅモデルによって抽出される２次元人体キーポイントとの間に一定の許容距離が存在することを許可し、より優れた、より正確な人体姿勢推定結果を実現する。

一方、多視野角マルチフレームの人体姿勢推定では、３つの異なる時系列制約が導入される。フレーム間の姿勢推定差分損失は、フレーム間の差分が大きすぎないことを保証し、フレーム間の頂点差分損失は、人体のグローバル位置の差分が大きすぎないことを保証し、フレーム間の再投影点差分損失は、２次元人体キーポイントの推定誤りにより生じる誤り姿勢を減少させることができる。

一方、本実施例によって提供される装置はさらに、係数ｒ(ｊ，ｋ)、ｒ(ｊ，ｋ)をｋ番目の視野角におけるｊ番目の人体キーポイントの信頼度の圧縮関数として導入することによって、信頼度の低い２次元人体キーポイントの信頼度をさらに圧縮し、これにより、非線形変換を用いて、信頼できない２次元人体キーポイントを抑制し、それによって、２次元人体キーポイント推定時の誤差が後続の姿勢推定手順に与える誤差影響を減少させる。

なお、上記の実施例によって提供される３次元人体姿勢推定装置は、上記の各機能モジュールの分割を例に挙げて説明し、実際の適用では、上記の機能割り当てを必要に応じて異なる機能モジュールによって実現することができ、即ち、デバイスの内部構成を異なる機能モジュールに分割して、以上で説明した機能の全て又は一部を実現することができる。また、上記の実施例によって提供される３次元人体姿勢推定装置は、３次元人体姿勢推定方法の実施例と同じ考え方に属し、その具体的な実現手順について方法の実施例を参照することができ、ここで再度説明しない。

本出願は、コンピュータデバイス(端末又はサーバー)をさらに提供し、当該コンピュータデバイスは、プロセッサー及びメモリを含み、メモリには、少なくとも１つの指令が記憶され、少なくとも１つの指令は、プロセッサーによってロードされ実行されて、上記の各方法実施例による３次元人体姿勢推定方法を実現する。なお、当該コンピュータデバイスは、以下の図７に示されるコンピュータデバイスであってもよい。

図７は、本出願の例示的な実施例によるコンピュータデバイス７００の構成ブロック図を示す。当該コンピュータデバイス７００は、スマートフォン、タブレットコンピューター、ＭＰ３プレーヤ(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、動画像専門家圧縮標準オーディオレベル３)、ＭＰ４(ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、動画像専門家圧縮標準オーディオレベル４)プレーヤ、ノートパソコン又はデスクトップコンピュータであってもよい。コンピュータデバイス７００は、ユーザーデバイス、ポータブルコンピュータデバイス、ラップトップコンピュータデバイス、デスクトップコンピュータデバイスなどの他の名称と呼ばれる場合がある。

通常、コンピュータデバイス７００は、プロセッサー７０１及びメモリ７０２を含む。

プロセッサー７０１は、１つ又は複数の処理コアを含んでもよく、例えば４コアプロセッサー、８コアプロセッサーなどである。プロセッサー７０１は、ＤＳＰ(ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、デジタル信号処理)、ＦＰＧＡ(Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラブルゲートアレイ)、ＰＬＡ(ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ、プログラブル論理アレイ)の少なくとも１つのハードウェア形態で実現できる。プロセッサー７０１は、メインプロセッサー及びコプロセッサーを含み、メインプロセッサーは、ウェイクアップ状態でのデータを処理するためのプロセッサーであり、ＣＰＵ(ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央プロセッサー)とも呼ばれ、コプロセッサーは、待機状態でのデータを処理するための低電力消費プロセッサーである。いくつかの実施例では、プロセッサー７０１は、ＧＰＵ(ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、画像プロセッサー)が統合されてもよく、ＧＰＵは、ディスプレイによって表示する必要があるコンテンツのレンダリング及び描画を担当する。いくつかの実施例では、プロセッサー７０１は、機械学習に関する計算動作を処理するためのＡＩ(ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能)プロセッサーを含んでもよい。

メモリ７０２は、１つ又は複数のコンピュータ可読記憶媒体を含むことができ、当該コンピュータ可読記憶媒体は、非一時的であってもよい。メモリ７０２はまた、高速ランダムアクセスメモリ、及び不揮発性メモリ、例えば、１つ又は複数の磁気ディスク記憶装置、フラッシュメモリ記憶装置を含むことができる。いくつかの実施例では、メモリ７０２のうち非一時的なコンピュータ可読記憶媒体は、本出願の方法実施例によって提供される３次元人体姿勢推定方法を実現するためにプロセッサー７０１によって実行される少なくとも１つの指令を記憶する。

いくつかの実施例では、コンピュータデバイス７００は任意に、周辺機器インターフェース７０３及び少なくとも１つの周辺機器を含むことができる。プロセッサー７０１、メモリ７０２及び周辺機器インターフェース７０３の間は、バス又は信号線を介して接続されてもよい。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インターフェース７０３に接続されてもよい。具体的に、周辺機器は、無線周波数回路７０４、タッチディスプレイ７０５、カメラ７０６、オーディオ回路７０７、位置決めコンポーネント７０８及び電源７０９のうちの少なくとも１つを含む。

いくつかの実施例では、コンピュータデバイス７００には、１つ又は複数のセンサー７１０がさらに含まれる。当該１つ又は複数のセンサー７１０は、加速度センサー７１１、ジャイロセンサー７１２、圧力センサー７１３、指紋センサー７１４、光センサー７１５及び近接センサー７１６を含むが、これらに限定されない。

図７に示す構成は、コンピュータデバイス７００への制限を構成せず、図示よりも多く又は少ないコンポーネントを含むか、又はいくつかのコンポーネントを組み合わせ、又は異なるコンポーネント配置を採用することができる。

前記メモリには１つ以上のプログラムがさらに含まれ、前記１つ以上のプログラムはメモリに記憶され、前記１つ以上のプログラムにより、本出願の実施例による３次元人体姿勢推定方法を実行する。

本出願は、コンピュータ可読記憶媒体を提供し、前記記憶媒体は、コンピュータプログラムを記憶し、前記コンピュータプログラムにより、上記の実施例による３次元人体姿勢推定方法を実行する。

本出願はさらにコンピュータプログラム製品を提供し、当該コンピュータプログラム製品は、コンピュータで実行されるとき、コンピュータに上記の実施例による３次元人体姿勢推定方法を実行させる。

上記の本出願の実施例の番号は、説明のためのものであり、実施例の優劣を表すものではない。

上記の実施例を実現するステップの全て又は一部は、ハードウェアによって実現することができ、プログラムを介して関連するハードウェアに指示することによって実現することもでき、前記プログラムは、コンピュータ可読記憶媒体に記憶することができ、上記の記憶媒体は、読み取り専用メモリ、磁気ディスク又は光ディスクなどであってもよい。

上記の説明は、本出願の選択可能な実施例にすぎず、本出願の実施例を限定することを意図するものではなく、本出願の実施例の精神及び原理の範囲内で行われる任意の修正、均等な置換、改善などは全て、本出願の保護範囲内に含まれるものとする。

Claims

コンピュータデバイスが実行する３次元人体姿勢推定方法であって、
ｎ個の視野角のビデオフレームシーケンスを取得するステップであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である、ステップと、
ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するステップと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するステップと、
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するステップと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップと、
を含む、方法。
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得する前記ステップは、
ソフト損失係数の多視野角制約に基づいて、前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定結果を取得するステップと、
前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートして、前記多視野角姿勢推定シーケンスを取得するステップと、を含み、
前記ソフト損失係数は、前記ｎ個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項１に記載の方法。
前記初期化姿勢推定結果は、対応する単一フレームビデオフレームにおける２次元人体キーポイントを含み、
前記多視野角制約は、第１の再投影点と前記２次元人体キーポイントとの間の距離損失を含み、前記第１の再投影点は、前記多視野角姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記ソフト損失係数は、前記第１の再投影点と前記２次元人体キーポイントとの間の距離に作用する許容係数であり、前記ソフト損失係数は、前記距離と正の相関関係にある、請求項２に記載の方法。
前記多視野角マルチフレーム姿勢推定結果は、人体パラメータ化モデルにおける姿勢パラメータを用いて表し、前記人体パラメータ化モデルは、複数の定点によって形成される人体メッシュを有し、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得する前記ステップは、
時系列制約に基づいて、前記多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するステップを含み、
前記時系列制約は、隣接する２フレームの間の姿勢推定差分損失、隣接する２フレームの間の頂点差分損失、隣接する２フレームの間の第２の再投影点の差分損失のうち少なくとも１つを含み、前記第２の再投影点は、前記多視野角マルチフレーム姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に再投影される点である、請求項１から３のいずれか１項に記載の方法。
前記人体パラメータ化モデルに基づいて、前記多視野角マルチフレーム姿勢推定結果を表すための姿勢パラメータによって、前記ビデオフレームシーケンスによって示される人体に対応するバーチャル人間を生成するステップ、をさらに含む請求項４に記載の方法。
前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出する前記ステップは、
前記ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出するステップと、
前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出するステップと、
前記２次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップと、を含む、請求項１から３のいずれか１項に記載の方法。
前記ニューラルネットワークモデルはさらに、２次元人体キーポイントを抽出するための第１のモデルと、人体分割結果を抽出するための第２のモデルを含み、前記ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出する前記ステップは、
前記第１のモデルによって前記ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出するステップを含み、
前記方法はさらに、前記第２のモデルによって前記ｎ個の視野角における単一フレームビデオフレームの人体分割結果を抽出するステップを含む、請求項６に記載の方法。
前記２次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする前記ステップは、
前記２次元人体キーポイント、前記人体分割結果及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とするステップを含む、請求項７に記載の方法。
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得する前記ステップは、
前記２次元手がかりの制約に基づいて、前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するステップを含み、
前記２次元手がかりの制約は、第３の再投影点と前記２次元人体キーポイントとの間の距離損失及び信頼度圧縮係数を含み、前記第３の再投影点は、前記単視野角姿勢推定結果における３次元人体キーポイントが前記単一フレームビデオフレームの所在する画像平面上に投影される点であり、
前記信頼度圧縮係数は、前記第３の再投影点と前記２次元人体キーポイントとの間の距離に作用する圧縮係数であり、前記信頼度圧縮係数は、前記２次元人体キーポイントの信頼度と負の相関関係にある、請求項６に記載の方法。
３次元人体姿勢推定装置であって、
ｎ個の視野角のビデオフレームシーケンスを取得するための取得モジュールであって、前記ビデオフレームシーケンスは、タイムスタンプでソートされた複数のビデオフレームを含み、ｎは１より大きい整数である、取得モジュールと、
ニューラルネットワークモデルに基づいて前記ｎ個の視野角における単一フレームビデオフレームの初期化姿勢推定結果を抽出するための初期化モジュールと、
前記初期化姿勢推定結果に対して単一フレーム単視野角の人体姿勢推定を行い、ｎ個の視野角にそれぞれ対応するｎ個の単視野角姿勢推定シーケンスを取得するための単視野角推定モジュールと、
前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に基づいて、単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定シーケンスを取得するための多視野角推定モジュールと、
前記多視野角姿勢推定シーケンスにおける多視野角姿勢推定結果に対してマルチフレーム多視野角の人体姿勢推定を行い、多視野角マルチフレーム姿勢推定結果を取得するためのマルチフレーム推定モジュールと、を含む装置。
前記多視野角推定モジュールは、ソフト損失係数の多視野角制約に基づいて、前記ｎ個の単視野角姿勢推定シーケンスにおける同じタイムスタンプを有する単視野角姿勢推定結果に対して単一フレーム多視野角の人体姿勢推定を行い、多視野角姿勢推定を取得し、前記多視野角姿勢推定結果を前記タイムスタンプの前から後の順にソートし、前記多視野角姿勢推定シーケンスを取得し、
前記ソフト損失係数は、前記ｎ個の視野角を介して同一グループの人体骨格を共有使用するときに存在するオフセット誤差に対する許容を示すために使用される、請求項１０に記載の装置。
前記ニューラルネットワークモデルは、コンボリューションニューラルネットワークを含み、前記初期化モジュールは、前記ｎ個の視野角における単一フレームビデオフレームの２次元人体キーポイントを抽出し、前記コンボリューションニューラルネットワークによって前記単一フレームビデオフレームの人体姿勢推定結果を抽出し、前記２次元人体キーポイント及び前記人体姿勢推定結果を前記単一フレームビデオフレームの２次元手がかりとして決定し、前記２次元手がかりを前記単一フレームビデオフレームの初期化姿勢推定結果とする、請求項１０又は１１に記載の装置。
プロセッサー及びメモリを含むコンピュータデバイスであって、
前記メモリには、少なくとも１つの指令、少なくとも１セグメントのプログラム、コードセット又は指令セットが記憶され、
前記少なくとも１つの指令、前記少なくとも１セグメントのプログラム、前記コードセット又は指令セットは、前記プロセッサーによってロードされ実行されて、請求項１から９のいずれか１項に記載の３次元人体姿勢推定方法を実現するコンピュータデバイス。
コンピュータで実行されるとき、前記コンピュータに請求項１から９のいずれか１項に記載の３次元人体姿勢推定方法を実行させるための指令を含むコンピュータプログラム。