JP2023110913A

JP2023110913A - ３次元姿勢の調整方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2023110913A
Application number: JP2023012138A
Authority: JP
Inventors: チェン・グアンイン; Guanying Chen; イエ・シアオチン; Xiaoqing Ye; タン・シアオ; Xiao Tan; スン・ハオ; Hao Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2023-01-30
Publication date: 2023-08-09
Anticipated expiration: 2043-01-30
Also published as: CN114494334B; KR20230116735A; US20230245339A1; CN114494334A; JP7417772B2

Abstract

【課題】3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】本開示は3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体を提供し、人工知能分野に関し、具体的にはコンピュータビジョン及びディープラーニング技術に関し、具体的に3次元ビジョン及び人体駆動のシーンに用いられる。具体的な実施態様は、現在録画されているビデオを取得するステップと、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定するステップと、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得るステップと、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するステップと、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整するステップと、を含む。【選択図】図２

Description

本開示は人工知能分野に関し、具体的にはコンピュータビジョン及びディープラーニング技術に関し、具体的には３次元ビジョン及び人体駆動のシーンに用いられ、特に３次元姿勢の調整方法、装置、電子デバイス及び記憶媒体に関する。

人工知能分野においては、常に人体の３次元姿勢を取得する必要がある。従来の人体３次元姿勢の推定方法には、モーションキャプチャスーツ、光学式キャプチャデバイス等の複雑なモーションキャプチャデバイスを使用する必要があり、そのためデバイスには、単眼ビデオに基づくシンプルなモーションキャプチャ技術を幅広く応用することが求められている。これについて、当業者は単眼ビデオに基づいて人体３次元姿勢を推定する様々なアルゴリズムを継続的に試みている。

従来の解決手段における単眼ビデオに基づいて人体３次元姿勢を推定するアルゴリズムにおいては、人体の足部接地効果の制約モデルが最適化されておらず、すなわち、該アルゴリズムの精度が低く、該アルゴリズムで推定された人体３次元姿勢にはジッタ―が存在し、人体の足部動作に明らかな浮遊感が存在する。

上記課題に対して、現在まで有効な解決手段は提供されていない。

本開示は、アルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体の３次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという従来技術の技術的課題を少なくとも解決する３次元姿勢の調整方法、装置、電子デバイス及び記憶媒体を提供する。

本開示の一実施例によれば、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含むステップと、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップと、複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられるステップと、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するステップと、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整するステップと、を含む３次元姿勢の調整方法を提供する。

本開示の一実施例によれば、現在録画されているビデオを取得するために用いられ、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む取得モジュールと、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するために用いられる推定モジュールと、複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュールと、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するために用いられる決定モジュールと、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整するために用いられる調整モジュールと、を含む３次元姿勢の調整装置をさらに提供する。

本開示の一実施例によれば、少なくとも１つのプロセッサ及び少なくとも１つのプロセッサと通信接続されたメモリを含み、メモリは少なくとも１つのプロセッサによって実行可能なコマンドを記憶し、コマンドは少なくとも１つのプロセッサによって実行され、それにより少なくとも１つのプロセッサは本開示が提供する３次元姿勢の調整方法を実行することができる電子デバイスをさらに提供する。

本開示の一実施例によれば、コンピュータコマンドを記憶し、コンピュータコマンドは、コンピュータに本開示が提供する３次元姿勢の調整方法を実行させるために使用される非一時的なコンピュータ読み取り可能記憶媒体をさらに提供する。

本開示の一実施例によれば、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより本開示が提供する３次元姿勢の調整方法を実行するコンピュータプログラム製品をさら提供する。

本開示の実施例において、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含み、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得し、且つ複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられ、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより複数の目標３次元キーポイントを決定する方法を採用し、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整することにより、単眼ビデオに基づいて人体３次元姿勢を推定するアルゴリズムを改善するという目的を達成し、単眼ビデオに基づいて人体３次元姿勢を推定するアルゴリズムに接地制約を加えることによって人体の足部動作の安定性を向上させるという技術的効果を実現し、従来技術におけるアルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体３次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという技術的課題を解決する。

この部分の説明は、本開示の実施例のキーポイント又は重要な特徴を識別することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解される。

図面は本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。

図１は本開示の実施例に係る３次元姿勢の調整方法を実現するためのコンピュータ端末（又はモバイルデバイス）のハードウェア構成ブロック図である。図２は本開示の実施例による３次元姿勢の調整方法のフローチャートである。図３は本開示の実施例の好ましい３次元姿勢の調整方法に基づき人体立位姿勢の足部動作を推定した結果の概略図である。図４は本開示の実施例の好ましい３次元姿勢の調整方法に基づき人体歩行姿勢の足部動作を推定した結果の概略図である。図５は本開示の実施例による３次元姿勢の調整装置の構造ブロック図である。

以下、図面を参照しながら本開示の例示的な実施例を説明し、理解しやすいように、本開示の実施例の詳細を含むが、例示的なものにすぎないとみなされる。したがって、当業者が認識すべきことは、本開示の範囲と主旨から逸脱することなく、明細書に記載の実施例に対して様々な変更及び修正を行ってもよい。同様に、以下の説明では、公知な機能および構造についての説明は、明瞭かつ簡明のために省略される。

なお、本開示の明細書と特許請求の範囲、及び上記図面における「第１」、「第２」等の用語は類似の対象を区別するために用いられるものであり、特定の順序又は前後を説明するために用いられる必要はない。このように使用される用語は、本明細書で説明される本開示の実施例を本明細書で図示又は説明された以外の順序で実施するために、適切な状況で交換され得ることを理解されたい。また、「含む」及び「有する」という用語及びそれらの任意の同義語は、排他的でない包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置が明示的に列挙されたそれらのステップ又はユニットに限定される必要はなく、明示的に列挙されないもの、或いはこれらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットを含むことができる。

本開示によれば、3次元姿勢の調整方法を提供し、なお、図面のフローチャートに示されるステップは、コマンドの実行が可能な一組のコンピュータのようなコンピュータシステムにおいて実行されることができる。且つ、フローチャートに論理的順序が示されているが、ある状況において、ここに示される又は説明されるステップと異なる順序で実施されることができる。

本開示の実施例が提供する方法実施例は、移動端末、コンピュータ端末又は類似の電子デバイスによって実行されることができる。電子デバイスとは、ノートパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大規模コンピューター、及びその他の適合するコンピューターなどの様々な形態のデジタルコンピューターを意味する。電子デバイスは、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブルデバイス、その他同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを示すこともある。本明細書に示された構成要素、それらの接続および関係、ならびにそれらの機能は、例としてのみ意図されており、本明細書に記載および／または請求された本開示の実施を制限することを意図するものではない。図１は3次元姿勢の調整方法を実現するためのコンピュータ端末（又はモバイルデバイス）のハードウェア構成ブロック図である。

図１に示すように、コンピュータ端末１００は、リードオンリーメモリ（ＲＯＭ）１０２に記憶されたコンピュータプログラム、又はメモリユニット１０８からランダムアクセスメモリ（ＲＡＭ）１０３にロードされたコンピュータプログラムに従って、各種の適切な動作及び処理を実行することができる計算ユニット１０１を備える。ＲＡＭ１０３にはさらに、コンピュータ端末１００の動作に必要な各種プログラムやデータが記憶されてもよい。計算ユニット１０１、ＲＯＭ１０２及びＲＡＭ１０３は、バス１０４を介して相互に接続される。入出力（Ｉ／Ｏ）インタフェース１０５もバス１０４に接続される。

コンピュータ端末１００におけるキーボード、マウス等の入力ユニット１０６と、各種ディスプレイ、スピーカ等の出力ユニット１０７と、磁気ディスク、光ディスク等の記憶ユニット１０８と、ネットワークカード、モデム、無線通信送受信機等の通信ユニット１０９と、を含む複数の部品はＩ／Ｏインタフェース１０５に接続される。通信ユニット１０９は、コンピュータ端末１００がインターネット等のコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して、他の機器と情報／データを交換することを可能にする。

計算ユニット１０１は様々な処理及び計算能力を有する汎用及び／又は専用の処理コンポーネントであってもよい。計算ユニット１０１のいくつかの例として、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する各種の計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１０１は、本明細書に記載の３次元姿勢の調整方法を実行する。例えば、いくつかの実施形態では、３次元姿勢の調整方法は、メモリユニット１０８などの機器読み取り可能媒体に有形に含まれるコンピュータソフトウェアプログラムにおいて実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ１０２及び／又は通信ユニット１０９を介してコンピュータ端末１００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ１０３にロードされ且つ計算ユニット１０１によって実行される時、本明細書で説明される故障したハードディスクの位置を特定する方法の１つ又は複数のステップを実行することができる。あるいは、他の実施例では、計算ユニット１０１は、他の任意の適切な手段（例えばファームウェアを用いるなど）によって、故障したハードディスクの位置を特定する方法を実行するように構成されてもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下を含むことができる。１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び／又は解釈することができ、該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、メモリシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを該メモリシステム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に送信することができる。

なお、いくつかの好ましい実施例において、上記図１に示す電子デバイスはハードウェア素子（回路を含む）、ソフトウェア素子（コンピュータで読み取り可能な媒体に記憶されたコンピュータコードを含む）、又はハードウェア素子とソフトウェア素子の両者の組み合わせを含むことができる。なお、図１は、具体的な実施例の例示に過ぎず、上述した電子デバイス内に存在し得る部品の種類を示したものである。

上記動作環境において、本開示は図２に示す３次元姿勢の調整方法を提供し、該方法は図１に示すコンピュータ端末又は類似の電子デバイスによって実行されることができる。図２は本開示の実施例による３次元姿勢の調整方法のフローチャートである。図２に示すように、該方法は以下のステップを含むことができる。

ステップＳ２０では、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む。

上記現在録画されているビデオは静止カメラで録画された単眼ビデオであってもよく、該現在録画されているビデオは複数の画像フレームを含むことができ、ここで、各画像フレームにいずれも仮想３次元モデルが表示される。上記仮想３次元モデルは仮想人体モデルであってもよい。すなわち、上記現在録画されているビデオは仮想人体モデルの運動状態を表示するビデオである。

例えば、所定の単眼人体運動ビデオに対して、Ｖｉｄｅｏ１と記し、該ビデオはＴ個の画像フレームを含み、ここで、各画像フレームはいずれも該人体モデルを表示する。本開示の実施例によれば、Ｖｉｄｅｏ１に基づいて安定した人体３次元姿勢を推定し、最適化調整することができる。

ステップＳ２２では、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得する。

上記複数の２次元キーポイントは２次元ビデオにおける該仮想３次元モデルの表示領域内で選択された研究用のポイントであってもよい。現在録画されているビデオにおける複数の画像フレームに対して推定を行い、上記仮想３次元モデルの複数の２次元キーポイント及びモデル３次元姿勢を得ることができ、該推定して得られたモデル３次元姿勢を初期３次元姿勢と見なす。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、Ｖｉｄｅｏ１におけるＴ個の画像フレームに基づき、該仮想人体モデルのＴ個の画像フレームの各画像フレームにおける２次元キーポイント２ＤＰ＊及び初期３次元姿勢３ＤＳ＊を推定して獲得することができ、ここで、初期３次元姿勢３ＤＳ＊は関連する姿勢パラメータで表すことができる。

ステップＳ２４では、複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。

上記複数の２次元キーポイントは２次元ビデオにおける該仮想３次元モデルの目標部位の表示領域内で選択された研究用のポイントであってもよい。該複数の２次元キーポイントを利用して該仮想３次元モデルの該目標部位に対して接触検出を行い、上記検出結果を得ることができる。ここで、接触検出は該仮想３次元モデルの目標部位と上記３次元空間の目標接触面との間の接触状況を検出するために用いられ、検出結果は該目標部位と該仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、該仮想人体モデルの左右足の爪先及び踵を選択して目標部位とし、該目標部位はそれぞれ４つの２次元キーポイントに対応する。Ａ点は左足の爪先に対応し、Ｂ点は左足の踵に対応し、Ｃ点は右足の爪先に対応し、Ｄ点は右足の踵に対応し、該仮想人体モデルが位置する３次元空間点の地面を目標接触面として選択する。上記Ａ、Ｂ、Ｃ、Ｄの４つのキーポイントと上記地面との間の位置関係を検出することにより、上記左右足の爪先及び踵と上記地面との間に接触が発生したか否かを判断することができ、且つ該左右足の爪先及び踵と地面との間の接触状況を検出結果として保存し、Ｒ｛Ａ、Ｂ、Ｃ、Ｄ｝と表記する。

ステップＳ２６では、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定する。

上記初期３次元キーポイントは上記初期３次元姿勢に対応する複数のキーポイントであり、該仮想３次元モデルの目標部位と上記３次元空間の目標接触面との間の接触状況の検出結果及び該複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定することができる。

ステップＳ２８では、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整する。

上記複数の初期３次元キーポイント及び上記複数の目標３次元キーポイントに基づき、上記初期３次元姿勢を上記目標３次元姿勢に調整することができる。該初期３次元キーポイントは上記仮想３次元モデルの初期３次元姿勢に対応し、該目標３次元キーポイントは該初期３次元キーポイントを上記検出結果に基づいて変換して得られたものである。

該仮想３次元モデルの目標部位と上記３次元空間の目標接触面との間の接触状況を検出することにより、該仮想３次元モデルの初期３次元姿勢を目標３次元姿勢に変換し、該仮想３次元モデルに対する３次元姿勢の最適化操作を実現する。

図３は本開示の実施例の好ましい３次元姿勢の調整方法に基づき人体立位姿勢の足部動作を推定した結果の概略図であり、図４は本開示の実施例の好ましい３次元姿勢の調整方法に基づき人体歩行姿勢の足部動作を推定した結果の概略図である。図３及び図４に示すように、改良前のアルゴリズムで推定された人体の足部動作は本開示の実施例における初期３次元姿勢３ＤＳ＊に対応し、本開示の実施例により改良後のアルゴリズムで推定された人体の足部動作は目標３次元姿勢＃３ＤＳ＊に対応する。該初期３次元姿勢３ＤＳ＊と比べて、目標３次元姿勢＃３ＤＳ＊が表現する人体の足部動作は浮遊感が軽減され、より安定しており、仮想人体の３次元姿勢がよりリアルである。

本開示の実施例に基づく３次元姿勢の調整方法は、所定の単眼ビデオに基づき、足部接地動作が安定した人体３次元姿勢を推定することができ、本開示の実施例の応用シーンはアバター、人体駆動、拡張現実、複合現実等を含む。

本開示の上記ステップＳ２０からステップＳ２８に基づき、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む。複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得し、且つ複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられ、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定する方法を採用し、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整することにより、単眼ビデオに基づいて人体３次元姿勢を推定するアルゴリズムを改善するという目的を達成し、単眼ビデオに基づいて人体３次元姿勢を推定するアルゴリズムに接地制約を加えることによって人体の足部動作の安定性を向上させるという技術的効果を実現し、従来技術におけるアルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体３次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという技術的課題を解決する。

以下に該実施例の上記方法をさらに説明する。
好ましい実施形態として、ステップＳ２２において、複数の画像フレームに基づいて複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップは以下のステップを含む。

ステップＳ２２１では、複数の画像フレームの各画像フレームから目標領域を検出し、ここで、目標領域は仮想３次元モデルを含む。

ステップＳ２２２では、目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得する。

ステップＳ２２３では、複数の目標画像ブロックに基づいて複数の２次元キーポイント及び初期３次元姿勢を推定して獲得する。

上記複数の画像フレームは上記現在録画されているビデオにフレーミング操作を行って得られたものであってもよく、該複数の画像フレームの各画像フレームはいずれも上記仮想３次元モデルを含む。複数の画像フレームの各画像フレームから目標領域を検出する上記プロセスは該各画像フレームを検出し、該画像フレームにおける該仮想３次元モデルに属する複数の画素を目標領域としてマークすることであってもよい。

上記複数の画像フレームの各画像フレームに対応する目標領域に基づき、該複数の画像フレームの各画像フレームに対してトリミング処理を行い、複数の目標画像ブロックを取得する。該複数の目標画像ブロックに基づき、推定アルゴリズムを用いて初期３次元姿勢を得ることができ、該初期３次元姿勢は初期３次元姿勢パラメータで表すことができる。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、Ｖｉｄｅｏ１におけるＴ個の画像フレームの各画像フレームにいずれも上記仮想人体モデルが表示され、該仮想人体モデルを目標領域とし、人体画像分割モデルを介してＶｉｄｅｏ１におけるＴ個の画像フレームの各画像フレームに対して人体画像分割を行い、即ち画像フレームにおける該目標領域に属する画素を識別し、且つ該仮想人体モデルを中心とする画像ブロックを切り出し、Ｐｔと表記する。該画像ブロックＰｔを推定することにより、複数の２次元キーポイント２ＤＰ＊と初期３次元姿勢３ＤＳ＊を得ることができる。

好ましくは、上記人体画像分割モデルは高速な領域ベースの畳み込みニューラルネットワークモデル（ＦａｓｔｅｒＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、略称ＦａｓｔｅｒＲ－ＣＮＮ）であってもよく、又は、該人体画像分割モデルはさらにＦａｓｔｅｒＲ－ＣＮＮに基づいて分割マスク予測の分岐を追加したマスク領域ベースの畳み込みニューラルネットワークモデル（ＭａｓｋＲｅｇｉｏｎ－ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、略称ＭａｓｋＲ－ＣＮＮ）であってもよい。

好ましい実施形態として、ステップＳ２２３において、複数の目標画像ブロックに基づいて複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップは以下のステップを含む。

ステップＳ２２３１では、予め設定された２次元推定方式を用いて複数の目標画像ブロックから第１推定結果を推定して獲得する。

ステップＳ２２３２では、予め設定された３次元推定方式を用いて複数の目標画像ブロックから第２推定結果を推定して獲得する。

ステップＳ２２３３では、第１推定結果に対して平滑化処理を行い、複数の２次元キーポイントを得て、及び第２推定結果に対して平滑化処理を行い、初期３次元姿勢を得る。

上記予め設定された２次元推定方式は、上記複数の目標画像ブロックに基づいて上記第１推定結果を推定して獲得することができ、ここで、該第１推定結果は上記仮想３次元モデルの２次元キーポイントを得るために用いることができる。

上記予め設定された３次元推定方式は、上記複数の目標画像ブロックに基づいて上記第２推定結果を推定して獲得することができ、ここで、該第２推定結果は上記仮想３次元モデルの初期３次元姿勢を得るために用いることができる。

上記第１推定結果に基づいて、平滑化処理を経て上記仮想３次元モデルの複数の２次元キーポイントを得ることができ、上記第２推定結果に基づいて、平滑化処理を経て上記仮想３次元モデルの初期３次元姿勢を得ることができ、ここで、該初期３次元姿勢は初期３次元姿勢パラメータで表すことができる。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、上記画像ブロックＰｔを使用し、ＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓに基づく複数人２次元姿勢リアルタイム推定法（ＲｅａｌｔｉｍｅＭｕｌｔｉ－Ｐｅｒｓｏｎ２ＤＰｏｓｅＥｓｔｉｍａｔｉｏｎｕｓｉｎｇＰａｒｔＡｆｆｉｎｉｔｙＦｉｅｌｄｓ）によって、仮想人体モデルの元の２次元キーポイントを推定し、２ＤＰと表記する。

上記人体画像ブロックを使用し、モデルフィッティングサイクルに基づき人体３次元形態を再構成する学習トレーニング法（ＬｅａｒｎｉｎｇｔｏＲｅｃｏｎｓｔｒｕｃｔ３ＤＨｕｍａｎＰｏｓｅａｎｄＳｈａｐｅｖｉａＭｏｄｅｌ－ｆｉｔｔｉｎｇｉｎｔｈｅＬｏｏｐ）によって、仮想人体モデルの元の３次元姿勢を推定して獲得し、３ＤＳと表記し、且つ該元の３次元姿勢３ＤＳをスキン複数人体線形モデル（ＡＳｋｉｎｎｅｄＭｕｌｔｉ－ＰｅｒｓｏｎＬｉｎｅａｒＭｏｄｅｌ、略称ＳＭＰＬモデル）によって元の３次元姿勢パラメータθとして表す。

上記仮想人体モデルの元の２次元キーポイント２ＤＰに対して平滑化処理を行い、２次元キーポイント２ＤＰ＊を得ることができる。上記元の３次元姿勢パラメータθに対して平滑化処理を行い、３次元姿勢パラメータθ’を得ることができ、該３次元姿勢パラメータθ’は上記初期３次元姿勢を表すために用いられる。該平滑化処理は上記２次元キーポイント及び人体３次元姿勢パラメータのデータ品質を向上させることができ、更に後続の計算の精度を向上させる。

好ましくは、上記平滑化処理は、ローパスフィルタ（Ｌｏｗ－ｐａｓｓｆｉｌｔｅｒ）を用いて実現してもよい。ローパスフィルタはフィルタリングの形態であり、低周波信号の通過を許容するが、カットオフ周波数より高い周波数の信号の通過を低下又は減少させる。画像処理分野において、ローパスフィルタは画像の平滑化フィルタリングに用いられ、画像のノイズ除去、画像強調、画像合成等の効果を実現する。

好ましい実施形態として、ステップＳ２４では、複数の２次元キーポイントを利用して目標部位に対して接触検出を行い、検出結果を得るステップは以下のステップを含む。

ステップＳ２４１では、予め設定されたニューラルネットワークモデルを用いて複数の２次元キーポイントを分析し、目標部位に対応する２次元キーポイントの検出タグを得て、ここで、予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、複数組のデータにおける各組のデータはいずれも、検出タグ付きの２次元キーポイントを含み、検出タグは目標部位に対応する２次元キーポイントと目標接触面との間に接触が発生したか否かを示すために用いられる。

上記検出タグは該仮想３次元モデルの目標部位とそれが位置する３次元空間内の目標接触面との間の接触状況に対する検出結果とすることができる。上記複数の２次元キーポイントに基づき、上記予め設定されたニューラルネットワークモデルを用いて該仮想３次元モデルの目標部位に対応する２次元キーポイントの該検出タグを分析して得る。

上記予め設定されたニューラルネットワークモデルは複数組のデータに基づいて機械学習訓練により得ることができ、該複数組のデータにおける各組のデータはいずれも検出タグ付きの２次元キーポイントを含み、ここで、検出タグは上記目標部位に対応する２次元キーポイントと上記目標接触面との間に接触が発生したか否かを示すために用いられる。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、接地検出ニューラルネットワークモデルをトレーニングし、該接地検出ニューラルネットワークモデルを用いてＶｉｄｅｏ１におけるＴ個の画像フレームから得られた複数の２次元キーポイント２ＤＰ＊を分析し、該仮想人体モデルの左右足の爪先及び踵に対応する２次元キーポイントＡ、Ｂ、Ｃ、Ｄの検出タグｒ（Ａ）、ｒ（Ｂ）、ｒ（Ｃ）、ｒ（Ｄ）を得ることができる。

好ましくは、上記接地検出ニューラルネットワークモデルのトレーニングプロセスは以下のとおりである。トレーニングに用いられる初期ニューラルネットワークは３次元構造の畳み込みニューラルネットワークであり、二値交差エントロピー誤差関数を用いて該初期ニューラルネットワークをトレーニングし、ここで、トレーニングに使用されるデータは手動で接地タグをマーキングする該仮想人体モデルの複数の２次元キーポイントであってもよく、接地タグ付きの該仮想人体モデルの複数の２次元キーポイントで合成されたデータセットであってもよい。

好ましくは、上記接地検出ニューラルネットワークモデルがＶｉｄｅｏ１におけるＴ個の画像フレームのｎ番目の画像フレームにおける４つの２次元キーポイントＡ、Ｂ、Ｃ、Ｄを分析するプロセスは以下のとおりである。ｎ番目の画像フレームを取得し、同時に該画像フレームの前後でそれぞれ５つの隣接する画像フレームを取得し、すなわちｎ－５番目の画像フレームからｎ＋５番目の画像フレームまで、計１１個の隣接する画像フレームを取得し、該１１個の隣接する画像フレームの中間画像フレームはｎ番目の画像フレームである。該１１個の隣接する画像フレームを該接地検出ニューラルネットワークモデルに入力する。該接地検出ニューラルネットワークモデルの計算により、ｎ番目の画像フレーム内の該仮想人体モデルの足部接地検出タグを出力し、ｒ（Ａ）、ｒ（Ｂ）、ｒ（Ｃ）、ｒ（Ｄ）と表記する。

上記検出タグは該仮想人体モデルの足部が地面に接触するか否かを示すために用いられる。例として、２次元キーポイントＡは該仮想人体モデルの左爪先に対応し、検出タグｒ（Ａ）は該仮想人体モデルの左爪先が地面と接触する確率を示す。上記仮想人体モデルの複数の２次元キーポイントに対応する検出タグは即ち上記検出結果Ｒ｛Ａ、Ｂ、Ｃ、Ｄ｝である。

好ましい実施形態として、３次元姿勢の調整方法はさらに以下のステップを含む。
ステップＳ３０では、初期３次元姿勢の第１姿勢パラメータを利用し、複数の初期３次元キーポイントの初期値を決定する。

上記第１姿勢パラメータは上記仮想３次元モデルの初期３次元姿勢パラメータであってもよく、該第１姿勢パラメータにより、上記複数の初期３次元キーポイントの初期値を決定することができ、該初期値は該初期３次元キーポイントの位置座標であってもよい。

引き続きＶｉｄｅｏ１に基づいた人体３次元姿勢の調整を例として、上記初期３次元姿勢パラメータθ’に基づき、人体の初期３次元キーポイントの初期位置を得ることができ、Ｊ_３Ｄと表記する。該初期３次元キーポイントの初期位置Ｊ_３Ｄを、該初期３次元キーポイントの初期値とする。

好ましい実施形態として、ステップＳ２６では、検出結果と複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するステップは、以下のステップを含む。

ステップＳ２６１では、複数の初期３次元キーポイントの初期値を用いて複数の目標３次元キーポイントを初期化し、複数の目標３次元キーポイントの初期値を得る。

ステップＳ２６２では、目標部位に対応する３次元キーポイントの複数の画像フレームの各画像フレームにおける表示位置及び表示位置に対応する検出タグを取得する。

ステップＳ２６３では、表示位置に対応する検出タグに基づき、複数の目標３次元キーポイントから一部の３次元キーポイントを選択し、ここで、選択された一部の３次元キーポイントと目標接触面との間に接触が発生する。

ステップＳ２６４では、選択された一部の３次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得る。

ステップＳ２６５では、更新対象位置に応じて複数の目標３次元キーポイントの初期値を更新し、複数の目標３次元キーポイントの目標値を得る。

上記複数の初期３次元キーポイントの初期値を取得し、該初期値を用いて複数の目標３次元キーポイントに対して対応する初期化を行い、該複数の目標３次元キーポイントの初期値を得ることができる。ここで、一度の初期化操作は、ある初期３次元キーポイントの初期値を該初期３次元キーポイントに対応する目標３次元キーポイントに割り当てることであってもよい。

上記仮想３次元モデルの目標部位に対して、対応する目標３次元キーポイントが存在し、該目標３次元キーポイントの現在録画されているビデオにおける複数の画像フレームの各画像フレームにおける表示位置を取得することができ、該表示位置は該目標３次元キーポイントの対応する画像フレームにおける位置座標で表すことができ、同時に該表示位置に対応する検出タグを取得し、該検出タグは該表示位置における該目標部位に対応する目標３次元キーポイントと上記目標接触面との間に接触が発生したか否かを示すために用いられる。

上記複数の表示位置に対応する複数の検出タグにより、上記複数の目標３次元キーポイントと上記目標接触面との間が接触するか否かを得ることができ、さらに該複数の目標３次元キーポイントから該目標接触面と接触する一部の３次元キーポイントを選択し、且つ該一部の３次元キーポイントの表示位置を取得し、該表示位置は該一部の３次元キーポイントの対応する画像フレームにおける位置座標を用いて表すことができる。

上記一部の３次元キーポイントの表示位置に対して平均値計算を行い、計算して得られた平均値を対応する目標３次元キーポイントに該目標３次元キーポイントの目標値として割り当てる。前記操作によって複数の目標３次元キーポイントに対応する位置を更新する。

好ましい実施形態として、ステップＳ２８では、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整するステップは以下のステップを含む。

ステップＳ２８１では、複数の初期３次元キーポイントの初期値と複数の目標３次元キーポイントの目標値を用いて、第１姿勢パラメータを最適化し、第２姿勢パラメータを得る。

ステップＳ２８２では、第２姿勢パラメータに基づいて初期３次元姿勢を目標３次元姿勢に調整する。

複数の初期３次元キーポイントの上記初期値と複数の目標３次元キーポイントの上記目標値に基づき、該第１姿勢パラメータを最適化して該第２姿勢パラメータを得ることができる。上記第１姿勢パラメータは上記仮想３次元モデルの初期３次元姿勢パラメータであってもよく、上記第２姿勢パラメータは上記仮想３次元モデルの目標３次元姿勢パラメータであってもよい。これにより、第２姿勢パラメータに基づき、上記仮想３次元モデルの初期３次元姿勢を目標３次元姿勢に調整することができ、即ち該仮想３次元モデルの３次元姿勢の最適化を実現する。

最適化された目標３次元姿勢パラメータに基づき、該仮想人体モデルの左右足の爪先及び踵の姿勢を調整及び最適化することができ、最終的に表現される該仮想人体モデルの足の動きにおいてジッタ―を減少させて、浮遊感を軽減し、Ｖｉｄｅｏ１に基づいて推定された人体３次元姿勢をよりリアルにする。

特に、上記最適化プロセスで使用される最適化方法はランダム最適化法（ＡＭｅｔｈｏｄｆｏｒＳｔｏｃｈａｓｔｉｃＯｐｔｉｍｉｚａｔｉｏｎ、略称ＡＤＡＭ）又は記憶制限ＢＦＧＳ法（Ｌｉｍｉｔｅｄ－ｍｅｍｏｒｙＢＦＧＳ）であってもよく、ここで、ＢＦＧＳ法はＢｒｏｙｄｅｎ（Ｃ．Ｇ．Ｂｒｏｙｄｅｎ）、Ｆｌｅｔｃｈｅｒ（Ｒ．Ｆｌｅｔｃｈｅｒ）、Ｇｏｌｄｆａｒｂ（Ｄ．Ｇｏｌｄｆａｒｂ）及びＳｈａｎｎｏ（Ｄ．Ｆ．Ｓｈａｎｎｏ）によって研究され、そこから命名されたものである。

以上の実施形態の説明により、当業者は上記実施例の方法がソフトウェア及び必要な汎用ハードウェアプラットフォームの方式によって実現できることを明確に理解でき、当然ながらハードウェアであってもよいが、多くの場合に前者はより好ましい実施形態である。このような理解に基づき、本開示の技術的解決手段は実質的に、又は従来技術に寄与する部分をソフトウェア製品の形式で具現化することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、いくつかのコマンドを含み１台の端末デバイス（携帯電話、コンピュータ、サーバ、又はネットワークデバイス等であってもよい）により本開示の各実施例に記載の方法を実行する。

本開示ではさらに３次元姿勢の調整装置を提供し、該装置は上記実施例及び好ましい実施形態を実現するために用いられ、既に説明したものについては説明を省略する。以下で使用されるように、「モジュール」という用語は、所定の機能を実現することができるソフトウェア及び／又はハードウェアの組み合わせである。以下の実施例で説明される装置はソフトウェアで実現することが好ましいが、ハードウェア、又はソフトウェアとハードウェアの組み合わせによる実現も可能であり且つ考えられる。

図５は本開示の実施例に基づき提供される３次元姿勢の調整装置の構造ブロック図であり、図５に示すように、３次元姿勢の調整装置５００は、
現在録画されているビデオを取得するために用いられ、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む取得モジュール５０１と、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するために用いられる推定モジュール５０２と、複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュール５０３と、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するために用いられる決定モジュール５０４と、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整するために用いられる調整モジュール５０５と、を含む。

好ましくは、推定モジュール５０２は、さらに、複数の画像フレームの各画像フレームから目標領域を検出し、ここで、目標領域は仮想３次元モデルを含むステップと、目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得するステップと、複数の目標画像ブロックに基づいて複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップと、に用いられる。

好ましくは、推定モジュール５０２は、さらに、予め設定された２次元推定方式を用いて複数の目標画像ブロックから第１推定結果を推定して獲得するステップと、予め設定された３次元推定方式を用いて複数の目標画像ブロックから第２推定結果を推定して獲得するステップと、第１推定結果に対して平滑化処理を行い、複数の２次元キーポイントを得て、及び第２推定結果に対して平滑化処理を行い、初期３次元姿勢を得るステップと、に用いられる。

好ましくは、検出モジュール５０３は、さらに、予め設定されたニューラルネットワークモデルを用いて複数の２次元キーポイントを分析し、目標部位に対応する２次元キーポイントの検出タグを得て、ここで、予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、複数組のデータにおける各組のデータはいずれも、検出タグ付きの２次元キーポイントを含み、検出タグは目標部位に対応する２次元キーポイントと目標接触面との間に接触が発生したか否かを示すために用いられるステップに用いられる。

好ましくは、３次元姿勢の調整装置５００は、さらに、初期３次元姿勢の第１姿勢パラメータを利用し、複数の初期３次元キーポイントの初期値を決定するために用いられる初期化モジュール５０６（図示せず）を含む。

好ましくは、決定モジュール５０４は、さらに、複数の初期３次元キーポイントの初期値を用いて複数の目標３次元キーポイントを初期化し、複数の目標３次元キーポイントの初期値を得るステップと、目標部位に対応する３次元キーポイントの複数の画像フレームの各画像フレームにおける表示位置及び表示位置に対応する検出タグを取得するステップと、表示位置に対応する検出タグに基づき、複数の目標３次元キーポイントから一部の３次元キーポイントを選択し、ここで、選択された一部の３次元キーポイントと目標接触面との間に接触が発生するステップと、選択された一部の３次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得るステップと、更新対象位置に応じて複数の目標３次元キーポイントの初期値を更新し、複数の目標３次元キーポイントの目標値を得るステップと、に用いられる。

好ましくは、調整モジュール５０５は、さらに、複数の初期３次元キーポイントの初期値と複数の目標３次元キーポイントの目標値を用いて、第１姿勢パラメータを最適化し、第２姿勢パラメータを得るステップと、第２姿勢パラメータに基づいて初期３次元姿勢を目標３次元姿勢に調整するステップと、に用いられる。

なお、上記各モジュールはソフトウェア又はハードウェアによって実現することができ、後者については、上記モジュールはいずれも同一のプロセッサ内に位置するか、又は上記各モジュールは任意の組み合わせの形式でそれぞれ異なるプロセッサ内に位置する方式で実現することができるが、これに限定されない。

本開示の実施例に基づき、本開示は、メモリ及び少なくとも１つのプロセッサを含み、該メモリにコンピュータコマンドが記憶され、該プロセッサはコンピュータコマンドを実行して上記いずれかの方法の実施例におけるステップを実行するように設定される電子デバイスをさらに提供する。

好ましくは、上記電子デバイスはさらに伝送デバイス及び入出力デバイスを含み、ここで、該伝送デバイスは上記プロセッサに接続され、該入出力デバイスは上記プロセッサに接続されることができる。

好ましくは、本実施例において、上記プロセッサはコンピュータプログラムによって以下のステップを実行するように設定することができる。

ステップＳ１では、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む。

ステップＳ２では、複数の画像フレームに基づいて仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得する。

ステップＳ３では、複数の２次元キーポイントを利用して仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。

ステップＳ４では、検出結果と初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定する。

ステップＳ５では、複数の初期３次元キーポイント及び複数の目標３次元キーポイントを用いて初期３次元姿勢を目標３次元姿勢に調整する。

好ましくは、本実施例における具体的な例は上記実施例及び好ましい実施形態で説明した例を参照することができ、本実施例はここでの説明を省略する。

本開示の実施例に基づき、本開示は、コンピュータコマンドが記憶され、ここで、該コンピュータコマンドは実行時に上記いずれかの方法の実施例におけるステップを実行するように設定される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。

好ましくは、本実施例において、上記不揮発性記憶媒体は以下のステップを実行するためのコンピュータプログラムを記憶するように設定することができる。

任意選択的に、本実施例においては、上記非一時的コンピュータ可読記憶媒体は、ＵＳＢメモリ、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディスク、磁気ディスク又は光ディスク等のプログラムコードを記憶可能な各種媒体を含むが、これらに限定されない。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラム製品を提供する。本開示の3次元姿勢の調整方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせによりプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図における所定の機能／操作が実施可能である。プログラムコードは、全部又は一部がマシンに実行されてもよく、個別ウェアパッケージとして、一部がマシンに実行され且つその他の一部にリモートマシンに実行されるか、或いは、全部がリモートマシン又はサーバーに実行されてもよい。

上記本開示の実施例番号は説明のためのものであり、実施例の優劣を表すものではない。

本開示の上記実施例において、各実施例に対する説明はいずれもある方面に重点が置かれており、ある実施例において詳述されていない部分は、他の実施例の関連説明を参照することができる。

本開示が提供するいくつかの実施例において、当然のことながら、開示された技術内容は、他の方式で実現することができる。これまで説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は論理機能による分割であってもよく、実装時には他の分割方式を有してもよく、例えば複数のユニット又はアセンブリを別のシステムに組み合わせるか又は集積してもよく、又はいくつかの特徴を無視し、又は実行しなくてもよい。別の点では、図示又は議論される相互の結合又は直接的な結合、又は通信接続は、インターフェース、ユニット又はモジュールを介した間接的な結合又は通信接続であってもよく、電気的又は他の形態であってもよい。

前記分離部材として説明されたユニットは物理的に分離してもよく又は分離しなくてもよく、ユニットとして示された部材は物理的ユニットであってもよく又はそうでなくてもよく、すなわち一箇所に位置してもよく、又は複数のユニットに分布していてもよい。実際の必要に応じてそのうちの一部又は全てのユニットを選択して本実施例の解決手段の目的を達成することができる。

また、本開示の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットが単独で物理的に存在してもよく、２つ以上のユニットが１つのユニットに集積されてもよい。上記集積されるユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。

上記集積されるユニットがソフトウェア機能ユニットの形式で実現され且つ独立した製品として販売又は使用される場合、コンピュータで読み取り可能な記憶媒体に記憶することができる。このような理解に基づき、本開示の技術的解決手段は、実質的部分である従来技術に寄与する部分又は該技術的解決手段の全て又は一部をソフトウェア製品の形式で実現することができる。該コンピュータソフトウェア製品は、記憶媒体に記憶される製品であり、１台のコンピュータ装置（パーソナルコンピュータ、サーバ、又はネットワーク装置等であってもよい）により本開示の各実施例に記載の方法の全て又は一部のステップを実行するいくつかのコマンドが含まれる。前述した記憶媒体は、ＵＳＢメモリ、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リムーバブルハードディスク、磁気ディスク又は光ディスク等のプログラムコードを記憶可能な各種媒体を含む。

以上の記載は本開示の好ましい実施形態に過ぎず、明らかなこととして、当業者であれば、本開示の原理から逸脱しない前提で、更に幾つかの改良及び変更を行うことができ、それらの改良及び変更も本開示の保護範囲とみなされるべきである。

Claims

現在録画されているビデオを取得し、前記ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含むステップと、
前記複数の画像フレームに基づいて前記仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップと、
前記複数の２次元キーポイントを利用して前記仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得て、前記検出結果は前記目標部位と前記仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられるステップと、
前記検出結果と前記初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するステップと、
前記複数の初期３次元キーポイント及び前記複数の目標３次元キーポイントを用いて前記初期３次元姿勢を目標３次元姿勢に調整するステップと、を含む３次元姿勢の調整方法。
前記複数の画像フレームに基づいて前記複数の２次元キーポイント及び前記初期３次元姿勢を推定して獲得する前記ステップは、
前記複数の画像フレームの各画像フレームから目標領域を検出し、前記目標領域は前記仮想３次元モデルを含むステップと、
前記目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得するステップと、
前記複数の目標画像ブロックに基づいて前記複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するステップと、を含む請求項１に記載の方法。
前記複数の目標画像ブロックに基づいて前記複数の２次元キーポイント及び前記初期３次元姿勢を推定して獲得する前記ステップは、
予め設定された２次元推定方式を用いて前記複数の目標画像ブロックから第１推定結果を推定して獲得するステップと、
予め設定された３次元推定方式を用いて前記複数の目標画像ブロックから第２推定結果を推定して獲得するステップと、
前記第１推定結果に対して平滑化処理を行い、前記複数の２次元キーポイントを得て、及び前記第２推定結果に対して平滑化処理を行い、前記初期３次元姿勢を得るステップと、を含む請求項２に記載の方法。
前記複数の２次元キーポイントを利用して前記目標部位に対して接触検出を行い、前記検出結果を取得する前記ステップは、
予め設定されたニューラルネットワークモデルを用いて前記複数の２次元キーポイントを分析し、前記目標部位に対応する２次元キーポイントの検出タグを得るステップであって、前記予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、前記複数組のデータにおける各組のデータはいずれも、検出タグ付きの２次元キーポイントを含み、前記検出タグは前記目標部位に対応する２次元キーポイントと前記目標接触面との間に接触が発生したか否かを示すために用いられるステップを含む、請求項１に記載の方法。
前記初期３次元姿勢の第１姿勢パラメータを利用し、前記複数の初期３次元キーポイントの初期値を決定するステップをさらに含む、請求項４に記載の方法。
前記検出結果及び前記複数の初期３次元キーポイントにより、前記複数の目標３次元キーポイントを決定する前記ステップは、
前記複数の初期３次元キーポイントの初期値を用いて前記複数の目標３次元キーポイントを初期化し、前記複数の目標３次元キーポイントの初期値を得るステップと、
前記目標部位に対応する３次元キーポイントの前記複数の画像フレームの各画像フレームにおける表示位置及び前記表示位置に対応する検出タグを取得するステップと、
前記表示位置に対応する検出タグに基づき、前記複数の目標３次元キーポイントから一部の３次元キーポイントを選択し、選択された一部の３次元キーポイントと前記目標接触面との間に接触が発生するステップと、
選択された一部の３次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得るステップと、
前記更新対象位置に応じて前記複数の目標３次元キーポイントの初期値を更新し、前記複数の目標３次元キーポイントの目標値を得るステップと、を含む請求項５に記載の方法。
前記複数の初期３次元キーポイント及び前記複数の目標３次元キーポイントを用いて前記初期３次元姿勢を前記目標３次元姿勢に調整する前記ステップは、
前記複数の初期３次元キーポイントの初期値と前記複数の目標３次元キーポイントの目標値を用いて、前記第１姿勢パラメータを最適化し、第２姿勢パラメータを得るステップと、
前記第２姿勢パラメータに基づいて前記初期３次元姿勢を前記目標３次元姿勢に調整するステップと、を含む請求項６に記載の方法。
現在録画されているビデオを取得するために用いられ、前記ビデオは、各画像フレームにいずれも仮想３次元モデルが表示される複数の画像フレームを含む取得モジュールと、
前記複数の画像フレームに基づいて前記仮想３次元モデルの複数の２次元キーポイント及び初期３次元姿勢を推定して獲得するために用いられる推定モジュールと、
前記複数の２次元キーポイントを利用して前記仮想３次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、前記検出結果は前記目標部位と前記仮想３次元モデルが位置する３次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュールと、
前記検出結果と前記初期３次元姿勢に対応する複数の初期３次元キーポイントにより、複数の目標３次元キーポイントを決定するために用いられる決定モジュールと、
前記複数の初期３次元キーポイント及び前記複数の目標３次元キーポイントを用いて前記初期３次元姿勢を目標３次元姿勢に調整するために用いられる調整モジュールと、を含む３次元姿勢の調整装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリは前記少なくとも１つのプロセッサによって実行可能なコマンドを記憶し、前記コマンドは前記少なくとも１つのプロセッサによって実行され、それにより前記少なくとも１つのプロセッサは請求項１～７のいずれか一項に記載の方法を実行することができる電子デバイス。
請求項１～７のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行されると、請求項１～７のいずれか一項に記載の方法を実現するコンピュータプログラム。