JP7417772B2 - 3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体 - Google Patents

3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体 Download PDF

Info

Publication number
JP7417772B2
JP7417772B2 JP2023012138A JP2023012138A JP7417772B2 JP 7417772 B2 JP7417772 B2 JP 7417772B2 JP 2023012138 A JP2023012138 A JP 2023012138A JP 2023012138 A JP2023012138 A JP 2023012138A JP 7417772 B2 JP7417772 B2 JP 7417772B2
Authority
JP
Japan
Prior art keywords
dimensional
target
key points
initial
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023012138A
Other languages
English (en)
Other versions
JP2023110913A (ja
Inventor
チェン・グアンイン
イエ・シアオチン
タン・シアオ
スン・ハオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023110913A publication Critical patent/JP2023110913A/ja
Application granted granted Critical
Publication of JP7417772B2 publication Critical patent/JP7417772B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本開示は人工知能分野に関し、具体的にはコンピュータビジョン及びディープラーニング技術に関し、具体的には3次元ビジョン及び人体駆動のシーンに用いられ、特に3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体に関する。
人工知能分野においては、常に人体の3次元姿勢を取得する必要がある。従来の人体3次元姿勢の推定方法には、モーションキャプチャスーツ、光学式キャプチャデバイス等の複雑なモーションキャプチャデバイスを使用する必要があり、そのためデバイスには、単眼ビデオに基づくシンプルなモーションキャプチャ技術を幅広く応用することが求められている。これについて、当業者は単眼ビデオに基づいて人体3次元姿勢を推定する様々なアルゴリズムを継続的に試みている。
従来の解決手段における単眼ビデオに基づいて人体3次元姿勢を推定するアルゴリズムにおいては、人体の足部接地効果の制約モデルが最適化されておらず、すなわち、該アルゴリズムの精度が低く、該アルゴリズムで推定された人体3次元姿勢にはジッタ―が存在し、人体の足部動作に明らかな浮遊感が存在する。
上記課題に対して、現在まで有効な解決手段は提供されていない。
本開示は、アルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体の3次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという従来技術の技術的課題を少なくとも解決する3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体を提供する。
本開示の一実施例によれば、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含むステップと、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップと、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられるステップと、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するステップと、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整するステップと、を含む3次元姿勢の調整方法を提供する。
本開示の一実施例によれば、現在録画されているビデオを取得するために用いられ、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む取得モジュールと、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するために用いられる推定モジュールと、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュールと、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するために用いられる決定モジュールと、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整するために用いられる調整モジュールと、を含む3次元姿勢の調整装置をさらに提供する。
本開示の一実施例によれば、少なくとも1つのプロセッサ及び少なくとも1つのプロセッサと通信接続されたメモリを含み、メモリは少なくとも1つのプロセッサによって実行可能なコマンドを記憶し、コマンドは少なくとも1つのプロセッサによって実行され、それにより少なくとも1つのプロセッサは本開示が提供する3次元姿勢の調整方法を実行することができる電子デバイスをさらに提供する。
本開示の一実施例によれば、コンピュータコマンドを記憶し、コンピュータコマンドは、コンピュータに本開示が提供する3次元姿勢の調整方法を実行させるために使用される非一時的なコンピュータ読み取り可能記憶媒体をさらに提供する。
本開示の一実施例によれば、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより本開示が提供する3次元姿勢の調整方法を実行するコンピュータプログラム製品をさら提供する。
本開示の実施例において、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含み、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得し、且つ複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられ、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより複数の目標3次元キーポイントを決定する方法を採用し、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整することにより、単眼ビデオに基づいて人体3次元姿勢を推定するアルゴリズムを改善するという目的を達成し、単眼ビデオに基づいて人体3次元姿勢を推定するアルゴリズムに接地制約を加えることによって人体の足部動作の安定性を向上させるという技術的効果を実現し、従来技術におけるアルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体3次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという技術的課題を解決する。
この部分の説明は、本開示の実施例のキーポイント又は重要な特徴を識別することを意図したものではなく、本開示の範囲を限定することを意図したものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解される。
図面は本解決手段をよりよく理解するためのものであり、本開示を限定するものではない。
図1は本開示の実施例に係る3次元姿勢の調整方法を実現するためのコンピュータ端末(又はモバイルデバイス)のハードウェア構成ブロック図である。 図2は本開示の実施例による3次元姿勢の調整方法のフローチャートである。 図3は本開示の実施例の好ましい3次元姿勢の調整方法に基づき人体立位姿勢の足部動作を推定した結果の概略図である。 図4は本開示の実施例の好ましい3次元姿勢の調整方法に基づき人体歩行姿勢の足部動作を推定した結果の概略図である。 図5は本開示の実施例による3次元姿勢の調整装置の構造ブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を説明し、理解しやすいように、本開示の実施例の詳細を含むが、例示的なものにすぎないとみなされる。したがって、当業者が認識すべきことは、本開示の範囲と主旨から逸脱することなく、明細書に記載の実施例に対して様々な変更及び修正を行ってもよい。同様に、以下の説明では、公知な機能および構造についての説明は、明瞭かつ簡明のために省略される。
なお、本開示の明細書と特許請求の範囲、及び上記図面における「第1」、「第2」等の用語は類似の対象を区別するために用いられるものであり、特定の順序又は前後を説明するために用いられる必要はない。このように使用される用語は、本明細書で説明される本開示の実施例を本明細書で図示又は説明された以外の順序で実施するために、適切な状況で交換され得ることを理解されたい。また、「含む」及び「有する」という用語及びそれらの任意の同義語は、排他的でない包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置が明示的に列挙されたそれらのステップ又はユニットに限定される必要はなく、明示的に列挙されないもの、或いはこれらのプロセス、方法、製品又は装置に固有の他のステップ又はユニットを含むことができる。
本開示によれば、3次元姿勢の調整方法を提供し、なお、図面のフローチャートに示されるステップは、コマンドの実行が可能な一組のコンピュータのようなコンピュータシステムにおいて実行されることができる。且つ、フローチャートに論理的順序が示されているが、ある状況において、ここに示される又は説明されるステップと異なる順序で実施されることができる。
本開示の実施例が提供する方法実施例は、移動端末、コンピュータ端末又は類似の電子デバイスによって実行されることができる。電子デバイスとは、ノートパソコン、デスクトップパソコン、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、大規模コンピューター、及びその他の適合するコンピューターなどの様々な形態のデジタルコンピューターを意味する。電子デバイスは、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブルデバイス、その他同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを示すこともある。本明細書に示された構成要素、それらの接続および関係、ならびにそれらの機能は、例としてのみ意図されており、本明細書に記載および/または請求された本開示の実施を制限することを意図するものではない。図1は3次元姿勢の調整方法を実現するためのコンピュータ端末(又はモバイルデバイス)のハードウェア構成ブロック図である。
図1に示すように、コンピュータ端末100は、リードオンリーメモリ(ROM)102に記憶されたコンピュータプログラム、又はメモリユニット108からランダムアクセスメモリ(RAM)103にロードされたコンピュータプログラムに従って、各種の適切な動作及び処理を実行することができる計算ユニット101を備える。RAM103にはさらに、コンピュータ端末100の動作に必要な各種プログラムやデータが記憶されてもよい。計算ユニット101、ROM102及びRAM103は、バス104を介して相互に接続される。入出力(I/O)インタフェース105もバス104に接続される。
コンピュータ端末100におけるキーボード、マウス等の入力ユニット106と、各種ディスプレイ、スピーカ等の出力ユニット107と、磁気ディスク、光ディスク等の記憶ユニット108と、ネットワークカード、モデム、無線通信送受信機等の通信ユニット109と、を含む複数の部品はI/Oインタフェース105に接続される。通信ユニット109は、コンピュータ端末100がインターネット等のコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他の機器と情報/データを交換することを可能にする。
計算ユニット101は様々な処理及び計算能力を有する汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット101のいくつかの例として、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する各種の計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット101は、本明細書に記載の3次元姿勢の調整方法を実行する。例えば、いくつかの実施形態では、3次元姿勢の調整方法は、メモリユニット108などの機器読み取り可能媒体に有形に含まれるコンピュータソフトウェアプログラムにおいて実現することができる。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM102及び/又は通信ユニット109を介してコンピュータ端末100にロード及び/又はインストールされることができる。コンピュータプログラムがRAM103にロードされ且つ計算ユニット101によって実行される時、本明細書で説明される故障したハードディスクの位置を特定する方法の1つ又は複数のステップを実行することができる。あるいは、他の実施例では、計算ユニット101は、他の任意の適切な手段(例えばファームウェアを用いるなど)によって、故障したハードディスクの位置を特定する方法を実行するように構成されてもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下を含むことができる。1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、メモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及びコマンドを受信し、且つデータ及びコマンドを該メモリシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に送信することができる。
なお、いくつかの好ましい実施例において、上記図1に示す電子デバイスはハードウェア素子(回路を含む)、ソフトウェア素子(コンピュータで読み取り可能な媒体に記憶されたコンピュータコードを含む)、又はハードウェア素子とソフトウェア素子の両者の組み合わせを含むことができる。なお、図1は、具体的な実施例の例示に過ぎず、上述した電子デバイス内に存在し得る部品の種類を示したものである。
上記動作環境において、本開示は図2に示す3次元姿勢の調整方法を提供し、該方法は図1に示すコンピュータ端末又は類似の電子デバイスによって実行されることができる。図2は本開示の実施例による3次元姿勢の調整方法のフローチャートである。図2に示すように、該方法は以下のステップを含むことができる。
ステップS20では、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む。
上記現在録画されているビデオは静止カメラで録画された単眼ビデオであってもよく、該現在録画されているビデオは複数の画像フレームを含むことができ、ここで、各画像フレームにいずれも仮想3次元モデルが表示される。上記仮想3次元モデルは仮想人体モデルであってもよい。すなわち、上記現在録画されているビデオは仮想人体モデルの運動状態を表示するビデオである。
例えば、所定の単眼人体運動ビデオに対して、Video1と記し、該ビデオはT個の画像フレームを含み、ここで、各画像フレームはいずれも該人体モデルを表示する。本開示の実施例によれば、Video1に基づいて安定した人体3次元姿勢を推定し、最適化調整することができる。
ステップS22では、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得する。
上記複数の2次元キーポイントは2次元ビデオにおける該仮想3次元モデルの表示領域内で選択された研究用のポイントであってもよい。現在録画されているビデオにおける複数の画像フレームに対して推定を行い、上記仮想3次元モデルの複数の2次元キーポイント及びモデル3次元姿勢を得ることができ、該推定して得られたモデル3次元姿勢を初期3次元姿勢と見なす。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、Video1におけるT個の画像フレームに基づき、該仮想人体モデルのT個の画像フレームの各画像フレームにおける2次元キーポイント2DP*及び初期3次元姿勢3DS*を推定して獲得することができ、ここで、初期3次元姿勢3DS*は関連する姿勢パラメータで表すことができる。
ステップS24では、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。
上記複数の2次元キーポイントは2次元ビデオにおける該仮想3次元モデルの目標部位の表示領域内で選択された研究用のポイントであってもよい。該複数の2次元キーポイントを利用して該仮想3次元モデルの該目標部位に対して接触検出を行い、上記検出結果を得ることができる。ここで、接触検出は該仮想3次元モデルの目標部位と上記3次元空間の目標接触面との間の接触状況を検出するために用いられ、検出結果は該目標部位と該仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、該仮想人体モデルの左右足の爪先及び踵を選択して目標部位とし、該目標部位はそれぞれ4つの2次元キーポイントに対応する。A点は左足の爪先に対応し、B点は左足の踵に対応し、C点は右足の爪先に対応し、D点は右足の踵に対応し、該仮想人体モデルが位置する3次元空間点の地面を目標接触面として選択する。上記A、B、C、Dの4つのキーポイントと上記地面との間の位置関係を検出することにより、上記左右足の爪先及び踵と上記地面との間に接触が発生したか否かを判断することができ、且つ該左右足の爪先及び踵と地面との間の接触状況を検出結果として保存し、R{A、B、C、D}と表記する。
ステップS26では、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定する。
上記初期3次元キーポイントは上記初期3次元姿勢に対応する複数のキーポイントであり、該仮想3次元モデルの目標部位と上記3次元空間の目標接触面との間の接触状況の検出結果及び該複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定することができる。
Figure 0007417772000001
ステップS28では、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整する。
上記複数の初期3次元キーポイント及び上記複数の目標3次元キーポイントに基づき、上記初期3次元姿勢を上記目標3次元姿勢に調整することができる。該初期3次元キーポイントは上記仮想3次元モデルの初期3次元姿勢に対応し、該目標3次元キーポイントは該初期3次元キーポイントを上記検出結果に基づいて変換して得られたものである。
該仮想3次元モデルの目標部位と上記3次元空間の目標接触面との間の接触状況を検出することにより、該仮想3次元モデルの初期3次元姿勢を目標3次元姿勢に変換し、該仮想3次元モデルに対する3次元姿勢の最適化操作を実現する。
Figure 0007417772000002
図3は本開示の実施例の好ましい3次元姿勢の調整方法に基づき人体立位姿勢の足部動作を推定した結果の概略図であり、図4は本開示の実施例の好ましい3次元姿勢の調整方法に基づき人体歩行姿勢の足部動作を推定した結果の概略図である。図3及び図4に示すように、改良前のアルゴリズムで推定された人体の足部動作は本開示の実施例における初期3次元姿勢3DS*に対応し、本開示の実施例により改良後のアルゴリズムで推定された人体の足部動作は目標3次元姿勢#3DS*に対応する。該初期3次元姿勢3DS*と比べて、目標3次元姿勢#3DS*が表現する人体の足部動作は浮遊感が軽減され、より安定しており、仮想人体の3次元姿勢がよりリアルである。
本開示の実施例に基づく3次元姿勢の調整方法は、所定の単眼ビデオに基づき、足部接地動作が安定した人体3次元姿勢を推定することができ、本開示の実施例の応用シーンはアバター、人体駆動、拡張現実、複合現実等を含む。
本開示の上記ステップS20からステップS28に基づき、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む。複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得し、且つ複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられ、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定する方法を採用し、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整することにより、単眼ビデオに基づいて人体3次元姿勢を推定するアルゴリズムを改善するという目的を達成し、単眼ビデオに基づいて人体3次元姿勢を推定するアルゴリズムに接地制約を加えることによって人体の足部動作の安定性を向上させるという技術的効果を実現し、従来技術におけるアルゴリズムにおいて人体の足部接地効果の制約モデルが最適化されていないため、人体3次元姿勢に対する推定が正確ではなく、人体の足部動作に明らかな浮遊感が存在するという技術的課題を解決する。
以下に該実施例の上記方法をさらに説明する。
好ましい実施形態として、ステップS22において、複数の画像フレームに基づいて複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップは以下のステップを含む。
ステップS221では、複数の画像フレームの各画像フレームから目標領域を検出し、ここで、目標領域は仮想3次元モデルを含む。
ステップS222では、目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得する。
ステップS223では、複数の目標画像ブロックに基づいて複数の2次元キーポイント及び初期3次元姿勢を推定して獲得する。
上記複数の画像フレームは上記現在録画されているビデオにフレーミング操作を行って得られたものであってもよく、該複数の画像フレームの各画像フレームはいずれも上記仮想3次元モデルを含む。複数の画像フレームの各画像フレームから目標領域を検出する上記プロセスは該各画像フレームを検出し、該画像フレームにおける該仮想3次元モデルに属する複数の画素を目標領域としてマークすることであってもよい。
上記複数の画像フレームの各画像フレームに対応する目標領域に基づき、該複数の画像フレームの各画像フレームに対してトリミング処理を行い、複数の目標画像ブロックを取得する。該複数の目標画像ブロックに基づき、推定アルゴリズムを用いて初期3次元姿勢を得ることができ、該初期3次元姿勢は初期3次元姿勢パラメータで表すことができる。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、Video1におけるT個の画像フレームの各画像フレームにいずれも上記仮想人体モデルが表示され、該仮想人体モデルを目標領域とし、人体画像分割モデルを介してVideo1におけるT個の画像フレームの各画像フレームに対して人体画像分割を行い、即ち画像フレームにおける該目標領域に属する画素を識別し、且つ該仮想人体モデルを中心とする画像ブロックを切り出し、Ptと表記する。該画像ブロックPtを推定することにより、複数の2次元キーポイント2DP*と初期3次元姿勢3DS*を得ることができる。
好ましくは、上記人体画像分割モデルは高速な領域ベースの畳み込みニューラルネットワークモデル(FasterRegion-Convolutional Neural Network、略称Faster R-CNN)であってもよく、又は、該人体画像分割モデルはさらにFaster R-CNNに基づいて分割マスク予測の分岐を追加したマスク領域ベースの畳み込みニューラルネットワークモデル(Mask Region-Convolutional Neural Network、略称Mask R-CNN)であってもよい。
好ましい実施形態として、ステップS223において、複数の目標画像ブロックに基づいて複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップは以下のステップを含む。
ステップS2231では、予め設定された2次元推定方式を用いて複数の目標画像ブロックから第1推定結果を推定して獲得する。
ステップS2232では、予め設定された3次元推定方式を用いて複数の目標画像ブロックから第2推定結果を推定して獲得する。
ステップS2233では、第1推定結果に対して平滑化処理を行い、複数の2次元キーポイントを得て、及び第2推定結果に対して平滑化処理を行い、初期3次元姿勢を得る。
上記予め設定された2次元推定方式は、上記複数の目標画像ブロックに基づいて上記第1推定結果を推定して獲得することができ、ここで、該第1推定結果は上記仮想3次元モデルの2次元キーポイントを得るために用いることができる。
上記予め設定された3次元推定方式は、上記複数の目標画像ブロックに基づいて上記第2推定結果を推定して獲得することができ、ここで、該第2推定結果は上記仮想3次元モデルの初期3次元姿勢を得るために用いることができる。
上記第1推定結果に基づいて、平滑化処理を経て上記仮想3次元モデルの複数の2次元キーポイントを得ることができ、上記第2推定結果に基づいて、平滑化処理を経て上記仮想3次元モデルの初期3次元姿勢を得ることができ、ここで、該初期3次元姿勢は初期3次元姿勢パラメータで表すことができる。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、上記画像ブロックPtを使用し、Part Affinity Fieldsに基づく複数人2次元姿勢リアルタイム推定法(Realtime Multi-Person2D Pose Estimationusing Part Affinity Fields)によって、仮想人体モデルの元の2次元キーポイントを推定し、2DPと表記する。
上記人体画像ブロックを使用し、モデルフィッティングサイクルに基づき人体3次元形態を再構成する学習トレーニング法(Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in theLoop)によって、仮想人体モデルの元の3次元姿勢を推定して獲得し、3DSと表記し、且つ該元の3次元姿勢3DSをスキン複数人体線形モデル(A Skinned Multi-Person Linear Model、略称SMPLモデル)によって元の3次元姿勢パラメータθとして表す。
上記仮想人体モデルの元の2次元キーポイント2DPに対して平滑化処理を行い、2次元キーポイント2DP*を得ることができる。上記元の3次元姿勢パラメータθに対して平滑化処理を行い、3次元姿勢パラメータθ’を得ることができ、該3次元姿勢パラメータθ’は上記初期3次元姿勢を表すために用いられる。該平滑化処理は上記2次元キーポイント及び人体3次元姿勢パラメータのデータ品質を向上させることができ、更に後続の計算の精度を向上させる。
好ましくは、上記平滑化処理は、ローパスフィルタ(Low-pass filter)を用いて実現してもよい。ローパスフィルタはフィルタリングの形態であり、低周波信号の通過を許容するが、カットオフ周波数より高い周波数の信号の通過を低下又は減少させる。画像処理分野において、ローパスフィルタは画像の平滑化フィルタリングに用いられ、画像のノイズ除去、画像強調、画像合成等の効果を実現する。
好ましい実施形態として、ステップS24では、複数の2次元キーポイントを利用して目標部位に対して接触検出を行い、検出結果を得るステップは以下のステップを含む。
ステップS241では、予め設定されたニューラルネットワークモデルを用いて複数の2次元キーポイントを分析し、目標部位に対応する2次元キーポイントの検出タグを得て、ここで、予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、複数組のデータにおける各組のデータはいずれも、検出タグ付きの2次元キーポイントを含み、検出タグは目標部位に対応する2次元キーポイントと目標接触面との間に接触が発生したか否かを示すために用いられる。
上記検出タグは該仮想3次元モデルの目標部位とそれが位置する3次元空間内の目標接触面との間の接触状況に対する検出結果とすることができる。上記複数の2次元キーポイントに基づき、上記予め設定されたニューラルネットワークモデルを用いて該仮想3次元モデルの目標部位に対応する2次元キーポイントの該検出タグを分析して得る。
上記予め設定されたニューラルネットワークモデルは複数組のデータに基づいて機械学習訓練により得ることができ、該複数組のデータにおける各組のデータはいずれも検出タグ付きの2次元キーポイントを含み、ここで、検出タグは上記目標部位に対応する2次元キーポイントと上記目標接触面との間に接触が発生したか否かを示すために用いられる。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、接地検出ニューラルネットワークモデルをトレーニングし、該接地検出ニューラルネットワークモデルを用いてVideo1におけるT個の画像フレームから得られた複数の2次元キーポイント2DP*を分析し、該仮想人体モデルの左右足の爪先及び踵に対応する2次元キーポイントA、B、C、Dの検出タグr(A)、r(B)、r(C)、r(D)を得ることができる。
好ましくは、上記接地検出ニューラルネットワークモデルのトレーニングプロセスは以下のとおりである。トレーニングに用いられる初期ニューラルネットワークは3次元構造の畳み込みニューラルネットワークであり、二値交差エントロピー誤差関数を用いて該初期ニューラルネットワークをトレーニングし、ここで、トレーニングに使用されるデータは手動で接地タグをマーキングする該仮想人体モデルの複数の2次元キーポイントであってもよく、接地タグ付きの該仮想人体モデルの複数の2次元キーポイントで合成されたデータセットであってもよい。
好ましくは、上記接地検出ニューラルネットワークモデルがVideo1におけるT個の画像フレームのn番目の画像フレームにおける4つの2次元キーポイントA、B、C、Dを分析するプロセスは以下のとおりである。n番目の画像フレームを取得し、同時に該画像フレームの前後でそれぞれ5つの隣接する画像フレームを取得し、すなわちn-5番目の画像フレームからn+5番目の画像フレームまで、計11個の隣接する画像フレームを取得し、該11個の隣接する画像フレームの中間画像フレームはn番目の画像フレームである。該11個の隣接する画像フレームを該接地検出ニューラルネットワークモデルに入力する。該接地検出ニューラルネットワークモデルの計算により、n番目の画像フレーム内の該仮想人体モデルの足部接地検出タグを出力し、r(A)、r(B)、r(C)、r(D)と表記する。
上記検出タグは該仮想人体モデルの足部が地面に接触するか否かを示すために用いられる。例として、2次元キーポイントAは該仮想人体モデルの左爪先に対応し、検出タグr(A)は該仮想人体モデルの左爪先が地面と接触する確率を示す。上記仮想人体モデルの複数の2次元キーポイントに対応する検出タグは即ち上記検出結果R{A、B、C、D}である。
好ましい実施形態として、3次元姿勢の調整方法はさらに以下のステップを含む。
ステップS30では、初期3次元姿勢の第1姿勢パラメータを利用し、複数の初期3次元キーポイントの初期値を決定する。
上記第1姿勢パラメータは上記仮想3次元モデルの初期3次元姿勢パラメータであってもよく、該第1姿勢パラメータにより、上記複数の初期3次元キーポイントの初期値を決定することができ、該初期値は該初期3次元キーポイントの位置座標であってもよい。
引き続きVideo1に基づいた人体3次元姿勢の調整を例として、上記初期3次元姿勢パラメータθ’に基づき、人体の初期3次元キーポイントの初期位置を得ることができ、J3Dと表記する。該初期3次元キーポイントの初期位置J3Dを、該初期3次元キーポイントの初期値とする。
好ましい実施形態として、ステップS26では、検出結果と複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するステップは、以下のステップを含む。
ステップS261では、複数の初期3次元キーポイントの初期値を用いて複数の目標3次元キーポイントを初期化し、複数の目標3次元キーポイントの初期値を得る。
ステップS262では、目標部位に対応する3次元キーポイントの複数の画像フレームの各画像フレームにおける表示位置及び表示位置に対応する検出タグを取得する。
ステップS263では、表示位置に対応する検出タグに基づき、複数の目標3次元キーポイントから一部の3次元キーポイントを選択し、ここで、選択された一部の3次元キーポイントと目標接触面との間に接触が発生する。
ステップS264では、選択された一部の3次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得る。
ステップS265では、更新対象位置に応じて複数の目標3次元キーポイントの初期値を更新し、複数の目標3次元キーポイントの目標値を得る。
上記複数の初期3次元キーポイントの初期値を取得し、該初期値を用いて複数の目標3次元キーポイントに対して対応する初期化を行い、該複数の目標3次元キーポイントの初期値を得ることができる。ここで、一度の初期化操作は、ある初期3次元キーポイントの初期値を該初期3次元キーポイントに対応する目標3次元キーポイントに割り当てることであってもよい。
上記仮想3次元モデルの目標部位に対して、対応する目標3次元キーポイントが存在し、該目標3次元キーポイントの現在録画されているビデオにおける複数の画像フレームの各画像フレームにおける表示位置を取得することができ、該表示位置は該目標3次元キーポイントの対応する画像フレームにおける位置座標で表すことができ、同時に該表示位置に対応する検出タグを取得し、該検出タグは該表示位置における該目標部位に対応する目標3次元キーポイントと上記目標接触面との間に接触が発生したか否かを示すために用いられる。
上記複数の表示位置に対応する複数の検出タグにより、上記複数の目標3次元キーポイントと上記目標接触面との間が接触するか否かを得ることができ、さらに該複数の目標3次元キーポイントから該目標接触面と接触する一部の3次元キーポイントを選択し、且つ該一部の3次元キーポイントの表示位置を取得し、該表示位置は該一部の3次元キーポイントの対応する画像フレームにおける位置座標を用いて表すことができる。
上記一部の3次元キーポイントの表示位置に対して平均値計算を行い、計算して得られた平均値を対応する目標3次元キーポイントに該目標3次元キーポイントの目標値として割り当てる。前記操作によって複数の目標3次元キーポイントに対応する位置を更新する。
Figure 0007417772000003
Figure 0007417772000004
好ましい実施形態として、ステップS28では、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整するステップは以下のステップを含む。
ステップS281では、複数の初期3次元キーポイントの初期値と複数の目標3次元キーポイントの目標値を用いて、第1姿勢パラメータを最適化し、第2姿勢パラメータを得る。
ステップS282では、第2姿勢パラメータに基づいて初期3次元姿勢を目標3次元姿勢に調整する。
複数の初期3次元キーポイントの上記初期値と複数の目標3次元キーポイントの上記目標値に基づき、該第1姿勢パラメータを最適化して該第2姿勢パラメータを得ることができる。上記第1姿勢パラメータは上記仮想3次元モデルの初期3次元姿勢パラメータであってもよく、上記第2姿勢パラメータは上記仮想3次元モデルの目標3次元姿勢パラメータであってもよい。これにより、第2姿勢パラメータに基づき、上記仮想3次元モデルの初期3次元姿勢を目標3次元姿勢に調整することができ、即ち該仮想3次元モデルの3次元姿勢の最適化を実現する。
Figure 0007417772000005
最適化された目標3次元姿勢パラメータに基づき、該仮想人体モデルの左右足の爪先及び踵の姿勢を調整及び最適化することができ、最終的に表現される該仮想人体モデルの足の動きにおいてジッタ―を減少させて、浮遊感を軽減し、Video1に基づいて推定された人体3次元姿勢をよりリアルにする。
特に、上記最適化プロセスで使用される最適化方法はランダム最適化法(A Method for Stochastic Optimization、略称ADAM)又は記憶制限BFGS法(Limited-memory BFGS)であってもよく、ここで、BFGS法はBroyden(C.G.Broyden)、Fletcher(R.Fletcher)、Goldfarb(D.Goldfarb)及びShanno(D.F.Shanno)によって研究され、そこから命名されたものである。
以上の実施形態の説明により、当業者は上記実施例の方法がソフトウェア及び必要な汎用ハードウェアプラットフォームの方式によって実現できることを明確に理解でき、当然ながらハードウェアであってもよいが、多くの場合に前者はより好ましい実施形態である。このような理解に基づき、本開示の技術的解決手段は実質的に、又は従来技術に寄与する部分をソフトウェア製品の形式で具現化することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、いくつかのコマンドを含み1台の端末デバイス(携帯電話、コンピュータ、サーバ、又はネットワークデバイス等であってもよい)により本開示の各実施例に記載の方法を実行する。
本開示ではさらに3次元姿勢の調整装置を提供し、該装置は上記実施例及び好ましい実施形態を実現するために用いられ、既に説明したものについては説明を省略する。以下で使用されるように、「モジュール」という用語は、所定の機能を実現することができるソフトウェア及び/又はハードウェアの組み合わせである。以下の実施例で説明される装置はソフトウェアで実現することが好ましいが、ハードウェア、又はソフトウェアとハードウェアの組み合わせによる実現も可能であり且つ考えられる。
図5は本開示の実施例に基づき提供される3次元姿勢の調整装置の構造ブロック図であり、図5に示すように、3次元姿勢の調整装置500は、
現在録画されているビデオを取得するために用いられ、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む取得モジュール501と、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するために用いられる推定モジュール502と、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュール503と、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するために用いられる決定モジュール504と、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整するために用いられる調整モジュール505と、を含む。
好ましくは、推定モジュール502は、さらに、複数の画像フレームの各画像フレームから目標領域を検出し、ここで、目標領域は仮想3次元モデルを含むステップと、目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得するステップと、複数の目標画像ブロックに基づいて複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップと、に用いられる。
好ましくは、推定モジュール502は、さらに、予め設定された2次元推定方式を用いて複数の目標画像ブロックから第1推定結果を推定して獲得するステップと、予め設定された3次元推定方式を用いて複数の目標画像ブロックから第2推定結果を推定して獲得するステップと、第1推定結果に対して平滑化処理を行い、複数の2次元キーポイントを得て、及び第2推定結果に対して平滑化処理を行い、初期3次元姿勢を得るステップと、に用いられる。
好ましくは、検出モジュール503は、さらに、予め設定されたニューラルネットワークモデルを用いて複数の2次元キーポイントを分析し、目標部位に対応する2次元キーポイントの検出タグを得て、ここで、予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、複数組のデータにおける各組のデータはいずれも、検出タグ付きの2次元キーポイントを含み、検出タグは目標部位に対応する2次元キーポイントと目標接触面との間に接触が発生したか否かを示すために用いられるステップに用いられる。
好ましくは、3次元姿勢の調整装置500は、さらに、初期3次元姿勢の第1姿勢パラメータを利用し、複数の初期3次元キーポイントの初期値を決定するために用いられる初期化モジュール506(図示せず)を含む。
好ましくは、決定モジュール504は、さらに、複数の初期3次元キーポイントの初期値を用いて複数の目標3次元キーポイントを初期化し、複数の目標3次元キーポイントの初期値を得るステップと、目標部位に対応する3次元キーポイントの複数の画像フレームの各画像フレームにおける表示位置及び表示位置に対応する検出タグを取得するステップと、表示位置に対応する検出タグに基づき、複数の目標3次元キーポイントから一部の3次元キーポイントを選択し、ここで、選択された一部の3次元キーポイントと目標接触面との間に接触が発生するステップと、選択された一部の3次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得るステップと、更新対象位置に応じて複数の目標3次元キーポイントの初期値を更新し、複数の目標3次元キーポイントの目標値を得るステップと、に用いられる。
好ましくは、調整モジュール505は、さらに、複数の初期3次元キーポイントの初期値と複数の目標3次元キーポイントの目標値を用いて、第1姿勢パラメータを最適化し、第2姿勢パラメータを得るステップと、第2姿勢パラメータに基づいて初期3次元姿勢を目標3次元姿勢に調整するステップと、に用いられる。
なお、上記各モジュールはソフトウェア又はハードウェアによって実現することができ、後者については、上記モジュールはいずれも同一のプロセッサ内に位置するか、又は上記各モジュールは任意の組み合わせの形式でそれぞれ異なるプロセッサ内に位置する方式で実現することができるが、これに限定されない。
本開示の実施例に基づき、本開示は、メモリ及び少なくとも1つのプロセッサを含み、該メモリにコンピュータコマンドが記憶され、該プロセッサはコンピュータコマンドを実行して上記いずれかの方法の実施例におけるステップを実行するように設定される電子デバイスをさらに提供する。
好ましくは、上記電子デバイスはさらに伝送デバイス及び入出力デバイスを含み、ここで、該伝送デバイスは上記プロセッサに接続され、該入出力デバイスは上記プロセッサに接続されることができる。
好ましくは、本実施例において、上記プロセッサはコンピュータプログラムによって以下のステップを実行するように設定することができる。
ステップS1では、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む。
ステップS2では、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得する。
ステップS3では、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。
ステップS4では、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定する。
ステップS5では、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整する。
好ましくは、本実施例における具体的な例は上記実施例及び好ましい実施形態で説明した例を参照することができ、本実施例はここでの説明を省略する。
本開示の実施例に基づき、本開示は、コンピュータコマンドが記憶され、ここで、該コンピュータコマンドは実行時に上記いずれかの方法の実施例におけるステップを実行するように設定される非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
好ましくは、本実施例において、上記不揮発性記憶媒体は以下のステップを実行するためのコンピュータプログラムを記憶するように設定することができる。
ステップS1では、現在録画されているビデオを取得し、ここで、ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む。
ステップS2では、複数の画像フレームに基づいて仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得する。
ステップS3では、複数の2次元キーポイントを利用して仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、ここで、検出結果は目標部位と仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる。
ステップS4では、検出結果と初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定する。
ステップS5では、複数の初期3次元キーポイント及び複数の目標3次元キーポイントを用いて初期3次元姿勢を目標3次元姿勢に調整する。
任意選択的に、本実施例においては、上記非一時的コンピュータ可読記憶媒体は、USBメモリ、リードオンリーメモリ(ROM、Read-OnlyMemory)、ランダムアクセスメモリ(RAM、RandomAccessMemory)、リムーバブルハードディスク、磁気ディスク又は光ディスク等のプログラムコードを記憶可能な各種媒体を含むが、これらに限定されない。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラム製品を提供する。本開示の3次元姿勢の調整方法を実施するためのプログラムコードは、一つ又は複数のプログラミング言語の任意の組み合わせによりプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供することにより、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図における所定の機能/操作が実施可能である。プログラムコードは、全部又は一部がマシンに実行されてもよく、個別ウェアパッケージとして、一部がマシンに実行され且つその他の一部にリモートマシンに実行されるか、或いは、全部がリモートマシン又はサーバーに実行されてもよい。
上記本開示の実施例番号は説明のためのものであり、実施例の優劣を表すものではない。
本開示の上記実施例において、各実施例に対する説明はいずれもある方面に重点が置かれており、ある実施例において詳述されていない部分は、他の実施例の関連説明を参照することができる。
本開示が提供するいくつかの実施例において、当然のことながら、開示された技術内容は、他の方式で実現することができる。これまで説明された装置の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は論理機能による分割であってもよく、実装時には他の分割方式を有してもよく、例えば複数のユニット又はアセンブリを別のシステムに組み合わせるか又は集積してもよく、又はいくつかの特徴を無視し、又は実行しなくてもよい。別の点では、図示又は議論される相互の結合又は直接的な結合、又は通信接続は、インターフェース、ユニット又はモジュールを介した間接的な結合又は通信接続であってもよく、電気的又は他の形態であってもよい。
前記分離部材として説明されたユニットは物理的に分離してもよく又は分離しなくてもよく、ユニットとして示された部材は物理的ユニットであってもよく又はそうでなくてもよく、すなわち一箇所に位置してもよく、又は複数のユニットに分布していてもよい。実際の必要に応じてそのうちの一部又は全てのユニットを選択して本実施例の解決手段の目的を達成することができる。
また、本開示の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットが単独で物理的に存在してもよく、2つ以上のユニットが1つのユニットに集積されてもよい。上記集積されるユニットはハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。
上記集積されるユニットがソフトウェア機能ユニットの形式で実現され且つ独立した製品として販売又は使用される場合、コンピュータで読み取り可能な記憶媒体に記憶することができる。このような理解に基づき、本開示の技術的解決手段は、実質的部分である従来技術に寄与する部分又は該技術的解決手段の全て又は一部をソフトウェア製品の形式で実現することができる。該コンピュータソフトウェア製品は、記憶媒体に記憶される製品であり、1台のコンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置等であってもよい)により本開示の各実施例に記載の方法の全て又は一部のステップを実行するいくつかのコマンドが含まれる。前述した記憶媒体は、USBメモリ、リードオンリーメモリ(ROM、Read-OnlyMemory)、ランダムアクセスメモリ(RAM、RandomAccessMemory)、リムーバブルハードディスク、磁気ディスク又は光ディスク等のプログラムコードを記憶可能な各種媒体を含む。
以上の記載は本開示の好ましい実施形態に過ぎず、明らかなこととして、当業者であれば、本開示の原理から逸脱しない前提で、更に幾つかの改良及び変更を行うことができ、それらの改良及び変更も本開示の保護範囲とみなされるべきである。

Claims (11)

  1. 現在録画されているビデオを取得し、前記ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含むステップと、
    前記複数の画像フレームに基づいて前記仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップと、
    前記複数の2次元キーポイントを利用して前記仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得て、前記検出結果は前記目標部位と前記仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられるステップと、
    前記検出結果と前記初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するステップと、
    前記複数の初期3次元キーポイント及び前記複数の目標3次元キーポイントを用いて前記初期3次元姿勢を目標3次元姿勢に調整するステップと、を含む3次元姿勢の調整方法。
  2. 前記複数の画像フレームに基づいて前記複数の2次元キーポイント及び前記初期3次元姿勢を推定して獲得する前記ステップは、
    前記複数の画像フレームの各画像フレームから目標領域を検出し、前記目標領域は前記仮想3次元モデルを含むステップと、
    前記目標領域に対してトリミング処理を行い、複数の目標画像ブロックを取得するステップと、
    前記複数の目標画像ブロックに基づいて前記複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するステップと、を含む請求項1に記載の方法。
  3. 前記複数の目標画像ブロックに基づいて前記複数の2次元キーポイント及び前記初期3次元姿勢を推定して獲得する前記ステップは、
    予め設定された2次元推定方式を用いて前記複数の目標画像ブロックから第1推定結果を推定して獲得するステップと、
    予め設定された3次元推定方式を用いて前記複数の目標画像ブロックから第2推定結果を推定して獲得するステップと、
    前記第1推定結果に対して平滑化処理を行い、前記複数の2次元キーポイントを得て、及び前記第2推定結果に対して平滑化処理を行い、前記初期3次元姿勢を得るステップと、を含む請求項2に記載の方法。
  4. 前記複数の2次元キーポイントを利用して前記目標部位に対して接触検出を行い、前記検出結果を取得する前記ステップは、
    予め設定されたニューラルネットワークモデルを用いて前記複数の2次元キーポイントを分析し、前記目標部位に対応する2次元キーポイントの検出タグを得るステップであって、前記予め設定されたニューラルネットワークモデルは複数組のデータを用いて機械学習トレーニングにより得られ、前記複数組のデータにおける各組のデータはいずれも、検出タグ付きの2次元キーポイントを含み、前記検出タグは前記目標部位に対応する2次元キーポイントと前記目標接触面との間に接触が発生したか否かを示すために用いられるステップを含む、請求項1に記載の方法。
  5. 前記初期3次元姿勢の第1姿勢パラメータを利用し、前記複数の初期3次元キーポイントの初期値を決定するステップをさらに含む、請求項4に記載の方法。
  6. 前記検出結果及び前記複数の初期3次元キーポイントにより、前記複数の目標3次元キーポイントを決定する前記ステップは、
    前記複数の初期3次元キーポイントの初期値を用いて前記複数の目標3次元キーポイントを初期化し、前記複数の目標3次元キーポイントの初期値を得るステップと、
    前記目標部位に対応する3次元キーポイントの前記複数の画像フレームの各画像フレームにおける表示位置及び前記表示位置に対応する検出タグを取得するステップと、
    前記表示位置に対応する検出タグに基づき、前記複数の目標3次元キーポイントから一部の3次元キーポイントを選択し、選択された一部の3次元キーポイントと前記目標接触面との間に接触が発生するステップと、
    選択された一部の3次元キーポイントの表示位置に対して平均値計算を行い、更新対象位置を得るステップと、
    前記更新対象位置に応じて前記複数の目標3次元キーポイントの初期値を更新し、前記複数の目標3次元キーポイントの目標値を得るステップと、を含む請求項5に記載の方法。
  7. 前記複数の初期3次元キーポイント及び前記複数の目標3次元キーポイントを用いて前記初期3次元姿勢を前記目標3次元姿勢に調整する前記ステップは、
    前記複数の初期3次元キーポイントの初期値と前記複数の目標3次元キーポイントの目標値を用いて、前記第1姿勢パラメータを最適化し、第2姿勢パラメータを得るステップと、
    前記第2姿勢パラメータに基づいて前記初期3次元姿勢を前記目標3次元姿勢に調整するステップと、を含む請求項6に記載の方法。
  8. 現在録画されているビデオを取得するために用いられ、前記ビデオは、各画像フレームにいずれも仮想3次元モデルが表示される複数の画像フレームを含む取得モジュールと、
    前記複数の画像フレームに基づいて前記仮想3次元モデルの複数の2次元キーポイント及び初期3次元姿勢を推定して獲得するために用いられる推定モジュールと、
    前記複数の2次元キーポイントを利用して前記仮想3次元モデルの目標部位に対して接触検出を行い、検出結果を得るために用いられ、前記検出結果は前記目標部位と前記仮想3次元モデルが位置する3次元空間内の目標接触面との間に接触が発生したか否かを示すために用いられる検出モジュールと、
    前記検出結果と前記初期3次元姿勢に対応する複数の初期3次元キーポイントにより、複数の目標3次元キーポイントを決定するために用いられる決定モジュールと、
    前記複数の初期3次元キーポイント及び前記複数の目標3次元キーポイントを用いて前記初期3次元姿勢を目標3次元姿勢に調整するために用いられる調整モジュールと、を含む3次元姿勢の調整装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
    前記メモリは前記少なくとも1つのプロセッサによって実行可能なコマンドを記憶し、前記コマンドは前記少なくとも1つのプロセッサによって実行され、それにより前記少なくとも1つのプロセッサは請求項1~7のいずれか一項に記載の方法を実行することができる電子デバイス。
  10. 請求項1~7のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行されると、請求項1~7のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2023012138A 2022-01-28 2023-01-30 3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体 Active JP7417772B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210108845.7A CN114494334B (zh) 2022-01-28 2022-01-28 调整三维姿态的方法、装置、电子设备及存储介质
CN202210108845.7 2022-01-28

Publications (2)

Publication Number Publication Date
JP2023110913A JP2023110913A (ja) 2023-08-09
JP7417772B2 true JP7417772B2 (ja) 2024-01-18

Family

ID=81476159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023012138A Active JP7417772B2 (ja) 2022-01-28 2023-01-30 3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体

Country Status (4)

Country Link
US (1) US20230245339A1 (ja)
JP (1) JP7417772B2 (ja)
KR (1) KR20230116735A (ja)
CN (1) CN114494334B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116228867B (zh) * 2023-03-15 2024-04-05 北京百度网讯科技有限公司 位姿确定方法、装置、电子设备、介质
CN116453222B (zh) * 2023-04-19 2024-06-11 北京百度网讯科技有限公司 目标对象姿态确定方法、训练方法、装置以及存储介质
CN117077723A (zh) * 2023-08-15 2023-11-17 支付宝(杭州)信息技术有限公司 一种数字人动作生产方法及装置
CN117854666B (zh) * 2024-03-07 2024-06-04 之江实验室 一种三维人体康复数据集构建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019092089A (ja) 2017-11-16 2019-06-13 キヤノン株式会社 画像処理装置、画像表示システム、画像処理方法、およびプログラム
WO2021099778A1 (en) 2019-11-19 2021-05-27 Move Ai Ltd Real-time system for generating 4d spatio-temporal model of a real world environment
JP2021111380A (ja) 2020-01-03 2021-08-02 ネイバー コーポレーションNAVER Corporation 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法、コンピュータシステムおよび推論モデルを構築する方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503671B (zh) * 2016-11-03 2019-07-12 厦门中控智慧信息技术有限公司 确定人脸姿态的方法和装置
CN109325978B (zh) * 2017-07-31 2022-04-05 深圳市腾讯计算机系统有限公司 增强现实显示的方法、姿态信息的确定方法及装置
WO2021087425A1 (en) * 2019-10-31 2021-05-06 Bodygram, Inc. Methods and systems for generating 3d datasets to train deep learning networks for measurements estimation
CN111126272B (zh) * 2019-12-24 2020-11-10 腾讯科技(深圳)有限公司 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN113761965B (zh) * 2020-06-01 2024-03-12 北京达佳互联信息技术有限公司 动作捕捉方法、装置、电子设备和存储介质
CN112562068B (zh) * 2020-12-24 2023-07-14 北京百度网讯科技有限公司 人体姿态生成方法、装置、电子设备及存储介质
CN112836618B (zh) * 2021-01-28 2023-10-20 清华大学深圳国际研究生院 一种三维人体姿态估计方法及计算机可读存储介质
CN112767489B (zh) * 2021-01-29 2024-05-14 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN113610966A (zh) * 2021-08-13 2021-11-05 北京市商汤科技开发有限公司 三维姿态调整的方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019092089A (ja) 2017-11-16 2019-06-13 キヤノン株式会社 画像処理装置、画像表示システム、画像処理方法、およびプログラム
WO2021099778A1 (en) 2019-11-19 2021-05-27 Move Ai Ltd Real-time system for generating 4d spatio-temporal model of a real world environment
JP2023502795A (ja) 2019-11-19 2023-01-25 ムーヴ エーアイ リミテッド 実世界環境の4d時空間モデルを生成するためのリアルタイムシステム
JP2021111380A (ja) 2020-01-03 2021-08-02 ネイバー コーポレーションNAVER Corporation 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法、コンピュータシステムおよび推論モデルを構築する方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鶴田 清也,仮想ダンスコラボレーションのための感性情報を付与した身体動作の生成とその評価,映像情報メディア学会誌,日本,(社)映像情報メディア学会,2009年12月01日,Vol.63, No.12,P.1807-1814

Also Published As

Publication number Publication date
CN114494334B (zh) 2023-02-03
JP2023110913A (ja) 2023-08-09
CN114494334A (zh) 2022-05-13
US20230245339A1 (en) 2023-08-03
KR20230116735A (ko) 2023-08-04

Similar Documents

Publication Publication Date Title
JP7417772B2 (ja) 3次元姿勢の調整方法、装置、電子デバイス及び記憶媒体
US12105887B1 (en) Gesture recognition systems
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
US11222474B2 (en) Methods and systems for applying machine learning to volumetric capture of a body in a real-world scene
EP3602494B1 (en) Robust mesh tracking and fusion by using part-based key frames and priori model
US10783690B2 (en) Image regularization and retargeting system
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
EP2710557B1 (en) Fast articulated motion tracking
CN111598998A (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
CN117115256A (zh) 图像处理系统
EP2880633A1 (en) Animating objects using the human body
US10977549B2 (en) Object animation using generative neural networks
US8363902B2 (en) Moving object detection method and moving object detection apparatus
CN114511662A (zh) 渲染图像的方法、装置、电子设备及存储介质
EP3872760A2 (en) Method and apparatus of training depth estimation network, and method and apparatus of estimating depth of image
CN110674837A (zh) 视频相似度获取方法、装置、计算机设备及存储介质
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
CN111868786A (zh) 跨设备监控计算机视觉系统
US20240029358A1 (en) System and method for reconstructing 3d garment model from an image
CN116246026B (zh) 三维重建模型的训练方法、三维场景渲染方法及装置
CN116452715A (zh) 动态人手渲染方法、装置及存储介质
CN114401446B (zh) 人体姿态迁移方法、装置、系统、电子设备以及存储介质
US11734868B2 (en) Motion retargeting based on differentiable rendering
CN113537359A (zh) 训练数据的生成方法及装置、计算机可读介质和电子设备
CN114677423A (zh) 一种室内空间全景深度确定方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7417772

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150