JP2023518584A - 3次元人体モデル構築方法および電子機器 - Google Patents

3次元人体モデル構築方法および電子機器 Download PDF

Info

Publication number
JP2023518584A
JP2023518584A JP2022557941A JP2022557941A JP2023518584A JP 2023518584 A JP2023518584 A JP 2023518584A JP 2022557941 A JP2022557941 A JP 2022557941A JP 2022557941 A JP2022557941 A JP 2022557941A JP 2023518584 A JP2023518584 A JP 2023518584A
Authority
JP
Japan
Prior art keywords
human body
vertex
mesh
loss value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022557941A
Other languages
English (en)
Inventor
炎培 曹
培▲堯▼ ▲趙▼
Original Assignee
北京達佳互▲れん▼信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京達佳互▲れん▼信息技術有限公司 filed Critical 北京達佳互▲れん▼信息技術有限公司
Publication of JP2023518584A publication Critical patent/JP2023518584A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

3次元人体モデル構築方法を開示する。当該方法は、人体領域を含むターゲット画像を特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得ることと、当該画像特徴情報を全結合頂点再構築ネットワークに入力することにより、第1人体3次元メッシュ頂点位置を得ることと、人体3次元メッシュ頂点間のターゲット接続関係と第1人体3次元メッシュ頂点位置に基づいて、3次元人体モデルを構築することと、を含む。

Description

関連する出願の援用
本出願は、2020年06月19日に中国特許庁に提出された出願番号202010565641.7、発明名称「3次元人体モデル構築方法、装置、電子機器、および記憶媒体」の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。
本出願は、コンピュータ技術の分野に関し、特に3次元人体モデル構築方法および装置に関するものである。
画像処理技術の発展に伴い、画像データに基づいて3次元人体モデルを再構築することは、マシンビジョンアルゴリズムの重要な応用方向である。画像から3次元人体モデルを再構築した後で3次元人体モデルを得ることは、映画やテレビなどのエンターテイメント、医療健康及び教育などの分野に広く応用できる。しかしながら、3次元人体モデルを再構築する方法は、往々にして特定のシーンで撮影する必要があり、制限条件が多く、構築プロセスが複雑で、必要な計算量が多く、3次元人体モデルを構築する効率が低い。
本出願は、3次元人体モデルを構築する効率を向上させ、計算量を低減するための3次元人体モデル構築方法および装置に関する。本出願の技術案は、以下の通りである。
本出願の実施例の第1側面によれば、人体領域を含む検出すべき画像を取得し、前記検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、前記第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する3次元人体モデルを構築することと、を含む3次元人体モデル構築方法に関する。
本出願の実施例の第2側面によれば、人体領域を含む検出すべき画像を取得し、前記検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることを実行するように構成される特徴抽出ユニットと、前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得ることを実行するように構成され、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである位置取得ユニットと、前記第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する3次元人体モデルを構築することを実行するように構成されるモデル構築ユニットと、を含む3次元人体モデル構築装置に関する。
本出願の実施例の第3側面によれば、実行可能な命令を記憶するためのメモリと、本出願の実施例の第1側面のいずれかに記載の3次元人体モデル構築方法を実現するために、前記メモリに記憶された実行可能な命令を読み出して実行するプロセッサと、を含む電子機器に関する。
本出願の実施例の第4側面によれば、前記記憶媒体内の命令に基づいて3次元人体モデル構築装置のプロセッサによって実行されるとき、本出願の実施例の第1側面に記載された3次元人体モデル構築方法を3次元人体モデル構築装置に実行させることができる不揮発性コンピュータ記憶媒体に関する。
一例示的な実施例による3次元人体モデル構築方法のフローチャートである。 一例示的な実施例による応用シーンの概略図である。 一例示的な実施例による特徴抽出ネットワークの概略構造図である。 一例示的な実施例による全結合頂点再構築ネットワークの概略構造図である。 一例示的な実施例による全結合頂点再構築ネットワークの隠れ層ノードの概略構造図である。 一例示的な実施例による3次元人体モデルの部分構造概略図である。 一例示的な実施例による訓練プロセスの概略図である。 一例示的な実施例による3次元人体モデル構築装置のブロック図である。 一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。 一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。 一例示的な実施例による電子機器のブロック図である。
当業者に本出願の技術案をよりよく理解させるために、以下、図面を参照して本出願の実施例における技術案を明確かつ完全に説明する。
以下、当業者の理解を容易にするために、本出願の実施例における用語の一部を説明する。
(1)本出願の実施例では、「複数」という用語は、2つ以上を意味し、他の助数詞は、これと類似している。
(2)本出願の実施例では、「端末デバイス」という用語は、各種アプリケーションをインストールすることができ、インストールされたアプリケーションで提供されたオブジェクトを表示することができるデバイスを指し、端末デバイスは、移動式であってもよく、固定式であってもよい。例えば、携帯電話、タブレット、各種ウェアラブルデバイス、車載機器、パーソナルデジタルアシスタント(personal digital assistant、PDA)、販売時点情報管理システム(point of sales、POS)、または上記の機能を実現できる他の端末デバイスなどが挙げられる。
(3)本出願の実施例では、「畳み込みニューラルネットワーク」という用語は、畳み込み演算を含みかつ深さ構造を有するフィードフォワードニューラルネットワーク(Feedforward Neural Networks)の一種であり、深さ学習の代表的なアルゴリズムの一つであり、表現学習(representation learning)の能力を持ち、入力情報に対して階層構造に応じてシフト不変分類(shift-invariant classification)を行う。
(4)本出願の実施例では、「機械学習」という用語は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑度理論などの分野を含む学問分野を指す。新しい知識や技能を獲得し、既存の知識構造を再構成して自分の性能を絶えず改善させるために、コンピュータが人間の学習行動をどのようにシミュレーションしたり実現したりするかを専門に研究する。
画像処理技術の発展に伴い、画像データに基づいて3次元人体モデルを再構築することにより画像における人体を再現することは、マシンビジョンアルゴリズムの重要な応用方向である。応用シーンの多くは、3次元人体モデルによって得られた人体データを応用する必要があり、例えば、映画やテレビなどのエンターテイメントの分野に応用し、3次元人体モデルによって得られた人体データに基づいて3次元アニメーションの人物を駆動し、アニメーションを自働的に生成し、または、医療健康の分野に応用し、3次元人体モデルによって得られた人体データに基づいて、撮影された人体の身体活動および筋力発揮に対して解析などを行う。
本出願の目的、技術案および利点をより明確にするために、以下、図面を参照して本出願をさらに詳細に説明し、説明された実施例は、すべての実施例ではなく、本出願の一部の実施例であることが明らかである。本出願の実施例に基づいて、当業者が創造的な労働をしない前提で取得した他のすべての実施例は、本出願の範囲に属する。
以下、本出願の実施例をより詳細に説明する。
図1は、一例示的な実施例による3次元人体モデル構築方法のフローチャートであり、図1に示されたように、以下のステップを含む。
S11では、人体領域を含む検出すべき画像を取得し、検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。
S12では、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得る。
ここで、全結合頂点再構築ネットワークは、訓練中に3次元再構築ネットワークに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。
S13では、第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、人体領域に対応する3次元人体モデルを構築する。
本出願の実施例に開示された3次元人体モデル構築方法では、人体領域を含む検出すべき画像に対して特徴を抽出し、検出すべき画像における人体領域の画像特徴情報を確定し、3次元再構築モデルにおける全結合頂点再構築ネットワークを通じて、画像特徴情報をデコードすることにより、検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得て、第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて3次元人体モデルを構築する。
本出願の実施例による3次元人体モデル構築方法では、構築プロセスのコストが低く、3次元人体モデルを構築する効率が向上する。また、本出願の実施例は、計算効率を向上させ、第1人体3次元メッシュ頂点位置の精度を高め、3次元人体モデルの効率的かつ正確な構築を実現することができる。
いくつかの実施例では、応用シーンは、図2に示された概略図であってもよく、端末デバイス21には画像取得装置がインストールされ、ユーザ20が端末デバイス21の画像収集装置に基づいて人体領域を含む検出すべき画像を収集する場合、いくつかの実施例では、画像収集装置は、収集した検出すべき画像をサーバー22に送信する。サーバー22は、検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力し、特徴抽出ネットワークによって検出すべき画像に対して特徴を抽出することにより、人体領域の画像特徴情報を得る。サーバー22は、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得て、第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、人体領域に対応する3次元人体モデルを構築する。サーバー22は、検出すべき画像における人体領域に対応する3次元人体モデルを端末デバイス21内の画像収集装置に送信し、画像収集装置は、得られた3次元人体モデルによって対応する処理を行い、例えば、画像収集装置は、得られた3次元人体モデルによって人体データを得て、人体データに基づいて3次元アニメーションの人物など駆動し、アニメーションの人物をユーザ20に表示する。
なお、上記応用シーンでは、プリセット人体3次元メッシュ頂点間の接続関係は、サーバー22に記憶されてもよく、または、画像収集装置が検出すべき画像をサーバー22に送信すると同時に、プリセット人体3次元メッシュ頂点間の接続関係をサーバー22に送信する。上記応用シーンは、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。
本出願の実施例による3次元人体モデル構築方法では、3次元再構築モデルによって3次元人体モデルを構築する。本出願の実施例では、3次元再構築モデルは、訓練中に特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを含み、訓練のときに、全結合頂点再構築ネットワークとグラフ畳み込みニューラルネットワークに対して整合性制約訓練を行い、訓練が完了した後、計算量と記憶量の両方が大きいグラフ畳み込みニューラルネットワークを削除することにより訓練済み3次元再構築モデルを得て、訓練済み3次元再構築モデルには特徴抽出ネットワークと全結合頂点再構築ネットワークが含まれる。
訓練済み3次元再構築モデルによって3次元人体モデルを構築する場合、人体領域を含む検出すべき画像を取得した後、まず検出すべき画像に対して特徴を抽出する必要があり、検出すべき画像における人体領域の画像特徴情報を得る。
いくつかの実施例では、検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。
いくつかの実施例では、訓練済み特徴抽出ネットワークを呼び出す前に、人体領域を含む大量の画像を用いて特徴抽出ネットワークを訓練する必要があり、特徴抽出ネットワークを訓練する際の訓練サンプルには、人体領域を含むサンプル画像と予めマークされたサンプル画像における人体頂点位置が含まれる。訓練サンプルを画像特徴抽出ネットワークの入力とし、サンプル画像の画像特徴情報を画像特徴抽出ネットワークの出力とし、画像特徴抽出ネットワークを訓練する。なお、本出願の実施例では、訓練サンプルは、本出願の実施例に係る複数のニューラルネットワークを連携して訓練するために使用され、特徴抽出ネットワークを訓練するプロセスに対する上記説明は、例示的なものにすぎず、特徴抽出ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。
訓練済みの特徴抽出ネットワークは、画像における人体領域を含む画像特徴情報を抽出する能力を持つ。
いくつかの実施例では、検出すべき画像を訓練済み特徴抽出ネットワークに入力し、訓練済み特徴抽出ネットワークは、検出すべき画像における人体領域の画像特徴情報を抽出し、画像特徴情報を出力する。いくつかの実施例では、前記特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよい。
本出願の実施例では、特徴抽出ネットワークの構造は、図3に示されたように、少なくとも1つの畳み込み層31、プーリング層32および出力層33を含み、特徴抽出ネットワークが検出すべき画像に対して特徴を抽出する場合の処理プロセスは、以下の通りであり、即ち、
少なくとも1つの畳み込み層31における人体領域の特徴を抽出するための複数の畳み込みカーネルによって検出すべき画像に対して畳み込み操作を行うことにより、検出すべき画像に対応する複数の特徴マッピング行列を得て、
プーリング層32によって複数の特徴マッピング行列に対して平均を計算し、平均を計算して得られた特徴マッピング行列を検出すべき画像に対応する画像特徴情報とし、
出力層によって、得られた検出すべき画像に対応する画像特徴情報を出力する。
いくつかの実施例では、本出願の実施例における特徴抽出ネットワークは、少なくとも1つの畳み込み層、プーリング層、および出力層を含む。
畳み込み層について、特徴抽出ネットワークは、少なくとも1つの畳み込み層を含み、各畳み込み層には複数の畳み込みカーネルが含まれ、畳み込みカーネルは、検出すべき画像における人体領域の特徴を抽出するための行列であり、特徴抽出ネットワークに入力された検出すべき画像は、画素値からなる画像行列であり、画素値は、検出すべき画像における画素の階調値、RGB値などであってもよく、畳み込み層において複数の畳み込みカーネルは、検出すべき画像に対して畳み込み操作を行い、畳み込み操作とは、画像行列と畳み込みカーネル行列が行列の畳み込み演算を行うことを指し、ここで、画像行列は、1つの畳み込みカーネルの畳み込み操作を経て、1つの特徴マッピング行列を得て、複数の畳み込みカーネルが検出すべき画像に対して畳み込み操作を行うことにより、検出すべき画像に対応する複数の特徴マッピング行列を得ることができ、各畳み込みカーネルは、特定の特徴を抽出でき、異なる畳み込みカーネルは、異なる特徴を抽出する。
本出願の実施例では、畳み込みカーネルは、人体領域の特徴を抽出するための畳み込みカーネルであってもよく、例えば、人体頂点の特徴を抽出する畳み込みカーネルであり、人体頂点の特徴を抽出する複数の畳み込みカーネルに基づいて、大量の検出すべき画像における人体頂点の特徴の情報を得ることができ、これらの情報は、検出すべき画像における人体頂点の検出すべき画像における位置情報を表すことができ、さらに検出すべき画像における人体領域の特徴を確定する。
プーリング層について、プーリング層が複数の特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた1つの特徴マッピング行列は、検出すべき画像に対応する画像特徴情報である。
例えば、得られた3つの特徴マッピング行列を例に挙げ、本出願の実施例における特徴抽出ネットワークプーリング層の処理方法を説明し、特徴マッピング行列は、3×3の行列である。
特徴マッピング行列1は、
Figure 2023518584000002
である。
特徴マッピング行列2は、
Figure 2023518584000003
である。
特徴マッピング行列3は、
Figure 2023518584000004
である。
プーリング層が上記の3つの特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた特徴マッピング行列は、
Figure 2023518584000005
である。
上記マッピング行列は、検出すべき画像の画像特徴情報である。なお、上記複数の特徴マッピング行列および平均を計算して得られた特徴マッピング行列の処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。
出力層の場合、出力層は、得られた検出すべき画像に対応する画像特徴情報を出力する。
いくつかの実施例では、画像特徴情報を表す特徴行列の次元は、検出すべき画像の解像度の次元より小さくてもよい。
検出すべき画像の画像特徴情報を得た後、全結合頂点再構築ネットワークによって、検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を確定する。
いくつかの実施例では、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、全結合頂点再構築ネットワークから出力された検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得る。
ここで、訓練済み全結合頂点再構築ネットワークは、検出すべき画像の画像特徴情報および訓練済み全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を得る。
いくつかの実施例では、訓練済み全結合頂点再構築ネットワークを呼び出す前に、特徴抽出ネットワークから出力されたサンプル画像の画像特徴情報によって全結合頂点再構築ネットワークを訓練する必要がある。サンプル画像の画像特徴情報を全結合頂点再構築ネットワークの入力とし、サンプル画像における人体領域に対応する人体3次元メッシュ頂点位置を全結合頂点再構築ネットワークの出力とし、全結合頂点再構築ネットワークを訓練する。なお、全結合頂点再構築ネットワークを訓練するプロセスの上記説明は、例示的なものにすぎず、全結合頂点再構築ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。
訓練済みの全結合頂点再構築ネットワークは、検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定する能力を持つ。
実施中に、検出すべき画像における人体領域の画像特徴情報を訓練済み全結合頂点再構築ネットワークに入力し、訓練済み全結合頂点再構築ネットワークは、画像特徴情報および全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定し、第1人体3次元メッシュ頂点位置を出力する。
いくつかの実施例では、前記人体3次元メッシュ頂点は、予め定義されたいくつかの密集キーポイントであってもよく、人体表面をより精密にサンプリングして得られた3次元キーポイントを含み、五官及び各関節付近のキーポイントを含んでもよく、人体の背部、腹部及び四肢の表面にキーポイントを定義することもできる。例えば、完全な人体表面の情報を表現するために、1000個のキーポイントを予め設定することができる。ここで、人体3次元メッシュ頂点の数は、抽出された画像特徴情報における頂点の数よりも小さくてもよい。
本出願の実施例では、全結合頂点再構築ネットワークの構造は、図4に示されたように、入力層41、少なくとも1つの隠れ層42、および出力層43を含み、ここで、全結合頂点再構築ネットワークの各層ノードの数は、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。訓練済み全結合頂点再構築ネットワークは、以下のように検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を得て、即ち、
入力層41によって検出すべき画像の画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得る。
少なくとも1つの隠れ層42によって、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することで、検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を得る。
出力層43によって、検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を出力する。
いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークは、少なくとも1つの入力層、少なくとも1つの隠れ層、および出力層を含む。
1つの隠れ層を例に挙げて、本出願の実施例における全結合頂点再構築ネットワークの構造を説明し、全結合頂点再構築ネットワークにおける入力層の各ノードと隠れ層の各ノードは、相互に接続され、隠れ層の各ノードと出力層の各ノードは、相互に接続される。入力層の場合、全結合頂点再構築ネットワークは、入力層によって、入力された画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得て、画像特徴情報に対して前処理を行う場合、いくつかの実施例では、画像特徴情報を表す特徴行列に含まれたデータをベクトルの形に変換することにより、入力特徴ベクトルを得る。
例えば、画像特徴情報は、以下のようになると、即ち、
Figure 2023518584000006
画像特徴情報に対して前処理を行うことで得られた入力特徴ベクトルは、
Figure 2023518584000007
であってもよい。
上記の画像特徴情報および画像特徴情報に対する前処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。
いくつかの実施例では、全結合頂点再構築ネットワークにおけるノードの数は、入力特徴ベクトルに含まれたデータの数と同じであってもよい。
隠れ層の場合、全結合頂点再構築ネットワークの隠れ層は、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することにより、検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得て、隠れ層の各ノードの出力値は、入力層のすべてのノードの出力値、現在のノードと入力層のすべてのノードの重み、現在のノードの偏差値、および活性化関数に基づいて確定される。
例えば、以下の式に基づいて隠れ層の各ノードの出力値を確定し、即ち、
Figure 2023518584000008
ここで、Yは、隠れ層におけるノードkの出力値であり、Wikは、隠れ層におけるノードkと前層のノードiとの重み値であり、Xは、前層のノードiの出力値であり、Bは、ノードkの偏差値であり、f()は、活性化関数である。
本出願の実施例では、重み行列は、異なる重み値からなる行列である。活性化関数として、RELU関数を選択することができる。
本出願の実施例では、隠れ層における各ノードの構造は、図5に示されたように、全結合(FC)処理層、正規化(BN)処理層、活性化関数(RELU)処理層を含む。
ここで、全結合処理層は、以下の式の前層のノードの出力値、隠れ層におけるノードと前層のノードとの重み値、および隠れ層におけるノードの偏差値に基づいて、全結合処理後の数値を得て、正規化処理層は、各ノードの全結合処理後の数値に対してバッチ正規化処理を行うために使用され、活性化関数処理層は、正規化処理後の値に対して非線形変換処理を行うことにより、ノードの出力値を得る。
いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークの隠れ層の層数および各隠れ層におけるノードの数は、当業者の経験に基づいて設定可能であり、具体的に限定しない。出力層の場合、全結合頂点再構築ネットワークの出力層は、得られた検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を出力する。
いくつかの実施例では、出力層の各ノードの出力値の確定方法は、隠れ層と同じであってもよく、即ち、出力層の出力値は、隠れ層のすべてのノードの出力値、出力層のノードと隠れ層のすべてのノードの重み、および活性化関数に基づいて確定される。
本出願の実施例では、出力層のノードの数は、人体3次元メッシュ頂点の数の3倍であってもよく、例えば、人体3次元メッシュ頂点の数が1000であると、出力層のノードの数は、3000である。ここで、出力層から出力されたベクトルは、3つごとに1つのグループになるように分割されることができ、第1人体3次元メッシュ頂点位置を構成する。例えば、出力層から出力されたベクトルが、
Figure 2023518584000009
であると、
(X、Y、Z)は、人体3次元メッシュ頂点1の位置であり、(X、Y、Z)は、人体3次元メッシュ頂点iの位置である。
なお、画像特徴情報に基づいて第1人体3次元メッシュ頂点位置を確定する上記プロセスは、本質的には、複数の隠蔽層によって画像特徴情報を表す高次元特徴行列をデコードした後に人体3次元メッシュ頂点位置を得るプロセスである。
本出願の実施例では、全結合頂点再構築ネットワークに基づいて検出すべき画像における人体領域の第1人体3次元メッシュ頂点位置を取得した後、第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、検出すべき画像における人体領域に対応する3次元人体モデルを構築する。
いくつかの実施例では、全結合頂点再構築ネットワークから出力された第1人体3次元メッシュ頂点位置に基づいて、人体3次元メッシュ頂点の3次元空間における座標を確定し、プリセット人体3次元メッシュ頂点間の接続関係に従って、空間における人体3次元メッシュ頂点を接続することにより、検出すべき画像における人体領域に対応する3次元人体モデルを構築する。
いくつかの実施例では、本出願の実施例における3次元人体モデルは、三角形メッシュモデルであってもよく、三角形メッシュは、三角形からなる多角形メッシュであり、図像学およびモデル化において広く応用され、例えば建築、車両、人体などの複雑な物体の表面を構築するために用いられる。
三角メッシュモデルは、記憶時にインデックス情報の形で記憶され、例えば、図6は、本出願の実施例における3次元人体モデルの部分構造を示し、ここで、v1、v2、v3、v4、v5は、5つの人体3次元メッシュ頂点であり、記憶時に対応するインデックス情報は、表1に示された頂点位置インデックスリスト、表2に示された辺インデックスリスト、及び表3に示された三角形インデックスリストを含む。
Figure 2023518584000010
Figure 2023518584000011
Figure 2023518584000012
ここで、表2および表3に示されたインデックス情報は、予め設定された人体キーポイント間の接続関係を表し、表1、表2、および表3に示されたデータは、例示的なものにすぎず、本出願の実施例における3次元人体モデルの人体3次元メッシュ頂点の一部と人体3次元メッシュ頂点の一部との接続関係にすぎない。実施中に、人体3次元メッシュ頂点は、当業者の経験に基づいて選択することができ、また、人体3次元メッシュ頂点の数も、当業者の経験に基づいて設定されることができる。
第1人体3次元メッシュ頂点を取得した後、空間において第1人体3次元メッシュ頂点位置を確定し、辺インデックスリストおよび三角形インデックスリストに示された接続関係に基づいて空間における人体3次元メッシュ頂点を接続することにより、3次元人体モデルを得る。
検出すべき画像における人体領域に対応する3次元人体モデルを構築した後、3次元人体モデルに基づいて関連分野の応用を行うことができる。
いくつかの実施例では、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、3次元人体モデルに対応する人体形態パラメータを得る。
ここで、人体形態パラメータは、3次元人体モデルの人体形状および/または人体姿勢を表すために使用される。
いくつかの実施例では、3次元人体モデルに基づいて検出すべき画像における人体の形態パラメータを得ることができ、これには、例えば身長、三囲、腿の長さなどの人体形状を表すパラメータ、及び例えば関節角度、人体姿勢情報などの人体姿勢を特定するパラメータが含まれる。当該3次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用し、3次元アニメーションなどを生成するために使用される。
なお、3次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用することは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。得られた人体形態パラメータは、例えば運動、医療分野などの他の分野にも応用することができ、検出すべき画像における人体に対応する3次元人体モデルから得られた人体形態パラメータに基づいて、検出すべき画像に撮影された被写体の肢体運動及び筋力発揮に対して解析などを行う。
3次元人体モデルに対応する人体形態パラメータを確定する場合、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、訓練済み人体パラメータ回帰ネットワークから出力された3次元人体モデルに対応する人体形態パラメータを取得する。ここで、人体パラメータ回帰ネットワークを訓練する場合に使用された訓練サンプルは、3次元人体モデルサンプルおよび予めマークされた3次元人体モデルサンプルに対応する人体形態パラメータを含む。
人体パラメータ回帰ネットワークを呼び出す前に、まず、3次元人体モデルサンプルおよび予めマークされた3次元人体モデルサンプルに対応する人体形態パラメータを含む訓練サンプルに基づいて人体パラメータ回帰ネットワークを訓練することにより得られた人体パラメータ回帰ネットワークは、3次元人体モデルに基づいて人体形態パラメータを得る能力を持ち、使用中に、検出すべき画像に基づいて得られた3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力し、人体パラメータ回帰ネットワークは、3次元人体モデルに対応する人体形態パラメータを出力する。
本出願の実施例では、人体パラメータ回帰ネットワークの性質は、全結合ニューラルネットワーク、畳み込みニューラルネットワークなどであってもよく、本出願の実施例では具体的に限定せず、人体パラメータ回帰ネットワークの訓練プロセスに対して、本発明の実施例では具体的に限定しない。
本出願の実施例では、3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを連携して訓練する方法をさらに提供し、連携して訓練するプロセスでは、グラフ畳み込みニューラルネットワークによって全結合頂点再構築ネットワークを整合性制約訓練する。
いくつかの実施例では、サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、サンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体3次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
人体3次元メッシュモデル、第2人体3次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
本出願の実施例による3次元再構築モデルの訓練方法では、3次元再構築モデルには特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークが含まれ、特徴抽出ネットワークによって抽出されたサンプル画像におけるサンプル人体領域の画像特徴情報を、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークにそれぞれ入力し、全結合頂点再構築ネットワークの出力は、第2人体3次元メッシュ頂点位置であり、グラフ畳み込みニューラルネットワークの入力は、予め定義された人体モデルメッシュトポロジ構造をさらに含み、グラフ畳み込みニューラルネットワーの出力は、サンプル人体領域に対応する人体3次元メッシュモデルであり、人体3次元メッシュモデルによって確定された第3人体3次元メッシュ頂点位置および全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置に基づいて、グラフ畳み込みニューラルネットワークと全結合頂点再構築ネットワークを整合性制約訓練し、訓練後の全結合頂点再構築ネットワークによる人体3次元メッシュ頂点位置の取得能力は、グラフ畳み込みニューラルネットワークによる人体3次元メッシュ頂点位置の取得能力と似ているが、計算量がグラフ畳み込みニューラルネットワークよりはるかに小さく、効率的かつ正確な人体三次元モデルの構築を実現する。3次元人体モデルの効率的かつ正確な構築を実現する。
いくつかの実施例では、サンプル画像および予めマークされた人体頂点位置を3次元再構築モデルに入力し、3次元再構築モデルにおける初期特徴抽出ネットワークによってサンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得る。
実施中に、特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、特徴抽出ネットワークがサンプル画像に対して特徴を抽出することは、本質的に、特徴抽出ネットワークが、入力されたサンプル画像を多層畳み込み動作によって高次元特徴行列、即ちサンプル画像の画像特徴情報にエンコードすることを意味する。ここで、特徴抽出ネットワークがサンプル画像に対して特徴を抽出するプロセスは、検出すべき画像に対して特徴を抽出する上記プロセスと同じであり、ここでは説明を省略する。
得られたサンプル画像のサンプル人体領域の画像特徴情報を、初期全結合頂点再構築ネットワークおよび初期グラフ畳み込みニューラルネットワークにそれぞれ入力する。
初期全結合頂点再構築ネットワークは、サンプル画像におけるサンプル人体領域の画像特徴情報および初期全結合頂点再構築ネットワークの各層に対応する初期重み行列に基づいて、サンプル画像における第2人体3次元メッシュ頂点位置を確定する。
実施中に、初期全結合頂点再構築ネットワークは、複数の隠れ層に対応する重み行列によって画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における第2人体3次元メッシュ頂点位置を得る。ここで、全結合頂点再構築ネットワークがサンプル画像の画像特徴情報に基づいてサンプル画像における第2人体3次元メッシュ頂点位置を得るプロセスは、全結合頂点再構築ネットワークが検出すべき画像の画像特徴情報に基づいて検出すべき画像における第1人体3次元メッシュ頂点位置を得るプロセスと同じであり、ここでは説明を省略する。
例えば、初期全結合頂点再構築ネットワークから得られたサンプル画像における人体領域に対応する第2人体3次元メッシュ頂点位置は、
Figure 2023518584000013
であり、全結合頂点再構築ネットワークから出力されたi番目の人体3次元メッシュ頂点の空間における位置を表している。
初期グラフ畳み込みニューラルネットワークは、サンプル画像の画像特徴情報および初期グラフ畳み込みニューラルネットワークに入力した予め定義された人体モデルメッシュトポロジ構造に基づいて、人体3次元メッシュモデルを確定し、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置を確定する。
実施中に、初期特徴抽出ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を、初期グラフ畳み込みニューラルネットワークに入力し、ここで、予め定義された人体モデルメッシュトポロジ構造は、三角形メッシュモデルの記憶情報であってもよく、プリセット人体3次元メッシュ頂点に対応する頂点位置インデックスリスト、辺インデックスリスト、および三角形インデックスリストなどを含む。初期グラフ畳み込みニューラルネットワークは、画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における人体3次元メッシュ頂点に対応する空間位置を得て、得られた人体3次元メッシュ頂点の空間位置に基づいて、予め記憶された頂点位置インデックスリストにおける人体3次元メッシュ頂点に対応する空間位置を調整し、サンプル画像に含まれたサンプル人体領域に対応する人体3次元メッシュモデルを出力し、出力した人体3次元メッシュモデルに対応する調整後の頂点位置インデックスリストによって第3人体3次元メッシュ頂点位置を確定する。
例えば、初期グラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する第3人体3次元メッシュ頂点位置は、
Figure 2023518584000014
であり、グラフ畳み込みニューラルネットワークから出力されたi番目の人体3次元メッシュ頂点の空間における位置を表している。
いくつかの実施例では、第1人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置および第3人体3次元メッシュ頂点位置に係る人体3次元メッシュ頂点は、同じであってもよく、第1、第2、第3は、異なる場合に得られる人体3次元メッシュ頂点位置を区別するために使用され、例えば、左眼中心点を表す人体3次元メッシュ頂点に対して、第1人体3次元メッシュ頂点位置は、訓練後の全結合頂点再構築ネットワークから得られた検出すべき画像における人体領域の左眼の中心点の位置を表し、第2人体3次元メッシュ頂点位置は、訓練中に全結合頂点再構築ネットワークから得られたサンプル画像におけるサンプル人体領域の左眼の中心点の位置を表し、第3人体メッシュ頂点位置は、訓練中にグラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する人体3次元メッシュモデルの左眼の中心点の位置を表す。
サンプル人体領域に対応する人体3次元メッシュモデルおよび第2人体3次元メッシュ頂点を得た後、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る必要がある。
いくつかの実施例では、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて、第1損失値を確定し、第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第2損失値を確定する。
確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。
本出願の実施例では、3次元再構築モデルの訓練プロセスでは、2つの損失値を確定する必要があり、ここで、第3人体3次元メッシュ頂点位置と予めマークされた人体頂点位置に基づいて第1損失値を確定する。
実施中に、予めマークされた人体頂点位置は、3次元メッシュ頂点座標または頂点投影座標であってもよく、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する3次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、予めマークされたサンプル画像における人体頂点位置は、頂点投影座標
Figure 2023518584000015
であり、予めマークされたi番目の人体頂点位置を表す。
第1損失値を確定する場合、第3人体3次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第3人体3次元メッシュ頂点位置に対応する投影座標
Figure 2023518584000016
が得られると、第1損失値を確定する式は、
Figure 2023518584000017
になる。
ここで、S1は第1損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000018
はi番目の第3人体3次元メッシュ頂点位置に対応する投影座標を表し、
Figure 2023518584000019
は予めマークされたi番目の人体頂点位置を表し、頂点投影座標である。
上記実施例は、例示的なものにすぎず、実施中に、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する3次元メッシュ頂点座標を得て、3次元メッシュ頂点座標と第3人体3次元メッシュ頂点位置に基づいて第1損失値を確定することもできる。
例えば、予めマークされたサンプル画像における人体頂点位置は、3次元メッシュ頂点座標
Figure 2023518584000020
であり、予めマークされたi番目の人体頂点位置を表す。
第1損失値を確定する場合、第3人体3次元メッシュ頂点位置および予めマークされた3次元メッシュ頂点に基づいて第1損失値を確定すると、第1損失値を確定する式は、
Figure 2023518584000021
になる。
ここで、S1は第1損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000022
はi番目の第3人体3次元メッシュ頂点位置を表し、
Figure 2023518584000023
は予めマークされたi番目の人体頂点位置を表し、3次元メッシュ頂点座標である。
第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第2損失値を確定する必要もある。
いくつかの実施例では、第2人体3次元メッシュ頂点位置、第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、第2人体3次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて平滑化損失値を確定し、整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第2損失値を得る。
いくつかの実施例では、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置とグラフ畳み込みニューラルネットワークに基づいて得られた第3人体3次元メッシュ頂点位置に基づいて、整合性損失値を確定し、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置との重なり度合いを表し、整合性制約訓練するために使用され、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置と予めマークされた人体頂点位置に基づいて、予測損失値を確定し、予測損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度を表し、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて、平滑化損失値を確定し、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度を表し、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置を平滑化制約する。
実施中に、第2人体3次元メッシュ頂点位置は、全結合頂点再構築ネットワークから出力され、第3人体3次元メッシュ頂点位置は、グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュモデルに基づいて得られ、グラフ畳み込みニューラルネットワークが人体3次元メッシュ頂点位置を比較的正確に得ることができるため、訓練中に、人体3次元メッシュ頂点に対応する第2人体3次元メッシュ頂点位置と第3人体3次元メッシュ頂点位置及び整合性損失関数に基づいて確定された整合性損失値が小さいほど、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置が、グラフ畳み込みニューラルネットワークから出力された第3人体3次元メッシュ頂点位置に近いことを示し、訓練済み全結合頂点再構築ネットワークは、検出すべき画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定する際により正確であり、全結合頂点再構築ネットワークは、グラフ畳み込みニューラルネットワークの計算量と記憶量よりも小さく、3次元人体モデルを構築する効率を高めることができる。
例えば、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置が
Figure 2023518584000024
であり、グラフ畳み込みニューラルネットワークから得られた第3人体3次元メッシュ頂点位置が
Figure 2023518584000025
であると、整合性損失値を確定する式は、
Figure 2023518584000026
になる。
ここで、a1は整合性損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000027
はi番目の第3人体3次元メッシュ頂点位置を表し、
Figure 2023518584000028
はi番目の第2人体3次元メッシュ頂点位置を表す。
実施中に、予めマークされた人体頂点位置は、3次元メッシュ頂点座標または頂点投影座標であってもよく、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する3次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、予めマークされたサンプル画像における人体頂点位置は、頂点投影座標
Figure 2023518584000029
であり、予めマークされたi番目の人体頂点位置を表す。
予測損失値を確定する場合、第2人体3次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第2人体3次元メッシュ頂点位置に対応する投影座標
Figure 2023518584000030
が得られると、予測損失値を確定する式は、
Figure 2023518584000031
になる。
ここで、a2は予測損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000032
はi番目の第3人体3次元メッシュ頂点位置に対応する投影座標を表し、
Figure 2023518584000033
は予めマークされたi番目の人体頂点位置を表し、頂点投影座標である。
上記実施例は、例示的なものにすぎず、実施中に、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する3次元メッシュ頂点座標を得て、3次元メッシュ頂点座標と第2人体3次元メッシュ頂点位置に基づいて予測損失値を確定することもできる。
例えば、予めマークされたサンプル画像における人体頂点位置は、3次元メッシュ頂点座標
Figure 2023518584000034
であり、予めマークされたi番目の人体頂点位置を表す。
予測損失値を確定する場合、第2人体3次元メッシュ頂点位置および予めマークされた3次元メッシュ頂点に基づいて予測損失値を確定すると、予測損失値を確定する式は、
Figure 2023518584000035
になる。
ここで、a2は予測損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000036
はi番目の第2人体3次元メッシュ頂点位置を表し、
Figure 2023518584000037
は予めマークされたi番目の人体頂点位置を表し、3次元メッシュ頂点座標である。
実施中に、平滑化損失値を確定する場合、平滑化損失関数は、ラプラス関数であってもよく、全結合頂点再構築ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する第2人体3次元メッシュ頂点位置をラプラス関数に入力することにより、平滑化損失値を得て、ここで、平滑化損失値が大きいほど、第2人体3次元メッシュ頂点位置に基づいて3次元人体モデルを構築する際に、得られる3次元人体モデルの表面が平滑ではなく、逆に3次元人体モデルの表面が平滑である。
平滑化損失値を確定する式は、a3=||(L)||である。
ここで、a3は平滑化損失値を表し、Lは第2人体3次元メッシュ頂点位置に基づいて確定されたラプラス行列である。
整合性損失値、予測損失値、平滑化損失値を得た後、得られた整合性損失値、予測損失値、平滑化損失値に基づいて加重平均を計算することにより、第2損失値を得る。
第2損失値を確定する式は、
Figure 2023518584000038
である。
ここで、S2は第2損失値を表し、m1は整合性損失値に対応する重みを表し、a1は整合性損失値を表し、m2は予測損失値に対応する重みを表し、a2は予測損失値を表し、m3は平滑損失値に対応する重みを表し、a3は平滑化損失値に対応する重みを表す。
なお、整合性損失値、予測損失値、平滑化損失値に対応する重み値は、当業者の経験値であってもよく、本出願の実施例では、具体的に限定しない。
本出願の実施例では、第2損失値を確定する際に、平滑化損失値を考慮して、全結合頂点再構築ネットワークの訓練を平滑化制約し、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルをより滑らかにする。実施中に、第2損失値は、整合性損失値の予測損失値のみに基づいて確定されることもでき、例えば、第2損失値を確定する式は、
Figure 2023518584000039
である。
ここで、S2は第2損失値を表し、mは整合性損失値に対応する重みを表し、a1は整合性損失値を表し、m2は予測損失値に対応する重みを表し、a2は予測損失値を表す。
第1損失値および第2損失値を確定した後、確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。ここで、第1プリセット範囲と第2プリセット範囲は、当業者によって経験値に基づいて設定されることができ、本出願の実施例では、具体的に限定しない。
図7に示されたように、本出願の実施例による訓練プロセスの概略図であり、サンプル画像および予めマークされた人体頂点位置を特徴抽出ネットワークに入力し、特徴抽出ネットワークは、サンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得て、特徴抽出ネットワークは、サンプル人体領域の画像特徴情報をグラフ畳み込みニューラルネットワークおよび全結合頂点再構築ネットワークにそれぞれ入力することにより、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置を得て、予め定義された人体モデルメッシュトポロジ構造をグラフ畳み込みニューラルネットワークに入力することにより、ルネットワークから出力された人体3次元メッシュモデルを得て、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置を確定し、第2人体3次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて第1損失値を確定し、第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて第2損失値を確定し、第1損失値に基づいてグラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
本出願の実施例では、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークを得た後、3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得る。訓練後の3次元再構築モデルには特徴抽出ネットワークおよび全結合頂点再構築ネットワークが含まれることができる。
本出願の実施例では、3次元人体モデル構築装置をさらに提供し、当該装置が、本出願の実施例の3次元人体モデル構築方法に対応する装置に対応し、当該装置による問題を解決する原理が当該方法と同様であるため、当該装置の実施形態について方法の実施形態を参照することができ、重複するものを省略する。
図8は、一例示的な実施例による3次元人体モデル構築装置のブロック図である。図8を参照すると、当該装置は、特徴抽出ユニット800、位置取得ユニット801、およびモデル構築ユニット802を含む。
特徴抽出ユニット800は、人体領域を含む検出すべき画像を取得し、検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得ることを実行するように構成される。
位置取得ユニット801は、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得ることを実行するように構成され、ここで、全結合頂点再構築ネットワークは、訓練中に3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。
モデル構築ユニット802は、第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、人体領域に対応する3次元人体モデルを構築することを実行するように構成される。
図9は、一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。図9を参照すると、当該装置は、訓練ユニット803をさらに含む。
訓練ユニット803は、具体的に、3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練することを実行するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体3次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
人体3次元メッシュモデル、第2人体3次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
一実現可能な実施形態では、訓練ユニット803は、さらに、3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得ることを実行するように構成される。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のことを実行するように構成され、即ち、
人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置、予めマークされた人体頂点位置に基づいて、第1損失値を確定し、ここで、予めマークされた人体頂点位置は、頂点投影座標または3次元メッシュ頂点座標であり、
第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第2損失値を確定し、
確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のことを実行するように構成され、即ち、
第2人体3次元メッシュ頂点位置、第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置の重なり度合いを表し、
第2人体3次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度を表し、
整合性損失値と予測損失値に対して加重平均を計算することにより、第2損失値を得る。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のことを実行するように構成され、即ち、
整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第2損失値を得て、
ここで、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度を表し、平滑化損失値は、第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて確定される。
図10は、一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。図10を参照すると、当該装置は、人体形態パラメータ取得ユニット804をさらに含む。
人体形態パラメータ取得ユニット804は、具体的に、以下のことを実行するように構成され、即ち、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、3次元人体モデルに対応する人体形態パラメータを得て、ここで、人体形態パラメータは、3次元人体モデルの人体形状および/または人体姿勢を表すために使用される。
上記実施例の装置について、各ユニットが要求を実行する具体的な方法は、当該方法に係る実施例で詳細に説明され、ここでは詳細に説明しない。
図11は、一例示的な実施例による電子機器1100のブロック図であり、当該電子機器は、少なくとも1つのプロセッサ1110および少なくとも1つのメモリ1120を含み得る。
ここで、メモリ1120にプログラムコードが記憶される。メモリ1120は、主にプログラム記憶領域とデータ記憶領域を含み、ここで、プログラム記憶領域は、オペレーティングシステム、インスタントメッセージング機能を実行するために必要なプログラムなどを記憶することができ、データ記憶領域は、さまざまなインスタントメッセージング情報および操作命令セットなどを記憶することができる。
メモリ1120は、例えばランダムアクセスメモリ(random-access memory、RAM)などの揮発性メモリ(volatile memory)であってもよいし、メモリ1120は、例えば読み取り専用メモリ、フラッシュメモリ(flash memory)、ハードディスク(hard disk drive、HDD)またはソリッドステートハードディスク(solid-state drive、SSD)などの不揮発性メモリ(non-volatile memory)であってもよいし、またはメモリ1120は、命令またはデータ構造の形態を有する所望のプログラムコードを携帯または記憶し、且つコンピュータによってアクセスすることができる任意の他の媒体であってもよいが、これに限定されない。メモリ1120は、上述のメモリの組み合わせであってもよい。
プロセッサ1110は、1つ以上の中央処理ユニット(central processing unit、CPU)を含み得て、またはデジタル処理ユニットなどであり得る。プロセッサ1110がメモリ1120に記憶されたプログラムコードを呼び出すと、上記本出願の各種の例示的な実施形態の画像処理方法におけるステップを実行する。
例示的な実施例では、例えば命令を含むメモリ1120などの命令を含む不揮発性コンピュータ記憶媒体をさらに提供し、上記の命令は、上記方法を完了するために電子機器1100のプロセッサ1110によって実行可能である。いくつかの実施例では、記憶媒体は、非一時的なコンピュータ可読記憶媒体であってもよく、例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、および光データ記憶デバイスなどであってもよい。
本出願の実施例では、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品が電子機器上で動作しているとき、本出願の実施例における上記の3次元人体モデル構築方法のいずれか、または3次元人体モデル構築方法のいずれかに関与する任意の方法を電子機器に実行させる。
当業者は、明細書を考慮し、本明細書に開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の任意の変形、用途、または適応的変化をカバーすることを意図し、これらの変形、用途、または適応的変化は、本出願の一般的な原理に従い、本出願に開示されていない本技術分野における公知の常識または慣用的な技術手段を含む。明細書および実施例は、単に例示的なものとみなされ、本出願の真の範囲および精神は、以下の特許請求の範囲によって示される。
本出願は、上記で説明され図面に示された正確な構造に限定されず、その範囲から逸脱することなく、様々な修正および変更を行うことができることを理解すべきである。本出願の範囲は、添付の特許請求の範囲のみによって制限される。
関連する出願の援用
本出願は、2020年06月19日に中国特許庁に提出された出願番号202010565641.7、発明名称「3次元人体モデル構築方法、装置、電子機器、および記憶媒体」の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。
本出願は、コンピュータ技術の分野に関し、特に3次元人体モデル構築方法および電子機器に関するものである。
画像処理技術の発展に伴い、画像データに基づいて3次元人体モデルを再構築することは、マシンビジョンアルゴリズムの重要な応用方向である。画像から3次元人体モデルを再構築した後で3次元人体モデルを得ることは、映画やテレビなどのエンターテイメント、医療健康及び教育などの分野に広く応用できる
本出願の実施例の側面によれば、人体領域を含むターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、体3次元メッシュ頂点ターゲット接続関係と前記第1人体3次元メッシュ頂点位置に基づいて、前記人体領域に対応する3次元人体モデルを構築することと、を含む3次元人体モデル構築方法に関する。
本出願の実施例の側面によれば、実行可能な命令を記憶するためのメモリと、前記メモリに記憶された実行可能な命令を読み出して実行することにより、以下のステップを実現するために使用されるプロセッサと、人体領域を含むターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得るステップ、前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されるステップ、人体3次元メッシュ頂点ターゲット接続関係と前記第1人体3次元メッシュ頂点位置に基づいて、前記人体領域に対応する3次元人体モデルを構築するステップである電子機器に関する。
本出願の実施例によれば、実行可能な命令が記憶された不揮発性読み取り可能な記憶媒体であって、前記実行可能な命令が電子機器のプロセッサによって実行されるときに、以下のステップを前記電子機器に実行させることができ、即ち、人体領域を含むターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得るステップ、前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップ、人体3次元メッシュ頂点間のターゲット接続関係と前記第1人体3次元メッシュ頂点位置に基づいて、前記人体領域に対応する3次元人体モデルを構築するステップである不揮発性読み取り可能な記憶媒体に関する。
一例示的な実施例による3次元人体モデル構築方法のフローチャートである。 一例示的な実施例による応用シーンの概略図である。 一例示的な実施例による特徴抽出ネットワークの概略構造図である。 一例示的な実施例による全結合頂点再構築ネットワークの概略構造図である。 一例示的な実施例による全結合頂点再構築ネットワークの隠れ層ノードの概略構造図である。 一例示的な実施例による3次元人体モデルの部分構造概略図である。 一例示的な実施例による訓練プロセスの概略図である。 一例示的な実施例による3次元人体モデル構築装置のブロック図である。 一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。 一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。 一例示的な実施例による電子機器のブロック図である。
以下、当業者の理解を容易にするために、本出願の実施例における用語の一部を説明する。
(1)本出願の実施例では、「複数」という用語は、2つ以上を意味し、他の助数詞は、これと類似している。
(2)本出願の実施例では、「端末デバイス」という用語は、各種アプリケーションをインストールすることができ、インストールされたアプリケーションで提供されたオブジェクトを表示することができるデバイスを指し、端末デバイスは、移動式であってもよく、固定式であってもよい。例えば、携帯電話、タブレット、各種ウェアラブルデバイス、車載機器、パーソナルデジタルアシスタント(personal digital assistant、PDA)、販売時点情報管理システム(point of sales、POS)、または上記の機能を実現できる他の端末デバイスなどが挙げられる。
(3)本出願の実施例では、「畳み込みニューラルネットワーク」という用語は、畳み込み演算を含みかつ深さ構造を有するフィードフォワードニューラルネットワーク(feedforward neural networks)の一種であり、深さ学習の代表的なアルゴリズムの一つであり、表現学習(representation learning)の能力を持ち、入力情報に対して階層構造に応じてシフト不変分類(shift-invariant classification)を行う。
(4)本出願の実施例では、「機械学習」という用語は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑度理論などの分野を含む学問分野を指す。新しい知識や技能を獲得し、既存の知識構造を再構成して自分の性能を絶えず改善させるために、コンピュータが人間の学習行動をどのようにシミュレーションしたり実現したりするかを専門に研究する。
画像処理技術の発展に伴い、画像データに基づいて3次元人体モデルを再構築することにより画像における人体を再現することは、マシンビジョンアルゴリズムの重要な応用方向である。応用シーンの多くは、3次元人体モデルによって得られた人体データを応用する必要があり、例えば、映画やテレビなどのエンターテイメントの分野に応用し、3次元人体モデルによって得られた人体データに基づいて3次元アニメーションの人物を駆動し、アニメーションを自働的に生成し、または、医療健康の分野に応用し、3次元人体モデルによって得られた人体データに基づいて、撮影された人体の身体活動および筋力発揮に対して解析などを行う。
以下、本出願の実施例をより詳細に説明する。
図1は、一例示的な実施例による3次元人体モデル構築方法のフローチャートであり、図1に示されたように、当該方法は、電子機器によって実行され、以下のステップを含む。
S11では、人体領域を含むターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得て、ここで、当該ターゲット画像は、検出すべき画像である
S12では、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得る。
ここで、全結合頂点再構築ネットワークは、訓練中に3次元再構築ネットワークに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。
S13では、人体3次元メッシュ頂点ターゲット接続関係と第1人体3次元メッシュ頂点位置に基づいて、人体領域に対応する3次元人体モデルを構築する。
本出願の実施例に開示された3次元人体モデル構築方法では、人体領域を含むターゲット画像に対して特徴を抽出し、ターゲット画像における人体領域の画像特徴情報を確定し、3次元再構築モデルにおける全結合頂点再構築ネットワークを通じて、画像特徴情報をデコードすることにより、ターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得て、体3次元メッシュ頂点ターゲット接続関係と第1人体3次元メッシュ頂点位置に基づいて3次元人体モデルを構築する。
本出願の実施例による3次元人体モデル構築方法では、構築プロセスのコストが低く、3次元人体モデルを構築する効率向上させた。また、本出願の実施例は、計算効率を向上させ、第1人体3次元メッシュ頂点位置の精度を向上させ、3次元人体モデルの効率的かつ正確な構築を実現することができる。
いくつかの実施例では、応用シーン図2に示、端末デバイス21画像収集装置が配置され、くつかの実施例では、ユーザ20が端末デバイス21の画像収集装置に基づいて人体領域を含むターゲット画像を収集した場合、画像収集装置は、収集したターゲット画像をサーバー22に送信する。サーバー22は、ターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力し、特徴抽出ネットワークによってターゲット画像に対して特徴を抽出することにより、人体領域の画像特徴情報を得る。サーバー22は、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得て、人体3次元メッシュ頂点ターゲット接続関係と前記第1人体3次元メッシュ頂点位置に基づいて、人体領域に対応する3次元人体モデルを構築する。サーバー22は、ターゲット画像における人体領域に対応する3次元人体モデルを端末デバイス21内の画像収集装置に送信し、画像収集装置は、得られた3次元人体モデルによって対応する処理を行い、例えば、画像収集装置は、得られた3次元人体モデルによって人体データを得て、人体データに基づいて3次元アニメーションの人物など駆動し、アニメーションの人物をユーザ20に表示する。
なお、上記応用シーンでは、ターゲット接続関係とは、プリセットされた人体3次元メッシュ頂点間の接続関係を指し、いくつかの実施例では、当該ターゲット接続関係は、すでにサーバー22に記憶されまたは、画像収集装置がターゲット画像をサーバー22に送信する場合当該プリセット人体3次元メッシュ頂点間の接続関係をサーバー22に送信する。上記応用シーンは、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。
本出願の実施例による3次元人体モデル構築方法では、3次元再構築モデルによって3次元人体モデルを構築する。当該3次元再構築モデルは、訓練中に特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを含み、このプロセスでは、全結合頂点再構築ネットワークとグラフ畳み込みニューラルネットワークに対して整合性制約訓練を行い、訓練が完了した後、計算量と記憶量の両方が大きいグラフ畳み込みニューラルネットワークを削除することにより訓練済み3次元再構築モデルを得て、訓練済み3次元再構築モデルは、特徴抽出ネットワークと全結合頂点再構築ネットワークを含む
訓練済み3次元再構築モデルによって3次元人体モデルを構築する場合、人体領域を含むターゲット画像を取得した後、まずターゲット画像に対して特徴を抽出してターゲット画像における人体領域の画像特徴情報を得る。
いくつかの実施例では、ターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。
いくつかの実施例では、訓練済み特徴抽出ネットワークを呼び出す前に、人体領域を含む大量の画像を用いて特徴抽出ネットワークを訓練、特徴抽出ネットワークを訓練する際の訓練サンプル、人体領域を含むサンプル画像とンプル画像のラベリング人体頂点位置を含み、当該ラベリング人体頂点位置は、予めラベリングされ、タグ情報として特徴抽出ネットワークの訓練に参加することができる訓練プロセスでは、訓練サンプルを画像特徴抽出ネットワークの入力とし、サンプル画像の画像特徴情報を画像特徴抽出ネットワークの出力とし、画像特徴抽出ネットワークを訓練する。なお、本出願の実施例では、訓練サンプルは、本出願の実施例に係る複数のニューラルネットワークを連携して訓練するために使用され、特徴抽出ネットワークを訓練するプロセスに対する上記説明は、例示的なものにすぎず、特徴抽出ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。
訓練済みの特徴抽出ネットワークは、画像における人体領域を含む画像特徴情報を抽出する能力を持つ。
いくつかの実施例では、ターゲット画像を訓練済み特徴抽出ネットワークに入力し、訓練済み特徴抽出ネットワークは、ターゲット画像における人体領域の画像特徴情報を抽出し、画像特徴情報を出力する。いくつかの実施例では、前記特徴抽出ネットワークは、畳み込みニューラルネットワークである
本出願の実施例では、特徴抽出ネットワークの構造は、図3に示されたように、少なくとも1つの畳み込み層31、プーリング層32および出力層33を含み、特徴抽出ネットワークがターゲット画像に対して特徴を抽出する理プロセスは、以下の通りであり、即ち、
少なくとも1つの畳み込み層31における人体領域の特徴を抽出するための複数の畳み込みカーネルによって、ターゲット画像に対して畳み込み操作を行うことにより、ターゲット画像に対応する複数の特徴マッピング行列を得て、
プーリング層32によって複数の特徴マッピング行列に対して平均を計算し、平均を計算して得られた特徴マッピング行列をターゲット画像に対応する画像特徴情報とし、
出力層によって、得られたターゲット画像に対応する画像特徴情報を出力する。
いくつかの実施例では、本出願の実施例における特徴抽出ネットワークは、少なくとも1つの畳み込み層、プーリング層、および出力層を含む。
畳み込み層について、特徴抽出ネットワークは、少なくとも1つの畳み込み層を含み、各畳み込み層には複数の畳み込みカーネルが含まれ、畳み込みカーネルは、ターゲット画像における人体領域の特徴を抽出するための行列であり、特徴抽出ネットワークに入力されたターゲット画像は、画素値からなる画像行列であり、画素値は、例えばターゲット画像における画素の階調値、RGB値などであり、畳み込み層において複数の畳み込みカーネルは、ターゲット画像に対して畳み込み操作を行い、畳み込み操作とは、画像行列と畳み込みカーネル行列に対して行列の畳み込み演算を行うことを指し、ここで、画像行列は、1つの畳み込みカーネルの畳み込み操作を経て、1つの特徴マッピング行列を得て、複数の畳み込みカーネルがターゲット画像に対して畳み込み操作を行うことにより、ターゲット画像に対応する複数の特徴マッピング行列を得、各畳み込みカーネルは、特定の特徴を抽出でき、異なる畳み込みカーネルは、異なる特徴を抽出するために使用される
いくつかの実施例では、畳み込みカーネルは、人体領域の特徴を抽出するための畳み込みカーネルであり、例えば、人体頂点の特徴を抽出する畳み込みカーネルであり、人体頂点の特徴を抽出する複数の畳み込みカーネルに基づいて、大量のターゲット画像における人体頂点の特徴の情報を得ることができ、これらの情報は、ターゲット画像における人体頂点のターゲット画像における位置情報をすことができ、さらにターゲット画像における人体領域の特徴を確定する。
プーリング層について、プーリング層は、複数の特徴マッピング行列における同じ位置の数値に対して平均を計算することにより、1つの特徴マッピング行列、即ちターゲット画像に対応する画像特徴情報を得るために使用される
例えば、得られた3つの特徴マッピング行列を例に挙げ、本出願の実施例における特徴抽出ネットワークプーリング層の処理方法を説明し、特徴マッピング行列は、3×3の行列である。
特徴マッピング行列1は、
Figure 2023518584000051
である。
特徴マッピング行列2は、
Figure 2023518584000052
である。
特徴マッピング行列3は、
Figure 2023518584000053
である。
プーリング層が上記の3つの特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた特徴マッピング行列は、
Figure 2023518584000054
である。
上記マッピング行列は、ターゲット画像の画像特徴情報である。なお、上記複数の特徴マッピング行列および平均を計算して得られた特徴マッピング行列の処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。
出力層の場合、出力層は、得られたターゲット画像に対応する画像特徴情報を出力するために使用される
いくつかの実施例では、画像特徴情報を表す特徴行列の次元は、ターゲット画像の解像度の次元より小さい
ターゲット画像の画像特徴情報を得た後、全結合頂点再構築ネットワークに基づいてターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を確定する。
いくつかの実施例では、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、全結合頂点再構築ネットワークから出力されたターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得る。
ここで、訓練済み全結合頂点再構築ネットワークは、ターゲット画像の画像特徴情報および訓練済み全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、ターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を得る。
いくつかの実施例では、訓練済み全結合頂点再構築ネットワークを呼び出す前に、特徴抽出ネットワークから出力されたサンプル画像の画像特徴情報によって全結合頂点再構築ネットワークを訓練するサンプル画像の画像特徴情報を全結合頂点再構築ネットワークの入力とし、サンプル画像における人体領域に対応する人体3次元メッシュ頂点位置を全結合頂点再構築ネットワークの出力とし、全結合頂点再構築ネットワークを訓練する。なお、全結合頂点再構築ネットワークを訓練するプロセスの上記説明は、例示的なものにすぎず、全結合頂点再構築ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。
訓練済みの全結合頂点再構築ネットワークは、ターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定する能力を持つ。
いくつかの実施例では、ターゲット画像における人体領域の画像特徴情報を訓練済み全結合頂点再構築ネットワークに入力し、訓練済み全結合頂点再構築ネットワークは、画像特徴情報および全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、ターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定し、第1人体3次元メッシュ頂点位置を出力する
いくつかの実施例では、当該人体3次元メッシュ頂点は、予め定義されたいくつかの密集キーポイントであり、人体表面をより精密にサンプリングして得られた3次元キーポイントを含み、例えば五官及び各関節付近のキーポイントを含み、または、人体の背部、腹部及び四肢の表面にキーポイントを定義する例えば、完全な人体表面の情報を示すために、1000個のキーポイントを予め設定する。いくつかの実施例では、人体3次元メッシュ頂点の数は、抽出された画像特徴情報における頂点の数よりも小さ
本出願の実施例では、全結合頂点再構築ネットワークの構造は、図4に示されたように、入力層41、少なくとも1つの隠れ層42、および出力層43を含み、ここで、全結合頂点再構築ネットワークの各層ノードの数は、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。訓練済み全結合頂点再構築ネットワークは、以下のようにターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を得て、即ち、
入力層41によってターゲット画像の画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得る。
少なくとも1つの隠れ層42によって、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することで、ターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を得る。
出力層43によって、ターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を出力する。
いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークは、少なくとも1つの入力層、少なくとも1つの隠れ層、および出力層を含む。
1つの隠れ層を例に挙げて、本出願の実施例における全結合頂点再構築ネットワークの構造を説明し、全結合頂点再構築ネットワークにおける入力層の各ノードと隠れ層の各ノードは、相互に接続され、隠れ層の各ノードと出力層の各ノードは、相互に接続される。入力層の場合、全結合頂点再構築ネットワークは、入力層によって、入力された画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得て、画像特徴情報に対して前処理を行うプロセスでは、いくつかの実施例では、画像特徴情報を表す特徴行列に含まれたデータをベクトルの形に変換することにより、入力特徴ベクトルを得る。
例えば、画像特徴情報が以下のようになると、即ち、
Figure 2023518584000055
画像特徴情報に対して前処理を行うことで得られた入力特徴ベクトルは、
Figure 2023518584000056
になる
上記の画像特徴情報および画像特徴情報に対する前処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。
いくつかの実施例では、全結合頂点再構築ネットワークにおけるノードの数は、入力特徴ベクトルに含まれたデータの数と同じである
隠れ層の場合、全結合頂点再構築ネットワークの隠れ層は、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することにより、ターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を得て、隠れ層の各ノードの出力値は、入力層のすべてのノードの出力値、現在のノードと入力層のすべてのノードの重み、現在のノードの偏差値、および活性化関数に基づいて確定される。
例えば、以下の式に基づいて隠れ層の各ノードの出力値を確定し、即ち、
Figure 2023518584000057
ここで、Yは、隠れ層におけるノードkの出力値であり、Wikは、隠れ層におけるノードkと前層のノードiとの重み値であり、Xは、前層のノードiの出力値であり、Bは、ノードkの偏差値であり、f()は、活性化関数である。
本出願の実施例では、重み行列は、異なる重み値からなる行列である。活性化関数例えばRELU関数である
本出願の実施例では、隠れ層における各ノードの構造は、図5に示されたように、全結合(fully connected、FC)処理層421、正規化(batch normalization、BN)処理層422、活性化関数(RELU)処理層423を含む。
ここで、全結合処理層は、上記の式の前層のノードの出力値、隠れ層におけるノードと前層のノードとの重み値、および隠れ層におけるノードの偏差値に基づいて、全結合処理後の数値を得て、正規化処理層は、各ノードの全結合処理後の数値に対してバッチ正規化処理を行うために使用され、活性化関数処理層は、正規化処理後の値に対して非線形変換処理を行うことにより、ノードの出力値を得る。
いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークの隠れ層の層数および各隠れ層におけるノードの数は、当業者の経験に基づいて設定可能であり、具体的に限定しない
いくつかの実施例では、出力層の各ノードの出力値の確定方法は、隠れ層と同じであり、即ち、出力層の出力値は、隠れ層のすべてのノードの出力値、出力層のノードと隠れ層のすべてのノードの重み、および活性化関数に基づいて確定される。
いくつかの実施例では、出力層のノードの数は、人体3次元メッシュ頂点の数の3倍であり、例えば、人体3次元メッシュ頂点の数が1000であると、出力層のノードの数は、3000である。ここで、出力層から出力されたベクトルは、3つごとに1つのグループになるように分割され第1人体3次元メッシュ頂点位置を構成する。例えば、出力層から出力されたベクトルが、
Figure 2023518584000058
であると、
(X、Y、Z)は、人体3次元メッシュ頂点1の位置であり、(X、Y、Z)は、人体3次元メッシュ頂点iの位置であり、iは、整数である
なお、画像特徴情報に基づいて第1人体3次元メッシュ頂点位置を確定する上記プロセスは複数の隠蔽層によって画像特徴情報を表す高次元特徴行列をデコードすることにより人体3次元メッシュ頂点位置を得るプロセスである。
本出願の実施例では、全結合頂点再構築ネットワークに基づいてターゲット画像における人体領域の第1人体3次元メッシュ頂点位置を取得した後、人体3次元メッシュ頂点ターゲット接続関係と第1人体3次元メッシュ頂点位置に基づいて、ターゲット画像における人体領域に対応する3次元人体モデルを構築する。
いくつかの実施例では、全結合頂点再構築ネットワークから出力された第1人体3次元メッシュ頂点位置に基づいて、人体3次元メッシュ頂点の3次元空間における座標を確定し、ターゲット接続関係に従って、空間における人体3次元メッシュ頂点を接続することにより、ターゲット画像における人体領域に対応する3次元人体モデルを構築する。
いくつかの実施例では、本出願の実施例における3次元人体モデルは、三角形メッシュモデルであり、三角形メッシュは、三角形からなる多角形メッシュであり、図像学およびモデル化において広く応用され、例えば建築、車両、人体などの複雑な物体の表面を構築するために用いられる。
いくつかの実施例では、三角メッシュモデルは、ンデックス情報の形で記憶、例えば、図6は、本出願の実施例における3次元人体モデルの部分構造を示し、ここで、v1、v2、v3、v4、v5は、5つの人体3次元メッシュ頂点であり、三角形メッシュモデルに記憶されたインデックス情報は、表1に示された頂点位置インデックスリスト、表2に示された辺インデックスリスト、及び表3に示された三角形インデックスリストを含む。
Figure 2023518584000059
Figure 2023518584000060
Figure 2023518584000061
ここで、表2および表3に示されたインデックス情報は、予め設定された人体キーポイント間の接続関係をし、表1、表2、および表3に示されたデータは、例示的なものにすぎず、本出願の実施例における3次元人体モデルの人体3次元メッシュ頂点の一部と人体3次元メッシュ頂点の一部との接続関係にすぎない。いくつかの実施例では人体3次元メッシュ頂点は、当業者の経験に基づいて選択され、人体3次元メッシュ頂点の数も、当業者の経験に基づいて設定されることができる。
第1人体3次元メッシュ頂点を取得した後、空間において第1人体3次元メッシュ頂点位置を確定し、辺インデックスリストおよび三角形インデックスリストに示された接続関係に基づいて空間における人体3次元メッシュ頂点を接続することにより、3次元人体モデルを得る。
ターゲット画像における人体領域に対応する3次元人体モデルを構築した後、3次元人体モデルに基づいて関連分野の応用を行うことができる。
いくつかの実施例では、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、3次元人体モデルに対応する人体形態パラメータを得る。
ここで、人体形態パラメータは、3次元人体モデルの人体形状および/または人体姿勢を表すために使用される。
いくつかの実施例では、3次元人体モデルに基づいてターゲット画像における人体の形態パラメータを得、これには、例えば身長、三囲、腿の長さなどの人体形状を表すパラメータ、及び例えば関節角度、人体姿勢情報などの人体姿勢を特定するパラメータが含まれる。当該3次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用し、3次元アニメーションなどを生成するために使用される。
なお、3次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用することは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。得られた人体形態パラメータは、例えば運動、医療分野などの他の分野にも応用することができ、ターゲット画像における人体に対応する3次元人体モデルから得られた人体形態パラメータに基づいて、ターゲット画像に撮影された被写体の肢体運動及び筋力発揮に対して解析などを行う。
3次元人体モデルに対応する人体形態パラメータを確定するプロセスでは、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、訓練済み人体パラメータ回帰ネットワークから出力された3次元人体モデルに対応する人体形態パラメータを取得する。ここで、人体パラメータ回帰ネットワークを訓練する場合に使用された訓練サンプルは、3次元人体モデルサンプルおよび3次元人体モデルサンプルに対応するラベリング人体形態パラメータを含む。
人体パラメータ回帰ネットワークを呼び出す前に、まず、3次元人体モデルサンプルおよび3次元人体モデルサンプルに対応するラベリング人体形態パラメータを含む訓練サンプルに基づいて人体パラメータ回帰ネットワークを訓練することにより得られた人体パラメータ回帰ネットワークは、3次元人体モデルに基づいて人体形態パラメータを得る能力を持ち、使用中に、ラベリング画像に基づいて得られた3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力し、人体パラメータ回帰ネットワークは、3次元人体モデルに対応する人体形態パラメータを出力する。
いくつかの実施例では、人体パラメータ回帰ネットワークの性質は、全結合ニューラルネットワーク、畳み込みニューラルネットワークなどであり、本出願の実施例では具体的に限定せず、人体パラメータ回帰ネットワークの訓練プロセスに対して、本出願の実施例では具体的に限定しない。
本出願の実施例では、3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを連携して訓練する方法をさらに提供し、連携して訓練するプロセスでは、グラフ畳み込みニューラルネットワークによって全結合頂点再構築ネットワークを整合性制約訓練する。
いくつかの実施例では、サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、サンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体3次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、ここで、当該人体モデルメッシュトポロジ構造は、予め定義された人体モデルメッシュトポロジ構造であり、経験に基づいて設定可能であり、これについて限定しない。
人体3次元メッシュモデル、第2人体3次元メッシュ頂点位置、およびンプル画像のラベリング人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
本出願の実施例による3次元再構築モデルの訓練方法では、3次元再構築モデル特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークが含まれ、特徴抽出ネットワークによって抽出されたサンプル画像におけるサンプル人体領域の画像特徴情報を、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークにそれぞれ入力し、全結合頂点再構築ネットワークの出力は、第2人体3次元メッシュ頂点位置であり、グラフ畳み込みニューラルネットワークの入力は、人体モデルメッシュトポロジ構造をさらに含み、グラフ畳み込みニューラルネットワーの出力は、サンプル人体領域に対応する人体3次元メッシュモデルであり、人体3次元メッシュモデルによって確定された第3人体3次元メッシュ頂点位置および全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置に基づいて、グラフ畳み込みニューラルネットワークと全結合頂点再構築ネットワークを整合性制約訓練し、訓練後の全結合頂点再構築ネットワークによる人体3次元メッシュ頂点位置の取得能力は、グラフ畳み込みニューラルネットワークによる人体3次元メッシュ頂点位置の取得能力と似ているが、計算量がグラフ畳み込みニューラルネットワークよりはるかに小さく、効率的かつ正確な人体三次元モデルの構築を実現する。3次元人体モデルの効率的かつ正確な構築を実現する。
いくつかの実施例では、サンプル画像およびラベリング人体頂点位置を3次元再構築モデルに入力し、3次元再構築モデルにおける初期特徴抽出ネットワークによってサンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得る。
いくつかの実施例では、特徴抽出ネットワークは、畳み込みニューラルネットワークであり、特徴抽出ネットワークがサンプル画像に対して特徴を抽出することは、特徴抽出ネットワークが力されたサンプル画像を多層畳み込み動作によって高次元特徴行列にエンコードすることにより、サンプル画像の画像特徴情報を得ることを意味する。ここで、特徴抽出ネットワークがサンプル画像に対して特徴を抽出するプロセスは、ターゲット画像に対して特徴を抽出する上記プロセスと同様であり、ここでは説明を省略する。
得られたサンプル画像のサンプル人体領域の画像特徴情報を、初期全結合頂点再構築ネットワークおよび初期グラフ畳み込みニューラルネットワークにそれぞれ入力する。
初期全結合頂点再構築ネットワークは、サンプル画像におけるサンプル人体領域の画像特徴情報および初期全結合頂点再構築ネットワークの各層に対応する初期重み行列に基づいて、サンプル画像における第2人体3次元メッシュ頂点位置を確定する。
いくつかの実施例では、初期全結合頂点再構築ネットワークは、複数の隠れ層に対応する重み行列によって画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における第2人体3次元メッシュ頂点位置を得る。ここで、全結合頂点再構築ネットワークがサンプル画像の画像特徴情報に基づいてサンプル画像における第2人体3次元メッシュ頂点位置を得るプロセスは、全結合頂点再構築ネットワークがターゲット画像の画像特徴情報に基づいてターゲット画像における第1人体3次元メッシュ頂点位置を得るプロセスと同様であり、ここでは説明を省略する。
例えば、初期全結合頂点再構築ネットワークから得られたサンプル画像における人体領域に対応する第2人体3次元メッシュ頂点位置は、
Figure 2023518584000062
であり、全結合頂点再構築ネットワークから出力されたi番目の人体3次元メッシュ頂点の空間における位置をしている。
初期グラフ畳み込みニューラルネットワークは、サンプル画像の画像特徴情報および初期グラフ畳み込みニューラルネットワークに入力した人体モデルメッシュトポロジ構造に基づいて、人体3次元メッシュモデルを確定し、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置を確定する。
いくつかの実施例では、初期特徴抽出ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する画像特徴情報および人体モデルメッシュトポロジ構造を、初期グラフ畳み込みニューラルネットワークに入力し、例えば当該人体モデルメッシュトポロジ構造は、三角形メッシュモデルの記憶情報であり、プリセット人体3次元メッシュ頂点に対応する頂点位置インデックスリスト、辺インデックスリスト、および三角形インデックスリストなどを含む。初期グラフ畳み込みニューラルネットワークは、画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における人体3次元メッシュ頂点に対応する空間位置を得て、得られた人体3次元メッシュ頂点の空間位置に基づいて、予め記憶された頂点位置インデックスリストにおける人体3次元メッシュ頂点に対応する空間位置を調整し、サンプル画像に含まれたサンプル人体領域に対応する人体3次元メッシュモデルを出力し、出力した人体3次元メッシュモデルに対応する調整後の頂点位置インデックスリストによって第3人体3次元メッシュ頂点位置を確定する。
例えば、初期グラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する第3人体3次元メッシュ頂点位置は、
Figure 2023518584000063
であり、グラフ畳み込みニューラルネットワークから出力されたi番目の人体3次元メッシュ頂点の空間における位置をしている。
いくつかの実施例では、第1人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置および第3人体3次元メッシュ頂点位置に係る人体3次元メッシュ頂点は、同じであり、第1、第2、第3は、異なる場合に得られる人体3次元メッシュ頂点位置を区別するために使用され、例えば、左眼中心点を示す人体3次元メッシュ頂点に対して、第1人体3次元メッシュ頂点位置は、訓練後の全結合頂点再構築ネットワークから得られたターゲット画像における人体領域の左眼の中心点の位置をし、第2人体3次元メッシュ頂点位置は、訓練中に全結合頂点再構築ネットワークから得られたサンプル画像におけるサンプル人体領域の左眼の中心点の位置をし、第3人体メッシュ頂点位置は、訓練中にグラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する人体3次元メッシュモデルの左眼の中心点の位置をす。
サンプル人体領域に対応する人体3次元メッシュモデルおよび第2人体3次元メッシュ頂点を得た後、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る
いくつかの実施例では、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて、第1損失値を確定し、第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第2損失値を確定する。
確定された第1損失値が第1ターゲット範囲内にあり、確定された第2損失値が第2ターゲット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。
ここで、当該第1ターゲット範囲と第2ターゲット範囲は、いずれも予め設定された範囲であり、経験に基づいて設定可能であり、これについて限定しない。
以下、第3人体3次元メッシュ頂点位置とラベリング人体頂点位置に基づいて第1損失値を確定するプロセスを説明する。
いくつかの実施例ではラベリング人体頂点位置は、3次元メッシュ頂点座標または頂点投影座標であり、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する3次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、ンプル画像のラベリング人体頂点位置は、頂点投影座標
Figure 2023518584000064
であり、予めマークされたi番目の人体頂点位置をす。
第1損失値を確定するプロセスでは、第3人体3次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第3人体3次元メッシュ頂点位置に対応する投影座標
Figure 2023518584000065
が得られると、第1損失値を確定する式は、
Figure 2023518584000066
になる。
ここで、S1は第1損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000067
はi番目の第3人体3次元メッシュ頂点位置に対応する投影座標を表し、
Figure 2023518584000068
は予めマークされたi番目の人体頂点位置を表し、頂点投影座標である。
上記実施例は、例示的なものにすぎず、いくつかの実施例では、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する3次元メッシュ頂点座標を得て、3次元メッシュ頂点座標と第3人体3次元メッシュ頂点位置に基づいて第1損失値を確定することもできる。
例えば、サンプル画像のラベリング人体頂点位置は、3次元メッシュ頂点座標
Figure 2023518584000069
であり、予めマークされたi番目の人体頂点位置をす。
第1損失値を確定するプロセスでは、第3人体3次元メッシュ頂点位置および予めマークされた3次元メッシュ頂点に基づいて第1損失値を確定すると、第1損失値を確定する式は、
Figure 2023518584000070
になる。
ここで、S1は第1損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000071
はi番目の第3人体3次元メッシュ頂点位置を表し、
Figure 2023518584000072
は予めマークされたi番目の人体頂点位置を表し、3次元メッシュ頂点座標である。
以下、第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第2損失値を確定するプロセスを説明する
いくつかの実施例では、第2人体3次元メッシュ頂点位置、第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、第2人体3次元メッシュ頂点位置、ラベリング人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて平滑化損失値を確定し、整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第2損失値を得る。
いくつかの実施例では、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置とグラフ畳み込みニューラルネットワークに基づいて得られた第3人体3次元メッシュ頂点位置に基づいて、整合性損失値を確定し、当該整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置との重なり度合いをし、整合性制約訓練するために使用され、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置とラベリング人体頂点位置に基づいて、予測損失値を確定し、当該予測損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度をし、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて、平滑化損失値を確定し、当該平滑化損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度をし、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置を平滑化制約する。
いくつかの実施例では、第2人体3次元メッシュ頂点位置は、全結合頂点再構築ネットワークから出力され、第3人体3次元メッシュ頂点位置は、グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュモデルに基づいて得られ、グラフ畳み込みニューラルネットワークが人体3次元メッシュ頂点位置を比較的正確に得ることができるため、訓練中に、人体3次元メッシュ頂点に対応する第2人体3次元メッシュ頂点位置と第3人体3次元メッシュ頂点位置及び整合性損失関数に基づいて確定された整合性損失値が小さいほど、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置が、グラフ畳み込みニューラルネットワークから出力された第3人体3次元メッシュ頂点位置に近くなり、訓練済み全結合頂点再構築ネットワークは、ターゲット画像における人体領域に対応する第1人体3次元メッシュ頂点位置を確定する際により正確であり、全結合頂点再構築ネットワークは、グラフ畳み込みニューラルネットワークの計算量と記憶量よりも小さく、3次元人体モデルを構築する効率を高めることができる。
例えば、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置が
Figure 2023518584000073
であり、グラフ畳み込みニューラルネットワークから得られた第3人体3次元メッシュ頂点位置が
Figure 2023518584000074
であると、整合性損失値を確定する式は、
Figure 2023518584000075
になる。
ここで、a1は整合性損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000076
はi番目の第3人体3次元メッシュ頂点位置を表し、
Figure 2023518584000077
はi番目の第2人体3次元メッシュ頂点位置を表す。
いくつかの実施例ではラベリング人体頂点位置は、3次元メッシュ頂点座標または頂点投影座標であり、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する3次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、ンプル画像のラベリング人体頂点位置は、頂点投影座標
Figure 2023518584000078
であり、予めマークされたi番目の人体頂点位置をす。
予測損失値を確定するプロセスでは、第2人体3次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第2人体3次元メッシュ頂点位置に対応する投影座標
Figure 2023518584000079
が得られると、予測損失値を確定する式は、
Figure 2023518584000080
になる。
ここで、a2は予測損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000081
はi番目の第3人体3次元メッシュ頂点位置に対応する投影座標を表し、
Figure 2023518584000082
は予めマークされたi番目の人体頂点位置を表し、頂点投影座標である。
上記実施例は、例示的なものにすぎず、いくつかの実施例では、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する3次元メッシュ頂点座標を得て、3次元メッシュ頂点座標と第2人体3次元メッシュ頂点位置に基づいて予測損失値を確定することもできる。
例えば、ンプル画像のラベリング人体頂点位置は、3次元メッシュ頂点座標
Figure 2023518584000083
であり、予めマークされたi番目の人体頂点位置をす。
予測損失値を確定するプロセスでは、第2人体3次元メッシュ頂点位置および予めマークされた3次元メッシュ頂点に基づいて予測損失値を確定すると、予測損失値を確定する式は、
Figure 2023518584000084
になる。
ここで、a2は予測損失値を表し、iはi番目の人体頂点を表し、nは人体頂点の総数を表し、
Figure 2023518584000085
はi番目の第2人体3次元メッシュ頂点位置を表し、
Figure 2023518584000086
は予めマークされたi番目の人体頂点位置を表し、3次元メッシュ頂点座標である。
いくつかの実施例では、平滑化損失値を確定するプロセスでは、平滑化損失関数は、ラプラス関数であり、全結合頂点再構築ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する第2人体3次元メッシュ頂点位置をラプラス関数に入力することにより、平滑化損失値を得て、ここで、平滑化損失値が大きいほど、第2人体3次元メッシュ頂点位置に基づいて3次元人体モデルを構築する際に、得られる3次元人体モデルの表面が平滑ではなく、逆に3次元人体モデルの表面が平滑である。
平滑化損失値を確定する式は、a3=||(L)||である。
ここで、a3は平滑化損失値を表し、Lは第2人体3次元メッシュ頂点位置に基づいて確定されたラプラス行列である。
整合性損失値、予測損失値、平滑化損失値を得た後、得られた整合性損失値、予測損失値、平滑化損失値に基づいて加重平均を計算することにより、第2損失値を得る。
第2損失値を確定する式は、
Figure 2023518584000087
である。
ここで、S2は第2損失値を表し、m1は整合性損失値に対応する重みを表し、a1は整合性損失値を表し、m2は予測損失値に対応する重みを表し、a2は予測損失値を表し、m3は平滑損失値に対応する重みを表し、a3は平滑化損失値に対応する重みを表す。
なお、整合性損失値、予測損失値、平滑化損失値に対応する重み値は、当業者の経験値であってもよく、本出願の実施例では、具体的に限定しない。
本出願の実施例では、第2損失値を確定するプロセスでは、平滑化損失値に基づいて、全結合頂点再構築ネットワークの訓練を平滑化制約し、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルをより滑らかにする。いくつかの実施例では、第2損失値は、整合性損失値および予測損失値基づいて確定されることもでき、例えば、第2損失値を確定する式は、
Figure 2023518584000088
である。
ここで、S2は第2損失値を表し、mは整合性損失値に対応する重みを表し、a1は整合性損失値を表し、m2は予測損失値に対応する重みを表し、a2は予測損失値を表す。
第1損失値および第2損失値を確定した後、確定された第1損失値が第1ターゲット範囲内にあり、確定された第2損失値が第2ターゲット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。ここで、第1ターゲット範囲と第2ターゲット範囲は、当業者によって経験値に基づいて設定されることができ、本出願の実施例では、具体的に限定しない。
図7に示されたように、本出願の実施例による訓練プロセスの概略図であり、サンプル画像およびラベリング人体頂点位置(即ち予めマークされた人体頂点位置を特徴抽出ネットワークに入力し、特徴抽出ネットワークは、サンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得て、特徴抽出ネットワークは、サンプル人体領域の画像特徴情報をグラフ畳み込みニューラルネットワークおよび全結合頂点再構築ネットワークにそれぞれ入力することにより、全結合頂点再構築ネットワークから出力された第2人体3次元メッシュ頂点位置を得て、予め定義された人体モデルメッシュトポロジ構造をグラフ畳み込みニューラルネットワークに入力することにより、ルネットワークから出力された人体3次元メッシュモデルを得て、人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置を確定し、第2人体3次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて第1損失値を確定し、第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて第2損失値を確定し、第1損失値に基づいてグラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
本出願の実施例では、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークを得た後、3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得る。訓練後の3次元再構築モデルは、特徴抽出ネットワークおよび全結合頂点再構築ネットワークを含む
本出願の実施例では、3次元人体モデル構築装置をさらに提供し、当該装置が、本出願の実施例の3次元人体モデル構築方法に対応する装置に対応し、当該装置による問題を解決する原理が当該方法と同様であるため、当該装置の実施形態について方法の実施形態を参照することができ、重複するものを省略する。
図8は、一例示的な実施例による3次元人体モデル構築装置のブロック図である。図8を参照すると、当該装置は、特徴抽出ユニット800、位置取得ユニット801、およびモデル構築ユニット802を含む。
特徴抽出ユニット800は、人体領域を含むターゲット画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得るように構成される。
位置取得ユニット801は、人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得るように構成され、ここで、全結合頂点再構築ネットワークは、訓練中に3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。
モデル構築ユニット802は、体3次元メッシュ頂点のターゲットと前記第1人体3次元メッシュ頂点位置接続関係に基づいて、人体領域に対応する3次元人体モデルを構築するように構成される。
図9は、一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。図9を参照すると、当該装置は、訓練ユニット803をさらに含む。
訓練ユニット803は、具体的に、3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体3次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
人体3次元メッシュモデル、第2人体3次元メッシュ頂点位置、およびンプル画像のラベリング人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。
一実現可能な実施形態では、訓練ユニット803は、さらに、3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得るように構成される。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のように構成され、即ち、
人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置、ラベリング人体頂点位置に基づいて、第1損失値を確定し、ここで、ラベリング人体頂点位置は、頂点投影座標または3次元メッシュ頂点座標であり、
第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第2損失値を確定し、
確定された第1損失値が第1ターゲット範囲内にあり、確定された第2損失値が第2ターゲット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のように構成され、即ち、
第2人体3次元メッシュ頂点位置、第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置の重なり度合いをし、
第2人体3次元メッシュ頂点位置、ラベリング人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度をし、
整合性損失値と予測損失値に対して加重平均を計算することにより、第2損失値を得る。
一実現可能な実施形態では、訓練ユニット803は、具体的に、以下のように構成され、即ち、
整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第2損失値を得て、
ここで、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度をし、平滑化損失値は、第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて確定される。
図10は、一例示的な実施例による別の3次元人体モデル構築装置のブロック図である。図10を参照すると、当該装置は、人体形態パラメータ取得ユニット804をさらに含む。
人体形態パラメータ取得ユニット804は、具体的に、以下のように構成され、即ち、3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、3次元人体モデルに対応する人体形態パラメータを得て、ここで、人体形態パラメータは、3次元人体モデルの人体形状および/または人体姿勢を表すために使用される。
図11は、一例示的な実施例による電子機器1100のブロック図であり、当該電子機器は、少なくとも1つのプロセッサ1110および少なくとも1つのメモリ1120を含み得る。
ここで、メモリ1120にプログラムコードが記憶される。メモリ1120は、主にプログラム記憶領域とデータ記憶領域を含み、ここで、プログラム記憶領域は、オペレーティングシステム、インスタントメッセージング機能を実行するために必要なプログラムなどを記憶することができ、データ記憶領域は、さまざまなインスタントメッセージング情報および操作命令セットなどを記憶することができる。
メモリ1120は、例えばランダムアクセスメモリ(random-access memory、RAM)などの揮発性メモリ(volatile memory)であってもよいし、メモリ1120は、例えば読み取り専用メモリ、フラッシュメモリ(flash memory)、ハードディスク(hard disk drive、HDD)またはソリッドステートハードディスク(solid-state drive、SSD)などの不揮発性メモリ(non-volatile memory)であってもよいし、またはメモリ1120は、命令またはデータ構造の形態を有する所望のプログラムコードを携帯または記憶し、且つコンピュータによってアクセスすることができる任意の他の媒体であってもよいが、これに限定されない。メモリ1120は、上述のメモリの組み合わせであってもよい。
プロセッサ1110は、1つ以上の中央処理ユニット(central processing unit、CPU)を含み得て、またはデジタル処理ユニットなどであり得る。プロセッサ1110がメモリ1120に記憶されたプログラムコードを呼び出すと、上記の3次元人体モデル構築方法のいずれか、または3次元人体モデル構築方法のいずれかに関与する任意の方法を実行する。
例示的な実施例では、例えば命令を含むメモリ1120などの命令を含む不揮発性読み取り可能な記憶媒体をさらに提供し、上記の命令は、上記の3次元人体モデル構築方法のいずれか、または3次元人体モデル構築方法のいずれかに関与する任意の方法を完了するために電子機器1100のプロセッサ1110によって実行可能である。いくつかの実施例では、記憶媒体は、非一時的なコンピュータ可読記憶媒体であってもよく、例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピーディスク、および光データ記憶デバイスなどであってもよい。
本出願の実施例では、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品が電子機器上で動作しているとき、本出願の実施例における上記の3次元人体モデル構築方法のいずれか、または3次元人体モデル構築方法のいずれかに関与する任意の方法を電子機器に実行させる。
本開示のすべての実施例は、単独で実行されてもよく、他の実施例と組み合わせて実行されてもよく、本開示によって要求される保護範囲とみなされる

Claims (22)

  1. 人体領域を含む検出すべき画像を取得し、前記検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、
    前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、
    前記第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する3次元人体モデルを構築することと、
    を含む、3次元人体モデル構築方法。
  2. 前記3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練し、即ち、
    サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、前記初期特徴抽出ネットワークから出力された前記サンプル人体領域の画像特徴情報を得て、
    前記サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、前記サンプル人体領域に対応する人体3次元メッシュモデルを得て、前記サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、前記サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
    前記人体3次元メッシュモデル、前記第2人体3次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
    請求項1に記載の方法。
  3. 前記3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得ることをさらに含む、
    請求項2に記載の方法。
  4. 前記前記人体3次元メッシュモデル、前記第2人体3次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することは、
    前記人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置、前記予めマークされた人体頂点位置に基づいて、第1損失値を確定し、ここで、前記予めマークされた人体頂点位置は、頂点投影座標または3次元メッシュ頂点座標であることと、
    前記第3人体3次元メッシュ頂点位置、前記第2人体3次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第2損失値を確定することと、
    確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、前記第1損失値に基づいて前記初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、前記第2損失値に基づいて前記初期全結合頂点再構築ネットワークのモデルパラメータを調整し、前記第1損失値と前記第2損失値に基づいて前記初期特徴抽出ネットワークのモデルパラメータを調整することと、
    を含む、請求項2に記載の方法。
  5. 前記前記第3人体3次元メッシュ頂点位置、前記第2人体3次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第2損失値を確定することは、
    前記第2人体3次元メッシュ頂点位置、前記第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、前記整合性損失値は、前記全結合頂点再構築ネットワークと前記初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置との重なり度合いを表すことと、
    前記第2人体3次元メッシュ頂点位置、前記予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、前記予測損失値は、前記全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度を表すことと、
    前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第2損失値を得ることと、
    を含む、請求項4に記載の方法。
  6. 前記前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第2損失値を得ることは、
    前記整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、前記第2損失値を得ることを含み、
    ここで、前記平滑化損失値は、前記全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度を表し、前記平滑化損失値は、前記第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
    請求項5に記載の方法。
  7. 前記3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、前記3次元人体モデルに対応する人体形態パラメータを得ることをさらに含み、ここで、前記人体形態パラメータは、前記3次元人体モデルの人体形状および/または人体姿勢を表すために使用される、
    請求項1に記載の方法。
  8. 人体領域を含む検出すべき画像を取得し、前記検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることを実行するように構成される特徴抽出ユニットと、
    前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得ることを実行するように構成され、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである位置取得ユニットと、
    前記第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する3次元人体モデルを構築することを実行するように構成されるモデル構築ユニットと、
    を含む、3次元人体モデル構築装置。
  9. 訓練ユニットをさらに含み、
    前記訓練ユニットは、具体的に、前記3次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練することを実行するように構成され、即ち、
    サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、前記初期特徴抽出ネットワークから出力された前記サンプル人体領域の画像特徴情報を得て、
    前記サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、前記サンプル人体領域に対応する人体3次元メッシュモデルを得て、前記サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、前記サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
    前記人体3次元メッシュモデル、前記第2人体3次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
    請求項8に記載の装置。
  10. 前記訓練ユニットは、さらに、前記3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得ることを実行するように構成される請求項9に記載の装置。
  11. 前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
    前記人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置、前記予めマークされた人体頂点位置に基づいて、第1損失値を確定し、ここで、前記予めマークされた人体頂点位置は、頂点投影座標または3次元メッシュ頂点座標であり、
    前記第3人体3次元メッシュ頂点位置、前記第2人体3次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第2損失値を確定し、
    確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、前記第1損失値に基づいて前記初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、前記第2損失値に基づいて前記初期全結合頂点再構築ネットワークのモデルパラメータを調整し、前記第1損失値と前記第2損失値に基づいて前記初期特徴抽出ネットワークのモデルパラメータを調整する、
    請求項9に記載の装置。
  12. 前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
    前記第2人体3次元メッシュ頂点位置、前記第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、前記整合性損失値は、前記全結合頂点再構築ネットワークと前記初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置との重なり度合いを表し、
    前記第2人体3次元メッシュ頂点位置、前記予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、前記予測損失値は、前記全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度を表し、
    前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第2損失値を得る、
    請求項11に記載の装置。
  13. 前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
    前記整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、前記第2損失値を得て、
    ここで、前記平滑化損失値は、前記全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度を表し、前記平滑化損失値は、前記第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
    請求項12に記載の装置。
  14. 人体形態パラメータ取得ユニットをさらに含み、
    前記人体形態パラメータ取得ユニットは、具体的に、以下のことを実行するように構成され、即ち、前記3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、前記3次元人体モデルに対応する人体形態パラメータを得て、ここで、前記人体形態パラメータは、前記3次元人体モデルの人体形状および/または人体姿勢を表すために使用される、
    請求項8に記載の装置。
  15. プロセッサと、
    実行可能な命令を記憶するためのメモリと、
    を含み、
    ここで、前記プロセッサは、前記実行可能な命令を実行することにより、以下のステップを実現するように構成され、即ち、
    人体領域を含む検出すべき画像を取得し、検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得るステップ、
    人体領域の画像特徴情報を3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、全結合頂点再構築ネットワークは、訓練中に3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップ、
    第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、人体領域に対応する3次元人体モデルを構築するステップ、
    である、
    電子機器。
  16. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
    サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体3次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第2人体3次元メッシュ頂点位置を得て、
    人体3次元メッシュモデル、第2人体3次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
    請求項15に記載の電子機器。
  17. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    3次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の3次元再構築モデルを得る、
    請求項16に記載の電子機器。
  18. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    人体3次元メッシュモデルに対応する第3人体3次元メッシュ頂点位置、予めマークされた人体頂点位置に基づいて、第1損失値を確定し、ここで、予めマークされた人体頂点位置は、頂点投影座標または3次元メッシュ頂点座標であり、
    第3人体3次元メッシュ頂点位置、第2人体3次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第2損失値を確定し、
    確定された第1損失値が第1プリセット範囲内にあり、確定された第2損失値が第2プリセット範囲内にあるまで、第1損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第2損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第1損失値と第2損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する、
    請求項16に記載の電子機器。
  19. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    第2人体3次元メッシュ頂点位置、第3人体3次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体3次元メッシュ頂点位置の重なり度合いを表し、
    第2人体3次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置の正確度を表し、
    整合性損失値と予測損失値に対して加重平均を計算することにより、第2損失値を得る、
    請求項18に記載の電子機器。
  20. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第2損失値を得て、
    平滑化損失値は、全結合頂点再構築ネットワークから出力された人体3次元メッシュ頂点位置に基づいて構築された3次元人体モデルの平滑度を表し、平滑化損失値は、第2人体3次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
    請求項19に記載の電子機器。
  21. 前記プロセッサは、以下のことを実行するように構成され、即ち、
    3次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、3次元人体モデルに対応する人体形態パラメータを得て、人体形態パラメータは、3次元人体モデルの人体形状および/または人体姿勢を表すために使用される、
    請求項15に記載の電子機器。
  22. 実行可能な命令が記憶されたコンピュータ記憶媒体であって、前記実行可能な命令が実行されるときに、
    人体領域を含む検出すべき画像を取得し、前記検出すべき画像を3次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、
    前記人体領域の画像特徴情報を前記3次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第1人体3次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記3次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、
    前記第1人体3次元メッシュ頂点位置とプリセット人体3次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する3次元人体モデルを構築することと、
    を含む3次元人体モデル構築方法を実現する、
    記憶媒体。
JP2022557941A 2020-06-19 2020-12-25 3次元人体モデル構築方法および電子機器 Pending JP2023518584A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010565641.7A CN113822982B (zh) 2020-06-19 2020-06-19 一种人体三维模型构建方法、装置、电子设备及存储介质
CN202010565641.7 2020-06-19
PCT/CN2020/139594 WO2021253788A1 (zh) 2020-06-19 2020-12-25 一种人体三维模型构建方法及装置

Publications (1)

Publication Number Publication Date
JP2023518584A true JP2023518584A (ja) 2023-05-02

Family

ID=78924310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022557941A Pending JP2023518584A (ja) 2020-06-19 2020-12-25 3次元人体モデル構築方法および電子機器

Country Status (4)

Country Link
US (1) US20230073340A1 (ja)
JP (1) JP2023518584A (ja)
CN (1) CN113822982B (ja)
WO (1) WO2021253788A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115840507A (zh) * 2022-12-20 2023-03-24 北京帮威客科技有限公司 一种基于3d图像控制的大屏设备交互方法
CN115775300A (zh) * 2022-12-23 2023-03-10 北京百度网讯科技有限公司 人体模型的重建方法、人体重建模型的训练方法及装置
CN116246026B (zh) * 2023-05-05 2023-08-08 北京百度网讯科技有限公司 三维重建模型的训练方法、三维场景渲染方法及装置
CN117315152B (zh) * 2023-09-27 2024-03-29 杭州一隅千象科技有限公司 双目立体成像方法及其系统
CN117456144B (zh) * 2023-11-10 2024-05-07 中国人民解放军海军航空大学 基于可见光遥感图像的目标建筑物三维模型优化方法
CN117726907B (zh) * 2024-02-06 2024-04-30 之江实验室 一种建模模型的训练方法、三维人体建模的方法以及装置
CN117808976A (zh) * 2024-03-01 2024-04-02 之江实验室 一种三维模型构建方法、装置、存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285215B (zh) * 2018-08-28 2021-01-08 腾讯科技(深圳)有限公司 一种人体三维模型重建方法、装置和存储介质
US10796482B2 (en) * 2018-12-05 2020-10-06 Snap Inc. 3D hand shape and pose estimation
CN110021069B (zh) * 2019-04-15 2022-04-15 武汉大学 一种基于网格形变的三维模型重建方法
CN110428493B (zh) * 2019-07-12 2021-11-02 清华大学 基于网格形变的单图像人体三维重建方法及系统
CN110458957B (zh) * 2019-07-31 2023-03-10 浙江工业大学 一种基于神经网络的图像三维模型构建方法及装置

Also Published As

Publication number Publication date
US20230073340A1 (en) 2023-03-09
CN113822982B (zh) 2023-10-27
CN113822982A (zh) 2021-12-21
WO2021253788A1 (zh) 2021-12-23

Similar Documents

Publication Publication Date Title
JP2023518584A (ja) 3次元人体モデル構築方法および電子機器
CN108961369B (zh) 生成3d动画的方法和装置
CN111369681B (zh) 三维模型的重构方法、装置、设备及存储介质
CN111598998B (zh) 三维虚拟模型重建方法、装置、计算机设备和存储介质
Tiwari et al. Pose-ndf: Modeling human pose manifolds with neural distance fields
Santesteban et al. SoftSMPL: Data‐driven Modeling of Nonlinear Soft‐tissue Dynamics for Parametric Humans
US10121273B2 (en) Real-time reconstruction of the human body and automated avatar synthesis
Tretschk et al. Demea: Deep mesh autoencoders for non-rigidly deforming objects
WO2020247174A1 (en) Single image-based real-time body animation
CN110458924B (zh) 一种三维脸部模型建立方法、装置和电子设备
KR20230004837A (ko) 생성형 비선형 인간 형상 모형
Caliskan et al. Multi-view consistency loss for improved single-image 3d reconstruction of clothed people
CN116363308A (zh) 人体三维重建模型训练方法、人体三维重建方法和设备
Sengan et al. Cost-effective and efficient 3D human model creation and re-identification application for human digital twins
CN114202615A (zh) 人脸表情的重建方法、装置、设备和存储介质
JP2019016164A (ja) 学習データ生成装置、推定装置、推定方法及びコンピュータプログラム
US20220301348A1 (en) Face reconstruction using a mesh convolution network
US20230104702A1 (en) Transformer-based shape models
US20230079478A1 (en) Face mesh deformation with detailed wrinkles
Karadeniz et al. Tscom-net: Coarse-to-fine 3d textured shape completion network
Yano et al. A facial expression parameterization by elastic surface model
CN116912433B (zh) 三维模型骨骼绑定方法、装置、设备及存储介质
AGARWAL et al. Pixel-Aligned Implicit Functions on Dynamic Meshes
Seo et al. DSNet: Dynamic Skin Deformation Prediction by Recurrent Neural Network
Pei et al. Tissue map based craniofacial reconstruction and facial deformation using rbf network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230703

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240213