JP2023547888A - 三次元再構成方法、装置、システム、媒体及びコンピュータデバイス - Google Patents

三次元再構成方法、装置、システム、媒体及びコンピュータデバイス Download PDF

Info

Publication number
JP2023547888A
JP2023547888A JP2023525021A JP2023525021A JP2023547888A JP 2023547888 A JP2023547888 A JP 2023547888A JP 2023525021 A JP2023525021 A JP 2023525021A JP 2023525021 A JP2023525021 A JP 2023525021A JP 2023547888 A JP2023547888 A JP 2023547888A
Authority
JP
Japan
Prior art keywords
dimensional
target object
parameter
initial
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023525021A
Other languages
English (en)
Inventor
智傑 曹
旻 汪
文▲トウ▼ 劉
晨 銭
利庄 馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2023547888A publication Critical patent/JP2023547888A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • G06T2207/20044Skeletonization; Medial axis transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Image Generation (AREA)

Abstract

本発明は、三次元再構成方法、装置、システム、媒体及びコンピュータデバイスを提供し、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、予め取得された、目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、パラメータの最適値を取得するステップと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップと、を含む。【選択図】図2

Description

本発明はコンピュータビジョン技術分野に関し、特に三次元再構成方法、装置、システム、媒体及びコンピュータデバイスに関する。
三次元再構成はコンピュータビジョンにおける重要な技術の1つであり、拡張現実、仮想現実等の分野で多くの潜在的な応用がある。目標対象に対して三次元再構成を行うことにより、目標対象の体型及び肢体の回転を再構成することができる。しかし、従来の三次元再構成方法では、再構成結果の正確性と信頼性を両立させることができない。
本発明は三次元再構成方法、装置、システム、媒体及びコンピュータデバイスを提供する。
本発明の実施例の第1態様により、三次元再構成方法を提供する。前記方法は、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するステップと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップとを含む。
いくつかの実施例において、前記教師情報は、第1教師情報を含み、又は、前記教師情報は、第1教師情報と第2教師情報とを含み、前記第1教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも1つ含み、前記第2教師情報は、前記目標対象の表面の初期三次元点群を含む。本発明の実施例は目標対象の初期二次元キーポイント又は画素点のセマンティック情報のみを教師情報として前記パラメータの初期値に対して最適化を行うことができ、最適化の効率が高く、最適化の複雑度が低い。また、目標対象の表面の初期三次元点群と、前記初期二次元キーポイント又は画素点のセマンティック情報とをともに教師情報としてもよく、それにより、取得されたパラメータの最適値の正確度を向上させる。
いくつかの実施例において、前記方法は、キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出することをさらに含む。キーポイント抽出ネットワークによって抽出された初期二次元キーポイントの情報を教師情報とすることで、三次元モデルに比較的自然且つ合理的な動きを生成することができる。
いくつかの実施例において、前記画像は前記目標対象の深度画像を含み、前記方法は、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することと、前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の初期三次元点群を取得することと、をさらに含む。深度情報を抽出し、深度情報に基づいて二次元画像における画素点を三次元空間へ逆投影し、目標対象の表面の初期三次元点群を取得することにより、当該初期三次元点群を教師情報としてパラメータの初期値を最適化することができ、パラメータ最適化の正確度をさらに向上させた。
いくつかの実施例において、前記画像は前記目標対象のRGB画像をさらに含み、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することは、前記RGB画像に対して画像分割を行うことと、画像分割の結果に基づいて、前記RGB画像における前記目標対象の所在する画像領域を特定することと、前記RGB画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定することと、前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得することと、を含む。RGB画像に対して画像分割を行うことにより、目標対象の位置を正確に特定でき、それにより目標対象の深度情報を正確に抽出する。
いくつかの実施例において、前記方法は、前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第2教師情報とすることをさらに含む。外れ点をフィルタリングすることにより、外れ点による干渉を低減し、パラメータ最適化の正確性をさらに向上させた。
いくつかの実施例において、前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、前記予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行うことは、前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得することと、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得することと、を含む。最適化の過程中に、画像収集装置の位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させるため、最適化の過程の不安定を招く。二段階の最適化方法を採用して、先ずキーポイント回転パラメータの初期値と体型パラメータの初期値とを固定して、画像収集装置の変位パラメータの初期値とグローバル回転パラメータの初期値とに対して最適化を行い、変位パラメータの初期値とグローバル回転パラメータの初期値とを固定して、キーポイント回転パラメータの初期値と体型パラメータの初期値とに対して最適化を行い、それにより最適化の過程の安定性を向上させた。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記第1損失と前記第2損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含む。所定部位は、体幹等の部位であってもよく、異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第1損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。二次元キーポイントは二次元平面上の教師情報であり、画像収集装置の変位パラメータは三次元平面上のパラメータであるため、第2損失を取得することによって、最適化結果が二次元平面上の局所最適点に収まって真実点からずれる状況を回避することができる。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第3損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、第4損失を取得することであって、前記第4損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、前記第3損失と前記第4損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことと、を含む。本実施例は変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、キーポイント回転パラメータの初期値と体型パラメータの初期値に対して最適化を行うことにより、最適化過程の安定性を向上させるとともに、第4損失によって最適化済みのパラメータに対応する姿勢の合理性が保証された。
いくつかの実施例において、前記方法は、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことをさらに含む。本実施例は前述した最適化に加えて、最適化済みの各パラメータに対して同時最適化を行うことにより、最適化結果の正確性をさらに向上させた。
いくつかの実施例において、前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記目標対象の表面の第1三次元点群と前記初期三次元点群との間の第5損失を取得することであって、前記第1三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、前記第1損失と、前記第2損失と、前記第5損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含む。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
いくつかの実施例において、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第6損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得されることと、第7損失を取得することであって、前記第7損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられることと、前記目標対象の表面の第2三次元点群と前記初期三次元点群との間の第8損失を取得することであって、前記第2三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得されることと、前記第6損失と、第7損失と、第8損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことと、を含む。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
本発明の実施例の第2態様により、三次元再構成装置を提供する。前記装置は、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するための第1三次元再構成モジュールであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる第1三次元再構成モジュールと、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するための最適化モジュールと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するための第2三次元再構成モジュールと、を備える。
いくつかの実施例において、前記教師情報は、第1教師情報を含み、又は、前記教師情報は、第1教師情報と第2教師情報とを含み、前記第1教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも1つ含み、前記第2教師情報は、前記目標対象の表面の初期三次元点群を含む。本発明の実施例は目標対象の初期二次元キーポイント又は画素点のセマンティック情報のみを教師情報として前記パラメータの初期値に対して最適化を行うことができ、最適化の効率が高く、最適化の複雑度が低い。また、目標対象の表面の初期三次元点群と、前記初期二次元キーポイント又は画素点のセマンティック情報とをともに教師情報としてもよく、それにより、取得されたパラメータの最適値の正確度を向上させる。
いくつかの実施例において、前記装置は、キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出するための二次元キーポイント抽出モジュールをさらに備える。キーポイント抽出ネットワークによって抽出された初期二次元キーポイントの情報を教師情報とすることで、三次元モデルに比較的自然且つ合理的な動きを生成することができる。
いくつかの実施例において、前記画像は前記目標対象の深度画像を含み、前記装置は、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出するための深度情報抽出モジュールと、前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の初期三次元点群を取得するための逆方向投影モジュールと、をさらに備える。深度情報を抽出し、深度情報に基づいて二次元画像における画素点を三次元空間へ逆投影し、目標対象の表面の初期三次元点群を取得することにより、当該初期三次元点群を教師情報としてパラメータの初期値を最適化することができ、パラメータ最適化の正確度をさらに向上させた。
いくつかの実施例において、前記画像は前記目標対象のRGB画像をさらに含み、前記深度情報抽出モジュールは、前記RGB画像に対して画像分割を行うための画像分割ユニットと、画像分割の結果に基づいて、前記RGB画像における前記目標対象の所在する画像領域を特定し、前記RGB画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定するための画像領域特定ユニットと、前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得するための深度情報取得ユニットと、をさらに備える。RGB画像に対して画像分割を行うことにより、目標対象の位置を正確に特定でき、それにより目標対象の深度情報を正確に抽出する。
いくつかの実施例において、前記装置は、前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第2教師情報とするためのフィルタリングモジュールをさらに備える。外れ点をフィルタリングすることにより、外れ点による干渉を低減し、パラメータ最適化の正確性をさらに向上させた。
いくつかの実施例において、前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、前記最適化モジュールは、前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得するための第1最適化ユニットと、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得するための第2最適化ユニットと、を備える。最適化の過程中に、画像収集装置の位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させるため、最適化の過程の不安定を招く。二段階の最適化方法を採用して、先ずキーポイント回転パラメータの初期値と体型パラメータの初期値とを固定して、画像収集装置の変位パラメータの初期値とグローバル回転パラメータの初期値とに対して最適化を行い、変位パラメータの初期値とグローバル回転パラメータの初期値とを固定して、キーポイント回転パラメータの初期値と体型パラメータの初期値とに対して最適化を行い、それにより最適化の過程の安定性を向上させた。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第1最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記第1損失と前記第2損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。所定部位は、体幹等の部位であってもよく、異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第1損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。二次元キーポイントは二次元平面上の教師情報であり、画像収集装置の変位パラメータは三次元平面上のパラメータであるため、第2損失を取得することによって、最適化結果が二次元平面上の局所最適点に収まって真実点からずれる状況を回避することができる。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第2最適化ユニットは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第3損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、第4損失を取得することであって、前記第4損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、前記第3損失と前記第4損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、キーポイント回転パラメータの初期値と体型パラメータの初期値に対して最適化を行うことにより、最適化過程の安定性を向上させるとともに、第4損失によって最適化済みのパラメータに対応する姿勢の合理性が保証された。
いくつかの実施例において、前記装置は、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化モジュールをさらに備える。本実施例は前述した最適化に加えて、最適化済みの各パラメータに対して同時最適化を行うことにより、最適化結果の正確性をさらに向上させた。
いくつかの実施例において、前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記第1最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記目標対象の表面の第1三次元点群と前記初期三次元点群との間の第5損失を取得することであって、前記第1三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、前記第1損失と、前記第2損失と、前記第5損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
いくつかの実施例において、前記同時最適化モジュールは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第6損失を取得するための第1取得ユニットであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得される第1取得ユニットと、第7損失を取得するための第2取得ユニットであって、前記第7損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられる第2取得ユニットと、前記目標対象の表面の第2三次元点群と前記初期三次元点群との間の第8損失を取得ための第3取得ユニットであって、前記第2三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得される第3取得ユニットと、前記第6損失と、第7損失と、第8損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化ユニットと、を備える。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
本発明の実施例の第3態様により、三次元再構成システムを提供し、前記システムは、目標対象の画像を収集するための画像収集装置と、前記画像収集装置と通信可能に接続された処理ユニットであって、三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニットと、を備える。
本発明の実施例の第4態様により、Computerプログラムが記憶されたコンピュータ可読記憶媒体を提供し、当該コンピュータプログラムはプロセッサにより実行されるとき、いずれかの実施例に記載の方法が実施される。
本発明の実施例の第5態様により、メモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスを提供し、前記プロセッサが前記コンピュータプログラムを実行するとき、いずれかの実施例に記載の方法を実施する。
本発明の実施例の第6態様により、コンピュータプログラム製品を提供し、当該コンピュータプログラム製品は記憶媒体に記憶され、プロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記コンピュータプログラムを実行するとき、いずれかの実施例に記載の方法を実施する。
本発明の実施例は三次元再構成ネットワークによって目標対象の画像に対して三次元再構成を行うことで、パラメータの初期値を取得し、次に監督情報に基づいて前記パラメータの初期値に対して最適化を行い、パラメータ最適化によって得られたパラメータの最適値に基づいて、目標対象の三次元モデルを生成する。パラメータ最適化という方法は、正確な、画像の二次元観察特徴と合致する三次元再構成結果を得ることができるという利点があるが、不自然で不合理的な動作結果を取得しやすいため、信頼性が低い。三次元再構成ネットワークによってネットワーク回帰を行うことで、比較的自然且つ合理的な動作結果を得ることができるため、三次元再構成ネットワークの出力結果をパラメータの初期値として最適化を行うことで、三次元再構成の結果の信頼性を保証する上で、三次元再構成の正確性を考慮することができる。
理解すべきは、以上の一般的な記述と後の詳細的な記述が、単に例示的又は解釈的なものにすぎず、本発明を制限するものではない。
ここでの図面は明細書に取り込まれて、本明細書の一部を構成する。これらの図面は本発明と合致する実施例を示し、明細書とともに本発明の技術的な解決手段を説明するために用いられる。
いくつかの実施例の三次元モデルの模式図である。 いくつかの実施例の三次元モデルの模式図である。 本発明の実施例の三次元再構成方法のフローチャートである。 本発明の実施例の全体的なフローチャートである。 本発明の実施例の応用シーンの模式図である。 本発明の実施例の応用シーンの模式図である。 本発明の実施例の三次元再構成装置のブロック図である。 本発明の実施例の三次元再構成システムの模式図である。 本発明の実施例のコンピュータデバイスの構造模式図である。
ここで例示的な実施例について詳細的に説明する。その例示は図面に示している。以下の説明は図面に係る時、特に示さない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に記載された実施形態は本発明と一致する全ての実施形態ではない。逆に、それらは添付の特許請求の範囲で詳細に説明されたような、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本発明で使用された用語は特定の実施例を説明する目的でのみ使用され、本発明を限定するものではない。文脈が他の意味を明らかに表さない限り、本発明及び添付された特許請求の範囲に使用される単数形の「一種」、「前記」及び「当該」は複数形を含むことも意図する。理解されるように、本明細書で使用される用語の「及び/又は」は挙げられた1つ又は複数の関連する項目の任意又は全ての可能な組み合わせを含むことを意味する。なお、本明細書における用語の「少なくとも1種」は複数種のうちのいずれか1種、又は複数種のうちの少なくとも2種の任意な組み合わせを意味する。
理解できるように、本発明において、第1、第2、第3等の用語を利用して様々な情報を説明するが、これらの情報はこれらの用語に限定されない。これらの用語は単に同一の種類の情報を区別するために用いられる。例えば、本発明の範囲から逸脱しない限り、第1情報は第2情報と呼称されてもよく、類似的に、第2情報は第1情報と呼称されてもよい。文脈によって、例えばここで使用された用語の「…と」は「…とき」又は「…場合」、又は「…に応じて」と解釈されてもよい。
当業者に本発明の実施例における技術的解決手段をよりよく理解させるために、且つ本発明の実施例の上記目的、特徴及び利点をより明らかにするために、以下に図面と併せて本発明の実施例における技術的解決手段を詳細に説明する。
目標対象に対して三次元再構成を行うことは、目標対象の体型と肢体の回転とを再構成する必要があり、通常、三次元キーポイントだけでなく、パラメータ化モデルを利用して目標対象の体型と肢体の回転とを表す。例えば、異なる人に対して三次元再構成を行い、体型がやせた人の三次元モデル(図1Aに示すように)と体型が太った人の三次元モデル(図1Bに示すように)とをそれぞれ再構成した場合、図1Aに示す人と図1Bに示す人とは同じ姿勢であり、キーポイント情報が同じであるため、キーポイント情報だけで両者の体型上の差異を示すことができない。
関連技術において、一般的に、パラメータ最適化とネットワーク回帰との2つの方法により三次元再構成を行う。パラメータ最適化の方法は通常、1セットの標準パラメータを選択し、目標対象の画像の二次元視覚特徴に基づいて、勾配降下法を利用して目標対象の三次元モデルのパラメータの初期値に対して繰り返し最適化を行い、画像の二次元視覚特徴は、二次元キーポイント等を選択してもよい。パラメータ最適化の方法は、比較的正確な、画像の二次元視覚特徴と合致するパラメータ推定結果を取得することができるという利点があるが、常に不自然で不合理的な動作結果を取得し、しかもパラメータ最適化の最終的な性能はパラメータの初期値に大きく依存しているため、パラメータ最適化に基づく三次元再構成方法の信頼性が低い。
ネットワーク回帰の方法は通常、1つのエンド・ツー・エンドのニューラルネットワークをトレーニングして、画像から三次元モデルのパラメータへのマッピングを学習する。ネットワーク回帰の方法は、比較的自然且つ合理的な動作結果を取得することができるという利点がある。しかし、大量のトレーニングデータが乏しいため、三次元再構成の結果は画像における二次元視覚特徴と合致しない可能性がある。したがって、ネットワーク回帰に基づく三次元再構成方法の正確度が比較的低い。関連技術における三次元再構成方法は、三次元再構成結果の正確性と信頼性を両立することができない。
本発明の実施例は三次元再構成方法を提供し、図2に示すように、前記方法は、以下のステップ201~203を含む。
ステップ201:三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる。
ステップ202:予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得する。
ステップ203:前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成する。
ステップ201において、目標対象が三次元対象であってもよく、例えば、物理空間における人、動物、ロボット等であってもよい。また、目標対象が前記三次元対象上の1つ又は複数の領域であってもよく、例えば、顔又は肢体であってもよい。説明の便宜上、以下は目標対象が人であり、目標対象に対する三次元再構成が人体再構成であることを例として説明する。前記目標対象の画像は1枚の画像であってもよく、複数の異なる視点から目標対象を撮影して得られた複数枚の画像を含んでもよい。1枚の画像に基づく三次元人体再構成は、単眼三次元再構成と呼称され、異なる視点の複数枚の画像に基づく三次元人体再構成は、多視点三次元人体再構成と呼称される。各枚の画像は、いずれもグレースケール画像、RGB画像又はRGBD画像であってもよい。前記画像は、目標対象周囲の画像収集装置(例えば、カメラ又はカメラヘッド)によってリアルタイムに収集された画像であってもよく、予め収集して格納された画像であってもよい。
三次元再構成ネットワークによって、目標対象の画像に対して三次元再構成を行ってもよく、ここで、三次元再構成ネットワークは予めトレーニングされたニューラルネットワークであってもよい。三次元再構成ネットワークは画像に基づいて三次元再構成を行い、自然且つ合理的なパラメータの初期値を推定することができる。ここでのパラメータの初期値は1つのベクトルによって表されてもよい。前記ベクトルの次元は、例えば85次元であってもよく、前記ベクトルには人体の運動肢体の回転情報(即ち姿勢パラメータの初期値であり、人体のグローバル回転パラメータの初期値と23個のキーポイントのキーポイント回転パラメータの初期値を含む)と、体型パラメータの初期値とカメラのパラメータの初期値との3つの部分の情報が含まれる。人体はキーポイントとこれらのキーポイントを接続する肢体の骨格によって表されてもよく、人体キーポイントは頭頂部、鼻、首、左右眼、左右耳、胸、左右肩、左右肘、左右腕、左右股関節、左右臀、左右膝、左右足首等のキーポイントのうちの1つ又は複数を含んでもよく、姿勢パラメータの初期値は人体のキーポイントが三次元空間における位置を特定するために用いられる。体型パラメータの初期値は、人体の身長や、細さ等の体型情報を特定するために用いられる。前記カメラのパラメータの初期値は、人体がカメラ座標系における、三次元空間での絶対位置を特定するために用いられ、カメラのパラメータはカメラと人体との間の変位パラメータ及びカメラの姿勢パラメータを含み、ただし、カメラの姿勢パラメータの初期値は人体のグローバル回転パラメータの初期値で代替されてもよい。複数人線形スキン(Skinned Multi-Person Linear,SMPL)モデルのパラメータ(SMPLパラメータとも呼称される)を利用して前記人体パラメータを表してもよい。SMPLパラメータの値を取得した後、SMPLパラメータの値に基づいてスキン処理を行い、即ち、1つのマッピング関数M(θ,β)を利用して、体型パラメータの初期値と姿勢パラメータの初期値とを、人体表面の三次元モデルにマッピングする。当該三次元モデルは、6980個の頂点を含み、頂点の間は一定の接続関係によって三角ポリゴンを構成する。予めトレーニングされた回帰器Wを利用して、人体表面モデルの頂点から人体の三次元キーポイント
Figure 2023547888000002
にさらに回帰し、即ち、
Figure 2023547888000003
である。
ステップ202において、教師情報は画像の二次元視覚特徴(二次元観察特徴とも呼称される)であってもよく、例えば、画像における目標対象の二次元キーポイントと前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも1つであってもよい。1つの画素点のセマンティック情報は前記画素点が目標対象上のどの領域に位置するかを示すために用いられ、前記領域は例えば、頭部、腕、体幹、足等の所在する領域であってもよい。二次元キーポイント情報を教師情報として採用する場合、二次元キーポイント抽出ネットワークを利用して画像における人体キーポイント位置に対して推定を行ってもよく、ここではいずれかの二次元姿勢推定方法を使用してもよく、例えば、OpenPoseを使用してもよい。二次元視覚特徴を教師情報として採用する以外、二次元視覚特徴と目標対象の表面の初期三次元点群とをともに教師情報としてもよく、それにより三次元再構成の正確性をさらに向上させる。
前記画像は深度画像(例えば、前記画像はRGBD画像である)を含む場合、前記深度画像から前記目標対象上の複数の画素点の深度情報を抽出し、前記深度情報に基づいて、前記深度画像における前記目標対象上の複数の画素点を三次元空間へ投影し、前記目標対象の表面の初期三次元点群を取得する。
前記複数の画素点は画像における目標対象上の一部又は全部の画素点であってもよい。例えば、目標対象上の三次元再構成を行う必要のある各領域の画素点を含んでもよく、各領域における画素点の数は三次元再構成を行うのに必要な画素点の数以上である必要がある。
画像において、一般的に、目標対象も背景領域も含む。そのため、前記画像に含まれるRGB画像に対して画像分割を行って、前記RGB画像における目標対象の所在する画像領域を取得し、前記RGB画像における目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定し、前記深度画像における前記目標対象の所在する画像領域における、複数の画素点の深度情報を取得してもよい。画像分割を行うことにより、画像から三次元再構成を行う必要のある目標対象の所在する画像領域を抽出することができ、画像における背景領域が三次元再構成に与える影響を回避する。いくつかの実施例において、前記深度画像における画素点は前記RGB画像における画素点と一対一対応する。例えば、前記画像は、RGBD画像であってもよい。
さらに、三次元点群(即ち、初期三次元点群)から、外れ点をフィルタリングし、教師情報はフィルタリング済みの三次元点群を含んでもよい。前記フィルタリングは、点群フィルタを採用して実現されてもよい。外れ点をフィルタリングすることにより、より精細な目標対象の表面の三次元点群を取得することができ、それにより三次元再構成の正確性をさらに向上させる。三次元点群における各目標三次元点に対して、当該目標三次元点との距離が最も近いn個の三次元点から当該目標三次元点までの平均距離を取得し、各目標三次元点に対応する平均距離は1つの統計分布(例えば、ガウス分布)に従うことを仮定し、当該統計分布の平均と分散を計算してもよく、前記平均値と分散とに基づいて、閾値sを設定すると、平均距離が閾値sの範囲外にある三次元点を、外れ点と見なしてもよく、三次元点群からフィルタリングしてもよい。
実際の応用において、前記画像がRGB画像である場合、二次元観察特徴を教師情報として、前記パラメータの初期値に対して繰り返し最適化を行ってもよい。前記画像がRGBD画像である場合、二次元観察特徴と目標対象の表面の三次元点群とをともに教師情報として、前記パラメータの初期値に対して繰り返し最適化を行ってもよい。最適化方法は、例えば、勾配降下法を採用してもよく、本発明はこれについて限定しない。
ステップ203において、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成してもよい。
図3に示したのは、本発明の実施例の全体的なフローチャートである。入力がRGB画像である場合、三次元再構成ネットワークによりRGB画像に対して三次元再構成を行い、画像における人の人体パラメータ値を取得し、キーポイント抽出ネットワークを利用して画像における人に対してキーポイント抽出を行い、人体の二次元キーポイントを取得する。その後、人体パラメータ値をパラメータの初期値とし、人体の二次元キーポイントを教師情報として、パラメータ最適化モジュールを介して人体パラメータの初期値に対して最適化を行い、人体パラメータの最適値を取得し、人体パラメータの最適値に基づいてスキン処理を行い、人体再構成モデルを取得する。
入力がRGBD画像である場合、画像をRGB画像とTOF(Time of Flight,飛行時間)深度画像とに分解してもよく、TOF深度画像にはRGB画像における各画素点の深度情報が含まれる。三次元再構成ネットワークによりRGB画像に対して三次元再構成を行い、画像における人の人体パラメータ値を取得し、キーポイント抽出ネットワークを利用して画像における人に対してキーポイント抽出を行い、人体の二次元キーポイントを取得する。また、点群再構成モジュールを利用して、TOF深度画像における深度情報に基づいて人体の表面点群を再構成してもよい。その後、人体パラメータ値をパラメータの初期値とし、人体の二次元キーポイントと人体の表面点群とをともに教師情報として、パラメータ最適化モジュールを介して人体パラメータの初期値に対して最適化を行い、人体パラメータの最適値を取得し、人体パラメータの最適値に基づいてスキン処理を行い、人体再構成モデルを取得する。
さらに、人体再構成モデルを取得した後、RGB画像又はRGBD画像における色情報に基づいて、人体再構成モデルに対して色処理を行ってもよく、それにより人体再構成モデルに、画像における人の色情報とマッチングさせる。
本発明の実施例において、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行うことで、パラメータの初期値を取得し、次に監督情報に基づいて前記パラメータの初期値に対して最適化を行い、パラメータの最適値に基づいて、目標対象の三次元モデルを生成する。パラメータ最適化という方法は、正確な、画像の二次元観察特徴と合致する三次元再構成結果を得ることができるという利点があるが、不自然で不合理的な動作結果を取得しやすいため、信頼性が低い。三次元再構成ネットワークによってネットワーク回帰を行うことで、比較的自然且つ合理的な動作結果を得ることができるため、三次元再構成ネットワークの出力結果をパラメータの初期値としてパラメータの最適化を行うことで、三次元再構成の結果の信頼性を保証する上で、三次元再構成の正確性を考慮することができる。
いくつかの実施例において、パラメータ最適化の段階では、多段階最適化方法を採用してもよい。前記多段階最適化方法は、カメラ最適化段階と姿勢最適化段階とを含んでもよい。カメラ最適化段階で、最適化の対象はグローバル回転パラメータの値R及び前記画像収集装置と前記目標対象との間の変位パラメータの現在値tである。tとRはいずれも三次元ベクトルであり、Rは軸-角度表現で表す。姿勢最適化段階において、最適化の対象はキーポイント回転パラメータの値と体型パラメータの値である。
最適化の過程中に、カメラの位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させることができるため、最適化の過程の不安定を招く。そのため、カメラ最適化の段階で、人体姿勢を固定し、姿勢最適化の段階で、カメラの位置を固定することにより、最適化過程の安定性を向上させる。即ち、前記体型パラメータの初期値とキーポイント回転パラメータの初期値が一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の変位パラメータの現在値、及び前記グローバル回転パラメータの初期値に対して最適化を行い、変位パラメータの最適値とグローバル回転パラメータの最適値とを取得する。その後、変位パラメータの最適値とグローバル回転パラメータの最適値とを一定に維持し、前記変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行い、キーポイント回転パラメータの最適値と体型パラメータの最適値とを取得する。
さらに、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得し、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得される。前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得する。前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得する。前記第1損失と前記第2損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行う。
前記所定部位は体幹部位であってもよく、前記目標二次元投影キーポイントは左右肩の点、左右股関節の点、脊柱の中心点等のキーポイントであってもよい。異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第1損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。第1損失は体幹キーポイント投影損失と呼称されてもよく、第2損失はカメラ変位正則化損失と呼称されてもよく、第1損失は以下の式(1)によって取得されてもよく、第2損失は以下の式(2)によって取得されてもよい。
Figure 2023547888000004
Figure 2023547888000005
torsoとLcamはそれぞれ第1損失と第2損失を表し、xtorso
Figure 2023547888000006
はそれぞれ目標二次元投影キーポイントと初期二次元キーポイントを表し、tとtnetはそれぞれ前記画像収集装置と前記目標対象との間の変位パラメータの現在値、及び前記変位パラメータの初期値を表す、第1損失と第2損失とに基づいて、第1目標損失L特定してもよい。例えば、前記第1目標損失は前記第1損失と第2損失との和として特定されてもよく、以下の式(3)によって特定されてもよい。
=Ltorso+cam (3)
前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第3損失を取得し、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得される。第4損失を取得し、前記第4損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられる。前記第3損失と前記第4損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行う。
第3損失は、二次元キーポイント投影損失と呼称されてもよく、第4損失は姿勢合理性損失と呼称されてもよく、第3損失は以下の式(4)によって特定されてもよい。
Figure 2023547888000007
2dは、第3損失であり、xと
Figure 2023547888000008
はそれぞれ前記最適化二次元投影キーポイント及び前記初期二次元キーポイントを表す。第3損失と第4損失とに基づいて、第2目標損失を特定してもよい。例えば、前記第2目標損失は前記第3損失と前記第4損失との和として特定されてもよく、以下の式(5)によって特定されてもよい。
=L2d+Lprior (5)
は、第2目標損失であり、Lpriorは、第4損失であり、混合ガウスモデル(Gaussian Mixture Model,GMM)を利用して取得されてもよく、グローバル回転パラメータの最適値、キーポイント回転パラメータの初期値と体型パラメータの初期値に対応する姿勢は合理であるか否かを判定し、不合理的な姿勢に対して比較的大きい損失を出力する。
前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行ってもよく、即ち、三段階の最適化方法を利用する。教師情報には目標対象の表面の三次元点群の情報が含まれる場合、前記三段階の最適化方法を利用してもよい。前記三段階の最適化方法は、カメラ最適化段階と、姿勢最適化段階と、点群最適化段階とを含む。
カメラ最適化段階で、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得してもよく、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得される。前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得する。前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得する。前記目標対象の表面の第1三次元点群と前記初期三次元点群との間の第5損失を取得し、前記第1三次元点群は前記グローバル回転パラメータの初期値とキーポイント回転パラメータの初期値と体型パラメータの初期値とに基づいて取得される。前記第1損失と、第2損失と、第5損失とに基づいて、前記変位パラメータの現在値とグローバル回転パラメータの初期値とに対して最適化を行う。前記第5損失は、ICP(Iterative Closest Point)点群位置合わせ損失と呼称されてもよく、以下の式(6)で特定されてもよい。
Figure 2023547888000009
式(6)に、Licpは前記第5損失であり、前記初期三次元点群を点群Pと見なし、前記第1三次元点群を点群Qと見なして、K={(p,q)}は点群Pにおける各点と、点群Qにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。K={(p,q)}は点群Qにおける各点と、点群Pにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。
第1損失と第2損失は、それぞれ以下の式(7)と式(8)によって表される。
Figure 2023547888000010
Figure 2023547888000011
torsoとLcamはそれぞれ第1損失と第2損失を表し、xtorso
Figure 2023547888000012
はそれぞれ目標二次元投影キーポイントと初期二次元キーポイントを表し、tとtnetはそれぞれ前記変位パラメータの現在値、及び前記変位パラメータの初期値を表す。第1損失と、第2損失と、第5損失との和によって第1目標損失Lを特定し、第1目標損失に基づいて前記変位パラメータの現在値とグローバル回転パラメータの初期値とに対して最適化を行ってもよく、即ち、以下の式(9)のように、
=Ltorso+Lcam+Licp (9)である。
三段階の最適化の過程のうちの姿勢最適化段階は、二段階の最適化の過程のうちの姿勢最適化段階の最適化方法と同じであり、ここで繰り返して説明しない。
点群最適化段階で、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第6損失を取得してもよく、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得される。第7損失を取得し、前記第7損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示す。前記目標対象の表面の第2三次元点群と前記初期三次元点群との間の第8損失を取得し、前記第2三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得される。前記第6損失と、第7損失と、第8損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、以下の式(10)と式(11)によって最適化を行ってもよい。
Figure 2023547888000013
Figure 2023547888000014
式に、
Figure 2023547888000015
は第6損失であり、
Figure 2023547888000016
は最適化二次元投影キーポイントであり、
Figure 2023547888000017
は初期二次元キーポイントである。第7損失は、混合ガウスモデルを採用して取得されてもよく、グローバル回転パラメータの最適値と、キーポイント回転パラメータの最適値と、体型パラメータの最適値とに対応する姿勢が合理であるか否かを判定し、不合理的な姿勢に対して比較的大きい損失を出力するために用いられる。
Figure 2023547888000018
は第8損失であり、Pは前記初期三次元点群の見なされた点群であり、
Figure 2023547888000019
は前記第2三次元点群であり、
Figure 2023547888000020
は点群Pにおける各点と、点群
Figure 2023547888000021
における、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。
Figure 2023547888000022
は点群
Figure 2023547888000023
における各点と、点群Pにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。さらに、第6損失と第7損失と第8損失との和を第3目標損失Lとして特定し、第3目標損失に基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行ってもよく、以下の式(12)によって同時最適化を行ってもよい。
=L2d+Lprior+Licp (12)
目標対象の画像がRGB画像である場合、前記カメラ最適化段階と姿勢最適化段階とを含む二段階の最適化方法に基づいてパラメータ最適化を行ってもよい。前記目標対象の画像がRGBD画像である場合、前記カメラ最適化段階と姿勢最適化段階と点群最適化段階とを含む三段階の最適化方法に基づいてパラメータ最適化を行ってもよい。
本発明における技術的な解決手段は多くのシーンにおいて適用でき、仮想試着室、仮想ライバー、ビデオ動作遷移等のシーンにおいて自然且つ合理的で正確な人体再構成モデルを提供することができる。
図4Aに示したのは、本発明の実施例の仮想試着室応用シーンの模式図である。カメラ403によってユーザ401の画像を収集して、収集された画像をプロセッサ(図示されない)に送信して三次元人体再構成を行わせ、それによりユーザ401に対応する人体再構成モデル404を取得して、人体再構成モデル404をユーザ401が閲覧できるように表示部402に表示する。同時に、ユーザ401は、衣類4051、帽子4052などを含んでもよいがこれらに限定されない所望の服飾405を選択してもよく、人体再構成モデル404に基づいて、表示部402に服飾405を表示し、それによりユーザ401が服飾405の試着効果を見ることができるようにしてもよい。
図4Bに示すように、本発明の実施例の仮想ライブルーム応用シーンの模式図である。ライブ配信をする過程中に、ライバークライアント407によってライバーユーザ406の画像を収集してもよく、ライバーユーザ406の画像をサーバ408に送信して三次元再構成を行わせ、ライバーユーザの人体再構成モデル、即ち仮想ライバーを取得する。図面におけるモデル4071に示すように、サーバ408はライバーユーザの人体再構成モデルをライバークライアント407に戻して表示させる。なお、ライバークライアント407は、ライバーユーザの音声情報を収集してもよく、サーバ408が人体再構成モデルと音声情報とを融合するように、音声情報をサーバ408に送信する。サーバ408は、融合済みの人体再構成モデルと音声情報を、ライブ番組を視聴する視聴者クライアント409に送信して図におけるモデル4091のように表示又は放送させてもよい。上記方法により、視聴者クライアント409に仮想ライバーがライブ配信をする画面を表示させることができる。
当業者であれば理解されるように、具体的な実施形態の上記方法において、各ステップの記述順序は厳密な実行順序を意味するものではなく、実施プロセスに対して任意の限定を構成せず、各ステップの具体的な実行順序はその機能及び可能な内部ロジックによって決定されるべきである。
図5に示すように、本発明は三次元再構成装置をさらに提供する。前記装置は、以下を含む。
第1三次元再構成モジュール501であって、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するために用いられ、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる。
最適化モジュール502であって、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するために用いられる。
第2三次元再構成モジュール503であって、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる。
いくつかの実施例において、前記教師情報は、第1教師情報を含み、又は、前記教師情報は、第1教師情報と第2教師情報とを含み、前記第1教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも1つ含み、前記第2教師情報は、前記目標対象の表面の初期三次元点群を含む。本発明の実施例は目標対象の初期二次元キーポイント又は画素点のセマンティック情報のみを教師情報として前記パラメータの初期値に対して最適化を行うことができ、最適化の効率が高く、最適化の複雑度が低い。また、目標対象の表面の初期三次元点群と、前記初期二次元キーポイント又は画素点のセマンティック情報とをともに教師情報としてもよく、それにより、取得されたパラメータの最適値の正確度を向上させる。
いくつかの実施例において、前記装置は、キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出するための二次元キーポイント抽出モジュールをさらに備える。キーポイント抽出ネットワークによって抽出された初期二次元キーポイントの情報を教師情報とすることで、三次元モデルに比較的自然且つ合理的な動きを生成することができる。
いくつかの実施例において、前記画像は前記目標対象の深度画像を含み、前記装置は、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出するための深度情報抽出モジュールと、前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の初期三次元点群を取得するための逆方向投影モジュールと、をさらに備える。深度情報を抽出し、深度情報に基づいて二次元画像における画素点を三次元空間へ逆投影し、目標対象の表面の初期三次元点群を取得することにより、当該初期三次元点群を教師情報としてパラメータの初期値を最適化することができ、パラメータ最適化の正確度をさらに向上させた。
いくつかの実施例において、前記画像は前記目標対象のRGB画像をさらに含み、前記深度情報抽出モジュールは、前記RGB画像に対して画像分割を行うための画像分割ユニットと、画像分割の結果に基づいて、前記RGB画像における前記目標対象の所在する画像領域を特定し、前記RGB画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定するための画像領域特定ユニットと、前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得するための深度情報取得ユニットと、をさらに備える。RGB画像に対して画像分割を行うことにより、目標対象の位置を正確に特定でき、それにより目標対象の深度情報を正確に抽出する。
いくつかの実施例において、前記装置は、前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第2教師情報とするためのフィルタリングモジュールをさらに備える。外れ点をフィルタリングすることにより、外れ点による干渉を低減し、パラメータ最適化の正確性をさらに向上させた。
いくつかの実施例において、前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、前記最適化モジュールは、前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得するための第1最適化ユニットと、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得するための第2最適化ユニットと、を備える。最適化の過程中に、画像収集装置の位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させるため、最適化の過程の不安定を招く。二段階の最適化方法を採用して、先ずキーポイント回転パラメータの初期値と体型パラメータの初期値とを固定して、画像収集装置の変位パラメータの初期値とグローバル回転パラメータの初期値とに対して最適化を行い、変位パラメータの初期値とグローバル回転パラメータの初期値とを固定して、キーポイント回転パラメータの初期値と体型パラメータの初期値とに対して最適化を行い、それにより最適化の過程の安定性を向上させた。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第1最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記第1損失と前記第2損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。所定部位は、体幹等の部位であってもよく、異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第1損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。二次元キーポイントは二次元平面上の教師情報であり、画像収集装置の変位パラメータは三次元平面上のパラメータであるため、第2損失を取得することによって、最適化結果が二次元平面上の局所最適点に収まって真実点からずれる状況を回避することができる。
いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第2最適化ユニットは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第3損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、第4損失を取得することであって、前記第4損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、前記第3損失と前記第4損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、キーポイント回転パラメータの初期値と体型パラメータの初期値に対して最適化を行うことにより、最適化過程の安定性を向上させるとともに、第4損失によって最適化済みのパラメータに対応する姿勢の合理性が保証された。
いくつかの実施例において、前記装置は、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化モジュールをさらに備える。本実施例は前述した最適化に加えて、最適化済みの各パラメータに対して同時最適化を行うことにより、最適化結果の正確性をさらに向上させた。
いくつかの実施例において、前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記第1最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、前記目標対象の表面の第1三次元点群と前記初期三次元点群との間の第5損失を取得することであって、前記第1三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、前記第1損失と、前記第2損失と、前記第5損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
いくつかの実施例において、前記同時最適化モジュールは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第6損失を取得するための第1取得ユニットであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得される第1取得ユニットと、第7損失を取得するための第2取得ユニットであって、前記第7損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられる第2取得ユニットと、前記目標対象の表面の第2三次元点群と前記初期三次元点群との間の第8損失を取得ための第3取得ユニットであって、前記第2三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得される第3取得ユニットと、前記第6損失と、第7損失と、第8損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化ユニットと、を備える。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。
いくつかの実施例において、本発明の実施例によって提供された装置が有する機能又は含むモジュールは、上記した方法の実施例で記述された方法を実施するために用いられてもよく、具体的な実施は上記した方法の実施例の記述を参照すればよく、簡潔化のため、ここで繰り返して説明しない。
図6に示すように、本発明は三次元再構成システムをさらに提供する。前記システムは、以下を含む。
目標対象を収集するための画像収集装置601と、
前記画像収集装置と通信可能に接続された処理ユニット602であって、三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニット602と、を備える。
本発明の実施例における画像収集装置601はカメラ又はカメラヘッドなどの画像収集機能を有するデバイスであってもよく、画像収集装置601によって収集された画像は処理ユニット602へリアルタイムに送信されてもよく、または記憶され、必要な場合に記憶空間から処理ユニット602に伝送される。処理ユニット602は1つのサーバであってもよく、複数のサーバにより構成されたクラスタサーバであってもよい。処理ユニット602により実施される方法の詳細は、前述した三次元再構成方法の実施例を参照すればよく、ここで繰り返して説明しない。
本発明の実施例はコンピュータデバイスをさらに、少なくともメモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスを提供し、プロセッサは前記プログラムを実行するとき、前述したいずれかの実施例に記載の方法を実施する。
図7は本明細書の実施例が提供したもっと具体的なコンピュータデバイスのハードウェア構造模式図である。当該デバイスは、プロセッサ701、メモリ702、入力/出力インターフェース703、通信インターフェース704、及びバス705を含んでもよい。プロセッサ701、メモリ702、入力/出力インターフェース703及び通信インターフェース704は、バス705を介してデバイス内部での互いの通信接続を実現する。
プロセッサ701は汎用のCPU(Central Processing Unit、中央処理装置)、マイクロプロセッサ、アプリケーション専用集積回路(Application Specific Integrated Circuit、ASIC)、また、1つ又は複数の集積回路などの方式で実現されてもよく、関連プログラムを実行し、それにより本明細書の実施例が提供する技術的な解決手段を実現するために用いられる。プロセッサ701はさらにグラフィックスカードを含み得、前記グラフィックスカードはNvidia titanXグラフィックスカード又は1080Tiグラフィックスカード等であってもよい。
メモリ702はROM(Read Only Memory、読み取り専用メモリ)、RAM(Random Access Memory、ランダムアクセスメモリ)、静的記憶デバイス、動的記憶デバイス等の形式で実現されてもよい。メモリ702はオペレーティングシステム及び他のアプリケーションプログラムを記憶することができ、ソフトウェア又はファームウェアにより本明細書の実施例が提供した技術的な解決手段を実施する場合、関連するプログラムコードはメモリ702に記憶され、プロセッサ701により実行のために呼び出される。
入力/出力インターフェース703は入力/出力モジュールを接続するために用いられ、それにより情報の入力及び出力を実現する。入力/出力モジュールはコンポーネントとしてデバイス(図示されない)に配置されてもよく、デバイスに外付けされて対応する機能を提供してもよい。入力デバイスはキーボード、マウス、タッチスクリーン、マイクロフォン、各種のセンサ等を含み得、出力デバイスはディスプレイ、スピーカ、振動器、指示ランプ等を含み得る。
通信インターフェース704は通信モジュール(図示せず)を接続するために用いられ、それにより本デバイスと他のデバイスとの通信インタラクションを実現する。通信モジュールは有線方式(例えばUSB、ネットワークケーブル等)により通信を実現してもよく、無線方式(例えばモバイルネットワーク、WIFI、ブルートゥース等)により通信を実現してもよい。
バス705は通路を含み、デバイスの各コンポーネント(例えばプロセッサ701、メモリ702、入力/出力インターフェース703及び通信インターフェース704)の間に情報を伝送する。
説明すべきは、上記デバイスはプロセッサ701、メモリ702、入力/出力インターフェース703、通信インターフェース704及びバス705のみを示すが、具体的な実施過程中には、該デバイスはさらに通常動作を実現するのに必要な他のコンポーネントを含んでもよい。また、当業者が理解できるように、上記デバイスは本明細書の実施例の解決手段を実現するのに必要なユニットのみを含んでもよく、図に示された全てのユニットを含む必要がない。
本発明の実施例はコンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムはプロセッサにより実行されるとき、前述したいずれかの実施例に記載の方法が実施される。
コンピュータ可読記憶媒体は永続的及び非永続的、移動可能及び非移動可能な媒体を含み、任意の方法又は技術により情報記憶を実現し得る。情報はコンピュータ可読命令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例は、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリ又は他のメモリ技術、読み出し専用ディスク読み出し専用メモリ(CD-ROM)、デジタル多機能光ディスク(DVD)又は他の光学記憶、磁気カートリッジ式磁気テープ、磁気テープ磁気ディスク記憶又は他の磁気記憶デバイス又は任意の他の非伝送媒体を含むがそれらに限定されず、コンピューティングデバイスからアクセス可能な情報を記憶するために用いることができる。本明細書の定義によれば、コンピュータ可読記憶媒体は一時記憶コンピュータ可読記憶媒体(transitory Media)、例えば変調されたデータ信号及びキャリアを含まない。
以上の実施形態の説明から分かるように、当業者は、本明細書の実施例が、ソフトウェアと必要な汎用ハードウェアプラットフォームの方式により実現されることができることを明らかに理解することができる。このような理解に基づいて、本明細書の実施例の技術的な解決手段は本質的に又は従来の技術に寄与する部分がソフトウェア製品の形式で具現化されることができ、該コンピュータソフトウェア製品は例えばROM/RAM、磁気ディスク、光ディスク等の記憶媒体に記憶されることができ、コンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワークデバイス等であってもよい)に本明細書の実施例の各実施例又は実施例のある部分に記載の方法を実行させるための複数の命令を含む。
上記実施例により説明されたシステム、装置、モジュール又はユニットは、具体的にはコンピュータチップ又はエンティティにより実現されてもよく、又はある機能を有する製品により実現されてもよい。代表的な実現デバイスはコンピュータであり、コンピュータの具体的な形式はパーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤ、ナビゲーションデバイス、電子メール送受信デバイス、ゲームコンソール、タブレットコンピュータ、ウェアラブルデバイスであってもよく、又はこれらのデバイスのうちの任意の複数種のデバイスの組み合わせであってもよい。
本明細書における各実施例はいずれも漸進の方式で説明され、各実施例の間の同じ又は類似する部分は互いに参照すればよく、各実施例の重点的に説明されたのは他の実施例との相違点である。特に、装置の実施例に対して、それは基本的に方法の実施例と類似するため、簡単に説明し、関連する部分は方法の実施例の一部の説明を参照すればよい。以上に説明された装置の実施例は単に例示的なものであり、そのうち前記分離部材として説明されたモジュールは物理的に分離されていてもよいか、物理的に分離されていなくてもよく、本明細書の実施例の解決手段を実施する時に各モジュールの機能を同一又は複数のソフトウェア及び/又はハードウェアで実現し得る。実際の需要に応じてそのうちの一部又は全部のモジュールを選択して本実施例の解決手段の目的を達成してもよい。当業者は創造的な労力を費やさなくても、本発明を理解して実施することができる。
本願は2021年5月10日に提出された、出願番号が202110506464Xであり、発明の名称が「三次元再構成方法、装置、システム、媒体及びコンピュータデバイス」である中国特許出願の優先権を主張し、当該出願は引用により本願に取り込まれる。

Claims (16)

  1. 三次元再構成方法であって、
    三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、
    予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するステップと、
    前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップと、を含むことを特徴とする三次元再構成方法。
  2. 前記教師情報は、第1教師情報を含み、又は、前記教師情報は、第1教師情報と第2教師情報とを含み、
    前記第1教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも1つ含み、
    前記第2教師情報は、前記目標対象の表面の初期三次元点群を含むことを特徴とする請求項1に記載の方法。
  3. キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出することをさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記画像は前記目標対象の深度画像を含み、
    前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することと、
    前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の前記初期三次元点群を取得することと、をさらに含むことを特徴とする請求項2又は3に記載の方法。
  5. 前記画像は前記目標対象のRGB画像をさらに含み、
    前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することは、
    前記RGB画像に対して画像分割を行うことと、
    画像分割の結果に基づいて、前記RGB画像における前記目標対象の所在する画像領域を特定することと、
    前記RGB画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定することと、
    前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得することと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第2教師情報とすることをさらに含むことを特徴とする請求項2~5のいずれか1項に記載の方法。
  7. 前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、
    予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行うことは、
    前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持される場合、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得することと、
    前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得することと、を含むことを特徴とする請求項1~6のいずれか1項に記載の方法。
  8. 前記教師情報は前記目標対象の初期二次元キーポイントを含み、
    前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、
    前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、
    前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、
    前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、
    前記第1損失と前記第2損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項7に記載の方法。
  9. 前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことは、
    前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第3損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、
    第4損失を取得することであって、前記第4損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、
    前記第3損失と前記第4損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項7又は8に記載の方法。
  10. 前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、
    前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことをさらに含むことを特徴とする請求項7~9のいずれか1項に記載の方法。
  11. 前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、
    前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、
    前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第1損失を取得することと、
    前記変位パラメータの初期値と前記変位パラメータの現在値との間の第2損失を取得することと、
    前記目標対象の表面の第1三次元点群と前記初期三次元点群との間の第5損失を取得することであって、前記第1三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、
    前記第1損失と、前記第2損失と、前記第5損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項10に記載の方法。
  12. 前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、
    前記目標対象の最適化二次元投影キーポイントと初期二次元キーポイントとの間の第6損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得されることと、
    第7損失を取得することであって、前記第7損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられることと、
    前記目標対象の表面の第2三次元点群と初期三次元点群との間の第8損失を取得することであって、前記第2三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得されることと、
    前記第6損失と、第7損失と、第8損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことと、を含むことを特徴とする請求項10又は11に記載の方法。
  13. 三次元再構成装置であって、
    三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するための第1三次元再構成モジュールであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる第1三次元再構成モジュールと、
    予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するための最適化モジュールと、
    前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するための第2三次元再構成モジュールと、を備えることを特徴とする三次元再構成装置。
  14. 三次元再構成システムであって、前記システムは、
    目標対象の画像を収集するための画像収集装置と、
    前記画像収集装置と通信可能に接続された処理ユニットであって、
    三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、
    予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、
    前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニットと、を備えることを特徴とする三次元再構成システム。
  15. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムはプロセッサにより実行されるとき、請求項1~12のいずれか1項に記載の方法が実施されることを特徴とするコンピュータ可読記憶媒体。
  16. メモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスであって、
    前記プロセッサが前記コンピュータプログラムを実行するとき、請求項1~12のいずれか1項に記載の方法を実施することを特徴とするコンピュータデバイス。
JP2023525021A 2021-05-10 2022-02-09 三次元再構成方法、装置、システム、媒体及びコンピュータデバイス Pending JP2023547888A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110506464.XA CN113160418A (zh) 2021-05-10 2021-05-10 三维重建方法、装置和系统、介质及计算机设备
CN202110506464.X 2021-05-10
PCT/CN2022/075636 WO2022237249A1 (zh) 2021-05-10 2022-02-09 三维重建方法、装置和系统、介质及计算机设备

Publications (1)

Publication Number Publication Date
JP2023547888A true JP2023547888A (ja) 2023-11-14

Family

ID=76874172

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023525021A Pending JP2023547888A (ja) 2021-05-10 2022-02-09 三次元再構成方法、装置、システム、媒体及びコンピュータデバイス

Country Status (5)

Country Link
JP (1) JP2023547888A (ja)
KR (1) KR20230078777A (ja)
CN (1) CN113160418A (ja)
TW (1) TW202244853A (ja)
WO (1) WO2022237249A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160418A (zh) * 2021-05-10 2021-07-23 上海商汤智能科技有限公司 三维重建方法、装置和系统、介质及计算机设备
CN113724378B (zh) * 2021-11-02 2022-02-25 北京市商汤科技开发有限公司 三维建模方法和装置、计算机可读存储介质及计算机设备
CN115375856B (zh) * 2022-10-25 2023-02-07 杭州华橙软件技术有限公司 三维重建方法、设备以及存储介质
CN116030189B (zh) * 2022-12-20 2023-07-04 中国科学院空天信息创新研究院 一种基于单视角遥感图像的目标三维重建方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236082B (zh) * 2013-04-27 2015-12-02 南京邮电大学 面向捕获静止场景的二维视频的准三维重建方法
CN107945269A (zh) * 2017-12-26 2018-04-20 清华大学 基于多视点视频的复杂动态人体对象三维重建方法及系统
CN109840939B (zh) * 2019-01-08 2024-01-26 北京达佳互联信息技术有限公司 三维重建方法、装置、电子设备及存储介质
CN110288696B (zh) * 2019-06-13 2023-01-06 南京航空航天大学 一种完备一致生物体三维特征表征模型的建立方法
CN111862299A (zh) * 2020-06-15 2020-10-30 上海非夕机器人科技有限公司 人体三维模型构建方法、装置、机器人和存储介质
CN112037320B (zh) * 2020-09-01 2023-10-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112419454B (zh) * 2020-11-25 2023-11-28 北京市商汤科技开发有限公司 一种人脸重建方法、装置、计算机设备及存储介质
CN112509144A (zh) * 2020-12-09 2021-03-16 深圳云天励飞技术股份有限公司 人脸图像处理方法、装置、电子设备及存储介质
CN113160418A (zh) * 2021-05-10 2021-07-23 上海商汤智能科技有限公司 三维重建方法、装置和系统、介质及计算机设备

Also Published As

Publication number Publication date
TW202244853A (zh) 2022-11-16
CN113160418A (zh) 2021-07-23
WO2022237249A1 (zh) 2022-11-17
KR20230078777A (ko) 2023-06-02

Similar Documents

Publication Publication Date Title
CN110874864B (zh) 获取对象三维模型的方法、装置、电子设备及系统
JP2023547888A (ja) 三次元再構成方法、装置、システム、媒体及びコンピュータデバイス
CN113012282B (zh) 三维人体重建方法、装置、设备及存储介质
Alexiadis et al. An integrated platform for live 3D human reconstruction and motion capturing
US8624901B2 (en) Apparatus and method for generating facial animation
JP7448566B2 (ja) クロスリアリティシステムにおけるスケーラブル3次元オブジェクト認識
JP7387202B2 (ja) 3次元顔モデル生成方法、装置、コンピュータデバイス及びコンピュータプログラム
WO2022205762A1 (zh) 三维人体重建方法、装置、设备及存储介质
CN105869167A (zh) 基于主被动融合的高分辨率深度图获取方法
US9679415B2 (en) Image synthesis method and image synthesis apparatus
WO2023109753A1 (zh) 虚拟角色的动画生成方法及装置、存储介质、终端
KR20160098560A (ko) 동작 분석 장치 및 방법
JP2024519940A (ja) データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム
WO2021098143A1 (zh) 图像处理方法及装置、图像处理设备及存储介质
JP2013120556A (ja) 被写体姿勢推定装置および映像描画装置
CN115496864B (zh) 模型构建方法、重建方法、装置、电子设备及存储介质
CN113723317A (zh) 3d人脸的重建方法、装置、电子设备和存储介质
CN108305280A (zh) 一种双目图像基于最小生成树的立体匹配方法及系统
KR20220149717A (ko) 단안 카메라로부터 전체 골격 3d 포즈 복구
WO2023160074A1 (zh) 一种图像生成方法、装置、电子设备以及存储介质
KR20230095197A (ko) 3차원 공간에서 생성한 인지적 매쉬 정보와 가상 객체들간의 상호작용 방법 및 그 장치
Tran et al. A personalised stereoscopic 3D gallery with virtual reality technology on smartphone
CN115147578B (zh) 风格化三维人脸生成方法、装置、电子设备及存储介质
WO2022224964A1 (ja) 情報処理装置及び情報処理方法
US20240096041A1 (en) Avatar generation based on driving views

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230425

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240426