JP2023547888A

JP2023547888A - 三次元再構成方法、装置、システム、媒体及びコンピュータデバイス

Info

Publication number: JP2023547888A
Application number: JP2023525021A
Authority: JP
Inventors: 智傑曹; 旻汪; 文▲トウ▼ 劉; 晨銭; 利庄馬
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-05-10
Filing date: 2022-02-09
Publication date: 2023-11-14
Also published as: TW202244853A; KR20230078777A; CN113160418A; WO2022237249A1

Abstract

本発明は、三次元再構成方法、装置、システム、媒体及びコンピュータデバイスを提供し、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、予め取得された、目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、パラメータの最適値を取得するステップと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップと、を含む。【選択図】図２

Description

本発明はコンピュータビジョン技術分野に関し、特に三次元再構成方法、装置、システム、媒体及びコンピュータデバイスに関する。

三次元再構成はコンピュータビジョンにおける重要な技術の１つであり、拡張現実、仮想現実等の分野で多くの潜在的な応用がある。目標対象に対して三次元再構成を行うことにより、目標対象の体型及び肢体の回転を再構成することができる。しかし、従来の三次元再構成方法では、再構成結果の正確性と信頼性を両立させることができない。

本発明は三次元再構成方法、装置、システム、媒体及びコンピュータデバイスを提供する。

本発明の実施例の第１態様により、三次元再構成方法を提供する。前記方法は、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するステップと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップとを含む。

いくつかの実施例において、前記教師情報は、第１教師情報を含み、又は、前記教師情報は、第１教師情報と第２教師情報とを含み、前記第１教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも１つ含み、前記第２教師情報は、前記目標対象の表面の初期三次元点群を含む。本発明の実施例は目標対象の初期二次元キーポイント又は画素点のセマンティック情報のみを教師情報として前記パラメータの初期値に対して最適化を行うことができ、最適化の効率が高く、最適化の複雑度が低い。また、目標対象の表面の初期三次元点群と、前記初期二次元キーポイント又は画素点のセマンティック情報とをともに教師情報としてもよく、それにより、取得されたパラメータの最適値の正確度を向上させる。

いくつかの実施例において、前記方法は、キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出することをさらに含む。キーポイント抽出ネットワークによって抽出された初期二次元キーポイントの情報を教師情報とすることで、三次元モデルに比較的自然且つ合理的な動きを生成することができる。

いくつかの実施例において、前記画像は前記目標対象の深度画像を含み、前記方法は、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することと、前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の初期三次元点群を取得することと、をさらに含む。深度情報を抽出し、深度情報に基づいて二次元画像における画素点を三次元空間へ逆投影し、目標対象の表面の初期三次元点群を取得することにより、当該初期三次元点群を教師情報としてパラメータの初期値を最適化することができ、パラメータ最適化の正確度をさらに向上させた。

いくつかの実施例において、前記画像は前記目標対象のＲＧＢ画像をさらに含み、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することは、前記ＲＧＢ画像に対して画像分割を行うことと、画像分割の結果に基づいて、前記ＲＧＢ画像における前記目標対象の所在する画像領域を特定することと、前記ＲＧＢ画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定することと、前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得することと、を含む。ＲＧＢ画像に対して画像分割を行うことにより、目標対象の位置を正確に特定でき、それにより目標対象の深度情報を正確に抽出する。

いくつかの実施例において、前記方法は、前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第２教師情報とすることをさらに含む。外れ点をフィルタリングすることにより、外れ点による干渉を低減し、パラメータ最適化の正確性をさらに向上させた。

いくつかの実施例において、前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、前記予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行うことは、前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得することと、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得することと、を含む。最適化の過程中に、画像収集装置の位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させるため、最適化の過程の不安定を招く。二段階の最適化方法を採用して、先ずキーポイント回転パラメータの初期値と体型パラメータの初期値とを固定して、画像収集装置の変位パラメータの初期値とグローバル回転パラメータの初期値とに対して最適化を行い、変位パラメータの初期値とグローバル回転パラメータの初期値とを固定して、キーポイント回転パラメータの初期値と体型パラメータの初期値とに対して最適化を行い、それにより最適化の過程の安定性を向上させた。

いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、前記第１損失と前記第２損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含む。所定部位は、体幹等の部位であってもよく、異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第１損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。二次元キーポイントは二次元平面上の教師情報であり、画像収集装置の変位パラメータは三次元平面上のパラメータであるため、第２損失を取得することによって、最適化結果が二次元平面上の局所最適点に収まって真実点からずれる状況を回避することができる。

いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第３損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、第４損失を取得することであって、前記第４損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、前記第３損失と前記第４損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことと、を含む。本実施例は変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、キーポイント回転パラメータの初期値と体型パラメータの初期値に対して最適化を行うことにより、最適化過程の安定性を向上させるとともに、第４損失によって最適化済みのパラメータに対応する姿勢の合理性が保証された。

いくつかの実施例において、前記方法は、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことをさらに含む。本実施例は前述した最適化に加えて、最適化済みの各パラメータに対して同時最適化を行うことにより、最適化結果の正確性をさらに向上させた。

いくつかの実施例において、前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、前記目標対象の表面の第１三次元点群と前記初期三次元点群との間の第５損失を取得することであって、前記第１三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、前記第１損失と、前記第２損失と、前記第５損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含む。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。

いくつかの実施例において、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第６損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得されることと、第７損失を取得することであって、前記第７損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられることと、前記目標対象の表面の第２三次元点群と前記初期三次元点群との間の第８損失を取得することであって、前記第２三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得されることと、前記第６損失と、第７損失と、第８損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことと、を含む。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。

本発明の実施例の第２態様により、三次元再構成装置を提供する。前記装置は、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するための第１三次元再構成モジュールであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる第１三次元再構成モジュールと、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するための最適化モジュールと、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するための第２三次元再構成モジュールと、を備える。

いくつかの実施例において、前記装置は、キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出するための二次元キーポイント抽出モジュールをさらに備える。キーポイント抽出ネットワークによって抽出された初期二次元キーポイントの情報を教師情報とすることで、三次元モデルに比較的自然且つ合理的な動きを生成することができる。

いくつかの実施例において、前記画像は前記目標対象の深度画像を含み、前記装置は、前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出するための深度情報抽出モジュールと、前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の初期三次元点群を取得するための逆方向投影モジュールと、をさらに備える。深度情報を抽出し、深度情報に基づいて二次元画像における画素点を三次元空間へ逆投影し、目標対象の表面の初期三次元点群を取得することにより、当該初期三次元点群を教師情報としてパラメータの初期値を最適化することができ、パラメータ最適化の正確度をさらに向上させた。

いくつかの実施例において、前記画像は前記目標対象のＲＧＢ画像をさらに含み、前記深度情報抽出モジュールは、前記ＲＧＢ画像に対して画像分割を行うための画像分割ユニットと、画像分割の結果に基づいて、前記ＲＧＢ画像における前記目標対象の所在する画像領域を特定し、前記ＲＧＢ画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定するための画像領域特定ユニットと、前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得するための深度情報取得ユニットと、をさらに備える。ＲＧＢ画像に対して画像分割を行うことにより、目標対象の位置を正確に特定でき、それにより目標対象の深度情報を正確に抽出する。

いくつかの実施例において、前記装置は、前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第２教師情報とするためのフィルタリングモジュールをさらに備える。外れ点をフィルタリングすることにより、外れ点による干渉を低減し、パラメータ最適化の正確性をさらに向上させた。

いくつかの実施例において、前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、前記最適化モジュールは、前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得するための第１最適化ユニットと、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得するための第２最適化ユニットと、を備える。最適化の過程中に、画像収集装置の位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させるため、最適化の過程の不安定を招く。二段階の最適化方法を採用して、先ずキーポイント回転パラメータの初期値と体型パラメータの初期値とを固定して、画像収集装置の変位パラメータの初期値とグローバル回転パラメータの初期値とに対して最適化を行い、変位パラメータの初期値とグローバル回転パラメータの初期値とを固定して、キーポイント回転パラメータの初期値と体型パラメータの初期値とに対して最適化を行い、それにより最適化の過程の安定性を向上させた。

いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第１最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、前記第１損失と前記第２損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。所定部位は、体幹等の部位であってもよく、異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第１損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。二次元キーポイントは二次元平面上の教師情報であり、画像収集装置の変位パラメータは三次元平面上のパラメータであるため、第２損失を取得することによって、最適化結果が二次元平面上の局所最適点に収まって真実点からずれる状況を回避することができる。

いくつかの実施例において、前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記第２最適化ユニットは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第３損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、第４損失を取得することであって、前記第４損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、前記第３損失と前記第４損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、キーポイント回転パラメータの初期値と体型パラメータの初期値に対して最適化を行うことにより、最適化過程の安定性を向上させるとともに、第４損失によって最適化済みのパラメータに対応する姿勢の合理性が保証された。

いくつかの実施例において、前記装置は、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化モジュールをさらに備える。本実施例は前述した最適化に加えて、最適化済みの各パラメータに対して同時最適化を行うことにより、最適化結果の正確性をさらに向上させた。

いくつかの実施例において、前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記第１最適化ユニットは、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、前記目標対象の表面の第１三次元点群と前記初期三次元点群との間の第５損失を取得することであって、前記第１三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、前記第１損失と、前記第２損失と、前記第５損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うこととに用いられる。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。

いくつかの実施例において、前記同時最適化モジュールは、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第６損失を取得するための第１取得ユニットであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得される第１取得ユニットと、第７損失を取得するための第２取得ユニットであって、前記第７損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられる第２取得ユニットと、前記目標対象の表面の第２三次元点群と前記初期三次元点群との間の第８損失を取得ための第３取得ユニットであって、前記第２三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得される第３取得ユニットと、前記第６損失と、第７損失と、第８損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うための同時最適化ユニットと、を備える。本実施例は三次元点群を教師情報に追加して、初期的な各パラメータに対して最適化を行うことにより、最適化結果の正確性を向上させた。

本発明の実施例の第３態様により、三次元再構成システムを提供し、前記システムは、目標対象の画像を収集するための画像収集装置と、前記画像収集装置と通信可能に接続された処理ユニットであって、三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニットと、を備える。

本発明の実施例の第４態様により、Ｃｏｍｐｕｔｅｒプログラムが記憶されたコンピュータ可読記憶媒体を提供し、当該コンピュータプログラムはプロセッサにより実行されるとき、いずれかの実施例に記載の方法が実施される。

本発明の実施例の第５態様により、メモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスを提供し、前記プロセッサが前記コンピュータプログラムを実行するとき、いずれかの実施例に記載の方法を実施する。

本発明の実施例の第６態様により、コンピュータプログラム製品を提供し、当該コンピュータプログラム製品は記憶媒体に記憶され、プロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記コンピュータプログラムを実行するとき、いずれかの実施例に記載の方法を実施する。

本発明の実施例は三次元再構成ネットワークによって目標対象の画像に対して三次元再構成を行うことで、パラメータの初期値を取得し、次に監督情報に基づいて前記パラメータの初期値に対して最適化を行い、パラメータ最適化によって得られたパラメータの最適値に基づいて、目標対象の三次元モデルを生成する。パラメータ最適化という方法は、正確な、画像の二次元観察特徴と合致する三次元再構成結果を得ることができるという利点があるが、不自然で不合理的な動作結果を取得しやすいため、信頼性が低い。三次元再構成ネットワークによってネットワーク回帰を行うことで、比較的自然且つ合理的な動作結果を得ることができるため、三次元再構成ネットワークの出力結果をパラメータの初期値として最適化を行うことで、三次元再構成の結果の信頼性を保証する上で、三次元再構成の正確性を考慮することができる。

理解すべきは、以上の一般的な記述と後の詳細的な記述が、単に例示的又は解釈的なものにすぎず、本発明を制限するものではない。

ここでの図面は明細書に取り込まれて、本明細書の一部を構成する。これらの図面は本発明と合致する実施例を示し、明細書とともに本発明の技術的な解決手段を説明するために用いられる。
いくつかの実施例の三次元モデルの模式図である。いくつかの実施例の三次元モデルの模式図である。本発明の実施例の三次元再構成方法のフローチャートである。本発明の実施例の全体的なフローチャートである。本発明の実施例の応用シーンの模式図である。本発明の実施例の応用シーンの模式図である。本発明の実施例の三次元再構成装置のブロック図である。本発明の実施例の三次元再構成システムの模式図である。本発明の実施例のコンピュータデバイスの構造模式図である。

ここで例示的な実施例について詳細的に説明する。その例示は図面に示している。以下の説明は図面に係る時、特に示さない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に記載された実施形態は本発明と一致する全ての実施形態ではない。逆に、それらは添付の特許請求の範囲で詳細に説明されたような、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本発明で使用された用語は特定の実施例を説明する目的でのみ使用され、本発明を限定するものではない。文脈が他の意味を明らかに表さない限り、本発明及び添付された特許請求の範囲に使用される単数形の「一種」、「前記」及び「当該」は複数形を含むことも意図する。理解されるように、本明細書で使用される用語の「及び／又は」は挙げられた１つ又は複数の関連する項目の任意又は全ての可能な組み合わせを含むことを意味する。なお、本明細書における用語の「少なくとも１種」は複数種のうちのいずれか１種、又は複数種のうちの少なくとも２種の任意な組み合わせを意味する。

理解できるように、本発明において、第１、第２、第３等の用語を利用して様々な情報を説明するが、これらの情報はこれらの用語に限定されない。これらの用語は単に同一の種類の情報を区別するために用いられる。例えば、本発明の範囲から逸脱しない限り、第１情報は第２情報と呼称されてもよく、類似的に、第２情報は第１情報と呼称されてもよい。文脈によって、例えばここで使用された用語の「…と」は「…とき」又は「…場合」、又は「…に応じて」と解釈されてもよい。

当業者に本発明の実施例における技術的解決手段をよりよく理解させるために、且つ本発明の実施例の上記目的、特徴及び利点をより明らかにするために、以下に図面と併せて本発明の実施例における技術的解決手段を詳細に説明する。

目標対象に対して三次元再構成を行うことは、目標対象の体型と肢体の回転とを再構成する必要があり、通常、三次元キーポイントだけでなく、パラメータ化モデルを利用して目標対象の体型と肢体の回転とを表す。例えば、異なる人に対して三次元再構成を行い、体型がやせた人の三次元モデル（図１Ａに示すように）と体型が太った人の三次元モデル（図１Ｂに示すように）とをそれぞれ再構成した場合、図１Ａに示す人と図１Ｂに示す人とは同じ姿勢であり、キーポイント情報が同じであるため、キーポイント情報だけで両者の体型上の差異を示すことができない。

関連技術において、一般的に、パラメータ最適化とネットワーク回帰との２つの方法により三次元再構成を行う。パラメータ最適化の方法は通常、１セットの標準パラメータを選択し、目標対象の画像の二次元視覚特徴に基づいて、勾配降下法を利用して目標対象の三次元モデルのパラメータの初期値に対して繰り返し最適化を行い、画像の二次元視覚特徴は、二次元キーポイント等を選択してもよい。パラメータ最適化の方法は、比較的正確な、画像の二次元視覚特徴と合致するパラメータ推定結果を取得することができるという利点があるが、常に不自然で不合理的な動作結果を取得し、しかもパラメータ最適化の最終的な性能はパラメータの初期値に大きく依存しているため、パラメータ最適化に基づく三次元再構成方法の信頼性が低い。

ネットワーク回帰の方法は通常、１つのエンド・ツー・エンドのニューラルネットワークをトレーニングして、画像から三次元モデルのパラメータへのマッピングを学習する。ネットワーク回帰の方法は、比較的自然且つ合理的な動作結果を取得することができるという利点がある。しかし、大量のトレーニングデータが乏しいため、三次元再構成の結果は画像における二次元視覚特徴と合致しない可能性がある。したがって、ネットワーク回帰に基づく三次元再構成方法の正確度が比較的低い。関連技術における三次元再構成方法は、三次元再構成結果の正確性と信頼性を両立することができない。

本発明の実施例は三次元再構成方法を提供し、図２に示すように、前記方法は、以下のステップ２０１～２０３を含む。
ステップ２０１：三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる。
ステップ２０２：予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得する。
ステップ２０３：前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成する。

ステップ２０１において、目標対象が三次元対象であってもよく、例えば、物理空間における人、動物、ロボット等であってもよい。また、目標対象が前記三次元対象上の１つ又は複数の領域であってもよく、例えば、顔又は肢体であってもよい。説明の便宜上、以下は目標対象が人であり、目標対象に対する三次元再構成が人体再構成であることを例として説明する。前記目標対象の画像は１枚の画像であってもよく、複数の異なる視点から目標対象を撮影して得られた複数枚の画像を含んでもよい。１枚の画像に基づく三次元人体再構成は、単眼三次元再構成と呼称され、異なる視点の複数枚の画像に基づく三次元人体再構成は、多視点三次元人体再構成と呼称される。各枚の画像は、いずれもグレースケール画像、ＲＧＢ画像又はＲＧＢＤ画像であってもよい。前記画像は、目標対象周囲の画像収集装置（例えば、カメラ又はカメラヘッド）によってリアルタイムに収集された画像であってもよく、予め収集して格納された画像であってもよい。

三次元再構成ネットワークによって、目標対象の画像に対して三次元再構成を行ってもよく、ここで、三次元再構成ネットワークは予めトレーニングされたニューラルネットワークであってもよい。三次元再構成ネットワークは画像に基づいて三次元再構成を行い、自然且つ合理的なパラメータの初期値を推定することができる。ここでのパラメータの初期値は１つのベクトルによって表されてもよい。前記ベクトルの次元は、例えば８５次元であってもよく、前記ベクトルには人体の運動肢体の回転情報（即ち姿勢パラメータの初期値であり、人体のグローバル回転パラメータの初期値と２３個のキーポイントのキーポイント回転パラメータの初期値を含む）と、体型パラメータの初期値とカメラのパラメータの初期値との３つの部分の情報が含まれる。人体はキーポイントとこれらのキーポイントを接続する肢体の骨格によって表されてもよく、人体キーポイントは頭頂部、鼻、首、左右眼、左右耳、胸、左右肩、左右肘、左右腕、左右股関節、左右臀、左右膝、左右足首等のキーポイントのうちの１つ又は複数を含んでもよく、姿勢パラメータの初期値は人体のキーポイントが三次元空間における位置を特定するために用いられる。体型パラメータの初期値は、人体の身長や、細さ等の体型情報を特定するために用いられる。前記カメラのパラメータの初期値は、人体がカメラ座標系における、三次元空間での絶対位置を特定するために用いられ、カメラのパラメータはカメラと人体との間の変位パラメータ及びカメラの姿勢パラメータを含み、ただし、カメラの姿勢パラメータの初期値は人体のグローバル回転パラメータの初期値で代替されてもよい。複数人線形スキン（ＳｋｉｎｎｅｄＭｕｌｔｉ－ＰｅｒｓｏｎＬｉｎｅａｒ，ＳＭＰＬ）モデルのパラメータ（ＳＭＰＬパラメータとも呼称される）を利用して前記人体パラメータを表してもよい。ＳＭＰＬパラメータの値を取得した後、ＳＭＰＬパラメータの値に基づいてスキン処理を行い、即ち、１つのマッピング関数Ｍ（θ，β）を利用して、体型パラメータの初期値と姿勢パラメータの初期値とを、人体表面の三次元モデルにマッピングする。当該三次元モデルは、６９８０個の頂点を含み、頂点の間は一定の接続関係によって三角ポリゴンを構成する。予めトレーニングされた回帰器Ｗを利用して、人体表面モデルの頂点から人体の三次元キーポイント

にさらに回帰し、即ち、

である。

ステップ２０２において、教師情報は画像の二次元視覚特徴（二次元観察特徴とも呼称される）であってもよく、例えば、画像における目標対象の二次元キーポイントと前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも１つであってもよい。１つの画素点のセマンティック情報は前記画素点が目標対象上のどの領域に位置するかを示すために用いられ、前記領域は例えば、頭部、腕、体幹、足等の所在する領域であってもよい。二次元キーポイント情報を教師情報として採用する場合、二次元キーポイント抽出ネットワークを利用して画像における人体キーポイント位置に対して推定を行ってもよく、ここではいずれかの二次元姿勢推定方法を使用してもよく、例えば、ＯｐｅｎＰｏｓｅを使用してもよい。二次元視覚特徴を教師情報として採用する以外、二次元視覚特徴と目標対象の表面の初期三次元点群とをともに教師情報としてもよく、それにより三次元再構成の正確性をさらに向上させる。

前記画像は深度画像（例えば、前記画像はＲＧＢＤ画像である）を含む場合、前記深度画像から前記目標対象上の複数の画素点の深度情報を抽出し、前記深度情報に基づいて、前記深度画像における前記目標対象上の複数の画素点を三次元空間へ投影し、前記目標対象の表面の初期三次元点群を取得する。

前記複数の画素点は画像における目標対象上の一部又は全部の画素点であってもよい。例えば、目標対象上の三次元再構成を行う必要のある各領域の画素点を含んでもよく、各領域における画素点の数は三次元再構成を行うのに必要な画素点の数以上である必要がある。

画像において、一般的に、目標対象も背景領域も含む。そのため、前記画像に含まれるＲＧＢ画像に対して画像分割を行って、前記ＲＧＢ画像における目標対象の所在する画像領域を取得し、前記ＲＧＢ画像における目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定し、前記深度画像における前記目標対象の所在する画像領域における、複数の画素点の深度情報を取得してもよい。画像分割を行うことにより、画像から三次元再構成を行う必要のある目標対象の所在する画像領域を抽出することができ、画像における背景領域が三次元再構成に与える影響を回避する。いくつかの実施例において、前記深度画像における画素点は前記ＲＧＢ画像における画素点と一対一対応する。例えば、前記画像は、ＲＧＢＤ画像であってもよい。

さらに、三次元点群（即ち、初期三次元点群）から、外れ点をフィルタリングし、教師情報はフィルタリング済みの三次元点群を含んでもよい。前記フィルタリングは、点群フィルタを採用して実現されてもよい。外れ点をフィルタリングすることにより、より精細な目標対象の表面の三次元点群を取得することができ、それにより三次元再構成の正確性をさらに向上させる。三次元点群における各目標三次元点に対して、当該目標三次元点との距離が最も近いｎ個の三次元点から当該目標三次元点までの平均距離を取得し、各目標三次元点に対応する平均距離は１つの統計分布（例えば、ガウス分布）に従うことを仮定し、当該統計分布の平均と分散を計算してもよく、前記平均値と分散とに基づいて、閾値ｓを設定すると、平均距離が閾値ｓの範囲外にある三次元点を、外れ点と見なしてもよく、三次元点群からフィルタリングしてもよい。

実際の応用において、前記画像がＲＧＢ画像である場合、二次元観察特徴を教師情報として、前記パラメータの初期値に対して繰り返し最適化を行ってもよい。前記画像がＲＧＢＤ画像である場合、二次元観察特徴と目標対象の表面の三次元点群とをともに教師情報として、前記パラメータの初期値に対して繰り返し最適化を行ってもよい。最適化方法は、例えば、勾配降下法を採用してもよく、本発明はこれについて限定しない。

ステップ２０３において、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成してもよい。

図３に示したのは、本発明の実施例の全体的なフローチャートである。入力がＲＧＢ画像である場合、三次元再構成ネットワークによりＲＧＢ画像に対して三次元再構成を行い、画像における人の人体パラメータ値を取得し、キーポイント抽出ネットワークを利用して画像における人に対してキーポイント抽出を行い、人体の二次元キーポイントを取得する。その後、人体パラメータ値をパラメータの初期値とし、人体の二次元キーポイントを教師情報として、パラメータ最適化モジュールを介して人体パラメータの初期値に対して最適化を行い、人体パラメータの最適値を取得し、人体パラメータの最適値に基づいてスキン処理を行い、人体再構成モデルを取得する。

入力がＲＧＢＤ画像である場合、画像をＲＧＢ画像とＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ，飛行時間）深度画像とに分解してもよく、ＴＯＦ深度画像にはＲＧＢ画像における各画素点の深度情報が含まれる。三次元再構成ネットワークによりＲＧＢ画像に対して三次元再構成を行い、画像における人の人体パラメータ値を取得し、キーポイント抽出ネットワークを利用して画像における人に対してキーポイント抽出を行い、人体の二次元キーポイントを取得する。また、点群再構成モジュールを利用して、ＴＯＦ深度画像における深度情報に基づいて人体の表面点群を再構成してもよい。その後、人体パラメータ値をパラメータの初期値とし、人体の二次元キーポイントと人体の表面点群とをともに教師情報として、パラメータ最適化モジュールを介して人体パラメータの初期値に対して最適化を行い、人体パラメータの最適値を取得し、人体パラメータの最適値に基づいてスキン処理を行い、人体再構成モデルを取得する。

さらに、人体再構成モデルを取得した後、ＲＧＢ画像又はＲＧＢＤ画像における色情報に基づいて、人体再構成モデルに対して色処理を行ってもよく、それにより人体再構成モデルに、画像における人の色情報とマッチングさせる。

本発明の実施例において、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行うことで、パラメータの初期値を取得し、次に監督情報に基づいて前記パラメータの初期値に対して最適化を行い、パラメータの最適値に基づいて、目標対象の三次元モデルを生成する。パラメータ最適化という方法は、正確な、画像の二次元観察特徴と合致する三次元再構成結果を得ることができるという利点があるが、不自然で不合理的な動作結果を取得しやすいため、信頼性が低い。三次元再構成ネットワークによってネットワーク回帰を行うことで、比較的自然且つ合理的な動作結果を得ることができるため、三次元再構成ネットワークの出力結果をパラメータの初期値としてパラメータの最適化を行うことで、三次元再構成の結果の信頼性を保証する上で、三次元再構成の正確性を考慮することができる。

いくつかの実施例において、パラメータ最適化の段階では、多段階最適化方法を採用してもよい。前記多段階最適化方法は、カメラ最適化段階と姿勢最適化段階とを含んでもよい。カメラ最適化段階で、最適化の対象はグローバル回転パラメータの値Ｒ及び前記画像収集装置と前記目標対象との間の変位パラメータの現在値ｔである。ｔとＲはいずれも三次元ベクトルであり、Ｒは軸-角度表現で表す。姿勢最適化段階において、最適化の対象はキーポイント回転パラメータの値と体型パラメータの値である。

最適化の過程中に、カメラの位置の変化及び三次元キーポイントの位置の変化は、いずれも三次元キーポイントの二次元投影を変化させることができるため、最適化の過程の不安定を招く。そのため、カメラ最適化の段階で、人体姿勢を固定し、姿勢最適化の段階で、カメラの位置を固定することにより、最適化過程の安定性を向上させる。即ち、前記体型パラメータの初期値とキーポイント回転パラメータの初期値が一定に維持されて、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の変位パラメータの現在値、及び前記グローバル回転パラメータの初期値に対して最適化を行い、変位パラメータの最適値とグローバル回転パラメータの最適値とを取得する。その後、変位パラメータの最適値とグローバル回転パラメータの最適値とを一定に維持し、前記変位パラメータの最適値とグローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行い、キーポイント回転パラメータの最適値と体型パラメータの最適値とを取得する。

さらに、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得し、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得される。前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得する。前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得する。前記第１損失と前記第２損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行う。

前記所定部位は体幹部位であってもよく、前記目標二次元投影キーポイントは左右肩の点、左右股関節の点、脊柱の中心点等のキーポイントであってもよい。異なる動きは体幹部位のキーポイントへの影響が小さいため、体幹部位のキーポイントを利用して第１損失を特定することにより、異なる動きによるキーポイントの位置への影響を減少することができ、最適化結果の正確性を向上させる。第１損失は体幹キーポイント投影損失と呼称されてもよく、第２損失はカメラ変位正則化損失と呼称されてもよく、第１損失は以下の式（１）によって取得されてもよく、第２損失は以下の式（２）によって取得されてもよい。

Ｌ_{ｔｏｒｓｏ}とＬ_ｃａｍはそれぞれ第１損失と第２損失を表し、ｘ_{ｔｏｒｓｏ}と

はそれぞれ目標二次元投影キーポイントと初期二次元キーポイントを表し、ｔとｔ_ｎｅｔはそれぞれ前記画像収集装置と前記目標対象との間の変位パラメータの現在値、及び前記変位パラメータの初期値を表す、第１損失と第２損失とに基づいて、第１目標損失Ｌ_１特定してもよい。例えば、前記第１目標損失は前記第１損失と第２損失との和として特定されてもよく、以下の式（３）によって特定されてもよい。
Ｌ_１＝Ｌ_{ｔｏｒｓｏ＋}Ｌ_ｃａｍ（３）

前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第３損失を取得し、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得される。第４損失を取得し、前記第４損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられる。前記第３損失と前記第４損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行う。

第３損失は、二次元キーポイント投影損失と呼称されてもよく、第４損失は姿勢合理性損失と呼称されてもよく、第３損失は以下の式（４）によって特定されてもよい。

Ｌ_２ｄは、第３損失であり、ｘと

はそれぞれ前記最適化二次元投影キーポイント及び前記初期二次元キーポイントを表す。第３損失と第４損失とに基づいて、第２目標損失を特定してもよい。例えば、前記第２目標損失は前記第３損失と前記第４損失との和として特定されてもよく、以下の式（５）によって特定されてもよい。
Ｌ_２＝Ｌ_２ｄ＋Ｌ_{ｐｒｉｏｒ} （５）
Ｌ_２は、第２目標損失であり、Ｌ_{ｐｒｉｏｒ}は、第４損失であり、混合ガウスモデル（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ，ＧＭＭ）を利用して取得されてもよく、グローバル回転パラメータの最適値、キーポイント回転パラメータの初期値と体型パラメータの初期値に対応する姿勢は合理であるか否かを判定し、不合理的な姿勢に対して比較的大きい損失を出力する。

前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行ってもよく、即ち、三段階の最適化方法を利用する。教師情報には目標対象の表面の三次元点群の情報が含まれる場合、前記三段階の最適化方法を利用してもよい。前記三段階の最適化方法は、カメラ最適化段階と、姿勢最適化段階と、点群最適化段階とを含む。

カメラ最適化段階で、前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得してもよく、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得される。前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得する。前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得する。前記目標対象の表面の第１三次元点群と前記初期三次元点群との間の第５損失を取得し、前記第１三次元点群は前記グローバル回転パラメータの初期値とキーポイント回転パラメータの初期値と体型パラメータの初期値とに基づいて取得される。前記第１損失と、第２損失と、第５損失とに基づいて、前記変位パラメータの現在値とグローバル回転パラメータの初期値とに対して最適化を行う。前記第５損失は、ＩＣＰ（ＩｔｅｒａｔｉｖｅＣｌｏｓｅｓｔＰｏｉｎｔ）点群位置合わせ損失と呼称されてもよく、以下の式（６）で特定されてもよい。

式（６）に、Ｌ_ｉｃｐは前記第５損失であり、前記初期三次元点群を点群Ｐと見なし、前記第１三次元点群を点群Ｑと見なして、Ｋ_１＝｛（ｐ，ｑ）｝は点群Ｐにおける各点と、点群Ｑにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。Ｋ_２＝｛（ｐ，ｑ）｝は点群Ｑにおける各点と、点群Ｐにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。
第１損失と第２損失は、それぞれ以下の式（７）と式（８）によって表される。

はそれぞれ目標二次元投影キーポイントと初期二次元キーポイントを表し、ｔとｔ_ｎｅｔはそれぞれ前記変位パラメータの現在値、及び前記変位パラメータの初期値を表す。第１損失と、第２損失と、第５損失との和によって第１目標損失Ｌ_１を特定し、第１目標損失に基づいて前記変位パラメータの現在値とグローバル回転パラメータの初期値とに対して最適化を行ってもよく、即ち、以下の式（９）のように、
Ｌ_１＝Ｌ_{ｔｏｒｓｏ}＋Ｌ_ｃａｍ＋Ｌ_ｉｃｐ（９）である。

三段階の最適化の過程のうちの姿勢最適化段階は、二段階の最適化の過程のうちの姿勢最適化段階の最適化方法と同じであり、ここで繰り返して説明しない。

点群最適化段階で、前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第６損失を取得してもよく、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得される。第７損失を取得し、前記第７損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示す。前記目標対象の表面の第２三次元点群と前記初期三次元点群との間の第８損失を取得し、前記第２三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得される。前記第６損失と、第７損失と、第８損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、以下の式（１０）と式（１１）によって最適化を行ってもよい。

式に、

は第６損失であり、

は最適化二次元投影キーポイントであり、

は初期二次元キーポイントである。第７損失は、混合ガウスモデルを採用して取得されてもよく、グローバル回転パラメータの最適値と、キーポイント回転パラメータの最適値と、体型パラメータの最適値とに対応する姿勢が合理であるか否かを判定し、不合理的な姿勢に対して比較的大きい損失を出力するために用いられる。

は第８損失であり、Ｐは前記初期三次元点群の見なされた点群であり、

は前記第２三次元点群であり、

は点群Ｐにおける各点と、点群

における、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。

は点群

における各点と、点群Ｐにおける、前記各点からの距離が最も近い点とによって構成された点ペアの集合である。さらに、第６損失と第７損失と第８損失との和を第３目標損失Ｌ_３として特定し、第３目標損失に基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行ってもよく、以下の式（１２）によって同時最適化を行ってもよい。
Ｌ_３＝Ｌ_２ｄ＋Ｌ_{ｐｒｉｏｒ}＋Ｌ_ｉｃｐ（１２）

目標対象の画像がＲＧＢ画像である場合、前記カメラ最適化段階と姿勢最適化段階とを含む二段階の最適化方法に基づいてパラメータ最適化を行ってもよい。前記目標対象の画像がＲＧＢＤ画像である場合、前記カメラ最適化段階と姿勢最適化段階と点群最適化段階とを含む三段階の最適化方法に基づいてパラメータ最適化を行ってもよい。

本発明における技術的な解決手段は多くのシーンにおいて適用でき、仮想試着室、仮想ライバー、ビデオ動作遷移等のシーンにおいて自然且つ合理的で正確な人体再構成モデルを提供することができる。

図４Ａに示したのは、本発明の実施例の仮想試着室応用シーンの模式図である。カメラ４０３によってユーザ４０１の画像を収集して、収集された画像をプロセッサ（図示されない）に送信して三次元人体再構成を行わせ、それによりユーザ４０１に対応する人体再構成モデル４０４を取得して、人体再構成モデル４０４をユーザ４０１が閲覧できるように表示部４０２に表示する。同時に、ユーザ４０１は、衣類４０５１、帽子４０５２などを含んでもよいがこれらに限定されない所望の服飾４０５を選択してもよく、人体再構成モデル４０４に基づいて、表示部４０２に服飾４０５を表示し、それによりユーザ４０１が服飾４０５の試着効果を見ることができるようにしてもよい。

図４Ｂに示すように、本発明の実施例の仮想ライブルーム応用シーンの模式図である。ライブ配信をする過程中に、ライバークライアント４０７によってライバーユーザ４０６の画像を収集してもよく、ライバーユーザ４０６の画像をサーバ４０８に送信して三次元再構成を行わせ、ライバーユーザの人体再構成モデル、即ち仮想ライバーを取得する。図面におけるモデル４０７１に示すように、サーバ４０８はライバーユーザの人体再構成モデルをライバークライアント４０７に戻して表示させる。なお、ライバークライアント４０７は、ライバーユーザの音声情報を収集してもよく、サーバ４０８が人体再構成モデルと音声情報とを融合するように、音声情報をサーバ４０８に送信する。サーバ４０８は、融合済みの人体再構成モデルと音声情報を、ライブ番組を視聴する視聴者クライアント４０９に送信して図におけるモデル４０９１のように表示又は放送させてもよい。上記方法により、視聴者クライアント４０９に仮想ライバーがライブ配信をする画面を表示させることができる。

当業者であれば理解されるように、具体的な実施形態の上記方法において、各ステップの記述順序は厳密な実行順序を意味するものではなく、実施プロセスに対して任意の限定を構成せず、各ステップの具体的な実行順序はその機能及び可能な内部ロジックによって決定されるべきである。

図５に示すように、本発明は三次元再構成装置をさらに提供する。前記装置は、以下を含む。

第１三次元再構成モジュール５０１であって、三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するために用いられ、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる。

最適化モジュール５０２であって、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するために用いられる。

第２三次元再構成モジュール５０３であって、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる。

いくつかの実施例において、本発明の実施例によって提供された装置が有する機能又は含むモジュールは、上記した方法の実施例で記述された方法を実施するために用いられてもよく、具体的な実施は上記した方法の実施例の記述を参照すればよく、簡潔化のため、ここで繰り返して説明しない。

図６に示すように、本発明は三次元再構成システムをさらに提供する。前記システムは、以下を含む。

目標対象を収集するための画像収集装置６０１と、

前記画像収集装置と通信可能に接続された処理ユニット６０２であって、三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニット６０２と、を備える。

本発明の実施例における画像収集装置６０１はカメラ又はカメラヘッドなどの画像収集機能を有するデバイスであってもよく、画像収集装置６０１によって収集された画像は処理ユニット６０２へリアルタイムに送信されてもよく、または記憶され、必要な場合に記憶空間から処理ユニット６０２に伝送される。処理ユニット６０２は１つのサーバであってもよく、複数のサーバにより構成されたクラスタサーバであってもよい。処理ユニット６０２により実施される方法の詳細は、前述した三次元再構成方法の実施例を参照すればよく、ここで繰り返して説明しない。

本発明の実施例はコンピュータデバイスをさらに、少なくともメモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスを提供し、プロセッサは前記プログラムを実行するとき、前述したいずれかの実施例に記載の方法を実施する。

図７は本明細書の実施例が提供したもっと具体的なコンピュータデバイスのハードウェア構造模式図である。当該デバイスは、プロセッサ７０１、メモリ７０２、入力／出力インターフェース７０３、通信インターフェース７０４、及びバス７０５を含んでもよい。プロセッサ７０１、メモリ７０２、入力／出力インターフェース７０３及び通信インターフェース７０４は、バス７０５を介してデバイス内部での互いの通信接続を実現する。

プロセッサ７０１は汎用のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央処理装置）、マイクロプロセッサ、アプリケーション専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、また、１つ又は複数の集積回路などの方式で実現されてもよく、関連プログラムを実行し、それにより本明細書の実施例が提供する技術的な解決手段を実現するために用いられる。プロセッサ７０１はさらにグラフィックスカードを含み得、前記グラフィックスカードはＮｖｉｄｉａｔｉｔａｎＸグラフィックスカード又は１０８０Ｔｉグラフィックスカード等であってもよい。

メモリ７０２はＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、読み取り専用メモリ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）、静的記憶デバイス、動的記憶デバイス等の形式で実現されてもよい。メモリ７０２はオペレーティングシステム及び他のアプリケーションプログラムを記憶することができ、ソフトウェア又はファームウェアにより本明細書の実施例が提供した技術的な解決手段を実施する場合、関連するプログラムコードはメモリ７０２に記憶され、プロセッサ７０１により実行のために呼び出される。

入力／出力インターフェース７０３は入力／出力モジュールを接続するために用いられ、それにより情報の入力及び出力を実現する。入力／出力モジュールはコンポーネントとしてデバイス（図示されない）に配置されてもよく、デバイスに外付けされて対応する機能を提供してもよい。入力デバイスはキーボード、マウス、タッチスクリーン、マイクロフォン、各種のセンサ等を含み得、出力デバイスはディスプレイ、スピーカ、振動器、指示ランプ等を含み得る。

通信インターフェース７０４は通信モジュール（図示せず）を接続するために用いられ、それにより本デバイスと他のデバイスとの通信インタラクションを実現する。通信モジュールは有線方式（例えばＵＳＢ、ネットワークケーブル等）により通信を実現してもよく、無線方式（例えばモバイルネットワーク、ＷＩＦＩ、ブルートゥース等）により通信を実現してもよい。

バス７０５は通路を含み、デバイスの各コンポーネント（例えばプロセッサ７０１、メモリ７０２、入力／出力インターフェース７０３及び通信インターフェース７０４）の間に情報を伝送する。

説明すべきは、上記デバイスはプロセッサ７０１、メモリ７０２、入力／出力インターフェース７０３、通信インターフェース７０４及びバス７０５のみを示すが、具体的な実施過程中には、該デバイスはさらに通常動作を実現するのに必要な他のコンポーネントを含んでもよい。また、当業者が理解できるように、上記デバイスは本明細書の実施例の解決手段を実現するのに必要なユニットのみを含んでもよく、図に示された全てのユニットを含む必要がない。

本発明の実施例はコンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供し、当該コンピュータプログラムはプロセッサにより実行されるとき、前述したいずれかの実施例に記載の方法が実施される。

コンピュータ可読記憶媒体は永続的及び非永続的、移動可能及び非移動可能な媒体を含み、任意の方法又は技術により情報記憶を実現し得る。情報はコンピュータ可読命令、データ構造、プログラムのモジュール又は他のデータであってもよい。コンピュータの記憶媒体の例は、相変化メモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、他のタイプのランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ又は他のメモリ技術、読み出し専用ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多機能光ディスク（ＤＶＤ）又は他の光学記憶、磁気カートリッジ式磁気テープ、磁気テープ磁気ディスク記憶又は他の磁気記憶デバイス又は任意の他の非伝送媒体を含むがそれらに限定されず、コンピューティングデバイスからアクセス可能な情報を記憶するために用いることができる。本明細書の定義によれば、コンピュータ可読記憶媒体は一時記憶コンピュータ可読記憶媒体（ｔｒａｎｓｉｔｏｒｙＭｅｄｉａ）、例えば変調されたデータ信号及びキャリアを含まない。

以上の実施形態の説明から分かるように、当業者は、本明細書の実施例が、ソフトウェアと必要な汎用ハードウェアプラットフォームの方式により実現されることができることを明らかに理解することができる。このような理解に基づいて、本明細書の実施例の技術的な解決手段は本質的に又は従来の技術に寄与する部分がソフトウェア製品の形式で具現化されることができ、該コンピュータソフトウェア製品は例えばＲＯＭ／ＲＡＭ、磁気ディスク、光ディスク等の記憶媒体に記憶されることができ、コンピュータ装置（パーソナルコンピュータ、サーバ、又はネットワークデバイス等であってもよい）に本明細書の実施例の各実施例又は実施例のある部分に記載の方法を実行させるための複数の命令を含む。

上記実施例により説明されたシステム、装置、モジュール又はユニットは、具体的にはコンピュータチップ又はエンティティにより実現されてもよく、又はある機能を有する製品により実現されてもよい。代表的な実現デバイスはコンピュータであり、コンピュータの具体的な形式はパーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤ、ナビゲーションデバイス、電子メール送受信デバイス、ゲームコンソール、タブレットコンピュータ、ウェアラブルデバイスであってもよく、又はこれらのデバイスのうちの任意の複数種のデバイスの組み合わせであってもよい。

本明細書における各実施例はいずれも漸進の方式で説明され、各実施例の間の同じ又は類似する部分は互いに参照すればよく、各実施例の重点的に説明されたのは他の実施例との相違点である。特に、装置の実施例に対して、それは基本的に方法の実施例と類似するため、簡単に説明し、関連する部分は方法の実施例の一部の説明を参照すればよい。以上に説明された装置の実施例は単に例示的なものであり、そのうち前記分離部材として説明されたモジュールは物理的に分離されていてもよいか、物理的に分離されていなくてもよく、本明細書の実施例の解決手段を実施する時に各モジュールの機能を同一又は複数のソフトウェア及び／又はハードウェアで実現し得る。実際の需要に応じてそのうちの一部又は全部のモジュールを選択して本実施例の解決手段の目的を達成してもよい。当業者は創造的な労力を費やさなくても、本発明を理解して実施することができる。

本願は２０２１年５月１０日に提出された、出願番号が２０２１１０５０６４６４Ｘであり、発明の名称が「三次元再構成方法、装置、システム、媒体及びコンピュータデバイス」である中国特許出願の優先権を主張し、当該出願は引用により本願に取り込まれる。

Claims

三次元再構成方法であって、
三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するステップであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられるステップと、
予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するステップと、
前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するステップと、を含むことを特徴とする三次元再構成方法。
前記教師情報は、第１教師情報を含み、又は、前記教師情報は、第１教師情報と第２教師情報とを含み、
前記第１教師情報は、前記目標対象の初期二次元キーポイントと、前記画像における前記目標対象上の複数の画素点のセマンティック情報とのうちの少なくとも１つ含み、
前記第２教師情報は、前記目標対象の表面の初期三次元点群を含むことを特徴とする請求項１に記載の方法。
キーポイント抽出ネットワークによって前記画像から前記目標対象の初期二次元キーポイントの情報を抽出することをさらに含むことを特徴とする請求項２に記載の方法。
前記画像は前記目標対象の深度画像を含み、
前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することと、
前記深度情報に基づいて、前記深度画像における前記目標対象上の前記複数の画素点を三次元空間へ逆投影し、前記目標対象の表面の前記初期三次元点群を取得することと、をさらに含むことを特徴とする請求項２又は３に記載の方法。
前記画像は前記目標対象のＲＧＢ画像をさらに含み、
前記深度画像から前記目標対象上の前記複数の画素点の深度情報を抽出することは、
前記ＲＧＢ画像に対して画像分割を行うことと、
画像分割の結果に基づいて、前記ＲＧＢ画像における前記目標対象の所在する画像領域を特定することと、
前記ＲＧＢ画像における前記目標対象の所在する画像領域に基づいて、前記深度画像における前記目標対象の所在する画像領域を特定することと、
前記深度画像における前記目標対象の所在する画像領域における前記複数の画素点の深度情報を取得することと、を含むことを特徴とする請求項４に記載の方法。
前記初期三次元点群から外れ点をフィルタリングし、フィルタリング済みの前記初期三次元点群を前記第２教師情報とすることをさらに含むことを特徴とする請求項２～５のいずれか１項に記載の方法。
前記目標対象の画像は画像収集装置によって取得され、前記パラメータは、前記目標対象のグローバル回転パラメータと、前記目標対象の各キーポイントのキーポイント回転パラメータと、前記目標対象の体型パラメータと、前記画像収集装置の変位パラメータとを含み、
予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行うことは、
前記体型パラメータの初期値と前記キーポイント回転パラメータの初期値とが一定に維持される場合、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行い、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値を取得することと、
前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値及び前記体型パラメータの初期値に対して最適化を行い、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値を取得することと、を含むことを特徴とする請求項１～６のいずれか１項に記載の方法。
前記教師情報は前記目標対象の初期二次元キーポイントを含み、
前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、
前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、
前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、
前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、
前記第１損失と前記第２損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項７に記載の方法。
前記教師情報は前記目標対象の初期二次元キーポイントを含み、前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことは、
前記目標対象の最適化二次元投影キーポイントと前記初期二次元キーポイントとの間の第３損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、
第４損失を取得することであって、前記第４損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対応する姿勢の合理性を示すために用いられることと、
前記第３損失と前記第４損失とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項７又は８に記載の方法。
前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに対して最適化を行った後、
前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことをさらに含むことを特徴とする請求項７～９のいずれか１項に記載の方法。
前記教師情報は、前記目標対象の初期二次元キーポイントと前記目標対象の表面の初期三次元点群とを含み、前記教師情報と前記変位パラメータの初期値とに基づいて、前記画像収集装置の前記変位パラメータの現在値及び前記グローバル回転パラメータの初期値に対して最適化を行うことは、
前記目標対象の三次元キーポイントに対応する二次元投影キーポイントのうちの前記目標対象の所定部位に属する目標二次元投影キーポイントを取得することであって、前記目標対象の三次元キーポイントは前記グローバル回転パラメータの初期値と、前記キーポイント回転パラメータの初期値と、前記体型パラメータの初期値とに基づいて取得され、前記二次元投影キーポイントは前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに基づいて前記目標対象の三次元キーポイントに対して投影を行うことにより取得されることと、
前記目標二次元投影キーポイントと前記初期二次元キーポイントとの間の第１損失を取得することと、
前記変位パラメータの初期値と前記変位パラメータの現在値との間の第２損失を取得することと、
前記目標対象の表面の第１三次元点群と前記初期三次元点群との間の第５損失を取得することであって、前記第１三次元点群は前記グローバル回転パラメータの初期値と前記キーポイント回転パラメータの初期値と前記体型パラメータの初期値とに基づいて取得されることと、
前記第１損失と、前記第２損失と、前記第５損失とに基づいて、前記変位パラメータの現在値と前記グローバル回転パラメータの初期値とに対して最適化を行うことと、を含むことを特徴とする請求項１０に記載の方法。
前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことは、
前記目標対象の最適化二次元投影キーポイントと初期二次元キーポイントとの間の第６損失を取得することであって、前記最適化二次元投影キーポイントは前記変位パラメータの最適値と前記グローバル回転パラメータの最適値とに基づいて、前記目標対象の最適化三次元キーポイントに対して投影を行うことにより取得され、前記最適化三次元キーポイントは前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに基づいて取得されることと、
第７損失を取得することであって、前記第７損失は前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値とに対応する姿勢の合理性を示すために用いられることと、
前記目標対象の表面の第２三次元点群と初期三次元点群との間の第８損失を取得することであって、前記第２三次元点群は前記グローバル回転パラメータの最適値と、前記キーポイント回転パラメータの最適値と、前記体型パラメータの最適値とに基づいて取得されることと、
前記第６損失と、第７損失と、第８損失とに基づいて、前記グローバル回転パラメータの最適値と前記キーポイント回転パラメータの最適値と前記体型パラメータの最適値と前記変位パラメータの最適値とに対して同時最適化を行うことと、を含むことを特徴とする請求項１０又は１１に記載の方法。
三次元再構成装置であって、
三次元再構成ネットワークによって画像における目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得するための第１三次元再構成モジュールであって、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられる第１三次元再構成モジュールと、
予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得するための最適化モジュールと、
前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するための第２三次元再構成モジュールと、を備えることを特徴とする三次元再構成装置。
三次元再構成システムであって、前記システムは、
目標対象の画像を収集するための画像収集装置と、
前記画像収集装置と通信可能に接続された処理ユニットであって、
三次元再構成ネットワークによって前記画像における前記目標対象に対して三次元再構成を行い、前記目標対象のパラメータの初期値を取得し、ここで、前記パラメータの初期値は前記目標対象の三次元モデルを生成するために用いられ、
予め取得された、前記目標対象の特徴を表すための教師情報に基づいて、前記パラメータの初期値に対して最適化を行い、前記パラメータの最適値を取得し、
前記パラメータの最適値に基づいてスキン処理を行い、前記目標対象の三次元モデルを生成するために用いられる処理ユニットと、を備えることを特徴とする三次元再構成システム。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムはプロセッサにより実行されるとき、請求項１～１２のいずれか１項に記載の方法が実施されることを特徴とするコンピュータ可読記憶媒体。
メモリと、プロセッサと、メモリに記憶された、プロセッサで実行可能なコンピュータプログラムとを含むコンピュータデバイスであって、
前記プロセッサが前記コンピュータプログラムを実行するとき、請求項１～１２のいずれか１項に記載の方法を実施することを特徴とするコンピュータデバイス。