JP7352748B2

JP7352748B2 - 三次元再構築方法、装置、機器及び記憶媒体

Info

Publication number: JP7352748B2
Application number: JP2022546566A
Authority: JP
Inventors: フージュンバオ; シアオウェイジョウ; ジアミンスン; イーミンシエ
Original assignee: チョーチアンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2021-01-15
Filing date: 2021-06-24
Publication date: 2023-09-28
Anticipated expiration: 2041-06-24
Also published as: WO2022151661A1; US20230290099A1; CN112750201B; CN112750201A; JP2023514107A; KR20220120674A

Description

（関連出願の相互参照）
本願は、浙江商湯科技開発有限公司より２０２１年０１月１５日に提出された、出願番号が２０２１１００５７０３５．９であり、発明名称が「三次元再構築方法及び関連装置、機器」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータビジョン技術分野に関し、特に三次元再構築方法、装置、機器及び記憶媒体に関する。

電子情報技術の発展に伴い、携帯電話、タブレットなどの、カメラが集積された電子機器により、実シーンにおける物体に対して三次元再構築を行うことは、多くの応用シーンにおいていずれも広く用いられている。例えば、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ：拡張現実）などのダウンストリームアプリケーションに用いられてもよい。ＡＲ効果と物理的シーンとの没入感を向上させるために、三次元再構築結果は、可能な限り平滑になる必要があり、且つ三次元再構築プロセスにおいて、可能な限りリアルタイムである必要がある。このため、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを如何に向上させるかは、極めて高い検討価値を有する課題となる。

本願の実施例は、三次元再構築方法、装置、機器及び記憶媒体を提供する。

本願の実施例は、三次元再構築方法を提供する。前記方法は、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定することであって、第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得ることであって、第１特徴マップは、第１空間におけるボクセルの第１特徴情報を含む、ことと、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることと、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新することと、を含む。

従って、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定し、且つ第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、この上で、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得、且つ第１特徴マップに、第１空間におけるボクセルの第１特徴情報が含まれ、それにより第１特徴マップに基づいて、今回の再構築の第１再構築結果を得、更に、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新する。従って、各回の再構築プロセスにおいて、いずれも、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間全体に対して三次元再構築を行うことができ、それにより計算負荷を大幅に低減させることができるだけでなく、再構築結果の階層化又は分散の発生確率を低減させることもでき、更に、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。

ここで、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得した後、方法は、各フレームの第１キー画像に対してそれぞれ特徴抽出を行い、第１キー画像の第２特徴マップを得ることを含み、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得ることは、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得ることを含む。

従って、各フレームの第１キー画像に対してそれぞれ特徴抽出を行い、第１キー画像の第２特徴マップを得ることによって、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得るため、各フレームの第１キー画像の第２特徴マップを融合し、第１空間の第１特徴マップを得、第１特徴マップの正確性の向上に有利であり、更に、三次元再構築の正確性の向上に有利である。

ここで、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得ることは、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出することと、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得ることと、第１空間の各ボクセルの第１特徴情報に基づいて、第１空間の第１特徴マップを得ることと、を含む。

従って、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出し、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得、第１空間の各ボクセルの第１特徴情報に基づいて、第１空間の第１特徴マップを得るため、第１空間における各ボクセルにとって、対応する各フレームの第１キー画像の第２特徴が融合されており、第１空間の第１特徴マップの正確性の更なる向上に有利である。

ここで、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得ることは、以下の少なくとも１つを含む。ボクセルに対応する各フレームの第１キー画像の第２特徴情報の平均値をボクセルの第１特徴情報とする。各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出した後、方法は、各フレームの第１キー画像の第２特徴マップから、いずれも、ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第１特徴情報とすることを更に含む。

従って、ボクセルに対応する各フレームの第１キー画像の第２特徴情報の平均値をボクセルの第１特徴情報とすることで、第１特徴情報の取得の複雑さを低減させることができ、それにより三次元再構築の速度の向上に有利であり、更に、三次元再構築プロセスのリアルタイム性の更なる向上に有利である。各フレームの第１キー画像の第２特徴マップから、いずれも、ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第１特徴情報とすることで、第１特徴情報の取得の複雑さの更なる低減に有利である。

ここで、各フレームの第１キー画像の第２特徴マップは、いずれも、異なる解像度に対応する所定の枚数の第２特徴マップを含み、第１空間は、異なる解像度に対応する所定の数の第１空間を含み、解像度が高いほど、第１空間におけるボクセルのサイズが小さくなり、第１特徴マップは、異なる解像度に対応する所定の枚数の第１特徴マップを含み、各枚の第１特徴マップは、同じ解像度の第２特徴マップの第２特徴情報に基づいて得られたものである。

従って、各フレームの第１キー画像の第２特徴マップを、いずれも異なる解像度に対応する所定の枚数の第２特徴マップを含むように設定し、且つ第１空間が、異なる解像度に対応する所定の数の第１空間を含み、解像度が高いほど、第１空間におけるボクセルのサイズが小さくなり、なお、第１特徴マップを、異なる解像度に対応する所定の枚数の第１特徴マップを含むように設定し、各枚の第１特徴マップは、同じ解像度の第２特徴マップの第２特徴情報に基づいて得られたものである。従って、異なる解像度の所定の枚数の第２特徴マップによって三次元再構築を行うことに有利であり、それにより三次元再構築の精細度の更なる向上に有利である。

ここで、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とすることと、前回選択された解像度に対応する第１再構築結果に対してアップサンプリングを行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップを融合し、現在解像度に対応する融合特徴マップを得ることと、融合特徴マップに基づいて、現在解像度に対応する第１再構築結果を得ることと、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行することと、現在解像度が最高解像度である場合、現在解像度に対応する第１再構築結果を今回の再構築の最終的な第１再構築結果とすることと、を含む。

従って、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とし、前回選択された解像度に対応する第１再構築結果に対してアップサンプリングを行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップを融合し、現在解像度に対応する融合特徴マップを得、この上で融合特徴マップに基づいて、現在解像度に対応する第１再構築結果を得ることによって、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するか又は現在解像度が最高解像度である場合、現在解像度に対応する第１再構築結果を今回の再構築の最終的な第１再構築結果とするため、「解像度が低い」第１特徴マップから「解像度が高い」第１特徴までに基づいて、三次元再構築を次第に行うことができ、それにより「粗から細までの」三次元再構築の実現に有利であり、更に、三次元再構築の精細度の更なる向上に有利である。

ここで、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、第１特徴マップに基づいて、予測を行い、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得ることであって、ここで、第１再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである、ことと、第１空間における、確率値が所定の条件を満たすボクセルを選択することと、選択されたボクセルの第１再構築値に基づいて、今回の再構築の第１再構築結果を得ることと、を含む。

従って、第１特徴マップに基づいて、予測を行い、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得、且つ第１再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、第１空間における、確率値が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第１再構築値に基づいて、今回の再構築の第１再構築結果を得るため、確率値が所定の条件を満たさないボクセルによる三次元再構築への干渉を除去することができ、三次元再構築の正確性の更なる向上に有利である。

ここで、第１再構築結果は、第１空間におけるボクセルの第１再構築値を含み、第２再構築結果は、第２空間におけるボクセルの第２再構築値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、第１再構築値と第２再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新することは、第１空間におけるボクセルの第１再構築値に基づいて、第２空間における対応するボクセルの第２再構築値を更新することを含む。

従って、第１再構築結果を、第１空間におけるボクセルの第１再構築値を含むように設定し、第２再構築結果を、第２空間におけるボクセルの第２再構築値を含むように設定し、且つ第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、第１再構築値と第２再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、この上で第１空間におけるボクセルの第１再構築値に基づいて、第２空間における対応するボクセルの第２再構築値を更新することで、この前の再構築により得られた第２再構築結果を更新することによって、三次元再構築プロセスにおいて、今回の再構築プロセスにおける第１空間におけるボクセルの第１再構築値に基づいて、この前の再構築により得られた第２再構築結果を更新することに有利であり、更に、再構築プロセスにおいて第２再構築結果を絶え間なく完全なものにして、三次元再構築の正確性を向上させることに有利である。

ここで、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面である。

従って、関連物体表面を、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面に設定することで、三次元再構築の正確性の更なる向上に有利である。

ここで、第１再構築結果は、三次元再構築モデルによって得られたものであり、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得することであって、ここで、第１履歴隠し層状態は、第２空間におけるボクセルに対応する状態値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間である、ことと、第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とすることと、融合ネットワークに基づいて、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行することと、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得ることと、を含む。

従って、第１再構築結果を、三次元再構築モデルによって得られたものであるように設定し、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得し、且つ第１履歴隠し層状態は、第２空間におけるボクセルに対応する状態値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、この上で第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とすることによって、融合ネットワークに基づいて、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行し、更に、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得るため、各回の再構築プロセスにおいて、いずれも、この前の再構築によって得られた第１履歴隠し層状態を参照することができ、今回の再構築とこの前の再構築との一致性の向上に有利であり、それにより今回の再構築結果とこの前の再構築結果の間の階層化又は分散の発生確率の低減に有利であり、更に、三次元再構築結果の平滑さの更なる向上に有利である。

ここで、今回の再構築が初回の再構築である場合、第１履歴隠し層状態における状態値は、所定の状態値である。

従って、今回の再構築が初回の再構築である場合、第１履歴隠し層状態における状態値を所定の状態値に設定することで、三次元再構築のロバスト性の向上に有利である。

ここで、融合ネットワークは、ゲート再帰型ユニットを含み、三次元再構築モデルは、予測ネットワークを更に含み、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得ることは、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第１再構築結果を得ることを含む。

従って、融合ネットワークを、ゲート再帰型ユニットを含むように設定することで、ゲート再帰型ユニットによって選択的アテンションメカニズムを導入することに有利であり、それにより三次元再構築プロセスにおいて、この前の再構築により得られた第１履歴隠し層状態を選択的に参照することに有利であり、更に、三次元再構築の正確性の向上に有利である。三次元再構築モデルを、予測ネットワークを含むように設定することで、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第１再構築結果を得ることで、三次元再構築の効率の向上に有利である。

ここで、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得る前に、方法は、第１特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得ることであって、ここで、幾何学的特徴マップは、ボクセルの幾何学的情報を含む、ことを含み、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることは、幾何学的特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを含む。

従って、第１特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得、且つ幾何学的特徴マップは、ボクセルの幾何学的情報を含み、この上で幾何学的特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることで、抽出されたボクセルの幾何学的情報を基に、今回再構築された第１空間の第２履歴隠し層状態を更新することができ、三次元再構築の正確性の向上に有利である。

ここで、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得た後、方法は、今回の隠し層状態における状態値に基づいて、第１履歴隠し層状態における該当するボクセルに対応する状態値を更新することを更に含む。

従って、今回の隠し層状態における状態値に基づいて、今回再構築された第１空間の第２履歴隠し層状態における該当するボクセルに対応する状態値を更新するため、更新により今回の隠し層状態を得た後、更に、第２空間の第１履歴隠し層状態を更新することができ、今回の再構築の上で第２空間の第１履歴隠し層状態の正確性の更なる向上に有利であり、それにより三次元再構築の正確性の向上に有利である。

ここで、再構築ターゲットを撮影するプロセスにおいて、少なくとも２つのフレームの第１キー画像を取得し、第１キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第１キー画像は、隣接する第１キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第１キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも１つを満たす。

従って、少なくとも２つのフレームの第１キー画像を、再構築ターゲットを撮影するプロセスにおいて取得されたものであるように設定することで、撮影を行いながら、三次元再構築を行うことを実現させることができ、第１キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第１キー画像を、隣接する第１キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第１キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも１つを満たすように設定することで、各回の再構築プロセスにおいて可能な限り少ないキー画像を参照することに有利である上で、第１空間の視覚的範囲を可能な限り拡大することができ、それにより三次元再構築の効率の向上に有利である。

本願の実施例は、三次元再構築装置を提供する。前記装置は、キー画像取得モジュールと、第１空間決定モジュールと、第１特徴取得モジュールと、再構築結果取得モジュールと、再構築結果更新モジュールと、を備え、キー画像取得モジュールは、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得するように構成され、第１空間決定モジュールは、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定するように構成され、ここで、第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、第１特徴取得モジュールは、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得るように構成され、ここで、第１特徴マップは、第１空間におけるボクセルの第１特徴情報を含み、再構築結果取得モジュールは、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得るように構成され、再構築結果更新モジュールは、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新するように構成される。

本願の実施例は、電子機器を提供する。前記電子機器は、互いに結合されるメモリとプロセッサを備え、プロセッサは、メモリに記憶されているプログラム命令を実行し、上記三次元再構築方法を実施する。

本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行されるとき、プロセッサに上記三次元再構築方法を実現させる。

上記方案において、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定し、且つ第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、この上で、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得、且つ第１特徴マップに、第１空間におけるボクセルの第１特徴情報が含まれ、それにより第１特徴マップに基づいて、今回の再構築の第１再構築結果を得、更に、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新する。従って、各回の再構築プロセスにおいて、いずれも、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間全体に対して三次元再構築を行うことができ、それにより計算負荷を大幅に低減させることができるだけでなく、再構築結果の階層化又は分散の発生確率を低減させることもでき、更に、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。

本願の実施例による三次元再構築方法の一実施例のフローチャートである。本願の実施例による三次元再構築方法のシステムアーキテクチャの概略図を示す。第１空間の一実施例の概略図である。本願の実施例による三次元再構築方法の一実施例のプロセスの概略図である。本願の実施例による三次元再構築方法と他の三次元再構築方法の効果の概略図である。図１ＡにおけるステップＳ１２の一実施例のフローチャートである。第１特徴マップの取得の一実施例の状態概略図である。図１ＡにおけるステップＳ１３の一実施例のフローチャートである。今回の隠し層状態の取得の一実施例の状態概略図である。本願の実施例による三次元再構築方法の別の実施例のプロセスの概略図である。本願の実施例による三次元再構築装置の一実施例のフレームワーク概略図である。本願の実施例による電子機器の一実施例のフレームワーク概略図である。本願の実施例によるコンピュータ可読記憶媒体の一実施例のフレームワーク概略図である。

本願の実施例の技術的解決手段をより明確に説明するために、以下、実施例に必要な図面を簡単に説明する。ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、これらの図面は、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。下記図面は、説明のみの目的で本願の幾つかの実施例を図示しており、範囲を制限するものと見なされるべきではないことが理解されるべきである。当業者は、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。

以下、明細書の図面を参照しながら、本願の実施例の解決手段を詳しく説明する。

下記説明において、本願の実施例を深く理解するために、特定システム構造、インタフェース、技術等の具体的な細部を提出し、これは、本願を解釈するためのものに過ぎず、本願を限定するためのものではない。

本明細書において、「システム」と「ネットワーク」という用語は、常に交換可能に使用されている。本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つのケースを表す。なお、本明細書において、文字「／」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、２つ又は２つより多いことを表す。

図１Ａを参照すると、図１Ａは、本願の実施例による三次元再構築方法の一実施例のフローチャートである。以下のステップを含んでもよい。

ステップＳ１１において、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定する。

本願の実施例において、第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである。再構築待ちターゲットは、実際の応用状況に応じて設定されてもよい。例えば、ある物体に対して三次元再構築を行う必要がある場合、再構築待ちターゲットは、物体であってもよい。例えば、再構築待ちターゲットは、机、椅子、ソファーなどを含んでもよいが、それらに限らない。ここで限定しない。又は、あつシーンに対して三次元再構築を行う必要がある場合、再構築待ちターゲットは、シーンであってもよい。説明すべきことは、シーンに若干の物体が含まれてもよい。再構築待ちターゲットがリビングルームであることを例として、リビングルーム内に机、椅子、ソファーなどが含まれてもよいが、それらに限らない。再構築待ちターゲットが建築物であることを例として、建築物は、階段、回廊、ドアなどを含んでもよいが、それらに限らない。他の場合について、このように類推してもよい。ここで一々列挙しない。

１つの実施シーンにおいて、三次元再構築のリアルタイム性を向上させるために、第１キー画像は、再構築待ちターゲットを撮影するプロセスにおいて取得されたものであってもよい。三次元再構築プロセスに対する増分処理を実現させるために、再構築待ちターゲットを撮影しながら、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得してもよい。

１つの実施シーンにおいて、第１キー画像は、カメラ方位姿勢パラメータに対応してもよい。カメラ方位姿勢パラメータは、例えば、並進距離と、回転角度と、を含んでもよい。この上で第１キー画像は、隣接する第１キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第１キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも１つを満たす。上記方式によれば、各回の再構築プロセスにおいて可能な限り少ないキー画像を参照することに有利である上で、第１空間の視覚的範囲を可能な限り拡大することができ、それにより三次元再構築の効率の向上に有利である。

１つの実施シーンにおいて、カメラ方位姿勢パラメータは、ＳＬＡＭ（ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎＡｎｄＭａｐｐｉｎｇ：位置推定とマッピングの同時実行）などのような方式で取得してもよい。ここで限定しない。ＳＬＡＭは、一般的には、特徴抽出、データ関連付け、状態推定、状態更新及び特徴更新などのいくつかの部分を含み、その詳細はここで省略する。

別の実施シーンにおいて、説明しやすくするために、再構築待ちターゲットを撮影することで得られた画像シーケンスは、

と記してもよく、該画像シーケンスに対応するカメラ方位姿勢パラメータは、

と記してもよい。カメラ方位姿勢パラメータ

について、並進距離ｔと回転角度Ｒとを含んでもよい。多視野角再構築プロセスにおいて十分な視覚的範囲を提供することを確保するために、上記画像シーケンスから選択された第１キー画像は、三次元空間において、互いに近接し過ぎないながら、離れすぎなければならない。従って、画像シーケンスにおける１フレームの画像の並進距離ｔと最近選択された第１キー画像の並進距離ｔとの差異が所定の距離閾値

よりも大きくて、且つ該フレームの画像の回転角度Ｒと上記最近選択された第１キー画像の回転角度Ｒとの差異が所定の角度閾値

よりも大きい場合、該フレームの画像を新たな第１キー画像として選択してもよい。上記方式によれば、再構築プロセスにおいて可能な限り少ないキー画像を参照する上で、第１空間の視覚的範囲を可能な限り拡大することができる。

また１つの実施シーンにおいて、各回の三次元再構築の計算負荷を合理的に制御するために、各回の三次元再構築により取得された少なくとも２つのフレームの第１キー画像の画像数は、所定の数閾値よりも小さくてもよい。所定の数閾値は、実際の応用状況に応じて設定してもよい。例えば、三次元再構築を実行する電子機器が、余裕のあるコンピューティングリソースを有する場合、所定の数閾値は、大きく設定されてもよく、例えば５、１０、１５などに設定されてもよい。又は、三次元再構築を実行する電子機器は、相対的乏しいコンピューティングリソースを有する場合、所定の数閾値は、小さく設定されてもよく、例えば、２、３、４などに設定されてもよい。ここで限定しない。

なお、説明すべきことは、視錐は、形状が四角錐形状である実体形状と理解されてもよい。該実体形状は、カメラによるレンダリング時に見える領域の形状である。理解できるように、カメラにより撮影された画像におけるいずれか１つの点は最終的に現実世界における１本の線に対応し、且つこの線における１つの点をのみ表示し、この線における、この表示される点の後にある全ての物体はいずれも遮蔽される。画像の外境界は、４つの頂点に対応する発散線によって定義され、且つこれら４本の線は最終的にカメラの所在位置で交わる。

図１Ｂは、本願の実施例による三次元再構築方法を応用できるシステムアーキテクチャの概略図である。図１Ｂに示すように、該システムアーキテクチャに、画像収集機器２００１と、ネットワーク２００２と、画像取得端末２００３とが含まれる。１つの例示的な応用をサポートすることを実現させるために、画像収集機器２００１と画像取得端末２００３は、ネットワーク２００２を介して通信接続を確立してもよく、画像収集機器２００１は、ネットワーク２００２を介して画像取得端末２００３に、収集された画像を伝送し、画像取得端末２００３は、画像を受信し、画像に対して処理を行い、更に、今回の再構築結果を得る。

例として、現在シーン画像収集機器２００１は、カメラなどの、画像収集機能を有する機器を含んでもよい。画像取得端末２００３は、一定のコンピューティング能力と画像処理能力を有するコンピュータ機器を含んでもよい。該コンピュータ機器は、例えば、端末機器、サーバ又は他の処理機器を含む。ネットワーク２００２は、有線接続又は無線接続方式を用いてもよい。ここで、画像取得端末２００３がサーバである場合、画像収集機器は、有線接続の方式で、画像取得端末と通信接続してもよく、例えば、バスを介してデータ通信を行う。画像取得端末２００３が端末機器である場合、画像収集機器は、無線接続の方式で、画像取得端末と通信接続し、更にデータ通信を行ってもよい。

又は、いくつかのシーンにおいて、画像取得端末２００３は、ビデオ収集モジュールを有する視覚的処理機器であってもよく、カメラを有するホストであってもよい。この場合、本願の実施例による情報処理方法は、画像取得端末２００３により実行されてもよく、上記システムアーキテクチャは、ネットワーク２００２と画像収集機器２００１を含まなくてもよい。

１つの実施シーンにおいて、図２を参照すると、図２は、第１空間の一実施例の概略図である。図２に示すように、第１キー画像は、それぞれ、黒点で表されるカメラ１、カメラ２及びカメラ３により撮影されたものである。実際の応用プロセスにおいて、カメラから離れすぎる画像情報が後続の三次元再構築に及ぼす干渉を低減させるために、第１空間を決定する時、上記視錐の最大デプスを

と予め定義してもよい。即ち、四角錐の高さは、上記最大デプス

である。引き続き図２を参照すると、説明しやすくするために、図２において、二等辺三角形で表される視錐は、第１空間を見下ろす場合の視錐の概略図である。即ち、図２に示される第１空間は、二次元視野角での概略図である。ここで、二等辺三角形における破線は、上記最大デプス

を表す。この場合、カメラ１、カメラ２及びカメラ３により撮影された第１キー画像の視錐を取り囲む空間を第１空間と定義してもよい。三次元再構築を容易にするために、本願の実施例及び下記実施例において、別途説明しない限り、第１空間は、例えば、直方体、立方体などの隣接表面が互いに垂直である六面体を含んでもよい。なお、第１キー画像の視錐が他のものである場合、又は、第１キー画像が他の数である場合、第１空間は、上記記述を参照してもよく、このように類推し、ここで一々列挙しない。

なお、本願の実施例及び下記実施例において、第１空間は、若干のボクセル（ｖｏｘｅｌ）を含んでもよい。第１空間が直方体又は立方体であることを例として、ボクセルは、直方体又は立方体であってもよい。若干のボクセルは、積み重ねられて第１空間を形成する。なお、ボクセルのサイズは、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築に対して求められる精度要件が高い場合、ボクセルのサイズは、小さく設定されてもよい。又は、三次元再構築に対して求められる精度要件が相対的に低い場合、ボクセルのサイズは、大きく設定されてもよい。ここで限定しない。

ステップＳ１２において、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得る。

本願の実施例において、第１特徴マップは、第１空間におけるボクセルの第１特徴情報を含む。

１つの実施シーンにおいて、各フレームの第１キー画像に対してそれぞれ特徴抽出を行い、第１キー画像の第２特徴マップを得ることができる。この上で第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得ることができる。上記方式によれば、各フレームの第１キー画像の第２特徴マップを融合し、第１空間の第１特徴マップを得ることができ、第１特徴マップの正確性の向上に有利であり、更に、三次元再構築の正確性の向上に有利である。

１つの実施シーンにおいて、特徴抽出の効率を向上させるために、１つの三次元再構築モデルを予め訓練してもよく、且つ該三次元再構築モデルは、特徴抽出ネットワークを含み、それにより特徴抽出ネットワークに基づいて、各フレームの第１キー画像に対して特徴抽出を行い、第１キー画像の第２特徴マップを得ることができる。特徴抽出ネットワークは、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＣＮＮ）などを含んでもよいが、それらに限らない。三次元再構築モデルの訓練プロセスは、下記関連実施例を参照してもよい。ここで説明を省略する。

別の実施シーンにおいて、第１キー画像の第２特徴マップは、所定の解像度の特徴マップであってもよい。所定の解像度は、実際の応用状況に応じて設定してもよい。例えば、三次元再構築に対して求められる精度要件が高い場合、所定の解像度は、大きく設定されてもよいが、三次元再構築に対して求められる精度要件が相対的に低い場合、所定の解像度は、小さく設定されてもよい。ここで限定しない。

また１つの実施シーンにおいて、第１空間の各ボクセルについて、該ボクセルの、第２特徴マップにおける対応する第２特徴情報を融合し、該ボクセルの第１特徴情報を得ることができ、最終的に、第１空間の全てのボクセルの第１特徴情報を得る上で、第１空間の第１特徴マップを得ることができる。

また１つの実施シーンにおいて、各フレームの第１キー画像の第２特徴マップから、いずれも、ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報を該ボクセルの第１特徴情報としてもよい。所定の特徴情報は、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築の計算の複雑さを更に低減させるために、所定の特徴情報は、０に設定してもよい。ここで限定しない。

別の実施シーンにおいて、各フレームの第１キー画像の第２特徴マップは、異なる解像度に対応する所定の枚数の第２特徴マップを含んでもよく、且つ第１空間は、異なる解像度に対応する所定の数の第１空間を含み、解像度が高いほど、第１空間におけるボクセルのサイズが小さくなり、第１特徴マップは、異なる解像度に対応する所定の枚数の第１特徴マップを含んでもよく、各枚の第１特徴マップは、同じ解像度の第２特徴マップの第２特徴情報に基づいて得られたものである。上記方式によれば、異なる解像度の所定の枚数の第２特徴マップによって三次元再構築を行うことに有利であり、それにより三次元再構築の精細度の更なる向上に有利である。

一つの実施シーンにおいて、所定の数は、実際の応用状況に応じて設定されてもよい。例えば、２種の異なる解像度、３種の異なる解像度、４種の異なる解像度などを設定してもよい。ここで限定しない。なお、異なる解像度は、実際の応用状況に応じて設定されてもよい。例えば、６４０＊４８０と４８０＊３６０の２種の解像度を設定してもよく、１２８０＊９６０と６４０＊４８０の２種の解像度を設定してもよい。又は、６４０＊４８０、４８０＊３６０及び３６０＊２４０の３種の解像度を設定してもよく、１２８０＊９６０、６４０＊４８０及び４８０＊３６０の３種の解像度を設定してもよい。ここで限定しない。

別の実施シーンにおいて、上述したように、三次元再構築の効率を向上させるために、三次元再構築モデルを予め訓練してもよい。そして、該三次元再構築モデルは、特徴抽出ネットワークを含んでもよい。更に、該特徴抽出ネットワークに基づいて、若干の第１キー画像に対してそれぞれ特徴抽出を行い、異なる解像度の第２特徴マップを得ることができる。該特徴抽出ネットワークは、ＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ：特徴ピラミッドネットワーク）などを含んでもよいが、それらに限らない。ここで限定しない。

別の実施シーンにおいて、第１キー画像の第２特徴マップがＮ種の異なる解像度に対応するＮ枚の第２特徴マップを含む場合、第１空間も、それぞれＮ種の異なる解像度に対応するＮ個の第１空間を含み、且つ解像度が高いほど、第１空間におけるボクセルのサイズは小さくなる。例えば、第１キー画像の第２特徴マップが１２８０＊９６０と６４０＊４８０の２種の解像度の第２特徴マップを含む場合、第１空間も、解像度１２８０＊９６０に対応する第１空間と解像度６４０＊４８０に対応する第１空間を含み、且つ解像度１２８０＊９６０に対応する第１空間におけるボクセルのサイズは、解像度６４０＊４８０に対応する第１空間におけるボクセルのサイズよりも小さい。他の場合、このように類推してもよい。ここで一々列挙しない。いくつかの実施例において、第ｉ種の解像度に対応する第１空間におけるボクセルの第１特徴情報は、少なくとも２つのフレームの第１キー画像における第ｉ種の解像度の第２特徴マップにおける対応する第２特徴情報に基づいて得られてもよい。詳細なプロセスは、下記実施例を参照してもよい。ここで説明を詳細する。

また１つの実施シーンにおいて、第ｉ種の解像度に対応する第１空間におけるボクセルの幅は、下記式で計算されてもよい。

・・・・（１）

上記式（１）において、

は、第ｉ種の解像度に対応する第１空間におけるボクセルの幅を表し、ｓは、予め設定された基準ボクセルの幅を表し、実際の応用状況に応じて調整されてもよい。なお、説明すべきことは、ｉは、異なる解像度を低い順に応じて順序付けた後の第ｉ種の解像度である。依然として上記１２８０＊９６０、６４０＊４８０及び４８０＊３６０の３種の解像度を例として、低い順に応じて順序付けた後、それぞれ４８０＊３６０、６４０＊４８０、１２８０＊９６０であり、即ち、解像度４８０＊３６０に対応する第１空間のボクセルの幅を計算する時、ｉは１であり、解像度６４０＊４８０に対応する第１空間のボクセルの幅を計算する時、ｉは２であり、解像度１２８０＊９６０に対応する第１空間のボクセルの幅を計算する時、ｉは３である。他の場合、このように類推してもよい。ここで一々列挙しない。

ステップＳ１３において、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得る。

１つの実施シーンにおいて、第１特徴マップに基づいて、予測を行い、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得、且つ第１再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである。この上で、上記予測結果に対してスパース化（ｓｐａｒｓｉｆｙ）処理を行うことができ、第１空間における、確率が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第１再構築値に基づいて、今回の再構築の第１再構築結果を得ることができる。上記方式によれば、確率値が所定の条件を満たさないボクセルによる三次元再構築への干渉を除去することができ、三次元再構築の正確性の更なる向上に有利である。

１つの実施シーンにおいて、三次元再構築の効率を向上させるために、三次元再構築モデルを予め訓練してもよく、且つ該三次元再構築モデルは、予測ネットワークを含んでもよい。それにより第１特徴マップを予測ネットワークに入力し、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得ることができる。予測ネットワークは、ＭＬＰ（Ｍｕｌｔｉ－ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ：多層パーセプトロン）などを含んでもよいが、それらに限らない。ここで限定しない。

別の実施シーンにおいて、第１再構築値は、ＴＳＤＦ（ＴｒｕｎｃａｔｅｄＳｉｇｎｅｄＤｉｓｔａｎｃｅＦｕｎｃｔｉｏｎ：トランケーテッド符号付き距離関数）で表されてもよい。この場合、所定の数値範囲は、－１～１であってもよい。説明しやすくするために、ｊ番目のボクセルの第１再構築値を

で表してもよい。説明すべきことは、

が０よりも大きく、且つ１よりも小さい場合、ｊ番目のボクセルが関連物体表面の前の切断距離

内に位置することを表し、

が０よりも小さく、且つ－１よりも大きい場合、ｊ番目のボクセルが関連物体表面の後の切断距離

内に位置することを表す。

また１つの実施シーンにおいて、第１再構築値が所定の数値範囲内にある確率値は、第１再構築値が所定の数値範囲内にある可能性と見なされてもよく、且つ確率値が高いほど、第１再構築値が所定の数値範囲内にある可能性は高くなる。逆に、確率値が低いほど、第１再構築値が所定の数値範囲内にある可能性は低くなる。

また１つの実施シーンにおいて、所定の条件は、確率値が所定の確率閾値よりも大きいことを含むように設定されてもよい。所定の確率閾値は、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築の正確性に対して求められる要件が高い場合、所定の確率閾値は、大きく設定されてもよく、例えば、０．９、０．９５などに設定されてもよい。又は、三次元再構築の正確性に対して求められる要件が相対的に低い場合、所定の確率閾値は、小さく設定されてもよく、例えば、０．８、０．８５などに設定されてもよい。ここで限定しない。

また１つの実施シーンにおいて、第１空間における、確率値が所定の条件を満たすボクセルを選択した後、選択されたボクセル及びその第１再構築値全体を今回の再構築の第１再構築結果としてもよい。

また１つの実施シーンにおいて、後続で、再構築値に基づいて、再構築待ちターゲットの表面を再構築することを容易にするために、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面であってもよい。再構築待ちターゲットがリビングルームであることを例として、リビングルームにおける床板に最も近いボクセルにとって、関連物体表面は、床板であってもよい。リビングルームにおけるソファーに最も近いボクセルにとって、関連物体表面は、ソファーであってもよい。他の場合、このように類推してもよい。ここで一々列挙しない。上記方式によれば、三次元再構築の正確性の更なる向上に有利である。

別の実施シーンにおいて、上述したように、各フレームの第１キー画像の第２特徴マップは、異なる解像度に対応する所定の枚数の第２特徴マップを含んでもよい。この場合、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とし、この上で前回選択された解像度に対応する第１再構築結果に対してアップサンプリング（Ｕｐｓａｍｐｌｅ）を行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップを融合し、現在解像度に対応する融合特徴マップを得、この上で融合特徴マップに基づいて、現在解像度に対応する第１再構築結果を得る。更に、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するか又は現在解像度が最高解像度である場合、現在解像度に対応する第１再構築結果を今回の再構築の最終的な第１再構築結果とする。上記方式によれば、「解像度が低い」第１特徴マップから「解像度が高い」第１特徴までに基づいて、三次元再構築を次第に行うことができ、それにより「粗から細までの」三次元再構築の実現に有利であり、更に、三次元再構築の精細度の更なる向上に有利である。

１つの実施シーンにおいて、最近傍補間などのアップサンプリング方式で、第１再構築結果に対してアップサンプリングを行ってもよい。説明すべきことは、後続で、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップを融合することを容易にするために、ボクセルの幅が上記式（１）で計算された場合、即ち、第ｉ種の解像度に対応する第１空間におけるボクセルの幅が第ｉ＋１種の解像度に対応する第１空間におけるボクセルの幅の２倍である場合、アップサンプリングされたボクセルの幅は、元の幅の半分であり、それによりアップサンプリングされた第１再構築結果におけるボクセルの幅を現在解像度に対応する第１空間におけるボクセルの幅と同じであるようにすることができる。

別の実施シーンにおいて、各ボクセルについて、アップサンプリングされた第１再構築結果におけるｊ番目のボクセルの第１再構築値と現在解像度に対応する第１空間におけるｊ番目のボクセルの第１特徴情報を連結（Ｃｏｎｃａｔｅｎａｔｅ）することによって、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップとの融合を実現させる。例えば、現在解像度に対応する第１空間における各ボクセルの第１特徴情報は、次元ｄの行列で表されてもよく、アップサンプリングされた第１再構築結果における各ボクセルの第１再構築値は、次元１の行列と見なされてもよいため、両者を連結した後に得られた融合特徴マップは、次元ｄ＋１の行列と見なされてもよく、更に、融合特徴マップにおける各ボクセルは、ｄ＋１次元の行列で表されてもよい。

また１つの実施シーンにおいて、融合特徴マップに基づいて、現在解像度に対応する第１再構築結果を得る詳細なプロセスは、第１特徴マップに基づいて今回の再構築の第１再構築結果を得ることに関わる記述を参照してもよい。ここで説明を省略する。

また１つの実施シーンにおいて、図３を参照すると、図３は、本願の実施例による三次元再構築方法の一実施例のプロセスの概略図である。図３に示すように、再構築待ちターゲットに対して撮影された画像シーケンスから、若干の第１キー画像を選択し、特徴抽出ネットワーク（例えば、上述したＦＰＮ）によって特徴抽出を行った後、各フレームの第１キー画像に対して、３種の異なる解像度の第２特徴マップを抽出により得る。これら３種の異なる解像度を低い順に応じて順序付けた後、それぞれ、解像度１、解像度２及び解像度３と記してもよい。解像度１に対応する第１空間は、第１空間１と記してもよく、解像度２に対応する第１空間は、第１空間２と記してもよく、解像度３に対応する第１空間は、第１空間３と記してもよい。各種の解像度について、この種の解像度に対応する第１空間の各ボクセルの、この種の解像度の第２特徴マップにおける対応する第２特徴情報に基づいて、この種の解像度に対応する第１空間の第１特徴マップを得ることができる。説明しやすくするために、今回の再構築（即第ｔ時間ステップ）の第１空間１の第１特徴マップを

と記してもよく、第１空間２の第１特徴マップを

と記してもよく、第１空間３の第１特徴マップを

と記してもよい。解像度の低い順に応じて、まず解像度１を現在解像度として選択し、前回選択された解像度に対応する第１再構築結果に対してアップサンプリングを行う。解像度１が初回選択された解像度であるため、前回選択された解像度に対応する第１再構築結果が存在しない。それにより直接的に、ＭＬＰなどのような予測ネットワークに基づいて、現在解像度に対応する第１特徴マップ

に対して予測を行い、第１空間１における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得ることができる。説明しやすくするために、

と記してもよい。更に、

に対して、スパース化（即ち、図３におけるＳ）処理を行い、第１再構築結果を得る。現在解像度が最高解像度ではないため、解像度２を現在解像度とし、前回選択された解像度１に対応する第１再構築結果に対してアップサンプリング（即ち、図３におけるＵ）を行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップ

に対して連結（即ち、図３におけるＣ）処理を行い、解像度２に対応する融合特徴マップを得ることができる。それによりＭＬＰなどのような予測ネットワークに基づいて、融合特徴マップに対して予測を行い、第１空間２における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得る。説明しやすくするために、

と記してもよく、更に、

に対してスパース化（即ち、図３におけるＳ）処理を行い、第１再構築結果を得る。現在解像度が依然として最高解像度ではないため、解像度３を現在解像度とし、前回選択された解像度２に対応する第１再構築結果に対してアップサンプリング（即ち、図３におけるＵ）を行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップ

に対して連結（即ち、図３におけるＣ）処理を行い、解像度３に対応する融合特徴マップを得ることができる。それによりＭＬＰなどのような予測ネットワークに基づいて、融合特徴マップに対して予測を行い、第１空間３における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得る。説明しやすくするために、

と記してもよく、更に、

に対してスパース化（即ち、図３におけるＳ）処理を行い、第１再構築結果を得る。現在解像度が最高解像度であるため、現在解像度に対応する第１再構築結果を今回の再構築の最終的な第１再構築結果とすることができる。説明しやすくするために、今回の再構築の最終的な第１再構築結果を

と記してもよい。他の場合、このように類推してもよい。ここで一々列挙しない。

ステップＳ１４において、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新する。

１つの実施シーンにおいて、上述したように、第１再構築結果は、例えば、第１空間におけるボクセルの第１再構築値を含み、同様に、第２再構築結果は、第２空間におけるボクセルの第２再構築値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、且つ第１再構築値と第２再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである。例えば、上述した、第１再構築値に関わる説明を参照してもよい。ここで説明を省略する。この上で第１空間におけるボクセルの第１再構築値に基づいて、第２空間における対応するボクセルの第２再構築値を更新することができる。上記方式によれば、三次元再構築プロセスにおいて、今回の再構築プロセスにおける第１空間におけるボクセルの第１再構築値に基づいて、この前の再構築により得られた第２再構築結果を更新することに有利であり、更に、再構築プロセスにおいて第２再構築結果を絶え間なく完全なものにして、三次元再構築の正確性を向上させることに有利である。

１つの実施シーンにおいて、今回の再構築が再構築待ちターゲットに対する三次元再構築プロセスにおける初回の再構築である場合、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新するステップを実行しなくてもよい。

別の実施シーンにおいて、第２空間における、第１空間に対応する部分のボクセルの第２再構築値を今回の再構築の第１空間におけるボクセルの第１再構築値に置き換えてもよい。引き続き図３を参照すると、上述したように、説明しやすくするために、今回の再構築の最終的な第１再構築結果を

と記し、この前の再構築により得られた第２再構築結果を

と記してもよい。第１空間におけるボクセルの第１再構築値に基づいて、第２空間における対応するボクセルの第２再構築値を更新することで、更新された第２再構築結果を得ることができる。説明しやすく、

と記してもよい。

また１つの実施シーンにおいて、今回の再構築の後に、更なる再構築を必要とする場合、上記ステップＳ１１及び後続のステップを再実行してもよい。それにより複数回の再構築により、第２再構築結果を絶え間なく完全なものにする。なお、今回の再構築の後に、更なる再構築を必要としない場合、更新された第２再構築結果

を再構築待ちターゲットの最終的な再構築結果と記してもよい。

別の実施シーンにおいて、図４を参照すると、図４は、本願の実施例による三次元再構築方法と他の三次元再構築方法の効果の概略図である。図４における４１と４２は、他の再構築方法による再構築により得られた再構築結果を表し、図４における４３と４４は、本願の実施例の三次元再構築方法による再構築により得られた再構築結果を表す。図４における４１と４２に示すように、他の三次元再構築方法による再構築により得られた再構築結果において、矩形枠により囲まれた壁部分に明らかな分散と階層化現象が出現するが、図４における４３と４４では、本願の実施例の三次元再構築方法による再構築により得られた再構築結果は、矩形枠により囲まれた壁部分に明らかな分散と階層化減少が出現しておらず、且つ好ましい平滑さを有する。

図５を参照すると、図５は、図１ＡにおけるステップＳ１２の一実施例のフローチャートである。上述した実施例に記載したように、各フレームの第１キー画像に対してそれぞれ特徴抽出を行い、第１キー画像の第２特徴マップを得ることによって、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得ることができる。本願の実施例は、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１特徴マップを得ることのフローチャートである。以下のステップを含んでもよい。

ステップＳ５１において、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出する。

本願の実施例において、第１空間における各ボクセルに対して、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出することができる。

１つの実施シーンにおいて、第１キー画像のカメラ方位姿勢パラメータ及びカメラ内部パラメータに基づいて、第２特徴マップにおける各画素点に対して逆投影を行い、第１空間における、第２特徴マップにおける画素点に対応するボクセルを決定することができる。この上で第１空間における各ボクセルに対して、各フレームの第１キー画像の第２特徴マップから、該ボクセルに対応する画素点の第２特徴情報を抽出することができる。

別の実施シーンにおいて、図６を参照すると、図６は、第１特徴マップの取得の一実施例の状態概略図である。図６に示すように、説明しやすくするために、図６においても「二次元視野角」で第１特徴マップの取得の詳細なプロセスを説明する。図６に示すように、第２特徴マップにおける画素点に対して逆投影を行うことで、第１空間における、各画素点に対応するボクセルを決定することができる。説明すべきことは、図６における異なる色のブロックは、異なる第２特徴情報に対応することを表す。

ステップＳ５２において、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得る。

１つの実施シーンにおいて、引き続き図６を参照すると、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報の平均値をボクセルの第１特徴情報としてもよい。例えば、第１空間におけるｋ番目のボクセルは、１番目の第１キー画像の第２特徴マップにおいて、ｉ行目ｊ列目の画素点に対応するが、２番目の第１キー画像の第２特徴マップにおいて、ｍ行目ｎ列目の画素点に対応する。この上で１番目の第１キー画像の第２特徴マップにおけるｉ行目ｊ列目の画素点の第２特徴情報と２番目の第１キー画像の第２特徴マップにおけるｍ行目ｎ列目の画素点の第２特徴情報の平均値を第１空間におけるｋ番目のボクセルの第１特徴情報としてもよい。他の場合、このように類推してもよい。ここで一々列挙しない。

別の実施シーンにおいて、更に、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報の重み付け結果をボクセルの第１特徴情報としてもよい。上記重み付け結果は、加重加算、加重平均化などを含んでもよいが、それらに限らない。ここで限定しない。

また１つの実施シーンにおいて、上述した実施例に記載したように、各フレームの第１キー画像の第２特徴マップから、いずれも、ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第１特徴情報とする。前記実施例における関連説明を参照してもよい。ここで説明を省略する。

ステップＳ５３において、第１空間の各ボクセルの第１特徴情報に基づいて、第１空間の第１特徴マップを得る。

第１空間における各画素点の第１特徴情報を得た後、第１空間における各ボクセルの第１特徴情報全体を第１特徴マップとしてもよい。

前記実施例と異なっており、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出し、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得、第１空間の各ボクセルの第１特徴情報に基づいて、第１空間の第１特徴マップを得るため、第１空間における各ボクセルにとって、対応する各フレームの第１キー画像の第２特徴が融合されており、第１空間の第１特徴マップの正確性の更なる向上に有利である。

図７を参照すると、図７は、図１ＡにおけるステップＳ１３の一実施例のフローチャートである。本願の実施例において、第１再構築結果は、三次元再構築モデルにより得られたものである。以下のステップを含んでもよい。

ステップＳ７１において、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得する。

本願の実施例において、第１履歴隠し層状態は、第２空間におけるボクセルに対応する状態値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間である。説明すべきことは、今回の再構築が初回の再構築である場合、第２空間は、今回の再構築の第１空間であり、且つこの場合、第１履歴隠し層状態に含まれる第２空間におけるボクセルに対応する状態値を所定の状態値に設定してもよい（例えば、所定の状態値を０に設定する）。

ステップＳ７２において、第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とする。

図８を参照すると、図８は、今回の隠し層状態の取得の一実施例の状態概略図である。説明すべきことは、説明しやすくするために、上記図２と図６と同様に、図８は、「二次元視野角」で記述した、今回の隠し層状態の取得の状態概略図である。図８に示すように、説明しやすくするために、第１履歴隠し層状態を

と記してもよく、第１履歴隠し層状態

における異なるグレースケールのブロックは、ボクセルの状態値を表し、無色のブロックは、対応するボクセルが状態値を有しないことを表し、なお、第１履歴隠し層状態

における矩形枠は、第１空間を表す。第１履歴隠し層状態

から、第１空間のボクセルに対応する状態値を抽出することで、第２履歴隠し層状態

を得ることができる。他の場合、このように類推してもよい。ここで一々列挙しない。

ステップＳ７３において、融合ネットワークに基づいて、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行する。

１つの実施シーンにおいて、第１特徴マップ、第２履歴隠し層状態を融合ネットワークに入力し、今回の隠し層状態を出力することができる。融合ネットワークは、ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ：ゲート再帰型ユニット）を含むが、これに限らないように設定されてもよい。ここで限定しない。

別の実施シーンにおいて、引き続き図８を参照すると、第２履歴隠し層状態

を更新する前に、更に、第１特徴マップ

に対して幾何学的情報抽出を行い、幾何学的特徴マップ

を得ることができ、且つ幾何学的特徴マップは、ボクセルの幾何学的情報を含む。それにより、幾何学的特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることができる。上記方式によれば、抽出されたボクセルの幾何学的情報を基に、今回再構築された第１空間の第２履歴隠し層状態を更新することができ、三次元再構築の正確性の向上に有利である。

一つの実施シーンにおいて、三次元スパース畳み込み、ｐｏｉｎｔｎｅｔなどのネットワークにより、第１特徴マップ

に対して幾何学的情報抽出を行い、幾何学的特徴マップ

を得ることができる。実際の応用の必要に応じて設定してもよい。ここで限定しない。

別の実施シーンにおいて、融合ネットワークがゲート再帰型ユニットＧＲＵを含むことを例として、図８を参照すると、ＧＲＵは、幾何学的特徴マップ

と第２履歴隠し層状態

を融合することで、今回の隠し層状態

を最終的に得ることができる。説明しやすくするために、ゲート再帰型ユニットＧＲＵの更新ゲートを

と記し、リセットゲートを

と記してもよく、以下で表されてもよい。

・・・・（２）

・・・・（３）

上記式（２）と式（３）において、ｓｐａｒｓｅｃｏｎｖは、スパース畳み込みを表し、

は、スパース畳み込みのネットワーク重みを表し、

は、活性化関数（例えば、ｓｉｇｍｏｉｄ）を表す。

この上で、更新ゲート

とリセットゲート

は、幾何学的特徴マップ

からどれほどの情報を導入して融合するか、第２履歴隠し層状態

からどれほどの情報を導入して融合するかを決定することができる。以下で表されてもよい。

・・・・（４）
・・・・（５）

上記式（４）と式（５）において、ｓｐａｒｓｅｃｏｎｖは、スパース畳み込みを表し、

は、スパース畳み込みのネットワーク重みを表し、ｔａｎｈは、活性化関数を表す。これから分かるように、１つのデータドライバ方式として、ＧＲＵは、三次元再構築プロセスにおいて、選択的なアテンションメカニズムを提供することができる。

ステップＳ７４において、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得る。

１つの実施シーンにおいて、上述した実施例に記載したように、三次元モデルは、予測ネットワーク（例えば、ＭＬＰ）を更に含んでもよい。この上で、予測ネットワークに基づいて、今回の隠し層状態

に対して予測を行い、第１再構築結果を得ることができる。

１つの実施シーンにおいて、予測ネットワークに基づいて、今回の隠し層状態

に対して予測を行うことで、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得ることができ、且つ第１再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、この上で、第１空間における、確率値が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第１再構築値に基づいて、今回の再構築の第１再構築結果を得ることができる。詳細は、上述した実施例における関連説明を参照してもよい。ここで説明を省略する。

別の実施シーンにおいて、引き続き図８を参照すると、今回の隠し層状態

を得た後、今回の隠し層状態

における状態値に基づいて、第１履歴隠し層状態

における該当するボクセルに対応する状態値を更新し、更新された第１履歴隠し層状態

を得、次回の再構築に供することができる。上記方式によれば、更新により今回の隠し層状態を得た後、更に、第２空間の第１履歴隠し層状態を更新することができ、今回の再構築の上で第２空間の第１履歴隠し層状態の正確性の更なる向上に有利であり、それにより三次元再構築の正確性の向上に有利である。

１つの実施シーンにおいて、第１履歴隠し層状態

における第１空間におけるボクセルの状態値を直接的に今回の隠し層状態

における対応するボクセルの状態値に置き換えてもよい。

また１つの実施シーンにおいて、図９を参照すると、図９は、本願の実施例による三次元再構築方法の別の実施例のプロセスの概略図である。図３に示される三次元再構築プロセスと異なっており、本願の実施例に記載したように、図９に示される三次元再構築プロセスにおいて、この前の再構築により得られた第１履歴隠し層状態（即ち、図９におけるｇｌｏｂａｌｈｉｄｄｅｎｓｔａｔｅ）を導入した。即ち、上述した実施例に記載の三次元再構築プロセスにおいて、ＭＬＰなどのような予測ネットワークに基づいて、現在解像度に対応する第１特徴マップ

に対して予測を行うたびに、以下のステップを含んでもよい。この前の再構築により得られた、現在解像度に対応する第１履歴隠し層状態を取得し、現在解像度に対応する第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とし、ＧＲＵのような融合ネットワークに基づいて、現在解像度に対応する第１特徴マップ

に基づいて、第２履歴隠し層状態における状態値を更新し、現在解像度に対応する今回の隠し層状態を得ることを実行し、この上で更にＭＬＰなどのような予測ネットワークに基づいて、現在解像度に対応する今回の隠し層状態に対して予測を行い、現在解像度に対応する第１再構築結果を得る。本願の実施例は、前記実施例との相違点をのみ説明する。他のプロセスは、上述した実施例における関連説明を参照してもよい。ここで説明を省略する。

前記実施例と異なっており、第１再構築結果を、三次元再構築モデルによって得られたものであるように設定し、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得し、且つ第１履歴隠し層状態は、第２空間におけるボクセルに対応する状態値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、この上で第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とすることによって、融合ネットワークに基づいて、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行し、更に、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得るため、各回の再構築プロセスにおいて、いずれも、この前の再構築によって得られた第１履歴隠し層状態を参照することができ、今回の再構築とこの前の再構築との一致性の向上に有利であり、それにより今回の再構築結果とこの前の再構築結果の間の階層化又は分散の発生確率の低減に有利であり、更に、三次元再構築結果の平滑さの更なる向上に有利である。

いくつかの実施例において、上記いずれか１つの三次元再構築方法の実施例における三次元再構築結果は、三次元再構築モデルによる再構築により得られたものである。サンプルターゲットに対して撮影を行うことで得られた若干組のサンプル画像を予め収集してもよい。各組のサンプル画像は、少なくとも２つのフレームのサンプルキー画像を含み、且つ各組のサンプル画像に含まれる少なくとも２つのフレームのサンプルキー画像の視錐は、第１サンプル空間により取り囲まれ、第１サンプル空間は、若干のボクセルを含む。前記実施例における関連説明を参照してもよい。ここで説明を省略する。前記実施例と異なっており、各組のサンプル画像に、第１サンプル空間における各ボクセルの第１実際再構築値と第１実際再構築値が所定の数値範囲内にある実際の確率値がラベリングされており、且つ第１実際再構築値は、ボクセルとサンプルターゲットにおける関連物体表面との距離を表すためのものであり、第１実際再構築値は、ＴＳＤＦで表されてもよい。関連物体表面は、前記実施例における関連説明を参照してもよい。ここで説明を省略する。なお、第１実際再構築値が所定の数値範囲内にある場合、第１実際再構築値に対応する実際確率値は、１とラベリングされてもよい。第１実際再構築値が所定の数値範囲内ではない場合、第１実際再構築値に対応する実際確率値は、０とラベリングされてもよい。この上で、１組のサンプル画像に含まれる少なくとも２つのフレームのサンプルキー画像を三次元再構築モデルの特徴抽出ネットワーク（例えば、ＦＰＮ）に入力し、第１サンプル空間の第１サンプル特徴マップを得ることができ、且つ第１サンプル特徴マップは、第１サンプル空間におけるボクセルの第１サンプル特徴情報を含む。それにより、第１サンプル特徴マップを三次元再構築モデルの予測ネットワークに入力し、第１サンプル再構築結果を得ることができる。且つ第１再構築結果は、第１サンプル空間における各ボクセルの第１サンプル再構築値と第１サンプル再構築値が所定の数値範囲内にあるサンプル確率値を含み、更に、第１サンプル空間における各ボクセルの第１サンプル再構築値と第１実際再構築値との差異、及び第１サンプル空間における各ボクセルのサンプル確率値と実際確率値との差異に基づいて、三次元再構築モデルのネットワークパラメータを調整することができる。

１つの実施例において、二分類クロスエントロピー損失（ｂｉｎａｒｙｃｒｏｓｓ－ｅｎｔｒｏｐｙ：ＢＣＥ）関数に基づいて、サンプル確率値と実際確率値との第１損失値を計算し、Ｌ１損失関数に基づいて、第１サンプル再構築値と第１実際再構築値との第２損失値を計算することができ、それにより第１損失値と第２損失値に基づいて、三次元再構築モデルのネットワークパラメータを調整することができる。

別の実施シーンにおいて、前記実施例と同様に、第１サンプル再構築結果を予測するプロセスにおいて、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１サンプル履歴隠し層状態を取得し、且つ第１サンプル履歴隠し層状態は、第２サンプル空間におけるボクセルに対応するサンプル状態値を含み、第２サンプル空間は、この前に再構築された若干組のサンプル画像の視錐を取り囲む総空間であり、この上で第１サンプル履歴隠し層状態から、第１サンプル空間のボクセルに対応するサンプル状態値を抽出して第２サンプル履歴隠し層状態とすることによって、融合ネットワークに基づいて、第１サンプル特徴マップに基づいて、第２サンプル履歴隠し層状態におけるサンプル状態値を更新し、今回のサンプル隠し層状態を得ることを実行し、更に、予測ネットワークを用いて、今回のサンプル隠し層状態に対して予測を行い、第１サンプル再構築結果を得ることができる。前記実施例における関連説明を参照してもよい。ここで説明を省略する。

図１０を参照すると、図１０は、本願の実施例による三次元再構築装置１００の一実施例のフレームワーク概略図である。三次元再構築装置１００は、キー画像取得モジュール１０１と、第１空間決定モジュール１０２と、第１特徴取得モジュール１０３と、再構築結果取得モジュール１０４と、再構築結果更新モジュール１０５と、を備え、キー画像取得モジュール１０１は、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得するように構成され、第１空間決定モジュール１０２は、少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定するように構成され、ここで、第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、第１特徴取得モジュール１０３は、少なくとも２つのフレームの第１キー画像における画像情報に基づいて、第１空間の第１特徴マップを得るように構成され、ここで、第１特徴マップは、第１空間におけるボクセルの第１特徴情報を含み、再構築結果取得モジュール１０４は、第１特徴マップに基づいて、今回の再構築の第１再構築結果を得るように構成され、再構築結果更新モジュール１０５は、今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新するように構成される。

いくつかの実施例において、三次元再構築装置１００は、各フレームの第１キー画像に対してそれぞれ特徴抽出を行い、第１キー画像の第２特徴マップを得るように構成される第２特徴取得モジュールを更に備え、第１特徴取得モジュール１０３は、第１空間の各ボクセルの、第２特徴マップにおける対応する第２特徴情報に基づいて、第１空間の第１特徴マップを得るように構成される。

いくつかの実施例において、第１特徴取得モジュール１０３は、各フレームの第１キー画像の第２特徴マップから、ボクセルに対応する第２特徴情報をそれぞれ抽出するように構成される特徴情報抽出サブモジュールを備え、第１特徴取得モジュール１０３は、ボクセルにそれぞれ対応する少なくとも２つのフレームの第１キー画像の第２特徴情報を融合し、ボクセルの第１特徴情報を得るように構成される特徴情報融合サブモジュールを備え、第１特徴取得モジュール１０３は、第１空間の各ボクセルの第１特徴情報に基づいて、第１空間の第１特徴マップを得るように構成される第１特徴取得サブモジュールを備える。

いくつかの実施例において、特徴情報融合サブモジュールは、ボクセルに対応する各フレームの第１キー画像の第２特徴情報の平均値をボクセルの第１特徴情報とするように構成される。

いくつかの実施例において、第１特徴取得モジュール１０３は、各フレームの第１キー画像の第２特徴マップから、いずれも、ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第１特徴情報とするように構成される特徴情報設定サブモジュールを更に備える。

いくつかの実施例において、各フレームの第１キー画像の第２特徴マップは、いずれも、異なる解像度に対応する所定の枚数の第２特徴マップを含み、第１空間は、異なる解像度に対応する所定の数の第１空間を含み、解像度が高いほど、第１空間におけるボクセルのサイズが小さくなり、第１特徴マップは、異なる解像度に対応する所定の枚数の第１特徴マップを含み、各枚の第１特徴マップは、同じ解像度の第２特徴マップの第２特徴情報に基づいて得られたものである。

いくつかの実施例において、再構築結果取得モジュール１０４は、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とするように構成される解像度選択サブモジュールを備え、再構築結果取得モジュール１０４は、前回選択された解像度に対応する第１再構築結果に対してアップサンプリングを行い、アップサンプリングされた第１再構築結果と現在解像度に対応する第１特徴マップを融合し、現在解像度に対応する融合特徴マップを得るように構成される特徴マップ更新サブモジュールを備え、再構築結果取得モジュール１０４は、融合特徴マップに基づいて、現在解像度に対応する第１再構築結果を得るように構成される再構築結果取得サブモジュールを備え、再構築結果取得モジュール１０４は、現在解像度が最高解像度ではない場合、前記解像度選択サブモジュール、特徴マップ更新サブモジュール及び再構築結果取得サブモジュールを結び付けて、解像度の低い順に応じて、１つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するように構成される繰り返し実行サブモジュールを備え、再構築結果取得モジュール１０４は、現在解像度が最高解像度である場合、現在解像度に対応する第１再構築結果を今回の再構築の最終的な第１再構築結果とするように構成される第１結果決定サブモジュールを備える。

いくつかの実施例において、再構築結果取得モジュール１０４は、第１特徴マップに基づいて、予測を行い、第１空間における各ボクセルの第１再構築値と第１再構築値が所定の数値範囲内にある確率値を得るように構成される結果予測サブモジュールであって、ここで、第１再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである、結果予測サブモジュールを備え、再構築結果取得モジュール１０４は、第１空間における、確率値が所定の条件を満たすボクセルを選択するように構成されるボクセル選択サブモジュールを備え、再構築結果取得モジュール１０４は、選択されたボクセルの第１再構築値に基づいて、今回の再構築の第１再構築結果を得るように構成される第２結果決定サブモジュールを備える。

いくつかの実施例において、第１再構築結果は、第１空間におけるボクセルの第１再構築値を含み、第２再構築結果は、第２空間におけるボクセルの第２再構築値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間であり、第１再構築値と第２再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、再構築結果更新モジュール１０５は、第１空間におけるボクセルの第１再構築値に基づいて、第２空間における対応するボクセルの第２再構築値を更新するように構成される。

いくつかの実施例において、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面である。

いくつかの実施例において、第１再構築結果は、三次元再構築モデルによって得られたものであり、再構築結果取得モジュール１０４は、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得するように構成される隠し層状態取得サブモジュールであって、ここで、第１履歴隠し層状態は、第２空間におけるボクセルに対応する状態値を含み、第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間である、隠し層状態取得サブモジュールを備え、再構築結果取得モジュール１０４は、第１履歴隠し層状態から、第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とするように構成される隠し層状態抽出サブモジュールを備え、再構築結果取得モジュール１０４は、融合ネットワークに基づいて、第１特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行するように構成される隠し層状態更新サブモジュールを備え、再構築結果取得モジュール１０４は、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第１再構築結果を得るように構成される再構築結果予測サブモジュールを備える。

いくつかの実施例において、今回の再構築が初回の再構築である場合、第１履歴隠し層状態における状態値は、所定の状態値である。

いくつかの実施例において、融合ネットワークは、ゲート再帰型ユニットを含む。

いくつかの実施例において、三次元再構築モデルは、予測ネットワークを更に含み、再構築結果予測サブモジュールは、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第１再構築結果を得るように構成される。

いくつかの実施例において、再構築結果取得モジュール１０４は、第１特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得るように構成される幾何学的特徴抽出サブモジュールであって、ここで、幾何学的特徴マップは、ボクセルの幾何学的情報を含む、幾何学的特徴抽出サブモジュールを備え、隠し層状態更新サブモジュールは、幾何学的特徴マップに基づいて、第２履歴隠し層状態における状態値を更新し、今回の隠し層状態を得るように構成される。

いくつかの実施例において、再構築結果取得モジュール１０４は、今回の隠し層状態における状態値に基づいて、第１履歴隠し層状態における該当するボクセルに対応する状態値を更新するように構成される履歴状態更新サブモジュールを更に備える。

いくつかの実施例において、再構築ターゲットを撮影するプロセスにおいて、少なくとも２つのフレームの第１キー画像を取得し、第１キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第１キー画像は、隣接する第１キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第１キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも１つを満たす。

図１１を参照すると、図１１は、本願の実施例による電子機器１１０の一実施例のフレームワーク概略図である。電子機器１１０は、互いに結合されるメモリ１１１とプロセッサ１１２を備え、プロセッサ１１２は、メモリ１１１に記憶されているプログラム命令を実行し、上記いずれか１つの三次元再構築方法のステップを実施する。１つの実施シーンにおいて、電子機器１１０は、マイクロコンピュータ、サーバを含んでもよいが、それらに限らない。なお、電子機器１１０は、ノートパソコン、タブレットあんどの携帯機器を更に含んでもよい。ここで限定しない。

プロセッサ１１２は、その自体及びメモリ１１１を制御して、上記いずれか１つの三次元再構築方法の実施例におけるステップを実現させるように構成される。プロセッサ１１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央演算装置）と呼ばれてもよい。プロセッサ５２は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ１１２は、汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ：ＤＳＰ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、該プロセッサは、如何なる従来のプロセッサなどであってもよい。なお、プロセッサ１１２は、集積回路チップにより共同で実現してもよい。

上記方案において、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。

図１２を参照すると、図１２は、本願の実施例によるコンピュータ可読記憶媒体１２０の一実施例のフレームワーク概略図である。コンピュータ可読記憶媒体１２０に、プロセッサにより実行可能なプログラム命令１２１が記憶されており、プログラム命令１２１は、プロセッサに上記いずれか１つの三次元再構築方法の実施例のステップを実現させるためのものである。

幾つかの実施例において、本願の実施例により提供される装置が有する機能又は含んでいるモジュールは、上記方法の実施例に記載の方法を実行するように構成されてもよく、その具体的な実現は、上記方法の実施例の記述を参照することができ、簡潔のために、ここで説明を省略する。

上記各実施例に対する説明は、各実施例間の相違を強調し、その同じまたは類似な所は相互に参照されることができ、簡潔のために、ここで説明を省略する。

本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。以上に記載した装置の実施例はただ例示的なものであり、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。また例えば、複数のユニット又はコンポーネントを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した前記ユニットは、物理的に別個のものであってもよく、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットを選択して本実施例の方策の目的を実現することができる。

また、本願の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、２つ又は２つ以上のユニットが１つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。

集積したユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、１台のコンピュータ機器（パソコン、サーバ、又はネットワーク装置など）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、ＵＳＢメモリ、リムーバブルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。

本願の実施例は、三次元再構築方法、装置、機器及び記憶媒体を提供する。ここで、三次元再構築方法は、今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、前記少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定することであって、ここで、前記第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、前記少なくとも２つのフレームの第１キー画像における画像情報に基づいて、前記第１空間の第１特徴マップを得ることであって、ここで、前記第１特徴マップは、前記第１空間におけるボクセルの第１特徴情報を含む、ことと、前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることと、前記今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新することと、を含む。

Claims

電子機器により実行される三次元再構築方法であって、
今回の再構築のための少なくとも２つのフレームの第１キー画像を取得し、前記少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定することであって、前記第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、
前記少なくとも２つのフレームの第１キー画像における画像情報に基づいて、前記第１空間の第１特徴マップを得ることであって、前記第１特徴マップは、前記第１空間におけるボクセルの第１特徴情報を含む、ことと、
前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることと、
前記今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新することと、を含み、
前記第１再構築結果は、三次元再構築モデルによって得られたものであり、前述した前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、
前記三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得することであって、前記第１履歴隠し層状態は、第２空間における前記ボクセルに対応する状態値を含み、前記第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間である、ことと、
前記第１履歴隠し層状態から、前記第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とすることと、
前記融合ネットワークにおいて、前記第１特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることと、
前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、前記第１再構築結果を得ることと、を含む、方法。
前記今回の再構築のための少なくとも２つのフレームの第１キー画像を取得した後、前記方法は、
各フレームの前記第１キー画像に対してそれぞれ特徴抽出を行い、各フレームの前記第１キー画像の第２特徴マップを得ることを含み、
前記少なくとも２つのフレームの第１キー画像における画像情報に基づいて、前記第１空間の第１特徴マップを得ることは、
前記第１空間の各ボクセルの、前記第２特徴マップにおける対応する第２特徴情報に基づいて、前記第１空間の前記第１特徴マップを得ることを含むことを特徴とする
請求項１に記載の方法。
前記第１空間の各ボクセルの、前記第２特徴マップにおける対応する第２特徴情報に基づいて、前記第１空間の前記第１特徴マップを得ることは、
各フレームの前記第１キー画像の前記第２特徴マップから、前記ボクセルに対応する第２特徴情報をそれぞれ抽出することと、
前記ボクセルにそれぞれ対応する前記少なくとも２つのフレームの第１キー画像の前記第２特徴情報を融合し、前記ボクセルの第１特徴情報を得ることと、
前記第１空間の各ボクセルの前記第１特徴情報に基づいて、前記第１空間の前記第１特徴マップを得ることと、を含むことを特徴とする
請求項２に記載の方法。
前記ボクセルにそれぞれ対応する前記少なくとも２つのフレームの第１キー画像の前記第２特徴情報を融合し、前記ボクセルの第１特徴情報を得ることは、
前記ボクセルに対応する前記少なくとも２つのフレームの第１キー画像の第２特徴情報の平均値を前記ボクセルの第１特徴情報とすることと、
各フレームの前記第１キー画像の第２特徴マップから、いずれも、前記ボクセルに対応する第２特徴情報が抽出されていない場合、所定の特徴情報を前記ボクセルの第１特徴情報とすることと、のうちの少なくとも１つを含むことを特徴とする
請求項３に記載の方法。
各フレームの前記第１キー画像の第２特徴マップは、異なる解像度に対応する所定の枚数の第２特徴マップを含み、前記第１空間は、異なる解像度に対応する所定の数の第１空間を含み、前記第１特徴マップは、異なる前記解像度に対応する所定の枚数の第１特徴マップを含み、各枚の前記第１特徴マップは、同じ前記解像度の前記第２特徴マップの第２特徴情報に基づいて得られたものであり、
前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、
前記解像度の低い順に応じて、１つの前記解像度を順に選択して現在解像度とすることと、
前回選択された解像度に対応する第１再構築結果に対してアップサンプリングを行い、アップサンプリングされた第１再構築結果と前記現在解像度に対応する第１特徴マップを融合し、前記現在解像度に対応する融合特徴マップを得ることと、
前記融合特徴マップに基づいて、前記現在解像度に対応する第１再構築結果を得ることと、
前記現在解像度が最高の前記解像度ではない場合、前記解像度の低い順に応じて、１つの前記解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行することと、
前記現在解像度が最高の前記解像度である場合、前記現在解像度に対応する第１再構築結果を今回の再構築の前記第１再構築結果とすることと、を含むことを特徴とする
請求項２から４のうちいずれか一項に記載の方法。
前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得ることは、
前記第１特徴マップに基づいて、予測を行い、前記第１空間における各前記ボクセルの第１再構築値と前記第１再構築値が所定の数値範囲内にある確率値を得ることであって、前記第１再構築値は、前記ボクセルと前記再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、前記関連物体表面は、前記再構築待ちターゲットにおける、前記ボクセルとの距離が最も近い物体表面である、ことと、
第１空間における、前記確率値が所定の条件を満たす前記ボクセルを選択することと、
選択された前記ボクセルの前記第１再構築値に基づいて、今回の再構築の第１再構築結果を得ることと、をさらに含むことを特徴とする
請求項１から５のうちいずれか一項に記載の方法。
前記第１再構築結果は、前記第１空間における前記ボクセルの第１再構築値を含み、前記第２再構築結果は、第２空間における前記ボクセルの第２再構築値を含み、前記第１再構築値と前記第２再構築値は、前記ボクセルと前記再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、前記関連物体表面は、前記再構築待ちターゲットにおける、前記ボクセルとの距離が最も近い物体表面であり、
前記今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新することは、
前記第１空間における前記ボクセルの第１再構築値に基づいて、前記第２空間における対応する前記ボクセルの第２再構築値を更新することを含むことを特徴とする
請求項１から６のうちいずれか一項に記載の方法。
今回の再構築が初回の再構築である場合、前記第１履歴隠し層状態における状態値は、所定の状態値であり、
前記融合ネットワークは、ゲート再帰型ユニットを含み、前記三次元再構築モデルは、予測ネットワークを更に含み、前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、第１再構築結果を得ることは、
前記予測ネットワークに基づいて、前記今回の隠し層状態に対して予測を行い、前記第１再構築結果を得ることを含むことを特徴とする
請求項１に記載の方法。
前記第１特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得る前に、前記方法は、
前記第１特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得ることであって、前記幾何学的特徴マップは、前記ボクセルの幾何学的情報を含む、ことを含み、
前記第１特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることは、
前記幾何学的特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることを含むことを特徴とする
請求項１又は８に記載の方法。
前記第１特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得た後、前記方法は、
前記今回の隠し層状態における状態値に基づいて、前記第１履歴隠し層状態における該当する前記ボクセルに対応する状態値を更新することを更に含むことを特徴とする
請求項１から９のうちいずれか一項に記載の方法。
今回の再構築に用いられる少なくとも２つのフレームの第１キー画像を取得することは、
前記再構築待ちターゲットを撮影するプロセスにおいて、前記少なくとも２つのフレームの第１キー画像を取得することを含み、
前記第１キー画像は、カメラ方位姿勢パラメータに対応し、前記カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、前記第１キー画像は、隣接する前記第１キー画像間の前記並進距離の差異が所定の距離閾値よりも大きいことと、隣接する前記第１キー画像間の前記回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも１つを満たすことを特徴とする
請求項１から１０のうちいずれか一項に記載の方法。
三次元再構築装置であって、
今回の再構築のための少なくとも２つのフレームの第１キー画像を取得するように構成されるキー画像取得モジュールと、
前記少なくとも２つのフレームの第１キー画像の視錐を取り囲む第１空間を決定するように構成される第１空間決定モジュールであって、第１キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、第１空間決定モジュールと、
前記少なくとも２つのフレームの第１キー画像における画像情報に基づいて、前記第１空間の第１特徴マップを得るように構成される第１特徴取得モジュールであって、前記第１特徴マップは、前記第１空間におけるボクセルの第１特徴情報を含む、第１特徴取得モジュールと、
前記第１特徴マップに基づいて、今回の再構築の第１再構築結果を得るように構成される再構築結果取得モジュールと、
前記今回の再構築の第１再構築結果に基づいて、この前の再構築により得られた第２再構築結果を更新するように構成される再構築結果更新モジュールと、を備え、
前記第１再構築結果は、三次元再構築モデルによって得られたものであり、
前記再構築結果取得モジュールは、
前記三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第１履歴隠し層状態を取得するように構成される隠し層状態取得サブモジュールであって、前記第１履歴隠し層状態は、第２空間における前記ボクセルに対応する状態値を含み、前記第２空間は、この前に再構築された第２キー画像の視錐を取り囲む総空間である、隠し層状態取得サブモジュールと、
前記第１履歴隠し層状態から、前記第１空間のボクセルに対応する状態値を抽出して第２履歴隠し層状態とするように構成される隠し層状態抽出サブモジュールと、
前記融合ネットワークにおいて、前記第１特徴マップに基づいて、前記第２履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることを実行するように構成される隠し層状態更新サブモジュールと、
前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、前記第１再構築結果を得るように構成される再構築結果予測サブモジュールと、を備える、三次元再構築装置。
互いに結合されるメモリとプロセッサを備える電子機器であって、前記プロセッサは、前記メモリに記憶されているプログラム命令を実行し、請求項１から１１のうちいずれか一項に記載の方法を実施する、電子機器。
プロセッサにより実行されるとき、前記プロセッサに請求項１から１１のうちいずれか一項に記載の方法を実行させるためのプログラム命令を記憶した、コンピュータ可読記憶媒体。