JP7352748B2 - 三次元再構築方法、装置、機器及び記憶媒体 - Google Patents

三次元再構築方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP7352748B2
JP7352748B2 JP2022546566A JP2022546566A JP7352748B2 JP 7352748 B2 JP7352748 B2 JP 7352748B2 JP 2022546566 A JP2022546566 A JP 2022546566A JP 2022546566 A JP2022546566 A JP 2022546566A JP 7352748 B2 JP7352748 B2 JP 7352748B2
Authority
JP
Japan
Prior art keywords
reconstruction
voxel
space
feature map
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022546566A
Other languages
English (en)
Other versions
JP2023514107A (ja
Inventor
フージュン バオ
シアオウェイ ジョウ
ジアミン スン
イーミン シエ
Original Assignee
チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド filed Critical チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド
Publication of JP2023514107A publication Critical patent/JP2023514107A/ja
Application granted granted Critical
Publication of JP7352748B2 publication Critical patent/JP7352748B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/36Level of detail
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2016Rotation, translation, scaling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本願は、浙江商湯科技開発有限公司より2021年01月15日に提出された、出願番号が202110057035.9であり、発明名称が「三次元再構築方法及び関連装置、機器」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
本願は、コンピュータビジョン技術分野に関し、特に三次元再構築方法、装置、機器及び記憶媒体に関する。
電子情報技術の発展に伴い、携帯電話、タブレットなどの、カメラが集積された電子機器により、実シーンにおける物体に対して三次元再構築を行うことは、多くの応用シーンにおいていずれも広く用いられている。例えば、AR(Augmented Reality:拡張現実)などのダウンストリームアプリケーションに用いられてもよい。AR効果と物理的シーンとの没入感を向上させるために、三次元再構築結果は、可能な限り平滑になる必要があり、且つ三次元再構築プロセスにおいて、可能な限りリアルタイムである必要がある。このため、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを如何に向上させるかは、極めて高い検討価値を有する課題となる。
本願の実施例は、三次元再構築方法、装置、機器及び記憶媒体を提供する。
本願の実施例は、三次元再構築方法を提供する。前記方法は、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定することであって、第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得ることであって、第1特徴マップは、第1空間におけるボクセルの第1特徴情報を含む、ことと、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることと、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新することと、を含む。
従って、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定し、且つ第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、この上で、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得、且つ第1特徴マップに、第1空間におけるボクセルの第1特徴情報が含まれ、それにより第1特徴マップに基づいて、今回の再構築の第1再構築結果を得、更に、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新する。従って、各回の再構築プロセスにおいて、いずれも、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間全体に対して三次元再構築を行うことができ、それにより計算負荷を大幅に低減させることができるだけでなく、再構築結果の階層化又は分散の発生確率を低減させることもでき、更に、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。
ここで、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得した後、方法は、各フレームの第1キー画像に対してそれぞれ特徴抽出を行い、第1キー画像の第2特徴マップを得ることを含み、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得ることは、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得ることを含む。
従って、各フレームの第1キー画像に対してそれぞれ特徴抽出を行い、第1キー画像の第2特徴マップを得ることによって、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得るため、各フレームの第1キー画像の第2特徴マップを融合し、第1空間の第1特徴マップを得、第1特徴マップの正確性の向上に有利であり、更に、三次元再構築の正確性の向上に有利である。
ここで、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得ることは、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出することと、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得ることと、第1空間の各ボクセルの第1特徴情報に基づいて、第1空間の第1特徴マップを得ることと、を含む。
従って、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出し、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得、第1空間の各ボクセルの第1特徴情報に基づいて、第1空間の第1特徴マップを得るため、第1空間における各ボクセルにとって、対応する各フレームの第1キー画像の第2特徴が融合されており、第1空間の第1特徴マップの正確性の更なる向上に有利である。
ここで、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得ることは、以下の少なくとも1つを含む。ボクセルに対応する各フレームの第1キー画像の第2特徴情報の平均値をボクセルの第1特徴情報とする。各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出した後、方法は、各フレームの第1キー画像の第2特徴マップから、いずれも、ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第1特徴情報とすることを更に含む。
従って、ボクセルに対応する各フレームの第1キー画像の第2特徴情報の平均値をボクセルの第1特徴情報とすることで、第1特徴情報の取得の複雑さを低減させることができ、それにより三次元再構築の速度の向上に有利であり、更に、三次元再構築プロセスのリアルタイム性の更なる向上に有利である。各フレームの第1キー画像の第2特徴マップから、いずれも、ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第1特徴情報とすることで、第1特徴情報の取得の複雑さの更なる低減に有利である。
ここで、各フレームの第1キー画像の第2特徴マップは、いずれも、異なる解像度に対応する所定の枚数の第2特徴マップを含み、第1空間は、異なる解像度に対応する所定の数の第1空間を含み、解像度が高いほど、第1空間におけるボクセルのサイズが小さくなり、第1特徴マップは、異なる解像度に対応する所定の枚数の第1特徴マップを含み、各枚の第1特徴マップは、同じ解像度の第2特徴マップの第2特徴情報に基づいて得られたものである。
従って、各フレームの第1キー画像の第2特徴マップを、いずれも異なる解像度に対応する所定の枚数の第2特徴マップを含むように設定し、且つ第1空間が、異なる解像度に対応する所定の数の第1空間を含み、解像度が高いほど、第1空間におけるボクセルのサイズが小さくなり、なお、第1特徴マップを、異なる解像度に対応する所定の枚数の第1特徴マップを含むように設定し、各枚の第1特徴マップは、同じ解像度の第2特徴マップの第2特徴情報に基づいて得られたものである。従って、異なる解像度の所定の枚数の第2特徴マップによって三次元再構築を行うことに有利であり、それにより三次元再構築の精細度の更なる向上に有利である。
ここで、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とすることと、前回選択された解像度に対応する第1再構築結果に対してアップサンプリングを行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップを融合し、現在解像度に対応する融合特徴マップを得ることと、融合特徴マップに基づいて、現在解像度に対応する第1再構築結果を得ることと、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行することと、現在解像度が最高解像度である場合、現在解像度に対応する第1再構築結果を今回の再構築の最終的な第1再構築結果とすることと、を含む。
従って、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とし、前回選択された解像度に対応する第1再構築結果に対してアップサンプリングを行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップを融合し、現在解像度に対応する融合特徴マップを得、この上で融合特徴マップに基づいて、現在解像度に対応する第1再構築結果を得ることによって、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するか又は現在解像度が最高解像度である場合、現在解像度に対応する第1再構築結果を今回の再構築の最終的な第1再構築結果とするため、「解像度が低い」第1特徴マップから「解像度が高い」第1特徴までに基づいて、三次元再構築を次第に行うことができ、それにより「粗から細までの」三次元再構築の実現に有利であり、更に、三次元再構築の精細度の更なる向上に有利である。
ここで、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、第1特徴マップに基づいて、予測を行い、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得ることであって、ここで、第1再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである、ことと、第1空間における、確率値が所定の条件を満たすボクセルを選択することと、選択されたボクセルの第1再構築値に基づいて、今回の再構築の第1再構築結果を得ることと、を含む。
従って、第1特徴マップに基づいて、予測を行い、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得、且つ第1再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、第1空間における、確率値が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第1再構築値に基づいて、今回の再構築の第1再構築結果を得るため、確率値が所定の条件を満たさないボクセルによる三次元再構築への干渉を除去することができ、三次元再構築の正確性の更なる向上に有利である。
ここで、第1再構築結果は、第1空間におけるボクセルの第1再構築値を含み、第2再構築結果は、第2空間におけるボクセルの第2再構築値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、第1再構築値と第2再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新することは、第1空間におけるボクセルの第1再構築値に基づいて、第2空間における対応するボクセルの第2再構築値を更新することを含む。
従って、第1再構築結果を、第1空間におけるボクセルの第1再構築値を含むように設定し、第2再構築結果を、第2空間におけるボクセルの第2再構築値を含むように設定し、且つ第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、第1再構築値と第2再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、この上で第1空間におけるボクセルの第1再構築値に基づいて、第2空間における対応するボクセルの第2再構築値を更新することで、この前の再構築により得られた第2再構築結果を更新することによって、三次元再構築プロセスにおいて、今回の再構築プロセスにおける第1空間におけるボクセルの第1再構築値に基づいて、この前の再構築により得られた第2再構築結果を更新することに有利であり、更に、再構築プロセスにおいて第2再構築結果を絶え間なく完全なものにして、三次元再構築の正確性を向上させることに有利である。
ここで、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面である。
従って、関連物体表面を、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面に設定することで、三次元再構築の正確性の更なる向上に有利である。
ここで、第1再構築結果は、三次元再構築モデルによって得られたものであり、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得することであって、ここで、第1履歴隠し層状態は、第2空間におけるボクセルに対応する状態値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間である、ことと、第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とすることと、融合ネットワークに基づいて、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行することと、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得ることと、を含む。
従って、第1再構築結果を、三次元再構築モデルによって得られたものであるように設定し、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得し、且つ第1履歴隠し層状態は、第2空間におけるボクセルに対応する状態値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、この上で第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とすることによって、融合ネットワークに基づいて、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行し、更に、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得るため、各回の再構築プロセスにおいて、いずれも、この前の再構築によって得られた第1履歴隠し層状態を参照することができ、今回の再構築とこの前の再構築との一致性の向上に有利であり、それにより今回の再構築結果とこの前の再構築結果の間の階層化又は分散の発生確率の低減に有利であり、更に、三次元再構築結果の平滑さの更なる向上に有利である。
ここで、今回の再構築が初回の再構築である場合、第1履歴隠し層状態における状態値は、所定の状態値である。
従って、今回の再構築が初回の再構築である場合、第1履歴隠し層状態における状態値を所定の状態値に設定することで、三次元再構築のロバスト性の向上に有利である。
ここで、融合ネットワークは、ゲート再帰型ユニットを含み、三次元再構築モデルは、予測ネットワークを更に含み、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得ることは、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第1再構築結果を得ることを含む。
従って、融合ネットワークを、ゲート再帰型ユニットを含むように設定することで、ゲート再帰型ユニットによって選択的アテンションメカニズムを導入することに有利であり、それにより三次元再構築プロセスにおいて、この前の再構築により得られた第1履歴隠し層状態を選択的に参照することに有利であり、更に、三次元再構築の正確性の向上に有利である。三次元再構築モデルを、予測ネットワークを含むように設定することで、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第1再構築結果を得ることで、三次元再構築の効率の向上に有利である。
ここで、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得る前に、方法は、第1特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得ることであって、ここで、幾何学的特徴マップは、ボクセルの幾何学的情報を含む、ことを含み、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることは、幾何学的特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを含む。
従って、第1特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得、且つ幾何学的特徴マップは、ボクセルの幾何学的情報を含み、この上で幾何学的特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることで、抽出されたボクセルの幾何学的情報を基に、今回再構築された第1空間の第2履歴隠し層状態を更新することができ、三次元再構築の正確性の向上に有利である。
ここで、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得た後、方法は、今回の隠し層状態における状態値に基づいて、第1履歴隠し層状態における該当するボクセルに対応する状態値を更新することを更に含む。
従って、今回の隠し層状態における状態値に基づいて、今回再構築された第1空間の第2履歴隠し層状態における該当するボクセルに対応する状態値を更新するため、更新により今回の隠し層状態を得た後、更に、第2空間の第1履歴隠し層状態を更新することができ、今回の再構築の上で第2空間の第1履歴隠し層状態の正確性の更なる向上に有利であり、それにより三次元再構築の正確性の向上に有利である。
ここで、再構築ターゲットを撮影するプロセスにおいて、少なくとも2つのフレームの第1キー画像を取得し、第1キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第1キー画像は、隣接する第1キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第1キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも1つを満たす。
従って、少なくとも2つのフレームの第1キー画像を、再構築ターゲットを撮影するプロセスにおいて取得されたものであるように設定することで、撮影を行いながら、三次元再構築を行うことを実現させることができ、第1キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第1キー画像を、隣接する第1キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第1キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも1つを満たすように設定することで、各回の再構築プロセスにおいて可能な限り少ないキー画像を参照することに有利である上で、第1空間の視覚的範囲を可能な限り拡大することができ、それにより三次元再構築の効率の向上に有利である。
本願の実施例は、三次元再構築装置を提供する。前記装置は、キー画像取得モジュールと、第1空間決定モジュールと、第1特徴取得モジュールと、再構築結果取得モジュールと、再構築結果更新モジュールと、を備え、キー画像取得モジュールは、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得するように構成され、第1空間決定モジュールは、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定するように構成され、ここで、第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、第1特徴取得モジュールは、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得るように構成され、ここで、第1特徴マップは、第1空間におけるボクセルの第1特徴情報を含み、再構築結果取得モジュールは、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得るように構成され、再構築結果更新モジュールは、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新するように構成される。
本願の実施例は、電子機器を提供する。前記電子機器は、互いに結合されるメモリとプロセッサを備え、プロセッサは、メモリに記憶されているプログラム命令を実行し、上記三次元再構築方法を実施する。
本願の実施例は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体にプログラム命令が記憶されており、プログラム命令がプロセッサにより実行されるとき、プロセッサに上記三次元再構築方法を実現させる。
上記方案において、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定し、且つ第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、この上で、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得、且つ第1特徴マップに、第1空間におけるボクセルの第1特徴情報が含まれ、それにより第1特徴マップに基づいて、今回の再構築の第1再構築結果を得、更に、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新する。従って、各回の再構築プロセスにおいて、いずれも、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間全体に対して三次元再構築を行うことができ、それにより計算負荷を大幅に低減させることができるだけでなく、再構築結果の階層化又は分散の発生確率を低減させることもでき、更に、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。
本願の実施例による三次元再構築方法の一実施例のフローチャートである。 本願の実施例による三次元再構築方法のシステムアーキテクチャの概略図を示す。 第1空間の一実施例の概略図である。 本願の実施例による三次元再構築方法の一実施例のプロセスの概略図である。 本願の実施例による三次元再構築方法と他の三次元再構築方法の効果の概略図である。 図1AにおけるステップS12の一実施例のフローチャートである。 第1特徴マップの取得の一実施例の状態概略図である。 図1AにおけるステップS13の一実施例のフローチャートである。 今回の隠し層状態の取得の一実施例の状態概略図である。 本願の実施例による三次元再構築方法の別の実施例のプロセスの概略図である。 本願の実施例による三次元再構築装置の一実施例のフレームワーク概略図である。 本願の実施例による電子機器の一実施例のフレームワーク概略図である。 本願の実施例によるコンピュータ可読記憶媒体の一実施例のフレームワーク概略図である。
本願の実施例の技術的解決手段をより明確に説明するために、以下、実施例に必要な図面を簡単に説明する。ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、これらの図面は、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。下記図面は、説明のみの目的で本願の幾つかの実施例を図示しており、範囲を制限するものと見なされるべきではないことが理解されるべきである。当業者は、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。
以下、明細書の図面を参照しながら、本願の実施例の解決手段を詳しく説明する。
下記説明において、本願の実施例を深く理解するために、特定システム構造、インタフェース、技術等の具体的な細部を提出し、これは、本願を解釈するためのものに過ぎず、本願を限定するためのものではない。
本明細書において、「システム」と「ネットワーク」という用語は、常に交換可能に使用されている。本明細書において、用語「及び/又は」は、関連対象の関連関係を説明するためのものであり、3通りの関係が存在することを表す。例えば、A及び/又はBは、Aのみが存在すること、AとBが同時に存在すること、Bのみが存在するという3つのケースを表す。なお、本明細書において、文字「/」は一般的には、前後関連対象が「又は」という関係であることを示す。また、本明細書における「複数」は、2つ又は2つより多いことを表す。
図1Aを参照すると、図1Aは、本願の実施例による三次元再構築方法の一実施例のフローチャートである。以下のステップを含んでもよい。
ステップS11において、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定する。
本願の実施例において、第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである。再構築待ちターゲットは、実際の応用状況に応じて設定されてもよい。例えば、ある物体に対して三次元再構築を行う必要がある場合、再構築待ちターゲットは、物体であってもよい。例えば、再構築待ちターゲットは、机、椅子、ソファーなどを含んでもよいが、それらに限らない。ここで限定しない。又は、あつシーンに対して三次元再構築を行う必要がある場合、再構築待ちターゲットは、シーンであってもよい。説明すべきことは、シーンに若干の物体が含まれてもよい。再構築待ちターゲットがリビングルームであることを例として、リビングルーム内に机、椅子、ソファーなどが含まれてもよいが、それらに限らない。再構築待ちターゲットが建築物であることを例として、建築物は、階段、回廊、ドアなどを含んでもよいが、それらに限らない。他の場合について、このように類推してもよい。ここで一々列挙しない。
1つの実施シーンにおいて、三次元再構築のリアルタイム性を向上させるために、第1キー画像は、再構築待ちターゲットを撮影するプロセスにおいて取得されたものであってもよい。三次元再構築プロセスに対する増分処理を実現させるために、再構築待ちターゲットを撮影しながら、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得してもよい。
1つの実施シーンにおいて、第1キー画像は、カメラ方位姿勢パラメータに対応してもよい。カメラ方位姿勢パラメータは、例えば、並進距離と、回転角度と、を含んでもよい。この上で第1キー画像は、隣接する第1キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第1キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも1つを満たす。上記方式によれば、各回の再構築プロセスにおいて可能な限り少ないキー画像を参照することに有利である上で、第1空間の視覚的範囲を可能な限り拡大することができ、それにより三次元再構築の効率の向上に有利である。
1つの実施シーンにおいて、カメラ方位姿勢パラメータは、SLAM(Simultaneous Localization And Mapping:位置推定とマッピングの同時実行)などのような方式で取得してもよい。ここで限定しない。SLAMは、一般的には、特徴抽出、データ関連付け、状態推定、状態更新及び特徴更新などのいくつかの部分を含み、その詳細はここで省略する。
別の実施シーンにおいて、説明しやすくするために、再構築待ちターゲットを撮影することで得られた画像シーケンスは、
Figure 0007352748000001
と記してもよく、該画像シーケンスに対応するカメラ方位姿勢パラメータは、
Figure 0007352748000002
と記してもよい。カメラ方位姿勢パラメータ
Figure 0007352748000003
について、並進距離tと回転角度Rとを含んでもよい。多視野角再構築プロセスにおいて十分な視覚的範囲を提供することを確保するために、上記画像シーケンスから選択された第1キー画像は、三次元空間において、互いに近接し過ぎないながら、離れすぎなければならない。従って、画像シーケンスにおける1フレームの画像の並進距離tと最近選択された第1キー画像の並進距離tとの差異が所定の距離閾値
Figure 0007352748000004
よりも大きくて、且つ該フレームの画像の回転角度Rと上記最近選択された第1キー画像の回転角度Rとの差異が所定の角度閾値
Figure 0007352748000005
よりも大きい場合、該フレームの画像を新たな第1キー画像として選択してもよい。上記方式によれば、再構築プロセスにおいて可能な限り少ないキー画像を参照する上で、第1空間の視覚的範囲を可能な限り拡大することができる。
また1つの実施シーンにおいて、各回の三次元再構築の計算負荷を合理的に制御するために、各回の三次元再構築により取得された少なくとも2つのフレームの第1キー画像の画像数は、所定の数閾値よりも小さくてもよい。所定の数閾値は、実際の応用状況に応じて設定してもよい。例えば、三次元再構築を実行する電子機器が、余裕のあるコンピューティングリソースを有する場合、所定の数閾値は、大きく設定されてもよく、例えば5、10、15などに設定されてもよい。又は、三次元再構築を実行する電子機器は、相対的乏しいコンピューティングリソースを有する場合、所定の数閾値は、小さく設定されてもよく、例えば、2、3、4などに設定されてもよい。ここで限定しない。
なお、説明すべきことは、視錐は、形状が四角錐形状である実体形状と理解されてもよい。該実体形状は、カメラによるレンダリング時に見える領域の形状である。理解できるように、カメラにより撮影された画像におけるいずれか1つの点は最終的に現実世界における1本の線に対応し、且つこの線における1つの点をのみ表示し、この線における、この表示される点の後にある全ての物体はいずれも遮蔽される。画像の外境界は、4つの頂点に対応する発散線によって定義され、且つこれら4本の線は最終的にカメラの所在位置で交わる。
図1Bは、本願の実施例による三次元再構築方法を応用できるシステムアーキテクチャの概略図である。図1Bに示すように、該システムアーキテクチャに、画像収集機器2001と、ネットワーク2002と、画像取得端末2003とが含まれる。1つの例示的な応用をサポートすることを実現させるために、画像収集機器2001と画像取得端末2003は、ネットワーク2002を介して通信接続を確立してもよく、画像収集機器2001は、ネットワーク2002を介して画像取得端末2003に、収集された画像を伝送し、画像取得端末2003は、画像を受信し、画像に対して処理を行い、更に、今回の再構築結果を得る。
例として、現在シーン画像収集機器2001は、カメラなどの、画像収集機能を有する機器を含んでもよい。画像取得端末2003は、一定のコンピューティング能力と画像処理能力を有するコンピュータ機器を含んでもよい。該コンピュータ機器は、例えば、端末機器、サーバ又は他の処理機器を含む。ネットワーク2002は、有線接続又は無線接続方式を用いてもよい。ここで、画像取得端末2003がサーバである場合、画像収集機器は、有線接続の方式で、画像取得端末と通信接続してもよく、例えば、バスを介してデータ通信を行う。画像取得端末2003が端末機器である場合、画像収集機器は、無線接続の方式で、画像取得端末と通信接続し、更にデータ通信を行ってもよい。
又は、いくつかのシーンにおいて、画像取得端末2003は、ビデオ収集モジュールを有する視覚的処理機器であってもよく、カメラを有するホストであってもよい。この場合、本願の実施例による情報処理方法は、画像取得端末2003により実行されてもよく、上記システムアーキテクチャは、ネットワーク2002と画像収集機器2001を含まなくてもよい。
1つの実施シーンにおいて、図2を参照すると、図2は、第1空間の一実施例の概略図である。図2に示すように、第1キー画像は、それぞれ、黒点で表されるカメラ1、カメラ2及びカメラ3により撮影されたものである。実際の応用プロセスにおいて、カメラから離れすぎる画像情報が後続の三次元再構築に及ぼす干渉を低減させるために、第1空間を決定する時、上記視錐の最大デプスを
Figure 0007352748000006
と予め定義してもよい。即ち、四角錐の高さは、上記最大デプス
Figure 0007352748000007
である。引き続き図2を参照すると、説明しやすくするために、図2において、二等辺三角形で表される視錐は、第1空間を見下ろす場合の視錐の概略図である。即ち、図2に示される第1空間は、二次元視野角での概略図である。ここで、二等辺三角形における破線は、上記最大デプス
Figure 0007352748000008
を表す。この場合、カメラ1、カメラ2及びカメラ3により撮影された第1キー画像の視錐を取り囲む空間を第1空間と定義してもよい。三次元再構築を容易にするために、本願の実施例及び下記実施例において、別途説明しない限り、第1空間は、例えば、直方体、立方体などの隣接表面が互いに垂直である六面体を含んでもよい。なお、第1キー画像の視錐が他のものである場合、又は、第1キー画像が他の数である場合、第1空間は、上記記述を参照してもよく、このように類推し、ここで一々列挙しない。
なお、本願の実施例及び下記実施例において、第1空間は、若干のボクセル(voxel)を含んでもよい。第1空間が直方体又は立方体であることを例として、ボクセルは、直方体又は立方体であってもよい。若干のボクセルは、積み重ねられて第1空間を形成する。なお、ボクセルのサイズは、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築に対して求められる精度要件が高い場合、ボクセルのサイズは、小さく設定されてもよい。又は、三次元再構築に対して求められる精度要件が相対的に低い場合、ボクセルのサイズは、大きく設定されてもよい。ここで限定しない。
ステップS12において、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得る。
本願の実施例において、第1特徴マップは、第1空間におけるボクセルの第1特徴情報を含む。
1つの実施シーンにおいて、各フレームの第1キー画像に対してそれぞれ特徴抽出を行い、第1キー画像の第2特徴マップを得ることができる。この上で第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得ることができる。上記方式によれば、各フレームの第1キー画像の第2特徴マップを融合し、第1空間の第1特徴マップを得ることができ、第1特徴マップの正確性の向上に有利であり、更に、三次元再構築の正確性の向上に有利である。
1つの実施シーンにおいて、特徴抽出の効率を向上させるために、1つの三次元再構築モデルを予め訓練してもよく、且つ該三次元再構築モデルは、特徴抽出ネットワークを含み、それにより特徴抽出ネットワークに基づいて、各フレームの第1キー画像に対して特徴抽出を行い、第1キー画像の第2特徴マップを得ることができる。特徴抽出ネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)などを含んでもよいが、それらに限らない。三次元再構築モデルの訓練プロセスは、下記関連実施例を参照してもよい。ここで説明を省略する。
別の実施シーンにおいて、第1キー画像の第2特徴マップは、所定の解像度の特徴マップであってもよい。所定の解像度は、実際の応用状況に応じて設定してもよい。例えば、三次元再構築に対して求められる精度要件が高い場合、所定の解像度は、大きく設定されてもよいが、三次元再構築に対して求められる精度要件が相対的に低い場合、所定の解像度は、小さく設定されてもよい。ここで限定しない。
また1つの実施シーンにおいて、第1空間の各ボクセルについて、該ボクセルの、第2特徴マップにおける対応する第2特徴情報を融合し、該ボクセルの第1特徴情報を得ることができ、最終的に、第1空間の全てのボクセルの第1特徴情報を得る上で、第1空間の第1特徴マップを得ることができる。
また1つの実施シーンにおいて、各フレームの第1キー画像の第2特徴マップから、いずれも、ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報を該ボクセルの第1特徴情報としてもよい。所定の特徴情報は、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築の計算の複雑さを更に低減させるために、所定の特徴情報は、0に設定してもよい。ここで限定しない。
別の実施シーンにおいて、各フレームの第1キー画像の第2特徴マップは、異なる解像度に対応する所定の枚数の第2特徴マップを含んでもよく、且つ第1空間は、異なる解像度に対応する所定の数の第1空間を含み、解像度が高いほど、第1空間におけるボクセルのサイズが小さくなり、第1特徴マップは、異なる解像度に対応する所定の枚数の第1特徴マップを含んでもよく、各枚の第1特徴マップは、同じ解像度の第2特徴マップの第2特徴情報に基づいて得られたものである。上記方式によれば、異なる解像度の所定の枚数の第2特徴マップによって三次元再構築を行うことに有利であり、それにより三次元再構築の精細度の更なる向上に有利である。
一つの実施シーンにおいて、所定の数は、実際の応用状況に応じて設定されてもよい。例えば、2種の異なる解像度、3種の異なる解像度、4種の異なる解像度などを設定してもよい。ここで限定しない。なお、異なる解像度は、実際の応用状況に応じて設定されてもよい。例えば、640*480と480*360の2種の解像度を設定してもよく、1280*960と640*480の2種の解像度を設定してもよい。又は、640*480、480*360及び360*240の3種の解像度を設定してもよく、1280*960、640*480及び480*360の3種の解像度を設定してもよい。ここで限定しない。
別の実施シーンにおいて、上述したように、三次元再構築の効率を向上させるために、三次元再構築モデルを予め訓練してもよい。そして、該三次元再構築モデルは、特徴抽出ネットワークを含んでもよい。更に、該特徴抽出ネットワークに基づいて、若干の第1キー画像に対してそれぞれ特徴抽出を行い、異なる解像度の第2特徴マップを得ることができる。該特徴抽出ネットワークは、FPN(Feature Pyramid Networks:特徴ピラミッドネットワーク)などを含んでもよいが、それらに限らない。ここで限定しない。
別の実施シーンにおいて、第1キー画像の第2特徴マップがN種の異なる解像度に対応するN枚の第2特徴マップを含む場合、第1空間も、それぞれN種の異なる解像度に対応するN個の第1空間を含み、且つ解像度が高いほど、第1空間におけるボクセルのサイズは小さくなる。例えば、第1キー画像の第2特徴マップが1280*960と640*480の2種の解像度の第2特徴マップを含む場合、第1空間も、解像度1280*960に対応する第1空間と解像度640*480に対応する第1空間を含み、且つ解像度1280*960に対応する第1空間におけるボクセルのサイズは、解像度640*480に対応する第1空間におけるボクセルのサイズよりも小さい。他の場合、このように類推してもよい。ここで一々列挙しない。いくつかの実施例において、第i種の解像度に対応する第1空間におけるボクセルの第1特徴情報は、少なくとも2つのフレームの第1キー画像における第i種の解像度の第2特徴マップにおける対応する第2特徴情報に基づいて得られてもよい。詳細なプロセスは、下記実施例を参照してもよい。ここで説明を詳細する。
また1つの実施シーンにおいて、第i種の解像度に対応する第1空間におけるボクセルの幅は、下記式で計算されてもよい。
Figure 0007352748000009
・・・・(1)
上記式(1)において、
Figure 0007352748000010
は、第i種の解像度に対応する第1空間におけるボクセルの幅を表し、sは、予め設定された基準ボクセルの幅を表し、実際の応用状況に応じて調整されてもよい。なお、説明すべきことは、iは、異なる解像度を低い順に応じて順序付けた後の第i種の解像度である。依然として上記1280*960、640*480及び480*360の3種の解像度を例として、低い順に応じて順序付けた後、それぞれ480*360、640*480、1280*960であり、即ち、解像度480*360に対応する第1空間のボクセルの幅を計算する時、iは1であり、解像度640*480に対応する第1空間のボクセルの幅を計算する時、iは2であり、解像度1280*960に対応する第1空間のボクセルの幅を計算する時、iは3である。他の場合、このように類推してもよい。ここで一々列挙しない。
ステップS13において、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得る。
1つの実施シーンにおいて、第1特徴マップに基づいて、予測を行い、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得、且つ第1再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである。この上で、上記予測結果に対してスパース化(sparsify)処理を行うことができ、第1空間における、確率が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第1再構築値に基づいて、今回の再構築の第1再構築結果を得ることができる。上記方式によれば、確率値が所定の条件を満たさないボクセルによる三次元再構築への干渉を除去することができ、三次元再構築の正確性の更なる向上に有利である。
1つの実施シーンにおいて、三次元再構築の効率を向上させるために、三次元再構築モデルを予め訓練してもよく、且つ該三次元再構築モデルは、予測ネットワークを含んでもよい。それにより第1特徴マップを予測ネットワークに入力し、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得ることができる。予測ネットワークは、MLP(Multi-Layer Perceptron:多層パーセプトロン)などを含んでもよいが、それらに限らない。ここで限定しない。
別の実施シーンにおいて、第1再構築値は、TSDF(Truncated Signed Distance Function:トランケーテッド符号付き距離関数)で表されてもよい。この場合、所定の数値範囲は、-1~1であってもよい。説明しやすくするために、j番目のボクセルの第1再構築値を
Figure 0007352748000011
で表してもよい。説明すべきことは、
Figure 0007352748000012
が0よりも大きく、且つ1よりも小さい場合、j番目のボクセルが関連物体表面の前の切断距離
Figure 0007352748000013
内に位置することを表し、
Figure 0007352748000014
が0よりも小さく、且つ-1よりも大きい場合、j番目のボクセルが関連物体表面の後の切断距離
Figure 0007352748000015
内に位置することを表す。
また1つの実施シーンにおいて、第1再構築値が所定の数値範囲内にある確率値は、第1再構築値が所定の数値範囲内にある可能性と見なされてもよく、且つ確率値が高いほど、第1再構築値が所定の数値範囲内にある可能性は高くなる。逆に、確率値が低いほど、第1再構築値が所定の数値範囲内にある可能性は低くなる。
また1つの実施シーンにおいて、所定の条件は、確率値が所定の確率閾値よりも大きいことを含むように設定されてもよい。所定の確率閾値は、実際の応用状況に応じて設定されてもよい。例えば、三次元再構築の正確性に対して求められる要件が高い場合、所定の確率閾値は、大きく設定されてもよく、例えば、0.9、0.95などに設定されてもよい。又は、三次元再構築の正確性に対して求められる要件が相対的に低い場合、所定の確率閾値は、小さく設定されてもよく、例えば、0.8、0.85などに設定されてもよい。ここで限定しない。
また1つの実施シーンにおいて、第1空間における、確率値が所定の条件を満たすボクセルを選択した後、選択されたボクセル及びその第1再構築値全体を今回の再構築の第1再構築結果としてもよい。
また1つの実施シーンにおいて、後続で、再構築値に基づいて、再構築待ちターゲットの表面を再構築することを容易にするために、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面であってもよい。再構築待ちターゲットがリビングルームであることを例として、リビングルームにおける床板に最も近いボクセルにとって、関連物体表面は、床板であってもよい。リビングルームにおけるソファーに最も近いボクセルにとって、関連物体表面は、ソファーであってもよい。他の場合、このように類推してもよい。ここで一々列挙しない。上記方式によれば、三次元再構築の正確性の更なる向上に有利である。
別の実施シーンにおいて、上述したように、各フレームの第1キー画像の第2特徴マップは、異なる解像度に対応する所定の枚数の第2特徴マップを含んでもよい。この場合、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とし、この上で前回選択された解像度に対応する第1再構築結果に対してアップサンプリング(Upsample)を行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップを融合し、現在解像度に対応する融合特徴マップを得、この上で融合特徴マップに基づいて、現在解像度に対応する第1再構築結果を得る。更に、現在解像度が最高解像度ではない場合、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するか又は現在解像度が最高解像度である場合、現在解像度に対応する第1再構築結果を今回の再構築の最終的な第1再構築結果とする。上記方式によれば、「解像度が低い」第1特徴マップから「解像度が高い」第1特徴までに基づいて、三次元再構築を次第に行うことができ、それにより「粗から細までの」三次元再構築の実現に有利であり、更に、三次元再構築の精細度の更なる向上に有利である。
1つの実施シーンにおいて、最近傍補間などのアップサンプリング方式で、第1再構築結果に対してアップサンプリングを行ってもよい。説明すべきことは、後続で、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップを融合することを容易にするために、ボクセルの幅が上記式(1)で計算された場合、即ち、第i種の解像度に対応する第1空間におけるボクセルの幅が第i+1種の解像度に対応する第1空間におけるボクセルの幅の2倍である場合、アップサンプリングされたボクセルの幅は、元の幅の半分であり、それによりアップサンプリングされた第1再構築結果におけるボクセルの幅を現在解像度に対応する第1空間におけるボクセルの幅と同じであるようにすることができる。
別の実施シーンにおいて、各ボクセルについて、アップサンプリングされた第1再構築結果におけるj番目のボクセルの第1再構築値と現在解像度に対応する第1空間におけるj番目のボクセルの第1特徴情報を連結(Concatenate)することによって、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップとの融合を実現させる。例えば、現在解像度に対応する第1空間における各ボクセルの第1特徴情報は、次元dの行列で表されてもよく、アップサンプリングされた第1再構築結果における各ボクセルの第1再構築値は、次元1の行列と見なされてもよいため、両者を連結した後に得られた融合特徴マップは、次元d+1の行列と見なされてもよく、更に、融合特徴マップにおける各ボクセルは、d+1次元の行列で表されてもよい。
また1つの実施シーンにおいて、融合特徴マップに基づいて、現在解像度に対応する第1再構築結果を得る詳細なプロセスは、第1特徴マップに基づいて今回の再構築の第1再構築結果を得ることに関わる記述を参照してもよい。ここで説明を省略する。
また1つの実施シーンにおいて、図3を参照すると、図3は、本願の実施例による三次元再構築方法の一実施例のプロセスの概略図である。図3に示すように、再構築待ちターゲットに対して撮影された画像シーケンスから、若干の第1キー画像を選択し、特徴抽出ネットワーク(例えば、上述したFPN)によって特徴抽出を行った後、各フレームの第1キー画像に対して、3種の異なる解像度の第2特徴マップを抽出により得る。これら3種の異なる解像度を低い順に応じて順序付けた後、それぞれ、解像度1、解像度2及び解像度3と記してもよい。解像度1に対応する第1空間は、第1空間1と記してもよく、解像度2に対応する第1空間は、第1空間2と記してもよく、解像度3に対応する第1空間は、第1空間3と記してもよい。各種の解像度について、この種の解像度に対応する第1空間の各ボクセルの、この種の解像度の第2特徴マップにおける対応する第2特徴情報に基づいて、この種の解像度に対応する第1空間の第1特徴マップを得ることができる。説明しやすくするために、今回の再構築(即第t時間ステップ)の第1空間1の第1特徴マップを
Figure 0007352748000016
と記してもよく、第1空間2の第1特徴マップを
Figure 0007352748000017
と記してもよく、第1空間3の第1特徴マップを
Figure 0007352748000018
と記してもよい。解像度の低い順に応じて、まず解像度1を現在解像度として選択し、前回選択された解像度に対応する第1再構築結果に対してアップサンプリングを行う。解像度1が初回選択された解像度であるため、前回選択された解像度に対応する第1再構築結果が存在しない。それにより直接的に、MLPなどのような予測ネットワークに基づいて、現在解像度に対応する第1特徴マップ
Figure 0007352748000019
に対して予測を行い、第1空間1における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得ることができる。説明しやすくするために、
Figure 0007352748000020
と記してもよい。更に、
Figure 0007352748000021
に対して、スパース化(即ち、図3におけるS)処理を行い、第1再構築結果を得る。現在解像度が最高解像度ではないため、解像度2を現在解像度とし、前回選択された解像度1に対応する第1再構築結果に対してアップサンプリング(即ち、図3におけるU)を行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップ
Figure 0007352748000022
に対して連結(即ち、図3におけるC)処理を行い、解像度2に対応する融合特徴マップを得ることができる。それによりMLPなどのような予測ネットワークに基づいて、融合特徴マップに対して予測を行い、第1空間2における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得る。説明しやすくするために、
Figure 0007352748000023
と記してもよく、更に、
Figure 0007352748000024
に対してスパース化(即ち、図3におけるS)処理を行い、第1再構築結果を得る。現在解像度が依然として最高解像度ではないため、解像度3を現在解像度とし、前回選択された解像度2に対応する第1再構築結果に対してアップサンプリング(即ち、図3におけるU)を行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップ
Figure 0007352748000025
に対して連結(即ち、図3におけるC)処理を行い、解像度3に対応する融合特徴マップを得ることができる。それによりMLPなどのような予測ネットワークに基づいて、融合特徴マップに対して予測を行い、第1空間3における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得る。説明しやすくするために、
Figure 0007352748000026
と記してもよく、更に、
Figure 0007352748000027
に対してスパース化(即ち、図3におけるS)処理を行い、第1再構築結果を得る。現在解像度が最高解像度であるため、現在解像度に対応する第1再構築結果を今回の再構築の最終的な第1再構築結果とすることができる。説明しやすくするために、今回の再構築の最終的な第1再構築結果を
Figure 0007352748000028
と記してもよい。他の場合、このように類推してもよい。ここで一々列挙しない。
ステップS14において、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新する。
1つの実施シーンにおいて、上述したように、第1再構築結果は、例えば、第1空間におけるボクセルの第1再構築値を含み、同様に、第2再構築結果は、第2空間におけるボクセルの第2再構築値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、且つ第1再構築値と第2再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである。例えば、上述した、第1再構築値に関わる説明を参照してもよい。ここで説明を省略する。この上で第1空間におけるボクセルの第1再構築値に基づいて、第2空間における対応するボクセルの第2再構築値を更新することができる。上記方式によれば、三次元再構築プロセスにおいて、今回の再構築プロセスにおける第1空間におけるボクセルの第1再構築値に基づいて、この前の再構築により得られた第2再構築結果を更新することに有利であり、更に、再構築プロセスにおいて第2再構築結果を絶え間なく完全なものにして、三次元再構築の正確性を向上させることに有利である。
1つの実施シーンにおいて、今回の再構築が再構築待ちターゲットに対する三次元再構築プロセスにおける初回の再構築である場合、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新するステップを実行しなくてもよい。
別の実施シーンにおいて、第2空間における、第1空間に対応する部分のボクセルの第2再構築値を今回の再構築の第1空間におけるボクセルの第1再構築値に置き換えてもよい。引き続き図3を参照すると、上述したように、説明しやすくするために、今回の再構築の最終的な第1再構築結果を
Figure 0007352748000029
と記し、この前の再構築により得られた第2再構築結果を
Figure 0007352748000030
と記してもよい。第1空間におけるボクセルの第1再構築値に基づいて、第2空間における対応するボクセルの第2再構築値を更新することで、更新された第2再構築結果を得ることができる。説明しやすく、
Figure 0007352748000031
と記してもよい。
また1つの実施シーンにおいて、今回の再構築の後に、更なる再構築を必要とする場合、上記ステップS11及び後続のステップを再実行してもよい。それにより複数回の再構築により、第2再構築結果を絶え間なく完全なものにする。なお、今回の再構築の後に、更なる再構築を必要としない場合、更新された第2再構築結果
Figure 0007352748000032
を再構築待ちターゲットの最終的な再構築結果と記してもよい。
別の実施シーンにおいて、図4を参照すると、図4は、本願の実施例による三次元再構築方法と他の三次元再構築方法の効果の概略図である。図4における41と42は、他の再構築方法による再構築により得られた再構築結果を表し、図4における43と44は、本願の実施例の三次元再構築方法による再構築により得られた再構築結果を表す。図4における41と42に示すように、他の三次元再構築方法による再構築により得られた再構築結果において、矩形枠により囲まれた壁部分に明らかな分散と階層化現象が出現するが、図4における43と44では、本願の実施例の三次元再構築方法による再構築により得られた再構築結果は、矩形枠により囲まれた壁部分に明らかな分散と階層化減少が出現しておらず、且つ好ましい平滑さを有する。
上記方案において、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定し、且つ第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、この上で、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得、且つ第1特徴マップに、第1空間におけるボクセルの第1特徴情報が含まれ、それにより第1特徴マップに基づいて、今回の再構築の第1再構築結果を得、更に、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新する。従って、各回の再構築プロセスにおいて、いずれも、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間全体に対して三次元再構築を行うことができ、それにより計算負荷を大幅に低減させることができるだけでなく、再構築結果の階層化又は分散の発生確率を低減させることもでき、更に、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。
図5を参照すると、図5は、図1AにおけるステップS12の一実施例のフローチャートである。上述した実施例に記載したように、各フレームの第1キー画像に対してそれぞれ特徴抽出を行い、第1キー画像の第2特徴マップを得ることによって、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得ることができる。本願の実施例は、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1特徴マップを得ることのフローチャートである。以下のステップを含んでもよい。
ステップS51において、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出する。
本願の実施例において、第1空間における各ボクセルに対して、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出することができる。
1つの実施シーンにおいて、第1キー画像のカメラ方位姿勢パラメータ及びカメラ内部パラメータに基づいて、第2特徴マップにおける各画素点に対して逆投影を行い、第1空間における、第2特徴マップにおける画素点に対応するボクセルを決定することができる。この上で第1空間における各ボクセルに対して、各フレームの第1キー画像の第2特徴マップから、該ボクセルに対応する画素点の第2特徴情報を抽出することができる。
別の実施シーンにおいて、図6を参照すると、図6は、第1特徴マップの取得の一実施例の状態概略図である。図6に示すように、説明しやすくするために、図6においても「二次元視野角」で第1特徴マップの取得の詳細なプロセスを説明する。図6に示すように、第2特徴マップにおける画素点に対して逆投影を行うことで、第1空間における、各画素点に対応するボクセルを決定することができる。説明すべきことは、図6における異なる色のブロックは、異なる第2特徴情報に対応することを表す。
ステップS52において、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得る。
1つの実施シーンにおいて、引き続き図6を参照すると、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報の平均値をボクセルの第1特徴情報としてもよい。例えば、第1空間におけるk番目のボクセルは、1番目の第1キー画像の第2特徴マップにおいて、i行目j列目の画素点に対応するが、2番目の第1キー画像の第2特徴マップにおいて、m行目n列目の画素点に対応する。この上で1番目の第1キー画像の第2特徴マップにおけるi行目j列目の画素点の第2特徴情報と2番目の第1キー画像の第2特徴マップにおけるm行目n列目の画素点の第2特徴情報の平均値を第1空間におけるk番目のボクセルの第1特徴情報としてもよい。他の場合、このように類推してもよい。ここで一々列挙しない。
別の実施シーンにおいて、更に、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報の重み付け結果をボクセルの第1特徴情報としてもよい。上記重み付け結果は、加重加算、加重平均化などを含んでもよいが、それらに限らない。ここで限定しない。
また1つの実施シーンにおいて、上述した実施例に記載したように、各フレームの第1キー画像の第2特徴マップから、いずれも、ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第1特徴情報とする。前記実施例における関連説明を参照してもよい。ここで説明を省略する。
ステップS53において、第1空間の各ボクセルの第1特徴情報に基づいて、第1空間の第1特徴マップを得る。
第1空間における各画素点の第1特徴情報を得た後、第1空間における各ボクセルの第1特徴情報全体を第1特徴マップとしてもよい。
前記実施例と異なっており、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出し、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得、第1空間の各ボクセルの第1特徴情報に基づいて、第1空間の第1特徴マップを得るため、第1空間における各ボクセルにとって、対応する各フレームの第1キー画像の第2特徴が融合されており、第1空間の第1特徴マップの正確性の更なる向上に有利である。
図7を参照すると、図7は、図1AにおけるステップS13の一実施例のフローチャートである。本願の実施例において、第1再構築結果は、三次元再構築モデルにより得られたものである。以下のステップを含んでもよい。
ステップS71において、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得する。
本願の実施例において、第1履歴隠し層状態は、第2空間におけるボクセルに対応する状態値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間である。説明すべきことは、今回の再構築が初回の再構築である場合、第2空間は、今回の再構築の第1空間であり、且つこの場合、第1履歴隠し層状態に含まれる第2空間におけるボクセルに対応する状態値を所定の状態値に設定してもよい(例えば、所定の状態値を0に設定する)。
ステップS72において、第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とする。
図8を参照すると、図8は、今回の隠し層状態の取得の一実施例の状態概略図である。説明すべきことは、説明しやすくするために、上記図2と図6と同様に、図8は、「二次元視野角」で記述した、今回の隠し層状態の取得の状態概略図である。図8に示すように、説明しやすくするために、第1履歴隠し層状態を
Figure 0007352748000033
と記してもよく、第1履歴隠し層状態
Figure 0007352748000034
における異なるグレースケールのブロックは、ボクセルの状態値を表し、無色のブロックは、対応するボクセルが状態値を有しないことを表し、なお、第1履歴隠し層状態
Figure 0007352748000035
における矩形枠は、第1空間を表す。第1履歴隠し層状態
Figure 0007352748000036
から、第1空間のボクセルに対応する状態値を抽出することで、第2履歴隠し層状態
Figure 0007352748000037
を得ることができる。他の場合、このように類推してもよい。ここで一々列挙しない。
ステップS73において、融合ネットワークに基づいて、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行する。
1つの実施シーンにおいて、第1特徴マップ、第2履歴隠し層状態を融合ネットワークに入力し、今回の隠し層状態を出力することができる。融合ネットワークは、GRU(Gated Recurrent Unit:ゲート再帰型ユニット)を含むが、これに限らないように設定されてもよい。ここで限定しない。
別の実施シーンにおいて、引き続き図8を参照すると、第2履歴隠し層状態
Figure 0007352748000038
を更新する前に、更に、第1特徴マップ
Figure 0007352748000039
に対して幾何学的情報抽出を行い、幾何学的特徴マップ
Figure 0007352748000040
を得ることができ、且つ幾何学的特徴マップは、ボクセルの幾何学的情報を含む。それにより、幾何学的特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることができる。上記方式によれば、抽出されたボクセルの幾何学的情報を基に、今回再構築された第1空間の第2履歴隠し層状態を更新することができ、三次元再構築の正確性の向上に有利である。
一つの実施シーンにおいて、三次元スパース畳み込み、pointnetなどのネットワークにより、第1特徴マップ
Figure 0007352748000041
に対して幾何学的情報抽出を行い、幾何学的特徴マップ
Figure 0007352748000042
を得ることができる。実際の応用の必要に応じて設定してもよい。ここで限定しない。
別の実施シーンにおいて、融合ネットワークがゲート再帰型ユニットGRUを含むことを例として、図8を参照すると、GRUは、幾何学的特徴マップ
Figure 0007352748000043
と第2履歴隠し層状態
Figure 0007352748000044
を融合することで、今回の隠し層状態
Figure 0007352748000045
を最終的に得ることができる。説明しやすくするために、ゲート再帰型ユニットGRUの更新ゲートを
Figure 0007352748000046
と記し、リセットゲートを
Figure 0007352748000047
と記してもよく、以下で表されてもよい。
Figure 0007352748000048
・・・・(2)
Figure 0007352748000049
・・・・(3)
上記式(2)と式(3)において、sparseconvは、スパース畳み込みを表し、
Figure 0007352748000050
は、スパース畳み込みのネットワーク重みを表し、
Figure 0007352748000051
は、活性化関数(例えば、sigmoid)を表す。
この上で、更新ゲート
Figure 0007352748000052
とリセットゲート
Figure 0007352748000053
は、幾何学的特徴マップ
Figure 0007352748000054
からどれほどの情報を導入して融合するか、第2履歴隠し層状態
Figure 0007352748000055
からどれほどの情報を導入して融合するかを決定することができる。以下で表されてもよい。
・・・・(4)
・・・・(5)
上記式(4)と式(5)において、sparseconvは、スパース畳み込みを表し、
Figure 0007352748000058
は、スパース畳み込みのネットワーク重みを表し、tanhは、活性化関数を表す。これから分かるように、1つのデータドライバ方式として、GRUは、三次元再構築プロセスにおいて、選択的なアテンションメカニズムを提供することができる。
ステップS74において、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得る。
1つの実施シーンにおいて、上述した実施例に記載したように、三次元モデルは、予測ネットワーク(例えば、MLP)を更に含んでもよい。この上で、予測ネットワークに基づいて、今回の隠し層状態
Figure 0007352748000059
に対して予測を行い、第1再構築結果を得ることができる。
1つの実施シーンにおいて、予測ネットワークに基づいて、今回の隠し層状態
Figure 0007352748000060
に対して予測を行うことで、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得ることができ、且つ第1再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、この上で、第1空間における、確率値が所定の条件を満たすボクセルを選択することによって、選択されたボクセルの第1再構築値に基づいて、今回の再構築の第1再構築結果を得ることができる。詳細は、上述した実施例における関連説明を参照してもよい。ここで説明を省略する。
別の実施シーンにおいて、引き続き図8を参照すると、今回の隠し層状態
Figure 0007352748000061
を得た後、今回の隠し層状態
Figure 0007352748000062
における状態値に基づいて、第1履歴隠し層状態
Figure 0007352748000063
における該当するボクセルに対応する状態値を更新し、更新された第1履歴隠し層状態
Figure 0007352748000064
を得、次回の再構築に供することができる。上記方式によれば、更新により今回の隠し層状態を得た後、更に、第2空間の第1履歴隠し層状態を更新することができ、今回の再構築の上で第2空間の第1履歴隠し層状態の正確性の更なる向上に有利であり、それにより三次元再構築の正確性の向上に有利である。
1つの実施シーンにおいて、第1履歴隠し層状態
Figure 0007352748000065
における第1空間におけるボクセルの状態値を直接的に今回の隠し層状態
Figure 0007352748000066
における対応するボクセルの状態値に置き換えてもよい。
また1つの実施シーンにおいて、図9を参照すると、図9は、本願の実施例による三次元再構築方法の別の実施例のプロセスの概略図である。図3に示される三次元再構築プロセスと異なっており、本願の実施例に記載したように、図9に示される三次元再構築プロセスにおいて、この前の再構築により得られた第1履歴隠し層状態(即ち、図9におけるglobal hidden state)を導入した。即ち、上述した実施例に記載の三次元再構築プロセスにおいて、MLPなどのような予測ネットワークに基づいて、現在解像度に対応する第1特徴マップ
Figure 0007352748000067
に対して予測を行うたびに、以下のステップを含んでもよい。この前の再構築により得られた、現在解像度に対応する第1履歴隠し層状態を取得し、現在解像度に対応する第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とし、GRUのような融合ネットワークに基づいて、現在解像度に対応する第1特徴マップ
Figure 0007352748000068
に基づいて、第2履歴隠し層状態における状態値を更新し、現在解像度に対応する今回の隠し層状態を得ることを実行し、この上で更にMLPなどのような予測ネットワークに基づいて、現在解像度に対応する今回の隠し層状態に対して予測を行い、現在解像度に対応する第1再構築結果を得る。本願の実施例は、前記実施例との相違点をのみ説明する。他のプロセスは、上述した実施例における関連説明を参照してもよい。ここで説明を省略する。
前記実施例と異なっており、第1再構築結果を、三次元再構築モデルによって得られたものであるように設定し、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得し、且つ第1履歴隠し層状態は、第2空間におけるボクセルに対応する状態値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、この上で第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とすることによって、融合ネットワークに基づいて、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行し、更に、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得るため、各回の再構築プロセスにおいて、いずれも、この前の再構築によって得られた第1履歴隠し層状態を参照することができ、今回の再構築とこの前の再構築との一致性の向上に有利であり、それにより今回の再構築結果とこの前の再構築結果の間の階層化又は分散の発生確率の低減に有利であり、更に、三次元再構築結果の平滑さの更なる向上に有利である。
いくつかの実施例において、上記いずれか1つの三次元再構築方法の実施例における三次元再構築結果は、三次元再構築モデルによる再構築により得られたものである。サンプルターゲットに対して撮影を行うことで得られた若干組のサンプル画像を予め収集してもよい。各組のサンプル画像は、少なくとも2つのフレームのサンプルキー画像を含み、且つ各組のサンプル画像に含まれる少なくとも2つのフレームのサンプルキー画像の視錐は、第1サンプル空間により取り囲まれ、第1サンプル空間は、若干のボクセルを含む。前記実施例における関連説明を参照してもよい。ここで説明を省略する。前記実施例と異なっており、各組のサンプル画像に、第1サンプル空間における各ボクセルの第1実際再構築値と第1実際再構築値が所定の数値範囲内にある実際の確率値がラベリングされており、且つ第1実際再構築値は、ボクセルとサンプルターゲットにおける関連物体表面との距離を表すためのものであり、第1実際再構築値は、TSDFで表されてもよい。関連物体表面は、前記実施例における関連説明を参照してもよい。ここで説明を省略する。なお、第1実際再構築値が所定の数値範囲内にある場合、第1実際再構築値に対応する実際確率値は、1とラベリングされてもよい。第1実際再構築値が所定の数値範囲内ではない場合、第1実際再構築値に対応する実際確率値は、0とラベリングされてもよい。この上で、1組のサンプル画像に含まれる少なくとも2つのフレームのサンプルキー画像を三次元再構築モデルの特徴抽出ネットワーク(例えば、FPN)に入力し、第1サンプル空間の第1サンプル特徴マップを得ることができ、且つ第1サンプル特徴マップは、第1サンプル空間におけるボクセルの第1サンプル特徴情報を含む。それにより、第1サンプル特徴マップを三次元再構築モデルの予測ネットワークに入力し、第1サンプル再構築結果を得ることができる。且つ第1再構築結果は、第1サンプル空間における各ボクセルの第1サンプル再構築値と第1サンプル再構築値が所定の数値範囲内にあるサンプル確率値を含み、更に、第1サンプル空間における各ボクセルの第1サンプル再構築値と第1実際再構築値との差異、及び第1サンプル空間における各ボクセルのサンプル確率値と実際確率値との差異に基づいて、三次元再構築モデルのネットワークパラメータを調整することができる。
1つの実施例において、二分類クロスエントロピー損失(binary cross-entropy:BCE)関数に基づいて、サンプル確率値と実際確率値との第1損失値を計算し、L1損失関数に基づいて、第1サンプル再構築値と第1実際再構築値との第2損失値を計算することができ、それにより第1損失値と第2損失値に基づいて、三次元再構築モデルのネットワークパラメータを調整することができる。
別の実施シーンにおいて、前記実施例と同様に、第1サンプル再構築結果を予測するプロセスにおいて、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1サンプル履歴隠し層状態を取得し、且つ第1サンプル履歴隠し層状態は、第2サンプル空間におけるボクセルに対応するサンプル状態値を含み、第2サンプル空間は、この前に再構築された若干組のサンプル画像の視錐を取り囲む総空間であり、この上で第1サンプル履歴隠し層状態から、第1サンプル空間のボクセルに対応するサンプル状態値を抽出して第2サンプル履歴隠し層状態とすることによって、融合ネットワークに基づいて、第1サンプル特徴マップに基づいて、第2サンプル履歴隠し層状態におけるサンプル状態値を更新し、今回のサンプル隠し層状態を得ることを実行し、更に、予測ネットワークを用いて、今回のサンプル隠し層状態に対して予測を行い、第1サンプル再構築結果を得ることができる。前記実施例における関連説明を参照してもよい。ここで説明を省略する。
図10を参照すると、図10は、本願の実施例による三次元再構築装置100の一実施例のフレームワーク概略図である。三次元再構築装置100は、キー画像取得モジュール101と、第1空間決定モジュール102と、第1特徴取得モジュール103と、再構築結果取得モジュール104と、再構築結果更新モジュール105と、を備え、キー画像取得モジュール101は、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得するように構成され、第1空間決定モジュール102は、少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定するように構成され、ここで、第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものであり、第1特徴取得モジュール103は、少なくとも2つのフレームの第1キー画像における画像情報に基づいて、第1空間の第1特徴マップを得るように構成され、ここで、第1特徴マップは、第1空間におけるボクセルの第1特徴情報を含み、再構築結果取得モジュール104は、第1特徴マップに基づいて、今回の再構築の第1再構築結果を得るように構成され、再構築結果更新モジュール105は、今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新するように構成される。
いくつかの実施例において、三次元再構築装置100は、各フレームの第1キー画像に対してそれぞれ特徴抽出を行い、第1キー画像の第2特徴マップを得るように構成される第2特徴取得モジュールを更に備え、第1特徴取得モジュール103は、第1空間の各ボクセルの、第2特徴マップにおける対応する第2特徴情報に基づいて、第1空間の第1特徴マップを得るように構成される。
いくつかの実施例において、第1特徴取得モジュール103は、各フレームの第1キー画像の第2特徴マップから、ボクセルに対応する第2特徴情報をそれぞれ抽出するように構成される特徴情報抽出サブモジュールを備え、第1特徴取得モジュール103は、ボクセルにそれぞれ対応する少なくとも2つのフレームの第1キー画像の第2特徴情報を融合し、ボクセルの第1特徴情報を得るように構成される特徴情報融合サブモジュールを備え、第1特徴取得モジュール103は、第1空間の各ボクセルの第1特徴情報に基づいて、第1空間の第1特徴マップを得るように構成される第1特徴取得サブモジュールを備える。
いくつかの実施例において、特徴情報融合サブモジュールは、ボクセルに対応する各フレームの第1キー画像の第2特徴情報の平均値をボクセルの第1特徴情報とするように構成される。
いくつかの実施例において、第1特徴取得モジュール103は、各フレームの第1キー画像の第2特徴マップから、いずれも、ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報をボクセルの第1特徴情報とするように構成される特徴情報設定サブモジュールを更に備える。
いくつかの実施例において、各フレームの第1キー画像の第2特徴マップは、いずれも、異なる解像度に対応する所定の枚数の第2特徴マップを含み、第1空間は、異なる解像度に対応する所定の数の第1空間を含み、解像度が高いほど、第1空間におけるボクセルのサイズが小さくなり、第1特徴マップは、異なる解像度に対応する所定の枚数の第1特徴マップを含み、各枚の第1特徴マップは、同じ解像度の第2特徴マップの第2特徴情報に基づいて得られたものである。
いくつかの実施例において、再構築結果取得モジュール104は、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とするように構成される解像度選択サブモジュールを備え、再構築結果取得モジュール104は、前回選択された解像度に対応する第1再構築結果に対してアップサンプリングを行い、アップサンプリングされた第1再構築結果と現在解像度に対応する第1特徴マップを融合し、現在解像度に対応する融合特徴マップを得るように構成される特徴マップ更新サブモジュールを備え、再構築結果取得モジュール104は、融合特徴マップに基づいて、現在解像度に対応する第1再構築結果を得るように構成される再構築結果取得サブモジュールを備え、再構築結果取得モジュール104は、現在解像度が最高解像度ではない場合、前記解像度選択サブモジュール、特徴マップ更新サブモジュール及び再構築結果取得サブモジュールを結び付けて、解像度の低い順に応じて、1つの解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行するように構成される繰り返し実行サブモジュールを備え、再構築結果取得モジュール104は、現在解像度が最高解像度である場合、現在解像度に対応する第1再構築結果を今回の再構築の最終的な第1再構築結果とするように構成される第1結果決定サブモジュールを備える。
いくつかの実施例において、再構築結果取得モジュール104は、第1特徴マップに基づいて、予測を行い、第1空間における各ボクセルの第1再構築値と第1再構築値が所定の数値範囲内にある確率値を得るように構成される結果予測サブモジュールであって、ここで、第1再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものである、結果予測サブモジュールを備え、再構築結果取得モジュール104は、第1空間における、確率値が所定の条件を満たすボクセルを選択するように構成されるボクセル選択サブモジュールを備え、再構築結果取得モジュール104は、選択されたボクセルの第1再構築値に基づいて、今回の再構築の第1再構築結果を得るように構成される第2結果決定サブモジュールを備える。
いくつかの実施例において、第1再構築結果は、第1空間におけるボクセルの第1再構築値を含み、第2再構築結果は、第2空間におけるボクセルの第2再構築値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間であり、第1再構築値と第2再構築値は、ボクセルと再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、再構築結果更新モジュール105は、第1空間におけるボクセルの第1再構築値に基づいて、第2空間における対応するボクセルの第2再構築値を更新するように構成される。
いくつかの実施例において、関連物体表面は、再構築待ちターゲットにおける、ボクセルとの距離が最も近い物体表面である。
いくつかの実施例において、第1再構築結果は、三次元再構築モデルによって得られたものであり、再構築結果取得モジュール104は、三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得するように構成される隠し層状態取得サブモジュールであって、ここで、第1履歴隠し層状態は、第2空間におけるボクセルに対応する状態値を含み、第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間である、隠し層状態取得サブモジュールを備え、再構築結果取得モジュール104は、第1履歴隠し層状態から、第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とするように構成される隠し層状態抽出サブモジュールを備え、再構築結果取得モジュール104は、融合ネットワークに基づいて、第1特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得ることを実行するように構成される隠し層状態更新サブモジュールを備え、再構築結果取得モジュール104は、三次元再構築モデルを用いて、今回の隠し層状態に対して予測を行い、第1再構築結果を得るように構成される再構築結果予測サブモジュールを備える。
いくつかの実施例において、今回の再構築が初回の再構築である場合、第1履歴隠し層状態における状態値は、所定の状態値である。
いくつかの実施例において、融合ネットワークは、ゲート再帰型ユニットを含む。
いくつかの実施例において、三次元再構築モデルは、予測ネットワークを更に含み、再構築結果予測サブモジュールは、予測ネットワークに基づいて、今回の隠し層状態に対して予測を行い、第1再構築結果を得るように構成される。
いくつかの実施例において、再構築結果取得モジュール104は、第1特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得るように構成される幾何学的特徴抽出サブモジュールであって、ここで、幾何学的特徴マップは、ボクセルの幾何学的情報を含む、幾何学的特徴抽出サブモジュールを備え、隠し層状態更新サブモジュールは、幾何学的特徴マップに基づいて、第2履歴隠し層状態における状態値を更新し、今回の隠し層状態を得るように構成される。
いくつかの実施例において、再構築結果取得モジュール104は、今回の隠し層状態における状態値に基づいて、第1履歴隠し層状態における該当するボクセルに対応する状態値を更新するように構成される履歴状態更新サブモジュールを更に備える。
いくつかの実施例において、再構築ターゲットを撮影するプロセスにおいて、少なくとも2つのフレームの第1キー画像を取得し、第1キー画像は、カメラ方位姿勢パラメータに対応し、カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、第1キー画像は、隣接する第1キー画像間の並進距離の差異が所定の距離閾値よりも大きいことと、隣接する第1キー画像間の回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも1つを満たす。
図11を参照すると、図11は、本願の実施例による電子機器110の一実施例のフレームワーク概略図である。電子機器110は、互いに結合されるメモリ111とプロセッサ112を備え、プロセッサ112は、メモリ111に記憶されているプログラム命令を実行し、上記いずれか1つの三次元再構築方法のステップを実施する。1つの実施シーンにおいて、電子機器110は、マイクロコンピュータ、サーバを含んでもよいが、それらに限らない。なお、電子機器110は、ノートパソコン、タブレットあんどの携帯機器を更に含んでもよい。ここで限定しない。
プロセッサ112は、その自体及びメモリ111を制御して、上記いずれか1つの三次元再構築方法の実施例におけるステップを実現させるように構成される。プロセッサ112は、CPU(Central Processing Unit:中央演算装置)と呼ばれてもよい。プロセッサ52は、信号処理能力を持つ集積回路チップであってもよい。プロセッサ112は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor:DSP)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)又は他のプログラマブルゲートアレイ、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントであってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、該プロセッサは、如何なる従来のプロセッサなどであってもよい。なお、プロセッサ112は、集積回路チップにより共同で実現してもよい。
上記方案において、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。
図12を参照すると、図12は、本願の実施例によるコンピュータ可読記憶媒体120の一実施例のフレームワーク概略図である。コンピュータ可読記憶媒体120に、プロセッサにより実行可能なプログラム命令121が記憶されており、プログラム命令121は、プロセッサに上記いずれか1つの三次元再構築方法の実施例のステップを実現させるためのものである。
上記方案において、三次元再構築プロセスのリアルタイム性及び三次元再構築結果の平滑さを向上させることができる。
幾つかの実施例において、本願の実施例により提供される装置が有する機能又は含んでいるモジュールは、上記方法の実施例に記載の方法を実行するように構成されてもよく、その具体的な実現は、上記方法の実施例の記述を参照することができ、簡潔のために、ここで説明を省略する。
上記各実施例に対する説明は、各実施例間の相違を強調し、その同じまたは類似な所は相互に参照されることができ、簡潔のために、ここで説明を省略する。
本願で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。以上に記載した装置の実施例はただ例示的なものであり、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。また例えば、複数のユニット又はコンポーネントを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した前記ユニットは、物理的に別個のものであってもよく、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークユニットに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットを選択して本実施例の方策の目的を実現することができる。
また、本願の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、2つ又は2つ以上のユニットが1つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形式で実現してもよく、ソフトウェア機能ユニットの形式で実現してもよい。
集積したユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよいことに留意されたい。このような理解のもと、本願の実施例の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ機器(パソコン、サーバ、又はネットワーク装置など)又はプロセッサ(processor)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなどの、プログラムコードを記憶できる種々の媒体を含む。
本願の実施例は、三次元再構築方法、装置、機器及び記憶媒体を提供する。ここで、三次元再構築方法は、今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、前記少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定することであって、ここで、前記第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、前記少なくとも2つのフレームの第1キー画像における画像情報に基づいて、前記第1空間の第1特徴マップを得ることであって、ここで、前記第1特徴マップは、前記第1空間におけるボクセルの第1特徴情報を含む、ことと、前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることと、前記今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新することと、を含む。

Claims (14)

  1. 電子機器により実行される三次元再構築方法であって、
    今回の再構築のための少なくとも2つのフレームの第1キー画像を取得し、前記少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定することであって、前記第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、ことと、
    前記少なくとも2つのフレームの第1キー画像における画像情報に基づいて、前記第1空間の第1特徴マップを得ることであって、前記第1特徴マップは、前記第1空間におけるボクセルの第1特徴情報を含む、ことと、
    前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることと、
    前記今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新することと、を含み、
    前記第1再構築結果は、三次元再構築モデルによって得られたものであり、前述した前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、
    前記三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得することであって、前記第1履歴隠し層状態は、第2空間における前記ボクセルに対応する状態値を含み、前記第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間である、ことと、
    前記第1履歴隠し層状態から、前記第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とすることと、
    前記融合ネットワークにおいて、前記第1特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることと、
    前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、前記第1再構築結果を得ることと、を含む、方法。
  2. 前記今回の再構築のための少なくとも2つのフレームの第1キー画像を取得した後、前記方法は、
    各フレームの前記第1キー画像に対してそれぞれ特徴抽出を行い、各フレームの前記第1キー画像の第2特徴マップを得ることを含み、
    前記少なくとも2つのフレームの第1キー画像における画像情報に基づいて、前記第1空間の第1特徴マップを得ることは、
    前記第1空間の各ボクセルの、前記第2特徴マップにおける対応する第2特徴情報に基づいて、前記第1空間の前記第1特徴マップを得ることを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記第1空間の各ボクセルの、前記第2特徴マップにおける対応する第2特徴情報に基づいて、前記第1空間の前記第1特徴マップを得ることは、
    各フレームの前記第1キー画像の前記第2特徴マップから、前記ボクセルに対応する第2特徴情報をそれぞれ抽出することと、
    前記ボクセルにそれぞれ対応する前記少なくとも2つのフレームの第1キー画像の前記第2特徴情報を融合し、前記ボクセルの第1特徴情報を得ることと、
    前記第1空間の各ボクセルの前記第1特徴情報に基づいて、前記第1空間の前記第1特徴マップを得ることと、を含むことを特徴とする
    請求項2に記載の方法。
  4. 前記ボクセルにそれぞれ対応する前記少なくとも2つのフレームの第1キー画像の前記第2特徴情報を融合し、前記ボクセルの第1特徴情報を得ることは、
    前記ボクセルに対応する前記少なくとも2つのフレームの第1キー画像の第2特徴情報の平均値を前記ボクセルの第1特徴情報とすることと、
    各フレームの前記第1キー画像の第2特徴マップから、いずれも、前記ボクセルに対応する第2特徴情報が抽出されていない場合、所定の特徴情報を前記ボクセルの第1特徴情報とすることと、のうちの少なくとも1つを含むことを特徴とする
    請求項3に記載の方法。
  5. 各フレームの前記第1キー画像の第2特徴マップは、異なる解像度に対応する所定の枚数の第2特徴マップを含み、前記第1空間は、異なる解像度に対応する所定の数の第1空間を含み、前記第1特徴マップは、異なる前記解像度に対応する所定の枚数の第1特徴マップを含み、各枚の前記第1特徴マップは、同じ前記解像度の前記第2特徴マップの第2特徴情報に基づいて得られたものであり、
    前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、
    前記解像度の低い順に応じて、1つの前記解像度を順に選択して現在解像度とすることと、
    前回選択された解像度に対応する第1再構築結果に対してアップサンプリングを行い、アップサンプリングされた第1再構築結果と前記現在解像度に対応する第1特徴マップを融合し、前記現在解像度に対応する融合特徴マップを得ることと、
    前記融合特徴マップに基づいて、前記現在解像度に対応する第1再構築結果を得ることと、
    前記現在解像度が最高の前記解像度ではない場合、前記解像度の低い順に応じて、1つの前記解像度を順に選択して現在解像度とするステップ及び後続のステップを再実行することと、
    前記現在解像度が最高の前記解像度である場合、前記現在解像度に対応する第1再構築結果を今回の再構築の前記第1再構築結果とすることと、を含むことを特徴とする
    請求項2から4のうちいずれか一項に記載の方法。
  6. 前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得ることは、
    前記第1特徴マップに基づいて、予測を行い、前記第1空間における各前記ボクセルの第1再構築値と前記第1再構築値が所定の数値範囲内にある確率値を得ることであって、前記第1再構築値は、前記ボクセルと前記再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、前記関連物体表面は、前記再構築待ちターゲットにおける、前記ボクセルとの距離が最も近い物体表面である、ことと、
    第1空間における、前記確率値が所定の条件を満たす前記ボクセルを選択することと、
    選択された前記ボクセルの前記第1再構築値に基づいて、今回の再構築の第1再構築結果を得ることと、をさらに含むことを特徴とする
    請求項1から5のうちいずれか一項に記載の方法。
  7. 前記第1再構築結果は、前記第1空間における前記ボクセルの第1再構築値を含み、前記第2再構築結果は、第2空間における前記ボクセルの第2再構築値を含み、前記第1再構築値と前記第2再構築値は、前記ボクセルと前記再構築待ちターゲットにおける関連物体表面との距離を表すためのものであり、前記関連物体表面は、前記再構築待ちターゲットにおける、前記ボクセルとの距離が最も近い物体表面であり、
    前記今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新することは、
    前記第1空間における前記ボクセルの第1再構築値に基づいて、前記第2空間における対応する前記ボクセルの第2再構築値を更新することを含むことを特徴とする
    請求項1から6のうちいずれか一項に記載の方法。
  8. 今回の再構築が初回の再構築である場合、前記第1履歴隠し層状態における状態値は、所定の状態値であり、
    前記融合ネットワークは、ゲート再帰型ユニットを含み、前記三次元再構築モデルは、予測ネットワークを更に含み、前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、第1再構築結果を得ることは、
    前記予測ネットワークに基づいて、前記今回の隠し層状態に対して予測を行い、前記第1再構築結果を得ることを含むことを特徴とする
    請求項に記載の方法。
  9. 前記第1特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得る前に、前記方法は、
    前記第1特徴マップに対して幾何学的情報抽出を行い、幾何学的特徴マップを得ることであって、前記幾何学的特徴マップは、前記ボクセルの幾何学的情報を含む、ことを含み、
    前記第1特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることは、
    前記幾何学的特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることを含むことを特徴とする
    請求項1又は8に記載の方法。
  10. 前記第1特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得た後、前記方法は、
    前記今回の隠し層状態における状態値に基づいて、前記第1履歴隠し層状態における該当する前記ボクセルに対応する状態値を更新することを更に含むことを特徴とする
    請求項1から9のうちいずれか一項に記載の方法。
  11. 今回の再構築に用いられる少なくとも2つのフレームの第1キー画像を取得することは、
    前記再構築待ちターゲットを撮影するプロセスにおいて、前記少なくとも2つのフレームの第1キー画像を取得することを含み、
    前記第1キー画像は、カメラ方位姿勢パラメータに対応し、前記カメラ方位姿勢パラメータは、並進距離と回転角度とを含み、前記第1キー画像は、隣接する前記第1キー画像間の前記並進距離の差異が所定の距離閾値よりも大きいことと、隣接する前記第1キー画像間の前記回転角度の差異が所定の角度閾値よりも大きいことと、のうちの少なくとも1つを満たすことを特徴とする
    請求項1から10のうちいずれか一項に記載の方法。
  12. 三次元再構築装置であって、
    今回の再構築のための少なくとも2つのフレームの第1キー画像を取得するように構成されるキー画像取得モジュールと、
    前記少なくとも2つのフレームの第1キー画像の視錐を取り囲む第1空間を決定するように構成される第1空間決定モジュールであって、第1キー画像は、再構築待ちターゲットに対して撮影を行うことで得られたものである、第1空間決定モジュールと、
    前記少なくとも2つのフレームの第1キー画像における画像情報に基づいて、前記第1空間の第1特徴マップを得るように構成される第1特徴取得モジュールであって、前記第1特徴マップは、前記第1空間におけるボクセルの第1特徴情報を含む、第1特徴取得モジュールと、
    前記第1特徴マップに基づいて、今回の再構築の第1再構築結果を得るように構成される再構築結果取得モジュールと、
    前記今回の再構築の第1再構築結果に基づいて、この前の再構築により得られた第2再構築結果を更新するように構成される再構築結果更新モジュールと、を備え
    前記第1再構築結果は、三次元再構築モデルによって得られたものであり、
    前記再構築結果取得モジュールは、
    前記三次元再構築モデルの融合ネットワークによるこの前の再構築によって得られた第1履歴隠し層状態を取得するように構成される隠し層状態取得サブモジュールであって、前記第1履歴隠し層状態は、第2空間における前記ボクセルに対応する状態値を含み、前記第2空間は、この前に再構築された第2キー画像の視錐を取り囲む総空間である、隠し層状態取得サブモジュールと、
    前記第1履歴隠し層状態から、前記第1空間のボクセルに対応する状態値を抽出して第2履歴隠し層状態とするように構成される隠し層状態抽出サブモジュールと、
    前記融合ネットワークにおいて、前記第1特徴マップに基づいて、前記第2履歴隠し層状態における前記状態値を更新し、今回の隠し層状態を得ることを実行するように構成される隠し層状態更新サブモジュールと、
    前記三次元再構築モデルを用いて、前記今回の隠し層状態に対して予測を行い、前記第1再構築結果を得るように構成される再構築結果予測サブモジュールと、を備える、三次元再構築装置。
  13. 互いに結合されるメモリとプロセッサを備える電子機器であって、前記プロセッサは、前記メモリに記憶されているプログラム命令を実行し、請求項1から11のうちいずれか一項に記載の方法を実施する、電子機器。
  14. プロセッサにより実行されるとき、前記プロセッサに請求項1から11のうちいずれか一項に記載の方法を実行させるためのプログラム命令を記憶した、コンピュータ可読記憶媒体。
JP2022546566A 2021-01-15 2021-06-24 三次元再構築方法、装置、機器及び記憶媒体 Active JP7352748B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110057035.9A CN112750201B (zh) 2021-01-15 2021-01-15 三维重建方法及相关装置、设备
CN202110057035.9 2021-01-15
PCT/CN2021/102117 WO2022151661A1 (zh) 2021-01-15 2021-06-24 一种三维重建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2023514107A JP2023514107A (ja) 2023-04-05
JP7352748B2 true JP7352748B2 (ja) 2023-09-28

Family

ID=75652226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022546566A Active JP7352748B2 (ja) 2021-01-15 2021-06-24 三次元再構築方法、装置、機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20230290099A1 (ja)
JP (1) JP7352748B2 (ja)
KR (1) KR20220120674A (ja)
CN (1) CN112750201B (ja)
WO (1) WO2022151661A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750201B (zh) * 2021-01-15 2024-03-29 浙江商汤科技开发有限公司 三维重建方法及相关装置、设备
CN113706373A (zh) * 2021-08-25 2021-11-26 深圳市慧鲤科技有限公司 模型重建方法及相关装置、电子设备和存储介质
CN114429495B (zh) * 2022-03-14 2022-08-30 荣耀终端有限公司 一种三维场景的重建方法和电子设备
CN115359192B (zh) * 2022-10-14 2023-03-28 阿里巴巴(中国)有限公司 三维重建与商品信息处理方法、装置、设备及存储介质
CN116958455B (zh) * 2023-09-21 2023-12-26 北京飞渡科技股份有限公司 基于神经网络的屋顶重建方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013869A (ja) 2002-06-12 2004-01-15 Nec Corp 3次元形状生成装置及びそれに用いる3次元形状生成方法並びにそのプログラム
JP2005250692A (ja) 2004-03-02 2005-09-15 Softopia Japan Foundation 物体の同定方法、移動体同定方法、物体同定プログラム、移動体同定プログラム、物体同定プログラム記録媒体、移動体同定プログラム記録媒体
JP2009048305A (ja) 2007-08-15 2009-03-05 Nara Institute Of Science & Technology 形状解析プログラム及び形状解析装置
JP2009074836A (ja) 2007-09-19 2009-04-09 Advanced Telecommunication Research Institute International 画像処理装置、画像処理方法及び画像処理プログラム
WO2010126071A1 (ja) 2009-04-28 2010-11-04 日本電気株式会社 物体位置推定装置、物体位置推定方法及びプログラム
JP2018032938A (ja) 2016-08-23 2018-03-01 キヤノン株式会社 画像処理装置、画像処理の方法およびプログラム
CN108537876A (zh) 2018-03-05 2018-09-14 清华-伯克利深圳学院筹备办公室 基于深度相机的三维重建方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231370A (ja) * 1996-02-21 1997-09-05 Canon Inc 画像情報入力装置
US10740986B2 (en) * 2018-08-30 2020-08-11 Qualcomm Incorporated Systems and methods for reconstructing a moving three-dimensional object
US11978146B2 (en) * 2018-09-18 2024-05-07 Seoul National University R&Db Foundation Apparatus and method for reconstructing three-dimensional image
CN112017228B (zh) * 2019-05-31 2024-09-17 华为技术有限公司 一种对物体三维重建的方法及相关设备
CN111369681B (zh) * 2020-03-02 2022-04-15 腾讯科技(深圳)有限公司 三维模型的重构方法、装置、设备及存储介质
CN111652966B (zh) * 2020-05-11 2021-06-04 北京航空航天大学 一种基于无人机多视角的三维重建方法及装置
CN112750201B (zh) * 2021-01-15 2024-03-29 浙江商汤科技开发有限公司 三维重建方法及相关装置、设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013869A (ja) 2002-06-12 2004-01-15 Nec Corp 3次元形状生成装置及びそれに用いる3次元形状生成方法並びにそのプログラム
JP2005250692A (ja) 2004-03-02 2005-09-15 Softopia Japan Foundation 物体の同定方法、移動体同定方法、物体同定プログラム、移動体同定プログラム、物体同定プログラム記録媒体、移動体同定プログラム記録媒体
JP2009048305A (ja) 2007-08-15 2009-03-05 Nara Institute Of Science & Technology 形状解析プログラム及び形状解析装置
JP2009074836A (ja) 2007-09-19 2009-04-09 Advanced Telecommunication Research Institute International 画像処理装置、画像処理方法及び画像処理プログラム
WO2010126071A1 (ja) 2009-04-28 2010-11-04 日本電気株式会社 物体位置推定装置、物体位置推定方法及びプログラム
JP2018032938A (ja) 2016-08-23 2018-03-01 キヤノン株式会社 画像処理装置、画像処理の方法およびプログラム
CN108537876A (zh) 2018-03-05 2018-09-14 清华-伯克利深圳学院筹备办公室 基于深度相机的三维重建方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Kaiwen Guo et al.,"Real-Time Geometry, Albedo, and Motion Reconstruction Using a Single RGB-D Camera",ACM Transactions on Graphics,米国,ACM,2017年07月16日,Vol.36, No.4,pp.1-13
Mengqi Ji et al.,"SurfaceNet: An End-to-End 3D Neural Network for Multiview Stereopsis",2017 IEEE International Conference on Computer Vision (ICCV),米国,IEEE,2017年10月22日,pp.2326-2334
佐藤 智和、外3名,"マルチベースラインステレオ法を利用した動画像からの屋外環境の三次元モデル化",日本バーチャルリアリティ学会論文誌,日本,日本バーチャルリアリティ学会,2002年06月30日,Vol.7, No.2,pp.275-282
蚊野 浩,"インタラクティブコンテンツの生成 パノラマ画像と3Dモデリング",映像情報メディア学会誌,日本,(社)映像情報メディア学会,2008年11月01日,Vol.62, No.11,pp.1724-1729
鍋嶋 累、外3名,"実時間自由視点映像生成のフレームレート安定化 -形状復元の多重解像度処理-",電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2007年12月01日,Vol.J90-D, No.12,pp.3221-3232

Also Published As

Publication number Publication date
WO2022151661A1 (zh) 2022-07-21
US20230290099A1 (en) 2023-09-14
CN112750201B (zh) 2024-03-29
CN112750201A (zh) 2021-05-04
JP2023514107A (ja) 2023-04-05
KR20220120674A (ko) 2022-08-30

Similar Documents

Publication Publication Date Title
JP7352748B2 (ja) 三次元再構築方法、装置、機器及び記憶媒体
CN111369681B (zh) 三维模型的重构方法、装置、设备及存储介质
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN111445418B (zh) 图像去雾处理方法、装置及计算机设备
US11823322B2 (en) Utilizing voxel feature transformations for view synthesis
US20170213320A1 (en) Reconstruction of articulated objects from a moving camera
CN113689578B (zh) 一种人体数据集生成方法及装置
WO2020186385A1 (zh) 图像处理方法、电子设备及计算机可读存储介质
JP6902811B2 (ja) 視差推定システムと方法、電子機器及びコンピュータ可読記憶媒体
US12026857B2 (en) Automatically removing moving objects from video streams
CN111340866A (zh) 深度图像生成方法、装置及存储介质
US20220215617A1 (en) Viewpoint image processing method and related device
WO2022052782A1 (zh) 图像的处理方法及相关设备
JP2019091436A (ja) 3d配置のタイプに応じた2d画像の分類
CN112241934B (zh) 一种图像处理方法以及相关设备
CN115439615A (zh) 一种基于三维bim的分布式综合管理系统
CN113989460B (zh) 用于增强现实场景的实时天空替换特效控制方法及装置
CN112802202A (zh) 图像处理方法、装置、电子设备及计算机存储介质
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN110866866A (zh) 图像仿色处理方法、装置、电子设备及存储介质
CN114445676A (zh) 一种手势图像处理方法、存储介质及设备
CN115147527A (zh) 三维网格生成模型的构建方法、三维网格生成方法及装置
CN114331827B (zh) 风格迁移方法、装置、设备和存储介质
US20240193728A1 (en) Method and electronic device for training image processing model and method and electronic device for processing images using image processing model
KR102587233B1 (ko) 소수의 협소화각 rgbd 영상으로부터 360 rgbd 영상 합성

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7352748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150