JP2020515931A

JP2020515931A - シーンのセグメンテーションと３ｄ再構築を組み合わせるための方法及び装置

Info

Publication number: JP2020515931A
Application number: JP2019533614A
Authority: JP
Inventors: ルオ，タオ
Original assignee: インターデジタルシーイーパテントホールディングス
Priority date: 2016-12-28
Filing date: 2017-12-21
Publication date: 2020-05-28
Also published as: US20200380711A1; WO2018122087A1; CN110121733A; EP3563346A1; KR20190101382A; EP3343506A1

Abstract

シーンの少なくとも１つの画像のセットから、このシーンのセグメンテーションと３Ｄ再構築を組み合わせる方法は、−シーンの初期３Ｄ再構築を取得すること（１１）と、−初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得すること（１２）と、−初期３Ｄ再構築の初期セグメンテーションを取得すること（１３）と、−シーンの初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、初期３Ｄ特徴から、かつセットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定すること（１４）であって、強化された３Ｄ特徴が初期セグメンテーションに少なくとも部分的に対応することと、−初期セグメンテーションと強化された３Ｄ特徴から、強化されたセグメンテーションと改良された３Ｄ再構築を決定すること（１５）とを含む。拡張現実感への適用。

Description

１．技術分野
本開示は、信号処理の分野に関し、より詳細には、画像又は動画の処理に関する。

より詳細には、本開示は、従来技術の技法のいくつかと比較して、シーンのセグメンテーションと再構築を改善することを目的として、このシーンのセグメンテーションと３Ｄ再構築を組み合わせるための方法に関する。

本開示は、３Ｄ再構築が対象となるあらゆる用途に特に適している。たとえば、ナビゲーション、自律ロボット工学、バーチャル・リアリティ、拡張現実感及び／又は複合現実感、スマート・ホーム機器などのような分野では、そうした場合となり得る。

２．背景技術
このセクションは、技術の様々な態様を読者に紹介するものであり、これらの態様は、以下で説明され、及び／又は特許請求の範囲に記載されている本開示の様々な態様に関連していてもよい。本開示の様々な態様の理解がさらに進むよう、読者に背景情報を提示する際に、この考察が有益であると考えられる。したがって、こうした説明は、この観点から読むべきであり、従来技術を認めるものとして読むべきではないことを理解されたい。

奥行きセンサの開発に伴って、３Ｄデータを処理しなければならない装置がますます増えてきている。したがって、取り込んだデータを処理し、シーンをさらに良好に理解できるようにするには、困難な課題が持ち上がっている。具体的には、シーンの正確な３Ｄ表現を実現するには、セグメンテーションと３Ｄ再構築の両方が重要である。

３Ｄシーンのセグメンテーションは、この３Ｄシーンを複数のセグメント又は構成要素に分割することとして定義され、このセグメントのそれぞれは、１組の隣接画素を含み、ラベルによって好都合に識別される。

セグメンテーション及び３Ｄ再構築は、まずは別々に考えられてきた。その結果は、満足するものではなかった。

３Ｄメッシュの形で点群の３Ｄ再構築を強化することは、たとえば、Autodesk, Inc.の米国特許出願第２０１５／０１４６９７１Ａ１号に記載されている。この文書によれば、点群は、写真画像データとスキャン・データの組合せから生成され、初期の粗いメッシュが、この点群データから推定され、３Ｄメッシュ全体にわたる画像ペア間のフォトコンシステンシーを最大化し、３Ｄメッシュと点群の間の３Ｄ距離を最小限に抑えることによって、その粗いメッシュが繰り返し改善される。

通常、セグメンテーションの性能は、３Ｄ再構築によって影響され、その逆の場合も同様なので、セグメンテーションと３Ｄ再構築は一緒に考えられてきた。そうするために、従来技術での各技法のうちいくつかは、ラベル付けされたトレーニング・データセットに基づく、セマンティック・セグメンテーションと再構築の組合せを利用している。

たとえば、C.Haneらにより、「Joint 3D Scene Reconstruction and Class Segmentation」（IEEE Conference on Computer Vision and Patter Recognition（ＣＶＰＲ）、２０１３年）において、セグメンテーションと密な再構築を組み合わせる問題への解決策が開示されている。データ画像とそれに対応する奥行きマップが入力として取り出され、正確なクラス・ラベルを用いた３Ｄ再構築が出力として生成される。著者らは、従来の立体再構築法を、マルチラベル立体セグメンテーション・フレームワークにまで拡張している。この技法によれば、外観ベースの手がかり、及び３Ｄ表面配向プライア（prior）は、トレーニング・データから学習され、続いて、クラス固有の正則化に使用される。こうしたプライアは、奥行きマップから得られる測定済みの証拠を互いに補完し合って、再構築とラベリングを一緒に改善する。

A. Kunduらによる「Joint Semantic Segmentation and 3D Reconstruction from Monocular Video」（European Conference on Computer Vision、２０１４年）において、単眼画像ストリームから始まり、視覚的ＳＬＡＭ（「同時位置決め地図作成」）及び初期の２Ｄシーン解析が実行される。この技法は、３Ｄ構造とセマンティック・ラベルの両方を示す３Ｄマップを生成する。この技法によると、カテゴリ固有のセンサ・モデルを使用して、ＳＬＡＭからの奥行き推定を強化し、連続したカメラ位置からの空きスペースを知ることで、構造のあいまいさを低減するのに役立つ。

前述の技法は両方とも、セマンティック・セグメンテーションを考慮に入れ、オブジェクト・カテゴリ固有の手がかりを使用して３Ｄ再構築を実現する。したがって、これらの技法の性能は、トレーニング・データ、特にオブジェクト・カテゴリの数のような、データセットのスケーラビリティに依存する。さらに、再構築は、立体データとして示され、したがって空間分解能の観点から制限される。さらに、最終の３Ｄ再構築は、幾何学的な観点からは比較的粗い。たとえば、オブジェクトの鋭いエッジは滑らかであることが多く、直線はノイズの多いデータの影響を受けることが多い。したがって、３Ｄ再構築は、用途によっては、さらに細かい相互作用をおこなうのに十分なほど正確ではない。

したがって、特にオブジェクトの幾何学的形状の、良好な再構築の質を可能にする、シーンのセグメンテーションと３Ｄ再構築の組合せのための方法が必要となっている。

３．概要
本開示は、シーンの少なくとも１つの画像のセットから、このシーンのセグメンテーションと３Ｄ再構築を組み合わせる方法に関し、シーンのセグメンテーションが、このシーンの３Ｄ再構築の各セグメントへの分割に対応し、この方法は、
−シーンの初期３Ｄ再構築を取得することと、
−この初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得することと、
−この初期３Ｄ再構築の初期セグメンテーションを取得することと、
−シーンの前記初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、初期３Ｄ特徴から、かつセットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定することであって、この強化された３Ｄ特徴が初期セグメンテーションに少なくとも部分的に対応することと、
−初期セグメンテーションと強化された３Ｄ特徴の両方から、強化されたセグメンテーションと改良された３Ｄ再構築の両方を決定することと
を含む。

したがって、本開示には、シーンのセグメンテーションと３Ｄ再構築の組合せのための新規で発明性のある解決策が提案されており、このシーンを、特にオブジェクトとすることができ、前述の欠点のうち少なくとも１つを克服する。特に、本開示は、トレーニング・データセットを利用しない。

セグメンテーションの性能は、シーンの３Ｄ再構築によって改善することができ、またその逆の場合も同様なので、セグメンテーションと再構築の両方は互いに寄与することができ、一緒に考えることができる。

セグメンテーションが３Ｄ再構築の影響を受け、３Ｄ再構築がセグメンテーションの影響を受けるという点で、このセグメンテーションと３Ｄ再構築は「ジョイント（joint）」と呼ばれる。初期セグメンテーションからだけでなく、強化された３Ｄ特徴からも、強化されたセグメンテーションを決定することによって、また、強化された３Ｄ特徴からだけでなく、初期セグメンテーションからも、改良された３Ｄ再構築を決定することによって、これが表現される。

より具体的には、本開示は、初期３Ｄモデルとも呼ばれる、シーンの初期３Ｄ再構築を改良し、画像データ内で決定された初期２Ｄ特徴によってセグメンテーションを強化するための解決策を提供する。したがって、本開示の少なくとも１つの実施形態によれば、改良された３Ｄ再構築及び強化されたセグメンテーションが一緒に決定される。

２Ｄ特徴を考慮に入れることによって、特に幾何学的形状の観点から、したがってシーンの正確な３Ｄ再構築を実現することができる。強化されたセグメンテーションをも取得することができる。

このような、改良された、又は正確な３Ｄ再構築及び強化されたセグメンテーションは、次いで、拡張現実感におけるテクスチャ・マッピング、変形、衝突検出など、さらなる用途で使用することができる。

たとえば、シーンの３Ｄ再構築は、
−点群、
−メッシュ・モデル、
−立体モデル
を含むグループに属する。

したがって、改良された３Ｄ再構築（すなわち、強化された３Ｄ特徴から改良される初期３Ｄ再構築）において、３Ｄ要素の構成要素のラベルを更新することによって、セグメンテーションを強化することができる。「３Ｄ要素」は、たとえば、点群の点、多角形メッシュ・モデルの多角形、立体モデルのボクセルなどであり、「構成要素」は、同じラベル、たとえば平面領域を有する３Ｄ要素のグループである。

各実装形態に応じて、強化された３Ｄ特徴は、初期３Ｄ特徴を介して、並びに／又は初期３Ｄ特徴及び初期２Ｄ特徴から、強化された３Ｄ特徴を決定することを介して、少なくとも部分的に初期セグメンテーションに対応する。

したがって、特定の実装形態では、初期セグメンテーションの構成要素間の境界が、初期３Ｄ特徴のうちの少なくともいくつかとして、初期３Ｄの特徴点又は特徴線を提示している。次いでこの初期３Ｄ特徴は、強化された３Ｄ特徴を構築するのに使用され、それ自体、強化されたセグメンテーション及び改良された３Ｄ再構築を決定する際に使用される。

他の実施形態では、これを以前のものと組み合わせることができ、強化された３Ｄ特徴は、初期３Ｄ特徴及び初期２Ｄ特徴からだけでなく、初期セグメンテーションからも決定され、それにより、強化された３Ｄ特徴に直接寄与し、したがって、改良された３Ｄ再構築に直接寄与する。関連する実施形態によっては、初期３Ｄ特徴、初期２Ｄ特徴、及び初期セグメンテーションから、強化された３Ｄ特徴とともに、改良された３Ｄ再構築が決定される。

強化されたセグメンテーションについては、これは、強化された３Ｄ特徴を利用することによって、初期セグメンテーションから得られる。

一貫して、強化されたセグメンテーションは、初期セグメンテーションと強化された３Ｄ特徴の両方から決定され、改良された３Ｄ再構築も、初期セグメンテーションと強化された３Ｄ特徴の両方から決定される（前述の特定の実装形態のように、強化された３Ｄ特徴を介して初期セグメンテーションを考慮することができるときでも）。

一実施形態によれば、３Ｄ特徴は３Ｄ特徴線であり、２Ｄ特徴は２Ｄ特徴線である。別の実施形態では、３Ｄ特徴は３Ｄ点であり、２Ｄ特徴は２Ｄ点である。

したがって、セグメンテーションは、セマンティック特徴ではなく、幾何学的形状の特徴に基づいている。

したがって、この実施形態によるセグメンテーション及び３Ｄ再構築は、セマンティック／ラベル付きトレーニング・データの質及び／又はスケーラビリティには依存しない。

したがって、本開示の少なくとも１つの実施形態には、たとえば、ＲＧＢ−Ｄデータ（赤緑青及び奥行きデータ）から、改良された形状を有するセグメント化された１組の領域を決定することを目的として、シーンのセグメンテーションと３Ｄ再構築の組合せ最適化向けのアルゴリズムが開示されている。改良された幾何学的形状によって、セグメンテーションがより正確になり、より正確なこのセグメンテーションが、幾何学的形状を改良するための追加の幾何学的な手がかりを提示する。

一実施形態によれば、シーンの初期３Ｄ再構築を取得することが、奥行きデータから初期３Ｄ再構築を構築することを含む。したがって、シーンの初期３Ｄ再構築は、上流で決定し、動作機器で直接受け取ることができるか、又は動作機器で構築することができる。

一実施形態によれば、初期３Ｄ特徴を取得することは、幾何学的特性及び／又は局所的特徴記述子を使用して、シーンの初期３Ｄ再構築において３Ｄ特徴を識別することを含む。或いは、初期３Ｄ特徴は、上流で決定されていてもよく、また動作機器で直接受け取ってもよい。

一実施形態によれば、シーンの画像のセットが、少なくとも２つの画像を含む場合、この方法は、
−可視画像として知られている、初期３Ｄ特徴を含むセットの画像を選択することと、
−この可視画像において、初期３Ｄ特徴にマッチする初期２Ｄ特徴を識別することと
から、初期２Ｄ特徴を決定することを含み、
強化された３Ｄ特徴を決定することは、
−少なくとも２つの可視画像にわたって初期２Ｄ特徴をマッチさせることによって、幾何学的な手がかりを生成することと、
−この幾何学的な手がかりを用いて初期３Ｄ特徴を強化して、強化された３Ｄ特徴を決定することと
を含む。

したがって、初期２Ｄ特徴は、画像データから決定する（すなわち、このセットの画像から得る）ことができるか、又は上流での前処理の後に動作機器で受け取ることができる。具体的には、１組の画像から可視画像を選択することで、さらなる処理を計算効率のよいものにすることができる。これはまた、（たとえば、位置及び／又は向きに関する）不正確なカメラ姿勢推定によって生成されることのある誤りの低減につながる。

可視画像にわたって初期２Ｄ特徴をマッチさせることによって、強化された３Ｄ特徴を決定することができる。２Ｄ特徴のこのようなマッチングを実際に使用して、たとえばマルチビュー・ステレオ法を利用することによって、３Ｄ幾何学的な手がかりを構築する。

一実施形態によれば、この方法は、
−強化された３Ｄ特徴から、またセットの前記少なくとも１つの画像において決定される強化された２Ｄ特徴から、シーンの改良された前記３Ｄ再構築に関連付けられた、強化された３Ｄ特徴に対応するように、さらに強化された３Ｄ特徴を決定することと、
−強化されたセグメンテーション、及びさらに強化された３Ｄ特徴から、さらに強化されたセグメンテーション及びさらに改良された３Ｄ再構築を決定することと
を、少なくとも１度は繰返し処理することを含む。

具体的には、このセットの前記画像は、選択された可視画像であることが好ましい。

このようにして、１つ又は複数の繰返し処理を実施して、セグメンテーションをさらに強化し、３Ｄ再構築をさらに改良することができる。

一実施形態によれば、所定の精度閾値に達したときに、この繰返し処理が停止する。このような所定の精度閾値は、少なくとも、さらに強化された３Ｄ特徴と強化された２Ｄ特徴との間のマッチングでの閾値とすることができる。

たとえば、前記所定の精度閾値は、シーンの３Ｄ再構築を各セグメントに分割する程度によって与えられるセグメンテーション・レベル、前記さらに改良された３Ｄ再構築で測定された、隣接する同様の各３Ｄ要素間のラベルの一貫性、及びセットの前記少なくとも１つの画像（たとえば、可視画像）と、前記さらに改良された３Ｄ再構築との間の位置合せ、のうち少なくとも１つに一緒に適用される。

さらに強化された３Ｄ特徴と強化された２Ｄ特徴との間のマッチングは、次いで、セットの画像とさらに改良された３Ｄ再構築との間のグローバル対応から特に留意することができ、このグローバル対応は、具体的には、対応するエネルギー関数（以下でさらに詳細に説明する）の値から確立することができる。

一実施形態によれば、改良された３Ｄ再構築又はさらに改良された３Ｄ再構築、及び、強化されたセグメンテーション又はさらに強化されたセグメンテーションは、同じ繰返し処理での少なくとも１つのエネルギー関数において考慮される。しかし、最適化問題の解決は、２つのステップで実施することができ、第１のステップでは、３Ｄ再構築を調整してセグメンテーションを強化し、第２のステップでは、強化されたこのセグメンテーションを調整して３Ｄ再構築を改良する。

より具体的には、初期化において、初期３Ｄ再構築及び強化された３Ｄ特徴から、改良された３Ｄ再構築が決定される。この改良された３Ｄ再構築を調整して、強化されたセグメンテーションを決定する。一実施形態によれば、強化されたこのセグメンテーションを調整して、さらに改良された３Ｄ再構築を決定することもできる。

後続の繰返し処理では、先行する繰返し処理において取得される３Ｄ再構築を調整して、さらに強化されたセグメンテーションを決定する。次いで、さらに強化されたセグメンテーションを調整して、さらに改良された３Ｄ再構築を決定する。

したがって、それぞれの繰返し処理では、強化されたセグメンテーションと改良された３Ｄ再構築との組合せ決定が存在する。

好ましくは、所定の精度閾値と組み合わせて、又は代替的に、所定の数の繰返し処理に達したときにこの繰返し処理を停止する。

一実施形態によれば、強化されたセグメンテーションを決定することは、セグメンテーション制約条件に依存する。こうしたセグメンテーション制約条件も「プライア」と呼ばれる。

具体的には、セグメンテーション制約条件は、平面形状、凸形状、直方体形状、円柱形状などのような、少なくとも１つのセグメント形状に関連している。

一実施形態によれば、この方法は、前記初期３Ｄ再構築及び少なくとも１つの画像の前記セットを、少なくとも１つの入力として受け取ることと、少なくとも１つのプロセッサを用いて、強化された３Ｄ特徴、強化されたセグメンテーション、及び改良された３Ｄ再構築を決定することと、少なくとも１つの出力から、前記強化されたセグメンテーション及び前記改良された３Ｄ再構築を出力して、前記改良された３Ｄ再構築をユーザに表示し、また前記強化されたセグメンテーションによって、前記改良された３Ｄ再構築を処理することとを含む。

本開示の別の態様は、通信ネットワークからダウンロード可能で、及び／又はコンピュータによる読取り可能な媒体上に記録され、及び／又はプロセッサによって実行可能なコンピュータ・プログラム製品であって、その実施形態のいずれにおいても、コンピュータ又はプロセッサによって実行されるときには、セグメンテーションと３Ｄ再構築を組み合わせる前述の方法を実行するように構成されたソフトウェア・コードを含むコンピュータ・プログラム製品に関連する。

本開示の別の態様は、コンピュータ又はプロセッサによって実行されるとき、このコンピュータ又はプロセッサが、セグメンテーションと３Ｄ再構築を組み合わせる前述の方法を、その様々な実施形態のいずれにおいても実行できるようにするコンピュータ・プログラム製品を記憶する、持続的でコンピュータ読取り可能な搬送媒体に関する。

本開示はまた、シーンの少なくとも１つの画像のセットから、このシーンのセグメンテーションと３Ｄ再構築を組み合わせるための装置に関し、シーンのセグメンテーションが、このシーンの３Ｄ再構築の各セグメントへの分割に対応し、この装置は、
−シーンの初期３Ｄ再構築を取得するための手段と、
−この初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得するための手段と、
−この初期３Ｄ再構築の初期セグメンテーションを取得するための手段と、
−シーンの前記初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、初期３Ｄ特徴から、かつセットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定するための手段であって、この強化された３Ｄ特徴が初期セグメンテーションに少なくとも部分的に対応する手段と、
−初期セグメンテーションと強化された３Ｄ特徴の両方から、強化されたセグメンテーションと改良された３Ｄ再構築の両方を決定するための手段と
を備える。

この開示はさらに、シーンの少なくとも１つの画像のセットから、このシーンのセグメンテーションと３Ｄ再構築を組み合わせるための装置に関し、シーンのセグメンテーションが、このシーンの３Ｄ再構築の各セグメントへの分割に対応し、この装置は、
−シーンの初期３Ｄ再構築を取得し、
−この初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得し、
−この初期３Ｄ再構築の初期セグメンテーションを取得し、
−シーンの前記初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、初期３Ｄ特徴から、かつセットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定し、この強化された３Ｄ特徴が初期セグメンテーションに少なくとも部分的に対応し、
−初期セグメンテーションと強化された３Ｄ特徴の両方から、強化されたセグメンテーションと改良された３Ｄ再構築の両方を決定する
ように適合され、構成された少なくとも１つのプロセッサを備える。

このような装置は、本開示によるシーンのセグメンテーションと３Ｄ再構築を組み合わせる方法を実施するのに特に適している。こうした装置は、この開示の任意の実施形態による方法に関する様々な特性を含むこともでき、そうした特性を組み合わせることができ、又は別々に取り込むこともできる。すなわち、このような装置は、本開示による、セグメンテーションと３Ｄ再構築を組み合わせる方法の実行モードのいずれをも実行するように構成されている。

したがって、この装置の特性及び利点は、その様々な実施形態のいずれかにおいて、シーンのセグメンテーションと３Ｄ再構築を組み合わせるための開示された方法と同じである。

本開示の別の態様は、前述の装置など、シーンのセグメンテーションと３Ｄ再構築を組み合わせるための装置を備える機器に関する。

したがって、このような機器の特性及び利点は、その様々な実施形態のいずれかにおいて、シーンのセグメンテーションと３Ｄ再構築を組み合わせるための、開示された方法と同じである。

具体的には、このような機器は、好ましくは携帯電話、タブレット、及びヘッドマウント・ディスプレイから選択される携帯機器とすることができる。

様々な実施形態によれば、このような機器は、好ましくはロボット、自律運転機器、及びスマート・ホーム機器から選択される自律機器とすることができる。

したがって、本開示は、ナビゲーション、自律ロボット工学、バーチャル・リアリティ、拡張現実感及び／又は複合現実感、スマート・ホーム機器などのような分野での用途に特に適している。

したがって、本開示はまた、このような分野への本開示の適用に関する。

開示された各実施形態と範囲が同等の、特定の態様を以下に説明する。こうした態様は、本開示がとり得る特定の形態の概要を、読者に提供するためだけに提示されるものであり、こうした態様が本開示の範囲を限定するものではないことを理解されたい。実際、この開示は、以下に説明されていない場合もある様々な態様を包含してもよい。

４．図面の簡単な説明
添付図を参照して、決して限定的ではない以下の実施形態及び実行例によって、この開示がより良好に理解され、また例示されよう。

本開示の一実施形態による、セグメンテーションと３Ｄ再構築を組み合わせる方法の主なステップを示す流れ図である。２Ｄ特徴及び３Ｄ特徴が特徴線である、本開示の一実施形態を示す。シーンの初期３Ｄ再構築の一例を示す。図３のシーンの初期３Ｄ再構築に関連する、初期３Ｄ特徴の一例を示す。図３のシーンの初期３Ｄ再構築に関連する、初期セグメンテーションの一例を示す。図３に示すシーンのマルチビュー画像の例である。図３に示すシーンのマルチビュー画像の例である。図６Ａのマルチビュー画像において決定された初期２Ｄ特徴の例を示す。図６Ｂのマルチビュー画像において決定された初期２Ｄ特徴の例を示す。強化された３Ｄ特徴の一例を示す。改良された３Ｄ再構築及び強化されたセグメンテーションの一例を示す。本開示の一実施形態による、セグメンテーションと３Ｄ再構築を組み合わせる方法を実施する装置のブロック図である。

図１、図２、及び図１０では、示された各ブロックは、単に機能的な構成要素であり、物理的に別々の構成要素には必ずしも対応していない。すなわち、こうした構成要素は、ソフトウェア、ハードウェアの形態で開発することもでき、又は、１つ若しくは複数のプロセッサを含む、１つ若しくはいくつかの集積回路で実装することもできる。

５．実施形態の説明
本開示の各図及び説明は、本開示の明確な理解に関連する各要素を示すために簡略化してきたが、明確にするために、携帯機器（たとえば、携帯電話、タブレット、ヘッドマウント・ディスプレイなど）、又は自律機器（たとえば、ロボット、自律運転機器、スマート・ホーム機器など）のように、典型的な動作機器に見られる数多くの他の要素を除外してあることを理解されたい。

本開示の一般的原理は、シーンの初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、シーンの初期３Ｄ再構築から、かつシーンの１組の画像のうち少なくとも１つの画像において決定される初期２Ｄ特徴から、このシーンの改良された３Ｄ再構築及び強化されたセグメンテーションの決定に依存する。

このシーンは、特にオブジェクトとすることもできる。したがって、このシーンは、１つ又は複数のオブジェクトで構成することができる。

具体的には、シーンの改良された３Ｄ再構築は、初期の２Ｄ特徴及び３Ｄ特徴から取得される、強化された３Ｄ特徴によって決定され、強化されたセグメンテーションは、改良された３Ｄ再構築から決定される。

本開示の一実施形態による、セグメンテーションと３Ｄ再構築を組み合わせる方法の主なステップが、図１に示してある。

たとえば、入力は、シーンの一連の画像及びその奥行きデータのようなＲＧＢ−Ｄデータである。変形形態では、この入力は、シーンの初期３Ｄ再構築（初期３Ｄモデルとも呼ばれる）、及びそのマルチビュー画像である。

ブロック１１では、シーンの初期３Ｄ再構築が取得される。このような初期３Ｄ再構築は、奥行きデータから、若しくはシーンの１組の画像から構築することができるか、又は上流で決定し、動作機器／装置で直接受け取ることができる。初期３Ｄ再構築は、既知のどんな技法によっても構築できることに留意されたい。たとえばこれは、KinectFusion（登録商標）のような既製の奥行き融合ツール、又はIntel RealSense（登録商標）のような奥行きセンサによって決定することができる。

ブロック１２では、初期３Ｄ再構築に関連付けられた初期３Ｄ特徴が取得される。このような初期３Ｄ特徴は、初期３Ｄ再構築を解析することによって取得することができるか、又は上流で決定し、動作機器／装置で直接受け取ることができる。

ブロック１３では、初期３Ｄ再構築の初期セグメンテーションが取得される。このような初期セグメンテーションは、シーンの粗いセグメンテーションとすることもできる。この初期セグメンテーションは、既知のどんな技法によっても決定できることに留意されたい。たとえばこれは、ランダム・ラベリング又は平面領域の成長によって決定することができる。本明細書で以下に述べるように、初期セグメンテーションはまた、セグメンテーション・プライアによって制約を受ける場合がある。具体的には、たとえば「A Benchmark for 3D Mesh Segmentation」（ACM Transaction on Graphics、２００９年）で、X. Chenらによって開示された技法など、先進的な技法によってセグメンテーションが決定される場合、セグメンテーション・プライアの使用を必要とはしない。しかし、対象となる用途によっては、先進的なセグメンテーション技法とともに、セグメンテーション・プライアを使用することもできる。

ブロック１４では、シーンの初期３Ｄ再構築に関連付けられた初期３Ｄ特徴に対応するように、初期３Ｄ特徴、及びセットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴が決定される。初期２Ｄ特徴は、１組の画像から決定することもできるか、又は上流で決定し、動作機器／装置で直接受け取ることができる。

ブロック１５では、初期セグメンテーション及び強化された３Ｄ特徴から、シーンの強化されたセグメンテーション及び改良された３Ｄ再構築が決定される。強化されたセグメンテーションは、セグメンテーション・プライアによって制約されることが好ましい。初期セグメンテーションは通常、３Ｄモデルを平面領域へと大まかにセグメント化するように設計されているので、強化されたセグメンテーションは、セグメンテーション・プライアによって制約されない場合には、正確な境界を有する平面領域を実現できる。したがって、シーンの完全なオブジェクトは、一連の平面構成要素にセグメント化される。先進的な用途のために、セグメンテーション・プライア（たとえば、凸面形状）を活用して、完全なオブジェクトをセグメント化する。

シーンのセグメンテーション及び３Ｄ再構築をさらに改善するために、停止条件が満たされるまで、ブロック１４及び１５を繰り返し実施することができる。より具体的には、それぞれの繰返し処理において、シーンの改良された３Ｄ再構築に関連付けられた、強化された３Ｄ特徴に対応するように、セットの各画像において決定される、強化された３Ｄ特徴及び強化された２Ｄ特徴から、さらに強化された３Ｄ特徴を決定することができ、次いで、強化されたセグメンテーション及びさらに強化された３Ｄ特徴から、さらに強化されたセグメンテーション及びさらに改良された３Ｄ再構築を決定することができる。

次に図２を参照すると、本開示の一実施形態が示してあり、ここで２Ｄ特徴及び３Ｄ特徴は、特徴線のような幾何学的特徴である。画像データ（画像のセットとも呼ばれる）、及び対応する奥行きデータを含む、ＲＧＢ−Ｄデータを入力とみなす。

この実施形態によれば、メイン・ブロックは、シーンの初期３Ｄ再構築に関連付けられた３Ｄ特徴と、画像データから得られる幾何学的な手がかりとの間の対応関係を確立し、構成要素ラベルを一緒に最適化し、３Ｄオブジェクトについての幾何学的形状を改良するように設計されている。セグメンテーションはまた、形状の制約条件、すなわちセグメンテーション・プライアを考慮することによって強化される。

たとえば、画像データ２１、奥行きデータ２２、及びカメラ姿勢２３は、（たとえば、奥行きセンサのソフトウェア開発キットを用いる）Intel RealSense（登録商標）のような奥行きセンサによって取得される。画像データと奥行きデータは良好に調整され、カメラ姿勢は大きな誤りなしに計算されるものと仮定する。前処理を実施して、画像データと奥行きデータを調整し、又は必要ならばカメラ姿勢を処理することができる。

ブロック２２１では、入力奥行きデータを前処理して、「クリーンな」データ、すなわちシーンの３Ｄ再構築に適したデータを生成する。たとえば、この前処理作業は、外れ値の排除、雑音除去、サンプリング、奥行きの修復、オーバ・セグメンテーションなどのうち、少なくとも１つを含む。

ブロック２２２では、処理された奥行きデータが結合（奥行き融合）されて、シーンの初期３Ｄ再構築を生成する。たとえば、KinectFusion（登録商標）のような既製のツールを使用して、シーンの初期３Ｄ再構築を生成する。出力３Ｄ再構築は、点群、メッシュ・モデル、立体モデルなどとして表すことができる。

ブロック２２３では、初期３Ｄ再構築に関連付けられた初期３Ｄ特徴が取得される。たとえば、３Ｄ特徴は、曲率、凸面／凹面、又は局所的な特徴記述子などの幾何学的特性を使用して、シーンの初期３Ｄ再構築から抽出される３Ｄ特徴線である。抽出されたこの初期３Ｄ特徴線は、シーン内のオブジェクトの形状を示す。

ブロック２２４では、シーンの初期３Ｄ再構築において初期セグメンテーションが定義されて、それぞれの３Ｄ要素が１つの構成要素にセグメント化されるようにラベル付けする。既に述べたように、「３Ｄ要素」は、点群の点、多角形メッシュ・モデルの多角形、立体モデルのボクセルなどとすることができ、「構成要素」は、同じラベルを有する３Ｄ要素、たとえば平面領域のグループである。初期セグメンテーションは、様々な構成要素間のセグメント境界を示す。これはまた、セグメンテーション・プライアによって制約を受けることがある。

ブロック２１１では、ブロック２２３でのシーンの初期３Ｄ再構築から抽出される初期３Ｄ特徴線に基づいて、画像データ２１の中から可視画像が選択される。可視画像を選択するには、１つの解決策として、初期３Ｄ再構成の投影を使用して、画像のセットの各画像に３Ｄ特徴線を投影し、画像への投影の可視画素数を数えて、その画像が見えるか見えないか判定することがある（３Ｄ／２Ｄマッチング）。したがって、それぞれの３Ｄ特徴線について、一連の可視画像を見つけることができる。

ブロック２１２では、初期３Ｄ特徴線とマッチする初期２Ｄ特徴線が、選択された可視画像内で抽出される。可視画像内の３Ｄ特徴線と２Ｄ特徴線をマッチさせるために、ある測定が定義され、この測定は、２Ｄ特徴線と、これに対応する３Ｄ特徴線の投影線との間の向き及び距離を考慮に入れることもできる。

初期２Ｄ特徴線が抽出されると、ブロック２１３において、様々な画像内の２Ｄ特徴線間での２Ｄマッチングを構築することができる。たとえば、２Ｄマッチングは、選択された可視画像全体にわたる２Ｄ特徴線について定義される。

カメラ姿勢２３にはずれが生じる場合があるという事実によって、可視画像にわたる２Ｄ特徴線間の２Ｄマッチングをブロック２１４でフィルタリングして、ノイズの多いカメラ姿勢に対応する不正確なマッチングを排除することができる。たとえば、１対の画像での１対の２Ｄマッチング線を考える場合、たとえば「Incremental Line-based 3D Reconstruction using Geometric Constraints」（M. Hoferら、British Machine Vision Conference、２０１３年）で定義されるような、たとえば、エピポーラ・マッチング法を使用することによって、それぞれの２Ｄ線を使用して３Ｄ線を再構築することができる。２つの再構築された３Ｄ線の類似性を比較することによって、マッチングのこのペアの信頼性を推定することができる。たとえば、３Ｄ線の類似性は、その長さ、向き、及び／又は距離を使用することによって評価することもできる。類似性が高い場合、対応する２Ｄ線のマッチングは信頼性が高く、このことは、このペアの画像間でのカメラ姿勢の推定の信頼性が高いことを意味する。類似性が低い場合、このことは、カメラ姿勢に大きな誤りがあり、このマッチングを排除しなければならないことを意味する。

カメラ姿勢がフィルタリングされた後、ブロック２１５において、可視画像全体にわたる残りの２Ｄマッチングから、信頼性の高い幾何学的な手がかりが生成される。すなわち、フィルタリング２１４の後に残っている２Ｄ特徴線を使用して、たとえばマルチビュー・ステレオ法を使用することによって、幾何学的な手がかりと呼ばれる３Ｄ特徴線を構築する。

このような幾何学的な手がかりは、組合せ最適化のブロック２５において、３Ｄ幾何学的形状を改良するのに使用される強化された３Ｄ特徴を定義することを目的として、初期３Ｄ特徴への制約条件を提示することができる。

最後に、ブロック２５では、初期セグメンテーション２２４からの各３Ｄ要素についての構成要素ラベルと、３Ｄ要素の幾何学的形状との両方が一緒に最適化されて、シーンの強化されたセグメンテーション及び改良された３Ｄ再構築を取得する。具体的には、このような最適化は、３Ｄセグメンテーション・プライアとも呼ばれる、セグメンテーション制約条件２４に依存する。たとえば、従来のセグメンテーション・プライアは、平面性、接続性、凸面／凹面などを含むが、それだけには限定されない。セグメンテーション・プライアは、組合せを最適化するために、個々に、又は組み合わせて設定することもできる。このようなセグメンテーション・プライアは、明瞭に又は暗に使用されるなど、ユーザ又は用途のタイプによって選択されるデフォルト値に設定することができる。

本開示の一実施形態によれば、セグメンテーション・プライアをインポートするためのインタフェースが提案されており、これをあらかじめ構成することができる。たとえば、ユーザは、様々なレベルのセグメンテーションに対応するスクロール・バーを調整することができる。このセグメンテーションは、３Ｄシーンを各セグメントに分割する程度（特に、この分割でのセグメント数など）によって与えることができる。大規模なシーンを考えるとき、平面領域のようなセグメンテーション・プライアに対応して、低レベルのセグメンテーションが選択される。テーブルの表面のクローズアップのように小規模なシーンを考えるとき、直方体、円柱形のようなセグメンテーション・プライアに対応する、ハイレベルのセグメンテーションが選択される。

組合せ最適化のために、いくつかのエネルギー関数を定義することができる。強化されたセグメンテーション及び改良された３Ｄ表現の決定は、エネルギー関数のうち少なくとも１つを最小限に抑えることによって実施することができる。

たとえば、組合せ最適化、すなわちセグメンテーション、平滑性、及び幾何学的改良について、３つのエネルギー関数を定義することができる。たとえば、シーンの３Ｄ再構築の所望の質に応じて、各エネルギー関数の重みを調整することができる。

第１の繰返し処理では、セグメンテーション・エネルギー関数は、初期セグメンテーション２２４、セグメンテーション・プライア２４、及び初期３Ｄ特徴２２３を考慮に入れることができる。このようなセグメンテーション・エネルギー関数は、たとえば、「A Benchmark for 3D Mesh Segmentation」（X. Chenら、ACM Transaction on Graphics、２００９年）に開示された技法によって定義することができる。

平滑性エネルギー関数は、シーンの初期再構築で測定された、隣接する同様の３Ｄ要素間でのラベルの一貫性を考慮することができる。たとえば、それぞれの３Ｄ要素について、そのラベルと、その隣接する３Ｄ要素のラベルとの差を測定することによって、平滑性エネルギー関数を定義することができる。

改良エネルギー関数は、選択された可視画像から生成される幾何学的な手がかり２１５と、初期３Ｄ特徴線２２３との間の位置合せを測定することができる。たとえば、（セグメンテーション境界を含む）初期３Ｄ特徴線と、再構築された幾何学的な手がかりとの間の距離、向き、及び／又は長さの差を測定することによって、改良エネルギー関数を定義することができる。

こうしたエネルギー関数をともに最小限に抑えるようにすることによって、セグメンテーションと改良の組合せを実施することもできる。エネルギー関数のそれぞれは、その他のエネルギー関数のうち少なくとも１つの関数の変数の影響を受けるので、それによって、そうしたエネルギー関数間の相互作用が実現する。たとえば、初期セグメンテーション２２４が、セグメンテーション・エネルギー関数において修正される場合、これは、初期３Ｄ特徴２２３に影響を及ぼし、これにより、シーンの初期再構築においてラベル並びに３Ｄ要素が変更され、それによって平滑性エネルギー関数と改良エネルギー関数の両方に影響を及ぼす。

不正確なカメラ姿勢の場合、画像データと奥行きデータの両方から位置合せ誤りをモデル化するように、第４のエネルギー関数を定義することもできる。

組合せ最適化２５の第１の繰返し処理の後、各３Ｄ要素の構成要素ラベル、及び特徴線の周りの幾何学的形状を更新することもできる。すなわち、組合せ最適化２５の第１の繰返し処理の後、強化されたセグメンテーション及び改良された３Ｄ再構築を、さらに強化し、改良することができる。

たとえば、第２の繰返し処理において、セグメンテーション・エネルギー関数は、シーンの改良された３Ｄ再構築に関連付けられた、強化されたセグメンテーション、セグメンテーション・プライア２４、及び強化された３Ｄ特徴を考慮に入れることができる。平滑性エネルギー関数は、シーンの改良された３Ｄ再構築で測定された、隣接する同様の３Ｄ要素間でのラベルの一貫性を考慮することができる。改良エネルギー関数は、選択された可視画像から生成される幾何学的な手がかりと、強化された３Ｄ特徴線との間の位置合せを測定することができる。

所定の精度閾値（たとえば、少なくとも前記強化された３Ｄ特徴と前記強化された２Ｄ特徴との間のマッチングでの閾値）に達すると、又は繰返し処理の所定の数に達すると、この繰返し処理を停止することができる。

個々のセグメンテーション及び３Ｄ再構築と比較して、少なくとも１つの実施形態による、セグメンテーションと３Ｄ再構築を組み合わせる方法は、したがってセグメンテーションと３Ｄ再構築が互いに寄与するようにさせ、さらに良好な結果を実現する。

図３〜図９には、テーブル上の箱を含むシーンの一例について、本開示の一実施形態による、セグメンテーションと３Ｄ再構築を組み合わせるためのアルゴリズムの結果が示してある。

図３には、たとえば、ブロック２２２でKinectFusion（登録商標）のツールによって取得される、シーンの初期３Ｄ再構築が示してある。

図４には、たとえばブロック２２３で取得される、シーンの初期３Ｄ再構築に関連付けられた初期３Ｄ特徴が示してある。

図５には、たとえばブロック２２４で取得される、初期セグメンテーションが示してある。たとえば、シーンの初期３Ｄ再構築が、メッシュ表面によって表される場合、各３Ｄ要素は、このメッシュの三角形の面とすることもでき、各構成要素は、Ｌ１、Ｌ２、Ｌ３、及びＬ４にラベル付けされた、セグメント化された領域である。

図６Ａ及び図６Ｂは、ブロック２１１で１組の入力画像から選択された、テーブル上の箱のマルチビュー画像である。

図７Ａ及び図７Ｂには、たとえばブロック２１２で取得される、図６Ａ及び図６Ｂのマルチビュー画像において決定された初期２Ｄ特徴が示してある。

図８には、幾何学的な手がかりによって定義された制約条件を初期３Ｄ特徴に適用することによって得られる、強化された３Ｄ特徴が示してあり、ここで、この幾何学的な手がかりは、たとえば、フィルタリング２１４の後に残る２Ｄ特徴線からブロック２１５で生成される。

最後に、図９には、たとえば組合せ最適化ブロック２５で取得される、改良された３Ｄ再構築及び強化されたセグメンテーションが示してある。

ここで図１０を参照すると、本開示の少なくとも１つの実施形態による、シーンのセグメンテーションと３Ｄ再構築を組み合わせる方法を実施するのに使用することができる、例示的な装置の構造ブロックが示してある。

一実施形態では、開示された方法を実施するための装置１００は、不揮発性メモリ１０３（たとえば、リードオンリ・メモリ（ＲＯＭ）又はハード・ディスク）、揮発性メモリ１０１（たとえば、ランダム・アクセス・メモリ、すなわちＲＡＭ）、及びプロセッサ１０２を備える。不揮発性メモリ１０３は、持続的でコンピュータ読取り可能な搬送媒体である。これは、実行可能なプログラム・コード命令を記憶し、この命令がプロセッサ１０２によって実行されて、先に述べた方法の様々な実施形態において、その方法の実装を可能にする。

初期化されると、前述のプログラム・コード命令は、不揮発性メモリ１０３から揮発性メモリ１０１に転送されて、プロセッサ１０２によって実行される。同様に、揮発性メモリ１０１は、これを実行するのに必要な変数及びパラメータを記憶するためのレジスタを含む。

−ＰＣタイプの機器、ＤＳＰ（デジタル信号プロセッサ）、又はマイクロコントローラなど、再プログラム可能なコンピューティング・マシンによって実行される１組のプログラム・コード命令を実行することによって、本開示の少なくとも１つの実施形態による、シーンのセグメンテーションと３Ｄ再構築を組み合わせる方法の各ステップを、等しく良好に実施することができる。このプログラム・コード命令は、取外し可能（たとえば、フロッピー・ディスク、ＣＤ−ＲＯＭ、若しくはＤＶＤ−ＲＯＭ）、若しくは取外し不可能な、持続的でコンピュータ読取り可能な搬送媒体に記憶することができ、又は−ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）、ＡＳＩＣ（特定用途向け集積回路）、若しくは任意の専用ハードウェア構成要素など、専用のマシン若しくは構成要素によって記憶することができる。

すなわち、この開示は、コンピュータ・プログラム命令の形式で純粋にソフトウェアベースの実装形態に限定されず、ハードウェア形式、又はハードウェア部分とソフトウェア部分とを組み合わせる任意の形式で実装してもよい。

少なくとも１つの実施形態では、この装置は機器内に設けられる。このような機器は、携帯電話、タブレット、ヘッドマウント・ディスプレイなどのような携帯機器、又はロボット、自律運転機器、若しくはスマート・ホーム機器などのような自律機器とすることができる。このような機器は、拡張現実感／複合現実感、及び自律ロボット／自律運転の分野での用途を実装することができる。

説明していない場合でも、このような装置又は機器は、少なくとも１つのカメラ、少なくとも１つのディスプレイ、又は他の従来の装置も含むこともできる。

Claims

シーンの少なくとも１つの画像のセットから、前記シーンのセグメンテーションと３Ｄ再構築を組み合わせる方法であって、前記シーンの前記セグメンテーションが、前記シーンの前記３Ｄ再構築の各セグメントへの分割に対応し、前記方法が、
前記シーンの初期３Ｄ再構築を取得すること（１１）と、
前記初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得すること（１２）と、
前記初期３Ｄ再構築の初期セグメンテーションを取得すること（１３）と、
前記シーンの前記初期３Ｄ再構築に関連付けられた前記初期３Ｄ特徴に対応するように、前記初期３Ｄ特徴から、かつ前記セットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定すること（１４）であって、前記強化された３Ｄ特徴が前記初期セグメンテーションに少なくとも部分的に対応することと、
前記初期セグメンテーションと前記強化された３Ｄ特徴の両方から、強化されたセグメンテーションと改良された３Ｄ再構築の両方を決定すること（１５）と、
を含む、方法。
前記３Ｄ特徴が３Ｄ特徴線であり、前記２Ｄ特徴が２Ｄ特徴線である、請求項１に記載の方法。
前記シーンの前記初期３Ｄ再構築を取得すること（１１）が、奥行きデータから前記初期３Ｄ再構築を構築することを含む、請求項１又は２に記載の方法。
前記初期３Ｄ特徴を取得すること（１２）が、幾何学的特性及び／又は局所的特徴記述子を使用して、前記シーンの前記初期３Ｄ再構築において３Ｄ特徴を識別することを含む、請求項１乃至３の何れか１項に記載の方法。
前記シーンの前記少なくとも１つの画像の前記セットが、少なくとも２つの画像を含み、前記方法が、
可視画像として知られている、前記初期３Ｄ特徴を含む前記セットの画像を選択することと、
前記可視画像において、前記初期３Ｄ特徴にマッチする前記初期２Ｄ特徴を識別することと、
から、前記初期２Ｄ特徴を決定することを含み、
前記強化された３Ｄ特徴を決定することが、
少なくとも２つの可視画像にわたって前記初期２Ｄ特徴をマッチさせることによって、幾何学的な手がかりを生成することと、
前記幾何学的な手がかりを用いて前記初期３Ｄ特徴を強化して、前記強化された３Ｄ特徴を決定することと、
を含む、請求項１乃至４の何れか１項に記載の方法。
前記強化された３Ｄ特徴から、また前記セットの前記少なくとも１つの画像において決定される強化された２Ｄ特徴から、前記シーンの前記改良された前記３Ｄ再構築に関連付けられた、前記強化された３Ｄ特徴に対応するように、さらに強化された３Ｄ特徴を決定することと、
前記強化されたセグメンテーション、及び前記さらに強化された３Ｄ特徴から、さらに強化されたセグメンテーション及びさらに改良された３Ｄ再構築を決定することと
を、少なくとも１度は繰返し処理することを含む、請求項１乃至５の何れか１項に記載の方法。
少なくとも前記さらに強化された３Ｄ特徴と前記強化された２Ｄ特徴との間のマッチングでの所定の精度閾値に達すると、前記繰返し処理が停止される、請求項６に記載の方法。
前記所定の精度閾値が、前記シーンの前記３Ｄ再構築を前記セグメントに分割する程度によって与えられるセグメンテーション・レベル、前記さらに改良された３Ｄ再構築で測定された、隣接する同様の各３Ｄ要素間のラベルの一貫性、及び前記セットの前記少なくとも１つの画像と、前記さらに改良された３Ｄ再構築との間の位置合せ、のうち少なくとも１つに一緒に適用される、請求項７に記載の方法。
所定の数の繰返し処理に達すると前記繰返し処理が停止される、請求項６乃至８の何れか１項に記載の方法。
前記強化されたセグメンテーションがセグメンテーション制約条件に依存する、請求項１乃至９の何れか１項に記載の方法。
前記セグメンテーション制約条件が、少なくとも１つのセグメント形状に関係する、請求項１０に記載の方法。
前記初期３Ｄ再構築及び少なくとも１つの画像の前記セットを、少なくとも１つの入力として受け取ることと、少なくとも１つのプロセッサを用いて、前記強化された３Ｄ特徴、強化されたセグメンテーション、及び改良された３Ｄ再構築を決定することと、少なくとも１つの出力から、前記強化されたセグメンテーション及び前記改良された３Ｄ再構築を出力して、前記改良された３Ｄ再構築をユーザに表示し、また前記強化されたセグメンテーションによって、前記改良された３Ｄ再構築を処理することとを含む、請求項１乃至１１の何れか１項に記載の方法。
通信ネットワークからダウンロード可能であり、及び／又はコンピュータによる読取り可能な媒体上に記録され、及び／又はプロセッサによって実行可能なコンピュータ・プログラム製品であって、プロセッサで実行されるときには、請求項１乃至１２の何れか１項に記載の方法を実行するように構成されたソフトウェア・コードを含む、コンピュータ・プログラム製品。
シーンの少なくとも１つの画像のセットから、前記シーンのセグメンテーションと３Ｄ再構築を組み合わせるための装置であって、前記シーンの前記セグメンテーションが、前記シーンの前記３Ｄ再構築の各セグメントへの分割に対応し、前記装置が、
前記シーンの初期３Ｄ再構築を取得し、
前記初期３Ｄ再構築に関連付けられた初期３Ｄ特徴を取得し、
前記初期３Ｄ再構築の初期セグメンテーションを取得し、
前記シーンの前記初期３Ｄ再構築に関連付けられた前記初期３Ｄ特徴に対応するように、前記初期３Ｄ特徴から、かつ前記セットの少なくとも１つの画像において決定される初期２Ｄ特徴から、強化された３Ｄ特徴を決定し、前記強化された３Ｄ特徴が前記初期セグメンテーションに少なくとも部分的に対応し、
前記初期セグメンテーションと前記強化された３Ｄ特徴の両方から、強化されたセグメンテーションと改良された３Ｄ再構築の両方を決定する、
ように適合され、構成された少なくとも１つのプロセッサを備える、装置。
請求項１４に記載の装置を備え、好ましくは携帯電話、タブレット、若しくはヘッドマウント・ディスプレイから選択される携帯機器、又は好ましくはロボット、自律運転機器、若しくはスマート・ホーム機器から選択される自律機器であることを特徴とする、機器。