JP2023546739A

JP2023546739A - シーンの３次元モデルを生成するための方法、装置、およびシステム

Info

Publication number: JP2023546739A
Application number: JP2023548990A
Authority: JP
Inventors: シャンユーチェン，
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-10-29
Filing date: 2021-08-24
Publication date: 2023-11-07
Also published as: CN112312113A; CN112312113B; US20220139030A1; WO2022088881A1

Abstract

シーンの３Ｄモデルを生成する方法が開示される。３Ｄモデリングシステムにおける撮像手段は、第１の深度データを取得する。第１の深度データは、複数のフレームの深度画像の画素を含む。３Ｄモデリングシステムにおける走査手段は、第２の深度データを取得する。第２の深度データは、複数の画像フレームの深度データ点を含む。３Ｄモデリングシステムは、色データを取得する。色データは、複数の色画像の画素を含む。３Ｄモデリングシステムは、色データ、第１の深度データ、第２の深度データに基づいて３Ｄモデルを生成する。３Ｄモデリングシステムは、３Ｄモデルを表示させる。【選択図】図３

Description

本開示は、３次元（３Ｄ）再構成技術の分野に関し、より具体的には、VRデータを生成する画像処理に関する。

［関連出願の相互参照］
本願は、２０２０年１０月２９日に出願された中国特許出願第２０２０１１１８０６５０.０号の優先権を主張し、その内容全体が参照により本明細書に組み込まれる。

［背景技術］
３Ｄ再構成とは、３Ｄオブジェクトのコンピュータ表現と処理に適した数学的モデルを確立する手法である。コンピュータでは、確立された３Ｄモデルにより、３Ｄオブジェクトの処理、操作、および分析を実現できる。３Ｄ再構成技術は、コンピュータで客観的な世界を表現するVR環境を構成するための重要な手法である。一般に、３Ｄ再構成は、画像取得、カメラ校正、特徴抽出、ステレオマッチング、および３Ｄ再構成などのステップを含み得る。

従来の３Ｄ再構成技術は、通常、３Ｄモデリングにするために、深度カメラまたはLIDAR (light Detection and ranging)システムのいずれを使用する。深度カメラは、高解像度の深度データを提供することができる。しかし、深度カメラにより取得られる深度データの精度は、深度カメラとシーン内のオブジェクトとの間の距離に大きく依存するため、深度カメラの高精度の深度データ範囲は制限されている。さらに、深度カメラの被写界距離は、通常、そのパワーや解像度によって制限されている。一方、LIＤARシステムにより取得られる深度データの精度は高く、広い深度範囲で比較的安定しているため、LIＤARシステムは広い深度範囲で高精度の深度データを提供する。しかし、LIＤARシステムにより取得られる深度データの解像度は低い。そのため、３Ｄモデル化のために生成される点群は比較的疎なものとなり、小さなオブジェクト(水道管、ペンなど)を十分な詳細でモデル化することは困難である。

そのため、広いシーンの検出範囲の広さ、生成される３Ｄモデルの精度、解像度を考慮した確実な３Ｄ再構成ソリューションの提供が求められている。

シーンの３Ｄモデルを生成するための方法、コンピュータ可読媒体、システム、および装置が開示される。３Ｄモデルに対して一貫して高い精度を有する高解像度深度画像が生成できるように、撮像手段および走査手段により取得される深度データは、結合される。

いくつかの実施形態では、シーンの３Ｄモデルを生成する方法が提供される。この方法は、３Ｄモデリングシステムにおける撮像手段が第１の深度データを取得することと、３Ｄモデリングシステムにおける走査手段が第２の深度データを取得することと、３Ｄモデリングシステムが色データを受信することと、前記色データ、前記第１の深度データ、前記第２の深度データに基づいて、前記シーンの３Ｄモデルを生成することと、前記３Ｄモデリングシステムにおいて前記シーンの３Ｄモデルを表示させることと、を含む。前記第１の深度データは、深度画像における複数のフレームの画素を含む。前記第２の深度データは、複数の画像フレームの深度データ点を含む。

いくつかの実施形態では、第１の深度データにおける前記深度画像の各々は第１のデータであり、第２の深度データにおける前記画像フレームの各々は第２のデータである。前記方法は、さらに、複数のデータペアを決定し、複数のデータペアに基づいて、前記第１の深度データと前記第２の深度データとの間の位置関係を決定することと、を含む。複数のデータペアの各々は、前記第１のデータおよび対応する前記第２のデータを含む。前記データペアにおける前記第１のデータおよび対応する前記第２のデータは、同様の目標オブジェクトを含む。

いくつかの実施形態では、前記第１のデータの各々には、前記撮像手段の姿勢情報を示す第１の外部パラメータが付けされる。前記第２のデータの各々には、前記走査手段の姿勢情報を示す第２の外部パラメータが付けされる。前記方法は、さらに、前記第１の外部パラメータに基づいて、前記第１のデータに関連する第１の姿勢を決定することと、前記第２の外部パラメータに基づいて、前記第２のデータに関連する第２の姿勢を決定することと、前記第１の姿勢と前記第２の姿勢が同様であることに応じて、前記第１のデータ及び前記第２のデータを含む前記データペアを決定することと、を含む。

いくつかの実施形態では、前記第１の外部パラメータと前記第２の外部パラメータは、前記３Ｄモデリングシステムにおける同一の姿勢センサから出力される。

いくつかの実施形態では、前記第１のデータの各々には、前記撮像手段により前記第１のデータが取得された定時を示す第１のタイムスタンプが付けされる。前記第２のデータの各々には、前記走査手段により前記第２のデータが取得された定時を示す第２のタイムスタンプが付けされる。前記データペアにおける前記第１のデータと対応する前記第２のデータは、閾値よりも小さい時間間隔を有する。

いくつかの実施形態では、前記データペアにおける前記第１のデータおよび対応する前記第２のデータは、１つ以上の同様のオブジェクトで識別される。

いくつかの実施形態では、前記方法は、さらに、深度閾値を決定することと、前記１つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第１の深度データにおける前記１つ以上のデータ点を削除することと、を含む。

いくつかの実施形態では、前記方法は、さらに、生成された前記シーンの３Ｄモデルにおいて、解像度閾値未満の１つ以上の画像領域を識別することと、前記３Ｄモデリングシステムにおける前記撮像手段が、複数の深度画像を含む第１の充填データを取得することと、生成された前記シーンの３Ｄモデルに、前記第１の充填データを補充して、新たなシーンの３Ｄモデルを生成することと、を含む。

いくつかの実施形態では、前記方法は、さらに、生成された前記シーンの３Ｄモデルにおいて、十分な前記深度データ点を持たない１つ以上の画像領域を識別することと、前記３Ｄモデリングシステムにおける前記走査手段が、前記複数の画像フレームの深度データ点を含む第２の充填データを取得することと、生成された前記シーンの３Ｄモデルに前記第２の充填データを補充して、新たなシーンの３Ｄモデルを生成することと、を含む。

いくつかの実施形態では、前記撮像手段は、第１のフレームレートで前記複数の深度画像を取得する。前記走査手段は、第２のフレームレートで前記複数の画像フレームを取得する。

いくつかの実施形態では、前記３Ｄモデリングシステムは、取得された前記深度データに基づいて、前記シーンの３Ｄモデルをリアルタイムで表示するディスプレイを含む。

いくつかの実施形態では、シーンの３Ｄモデルを生成するためのシステムが提供される。前記システムは、撮像手段、走査手段、１つ以上のプロセッサを備える。前記撮像手段は、第１の深度データを取得するように構成される。前記第１の深度データは、複数のフレームの深度画像の画素を含む。前記走査手段は、第２の深度データを取得するように構成される。前記第２の深度データは、複数の画像フレームの深度データ点を含む。前記１つ以上のプロセッサは、前記撮像手段からの前記第１の深度データ、前記走査手段からの前記第２の深度データ、色データを取得し、前記第１の深度データ、前記第２の深度データ、前記色データに基づいて、前記シーンの３Ｄモデルを生成し、生成された前記シーンの３Ｄモデルを出力するように構成される。前記色データは、複数の色画像の画素を含む。

いくつかの実施形態では、前記第１の深度データにおける深度画像の各々は、第１のデータである。前記第２の深度データにおける画像フレームの各々は、第２のデータである。前記３Ｄモデリングシステムにおける前記１つ以上のプロセッサは、さらに、複数のデータペアを決定し、前記複数のデータペアに基づいて前記第１の深度データと前記第２の深度データとの間の位置関係を決定するように構成される。前記複数のデータペアの各々は、前記第１のデータおよび対応する前記第２のデータを含む。前記第１のデータおよび対応する前記第２のデータは、同様の目標オブジェクトを含む。

いくつかの実施形態では、前記３Ｄモデリングシステムは、さらに、１つ以上の姿勢センサを備える。前記１つ以上の姿勢センサは、前記３Ｄモデリングシステムにおける前記撮像手段および前記走査手段の姿勢情報を示す外部パラメータを出力するように構成される。前記撮像手段により取得された前記第１のデータの各々には、前記撮像手段の姿勢情報を示す第１の外部パラメータが付けされる。前記走査手段により取得られた前記第２のデータの各々には、前記走査手段の姿勢情報を示す第２の外部パラメータが付けされる。前記３Ｄモデリングシステムにおける前記１つ以上のプロセッサは、さらに、前記第１の外部パラメータに基づいて、前記第１のデータに関連する第１の姿勢を決定し、前記第２の外部パラメータに基づいて、前記第２のデータに関連する第２の姿勢を決定し、前記第１の姿勢と前記第２の姿勢が同様であることに応じて、前記第１のデータと前記第２のデータを含むデータペアを決定するように構成される。

いくつかの実施形態では、前記３Ｄモデリングシステムにおける前記１つ以上のプロセッサは、さらに、深度閾値を決定し、前記１つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第１の深度データにおける前記１つ以上のデータ点を削除するように構成される。

いくつかの実施形態では、前記３Ｄモデリングシステムにおける前記１つ以上のプロセッサは、さらに、生成された前記シーンの３Ｄモデルにおいて、解像度閾値未満の１つ以上の画像領域を識別し、前記撮像手段から第１の充填データを受信し、生成された前記シーンの３Ｄモデルに前記第１の充填データを補充して、新たなシーンの３Ｄモデルを生成するように構成される。前記第１の充填データは、複数の深度画像の画素を含む。

いくつかの実施形態では、前記３Ｄモデリングシステムにおける前記１つ以上のプロセッサは、さらに、生成された前記シーンの３Ｄモデルにおいて、十分な前記深度データ点を持たない１つ以上の画像領域を識別し、前記走査手段から第２の充填データを受信し、生成された前記シーンの３Ｄモデルに第２の充填データを補充して、新たなシーンの３Ｄモデルを生成するように構成される。前記第２の充填データは、複数の画像フレームの深度データ点を含む。

いくつかの実施形態では、非揮発性なコンピュータ可読媒体が提供される。非揮発性なコンピュータ可読媒体は、コンピュータ実行可能命令を記憶しており、この命令が１つ以上のプロセッサによって実行されると、プロセッサは、３Ｄモデリングシステムにおける撮像手段が第１の深度データを取得することと、前記３Ｄモデリングシステムにおける走査手段が第２の深度データを取得することと、前記３Ｄモデリングシステムが色データを受信し、前記第１のセット深度データ、前記第２の深度データ、前記色データに基づいて、シーンの３Ｄモデルを生成することと、前記シーンの３Ｄモデルを表示させることと、を容易に実現する。前記第１の深度データは、複数のフレームの深度画像の画素を含む。前記第２の深度データは、複数の画像フレームの深度データ点を含む。

本発明の技術は、例示的な図に基づいて以下でさらに詳細に説明されるが、実施例に限定されない。本明細書に記載および／または例示されたすべての特徴は、単独で使用することも、異なる組み合わせで組み合わせることができる。様々な例の特徴および利点は、以下を示す添付図面を参照して以下の詳細な説明を読むことによって明らかになるであろう。
図１は、１つ以上の実施形態による例示的な３Ｄ仮想現実（ＶＲ）環境を示す。図２は、１つ以上の実施形態による例示的なコンピュータシステムのブロック図を示す。図３は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための工程を示す。図４は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するアプリケーションシナリオを示す。図３は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための工程を示す。図３は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための工程を示す。図７は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するためのシステムを示す。

本明細書で説明する本開示は、シーンの３Ｄモデルを生成するための技術を提供する。深度情報は、撮像手段および走査手段を使用して取得される。深度カメラなどの撮像手段は、閾値未満の深度データを取得するように構成される。撮像手段により取得された深度データには、高解像度の深度データが含まれているため、３Ｄモデルの詳細が提供される。LIＤARシステムなどの走査手段は、３Ｄモデルにおいて遠くのオブジェクトを高精度で生成できるように、広範囲の撮影距離で一貫した精度で深度データを取得するように構成されている。撮像手段および走査手段により取得された深度データ点は、深度データ点間の位置関係に基づいて結合される。一部の例では、位置関係は、撮像手段や走査手段などのデータ取得装置の姿勢情報に基づいて決定される。他の例では、位置関係は、深度データ点の複数の画像および/またはフレームに存在する多数の目標オブジェクトを識別することによって決定される。加えて、及び／又は代替的に、３Ｄモデルにおいてデータ点は、色撮像手段により提供される色情報に従ってレンダリングされる。このようにして、深度と色の両方の情報を含む３Ｄモデルが生成される。

本明細書で提供される技術を適用することにより、高解像度および高精度の３Ｄモデルを生成することができ、シミュレートＶＲアプリケーションのユーザ体験を向上させることができる。

図１は、いくつかの実施形態による例示的な３ＤＶＲ環境１００を示す。図１に示されるように、３ＤＶＲ環境１００は、アパートや家の床などの住宅ユニットをシミュレートまたは表現することができる。３ＤＶＲ環境１００は、任意の屋内空間または環境のＶＲ表現を含み得ることに留意されたい。図１を参照すると、３ＤＶＲ環境１００は、１１０、１２０、１３０、１４０、１５０、および１６０などの１つ以上の機能空間を含み得る。本明細書で使用されるように、機能空間とは、所定の機能に関連する閉鎖または部分的に閉鎖された空間を指す。場合によっては、機能空間が部屋に対応し得る。例えば、機能空間１１０は第１の寝室に対応し、機能空間１３０は第２の寝室に対応し得る。一部の例では、機能空間は、部屋内または部屋に隣接する囲まれた空間または部分的に囲まれた空間に対応し得る。例えば、機能空間１４０はクローゼットに対応し得る。他の例では、機能空間は、所定の目的のために一般的に使用される領域に対応し得る。例えば、機能空間１２０はキッチンエリアに対応し、機能空間１５０はダイニングエリアに対応し、機能空間１６０はリビングルームに対応し得る。機能空間１２０、１５０、１６０は、同じ部屋（例えば、閉鎖された領域）を共有することができるが、それらの機能は異なるため、異なる機能空間として考慮され得る。

図２は、本明細書に開示される様々な機能を実装するように構成された例示的なコンピュータシステム２００のブロック図である。例えば、コンピュータシステム２００は、ＶＲ環境１００を作成または再構成するためのサーバーとして構成され得る。他の例では、コンピュータシステム２００は、ＶＲ環境１００を表示または強化するための端末装置として構成され得る。図２に示すように、コンピュータシステム２００は、プロセッサ２１０、通信インターフェース２２０、メモリ／ストレージ２３０、およびディスプレイ２４０を含み得る。メモリ／ストレージ２３０は、プロセッサ２１０によって実行されると、プロセッサ２１０に本明細書に開示される様々な動作を実行させることができるコンピュータ可読命令を格納するように構成され得る。メモリ２３０は、揮発性または非揮発性、磁気、半導体ベース、テープベース、光学、取り外し可能、非取り外し可能、または他のタイプの記憶デバイス、または有形のコンピュータ可読媒体など、任意の非揮発性なタイプの大容量ストレージであり得る。読み取り専用メモリ（ＲＯＭ）、フラッシュメモリ、ダイナミックランダムアクセスメモリ（ＲＡＭ）、および／またはスタティックＲＡＭを含むが、これらに限定されない媒体。

プロセッサ２１０は、メモリ２３０に格納された命令に従って動作を実行するように構成され得る。プロセッサ２１０は、任意の適切なタイプの汎用または専用マイクロプロセッサ、デジタル信号プロセッサ、マイクロコントローラなどを含み得る。一部の例では、プロセッサ２１０は、本明細書で開示される１つ以上の所定の動作を実行するために専用の別個のプロセッサモジュールとして構成され得る。他の例では、プロセッサ２１０は、本明細書で開示される１つ以上の所定の操作に無関係な他の操作を実行できるために共有プロセッサモジュールとして構成され得る。

通信インターフェース２２０は、コンピュータシステム２００と他のデバイスまたはシステムとの間で情報を通信するように構成され得る。例えば、通信インターフェース２２０は、データ通信接続を提供するために、統合サービスデジタルネットワーク（ＩＳＤＮ）カード、ケーブルモデム、衛星モデム、またはモデムを含み得る。他の例として、通信インターフェース２２０は、互換性のあるＬＡＮへのデータ通信接続を提供するために、ローカルエリアネットワーク（ＬＡＮ）カードを含み得る。別の例として、通信インターフェース２２０は、光ファイバネットワークアダプタ、１０Ｇイーサネットアダプタ（イーサネットは登録商標）などの高速ネットワークアダプタを含み得る。無線リンクは、通信インターフェース２２０によって実装することもできる。このような実装では、通信インターフェース２２０は、ネットワークを介して、様々なタイプの情報を表すデジタルデータストリームを運ぶ電気信号、電磁気信号または光信号を送受信することができる。ネットワークは、典型的に、セルラ通信ネットワーク、無線ローカルエリアネットワーク（ＷＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）などを含み得る。

通信インターフェース２２０は、キーボード、マウス、タッチパッド、タッチスクリーン、マイク、カメラ、バイオセンサなどの様々なＩ／Ｏデバイスを含み得る。ユーザは、通信インターフェース２２０を介して端末装置にデータを入力することができる。

ディスプレイ２４０は、コンピュータシステム２００の一部として統合されてもよいし、コンピュータシステム２００に通信可能に結合された別個のデバイスとして提供されてもよい。ディスプレイ２４０は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、プラズマディスプレイ、または任意の他のタイプのディスプレイなどのディスプレイデバイスを含み、ユーザ入力およびデータ描写のためにディスプレイ上に提示されるグラフィカルユーザインターフェース（ＧＵＩ）を提供してもよい。いくつかの実施形態では、ディスプレイデバイス２４０は、ＶＲゴーグル、ＶＲメガネ、または没入型ＶＲ体験を提供する他の同様のデバイスを含み得る。例えば、ＶＲ環境１００は、ディスプレイ２４０上に表示され得る。いくつかの実施形態では、ディスプレイ２４０は、通信インターフェース２２０の一部として統合され得る。

図３は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための例示的な工程３００である。工程３００は、図２に示すメモリ２３０に格納されたコンピュータ実行可能命令に従って、３Ｄモデリングシステムおよび／またはデバイス２００によって実行され得る。３Ｄモデリングシステムは、撮像手段、走査手段、および／または１つ以上の姿勢センサを含み得る。３Ｄモデリングシステムは、撮像手段および／または走査手段のような１つ以上の手段を位置決め・再位置決めのために、加えておよび／または代替的に、３Ｄモデリングシステムは、１つ以上のプラットフォーム、モータ、アクチュエータをさらに含み得る。例えば、３Ｄモデリングシステムは、撮像手段を走査手段とは別に回転および／または移動させるための１つ以上のプラットフォーム、モータ、および／またはアクチュエータを含み得る。一部の例では、３Ｄモデリングシステムは、画像に関連する色データを取得するように構成された色撮像手段（例えば、カラーカメラ）を含み得る。他の例では、３Ｄモデリングシステムは、３Ｄモデリングシステムとは別の外部色撮像手段から色データを取得することができる。

撮像手段は、深度カメラであってもよく、シーンの深度画像を撮像するように構成され得る。シーンの各深度画像は、複数の画素からなり、各画素は、深度値を含む。深度値は、１つ以上の画素によって描かれる代表オブジェクトと撮像手段の位置との間の距離を表し得る。走査手段（例えば、ＬＩＤＡＲデバイス）は、シーンを走査して、複数の深度値を示す複数の深度データ点を収集するように構成され得る。１つ以上の姿勢センサは、複数の外部パラメータを出力するように構成され得る。外部パラメータは、撮像手段および走査手段に関連する位置および回転情報を含む。例えば、外部パラメータは、３×３回転行列および３×１並進ベクトルを含む姿勢行列を含み得る。一部の変形例では、撮像手段は、複数の画像（例えば、５つの画像）を撮像してもよく、姿勢センサは、画像に対する１つ以上の姿勢行列を決定し得る。例えば、撮像手段は、複数の画像を撮像する際に（例えば、同じ位置に）静止していてもよく、姿勢センサは、複数の画像について単一の姿勢行列を取得・決定してもよい。姿勢行列は、この位置における撮像手段に関連する回転（例えば、ピッチ、ヨー、ロール）および／または並進（例えば、ｘ、ｙ、ｚ位置値）の値を示し得る。一部の例では、複数の画像を取得する際に、撮像手段は異なる位置にある場合がある。姿勢センサは、これらの画像のそれぞれを取得する際に、撮像手段の回転および/または並進の値を示す姿勢行列を取得・決定することができる。

外部パラメータは、ローカリゼーションのために、および／または撮像手段および走査手段からの画像の位置情報を同じ３Ｄ座標平面内にあるように計算するために使用され得る。別の言い方をすれば、撮像手段は第１の画像を撮像し、走査手段は第２の画像を取得する。姿勢センサからの外部パラメータは、これらの２つの手段からの第１および第２の画像が同じ座標面にあるように位置合わせするために使用されてもよい。３Ｄモデリングシステムは、さらに、取得されたデータを処理するデバイス２００を含み、および／またはデータ処理のために取得されたデータをデバイス２００に送信するインターフェースを含み得る。しかしながら、工程３００は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。

ブロック３１０において、３Ｄモデリングシステムは、第１の深度データを取得する。具体的には、３Ｄモデリングシステムの撮像手段は、シーンの複数の深度画像を撮像する。撮像手段は、１つ以上のカメラであってもよく、および／またはそれを含んでもよく、前記カメラは、ステレオカメラ、構造化光カメラ、飛行時間（TOF）カメラ、および／または他のタイプの深度カメラを含むが、これらに限定されるわけではない。撮像手段により撮像された各深度画像は、複数の画素を含む。各画素は、撮影位置（例えば、画像を取得するときの撮像手段の位置）における撮像手段とシーン内のスポットとの間の距離を示す深度値を含む深度データ点に関連付けられる。第１の深度データは、撮像手段により撮像された深度画像の画素を含む。

シーンは、１つ以上のオブジェクトおよび／または撮像領域の画像あってよく、前述のシーンは、任意のタイプ／数のオブジェクトおよび／または撮像領域を含む任意のタイプのシーンであってよい。例えば、シーンは、家の屋内シーンまたは家の屋外シーンであってよい。一部の例では、シーン内のオブジェクトの少なくとも一部(例えば、蛇口および/またはドアハンドル)を２回撮像することができる。例えば、撮像されるシーンは、部分シーンＡ、部分シーンＢ、部分シーンＣを含み得る。各部分シーンのサイズは、撮像手段の視野である。撮像手段は、各部分シーンの２つの深度画像を撮像することができる。加えて、及び／又は代替的に、部分シーンＡおよび部分シーンＢが共通のオブジェクトを含む場合、撮像手段は、部分シーンＡについて１つの深度画像を、部分シーンＢについて１つの深度画像を撮像することができる。この場合、前記共通のオブジェクトは、２つの深度画像において、２回撮像される。

一部の例では、撮像手段は、シーンの複数の深度画像を撮像するために、部分シーンについて撮像された複数の深度画像がシーン全体をカバーし得るように、異なる姿勢（例えば、位置および／または撮影角度）で配置され得る。撮像手段は、異なる姿勢で配置されるように移動または回転され得る。例えば、撮像手段はプラットフォーム上に配置されてもよい。プラットフォームは、予め設定された運動軌跡に従って移動するように構成され得る。撮像手段は、撮像手段が予め設定された距離（例えば、０．２ｍ）だけ移動するたびに深度画像を撮像することができる。一部の変形例では、プラットフォームは、予め設定されたオブジェクトの周りを回転するように構成されることがある。撮像手段は、撮像手段が予め設定された角度（例えば、１０度）移動するたびに深度画像を撮像することができる。さらに、プラットフォームは、予め設定された運動軌跡に従って移動しながら、予め設定されたオブジェクトの周りを回転するように構成され得る。換言すれば、撮像手段が予め設定された距離および／または予め設定された角度だけ回転／移動するときに、撮像手段は深度画像を撮像することができる。

一部の例では、３Ｄモデリングシステムは、シーンの複数の深度画像を撮像する工程中または工程後に、キーポイント検出を実行することができる。例えば、３Ｄモデリングシステムは、部分シーンについて撮像手段により取得された１つ以上の深度画像に対してキーポイント検出を実行して、取得された深度画像内の１つ以上の目標オブジェクトおよび／または１つ以上の画像領域を識別して、識別された目標オブジェクトが、１つ以上の原因(例えば、低解像度および/または欠落/不完全なデータ点)で、補充用の深度データを必要とするかどうかを判断する。例えば、シーンは目標オブジェクト（例えば、ドアハンドル）を含むことがあり、３Ｄモデリングシステムはシーンの１つ以上の深度画像を撮像することができる。各深度画像は、部分的なシーンであってもよい（例えば、目標オブジェクトを含み、シーン全体の一部を示してもよい）。換言すれば、３Ｄモデリングシステムは、目標オブジェクトの第１の深度画像を撮像するよう撮像手段に指示し、次に、目標オブジェクトを含む次の深度画像を撮像するように撮像手段に指示するようになる。加えて、及び／又は代替的に、３Ｄモデリングシステムは、キーポイント検出結果に基づいて(例えば、低解像度および/またはデータ点の欠落に基づいて)、シーン内の目標オブジェクトが補充用の深度データを必要とすると判断する。例えば、３Ｄモデリングシステムは、目標オブジェクトの解像度が所定の閾値を下回っているため、補充用の深度データが必要であると判断する。この場合、３Ｄモデリングシステムのプロセッサは、目標オブジェクトの画像を撮像できる所定の場所に移動するように撮像手段に指示する。次いで、プロセッサは、部分シーンの深度画像を撮像して、目標オブジェクトに関する補充用の深度データを提供するように撮像手段に指示する。目標オブジェクトは、所定のオブジェクトであってもよい（例えば、ユーザは、目標オブジェクトを指定するユーザ入力を提供してもよい）。加えて、および／または代替として、目標オブジェクトは、予め設定された条件を満たすオブジェクトであってもよい（例えば、目標オブジェクトは、画像内の所定の体積または領域よりも小さいものである）。

ブロック３２０において、３Ｄモデリングシステムは、シーンの第２の深度データを取得する。具体的には、３Ｄモデリングシステムの走査手段がシーンを走査して、複数の深度データ点を収集する。各深度データ点には、走査手段とシーン内のスポットとの間の距離を示す深度値が含まれる。一部の例では、走査手段は、レーザーなどのエネルギー源を利用して領域を走査し、走査された領域内のオブジェクトからの跳ね返りによって生じる反射エネルギーを検出するLIＤARシステムであってもよい。

ブロック３１０と同様に、３Ｄモデリングシステムは、シーンを走査する工程中または工程後にキーポイント検出を実行してもよい。例えば、３Ｄモデリングシステムは、部分シーンについて走査手段により取得された深度データ点の１つ以上のフレームに対してキーポイント検出を実行して、取得されたフレーム内の１つ以上の目標オブジェクトおよび／または１つ以上の画像領域を識別して、識別された目標オブジェクトが、１つ以上の原因(例えば、低解像度および/または欠落/不完全なデータ点)で、補充用の深度データを必要とするかどうかを判断する。３Ｄモデリングシステムのプロセッサは、キーポイント検出結果に基づいて（例えば、低解像度および/またはデータ点の欠落に基づいて）、所定の領域を走査して目標オブジェクトの補充用の深度データを提供するように走査手段に指示する。

一部の例では、撮像手段と走査手段との間の相対位置は固定されている。また、相対位置は、固定されない場合もある。撮像手段と走査手段との間の相対位置は、相対位置が固定されていない場合、深度データ取得工程中に動的に決定され得る。この場合、３Ｄモデリングシステムは、撮像手段および／または走査手段の位置および回転情報を示す外部パラメータを出力する１つ以上の姿勢センサを含み得る。一部の変形例では、３Ｄモデリングシステムは、撮像手段と走査手段の両方について単一の姿勢センサを含み得る。他の変形例では、３Ｄモデリングシステムは、撮像手段用の姿勢センサと、走査手段用の別個の姿勢センサとを含み得る。

ブロック３３０において、３Ｄモデリングシステムは、色データ、第１の深度データ、第２の深度データに基づいて、シーンの３Ｄモデルを生成する。一部の変形例では、色データは、色撮像手段（例えば、カラーカメラ）を使用して撮像されたシーンの画像に基づいて取得される。一部の例では、３Ｄモデリングシステムには、色データを取得するための色撮像手段が含まれる。他の例では、色撮像手段により撮像された色データのセットは、３Ｄモデリングシステムに送信される。色撮像手段により取得されたシーンの画像は、赤緑青（ＲＧＢ）画像、グレースケール画像、および／または黒／白画像であってもよく、および／またはそれらを含んでもよい。色データは、色画像の画素に基づいて形成される（例えば、色データは、ＲＧＢ値、グレースケール値、および／または輝度値を含んでもよい）。３Ｄモデリングシステムは、シーンの３Ｄモデルを生成するために、受け取った色データおよび深度データを処理するように構成されたプロセッサを含み得る。

一部の例では、３Ｄモデリングシステムは、撮像手段および走査手段に対応する姿勢情報を利用して、撮像手段からの第１のセットの深度データと、走査手段からの第２のセットの深度データとを組み合わせることができる。３Ｄモデリングシステムのプロセッサは、撮像手段および走査手段の位置および回転情報を含む外部パラメータを姿勢センサから取得することができる。プロセッサは、外部パラメータに基づいて、同じ３Ｄ座標平面における撮像手段および／または走査手段の位置、回転、および／または撮影角度を決定および／または計算することができる。例えば、撮像手段は、シーンの複数の深度画像を取得する。各深度画像は、深度画像を撮像した定時の撮像手段の姿勢を示す外部パラメータに関連付けられる。計算された撮像手段の姿勢情報に基づいて、撮像手段により撮像された深度画像間の位置関係が決定される。このように、撮像手段により撮像された深度画像は、決定された位置関係に基づいて結合され得る。加えて、及び／又は代替的に、走査手段により取得された深度データ点は、走査手段の姿勢情報から決定された位置関係に基づいて結合され得る。加えて、及び／又は代替的に、撮像手段により取得された深度画像と走査手段により取得された深度データ点は、撮像手段および走査手段の姿勢情報から決定された位置関係に基づいて結合され得る。このようにして、第１の深度データと第２の深度データを組み合わせて、シーンの完全な深度画像を生成することができる。加えて、及び／又は代替的に、色撮像手段により撮像された各色画像は、色撮像手段の姿勢情報を示す外部パラメータに関連付けられてもよい。同様に、色画像間の位置関係に基づいて色画像を結合され得る。加えて、及び／又は代替的に、色画像によって形成された色データは、データ取得手段の姿勢情報から決定された位置関係に基づいて、シーン内の深度データ点と位置合わせされ得る。したがって、深度および色情報の両方を含む３Ｄモデルを生成することができる。

一部の変形例では、３Ｄモデリングシステムは、キーポイント検出の結果に基づいて（例えば、識別された１つ以上の目標オブジェクトに基づいて）、色データ、第１の深度データ、第２の深度データを組み合わせることができる。例えば、３Ｄモデリングシステムは、第１の深度データにおける深度画像のそれぞれに対してキーポイント検出を実行して、複数の目標オブジェクトを識別することができる。目標オブジェクトは、深度画像において識別された目標オブジェクトを位置合わせすることによって深度画像を結合できるように、撮像手段からの少なくとも２つの深度画像によって捕捉される。走査手段からの第２の深度データは、複数のフレームを含む。３Ｄモデリングシステムは、走査手段により取得された各フレームに対してキーポイント検出を実行して、対象オブジェクトの数を特定することができる。同様に、走査手段により取得された深度データ点は、識別された目標オブジェクトをフレーム内で位置合わせることによって結合することができる。加えて、及び／又は代替的に、第１の深度データおよび第２の深度データは、第１の深度データおよび第２の深度データの両方に存在する識別された目標オブジェクトを位置合わせすることによって、組み合わせることができる。加えて、及び／又は代替的に、３Ｄモデリングシステムは、色データにおける色画像に対してキーポイント検出を実行して、多数の目標オブジェクトを識別することができる。このよう、色データは、深度データおよび色データの両方に存在する識別された目標オブジェクトに基づいて、深度データと位置合わせされ得る。したがって、３Ｄモデリングシステムは、シーンの３Ｄモデルを生成するように、シーン内の目標オブジェクトの数を揃えることによって、色データ、第１の深度データ、第２の深度データを組み合わせることができる。

３Ｄモデリングシステムは、３Ｄモデルを生成した後、３Ｄモデルをディスプレイに出力する。３Ｄモデルは、VRアプリケーションに利用できる。

図４は、１つ以上の実施形態によるシーン４００の３Ｄモデルを生成する例示的なアプリケーションである。３Ｄモデリングシステム４０２は、撮像手段４０４および走査手段４０６を備える。３Ｄモデリングシステム４０２の撮像手段４０４は、シーン４００の複数の深度画像を撮像して、第１の深度データを形成する。深度画像は、少なくとも１つのオブジェクトを含む部分シーン４０８を含み得る。例えば、部分シーン４０８は電気スタンドを含む。一部の例では、撮像手段４０４により撮像された少なくとも２つの深度画像は、部分シーン４０８を含む。走査手段４０６は、シーン４００を走査して複数の深度データ点を収集し、第２の深度データを形成する。その後、３Ｄモデリングシステム４０２は、色データ、第１の深度データ、第２の深度データに基づいて、シーンの３Ｄモデルを生成する。

本明細書で説明するシーンの３Ｄモデルを生成するための方法、システム、および装置は、シーン内のオブジェクトの広範囲の距離に対して一貫した高精度でシーンの高解像度３Ｄモデルを生成することができる。シーンの高品質３Ｄモデルは、深度カメラなどの撮像手段から取得された深度データと、LIＤARシステムなどの走査手段から取得された深度データを組み合わせることによって生成される。

深度カメラは、高解像度と高フレームレートの利点を有する。したがって、深度カメラは、シーン内の小さなオブジェクトの詳細を撮像できる。しかし、深度カメラは、その出力または解像度によって制限される可能性があるため、通常、比較的近い撮影距離で使用される。ほとんどの深度カメラの撮影距離は、０.２～８ｍで、最大撮影距離は通常１０ｍ以内である。また、深度カメラが取得するデプスデータの精度は、撮影距離に大きく依存する。例えば、深度カメラが構造化光カメラである例では、構造化光カメラの最高精度は、０.５～３ｍの撮影範囲内でｍｍのレベルに達することができる。しかし、３～５ｍの撮影範囲内では、構造化光カメラの精度は数十ｍｍに低下する。撮影距離が５ｍを超えると、構造化光カメラの精度が０.５ｍを下回ることがある。一方、LIＤARシステムなどの走査手段は、通常、深度カメラよりも著しく長い検出距離を持つ。例えば、市販のLIＤARシステムの測距距離は、１０ｍ、３０ｍ、１００ｍ、３００ｍ、またはそれ以上である。さらに、検出範囲内でのLIＤARシステムの精度は、一貫性が高く、非常に正確であることが知られている。しかし、LIＤARシステムは、通常、深度カメラのように集中的なデータ点を提供できず、シーン内の小さなオブジェクトの詳細を提供することはできない。

本開示は、シーン内で一貫した高精度で細かい詳細を備えた小さなオブジェクトおよび遠くのオブジェクトをモデル化することを保証するように、撮像手段および走査手段からの深度データを組み合わせるための方法、システム、および装置を提供する。

図３のブロック３１０に戻って参照すると、３Ｄモデリングシステムは、所定の解像度閾値に従って第１の深度データを取得するように構成される。３Ｄモデリングシステムの撮像手段は、最初に、異なる位置に移動し回転しながら、シーンの複数の深度画像を撮像する。３Ｄモデリングシステムのプロセッサは、撮像手段により撮像された深度画像を処理し、深度画像の画素を組み合わせることによって、シーンの全体的な深度画像を取得する。その後、３Ｄモデリングシステムのプロセッサは、所定の解像度閾値未満の解像度を有するシーン内の１つ以上の画像領域を識別し、１つ以上の画像領域について補充の深度画像を撮像するように撮像手段に指示する。各画像領域は、深度画像で撮像された部分シーンに含まれ得る。例えば、一部の変形例では、撮像手段は、目標数の深度画像を撮像するように指示されてもよい。部分シーンで撮像された深度画像の数は、部分シーンの複雑さに基づいて決定され得る。部分シーンが複雑になればなるほど、その部分シーンで撮像する深度画像の数が多くなる。撮像手段により撮像された初期の深度画像に、１つ以上の画像領域に対する補充の深度画像を補足することによって、１つ以上の画像領域の解像度は、所定の解像度閾値を上回るように改善されることができる。したがって、撮像手段により撮像された深度画像の画素を含む結果として得られる第１の深度データは、解像度要件を満たすために画像領域に十分な深度データ点を提供することができる。

一部の例では、３Ｄモデリングシステムは、目標精度に従って、所定の深度閾値に基づいて第１の深度データを取得することができる。例えば、撮像手段は、０．３ｍから２．３ｍの距離の間のデータ点／オブジェクトを正確に撮像するために使用され、０．３ｍから２．３ｍの距離の間の深度値の最大誤差は、０．５ｃｍであってもよい。したがって、深度閾値は２.３ｍであってもよく、２.３ｍより大きい値を示す深度データ値は、３Ｄモデリングシステムによって、目標精度を満たしていない可能性があるというフラグが付けられる。加えて、および／または代替として、ユーザは、画像がどれだけ正確であってほしいかに基づいて深度閾値を設定することができる。換言すれば、第１の深度データは、所定の深度閾値に従って調整され得る。例えば、深度閾値より大きい深度値を有する各データ点は、第１の深度データから削除され得る。深度閾値は、３Ｄモデリングシステムにおける撮像手段の精度に基づいて決定され得る。撮像手段の精度は、撮像手段を校正することによって、または製造業者により提供される関連パラメータから取得する。校正は、目標オブジェクトから離れた複数の撮影距離に撮像手段を配置して、各撮影距離で複数の深度画像を取得することによって実行されてもよい。例えば、撮像手段は、０．３ｍから４ｍの撮影範囲を有し、撮影距離は、所定の増分（例えば、０．１ｍ）で０．３ｍから４ｍの間で設定されてもよい。深度画像の画素に含まれる深度値は、異なる撮影距離での撮像手段の精度を校正できるように、撮像手段と目標オブジェクトとの間の実際の距離と比較され得る。例えば、撮影距離が０.３ｍの場合、深度値の誤差は０.３ｃｍであり、撮影距離が０.８ｍの場合、深度値の誤差は０.２ｃｍであり、撮影距離が１.３ｍの場合、深度値の誤差は０.１ｃｍであり、撮影距離が１.８ｍの場合、深度値の誤差は０.３ｃｍであり、撮影距離が２.３ｍの場合、深度値の誤差は０.５ｃｍであり、撮影距離が２.８ｍの場合、深度値の誤差は１ｃｍであり、撮影距離が３.３ｍの場合、深度値の誤差は５ｃｍであり、撮影距離が３.８ｍの場合、深度値の誤差は１０ｃｍであってもよい。この例では、目標精度を０.５ｃｍとした場合、深度閾値は２.３ｍと定義し得る。

深度閾値は、３Ｄモデルを生成するための精度および/または解像度の要件に応じて、データ処理中に変更してもよい。例えば、より高い精度要件のために、より小さな深度閾値が決定されてもよく、その結果、第１の深度データ内のデータ点が少なくなり、深度画像の解像度が犠牲になることがある。他の例では、深度閾値が大きいほど、第１の深度データに含まれるデータ点が多くなり、深度画像の解像度が高くなる。しかし、この場合は、精度要件を緩和する必要がある。加えて、及び／又は代替的に、深度閾値は、第２の深度データの調整に適用されてもよい。例えば、深度データ点が深度閾値よりも小さい深度値を有する場合、第２の深度データ内の深度データ点を削除してもよい。

一部の例では、３Ｄモデリングシステムのプロセッサは、処理速度の向上および計算複雑性の低減で改善されるように、図３のブロック３３０で説明されたデータ処理を行って、第１の深度データを処理して、第１の深度データにおける深度データ点の数を減らしてもよい。データ処理は、ダウンサンプリングおよびフィルタリングのうちの少なくとも１つを含む。一部の例では、ダウンサンプリングの工程は、深度画像の重なり合う画素をマージすることによって実行され得る。例えば、シーン内の同じ撮影スポットに関連する重なり合う画素は、重なり合う画素の深度値を平均化することによって、１つの深度データ点にマージされる。このような複数のデータ点を１つのデータ点にマージする工程は、繰り返しサンプリングの結果を平均化する工程に相当し、ガウス分布に従ってデータ点のジッタリングによって引き起こされる誤差を低減することができる。さらに、フィルタリングの工程は、フィルタリングアルゴリズムを適用することによって飛跡などの予想外の深度データ点を削除するために実行され得る。データ点の数を減らすための同様のデータ処理は、図３のブロック３２０で説明したように、３Ｄモデリングシステムにおける走査手段により取得された第２の深度データに適用することができる。

一部の例では、３Ｄモデリングシステムは、ブロック３３０の後、生成された３Ｄモデルが、所定の解像度閾値に達することができない１つ以上の画像領域を含むと決定することができる。例えば、１つ以上の画像領域は、シーン内の十分なデータ点で生成されていないオブジェクトを含む場合がある。３Ｄモデリングシステムのプロセッサは、１つ以上の画像領域について補充の深度画像を撮像するように、撮像手段に指示する。一部の例では、撮像手段は、１つ以上の画像領域についてより豊富な深度データを取得できるように、移動および/または回転させて、１つ以上の画像領域のそれぞれについて複数の撮影角度から深度画像を撮像する。撮像手段により撮像された補充深度画像の画素は、第１の充填データを形成し得る。３Ｄモデリングシステムのプロセッサは、新たなシーンの３Ｄモデルを生成するために、生成された３Ｄモデルに第１の充填データを補足して、局所的な詳細の洗練の程度を改善することができる。

一部の例では、３Ｄモデリングシステムは、取得された深度データに基づいて３Ｄモデルをリアルタイムで表示することができる。３Ｄモデルの表示は、ブロック３１０および３２０などの前述のデータ取得工程、ブロック３３０などのデータ処理工程、および/またはより多くの深度画像を撮像することによって新たな３Ｄモデルを生成する工程中に利用可能である。ユーザは、３Ｄモデルのリアルタイム表示に基づいて、提示された３Ｄモデルが精度、解像度、および／または完全性の要件を満たすかどうかを判断することができる。例えば、ユーザは、補充用の深度データが必要かどうか、および補充用の深度データを取得するために、３Ｄモデリングシステムにおける撮像手段と走査手段のどちらを使用すべきかを決定することができる。

図５は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための例示的な工程５００である。工程５００は、図２に示されるメモリ２３０に格納されたコンピュータ実行可能命令に従って、前述の３Ｄモデリングシステムおよび／またはデバイス２００によって実行され得る。しかしながら、工程５００は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。工程３００と比較して、工程５００は、複数のデータペアを決定し、それらのデータペアを使用して、撮像手段および走査手段からの第１および第２の深度データを組み合わせる追加のブロックを含み得る。

ブロック５１０において、３Ｄモデリングシステムは、第１の深度データを取得する。ブロック５１０は、上述のブロック３１０と同様であり得る。加えて、及び／又は代替的に、３Ｄモデリングシステムの撮像手段は、深度画像を第１のフレームレート（例えば、撮像手段によって捕捉される毎秒の深度画像の数）で捕捉することができる。各フレームは、複数の画素を含む。第１の深度データは、撮像手段により取得された複数のフレームを含む。第１セットの深度データにおける深さ映像の各フレームは、第１データとして定義される。

ブロック５２０において、３Ｄモデリングシステムは、第２の深度データを取得する。ブロック５２０は、上述のブロック３２０と同様であり得る。さらに、３Ｄモデリングシステムの走査手段は、第２のフレームレートで深度データ点を収集することができる。各フレームは、走査手段により収集された複数の深度データ点を含み、第２のフレームレートは、秒あたり走査手段により収集されたデータ点の数を示す。第２の深度データは、走査手段により収集された深度データ点の複数のフレームを含む。第２の深度データにおける各フレームは、第２のデータとして定義され得る。

ブロック５３０において、３Ｄモデリングシステムは、複数のデータペアを決定し、複数のデータペアの各々は、第１のデータおよび対応する第２のデータを含む。例えば、深度画像のフレームである第１のデータは、部分シーンに含まれる画像領域について撮像されるものである。画像領域は、シーン内のオブジェクトであってもよい。対応する第２のデータは、同じ画像領域を含む部分シーンを走査することによって取得られるフレームとして決定されてもよい。なお、第１のデータによって取得された部分シーンと第２のデータによって取得された部分シーンは同様であっても異なっていてもよい。

一部の例では、３Ｄモデリングシステムにおける撮像手段および走査手段は、プラットフォーム上に統合されてもよく、走査手段に対する撮像手段の相対位置が固定されてもよい。その例では、プラットフォームは、プラットフォームの位置および回転情報などの姿勢情報を示す外部パラメータを提供する姿勢センサとさらに統合されてもよい。第１のデータである撮像手段により取得された深度画像の各フレームが、深度画像のフレームを撮像した定時に姿勢センサにより提供された外部パラメータが付けされるように、プラットフォーム、撮像手段、走査手段、姿勢センサの間で通信接続が確立されてもよい。深度画像のフレームを撮像した定時は、深度画像のフレームに関連付けられたタイムスタンプとして、撮像手段によって付けされてもよい。さらに、姿勢センサから出力された外部パラメータは、姿勢センサにより生成されたタイムスタンプが付けされてもよく、タイムスタンプは、姿勢センサにより外部パラメータが生成された定時を示す。タイムスタンプ情報に基づいて、３Ｄモデリングシステムは、外部パラメータのタイムスタンプと撮像された画像のタイムスタンプとの間の時間間隔が所定の閾値より小さいことによって、深度画像のフレームに付けされる外部パラメータを決定してもよい。同様に、走査手段により取得された深度データ点の各フレームは、深度データ点のフレームを走査した定時に姿勢センサにより提供される外部パラメータが付けされ得る。走査手段により取得された深度データ点のフレームは、走査手段により生成された、深度データ点のフレームを生成する定時を示すタイムスタンプが付けされる。３Ｄモデリングシステムは、タイムスタンプ情報に基づいて、時間間隔が所定の閾値よりも小さい場合に、走査手段により走査された深度データ点のフレームに付けされる外部パラメータを決定してもよい。

一部の例では、プラットフォームは、データ取得のために異なる位置に移動・回転する場合がある。プラットフォームがデータ取得のための位置の１つに移動・回転されると、深度画像の１つ以上のフレームを撮像するように撮像手段に指示され、深度データ点の１つ以上のフレームを走査するように走査手段に指示され、プラットフォームの現在の位置と回転を示す外部パラメータを出力するように姿勢センサに指示されてもよい。この位置で撮像手段により撮像された深度画像の１つ以上のフレームは、第１のデータを形成し得る。第１のデータには、この位置で姿勢センサから出力された外部パラメータが付けされる。加えて、及び／又は代替的に、この位置で走査手段により走査された深度データ点の１つ以上のフレームは、第２のデータを形成し得る。第２のデータには、この位置の姿勢センサから出力された外部パラメータが付けされる。３Ｄモデリングシステムは、この位置で取得された第１のデータが同じ位置で取得された第２のデータに対応していると判断し得る。プラットフォームを移動・回転させて異なる撮影位置で上記のデータ取得処理を繰り返すことによって、第１データ及び対応する第２データを含む複数のデータペアを取得することができる。一部の例では、プラットフォームをシーン内のある位置に固定し、３６０度回転させて、シーン全体のデータ取得を実行してもよい。一部の例では、プラットフォームは、ユーザによって手持ちまたは配置されてもよく、データ取得は、ユーザの動きに従って実行されてもよい。一部の例では、プラットフォームは、ロボットや自動運転車などの移動体に配置されてもよい。プラットフォームの運動軌跡は、本開示において限定されるべきではないことが理解されよう。一部の例では、プラットフォームは、色画像装置とさらに統合されてもよい。同様に、色撮像手段により撮像された画像は、姿勢センサから出力された外部パラメータが付けされてもよい。

姿勢センサは、慣性測定ユニット（ＩＭＵ）、ＬＩＤＡＲシステムにおける同時定位およびマッピング（ＳＬＡＭ）ユニット、およびカラーカメラにおける視覚慣性オドメトリ（ＶＩＯ）ユニットのうちの少なくとも１つであってもよい。３Ｄモデリングシステムにおけるプラットフォームは、１つ以上の姿勢センサを含み得る。撮像手段、走査手段、および任意に色撮像手段のそれぞれは、別個の姿勢センサを含み得る。第１のデータ、第２のデータ、色撮像手段により撮像された画像に付けされた外部パラメータは、複数の姿勢センサから出力された外部パラメータの組み合わせであってもよい。一部の例では、外部パラメータは、IMUとSLAMユニットの両方から出力されるものである。一部の例では、外部パラメータは、IMUユニットとVIOユニットの両方から出力されるものである。一部の例では、外部パラメータは、ＩＭＵ、ＳＬＡＭユニット、ＶＩＯユニットから出力されるものである。あるいは、撮像手段および走査手段の外部パラメータのそれぞれは、撮像手段および走査手段の校正を通じて取得することができる。第１のデータ、第２のデータ、色撮像手段により撮像された画像に付けされた外部パラメータを使用して、同じ３Ｄ座標平面上でのデータ取得装置の姿勢を計算・決定することができる。

一部の例では、３Ｄモデリングシステムは、予め設定された時間間隔閾値に従ってデータペアを決定してもよい。例えば、データペアに含まれる第１のデータおよび対応する第２のデータは、予め設定された時間間隔閾値を下回る時間間隔内で取得されてもよい。第１のデータと第２のデータとの間の時間間隔が閾値未満であることに基づいて、第１のデータおよび対応する第２のデータは、同じ部分シーンの深度データ点を含み得る。このように、３Ｄモデリングシステムは、現在の時間間隔閾値に依存して、複数のデータペアを決定してもよく、データペアのそれぞれは、第１のデータおよび対応する第２のデータを含む。

一部の例では、３Ｄモデリングシステムは、第１のデータおよび第２のデータに対して実行されたキーポイント検出に基づいて、データペアを決定してもよい。３Ｄモデリングシステムは、第１のデータおよび第２のデータに対してキーポイント検出を実行することによって、第１のデータおよび対応する第２のデータ内の同じ画像領域を識別してもよい。画像領域の識別は、多数の特徴点に基づいて行われてもよい。特徴点は、ユーザによって事前定義され得る。例えば、一部の変形例では、特徴点は、グレースケールの劇的な変化を有する画像内で識別された画素、つまりエッジでの交点、および/または目標オブジェクトで識別された画素であってもよい。３Ｄモデリングシステムは、キーポイント検出結果に依存して、データペアを決定するために、第２のデータにも含まれる画像領域を第１のデータが含むと決定し得る。したがって、３Ｄモデリングシステムは、複数のデータペアを決定することができる。

ブロック５４０において、３Ｄモデリングシステムは、第１の深度データと第２の深度データを組み合わせて、複数のデータペアに基づいて組合深度データを生成する。具体的には、データペアごとに、第１データ及び対応する第２データを組み合わせる。

例えば、３Ｄモデリングシステムは、姿勢センサからの特徴点／目標オブジェクト、姿勢情報、および／または外部パラメータを使用して、第１および第２の深度データを組み合わせることができる。例えば、３Ｄモデリングシステムは、同じまたは実質的に同じ姿勢情報を有する（例えば、並進・回転ベクトルが実質的に同じである）第１の深度データおよび第２の深度データを決定してもよい。３Ｄモデリングシステムは、第１および第２の深度データを同様の姿勢情報と組み合わせて、組合深度データを生成してもよい。加えて、及び／又は代替的に、３Ｄモデリングシステムは、複数の画像/フレームを通して示される１つ以上の特徴点および/または目標オブジェクトを決定してもよい。３Ｄモデリングシステムは、特徴点および／または目標オブジェクトに関連付けられた第１および第２の深度データを決定し、次に、特徴点および／または目標オブジェクトに関連付けられた第１および第２の深度データを組み合わせて、組合深度データを生成してもよい。加えて、及び／又は代替的に、３Ｄモデリングシステムは、外部パラメータを使用して、同じ座標平面を有する組合深度データを生成してもよい(例えば、第１および第２の深度データを同じ座標平面に転置し、次に、同じ座標平面内の座標に基づいて、第１および第２の深度データを組み合わせる)。

ブロック５５０において、３Ｄモデリングシステムは、色データおよび組合深度データに基づいて、シーンの３Ｄモデルを生成する。生成された３Ｄモデルにおいて、データ点の各々は、深度値と色値を備える。組合深度データは、撮像手段により取得された深度画像のフレーム、または走査手段によって走査された深度データ点のフレームを含む。各フレームには、部分シーンが含まれる。一部の例では、フレームに含まれる部分シーンは、部分シーン間の位置関係に従って結合され得る。部分シーン間の位置関係は、予め設計されてもよい。例えば、撮像手段および走査手段を搭載するプラットフォームの運動軌跡を予め設定されてもよい。部分シーン間の位置関係は、プラットフォームの予め設定された運動軌跡に基づいて決定されてもよい。同様に、色データにおける部分シーンは、色データを形成する色画像を取得するために使用される色撮像手段の所定の運動軌跡に基づいて組み合わせることができる。あるいは、部分シーン間の位置関係は、データ取得工程中に、取得されたデータのフレームが付けされた外部パラメータ、または異なるフレームにおける識別された画像領域のいずれかに基づいて、動的に決定されてもよい。

一部の例では、３Ｄモデルにおいてデータ点の深度値は、前述のデータ処理ステップ中に同じ座標平面に転置される組合深度データに基づいて決定される。同様に、色データは、色画像を撮像している間の色撮像手段の位置および回転を示す外部パラメータに基づいて、同じ座標平面上に転置され得る。したがって、３Ｄモデルにおいてデータ点の各々は、３Ｄモデルにおいてデータ点と同じ座標にあると決定された色データ点に含まれるカラー値に従ってレンダリングされる。

一部の例では、３Ｄモデリングシステムは、組合深度データと色データの両方に存在する識別された１つ以上の画像領域を位置合わせすることによって、生成された３Ｄモデルにおいてデータ点の深度値と色値を決定する。

図６は、１つ以上の実施形態によるシーンの３Ｄモデルを生成するための例示的な工程６００である。工程６００は、図２に示されるメモリ２３０に格納されたコンピュータ実行可能命令に従って、前述の３Ｄモデリングシステムおよび／またはデバイス２００によって実行され得る。しかしながら、工程６００は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。工程３００と比較すると、工程６００は、取得された第１／第２の深度データの元データ内の解像度の欠如および／または不完全なデータを決定し、その後、取得された深度データの元データを新たな深度データで補充する追加のブロックを含み得る。

ブロック６１０において、３Ｄモデリングシステムは、第１の深度データを取得する。ブロック６１０は、上述のブロック３１０と同様であり得る。

ブロック６２０において、３Ｄモデリングシステムは、第２の深度データを取得する。ブロック６２０は、上述のブロック３２０と同様であり得る。

ブロック６３０において、３Ｄモデリングシステムは、色データ、第１の深度データ、第２の深度データに基づいて、シーンの３Ｄモデルを生成する。ブロック６３０は、上述のブロック３３０と同様であり得る。

ブロック６４０において、３Ｄモデリングシステムのプロセッサは、シーンの３Ｄモデルにおいて１つ以上の画像領域が十分なデータ点を有していないと判断することに応じて（例えば、モデル化に失敗したシーンの一部、および/または低解像度および/または欠落/不完全なデータに基づいて)、第２の充填データを取得するよう走査デバイスに指示する。３Ｄモデリングシステムのプロセッサは、１つ以上の画像領域について補充用の深度データ点を走査するように、走査手段に指示する。一部の例では、走査手段を移動および／または回転させて、１つ以上の画像領域を含む部分シーンを走査する。１つ以上の画像領域を走査することによって取得られた深度データ点は、第２の充填データを形成し得る。

ブロック６５０において、３Ｄモデリングシステムのプロセッサは、生成されたシーンの３Ｄモデルに第２の充填データを補足し、新たなシーンの３Ｄモデルを生成して、生成されたシーンの３Ｄモデルの完全性を改善する。

前述の開示された工程は、図７に示されるように、３Ｄモデリングシステム７００によって実行され得る。これは、１つ以上の実施形態に従う。３Ｄモデリングシステム７００は、撮像手段７１０、走査手段７２０、１つ以上の姿勢センサ７３０、１つ以上の３Ｄモデリングプロセッサ７４０、メモリ７５０およびディスプレイ７６０などの複数の構成要素を備える。

撮像手段７１０は、シーンの複数の深度画像を撮像するように構成され得る。撮像手段７１０は、シーンの深度画像を第１のフレームレートで撮像するように設定され得る。各深度画像は複数の画素を含み、画素は、撮像手段とシーン内の複数の撮影スポットとの間の距離を示す深度値を含む。さらに、各深度画像には、深度画像を撮像した定時を示すタイムスタンプが付けされてもよい。撮像手段７１０は、シーンの撮像された深度画像を第１の深度データまたは第１の充填データとして、３Ｄモデリングプロセッサ７４０に出力する。

走査手段７２０は、シーンの複数の深度データ点を走査するように構成され得る。走査手段７２０は、第２のフレームレートでシーンの深度データ点を取得するように設定され得る。各フレームは、複数の深度データ点を含み、深度データ点は、走査手段７２０とシーン内の複数のスポットとの間の距離を示す深度値を含む。さらに、深度データ点の各フレームには、フレームを取得した定時を示すタイムスタンプが付けされてもよい。走査手段７２０は、取得された深度データ点を第２の深度データまたは第２の充填データとして、３Ｄモデリングプロセッサ７４０に出力する。

姿勢センサ７３０は、取得された深度データに対する外部パラメータを決定および／または出力するように構成され得る。外部パラメータは、姿勢センサ７３０が埋め込まれた手段の位置および回転などの姿勢情報を含む。姿勢センサ７３０により生成された外部パラメータには、外部パラメータを生成した定時を示すタイムスタンプが付けされてもよい。撮像手段７１０および走査手段７２０などのデータ取得手段には、それぞれ姿勢センサ７３０が組み込まれてもよい。あるいは、１つの姿勢センサ７３０が、取得された深度データのフレームに対して後で決定される外部パラメータを出力してもよい。姿勢センサ７３０は、３Ｄモデリングプロセッサ７４０が、タイムスタンプによって示される時間間隔に基づいて、取得されたデータのフレームに付けされた外部パラメータを決定できるように、タイムスタンプが付けされた外部パラメータを３Ｄモデリングプロセッサ７４０に出力してもよい。

３Ｄモデリングプロセッサ７４０は、メモリ７５０に格納されたコンピュータ実行可能命令に基づいて前述の工程を実行するように構成され得る。一部の例では、３Ｄモデリングプロセッサ７４０は、外部色画像装置から色データを受信する。一部の例では、３Ｄモデリングプロセッサ７４０は、３Ｄモデリングシステム７００における色撮像手段から色データを受信する。

ディスプレイ７６０は、３Ｄモデリング工程７４０により生成される３Ｄモデルを表示するように構成され得る。一部の例では、ディスプレイ７６０は、データ取得工程中にシーンのリアルタイム３Ｄモデルを表示するようにさらに構成され得る。

本明細書で説明する技術は、プロセッサベースの命令実行マシン、システム、装置、またはデバイスによって、またはこれらに関連して使用するためのコンピュータ可読媒体に格納された実行可能命令で具現化できる。いくつかの実施形態では、データを格納するために様々なタイプのコンピュータ可読媒体を含めることができることを当業者は理解するであろう。本明細書で使用される場合、「コンピュータ可読媒体」は、命令実行マシン、システム、装置、またはデバイスが、コンピュータ可読媒体から命令を読み取り（またはフェッチ）、説明した実施形態を実施するための命令を実行することができるように、コンピュータプログラムの実行可能命令を記憶するための任意の適切な媒体の１つまたは複数を含む。適切な記憶形式には、電子、磁気、光学、および電磁形式のうちの１つ以上が含まれる。従来の例のコンピュータ可読媒体の非網羅的なリストには、ポータブルコンピュータディスケット、ランダムアクセスメモリ（RAM）、読み取り専用メモリ（ROM）、消去可能プログラマブル読み取り専用メモリ（EPROM）、フラッシュメモリ装置、及び、ポータブルコンパクトディスク（CＤ）、ポータブルデジタル映像ディスク（ＤVＤ）などの光学記憶装置、などがある。

添付の図に図示された構成要素の配置は説明のためのものであり、他の配置も可能であることを理解されたい。例えば、本明細書に記載された要素の１つ以上は、全体または一部が電子ハードウェア部品として実現され得る。他の要素は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実装することができる。さらに、これらの他の要素の一部または全部を組み合わせてもよく、一部を完全に省略してもよく、本明細書に記載の機能を実現しながら追加のコンポーネントを追加してもよい。したがって、本明細書に記載の主題は、多くの異なるバリエーションで具現化することができ、そのようなバリエーションはすべて、特許請求の範囲内にあると考えられる。

本明細書に記載される主題の理解を容易にするために、多くの態様は、動作のシーケンスの観点から説明される。様々な動作は、特殊な回路または回路によって、１つ以上のプロセッサによって実行されるプログラム命令によって、または両方の組み合わせによって実行され得ることは、当業者によって認識されるであろう。本明細書における一連の動作の説明は、その一連の動作を行うために記述された特定の順序に従わなければならないことを意味することを意図していない。本明細書に記載される全ての方法は、本明細書で特に示されない限り、または文脈によって明らかに矛盾しない限り、任意の適切な順序で実行され得る。

主題を説明する文脈における（特に、以下の請求項の文脈における）用語「一つ」および「１つ」および「前記」ならびに同様の参照の使用は、本明細書において別様に示されるか、または文脈によって明らかに矛盾しない限り、単数および複数の両方をカバーするように解釈されるものとされる。用語「少なくとも１つ」の後に１つ以上の項目のリスト（例えば、「AおよびBの少なくとも１つ」）が続く使用は、本明細書において別段の指示があるか、または文脈によって明らかに矛盾しない限り、リストされた項目（AまたはB）から選択された１つの項目、またはリストされた項目（AおよびB）の２以上の任意の組み合わせを意味すると解釈される。さらに、求める保護範囲は、その均等物とともに以下に記載される請求項によって定義されるため、前述の説明は、例示の目的のみのためであり、制限の目的ではありえない。本明細書で提供される任意のおよびすべての例、または例文（例えば、「など」）の使用は、単に主題をより良く説明することを意図しており、別途請求されない限り、主題の範囲に制限を提起するものでない。特許請求の範囲及び書面の説明の両方において、ある結果をもたらすための条件を示す用語「に基づいて」及び他の同様のフレーズの使用は、その結果をもたらす他の条件を排除することを意図していない。本明細書のいかなる文言も、請求項に記載された発明の実施に不可欠なものとして、請求項に記載されていない要素を示すものと解釈されるべきではない。

Claims

シーンの３Ｄモデルを生成する方法であって、
撮像手段を含む３Ｄモデリングシステムが、複数のフレームの深度画像の画素を含む第１の深度データを取得することと、
走査手段を含む前記３Ｄモデリングシステムが、複数のフレームの画像の深度データ点を含む第２の深度データを取得することと、
前記３Ｄモデリングシステムが、複数の色画像の画素を含む前記シーンの色データを受信することと、
前記３Ｄモデリングシステムが、前記色データ、前記第１の深度データ、前記第２の深度データに基づいて、前記シーンの３Ｄモデルを生成することと、
前記シーンの３Ｄモデルを表示させることと、含む方法。
前記第１の深度データにおける前記深度画像の各々は第１のデータであり、前記第２の深度データにおける画像フレームの各々は第２のデータであり、
前記方法は、さらに、
複数のデータペアを決定し、前記複数のデータペアの各々が、前記第１のデータおよび対応する前記第２のデータを含み、前記第１のデータおよび対応する前記第２のデータが同様の目標オブジェクトを含むことと、
前記複数のデータペアに基づいて、前記第１の深度データと前記第２の深度データとの間の位置関係を決定することと、を更に含む、
請求項１に記載の方法。
前記第１のデータの各々には、前記撮像手段の姿勢情報を示す第１の外部パラメータが付けされ、前記第２のデータの各々には、前記走査手段の姿勢情報を示す第２の外部パラメータが付けされ、前記複数のデータペアを決定することは、
前記第１の外部パラメータに基づいて、前記第１のデータに関連する第１の姿勢を決定することと、
前記第２の外部パラメータに基づいて、前記第２のデータに関連する第２の姿勢を決定することと、
前記第１の姿勢および前記第２の姿勢が同様であることに応じて、前記第１のデータおよび前記第２のデータを含むデータペアを決定することと、を含む、
請求項２に記載の方法。
前記第１の外部パラメータおよび前記第２の外部パラメータは、前記３Ｄモデリングシステムにおける同じ姿勢センサから出力される、
請求項３に記載の方法。
前記第１のデータの各々には、前記撮像手段により前記第１のデータが取得された定時を示す第１のタイムスタンプが付けされ、前記第２のデータの各々には、前記走査手段により前記第２のデータが取得された定時を示す第２のタイムスタンプが付けされ、前記データペアにおける前記第１のデータと対応する前記第２のデータは、閾値よりも小さい時間間隔を有する、
請求項２に記載の方法。
前記データペアにおける前記第１のデータおよび対応する前記第２のデータは、１つ以上の同様のオブジェクトで識別される、
請求項２に記載の方法。
深度閾値を決定することと、
前記１つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第１の深度データにおける前記１つ以上のデータ点を削除することと、を更に含む、
請求項１に記載の方法。
生成された前記シーンの３Ｄモデルにおいて、解像度閾値未満の１つ以上の画像領域を識別することと、
前記撮像手段を含む前記３Ｄモデリングシステムが、複数の深度画像の画素を含む第１の充填データを取得することと、
生成された前記シーンの３Ｄモデルに、前記第１の充填データを補充して、新たなシーンの３Ｄモデルを生成することと、更に含む、
請求項１に記載の方法。
生成された前記シーンの３Ｄモデルにおいて、十分な前記深度データ点を持たない１つ以上の画像領域を識別することと、
前記走査手段を含む前記３Ｄモデリングシステムが、複数の画像フレームの深度データ点を含む第２の充填データを取得することと、
生成された前記シーンの３Ｄモデルに、第２の充填データを補充して、新たなシーンの３Ｄモデルを生成することと、さらに含む、
請求項１に記載の方法。
前記撮像手段は、第１のフレームレートで前記複数の深度画像を取得し、前記走査手段は、第２のフレームレートで前記複数の画像フレームを取得する、
請求項１に記載の方法。
前記３Ｄモデリングシステムは、取得された前記深度データに基づいて、前記シーンの３Ｄモデルをリアルタイムで表示するディスプレイを含む、
請求項１に記載の方法。
シーンの３Ｄモデルを生成するためのシステムであって、
複数のフレームの深度画像の画素を含む第１の深度データを取得するように構成される撮像手段と、
複数の画像フレームの深度データ点を含む第２の深度データを取得するように構成される走査手段と、
前記撮像手段からの第１の深度データ、前記走査手段からの第２の深度データ、複数の色画像の画素を含む色データを取得し、前記色データ、前記第１の深度データ、前記第２の深度データに基づいて、前記シーンの３Ｄモデルを生成し、生成された前記シーンの３Ｄモデルを出力するように構成される１つ以上のプロセッサと、
を含むシステム。
前記第１の深度データにおける前記深度画像の各々は、第１のデータであり、前記第２の深度データにおける画像フレームの各々は、第２のデータであり、
前記１つ以上のプロセッサは、さらに、
複数のデータペアを決定し、前記複数のデータペアの各々は、前記第１のデータおよび対応する前記第２のデータを含み、前記第１のデータおよび対応する前記第２のデータは、同様の目標オブジェクトを含み、
前記複数のデータペアに基づいて、前記第１の深度データと前記第２の深度データとの間の位置関係を決定するように構成される、
請求項１２に記載のシステム。
前記システムは、さらに、前記３Ｄモデリングシステムにおける前記撮像手段および前記走査手段の姿勢情報を示す外部パラメータを出力するように構成される１つ以上の姿勢センサを含み、
前記第１のデータの各々には、前記撮像手段の姿勢情報を示す第１の外部パラメータが付けされ、前記第２のデータの各々には、前記走査手段の姿勢情報を示す第２の外部パラメータが付けされ、
前記１つ以上のプロセッサは、さらに、
前記第１の外部パラメータに基づいて、前記第１のデータに関連する第１の姿勢を決定し、
前記第２の外部パラメータに基づいて、前記第２のデータに関連する第２の姿勢を決定し、
前記第１の姿勢と前記第２の姿勢が同様であることに応じて、前記第１のデータと前記第２のデータを含むデータペアを決定するように構成される、
請求項１３に記載のシステム。
前記第１のデータの各々には、前記撮像手段により前記第１のデータが取得された定時を示す第１のタイムスタンプが付けされ、前記第２のデータの各々には、前記走査手段により前記第２のデータが取得された定時を示す第２のタイムスタンプが付けされ、
前記データペアにおける前記第１のデータと対応する前記第２のデータは、閾値よりも小さい時間間隔を有する、
請求項１３に記載のシステム。
前記データペアにおける前記第１のデータおよび対応する前記第２のデータは、１つ以上の同様のオブジェクトで識別される、
請求項１３に記載のシステム。
前記１つ以上のプロセッサは、さらに、
深度閾値を決定し、
前記１つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第１の深度データにおける前記１つ以上のデータ点を削除するように構成される、
請求項１６に記載のシステム。
前記１つ以上のプロセッサは、さらに、
生成された前記シーンの３Ｄモデルにおいて、解像度閾値未満の１つ以上の画像領域を識別し、
前記撮像手段から複数の深度画像の画素を含む第１の充填データを受信し、
生成された前記シーンの３Ｄモデルに前記第１の充填データを補充して、新たなシーンの３Ｄモデルを生成するように構成される、
請求項１６に記載のシステム。
前記１つ以上のプロセッサは、さらに、
生成された前記シーンの３Ｄモデルにおいて、十分な深度データ点を持たない１つ以上の画像領域を識別し、
前記走査手段から複数の画像フレームの深度データ点を含む第２の充填データを受信し、
生成された前記シーンの３Ｄモデルに前記第２の充填データを補充して、新たなシーンの３Ｄモデルを生成するように構成される、
請求項１３に記載のシステム。
コンピュータ実行可能命令が記憶されている非揮発性なコンピュータ可読媒体であって、
前記コンピュータ実行可能命令は、１つ以上のプロセッサによって実行されると、プロセッサは、
撮像手段を含む３Ｄモデリングシステムが、複数のフレームの深度画像の画素を含む第１の深度データを取得することと、
走査手段を含む前記３Ｄモデリングシステムが、複数のフレームの画像の深度データ点を含む第２の深度データを取得することと、
前記３Ｄモデリングシステムが、複数の色画像の画素を含むシーンの色データを受信することと、
前記３Ｄモデリングシステムが、前記色データ、前記第１の深度データ、前記第２の深度データに基づいて、シーンの３Ｄモデルを生成することと、
前記シーンの３Ｄモデルを表示させることと、を実現する、
コンピュータ可読媒体。