JP7280452B2

JP7280452B2 - 縮尺図と３次元モデルを用いた機械学習ベースのオブジェクト識別

Info

Publication number: JP7280452B2
Application number: JP2022573324A
Authority: JP
Inventors: ベンフライシュマンマイケル; ヘインガブリエル; フリエルアレントーマス; ボトロスアブラハム
Original assignee: オープンスペースラブズインコーポレイテッド
Priority date: 2020-05-29
Filing date: 2021-04-19
Publication date: 2023-05-23
Anticipated expiration: 2041-04-19
Also published as: EP4136576A1; US11734882B2; US20210375062A1; CN115699098A; US12045936B2; EP4136576A4; US20220375183A1; JP2023519641A; US11436812B2; WO2021242439A1; US20230351684A1

Description

本開示は、環境内のオブジェクトを識別することに関し、特に、機械学習を使用して、環境の注釈付きダイアグラムおよび３次元モデルに基づいて環境内のオブジェクトを識別することに関する。

［関連出願への相互参照］
本出願は、２０２０年５月２９日に出願された米国仮出願第６３／０３２，４５２号の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。

従来、環境内のオブジェクトのタイプおよび位置を決定するために、ユーザは、環境のウォークスルービデオをキャプチャし、ウォークスルービデオ内のオブジェクトを手動で識別してタグ付けをしている。例えば、建設現場では、建築プロジェクトのさまざまな部分でさまざまなタスクが同時に実行されるため、建築プロジェクトが予定どおりに完了するかどうかを決定するために、建築プロジェクトの各側面の進捗状況を追跡し続けることは困難である。総合建設会社（a general contractor）は、建設現場のコンディションを記録した建設現場のウォークスルービデオをキャプチャすることによって、建設現場の進捗状況を監視したいと考え得る。次いで、総合建設会社は、ウォークスルービデオを視覚的に確認し、画像内に存在するオブジェクトを特定することによって、設置されているオブジェクト（例えば、照明器具、キャビネット、窓、乾式壁、ペンキ、セメント）を特定し得る。総合建設会社は、新しいウォークスルービデオを定期的にキャプチャし、時間の経過とともに建築プロジェクトの進捗状況を追跡するために設置されている追加のオブジェクトを決定し得る。しかし、オブジェクトをカウントおよび測定するためにビデオを手動で確認するのは、面倒で時間が掛かる。

［概要］
空間索引システムは、環境内にあると予測されるオブジェクトの位置で注釈付けされた環境の縮尺図を受信する。オブジェクトはオブジェクトタイプに関連付けられ、空間索引システムは、縮尺図から環境内にあると予測されるオブジェクトのそれぞれに関連付けられたオブジェクトの位置およびタイプを決定する。空間索引システムはまた、オブジェクトタイプのそれぞれに対して環境内にあると予測されるオブジェクトの合計数量を決定する。空間索引システムはまた、ビデオキャプチャシステムがカメラパスに沿って環境内を移動するときに、ビデオキャプチャシステムによってキャプチャされたウォークスルービデオを受信する。ウォークスルービデオは、所与の時間における環境のコンディションを描写する画像フレームのシーケンスを含む。

空間索引システムは、オブジェクト定量化操作を実行して、ウォークスルービデオの画像フレーム内でキャプチャされたオブジェクトのオブジェクトタイプおよび位置を識別し、ウォークスルービデオがキャプチャされたときに環境内の各オブジェクトタイプに対するオブジェクトの量を自動的に推定する。この量を推定するために、空間索引システムは、画像フレーム内で識別されたオブジェクトを含む環境の３次元（３Ｄ）モデルを生成する。空間索引システムは、機械学習モデルを使用して、３Ｄモデル内で識別されたオブジェクトのそれぞれの位置およびオブジェクトタイプを決定する。空間索引システムは、識別されたオブジェクトのそれぞれに対する確率を決定し、この確率は、そのオブジェクトタイプを有するオブジェクトが環境内に存在する可能性を示す。確率が所定の閾値よりも大きい場合、空間索引システムは、識別されたオブジェクトが環境内に存在すると決定する。この確率に基づいて、空間索引システムは、３Ｄモデル内の各オブジェクトタイプの推定量を決定する。各オブジェクトタイプに対して、オブジェクトタイプの推定量を、オブジェクトタイプの予想合計量と比較して、ユーザに提示できる。

図１は、一実施形態による空間索引システムのシステム環境を示す。図２Ａは、一実施形態によるカメラパスモジュールのブロック図を示す。図２Ｂは、一実施形態によるモデル生成モジュールのブロック図を示す。図２Ｃは、一実施形態による、注釈付き３Ｄモデルとフロアプランとの比較を示すブロック図を示す。図３Ａは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの一部を示す。図３Ｂは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの一部を示す。図３Ｃは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの一部を示す。図３Ｄは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの一部を示す。図３Ｅは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの一部を示す。図４Ａは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況視覚化インターフェースを示す。図４Ｂは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況視覚化インターフェースを示す。図４Ｃは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況視覚化インターフェースを示す。図４Ｄは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況視覚化インターフェースを示す。図４Ｅは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況視覚化インターフェースを示す。図５は、一実施形態による、フロアプラン内の特徴を使用してフレームの自動空間索引付けのための例示的な方法を示すフローチャートである。図６は、一実施形態による、力まかせ探索を使用してカメラパスをフロアプランに位置合わせするための例示的な方法を示すフローチャートである。図７Ａは、一実施形態による、フロアプランのグリッドマップを使用してカメラパスをフロアプランに位置合わせするための例示的な方法を示すフローチャートである。図７Ｂは、一実施形態による、フロアプランの例を示す。図７Ｃは、一実施形態による、グリッドマップの例を示す。図８は、一実施形態による、ウォークスルービデオを使用した進捗状況の追跡のための例示的な方法を示すフローチャートである。図９は、一実施形態による、ウォークスルービデオ内のオブジェクトサーチのための例示的な方法を示すフローチャートである。

［詳細な説明］
Ｉ．概要
空間索引システムは、入力として物理環境の注釈付き縮尺図を受信し、物理世界におけるオブジェクトの予測される量を決定する。ユーザは、ユーザが環境内を移動するにつれて、物理世界における環境の画像またはビデオをキャプチャし、物理世界のコンディションを記録し得る。画像データは、単眼カメラまたはステレオカメラを使用してキャプチャされ得、個々の写真として、またはビデオからの画像のシーケンスとしてキャプチャされ得、従来のまたは３６０度カメラを使用してキャプチャされ得る。物理的な世界の環境の縮尺図（例えば、フロアプラン）は、その環境内にあると予測されるオブジェクトの位置とサイズを使用して、人が手動で注釈を、または機械学習モデルが自動的に注釈を、付け得る。注釈付き縮尺図は、環境内にあると予測されるオブジェクトの位置およびオブジェクトタイプを提供し、画像データは、所与の時間に環境内における実際のオブジェクトの位置およびオブジェクトタイプを提供する。注釈付き縮尺図からの予測されるオブジェクトと画像データからのオブジェクトとの比較に基づいて、ユーザは、画像データから識別されたオブジェクトが予測されるオブジェクトから逸脱していると決定し得る。空間索引システムは、異なるオブジェクトタイプについて、予測されるオブジェクトの量と画像データから識別されたオブジェクトの量との間の差を決定し得る。この差は、オブジェクトの予測された量に対して、検出された量の経時的な変化を追跡するために使用され得る。

ＩＩ．システム環境
図１は、一実施形態による空間索引システムのためのシステム環境１００を示す。図１に示す実施形態では、システム環境１００は、ビデオキャプチャシステム１１０と、ネットワーク１２０と、空間索引システム１３０と、クライアントデバイス１６０とを含む。単一のビデオキャプチャシステム１１０および単一のクライアントデバイス１６０が図１に示されているが、いくつかの実施形態では、空間索引システムは、複数のビデオキャプチャシステム１１０および複数のクライアントデバイス１６０と相互作用する。

ビデオキャプチャシステム１１０は、ビデオキャプチャシステム１１０がカメラパスに沿って移動されるときに、フレームデータ、モーションデータ、ｌｉｄａｒデータ、および位置データのうちの１つまたは複数を収集する。図１に示される実施形態では、ビデオキャプチャシステム１１０は、３６０度カメラ１１２と、モーションセンサ１１４と、位置センサ１１６とを含む。ビデオキャプチャシステム１１０は、カメラパスに沿って移動されるのに適したフォームファクタを有するデバイスとして実装される。一実施形態では、ビデオキャプチャシステム１１０は、車輪付きカート、またはユーザの身体に装着されるオブジェクト（例えば、バックパックまたはヘルメット）に取り付けられるまたは一体化されるデバイスのような、ユーザがカメラパスに沿って物理的に移動する携帯型デバイスである。別の実施形態では、ビデオキャプチャシステム１１０は、車両上に搭載される、または車両に一体化される。車両を、例えば、車輪付き車両（例えば、車輪付きロボット）または航空機（例えば、クワッドコプタードローン）とし得、予め設定されたルートに沿って自律的に移動するように構成すること、またはリアルタイムで人間のユーザによって制御することができる。

３６０度カメラ１１２は、ビデオキャプチャシステム１１０がカメラパスに沿って移動されるときに３６０度フレームのシーケンスをキャプチャすることによってフレームデータを収集する。本明細書に言及されるように、３６０度フレームは、３６０度の視野をカバーする視野を有するフレームである。３６０度カメラ１１２を、ビデオキャプチャシステム１１０内に複数の非３６０度カメラを互いに対して異なる角度に向けられるように配置すること、および３６０度カメラをほぼ同時にそれぞれの角度から環境のフレームをキャプチャするように構成することによって、実装できる。次に、画像フレームを結合して、単一の３６０度のフレームを形成できる。例えば、３６０度カメラ１１２は、反対方向に向けられた２つの１８０度パノラマカメラから実質的に同時にフレームをキャプチャすることによって実装できる。

ビデオキャプチャシステム１１０によってキャプチャされた画像フレームデータは、フレームタイムスタンプをさらに含み得る。フレームタイムスタンプは、各フレームがビデオキャプチャシステム１１０によってキャプチャされた時間に対応するデータである。本明細書で使用されるように、フレームは、互いの閾値時間間隔内（例えば、１秒以内、１００ミリ秒以内など）にキャプチャされた場合、実質的に同時にキャプチャされている。

一実施形態では、３６０度カメラ１１２は３６０度ビデオをキャプチャし、３６０度ビデオ内の画像フレームはウォークスルービデオの画像フレームである。別の実施形態では、３６０度カメラ１１２は、固定時間間隔で分離された静止フレームのシーケンスをキャプチャする。フレームのシーケンスであるウォークスルービデオは、高いフレームレート（例えば、６０フレーム／秒）または低いフレームレート（例えば、１フレーム／秒）など、任意のフレームレートでキャプチャできる。一般に、高いフレームレートで、フレームのシーケンスであるウォークスルービデオをキャプチャすることはより安定した結果をもたらし、一方、低いフレームレートで、フレームのシーケンスであるウォークスルービデオをキャプチャすることは、データの格納および伝送を減らすことを可能にする。モーションセンサ１１４および位置センサ１１６はモーションデータおよび位置データをそれぞれ収集し、一方で、３６０度カメラ１１２は画像フレームデータをキャプチャしている。モーションセンサ１１４は、例えば、加速度計およびジャイロを含むことができる。モーションセンサ１１４はまた、ビデオキャプチャシステム１１０を取り囲む磁場の方向を測定する磁力計を含むことができる。

位置センサ１１６は、ビデオキャプチャシステム１１０の緯度および経度座標を決定する全地球航法衛星システムのための受信機（例えば、ＧＰＳ受信機）を含むことができる。いくつかの実施形態では、位置センサ１１６は、追加的または代替的に、環境内の既知の場所に配置された送信機から受信した信号に基づいてビデオキャプチャシステムの位置を決定する屋内測位システム（ＩＰＳ）のための受信機を含む。例えば、ＲＦフィンガープリントを送信する複数の無線周波数（ＲＦ）送信機が環境全体に配置され、位置センサ１１６はまた、ＲＦフィンガープリントを検出し、ＲＦフィンガープリントの相対強度に基づいて環境内のビデオキャプチャシステム１１０の位置を推定する受信機を含む。

図１に示すビデオキャプチャシステム１１０は、３６０度カメラ１１２、モーションセンサ１１４、および位置センサ１１６を含むが、他の実施形態では、コンポーネント１１２、１１４、１１６のいくつかはビデオキャプチャシステム１１０から省略され得る。例えば、モーションセンサ１１４および位置センサ１１６の１つまたは両方はビデオキャプチャシステムから省略され得る。さらに、ビデオキャプチャシステム１１０は、３６０度カメラ１１２を伴って、図１内に説明されているが、ビデオキャプチャシステム１１０は、代替的に、狭い視野を有するカメラを含み得る。図示されていないが、いくつかの実施形態では、ビデオキャプチャシステム１１０は、レーザビームを放射し、周囲環境内の点までの測定された距離に基づいて周囲環境を表す３Ｄデータを生成するｌｉｄａｒシステムをさらに含み得る。３Ｄデータに基づいて、周辺環境の３Ｄモデル（例えば、点群）が生成され得る。ｌｉｄａｒシステムによってキャプチャされた３Ｄデータは、３６０度カメラ１１２によってキャプチャされた画像フレームと同期され得る。

いくつかの実施形態において、ビデオキャプチャシステム１１０は、キャプチャされたデータを格納するためのストレージと、ネットワーク１２０を介してキャプチャされたデータを空間索引システム１３０に送信する通信インターフェースとをさらに含むコンピューティングデバイス（例えば、図９に示されるコンピュータシステム９００）の一部として実装される。一実施形態において、ビデオキャプチャシステム１１０は、システム１１０がカメラパスに沿って移動されるときに、キャプチャされたデータをローカルに格納し、データは、データ収集が完了した後に空間索引システム１３０に送信される。別の実施形態では、ビデオキャプチャシステム１１０は、システム１１０がカメラパスに沿って移動しているときに、リアルタイムで、キャプチャされたデータを空間索引システム１３０に送信する。

ビデオキャプチャシステム１１０は、ネットワーク１２０を介して他のシステムと通信する。ネットワーク１２０は、有線および／または無線通信システムの両方を使用する、ローカルエリアおよび／またはワイドエリアネットワークの任意の組み合わせを含み得る。一実施形態では、ネットワーク１２０は、標準の通信技術および／またはプロトコルを使用する。例えば、ネットワーク１２０は、イーサネット（登録商標）８０２．１１、worldwide interoperability for microwave access（ＷｉＭＡＸ）、３Ｇ、４Ｇ、code division multiple access（ＣＤＭＡ）、digital subscriber line（ＤＳＬ）などの技術を使用する通信リンクを含む。ネットワーク１２０を介して通信するために使用されるネットワークプロトコルの例には、マルチプロトコルラベルスイッチング（ＭＰＬＳ）、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、シンプルメール転送プロトコル（ＳＭＴＰ）、およびファイル転送プロトコル（ＦＴＰ）が含まれる。ネットワーク１２０はまた、APPLE Push Notification Service（ＡＰＮ）やGOOGLE Cloud Messaging（ＧＣＭ）などのさまざまなプッシュ通知サービスを介してプッシュ通知を配信するためにも使用され得る。ネットワーク１２０を介して交換されるデータは、ハイパーテキストマークアップランゲージ（ＨＴＭＬ）、拡張可能なマークアップランゲージ（ＸＭＬ）、またはジャバスクリプトオブジェクトノーテーション（ＪＳＯＮ）などの任意の適切なフォーマットを使用して表現され得る。いくつかの実施形態では、ネットワーク１２０の通信リンクのすべてまたはいくつかは、任意の適切な１つまたは複数の技法を使用して暗号化され得る。

空間索引システム１３０は、画像フレームおよびビデオキャプチャシステム１１０によって収集された他のデータを受信し、空間索引プロセスを実行して、画像フレームおよび画像のそれぞれがキャプチャされた空間的位置を自動的に識別して、画像フレームを環境の注釈付きフロアプランに位置合わせし、環境の３Ｄモデルを構築し、クライアントデバイス１６０が３Ｄモデル内のそれぞれの位置でキャプチャされた画像フレームを見ることを可能にする視覚化インターフェースを提供する。空間索引システム１３０は、画像フレームおよびビデオキャプチャシステム１１０によって収集された他のデータに基づいて、環境内にあるオブジェクトを自動的に定量化するために使用し得る。環境が建設現場である場合、空間索引システム１３０は、画像フレーム内のオブジェクトの決定された量に基づいて建設の進捗状況を追跡し、決定された量を、環境の注釈付きフロアプランに示されるように、各オブジェクトタイプについて環境内にあると予測されるオブジェクトの量と比較し得る。図１に示す実施形態では、空間索引システム１３０は、カメラパスモジュール１３２、カメラパスストレージ１３４、フロアプランストレージ１３６、モデル生成モジュール１３８、モデルストレージ１４０、モデル視覚化モジュール１４２、予測量決定モジュール１４４、注釈付き３Ｄモデル生成モジュール１４６、量推定モジュール１４８、進捗状況決定モジュール１５０、進捗状況視覚化モジュール１５２、トレーニングモジュール１５４、およびトレーニングデータストレージ１５６を含む。

カメラパスモジュール１３２は、システム１１０がカメラパスに沿って移動したときにビデオキャプチャシステム１１０によって収集されたウォークスルービデオ内の画像フレームおよび他のデータを受信し、受信したフレームおよびデータに基づいてカメラパスを決定する。一実施形態では、カメラパスは、フレームのシーケンスであるウォークスルービデオ内の各フレームに対する６Ｄカメラポーズとして定義される。各フレームに対する６Ｄカメラポーズは、画像フレームがキャプチャされたときの３６０度カメラ１１２の相対的な位置および向きの推定値（estimate）である。カメラパスモジュール１３２は、カメラパスをカメラパスストレージ１３４に格納できる。

一実施形態では、カメラパスモジュール１３２は、ＳＬＡＭ（同時ローカライゼーションおよびマッピング）アルゴリズムを使用して、同時に、（１）３６０度カメラ１１２の位置および向きを推論することによってカメラパスの推定値を決定する、および（２）直接的方法を使用してまたはフレームのシーケンスであるウォークスルービデオから抽出されたランドマーク特徴（有向ＦＡＳＴおよび回転ＢＲＩＥＦ（ＯＲＢ）、スケール不変特徴変換（ＳＩＦＴ）、スピードアップロバスト特徴（ＳＵＲＦ）など）を使用して、環境をモデル化する。カメラパスモジュール１３２は、６次元（６Ｄ）カメラポーズのベクトルを経時的に出力し、シーケンス内の各フレームに対して１つの６Ｄベクトル（位置に対して３次元、方向に対して３次元）を有し、６Ｄベクトルはカメラパスストレージ１３４に記憶できる。カメラパスモジュール１３２の実施形態は、図２Ａに関して以下に詳細に説明される。

空間索引システム１３０はまた、ビデオキャプチャシステム１１０によってキャプチャされた環境のものなどの１つまたは複数のフロアプランを格納するフロアプランストレージ１３６を含むことができる。本明細書で言及されるように、フロアプランは、トップダウンの視点からの環境（例えば、建物または構造の一部）の縮尺２次元（２Ｄ）ダイアグラム表現である。代替の実施形態では、フロアプランは、２Ｄダイアグラムの代わりに、予測される完成した建設の３Ｄモデルであり得る。フロアプランは、建設が完了した後に環境内にあると予測される物理オブジェクトの位置、寸法、およびオブジェクトタイプも指定するための注釈が付けられる。いくつかの実施形態では、フロアプランはクライアントデバイス１６０に関連付けられたユーザによって手動で注釈が付けられ、空間索引システム１３０に提供される。他の実施形態では、フロアプランは、環境内にあると予測される物理オブジェクトの位置、寸法、およびオブジェクトタイプを識別するために、注釈付きフロアプランのトレーニングデータセットを使用してトレーニングされる機械学習モデルを使用して、空間索引システム１３０によって注釈が付けられる。物理オブジェクトのそれぞれは、ドア、窓、壁、階段、照明器具、キャビネットなどのオブジェクトタイプに関連付けられている。オブジェクトタイプは、乾式壁、ペイント、セメント、レンガ、木材などの建設材料に関連付けられ得る。建物または構造のさまざまな部分は、別々のフロアプランで表され得る。例えば、前述の建設例では、空間索引システム１３０は、床、ユニット、またはサブ構造ごとに別々のフロアプランが格納され得る。いくつかの実施形態では、建物または構造物の所与の部分は、各々が機械的、電気的、または配管などの異なる取引に対応する複数のフロアプランを用いて表され得る。

モデル生成モジュール１３６は、環境の３Ｄモデルを生成する。本明細書で言及されるように、３Ｄモデルは、環境のウォークスルービデオからの画像フレーム、（画像フレームのそれぞれの相対位置画像フレームの６Ｄポーズによって示されるような）、および環境のフロアプラン上の画像フレームのそれぞれの絶対位置（任意選択で）を使用して生成された、環境を表す没入型モデルである。モデル生成モジュール１３６は、画像フレームを注釈付きフロアプランに位置合わせする。３Ｄモデルは、注釈付きフロアプランに位置合わせされた画像フレームを使用して生成されるため、３Ｄモデルはまた注釈付きフロアプランに位置合わせされる。一実施形態では、モデル生成モジュール１３６は、カメラパスモジュール１３２またはカメラパスストレージ１３４からフレームシーケンスおよびその対応するカメラパス（例えば、フレームのシーケンスであるウォークスルービデオ内の各フレームの６Ｄポーズを指定する６Ｄポーズベクトル）を受信し、３Ｄモデルに含めるために、シーケンス内の画像フレームのサブセットおよびそれらの対応する６Ｄポーズを抽出する。例えば、フレームのシーケンスであるウォークスルービデオが、毎秒３０フレームでキャプチャされたビデオ内のフレームである場合、モデル生成モジュール１３６は、０．５秒間隔でフレームおよびそれらの対応する６Ｄポーズを抽出することによって、画像フレームをサブサンプリングする。モデル生成モジュール１３６の実施形態は、図２Ｂに関して以下に詳細に説明される。モデル生成モジュール１３８は、モーションからの構造（ＳｆＭ）、同時ローカライゼーションおよびマッピング（ＳＬＡＭ）、単眼深度マップ生成、またはウォークスルービデオ内の画像フレームに基づいて環境の３Ｄ表現を生成するための他の方法などの方法を使用し得る。いくつかの実施形態では、モデル生成モジュール１３８は、ビデオキャプチャシステム１１０からｌｉｄａｒデータを受信し、３Ｄ点群を生成し得る。３Ｄモデルを生成した後、モデル生成モジュール１３８は、３Ｄモデルをモデルストレージ１４０に格納する。モデルストレージ１４０はまた、３Ｄモデルを生成するために使用されるウォークスルービデオをモデルストレージ１４０に格納し得る。

モデル視覚化モジュール１４２はクライアントデバイス１６０への視覚化インターフェースを提供する。視覚化インターフェースは、ユーザが２つの方法で３Ｄモデルを確認することを可能にする。第１に、視覚化インターフェースは、フロアプランストレージ１３６からの環境の対応するフロアプランを表す２Ｄオーバーヘッドマップインターフェースを提供する。２Ｄオーバーヘッドマップは、マップ上の点をクリックすることが空間内の選択された点に対応する３Ｄモデルの部分にナビゲートするように、２Ｄマップ上に示された各相対カメラ位置がインタラクティブであるインタラクティブインタフェースである。第２に、視覚化インターフェースは、抽出された３６０度のフレームの一人称ビューを提供し、これにより、ユーザは、画像フレームの周囲をパンおよびズームし、他のフレームの相対位置を表す画像フレーム内のウェイポイントアイコンを選択することによって他のフレームにナビゲートすることを可能にする。視覚化インターフェースは、ユーザが２Ｄオーバーヘッドマップ内のまたは異なるフレームの一人称視点内の画像フレームを選択した後に、フレームの一人称視点を提供する。

予測量決定モジュール１４４は、環境の注釈付きフロアプランにアクセスし、環境内にあることが予測されるオブジェクトを識別する。予測量決定モジュール１４４は、オブジェクトが注釈付きフロアプラン内に現れるインスタンスを決定し、各オブジェクトは、環境内の位置およびオブジェクトタイプに関連付けられる。注釈付きフロアプラン内のオブジェクトを識別した後、予測量決定モジュール１４４は、建設が完了したときに、各オブジェクトタイプについて環境内にあることが予測されるオブジェクトの合計量を決定する。予測量決定モジュール１４４は、注釈付きフロアプランのトレーニングデータに基づいてトレーニングモジュール１５４によってトレーニングされた機械学習モデルを使用して、注釈付きフロアプラン内でオブジェクトが現れる場所および識別されたオブジェクトのオブジェクトタイプを識別し得る。ユーザが監視することを望む各オブジェクトタイプに対して、予測量決定モジュール１４４は、注釈付きフロアプランに示されるように、そのオブジェクトタイプに対するオブジェクトの合計数量を決定する。例えば、建物の所与のフロアに対して、ユーザは、窓、ドア、窓、照明器具、および壁の設置の進捗状況を監視することを望み得、予測量決定モジュール１４４は、建設の最後に床にあるべき窓、ドア、窓、および壁の合計数を決定する。カウントできる各オブジェクトタイプに対して、予測量決定モジュール１４４は、オブジェクトタイプに関連付けられたオブジェクトが注釈付きフロアプラン内に現れるインスタンスの総数を決定し得る。例えば、予測量決定モジュール１４４は、注釈付きフロアプラン上でテキスト認識または画像認識分析を実行して、オブジェクトタイプを表すテキストまたは画像が注釈付きフロアプラン内に現れるインスタンスの数を決定する。

いくつかの実施形態では、オブジェクトタイプは、環境の注釈付きフロアプランに基づいて、建設中に使用されると予測される建設材料の総量に関連付けられ得る。ペンキ、セメント、および乾式壁など、カウントできない各オブジェクトタイプに対して、予測量決定モジュール１４４は、そのオブジェクトタイプに関連付けられたフロアプランの部分の寸法を合計し、使用されると予測される建設材料の総量を決定し得る。注釈付きフロアプランは、特定のタイプの建設材料を使用するフロアプランの異なる部分の周囲の境界を含み得、予測量決定モジュール１４４は、境界の寸法の合計を決定して、建設を完了するために使用されることが予測される建設材料タイプの総量を決定し得る。より簡単な実施形態では、注釈付きフロアプランは、材料の寸法をリニアフィートで示し得、予測量決定モジュール１４４は、建物に関する既知の特徴に基づいて、リニアフィートでの予測量を決定する、または平方フィートでの２次元予測量を外挿し得る。例えば、注釈付きフロアプランが長さ８０フィートの乾式壁が予測されることを示す場合、予測量決定モジュール１４４は、長さと壁の既知の高さとを乗算して、２次元の予測量を決定し得る。

注釈付き３Ｄモデル生成モジュール１４６は、ウォークスルービデオの画像フレーム内にキャプチャされたオブジェクトを識別し、識別されたオブジェクトを含むように、モデル生成モジュール１３８によって生成された３Ｄモデルを修正する。ウォークスルービデオの各画像フレームは、オブジェクトを検出し、オブジェクトタイプおよび環境内のオブジェクトの位置を識別するように構成された、ニューラルネットワーク分類器、最近傍分類器、または他のタイプのモデルなどの機械学習モデルに提供される。注釈付き３Ｄモデル生成モジュール１４６は、オブジェクト検出、セマンティックセグメンテーションなどを実行して、画像内のオブジェクトを表すピクセルのオブジェクトタイプおよび領域を識別し得る。画像フレームはフロアプランと位置合わせされるので、注釈付き３Ｄモデル生成モジュール１４６は、オブジェクトが検出された環境内の位置を決定できる。機械学習モデルは、トレーニングモジュール１５４によってトレーニングされ、トレーニングデータストレージ１５６に記憶された履歴環境の注釈付き画像フレームを含むトレーニングデータに基づいてトレーニングされ得る。各画像フレームに対して、機械学習モデルは、オブジェクトが検出された領域を識別する分類された画像フレームを出力し得、各領域はオブジェクトタイプに関連付けられる。

３Ｄモデルを生成し、画像フレーム内のオブジェクトを識別した後、注釈付き３Ｄモデル生成モジュール１４６は、識別されたオブジェクトを含むように３Ｄモデルの領域を修正する。環境の３Ｄモデルは、分類された画像フレームを３Ｄモデル上に投影することによって、分類された画像フレームと結合され得る。注釈付き３Ｄモデル生成モジュール１４６の詳細については、図２Ｃを参照して説明する。

量推定モジュール１４８は、注釈付き３Ｄモデル内の各オブジェクトタイプの数量を、環境の注釈付きフロアプランと比較することによって推定する。注釈付き３Ｄモデルは、オブジェクトタイプで注釈付けされた注釈付きフロアプランの領域（例えば、「キャビネット」が設置される場所として注釈が付けられたフロアプランの領域）と重複するオブジェクトタイプで分類された３Ｄモデルの領域（例えば、「キャビネット」として分類された３Ｄモデルの領域）を決定するために、注釈付きフロアプランと比較される。

一実施形態では、オブジェクトタイプに関連付けられたオブジェクトが３Ｄモデル内に存在するかどうかを決定するために、オブジェクトタイプでラベル付けされた注釈付きフロアプランの領域と、オブジェクトタイプで分類された注釈付き３Ｄモデルの対応する領域との間の重複量が計算される。重複量が所定の閾値を超えた場合、次いで、そのオブジェクトタイプは３Ｄモデル上のその領域に存在すると考えられる。別の実施形態では、教師付き分類器（例えば、ニューラルネットワーク分類器）は、トレーニングデータストレージ１５６内のラベル付きデータを使用してトレーニングモジュール１５４によってトレーニングされ、特定のオブジェクトが注釈付き３Ｄモデル上の領域内に存在するかどうかを決定する。ラベル付きトレーニングデータセット内の各インスタンスは環境に対応し、環境のウォークスルービデオで識別されたオブジェクトを含むように修正された注釈付き３Ｄモデルと、注釈付きフロアプラン上の位置にオブジェクトが存在することを示すラベル付きの注釈付きフロアプランとから構成され得る。教師付き分類器がトレーニングされた後、量推定モジュール１４８は、教師付き分類器を入力注釈付きフロアプランおよび注釈付き３Ｄモデルに適用して、注釈付き３Ｄモデルの領域に存在するオブジェクトタイプの確率を出力として受信する。量推定モジュール１４８は、出力確率を所定の閾値と比較し得る。所定の領域のオブジェクトタイプに関連付けられた確率が所定の閾値より大きい場合、量推定モジュール１４８は、そのオブジェクトタイプを有するオブジェクトがその領域に存在すると決定する。確率が所定の閾値より小さい場合、量モジュール１４８は、そのオブジェクトタイプを有するオブジェクトがその領域に存在しないと決定する。

注釈付き３Ｄモデルと注釈付きフロアプランとの間の比較を使用することの利点は、３Ｄモデルにおけるノイズを低減でき、建設におけるオブジェクト検出および進捗状況追跡の精度を改善することである。量推定モジュール１４８は、オブジェクトタイプの推定量において注釈付きフロアプランと一致しない、注釈付き３Ｄモデルの分類された領域を含まない。例えば、注釈付き３Ｄモデルは、ノイズのために床に乾式壁があると誤って示し得、これは、建設中に使用される乾式壁の量を過大評価する原因となること可能性がある。しかし、注釈付きフロアプランでは床に乾式壁があるべきではないと示されているため、床の乾式壁は推定量に含まれない。注釈付き３Ｄモデルと注釈付きフロアプランの間の比較を使用する別の利点は、設置エラーを検出可能であることである。更新された３Ｄモデルと注釈付きフロアプランの間に所定の閾値を超える不整合がある場合、人間のオペレータが手動で確認するために、不整合にフラグが付けられ得る。例えば、３Ｄモデルが、注釈付きフロアプランに従って壁が存在すべきでない場所に壁が建設されたことを示している場合、エラーにフラグが付けられ得る。

別の実施形態では、教師付き分類器は、トレーニングデータストレージ１５６内のトレーニングセットを使用してトレーニングモジュール１５４によってトレーニングされ、各インスタンスは環境に関連付けられ、環境のウォークスルービデオから生成された注釈なし３Ｄモデルと、注釈付きフロアプラン上の位置におけるオブジェクトの存在を示すラベルを有する注釈付きフロアプランと、オブジェクトでラベル付けされた注釈付きフロアプラン上の位置が可視であるウォークスルービデオからの画像フレームのセットとを含む。この実施形態では、モデル生成モジュール１３８からの３Ｄモデルは、注釈付き３Ｄモデル生成モジュール１４６によって処理されることなく、ウォークスルービデオおよび注釈付きフロアプランと共に、量推定モジュール１４８への入力として提供される。教師付き分類器は、注釈付き３Ｄモデルの領域に存在するオブジェクトタイプの確率を出力する。

ウォークスルービデオからの２次元画像フレーム間の比較を使用する代わりに、注釈付き３Ｄモデルと注釈付きフロアプランとの間の比較を使用することの別の利点は、注釈付き３Ｄモデルが画像フレーム内で検出されたオブジェクトの位置を検証できることである。例えば、注釈付きフロアプランは、建設の終了時に、参照点から第１の距離にある第１の壁と、参照点から第２の距離にある第１の壁に平行な第２の壁が必要であることを示す。第１の距離は、建設の終了時に第２の距離よりも短く、第２の壁は、第１の壁によって遮られているため、参照点から可視ではない。建設中に基準点からキャプチャされた画像フレームが乾式壁を含む場合、空間索引システム１３０は、画像フレームが深さ情報を含まないので、乾式壁が第１の壁の一部であるか第２の壁の一部であるかを決定することが可能ではない場合がある。しかし、注釈付き３Ｄモデルでは、空間索引システム１３０は２つの壁を区別できる。

履歴情報は、特に、量推定モジュール１４８が異なる時間に同じ位置にあるオブジェクトを定量化するために使用される場合に、フロアプランで予測されるように注釈付き３Ｄモデル上の位置にオブジェクトが存在することを決定するときに、量推定モジュール１４８にバイアスをかけるためにも使用できる。一実施形態では、マルコフモデルを使用して、経時的に注釈付き３Ｄモデルの位置にＤモデルの位置に存在するオブジェクトの確率をモデル化する。例えば、特定の日に３Ｄモデル上のある位置に「乾式壁」が存在することは、システムが後の日に同じ位置にある「乾式壁」を識別するようにバイアスし得るが、後の日にその位置に「フレーム」が存在する可能性を低くする。このような確率は、トレーニングデータから学習される、または現実世界の制約に基づいて人によって推定され（例えば、「フレーム」の設置は、通常、「乾式壁」の設置に先行する）、システムに提供できる。

進捗状況決定モジュール１５０は、注釈付きフロアプランに示されたオブジェクトタイプの設置の進捗状況を計算する。建設中に使用されることが予測される各オブジェクトタイプについて、進捗状況決定モジュール１５０は、量推定モジュール１４８によって決定された注釈付き３Ｄモデル内のオブジェクトタイプのオブジェクトの数を、予測量決定モジュール１４４によって決定された予測されるオブジェクトタイプのオブジェクトの総数で除算することによって、設置の進捗状況を計算する。建築材料に関連付けられたオブジェクトタイプの場合、建築材料（例えば、乾式壁）が設置されていると決定された注釈付き３Ｄモデル内の領域と、注釈付きフロアプラン内の対応する領域は、タイルまたはセルに分割される。各タイルまたはセルに対して、そのセルまたはタイルの注釈付きフロアプラン上の領域と、そのセルまたはタイルの注釈付き３Ｄモデル内の対応する領域との間の重複に基づいてスコアが計算される。スコアが所定の閾値を通過すると、そのタイルまたはセルによって定義される材料の量は、フロアプラン上のその位置に存在すると考えられる。建設材料に関連付けられたオブジェクトタイプの設置の進捗状況を計算するには、注釈付き３Ｄモデル上に存在することが判明したその材料タイプのセルまたはタイルの数を、注釈付きフロアプランに示されている特定の材料タイプのセルまたはタイルの総数で割る。

進捗状況視覚化モジュール１５２は、クライアントデバイス１６０に視覚化インターフェースを提供して、建設の進捗状況を提示する。進捗状況視覚化モジュール１５２は、ユーザが、時間の経過に伴う異なるオブジェクトタイプおよび環境の異なる部分に対して行われた進捗状況を確認することを可能にする。視覚化インターフェースの例を、図４Ａおよび４Ｅに関して以下に説明する。

クライアントデバイス１６０は、ネットワーク１２０に接続できる、スマートフォン、タブレットコンピュータ、ラップトップコンピュータなどの任意のコンピューティングデバイスである。クライアントデバイス１６０は、スクリーンなどのディスプレイデバイス上にインターフェースをユーザに表示し、インターフェースと対話するためのユーザ入力を受信する。クライアントデバイスの例示的な実施形態を、図９のコンピュータシステム９００を参照して以下に説明する。

ＩＶ．カメラパス生成の概要
図２Ａは、一実施形態による、図１に示す空間索引システム１３０のカメラパスモジュール１３２のブロック図を示す。カメラパスモジュール１３２は、ビデオキャプチャシステム１１０によってキャプチャされた入力データ（例えば、３６０度のフレーム２１２のシーケンス、モーションデータ２１４、および位置データ２２３）を受信し、カメラパス２２６を生成する。図２Ａに示される実施形態では、カメラパスモジュール１３２は、同時ローカライゼーションおよびマッピング（ＳＬＡＭ）モジュール２１６、モーション処理モジュール２２０、および、パス生成および位置合わせモジュール２２４を含む。

ＳＬＡＭモジュール２１６は、３６０度フレーム２１２のシーケンスを受信し、ＳＬＡＭアルゴリズムを実行して、カメラパスの第１の推定値２１８を生成する。ＳＬＡＭアルゴリズムを実行する前に、ＳＬＡＭモジュール２１６は、画像フレーム２１２に対して１つまたは複数の前処理ステップを実行できる。一実施形態において、前処理ステップは、３６０度フレーム２１２のシーケンスをベクトルのシーケンスに変換することによって画像フレーム２１２から特徴を抽出することを含み、ここで、各ベクトルは、それぞれのフレームの特徴表現である。特に、ＳＬＡＭモジュールは、ＳＩＦＴ特徴、ＳＵＲＦ特徴、またはＯＲＢ特徴を抽出できる。

特徴を抽出した後、前処理ステップはまた、セグメンテーションプロセスを含む。セグメンテーションプロセスは、フレームのシーケンスであるウォークスルービデオを、画像フレームのそれぞれにおける特徴の質に基づいてセグメントに分割できる。一実施形態では、フレームにおける特徴の質は、画像フレームから抽出された特徴の数として定義される。この実施形態では、セグメンテーションステップは、画像フレームの特徴の質がそれぞれ閾値を上回るまたは下回ることに基づいて、高い特徴の質または低い特徴の質を有するものとして、各フレームを分類する（すなわち、閾値を上回る特徴の質を有するフレームは、高い質として分類され、閾値を下回る特徴の質を有するフレームは、低い質として分類される）。特徴の質の低下は、例えば、過剰なモーションブラーまたは低照明コンディションが原因で発生する可能性がある。

画像フレームを分類した後、セグメンテーションプロセスは、高い特徴の質を有する連続するフレームがセグメントに結合され、低い特徴の質を有するフレームがいずれのセグメントにも含まれないように、シーケンスを分割する。例えば、カメラパスが、照度の低い廊下に沿って一連の照度の高い部屋に出入りすると仮定する。この例では、各部屋でキャプチャされた画像フレームは高い特徴の質を有する可能性が高く、一方で、廊下でキャプチャされた画像フレームは低い特徴の質を有する可能性が高い。その結果、セグメンテーションプロセスは、同じ部屋でキャプチャされた連続するフレームの各シーケンスが単一のセグメント（各部屋に対して別個のセグメントをもたらす）に分割され、一方、廊下でキャプチャされた画像フレームが前記セグメントのいずれにも含まれないように、フレームのシーケンスであるウォークスルービデオを分割する。

前処理ステップの後、ＳＬＡＭモジュール２１６は、カメラパスの第１の推定値２１８を生成するためにＳＬＡＭアルゴリズムを実行する。一実施形態では、第１の推定値２１８はまた、シーケンス内の各フレームに対して１つの６Ｄベクトルを有する、経時的な６Ｄカメラポーズのベクトルである。前処理ステップが、フレームのシーケンスであるウォークスルービデオをセグメント化することを含む実施形態では、ＳＬＡＭアルゴリズムは、フレームの各セグメントに対してカメラパスセグメントを生成するために、セグメントのそれぞれに別々に実行される。

モーション処理モジュール２２０は、ビデオキャプチャシステム１１０がカメラパスに沿って移動したときに収集されたモーションデータ２１４を受信し、カメラパスの第２の推定値２２２を生成する。カメラパスの第１の推定値２１８と同様に、第２の推定値２２２はまた、経時的なカメラポーズの６Ｄベクトルとして表すことができる。一実施形態において、モーションデータ２１４は、加速度計およびジャイロスコープによってそれぞれ収集された加速度およびジャイロスコープデータを含み、モーション処理モジュール２２０は、モーションデータに対してデッドレコニングプロセスを実行することによって第２の推定値２２２を生成する。モーションデータ２１４が磁力計からのデータも含む実施形態において、磁力計データは、ジャイロデータに加えて、または代わりに使用されて、ビデオキャプチャシステム１１０の方向に対する変化を決定し得る。

多くの民生グレードのジャイロスコープによって生成されるデータは、バイアスが修正されない場合、カメラパスの第２の推定値２２２の精度に影響を与える可能性のある時間的に変化するバイアス（ドリフトとも呼ばれる）を含む。モーションデータ２１４が上述の３つのタイプのデータ（加速度計、ジャイロスコープ、および磁力計データ）すべてを含み、モーション処理モジュール２２０が加速度計および磁力計データを使用して、ジャイロスコープデータにおけるこのバイアスを検出し、修正できる。具体的には、モーション処理モジュール２２０は、加速度計データ（通常、重力の方向を指す）から重力ベクトルの方向を決定し、重力ベクトルを使用してビデオキャプチャシステム１１０の２次元の傾きを推定する。一方、磁力計データは、ジャイロスコープの方位バイアスを推定するために使用される。磁力計データは、特に内部構造が鋼梁を含む建物の内部で使用される場合、ノイズが多い可能性があるため、モーション処理モジュール２２０は、磁力計データのローリング平均を計算および使用して、方位バイアスを推定できる。様々な実施形態では、ローリング平均は、１分、５分、１０分、または他の期間の時間ウィンドウにわたって計算され得る。

パス生成および位置合わせモジュール２２４は、カメラパスの第１の推定値２１８および第２の推定値２２２を結合して、カメラパス２２６の結合した推定値とする。ビデオキャプチャシステム１１０がカメラパスに沿って移動する間に位置データ２２３も収集する実施形態では、パス生成モジュール２２４はまた、カメラパス２２６を生成するときに位置データ２２３を使用できる。環境のフロアプランが利用可能である場合、パス生成および位置合わせモジュール２２４はまた、入力としてフロアプラン２５７を受信し、カメラパス２２６の結合した推定値をフロアプラン２５７に位置合わせできる。第１の推定値２１８と第２の推定値２２２とを結合し、カメラパスをフロアプランに位置合わせするための例示的な技術を、図５、図６および図７に関して以下に説明する。

Ｖ．モデル生成の概要
図２Ｂは、一実施形態による、図１に示される空間索引システム１３０のモデル生成モジュール１３８のブロック図を示す。モデル生成モジュール１３８は、カメラパスモジュール１３２によって生成されたカメラパス２２６を、ビデオキャプチャシステム１１０によってキャプチャされた３６０度フレーム２１２のシーケンス、環境のフロアプラン２５７、および３６０度カメラ２５４に関する情報と共に受信する。モデル生成モジュール１３８の出力は、環境の３Ｄモデル２６６である。図示された実施形態では、モデル生成モジュール１３８は、ルート生成モジュール２５２、ルートフィルタリングモジュール２５８、およびフレーム抽出モジュール２６２を含む。

ルート生成モジュール２５２は、カメラパス２２６および３６０度カメラ情報２５４を受信し、抽出された各フレームについて１つまたは複数の候補ルートベクトル２５６を生成する。３６０度カメラ情報２５４は、カメラモデル２５４Ａおよびカメラ高さ２５４Ｂを含む。カメラモデル２５４Ａは、３６０度フレーム内の各２Ｄ点（すなわち、画像フレーム内のピクセルを識別する座標の対によって定義される）を、３６０度カメラからその２Ｄ点への視線の方向を表す３Ｄ光線にマッピングするモデルである。一実施形態では、空間索引システム１３０は、システム１３０によってサポートされる各タイプのカメラに対して別々のカメラモデルを格納する。カメラ高さ２５４Ｂは、フレームのシーケンスであるウォークスルービデオがキャプチャされている間の、環境の床に対する３６０度カメラの高さである。一実施形態では、３６０度カメラ高さは、画像フレームキャプチャプロセス中に一定値を有すると仮定される。例えば、３６０度カメラがユーザの体に装着されるヘルメットに取り付けられる場合、次いで、高さは、ユーザの高さとユーザの頭頂部に対する３６０度カメラの高さの合計に等しい一定値を有する（両方の量は、ユーザ入力として受信できる）。

本明細書で言及されるように、抽出されたフレームのルートベクトルは、抽出されたフレームと他の抽出されたフレームの１つとの間の空間距離を表すベクトルである。例えば、抽出されたフレームに関連付けられたルートベクトルは、そのルートベクトルをその関連付けられたフレームの空間位置に追加することが他の抽出されたフレームの空間位置をもたらすように、その抽出されたフレームにそのテールを有し、他の抽出されたフレームにそのヘッドを有する。一実施形態では、ルートベクトルは、ベクトル減算を実行して、それぞれの６Ｄポーズベクトルによって示されるように、２つの抽出されたフレームの３次元位置間の差を計算することによって計算される。

モデル視覚化モジュール１４２を参照すると、モデル視覚化モジュール１４２が３Ｄモデル２６６を受信し、抽出されたフレームの一人称ビューを表示した後に、抽出されたフレームのルートベクトルが後で使用される。一人称ビューを表示する場合、モデル視覚化モジュール１４２は、他のフレームの位置を表す画像フレーム内の位置（例えば、ルートベクトルの先頭の画像フレーム）にウェイポイントアイコン（図３Ｂに円として示されている）をレンダリングする。一実施形態では、モデル視覚化モジュール１４２は、以下の方程式を使用して、ルートベクトルに対応するウェイポイントアイコンをレンダリングする画像フレーム内の位置を決定する。

この式では、Ｍ_projはレンダリングに使用される３６０度カメラプロジェクション関数のパラメータを含むプロジェクション行列であり、Ｍ_viewは現在のフレームに対するユーザの位置と方向を表すアイソメトリック行列であり、Ｍ_deltaはルートベクトルであり、Ｇ_ringはレンダリングされているウェイポイントアイコンのメッシュモデルを表すジオメトリ（３Ｄ座標のリスト）であり、Ｐ_iconは画像フレームの一人称ビュー内のアイコンのジオメトリである。

再び、モデル生成モジュール１３８を参照すると、ルート生成モジュール２５２は、抽出されたフレームの各ペア間の候補ルートベクトル２５６を計算できる。しかし、フレームに関連付けられた各候補ルートベクトルに対して別々のウェイポイントアイコンを表示することは、多数のウェイポイントアイコン（例えば、数十個）がフレーム内に表示されることをもたらす可能性があり、これはユーザを圧倒し、個々のウェイポイントアイコン間を識別することを困難にする可能性がある。

あまりにも多くのウェイポイントアイコンを表示することを避けるために、ルートフィルタリングモジュール２５８は、候補ルートベクトル２５６を受信し、対応するウェイポイントアイコンと共に一人称ビューで表されるルートベクトル２６０を表示するためにルートベクトルのサブセットを選択する。ルートフィルタリングモジュール２５６は、様々な基準に基づいて、表示されたルートベクトル２５６を選択できる。例えば、候補ルートベクトル２５６は、距離に基づいてフィルタリングできる（例えば、閾値長未満の長さを有するルートベクトルのみが選択される）。

いくつかの実施形態では、ルートフィルタリングモジュール２５６はまた、環境のフロアプラン２５７を受信し、フロアプラン内の特徴に基づいて候補ルートベクトル２５６をフィルタリングする。一実施形態では、ルートフィルタリングモジュール２５６は、フロアプラン内の特徴を使用して、壁を通過する任意の候補ルートベクトル２５６を削除し、その結果、画像フレーム内で可視である位置のみを指す１組の表示されたルートベクトル２６０をもたらす。これは、例えば、候補ルートベクトル２５６を取り囲むフロアプランの領域からフロアプランのフレームパッチを抽出し、画像フレームパッチをフレーム分類器（例えば、フィードフォワード深層畳み込みニューラルネットワーク）に提出して、パッチ内に壁が存在するかどうかを決定することによって行うことができる。パッチ内に壁が存在する場合、次いで、候補ルートベクトル２５６は壁を通過し、表示されたルートベクトル２６０の１つとして選択されない。壁が存在しない場合、次いで、候補ルートベクトルは、壁を通過せず、モジュール２５８が考慮する任意の他の選択基準（距離など）に従って、表示されたルートベクトル２６０の１つとして選択され得る。

画像フレーム抽出モジュール２６２は、３６０度フレームのシーケンスを受信し、画像フレームの一部または全部を抽出して、抽出フレーム２６４を生成する。一実施形態では、３６０度フレームのシーケンスは、３６０度ウォークスルービデオのフレームとしてキャプチャされ、画像フレーム抽出モジュール２６２は、各フレームの別個の抽出されたフレームを生成する。図１に関して上述したように、画像フレーム抽出モジュール２６２はまた、３６０度フレーム２１２のシーケンスであるウォークスルービデオのサブセットを抽出できる。例えば、３６０度フレーム２１２のシーケンスであるウォークスルービデオが比較的高いフレームレート（例えば、１秒あたり３０または６０フレーム）でキャプチャされた場合、画像フレーム抽出モジュール２６２は、抽出されたフレーム２６４のより管理可能な数が３Ｄモデルの一部としてユーザに表示されるように、一定の間隔（例えば、１秒あたり２フレームのビデオ）で画像フレームのサブセットを抽出できる。

フロアプラン２５７、表示されたルートベクトル２６０、カメラパス２２６、および抽出されたフレーム２６４は、３Ｄモデル２６６に結合される。上述したように、３Ｄモデル２６６は、環境の抽出されたフレーム２６４のセット、画像フレームのそれぞれの相対位置（カメラパス２２６内の６Ｄポーズによって示される）を含む環境の表現である。図２Ｂに示す実施形態では、３Ｄモデルはまた、フロアプラン２５７、フロアプラン上の画像フレームのそれぞれの絶対位置、および抽出されたフレーム２６４の一部または全部について表示されたルートベクトル２６０を含む。

ＶＩ．注釈付き３Ｄモデルとフロアプランの比較
図２Ｃは、一実施形態による、注釈付き３Ｄモデル２８０とフロアプラン２５７との比較を示すブロック図を示す。注釈付き３Ｄモデル生成モジュール１４６は、モデル生成モジュール１３８によって生成された３Ｄモデル２６６と、ビデオキャプチャシステム１１０によってキャプチャされたウォークスルービデオの３６０度フレーム２１２とを入力として受信する。注釈付き３Ｄモデル生成モジュール１４６は、オブジェクト識別子モジュール２７４と、３Ｄモデル注釈モジュール２７８とを含み、注釈付き３Ｄモデル２８０を出力する。オブジェクト識別子モジュール２７４は、３６０度のフレーム２１２内でキャプチャされたオブジェクトを識別する。オブジェクト識別子モジュール２７４は、オブジェクトタイプおよび入力画像フレーム内にあるオブジェクトの位置を識別するように構成された、ニューラルネットワーク分類器、最近傍分類器、または他のタイプのモデルなどの機械学習モデルであり得る。オブジェクト識別子モジュール２７４はまた、画像内のオブジェクトのタイプおよび位置を識別するために、オブジェクト検出、セマンティックセグメンテーションなどを実行し得る。オブジェクト識別子モジュール２７４はオブジェクトが検出された領域を識別する分類済み画像フレーム２７６を出力し、各領域はオブジェクトタイプに関連付けられている。

３Ｄモデル２６６および分類されたフレーム２７６は、分類されたフレーム２７６内にオブジェクトを含めるように３Ｄモデル２６６を修正する３Ｄモデル注釈モジュール２７８に提供される。３Ｄモデル注釈モジュール２７８は、分類済みフレーム２７６を３Ｄモデル２６６上に投影し得る。３Ｄモデル２６６は、較正されたカメラモデルを使用して、各分類済みフレーム内の各分類済みピクセルを３Ｄモデル２５５内の対応する点に投影することによって、分類済みフレーム２７６と結合され得る。３Ｄモデル内の点の分類は、各分類済みフレーム２７６フレーム内の全ての関連するピクセルからの分類を結合することによって決定され得る（例えば、分類確率の線形結合を使用して）。

注釈付き３Ｄモデル２８０および注釈付きフロアプラン２５７は、量推定モジュール１４８への入力として提供される。量推定モジュール１４８は、フロアプラン２５７との比較に基づいて、注釈付き３Ｄモデル２８０内の各オブジェクトタイプの推定量を決定する。量推定モジュール１４８は、オブジェクトタイプに関連付けられたオブジェクトが存在する可能性を決定する。次に、予測量決定モジュール１４４は、建設の完了時に環境内に存在すべき各オブジェクトタイプのオブジェクトの予測量を決定する。推定量および予測量は、設置されたオブジェクトタイプの推定量と、構築の終了時に設置されると予測されるオブジェクトタイプの予測量とを比較することによって、各オブジェクトタイプの構築の進捗状況を決定する進捗状況決定モジュール１５０に提供される。

ＶＩＩ．モデル視覚化インターフェース例
図３Ａ乃至図３Ｅは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの部分を示す。図１で上述したように、モデル視覚化インターフェースは、ユーザが、環境の３Ｄモデル内の対応する位置で、キャプチャされた画像のそれぞれを見ることを可能にする。

図３Ａ乃至図３Ｅは、上記からの総合契約会社の例で続ける。建設現場でフレームが完成すると、総合建設会社は各ユニット内側の一連の画像をキャプチャして、乾式壁の設置によってすぐに隠される作業の記録を作成する。キャプチャされた画像は、カメラパスモジュール１３２への入力として提供され、これは、６Ｄカメラポーズのベクトル（各画像に対して１つの６Ｄポーズ）を生成する。６Ｄカメラポーズは、各画像に関連付けられた相対的なカメラ位置の２Ｄ表現を提供するモデル視覚化モジュール１４２への入力として提供される。ユーザは、クライアントデバイス１６０を使用してモデル視覚化モジュール１４２によって提供される視覚化インターフェースを表示することによってこの表現を閲覧でき、ユーザは、２Ｄオーバーヘッドビューマップ上のアイコンを選択することによって、シーケンス内の異なる画像にナビゲートできる。ユーザが２Ｄオーバーヘッドマップ内の画像のアイコンを選択した後、視覚化インターフェースは、ユーザがパンおよびズームできる画像の一人称ビューを表示する。一人称視点はまた、他のキャプチャされた画像の位置を表すウェイポイントアイコンを含み、ユーザは、画像に対するウェイポイントアイコンを選択することによって、これらの他の画像のうちの１つの一人称視点にナビゲートできる。図２Ｂに関して上述したように、各ウェイポイントアイコンは、表示されている画像から他の画像を指し示すルートベクトルに基づいてレンダリングされる。２Ｄオーバーヘッドビューマップの例を図３Ａに示し、一人称ビューの例を図３Ｂに示す。図３Ｂに示す一人称ビューでは、ウェイポイントアイコンは青色の円である。

総合契約会社の例に戻ると、画像が記録されてから２か月後に、壁の１つに隠された電気工事の検査を必要とするユニットの１つで問題が発見された。従来、この電気工事を検査するには、作業を露出させるために乾式壁および他の完成した仕上げを解体する必要があり、これは非常に費用の掛かる作業である。しかし、総合建設会社は代わりに視覚化インターフェースにアクセスし、２Ｄオーバーヘッドマップビューを使用して、問題が発見された建物内の場所を識別することが可能である。そして、総合建設会社はその場所をクリックして、その場所で撮影された画像を見ることができる。この例では、図３Ｃに示される画像は、問題が発見された場所で撮影されている。

一実施形態では、視覚化インターフェースはまた、スクリーンの一方の側に第１の画像、およびスクリーンの他方の側に第２の画像を、表示する分割スクリーンビューを含む。これは、例えば、異なる時間に同じ場所でキャプチャされた２つの画像の並列ビューを作成するために使用できる。これらの２つのビューはまた、１つのビューにおけるズーム／方向を調整することが、他のビューにおけるズーム／方向を調整するように同期できる。

図３Ｄおよび３Ｅにおいて、総合建設会社は、分割スクリーンビューを使用して、右側に乾式壁が設置された翌日からの画像を表示し、左側に以前の日付（例えば、乾式壁が設置された前日）から撮影された画像を表示する並列ビューを作成する。視覚化インターフェースを使用して、「時間的に遡って」、乾式壁で覆われる前の電気工事を見ることにより、総合建設会社は、乾式壁の費用の掛かる除去の必要性を回避しながら電気的問題を検査できる。さらに、空間索引システム１３０は、ユーザに手動注釈を実行させることなく、すべてのキャプチャされた画像の位置を自動的に索引付けできるため、画像をキャプチャおよび索引付けするプロセスは時間がかからず、毎日または週に数回など、定期的に実行できる。

ＶＩＩＩ．進捗状況の視覚化インターフェース例
図４Ａ乃至図４Ｅは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況の視覚化インターフェースを示す。図４Ａ乃至図４Ｅは、上記からの総合契約会社の例を続ける。建設現場でプロジェクトの作業が行われているとき、ユーザは、建設現場のウォークスルービデオをキャプチャし、それを空間索引システム１３０に提供して、追跡されているオブジェクトタイプに対してどの程度の進捗状況であるかを決定する。ユーザは、ウォークスルービデオを定期的（例えば、毎日、毎週）にキャプチャし、時間の経過に伴う建設の進捗状況の分析を要求し得る。空間索引システム１３０は、決定された建設の進捗状況を視覚化インターフェース４００でユーザに提示する。

図４Ａにおいて、視覚化インターフェース４００は、断熱材（insulation）および乾式壁の設置を追跡することによって壁の建設の進捗状況を提示する。視覚化インターフェースは、オブジェクトタイプのそれぞれについて棒グラフで完了した設置の量を提示するように構成された第１のインターフェース４１０、および折れ線グラフで表される経時的に監視された設置の累積量を提示するように構成された第２のインターフェース４２０を含む。視覚化インターフェース４００はまた、断熱材および乾式壁のそれぞれについて予測される合計設置量と比較した推定設置量を示すサマリインターフェース４３０を含む。サマリインターフェース４３０はまた、各オブジェクトタイプの平均設置レートに基づいて設置を完了するための推定目標日を含む。

図４Ｂにおいて、視覚化インターフェース４００は、レイアウト、上部トラック、フレーム、断熱材、乾式壁、およびテーピングを含むオブジェクトタイプの建設現場および建設進捗状況のマップ４４０を含む。建設現場のマップ４４０は、環境の注釈付き３Ｄモデルのトップダウンビューであり得る。設置されたオブジェクトタイプの位置は、マップ４４０に示され、設置されたオブジェクトタイプの推定数量は、視覚化インターフェースの右側の要約４５０に示される。図４Ｂに示す例では、壁の設置の進捗状況が示されているが、ユーザは視覚化インターフェースと対話し、電気、フローリング、塗装、電気器具、キャビネットなどの他のタイプのタスクの進捗状況を見るよう要求し得る。

図４Ｃ乃至４Ｅは、異なる表示モードを有する壁の設置の進捗状況の表である。図４Ｃは、「数量」モードで表示され、図４Ｄは、「ステータス」モードで表示され、図４Ｅは、「％完了」モードで表示される。視覚化インターフェース４００は、「最後のキャプチャ」または新しいウォークスルービデオが提供された最後の日付の列と、作業が「開始されていない」、「進行中」、または「完了」であることを示す「追跡状態」の列とを含む。視覚化インターフェース４００はまた、壁の構築に入る各オブジェクトタイプ（例えば、レイアウト、フレーム、絶縁、乾式壁、テーピング）の進捗状況を追跡するための列を含む。視覚化インターフェース４００は、プロジェクトのレベル１乃至１０のそれぞれの結果と、プロジェクト全体の集計結果とを含む。

図示しないが、視覚化インターフェース４００はまた、まだ設置されていない予測されるオブジェクトを含むレポートを表示し得る。レポートは、欠落している予測されるオブジェクトの場所およびオブジェクトタイプを示し得る。いくつかの実施形態では、欠落している予測されるオブジェクトに対応するマップ４４０上の場所を視覚的に区別して、依然として作業を必要とする建設現場の部分を強調し得る。レポートは、ユーザ入力に基づいて（例えば、ユーザは、欠落している予測されるオブジェクトを設置後にレポートからチェックオフし得る）、または空間索引システム１３０が新しいウォークスルービデオに対して分析を実行するときに、更新され得る。

ＩＸ．空間索引のその他の応用
本明細書に記載される方法およびシステムはまた建設以外の環境で使用できる。物理的世界におけるオブジェクトの自動的なカウントおよび測定は、様々な実世界の使用ケースに適用できる中核的な機能である。例えば、この方法は盗難検出に適用して、ゲストがチェックアウトした後にホテルの部屋で予測されるオブジェクトの存在および量を監視できる。ゲストがホテルの部屋をチェックアウトした後、ホテルの保守作業員は、ホテルの部屋のウォークスルービデオをキャプチャし、空間索引システムを使用して、ウォークスルービデオでキャプチャされたオブジェクトが予測される量と一致するかどうかを決定し得る。別の例では、本方法を倉庫または店舗の在庫を追跡するために使用して、倉庫または店舗などの施設を維持および管理する。作業者またはロボットは、ウォークスルービデオを定期的にキャプチャし、空間索引システムを使用して倉庫または店舗内にあるオブジェクトタイプの数量を決定し得る。決定された数量が予想数量と異なる場合、空間索引システムは、在庫管理のためにその差にフラグを立て得る。

Ｘ．フロアプラン特徴に基づくフレームの空間インデックス
上述したように、視覚化インターフェースは、環境のフロアプラン内の各フレームの位置を表示する２Ｄオーバーヘッドビューマップを提供できる。オーバーヘッドビューに表示されることに加えて、環境のフロアプランはまた、各フレームの位置を決定する空間インデックスプロセスの一部として使用できる。

図５は、一実施形態による、フロアプラン内の特徴を使用するフレームの自動空間インデックス付けのための例示的な方法５００を示すフローチャートである。他の実施形態では、方法５００は、追加の、より少ない、または異なるステップを含み得、図５に示されるステップは、異なる順序で実行され得る。例えば、方法４００は、フロアプランを取得する（５３０）ことなく実行され得、そのケースでは、カメラパスの結合した推定値が、フロアプラン内の特徴を使用することなく生成される（５４０）。

空間索引システム１３０は、ビデオキャプチャシステム１１０からフレームのシーケンスであるウォークスルービデオを受信する（５１０）。シーケンス内の画像フレームは、ビデオキャプチャシステム１１０がカメラパスに沿って環境（例えば、建設現場の床）を移動するときにキャプチャされる。一実施形態では、画像フレームのそれぞれは、ビデオキャプチャシステム上の３６０度カメラ（例えば、図１に関して上述した３６０度カメラ１１２）によってキャプチャされる３６０度フレームである。別の実施形態では、画像フレームのそれぞれは、９０度などのより狭い視野を有する。

空間索引システム１３０は、フレームのシーケンスであるウォークスルービデオに基づいて、カメラパスの第１の推定値を生成する（５２０）。カメラパスの第１の推定値は、例えば、シーケンス内の各フレームに対する６Ｄカメラポーズを指定する６次元ベクトルとして表すことができる。一実施形態では、空間索引システム１３０のコンポーネント（例えば、図２Ａを参照して上述したＳＬＡＭモジュール２１６）は、各フレームに対する６Ｄカメラポーズを同時に決定し、環境の３次元仮想モデルを生成するために、フレームのシーケンスであるウォークスルービデオに対してＳＬＡＭアルゴリズムを実行する。

空間索引システム１３０は、環境のフロアプランを取得する（５３０）。例えば、複数のフロアプラン（フレームのシーケンスである受信されたウォークスルービデオに描写された環境のフロアプランを含む）がフロアプランストレージ１３６に記憶され得、空間索引システム１３０は、フロアプランストレージ１３６にアクセスして環境のフロアプランを取得する。環境のフロアプランはまた、フロアプランストレージ１３６に記憶されることなく、ビデオキャプチャシステム１１０またはクライアントデバイス１６０を介してユーザから受信され得る。

空間索引システム１３０は、カメラパスの第１の推定値とフロアプラン内の物理的オブジェクトとに基づいて、カメラパスの結合した推定値を生成する（５４０）。カメラパスの結合した推定値を生成する（５４０）２つの例示的な方法６００、７００を、それぞれ図６および図７に関して以下に説明する。

カメラパスの結合した推定値を生成した後（５４０）、空間索引システム１３０は、環境の３Ｄモデルを生成する（５５０）。例えば、モデル生成モジュール１３８は、図２Ｂに関して上述したように、フロアプラン、複数のルートベクトル、カメラパスの結合した推定値、およびフレームのシーケンスであるウォークスルービデオから抽出されたフレームを結合することによって、３Ｄモデルを生成する。

いくつかの実施形態では、空間索引システム１３０はまた、ビデオキャプチャシステムがカメラパスに沿って移動している間にキャプチャされた追加データ（フレームのシーケンスであるウォークスルービデオとは別の）を受信し得る。例えば、空間索引システムはまた、図１を参照して上述したように、モーションデータまたは位置データを受信する。空間索引システム１３０が追加データを受信する実施形態では、空間索引システム１３０は、カメラパスの結合した推定値を生成する（５４０）ときに、フロアプランに加えて追加データを使用し得る。

空間索引システム１３０が、フレームのシーケンスであるウォークスルービデオと共にモーションデータを受信する実施形態では、空間索引システム１３０は、図２Ａに関して上述したように、モーションデータに対してデッドレコニングプロセスを実行して、カメラパスの第２の推定値を生成できる。この実施形態では、カメラパスの結合した推定値を生成するステップ５４０は、第２の推定値の一部を使用して、カメラパスの第１の推定値のギャップを埋めることを含む。例えば、カメラパスの第１の推定値は、キャプチャされたフレームのいくつかにおける貧弱な特徴質のために、カメラパスセグメントに分割され得る（これは、図２Ａに関して上述したように、ＳＬＡＭアルゴリズムが信頼可能な６Ｄポーズを生成できないギャップを引き起こす）。このケースでは、第２のパス推定値からの６Ｄポーズを使用して、第１のパス推定値のセグメント間のギャップを埋めることによって、第１のパス推定値のセグメントを結合できる。

上述したように、いくつかの実施形態において、方法５００は、フロアプランを取得する（５３０）ことなく実行され得、カメラパスの結合した推定値は、フロアプラン内の特徴を使用することなく生成される（５４０）。これらの実施形態のうちの１つにおいて、カメラパスの第１の推定値は、任意の追加のデータ処理または分析なしに、カメラパスの結合した推定値として使用される。

これらの実施形態のうちの別の１つにおいて、カメラパスの結合した推定値は、カメラパスの１つまたは複数の追加の推定値を生成し、各パス推定値における各６Ｄポーズに対する信頼度スコアを計算し、カメラパスに沿った各空間位置に対して、最も高い信頼度スコアを有する６Ｄポーズを選択することによって生成される（ステップ５４０）。例えば、カメラパスの追加的な推定値は、上述したようなモーションデータを使用する第２の推定値と、ＧＰＳ受信機からのデータを使用する第３の推定値と、ＩＰＳ受信機からのデータを使用する第４の推定値とのうちの１つまたは複数を含み得る。上述したように、カメラパスの各推定値は、シーケンス内の各フレームの相対的な位置および方向を示す６Ｄポーズのベクトルである。

６Ｄポーズの信頼度スコアは、各パス推定値に対して別々に計算される。例えば、上述のパス推定値の信頼度スコアは、以下の方法で計算し得る。第１の推定値（ＳＬＡＭアルゴリズムを用いて生成された）における６Ｄポーズの信頼度スコアは、６Ｄポーズに対応する画像フレームの特徴量（例えば、画像フレーム内の検出された特徴の数）を表し、第２の推定値（モーションデータを用いて生成された）における６Ｄポーズについての信頼度スコアは、６Ｄポーズの時間を中心とする、それに先行する、またはそれに続く時間間隔における加速度計、ジャイロスコープ、および／または磁力計データにおける雑音のレベルを表し、第３の推定値（ＧＰＳデータを用いて生成された）における６Ｄポーズの信頼度スコアは、６Ｄポーズを生成するために使用されたＧＰＳデータのＧＰＳ信号強度を表し、第４の推定値（ＩＰＳデータを用いて生成された）における６Ｄポーズについての信頼度スコアは、６Ｄポーズを生成するために使用されたＩＰＳデータについてのＩＰＳ信号強度（例えば、ＲＦ信号強度）を表す。

信頼度スコアを生成した後、空間索引システム１３０は、カメラパスの各推定値を反復的にスキャンし、シーケンス内の各フレームに対して、最も高い信頼度スコアを有する６Ｄポーズを選択し、選択された６Ｄポーズは、カメラパスの結合した推定値における画像フレームの６Ｄポーズとして出力される。各パス推定値に対する信頼度スコアは別々に計算されるので、各パス推定値に対する信頼度スコアは、反復的なスキャンプロセスが行われる前に、共通のスケール（例えば、０と１との間のスカラ値であって、０は最低の可能な信頼を表し、１は最高の可能な信頼を表す）に正規化できる。

ＸＩ．カメラパスの生成－力まかせ探索によるフロアプランの位置合わせ
図６は、一実施形態による、力まかせ探索を使用してフロアプランと結合されたカメラパスを生成するための方法６００を示すフローチャートである。他の実施形態では、方法６００は、追加の、より少ない、または異なるステップを含み得、図６に示されるステップは、異なる順序で実行され得る。

図６で説明される力まかせ探索は、複数の候補カメラパスを生成し（例えば、カメラパス推定値に対して異なるスケーリング、回転、および変換動作を適用することによって）、フロアプラン上の特徴に対して最も高い一貫性スコアを有する候補カメラパスを選択することによって、カメラパスの推定値をフロアプランと位置合わせする。上述したように、いくつかの実施形態では、カメラパスの第１の推定値は、複数のカメラパスセグメントに分割できる（例えば、キャプチャされたフレームのいくつかにおける貧弱な特徴の質のために）。これらの実施形態では、力まかせ探索は、各カメラパスセグメントをフロアプランと位置合わせするために、カメラパスセグメントのそれぞれに対して別々に実行できる。カメラパスセグメントのそれぞれをフロアプランと位置合わせした後、次いで、空間索引システムは、位置合わせされたカメラパスセグメント間のカメラパス内のギャップを埋めるために、モーションデータなどの他のデータを使用できる。次に、位置合わせされたカメラパスと埋められたギャップとの組み合わせが、結合されたカメラパスとして出力される。

説明を容易にするために、力まかせ探索は、カメラパスセグメントに関して以下に説明される。しかし、力まかせ探索を第１のパス推定値全体に対しても実行できる。例えば、いくつかの実施形態では、カメラパスの第１の推定値はセグメントに分割されない（例えば、３６０度のフレームのシーケンスにおける各フレームは、十分に高品質の特徴を含むため）。これらの実施形態では、図６に記載される力まかせ探索は、第１のパス推定値をフロアプランと位置合わせするために、第１のパス推定値の全体に対して実行される。これらの実施形態では、力まかせ探索の結果は、結合されたパス推定値として出力される。

空間索引システム１３０は、スケーリング、回転、および変換動作などの様々な変換をカメラパスセグメントに適用することによって、複数の候補カメラパスを生成する（６１０）。

空間索引システム１３０は、各候補カメラパスをフロアプラン内の特徴と比較し、候補カメラパスのそれぞれについて一貫性スコアを生成する（６２０）。候補カメラパスについての一貫性スコアは、候補カメラパスとフロアプランとの間の一貫性の程度を表す。

一実施形態では、一貫性スコアは、４つのコンポーネントの加重和である。第１のコンポーネントは、候補カメラパスとフロアプラン内の特徴との間の類似性のレベルを表す。例えば、第１のコンポーネントは、候補カメラパスがフロアプラン内の特徴と交差する各インスタンスについて交差スコアを生成することによって計算でき、次いで交差スコアを結合する（例えば、それらを一緒に加算することによって）。交差スコアは、交差される特徴のタイプを通過する現実世界のカメラパスの可能性を表す（例えば、高い交差スコアは、ドアを交差するために生成され、低い交差スコアは、壁を交差するために生成される）。

第２および第３のコンポーネントは、ビデオキャプチャシステム１１０から受信された位置データに基づく。第２のコンポーネントは、候補カメラパスとビデオキャプチャシステム上のＧＰＳ受信機からのデータとの間の一貫性の程度を表す。例えば、第２のコンポーネントは、候補カメラパスによって暗示された位置と、同じ時点における位置データによって指定された位置との間の距離を結合することによって計算される。第３のコンポーネントは、候補カメラパスとビデオキャプチャシステム１１０上のＩＰＳ受信機からのデータとの間の類似性の程度を表す。第３のコンポーネントは、第２のコンポーネントと同じ方法で計算できる。空間索引システム１３０がビデオキャプチャシステム１１０から位置データを受信しない（または１つのタイプの位置データのみを受信する）実施形態では、これらのコンポーネントのうちの１つまたは両方が一貫性スコアから除外できる。

第４のコンポーネントは、フレームのシーケンスであるキャプチャされたウォークスルービデオ内の特徴を、フロアプラン上の同じ位置で以前にキャプチャされたフレームからの特徴と比較することによって生成される。一貫性スコアが第４のコンポーネントを含む実施形態では、空間索引システム１３０は、以前にキャプチャされたフレームを、それらのフロアプラン位置と関連付けて（例えば、モデルストレージ１４０内のモデルの１つの一部として）格納する。

候補カメラパスの一貫性スコアを生成した後、空間索引システムは、一貫性スコアに基づいて１つの候補カメラパスを選択する（６３０）。例えば、空間索引システムは、最も高い一貫性スコアを有する候補カメラパスを選択する（６３０）。

Ｘ．カメラパスの生成－グリッドマップを使用したフロアプランの位置合わせ
図７Ａは、一実施形態による、フロアプランのグリッドマップを使用して結合されたカメラパスを生成するための例示的な方法７００を示すフローチャートである。他の実施形態では、方法７００は、追加の、より少ない、または異なるステップを含み得、図７Ａに示されるステップは、異なる順序で実行され得る。

空間索引システム１３０は、フロアプランに基づいてグリッドマップを生成する（７１０）。グリッドマップは、各ノードがフロアプラン上の空間位置を表すグラフであり、２つのノード間の各エッジは、２つのノード間の空間の通過可能性を表す遷移スコアを指定する。エッジの遷移スコアは、２つのノード間の特徴の存在に基づいて決定される。例えば、２つのノード間に壁が存在する場合、次いで、これらの２つのノード間のエッジの遷移スコアは低くなり、カメラパスが２つのノード間を交差する可能性が低いことを示す。対照的に、２つのノード間にドアが存在する場合、次いで、２つのノード間のエッジの遷移スコアは高くなる。

一実施形態では、壁を通過するエッジの重みは経時的に調整される。例えば、第１の時間（例えば、壁のフレームがまだ配置されていない建設の初期段階）に、これらのエッジの重みには、部屋の中の空きスペースを通過するエッジの重みと同じ値が割り当てられる。第２の時間（例えば、フレームが建設されているが、乾式壁がまだ配置されていない建設の中間段階）に、これらのエッジの重みには、壁を物理的に通過することは可能であるが、一般的ではないことを示す低減値が割り当てられる。第３の時間（例えば、フレームと乾式壁の両方が配置されている建設の最終段階）に、これらのエッジの重みに低い値が割り当てられ、壁を通過することが物理的に不可能であることを示す。第１の時間、第２の時間、および第３の時間に対応する時間は、クライアントデバイス１６０からユーザ入力として受信され得、空間索引システム１３０に提供された建設スケジュールに基づいて、またはシーケンス内の画像フレームの一部または全部に対して特徴認識を実行して壁上の建設進捗状況を決定することによって、決定される。

一実施形態では、２つのノード間のフロアプラン特徴（壁またはドアなど）の存在は、コンピュータビジョン特徴分類器を使用して検出される。この実施形態では、特徴分類器は、フロアプランのフレームからフレーム特徴（例えば、SIFT SURG、またはＯＲＢ特徴）を抽出し、画像フレーム特徴を使用して、フロアプラン内の様々な位置に現れる異なる特徴（例えば、壁およびドア）を分類する。特徴分類器は、例えば、複数の手動で注釈付けされたフロアプランを含むトレーニングデータを使用してトレーニングできる。他の実施形態では、２つのノード間の特徴の存在は、手動で（例えば、ユーザ入力によって）、またはフロアプラン内のメタデータを使用することによって検出できる。

図７Ｂは、フロアプランの例を示し、図７Ｃは、フロアプランに対して生成されるグリッドマップの例を示す。図７Ｃに示すグリッドマップの例では、ノードとエッジが２次元の正方形グリッドを形成するように、ノードは水平および垂直方向の両方に等間隔に配置されている。より低い遷移スコアを有するエッジは図７Ｃに点線で示され、より高い遷移スコアを有するエッジはより太い線で示されている。図７Ｃに示されているように、壁を横切るエッジは遷移スコアが低く、一方で、２つのドアを通過するエッジは遷移スコアが高い。

グリッドマップを生成（７１０）した後、空間索引システム１３０は、反復マップマッチングアルゴリズムを実行して、カメラパスの第１の推定値をグリッドマップにマッチングする。マップマッチングアルゴリズムには、例えば、Hidden Markov Model（ＨＭＭ）、条件付きランダムフィールド（ＣＲＦ）、または一部の他のタイプのマップマッチングアルゴリズムとすることができる。

図７Ａに示す実施形態では、空間索引システム１３０は、マルコフプロセスを実行することによってマップマッチングを実行して、カメラパスの第１の推定値にマッチングするグリッドマップを通るパスに沿ったノードを反復的に識別する。

マルコフプロセスの反復は、カメラパスに沿った１つのノードを識別すること（７２０）から始まる。プロセスが開始されると、識別された最初のノードがカメラパスの開始点となる。開始点は、ユーザ入力として提供される、またはビデオキャプチャシステム１１０から受信した位置データ（例えば、ＧＰＳまたはＩＰＳデータ）に基づいて決定され得る。

ノードが識別されると、空間索引システム１３０は、グリッドマップ内の複数の他のノードに対してスコアを生成する（７３０）。一実施形態では、空間索引システム１３０は、識別されたノードを除いて、グラフ内のすべての他のノードにスコアを付ける。他の実施形態では、空間索引システム１３０は、グラフ内の他のノードのサブセットにスコアを付ける。例えば、空間索引システム１３０は、識別されたノードからエッジの閾値数未満だけ分離されている各ノードをスコア付けする（すなわち、空間索引システム１３０は、識別されたノードに近いノードにスコアを付ける。）これは、例えば、グリッドマップに多数のノードとエッジが含まれており、他のノードのそれぞれにスコアを付けるには計算量が多すぎる場合に役立ち得る。

スコアは、識別されたノードと他のノードの間のエッジの遷移スコアに基づいて生成される（７３０）。スコアは、さらに、識別されたノードの近くのカメラパスの第１の推定値の方向に基づいている。例えば、カメラパスの第１の推定値が識別されたノードの近くの左に移動する場合、次いで、識別されたノードをその左の隣接するノードに接続するエッジに対して高いスコアが生成され、一方で、識別されたノードをその上、下、および右の隣接するノードに接続するエッジに対して低いスコアが生成される。スコアはまた、識別されたノードの近くのカメラパスの第１の推定値によって移動された距離に基づく。例えば、カメラパス上の次の６Ｄポーズベクトルが４フィート離れていて、グリッドマップ内の隣接するノードが２フィート離れている場合、２つのエッジによって識別されたノードから離れているノードには、より高いスコアが割り当てられる。

空間索引システム１３０は、他の各ノードのスコアを使用して、カメラパスに沿った次のノードとして１つの他のノードを選択する（７４０）。選択されたノードは新しい識別されたノードとして指定され、他のノードのスコアを生成するステップ７３０、およびカメラパス内の次のノードを選択するステップ７４０は、カメラパス全体に沿ったノードが識別されるまで繰り返される。次いで、空間索引システム１３０は、Viterbiアルゴリズムを実行して、識別されたノードに基づいてグリッドマップを介して最も可能性の高いパスを識別できる。次いで、識別されたパスは、カメラパスの結合した推定値を生成するステップ５４０の出力として提供できる。

ＸＩＩ．進捗状況の追跡
図８は、一実施形態による、ウォークスルービデオを使用した進捗状況の追跡方法の例を示すフローチャートである。空間索引システムは、建物の一部分のフロアプランにアクセスし（８１０）、フロアプランは、建物の一部分内の１つまたは複数の予測されるオブジェクトの位置を識別する。追跡される複数のオブジェクトタイプの各オブジェクトタイプに対して、空間索引システムは、アクセスされたフロアプランに基づいて、建物内のそのオブジェクトタイプの１つまたは複数の予測されるオブジェクトを決定する（８２０）。空間索引システムは、カメラシステムから複数の画像フレームを含むビデオを受信し、カメラシステムが建物の一部を通って移動するにつれてビデオがキャプチャされる（８３０）。空間索引システムは、複数の画像フレーム内の１つまたは複数のオブジェクトを識別し（８４０）、１つまたは複数のオブジェクトのそれぞれは、オブジェクトタイプおよびオブジェクトが配置されている建物の一部の位置に関連付けられている。空間索引システムは、複数の画像フレームから建物の一部の３Ｄモデルを生成する（８５０）。１つまたは複数の識別されたオブジェクトのそれぞれに対して、空間索引システムは、識別されたオブジェクトを含むように、識別されたオブジェクトが配置される建物の一部内の位置に対応する３Ｄモデルの領域を修正する（８６０）。各オブジェクトタイプに対して、空間索引システムは、修正された３Ｄモデルおよびアクセスされたフロアプランに基づいて、識別されたオブジェクトが建物の部分内の位置に存在する確率を決定する（８７０）。各オブジェクトタイプに対して、空間索引システムは、１つまたは複数の予測されるオブジェクトと、所定の閾値より大きい確率に関連付けられた１つまたは複数の識別されたオブジェクトとの間の差を決定する（８８０）。各オブジェクトタイプに対して、空間索引システムは、決定された差を提示するためにインターフェースを修正する（８９０）。

ＸＩＩＩ．ハードウェアコンポーネント
図９は、本明細書に記載する実施形態が実装され得るコンピュータシステム９００を示すブロック図である。例えば、図１のコンテキストでは、ビデオキャプチャシステム１１０、空間索引システム１３０、およびクライアントデバイス１６０は、図９に記載するように、コンピュータシステム９００を使用して実施され得る。ビデオキャプチャシステム１１０、空間索引システム１３０、またはクライアントデバイス１６０はまた、図９に記載するように、複数のコンピュータシステム９００の組み合わせを使用して実施され得る。コンピュータシステム９００は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、またはスマートフォンであり得る。

一実施形態では、システム９００は、処理リソース９０１、メインメモリ９０３、リードオンリーメモリ（ＲＯＭ）９０５、ストレージデバイス９０７、および通信インターフェース９０９を含む。システム９００は、情報を処理するための少なくとも１つのプロセッサ９０１、および、プロセッサ９０１によって実行される情報および命令を格納するための、ランダムアクセスメモリ（ＲＡＭ）または他の動的ストレージなどのメインメモリ９０３を含む。メインメモリ９０３はまた、プロセッサ９０１によって実行される命令の実行中に、一時変数またはその他の中間情報を格納するために使用され得る。システム９００はまた、プロセッサ９０１のための静的情報および命令を格納するためのＲＯＭ９０５またはその他の静的ストレージを含み得る。磁気ディスクまたは光ディスクなどのストレージデバイス９０７は、情報および命令を格納するために提供される。

通信インターフェース９０９は、システム９００が、ネットワークリンク（無線または有線）を使用して１つまたは複数のネットワーク（例えば、ネットワーク１２０）と通信することを可能にできる。ネットワークリンクを使用して、システム９００は、１つまたは複数のコンピューティングデバイス、および１つまたは複数のサーバと通信できる。システム９００はまた、例えば、グラフィックスおよび情報をユーザに表示するために、陰極線管（ＣＲＴ）、ＬＣＤモニタ、またはテレビセットなどのディスプレイデバイス９１１を含むことができる。英数字キーおよび他のキーを含むキーボードなどの入力機構９１３は、プロセッサ９０１に情報およびコマンド選択を通信するためにシステム９００に結合できる。入力機構９１３の他の非限定的な例示的な例には、方向情報およびコマンド選択をプロセッサ９０１に通信し、ディスプレイデバイス９１１上のカーソル移動を制御するためのマウス、トラックボール、タッチセンシティブスクリーン、またはカーソル方向キーが含まれる。入力機構９１３のさらなる例には、無線周波数識別（ＲＦＩＤ）リーダ、バーコードリーダ、３次元スキャナ、および３次元カメラが含まれる。

一実施形態によれば、本明細書に記載される技術は、メインメモリ９０３に含まれる１つまたは複数の命令の１つまたは複数のシーケンスを実行するプロセッサ９０１に応答して、システム９００によって実行される。そのような命令は、ストレージ９０７などの別の機械可読媒体からメインメモリ９０３に読み取られ得る。メインメモリ９０３に含まれる命令のシーケンスの実行は、プロセッサ９０１に、本明細書に記載されるプロセスステップを実行させる。代替的な実施形態では、本明細書に記載される例を実施するために、ハードワイヤード回路をソフトウェア命令の代わりに、または組み合わせて使用し得る。したがって、記載される例は、ハードウェア回路とソフトウェアの任意の特定の組み合わせに限定されない。

ＸＩＶ．追加の考慮事項
本明細書中で使用される場合、１つまたは複数の要素が後に続く「含む」という用語は、１つまたは複数の追加の要素の存在を排除しない。「または」という用語は、排他的な「または」ではなく、非排他的な「または」として解釈されるべきである（例えば、「ＡまたはＢ」は、「Ａ」、「Ｂ」、または「ＡおよびＢ」を指し得る）。冠詞「ａ」または「ａｎ」は、単一のインスタンスが明確に指定されていない限り、以下の要素の１つまたは複数のインスタンスを指す。

図面および書面による説明は、本開示の例示的な実施形態を記載しており、本開示の本質的な特徴を列挙するものとして解釈されるべきではない。本発明の範囲は、この説明を含む特許において発行されるいかなる請求項からも解釈されるべきである。

Claims

建物の一部のフロアプランにアクセスすることであって、前記フロアプランは、前記建物の前記一部内の１つまたは複数の予測されるオブジェクトの位置を識別し、前記１つまたは複数の予測されるオブジェクトは、１つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記アクセスされたフロアプランに基づいて、前記建物の前記一部における前記オブジェクトタイプの１つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、前記カメラシステムが前記建物の前記一部を通って移動されるときにキャプチャされる複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレーム内の１つまたは複数のオブジェクトを識別することであって、前記１つまたは複数のオブジェクトのそれぞれが、オブジェクトタイプおよび前記オブジェクトが配置されている前記建物の前記一部内の位置に関連付けられている、ことと、
前記複数の画像フレームから前記建物の前記一部の３次元（３Ｄ）モデルを生成することと、
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトを含むように前記３Ｄモデルの領域を修正することであって、前記領域は、前記識別されたオブジェクトが配置された前記建物の前記一部内の前記位置に対応する、ことと、
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記修正された３Ｄモデルおよび前記アクセスされたフロアプランに基づいて、前記建物の前記一部内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記１つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた１つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
ユーザに表示されるインターフェースを修正して、各オブジェクトタイプに対して、前記決定されたカウント差を提示することと、
を含む、方法。
前記３Ｄモデルが、ｌｉｄａｒシステムによってキャプチャされた３Ｄ情報に基づいて生成される、請求項１に記載の方法。
前記フロアプランは、少なくとも１つの前記オブジェクトタイプに関連付けられた前記１つまたは複数の予測されるオブジェクトの寸法で注釈付けされている、請求項２に記載の方法。
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、前記識別されたオブジェクトが前記位置に位置する１つまたは複数の事前に決定された確率にさらに基づいている、請求項１に記載の方法。
前記複数の画像フレーム内の前記１つまたは複数のオブジェクトを識別することは、
各画像フレームについて、
前記画像フレームに機械学習モデルを適用することであって、前記機械学習モデルは、前記画像フレーム内でキャプチャされた前記オブジェクトに関連付けられた前記位置および前記オブジェクトタイプを決定し、前記決定された位置およびオブジェクトタイプに基づいて前記画像フレーム内のピクセルを分類するように構成される、こと、
をさらに含む、請求項１に記載の方法。
前記機械学習モデルは、トレーニング環境のトレーニング画像フレームを含むトレーニングデータセットに基づいてトレーニングされ、前記トレーニング画像フレームは、前記トレーニング画像フレーム内でキャプチャされた１つまたは複数のオブジェクトおよび前記１つまたは複数のオブジェクトに関連付けられたオブジェクトタイプの位置に注釈付けされている、請求項５に記載の方法。
前記機械学習モデルは、オブジェクトの検出およびセマンティックセグメンテーションに基づいて、前記オブジェクトに関連付けられた前記位置およびオブジェクトタイプを決定する、請求項５に記載の方法。
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記３Ｄモデルの領域を修正することは、
前記画像フレーム内の前記分類されたピクセルを前記３Ｄモデル内の対応する点に投影すること、
をさらに含む、請求項５に記載の方法。
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、
機械学習モデルを前記修正された３Ｄモデルおよび前記アクセスされたフロアプランに適用することであって、前記機械学習モデルは、
前記識別されたオブジェクトと同じオブジェクトタイプおよび同じ位置に関連付けられた予測されるオブジェクトを識別し、
前記予測されるオブジェクトを含む前記アクセスされたフロアプランの領域と、前記識別されたオブジェクトを含む前記３Ｄモデルの前記領域との間の重複を決定する
ように構成されている、ことと、
前記重複に基づいて、前記識別されたオブジェクトが前記位置に位置する前記確率を決定する、
をさらに含む、請求項１に記載の方法。
前記機械学習モデルは、トレーニング環境の注釈付き３Ｄモデルおよび前記トレーニング環境の注釈付きフロアプランを含むトレーニングデータセットに基づいてトレーニングされる、請求項９に記載の方法。
前記機械学習モデルは、トレーニング環境の注釈なし３Ｄモデル、前記トレーニング環境の注釈付きフロアプラン、および前記トレーニング環境の１つまたは複数の画像フレームを含むトレーニングデータセットに基づいてトレーニングされる、請求項９に記載の方法。
各オブジェクトタイプについて、前記１つまたは複数の予測されるオブジェクトの総量と、前記所定の閾値よりも大きい確率に関連付けられた前記１つまたは複数の識別されたオブジェクトの総量と、を比較することと、
各オブジェクトタイプについて、前記１つまたは複数の予測されるオブジェクトの前記総量と、前記所定の閾値よりも大きい確率に関連付けられた前記１つまたは複数の識別されたオブジェクトの前記総量との前記比較を提示することと、
をさらに含む請求項１に記載の方法。
前記１つまたは複数の予測されるオブジェクトの前記総量と、前記所定の閾値よりも大きい確率に関連付けられた前記１つまたは複数の識別されたオブジェクトの前記総量との比較の変化が、時間の関数として提示される、請求項１２に記載の方法。
環境の注釈付き縮尺図にアクセスすることであって、前記注釈付き縮尺図は、前記環境内の１つまたは複数の予測されるオブジェクトの位置を識別し、前記１つまたは複数の予測されるオブジェクトは、１つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記注釈付き縮尺図に基づいて１つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレームに基づいて前記環境の３次元（３Ｄ）モデルを生成することと、
前記３Ｄモデル内の１つまたは複数のオブジェクトを識別することであって、前記１つまたは複数の識別されたオブジェクトのそれぞれは前記環境内の位置に対応する前記３Ｄモデルの領域に関連付けられている、ことと、
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記環境内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記１つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた１つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
インターフェースを修正して、オブジェクトタイプごとに、前記カウント差を提示することと、
を含む方法。
前記環境が建設の最中の建物であり、前記予測されるオブジェクトが、前記建設の完了後に前記建物内で予測されるオブジェクトである、請求項１４に記載の方法。
前記環境がホテルの部屋であり、前記１つまたは複数の予測されるオブジェクトが、ゲストが前記ホテルの部屋からチェックアウトした後に前記ホテルの部屋で予測されるオブジェクトである、請求項１４に記載の方法。
前記環境はストアであり、前記１つまたは複数の予測されるオブジェクトは、前記ストアの在庫の製品である、請求項１４に記載の方法。
前記注釈付き縮尺図は、少なくとも１つのオブジェクトタイプに関連付けられた前記１つまたは複数の予測されるオブジェクトの寸法を含む、請求項１４に記載の方法。
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、
機械学習モデルを前記３Ｄモデルおよび前記注釈付き縮尺図に適用することであって、前記機械学習モデルは、
前記識別されたオブジェクトと同じオブジェクトタイプおよび同じ位置に関連付けられた予測されるオブジェクトを識別し、
前記予測されるオブジェクトの寸法と、前記識別されたオブジェクトを含む前記３Ｄモデルの前記領域の寸法との間の重複を決定することと、
前記重複に基づいて、前記識別されたオブジェクトが前記位置に位置する前記確率を決定するように構成されている、ことと
をさらに含む、請求項１４に記載の方法。
実行可能な命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令はハードウェアプロセッサによって実行されると、前記ハードウェアプロセッサに、
環境の注釈付き縮尺図にアクセスすることであって、前記注釈付き縮尺図は、前記環境内の１つまたは複数の予測されるオブジェクトの位置を識別し、前記１つまたは複数の予測されるオブジェクトは、１つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記注釈付き縮尺図に基づいて１つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレームに基づいて前記環境の３次元（３Ｄ）モデルを生成することと、
前記３Ｄモデル内の１つまたは複数のオブジェクトを識別することであって、前記１つまたは複数の識別されたオブジェクトのそれぞれは前記環境内の位置に対応する前記３Ｄモデルの領域に関連付けられている、ことと、
前記１つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記環境内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記１つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた１つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
インターフェースを修正して、オブジェクトタイプごとに、前記カウント差を提示することと、
を含むステップを実行させる、非一時的コンピュータ可読記憶媒体。