JP2022521253A

JP2022521253A - オブジェクトの厚さを決定するための画像処理

Info

Publication number: JP2022521253A
Application number: JP2021549111A
Authority: JP
Inventors: アンドレア・ニカストロ; ロナルド・クラーク; ステファン・ロイテンエッガー
Original assignee: インペリアル・カレッジ・オブ・サイエンス・テクノロジー・アンド・メディスン
Priority date: 2019-02-20
Filing date: 2020-02-18
Publication date: 2022-04-06
Also published as: US20210374986A1; GB2581957A; KR20210131358A; GB201902338D0; GB2581957B; WO2020169959A1; CN113439289A

Abstract

画像データ内に存在するオブジェクトの厚さを予測するために画像データを処理する例が説明される。１つの例では、シーンの画像データが取得され、シーンはオブジェクトのセットを特徴とする。画像データは、予測モデルの入力データを生成するために分解される。これは、シーン内のオブジェクトのセットに対応する画像データの部分を決定することを含み得、各部分は異なるオブジェクトに対応する。断面厚さ測定値は、予測モデルを使用して部分について予測される。画像データの部分について予測された断面厚さ測定値は、次に、シーン内のオブジェクトのセットの厚さデータを含む出力画像データを生成するために組み立てられる。

Description

本発明は画像処理に関する。特に、本発明は、観察したオブジェクトのセットの厚さデータを推定するために画像データを処理することに関する。本発明は、ロボット工学及び自律システムの分野で有用であり得る。

過去数年間にわたるロボット工学の進歩にも関わらず、ロボットデバイスは、人間及び霊長類にとっては自然に生じる作業に依然として苦労している。例えば、多層ニューラルネットワークアーキテクチャは、画像分類タスクに対しては人間に近いレベルの精度を明示しているが、多くのロボットデバイスは、通常の環境において単純な物体に繰り返し手を伸ばし、把持することができない。

ロボットデバイスが現実世界の環境で動作することを可能にするための１つの手法は、すべての角度から環境を慎重に走査し、マッピングすることであった。この場合、環境の複雑な３次元モデルは、例えば環境の内容を表す３次元の点の「高密度な」雲の形で生成し得る。しかし、これらの手法は面倒であり、環境をナビゲートしていくつかのビューを提供し、空間の正確なモデルを構築することは必ずしも可能ではない場合がある。また、これらの手法は、多くの場合一貫性にまつわる問題を明示し、例えば、異なるビデオフレームで観察する共通のオブジェクトの異なる部分は、必ずしも同じオブジェクトの一部であると見なされない場合がある。

Ｎｅｗｃｏｍｂｅｅｔａｌは、２０１１年第１０回ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙの一部として公開された論文「Ｋｉｎｅｃｔｆｕｓｉｏｎ：Ｒｅａｌ－ｔｉｍｅｄｅｎｓｅｓｕｒｆａｃｅｍａｐｐｉｎｇａｎｄｔｒａｃｋｉｎｇ」（１２７～１３６ページを参照）の中で、ＲＧＢＤ（赤、緑、青、及び深度チャネル）データの複数のフレームが位置合わせされ、３次元ボクセルグリッドの中に融合される、ＲＧＢＤデータからシーンを構築するための手法を説明している。データのフレームは、高密度６自由度アライメントを使用して追跡され、次にボクセルグリッドのボリュームに融合される。

ＭｃＣｏｒｍａｃｅｔａｌは、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ３ＤＶｉｓｉｏｎの一部として公開されたその２０１８の論文「Ｆｕｓｉｏｎ＋＋：ｖｏｌｕｍｅｔｒｉｃｏｂｊｅｃｔ－ｌｅｖｅｌｓｌａｍ」（３２～４１ページを参照）の中で、環境の大規模なマッピングに対するオブジェクト中心の手法について説明している。複数の切り捨てられた符号付き距離関数（ＴＳＤＦ）ボリュームを含む環境のマップが生成され、各ボリュームは単一のオブジェクトインスタンスを表す。

環境とうまくインタラクションする、及び／または環境をナビゲートすることができるロボットデバイス及び自律システムを開発することをより容易にする方法及びシステムを開発することが所望されている。これらの方法及びシステムが、例えばそれらが環境内で活発に動作しているデバイスに適用され得るようにリアルタイムまたはほぼリアルタイムの速度で動作することもさらに所望されている。多くの最先端の手法は広範囲な処理要求を有するため、これは困難である。例えば、入力された画像データから３次元形状を復元するには、大部分のロボットデバイスのメモリ制限内では可能ではない場合がある３次元畳み込みが必要となる場合がある。

本発明の第１の態様によれば、画像データを処理する方法が提供され、方法は、シーンの画像データを取得することであって、シーンはオブジェクトのセットを特徴付ける、取得することと、予測モデルのための入力データを生成するために画像データを分解することであって、シーン内のオブジェクトのセットに対応する画像データの部分を決定することであって、各部分は異なるオブジェクトに対応する、決定することを含む、分解することと、予測モデルを使用して部分の断面厚さ測定値を予測することと、シーン内のオブジェクトのセットの厚さデータを含む出力画像データを生成するために画像データの部分の予測された断面厚さ測定値を組み立てることと、を含む。

特定の例では、画像データは、シーンの少なくとも測光データを含み、画像データを分解することは、測光データからシーンのセグメンテーションデータを生成することを含み、セグメンテーションデータは、測光データの部分と、シーン内のオブジェクトのセットとの間の推定された対応を示す。シーンのセグメンテーションデータを生成することは、測光データに示されるオブジェクトを検出すること、及び各検出したオブジェクトにセグメンテーションマスクを生成することを含み得、画像データを分解することは、例えば元の画像データ及び／またはセグメンテーションマスクを切り取ることなど、各検出したオブジェクトについて、セグメンテーションマスクを含む画像データの領域を切り取ることを含み得る。測光データに示されるオブジェクトを検出することは、畳み込みニューラルネットワークアーキテクチャを使用して測光データの１つ以上のオブジェクトを検出することを含み得る。

特定の例では、予測モデルは、複数のオブジェクトについて、画像データとグラウンドトゥルース厚さ測定値の対に関して訓練される。画像データは、シーンの測光データ及び深度データを含み得、入力データは、測光データから導出したデータ、及び深度データから導出したデータを含み、測光データから導出したデータは、色データ及びセグメンテーションマスクの１つ以上を含む。

特定の例では、測光データ、深度データ、及び厚さデータは、切り捨てられた符号付き距離関数（ＴＳＤＦ）モデルであってよいシーンの３次元モデルを更新するために使用され得る。

特定の例では、予測モデルはニューラルネットワークアーキテクチャを含む。これは、例えば、入力データに対して関数を近似させて出力データを生成するなど、畳み込みニューラルネットワークに基づいてよい、及び／またはエンコーダ－デコーダアーキテクチャを含み得る。画像データは、カラー画像及び深度マップを含む場合があり、出力画像データは、断面厚さの関連付けられた値を有するピクセルを含むピクセルマップを含む。

本発明の第２の態様によれば、画像データを処理するためのシステムが提供され、システムは、画像データを受け取るための入力インタフェース、入力インタフェースで受け取った画像データに存在する１つ以上のオブジェクトの厚さデータを出力するための出力インタフェース、入力データから断面厚さ測定値を予測するための予測モデルであって、複数のオブジェクトの画像データとグラウンドトゥルース厚さ測定値の対に基づいて推定される訓練されたパラメータによってパラメータ化される予測モデル、入力インタフェースで受け取った画像データから予測モデルの入力データを生成するための分解エンジンであって、分解エンジンは、画像データの部分と、画像データに存在すると見なされる１つ以上のオブジェクトとの間の対応を決定するように構成され、各部分は異なるオブジェクトに対応する、分解エンジン、出力インタフェースに出力厚さデータを提供するために予測モデルから複数の予測された断面厚さ測定値を組み立てるための組み立てエンジンと、を含む。

特定の例では、画像データは、測光データを含み、分解エンジンは、測光データに基づいてセグメンテーションデータを生成するための画像セグメンテーションエンジンを含み、セグメンテーションデータは、測光データの部分と、画像データに存在すると見なされる１つ以上のオブジェクトとの間の推定された対応を示す。画像セグメンテーションエンジンは、セグメンテーションマスクを予測するための経路を備えたリージョンベースの畳み込みニューラルネットワーク－ＲＣＮＮ－などの、測光データ内のオブジェクト検出するための、及び任意の検出したオブジェクトのためのセグメンテーションマスクを出力するためのニューラルネットワークアーキテクチャを含み得る。

特定の例では、分解エンジンは、画像セグメンテーションエンジンから受け取ったバウンディングボックスに基づいて画像データのセクションを切り取るように構成され、画像セグメンテーションエンジンによって検出された各オブジェクトは、異なる関連するバウンディングボックスを有する。

特定の例では、画像データは、シーンの測光データ及び深度データを含み、入力データは、測光データから導出したデータ、及び深度データから導出したデータを含み、測光データから導出したデータは、セグメンテーションマスクを含む。

特定の例では、予測モデルは、測光データ及び深度データを受け取るための、及びマルチチャネル特徴画像を生成するための入力インタフェース、潜在的表現としてマルチチャネル特徴画像を符号化するためのエンコーダ、及び画素のセットの断面厚さ測定値を生成するために潜在的表現を復号するためのデコーダを含む。

特定の例では、入力インタフェースで受け取った画像データは、シーンの１つ以上のビューを含み、システムは、出力インタフェースから出力厚さデータを受け取るため、及び厚さデータを使用して、シーンの３次元モデルの切り捨てられた符号付き距離関数値を決定するためのマッピングシステムを含む。

本発明の第３の態様によれば、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練することが提供され、方法は、複数のオブジェクトのサンプルを含む訓練データを取得することであって、各サンプルが、画像データ及び複数のオブジェクトの１つの断面厚さデータを含む、取得すること、及び訓練データを使用してシステムの予測モデルを訓練することを含む。この最後の操作は、予測モデルへの入力として、訓練データから画像データを提供すること、及び予測モデルの出力及び訓練データからの断面厚さデータに基づいて、損失関数を最適化することを含み得る。

特定の例では、画像データと関連付けられたオブジェクトセグメンテーションデータが取得され、システムの画像セグメンテーションエンジンが訓練され、少なくとも、画像セグメンテーションエンジンへの入力として画像データから導出したデータを提供すること、及び画像セグメンテーションエンジンの出力及びオブジェクトセグメンテーションデータに基づいて損失関数を最適化することを含む。特定の例では、各サンプルは、測光データ及び深度データを含み、予測モデルを訓練することは、予測モードへの入力として、測光データから導出したデータ及び深度データから導出したデータを提供することを含む。各サンプルは、カラー画像及びセグメンテーションマスク、深度画像、ならびにオブジェクトの厚さレンダリングの少なくとも１つを含み得る。

本発明の第４の態様によれば、訓練セットを生成する方法が提供され、訓練セットは、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練するために使用可能であり、方法は、複数のオブジェクトの各オブジェクトについて、オブジェクトの画像データを取得することであって、画像データは、複数のピクセルの少なくとも測光データを含む、取得することと、オブジェクトの３次元表現を取得することと、オブジェクトの断面厚さデータを生成することであって、オブジェクトの第１の表面への第１の距離及びオブジェクトの第２の表面への第２の距離を決定するために、３次元表現にレイトレーシングを適用することであって、第１の表面が第２の表面よりもレイトレーシングのための起点により近い、適用することと、第１の距離と第２の距離の差に基づいてオブジェクトの断面厚さ測定値を決定することと、を含み、レイトレーシング及び断面厚さ測定値の決定することが、オブジェクトの断面厚さデータを生成するために複数のピクセルに対応するピクセルのセットに対して繰り返され、断面厚さデータが、断面厚さ測定値を含み、取得した画像データに対応する、生成することと、オブジェクトの入力データ及びグラウンドトゥルース出力データのサンプルを生成することであって、入力データが画像データを含み、グラウンドトゥルース出力データが断面厚さデータを含む、生成することとを含む。

特定の例では、方法は、合成訓練データの追加のサンプルを生成するために、複数のオブジェクトの画像データ及び３次元表現を使用することを含む。画像データは、複数のピクセルの測光データ及び深度データを含み得る。

本発明の第５の態様によれば、色データ及び深度データを含むビデオデータのフレームを提供するための少なくとも１つのキャプチャデバイス、入力インタフェースが少なくとも１つのキャプチャデバイスに通信可能に結合される、上記例のいずれか１つに記載のシステム、ロボットデバイスが周辺の３次元環境とインタラクションすることを可能にする１つ以上のアクチュエータ、及び１つ以上のアクチュエータを制御するための少なくとも１つのプロセッサを含むインタラクションエンジンを含むロボットデバイスが提供され、インタラクションエンジンは、周辺の３次元環境のオブジェクトとインタラクションするためにシステムの出力インタフェースから出力画像データを使用するためである。

本発明の第６の態様によれば、プロセッサによる実行時に、コンピューティングデバイスに上述の方法のいずれかを実行させるコンピュータ実行命令を含む非一時的なコンピュータ可読記憶媒体が提供される。

本発明のさらなる特徴及び利点は、添付の図面を参照して作成された、例としてのみ与えられた、本発明の好ましい実施形態の以下の説明から明らかになるであろう。

３次元（３Ｄ）空間の例を示す概略図である。３次元空間の例のオブジェクトの利用可能な自由度を示す概略図である。例示的なキャプチャデバイスによって生成された画像データを示す概略図である。一例による画像データを処理するためのシステムの概略図である。一例による、キャプチャデバイスによって観察されているオブジェクトのセットを示す概略図である。一例による、分解エンジンのコンポーネントを示す概略図である。一例による、予測モデルを示す概略図である。一例を使用して取得された厚さ測定値を、比較方法から生じる厚さ測定値と比較するプロットである。１つ以上のオブジェクトの断面厚さを推定するための例示的なシステムのための訓練セットの特定の要素を示す概略図である。一例による、オブジェクトの切り捨てられた符号付き距離関数値のセットを示す概略図である。一例による、オブジェクトインスタンスのマップを生成するためのシステムのコンポーネントを示す概略図である。一例による、画像データを処理する方法を示す流れ図である。一例による、画像を分解する方法を示す流れ図である。一例による、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練する方法を示す流れ図である。一例による、訓練セットを生成する方法を示す流れ図である。一例による、非一時的なコンピュータ可読媒体を示す概略図である。

本明細書に説明する特定の例は、画像データで特徴となる１つ以上のオブジェクトの断面厚さ測定値のセットを生成するために画像データを処理する。これらの厚さ測定値は、厚さマップまたは画像として出力され得る。この場合、ピクセルなどのマップまたは画像の要素は、断面厚さ測定値を示す値を有する場合がある。マップまたは画像の要素が検出されたオブジェクトに関連すると見なされる場合、断面厚さ測定値が提供され得る。

本明細書に説明する特定の例は、例えば、色データまたはグレースケールデータなど、測光データ及び／または深度データに適用され得る。これらの例によって、厚さについてのオブジェクトレベルの予測を生成することが可能になり、これらの予測は、次に容積測定マルチビュー融合プロセスに統合され得る。断面厚さは、本明細書に説明するように、オブジェクトの前面からオブジェクトの背面へのソリッドオブジェクトの深度または厚さの測定値であると見なし得る。ピクセルなどの画像の所与の要素の場合、画像を生成するためにオブジェクトを観察するキャプチャデバイスによって発せられるまたは受光される仮設上の光線によって経験されるように、断面厚さ測定値は、オブジェクトの前面からオブジェクトの背面への（例えば、メートルまたはセンチメートル単位の）距離を示し得る。

訓練された予測モデルを使用して厚さ予測を行うことによって、特定の例は、検知された画像データのセットを超えて拡張する形状情報を生成することを可能にする。この形状情報は、ロボット操作タスクまたは効率的なシーン探索に使用し得る。３次元計算または容積測定計算を行うのではなく、オブジェクトの厚さを予測することによって、利用可能なメモリリソース及び／または訓練データ要件を使い果たすことなく、比較的に高い空間分解能の推定値を生成し得る。特定の例は、オブジェクト厚さを正確に予測する、及び／または複数のオブジェクトを含む一般的な３次元シーンを再構築するために使用し得る。特定の例は、このようにして、詳細な３次元再構築を提供するために、ロボット工学、拡張現実、及び仮想現実の分野で利用し得る。

図１Ａ及び図１Ｂは、３次元空間、及びその空間と関連付けられた画像データのキャプチャの例を概略で示す。図１Ｃは、次に空間を見ているとき、つまりシーンを見ているときに画像データを生成するように構成されたキャプチャデバイスを示す。これらの例は、本明細書に説明する特定の特徴をより良く説明するために提示されており、限定的と見なされるべきではなく、特定の特徴は、説明を容易にするために省略され、簡略化されている。

図１Ａは、３次元空間１１０の例１００を示す。３次元空間１１０は、例えば部屋または地理的な位置の少なくとも一部分など、内部の及び／または外部の物理的空間であってよい。本例１００の３次元空間１１０は、３次元空間内に位置するいくつかの物理オブジェクト１１５を含む。これらのオブジェクト１１５は、とりわけ、人、電子機器、家具、動物、建物の部分、及び設備の１つ以上を含む場合がある。図１Ａの３次元空間１１０は、より低い表面を有すると示されているが、これはすべての実施態様でそうである必要はなく、例えば環境は気中空間または地球外の空間内である場合がある。

また、例１００は、３次元空間１１０と関連付けられた画像データをキャプチャするために使用し得る多様な例示的なキャプチャデバイス１２０－Ａ、１２０－Ｂ、１２０－Ｃ（集合的に参照番号１２０で参照される）も示す。キャプチャデバイスは、静止画像をキャプチャするように配置されてよく、例えば静止カメラであってよい、及び／または動画をキャプチャするように配置されてよく、例えば画像データがビデオデータのフレームの形でキャプチャされるビデオカメラであってよい。図１Ａのキャプチャデバイス１２０－Ａなどのキャプチャデバイスは、デジタル形式またはアナログ形式のどちらかで３次元空間１１０を観察することから生じるデータを記録するように配置されたカメラを含み得る。特定の場合、キャプチャデバイス１２０－Ａは移動可能であり、例えば３次元空間１１０の異なる観察された部分に対応する異なる画像をキャプチャするように配置され得る。一般的に、３次元空間１１０内のオブジェクトの配置は、本明細書では「シーン」と呼ばれ、画像データは、そのシーンの「ビュー」を含み得、例えば、キャプチャされた画像またはビデオデータのフレームは、３次元空間１１０の、その空間内のオブジェクト１１５を含む環境の観察を含み得る。キャプチャデバイス１２０－Ａは、静止した台に対して移動可能であってよく、例えば３次元空間１１０に対してカメラの位置及び／または向きを変更するためのアクチュエータを含み得る。別の場合、キャプチャデバイス１２０－Ａは、人間のユーザーが操作し、移動させるハンドヘルドデバイスであってよい。

図１Ａで、複数のキャプチャデバイス１２０－Ｂ、１２０－Ｃも、３次元空間１１０内で移動するように配置されたロボットデバイス１３０に結合されて示されている。ロボットデバイス１３５は、自律空中デバイス及び／または地上モバイルデバイスを含む場合がある。この例１００では、ロボットデバイス１３０は、デバイスが３次元空間１１０をナビゲートすることを可能にするアクチュエータ１３５を含む。これらのアクチュエータ１３５は、図では車輪を含み、他の場合、アクチュエータは、トラック、穴掘り機構、ロータなどを含み得る。１つ以上のキャプチャデバイス１２０－Ｂ、１２０－Ｃは、そのようなデバイスに静的にまたは移動可能に取り付けられ得る。特定の場合、ロボットデバイスは、３次元空間１１０内で静的に取り付けられ得るが、アームまたは他のアクチュエータなどのデバイスの一部分は、空間内で移動し、空間内のオブジェクトとインタラクションするように配置され得る。例えば、ロボットデバイスは、ロボットアームを含む場合がある。各キャプチャデバイス１２０－Ｂ、１２０－Ｃは、異なるタイプのビデオデータをキャプチャし得る、及び／またはステレオ画像ソースを含み得る。１つの場合、キャプチャデバイス１２０－Ｂは、例えば赤外線、超音波、及び／またはレーダー（光による検知及び測距－ＬＩＤＡＲ技術を含む）などの遠隔検知技術を使用して深度データをキャプチャし得る。一方、キャプチャデバイス１２０－Ｃは、例えばカラー画像またはグレースケール画像などの測光データをキャプチャする（または逆もまた同様である）。１つの場合、キャプチャデバイス１２０－Ｂ、１２０－Ｃの１つ以上は、ロボットデバイス１３０とは関係なく移動可能であってよい。１つの場合、キャプチャデバイス１２０－Ｂ、１２０－Ｃの１つ以上は、例えば斜めの弧で回転する、及び／または３６０度回転する回転機構に取り付けられてよい、及び／またはシーンのパノラマ（例えば、最大で完全な３６０度のパノラマ）をキャプチャするために適合された光学系と共に配置される。

図１Ｂは、キャプチャデバイス１２０及び／またはロボットデバイス１３０が利用可能な考えられる自由度の例１４０を示す。１２０－Ａなどのキャプチャデバイスの場合、デバイスの方向１５０は、レンズまたは他の撮像装置の軸と同一直線上にあってよい。３つの軸の１つの周りの回転の例として、垂直軸１５５が図に示されている。同様に、ロボットデバイス１３０の場合、ロボットデバイス１３０のアライメント１４５の方向が定義され得る。これは、ロボットデバイスの向き及び／または移動の方向を示す場合がある。垂直軸１５５も示されている。キャプチャデバイス１２０またはロボットデバイス１３０に関しては単一の垂直軸しか示されていないが、これらのデバイスは、以下に説明するように１４０として概略で示されている軸の任意の１つ以上の周りを回転し得る。

より一般的には、キャプチャデバイスの向き及び場所は、６自由度（６ＤＯＦ）に対して３次元で定義され得る。つまり、場所は、例えば、［ｘ、ｙ、ｚ］座標によって３次元の各々の中で画定され得、向きは、３つの軸、例えば、［θ_ｘ、θ_ｙ、θ_ｚ］の各々の周りの回転を表す角度ベクトルによって定義され得る。場所及び向きは、例えば３次元座標系内に画定された起点に対して、３次元内の変換として見なし得る。例えば、［ｘ、ｙ、ｚ］座標は、起点から３次元座標系内の特定の場所への移動を表す場合があり、角度ベクトル－［θ_ｘ、θ_ｙ、θ_ｚ］－は、３次元座標系内の回転を定義し得る。６ＤＯＦを有する変換は行列として定義され得、その結果、行列による乗算は変換を適用する。特定の実施態様では、キャプチャデバイスは、これらの６自由度の制限されたセットに関して定義され得、例えば地上車両上のキャプチャデバイスの場合、ｙ次元は一定であってよい。ロボットデバイス１３０の実施態様などの特定の実施態様では、別のデバイスに結合されたキャプチャデバイスの向き及び場所は、その別のデバイスの向き及び場所に関して定義され得、例えば、ロボットデバイス１３０の向き及び場所に関して定義され得る。

本明細書に説明する例では、例えば、６ＤＯＦ変換行列で説明されるキャプチャデバイスの向き及び場所は、キャプチャデバイスのポーズとして定義され得る。同様に、例えば、６ＤＯＦ変換行列で説明されるオブジェクト表現の向き及び場所は、オブジェクト表現のポーズとして定義され得る。キャプチャデバイスのポーズは、経時的に変化する場合があり、例えば、ビデオデータが記録されると、その結果、キャプチャデバイスは、時間ｔ＋１で、時間ｔとは異なるポーズを有し得る。キャプチャデバイスを含むハンドヘルドモバイルコンピューティングデバイスの場合、ポーズは、ハンドヘルドデバイスが、３次元空間１１０内でユーザーによって動かされるにつれ、変化する場合がある。

図１Ｃは、キャプチャデバイス構成の例を概略で示す。図１Ｃの例１６０で、キャプチャデバイス１６５は、画像データ１７０を生成するように構成される。特定の場合、キャプチャデバイス１６５は、電荷結合素子または相補型金属酸化膜半導体（ＣＭＯＳ）センサからデータを読み取る及び／または処理するデジタルカメラを含み得る。また、例えばアナログ信号ソースを変換するなど、他の画像ソースを処理することによって画像データ１７０を間接的に生成することも可能である。

図１Ｃでは、画像データ１７０は、測定されたデータの２次元表現を含む。例えば、画像データ１７０は、時間ｔで記録されたピクセル値の２次元配列または２次元マトリックスを含み得る。ビデオカメラからの連続するフレームなどの連続する画像データは、同じサイズである場合がある。ただし、これはすべての例でそうである必要はない。画像データ１７０内のピクセル値は、３次元空間の特定の部分の測定値を表す。

図１Ｃの例では、画像データ１７０は、２つの異なる形式の画像データの値を含む。値の第１のセットは、深度データ１８０（例えば、Ｄ）に関連する。深度データは、キャプチャデバイスからの距離の表示を含み得、例えば、各ピクセルまたは画素の値は、３次元空間の一部分のキャプチャデバイス１６５からの距離を表し得る。値の第２のセットは、測光データ１８５（例えば、色データＣ）に関連する。これらの値は、所与の解像度の赤、緑、青のピクセル値を含む場合がある。他の例では、他の色空間が使用される場合がある、及び／または測光データ１８５が、モノピクセル値またはグレースケールピクセル値を含む場合がある。ある場合、画像データ１７０は、圧縮されたビデオストリームまたはファイルを含む場合がある。この場合、画像データは、例えばビデオデコーダの出力としてストリームまたはファイルから再構築され得る。画像データは、ビデオストリームまたはファイルの前処理に続いて記憶場所から取り出し得る。

図１Ｃのキャプチャデバイス１６５は、ＲＧＢデータ１８５及び深度（「Ｄ」）データ１８０の両方をキャプチャするように配置された、いわゆるＲＧＢ－Ｄカメラを含み得る。ある場合、ＲＧＢ－Ｄカメラは、経時的にビデオデータをキャプチャするように配置され得る。深度データ１８０及びＲＧＢデータ１８５の１つ以上は、どの時点においても使用し得る。特定の場合、ＲＧＢ－Ｄデータは、４つ以上のチャネルを有する単一のフレームで結合される場合がある。深度データ１８０は、赤外線レーザープロジェクタが、赤外光のパターンを３次元空間の観察部分の上に投影し、それが次に白黒ＣＭＯＳ画像センサによって撮像される、構造化光手法などの当該技術で既知の１つ以上の技術によって生成され得る。これらのカメラの例は、ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａのＷａｓｈｉｎｇｔｏｎ、ＲｅｄｍｏｎｄのＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎ製造のＫｉｎｅｃｔ（登録商標）カメラレンジ、Ｔａｉｗａｎ、ＴａｉｐｅｉのＡＳＵＳＴｅＫＣｏｍｐｕｔｅｒＩｎｃ．製造のＸｔｉｏｎ（登録商標）カメラレンジ、及びＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａのＣａｌｉｆｏｒｎｉａ、ＣｕｐｅｒｔｉｎｏのＡｐｐｌｅＩｎｃ．の子会社、ＰｒｉｍｅＳｅｎｓｅ製造のＣａｒｍｉｎｅ（登録商標）カメラレンジを含む。特定の例では、ＲＧＢ－Ｄカメラは、タブレット、ラップトップ、または携帯電話などのモバイルコンピューティングデバイスの中に組み込み得る。他の例では、ＲＧＢ－Ｄカメラは、静的コンピューティングデバイス用の周辺機器として使用される場合もあれば、専用の処理機能を備えたスタンドアロンデバイスに埋め込まれる場合もある。１つの場合、キャプチャデバイス１６５は、結合されたデータストレージデバイスに画像データ１７０を格納するように配置され得る。別の場合、キャプチャデバイス１６５は、例えばデータのストリームとして、またはフレーム単位で画像データ１７０を結合されたコンピューティングデバイスに送信し得る。結合されたコンピューティングデバイスは、例えば、ユニバーサルシリアルバス（ＵＳＢ）接続を介してなど、直接的に結合される場合もあれば、間接的に結合される場合もあり、例えば、画像データ１７０は、１つ以上のコンピュータネットワークを介して送信され得る。さらに別の場合、キャプチャデバイス１６５は、ネットワークアタッチドストレージデバイスでの格納のために１つ以上のコンピュータネットワーク全体で画像データ１７０を送信するように構成され得る。画像データ１７０は、フレーム単位で、または例えば、複数のフレームを互いにバンドルし得るなど、バッチ単位で格納及び／または送信され得る。深度データ１８０は、測光データ１８５と同じ解像度またはフレームレートである必要はない。例えば、深度データ１８０は測光データ１８５よりも低い解像度で測定され得る。また、１つ以上の前処理操作は、画像データ１７０が以下に説明する例で使用される前に画像データ１７０に対して実行される場合がある。１つの場合、前処理は、２つの画像セットが共通のサイズ及び解像度を有するように適用され得る。特定の場合、別々のキャプチャデバイスが、それぞれ深度データ及び測光データを生成し得る。本明細書に説明しないさらなる構成も可能である。

特定の場合、キャプチャデバイスは、深度データを生成するために前処理を実行するように配置され得る。例えば、ハードウェア検知デバイスは、相違データまたは複数の立体画像の形をとるデータを生成し得、ソフトウェア及びハードウェアの１つ以上は、このデータを処理して深度情報を計算するために使用される。同様に、深度データは、代わりに、深度情報を再構築するために使用し得る位相画像を出力する飛行時間カメラから生じる場合もある。したがって、本明細書の例で説明するように、深度カメラを生成するために、任意の適切な技術を使用し得る。

図１Ｃは一例として提供され、理解されるように、図に示す構成とは異なる構成が、以下に示す方法及びシステムで使用するための画像データ１７０を生成するために使用され得る。画像データ１７０は、３次元空間のキャプチャまたは記録されたビューを表す２次元形式で配置される任意の測定された感覚入力をさらに含み得る。例えば、これは、とりわけ深度データまたは測光データ、電磁波イメージング、超音波イメージング、及びレーダー出力の１つだけを含み得る。これらの場合、例えば、深度データのないＲＧＢデバイスなど、特定の形式のデータと関連付けられた撮像デバイスだけが必要とされる場合がある。上記の例では、深度データＤは、深度値の２次元マトリックスを含み得る。これは、グレースケール画像として表される場合があり、例えばｘ_Ｒ１かけるｙ_Ｒ１の解像度を有するフレーム内の各［ｘ、ｙ］ピクセル値は、３次元空間の表面のキャプチャデバイスからの距離を表す深度値ｄを含む。同様に、測光データＣはカラー画像を含み得、ｘ_Ｒ２かけるｙ_Ｒ２の解像度を有するフレームの各［ｘ、ｙ］ピクセル値は、ＲＧＢベクトル［Ｒ、Ｇ、Ｂ］を含む。一例として、データの両方のセットの解像度は、６４０ｘ４８０ピクセルである場合がある。

図２は、一例に従って画像データを処理するためのシステム２０５の一例２００を示す。図２のシステム２０５は、入力インタフェース２１０、分解エンジン２１５、予測モデル２２０、組み立てエンジン２２５、及び出力インタフェース２３０を含む。システム２０５、及び／または示されているシステムコンポーネントの１つ以上は、本明細書に説明するデータを処理するために少なくとも１つのプロセッサを含み得る。システム２０５は、例えば、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）など、プロセッサを有する専用集積回路によって実装された画像処理デバイスを含み得る。さらに、及び／または代わりに、システム２０５は、１つ以上の中央演算処理装置及び／またはグラフィックスプロセッシングユニットなど、１つ以上の汎用プロセッサを含む画像処理のために適合されたコンピューティングデバイスを含み得る。システム２０５のプロセッサ及び／またはシステムのコンポーネントは、１つ以上の処理コアを有し得、処理はコアにわたって分散される。各システムコンポーネント２１０～２３０は、例えばデータを送信及び受信するための外部インタフェースを有する別個の電子コンポーネントとして実装される場合がある、及び／または共通のコンピューティングシステムの一部を形成する場合もある（例えば、１つ以上のコンポーネントのプロセッサは、コンピューティングデバイスの１つ以上のプロセッサの共通セットの一部を形成し得る）。システム２０５、及び／または示されているシステムコンポーネントの１つ以上は、プロセッサによる実行のためにコンピュータプログラムコードを格納して、本明細書に説明する機能を提供するために関連するメモリ及び／または永久記憶媒体を含み得る。

使用中、図２のシステム２０５は、入力インタフェースで画像データ２３５を受け取る。入力インタフェース２１０は、ネットワーキングまたはコンピューティングデバイスの入出力インタフェースなどの物理インタフェース、及び／または例えば、１つ以上のプロセッサによって実装される仮想インタフェースなどのソフトウェア定義インタフェースを含み得る。後者の場合、入力インタフェース２１０は、アプリケーションプログラミングインタフェース（ＡＰＩ）、クラスインタフェース、及び／または方法インタフェースを含み得る。１つの場合、入力インタフェース２１０は、システム２０５のメモリまたはストレージデバイスから取り出された画像データ２３５を受け取る場合がある。別の場合、画像データ２３５は、ネットワークまたはシリアルバス接続などの他の通信チャネルを介して受け取られる場合がある。入力インタフェース２１０は、有線及び／または無線インタフェースであってよい。画像データ２３５は、図１Ｃに示すように、画像データ１７０を含み得る。例えば、環境の特定の部分を指すために方向を合わせられるとき、環境内でキャプチャデバイスによってキャプチャされる画像データなど、画像データ２３５はシーン２４０のビューを表す。キャプチャデバイスは、自律ロボットデバイス内でなど、システム２０５の一部を形成し得る、及び／またはシステム２０５に通信可能に結合された別個のデバイスを含み得る。１つの場合、画像データ２３５は、以前のある時点でキャプチャされ、後の取り出しのために記憶媒体に格納された画像データを含む場合がある。画像データ２３５は、キャプチャデバイスから受け取られた画像データ、及び／またはキャプチャデバイスから受け取られた画像データの前処理から生じた画像データ２３５を含む場合がある。特定の場合、前処理操作は、入力インタフェース２１０及び分解エンジン２１０の１つ以上を介して分散され得、例えば、入力インタフェース２１０は、特定の実装構成のために、画像データを正規化する、切り取る、及び／またはスケーリングするように構成され得る。

システム２０５は、画像データ２３５を処理し、出力インタフェース２３０を介して、入力インタフェース２３５で受け取る画像データ２３５に存在する１つ以上のオブジェクトの出力厚さデータ２４５を出力するように配置される。厚さデータ２４５は、入力画像データ２３５に対応するために出力され得る。例えば、入力画像データ２３５が所与の解像度で測光データ及び深度データの１つ以上（例えば、高さ及び幅をピクセル単位で有する１つ以上の画像）を含む場合、厚さデータ２４５は、同じ高さ及び幅の「グレースケール」画像の形をとってよく、画像のピクセル値は予測された断面厚さ測定値を表す。他の場合、厚さデータ２４５は、例えば削減された解像度の、及び／または元の画像データ２３５の特定の部分のであるなど、入力画像データ２３５のスケーリングされたバージョンである「画像」として出力され得る。特定の場合、システム２０５によって１つ以上のオブジェクトと関連付けられていると判断されていない画像データ２３５の領域は、例えば、「０」または特殊な制御値など、出力厚さデータ２４５の特定の値を有する場合がある。図２の２５０などの画像として見ると、厚さデータ２４５は、Ｘ線画像に似ている場合がある。したがって、システム２０５は、合成Ｘ線装置の１つの形と見なし得る。

入力インタフェース２１０での画像データ２３５の受け取りに続いて、入力インタフェース２１０の出力は、分解エンジン２１５によって受け取られる。分解エンジン２１５は、予測モデル２２０の入力データ２５５を生成構成される。分解エンジン２１５は、入力データ２５５を生成するために入力インタフェース２１０から受け取った画像データを分解するように構成される。画像データをオブジェクト中心部分に分解すると、予測モデル２２０の扱いやすさが改善され、厚さ予測を並行して生成することが可能になり、リアルタイムまたはリアルタイムに近い操作が容易になる。

分解エンジン２１５は、画像データの部分と、画像データに存在すると見なされる１つ以上のオブジェクトとの間の対応を決定することによって入力インタフェース２１０から受け取った画像データを分解する。１つの場合、分解エンジン２１５は、例えば画像セグメンテーションエンジンを適用してセグメンテーションデータを生成することによってなど、画像データの１つ以上のオブジェクトを検出することによって対応を決定し得る。他の場合、分解エンジン２１５は、受け取った画像データの一部として、同様に画像データ２３５の一部を形成し得るセグメンテーションデータを受け取ってよい。対応は、特定の検出したオブジェクト（例えば、セグメンテーションマスク）に対応すると見なされる画像データのピクセルを表す画像マスク、及び検出したオブジェクトを含むと見なされる多角形を示すバウンディングボックスの１つ以上を含み得る。対応は、画像データを切り取って、各検出したオブジェクトに関連する画像データの部分を抽出するために使用され得る。例えば、入力データ２５５は、図２に示すように、各検出したオブジェクトの元の入力画像データのサブ領域を含む場合がある。特定の場合、分解エンジン２１５は、予測を容易にするために、例えばセグメンテーションデータを使用し、画像データの部分の背景をさらに削除し得る。画像データ２３５が測光データ及び深度データを含む場合、次に、入力データは、例えば、入力画像データ２３５の幅及び／または高さに満たない幅及び／または高さを有する画像データの切り取った部分など、各検出したオブジェクトと関連付けられた測光データ及び深度データを含み得る。特定の場合、測光データは、色データ（例えば、ＲＧＢデータ）及びセグメンテーションに続いて出力されたセグメンテーションマスク（例えば、「シルエット」）の１つ以上を含み得る。特定の場合、入力データ２５５は、各検出したオブジェクトの測光データと深度データの両方のより小さい画像を表すアレイを含み得る。予測モデル２２０の構成に応じて、入力データ２５５は、各オブジェクトの単一の多次元配列、または各オブジェクトの複数の別々の２次元配列を含み得る（例えば、両方の場合、複数の２次元配列は、それぞれ、セグメンテーションマスク出力及びＲＧＢＤ－赤、緑、青、及び深度データの１つ以上から異なる入力チャネルを表し得る）。

図２では、予測モデル２２０は、分解エンジン２１５によって準備された入力データ２５５を受け取る。予測モデル２２０は、入力データ２５５から断面厚さ測定値２６０を予測するように構成される。例えば、予測モデル２２０は、数値入力として各オブジェクトに関連する測光データ及び深度データのセットを受け取り、断面厚さ測定値を表す１つ以上の画素の数値出力を予測するように構成され得る。１つの場合、予測モデル２２０は、厚さ測定値を表す数値のアレイを出力し得る。このアレイは、アレイの要素が画像部分のピクセル値に対応し、ピクセル値が予測された厚さ測定値を表す画像部分を含み得る、または画像部分にフォーマットされ得る。１つの場合、断面厚さ測定値２６０は、例えば１対１でまたはスケーリングされた方法で入力データ２５５の画素に対応し得る。

予測モデル２２０は、画像データ及び複数のオブジェクトのグラウンドトゥルース厚さ測定値の対に基づいて推定される訓練されたパラメータのセットによってパラメータ化される。例えば、後の例に説明するように、予測モデル２２０は、オブジェクトの測光データ及び深度データのセットを入力として供給し、対応する厚さ測定値のセットを予測し、次にこれらの厚さ測定値をグラウンドトゥルース厚さ測定値と比較することによって訓練され得、比較からの誤差は、パラメータ値を最適化するために使用され得る。１つの場合、予測モデル２２０は、ニューラルネットワークアーキテクチャなど、機械学習モデルを含み得る。この場合、誤差は、アーキテクチャを通して逆誤差伝搬される場合があり、最適化したパラメータ値のセットは、勾配降下などを適用することによって決定され得る。他の場合、予測モデルは、ベイズ予測ネットワークなどの確率モデルを含み得る。

図２に戻ると、予測モデル２２０によって出力された断面厚さ測定値２６０は、組み立てエンジン２２５によって受け取られる。組み立てエンジン２２５は、予測モデル２２０から複数の予測された断面厚さ測定値２６０を組み立てて、出力インタフェース２３０に出力厚さデータ２４５を提供するように構成される。例えば、予測された断面厚さ測定値２６０は、複数の別々の画像部分の形で組み立てエンジン２２５に供給され得、組み立てエンジン２２５は、これらの別々の画像部分を受け取り、入力画像データ２３５に対応する単一の画像を再構築する。１つの場合、組み立てエンジン２２５は、（例えば、同じバージョンまたはスケーリングされたバージョンである）入力画像データ２３５の寸法に一致する寸法を有する「グレースケール」画像を生成し得る。組み立てエンジン２２５は、追加チャネルとして元の画像データ２３５と結合され得る形で厚さデータ２４５を生成し得る。例えば、組み立てエンジン２２５または出力インタフェース２３０は、「厚さ」チャネル（「Ｔ」）を入力画像データ２３５の既存のＲＧＢＤチャネルに追加するように構成され得、その結果、出力インタフェース２３０によって出力されるデータは、ＲＧＢＤＴデータ（例えば、画像内のピクセルがチャネルの各々の値を有するＲＧＢＤＴ「画像」）を含む。

図２のシステム２０５の出力は、いくつかの異なるアプリケーションで役に立つ場合がある。例えば、厚さデータ２４５は、３次元空間のマッピングを改善するために使用され得、グラブ操作または把持操作を改善するためにロボットデバイスによって使用され得、またはさらなる機械学習システムのための強化された入力として使用され得る。

１つの場合、システム２０５は、マッピングシステムを含み得る、またはマッピングシステムの一部を形成し得る。マッピングシステムは、出力インタフェース２３０から出力厚さデータ２４５を受け取り、シーンの３次元モデルの切り捨てられた符号付き距離関数値を決定するために厚さデータ２４５を使用するように構成され得る。例えば、マッピングシステムは、入力として、（例えば、ＤＴまたはＲＧＢＤＴチャネル画像の形の）深度データ及び厚さデータ２４５を採取し、内因性及び外因性のカメラパラメータと共に、３次元ボクセルグリッド内のシーンを表すボリュームの表現を出力し得る。例示的なマッピングシステムは、図８に関して詳細に後述する。

図３Ａは、キャプチャデバイス３２０によって観察されているオブジェクトのセット３１０の例を示している。例では、３つのオブジェクト３１５－Ａ、３１５－Ｂ、及び３１５－Ｃがある。オブジェクトのセット３１０は、シーン３００の一部を形成し、例えば、オブジェクトは、テーブルまたは他の表面上のオブジェクトのセットを含む場合がある。本例は、キャプチャデバイス３２０によってキャプチャされる１つ以上の画像からオブジェクト３１５の断面厚さ測定値を推定することができる。

図３Ｂは、図２の分解エンジン２１５を実装するために特定の例で使用し得る例示的なコンポーネント３３０のセットを示している。図３Ｂが１つの例にすぎず、図２の分解エンジン２１５を実装するために、図３Ｂに示すコンポーネント以外のコンポーネントを使用し得ることに留意されたい。例示的なコンポーネント３３０のセットは、画像セグメンテーションエンジン３４０を含む。画像セグメンテーションエンジン３４０は、測光データ３４５を受け取るように構成される。測光データ３４５は、上述のように、図３Ａのキャプチャデバイス３２０によってキャプチャされた画像、及び／またはそのような画像から導出したデータを含み得る。１つの場合、測光データ３４５は、複数のピクセルのＲＧＢデータを含み得る。画像セグメンテーションエンジン３４０は、測光データ３４５に基づいてセグメンテーションデータ３５０を生成するように構成される。セグメンテーションデータ３５０は、測光データ３４５の部分と、画像データに存在すると見なされる１つ以上のオブジェクトとの間の推定された対応を示す。図３Ｂの測光データ３４５が図３Ａに示すオブジェクトのセット３１０の画像として解釈される場合、次に、画像セグメンテーションエンジン３４０は、オブジェクト３１５の１つ以上を検出し得る。図３Ｂには、オブジェクト３１５－Ａに対応するセグメンテーションデータ３５０が示されている。これは、オブジェクト３１５－Ｂ及び３１５－Ｃの検出された存在もカバーするセグメンテーションデータのセットの一部を形成し得る。特定の場合、シーン内に存在するすべてのオブジェクトを検出し得るわけではなく、例えば、オクルージョンが、オブジェクト３１５－Ｃを検出するのを妨げる場合がある。また、キャプチャデバイスがシーン内で移動するにつれ、異なるオブジェクトが検出され得る。本例は、そのような「ノイズの多い」環境で機能することができる。例えば、分解及び予測によって、シーン内で検出されたオブジェクトの数と無関係に、厚さ測定値を生成することを可能にする。

図３Ｂでは、検出したオブジェクト３１５－Ａのセグメンテーションデータ３５０は、セグメンテーションマスク３５５及びバウンディングボックス３６０を含む。他の例では、セグメンテーションマスク３５５及びバウンディングボックス３６０の１つだけ、または異なる形のオブジェクト識別が出力される場合がある。セグメンテーションマスク３５５は、元の測光データ３４５からのピクセルのサブセットに適用されるラベルを含み得る。１つの場合、セグメンテーションマスク３５５は、検出したオブジェクトに対応するピクセルが「１」の値を有し、検出したオブジェクトに関連しないピクセルが「０」の値を有するバイナリマスクであってよい。異なる形のマスキング及びマスキングデータフォーマットを適用し得る。さらに別の場合、画像セグメンテーションエンジン３４０は、測光データ３４５のピクセルの値を出力してよく、値は、考えられる検出したオブジェクトを示す。例えば、「０」の値を有するピクセルは、オブジェクトがそのピクセルと関連付けられていると見なされないことを示し得、一方、「６」の値を有するピクセルは、リストまたはルックアップテーブルの６番目のオブジェクトがそのピクセルと関連付けられていると見なされることを示し得る。したがって、セグメンテーションデータ３５０は、一連の単一のチャネル（例えば、バイナリ）画像及び／または単一の多値画像を含み得る。バウンディングボックス３６０は、特定のオブジェクトと関連付けられたピクセルを取り囲むと見なされる矩形などの多角形を含み得る。バウンディングボックス３６０は、バウンディングボックス３６０の角を示す座標のセットとして別個に出力される場合がある、及び／または画像セグメンテーションエンジン３４０によって出力された任意の画像データに示される場合がある。画像セグメンテーションエンジン３４０によって検出された各オブジェクトは、異なるセグメンテーションマスク３５５及び異なる関連するバウンディングボックス３６０を有し得る。

セグメンテーションデータ３５０の構成は、実施態様に応じて変わる場合がある。１つの場合、セグメンテーションデータ３５０は、入力測光データと同じ解像度である画像を含み得（例えば、グレースケール画像を含み得）る。特定の場合、追加のデータも、画像セグメンテーションエンジン３４０によって出力され得る。１つの場合、画像セグメンテーションエンジン３４０は、例えば、ピクセルがオブジェクトと関連付けられる確率など、検出したオブジェクトの信用または確率を示す信用値を出力するように配置され得る。特定の場合、画像セグメンテーションエンジン３４０は、代わりにまたはさらに、検出したオブジェクトが、（例えば、文字列ラベルによって示されるように）特定のセマンティッククラスと関連付けられる確率を出力し得る。例えば、画像セグメンテーションエンジン３４０は、オブジェクトが「カップ」である８８％の確率、オブジェクトが「水差し」である１０％の確率、及びオブジェクトが「オレンジ」である２％の確率を出力し得る。１つ以上の閾値は、ピクセルまたは画像領域などの特定の画素が、特定のオブジェクトと関連付けられることを示す前に、画像セグメンテーションエンジン３４０によって適用され得る。

特定の例では、画像セグメンテーションエンジン３４０は、監視された（つまり、ラベルを付けられた）データに関して訓練される、畳み込みニューラルネットワークアーキテクチャなどのニューラルネットワークアーキテクチャを含む。監視されたデータは、オブジェクトのセットの画像とセグメンテーションマスクの対を含み得る。畳み込みニューラルネットワークアーキテクチャは、例えば、複数の層を含むいわゆる「ディープ」ニューラルネットワークであってよい。オブジェクト認識パイプラインは、セグメンテーションマスクを予測するための経路を備えた、リージョンベースの畳み込みニューラルネットワーク－ＲＣＮＮ－を含み得る。マスク出力を含むＲＣＮＮの例示的な構成は、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）、２０１７（１，５）－（該当する場合に参照により組み込まれる）の会議記録に公開された－論文「ＭａｓｋＲ－ＣＮＮ」にＫ．Ｈｅｅｔａｌ．によって説明されている。異なるアーキテクチャは、それらが開発されると（「プラグイン」式で）使用され得る。

特定の場合、画面セグメンテーションエンジン３４０は、オブジェクトが存在する（例えば、オブジェクト存在の閾値自体が超えられている）と判断されるが、オブジェクトのタイプまたはセマンティッククラスを決定することが可能ではない（例えば、クラスまたはラベルの確率はすべて所与の閾値以下である）場合に、セグメンテーションマスクを出力し得る。本明細書に説明する例は、たとえ何がオブジェクトであるのかを判断することが不可能である場合も、セグメンテーションマスクを使用できる場合があり、「ある」オブジェクトの範囲の表示は、予測モデルの入力データを生成することを可能にするために適している。

図３Ｂに戻ると、セグメンテーションデータ３５０は、入力データジェネレータ３７０によって受け取られる。入力データジェネレータ３７０は、例えば図２の予測モデル２２０などの予測モデルのための入力データ３８０として使用され得る画像データの部分を生成するために、測光データ３４５及び深度データ３７５と共に、セグメンテーションデータ３５０を処理するように構成される。入力データジェネレータ３７０は、バウンディングボックス３６０を使用して、測光データ３４５及び深度データ３７５を切り取るように構成されてよい。１つの場合、セグメンテーションマスク３５５は、測光データ３４５及び深度データ３７５から背景を削除するために使用され得、例えば、その結果オブジェクトピクセルと関連付けられたデータだけが残る。深度データ３７５は、同じ画像データの測光チャネルからの測光データ３４５に対応する入力画像データの深度チャネルからのデータを含み得る。深度データ３７５は、測光データ３４５と同じ解像度で格納される場合もあれば、スケーリングされるか、もしくは別な方法で処理されて、予測モデルのための入力データ３８０を形成する測光データ３８５及び深度データ３９０の対応する切り取られた部分を生じさせる場合もある。特定の場合、測光データは、バウンディングボックス３６０を使用して切り取られたセグメンテーションマスク３５５、及びバウンダリーボックスを使用して切り取られた元の測光データ３４５の１つ以上を含む場合がある。元の測光データ３４５なしで、セグメンテーションマスク３５５を入力として使用すると、訓練は簡素化され、予測速度は加速され得る。一方、元の測光データ３４５を使用すると、色情報を使用して厚さを予測することが可能になる。

特定の場合、測光データ３４５及び／または深度データ３７５は、画像セグメンテーションエンジン３４０の本来の解像度に再スケーリングされ得る。同様に、特定の場合、画像セグメンテーションエンジン３４０の出力も、予測モデルによって使用される解像度に一致するために画像セグメンテーションエンジン３４０及び入力データジェネレータ３７０の１つによって再スケーリングされ得る。ニューラルネットワーク手法だけではなく、またはニューラルネットワーク手法の代わりに、画像セグメンテーションエンジン３４０は、とりわけ、サポートベクターマシン（ＳＶＭ）、ベイジアンネットワーク、ランダムフォレスト、最近傍クラスタ化などを含む、さまざまな機械学習方法の少なくとも１つを実装し得る。１つ以上のグラフィックスプロセッシングユニットは、画像セグメンテーションエンジン３４０を訓練及び／または実装するために使用され得る。画像セグメンテーションエンジン３４０は、事前に訓練されたパラメータのセットを使用する場合がある、及び／または測光データ３４５とセグメンテーションデータ３５０の対を特徴とする１つ以上の訓練データで訓練される場合がある。一般的に、画像セグメンテーションエンジン３４０は、例えば予測モデル２２０などの予測モデルとは無関係に及びアグノスティックに（ａｇｎｏｓｔｉｃａｌｌｙ）実装され得、その結果、例の異なる実施態様で異なるセグメンテーション手法をモジュール式で使用し得る。

図４は、図２に示す予測モデル２２０を実装するために使用され得る予測モデル４００の例を示す。予測モデル４００は例としてのみ提供されており、示されている予測モデル４００の異なる予測モデル及び／または異なる構成が実施態様に応じて使用され得ることに留意されたい。

図４の例では、予測モデル４００は、エンコーダ－デコーダアーキテクチャを含む。このアーキテクチャでは、入力インタフェース４０５は、測光データから導出されたデータ及びデータ導出深度データのためのチャネルを有する画像を受け取る。例えば、入力インタフェース４０５は、ＲＧＢＤ画像、及び／またはセグメンテーションマスクチャネルを加えた深度チャネルを受け取るように構成されてよい。入力インタフェース４０５は、受け取ったデータをマルチチャネル特徴画像、例えばＲＧＢＤ値の各々を表す少なくとも４つのチャネルまたはセグメンテーションマスク及び深度データを表す少なくとも２つのチャネルを有する２次元配列の数値に変換するように構成される。受け取ったデータは、例えば、０～２５５の範囲の値を表す８ビットデータであってよい。セグメンテーションマスクは、（例えば、それぞれオブジェクトの不在及び存在を示す０及び１の値を有する）バイナリ画像として提供され得る。マルチチャネル特徴画像は、多次元配列の浮動小数点値としてデータを表し得る。特定の場合、入力インタフェース４０５は、受け取ったデータをフォーマット及び／または前処理して、それを予測モデル４００が処理する形に変換し得る。

図４の予測モデル４００は、マルチチャネル特徴画像を符号化するためにエンコーダ４１０を含む。図４のアーキテクチャでは、エンコーダ４１０は、一連の符号化コンポーネントを含む。第１のコンポーネント４１２は、入力インタフェース４０５からのデータの畳み込み及びサブサンプリングを実行し、次に符号化ブロック４１４～４２０のセットは、第１のコンポーネント４１２からのデータを符号化する。エンコーダ４１０は、（該当する場合、参照により組み込まれる）ＫａｉｍｉｎｇＨｅｅｔ．ａｌによる２０１５の論文「ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」に説明される「ＲｅｓＮｅｔ」モデル（例えば、ＲｅｓＮｅｔ１０１）に基づいてよい。エンコーダ４１０は、（該当する場合、参照により組み込まれるＤｅｎｇｅｔａｌによるＩｍａｇｅＮｅｔ：ＡＬａｒｇｅ－ＳｃａｌｅＨｉｅｒａｒｃｈｉｃａｌＩｍａｇｅＤａｔａｂａｓ－２００９－に説明される）ＩｍａｇｅＮｅｔなどの１つ以上の画像データで訓練され得る。エンコーダ４１０は、実施態様の一部として訓練される、及び／または事前に訓練されたパラメータ値のセットを使用するかのどちらかであってよい。第１のコンポーネント４１２によって適用される畳み込み及びサブサンプリングによって、ＲｅｓＮｅｔアーキテクチャを、例えば、測光データ及び深度データの組み合わせなど、本明細書に説明するように画像データに適合させることが可能になる。特定の場合、測光データは、ＲＧＢデータを含み得、他の場合、測光データは、セグメンテーションマスクまたはシルエット（例えば、バイナリ画像データ）を含み得る。

エンコーダ４１０は、入力データの、例えば次元低下符号化など、潜在的表現４３０を生成するように構成される。これは、テスト例では、２０４８のチャネルのある次元３かける４のコードを含み得る。予測モデル４００は、次にアップサンプルブロック４４０～４４８の形のデコーダを含む。デコーダは、画素のセットの断面厚さ測定値を生成するために潜在的表現４３０を復号するように構成される。例えば、第５のアップサンプルブロック４４８の出力は、入力インタフェース４０５によって受け取られた入力データと同じ次元であるが、ピクセル値が断面厚さ測定値を表す画像を含み得る。各アップサンプリングブロックは、２つの畳み込み操作が後に続く双一次アップサンプリング演算を含み得る。デコーダは、（該当する場合、参照により組み込まれる）Ｒｏｎｎｅｂｅｒｇｅｒｅｔａｌによる２０１５の論文「Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ」に説明されるＵＮｅｔアーキテクチャに基づいてよい。完全な予測モデル４００は、予測された厚さ値と、訓練セットに設定された「グラウンドトゥルース」厚さ値との間の損失を最小限に抑えるように訓練され得る。損失は、Ｌ_２（二乗）損失であってもよい。

特定の場合、入力インタフェース４０５によって実行される前処理操作は、オブジェクトリージョンの平均及び背景の平均を深度データ入力から差し引くことを含み得る。これは、ネットワークが、絶対深度値と対照的にオブジェクト形状に集中するのに役立ち得る。

特定の例では、画像データ２３５、測光データ３４５、または入力インタフェース４０５によって受け取られた画像データは、シルエットデータを含む場合がある。これは、ピクセルがオブジェクトのシルエットに対応するかどうかを示すデータの１つ以上のチャネルを含み得る。シルエットデータは、図３Ｂに関して説明するセグメンテーションマスク３５５に等しい場合もあれば、セグメンテーションマスク３５５から導出される場合もある。特定の場合、図２の入力インタフェース２１０によって受け取られる画像データ２３５は、すでにオブジェクトセグメンテーションデータを含んでおり、例えば、画像セグメンテーションエンジン３４０に類似した画像セグメンテーションエンジンは、システム２０５に外部で適用され得る。この場合、分解エンジン２１５は、図３Ｂの画像セグメンテーションエンジン３４０に類似した画像セグメンテーションエンジンを含まない場合がある。代わりに、図３Ｂの入力データジェネレータ３７０は、入力インタフェース２１０から中継される画像データ２３５を受け取るように適合され得る。特定の場合、図２の予測モデル２２０または図４の予測モデル４００は、ＲＧＢ色データ、シルエットデータ、及び深度データの１つ以上に作用するように構成されてよい。特定のアプリケーションの場合、ＲＧＢデータは、シルエットデータよりも多い情報を伝搬し得るため、より正確な予測厚さ測定値につながる。特定の場合、予測モデル２２０または４００は、入力データとして、シルエットデータ及び深度データに基づいて厚さ測定値を予測するように適合され得る。これは、厚さが、オブジェクトの形状及び表面深度に基づいて予測され得る限定されたオブジェクトタイプを有する実装で可能な場合がある。異なるデータタイプの異なる組み合わせは、特定の実装で使用され得る。

特定の場合、図２の予測モデル２２０または図４の予測モデル４００は、入力データの複数のセットに並行して適用され得る。例えば、共通の訓練されたパラメータを含む予測モデルの複数のインスタンスが構成され得、各インスタンスは、異なるオブジェクトと関連付けられた入力データを受け取る。これによって、元の画像データの迅速なリアルタイム処理を可能にすることができる。特定の場合、予測モデルのインスタンスは、例えば、図３Ｂの画像セグメンテーションエンジン３４０によって出力されるなど、検出されたオブジェクトの数に基づいて動的に構成され得る。

図５は、本明細書に説明する例によって生成された厚さデータが、マッピングシステムによって生成される既存の切り捨てられた符号付き距離関数（ＴＳＤＦ）を改善するためにどのように使用され得るのかを示している。図５は、ＴＳＤＦ値のプロット５００を、（距離値を示すｘ軸によって示される）３次元モデルを通る１次元スライスのために、適合していないマッピングシステムによって当初生成されたとして示す。適合していないマッピングシステムは、比較マッピングシステムを含む場合がある。プロット５００内の破線５１０は、適合していないマッピングシステムが、オブジェクトの表面をモデル化するが、オブジェクトの厚さはモデル化しないことを示している。プロットは、カメラまたは起点から１ｍにあり、厚さが１ｍの表面の仮設例を示している。適合していないマッピングシステムは、オブジェクトの表面をモデル化すると、観察される表面を超えて、ＴＳＤＦ値は迅速に－１～１に戻る。しかしながら、マッピングシステムが説明する例によって生成されるように厚さデータを処理するように適合されているとき、ＴＳＤＦ値は、表面の１ｍの厚さを示すために補正され得る。これは実線５０５で示されている。したがって、本明細書に説明する例の出力は、３次元モデル空間で表面を生じさせるだけではなく、オブジェクトの占有されているボリュームを明示的に再構築する再構築手順によって使用され得る。

図６は、図２及び図４の予測モデル２２０及び４００の１つ以上、ならびに図３Ｂの画像セグメンテーションエンジン３４０を訓練するために使用され得る例示的な訓練セット６００を示す。訓練セット６００は、複数のオブジェクトのサンプルを含む。図６で、異なるサンプルは、各列に示されている。各サンプルは、複数のオブジェクトの１つの測光データ６１０、深度データ６２０、及び断面厚さデータ６３０を含む。図６のオブジェクトは、図３Ａで見られるオブジェクトに関連付けられてよく、例えば、１つ以上の画像でキャプチャされたそれらのオブジェクトの他のインスタンスであってよい。測光データ６１０及び深度データ６２０は、ＲＧＢＤカメラを用いてオブジェクトの１つ以上の画像をキャプチャする、及び／または合成レンダリング手法を使用することによって生成され得る。特定の場合、測光データ６１０はＲＧＢデータを含み得る。特定の場合、測光データ６１０は、例えばバイナリ画像及び／またはグレースケール画像など、オブジェクトのシルエットを含み得る。オブジェクトのシルエットは、セグメンテーションマスクを含み得る。

断面厚さデータ６３０は、いくつかの異なる方法で生成されてよい。１つの場合、断面厚さデータ６３０は、例えば既知のオブジェクト明確化から手作業で照合され得る。別の場合、断面厚さデータ６３０は、例えば画定された基準フレーム内の２つ以上の場所からの深度値を観察することによって手作業で測定され得る。さらに別の場合、断面厚さデータ６３０は、合成で生成され得る。訓練データ６００は、例えばいくつかの手動測定値及びいくつかの合成サンプルなど、異なる方法を使用して取得したサンプルの混合物を含む場合がある。

断面厚さデータ６３０は、各サンプルと供給される１つ以上の３次元モデル６４０を使用して合成で生成され得る。例えば、これらは、観察したオブジェクトのＣＡＤファイルなど、コンピュータ支援設計（ＣＡＤ）データを含む場合がある。特定の例では、３次元モデル６４０は、物理オブジェクトを走査することによって生成され得る。例えば、物理オブジェクトは、マルチカメラリグ及びターンテーブルを使用して走査され得、３次元でのオブジェクト形状は、水密メッシュを出力するように構成されたポワソン再構築を用いて復元される。特定の例では、３次元モデル６４０は、測光データ６１０、深度データ６２０、及び厚さデータ６３０の各々に合成データを生成するために使用され得る。合成サンプルの場合、画像データセットからの背景は、（例えば無作為に）追加され得る、及び／またはテクスチャは、テクスチャデータセットからの少なくとも測光データ６１０に追加され得る。合成サンプルでは、オブジェクトは、フォトリアリスティックなテクスチャでレンダリングされ得るが、サンプル全体で（光の数、その強度、色、及び位置などの）照明特徴をランダム化する。ピクセル単位の断面厚さ測定値は、例えば、シェーディング効果を実行するように適合されたグラフィックプログラミング言語によって提供されるようになど、カスタマイズされたシェーディング機能を使用して生成され得る。シェーディング機能は、モデル化されたカメラからの画像光線が衝突する表面の厚さ測定値を返し得、光線深度は、どの表面に衝突したのかを確認するために使用され得る。シェーディング機能は、Ｘ線手法と同様にレイトレーシングを使用して、３次元モデルを通してレイトレーシングし、観察される（例えば、前）面と、観察される面の後方の第１の面との間の距離を測定し得る。測定されたデータ及び合成データを使用ことによって、訓練セットを拡大し、本明細書に説明する予測モデル及び画像セグメンテーションエンジンの１つ以上の性能を改善することを可能にできる。例えば、上述のように、ランダム化されたレンダリングを用いてサンプルを使用すると、例えば、モデル及びエンジンは、環境要因を無視し、形状の手がかりに集中することを学習するので、より堅牢なオブジェクト検出及び厚さ予測につなげることができる。

図７は、オブジェクト７２０の３次元ボリューム７１０、及びスライスと関連付けられたボクセルのセットのＴＳＤＦ値を示すボリュームを通る関連する２次元スライス７３０の例７００を示す。図７は、図５のコンテキストを提供するためのＴＳＤＦ値の使用、及び例えば環境の３次元モデルでＴＳＤＦ測定値を改善するために生成された厚さデータを使用するマッピングシステムの概要を提供する。

図７の例で、３次元ボリューム７１０はいくつかのボクセルに分割され、各ボクセルは、ボリューム内でオブジェクト７２０の範囲をモデル化するために対応するＴＳＤＦ値を有する。ＴＳＤＦ値を説明するために、３次元ボリューム７１０を通る２次元スライス７３０が図に示されている。本例で、２次元スライス７３０は、オブジェクト７２０の中心を通過し、共通ｚ空間値を有するボクセル７４０のセットに関連する。２次元スライス７３０のｘ及びｙの範囲は、図の右上に示されている。右下には、ボクセルの例示的なＴＳＤＦ値７６０が示されている。

この場合、ＴＳＤＦ値は、３次元空間の観察された表面からの距離を示す。図７で、ＴＳＤＦ値は、３次元ボリューム７１０のボクセルがオブジェクト７２０の外側の自由空間に属するのか、それともオブジェクト７２０内の塗りつぶされた空間に属するのかを示す。図７で、ＴＳＤＦ値は、１～－１に及ぶ。したがって、スライス７３０の値は、２次元画像７５０と見なし得る。１の値は、オブジェクト７２０の外部の自遊空間を表す。一方、－１の値は、オブジェクト７２０内の塗りつぶされた空間を表す。したがって、０の値は、オブジェクト７２０の表面を表す。説明を容易にするために３つの異なる値（「１」、「０」、及び「－１」）しか示されていないが、実際の値は、表面への相対距離を表す１０進値（例えば、「０．５４」、または「－０．３１」）である場合がある。また、負の値が表面外部の距離を表すのか、それとも正の値が表面外部の距離を表すのかは、実施態様間で変わる場合がある規則であることにも留意されたい。値は、実施態様に応じて切り捨てられる場合もあれば、切り捨てられない場合もあり、切り捨ては、特定の閾値を超えた距離が「１」及び「－１」の底値または天井値に設定されることを意味する。同様に、正規化が適用される場合もあれば、適用されない場合もあり、「１」～「－１」以外の範囲も使用され得る（例えば、８ビット表現の場合、値は「－１２７～１２８」であってよい）。

図７で、オブジェクト７２０のエッジは、「０」の値によって見られる場合があり、オブジェクト７２０の内部は「－１」の値によって見られる場合がある。オブジェクト７２０の内部のＴＳＤＦ値は、例えば、マッピングシステムを用いて決定されたオブジェクト７２０の表面の後方のＴＳＤＦ値を設定するために、本明細書に説明する厚さデータを使用して、計算し得る。特定の例では、ＴＳＤＦ値だけではなく、３次元ボリュームの各ボクセルも、複数のボリュームを、観察環境（例えば、図３Ａの完全なシーン）の１つの共通したボリュームに融合することを可能にするために関連付けられた重みを有し得る。特定の場合、重みは、ビデオデータのフレームごとに設定され得る（例えば、以前のフレームからのオブジェクトの重みは、深度データを、後続のフレームの表面－距離メトリック値と融合するために使用される）。重みは、加重平均式で深度データを融合するために使用し得る。表面－距離メトリック値及び重み値を使用して深度データを融合する１つの方法は、（該当する場合、参照によって組み込まれる）ＳＩＧＧＲＡＰＨ ’９６、ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓａｎｄＩｎｔｅｒａｃｔｉｖｅＴｅｃｈｎｉｑｕｅｓに関する第２３回年次会議、ＡＣＭ、１９９６の会議記録に公開されたＣｕｒｌｅｓｓ及びＬｅｖｏｙによる論文「ＡＶｏｌｕｍｅｔｒｉｃＭｅｔｈｏｄｆｏｒＢｕｉｌｄｉｎｇＣｏｍｐｌｅｘＭｏｄｅｌｓｆｒｏｍＲａｎｇｅＩｍａｇｅｓ」に説明されている。ＴＳＤＦ値及び重み値を使用して深度データを融合することを含むさらなる方法は、先に引用した「ＫｉｎｅｃｔＦｕｓｉｏｎ」に説明されている（及び該当する場合、参照により組み込まれている）。

図８は、ビデオデータを使用して周辺または周囲の環境のオブジェクトをマッピングするためのシステム８００の例を示す。システム８００は、説明した例によって予測されるように、厚さデータを使用してオブジェクトのマッピングを改善するように適合される。システム８００の特定の特徴が説明されているが、これらが一例として提供されており、他の図の説明された方法及びシステムが他のマッピングシステムで使用され得ることに留意されたい。

システム８００は、ビデオデータ８０５のフレームＦ_ｔに作用すると示されており、関与するコンポーネントは、経時的に、周辺環境の観察または「キャプチャ」を表すビデオデータから一連のフレームを反復処理する。観察は連続的である必要がない。図２に示すシステム２０５と同様に、システム８００のコンポーネントは、１つ以上のプロセッサ、（ＡＳＩＣ、ＦＰＧＡ、または特殊化したＧＰＵなどの）専用処理回路、及び／またはその２つの組み合わせによって処理されるコンピュータプログラムコードによって実装され得る。システム８００のコンポーネントは、単一のコンピューティングデバイス（例えば、デスクトップ、ラップトップ、モバイルコンピューティングデバイス及び／または埋め込みコンピューティングデバイス）内で実装される場合もあれば、複数の個別のコンピューティングデバイスに分散される場合もある（例えば、特定のコンポーネントは、ネットワーク上で行われた１つ以上のクライアントコンピューティングデバイスからの要求に基づいて１つ以上のサーバコンピューティングデバイスによって実装され得る）。

図８に示すシステム８００のコンポーネントは、２つの処理経路にグループ化される。第１の処理経路は、オブジェクト認識パイプライン８１０を含む。第２の処理経路は、融合エンジン８２０を含む。図８に関して説明する特定のコンポーネントが、オブジェクト認識パイプライン８１０及び融合エンジン８２０の特定の一方に関して説明されているが、特定の実施態様では、図に示す処理経路を維持しつつも、オブジェクト認識パイプライン８１０及び融合エンジン８２０の他方の１つの部分として提供され得ることに留意されたい。また、本明細書の例に説明する一般的な動作を維持しつつも、実施態様によっては、特定のコンポーネントは、省略または修正される場合がある、及び／または他のコンポーネントが追加される場合があることにも留意されたい。また、コンポーネント間の相互接続は、説明を容易にするために示され、実際の実施態様では、再び修正される場合もあれば、追加の通信経路が存在する場合もある。

図８で、オブジェクト認識パイプライン８１０は、畳み込みニューラルネットワーク（ＣＮＮ）８１２、フィルタ８１４、及びユニオンの交差点（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）（ＩＯＵ）コンポーネント８１６を含む。ＣＮＮ８１２は、マスク出力を生成するリージョンベースのＣＮＮを含む場合がある（例えば、マスクＲ－ＣＮＮの実施態様）。ＣＮＮ８１２は、１つ以上のラベル付き画像データセットで訓練され得る。ＣＮＮ８１２は、図３Ｂの画像セグメンテーションエンジン３４０の少なくとも一部分のインスタンスを含み得る。特定の場合、ＣＮＮ８１２は、画像セグメンテーションエンジン３４０を実装し得、データの受信フレームＦ_ｔは測光データ３４５を含む。

フィルタ８１４は、それぞれの検出されたオブジェクトのマスク画像のセット、及び検出されたオブジェクトの同じセットの対応するオブジェクトラベル確率分布のセットの形で、ＣＮＮ８１２のマスク出力を受け取る。したがって、各検出されたオブジェクトは、マスク画像及びオブジェクトラベル確率を有する。マスク画像は、バイナリマスク画像を含み得る。フィルタ８１４は、例えば、オブジェクトラベル確率、画像境界への近接、及びマスク内のオブジェクトサイズなどの１つ以上のオブジェクト検出メトリックに基づいて、ＣＮＮ８１２のマスク出力をフィルタリングするために使用され得る（例えば、Ｘピクセル^２以下の領域が除外され得る）。フィルタ８１４は、リアルタイム操作及びメモリ要求を支援するマスク画像のサブセット（例えば、０～１００のマスク画像）にマスク出力を低減させるために働き得る。

フィルタリングされたマスク出力を含むフィルタ８１４の出力は、次にＩＯＵコンポーネント８１６によって受け取られる。ＩＯＵコンポーネント８１６は、オブジェクトインスタンスのマップの任意の既存のオブジェクトインスタンスに基づいて生成される、レンダリングされたマスク画像または「仮想」マスク画像にアクセスする。オブジェクトインスタンスのマップは、以下に説明するように、融合エンジン８２０によって生成される。レンダリングされたマスク画像は、例えば、図７に示すボリュームなどのそれぞれの３次元ボリューム内に格納されたＴＳＤＦ値を使用してなど、オブジェクトインスタンスを使用してレイトレーシングによって生成され得る。レンダリングされたマスク画像は、オブジェクトインスタンスのマップの各オブジェクトインスタンスのために生成され得、フィルタ８１４からのマスク出力に一致するためにバイナリマスクを含み得る。ＩＯＵコンポーネント８１６は、オブジェクトインスタンスのレンダリングされたマスク画像の各々を用いて、フィルタ８１４から各マスク画像の交差点を計算し得る。最大交差点を有するレンダリングされたマスク画像は、オブジェクト「一致」として選択され得、そのレンダリグされたマスク画像は、次にオブジェクトインスタンスのマップの対応するオブジェクトインスタンスと関連付けられる。ＩＯＵコンポーネント８１６によって計算された最大交差点は、所定の閾値と比較され得る。最大交差点が閾値よりも大きい場合、ＩＯＵコンポーネント８１６は、ＣＮＮ８１２からのマスク画像及びオブジェクトインスタンスとの関連付けを出力し、最大交差点が閾値以下である場合、次にＩＯＵコンポーネント６１６は、既存のオブジェクトインスタンスが検出されていない旨の表示を出力する。

ＩＯＵコンポーネント８１６の出力は、次に、厚さエンジン８１８に渡される。厚さエンジン８１８は、図２に示すシステム２０５の少なくとも一部を含み得る。厚さエンジン８１８は、分解エンジン２１５が、ＣＮＮ８１２、フィルタ８１４、及びＩＯＵコンポーネント８１６の１つ以上の出力を使用するように構成される、システム２０５の実施態様を含み得る。例えば、ＣＮＮ８１２の出力は、図３Ｂに関して説明するプロセスと同様に分解エンジン２１５によって使用され得る。厚さエンジン８１８は、例えば厚さデータがＣＮＮ８１２からのマスク画像及び一致したオブジェクトインスタンスと関連付けられる場合、フレームデータ８０５に作用し、１つ以上の検出したオブジェクトの厚さデータを追加するように配置される。厚さエンジン８１８は、このようにしてオブジェクト認識パイプライン８１０のデータストリームを強化し、別の情報チャネルを提供する。厚さエンジン８１８によって出力される強化されたデータは、次に融合エンジン８２０に渡される。厚さエンジン８１８は、特定の場合、ＩＯＵコンポーネント８１６によって出力されたマスク画像を受け取り得る。

図８の例では、融合エンジン８２０は、ローカルＴＳＤＦコンポーネント８２２、追跡コンポーネント８２４、エラーチェッカ８２６、レンダラ８２８、オブジェクトＴＳＤＦコンポーネント８３０、データ融合コンポーネント８３２、再ローカリゼーションコンポーネント８３４、及びポーズグラフオプティマイザ８３６を含む。明確にするために図８には示していないが、使用中、融合エンジン８２０は、ポーズグラフ及びオブジェクトインスタンスのマップに作用する。特定の場合、単一の表現が格納され得、オブジェクトインスタンスのマップがポーズグラフによって形成され、オブジェクトインスタンスと関連付けられた３次元オブジェクトボリュームがポーズグラフノードの一部として（例えば、ノードと関連付けられたデータとして）格納される。他の場合、別々の表現が、ポーズグラフ及びオブジェクトインスタンスのセットのために格納され得る。本明細書に説明するように、用語「マップ」は、オブジェクトインスタンスのデータ定義の集合体を指す場合があり、それらのデータ定義は、それぞれのオブジェクトインスタンスのための場所及び／または向きの情報を含むため、例えば観察環境に対するオブジェクトインスタンスの位置及び／または向きを記録し得る。

図８の例では、ＴＳＤＦ値を格納するオブジェクトインスタンスのマップだけではなく、周辺環境のオブジェクトアグノスティックモデルも使用される。これは、ローカルＴＳＤＦコンポーネント８２２によって生成され、更新される。オブジェクトアグノスティックモデルは、検出したオブジェクトがない場合に追跡を実行することを可能にする、環境の『粗い』つまり低解像度モデルを提供する。ローカルＴＳＤＦコンポーネント８２２、及びオブジェクトアグノスティックモデルは、スパースに位置するオブジェクトを有する環境を観察するためである実施態様に有用である場合がある。ローカルＴＳＤＦコンポーネント８２２は、厚さエンジン８１８によって予測されるオブジェクト厚さデータを使用しない場合がある。オブジェクト厚さデータは、オブジェクトの高密度分布のある環境に使用してはならない。オブジェクトアグノスティックモデルを定義するデータは、例えばポーズグラフ及びオブジェクトインスタンスのマップだけではなく、融合エンジン８２０がアクセス可能なメモリに格納され得る。

図８の例では、ローカルＴＳＤＦコンポーネント８２２は、ビデオデータ８０５のフレームを受け取り、周辺（３次元）環境のオブジェクトアグノスティックモデルを生成して、検出したオブジェクトインスタンスが存在しないことに応えてフレーム対モデル追跡を提供する。例えば、オブジェクトアグノスティックモデルは、各オブジェクトに定義された３次元ボリュームと同様に、環境内に形成される表面までの距離を表すＴＳＤＦ値を格納する３次元ボリュームを含み得る。オブジェクトアグノスティックモデルは、環境を個別のオブジェクトインスタンスにセグメント化せず、オブジェクトアグノスティックモデルは、環境全体を表す『オブジェクトインスタンス』と見なされ得る。オブジェクトアグノスティックモデルは、環境を表現するために比較的に大きいサイズの限られた数のボクセルが使用され得るという事実において、粗いまたは低い解像度である場合がある。例えば、１つの場合、オブジェクトアグノスティックモデルの３次元ボリュームは、２５６ｘ２５６ｘ２５６の解像度を有する場合があり、ボリューム内のボクセルは、環境内で約２ｃｍの立方体を表す。ローカルＴＳＤＦコンポーネント８２２は、オブジェクトアグノスティックモデルの３次元ボリュームのボリュームサイズ及びボリューム中心を決定し得る。ローカルＴＳＤＦコンポーネント８２２は、例えばカメラが移動した場合に更新したカメラポーズを明らかにするために、ビデオデータのさらなるフレームの受信時にボリュームサイズ及びボリューム中心を更新し得る。

図８の例８００では、オブジェクトアグノスティックモデル及びオブジェクトインスタンスのマップは、追跡コンポーネント８２４に提供される。追跡コンポーネント８２４は、ビデオデータ８０５のフレームと関連付けられた測光データ及び深度データの少なくとも１つと、オブジェクト－インスタンス－アグノスティックモデル及びオブジェクトインスタンスのマップの１つ以上との間の誤差を追跡するように構成される。１つの場合、階層参照データは、オブジェクトアグノスティックモデル及びオブジェクトインスタンスからレイキャスティングすることによって生成され得る。参照データは、オブジェクトアグノスティックモデル及びオブジェクトインスタンスに基づいて（例えば、各オブジェクトインスタンスに基づいて）生成されたデータが画像編集アプリケーションにおける層と同様に、独立してアクセスし得るという点で階層化され得る。参照データは、頂点マップ、法線マップ、及びインスタンスマップの１つ以上を含み得、各「マップ」は、最近のカメラポーズ推定値（例えば、ポーズグラフの以前のカメラポーズ推定値）に基づいて形成される２次元画像の形をとってよく、それぞれのマップの頂点及び法線は、例えばワールドフレームを参照して、モデル空間内で定義される。頂点値及び法線値は、これらのマップでピクセル値として表されてよい。追跡コンポーネント８２４は、次に、参照データから、ビデオデータ８０５の現在のフレーム（例えば、いわゆる「ライブ」フレーム｝から導出したデータにマッピングする変換を決定し得る。例えば、時間ｔの現在の深度マップは、頂点マップ及び法線マップに投影され、参照頂点マップ及び参照法線マップと比較され得る。特定の場合、双方向フィルタリングを深度マップに適用する場合がある。

追跡コンポーネント８２４は、反復最接近点（ＩＣＰ）関数を使用し、ビデオデータの現在のフレームと関連付けられたデータを参照データとアラインさせ得る。追跡コンポーネント８２４は、ビデオデータの現在のフレームと関連付けられたデータの、オブジェクトアグノスティックモデル及びオブジェクトインスタンスのマップの少なくとも１つから導出された参照データとの比較を使用して、現在のフレームのカメラポーズ推定値（例えば、

）を決定し得る。これは、オブジェクトアグノスティックモデルの再計算の前に（例えば、再ローカリゼーション前に）実行され得る。最適化されたＩＣＰポーズ（及び不変性共分散推定値）は、例えば、ポーズグラフのそれぞれノードとそれぞれ関連付けられたカメラポーズ間の測定制限として使用され得る。比較は、ピクセル単位で実行され得る。しかしながら、例えば二重計算を回避するためになど、オブジェクトインスタンスに属するピクセルに過重に重み付けすることを回避するために、オブジェクトカメラ制限を導出するためにすでに使用されているピクセルは、カメラポーズ間の測定制限の最適化から省略され得る。

追跡コンポーネント８２４は、エラーチェッカ８２６によって受け取られる誤差メトリックのセットを出力する。これらの誤差メトリックは、ＩＣＰ関数からの二乗平均平方根誤差（ＲＭＳＥ）メトリック、及び／または有効に追跡されたピクセルの割合を含む場合がある。エラーチェッカ８２６は、誤差メトリックのセットを、所定の閾値のセットと比較して、追跡が維持されるかどうか、または再ローカリゼーションが実行されるのかどうかを判定する。例えば、誤差メトリックが所定の閾値を超える場合など、再ローカリゼーションが実行される場合、次にエラーチェッカ８２６は、再ローカリゼーションコンポーネント８３４の動作をトリガする。再ローカリゼーションコンポーネント８３４は、オブジェクトインスタンスのマップを、ビデオデータの現在のフレームからのデータとアラインさせるために働く。再ローカリゼーションコンポーネント８３４は、さまざまな再ローカリゼーション方法の１つを使用し得る。１つの方法で、画像特徴は、現在の深度マップを使用して空間をモデル化するために投影され得、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）は、オブジェクトインスタンスの画像特徴及びオブジェクトインスタンスのマップを使用して適用され得る。このようにして、現在のフレーム画像特徴から生成された３次元点は、（例えば、オブジェクトボリュームから変形された）オブジェクトインスタンスイオンオブジェクトインスタンスのマップから導出した３次元点と比較され得る。例えば、（例えば、０．６より大きいドット積を有する）オブジェクトインスタンスのマップのオブジェクトインスタンスのクラス分布に密接に一致する現在のフレームのインスタンスごとに、３Ｄ－３ＤＲＡＮＳＡＣが実行され得る。例えば、２ｃｍ半径内の５つのインライア特徴など、いくつかのインライア特徴が所定の閾値を超える場合、現在のフレームのオブジェクトインスタンスは、マップのオブジェクトインスタンスに一致すると見なし得る。例えば３など、いくつかの一致するオブジェクトインスタンスが閾値を満たすまたは超える場合、３Ｄ－３ＤＲＡＮＳＡＣは、改訂されたカメラポーズ推定値を生成するために、５ｃｍ半径内に最小５０のインライア特徴がある（背景の点を含む）点のすべてに対して再び実行され得る。再ローカリゼーションコンポーネント８３４は、改訂されたカメラポーズ推定値を出力するように構成される。この改訂されたカメラポーズ推定値は、次に、ポーズグラフを最適化するためにポーズグラフオプティマイザ８３６によって使用される。

ポーズグラフオプティマイザ８３６は、ポーズグラフを最適化して、カメラ及び／またはオブジェクトポーズ推定値を更新するように構成される。これは、上述のように実行し得る。例えば、１つの場合、ポーズグラフオプティマイザ８３６は、ポーズグラフを最適化して、ノード及びエッジの値に基づいたカメラからオブジェクトへの及びカメラからカメラへのポーズ推定遷移のすべてのエッジにわたる合計として計算されるグラフの総誤差を低減し得る。例えば、グラフオプティマイザは、局所的なポーズ測定値に対する摂動をモデル化し、これらを使用して、例えばＩＣＰ誤差に基づいた逆測定共分散と共に、総誤差計算で使用される情報行列の関数行列式の項を計算し得る。システム８００の構成に応じて、ポーズグラフオプティマイザ８３６は、ノードがポーズグラフに追加されるときに最適化を実行するように構成される場合もあれば、されない場合もある。例えば、ノードがポーズグラフに追加されるたびに最適化を実行する必要はないので、誤差メトリックのセットに基づいて最適化を実行することによって処理要求は低減され得る。ポーズグラフ最適化の誤差は、追跡コンポーネント８２４が取得し得る追跡時の誤差とは無関係ではない場合がある。例えば、ポーズ構成の変更によって生じたポーズグラフの誤差は、完全な入力深度画像を所与として、ＩＣＰの点対平面の誤差メトリックと同じである場合がある。しかしながら、新しいカメラポーズに基づいてこの誤差を再計算するには、通常、完全な深度画像測定の使用及びオブジェクトモデルの再レンダリングを伴い、これは計算コストがかかる場合がある。計算コストを削減するために、ＩＣＰ誤差関数のヘッセ行列式を使用して生じたＩＣＰ誤差に対する線形近似を、ポーズグラフの最適化中にポーズグラフの制約として代わりに使用し得る。

エラーチェッカ８２６からの処理経路に戻ると、誤差メトリックが許容範囲内にある場合（例えば、動作中または再ローカリゼーションに続いて）、レンダラ８２８は、融合エンジン８２０の他のコンポーネントが使用するためにレンダリングされたデータを生成するために動作する。レンダラ８２８は、深度マップ（つまり、画像の形をした深度データ）、頂点マップ、法線マップ、測光（例えば、ＲＧＢ）画像、マスク画像、及びオブジェクトインデックスの１つ以上をレンダリングするように構成され得る。オブジェクトインスタンスのマップの各オブジェクトインスタンスは、例えば、それと関連付けられたオブジェクトインデックスを有する。レンダラ８２８は、オブジェクトの厚さに基づいて更新される改善されたＴＳＤＦ表現を利用し得る。レンダラ８２８は、オブジェクトアグノスティックモデル及びオブジェクトインスタンスのマップのオブジェクトインスタンスの１つ以上に作用し得る。レンダラ８２８は、２次元画像またはピクセルマップの形でデータを生成し得る。上述のように、レンダラ８２８は、レイキャスティング及びオブジェクトに使用される３次元ボリューム内のＴＳＤＦ値を使用して、レンダリングされたデータを生成し得る。レイキャスティングは、所与のステップサイズ内で投影された光線に沿って進むために、及び３次元ボリューム内のＴＳＤＦ値によって定義されるゼロ交差点を検索するためにカメラポーズ推定値及び３次元ボリュームを使用することを含み得る。レンダリングは、ボクセルがシーンの前景または背景に属する確率に依存する場合がある。所与のオブジェクトインスタンスについて、レンダラ８２８は、ゼロ交差点との直近の交差点の光線長を格納し得、後続のオブジェクトインスタンスについてこの光線長を超えて検索し得ない。このようにして、閉塞する表面を正しくレンダリングし得る。存在確率の値が前景及び背景の検出数に基づいて設定される場合、次に存在確率に対する照合によって、環境内の重複するオブジェクトのレンダリングを改善し得る。

レンダラ８２８は、オブジェクトＴＳＤＦコンポーネント８３０が次にアクセスするデータを出力する。オブジェクトＴＳＤＦコンポーネント８３０は、レンダラ８２８及び厚さエンジン８１８の出力を使用して、オブジェクトインスタンスのマップを初期化し、更新するように構成される。例えば、厚さエンジン８１８が、例えば上述の交差点に基づいて、フィルタ８１４から受け取ったマスク画像が既存のオブジェクトインスタンスに一致することを示す信号を出力する場合、次に、オブジェクトＴＳＤＦコンポーネント８３０は、例えばＴＳＤＦ値を格納する３次元オブジェクトボリュームなど、関連するオブジェクトインスタンスを取り出す。

マスク画像、予測された厚さデータ、及びオブジェクトインスタンスは、次にデータ融合コンポーネント８３２に渡される。これは、例えばフィルタ８１４から受け取った、フィルタリングされたマスク出力を形成するマスク画像のセットに対して繰り返されてよい。特定の場合、データ融合コンポーネント８３２は、マスク画像のセットと関連付けられたオブジェクトラベル確率のセットを受け取るまたはアクセスする場合もある。データ融合コンポーネント８３２での統合は、オブジェクトＴＳＤＦコンポーネント８３０によって示される所与のオブジェクトインスタンスについて、及び所与のオブジェクトインスタンスの３次元ボリュームの定義されたボクセルについて、ボクセルをカメラフレームピクセルの中に投影すること、つまり最新のカメラポーズ推定値を使用すること、及びビデオデータ８０５のフレームについて、投影された値を受け取った深度マップと比較することを含み得る。特定の場合、ボクセルが、切り捨て距離を加えた（例えば、深度マップまたはＲＧＢ－Ｄキャプチャデバイスから受け取った画像からの）深度測定値未満である深度値（つまり、ボクセルの投影されたＴＳＤＦ値に基づいた投影された「仮想」深度値）を有するカメラフレームピクセルに投影する場合、次に、深度測定値は３次元ボリュームに融合され得る。厚さデータの厚さ値は、次に、モデル化されたオブジェクトの前面の後方のボクセルのＴＳＤＦ値を設定するために使用され得る。特定の場合、ＴＳＤＦ値だけではなく、各ボクセルも関連付けられた重みを有する。これらの場合、融合は、加重平均式で適用され得る。

特定の場合、この統合は、選択的に実行し得る。例えば、統合は、例えば追跡コンポーネント８２４からの誤差メトリックが所定の閾値以下であるときなど、１つ以上の条件に基づいて実行し得る。これは、エラーチェッカ８２６によって示される場合がある。また、統合は、オブジェクトインスタンスが可視であると見なされるビデオデータのフレームを参照して実行してもよい。これらの条件は、カメラフレームがドリフトする場合に、オブジェクトインスタンスの再構築の質を維持するために役立つ場合がある。

図８のシステム８００は、オブジェクトポーズ及びカメラポーズを示すポーズグラフと共に、経時的にオブジェクトインスタンスの堅牢なマップを構築するために、ビデオデータ８０５のフレームに反復して作用し得る。オブジェクトインスタンス及びポーズグラフのマップは、次に、ナビゲーション及び／またはマッピングされた環境とのインタラクションを可能にするために、他のデバイス及びシステムが利用できるようにされ得る。例えば、ユーザーからのコマンド（例えば、「カップを持ってきて」）は、（例えば、オブジェクトラベル確率分布または３次元形状一致に基づいて）オブジェクトインスタンスのマップ内のオブジェクトインスタンスと照合され得、オブジェクトインスタンス及びオブジェクトポーズは、アクチュエータを制御して環境から対応するオブジェクトを抽出するためにロボットデバイスによって使用され得る。同様に、オブジェクトインスタンスのマップは、例えば正確な３次元モデルインベントリを提供するためになど、環境内のオブジェクトを文書化するために使用され得る。拡張現実アプリケーションでは、オブジェクトインスタンス及びオブジェクトポーズは、リアルタイムのカメラポーズと共に、リアルタイムビデオフィードに基づいて仮想空間内でオブジェクトを正確に拡張するために使用され得る。

図９は、一例に従って画像データを処理する方法９００を示す。方法は、本明細書に説明するシステムを使用して、または代替システムを使用して実装され得る。方法９００は、ブロック９１０でシーンの画像データを取得することを含む。シーンは、例えば図３Ａに示すようなオブジェクトのセットを特徴とする場合がある。画像データは、例えば図１Ａのカメラ１２０または図３Ａのカメラ３２０などのキャプチャデバイスから直接的に取得され得る、及び／またはハードディスクもしくは不揮発性ソリッドステートメモリなどのストレージデバイスからロードされ得る。ブロック９１０は、ブロック９２０～９４０のアクセスのためにマルチチャネルＲＧＢＤ画像をメモリにロードすることを含み得る。

ブロック９２０で、画像データは分解されて、予測モデルの入力データを生成する。この場合、分解は、シーン内のオブジェクトのセットに対応する画像データの部分を決定することを含む。これは、オブジェクトを積極的に検出し、各オブジェクトを含む画像データの領域を示すこと、及び／または画像データの一部として受け取られるセグメンテーションデータを処理することを含み得る。分解に続く画像データの各部分は、異なる検出されたオブジェクトに対応する場合がある。

ブロック９３０で、部分の断面厚さ測定値は、予測モデルを使用して予測される。例えば、これは、画像データの分解された部分を入力として予測モデルに供給し、断面厚さ測定値を予測として出力することを含み得る。予測モデルは、例えば図４に示すアーキテクチャに類似したニューラルネットワークアーキテクチャを含む場合がある。入力データは、例えばＲＧＢデータ、ＲＧＢ及び深度データ、またはシルエットデータ（例えば、オブジェクトのバイナリマスク）、及び深度データの１つを含み得る。断面厚さ測定値は、特定のピクセルと関連付けられた検出したオブジェクトの部分の推定厚さ値を含み得る。ブロック９３０は、ブロック９２０に続いて、予測モデルを画像データ出力の各部分に連続して及び／または並行して適応することを含み得る。厚さ値は、メートルまたはセンチメートルの単位で提供され得る。

ブロック９４０で、画像データの部分の予測された断面厚さ測定値は、シーン内のオブジェクトのセットの厚さデータを含む出力画像データを生成するために組み立てられる。これは、入力画像に対応する出力画像を生成することを含み得、出力画像のピクセル値は、シーン内で観察されるオブジェクトの部分の予測される厚さ値を表す。出力画像データは、特定の場合、断面厚さ測定値を格納する追加の「厚さ」チャネルを加えた、元の画像データを含む場合がある。

図１０は、一例に従って画像データを分解する方法１０００を示す。方法１０００は、図９のブロック９２０を実装するために使用され得る。他の場合、ブロック９２０は、方法１０００を実行することによって以前に生成されたデータを受け取ることによって実装され得る。

ブロック１０１０で、ＲＧＢ画像などの測光データが受け取られる。いくつかのオブジェクトが、測光データで検出される。これは、例えば図３Ｂの画像セグメンテーションエンジン３４０または図８のオブジェクト認識パイプライン８１０に類似したオブジェクト認識パイプラインを適用することを含み得る。オブジェクト認識パイプラインは、オブジェクトを検出するために、訓練されたニューラルネットワークを含み得る。ブロック１０２０で、シーンのセグメンテーションデータが生成される。セグメンテーションデータは、測光データの部分と、シーン内のオブジェクトのセットとの間の推定された対応を示す。本例では、セグメンテーションデータは、各検出したオブジェクトのセグメンテーションマスク及びバウンディングボックスを含む。ブロック１０３０で、ブロック１０１０で受け取られた測光データから導出したデータは、ブロック１０２０で生成されたバウンディングボックスに基づいてオブジェクトごとに切り取られる。これは、受け取ったＲＧＢデータ及びブロック１０２０で出力されたセグメンテーションマスクの１つ以上を切り取ることを含み得る。また、測光データと関連付けられた深度データも切り取られる。ブロック１０４０で、いくつかの画像部分が出力される。例えば、画像部分は、各検出したオブジェクトの測光データ及び深度データから導出したデータの切り取った部分を含み得る。特定の場合、測光データ及び深度データの１つ以上は、画像部分を生成するためにセグメンテーションマスクを使用して、処理され得る。例えば、セグメンテーションマスクは、画像部分の背景を削除するために使用され得る。他の場合、セグメンテーションマスク自体は、深度データと共に、画像部分データとして使用され得る。

図１１は、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練する方法１１００を示す。システムは、図２のシステム２０５であってよい。方法１１００は、図９の方法９００を実行する前に構成段階で実行され得る。方法１１００は、ブロック１１１０で訓練データを取得することを含む。訓練データは、複数のオブジェクトのサンプルを含む。訓練データは、図６に示すデータに類似した訓練データを含み得る。訓練データの各サンプルは、複数のオブジェクトの１つの測光データ、深度データ、及び断面厚さデータを含み得る。特定の場合、各サンプルは、オブジェクトのカラー画像、深度画像、及び厚さレンダリングを含み得る。他の場合、各サンプルは、オブジェクトのセグメンテーションマスク、深度画像、及び厚さレンダリングを含み得る。

ブロック１１２０で、方法は、訓練データを使用してシステムの予測モデルを訓練することを含む。予測モデルは、ニューラルネットワークアーキテクチャを含み得る。１つの場合、予測モデルは、図４に示すアーキテクチャなどのエンコーダ－デコーダアーキテクチャを含み得る。他の場合、予測モデルは、畳み込みニューラルネットワークを含み得る。ブロック１１２０は、２つのサブブロック１１３０及び１１４０を含む。サブブロック１１３０で、訓練データからの画像データは、予測モデルに入力される。画像データは、セグメンテーションマスク及び深度データ、色データ及び深度データ、ならびにセグメンテーションマスク、色データ、及び深度データの１つ以上を含み得る。サブブロック１１４０で、予測モデルと関連付けられた損失関数が最適化される。損失関数は、予測モデルの出力と、訓練データからの断面厚さデータとの比較に基づく場合がある。例えば、損失関数は、予測モデルの出力とグラウンドトゥルース値との間の二乗誤差を含む場合がある。ブロック１１３０及び１１４０は、予測モデルのパラメータ値のセットを決定するために複数のサンプルに対して繰り返され得る。

特定の場合、少なくとも測光データと関連付けられたオブジェクトセグメンテーションデータも取得され得る。また、方法１１００は、次に例えば図３の画像セグメンテーションエンジン３４０などのシステムの画像セグメンテーションエンジン、または図８のオブジェクト認識パイプライン８１０を訓練することも含み得る。これは、画像セグメンテーションエンジンへの入力として少なくとも測光データを提供すること、及び画像セグメンテーションエンジンの出力及びオブジェクトセグメンテーションデータに基づいて損失関数を最適化することを含み得る。これは、図９及び図１０の方法９００及び１０００の１つ以上を実行する前に、構成段階で実行され得る。他の場合、システムの画像セグメンテーションエンジンは、事前に訓練されたセグメンテーションエンジンを含み得る。特定の場合、画像セグメンテーションエンジン及び予測モデルは、単一のシステムで共同で訓練される場合がある。

図１２は、訓練セットを生成する方法１２００を示す。訓練セットは、図６の例示的な訓練セット６００を含む場合がある。訓練セットは、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練するために使用可能である。このシステムは、図２のシステム２０５であってよい。方法１２００は、複数のオブジェクトの各オブジェクトに対して繰り返される。方法１２００は、生成された訓練セットが、ブロック１１１０で訓練データとして使用される、図１１の方法１１００の前に実行され得る。

ロック１２１０で、所与のオブジェクトの画像データが取得される。この場合、画像データは、複数のピクセルの測光データ及び深度データを含む。例えば、画像データは、図６に示すように、測光データ６１０及び深度データ６２０を含み得る。特定の場合、画像データは、ＲＧＢ－Ｄ画像データを含み得る。他の場合、画像データは、例えば以下に説明する３次元表現をレンダリングすることによって、合成で生成される場合がある。

ブロック１２２０で、オブジェクトの３次元表現が取得される。これは、図６に示すモデル６４０の１つなど、３次元モデルを含み得る。ブロック１２３０で、断面厚さデータがオブジェクトのために生成される。これは、ブロック１２１０で取得した画像データの各ピクセルの断面厚さ測定値を決定することを含み得る。ブロック１２０は、オブジェクトの第１の表面への第１の距離及びオブジェクトの第２の表面への第２の距離を決定するためにレイトレーシングを３次元表現に適用することを含み得る。第１の表面は可視であるオブジェクトの「前面」であってよく、第２の表面は、可視ではないが、３次元表現に示されるオブジェクトの「背面」であってよい。したがって、第１の表面は、第２の表面よりもレイトレーシングの起点により近い場合がある。第１の距離と第２の距離の差に基づいて、オブジェクトの断面厚さ測定値を決定し得る。このプロセス、つまりレイトレーシングして、断面厚さ測定値を決定することは、ブロック１２１０からの画像データに対応するピクセルのセットについて繰り返され得る。

ブロック１２４０で、オブジェクトの入力データ及びグランドトゥルース出力データのサンプルが生成され得る。これは、図６に示す測光データ６１０、深度データ６２０、及び断面厚さデータ６３０を含む場合がある。入力データは、画像データに基づいて決定され得、図１１のブロック１１３０で使用され得る。グラウンドトゥルース出力データは、断面厚さデータに基づいて決定され得、図１１のブロック１１４０で使用され得る。

特定の場合、複数のオブジェクトの画像データ及び３次元表現は、合成訓練データの追加サンプルを生成するために使用され得る。例えば、３次元表現は、オブジェクトの異なる入力データを生成するために、ランダム化された条件で使用され得る。１つの場合、ブロック１２１０は省略されてよく、入力データ及び出力データは、３次元表現単独に基づいて生成され得る。

図２、図３、図４、及び図８に関連して本明細書に説明する機能コンポーネントの例は、専用の処理電子機器を含み得る、及び／または少なくとも１つのコンピューティングデバイスのプロセッサによって実行されるコンピュータプログラムコードを介して実装され得る。特定の場合、１つ以上の埋め込みコンピューティングデバイスを使用し得る。図１３は、説明したシステム及び方法を実装するために使用し得るコンピューティングデバイス１３００を示す。コンピューティングデバイス１３００は、コンピュータプログラムコード１３３０を実行するために、コンピュータ可読記憶媒体１３２０と関連して動作する少なくとも１つのプロセッサ１３１０を含む。コンピュータ可読記憶媒体は、例えば、揮発性メモリ、不揮発性メモリ、磁気記憶装置、光記憶装置、及び／またはソリッドステートストレージの１つ以上を含み得る。埋め込みコンピューティングデバイスでは、媒体１３２０は、消去可能プログラマブル読み取り専用メモリなどのソリッドステートストレージを含み得、コンピュータプログラムコード１３３０は、ファームウェアを含み得る。他の場合、コンポーネントは、適切に構成されたシステムオンチップ、特定用途向け集積回路、及び／または１つ以上の適切にプログラムされたフィールドプログラマブルゲートアレイを含み得る。１つの場合、コンポーネントは、モバイルコンピューティングデバイス及び／またはデスクトップコンピューティングデバイスでコンピュータプログラムコード及び／または専用処理電子機器を介して実装され得る。１つの場合、コンポーネントは、以前の場合と同様に、または以前の場合の代わりに、コンピュータプログラムコードを実行する１つ以上の図形処理ユニットによって実装され得る。特定の場合、コンポーネントは、例えば複数のプロセッサ及び／または図形処理ユニットのコアで、並行して実装された１つ以上の機能を介して実装され得る。

特定の場合、上述の装置、システム、または方法は、ロボットデバイスを用いてまたはロボットデバイスのために実装され得る。これらの場合、厚さデータ、及び／または厚さデータを使用して生成されたオブジェクトインスタンスのマップは、３次元空間とインタラクションする、及び／または３次元空間をナビゲートするためにデバイスによって使用され得る。例えば、ロボットデバイスは、キャプチャデバイス、図２または図８に示すようなシステム、インタラクションエンジン、及び１つ以上のアクチュエータを含み得る。１つ以上のアクチュエータは、ロボットデバイスが、周辺の３次元環境とインタラクションすることを可能にし得る。１つの場合、ロボットデバイスは、ロボットデバイスが（例えば、図１Ａのデバイス１３０により）特定の環境をナビゲートするにつれ、ビデオデータをキャプチャするように構成され得る。別の場合、ロボットデバイスは環境を走査し得る、またはモバイルデバイスもしくは別のロボットデバイスを有するユーザーなどのサードパーティから受け取ったビデオデータに作用し得る。ロボットデバイスがビデオデータを処理するとき、ロボットデバイスは、本明細書に説明する厚さデータ及び／またはオブジェクトインスタンスのマップを生成するように配置され得る。厚さデータ及び／またはオブジェクトインスタンスのマップは、ストリーミング（例えば、メモリに動的に格納）され得る、及び／またはデータストレージデバイスに格納され得る。インタラクションエンジンは、次に１つ以上のアクチュエータを制御して環境とインタラクションするために、生成されたデータにアクセスするように構成され得る。１つの場合、ロボットデバイスは、１つ以上の機能を実行するように配置され得る。例えば、ロボットデバイスは、マッピング機能を実行し、（例えば、緊急時に）特定の人物及び／またはオブジェクトの位置を突き止め、オブジェクトを移送し、清掃または保守などを実行するように配置され得る。１つ以上の機能を実行するために、ロボットデバイスは、環境とインタラクションするためのさらなる知覚デバイス、真空システム、及び／またはアクチュエータなどの追加のコンポーネントを含み得る。これらの機能は、次に厚さデータ及び／またはオブジェクトインスタンスのマップに基づいて適用され得る。例えば、家庭用ロボットは、オブジェクトの予測された厚さに基づいてオブジェクトを把持またはナビゲートするように構成され得る。

上記の例は、例示的と理解されるべきである。さらなる例が想定される。任意の１つの例に関連して説明された任意の特徴は、単独でまたは説明した他の特徴と組み合わせて使用し得、また、他の任意の例の１つ以上の特徴、または任意の他の例の任意の組み合わせと組み合わせて使用し得ることを理解されたい。例えば、本明細書に説明する方法は、システムの例に関連して説明する特徴を含むように適合され得、逆もまた同様である。さらに、添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、上述されていない均等物及び修正が採用されてもよい。

２０５システム
２１０入力インタフェース
２１５分解エンジン
２２０予測モデル
２２５エンジン
２３０出力インタフェース
２３５入力インタフェース
２４０シーン
２４５データ
２５５入力データ
２６０測定値

Claims

画像データを処理する方法であって、
シーンの画像データを取得することであって、前記シーンがオブジェクトのセットを特徴とする、前記取得することと、
予測モデルの入力データを生成するために前記画像データを分解することであって、前記シーン内の前記オブジェクトのセットに対応する、前記画像データの部分を決定することであって、各部分が異なるオブジェクトに対応する前記決定することを含む、前記分解することと、
前記予測モデルを使用して、前記部分の断面厚さ測定値を予測することと、
前記シーン内の前記オブジェクトのセットの厚さデータを含む出力画像データを生成するために、前記画像データの前記部分の前記予測された断面厚さ測定値を組み立てることと
を含む、前記方法。
前記画像データが、少なくとも、シーンの測光データを含み、前記画像データを分解することが、
前記測光データから前記シーンのセグメンテーションデータを生成することであって、前記セグメンテーションデータが、前記測光データの部分と、前記シーン内の前記オブジェクトのセットとの間の推定された対応を示す、前記生成すること
を含む、請求項１に記載の方法。
前記シーンのセグメンテーションデータを生成することが、
前記測光データに示されるオブジェクトを検出することと、
各検出したオブジェクトにセグメンテーションマスクを生成することと
を含み、
前記画像データを分解することが、各検出したオブジェクトについて、前記セグメンテーションマスクを含む前記画像データの領域を切り取ることを含む、
請求項２に記載の方法。
前記測光データに示されるオブジェクトを検出することが、
畳み込みニューラルネットワークアーキテクチャを使用して、前記測光データの前記１つ以上のオブジェクトを検出すること
を含む、請求項３に記載の方法。
前記予測モデルが、複数のオブジェクトについて、画像データ及びグラウンドトゥルース厚さ測定値の対で訓練される、請求項１～４のいずれか１項に記載の方法。
前記画像データが、シーンの測光データ及び深度データを含み、前記入力データが、前記測光データから導出したデータ及び前記深度データから導出したデータを含み、前記測光データから導出した前記データが、色データ及びセグメンテーションマスクの１つ以上を含む、請求項１～５のいずれか１項に記載の方法。
前記シーンの３次元モデルを更新するために、前記測光データ、前記深度データ、及び前記厚さデータを使用すること
を含む、請求項６に記載の方法。
前記シーンの前記３次元モデルが、切り捨てられた符号付き距離関数（ＴＳＤＦ）モデルを含む、請求項７に記載の方法。
前記予測モデルがニューラルネットワークアーキテクチャを備える、請求項１～８のいずれか１項に記載の方法。
前記画像データがカラー画像及び深度マップを含み、前記出力画像データが、断面厚さの関連付けられた値を有するピクセルを含むピクセルマップを含む、請求項１～９のいずれか１項に記載の方法。
画像データを処理するためのシステムであって、
画像データを受け取るための入力インタフェースと、
前記入力インタフェースで受け取った前記画像データに存在する１つ以上のオブジェクトの厚さデータを出力するための出力インタフェースと、
入力データから断面厚さ測定値を予測するための予測モデルであって、複数のオブジェクトのための画像データ及びグラウンドトゥルース厚さ測定値の対に基づいて推定される訓練されたパラメータによってパラメータ化される、前記予測モデルと、
前記入力インタフェースで受け取った前記画像データから前記予測モデルの前記入力データを生成するための分解エンジンであって、前記画像データの部分と、前記画像データに存在すると見なされる１つ以上のオブジェクトとの間の対応を決定するように構成され、各部分が異なるオブジェクトに対応する、前記分解エンジンと、
前記出力インタフェースに前記出力厚さデータを提供するために、前記予測モデルからの複数の予測された断面厚さ測定値を組み立てるための組み立てエンジンと
を備える、前記システム。
前記画像データが測光データを含み、前記分解エンジンが、前記測光データに基づいてセグメンテーションデータを生成するための画像セグメンテーションエンジンを備え、前記セグメンテーションデータが、前記測光データの部分と、前記画像データに存在すると見なされる前記１つ以上のオブジェクトとの間の推定された対応を示す、請求項１１に記載のシステム。
前記画像セグメンテーションエンジンが、
前記測光データ内のオブジェクト検出するため、及び任意の検出したオブジェクトのセグメンテーションマスクを出力するためのニューラルネットワークアーキテクチャ
を備える、請求項１２に記載のシステム。
前記ニューラルネットワークアーキテクチャが、セグメンテーションマスクを予測するための経路を有するリージョンベースの畳み込みニューラルネットワーク－ＲＣＮＮ－を備える、請求項１３に記載のシステム。
前記分解エンジンが、前記画像セグメンテーションエンジンから受け取ったバウンディングボックスに基づいて、前記画像データのセクションを切り取るように構成され、前記画像セグメンテーションエンジンによって検出された各オブジェクトが、異なる関連付けられたバウンディングボックスを有する、請求項１２～１４のいずれか１項に記載のシステム。
前記画像データが、シーンの測光データ及び深度データを含み、前記入力データが、前記測光データから導出したデータ及び前記深度データから導出したデータを含み、前記測光データから導出した前記データがセグメンテーションマスクを含む、請求項１１～１５のいずれか１項に記載のシステム。
前記予測モデルが、
前記測光データ及び前記深度データを受け取るため、及びマルチチャネル特徴画像を生成するための入力インタフェースと、
前記マルチチャネル特徴画像を潜在的表現として符号化するためのエンコーダと、
画素のセットの断面厚さ測定値を生成するために前記潜在的表現を復号するためのデコーダと
を備える、請求項１６に記載のシステム。
前記入力インタフェースで受け取った前記画像データが、シーンの１つ以上のビューを含み、前記システムが、
前記出力インタフェースから出力厚さデータを受け取るため、及び前記厚さデータを使用して、前記シーンの３次元モデルの切り捨てられた符号付き距離関数値を決定するためのマッピングシステム
を備える、請求項１１～１７のいずれか１項に記載のシステム。
１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練する方法であって、
複数のオブジェクトのサンプルを含む訓練データを取得することであって、各サンプルが、前記複数のオブジェクトの１つの画像データ及び断面厚さデータを含む、前記取得することと、
前記訓練データを使用して前記システムの予測モデルを訓練することであって、
前記予測モデルへの入力として、前記訓練データから、少なくとも前記画像データから導出したデータを提供することと、
前記予測モデルの出力及び前記訓練データからの前記断面厚さデータに基づいて損失関数を最適化することと、を含む、
前記訓練することと
を含む前記方法。
前記画像データと関連付けられたオブジェクトセグメンテーションデータを取得することと、
前記システムの画像セグメンテーションエンジンを訓練することであって、
前記画像セグメンテーションエンジンへの入力として、前記画像データを提供することと、
前記画像セグメンテーションエンジンの出力及び前記オブジェクトセグメンテーションデータに基づいて損失関数を最適化することと
を含む、前記訓練することと
を含む、請求項１９に記載の方法。
各サンプルが測光データ及び深度データを含み、前記予測モデルを訓練することが、前記予測モデルへの入力として、前記測光データから導出したデータ及び前記深度データから導出したデータを提供することを含む、請求項１９または請求項２０に記載の方法。
各サンプルが、カラー画像及びセグメンテーションマスク、深度画像、ならびにオブジェクトの厚さレンダリングの少なくとも１つを含む、請求項２１に記載の方法。
訓練セットを生成する方法であって、前記訓練セットが、１つ以上のオブジェクトの断面厚さを推定するためのシステムを訓練するために使用可能であり、複数のオブジェクトの各オブジェクトについて、
前記オブジェクトの画像データを取得することであって、前記画像データが複数のピクセルの少なくとも測光データを含む、前記取得することと、
前記オブジェクトの３次元表現を取得することと、
前記オブジェクトの断面厚さデータを生成することであって、
前記オブジェクトの第１の表面への第１の距離、及び前記オブジェクトの第２の表面への第２の距離を決定するために、前記３次元表現にレイトレーシングを適用することであって、前記第１の表面が、前記第２の表面よりも前記レイトレーシングの起点により近い、前記適用することと、
前記第１の距離と前記第２の距離の差に基づいて、前記オブジェクトの断面厚さ測定値を決定すること
とを含み、
前記レイトレーシング及び前記断面厚さ測定値の前記決定することが、前記オブジェクトの前記断面厚さデータを生成するために、前記複数のピクセルに対応するピクセルのセットに対して繰り返され、前記断面厚さデータが、前記断面厚さ測定値を含み、前記取得した画像データに対応する、
前記生成することと、
前記オブジェクトの入力データ及びグラウンドトゥルース出力データのサンプルを生成することであって、前記入力データが前記画像データを含み、前記グラウンドトゥルース出力データが前記断面厚さデータを含む、前記生成することと
を含む、前記方法。
合成訓練データの追加サンプルを生成するために、前記複数のオブジェクトの前記画像データ及び前記３次元表現を使用することを含む、請求項２３に記載の方法。
前記画像データが、複数のピクセルの測光データ及び深度データを含む、請求項２３または請求項２４に記載の方法。
ロボットデバイスであって、
色データ及び深度データを含むビデオデータのフレームを提供するための少なくとも１つのキャプチャデバイスと、
前記入力インタフェースが、前記少なくとも１つのキャプチャデバイスに通信可能に結合される、請求項１１～１８のいずれか１項に記載のシステムと、
前記ロボットデバイスが、周辺の３次元環境とインタラクションすることを可能にする１つ以上のアクチュエータと、
前記１つ以上のアクチュエータを制御するために少なくとも１つのプロセッサを備えるインタラクションエンジンと
を備え、
前記インタラクションエンジンが、前記周辺の３次元環境のオブジェクトとインタラクションするために前記システムの前記出力インタフェースからの前記出力画像データを使用するためである、
前記ロボットデバイス。
プロセッサによる実行時に、コンピューティングデバイスに、請求項１～１０または１９～２５のいずれか１項に記載の方法を実行させるコンピュータ実行可能命令を含む、非一時的なコンピュータ可読記憶媒体。