JP7458405B2

JP7458405B2 - 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法

Info

Publication number: JP7458405B2
Application number: JP2021535808A
Authority: JP
Inventors: ダルムットーカルロ; ティウキン; ペルッチフランチェスコ; トラチュースキージェイソン; ズッカリーノトニー; ガーバーチェイス
Original assignee: パックサイズリミティドライアビリティカンパニー
Priority date: 2018-12-20
Filing date: 2019-12-20
Publication date: 2024-03-29
Anticipated expiration: 2039-12-20
Also published as: EP3899874A4; WO2020132627A1; US11481885B2; US11798152B2; EP3899874A1; US20230131623A1; CN113498530A; US20230410276A1; JP2022514757A; US20200372626A1

Description

［関連出願へのクロス・リファレンス］
本出願は、２０１８年１２月２０日に米国特許商標庁において出願された米国仮特許出願第６２／７８３１４１号の利益を主張するものであり、その開示全体は、ここにおいて参照により組み込まれる。

本発明の実施形態の態様は、対象物についての部分的視覚情報に基づいて、対象物の物理寸法を自動的に推定または決定するためのシステムと方法に関する。

対象物の体積を含む、対象物の寸法を測定または推定することは、リソースプラニングと物流総合管理などのような分野においては一般的なタスクである。例えば、箱を１台以上のトラックに積み込むときに、箱のサイズと形状の推定値は、トラックにおける空いている空間を削減または最小にするための、異なるトラックの間での箱の効率的な分配において支援できる。他の例として、貨物運送または船輸送会社は、輸送される荷物の寸法（および質量または重量）に従って顧客に請求できる。

他の例として、通販小売業者は、種々の小売品物を輸送するための、正しいサイズで作成された箱を識別することに関心を有し得る。これらの品物の多くは直方体形状（例えば、それらは箱に入れられて販売されるため）であるが、多くの他の品物（洗濯洗剤のボトル、または園芸用スコップなどのような品物）は不規則な形状を有し得る。輸送コストを削減するために、これらの通販小売業者は、特別な顧客の注文の一部として、輸送されるアイテムを入れる最小サイズで作成された箱を見つけようと所望する可能性がある。

巻尺または定規などのような測定装置を、対象物に対して物理的に設置することにより対象物の寸法を測定するための比較対象としての技術は、一般的に時間がかかり高価である。

本開示の実施形態の態様は、対象物についての部分的視覚情報に基づいて、対象物の寸法および／または体積を自動的に測定または推定するためのシステムと方法に関する。

本発明の１つの実施形態によれば、ぴったり取り囲むバウンディングボックスを推定するための方法は、コンピューティングシステムにより、１つ又は複数の対象物を含むシーンの視覚情報を取り込むための１台以上の深度カメラを含んでいる走査システムを制御することと、コンピューティングシステムにより、視覚情報に基づいて、シーンの１つ又は複数の対象物を検出することと、コンピューティングシステムにより、１つ又は複数の対象物に対応する、１つ又は複数の対象物の対応する１つの部分的三次元モデルを含んでいる、１つ又は複数の三次元モデルを生成するために、シーンのフレームから１つ又は複数の対象物のそれぞれを単一化することと、コンピューティングシステムにより、部分的三次元モデルに基づいて、１つ又は複数の対象物の対応する１つのより完全な三次元モデルを外挿することと、コンピューティングシステムにより、より完全な三次元モデルに基づいて、１つ又は複数の対象物の対応する１つのぴったり取り囲むバウンディングボックスを推定することを含んでいる。

走査システムは、１台以上の深度カメラとは別個の１台以上のカラーカメラを含むことができる。

１台以上の深度カメラは、飛行時間型（ｔｉｍｅ－ｏｆ－ｆｌｉｇｈｔ）深度カメラと、構造化光深度カメラと、少なくとも２台のカラーカメラを含んでいるステレオ深度カメラ、少なくとも２台のカラーカメラとカラープロジェクタを含んでいるステレオ深度カメラ、少なくとも２台の赤外線カメラを含んでいるステレオ深度カメラ、または、カラーカメラ、複数の赤外線カメラ、および複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを含んでいるステレオ深度カメラを含むことができる。

シーンにおける１つ又は複数の対象物を検出することは、視覚情報において、背景および基平面を示すものから１つ又は複数の対象物を切り離すことを含むことができる。

生成された三次元モデルを含んでいるより完全な三次元モデルを外挿することは、入力された部分的三次元モデルに基づいて、生成された三次元モデルを予測するように訓練されている生成モデルに、部分的三次元モデルを供給することを含むことができる。

生成モデルは、条件付き敵対的生成ネットワークを含むことができる。

より完全な三次元モデルを外挿することは、部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、部分的三次元モデルと一致するモデルを、より完全な三次元モデルとして出力することを含むことができる。

一覧表の三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けることができ、三次元モデルの一覧表を検索することは、部分的三次元モデルを、畳み込みニューラルネットワークを含む特徴記述子に供給することにより、部分的三次元モデルの記述子を抽出することと、部分的三次元モデルの記述子と、一覧表の三次元モデルの記述子との間の最も高い類似性に従って、部分的三次元モデルと一致するモデルを識別することを含むことができる。

部分的三次元モデルの記述子を抽出することは、三次元モデルの周りのバウンディングボックスを定義することと、複数のボクセルを計算するために部分的三次元モデルをボクセル化することと、ボクセルを畳み込みニューラルネットワークに供給することを含むことができる。

部分的三次元モデルの記述子を抽出することは、部分的三次元モデルの複数の二次元ビューをレンダリングすることと、複数の二次元ビューを第１段階畳み込みニューラルネットワークに供給することにより、部分的三次元モデルの二次元ビューから特徴ベクトルを抽出することと、記述子を生成するために特徴ベクトルを組み合わせることを含むことができる。

特徴ベクトルは、最大プーリングを使用して組み合わせることができる。

より完全な三次元モデルを外挿することは、一致分類を計算するために部分的三次元モデルを分類することと、一致分類に対するより完全な三次元モデルを生成するための１つ又は複数の発見的方法ルールをロードすることと、１つ又は複数の発見的方法ルールに従って、部分的三次元モデルからより完全な三次元モデルを生成することを含むことができる。

１つ又は複数の発見的方法ルールは、一致分類に基づくより完全な三次元モデルの１つ又は複数の仮定された対称軸、または、一致分類に基づくより完全な三次元モデルの標準全体形状を含むことができる。

１つ又は複数の対象物は複数の対象物を含むことができ、１つ又は複数の対象物のそれぞれを、シーンのフレームから単一化することは、外観に基づくセグメンテーションを視覚情報に適用することにより複数の対象物を単一化することを含むことができる。

１つ又は複数の対象物は複数の対象物を含むことができ、１つ又は複数の対象物のそれぞれを、シーンのフレームから単一化することは、セマンティックセグメンテーションを視覚情報に適用することにより複数の対象物を単一化することを含むことができる。

セマンティックセグメンテーションを適用することは、セグメンテーションマップを計算するために、視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを含むことができ、各部分的三次元モデルは、セグメンテーションマップの１つのセグメントに対応できる。

方法は、ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることも含むことができる。

本発明の１つの実施形態によれば、ぴったり取り囲むバウンディングボックスを推定するためのシステムは、１台以上の深度カメラを含んでいる走査システムと、走査システムを制御するように構成されているプロセッサと、命令を格納しているメモリを含んでおり、命令は、プロセッサにより実行されると、プロセッサに、１つ又は複数の対象物を含むシーンの視覚情報を取り込むように１台以上の深度カメラを制御させ、視覚情報に基づいて、シーンの１つ又は複数の対象物を検出させ、１つ又は複数の対象物に対応する、１つ又は複数の対象物の対応する１つの部分的三次元モデルを含んでいる、１つ又は複数の三次元モデルを生成するために、シーンのフレームから１つ又は複数の対象物のそれぞれを単一化させ、部分的三次元モデルに基づいて、１つ又は複数の対象物の対応する１つのより完全な三次元モデルを外挿させ、より完全な三次元モデルに基づいて、１つ又は複数の対象物の対応する１つのぴったり取り囲むバウンディングボックスを推定させる。

生成された三次元モデルを含んでいるより完全な三次元モデルを外挿させる命令は、プロセッサにより実行されると、プロセッサに、入力された部分的三次元モデルに基づいて、生成された三次元モデルを予測するように訓練されている生成モデルに、部分的三次元モデルを供給させる命令を含むことがでる。

より完全な三次元モデルを外挿させる命令は、プロセッサにより実行されると、プロセッサに、部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、部分的三次元モデルと一致するモデルを、より完全な三次元モデルとして出力させる命令を含むことができる。

特許または出願ファイルは、カラーで作成された少なくとも１つの図面を含んでいる。カラー図面を有しているこの特許または特許出願の刊行物のコピーは、要求および必要な費用の支払いにより米国特許商標庁から提供される。

付随する図面は、明細書と共に、本発明の例としての実施形態を示しており、記述と共に、本発明の原理を説明する役割を果たしている。

本発明の１つの実施形態に係るシステムにおける対象物の測定の模式図である。本発明の１つの実施形態に係るステレオ深度カメラシステムのブロック図である。本発明の１つの実施形態に係る、対象物の寸法を測定するための方法のフローチャートを示す図である。テーブル上の洗濯洗剤のボトルを示しているシーンの深度マップを示す図である。基平面を、仮想カメラの光軸に直交して整列させた、図４Ａにおいて示されている深度マップの直交図である。本発明の１つの実施形態に係る、対象物の垂直方向に投影された点を白で、画像の残りの部分を黒で、対象物の表面の点のすべての垂直投影を含む基平面上の赤い長方形と共に示している図である。図４Ａの深度マップにおいて示されているようなボトルを含むシーンのカラー画像であり、本発明の実施形態に従って計算されたバウンディングボックスが、ボトルのビュー上に重ねられている図である。本発明の１つの実施形態に係る、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するための方法のフローチャートを示す図である。本発明の１つの実施形態に係る、シーンの取り込まれた入力視覚情報の解析を実行し、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するように構成されている解析モジュールのブロック図である。互いに遮蔽していない３つの対象物を含んでいるシーンを示す図である。図７Ａにおいて示されている対象物に対する、計算されたぴったり取り囲むバウンディングボックスを示す図である。複数の対象物が相互の遮蔽を生成または引き起こしている、取得された三次元シーンの例を示す図である。深度マップのレンダリングを示す図であり、対象物が背景から切り離され、走査装置と対象物との間の距離が画素の色で符号化されている（例えば、最も近い画素に対してはうす緑、中間の距離の画素に対しては紫、そして、より遠い画素に対しては橙）。入力画像のセマンティックセグメンテーションを実行するように訓練されている完全畳み込みニューラルネットワーク（ＦＣＮ）の出力を示した図である。対象物の部分的三次元モデルから、完全三次元モデルを外挿するための、本発明の１つの実施形態に係る方法を示しているフローチャートを示す図である。本発明の１つの実施形態に係る、メディア文書が三次元モデルである場合の特徴ベクトルを、三次元モデルをボクセル化することにより計算するための方法を例示しているフローチャートを示す図である。ボクセル化を使用する、ＣＮＮの三次元モデルへの適用を視覚的に示す図である。本発明の１つの実施形態に係る、クエリ（検索が要求されている）対象物の三次元モデルから、クエリ対象物の記述子を計算するための方法のフローチャートを示す図である。本発明の１つの実施形態に係る、畳み込みニューラルネットワークに基づく分類システムのブロック図である。本発明の１つの実施形態に係る最大プーリングの例を示す図である。本発明の１つの実施形態に係る最大プーリングの例を示す図である。

下記の詳細な記述においては、本発明のある例としての実施形態のみが例として示され記述される。当業者であれば認識するように、発明は多くの異なる形状で具現化でき、ここにおいて記述される実施形態に制限されるとは解釈されるべきではない。明細書を通して、類似の参照番号は類似の要素を示している。

本発明の実施形態の態様は、シーンにおける対象物の物理寸法を自動的に推定するためのシステムと方法に関する。本発明の実施形態の幾つかの態様は、物理対象物の「非接触」測定に関し、深度カメラは、対象物の１つ又は複数の深度画像を撮像し、対象物の寸法（例えば、長さ、幅、高さ、および体積）、またはそのバウンディングボックスは、１つ又は複数の深度画像から推定される。

対象物の寸法付けは、対象物の三次元空間的広がりを推定するタスクである。本発明の実施形態の１つの態様は、所与の対象物に対する最小取り囲みバウンディングボックス（ＭＥＢＢ）の推定値を計算することに関する。便宜上、ここにおいて使用されているように、ＭＥＢＢという用語は、ぴったりしているバウンディングボックスを指し示すために使用される。そのような測定を実行するために、１台以上のカメラを含んでいる取得システムを使用できる。深度カメラは、それらの三次元幾何学形状を取得する固有の機能を考慮すると、このタイプのタスクに特に適している。対象物の周りのぴったりしているバウンディングボックスを見出すことによるなどのように、取得システムを使用して、体積測定に関するボックスフィッティングを実行するための技術の例は、２０１９年１月４日に米国特許商標庁において出願された米国特許出願第１６／２４０，６９１号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＶＯＬＵＭＥＴＲＩＣＳＩＺＩＮＧ（体積測定に関するサイジングのためのシステムと方法）」と、２０１８年１月５日に米国特許商標庁において出願された米国暫定特許出願第６２／６１３９５７号において記述されており、それらの開示の全体は、ここにおいて参考により組み込まれる。

対象物のＭＥＢＢの計算は、対象物の完全三次元モデルから相対的に単純であるが、多くの場合においては、対象物に対しては、部分的情報のみしか利用可能でない。（明確性のために、「三次元モデル」という用語は、ここにおいて使用されているように、点群と三次元メッシュを含んでいる）。例えば、目標対象物の形状の正面部分のみの取得が実行された場合、または、目標対象物が、シーンにおける他の対象物により遮蔽されている場合は、対象物の部分的三次元モデルのみしか取得できず（例えば、取得された三次元モデルは、対象物の一部しか含むことができない）、それにより、対象物のＭＥＢＢを推定することを困難にする（例えば、対象物の部分的三次元モデルのＭＥＢＢは、対象物の実際の体積よりも小さく推定される可能性がある）。そのため、本発明の実施形態の態様は、対象物全体の推定体積を計算するために、三次元モデルの欠けている部分の内容を推定するためのシステムと方法に関する。本発明の実施形態の幾つかの態様は、三次元モデルにおいて欠けている部分の推定された、または予測された形状の精度を向上するための対象物識別および分類技術の使用に関する。

図１は、本発明の１つの実施形態に係るシステムにおける対象物の測定の模式図である。図１において示されているように、深度カメラシステム１００は、ここでは、一足の靴の片方である目標対象物１０の画像を撮像する。図１において示されているように、目標の靴１０は、他の対象物１２（この場合は、他方の靴）により部分的に遮蔽されている。本発明の幾つかの実施形態においては、深度カメラシステム１００は、深度カメラシステム１００により取り込まれた測定値を表示するための表示装置１２２を含むことができる。本発明の他の実施形態においては、表示装置１２２は、別個の報告または監視システムの場合などのように、深度カメラシステム１００のカメラとは物理的に別個であってよい。図１において示されているように、表示装置１２２は、目標対象物に対するＭＥＢＢ１２２Ｂの寸法１２２Ｃと共に、目標対象物１０を示すもの１２２Ａの周りの最小取り囲みバウンディングボックス（ＭＥＢＢ）１２２Ｂの外形を表示している。

幾つかの状況においては、システム１００は、対象物１０がその上で静止している電子重量計または電子天秤と通信でき、対象物１０の測定された質量または重量２４０もまた、システム１００のディスプレイ１２２上に示すことができる。幾つかの状況においては、対象物の重量または質量は、事前に測定してメモリ（例えば、データベース）に格納しておくことができ、表示装置１２２上の表示のために検索できる。

本発明の幾つかの実施形態においては、深度カメラシステム１００は、ＲＧＢ－Ｄ（赤、緑、青、および深度）カメラなどのように、色情報（例えば、対象物の表面の色または、その表面の「テクスチャ」についての情報）と幾何学形状情報（例えば、対象物のサイズと形状についての情報）を取得できる。これ以降の開示においては、「ＲＧＢ－Ｄカメラ」という用語は、一般性を失うことなく、色および幾何学形状情報を取得できるそのようなシステムのことを指し示すために使用される。

通常のカメラと同様に、ＲＧＢ－Ｄカメラは、中心光学投影によりシーンの「写真」を撮影する。通常のカメラは、対象物の表面上の任意の可視点から反射された光の色を測定できるだけであるが、ＲＧＢ－Ｄカメラは、表面上の同じ点までの距離（「深度」）もまた測定できる。画素ｐにおける表面の可視点の深度を測定することにより、ＲＧＢ－Ｄカメラは、この点の全三次元位置を計算できる。これは、画素ｐが、表面の点への単一の視線を特徴付け、視線に沿う深度は、視線が表面の点と交差する位置を決定するからである。画素ｐを通しての視線は、標準の手順を使用して較正できる、カメラ固有のパラメータから計算できる。

単一のスナップ写真（例えば、シーンに関してＲＧＢ－Ｄカメラの特別な姿勢から撮像された画像のセット）から、ＲＧＢ－Ｄカメラは、ＲＧＢ－Ｄカメラの二次元カメラのそれぞれにより撮像された個々の画像から生成された視差マップから「深度マップ」（または「点群」）を生成できる。深度マップまたは深度画像は、深度カメラから見ることができるシーンの表面の点の三次元位置（カメラの基準フレームに関して定義できる）のセットを含んでいる。深度マップにおける各画素は、カラーカメラにより特別な画素に対して撮像されたような色（例えば、赤（Ｒ）、緑（Ｇ）、および青（Ｂ）の３つの値で表現される）と関連付けることができる。

本発明の幾つかの実施形態においては、走査システム１００は、手持ち型装置において実現される。本開示においては、「手持ち型装置」という用語は、スマートフォン、タブレットコンピュータ、または、ディスプレイが取り付けられている携帯型バーコードスキャナにサイズと形状が類似している特定目的スキャナ（または、代替的に、ハンドルおよびトリガが取り付けられているスマートフォン）などのように、片手または両手で快適に保持および操作できる装置のことである。

本発明の幾つかの実施形態においては、走査システム１００は、フレームまたは他の支持構造体に強固に搭載され、搬送器のベルト上または走査ステーション（例えば、計量場所）で対象物の画像を取得するために配置されている１台以上の深度カメラであって、その深度カメラにより撮像された画像の処理は、通信ネットワーク（例えば、ローカルエリアネットワーク）上でその深度カメラに接続されているプロセッサとメモリにより実行できる深度カメラなどのような静止装置として実現される。

上記に注記したように、本発明の実施形態の態様は、対象物を入れるバウンディングボックスまたは最小バウンディングボックスの寸法を計算するためのシステムと方法に関する。これは、対象物の荷造りをするために使用できる箱と考えることができ、箱の寸法は、深度カメラシステム１００により得られる対象物の観察から計算される。最小バウンディングボックスの場合、箱の寸法は、対象物の全体を入れるようなバウンディングボックスの体積、面積、または周囲の長さなどのような、ある特別な特性を最小化する。

深度カメラハードウェア

本発明の幾つかの実施形態においては、「深度カメラ」としても知られている距離カメラ１００は、重なる視野を有している少なくとも２台の標準二次元カメラを含んでいる。より詳細には、これらの二次元カメラはそれぞれ、相補型金属酸化膜半導体（ＣＭＯＳ）イメージセンサ、または電荷結合素子（ＣＣＤ）イメージセンサなどのようなデジタルイメージセンサ、および光をイメージセンサ上に焦点を合わせるように構成されている光学システム（例えば、１つ又は複数のレンズ）を含むことができる。二次元カメラの光学システムの光軸は、わずかに異なる視点からであるが、２台のカメラが実質的に同じシーンの画像を取得するように実質的に平行であってよい。従って、視差により、カメラからより遠いシーンの部分は、２台のカメラで撮像された画像においては実質的に同じ場所に現れ、カメラにより近いシーンの部分は、異なる場所に現れる。

幾何学的に較正された深度カメラを使用すると、基準座標系（例えば、その原点を深度カメラの位置に有する座標系）に関して、対象物の表面上のすべての見える点の三次元位置を識別することが可能である。そのため、距離カメラ１００により撮像された距離画像または深度画像は、三次元点の「クラウド（群）」として表現でき、対象物の表面の部分を（深度カメラの視野内の他の表面と共に）記述するために使用できる。

図２は、本発明の１つの実施形態に係るステレオ深度カメラシステムのブロック図である。図２において示されている深度カメラシステム１００は、第１カメラ１０２、第２カメラ１０４、投影源１０６（または、照明源またはアクティブ投影システム）、およびホストプロセッサ１０８とメモリ１１０を含んでおり、ホストプロセッサは、例えば、グラフィックス処理ユニット（ＧＰＵ）、より汎用的なプロセッサ（ＣＰＵ）、適切に構成されたフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または特定用途向け集積回路（ＡＳＩＣ）であってよい。第１カメラ１０２と第２カメラ１０４は、それらの相対的位置と向きが実質的に固定されるように、例えばフレーム上に強固に取り付けることができる。第１カメラ１０２と第２カメラ１０４は、共に「深度カメラ」と称することができる。第１カメラ１０２と第２カメラ１０４は、対応するイメージセンサ１０２ａと１０４ａを含んでおり、対応する画像信号プロセッサ（ＩＳＰ）１０２ｂと１０４ｂもまた含むことができる。種々の構成要素は、システムバス１１２上で互いに通信できる。深度カメラシステム１００は、他の装置と通信するためのネットワークアダプタ１１６、深度カメラ１００の加速度を検出（例えば、向きを決定するために、重力の方向を検出）するためのジャイロスコープなどのような慣性測定ユニット（ＩＭＵ）１１８、および深度カメラシステム１００により収集且つ処理されたデータを格納するためのＮＡＮＤフラッシュメモリなどのような持続性メモリ１２０などのような追加的構成要素を含むことができる。ＩＭＵ１１８は、多くの現代のスマートフォンにおいて一般的に見出されるタイプのものであってよい。画像撮像システムはまた、ユニバーサルシリアルバス（ＵSＢ）インタフェースコントローラなどのような他の通信構成要素も含むことができる。幾つかの実施形態においては、深度カメラシステム１００は更に、表示装置１２２と、１つ又は複数のユーザ入力装置１２４（例えば、表示装置１２２のタッチ感知パネルおよび／または１つ又は複数の物理ボタンまたはトリガ）を含んでいる。

図２において示されているブロック図は、深度カメラ１００を、ホストプロセッサ１０８、メモリ１１０、ネットワークアダプタ１１６、ＩＭＵ１１８、および持続性メモリ１２０に結合されている２台のカメラ１０２と１０４を含んでいるように示しているが、本発明の実施形態はそれに制限されない。例えば、３台の深度カメラ１００がそれぞれ、カメラ１０２と１０４、投影源１０６、および通信構成要素（例えば、ＵＳＢ接続部またはネットワークアダプタ１１６）を単に含むことができ、３台の深度カメラ１００のカメラ１０２と１０４により撮像された二次元画像の処理は、それぞれの通信構成要素またはネットワークアダプタ１１６を使用して深度カメラ１００と通信状態にある共有プロセッサまたは共有されているプロセッサの集合体により実行できる。

幾つかの実施形態においては、カメラ１０２と１０４のイメージセンサ１０２ａと１０４ａは、ＲＧＢ－ＩＲイメージセンサである。可視光（例えば、赤－緑－青、またはＲＧＢ）と不可視光（例えば、赤外線またはＩＲ）情報を検出できるイメージセンサは、例えば、電荷結合素子（ＣＣＤ）または相補型金属酸化膜半導体（ＣＭＯＳ）センサであってよい。一般的に、従来のＲＧＢカメラセンサは、５０％の緑、２５％の赤、そして２５％の青の「ベイヤレイアウト」または「ＧＲＢＧレイアウト」で配置されている画素を含んでいる。帯域通過フィルタ（または「マイクロフィルタ」）が、ベイヤレイアウトに従って、緑、赤、および青の波長のそれぞれに対して、個々のフォトダイオードの前方（例えば、フォトダイオードと、カメラと関連付けられている光学機器との間）に置かれる。一般的には、従来のＲＧＢカメラセンサはまた、電磁スペクトルのＩＲ部分における信号を更に遮断する赤外線（ＩＲ）フィルタまたはＩＲカットオフフィルタ（例えば、レンズの一部として、または、イメージセンサチップ全体上のコーティングとして形成される）も含んでいる。

ＲＧＢ－ＩＲセンサは、従来のＲＧＢセンサに実質的に類似しているが、異なるカラーフィルタを含むことができる。例えば、ＲＧＢ－ＩＲセンサにおいては、４つのフォトダイオードのすべてのグループにおける緑フィルタの１つは、赤外線画素が可視光画素の中に混入されている、２５％の緑、２５％の赤、２５％の青、そして２５％の赤外線であるレイアウトを作成するために、ＩＲ帯域通過フィルタ（またはマイクロフィルタ）と置き換えられている。加えて、ＩＲカットオフフィルタをＲＧＢ－ＩＲセンサから省略することができ、ＩＲカットオフフィルタを、赤、緑、および青の光を検出する画素上のみに位置させることができ、またはＩＲフィルタを、特別な波長区間（例えば、８４０～８６０ｎｍ）における光と共に、可視光を通過させるように設計できる。電磁スペクトル（例えば、赤、青、緑、および赤外線の光）の多数の部分、または帯域、またはスペクトル帯域における光を捕捉できるイメージセンサは、ここにおいては、「マルチチャネルイメージセンサ」と称する。

本発明の幾つかの実施形態においては、イメージセンサ１０２ａと１０４ａは、従来の可視光センサである。本発明の幾つかの実施形態においては、システムは、１台以上の可視光カメラ（例えば、ＲＧＢカメラ）を含んでおり、それとは別個に、１台以上の不可視光カメラ（例えば、赤外線カメラであって、ＩＲ帯域通過フィルタが画素全体上にわたり位置している）を含んでいる。本発明の他の実施形態においては、イメージセンサ１０２ａと１０４ａは赤外線（ＩＲ）光センサである。本発明の幾つかの実施形態においては、イメージセンサ１０２ａと１０４ａは赤外線（ＩＲ）光センサである。幾つかの実施形態（イメージセンサ１０２ａと１０４ａがＩＲセンサであるような実施形態）においては、深度カメラ１００は、カラーイメージセンサ１０５ａ（例えば、ベイヤー配列またはＲＧＢＧ配列で配置されているイメージセンサなどのような、赤、緑、および青の波長における可視光を検出するように構成されているイメージセンサ）と画像信号プロセッサ１０５ｂを含んでいる第３カメラ１０５を含むことができる。

深度カメラ１００がカラーイメージセンサ（例えば、ＲＧＢセンサまたはＲＧＢ－ＩＲセンサ）を含んでいる幾つかの実施形態においては、深度カメラ１００により収集されたカラー画像データは、カラーカメラ１５０により取り込まれたカラー画像データを補完できる。加えて、深度カメラ１００がカラーイメージセンサ（例えば、ＲＧＢセンサまたはＲＧＢ－ＩＲセンサ）を含んでいる幾つかの実施形態においては、カラーカメラ１５０をシステムから省略できる。

一般的に言えば、ステレオ深度カメラシステムは、互いに間隔を空けて配置され、剛性フレームなどのような共有構造体に強固に搭載されている少なくとも２台のカメラを含んでいる。カメラは実質的に同じ方向（例えば、カメラの光軸は実質的に平行であってよい）を向いており、重なる視野を有している。これらの個々のカメラは、例えば、光をイメージセンサに向ける、またはそこに焦点を合わせるように構成されている光学システム（例えば、１つ又は複数のレンズを含んでいる）を有する相補型金属酸化膜半導体（ＣＭＯＳ）または電荷結合素子（ＣＣＤ）イメージセンサを使用して実現できる。光学システムは、例えば、光学システムが「広角レンズ」または「望遠レンズ」またはその間のレンズとして実現されているかどうかに基づいて、カメラの視野を決定できる。

下記の検討においては、深度カメラシステムの画像取得システムは、「マスタ」カメラと１台以上の「スレーブ」カメラと称することができる少なくとも2台のカメラを有していると称することができる。一般的に言えば、推定された深度または視差マップはマスタカメラの視点から計算されるが、何れのカメラもマスタカメラとして使用できる。ここにおいて使用されているように、マスタ／スレーブ、左／右、上方／下方、第１／第２、およびＣＡＭ１／ＣＡＭ２などのような用語は、注記しない限り、交換可能に使用される。言い換えれば、何れのカメラもマスタまたはスレーブカメラであることができ、右側のカメラに関してその左側にあるカメラに対する考察はまた、対称性により、他の方向においても適用できる。加えて、下記に提示される考察は、種々の数のカメラに対して有効であるが、便宜上、それらは、２台のカメラを含んでいるシステムの環境において一般的に記述される。例えば、深度カメラシステムは、３台のカメラを含むことができる。そのようなシステムにおいては、カメラの内の２台は不可視光（赤外線）カメラであってよく、３番目のカメラは可視光カメラ（例えば、赤／青／緑のカラーカメラ）であってよい。３台のカメラはすべて互いに対して光学的に位置合わせ（例えば、較正）できる。３台のカメラを含む深度カメラシステムの１つの例は、２０１６年５月５日に米国特許商標庁において出願された米国特許出願第１５／１４７，８７９号の「ＤｅｐｔｈＰｅｒｃｅｐｔｉｖｅＴｒｉｎｏｃｕｌａｒＣａｍｅｒａＳｙｓｔｅｍ（深度知覚三眼顕微鏡カメラシステム）」において記述されており、その開示の全体は、ここにおいて参照により組み込まれる。そのような３台のカメラシステムはまた、赤外線カメラにより検出可能な波長区間（例えば、８４０～８６０ｎｍ）における光を出射するように構成されている赤外線照明機も含むことができる。

カメラにより画像が取得されたシーンにおける特徴の深度を検出するために、深度カメラシステムは、カメラにより撮像された画像にそれぞれにおける特徴の画素位置を決定する。２つの画像における特徴間の距離は視差と称され、それは対象物の距離または深度と反比例関係にある。（これは、対象物を一度に片目で見るときに、対象物がどのくらい「シフト」するかを比較するときの現象であり、シフトの大きさは、対象物がそれを見る人の目からどのくらい遠くにあるかに依存し、より近い対象物はより大きくシフトし、より遠い対象物はより小さくシフトし、遠くにある対象物は、検出可能なシフトがほとんどないかまったくない）。視差を使用して深度を計算するための技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉ．の「ＣｏｍｐｕｔｅｒＶｉｓｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（コンピュータビジョン：アルゴリズムと適用）」，Ｓｐｒｉｎｇｅｒ，２０１０ｐｐ．４６７（以下参照）において記述されている。

マスタとスレーブカメラとの間の視差の大きさは、カメラの画素解像度、カメラ間の距離、およびカメラの視野などのような深度カメラシステムの物理特性に依存する。従って、精度の良い深度測定値を生成するために、深度カメラシステム（または深度知覚深度カメラシステム）は、これらの物理特性に基づいて較正される。

幾つかの深度カメラシステムにおいては、カメラを、カメラのイメージセンサの画素の水平方向の列が実質的に平行になるように配置できる。画像修正技術を、カメラのレンズの形状およびカメラの向きのばらつきによる画像の歪みを吸収するために使用できる。

より詳細には、カメラ較正情報は、等価カメラシステムのエピポーラ線が、修正された画像の走査線と整列するように入力画像を修正するための情報を提供できる。そのような場合においては、シーンにおける三次元点は、マスタおよびスレーブ画像における同じ走査線指標上に投影される。ｕ_ｍとｕ_ｓを、マスタおよびスレーブ等価カメラそれぞれにおける同じ三次元点ｐの画像の走査線上の座標とし、各カメラにおいては、これらの座標は、主要点（光軸と焦点面が交差する点）に中心が置かれた軸システムを指し示しており、水平軸は、修正された画像の走査線に平行であるとする。差ｕ_ｓ－ｕ_ｍは視差と呼ばれ、ｄで示され、それは、修正されたカメラに関する三次元点の直交距離（つまり、点の、何れかのカメラの光軸上への直交投影の長さ）に反比例する。

ステレオアルゴリズムは、視差のこの特質を利用する。これらのアルゴリズムは、左および右側のビューにおいて検出された点（または特徴）をマッチングすることにより三次元再構成を達成し、それは、視差を推定することと等価である。ブロックマッチング（ＢＭ）は、通常使用されるステレオアルゴリズムである。マスタカメラ画像における画素が与えられると、アルゴリズムは、この画素を、スレーブカメラ画像における任意の他の画素とマッチングさせるためのコストを計算する。このコスト関数は、マスタ画像における画素とスレーブ画像における画素を取り囲む小さなウィンドウ内の画像の内容間の非類似性として定義される。点における最適視差は、最終的には最小マッチングコストの引数として推定される。この手順は、普通は、ウィナー・テイクス・オール（Ｗｉｎｎｅｒ－Ｔａｋｅｓ－Ａｌｌ（ＷＴＡ））として対処される。これらの技術は、例えば、Ｒ．Ｓｚｅｌｉｓｋｉ．の「ＣｏｍｐｕｔｅｒＶｉｓｏｎ：ＡｌｇｏｒｉｔｈｍｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ（コンピュータビジョン：アルゴリズムと適用）」，Ｓｐｒｉｎｇｅｒ，２０１０．おいてより詳細に記述されている。ＢＭのようなステレオアルゴリズムは、外観の類似性に依存しているので、スレーブ画像における２つ以上の画素が同じ局所的外観を有していると、これらの画素はすべてマスタ画像における同じ画素に類似する可能性があり、不明瞭な視差推定という結果になるので、視差の計算は難しくなる。これが起こり得る典型的な状況は、平坦な壁などのような、一定の明るさを有するシーンを視覚化するときである。

その開示の全体が、ここにおいて参照により組み込まれる、２０１６年７月１２日に発行された米国特許第９，３９２，２６２号の「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒ３－ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎＵｓｉｎｇＭｕｌｔｉｐｌｅＭｕｌｔｉ-ＣｈａｎｎｅｌＣａｍｅｒａｓ（多数のマルチチャネルカメラを使用する三次元再構築のためのシステムと方法）」に記述されているような、小さな三次元詳細を捕捉できるブロックマッチングアルゴリズムの性能を向上または最適化するために設計されているパターンを投影することにより追加的照明を提供する方法が存在する。他のアプローチは、シーンに対してテクスチャを提供し、特には、そうでなければ同じに見えるシーンの部分を明確にすることによりテクスチャのない領域の深度推定を向上するために単に使用されるパターンを投影する。

本発明の実施形態に係る投影源１０６は、可視光（例えば、人間および／または他の動物に見えるスペクトル内の光）または不可視光（例えば、赤外線光）を、カメラ１０２と１０４によりその画像が取得されるシーンに向けて出射するように構成できる。言い換えると、投影源は、カメラ１０２と１０４の光軸と実質的に平行な光軸を有することができ、カメラ１０２と１０４の視野の方向に光を出射するように構成できる。このように、２台のカメラ１０２と１０４が、投影源１０６と共に配置されている配置は、「アクティブステレオ」と称せられることがある。幾つかの実施形態においては、投影源１０６は、多数の別個の照明機を含むことができ、それぞれは、他の照明機（または複数の照明機）の光軸（または複数の光軸）から間隔をおいて配置され、およびカメラ１０２と１０４の光軸から間隔をおいて配置されている光軸を有している。

可視光投影源は、被写体の目の中に入り込んで、不快感を与えるように照らす可能性があり、または、シーンにパターンを追加することにより被写体の体験に望ましくない影響を与える可能性があるが、不可視光は、被写体の見る能力に干渉することはないので、不可視光投影源は、被写体が人間である状況（テレビ会議などのような）に対しては、より良好に適切であり得る。不可視光投影源を含んでいるシステムの例は、例えば、２０１５年６月３０日に米国特許商標庁において出願された米国特許出願第１４／７８８，０７８号の「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＭｕｌｔｉ－ＣｈａｎｎｅｌＩｍａｇｉｎｇＢａｓｅｄｏｎＭｕｌｔｉｐｌｅＥｘｐｏｓｅＳｅｔｔｉｇｓ（多数の露光環境に基づくマルチチャネル画像取得のためのシステムと方法）」に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

アクティブ投影源はまた、例えば、時間の経過と共に変化しないパターンである静的パターン、および、例えば、時間の経過と共に変化するパターンである動的パターンを投影するものとして分類できる。両者の場合においては、パターンの１つの態様は、投影されたパターンの照明レベルである。これは、深度カメラシステムの深度ダイナミックレンジに影響を与え得るので適切であり得る。例えば、光学的照明が高いレベルの場合、深度測定を遠くの対象物に対して実行でき（例えば、距離の二乗に反比例する係数で、対象物までの距離に対して光学的照明が減少していくことを克服して）、および明るい周囲の光の条件において実行できる。しかし、高い光学的照明レベルは、クローズアップされたシーンの部分の飽和を引き起こし得る。一方、低い光学的照明レベルは、近くの対象物の測定を可能にできるが、遠くの対象物に対しては測定を可能にできない。

深度を計算するために使用される機構（アクティブ照明機のある、またはない三角測量、または飛行時間型）、シーンの幾何学形状（各表面要素と、関連付けられている視線との間の角度などのような、または、ステレオシステムにおける各センサからのビューを遮る可能性のある部分的遮蔽の存在）、および表面の反射特性（ステレオマッチングを妨害する、または、光をプロジェクタから離れるように反射する可能性のある鏡面構成要素の存在、または表面により反射される光を不十分にする非常に低いアルベド（反射能）などのような）を含む多数の要因により、ある領域においては深度計算が失敗する可能性がある。深度計算が失敗する、または信頼性がない深度画像のそれらの画素に対しては、色情報のみが利用可能である。

本発明の実施形態は、ステレオ深度カメラシステムに関してここにおいて記述されているが、本発明の実施形態は、それに制限されず、構造化光深度カメラ、飛行時間型カメラ、およびライダーカメラなどのような他の深度カメラシステムと共に使用することもできる。

カメラの選択により、三次元モデルを生成するために、異なる技術を使用できる。例えば、ＤｅｎｓｅＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｉｎＲｅａｌＴｉｍｅ（ＤＴＡＭ）（リアルタイムの稠密追尾と環境地図作成）は、走査のためにカラーキューを使用し、ＳｉｍｕｌｔａｎｅｏｕｓＬｏｃａｌｉｚａｔｉｏｎａｎｄＭａｐｐｉｎｇ（ＳＬＡＭ）（自己位置推定と環境地図作成の同時実行）は、三次元モデルを生成するために深度データ（または、深度とカラーデータの組み合わせ）を使用する。

対象物に対する最小取り囲みバウンディングボックス（ＭＥＢＢ）の計算

対象物がテーブルの上に静止しており、他の対象物により遮蔽されていな単純な場合においては、２０１９年１月４日に米国特許商標庁において出願された米国特許出願第１６／２４０，６９１号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＶＯＬＵＭＥＴＲＩＣＳＩＺＩＮＧ（体積測定に関するサイジングのためのシステムと方法）」（参照により組み込まれる）に記述されているアプローチを、対象物の体積を計算するために適用できる。この技術の態様は、下記において大要を記述する。

本発明の幾つかの実施形態の態様は、測定される対象物または箱は地面の上に置かれ、それ自体が地面上にある１つの面を有している（例えば、地面と平行で、地面と接触している１つの面を有している）取り囲み直方体（例えば、矩形柱）のサイズを決定するということを仮定している。ほとんどの現実的なシナリオにおいては、この仮定は特別に制限的ではなく、その理由は、一般的に言えば、箱はその１つの面を下にして置かれているときは、その縁部または隅部の１つの上に置かれているときとは反対により安定しており、対象物（例えば、テレビとコンピュータディスプレイ、液体の容器など）は、箱に荷造りされるときに対象物の向きに対応する１つ又は複数の自然な向きを有している可能性があるからである。従って、実際に遭遇する箱と対象物の大半は、１つの面が地面に向いており、そうでない場合は、１つの面を地面上に置くように操作できる。

便宜上、対象物が置かれる表面は、ここでは「地面」または「基平面」と称され、特別な環境における、水平面の特別な実際の高さに制限されない。例えば、本発明の実施形態は、対象物または箱が、テーブル、高い所にある重量計、トラックの荷台などのような高さのある水平面上に置かれている状況においても等しく適用可能である。更に、本発明の実施形態は、地面または基平面が完全に水平（つまり、重力方向に垂直）であることを要求せず、地面または基平面が水平面に関してわずかに傾いている状況においても適用可能である。

１つの面が地面上にある取り囲み箱を計算するだけにすることで、本発明の実施形態は、比較対象の技術に対して計算の速度を大幅に上げる。これは、本発明の実施形態が、対象物の寸法の迅速な測定（例えば、分のオーダーではなく、秒以下のオーダーで）を提供することを可能にし、それにより、倉庫または出荷センターなどのような動的作業環境において容易な有用性を提供する。

加えて、幾つかの比較対象の技術は、表面の点の色を参照しないで三次元データ（例えば、計算された点群）を考慮する。対照的に、本発明の実施形態の態様は、深度情報に加えて色情報の使用に関する。色情報は、深度が対象物の表面全体で信頼性を有して計算できない状況においては有用である。

本発明の実施形態の態様は、２つの異なる変形例、ここにおいては、ＲＧＢ－Ｄカメラから見える対象物を取り囲む箱の寸法を計算するための「モジュール」と称されるものに関して下記に記述される。第１モジュールは、一般的な対象物（例えば、対象物の形状についての仮定を設けない対象物）に対して動作する。第２モジュールは、直方体（例えば、箱）形状を有する対象物に特化している。両方のモジュールは、ＲＧＢ－Ｄカメラで画像が取得された対象物を取り囲む、地面上にあるぴったり（例えば、最小）の箱のパラメータ（例えば、長さ、幅、および高さ）を返す。

対象物は、典型的には、特定の表面の色（例えば、対象物の表面の異なる部分における異なる色）と幾何学形状（これらは、場所および材料における折りたたみの深度に基づく、ソフトハンドバッグまたはダッフルバッグの表面の形状におけるばらつきなどのような、同じ対象物の異なるものの間のばらつきの影響を受ける可能性があるが）の両者により特徴付けることができる。このタイプの情報は、下記により詳細に記述するように、対象物自身のサイズと寸法を推定するために使用できる。

対象物の色と幾何学形状は、上記のように、深度カメラシステム１００のＲＧＢ－Ｄカメラなどのような、特殊化されたハードウェアを使用して得ることができる。幾つかの実施形態に係るＲＧＢ－Ｄカメラは、１台以上のカラーカメラ（例えば、カラーカメラ１０５）を含んでおり、この１台以上のカラーカメラは、１台以上のカメラにより、および１台以上の深度カメラ（例えば、カメラ１０２と１０４）により画像が取得されたシーンの色情報を取得し、１台以上の深度カメラは、幾何学形状情報を取得する（例えば、赤外線光を使用して取得する）。幾つかの実施形態においては、ＲＧＢ－Ｄカメラは、１台以上のカラーカメラと１台以上の赤外線（ＩＲ）カメラを含んでおり、それらは、ＩＲ構造化光照明機（例えば、投影源１０６）と結合されて、深度カメラを構成する。２台のＩＲカメラとＩＲ構造化光照明機がある場合はアクティブステレオを呼ばれる。

カラーカメラと深度カメラは同期でき且つ幾何学的に較正でき、それにより、幾何学的に整列できるカラー画像と、対応する深度マップ（例えば、深度マップの各画素または位置は、カラー画像からの対応する色と相関付けることができ、それによりシーンの表面の色を撮像することを可能にする）により構成されるフレームのシーケンスを撮像することを可能にする。深度マップと、深度マップとほぼ同時に撮像されたカラー画像の組み合わせは、データの「フレーム」と称することができる。この場合、深度マップ（または深度画像）を有するカラー画像はＲＧＢ－Ｄフレームと呼ぶことができ、それは、単一のカメラで、単一のシャッターで、および単一の有利な視点から取得されたかのように（個々のカメラ１０２、１０４、および１０５は、わずかに異なる位置に物理的に位置されているが）、色（ＲＧＢ）および深度（Ｄ）情報の両者を含んでいる。

上記に注記したように、深度カメラシステム１００は慣性測定ユニット（ＩＭＵ）１１８を含むことができ、ＩＭＵ１１８は、ソフトウェアレベルまたはハードウェアレベルの何れかでＲＧＢ－Ｄカメラと同期させられ、それらの相対的空間位置に関して、ＲＧＢ－Ｄカメラと随意的に較正できる加速度計（例えば、３軸加速度計）を含んでいる（例えば、ＩＭＵ１１８は、カメラ１０２、１０４、および１０５に強固に接続できる）。従って、ＩＭＵ１１８は、深度カメラシステム１００の加速度および／または向きについての情報を提供でき、それにより、撮像された深度フレームに対する深度カメラシステム１００の向きについての情報を提供できる。例えば、ＩＭＵ１１８は、撮像された深度フレームにおいて何れの方向が「下向き」（重力の方向）であるかを識別するために使用できる。

本発明の実施形態に係る種々の動作は、下記により詳細に検討されるように、深度カメラシステム１００により撮像された深度フレームを受信するように構成されている１つ又は複数のコンピューティング装置を使用して実行できる。幾つかの実施形態においては、すべての動作は、単一のコンピューティング装置（例えば、深度カメラシステム１００のホストプロセッサ１０８とメモリ１１０）において実行される。本発明の他の実施形態においては、深度カメラシステムからの計算されたＲＧＢ－Ｄフレームは、別個のコンピューティング装置のプロセッサとメモリにより、または、深度カメラシステムに物理的に結合されている別個のプロセッサとメモリにより解析される。加えて、種々の動作は、データをメモリ（例えば、ダイナミックメモリおよび／またはスタティックメモリ）に格納でき、入出力（Ｉ／Ｏ）インタフェース（例えば、ユニバーサルシリアルバスまたはシリアルＵＳＢ）およびネットワーキングインタフェース（例えば、ＩＥＥＥ８０２．１１ｂ／ｇ／ｎ／ａｃＷｉＦiなどのような無線ローカルエリアネットワーク、ＩＥＥＥ８０２．３Ｅｔｈｅｒｎｅｔ（登録商標）、３Ｇ／４Ｇセルラー接続、およびＢｌｕｅｔｏｏｔｈ（登録商標）（ブルートゥース（登録商標））などのような有線ローカルエリアネットワーク）を通して、本発明の実施形態に従って、体積測定に関するボックスフィッティングを実行するために命令のセットを実行するためにデータを受信および送信できる、汎用中央演算処理装置（ＣＰＵ）、グラフィカル処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）および／または特定用途向け集積回路（ＡＳＩＣ）などのような汎用または特定目的処理ユニットの１つ以上を使用して実現できる。

発明の幾つかの実施形態においては、他のセンサは、Ｉ／Ｏまたはネットワーキングインタフェースを通してコンピューティング装置に接続されている。例えば、電子重量計は、対象物の重量の測定値を提供でき、バーコード復号システムは、対象物についてのメタデータが、データベースまたは他のデータ格納装置から検索されることを可能にするために、対象物の識別子（例えば、ユニバーサルプロダクトコード（商品識別コード）またはＵＰＣ）を提供できる。幾つかの実施形態においては、バーコード復号システムは、深度カメラシステムのカラーカメラにより撮像されたバーコードの画像を使用できる（例えば、カラー画像の部分に現れるバーコードに画像修正を適用する）。

上記に注記したように、本発明の実施形態の幾つかの態様は、対象物（例えば、任意の対象物）のバウンディングボックスを計算することに関する。図３は、本発明の１つの実施形態に係る、対象物の寸法を測定するための方法のフローチャートである。

本発明の幾つかの実施形態においては、プロセスは、対象物を含んでいるシーンの深度マップから開始し、対象物をシーンから分離３１０することに進み、対象物が位置している基平面を検出３３０し、基平面上に投影された対象物の長方形の外形を検出３５０し、基平面からの対象物の高さを計算３７０し、対象物を取り囲むバウンディングボックスの計算された寸法を出力３９０する。シーンの深度マップは、上述したように、深度カメラシステム１００（例えば、ＲＧＢ－Ｄカメラ）を使用して撮像できる。上記に注記したように、便宜上、ここにおいて動作は、深度カメラシステム１００のホストプロセッサ１０８により実行されるものとして記述されるが、本発明の実施形態はそれに制限されず、幾つかの実施形態においては、種々の動作を、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、および／またはＡＳＩＣなどのような１つ又は複数の他のコンピューティング装置により実行でき、ここにおいて、１つ又は複数の他のコンピューティング装置は、深度カメラシステム１００と同じ物理装置に統合でき（例えば、同じ筐体に収容できる、および／または、同じ回路基板上に位置させることができ）、および／または、深度カメラシステム１００から切り離すことができる（例えば、Ｉ／Ｏインタフェースおよび／またはネットワークインタフェース１１６の１つ以上を通して深度カメラシステムと通信状態にある）。

動作３１０において、プロセッサ１０８は、対象物をシーンから分離する。幾つかの実施形態においては、対象物は、シーンにおける他の対象物から切り離されるまたは「分離される」（例えば、クラッタ１２に対応する画素は、下記の動作においては無視できる、または、撮像された深度マップから消去できる）。対象物は地面（または水平な表面）１４上に位置することができる。

本発明の幾つかの実施形態によれば、対象物１０に対応する三次元モデル（例えば、ＲＧＢ－Ｄフレームの画素、または、点群の点）の部分は、点群の点（または三次元モデルの頂点）、または、深度カメラシステムの視点に最も近いＲＧＢ－Ｄフレームの画素を選択することにより識別される（幾つかの実施形態においては、この決定もまた、画像の端部における近くのクラッタを除去するために、点が画像の中心にどのくらい近いかに応じて重み付けすることができる）。これは、注目対象物１０は、一般的には、カメラに最も近いシーン（例えば、前景）における対象物であるという仮定に基づいている。本発明の幾つかの実施形態においては、網線２５０（または十字線）をビューの中に表示することができ、十字線の下の画素は、注目対象物１０に対応する初期点として選択される。網線２５０は、システムの発見的方法に頼るのではなく、ビューの何れの特別な部分が注目対象物１０に対応するかを特定するための視覚キューをユーザに提供することによりシステムの有用性を向上できる。

注目対象物１０の初期点または画素が選択されると、本発明の幾つかの実施形態においては、シーンにおいて見える対象物の残りの部分を選択するために、「フラッドフィル（塗りつぶし）」動作を実行できる。これは、二次元グラフィックスにおけるフラッドフィル動作に類似しており、初期画素を選択でき、色空間における閾値距離内の隣接する画素（例えば、類似の色の画素）は、選択された画素のセットに追加され、プロセスは、それ以上の画素を選択に追加できなくなるまで、その条件を満たす隣接画素を反復して追加する。

より詳細には、本発明の１つの実施形態においては、三次元フラッドフィル動作は、対象物の初期点を識別することで開始し、そして、三次元空間において、現在選択されている画素と「連続的」であり、隣接していると考えられる十分に近い画素を追加する。例えば、図１を参照すると、箱の隅は、カメラに最も近いこと、および画像の中心に最も近いことを考慮すると、対象物の初期点として識別できる。カメラに最も近い箱の隅に近い点または画素は、箱の隅に対応する点に近い（そして、その点と「連続的」であると考えられる）。同様に、箱の上部、前面、および側面に沿う画素は、シーンにおけるそれらの隣接する画素と「連続的」で近いと考えられる。一方、箱１０の背後のクラッタ１２の点の三次元位置は、箱１０の上面からクラッタ１２の表面へ遷移するときに範囲（例えば、深度カメラシステム１００からの距離）において大きな変化があるので、箱の上面と「不連続的」である。

図４Ａは、テーブル上の洗濯洗剤のボトルを示しているシーンの深度マップを示したものである。深度マップにおいては、青の画素は、より長い距離を表わしており、緑と黄色の画素は、中間の距離を表わしており、そして赤の画素は、より短い距離を示している。図４Ａに示されているボトルは、赤のボトルの縁部と、黄色および緑の隣接画素（テーブルに対応している）との間の不連続性に基づいて背景から分離できる。

動作３３０においては、プロセッサ１０８は、シーンの基平面を検出する。上記で検討したように、基平面は、注目対象物１０が地面１４に位置しているシーンのほぼ平坦な表面と仮定されている。

ここにおいて記述される方法の正確さは、精度のよい基平面の計算に依存している。幾つかの実施形態においては、ランダムサンプルコンセンサス（ＲＡＮＳＡＣ）などのような方法を、ほとんどの観測（この場合は、ＲＧＢ－Ｄカメラで測定された三次元点）と整合するモデル（この場合は、平坦モデル）を計算するために使用される。本発明の幾つかの実施形態においては、基平面を計算することは、深度カメラシステム１００の３軸加速度計（または、ＩＭＵ１１８）であって、深度カメラシステム１００と幾何学的に較正されている３軸加速度計（または、ＩＭＵ１１８）からのデータを使用する。ＩＭＵ１１８が静止姿勢に保たれると、ＩＭＵ１１８は、重力ベクトルの方向（基平面に直交する方向）を表わす３つの数の組を生成する。これは、基平面の向きを自動的に決定する。そして、基平面の実際の位置は、撮像された三次元深度マップから推定できる。例えば、幾つかの実施形態においては、プロセッサは、深度カメラシステム１００から測定されたすべての三次元点が、選択された最も近い平面の上方となるように、ＩＭＵ１１８により決定された基平面の予期される向きと整合するカメラに最も近い平面を選択するように制御される。

本発明の実施形態の幾つかの態様においては、基平面に対応するシーンの点または画素は、対象物に対応する画素を下方向に追従し（例えば、ＩＭＵ１１８により検出された「下」方向に基づいて）、閾値以内で同じ高さにある（例えば、対象物１０の底面の周りの画素上の点に対応する平面に沿っている）画素のすべてを識別することにより検出できる。

幾つかの状況においては、センサノイズは、基平面の検出された位置を信頼できないものにする可能性があり、ノイズの影響は、走査装置１００からの距離に基づいて増大する。従って、動作３３０において、基平面のより遠い部分に対するセンサデータに頼るのではなく、仮想基平面が、走査装置に近い基平面の部分を検出し、基平面の検出された近い部分を後方に延長することにより計算される。仮想基平面を計算するための技術は、２０１９年１月４日に米国特許商標庁において出願された米国特許出願第１６／２４０，６９１号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＶＯＬＵＭＥＴＲＩＣＳＩＺＩＮＧ（体積測定に関するサイジングのためのシステムと方法）」においてより詳細に記述されている（この出願は参照により組み込まれる）。

動作３５０において、プロセッサは、基平面上の対象物の長方形の外形を検出する。

図４Ｂは、図４Ａにおいて示されている深度マップの直交図であり、基平面は、仮想カメラの光軸に直交して整列されている。より明るい赤の大きな領域は、図４Ａにおける深度カメラシステム１００から見えた基平面の部分を表わしている。図４Ｂのより暗い赤の部分は、深度マップが撮像されたときにボトルにより遮蔽された基平面の部分に対応している。図４Ｂの中心に近い深度マップのより明るい色の部分は、ボトルに対応しており（これらの部分は、特別な直交図が、基平面の「下」から取られるので、黄色と青で示されている）、これらのより明るい色の部分は、仮想基平面上への対象物１０の点の投影を表わしている。このプロセスは、対象物１０に対応する深度マップの点のすべてを、基平面まで「スマッシュする（すべての点を一様に基平面上の点とすること）」ことと等価である（例えば、基平面が、ゼロ（０）のｙ座標において、三次元モデルのｘ－ｚ軸に沿って延伸していると仮定すると、これは、対象物１０の点のすべてのｙ座標をゼロ（０）に設定することと等価である）。

これは、基平面に固定されたフレームを基準にして定義される２次元点のセットという結果となる。箱の点を、その表面を地面に向けて（そして、そのため基平面に対して平行に）投影すると、長方形のトレースが生成される（同様に、底面の１つの上に立っている任意の直角柱の投影は、その底面のような形状のトレースを生成する）。箱が対象物１０を取り囲んでいると、その垂直方向に投影された点の範囲の境界を決める直方体のトレースはまた、対象物の表面の点の垂直投影のすべても含むことになる。図４Ｃは、対象物１０の垂直方向に投影された点を白で、対象物１０の実際の（グラウンドトゥルース）位置を緑で、そして、画像の残りの部分を黒で示しており、本発明の１つの実施形態に係る、対象物の検出された表面の点すべての垂直方向の投影を含む基平面上の赤い長方形と、対象物の実際の表面の点のすべての垂直方向の投影を含む基平面上の黄色の点線の長方形と共に示している。

幾つかの状況においては、対象物１０と基平面１４に加えて、シーンにおける他の表面（例えば、クラッタ１２の部分からの表面）は、深度カメラシステム１００により見ることができ、これらの点は、取り囲み箱の計算において不正確に考慮される可能性がある。これらの発生のリスクを削減するために、幾つかの実施形態においては、プロセッサは、基平面上で定義されたグラフの接続された構成要素を計算し、シーンにおける表面の測定された三次元点の垂直方向の投影は、対象物の表面も含めて、グラフの頂点を形成し、そのような頂点の２つは、その間の距離が閾値よりも短い場合は縁部で接続される。投影点の接続された構成要素が計算されると、幾つかの実施形態は、例えば、注目対象物は、他の見える表面よりも画像においてより大きな部分を占めるという仮定に基づいて、最も大きい接続された構成要素を保持し、それにより、シーンにおいてクラッタ１２から対象物１０を分離するための代替の、および／または、追加的な技術を提供する（例えば、動作３１０において実行される分離に加えて）。

そのため、対象物に対する取り囲み箱は、対象物の表面の点のすべての垂直方向の投影を含む基平面１４上の長方形を決定し、その長方形を、対象物の上部に垂直に拡張することにより決定できる。本発明の幾つかの実施形態においては、取り囲み箱は、最小体積の取り囲み箱または最小バウンディングボックスであり、言い換えると、対象物のすべての点を取り囲む最小の箱であり、ここにおいて「最小」とは、特別な適用必要条件に従って、箱の体積、面積、または周囲の長さのことを指し示すことができる（例えば、消費される荷造り材料の量を削減するために面積を最小にすること、または、対象物を格納または輸送するために使用される空間の量を削減するために体積を最小にすること）。

１つの実施形態によれば、最小体積の取り囲み箱は、まず、動作３５０において、仮想基平面上に投影された対象物１０の点を取り囲む、最小面積の長方形を決定することにより計算できる。幾つかの実施形態においては、二次元回転キャリパアプローチが、線形時間において最小面積の長方形を計算するために使用される。プロセッサは、動作３７０において、この箱の高さを、対象物の任意の表面の点の、仮想基平面への最大距離と等しいものとして決定する。最小面積の長方形は、標準回転キャリパ方法を使用して、取り囲まれている点の数に対して線形な時間において計算できるということに留意されたい。最小表面の取り囲み箱を、基平面上の最小周囲の取り囲み長方形を見出すことにより（再び線形時間において）計算することもできる。従って、本発明の実施形態の態様は、上記の比較対象の技術の立体時間とは対照的に、点の数に関して線形時間で、対象物の三次元バウンディングボックスを計算でき、それにより、より迅速な応答も可能にする（例えば、三次元バウンディングボックスのリアルタイム、または実質的にリアルタイムの計算）。

従って、対象物１０を取り囲む箱の寸法は、最小面積の長方形からのその長さと幅を含めて、動作３５０において計算され、高さは、動作３７０において計算される。動作３９０において、プロセッサは、例えば、図１において寸法２３０として示されているように、そして、図１において示されているように、シーンのカラー画像ビューに重ねられているバウンディングボックスの外形２２０として、計算された寸法を出力する。計算されたバウンディングボックスの寸法の出力の他の例として、図４Ｄは、ボトルのビュー上に重ねられた、本発明の実施形態に従って計算されたバウンディングボックスを有している、図４Ａの深度マップにおいて示されているシーンのカラー画像である。

シーンにおける対象物の部分の撮像

図３、４Ａ、４Ｂ、４Ｃ、および４Ｄに関して上記に記述したアプローチは単純であるが、それは、欠けている情報がある状況と、目標対象物の部分的な遮蔽を考慮していない。図４Ａ、４Ｂ、４Ｃ、および４Ｄにおいて分かるように、深度マップは、対象物の見える部分（例えば、ボトルの前面）に関してのみ情報を取得でき、一方、対象物の背後についての情報はない。従って、シーンの生成された上面図上の長方形を適合するときに（図４Ｂ、４Ｃ参照）、対象物の検出された表面の点に適合される赤い長方形を、対象物の実際の表面の点に適合されるより大きな黄色の点線の長方形と比較すると、上記の図４Ｃにおいて示されているように、長方形を、対象物全体に実際に適合することに失敗する可能性がある。

上記のように、この問題は、単一の深度（例えば、ＲＧＢ－Ｄ）カメラにより取得された単一の対象物の場合に存在するが、目標対象物の背後の表面の単なる自己遮蔽ではなく、相互遮蔽もまたあり得るので、これは同じシーンにおいて同じ時間に取得された多数の対象物の場合にも当てはまる。

本発明の実施形態の幾つかの態様は、多数の視点から視覚情報を取得することにより、自己遮蔽問題に対処することに関するが、この動作は、システムを複雑にする可能性があり（例えば、多数の較正されたカメラを使用することで）、または、処理を複雑にする可能性がある（例えば、単一の深度カメラは、深度カメラを掃引または左右に動かすことなどにより、異なる時間において異なる視点からの対象物を取得でき、そして、取り込まれた視覚情報を集積できる）。

本発明の実施形態の幾つかの態様は、視覚情報が取得されていない対象物の部分の幾何学的分布を外挿するために、情報のより高いレベルを使用することにより対象物の寸法を推定することに関する。１つの例として、図４Ａ、４Ｂ、４Ｃ、および４Ｄにおいて示されているボトルの寸法を推定する場合、対象物をボトルとして分類するために、機械学習対象物分類技術を使用でき、ボトルの形状の典型的な対称性に関する、格納されている発見的方法ルールを、ボトルの観測されない部分の形状を外挿するために使用できる（例えば、部分的形状を複製し、部分的形状を反転し、既知の典型的な線対称に基づいて、２つの点群を整列することにより）。

図５は、本発明の１つの実施形態に係る、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するための方法５００のフローチャートである。図６は、本発明の１つの実施形態に係る、シーンの取り込まれた入力視覚情報の解析を実行し、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するように構成されている解析モジュールのブロック図である。図６において示されている実施形態においては、解析モジュール６００は、走査システム１００から遠く離れており、バス６１２を介してメモリ６１０に接続されているホストプロセッサ６０８を含むことができる。加えて、ネットワークアダプタ６１６を、走査システム１００と通信するために使用できる。解析モジュール６００は更に、データベースおよび対象物のメタデータなどのような情報を格納し、実行された解析の結果の記録を格納するための持続性メモリ（例えば、フラッシュメモリ）を含むことができる。本発明の幾つかの実施形態においては、解析モジュールは、走査システム１００のプロセッサ１０８とメモリ１１０などのような、走査システム１００の構成要素により実現される。

図５において示されているように、動作５１０において、解析モジュールは、走査システム１００により撮像されたようなシーンの深度マップを含むことができる入力視覚情報を受信し、シーンにおける１つ又は複数の対象物を検出する。１つ又は複数の対象物の検出は、例えば、深度マップの中心に近い対象物または複数の対象物を識別することを含むことができる（例えば、幾つかの実施形態においては、走査システム１００は、ユーザが、何れの目標対象物または複数の目標対象物に対して寸法付けを実行すべきかをより明確に識別するために十字線を表示できる）。対象物の検出はまた、背景画素（例えば、走査センサから閾値距離を超えて離れている深度または距離を示す深度マップの部分）を除去または破棄することも含むことができる。加えて、対象物が位置している基平面に対応する画素もまた、検出された対象物から切り離すことができる。

動作５３０において、システムは、検出された対象物を単一化する。１つの対象物しかない場合は、対象物は既に単一化されているので、単一化のプロセスは単純である。同様に、対象物の間に遮蔽がない場合もまた、対象物の単一化は単純であり、それは、深度マップの異なる部分を、対象物の異なる部分に属するものとして取り扱えるからである。遮蔽がある場合は、対象物を単一化するための方法を適用できる。例えば、互いに遮蔽していない３つの対象物を含んでいるシーンを示している図７Ａを参照のこと。図７Ｂは、図７Ａに示されている対象物に対する、計算されたぴったり取り囲むバウンディングボックスを示している。

図８Ａは、複数の対象物が相互遮蔽を生成または引き起こしている、取得された三次元シーンの例である。図８Ｂは、対象物が背景から切り離された深度マップのレンダリングであり、走査装置と対象物との間の距離は、画素の色で符号化されている（例えば、より近い画素に対しては明るい緑、中間の距離の画素に対しては紫、そしてより遠い画素に対しては橙）。

図８Ａにおいて示されているように、茶色のブーツは黄色のブーツを部分的に遮蔽している。従って、図８Ｂにおいて示されている深度マップの何れの部分が、茶色のブーツまたは黄色のブーツに対応しているかを決定することは難しい。

図８Ａと図８Ｂにおいて示されているように、対象物が自己遮蔽を生成している場合は、幾つかの実施形態においては、シーンセグメンテーション技術が、対象物を単一化するために適用される。本発明の幾つかの実施形態においては、視覚的グループ化（例えば、クラスタリング）に基づく、古典的な外観に基づくセグメンテーションが、セグメンテーションを実行するために適用される（例えば、Ｄｕｄａ，Ｒ．Ｏ．，Ｈａｒｔ，Ｐ．Ｅ．，＆Ｓｔｏｒｋ，Ｄ．Ｇ．（２０１２）．Ｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ（パターン分類）．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ．参照）。幾つかの実施形態においては、セマンティックセグメンテーション、例えば、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ（ＦＣＮ）（完全畳み込みネットワーク）がセグメンテーションを実行するために使用される（例えば、Ｌｏｎｇ，Ｊ．，Ｓｈｅｌｈａｍｅｒ，Ｅ．，＆Ｄａｒｒｅｌｌ，Ｔ．（２０１５）．Ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ（セマンティックセグメンテーションのための完全畳み込みネットワーク）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ（ｐｐ．３４３１－３４４０）．参照）。本発明の幾つかの実施形態においては、ウィンドウに基づくアプローチによる対象物検出を適用できる（例えば、Ｒｅｄｍｏｎ，Ｊ．，Ｄｉｖｖａｌａ，Ｓ．，Ｇｉｒｓｈｉｃｋ，Ｒ．，＆Ｆａｒｈａｄｉ，Ａ．（２０１６）．Ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ：Ｕｎｉｆｉｅｄ，ｒｅａｌ－ｔｉｍｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ．（一度見るだけ：統合されたリアルタイム対象物検出）ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎａｎｄｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ（ｐｐ．７７９－７８８）およびＬｉｕ，Ｗ．，Ａｎｇｕｅｌｏｖ，Ｄ．，Ｅｒｈａｎ，Ｄ．，Ｓｚｅｇｅｄｙ，Ｃ．，Ｒｅｅｄ，Ｓ．，Ｆｕ，Ｃ．Ｙ．，＆Ｂｅｒｇ，Ａ．Ｃ．（２０１６，Ｏｃｔｏｂｅｒ）．ＳＳＤ：Ｓｉｎｇｌｅｓｈｏｔｍｕｌｔｉｂｏｘｄｅｔｅｃｔｏｒ（単一ショットマルチボックス検出器）．ＩｎＥｕｒｏｐｅａｎｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ（ｐｐ．２１－３７）．Ｓｐｒｉｎｇｅｒ，Ｃｈａｍ．参照）。更に他の実施形態においては、キーポイント、または輪郭検出および記述などのような古典的コンピュータビジョン技術が、シーンにおける対象物の単一化を実行するために適用される（例えば、Ｌｏｗｅ，Ｄ．Ｇ．（１９９９）．Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ－ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ（局所規模不変特徴からの対象物認識）．ＩｎＣｏｍｐｕｔｅｒｖｉｓｉｏｎ，１９９９．ＴｈｅｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｖｅｎｔｈＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎ（Ｖｏｌ．２，ｐｐ．１１５０－１１５７）．ＩＥＥＥ；Ｍｏｒａｒ，Ａ．，Ｍｏｌｄｏｖｅａｎｕ，Ｆ．，＆Ｇｒｏｅｌｌｅｒ，Ｅ．（２０１２，Ａｕｇｕｓｔ）．Ｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｂａｓｅｄｏｎａｃｔｉｖｅｃｏｎｔｏｕｒｓｗｉｔｈｏｕｔｅｄｇｅｓ（縁なしアクティブ輪郭に基づく画像セグメンテーション）．Ｉｎ２０１２ＩＥＥＥ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＰｒｏｃｅｓｓｉｎｇ（ｐｐ．２１３－２２０）．ＩＥＥＥ；およびＪｏｈｎｓｏｎ，Ａ．Ｅ．，＆Ｈｅｂｅｒｔ，Ｍ．（１９９９）．Ｕｓｉｎｇｓｐｉｎｉｍａｇｅｓｆｏｒｅｆｆｉｃｉｅｎｔｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｉｎｃｌｕｔｔｅｒｅｄ３Ｄｓｃｅｎｅｓ（クラッタのある三次元シーンにおける効率的な対象物認識のためのスピン画像の使用）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓ＆ＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，（５），４３３－４４９．参照）。図８Ｃは、入力画像のセマンティックセグメンテーションを実行するように訓練されている完全畳み込みネットワーク（ＦＣＮ）により出力されたセマンティックセグメンテーションマップを示したものであり、セマンティックセグメンテーションマップは、それぞれが、対象物の異なる１つに対応する深度マップの部分を識別する１つ又は複数のセグメントを含んでいる。従って、セマンティックセグメンテーションマップは、異なる対象物に対応する深度マップの部分を単一化するために使用される。

従って、単一化動作５３０の結果は、単一化された対象物の１つ又は複数の部分的三次元モデルである（例えば、シーンの深度マップにおいて互いから切り離され、背景とクラッタから切り離されている）。モデルは、自己遮蔽（例えば、対象物の裏側の画像がない）のために部分的であり、相互遮蔽（例えば、シーンにおける１つの対象物が、シーンにおける他の対象物の部分が見えることを妨げている）のために部分的である。

動作５５０において、解析モジュールは、各部分的三次元モデルに対して完全三次元モデルを外挿する。ここにおいて使用されているように、「完全三次元モデル」という用語は、完全三次元モデルを含むと共に、完全三次元モデルではないが、それが基づいている部分的三次元モデルよりもより完全である三次元モデル（ここにおいては、「より完全な三次元モデル」と称される）も含んでいる。「より完全な三次元モデル」は、対応する全三次元モデルには存在しない１つ又は複数の割れ目、裂け目、および／または穴を含んでいてもよい。動作５３０において実行された単一化動作のために、各部分的三次元モデルは異なる対象物に対応している。

図９は、対象物の部分的三次元モデルから完全三次元モデルを外挿するための、本発明の１つの実施形態に係る方法９００を示しているフローチャートである。幾つかの実施形態においては、図９において示されている方法９００は、図５において示されている動作５５０の一部として実行される。

対象物分類と識別

本発明の実施形態の幾つかの態様は、より高いレベルのデータを使用するためのシステムと方法、特には、発見的方法を適用するための、または、目標対象物に関する他の格納されている情報を検索するための対象物の分類および／または識別に関する。例えば、製造された製品は、一般的には、それらの製品のそれぞれすべてに対して物理的にほぼ同一である。例えば、洗剤のボトルの上記の例を継続すると、特別なストックキーピングユニット（ＳＫＵ）（単品で製品を管理する単位）に対応する、すべてのそのような洗剤のボトルはサイズがほぼ同一である。従って、目標対象物を、特別な既知のＳＫＵの１つとして識別できると、目標対象物の寸法は、ＳＫＵの他のものと同じであるとして外挿できる。他の例としては、アルミニウム製飲料缶は、その標準サイズは非常に少なく、１２オンスの種類が最も普及している。従って、部分的情報に基づいて目標対象物は飲料缶であると識別されると、対象物は、完全な形の飲料缶の既知のサイズと整合する特別な形状と寸法を有するものとして外挿できる。

図９を参照すると、動作９１０において、解析モジュールは、部分的三次元モデルに基づいて、目標対象物を識別することを試みる。上記に注記したように、走査システム１００により撮像された部分的三次元モデルは、走査された目標対象物１０についての色および幾何学形状情報を含んでいる。従って、本発明の幾つかの実施形態においては、解析モジュールは、各エントリが特別な既知の対象物（例えば、データベースに登録されている対象物）に対応しているエントリのデータベースを含んでおり、各エントリは、対象物についてのメタデータと共に、カラー画像および／または三次元モデルの組み合わせとして符号化されているそのエントリの視覚情報を含むことができる。

画像のデータベースなどのような、視覚情報のデータベースに対する検索要求の問題は非常によく知られている。この問題は、古典的には、２つの異なる形状、つまり画像分類（つまり、１つ又は複数のクラスを画像に割り当てる問題）と画像検索（つまり、クエリ画像に関して、データベースにおいて最も類似する画像エントリを識別する問題）を仮定する。１つの通常の画像データベースはＩｍａｇｅＮｅｔ（イメージネット（大規模視覚データベース））（例えば、Ｄｅｎｇ，Ｊ．，Ｄｏｎｇ，Ｗ．，Ｓｏｃｈｅｒ，Ｒ．，Ｌｉ，Ｌ．Ｊ．，Ｌｉ，Ｋ．，＆Ｆｅｉ－Ｆｅｉ，Ｌ．（２００９，Ｊｕｎｅ）．Ｉｍａｇｅｎｅｔ：Ａｌａｒｇｅ－ｓｃａｌｅｈｉｅｒａｒｃｈｉｃａｌｉｍａｇｅｄａｔａｂａｓｅ（イメージネット：大規模階層的画像データベース）．ＩｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００９．ＣＶＰＲ２００９．ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎ（ｐｐ．２４８－２５５）．ＩＥＥＥ．参照）であり、数百万もの画像と数千もの異なるクラスを含んでいる。これらの画像分類と画像識別タスクを実行するための幾つかの方法としては、畳み込みニューラルネットワーク（ＣＮＮ）技術（例えば、Ｄａｒａｓ，Ｐ．，＆Ａｘｅｎｏｐｏｕｌｏｓ，Ａ．（２０１０）．Ａ３－Ｄｓｈａｐｅｒｅｔｒｉｅｖａｌｆｒａｍｅｗｏｒｋｓｕｐｐｏｒｔｉｎｇｍｕｌｔｉｍｏｄａｌｑｕｅｒｉｅｓ（マルチモードクエリをサポートする三次元形状検索フレームワーク）．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，８９（２－３），２２９－２４７．，Ｖｒａｎｉｃ，Ｄ．Ｖ．，Ｓａｕｐｅ，Ｄ．，＆Ｒｉｃｈｔｅｒ，Ｊ．（２００１）．Ｔｏｏｌｓｆｏｒ３－Ｄ－ｏｂｊｅｃｔｒｅｔｒｉｅｖａｌ（三次元対象物検索のためのツール）：Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅｔｒａｎｓｆｏｒｍａｎｄｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｓ．ＩｎＭｕｌｔｉｍｅｄｉａＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００１ＩＥＥＥＦｏｕｒｔｈＷｏｒｋｓｈｏｐｏｎ（ｐｐ．２９３－２９８）．ＩＥＥＥ．，およびＧａｏ，Ｙ．，＆Ｄａｉ，Ｑ．（２０１４）．Ｖｉｅｗ－ｂａｓｅｄ３－Ｄｏｂｊｅｃｔｒｅｔｒｉｅｖａｌ：ｃｈａｌｌｅｎｇｅｓａｎｄａｐｐｒｏａｃｈｅｓ（ビューに基づく三次元対象物検索：課題とアプローチ）．ＩＥＥＥＭｕｌｔｉＭｅｄｉａ，３（２１），５２－５７．参照）がある。

ここにおいて使用されているように、畳み込みニューラルネットワーク（ＣＮＮ）は、入力画像が与えられると、二次元畳み込み、非線形マッピング、最大プーリング集積および結合などのような動作のセットを、値のベクトル（通常は、特徴ベクトルまたは特徴マップと呼ばれる）を計算するために実行するシステムと見なすことができ、そして、値のベクトルは、入力画像に対する１つ又は複数のクラスメタデータの推定値を得るために分類子（例えば、ＳｏｆｔＭａｘ（ソフトマックス）分類子）により使用される。

畳み込みニューラルネットワーク（ＣＮＮ）は、非常に精度のよいクラスレベル推定値（９０％の推定正確さを超える）を提供でき、このタイプの問題を解決するための標準技術となっている。ＣＮＮシステムのそれぞれの構成要素（または「層」）は、いわゆる訓練段階において推定される必要があるパラメータ（または「重み」）の関連付けられているセットにより特徴付けられている。特に訓練段階においては、ＣＮＮには、クラスラベルと関連付けられている訓練画像の大量セットが提供され、各層のパラメータまたは重みは、この訓練画像のセットに対するクラス予測の精度を最大にするために調整される。これは、非常に大きな労力を必要とする動作であり（一般的には、非常に強力なグラフィカル処理ユニットまたはＧＰＵ上での数時間の計算を含む）、それは、訓練のために使用される画像のセットは、通常は、１００万以上のオーダーであり、ＣＮＮにおけるパラメータの数は、１０万以上のオーダーであるからである。

画像検索の目的のために、特徴ベクトルまたは特徴マップを、データベースにおける特別なアイテムを調べるための「記述子」として取り扱うことができる。特に、クエリ画像に対する推定された特徴ベクトルは、大きな次元（例えば、４，０９６値）の値（一般的には、浮動小数点または固定点数値として符号化されている）のベクトルである。この特徴ベクトルは、入力画像の「署名」または「記述子」として考えることができ、同じクラスにおける対象物の特徴ベクトルは、特徴ベクトル空間（または「特徴空間」）において近接する点であるという特質を有している。従って、これらの特徴ベクトルは、検索目的のために使用できる。つまり、データベースにおけるエントリは、それらの特徴ベクトルが、Ｌ１またはＬ２測定基準などのような標準測定基準に関して、特徴ベクトル空間においてクエリ画像の記述子に近接している場合は、クエリ画像に類似している。

特徴ベクトル空間の大きな次元を考慮して、幾つかの随意的な技術を、例えば、ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ（ＰＣＡ）（主成分分析）またはＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ（ＬＤＡ）（線形判別分析）に基づいて、ある次元削減を実行するために適用できる。

本発明の幾つかの実施形態においては、二次元画像ではなく、部分的三次元モデルが入力クエリとして使用される。三次元モデルを入力とするＣＮＮを使用するための技術は、二次元画像上のＣＮＮを使用するための技術と比較すると、開発されている技術はまったく少ない。１つの問題は、ＣＮＮアーキテクチャに対応する方法で三次元モデルの情報を符号化することである。

ＣＮＮを三次元モデルに適用することへの１つのアプローチは、入力された三次元モデルのボクセル化である。図１０Ａは、本発明の１つの実施形態に係る、三次元モデルをボクセル化することにより、メディア文書が三次元モデルである場合の特徴ベクトルを計算するための方法１０００を例示しているフローチャートであり、図１０Ｂは、ボクセル化を使用する、ＣＮＮの三次元モデルへの適用を視覚的に示している。図１０Ａと１０Ｂを参照すると、動作１０１０において、プロセッサは、回転キャリパアルゴリズムを三次元モデルに適用することなどにより、三次元モデルの周りにバウンディングボックス１０１２を定義する。ＣＮＮを三次元モデルに適用するためのシステムと方法は、２０１７年８月１１日に発行された米国特許第１０，２９６，６０３号の「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＡＵＴＯＭＡＴＩＣＡＬＬＹＧＥＮＥＲＡＴＩＮＧＭＥＴＡＤＡＴＡＦＯＲＭＥＤＩＡＤＯＣＵＭＥＮＴＳ（メディア文書のためのメタデータを自動的に生成するためのシステムと方法」により詳細に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。

動作１０３０において、プロセッサは、三次元モデルを表現するボクセルのセットを生成するために、モデルをボクセル化する。１つの実施形態においては、ボクセル化のプロセスにおいてプロセッサは、バウンディングボックスを、ボクセルと称されるサブユニットに分割する。例えば、バウンディングボックスは、総計２５６^３＝１６，７７７，２１６個のボクセルに対して、１辺上で２５６個のボクセルを有している立方体であってよいが、本発明の実施形態はそれに制限されず、実質的により大きくてもよい。各ボクセルは、三次元モデルのある部分はボクセル内に含まれているか否か（例えば、バイナリ値ボクセル化において）を表わす値と関連付けることができ、他の場合においては、各ボクセルは、三次元モデルにより占有されているボクセルの分数またはパーセンテージを表わしている値と関連付けることができる（例えば、整数値または浮動小数点ボクセル化）。図１０Ｂは、ボクセル化された三次元モデル１０３２を示している。

本発明の１つの実施形態によれば、動作１０３０は更に、ボクセル化を実行する前に、「好適図」を識別するために、特徴を推定すること、または、主成分分析を実行することを含んでいる。ボクセル化の前にモデルの整合性のある好適図を識別することは、実質的に類似している対象物（または同じ対象物）の２つの異なる三次元モデルが、同じ視点からボクセル化される（例えば、実質的に同じ座標空間に沿って定義されたボクセルを有している）可能性を高め、それにより、回転不変性（例えば、回転された対象物のモデルを認識するシステムの能力）を提供する。

動作１０５０において、プロセッサは、動作１０３０において生成されたボクセルから特徴ベクトルを生成する。本発明の１つの実施形態によれば、特徴ベクトル１０５４は、ボクセルを訓練された畳み込みニューラルネットワーク１０５２に供給することにより計算される。ボクセル表現は三次元テンソルと見なすことができるので、ボクセルは、入力としてＣＮＮに直接供給でき、ＣＮＮは、ボクセル化された三次元モデルに基づいて訓練される。図１０Ｂにおいて示されている破線の立方体は、畳み込み演算を表わしている。図１０Ｂにおいて示されているように、特徴ベクトル１０５４はまた、ボクセル化された三次元モデル１０１２の分類１０５６を生成するために、分類子に供給することもできる。ＣＮＮが記述子を得るために使用される実施形態においては、特徴ベクトル１０５４は、入力された部分的三次元モデルの記述子として使用される。

三次元モデルについての幾何学的およびテクスチャ情報を符号化するための技術の他の同系統群は、多数の方向からのそのレンダリングを含んでいる。

図１１は、本発明の１つの実施形態に係る、クエリ対象物の三次元モデルから、クエリ対象物の記述子を計算するための方法のフローチャートである。図１２は、本発明の１つの実施形態に係る、畳み込みニューラルネットワークに基づく分類システムのブロック図である。

本発明の幾つかの実施形態においては、対象物識別は、対象物の三次元モデルの記述子を計算することにより実行され、記述子は、固定長を有する（例えば、１６または４，０９６の次元を有する）多次元ベクトルである。三次元モデルの記述子を計算するための技術は、マルチビュー畳み込みニューラルネットワーク（ＭＶ－ＣＮＮ）の前方評価に基づいており、または、体積測定畳み込みニューラルネットワーク（Ｖ－ＣＮＮ）による。そのようなネットワークは通常、対象物分類に対して訓練されており、幾つかの実施形態においては、図１３において示されているように、ネットワークの最後から二番目の層の出力は記述子として使用される（下記により詳細に記述される）。

特に、図１３において示されている実施形態においては、記述子または特徴ベクトルは、動作１１１２においてビュー生成モジュールによりレンダリングされるときに、三次元モデルの二次元ビュー１６から計算される。動作１１１４において、合成二次元ビューが、各ビューに対して記述子または特徴ベクトルを抽出するために記述子生成器に供給される。動作１１１６において、各ビューに対する特徴ベクトルは、三次元モデルに対する記述子を生成し、記述子に基づいて対象物を分類するために組み合わされる（例えば、「プールされた」特徴ベクトルが計算され、プールされた特徴ベクトルの各位置は、各二次元ビューに対して計算された入力特徴ベクトルの対応する位置における値の最大値である、下記により詳細に記述される最大プーリングを使用して）。この特徴ベクトルは、対象物の形状の顕著且つ特徴的な態様を含むことができ、後続の分類または検索ステップで使用される。生成された記述子は、動作１１１８において出力できる。

一般的に、形状ｓを所与のクラス（カテゴリまたはラベルとも呼ばれる）のセットＣの１つに分類するタスクは、所与の形状に最も類似している（特定の測定基準において）形状をデータベースから検索するタスクとは区別されている。便宜上、ここにおいては、形状検索は分類の特別なケースであると考え、データベースにおける各形状は、それ自体クラスを表わし、形状ｓは、データベースにおける最も類似している形状のラベルで分類される。このアプローチは、パターン認識文献においては、最近傍分類と称されることがある。

形状のビューに基づく表現からの検索と分類のために幾つかの技術は、文献において知られている。そのような関連のある技術を調べるためには、例えば、Ｇａｏ，Ｙ．，＆Ｄａｉ，Ｑ．（２０１４）．Ｖｉｅｗ－ｂａｓｅｄ３－Ｄｏｂｊｅｃｔｒｅｔｒｉｅｖａｌ：ｃｈａｌｌｅｎｇｅｓａｎｄａｐｐｒｏａｃｈｅｓ（ビューに基づく三次元対象物検索：課題とアプローチ）．ＩＥＥＥＭｕｌｔｉＭｅｄｉａ，３（２１），５２－５７．参照。例えば、１つのアプローチ（Ｆｕｒｕｙａ，Ｔ．，＆Ｏｈｂｕｃｈｉ，Ｒ．（２００９，Ｊｕｌｙ）．Ｄｅｎｓｅｓａｍｐｌｉｎｇａｎｄｆａｓｔｅｎｃｏｄｉｎｇｆｏｒ３－Ｄｍｏｄｅｌｒｅｔｒｉｅｖａｌｕｓｉｎｇｂａｇ－ｏｆ－ｖｉｓｕａｌｆｅａｔｕｒｅｓ（視覚特徴のバッグを使用する三次元モデル検索のための稠密サンプリングと高速符号化）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｉｍａｇｅａｎｄｖｉｄｅｏｒｅｔｒｉｅｖａｌ（ｐ．２６）．ＡＣＭ．に記述されている）は、画像における対象物認識のための古典的方法である「バッグオブワード」の概念上で、マルチビュー対象物認識のケースへと発展する。他の例として、畳み込みニューラルネットワーク（ＣＮＮ）をマルチビュー対象物分類のために使用できる（例えば、Ｓｕ，Ｈ．，Ｍａｊｉ，Ｓ．，Ｋａｌｏｇｅｒａｋｉｓ，Ｅ．，＆Ｌｅａｒｎｅｄ－Ｍｉｌｌｅｒ，Ｅ．（２０１５）．Ｍｕｌｔｉ－ｖｉｅｗｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ３－Ｄｓｈａｐｅｒｅｃｏｇｎｉｔｉｏｎ（三次元形状認識のためのマルチビュー畳み込みニューラルネットワーク）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ｐｐ．９４５－９５３）．参照）。

本発明の幾つかの実施形態によれば、畳み込みニューラルネットワーク（ＣＮＮ）は、対象物の分類を生成するために、合成された二次元ビューを処理するために使用される。図１２は、ディープ畳み込みニューラルネットワーク（ＣＮＮ）として実現された、本発明の１つの実施形態に係る記述子生成器の模式図である。記述子生成器は、解析モジュール６００のメモリに格納されている対応する命令により、解析モジュール６００の構成要素として実現できる。一般的に、ディープＣＮＮは、入力画像データ（例えば、合成された二次元ビュー）を層のカスケードを通過させることにより画像を処理する。これらの層は、多数の段階にグループ化できる。図１２において示されているディープ畳み込みニューラルネットワークは２つの段階を含んでおり、第１段階ＣＮＮ_１はＮ個の層（またはサブプロセス）から構成されており、第２段階ＣＮＮ_２は、Ｍ個の層から構成されている。１つの実施形態においては、第１段階ＣＮＮ_１のＮ個の層のそれぞれは、線形畳み込み層のバンクを含んでおり、それに、点非線形層と、非線形データ削減層が続く。対照的に、第２段階ＣＮＮ_２のＭ個の層のそれぞれは全結合層である。第２段階の出力ｐは、クラス割り当て確率分布である。例えば、ＣＮＮ全体が、入力画像をｋ個の異なるクラスの１つに割り当てるように訓練されると、第２段階ＣＮＮ_２の出力は、それぞれの値が、入力画像に、対応するクラスが割り当てられる確率（または「信頼度」）を表わしている、ｋ個の異なる値を含んでいるベクトルｐである。

上記に注記したように、本発明の実施形態は、汎用コンピュータプロセッサや特定用途向けプロセッサなどのような適切な汎用コンピューティングプラットフォーム上で実現できる。（解析モジュールは、そのような適切なコンピューティングプラットフォームを含むことができる）。例えば、グラフィカル処理ユニット（ＧＰＵ）と他のベクトルプロセッサ（例えば、汎用プロセッサの単一命令多データまたはＳＩＭＤ命令セット）は、ニューラルネットワークの訓練および動作を実行するために十分に適切であることがよくある。

幾つかの実施形態においては、ニューラルネットワークは、対象物の三次元モデルのセットとそれらの対応するラベル（例えば、対象物の正しい分類）を含むことができる訓練データに基づいて訓練される。この訓練データの一部は、訓練プロセスの間にパラメータを更に調整するための相互検証データとして確保でき、一部は、ネットワークは適切に訓練されていることを確認するためのテストデータとして確保できる。

ニューラルネットワークのパラメータ（例えば、層間の結合の重み）を、誤差逆伝播法や匂配降下法（例えば、ＬｅＣｕｎ，Ｙ．，＆Ｂｅｎｇｉｏ，Ｙ．（１９９５）．Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｉｍａｇｅｓ，ｓｐｅｅｃｈ，ａｎｄｔｉｍｅｓｅｒｉｅｓ（画像、音声、時系列のための畳み込みネットワーク）．Ｔｈｅｈａｎｄｂｏｏｋｏｆｂｒａｉｎｔｈｅｏｒｙａｎｄｎｅｕｒａｌｎｅｔｗｏｒｋｓ（脳理論とニューラルネットワークのハンドブック），３３６１（１０），１９９５．参照）などのような、ニューラルネットワークを訓練するための標準プロセスを使用して使用できる。加えて、訓練プロセスは、予め訓練された汎用画像分類ニューラルネットワーク（例えば、Ｃｈａｔｆｉｅｌｄ，Ｋ．，Ｓｉｍｏｎｙａｎ，Ｋ．，Ｖｅｄａｌｄｉ，Ａ．，＆Ｚｉｓｓｅｒｍａｎ，Ａ．（２０１４）．Ｒｅｔｕｒｎｏｆｔｈｅｄｅｖｉｌｉｎｔｈｅｄｅｔａｉｌｓ：Ｄｅｌｖｉｎｇｄｅｅｐｉｎｔｏｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ（細部に宿る悪魔の帰還：畳み込みネットを深く掘り下げる）．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０５．３５３１．参照）からのパラメータを使用して初期化できる。

図１２において示されているように、第１段階ＣＮＮ_１（畳み込み段階）で計算され、第２段階ＣＮＮ_２（全結合段階）に供給される値は、ここにおいては記述子（または特徴ベクトル）ｆと称される。特徴ベクトルまたは記述子は、固定サイズ(例えば、４，０９６エントリ）を有するデータのベクトルであってよく、それは、入力画像の主要特性を凝縮または要約する。そのため、第１段階ＣＮＮ_１は、特徴抽出段階または特徴抽出器と称することができる。

図１２に関して上述した分類子のアーキテクチャは、対象物のｎ個の二次元ビューに基づく三次元対象物のマルチビュー形状表現を分類することに適用できる。例えば、第１段階ＣＮＮ_１は、三次元形状を表現するために使用されるｎ個の二次元ビューのそれぞれに独立して適用でき、それにより、ｎ個の特徴ベクトル（二次元ビューのそれぞれに対して１つ）のセットを計算できる。この技術の態様は、例えば、Ｓｕ，Ｈ．，Ｍａｊｉ，Ｓ．，Ｋａｌｏｇｅｒａｋｉｓ，Ｅ．，＆Ｌｅａｒｎｅｄ－Ｍｉｌｌｅｒ，Ｅ．（２０１５）．Ｍｕｌｔｉ－ｖｉｅｗｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ３－Ｄｓｈａｐｅｒｅｃｏｇｎｉｔｉｏｎ（三次元形状認識のためのマルチビュー畳み込みニューラルネットワーク）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ｐｐ．９４５－９５３）においてより詳細に記述されている。幾つかの実施形態においては、ｎ個の別個の特徴ベクトルは、例えば、最大プーリングを使用して組み合わされる（例えば、Ｂｏｕｒｅａｕ，Ｙ．Ｌ．，Ｐｏｎｃｅ，Ｊ．，＆ＬｅＣｕｎ，Ｙ．（２０１０）．Ａｔｈｅｏｒｅｔｉｃａｌａｎａｌｙｓｉｓｏｆｆｅａｔｕｒｅｐｏｏｌｉｎｇｉｎｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎ（視覚認識における特徴プーリングの理論的解析）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ（ＩＣＭＬ－１０）（ｐｐ．１１１－１１８）．参照）。

図１３と１４は、本発明の１つの実施形態に係る最大プーリングを例示したものである。図１３において示されているように、ｎ個のビューのそれぞれは、ｎ個の特徴ベクトルを生成するために、記述子生成器の第１段階ＣＮＮ₁に供給される。最大プーリングにおいては、ｎ個の特徴ベクトルｆは、単一の組み合わされた特徴ベクトルまたは記述子Ｆを生成するために組み合わされ、ここにおいて、記述子Ｆのｊ番目のエントリは、ｎ個の特徴ベクトルｆの中のｊ番目のエントリの中の最大値と等しい。結果としての記述子Ｆは、ｎ個の特徴ベクトルｆと等しい長さ（またはランク）を有しており、従って、記述子Ｆを、対象物の分類を計算するために、第２段階ＣＮＮ_２への入力として供給することもできる。

本発明の幾つかの実施形態においては、仮想カメラの特別な姿勢の選択、例えば、何れの特別な二次元ビューのレンダリングを行うかの選択は、記述子Ｆが実質的に回転不変である特質を有する結果となる。例えば、すべての仮想カメラが球上に位置している構成を考える（例えば、すべてが、三次元モデルの中心または基平面上の特別な点ｐから同じ距離である姿勢で配置されており、すべてが、三次元モデルの中心または基平面上の特別な点ｐにおいて交差する光軸を有している）。類似の特質を有する配置の他の例としては、すべての仮想カメラが、三次元モデルの基平面から同じ高さに位置しており、三次元モデルの方を向いており（例えば、三次元モデルの中心と交差する光軸を有しており）、三次元モデルから同じ距離であるという配置があり、その場合は、三次元モデルの中心を通って延伸している垂直軸（例えば、基平面に直交している）の周りの対象物の如何なる回転も、本質的には同じベクトルまたは記述子Ｆという結果になる（カメラが近接した間隔をおいた位置に置かれていると仮定する）。

本発明の更に追加的な実施形態は、ＣＮＮへの入力として、三次元モデルの点群表現を使用する。例えば、Ｑｉ，Ｃ．Ｒ．，Ｓｕ，Ｈ．，Ｍｏ，Ｋ．，＆Ｇｕｉｂａｓ，Ｌ．Ｊ．（２０１７）．Ｐｏｉｎｔｎｅｔ：Ｄｅｅｐｌｅａｒｎｉｎｇｏｎｐｏｉｎｔｓｅｔｓｆｏｒ３ｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｓｅｇｍｅｎｔａｔｉｏｎ（ポイントネット：三次元分類およびセグメンテーションのための点集合のディープラーニング）．Ｐｒｏｃ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ＩＥＥＥ，１（２），４．参照。

従って、動作９１０において、解析モジュールは、モデルの記述子を抽出することにより、部分的三次元モデルから対象物を識別することを試み（例えば、上記のボクセル化および／またはマルチビュー技術を使用して）、そして、抽出された記述子の閾値距離内のデータベースのエントリをデータベース（または一覧表）から検索する。そのような一致するエントリが見つかると、識別プロセスは成功したと考えられる。本発明の幾つかの実施形態によれば、データベースのエントリは、対象物の関連付けられている完全三次元モデルを含んでいる（例えば、すべての角度から撮像されたような対象物のモデル）。そのため、対象物の格納されている完全三次元モデルを、動作９２０において、データベースからロードでき、入力として供給された部分的三次元モデルに対応する完全三次元モデルとして返すことができる。本発明の幾つかの実施形態においては、三次元モデルをロードするのではなく、各エントリと関連付けられている対象物の最小バウンディングボックスの寸法を、データベースにおいてメタデータの一部として格納でき、そのため、寸法は、データベースから直接ロードできる。本発明の幾つかの実施形態においては、解析モジュールは更に、ロードされた完全モデルを、視覚取得システムに関して、クエリの完全幾何学形状の推定値を得るために、クエリに対して取得された視覚情報と連携させる。

動作９１０と９２０の識別アプローチは、典型的には、製造ラインなどのような、走査される対象物が良好に定義される（例えば、遭遇し得る対象物のすべてが一覧表にある）状況においては最も首尾よく完了する。従って、本発明の幾つかの実施形態においては、対象物を識別し、対応する情報を一覧表からロードするだけで十分である。

しかし、全体的に識別に基づくアプローチは、良好に定義されない状況、例えば、走査される対象物の多くが一覧表になく、物流総合管理の分野（例えば、荷物配達、船輸送、およびサプライチェーン管理）におけるような、対象物が多岐にわたる状況においては、一覧表において一致する完全モデルまたは寸法がない、または、一覧表において一致する最も近いアイテムは正しくない結果（例えば、間違った寸法）を与えるので、効果的でない可能性がある。

動作９１０における識別プロセスが失敗する（例えば、入力された部分的三次元モデルから抽出された記述子の閾値距離内にある記述子を有しているエントリがない）と、解析モジュールは、動作９３０において、部分的三次元モデルの分類を試みる。上記に注記したように、分類は、クラスラベルを計算するために分類子層へ記述子を供給することにより実行できる。そして、入力された部分的三次元モデルは、クラスラベルの中の最も信頼性の高いクラスの１つに対応すると仮定できる。動作９３０において分類が成功すると、発見的方法ルールが、動作９４０において、一致するクラスに対応して検索される。そして、発見的方法ルールは、完全三次元モデルを計算するために動作９５０において使用される。

特別な発見的方法ルールは、対象物の種々の異なるクラスに特有である。例えば、部分的三次元モデルがボトルとして分類されると、上記で検討したように、システムは、完全三次元モデルは１つ又は複数の対称軸を有していると仮定でき、部分的三次元モデルを、対称軸の１つに従って整列し、そして、外挿された完全三次元モデルを生成するために、選択された対称軸に基づいて部分的三次元モデルを複製する（例えば、回転、平行移動、および反射などのような、適切な剛体変換を適用する）。他の例としては、発見的方法は、クラスの対象物に対する標準全体形状を含むことができ、標準形状を、部分的三次元モデルの寸法に従って拡縮できる。例えば、再使用可能なコーヒーフィルタは、外観においては異なり得るが、ほとんどの再使用可能なコーヒーフィルタは、同じ全体形状を有しており、従って、標準形状を、部分的三次元モデルのサイズに拡縮することは、対象物に対する最小に（またはぴったり）取り囲むバウンディングボックスを計算するためのほぼ精度よくサイズが決められたモデルを外挿することになる。

本発明の幾つかの実施形態においては、部分的三次元モデルは、部分的三次元モデルから完全三次元モデルを外挿するように構成されている生成モデルに供給される。生成モデル（例えば、Ｇｏｏｄｆｅｌｌｏｗ，Ｉ．，Ｂｅｎｇｉｏ，Ｙ．，Ｃｏｕｒｖｉｌｌｅ，Ａ．，＆Ｂｅｎｇｉｏ，Ｙ．（２０１６）．Ｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニング）（Ｖｏｌ．１）．Ｃａｍｂｒｉｄｇｅ：ＭＩＴｐｒｅｓｓ．参照）の１つの例は、条件付き敵対的生成ネットワーク（または、条件付きＧＡＮ、例えば、Ｇｏｏｄｆｅｌｌｏｗ，Ｉ．，Ｐｏｕｇｅｔ－Ａｂａｄｉｅ，Ｊ．，Ｍｉｒｚａ，Ｍ．，Ｘｕ，Ｂ．，Ｗａｒｄｅ－Ｆａｒｌｅｙ，Ｄ．，Ｏｚａｉｒ，Ｓ．，．．．＆Ｂｅｎｇｉｏ，Ｙ．（２０１４）．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ（敵対的生成ネット）．ＩｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ（ｐｐ．２６７２－２６８０）．参照）であり、ここにおいて、部分的三次元モデルは、「条件」として条件付きＧＡＮに入力される。より詳細には、生成モデルは、対象物の部分のビューが供給されることに基づいて、既知の対象物の完全三次元モデルを生成するために訓練できる。生成モデルを実現するための技術の例は、例えば、Ｗｕ，Ｚ．，Ｓｏｎｇ，Ｓ．，Ｋｈｏｓｌａ，Ａ．，Ｙｕ，Ｆ．，Ｚｈａｎｇ，Ｌ．，Ｔａｎｇ，Ｘ．，＆Ｘｉａｏ，Ｊ．（２０１５）．３ｄｓｈａｐｅｎｅｔｓ：Ａｄｅｅｐｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｖｏｌｕｍｅｔｒｉｃｓｈａｐｅｓ（三次元形状ネット：体積測定形状のための深層表現）．ＩｎｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ｐｐ．１９１２－１９２０）．およびＹａｎｇ，Ｂ．，Ｒｏｓａ，Ｓ．，Ｍａｒｋｈａｍ，Ａ．，Ｔｒｉｇｏｎｉ，Ｎ．，＆Ｗｅｎ，Ｈ．（２０１８）．Ｄｅｎｓｅ３ＤＯｂｊｅｃｔＲｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍａＳｉｎｇｌｅＤｅｐｔｈＶｉｅｗ（単一深度ビューからの稠密三次元対象物再構築）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅにおいて記述されている。

本発明の幾つかの実施形態においては、動作９３０において、部分的三次元モデルの分類が失敗すると、部分的三次元モデルは生成モデルに供給される。幾つかの実施形態においては、分類は省略され、部分的モデルは、完全三次元モデルを外挿するために生成モデルに直接供給される。

本発明の幾つかの実施形態においては、計算された最小取り囲みバウンディングボックスは、抽出された記述子に対して、一覧表に新しいエントリとして格納される。幾つかの実施形態においては、解析モジュールは、計算された最小取り囲みバウンディングボックスにおける閾値信頼性レベルが満たされる場合のみ、一覧表にエントリを追加する。

従って、図９のフローチャート９００において示されている技術に従う方法は、部分的三次元モデルから完全三次元モデルを外挿するための機構を提供する。

図５に戻って参照すると、動作５７０において、ぴったり取り囲むバウンディングボックスが、外挿された完全三次元モデルのそれぞれに対して計算または検索される。上記に注記したように、本発明の幾つかの実施形態においては、一覧表から一致するモデルを識別する場合などのように、ぴったり取り囲むバウンディングボックスを計算する別個の動作は、ぴったり取り囲むバウンディングボックスの寸法は、一覧表において既知であり格納されているので省略できる。そして、動作５９０において、これらのぴったり取り囲むバウンディングボックスは、ユーザインタフェース（例えば、表示装置１２２）上の表示のために（それらの寸法と共に）出力できる。

そのため、本発明の実施形態の態様は、寸法付けされる対象物の部分的視覚情報に基づく、対象物の寸法付けのためのシステムと方法を提供する。加えて、本発明の実施形態の態様は、対象物の一部のビューが自己遮蔽または相互遮蔽の影響を受ける場合においても、対象物を単一化する技術を適用し、各対象物の寸法を別個に計算することにより、寸法付けを同じフレームにおける多数の対象物に適用することを可能にする。

本発明は、ある例としての実施形態と関連して記述されてきたが、発明は開示された実施形態に制限されず、それとは反対に、付随する請求項の精神および範囲内に含まれる種々の修正および等価装置、およびその等価物をカバーすることが意図されているということは理解されるべきである。本発明の態様の一部を以下記載する。
［態様１］
ぴったり取り囲むバウンディングボックスを推定するための方法であって、
コンピューティングシステムにより、１つ又は複数の対象物を含むシーンの視覚情報を取り込むための１台以上の深度カメラを備えている走査システムを制御することと、
前記コンピューティングシステムにより、前記視覚情報に基づいて、前記シーンの前記１つ又は複数の対象物を検出することと、
前記コンピューティングシステムにより、前記１つ又は複数の対象物に対応する、前記１つ又は複数の対象物の対応する１つの部分的三次元モデルを備えている、１つ又は複数の三次元モデルを生成するために、前記シーンのフレームから前記１つ又は複数の対象物のそれぞれを単一化することと、
前記コンピューティングシステムにより、前記部分的三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのより完全な三次元モデルを外挿することと、
前記コンピューティングシステムにより、前記より完全な三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのぴったり取り囲むバウンディングボックスを推定することを備える方法。
［態様２］
前記走査システムは更に、前記１台以上の深度カメラとは別個の１台以上のカラーカメラを備えていることを備える態様１の方法。
［態様３］
前記１台以上の深度カメラは、
飛行時間型深度カメラと、
構造化光深度カメラと、
少なくとも２台のカラーカメラを備えているステレオ深度カメラ、
少なくとも２台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
少なくとも２台の赤外線カメラを備えているステレオ深度カメラ、または
カラーカメラ、複数の赤外線カメラ、および前記複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを備えているステレオ深度カメラを備える態様１の方法。
［態様４］
前記シーンにおける前記１つ又は複数の対象物を前記検出することは、前記視覚情報において、背景および基平面を示すものから前記１つ又は複数の対象物を切り離すことを備える態様１の方法。
［態様５］
生成された三次元モデルを備えている前記より完全な三次元モデルを前記外挿することは、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給することを備える態様１の方法。
［態様６］
前記生成モデルは、条件付き敵対的生成ネットワークを備える態様５の方法。
［態様７］
前記より完全な三次元モデルを前記外挿することは、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力することを備える態様１の方法。
［態様８］
前記一覧表の前記三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けられており、
前記三次元モデルの一覧表を前記検索することは、
前記部分的三次元モデルを、畳み込みニューラルネットワークを備えている特徴記述子に供給することにより、前記部分的三次元モデルの記述子を抽出することと、
前記部分的三次元モデルの前記記述子と、前記一覧表の前記三次元モデルの前記記述子との間の最も高い類似性に従って、前記部分的三次元モデルと一致する前記モデルを識別することを備える態様７の方法。
［態様９］
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記三次元モデルの周りのバウンディングボックスを定義することと、
複数のボクセルを計算するために前記部分的三次元モデルをボクセル化することと、
前記ボクセルを前記畳み込みニューラルネットワークに供給することを備える態様８の方法。
［態様１０］
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記部分的三次元モデルの複数の二次元ビューをレンダリングすることと、
前記複数の二次元ビューを第１段階畳み込みニューラルネットワークに供給することにより、前記部分的三次元モデルの前記二次元ビューから特徴ベクトルを抽出することと、
前記記述子を生成するために前記特徴ベクトルを組み合わせることを備える態様８の方法。
［態様１１］
前記特徴ベクトルは、最大プーリングを使用して組み合わされる態様１０の方法。
［態様１２］
前記完全三次元モデルを前記外挿することは、
一致分類を計算するために前記部分的三次元モデルを分類することと、
前記一致分類に対するより完全な三次元モデルを生成するための１つ又は複数の発見的方法ルールをロードすることと、
前記１つ又は複数の発見的方法ルールに従って、前記部分的三次元モデルから前記より完全な三次元モデルを生成することを備える態様１の方法。
［態様１３］
前記１つ又は複数の発見的方法ルールは、前記一致分類に基づく前記より完全な三次元モデルの１つ又は複数の仮定された対称軸、または、前記一致分類に基づく前記より完全な三次元モデルの標準全体形状を備える態様１２の方法。
［態様１４］
前記１つ又は複数の対象物は複数の対象物を備えており、
前記１つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、外観に基づくセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える態様１の方法。
［態様１５］
前記１つ又は複数の対象物は複数の対象物を備えており、
前記１つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、セマンティックセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える態様１の方法。
［態様１６］
セマンティックセグメンテーションを前記適用することは、セグメンテーションマップを計算するために、前記視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを備えており、
各部分的三次元モデルは、前記セグメンテーションマップの１つのセグメントに対応していることを特徴とする態様１５の方法。
［態様１７］
前記ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることを更に備える態様１の方法。
［態様１８］
ぴったり取り囲むバウンディングボックスを推定するためのシステムであって、
１台以上の深度カメラを備えている走査システムと、
前記走査システムを制御するように構成されているプロセッサと、
命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
１つ又は複数の対象物を含むシーンの視覚情報を取り込むように前記１台以上の深度カメラを制御させ、
前記視覚情報に基づいて、前記シーンの前記１つ又は複数の対象物を検出させ、
前記１つ又は複数の対象物に対応する、前記１つ又は複数の対象物の対応する１つの部分的三次元モデルを備えている、１つ又は複数の三次元モデルを生成するために、前記シーンの前記フレームから前記１つ又は複数の対象物のそれぞれを単一化させ、
前記部分的三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのより完全な三次元モデルを外挿させ、
前記より完全な三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのぴったり取り囲むバウンディングボックスを推定させるシステム。
［態様１９］
生成された三次元モデルを備えている前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給させる命令を備える態様１８のシステム。
［態様２０］
前記生成モデルは、条件付き敵対的生成ネットワークを備える態様１９のシステム。
［態様２１］
前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力させる命令を備える態様１８のシステム。

Claims

ぴったり取り囲むバウンディングボックスを推定するための方法であって、
コンピューティングシステムにより、１つ又は複数の対象物を含むシーンの視覚情報を取り込むための１台以上の深度カメラを備えている走査システムを制御することと、
前記コンピューティングシステムにより、前記視覚情報に基づいて、前記シーンの前記１つ又は複数の対象物を検出することと、
前記コンピューティングシステムにより、前記１つ又は複数の対象物に対応する、前記１つ又は複数の対象物の対応する１つの部分的三次元モデルを備えている、１つ又は複数の三次元モデルを生成するために、前記シーンのフレームから前記１つ又は複数の対象物のそれぞれを単一化することと、
前記コンピューティングシステムにより、前記部分的三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのより完全な三次元モデルを外挿することと、
前記コンピューティングシステムにより、前記より完全な三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのぴったり取り囲むバウンディングボックスを推定することを備え、
前記より完全な三次元モデルを前記外挿することは、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力することを備える方法。
前記走査システムは更に、前記１台以上の深度カメラとは別個の１台以上のカラーカメラを備えていることを備える請求項１の方法。
前記１台以上の深度カメラは、
飛行時間型深度カメラと、
構造化光深度カメラと、
少なくとも２台のカラーカメラを備えているステレオ深度カメラ、
少なくとも２台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
少なくとも２台の赤外線カメラを備えているステレオ深度カメラ、または
カラーカメラ、複数の赤外線カメラ、および前記複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを備えているステレオ深度カメラを備える請求項１の方法。
前記シーンにおける前記１つ又は複数の対象物を前記検出することは、前記視覚情報において、背景および基平面を示すものから前記１つ又は複数の対象物を切り離すことを備える請求項１の方法。
生成された三次元モデルを備えている前記より完全な三次元モデルを前記外挿することは、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給することを備える請求項１の方法。
前記生成モデルは、条件付き敵対的生成ネットワークを備える請求項５の方法。
前記一覧表の前記三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けられており、
前記三次元モデルの一覧表を前記検索することは、
前記部分的三次元モデルを、畳み込みニューラルネットワークを備えている特徴記述子に供給することにより、前記部分的三次元モデルの記述子を抽出することと、
前記部分的三次元モデルの前記記述子と、前記一覧表の前記三次元モデルの前記記述子との間の最も高い類似性に従って、前記部分的三次元モデルと一致する前記モデルを識別することを備える請求項１の方法。
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記三次元モデルの周りのバウンディングボックスを定義することと、
複数のボクセルを計算するために前記部分的三次元モデルをボクセル化することと、
前記ボクセルを前記畳み込みニューラルネットワークに供給することを備える請求項７の方法。
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記部分的三次元モデルの複数の二次元ビューをレンダリングすることと、
前記複数の二次元ビューを第１段階畳み込みニューラルネットワークに供給することにより、前記部分的三次元モデルの前記二次元ビューから特徴ベクトルを抽出することと、
前記記述子を生成するために前記特徴ベクトルを組み合わせることを備える請求項７の方法。
前記特徴ベクトルは、最大プーリングを使用して組み合わされる請求項９の方法。
前記より完全な三次元モデルを前記外挿することは、
一致分類を計算するために前記部分的三次元モデルを分類することと、
前記一致分類に対するより完全な三次元モデルを生成するための１つ又は複数の発見的方法ルールをロードすることと、
前記１つ又は複数の発見的方法ルールに従って、前記部分的三次元モデルから前記より完全な三次元モデルを生成することを備える請求項１の方法。
前記１つ又は複数の発見的方法ルールは、前記一致分類に基づく前記より完全な三次元モデルの１つ又は複数の仮定された対称軸、または、前記一致分類に基づく前記より完全な三次元モデルの標準全体形状を備える請求項１１の方法。
前記１つ又は複数の対象物は複数の対象物を備えており、
前記１つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、外観に基づくセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える請求項１の方法。
前記１つ又は複数の対象物は複数の対象物を備えており、
前記１つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、セマンティックセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える請求項１の方法。
セマンティックセグメンテーションを前記適用することは、セグメンテーションマップを計算するために、前記視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを備えており、
各部分的三次元モデルは、前記セグメンテーションマップの１つのセグメントに対応していることを特徴とする請求項１４の方法。
前記ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることを更に備える請求項１の方法。
ぴったり取り囲むバウンディングボックスを推定するためのシステムであって、
１台以上の深度カメラを備えている走査システムと、
前記走査システムを制御するように構成されているプロセッサと、
命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
１つ又は複数の対象物を含むシーンの視覚情報を取り込むように前記１台以上の深度カメラを制御させ、
前記視覚情報に基づいて、前記シーンの前記１つ又は複数の対象物を検出させ、
前記１つ又は複数の対象物に対応する、前記１つ又は複数の対象物の対応する１つの部分的三次元モデルを備えている、１つ又は複数の三次元モデルを生成するために、前記シーンの前記フレームから前記１つ又は複数の対象物のそれぞれを単一化させ、
前記部分的三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのより完全な三次元モデルを外挿させ、
前記より完全な三次元モデルに基づいて、前記１つ又は複数の対象物の前記対応する１つのぴったり取り囲むバウンディングボックスを推定させ、
前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力させる命令を備える、
システム。
生成された三次元モデルを備えている前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給させる命令を備える請求項１７のシステム。
前記生成モデルは、条件付き敵対的生成ネットワークを備える請求項１８のシステム。