JP7458405B2 - 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法 - Google Patents

部分的視覚情報に基づく対象物寸法付けのためのシステムと方法 Download PDF

Info

Publication number
JP7458405B2
JP7458405B2 JP2021535808A JP2021535808A JP7458405B2 JP 7458405 B2 JP7458405 B2 JP 7458405B2 JP 2021535808 A JP2021535808 A JP 2021535808A JP 2021535808 A JP2021535808 A JP 2021535808A JP 7458405 B2 JP7458405 B2 JP 7458405B2
Authority
JP
Japan
Prior art keywords
dimensional model
objects
partial
model
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021535808A
Other languages
English (en)
Other versions
JP2022514757A (ja
Inventor
ダル ムットー カルロ
ティウ キン
ペルッチ フランチェスコ
トラチュースキー ジェイソン
ズッカリーノ トニー
ガーバー チェイス
Original Assignee
パックサイズ リミティド ライアビリティ カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パックサイズ リミティド ライアビリティ カンパニー filed Critical パックサイズ リミティド ライアビリティ カンパニー
Publication of JP2022514757A publication Critical patent/JP2022514757A/ja
Application granted granted Critical
Publication of JP7458405B2 publication Critical patent/JP7458405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Description

[関連出願へのクロス・リファレンス]
本出願は、2018年12月20日に米国特許商標庁において出願された米国仮特許出願第62/783141号の利益を主張するものであり、その開示全体は、ここにおいて参照により組み込まれる。
本発明の実施形態の態様は、対象物についての部分的視覚情報に基づいて、対象物の物理寸法を自動的に推定または決定するためのシステムと方法に関する。
対象物の体積を含む、対象物の寸法を測定または推定することは、リソースプラニングと物流総合管理などのような分野においては一般的なタスクである。例えば、箱を1台以上のトラックに積み込むときに、箱のサイズと形状の推定値は、トラックにおける空いている空間を削減または最小にするための、異なるトラックの間での箱の効率的な分配において支援できる。他の例として、貨物運送または船輸送会社は、輸送される荷物の寸法(および質量または重量)に従って顧客に請求できる。
他の例として、通販小売業者は、種々の小売品物を輸送するための、正しいサイズで作成された箱を識別することに関心を有し得る。これらの品物の多くは直方体形状(例えば、それらは箱に入れられて販売されるため)であるが、多くの他の品物(洗濯洗剤のボトル、または園芸用スコップなどのような品物)は不規則な形状を有し得る。輸送コストを削減するために、これらの通販小売業者は、特別な顧客の注文の一部として、輸送されるアイテムを入れる最小サイズで作成された箱を見つけようと所望する可能性がある。
巻尺または定規などのような測定装置を、対象物に対して物理的に設置することにより対象物の寸法を測定するための比較対象としての技術は、一般的に時間がかかり高価である。
本開示の実施形態の態様は、対象物についての部分的視覚情報に基づいて、対象物の寸法および/または体積を自動的に測定または推定するためのシステムと方法に関する。
本発明の1つの実施形態によれば、ぴったり取り囲むバウンディングボックスを推定するための方法は、コンピューティングシステムにより、1つ又は複数の対象物を含むシーンの視覚情報を取り込むための1台以上の深度カメラを含んでいる走査システムを制御することと、コンピューティングシステムにより、視覚情報に基づいて、シーンの1つ又は複数の対象物を検出することと、コンピューティングシステムにより、1つ又は複数の対象物に対応する、1つ又は複数の対象物の対応する1つの部分的三次元モデルを含んでいる、1つ又は複数の三次元モデルを生成するために、シーンのフレームから1つ又は複数の対象物のそれぞれを単一化することと、コンピューティングシステムにより、部分的三次元モデルに基づいて、1つ又は複数の対象物の対応する1つのより完全な三次元モデルを外挿することと、コンピューティングシステムにより、より完全な三次元モデルに基づいて、1つ又は複数の対象物の対応する1つのぴったり取り囲むバウンディングボックスを推定することを含んでいる。
走査システムは、1台以上の深度カメラとは別個の1台以上のカラーカメラを含むことができる。
1台以上の深度カメラは、飛行時間型(time-of-flight)深度カメラと、構造化光深度カメラと、少なくとも2台のカラーカメラを含んでいるステレオ深度カメラ、少なくとも2台のカラーカメラとカラープロジェクタを含んでいるステレオ深度カメラ、少なくとも2台の赤外線カメラを含んでいるステレオ深度カメラ、または、カラーカメラ、複数の赤外線カメラ、および複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを含んでいるステレオ深度カメラを含むことができる。
シーンにおける1つ又は複数の対象物を検出することは、視覚情報において、背景および基平面を示すものから1つ又は複数の対象物を切り離すことを含むことができる。
生成された三次元モデルを含んでいるより完全な三次元モデルを外挿することは、入力された部分的三次元モデルに基づいて、生成された三次元モデルを予測するように訓練されている生成モデルに、部分的三次元モデルを供給することを含むことができる。
生成モデルは、条件付き敵対的生成ネットワークを含むことができる。
より完全な三次元モデルを外挿することは、部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、部分的三次元モデルと一致するモデルを、より完全な三次元モデルとして出力することを含むことができる。
一覧表の三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けることができ、三次元モデルの一覧表を検索することは、部分的三次元モデルを、畳み込みニューラルネットワークを含む特徴記述子に供給することにより、部分的三次元モデルの記述子を抽出することと、部分的三次元モデルの記述子と、一覧表の三次元モデルの記述子との間の最も高い類似性に従って、部分的三次元モデルと一致するモデルを識別することを含むことができる。
部分的三次元モデルの記述子を抽出することは、三次元モデルの周りのバウンディングボックスを定義することと、複数のボクセルを計算するために部分的三次元モデルをボクセル化することと、ボクセルを畳み込みニューラルネットワークに供給することを含むことができる。
部分的三次元モデルの記述子を抽出することは、部分的三次元モデルの複数の二次元ビューをレンダリングすることと、複数の二次元ビューを第1段階畳み込みニューラルネットワークに供給することにより、部分的三次元モデルの二次元ビューから特徴ベクトルを抽出することと、記述子を生成するために特徴ベクトルを組み合わせることを含むことができる。
特徴ベクトルは、最大プーリングを使用して組み合わせることができる。
より完全な三次元モデルを外挿することは、一致分類を計算するために部分的三次元モデルを分類することと、一致分類に対するより完全な三次元モデルを生成するための1つ又は複数の発見的方法ルールをロードすることと、1つ又は複数の発見的方法ルールに従って、部分的三次元モデルからより完全な三次元モデルを生成することを含むことができる。
1つ又は複数の発見的方法ルールは、一致分類に基づくより完全な三次元モデルの1つ又は複数の仮定された対称軸、または、一致分類に基づくより完全な三次元モデルの標準全体形状を含むことができる。
1つ又は複数の対象物は複数の対象物を含むことができ、1つ又は複数の対象物のそれぞれを、シーンのフレームから単一化することは、外観に基づくセグメンテーションを視覚情報に適用することにより複数の対象物を単一化することを含むことができる。
1つ又は複数の対象物は複数の対象物を含むことができ、1つ又は複数の対象物のそれぞれを、シーンのフレームから単一化することは、セマンティックセグメンテーションを視覚情報に適用することにより複数の対象物を単一化することを含むことができる。
セマンティックセグメンテーションを適用することは、セグメンテーションマップを計算するために、視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを含むことができ、各部分的三次元モデルは、セグメンテーションマップの1つのセグメントに対応できる。
方法は、ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることも含むことができる。
本発明の1つの実施形態によれば、ぴったり取り囲むバウンディングボックスを推定するためのシステムは、1台以上の深度カメラを含んでいる走査システムと、走査システムを制御するように構成されているプロセッサと、命令を格納しているメモリを含んでおり、命令は、プロセッサにより実行されると、プロセッサに、1つ又は複数の対象物を含むシーンの視覚情報を取り込むように1台以上の深度カメラを制御させ、視覚情報に基づいて、シーンの1つ又は複数の対象物を検出させ、1つ又は複数の対象物に対応する、1つ又は複数の対象物の対応する1つの部分的三次元モデルを含んでいる、1つ又は複数の三次元モデルを生成するために、シーンのフレームから1つ又は複数の対象物のそれぞれを単一化させ、部分的三次元モデルに基づいて、1つ又は複数の対象物の対応する1つのより完全な三次元モデルを外挿させ、より完全な三次元モデルに基づいて、1つ又は複数の対象物の対応する1つのぴったり取り囲むバウンディングボックスを推定させる。
生成された三次元モデルを含んでいるより完全な三次元モデルを外挿させる命令は、プロセッサにより実行されると、プロセッサに、入力された部分的三次元モデルに基づいて、生成された三次元モデルを予測するように訓練されている生成モデルに、部分的三次元モデルを供給させる命令を含むことがでる。
生成モデルは、条件付き敵対的生成ネットワークを含むことができる。
より完全な三次元モデルを外挿させる命令は、プロセッサにより実行されると、プロセッサに、部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、部分的三次元モデルと一致するモデルを、より完全な三次元モデルとして出力させる命令を含むことができる。
特許または出願ファイルは、カラーで作成された少なくとも1つの図面を含んでいる。カラー図面を有しているこの特許または特許出願の刊行物のコピーは、要求および必要な費用の支払いにより米国特許商標庁から提供される。
付随する図面は、明細書と共に、本発明の例としての実施形態を示しており、記述と共に、本発明の原理を説明する役割を果たしている。
本発明の1つの実施形態に係るシステムにおける対象物の測定の模式図である。 本発明の1つの実施形態に係るステレオ深度カメラシステムのブロック図である。 本発明の1つの実施形態に係る、対象物の寸法を測定するための方法のフローチャートを示す図である。 テーブル上の洗濯洗剤のボトルを示しているシーンの深度マップを示す図である。 基平面を、仮想カメラの光軸に直交して整列させた、図4Aにおいて示されている深度マップの直交図である。 本発明の1つの実施形態に係る、対象物の垂直方向に投影された点を白で、画像の残りの部分を黒で、対象物の表面の点のすべての垂直投影を含む基平面上の赤い長方形と共に示している図である。 図4Aの深度マップにおいて示されているようなボトルを含むシーンのカラー画像であり、本発明の実施形態に従って計算されたバウンディングボックスが、ボトルのビュー上に重ねられている図である。 本発明の1つの実施形態に係る、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するための方法のフローチャートを示す図である。 本発明の1つの実施形態に係る、シーンの取り込まれた入力視覚情報の解析を実行し、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するように構成されている解析モジュールのブロック図である。 互いに遮蔽していない3つの対象物を含んでいるシーンを示す図である。 図7Aにおいて示されている対象物に対する、計算されたぴったり取り囲むバウンディングボックスを示す図である。 複数の対象物が相互の遮蔽を生成または引き起こしている、取得された三次元シーンの例を示す図である。 深度マップのレンダリングを示す図であり、対象物が背景から切り離され、走査装置と対象物との間の距離が画素の色で符号化されている(例えば、最も近い画素に対してはうす緑、中間の距離の画素に対しては紫、そして、より遠い画素に対しては橙)。 入力画像のセマンティックセグメンテーションを実行するように訓練されている完全畳み込みニューラルネットワーク(FCN)の出力を示した図である。 対象物の部分的三次元モデルから、完全三次元モデルを外挿するための、本発明の1つの実施形態に係る方法を示しているフローチャートを示す図である。 本発明の1つの実施形態に係る、メディア文書が三次元モデルである場合の特徴ベクトルを、三次元モデルをボクセル化することにより計算するための方法を例示しているフローチャートを示す図である。 ボクセル化を使用する、CNNの三次元モデルへの適用を視覚的に示す図である。 本発明の1つの実施形態に係る、クエリ(検索が要求されている)対象物の三次元モデルから、クエリ対象物の記述子を計算するための方法のフローチャートを示す図である。 本発明の1つの実施形態に係る、畳み込みニューラルネットワークに基づく分類システムのブロック図である。 本発明の1つの実施形態に係る最大プーリングの例を示す図である。 本発明の1つの実施形態に係る最大プーリングの例を示す図である。
下記の詳細な記述においては、本発明のある例としての実施形態のみが例として示され記述される。当業者であれば認識するように、発明は多くの異なる形状で具現化でき、ここにおいて記述される実施形態に制限されるとは解釈されるべきではない。明細書を通して、類似の参照番号は類似の要素を示している。
本発明の実施形態の態様は、シーンにおける対象物の物理寸法を自動的に推定するためのシステムと方法に関する。本発明の実施形態の幾つかの態様は、物理対象物の「非接触」測定に関し、深度カメラは、対象物の1つ又は複数の深度画像を撮像し、対象物の寸法(例えば、長さ、幅、高さ、および体積)、またはそのバウンディングボックスは、1つ又は複数の深度画像から推定される。
対象物の寸法付けは、対象物の三次元空間的広がりを推定するタスクである。本発明の実施形態の1つの態様は、所与の対象物に対する最小取り囲みバウンディングボックス(MEBB)の推定値を計算することに関する。便宜上、ここにおいて使用されているように、MEBBという用語は、ぴったりしているバウンディングボックスを指し示すために使用される。そのような測定を実行するために、1台以上のカメラを含んでいる取得システムを使用できる。深度カメラは、それらの三次元幾何学形状を取得する固有の機能を考慮すると、このタイプのタスクに特に適している。対象物の周りのぴったりしているバウンディングボックスを見出すことによるなどのように、取得システムを使用して、体積測定に関するボックスフィッティングを実行するための技術の例は、2019年1月4日に米国特許商標庁において出願された米国特許出願第16/240,691号の「SYSTEMS AND METHODS FOR VOLUMETRIC SIZING(体積測定に関するサイジングのためのシステムと方法)」と、2018年1月5日に米国特許商標庁において出願された米国暫定特許出願第62/613957号において記述されており、それらの開示の全体は、ここにおいて参考により組み込まれる。
対象物のMEBBの計算は、対象物の完全三次元モデルから相対的に単純であるが、多くの場合においては、対象物に対しては、部分的情報のみしか利用可能でない。(明確性のために、「三次元モデル」という用語は、ここにおいて使用されているように、点群と三次元メッシュを含んでいる)。例えば、目標対象物の形状の正面部分のみの取得が実行された場合、または、目標対象物が、シーンにおける他の対象物により遮蔽されている場合は、対象物の部分的三次元モデルのみしか取得できず(例えば、取得された三次元モデルは、対象物の一部しか含むことができない)、それにより、対象物のMEBBを推定することを困難にする(例えば、対象物の部分的三次元モデルのMEBBは、対象物の実際の体積よりも小さく推定される可能性がある)。そのため、本発明の実施形態の態様は、対象物全体の推定体積を計算するために、三次元モデルの欠けている部分の内容を推定するためのシステムと方法に関する。本発明の実施形態の幾つかの態様は、三次元モデルにおいて欠けている部分の推定された、または予測された形状の精度を向上するための対象物識別および分類技術の使用に関する。
図1は、本発明の1つの実施形態に係るシステムにおける対象物の測定の模式図である。図1において示されているように、深度カメラシステム100は、ここでは、一足の靴の片方である目標対象物10の画像を撮像する。図1において示されているように、目標の靴10は、他の対象物12(この場合は、他方の靴)により部分的に遮蔽されている。本発明の幾つかの実施形態においては、深度カメラシステム100は、深度カメラシステム100により取り込まれた測定値を表示するための表示装置122を含むことができる。本発明の他の実施形態においては、表示装置122は、別個の報告または監視システムの場合などのように、深度カメラシステム100のカメラとは物理的に別個であってよい。図1において示されているように、表示装置122は、目標対象物に対するMEBB122Bの寸法122Cと共に、目標対象物10を示すもの122Aの周りの最小取り囲みバウンディングボックス(MEBB)122Bの外形を表示している。
幾つかの状況においては、システム100は、対象物10がその上で静止している電子重量計または電子天秤と通信でき、対象物10の測定された質量または重量240もまた、システム100のディスプレイ122上に示すことができる。幾つかの状況においては、対象物の重量または質量は、事前に測定してメモリ(例えば、データベース)に格納しておくことができ、表示装置122上の表示のために検索できる。
本発明の幾つかの実施形態においては、深度カメラシステム100は、RGB-D(赤、緑、青、および深度)カメラなどのように、色情報(例えば、対象物の表面の色または、その表面の「テクスチャ」についての情報)と幾何学形状情報(例えば、対象物のサイズと形状についての情報)を取得できる。これ以降の開示においては、「RGB-Dカメラ」という用語は、一般性を失うことなく、色および幾何学形状情報を取得できるそのようなシステムのことを指し示すために使用される。
通常のカメラと同様に、RGB-Dカメラは、中心光学投影によりシーンの「写真」を撮影する。通常のカメラは、対象物の表面上の任意の可視点から反射された光の色を測定できるだけであるが、RGB-Dカメラは、表面上の同じ点までの距離(「深度」)もまた測定できる。画素pにおける表面の可視点の深度を測定することにより、RGB-Dカメラは、この点の全三次元位置を計算できる。これは、画素pが、表面の点への単一の視線を特徴付け、視線に沿う深度は、視線が表面の点と交差する位置を決定するからである。画素pを通しての視線は、標準の手順を使用して較正できる、カメラ固有のパラメータから計算できる。
単一のスナップ写真(例えば、シーンに関してRGB-Dカメラの特別な姿勢から撮像された画像のセット)から、RGB-Dカメラは、RGB-Dカメラの二次元カメラのそれぞれにより撮像された個々の画像から生成された視差マップから「深度マップ」(または「点群」)を生成できる。深度マップまたは深度画像は、深度カメラから見ることができるシーンの表面の点の三次元位置(カメラの基準フレームに関して定義できる)のセットを含んでいる。深度マップにおける各画素は、カラーカメラにより特別な画素に対して撮像されたような色(例えば、赤(R)、緑(G)、および青(B)の3つの値で表現される)と関連付けることができる。
本発明の幾つかの実施形態においては、走査システム100は、手持ち型装置において実現される。本開示においては、「手持ち型装置」という用語は、スマートフォン、タブレットコンピュータ、または、ディスプレイが取り付けられている携帯型バーコードスキャナにサイズと形状が類似している特定目的スキャナ(または、代替的に、ハンドルおよびトリガが取り付けられているスマートフォン)などのように、片手または両手で快適に保持および操作できる装置のことである。
本発明の幾つかの実施形態においては、走査システム100は、フレームまたは他の支持構造体に強固に搭載され、搬送器のベルト上または走査ステーション(例えば、計量場所)で対象物の画像を取得するために配置されている1台以上の深度カメラであって、その深度カメラにより撮像された画像の処理は、通信ネットワーク(例えば、ローカルエリアネットワーク)上でその深度カメラに接続されているプロセッサとメモリにより実行できる深度カメラなどのような静止装置として実現される。
上記に注記したように、本発明の実施形態の態様は、対象物を入れるバウンディングボックスまたは最小バウンディングボックスの寸法を計算するためのシステムと方法に関する。これは、対象物の荷造りをするために使用できる箱と考えることができ、箱の寸法は、深度カメラシステム100により得られる対象物の観察から計算される。最小バウンディングボックスの場合、箱の寸法は、対象物の全体を入れるようなバウンディングボックスの体積、面積、または周囲の長さなどのような、ある特別な特性を最小化する。
深度カメラハードウェア
本発明の幾つかの実施形態においては、「深度カメラ」としても知られている距離カメラ100は、重なる視野を有している少なくとも2台の標準二次元カメラを含んでいる。より詳細には、これらの二次元カメラはそれぞれ、相補型金属酸化膜半導体(CMOS)イメージセンサ、または電荷結合素子(CCD)イメージセンサなどのようなデジタルイメージセンサ、および光をイメージセンサ上に焦点を合わせるように構成されている光学システム(例えば、1つ又は複数のレンズ)を含むことができる。二次元カメラの光学システムの光軸は、わずかに異なる視点からであるが、2台のカメラが実質的に同じシーンの画像を取得するように実質的に平行であってよい。従って、視差により、カメラからより遠いシーンの部分は、2台のカメラで撮像された画像においては実質的に同じ場所に現れ、カメラにより近いシーンの部分は、異なる場所に現れる。
幾何学的に較正された深度カメラを使用すると、基準座標系(例えば、その原点を深度カメラの位置に有する座標系)に関して、対象物の表面上のすべての見える点の三次元位置を識別することが可能である。そのため、距離カメラ100により撮像された距離画像または深度画像は、三次元点の「クラウド(群)」として表現でき、対象物の表面の部分を(深度カメラの視野内の他の表面と共に)記述するために使用できる。
図2は、本発明の1つの実施形態に係るステレオ深度カメラシステムのブロック図である。図2において示されている深度カメラシステム100は、第1カメラ102、第2カメラ104、投影源106(または、照明源またはアクティブ投影システム)、およびホストプロセッサ108とメモリ110を含んでおり、ホストプロセッサは、例えば、グラフィックス処理ユニット(GPU)、より汎用的なプロセッサ(CPU)、適切に構成されたフィールドプログラマブルゲートアレイ(FPGA)、または特定用途向け集積回路(ASIC)であってよい。第1カメラ102と第2カメラ104は、それらの相対的位置と向きが実質的に固定されるように、例えばフレーム上に強固に取り付けることができる。第1カメラ102と第2カメラ104は、共に「深度カメラ」と称することができる。第1カメラ102と第2カメラ104は、対応するイメージセンサ102aと104aを含んでおり、対応する画像信号プロセッサ(ISP)102bと104bもまた含むことができる。種々の構成要素は、システムバス112上で互いに通信できる。深度カメラシステム100は、他の装置と通信するためのネットワークアダプタ116、深度カメラ100の加速度を検出(例えば、向きを決定するために、重力の方向を検出)するためのジャイロスコープなどのような慣性測定ユニット(IMU)118、および深度カメラシステム100により収集且つ処理されたデータを格納するためのNANDフラッシュメモリなどのような持続性メモリ120などのような追加的構成要素を含むことができる。IMU118は、多くの現代のスマートフォンにおいて一般的に見出されるタイプのものであってよい。画像撮像システムはまた、ユニバーサルシリアルバス(USB)インタフェースコントローラなどのような他の通信構成要素も含むことができる。幾つかの実施形態においては、深度カメラシステム100は更に、表示装置122と、1つ又は複数のユーザ入力装置124(例えば、表示装置122のタッチ感知パネルおよび/または1つ又は複数の物理ボタンまたはトリガ)を含んでいる。
図2において示されているブロック図は、深度カメラ100を、ホストプロセッサ108、メモリ110、ネットワークアダプタ116、IMU118、および持続性メモリ120に結合されている2台のカメラ102と104を含んでいるように示しているが、本発明の実施形態はそれに制限されない。例えば、3台の深度カメラ100がそれぞれ、カメラ102と104、投影源106、および通信構成要素(例えば、USB接続部またはネットワークアダプタ116)を単に含むことができ、3台の深度カメラ100のカメラ102と104により撮像された二次元画像の処理は、それぞれの通信構成要素またはネットワークアダプタ116を使用して深度カメラ100と通信状態にある共有プロセッサまたは共有されているプロセッサの集合体により実行できる。
幾つかの実施形態においては、カメラ102と104のイメージセンサ102aと104aは、RGB-IRイメージセンサである。可視光(例えば、赤-緑-青、またはRGB)と不可視光(例えば、赤外線またはIR)情報を検出できるイメージセンサは、例えば、電荷結合素子(CCD)または相補型金属酸化膜半導体(CMOS)センサであってよい。一般的に、従来のRGBカメラセンサは、50%の緑、25%の赤、そして25%の青の「ベイヤレイアウト」または「GRBGレイアウト」で配置されている画素を含んでいる。帯域通過フィルタ(または「マイクロフィルタ」)が、ベイヤレイアウトに従って、緑、赤、および青の波長のそれぞれに対して、個々のフォトダイオードの前方(例えば、フォトダイオードと、カメラと関連付けられている光学機器との間)に置かれる。一般的には、従来のRGBカメラセンサはまた、電磁スペクトルのIR部分における信号を更に遮断する赤外線(IR)フィルタまたはIRカットオフフィルタ(例えば、レンズの一部として、または、イメージセンサチップ全体上のコーティングとして形成される)も含んでいる。
RGB-IRセンサは、従来のRGBセンサに実質的に類似しているが、異なるカラーフィルタを含むことができる。例えば、RGB-IRセンサにおいては、4つのフォトダイオードのすべてのグループにおける緑フィルタの1つは、赤外線画素が可視光画素の中に混入されている、25%の緑、25%の赤、25%の青、そして25%の赤外線であるレイアウトを作成するために、IR帯域通過フィルタ(またはマイクロフィルタ)と置き換えられている。加えて、IRカットオフフィルタをRGB-IRセンサから省略することができ、IRカットオフフィルタを、赤、緑、および青の光を検出する画素上のみに位置させることができ、またはIRフィルタを、特別な波長区間(例えば、840~860nm)における光と共に、可視光を通過させるように設計できる。電磁スペクトル(例えば、赤、青、緑、および赤外線の光)の多数の部分、または帯域、またはスペクトル帯域における光を捕捉できるイメージセンサは、ここにおいては、「マルチチャネルイメージセンサ」と称する。
本発明の幾つかの実施形態においては、イメージセンサ102aと104aは、従来の可視光センサである。本発明の幾つかの実施形態においては、システムは、1台以上の可視光カメラ(例えば、RGBカメラ)を含んでおり、それとは別個に、1台以上の不可視光カメラ(例えば、赤外線カメラであって、IR帯域通過フィルタが画素全体上にわたり位置している)を含んでいる。本発明の他の実施形態においては、イメージセンサ102aと104aは赤外線(IR)光センサである。本発明の幾つかの実施形態においては、イメージセンサ102aと104aは赤外線(IR)光センサである。幾つかの実施形態(イメージセンサ102aと104aがIRセンサであるような実施形態)においては、深度カメラ100は、カラーイメージセンサ105a(例えば、ベイヤー配列またはRGBG配列で配置されているイメージセンサなどのような、赤、緑、および青の波長における可視光を検出するように構成されているイメージセンサ)と画像信号プロセッサ105bを含んでいる第3カメラ105を含むことができる。
深度カメラ100がカラーイメージセンサ(例えば、RGBセンサまたはRGB-IRセンサ)を含んでいる幾つかの実施形態においては、深度カメラ100により収集されたカラー画像データは、カラーカメラ150により取り込まれたカラー画像データを補完できる。加えて、深度カメラ100がカラーイメージセンサ(例えば、RGBセンサまたはRGB-IRセンサ)を含んでいる幾つかの実施形態においては、カラーカメラ150をシステムから省略できる。
一般的に言えば、ステレオ深度カメラシステムは、互いに間隔を空けて配置され、剛性フレームなどのような共有構造体に強固に搭載されている少なくとも2台のカメラを含んでいる。カメラは実質的に同じ方向(例えば、カメラの光軸は実質的に平行であってよい)を向いており、重なる視野を有している。これらの個々のカメラは、例えば、光をイメージセンサに向ける、またはそこに焦点を合わせるように構成されている光学システム(例えば、1つ又は複数のレンズを含んでいる)を有する相補型金属酸化膜半導体(CMOS)または電荷結合素子(CCD)イメージセンサを使用して実現できる。光学システムは、例えば、光学システムが「広角レンズ」または「望遠レンズ」またはその間のレンズとして実現されているかどうかに基づいて、カメラの視野を決定できる。
下記の検討においては、深度カメラシステムの画像取得システムは、「マスタ」カメラと1台以上の「スレーブ」カメラと称することができる少なくとも2台のカメラを有していると称することができる。一般的に言えば、推定された深度または視差マップはマスタカメラの視点から計算されるが、何れのカメラもマスタカメラとして使用できる。ここにおいて使用されているように、マスタ/スレーブ、左/右、上方/下方、第1/第2、およびCAM1/CAM2などのような用語は、注記しない限り、交換可能に使用される。言い換えれば、何れのカメラもマスタまたはスレーブカメラであることができ、右側のカメラに関してその左側にあるカメラに対する考察はまた、対称性により、他の方向においても適用できる。加えて、下記に提示される考察は、種々の数のカメラに対して有効であるが、便宜上、それらは、2台のカメラを含んでいるシステムの環境において一般的に記述される。例えば、深度カメラシステムは、3台のカメラを含むことができる。そのようなシステムにおいては、カメラの内の2台は不可視光(赤外線)カメラであってよく、3番目のカメラは可視光カメラ(例えば、赤/青/緑のカラーカメラ)であってよい。3台のカメラはすべて互いに対して光学的に位置合わせ(例えば、較正)できる。3台のカメラを含む深度カメラシステムの1つの例は、2016年5月5日に米国特許商標庁において出願された米国特許出願第15/147,879号の「Depth Perceptive Trinocular Camera System(深度知覚三眼顕微鏡カメラシステム)」において記述されており、その開示の全体は、ここにおいて参照により組み込まれる。そのような3台のカメラシステムはまた、赤外線カメラにより検出可能な波長区間(例えば、840~860nm)における光を出射するように構成されている赤外線照明機も含むことができる。
カメラにより画像が取得されたシーンにおける特徴の深度を検出するために、深度カメラシステムは、カメラにより撮像された画像にそれぞれにおける特徴の画素位置を決定する。2つの画像における特徴間の距離は視差と称され、それは対象物の距離または深度と反比例関係にある。(これは、対象物を一度に片目で見るときに、対象物がどのくらい「シフト」するかを比較するときの現象であり、シフトの大きさは、対象物がそれを見る人の目からどのくらい遠くにあるかに依存し、より近い対象物はより大きくシフトし、より遠い対象物はより小さくシフトし、遠くにある対象物は、検出可能なシフトがほとんどないかまったくない)。視差を使用して深度を計算するための技術は、例えば、R.Szeliski.の「Computer Vison:Algorithms and Applications(コンピュータビジョン:アルゴリズムと適用)」,Springer,2010pp.467(以下参照)において記述されている。
マスタとスレーブカメラとの間の視差の大きさは、カメラの画素解像度、カメラ間の距離、およびカメラの視野などのような深度カメラシステムの物理特性に依存する。従って、精度の良い深度測定値を生成するために、深度カメラシステム(または深度知覚深度カメラシステム)は、これらの物理特性に基づいて較正される。
幾つかの深度カメラシステムにおいては、カメラを、カメラのイメージセンサの画素の水平方向の列が実質的に平行になるように配置できる。画像修正技術を、カメラのレンズの形状およびカメラの向きのばらつきによる画像の歪みを吸収するために使用できる。
より詳細には、カメラ較正情報は、等価カメラシステムのエピポーラ線が、修正された画像の走査線と整列するように入力画像を修正するための情報を提供できる。そのような場合においては、シーンにおける三次元点は、マスタおよびスレーブ画像における同じ走査線指標上に投影される。uとuを、マスタおよびスレーブ等価カメラそれぞれにおける同じ三次元点pの画像の走査線上の座標とし、各カメラにおいては、これらの座標は、主要点(光軸と焦点面が交差する点)に中心が置かれた軸システムを指し示しており、水平軸は、修正された画像の走査線に平行であるとする。差u-uは視差と呼ばれ、dで示され、それは、修正されたカメラに関する三次元点の直交距離(つまり、点の、何れかのカメラの光軸上への直交投影の長さ)に反比例する。
ステレオアルゴリズムは、視差のこの特質を利用する。これらのアルゴリズムは、左および右側のビューにおいて検出された点(または特徴)をマッチングすることにより三次元再構成を達成し、それは、視差を推定することと等価である。ブロックマッチング(BM)は、通常使用されるステレオアルゴリズムである。マスタカメラ画像における画素が与えられると、アルゴリズムは、この画素を、スレーブカメラ画像における任意の他の画素とマッチングさせるためのコストを計算する。このコスト関数は、マスタ画像における画素とスレーブ画像における画素を取り囲む小さなウィンドウ内の画像の内容間の非類似性として定義される。点における最適視差は、最終的には最小マッチングコストの引数として推定される。この手順は、普通は、ウィナー・テイクス・オール(Winner-Takes-All(WTA))として対処される。これらの技術は、例えば、R.Szeliski.の「Computer Vison:Algorithms and Applications(コンピュータビジョン:アルゴリズムと適用)」,Springer,2010.おいてより詳細に記述されている。BMのようなステレオアルゴリズムは、外観の類似性に依存しているので、スレーブ画像における2つ以上の画素が同じ局所的外観を有していると、これらの画素はすべてマスタ画像における同じ画素に類似する可能性があり、不明瞭な視差推定という結果になるので、視差の計算は難しくなる。これが起こり得る典型的な状況は、平坦な壁などのような、一定の明るさを有するシーンを視覚化するときである。
その開示の全体が、ここにおいて参照により組み込まれる、2016年7月12日に発行された米国特許第9,392,262号の「System and Method for 3-D Reconstruction Using Multiple Multi-Channel Cameras(多数のマルチチャネルカメラを使用する三次元再構築のためのシステムと方法)」に記述されているような、小さな三次元詳細を捕捉できるブロックマッチングアルゴリズムの性能を向上または最適化するために設計されているパターンを投影することにより追加的照明を提供する方法が存在する。他のアプローチは、シーンに対してテクスチャを提供し、特には、そうでなければ同じに見えるシーンの部分を明確にすることによりテクスチャのない領域の深度推定を向上するために単に使用されるパターンを投影する。
本発明の実施形態に係る投影源106は、可視光(例えば、人間および/または他の動物に見えるスペクトル内の光)または不可視光(例えば、赤外線光)を、カメラ102と104によりその画像が取得されるシーンに向けて出射するように構成できる。言い換えると、投影源は、カメラ102と104の光軸と実質的に平行な光軸を有することができ、カメラ102と104の視野の方向に光を出射するように構成できる。このように、2台のカメラ102と104が、投影源106と共に配置されている配置は、「アクティブステレオ」と称せられることがある。幾つかの実施形態においては、投影源106は、多数の別個の照明機を含むことができ、それぞれは、他の照明機(または複数の照明機)の光軸(または複数の光軸)から間隔をおいて配置され、およびカメラ102と104の光軸から間隔をおいて配置されている光軸を有している。
可視光投影源は、被写体の目の中に入り込んで、不快感を与えるように照らす可能性があり、または、シーンにパターンを追加することにより被写体の体験に望ましくない影響を与える可能性があるが、不可視光は、被写体の見る能力に干渉することはないので、不可視光投影源は、被写体が人間である状況(テレビ会議などのような)に対しては、より良好に適切であり得る。不可視光投影源を含んでいるシステムの例は、例えば、2015年6月30日に米国特許商標庁において出願された米国特許出願第14/788,078号の「Systems and Methods for Multi-Channel Imaging Based on Multiple Expose Settigs(多数の露光環境に基づくマルチチャネル画像取得のためのシステムと方法)」に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。
アクティブ投影源はまた、例えば、時間の経過と共に変化しないパターンである静的パターン、および、例えば、時間の経過と共に変化するパターンである動的パターンを投影するものとして分類できる。両者の場合においては、パターンの1つの態様は、投影されたパターンの照明レベルである。これは、深度カメラシステムの深度ダイナミックレンジに影響を与え得るので適切であり得る。例えば、光学的照明が高いレベルの場合、深度測定を遠くの対象物に対して実行でき(例えば、距離の二乗に反比例する係数で、対象物までの距離に対して光学的照明が減少していくことを克服して)、および明るい周囲の光の条件において実行できる。しかし、高い光学的照明レベルは、クローズアップされたシーンの部分の飽和を引き起こし得る。一方、低い光学的照明レベルは、近くの対象物の測定を可能にできるが、遠くの対象物に対しては測定を可能にできない。
深度を計算するために使用される機構(アクティブ照明機のある、またはない三角測量、または飛行時間型)、シーンの幾何学形状(各表面要素と、関連付けられている視線との間の角度などのような、または、ステレオシステムにおける各センサからのビューを遮る可能性のある部分的遮蔽の存在)、および表面の反射特性(ステレオマッチングを妨害する、または、光をプロジェクタから離れるように反射する可能性のある鏡面構成要素の存在、または表面により反射される光を不十分にする非常に低いアルベド(反射能)などのような)を含む多数の要因により、ある領域においては深度計算が失敗する可能性がある。深度計算が失敗する、または信頼性がない深度画像のそれらの画素に対しては、色情報のみが利用可能である。
本発明の実施形態は、ステレオ深度カメラシステムに関してここにおいて記述されているが、本発明の実施形態は、それに制限されず、構造化光深度カメラ、飛行時間型カメラ、およびライダーカメラなどのような他の深度カメラシステムと共に使用することもできる。
カメラの選択により、三次元モデルを生成するために、異なる技術を使用できる。例えば、Dense Tracking and Mapping in Real Time(DTAM)(リアルタイムの稠密追尾と環境地図作成)は、走査のためにカラーキューを使用し、Simultaneous Localization and Mapping(SLAM)(自己位置推定と環境地図作成の同時実行)は、三次元モデルを生成するために深度データ(または、深度とカラーデータの組み合わせ)を使用する。
対象物に対する最小取り囲みバウンディングボックス(MEBB)の計算
対象物がテーブルの上に静止しており、他の対象物により遮蔽されていな単純な場合においては、2019年1月4日に米国特許商標庁において出願された米国特許出願第16/240,691号の「SYSTEMS AND METHODS FOR VOLUMETRIC SIZING(体積測定に関するサイジングのためのシステムと方法)」(参照により組み込まれる)に記述されているアプローチを、対象物の体積を計算するために適用できる。この技術の態様は、下記において大要を記述する。
本発明の幾つかの実施形態の態様は、測定される対象物または箱は地面の上に置かれ、それ自体が地面上にある1つの面を有している(例えば、地面と平行で、地面と接触している1つの面を有している)取り囲み直方体(例えば、矩形柱)のサイズを決定するということを仮定している。ほとんどの現実的なシナリオにおいては、この仮定は特別に制限的ではなく、その理由は、一般的に言えば、箱はその1つの面を下にして置かれているときは、その縁部または隅部の1つの上に置かれているときとは反対により安定しており、対象物(例えば、テレビとコンピュータディスプレイ、液体の容器など)は、箱に荷造りされるときに対象物の向きに対応する1つ又は複数の自然な向きを有している可能性があるからである。従って、実際に遭遇する箱と対象物の大半は、1つの面が地面に向いており、そうでない場合は、1つの面を地面上に置くように操作できる。
便宜上、対象物が置かれる表面は、ここでは「地面」または「基平面」と称され、特別な環境における、水平面の特別な実際の高さに制限されない。例えば、本発明の実施形態は、対象物または箱が、テーブル、高い所にある重量計、トラックの荷台などのような高さのある水平面上に置かれている状況においても等しく適用可能である。更に、本発明の実施形態は、地面または基平面が完全に水平(つまり、重力方向に垂直)であることを要求せず、地面または基平面が水平面に関してわずかに傾いている状況においても適用可能である。
1つの面が地面上にある取り囲み箱を計算するだけにすることで、本発明の実施形態は、比較対象の技術に対して計算の速度を大幅に上げる。これは、本発明の実施形態が、対象物の寸法の迅速な測定(例えば、分のオーダーではなく、秒以下のオーダーで)を提供することを可能にし、それにより、倉庫または出荷センターなどのような動的作業環境において容易な有用性を提供する。
加えて、幾つかの比較対象の技術は、表面の点の色を参照しないで三次元データ(例えば、計算された点群)を考慮する。対照的に、本発明の実施形態の態様は、深度情報に加えて色情報の使用に関する。色情報は、深度が対象物の表面全体で信頼性を有して計算できない状況においては有用である。
本発明の実施形態の態様は、2つの異なる変形例、ここにおいては、RGB-Dカメラから見える対象物を取り囲む箱の寸法を計算するための「モジュール」と称されるものに関して下記に記述される。第1モジュールは、一般的な対象物(例えば、対象物の形状についての仮定を設けない対象物)に対して動作する。第2モジュールは、直方体(例えば、箱)形状を有する対象物に特化している。両方のモジュールは、RGB-Dカメラで画像が取得された対象物を取り囲む、地面上にあるぴったり(例えば、最小)の箱のパラメータ(例えば、長さ、幅、および高さ)を返す。
対象物は、典型的には、特定の表面の色(例えば、対象物の表面の異なる部分における異なる色)と幾何学形状(これらは、場所および材料における折りたたみの深度に基づく、ソフトハンドバッグまたはダッフルバッグの表面の形状におけるばらつきなどのような、同じ対象物の異なるものの間のばらつきの影響を受ける可能性があるが)の両者により特徴付けることができる。このタイプの情報は、下記により詳細に記述するように、対象物自身のサイズと寸法を推定するために使用できる。
対象物の色と幾何学形状は、上記のように、深度カメラシステム100のRGB-Dカメラなどのような、特殊化されたハードウェアを使用して得ることができる。幾つかの実施形態に係るRGB-Dカメラは、1台以上のカラーカメラ(例えば、カラーカメラ105)を含んでおり、この1台以上のカラーカメラは、1台以上のカメラにより、および1台以上の深度カメラ(例えば、カメラ102と104)により画像が取得されたシーンの色情報を取得し、1台以上の深度カメラは、幾何学形状情報を取得する(例えば、赤外線光を使用して取得する)。幾つかの実施形態においては、RGB-Dカメラは、1台以上のカラーカメラと1台以上の赤外線(IR)カメラを含んでおり、それらは、IR構造化光照明機(例えば、投影源106)と結合されて、深度カメラを構成する。2台のIRカメラとIR構造化光照明機がある場合はアクティブステレオを呼ばれる。
カラーカメラと深度カメラは同期でき且つ幾何学的に較正でき、それにより、幾何学的に整列できるカラー画像と、対応する深度マップ(例えば、深度マップの各画素または位置は、カラー画像からの対応する色と相関付けることができ、それによりシーンの表面の色を撮像することを可能にする)により構成されるフレームのシーケンスを撮像することを可能にする。深度マップと、深度マップとほぼ同時に撮像されたカラー画像の組み合わせは、データの「フレーム」と称することができる。この場合、深度マップ(または深度画像)を有するカラー画像はRGB-Dフレームと呼ぶことができ、それは、単一のカメラで、単一のシャッターで、および単一の有利な視点から取得されたかのように(個々のカメラ102、104、および105は、わずかに異なる位置に物理的に位置されているが)、色(RGB)および深度(D)情報の両者を含んでいる。
上記に注記したように、深度カメラシステム100は慣性測定ユニット(IMU)118を含むことができ、IMU118は、ソフトウェアレベルまたはハードウェアレベルの何れかでRGB-Dカメラと同期させられ、それらの相対的空間位置に関して、RGB-Dカメラと随意的に較正できる加速度計(例えば、3軸加速度計)を含んでいる(例えば、IMU118は、カメラ102、104、および105に強固に接続できる)。従って、IMU118は、深度カメラシステム100の加速度および/または向きについての情報を提供でき、それにより、撮像された深度フレームに対する深度カメラシステム100の向きについての情報を提供できる。例えば、IMU118は、撮像された深度フレームにおいて何れの方向が「下向き」(重力の方向)であるかを識別するために使用できる。
本発明の実施形態に係る種々の動作は、下記により詳細に検討されるように、深度カメラシステム100により撮像された深度フレームを受信するように構成されている1つ又は複数のコンピューティング装置を使用して実行できる。幾つかの実施形態においては、すべての動作は、単一のコンピューティング装置(例えば、深度カメラシステム100のホストプロセッサ108とメモリ110)において実行される。本発明の他の実施形態においては、深度カメラシステムからの計算されたRGB-Dフレームは、別個のコンピューティング装置のプロセッサとメモリにより、または、深度カメラシステムに物理的に結合されている別個のプロセッサとメモリにより解析される。加えて、種々の動作は、データをメモリ(例えば、ダイナミックメモリおよび/またはスタティックメモリ)に格納でき、入出力(I/O)インタフェース(例えば、ユニバーサルシリアルバスまたはシリアルUSB)およびネットワーキングインタフェース(例えば、IEEE 802.11b/g/n/ac WiFiなどのような無線ローカルエリアネットワーク、IEEE 802.3 Ethernet(登録商標)、3G/4Gセルラー接続、およびBluetooth(登録商標)(ブルートゥース(登録商標))などのような有線ローカルエリアネットワーク)を通して、本発明の実施形態に従って、体積測定に関するボックスフィッティングを実行するために命令のセットを実行するためにデータを受信および送信できる、汎用中央演算処理装置(CPU)、グラフィカル処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)および/または特定用途向け集積回路(ASIC)などのような汎用または特定目的処理ユニットの1つ以上を使用して実現できる。
発明の幾つかの実施形態においては、他のセンサは、I/Oまたはネットワーキングインタフェースを通してコンピューティング装置に接続されている。例えば、電子重量計は、対象物の重量の測定値を提供でき、バーコード復号システムは、対象物についてのメタデータが、データベースまたは他のデータ格納装置から検索されることを可能にするために、対象物の識別子(例えば、ユニバーサルプロダクトコード(商品識別コード)またはUPC)を提供できる。幾つかの実施形態においては、バーコード復号システムは、深度カメラシステムのカラーカメラにより撮像されたバーコードの画像を使用できる(例えば、カラー画像の部分に現れるバーコードに画像修正を適用する)。
上記に注記したように、本発明の実施形態の幾つかの態様は、対象物(例えば、任意の対象物)のバウンディングボックスを計算することに関する。図3は、本発明の1つの実施形態に係る、対象物の寸法を測定するための方法のフローチャートである。
本発明の幾つかの実施形態においては、プロセスは、対象物を含んでいるシーンの深度マップから開始し、対象物をシーンから分離310することに進み、対象物が位置している基平面を検出330し、基平面上に投影された対象物の長方形の外形を検出350し、基平面からの対象物の高さを計算370し、対象物を取り囲むバウンディングボックスの計算された寸法を出力390する。シーンの深度マップは、上述したように、深度カメラシステム100(例えば、RGB-Dカメラ)を使用して撮像できる。上記に注記したように、便宜上、ここにおいて動作は、深度カメラシステム100のホストプロセッサ108により実行されるものとして記述されるが、本発明の実施形態はそれに制限されず、幾つかの実施形態においては、種々の動作を、CPU、GPU、FPGA、および/またはASICなどのような1つ又は複数の他のコンピューティング装置により実行でき、ここにおいて、1つ又は複数の他のコンピューティング装置は、深度カメラシステム100と同じ物理装置に統合でき(例えば、同じ筐体に収容できる、および/または、同じ回路基板上に位置させることができ)、および/または、深度カメラシステム100から切り離すことができる(例えば、I/Oインタフェースおよび/またはネットワークインタフェース116の1つ以上を通して深度カメラシステムと通信状態にある)。
動作310において、プロセッサ108は、対象物をシーンから分離する。幾つかの実施形態においては、対象物は、シーンにおける他の対象物から切り離されるまたは「分離される」(例えば、クラッタ12に対応する画素は、下記の動作においては無視できる、または、撮像された深度マップから消去できる)。対象物は地面(または水平な表面)14上に位置することができる。
本発明の幾つかの実施形態によれば、対象物10に対応する三次元モデル(例えば、RGB-Dフレームの画素、または、点群の点)の部分は、点群の点(または三次元モデルの頂点)、または、深度カメラシステムの視点に最も近いRGB-Dフレームの画素を選択することにより識別される(幾つかの実施形態においては、この決定もまた、画像の端部における近くのクラッタを除去するために、点が画像の中心にどのくらい近いかに応じて重み付けすることができる)。これは、注目対象物10は、一般的には、カメラに最も近いシーン(例えば、前景)における対象物であるという仮定に基づいている。本発明の幾つかの実施形態においては、網線250(または十字線)をビューの中に表示することができ、十字線の下の画素は、注目対象物10に対応する初期点として選択される。網線250は、システムの発見的方法に頼るのではなく、ビューの何れの特別な部分が注目対象物10に対応するかを特定するための視覚キューをユーザに提供することによりシステムの有用性を向上できる。
注目対象物10の初期点または画素が選択されると、本発明の幾つかの実施形態においては、シーンにおいて見える対象物の残りの部分を選択するために、「フラッドフィル(塗りつぶし)」動作を実行できる。これは、二次元グラフィックスにおけるフラッドフィル動作に類似しており、初期画素を選択でき、色空間における閾値距離内の隣接する画素(例えば、類似の色の画素)は、選択された画素のセットに追加され、プロセスは、それ以上の画素を選択に追加できなくなるまで、その条件を満たす隣接画素を反復して追加する。
より詳細には、本発明の1つの実施形態においては、三次元フラッドフィル動作は、対象物の初期点を識別することで開始し、そして、三次元空間において、現在選択されている画素と「連続的」であり、隣接していると考えられる十分に近い画素を追加する。例えば、図1を参照すると、箱の隅は、カメラに最も近いこと、および画像の中心に最も近いことを考慮すると、対象物の初期点として識別できる。カメラに最も近い箱の隅に近い点または画素は、箱の隅に対応する点に近い(そして、その点と「連続的」であると考えられる)。同様に、箱の上部、前面、および側面に沿う画素は、シーンにおけるそれらの隣接する画素と「連続的」で近いと考えられる。一方、箱10の背後のクラッタ12の点の三次元位置は、箱10の上面からクラッタ12の表面へ遷移するときに範囲(例えば、深度カメラシステム100からの距離)において大きな変化があるので、箱の上面と「不連続的」である。
図4Aは、テーブル上の洗濯洗剤のボトルを示しているシーンの深度マップを示したものである。深度マップにおいては、青の画素は、より長い距離を表わしており、緑と黄色の画素は、中間の距離を表わしており、そして赤の画素は、より短い距離を示している。図4Aに示されているボトルは、赤のボトルの縁部と、黄色および緑の隣接画素(テーブルに対応している)との間の不連続性に基づいて背景から分離できる。
動作330においては、プロセッサ108は、シーンの基平面を検出する。上記で検討したように、基平面は、注目対象物10が地面14に位置しているシーンのほぼ平坦な表面と仮定されている。
ここにおいて記述される方法の正確さは、精度のよい基平面の計算に依存している。幾つかの実施形態においては、ランダムサンプルコンセンサス(RANSAC)などのような方法を、ほとんどの観測(この場合は、RGB-Dカメラで測定された三次元点)と整合するモデル(この場合は、平坦モデル)を計算するために使用される。本発明の幾つかの実施形態においては、基平面を計算することは、深度カメラシステム100の3軸加速度計(または、IMU118)であって、深度カメラシステム100と幾何学的に較正されている3軸加速度計(または、IMU118)からのデータを使用する。IMU118が静止姿勢に保たれると、IMU118は、重力ベクトルの方向(基平面に直交する方向)を表わす3つの数の組を生成する。これは、基平面の向きを自動的に決定する。そして、基平面の実際の位置は、撮像された三次元深度マップから推定できる。例えば、幾つかの実施形態においては、プロセッサは、深度カメラシステム100から測定されたすべての三次元点が、選択された最も近い平面の上方となるように、IMU118により決定された基平面の予期される向きと整合するカメラに最も近い平面を選択するように制御される。
本発明の実施形態の幾つかの態様においては、基平面に対応するシーンの点または画素は、対象物に対応する画素を下方向に追従し(例えば、IMU118により検出された「下」方向に基づいて)、閾値以内で同じ高さにある(例えば、対象物10の底面の周りの画素上の点に対応する平面に沿っている)画素のすべてを識別することにより検出できる。
幾つかの状況においては、センサノイズは、基平面の検出された位置を信頼できないものにする可能性があり、ノイズの影響は、走査装置100からの距離に基づいて増大する。従って、動作330において、基平面のより遠い部分に対するセンサデータに頼るのではなく、仮想基平面が、走査装置に近い基平面の部分を検出し、基平面の検出された近い部分を後方に延長することにより計算される。仮想基平面を計算するための技術は、2019年1月4日に米国特許商標庁において出願された米国特許出願第16/240,691号の「SYSTEMS AND METHODS FOR VOLUMETRIC SIZING(体積測定に関するサイジングのためのシステムと方法)」においてより詳細に記述されている(この出願は参照により組み込まれる)。
動作350において、プロセッサは、基平面上の対象物の長方形の外形を検出する。
図4Bは、図4Aにおいて示されている深度マップの直交図であり、基平面は、仮想カメラの光軸に直交して整列されている。より明るい赤の大きな領域は、図4Aにおける深度カメラシステム100から見えた基平面の部分を表わしている。図4Bのより暗い赤の部分は、深度マップが撮像されたときにボトルにより遮蔽された基平面の部分に対応している。図4Bの中心に近い深度マップのより明るい色の部分は、ボトルに対応しており(これらの部分は、特別な直交図が、基平面の「下」から取られるので、黄色と青で示されている)、これらのより明るい色の部分は、仮想基平面上への対象物10の点の投影を表わしている。このプロセスは、対象物10に対応する深度マップの点のすべてを、基平面まで「スマッシュする(すべての点を一様に基平面上の点とすること)」ことと等価である(例えば、基平面が、ゼロ(0)のy座標において、三次元モデルのx-z軸に沿って延伸していると仮定すると、これは、対象物10の点のすべてのy座標をゼロ(0)に設定することと等価である)。
これは、基平面に固定されたフレームを基準にして定義される2次元点のセットという結果となる。箱の点を、その表面を地面に向けて(そして、そのため基平面に対して平行に)投影すると、長方形のトレースが生成される(同様に、底面の1つの上に立っている任意の直角柱の投影は、その底面のような形状のトレースを生成する)。箱が対象物10を取り囲んでいると、その垂直方向に投影された点の範囲の境界を決める直方体のトレースはまた、対象物の表面の点の垂直投影のすべても含むことになる。図4Cは、対象物10の垂直方向に投影された点を白で、対象物10の実際の(グラウンドトゥルース)位置を緑で、そして、画像の残りの部分を黒で示しており、本発明の1つの実施形態に係る、対象物の検出された表面の点すべての垂直方向の投影を含む基平面上の赤い長方形と、対象物の実際の表面の点のすべての垂直方向の投影を含む基平面上の黄色の点線の長方形と共に示している。
幾つかの状況においては、対象物10と基平面14に加えて、シーンにおける他の表面(例えば、クラッタ12の部分からの表面)は、深度カメラシステム100により見ることができ、これらの点は、取り囲み箱の計算において不正確に考慮される可能性がある。これらの発生のリスクを削減するために、幾つかの実施形態においては、プロセッサは、基平面上で定義されたグラフの接続された構成要素を計算し、シーンにおける表面の測定された三次元点の垂直方向の投影は、対象物の表面も含めて、グラフの頂点を形成し、そのような頂点の2つは、その間の距離が閾値よりも短い場合は縁部で接続される。投影点の接続された構成要素が計算されると、幾つかの実施形態は、例えば、注目対象物は、他の見える表面よりも画像においてより大きな部分を占めるという仮定に基づいて、最も大きい接続された構成要素を保持し、それにより、シーンにおいてクラッタ12から対象物10を分離するための代替の、および/または、追加的な技術を提供する(例えば、動作310において実行される分離に加えて)。
そのため、対象物に対する取り囲み箱は、対象物の表面の点のすべての垂直方向の投影を含む基平面14上の長方形を決定し、その長方形を、対象物の上部に垂直に拡張することにより決定できる。本発明の幾つかの実施形態においては、取り囲み箱は、最小体積の取り囲み箱または最小バウンディングボックスであり、言い換えると、対象物のすべての点を取り囲む最小の箱であり、ここにおいて「最小」とは、特別な適用必要条件に従って、箱の体積、面積、または周囲の長さのことを指し示すことができる(例えば、消費される荷造り材料の量を削減するために面積を最小にすること、または、対象物を格納または輸送するために使用される空間の量を削減するために体積を最小にすること)。
1つの実施形態によれば、最小体積の取り囲み箱は、まず、動作350において、仮想基平面上に投影された対象物10の点を取り囲む、最小面積の長方形を決定することにより計算できる。幾つかの実施形態においては、二次元回転キャリパアプローチが、線形時間において最小面積の長方形を計算するために使用される。プロセッサは、動作370において、この箱の高さを、対象物の任意の表面の点の、仮想基平面への最大距離と等しいものとして決定する。最小面積の長方形は、標準回転キャリパ方法を使用して、取り囲まれている点の数に対して線形な時間において計算できるということに留意されたい。最小表面の取り囲み箱を、基平面上の最小周囲の取り囲み長方形を見出すことにより(再び線形時間において)計算することもできる。従って、本発明の実施形態の態様は、上記の比較対象の技術の立体時間とは対照的に、点の数に関して線形時間で、対象物の三次元バウンディングボックスを計算でき、それにより、より迅速な応答も可能にする(例えば、三次元バウンディングボックスのリアルタイム、または実質的にリアルタイムの計算)。
従って、対象物10を取り囲む箱の寸法は、最小面積の長方形からのその長さと幅を含めて、動作350において計算され、高さは、動作370において計算される。動作390において、プロセッサは、例えば、図1において寸法230として示されているように、そして、図1において示されているように、シーンのカラー画像ビューに重ねられているバウンディングボックスの外形220として、計算された寸法を出力する。計算されたバウンディングボックスの寸法の出力の他の例として、図4Dは、ボトルのビュー上に重ねられた、本発明の実施形態に従って計算されたバウンディングボックスを有している、図4Aの深度マップにおいて示されているシーンのカラー画像である。
シーンにおける対象物の部分の撮像
図3、4A、4B、4C、および4Dに関して上記に記述したアプローチは単純であるが、それは、欠けている情報がある状況と、目標対象物の部分的な遮蔽を考慮していない。図4A、4B、4C、および4Dにおいて分かるように、深度マップは、対象物の見える部分(例えば、ボトルの前面)に関してのみ情報を取得でき、一方、対象物の背後についての情報はない。従って、シーンの生成された上面図上の長方形を適合するときに(図4B、4C参照)、対象物の検出された表面の点に適合される赤い長方形を、対象物の実際の表面の点に適合されるより大きな黄色の点線の長方形と比較すると、上記の図4Cにおいて示されているように、長方形を、対象物全体に実際に適合することに失敗する可能性がある。
上記のように、この問題は、単一の深度(例えば、RGB-D)カメラにより取得された単一の対象物の場合に存在するが、目標対象物の背後の表面の単なる自己遮蔽ではなく、相互遮蔽もまたあり得るので、これは同じシーンにおいて同じ時間に取得された多数の対象物の場合にも当てはまる。
本発明の実施形態の幾つかの態様は、多数の視点から視覚情報を取得することにより、自己遮蔽問題に対処することに関するが、この動作は、システムを複雑にする可能性があり(例えば、多数の較正されたカメラを使用することで)、または、処理を複雑にする可能性がある(例えば、単一の深度カメラは、深度カメラを掃引または左右に動かすことなどにより、異なる時間において異なる視点からの対象物を取得でき、そして、取り込まれた視覚情報を集積できる)。
本発明の実施形態の幾つかの態様は、視覚情報が取得されていない対象物の部分の幾何学的分布を外挿するために、情報のより高いレベルを使用することにより対象物の寸法を推定することに関する。1つの例として、図4A、4B、4C、および4Dにおいて示されているボトルの寸法を推定する場合、対象物をボトルとして分類するために、機械学習対象物分類技術を使用でき、ボトルの形状の典型的な対称性に関する、格納されている発見的方法ルールを、ボトルの観測されない部分の形状を外挿するために使用できる(例えば、部分的形状を複製し、部分的形状を反転し、既知の典型的な線対称に基づいて、2つの点群を整列することにより)。
図5は、本発明の1つの実施形態に係る、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するための方法500のフローチャートである。図6は、本発明の1つの実施形態に係る、シーンの取り込まれた入力視覚情報の解析を実行し、シーンにおける目標対象物のぴったり取り囲むバウンディングボックスの寸法を計算するように構成されている解析モジュールのブロック図である。図6において示されている実施形態においては、解析モジュール600は、走査システム100から遠く離れており、バス612を介してメモリ610に接続されているホストプロセッサ608を含むことができる。加えて、ネットワークアダプタ616を、走査システム100と通信するために使用できる。解析モジュール600は更に、データベースおよび対象物のメタデータなどのような情報を格納し、実行された解析の結果の記録を格納するための持続性メモリ(例えば、フラッシュメモリ)を含むことができる。本発明の幾つかの実施形態においては、解析モジュールは、走査システム100のプロセッサ108とメモリ110などのような、走査システム100の構成要素により実現される。
図5において示されているように、動作510において、解析モジュールは、走査システム100により撮像されたようなシーンの深度マップを含むことができる入力視覚情報を受信し、シーンにおける1つ又は複数の対象物を検出する。1つ又は複数の対象物の検出は、例えば、深度マップの中心に近い対象物または複数の対象物を識別することを含むことができる(例えば、幾つかの実施形態においては、走査システム100は、ユーザが、何れの目標対象物または複数の目標対象物に対して寸法付けを実行すべきかをより明確に識別するために十字線を表示できる)。対象物の検出はまた、背景画素(例えば、走査センサから閾値距離を超えて離れている深度または距離を示す深度マップの部分)を除去または破棄することも含むことができる。加えて、対象物が位置している基平面に対応する画素もまた、検出された対象物から切り離すことができる。
動作530において、システムは、検出された対象物を単一化する。1つの対象物しかない場合は、対象物は既に単一化されているので、単一化のプロセスは単純である。同様に、対象物の間に遮蔽がない場合もまた、対象物の単一化は単純であり、それは、深度マップの異なる部分を、対象物の異なる部分に属するものとして取り扱えるからである。遮蔽がある場合は、対象物を単一化するための方法を適用できる。例えば、互いに遮蔽していない3つの対象物を含んでいるシーンを示している図7Aを参照のこと。図7Bは、図7Aに示されている対象物に対する、計算されたぴったり取り囲むバウンディングボックスを示している。
図8Aは、複数の対象物が相互遮蔽を生成または引き起こしている、取得された三次元シーンの例である。図8Bは、対象物が背景から切り離された深度マップのレンダリングであり、走査装置と対象物との間の距離は、画素の色で符号化されている(例えば、より近い画素に対しては明るい緑、中間の距離の画素に対しては紫、そしてより遠い画素に対しては橙)。
図8Aにおいて示されているように、茶色のブーツは黄色のブーツを部分的に遮蔽している。従って、図8Bにおいて示されている深度マップの何れの部分が、茶色のブーツまたは黄色のブーツに対応しているかを決定することは難しい。
図8Aと図8Bにおいて示されているように、対象物が自己遮蔽を生成している場合は、幾つかの実施形態においては、シーンセグメンテーション技術が、対象物を単一化するために適用される。本発明の幾つかの実施形態においては、視覚的グループ化(例えば、クラスタリング)に基づく、古典的な外観に基づくセグメンテーションが、セグメンテーションを実行するために適用される(例えば、Duda,R.O.,Hart,P.E.,& Stork,D.G.(2012).Pattern classification(パターン分類).John Wiley & Sons.参照)。幾つかの実施形態においては、セマンティックセグメンテーション、例えば、Fully Convolutional Networks(FCN)(完全畳み込みネットワーク)がセグメンテーションを実行するために使用される(例えば、Long,J.,Shelhamer,E.,& Darrell,T.(2015).Fully convolutional networks for semantic segmentation(セマンティックセグメンテーションのための完全畳み込みネットワーク).In Proceedings of the IEEE conference on computer vision and pattern recognition(pp.3431-3440).参照)。本発明の幾つかの実施形態においては、ウィンドウに基づくアプローチによる対象物検出を適用できる(例えば、Redmon,J.,Divvala,S.,Girshick,R.,& Farhadi,A.(2016).You only look once: Unified, real-time object detection.(一度見るだけ:統合されたリアルタイム対象物検出)In Proceedings of the IEEE conference on computer vision and pattern recognition(pp.779-788)およびLiu,W.,Anguelov,D.,Erhan,D.,Szegedy,C.,Reed,S.,Fu,C.Y.,& Berg,A.C.(2016,October).SSD:Single shot multibox detector(単一ショットマルチボックス検出器).In European conference on computer vision(pp.21-37).Springer,Cham.参照)。更に他の実施形態においては、キーポイント、または輪郭検出および記述などのような古典的コンピュータビジョン技術が、シーンにおける対象物の単一化を実行するために適用される(例えば、Lowe,D.G.(1999).Object recognition from local scale-invariant features(局所規模不変特徴からの対象物認識).In Computer vision,1999.The proceedings of the seventh IEEE international conference on(Vol.2,pp.1150-1157).IEEE;Morar,A.,Moldoveanu,F.,& Groeller,E.(2012, August).Image segmentation based on active contours without edges(縁なしアクティブ輪郭に基づく画像セグメンテーション).In 2012 IEEE 8th International Conference on Intelligent Computer Communication and Processing(pp.213-220).IEEE;およびJohnson,A.E.,& Hebert,M.(1999).Using spin images for efficient object recognition in cluttered 3D scenes(クラッタのある三次元シーンにおける効率的な対象物認識のためのスピン画像の使用).IEEE Transactions on Pattern Analysis & Machine Intelligence,(5),433-449.参照)。図8Cは、入力画像のセマンティックセグメンテーションを実行するように訓練されている完全畳み込みネットワーク(FCN)により出力されたセマンティックセグメンテーションマップを示したものであり、セマンティックセグメンテーションマップは、それぞれが、対象物の異なる1つに対応する深度マップの部分を識別する1つ又は複数のセグメントを含んでいる。従って、セマンティックセグメンテーションマップは、異なる対象物に対応する深度マップの部分を単一化するために使用される。
従って、単一化動作530の結果は、単一化された対象物の1つ又は複数の部分的三次元モデルである(例えば、シーンの深度マップにおいて互いから切り離され、背景とクラッタから切り離されている)。モデルは、自己遮蔽(例えば、対象物の裏側の画像がない)のために部分的であり、相互遮蔽(例えば、シーンにおける1つの対象物が、シーンにおける他の対象物の部分が見えることを妨げている)のために部分的である。
動作550において、解析モジュールは、各部分的三次元モデルに対して完全三次元モデルを外挿する。ここにおいて使用されているように、「完全三次元モデル」という用語は、完全三次元モデルを含むと共に、完全三次元モデルではないが、それが基づいている部分的三次元モデルよりもより完全である三次元モデル(ここにおいては、「より完全な三次元モデル」と称される)も含んでいる。「より完全な三次元モデル」は、対応する全三次元モデルには存在しない1つ又は複数の割れ目、裂け目、および/または穴を含んでいてもよい。動作530において実行された単一化動作のために、各部分的三次元モデルは異なる対象物に対応している。
図9は、対象物の部分的三次元モデルから完全三次元モデルを外挿するための、本発明の1つの実施形態に係る方法900を示しているフローチャートである。幾つかの実施形態においては、図9において示されている方法900は、図5において示されている動作550の一部として実行される。
対象物分類と識別
本発明の実施形態の幾つかの態様は、より高いレベルのデータを使用するためのシステムと方法、特には、発見的方法を適用するための、または、目標対象物に関する他の格納されている情報を検索するための対象物の分類および/または識別に関する。例えば、製造された製品は、一般的には、それらの製品のそれぞれすべてに対して物理的にほぼ同一である。例えば、洗剤のボトルの上記の例を継続すると、特別なストックキーピングユニット(SKU)(単品で製品を管理する単位)に対応する、すべてのそのような洗剤のボトルはサイズがほぼ同一である。従って、目標対象物を、特別な既知のSKUの1つとして識別できると、目標対象物の寸法は、SKUの他のものと同じであるとして外挿できる。他の例としては、アルミニウム製飲料缶は、その標準サイズは非常に少なく、12オンスの種類が最も普及している。従って、部分的情報に基づいて目標対象物は飲料缶であると識別されると、対象物は、完全な形の飲料缶の既知のサイズと整合する特別な形状と寸法を有するものとして外挿できる。
図9を参照すると、動作910において、解析モジュールは、部分的三次元モデルに基づいて、目標対象物を識別することを試みる。上記に注記したように、走査システム100により撮像された部分的三次元モデルは、走査された目標対象物10についての色および幾何学形状情報を含んでいる。従って、本発明の幾つかの実施形態においては、解析モジュールは、各エントリが特別な既知の対象物(例えば、データベースに登録されている対象物)に対応しているエントリのデータベースを含んでおり、各エントリは、対象物についてのメタデータと共に、カラー画像および/または三次元モデルの組み合わせとして符号化されているそのエントリの視覚情報を含むことができる。
画像のデータベースなどのような、視覚情報のデータベースに対する検索要求の問題は非常によく知られている。この問題は、古典的には、2つの異なる形状、つまり画像分類(つまり、1つ又は複数のクラスを画像に割り当てる問題)と画像検索(つまり、クエリ画像に関して、データベースにおいて最も類似する画像エントリを識別する問題)を仮定する。1つの通常の画像データベースはImageNet(イメージネット(大規模視覚データベース))(例えば、Deng,J.,Dong,W.,Socher,R.,Li,L.J.,Li,K.,& Fei-Fei,L.(2009,June).Imagenet: A large-scale hierarchical image database(イメージネット:大規模階層的画像データベース).In Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on(pp.248-255).IEEE.参照)であり、数百万もの画像と数千もの異なるクラスを含んでいる。これらの画像分類と画像識別タスクを実行するための幾つかの方法としては、畳み込みニューラルネットワーク(CNN)技術(例えば、Daras,P.,& Axenopoulos,A.(2010).A 3-D shape retrieval framework supporting multimodal queries(マルチモードクエリをサポートする三次元形状検索フレームワーク).International Journal of Computer Vision,89(2-3),229-247.,Vranic,D.V.,Saupe,D.,& Richter,J.(2001).Tools for 3-D -object retrieval(三次元対象物検索のためのツール):Karhunen-Loeve transform and spherical harmonics.In Multimedia Signal Processing,2001 IEEE Fourth Workshop on (pp.293-298).IEEE.,およびGao,Y.,& Dai,Q.(2014).View-based 3-D object retrieval:challenges and approaches(ビューに基づく三次元対象物検索:課題とアプローチ).IEEE MultiMedia,3(21),52-57.参照)がある。
ここにおいて使用されているように、畳み込みニューラルネットワーク(CNN)は、入力画像が与えられると、二次元畳み込み、非線形マッピング、最大プーリング集積および結合などのような動作のセットを、値のベクトル(通常は、特徴ベクトルまたは特徴マップと呼ばれる)を計算するために実行するシステムと見なすことができ、そして、値のベクトルは、入力画像に対する1つ又は複数のクラスメタデータの推定値を得るために分類子(例えば、SoftMax(ソフトマックス)分類子)により使用される。
畳み込みニューラルネットワーク(CNN)は、非常に精度のよいクラスレベル推定値(90%の推定正確さを超える)を提供でき、このタイプの問題を解決するための標準技術となっている。CNNシステムのそれぞれの構成要素(または「層」)は、いわゆる訓練段階において推定される必要があるパラメータ(または「重み」)の関連付けられているセットにより特徴付けられている。特に訓練段階においては、CNNには、クラスラベルと関連付けられている訓練画像の大量セットが提供され、各層のパラメータまたは重みは、この訓練画像のセットに対するクラス予測の精度を最大にするために調整される。これは、非常に大きな労力を必要とする動作であり(一般的には、非常に強力なグラフィカル処理ユニットまたはGPU上での数時間の計算を含む)、それは、訓練のために使用される画像のセットは、通常は、100万以上のオーダーであり、CNNにおけるパラメータの数は、10万以上のオーダーであるからである。
画像検索の目的のために、特徴ベクトルまたは特徴マップを、データベースにおける特別なアイテムを調べるための「記述子」として取り扱うことができる。特に、クエリ画像に対する推定された特徴ベクトルは、大きな次元(例えば、4,096値)の値(一般的には、浮動小数点または固定点数値として符号化されている)のベクトルである。この特徴ベクトルは、入力画像の「署名」または「記述子」として考えることができ、同じクラスにおける対象物の特徴ベクトルは、特徴ベクトル空間(または「特徴空間」)において近接する点であるという特質を有している。従って、これらの特徴ベクトルは、検索目的のために使用できる。つまり、データベースにおけるエントリは、それらの特徴ベクトルが、L1またはL2測定基準などのような標準測定基準に関して、特徴ベクトル空間においてクエリ画像の記述子に近接している場合は、クエリ画像に類似している。
特徴ベクトル空間の大きな次元を考慮して、幾つかの随意的な技術を、例えば、Principal Component Analysis(PCA)(主成分分析)またはLinear Discriminant Analysis(LDA)(線形判別分析)に基づいて、ある次元削減を実行するために適用できる。
本発明の幾つかの実施形態においては、二次元画像ではなく、部分的三次元モデルが入力クエリとして使用される。三次元モデルを入力とするCNNを使用するための技術は、二次元画像上のCNNを使用するための技術と比較すると、開発されている技術はまったく少ない。1つの問題は、CNNアーキテクチャに対応する方法で三次元モデルの情報を符号化することである。
CNNを三次元モデルに適用することへの1つのアプローチは、入力された三次元モデルのボクセル化である。図10Aは、本発明の1つの実施形態に係る、三次元モデルをボクセル化することにより、メディア文書が三次元モデルである場合の特徴ベクトルを計算するための方法1000を例示しているフローチャートであり、図10Bは、ボクセル化を使用する、CNNの三次元モデルへの適用を視覚的に示している。図10Aと10Bを参照すると、動作1010において、プロセッサは、回転キャリパアルゴリズムを三次元モデルに適用することなどにより、三次元モデルの周りにバウンディングボックス1012を定義する。CNNを三次元モデルに適用するためのシステムと方法は、2017年8月11日に発行された米国特許第10,296,603号の「SYSTEMS AND METHODS FOR AUTOMATICALLY GENERATING METADATA FOR MEDIA DOCUMENTS(メディア文書のためのメタデータを自動的に生成するためのシステムと方法」により詳細に記述されており、その開示の全体は、ここにおいて参照により組み込まれる。
動作1030において、プロセッサは、三次元モデルを表現するボクセルのセットを生成するために、モデルをボクセル化する。1つの実施形態においては、ボクセル化のプロセスにおいてプロセッサは、バウンディングボックスを、ボクセルと称されるサブユニットに分割する。例えば、バウンディングボックスは、総計256=16,777,216個のボクセルに対して、1辺上で256個のボクセルを有している立方体であってよいが、本発明の実施形態はそれに制限されず、実質的により大きくてもよい。各ボクセルは、三次元モデルのある部分はボクセル内に含まれているか否か(例えば、バイナリ値ボクセル化において)を表わす値と関連付けることができ、他の場合においては、各ボクセルは、三次元モデルにより占有されているボクセルの分数またはパーセンテージを表わしている値と関連付けることができる(例えば、整数値または浮動小数点ボクセル化)。図10Bは、ボクセル化された三次元モデル1032を示している。
本発明の1つの実施形態によれば、動作1030は更に、ボクセル化を実行する前に、「好適図」を識別するために、特徴を推定すること、または、主成分分析を実行することを含んでいる。ボクセル化の前にモデルの整合性のある好適図を識別することは、実質的に類似している対象物(または同じ対象物)の2つの異なる三次元モデルが、同じ視点からボクセル化される(例えば、実質的に同じ座標空間に沿って定義されたボクセルを有している)可能性を高め、それにより、回転不変性(例えば、回転された対象物のモデルを認識するシステムの能力)を提供する。
動作1050において、プロセッサは、動作1030において生成されたボクセルから特徴ベクトルを生成する。本発明の1つの実施形態によれば、特徴ベクトル1054は、ボクセルを訓練された畳み込みニューラルネットワーク1052に供給することにより計算される。ボクセル表現は三次元テンソルと見なすことができるので、ボクセルは、入力としてCNNに直接供給でき、CNNは、ボクセル化された三次元モデルに基づいて訓練される。図10Bにおいて示されている破線の立方体は、畳み込み演算を表わしている。図10Bにおいて示されているように、特徴ベクトル1054はまた、ボクセル化された三次元モデル1012の分類1056を生成するために、分類子に供給することもできる。CNNが記述子を得るために使用される実施形態においては、特徴ベクトル1054は、入力された部分的三次元モデルの記述子として使用される。
三次元モデルについての幾何学的およびテクスチャ情報を符号化するための技術の他の同系統群は、多数の方向からのそのレンダリングを含んでいる。
図11は、本発明の1つの実施形態に係る、クエリ対象物の三次元モデルから、クエリ対象物の記述子を計算するための方法のフローチャートである。図12は、本発明の1つの実施形態に係る、畳み込みニューラルネットワークに基づく分類システムのブロック図である。
本発明の幾つかの実施形態においては、対象物識別は、対象物の三次元モデルの記述子を計算することにより実行され、記述子は、固定長を有する(例えば、16または4,096の次元を有する)多次元ベクトルである。三次元モデルの記述子を計算するための技術は、マルチビュー畳み込みニューラルネットワーク(MV-CNN)の前方評価に基づいており、または、体積測定畳み込みニューラルネットワーク(V-CNN)による。そのようなネットワークは通常、対象物分類に対して訓練されており、幾つかの実施形態においては、図13において示されているように、ネットワークの最後から二番目の層の出力は記述子として使用される(下記により詳細に記述される)。
特に、図13において示されている実施形態においては、記述子または特徴ベクトルは、動作1112においてビュー生成モジュールによりレンダリングされるときに、三次元モデルの二次元ビュー16から計算される。動作1114において、合成二次元ビューが、各ビューに対して記述子または特徴ベクトルを抽出するために記述子生成器に供給される。動作1116において、各ビューに対する特徴ベクトルは、三次元モデルに対する記述子を生成し、記述子に基づいて対象物を分類するために組み合わされる(例えば、「プールされた」特徴ベクトルが計算され、プールされた特徴ベクトルの各位置は、各二次元ビューに対して計算された入力特徴ベクトルの対応する位置における値の最大値である、下記により詳細に記述される最大プーリングを使用して)。この特徴ベクトルは、対象物の形状の顕著且つ特徴的な態様を含むことができ、後続の分類または検索ステップで使用される。生成された記述子は、動作1118において出力できる。
一般的に、形状sを所与のクラス(カテゴリまたはラベルとも呼ばれる)のセットCの1つに分類するタスクは、所与の形状に最も類似している(特定の測定基準において)形状をデータベースから検索するタスクとは区別されている。便宜上、ここにおいては、形状検索は分類の特別なケースであると考え、データベースにおける各形状は、それ自体クラスを表わし、形状sは、データベースにおける最も類似している形状のラベルで分類される。このアプローチは、パターン認識文献においては、最近傍分類と称されることがある。
形状のビューに基づく表現からの検索と分類のために幾つかの技術は、文献において知られている。そのような関連のある技術を調べるためには、例えば、Gao,Y.,& Dai,Q.(2014).View-based 3-D object retrieval:challenges and approaches(ビューに基づく三次元対象物検索:課題とアプローチ).IEEE MultiMedia,3(21),52-57.参照。例えば、1つのアプローチ(Furuya,T.,& Ohbuchi,R.(2009,July).Dense sampling and fast encoding for 3-D model retrieval using bag-of-visual features(視覚特徴のバッグを使用する三次元モデル検索のための稠密サンプリングと高速符号化).In Proceedings of the ACM international conference on image and video retrieval (p.26).ACM.に記述されている)は、画像における対象物認識のための古典的方法である「バッグオブワード」の概念上で、マルチビュー対象物認識のケースへと発展する。他の例として、畳み込みニューラルネットワーク(CNN)をマルチビュー対象物分類のために使用できる(例えば、Su,H.,Maji,S.,Kalogerakis,E.,& Learned-Miller,E.(2015).Multi-view convolutional neural networks for 3-D shape recognition(三次元形状認識のためのマルチビュー畳み込みニューラルネットワーク).In Proceedings of the IEEE International Conference on Computer Vision(pp.945-953).参照)。
本発明の幾つかの実施形態によれば、畳み込みニューラルネットワーク(CNN)は、対象物の分類を生成するために、合成された二次元ビューを処理するために使用される。図12は、ディープ畳み込みニューラルネットワーク(CNN)として実現された、本発明の1つの実施形態に係る記述子生成器の模式図である。記述子生成器は、解析モジュール600のメモリに格納されている対応する命令により、解析モジュール600の構成要素として実現できる。一般的に、ディープCNNは、入力画像データ(例えば、合成された二次元ビュー)を層のカスケードを通過させることにより画像を処理する。これらの層は、多数の段階にグループ化できる。図12において示されているディープ畳み込みニューラルネットワークは2つの段階を含んでおり、第1段階CNNはN個の層(またはサブプロセス)から構成されており、第2段階CNNは、M個の層から構成されている。1つの実施形態においては、第1段階CNNのN個の層のそれぞれは、線形畳み込み層のバンクを含んでおり、それに、点非線形層と、非線形データ削減層が続く。対照的に、第2段階CNNのM個の層のそれぞれは全結合層である。第2段階の出力pは、クラス割り当て確率分布である。例えば、CNN全体が、入力画像をk個の異なるクラスの1つに割り当てるように訓練されると、第2段階CNNの出力は、それぞれの値が、入力画像に、対応するクラスが割り当てられる確率(または「信頼度」)を表わしている、k個の異なる値を含んでいるベクトルpである。
上記に注記したように、本発明の実施形態は、汎用コンピュータプロセッサや特定用途向けプロセッサなどのような適切な汎用コンピューティングプラットフォーム上で実現できる。(解析モジュールは、そのような適切なコンピューティングプラットフォームを含むことができる)。例えば、グラフィカル処理ユニット(GPU)と他のベクトルプロセッサ(例えば、汎用プロセッサの単一命令多データまたはSIMD命令セット)は、ニューラルネットワークの訓練および動作を実行するために十分に適切であることがよくある。
幾つかの実施形態においては、ニューラルネットワークは、対象物の三次元モデルのセットとそれらの対応するラベル(例えば、対象物の正しい分類)を含むことができる訓練データに基づいて訓練される。この訓練データの一部は、訓練プロセスの間にパラメータを更に調整するための相互検証データとして確保でき、一部は、ネットワークは適切に訓練されていることを確認するためのテストデータとして確保できる。
ニューラルネットワークのパラメータ(例えば、層間の結合の重み)を、誤差逆伝播法や匂配降下法(例えば、LeCun,Y.,& Bengio,Y.(1995).Convolutional networks for images, speech, and time series(画像、音声、時系列のための畳み込みネットワーク).The handbook of brain theory and neural networks(脳理論とニューラルネットワークのハンドブック),3361(10),1995.参照)などのような、ニューラルネットワークを訓練するための標準プロセスを使用して使用できる。加えて、訓練プロセスは、予め訓練された汎用画像分類ニューラルネットワーク(例えば、Chatfield,K.,Simonyan,K.,Vedaldi,A.,& Zisserman,A.(2014).Return of the devil in the details: Delving deep into convolutional nets(細部に宿る悪魔の帰還:畳み込みネットを深く掘り下げる).arXiv preprint arXiv:1405.3531.参照)からのパラメータを使用して初期化できる。
図12において示されているように、第1段階CNN(畳み込み段階)で計算され、第2段階CNN(全結合段階)に供給される値は、ここにおいては記述子(または特徴ベクトル)fと称される。特徴ベクトルまたは記述子は、固定サイズ(例えば、4,096エントリ)を有するデータのベクトルであってよく、それは、入力画像の主要特性を凝縮または要約する。そのため、第1段階CNNは、特徴抽出段階または特徴抽出器と称することができる。
図12に関して上述した分類子のアーキテクチャは、対象物のn個の二次元ビューに基づく三次元対象物のマルチビュー形状表現を分類することに適用できる。例えば、第1段階CNNは、三次元形状を表現するために使用されるn個の二次元ビューのそれぞれに独立して適用でき、それにより、n個の特徴ベクトル(二次元ビューのそれぞれに対して1つ)のセットを計算できる。この技術の態様は、例えば、Su,H.,Maji,S.,Kalogerakis,E.,& Learned-Miller,E.(2015).Multi-view convolutional neural networks for 3-D shape recognition(三次元形状認識のためのマルチビュー畳み込みニューラルネットワーク).In Proceedings of the IEEE International Conference on Computer Vision(pp.945-953)においてより詳細に記述されている。幾つかの実施形態においては、n個の別個の特徴ベクトルは、例えば、最大プーリングを使用して組み合わされる(例えば、Boureau,Y.L.,Ponce,J.,& LeCun,Y.(2010).A theoretical analysis of feature pooling in visual recognition(視覚認識における特徴プーリングの理論的解析).In Proceedings of the 27th international conference on machine learning(ICML-10)(pp.111-118).参照)。
図13と14は、本発明の1つの実施形態に係る最大プーリングを例示したものである。図13において示されているように、n個のビューのそれぞれは、n個の特徴ベクトルを生成するために、記述子生成器の第1段階CNN1に供給される。最大プーリングにおいては、n個の特徴ベクトルfは、単一の組み合わされた特徴ベクトルまたは記述子Fを生成するために組み合わされ、ここにおいて、記述子Fのj番目のエントリは、n個の特徴ベクトルfの中のj番目のエントリの中の最大値と等しい。結果としての記述子Fは、n個の特徴ベクトルfと等しい長さ(またはランク)を有しており、従って、記述子Fを、対象物の分類を計算するために、第2段階CNNへの入力として供給することもできる。
本発明の幾つかの実施形態においては、仮想カメラの特別な姿勢の選択、例えば、何れの特別な二次元ビューのレンダリングを行うかの選択は、記述子Fが実質的に回転不変である特質を有する結果となる。例えば、すべての仮想カメラが球上に位置している構成を考える(例えば、すべてが、三次元モデルの中心または基平面上の特別な点pから同じ距離である姿勢で配置されており、すべてが、三次元モデルの中心または基平面上の特別な点pにおいて交差する光軸を有している)。類似の特質を有する配置の他の例としては、すべての仮想カメラが、三次元モデルの基平面から同じ高さに位置しており、三次元モデルの方を向いており(例えば、三次元モデルの中心と交差する光軸を有しており)、三次元モデルから同じ距離であるという配置があり、その場合は、三次元モデルの中心を通って延伸している垂直軸(例えば、基平面に直交している)の周りの対象物の如何なる回転も、本質的には同じベクトルまたは記述子Fという結果になる(カメラが近接した間隔をおいた位置に置かれていると仮定する)。
本発明の更に追加的な実施形態は、CNNへの入力として、三次元モデルの点群表現を使用する。例えば、Qi,C.R.,Su,H.,Mo,K.,& Guibas,L.J.(2017).Pointnet: Deep learning on point sets for 3d classification and segmentation(ポイントネット:三次元分類およびセグメンテーションのための点集合のディープラーニング).Proc.Computer Vision and Pattern Recognition(CVPR),IEEE,1(2),4.参照。
従って、動作910において、解析モジュールは、モデルの記述子を抽出することにより、部分的三次元モデルから対象物を識別することを試み(例えば、上記のボクセル化および/またはマルチビュー技術を使用して)、そして、抽出された記述子の閾値距離内のデータベースのエントリをデータベース(または一覧表)から検索する。そのような一致するエントリが見つかると、識別プロセスは成功したと考えられる。本発明の幾つかの実施形態によれば、データベースのエントリは、対象物の関連付けられている完全三次元モデルを含んでいる(例えば、すべての角度から撮像されたような対象物のモデル)。そのため、対象物の格納されている完全三次元モデルを、動作920において、データベースからロードでき、入力として供給された部分的三次元モデルに対応する完全三次元モデルとして返すことができる。本発明の幾つかの実施形態においては、三次元モデルをロードするのではなく、各エントリと関連付けられている対象物の最小バウンディングボックスの寸法を、データベースにおいてメタデータの一部として格納でき、そのため、寸法は、データベースから直接ロードできる。本発明の幾つかの実施形態においては、解析モジュールは更に、ロードされた完全モデルを、視覚取得システムに関して、クエリの完全幾何学形状の推定値を得るために、クエリに対して取得された視覚情報と連携させる。
動作910と920の識別アプローチは、典型的には、製造ラインなどのような、走査される対象物が良好に定義される(例えば、遭遇し得る対象物のすべてが一覧表にある)状況においては最も首尾よく完了する。従って、本発明の幾つかの実施形態においては、対象物を識別し、対応する情報を一覧表からロードするだけで十分である。
しかし、全体的に識別に基づくアプローチは、良好に定義されない状況、例えば、走査される対象物の多くが一覧表になく、物流総合管理の分野(例えば、荷物配達、船輸送、およびサプライチェーン管理)におけるような、対象物が多岐にわたる状況においては、一覧表において一致する完全モデルまたは寸法がない、または、一覧表において一致する最も近いアイテムは正しくない結果(例えば、間違った寸法)を与えるので、効果的でない可能性がある。
動作910における識別プロセスが失敗する(例えば、入力された部分的三次元モデルから抽出された記述子の閾値距離内にある記述子を有しているエントリがない)と、解析モジュールは、動作930において、部分的三次元モデルの分類を試みる。上記に注記したように、分類は、クラスラベルを計算するために分類子層へ記述子を供給することにより実行できる。そして、入力された部分的三次元モデルは、クラスラベルの中の最も信頼性の高いクラスの1つに対応すると仮定できる。動作930において分類が成功すると、発見的方法ルールが、動作940において、一致するクラスに対応して検索される。そして、発見的方法ルールは、完全三次元モデルを計算するために動作950において使用される。
特別な発見的方法ルールは、対象物の種々の異なるクラスに特有である。例えば、部分的三次元モデルがボトルとして分類されると、上記で検討したように、システムは、完全三次元モデルは1つ又は複数の対称軸を有していると仮定でき、部分的三次元モデルを、対称軸の1つに従って整列し、そして、外挿された完全三次元モデルを生成するために、選択された対称軸に基づいて部分的三次元モデルを複製する(例えば、回転、平行移動、および反射などのような、適切な剛体変換を適用する)。他の例としては、発見的方法は、クラスの対象物に対する標準全体形状を含むことができ、標準形状を、部分的三次元モデルの寸法に従って拡縮できる。例えば、再使用可能なコーヒーフィルタは、外観においては異なり得るが、ほとんどの再使用可能なコーヒーフィルタは、同じ全体形状を有しており、従って、標準形状を、部分的三次元モデルのサイズに拡縮することは、対象物に対する最小に(またはぴったり)取り囲むバウンディングボックスを計算するためのほぼ精度よくサイズが決められたモデルを外挿することになる。
本発明の幾つかの実施形態においては、部分的三次元モデルは、部分的三次元モデルから完全三次元モデルを外挿するように構成されている生成モデルに供給される。生成モデル(例えば、Goodfellow,I.,Bengio,Y.,Courville,A.,& Bengio,Y.(2016).Deep learning(ディープラーニング)(Vol.1).Cambridge:MIT press.参照)の1つの例は、条件付き敵対的生成ネットワーク(または、条件付きGAN、例えば、Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,...& Bengio,Y.(2014).Generative adversarial nets(敵対的生成ネット).In Advances in neural information processing systems(pp.2672-2680).参照)であり、ここにおいて、部分的三次元モデルは、「条件」として条件付きGANに入力される。より詳細には、生成モデルは、対象物の部分のビューが供給されることに基づいて、既知の対象物の完全三次元モデルを生成するために訓練できる。生成モデルを実現するための技術の例は、例えば、Wu,Z.,Song,S.,Khosla,A.,Yu,F.,Zhang,L.,Tang,X.,& Xiao,J.(2015).3d shapenets: A deep representation for volumetric shapes(三次元形状ネット:体積測定形状のための深層表現).In roceedings of the IEEE Conference on Computer Vision and Pattern Recognition(pp.1912-1920).およびYang,B.,Rosa,S.,Markham,A.,Trigoni,N.,& Wen,H.(2018).Dense 3D Object Reconstruction from a Single Depth View(単一深度ビューからの稠密三次元対象物再構築).IEEE Transactions on Pattern Analysis and Machine Intelligenceにおいて記述されている。
本発明の幾つかの実施形態においては、動作930において、部分的三次元モデルの分類が失敗すると、部分的三次元モデルは生成モデルに供給される。幾つかの実施形態においては、分類は省略され、部分的モデルは、完全三次元モデルを外挿するために生成モデルに直接供給される。
本発明の幾つかの実施形態においては、計算された最小取り囲みバウンディングボックスは、抽出された記述子に対して、一覧表に新しいエントリとして格納される。幾つかの実施形態においては、解析モジュールは、計算された最小取り囲みバウンディングボックスにおける閾値信頼性レベルが満たされる場合のみ、一覧表にエントリを追加する。
従って、図9のフローチャート900において示されている技術に従う方法は、部分的三次元モデルから完全三次元モデルを外挿するための機構を提供する。
図5に戻って参照すると、動作570において、ぴったり取り囲むバウンディングボックスが、外挿された完全三次元モデルのそれぞれに対して計算または検索される。上記に注記したように、本発明の幾つかの実施形態においては、一覧表から一致するモデルを識別する場合などのように、ぴったり取り囲むバウンディングボックスを計算する別個の動作は、ぴったり取り囲むバウンディングボックスの寸法は、一覧表において既知であり格納されているので省略できる。そして、動作590において、これらのぴったり取り囲むバウンディングボックスは、ユーザインタフェース(例えば、表示装置122)上の表示のために(それらの寸法と共に)出力できる。
そのため、本発明の実施形態の態様は、寸法付けされる対象物の部分的視覚情報に基づく、対象物の寸法付けのためのシステムと方法を提供する。加えて、本発明の実施形態の態様は、対象物の一部のビューが自己遮蔽または相互遮蔽の影響を受ける場合においても、対象物を単一化する技術を適用し、各対象物の寸法を別個に計算することにより、寸法付けを同じフレームにおける多数の対象物に適用することを可能にする。
本発明は、ある例としての実施形態と関連して記述されてきたが、発明は開示された実施形態に制限されず、それとは反対に、付随する請求項の精神および範囲内に含まれる種々の修正および等価装置、およびその等価物をカバーすることが意図されているということは理解されるべきである。本発明の態様の一部を以下記載する。
[態様1]
ぴったり取り囲むバウンディングボックスを推定するための方法であって、
コンピューティングシステムにより、1つ又は複数の対象物を含むシーンの視覚情報を取り込むための1台以上の深度カメラを備えている走査システムを制御することと、
前記コンピューティングシステムにより、前記視覚情報に基づいて、前記シーンの前記1つ又は複数の対象物を検出することと、
前記コンピューティングシステムにより、前記1つ又は複数の対象物に対応する、前記1つ又は複数の対象物の対応する1つの部分的三次元モデルを備えている、1つ又は複数の三次元モデルを生成するために、前記シーンのフレームから前記1つ又は複数の対象物のそれぞれを単一化することと、
前記コンピューティングシステムにより、前記部分的三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのより完全な三次元モデルを外挿することと、
前記コンピューティングシステムにより、前記より完全な三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのぴったり取り囲むバウンディングボックスを推定することを備える方法。
[態様2]
前記走査システムは更に、前記1台以上の深度カメラとは別個の1台以上のカラーカメラを備えていることを備える態様1の方法。
[態様3]
前記1台以上の深度カメラは、
飛行時間型深度カメラと、
構造化光深度カメラと、
少なくとも2台のカラーカメラを備えているステレオ深度カメラ、
少なくとも2台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
少なくとも2台の赤外線カメラを備えているステレオ深度カメラ、または
カラーカメラ、複数の赤外線カメラ、および前記複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを備えているステレオ深度カメラを備える態様1の方法。
[態様4]
前記シーンにおける前記1つ又は複数の対象物を前記検出することは、前記視覚情報において、背景および基平面を示すものから前記1つ又は複数の対象物を切り離すことを備える態様1の方法。
[態様5]
生成された三次元モデルを備えている前記より完全な三次元モデルを前記外挿することは、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給することを備える態様1の方法。
[態様6]
前記生成モデルは、条件付き敵対的生成ネットワークを備える態様5の方法。
[態様7]
前記より完全な三次元モデルを前記外挿することは、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力することを備える態様1の方法。
[態様8]
前記一覧表の前記三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けられており、
前記三次元モデルの一覧表を前記検索することは、
前記部分的三次元モデルを、畳み込みニューラルネットワークを備えている特徴記述子に供給することにより、前記部分的三次元モデルの記述子を抽出することと、
前記部分的三次元モデルの前記記述子と、前記一覧表の前記三次元モデルの前記記述子との間の最も高い類似性に従って、前記部分的三次元モデルと一致する前記モデルを識別することを備える態様7の方法。
[態様9]
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記三次元モデルの周りのバウンディングボックスを定義することと、
複数のボクセルを計算するために前記部分的三次元モデルをボクセル化することと、
前記ボクセルを前記畳み込みニューラルネットワークに供給することを備える態様8の方法。
[態様10]
前記部分的三次元モデルの前記記述子を前記抽出することは、
前記部分的三次元モデルの複数の二次元ビューをレンダリングすることと、
前記複数の二次元ビューを第1段階畳み込みニューラルネットワークに供給することにより、前記部分的三次元モデルの前記二次元ビューから特徴ベクトルを抽出することと、
前記記述子を生成するために前記特徴ベクトルを組み合わせることを備える態様8の方法。
[態様11]
前記特徴ベクトルは、最大プーリングを使用して組み合わされる態様10の方法。
[態様12]
前記完全三次元モデルを前記外挿することは、
一致分類を計算するために前記部分的三次元モデルを分類することと、
前記一致分類に対するより完全な三次元モデルを生成するための1つ又は複数の発見的方法ルールをロードすることと、
前記1つ又は複数の発見的方法ルールに従って、前記部分的三次元モデルから前記より完全な三次元モデルを生成することを備える態様1の方法。
[態様13]
前記1つ又は複数の発見的方法ルールは、前記一致分類に基づく前記より完全な三次元モデルの1つ又は複数の仮定された対称軸、または、前記一致分類に基づく前記より完全な三次元モデルの標準全体形状を備える態様12の方法。
[態様14]
前記1つ又は複数の対象物は複数の対象物を備えており、
前記1つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、外観に基づくセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える態様1の方法。
[態様15]
前記1つ又は複数の対象物は複数の対象物を備えており、
前記1つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、セマンティックセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える態様1の方法。
[態様16]
セマンティックセグメンテーションを前記適用することは、セグメンテーションマップを計算するために、前記視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを備えており、
各部分的三次元モデルは、前記セグメンテーションマップの1つのセグメントに対応していることを特徴とする態様15の方法。
[態様17]
前記ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることを更に備える態様1の方法。
[態様18]
ぴったり取り囲むバウンディングボックスを推定するためのシステムであって、
1台以上の深度カメラを備えている走査システムと、
前記走査システムを制御するように構成されているプロセッサと、
命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
1つ又は複数の対象物を含むシーンの視覚情報を取り込むように前記1台以上の深度カメラを制御させ、
前記視覚情報に基づいて、前記シーンの前記1つ又は複数の対象物を検出させ、
前記1つ又は複数の対象物に対応する、前記1つ又は複数の対象物の対応する1つの部分的三次元モデルを備えている、1つ又は複数の三次元モデルを生成するために、前記シーンの前記フレームから前記1つ又は複数の対象物のそれぞれを単一化させ、
前記部分的三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのより完全な三次元モデルを外挿させ、
前記より完全な三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのぴったり取り囲むバウンディングボックスを推定させるシステム。
[態様19]
生成された三次元モデルを備えている前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給させる命令を備える態様18のシステム。
[態様20]
前記生成モデルは、条件付き敵対的生成ネットワークを備える態様19のシステム。
[態様21]
前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力させる命令を備える態様18のシステム。

Claims (19)

  1. ぴったり取り囲むバウンディングボックスを推定するための方法であって、
    コンピューティングシステムにより、1つ又は複数の対象物を含むシーンの視覚情報を取り込むための1台以上の深度カメラを備えている走査システムを制御することと、
    前記コンピューティングシステムにより、前記視覚情報に基づいて、前記シーンの前記1つ又は複数の対象物を検出することと、
    前記コンピューティングシステムにより、前記1つ又は複数の対象物に対応する、前記1つ又は複数の対象物の対応する1つの部分的三次元モデルを備えている、1つ又は複数の三次元モデルを生成するために、前記シーンのフレームから前記1つ又は複数の対象物のそれぞれを単一化することと、
    前記コンピューティングシステムにより、前記部分的三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのより完全な三次元モデルを外挿することと、
    前記コンピューティングシステムにより、前記より完全な三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのぴったり取り囲むバウンディングボックスを推定することを備え、
    前記より完全な三次元モデルを前記外挿することは、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索し、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力することを備える方法。
  2. 前記走査システムは更に、前記1台以上の深度カメラとは別個の1台以上のカラーカメラを備えていることを備える請求項1の方法。
  3. 前記1台以上の深度カメラは、
    飛行時間型深度カメラと、
    構造化光深度カメラと、
    少なくとも2台のカラーカメラを備えているステレオ深度カメラ、
    少なくとも2台のカラーカメラとカラープロジェクタを備えているステレオ深度カメラ、
    少なくとも2台の赤外線カメラを備えているステレオ深度カメラ、または
    カラーカメラ、複数の赤外線カメラ、および前記複数の赤外線カメラにより検出可能な波長区間における光を出射するように構成されている赤外線プロジェクタを備えているステレオ深度カメラを備える請求項1の方法。
  4. 前記シーンにおける前記1つ又は複数の対象物を前記検出することは、前記視覚情報において、背景および基平面を示すものから前記1つ又は複数の対象物を切り離すことを備える請求項1の方法。
  5. 生成された三次元モデルを備えている前記より完全な三次元モデルを前記外挿することは、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給することを備える請求項1の方法。
  6. 前記生成モデルは、条件付き敵対的生成ネットワークを備える請求項5の方法。
  7. 前記一覧表の前記三次元モデルのそれぞれは、特徴空間における対応する記述子と関連付けられており、
    前記三次元モデルの一覧表を前記検索することは、
    前記部分的三次元モデルを、畳み込みニューラルネットワークを備えている特徴記述子に供給することにより、前記部分的三次元モデルの記述子を抽出することと、
    前記部分的三次元モデルの前記記述子と、前記一覧表の前記三次元モデルの前記記述子との間の最も高い類似性に従って、前記部分的三次元モデルと一致する前記モデルを識別することを備える請求項の方法。
  8. 前記部分的三次元モデルの前記記述子を前記抽出することは、
    前記三次元モデルの周りのバウンディングボックスを定義することと、
    複数のボクセルを計算するために前記部分的三次元モデルをボクセル化することと、
    前記ボクセルを前記畳み込みニューラルネットワークに供給することを備える請求項の方法。
  9. 前記部分的三次元モデルの前記記述子を前記抽出することは、
    前記部分的三次元モデルの複数の二次元ビューをレンダリングすることと、
    前記複数の二次元ビューを第1段階畳み込みニューラルネットワークに供給することにより、前記部分的三次元モデルの前記二次元ビューから特徴ベクトルを抽出することと、
    前記記述子を生成するために前記特徴ベクトルを組み合わせることを備える請求項の方法。
  10. 前記特徴ベクトルは、最大プーリングを使用して組み合わされる請求項の方法。
  11. 前記より完全三次元モデルを前記外挿することは、
    一致分類を計算するために前記部分的三次元モデルを分類することと、
    前記一致分類に対するより完全な三次元モデルを生成するための1つ又は複数の発見的方法ルールをロードすることと、
    前記1つ又は複数の発見的方法ルールに従って、前記部分的三次元モデルから前記より完全な三次元モデルを生成することを備える請求項1の方法。
  12. 前記1つ又は複数の発見的方法ルールは、前記一致分類に基づく前記より完全な三次元モデルの1つ又は複数の仮定された対称軸、または、前記一致分類に基づく前記より完全な三次元モデルの標準全体形状を備える請求項11の方法。
  13. 前記1つ又は複数の対象物は複数の対象物を備えており、
    前記1つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、外観に基づくセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える請求項1の方法。
  14. 前記1つ又は複数の対象物は複数の対象物を備えており、
    前記1つ又は複数の対象物のそれぞれを、前記シーンの前記フレームから前記単一化することは、セマンティックセグメンテーションを前記視覚情報に適用することにより前記複数の対象物を単一化することを備える請求項1の方法。
  15. セマンティックセグメンテーションを前記適用することは、セグメンテーションマップを計算するために、前記視覚情報を、訓練された完全畳み込みニューラルネットワークに供給することを備えており、
    各部分的三次元モデルは、前記セグメンテーションマップの1つのセグメントに対応していることを特徴とする請求項14の方法。
  16. 前記ぴったり取り囲むバウンディングボックスを、アイテム記述子と関連付けることを更に備える請求項1の方法。
  17. ぴったり取り囲むバウンディングボックスを推定するためのシステムであって、
    1台以上の深度カメラを備えている走査システムと、
    前記走査システムを制御するように構成されているプロセッサと、
    命令を格納しているメモリを備えており、前記命令は、前記プロセッサにより実行されると、前記プロセッサに、
    1つ又は複数の対象物を含むシーンの視覚情報を取り込むように前記1台以上の深度カメラを制御させ、
    前記視覚情報に基づいて、前記シーンの前記1つ又は複数の対象物を検出させ、
    前記1つ又は複数の対象物に対応する、前記1つ又は複数の対象物の対応する1つの部分的三次元モデルを備えている、1つ又は複数の三次元モデルを生成するために、前記シーンの前記フレームから前記1つ又は複数の対象物のそれぞれを単一化させ、
    前記部分的三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのより完全な三次元モデルを外挿させ、
    前記より完全な三次元モデルに基づいて、前記1つ又は複数の対象物の前記対応する1つのぴったり取り囲むバウンディングボックスを推定させ、
    前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、前記部分的三次元モデルと一致するモデルを、三次元モデルの一覧表から検索させ、前記部分的三次元モデルと一致する前記モデルを、前記より完全な三次元モデルとして出力させる命令を備える、
    システム。
  18. 生成された三次元モデルを備えている前記より完全な三次元モデルを外挿させる前記命令は、前記プロセッサにより実行されると、前記プロセッサに、入力された部分的三次元モデルに基づいて、前記生成された三次元モデルを予測するように訓練されている生成モデルに、前記部分的三次元モデルを供給させる命令を備える請求項17のシステム。
  19. 前記生成モデルは、条件付き敵対的生成ネットワークを備える請求項18のシステム。
JP2021535808A 2018-12-20 2019-12-20 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法 Active JP7458405B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862783141P 2018-12-20 2018-12-20
US62/783,141 2018-12-20
PCT/US2019/068144 WO2020132627A1 (en) 2018-12-20 2019-12-20 Systems and methods for object dimensioning based on partial visual information

Publications (2)

Publication Number Publication Date
JP2022514757A JP2022514757A (ja) 2022-02-15
JP7458405B2 true JP7458405B2 (ja) 2024-03-29

Family

ID=71102033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021535808A Active JP7458405B2 (ja) 2018-12-20 2019-12-20 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法

Country Status (5)

Country Link
US (3) US11481885B2 (ja)
EP (1) EP3899874A4 (ja)
JP (1) JP7458405B2 (ja)
CN (1) CN113498530A (ja)
WO (1) WO2020132627A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017219806A1 (de) * 2017-11-08 2019-05-09 BSH Hausgeräte GmbH Handscanner zur verbesserten Fleckenerkennung, System mit einem solchen Handscanner und Verfahren zu seinem Betrieb
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
CN113498530A (zh) 2018-12-20 2021-10-12 艾奎菲股份有限公司 基于局部视觉信息的对象尺寸标注系统和方法
CN109993825B (zh) * 2019-03-11 2023-06-20 北京工业大学 一种基于深度学习的三维重建方法
US11600049B2 (en) * 2019-04-24 2023-03-07 Magic Leap, Inc. Perimeter estimation from posed monocular video
US11468276B2 (en) * 2020-04-16 2022-10-11 Robert Bosch Gmbh System and method of a monotone operator neural network
EP3944192A1 (en) * 2020-07-22 2022-01-26 Dassault Systèmes Method for 3d scanning of a real object
IL305918A (en) * 2021-03-15 2023-11-01 Ortelligence Inc Systems and methods for dynamic identification of a surgical tray and the items contained therein
EP4071699A1 (en) * 2021-04-08 2022-10-12 Inter IKEA Systems B.V. A method for determining one or more storage boxes for storing objects
CN113297691B (zh) * 2021-04-30 2022-04-08 成都飞机工业(集团)有限责任公司 一种基于平面遍历的最小包围盒尺寸求解方法
WO2022266101A1 (en) * 2021-06-14 2022-12-22 The Johns Hopkins University Systems, methods, and computer programs for using a network of machine learning models to detect an image depicting an object of interest which can be partially occluded by another object
JP7190147B1 (ja) 2022-02-02 2022-12-15 株式会社アストライアーソフトウエア 3次元形状記述子抽出器の製造方法、3次元形状検索方法及び3次元形状検索システム
JP2023128662A (ja) * 2022-03-04 2023-09-14 株式会社野村総合研究所 計測システム
CN114895832B (zh) * 2022-05-17 2023-08-08 网易(杭州)网络有限公司 对象的调整方法、装置、电子设备及计算机可读介质
CN116797787B (zh) * 2023-05-22 2024-01-02 中国地质大学(武汉) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN116740060B (zh) * 2023-08-11 2023-10-20 安徽大学绿色产业创新研究院 基于点云几何特征提取的装配式预制构件尺寸检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196659A1 (en) 2015-01-05 2016-07-07 Qualcomm Incorporated 3d object segmentation

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050276443A1 (en) * 2004-05-28 2005-12-15 Slamani Mohamed A Method and apparatus for recognizing an object within an image
EP1766552A2 (en) * 2004-06-23 2007-03-28 Strider Labs, Inc. System and method for 3d object recognition using range and intensity
WO2012012943A1 (en) * 2010-07-28 2012-02-02 Shenzhen Institute Of Advanced Technology Chinese Academy Of Sciences Method for reconstruction of urban scenes
US8587583B2 (en) * 2011-01-31 2013-11-19 Microsoft Corporation Three-dimensional environment reconstruction
WO2013162735A1 (en) * 2012-04-25 2013-10-31 University Of Southern California 3d body modeling from one or more depth cameras in the presence of articulated motion
US20140172377A1 (en) * 2012-09-20 2014-06-19 Brown University Method to reconstruct a surface from oriented 3-d points
US10733798B2 (en) * 2013-03-14 2020-08-04 Qualcomm Incorporated In situ creation of planar natural feature targets
US9715761B2 (en) * 2013-07-08 2017-07-25 Vangogh Imaging, Inc. Real-time 3D computer vision processing engine for object recognition, reconstruction, and analysis
US9392262B2 (en) 2014-03-07 2016-07-12 Aquifi, Inc. System and method for 3D reconstruction using multiple multi-channel cameras
EP2933779A1 (en) * 2014-04-15 2015-10-21 Alcatel Lucent Capturing an environment with objects
US9436987B2 (en) * 2014-04-30 2016-09-06 Seiko Epson Corporation Geodesic distance based primitive segmentation and fitting for 3D modeling of non-rigid objects from 2D images
US9245196B2 (en) * 2014-05-09 2016-01-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking people in indoor environments using a visible light camera and a low-frame-rate infrared sensor
US9589362B2 (en) * 2014-07-01 2017-03-07 Qualcomm Incorporated System and method of three-dimensional model generation
US9600892B2 (en) * 2014-11-06 2017-03-21 Symbol Technologies, Llc Non-parametric method of and system for estimating dimensions of objects of arbitrary shape
US9911242B2 (en) * 2015-05-14 2018-03-06 Qualcomm Incorporated Three-dimensional model generation
US10304203B2 (en) * 2015-05-14 2019-05-28 Qualcomm Incorporated Three-dimensional model generation
US10452789B2 (en) * 2015-11-30 2019-10-22 Intel Corporation Efficient packing of objects
US9904867B2 (en) * 2016-01-29 2018-02-27 Pointivo, Inc. Systems and methods for extracting information about objects from scene information
EP3422955B1 (en) * 2016-02-29 2023-10-18 Packsize International, LLC System and method for assisted 3d scanning
CN106251396B (zh) * 2016-07-29 2021-08-13 迈吉客科技(北京)有限公司 三维模型的实时控制方法和系统
WO2018067978A1 (en) * 2016-10-08 2018-04-12 Purdue Research Foundation Method and apparatus for generating two-dimensional image data describing a three-dimensional image
IL297846B2 (en) 2016-11-15 2023-12-01 Magic Leap Inc A deep learning system for discovering a cube
US10354411B2 (en) * 2016-12-20 2019-07-16 Symbol Technologies, Llc Methods, systems and apparatus for segmenting objects
EP3566193A4 (en) * 2017-01-04 2020-08-26 Aquifi, Inc. SYSTEMS AND METHODS FOR SHAPE-BASED OBJECT RECOVERY
US10430641B2 (en) * 2017-03-08 2019-10-01 GM Global Technology Operations LLC Methods and systems for object tracking using bounding boxes
US10699421B1 (en) * 2017-03-29 2020-06-30 Amazon Technologies, Inc. Tracking objects in three-dimensional space using calibrated visual cameras and depth cameras
WO2019075276A1 (en) * 2017-10-11 2019-04-18 Aquifi, Inc. SYSTEMS AND METHODS FOR IDENTIFYING OBJECT
US20210183097A1 (en) * 2017-11-13 2021-06-17 Siemens Aktiengesellschaft Spare Part Identification Using a Locally Learned 3D Landmark Database
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN115019015A (zh) * 2017-12-22 2022-09-06 奇跃公司 密集3d重建数据的缓存和更新
US11341350B2 (en) * 2018-01-05 2022-05-24 Packsize Llc Systems and methods for volumetric sizing
US10817752B2 (en) * 2018-05-31 2020-10-27 Toyota Research Institute, Inc. Virtually boosted training
CN113498530A (zh) * 2018-12-20 2021-10-12 艾奎菲股份有限公司 基于局部视觉信息的对象尺寸标注系统和方法
US10825217B2 (en) * 2019-01-02 2020-11-03 Microsoft Technology Licensing, Llc Image bounding shape using 3D environment representation
US10937178B1 (en) * 2019-05-09 2021-03-02 Zoox, Inc. Image-based depth data and bounding boxes
US20220254045A1 (en) * 2021-02-09 2022-08-11 Everypoint, Inc. Determining Object Structure Using Physically Mounted Devices With Only Partial View Of Object

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160196659A1 (en) 2015-01-05 2016-07-07 Qualcomm Incorporated 3d object segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Nguyen, Duc Thanh、Hua, Binh-Son、Tran, Minh-Khoi、Pham, Quang-Hieu、Yeung, Sai-Kit,A Field Model for Repairing 3D Shapes,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016年,p.5676-5684,DOI: 10.1109/CVPR.2016.612
Schiebener, David、Schmidt, Andreas、Vahrenkamp, Nikolaus、Asfour, Tamim,Heuristic 3D object shape completion based on symmetry and scene context,2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2016年,p.74-81,DOI: 10.1109/IROS.2016.7759037
Yang, Bo、Rosa, Stefano、Markham, Andrew、Trigoni, Niki、Wen, Hongkai,3D Object Dense Reconstruction from a Single Depth View,IEEE Transactions on Pattern Analysis and Machine Intelligence,2018年02月,DOI: 10.1109/TPAMI.2018.2868195

Also Published As

Publication number Publication date
EP3899874A4 (en) 2022-09-07
WO2020132627A1 (en) 2020-06-25
US11481885B2 (en) 2022-10-25
US11798152B2 (en) 2023-10-24
EP3899874A1 (en) 2021-10-27
US20230131623A1 (en) 2023-04-27
CN113498530A (zh) 2021-10-12
US20230410276A1 (en) 2023-12-21
JP2022514757A (ja) 2022-02-15
US20200372626A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
JP7458405B2 (ja) 部分的視覚情報に基づく対象物寸法付けのためのシステムと方法
US11709046B2 (en) Systems and methods for volumetric sizing
CA3115898C (en) Systems and methods for object identification
US10691979B2 (en) Systems and methods for shape-based object retrieval
US20190096135A1 (en) Systems and methods for visual inspection based on augmented reality
EP3422955B1 (en) System and method for assisted 3d scanning
US10528616B2 (en) Systems and methods for automatically generating metadata for media documents
US11868863B2 (en) Systems and methods for joint learning of complex visual inspection tasks using computer vision
US11720766B2 (en) Systems and methods for text and barcode reading under perspective distortion

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7458405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150