JP7387117B2

JP7387117B2 - 計算システム、方法及び非一時的コンピュータ可読媒体

Info

Publication number: JP7387117B2
Application number: JP2022562937A
Authority: JP
Inventors: アブエラ，アメッド; サルル，ハムディ; ロドリゲス，ホセジェロニモモレイラ; ヨウ，シュタオ; ユ，ジンゼ
Original assignee: Mujin Inc
Current assignee: Mujin Inc
Priority date: 2021-08-09
Filing date: 2022-08-09
Publication date: 2023-11-28
Anticipated expiration: 2042-08-09
Also published as: US20230044001A1; CN115989117A; JP2023536380A; CN116110041A; CN116168387A; WO2023017413A1; CN116110039A; US20230041378A1; US20230044420A1; CN116071742A; US20230039581A1

Description

関連出願の相互参照
本出願は、「ＡＲＯＢＯＴＩＣＳＹＳＴＥＭＦＯＲＦＡＣＩＬＩＴＡＴＩＮＧＴＥＭＰＬＡＴＥＭＡＴＣＨＩＮＧＡＮＤＤＥＴＥＣＴＩＯＮＦＯＲＯＢＪＥＣＴＰＩＣＫＩＮＧ」と題する２０２１年８月９日出願の米国仮特許出願第６３／２３０，９３１号の利益を主張し、その全体が参照により本明細書に組み込まれる。

本技術は、概して、ロボットシステム、より詳細には、物体を識別及び検出するためのシステム、プロセス、及び技術を対象とする。より詳細には、本技術は、容器中の物体を識別及び検出するために使用され得る。

性能がますます向上し、コストが低減するにつれ、現在、多くのロボット（例えば、物理的アクションを自動／自律的に実行するように構成された機械）が様々な異なる分野で広く使用されている。ロボットは、例えば、製造及び／又は組立、梱包及び／又は包装、輸送及び／又は出荷などにおける様々なタスク（例えば、空間を通した物体の操作又は搬送）を実行するために使用され得る。タスクを実行する際に、ロボットは、人のアクションを再現することができ、それによって、そうでなければ危険又は反復的なタスクを実行するのに必要な人の関与を置き換えるか、又は低減することができる。

しかしながら、技術が進歩しているにもかかわらず、ロボットは多くの場合、より大きな及び／又はより複雑なタスクを実行するために要求される、人間の相互作用を複製するのに必要な精巧さを欠く。したがって、ロボット間の動作及び／又は相互作用を管理するための改善された技術及びシステムに対するニーズが依然として存在する。

一実施形態では、シーン内の物体を識別するための物体認識テンプレートセットを生成するように構成された計算システムが提供される。計算システムは、少なくとも一つの処理回路を含み、少なくとも一つの処理回路は、物体を表す物体モデルを含む、物体の登録データを取得することと、三次元空間における物体モデルの複数の視点を決定することと、複数の視点の各々で、物体モデルの複数の外観を推定することと、複数の外観に従って、それぞれが複数の外観のうちのそれぞれの一つに対応する複数の物体認識テンプレートを生成することと、複数の物体認識テンプレートを、ロボット制御システムに物体認識テンプレートセットとして伝達することと、行うように構成される。複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す。

別の実施形態では、シーン内の物体を識別するための物体認識テンプレートセットを生成する方法が提供される。方法は、物体を表す物体モデルを含む、物体の登録データを取得することと、三次元空間における物体モデルの複数の視点を決定することと、複数の視点の各々で、物体モデルの複数の外観を推定することと、複数の外観に従って、各々が複数の外観のうちのそれぞれの一つに対応する複数の物体認識テンプレートを生成することと、複数の物体認識テンプレートを、ロボット制御システムに物体認識セットとして伝達することと、を含む。複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す。

別の実施形態では、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体が提供され、非一時的コンピュータ可読媒体は、シーン内の物体を識別するための物体認識テンプレートを生成するための方法を実行するための実行可能な命令で構成される。方法は、物体を表す物体モデルを含む、物体の登録データを受信することと、物体モデルの複数の視点を三次元空間内で生成するための処理を行うことと、複数の視点の各々で、物体モデルの複数の外観を推定する処理を行うことと、複数の外観に従って、各々が複数の外観のうちのそれぞれの一つに対応する複数の物体認識テンプレートを生成する処理を行うことと、ロボットシステムに物体認識テンプレートセットとして、複数の物体認識テンプレートを出力することと、を含む。複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す。

別の実施形態では、シーン内の物体を識別するための物体認識テンプレートを生成するように構成された計算システムが提供される。計算システムは、少なくとも一つの処理回路を含む。処理回路は、デジタルで表される物体を含む物体情報を取得するステップと、物体情報から二次元測定情報を抽出するステップと、物体情報から三次元測定情報を抽出するステップと、二次元測定情報及び三次元測定情報に従って物体認識テンプレートを生成するステップと、を含む。

別の実施形態では、シーン内の物体を識別するための物体認識テンプレートを生成する方法が提供される。方法は、デジタルで表される物体を含む物体情報を取得することと、物体情報から二次元測定情報を抽出することと、物体情報から三次元測定情報を抽出することと、二次元測定情報及び三次元測定情報に従って物体認識テンプレートを生成することとを含む。

別の実施形態では、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、シーン内の物体を識別するための物体認識テンプレートを生成するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体が提供される。方法は、デジタルで表される物体を含む物体情報を受信することと、物体情報から二次元測定情報を抽出するための動作を行うことと、物体情報から三次元測定情報を抽出するための動作を行うことと、二次元測定情報及び三次元測定情報に従って、ロボットシステムに物体認識テンプレートを出力することと、を含む。

別の実施形態では、計算システムが提供される。計算システムは、アーム及びアームに接続されたエンドエフェクタを有するロボットと通信すると共に、視野を有するカメラと通信する少なくとも一つの処理回路を備える。少なくとも一つの処理回路は、視野内に一つ以上の物体がある又はあったときに、非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成される。実行される命令は、シーン内の物体の物体画像情報を取得することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を取得することと、テンプレート物体と物体画像情報との間の不一致を識別することと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別することと、テンプレート位置のセットを、物体位置のセットに収束するように調整することと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説を生成することと、を含む。

別の実施形態では、方法が提供される。方法は、シーン内の物体の物体画像情報を取得することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を取得することと、テンプレート物体と物体画像情報との間の不一致を識別することと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別することと、テンプレート位置のセットを、物体位置のセットに収束するように調整することと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説を生成することと、を含む。

別の実施形態では、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、検出仮説を精密化するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体が提供される。方法は、シーン内の物体の物体画像情報を受信することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を受信することと、テンプレート物体と物体画像情報との間の不一致を識別する動作を行うことと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別する動作を行うことと、テンプレート位置のセットを、物体位置のセットに収束するように調整する動作を行うことと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説をロボットシステムに出力することと、を含む。

別の実施形態では、計算システムが提供される。計算システムは、アーム及びアームに接続されたエンドエフェクタを有するロボットと通信すると共に、視野を有するカメラと通信する少なくとも一つの処理回路を備え、少なくとも一つの処理回路は、視野内に一つ以上の物体がある又はあったときに、非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成される。実行される命令は、シーン内の物体の物体画像情報を取得することと、それぞれがテンプレート物体を表す対応する物体認識テンプレートを含む検出仮説のセットを取得することと、検出仮説のセットの各検出仮説を検証することと、を含む。検証することは、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア及び法線ベクトルバリデータスコアのうちの少なくとも一つを含む複数の三次元検証スコアを生成することと、検出仮説の対応する物体認識テンプレートの二次元情報と物体画像情報の三次元情報の比較に基づいて、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一つを含む複数の二次元検証スコアを生成することと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングすることと、検証後に検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の物体を検出することとによって行われる。

別の実施形態では、方法が提供される。方法は、シーン内の物体の物体画像情報を取得することと、それぞれがテンプレート物体を表す対応する物体認識テンプレートを含む検出仮説のセットを取得することと、検出仮説のセットの各検出仮説を検証することと、を含む。検証することは、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含む、複数の三次元検証スコアを生成することと、検出仮説の対応する物体認識テンプレートの二次元情報と物体画像情報の三次元情報の比較に基づいて、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一つを含む、複数の二次元検証スコアを生成することと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングすることと、検証後に検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の物体を検出することと、によって行われる。

別の実施形態では、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、検出仮説を検証するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体が提供される。方法は、シーン内の物体の物体画像情報を受信することと、検出仮説のセットを受信することであって、各検出仮説がテンプレート物体を表す対応する物体認識テンプレートを含む、検出仮説のセットを受信することと、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含む、複数の三次元検証スコアを生成する処理を行うことと、検出仮説の対応する物体認識テンプレートの二次元情報及び物体画像情報の三次元情報との比較に基づいて、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一つを含む、複数の二次元検証スコアを生成する処理を実行することと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングする処理を行うことと、検証後に、検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の物体を検出することと、シーン内の検出された物体をロボットシステムに出力することと、を含む。

本明細書の実施形態による、物体の検出、識別、及び取り出しを実行するか、又は容易にするためのシステムを示す。

本明細書の実施形態による、物体の検出、識別、及び取り出しを実行するか、又は容易にするためのシステムの一実施形態を示す。

本明細書の実施形態による、物体の検出、識別、及び取り出しを実行するか、又は容易にするためのシステムの別の実施形態を示す。

本明細書の実施形態による、物体の検出、識別、及び取り出しを実行するか、又は容易にするためのシステムのさらに別の実施形態を示す。

本明細書の実施形態と一致する、物体の検出、識別及び取り出しを実行するか、又は容易にするように構成された計算システムを示すブロック図である。

本明細書の実施形態と一致する、物体の検出、識別、及び取り出しを実行するか、又は容易にするように構成された計算システムの一実施形態を示すブロック図である。

本明細書の実施形態と一致する、物体の検出、識別、及び取り出しを実行するか、又は容易にするように構成された計算システムの別の実施形態を示すブロック図である。

本明細書の実施形態と一致する、物体の検出、識別、及び取り出しを実行するか、又は容易にするように構成された計算システムのさらに別の実施形態を示すブロック図である。

システムによって処理され、本明細書の実施形態と一致する、画像情報の例である。

システムによって処理され、本明細書の実施形態と一致する、画像情報の別の例である。

本明細書の実施形態による、ロボットシステムを操作するための例示的な環境を示す。

本明細書の実施形態と一致する、ロボットシステムによる物体の検出、識別、及び取り出しのための例示的な環境を示す。

本明細書の実施形態による、物体の検出、識別、及び取り出しのための方法及び処理の全体的な流れを示す、フロー図を提供する。

本明細書の実施形態と一致する、物体登録データの例を示す。

本明細書の実施形態と一致する、物体認識テンプレートを生成する方法を示す。

本明細書の実施形態と一致する物体認識テンプレートを生成する方法の態様を示す。本明細書の実施形態と一致する物体認識テンプレートを生成する方法の態様を示す。

本明細書の実施形態と一致する、物体認識テンプレートを生成する方法の態様を示す。本明細書の実施形態と一致する、物体認識テンプレートを生成する方法の態様を示す。本明細書の実施形態と一致する、物体認識テンプレートを生成する方法の態様を示す。本明細書の実施形態と一致する、物体認識テンプレートを生成する方法の態様を示す。

本明細書の実施形態と一致するテンプレートマッチングを介した物体識別及び仮説生成の方法を示す。本明細書の実施形態と一致するテンプレートマッチングを介した物体識別及び仮説生成の方法を示す。

図１１は、本明細書の実施形態と一致する検出仮説を精密化する方法を示す。

本明細書の実施形態と一致する検出仮説を精密化する方法の態様を示す。本明細書の実施形態と一致する検出仮説を精密化する方法の態様を示す。本明細書の実施形態と一致する検出仮説を精密化する方法の態様を示す。

本明細書の実施形態と一致する検出仮説を検証する方法を示す。

本明細書の実施形態と一致する検出仮説を精密化する方法の態様を示す。

物体の検出、識別、及び取り出しに関連するシステム及び方法が本明細書に記載されている。具体的には、本開示のシステム及び方法は、物体が容器の中に位置する場所における物体の検出、識別、及び取り出しを容易にし得る。本明細書で論じるように、物体は、金属又は他の材料であってもよく、箱、ビン、木枠などの容器の中に位置してもよい。物体は、例えば、ねじで満たされた箱などの、非組織的又は不規則な様式で、容器の中に位置してもよい。こうした状況での物体の検出及び識別は、物体の不規則な配置のために困難であり得るが、本明細書で論じられるシステム及び方法は、規則的又は半規則的な様式で配置される物体の検出、識別、及び物体の取り出しを同様に改善し得る。したがって、本明細書に記載のシステム及び方法は、複数の物体の中から個々の物体を識別するように設計され、個々の物体は、異なる位置、異なる角度などで配置されてもよい。本明細書で論じるシステム及び方法は、ロボットシステムを含み得る。本明細書の実施形態に従って構成されたロボットシステムは、複数のロボットの操作を調整することによって、統合されたタスクを自律的に実行し得る。ロボットシステムは、本明細書に記載されるように、制御し、コマンドを発行し、ロボット装置及びセンサからの情報を受信し、ロボット装置、センサ及びカメラによって生成されたデータにアクセスし、分析し、及び処理し、ロボットシステムの制御に使用可能なデータ又は情報を生成し、ロボット装置、センサ、及びカメラのアクションを計画するように構成されたロボット装置、アクチュエータ、センサ、カメラ、及び計算システムの任意の適切な組み合わせを含み得る。本明細書で使用される場合、ロボットシステムは、ロボットアクチュエータ、センサ、又はその他の装置に直ちにアクセス又は制御する必要はない。ロボットシステムは、本明細書に記載するように、情報の受け取り、分析、及び処理を通して、こうしたロボットアクチュエータ、センサ、及び他の装置の性能を改善するように構成された計算システムであってもよい。

本明細書に記載される技術は、物体の識別、検出、及び取り出しで使用するために構成されたロボットシステムに技術的改善を提供する。本明細書に記載する技術的改善は、これらの作業の速度、精度、及び正確さを増加させ、容器からの物体の検出、識別、及び取り出しをさらに容易にする。本明細書に記載されるロボットシステム及び計算システムは、容器からの物体を識別、検出、及び取り出す技術的問題に対処するものであり、物体は不規則に配置され得る。この技術的問題に対処することにより、物体の識別、検出、及び取り出しの技術が改善される。

本出願は、システム及びロボットシステムを指す。ロボットシステムは、本明細書で論じるように、ロボットアクチュエータ構成要素（例えば、ロボットアーム、ロボットグリッパなど）、様々なセンサ（例えば、カメラなど）、及び様々な計算又は制御システムを含み得る。本明細書で論じるように、計算システム又は制御システムは、ロボットアーム、ロボットグリッパ、カメラなどの様々なロボット構成要素を「制御する」と呼んでもよい。こうした「制御」は、ロボット構成要素の様々なアクチュエータ、センサ、及びその他の機能的態様の直接的な制御及び相互作用を指し得る。例えば、計算システムは、様々なモータ、アクチュエータ、及びセンサにロボット移動を引き起こすために必要な信号のすべてを発行又は提供することによって、ロボットアームを制御し得る。こうした「制御」はまた、こうしたコマンドをロボット移動を引き起こすために必要な信号に変換するさらなるロボット制御システムへの抽象的又は間接的なコマンドの発行を指すことができる。例えば、計算システムは、ロボットアームが移動すべき軌道又は目的地の位置を記述するコマンドを発行することによってロボットアームを制御してもよく、ロボットアームに関連付けられたさらなるロボット制御システムは、こうしたコマンドを受信及び解釈し、その後、ロボットアームの様々なアクチュエータ及びセンサに必要な直接信号を提供して、必要な移動を引き起こしてもよい。

具体的には、本明細書に記載の本技術は、ロボットシステムが、容器内の複数の物体のうち、標的物体と相互作用するのを支援する。容器からの物体の検出、識別、及び取り出しには、適切な物体認識テンプレートの生成、識別に使用可能な特徴の抽出、ならびに検出仮説の生成、精密化、及び検証を含む、いくつかのステップが必要である。例えば、物体の不規則な配置の可能性のために、複数の異なる姿勢（例えば、角度及び位置）の、及び他の物体の一部によって潜在的に隠されている場合の、物体を認識及び識別することが必要であり得る。

以下に、本開示の技術の理解を提供するために、具体的な詳細が記載されている。実施形態では、本明細書に導入される技術は、本明細書に開示される各具体的な詳細を含まずに実施されてもよい。他の実例では、特定の機能又はルーチンなどの周知の特徴は、本開示を不必要に不明瞭化することを避けるために詳細には説明されない。本明細書における「実施形態」、「一実施形態」などへの参照は、説明される特定の特徴、構造、材料、又は特性が、本開示の少なくとも一つの実施形態に含まれることを意味する。したがって、本明細書におけるそのような語句の外観は、必ずしもすべて同じ実施形態を指すわけではない。一方で、そのような参照は、必ずしも相互に排他的なものではない。さらに、任意の一つの実施形態に関して記載される特定の特徴、構造、材料、又は特性は、このような品目が相互に排他的でない限り、任意の他の実施形態のものと任意の適切な様式で組み合わせることができる。図に示される様々な実施形態は、単に例示的な表現であり、必ずしも縮尺どおりに描かれるものではないことを理解されたい。

周知であり、かつ多くの場合にロボットシステム及びサブシステムと関連付けられるが、本開示の技術のいくつかの重要な態様を不必要に不明瞭にし得る、構造又はプロセスを説明する数点の詳細は、明確化の目的で以下の説明には記載されていない。さらに、以下の開示は、本技術の異なる態様の数点の実施形態を説明しているが、数点の他の実施形態は、本節に説明されるものとは異なる構成又は異なる構成要素を有してもよい。したがって、開示された技術は、追加の要素を有するか、又は以下に説明される要素のうちの数点を有しない、他の実施形態を有してもよい。

以下に説明される本開示の多くの実施形態又は態様は、プログラム可能なコンピュータ又はコントローラによって実行されるルーチンを含む、コンピュータ又はコントローラ実行可能命令の形態をとり得る。関連分野の当業者であれば、開示された技術は、以下に示され説明されるもの以外のコンピュータ又はコントローラシステム上で、もしくはそれらを用いて実践され得ることを理解するであろう。本明細書に説明される技術は、以下に説明されるコンピュータ実行可能な命令のうちの一つ以上を実行するように、特別にプログラム、構成、又は構築されている、専用コンピュータ又はデータプロセッサで具現化され得る。したがって、本明細書において一般的に使用される「コンピュータ」及び「コントローラ」という用語は、任意のデータプロセッサを指し、インターネット家電及びハンドヘルドデバイス（パームトップコンピュータ、ウェアラブルコンピュータ、セルラー又はモバイルフォン、マルチプロセッサシステム、プロセッサベース又はプログラム可能な家電、ネットワークコンピュータ、ミニコンピュータなどを含む）を含み得る。これらのコンピュータ及びコントローラによって処理される情報は、液晶ディスプレイ（ＬＣＤ）を含む、任意の好適なディスプレイ媒体で提示され得る。コンピュータ又はコントローラ実行可能タスクを実行するための命令は、ハードウェア、ファームウェア、又はハードウェアとファームウェアとの組み合わせを含む、任意の好適なコンピュータ可読媒体に、又はその上に記憶され得る。命令は、例えば、フラッシュドライブ、ＵＳＢデバイス、及び／又は他の好適な媒体を含む、任意の適切なメモリデバイスに含まれ得る。

「結合」及び「接続」という用語は、それらの派生語と共に、本明細書では、構成要素間の構造的な関係を説明するために使用され得る。これらの用語は、互いの同義語として意図されていないことが理解されるべきである。むしろ、特定の実施形態では、「接続」は、二つ以上の要素が互いに直接接触していることを示すために使用され得る。文脈において別途明白にされない限り、「結合」という用語は、二つ以上の要素が、互いに直接的又は間接的（それらの間の他の介在要素との）接触にあるか、又は二つ以上の要素が互いに協働するか、もしくは相互作用する（例えば、信号送信／受信のための、又は関数呼び出しのためのなどの、因果関係にあるような）か、又はその両方を示すために使用され得る。

計算システムによる画像分析に対する本明細書の任意の参照は、選択された点に対する様々な位置のそれぞれの奥行き値を説明する奥行き情報を含み得る空間構造情報に従って、又はそれを使用して実施され得る。奥行き情報は、物体を識別するか、又は物体が空間的にどのように配置されているかを推定するために使用され得る。一部の実例では、空間構造情報は、物体の一つ以上の表面上の場所を説明する点群を含んでもよく、又は該点群を生成するために使用され得る。空間構造情報は、可能な画像分析の一形態に過ぎず、当業者が公知の他の形態が、本明細書に説明される方法に従って使用され得る。

図１Ａは、物体検出、すなわちより具体的には、物体認識を実行するためのシステム１０００を示している。より詳細には、システム１０００は、計算システム１１００及びカメラ１２００を含み得る。この例では、カメラ１２００は、カメラ１２００が位置する環境を、説明するか、もしくはそうでなければ表し、又はより具体的には、カメラ１２００の視野（カメラ視野とも呼ぶ）内の環境を表す、画像情報を生成するように構成され得る。環境は、例えば、倉庫、製造工場、小売空間、又は他の施設であり得る。こうした実例では、画像情報が、箱、ビン、ケース、木枠、パレット、又は他の容器などの、こうした施設に位置する物体を表し得る。システム１０００は、以下でより詳細に論じるように、画像情報を使用して、カメラ視野内の個々の物体を区別すること、画像情報に基づいて物体認識又は物体登録を実行すること、及び／又は画像情報に基づいてロボット相互作用計画を実行することなど、画像情報を生成、受信、及び／又は処理するよう構成され得る（用語「及び／又は」及び「又は」は、本開示では互換的に使用される）。ロボット相互作用計画は、例えば、ロボットと容器又は他の物体との間のロボット相互作用を容易にするように、施設でロボットを制御するために使用され得る。計算システム１１００及びカメラ１２００が、同じ施設に位置してもよく、又は互いと遠隔に位置してもよい。例えば、計算システム１１００は、倉庫又は小売空間から遠隔のデータセンターでホストされる、クラウドコンピューティングプラットフォームの一部であってもよく、ネットワーク接続を介して、カメラ１２００と通信し得る。

一実施形態では、カメラ１２００（画像感知装置とも呼ばれ得る）は、２Ｄカメラ及び／又は３Ｄカメラであり得る。例えば、図１Ｂは、計算システム１１００、ならびにその両方がカメラ１２００の実施形態であり得る、カメラ１２００Ａ及びカメラ１２００Ｂを含む、システム１０００の実施形態であり得るシステム１５００Ａを示している。この実施例では、カメラ１２００Ａは、カメラの視野内にある環境の視覚的外観を説明する２Ｄ画像を含む、又は形成する、２Ｄ画像情報を生成するように構成される、２Ｄカメラであり得る。カメラ１２００Ｂは、カメラの視野内の環境に関する空間構造情報を含む、又は形成する３Ｄ画像情報を生成するように構成される、３Ｄカメラ（空間構造感知カメラ又は空間構造感知装置とも呼ばれる）であり得る。空間構造情報は、カメラ１２００の視野内にある様々な物体の表面上の場所など、カメラ１２００Ｂに対する様々な場所のそれぞれの奥行き値を説明する、奥行き情報（例えば、奥行きマップ）を含んでもよい。カメラの視野又は物体の表面上のこれらの場所を、物理的な場所と称することもできる。この例の奥行き情報は、物体が三次元（３Ｄ）空間の中で空間的にどのように配置されるかを推定するために使用され得る。一部の実例では、空間構造情報は、カメラ１２００Ｂの視野内にある物体の一つ以上の表面上の場所を説明する点群を含んでもよく、又は該点群を生成するために使用され得る。より具体的には、空間構造情報が、物体の構造（物体構造とも呼ぶ）上の様々な位置を説明し得る。

一実施形態では、システム１０００が、カメラ１２００の環境においてロボットと様々な物体との間のロボット相互作用を容易にするための、ロボット操作システムであり得る。例えば、図１Ｃは、図１Ａ及び図１Ｂのシステム１０００／１５００Ａの実施形態であり得る、ロボット操作システム１５００Ｂを示している。ロボット操作システム１５００Ｂは、計算システム１１００、カメラ１２００、及びロボット１３００を含んでもよい。上述のように、ロボット１３００は、カメラ１２００の環境の中にある一つ以上の物体、例えば、箱、木枠、ビン、パレット、又はその他の容器と相互作用するために使用され得る。例えば、ロボット１３００は、一つの場所から容器を拾い上げ、それらを別の場所に移動するように構成され得る。一部の事例では、ロボット１３００は、容器又は他の物体のグループが降ろされて、例えば、ベルトコンベヤーに移動される、パレットから降ろす操作を実行するために使用され得る。一部の実施形態では、カメラ１２００は、以下に論じる、ロボット１３００又はロボット３３００に取り付けられてもよい。これは、手持ちカメラ又は手持ちカメラソリューションとしても知られる。カメラ１２００は、ロボット１３００のロボットアーム３３２０に取り付けられてもよい。次に、ロボットアーム３３２０は、様々な持ち上げ領域に移動して、それらの領域に関する画像情報を生成してもよい。一部の実施形態では、カメラ１２００は、ロボット１３００から離れていてもよい。例えば、カメラ１２００は、倉庫又は他の構造の天井に装着されてもよく、構造に対して静止したままであり得る。一部の実施形態では、手持ちカメラ１２００と共に使用されるロボット１３００とは別個の複数のカメラ１２００及び／又はロボット１３００とは別個のカメラ１２００を含む、複数のカメラ１２００が使用され得る。一部の実施形態では、一つのカメラ１２００又は複数のカメラ１２００は、ロボットアーム、ガントリ、又はカメラ移動のために構成された他の自動化システムなどの物体操作に使用されるロボット１３００とは別個に、専用のロボットシステムに装着されてもよく、又は固定されてもよい。本明細書全体を通して、カメラ１２００を「制御する（ｃｏｎｔｒｏｌ）」又は「制御している（ｃｏｎｔｒｏｌｌｉｎｇ）」について論じることができる。手持ちカメラソリューションについては、カメラ１２００の制御は、カメラ１２００が装着されるか、又は取り付けられるロボット１３００の制御も含む。

一実施形態では、図１Ａ～図１Ｃの計算システム１１００は、ロボットコントローラとも呼ばれ得るロボット１３００を形成してもよく、又はロボット１３００に組み込まれてもよい。ロボット制御システムは、システム１５００Ｂに含まれ得、例えば、ロボット１３００と容器又は他の物体との間のロボット相互作用を制御するためのロボット相互作用移動コマンドなどの、ロボット１３００用のコマンドを生成するように構成されている。こうした実施形態では、計算システム１１００は、例えば、カメラ１２００によって生成された画像情報に基づいて、このようなコマンドを生成するように構成されてもよい。例えば、計算システム１１００は、画像情報に基づいて動作計画を決定するように構成されてもよく、動作計画は、例えば、物体を握るか、又は他の方法で拾い上げることを意図し得る。計算システム１１００は、動作計画を実行するために、一つ以上のロボット相互作用移動コマンドを生成し得る。

実施形態では、計算システム１１００は、視覚システムを形成し得るか、又はその一部であり得る。視覚システムは、例えば、ロボット１３００が位置する環境を説明する、又は別の方法として、もしくは追加的に、カメラ１２００が位置する環境を説明する、視覚情報を生成するシステムであり得る。視覚情報が、上で考察された３Ｄ画像情報、及び／又は２Ｄ画像情報、あるいはいくつかの他の画像情報を含んでもよい。一部のシナリオでは、計算システム１１００が、視覚システムを形成する場合、視覚システムは、上で考察されたロボット制御システムの一部であってもよく、又はロボット制御システムから分離してもよい。視覚システムは、ロボット制御システムから分離する場合、視覚システムは、ロボット１３００が位置する環境を説明する、情報を出力するように構成され得る。情報は、視覚システムからこうした情報を受信することができる、ロボット制御システムに出力されることができ、情報に基づいて、動作計画を実行し、及び／又はロボット相互作用移動コマンドを生成する。視覚システムに関するさらなる情報は、以下に詳しく説明されている。

一実施形態では、計算システム１１００は、ＲＳ－２３２インターフェース、ユニバーサルシリアルバス（ＵＳＢ）インターフェースなどの専用有線通信インターフェースを介して、及び／もしくは周辺構成要素相互接続（ＰＣＩ）バスなどのローカルコンピュータバスを介して提供される接続など、直接接続によってカメラ１２００ならびに／又はロボット１３００と通信し得る。一実施形態では、計算システム１１００が、ネットワークを介してカメラ１２００及び／又はロボット１３００と通信し得る。ネットワークは、パーソナルエリアネットワーク（ＰＡＮ）、例えば、イントラネットといったローカルエリアネットワーク（ＬＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、又はインターネットなど、任意の種類及び／又は形態のネットワークであり得る。ネットワークは、例えば、イーサネットプロトコル、インターネットプロトコル群（ＴＣＰ／ＩＰ）、ＡＴＭ（ＡｓｙｎｃｈｒｏｎｏｕｓＴｒａｎｓｆｅｒＭｏｄｅ）技術、ＳＯＮＥＴ（ＳｙｎｃｈｒｏｎｏｕｓＯｐｔｉｃａｌＮｅｔｗｏｒｋｉｎｇ）プロトコル、又はＳＤＨ（ＳｙｎｃｈｒｏｎｏｕｓＤｉｇｉｔａｌＨｉｅｒａｒｃｈｙ）プロトコルを含む、プロトコルの異なる技術、及び層又はスタックを利用し得る。

実施形態では、計算システム１１００は、カメラ１２００及び／もしくはロボット１３００と直接情報を伝達してもよく、又は中間記憶装置、もしくはより広くは、中間の非一時的コンピュータ可読媒体を介して通信し得る。例えば、図１Ｄは、計算システム１１００の外部にあり得る非一時的コンピュータ可読媒体１４００を含む、システム１０００／１５００Ａ／１５００Ｂの実施形態であってもよく、例えば、カメラ１２００によって生成された画像情報を記憶するための外部バッファ又はリポジトリとして作用し得る、システム１５００Ｃを示している。こうした一実施例では、計算システム１１００は、非一時的コンピュータ可読媒体１４００から、画像情報を検索するか、さもなければ受信することができる。非一時的コンピュータ可読媒体１４００の例としては、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又はそれらの任意の好適な組み合わせが挙げられる。非一時的コンピュータ可読媒体は、例えば、コンピュータディスケット、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＤＤ）、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消却可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、及び／又はメモリスティックを形成し得る。

上述のように、カメラ１２００は、３Ｄカメラ及び／又は２Ｄカメラであり得る。２Ｄカメラは、カラー画像又はグレースケール画像などの、２Ｄ画像を生成するように構成され得る。３Ｄカメラは、例えば、飛行時間（ＴＯＦ）カメラもしくは構造化光カメラなどの、奥行き感知カメラ、又は任意の他の種類の３Ｄカメラであり得る。一部の事例では、２Ｄカメラ及び／又は３Ｄカメラは、電荷結合素子（ＣＣＤ）センサ及び／又は相補型金属酸化膜半導体（ＣＭＯＳ）センサなど、画像センサを含み得る。一実施形態では、３Ｄカメラは、レーザ、ＬＩＤＡＲ装置、赤外線装置、明／暗センサ、運動センサ、マイクロ波検出器、超音波検出器、レーダ探知機、又は奥行き情報、もしくは他の空間構造情報を捕捉するように構成される任意の他の装置を含み得る。

上述のように、画像情報が、計算システム１１００によって処理され得る。一実施形態では、計算システム１１００は、サーバ（例えば、一つ以上のサーバブレード、プロセッサなどを有する）、パーソナルコンピュータ（例えば、デスクトップコンピュータ、ラップトップコンピュータなど）、スマートフォン、タブレット計算装置、及び／もしくは他の任意の他の計算システムを含んでもよく、又はそれらとして構成されてもよい。一実施形態では、計算システム１１００の機能性のいずれか又はすべては、クラウドコンピューティングプラットフォームの一部として行われてもよい。計算システム１１００は、単一の計算装置（例えば、デスクトップコンピュータ）であってもよく、又は複数の計算装置を含んでもよい。

図２Ａは、計算システム１１００の一実施形態を示す、ブロック図を提供する。この実施形態における計算システム１１００は、少なくとも一つの処理回路１１１０、及び非一時的コンピュータ可読媒体（複数可）１１２０を含む。一部の実例では、処理回路１１１０は、非一時的コンピュータ可読媒体１１２０（例えば、コンピュータメモリ）上に記憶された命令（例えば、ソフトウェア命令）を実行するように構成されたプロセッサ（例えば、中央処理ユニット（ＣＰＵ）、専用コンピュータ、及び／又はオンボードサーバ）を含み得る。一部の実施形態では、プロセッサは、他の電子／電気装置に動作可能に結合された別個の／スタンドアロンコントローラに含まれてもよい。プロセッサは、プログラム命令を実行して、他の装置を制御／他の装置とインターフェース接続し、それによって、計算システム１１００にアクション、タスク、及び／又は処理を実行させ得る。一実施形態では、処理回路１１１０は、一つ以上のプロセッサ、一つ以上の処理コア、プログラマブルロジックコントローラ（「ＰＬＣ」）、特定用途向け集積回路（「ＡＳＩＣ」）、プログラマブルゲートアレイ（「ＰＧＡ」）、フィールドプログラマブルゲートアレイ（「ＦＰＧＡ」）、それらの任意の組み合わせ、又は任意の他の処理回路を含む。

一実施形態では、計算システム１１００の一部である、非一時的コンピュータ可読媒体１１２０が、上で考察された中間の非一時的コンピュータ可読媒体１４００の代替又は追加であり得る。非一時的コンピュータ可読媒体１１２０は、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置、又は、例えば、コンピュータディスケット、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消却可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、それらの任意の組み合わせ、又は任意の他の記憶装置など、それらの任意の好適な組み合わせなどの記憶装置であり得る。一部の実例では、非一時的コンピュータ可読媒体１１２０は、複数の記憶装置を含み得る。特定の実施形態では、非一時的コンピュータ可読媒体１１２０が、カメラ１２００によって生成され、計算システム１１００によって受信される画像情報を記憶するように構成される。一部の実例では、非一時的コンピュータ可読媒体１１２０は、本明細書で論じる方法及び処理を実行するために使用される一つ以上の物体認識テンプレートを記憶し得る。非一時的コンピュータ可読媒体１１２０が、処理回路１１１０によって実行されるとき、処理回路１１１０に、本明細書に説明される一つ以上の方法論を実施させるコンピュータ可読プログラム命令を、代替的又は追加的に記憶し得る。

図２Ｂは、計算システム１１００の一実施形態であり、通信インターフェース１１３１を含む、計算システム１１００Ａを示す。通信インターフェース１１３１は、例えば、図１Ａ～図１Ｄのカメラ１２００によって生成された画像情報を受信するように構成され得る。画像情報は、上で考察された中間の非一時的コンピュータ可読媒体１４００もしくはネットワークを介して、又はカメラ１２００と計算システム１１００／１１００Ａとの間のより直接的な接続を介して受信され得る。一実施形態では、通信インターフェース１１３１は、図１Ｃのロボット１３００と通信するように構成され得る。計算システム１１００が、ロボット制御システムの外部にある場合、計算システム１１００の通信インターフェース１１３１が、ロボット制御システムと通信するように構成され得る。通信インターフェース１１３１はまた、通信構成要素又は通信回路と呼ばれる場合があり、例えば、有線又は無線プロトコル上で通信を実行するように構成される通信回路を含んでもよい。例として、通信回路が、ＲＳ－２３２ポートコントローラー、ＵＳＢコントローラ、イーサネットコントローラ、Ｂｌｕｅｔｏｏｔｈ（登録商標）コントローラ、ＰＣＩバスコントローラ、任意の他の通信回路、又はそれらの組み合わせを含んでもよい。

一実施形態では、図２Ｃに図示されるように、非一時的コンピュータ可読媒体１１２０は、本明細書に論じられる一つ以上のデータオブジェクトを記憶するように構成された記憶空間１１２５を含み得る。例えば、記憶空間は、物体認識テンプレート、検出仮説、画像情報、物体画像情報、ロボットアーム移動コマンド、及び本明細書で論じた計算システムがアクセスを必要とし得る任意の追加のデータオブジェクトを記憶し得る。

一実施形態では、処理回路１１１０が、非一時的コンピュータ可読媒体１１２０に記憶される、一つ以上のコンピュータ可読プログラム命令によってプログラムされ得る。例えば、図２Ｄは、計算システム１１００／１１００Ａ／１１００Ｂの一実施形態である、計算システム１１００Ｃを示し、処理回路１１１０は、物体認識モジュール１１２１、動作計画モジュール１１２９、及び物体操作計画モジュール１１２６を含む、一つ以上のモジュールによってプログラムされる。処理回路１１１０はさらに、仮説生成モジュール１１２８、物体登録モジュール１１３０、テンプレート生成モジュール１１３２、特徴抽出モジュール１１３４、仮説精密化モジュール１１３６、及び仮説検証モジュール１１３８を用いてプログラムされてもよい。上記のモジュールの各々は、本明細書に記載されるプロセッサ、処理回路、計算システムなどのうちの一つ以上上でインスタンス化されたときに、特定のタスクを実行するように構成されたコンピュータ可読プログラム命令を表し得る。上記のモジュールの各々は、本明細書に記載される機能を達成するために、互いに協働してもよい。本明細書に記載される機能性の様々な態様は、上述のソフトウェアモジュールのうちの一つ以上によって実行されてもよく、ソフトウェアモジュール及びそれらの説明は、本明細書に開示されるシステムの計算構造を制限するものとして理解されない。例えば、特定のタスク又は機能は、特定のモジュールに関して記述され得るが、そのタスク又は機能は、必要に応じて異なるモジュールによって実施されてもよい。さらに、本明細書に記載のシステム機能は、異なる機能の内訳又は割り当てで構成された異なるセットのソフトウェアモジュールによって行われてもよい。

一実施形態では、物体認識モジュール１１２１は、本開示全体を通して論じられたように、画像情報を取得及び分析するように構成され得る。画像情報に関して本明細書で論じられる方法、システム、及び技術は、物体認識モジュール１１２１を使用し得る。物体認識モジュールは、本明細書で論じるように、物体識別に関連する物体認識タスクのためにさらに構成されてもよい。

動作計画モジュール１１２９は、ロボットの動きを計画及び実行するように構成され得る。例えば、動作計画モジュール１１２９は、本明細書に記載される他のモジュールと相互作用して、物体取り出し操作及びカメラ配置操作のためのロボット３３００の動作を計画してもよい。ロボットアームの動き及び軌道に関して本明細書で論じられる方法、システム、及び技術は、動作計画モジュール１１２９によって実施され得る。

物体操作計画モジュール１１２６は、例えば、物体を把持及び解放する、ならびにこうした把持及び解放を補助及び容易にするためロボットアームコマンドを実行する、ロボットアームの物体操作活動を計画及び実行するように構成されてもよい。

仮説生成モジュール１１２８は、例えば、図１０Ａ～１０Ｂに関して説明されるように、検出仮説を生成するため、テンプレートマッチング及び認識タスクを実行するように構成され得る。仮説生成モジュール１１２８は、任意の他の必要なモジュールと相互作用又は通信するように構成され得る。

物体登録モジュール１１３０は、本明細書で論じる様々なタスクに必要とされ得る物体登録情報を取得、記憶、生成、及びそうでなければ処理するよう構成されてもよい。物体登録モジュール１１３０は、任意の他の必要なモジュールと相互作用又は通信するように構成され得る。

テンプレート生成モジュール１１３２は、例えば、図６～９Ｄに関連して、本明細書で論じるように、物体認識テンプレート生成タスクを完了するように構成され得る。テンプレート生成モジュール１１３２は、物体登録モジュール１１３０、特徴抽出モジュール１１３４、及び任意の他の必要なモジュールと相互作用するように構成され得る。

特徴抽出モジュール１１３４は、例えば、図８～９Ｄに関連して、本明細書で論じる特徴抽出及び生成タスクを完了するように構成され得る。特徴抽出モジュール１１３４は、物体登録モジュール１１３０、テンプレート生成モジュール１１３２、仮説生成モジュール１１２８、及び任意の他の必要なモジュールと相互作用するように構成され得る。

仮説精密化モジュール１１３６は、例えば、図１１～１２Ｃに関連して、本明細書で論じるように、仮説精密化タスクを完了するように構成され得る。仮説精密化モジュール１１３６は、物体認識モジュール１１２１及び仮説生成モジュール１１２８、ならびに任意の他の必要なモジュールと相互作用するように構成され得る。

仮説検証モジュール１１３８は、例えば、図１３～１４に関連して、本明細書で論じるように仮説検証タスクを完了するように構成され得る。仮説検証モジュール１１３８は、物体登録モジュール１１３０、特徴抽出モジュール１１３４、仮説生成モジュール１１２８、仮説精密化モジュール１１３６、及び任意の他の必要なモジュールと相互作用するように構成され得る。

図２Ｅ、図２Ｆ、図３Ａ及び図３Ｂを参照すると、画像分析のために実施され得る物体認識モジュール１１２１に関連する方法が説明される。図２Ｅ及び図２Ｆは、画像分析方法と関連付けられた例示的な画像情報を示すが、図３Ａ及び図３Ｂは、画像分析方法と関連付けられた例示的なロボット環境を示す。計算システムによる画像分析に関連する本明細書の参照は、選択された点に対する様々な場所のそれぞれの奥行き値を説明する奥行き情報を含み得る空間構造情報に従って、又はそれを使用して実行され得る。奥行き情報は、物体を識別するか、又は物体が空間的にどのように配置されているかを推定するために使用され得る。一部の実例では、空間構造情報は、物体の一つ以上の表面上の場所を説明する点群を含んでもよく、又は該点群を生成するために使用され得る。空間構造情報は、可能な画像分析の一形態に過ぎず、当業者が公知の他の形態が、本明細書に説明される方法に従って使用され得る。

実施形態では、計算システム１１００が、カメラ１２００のカメラ視野（例えば、３２００）内の物体を表す画像情報を取得し得る。画像情報を取得するための以下に説明するステップ及び技術は、以下、画像情報捕捉処理３００１と呼んでもよい。一部の実例では、物体は、カメラ１２００の視野３２００のシーン５０１３内の複数の物体５０１２からの一つの物体５０１２であってもよい。画像情報２６００、２７００は、物体５０１２がカメラ視野３２００にある（又はあった）ときに、カメラ（例えば、１２００）によって生成されてもよく、個々の物体５０１２又はシーン５０１３のうちの一つ以上を記述してもよい。物体の外観は、カメラ１２００の視点からの物体５０１２の外観を記述する。カメラ視野に複数の物体５０１２がある場合、カメラは、必要に応じて、複数の物体又は単一の物体を表す画像情報（単一の物体に関するこうした画像情報は、物体画像情報と呼ばれ得る）を生成し得る。画像情報は、物体のグループがカメラ視野にある（又はあった）ときに、カメラ（例えば、１２００）によって生成されてもよく、及び、例えば、２Ｄ画像情報及び／又は３Ｄ画像情報を含み得る。

一例として、図２Ｅは、画像情報の第一のセット、より具体的には、２Ｄ画像情報２６００を図示し、これは、上述のように、カメラ１２００によって生成され、図３Ａの物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄを表す。より具体的には、２Ｄ画像情報２６００は、グレースケール、又はカラー画像であり得、カメラ１２００の視点からの物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄの外観を記述し得る。一実施形態では、２Ｄ画像情報２６００は、カラー画像の単一色チャネル（例えば、赤、緑、又は青のチャネル）に対応し得る。カメラ１２００が物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄの上方に配置される場合、２Ｄ画像情報２６００は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄのそれぞれの上部表面の外観を表し得る。図２Ｅの例では、２Ｄ画像情報２６００は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄのそれぞれの表面を表す、画像部分又は物体画像情報とも呼ばれる、それぞれの部分２０００Ａ／２０００Ｂ／２０００Ｃ／２０００Ｄ／２５５０を含み得る。図２Ｅでは、２Ｄ画像情報２６００の各画像部分２０００Ａ／２０００Ｂ／２０００Ｃ／２０００Ｄ／２５５０は、画像領域、又は、より具体的には、ピクセル領域（画像がピクセルによって形成される場合）であり得る。２Ｄ画像情報２６００のピクセル領域内の各ピクセルは、座標［Ｕ、Ｖ］のセットによって記述される位置を有するものとして特徴付けられ得、図２Ｅ及び図２Ｆに示されるように、カメラ座標系又は他の何らかの座標系に対する値を有し得る。ピクセルの各々はまた、０～２５５又は０～１０２３の値などの、強度値を有してもよい。さらなる実施形態では、ピクセルの各々は、様々なフォーマット（例えば、色相、飽和、強度、ＣＭＹＫ、ＲＧＢなど）のピクセルに関連付けられた任意の追加情報を含んでもよい。

上述のように、画像情報は、一部の実施形態では、２Ｄ画像情報２６００などの画像のすべて又は一部分であってもよい。例では、計算システム１１００は、対応する物体３４１０Ａと関連付けられた画像情報のみを取得するために、２Ｄ画像情報２６００から画像部分２０００Ａを抽出するように構成されてもよい。画像部分（画像部分２０００Ａなど）が単一の物体に向けられている場合、それは物体画像情報と呼ばれ得る。物体画像情報は、それが向けられる物体についての情報のみを含む必要はない。例えば、それが向けられる物体は、一つ以上の他の物体近く、その下、その上、又はそうでなればその近傍に位置してもよい。こうした場合、物体画像情報は、それが向けられる物体、ならびに一つ以上の隣接する物体についての情報を含み得る。例えば、計算システム１１００は、図２Ｆに示される２Ｄ画像情報２６００及び／又は３Ｄ画像情報２７００に基づいて画像セグメンテーション又は他の分析又は処理操作を実行することによって、画像部分２０００Ａを抽出し得る。一部の実施形態では、画像セグメンテーション又は他の操作は、物体の物理的エッジ（例えば、物体のエッジ）が２Ｄ画像情報２６００の中に現れる画像の場所を検出すること、及びこうした画像の場所を使用して、カメラ視野（例えば、３２００）内の個々の物体を表すことに限定された物体画像情報を識別すること、ならびに実質的に他の物体を除外することを含み得る。「実質的に除外する」とは、画像セグメンテーション又はその他の処理技術が、非標的物体を物体画像情報から除外するように設計及び構成されるが、エラーが生じてもよく、ノイズが存在してもよく、様々な他の要因が他の物体の一部分の包含をもたらし得ることが理解されることを意味する。

図２Ｆは、画像情報が３Ｄ画像情報２７００である例を図示している。より具体的には、３Ｄ画像情報２７００は、例えば、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄの一つ以上の表面（例えば、上部表面、又は他の外部表面）上の様々な場所のそれぞれの奥行き値を示す、奥行きマップ又は点群を含み得る。一部の実施形態では、画像情報を抽出するための画像セグメンテーション操作は、物体の物理的エッジ（例えば、箱のエッジ）が３Ｄ画像情報２７００の中に現れる画像の場所を検出すること、及びこうした画像の場所を使用して、カメラ視野（例えば、３４１０Ａ）内の個々の物体を表すことに限定された画像部分（例えば、２７３０）を識別することを含み得る。

それぞれの奥行き値は、３Ｄ画像情報２７００を生成するカメラ１２００に対するものであってもよく、又はいくつかの他の基準点に対するものであってもよい。一部の実施形態では、３Ｄ画像情報２７００は、カメラ視野（例えば、３２００）の中にある物体の構造上の様々な場所に対するそれぞれの座標を含む、点群を含み得る。図２Ｆの例では、点群は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄのそれぞれの表面の場所を説明する、それぞれの座標セットを含み得る。座標は、［ＸＹＺ］座標などの３Ｄ座標であってもよく、カメラ座標系、又は何らかの他の座標系に対する値を有してもよい。例えば、３Ｄ画像情報２７００は、物体３４１０Ｄの表面上の物理的な場所とも呼ばれる、場所２７１０_１～２７１０_ｎのセットに対するそれぞれの奥行き値を示す、画像部分とも呼ばれる第一の画像部分２７１０を含み得る。さらに、３Ｄ画像情報２７００は、第二の部分、第三の部分、第四の部分、及び第五の部分２７２０、２７３０、２７４０、及び２７５０をさらに含み得る。次に、これらの部分は、それぞれ、２７２０_１～２７２０_ｎ、２７３０_１～２７３０_ｎ、２７４０_１～２７４０_ｎ、及び２７５０_１～２７５０_ｎによって表され得る、場所のセットに対するそれぞれの奥行き値をさらに示し得る。これらの図は単に実施例であり、対応する画像部分を有する任意の数の物体が使用され得る。上述のように、取得された３Ｄ画像情報２７００は、一部の実例では、カメラによって生成される３Ｄ画像情報２７００の第一のセットの一部分であってもよい。図２Ｆの例では、取得された３Ｄ画像情報２７００が図３Ａの物体３４１０Ａを表す場合、３Ｄ画像情報２７００は、画像部分２７１０のみを参照するように狭められ得る。２Ｄ画像情報２６００の考察と同様に、識別された画像部分２７１０は、個々の物体に関連してもよく、物体画像情報と呼ばれてもよい。したがって、物体画像情報は、本明細書で使用される場合、２Ｄ及び／又は３Ｄ画像情報を含み得る。

一実施形態では、画像正規化操作は、画像情報を取得する一部として、計算システム１１００によって実施され得る。画像正規化操作は、変換された画像又は変換された画像部分を生成するために、カメラ１２００によって生成された画像又は画像部分を変換することを伴い得る。例えば、取得された、２Ｄ画像情報２６００、３Ｄ画像情報２７００、又は二つの組み合わせを含み得る画像情報が、視点、物体姿勢、及び視覚的記述情報と関連付けられた照明条件において画像情報を変更させるように試みるために、画像正規化操作を受け得る場合である。そのような正規化は、画像情報及びモデル（例えば、テンプレート）情報間のより正確な比較を容易にするために実施され得る。視点は、カメラ１２００に対する物体の姿勢、及び／又はカメラ１２００が物体を表す画像を生成するときに、カメラ１２００が物体を見ている角度を指し得る。

例えば、画像情報は、標的物体がカメラ視野３２００内にある、物体認識操作中に生成され得る。カメラ１２００は、標的物体がカメラに対して特定の姿勢を有するときに、標的物体を表す画像情報を生成し得る。例えば、標的物体は、その上面をカメラ１２００の光学軸に対して垂直にする姿勢を有してもよい。こうした例では、カメラ１２００によって生成される画像情報は、標的物体の上面図などの特定の視点を表し得る。一部の実例では、カメラ１２００が物体認識操作中に画像情報を生成しているときに、画像情報は、照明強度などの特定の照明条件で生成され得る。こうした実例では、画像情報は、特定の照明強度、照明色、又は他の照明条件を表し得る。

一実施形態では、画像正規化操作は、画像又は画像部分を、物体認識テンプレートの情報と関連付けられた視点及び／又は照明条件により良く合致させるように、カメラによって生成されるシーンの画像又は画像部分を調整することを伴い得る。調整は、画像又は画像部分を変換して、物体姿勢又は物体認識テンプレートの視覚的記述情報に関連付けられた照明条件のうちの少なくとも一方に合致する変換された画像を生成することを伴い得る。

視点調整は、画像が物体認識テンプレート内に含まれ得る視覚的記述情報と同じ視点を表すように、シーンの画像の処理、ワーピング、及び／又はシフトを伴い得る。処理は、例えば、画像の色、コントラスト、又は照明を変更することを含み得、シーンのワーピングは、画像のサイズ、寸法、又は比率を変更することを含み得、画像のシフトは、画像の位置、向き、又は回転を変更することを含み得る。例示的な実施形態では、処理、ワーピング、及び／又はシフトを使用して、シーンの画像内の物体を、物体認識テンプレートの視覚的記述情報に合致するか、又はそれにより良好に対応する向き及び／又はサイズを有するように変更してもよい。物体認識テンプレートが、一部の物体の正面図（例えば、上面図）を記述する場合、シーンの画像は、シーン内の物体の正面図も表すようにワーピングされ得る。

本明細書に実施される物体認識方法のさらなる態様は、２０２０年８月１２日出願の米国特許出願第１６／９９１，５１０号、及び２０２０年８月１２日出願の米国特許出願第１６／９９１，４６６号により詳細に説明されており、その各々が参照により本明細書に組み込まれる。

様々な実施形態では、「コンピュータ可読命令」及び「コンピュータ可読プログラム命令」という用語は、様々なタスク及び操作を遂行するように構成されている、ソフトウェア命令又はコンピュータコードを記述するために使用される。様々な実施形態では、「モジュール」という用語は、処理回路１１１０に一つ以上の機能タスクを行わせるように構成される、ソフトウェア命令又はコードの集まりを広く指す。モジュール及びコンピュータ可読命令は、処理回路又は他のハードウェアコンポーネントが、モジュールもしくはコンピュータ可読命令を実行しているときに、様々な操作又はタスクを実行するものとして説明され得る。

図３Ａ～３Ｂは、非一時的コンピュータ可読媒体１１２０上に記憶されたコンピュータ可読プログラム命令が、計算システム１１００を介して利用されて、物体識別、検出、ならびに取り出しの操作及び方法の効率を増大させる例示的な環境を示す。計算システム１１００によって取得され、図３Ａにおいて例証される画像情報は、物体環境内に存在するロボット３３００へのシステムの意思決定手順及びコマンド出力に影響を与える。

図３Ａ～図３Ｂは、本明細書に説明されるプロセス及び方法が実施され得る例示的な環境を示す。図３Ａは、少なくとも計算システム１１００、ロボット３３００、及びカメラ１２００を含むシステム３０００（図１Ａ～図１Ｄのシステム１０００／１５００Ａ／１５００Ｂ／１５００Ｃの実施形態であり得る）を有する環境を示す。カメラ１２００は、カメラ１２００の実施形態であってもよく、カメラ１２００のカメラ視野３２００内のシーン５０１３を表す、又は、より具体的には、物体３４１０Ａ、３４１０Ｂ、３４１０Ｃ、及び３４１０Ｄなどの、カメラ視野３２００内の物体（箱など）を表す、画像情報を生成するように構成され得る。一実施例では、物体３４１０Ａ～３４１０Ｄの各々は、例えば、箱又は木枠などの容器であってもよく、一方で、物体３４００は、例えば、上に容器が配設されるパレットであり得る。さらに、物体３４１０Ａ～３４１０Ｄの各々は、個々の物体５０１２を含む容器であってもよい。各物体５０１２は、例えば、ロッド、バー、ギア、ボルト、ナット、ねじ、くぎ、リベット、ばね、リンケージ、歯車、又は任意の他の種類の物理的物体、ならびに複数の物体のアセンブリであってもよい。図３Ａは、物体５０１２の複数の容器を含む実施形態を示すが、図３Ｂは、物体５０１２の単一の容器を含む実施形態を示す。

一実施形態では、図３Ａのシステム３０００は、一つ以上の光源を含み得る。光源は、例えば、発光ダイオード（ＬＥＤ）、ハロゲンランプ、又は任意の他の光源であってもよく、可視光、赤外線、又は物体３４１０Ａ～３４１０Ｄの表面に向かって任意の他の形態の光を放射するように構成され得る。一部の実施形態では、計算システム１１００は、光源と通信して、光源が起動されるときを制御するように構成され得る。他の実施形態では、光源は、計算システム１１００とは独立して動作し得る。

一実施形態では、システム３０００は、カメラ１２００、又は２Ｄ画像情報２６００を生成するように構成される２Ｄカメラと、３Ｄ画像情報２７００を生成するように構成される３Ｄカメラと、を含む、複数のカメラ１２００を含み得る。カメラ１２００又は複数のカメラ１２００は、ロボット３３００に装着されるか、又はロボット３３００に取り付けられてもよく、環境内に静止していてもよく、及び／又はロボットアーム、ガントリ、又はカメラ移動のために構成された他の自動化システムなどの物体操作に使用されるロボット３３００から分離された専用のロボットシステムに固定されてもよい。図３Ａは、静止カメラ１２００及び手持ちカメラ１２００を有する例を示し、一方、図３Ｂは、静止カメラ１２００のみを有する例を示す。２Ｄ画像情報２６００（例えば、カラー画像又はグレースケール画像）は、カメラ視野３２００における、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄ又は物体５０１２などの一つ以上の物体の外観を説明し得る。例えば、２Ｄ画像情報２６００は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄ及び５０１２のそれぞれの外部表面（例えば、上部表面）上に配置される視覚的詳細、及び／又はそれらの外部表面の輪郭を捕捉するか、又は別様に表し得る。一実施形態では、３Ｄ画像情報２７００は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄ／３４００及び５０１２のうちの一つ以上の構造を説明してもよく、物体についての構造は、物体の構造又は物体の物理的構造とも呼ばれ得る。例えば、３Ｄ画像情報２７００は、奥行きマップを含んでもよく、より全般的には、カメラ１２００に対する、又は何らかの他の基準点に対する、カメラ視野３２００の様々な場所のそれぞれの奥行き値を説明し得る、奥行き情報を含んでもよい。それぞれの奥行き値に対応する場所は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄ／３４００及び５０１２のそれぞれの上部表面上の場所などの、カメラ視野３２００の様々な表面上の場所（物理的な場所とも呼ばれる）であり得る。一部の実例では、３Ｄ画像情報２７００は、物体３４１０Ａ／３４１０Ｂ／３４１０Ｃ／３４１０Ｄ／３４００及び５０１２、又はカメラ視野３２００内のいくつかの他の物体の一つ以上の外側表面上の様々な場所を説明する、複数の３Ｄ座標を含み得る、点群を含み得る。点群が図２Ｆに示される。

図３Ａ及び図３Ｂの例では、ロボット３３００（ロボット１３００の実施形態であり得る）は、ロボット基部３３１０に取り付けられる一方の端を有し、かつロボットグリッパなどのエンドエフェクタ装置３３３０に取り付けられるか、又はそれによって形成される別の端を有する、ロボットアーム３３２０を含み得る。ロボット基部３３１０は、ロボットアーム３３２０を装着するために使用され得るが、ロボットアーム３３２０、より具体的には、エンドエフェクタ装置３３３０は、ロボット３３００の環境で一つ以上の物体と相互作用するために使用され得る。相互作用（ロボット相互作用とも呼ぶ）は、例えば、物体３４１０Ａ～３４１０Ｄ及び５０１２のうちの少なくとも一つを握るか、又は他の方法で拾い上げることを含み得る。例えば、ロボット相互作用は、物体５０１２を容器から識別、検出、及び取り出すための物体摘み作業の一部であってもよい。エンドエフェクタ装置３３３０は、物体５０１２を把持するか、又は掴むための吸引カップ又は他の構成要素を有し得る。エンドエフェクタ装置３３３０は、吸引カップ又は他の把持構成要素を使用して、例えば、上面を介して、物体の単一の面又は表面との接触を通して、物体を把持するか、又は掴むように構成され得る。

ロボット３３００は、構造部材を操作するため、及び／又はロボットユニットを輸送するためになど、作業を実行するために使用される情報を取得するように構成された追加のセンサをさらに含み得る。センサは、ロボット３３００及び／又は周囲の環境の一つ以上の物理的特性（例えば、その状態、条件、及び／又は一つ以上の構造部材／ジョイントの場所）を検出又は測定するよう構成された装置を含み得る。センサの一部の実施例には、加速度計、ジャイロスコープ、力センサ、歪みゲージ、触覚センサ、トルクセンサ、位置エンコーダなどが含まれ得る。

図４は、本明細書の実施形態による、物体の検出、識別、及び取り出しのための方法及び操作の全体的な流れを示す、フロー図を提供する。物体検出、識別、及び取り出しの方法４０００は、本明細書に記載されるサブ方法及び操作の特徴の任意の組み合わせを含み得る。方法４０００は、物体登録処理５０００、物体認識テンプレート生成方法６０００、特徴生成方法８０００、画像情報捕捉処理３００１、仮説生成処理１００００、仮説精密化方法１１０００、仮説検証方法１３０００、及び障害物検出、動作計画、及び動作実行を含むロボット制御処理１５０００のいずれか又はすべてを含み得る。実施形態では、物体登録処理５０００、物体認識テンプレート生成方法６０００、及び特徴生成方法８０００は、ロボット動作の文脈外で、前処理又はオフライン環境で行われてもよい。したがって、これらの処理及び方法は、ロボットによる後のアクションを容易にするために事前に行われてもよい。画像情報捕捉処理３００１、仮説生成処理１００００、仮説精密化方法１１０００、仮説検証方法１３０００、及びロボット制御処理１５０００は、それぞれ、容器から物体を検出、識別、及び取り出すためのロボット操作の文脈で行われてもよい。

図５は、物体登録処理５０００の間に生成、取得、受信、又はその他の方法で取得され得る、物体の種類に関連する物体登録データを示す。上述したように、本明細書に記載される方法及びシステムは、物体登録データ５００１、例えば、物体５０１１に関連する既知の、以前に記憶された情報を取得し、使用して、物理的シーンにおける類似の物体を識別及び認識する際に使用するための物体認識テンプレートを生成するように構成される。物体登録データ５００１は、物体モデル４２００を識別し、物体モデル４２００に関連付け、及び／又は物体モデル４２００を説明する、任意の種類のコンピュータ可読情報を含み得る。物体モデル４２００の物体登録データ５００１は、物体５０１１を表してもよく、物体モデル４２００は、表される物体５０１１の測定値及び寸法を提供し、相互作用的であってもなくてもよい二次又は三次元フォーマットである。物体登録データ５００１は、例えば、ＣＡＤ（すなわち、コンピュータ支援設計）データ、又は物体モデル４２００を説明し、任意の適切なフォーマットで記憶された他のモデリングデータを含み得る。登録データは、ソリッドＣＡＤモデル、ワイヤフレームＣＡＤモデル、又はサーフェスＣＡＤモデルであってもよい。一実施形態では、登録データは、ＦＢＸ、ＯＢＪ、ＵＳＤ、ＳＴＬ、ＳＴＥＰ、ＣＯＬＬＡＤＥなどの任意の種類の三次元ファイル形式であってもよい。物体モデル４２００は、一つ以上の物理的物体を表す。物体モデル４２００は、物理的に世界内に存在する一つ以上の対応する物体５０１１のモデル化（すなわち、コンピュータが記憶した）バージョンである。図５に示すように、物体５０１１は、物理的世界に存在する物理的物体であり、物体モデル４２００は、物体登録データ５００１によって説明される物体５０１１のデジタル表現である。示される物体５０１１は、例えば、ロッド、バー、ギア、ボルト、ナット、ねじ、くぎ、リベット、ばね、鎖、歯車、又は任意の他の種類の物理的物体、ならびに複数の物体のアセンブリを含む、任意の物体であってもよい。実施形態では、物体５０１１は、例えば、数グラム～数キログラムの範囲の質量、及び例えば、５ｍｍ～５００ｍｍの範囲のサイズを有する、容器（例えば、ビン、箱、バケツなど）からアクセス可能な物体を指し得る。物体モデル４２００は、例えば、特定の長さ、ねじ山の数、ねじ山のサイズ、ヘッドサイズなどを有するねじなど、現実世界の物体５０１１の正確なバージョンに特有であってもよい。例えば、及び例示的な目的として、この説明は、物体５０１１としてのねじ形状の物体を指す。これは、利便性のみを目的として提示されており、いかなる方法でも説明の範囲を制限することを意図していない。

いくつかの実施形態では、本開示は、シーン５０１３内の物体５０１２を識別するための物体認識テンプレートセットの生成に関する。物体登録データ５００１は、物理的物体５０１１に基づいてもよく、物理的物体５０１１に類似する（及び、そのコピー又はバージョンであってもよい）他の物理的物体５０１２の認識を容易にするために使用されてもよい。シーン内の物体５０１２を識別することは、物体５０１２が対応する（例えば、物体５０１２が何であるかを識別する）物体モデル４２００を識別すること、物体５０１２の姿勢を識別する（例えば、物体５０１２の位置、角度、及び配向を識別する）ことを含み得る。

図６は、物体認識テンプレートセットを生成するための、例示的な物体認識テンプレート生成方法６０００のフロー図を示す。一実施形態では、物体認識テンプレート生成方法６０００は、例えば、図２Ａ～２Ｄの計算システム１１００（又は１１００Ａ／１１００Ｂ／１１００Ｃ）、又は図３Ａ～３Ｂの計算システム１１００、あるいはより具体的には、計算システム１１００の少なくとも一つの処理回路１１１０によって行われてもよい。一部のシナリオでは、計算システム１１００は、非一時的コンピュータ可読媒体（例えば、１１２０）に記憶された命令を実行することによって、物体認識テンプレート生成方法６０００を実行し得る。例えば、命令によって、計算システム１１００に、物体認識テンプレート生成方法６０００を行い得る、図２Ｄに示されたモジュールのうちの一つ以上を実行させてもよい。例えば、実施形態では、物体認識テンプレート生成方法６０００のステップは、物体登録モジュール１１３０によって実施されてもよく、テンプレート生成モジュール１１３２は、協働して物体認識テンプレートを生成するように処理してもよい。

物体認識テンプレート生成方法６０００のステップは、物体認識テンプレート生成を達成するために利用されてもよく、これは後で特定のタスクを実行するための特定の連続ロボット軌道と共に使用されてもよい。一般的な概要として、物体認識テンプレート生成方法６０００は、物体のピッキングに関する処理のためのシーン内の物体を識別するのに使用するために、計算システム用の物体認識テンプレートのセットを計算システム１１００に生成させるように処理してもよい。物体認識テンプレート生成方法６０００は、図７Ａ及び７Ｂをさらに参照して以下に説明される。

少なくとも一つの処理回路１１１０は、複数の物体認識テンプレート４３００を含み得る物体認識テンプレートセット４３０１を生成するための、物体認識テンプレート生成方法６０００の特定のステップを実行し得る。物体認識テンプレート生成方法６０００は、物体５０１１を表す物体モデル４２００の物体登録データ５００１を取得することを含む、処理６００１で始まるか、又はこれを含んでもよい。

処理６００１では、物体認識テンプレート生成方法６０００は、物体５０１１を表す物体登録データ５００１を取得することを含んでもよく、物体登録データ５００１は、物体５０１１を表す物体モデル４２００を含んでもよい。少なくとも一つの処理回路１１１０は、三次元空間４１００における物体モデルの複数の視点４１２０を決定し得る。少なくとも一つの処理回路１１１０はさらに、複数の視点４１２０の各々で、物体モデル４２００の複数の外観４１４０を推定し得る。ロボットシステムは、複数の外観に従って、複数の物体認識テンプレート４３００（例えば、４３００Ａ／４３００Ｂ／４３００Ｃ／４３００Ｄ）をさらに生成してもよく、複数の物体認識テンプレート４３００の各々は、複数の外観４１４０のそれぞれの一つに対応する。次に、少なくとも一つの処理回路１１１０は、複数の物体認識テンプレート４３００を、後で使用するために、物体認識テンプレートセット４３０１としてロボットシステム又は記憶システムに伝達してもよい。複数の物体認識テンプレート４３００の各々は、仮想カメラ４１１０の光学軸４１３０に対して、物体モデル４２００が有し得る姿勢を表し得る。各物体認識テンプレート４３００は、物体認識テンプレート４３００の生成中に仮想カメラ４１１０の目線に対応する目線を有するカメラ１２００の目線から、物体モデル４２００に対応する物体５０１１の視野を表す。

少なくとも一つの処理回路１１１０は、物体登録データ５００１を、それ自体のハードウェアストレージコンポーネント（すなわち、ＨＤＤ、ＳＳＤ、ＵＳＢ、ＣＤ、ＲＡＩＤなど）、又はソフトウェアストレージコンポーネント（すなわち、クラウド、ＶＳＰなど）内から取得し得る。一実施形態では、少なくとも一つの処理回路１１１０は、外部プロセッサ（すなわち、外部ラップトップ、デスクトップ、携帯電話、又は独自の処理システムを有する任意の他の別個のデバイス）から登録データを取得し得る。

物体認識テンプレート生成方法６０００は、三次元空間４１００における物体モデル４２００の複数の視点４１２０を決定することを含み得る処理６００３をさらに含み得る。これは、空間サブサンプリング手順と呼ばれ得る。物体モデル４２００を囲む三次元空間４１００は、表面４１０１によって囲まれてもよい。三次元空間４１００及び表面４１０１は、これも仮想実体である物体モデル４２００を囲む仮想実体である。処理６００３で決定される複数の視点４１２０の各々は、三次元空間４１００を囲む表面４１０１上の仮想カメラ４１１０、及び仮想カメラ４１１０の光学軸４１３０の周りの仮想カメラ４１１０の回転角の位置に対応するか、又はそれらを表してもよい。したがって、表面４１０１上の各位置は、複数の視点４１２０に対応し得る。

空間サブサンプリング手順で使用される仮想カメラ４１１０は、仮想カメラ４１１０が位置する視点４１２０から物体の外観を捕捉してもよい。例えば、図７Ａに示すように、個々の視点４１２０Ａに位置する仮想カメラ４１１０は、物体モデル４２００の外観４１４０を捕捉してもよい。外観４１４０は、仮想カメラ４１１０の光学軸の周りの仮想カメラ４１１０の画角及び回転に基づいて、物体モデル４２００の仮想カメラ４１１０への外観を説明する情報を含む。物体モデル４２００は、この三次元空間４１００内に固定されてもよい。一実施形態では、三次元空間は実質的に球状であってもよい。物体モデル４２００はさらに、実質的に球状の三次元空間の中心又はほぼ中心に固定されてもよい。別の実施形態では、三次元空間は、楕円体、又は平行六面体など、任意の他の適切な三次元形状であってもよい。物体モデル４２００は、三次元空間内の中央又は非中央のいずれかの点に固定されてもよい。（例えば、以下でさらに論じるように処理６００７を介して）生成された個々の物体認識テンプレート４３００Ａ／４３００Ｂ／４３００Ｃ／４３００Ｄなどの各々は、複数の視点４１２０の一つの視点４１２０からの物体モデル４２００の一つの捕捉された外観４１４０に対応し得る。各物体認識テンプレート４３００は、物体の姿勢、すなわち、物体の配向及び可視表面などを捕捉する視点４１２０からの物体モデル４２００の外観４１４０を含み得る。一実施形態では、複数の視点４１２０の各々は、さらに、三次元空間４１００内の仮想カメラ４１１０の回転角度、すなわち、その光学軸４１３０に対する、１～３６０°のカメラの回転角度に相当し得る。

処理６００３は、対応する物体認識テンプレート４３００が物体認識テンプレートセット４３０１に含まれる、視点４１２０を選択するために実行される空間サブサンプリング手順を含み得る。物体認識テンプレート生成方法６０００の効率は、物体認識テンプレート４３００が生成される空間（例えば、視点４１２０及び外観４１４０の数）を低減又はその他の方法で最適化することによって、増大又は最大化され得る。実施形態では、過剰な視点４１２０は、それらの視点４１２０で物体外観４１４０を最初に捕捉した後に排除され得る。例えば、過剰な視点４１２０は、（例えば、対称性に起因して）他の視点４１２０と実質的に類似した情報を含有すると判定された場合に排除され得る。実施形態では、過剰な視点４１２０は、以下で論じるように、姿勢、間隔などに関する所定の決定に基づいて、物体外観４１４０の捕捉の前に排除され得る。実施形態では、選択された視点４１２０の数及び隣接する視点４１２０の間の間隔の距離は、例えば、問題となる物体モデル４２００の複雑さ及び／又は対称性に基づいて、必要とされる物体認識テンプレート４３００の数に依存し得る。

複数の視点４１２０は、いくつかの異なる方法に従って選択又は決定され得る。例えば、少なくとも一つの処理回路１１１０は、経度の円４１７０及び緯度の円４１８０の交差に従って、視点４１２０を決定し得る。視点４１２０は、三次元空間４１００の表面４１０１にわたる経度の円４１７０及び緯度の円４１８０の交差に位置し得る。こうした選択スキームでは、高密度の視点４１２０は、表面４１０１の極に、又はその近くにクラスタ化されてもよく、低密度の視点は、交差する経度の円及び緯度の円の周りに、極からさらに離れて（例えば、表面４１０１の赤道に近く）形成してもよい。サンプル位置のこうした不均一な分布は、複数の物体認識テンプレート４３００を、仮想カメラ４１１０と物体モデル４２００との間の相対的姿勢／配向の一つの範囲又は範囲のセットを過剰に表し、別の範囲又は範囲のセットを過小に表させ得る。こうした選択は、一部の物体モデル４２００を有する一部のシナリオでは有利であり、その他のシナリオではあまり有利ではない場合がある。

さらなる実施形態では、複数の視点４１２０は、三次元空間４１００を囲む表面４１０１にわたる均等分布に従って選択され得る。均等分布は、表面４１０１にわたって互いに等しい距離で分布されている視点４１２０を指し得る。均等分布は、不均一な分布よりもより一貫性のあるテンプレート生成を提供してもよく、対称性を欠く物体に対して好ましい場合がある。

いくつかの実施形態では、複数の視点４１２０は、視点４１２０の総数を減少させるように、及び／又は特定の視点を支持するために、視点分布を重み付け又は偏らせるように選択され得る。

一実施形態では、複数の視点４１２０は、物理的状況において複数の物体５０１１に対して観察されることが期待される、予測可能な姿勢の範囲に基づいて決定され得る。例えば、いくつかの先細りボトルを保持する容器では、ボトルの姿勢は、より広い端又は基端が下向きに面するようにすることが期待され得る。したがって、視点分布は、表面４１０１の上半分により多くの視点４１２０を有するように偏らせる又は重み付けされ得る。

別の実施形態では、複数の視点４１２０は、物体モデル４２００の対称性（又はその欠如）に基づいて決定され得る。物体モデル４２００の対称性は、物体モデル４２００の回転後に、物体モデル４２００の外観４１４０が、物体モデル４２００の軸の周りの度数によって変化するかどうかに基づいて判定され得る。例えば、１８０度回転の後に実質的に同じように見える物体モデル４２００は、双方向対称性を有する。１２０度回転の後に実質的に同じように見える物体モデル４２００は、三方対称性を有する。９０度回転の後に実質的に同じように見える物体モデル４２００は、四方対称性を有する。６０度の回転の後に実質的に同じように見える物体モデル４２００は、六方対称性を有する。異なる物体に対して他の対称性が可能であってよい。実質的に同じ外観は、類似性の閾値に従って決定され得る。

物体認識テンプレート生成方法６０００は、複数の視点４１２０の各々で、物体モデル４２００の複数の外観４１４０を推定又は捕捉することを含む、処理６００５をさらに含み得る。複数の外観４１４０の推定は、複数の視点４１２０の各視点４１２０で行われてもよい。各外観４１４０は、それぞれの視点４１２０に見られるように、物体モデル４２００の姿勢又は配向を含む。物体認識テンプレート４３００の各々は、複数の視点４１２０のそれぞれの視点４１２０に対応し、それぞれの視点４１２０からの物体モデル４２００の外観４１４０を表す情報を含む。例えば、物体認識テンプレート４３００は、物体モデルの真上に（すなわち、三次元平面のＹ軸に沿って）配置される仮想カメラ４１１０に対応する、それぞれの視点４１２０からの物体モデル４２００のそれぞれの外観４１４０に対応するか、又は表すことができる。別の例では、物体認識テンプレート４３００は、物体モデル４２００の直接左に（すなわち、三次元平面のＸ軸に沿って）配置される仮想カメラ４１１０に対応する、それぞれの視点４１２０からの物体モデルのそれぞれの外観４１４０に対応してもよい。一実施形態では、物体認識テンプレートセット４３０１の物体認識テンプレート４３００の各々は、物体モデル４２００の周りの多数の異なる位置及び配向（すなわち、三次元平面内の多数の位置）に配置される仮想カメラ４１１０に対応する複数の視点４１２０のそれぞれの視点４１２０からの、物体モデル４２００の複数の外観４１４０のそれぞれの外観４１４０に対応するか、又は表すことができる。したがって、複数の外観４１４０を推定することは、特定の視点から特定の配向で観察されたときに、物体モデル４２００がどのように見えるかを決定するか、又は推定することを含み得る。例えば、視点は、物体モデル４２００の直接的な下向きの外観、上向きの外観、左向きの外観、右向きの外観、又は三次元空間４１００を囲む表面４１０１のならびに表面４１０１上の主軸Ｘ、Ｙ、及びＺの間の任意の角度／位置を含み得る。上で論じたように、各視点４１２０はまた、１～３６０°のカメラの光学軸４１３０に対する仮想カメラ４１１０の回転角を含んでもよい。したがって、各カメラ位置は、視点４１２０のセットに対応してもよく、視点のセットの各視点４１２０はさらに、仮想カメラ４１１０の異なる回転角に対応してもよい。例えば、視点４１２０のセットの二つの別個の視点４１２０は、表面４１０１の主軸Ｘ、Ｙ、及びＺの間の同じ角度／場所から推定又は捕捉され得るが、第一の視点４１２０の回転角は、第二の視点４１２０の回転角に対して４５°回転される。

物体認識テンプレート生成方法６０００は、複数の外観４１４０に基づいて、複数の物体認識テンプレート４３００が生成される処理６００７をさらに含み得る。複数の物体認識テンプレート４３００の各々は、複数の外観４１４０のそれぞれの一つに対応する。したがって、生成された物体認識テンプレート４３００は、物体モデル４２００に対して、特定の姿勢で、ならびに仮想カメラ４１１０の特定の角度及び／又は回転で、物体モデル４２００を表す情報を含み得る。したがって、複数の物体認識テンプレート４３００の各々は、複数の物体認識テンプレート４３００の他のものと異なっていてもよい（ただし、一部のシナリオでは、二つの異なる物体認識テンプレート４３００は、視点４１２０の選択で説明されない物体モデル４２００の対称性に起因して、実質的に同じ情報を含み得る）。

各物体認識テンプレート４３００は、捕捉された又は推定されたそれぞれの外観４１４０に従って生成される２Ｄ外観４３０２及び３Ｄ外観４３０３を含み得る。２Ｄ外観４３０２は、例えば、レイトレーシング及び不連続検出技術に従ってレンダリングされ得る、レンダリングされた二次元画像を含み得る。３Ｄ外観４３０３は、例えば、図２Ｆに関連して説明された３Ｄ画像情報２７００に類似のレンダリングされた３Ｄ点群を含む。

一部の実施形態では、２Ｄ外観４３０２及び／又は３Ｄ外観４３０３は、レイトレーシング技術を介して生成され得る。レイトレーシング処理は、物体モデル４２００の表面に当たる、仮想カメラ４１１０の目線からの様々な光線をシミュレートし得る。これはさらに、光線が物体モデル４２００の表面に当たる角度、光線が物体モデル４２００の表面に移動する距離、及び／又は拡散反射（複数の角度で偏向された光線がそのように実施される）又は鏡面反射（偏向された光線が単一の角度でそのように実施される）の影響を決定し得る。物体モデル４２００の表面から反射された偏向された光線の角度は、物体の表面法線の角度の変化を示し得る。物体の表面法線の角度のこうした変化は、物体のエッジで発生し得る。

物体モデル４２００に対して生成される複数の物体認識テンプレート４３００の総数は、およそ１００個のテンプレートから３２００個のテンプレートの範囲であってもよく、このテンプレートの数が多いほど、複数の物体認識テンプレート４３００が生成される物体モデル４２００の複雑さに相関してもよい。引用された数は、いくつかの用途及びいくつかの物体の種類に共通するが、本発明の範囲から逸脱することなく、より多くの又はより少ないテンプレートを使用してもよい。例えば、実質的に対称的な外観（例えば、ねじ付きナット）を呈する物体モデル４２００は、多数の冗長テンプレート（すなわち、合致するテンプレート）又は実質的に同じテンプレートを生成する。したがって、こうした単純な物体モデル４２００は、わずか１００個のテンプレート、又は１００～３２００個のテンプレートの範囲の下半分の任意の数のテンプレートを生成することができる。逆に、対称性を欠く物体モデル４２００は、より大きい実行可能な角度で物体モデル４２００を適切に表すために、より多くの物体認識テンプレート４３００を必要とし得る。

物体認識テンプレート生成方法６０００は、物体認識テンプレートセット４３０１として、複数の物体認識テンプレート４３００をロボット制御システムに伝達することを含む処理６００９をさらに含み得る。物体認識テンプレートセット４３０１は、計算システム１１００、任意の他の種類のロボット制御システム、及び／又は物体認識テンプレート４３００を採用し得る任意の他のシステムなどのロボット制御システムに伝達されてもよい。実施形態では、物体認識テンプレートセット４３０１を伝達することは、任意の適切なネットワーキングプロトコル及び／又は記憶装置を介して、ロボット制御システム、又は物体認識テンプレートを採用できる他のシステムによって後でアクセスするための任意の時間の間、メモリ又は他の記憶装置への直接伝達を含み得る。物体認識テンプレートセット４３０１内の複数の物体認識テンプレート４３００の各々は、特定の視点４１２０に位置するとき、物体モデル４２００が仮想カメラ４１１０の光学軸４１３０に対して有し得る姿勢を表す。前述したように、姿勢は、任意の位置角度及び回転角度を含み得る。

上述のように、本発明の物体認識テンプレート生成方法６０００は、物体登録データ５００１から物体認識テンプレートセット４３０１を生成することを含む。物体認識テンプレートセット４３０１は、物理的処理中に、一つ以上の物体５０１１を掴む、持ち上げる、あるいはこれと相互作用する、シーン内の一つ以上の物体５０１１を識別するために使用され得る。物体５０１１を表す物体モデル４２００の物体登録データ５００１を取得する。三次元空間４１００における物体モデル４２００の複数の視点４１２０が決定される。複数の視点４１２０のそれぞれにおける物体モデルの外観４１４０は、推定又は捕捉される。複数の物体認識テンプレート４３００は、複数の外観４１４０に従って生成され、複数の物体認識テンプレート４３００の各々は、複数の外観４１４０のそれぞれの一つに対応する。複数の物体認識テンプレート４３００は、物体認識テンプレートセット４３０１としてロボット制御システムに伝達される。複数の物体認識テンプレート４３００の各々は、仮想カメラ４１１０の光学軸４１３０に対して、物体モデル４２００が有し得る姿勢を表す。したがって、複数の物体認識テンプレート４３００の各々は、物理的シーン内の物体５０１１の画像情報（例えば、画像情報２６００／２７００）を生成するカメラ（カメラ１２００など）の光学軸に対する、物理的シーンにおける物体５０１１の潜在的な姿勢に対応し得る。

さらなる実施形態において、追加又は代替的な方法は、物体登録データ５００１から物体認識テンプレートセット４３０１を生成するために使用されてもよく、物体認識テンプレート４３００は、２Ｄ外観４３０２及び３Ｄ外観４３０３に追加又は２Ｄ外観４３０２及び３Ｄ外観４３０３とは異なる情報を含んでもよい。具体的には、物体認識テンプレート４３００は、二次元（２Ｄ）測定情報４３０４及び三次元（３Ｄ）測定情報４３０５を含み得る。

２Ｄ測定情報４３０４は、勾配特徴マップを指し得る。勾配特徴マップは、以下に説明するように、デジタル物体の表面上の一つ以上の勾配抽出位置５１００で、物体のデジタル表示から捕捉又は抽出された勾配情報９１００を含み得る。３Ｄ測定情報４３０５は、表面法線特徴マップを指し得る。表面法線特徴マップは、以下に説明するように、デジタル物体の表面上の一つ以上の表面法線位置５１０１で、物体のデジタル表示から捕捉又は抽出された表面法線ベクトル９１０１を含み得る。２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５の生成及び／又は抽出は、図８～９Ｃに関して以下でより詳細に説明される。

図８は、例示的な特徴生成方法８０００のフロー図を示す。実施形態では、特徴生成方法８０００は、物体認識テンプレートセット及び／又は複数の物体認識テンプレートを生成するために使用され得る。さらなる実施形態では、以下でより詳細に論じるように、特徴生成方法８０００を使用して、仮説生成、精密化、及び検証方法における物体画像情報から特徴を抽出してもよい。一実施形態では、特徴生成方法８０００は、例えば、図２Ａ～２Ｄの計算システム１１００（又は１１００Ａ／１１００Ｂ／１１００Ｃ）、又は図３Ａ～３Ｂの計算システム１１００によって、又はより具体的には、計算システム１１００の少なくとも一つの処理回路１１１０によって行われてもよい。一部のシナリオでは、計算システム１１００が、非一時的コンピュータ可読媒体（例えば、１１２０）上に記憶された命令を実行することによって、特徴生成方法８０００を行ってもよい。例えば、命令によって、計算システム１１００に、特徴生成方法８０００を行い得る、図２Ｄに示されたモジュールのうちの一つ以上を実行させてもよい。例えば、実施形態では、特徴生成方法８０００のステップは、物体登録モジュール１１３０、物体認識モジュール１１２１、特徴抽出モジュール１１３４、及び一緒に動作するテンプレート生成モジュール１１３２によって行われてもよい。

実施形態では、特徴生成方法８０００のステップは、例えば、特徴生成及び／又は抽出方法を通して、物体認識テンプレート生成を達成するために利用されてもよく、これは、特定のタスクを実行するための特定の連続ロボット軌道と併せて後で使用されてもよい。実施形態では、特徴生成方法８０００のステップを適用して、仮説生成、精密化、及び検証で使用するための物体画像情報から特徴を抽出又は生成してもよい。一般的な概要として、特徴生成方法８０００は、物体の持ち上げに関連する処理のためにシーン内の物体を識別する際に使用するために、計算システム（例えば、計算システム１１００又は類似の計算システム）用の物体認識テンプレート、特徴マップ、及び／又は抽出／生成された特徴のセットを、計算システム１１００に生成させるように処理してもよい。特徴生成方法８０００は、図７Ａ及び７Ｂならびに図９Ａ～９Ｃをさらに参照して以下に説明される。

特徴生成方法８０００は、物体認識テンプレート４３００を生成するため、及び／又は物理的シーン５０１３内の物体５０１２（例えば、図３Ｂを参照）を特徴付けるために使用され得る２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５を含み得る。少なくとも一つの処理回路１１１０は、物体情報９１２１を取得してもよい。図９Ａに示すように、物体情報９１２１は、デジタルで表される物体９２００、例えば、物体モデル４２００の物体登録データ５００１、物体モデル４２００の外観４１４０、物体認識テンプレート４３００、及び／又はシーン情報９１３１を含み得る。シーン情報９１３１は、例えば２Ｄ画像情報２６００及び／又は３Ｄ画像情報２７００に類似した、複数の物体５０１２を含む物理的シーン５０１３の捕捉された２Ｄ又は３Ｄ画像情報を含み得る。シーン情報９１３１はまた、仮説生成、検証、ならびに精密化の方法及び処理に関して以下で論じる画像情報１２００１を含んでもよい。少なくとも一つの処理回路１１１０はさらに、物体情報９１２１から２Ｄ測定情報４３０４及び／又は３Ｄ測定情報４３０５を抽出又は生成し得る。実施形態では、少なくとも一つの処理回路１１１０は、２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５に従って、物体認識テンプレート４３００をさらに生成してもよい。実施形態では、２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５は、仮説生成、検証、及び精密化などの代替的な目的のために使用又は利用され得る。少なくとも一つの処理回路１１１０は、物体認識テンプレートセット４３０１を生成するための、及び／又は仮説精密化及び検証で使用するための特徴生成方法８０００の特定のステップを実行し得る。

処理８００１では、特徴生成方法８０００は、物体情報９１２１の取得を含み得る。物体情報９１２１は、デジタルで表される物体９２００を含み得る。物体情報９１２１及びデジタルで表される物体９２００は、物理的に世界に存在する物体５０１５を表し得る。物体５０１５は、例えば、物体５０１１（例えば、物体モデル４２００によって表される物理的物体）及び／又は物体５０１２（例えば、物理的シーン５０１３の捕捉された画像情報によって表される物理的物体）を含み得る。実施形態では、物体情報９１２１は、物体認識テンプレート４３００、物体登録データ５００１、物体外観４１４０及び／又はシーン情報９１３１のうちの一つ以上を含み得る。少なくとも一つの処理回路１１１０は、計算システム１１００のハードウェアストレージコンポーネント（すなわち、ＨＤＤ、ＳＳＤ、ＵＳＢ、ＣＤ、ＲＡＩＤなど）、又はソフトウェアストレージコンポーネント（すなわち、クラウド、ＶＳＰなど）内から、物体情報９１２１を取得し得る。少なくとも一つの処理回路１１１０は、内部処理の一部として、例えば、物体認識テンプレート４３００として、物体情報９１２１を取得してもよい。少なくとも一つの処理回路１１１０は、計算システム１１００に関連付けられたカメラ１２００から物体情報９１２１を取得し得る。少なくとも一つの処理回路１１１０は、外部のプロセッサ（すなわち、外部のラップトップ、デスクトップ、携帯電話、又は独自の処理システムを有する任意の他の別個の装置）又は外部の記憶装置から、物体の物体情報９１２１を取得し得る。

処理８００３では、特徴生成方法８０００は、勾配抽出位置５１００（図９Ｂに示す）及び表面法線位置５１０１（図９Ｃに示す）を含む特徴位置を選択することをさらに含み得る。勾配抽出位置５１００は、２Ｄ測定情報４３０４の抽出又は生成のために選択される位置である。表面法線位置５１０１は、３Ｄ測定情報４３０５の抽出又は生成のために選択される位置である。勾配抽出位置５１００及び表面法線位置５１０１の各々は、デジタルで表される物体９２００の表面９１２２上の位置である。

実施形態では、勾配抽出位置５１００及び表面法線位置５１０１は、互いに対応してもよい。実施形態では、一部の勾配抽出位置５１００は、一部の表面法線位置５１０１に対応してもよく、一方、その他の勾配抽出位置５１００は、表面法線位置５１０１に対応しない。さらなる実施形態において、勾配抽出位置５１００及び表面法線位置５１０１は、互いに重ならないように選択されてもよい。したがって、勾配抽出位置５１００及び表面法線位置５１０１は、完全な重なり及び重なりなしを含む、任意の量の重なりを有し得る。

実施形態では、勾配抽出位置５１００及びデジタル的に表される物体９２００の表面９１２２上の表面法線位置５１０１の位置は、抽出又は生成された２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５を記憶するために必要なメモリ量を制限するために、限定セットとして選択され得る。このメモリ保存の実践は、デジタルで表される物体９２００の物体情報９１２１のサイズ（バイト単位）に関係なく、抽出及び／又は分析された、全特徴の固定数（以下に説明するように、勾配情報９１００及び／又は表面法線ベクトル９１０１など）を指し得る線形モダリティと呼んでもよい。２Ｄ測定情報４３０４のために捕捉された特徴の数は、３Ｄ測定情報４３０５のために捕捉された特徴の数と同一であってもよく、又は異なってもよい。

実施形態では、限定された数の勾配抽出位置５１００及び表面法線位置５１０１は、効率的な結果を生成するように位置してもよい。例えば、勾配抽出位置５１００は、図９Ｂに示すように、デジタルで表される物体９２００の識別されたエッジに沿って位置してもよいが、表面法線位置５１０１は、デジタルで表される物体９２００のエッジから離れて位置してもよい。実施形態では、デジタルで表される物体９２００のエッジは、例えば、レイトレーシング、ピクセル強度不連続性、又は他の分析技術に従って識別されてもよい。これは、以下に説明するように、勾配情報９１００が、物体エッジの近くで捕捉されたとき仮説生成、検証、及び精密化においてより有意であり得る一方、表面法線ベクトル９１０１がエッジから離れて捕捉されたときにより有意であり得るため、効率的であると証明され得る。選択される勾配抽出位置５１００及び表面法線位置５１０１の組み合わせ数は、１００～１０００、５０～５０００、及び／又は１０～１０００の範囲であり得るが、より多いか、又はより少いのも、同様に適切であり得る。特定の実施形態では、勾配抽出位置５１００及び表面法線位置５１０１の数は、それぞれ２５６であってもよく、又は合計で２５６であってもよい。

処理８００５では、特徴生成方法８０００は、物体情報９１２１から２Ｄ測定情報４３０４を抽出することをさらに含み得る。２Ｄ測定情報４３０４は、メモリ又は他のリソースを節約するために、及び／又は物体認識テンプレートセット４３０１が生成されるか、又は仮説検証及び精密化が実施される速度を改善するために、物体５０１５を表すために、（例えば、２Ｄ外観４３０２と比較して）より小さな情報セットを表し得る。上述のように、物体認識テンプレートセット４３０１からの物体認識テンプレート４３００は、物体５０１５を説明する２Ｄ測定情報４３０４（及び／又は３Ｄ測定情報４３０５）を含み得る。

２Ｄ測定情報４３０４は、物体情報９１２１から抽出又は生成される二次元特徴を含み得る。一実施形態では、２Ｄ測定情報４３０４を抽出又は生成することは、物体情報９１２１から勾配情報９１００を抽出することを含み得る。したがって、２Ｄ測定情報４３０４は、本明細書に記載されるように勾配情報９１００を含む勾配特徴マップを含み得る。勾配情報９１００は、デジタルで表される物体９２００のエッジ５１１０の方向又は配向を示す。勾配情報９１００は、デジタル的に表される物体９２００の複数の勾配抽出位置５１００で抽出されてもよい。勾配抽出位置５１００は、デジタルで表される物体９２００内で識別される、任意の又はすべての内部及び外部のエッジを表すことができる。

勾配情報９１００を抽出することは、物体情報９１２１の二次元画像情報のピクセル強度を解析して、各勾配抽出位置での二次元画像情報のピクセル強度が、勾配抽出と呼ばれるプロセスにおいて変化する方向（例えば、矢印９１５０によって表される）を測定することを含み得る。ピクセル強度の変化は、デジタルで表される物体９２００の表面及びエッジの輪郭及び配向を表してもよく、したがって、二つのデジタルで表される物体９２００を比較するのに役立ち得る情報を提供する。エッジ５１１０に沿った互いの近くの位置は、類似の勾配情報９１００を有する可能性が高く、例えば、こうした隣接位置の近くのピクセル強度は、エッジ５１１０からの距離の増加と共に同様の方法で変化する。一部の実施例では、平均よりも高いピクセル強度を提示するデジタルで表される物体９２００の一部分は、エッジ５１１０又は他の識別可能な特徴を示し得る。上述のように、一部の実施例では、勾配抽出位置５１００は、デジタルで表される物体９２００のエッジ５１１０に沿って配置されてもよい。

一実施形態では、抽出された勾配情報９１００は、テンプレートマッチング処理、仮説生成、又は仮説検証処理を改善するために使用され得るが、これは、物体認識テンプレートセット４３０１からの物体認識テンプレート４３００が、シーン内の物体５０１２に合致するかどうかを判定し得る。例えば、２Ｄ外観４３０２が、シーンからデジタルで表される物体９２００と重なる又は交差する特定の部分を有する場合、少なくとも一つの処理回路１１１０は、合致する部分も合致する、又は類似の勾配（例えば、２Ｄ測定情報４３０４の一部分が合致するか否か）を提示するか否かを判定し得る。勾配が異なるか、又は合致しない場合、少なくとも一つの処理回路１１１０は、異なる特定の部分が不一致の結果であるか、又は偶然であると判定し得る。不一致は、シーンの一部分をわずかな量だけ重ねる２Ｄ外観４３０２の結果であり得る。

例えば、ここで図９Ｄを参照すると、物体認識テンプレート４３００Ａの２Ｄ外観４３０２Ａは、長方形によって表され、物体認識テンプレート４３００Ａの２Ｄ測定情報４３０４Ａ（例えば、勾配情報９１００）は矢印によって表される。シーン内の物体５０１２の２Ｄ画像情報２６００Ｂ（物理的物体は図示せず）は、Ｌ字型の固体によって表される。物体５０１２はさらに、矢印で表される２Ｄ測定情報４３０４Ｂによって表される。２Ｄ外観４３０２Ａの一部分は、シーン内の物体５０１２を表す２Ｄ画像情報２６００Ｂ（物理的物体は図示せず）のパターン化された部分９３０９と比較され、重ねられてもよい。しかしながら、２Ｄ測定情報４３０４Ａ及び４３０４Ｂによって表される勾配は合致せず、したがって、少なくとも一つの処理回路１１１０によって、物体認識テンプレート４３００Ａは、シーン５０１３内の物体５０１２に対して不適合であると判定されてもよい。

処理８００７では、特徴生成方法８０００は、物体情報９１２１から３Ｄ測定情報４３０５を抽出又は生成することをさらに含み得る。ここで図９Ｃを参照すると、処理８００７は、表面法線位置５１０１で表面法線ベクトル９１０１を決定することを含み得る。３Ｄ測定情報４３０５は、抽出又は生成された表面法線ベクトル９１０１を含む表面法線特徴マップを含み得る。

抽出された３Ｄ測定情報４３０５は、表面法線ベクトル情報、例えば、デジタルで表される物体９２００の表面９１２２上にある表面法線位置５１０１で取られた法線ベクトル（表面に対して垂直なベクトル）であってもよい表面法線ベクトル９１０１を記述する測定値を含んでもよい。一実施形態では、３Ｄ測定情報４３０５を抽出又は生成することは、物体情報９１２１から表面法線ベクトル９１０１及び／又は表面法線ベクトル情報を抽出又は生成することを含む。表面法線ベクトル９１０１は、デジタルで表される物体９２００の表面９１２２に対して法線の複数のベクトルを記述する。表面法線ベクトル９１０１は、デジタルで表される物体９２００の複数の表面法線位置５１０１で抽出又は生成されてもよい。表面法線ベクトル９１０１を抽出することは、表面法線ベクトル位置５１０１のそれぞれで、デジタルで表される物体９２００の複数の表面法線ベクトル９１０１を識別することを含み得る。

処理８００９では、特徴生成方法８０００は、物体認識テンプレートセット４３０１又は複数の物体認識テンプレート４３００を生成することを含み得る。少なくとも一つの処理回路１１１０は、上述の２Ｄ測定情報４３０４及び３Ｄ測定情報４３０５を含む、一つ以上の物体認識テンプレート４３００を生成し得る。一つ以上の物体認識テンプレート４３００は、物体認識テンプレートセット４３０１を形成し得る。上述のように、物体認識テンプレート４３００は、２Ｄ測定情報４３０４、３Ｄ測定情報４３０５、２Ｄ外観４３０２、及び３Ｄ外観４３０３のうちの一つ以上を含み得る。したがって、いくつかの実施形態では、特徴生成方法８０００は、以前に確立された物体認識テンプレート４３００及び物体認識テンプレートセット４３０１を増強又はさらに開発してもよい。抽出又は生成された３Ｄ測定情報４３０５及び２Ｄ測定情報４３０４は、以下で論じるように、リアルタイム又はほぼリアルタイムの持ち上げ処理中に、シーン内の物体５０１２を識別するために使用され得る。特徴生成方法８０００は、後でシーン（又はシーン内の物体）に対して合致する（仮説精密化及び検証）処理を実行するために、物体認識テンプレートセット４３０１を生成する際に上述の物体認識テンプレート生成方法６０００と並行して、又はその後に続いて作業又は処理してもよい。特徴生成方法８０００は、後の仮説処理（例えば、以下でさらに詳細に説明される方法１１０００及び方法１３０００など）で使用される物体認識テンプレートセット４３０１の作成に向けた最終ステップとして役立ち得る。

図１０Ａ及び１０Ｂは、本明細書の実施形態と一致する、テンプレートの合致及び仮説生成方法１００００の態様を示す。本明細書で論じる仮説生成技術は、概してｌｉｎｅＭｏｄ技術と一致し得る。

処理１０００１では、テンプレートマッチング及び仮説生成方法１００００は、画像情報の取得を含み得る。一実施形態では、画像情報１２００１を取得することは、シーン５０１３及びシーン内の一つ以上の物体５０１２の画像を捕捉することを含み得る。こうした実例では、画像情報１２００１が、箱、ビン、ケース、木枠、パレット、又は他の容器内に位置する物体５０１２を表し得る。画像情報１２００１は、本明細書で論じるように、カメラ１２００によって取得されてもよい。

少なくとも一つの処理回路１１１０は、画像情報１２００１を使用して、カメラ１２００の視野内の個々の物体を区別し、画像情報１２００１に基づいて物体認識を行うなどにより、画像情報１２００１を生成、受信、及び／又は処理するように構成され得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野における環境又はシーン５０１３の視覚的な外観を記述する二次元画像情報（例えば、２Ｄ画像情報２６００に類似）を含み得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野内のシーン５０１３の点群、空間構造情報、奥行きマップ、又は他の三次元画像を提供する、三次元画像情報（例えば、３Ｄ画像情報２７００に類似）を含み得る。この例の三次元画像情報は、物体５０１２が三次元空間（例えば、シーン５０１３）の中で空間的にどのように配置されるかを推定するために使用され得る。画像情報１２００１の取得は、シーン５０１３を表す画像情報１２００１の生成又は取得を含んでもよく、必要に応じて、シーン５０１３内の個々の物体５０１２又は複数の物体５０１２を表す物体画像情報１２００２の生成又は取得を含んでもよい。画像情報１２００１は、物体５０１２がカメラ１２００の視野にある（又はあった）ときに、カメラ１２００によって生成されてもよく、例えば、二次元画像情報及び／又は三次元画像情報を含み得る。

一実施形態では、画像情報１２００１は、二次元グレースケール又はカラー画像を含んでもよく、カメラ１２００の視点からのシーン５０１３（及び／又はシーン内の物体５０１２）の外観を記述してもよい。一実施形態では、画像情報１２００１は、カラー画像の単一色チャネル（例えば、赤、緑、又は青色のチャネル）に対応し得る。カメラ１２００が物体５０１２の上方に配置される場合、二次元画像情報は、物体５０１２のそれぞれの上部表面の外観を表し得る。さらに、画像情報１２００１は、例えば、物体５０１２の一つ以上の表面（例えば、上部表面、又は他の外側表面）上の、又は物体５０１２の一つ以上のエッジに沿った様々な物体位置６２２０のそれぞれの奥行き値を示す、奥行きマップ又は点群を含み得る、三次元画像情報を含み得る。物体画像情報１２００２の二次元画像情報及び三次元画像情報は、それぞれ、２Ｄ画像情報１２６００及び３Ｄ画像情報１２７００と呼んでもよい。一部の実施形態では、物体５０１２の物理的エッジを表す物体位置６２２０は、個々の物体５０１２を表すことに限定される物体画像情報１２００２を識別するために使用され得る。

物体画像情報１２００２は、シーン５０１３内の特定の物理的物体５０１２に関連する画像情報を含み得る。物体画像情報１２００２は、画像情報２６００に類似の、物体５０１２を表す２Ｄ画像情報１２６００を含み得る。物体画像情報１２００２は、画像情報２７００に類似の、物体５０１２を表す３Ｄ画像情報１２７００を含み得る。物体画像情報１２００２は、物体位置６２２０を含んでもよく、物体位置６２２０は、例えば、特徴生成方法８０００を介して、それぞれの勾配情報８１０２及び表面法線ベクトル８１０３が取得される位置を表す勾配抽出位置８１００及び表面法線位置８１０１をさらに含んでもよい。勾配抽出位置８１００、表面法線位置８１０１、勾配情報８１０２、及び表面法線ベクトル８１０３は、上述したように、勾配抽出位置８１００、表面法線位置８１０１、勾配情報８１０２、及び表面法線ベクトル８１０３が、物理的物体から得られた画像情報から取得されることを除いて、勾配抽出位置５１００、表面法線位置５１０１、勾配情報９１００、及び表面法線ベクトル９１０１と類似していてもよい。

以下で論じるテンプレートマッチング及び仮説生成処理は、物体認識テンプレートを、画像情報１２００１及び／又は物体画像情報１２００２と比較することによって行われてもよい。実施形態では、物体画像情報１２００２は、画像情報１２００１から、例えば、上述したように、画像セグメンテーション又は他の技術、ならびに特徴生成方法８０００に基づいて生成されてもよい。

処理１０００３では、テンプレートマッチング及び仮説生成方法１００００は、テンプレートを物体画像情報に合致させることを含み得る。シーン５０１３内に存在する物体５０１２の種類（それが単一の種類であるか、又は複数の種類であるかにかかわらず）は、既知であり得る。したがって、既知の物体の種類に対応する物体認識テンプレートセット４３０１は、例えば、本明細書に記載される任意の方法を介して取得され得る。物体５０１２がどのように様々な姿勢で見えるべきかについての情報を表す物体認識テンプレートセット４３０１の各物体認識テンプレート４３００の情報は、物体５０１２を表す物体画像情報１２００２と比較して、各物体認識テンプレート４３００が合致の候補であるかを判定してもよい。次いで、検出仮説の生成のために、合致の良好な候補を選択し得る。

物体認識テンプレート４３００の任意の関連情報は、物体画像情報１２００２の対応する情報と比較されてもよい。例えば、物体画像情報１２００２の勾配情報８１０２及び勾配抽出位置８１００は、物体認識テンプレート４３００の勾配情報９１００及び勾配抽出位置５１００と比較されてもよい。物体画像情報１２００２の表面法線ベクトル８１０３及び表面法線位置８１０１は、物体認識テンプレート４３００の表面法線ベクトル９１０１及び表面法線位置５１０１と比較され得る。２Ｄ情報１２６００及び３Ｄ情報１２７００はそれぞれ、２Ｄ外観４３０２及び３Ｄ外観４３０３と比較されてもよい。

物体認識テンプレート４３００からの、及び物体画像情報１２００２からの上述の情報は、情報が一連の二次元的位置に起因し得るという点で、マップとして理解され得る。テンプレートマップ（物体認識テンプレート４３００の情報のいずれかを表す）は、閾値を超える合致が見つかるまで、物体マップ（物体画像情報１２００２のいずれかを表す）に対して横方向に摺動させることができる。テンプレートマッチングには、それぞれの勾配情報、それぞれの２Ｄ画像情報、それぞれの３Ｄ情報、及び／又はそれぞれの表面法線ベクトル情報の比較を伴い得る。

閾値を使用してもよく、公差は、物体認識テンプレート４３００と物体画像情報１２００２との間の姿勢の潜在的な変化を説明するため許可されてもよい。上述の空間サブサンプリング手順では、物体認識テンプレート４３００における全ての可能な姿勢を捕捉することは不可能であり、したがって、何らかの変形が許容されると理解され、説明され得る。こうした公差技術は、例えば、広がることを含んでもよく、それによって、勾配情報９１００は、物体認識テンプレート４３００の隣接する勾配抽出位置５１００の間で広がり、合致の可能性を増大させる。別の公差技術は、例えば、勾配情報又は表面法線ベクトルが互いに近接しているが、完全には合致しない場合など、合致の閾値レベルに基づいて合致を見つけることを含み得る。テンプレートマッチングは、合致の品質を示すために、テンプレートマッチングスコアを生成し得る。

処理１０００５では、テンプレートマッチング及び仮説生成方法１００００は、合致するテンプレートをクラスタリング及びグループ化して、合致の総数を低減することを含み得る。テンプレートマッチング処理は、物体画像情報１２００２によって表される物体に合致する、複数の物体認識テンプレート４３００を見つけることができる。一部の実施形態では、テンプレートマッチング処理は、時間又は計算リソースによって、いくつの合致が識別され得るかという観点で制限され得る。こうした状況では、処理１０００５は、シーン５０１３の中の単一の部分又は一組の部分上に合致を集中させることを回避し得る。したがって、良好な品質合致（例えば、閾値を超える）を有する合致したテンプレートは、良好なシーン範囲を維持するために、クラスタ化、グループ化、及びフィルタリングされてもよい。同じ物体画像情報１２００２に対応するものとして識別される物体認識テンプレート４３００は、クラスタ化又はグループ化されてもよい。各クラスタ又はグループの中で、最良の合致が選択されてもよく、残りは除去されてもよい。したがって、残りの合致は、単一の領域でクラスタリングするのではなく、シーン５０１３全体を通して物体５０１２を表し得る。一実施例では、シーン５０１３中の物体５０１２が容器の上部の近くにあり、非常に容易に認識できる場合、部分的に隠された物体よりも多くの合致を生成し得る。各物体画像情報１２００２に対して最良の合致のみを選択することによって、より多くの物体を識別できる。

処理１０００７では、テンプレートマッチング及び仮説生成方法１００００は、一つ以上の検出仮説のセットを生成することを含み得る。クラスタリング及びグループ化後に残っている物体認識テンプレート４３００は、検出仮説として選択され得る。これらの物体認識テンプレート４３００は、シーン５０１３内の各物体認識テンプレート４３００が、対応する物体画像情報に合致するように位置するべきである場所についての情報を示す姿勢情報６３０１とともに記憶されてもよい。姿勢情報６３０１は、各物体認識テンプレート４３００を対応する物体画像情報１２００２と関連付ける情報をさらに含み得る。検出仮説６３００は、グループ及び／又はセットで組み合わせられてもよい。例えば、検出仮説セット８３０９は、単一の物体５０１２を表す物体画像情報１２００２に関連する複数の検出仮説８３００を含んでもよいが、検出仮説８３００のグループは、シーン５０１３内の複数の異なる物体５０１２を表す物体画像情報１２００２に関連する複数の検出仮説８３００を含んでもよい。

図１１は、検出仮説を精密化するための例示的な仮説精密化方法１１０００のフロー図を示す。一実施形態では、仮説精密化方法１１０００は、例えば、図２Ａ～２Ｄの計算システム１１００（すなわち１１００Ａ／１１００Ｂ／１１００Ｃ）、又は図３Ａ～３Ｂの計算システム１１００、又はより具体的には、計算システム１１００の少なくとも一つの処理回路１１１０によって行われてもよい。一部のシナリオでは、計算システム１１００が、非一時的コンピュータ可読媒体（例えば、１１２０）上に記憶された命令を実行することによって、仮説精密化方法１１０００を行ってもよい。例えば、命令によって、計算システム１１００に、方法１１０００を行い得る、図２Ｄに示されたモジュールのうちの一つ以上を実行させてもよい。例えば、実施形態では、方法１１０００のステップは、仮説生成モジュール１１２８と、一緒に動作する仮説精密化モジュール１１３６とによって行われてもよい。

仮説精密化方法１１０００を使用して、シーン５０１３内に物理的に位置する物体５０１２を識別するために生成される、一つ以上の検出仮説６３００（例えば、上述したように）を精密化してもよい。仮説精密化方法１１０００は、シーン５０１３から得られた画像情報１２００１について処理し得る。画像情報１２００１は、２Ｄ画像情報２６００及び３Ｄ画像情報２７００と類似してもよい。画像情報１２００１内には、シーン５０１３内の物体５０１２を表す一つ以上の物体画像情報１２００２があってよい。物体５０１２を識別することは、物体の種類を識別すること、又は対応する物体画像情報１２００２から物体の寸法を識別すること、及び／又は物体認識テンプレート４３００に物体画像情報１２００２を合致させることを含み得る。したがって、検出仮説６３００は、一つ以上の物体認識テンプレート４３００のどれが、シーン５０１３を表す画像情報１２００１の物体画像情報１２００２と合致し得るかに関する仮説であってもよい。物体画像情報１２００２は、物体５０１２を表す２Ｄ画像情報１２６００を含み得る。２Ｄ画像情報１２６００は、画像情報２６００に類似していてもよく、及び／又はレイトレーシング及び不連続検出などのレンダリング技術に従って生成されたレンダリングされた２Ｄ画像情報を含んでもよい。物体画像情報１２００２は、画像情報２７００に類似の、物体５０１２を表す３Ｄ画像情報１２７００を含み得る。検出仮説６３００は、上述のように、テンプレートマッチング手順に従って生成され得る。例えば、一実施形態では、検出仮説６３００は、上述のｌｉｎｅＭｏｄアルゴリズム及び／又は手順を介して生成されてもよい。仮説精密化方法１１０００は、物体認識テンプレート４３００が物体画像情報１２００２と正確に合致しないシナリオでも、物体認識テンプレート４３００と物体画像情報１２００２の合致を精密化するように処理してもよい。

仮説精密化方法１１０００では、少なくとも一つの処理回路１１１０が、ロボットアーム３３２０及びアームに接続されたエンドエフェクタ装置３３３０を有するロボット３３００、及び視野を有し、視野内に一つ以上の物体５０１２がある又はあったときに、非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成されるカメラ１２００と通信することができる。実施形態では、少なくとも一つの処理回路１１１０は、ロボット３３００と直接通信しなくてもよく、ネットワーク及び／又は記憶装置を介して、ロボット３３００との間で情報を送受信してもよい。実施形態では、少なくとも一つの処理回路１１１０は、ロボット３３００と直接通信してもよい。少なくとも一つの処理回路１１１０は、シーン５０１３内の一つ以上の物体５０１２の画像情報１２００１を取得し得る。少なくとも一つの処理回路１１１０はまた、検出仮説６３００を取得してもよい。検出仮説６３００は、物体認識テンプレート４３００（例えば、複数の物体認識テンプレート４３００から選択される対応する物体認識テンプレート４３００Ｂ）と物体画像情報１２００２を関連付ける情報を含んでもよく、物体画像情報１２００２によって表される物体５０１２の姿勢情報６３０１を含んでもよい。物体５０１２の姿勢情報６３０１は、物体５０１２の位置及び配向を指し得る。実施形態では、検出仮説６３００は、対応する物体認識テンプレート４３００Ｂを含んでもよく、又は対応する物体認識テンプレート４３００Ｂへの参照を含んでもよい。少なくとも一つの処理回路１１１０は、対応する物体認識テンプレート４３００Ｂと、対応する物体画像情報１２００２との間の不一致を識別するように処理してもよい。少なくとも一つの処理回路１１１０は、物体画像情報１２００２の物体位置６２２０のセットに対応する、対応する物体認識テンプレート４３００Ｂのテンプレート位置６２１０のセットを識別するように処理してもよい。少なくとも一つの処理回路１１１０は、テンプレート位置６２１０のセットを調整して、物体位置６２２０のセットに収束するようにさらに処理してもよい。少なくとも一つの処理回路１１１０は、調整された検出仮説６３００’又は、調整後のテンプレート位置６２１０のセットに従って調整された物体認識テンプレートを含む、複数の反復調整された検出仮説６３００‘を生成するように処理してもよい。

少なくとも一つの処理回路１１１０は、検出仮説６３００を精密化するために、仮説精密化方法１１０００の特定のステップを実行し得る。処理１１００１では、仮説精密化方法１１０００は、シーン５０１３内の一つ以上の物体５０１２の画像情報１２００１を取得することを含み得る。一実施形態では、画像情報１２００１を取得することは、シーン５０１３の画像を捕捉することを含み得る。こうした実例では、画像情報１２００１が、箱、ビン、ケース、木枠、パレット又は他の容器内に位置する物体５０１２を表し得る。画像情報１２００１は、本明細書で論じるように、カメラ１２００によって取得されてもよい。

少なくとも一つの処理回路１１１０は、画像情報１２００１を使用して、カメラ１２００の視野内の個々の物体を区別し、画像情報１２００１に基づいて物体認識又は物体登録を行うなど、画像情報１２００１を生成、受信、及び／又は処理するように構成され得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野における環境又はシーン５０１３の視覚的な外観を記述する二次元画像情報（例えば、２Ｄ画像情報２６００に類似）を含み得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野内のシーン５０１３の点群、空間構造情報、奥行きマップ、又は他の三次元画像を提供する、三次元画像情報（例えば、３Ｄ画像情報２７００に類似）を含み得る。この例の三次元画像情報は、物体５０１２が三次元空間（例えば、シーン５０１３）の中で空間的にどのように配置されるかを推定するために使用され得る。処理１１００１に関して、画像情報１２００１を取得することは、シーン５０１３を表す画像情報１２００１の生成又は取得を含んでもよく、必要に応じて、シーン５０１３内の個々の物体５０１２又は複数の物体５０１２を表す一つ以上の物体画像情報１２００２の生成又は取得を含んでもよい。画像情報１２００１は、物体５０１２がカメラ１２００の視野にある（又はあった）ときに、カメラ１２００によって生成されてもよく、例えば、二次元画像情報及び／又は三次元画像情報を含み得る。

一実施形態では、画像情報１２００１は、二次元グレースケール又はカラー画像を含んでもよく、カメラ１２００の視点からのシーン５０１３（及び／又はシーン内の物体５０１２）の外観を記述してもよい。一実施形態では、画像情報１２００１は、カラー画像の単一色チャネル（例えば、赤、緑、又は青色のチャネル）に対応し得る。カメラ１２００が物体５０１２の上方に配置される場合、二次元画像情報は、物体５０１２のそれぞれの上部表面の外観を表し得る。

処理１１００３では、仮説精密化方法１１０００は、検出仮説６３００を取得することをさらに含み得る。検出仮説６３００は、複数の情報の断片を含み得る。例えば、検出仮説６３００は、画像情報１２００１内の対応する物体画像情報１２００２をオーバーレイするために必要な、対応する物体認識テンプレート４３００Ｂの位置及び配向を示す、対応する物体認識テンプレート４３００Ｂ及び物体姿勢情報６３０１を含み得る。対応する物体認識テンプレート４３００Ｂは、２Ｄ外観４３０２Ｂ、３Ｄ外観４３０３Ｂ、２Ｄ測定情報４３０４Ｂ、及び３Ｄ測定情報４３０５Ｂのうちの一つ以上を含み得る。上述のように、２Ｄ測定情報４３０４Ｂは、勾配情報９１００Ｂ及び勾配抽出位置５１００Ｂを含んでもよいが、３Ｄ測定情報４３０５Ｂは、表面法線ベクトル９１０１Ｂ及び表面法線位置５１０１Ｂを含んでもよい。対応する物体認識テンプレート４３００Ｂは、勾配抽出位置５１００Ｂ及び表面法線位置５１０１Ｂ又はそのサブセットを含み得る、テンプレート位置６２１０をさらに含み得る。

処理１１００５では、仮説精密化方法１１０００は、対応する物体認識テンプレート４３００Ｂと、検出仮説６３００に従ってテンプレートが合致した物体画像情報１２００２との間の不一致を識別することをさらに含んでもよい。対応する物体認識テンプレート４３００Ｂ（例えば、２Ｄ外観４３０２Ｂ）の二次元情報は、物体画像情報１２００２と比較して、不一致を識別してもよい。不一致は、２Ｄ外観４３０２Ｂと物体画像情報１２００２との間の非整列又は他の不整合の領域に従って識別又は定量化され得る。

対応する物体認識テンプレート４３００Ｂの間の不一致又は不整合の識別に伴い、対応する物体認識テンプレート４３００Ｂ（例えば、２Ｄ外観４３０２Ｂ）の二次元情報は、物体画像情報１２００２との比較及びアライメントのために、二次元空間から三次元空間に変換されてもよい。一部の実例では、３Ｄ外観４３０３Ｂ又は２Ｄ外観４３０２Ｂの３Ｄ変換は、物体画像情報１２００２との比較に使用され、不一致を識別し得る。いくつかの実施形態では、不一致は、物体位置６２２０とテンプレート位置６２１０との間の不整合に従って識別又は定量化されてもよい。物体位置６２２０は、物体５０１２のデジタル表示上の点（例えば、物体画像情報１２００２）を表し、一方、テンプレート位置６２１０は、テンプレート物体６２９０上の点を表す（以下で論じるように）。

二次元空間から三次元空間への変換は、カメラキャリブレーション処理中に決定され得る、又は事前に定義され得る、カメラ１２００又は他の画像センサのキャリブレーションパラメータ又は他のパラメータに基づいてもよい。上述のように、対応する物体認識テンプレート４３００Ｂは、物体登録データ５００１から導出され、それに関連付けられた座標系を有してもよい。三次元空間への変換において、対応する物体認識テンプレート４３００Ｂの座標系は、画像情報１２００１に捕捉されるように、シーン５０１３の座標系にマッピングされてもよい。したがって、画像情報１２００１を捕捉したカメラ１２００のキャリブレーションパラメータ又は他のパラメータを、変換に利用してもよい。検出仮説６３００の情報は、本明細書ではテンプレート物体６２９０と呼ばれる、物体のデジタル表現を定義することができる。三次元変換は、テンプレート物体６２９０と呼ばれてもよく、物体画像情報１２００２と比較するための、画像情報１２００１の座標系における三次元空間における検出仮説６３００の情報を表してもよい。

処理１１００７では、仮説精密化方法１１０００は、対応する物体上の物体位置のセットに対応する、対応する物体テンプレート内のテンプレート位置のセットを識別することをさらに含んでもよい。物体位置６２２０は、物体５０１２のデジタル表現上の点（例えば、物体画像情報１２００２）を表し、一方、テンプレート位置６２１０は、テンプレート物体６２９０上の点を表す。したがって、物体位置６２２０をテンプレート位置６２１０と整列させることは、検出仮説６３００を精密化するのに役立ち得る。

上述のように、テンプレート位置６２１０は、勾配抽出位置５１００Ｂ及び表面法線位置５１０１Ｂ又はそのサブセットに対応してもよい。さらなる実施形態では、テンプレート位置６２１０は、物体画像情報１２００２の物体位置６２２０とのアライメントに使用される、追加又は異なる位置を含み得る。

テンプレート位置６２１０（及び対応する物体位置６２２０）は、仮説精密化に高い影響を有する位置（例えば、物体画像情報１２００２とテンプレート物体６２９０との間のアライメント）に従って選択されてもよい。一部の実例では、テンプレート位置６２１０及び物体位置６２２０は、それぞれのテンプレート物体６２９０及び物体画像情報１２００２のエッジの周りの位置として選択され得る。こうした位置は、ノイズの影響を受けにくく、物体の形状の輪郭を提供し得るため、仮説精密化を実行するためにより有用であり得る。

処理１１００９では、仮説精密化方法１１０００は、テンプレート位置６２１０のセットを調整して、物体位置６２２０のセットに収束させることをさらに含み得る。少なくとも一つの処理回路１１１０は、テンプレート位置６２１０のセットを調整するようにさらに構成されてもよい。不一致が識別される場合、少なくとも一つの処理回路１１１０は、テンプレート物体６２９０のテンプレート位置６２１０から物体画像情報１２００２の対応する物体位置６２２０までの間のアライメント値を改善するために調整を行ってもよい。

アライメント手順は、図１２Ｂ及び１２Ｃに示す、ｉｔｅｒａｔｉｖｅｃｌｏｓｅｓｔｐｏｉｎｔ（ＩＣＰ）技術を使用して実施され得る。ＩＣＰ技術は、テンプレート位置６２１０を調整して、物体位置６２２０のセットに収束させることを含み得る。テンプレート位置６２１０とそれらの対応する物体位置６２２０との間のベクトル６２１５のセットが、決定され得る。各ベクトル６２１５は、方向及び大きさを表し得る。一実施形態では、ベクトルの方向及び大きさは、物体位置６２２０に収束するようにテンプレート位置６２１０を調整するために使用され得る。テンプレート位置６２１０から物体位置６２２０に延在するベクトル６２１５は、方向及び大きさを有する。ベクトル６２１５のセットが、ベクトルの方向及び大きさを有し、テンプレート位置６２１０でテンプレート物体６２９０上で動作する力として数学的に理解される場合、テンプレート物体６２９０は、それぞれのテンプレート位置６２１０で加えられるか、又は作用するベクトル６２１５の方向及び大きさに従って調整又は移動されてもよい。したがって、より大きな大きさを有する、さらに離れている（例えば、より大きなデルタ又はオフセットを有する）テンプレート位置６２１０及び物体位置６２２０を表すベクトル６２１５は、より大きな「力」をテンプレート調整に加えると理解され得る。例えば、図１２Ｂを参照すると、テンプレート物体６２９０は、物体画像情報１２００２をオーバーレイしてもよい。ベクトル６２１５は、テンプレート位置６２１０と物体位置６２２０との間で延びる。ベクトル６２１５が、その方向及び大きさに基づいてテンプレート物体６２９０に集合的に「力」として加えられる場合、テンプレート物体６２９０（図１２Ｂに示す）は、時計回りに回転し、物体画像情報１２００２とより近いアライメントに至る傾向がある。ベクトル６２１５を適用した後、ベクトル６２１５の新しいセットを生成し、反復的に適用してもよい。別の例では、図１２Ｃに示すように、ベクトル６２１５を適用することは、テンプレート物体６２９０の並進移動を引き起こして、物体画像情報１２００２とのアライメントをもたらし得る。いくつかの実施形態では、ベクトル６２１５の反復生成及び適用を通して、テンプレート物体６２９０は、残りのベクトル６２１５が互いに打ち消し合い、さらなる移動が生成されなくなるまで、物体画像情報１２００２とのより良好なアライメントに移動する。さらなる移動が生成できない場合、アライメント品質が評価され得る。いくつかの実施形態では、反復調整は、アライメント品質が閾値を超えるまで行われてもよい。

アライメントの品質（又はミスアライメントのレベル）は、複数の異なる方法で評価又は決定され得る。例えば、アライメントの品質は、ベクトル６２１５の方向及び大きさによって定義されるミスアライメントのレベルに従って評価又は決定され得る。アライメントの品質はまた、新しい、更新された、又は調整されたテンプレート位置６２１０のセットと、物体位置６２２０のセットとの間の距離測定値に従って評価又は決定されてもよい。アライメントの品質は、収束割合に従って評価又は決定されてもよい。実施形態では、これらのアライメントの品質の測定値の任意の組み合わせを使用してもよい。

アライメントの品質は、新しい又は更新されたそれぞれのベクトル６２１５の方向及び大きさによって定義されるミスアライメントのレベルに基づいて決定され得る。上述のように、ベクトル６２１５は、その方向及び大きさに従って、テンプレート物体６２９０に作用する力として数学的に解釈され得る。静止し、力を受ける時、物体は応力を経験するであろう。実施形態では、ミスアライメントのレベルは、ベクトル６２１５を、テンプレート物体６２９０の内部応力を生成する力として数学的に処理することに従って計算され得る。したがって、例えば、等しいベクトル及び反対のベクトル６２１５は、（ベクトル６２１５が単に一緒に追加された場合のように）互いに打ち消しあわず、しかし、テンプレート物体６２９０に「ストレス」を生成する。アライメント品質のレベルが良好（及びミスアライメントのレベルが低）である場合、ベクトル６２１５は比較的小さい大きさであり、それによって低内部応力に対応する。アライメント品質が悪い（及びミスアライメントのレベルが高い）場合、ベクトル６２１５は大きくなり、それによってより重大な内部応力に対応する。この内部応力の計算は、アライメント品質を示すものとみなされ得る。

一実施形態では、アライメントの品質は、新しい又は更新されたテンプレート位置６２１０のセットと物体位置６２２０のセットとの間の距離測定値に基づいて決定され得る。距離測定値は、ユークリッド距離測定値、又はユークリッド空間の２点間の線分の長さであってもよい。ユークリッド距離（又はピタゴラスの距離）は、以下の式を介して表され得る：

式中、以下のとおりである。

ｄ＝距離

ｐ＝３Ｄ座標ｐ_１、ｐ_２、ｐ_３を有する第一の点

ｑ＝３Ｄ座標ｑ_１、ｑ_２、ｑ_３を有する第二の点

上述の方程式を介して生成された距離測定値は、距離値（典型的にはゼロ以上）を出力し、ゼロに近い出力値は、点ｐ、ｑ（ゼロは距離なしを表すか、又は同一／重複点を表す）の間のより近い距離を表す。テンプレート位置６２１０の新しいセット又は更新されたセットの各々と、物体位置６２２０のセットとの間の距離測定値は、例えば、算術平均又は幾何平均を取ることによって組み合わせられてもよい。組み合わせられた距離値は、次に、所定の閾値と比較されてもよく、所定の閾値と等しいか、又はそれを下回る距離値（すなわち、ゼロ及び所定の閾値）は、良好な合致を示す（すなわち、テンプレート物体６２９０と物体画像情報１２００２との間）ものであり、所定の閾値よりも大きい距離出力値は、不一致を示す。

一実施形態では、距離測定値は、新しいテンプレート位置６２１０のセット（すなわち、テンプレートベクトル６２６０）と、物体位置６２２０のセット（すなわち、物体ベクトル６２７０）と関連付けられた表面法線ベクトルとの間のコサイン距離であってもよい。テンプレートベクトル６２６０は、対応する物体認識テンプレート４３００Ｂに関連付けられた、以前に決定された表面法線ベクトル９１０１の一部又はすべてを含み得る。物体ベクトル６２７０は、物体画像情報１２００２に関連付けられた表面法線ベクトル８１０１を含み得る。測定されたコサイン距離は、表面法線ベクトル（例えば、テンプレートベクトル６２６０及び物体ベクトル６２７０）の間の角度を示してもよく、示される角度は、表面法線ベクトル（例えば、テンプレートベクトル６２６０及び物体ベクトル６２７０）間のアライメントの程度又は品質と直接相関する。コサイン距離は、以下の式によって表され得る。

コサイン距離＝１－コサイン類似度、

ここで、コサイン類似度は、以下の式によって表され、

式中、ｘ_ｉ及びｙ_ｉは、ベクトルＸ及びＹの構成要素である。

又は、代替では、以下である。

上記の方程式によって生成された距離測定値は、二つの表面法線ベクトル間の距離を示す値を出力する（すなわち、コサイン距離として）。この出力値は、テンプレートベクトル６２６０と物体ベクトル６２７０との間の角度、すなわち、より具体的には、テンプレート物体６２９０の平面部分と物体画像情報１２００２の平面部分との間の角度をさらに示してもよい。平面部分は、表面法線ベクトルが延び、平行である表面を指す。小さな角度を提供する出力は、テンプレート物体６２９０の平面部分と物体画像情報１２００２の平面部分との間の良好な合致（すなわち、良好な収束又はアライメント）を示し得る。テンプレートベクトル６２６０と物体ベクトル６２７０の対応する各対の間のコサイン距離は、例えば、算術又は幾何平均を取ることによって、距離測定値を生成するように組み合わせられてもよい。

別の実施形態では、距離測定値は、テンプレート位置６２１０のうちの一つから、物体位置６２２０からの対応する点を含む平面まで測定される、平面距離測定値であってもよく、又はその逆であってもよい。テンプレートベクトル６２６０と物体ベクトル６２７０の対応する各対の間の平面距離は、例えば、算術又は幾何平均を取ることによって、距離測定値を生成するように組み合わせられてもよい。

テンプレート物体６２９０と物体画像情報１２００２との間のアライメントの品質は、ＩＣＰ技術の連続的な反復にわたって距離が減少することを示すプロファイルに従ってさらに決定され得る。上述のように、ＩＣＰ技術を使用して、テンプレート位置６２１０を物体位置６２２０と収束させることによって、テンプレート物体６２９０及び物体画像情報１２００２を整列させてもよい。連続的な反復の間、テンプレート物体６２９０と物体画像情報１２００２との間の距離測定値（例えば、コサイン距離、ユークリッド距離、平面距離など）が取得され得る。プロファイルは、連続的な反復にわたるこうした距離の変化を示し得る。

例えば、ＩＣＰの連続的な反復にわたる距離の一貫した減少を示すプロファイルは、テンプレート物体６２９０と物体画像情報１２００２との間の収束の観点から、高いアライメント品質を示し得る。逆に、距離が増加する、又はそうでなければ、距離が連続的な反復の間に非常に急速に減少していないことを示す、ＩＣＰの連続的な反復があることがプロファイルによって示される場合、プロファイルは、テンプレート物体６２９０及び物体画像情報１２００２が、高品質の収束を示さず、テンプレート物体６２９０と物体画像情報１２００２との間の最終的なアライメントは、低品質であり得ることを示し得る。

処理１１０１１では、仮説精密化方法１１０００は、調整された検出仮説を生成することを含み得る。調整された検出仮説６３００’は、上述のように、テンプレート位置６２１０に加えられた調整に従って生成され得る。調整は、検出仮説６３００に記憶された様々な断片の情報の調整されたバージョンを表し得る。例えば、調整された検出仮説６３００’は、物体画像情報１２００２と、調整された対応する物体認識テンプレート４３００Ｂ’とを関連付ける情報を含んでもよく、調整された姿勢情報６３０１’を含んでもよい。調整された対応する物体認識テンプレート４３００Ｂ’は、調整された２Ｄ外観４３０２Ｂ’、調整された３Ｄ外観４３０３Ｂ’、調整された２Ｄ測定情報４３０４Ｂ’、及び調整された３Ｄ測定情報４３０５Ｂ’のうちの一つ以上を含み得る。調整された２Ｄ測定情報４３０４Ｂ’は、調整された勾配情報９１００Ｂ’及び調整された勾配抽出位置５１００Ｂ’を含んでもよく、一方で、調整された３Ｄ測定情報４３０５Ｂ’は、調整された表面法線ベクトル９１０１Ｂ’及び調整された表面法線位置５１０１Ｂ’を含んでもよい。調整された物体認識テンプレート４３００Ｂ’は、調整された勾配抽出位置５１００Ｂ’及び調整された表面法線位置５１０１Ｂ’又はそのサブセットを含み得る、調整されたテンプレート位置６２１０’をさらに含み得る。調整された検出仮説６３００’に含まれる情報の「調整された」バージョンすべてが、検出仮説６３００の対応する情報と異なることは要求されない。例えば、実施形態では、位置は調整されてもよく、一方で、その位置に関連付けられた情報（勾配及び表面法線）は、同じままであってもよい。実施形態では、調整された情報は、オリジナルの検出仮説６３００を記憶することと併せて、調整についての情報を記憶することによって捕捉され得る。

本開示はさらに、検出仮説の検証に関する。図１３は、検出仮説を検証するための例示的な検出仮説検証方法１３０００のフロー図を示す。検出仮説検証の以下の説明は、図１４を参照する。検出仮説検証方法１３０００は、一つ以上の以前に取得された検出仮説上で処理して、シーン内に具体的に検出された物理的物体に対応するものとして、特定の検出仮説を検証してもよい。上述のように、テンプレートマッチング及び検出仮説の生成及び精密化を通して、シーン内の特定の物理的物体に関連する又はそれを説明するものとして複数の検出仮説を提案してもよい。検出仮説検証方法１３０００は、特定の物理物体の物体画像情報ならびにそれに関連する検出仮説のセットを受信し、複数の検出仮説を検証して、最適又は最良の適合の検出仮説を決定し得る。検出仮説のセットは、初期検出仮説（検出仮説６３００など）であってもよく、及び／又は調整された検出仮説（調整された検出仮説６３００’など）であってもよく、又はそれらの組み合わせであってもよい。少なくとも一つの処理回路１１１０は、以下に記載されるように、検出仮説８３００を検証するために、検出仮説検証方法１３０００の特定のステップを実行し得る。

一実施形態では、検出仮説検証方法１３０００は、例えば、図２Ａ～２Ｄの計算システム１１００（又は、１１００Ａ／１１００Ｂ／１１００Ｃ）、又は図３Ａ～３Ｂの計算システム１１００によって、あるいはより具体的には、計算システム１１００の少なくとも一つの処理回路１１１０によって行われてもよい。一部のシナリオでは、計算システム１１００が、非一時的コンピュータ可読媒体（例えば、１１２０）上に記憶される命令を実行することによって、検出仮説検証方法１３０００を行ってもよい。例えば、命令によって、計算システム１１００に、検出仮説検証方法１３０００を行い得る、図２Ｄに示されたモジュールのうちの一つ以上を実行させてもよい。例えば、実施形態では、方法１３０００のステップは、仮説生成モジュール１１２８、仮説精密化モジュール１１３６、及び一緒に動作する仮説検証モジュール１１３８によって行われてもよい。

検出仮説検証方法１３０００を使用して、シーン５０１３内に物理的に位置する一つ以上の物体５０１２を識別するために生成された検出仮説セット８３０９の一つ以上の検出仮説８３００を検証してもよい。検出仮説検証方法１３０００は、シーン５０１３から取得された画像情報１２００１について処理してもよい。画像情報１２００１は、２Ｄ画像情報２６００及び３Ｄ画像情報２７００と類似してもよい。画像情報１２００１内には、シーン５０１３内の物体５０１２を表す一つ以上の物体画像情報１２００２があってよい。

以下の考察では、識別される単一の物体５０１２に関する検出仮説セット８３０９の使用に従って、検出仮説検証方法１３０００が論じられる。以下で論じるように、検出仮説検証方法１３０００は、単一の物体５０１２に対応する最良の検出仮説８３００を識別するように処理する。他の実施形態では、検出仮説セット８３０９は、シーン５０１３内の複数の物体５０１２に関する検出仮説８３００を含み得る。各個々の物体５０１２は、検出仮説セット８３０９からの対応する検出仮説８３００のグループを有してもよく、これは、対応する個々の物体５０１２に関して説明する方法に従って検証されてもよい。このようにして、検出仮説検証方法１３０００は、単一の物体５０１２に対する最良の検出仮説８３００を検証及び識別するために、又は、各々が異なる個々の物体５０１２に対応する、複数の最良の検出仮説８３００を識別するために利用されてもよい。複数の検出仮説８３００を検証することによって、複数の物体５０１２の連続する持ち上げを含む複雑な持ち上げ処理を計画及び実行することができる。

検出仮説検証方法１３０００では、少なくとも一つの処理回路１１１０が、ロボットアーム３３２０及びアームに接続されたエンドエフェクタ装置３３３０を有するロボット３３００、及び視野を有し、視野内に一つ以上の物体５０１２がある又はあったときに、非一時的コンピュータ可読媒体に記憶されている命令を実行するように構成されるカメラ１２００と通信することができる。実施形態では、少なくとも一つの処理回路１１１０は、ロボット３３００と直接通信しなくてもよく、ネットワーク及び／又は記憶装置を介して、ロボット３３００との間で情報を送受信してもよい。実施形態では、少なくとも一つの処理回路１１１０は、ロボット３３００と直接通信してもよい。少なくとも一つの処理回路１１１０は、シーン５０１３内の一つ以上の物体５０１２の画像情報１２００１を取得し得る。少なくとも一つの処理回路１１１０はまた、一つ以上の検出仮説８３００及び／又は検出仮説セット８３０９を取得してもよい。

各検出仮説８３００は、物体認識テンプレート４３００（例えば、複数の物体認識テンプレート４３００から選択される対応する物体認識テンプレート４３００Ｃ）と物体画像情報１２００２を関連付ける情報を含んでもよく、物体画像情報１２００２によって表される物体５０１２の姿勢情報６３０１を含んでもよい。物体５０１２の姿勢情報６３０１は、物体５０１２の位置及び配向を指し得る。実施形態では、検出仮説８３００は、対応する物体認識テンプレート４３００Ｃを含んでもよく、又は対応する物体認識テンプレート４３００Ｃへの参照を含んでもよい。

処理１３００１では、検出仮説検証方法１３０００は、シーン内の一つ以上の物体の画像情報を取得することを含む。処理１３００１は、上で論じた処理１１００１と類似してもよい。画像情報１２００１を取得することは、シーン５０１３の画像を捕捉することを含み得る。こうした実例では、画像情報１２００１が、箱、ビン、ケース、木枠、パレット又は他の容器内に位置する物体５０１２を表し得る。画像情報１２００１は、本明細書で論じるように、カメラ１２００によって取得されてもよい。少なくとも一つの処理回路１１１０は、画像情報１２００１を使用して、カメラ１２００の視野内の個々の物体を区別し、画像情報１２００１に基づいて物体認識又は物体登録を行うなど、画像情報１２００１を生成、受信、及び／又は処理するように構成され得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野における環境又はシーン５０１３の視覚的な外観を記述する、二次元画像情報（例えば、２Ｄ画像情報２６００に類似）を含み得る。一実施形態では、画像情報１２００１は、カメラ１２００の視野内のシーン５０１３の点群、空間構造情報、奥行きマップ、又は他の三次元画像を提供する、三次元画像情報（例えば、３Ｄ画像情報２７００に類似）を含み得る。この例の三次元画像情報は、物体５０１２が三次元空間（例えば、シーン５０１３）の中で空間的にどのように配置されるかを推定するために使用され得る。画像情報１２００１の取得は、シーン５０１３を表す画像情報１２００１の生成又は取得を含んでもよく、必要に応じて、シーン５０１３の個々の物体５０１２又は複数の物体５０１２を表す一つ以上の物体画像情報１２００２の生成又は取得を含んでもよい。物体画像情報１２００２は、物体５０１２を表す２Ｄ画像情報１２６００を含み得る。２Ｄ画像情報１２６００は、画像情報２６００に類似していてもよく、及び／又はレイトレーシング及び不連続検出などのレンダリング技術に従って生成されたレンダリングされた２Ｄ画像情報を含んでもよい。物体画像情報１２００２は、画像情報２７００に類似の、物体５０１２を表す３Ｄ画像情報１２７００を含み得る。画像情報１２００１は、物体５０１２がカメラ１２００の視野にある（又はあった）ときに、カメラ１２００によって生成されてもよく、例えば、二次元画像情報及び／又は三次元画像情報を含み得る。

画像情報１２００１は、仮説精密化方法１１０００の実施中に取得された同じ画像情報１２００１であってもよい。したがって、計算システム１１００は、仮説精密化方法１１０００の実施のために画像情報１２００１を取得し、画像情報１２００１を記憶し、検出仮説検証方法１３０００の実施のために画像情報１２００１にアクセスし得る。実施形態では、画像情報１２００１は、特に検出仮説検証方法１３０００の実施のために、新たに取得されてもよい。

上で論じたように、画像情報１２００１は、二次元グレースケール及び／又はカラー画像を含んでもよく、カメラ１２００の視点からのシーン５０１３（及び／又はシーン内の物体５０１２）の外観を説明してもよい。一実施形態では、画像情報１２００１は、カラー画像の単一色チャネル（例えば、赤、緑、又は青色のチャネル）に対応し得る。カメラ１２００が物体５０１２の上方に配置される場合、二次元画像情報は、物体５０１２のそれぞれの上部表面の外観を表し得る。さらに、画像情報１２００１は、例えば、物体５０１２の一つ以上の表面（例えば、上部表面、又は他の外側表面）上の、又は物体５０１２の一つ以上のエッジに沿った様々な物体位置６２２０のそれぞれの奥行き値を示す、奥行きマップ又は点群を含み得る、三次元画像情報を含み得る。物体画像情報１２００２の二次元画像情報及び三次元画像情報は、それぞれ、２Ｄ画像情報１２６００及び３Ｄ画像情報１２７００と呼んでもよい。一部の実施形態では、物体５０１２の物理的エッジを表す物体位置６２２０は、個々の物体５０１２を表すことに限定される物体画像情報１２００２を識別するために使用され得る。

処理１３００３では、検出仮説検証方法１３０００は、一つ以上の検出仮説８３００及び／又は検出仮説セット８３０９を取得することをさらに含み得る。説明を容易にするために、特に明記されない限り、特定の検出仮説８３００の記述された属性及び質は、検出仮説セット８３０９の検出仮説８３００の各々に適用されると理解され得る。検出仮説８３００は、仮説精密化方法１１０００の実施に続いて、調整された検出仮説６３００’として取得されてもよい。検出仮説８３００は、上述のように、テンプレートマッチング処理から初期検出仮説８３００として取得され得る。

検出仮説８３００は、画像情報１２００１内の対応する物体画像情報１２００２をオーバーレイするために必要な、対応する物体認識テンプレート４３００Ｃの位置及び配向を示す、対応する物体認識テンプレート４３００Ｃ及び物体姿勢情報８３０１を含んでもよい。対応する物体認識テンプレート４３００Ｃは、２Ｄ外観４３０２Ｃ、３Ｄ外観４３０３Ｃ、２Ｄ測定情報４３０４Ｃ、及び３Ｄ測定情報４３０５Ｃのうちの一つ以上を含み得る。上述のように、２Ｄ測定情報４３０４Ｃは、勾配情報９１００Ｃ及び勾配抽出位置５１００Ｃを含んでもよく、一方で、３Ｄ測定情報４３０５Ｃは、表面法線ベクトル９１０１Ｃ及び表面法線位置５１０１Ｃを含んでもよい。対応する物体認識テンプレート４３００Ｃは、勾配抽出位置５１００Ｂ及び表面法線位置５１０１Ｂ又はそのサブセットを含み得る、テンプレート位置８２１０をさらに含み得る。検出仮説８３００の情報は、本明細書ではテンプレート物体８２９０と呼ばれる、物体のデジタル表現を定義することができる。テンプレート物体８２９０は、物体画像情報１２００２と比較するための、画像情報１２００１の座標系における三次元空間における検出仮説６３００の情報を表す。

検出仮説セット８３０９、特にセットのサイズは、割合と完全さとのバランスを取るように選択又は決定され得る。より多くの検出仮説８３００を選択することは、良好な合致を達成するより高い機会をもたらし得るが、処理にも時間がかかり得る。仮説精密化方法１１０００に関して上で論じたように、アライメントの品質は、精密化に関連するステップの間に測定又は決定され得る。品質閾値を超えることは、仮説精密化方法１１０００を完了として決定させるマーカであってもよい。同様に、品質閾値を超えることは、検出仮説セット８３０９内に調整された検出仮説６３００’を含めることを可能にするマーカとして考慮され得る。品質閾値を超えることができないと、調整された検出仮説６３００’が除外される結果となり得る。したがって、検出仮説セット８３０９のサイズは、品質閾値がどれほど厳しいかによって決められ得る。いくつかの実施形態では、検出仮説セット８３０９のサイズは限定されてもよく、最高品質アライメント調整検出仮説６３００’のみが含まれる。実施形態では、品質閾値及びランク付けされた順序の両方を使用してもよい。実施形態では、多くの偽陽性が生成されるという理解で、大きな仮説検出セット８３０９（例えば、５００、１０００、又は１０，０００を超える総検出仮説）を生成するテンプレートマッチング及び仮説精密化技術を使用することが有益であり得る。こうした実施形態は、以下で論じるように、検出仮説検証方法１３０００に依拠して、偽陽性をフィルタリングしてもよい。

処理１３００５において、検出仮説検証方法１３０００は、検出仮説のセットの各検出仮説を検証することを含む。複数の検出仮説８３００が取得され、画像情報１２００１の物体画像情報１２００２と比較されて、物体画像情報１２００２によって表される物理的物体５０１２を記述するためどの検出仮説８３００が最良の推定値又は最良の適合であるかを識別する。検出仮説セット８３０９から最良の検出仮説を選択することは、以下に記載される処理１３００７～１３０１１に従って、検出仮説の各々を検証することを含む。仮説検証は、三次元及び二次元検証スコアを生成し、これらに従って検出仮説セット８３０９をフィルタリングすることを含み得る。

処理１３００７では、検出仮説検証方法１３０００は、複数の三次元検証スコアを生成することを含む。各三次元検証スコアは、検出仮説８３００の三次元情報及びシーンからの物体に対応する画像情報（例えば、物体画像情報１２００２）の対応する三次元情報の比較に基づいてもよい。複数の三次元検証スコアは、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含んでもよい。検出仮説８３００の三次元情報は、３Ｄ外観４３０３Ｃ及び表面法線ベクトル９１０１Ｃを含む３Ｄ測定情報４３０５Ｃ及び表面法線位置５１０１Ｃを含み得る。物体画像情報１２００２の三次元情報は、３Ｄ画像情報１２７００、表面法線位置８１０１、及び表面法線ベクトル８１０３を含み得る。

バリデータスコアは、本明細書で論じるように、特定の検出仮説が、物体画像情報１２００２にどの程度よく対応しているか、又は整列しているかを表すスコア又は数であってもよい。バリデータスコアは、本明細書で論じるように、より低い値がより良い適合を表す仮説信頼スコアに適用されるペナルティスコアであってもよい。あるいは、バリデータスコアは、より高い値がより良好な適合を表すボーナススコアであってもよい。説明を容易にするために、本明細書で論じるバリデータスコアは、ペナルティスコアであってもよいが、同じ概念及び技法の全てが、ボーナススコアを使用して適用され得ることが理解される。

遮蔽バリデータスコア及び点群バリデータスコアは、それぞれ、物体画像情報１２００２の物体位置６２２０を、検出仮説８３００によって表されるテンプレート物体８２９０の表面と比較し、物体位置６２２０とテンプレート物体８２９０の表面との間の不一致を識別して、遮蔽バリデータスコア及び点群バリデータスコアを取得することによって、取得され得る。検出仮説の三次元情報は、テンプレート物体８２９０の表面の位置を示し得る。検出仮説８３００の三次元情報が、実際には、シーン５０１３の物体５０１２を表す場合、３Ｄ画像情報１２７００に関連付けられた物体位置６２２０は、表面上又は表面に近くにあるはずである。表面の近くにない場合、テンプレートマッチング処理によって決定される合致は、偽陽性であってもよい。物体位置６２２０をテンプレート物体８２９０の表面に比較することは、有効な点ならびに遮蔽及び無効な点の二つの種類の不一致を識別し得る。物体位置６２２０を、テンプレート物体８２９０の表面の上方又はそうでなければ外側に置く不一致は、遮蔽と呼ばれ、遮蔽バリデータスコアを計算するために使用され得る。テンプレート物体８２９０の表面の下に物体位置６２２０を置く不一致は、無効な点と呼ばれ、点群バリデータスコアを計算するために使用され得る。テンプレート物体８２９０の表面から上又はその近く（閾値距離内、表皮奥行きパラメータとも呼ばれる）にある物体位置６２２０は、有効な点と呼ばれ得る。物体位置６２２０とテンプレート物体８２９０の表面との間のある程度の偏差が予想される。こうした偏差は、表皮奥行きパラメータによって説明されてもよく、そのサイズは、許容偏差の量を決定する。

遮蔽バリデータスコアは、物体位置６２２０をテンプレート物体８２９０の表面の上方又は外側に置く不一致を識別することによって取得される。これらの不一致は遮蔽と呼ばれる。遮蔽バリデータスコアは、仮説信頼スコアに対する加重ペナルティをもたらし、重みは、テンプレート物体６２９０の表面からの物体位置６２２０の距離に依存する。遮蔽バリデータスコアは、テンプレート物体６２９０の表面からの距離の関数として計算されてもよい。関数は、例えば、対数法線関数であってもよく、対数法線関数の曲線のピークは、テンプレート物体８２９０の表面の近くの３Ｄ点と一致する表面からの距離を表すが、テンプレート物体８２９０の一部である可能性は低い。実施形態では、ピークを有する関数は、画像情報１２００１を捕捉するセンサ又はカメラが精度を失う点を越えてすぐの距離で選択され得る。例えば、テンプレート物体６２９０の表面を非常に大きな距離で越える物体位置６２２０は、物体画像情報１２００２によって表される物体５０１２上の実際の点ではなく、シーン５０１３の合致部分とカメラ１２００の合致部分との間の別の物体５０１２からの遮蔽又は画像情報１２００１のノイズから、このような物体位置６２２０が結果として生じる可能性のために、それに対して適用されるペナルティは低くてもよい。したがって、特定の物体位置６２２０に対する遮蔽バリデータスコアのペナルティは、最初距離と共に最初に増大し、検出仮説の信頼性を低下させ得る。距離がピークを超えて増加した後、特定の物体位置６２２０が、物体画像情報１２００２によって表される物体５０１２によって生成されず、ペナルティが減少する可能性がますます高まる。

実施形態では、遮蔽信頼スコアは、遮蔽バリデータスコアに対して決定され得る。遮蔽信頼スコアは、遮蔽バリデータスコアが、どの決定がなされ得るかについての良い情報を提供する信頼レベルを表す。物体位置６２２０は、それらが物体に属するという信頼がある点又は位置を表し得る。しかしながら、物体画像情報１２００２は、物体５０１２に属すると自信を持って識別されない追加の点を含み得る。遮蔽信頼スコアは、物体画像情報１２００２の可視点の総数に対する物体位置６２２０の比に基づいてもよい。したがって、物体に属するという信頼がある物体位置６２２０が、可視点全体のより低い割合である場合、物体位置６２２０に基づく遮蔽バリデータスコアが正確な情報を提供する信頼性は低下し、関連する遮蔽信頼スコアも同様に低下する。いくつかの実施形態では、最終的な遮蔽バリデータスコアは、遮蔽信頼スコアに従って修正される初期遮蔽バリデータスコアによって表されてもよい。

点群バリデータスコアは、物体位置６２２０をテンプレート物体８２９０の中又は表面の下に置く不一致を識別することによって取得される。これらの不一致は、無効な点と呼ばれる。点群バリデータスコアは、仮説信頼スコアに対するペナルティとなる。無効点として識別された物体位置６２２０、例えば、テンプレート物体８２９０の表面下は、検出仮説８３００が不正確であり、相応に高いペナルティスコアをもたらし得る強力な指標であり得る。実施形態では、点群バリデータスコアは、無効な点の数、又は無効な点と無効な点のカットオフ値との比に基づいてもよい。

点群バリデータスコアは、例えば、物体画像情報１２００２内の可視点の総数に対する物体位置６２２０の比に従って、遮蔽信頼スコアに関して上述したのと同じ様式で決定された点群信頼スコアを有してもよい。実施形態では、最終的な点群バリデータスコアは、点群信頼スコアに従って変更される点群バリデータスコアによって表されてもよい。

実施形態では、点群バリデータスコア及び遮蔽バリデータスコアは、単一の表面バリデータスコアに組み合わされてもよい。表面バリデータスコアは、点群バリデータスコアと遮蔽バリデータスコアとの組み合わせとして、例えば、二つを組み合わせるために、追加、平均化、又は別の数学的操作を実行することによって、決定され得る。

法線ベクトルバリデータスコアは、テンプレート物体６２９０の表面上又はその近傍の物体位置６２２０に従って識別される、有効な点が、テンプレート物体６２９０の表面の配向に合致する表面法線ベクトル８１０３を有するかどうかを判定することによって取得され得る。こうした決定は、物体位置６２２０に関連付けられた表面法線ベクトル８１０３を、対応する物体認識テンプレート４３００Ｃの対応する表面法線位置５１０１Ｃに関連付けられた対応する表面法線ベクトル９１０１Ｃと比較することによって行われてもよい。表面法線ベクトル８１０３が、対応する表面法線ベクトル９１０１Ｃと配向を整列しないか、又は配向と合致しない場合、法線ベクトルバリデータスコアは、検出仮説信頼スコアに対するペナルティとして適用され得る。実施形態では、不一致又はミスアライメントの量は、適用されるペナルティのサイズに影響を与え得る。

実施形態では、検出仮説が正確であっても、表面法線ベクトル８１０３が、対応する表面法線ベクトル９１０１Ｃと配向を整列又は合致させることが期待されない状況に対して、状況に対するいくらかの寛容が与えられてもよい。例えば、多くの歯を有するギアなどの物体は、エッジ及び表面法線ベクトルの突然の変化を呈する部分を有し得る。こうした物体構造は、物体画像情報１２００２とテンプレート物体８２９０との間に、シーン上にオーバーレイされているわずかなミスアライメントがあるだけであっても、表面法線ベクトル８１０３及び対応する表面法線ベクトル９１０１Ｃに大きな偏差を引き起こし得る。こうしたシナリオを説明するために、少なくとも一つの処理回路１１１０は、対応する物体認識テンプレート４３００Ｃ又は画像情報１２００１が、表面法線ベクトル９１０１Ｃ／８１０３に高い変動を有する領域を有するかどうかを調べ得る。結果が陽性である場合、少なくとも一つの処理回路１１１０は、対応する物体認識テンプレート４３００Ｃの対応する表面法線ベクトル９１０１Ｃと、物体画像情報１２００２の表面法線ベクトル８１０３との間の高変化領域における差異について法線ベクトル検証スコアを低下させることによって、より高い量の公差を適用し得る。

実施形態では、表面法線バリデータスコアは、それに関連付けられた表面法線信頼レベルを有してもよい。表面法線信頼レベルは、表面法線バリデータスコアによって提供される情報の信頼レベルを表し得る。一実施形態では、表面法線信頼レベルは、抽出されたエッジの品質に従って決定され得る。一実施形態では、表面法線バリデータスコアは、表面法線信頼レベルに従って調整されてもよい。

対応する物体認識テンプレート４３００Ｃによって表されるように、物体画像情報１２００２から取得された物体位置６２２０をテンプレート物体８２９０の構造と比較し、物体位置６２２０と構造との間の不一致を識別して、構造が不在のテンプレート物体又は位置の構造の空のボリュームに対応する物体位置６２２０に従って、無効な穴又は空の座標（穴の無効性と呼ばれる）を識別することによって、穴合致バリデータスコアを得る。物体画像情報１２００２の物体位置６２２０は、物体５０１２の物理的構造の表面上の位置を表すため、シーン内の物体５０１２は、対応する物体認識テンプレート４３００Ｃが空であると示す空間に構造を持つものではない。対応する物体認識テンプレート４３００Ｃが、空であると示す部分における物体位置６２２０の存在は、ノイズに起因する場合があるが、また、不正確な検出仮説を示す場合がある。したがって、穴合致バリデータスコアは、識別されるすべての穴の無効性に対する検出仮説信頼レベルに対するペナルティスコアとして決定され得る。

実施形態では、穴合致バリデータスコアは、それに関連付けられた穴合致信頼レベルを有してもよい。穴合致信頼レベルは、穴合致バリデータスコアによって提供される情報の信頼レベルを表し得る。一実施形態では、穴合致信頼レベルは、抽出されたエッジの品質に従って決定され得る。一実施形態では、穴合致バリデータスコアは、穴合致信頼レベルに従って調整されてもよい。

実施形態では、正しい検出仮説を用いても、ノイズ又は穴の無効性を生じ得る他の状況を説明するために、公差が設けられてもよい。例えば、物体画像情報１２００２が、テンプレート物体８２９０の空の空間（例えば、物体の穴又は開口部）に対応する物体位置６２２０を含む場合、その物体位置６２２０は、空間内に一致して位置する別の物体の一部分に対応し得る。こうしたシナリオは、推定では空の空間の物体位置６２２０が、対応する物体認識テンプレート４３００Ｃによって表される物体５０１２に属さず、代わりに別の物体に属するとき、シーン５０１３内の物体５０１２に対する正確な検出仮説８３００と一致し得る。一実施形態では、穴合致バリデータスコアは、テンプレート物体８２９０の穴、開口部、又は空の座標のサイズが比較的大きいときに、その空間の測定に影響を与える不規則性（例えば、穴又は開口部と交差する、又は穴又は開口部を通して突出する物体）の可能性、及びその空間内に延在する別の物体の可能性が増加するため、より大きな公差を提供し得る。

実施形態では、点群バリデータスコア、遮蔽バリデータスコア、穴合致バリデータスコア、及び表面法線バリデータスコアは、単一の３Ｄバリデータスコアに組み合わされてもよい。３Ｄバリデータスコアは、点群バリデータスコア、遮蔽バリデータスコア（又は組み合わされた表面バリデータスコア）、穴合致バリデータスコア、及び表面法線バリデータスコアのいずれかの組み合わせとして、例えば、二つを組み合わせるために、追加、平均化、又は別の数学的操作を実行することによって、決定され得る。

処理１３００９では、検出仮説検証方法１３０００は、複数の二次元検証スコアを生成することを含み、この検証スコアは、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一方を含み得る。

レンダリングされた合致バリデータスコアは、画像情報１２００１のレンダリングされた２Ｄ画像情報１２６００を、対応する２Ｄ外観４３０２Ｃと比較することによって取得される。レンダリングされた合致バリデータスコアは、レンダリングされた２Ｄ画像情報１２６００及び対応する２Ｄ外観４３０２Ｃの両方からエッジ情報を抽出するようにさらに処理してもよい。レンダリングされた合致バリデータスコアは、２Ｄ画像情報１２６００から抽出されたエッジが、対応する２Ｄ外観４３０２Ｃから抽出されたエッジと整列するかどうかの判定に基づいてもよい。レンダリングされた合致バリデータスコアは、抽出されたエッジ、抽出されたエッジ間の平均距離、又は任意の他の適切な測定基準によって画定される領域間の重複の量に基づいてもよい。レンダリングされた合致バリデータスコアは、検出仮説信頼スコアに適用されるペナルティスコアとして使用され得る。一部の実例では、レンダリング（例えば、レイトレーシング）を使用して、エッジ情報を生成及び抽出することは、ノイズ及び、金属物体又は影から反射する光のグレアなどのアーチファクトを引き起こし得る他の状態を補償し得る。一部の実例では、処理１３００９はまた、対応する物体認識テンプレート４３００Ｃから情報を再レンダリングして、対応する物体認識テンプレート４３００Ｃからエッジを抽出するように処理してもよい。

実施形態では、レンダリングされた合致バリデータスコアは、それに関連付けられたレンダリングされた合致信頼レベルを有してもよい。レンダリングされた合致信頼レベルは、レンダリングされた合致バリデータスコアによって提供された情報における信頼レベルを表し得る。一実施形態では、レンダリングされた合致信頼レベルは、抽出されたエッジの品質に従って決定され得る。一実施形態では、レンダリングされた合致バリデータスコアは、レンダリングされた合致信頼レベルに従って調整されてもよい。

テンプレートマッチングバリデータスコアは、物体画像情報１２００２から抽出されたエッジと、対応する物体認識テンプレート４３００Ｃ（例えば、テンプレート物体８２９０又は２Ｄ外観４３０２Ｃなど）から導出された物体画像とを比較することによって取得される。エッジ検出アルゴリズム、例えば、Ｃａｎｎｙエッジ検出器を利用して、物体画像情報１２００２から直接物体エッジを、及び対応する物体認識テンプレート４３００Ｃに記憶された画像情報からテンプレートエッジを識別してもよい。テンプレートマッチングバリデータスコアは、物体エッジに対してテンプレートエッジを摺動させてどの程度の摺動（存在する場合）がピーク応答又はオーバーラップをもたらすかを判定することによって、物体エッジとテンプレートエッジとの間のオフセットがあることに従って決定され得る。テンプレートマッチングバリデータスコアは、ピーク応答又はオーバーラップを達成するために必要な、摺動、移動、オフセット、又は調整の量に基づいてもよい。必要な移動や摺動の量が多いほど、テンプレートマッチングバリデータスコアが高くなり、適用されるペナルティが大きくなる。言い換えれば、より多く必要とされる移動は、より不良な合致を示す。

実施形態では、テンプレートマッチングバリデータスコアは、それに関連付けられたテンプレートマッチング信頼レベルを有してもよい。テンプレートマッチング信頼レベルは、テンプレートマッチングバリデータスコアによって提供される情報における信頼レベルを表し得る。一実施形態では、テンプレートマッチング信頼レベルは、抽出されたエッジの品質に従って決定されてもよい。実施形態では、テンプレートマッチングバリデータスコアは、テンプレートマッチング信頼レベルに従って調整されてもよい。

三次元バリデータスコア及び二次元バリデータスコアを組み合わせて、検出仮説における全体的な信頼レベルを決定するために、さらなる処理で使用され得る全体的な検証スコアを決定してもよい。合計検証スコアは、三次元及び二次元バリデータスコアの各々と、各バリデータスコアに関連付けられた信頼値との組み合わせに基づいてもよい。例えば、より高い信頼値及び／又はより高いスコアの重みを有するバリデータスコアは、総検証スコアに対してより大きな影響を有してもよく、一方、低い信頼値及び／又は低いスコアの重みを有するバリデータスコアは、総検証スコアに対してより小さな影響を有してもよい。

実施形態では、処理１３００５は、対応する物体認識テンプレート４３００Ｃが、シーン５０１３に対応する画像情報１２００１内の他の構造又は物体と包括的な一貫性を有するかを判定する、追加の検証ステップをさらに含み得る。例えば、こうした他の構造及び物体は、ワーク又は他の物体が位置する容器を含み得る。例えば、処理１３００５は、テンプレート物体８２９０がこうした容器内に完全に嵌合するかどうか（例えば、姿勢情報６３０１によって決定されるテンプレート物体８２９０の位置に基づいて）、又はテンプレート物体８２９０が容器の表面の外側に延在するか、又は突出するかをさらに決定し得る。テンプレート物体８２９０又はその一部分が容器の外側にある場合、こうした状況は、不正確な検出仮説の示唆であり得る。こうした状況では、総検証スコアは、テンプレート物体８２９０が容器のどのくらい外側にあるかに従って加重されたペナルティで、それに応じて調整され得る。実施形態では、テンプレート物体８２９０又はその一部が閾値量を超える容器の外側にある場合、総検証スコアは、不正確な検出仮説を示すように調整され得る。正確な検出仮説が、依然として容器の外側に延在するか、又は容器の内面を画定する平面を超えて延在するテンプレート物体８２９０と一致し得る状況を説明するために、いくつかの公差が設けられてもよい。こうした状況は、例えば、容器がメッシュ容器である場合、又は物体が、容器の内面を凹凸状に又はその他の方法で変形させるのに十分硬い金属物体である場合に生じ得る。

処理１３０１１では、検出仮説検証方法１３０００は、複数の三次元検証スコア及び複数の二次元検証スコアによる、検出仮説のセットからの検出仮説をフィルタリングすることをさらに含む。

実施形態では、複数のバリデータスコアを組み合わせて、検出仮説信頼レベルを決定するために使用され得る総バリデータスコアを生成してもよい。総バリデータスコア及び検出仮説信頼レベルは、対応する物体認識テンプレート４３００Ｃが、シーン５０１３から取得された物体画像情報１２００２とどの程度よく合致するかを示し得る。仮説検出信頼レベルは、検出仮説を除外するか、又はシーン５０１３の物体５０１２を持ち上げるためロボット動作を計画する検出仮説を使用するかどうかを決定するために使用され得る。

実施形態では、検出仮説のフィルタリングは、連続フィルタリング技術に従って行われてもよく、バリデータスコアの各々は、対応する閾値と比較して、検出仮説セット８３０９からの所与の検出仮説８３００を、保持するか、又はフィルタリングするかを決定する。各連続的なバリデータスコアは、閾値と比較されてもよく、バリデータスコアが閾値を超える場合、検出仮説８３００は除外されてもよい。一例では、検出仮説セット８３０９からの検出仮説８３００のフィルタリングは、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、法線ベクトルバリデータスコア、レンダリングされた合致バリデータスコア、及びテンプレートマッチングバリデータスコアを対応する閾値と比較すること、及び対応する閾値を超えるバリデータスコアと、任意の検出仮説８３００を除去することを含み得る。上述の比較は、順次行われてもよい。上記の順序は、例示のみを目的としており、任意の順序を使用してもよい。連続フィルタリングが利用される場合、除外された検出仮説に対する追加のバリデータスコアを計算しないことによって、プロセスの効率が増大し得る。

実施形態では、バリデータスコアを対応する閾値と比較することは、バリデータスコアに関連付けられた信頼レベルを考慮に入れ得る。例えば、関連する閾値は、バリデータスコア信頼レベルに従って調整されてもよく、及び／又はバリデータスコアは、信頼レベルに従って調整されてもよい。したがって、不良合致を示す信頼度の低いバリデータスコアは、検出仮説として除外されてもよく、一方、信頼度の高いバリデータスコアは、より大きな影響を有してもよい。

したがって、三次元検証スコア又は二次元検証スコアのうちの一つ以上が、対応する閾値を超える場合（必要に応じて信頼レベルを考慮する）、検出仮説８３００は、検出仮説セット８３０９から除去又はフィルタリングされ得る。検出仮説８３００は、三次元検証スコア及び二次元検証スコアの全てが、対応する閾値の全てを超えることができない場合（必要に応じて信頼レベルを考慮に入れる）、検出仮説セット８３０９内に留まり得る。

フィルタリングプロセスは、物体画像情報１２００２に対応する各特定の物体５０１２に対して単一の検出仮説８３００が残るまで継続され得る。こうしたことは、最も高い検出仮説信頼レベル（及び最も低い総検証スコア）を有する検出仮説を選択することによって、及び／又は各物体５０１２に対して単一の検出仮説８３００のみが成功するまで、ますます下げられたフィルター閾値を有するフィルタリングプロセスを反復することによって、発生し得る。単一検出仮説８３００は、フィルタリングされていない検出仮説８３００であってもよい。実施形態では、最小信頼レベルは、検出仮説８３００に設定されてもよい。こうした実施形態では、物体５０１２に対する最良適合検出仮説８３００が信頼閾値を超えることができない場合、システムは、その物体に対する検出仮説８３００を返さなくてもよい。

処理１３０１３では、仮説検証方法１３０００は、検証後に、検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の一つ以上の物体を検出することを含む。フィルタリング後、物体画像情報１２００２に関連付けられた物体５０１２に対応する最良の検出仮説８３００が識別されて、シーン内の物体５０１２を検出する。上述のように、仮説検証方法１３０００は、複数の異なる関連検出仮説８３００に従って、複数の異なる物体５０１２を識別するためにも利用されてもよい。

いくつかの実施形態では、仮説検証方法１３０００は、重複検出処理をさらに含んでもよく、それによって、一つ以上の検出仮説８３００が互いに比較されて、それらの対応するテンプレート物体８２９０が重複を有するかどうかを判定する。こうした重複は、重複を有する検出仮説８３００の一方又は両方が不正確であることを示し得る。検出仮説８３００は、フィルタリング処理１３０１１後の重複について比較されてもよい。フィルタリング処理１３０１１の前に、複数の検出仮説８３００は、各物体５０１２に対して残ってもよく、したがって重複が予想される。フィルタリング処理１３０１１の後、残りの検出仮説８３００は、個々の物体５０１２に対する最良適合を表し、重複は予想されない。重複の検出に応答して、システムは、例えば、その信頼スコアに基づいて、重複検出仮説８３００の一方又は両方を破棄するように構成されてもよく、又は重複検出仮説８３００に関して追加の分析又は処理を行うように構成されてもよい。重複検出仮説８３００を破棄、維持、又は再分析する決定は、重複の程度をさらに考慮し得る。

シーン５０１３中の一つ以上の物体５０１２の検出に続いて、少なくとも一つの処理回路１１１０は、一つ以上の物体５０１２の取り出しのためにロボット制御処理１５０００を実行するように処理し、ロボット３３００の移動に一つ以上の物体５０１２を取り出しさせるコマンドを出力し得る。ロボット制御処理１５０００は、障害物検出、動作計画、動作実行を含み得る。

障害物検出は、取り出される物体５０１２の近傍の障害物を検出し、それを説明することを含み得る。本明細書で論じるように、物体５０１２は、他の品目及び物体を有する容器の中にあってもよい。したがって、他の品目及び物体、ならびに容器自体は、ロボット３３００のロボット動作に対する障害物を表し得る。こうした障害物は、物体の近傍の障害物の位置を決定するために処理されてもよい画像情報１２００１及び／又は物体画像情報１２００２内に捕捉されてもよい。

動作計画は、例えば、ロボット３３００が物体５０１２を取り出すために実行する軌道をプロットするなど、ロボット動作を計画することを含み得る。軌道は、識別された障害物を説明し、回避するようにプロットされ得る。動作実行は、ロボット３３００に計画された動作を実行させるように、動作計画に関連するコマンドをロボット又はロボット制御システムに送信することを含み得る。

本明細書で論じる方法、例えば、方法６０００、８０００、１００００、１１０００、及び１３０００は、物体認識テンプレートを作成し、物体認識テンプレートを利用して、シーン内の物体に対する検出仮説を生成、精密化、及び検証するために、協働して処理されてもよい。したがって、方法６０００、８０００、１００００、１１０００、及び１３０００は、容器内から複数の物体を検出、識別、及び取り出すロボットプロセスを容易にするために利用されてもよい。

関連分野の当業者にとって、本明細書に記載する方法及び用途への、その他の好適な修正ならびに適応を、実施形態のうちのいずれの範囲からも逸脱することなく行うことができることは明らかであろう。上に記載する実施形態は、例示的な例であり、本開示がこれらの特定の実施形態に限定されると解釈されるべきではない。本明細書に開示する様々な実施形態は、記載及び添付の図に具体的に提示する組み合わせとは異なる組み合わせで、組み合わせてもよいことは理解されるべきである。例によって、本明細書に記載するプロセスもしくは方法のいずれのある特定の行為又は事象は、異なるシーケンスで行われてもよく、追加、統合、又は完全に省略し得ることも理解されるべきである（例えば、記載したすべての行為又は事象が、方法又はプロセスを実行するのに必要でなくてもよい）。加えて、本明細書の実施形態のある特定の特徴を、明確にするために、単一の構成要素、モジュール、又はユニットにより行われていると記載しているものの、本明細書に記載する特徴及び機能は、構成要素、ユニット、又はモジュールのいかなる組み合わせによって行われてもよいことは理解されるべきである。従って、添付の特許請求の範囲で定義されるような、発明の趣旨又は範囲から逸脱することなく、様々な変更及び修正を当業者が及ぼし得る。

さらなる実施形態は、以下の実施形態を含む。

実施形態１は、シーン内の物体を識別するための物体認識テンプレートセットを生成するように構成された計算システムであって、物体を表す物体モデルを含む、物体の登録データを取得することと、三次元空間における物体モデルの複数の視点を決定することと、複数の視点の各々で、物体モデルの複数の外観を推定することと、複数の外観に従って、それぞれが複数の外観のそれぞれの一つに対応する複数の物体認識テンプレートを生成することと、複数の物体認識テンプレートを、ロボット制御システムに物体認識テンプレートセットとして伝達することと、を行うように構成された少なくとも一つの処理回路を備え、複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す、計算システムである。

実施形態２は、三次元空間が表面によって囲まれ、複数の視点の各々が、表面上のカメラ位置に対応し、物体認識テンプレートの各々が、複数の視点のうちの一つの視点に対応し、一つの視点からの物体の外観を含む、実施形態１に記載の計算システムである。

実施形態３は、複数の視点の各々が、カメラ回転角度にさらに対応する、実施形態１に記載の計算システムである。

実施形態４は、物体モデルが三次元空間内に固定される、実施形態２に記載の計算システムである。

実施形態５は、三次元空間が実質的に球状であり、物体モデルが三次元空間の中心に固定される、実施形態２に記載の計算システムである。

実施形態６は、複数の視点が、表面にわたる均等分布に従って選択される、実施形態２に記載の計算システムである。

実施形態７は、各カメラ位置が、視点のセットに対応し、視点のセットの各視点は、異なるカメラ回転角度に対応する、実施形態３に記載の計算システムである。

実施形態８は、物体認識テンプレートのセットのサブセットが、異なる位置及び異なるカメラ回転角度に対応する視点に対応する物体認識テンプレートを含む、実施形態３に記載の計算システムである。

実施形態９は、複数の物体認識テンプレートに対して観察される姿勢の予測範囲に基づいて、複数の視点を決定することをさらに含む、実施形態２に記載の計算システムである。

実施形態１０は、物体の対称性に基づいて複数の視点を決定することをさらに含む、実施形態２に記載の計算システムである。

実施形態１１は、回転後に物体の物体外観が変化するという判定及び物体の軸の識別のうちの少なくとも一つに従って、物体の対称性を決定することをさらに含む、実施形態１０に記載の計算システムである。

実施形態１２は、シーン内の物体を識別するための物体認識テンプレートセットを生成する方法であって、物体を表す物体モデルを含む物体の登録データを取得することと、三次元空間における物体モデルの複数の視点を決定することと、複数の視点の各々で、物体モデルの複数の外観を推定することと、複数の外観に従って、それぞれが複数の外観のそれぞれの一つに対応する複数の物体認識テンプレートを生成することと、複数の物体認識テンプレートを、ロボット制御システムに物体認識テンプレートセットとして伝達することと、を含み、複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す、方法である。

実施形態１３は、三次元空間が表面によって囲まれ、複数の視点を表面上のカメラ位置に対応させ、物体認識テンプレートの各々を複数の視点のうちの一つの視点に対応させることをさらに含む、実施形態１２に記載の方法である。

実施形態１４は、複数の視点の各々をカメラ回転角度に対応させることを更に含む、実施形態１３に記載の方法である。

実施形態１５は、三次元空間内に物体モデルを固定することをさらに含む、実施形態１３に記載の方法である。

実施形態１６は、表面にわたる均等分布に従って複数の視点を選択することをさらに含む、実施形態１３に記載の方法である。

実施形態１７は、複数の物体認識テンプレートに対して観察される姿勢の予測範囲に基づいて、複数の視点を決定することをさらに含む、実施形態１３に記載の方法である。

実施形態１８は、物体の対称性に基づいて複数の視点を決定することをさらに含む、実施形態１３に記載の方法である。

実施形態１９は、回転後に物体の物体外観が変化するという判定及び物体の軸の識別のうちの少なくとも一つに従って、物体の対称性を決定することをさらに含む、実施形態１８に記載の方法である。

実施形態２０は、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、シーン内の物体を識別するための物体認識テンプレートを生成するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体である。当該方法は、物体を表す物体モデルを含む、物体の登録データを受信することと、物体モデルの複数の視点を三次元空間内で生成するための動作を行うことと、複数の視点の各々で、物体モデルの複数の外観を推定する動作を行うことと、複数の外観に従って、それぞれが複数の外観のそれぞれの一つに対応する複数の物体認識テンプレートを生成する動作を行うことと、複数の物体認識テンプレートをロボットシステムに物体認識テンプレートセットとして出力することと、を含み、複数の物体認識テンプレートの各々は、シーン内の物体の画像情報を生成するカメラの光学軸に対して物体が有し得る姿勢を表す。

実施形態２１は、シーン内の物体を識別するための物体認識テンプレートを生成するように構成された計算システムであって、デジタルで表される物体を含む物体情報を取得することと、物体情報から二次元測定情報を抽出することと、物体情報から三次元測定情報を抽出することと、二次元測定情報及び三次元測定情報に従って、物体認識テンプレートを生成することとを行うように構成された少なくとも一つの処理回路を含む、計算システムである。

実施形態２２は、デジタルで表される物体が、物体モデルであり、二次元測定情報及び三次元測定を抽出することは、選択された視点で物体モデルの特徴マップを生成するために実行される、実施形態２１に記載の計算システムである。

実施形態２３は、少なくとも一つの処理回路が、シーンの画像情報を取得すること、物体認識テンプレートへアクセスすること、及び二次元測定情報及び三次元測定情報と画像情報とを比較して、デジタルで表される物体に対応する物体を識別することを行うようにさらに構成される、実施形態２１に記載の計算システムである。

実施形態２４は、二次元測定情報を抽出することが、物体情報から勾配情報を抽出することを含み、勾配情報が、デジタルで表される物体の候補エッジの方向又は配向を示し、三次元測定情報を抽出することが、物体情報から表面法線ベクトル情報を抽出することを含み、表面法線ベクトル情報が、デジタルで表される物体の表面に対して法線の複数のベクトルを記述する、実施形態２１に記載の計算システムである。

実施形態２５は、物体情報が、物体の登録データを含み、デジタルで表される物体が、物体モデルを含む、実施形態２１に記載の計算システムである。

実施形態２６は、物体情報が、二次元画像情報及び三次元画像情報のうちの少なくとも一方を含む、実施形態２１に記載の計算システムである。

実施形態２７は、勾配情報が、デジタルで表される物体の複数の勾配抽出位置で抽出され、勾配情報を抽出することが、物体情報の二次元画像情報のピクセル強度を分析して、各勾配抽出位置での二次元画像情報のピクセル強度が変化する方向を測定することを含む、実施形態２４に記載の計算システムである。

実施形態２８は、表面法線ベクトル情報が、デジタルで表される物体の複数の表面法線位置で抽出され、表面法線ベクトル情報を抽出することが、各表面法線位置で、デジタルで表される物体の表面に対して法線の複数のベクトルを識別することを含む、実施形態２４に記載の計算システムである。

実施形態２９は、勾配情報が、デジタルで表される物体の複数の勾配抽出位置で抽出され、表面法線ベクトル情報が、デジタルで表される物体の複数の表面法線位置で抽出され、複数の勾配抽出位置が、複数の表面法線位置と異なっている、実施形態２４に記載の計算システムである。

実施形態３０は、複数の勾配抽出位置が、複数の表面法線位置と重複しない、実施形態２９に記載の計算システムである。

実施形態３１は、複数の勾配抽出位置が、デジタルで表される物体のエッジに配置され、複数の表面法線位置が、デジタルで表される物体のエッジから離れて配置される、実施形態２９に記載の計算システムである。

実施形態３２は、シーン内の物体を識別するための物体認識テンプレートを生成する方法であって、デジタルで表される物体を含む物体情報を取得することと、物体情報から二次元測定情報を抽出することと、物体情報から三次元測定情報を抽出することと、二次元測定情報及び三次元測定情報に従って、物体認識テンプレートを生成することと、を含む方法である。

実施形態３３は、選択された視点で物体モデルの特徴マップを生成することをさらに含む、実施形態３２に記載の方法である。

実施形態３４は、シーンの画像情報を取得することと、物体認識テンプレートにアクセスすることと、二次元測定情報及び三次元測定情報を画像情報と比較して、デジタルで表される物体に対応するものとして物体を識別することをさらに含む、実施形態３２に記載の方法である。

実施形態３５は、二次元測定情報を抽出することが、物体情報から勾配情報を抽出することをさらに含み、勾配情報は、デジタルで表される物体の候補エッジの方向又は配向を示す、実施形態３２に記載の方法である。

実施形態３６は、三次元測定情報を抽出することが、物体情報から表面法線ベクトル情報を抽出することをさらに含み、表面法線ベクトル情報が、デジタルで表される物体の表面に対して法線の複数のベクトルを記述する、実施形態３２に記載の方法である。

実施形態３７は、デジタルで表される物体の複数の勾配抽出位置で勾配情報を抽出することと、物体情報の二次元画像情報のピクセル強度を分析して、各勾配抽出位置での二次元画像情報のピクセル強度が変化する方向を測定することとをさらに含む、実施形態３５に記載の方法である。

実施形態３８は、デジタルで表される物体の複数の表面法線位置で表面法線ベクトル情報を抽出することと、各表面法線位置で、デジタルで表される物体の表面に対して法線の複数のベクトルを識別することをさらに含む、実施形態３６に記載の方法である。

実施形態３９は、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、シーン内の物体を識別するための物体認識テンプレートを生成するための方法を実行するための実行可能な命令で構成された非一時的コンピュータ可読媒体である。当該方法は、デジタルで表される物体を含む物体情報を受信することと、物体情報から二次元測定情報を抽出する動作を行うことと、物体情報から三次元測定情報を抽出する動作を行うことと、二次元測定情報及び三次元測定情報に従って、物体認識テンプレートをロボットシステムに出力することと、を含む。

実施形態４０は、シーンの画像情報を受信することと、物体認識テンプレートにアクセスすることと、画像情報に対する二次元測定情報と三次元測定情報との比較をロボットシステムへ出力して、物体を、デジタルで表わされる物体に対応するものとして識別することと、をさらに含む、実施形態３９に記載の実施形態である。

実施形態４１は、アーム及び当該アームに接続されたエンドエフェクタを有するロボットと通信すると共に、視野を有するカメラと通信する少なくとも一つの処理回路を備え、少なくとも一つの処理回路は、一つ以上の物体が視野内にあるか又は視野内にあったとき、非一時的コンピュータ可読媒体に記憶された命令を実行するように構成され、命令は、シーン内の物体の物体画像情報を取得することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を取得することと、テンプレート物体と物体画像情報との間の不一致を識別することと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別することと、テンプレート位置のセットを、物体位置のセットに収束するように調整することと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説を生成することと、を含む、計算システムである。

実施形態４２は、テンプレート位置のセットと、物体位置のセットの対応するものとの間で延びるそれぞれのベクトルを識別すること、及びそれぞれのベクトルに従って、テンプレート位置のセットを繰り返し調整することによって、テンプレート位置のセットを調整することをさらに含む、実施形態４１に記載の計算システムである。

実施形態４３は、テンプレート位置のセットを繰り返し調整することは、テンプレート物体に作用するそれぞれのベクトルの大きさ及び方向に従って、テンプレート位置の調整されたセットを繰り返し生成することと、調整されたテンプレート位置のセットに従って、それぞれのベクトルを調整することと、アライメントの品質が閾値を超えるまで、調整されたテンプレート位置のセットに従って新しいそれぞれのベクトルを識別することと、を含む、実施形態４２に記載の計算システムである。

実施形態４４は、アライメントの品質が、新しいそれぞれのベクトルによって画定されるミスアライメントのレベルに基づいて決定される、実施形態４３に記載の計算システムである。

実施形態４５は、アライメントの品質が、調整されたテンプレート位置のセットと、物体位置のセットとの間の距離測定値に基づいて決定される、実施形態４３に記載の計算システムである。

実施形態４６は、距離測定値がユークリッド距離測定値を含む、実施形態４５に記載の計算システムである。

実施形態４７は、距離測定値が、調整されたテンプレート位置のセット及び物体位置のセットに関連付けられた表面法線ベクトル間のコサイン距離を含む、実施形態４５に記載の計算システムである。

実施形態４８は、コサイン距離が、表面法線ベクトル間の角度を示し、角度のサイズがアライメントの品質と相関する、実施形態４７に記載の計算システムである。

実施形態４９は、距離測定値が、調整されたテンプレート位置のセットの第一の位置から、物体位置のセットの第二の位置の平面までの測定値である、実施形態４５に記載の計算システムである。

実施形態５０は、アライメントの品質が、調整されたテンプレート位置のセットと、物体位置のセットとの間の収束割合によって決定される、実施形態４３に記載の計算システムである。

実施形態５１は、物体認識テンプレートにシーンの画像情報をオーバーレイして、物体認識テンプレートのテンプレート勾配情報及びテンプレート表面法線ベクトル情報と、画像情報から抽出された物体勾配情報及び物体表面法線ベクトル情報との比較に基づいて物体画像情報を識別することによって、検出仮説を取得することをさらに含む、実施形態４１に記載のシステムである。

実施形態５２は、シーン内の物体の物体画像情報を取得することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を取得することと、テンプレート物体と物体画像情報との間の不一致を識別することと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別することと、テンプレート位置のセットを、物体位置のセットに収束するように調整することと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説を生成することと、を含む、方法である。

実施形態５３は、テンプレート位置のセットを調整することが、テンプレート位置のセットと、物体位置のセットの対応するものとの間で延びるそれぞれのベクトルを識別することと、それぞれのベクトルに従ってテンプレート位置のセットを繰り返し調整することと、をさらに含む、実施形態５２に記載の方法である。

実施形態５４は、テンプレート物体に作用するそれぞれのベクトルの大きさ及び方向に従ってテンプレート位置の調整されたセットを繰り返し生成することと、調整されたテンプレート位置のセットに従ってそれぞれのベクトルを調整することと、アライメントの品質が閾値を超えるまで、調整されたテンプレート位置のセットに従って新しいそれぞれのベクトルを識別することと、をさらに含む、実施形態５３に記載の方法である。

実施形態５５は、新しいそれぞれのベクトルによって画定されるミスアライメントのレベルに基づいてアライメントの品質を決定することをさらに含む、実施形態５４に記載の方法である。

実施形態５６は、調整されたテンプレート位置のセットと物体位置のセットとの間の距離測定値に基づいてアライメントの品質を決定することをさらに含む、実施形態５４に記載の方法である。

実施形態５７は、調整されたテンプレート位置のセットと物体位置のセットとの間の収束割合によってアライメントの品質を決定することをさらに含む、実施形態５４に記載の方法である。

実施形態５８は、検出仮説を取得することは、物体認識テンプレートにシーンの画像情報をオーバーレイして、物体認識テンプレートのテンプレート勾配情報及びテンプレート表面法線ベクトル情報と、画像情報から抽出された物体勾配情報及び物体表面法線ベクトル情報との比較に基づいて、物体画像情報を識別することをさらに含む、実施形態５２に記載の方法である。

実施形態５９は、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、検出仮説を精密化するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体であって、当該方法が、シーン内の物体の物体画像情報を受信することと、テンプレート物体を表す対応する物体認識テンプレートを含む検出仮説を受信することと、テンプレート物体と物体画像情報との間の不一致を識別する処理を行うことと、物体画像情報の物体位置のセットに対応するテンプレート物体内のテンプレート位置のセットを識別する処理を行うことと、テンプレート位置のセットを調整して、物体位置のセットに収束させる処理を行うことと、調整後のテンプレート位置のセットに従って、調整された対応する物体認識テンプレートを含む、調整された検出仮説をロボットシステムに出力することと、を含む、非一時的コンピュータ可読媒体である。

実施形態６０は、テンプレート位置のセットを調整するための処理が、テンプレート位置のセットと、物体位置のセットの対応するものとの間で延びるそれぞれのベクトルを識別する処理を実行することと、それぞれのベクトルに従ってテンプレート位置のセットを繰り返し調整した後に、テンプレート位置のセットを調整する処理を実行することを含む、実施形態５９に記載の方法である。

実施形態６１は、アーム及びアームに接続されたエンドエフェクタを有するロボットと通信すると共に、視野を有するカメラと通信する少なくとも一つの処理回路を備え、少なくとも一つの処理回路は、一つ以上の物体が視野内にあるか又は視野内にあったとき、非一時的コンピュータ可読媒体に格納された命令を実行するように構成され、命令は、シーン内の物体の物体画像情報を取得することと、それぞれがテンプレート物体を表す対応する物体認識テンプレートを含む検出仮説のセットを取得することと、検出仮説のセットの各検出仮説を検証することと、を含み、検証することは、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、複数の三次元検証スコアを生成することであって、複数の三次元検証スコアが遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含むことと、検出仮説の対応する物体認識テンプレートの二次元情報及び物体画像情報の三次元情報の比較に基づいて、複数の二次元検証スコアを生成することとであって、複数の二次元検証スコアがレンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一つを含むことと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングすることと、検証後に検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の物体を検出することと、によって行われる、計算システムである。

実施形態６２は、命令が、シーンから物体を取り出すためのロボット動作計画手順を実行することと、ロボットを動かして物体を取り出すためのコマンドを出力することと、をさらに含む、実施形態６１に記載の計算システムである。

実施形態６３は、複数の三次元検証スコアが、点群バリデータスコアを含み、点群バリデータスコアが、物体画像情報から得られた物体位置をテンプレート物体の表面と比較すること、物体位置と表面との間の不一致を識別して、点群バリデータスコアを得ることによって取得される、実施形態６１に記載の計算システムである。

実施形態６４は、無効な物体位置が、テンプレート物体の表面の下に物体位置を配置する不一致に従って識別され、点群バリデータスコアが、無効な物体位置に基づく、実施形態６３に記載の計算システムである。

実施形態６５は、複数の三次元検証スコアが、遮蔽バリデータスコアを含み、遮蔽バリデータスコアが、物体画像情報から得られた物体位置をテンプレート物体の表面と比較すること、物体位置と表面との間の不一致を識別して、遮蔽バリデータスコアを得ることによって取得される、実施形態６１に記載の計算システムである。

実施形態６６は、テンプレート物体の表面の上方又は外側に対応する物体位置を配置する不一致に従って遮蔽が識別され、遮蔽バリデータスコアは遮蔽に基づく、実施形態６５に記載の計算システムである。

実施形態６７は、複数の三次元検証スコアが、法線ベクトルバリデータスコアを含み、法線ベクトルバリデータスコアが、物体画像情報から得られた表面法線ベクトルを、テンプレート物体の対応する表面法線ベクトルと比較すること、表面法線ベクトルと対応する表面法線ベクトルとの間の不一致を識別して、法線ベクトルバリデータスコアを得ることによって取得される、実施形態６１に記載の計算システムである。

実施形態６８は、複数の三次元検証スコアが、穴合致バリデータスコアを含み、穴合致バリデータスコアが、物体画像情報から得られた物体位置を、テンプレート物体の構造と比較すること、テンプレート物体の構造内の空のボリュームに対応する位置の物体位置に従って、穴の無効性を識別するために、物体位置と前記構造との間の不一致を識別することによって取得される、実施形態６１の計算システムである。

実施形態６９は、レンダリングされた合致バリデータスコアが、シーン内の物体の二次元レンダリングを生成することと、物体の二次元レンダリングのレンダリングされたエッジを、テンプレート物体の抽出されたエッジと比較して、無効なエッジを識別することによって取得される、実施形態６１に記載の計算システムである。

実施形態７０は、検出仮説のセットの各検出仮説を検証することが、対応する物体認識テンプレートを、テンプレート物体に対応する物体以外のシーン要素と比較することをさらに含む、実施形態６１に記載の計算システムである。

実施形態７１は、推定された物体を表す対応する物体認識テンプレートをシーン要素と比較することが、テンプレート物体に対応する物体が容器内にあるかどうかを判定することを含む、実施形態７０に記載の計算システムである。

実施形態７２は、検出仮説のセットから検出仮説をフィルタリングすることが、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、法線ベクトルバリデータスコア、レンダリングされた合致バリデータスコア、及びテンプレートマッチングバリデータスコアを対応する閾値と比較することを含み、三次元検証スコア又は二次元検証スコアのいずれかが、対応する閾値を超えることができない場合、検出仮説が、検出仮説のセットから削除され、三次元検証スコア及び二次元検証スコアが、対応する閾値の全てを超える場合、検出仮説が検出仮説のセット内に残る、実施形態７１に記載の計算システムである。

実施形態７３は、シーン内の物体の物体画像情報を取得することと、それぞれがテンプレート物体を表す対応する物体認識テンプレートを含む検出仮説のセットを取得することと、検出仮説のセットの各検出仮説を、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、複数の三次元検証スコアを生成することであって、複数の三次元検証スコアが、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含む、複数の三次元検証スコアを生成することと、検出仮説の対応する物体認識テンプレートの二次元情報と物体画像情報の三次元情報との比較に基づいて、複数の二次元検証スコアを生成することであって、複数の二次元検証スコアが、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一方を含む、複数の二次元検証スコアを生成することと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングすることと、検証後に前記検出仮説のセットに残っているフィルタリングされていない検出仮説に従ってシーン内の物体を検出することとによって検証することと、を含む、方法である。

実施形態７４は、シーンから物体を取り出すためのロボット動作計画手順を実行することと、ロボットを移動して物体を取り出すためのコマンドを出力することと、をさらに含む、実施形態７３に記載の方法である。

実施形態７５は、複数の三次元検証スコアを生成することが、法線ベクトルバリデータスコアを取得することと、法線ベクトルバリデータスコアが、物体画像情報から得られた表面法線ベクトルを、テンプレート物体の対応する表面法線ベクトルと比較することと、表面法線ベクトルと対応する表面法線ベクトルとの間の不一致を識別して、法線ベクトルバリデータスコアを得ることとによって取得されることと、をさらに含む、実施形態７３に記載の方法である。

実施形態７６は、穴合致バリデータスコアを取得することが、物体画像情報から得られた物体位置をテンプレート物体の構造と比較することと、物体位置と構造との間の不一致を識別して、テンプレート物体の構造中の空のボリュームに対応する位置の物体位置による穴の無効性を識別することとを含む、実施形態７３に記載の方法である。

実施形態７７は、レンダリングされた合致バリデータスコアを取得することが、シーン内の物体の二次元レンダリングを生成することと、無効なエッジを識別するために、物体の二次元レンダリングのレンダリングされたエッジをテンプレート物体の抽出されたエッジと比較することとを含む、実施形態７３に記載の方法である。

実施形態７８は、検出仮説のセットの各検出仮説を検証することが、対応する物体認識テンプレートを、テンプレート物体に対応する物体以外のシーン要素と比較することをさらに含む、実施形態７３に記載の方法である。

実施形態７９は、検出仮説のセットから検出仮説をフィルタリングすることが、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、法線ベクトルバリデータスコア、レンダリングされた合致バリデータスコア、及びテンプレートマッチングバリデータスコアを対応する閾値と比較することと、三次元検証スコア又は二次元検証スコアのいずれかが、対応する閾値を超えることができない場合、検出仮説のセットから検出仮説を除去することと、三次元検証スコア及び二次元検証スコアが対応する閾値のすべてを超える場合、検出仮説を、検出仮説のセット内に維持することと、を含む、実施形態７３に記載の方法である。

実施形態８０は、ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、検出仮説を検証するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体であって、方法は、シーン内の物体の物体画像情報を受信することと、それぞれがテンプレート物体を表す対応する物体認識テンプレートを含む検出仮説のセットを受信することと、検出仮説の物体認識テンプレートの三次元情報と、物体に対応する物体画像情報の三次元情報との比較に基づいて、遮蔽バリデータスコア、点群バリデータスコア、穴合致バリデータスコア、及び法線ベクトルバリデータスコアのうちの少なくとも一つを含む、複数の三次元検証スコアを生成する処理を行うことと、検出仮説の対応する物体認識テンプレートの二次元情報及び物体画像情報の三次元情報を比較することに基づいて、レンダリングされた合致バリデータスコア及びテンプレートマッチングバリデータスコアのうちの少なくとも一つを含む、複数の二次元検証スコアを生成する処理を実行することと、複数の三次元検証スコア及び複数の二次元検証スコアに従って、検出仮説のセットから検出仮説をフィルタリングする処理を行うことと、検証後に、検出仮説のセットに残っているフィルタリングされていない検出仮説に従って、シーン内の物体を検出することと、シーン内の検出された物体をロボットシステムに出力することと、を含む、非一時的コンピュータ可読媒体である。

実施形態８１は、三次元空間が実質的に球状であり、物体モデルが三次元空間の中心に固定される、実施形態１３に記載の方法である。

実施形態８２は、各カメラ位置が、視点のセットに対応し、視点のセットの各視点は、異なるカメラ回転角度に対応する、実施形態１４に記載の方法である。

実施形態８３は、物体認識テンプレートのセットのサブセットが、異なる位置及び異なるカメラ回転角度に対応する視点に対応する物体認識テンプレートを含む、実施形態１４に記載の方法である。

実施形態８４は、デジタルで表される物体が、物体モデルであり、二次元測定情報及び三次元測定を抽出することが、選択された視点で物体モデルの特徴マップを生成するために実施される、実施形態３２に記載の方法である。

実施形態８５は、物体情報が、物体の登録データを含み、デジタルで表される物体が、物体モデルを含む、実施形態３２に記載の方法である。

実施形態８６は、物体情報が、二次元画像情報及び三次元画像情報のうちの少なくとも一方を含む、実施形態３２に記載の方法である。

実施形態８７は、勾配情報が、デジタルで表される物体の複数の勾配抽出位置で抽出され、表面法線ベクトル情報が、デジタルで表される物体の複数の表面法線位置で抽出され、複数の勾配抽出位置が、複数の表面法線位置と異なっている、実施形態３６に記載の方法である。

実施形態８８は、複数の勾配抽出位置が、複数の表面法線位置と重複しない、実施形態８７に記載の方法である。

実施形態８９は、複数の勾配抽出位置が、デジタルで表される物体のエッジに配置され、複数の表面法線位置が、デジタルで表される物体のエッジから離れて配置される、実施形態８７に記載の方法である。

実施形態９０は、距離測定値がユークリッド距離測定値を含む、実施形態５６に記載の方法である。

実施形態９１は、距離測定値が、調整されたテンプレート位置のセット及び物体位置のセットに関連付けられた表面法線ベクトル間のコサイン距離を含む、実施形態５６に記載の方法である。

実施形態９２は、コサイン距離が、表面法線ベクトル間の角度を示し、角度のサイズがアライメントの質と相関する、実施形態９１に記載の方法である。

実施形態９３は、距離測定値が、調整されたテンプレート位置のセットの第一の位置から、物体位置のセットの第二の位置の平面までの測定値である、実施形態５６に記載の方法である。

実施形態９４は、複数の三次元検証スコアが、点群バリデータスコアを含み、点群バリデータスコアが、物体画像情報から取得された物体位置をテンプレート物体の表面と比較すること、物体位置と表面との間の不一致を識別して、点群バリデータスコアを得ることによって取得される、実施形態７３に記載の方法である。

実施形態９５は、無効な物体位置が、テンプレート物体の表面の下に物体位置を配置する不一致に従って識別され、点群バリデータスコアが、無効な物体位置に基づく、実施形態９４に記載の方法である。

実施形態９６は、複数の三次元検証スコアが、遮蔽バリデータスコアを含み、遮蔽バリデータスコアが、物体画像情報から得られた物体位置をテンプレート物体の表面と比較すること、物体位置と表面との間の不一致を識別して、遮蔽バリデータスコアを得ることによって取得される、実施形態７３に記載の方法である。

実施形態９７は、遮蔽が、テンプレート物体の表面の上方又は外側に対応する物体位置を配置する不一致に従って識別され、遮蔽バリデータスコアは、遮蔽に基づく、実施形態９６に記載の方法である。

実施形態９８は、推定された物体を表す対応する物体認識テンプレートをシーン要素と比較することが、テンプレート物体に対応する物体が容器内にあるかどうかを判定することを含む、実施形態７８に記載の方法である。

Claims

シーン内の物体を識別するための物体認識テンプレートセットを生成するように構成された計算システムであって、
少なくとも一つの処理回路を備え、
前記少なくとも一つの処理回路は、
前記物体を表す物体モデルを含む、前記物体の登録データを取得することと、
三次元空間における前記物体モデルの複数の視点を決定することと、
前記複数の視点の各々で、前記物体モデルの複数の外観を推定することと、
前記複数の外観に従って、それぞれが前記複数の外観の一つに対応する複数の物体認識テンプレートを生成することと、
前記複数の物体認識テンプレートを、前記物体認識テンプレートセットとしてロボット制御システムに伝達することと、
を行うように構成され、
前記複数の物体認識テンプレートの各々は、前記シーン内の前記物体の画像情報を生成するカメラの光学軸に対して前記物体が有し得る姿勢を表す、計算システム。
前記三次元空間は、表面によって囲まれ、
前記複数の視点の各々は、前記表面上のカメラ位置に対応し、
前記物体認識テンプレートの各々は、前記複数の視点のうちの一つの視点に対応し、前記一つの視点からの前記物体の外観を含む、請求項１に記載の計算システム。
前記複数の視点の各々は、カメラ回転角度にさらに対応する、請求項１に記載の計算システム。
前記物体モデルは、前記三次元空間内に固定される、請求項２に記載の計算システム。
前記三次元空間は、実質的に球状であり、
前記物体モデルは、前記三次元空間の中心に固定される、請求項２に記載の計算システム。
前記複数の視点は、前記表面にわたる均等分布に従って選択される、請求項２に記載の計算システム。
各カメラ位置は、視点のセットに対応し、
前記視点のセットの各視点は、異なるカメラ回転角度に対応する、請求項３に記載の計算システム。
前記物体認識テンプレートのセットのサブセットは、異なる位置及び異なるカメラ回転角度に対応する視点に対応する物体認識テンプレートを含む、請求項３に記載の計算システム。
前記複数の物体認識テンプレートに対して観察される姿勢の予測範囲に基づいて、前記複数の視点を決定することをさらに含む、請求項２に記載の計算システム。
前記物体の対称性に基づいて、前記複数の視点を決定することをさらに含む、請求項２に記載の計算システム。
前記物体の物体外観が回転後に変化するという判定及び前記物体の軸の識別のうちの少なくとも一方に従って、前記物体の対称性を決定することをさらに含む、請求項１０に記載の計算システム。
シーン内の物体を識別するための物体認識テンプレートセットを生成する方法であって、
前記物体を表す物体モデルを含む、前記物体の登録データを取得することと、
三次元空間における前記物体モデルの複数の視点を決定することと、
前記複数の視点の各々で、前記物体モデルの複数の外観を推定することと、
前記複数の外観に従って、それぞれが前記複数の外観の一つに対応する複数の物体認識テンプレートを生成することと、
前記複数の物体認識テンプレートを、前記物体認識テンプレートセットとしてロボット制御システムに伝達することと、を含み、
前記複数の物体認識テンプレートの各々は、前記シーン内の前記物体の画像情報を生成するカメラの光学軸に対して前記物体が有し得る姿勢を表す、方法。
前記三次元空間は、表面によって囲まれ、
当該方法は、
前記複数の視点を前記表面上のカメラ位置に対応させることと、
前記物体認識テンプレートのそれぞれを、前記複数の視点のうちの一つの視点に対応させることと、をさらに含む、請求項１２に記載の方法。
前記複数の視点の各々をカメラ回転角度に対応させることをさらに含む、請求項１３に記載の方法。
前記三次元空間内に前記物体モデルを固定することをさらに含む、請求項１３に記載の方法。
前記表面にわたる均等分布に従って、前記複数の視点を選択することをさらに含む、請求項１３に記載の方法。
前記複数の物体認識テンプレートに対して観察される姿勢の予測範囲に基づいて、前記複数の視点を決定することをさらに含む、請求項１３に記載の方法。
前記物体の対称性に基づいて、前記複数の視点を決定することをさらに含む、請求項１３に記載の方法。
前記物体の物体外観が回転後に変化するという判定及び前記物体の軸の識別のうちの少なくとも一方に従って、前記物体の対称性を決定することをさらに含む、請求項１８に記載の方法。
ロボットシステムと通信するように構成された通信インターフェースを介して少なくとも一つの処理回路によって動作可能な非一時的コンピュータ可読媒体であって、シーン内の物体を識別するための物体認識テンプレートセットを生成するための方法を実行するための実行可能な命令を有する非一時的コンピュータ可読媒体であって、
前記方法は、
前記物体を表す物体モデルを含む、前記物体の登録データを受信することと、
三次元空間における前記物体モデルの複数の視点を生成するための処理を行うことと、
前記複数の視点の各々で、前記物体モデルの複数の外観を推定する処理を行うことと、
前記複数の外観に従って、それぞれが前記複数の外観の一つに対応する複数の物体認識テンプレートを生成する処理を行うことと、
前記複数の物体認識テンプレートを、前記ロボットシステムに前記物体認識テンプレートセットとして出力することと、を含み、
前記複数の物体認識テンプレートの各々は、前記シーン内の前記物体の画像情報を生成するカメラの光学軸に対して前記物体が有し得る姿勢を表す、非一時的コンピュータ可読媒体。