JP7385747B2

JP7385747B2 - 物体の把持点の三次元位置、ローカル参照フレーム及び把持パターンを求める方法及びシステム

Info

Publication number: JP7385747B2
Application number: JP2022521516A
Authority: JP
Inventors: 訓成小堀; ミンチュッロルカ; フランチェスカジャンピエロ; ガラットーニロレンツォ
Original assignee: トヨタモーターヨーロッパ
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2023-11-22
Anticipated expiration: 2039-10-11
Also published as: WO2021069084A1; JP2022551885A; US20230100238A1

Description

本開示は、先ず、把持すべき物体について、物体の把持点の３Ｄ位置、ローカル参照フレーム及び把持パターンを学習するための方法及びシステムに関する。

本明細書において、把持点とは、例えば手又はロボットアームで物体を操作するために、該物体の把持において好ましい物体の点である。

ローカル参照フレームは、互いに垂直な３つのベクトルを正しく配置したものであり、空間内のある点でのソリッドボディの向きを定義し、例えば、把持点での物体の局所的な向きを定義する。

把持点の把持パターンは、指（より一般的には、人間の指、ロボットアーム等、物体を把持するのに適した任意の機構）が、把持点で物体と接触するための指の接触点を得るために従うべき軌跡を記述する情報のデータである。好ましくは、把持パターンは、軌跡上の各位置で、指の接触点でのローカル参照フレームに関する情報を含む（つまり把持パターンは、軌跡の各点において、少なくともその接触点での指の向きに関する情報を含む）。把持パターンは例えば、軌跡の全ての点での指（又は少なくともその接触点）の六次元位置で表すことができる。

本開示はさらに、把持すべき物体を考慮して、物体の把持点及び把持パターンを決定するための方法及びシステムに関する。

物体を把持することは、人間にとっては簡単な作業のように思われるが、ロボットにとっては非常に達成困難である。難しさの一つは、操作すべき物体をどのように把持するかを決定することである。このような動作をどのように実行するかを決定する最初のステップは、物体の点、つまり把持すべき物体の「把持点（grasping point）」を決定することである。

ディープラーニングを使用して把握点を取得する方法は、以下の非特許文献１によって提唱されている。しかし、把持点を特定する必要のある物体のリストに新しいタイプの物体を追加するたびにニューラルネットワークを再訓練する必要があるため、このような方法はフレキシブルではない。

Deep Learning for Detecting Robotic Grasps, Ian Lenz, Honglak Lee, Ashutosh Saxena. International Journal of Robotics Research (IJRR), 2014

従って、本開示の第一の目的は、物体の把持点を特定するための方法及びシステムを提案することであり、これにより、多種多様な物体のそのような把持点をロバストな方法で比較的高速に特定することが可能になる。本開示の追加の目的は、特定された各把持点について、ローカル参照フレーム及び把持パターンを特定するための方法及びシステムを提案することである。

本開示の第一の態様によれば、本開示の第一の目的に従い、把持点データベースの作成方法が提案される。該方法は、
Ｓ１１０）物体を表す物体画像を受け取り、少なくとも１つの把持点で把持されている物体を表す把持画像を受け取るステップであって、前記物体画像及び前記把持画像は、前記物体に対して同じ視点から取得される、ステップと、
Ｓ１２０）前記物体画像に基づいて、前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子及び二次元位置を決定するステップであって、画像内で検出された物体の形状特徴のローカル記述子は、前記画像内の前記形状特徴の二次元位置と、前記形状特徴を特徴付ける形状情報（ＨＧ）とを含むデータである、ステップと、
Ｓ１３０）前記把持画像において、検出された前記物体の少なくとも１つの把持点の二次元位置を決定するステップと、
Ｓ１４０）前記物体に関する三次元情報を決定するステップと、
Ｓ１５０）ステップＳ１３０で決定された少なくとも１つの把持点の二次元位置と、前記物体に関する三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ_ＯＤ１）の三次元位置を決定するステップと、
Ｓ１７０）前記物体に関する把持点のレコードをデータベースに保存するステップであって、前記レコードは、検出された前記物体の前記形状特徴の決定されたローカル記述子及び決定された二次元位置と、前記物体の少なくとも１つの把持点の二次元位置及び／又は三次元位置とを含む、ステップと、を含む。

仮に把持点について二次元の（三次元ではない）位置のみが保存される場合、好ましくは十分な情報も把持点のレコードに保存され、それにより、保存された情報に基づき、把持点の三次元位置を計算することが可能になる。

上に規定された方法では、物体の把持点レコードの一部として任意に保存される物体の把持点の二次元位置は、もちろん単一のオリジナルの視点に基づく。つまり、これらは全て、シーン画像が取得された視点である、物体に対する単一の視点に対して定義される。

上述の定義では、物体画像は物体を表す画像である。好ましくは、物体画像は、物体のいかなる部分も隠すことなく、物体全体を表す。

画像内の物体の形状特徴の二次元位置は、通常、検出された特徴を示す画像のサブ画像内の特徴の中心（又は重心）に相当する。他の例として、二次元位置の原点は、サブ画像のバウンディングボックスの角部、又は任意の同等の情報とすることができる。

また二次元位置は、画像の形状特徴に相当する、サブ画像のバウンディングボックス、又は任意の同等の情報とすることができる。

把持画像は、手、ロボットの爪、より一般的な任意の把持手段等の種々の手段によって把持可能な物体を表し得る。

把持画像が物体を把持する手を示す場合に実施される実施形態では、ステップＳ１３０において、検出された物体の少なくとも１つの把持点の二次元位置は、手の姿勢を求めることで決定される。

上に規定された方法では、ローカル記述子は様々な態様をとり得る。ローカル記述子は、検出された特徴を示す、画像のサブ画像にすることができる。代替例として、ローカル記述子は、画像のサブ画像に基づく他の任意の特徴的情報とすることができ、これは、物体の異なる画像に亘って特徴を追跡するために使用可能である。例えばローカル記述子は、サブ画像の強度勾配を示すヒストグラム、又はサブ画像で表される形状特徴を特徴付けるのに適した他の情報データであり得る。形状情報は例えば、「ＳＩＦＴ機能」（「スケール不変特徴変換」）であり得る。形状情報を抽出してローカル記述子を取得する方法は、例えば、David.G.Loweの、刊行物「Distinctive Image Features from Scale-Invariant Keypoints」（International Journal of Computer Vision, 91-110, 2004）に開示されている。

上に規定された方法では、三次元情報はステップＳ１４０で決定される。物体に関するこの三次元情報は、任意の既知の方法によって取得可能である。例えば、それは、ステレオビジョンを使用して、及び／又は検出された物体の三次元情報又は深度情報を求めることができる三次元測定装置が提供する情報に基づいて、取得することができる。

物体に関する「三次元（３Ｄ）情報」とは、物体の一部又は全体の３Ｄモデルを指す。三次元情報は、例えば深度マップ、クラウドのポイント、三角形のメッシュ等、様々な態様をとり得る。三次元情報は、好ましくは、少なくとも物体の各把持点の近傍の三次元情報を含むべきである。

上に規定された方法では、把持点の三次元位置が決定される。これらの三次元位置は、特に、物体に関する三次元情報を使用して、ステップＳ１３０で決定された物体表面上の把持点の二次元位置を（仮想的に）投影することで決定可能である。例えば、把持点の三次元位置は、カメラの光学中心を通る直線（物体及び把持画像を取得したときと同じ位置にあると想定される）と、把持点の二次元位置と、物体の三次元情報又は三次元モデルによって定義された物体表面との交点として決定可能である。このことは、把持点が把持点画像に現れるカメラ画像の点を、物体の表面上に投影することに相当する。

実施形態では、方法はさらに、物体の少なくとも１つの把持点の法線、ローカル参照フレーム及び／又は把持パターンを決定するステップＳ１６０をさらに含む。

考慮されている把持点でのローカル参照フレームは、例えば、把持点での法線ベクトルＸである第１のベクトル、把持点を通過する水平ベクトルＹである第２のベクトル、及び、第１のベクトルと第２のベクトルのベクトル積である第３のベクトルを含む、ベクトルのトリプレットであり得る。

後述するように、上記の方法で得られたデータベースを使用することにより、ローカル記述子を効率的に使用して、画像で検出された物体の実際の三次元位置、ローカル参照フレーム、及び把持点の把持パターンを決定することができる。

本開示の第二の態様によれば、把持点及び把持パターンのデータベース作成システムが、上述の方法を実行するために提案される。

このシステムは、１つ以上のプロセッサ及びメモリを有する。メモリは、指示を保存し、この指示を１つ以上のプロセッサが実行することで、少なくとも１つのプロセッサは、
物体を表す物体画像を受け取り、
少なくとも１つの把持点で把持されている物体を表す把持画像を受け取り、
物体画像及び把持画像は、物体に対して同じ視点から取得され、
少なくとも１つのプロセッサは、物体画像に基づいて、
物体及び該物体の形状特徴を検出し、
検出された物体の形状特徴のローカル記述子及び二次元位置を決定し、
把持画像において、検出された物体の少なくとも１つの把持点の二次元位置を決定し、
物体に関する三次元情報を決定し、
ステップＳ１３０で決定された少なくとも１つの把持点の二次元位置と、物体に関する三次元情報とに基づいて、物体の少なくとも１つの把持点の三次元位置を決定し、
物体に関する把持点のレコードをデータベースに保存し、このレコードは、検出された物体の形状特徴の決定されたローカル記述子及び決定された二次元位置と、物体の少なくとも１つの把持点の二次元位置及び三次元位置とを含む。

実施形態では、メモリに保存された指示が少なくとも１つのプロセッサによって実行されたときに、システムは、物体の少なくとも１つの把持点の法線、ローカル参照フレーム及び／又は把持パターンを決定する。

把持画像が物体を把持する手を示す実施形態では、メモリに保存された指示が少なくとも１つのプロセッサによって実行されたときに、システムは、検出された物体の少なくとも１つの把持点の二次元位置を、手のポーズを決定することにより決定する。

把持点が現れる画像に基づいて、物体の把持点の三次元位置を含む情報の取得を可能にする、上記の提案された方法及びシステムに加えて、物体の把持点の位置を決定するための方法及びシステムも提案される。

本開示の第三の態様によれば、それらのようなタスクのために、把持点決定方法が提案される。

この方法は、
Ｓ１０）シーン内の把持すべき物体を表すシーン画像を受け取るステップと、
Ｓ２０）シーン画像に基づいて、物体及び該物体の形状特徴を検出し、検出された物体の形状特徴のローカル記述子及び二次元位置を決定するステップと、
Ｓ３０）物体の把持点のレコードを含むデータベースに基づいて、少なくとも８対のローカル記述子を決定するステップであって、レコードは、物体の形状特徴のデータベースローカル記述子及びデータベース二次元位置と、物体の少なくとも１つの把持点のデータベース三次元位置とを含み、各対は、データベースの選択されたローカル記述子及びステップＳ２０で決定されたローカル記述子のうちの対応する選択されたローカル記述子からなり、データベースローカル記述子と決定されたローカル記述子との距離は最小である、ステップと、
Ｓ４０）選択されたデータベースローカル記述子を対応する選択されたローカル記述子に変換するレジストレーションを決定するステップと、
Ｓ５０）物体の少なくとも１つの把持点のデータベース三次元位置にレジストレーションを適用することにより、シーン画像において、物体の少なくとも１つの把持点の二次元位置を決定するステップと、
Ｓ６０）物体に関する三次元情報を決定するステップと、
Ｓ７０）ステップＳ５０で決定された、シーン画像内の少なくとも１つの把持点の二次元位置と、物体に関する三次元情報とに基づいて、物体の少なくとも１つの把持点の三次元位置を決定するステップと、を含む。

データベース作成方法と同様に、物体に関する三次元情報は任意の方法で取得可能である。例えば、この三次元情報は、ステレオビジョンを使用して、かつ／又は、物体の深度情報を求めることができる三次元測定装置を使用して取得可能である。この三次元情報は例えば、シーン画像に表示されている物体の各ポイントの深度情報を含む深度マップであり得る。

提案された上記方法のステップＳ３０において、データベースの把持点レコードのデータベースローカル記述子と、検出されたオブジェクトについてステップＳ２０で決定された対応するローカル記述子との間の最小距離（すなわち、最も近いこと）を示すローカル記述子の最適な対が決定される。ローカル記述子のこれらの最適な対が見つかると、それらは、物体に対して予め識別され、把持点レコードのデータベースに保存されたローカル形状特徴のサブセットと、ローカルステップＳ２０で決定された、形状特徴から選択された対応するローカル形状特徴のセットとの間の対応関係を規定する。

ステップＳ４０ではレジストレーションが決定され、該レジストレーションは、把持点レコードのローカル記述子、及びステップＳ２０で決定された対応するローカル記述子を変換する。レジストレーションは、座標系の変更を規定する。この場合、ステップＳ４０で決定されたレジストレーションは、物体を、把持点レコードに基づく位置から、シーン画像内のカメラに対する物体の位置に移動させる座標系の変更（すなわち、回転と並進の組み合わせ）を規定する。

このレジストレーションを決定できるようにするには、対応するローカル記述子の少なくとも８つの対を特定する必要がある。これらの対の各々は、データベースで見つかった物体のローカル記述子を、ステップＳ２０で決定された、検出された物体の対応するローカル記述子に関連付ける。その結果、それ自体が知られているように、次に、データベースの把持点レコードに対応する位置から、シーン画像内で物体が占める位置に、物体を移動させるレジストレーションを決定することができる。

実施形態では、対応するローカル記述子は、ステップＳ３０において、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定される。

実際、この実施形態では、第１の操作において、互いに対応するローカル記述子の対（データベースからの１つのローカル記述子、及びシーン画像で識別される１つのローカル記述子）が決定される。この決定は、最近傍法を使用して行われる。先ず、データベースに保存されているデータがＫ次元（Ｋ－Ｄ）ツリーに記憶される。次に、Ｋ－Ｄツリーを使用して、識別されたローカル記述子の最近傍が検索される。この検索により、特定の数のローカル記述子の対が得られる。

次に、第２の操作において、ＲＡＮＳＡＣアルゴリズムを使用して、これらの選択されたローカル記述子の対から外れ値を削除する。この場合、２つの画像（つまり、把持点レコードが派生するデータベースの画像、及びシーン画像）の、正しく対応する二次元位置の全ては、エピポーラ幾何学平面上にある。逆に、外れ値データはエピポーラ幾何学平面上にない。その結果、ＲＡＮＳＡＣアルゴリズムを使用して外れ値データを見出すことができる。このアルゴリズムは、データポイントをランダムにピックアップし、幾何学的制約を重視するか否かをテストする。このようにしてデータをフィルタリングすることにより、データベースの把握点レコードに使用する画像と、現在の画像（シーン画像）とが選択可能になる。

最後に、第３の操作において、第２の操作で選択されたデータベースのローカル記述子を、同じく第２の操作で選択されたシーン画像の対応するローカル記述子に変換するレジストレーションが決定される。このレジストレーションは、８点アルゴリズム又はそれと同等のアルゴリズムを使用して、周知のように計算される。

有利なことに、レジストレーションを決定するための上記の方法は高速であり、非常に満足な結果を提供する。

有利なことに、提案された方法によって取得可能な情報は、把持点の三次元位置に限定されない。

実際、実施形態では、この方法は、法線ベクトル、ローカル参照フレーム、及び／又は少なくとも１つの把持点での把持パターンを決定するステップＳ８０をさらに含む。

検討中の把持点でのローカル参照フレーム（例えば、Ｘ′、Ｙ′及びＺ′の各々が三次元ベクトルであるトリプレット（Ｘ′，Ｙ′，Ｚ′））は、例えば、把持点レコードのデータベースに保存されている、把持点のローカル参照フレーム（Ｘ、Ｙ、Ｚ）に基づいて計算可能である。

ステップＳ４０で決定されたレジストレーション（回転（３×３の回転行列ｒｏｔ）及び並進ベクトルｈ（３×１）によって規定される）は、把持点のローカル参照フレーム（Ｘ，Ｙ，Ｚ）に適用される。

従って、検討中の把持点のローカル参照フレーム（Ｘ′，Ｙ′，Ｚ′）は、以下から得られる。
Ｘ′＝ｒｏｔ×Ｘ＋ｈ；Ｙ′＝ｒｏｔ×Ｙ＋ｈ；Ｚ′＝ｒｏｔ×Ｚ＋ｈ

上記の方法を実施するために、把持点決定システムがさらに提案される。故にこのシステムは、物体の把持点の三次元位置を決定するためのシステムである。

このシステムは、１つ以上のプロセッサ及びメモリを有する。メモリは、物体の把持点のレコードを含むデータベースを保存し、この把持点のレコードは、物体の形状特徴のデータベースローカル記述子及びデータベース二次元位置と、物体の少なくとも１つの把持点のデータベース三次元位置とを含む。データベースはさらに、把持点での物体の形状を表すローカル参照フレーム、及び／又は、把持点で物体と接触するために追従可能な軌跡を表す把持パターンを含み得る。

さらに、メモリは指示を保存し、１つ以上のプロセッサによる指示の実行によって、１つ以上のプロセッサが、
シーン内の把持すべき物体を表すシーン画像を受け取り、
シーン画像に基づいて、把持すべき物体及び該物体の形状特徴を検出し、検出された物体の形状特徴のローカル記述子及び二次元位置を決定し、
データベースに基づいて、少なくとも８対のローカル記述子のマッチングセットを決定し、各対は、データベースの選択されたローカル記述子及びステップＳ２０で決定されたローカル記述子のうちの対応する選択されたローカル記述子からなり、ローカル記述子の対は最適な適合を実現、すなわちデータベースローカル記述子と決定されたローカル記述子との距離を最小化し、
１つ以上のプロセッサは、
選択されたデータベースローカル記述子を対応する選択されたローカル記述子に変換するレジストレーションを決定し、
物体の少なくとも１つの把持点のデータベース三次元位置にレジストレーションを適用することにより、シーン画像において、物体の少なくとも１つの把持点の二次元位置を決定し、
物体に関する三次元情報を決定し、
ステップＳ５０で決定された、シーン画像内の少なくとも１つの把持点の二次元位置と、物体に関する三次元情報とに基づいて、物体の少なくとも１つの把持点の三次元位置を決定する。

この方法では、ステップＳ２０において、メモリに保存された命令が１つ以上のプロセッサによって実行されると、１つ以上のプロセッサは、好ましくは８点アルゴリズムを使用して、対応するローカル記述子の対を特定する。

実施形態では、指示はメモリに保存され、指示が１つ以上のプロセッサによって実行されると、１つ以上のプロセッサは、対応するローカル記述子の対を、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定する。

実施形態では、指示はメモリに保存され、指示が１つ以上のプロセッサによって実行されると、１つ以上のプロセッサは、物体の少なくとも１つの把持点の法線、又はローカル参照フレーム、及び／又は把持パターンを決定する。

特定の実施では、上記の提案された方法は、コンピュータプログラムの指示によって規定される。

よって本開示の他の目的は、コンピュータが読み取り可能な記録媒体に保存され、コンピュータでの実行に適したコンピュータプログラムを提案することであり、プログラムは、コンピュータで実行されたときに上記の提案された方法のステップを実行するように構成された指示を含む。

コンピュータプログラムは、好ましくは、非一時的なコンピュータ可読記憶媒体に記憶される。コンピュータプログラムは、任意のプログラミング言語を使用することができ、ソースコード、オブジェクトコード、又はソースコードとオブジェクトコードとの中間のコード（部分的にコンパイルされた形式、又はその他の望ましい形式等）の形式にすることができる。コンピュータは、任意のデータ処理手段、例えば、パーソナルコンピュータ、自動車に搭載されるように構成された電子制御ユニットであり得る。

本開示はまた、上述のコンピュータプログラムの命令を含むコンピュータ可読記録媒体を含む。コンピュータ可読媒体は、プログラムを保存できる任意のエンティティ又はデバイスであり得る。例えば、コンピュータ可読媒体は、例えばコンパクトディスク（ＣＤ）ＲＯＭ若しくは超小型電子回路ＲＯＭ等の読み取り専用メモリ（ＲＯＭ）、又は、例えばフロッピーディスク若しくはハードディスク等の実際の磁気記録手段等の記憶手段を有し得る。或いは、コンピュータ可読媒体は、プログラムが組み込まれた集積回路でもよく、この回路は、問題の制御方法の実行、又は実行するための使用に適している。

本発明はさらに理解可能であり、その多くの他の目的及び利点は、添付の図面を参照することで当業者に明らかになるであろう。いくつかの図面では、同じ参照符号は同様の要素を示す。

本開示に係る把持点データベース作成システム及び把持点・把持パターン決定システムの例としてのロボットを示す図である。図１のロボットの電子制御ユニットの概略図である。本開示の実施形態における、把持点データベース作成方法のステップを示すブロック図である。本開示の実施形態における、把持点決定方法のステップを示すブロック図である。図１のロボットによって撮影されるスタンドに配置された、データベース内の物体のレコードを作成するために把持点を決定する必要がある物体の概略図である。図５の物体の画像の概略図であって、局所的な形状特徴の検出を示す。手で把持されたときの、図６の物体の画像の概略図である。把持点を決定する必要がある物体の画像の概略図であって、形状特徴の検出を示す。図６のデータベース画像のローカル記述子、及び図８の現在の画像のローカル記述子の、対応する対の特定を示す概略図である。図８の画像の概略図であり、把持点について決定された三次元Ｄ位置、ローカル参照フレーム及び把持パターンを示す。

図１は、物体を把持するため、かつ／又は物体に関する二次元（２Ｄ）情報及び／又は三次元（３Ｄ）情報を取得するために使用されるロボット１００を示す。図１では、おもちゃの車ＯＧを把持するロボット１００が示されている。

ロボット１００は、スタンド１５０に搭載されている。これは、データ取得アーム１１０、把持アーム１２０、及び電子制御ユニット（ＥＣＵ）１３０を含む。

データ取得アーム１１０は、その上に取り付けられた３Ｄスキャナ１１５を有する。

３Ｄスキャナ１１５は、２つのカメラ１１７及び１１９を有する深度センサである。これは、ステレオビジョンアルゴリズムを使用して深度情報を取得し、カメラ１１７の画像と同じ解像度の深度マップを出力する。カメラ１１７が出力した任意の画像について、３Ｄスキャナ１１５は、カメラが出力した画像の各ピクセルの深度情報（ｚ）を含む、対応する深度マップを出力することができる。

カメラ１１７及び１１９は、通常のＣＣＤカメラ又はＣＭＯＳカメラである。これらは、把持すべき物体、又は把持点を特定する必要のある物体の画像を取得するためだけに使用することもできる。

把持アーム１２０は、爪１２５を有し、爪内の物体を把持するように構成されている。

ＥＣＵ１３０の実体的な構造を図２に示す。

ＥＣＵ１３０は、コンピュータのハードウェアアーキテクチャを有する。ＥＣＵ１３０は、１つ以上のプロセッサ１３２、データメモリ又はストレージ１３４、プログラムメモリ１３６を備える。データメモリ１３４は、以下に詳述するデータベースＤを備える。

プログラムメモリ１３６は、オペレーティングシステム及び種々のアプリケーションを有する。

これらのアプリケーションは、特に、物体識別プログラムＯＩ、ローカル形状特徴検出プログラムＬＦＤ、手の姿勢識別プログラムＨＰＩ、及び３Ｄ情報決定プログラム３ＤＩＤを含む。

物体識別プログラムＯＩは、１つ以上の画像内の物体を検出できるプログラムである。周知のように、このプログラムは、例えば、物体検出用に特別にトレーニングされたディープニューラルネットワークとすることができる。物体識別プログラムＯＩは、把持点を検出すべき物体を識別することができる（この場合、識別するように訓練されている）。

物体識別プログラムＯＩはさらに、画像で検出された物体の顕著な形状特徴を検出できる。本実施形態では、各形状特徴について、プログラムＯＩは、検出された形状特徴を示すサブ画像を返す。

画像内の物体の形状特徴を識別してローカル記述子を計算するために、物体識別プログラムＯＩは、Ｏｒｂ、Ｂｒｉｓｋ、Ｋａｚｅ等の適切な方法を利用できる。周知のように、例えばこのプログラムは、特徴検出のために特別に訓練されたディープニューラルネットワークであり得る。

物体の形状特徴が検出されると、ローカル特徴検出プログラムＬＦＤは、識別された全ての形状特徴のローカル記述子を計算する。

つまり、プログラムＯＩによって識別される各形状特徴について、ローカル特徴記述プログラムＬＦＤは、この形状特徴のローカル記述子を計算し、この形状特徴の２Ｄ位置を決定する。

本実施形態では、プログラムＬＦＤによって計算されたローカル記述子は、それぞれの形状特徴を示すサブ画像の強度勾配を示すヒストグラムである。もちろん、他のタイプのローカル記述子を使用して、提案された方法を実行することができる。例えば、形状特徴情報は、ニューラルネットワーク等によって決定された情報データであり得る。

プログラムＬＦＤによって決定された形状特徴の２Ｄ位置は、画像内では、形状特徴を示すサブ画像の中心の２Ｄ位置に過ぎない。例えば、画像Ｉ１で識別された第１の形状特徴ＬＤ_ＯＤ１についての（ｕ１，ｖ１）、第２の形状特徴ＬＤ_ＯＤ２についての（ｕ２，ｖ２）等である。

手の姿勢識別プログラムＨＰＩは、把持画像に基づいて、画像内の手の３Ｄ位置を出力可能なプログラムである。プログラムＨＰＩが出力する手の３Ｄ位置は、特に、指の様々な指部分に対応する一組の線分を含む。手の姿勢識別プログラムはさらに、手が物体を把持しているか否かを決定し、その場合、手が物体を把持している把持点を決定するように構成される。

プログラムＨＰＩは、例えば、Y. Hasson、G. Varol、D. Tzionas、I. Kalevatykh、M. Black、I. Laptev、C. Schmidによる刊行物「Learning joint reconstruction of hands and manipulated objects」 CVPR 2019に開示されているアルゴリズムに基づくことができる。

３Ｄ情報決定プログラム３ＤＩＤは、物体に関する３Ｄ情報を出力できるプログラムである。一般的に言えば、そのような情報は通常、物体（又は物体の一部）の三次元モデルであり得る。故に、物体に関する３Ｄ情報は、３Ｄ点（３Ｄ座標によって定義される点）のクラウド、三角形のメッシュ等であり得る。

本実施形態では、３Ｄ情報決定プログラム３ＤＩＤは、カメラ１１７及び１１９の一対の画像を使用するステレオビジョンアルゴリズムに基づいて、カメラ１１７及び１１９の双方の画像に見える物体の部分の深度マップを出力するように構成される。本明細書では、深度マップは、３Ｄ点のマトリックスを形成するように空間的に編成された３Ｄ座標の組として定義される。

このようにして得られた深度マップは、物体の３Ｄ情報を構成する。

またＥＣＵ１３０のメモリ１３６に含まれるアプリケーションは、コンピュータプログラムＰ１を含み、Ｐ１は、プログラムＯＩ、ＬＤ及びＨＰＩによって出力された情報に基づいて、物体について識別された、様々な把持点ＧＰの２Ｄ位置、３Ｄ位置、ローカル参照フレーム、及び把持パターンを決定し、データベースＤに保存する。

またこれらのアプリケーションは、コンピュータプログラムＰ２を含み、Ｐ２は、ロボット１００を制御し、カメラ１１７が出力した画像を処理して、ロボット１００の前に配置された物体の把持点ＧＰを特定することができる。

プログラムＯＩ、ＬＦＤ及び３ＤＩＤの実行は、プログラムＰ１及び／又はＰ２によってトリガされる。従ってこれらのプログラムは、プログラムＰ１及びＰ２の一部と見なすことができる。

プログラムＰ１及びＰ２、並びにプログラムメモリ１３６は、それぞれ、本開示に係るコンピュータプログラム及びコンピュータ可読記録媒体の例である。ＥＣＵ５０のメモリ１３６は、実際には、本発明に係る記録媒体を構成し、プロセッサ１３２によって読み取り可能であり、プログラムＰ１及びＰ２を保存する。

ここで、プログラムＰ１及びＰ２を実行することによってそれぞれ実現されるロボット１００の２つの主要な機能を示す。
（１）物体の把持点の２Ｄ位置及び３Ｄ位置が、画像内の物体の形状特徴のローカル記述子及び２Ｄ位置とともに記録される、把持点レコードのデータベースＤの作成。
（２）物体を検出できる画像をロボット１００が取得する際の、物体の把持点のそれぞれの位置、ローカル基準フレーム及び把持パターンの決定。

（１）物体の把持点のデータベースＤの作成
プログラムＰ１が実行されるとき、ロボット１００は、把持点及び把持パターンの識別システムとして使用される。

この動作モードでは、物体の各把持点の３Ｄ位置、ローカル参照フレーム及び把持パターンに関する情報を含むデータベースＤを構築するために、ロボット１００が使用される。

ロボットを使用して、画像で識別された複数の物体のそのような情報を同時に決定できる。

データベースが完成すると、データベースに記録された物体ＯＤごとに、データベースはレコードを含む。該レコードは、物体の把持点ＧＰ_ＯＤを含む把持点セットと、物体の複数の形状特徴のうちの各特徴についての、物体画像内の形状特徴の２Ｄ位置、形状特徴を記述するローカル記述子、及び形状特徴を示すサブ画像と、各把持点についての、その３Ｄ位置、把持点でのローカル参照フレーム、及び把持点での把持パターンと、を含む。

データベースＤは、ロボット１００によって以下のように作成可能である（一例として、おもちゃの車ＯＤの把持点を取得しなければならない場合の手順を提示する）。

把持点を記録する必要がある物体ＯＤごとに、手順は以下のステップを含む（図３）。
Ｓ１００）先ず、物体をロボット１００の前に置く。ここでは、おもちゃの車ＯＤをロボットの前のスタンドに置く（図５）。
Ｓ１１０）次に、物体の画像Ｉ１をカメラ１０で取得する（図６）。この画像Ｉ１は、物体画像であり、物体のいかなる部分も遮られることなく、物体全体を示す。

次に、物体ＯＤがハンド（図７の手１４０）で把持される。手１４０の位置は、物体ＯＤの把持に便利な把持点ＧＰで物体と接触するように選択される。このとき、手１４０が動かずに物体を把持すると、カメラ１０により把持画像Ｉ２が取得される。この画像Ｉ２は、物体ＯＤと、物体を把持する手１４０とを示しており、物体ＯＤに対して、物体画像Ｉ１と同じ視点から取得される。

画像Ｉ１及びＩ２は、ＥＣＵ５０に送られる。
Ｓ１２０）次に、物体ＯＤ及びその最も顕著な形状特徴、さらに各形状特徴について、形状特徴を記述し又は特徴付けるローカル記述子及び２Ｄ位置が、物体画像Ｉ１に基づいてＥＣＵ５０によって決定される。この決定は、以下のステップを実行することで行われる。
Ｓ１２１）第一に、プログラムＯＩを使用して、ＥＣＵ５０が画像Ｉ１、Ｉ２に表示される物体を検出する。ここでは、プログラムＯＩは、検出された物体ＯＤのタイプ（又は識別子）とそのバウンディングボックスとを画像Ｉ１に出力する。

プログラムＯＩはさらに、検出された物体の顕著な形状特徴を検出し、それら形状特徴の各々について、画像Ｉ１の形状特徴を示す対応するサブ画像と、サブ画像（そのバウンディングボックス）の２Ｄ位置とを出力する。

以降、１つの物体（おもちゃの車ＯＤ）のみが検出されると想定するが、画像Ｉ１で複数の物体が同時に検出された場合は、以下の手順が適用され得る。ここでは、以下のステップは、画像で検出された物体ごとに、並行して、又は少なくとも別々に実行される。
Ｓ１２２）第二に、物体画像Ｉ１に基づいて、かつローカル形状特徴検出プログラムＬＦＤを使用して、検出された物体ＯＤの各形状特徴について、ＥＣＵ５０が、物体ＯＤの形状特徴のローカル記述子及び２Ｄ位置を計算する（図６）。
Ｓ１３０）次に、把持画像Ｉ２に基づいて、ＥＣＵ５０が、手が物体を把持する把持点の２Ｄ位置を決定する。ここでは、単一の把持点ＧＰが識別される。

この目的のために、手の姿勢識別プログラムＨＰＩを使用して、ＥＣＵ５０は、物体ＯＤを把持する手１４０の位置を決定し（図８）、これに基づいて、把持点ＧＰの画像Ｉ２における２Ｄ位置を決定する。
Ｓ１４０）ロボット１００は、物体ＯＤの一部の深度マップを、（物体ＯＤに関する３Ｄ情報として）決定する。この目的のため、カメラ１１９は、第２の物体画像Ｉ１′も取得し、この画像では物体は、ロボットに対して画像Ｉ１と同じ位置にある。深度画像は、画像Ｉ１及びＩ１′に基づいてステレオビジョンによって計算される。もちろん、深度マップは、画像Ｉ１及びＩ１′の双方に表示される物体の部分のみを含む。
Ｓ１５０）次に、この３Ｄ情報（深度マップ）に基づいて、ＥＵＣ５０は、把持点ＧＰの３Ｄ位置を決定する。この３Ｄ位置は、把持点ＧＰの画像Ｉ２において決定された２Ｄ位置に対応する、物体の表面上の点の位置（ｘ，ｙ，ｚ）である。
Ｓ１６０）なおＥＣＵ５０は、把持点ＧＰにおいてローカル参照フレームを決定する。この目的のため、ＥＣＵ５０は先ず、物体ＯＤの深度マップを使用して、物体の表面の点ＧＰにおける法線ベクトルＸを計算する。次にＥＣＵ５０は、点ＧＰを通る水平ベクトルＹを計算する（水平面はロボット１００によって既知であり、故に物体の３Ｄモデルは水平方向に対して参照される）。最後にＥＣＵ５０は、ローカル参照フレームの第３のベクトルＺを、ベクトルＸ及びＹのベクトル積として計算する。

なお把持パターンは、把持点ＧＰにおいて計算される。ＥＣＵ５０は、爪１２５の指が把持点ＧＰにおいて物体ＯＤと接触するために使用可能な軌跡を決定する。この軌跡は、爪１２５の指が最終的に把持点で物体ＯＤに接触したときに、この点で物体ＯＤの表面に垂直な軌道に指が追従するような軌跡である。
Ｓ１７０）最後に、ＥＣＵ５０は、検出された物体ごとに、データベース内に把持点レコードを作成する。データベースＤには、検出された物体ＯＤについて、把持点レコードが保存され、把持点レコードは、物体ＯＤについて検出された把持点ＧＰの２Ｄ位置及び３Ｄ位置を含む把持点の組と、検出された全ての形状特徴について検出されたローカル記述子ＬＤ_ＯＤｊ及び２Ｄ位置とを含む。

複数の異なる物体の把持点レコードをデータベースＤに保存すべき場合は、物体ＯＤのタイプが、物体の把持点レコードにさらに記録される。

物体画像Ｉ１で検出されたいくつかの物体では、検出された物体ごとに上記の操作（ステップＳ１１０～Ｓ１７０）が繰り返される。

（２）物体の把持点の位置の決定
データベースＤが作成されると、物体がロボットの周囲で識別されるとき（つまり、ロボットのカメラによって取得された、ロボット周囲のシーンを表すシーン画像内で物体が識別されるとき）に、ロボット１００を使用して物体の把持点を決定することができる。

もちろん、物体の把持点を決定するために、データベースは、物体をシーン内で視認定できる視点と同様の視点から取得された、物体の把持点レコードを含む必要がある。

ここでは、物体の把持点の３Ｄ位置及び把持パターンは、次の手順で決定できる。

一例として、物体がロボットの以前の操作モードのものと同じおもちゃの車であり、ここではＯＧ（把持すべき物体）として参照されている場合の手順を以下に示す。
Ｓ００）先ず、物体（おもちゃの車ＯＧ）をロボット１００の前に配置する（図５）。

データベースＤが物体の単一の把持点レコードを含む場合、ステップＳ００において、カメラ１１５が物体ＯＧに対して、把持点レコード内の物体に対するこのカメラの視点と実質的に同じ視点になるように（但し、最大約３０°の差は許容できる）、物体がカメラ１１５に対して配置されなければならない。この制約は、カメラ１１７が取得した画像において、物体ＯＧの把持点レコードに記録されているように、物体ＯＤの形状特徴を識別できることを意味する。

逆に、データベースＤが、異なる視点から取得された物体のいくつかの把持点レコードを含む場合は、カメラ１１５が物体ＯＧに対して、それらの把持点レコードの１つにおけるこのカメラの視点と実質的に同じ視点になるように物体を配置しなければならない。

従って、データベースＤが、物体の周囲の複数の視点から取得された物体の把持点レコードを含む場合は、物体は、ステップＳ００において、ほぼ任意の位置でカメラの前に配置可能である。
Ｓ１０）次に、シーン画像Ｉ３がカメラ１０によって取得され、物体ＯＧが画像内に明瞭に表示される。画像Ｉ３はＥＣＵ５０に送信される。

シーン画像Ｉ３を、物体ＯＤの把持点レコードを作成するために使用された物体画像Ｉ１と均質化するために、前処理操作を予め実行してもよい。
Ｓ２０）次に、画像Ｉ３において以下の操作が実行される。
Ｓ２１）第一に、プログラムＯＩを使用して、ＥＣＵ５０が、１つ以上の物体が画像Ｉ３に表示されているか否かを検出する。ここでは、おもちゃの車ＯＧがシーン画像Ｉ３で検出される。ＯＩプログラムは、検出された物体ＯＧのタイプ（又は識別子）と、その境界ボックスＢＢ_ＯＧとを画像Ｉ３に出力する。

プログラムＯＩは、検出された物体ＯＧの顕著な形状特徴をさらに検出し、これらの特徴の各々について、画像Ｉ３の形状特徴を示す対応するサブ画像と、サブ画像の２Ｄ位置（そのバウンディングボックス）とを出力する。

以降、１つの物体（おもちゃの車ＯＤ）のみが検出されると想定する）が、画像Ｉ１で複数の物体が同時に検出された場合は、以下の手順が適用され得る。ここでは、以下のステップは、画像で検出された物体ごとに、並行して、又は少なくとも別々に実行される。
Ｓ２２）第二に、シーン画像Ｉ３に基づいて、ローカル特徴検出プログラムＬＦＤを使用して、検出された物体ＯＤの各特徴について、ＥＣＵ５０が、物体ＯＧの形状特徴のローカル記述子及び２Ｄ位置を計算する。

次に、プログラムＰ２がデータベースＤにアクセスする。

プログラムＰ２は、データベースＤのどの把持点レコードが物体ＯＧに関連しているかを決定する。
Ｓ３０）次に、物体ＯＧのデータベースＤに存在する把持点レコードに基づいて、ＥＣＵ５０が、互いに最もよく対応するローカル記述子の対を決定します。すなわちＥＣＵは、最適なフィット（つまり、形状特徴空間における最小距離）を実現するローカル記述子の対を決定する（各対は、物体の把持点レコード内のローカル記述子レコードと、画像Ｉ３で検出された形状徴のローカル記述子とを含む）。

より具体的には、ＥＣＵは、そのようなローカル記述子の対を少なくとも８つ含む組を決定する。これらは、各対の２つの部材が良好に対応していること示し、それらの全てが物体の把持点の同じレコード（物体に対するカメラ１１７の視点に対応するレコード）に属する。

図１０に示すように、特定されたローカル記述子の対は、物体ＯＤの把持点レコードに記録されたローカル記述子ＬＤ_ＯＤｉと、対応する選択されたローカル記述子ＤＬＤ_ＯＧｊとに関連する。ローカル記述子ＤＬＤ_ＯＧｊは、シーン画像Ｉ３で決定されたローカル記述子から選択される（ｉ、ｊはそれぞれ、把持点レコードのローカル記述子、及び検出されたローカル記述子のインデックスである）。

上述したように、ローカル記述子の対は、プログラムＰ２によって、最近傍法を実行し、次にＲＡＮＳＡＣ法を適用することによって決定される。
Ｓ４０）次に、レジストレーションが決定され、これは、ステップＳ３０で識別されたローカル記述子の各対について、選択されたデータベースローカル記述子ＬＤ_ＯＤｉを、対応する選択されたローカル記述子ＬＤ_ＯＧｊに変換する。
Ｓ５０）次に、シーン画像Ｉ３において物体の把持点ＧＰの２Ｄ位置が決定される。この２Ｄ位置は、ステップＳ４０で決定されたレジストレーションを、データベースＤに記録された物体の把持点ＧＰの３Ｄ位置に適用することで決定される。この変換は、カメラ１１７の座標系（画像シーンＩ３の視点）における３Ｄ位置を出力する。次に、この３Ｄ位置は、ｚを無視し、画像Ｉ３の２Ｄ座標のみを使用することにより、シーン画像Ｉ３の２Ｄ位置に変換される。
Ｓ６０）次に、ステップＳ１４０のように、ロボット１００は、３Ｄスキャナ１１５を使用して、画像Ｉ３に表示されている物体ＯＤの深度マップを決定する。
Ｓ７０）次に、ＥＣＵ５０は、物体ＯＧの把持点ＧＰの３Ｄ位置を決定する。この３Ｄ位置は、物体表面の点の位置（ｘ，ｙ，ｚ）であり、ステップＳ５０で決定された把持点ＧＰの２Ｄ位置に対応する。
Ｓ８０）さらに、ＥＣＵ５０は、把持点ＧＰにおけるローカル参照フレーム及び把持パターン（図１０のＬ）を決定する。ローカル参照フレーム及び把持パターンは、ステップＳ４０で決定されたレジストレーションを、データベースＤの物体の把持点レコードに記録された把持点のローカル参照フレーム及び把持パターンに適用することで得られる。
Ｓ９０）次に、ＥＣＵ５０は、物体ＯＧのデータベース内に把持点レコードを作成する。データベースＤに保存される把持点レコードは、
物体ＯＧについて検出された２Ｄ位置、３Ｄ位置、ローカル参照フレーム、及び把持パターンを含む把持点セットと、
検出された全ての形状特徴のローカル記述子ＬＤ_ＯＧｊ及び２Ｄ位置と、を含む。

複数の異なる物体の把持点レコードをデータベースＤに記録すべき場合は、物体ＯＤのタイプが物体の把持点レコードにさらに記録される。

シーン画像Ｉ３で検出された物体が複数ある場合は、物体ごとに上記の操作（ステップＳ１０～Ｓ９０）が繰り返される。
［構成１］
把持点のデータベースを作成する方法であって、
Ｓ１１０）物体を表す物体画像（Ｉ１）を受け取り、少なくとも１つの把持点（ＧＰ _ＯＤ１）で把持されている物体を表す把持画像（Ｉ２）を受け取るステップであって、前記物体画像及び前記把持画像は、前記物体に対して同じ視点から取得される、ステップと、
Ｓ１２０）前記物体画像（Ｉ１）に基づいて、前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ _ＯＤｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定するステップと、
Ｓ１３０）前記把持画像（Ｉ２）において、検出された前記物体の少なくとも１つの把持点（ＧＰ _ＯＤ）の二次元位置を決定するステップと、
Ｓ１４０）前記物体に関する三次元情報を決定するステップと、
Ｓ１５０）ステップＳ１３０で決定された少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ _ＯＤ１）の三次元位置を決定するステップと、
Ｓ１７０）前記物体に関する把持点のレコードをデータベース（Ｄ）に保存するステップであって、前記レコードは、検出された前記物体の前記形状特徴の決定されたローカル記述子（ＬＤ _ＯＤｉ）及び決定された二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））と、前記物体の少なくとも１つの把持点（ＧＰ）の二次元位置及び／又は三次元位置とを含む、ステップと、
を含む方法。
［構成２］
前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、ローカル参照フレーム（Ｘ，Ｙ，Ｚ）及び／又は把持パターン（Ｌ）を決定するステップＳ１６０をさらに含む、構成１に記載の方法。
［構成３］
前記把持画像は、前記物体を把持するハンド（１４０）を示し、ステップＳ１３０において、検出された前記物体の前記少なくとも１つの把持点（ＧＰ _ＯＤ）の二次元位置は、前記ハンドのポーズを決定することにより決定される、構成１又は２に記載の方法。
［構成４］
１つ以上のプロセッサ及びメモリを有する、把持点データベースの作成システムであって、
前記メモリは指示を保存し、前記１つ以上のプロセッサによる前記指示の実行によって、少なくとも１つのプロセッサが、
物体を表す物体画像（Ｉ１）を受け取り、
少なくとも１つの把持点（ＧＰ _ＯＤ１）で把持されている物体を表す把持画像（Ｉ２）を受け取り、
前記物体画像及び前記把持画像は、前記物体に対して同じ視点から取得され、
前記少なくとも１つのプロセッサは、
前記物体画像（Ｉ３）に基づいて、前記物体（ＯＤ）及び該物体の形状特徴を検出し、
検出された前記物体の前記形状特徴のローカル記述子（ＬＤ _ＯＤｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定し、
前記把持画像において、検出された前記物体の少なくとも１つの把持点（ＧＰ _ＯＤ）の二次元位置を決定し、
前記物体に関する三次元情報を決定し、
ステップＳ１３０で決定された少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ _ＯＤ１）の三次元位置を決定し、
前記物体に関する把持点のレコードをデータベース（Ｄ）に保存し、前記レコードは、検出された前記物体の前記形状特徴の決定されたローカル記述子（ＬＤ _ＯＤｉ）及び決定された二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））と、前記物体の少なくとも１つの把持点（ＧＰ）の二次元位置及び三次元位置とを含む、
作成システム。
［構成５］
前記指示が前記少なくとも１つのプロセッサによって実行されたときに、前記システムは、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、ローカル参照フレーム（Ｘ，Ｙ，Ｚ）及び／又は把持パターンを決定する、構成４に記載の作成システム。
［構成６］
前記指示が前記少なくとも１つのプロセッサによって実行され、かつ前記把持画像が前記物体を把持するハンド（１４０）を示しているときに、前記システムは、検出された前記物体の前記少なくとも１つの把持点（ＧＰ _ＯＤ）の二次元位置を、前記ハンドのポーズを決定することにより決定する、構成４又は５に記載の作成システム。
［構成７］
把持点を決定する方法であって、
Ｓ１０）シーン内の把持すべき物体を表すシーン画像（Ｉ３）を受け取るステップと、
Ｓ２０）前記シーン画像（Ｉ３）に基づいて、前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ _ＯＧｊ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定するステップと、
Ｓ３０）前記物体の把持点のレコードを含むデータベース（Ｄ）に基づいて、少なくとも８対のローカル記述子を決定するステップであって、前記レコードは、前記物体の形状特徴のデータベースローカル記述子（ＬＤ _ＯＤｉ）及びデータベース二次元位置と、前記物体の少なくとも１つの把持点（ＧＰ）のデータベース三次元位置とを含み、各対は、前記データベースの選択されたローカル記述子（ＬＤ _ＯＤｉ）及びステップＳ２０で決定されたローカル記述子のうちの対応する選択されたローカル記述子（ＬＤ _ＯＧｊ）からなり、データベースローカル記述子と決定されたローカル記述子（ＬＤ _ＯＧｉ）との距離は最小である、ステップと、
Ｓ４０）選択されたデータベースローカル記述子（ＬＤ _ＯＤｉ）を対応する選択されたローカル記述子（ＬＤ _ＯＧｊ）に変換するレジストレーション（Ｒ）を決定するステップと、
Ｓ５０）前記物体の少なくとも１つの把持点（ＧＰ _ＣＭＯ）のデータベース三次元位置に前記レジストレーション（Ｒ）を適用することにより、前記シーン画像において、前記物体の少なくとも１つの把持点（ＧＰ _ＯＧ）の二次元位置を決定するステップと、
Ｓ６０）前記物体に関する三次元情報を決定するステップと、
Ｓ７０）ステップＳ５０で決定された、前記シーン画像内の少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する前記三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ）の三次元位置を決定するステップと、
を含む方法。
［構成８］
対応するローカル記述子の対は、ステップＳ３０において、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定される、構成７に記載の方法。
［構成９］
ステップＳ７０において、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、又はローカル参照フレーム（Ｘ，Ｙ，Ｚ）、及び／又は把持パターンを決定することをさらに含む、構成７又は８に記載の方法。
［構成１０］
１つ以上のプロセッサ及びメモリを有する、物体の把持点（ＧＰ）の三次元位置を決定する把持点決定システムであって、
前記メモリは、前記物体の把持点のレコードを含むデータベースを保存し、前記把持点のレコードは、前記物体の形状特徴のデータベースローカル記述子（ＬＤ _ＯＤｉ）及びデータベース二次元位置と、前記物体の少なくとも１つの把持点（ＧＰ）のデータベース三次元位置とを含み、
前記メモリは指示を保存し、前記１つ以上のプロセッサによる前記指示の実行によって、前記１つ以上のプロセッサが、
シーン内の把持すべき物体を表すシーン画像（Ｉ３）を受け取り、
前記シーン画像（Ｉ３）に基づいて、把持すべき前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ _ＯＧｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定し、
前記データベースに基づいて、少なくとも８対のローカル記述子を決定し、
各対は、前記データベースの選択されたローカル記述子（ＬＤ _ＯＤｉ）及びステップＳ２０で決定されたローカル記述子のうちの対応する選択されたローカル記述子（ＬＤ _ＯＧｉ）からなり、データベースローカル記述子と決定されたローカル記述子（ＤＬＤ）との距離は最小であり、
前記１つ以上のプロセッサは、
選択されたデータベースローカル記述子（ＬＤ _ＯＤｉ）を対応する選択されたローカル記述子（ＬＤ _ＯＧｉ）に変換するレジストレーション（Ｒ）を決定し、
前記物体の少なくとも１つの把持点（ＧＰ _ＣＭＯ）のデータベース三次元位置に前記レジストレーション（Ｒ）を適用することにより、前記シーン画像において、前記物体の少なくとも１つの把持点（ＧＰ _ＯＧ）の二次元位置を決定し、
前記物体に関する三次元情報を決定し、
ステップＳ５０で決定された、前記シーン画像内の少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する前記三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ）の三次元位置を決定する、
把持点決定システム。
［構成１１］
前記指示は前記メモリに保存され、前記指示が前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサは、対応するローカル記述子の対を、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定する、構成１０に記載の把持点決定システム。
［構成１２］
前記指示は前記メモリに保存され、前記指示が前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサは、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、又はローカル参照フレーム（Ｘ，Ｙ，Ｚ）、及び／又は把持パターンを決定する、構成１０又は１１に記載の把持点決定システム。
［構成１３］
コンピュータが読み取り可能な記録媒体に保存され、コンピュータでの実行に適したコンピュータプログラムであって、前記コンピュータで実行されたときに構成１、２、３、７、８及び９のいずれか１つに記載の方法のステップを実行するように構成された指示を含む、コンピュータプログラム。
［構成１４］
構成１３に記載のコンピュータプログラムの指示を含む、コンピュータが読み取り可能な記録媒体。

Claims

把持点のデータベースを作成する方法であって、
Ｓ１１０）物体を表す第１の物体画像（Ｉ１）を受け取り、少なくとも１つの把持点（ＧＰ_ＯＤ１）で把持されている前記物体を表す把持画像（Ｉ２）を受け取るステップであって、前記第１の物体画像及び前記把持画像は、前記物体に対して同じ視点から取得される、ステップと、
Ｓ１２０）前記第１の物体画像（Ｉ１）に基づいて、前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ_ＯＤｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定するステップと、
Ｓ１３０）前記把持画像（Ｉ２）において、検出された前記物体の少なくとも１つの把持点（ＧＰ_ＯＤ）の二次元位置を決定するステップと、
Ｓ１４０）前記物体を表す第２の物体画像（Ｉ１′）を、前記物体に対して前記第１の物体画像（Ｉ１）及び前記把持画像（Ｉ２）と同じ視点から取得し、ステレオビジョンによって、前記第１の物体画像（Ｉ１）及び前記第２の物体画像（Ｉ１′）に基づいて、前記物体の一部の深度マップを前記物体に関する三次元情報として決定するステップと、
Ｓ１５０）ステップＳ１３０で決定された少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ_ＯＤ１）の三次元位置を決定するステップと、
Ｓ１７０）前記物体に関する把持点のレコードをデータベース（Ｄ）に保存するステップであって、前記レコードは、検出された前記物体の前記形状特徴の決定されたローカル記述子（ＬＤ_ＯＤｉ）及び決定された二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））と、前記物体の少なくとも１つの把持点（ＧＰ）の二次元位置及び／又は三次元位置とを含む、ステップと、
を含む方法。
前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、ローカル参照フレーム（Ｘ，Ｙ，Ｚ）及び／又は把持パターン（Ｌ）を決定するステップＳ１６０をさらに含む、請求項１に記載の方法。
前記把持画像は、前記物体を把持するハンド（１４０）を示し、ステップＳ１３０において、検出された前記物体の前記少なくとも１つの把持点（ＧＰ_ＯＤ）の二次元位置は、前記ハンドのポーズを決定することにより決定される、請求項１又は２に記載の方法。
１つ以上のプロセッサ及びメモリを有する、把持点データベースの作成システムであって、
前記メモリは指示を保存し、前記１つ以上のプロセッサによる前記指示の実行によって、少なくとも１つのプロセッサが、
物体を表す第１の物体画像（Ｉ１）を受け取り、
少なくとも１つの把持点（ＧＰ_ＯＤ１）で把持されている物体を表す把持画像（Ｉ２）を受け取り、
前記物体画像及び前記把持画像は、前記物体に対して同じ視点から取得され、
前記少なくとも１つのプロセッサは、
前記第１の物体画像（Ｉ１）に基づいて、前記物体（ＯＤ）及び該物体の形状特徴を検出し、
検出された前記物体の前記形状特徴のローカル記述子（ＬＤ_ＯＤｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定し、
前記把持画像において、検出された前記物体の少なくとも１つの把持点（ＧＰ_ＯＤ）の二次元位置を決定し、
前記物体を表す第２の物体画像（Ｉ１′）を、前記物体に対して前記第１の物体画像（Ｉ１）及び前記把持画像（Ｉ２）と同じ視点から取得し、ステレオビジョンによって、前記第１の物体画像（Ｉ１）及び前記第２の物体画像（Ｉ１′）に基づいて、前記物体の一部の深度マップを前記物体に関する三次元情報として決定し、
決定された少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ_ＯＤ１）の三次元位置を決定し、
前記物体に関する把持点のレコードをデータベース（Ｄ）に保存し、前記レコードは、検出された前記物体の前記形状特徴の決定されたローカル記述子（ＬＤ_ＯＤｉ）及び決定された二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））と、前記物体の少なくとも１つの把持点（ＧＰ）の二次元位置及び三次元位置とを含む、
作成システム。
前記指示が前記少なくとも１つのプロセッサによって実行されたときに、前記システムは、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、ローカル参照フレーム（Ｘ，Ｙ，Ｚ）及び／又は把持パターンを決定する、請求項４に記載の作成システム。
前記指示が前記少なくとも１つのプロセッサによって実行され、かつ前記把持画像が前記物体を把持するハンド（１４０）を示しているときに、前記システムは、検出された前記物体の前記少なくとも１つの把持点（ＧＰ_ＯＤ）の二次元位置を、前記ハンドのポーズを決定することにより決定する、請求項４又は５に記載の作成システム。
把持点を決定する方法であって、
Ｓ１０）シーン内の把持すべき物体を表すシーン画像（Ｉ３）を受け取るステップと、
Ｓ２０）前記シーン画像（Ｉ３）に基づいて、前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ_ＯＧｊ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定するステップと、
Ｓ３０）前記物体の把持点のレコードを含むデータベース（Ｄ）に基づいて、少なくとも８対のローカル記述子を決定するステップであって、前記レコードは、前記物体の形状特徴のデータベースローカル記述子（ＬＤ_ＯＤｉ）及びデータベース二次元位置と、前記物体の少なくとも１つの把持点（ＧＰ）のデータベース三次元位置とを含み、各対は、前記データベースの選択されたローカル記述子（ＬＤ_ＯＤｉ）及びステップＳ２０で決定されたローカル記述子のうちの対応する選択されたローカル記述子（ＬＤ_ＯＧｊ）からなり、データベースローカル記述子と決定されたローカル記述子（ＬＤ_ＯＧｉ）との距離は最小である、ステップと、
Ｓ４０）選択されたデータベースローカル記述子（ＬＤ_ＯＤｉ）を対応する選択されたローカル記述子（ＬＤ_ＯＧｊ）に変換するレジストレーション（Ｒ）を決定するステップと、
Ｓ５０）前記物体の少なくとも１つの把持点（ＧＰ_ＣＭＯ）のデータベース三次元位置に前記レジストレーション（Ｒ）を適用することにより、前記シーン画像において、前記物体の少なくとも１つの把持点（ＧＰ_ＯＧ）の二次元位置を決定するステップと、
Ｓ６０）三次元スキャナを用いて、前記シーン画像（Ｉ３）に表示されている前記物体の深度マップを前記物体に関する三次元情報として決定するステップと、
Ｓ７０）ステップＳ５０で決定された、前記シーン画像内の少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する前記三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ）の三次元位置を決定するステップと、
を含む方法。
対応するローカル記述子の対は、ステップＳ３０において、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定される、請求項７に記載の方法。
ステップＳ７０において、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、又はローカル参照フレーム（Ｘ，Ｙ，Ｚ）、及び／又は把持パターンを決定することをさらに含む、請求項７又は８に記載の方法。
１つ以上のプロセッサ及びメモリを有する、物体の把持点（ＧＰ）の三次元位置を決定する把持点決定システムであって、
前記メモリは、前記物体の把持点のレコードを含むデータベースを保存し、前記把持点のレコードは、前記物体の形状特徴のデータベースローカル記述子（ＬＤ_ＯＤｉ）及びデータベース二次元位置と、前記物体の少なくとも１つの把持点（ＧＰ）のデータベース三次元位置とを含み、
前記メモリは指示を保存し、前記１つ以上のプロセッサによる前記指示の実行によって、前記１つ以上のプロセッサが、
シーン内の把持すべき物体を表すシーン画像（Ｉ３）を受け取り、
前記シーン画像（Ｉ３）に基づいて、把持すべき前記物体及び該物体の形状特徴を検出し、検出された前記物体の前記形状特徴のローカル記述子（ＬＤ_ＯＧｉ）及び二次元位置（（ｕ１，ｖ１）、（ｕ２，ｖ２）、（ｕ３，ｖ３）、（ｕ４，ｖ４））を決定し、
前記データベースに基づいて、少なくとも８対のローカル記述子を決定し、
各対は、前記データベースの選択されたローカル記述子（ＬＤ_ＯＤｉ）及び決定されたローカル記述子のうちの対応する選択されたローカル記述子（ＬＤ_ＯＧｉ）からなり、データベースローカル記述子と決定されたローカル記述子（ＤＬＤ）との距離は最小であり、
前記１つ以上のプロセッサは、
選択されたデータベースローカル記述子（ＬＤ_ＯＤｉ）を対応する選択されたローカル記述子（ＬＤ_ＯＧｉ）に変換するレジストレーション（Ｒ）を決定し、
前記物体の少なくとも１つの把持点（ＧＰ_ＣＭＯ）のデータベース三次元位置に前記レジストレーション（Ｒ）を適用することにより、前記シーン画像において、前記物体の少なくとも１つの把持点（ＧＰ_ＯＧ）の二次元位置を決定し、
三次元スキャナを用いて、前記シーン画像（Ｉ３）に表示されている前記物体の深度マップを前記物体に関する三次元情報として決定し、
決定された、前記シーン画像内の少なくとも１つの把持点（ＧＰ）の二次元位置と、前記物体に関する前記三次元情報とに基づいて、前記物体の少なくとも１つの把持点（ＧＰ）の三次元位置を決定する、
把持点決定システム。
前記指示は前記メモリに保存され、前記指示が前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサは、対応するローカル記述子の対を、最近傍アルゴリズム及びＲＡＮＳＡＣメソッドを連続して使用することで特定する、請求項１０に記載の把持点決定システム。
前記指示は前記メモリに保存され、前記指示が前記１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサは、前記物体の前記少なくとも１つの把持点（ＧＰ）の法線（Ｘ）、又はローカル参照フレーム（Ｘ，Ｙ，Ｚ）、及び／又は把持パターンを決定する、請求項１０又は１１に記載の把持点決定システム。
コンピュータが読み取り可能な記録媒体に保存され、コンピュータでの実行に適したコンピュータプログラムであって、前記コンピュータで実行されたときに請求項１、２、３、７、８及び９のいずれか１項に記載の方法のステップを実行するように構成された指示を含む、コンピュータプログラム。
請求項１３に記載のコンピュータプログラムの指示を含む、コンピュータが読み取り可能な記録媒体。