JP2024032055A

JP2024032055A - 対象物の位置姿勢を認識する方法、及び、コンピュータープログラム

Info

Publication number: JP2024032055A
Application number: JP2022135489A
Authority: JP
Inventors: 正樹林; 広和笠原; 國益符; ゾンゼンルオ
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-12
Also published as: US20240070896A1

Abstract

【課題】対象物の形状や表面特性が変化した場合にも対応可能な機械学習モデルを学習できる技術を提供する。【解決手段】本開示の方法は、（ａ）対象物の基本形状データを用いて、対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する工程と、（ｂ）対象物が設置される環境に、複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、複数のシーンをそれぞれカメラで撮影して得られる複数のシミュレーション画像を生成する工程と、（ｃ）複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、複数のシミュレーション画像のそれぞれに対応して生成する工程と、（ｄ）複数のシミュレーション画像と複数の正解特徴マップとを教師データとして用いて、カメラで撮影された入力画像から特徴マップを推定する機械学習モデルを学習する工程と、を含む。【選択図】図４

Description

本開示は、対象物の位置姿勢の認識に使用する機械学習モデルを学習する方法、対象物の位置姿勢を認識する方法、及び、コンピュータープログラムに関する。

非特許文献１，２には、対象物の画像から、対象物に予め設定された特徴的な複数のキーポイントをニューラルネットワークで推定することによって、対象物の位置姿勢を認識する技術が開示されている。

Feedback Control for Category-Level Robotic Manipulation (IEEE Robotics and Automation Letter, arXiv:2102.06279v1) An Affordance Keypoint Detection Network for Robot Manipulation (IEEE Robotics and Automation Letters, Volume: 6, Issue: 2, April 2021)

上記非特許文献１，２に記載された技術では、画像の変化に対して或る程度ロバストに対象物の位置姿勢を認識することができる。しかしながら、ニューラルネットワークを学習する際に、対象物の形状や周辺環境などの条件が異なる場合にもロバストに対象物を認識するためには、それらの種々の条件の組み合わせに対応した大量の学習データを準備する必要がある。また、手動による正解ラベルの付与は、人によるバラツキが存在するため正解ラベルに誤差が混入してしまい、識別精度の劣化を引き起こすという問題がある。更に、従来技術では、対象物が１つの場合のみを想定しているので、複数の対象物の位置姿勢を認識できないという問題がある。そこで、これらの問題点の少なくとも一部を解決することが望まれている。

本開示の第１の形態によれば、カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する方法が提供される。この方法は、（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する工程と、（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する工程と、（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する工程と、（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する工程と、を含む。

本開示の第２の形態によれば、カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する処理と、（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する処理と、（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する処理と、（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する処理と、を前記プロセッサーに実行させる。

本開示の第３の形態によれば、Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する方法が提供される。この方法は、（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する工程と、（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る工程と、（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める工程と、（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する工程と、（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする工程と、を含む。

本開示の第４の形態によれば、Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する処理と、（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る処理と、（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める処理と、（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する処理と、を前記プロセッサーに実行させる。前記処理（ｃ）は、（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する処理と、（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする処理と、を含む。

ロボットシステムの構成を示す説明図。情報処理装置の機能ブロック図。位置姿勢認識部による対象物の位置姿勢の認識機能を示す説明図。機械学習モデルの学習工程の処理手順を示すフローチャート。複数の学習用対象物モデルを示す説明図。複数のシミュレーション画像を示す説明図。第１種の特徴マップとしてのヒートマップを示す説明図。第２種の特徴マップとしての方向ベクトルマップを示す説明図。第３種の特徴マップとしてのキーポイント距離マップを示す説明図。第４種の特徴マップとしてのノイズレス距離マップを示す説明図。第５種の特徴マップとしてのアフィニティフィールドマップを示す説明図。第６種の特徴マップとしてのセマンティックフィールドマップを示す説明図。第７種の特徴マップとしてのセマンティック構造マスクマップを示す説明図。位置姿勢認識工程の処理手順を示すフローチャート。キーポイント推定処理の詳細手順を示すフローチャート。グルーピング処理の詳細手順を示すフローチャート。第１適合度算出処理の詳細手順を示すフローチャート。第１適合度算出処理の内容を示す説明図。第２適合度算出処理の内容を示す説明図。フィールドマップを用いたグルーピング処理の手順を示すフローチャート。フィールドマップを用いたグルーピング処理の内容を示す説明図。グルーピング確定処理の一例を示すフローチャート。グルーピング確定処理の他の例を示すフローチャート。

図１は、一実施形態におけるロボットシステムの一例を示す説明図である。このロボットシステムは、ロボット１００と、ロボット１００を制御する制御装置２００と、情報処理装置３００と、カメラ４００と、架台５００とを備える。情報処理装置３００は、例えばパーソナルコンピューターである。図１には、３次元空間の直交座標系を規定する３つの軸Ｘ，Ｙ，Ｚが描かれている。Ｘ軸とＹ軸は水平方向の軸であり、Ｚ軸は鉛直方向の軸である。これらのＸ，Ｙ，Ｚ軸は、ロボット１００の予め定められた位置を原点とするロボット座標系Σｒの座標軸である。

ロボット１００は、基台１１０と、ロボットアーム１２０と、を備えている。ロボットアーム１２０の先端部であるアームエンド１２２には、エンドエフェクターとしてのハンド１５０が装着されている。ハンド１５０は、対象物ＯＢを把持することが可能なグリッパーや吸着パッドとして実現可能である。ハンド１５０の先端部には、ロボット１００の制御点としてのＴＣＰ(Tool Center Point)が設定されている。なお、制御点ＴＣＰは、任意の位置に設定可能である。

ロボットアーム１２０は、６つの関節Ｊ１～Ｊ６で順次接続されている。これらの関節Ｊ１～Ｊ６のうち、３つの関節Ｊ２，Ｊ３，Ｊ５は曲げ関節であり、他の３つの関節Ｊ１，Ｊ４，Ｊ６はねじり関節である。本実施形態では６軸ロボットを例示しているが、１個以上の関節を有する任意のロボットアーム機構を有するロボットを用いることが可能である。また、本実施形態のロボット１００は、垂直多関節ロボットであるが、水平多関節ロボットを使用してもよい。

架台５００には、第１トレイ５１０と第２トレイ５２０が設置されている。第１トレイ５１０には、複数の対象物ＯＢがバラ積みされる。第２トレイ５２０は、第１トレイ５１０から取り出された対象物ＯＢを載置する場所として使用される。ロボット１００は、第１トレイ５１０から対象物ＯＢを取り出して、第２トレイ５２０に載置する作業を実行する。

ロボットアーム１２０の先端部分には、第１トレイ５１０内の対象物ＯＢの画像を撮影するカメラ４００が設置されている。カメラ４００で撮影された画像は、対象物ＯＢの３次元的な位置及び姿勢を求めるために使用される。３次元的な位置及び姿勢を、以下では「位置姿勢」と呼ぶ。カメラ４００としては、例えば、ＲＧＢＤカメラや、ステレオカメラを用いることができる。ＲＧＢＤカメラは、カラー画像を撮影するＲＧＢカメラと、深度画像（Depth image）又は距離画像(Distance image)を撮影するＤカメラと、を有するカメラである。本開示において、深度と距離は同義語として使用する。なお、カメラ４００をロボットアーム１２０に設置する必要はなく、ロボット１００と別個に設置してもよい。

図２は、情報処理装置３００の機能を示すブロック図である。情報処理装置３００は、プロセッサー３１０と、メモリー３２０と、インターフェイス回路３３０と、インターフェイス回路３３０に接続された入力デバイス３４０及び表示デバイス３５０と、を有している。インターフェイス回路３３０には、制御装置２００とカメラ４００も接続されている。

本実施形態において、カメラ４００は、カラー画像を撮影する第１カメラ４１０と、距離画像を撮影する第２カメラ４２０と、第２カメラ４２０用の照明光を照射する照明部４３０とを有する。照明部４３０は、距離画像を撮影するための赤外線パターンを照射するプロジェクターである。

プロセッサー３１０は、モデル学習部６１０及び位置姿勢認識部６２０としての機能を有する。モデル学習部６１０は、教師データ作成部６１２と学習実行部６１４とを含む。教師データ作成部６１２は、対象物ＯＢの位置姿勢の認識に用いる機械学習モデル６３０の学習に用いる教師データを作成する。学習実行部６１４は、教師データ作成部６１２で作成された教師データを用いて機械学習モデル６３０の学習を実行する。位置姿勢認識部６２０は、キーポイント推定部６２２と位置姿勢決定部６２４とを含んでいる。キーポイント推定部６２２は、学習済みの機械学習モデル６３０を用いて、対象物ＯＢに予め設定された複数のキーポイントを推定する。位置姿勢決定部６２４は、推定された複数のキーポイントを用いて対象物ＯＢの位置姿勢を決定する。モデル学習部６１０と位置姿勢認識部６２０の機能は、メモリー３２０に格納されたコンピュータープログラムをプロセッサー３１０が実行することによってそれぞれ実現される。但し、モデル学習部６１０と位置姿勢認識部６２０の機能の一部又は全部をハードウェア回路で実現してもよい。

メモリー３２０には、機械学習モデル６３０と、対象物ＯＢの基本形状を表す基本形状データＢＦＤと、複数の学習用対象物モデルＬＯＢと、複数のシミュレーション画像ＳＭと、複数の正解特徴マップＧＣＭと、ロボット制御プログラムＲＰが格納される。ロボット制御プログラムＲＰは、ロボット１００を動作させる複数の命令で構成される。ロボット制御プログラムＲＰ以外のデータの内容については後述する。

図３は、位置姿勢認識部６２０による対象物ＯＢの位置姿勢の認識機能を示す説明図である。カメラ４００は予めキャリブレーションされており、カメラ座標系Σｃと図１に示したロボット座標系Σｒとの相対関係は既知である。カメラ４００は、１つ以上の対象物ＯＢを含むシーンを撮影することによって入力画像ＩＭを作成する。図３の例では、入力画像ＩＭには３つの対象物ＯＢ１～ＯＢ３が含まれている。これらの対象物ＯＢ１～ＯＢ３は、形状と表面特性とが同一である同一型式の物体であってもよく、或いは、形状と表面特性の少なくとも一部が異なる複数種類の物体を含むようにしてもよい。本実施形態において、入力画像ＩＭは、２次元のカラー画像と距離画像とを含む。距離画像は、位相シフト法や空間コード法、ステレオブロックマッチング法などを用いて作成される。キーポイント推定部６２２は、学習済みの機械学習モデル６３０を用いて、入力画像ＩＭに含まれているＭ個の対象物ＯＢｍのそれぞれにおけるＮ個のキーポイントＫＰを推定する。ここで、Ｍは１以上の整数であり、Ｎは２以上の整数である。但し、Ｍは、２以上の整数とすることが好ましい。また、Ｎは３以上の整数とすることが好ましい。

図３の左下部には、１つの対象物ＯＢに設定された３つのキーポイントＫＰ１～ＫＰ３が例示されている。この例では、対象物ＯＢはマグカップである。第１のキーポイントＫＰ１は、対象物ＯＢの底面Ｂｔに設定されている。第２のキーポイントＫＰ２は、対象物ＯＢの把手Ｈｄに設定されている。第３のキーポイントＫＰ３は、対象物ＯＢの上部開口Ｔｐに設定されている。個々のキーポイントＫＰは、対象物ＯＢの特定部分を代表する代表位置を示すものであり、キーポイントＫＰの位置は３次元座標(x, y, z)で表される。例えば、第１のキーポイントＫＰ１は、対象物ＯＢの底面Ｂｔの中心位置の３次元座標で表現される。他のキーポイントＫＰ２，ＫＰ３も同様である。キーポイントＫＰの設定時において、キーポイントＫＰを表す３次元座標は、対象物ＯＢの基準点を座標原点とする対象物座標系Σｂで表現される。図３では、図示の便宜上、対象物座標系Σｂの原点位置を対象物ＯＢからやや離れた場所に描いているが、対象物座標系Σｂの原点は、底面Ｂｔの中心などの任意の位置に設定可能である。なお、キーポイントＫＰは、対象物ＯＢの特定部分の代表位置に設定されている意味のある点なので、「セマンティックキーポイント」と呼ぶことも可能である。

対象物ＯＢが回転対称でない場合には、１つの対象物ＯＢに設定されるキーポイントＫＰの数Ｎを３以上とすることが好ましい。こうすれば、カメラ座標系Σｃやロボット座標系Σｒなどの３次元座標系におけるＮ個のキーポイントＫＰの３次元位置から、対象物ＯＢの３次元位置と３軸廻りの回転角とを確定することが可能である。

図３では、キーポイントを示す基本的な符号「ＫＰ」の末尾に、互いを区別するための付加的な符号「１」～「３」が付されている場合と、これらの付加的な符号が省略されている場合がある。この例のように、本開示の図面や明細書では、互いを区別するための付加的な符号を省略する場合がある。これは、キーポイントＫＰ以外の語句や物の符号についても同様である。

機械学習モデル６３０は、入力画像ＩＭを入力として、複数のキーポイントＫＰに関連した特徴量を示す特徴マップＣＭを出力するように構成されている。特徴マップＣＭの例については後述する。機械学習モデル６３０としては、例えば、VAE(Variational Autoencoder)やU-Netなどの種々のニューラルネットワークを使用することが可能である。

キーポイント推定部６２２は、機械学習モデル６３０で得られた特徴マップＣＭを用いて、Ｍ個の対象物ＯＢのそれぞれについて、Ｎ個のキーポイントＫＰの３次元座標を推定する。このときのキーポイントＫＰの３次元座標は、例えばカメラ座標系Σｃで表される。位置姿勢決定部６２４は、推定されたキーポイントＫＰを用いて、１つ以上の対象物ＯＢｍの位置姿勢ＰＡｍを決定する。位置姿勢ＰＡｍは、例えば、ロボット座標系Σｒにおける位置(x,y,z)と姿勢(w,p,r)で表現される。姿勢は、３軸廻りの回転角度(w,p,r)で表される。図３の例では、入力画像ＩＭに含まれているｍ番目の対象物ＯＢｍについて、それぞれの位置姿勢ＰＡｍが決定されている。但し、入力画像ＩＭにおける対象物ＯＢｍの配置によっては、位置姿勢ＰＡｍを正しく決定できない対象物ＯＢｍも存在する。この場合にも、位置姿勢認識部６２０は、少なくとも１つの対象物ＯＢｍに関する位置姿勢ＰＡｍを認識することが好ましい。ロボット１００は、ロボット制御プログラムＲＰに従って、認識された位置姿勢ＰＡｍを用いて対象物ＯＢｍのピッキング作業を実行する。

図４は、機械学習モデル６３０の学習工程の処理手順を示すフローチャートである。この学習工程は、ロボット１００を用いた実作業を行う前の準備工程として実行される。この学習工程では、ロボット１００やカメラ４００は不要である。但し、図１に示した実作業環境におけるカメラ４００と対象物ＯＢの位置関係などの環境条件は既知であることが好ましい。

ステップＳ１１０では、教師データ作成部６１２が、対象物ＯＢの基本形状データＢＦＤを用いて、複数の学習用対象物モデルを生成する。複数の学習用対象物モデルは、基本形状データＢＦＤに対して、その形状と表面特性のうちの少なくとも一部を変化させることによって作成される。

対象物ＯＢの形状の変更方法としては、例えば、以下の２つの方法を利用できる。
＜形状変更方法Ｍ１＞
対象物ＯＢの個々の位置の座標値(x, y, z)を、次式に従って変更する。

ここで、ｘ_ｎｅｗ，ｙ_ｎｅｗ，ｚ_ｎｅｗは変更後の座標値、Ｓｘ，Ｓｙ，Ｓｚはスケールファクターである。スケールファクターＳｘ，Ｓｙ，Ｓｚは、同じ値に設定してもよく、異なる値に設定してもよい。典型例では、スケールファクターＳｘ，Ｓｙ，Ｓｚはそれぞれ０．５～２．０の範囲の値に設定される。また、過度の変形を防止するために、ｙ方向のスケールファクターＳｙは、ｘ方向のスケールファクターＳｘを基準として±１０％以内の値に設定されることが好ましい。同様に、ｚ方向のスケールファクターＳｚは、ｘ方向のスケールファクターＳｘを基準として±３０％以内の値に設定されることが好ましい。この形状変更方法Ｍ１では、ｘ軸方向とｙ軸方向とｚ軸方向のそれぞれに関して対象物ＯＢを拡大したり縮小したりすることができる。

＜形状変更方法Ｍ２＞
対象物ＯＢの個々の位置の座標値(x, y, z)のうちのｘ座標値とｙ座標値を、次式に従って変更する。

ここで、ｈは対象物ＯＢの高さ、ｚ_ｍｉｎは対象物ＯＢの高さ座標の最小値、ｔはテーパーファクターである。典型例では、テーパーファクターｔは±１．０の範囲の値に設定される。この形状変更方法Ｍ２では、高さ方向に沿って水平方向のサイズが増加又は減少するテーパー形状となるように対象物ＯＢを変形することができる。

図５は、上述した形状変更方法Ｍ２によって作成された種々の学習用対象物モデルの例を示している。ここでは、基本形状を有する２つの対象物ＯＢ１_0，ＯＢ２_0が使用されている。これらの対象物ＯＢ１_0，ＯＢ２_0は、変形前の基本形状をそれぞれ有している。第１の対象物ＯＢ１_0は、円筒状の本体Ｂｄ１と、上部開口Ｔｐ１と、底面Ｂｔ１と、把手Ｈｄ１と、を有するマグカップである。第２の対象物ＯＢ２_0は、角筒状の本体Ｂｄ２と、上部開口Ｔｐ２と、底面Ｂｔ２と、把手Ｈｄ２と、を有するマグカップである。これらの２つの対象物ＯＢ１_0，ＯＢ２_0は、互いに共通する形状特徴を持つ対象物である。即ち、２つの対象物ＯＢ１_0，ＯＢ２_0は、いずれも筒状の本体を有し、上部開口と、底面と、リング状の把手とを有している点で共通する。本開示において、互いに共通する形状特徴を持つ複数の対象物を「同一カテゴリーに属する対象物群」と呼ぶ。同一カテゴリーに属する対象物群は、大きさと、色や光沢度、模様などの表面特性と、形状特徴の部分的な形状は異なっても良い。

図５には更に、上述した形状変更方法Ｍ２によって変形された対象物ＯＢ１_1，ＯＢ１_2，ＯＢ２_1，ＯＢ２_2が示されている。これらは、基本形状の対象物ＯＢ１_0，ＯＢ２_0をテーパー状に変形したものである。基本形状の対象物ＯＢ１_0，ＯＢ２_0と、変形後の対象物ＯＢ１_1，ＯＢ１_2，ＯＢ２_1，ＯＢ２_2は、いずれも学習用対象物モデルとして使用することが可能である。

複数の学習用対象物モデルの少なくとも一部は、対象物ＯＢの基本形状を等倍によるサイズ変更でない形状変更方法で変更した形状を有するものとすることが好ましい。「等倍によるサイズ変更」とは、上述した形状変更方法Ｍ１において、スケールファクターＳｘ，Ｓｙ，Ｓｚを等しい値に設定した場合に相当する。基本形状を等倍によるサイズ変更でない形状変更方法で変更した形状を有する学習用対象物モデルを使用すれば、種々の形状を有する対象物ＯＢの位置姿勢を認識するために使用する機械学習モデル６３０に適した教師データを作成できる。

学習用対象物モデルは、対象物ＯＢの表面特性を変更することによって作成してもよい。表面特性の変更は、例えば、色、光沢度、又は、模様の変更によって行うことが可能である。即ち、教師データ作成部６１２は、対象物ＯＢの基本形状データＢＦＤを用いて、対象物ＯＢの形状と表面特性のうちの少なくとも一部を変化させることによって複数の学習用対象物モデルを生成することができる。

ステップＳ１２０では、教師データ作成部６１２が、対象物ＯＢが設置される環境に、１つ以上の学習用対象物モデルをそれぞれ配置した複数のシーンについて、複数のシミュレーション画像を生成する。「対象物ＯＢが設置される環境」は、図１の例では、トレイ５１０の中を意味する。シミュレーション画像は、カメラ４００で撮影される画像を模擬した画像である。

図６は、ステップＳ１２０で作成されるシミュレーション画像ＳＭ１，ＳＭ２の例を示す説明図である。第１のシミュレーション画像ＳＭ１には、３つの学習用対象物モデルＯＢ_11～ＯＢ_13が配置されている。第２のシミュレーション画像ＳＭ２には、４つの学習用対象物モデルＯＢ_21～ＯＢ_24と、１つの非対象物ＮＯＢが配置されている。非対象物ＮＯＢは、位置姿勢の認識対象とならない物体を意味する。学習用対象物モデルＯＢや非対象物ＮＯＢの位置や姿勢は、ランダムに決定されることが好ましい。例えば、多数の学習用対象物モデルＯＢを互いに重ならないように配置した状態を再現するために、重力落下や衝突などの物理シミュレーションを用いて、上方からランダムに学習用対象物モデルＯＢを落として現実に近い配置をシミュレートしても良い。なお、シミュレーション画像ＳＭとしては、１つ以上の学習用対象物モデルＯＢを配置した画像が生成される。本実施形態では、カメラ４００として、カラー画像と距離画像を生成するカメラを想定しているので、シミュレーション画像ＳＭもカラー画像と距離画像を含むものが生成される。なお、以下の説明では、シミュレーション画像ＳＭに含まれる学習用対象物モデルＯＢを単に「対象物ＯＢ」とも呼ぶ。

教師データ作成部６１２は、また、異なる複数の環境条件におけるシミュレーション画像ＳＭを作成することが好ましい。環境条件としては、学習用対象物モデルＯＢ以外の非対象物ＮＯＢの有無や、環境光や照明光の種類、方向、及び、強さを使用することができる。即ち、教師データ作成部６１２は、学習用対象物モデルＯＢの数と、学習用対象物モデルＯＢの配置と、環境条件と、のうちの１つ以上が互いに異なる多数のシミュレーション画像ＳＭを作成することが好ましい。また、シミュレーション画像ＳＭは、実際の環境においてカメラ４００で撮影される画像に含まれるノイズを模擬した模擬ノイズが付与された画像とすることが好ましい。

ステップＳ１３０では、教師データ作成部６１２が、個々のシミュレーション画像ＳＭに対する正解特徴マップを生成する。「正解特徴マップ」は、特徴マップの正解値を示すものである。「特徴マップ」は、図３で説明した複数のキーポイントＫＰに関連した特徴量のマップであり、シミュレーション画像ＳＭや入力画像ＩＭと同じサイズの画像領域を有している。正解特徴マップは、個々のシミュレーション画像ＳＭに対応して作成される。本実施形態では、以下で説明する複数種類の特徴マップのうちの１つ以上について、正解特徴マップが作成される。
（１）ヒートマップ(Heat Map)
（２）方向ベクトルマップ(Directional Vector Map)
（３）キーポイント距離マップ(Keypoint Distance Map)
（４）ノイズレス距離マップ(Noiseless Distance Map)
（５）アフィニティフィールドマップ(Affinity Field Map)
（６）セマンティックフィールドマップ(Semantic Field Map)
（７）セマンティック構造マスクマップ(Semantic Structure Mask Map)

図７は、第１種の特徴マップとしてのヒートマップＨＭを示す説明図である。正解特徴マップとしてのヒートマップＨＭは、Ｎ個のキーポイントＫＰのそれぞれに対応して作成される。即ち、１つのシミュレーション画像ＳＭに対して、Ｎ個のキーポイントＫＰに対応するＮ個のヒートマップＨＭが作成される。ヒートマップＨＭは、個々のキーポイントＫＰの中心位置からの距離に応じて、特定の分布形状で画素値が減少するマップである。特定の分布形状としては、例えばガウス分布を使用できる。図７の例では、個々のキーポイントＫＰの中心位置にガウス分布ＧＤが描かれている。ヒートマップＨＭは、キーポイントＫＰの中心位置をピンポイントに推定するものではなく、キーポイントＫＰの存在確率が高い領域を示すものである。このようなヒートマップＨＭを使用すれば、カメラ４００で撮影された入力画像ＩＭに多少の誤差が存在してもロバストにキーポイントＫＰの位置を推定できる。

図８は、第２種の特徴マップとしての方向ベクトルマップＤＶＭを示す説明図である。正解特徴マップとしての方向ベクトルマップＤＶＭも、ヒートマップＨＭと同様に、Ｎ個のキーポイントＫＰのそれぞれに対応して作成される。ｊを１～Ｎの整数としたとき、ｊ番目の方向ベクトルマップＤＶＭは、ｊ番目のキーポイントＫＰｊを対象キーポイントとしたマップであり、同一の対象物ＯＢに属する全画素のそれぞれから対象キーポイントＫＰｊに向かう方向を示すベクトルを、各画素に割り当てたマップである。例えば、図８においてシミュレーション画像ＳＭの下に示すように、対象物ＯＢ_11内の１番目のキーポイントＫＰ１に対する方向ベクトルマップＤＶＭは、同じ対象物ＯＢ_11に属する各画素からキーポイントＫＰ1に向かう方向を示すベクトルを含んでいる。２番目以降のキーポイントＫＰに対する方向ベクトルマップＤＶＭも同様である。但し、図８では図示の便宜上、個々のキーポイントＫＰに関して、同じ対象物ＯＢに属する一部の画素からそのキーポイントＫＰに向かうベクトルのみが描かれている。方向ベクトルマップＤＶＭにおけるベクトルは、画像領域内の２次元方向を示すベクトルである。

図９は、第３種の特徴マップとしてのキーポイント距離マップＫＤＭを示す説明図である。正解特徴マップとしてのキーポイント距離マップＫＤＭも、方向ベクトルマップＤＶＭと同様に、Ｎ個のキーポイントＫＰのそれぞれに対応して作成される。キーポイント距離マップＫＤＭは、カメラ４００から対象キーポイントＫＰｊまでの距離ｚ_ＫＰｊを示すマップである。即ち、同一の対象物ＯＢに属する全画素には、同一の距離ｚ_ＫＰｊが画素値Ｄｐとして割り当てられる。例えば、１番目のキーポイントＫＰ１に対するキーポイント距離マップＫＤＭ_KP1では、個々の対象物ＯＢに属する複数の画素に対して、カメラ４００から１番目のキーポイントＫＰ１までの距離ｚ_ＫＰ１を示す一定の画素値Ｄｐが割り当てられる。キーポイント距離マップＫＤＭは、図８に示した方向ベクトルマップＤＶＭなどの他のマップのｚチャンネルとして生成するようにしてもよい。

図１０は、第４種の特徴マップとしてのノイズレス距離マップＮＤＭを示す説明図である。カメラ４００で生成される距離画像には、種々のノイズが生じる可能性がある。正解特徴マップとしてのノイズレス距離マップＮＤＭは、ノイズの無い距離画像であり、画素毎にカメラ４００からの距離を示すマップである。ノイズレス距離マップＮＤＭを用いることによって、ノイズの無い正しい距離情報を推定することが可能になり、距離情報の欠損による推定精度の低下を防ぐことができる。正解特徴マップとしてのノイズレス距離マップＮＤＭは、１つのシミュレーション画像ＳＭに対して１つ作成される。より正確に言えば、ノイズレス距離マップＮＤＭは、１つのシミュレーション画像ＳＭに含まれる１つの距離画像に対して１つ作成される。前述したように、シミュレーション画像ＳＭに含まれる距離画像には、ノイズが付与されている。実際には、正解特徴マップとしてのノイズレス距離マップＮＤＭが最初に作成され、ノイズレス距離マップＮＤＭにノイズを付与することによってシミュレーション画像ＳＭの距離画像が作成される。

図３に示した対象物ＯＢの位置姿勢の認識実行時には、入力画像ＩＭから、特徴マップＣＭとしてのノイズレス距離マップＮＤＭが機械学習モデル６３０によって生成される。但し、このノイズレス距離マップＮＤＭにはある程度のノイズが含まれる。この例から理解できるように、位置姿勢の認識実行時に得られるノイズレス距離マップＮＤＭは、入力画像ＩＭに含まれる距離画像よりもノイズが少ないものを意味しており、ある程度のノイズを含んでいてもよい。

図９で説明したキーポイント距離マップＫＤＭと図１０で説明したノイズレス距離マップＮＤＭは、いずれもカメラ４００から個々の対象物ＯＢに属する複数の画素までの距離を示すマップである点で共通する。本開示において、「距離マップ」という語句は、キーポイント距離マップＫＤＭとノイズレス距離マップＮＤＭの両方を含む意味で使用する。これらの距離マップの値は、カメラ４００から複数のキーポイントＫＰまでの距離を推定するために使用できるので、複数のキーポイントＫＰに関連した特徴量と考えることができる。

図１１は、第５種の特徴マップとしてのアフィニティフィールドマップＡＦＭを示す説明図である。アフィニティフィールドマップＡＦＭは、画素同士が同一の対象物ＯＢに属するものであるか否かを示すマップである。より具体的に言えば、アフィニティフィールドマップＡＦＭは、近傍ウィンドウＷｄの基準画素ｐに対して、基準画素ｐの周囲の近傍画素が、基準画素ｐと同じ対象物ＯＢに属しているかを示す値のマップである。図１１には、２つのアフィニティフィールドマップＡＦＭ１，ＡＦＭ２が例示されている。これらのアフィニティフィールドマップＡＦＭ１，ＡＦＭ２には、近傍ウィンドウＷｄがタイル状に配置されている。ｐは、個々の近傍ウィンドウＷｄの中心に設定された基準画素である。この例では、近傍ウィンドウＷｄは５×５画素のサイズを有しているが、３×３画素や７×７画素のような他のサイズを有していても良い。１番目のアフィニティフィールドマップＡＦＭ１では、画像領域の左上端にある画素が、近傍ウィンドウＷｄの基準画素ｐとなるように近傍ウィンドウＷｄが配置されている。個々の近傍ウィンドウＷｄ内の画素の画素値Ｄｐとして、基準画素ｐと同じ対象物ＯＢに属している場合には１が割り当てられ、基準画素ｐと同じ対象物に属していない場合には０が割り当てられる。また、基準画素ｐが背景領域にある場合には、その近傍ウィンドウＷｄ内のすべての画素の画素値Ｄｐに０が割り当てられる。図１１では、画素値Ｄｐとして１が割り当てられている画素にハッチングが付されており、画素値Ｄｐとして０が割り当てられている画素にはハッチングが付されていない。２番目のアフィニティフィールドマップＡＦＭ２は、１番目のアフィニティフィールドマップＡＦＭ１から近傍ウィンドウＷｄの位置を１つずらしたものである。一般に、近傍ウィンドウＷｄがＱ個の画素を含む場合には、１つのシミュレーション画像ＳＭに対してＱ個のアフィニティフィールドマップＡＦＭが作成される。図１１の例では、近傍ウィンドウＷｄが２５個の画素を含むので、１つのシミュレーション画像ＳＭに対して２５個のアフィニティフィールドマップＡＦＭが作成される。これらのアフィニティフィールドマップＡＦＭは、複数のキーポイントＫＰを、同一の対象物ＯＢごとにグルーピングする際に使用できる。

図１２は、第６種の特徴マップとしてのセマンティックフィールドマップＳＦＭを示す説明図である。セマンティックフィールドマップＳＦＭも、アフィニティフィールドマップＡＦＭと同様に、画素同士が同一の対象物ＯＢに属するものであるか否かを示すマップである。但し、セマンティックフィールドマップＳＦＭは、近傍ウィンドウＷｄを用いておらず、シミュレーション画像ＳＭと同じサイズの画像領域内の各画素に、同一の対象物ＯＢに属するか否かを示す画素値Ｄｐが割り当てられたマップである。例えば、シミュレーション画像ＳＭがＭ個の対象物ＯＢを含む場合には、Ｍ個の対象物領域に１～Ｍの画素値Ｄｐがそれぞれ割り当てられる。図１２の例では、ｍ番目の対象物ＯＢｍに属する各画素に、画素値Ｄｐ＝ｍが割り当てられている。セマンティックフィールドマップＳＦＭは、画像に対していわゆるセマンティックセグメンテーションを実行することによって、画像領域をクラス分けしたものと等価である。正解特徴マップとしてのセマンティックフィールドマップＳＦＭは、１つのシミュレーション画像ＳＭに対して１つ作成される。

図１１で説明したアフィニティフィールドマップＡＦＭと図１２で説明したセマンティックフィールドマップＳＦＭは、いずれも画素同士が同一の対象物ＯＢに属するものであるか否かを示すマップである点で共通する。本開示において、「フィールドマップ」という語句は、アフィニティフィールドマップＡＦＭとセマンティックフィールドマップＳＦＭの両方を含む意味で使用する。これらのフィールドマップの値は、複数のキーポイントＫＰが同一の対象物ＯＢに属するものか否かを判定するために使用できるので、複数のキーポイントＫＰに関連した特徴量と考えることができる。

図１３は、第７種の特徴マップとしてのセマンティック構造マスクマップＳＭＭを示す説明図である。セマンティック構造マスクマップＳＭＭは、対象物ＯＢを意味のある部分に分割したマスクを示すマップである。図１３の例では、シミュレーション画像ＳＭに含まれる個々の対象物ＯＢについて、上部開口Ｔｐと底面Ｂｔと把手Ｈｄの領域をそれぞれ示すマスクが設定されている。マスクとしては、少なくともＮ個のキーポイントＫＰに対応するＮ個の特徴形状を示すマスクが設定されることが好ましい。但し、キーポイントＫＰが設定されていない部分についてのマスクを追加してもよい。例えば、図５に示した対象物ＯＢ１_0の例では、本体Ｂｄ１についてのマスクを追加してもよい。セマンティック構造マスクマップＳＭＭとしては、１つのシミュレーション画像ＳＭに対して、Ｎ個のキーポイントＫＰに対応するＮ個のマップが少なくとも作成される。セマンティック構造マスクマップＳＭＭは、複数のキーポイントＫＰを推定する際に使用できるので、複数のキーポイントＫＰに関連した特徴量と考えることができる。

図４のステップＳ１４０では、個々のシミュレーション画像ＳＭに対して、上述した複数の特徴マップに対応する複数の正解特徴マップのうちの１つ以上が作成される。シミュレーション画像ＳＭは、対象物ＯＢの形状データを利用したシミュレーションによって作成されており、正解特徴マップは、シミュレーション画像ＳＭに対応した正解値を示す特徴マップである。

ステップＳ１５０では、学習実行部６１４が、複数のシミュレーション画像ＳＭとこれらに対応する正解特徴マップとを教師データとして用いて、機械学習モデル６３０の学習を実行する。図３で説明したように、機械学習モデル６３０は、カメラ４００で撮影された入力画像ＩＭを入力とし、特徴マップＣＭを出力とするように構成される。本実施形態において、機械学習モデル６３０は、カラー画像と距離画像とを含む入力画像ＩＭに対して、上述した７種類の特徴マップの少なくとも一部を出力するように構成されたニューラルネットワークである。ニューラルネットワークとしては、例えば、VAE(Variational Autoencoder)やU-Netなどを使用することが可能である。機械学習モデル６３０の学習は、シミュレーション画像ＳＭの入力に応じて機械学習モデル６３０で生成された特徴マップと、正解特徴マップとの誤差を損失関数(Loss Function)として、これを最小化するように確率的勾配降下法などの最適化手法を用いてニューラルネットワークを最適化することにより行われる。この際、個々の特徴マップに対応するニューラルネットワークを作成して、個別に学習することも可能である。また、複数種類の特徴マップを同じニューラルネットワークで学習するマルチタスク学習を行うことにより精度を向上させることができる。即ち、１つのニューラルネットワークで全種類の特徴マップを生成するようにニューラルネットワークを構成してもよい。

上述した実施形態の学習工程によれば、対象物ＯＢの形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成して、それらを配置した複数のシーンに関する複数のシミュレーション画像ＳＭを生成するとともに、これに対応する正解特徴マップを生成する。従って、対象物ＯＢの形状や表面特性が変化しても、特徴マップを正しく推定できる機械学習モデル６３０を適切に学習させることができる。

図１４は、位置姿勢認識工程の処理手順を示すフローチャートである。この位置姿勢認識工程は、図１に示したロボットシステムの実作業環境で実行される。

ステップＳ２１０では、キーポイント推定部６２２が、カメラ４００を用いて対象物ＯＢを含むシーンを撮影して入力画像ＩＭを生成する。

ステップＳ２２０では、キーポイント推定部６２２が、入力画像ＩＭを学習済みの機械学習モデル６３０に入力して、特徴マップＣＭを得る。機械学習モデル６３０は、１つの入力画像ＩＭに対して、複数種類の特徴マップＣＭを出力するように構成されていることが好ましい。

ステップＳ２３０では、キーポイント推定部６２２が、特徴マップＣＭを用いて、複数のキーポイントＫＰを推定する。本実施形態では、図７に示したヒートマップＨＭと、図９に示したキーポイント距離マップＫＤＭとを用いて、Ｍ×Ｎ個のキーポイントＫＰの３次元座標が推定される。ここで、Ｎは１つの対象物ＯＢに設定されているキーポイントＫＰの数であり、ＭはＮ個のキーポイントＫＰがすべて推定され得る対象物ＯＢの数である。Ｎは、２以上の整数であり、３以上とすることが好ましい。Ｍは、１以上の整数であり、２以上の整数とすることが好ましい。また、Ｍは、入力画像ＩＭに含まれているすべての対象物ＯＢの数以下の整数である。例えば、或る対象物ＯＢが他の対象物や非対象物に隠れている場合には、Ｎ個のキーポイントＫＰがすべて推定され得る対象物ＯＢの数Ｍは、入力画像ＩＭに含まれているすべての対象物ＯＢの数よりも少なくなる。

図１５は、ステップＳ２３０の詳細手順を示すフローチャートである。ステップＳ２３１では、キーポイント推定部６２２が、ｎ番目のキーポイントＫＰｎに対するヒートマップＨＰを取得する。ここで、ｎは１～Ｎの整数である。ヒートマップＨＰは、ステップＳ２２０において特徴マップとして得られたものである。

ステップＳ２３２では、キーポイント推定部６２２が、ヒートマップＨＭの画素値を予め設定された閾値と比較して、各画素に１又は０を割り当てる。即ち、ヒートマップＨＭにおける各画素の画素値が閾値以上のときにはその画素に１が割り当てられ、閾値未満の場合にはその画素に０が割り当てられる。この２値化処理の閾値は、例えば０．５～０．８の範囲に設定される。２値化処理によって値１が割り当てられた画素はキーポイントＫＰの近傍画素であり、値０が割り当てられた画素はそれ以外の画素であるものと推定される。このステップＳ２３２の処理は、図１３で説明したセマンティック構造マスクマップＳＭＭを用いて、キーポイントＫＰが存在する領域内に限定して処理を実行してもよい。即ち、図１３の例では、セマンティック構造マスクマップＳＭＭは、上部開口Ｔｐと底面Ｂｔと把手Ｈｄの領域のマスクを含んでいるので、これらのマスクの領域内でのみステップＳ２３２の処理を実行してもよい。

ステップＳ２３３では、キーポイント推定部６２２が、ステップＳ２３２で値１が割り当てられた画素群を領域分離して、複数の分離領域に分離する。即ち、画素値が１である画素のうち、互いに隣接する画素は同じ分離領域に属するものとして、画像領域の全体が複数の分離領域に分離される。

ステップＳ２３４では、キーポイント推定部６２２が、ステップＳ２３３で分離された個々の分離領域の重心位置をキーポイントＫＰの２次元キーポイント座標(x, y)として決定する。キーポイントＫＰの２次元座標(x, y)は、入力画像ＩＭと同じサイズの画像領域における画素座標である。

なお、ステップＳ２３２～Ｓ２３４の処理を行うことなく、ヒートマップＨＭのピーク値を有する画素座標(x, y)をキーポイントＫＰの２次元座標(x, y)としてそのまま使用しても良い。但し、ステップＳ２３２～Ｓ２３４の処理を行えば、入力画像ＩＭに対して得られたヒートマップＨＭにある程度の誤差がある場合にも、キーポイントＫＰの２次元座標(x, y)を正確に決定できるという利点がある。

ステップＳ２３５では、キーポイント推定部６２２が、２次元キーポイント座標(x, y)におけるカメラ４００からの距離ｚを求めて、３次元キーポイント座標(x, y, z)を決定する。ステップＳ２３５の処理では、図９で説明したキーポイント距離マップＫＤＭを使用することができる。具体的には、例えば、ステップＳ２３３の処理で得られた個々の分離領域において、キーポイント距離マップＫＤＭから得られるｚ座標値を、ヒートマップＨＭの画素値で重み付け平均することによって、２次元キーポイント座標(x, y)に対応するｚ座標値を決定するようにしてもよい。こうして得られる３次元キーポイント座標(x, y, z)は、カメラ座標系Σｃで表現されることが好ましい。

なお、上述した重み付け平均を行うことなく、２次元キーポイント座標(x,y)におけるキーポイント距離マップＫＤＭの距離ｚをそのまま使用することによって、２次元キーポイント座標(x,y)に対応する距離ｚを決定してもよい。但し、上述した重み付け平均によって距離ｚを決定するようにすれば、ヒートマップＨＭやキーポイント距離マップＫＤＭにある程度の誤差がある場合にも、３次元キーポイント座標(x, y, z)を正確に推定できるという利点がある。以上のステップＳ２３１～Ｓ２３５の処理を１回実施することによって、ｎ番目のキーポイントＫＰｎについて、Ｍ個の３次元キーポイント座標(x, y, z)がそれぞれ決定される。

ステップＳ２３６では、１番目からＮ番目までのすべてのキーポイントＫＰについてステップＳ２３１～Ｓ２３５の処理が終了したか否かが判定され、終了していなければステップＳ２３１に戻ってステップＳ２３１～Ｓ２３５の処理が繰り返される。こうして、１番目からＮ番目までのキーポイントＫＰについての処理が終了すると、Ｍ×Ｎ個のキーポイントＫＰについて、３次元キーポイント座標(x, y, z)がそれぞれ得られる。これらのＭ×Ｎ個のキーポイントＫＰは、Ｍ個の対象物ＯＢとの対応関係が未定の状態にある。個々の対象物ＯＢとそれに属するＮ個のキーポイントＫＰとの対応関係は、後述するグルーピング処理で決定される。

なお、ステップＳ２３０におけるキーポイントＫＰの推定は、ヒートマップＨＭとキーポイント距離マップＫＤＭ以外の他の特徴マップを用いて行っても良い。例えば、ステップＳ２３５の処理は、キーポイント距離マップＫＤＭの代わりに、図１０に示したノイズレス距離マップＮＤＭを用いて行うことも可能である。

図１４のステップＳ２４０では、キーポイント推定部６２２が、ステップＳ２３０で推定されたＭ×Ｎ個のキーポイントＫＰを、同じ対象物ＯＢ毎にグルーピングする。即ち、Ｍ×Ｎ個のキーポイントＫＰが、Ｍ個の対象物ＯＢのそれぞれに属するＮ個のキーポイントＫＰにグルーピングされる。ステップＳ２４０で使用する特徴マップとしては、例えば、図８に示した方向ベクトルマップＤＶＭと、図１１に示したアフィニティフィールドマップＡＦＭを使用することができる。

図１６は、ステップＳ２４０の詳細手順を示すフローチャートである。ステップＳ２４１では、キーポイント推定部６２２が、Ｍ個のｉ番目のキーポイントＫＰｉの中から１つのキーポイントＫＰｉを処理対象として選択するとともに、Ｍ個のｊ番目のキーポイントＫＰｊの中から１つのキーポイントＫＰｊを処理対象として選択する。ここで、ｉ，ｊは１以上Ｎ以下の互いに異なる整数である。

ステップＳ２４２では、キーポイント推定部６２２が、ｉ番目のキーポイントＫＰｉとｊ番目のキーポイントＫＰｊの第１適合度Ｄc1を算出する。

図１７は、ステップＳ２４２の詳細手順を示すフローチャートであり、図１８はその処理内容を示す説明図である。ステップＳ２１では、キーポイント推定部６２２が、ｊ番目の方向ベクトルマップＤＶＭを用いて、ｉ番目のキーポイントＫＰｉの画素位置からｊ番目のキーポイントＫＰｊに向かう第１ベクトルＶ１を得る。「ｉ番目のキーポイントＫＰｉの画素位置」は、ｉ番目のキーポイントＫＰｉの３次元キーポイント座標(x, y, z)で示される画素座標(x, y)の位置を意味する。「ｊ番目のキーポイントＫＰｊに向かう第１ベクトルＶ１」は、ｊ番目の方向ベクトルマップＤＶＭを参照することによって得られる。

図１８は、ｉ＝１，ｊ＝３の場合におけるステップＳ２１の処理内容を示している。図１８の上部には、３番目のキーポイントＫＰ３に関する方向ベクトルマップＤＶＭ_KP3を用いて、対象物ＯＢ１の１番目のキーポイントＫＰ１の画素位置(x_ＫＰ１, y_ＫＰ１)から、３番目のキーポイントＫＰ３に向かう第１ベクトルＶ１を得た状態が描かれている。図８で説明したように、３番目の方向ベクトルマップＤＶＭ_KP3は、個々の３番目のキーポイントＫＰ３について、同じ対象物ＯＢに属する各画素から３番目のキーポイントＫＰ３に向かう方向を示すベクトルが各画素に割り当てられたマップである。従って、図１８の例では、方向ベクトルマップＤＶＭ_KP3において、対象物ＯＢ１の１番目のキーポイントＫＰ１の画素位置(x_ＫＰ１, y_ＫＰ１)を参照すれば、第１ベクトルＶ１を得ることができる。

ステップＳ２２では、キーポイント推定部６２２が、ｉ番目のキーポイントＫＰｉの画素位置からｊ番目のキーポイントＫＰｊの画素位置に向かう第２ベクトルＶ２を得る。ここで、ｉ番目のキーポイントＫＰｉの画素位置とｊ番目のキーポイントＫＰｊの画素位置は、ステップＳ２３０の処理で得られた３次元キーポイント座標(x, y, z)で示される画素位置(x, y)を意味する。図１８の下部には、ｉ＝１，ｊ＝３の場合に得られる第２ベクトルＶ２が描かれており、説明の便宜のために第１ベクトルＶ１も点線で描かれている。第２ベクトルＶ２は、１番目のキーポイントＫＰ１の画素位置(x_ＫＰ１, y_ＫＰ１)から、３番目のキーポイントＫＰ３の画素位置(x_ＫＰ３, y_ＫＰ３)に向かうベクトルである。この例では、１番目のキーポイントＫＰ１は第１の対象物ＯＢ１に属しており、３番目のキーポイントＫＰ３は第２の対象物ＯＢ２に属しているので、第２ベクトルＶ２は第１ベクトルＶ１とは異なる方向を向いている。

ステップＳ２３では、キーポイント推定部６２２が、第１ベクトルＶ１と第２ベクトルＶ２の方向の一致度を示す第１適合度Ｄc1を算出する。第１適合度Ｄc1は、例えば、次式で算出することができる。

ここで、Ｄ１は第１ベクトルＶ１の方向、Ｄ２は第２ベクトルＶ２の方向であり、（Ｄ１－Ｄ２）は２つベクトルＶ１，Ｖ２が成す角度θに相当する。

上記［３］式の代わりに、次式を用いて、２つのベクトルＶ１，Ｖ２のコサイン類似度を第１適合度Ｄc1として算出してもよい。

第１適合度Ｄc1を求める関数としては、上述した［３］式や［４］式以外の関数を用いてもよい。但し、２つのベクトルＶ１，Ｖ２の方向の一致度が低下するのに応じて値が低下する関数を使用することが好ましい。本実施形態では、上記［３］式を用いて第１適合度Ｄc1を求める。従って、第１適合度Ｄc1は０～１の値を有する。

図１６のステップＳ２４３では、キーポイント推定部６２２が、ｉ番目のキーポイントＫＰｉとｊ番目のキーポイントＫＰｊの第２適合度Ｄc2を算出する。ステップＳ２４３における第２適合度Ｄc2の算出処理は、ステップＳ２４２における第１適合度Ｄc1の算出処理の「ｉ番目のキーポイントＫＰｉ」と「ｊ番目のキーポイントＫＰｊ」を互いに交換し、また、「第１ベクトル」と「第２ベクトル」を「第３ベクトル」と「第４ベクトル」にそれぞれ読み替えた処理に相当する。

図１９は、第２適合度Ｄc2の算出に使用される第３ベクトルＶ３と第４ベクトルＶ４を示しており、図１８と同じｉ＝１，ｊ＝３の場合の例である。第３ベクトルＶ３は、i番目の方向ベクトルマップＤＶＭから得られるベクトルであって、ｊ番目のキーポイントＫＰｊの画素位置からｉ番目のキーポイントＫＰｉに向かう方向を示すベクトルである。図１９の例では、１番目の方向ベクトルマップＤＶＭ_KP1を参照して、３番目のキーポイントＫＰ３の画素位置(x_ＫＰ３，y_ＫＰ３)から１番目のキーポイントＫＰ１に向かう方向を示す第３ベクトルＶ３が得られている。第４ベクトルＶ４は、ｊ番目のキーポイントＫＰｊの３次元キーポイント座標(x, y, z)で示される画素位置(x, y)からｉ番目のキーポイントＫＰｉの３次元キーポイント座標(x, y, z)で示される画素位置(x, y)に向かう方向を示すベクトルである。図１９の例では、３番目のキーポイントＫＰ３の画素位置(x_ＫＰ３, y_ＫＰ３)から、１番目のキーポイントＫＰ１の画素位置(x_ＫＰ１, y_ＫＰ１)に向かう第４ベクトルＶ４が得られている。第２適合度Ｄc2は、第３ベクトルＶ３と第４ベクトルＶ４の方向の一致度を示す適合度であり、前述した［３］式や［４］式と同様の関数を用いて算出される。

ステップＳ２４４では、キーポイント推定部６２２が、第１適合度Ｄc1と第２適合度Ｄc2とを統合した統合適合度Ｄctを算出する。統合適合度Ｄctは、例えば、第１適合度Ｄc1と第２適合度Ｄc2の和や、平均、乗算などの演算によって算出できる。本実施形態では、第１適合度Ｄc1と第２適合度Ｄc2の単純平均を取ることによって統合適合度Ｄctを求める。第１適合度Ｄc1と第２適合度Ｄc2はそれぞれ０～１の値を取るので、統合適合度Ｄctも０～１の値を取る。

ステップＳ２４５では、キーポイント推定部６２２が、第１ベクトルＶ１と第２ベクトルＶ２の統合適合度Ｄctが、予め設定された閾値Ｔｈ以上であるか否かを判定する。閾値Ｔｈは、例えば０．９０～０．９８の値に設定される。統合適合度Ｄctが閾値Ｔｈ以上である場合には、処理対象である２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するものと推定されて、後述するステップＳ２４６に進む。一方、統合適合度Ｄctが閾値Ｔｈ未満である場合には、２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属さないものと推定されて、ステップＳ２４７に進む。ステップＳ２４８では、キーポイント推定部６２２が、２つのキーポイントＫＰｉ，ＫＰｊの統合適合度Ｄctを、第１の値Ｄａに調整する。第１の値Ｄａは、例えば、統合適合度Ｄctが取り得る最低適合度値に設定される。本実施形態では、統合適合度Ｄctは０～１の範囲の値を取り得るので、第１の値Ｄａは０に設定される。なお、第１の値Ｄａとしては、元の統合適合度Ｄctの値をそのまま使用してもよい。

ステップＳ２４６では、キーポイント推定部６２２が、フィールドマップを用いて、２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かを推定する。フィールドマップとしては、図１１に示したアフィニティフィールドマップＡＦＭと、図１２に示したセマンティックフィールドマップＳＦＭのいずれかを使用することが可能である。本実施形態では、アフィニティフィールドマップＡＦＭを使用する。

図２０は、ステップＳ２４６の詳細手順を示すフローチャートであり、図２１は、ステップＳ２４６の処理内容を示す説明図である。ステップＳ６１では、キーポイント推定部６２２が、ｉ番目のキーポイントＫＰｉの位置を、アフィニティフィールドマップＡＦＭの近傍ウィンドウＷｄの基準画素ｐに設定する。図２１の左側の例では、１番目のキーポイントＫＰ１の位置(x_ＫＰ１, y_ＫＰ１)が、近傍ウィンドウＷｄ１の基準画素ｐの位置に設定されている。実際には、ステップＳ６１の処理は、図１１に例示したような複数のアフィニティフィールドマップＡＦＭのうちで、１番目のキーポイントＫＰ１の位置(x_ＫＰ１, y_ＫＰ１)が近傍ウィンドウＷｄの基準画素ｐとなっている１つのアフィニティフィールドマップＡＦＭを選択する処理である。なお、図２１の例は、ｊ番目のキーポイントＫＰｊとして、１番目のキーポイントＫＰ１と同じ対象物ＯＢに属する３番目のキーポイントＫＰ３が選択されている場合の例である。

ステップＳ６２では、キーポイント推定部６２２が、近傍ウィンドウＷｄの中にｊ番目のキーポイントＫＰｊが存在するか否かを判定する。図２１の左側の例では、近傍ウィンドウＷｄ１の中に、３番目のキーポイントＫＰ３が存在するか否かが判定される。この例では、近傍ウィンドウＷｄ１の中に３番目のキーポイントＫＰ３は存在しない。近傍ウィンドウＷｄの中にｊ番目のキーポイントＫＰｊが存在しない場合には、ステップＳ６３に進む。

ステップＳ６３では、キーポイント推定部６２２が、現在の近傍ウィンドウＷｄに含まれる画素値Ｄｐ＝１の画素の中で、ｊ番目のキーポイントＫＰｊに最も近い画素に基準画素ｐを再設定する。図２１の左側の例では、現在の近傍ウィンドウＷｄ１に含まれる画素値Ｄｐ＝１の画素の中で、３番目のキーポイントＫＰ３に最も近い画素は、１番目のキーポイントＫＰ１の位置から２画素分だけ上方にある画素である。そこで、ステップＳ６３では、図２１の右側の例に示すように、２画素分だけ上方に移動した位置に基準画素ｐと近傍ウィンドウＷｄ２が再設定され、これに応じたアフィニティフィールドマップＡＦＭが選択される。図２１の左側のアフィニティフィールドマップＡＦＭと右側のアフィニティフィールドマップＡＦＭは異なるマップであるが、図示の便宜上、同じ符号「ＡＦＭ」を付している。こうして、近傍ウィンドウＷｄの中にｊ番目のキーポイントＫＰｊが存在する状態になるまで、ステップＳ６２とステップＳ６３が繰り返し実行される。

ステップＳ６２において、近傍ウィンドウＷｄの中にｊ番目のキーポイントＫＰｊが存在する場合には、ステップＳ６４に進み、キーポイント推定部６２２が、ｊ番目のキーポイントＫＰｊが近傍ウィンドウＷｄの基準画素ｐと同じ対象物ＯＢに属するか否かを判定する。具体的には、アフィニティフィールドマップＡＦＭにおいて、ｊ番目のキーポイントＫＰｊにおける画素値Ｄｐが１であれば、基準画素ｐと同じ対象物ＯＢに属すると判定され、画素値Ｄｐが０であれば基準画素ｐと同じ対象物ＯＢに属さないと判定される。ｊ番目のキーポイントＫＰｊが近傍ウィンドウＷｄの基準画素ｐと同じ対象物ＯＢに属さない場合には、ステップＳ６５に進み、統合適合度Ｄctが第１の値Ｄａに調整される。一方、ｊ番目のキーポイントＫＰｊが近傍ウィンドウＷｄの基準画素ｐと同じ対象物ＯＢに属する場合には、ステップＳ６６に進み、統合適合度Ｄctが第１の値Ｄａよりも高い第２の値Ｄｂに調整される。第１の値Ｄａは、図１６のステップＳ２４７で使用した第１の値Ｄａと同じものを用いても良く、或いは、異なる値を用いても良い。また、第１の値Ｄａとしては、元の統合適合度Ｄctの値をそのまま使用してもよい。ステップＳ６５で使用される第１の値Ｄａは、例えば、統合適合度Ｄctが取り得る最低適合度値に設定される。ステップＳ６６で使用される第２の値Ｄｂは、例えば、統合適合度Ｄctが取り得る最高適合度値に設定される。本実施形態では、統合適合度Ｄctは０～１の範囲の値を取り得るので、第１の値Ｄａは０に設定され、第２の値Ｄｂは１に設定される。但し、第１の値Ｄａと第２の値Ｄｂは、Ｄａ＜Ｄｂの関係を有するものであれば良く、最低適合度値や最高適合度値以外の値を使用してもよい。

このように、ステップＳ２４６の処理では、アフィニティフィールドマップＡＦＭを用いて、２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かを推定することができ、これに応じて統合適合度Ｄctの値を調整できる。

なお、アフィニティフィールドマップＡＦＭの代わりに、図１２に示したセマンティックフィールドマップＳＦＭを使用することも可能である。この場合には、図１５のステップＳ６２，Ｓ６３の繰り返し処理は不要であり、１回の処理で２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かを推定することが可能である。

図１６に戻り、ステップＳ２４６又はステップＳ２４７の処理が終了すると、ステップＳ２４８に進む。ステップＳ２４８では、ｉ番目のキーポイントＫＰｉとｊ番目のキーポイントＫＰｊのすべての組み合わせについての処理が終了したか否かが判定される。終了していなければ、ステップＳ２４１に戻り、異なる組み合わせについて、ステップＳ２４１～Ｓ２４７の処理が繰り返される。一方、ｉ番目のキーポイントＫＰｉとｊ番目のキーポイントＫＰｊのすべての組み合わせについての処理が終了すると、ステップＳ２４９に進み、キーポイント推定部６２２が、キーポイントＫＰのグルーピングを確定する処理を実行する。

図２２は、ステップＳ２４９におけるグルーピング確定処理の一例を示すフローチャートである。ステップＳ３１１では、キーポイント推定部６２２が、Ｍ個のｉ番目のキーポイントＫＰｉの中から１つのキーポイントＫＰｉを処理対象として選択するとともに、Ｍ個のｊ番目のキーポイントＫＰｊの中から１つのキーポイントＫＰｊを処理対象として選択する。ここで、ｉ，ｊは１以上Ｎ以下の互いに異なる整数である。

ステップＳ３１２では、キーポイント推定部６２２が、２つのキーポイントＫＰｉ，ＫＰｊの統合適合度Ｄctが、第２の値Ｄｂか否かを判定する。図１６及び図２０で説明したように、本実施形態では、統合適合度Ｄctは、第１の値Ｄａと第２の値Ｄｂのいずれかに設定されており、Ｄａ＜Ｄｂである。統合適合度Ｄctが第２の値Ｄｂである場合には、ステップＳ３１３に進み、キーポイント推定部６２２が、２つのキーポイントＫＰｉ，ＫＰｊをグルーピングすると確定する。即ち、２つのキーポイントＫＰｉ，ＫＰｊは、同一の対象物ＯＢに属するものであることが確定する。一方、統合適合度Ｄctが第１の値Ｄａである場合には、ステップＳ３１４に進み、キーポイント推定部６２２が、２つのキーポイントＫＰｉ，ＫＰｊをグルーピングしないと確定する。即ち、２つのキーポイントＫＰｉ，ＫＰｊは、同一の対象物ＯＢに属しないものであることが確定する。ステップＳ３１５では、ｉ番目のキーポイントＫＰｉとｊ番目のキーポイントＫＰｊのすべての組み合わせについての処理が終了したか否かが判定される。終了していなければ、ステップＳ３１１に戻り、異なる組み合わせについて、ステップＳ３１１～Ｓ３１４の処理が繰り返される。

上述した図２２のグルーピング確定処理では、２つのキーポイントＫＰｉ，ＫＰｊの統合適合度Ｄctの値に応じて、２つのキーポイントＫＰｉ，ＫＰｊをグルーピングするか否かが確定される。但し、このグルーピング確定処理では、図１６のステップＳ２４７及び図２０のステップＳ６５，Ｓ６６における統合適合度Ｄctの調整を省略することも可能である。例えば、図１６のステップＳ２４５において、統合適合度Ｄctが閾値Ｔｈ未満の場合には、統合適合度Ｄctを調整することなく、２つのキーポイントＫＰｉ，ＫＰｊをグルーピングしないものと確定してもよい。また、図２０のステップＳ６４において、ｊ番目のキーポイントＫＰｊが基準画素ｐと同じ対象物ＯＢに属するか否の判定に応じて、２つのキーポイントＫＰｉ，ＫＰｊをグルーピングするか否かを確定してもよい。

図２３は、ステップＳ２４９におけるグルーピング確定処理の他の例を示すフローチャートである。このグルーピング確定処理では、Ｎ個のキーポイントＫＰで構成されるキーポイントセット毎に、グルーピングが確定される。

ステップＳ３２１では、キーポイント推定部６２２が、Ｍ×Ｎ個のキーポイントＫＰの中から、１番目のキーポイントＫＰ１からＮ番目のキーポイントＫＰＮまでのＮ個のキーポイントＫＰで構成される任意の１つのキーポイントセットを選択する。ｎを１～Ｎの整数としたとき、Ｍ×Ｎ個のキーポイントＫＰは、ｎ番目のキーポイントＫＰｎをそれぞれＭ個含んでいるので、Ｍ^Ｎ個のキーポイントセットを構成できる。ステップＳ３２１では、これらのＭ^Ｎ個のキーポイントセットの中の１つが選択される。

ステップＳ３２２では、キーポイント推定部６２２が、ステップＳ３２１で選択されたキーポイントセット内の複数のキーポイント対の統合適合度Ｄctを加算して、セット適合度Ｄsetを算出する。「キーポイント対」とは、一対のキーポイントＫＰを意味する。１つのキーポイントセットは、Ｎ個のキーポイントＫＰで構成されているので、Ｎ（Ｎ－１）／２個のキーポイント対を含んでいる。セット適合度Ｄsetは、これらのＮ（Ｎ－１）／２個のキーポイント対の統合適合度Ｄctを加算することによって得られる。

ステップＳ３２３では、すべてのキーポイントセットについてステップＳ３２１，Ｓ３２２の処理が終了したか否かが判定され、すべてのキーポイントセットについての処理が終了するまでステップＳ３２１，Ｓ３２２が繰り返し実行される。ステップＳ３２１～Ｓ３２３の処理によって、Ｍ^Ｎ個のキーポイントセットについてセット適合度Ｄsetがそれぞれ算出される。

ステップＳ３２４では、キーポイント推定部６２２が、セット適合度Dset順にすべてのキーポイントセットをソートする。ステップＳ３２５では、キーポイント推定部６２２が、グルーピングが未確定である未確定キーポイントセットのうちで、セット適合度Dsetが最も高いキーポイントセットのグルーピングを確定する。「未確定キーポイントセット」とは、そのキーポイントセットが同じ対象物ＯＢに属するグループを構成することが確定されていないキーポイントセットを意味する。ステップＳ３２４が最初に実行される場合には、未確定キーポイントセットはＭ^Ｎ個存在する。

ステップＳ３２５では、キーポイント推定部６２２が、未確定キーポイントセットのうちでセット適合度Dsetが最も高いキーポイントセットのグルーピングを確定する。即ち、セット適合度Dsetが最も高いキーポイントセットは、同じ対象物ＯＢに属するものであることが確定される。ステップＳ３２６では、キーポイント推定部６２２が、グルーピングが確定したキーポイントセットに含まれる任意のキーポイントＫＰを含む複数のキーポイントセットを、未確定キーポイントセットから除外する。

なお、オクルージョン(隠ぺい)などによってキーポイントＫＰが検出されない可能性があるので、この場合を考慮して、図１６のステップＳ２４５において統合適合度Ｄctが閾値Thよりも低いキーポイントＫＰは、「欠損」と見なすようにしてもよい。作業によっては、対象物ＯＢに設定されたＮ個のキーポイントＫＰのうちの一部の特定のキーポイントＫＰを検出できれば作業を完遂することができる。例えば、図３に示したカップの把手Ｈｄを把持してテーブルに置く作業を想定して場合には、カップの底面Ｂｔに設定されたキーポイントＫＰ1と把手Ｈｄに設定されたキーポイントＫＰ２が検出できれば作業を実行でき、上面Ｔｐの開口部に設定されたキーポイントＫＰ３は欠損していても問題なく作業を完遂できる。

ステップＳ３２７では、すべての未確定キーポイントセットについてステップＳ３２５，Ｓ３２６の処理が終了したか否かが判定され、終了していなければ、ステップＳ３２５に戻ってステップＳ３２５，Ｓ３２６が再度実行される。

上述した図２３のグルーピング確定処理では、セット適合度Ｄsetの高い順に、キーポイントセットに関するグルーピングを確定している。従って、セット適合度Ｄsetを用いてキーポイントセット毎に正確なグルーピングを行うことができる。

なお、図１６で説明したグルーピング処理では、ステップＳ２４２～Ｓ２４４の処理によって２つのキーポイントＫＰｉ，ＫＰｊの統合適合度Ｄctを求め、ステップＳ２４５において統合適合度Ｄctが閾値Ｔｈ以上である場合に、ステップＳ２４６の処理によってキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かの推定を行っている。統合適合度Ｄctを用いる代わりに、第１適合度Ｄc1を用いてステップＳ２４５の判定を行ってもよい。但し、統合適合度Ｄctを用いるようにすれば、２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かをより正確に推定できるという利点がある。

また、ステップＳ２４６、Ｓ２４７，Ｓ２４９の処理を省略し、統合適合度Ｄctと閾値Ｔｈとの比較結果のみで２つのキーポイントＫＰｉ，ＫＰｊをグルーピングするか否かを確定するようにしてもよい。更に、統合適合度Ｄctの代わりに第１適合度Ｄc1を用いて、第１適合度Ｄc1と閾値Ｔｈとの比較結果のみで２つのキーポイントＫＰｉ，ＫＰｊをグルーピングするか否かを確定するようにしてもよい。これらの場合に、ｉ番目のキーポイントＫＰｉに対して、統合適合度Ｄct又は第１適合度Ｄc1が閾値Ｔｈ以上となるｊ番目のキーポイントＫＰｊが複数個存在する場合が発生し得る。この場合には、例えば、統合適合度Ｄct又は第１適合度Ｄc1が最も高い１つのキーポイントＫＰｊを選択してｉ番目のキーポイントＫＰｉとグルーピングするようにしてもよい。

或いは、ステップＳ２４２～Ｓ２４５の処理を省略し、ステップＳ２４６の処理によって２つのキーポイントＫＰｉ，ＫＰｊをグルーピングするか否かを確定するようにしてもよい。即ち、フィールドマップを用いて２つのキーポイントＫＰｉ，ＫＰｊが同一の対象物ＯＢに属するか否かを判定することによって、これらをグルーピングするか否かを決定するようにしてもよい。この場合には、適合度の算出処理も省略可能である。

なお、グルーピング処理の結果として、いずれの対象物ＯＢにも属さないキーポイントＫＰが残存する可能性がある。この場合には、そのキーポイントＫＰは破棄してもよい。この点を考えると、入力画像ＩＭの中に、位置姿勢が認識可能な対象物ＯＢがＭ個存在する場合に、図１４のステップＳ２３０の処理によって、Ｍ×Ｎ個よりも多数のキーポイントＫＰが推定される可能性がある。本開示において、「Ｍ×Ｎ個のキーポイントＫＰが推定される」という語句は、この場合のように、Ｍ×Ｎ個以よりも多数のキーポイントＫＰが推定される場合も含む広い意味で使用される。

図１４のステップＳ２５０では、位置姿勢決定部６２４が、対象物ＯＢ毎に分類されたＮ個のキーポイントＫＰから対象物ＯＢの位置姿勢を決定する。図３で説明したように、Ｎ個のキーポイントＫＰは、対象物ＯＢのＮ個の特定部分を代表するＮ個の代表位置の３次元座標(x, y, z)を示しているので、同じ対象物ＯＢに関するＮ個のキーポイントＫＰが分かれば、これらのキーポイントＫＰから対象物ＯＢの位置姿勢を決定することが可能である。ステップＳ２５０では、少なくとも１つの対象物ＯＢについて、その位置姿勢が決定される。

ステップＳ２６０では、ロボットシステムが、対象物ＯＢの位置姿勢を用いて対象物ＯＢのピッキング作業を実行する。ピッキング作業の内容は、ロボット制御プログラムＲＰに記述されている。ステップＳ２１０～Ｓ２６０の処理は、必要に応じて繰り返し実行される。

上述した実施形態の位置姿勢認識工程によれば、機械学習モデル６３０を用いて得られた特徴マップを用いて、Ｍ個の対象物ＯＢのそれぞれに属するＮ個のキーポイントＫＰの３次元座標を求めることができる。また、少なくとも１つの対象物ＯＢについてその位置姿勢を決定できる。

・他の形態：
本開示は、上述した実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の形態で実現することができる。例えば、本開示は、以下の形態（aspect）によっても実現可能である。以下に記載した各形態中の技術的特徴に対応する上記実施形態中の技術的特徴は、本開示の課題の一部又は全部を解決するために、あるいは、本開示の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

（１）本開示の第１の形態によれば、カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する方法が提供される。この方法は、（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する工程と、（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する工程と、（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する工程と、（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する工程と、を含む。
この方法によれば、対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成して、それらを配置した複数のシーンに関する複数のシミュレーション画像を生成するとともに、これに対応する正解特徴マップを生成する。従って、対象物の形状や表面特性が変化しても、特徴マップを正しく推定できる機械学習モデルを適切に学習させることができる。

（２）上記方法において、前記複数の学習用対象物モデルの少なくとも１つは、前記基本形状データで表される基本形状を等倍によるサイズ変更でない形状変更方法で変更した形状を有するものとしてもよい。
この方法によれば、種々の形状を有する対象物の位置姿勢を認識するために使用する機械学習モデルに適した教師データを作成できる。

（３）本開示の第２の形態によれば、カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する処理と、（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する処理と、（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する処理と、（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する処理と、を前記プロセッサーに実行させる。

（４）本開示の第３の形態によれば、Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する方法が提供される。この方法は、（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する工程と、（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る工程と、（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める工程と、（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する工程と、を含む。前記工程（ｃ）は、（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する工程と、（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする工程と、を含む。
この方法によれば、機械学習モデルを用いて得られた特徴マップを用いてＭ個の対象物のそれぞれに属するＮ個のキーポイントの３次元座標を求めることができ、また、少なくとも１つの対象物についてその位置姿勢を決定できる。

（５）上記方法において、前記工程（ｃ２）で使用する前記特徴マップは、前記Ｎ個のキーポイントのそれぞれを対象キーポイントとしたとき、同一の対象物に属する複数の画素から前記対象キーポイントに向かう方向を示すベクトルを前記複数の画素に割り当てたマップであるＮ個の方向ベクトルマップを含むものとしてもよい。前記工程（ｃ２）は、ｉ，ｊを１以上Ｎ以下の互いに異なる整数としたとき、（c2-1）Ｍ個のｉ番目のキーポイントから１つのｉ番目のキーポイントを選択するとともに、Ｍ個のｊ番目のキーポイントから１つのｊ番目のキーポイントを選択する工程と、（c2-2）ｊ番目の方向ベクトルマップから得られる第１ベクトルであって前記ｉ番目のキーポイントの画素位置から前記ｊ番目のキーポイントに向かう方向を示す第１ベクトルと、前記ｉ番目のキーポイントの前記３次元座標で示される画素位置から前記ｊ番目のキーポイントの前記３次元座標で示される画素位置に向かう方向を示す第２ベクトルと、の方向の一致度を示す第１適合度を算出する工程と、（c2-3）前記工程（c2-1），（c2-2）を繰り返し、前記第１適合度に応じて前記Ｍ×Ｎ個のキーポイントの前記グルーピングを行う工程と、を含むものとしてもよい。
この方法によれば、方向ベクトルマップを用いてキーポイントのグルーピングを行うことができる。

（６）上記方法において、前記工程（c2-2）は、（2a）i番目の方向ベクトルマップから得られる第３ベクトルであって前記ｊ番目のキーポイントの画素位置から前記ｉ番目のキーポイントに向かう方向を示す第３ベクトルと、前記ｊ番目のキーポイントの前記３次元座標で示される画素位置から前記ｉ番目のキーポイントの前記３次元座標で示される画素位置に向かう方向を示す第４ベクトルと、の方向の一致度を示す第２適合度を算出する工程と、（2b）前記第１適合度と前記第２適合度を統合した統合適合度を算出する工程と、を含み、前記工程（c2-3）は、前記統合適合度に応じて前記グルーピングを実行する、ものとしてもよい。
この方法によれば、統合適合度を用いてキーポイントのグルーピングをより正確に行うことが可能である。

（７）上記方法において、前記工程（ｃ２）で使用する前記特徴マップは、更に、画素同士が同一の対象物に属するものであるか否かを示すフィールドマップを含むものとしてもよい。前記工程（c2-3）は、（3a）前記統合適合度が閾値未満である場合に、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属さないものと推定する工程と、（3b）前記統合適合度が前記閾値以上である場合に、前記フィールドマップを用いて、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するか否かを推定する工程と、を含むものとしてもよい。
この方法によれば、２つのキーポイントの方向が十分に近接していて統合適合度が高い場合に、フィールドマップを用いて、２つのキーポイントが同一の対象物に属するか否かを推定できる。

（８）上記方法において、前記工程（c2-3）は、更に、（3c）前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属さないものと推定した場合には前記統合適合度を第１の値に調整し、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するものと推定した場合には前記統合適合度を前記第１の値よりも高い第２の値に調整する工程と、（3d）前記Ｍ×Ｎ個のキーポイントの中から、１番目のキーポイントからＮ番目のキーポイントまでのＮ個のキーポイントで構成される任意の１つのキーポイントセットを選択する工程と、（3e）前記キーポイントセットに含まれる任意の２つのキーポイントでそれぞれ構成されるＮ（Ｎ－１）／２個のキーポイント対に対する前記統合適合度を加算することによって、前記キーポイントセットに対するセット適合度を算出する工程と、（3f）前記工程（3d），（3e）を繰り返すことによって、複数の前記キーポイントセットに対する前記セット適合度を求める工程と、（3g）前記セット適合度の高い順に、前記キーポイントセットに関する前記グルーピングを確定する工程と、を含むものとしてもよい。
この方法によれば、セット適合度を用いてキーポイントセット毎に正確なグルーピングを行うことができる。

（９）上記方法において、前記工程（ｃ２）で使用する前記特徴マップは、画素同士が同一の対象物に属するものであるか否かを示すフィールドマップを含むものとしてもよい。前記工程（ｃ２）は、ｉ，ｊを１以上Ｎ以下の互いに異なる整数としたとき、（c2-1）Ｍ個のｉ番目のキーポイントから１つのｉ番目のキーポイントを選択するとともに、Ｍ個のｊ番目のキーポイントから１つのｊ番目のキーポイントを選択する工程と、（c2-2）前記フィールドマップを用いて、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するか否かを決定する工程と、を含むものとしてもよい。
この方法によれば、フィールドマップを用いて、２つのキーポイントが同一の対象物に属するか否かを決定できる。

（１０）上記方法において、前記工程（ｃ１）で使用する前記特徴マップは、前記Ｎ個のキーポイントのそれぞれを対象キーポイントとしたとき、前記対象キーポイントが存在する確率を示すマップであるＮ個のヒートマップと、前記カメラから、前記Ｍ個の対象物のそれぞれに属する複数の画素までの距離を示す距離マップと、を含むものとしてもよい。また、前記工程（ｃ１）は、（c1-1）ｎを１以上Ｎ以下の整数とするとき、ｎ番目のヒートマップを用いてｎ番目のキーポイントの２次元座標をＭ個求める工程と、（c1-2）前記距離マップと前記Ｍ個の前記ｎ番目のキーポイントの前記２次元座標から、前記Ｍ個の前記ｎ番目のキーポイントの３次元座標を決定する工程と、（c1-3）前記工程（c1-1），（c1-2）を繰り返すことによって、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する工程と、を含むものとしてもよい。
この方法によれば、機械学習モデルを用いて得られた特徴マップを用いてＭ×Ｎ個のキーポイントの３次元座標を求めることができる。

（１１）本開示の第４の形態によれば、Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムが提供される。このコンピュータープログラムは、（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する処理と、（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る処理と、（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める処理と、（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する処理と、を前記プロセッサーに実行させる。前記処理（ｃ）は、（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する処理と、（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする処理と、を含む。

本開示は、上記以外の種々の形態で実現することも可能である。例えば、ロボットとロボット制御装置とを備えたロボットシステム、ロボット制御装置の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記録した一時的でない記録媒体（non-transitory storage medium）等の形態で実現することができる。

１００…ロボット、１１０…基台、１２０…ロボットアーム、１２２…アームエンド、１５０…ハンド、２００…制御装置、３００…情報処理装置、３１０…プロセッサー、３２０…メモリー、３３０…インターフェイス回路、３４０…入力デバイス、３５０…表示デバイス、４００…カメラ、４１０…第１カメラ、４２０…第２カメラ、４３０…照明部、５００…架台、５１０…第１トレイ、５２０…第２トレイ、６１０…モデル学習部、６１２…教師データ作成部、６１４…学習実行部、６２０…位置姿勢認識部、６２２…キーポイント推定部、６２４…位置姿勢決定部、６３０…機械学習モデル

Claims

カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する方法であって、
（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する工程と、
（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する工程と、
（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する工程と、
（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する工程と、
を含む、方法。
請求項１に記載の方法であって、
前記複数の学習用対象物モデルの少なくとも１つは、前記基本形状データで表される基本形状を等倍によるサイズ変更でない形状変更方法で変更した形状を有する、
方法。
カメラで撮影される対象物の位置姿勢を前記対象物に設定された複数のキーポイントを用いて認識するために使用する機械学習モデルを学習する処理をプロセッサーに実行させるコンピュータープログラムであって、
（ａ）前記対象物の基本形状データを用いて、前記対象物の形状と表面特性のうちの少なくとも一部を変化させた複数の学習用対象物モデルを生成する処理と、
（ｂ）前記対象物が設置される環境に、前記複数の学習用対象物モデルの一部又は全部を配置した複数のシーンをシミュレーションで生成するとともに、前記複数のシーンをそれぞれ前記カメラで撮影して得られる複数のシミュレーション画像を生成する処理と、
（ｃ）前記複数のキーポイントに関連した特徴量の正解値を示す正解特徴マップを、前記複数のシミュレーション画像のそれぞれに対応して生成する処理と、
（ｄ）前記複数のシミュレーション画像と複数の前記正解特徴マップとを教師データとして用いて、前記カメラで撮影された入力画像から特徴マップを推定する前記機械学習モデルを学習する処理と、
を前記プロセッサーに実行させる、コンピュータープログラム。
Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する方法であって、
（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する工程と、
（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る工程と、
（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める工程と、
（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する工程と、
を含み、
前記工程（ｃ）は、
（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する工程と、
（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする工程と、
を含む、方法。
請求項４に記載の方法であって、
前記工程（ｃ２）で使用する前記特徴マップは、前記Ｎ個のキーポイントのそれぞれを対象キーポイントとしたとき、同一の対象物に属する複数の画素から前記対象キーポイントに向かう方向を示すベクトルを前記複数の画素に割り当てたマップであるＮ個の方向ベクトルマップを含み、
前記工程（ｃ２）は、ｉ，ｊを１以上Ｎ以下の互いに異なる整数としたとき、
（c2-1）Ｍ個のｉ番目のキーポイントから１つのｉ番目のキーポイントを選択するとともに、Ｍ個のｊ番目のキーポイントから１つのｊ番目のキーポイントを選択する工程と、
（c2-2）ｊ番目の方向ベクトルマップから得られる第１ベクトルであって前記ｉ番目のキーポイントの画素位置から前記ｊ番目のキーポイントに向かう方向を示す第１ベクトルと、前記ｉ番目のキーポイントの前記３次元座標で示される画素位置から前記ｊ番目のキーポイントの前記３次元座標で示される画素位置に向かう方向を示す第２ベクトルと、の方向の一致度を示す第１適合度を算出する工程と、
（c2-3）前記工程（c2-1），（c2-2）を繰り返し、前記第１適合度に応じて前記Ｍ×Ｎ個のキーポイントの前記グルーピングを行う工程と、
を含む、方法。
請求項５に記載の方法であって、
前記工程（c2-2）は、
（2a）i番目の方向ベクトルマップから得られる第３ベクトルであって前記ｊ番目のキーポイントの画素位置から前記ｉ番目のキーポイントに向かう方向を示す第３ベクトルと、前記ｊ番目のキーポイントの前記３次元座標で示される画素位置から前記ｉ番目のキーポイントの前記３次元座標で示される画素位置に向かう方向を示す第４ベクトルと、の方向の一致度を示す第２適合度を算出する工程と、
（2b）前記第１適合度と前記第２適合度を統合した統合適合度を算出する工程と、
を含み、
前記工程（c2-3）は、前記統合適合度に応じて前記グルーピングを実行する、
方法。
請求項６に記載の方法であって、
前記工程（ｃ２）で使用する前記特徴マップは、更に、
画素同士が同一の対象物に属するものであるか否かを示すフィールドマップを含み、
前記工程（c2-3）は、
（3a）前記統合適合度が閾値未満である場合に、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属さないものと推定する工程と、
（3b）前記統合適合度が前記閾値以上である場合に、前記フィールドマップを用いて、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するか否かを推定する工程と、
を含む、方法。
請求項７に記載の方法であって、
前記工程（c2-3）は、更に、
（3c）前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属さないものと推定した場合には前記統合適合度を第１の値に調整し、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するものと推定した場合には前記統合適合度を前記第１の値よりも高い第２の値に調整する工程と、
（3d）前記Ｍ×Ｎ個のキーポイントの中から、１番目のキーポイントからＮ番目のキーポイントまでのＮ個のキーポイントで構成される任意の１つのキーポイントセットを選択する工程と、
（3e）前記キーポイントセットに含まれる任意の２つのキーポイントでそれぞれ構成されるＮ（Ｎ－１）／２個のキーポイント対に対する前記統合適合度を加算することによって、前記キーポイントセットに対するセット適合度を算出する工程と、
（3f）前記工程（3d），（3e）を繰り返すことによって、複数の前記キーポイントセットに対する前記セット適合度を求める工程と、
（3g）前記セット適合度の高い順に、前記キーポイントセットに関する前記グルーピングを確定する工程と、
を含む、方法。
請求項４に記載の方法であって、
前記工程（ｃ２）で使用する前記特徴マップは、
画素同士が同一の対象物に属するものであるか否かを示すフィールドマップを含み、
前記工程（ｃ２）は、ｉ，ｊを１以上Ｎ以下の互いに異なる整数としたとき、
（c2-1）Ｍ個のｉ番目のキーポイントから１つのｉ番目のキーポイントを選択するとともに、Ｍ個のｊ番目のキーポイントから１つのｊ番目のキーポイントを選択する工程と、
（c2-2）前記フィールドマップを用いて、前記ｉ番目のキーポイントと前記ｊ番目のキーポイントが同一の対象物に属するか否かを決定する工程と、
を含む、方法。
請求項４に記載の方法であって、
前記工程（ｃ１）で使用する前記特徴マップは、
前記Ｎ個のキーポイントのそれぞれを対象キーポイントとしたとき、前記対象キーポイントが存在する確率を示すマップであるＮ個のヒートマップと、
前記カメラから、前記Ｍ個の対象物のそれぞれに属する複数の画素までの距離を示す距離マップと、
を含み、
前記工程（ｃ１）は、
（c1-1）ｎを１以上Ｎ以下の整数とするとき、ｎ番目のヒートマップを用いてｎ番目のキーポイントの２次元座標をＭ個求める工程と、
（c1-2）前記距離マップと前記Ｍ個の前記ｎ番目のキーポイントの前記２次元座標から、前記Ｍ個の前記ｎ番目のキーポイントの３次元座標を決定する工程と、
（c1-3）前記工程（c1-1），（c1-2）を繰り返すことによって、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する工程と、
を含む、方法。
Ｍを１以上の整数とし、Ｎを２以上の整数とするとき、対象物に設定された１番目からＮ番目までのＮ個のキーポイントを用いて前記対象物の位置姿勢を認識する処理をプロセッサーに実行させるコンピュータープログラムであって、
（ａ）Ｍ個の前記対象物を含むシーンをカメラで撮影することによって、入力画像を生成する処理と、
（ｂ）前記入力画像を入力とし、前記Ｎ個のキーポイントに関連した特徴量を示す特徴マップを出力とする学習済みの機械学習モデルを用いて、前記入力画像から前記特徴マップを得る処理と、
（ｃ）前記特徴マップを用いて、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を求める処理と、
（ｄ）前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントの３次元座標を用いて、前記Ｍ個の対象物のうちの１つ以上の対象物の位置姿勢を決定する処理と、
を前記プロセッサーに実行させ、
前記処理（ｃ）は、
（ｃ１）前記Ｍ個の対象物との対応関係が未定であるＭ×Ｎ個のキーポイントを求めるとともに、前記Ｍ×Ｎ個のキーポイントの前記３次元座標を決定する処理と、
（ｃ２）前記Ｍ×Ｎ個のキーポイントを、前記Ｍ個の対象物のそれぞれに属する前記Ｎ個のキーポイントにグルーピングする処理と、
を含む、コンピュータープログラム。