JP2021010970A

JP2021010970A - ロボットシステム及びロボット制御方法

Info

Publication number: JP2021010970A
Application number: JP2019126045A
Authority: JP
Inventors: 章介大西; Shosuke Onishi
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-02-04

Abstract

【課題】複数の対象物が撮像された場合でも、ロボットによる対象物の把持が失敗する可能性を低減できるロボットシステムを提供する。【解決手段】ロボットシステム１００は、ロボット１とロボット制御装置３とを備える。ロボット制御装置３はロボット１を制御する。ロボット制御装置３は、撮像部３７と、記憶部３５３と、物体認識部５１とを含む。撮像部３７は、ロボット１による把持の対象物Ｗを撮像して、対象物Ｗの画像を含む入力画像データＤ１を生成する。記憶部３５３は、機械学習により生成された学習済みの推論モデルＭＤ１を記憶している。物体認識部５１は、入力画像データＤ１を推論モデルＭＤ１に入力して、出力画像データＤ２を推論モデルＭＤ１に出力させる。出力画像データＤ２は、対象物Ｗを識別するためのラベルをピクセル単位で付加した対象物Ｗのラベル付画像を含む。【選択図】図２

Description

本発明は、ロボットシステム及びロボット制御方法に関する。

特許文献１には、廃棄物選別システムが記載されている。廃棄物選別システムでは、コンベアが廃棄物を搬送し、撮像装置群が搬送中の廃棄物を撮像する。モニターは、撮像された廃棄物を表示する。作業者が、モニターの画像から廃棄物の素材を判別し、入力部により素材を指定すると、廃棄物の画像データと重量センサーで取得した計測データとに素材情報が自動的に紐付けされる。教師データ記憶部は、素材情報が紐付けされた画像データ及び計測データを選別教師データとして記憶する。選別教師データは、廃棄物選別システムが廃棄物を選別するときの教師データとして利用され、学習データとして蓄積される。廃棄物選別システムの選別処理部によって、ロボットアームを駆動して廃棄物が素材別に選別される。

特開２０１７−１０９１６１号公報

しかしながら、特許文献１に記載されている廃棄物選別システムでは、モニターの画面中に複数の廃棄物が存在すると、紐付けが精度良く行われない可能性がある。その結果、選別教師データを学習した場合でも、モニターの画面中に複数の廃棄物が存在する場合は、廃棄物の選別の精度が低下する可能性がある。換言すれば、ロボットアームによる把持の対象物の認識の精度が低下する可能性がある。従って、モニターの画面中に複数の廃棄物が存在する場合は、ロボットアームによる各対象物の把持が失敗する可能性がある。

本発明は上記課題に鑑みてなされたものであり、その目的は、複数の対象物が撮像された場合でも、ロボットによる対象物の把持が失敗する可能性を低減できるロボットシステム及びロボット制御方法を提供することにある。

本発明の一局面によれば、ロボットシステムは、ロボットと、ロボット制御装置とを備える。ロボット制御装置は、前記ロボットを制御する。ロボット制御装置は、撮像部と、記憶部と、物体認識部とを含む。撮像部は、前記ロボットによる把持の対象物を撮像して、前記対象物の画像を含む入力画像データを生成する。記憶部は、機械学習により生成された学習済みの推論モデルを記憶している。物体認識部は、前記入力画像データを前記推論モデルに入力して、出力画像データを前記推論モデルに出力させる。前記出力画像データは、前記対象物を識別するためのラベルをピクセル単位で付加した前記対象物のラベル付画像を含む。

本発明の他の局面によれば、ロボット制御方法は、ロボットを制御する。ロボット制御方法は、前記ロボットによる把持の対象物を撮像して、前記対象物の画像を含む入力画像データを生成するステップと、機械学習により生成された学習済みの推論モデルに前記入力画像データを入力して、出力画像データを前記推論モデルに出力させるステップとを含む。前記出力画像データは、前記対象物を識別するためのラベルをピクセル単位で付加した前記対象物のラベル付画像を含む。

本発明に係るロボットシステム及びロボット制御方法よれば、複数の対象物が撮像された場合でも、ロボットによる対象物の把持が失敗する可能性を低減できる。

本発明の実施形態に係るロボットシステムを示す図である。本実施形態に係るロボットシステムの認識部を示す図である。本実施形態に係る推論モデルに入力する入力画像データ及び推論モデルが出力する出力画像データを示す図である。本実施形態に係るロボットシステムの表示部に表示された教師データ改変画面を示す図である。本実施形態に係るロボット制御装置が実行するロボット制御の一部を示すフローチャートである。本実施形態に係るロボット制御装置が実行するロボットの制御の他の一部を示すフローチャートである。本実施形態に係るロボット制御装置が実行する再学習制御の一部を示すフローチャートである。本実施形態に係るロボット制御装置が実行する再学習制御の他の一部を示すフローチャートである。

以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。

図１〜図８を参照して、本発明の実施形態に係るロボットシステム１００を説明する。本実施形態では、一例として、ロボットシステム１００は、ビジョンピッキングを実行する。まず、図１を参照して、ロボットシステム１００を説明する。

図１は、本実施形態に係るロボットシステム１００を示す図である。ロボットシステム１００は、ロボット１と、ロボット制御装置３とを備える。ロボット１は対象物Ｗを把持する。具体的には、ロボット１は、対象物Ｗを把持（ピック）し、対象物Ｗを所定位置まで搬送して載置（プレース）する動作を繰り返す。

ロボット１は、多関節アーム１１と、ハンド１３と、把持力センサー１５とを含む。多関節アーム１１は複数の関節軸１１１を含む。各関節軸１１１に対応して、トルクセンサーとモーターとエンコーダーとが配置されている。各関節軸１１１に搭載されているトルクセンサーは、各関節軸１１１にかかるトルクを検出して、検出結果をロボット制御装置３（具体的には後述するロボット制御部３１）に送信する。各関節軸１１１はモーターによって駆動される。各関節軸１１１に搭載されているエンコーダーは、各関節軸１１１の角度情報を検出して、検出結果をロボット制御装置３（具体的には後述するロボット制御部３１）に送信する。

ハンド１３は、多関節アーム１１の先端に配置される。多関節アーム１１が駆動されることで、ハンド１３の位置及び姿勢が変更される。ハンド１３は、開閉動作を行って、対象物Ｗを把持する。ハンド１３は、例えば、複数のフィンガーの開閉動作によって、対象物Ｗを把持する。ハンド１３は、例えば、エンドエフェクターである。

ハンド１３は、対象物Ｗを把持（ピック）し、対象物Ｗを所定位置まで搬送して載置（プレース）する動作を繰り返す。

把持力センサー１５は、ハンド１３が対象物Ｗを把持するときの把持力を検出して、把持力を示す把持力信号をロボット制御装置３（具体的には後述するロボット制御部３１）に送信する。把持力センサー１５は、例えば、圧力センサーである。この場合、圧力センサーは、ハンド１３のフィンガーに搭載される。圧力センサーは、ハンド１３が対象物Ｗを把持するときの圧力を検知して、圧力を示す圧力検知信号を把持力信号としてロボット制御部３１に送信する。

なお、把持力センサー１５は、例えば、力覚センサーであってもよい。この場合、力覚センサーは、ハンド１３に搭載される。力覚センサーは、ハンド１３が対象物Ｗを把持したときの反力を検出し、反力を示す反力検知信号を把持力信号としてロボット制御装置３（具体的には後述するロボット制御部３１）に送信する。力覚センサーは、例えば、６軸力覚センサーであり、Ｘ軸、Ｙ軸、Ｚ軸の各軸の力と、各軸周りのモーメントとを検出する。

ロボット制御装置３はロボット１を制御する。ロボット制御装置３は、ロボット制御部３１と、軌道生成部３３と、認識部３５と、撮像部３７とを含む。

撮像部３７は、ロボット１による把持の対象物Ｗを撮像して、対象物Ｗの画像を含む入力画像データＤ１を生成する。撮像部３７は、有線通信又は無線通信によって、入力画像データＤ１を認識部３５に送信する。本実施形態では、撮像部３７は、複数の同一の対象物Ｗ又は複数の異なる対象物Ｗを撮像して、複数の対象物Ｗをそれぞれ示す複数の画像を含む入力画像データＤ１を生成する。撮像部３７は、複数の対象物Ｗの上方に配置される。なお、撮像部３７が複数の対象物Ｗを撮像できる限りにおいては、撮像部３７の位置は、特に限定されず、例えば、ハンド１３に配置されていてもよい。また、入力画像データＤ１は、動画であってもよいし、静止画であってもよい。

入力画像データＤ１は、第１入力画像データＤ１１と、第２入力画像データＤ１２とを含む。第１入力画像データＤ１１及び第２入力画像データＤ１２の各々は、動画であってもよいし、静止画であってもよい。

具体的には、撮像部３７は、カメラ３７１と、深度センサー３７３とを含む。カメラ３７１は、対象物Ｗを撮像して、対象物Ｗを示すカラー画像を含む第１入力画像データＤ１１を生成する。本実施形態では、カメラ３７１は、複数の対象物Ｗを撮像して、複数の対象物Ｗをそれぞれ示す複数のカラー画像を含む第１入力画像データＤ１１を生成する。カラー画像は、例えば、ＲＧＢ画像である。例えば、カメラ３７１は、ＣＭＯＳイメージセンサー又はＣＣＤイメージセンサーを含む。

深度センサー３７３は、対象物Ｗを撮像して、対象物Ｗの深度画像を含む第２入力画像データＤ１２を生成する。本実施形態では、深度センサー３７３は、複数の対象物Ｗを撮像して、複数の対象物Ｗをそれぞれ示す複数の深度画像を含む第２入力画像データＤ１２を生成する。深度画像は、対象物Ｗを深度情報で示す。深度情報とは、深度センサー３７３の撮像面から対象物Ｗまでの深度（奥行き）を示す情報のことである。具体的には、深度センサー３７３は、画素単位で深度情報を取得する。従って、深度画像は、画素単位の深度情報の集合である。

なお、撮像部３７は、対象物Ｗのカラー画像及び深度画像を生成できる限りにおいては、カメラ３７１及び深度センサー３７３に代えて、三次元カメラを含んでいてもよい。三次元カメラは、例えば、ステレオカメラ又はＴｏＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）カメラである。

認識部３５は、入力画像データＤ１に基づいて各対象物Ｗを認識し、各対象物Ｗの認識結果に基づいて三次元空間における各対象物Ｗの三次元座標を計算する。対象物Ｗの三次元座標はハンド１３の目標座標に設定される。ハンド１３の目標座標は、ハンド１３の行動の終点を示す。さらに、認識部３５は、各対象物Ｗの認識結果に基づいて各対象物Ｗをハンド１３に把持させるときのハンド１３の目標回転角を計算する。目標回転角は、ハンド１３のロール角、ピッチ角、及び、ヨー角を含む。認識部３５は、ハンド１３の目標座標及び目標回転角を示す情報を軌道生成部３３に出力する。

認識部３５は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のようなプロセッサー、及び、記憶装置を含む。記憶装置は、データ及びコンピュータープログラムを記憶する。具体的には、記憶装置は、半導体メモリーのような主記憶装置と、半導体メモリー、ソリッドステートドライブ、及び／又は、ハードディスクドライブのような補助記憶装置とを含む。

軌道生成部３３は、認識部３５によって計算されたハンド１３の目標座標と、軌道生成アルゴリズムとに基づいて、ハンド１３の目標軌道（つまり、ハンド１３の経路計画を示す情報）を生成する。軌道生成アルゴリズムとしては、例えば、ＲＲＴ（ｒａｐｉｄｌｙ−ｅｘｐｌｏｒｉｎｇｒａｎｄｏｍｔｒｅｅ）、ＰＲＭ（ｐｒｏｂａｂｉｌｉｓｔｉｃｒｏａｄｍａｐ）、又は、ポテンシャル法を採用できる。軌道生成部３３は、ハンド１３の目標軌道及び目標回転角を示す情報をロボット制御部３１に出力する。

軌道生成部３３は、ＣＰＵのようなプロセッサー、及び、記憶装置を含む。記憶装置は、データ及びコンピュータープログラムを記憶する。記憶装置の構成は、認識部３５の記憶装置の構成と同様である。プロセッサーが、記憶装置に記憶されたコンピュータープログラムを実行することで、軌道生成部３３として機能する。

ロボット制御部３１は、ロボット１と、有線通信又は無線通信を行う。そして、ロボット制御部３１は、軌道生成部３３が生成した目標軌道にハンド１３が追従するように、多関節アーム１１に対してサーボ制御を実行する。また、ロボット制御部３１は、認識部３５によって計算された目標回転角を実現するように、ハンド１３に対してサーボ制御を実行する。さらに、ロボット制御部３１は、ハンド１３の動作状態と、把持力センサー１５から受信した把持力信号が示す把持力とに基づいて、ハンド１３による対象物Ｗの把持が成功したか否かを判定する。そして、ロボット制御部３１は、対象物Ｗの把持が成功したか否かを示す把持成否情報を生成する。ハンド１３の動作状態は、ハンド１３が開いた程度及び／又はハンド１３が閉じた程度を示す。そして、ロボット制御部３１は、把持成否情報を認識部３５に直接出力するか、又は、軌道生成部３３を介して把持成否情報を認識部３５に出力する。

ロボット制御部３１は、ＣＰＵのようなプロセッサー、及び、記憶装置を含む。記憶装置は、データ及びコンピュータープログラムを記憶する。記憶装置の構成は、認識部３５の記憶装置の構成と同様である。プロセッサーが、記憶装置に記憶されたコンピュータープログラムを実行することで、ロボット制御部３１として機能する。

なお、認識部３５と軌道生成部３３とロボット制御部３１とのうちの一部又は全部が、共通のプロセッサー及び共通の記憶装置によって構成されていてもよい。すなわち、認識部３５と軌道生成部３３とロボット制御部３１とが実装されるハードウェアは、単一でもよいし、分散されていてもよい。

次に、図２を参照して、認識部３５の詳細を説明する。図２は、認識部３５を示す図である。図２に示すように、認識部３５は、処理部３５１と、記憶部３５３と、操作部３５５とを含む。

操作部３５５は、ユーザーの操作を受け付ける。具体的には、操作部３５５は、表示部ＤＬと、入力部ＰＴとを含む。表示部ＤＬは画像を表示する。表示部ＤＬはディスプレーである。ディスプレーは、例えば、液晶ディスプレー又は有機エレクトロルミネッセンスディスプレーである。入力部ＰＴは、ユーザーから入力を受け付ける。本実施形態では、入力部ＰＴは、ユーザーからのタッチ入力を受け付けるタッチパネルである。タッチパネルは、例えば、ユーザーの指によるタッチ入力、又は、ユーザーが把持するスタイラスによるタッチ入力を受け付ける。タッチパネルは、ディスプレーの表示面に重ねて配置される。なお、例えば、入力部ＰＴは、キーボード及びポインティングデバイスであってもよい。

記憶部３５３は、記憶装置を含む。記憶装置は、データ及びコンピュータープログラムを記憶する。具体的には、記憶装置は、半導体メモリーのような主記憶装置と、半導体メモリー、ソリッドステートドライブ、及び／又は、ハードディスクドライブのような補助記憶装置とを含む。

記憶部３５３は、機械学習により生成された学習済みの推論モデルＭＤ１を記憶している。推論モデルＭＤ１は、入力画像データＤ１を入力して、出力画像データＤ２を出力する。出力画像データＤ２は、対象物Ｗのラベル付画像を含む。対象物Ｗのラベル付画像は、対象物Ｗの画像であって、対象物Ｗを識別するためのラベルが付加された画像を示す。対象物Ｗを識別するためのラベルは、本実施形態では、対象物Ｗの種類を示すラベルである。入力画像データＤ１が複数の対象物Ｗをそれぞれ示す複数の画像を含む場合は、出力画像データＤ２は、複数の対象物Ｗの複数の画像に対応して、複数の対象物Ｗをそれぞれ示す複数のラベル付画像を含む。

具体的には、推論モデルＭＤ１は、入力画像データＤ１から対象物Ｗを認識する。つまり、推論モデルＭＤ１は、入力画像データＤ１から対象物Ｗの画像及び種類を認識する。

そして、推論モデルＭＤ１は、認識した対象物Ｗの画像に対して、対象物Ｗを識別するためのラベルをピクセル単位で付加することで、対象物Ｗのラベル付画像を生成し、ラベル付画像を含む出力画像データＤ２を出力する。従って、本実施形態によれば、ピクセル単位でラベルが付加されるため、撮像部３７によって複数の対象物Ｗが撮像された場合であっても（つまり、入力画像データＤ１に複数の対象物Ｗをそれぞれ示す複数の画像が含まれる場合であっても）、矩形枠等の枠によってラベルを付加する場合と比較して、各対象物Ｗを精度良く認識できる。その結果、各対象物Ｗの認識結果に基づいてロボット１による各対象物Ｗの把持位置を精度良く指示できて、ロボット１（具体的にはハンド１３）による対象物Ｗの把持が失敗する可能性を低減できる。

特に、本実施形態では、推論モデルＭＤ１は、認識した対象物Ｗの画像に対して、認識した対象物Ｗの種類を示すラベルをピクセル単位で付加することで、対象物Ｗのラベル付画像を生成し、ラベル付画像を含む出力画像データＤ２を出力する。

更に具体的には、推論モデルＭＤ１は、認識した対象物Ｗの画像に対して、ラベルとしての色情報をピクセル単位で付加することでラベル付画像を生成し、ラベル付画像を含む出力画像データＤ２を出力する。ラベルは、推論モデルＭＤ１が認識した対象物Ｗの種類を示す。ラベルとしての色情報は、対象物Ｗの種類ごとに異なり、対象物Ｗの種類に応じて定められている。換言すれば、対象物Ｗの画像が、対象物Ｗの種類に応じて色によってピクセル単位でラベル付けされる。従って、対象物Ｗの種類が色によって示される。例えば、推論モデルＭＤ１は、認識した対象物Ｗの画像を構成する各ピクセルを、ラベルとしての色情報によって示される色、つまり、対象物Ｗの種類を示す色で塗り潰すことで、ラベル付画像を生成し、ラベル付画像を含む出力画像データＤ２を出力する。色情報は、対象物Ｗの種類に応じた単色を示す。

推論モデルＭＤ１を生成する機械学習のアルゴリズムは、教師あり学習であれば、特に限定されず、例えば、決定木、最近傍法、単純ベイズ分類器、サポートベクターマシン、又は、ニューラルネットワークである。従って、推論モデルＭＤ１は、決定木、最近傍法、単純ベイズ分類器、サポートベクターマシン、又は、ニューラルネットワークを含む。推論モデルＭＤ１を生成する機械学習において、誤差逆伝搬法を利用してもよい。

本実施形態では、推論モデルＭＤ１を生成する機械学習のアルゴリズムは、ニューラルネットワークである。つまり、推論モデルＭＤ１は、ニューラルネットワークを含む。ニューラルネットワークは、入力層、単数又は複数の中間層、及び、出力層を含む。好ましくは、ニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ：ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、再帰型ニューラルネットワーク（ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、又は、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）であり、ディープラーニングを行う。

ディープニューラルネットワークは、入力層、複数の中間層、及び、出力層を含む。畳み込みニューラルネットワークは、入力層、複数の畳み込み層、複数のプーリング層、全結合層、及び、出力層を含む。畳み込みニューラルネットワークでは、入力層と全結合層との間において、畳み込み層とプーリング層とが交互に繰り返されている。

特に好ましくは、推論モデルＭＤ１を生成する機械学習のアルゴリズムは、畳み込みニューラルネットワークである。つまり、推論モデルＭＤ１は、畳み込みニューラルネットワークを含むことが特に好ましい。例えば、機械学習のアルゴリズムは、畳み込みニューラルネットワークを採用するｐｉｘ２ｐｉｘのディープラーニングである。

推論モデルＭＤ１は、予め用意された複数の教師データセットを機械学習することで生成されている。複数の教師データセットの各々は、対象物を示す画像を含む入力画像データと対象物のラベル付画像を含む出力画像データとのデータセットであり、予め想定されて用意されている。

教師データセットを構成する入力画像データは、第１入力画像データと第２入力画像データとを含むことが好ましい。第１入力画像データは、予め用意されており、対象物を示すカラー画像を含む。第２入力画像データは、予め用意されており、対象物を深度情報で示す深度画像を含む。

教師データセットを構成する出力画像データにおいて、対象物のラベル付画像は、対象物の画像であって、対象物を識別するためのラベル（具体的には対象物の種類を示すラベル）が付加された画像を示す。

好ましくは、推論モデルＭＤ１は、ロボット１が設置される環境に応じた疑似外乱を示す情報を付加した教師データセットを含む複数の教師データセットを機械学習して生成されている。ロボット１が設置される環境は、ロボット１による把持の対象物が設置される環境である。この好ましい例によれば、推論モデルＭＤ１は、ロボット１が設置される環境に応じた外乱に強い。従って、推論モデルＭＤ１は、ロボット１が設置される環境に応じてより精度良く各対象物Ｗを認識できて、より精度良くラベルが付加されたラベル付画像を含む出力画像データＤ２を生成できる。

具体的には、教師データセットの入力画像データ（具体的には、対象物を示す画像）に対して、ロボット１が設置される環境に応じた疑似外乱を示す情報が付加されている。更に具体的には、教師データセットの第１入力画像データ（具体的には、対象物を示すカラー画像）に対して、ロボット１が設置される環境に応じた疑似外乱を示す情報が付加されている。具体的には、疑似外乱を示す情報は、ロボット１が設置される環境に特有のノイズを示す。例えば、疑似外乱を示す情報は、ロボット１が設置される環境の照明状態を示すノイズである。「疑似外乱」は、ロボット１が設置される環境における実際の外乱ではなく、コンピューターによって生成された外乱を示す。

引き続き図２を参照して、物体認識処理部５０を説明する。物体認識処理部５０は、撮像部３７が生成した入力画像データＤ１に基づいて、入力画像データＤ１に含まれる各画像が示す各対象物Ｗを認識する。具体的には、物体認識処理部５０は、撮像部３７が生成した第１入力画像データＤ１１及び第２入力画像データＤ１２に基づいて、第１入力画像データＤ１１に含まれる各画像が示す各対象物Ｗを認識する。

次に、図２及び図３を参照して、物体認識処理部５０の詳細を説明する。図２に示すように、物体認識処理部５０は、物体認識部５１と、座標出力部５２とを含む。図３は、物体認識部５１が推論モデルＭＤ１に入力する入力画像データＤ１及び推論モデルＭＤ１が出力する出力画像データＤ２を示す図である。

図２及び図３に示すように、物体認識部５１は、入力画像データＤ１を推論モデルＭＤ１に入力して、出力画像データＤ２を推論モデルＭＤ１に出力させる。

入力画像データＤ１は、第１入力画像データＤ１１及び第２入力画像データＤ１２を含む。

第１入力画像データＤ１１は、互いに異なる複数の対象物Ｗをそれぞれ示す複数のカラー画像ＲＢを含む。カラー画像ＲＢは、例えば、ＲＧＢ画像である。図３の例では、第１入力画像データＤ１１は、対象物Ｗ１のカラー画像ＲＢ１と、対象物Ｗ２のカラー画像ＲＢ２と、対象物Ｗ３のカラー画像ＲＢ３とを含む。第１入力画像データＤ１１は、１枚の画像を示し、１枚の画像が、カラー画像ＲＢ１と、カラー画像ＲＢ２と、カラー画像ＲＢ３とを含む。なお、図３では、図面の簡略化のために、カラー画像ＲＢ１とカラー画像ＲＢ２とカラー画像ＲＢ３とを、同じハッチングで示している。

第２入力画像データＤ１２は、互いに異なる複数の対象物Ｗをそれぞれ深度情報で示す複数の深度画像ＤＰを含む。図３の例では、第２入力画像データＤ１２は、対象物Ｗ１の深度画像ＤＰ１と、対象物Ｗ２の深度画像ＤＰ２と、対象物Ｗ３の深度画像ＤＰ３とを含む。第２入力画像データＤ１２は、１枚の画像を示しており、１枚の画像が、深度画像ＤＰ１と、深度画像ＤＰ２と、深度画像ＤＰ３とを含む。

出力画像データＤ２は、互いに異なる複数の対象物Ｗをそれぞれ示す複数のラベル付画像ＬＢを含む。図３の例では、出力画像データＤ２は、対象物Ｗ１のラベル付画像ＬＢ１と、対象物Ｗ２のラベル付画像ＬＢ２と、対象物Ｗ３のラベル付画像ＬＢ３とを含む。出力画像データＤ２は、１枚の画像を示し、１枚の画像が、ラベル付画像ＬＢ１と、ラベル付画像ＬＢ２と、ラベル付画像ＬＢ３とを含む。

具体的には、ラベル付画像ＬＢ１は、入力画像データＤ１に基づいて推論モデルＭＤ１が認識した対象物Ｗ１の画像に対して、対象物Ｗ１の種類を示すラベルとしての色情報（例えば、赤色）をピクセル単位で付加した画像である。つまり、ラベル付画像ＬＢ１は、単色（例えば、赤色）で塗り潰されている。

ラベル付画像ＬＢ２は、入力画像データＤ１に基づいて推論モデルＭＤ１が認識した対象物Ｗ２の画像に対して、対象物Ｗ２の種類を示すラベルとしての色情報（例えば、青色）をピクセル単位で付加した画像である。つまり、ラベル付画像ＬＢ２は、単色（例えば、青色）で塗り潰されている。

ラベル付画像ＬＢ３は、入力画像データＤ１に基づいて推論モデルＭＤ１が認識した対象物Ｗ３の画像に対して、対象物Ｗ３の種類を示すラベルとしての色情報（例えば、黄色）をピクセル単位で付加した画像である。つまり、ラベル付画像ＬＢ３は、単色（例えば、黄色）で塗り潰されている。

本実施形態では、推論モデルＭＤ１には、対象物Ｗのカラー画像ＲＢを含む第１入力画像データＤ１１だけでなく、深度画像ＤＰを含む第２入力画像データＤ１２が入力されるため、対象物Ｗの認識に対象物Ｗの深度情報が反映される。従って、推論モデルＭＤ１は、より精度良く対象物Ｗを認識できて、より精度良くラベル付画像ＬＢを生成できる。例えば、同じ形状で大きさの異なる複数の対象物Ｗが存在し得るところ、深度画像ＤＰを含む第２入力画像データＤ１２を入力することで、複数の対象物Ｗの大きさが本来的に異なるのか、又は、撮像部３７と対象物Ｗとの距離が異なるために同じ対象物Ｗでもカラー画像ＲＢの大きさが異なっているのかを判別できる。その結果、各対象物Ｗのカラー画像ＲＢに対して精度良くラベル付けを行うことができる。

座標出力部５２は、深度画像ＤＰを含む第２入力画像データＤ１２と、ラベル付画像ＬＢを含む出力画像データＤ２とに基づいて、ロボット１のハンド１３の位置を制御するための三次元座標（ｘ、ｙ、ｚ）を計算して、三次元座標（ｘ、ｙ、ｚ）を示す情報を軌道生成部３３に出力する。三次元座標（ｘ、ｙ、ｚ）は、三次元直交座標系の座標を示す。本実施形態によれば、深度画像ＤＰに基づく深度情報と、ピクセル単位でラベル付けされたラベル付画像ＬＢとに基づいて、ロボット１のハンド１３の位置を制御するための三次元座標（ｘ、ｙ、ｚ）が計算される。従って、ハンド１３を更に精度良く制御できて、ハンド１３による対象物Ｗの把持の失敗の可能性を更に低減できる。

具体的には、座標出力部５２は、深度画像ＤＰを含む第２入力画像データＤ１２と、ラベル付画像ＬＢを含む出力画像データＤ２とに基づいて、各対象物Ｗの点群データを生成する。そして、座標出力部５２は、各対象物Ｗの点群データに基づいて各対象物Ｗの三次元座標（ｘ、ｙ、ｚ）を計算する。そして、軌道生成部３３は、座標出力部５２によって計算された各対象物Ｗの三次元座標（ｘ、ｙ、ｚ）を、各対象物Ｗをハンド１３に把持させるときのハンド１３の目標座標に設定する。

また、座標出力部５２は、深度画像ＤＰを含む第２入力画像データＤ１２と、ラベル付画像ＬＢを含む出力画像データＤ２とに基づいて、ロボット１のハンド１３の回転を制御するための回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）を計算して、回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）を示す情報を軌道生成部３３に出力する。「ｒｏｌｌ」はロール角を示す。「ｐｉｔｃｈ」はピッチ角を示す。「ｙａｗ」はヨー角を示す。本実施形態によれば、深度画像ＤＰに基づく深度情報と、ピクセル単位でラベル付けされたラベル付画像ＬＢとに基づいて、ロボット１のハンド１３の回転を制御するための回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）が計算される。従って、ハンド１３を更に精度良く制御できて、ハンド１３による対象物Ｗの把持の失敗の可能性を更に低減できる。

具体的には、座標出力部５２は、各対象物Ｗの点群データに基づいて各対象物Ｗをハンド１３に把持させるときのハンド１３の回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）を計算する。そして、軌道生成部３３は、座標出力部５２によって計算されたハンド１３の回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）をハンド１３の目標回転角に設定する。

図２に戻って、教師データ生成部６０は、教師データセットＴＤを記憶するように、記憶部３５３を制御する。その結果、記憶部３５３は、複数の教師データセットＴＤを記憶する。複数の教師データセットＴＤの各々は、撮像部３７が生成した入力画像データＤ１と推論モデルＭＤ１が出力した出力画像データＤ２とを含むデータセットである。

具体的には、教師データ生成部６０は、教師データセットＴＤに、ロボット１による対象物Ｗの把持が成功したか否かを示す把持成否情報を関連付けて記憶するように、記憶部３５３を制御する。その結果、記憶部３５３は、教師データセットＴＤに把持成否情報を関連付けて記憶する。対象物Ｗの把持が成功したことを示す把持成否情報が関連付けられた教師データセットＴＤが、推論モデルＭＤ１の再学習に使用される。一方、対象物Ｗの把持が失敗したことを示す把持成否情報が関連付けられた教師データセットＴＤは、推論モデルＭＤ１の再学習に使用されない。

本実施形態によれば、教師データセットＴＤには把持成否情報が関連付けられている。従って、ハンド１３による把持の失敗が、推論モデルＭＤ１による対象物Ｗの誤認識に起因するのか、又は、他の原因であるのかを判別する際に有効である。

複数の教師データセットＴＤの各々は、表示部ＤＬに表示されて、ピクセル単位で改変されることが可能である。なお、対象物Ｗの把持が成功したことを示す把持成否情報が関連付けられた教師データセットＴＤが改変の対象であり、対象物Ｗの把持が失敗したことを示す把持成否情報が関連付けられた教師データセットＴＤは、改変の対象ではない。対象物Ｗの把持が失敗したことを示す把持成否情報が関連付けられた教師データセットＴＤは、推論モデルＭＤ１の再学習に使用されず、実質的には教師データセットでないからである。

具体的には、教師データ生成部６０は、教師データセットＴＤの入力画像データＤ１に含まれる対象物Ｗの画像と、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像とを表示するように、表示部ＤＬを制御する。その結果、表示部ＤＬは、入力画像データＤ１に含まれる対象物Ｗの画像と、出力画像データＤ２に含まれるラベル付画像とを表示する。

更に具体的には、教師データ生成部６０は、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像を半透明にして、教師データセットＴＤの入力画像データＤ１に含まれる対象物Ｗの画像の上に重ねて表示するように、表示部ＤＬを制御する。その結果、表示部ＤＬは、出力画像データＤ２に含まれるラベル付画像を半透明にして、入力画像データＤ１に含まれる対象物Ｗの画像の上に重ねて表示する。

入力部ＰＴは、ユーザーから、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像を、ピクセル単位で改変するための入力を受け付ける。

そして、教師データ生成部６０は、入力部ＰＴが受け付けた入力に応じて、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像をピクセル単位で改変する。従って、本実施形態によれば、ロボット１が設置される現場において撮像部３７によって生成された教師データセットＴＤを使用して、推論モデルＭＤ１を再学習させることができる。その結果、ロボット１が設置される現場に応じて推論モデルＭＤ１をチューニングできて、推論モデルＭＤ１による対象物Ｗの認識精度を更に向上できる。よって、各対象物Ｗの認識結果に基づいてロボット１による各対象物Ｗの把持位置を更に精度良く指示できて、ロボット１のハンド１３による対象物Ｗの把持が失敗する可能性を更に低減できる。

また、本実施形態によれば、ロボット１の設置後に、現場の環境を反映した教師データセットＴＤを現場のユーザーの入力によって容易に生成できる。従って、現場のユーザーが、推論モデルＭＤ１を再学習させて、推論モデルＭＤ１を現場に応じて容易にチューニングできる。その結果、ロボットシステム１００の現場への導入時において、推論モデルＭＤ１の設計者（例えば、システムインテグレーター）による推論モデルＭＤ１のチューニングの負荷を軽減できる。また、ロボットシステム１００の稼働場所を変更した場合でも、推論モデルＭＤ１の設計者に極力依存することなく、推論モデルＭＤ１をチューニングできる。

さらに、本実施形態によれば、表示部ＤＬは、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像を半透明にして、教師データセットＴＤの入力画像データＤ１に含まれる対象物Ｗの画像の上に重ねて表示する。従って、ユーザーは、対象物Ｗの画像を目視しながら、対象物Ｗの画像に略一致するように、ラベル付画像を容易に改変できる。

次に、図２及び図４を参照して、教師データセットＴＤの改変について具体例を挙げながら詳細に説明する。図４は、表示部ＤＬに表示された教師データ改変画面ＳＣを示す図である。

図４に示すように、教師データ改変画面ＳＣは、教師データ表示部８１と、改変作業画面８２と、改変ボタン８３と、確定ボタン８４と、ラベル表示部８５と、カラーコード表示部８６と、再学習ボタン８７と、選択ボタン８８ａと、選択ボタン８８ｂとを含む。

教師データ表示部８１には、教師データセットＴＤの第１入力画像データＤ１１に含まれる各対象物Ｗのカラー画像ＲＢと、教師データセットＴＤの出力画像データＤ２に含まれる各対象物Ｗのラベル付画像ＬＢとが表示される。

すなわち、図２に示す教師データ生成部６０は、教師データセットＴＤの第１入力画像データＤ１１に含まれる各対象物Ｗのカラー画像ＲＢと、教師データセットＴＤの出力画像データＤ２に含まれる各対象物Ｗのラベル付画像ＬＢとを教師データ表示部８１に表示するように、表示部ＤＬを制御する。

改変作業画面８２は、教師データセットＴＤを改変するための画面である。改変作業画面８２には、教師データセットＴＤの第１入力画像データＤ１１に含まれるカラー画像ＲＢの上に重ねて、出力画像データＤ２に含まれるラベル付画像ＬＢを半透明にして表示する。つまり、ラベル付画像ＬＢは半透明で透けており、ユーザーは、ラベル付画像ＬＢに重なっているカラー画像ＲＢを視認できる。

すなわち、教師データ生成部６０は、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像ＬＢを半透明にして、教師データセットＴＤの第１入力画像データＤ１１に含まれる対象物Ｗのカラー画像ＲＢの上に重ねて表示するように、表示部ＤＬを制御する。

ユーザーは、改変作業画面８２に表示された複数のラベル付画像ＬＢのうちの１つのラベル付画像ＬＢをタップして、改変対象のラベル付画像ＬＢを選択する。ユーザーは、所望のラベル付画像ＬＢを選択することで、複数のラベル付画像ＬＢごとに、改変作業画面８２に対するタッチ入力によってラベル付画像ＬＢをピクセル単位で改変できる。具体的には、ユーザーは、改変作業画面８２に表示されたラベル付画像ＬＢの形状が、ラベル付画像ＬＢに重なっているカラー画像ＲＢの形状に略一致するように、タッチ入力によってラベル付画像ＬＢをピクセル単位で改変する。

すなわち、教師データ生成部６０は、入力部ＰＴが受け付けたユーザーのタッチ入力に応じて、改変作業画面８２に表示されたラベル付画像ＬＢの形状が、ラベル付画像ＬＢに重なっているカラー画像ＲＢの形状に略一致するように、ラベル付画像ＬＢをピクセル単位で改変する。

例えば、教師データ生成部６０は、ユーザーのタッチ位置に位置するピクセルの色を、ラベル付画像ＬＢの色と同じ色に設定することで、ラベル付画像ＬＢの領域を変更し、ラベル付画像ＬＢを改変する。例えば、教師データ生成部６０は、ユーザーのタッチ入力によるラベル付画像ＬＢの輪郭の変更に応じて、ラベル付画像ＬＢの領域を変更し、ラベル付画像ＬＢを改変する。

具体的には、改変作業画面８２はレイヤー構造を有する。本実施形態では、改変作業画面８２は、第１層（奥側の層）と第２層（手前側の層）とを有し、第１層の上に第２層が重ねて配置される。

改変作業画面８２の第１層には、各対象物Ｗのカラー画像ＲＢが表示される。教師データ生成部６０は、第１層のカラー画像ＲＢに対する改変を禁止している。従って、ユーザーは、カラー画像ＲＢを改変することはできない。

改変作業画面８２の第２層には、各対象物Ｗの半透明のラベル付画像ＬＢが表示される。複数の半透明のラベル付画像ＬＢは、それぞれ、複数のカラー画像ＲＢの上に重ねて表示される。ラベル付画像ＬＢの透明度は、例えば、３０％以上５０％以下である。教師データ生成部６０は、第２層のラベル付画像ＬＢに対する改変を入力部ＰＴを介して受け付ける。従って、ユーザーは、ラベル付画像ＬＢを改変できる。

本実施形態では、ラベル付画像ＬＢは、推論モデルＭＤ１が認識した対象物Ｗの画像に対して、ラベルとしての色情報をピクセル単位で付加することで生成されている。従って、ユーザーにとってラベル付画像ＬＢを視認し易く、入力部ＰＴを介したユーザーによるラベル付画像ＬＢの改変が容易である。

改変ボタン８３は、改変作業画面８２に表示されたラベル付画像ＬＢの改変作業を開始することを、教師データ生成部６０に対して通知するためのボタンである。従って、改変ボタン８３が入力部ＰＴを介して押下されると、教師データ生成部６０は、ユーザーのタッチ入力によるラベル付画像ＬＢの改変を受け付ける。

確定ボタン８４は、改変作業画面８２に表示されたラベル付画像ＬＢの改変を確定することを、教師データ生成部６０に対して通知するためのボタンである。従って、確定ボタン８４が入力部ＰＴを介して押下されると、教師データ生成部６０は、ラベル付画像ＬＢの改変を確定する。そして、教師データ生成部６０は、改変前のラベル付画像ＬＢに代えて、改変後のラベル付画像ＬＢを教師データ表示部８１に表示するように、表示部ＤＬを制御する。その結果、教師データ表示部８１には、改変後のラベル付画像ＬＢが表示される。

以下、改変後のラベル付画像ＬＢを含む出力画像データＤ２を含む教師データセットＴＤを、「改変後の教師データセットＴＤ」と記載する場合がある。

ラベル表示部８５にはラベル情報（つまり、ラベル名）が表示される。ラベル情報は、改変対象として選択されているラベル付画像ＬＢのラベルによって示される対象物Ｗの種類を示す。教師データ生成部６０は、ラベル表示部８５に表示されたラベル情報の修正を、入力部ＰＴを介して受け付ける。

カラーコード表示部８６にはラベルの色情報が表示される。ラベルの色情報は、改変対象として選択されているラベル付画像ＬＢのラベルの色情報を示す。教師データ生成部６０は、カラーコード表示部８６に表示されたラベルの色情報の修正を、入力部ＰＴを介して受け付ける。

選択ボタン８８ａ及び選択ボタン８８ｂは、改変作業画面８２による改変対象の教師データセットＴＤを変更することを、教師データ生成部６０に対して通知するためのボタンである。従って、選択ボタン８８ａ又は選択ボタン８８ｂが入力部ＰＴを介して押下されると、教師データ生成部６０は、改変作業画面８２による改変対象の教師データセットＴＤを変更する。従って、改変作業画面８２及び教師データ表示部８１には、改変対象として新たなカラー画像ＲＢ及びラベル付画像ＬＢが表示される。

教師データ生成部６０は、改変作業画面８２における入力部ＰＴを介した入力に応じて、記憶部３５３に記憶された複数の教師データセットＴＤの一部又は全部を改変する。

再学習ボタン８７は、改変後の教師データセットＴＤを使用して推論モデルＭＤ１を再学習させることを、教師データ生成部６０に対して通知するためのボタンである。従って、教師データ生成部６０は、再学習ボタン８７が入力部ＰＴを介して押下されると、改変後の教師データセットＴＤを使用して推論モデルＭＤ１を再学習させるように、学習処理部７０に対して指示する。

なお、教師データ改変画面ＳＣの表示対象（つまり、改変対象）は、対象物Ｗの把持が成功したことを示す把持成否情報が関連付けられた教師データセットＴＤである。ただし、表示部ＤＬは、教師データ改変画面ＳＣに、対象物Ｗの把持が失敗したことを示す把持成否情報が関連付けられた教師データセットＴＤに含まれる対象物Ｗのカラー画像及びラベル付画像を、改変対象でないことを示しつつ表示してもよい。例えば、表示部ＤＬは、対象物Ｗの把持が失敗したことを示す把持成否情報が関連付けられた教師データセットＴＤと、対象物Ｗの把持が成功したことを示す把持成否情報が関連付けられた教師データセットＴＤとで、教師データ表示部８１及び改変作業画面８２における背景色を異ならせる。

図２に戻って、学習処理部７０を説明する。学習処理部７０は、１以上の改変後の教師データセットＴＤを含む複数の教師データセットＴＤを推論モデルＭＤ１に入力して、推論モデルＭＤ１を再学習させる。なお、再学習させる推論モデルＭＤ１は、オリジナルの推論モデルＭＤ１の複製であり、再学習させていないオリジナルの推論モデルＭＤ１は記憶部３５３に保存されている。

具体的には、学習処理部７０は、学習部７１と、評価部７２とを含む。学習部７１は、改変後のラベル付画像ＬＢを含む教師データセットＴＤを推論モデルＭＤ１に入力して、推論モデルＭＤ１に再学習させる。そして、学習部７１は、再学習後の推論モデルＭＤ１を推論モデル候補ＭＤ２として記憶するように、記憶部３５３を制御する。その結果、記憶部３５３は、推論モデル候補ＭＤ２を記憶する。

具体的には、教師データ生成部６０は、１以上の改変後の教師データセットＴＤを含む複数の教師データセットＴＤの一部（例えば、複数の教師データセットＴＤの８０％）を使用して推論モデルＭＤ１に再学習させるように、学習部７１に指示する。その結果、学習部７１は、１以上の改変後の教師データセットＴＤを含む複数の教師データセットＴＤの一部を推論モデルＭＤ１に入力して、推論モデルＭＤ１を再学習させる。

評価部７２は、推論モデルＭＤ１（具体的にはオリジナルの推論モデルＭＤ１）及び推論モデル候補ＭＤ２の性能を評価するための評価データ（以下、「評価データＥＶ」と記載する。）を推論モデルＭＤ１及び推論モデル候補ＭＤ２の各々に入力して、推論モデルＭＤ１の出力結果と推論モデル候補ＭＤ２の出力結果とを評価する。

具体的には、教師データ生成部６０は、１以上の改変後の教師データセットＴＤを含む複数の教師データセットＴＤの他の一部（例えば、複数の教師データセットＴＤの残りの２０％）を評価データＥＶとして使用して、推論モデルＭＤ１及び推論モデル候補ＭＤ２を評価するように、評価部７２に指示する。その結果、評価部７２は、１以上の改変後の教師データセットＴＤを含む複数の教師データセットＴＤの他の一部を、推論モデルＭＤ１及び推論モデル候補ＭＤ２の各々に入力して、推論モデルＭＤ１の出力結果と推論モデル候補ＭＤ２の出力結果とを評価する。

そして、評価部７２は、推論モデルＭＤ１の評価よりも推論モデル候補ＭＤ２の評価が高い場合に、推論モデルＭＤ１に代えて、推論モデル候補ＭＤ２を新たに推論モデルに設定する。従って、物体認識部５１は、新たに設定された推論モデルによって、対象物Ｗを認識する。一方、評価部７２は、推論モデルＭＤ１の評価が推論モデル候補ＭＤ２の評価よりも高いか同じ場合、推論モデルＭＤ１を維持し、推論モデル候補ＭＤ２を破棄する。

本実施形態によれば、推論モデルＭＤ１の評価よりも推論モデル候補ＭＤ２の評価が高い場合にだけ、推論モデル候補ＭＤ２が新たな推論モデルとして設定される。従って、評価の高い新たな推論モデルによって、更に精度良く各対象物Ｗを認識できる。その結果、ハンド１３による各対象物Ｗの把持位置を精度良く指示できて、ハンド１３による対象物Ｗの把持が失敗する可能性を更に低減できる。

更に具体的は、評価データＥＶは、推論モデルＭＤ１及び推論モデル候補ＭＤ２を評価するための教師データセットＴＤである。従って、推論モデルＭＤ１及び推論モデル候補ＭＤ２の各々は、評価データＥＶに含まれる入力画像データＤ１から対象物Ｗの画像を認識し、認識した対象物Ｗの画像に対して、ラベルとしての色情報をピクセル単位で付加することでラベル付画像を生成し、ラベル付画像を含む出力画像データを出力する。

そして、評価部７２は、評価データＥＶに含まれる出力画像データＤ２（つまり、正解データ）と、推論モデルＭＤ１が出力した出力画像データとに基づいて、推論モデルＭＤ１による対象物Ｗの認識の精度（つまり、推論モデルＭＤ１の性能）を評価する。一方、評価部７２は、評価データＥＶに含まれる出力画像データＤ２（つまり、正解データ）と、推論モデル候補ＭＤ２が出力した出力画像データとに基づいて、推論モデル候補ＭＤ２による対象物Ｗの認識の精度（つまり、推論モデルＭＤ１の性能）を評価する。

対象物Ｗの認識の精度は、推論モデルＭＤ１が出力した出力画像データに含まれるラベル付画像が、評価データＥＶに含まれる出力画像データＤ２（つまり、正解データ）のラベル付画像ＬＢと一致している程度を示す。評価部７２は、例えば、評価指標として、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）を採用する。

そして、評価部７２は、推論モデル候補ＭＤ２の評価が推論モデルＭＤ１の評価よりも高い場合、つまり、推論モデル候補ＭＤ２による対象物Ｗの認識の精度が推論モデルＭＤ１による対象物Ｗの認識の精度よりも高い場合に、推論モデルＭＤ１に代えて、推論モデル候補ＭＤ２を新たに推論モデルに設定する。一方、評価部７２は、推論モデルＭＤ１による対象物Ｗの認識の精度が推論モデル候補ＭＤ２による対象物Ｗの認識の精度よりも高いか同じ場合、推論モデルＭＤ１を維持し、推論モデル候補ＭＤ２を破棄する。

ここで、処理部３５１はＣＰＵのようなプロセッサーを含む。そして、処理部３５１のプロセッサーが、記憶部３５３の記憶装置に記憶されたコンピュータープログラムを実行することによって、物体認識部５１、座標出力部５２、教師データ生成部６０、学習部７１、及び、評価部７２として機能する。

なお、物体認識部５１と座標出力部５２と教師データ生成部６０と学習部７１と評価部７２とのうちの一部又は全部が、共通のプロセッサー及び記憶装置によって実現されていてもよいし、異なるプロセッサー及び記憶装置によって実現されていてもよい。例えば、教師データ生成部６０を実現するプロセッサー及び記憶装置が、物体認識処理部５０及び学習処理部７０を実現するプロセッサー及び記憶装置と異なっていてもよい。そして、教師データ生成部６０を実現するプロセッサーが、操作部３５５を制御してもよい。この場合、教師データ生成部６０及び操作部３５５は、物体認識処理部５０及び学習処理部７０が実装されるコンピューターと異なるコンピューター（例えば、タブレット端末又はパーソナルコンピューター）に実装される。教師データ生成部６０及び操作部３５５が実装されるコンピューターは、例えば、ロボット１から離れた位置に配置されていてもよいし、物体認識処理部５０及び学習処理部７０が実装されるコンピューターの近傍に配置されていてもよい。

すなわち、物体認識部５１と座標出力部５２と教師データ生成部６０と学習部７１と評価部７２とが実装されるハードウェアは、単一でもよいし、分散されていてもよい。また、操作部３５５及び記憶部３５３の配置も特に限定されない。

以上、図１〜図４を参照して説明したように、本実施形態によれば、推論モデルＭＤ１がピクセル単位でラベルを付加したラベル付画像ＬＢを生成するため、撮像部３７が生成した入力画像データＤ１に複数の対象物Ｗをそれぞれ示す複数の画像が含まれる場合であっても、各対象物Ｗを精度良く認識できる。その結果、各対象物Ｗの認識結果に基づいてロボット１のハンド１３による各対象物Ｗの把持位置を精度良く指示できて、ハンド１３による各対象物Ｗの把持が失敗する可能性を低減できる。

本実施形態では、ハンド１３が対象物Ｗを把持し得る限りにおいては、ハンド１３による把持の対象物Ｗの種類は特に限定されない。

例えば、対象物Ｗは、画像形成装置の部品である。画像形成装置は、シートに画像を形成する。画像形成装置は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能のような複数の機能を兼ね備えた複合機である。画像形成装置は、例えば、プリンター、コピー機、又は、ファクシミリ装置である。画像形成装置の部品としての対象物Ｗは、例えば、シートを搬送するための搬送ローラー、フィードローラー、シートの重送を抑制するためにフィードローラーに圧接して分離ニップを形成するリタードローラー、又は、トナーを収容するトナーコンテナを構成する部品（例えば、容器）である。

例えば、本発明は、対象物Ｗが画像形成装置に搭載される光学部品である場合に特に有効である。なぜなら、ロボット１のハンド１３による各対象物Ｗの把持位置を精度良く指示できるため、高い配置の精度が要求される光学部品であっても、ロボット１は、精度良く光学部品を把持（ピック）し、光学部品を所定位置まで搬送して精度良く載置（プレース）する動作を繰り返すことができるからである。

画像形成装置の光学部品としての対象物Ｗは、例えば、画像形成装置の画像読取装置（ＩＳＵ：Ｉｍａｇｅｓｃａｎｎｅｒｕｎｉｔ）を構成するレンズ又は撮像素子である。画像読取装置は原稿の画像を読み取る。例えば、画像形成装置の光学部品としての対象物Ｗは、画像形成装置の露光装置（ＬＳＵ：ＬａｓｅｒＳｃａｎｎｅｒＵｎｉｔ）を構成するレンズ、ポリゴンミラー、コリメーターレンズ、又は、レーザーである。露光装置は感光体ドラムを露光する。

次に、図１、図２、図５、及び、図６を参照して、ロボット制御装置３が実行するロボット１の制御を説明する。図５及び図６は、ロボット制御装置３が実行するロボット１の制御を示すフローチャートである。図５及び図６に示すように、ロボット１の制御は、ステップＳ１〜ステップＳ１８を含む。つまり、ステップＳ１〜ステップＳ１８は、ロボット１を制御するロボット制御方法の一部を構成する。

図１、図２、及び、図５に示すように、ステップＳ１において、撮像部３７は対象物Ｗの撮像を開始する。つまり、撮像部３７は、ロボット１による把持の対象物Ｗを撮像して、対象物Ｗの画像を含む入力画像データＤ１（第１入力画像データＤ１１及び第２入力画像データＤ１２）を生成する。

ステップＳ２において、物体認識部５１は、機械学習により生成された学習済みの推論モデルＭＤ１に入力画像データＤ１（第１入力画像データＤ１１及び第２入力画像データＤ１２）を入力して、出力画像データＤ２を推論モデルＭＤ１に出力させる。出力画像データＤ２は、対象物Ｗを識別するためのラベルをピクセル単位で付加した対象物Ｗのラベル付画像ＬＢを含む。

ステップＳ３において、物体認識部５１は、出力画像データＤ２に基づいて対象物Ｗが存在するか否かを判定する。ステップＳ３で対象物Ｗが存在しないと判定された場合（ステップＳ３でＮｏ）、制御は終了する。物体認識部５１は、出力画像データＤ２にラベル付画像ＬＢが存在しない場合に、対象物Ｗが存在しないと判定する。一方、ステップＳ３で対象物Ｗが存在すると判定された場合（ステップＳ３でＹｅｓ）、制御はステップＳ４に進む。物体認識部５１は、出力画像データＤ２にラベル付画像ＬＢが存在する場合に、対象物Ｗが存在すると判定する。

ステップＳ４において、座標出力部５２は、深度画像ＤＰを含む第２入力画像データＤ１２と、ラベル付画像ＬＢを含む出力画像データＤ２とに基づいて、ロボット１のハンド１３の目標座標を計算する。目標座標は、対象物Ｗの把持位置を示す三次元座標である。

ステップＳ５において、軌道生成部３３は、ハンド１３の目標座標と、軌道生成アルゴリズムとに基づいて、ハンド１３の目標軌道を生成する。

ステップＳ６において、ロボット制御部３１は、目標軌道にハンド１３が追従するように、多関節アーム１１を駆動する。

ステップＳ７において、ロボット制御部３１は、ハンド１３が目標座標に到達したか否かを判定する。ステップＳ７でハンド１３が目標座標に到達していないと判定された場合（ステップＳ７でＮｏ）、制御はステップＳ５に進む。一方、ステップＳ７でハンド１３が目標座標に到達したと判定された場合（ステップＳ７でＹｅｓ）、制御はステップＳ８に進む。

ステップＳ８において、ロボット制御部３１は、ハンド１３が閉じるように、ハンド１３を制御する。

ステップＳ９において、ロボット制御部３１は、ハンド１３の動作状態と、把持力センサー１５から受信した把持力信号が示す把持力とに基づいて、ハンド１３による対象物Ｗの把持が成功したか否かを判定する。

ステップＳ９で対象物Ｗの把持が失敗したと判定された場合（ステップＳ９でＮｏ）、制御はステップＳ１２に進む。

ステップＳ１２において、ロボット制御部３１は、対象物Ｗの把持が失敗したことを示す把持成否情報を、教師データ生成部６０に出力する。また、ロボット制御部３１は、対象物Ｗの把持が失敗したことを、ランプ又は音によってユーザーに報知する。

ステップＳ１３において、教師データ生成部６０は、対象物Ｗの把持が失敗したことを示す把持成否情報と関連付けて教師データセットＴＤ（入力画像データＤ１及び出力画像データＤ２を含むデータセット）を記憶するように、記憶部３５３を制御する。そして、制御は終了する。

一方、ステップＳ９で対象物Ｗの把持が成功したと判定された場合（ステップＳ９でＹｅｓ）、制御はステップＳ１０に進む。

ステップＳ１０において、ロボット制御部３１は、対象物Ｗの把持が成功したことを示す把持成否情報を、教師データ生成部６０に出力する。

ステップＳ１１において、教師データ生成部６０は、対象物Ｗの把持が成功したことを示す把持成否情報と関連付けて教師データセットＴＤ（入力画像データＤ１及び出力画像データＤ２を含むデータセット）を記憶するように、記憶部３５３を制御する。そして、制御は図６に示すステップＳ１４に進む。

図６に示すように、ステップＳ１４において、ロボット制御部３１は、ロボット１のハンド１３の目標座標を指定する。目標座標は、ハンド１３に把持された対象物Ｗの載置位置を示す三次元座標である。

ステップＳ１５において、軌道生成部３３は、ハンド１３の目標座標と、軌道生成アルゴリズムとに基づいて、ハンド１３の目標軌道を生成する。

ステップＳ１６において、ロボット制御部３１は、目標軌道にハンド１３が追従するように、多関節アーム１１を駆動する。

ステップＳ１７において、ロボット制御部３１は、ハンド１３が目標座標に到達したか否かを判定する。ステップＳ１７でハンド１３が目標座標に到達していないと判定された場合（ステップＳ１７でＮｏ）、制御はステップＳ１５に進む。一方、ステップＳ１７でハンド１３が目標座標に到達したと判定された場合（ステップＳ１７でＹｅｓ）、制御はステップＳ１８に進む。

ステップＳ１８において、ロボット制御部３１は、ハンド１３が開くように、ハンド１３を制御する。その結果、ハンド１３に把持された対象物Ｗが目標座標で示される載置位置に載置される。そして、制御は、図５に示すステップＳ２に進む。

以上、図５及び図６を参照して説明したように、本実施形態に係るロボット制御方法によれば、ピクセル単位でラベルが付加されるため（ステップＳ２）、撮像部３７によって生成された入力画像データＤ１に複数の対象物Ｗをそれぞれ示す複数の画像が含まれる場合であっても、各対象物Ｗを精度良く認識できる。

次に、図２、図７、及び、図８を参照して、ロボット制御装置３が実行する再学習制御を説明する。図７及び図８は、ロボット制御装置３が実行する再学習制御を示すフローチャートである。図７及び図８に示すように、再学習制御は、ステップＳ３１〜ステップＳ４１を含む。つまり、ステップＳ３１〜ステップＳ４１は、ロボット１を制御するロボット制御方法の一部を構成する。

図２及び図７に示すように、ステップＳ３１において、教師データ生成部６０は、教師データセットＴＤを教師データ改変画面ＳＣ（図４）に表示するように、表示部ＤＬを制御する。

ステップＳ３２において、教師データ生成部６０は、入力部ＰＴ及び改変作業画面８２（図４）を介して、ユーザーから教師データセットＴＤ（具体的にはラベル付画像ＬＢ）の改変指示を受け付ける。

ステップＳ３３において、教師データ生成部６０は、入力部ＰＴ及び改変作業画面８２を介したユーザーからの改変指示に応じて教師データセットＴＤ（具体的にはラベル付画像ＬＢ）を改変する。

ステップＳ３４において、教師データ生成部６０は、改変後の教師データセットＴＤを記憶するように、記憶部３５３を制御する。

ステップＳ３５において、教師データ生成部６０は、再学習ボタン８７（図４）を介して推論モデルＭＤ１の再学習指示を受け付けたか否かを判定する。

ステップＳ３５で再学習指示を受け付けていないと判定された場合（ステップＳ３５でＮｏ）、制御はステップＳ３６に進む。

ステップＳ３６において、教師データ生成部６０は、選択ボタン８８ａ又は選択ボタン８８ｂ（図４）を介して改変対象の教師データセットＴＤの変更指示を受け付けたか否かを判定する。

ステップＳ３６で改変対象の変更指示を受け付けていないと判定された場合（ステップＳ３６でＮｏ）、制御はステップＳ３５に進む。一方、ステップＳ３６で改変対象の変更指示を受け付けたと判定された場合（ステップＳ３６でＹｅｓ）、制御はステップＳ３１に進む。

一方、ステップＳ３５で再学習指示を受け付けたと判定された場合（ステップＳ３５でＹｅｓ）、制御は図８のステップＳ３７に進む。

図８に示すように、ステップＳ３７において、学習部７１は、改変後のラベル付画像ＬＢを含む教師データセットＴＤを推論モデルＭＤ１に入力して、推論モデルＭＤ１に再学習を実行させる。

ステップＳ３８において、推論モデルＭＤ１は再学習を実行する。再学習後の推論モデルＭＤ１は、推論モデル候補ＭＤ２として記憶部３５３に記憶される。

ステップＳ３９において、評価部７２は、評価データＥＶを、推論モデルＭＤ１（具体的には再学習していないオリジナルの推論モデルＭＤ１）と推論モデル候補ＭＤ２との各々に入力して、推論モデルＭＤ１の出力結果と推論モデル候補ＭＤ２の出力結果とを評価する。

ステップＳ４０において、評価部７２は、推論モデル候補ＭＤ２の評価が推論モデルＭＤ１の評価よりも高いか否かを判定する。

ステップＳ４０で推論モデル候補ＭＤ２の評価が推論モデルＭＤ１の評価よりも高くないと判定された場合（ステップＳ４０でＮｏ）、制御は終了する。この場合は、物体認識部５１は、推論モデルＭＤ１（具体的には再学習していないオリジナルの推論モデルＭＤ１）によって対象物Ｗを認識して、ラベル付画像ＬＢを含む出力画像データＤ２を生成する。

一方、ステップＳ４０で推論モデル候補ＭＤ２の評価が推論モデルＭＤ１の評価よりも高いと判定された場合（ステップＳ４０でＹｅｓ）、制御はステップＳ４１に進む。

ステップＳ４１において、評価部７２は、推論モデルＭＤ１（具体的には再学習していないオリジナルの推論モデルＭＤ１）に代えて、推論モデル候補ＭＤ２を新たに推論モデルに設定する。そして、制御は終了する。この場合は、物体認識部５１は、新たに設定された推論モデルによって対象物Ｗを認識して、ラベル付画像ＬＢを含む出力画像データＤ２を生成する。そして、制御は終了する。

以上、図７及び図８を参照して説明したように、本実施形態に係るロボット制御方法によれば、入力部ＰＴがユーザーから受け付けた入力に応じて、教師データセットＴＤの出力画像データＤ２に含まれるラベル付画像をピクセル単位で改変する（ステップＳ３２、Ｓ３３）。従って、ロボット１が設置される現場において撮像部３７によって生成された教師データセットＴＤを使用して、推論モデルＭＤ１を再学習させることができる（ステップＳ３８）。その結果、ロボット１が設置される現場に応じて再学習した推論モデルＭＤ１である推論モデル候補ＭＤ２を、新たな推論モデルに設定できる（ステップＳ４１）。よって、物体認識部５１が新たな推論モデルを使用することで、対象物Ｗの認識精度を更に向上できる。

以上、図面を参照して本発明の実施形態について説明した。ただし、本発明は、上記の実施形態に限られるものではなく、その要旨を逸脱しない範囲で種々の態様において実施できる。また、上記の実施形態に開示される複数の構成要素は適宜改変可能である。例えば、ある実施形態に示される全構成要素のうちのある構成要素を別の実施形態の構成要素に追加してもよく、または、ある実施形態に示される全構成要素のうちのいくつかの構成要素を実施形態から削除してもよい。

また、図面は、発明の理解を容易にするために、それぞれの構成要素を主体に模式的に示しており、図示された各構成要素の厚さ、長さ、個数、間隔等は、図面作成の都合上から実際とは異なる場合もある。また、上記の実施形態で示す各構成要素の構成は一例であって、特に限定されるものではなく、本発明の効果から実質的に逸脱しない範囲で種々の変更が可能であることは言うまでもない。

（１）図２に示す座標出力部５２は、撮像部３７が生成した深度画像ＤＰを含む第２入力画像データＤ１２と、推論モデルＭＤ１が出力した出力画像データＤ２とを、機械学習により生成された学習済みの座標推論モデル（以下、「座標推論モデルＭＤＣ」と記載する。）に入力して、ロボット１のハンド１３の位置を制御するための三次元座標（ｘ、ｙ、ｚ）を座標推論モデルＭＤＣに出力させてもよい。この好ましい例では、機械学習により生成された学習済みの座標推論モデルＭＤＣが三次元座標（ｘ、ｙ、ｚ）を出力するため、ハンド１３を更に精度良く制御できて、ハンド１３による対象物Ｗの把持の失敗の可能性を更に低減できる。

また、座標出力部５２は、撮像部３７が生成した深度画像ＤＰを含む第２入力画像データＤ１２と、推論モデルＭＤ１が出力した出力画像データＤ２とを、座標推論モデルＭＤＣに入力して、ロボット１のハンド１３の回転を制御するための回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）を座標推論モデルＭＤＣに出力させてもよい。この好ましい例では、機械学習により生成された学習済みの座標推論モデルＭＤＣが回転角（ｒｏｌｌ、ｐｉｔｃｈ、ｙａｗ）を出力するため、ハンド１３を更に精度良く制御できて、ハンド１３による対象物Ｗの把持の失敗の可能性を更に低減できる。

座標推論モデルＭＤＣを生成する機械学習のアルゴリズムは、推論モデルＭＤ１を生成する機械学習のアルゴリズムと同様である。従って、座標推論モデルＭＤＣは、決定木、最近傍法、単純ベイズ分類器、サポートベクターマシン、又は、ニューラルネットワーク（例えば、ディープニューラルネットワーク、再帰型ニューラルネットワーク、又は、畳み込みニューラルネットワーク）を含む。

（２）図１に示すロボット制御装置３の撮像部３７は、深度センサー３７３を含んでいなくてもよい。従って、撮像部３７が生成する入力画像データＤ１は、第２入力画像データＤ１２（図２〜図４）を含んでいなくてもよい。つまり、教師データセットＴＤは、第２入力画像データＤ１２（図２〜図４）を含んでいなくてもよい。機械学習によって推論モデルＭＤ１を生成するときの教師データセットの入力画像データも、第２入力画像データを含んでいなくてもよい。

本発明は、ロボットシステム及びロボット制御方法に利用可能であり、産業上の利用可能性を有する。

１ロボット
３ロボット制御装置
１３ハンド
３７撮像部
５１物体認識部
５２座標出力部
６０教師データ生成部
７１学習部
７２評価部
１００ロボットシステム
ＤＬ表示部
ＰＴ入力部
ＭＤ１推論モデル
ＭＤ２推論モデル候補
Ｗ対象物

Claims

ロボットと、
前記ロボットを制御するロボット制御装置と
を備え、
前記ロボット制御装置は、
前記ロボットによる把持の対象物を撮像して、前記対象物の画像を含む入力画像データを生成する撮像部と、
機械学習により生成された学習済みの推論モデルを記憶している記憶部と、
前記入力画像データを前記推論モデルに入力して、出力画像データを前記推論モデルに出力させる物体認識部と
を含み、
前記出力画像データは、前記対象物を識別するためのラベルをピクセル単位で付加した前記対象物のラベル付画像を含む、ロボットシステム。
前記記憶部は、前記入力画像データと前記出力画像データとを含むデータセットを、前記推論モデルを再学習させるための教師データセットとして記憶し、
前記ロボット制御装置は、
表示部と、
前記教師データセットの前記入力画像データに含まれる前記対象物の前記画像と、前記教師データセットの前記出力画像データに含まれる前記ラベル付画像とを表示するように、前記表示部を制御する教師データ生成部と、
ユーザーから、前記教師データセットに含まれる前記ラベル付画像をピクセル単位で改変するための入力を受け付ける入力部と
をさらに含み、
前記教師データ生成部は、前記入力部が受け付けた前記入力に応じて前記教師データセットに含まれる前記ラベル付画像をピクセル単位で改変する、請求項１に記載のロボットシステム。
前記推論モデルは、前記入力画像データから前記対象物の画像を認識し、認識した前記対象物の前記画像に対して、前記ラベルとしての色情報をピクセル単位で付加することで前記ラベル付画像を生成し、前記ラベル付画像を含む前記出力画像データを出力し、
前記教師データ生成部は、前記教師データセットの前記出力画像データに含まれる前記ラベル付画像を半透明にして、前記教師データセットの前記入力画像データに含まれる前記対象物の前記画像の上に重ねて表示するように、前記表示部を制御する、請求項２に記載のロボットシステム。
前記ロボット制御装置は、
前記改変後のラベル付画像を含む前記教師データセットを前記推論モデルに入力して、前記推論モデルに再学習させ、再学習後の前記推論モデルを推論モデル候補として記憶するように、前記記憶部を制御する学習部と、
前記推論モデル及び前記推論モデル候補の性能を評価するための評価データを前記推論モデル及び前記推論モデル候補の各々に入力して、前記推論モデルの出力結果と前記推論モデル候補の出力結果とを評価する評価部と
をさらに含み、
前記評価部は、前記推論モデルの評価よりも前記推論モデル候補の評価が高い場合に、前記推論モデルに代えて、前記推論モデル候補を新たに推論モデルに設定する、請求項２又は請求項３に記載のロボットシステム。
前記入力画像データは、
前記対象物を示すカラー画像を含む第１入力画像データと、
前記対象物を深度情報で示す深度画像を含む第２入力画像データと
を含む、請求項１から請求項４のいずれか１項に記載のロボットシステム。
前記ロボット制御装置は、
前記撮像部が生成した前記深度画像を含む前記第２入力画像データと、前記推論モデルが出力した前記出力画像データとに基づいて、前記ロボットのハンドの位置を制御するための三次元座標を計算して、前記三次元座標を出力する座標出力部をさらに含む、請求項５に記載のロボットシステム。
前記ロボット制御装置は、
前記撮像部が生成した前記深度画像を含む前記第２入力画像データと、前記推論モデルが出力した前記出力画像データとを、機械学習により生成された学習済みの座標推論モデルに入力して、前記ロボットのハンドの位置を制御するための三次元座標を前記座標推論モデルに出力させる座標出力部をさらに含む、請求項５に記載のロボットシステム。
前記推論モデルは、前記ロボットが設置される環境に応じた疑似外乱を示す情報を付加した教師データセットを含む複数の教師データセットを機械学習して生成されている、請求項１から請求項７のいずれか１項に記載のロボットシステム。
前記記憶部は、前記教師データセットに、前記ロボットによる前記対象物の把持が成功したか否かを示す把持成否情報を関連付けて記憶する、請求項１から請求項８のいずれか１項に記載のロボットシステム。
前記推論モデルは、前記入力画像データから前記対象物の画像を認識し、認識した前記対象物の前記画像に対して、前記ラベルとしての色情報をピクセル単位で付加することで前記ラベル付画像を生成し、前記ラベル付画像を含む前記出力画像データを出力する、請求項１から請求項９のいずれか１項に記載のロボットシステム。
ロボットを制御するロボット制御方法であって、
前記ロボットによる把持の対象物を撮像して、前記対象物の画像を含む入力画像データを生成するステップと、
機械学習により生成された学習済みの推論モデルに前記入力画像データを入力して、出力画像データを前記推論モデルに出力させるステップと
を含み、
前記出力画像データは、前記対象物を識別するためのラベルをピクセル単位で付加した前記対象物のラベル付画像を含む、ロボット制御方法。