JP7376318B2

JP7376318B2 - アノテーション装置

Info

Publication number: JP7376318B2
Application number: JP2019197597A
Authority: JP
Inventors: 勇太並木
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-11-08
Anticipated expiration: 2039-10-30
Also published as: US11559888B2; CN112743537A; US20210129318A1; DE102020211053A1; JP2021071878A

Description

本発明は、アノテーション装置に関する。

従来、画像から対象物を検出する技術において、学習を行って検出精度を高める手法が知られている。この種の学習に関する技術を開示するものとして、特許文献１～３や非特許文献１がある。

特許文献１は、特定の識別対象の物体検出を行う際に用いられる教師データを生成する教師データ生成装置に関する。特許文献１には、特定の識別対象を含む基準データを用いて物体認識手法により学習を行って特定の識別対象の識別モデルを作成することが記載されている。識別モデルは、特定の識別対象を含む動画データから物体認識手法により推論を行い、特定の識別対象を検出し、特定の識別対象の教師データを生成することに用いられる。

特許文献２は、複数のアングルで物体の第１距離画像を撮像可能な撮像装置と、第１距離画像に基づいて前記物体の三次元モデルを生成し、三次元モデルに基づいて複数のアングルに対応する前記物体の特定部位を示す抽出画像を生成する生成部とを備えた情報処理装置に関するものである。特許文献２には、ロボットハンドが物体を把持する位置を物体の特定部位に設定し、画像認識部が推定された前記物体の前記特定部位の位置情報を前記ロボットハンドに制御情報として提供することが記載されている。

特許文献３には、対象物体の保持を行うときのマニピュレータの保持位置姿勢と、当該保持位置姿勢における対象物体の保持成否情報と、画像の撮像を行ったときのマニピュレータの撮像位置姿勢と、を利用して対象物体を保持するための学習データを生成する情報処理装置が記載されている。

非特許文献１には、深層学習の手法の一つである畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ)において、画像から対象物の三次元位置を推定する技術が記載されている。

特開２０１８－２００５３１号公報特開２０１９－０５６９６６号公報特開２０１８－１６１６９２号公報

Real-Time Seamless Single Shot 6D Object Pose Prediction

従来技術では、対象物の輪郭等を特徴の一つとして着目して画像から対象物を検出している。画像の撮像時の明るさによっては着目した特徴が区別できなくなり、画像から対象物を検出できないことがあった。また、対象物を含む画像を撮像するときのカメラと対象物の位置関係が変わることによっても、対象物の見え方が大きく変わって画像から対象物を検出できないことがあった。

深層学習のような機械学習を用いる場合、対象物ごとに特徴を学習し、対象物の検出をよりロバスト性高く行うことができる。この深層学習の手法の一つとして教師あり学習があるが、教師あり学習では大量の画像に対して画像中の対象物の位置や姿勢をアノテーションする必要があり、深層学習を行うときのハードルの一つであった。また、アノテーション処理をユーザが行った場合、ユーザの判断基準のばらつきにより、アノテーションの精度が低下するおそれもある。

大量の画像に対しても容易かつ正確にアノテーション処理を行うことができるアノテーション装置の提供が望まれていた。

（１）本開示のアノテーション装置の一態様は、対象物を撮像して画像を取得する撮像装置と、前記対象物が前記撮像装置の撮像範囲に入るように前記撮像装置又は前記対象物を移動させるロボットと、前記ロボットの移動を制御する制御部と、前記撮像装置が撮像した画像の画像座標系における前記対象物の位置、前記撮像装置の位置を基準としたセンサ座標系における前記対象物の位置又は前記ロボットを基準としたロボット座標系における前記対象物の位置を指定する指定部と、画像座標系における前記対象物の位置又はセンサ座標系における前記対象物の位置を前記ロボット座標系における前記対象物の位置に変換するとともに、ロボット座標系における前記対象物の位置を画像座標系における前記対象物の位置又はセンサ座標系における前記対象物の位置に変換可能な座標処理部と、前記指定部の指定に基づいて取得されるロボット座標系における前記対象物の位置を記憶する記憶部と、を備え、前記制御部は、前記撮像装置と前記対象物の位置関係が異なる複数の前記対象物の学習用の画像を取得するように前記ロボットを制御し、前記記憶部は、前記ロボット座標系における前記対象物の位置を、撮像時の前記画像座標系における前記対象物の位置又はセンサ座標系における前記対象物の位置に変換し、前記学習用の画像とともに記憶する構成とした。

（２）（１）に記載のアノテーション装置において、前記対象物を把持する把持部を更に備え、前記制御部は、前記把持部によって前記対象物を把持して当該対象物の位置、姿勢又はその両方を変更することにより、前記撮像装置と前記対象物の位置関係を異ならせて前記学習用の画像を取得してもよい。

（３）（１）又は（２）に記載のアノテーション装置において、前記記憶部に記憶された学習用の画像と、前記学習用の画像に関連付けられた前記対象物の位置を示す情報と、を含む学習データに基づいて学習モデルを生成し、前記学習モデルを用いた画像検出処理が、性能要件を充足しないと判定された場合は、新たに前記学習用の画像及び前記対象物の位置を示す情報を取得してもよい。

本開示の一態様によれば、大量の画像に対しても容易かつ正確にアノテーション処理を行うことができるアノテーション装置を提供できる。

本開示の一実施形態のアノテーション装置としての産業機械の構成を示す模式図である。本開示の一実施形態に係る産業機械が取得した画像にモデルパターン指定領域が指定された様子を模式的に示す図である。本開示の一実施形態に係る産業機械が備える学習装置の機能的ブロック図である。本開示の一実施形態に係る産業機械によるアノテーション処理の流れを示すフローチャートである。本開示の一実施形態に係る複数の画像処理装置を備える産業機械の例を模式的に示す図である。

以下、本開示の実施形態について図面を参照しながら説明する。図１は、本開示の一実施形態のアノテーション装置としての産業機械１の構成を示す模式図である。

本実施形態の産業機械１は、テーブルＴの上に載置されたワークＷに所定の処理を行うロボット３と、ロボット３を制御する機械制御装置４と、ワークＷを含む画像を取得して当該ワークＷの位置及び向きを特定する画像処理システム５と、学習処理を行う学習装置７と、を備える。

ロボット３は、垂直多関節型ロボットであり、互いに回転可能に連接され、先端に処理ヘッド２が接続された複数の可動部材３１，３２，３３，３４を有する。複数の可動部材３１，３２，３３，３４によって処理ヘッド２が位置決めされる。なお、特にロボット３の種類が限定されるわけではない。ロボット３は、垂直多関節型ロボットの他、直交座標型ロボット、スカラ型ロボット、パラレルリンク型ロボット等とすることができる。

処理ヘッド２は、例として、ワークＷを移動するために把持できるハンド、ワークＷに溶接、レーザ加工、切削加工等の加工を行うことができる加工ヘッド等、ワークＷに対して行うべき処理に応じて適切な構成を有する。図示する産業機械１において、処理ヘッド２は、ワークを把持する把持部としてのハンドである。処理ヘッド２によってワークＷを把持して所定の位置に移動したり、ワークＷの姿勢を変更したりすることができる。

機械制御装置４は、例えば予め与えられる加工プログラム等の作業プログラムに従ってロボット３及び画像処理システム５の動作を決定する制御部である。機械制御装置４は、例えばプログラマブルコントローラ、数値制御装置等に適切なプログラミングを行うことによって構成することができる。機械制御装置４は、全体を統括制御するためのＣＰＵ（図示せず）を備え、外部機器インタフェース（図示せず）を介して、ロボット３及び画像処理装置５１にも接続される。

本実施形態の機械制御装置４は、プログラム制御部４１と、ロボット３を制御する位置決め制御部４２と、処理ヘッド２を制御するヘッド制御部４３とを有する。機械制御装置４におけるプログラム制御部４１、位置決め制御部４２及びヘッド制御部４３は、その機能により区別されるものであり、物理的構成及びプログラム構成において明確に区分できるものでなくてもよい。

プログラム制御部４１は、加工プログラム等の作業プログラムに従ってロボット３及び画像処理システム５に対して動作指令を与える。具体的には、プログラム制御部４１は、処理ヘッド２にワークＷを把持又は解放させるとともに処理ヘッド２を移動させる位置を特定する指令をロボット３に与える。そして、プログラム制御部４１は、画像処理システム５にワークＷの位置を確認させる指令を与える。

また、プログラム制御部４１は、位置決め制御部から得られる可動部材３１，３２，３３，３４の相対関係を表す駆動量等、処理ヘッド２の位置及び向きを特定できるパラメータを、機械制御情報として画像処理システム５に入力するよう構成される。

機械制御情報には、ロボット座標系におけるロボット３の先端の座標位置も含まれる。必要に応じて、ヘッド制御部４３によって制御される処理ヘッド２の状態を示す情報や、処理ヘッド２によるワークＷに対する処理が適切に実行されたか否かを示す情報も、機械制御情報の一部として画像処理システム５に入力してもよい。

位置決め制御部４２は、プログラム制御部４１からの指令に従って、ロボット３の可動部材３１，３２，３３，３４を相対回転させる駆動信号を生成する。また、位置決め制御部４２は、機械制御情報とされるパラメータを出力する。具体例として、位置決め制御部が出力するパラメータは、可動部材３１，３２，３３，３４を駆動する複数の駆動モータの回転位置情報や、処理ヘッド２の基準点の座標位置及び向きを示すベクトル情報等とすることができる。

ヘッド制御部４３は、処理ヘッド２の動作を制御し、ワークＷに対する処理を行う。また、処理ヘッド２の状態を表す信号を、プログラム制御部４１に入力するよう構成されてもよい。

画像処理システム５は、ワークＷの画像を撮像する視覚センサ５０と、視覚センサ５０の制御及び視覚センサ５０が撮像した画像データの処理を行う画像処理装置５１と、を備える。

視覚センサ５０は、被写体からの光の像を結像させる光学系と、結像した像を２次元位置ごとに電気信号に変換する２次元撮像素子とを有するカメラによって構成することができる。

視覚センサ５０は、ロボット３に取り付けられる。本実施形態の視覚センサ５０は、処理ヘッド２又は処理ヘッド２が接続される末端の可動部材３４に支持される。

視覚センサ５０の視野内に対象物であるワークＷが入る位置にロボット３を駆動させ、視覚センサ５０によって画像を撮像し、後述する画像処理により撮像した画像から検出したワークＷに対して処理ヘッド２による加工作業を行うことができる。

画像処理装置５１は、視覚センサ５０によって検出された画像に各種の処理を行う。本実施形態の画像処理装置５１は、表示部５２と、入力部５３と、記憶部５４と、画像処理部５５と、座標処理部５６と、を備える。

表示部５２は、オペレータに対して情報を表示するディスプレイパネル等を有する構成とすることができる。また、表示部５２は、入力部５３と一体に形成されるタッチパネル等であってもよい。

入力部５３は、オペレータが操作可能な例えばキーボード、スイッチ等の入力装置を有することができる。また、入力部５３は、通信回線等を介して他の制御装置やコンピュータからの入力を受け付けるものであってもよい。

記憶部５４は、特に限定されないが、例えばＤＲＡＭ、ＳＲＡＭ等の揮発性メモリによって構成することができる。記憶部５４は、視覚センサ５０の制御や画像処理に関する各種の情報を記憶する。例えば、記憶部５４は、視覚センサ５０が撮像して取得した画像データ、その画像データの処理結果及び撮像時の機械制御情報等を撮像情報として記憶する。

また、記憶部５４は、ワークＷの像をモデル化したモデルパターン、例えばワークＷの像の特徴を表すモデルパターンを記憶する。

更に、記憶部５４は、視覚センサ５０のキャリブレーションデータ、例えば画像座標系上での２次元位置を３次元座標での値に変換又はその逆の変換のためのキャリブレーションデータを記憶する。例えば、記憶部５４に記憶されるキャリブレーションデータに基づいて視覚センサ５０をキャリブレーションすることにより、ロボット座標系における３次元点（以下、注視点）が与えられた時に、その３次元点の視覚センサ５０の画像上での像の位置、即ちセンサ座標系における２次元点を計算することが可能となる。また、ある注視点の像であるセンサ座標系における２次元点が与えられた時に、ロボット座標系における視線（注視点とカメラの焦点を通る３次元直線）を計算することができるようになる。キャリブレーションデータの形式及びそれを求める方法については、種々の方式が提案されており、いずれの方式を用いてもよい。なお、画像座標系とは画像上で定義された座標系（２次元）であり、センサ座標系とは視覚センサ５０からみた座標系（３次元）である。ロボット座標系とはロボット３からみた座標系（３次元）である。

画像処理部５５は、公知の画像処理技術によって視覚センサ５０が撮像した画像データを解析し、ワークＷの位置及び向きを判別する。この画像処理部５５は、ＣＰＵ等の演算装置に適切なプログラムを実行させることにより実現することができる。

図２を参照して視覚センサ５０によって取得される画像からワークＷを検出する処理について説明する。図２は、本開示の一実施形態に係る産業機械１が取得した画像にモデルパターン指定領域６０が指定された様子を模式的に示す図である。

モデルパターン指定領域６０は、操作者が表示部５２の画像を確認しながら入力部５３を操作して設定される。なお、操作者ではなく、画像処理部５５が所定の画像処理によって自動的にモデルパターン指定領域６０が指定されるようにしてもよい。例えば、画像における輝度勾配の大きい個所をワークＷの像の輪郭として算出して、当該ワークＷの像の輪郭を内部に含むように、モデルパターン指定領域６０を設定してもよい。

座標処理部５６は、画像座標系（２次元）のワークＷの検出位置又はセンサ座標系（３次元）のワークＷの検出位置を変換し、３次元の視線を取得する。そして、座標処理部５６は、記憶部５４に記憶されたモデルパターン指定領域及びキャリブレーションデータと、撮像時のロボット３の視覚センサ５０の位置と、に基づいて、画像座標系（２次元）のワークＷの検出位置又はセンサ座標系（３次元）のワークＷの検出位置を、ロボット座標系（３次元）上のワークＷの検出位置に変換するための３次元変換処理を行う。この３次元変換処理では、視覚センサ５０に二次元カメラを用いている場合には視線方向に不定な位置を決めるための情報が必要になる。本実施形態では、ワークＷの画像上での位置を指定した４点が存在する平面を設定した上で、３次元変換処理が実行される。

次に、図３を参照して学習装置７の構成について説明する。図３は、本開示の一実施形態に係る産業機械１が備える学習装置７の機能的ブロック図である。

図３に示すように、画像処理装置５１から入力データが入力される状態観測部７１と、機械制御装置４から画像に対応するラベルが入力されるラベル取得部７２と、状態観測部７１が取得した入力データと機械制御装置４から入力されるラベルに基づいて教師あり学習を行って学習モデルを生成する学習器７０と、を備える。

画像処理装置５１から状態観測部７１に入力される入力データは、対象物としてのワークＷを含む画像、画像の処理結果又はその両方である。

機械制御装置４からラベル取得部７２に入力されるラベルは、画像を撮像したときの対象物としてのワークＷの位置を示す位置情報である。位置情報は、ある画像に対応するワークＷの検出位置、姿勢及びサイズ等を含む撮像時情報である。例えば、４角の閉じられた領域によりワークＷの位置を指定していた場合は、４点の位置を示す情報がワークＷの位置を示す情報として記憶される。

本実施形態では、ラベル取得部７２に入力されるラベルは、ロボット座標系におけるワークＷの位置を、画像座標系における位置又はセンサ座標系における位置に変換することにより取得される。なお、このラベルとなるワークＷの画像座標系における位置又はセンサ座標系における位置を示す位置情報を取得する処理については後述する。

状態観測部７１が取得した入力データと、ラベル取得部７２が取得したラベルと、は関連付けられて学習器７０に入力される。学習器７０では、入力データとラベルの複数の組に基づいて学習モデルが生成される。

次に、アノテーション処理の流れについて説明する。図４は、本開示の一実施形態に係る産業機械１によるアノテーション処理の流れを示すフローチャートである。なお、このフローを示して説明する実施形態は一例である。

アノテーション処理が開始されると、ステップＳ１００でワークＷの位置を既知にするための処理が実行される。例えば、機械制御装置４は、視覚センサ５０の撮像範囲内にワークＷが位置するように、ロボット３を駆動する。そして、ワークＷが視覚センサ５０の撮像範囲に入った状態で、視覚センサ５０によってワークＷを撮像してワークＷを含んだ画像を取得する。例えば、図２に示すような画像を取得する。

次に、ワークＷの位置を指定する処理を行う。ワークＷの位置の指定は、例えば、画像中のワークＷの位置の一点を指定する方法やワークＷの周りを四角等の閉じられた領域で囲う等の方法を用いることができる。ワークＷの位置の指定は、画像処理部５５が指定部として画像処理アルゴリズムを用いて行ってもよいし、入力部５３を指定部としてユーザが行ってもよい。これによって画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置が決定される。

上述のように、画像座標系からロボット座標系への変換を可能とするキャリブレーション処理が予め行われているので、指定された画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置を、ロボット座標系に変換する。これにより、ロボット座標系におけるワークＷの位置が取得される。即ち、ワークＷの位置が既知となる。なお、ワークＷの位置を既知のものとする処理としては、ワークＷの設置位置をロボット座標系に直接指定する方法を用いてもよい。

以上の処理により、ロボット座標系におけるワークＷの位置を既知にすることができる。そして、ステップＳ１００から学習に利用するデータセットを取得するためのステップＳ１０１に移行する。

ステップＳ１０１では、ワークＷが撮像範囲に含まれることを条件として、ロボット３によって視覚センサ５０とワークＷの位置関係が変更される。ステップＳ１００でロボット座標系におけるワークＷの位置が取得されているので、ロボット３の移動を行う制御において、ワークＷが画像に含まれるロボット３の位置を計算することもできる。

ステップＳ１０１において、ロボット３によってロボット３によって視覚センサ５０とワークＷの位置関係を変更する処理では、処理ヘッド２を用いたワークＷの移動を行ってもよい。ワークＷの移動には、例えば、ワークＷを左右前後に移動させたり、ワークＷの姿勢を変更したり、ワークＷを裏返したりする処理が含まれる。なお、ワークＷを移動させる場合には、移動場所に合わせてワークＷの位置を更新する処理も併せて行われる。即ち、ワークＷの移動に伴ってロボット座標系におけるワークＷの位置が更新される。

ステップＳ１０２では、ステップＳ１０１でロボット３によって視覚センサ５０とワークＷの位置関係が変更された状態でワークＷが撮像され、当該ワークＷを含んだ画像が取得される。

ステップＳ１０３では、ステップＳ１０２で取得した画像に対応する画像座標系におけるワークＷの位置を取得する。このステップＳ１０３で取得される画像座標系におけるワークＷの位置は、ステップＳ１００で既知となっているロボット座標系におけるワークＷの位置を利用して取得される。

即ち、座標処理部５６は、撮像時のロボット３に保持される視覚センサ５０の位置を考慮することにより、ロボット座標系におけるワークＷの位置を画像座標系におけるワークＷの位置を示す位置情報又はセンサ座標系におけるワークＷの位置を示す位置情報に変換する処理を行う。画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置は、撮像時の画像とともに記憶部５４に記憶される。即ち、画像にワークＷの位置がアノテーションされる。

ステップＳ１０４では、ステップＳ１０１～ステップＳ１０３の処理が所定回数行われたか否かが判定される。所定回数が行われていない場合は、ステップＳ１０１～ステップＳ１０３の処理が繰り返される。即ち、学習を行うために十分な量の画像とワークＷの位置情報の組が取得されるまでステップＳ１０１～Ｓ１０３の処理が繰り返される。ステップＳ１０４で所定回数以上となった場合は、十分な数の画像とワークＷの位置情報の組が取得されたと判定され、ステップＳ１０５の処理に移行する。

ステップＳ１０５では、所定数以上の画像とワークＷの位置情報の組が学習データセットとして学習器７０に入力される。学習器７０は、データセットの入力データとラベルに基づいて教師あり学習を行うことにより、学習モデルを構築する。学習器７０の学習にはＹＯＬＯ（You Only Look Once）やＳＳＤ（Single Shot multibox Detector）等の手法を使うことができる。あるいは、非特許文献に記載されるように、対象物のバウンディングボックスを構成する点をラベル及び推論の出力とすることもできる。このように、学習器７０の学習には公知の手法を用いることができる。

例えば、学習器７０は、ニューラルネットワークを用いた教師あり学習を行う。この場合、学習器７０は、入力データとラベル（教師データ）の組を、パーセプトロンを組み合わせて構成したニューラルネットワークに与え、ニューラルネットワークの出力がラベルと同じとなるように、ニューラルネットに含まれる各パーセプトロンについての重み付けを変更する、というフォワードプロパゲーションを行う。ニューラルネットワークが出力するワークＷの検出結果（例えば、位置、姿勢、サイズ）が、ラベルの対象物検出結果（例えば、位置、姿勢、サイズ）と同じになるように、フォワードプロパゲーションが行われる。

そして、学習器７０は、このようにフォワードプロパゲーションを行った後に、バックプロパゲーション（誤差逆伝搬法とも呼ばれる。）という手法により各パーセプトロンの出力の誤差を小さくするように重み付け値を調整する。より詳細には、学習器７０は、ニューラルネットワークの出力とラベルとの誤差を算出し、算出した誤差を小さくするように重み付け値を修正する。学習器７０は、このようにして、教師データの特徴を学習し、入力から結果を推定するための学習モデルを帰納的に獲得する。

ステップＳ１０６では、生成された学習モデルにより、十分な検出精度が得られた否かの判定が画像処理部５５によって行われる。即ち、視覚センサ５０で新たに撮像されたワークＷを含む画像から、当該ワークＷの像を正確に検出することができるか否かが判定される。性能要件を充足しているか否かについては、予め設定される所定の判定方法に基づいてユーザが判定してもよいし、予め正解等が既知の画像に基づいて判定用アルゴリズムが判定する方式であってもよい。性能要件とは、例えば、画像の位置を正しく検出しているか否かの正誤率やエラー頻度が所定以下等の画像検出に関する各種の条件である。ステップＳ１０６で性能要件が充足したと判定された場合は、ステップＳ１０７に移行する。ステップＳ１０６で性能要件が充足していないと判定された場合は、学習データを追加するため、ステップＳ１０１の処理に戻る。このとき、ステップＳ１０４で判定される所定回数の数値を増やすように更新する処理を行ってもよい。

ステップＳ１０７では、ステップＳ１０５でデータセットが入力される前に生成された従前の学習モデルを、新たに入力されたデータセットに基づいて生成された学習モデルに更新する処理が行われる。即ち、学習モデルを構築した後に新たな教師データが取得されると、一度構築した学習モデルが更新されることになる。

最新のデータセットに基づいて更新された学習モデルを利用することにより、学習装置７は、視覚センサ５０で撮像されたワークＷを含む画像から、当該ワークＷの像を正確に検出することができる。

なお、機械制御装置４、画像処理装置５１及び学習装置７は、例えば、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field‐Programmable Gate Array）等の演算プロセッサで構成される。機械制御装置４、画像処理装置５１及び学習装置７の各種機能は、例えば記憶部に格納された所定のソフトウェア（プログラム、アプリケーション）を実行することで実現される。機械制御装置４、画像処理装置５１及び学習装置７の各種機能は、ハードウェアとソフトウェアとの協働で実現されてもよいし、ハードウェア（電子回路）のみで実現されてもよい。

学習器７０で生成された学習モデルを、他の学習装置との間で共有するようにしてもよい。学習モデルを複数の学習装置で共有するようにすれば、各学習装置にて分散して教師あり学習を行うことが可能となるので、教師あり学習の効率を向上させることが可能となる。図５を参照して学習モデルを共有する例について説明する。図５は、本開示の一実施形態に係る複数の画像処理装置５１を備える産業機械１の例を模式的に示す図である。

図５には、ｍ個の画像処理装置５１がネットワークバス１０２を介してセルコントローラ１００１接続されている。画像処理装置５１のそれぞれには視覚センサ５０が１又は複数接続されている。産業機械１全体としては合計ｎ個の視覚センサ５０を備えている。

ネットワークバス１０２には、学習装置７が接続されている。学習装置７には、複数の画像処理装置５１から送られてきた学習データの集まりをデータセットとして機械学習を行って学習モデルを構築する。この学習モデルは、各画像処理装置５１のワークＷの検出に利用可能となる。

以上説明したように、本開示の一態様であるアノテーション装置としての産業機械１は、ワーク（対象物）Ｗを撮像して画像を取得する視覚センサ（撮像装置）５０と、ワークＷが視覚センサ５０の撮像範囲に入るように視覚センサ５０又はワークＷを移動させるロボット３と、ロボット３の移動を制御する機械制御装置（制御部）４と、視覚センサ５０が撮像した画像の画像座標系におけるワークＷの位置、視覚センサ５０の位置を基準としたセンサ座標系におけるワークＷの位置又はロボット３を基準としたロボット座標系におけるワーク３の位置を指定する画像処理部（指定部）５５又は入力部（指定部）と、画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置をロボット座標系におけるワークＷの位置に変換するとともに、ロボット座標系におけるワークＷの位置を画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置に変換可能な座標処理部５６と、画像処理部（指定部）５５又は入力部（指定部）の指定に基づいて取得されるロボット座標系におけるワークＷの既知の位置を記憶する記憶部５４と、を備える。機械制御装置（制御部）４は視覚センサ５０の位置関係が異なる複数のワークＷの学習用の画像を取得するようにロボット３を制御する。また、記憶部５４は、ロボット座標系におけるワークＷの位置を、撮像時の画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置に変換し、学習用の画像とともに記憶する。

これにより、撮像装置としての視覚センサ５０と対象物としてのワークＷとの相対関係をロボット３の位置を利用して把握することができる。ロボット座標系における既知のワークＷの位置を利用することにより、ある画像に対する画像座標系におけるワークＷの位置又はセンサ座標系におけるワークＷの位置を自動で取得できるのである。これによって、大量の教師ありデータを効率的かつ正確に集めることができる。

また、本開示の一態様の産業機械１は、ワークＷを把持する処理ヘッド（把持部）２を更に備え、機械制御装置４は、処理ヘッド２によってワークＷを把持して当該ワークＷの位置、姿勢又はその両方を変更することにより、視覚センサ５０とワークＷの位置関係を異ならせて学習用の画像を取得する。

これにより、対象物としてのワークＷに対し、ワークＷの位置関係が広範な学習用のデータを自動で容易かつ正確に取得できる。

また、本開示の一態様の産業機械１は、記憶部５４に記憶された学習用の画像と、学習用の画像に関連付けられた対象物としてのワークＷの位置を示す情報と、を含む学習データに基づいて学習モデルを生成し、当該学習モデルを用いた画像検出処理が、性能要件を充足しないと判定された場合は、新たに前記学習用の画像及び前記対象物の位置を示す情報を取得する。

これにより、対象物としてのワークＷの検出精度が向上しない場合は学習データが追加されるので、学習データが不足することに起因して検出精度が十分に向上しない事態の発生を確実に防止することができる。

以上、本開示の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本発明による効果も、本実施形態に記載されたものに限定されるものではない。

上記実施形態の構成に加え、ステップＳ１０１の処理において、照明の明度を変更する処理等を加えてもよい。照明の明度の違いを学習させることで、対象物としてのワークＷの検出精度をより高めることができる。

上記実施形態では、ロボット３によって視覚センサ５０が保持される構成であるが、視覚センサ５０側を固定し、ロボット３によってワークＷが視覚センサ５０の視野内に移動する構成としてもよい。

上記実施形態においては、機械制御装置４と画像処理装置５１が別体のものを例として説明したが、機械制御装置４と画像処理装置５１の両方の機能を有する単独の制御装置をアノテーション装置としてもよい。このように、アノテーション装置は、情報処理装置（コンピュータ）全般を指すことができる。例えば、サーバ、ＰＣ、各種制御装置等をアノテーション装置としてもよい。

上記実施形態では、産業機械１が学習装置７を備える構成であるが、学習装置７を省略し、アノテーションのみを行って他の学習装置にデータセットを提供する構成としてもよい。

産業機械１は、位置決め機構によってワーク又は工具を位置決めしてワークを加工する工作機械であってもよい。

産業機械１によるアノテーション処理は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、画像処理装置５１にインストールされる。また、これらのプログラムは、リムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。

１産業機械（アノテーション装置）
３ロボット
４機械制御装置（制御部）
５０視覚センサ（撮像装置）
５３入力部（指定部）
５４記憶部
５３画像処理部（指定部）
５６座標処理部
Ｗワーク（対象物）

Claims

対象物を撮像して画像を取得する撮像装置と、
前記対象物が前記撮像装置の撮像範囲に入るように前記撮像装置又は前記対象物を移動させるロボットと、
前記ロボットの移動を制御する制御部と、
前記撮像装置が撮像した画像の画像座標系における前記対象物の位置、又は前記ロボットを基準としたロボット座標系における前記対象物の位置を指定する指定部と、
画像座標系における前記対象物の位置を前記ロボット座標系における前記対象物の位置に変換するとともに、ロボット座標系における前記対象物の位置を画像座標系における前記対象物の位置に変換可能な座標処理部と、
前記指定部の指定に基づいて取得されるロボット座標系における前記対象物の位置を記憶する記憶部と、
を備え、
前記制御部は、前記撮像装置と前記対象物の位置関係が異なる複数の前記対象物の学習用の画像を取得するように前記ロボットを制御し、
前記指定部は、前記撮像装置が撮像した画像における前記対象物の像の輪郭を内部に含むモデルパターン指定領域を設定することにより、前記画像座標系における前記対象物の位置を指定し、
前記記憶部は、前記ロボット座標系における前記対象物の位置を、撮像時の前記画像座標系における前記対象物の位置に変換し、前記学習用の画像とともに記憶するアノテーション装置。
前記対象物を把持する把持部を更に備え、
前記制御部は、前記把持部によって前記対象物を把持して当該対象物の位置、姿勢又はその両方を変更することにより、前記撮像装置と前記対象物の位置関係を異ならせて前記学習用の画像を取得する請求項１に記載のアノテーション装置。
前記記憶部に記憶された学習用の画像と、前記学習用の画像に関連付けられた前記対象物の位置を示す情報と、を含む学習データに基づいて学習モデルを生成し、
前記学習モデルを用いた画像検出処理が、性能要件を充足しないと判定された場合は、新たに前記学習用の画像及び前記対象物の位置を示す情報を取得する請求項１又は２に記載のアノテーション装置。