JP7460366B2

JP7460366B2 - 訓練データ選別装置、ロボットシステム及び訓練データ選別方法

Info

Publication number: JP7460366B2
Application number: JP2019238564A
Authority: JP
Inventors: 武司山本; 仁志蓮沼; 一輝倉島
Original assignee: Kawasaki Jukogyo KK
Current assignee: Kawasaki Motors Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2024-04-02
Anticipated expiration: 2039-12-27
Also published as: WO2021132281A1; EP4082726A4; US20230045162A1; EP4082726A1; CN115087521A; JP2021107970A

Description

本発明は、学習モデルを訓練するための訓練データの選別に関する。

従来から、収集データから反復的に学習して法則やルールを自動的に見つけ出し、人間が自然に行っている学習能力と同様な機能を実現する機械学習を用いてロボットの動作等を制御するシステムが知られている。特許文献１は、この種のシステムを開示する。

特許文献１の動作予測システムは、学習用動作事例データ（収集データ）を複数の群に分類した群を、それぞれに対応する動作予測モデルに機械学習させることにより動作予測モデルを構築する構成となっている。

特開２０１８－２０６２８６号公報

上記特許文献１のような機械学習を用いてロボットの動作を制御するシステムにおいて、一般に、学習のために収集されたデータには、作業者が意図する動作データと、意図しない動作データと、が含まれている。学習モデルは、作業者の意図に沿っているか否かにかかわらず、収集されたデータにおける動作データを同じように学習する。

収集されたデータにおいて、作業者が意図する動作データは、意図しない動作データよりも、相当に多いことが一般的である。従って、学習を繰り返すうちに、作業者が意図した動作をロボットが行うようになることが期待される。

しかし、機械学習モデルは、作業者が意図しない不適切な動作データに対しても機械学習しているので、学習の収束に時間が掛かり、作業者が意図する結果を出力できるまで多くの時間を要していた。また、作業者が意図した動作をロボットが学習により獲得しているかどうかは、ロボットの学習後の動作を目視等で確認して判断せざるを得なかった。仮に、長時間学習した後でも、意図した動作をロボットが行っておらず、今後も動作が改善する見込みがなさそうな場合は、データの収集段階からやり直しとなることもあり、時間と工数の大きな無駄が生じていた。

本発明は以上の事情に鑑みてされたものであり、その目的は、機械学習の試行錯誤に掛かる時間と工数を減らすことができ、意図に沿う結果を出力できるまでの学習時間を短縮できる訓練データを提供可能な訓練データ選別装置を提供することにある。

本発明の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段とその効果を説明する。

本発明の第１の観点によれば、以下の構成の訓練データ選別装置が提供される。即ち、この訓練データ選別装置は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。この訓練データ選別装置は、データ評価モデルと、データ評価部と、記憶部と、訓練データ選別部と、を備える。前記データ評価モデルは、前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されている。前記データ評価部は、前記データ評価モデルを用いて、入力された前記収集データを評価する。前記記憶部は、前記データ評価部により評価された収集データである評価済データを記憶する。前記訓練データ選別部は、前記記憶部により記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価部の評価結果が提示された作業者の指示により、又は、当該評価結果に基づいて自動的に選別する。前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含む。前記データ評価部は、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価する。

本発明の第２の観点によれば、以下の構成の訓練データ選別方法が提供される。即ち、この訓練データ選別方法は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。この訓練データ選別方法は、データ評価工程と、記憶工程と、訓練データ選別工程と、を含む処理を行う。データ評価工程では、前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルを用いて、入力された前記収集データを評価する。記憶工程では、前記データ評価工程で評価された収集データである評価済データを記憶する。訓練データ選別工程では、前記記憶工程で記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価工程における評価結果が提示された作業者の指示により、又は当該評価結果に基づいて自動的に選別する。前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含む。前記データ評価工程では、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価する。

これにより、データ評価モデルによる評価結果を用いて収集データから訓練データを選別することで、機械学習のために好ましいデータからなる訓練データを容易に準備することができる。これにより、学習モデルの構築時間を短縮することができる。収集データにおいて適宜の単位毎にデータが評価されるので、一連の操作を、基本的な操作が適宜の順序で並べられたものとして把握することが容易となる。この評価結果を用いることで、訓練データの選別がより的確になる。また、基本的な操作に相当する部分を訓練データの選別の単位とすることで、収集データを効率的に利用しながら機械学習を行うことができる。

本発明によれば、機械学習の試行錯誤に掛かる時間と工数を減らすことができ、良い結果を出力できるまでの学習時間を短縮できる訓練データを提供することができる。

本発明の一実施形態に係る訓練データ選別装置と、ロボットシステムと、学習装置と、の関係を示すブロック図。ロボットが行う作業の一例の流れ及び各作業状態を示す図。操作情報に対する評価を示す説明図。表示装置で表示されるデータの一例を示す図。提示されたデータが作業者により選別される例を示す図。作業状態の収集データから選別されたデータのロバスト性を向上できる例を示す図。訓練データ選別装置の効果の１つを示す説明図。

次に、図面を参照して本発明の実施の形態を説明する。初めに、図１を参照して、本実施形態の訓練データ選別装置２により選別されたデータを機械学習して構築された学習モデルを用いるロボットシステム１、及びこの学習モデルを構築する学習装置３について簡単に説明する。図１は、本実施形態に係る訓練データ選別装置２と、ロボットシステム１と、学習装置３と、の関係を示すブロック図である。

ロボットシステム１は、ロボット１１に作業を行わせるためのシステムである。この作業としては、例えば、溶接、組立て、加工、ハンドリング、塗装、洗浄、研磨等、様々なものが考えられる。

図１に示すように、ロボットシステム（制御対象機械）１は、ロボット制御装置１０と、ロボット１１と、操作装置１２と、データ収集装置１３と、を含む。それぞれの装置は、有線又は無線のネットワークを介して互いに接続されており、信号（データ）のやり取りを行うことができる。

ロボット制御装置１０は、公知のコンピュータにより構成されており、マイクロコントローラ、ＣＰＵ、ＭＰＵ、ＰＬＣ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等の演算処理部と、ＲＯＭ、ＲＡＭ、ＨＤＤ等のロボット記憶部と、外部装置と通信可能な通信部と、を備える。ロボット記憶部には、アーム部等を制御するための制御アプリケーション等が記憶されている。

ロボット制御装置１０は、ロボット１１の運転モードを、手動運転モード、自動運転モード及び自律運転モードの間で切り替えることができる。

手動運転モードでは、作業者が後述の操作装置１２を手動で操作することで、ロボット１１を動作させる。

自動運転モードでは、ロボット１１が予め設定された動作軌道に追従して動作する。この自動運転モードは、ロボット１１のアーム部の先端に取り付けられた後述のエンドエフェクタの移動等の、同じ動作を繰り返す場合に用いられる。このエンドエフェクタの移動としては、例えば、予め設定された初期位置から、自律運転モードにおける自律運転を始める位置までの移動が考えられる。

自律運転モードでは、手動操作によるロボット１１の動作を事前に学習した結果に基づいて、ロボット１１が自動的に動作する。本実施形態のロボットシステム１において、自律運転モードでは、ロボット１１の動作が、後述の訓練データ選別装置２により選別された訓練データを機械学習することで構築された学習モデルを用いて制御される。

ロボット１１は、例えば、動作自由度が６である垂直型の多関節ロボットとして構成される。ロボット１１は、台座に取り付けられたアーム部を備える。アーム部は、複数の関節を有する。各関節には、当該関節を中心にしてアーム部を駆動するための図略のアクチュエータ（例えば、電動モータ）が設けられている。アーム部の先端には、作業内容に応じたエンドエフェクタが取り付けられている。

ロボット１１のアーム部及びエンドエフェクタは、ロボット１１を動作させるための動作指令に基づいて動作する。この動作指令は、例えば、直線状の速度の指令、角速度の指令、等を含む。

ロボット１１には、ロボット１１の動作及び周囲環境等を検出するためのセンサが取り付けられている。本実施形態では、動作センサ１１ａと、力センサ１１ｂと、カメラ１１ｃと、がロボット１１に取り付けられている。

動作センサ１１ａは、例えば、エンコーダから構成され、ロボット１１のアーム部の関節毎に設けられており、各関節の回転角度又は角速度を検出する。

力センサ１１ｂは、ロボット１１の動作時に、ロボット１１のアーム部の各関節、又はアーム部の先端に取り付けられたエンドエフェクタに掛かる力を検出する。力センサ１１ｂは、力に代えて又は加えてモーメントを検出するように構成されても良い。

カメラ１１ｃは、作業対象であるワークの映像（ワークへの作業の進行状況）を検出する。ワークへの作業の進行状況を検出するために、カメラ１１ｃに代えて又は加えて、音を検出する音センサ及び／又は振動を検出する振動センサが設けられても良い。また、ロボット１１等に、レーザスキャンセンサ、赤外線スキャンセンサ等の距離情報を収集するセンサが設けられても良い。

動作センサ１１ａが検出するデータは、ロボット１１の動作を示す動作データであり、力センサ１１ｂ、及びカメラ１１ｃが検出するデータは、ロボット１１の周囲の環境の状態を示す周囲環境データである。当該周囲環境データは、いわゆる、センサがデータを検出する時刻におけるロボット１１の作業の進行の状態を示す状態値である。動作センサ１１ａ、力センサ１１ｂ、及びカメラ１１ｃが検出するデータは、状態情報として、後述のデータ収集装置１３により収集される。

操作装置１２は、ロボット１１を動作させるために作業者に操作される部材である。操作装置１２は、作業内容に応じて異なるが、例えば、作業者が手で作業するレバー又は足で操作するペダルである。操作装置１２は、例えば、ロボット１１とは物理的に離れた場所に配置された遠隔操作装置として構成される。

操作装置１２には、操作力検出センサ１２ａが設けられている。操作力検出センサ１２ａは、作業者が操作装置１２に加えた力である操作力を検出する。操作装置１２が様々な方向に動かすことができるように構成されている場合、操作力は力の向き及び大きさを含む値、例えばベクトルであっても良い。また、操作力は、作業者が加えた力だけでなく、力に連動する加速度等の値であっても良い。

本実施形態において、操作力検出センサ１２ａによって検出された操作力は、例えば、図３に示すように、ロボット１１の座標系におけるｘ軸における力及び速度の成分（力ｘ及び速度ｘ）と、ｙ軸における力及び速度の成分（力ｙ及び速度ｙ）と、を含む。操作力検出センサ１２ａが検出した当該操作力に関するデータは、操作情報として、データ収集装置１３により収集される。

データ収集装置１３は、例えば、公知のコンピュータにより構成されており、マイクロコントローラ、ＣＰＵ、ＭＰＵ、ＰＬＣ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等の演算処理部と、ＲＯＭ、ＲＡＭ、ＨＤＤ等のロボット記憶部と、外部装置と通信可能な通信部と、を備える。記憶部には、各種のデータを収集するデータ収集アプリケーション等が記憶されている。データ収集装置１３は、ロボット制御装置１０とは別途に設けられても良いし、ロボット制御装置１０と一体的に構成されても良い。データ収集装置１３とロボット制御装置１０とが一体的に構成される場合、ロボット制御装置１０は、当該ロボット制御装置１０が備えるハードウェアとソフトウェアの協働により、データ収集装置１３として機能する。

データ収集装置１３により収集される収集データは、上述のように、ロボット１１の周囲環境データを示す状態情報と、ロボット１１の周囲環境データに対応する作業者による操作力を反映する操作情報と、を含む。言い換えれば、この収集データは、作業者が操作装置１２を連続的に操作して、ロボット１１にある作業（又は作業の一部）を行わせる場合、得られた一連の状態情報及び操作情報の時系列データである。即ち、データ収集装置１３は、状態情報のそれぞれと操作情報のそれぞれとを、時間に関連させて収集している。状態情報及び操作情報には、カメラ１１ｃ及び操作力検出センサ１２ａ等で得られた検出値に基づく計測値が含まれる。

学習装置３は、少なくとも１台の公知のコンピュータから構成される。学習装置３を構成するコンピュータは、例えばＧＰＵ、ＲＯＭ、ＲＡＭ、ＨＤＤ等の構成を備えている。ＨＤＤ等には、機械学習するためのアプリケーションが記憶されている。

学習装置３は、機械学習（例えば教師あり学習）により、ロボットシステム１で用いられる学習モデルを構築する。学習装置３は、訓練データ選別装置２により、データ収集装置１３で収集された収集データから選別された訓練データを機械学習して、学習モデルを構築する。

この訓練データは、例えば、少なくともロボット１１の作業状態を反映する周囲環境データ（即ち状態情報）と、当該周囲環境データに対応付けられた操作力（即ち操作情報）と、を含む。

この学習モデルは、例えば、入力層と、隠れ層と、出力層と、を有する一般的な構成のニューラルネットワークである。それぞれの層には、脳細胞を模擬した複数のユニットが配置されている。隠れ層は、入力層と出力層との間に設けられ、適宜の数の中間ユニットによって構成される。学習装置３に入力されたセンサ情報（訓練データ）は、入力層、隠れ層、出力層の順に流れる。隠れ層の数は適宜定められる。なお、これに限定されず、学習モデルの形式は任意である。

このモデルにおいては、入力層に入力されるデータは、上述の周囲環境データを反映するセンサ情報である。出力層が出力するデータは、操作力検出センサ１２ａの検出値の推定結果である。これは、実質的に、推定される作業者の操作力を意味する。従って、出力層が出力するデータは、モデルが推定した作業者の操作を示す。

各入力ユニットと各中間ユニットとは、情報が流れる経路によって結合され、各中間ユニットと各出力ユニットとは、情報が流れる経路によって結合される。それぞれの経路において、上流側のユニットの情報が下流側のユニットの情報に与える影響（重み）が設定されている。

モデルの学習フェーズにおいて、学習装置３は、モデルにセンサ情報を入力し、当該モデルから出力される操作力と、作業者による操作力と、を比較する。学習装置３は、この比較により求められる誤差が小さくなるように、例えば、公知のアルゴリズムである誤差逆伝播法によって、上記重みを更新することで、モデルを更新する。学習モデルはニューラルネットワークに限定されないので、モデルの更新も誤差逆伝播法に限定されない。例えば、公知のアルゴリズムであるＳＯＭ（Ｓｅｌｆ－ｏｒｇａｎｉｚｉｎｇｍａｐｓ）によって、モデルを更新することもできる。このような処理を継続的に行うことにより学習が実現される。

学習装置３で訓練データを機械学習して構築された学習モデルは、例えば、ロボットシステム１のロボット制御装置１０に実装され、ロボット１１の自律運転等に用いられる。ロボット制御装置１０に実装された学習モデルは、推論フェーズで動作し、入力された周囲環境データに対して、当該周囲環境データに対応する作業者の操作力を推定して出力する。

続いて、本実施形態の訓練データ選別装置２、及び、訓練データ選別装置２による収集データからの訓練データの選別について、図２から図７等を参照して詳細に説明する。

訓練データ選別装置２は、図１に示すように、データ評価モデル２０と、データ評価部２１と、記憶部２２と、提示装置（評価提示部）２３と、入力装置（指示受付部）２４と、訓練データ選別部２５と、を備える。

訓練データ選別装置２は、例えば、マイクロコントローラ、ＣＰＵ、ＭＰＵ、ＰＬＣ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等の演算処理部と、ＲＯＭ、ＲＡＭ、ＨＤＤ等のメモリーと、外部装置と通信可能な通信部と、を備える公知のコンピュータを有する。

当該コンピュータのＨＤＤ等は、訓練データ選別装置２の記憶部２２を構成する。記憶部２２には、演算処理部が実行するプログラム、後述の評価済データ等が記憶されている。上記ハードウェアとソフトウェアの協働により、コンピュータを、データ評価部２１及び訓練データ選別部２５として機能させることができる。記憶部２２は、記憶工程に含まれる処理を行う。

データ評価モデル２０は、上述の学習モデルと同様な構成を有し、データ収集装置１３により収集された収集データの少なくとも一部に対して機械学習することで構築される。しかし、これに限定されず、データ評価モデル２０は、例えば、他のロボットシステム１の運転履歴データを機械学習することで構築されても良い。データ評価モデル２０は、他のロボットシステム１の運転履歴データを機械学習することで構築される場合、他のロボットシステム１に含まれるロボット１１が制御対象機械に相当する。

データ評価モデル２０が機械学習する収集データは、例えば、公知のＮＮ法、Ｋ－Ｍｅａｎｓ法、自己組織化マップ等のクラスタリング手法を用いて、複数のグループに分類される。クラスタリングは、多数のデータから分布の法則を学習して、互いに特徴が似ているデータのまとまりである複数のクラスタを自動的に取得する手法である。収集データを幾つのクラスタに分類するかは、適宜定めることができる。収集データの分類は、クラスタリング以外の自動分類手法を用いて行っても良い。

本実施形態においては、例えば、データ収集装置１３により収集された一連の作業に関する収集データが、作業状態に対応する作業者の操作（基準操作）毎に分類される。具体的には、図２に示すように、ワーク１００を凹部１１０に入れる一連の作業をロボット１１に行わせる場合、例えば、空中、接触、挿入、及び完了の４つの作業状態に分類することができる。

作業状態Ａ（空中）は、ロボット１１がワーク１００を保持して凹部１１０の上部に位置させている状態である。作業状態Ｂ（接触）は、ロボット１１が保持したワーク１００を、凹部１１０が形成されている面に接触させている状態である。作業状態Ｃ（挿入）は、ロボット１１が保持したワーク１００を凹部１１０に挿入している状態である。作業状態Ｄ（完了）は、ロボット１１が保持したワーク１００が凹部１１０に完全に挿入された状態である。

このように、４つの作業状態は、ロボット１１による一連の作業を工程毎に分類したものであり、ロボット１１の作業が正しく進行すると、作業状態Ａ（空中）、作業状態Ｂ（接触）、作業状態Ｃ（挿入）、作業状態Ｄ（完了）の順で作業状態が遷移する。

データ評価モデル２０は、例えば、所定時間範囲毎における作業状態及び操作力の組合せを機械学習することにより構築される。なお、上記の作業状態Ａ，Ｂ，Ｃ，Ｄは代表的なものであり、実際は、様々に異なる多数の作業状態が存在し得る。仮に、オペレータの操作によりロボット１１に同じ作業を何回か行わせて、例えば、１組の状態情報及び操作力に対応する作業状態Ａ１と、別の組の状態情報及び操作力に対応する作業状態Ａ２と、更に別の組の状態情報及び操作力に対応する作業状態Ａ３と、が収集されたとする。オペレータの操作のバラツキ、状況のバラツキ等があるため、これらの作業状態Ａ１，Ａ２，Ａ３は、細かく言えば互いに異なる。しかし、作業状態Ａ１，Ａ２，Ａ３は、共通の特徴を有しているため、同一のクラスタ（作業状態Ａのクラスタ）に分類されることになる。

しかし、これに限定されず、データ評価モデル２０は、例えば、ある作業状態及び当該作業状態に対応付けられる次の作業状態（即ち、次に遷移する作業状態）と、少なくとも１組の状態情報及びこの状態情報に対応付けられる操作力と、を機械学習して構築されても良い。これにより、作業状態（ひいては対応する操作力）同士の順位関係も学習することができる。

本実施形態のデータ評価モデル２０は、上記のように、操作力の出力の時間順を反映するように機械学習を行っている。簡単に言えば、データ評価モデル２０は、作業状態Ａ、作業状態Ｂ、作業状態Ｃ、作業状態Ｄのそれぞれに対応する少なくとも１組の状態情報及び操作力の組合せを学習しているとともに、作業状態Ａの次に作業状態Ｂが現れるというような作業順序も学習している。これにより、データ評価モデル２０を用いて、操作力の時系列情報を反映した分類を行うことができる。即ち、それぞれの作業状態に対応付けられる操作力のそれぞれを作業順で反映することができる。

この状態情報は、上述のように、動作センサ１１ａ、力センサ１１ｂ、カメラ１１ｃが検出したセンサ情報（例えば、位置、速度、力、モーメント、映像等の作業状態）である。この状態情報には、当該センサ情報に基づいて算出された情報（例えば、過去から現在までのセンサ情報の経時変化を示す値）が含まれても良い。

上記のように構築されたデータ評価モデル２０は、入力された時系列情報に対応付けられた状態情報に対して、当該状態情報に対応する基準操作を推定して出力することができる。

本実施形態のデータ評価モデル２０は、時系列情報に対応付けられた状態情報及び操作情報を含む収集データが入力された場合、入力された状態情報に対応する基準操作を推定して出力するとともに、入力された操作情報と推定した推定基準操作との間の距離値を求め、当該距離値（類似度）を評価値として出力する。なお、推定基準操作の代わりに、例えば基準操作が属するクラスタの情報を出力しても良い。また、出力した推定基準操作と入力された操作情報との比較は、データ評価モデル２０の代わりにデータ評価部２１にて行っても良い。

データ評価部２１は、上記のように事前に構築されたデータ評価モデル２０を用いて、データ収集装置１３により収集された収集データを評価するために用いられる。データ評価部２１は、図３に示すように、それぞれの所定時間範囲における操作情報に対して評価を行う。具体的には、データ評価部２１は、収集データに対して、データ評価モデル２０により出力された評価値が所定閾値以上である場合、データ評価モデル２０により出力された基準操作が属するクラスタの情報を示すラベル（対応情報）を、当該収集データに付与する。一方、データ評価モデル２０により出力された評価値が所定閾値を下回る場合、データ評価部２１は、当該収集データにラベルを付与しない。ただし、データ評価部２１は、ラベルを付与しない代わりに、何れのクラスタにも属しない旨を示すラベルを付与しても良い。以下においては、ラベルが付与されているか否か、及び／又は付与されたラベルの種類等を、「ラベル情報」と称することがある。即ち、データ評価部２１は、データ評価工程に含まれる処理を行う。

例えば、図２に示す一連の作業に対して収集された一連の収集データを評価する場合、データ評価モデル２０は、図３に示すように、所定時間範囲毎の操作情報に含まれる力ｘ、力ｙ、速度ｘ、速度ｙに対して、それぞれの基準操作に含まれる当該成分の類似度を求めることによって、所定時間範囲毎の操作情報とそれぞれの基準操作との全体的な類似度を求めて、評価値として出力する。

データ評価部２１は、所定時間範囲毎の操作情報に対して、データ評価モデル２０が出力した評価値が所定閾値以上である操作情報（ひいては収集データ）を対象として、当該操作情報が類似する基準操作を示すラベルを付与する。

以下、具体的に説明する。図３に示すように、所定時間範囲の操作情報が、作業状態Ａに対応する基準操作に類似する場合、データ評価部２１は、当該操作情報分に数値（１）のラベルを割り当てる（付与する）。所定時間範囲の操作情報が、作業状態Ｂに対応する基準操作に類似する場合、データ評価部２１は、当該操作情報分に数値（２）のラベルを割り当てる。所定時間範囲の操作情報が、作業状態Ｃに対応する基準操作に類似する場合、データ評価部２１は、当該操作情報分に数値（３）のラベルを割り当てる。所定時間範囲の操作情報が、作業状態Ｄに対応する基準操作に類似する場合、当該操作情報分に数値（４）のラベルを割り当てる。以上により、操作情報（ひいては操作力検出センサ１２ａの検出値）における連続的な変化を、ラベル情報の変化として捉えることができる。

なお、以下の説明においては、数値のラベルが割り当てられたデータを「暫定選択対象データ」と称し、数値のラベルが割り当てられていないデータを「暫定選択除外データ」と称することがある。データ評価部２１により評価された収集データを「評価済データ」と称する。この評価済データには、暫定選択対象データ及び暫定選択除外データの一方又は両方を含む。

このように、収集データに含まれた情報において、所定時間範囲毎にラベルが割り当てられる。割り当てられたラベルに応じて収集データの各部分をまとめることで、図３に示すように、収集データを、それぞれの基準操作に対応するブロックとして扱うことができる。これにより、一連の作業に対する収集データから、操作が有効な部分を示すデータ（ブロック）のみを抽出することが容易になる。

即ち、評価済データにおいては、時系列情報が連続で、かつ、ラベル情報が同一である部分が、１つのまとまったブロックで扱われる。この結果、概括的にいえば、例えば図４及び図５等に示す一連の収集データのように、当該データ列を、数値によるラベルが割り当てられたブロック（範囲）と、数値によるラベルが割り当てられていないブロック（範囲）とが、その時系列情報に応じた順で並べられたものとして表すことができる。

収集データは、時系列情報を維持した状態で評価される。従って、複数の基準操作に類似する操作情報を含む一連の作業の収集データを、当該一連の作業の所定作業順（例えば、図３に示す１（Ａ）→２（Ｂ）→３（Ｃ）→４（Ｄ））を有するか否かに応じて容易に区別することができる。即ち、２つの収集データにおいて、それぞれが類似する複数の基準操作の組が同じであっても、操作情報に対応する作業順が異なる場合、当該２つの収集データを異なるクラスタとして扱うことができる。

データ評価部２１は、上記のように、ラベル情報が割り当てられた収集データ（数値のラベルが割り当てられていないデータ部分も含む）の操作情報を、提示装置２３に送信する。この操作情報は、評価済の操作情報に相当する。

図１に示す提示装置２３は、液晶又は有機ＥＬ等のドットマトリクス式のディスプレイである。提示装置２３は、データ評価部２１により評価された評価済データ、及び当該収集データのラベル情報等を表示することで、データ評価部２１の評価結果を作業者に提示する。提示装置２３は、例えば、操作装置１２の近傍に配置される。提示装置２３は、映像信号、ロボットシステム１が行う作業に関する情報等を表示することもできる。

具体的には、提示装置２３は、例えば、図４に示すように、収集データに含まれた操作情報（例えば、操作力）をグラフにより表した形で視覚的に表示するとともに、時系列情報が連続しており、かつ、同じ数値のラベルが割り当てられたデータ部分を１つのブロックとして表示する。これにより、作業者がより直感的に操作情報を確認することができる。

また、提示装置２３は、数値のラベルが割り当てられていないデータ部分に「？」マークを付けて、当該データ部分を強調表示しても良い。図４では示されていないが、提示装置２３において、異なる数値のラベル及び／又はそのラベルが割り当てられたデータ部分が、異なる色で表示されても良い。なお、提示装置２３において、収集データに含まれる操作情報（例えば、操作力）が、基準操作の操作情報（例えば、操作力）と比較できるように、グラフ等の形で表示されても良い。

入力装置２４は、提示装置２３で提示された評価済の操作情報を訓練データとして採用するか否かに関して、作業者の指示を受け付ける。入力装置２４は、作業者によって操作可能な図略のキー、マウス、タッチパネル等から構成される。訓練データ選別装置２は、入力装置２４への作業者の入力に応じて、訓練データとしての採否に関する情報を、例えばフラグ等の形で当該評価済の操作情報に付与する。作業者からの採否情報が付与された暫定選択対象データ又は暫定選択除外データは、選択済データとして記憶部２２に記憶される。

本実施形態の訓練データ選別装置２は、作業者が操作装置１２を操作して、ロボット１１に一連の作業を行わせた直後に、当該一連の作業の収集データに対する評価結果を直ちに提示装置２３に表示させることができる。

従って、本実施形態では、作業者は、直前に行った操作を機械学習の訓練データとして用いるか否かに関する採否を、操作した現場で、操作の感覚が自らの中に残っているうちに、入力装置２４によって指示することができる。

作業者が操作装置１２を操作するときに、もっと強く／弱く操作すべきだった、もっと早い／遅いタイミングで操作を開始すべきだった等、自分の操作に納得ができない場合も生じ得る。この場合は、収集データを訓練データとして採用することを作業者が拒否し、納得するまで操作をやり直すことができる。このように、本実施形態では、データの収集と、訓練データとしての採否の決定と、からなるサイクルを、機動的かつ効率的に回していくことができる。従って、作業者が納得し易い訓練データを短期間で豊富に得ることができる。

データ評価部２１によるデータの評価は、機械学習によって構築が完了しているデータ評価モデル２０を用いることで、データの収集後、短時間でかつ自動的に完了させることができる。従って、作業者は、上記のように採否をほぼリアルタイムで決定する場合でも、評価結果の提示を補助的に利用することができる。

以上により、訓練データで用いる収集データを、作業者の意図どおりのものに限定することができる。言い換えれば、学習モデルの訓練フェーズのために収集データが提供される前に、不適切な収集データを除外することができる。早い段階での収集データの取捨選択により、好ましくない収集データを機械学習するケースを減らすことができる。この結果、意図どおりの出力が得られる学習モデルを構築できるまでの学習時間を短縮させることができる。

なお、評価結果の提示及び採否の指示は、リアルタイムでかつその場で行われることに限定されない。訓練データ選別装置２は、例えば、所定期間内に行われた作業者の操作に対応する複数の収集データに対する評価結果を、とりまとめた形で作業者に別の場所で提示しても良い。

本実施形態の訓練データ選別装置２においては、作業者が入力装置２４を使用して、一連の作業に対して収集された収集データ（評価済データ）を、収集データ単位で選択して、訓練データとしての採否を指示することができる。ただし、作業者は、収集データの一部分のデータのみを選択して、訓練データとしての採否を指示することもできる。

例えば、図５の上側には（ａ）～（ｅ）の５つの操作情報が示されており、それぞれが評価済データに対応する。作業者は、図５の左下に示すように、５つの操作情報のうち操作情報（ａ）、（ｂ）、及び（ｄ）を選択して、訓練データとして採用するように指示することができる。

図５に示す操作情報（ｂ）、（ｄ）においては、暫定選択除外データのブロックが含まれている。しかし、操作者の指示により、当該データを一連の作業に対する有効データとして選択することができる。

あるいは、作業者は、図５の右下に示すように、各操作情報（ａ）～（ｅ）に含まれるデータブロック（例えば、ある基準操作に対応する部分）を単位として選択し、訓練データとして採用するように指示することができる。

例えば、図６に示すように、作業状態Ｂにおいて、ロボット１１が保持したワーク１００を、凹部１１０が形成されている面に接触させるとき、上記の面にワーク１００の左下部が先に接触する場合と、右下部が先に先に接触する場合と、が考えられる。ワーク１００の左下部及び右下部のうちどちらが先に上記の面に接触するかは、この作業状態Ｂに対しては何れでも良いが、センサにより検出された検出値から見るとそれぞれのデータになるので、データ評価モデル２０において、異なる操作として取り扱われる可能性も小さくない。

例えば、図５に示す操作情報（ａ）は、ワーク１００の左下部が面に先に接触した場合であり、操作情報（ｃ）は、ワーク１００の右下部が面に先に接触した場合であるとする。この場合、データ評価部２１の評価においては、例えば、操作情報（ａ）では該当のデータブロックに数値（２）のラベルを付与し、操作情報（ｃ）では該当のデータブロックにラベルを付与しないことが考えられる。

この点、本実施形態の訓練データ選別装置２は、作業者が入力装置２４を操作することで、図５に示す操作情報（ｃ）に含まれるラベルが付与されていないデータブロックを選択し、例えば、当該データブロックが数値（２）のラベルに相当する操作である旨を指示することができる。これにより、同じ作業状態において、有効操作となる収集データのバリエーションを、漏れなく訓練データ選別装置２に認識させることができる。例えば、図６に示す作業状態Ｂにおいては、凹部１１０が形成された面に対して異なる方向からワーク１００が接触するそれぞれの場合の操作情報を、訓練データとして両方選択するように、作業者が訓練データ選別装置２に指示することができる。従って、訓練データ選別装置２により選別された訓練データのロバスト性を向上することができる。

上記のように、本実施形態の訓練データ選別装置２は、大量の収集データに対して、機械的な評価情報（ラベル）を付加した状態で、作業者に選択されるように提示することができる。これにより、作業者が適切なデータを効率的に選択して、機械学習の訓練データとして用いることができる。

次に、新しい操作を意味するラベルの割当てについて説明する。

環境の変化等により、今までロボット１１にさせることを意図していなかった動作を、新規に学習させるニーズがある場合も考えられる。この場合、オペレータは操作装置１２を操作して、当該動作を含む一連の動作をロボット１１に行わせる。このときの状態情報と操作情報が、データ収集装置１３によって収集データとして取得される。以下では、収集データのうち新しい動作の部分が、図５に示す操作情報（ｃ）において、ラベル（１）が付与された２つのブロックの間のデータブロックに相当する場合を考える。新しい動作であるので、このデータブロックには、データ評価部２１によってラベルが付与されない。

この操作情報（ｃ）が提示装置２３において提示されると、作業者は入力装置２４を操作し、ラベルが付与されていない当該データブロックを選択して、新しい基準操作として学習させる旨を指示する。これにより、訓練データ選別装置２は、対応する暫定選択除外データに、暫定選択対象データで使用されていない数値（例えば５）のラベルを割り当てる。この結果、当該ブロックのデータに数値（５）のラベルが追加的に付与される。更に、作業者は、新しいラベルが付与されたデータブロックに対して、訓練データとして採用する旨を入力装置２４によって指示することができる。

なお、この場合において、学習モデルが訓練データを学習する場合、上記数値（２）のラベルが付与されたデータと、数値（５）のラベルが付与されたデータとを、同じ作業状態Ｂに対する操作情報として扱うことが可能である。

具体的に説明すると、図２に示す一連の作業に対するある収集データ（ラベル順１→２→３→４）、及び、ある収集データ（ラベル順１→５→３→４）を考える。２つの収集データは、状態情報が類似し、作業順序も類似している。従って、学習モデルにおいて、当該数値（２）のラベルが付与されたデータと数値（５）のラベルが付与されたデータとの両方とも、作業状態Ｂに対応するクラスタに容易に分類することができる。

訓練データ選別部２５は、記憶部２２で記憶された選択済データから、ロボットシステム１で用いられる学習モデルを構築するための訓練データを選別するために用いられる。訓練データは、目的に応じて様々に選別される。例えば、図２に示す一連の作業を学習モデルに学習させたい場合、訓練データ選別部２５は、訓練データとして採用することが指示された選択済データから、数値（１）～（４）のラベルが割り当てられたデータを選別して、訓練データとして出力する。また、例えば、作業状態Ｃに対する基準操作に関して学習モデルに追加学習させたい場合、訓練データ選別部２５は、訓練データとして採用することが指示された選択済データから、数値（３）のラベルが割り当てられたデータ部分のブロックを抽出して、訓練データとして出力する。

即ち、図７に示すように、本実施形態の訓練データ選別装置２は、複数種類の作業に対する複数の収集データから、学習モデルに学習させたい訓練データのみを選別することができる。訓練データ選別部２５は、上記のように、訓練データ選別工程に含まれる処理を行う。

これにより、学習済データを構築するための訓練データを効率的に選別することができる。また、好ましくないデータが訓練データとして選別されることを回避できる。この結果、作業者が意図するように学習モデルが出力を行うまでの時間を短縮することができる。

以上に説明したように、本実施形態の訓練データ選別装置２は、機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する。訓練データ選別装置２は、データ評価モデル２０と、データ評価部２１と、記憶部２２と、訓練データ選別部２５と、を備える。データ評価モデル２０は、収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築される。データ評価部２１は、データ評価モデル２０を用いて、入力された収集データを評価する。記憶部２２は、データ評価部２１により評価された収集データである評価済データを記憶する。訓練データ選別部２５は、記憶部２２により記憶された評価済データから、学習モデルを構築するための訓練データを、データ評価部２１の評価結果が提示された作業者の指示により選別する。

これにより、データ評価モデル２０を用いて収集データから訓練データを選別することで、機械学習のために好ましいデータからなる訓練データを容易に準備することができる。これにより、学習モデルの構築時間を短縮することができる。

また、本実施形態の訓練データ選別装置２は、提示装置２３と、入力装置２４と、を備える。提示装置２３は、データ評価部２１の評価結果を作業者に提示する。入力装置２４は、評価済データを訓練データとして選別するか否かに関する作業者の指示を受け付ける。訓練データ選別部２５は、入力装置２４に入力された指示に基づいて、学習モデルを構築するための訓練データを選別する。

これにより、人間（好ましくは、操作をした作業者自身）の指示に基づいて訓練データが選別されるので、訓練データを一層適切なデータの集まりにすることができる。また、データ評価モデル２０による評価結果を参考にすることで、作業者は、収集データを訓練データとして使用すべきか否かを判断し易くなる。

また、本実施形態の訓練データ選別装置２において、収集データは、ロボットシステム１に搭載された少なくとも何れかのセンサで検出された検出値に基づく計測値の時系列情報を含む。データ評価部２１は、データ評価モデル２０を用いて、検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、収集データを評価する。

これにより、収集データにおいて適宜の単位毎にデータが評価されるので、一連の操作を、基本的な操作が適宜の順序で並べられたものとして把握することが容易となる。この評価結果を用いることで、訓練データの選別がより的確になる。また、基本的な操作に相当する部分を訓練データの選別の単位とすることで、収集データを効率的に利用しながら機械学習を行うことができる。

また、本実施形態の訓練データ選別装置２において、データ評価モデル２０は、部分時系列情報が入力された場合に、作業者の操作を細分化したものである複数の基準操作のそれぞれに対応する評価値を出力するように構築される。データ評価部２１は、部分時系列情報が入力された場合にデータ評価モデル２０が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良い場合は、最も良い評価値の基準操作に当該部分時系列情報が対応していると評価したことを示すラベルを収集データに付与して、評価済データとして記憶部に記憶させる。

これにより、データ評価部２１により良い評価が与えられたデータを容易に区別することができる。

また、本実施形態の訓練データ選別装置２において、評価済データは、評価結果としてのラベルが付された形で、評価済データの作業者による選別のために提示される。

これにより、作業者は、データ評価部２１により良い評価が与えられたデータを容易に確認することができる。

また、本実施形態の訓練データ選別装置２において、評価済データは、評価結果としてのラベルが付与されている部分時系列情報の範囲毎に区別できるように、評価済データの作業者による選別のために提示される。

これにより、作業者は、一連の操作を示す時系列情報のうちのどの部分が良い評価となっているかを容易に確認することができる。

また、本実施形態の訓練データ選別装置２において、評価済データは、データ評価モデル２０が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良くない範囲も併せて、評価済データの作業者による選別のために提示される。

これにより、良い評価が与えられていない範囲についても、作業者により確認することができる。従って、例えば、作業者が自分の一連の操作のどの部分が良くなかったかを検証する手掛かりとすることができる。

また、本実施形態の訓練データ選別装置２は、データ評価モデル２０が複数の基準操作のそれぞれに関して出力した評価値のうち最も良い評価値が閾値よりも良くない範囲を、作業者が指定して、複数の基準操作に含まれない操作を示すラベルを付与することが可能に構成されている。

これにより、新たな基準操作を導入して、訓練データを選別することができる。

また、本実施形態の訓練データ選別装置２において、評価済データは、センサによる検出値又はそれに基づく情報をグラフにより表した形で、評価済データの作業者による選別のために視覚的に提示される。

これにより、作業者が評価済データを確認し易くなる。

また、本実施形態の訓練データ選別装置２において、訓練データ選別部２５は、評価済データのうち、評価結果としてのラベルが付与されている部分時系列情報の範囲毎に、訓練データを選別可能である。

これにより、評価済データの一部を訓練データとして容易に抽出して選別することができるので、収集データを効率的に利用しながら機械学習を行うことができる。

以上に本発明の好適な実施の形態を説明したが、上記の構成は例えば以下のように変更することができる。

提示装置２３は、視覚表示だけに限定されず、例えば、評価値の良否に応じて異なる効果音で示す聴覚提示や、操作装置１２への振動等のフィードバックとしての力覚提示により、操作情報に対する評価を作業者に提示することもできる。

作業者は、入力装置２４を操作することにより、記憶部２２に記憶された、データ評価部２１により評価された収集データの履歴に対して、当該データのそれぞれの良否に関する指示情報を入力しても良い。

前述の実施形態では、作業者が、データ評価部２１が評価した結果の提示による支援を得て、評価済データを訓練データとして採用するか否かの判断を行っている。しかしながら、評価済データの訓練データとしての採否は、作業者に代えて、プログラム（人工知能を用いる場合を含む）により自動的に判断されても良い。この場合、作業者に提示する提示装置２３、及び、作業者の指示を入力する入力装置２４を省略することができる。

学習装置３において、訓練データ選別装置２により選別された訓練データを機械学習することにより学習モデルを構築した後、この学習モデルを、データ評価モデル２０として用いることができる。

ロボット１１は、産業用ロボットだけではなく、医療用ロボット等として構成されても良い。

訓練データ選別装置２は、ロボットを制御するための学習モデルの構築のための訓練データだけではなく、乗物の自動操縦、プラントの自動運転のための学習モデルの構築のための訓練データを選別しても良い。

データ収集装置１３は、ロボットシステム１の代わりに、訓練データ選別装置２に備えられても良い。

訓練データ選別装置２のデータ評価モデル２０は、収集データを評価している。しかしながら、データ評価モデル２０は、訓練データ選別装置２で選別された訓練データを機械学習することにより構築された学習モデルの出力を評価するために用いられても良い。

例えばデータの収集時において、遠隔操作を行うオペレータに対し、ロボット１１側が得た情報がリアルタイムで提示されても良い。このようにオペレータに提示される情報は、データ収集装置１３によって収集される対象となり得る。

オペレータへの情報の提示の一例として、データの収集時において、オペレータの操作装置１２の操作に応じてロボット制御装置１０がロボット１１を駆動する一方、ロボット１１が周囲から受けた反力を伝達するように、操作装置１２を駆動することが考えられる。これにより相互作用的な操作が実現され、オペレータは、操作装置１２を通じて疑似的に提示される力覚を感じながら、当該操作装置１２を用いてロボット１１をリアルタイムで遠隔操作することができる。

オペレータへの情報の提示の他の例として、データの収集時において、オペレータの近傍に配置された適宜のディスプレイに、ロボットシステム１が備えるカメラ１１ｃの映像がリアルタイムで表示されても良い。

１ロボットシステム（制御対象機械）
２訓練データ選別装置
２０データ評価モデル
２１データ評価部
２２記憶部
２３提示装置（評価提示部）
２４入力装置（指示受付部）
２５訓練データ選別部

Claims

機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する訓練データ選別装置であって、
前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルと、
前記データ評価モデルを用いて、入力された前記収集データを評価するデータ評価部と、
前記データ評価部により評価された収集データである評価済データを記憶する記憶部と、
前記記憶部により記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価部の評価結果が提示された作業者の指示により、又は、当該評価結果に基づいて自動的に選別する訓練データ選別部と、
を備え、
前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含み、
前記データ評価部は、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価することを特徴とする訓練データ選別装置。
請求項１に記載の訓練データ選別装置であって、
前記データ評価部の前記評価結果を作業者に提示する評価提示部と、
前記評価済データを前記訓練データとして選別するか否かに関する作業者の指示を受け付ける指示受付部と、
を備え、
前記訓練データ選別部は、前記指示受付部に入力された指示に基づいて、前記学習モデルを構築するための訓練データを選別することを特徴とする訓練データ選別装置。
請求項１に記載の訓練データ選別装置であって、
前記データ評価モデルは、前記部分時系列情報が入力された場合に、作業者の操作を細分化したものである複数の基準操作のそれぞれに対応する評価値を出力するように構築され、
前記データ評価部は、前記部分時系列情報が入力された場合に前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良い場合は、最も良い前記評価値の前記基準操作に当該部分時系列情報が対応していると評価したことを示す対応情報を前記収集データに付与して、前記評価済データとして前記記憶部に記憶させることを特徴とする訓練データ選別装置。
請求項３に記載の訓練データ選別装置であって、
前記評価済データは、前記評価結果としての前記対応情報が付された形で、前記評価済データの作業者による選別のために提示され、又は、前記評価済データの自動的な選別のために用いられることを特徴とする訓練データ選別装置。
請求項４に記載の訓練データ選別装置であって、
前記評価済データは、前記評価結果としての前記対応情報が付与されている前記部分時系列情報の範囲毎に区別できるように、前記評価済データの作業者による選別のために提示されることを特徴とする訓練データ選別装置。
請求項５に記載の訓練データ選別装置であって、
前記評価済データは、前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良くない前記範囲も併せて、前記評価済データの作業者による選別のために提示されることを特徴とする訓練データ選別装置。
請求項６に記載の訓練データ選別装置であって、
前記データ評価モデルが複数の前記基準操作のそれぞれに関して出力した前記評価値のうち最も良い評価値が閾値よりも良くない範囲を、作業者が指定して、前記複数の基準操作に含まれない操作を示す対応情報を付与することが可能に構成されていることを特徴とする訓練データ選別装置。
請求項５から７までの何れか一項に記載の訓練データ選別装置であって、
前記評価済データは、センサによる検出値又はそれに基づく情報をグラフにより表した形で、前記評価済データの作業者による選別のために視覚的に提示されることを特徴とする訓練データ選別装置。
請求項５から８までの何れか一項に記載の訓練データ選別装置であって、
前記訓練データ選別部は、前記評価済データのうち、前記評価結果としての前記対応情報が付与されている前記部分時系列情報の範囲毎に、訓練データを選別可能であることを特徴とする訓練データ選別装置。
請求項１から９までの何れか一項に記載の訓練データ選別装置により選別された訓練データを用いて機械学習により構築された学習モデルと、
前記学習モデルの出力に基づいて作業を行うロボットと、
を備えることを特徴とするロボットシステム。
機械学習により学習モデルを構築するための訓練データを、データ収集装置により収集された収集データから選別する訓練データ選別方法であって、
前記収集データの少なくとも一部に対して機械学習することで、又は前記収集データとは異なるデータに対して機械学習することで、構築されたデータ評価モデルを用いて、入力された前記収集データを評価するデータ評価工程と、
前記データ評価工程で評価された収集データである評価済データを記憶する記憶工程と、
前記記憶工程で記憶された前記評価済データから、前記学習モデルを構築するための訓練データを、前記データ評価工程における評価結果が提示された作業者の指示により、又は当該評価結果に基づいて自動的に選別する訓練データ選別工程と、
を含む処理を行い、
前記収集データは、制御対象機械に搭載された少なくとも何れかのセンサで得られた検出値に基づく計測値の時系列情報を含み、
前記データ評価工程では、前記データ評価モデルを用いて、前記検出値の時系列情報のうち一部の時間に相当する時系列情報である部分時系列情報毎に、前記収集データを評価することを特徴とする訓練データ選別方法。
請求項１１に記載の訓練データ選別方法であって、
前記データ評価工程では、前記訓練データ選別工程で選別された訓練データを機械学習させることにより構築された学習モデルによる操作を収集したデータを、評価することが可能であることを特徴とする訓練データ選別方法。