JP2023072601A

JP2023072601A - ロボット制御装置、ロボットシステム及びロボット制御方法

Info

Publication number: JP2023072601A
Application number: JP2021185278A
Authority: JP
Inventors: 仁志蓮沼; Hitoshi Hasunuma; 武司山本; Takeshi Yamamoto; 一輝倉島; Kazuki Kurashima; 歩岸田; Ayumi Kishida; 雅幸掃部; Masayuki Kamon
Original assignee: Kawasaki Heavy Industries Ltd
Current assignee: Kawasaki Heavy Industries Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-05-24
Also published as: WO2023085100A1

Abstract

【課題】ロボットの動作の進捗を細かく把握可能にする。【解決手段】ロボット制御装置は、学習済モデルと、進行度取得部と、を備える。学習済モデルは、ロボットに一連の作業を行わせる場合の入力データと出力データを学習する。学習済モデルは、当該一連の作業を分割したものに相当する複数の工程動作の何れに入力データが分類されるかを求める。学習済モデルにおいて、それぞれの分類に関連付けて、当該工程動作を実現するための出力の時間的推移である出力推移が定められる。進行度取得部は、入力データの入力に応じて学習済モデルが出力した出力データが、一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得する。進行度は、学習済モデルが入力データを分類した結果である工程動作に対応して定められた進行度範囲の中で、前記工程動作に関連付けられた出力推移において入力データに対応している出力が何番目であるかに応じて変化する。【選択図】図８

Description

本開示は、機械学習によるロボットの制御に関する。

従来から、ロボットの作業動作に関するモデルを構築することができる機械学習装置を備えたロボット制御装置が知られている。特許文献１は、この種のロボット制御装置を開示する。

特許文献１のロボット制御装置は、作業データを学習して構築された学習済モデルを備える。学習済モデルの出力に基づいてロボットの制御が行われる。

作業データは入力データと出力データの組である。入力データは、人間がロボットを操作して一連の作業を行わせる場合の、当該ロボット及びその周辺の状態である。出力データは、それに応じた人間の操作又は当該操作による当該ロボットの動作である。

特許文献１においては、複数の単純な動作毎に作業データを学習することにより、ベース学習済モデルが構築される。ベース学習済モデルには動作ラベルが対応付けられる。学習済モデルとそれぞれのベース学習済モデルとの間の類似度に基づいて、学習済モデルを複数のベース学習済モデルで表現する場合の組合せが取得される。学習済モデルを表現するベース学習済モデルのそれぞれに対応する動作ラベルが出力される。

特許文献１において、推論フェーズで動作する学習済モデルは、入力データが入力されると出力データを出力する。このとき、学習済モデルは、出力データが、一連の作業のうちどの進捗度合いに相当するかを示す進行度を出力可能である。一連の作業を学習した学習済モデルは、前述のとおり、複数のベース学習済モデルで表現される。このとき、複数のベース学習済モデルの時系列での関係を進行度に基づいて得ることができる。

特開２０２０－１０４２１５公報

上記特許文献１の構成においては、進行度は、ベース学習済モデルを単位として変化する。従って、進行度の細かい把握に適しているとは必ずしも言えず、この点で改善の余地があった。

本開示は以上の事情に鑑みてされたものであり、その目的は、動作の細かい進捗を把握することが可能なロボット制御装置等を提供することにある。

本開示の解決しようとする課題は以上の如くであり、次にこの課題を解決するための手段とその効果を説明する。

本開示の第１の観点によれば、以下の構成のロボット制御装置が提供される。即ち、このロボット制御装置は、学習済モデルと、制御データ取得部と、進行度取得部と、情報出力部と、を備える。前記学習済モデルは、人間がロボットを操作して一連の作業を行わせる場合の、当該ロボット及びその周辺の状態を入力データとし、それに応じた人間の操作又は当該操作による当該ロボットの動作を出力データとする作業データを学習することにより構築される。前記制御データ取得部は、ロボット及びその周辺の状態に関する入力データが前記学習済モデルに入力された場合に、それに応じて推定される人間の操作又はロボットの動作に関する出力データを前記学習済モデルから得ることにより、前記作業を行わせるためのロボットの制御データを得る。前記進行度取得部は、前記入力データが前記学習済モデルに入力された場合に、それに応じて出力される前記出力データが、前記一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得する。前記情報出力部は、前記進行度を出力可能である。前記学習済モデルは、前記一連の作業を分割したものに相当する複数の工程動作の何れに前記入力データが分類されるかを求めることが可能である。前記学習済モデルにおいて、それぞれの分類に関連付けて、当該工程動作を実現するための前記人間の操作又は当該操作による当該ロボットの動作の時間的推移である出力推移が定められている。前記学習済モデルは、前記入力データの分類結果に関連付けられた前記出力推移の中から、当該入力データに対応する出力を求めて前記出力データとする。前記進行度の変化範囲は、複数の前記工程動作に対応するように、複数の進行度範囲に分割される。前記複数の進行度範囲の順番は、前記一連の作業における複数の前記工程動作の順番に対応している。前記進行度取得部が取得する進行度は、前記学習済モデルが行った前記入力データの分類結果である前記工程動作に対応する前記進行度範囲の中で、前記工程動作に関連付けられた前記出力推移において前記入力データに対応している出力が何番目であるかに応じて変化する。

本開示の第２の観点によれば、以下のロボット制御方法が提供される。即ち、このロボット制御方法においては、人間がロボットを操作して一連の作業を行わせる場合の、当該ロボット及びその周辺の状態を入力データとし、それに応じた人間の操作又は当該操作による当該ロボットの動作を出力データとする作業データを学習することにより学習済モデルを構築する。ロボット及びその周辺の状態に関する入力データが前記学習済モデルに入力された場合に、それに応じて推定される人間の操作又はロボットの動作に関する出力データを前記学習済モデルから得ることにより、前記作業を行わせるためのロボットの制御データを取得する。前記入力データが前記学習済モデルに入力された場合に、それに応じて出力される前記出力データが、前記一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得する。前記進行度を出力する。前記学習済モデルは、前記一連の作業を分割したものに相当する複数の工程動作の何れに前記入力データが分類されるかを求めることが可能である。前記学習済モデルにおいて、それぞれの分類に関連付けて、当該工程動作を実現するための前記人間の操作又は当該操作による当該ロボットの動作の時間的推移である出力推移が定められている。前記学習済モデルは、前記入力データの分類結果に関連付けられた前記出力推移の中から、当該入力データに対応する出力を求めて前記出力データとする。前記進行度の変化範囲は、複数の前記工程動作に対応するように、複数の進行度範囲に分割されている。前記複数の進行度範囲の順番は、前記一連の作業における複数の前記工程動作の順番に対応している。前記進行度は、前記学習済モデルが行った前記入力データの分類の結果である前記工程動作に対応する前記進行度範囲の中で、前記工程動作に関連付けられた前記出力推移において前記入力データに対応している出力が何番目であるかに応じて変化する。

これにより、一連の作業の進捗を表す進行度を、１つの工程動作の中での細かい進捗を反映した形で得ることができる。

本開示によれば、学習済モデルの予測に基づいてロボットが一連の動作を行う場合に、細かい動作の進捗をユーザが把握することができる。

本開示の一実施形態に係るロボットシステムの電気的構成を示すブロック図。ロボットに行わせる一連の作業と、それを構成する工程動作と、について説明する模式図。作業データを構成する状態値及びユーザ操作力が反復して取得される様子を示す模式図。工程動作データについて説明する図。学習済モデルの構築のために行われるクラスタリングを説明する図。学習済モデルが行う推論について説明する図。工程動作を単位として進行度が変化する比較例を示すグラフ。ロボットの自律運転時における進行度の変化の例を示すグラフ。自律運転時にロボットの動作が途中で停滞する場合の進行度の変化の例を示すグラフ。自律運転時にロボットが迷いのような動作を行った場合の進行度の変化の例を示すグラフ。工程動作データの変形例について説明する図。複数の作業データを時刻基準で学習する場合と進行度基準で学習する場合を比較して説明する概念図。

次に、図面を参照して、開示される実施の形態を説明する。図１は、本開示の一実施形態に係るロボットシステム１の電気的構成を示すブロック図である。

図１に示すロボットシステム１は、ロボット１０を用いて作業を行うシステムである。ロボット１０に行わせる作業としては様々であるが、例えば、組立て、加工、塗装、洗浄等がある。

詳細は後述するが、ロボット１０は、データを機械学習することで構築されたモデル（学習済モデル４３）を用いて制御される。そのため、ロボットシステム１は、基本的にはユーザの補助を必要とせず、作業を自律的に行うことができる。また、ロボット１０は、自律的に作業を行うだけでなく、ユーザの操作に応じて作業を行うこともできる。以下の説明では、ロボット１０が作業を自律的に行うことを「自律運転」と呼び、ユーザの操作に応じてロボット１０が作業を行うことを「手動運転」と呼ぶことがある。

図１に示すように、ロボットシステム１は、ロボット１０と、ロボット制御装置１５と、を備える。ロボット１０とロボット制御装置１５は有線又は無線により互いに接続されており、信号のやり取りを行うことができる。

ロボット１０は、台座に取り付けられたアーム部を備える。アーム部は、複数の関節を有しており、各関節にはアクチュエータが備えられている。ロボット１０は、外部から入力された動作指令に応じてアクチュエータを動作させることでアーム部を動作させる。

アーム部の先端には、作業内容に応じて選択されたエンドエフェクタが取り付けられている。ロボット１０は、外部から入力された動作指令に応じてエンドエフェクタを動作させることができる。

ロボット１０には、ロボット１０の動作及び周囲環境等を検出するためのセンサが取り付けられている。本実施形態では、動作センサ１１と、力センサ１２と、カメラ１３と、がロボット１０に取り付けられている。

動作センサ１１は、ロボット１０のアーム部の関節毎に設けられており、各関節の回転角度又は角速度を検出する。力センサ１２は、ロボット１０の動作時に、ロボット１０が受けた力を検出する。力センサ１２はエンドエフェクタに掛かる力を検出する構成であっても良いし、アーム部の各関節に掛かる力を検出する構成であっても良い。また、力センサ１２は、力に代えて又は加えてモーメントを検出する構成であっても良い。カメラ１３は、作業対象であるワークの映像（ワークに対する作業の進行状況）を検出する。

動作センサ１１が検出するデータは、ロボット１０の動作を示す動作データである。力センサ１２及びカメラ１３が検出するデータは、ロボット１０の周囲の環境を示す周囲環境データである。あるタイミングで取得された動作データの値と周囲環境データの値の集合を、以下の説明で状態値と呼ぶことがある。状態値は、ロボット１０及びその周辺の状態を示すものである。

以下の説明では、ロボット１０に設けられた動作センサ１１、力センサ１２、及びカメラ１３をまとめて「状態検出センサ１１～１３」と称することがある。あるタイミングで状態検出センサ１１～１３が検出した値の集合が、状態値に相当する。状態検出センサ１１～１３は、ロボット１０に取り付ける代わりに、ロボット１０の周囲に設けても良い。

ロボット制御装置１５は、ユーザインタフェース部２０と、動作切替部（制御データ取得部）３０と、ＡＩ部４０と、動作ラベル記憶部５０と、を備える。

具体的には、ロボット制御装置１５は、ＣＰＵ、ＲＯＭ、ＲＡＭ、及びＨＤＤを備えるコンピュータである。コンピュータは、ユーザが操作するためのマウス等の装置を備える。コンピュータはＧＰＵを備えると、後述の機械学習を短時間で行うことができる場合があり、好ましい。ＨＤＤには、ロボット制御装置１５を動作させるためのプログラムが記憶される。上記のハードウェアとソフトウェアとの協働により、ロボット制御装置１５を、ユーザインタフェース部２０、動作切替部３０、ＡＩ部４０、及び動作ラベル記憶部５０として機能させることができる。

ユーザインタフェース部２０は、ロボット制御装置１５のユーザインタフェース機能を実現するものである。ユーザインタフェース部２０は、操作部２１と、表示部（情報出力部）２２と、を備える。

操作部２１は、ロボット１０を手動で操作するために用いる装置である。操作部２１は、例えばレバー、ペダル等を備える構成とすることができる。

図示しないが、操作部２１は、公知の操作力検出センサを備える。操作力検出センサは、ユーザが操作部２１に加えた力（操作力）を検出する。

操作部２１が様々な方向に動かすことができるように構成されている場合、操作力は力の向き及び大きさを含む値、例えばベクトルであっても良い。また、操作力は、ユーザが加えた力（Ｎ）だけでなく、力に連動する値である加速度（即ち、ユーザが加えた力を操作部２１の質量で除算した値）の形で検出されても良い。

以下の説明では、ユーザが操作部２１に加えた操作力を、特に「ユーザ操作力」と称することがある。ユーザが操作部２１を操作することで出力されたユーザ操作力は、後述するように動作切替部３０で動作指令に変換される。

表示部２２は、ユーザの指示に応じて、様々な情報を表示することができる。表示部２２は、例えば液晶ディスプレイとすることができる。表示部２２は、操作部２１の近傍に配置されている。操作部２１がロボット１０から離れて配置されている場合、表示部２２に、ロボット１０及びその周辺の映像を表示させても良い。

動作切替部３０には、ロボット１０、操作部２１、及びＡＩ部４０が接続されている。動作切替部３０には、操作部２１が出力したユーザ操作力と、ＡＩ部４０が出力した後述の推定操作力と、が入力される。

動作切替部３０は、ロボット１０を動作させるための動作指令をロボット１０へ出力する。動作切替部３０は、切替部３１と、変換部３２と、を備える。

切替部３１は、入力されたユーザ操作力及び推定操作力のうち一方を変換部３２へ出力するように構成されている。切替部３１は、ユーザ操作力及び推定操作力のうち何れを変換するかを示す選択信号に基づいて、ユーザ操作力又は推定操作力を変換部３２へ出力する。選択信号は、ユーザがユーザインタフェース部２０を適宜操作することにより、ユーザインタフェース部２０から動作切替部３０に出力される。

これにより、ユーザがロボット１０を動作させる状態（手動運転）と、ロボットシステム１がロボット１０に自律的に作業を行わせる状態（自律運転）と、を切り替えることができる。手動運転の場合、ロボット１０は、操作部２１が出力したユーザ操作力に基づいて動作する。自律運転の場合、ロボット１０は、ＡＩ部４０が出力した推定操作力に基づいて動作する。

変換部３２は、切替部３１から入力されたユーザ操作力又は推定操作力の何れかを、ロボット１０を動作させるための動作指令に変換して、ロボット１０に出力する。動作指令は、ロボット１０を制御するための制御データと言い換えることもできる。

ＡＩ部４０は、学習済モデル４３と、データ入力部４１と、推定データ出力部４２と、進行度計算部（進行度取得部）４６と、を備える。

学習済モデル４３は、ロボット１０の自律動作により一連の作業を行わせるために構築される。ＡＩ部４０で用いられる学習済モデル４３の形式は任意であり、例えば、クラスタリングによるモデルを用いることができる。学習済モデル４３の構築は、ロボット制御装置１５において行われても良いし、他のコンピュータで行われても良い。

データ入力部４１は、ＡＩ部４０の入力側のインタフェースとして機能する。データ入力部４１には、状態検出センサ１１～１３から出力されるセンサ情報が入力される。

推定データ出力部４２は、ＡＩ部４０の出力側のインタフェースとして機能する。推定データ出力部４２は、学習済モデル４３が出力したデータを出力することができる。

進行度計算部４６は、学習済モデル４３の出力が、一連の作業のうちどの程度の進捗に相当するかを計算する。進行度計算部４６が行う処理の詳細は後述する。

本実施形態では、ＡＩ部４０は、ユーザが操作部２１によって行うロボット１０の操作を学習して、学習済モデル４３を構築する。具体的には、ＡＩ部４０には、状態検出センサ１１～１３により得られる状態値と、操作力検出センサにより得られたユーザ操作力と、が入力される。

ここで、ロボット１０の自律運転により行わせる一連の作業について、図２を参照して説明する。

図２に示すように、ワーク８１を凹部８２に入れる一連の作業をロボット１０に行わせる場合を考える。この一連の作業が開始してから終了するまで、空中、接触、挿入、及び完了の４つの作業状態が現れると考えることができる。

作業状態１（空中）は、ロボット１０がワーク８１を保持して凹部８２の上部に位置させている状態である。作業状態２（接触）は、ロボット１０が保持したワーク８１を、凹部８２が形成されている面に接触させている状態である。作業状態３（挿入）は、ロボット１０が保持したワーク８１を凹部８２に少し挿入している状態である。作業状態４（完了）は、ロボット１０が保持したワーク８１が凹部８２に完全に挿入された状態である。

４つの作業状態は、ロボット１０による一連の作業の開始状態、途中状態、及び終了状態のうち何れかに相当する。ロボット１０による一連の作業は、作業状態を境界として、複数の工程に分割される。それぞれの工程に対応する動作をロボット１０が行うことにより、作業状態は、作業状態１（空中）、作業状態２（接触）、作業状態３（挿入）、作業状態４（完了）の順に遷移する。

以下、一連の作業が作業状態を境界として分割されたそれぞれの工程に対応する動作を、工程動作と呼ぶことがある。工程動作は、図２の例においては、動作１（下降動作）、動作２（擦り動作）、及び動作３（穴内下降動作）である。工程動作を繰り返すことで、自然と次の作業へ遷移するような動作が呼び出される。例えば、作業状態１（空中）において動作１（下降動作）が行われると、作業状態２（接触）に遷移する。動作２及び動作３についても同様である。

４つの作業状態は、一連の作業をＡＩ部４０において学習させる場合に、ユーザによって予めＡＩ部４０に対して登録される。

このとき、ユーザは、各作業状態に対し、進行度の数値を設定する。進行度とは、進行度は、学習済モデル４３の出力に基づいてロボット１０が行う動作が、一連の作業のうちでどの進捗度合いに相当するかについて評価するために用いるパラメータである。本実施形態では、進行度は０から１までの範囲の値をとり、１に近い程、一連の作業が進行していることを示す。進行度が変化する範囲は任意であり、例えば０から１００までの範囲となるように定めることもできる。

進行度の値は、現れる作業状態の順番に従って単調増加するように、それぞれの作業状態に対して予め定められる。進行度の値は、ユーザが定めても良いし、ＡＩ部４０が自動的に定めても良い。

以下では、進行度が、作業状態１（空中）に対して０、作業状態２（接触）に対して０．５、作業状態３（挿入）に対して０．８、作業状態４（完了）に対して１となるようにそれぞれ定められたとして説明する。これにより、必然的に、動作１（下降動作）に対して０から０．５の進行度範囲、動作２（擦り動作）に対して０．５から０．８の進行度範囲、動作３（穴内下降動作）に対して０．８から１の進行度範囲がそれぞれ割り当てられたことになる。

機械学習のためデータは、ユーザが操作部２１を実際に操作してロボット１０に一連の作業を行わせることにより、取得することができる。以下、図２に示す一連の作業をロボット１０に１回行わせることにより得られるデータを作業データと呼ぶことがある。

ユーザは、操作部２１を操作して一連の作業をロボット１０に行わせる途中で、それぞれの作業状態に到達したタイミングで、作業状態が変化したことをＡＩ部４０にリアルタイムで指示する。指示は、例えばユーザが特定の言葉をマイクに向かって発声することで行うことができる。作業状態の変化がユーザによって指示されたタイミングの間の動作が、１つの工程動作として取り扱われる。

指示はリアルタイムで行われなくても良い。例えば、作業データが得られた後に、どのタイミングで作業状態が切り換わったかを、ユーザがデータを閲覧しながら事後的に指定することができる。

一連の動作の間で作業状態の切り替わりがユーザによって指示された複数のタイミングの間が、１つの工程動作に相当する。従って、それぞれの工程動作は、ユーザの手動操作によって実質的に指定されている（手動指定モード）。ただし、一連の動作を構成する工程動作を自動認識することもできる（自動指定モード）。

一般的には、工程動作の切り替わりに伴って、ユーザが操作部２１に対して力を加える態様が異なる。例えばＡＩ部４０は、この力の加え方の変化に基づいて、工程動作の切り替わりが生じたことを検出する。これにより、自動指定モードを実現することができる。工程動作の切り替わりを、公知の機械学習（例えば、教師あり学習）を用いて検出することもできる。

図３には、ユーザがロボット１０を操作して一連の作業を行う場合に、学習のための作業データが各種のセンサから取得される様子が模式的に示されている。データは、状態検出センサ１１～１３及び操作力検出センサから、適宜の時間間隔で反復して取得される。本実施形態では、データ取得周期は１秒に定められているが、適宜変更することができる。

あるタイミングにおいて取得された状態値及びユーザ操作力から、データ組が構成される。図３には、操作力検出センサのデータ取得の時間間隔はデータ取得周期と等しい一方、状態検出センサ１１～１３のデータ取得の時間間隔はデータ取得周期より短い例が示されている。状態値に関して、図３の例では、１つのデータ組に、１回前のデータ取得タイミングから今回のデータ取得タイミングまでの短い期間での推移が含まれている。このように、１つのデータ組に、状態値及びユーザ操作力のうち少なくとも何れかの時間推移が含まれても良い。

データ組は、ロボット１０が何れかの作業状態にある場合、ロボット１０が何れかの工程動作を行っている場合、の両方において取得される。作業データには、複数のデータ組が、当該データ組が取得された時刻に関連付けた形で含まれている。

次に、作業データを分割した工程動作データについて説明する。図４には、学習済モデル４３を構築するためのデータの一例が示されている。

図４のデータは、一連の作業の開始からｋ秒が経過した時点で、作業状態が作業状態２（接触）であり、状態値がＳ_21,kであったが、ロボット１０がｎ秒間動作した結果、作業状態が作業状態３（挿入）に遷移し、状態値がＳ_31,k+nになったことを示している。ただし、ｎは１以上の整数である。図４のデータは、上記の一連の作業の一部である工程動作、具体的には上述の動作２（擦り動作）に相当する。以下、１回の工程動作に相当するデータを工程動作データと呼ぶことがある。

ＡＩ部４０において、機械学習モデルは、図４に示す工程動作データを単位として学習する。１つの工程動作データは、以下の［１］～［４］の集合である。
［１］遷移前の作業状態が作業状態２（接触）であることを示すデータ。
［２］遷移先の作業状態が作業状態３（挿入）であることを示すデータ。
［３］作業状態が遷移する過程における、一連の作業の開始からｍ秒後の状態値Ｓ_21,mとユーザ操作力Ｉ_21,mのデータ。ただし、一連の作業の開始から当該工程動作の開始までの時間をｋ秒とした場合、ｍは、ｋ≦ｍ＜ｋ＋ｎを満たす整数である。このデータは、状態値Ｓ₂₁とユーザ操作力の値Ｉ₂₁からなるデータ組を、それぞれｍの値に関連付けながら複数並べたものに相当する。
［４］作業状態の遷移が完了した結果としての、遷移開始からｎ秒後の状態値Ｓ_31,k+nのデータ。

上記の［１］～［４］の集合は、ＡＩ部４０において、一連の作業に相当する作業データから一部を切り出す処理を行うことにより得ることができる。

ユーザの操作及び状況にはバラツキがあるため、工程動作としての動作２（擦り動作）には様々なバリエーションが存在する。例えば、現在の作業状態が作業状態２（接触）であり、現在の状態値がＳ_22,kであって、作業状態３（挿入）に遷移させた場合に状態値がＳ_32,k+nになった場合が考えられる。機械学習モデルは、この工程動作データも上述と同様に学習する。

一連の作業には、作業状態２（接触）から作業状態３（挿入）への遷移だけでなく、例えば作業状態１（空中）から作業状態２（接触）への遷移等、他の作業状態間の遷移も含まれる。言い換えれば、一連の作業には、動作２（擦り動作）だけでなく他の工程動作も含まれる。機械学習モデルは、それらの遷移に相当する工程動作に関しても、上記と同様に学習を行う。

ユーザは、操作部２１の操作を繰り返して、同一の一連の作業を反復してロボット１０に行わせる。これにより複数の作業データが得られ、機械学習モデルは、それぞれの工程動作についてバリエーションを学習することができる。

本実施形態においては、クラスタリングによる機械学習モデルが採用されている。機械学習モデルが１つの工程動作データを学習することは、図４を参照して説明した、上記の［１］～［４］の集合に相当する１つの特徴ベクトルを学習することを意味する。本実施形態の機械学習モデルにおいては、多次元の特徴空間によるマップが定義されている。ＡＩ部４０は、１つの工程動作を学習する毎に、１つの特徴ベクトルを、機械学習モデルの特徴空間にプロットする。図５の上側には、工程動作データに相当する特徴ベクトルが特徴空間にプロットされた様子が概念的に示されている。

学習対象の全ての特徴ベクトルがＡＩ部４０に入力された後、特徴空間に複数プロットされた特徴ベクトルを対象として、クラスタリングが行われる。

クラスタリングとは、多数のデータから分布の法則を学習して、互いに特徴が似ているデータのまとまりである複数のクラスタを取得する手法である。ここでは、データは特徴ベクトルを意味する。クラスタリングの方法としては、例えば、公知の非階層クラスタリング手法を適宜用いることができる。この結果、互いに類似した特徴ベクトルをまとめた複数のクラスタが得られる。クラスタリングにおけるクラスタ数は、適宜定めることができる。ある時点での作業状態と、遷移先の作業状態と、の組合せが異なる２つの特徴ベクトルがある場合、クラスタリングは、２つの特徴ベクトルが、互いに異なるクラスタにそれぞれ属するように行われることが好ましい。

ＡＩ部４０は、続いて、それぞれのクラスタにおいて、当該クラスタを代表する特徴ベクトル（言い換えれば、工程動作データ）を計算により求める。以下、この代表となる特徴ベクトルをノードと呼ぶことがある。ノードの求め方は様々であるが、例えば、それぞれのクラスタの重心に相当するデータとすることができる。ノードは、図５の下側においてＸ印で示されている。

以上により、訓練フェーズが完了し、学習済モデル４３を構築することができる。ＡＩ部４０が構築した学習済モデル４３は、実質的には、図６に模式的に示すように、多次元の特徴空間におけるノードの分布である。

次に、学習済モデル４３に基づくＡＩ部４０からの出力について説明する。

推論フェーズにおいては、現在において状態検出センサ１１～１３により得られた状態値と、現在の作業状態と、を含む特徴ベクトルがＡＩ部４０において生成される。この１つの特徴ベクトルが、学習済モデル４３に入力される。以下、この特徴ベクトルを入力特徴ベクトルと呼ぶことがある。入力特徴ベクトルに、状態値に関する直近の過去の推移、及び、ユーザ操作力に関する直近の過去の推移が、更に含められても良い。

学習済モデル４３は、入力特徴ベクトルに類似する１又は複数のノードを求める。現在の操作力は推論の対象であるため、入力特徴ベクトルには、現在の操作力に関する情報は含まれていない。従って、入力特徴ベクトルとノードの類似度を計算するとき、現在の操作力に関する次元は無視される。類似度は、公知の計算式（例えば、ユークリッド距離）により求めることができる。以下、求められたノードを出力対象ノードと呼ぶことがある。出力対象ノードを得る求めることは、入力特徴ベクトルが何れのクラスタについてクラスタリングの分類されるか分類結果を得ることと同義である。

出力対象ノードが求められると、学習済モデル４３は更に、入力特徴ベクトルに含まれる現在の状態値が、出力対象ノードに含まれている上記の［３］の推移のうちどの時刻の状態値に最も類似するかを求める。類似度は、上記と同様に、公知の方法（例えば、ユークリッド距離）により求めることができる。このとき、状態値の類似だけでなく、時刻の類似が考慮される。

図６の例では、５秒目の状態値Ｓ_2X,5が、入力特徴ベクトルの状態値に最も類似していた場合が示されている。最も類似する状態値が求められると、学習済モデル４３は、上記の［３］の推移の中で、当該状態値と同一のデータ組に属するユーザ操作力を、上述の推定操作力として出力する。図６の例では、状態値Ｓ_2X,5に対応付けられているユーザ操作力Ｉ_2X,5が、推定操作力として出力される。

出力対象ノードにおいて、推定操作力が［３］の推移のうち最後のユーザ操作力に相当する場合、ＡＩ部４０は、現在の作業状態を遷移先の作業状態に更新する。

上記の処理を例えば１秒毎に反復し、推定操作力に基づいてロボット１０を動作させることにより、ロボット１０の自律動作を実現することができる。

次に、上述の進行度計算部４６の処理について説明する。

進行度計算部４６は、学習済モデル４３が出力する推定操作力が、一連の作業のうちどの進捗度合いに相当するかを示す進行度を計算により取得することができる。この進行度は、出力対象ノードが示す遷移前の作業状態に対応する進行度の値、遷移後の作業状態に対応する進行度の値、及び、出力対象ノードにおける推定操作力の時系列順の情報に基づいて、計算することができる。

以下、具体的に説明する。ＡＩ部４０に入力された特徴ベクトルに類似するとして学習済モデル４３が求めた出力対象ノードは、上記の［１］～［４］を情報として含んでいる。今回の例では、図６の下側に示すように、出力対象ノードが、遷移前の作業状態が作業状態２（接触）であること、遷移先の作業状態が作業状態３（挿入）であること、作業状態間の遷移のための１５秒間の状態値Ｓ_2X,k～Ｓ_2X,k+14、及び、１５秒間のユーザ操作力Ｉ_2X,k～Ｉ_2X,k+14を有していたとする。更に、入力特徴ベクトルが有する現在の状態値に対して、当該ノードの５秒目の状態値Ｓ_2X,k+5が最も類似していたとする。この場合、ＡＩ部４０は、ユーザ操作力Ｉ_2X,k+5を推定操作力として出力する。遷移前の作業状態及び遷移先の作業状態に関する条件を省略して、現在の状態値に対して最も類似するノードを全体のノードから選択して推定操作力として出力することもできる。

上述のとおり、作業状態２（接触）に対しては進行度として０．５が定義され、作業状態３（挿入）に対しては進行度として０．８が定義されている。上記のノードにおいて、工程動作の開始から５秒目の状態は、時間で考えると、０．５から０．８までの進行度区間のうち５／１５を消化した状態であるので、進行度として０．６に相当すると計算することができる。進行度計算部４６は、このように、時刻を進行度に変換する計算を行う。ＡＩ部４０は、得られた進行度の値である０．６をディスプレイ等に出力する。上記の計算を予め行って変換テーブルを作成しておき、このテーブルを用いて時刻から進行度への変換を行う構成とすることもできる。

仮に、進行度を作業状態の順番だけに従って定める場合を考える。この場合、図７の比較例のグラフで示すように、作業状態１（空中）からの一連の作業をロボット１０が開始しても、進行度は、作業状態２（接触）への遷移が完了する直前まで０を維持する。進行度は、作業状態２（接触）への遷移が完了したタイミングで、非連続的に０．５に変化する。その後、進行度は、作業状態３（挿入）への遷移が完了する直前まで０．５を維持する。進行度は、作業状態３（挿入）への遷移が完了したタイミングで、非連続的に０．８に変化する。その後、進行度は、作業状態４（完了）への遷移が完了する直前まで０．８を維持する。進行度は、作業状態４（完了）への遷移が完了したタイミングで、非連続的に１．０となる。

このように、作業状態の単位（言い換えれば、クラスタ単位）で進行度を変化させる場合、進行度の変化が粗い。従って、大きな粒度での進捗の把握は問題ないものの、細かい進捗がわかりにくい。

特に、ロボット１０の先端にワークを保持した状態で空中を移動させ続ける作業、保持したワークを別の部材に押し当て続ける作業等、類似する状態が比較的長時間継続する状況が工程動作に含まれる場合がある。この場合は、進行度の推移が、作業がずっと停滞しているのと変わらないことがあった。

この点、本実施形態では、進行度が、作業状態の変化を反映するだけでなく、出力対象ノードにおけるユーザ操作力の時系列的な呼出しにおいて推定操作力がどの順番に相当するかを反映した形で求められる。従って、進行度が、図８に示すように、一連の作業の進行に伴って比較的滑らかな形で増加するので、ユーザは作業の細かい進捗を容易に理解することができる。

ロボット１０が自律動作する場合、進行度は、例えば、リアルタイムで表示部２２に表示される。進行度は、例えば、図８のようにグラフの形で表示すると、ユーザが直感的に理解できるため、好ましい。推論フェーズの学習済モデル４３による自律動作が問題なく行われていれば、進行度は０から１まで細かい階段状に変化する。進行度が変化する単位は、前述のデータ取得周期である１秒分に相当する進行度となる。データ取得周期は、推定操作力の出力周期と言い換えることもできる。

何れかの工程動作の途中でロボット１０が停止した場合は、進行度の値も、図９に示すように、その工程動作の途中に相当する値（例えば０．６）から増加しなくなる。また、ロボット１０の自律動作に何らかの迷い又は試行錯誤に似た動作が生じた場合は、進行度の値が、図１０に示すように、例えば概ね０．５５と０．７の間で上下動を繰り返したりする。このように、細かく変動する進行度を監視することで、ロボット１０の自律動作において想定外の状況が生じていることを容易に把握することができる。

図８から図１０までに示すように、グラフに加えて、前述の動作ラベル記憶部５０が記憶されている動作ラベルが、表示部２２により表示されても良い。これにより、ユーザは、どの工程動作が行われているかを直感的に理解することができる。

一般的に機械学習モデルの動作は外部から把握できず、その動作は、工程動作のうち何れの動作を想定しているのかが不明であった。従って、機械学習モデルが勘違いせず正しい順番で動作を行っているのか、又は、失敗した場合にどの動作で失敗したかの評価が困難であった。しかし、本実施形態では、図８から図１０までに示すように、一連の作業において行われる動作の細かい順序が可視化されている。従って、構築された学習済モデル４３の性能等を正しく評価することが容易になり、更に、モデルの改善の手掛かりを容易に得ることができる。

次に、図１１を参照して、工程動作データの変形例について説明する。

上記の実施形態の工程動作データにおいては、図４に示すように、状態値Ｓ₂₁及びユーザ操作力Ｉ₂₁からなるデータ組が、一連の作業を開始したタイミングを基準とする時刻ｍに対応付けられている。その代わりに、本変形例では、図１１に示すように、データ組が進行度に対応付けられている。

進行度は一連の作業の進捗を比率で表したものであるので、時刻の代わりに進行度を用いることで、作業データの長さのバラツキの影響を抑制することができる。

例えば、学習済モデル４３を構築するために、図１２の上側に示す３つの作業データを機械学習モデルに学習させる場合を考える。ユーザの操作及び状況にはバラツキがあるため、それぞれの工程動作に相当するデータが現れる時刻、及び当該データの時系列的な長さにバラツキが生じる。従って、図４のように一連の作業の開始からの時刻を工程動作データにそのまま用いた場合、クラスタリングに大きな影響が生じることがある。動作の時間的なバラツキは後の工程へ累積していくため、後の動作工程になるほど特に影響を受け易くなる。

この点、本変形例では、時刻の代わりに進行度を用いている。進行度基準とすることで、作業データに対して時間軸方向の拡大又は縮小を行い、図１２の下側に示すように時系列な長さを揃えた形で、工程動作データの機械学習を行うことができる。これにより、機械学習のクラスタリングにおいて、互いに類似した工程動作を示す工程動作データが同一のクラスタを形成し易くなる。従って、学習済モデル４３がより適切な推論を行うことが期待できる。

一連の作業に含まれる作業工程の時間的長短のバラツキの影響を受けないように進行度を定めることもできる。具体的に説明すると、作業工程の中には、例えばワークを他の部材に押し付ける作業等、状況によっては長時間を要するものがある。完了するための時間にバラツキが大きく生じ易い作業工程が一連の作業に複数含まれている場合、単純に一連の作業の全体に対して０から１までの進行度を割り当てると、同一の一連の作業を行っても、作業データの進行度同士が一致しにくいことがある。

この状況を解決するために、以下のようにすることもできる。即ち、一連の作業に含まれることが想定される作業工程を大まかに事前に分類し、それぞれの分類について作業順に従って例えば０，１，２，・・・というようにラベルを付与する。上記の事前の分類は、作業状態に基づいて行われても良いし、クラスタリング等の機械学習により行われても良い。１のラベルが付された作業においては進行度が０．０から１．０まで、２のラベルが付された作業においては進行度が１．０から２．０まで、・・・というように割り当てられる。これにより、作業工程の時間的な長さのバラツキが大きいデータ同士の進捗を比較する場合においても、同じ作業工程は似た進行度を示すことになる。従って、学習済モデル４３が適切な推論を行い易くなる。

以上に説明したように、本実施形態のロボット制御装置１５は、学習済モデル４３と、動作切替部３０と、進行度計算部４６と、表示部２２と、を備える。学習済モデル４３は、人間がロボット１０を操作して一連の作業を行わせる場合の、状態値を入力データとし、それに応じたユーザ操作力を出力データとする作業データを学習することにより構築される。動作切替部３０は、状態値が学習済モデル４３に入力された場合に、それに応じて推定されるユーザ操作力を学習済モデル４３から得ることにより、作業を行わせるためのロボット１０の制御データを得る。進行度計算部４６は、入力データが学習済モデル４３に入力された場合に、それに応じて出力される出力データが、一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得する。表示部２２は、進行度を出力可能である。学習済モデル４３は、一連の作業を分割したものに相当する複数の工程動作の何れに入力データが分類されるかを求めることが可能である。学習済モデル４３において、それぞれの分類を代表するノードには関連付けて、工程動作を実現するためのユーザ操作力の時間的推移である出力推移が定められている。学習済モデル４３は、入力データの分類結果に関連付けられたノードの出力推移の中から、入力データの状態値に対応するユーザ操作力を求めて出力データとする。進行度の変化範囲（０から１まで）は、複数の工程動作に対応するように、複数の進行度範囲に分割される。複数の進行度範囲の順番は、一連の作業における複数の工程動作の順番に対応している。進行度計算部４６が取得する進行度は、学習済モデル４３が行った入力データの分類結果である工程動作に対応する進行度範囲の中で、工程動作に関連付けられた出力推移において状態値に対応しているユーザ操作力が何番目であるかに応じて変化する。

これにより、一連の作業の進捗を表す進行度を、１つの工程動作の中での細かい進捗を反映した形で得ることができる。従って、ユーザは、進行度を参照して、自律運転の状況をより適切に把握することができる。

本実施形態のロボット制御装置１５は、動作ラベル記憶部５０を備える。工程動作の内容を表現する情報を含む動作ラベルを、工程動作に対応付けて記憶する。表示部２２は、動作ラベルを出力可能である。

これにより、ユーザは、自律運転の状況をより直感的に理解することができる。

図１１の例では、作業データのうち出力データには、ユーザ操作力が、進行度に関連付けられて含まれる。

これにより、作業データの時間的な長さのバラツキが機械学習におけるノイズとなるのを抑制することができる。従って、学習済モデル４３がより適切な推論を行うことができる。

本実施形態のロボット制御装置１５において、作業データは、１つの工程動作に相当する工程動作データに分割される。学習済モデル４３は、それぞれの工程動作データを対象とするクラスタリングにより構築される。

これにより、様々な状況に柔軟に対応可能な学習済モデル４３を構築することができる。

本実施形態のロボットシステム１は、ロボット制御装置１５と、ロボット１０と、を備える。

これにより、ユーザは、ロボット１０が自律運転を行う場合の動作の進捗を、より細かい状況を反映した形で把握することができる。

以上に本開示の好適な実施の形態を説明したが、上記の構成は例えば以下のように変更することができる。

上記の実施形態では、学習済モデル４３は、状態値と、ユーザ操作力と、の関係を学習している。これに代えて、学習済モデル４３が、状態値と、ロボット１０への動作指令と、の関係を学習するように構成しても良い。

作業データの工程動作データへの分割は、複数のベース学習済モデルを利用して自動的に行われても良い。具体的に説明すると、それぞれのベース学習済モデルは、標準的な工程動作毎に予め構築されている。標準的な工程動作とは、一連の動作よりも単純な動作であり、上述の下降動作、擦り動作、及び穴内下降動作を含んで多数考えられる。それぞれのベース学習済モデルは、ユーザが操作部２１を操作して標準的な工程動作をロボット１０に行わせたときの、状態値とユーザ操作力の時系列的な順番を学習している。作業データが得られると、作業データに含まれる状態値がそれぞれのベース学習済モデルに入力され、ベース学習済モデルが出力するユーザ操作力が、作業データのユーザ操作力と比較される。作業データの入力と出力の時系列に、ベース学習済モデルの入力と出力の時系列に類似している区間があれば、その部分が当該工程動作であると判定することができる。

進行度は、図８のようにグラフ形式で表示することに代えて、例えば数値で表示する構成とすることもできる。

ロボット制御装置１５は、情報出力部として、表示部２２に代えて又は加えて音声出力部を備えても良い。この場合、進行度を音声により出力することができる。例えば、ロボット制御装置１５は、音声合成によって進行度の数値を読み上げる構成とすることができる。同様に、動作ラベルが音声により出力されても良い。

動作ラベルは、動作の内容を特定可能な目印であれば良い。動作ラベルは、「引抜き」等のような文字列とすることに代えて、例えばアイコン等の画像とすることもできる。

学習済モデル４３として、クラスタリングによる機械学習モデルに代えて、他の形式、例えばニューラルネットワークによる機械学習モデルを用いることができる。

ロボット１０及びその周辺の状態を取得するためのセンサ（状態センサ）として、動作センサ１１、力センサ１２及びカメラ１３以外のセンサが用いられても良い。

操作部２１に、操作力検出センサに代えて、又はそれに加えて、操作位置検出センサを設けても良い。操作位置検出センサも操作力検出センサと同様に、人間の操作を検出するセンサということができる。

操作部２１が遠隔操作に用いるマスターアームであり、かつ、ロボット１０がスレーブアームであるロボットシステム１であっても良い。この場合、ＡＩ部４０は、ユーザによるマスターアームの操作に基づいて学習した学習済モデル４３を構築することができる。

１ロボットシステム
１０ロボット
１５ロボット制御装置
２２表示部（情報出力部）
３０動作切替部（制御データ取得部）
４３学習済モデル
４６進行度計算部（進行度取得部）
５０動作ラベル記憶部
８１ワーク（状態）
８２凹部（状態）

Claims

人間がロボットを操作して一連の作業を行わせる場合の、当該ロボット及びその周辺の状態を入力データとし、それに応じた人間の操作又は当該操作による当該ロボットの動作を出力データとする作業データを学習することにより構築された学習済モデルと、
ロボット及びその周辺の状態に関する入力データが前記学習済モデルに入力された場合に、それに応じて推定される人間の操作又はロボットの動作に関する出力データを前記学習済モデルから得ることにより、前記作業を行わせるためのロボットの制御データを得る制御データ取得部と、
前記入力データが前記学習済モデルに入力された場合に、それに応じて出力される前記出力データが、前記一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得する進行度取得部と、
前記進行度を出力可能な情報出力部と、
を備え、
前記学習済モデルは、前記一連の作業を分割したものに相当する複数の工程動作の何れに前記入力データが分類されるかを求めることが可能であり、
前記学習済モデルにおいて、それぞれの分類に関連付けて、当該工程動作を実現するための前記人間の操作又は当該操作による当該ロボットの動作の時間的推移である出力推移が定められており、
前記学習済モデルは、前記入力データの分類結果に関連付けられた前記出力推移の中から、当該入力データに対応する出力を求めて前記出力データとし、
前記進行度の変化範囲は、複数の前記工程動作に対応するように、複数の進行度範囲に分割され、
前記複数の進行度範囲の順番は、前記一連の作業における複数の前記工程動作の順番に対応しており、
前記進行度取得部が取得する進行度は、前記学習済モデルが行った前記入力データの分類結果である前記工程動作に対応する前記進行度範囲の中で、前記工程動作に関連付けられた前記出力推移において前記入力データに対応している出力が何番目であるかに応じて変化することを特徴とするロボット制御装置。
請求項１に記載のロボット制御装置であって、
前記工程動作の内容を表現する情報を含む動作ラベルを、前記工程動作に対応付けて記憶する動作ラベル記憶部を備え、
前記情報出力部は、前記動作ラベルを出力可能であることを特徴とするロボット制御装置。
請求項１又は２に記載のロボット制御装置であって、
前記作業データのうち前記出力データには、前記人間の操作又は当該操作による当該ロボットの動作が、前記進行度に関連付けられて含まれることを特徴とするロボット制御装置。
請求項１から３までの何れか一項に記載のロボット制御装置であって、
前記作業データは、１つの前記工程動作に相当する工程動作データに分割され、
前記学習済モデルは、それぞれの前記工程動作データを対象とするクラスタリングにより構築されることを特徴とするロボット制御装置。
請求項１から４までの何れか一項に記載のロボット制御装置と、
前記ロボットと、
を備えることを特徴とするロボットシステム。
人間がロボットを操作して一連の作業を行わせる場合の、当該ロボット及びその周辺の状態を入力データとし、それに応じた人間の操作又は当該操作による当該ロボットの動作を出力データとする作業データを学習することにより学習済モデルを構築し、
ロボット及びその周辺の状態に関する入力データが前記学習済モデルに入力された場合に、それに応じて推定される人間の操作又はロボットの動作に関する出力データを前記学習済モデルから得ることにより、前記作業を行わせるためのロボットの制御データを取得し、
前記入力データが前記学習済モデルに入力された場合に、それに応じて出力される前記出力データが、前記一連の作業のうちどの進捗度合いに相当するかを示す進行度を取得し、
前記進行度を出力し、
前記学習済モデルは、前記一連の作業を分割したものに相当する複数の工程動作の何れに前記入力データが分類されるかを求めることが可能であり、
前記学習済モデルにおいて、それぞれの分類に関連付けて、当該工程動作を実現するための前記人間の操作又は当該操作による当該ロボットの動作の時間的推移である出力推移が定められており、
前記学習済モデルは、前記入力データの分類結果に関連付けられた前記出力推移の中から、当該入力データに対応する出力を求めて前記出力データとし、
前記進行度の変化範囲は、複数の前記工程動作に対応するように、複数の進行度範囲に分割されており、
前記複数の進行度範囲の順番は、前記一連の作業における複数の前記工程動作の順番に対応しており、
前記進行度は、前記学習済モデルが行った前記入力データの分類の結果である前記工程動作に対応する前記進行度範囲の中で、前記工程動作に関連付けられた前記出力推移において前記入力データに対応している出力が何番目であるかに応じて変化することを特徴とするロボット制御方法。