JP7401262B2

JP7401262B2 - ロボットシステム

Info

Publication number: JP7401262B2
Application number: JP2019200627A
Authority: JP
Inventors: 詮翰鄭; 貴之佐藤
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-12-19
Anticipated expiration: 2039-11-05
Also published as: JP2021074788A

Description

本発明は、ロボットシステムに関する。

ロボットに搭載したハンドガイド装置をオペレータが直接操作してロボットに対する教示を行う、いわゆるダイレクトティーチングが知られている（例えば、特許文献１参照）。ダイレクトティーチングに関して、特許文献２は、「オペレータ７０は操作ハンドル４を把持した状態で誘導操作を開始する。この状態において、動作状態判定手段６５は、図３に示す状態遷移図と図４に示す遷移条件のテーブルに基づいて、ロボット操作状態が「加速状態」であると判定する。この判定を受けてモデル変更手段６６は、インピーダンスモデル部６１の粘性係数Ｂ、慣性係数Ｍを加速の操作感に適した所定の値に設定する。さらにオペレータ７０は操作ハンドル４を把持したまま誘導操作を継続する。この状態において、動作状態判定手段６５は、図３に示す状態遷移図と図４に示す遷移条件のテーブルに基づいて、ロボット操作状態が「一定速度状態」であると判定する。この判定を受けてモデル変更手段６６は、インピーダンスモデル部６１の粘性係数Ｂ、慣性係数Ｍを移動の操作感に適した所定の値に設定する。」と記載する（特許文献２、段落００１４－００１５）。

また、ダイレクトティーチングに関し、特許文献２は、「本発明では、前述したように求められる仮想力と、移動基準座標系と、並進移動か回転移動かどうかの移動方法とに基づいて、力制御作用力算出部２４が力制御作用力を算出する。そして、力制御部２５を用いて、力制御作用力に基づいた力制御によるダイレクトティーチをおこなう。これにより、同じ力を作用させた場合であっても、力を作用させる位置によって操作感を変えることが可能となる。図４を用いて説明した場合には、力センサ座標系の原点に近い位置で力を作用させた方が、同じ力を作用させてもダイレクトティーチ時の動きを小さくすることができる。」と記載する（特許文献２、段落００４６）。

特開２０１７－１７７２７９号公報特開２００８－１１０４０６号公報特開２０１２－１５７９４６号公報

ハンドガイド装置を用いた操作はオペレータが直感的にストレスなく実行できることが望ましいが、実際の作業においては、ハンドガイド装置の操作に対する応答が遅すぎると感じたり、逆に速すぎると感じるなど、オペレータの思う通りにロボットを動かすことができない場合がある。また、ハンドガイド装置の操作に対する応答が遅すぎると感じたり、逆に速すぎると感じるのは人によって異なる。ハンドガイド装置の操作に対するロボットの応答性をオペレータにとって望ましい状態に自動的に設定可能なロボットシステムが望まれている。

本開示の一態様は、ロボットと、前記ロボットの所定の可動部位に装着されたハンドガイド装置であって、該ハンドガイド装置に加わる外力を表す操作情報を出力するハンドガイド装置と、前記操作情報に基づいて前記ロボットの動作制御を行うロボット制御装置と、を備え、前記ロボット制御装置は、前記ハンドガイド装置に加わる所定の時間毎の外力の積分値の変化量、前記操作情報に基づいて前記所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質のうちの少なくとも一つの情報に基づいて前記操作情報に対する前記ロボットの応答性を調整する調整部を備える、ロボットシステムである。

上記構成によれば、ハンドガイド装置の操作に対するロボットの応答性をオペレータにとって望ましい状態に自動的に設定することができる。

添付図面に示される本発明の典型的な実施形態の詳細な説明から、本発明のこれらの目的、特徴および利点ならびに他の目的、特徴および利点がさらに明確になるであろう。

ロボットシステムの全体構成を表す構成図である。第１実施形態に係るロボットシステムの機能ブロックである。比例係数の調整に関する第１の例を説明する図である。比例係数の調整に関する第１の例における処理を表すフローチャートである。比例係数の調整に関する第２の例を説明する図である。比例係数の調整に関する第２の例における処理を表すフローチャートである。第２実施形態に係るロボットシステムの機能ブロックである。比例係数の学習動作の第１の例における学習処理を表すフローチャートである。比例係数の学習動作の第２の例における学習処理を表すフローチャートである。行動価値関数の模式図である。ロボットの加速動作時における速度推移の一例を表すグラフである。ロボットの加速動作時における速度推移の他の例を表すグラフである。ロボットを目標位置に停止させる場合の速度推移の例を表すグラフである。

次に、本開示の実施形態について図面を参照して説明する。参照する図面において、同様の構成部分または機能部分には同様の参照符号が付けられている。理解を容易にするために、これらの図面は縮尺を適宜変更している。また、図面に示される形態は本発明を実施するための一つの例であり、本発明は図示された形態に限定されるものではない。

第１実施形態
図１は第１実施形態に係るロボットシステム１の全体構成を表す構成図であり、図２はロボットシステム１の機能ブロックである。図１及び図２に示すように、ロボットシステム１は、ロボット１０と、ロボット１０の所定の可動部位である手首部先端に装着されたハンドガイド装置３と、ロボット１０の動作を制御するロボット制御装置５０とを備える。ハンドガイド装置３は、操作ハンドル４と、外力検出部５としての力センサとを備える。操作ハンドル４は、力センサを介してロボット１０の手首部先端に連結されている。この構成において、オペレータＯＰは、ハンドガイド装置３を操作してロボット１０に対するハンドガイド（いわゆるダイレクトティーチング）を行うことができる。

ロボット１０は、本実施形態では多関節ロボットであるが、他のタイプのロボットが用いられても良い。なお、ロボット制御装置５０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、記憶装置、操作部、表示部、入出力インタフェース、ネットワークインタフェース等を有する一般的なコンピュータとしての構成を有していても良い。

図２に示されるように、ハンドガイド装置３において、外力検出部５は、操作ハンドル４に加えられる外力を検出し、検出結果としての操作情報を送信部６を介してロボット制御装置５０に有線又は無線により送信する。操作情報は、例えば、外力検出部５としての力センサに固定した座標系における３次元方向の力の大きさ及び各軸回りのモーメントである。外力検出部５としての力センサのロボット１０に対する位置（すなわち、力センサのロボット座標系における位置及び姿勢）はロボット制御装置５０において既知なので、操作情報としての３次元方向の力の情報は、ロボット座標系における３次元の情報として取り扱うことができる。

図２に示すように、ロボット制御装置５０は、ハンドガイド装置３からの操作情報を受信する受信部５１と、情報取得部５２と、操作情報に対するロボット１０の応答性を表す比例係数を調整する調整部５３と、調整部５３により調整される比例係数に応じてロボット１０の動作を制御する機能を有する動作制御部５５とを備える。情報取得部５２は、受信部５１により受信される操作情報及び動作制御部５５において取得されるロボット１０の制御に関する情報に基づいて、ハンドガイド装置３に加わる外力の積分値、所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質のうちの少なくとも一つの情報を生成する。調整部５３は、情報取得部５２により生成された情報に基づいて、ハンドガイド装置３に加えられる外力の大きさに対するロボット１０の速度を決定する比例係数を調整する。

ダイレクトティーチングにおいては、オペレータＯＰがハンドガイド装置３の操作ハンドル４に力を加えることで、ロボット１０を動かす。操作ハンドル４に加わる力に対するロボット１０の応答性は、例えばロボット１０の動作速度を、力の大きさに比例した値とするやり方で決定される。なお、安全上の観点で速度の上限値は設けても良い。比例係数が大きければオペレータＯＰは、小さな力でロボット１０を動かすことができるので、ロボット１０の動作が軽く感じられる。他方、比例係数が小さければ大きな力が必要なので、オペレータＯＰは、ロボット１０の動作が重く感じられる。本実施形態に係る調整部５３は、ハンドガイド中に情報取得部５２により生成される情報に基づいて、オペレータＯＰにとってロボットの望ましい応答性が得られるように比例係数を調整する。

以下、調整部５３による比例係数の決定に関する２つの例を説明する。比例係数の決定に関する第一の例では、図３に示すように、オペレータＯＰが操作ハンドル４を操作してロボット１０をある方向（図中矢印方向）に移動させる動作（すなわち、加速動作時）を想定する。なお、加速動作時であるか否かは、例えば、ロボット１０の動作速度がゼロから上昇し始めるような動作状態を検出することで決定することができる。上述したように、オペレータＯＰは、小さな力でロボット１０を動かすことができれば軽いと感じ（この場合、比例係数は小さい）、他方大きな力が必要であると重く感じる（この場合、比例係数は大きい）。したがって、ハンドガイド中にハンドガイド装置３にいつも大きな力がかかるときや、加わる力に増加傾向がみられるときは、操作者がロボット１０をもっと速く動かしたいと感じていると考えることができる。そこで、第１の例では、あるサンプリング周期ごとに力を検出し、その積分値を求める。そして、所定の時間毎の積分値の時間推移を観察し、積分値または積分値の増加量が大きいときは、力に対する速度の比例係数を大きくすることで、オペレータにとって望ましい応答性を実現するようにする。

図４は、比例係数の決定に関する第１の例における動作を表すフローチャートである。図４に示す動作は、ロボット制御装置５０のＣＰＵによる制御の下で実行される。なお、図４の処理は、オペレータＯＰによるロボット制御装置５０に対する所定の操作により起動されても良いし、ロボット制御装置５０においてハンドガイドに伴うロボット１０の所定の可動部位の加速動作が検出された時に自動的に起動されても良い。ステップＳ１１では、オペレータＯＰによるハンドガイド装置３を用いた操作が行われる。情報取得部５２は、ハンドガイド装置３から受信される操作情報に基づいて、操作ハンドル４に加えられる３次元方向（ＸＹＺ方向）の合力及びモーメントを取得し、それらの所定の時間毎の積分値を求める（ステップＳ１２）。例えば、所定の時間は、直前３秒間である。

図１２は、図３のようにオペレータＯＰが操作ハンドル４を介してロボット１０をある方向に移動させる場合において、応答特性がオペレータＯＰにとって比較的望ましい場合のロボット１０の動作速度の推移の例を表す図である。図１２の動作速度の推移の例では、ロボット１０の動作速度が比較的早い段階で一定の速度まで立ち上がり、その後速度が一定となる（オペレータが操作ガイドを一定の力で操作している）状態が続いている。このような速度の推移は、オペレータＯＰが応答性に特に違和感を持っていないことを示すと考えることができる。

次に、図３のようにオペレータＯＰが操作ハンドル４を介してロボット１０をある方向に移動させる場合において、速度の推移が図１１に示すようなものである場合を想定する。この場合、速度が上昇する状態が比較的長い時間に亘って続いていることから、オペレータＯＰがロボット１０の応答性（つまり移動速度）に不足を感じ、操作ハンドル４を加える力を強め続けていると考えることができる。なお、調整部５３は、合力に比例係数をかけて動作速度を決定するものとする。比例係数の初期値は、調整部５３の記憶部５４に予め設定されているものとする。この初期値としては、経験値に基づく値が設定されていても良く、或いは、ロボット制御装置５０に対する操作によりオペレータＯＰが設定可能であっても良い。

なお、本実施形態では、ロボット１０の動作速度を、ハンドガイド装置３に加わる外力に比例係数を乗じた値に設定するので、図１１及び図１２（図１３についても同様）に示した動作速度の推移は、ハンドガイド装置３に加わっている外力の推移と等価である。

図１１のような速度推移の状態と、図１２のような速度推移の状態とは、合力の所定の時間ごと（例えば、３秒間隔）の積分値の変化により区別することができる。図１１のような速度推移の状況では、一例として、所定時間ｔ_nにおける積分値と所定時間ｔ_n+1における積分値とを比較すると、所定時間毎の合力の積分値は増加する。他方、図１２のような速度推移の状況では速度が素早く上昇することから、一例として所定時間ｔ_nにおける積分値と所定時間ｔ_n+1における積分値とを比較すると、合力の所定時間毎の積分値は増加傾向を示さない。

以上を踏まえ、ステップＳ１３では、調整部５３は、合力の積分値が増加する場合には（Ｓ１３：ＹＥＳ）、記憶部に記憶されている比例係数を増加させる（ステップＳ１４）。他方、合力の積分値が増加を示さない場合には（Ｓ１３：ＮＯ）、調整部５３は比例係数を減少させる（ステップＳ１５）。なお、ステップＳ１５では、比例係数を減少させずに現状値を維持するようにしても良い。ロボット制御装置５０は、以上のような比例係数の調整動作をハンドガイド装置３に対する操作が行われている間継続する（Ｓ１６：ＹＥＳ）。ハンドガイド装置３に対する操作が停止（Ｓ１６：ＮＯ）すると、本処理は終了する。

以上の比例係数調整処理によれば、図３のようにオペレータＯＰが操作ハンドル４を介してロボット１０をある方向に移動させる場合（すなわち、加速動作時）において、比例係数をオペレータＯＰにとって望ましい値に自動的に設定することが可能である。なお、以上説明した比例係数の決定に関する第一の例は、ロボット１０の所定の可動部位の加速動作時における一定時間内の加速状態に基づいて比例係数を調整する動作であると言うこともできる。

次に、調整部５３による比例係数の決定に関する第二の例を説明する。比例係数の決定に関する第二の例では、図５に示すように、ロボット１０を減速させてある目標位置Ｐ₁に停止させる（位置決めする）動作を想定する。なお、ロボット１０がこのような減速動作に入っているか否かは、ロボット１０がある一定の速度で動いている状態から減速を開始する動作を検出することで決定することができる。ハンドガイド中にロボットがある点を中心として往復する（行ったり来たりを繰り返す）ことが一般に想定される回数より多い場合、或いは、このような往復運動が収束するまでの時間が一般に想定される時間より長い場合は、ロボット１０の応答性が高いためオペレータＯＰがうまく位置決めできていないと考えることができる。したがって、このような状況の場合には、オペレータＯＰがロボットの応答性が速すぎると感じていると見なし、力に対する速度の比例係数を小さくする。

図６は、比例係数の決定に関する第２の例における動作を表すフローチャートである。図６に示す動作は、ロボット制御装置５０のＣＰＵによる制御の下で実行される。なお、図６の処理は、ロボット制御装置５０に対するオペレータＯＰによる所定の操作により起動されても良いし、ロボット制御装置５０においてハンドガイドに伴うロボット１０の所定の可動部位の減速動作が検出された時に自動的に起動されても良い。ステップＳ２１では、オペレータＯＰによるハンドガイド装置３を用いた操作が行われる。ここでは、オペレータが、概ね一定の速度で移動させていたロボット１０を減速させて目標位置Ｐ₁に停止させるような操作を想定する。次に、情報取得部５２は、ハンドガイド装置３から受信される操作情報に基づいて、操作ハンドル４に加えられる３次元方向（ＸＹＺ方向）の合力及びモーメントを取得し、それらの所定時間内での積分値を求める（ステップＳ２２）。例えば、所定の時間は、直前３秒間である。

次に、調整部５３は、合力の所定時間毎の積分値に基づいて、ある位置（目標位置Ｐ₁）に停止するまでの往復回数または往復運動が収束するまでの時間（以下、収束時間と称する場合がある）が、例えば所定の閾値よりも大きい（増えている）か否かを判定する（ステップＳ２３）。ここで、所定の閾値は、このようにある位置にロボットを停止させる操作が行われる場合の経験値に基づく通常に値、或いは、前回このようなロボットを停止させる動作（往復運動）が行われた場合における往復回数や収束時間が設定されても良い。

ここで、ロボット１０（所定の可動部位）を目標位置に停止させる場合の往復回数或いは収束時間を求める手法について図１３を参照して説明する。ロボット１０を目標位置に停止させる操作における往復運動を伴うロボット１０の動作速度（すなわち、ハンドガイド装置３に加えられる力）は、図１３に示すように、速度０を中心としてプラス方向及びマイナス方向（位置Ｐ₁を規準とする互いに反対の方向）に波型に変化すると考えられる。したがって、このような速度変化におけるプラス側の速度の積分値１０１（合力のプラス方向の積分値）と、速度変化におけるマイナス側の速度の積分値１０３（合力のマイナス方向の積分値）をそれぞれ求め、プラス側の積分値１０１とマイナス側の積分値１０３の各々が所定の閾値を超えている場合には、往復運動の回数が通常想定される場合よりも多い状態（及び収束時間が通常想定される時間よりも長い状態）を示すと考えることができる。なお、ここでは、ロボット１０（所定の可動部位）の動作速度に基づき目標位置に停止するまでの往復回数や収束時間を求める例について説明したが、ロボット１０（所定の可動部位）の位置情報を用いて往復回数や収束時間を求めても良い。例えば、オペレータＯＰがロボット１０を目標位置に停止させる際のロボット１０（所定の可動部位）の位置の時間変化も、目標位置を中心としてある方向においてプラス方向とマイナス方向に波型に変化して次第に収束する態様となると考えることができる。この場合、動作速度の時間変化に基づく上述した計算手法と同様のやり方でロボット１０の位置の時間変化に基づいて往復回数や収束時間を求めることができる。或いは、ロボットの位置の時間変化のグラフに基づいてプラス側及びマイナス側のピークを検出して往復回数や収束時間を求めことも可能である。なお、往復運動の回数や収束時間は、ロボット１０の所定の可動部位の動作軌跡から求めても良い。

ステップＳ２３において、往復運動の回数または収束時間が所定の閾値よりも大きい（増えている）場合（Ｓ２３：ＹＥＳ）、オペレータＯＰにとって応答性が高いと感じる状態であるとみなせるため、調整部５３は、比例係数を減少させる（ステップＳ２４）。他方、往復運動の回数または時間が所定の閾値以下の場合（Ｓ２３：ＮＯ）、オペレータＯＰにとって応答性が低いと感じる状態であるとみなせるため、調整部５３は、比例係数を増加させる（ステップＳ２５）。ロボット制御装置５０は、以上のような比例係数の調整動作をハンドガイド装置３に対する操作が行われている間継続する（Ｓ２６：ＹＥＳ）。ハンドガイド装置３に対する操作が停止（Ｓ２６：ＮＯ）すると、本処理は終了する。

以上の比例係数調整処理によれば、図５に示すように、ロボット１０を減速させてある目標位置Ｐ₁に停止させる（位置決めする）動作において、比例係数をオペレータＯＰにとって望ましい値に自動的に設定することが可能である。比例係数の決定に関する第二の例は、ロボット１０の所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質（或いは、一定時間内の減速状態）に基づいて比例係数を調整する動作であると言うこともできる。なお、調整部５３は、ロボット１０の加速動作時における比例係数と、減速動作時における比例係数とを別々に記憶するように構成されていても良い。

第１実施形態では比例係数を増加或いは減少させる判定を行う基準として力の合力の積分値を用いているので、より安定してオペレータの意図を比例係数の調整に反映できることとなる。

第２実施形態
次に第２実施形態に係るロボットシステム１Ａについて説明する。第２実施形態に係るロボットシステム１Ａは、第１実施形態における調整部５３が学習により比例係数を調整するように構成されたシステムである。図７は、ロボットシステム１Ａの機能ブロック図である。以下では、説明の重複を避けるため、ロボットシステム１Ａにおける比例係数の学習に焦点を当てて説明を行う。

図７に示されるように、ロボットシステム１Ａは、ロボット１０と、ハンドガイド装置３と、ハンドガイド装置３からの操作情報に応じてロボット１０の動作を制御するロボット制御装置５０Ａとを備える。ロボット制御装置５０Ａは、受信部５１と、ハンドガイド装置３によるロボット１０に対する操作状態を表す状態情報を取得する状態情報取得部６０と、比例係数を調整する調整部５３Ａと、動作制御部５５とを備える。状態情報取得部６０は、ハンドガイド装置３から受信した操作情報と、動作制御部５５によるロボット１０の制御に関する情報に基づいて、ハンドガイド装置３によるロボット１０に対する操作状態を表す状態情報を取得する。

調整部５３Ａは、学習制御部８０を備える。学習制御部８０は、ハンドガイド装置３に加わる外力の積分値、ロボット１０の所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質のうちの少なくとも一つの情報（以下、判定データと記す）と、状態情報取得部６０が取得する状態情報とに基づいて操作情報に対するロボットの応答性の学習を実行し、オペレータＯＰにとってロボット１０の望ましい応答性を決定する学習モデルを構築する。

学習制御部８０は、入力されるデータの集合から、その中にある有用な規則や知識表現、判断基準などを解析により抽出し、その判断結果を出力するとともに、知識の学習（機械学習）を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」および「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習(ディープラーニング： Deep Learning)」と呼ばれる手法がある。本実施形態では、学習制御部８０による機械学習に「強化学習」を適用することとする。

ここで、強化学習とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち、将来的に得られる報酬を最大にするための学習する方法を学ぶものである。一例として、強化学習を実現するアルゴリズムとして、Ｑ学習について説明するが、Ｑ学習に限定されるものではない。

Ｑ学習は、或る環境状態ｓの下で、行動ａを選択する価値Ｑ（ｓ，ａ）を学習する方法である。つまり、或る状態ｓのとき、価値Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択すればよい。しかし、最初は、状態ｓと行動ａとの組合せについて、価値Ｑ(ｓ，ａ)の正しい値は全く分かっていない。そこで、エージェント(行動主体)は、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい価値Ｑ(ｓ，ａ)を学習していく。Ｑ学習においては、行動の結果の価値Ｑの更新は、例えば、次の式(１)にしたがって行われる。

上記の式(１)において、ｓ_tは、時刻ｔにおける環境の状態を表し、ａ_tは、時刻ｔにおける行動を表す。行動ａ_tにより、状態はｓ_t+1に変化する。Ｒ_t+1は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_t+1の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した式(１)は、試行ａ_tの結果、帰ってきた報酬ｒ_t+1を元に、状態ｓ_tにおける行動ａ_tの評価値Ｑ(ｓ_t，ａ_t)を更新する方法を表している。すなわち、状態ｓにおける行動ａの評価値Ｑ(ｓ_t，ａ_t)よりも、報酬ｒ_t+1＋行動ａによる次の状態における最良の行動ｍａｘａの評価値Ｑ（ｓ_t+1，ｍａｘａ_t+1）の方が大きければ、Ｑ(ｓ_t，ａ_t)を大きくし、反対に小さければ、Ｑ(ｓ_t，ａ_t)を小さくすることを示している。つまり、或る状態における或る行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。

ここで、Ｑ(ｓ，ａ)の計算機上での表現方法は、すべての状態行動ペア(ｓ，ａ)に対して、その値をテーブルとして保持しておく方法と、Ｑ(ｓ，ａ)を近似するような関数を用意する方法がある。後者の方法では、前述の式(１)は、確率勾配降下法等の手法で近似関数のパラメータを調整していくことにより、実現することができる。なお、近似関数としては、ニューラルネットワークを用いることができる。本実施形態では、Ｑ(ｓ，ａ)を近似関数で表現する手法をとる。

具体的には、学習制御部８０は、状態情報取得部６０により取得されるロボット１０の操作状態を表す状態情報に基づいて判定データを生成する判定データ生成部８１と、判定データを用いて報酬を算出する報酬算出部８２と、ロボット１０に対する操作状態を表す状態情報と報酬とに基づいて応答性を調整するための価値関数を更新する価値関数更新部８３とを備える。

状態情報取得部６０は、ハンドガイド装置３によるロボット１０に対する操作状態を表す状態情報として、
（１）ハンドガイド装置３に加わるＸ，Ｙ，Ｚ方向の力、及び、Ｘ，Ｙ，Ｚ周りのモーメント、
（２）ハンドガイド装置３のＸ、Ｙ、Ｚ位置又は速度、及び、Ｘ，Ｙ，Ｚ周りの角度又は角速度
の少なくとも一つを取得する。

学習制御部８０による比例係数の学習動作の例を２例説明する。学習制御部８０による学習動作の第一の例は、第１実施形態における調整部５３による比例係数の決定の第１の例と同様に、図３に示すように、オペレータＯＰが操作ハンドル４を操作してロボット１０をある方向（図中矢印方向）に移動させる（加速させる）場面を想定する。図８は、比例係数の学習動作の第１の例を表すフローチャートである。なお、本動作例の場合には、第１実施形態における調整部５３による比例係数の決定の第１の例と同様に、ある特定の時間内での積分値または積分値の増加量が大きいときは、力に対する速度の比例係数を大きくする方向に学習を行うことで、オペレータにとって望ましい応答性を実現するようにする。

はじめに、オペレータＯＰによりハンドガイド装置３を用いたハンドガイドによる操作が行われる（ステップＳ３１）。次に、判定データ生成部８１は、状態情報取得部６０から得られる情報に基づいて、操作ハンドル４に加えられる３次元方向（ＸＹＺ方向）の合力及びモーメントを取得し、それらの所定時間内での積分値を求める（ステップＳ３２）。例えば、所定の時間は、直前３秒間である。

図１１及び図１２を参照して第１実施形態において説明した分析内容に基づき、ステップＳ３３では、報酬算出部８２は、合力の積分値が増加する場合には（Ｓ３３：ＹＥＳ）、報酬生成部８１は、現在の比例係数の設定状態（エージェントの行動）が望ましくないとみなし報酬を減少させる（ステップＳ３４）。他方、合力の積分値が増加を示さない場合には（Ｓ３３：ＮＯ）、報酬生成部８１は、現在の比例係数の設定状態（エージェントの行動）が望ましいとみなし報酬を増加させる（ステップＳ３５）。

次に、価値関数更新部８３は、状態情報取得部６０から提供される状態情報と報酬とに基づいて価値関数を更新する（ステップＳ３６）。ロボット制御装置５０Ａは、Ｓ３１からＳ３６に至る価値関数の更新ステップをハンドガイド装置３に対する操作が停止するまで所定の時間間隔で繰り返し実行する（Ｓ３７：ＹＥＳ）。以上の動作により、価値関数の出力がオペレータにとって望ましい応答性を得る値に次第に収束し、その結果、オペレータＯＰにとって望ましい応答性を実現する比例係数を得る学習モデルが構築されることとなる。ハンドガイド装置３に対する操作が終了すると（Ｓ３７：ＮＯ）、本学習処理は終了する。

価値関数更新部８３は、一例として、図１０に示すような、状態情報と報酬とに基づいて比例係数を増加させる行動の価値を表す値と、比例係数を減少させる行動の価値を表す値とを出力する行動価値関数８５として構成されていても良い。この場合、調整部５３Ａは、これらの行動価値に応じて比例係数を、例えば所定の増減ステップで増加又は減少させる。このような行動価値関数８５は、一例として、Ｑ関数を多層ニューラルネットワークを用いて表現する手法であるＤＱＮ（Deep Q-network）を用いて実現することができる。この場合、多層ニューラルネットワークの入力部に状態情報を入力し、多層ニューラルネットワークの出力として、比例係数を増加させる行動の価値と、比例係数を減少させる行動の価値とを得る構成とする。多層ニューラルネットワークを用いた行動価値関数の更新では、多層ニューラルネットワークの各重みを、誤差逆伝搬法（バックプロパゲーション）により調整（学習）していく。

次に、学習制御部８０による比例係数の学習動作の第二の例を説明する。学習制御部８０による学習動作の第二の例は、第１実施形態における調整部５３による比例係数の決定の第２の例と同様に、図５に示すように、ロボット１０を減速させてある目標位置Ｐ₁に停止させる（位置決めする）動作を想定する。なお、本動作例の場合には、第１実施形態における調整部５３による比例係数の決定の第２の例と同様に、所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質（往復運動の回数又は前記往復運動が収束するまでの時間）に基づいて学習を行うことで、オペレータにとって望ましい応答性を実現するようにする。

図９は、比例係数の学習動作の第二の例を表すフローチャートである。はじめに、オペレータＯＰによりハンドガイド装置３を用いたハンドガイドによる操作が行われる（ステップＳ４１）。ここでは、オペレータが、概ね一定の速度で移動させていたロボット１０を減速させて目標位置に停止させるような操作を想定する。次に、判定データ生成部８１は、状態情報取得部６０から得られる情報に基づいて、操作ハンドル４に加えられる３次元方向（ＸＹＺ方向）の合力及びモーメントを取得し、それらの所定時間内での積分値を求める（ステップＳ４２）。例えば、所定の時間は、直前３秒間である。

判定データ生成部８１は、合力の所定時間毎の積分値に基づいて、ある位置（目標位置Ｐ₁）に停止するまでの往復回数または往復運動が収束するまでの時間を生成する。そして、報酬算出部８２は、ある位置（目標位置Ｐ₁）に停止するまでの往復回数または往復運動が収束するまでの時間が所定の閾値よりも大きい（或いは増えている）か否かを判定する（ステップＳ４３）。ここで、所定の閾値は、このようにある位置にロボットを停止させる操作が行われる場合の経験値に基づく通常に値、或いは、前回にこのようなロボットを停止させる動作（往復運動）が行われた場合における往復回数や往復運動が収束するまでの時間が設定されても良い。

図１３を参照して第１実施形態において説明した分析内容に基づき、ステップＳ４３において、往復運動の回数または収束時間が所定の閾値よりも大きい（増えている）場合（Ｓ４３：ＹＥＳ）、オペレータＯＰにとって応答性が高すぎると感じる状態であり、現在の比例係数の設定状態（エージェントの行動）が望ましくないとみなし、報酬算出部８２は報酬を減少させる（ステップＳ４４）。他方、往復運動の回数または収束時間が所定の閾値以下の場合（Ｓ４３：ＮＯ）、現在の比例係数の設定状態（エージェントの行動）が望ましとみなし報酬を増加させる（ステップＳ４５）。

次に、価値関数更新部８３は、状態情報取得部６０から提供される状態情報と報酬とに基づいて価値関数を更新する（ステップＳ４６）。なお、本動作例の場合においても、価値関数の更新は、図１０に示した行動価値関数８５により実行される。ロボット制御装置５０Ａは、Ｓ４１からＳ４６に至る価値関数の更新ステップをハンドガイド装置３に対する操作が停止するまで所定の時間間隔で繰り返し実行する（Ｓ４７：ＹＥＳ）。以上の動作により、価値関数の出力がオペレータにとって望ましい応答性を得る値に次第に収束し、その結果、オペレータＯＰにとって望ましい応答性を実現する比例係数を得る学習モデルが構築されることとなる。ハンドガイド装置３に対する操作が終了すると（Ｓ４７：ＮＯ）、本学習処理は終了する。なお、調整部５３Ａは、ロボット１０の加速動作時における比例係数と、減速動作時における比例係数とを別々に記憶するように構成されていても良い。

第２実施形態では報酬を増加或いは減少させる判定を行う基準として力の合力の積分値を用いているので、より安定してオペレータの意図を学習に反映できることとなる。

以上説明した各実施形態の構成によれば、ハンドガイド装置の操作に対するロボットの応答性をオペレータにとって望ましい状態に自動的に設定可能なロボットシステムが実現される。

以上、典型的な実施形態を用いて本発明を説明したが、当業者であれば、本発明の範囲から逸脱することなしに、上述の各実施形態に変更及び種々の他の変更、省略、追加を行うことができるのを理解できるであろう。

上述の各実施形態において、調整部が保持する比例係数の初期値（例えば、高めの値、低めの値等）をオペレータ毎に設定及び記憶できるようにしても良い。この場合、比例係数が最適値へ収束するまでの時間をより短くすることが可能となり得る。

図２、図７に示したロボット制御装置の機能ブロックは、ロボット制御装置のＣＰＵが、記憶装置に格納された各種ソフトウェアを実行することで実現されても良く、或いは、ＡＳＩＣ（Application Specific Integrated IC）等のハードウェアを主体とした構成により実現されても良い。

上述した実施形態における図４、図６、図８、図９に示した比例係数調整処理、学習処理等を実行するプログラムは、コンピュータに読み取り可能な各種記録媒体（例えば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ等の半導体メモリ、磁気記録媒体、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ等の光ディスク）に記録することができる。

１、１Ａロボットシステム
３ハンドガイド装置
４操作ハンドル
５外力検出部
６送信部
１０ロボット
５０、５０Ａロボット制御装置
５２情報取得部
５３，５３Ａ調整部
５５動作制御部
８０学習制御部
８１判定データ生成部
８２報酬算出部
８３価値関数更新部
８５行動価値関数

Claims

ロボットと、
前記ロボットの所定の可動部位に装着されたハンドガイド装置であって、該ハンドガイド装置に加わる外力を表す操作情報を出力するハンドガイド装置と、
前記操作情報に基づいて前記ロボットの動作制御を行うロボット制御装置と、を備え、
前記ロボット制御装置は、
前記ハンドガイド装置に加わる所定の時間毎の外力の積分値の変化量、前記操作情報に基づいて前記所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質のうちの少なくとも一つの情報に基づいて前記操作情報に対する前記ロボットの応答性を調整する調整部を備える、ロボットシステム。
前記調整部は、前記ハンドガイド装置に加わる前記所定の時間毎の外力の積分値の変化量に基づいて、前記所定の可動部位の加速動作時における前記応答性を調整する、請求項１に記載のロボットシステム。
前記調整部は、前記ハンドガイド装置に加わる前記所定の時間毎の外力の積分値に増加がある場合に、前記操作情報に対する前記ロボットの応答性を高める、請求項１又は２に記載のロボットシステム。
前記調整部は、前記操作情報に基づいて前記所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質に基づいて、前記所定の可動部位の減速動作時における前記応答性を調整する、請求項１に記載のロボットシステム。
前記調整部は、前記往復運動の回数又は前記往復運動が収束するまでの時間に基づいて前記所定の可動部位の減速動作時における前記応答性を調整する、請求項４に記載のロボットシステム。
前記調整部は、前記往復運動の回数又は前記往復運動が収束するまでの時間が所定の閾値を超える場合に、前記操作情報に対する前記ロボットの応答性を低下させる、請求項５に記載のロボットシステム。
前記調整部は、前記少なくとも一つの情報と、前記ハンドガイド装置による前記ロボットに対する操作状態を表す状態情報とに基づいて前記応答性の学習を実行する学習制御部を備える、請求項１に記載のロボットシステム。
前記学習制御部は、
前記少なくとも一つの情報を用いて報酬を算出する報酬算出部と、
前記報酬と前記状態情報とに基づいて価値関数を更新する価値関数更新部と、を備え、
前記調整部は前記価値関数の出力に基づいて前記応答性を調整する、請求項７に記載のロボットシステム。
前記調整部は、前記ハンドガイド装置に加わる前記所定の時間毎の外力の積分値の変化量に基づいて、前記所定の可動部位の加速動作時における前記応答性を学習する、請求項８に記載のロボットシステム。
前記報酬算出部は、前記ハンドガイド装置に加わる前記所定の時間毎の外力の積分値に増加がある場合に、前記報酬を減少させる、請求項９に記載のロボットシステム。
前記調整部は、前記操作情報に基づいて前記所定の可動部位が所定の位置に往復運動を伴って停止する場合の動作の性質に基づいて、前記所定の可動部位の減速動作時における前記応答性を学習する、請求項８に記載のロボットシステム。
前記報酬算出部は、前記往復運動の回数又は前記往復運動が収束するまでの時間に基づいて前記報酬を算出する、請求項１１に記載のロボットシステム。
前記報酬算出部は、前記往復運動の回数又は前記往復運動が収束するまでの時間が所定の閾値を超える場合に、前記報酬を減少させる、請求項１２に記載のロボットシステム。
力センサを備えるロボットを制御可能な制御装置であって、
少なくとも１つのメモリと、
少なくとも１つのプロセッサと、を備え、
前記少なくとも１つのプロセッサは、
前記ロボットに外力が加えられた際に、前記力センサが出力する外力に関する情報を取得し、
前記外力に関する情報に基づいて、所定の時間毎の合力の変化量を導出し、
前記合力の変化量に基づいて、外力に対するロボットの応答性を変化させる、制御装置。
前記少なくとも１つのプロセッサは、
前記合力の変化量に基づいて、前記ロボットの加速動作時における前記応答性を変化させる、請求項１４に記載の制御装置。
前記少なくとも１つのプロセッサは、
前記合力の変化量が増加傾向にあるときに、前記ロボットの応答性を高め、
前記合力の変化量が減少傾向にあるときに、前記ロボットの応答性を低くする、請求項１４または１５に記載の制御装置。