JP2019005834A - 学習システム及び学習方法 - Google Patents

学習システム及び学習方法 Download PDF

Info

Publication number
JP2019005834A
JP2019005834A JP2017122289A JP2017122289A JP2019005834A JP 2019005834 A JP2019005834 A JP 2019005834A JP 2017122289 A JP2017122289 A JP 2017122289A JP 2017122289 A JP2017122289 A JP 2017122289A JP 2019005834 A JP2019005834 A JP 2019005834A
Authority
JP
Japan
Prior art keywords
control
learning
condition
robot
obstacle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017122289A
Other languages
English (en)
Inventor
顕一 蓑谷
Kenichi Minoya
顕一 蓑谷
智章 尾崎
Tomoaki Ozaki
智章 尾崎
徳和 杉本
Tokukazu Sugimoto
徳和 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
National Institute of Information and Communications Technology
Original Assignee
Denso Corp
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp, National Institute of Information and Communications Technology filed Critical Denso Corp
Priority to JP2017122289A priority Critical patent/JP2019005834A/ja
Publication of JP2019005834A publication Critical patent/JP2019005834A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】動的環境下において、安全かつ最適な行動系列を獲得可能な学習システム及び学習方法を提供する。【解決手段】ロボット10の状態の初期値と障害物30の位置とからなる複数のコンディションのそれぞれについて、最適制御によりロボット10が障害物30を回避して目標地Taへ到達する軌跡Trを生成す出力生成部と、コンディションごとに、最適制御による軌跡Trの生成の収束性を判定する判定部と、収束しないと判定されたコンディションについて、例外制御による軌跡Trを生成する例外生成部と、ニューラルネットワークの汎化性能を利用して、コンディションごとに生成された軌跡Trを統合する統合部と、統合部による統合結果を最適制御にフィードバックして、前記コンディションごとの軌跡Trの生成と、コンディションごとに生成された軌跡Trの統合とを、予め設定された学習回数繰り返して学習する学習部と、を備える。【選択図】図7

Description

本開示は、ロボットの行動を学習する技術に関する。
近年、ロボットの複雑行動を実現可能な自律制御手法として、Guided Policy Search(以下、GPS)という手法が提案されている。GPSは、深層強化学習手法の一つである。GPSは、最適制御により軌道を生成し、最適制御により生成された軌道を教師データとしてニューラルネットワークの学習を行うことで、ニューラルネットワークの学習での探索範囲を限定して、複雑行動の獲得を可能とする手法である。
GPSをロボットに適用した例として、非特許文献1に記載のものがある。非特許文献1は、ロボットの複数の初期状態を設定して、初期状態ごとに、最適制御により目標までの軌道を生成している。そして、非特許文献1は、ニューラルネットワークの学習により初期状態ごとに生成した複数の軌道を統合して、どのような初期状態からでも目標に到達する行動系列を獲得している。
End-to-End Training of Deep Visuomotor Policies. Sergey Levine, Chelsea Finn, Trevor Darrell, Pieter Abbeel. JMLR 17, 2016.
ところで、非特許文献1の手法を応用して、動的な障害物を回避して目標へ到達する行動系列を獲得することが考えられる。詳しくは、動的な障害物の位置を所定数抽出し、抽出した障害物の位置ごとに、最適制御により、静的な障害物を回避して目標へ到達する軌道を生成する。そして、ニューラルネットワークの学習により、生成された所定数の軌道を統合して、障害物がどのような位置に存在しても目標に到達する行動系列を獲得することが考えられる。しかしながら、最適制御の性質上、ロボットの初期状態と静的な障害物の位置関係によっては、軌道の生成が収束しない状態が存在する。このような収束しない状態を考慮しないで獲得した行動系列に従って制御すると、不安定な行動につながるという問題がある。
本開示は、上記実情に鑑みてなされたものであり、動的環境下において、安全かつ最適な行動系列を獲得可能な学習システム及び学習方法を提供する。
本開示は、ロボット(10)の状態と、ロボットの観察画像とから、ロボットの制御信号を生成する学習システム(100)であって、出力生成部(50,S30,S120)と、判定部(50)と、例外生成部(50,S50)と、統合部(50,S80)と、学習部(50,S90)と、を備える。
出力生成部は、ロボットの状態の初期値と障害物(30)の互いに異なる位置とからなる予め設定された複数のコンディションのそれぞれについて、最適制御によりロボットが障害物を回避して目標位置へ到達する制御出力を生成する。判定部は、コンディションごとに、最適制御による制御出力の生成の収束性を判定する。例外生成部は、判定部により収束しないと判定されたコンディションについて、例外制御による制御出力を生成する。統合部は、ニューラルネットワークの汎化性能を利用して、コンディションごとに生成された制御出力を統合する。学習部は、統合部による統合結果を最適制御にフィードバックして、コンディションごとの制御出力の生成と、コンディションごとに生成された制御出力の統合とを、予め設定された学習回数繰り返して学習する。
本開示によれば、ロボットの初期状態と障害物の互いに異なる位置とからなる複数のコンディションのそれぞれについて、最適制御により目標位置までの制御出力が生成される。そして、ロボットの挙動が不安になりやすいコンディションである、最適制御による制御出力の生成が収束しないコンディションについて、例外制御により制御出力が生成される。さらに、生成された各コンディションについての制御出力がニューラルネットワークの汎化性能により一般化されて、制御信号の系列が獲得される。制御出力の生成が収束しない状態を考慮したことにより、障害物30が移動する動的環境下において、安全かつ最適な行動系列を獲得することができる。
なお、この欄及び特許請求の範囲に記載した括弧内の符号は、一つの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本開示の技術的範囲を限定するものではない。
学習システムの構成を示す図である。 GPSの概要を示す図である。 最適制御及びニューラルネット学習の入力を示す図である。 動的な障害物の位置を複数の静的な位置に分解して学習する様子を模式化した図である。 最適制御が収束しないコンディションについて例外制御を実施しない場合の学習時及び制御時の状態を模式化した図である。 最適制御が収束しないコンディションについて例外制御を実施する場合の学習時及び制御時の状態を模式化した図である。 第1実施形態に係る行動系列を学習する処理手順を示すフローチャートである。 獲得した行動系列に基づいた制御時の動作を説明する図である。 第2実施形態に係る行動系列を学習する処理手順を示すフローチャートである。 最適制御の収束性を判定する期間を示す図である。 第3実施形態に係る行動系列を学習する処理手順を示すフローチャートである。 ロボットの手先と、障害物と、目標と、回避目標との位置関係を示す図である。 第4実施形態に係る行動系列を学習する処理手順を示すフローチャートである。
以下、図面を参照しながら、発明を実施するための形態を説明する。
(第1実施形態)
<1−1.構成>
まず、本実施形態に係る学習システム100の構成について、図1を参照して説明する。学習システム100は、ロボットの手先10と、PC50と、カメラ60と、を備える。学習システム100は、直線運動する動的な障害物30を回避して、手先10で掴んだ物体11を目標地Taまで運ぶための手先10の行動系列を獲得することを想定している。
手先10は、複数の関節と、間接ごとに設置された関節を動かすモータと、を備える。
カメラ60は、所定周期で手先10を観察した観察画像を撮影し、観察画像をPC50へ入力する。観察画像は、手先10と物体11と障害物30と目標地Taを撮影した画像データである。本実施形態では、行動系列として、各モータに対する制御信号であるトルク値の系列を獲得するが、トルク値以外の制御信号の系列を獲得してもよい。
PC50は、CPU、ROM、RAM及びI/O等を備えたコンピュータである。PC50には、手先10の状態と、障害物30の座標値と、画像データとが入力される。手先10の状態は、複数の関節のそれぞれの関節角である。
PC50は、学習時に、GPS手法を用いて、各関節の関節角と、障害物30の座標値と、画像データとから、手先10に対する行動系列を獲得する。障害物30の座標値は、障害物30の中心の座標値とする。そして、PC50は、制御時に、学習時に獲得した行動系列と画像データとから、各モータに対するトルク値を算出し、算出したトルク値を指令値として各モータの制御部へ出力する。
本実施形態では、PC50のCPUが非遷移的実体的記録媒体に格納されているプログラムを実行することにより、特許請求の範囲の出力生成部、判定部、例外生成部、距離算出部、回避目標算出部、回避出力生成部、統合部、及び学習部の機能を実現する。なお、これらの機能を実現する手法はソフトウェアに限るものではなく、その一部又は全部の機能を、論理回路やアナログ回路等を組み合わせたハードウェアを用いて実現してもよい。
図2に示すように、GPSは、主として、最適制御とニューラルネット学習の2つの要素から構成されている。図3に示すように、最適制御は、障害物30の座標値及び間接角を入力とし、ニューラルネット学習は画像データ及び関節角を入力とする。最適制御は、コスト関数を最小化するような軌道を生成し、生成した軌道を教師データとしてニューラルネット学習に提供する。軌道は、障害物30の座標値及び間接角に対する各モータのトルク値の系列である。ニューラルネット学習は、ディープニューラルネットワーク(以下、DNN)を用いて、出力と教師データとの誤差が最小になるような行動系列を獲得する。GPSでは、ニューラルネット学習で獲得した行動系列を、最適制御へフィードバックする。そして、GPSでは、最適制御とニューラルネット学習とを交互に繰り返して所定回数学習して、最終的な行動系列を獲得する。学習回数は、予め経験則に基づいて学習が収束するような回数が設定されている。なお、GPSの詳細については、非特許文献1を参照されたい。また、本実施形態では、最適制御により生成される軌道が、特許請求の範囲の制御出力に相当する。
ここで、最適制御では、iterative Linear Quadratic Gaussian(以下、iLQG)を用いて最適化するが、iLQCは可制御性を前提としているため、基本的に動的環境には対応していない。つまり、iLQCは、本実施形態のように、障害物30の座標値が変化する環境には対応していない。そこで、図4に示すように、PC50は、直線運動をする障害物30の位置をN点ピックアップする。Nは自然数である。そして、PC50は、ピックアップした位置ごとに、手先10の状態の初期値と障害物30の位置とからなるコンディションを設定し、各コンディションについて、最適制御により軌道Trを生成する。さらに、PC50は、生成したN個の軌道Trを教師データとしてニューラルネット学習を行い、ニューラルネットワークの汎化性能を利用して、N個の軌道Trを統合して一般化する。これにより、障害物30がどのような位置に存在しても、物体11を目的地Taへ運ぶことが可能な手先10の行動系列が獲得される。
ただし、図5及び図6のコンディション2に示すように、目標地Taと障害物30が近い場合などには、iLQGが収束しない。図5は、iLQGが収束しないコンディションが存在する場合に、PC50が、収束していない軌道Trを含めて軌道Trを統合して、行動系列を獲得した場合の図である。この場合、獲得した行動系列を用いて手先10を制御すると、瞬間的にコンディション2の状態になった際に、手先10の不安定な動作が起きる可能性がある。
そこで、本実施形態では、図6に示すように、iLQGが収束しないコンディションが存在する場合に、PC50は、当該コンディションについて、例外制御によりその場に停止する軌道Trを生成する。そして、PC50は、例外制御により生成した軌道Trを含めた軌道Trを統合して行動系列を獲得する。これにより、PC50がこの行動系列を用いて手先10を制御した場合に、瞬間的にコンディション2の状態になった際には、手先10はその場に停止するため、手先10の動作が安定する。なお、ここでは、手先10を移動させる場合だけでなく、その場に停止させる場合も含めて軌道Trとしている。
<1−2.処理>
次に、第1実施形態に係る手先10の行動系列を学習する処理手順について、図7のフローチャートを参照して説明する。本処理手順は、PC50が実行する。
まず、S10では、1回目の学習としてitrに1を設定する。実行する学習回数は、予めmax_itr回に設定されている。
続いて、S20では、condに1を設定する。コンディションは、予めコンディション1からコンディションmax_condの異なるmax_cond個のコンディションが設定されている。
続いて、S30では、コンディションcondについて、最適制御により軌道Trを生成する。
続いて、S40では、コンディションcondについて、最適制御による軌道Trの生成の収束性を判定する。最適制御による軌道Trの生成が収束しなかった場合には、S50へ進み、最適制御による軌道Trの生成が収束した場合には、S60へ進む。
S50では、例外制御によりその場に停止する軌道Trを生成し、例外制御により生成した軌道Trをコンディションcondの軌道Trとする。具体的には、すべての関節のモータに対するトルク値を0にする。制御値として、トルク値ではなく目標関節角度を用いる場合は、すべての関節の目標関節角度を現在の関節角度にする。そして、S60へ進む。
続いて、S60では、コンディションcondについて生成した軌道Trを、教師データとして記憶する。具体的には、最適制御による軌道Trの生成が収束した場合には、S30で生成した軌道Trを教師データとして記憶し、最適制御による軌道Trの生成が収束しなかった場合には、S50で生成した軌道Trを教師データとして記憶する。
続いて、S70では、condがmax_cond未満か否か判定する。condがmax_cond未満の場合は、condの値を「1」増加させて、S30へ戻り、次のコンディションについて、S30〜S70の処理を繰り返し実行する。一方、condがmax_condと一致する場合は、S80へ進む。
S80では、コンディション1〜max_condについて生成したmax_cond個の軌道Trを教師データとして、ニューラルネット学習を行い、一般化した行動系列を取得する。
続いて、S90では、itrがmax_itr未満か否か判定する。itrがmax_itr未満の場合には、itrの値を「1」増加させて、S20の処理へ戻り、S20〜S90の処理を繰り返し実行する。一方、itrがmax_itrと一致する場合、つまり、予め設定された学習回数の学習を終了した場合には、本処理を終了する。
<1−3.動作>
図7のフローチャートに示す処理手順により獲得された行動系列を用いて、手先10を制御した場合における手先10の動作について、図8を参照して説明する。時刻T及びT+1のコンディションは、障害物30が目標地Taに近く、学習時に最適制御による軌道Trの生成が収束しないコンディションである。また、時刻T+1のコンディションは、障害物30が目標地Taから遠ざかり、学習時に最適制御による軌道Trの生成が収束するコンディションである。学習時に、時刻T及びT+1のような収束しないコンディションについは、例外制御によりその場に停止する軌道Trが生成された。これにより、制御時に、障害物30が目的地Taの近くに存在する時刻T及びT+1では、手先10はその場に留まり、障害物30が目標地Taから遠ざかった時刻T+2になってから、手先10目標Taへ向かって移動する。すなわち、手先10の安定した動作が実現される。
<1−4.効果>
以上説明した第1実施形態によれば、以下の効果が得られる。
(1)動的な障害物30の異なる位置とロボットの初期状態とからなる複数のコンディションのそれぞれについて、最適制御により目標地Taまでの軌道Trが生成される。そして、ロボットの挙動が不安になりやすいコンディションである、最適制御による軌道Trの生成が収束しないコンディションについて、例外制御により軌道Trが生成される。そして、生成された各コンディションについての軌道Trがニューラルネット学習により一般化されて、行動系列が獲得される。したがって、障害物30が移動する動的環境下において、安全かつ最適な行動系列を獲得することができる。
(2)収束しないコンディションについては、その場に停止する軌道Trが生成されるため、制御時には、動的な障害物30が過ぎ去るまでその場に留まるといった安全な行動を取ることができる。
(第2実施形態)
<2−1.第1実施形態との相違点>
第2実施形態は、基本的な構成は第1実施形態と同様であるため、共通する構成については説明を省略し、相違点を中心に説明する。なお、第1実施形態と同じ符号は、同一の構成を示すものであって、先行する説明を参照する。
第2実施形態では、PC50は、最適制御による軌道Trの生成の収束性の判定を、予め設定された回数Niの学習が経過した後で行う点で第1実施形態と異なる。また、PC50は、最適制御のコスト関数の値を用いて上記判定を行い、コスト関数の値が予め設定された閾値未満となる場合に、収束したと判定する。
<2−2.処理>
次に、第2実施形態に係る手先10の行動系列を学習する処理手順について、図9のフローチャートを参照して説明する。本処理手順は、PC50が実行する。
まず、S100〜S120では、S10〜S30と同様の処理を行う。
続いて、S130では、itrが予め設定された回数であるNi以上か否か判定する。Niは自然数である。図10に、コンディション1〜3について、学習回数に対するコスト関数の値を示す。コンディション1〜3のうち、コンディション1及び2は収束するコンディションであり、コンディション3は収束しないコンディションである。図10に示すように、コンディション1及び2は、学習の経過に伴い収束に向かうが、学習の初期では収束していない。そのため、学習の初期に収束性を判定すると、収束するようなコンディションも収束しないと判定してしまう可能性がある。
よって、itrがNi未満の場合には、収束性の判定をすることなく、S160へ進む。一方、itrがNi以上の場合には、S140へ進む。なお、収束性の判定が学習の後半で行われるように、Niはmax_itr/2以上とするとよい。
S140では、収束性を判定する。具体的には、コスト関数の値が閾値未満か否か判定する。コスト関数の値が閾値以上の場合には、収束していないと判定して、S150へ進む。S150では、S50と同様の処理を行う。
一方、コスト関数の値が閾値未満の場合には、収束していると判定して、S160へ進む。S160〜S190では、S60〜S90と同様の処理を行う。以上で本処理を終了する。
<2−3.効果>
以上説明した第2実施形態によれば、前述した第1実施形態の効果(1),(2)に加え、以下の効果が得られる。
(3)学習の初期では、収束するはずのコンディションでも収束していない可能性があるため、学習の初期に収束性の判定を行うと、誤判定するおそれがある。よって、予め設定された回数Niの学習が経過した後で、収束性の判定が行われる。これにより、誤判定を抑制することができる。
(4)最適制御のコスト関数の値が閾値未満となる場合に、収束したと判定することで、適切に収束性を判定することができる。
(第3実施形態)
<3−1.第1実施形態との相違>
第3実施形態は、基本的な構成は第1実施形態と同様であるため、共通する構成については説明を省略し、相違点を中心に説明する。なお、第1実施形態と同じ符号は、同一の構成を示すものであって、先行する説明を参照する。
第3実施形態は、第1実施形態と例外制御による軌道Trの生成が異なる。第1実施形態では、PC50は、例外制御によりその場に停止する軌道Trを生成した。これに対して、第3実施形態では、PC50は、例外制御により、手先10と障害物30との距離Lに応じて、軌跡Trを生成する。
<3−2.処理>
次に、第3実施形態に係る手先10の行動系列を学習する処理手順について、図11のフローチャートを参照して説明する。本処理手順は、PC50が実行する。
まず、S200〜S230では、S10〜S40と同様の処理を行う。S230で収束していないと判定した場合は、S240で、センシングにより手先10と障害物30との距離Lを算出する。具体的には、図1に破線で示すように、3D物体認識装置70を用いて手先10の座標を取得し、距離Lを算出してもよいし、ニューラルネットワーク学習とは別のDNNを用いて、カメラ60で撮影された画像データから手先10の座標を取得し、距離Lを算出してもよい。
続いて、S250では、S240で算出した距離Lが予め設定された距離閾値未満の場合、すなわち、手先10が障害物30の近くに位置している場合には、図12に示すように、手先10が障害物30に接触しないように、回避目標地Taaを算出する。回避目標Taaは、障害物30を回避しつつ、回避目標地Taaから目標地Taへ到達可能な位置である。
続いて、S260では、S240で算出した距離Lが距離閾値以上の場合には、その場に停止する軌跡Trを生成する。一方、S240で算出した距離Lが距離閾値未満の場合には、S250で算出した回避目標地Taaまでの軌跡Trを生成する。回避目標地Taaまでの軌跡Trは、逆運動学や逆動力学により算出してもよいし、他の方法で算出してもよい。あるいは、回避目標地Taaまでの軌跡Trは、人間が与えてもよい。
続いて、S270〜S300では、S60〜S90と同様の処理を行う。以上で本処理を終了する。なお、S230の収束判定において、第2実施形態の収束判定を適用してもよい。つまり、S230において、S130及びS140の処理を行ってもよい。
<3−3.効果>
以上説明した第3実施形態によれば、前述した第1実施形態及び第2実施形態の効果(1),(3),(4)に加え、以下の効果が得られる。
(5)手先10と障害物30との距離Lが距離閾値未満で、手先10が障害物30に近い場合には、障害物30を回避しつつ、目標地Taに到達可能な回避目標地Taaが算出される。よって、手先10が障害物30と接近し且つ収束しないコンディションにおいて、制御時により安全な行動を取ることができる。
(第4実施形態)
<4−1.第3実施形態との相違>
第4実施形態は、基本的な構成は第3実施形態と同様であるため、共通する構成については説明を省略し、相違点を中心に説明する。なお、第3実施形態と同じ符号は、同一の構成を示すものであって、先行する説明を参照する。第4実施形態は、回避目標地Taaまでの軌跡Trの生成手法が第3実施形態と異なる。
第4実施形態に係る手先10の行動系列を学習する処理手順について、図13のフローチャートを参照して説明する。本処理手順は、PC50が実行する。
まず、S400〜S450では、S200〜S250と同様の処理を行う。
続いて、S460では、最適制御により回避目標地Taaまでの軌跡Trを生成する。つまり、S420において、収束性の判定前に軌跡Trを生成した場合と同様に、最適制御により回避目標地Taaまでの軌跡Trを生成する。
続いて、S470〜S500では、S270〜S300と同様の処理を行う。以上で本処理手順を終了する。なお、S430の収束判定において、第2実施形態の収束判定を適用してもよい。つまり、S430において、S130及びS140の処理を行ってもよい。
<4−2.効果>
以上説明した、説明した第4実施形態によれば、前述した第1〜第3実施形態の効果(1),(3),(4),(5)に加え、以下の効果が得られる。
(6)最適制御により回避目標地Taaまでの軌跡Trが生成されるため、逆運動学や逆動力学による計算を解く必要がない。すなわち、ロボットモデルが必要ない。
(他の実施形態)
以上、本開示を実施するための形態について説明したが、本開示は上述の実施形態に限定されることなく、種々変形して実施することができる。
(a)上記各実施形態では、ロボットをロボットの手先10としたが、これに限定されるものではない。ロボットは、手先10以外のロボットの部分でもよい。
(b)上記各実施形態では、最適制御は、障害物30の座標値と各関節の間接角を入力としたが、これに限定されるものではない。例えば、最適制御は、障害物30の座標値と各間接角の角速度を入力としてもよい。
(c)上記実施形態における1つの構成要素が有する複数の機能を、複数の構成要素によって実現したり、1つの構成要素が有する1つの機能を、複数の構成要素によって実現したりしてもよい。また、複数の構成要素が有する複数の機能を、1つの構成要素によって実現したり、複数の構成要素によって実現される1つの機能を、1つの構成要素によって実現したりしてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加又は置換してもよい。なお、特許請求の範囲に記載した文言のみによって特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
(d)上述した学習システム及び学習方法の他、当該学習方法をコンピュータに実行させるためのプログラム、このプログラムを記録した半導体メモリ等の非遷移的実態的記録媒体など、種々の形態で本開示を実現することもできる。
10…手先、30…障害物、50…PC、100…学習システム。

Claims (12)

  1. ロボット(10)の状態と、前記ロボットの観察画像とから、前記ロボットの制御信号を生成する学習システム(100)であって、
    前記ロボットの状態の初期値と障害物(30)の互いに異なる位置とからなる予め設定された複数のコンディションのそれぞれについて、最適制御により前記ロボットが前記障害物を回避して目標位置へ到達する制御出力を生成するように構成された出力生成部(50,S30,S120)と、
    前記コンディションごとに、前記最適制御による制御出力の生成の収束性を判定するように構成された判定部(50)と、
    前記判定部により収束しないと判定された前記コンディションについて、例外制御による制御出力を生成するように構成された例外生成部(50,S50)と、
    ニューラルネットワークの汎化性能を利用して、前記コンディションごとに生成された前記制御出力を統合するように構成された統合部(50,S80)と、
    前記統合部による統合結果を前記最適制御にフィードバックして、前記コンディションごとの前記制御出力の生成と、前記コンディションごとに生成された前記制御出力の統合とを、予め設定された学習回数繰り返して学習するように構成された学習部(50,S90)と、
    を備える、学習システム。
  2. 前記判定部(S130)は、前記学習部により前記学習回数のうちの予め設定された回数の学習が経過した後で、前記収束性の判定を行うように構成されている、
    請求項1に記載の学習システム。
  3. 前記判定部(S140)は、前記最適制御のコスト関数の値を用いて、前記収束性を判定するように構成されている、
    請求項1又は2に記載の学習システム。
  4. 前記例外生成部(S50)は、前記例外制御として、その場に留まる制御出力を生成するように構成されている、
    請求項1〜3のいずれか1項に記載の学習システム。
  5. 前記例外生成部は、
    センシングにより前記ロボットと前記障害物との距離を算出するように構成された距離算出部(S240)と、
    前記距離算出部により算出された距離が、予め設定された距離閾値未満の場合に、前記障害物を回避しつつ、前記目標位置へ到達可能な回避目標位置を算出するように構成された回避目標算出部(S250)と、
    前記回避目標算出部により算出された前記回避目標位置に到達する制御出力を生成するように構成された回避出力生成部(S260)と、を備え、
    前記距離算出部、前記回避目標算出部、及び前記回避出力生成部が、前記例外制御を実行する、
    請求項1〜3のいずれか1項に記載の学習システム。
  6. 前記回避出力生成部(S460)は、前記最適制御により、前記回避目標算出部により算出された前記回避目標位置に到達する前記制御出力を生成するように構成されている、
    請求項5に記載の学習システム。
  7. ロボット(10)の状態と、前記ロボットの観察画像とから、前記ロボットの制御信号を生成する学習方法であって、
    前記ロボットの状態の初期値と障害物(30)の互いに異なる位置とからなる予め設定された複数のコンディションのそれぞれについて、最適制御により前記ロボットが前記障害物を回避して目標位置へ到達する制御出力を生成し、
    前記コンディションごとに、前記最適制御による制御出力の生成の収束性を判定し、
    収束しないと判定された前記コンディションについて、例外制御による制御出力を生成し、
    ニューラルネットワークの汎化性能を利用して、コンディションごとに生成された前記制御出力を統合し、
    前記制御出力の統合結果を前記最適制御にフィードバックして、前記コンディションごとの前記制御出力の生成と、前記コンディションごとに生成された前記制御出力の統合とを、予め設定された学習回数繰り返して学習する、
    学習方法。
  8. 前記学習回数のうちの予め設定された回数の学習が経過した後で、前記収束性を判定する、
    請求項7に記載の学習方法。
  9. 前記収束性を判定する際に、前記最適制御のコスト関数の値を用いて、前記収束性を判定する、
    請求項7又は8に記載の学習方法。
  10. 収束しないと判定された前記コンディションについて、前記例外制御により、その場に留まる制御出力を生成する、
    請求項7〜9のいずれか1項に記載の学習方法。
  11. 収束しないと判定された前記コンディションについて、前記例外制御として、
    センシングにより前記ロボットと前記障害物との距離を算出し、
    算出された前記距離が、予め設定された距離閾値未満の場合に、前記障害物を回避しつつ、前記目標位置へ到達可能な回避目標位置を算出し、
    算出された前記回避目標位置に到達する制御出力を生成する、
    請求項7〜9のいずれか1項に記載の学習方法。
  12. 収束しないと判定された前記コンディションについて、前記例外制御として、
    前記最適制御により、算出された前記回避目標位置に到達する前記制御出力を生成する、
    請求項11に記載の学習方法。
JP2017122289A 2017-06-22 2017-06-22 学習システム及び学習方法 Pending JP2019005834A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017122289A JP2019005834A (ja) 2017-06-22 2017-06-22 学習システム及び学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017122289A JP2019005834A (ja) 2017-06-22 2017-06-22 学習システム及び学習方法

Publications (1)

Publication Number Publication Date
JP2019005834A true JP2019005834A (ja) 2019-01-17

Family

ID=65025670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017122289A Pending JP2019005834A (ja) 2017-06-22 2017-06-22 学習システム及び学習方法

Country Status (1)

Country Link
JP (1) JP2019005834A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020162136A1 (ja) * 2019-02-08 2020-08-13 コベルコ建機株式会社 損害推定装置及び機械学習装置
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN112230649A (zh) * 2019-06-28 2021-01-15 丰田自动车株式会社 机器学习方法及移动机器人
JPWO2021033315A1 (ja) * 2019-08-22 2021-02-25
JP2021091079A (ja) * 2019-12-10 2021-06-17 富士フイルム株式会社 ロボットの制御装置、制御方法、及びプログラム
US11673271B2 (en) 2020-02-05 2023-06-13 Denso Corporation Trajectory generation apparatus, multi-link system, and trajectory generation method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
JPH07223181A (ja) * 1994-02-09 1995-08-22 Yaskawa Electric Corp マニピュレータの干渉チェック装置
JP2004001217A (ja) * 2002-05-30 2004-01-08 Kuka Roboter Gmbh ロボットと他の物体との衝突を回避する方法と装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119823A (ja) * 1991-10-24 1993-05-18 Hitachi Ltd ロボツトの軌道計画方法及び制御装置
JPH07223181A (ja) * 1994-02-09 1995-08-22 Yaskawa Electric Corp マニピュレータの干渉チェック装置
JP2004001217A (ja) * 2002-05-30 2004-01-08 Kuka Roboter Gmbh ロボットと他の物体との衝突を回避する方法と装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SERGEY LEVINE 他: "End-to-End Training of Deep Visuomotor Policies", JOURNAL OF MACHINE LEARNING RESEARCH, JPN7021001981, April 2016 (2016-04-01), pages 1 - 40, ISSN: 0004720659 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020162136A1 (ja) * 2019-02-08 2020-08-13 コベルコ建機株式会社 損害推定装置及び機械学習装置
JP2020128656A (ja) * 2019-02-08 2020-08-27 コベルコ建機株式会社 損害推定装置及び機械学習装置
JP7206985B2 (ja) 2019-02-08 2023-01-18 コベルコ建機株式会社 損害推定装置及び機械学習装置
JP2020194432A (ja) * 2019-05-29 2020-12-03 トヨタ自動車株式会社 機械学習方法および移動ロボット
JP7188279B2 (ja) 2019-05-29 2022-12-13 トヨタ自動車株式会社 機械学習方法および移動ロボット
CN112230649A (zh) * 2019-06-28 2021-01-15 丰田自动车株式会社 机器学习方法及移动机器人
CN112230649B (zh) * 2019-06-28 2024-01-09 丰田自动车株式会社 机器学习方法及移动机器人
JPWO2021033315A1 (ja) * 2019-08-22 2021-02-25
JP7334784B2 (ja) 2019-08-22 2023-08-29 日本電気株式会社 ロボット制御システム、ロボット制御方法、及び、プログラム
JP2021091079A (ja) * 2019-12-10 2021-06-17 富士フイルム株式会社 ロボットの制御装置、制御方法、及びプログラム
JP7270580B2 (ja) 2019-12-10 2023-05-10 富士フイルム株式会社 ロボットの制御装置、制御方法、及びプログラム
US11673271B2 (en) 2020-02-05 2023-06-13 Denso Corporation Trajectory generation apparatus, multi-link system, and trajectory generation method

Similar Documents

Publication Publication Date Title
JP2019005834A (ja) 学習システム及び学習方法
Martinsen et al. Straight-path following for underactuated marine vessels using deep reinforcement learning
Haidegger et al. Cascade control for telerobotic systems serving space medicine
Cho et al. Neural network based adaptive actuator fault detection algorithm for robot manipulators
Yang et al. Integrating visual foundation models for enhanced robot manipulation and motion planning: A layered approach
Koutras et al. Dynamic movement primitives for moving goals with temporal scaling adaptation
Chocron et al. Dynamic reconfiguration of autonomous underwater vehicles propulsion system using genetic optimization
Blekas et al. RL-based path planning for an over-actuated floating vehicle under disturbances
Veer et al. Adaptation of limit-cycle walkers for collaborative tasks: A supervisory switching control approach
Wang et al. Learning robotic insertion tasks from human demonstration
Krug et al. Representing movement primitives as implicit dynamical systems learned from multiple demonstrations
Mohammad Hossein Fallah et al. Conjugated visual predictive control for constrained visual servoing
Yu et al. A robotic auto-focus system based on deep reinforcement learning
Petrovic et al. Sim2real deep reinforcement learning of compliance-based robotic assembly operations
Wang et al. Hand movement prediction based collision-free human-robot interaction
Kim et al. Image-based visual servoing using sliding mode control
Jasna et al. Remodeled A* algorithm for mobile robot agents with obstacle positioning
Trimble et al. Context-aware robotic arm using fast embedded model predictive control
Liu et al. Human robot cooperation based on human intention inference
Kim et al. Epsilon-greedy babbling
Cheng et al. Consensus of multiple Euler-Lagrange systems using one Euler-Lagrange System’s velocity measurements
Dehkordi et al. Dynamic modeling and decoupled control of linear and angular velocity for robotic fish
Gholipour et al. Designing a robust control scheme for robotic systems with an adaptive observer
Satak Behavior learning in differential games and reorientation maneuvers
Li et al. Towards coordination in human-robot interaction by adaptation of robot's cost function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200519

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220906