JP7247552B2 - 学習装置、ロボット制御装置、及びロボット制御システム - Google Patents

学習装置、ロボット制御装置、及びロボット制御システム Download PDF

Info

Publication number
JP7247552B2
JP7247552B2 JP2018224020A JP2018224020A JP7247552B2 JP 7247552 B2 JP7247552 B2 JP 7247552B2 JP 2018224020 A JP2018224020 A JP 2018224020A JP 2018224020 A JP2018224020 A JP 2018224020A JP 7247552 B2 JP7247552 B2 JP 7247552B2
Authority
JP
Japan
Prior art keywords
unit
robot
robot arm
learning
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018224020A
Other languages
English (en)
Other versions
JP2020082314A (ja
Inventor
友樹 山岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2018224020A priority Critical patent/JP7247552B2/ja
Publication of JP2020082314A publication Critical patent/JP2020082314A/ja
Application granted granted Critical
Publication of JP7247552B2 publication Critical patent/JP7247552B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)
  • Numerical Control (AREA)

Description

本発明は、ロボットの行動を学習する学習装置、ロボット制御装置、及びロボット制御システムに関する。
ロボットアームを構成する各関節の駆動を制御するロボット制御装置は、ロボットアームの先端部の現在位置と、目標到達位置(例えば、ロボットアームの作業対象となるワークの存在位置)とからロボットアームの目標軌跡を生成し、当該目標軌跡に基づいて、各時刻における各関節の回転角を計算し、計算した結果に従って、各関節を駆動する駆動モーターを制御するのが一般的である。
特許第6240689号公報 特許第5528214号公報
ロボットアームの目標軌跡は、ロボットアームの先端部の現在位置と、目標到達位置とから、コンピューターが計算することによって生成することができるが、効率のよい目標軌跡が生成されるとは限らない。
また、ロボットは人間がプログラミングしたプログラムに従って、その通りに行動するが、人間が行うのと同じ作業手順となるように、ロボットの行動をプログラミングしてしまうと、効率が悪い場合がある。それは、ロボットにはロボットアームの可動域などの制約事項があるからである。
また、効率のよいプログラミングができたとしても、目標到達位置が変更されるなど、何かしらの変更があれば、プログラミングし直さなければならず、ユーザーの作業負担が大きくなる。また、ロボットの機種が変わり、機械の仕様が変わった場合にも、やはり再プログラミングが必要になる。
ところで、目標到達位置へ到達するまでのロボットアームにおける効率のよい行動(例えば、移動距離が短い、電力消費量が少ない)を計画するには、ロボットの動作を学習させるという方法が考えられる。
上記特許文献1に、ロボットと人が協働するが、人の行動パターンが多いのでそれに最適なロボットの制御方法の設定が難しいという課題から、ロボットの行動時間と人の負担(ロボットの加速度)を基に、予め定められた移動点におけるロボットの行動価値を更新する強化学習方法により最適な制御方法を設定するという内容が記載されている。
上記特許文献2に、ロボットなどの制御に採用されている、現状の強化学習では、教示された内容を試行錯誤しながら、自己の状況に合わせて効率的に学習することができないという課題から、一連の状態・行動の集合であるイベントリストをデータベース管理し、効率的に行動価値を探索するという内容が記載されている。
上記特許文献1,2のいずれにも、ロボットの動作を学習することについての記載はあるが、目標到達位置へ到達するまでのロボットアームにおける効率のよい行動を計画することについての記載はない。
本発明は、上記の事情に鑑みなされたものであり、ユーザーの作業負担を大きくすることなく、ロボットアームにおける効率のよい行動を計画できるようにすることを目的とする。
本発明の一局面に係る学習装置は、複数の関節を有し、三次元空間を自在に移動可能なロボットアームと、前記複数の関節それぞれに設けられた、前記関節を駆動する関節駆動部と、前記ロボットアームの位置を含む、当該ロボットアームの状態を検出する状態検出部と、温度センサー又は湿度センサーと、を備えるロボットの行動を学習する学習装置であって、前記状態検出部による検出結果に基づいて、前記ロボットアームの状態を観測する状態観測部と、予め設定された目標到達位置へ到達するまでの前記ロボットアームの行動過程において、前記状態観測部により観測される、ある時刻における前記ロボットアームの状態と、当該状態からの前記ロボットアームの行動と、当該行動後の前記ロボットアームの状態とを関連付けて、前記ロボットアームの行動を学習する学習部と、記憶部と、を備え、前記学習部は、前記ロボットアームの動いた軌跡、及び前記関節駆動部の駆動に応じて報酬を計算する報酬計算部と、前記報酬計算部により計算された前記報酬に基づいて、前記ロボットアームのある状態からある行動を選択する価値を示す行動価値関数を更新する関数更新部と、を備え、前記学習部は、前記学習装置が前記温度センサーを備える場合には、前記ロボットの電源をオフする時に前記温度センサーが計測した第1温度を保持しておき、前記ロボットの電源をオンした時に前記温度センサーが計測した第2温度と前記第1温度との差が、予め定められた第1閾値以上である場合には、再学習を行ない、前記第2温度毎に、前記第2温度に応じた前記行動価値関数を前記記憶部に保存させ、前記学習部は、前記学習装置が前記湿度センサーを備える場合には、前記ロボットの電源をオフする時に前記湿度センサーが計測した第1湿度を保持しておき、前記ロボットの電源をオンした時に前記湿度センサーが計測した第2湿度と前記第1湿度との差が、予め定められた第2閾値以上である場合には、再学習を行ない、前記第2湿度毎に、前記第2湿度に応じた前記行動価値関数を前記記憶部に保存させる。
また、本発明の一局面に係るロボット制御装置は、上記学習装置と、前記学習装置による学習結果に基づいて、前記ロボットアームに行わせる行動を選択する意思決定部と、前記意思決定部による意思決定に基づいて、前記ロボットアームの行動を制御する指示部と、を備え、前記意思決定部は、前記第2温度又は前記第2湿度に応じた前記行動価値関数を前記記憶部から読み出して、前記指示部が前記ロボットアームに行わせる行動を選択する
また、本発明の一局面に係るロボット制御システムは、上記ロボット制御装置と、前記ロボットと、を備える。
本発明によれば、実際の学習結果から、ロボットアームのある状態から価値の高い行動を自動的に選択することができるので、ユーザーの作業負担を大きくすることなく、ロボットアームの先端部が目標到達位置へ到達するまでの効率のよい行動を計画することが可能となる。
本発明の第1実施形態に係る学習装置を有するロボット制御装置を含んで構成されるロボット制御システムの主要内部構成を概略的に示した機能ブロック図である。 ロボット制御システムを構成する各構成間でのデータ等の流れを説明するための説明図である。 制御の対象となるロボットを模式的に示した外観図である。 ロボット制御装置の制御ユニットで行われる処理動作の一例を示したフローチャートである。 第2実施形態に係る学習装置を有するロボット制御装置を含んで構成されるロボット制御システムの主要内部構成を概略的に示した機能ブロック図である。
以下、本発明の一実施形態に係る学習装置、ロボット制御装置、及びロボット制御システムについて図面を参照して説明する。図1は、第1実施形態に係る学習装置を有するロボット制御装置を含んで構成されるロボット制御システムの主要内部構成を概略的に示した機能ブロック図である。図2は、ロボット制御システムを構成する各構成間でのデータ等の流れを説明するための説明図である。図3は、制御の対象となるロボットを模式的に示した外観図である。
ロボット制御システム1は、ロボット10と、ロボット10の動作を制御するロボット制御装置20と、を含んで構成されている。
ロボット10は、図3に示すように、人間の腕と同様の運動機能を持つマニピュレーターで、三次元空間を自在に移動可能なロボットアーム11を備え、ロボットアーム11の根元は台座14に固定されている。ロボットアーム11は、複数の関節12A乃至12C(以降、まとめて「関節12」とも称す)と、関節12どうしをつなぐリンク13A,13Bとを有する。
また、ロボットアーム11は、その先端部15にエンドエフェクターが着脱交換可能に構成されている。図3中では、エンドエフェクターとして、平行に配置された2つの爪部41A,41Bを有するグリッパー41が取り付けられている。グリッパー41は、例えば、箱43に入れられたワーク42を把持して、ワーク42を別の場所へ運ぶことに使用される。また、グリッパー41には、空気圧により爪部41A,41Bを駆動するグリッパー駆動部41C(例えば、シリンダー)が内蔵されている。
ロボット10は、関節12それぞれに設けられた、関節12(すなわち、ロボットアーム11)を駆動するアーム駆動部16A乃至16C(以降、まとめて「アーム駆動部16」とも称す)と、関節12それぞれに設けられた、関節12の回転角を検出する回転角検出部17A乃至17C(以降、まとめて「回転角検出部17」とも称す)と、アーム駆動部16それぞれのトルクを検出するトルクセンサー18A乃至18C(以降、まとめて「トルクセンサー18」とも称す)と、ロボット10の上方に設けられ、当該ロボット10の作業環境を検出する作業環境検出部19と、を備える。なお、アーム駆動部16、回転角検出部17、及び作業環境検出部19としてはそれぞれ、例えば、モーター、エンコーダー、カメラが挙げられる。
また、アーム駆動部16は、特許請求の範囲における関節駆動部の一例で、回転角検出部17及びトルクセンサー18は、特許請求の範囲における状態検出部の一例である。ロボットアーム11の先端部15の位置は、関節12A乃至12Cそれぞれの角度から割り出すことができる。なお、上記状態検出部としては、作業環境検出部19を利用することも可能である。
ロボット制御装置20は、制御ユニット21と、操作部22と、表示部23と、記憶部24と、外部インターフェイス部(外部I/F)25と、通信インターフェイス部(通信I/F)26と、を備える。
操作部22は、キーボードやマウス等から構成され、制御ユニット21にコマンドや文字を入力したり、表示部23における画面上のポインターを操作したりする。表示部23は、制御ユニット21からの応答やデータ結果を表示する。操作部22は、例えば、ロボットアーム11の先端部15の目標到達位置の指示入力に用いられる。なお、目標到達位置については、ユーザーからの指示ではなく、作業環境検出部19が撮影して得られた画像から読み取ったワーク42の位置から設定することも可能である。
記憶部24は、HDD(Hard Disk Drive)などの記憶装置であり、ロボット制御装置20の動作に必要なプログラムやデータを記憶し、後述する報酬テーブルを記憶する報酬テーブル記憶部241を含む。
外部インターフェイス部25は、外部装置と接続するためのもので、ロボット制御装置20は、外部インターフェイス部25を介して、ロボット10を構成するアーム駆動部16、回転角検出部17、トルクセンサー18、作業環境検出部19、及びグリッパー駆動部41Cと接続されている。
通信インターフェイス部26は、不図示のLAN(Local Area Network)チップなどの通信モジュールを備えるインターフェイスで、外部装置30との間で通信を行う。ロボット制御装置20は、通信インターフェイス部26を介して、例えば、他のロボット制御装置との間でデータの送受信を行う。
制御ユニット21は、プロセッサー、RAM(Random Access Memory)、ROM(Read Only Memory)、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はMPU(Micro Processing Unit)等である。制御ユニット21は、制御部211と、状態観測部212と、学習部213と、意思決定部214と、行動計画部215と、アーム指示部216と、グリッパー指示部217と、を備えている。なお、本発明に係る学習装置は、状態観測部212及び学習部213を含んで構成される。
制御ユニット21は、記憶部24に記憶されている制御プログラムに従った上記プロセッサーによる動作により、制御部211、状態観測部212、学習部213、意思決定部214、行動計画部215、アーム指示部216、及びグリッパー指示部217として機能する。但し、制御ユニット21等の上記の各構成は、制御ユニット21による制御プログラムに基づく動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。
制御部211は、ロボット制御装置20の全体的な動作制御を司る。制御部211は、操作部22、表示部23、記憶部24、外部インターフェイス部25、及び通信インターフェイス部26と接続されており、接続されている上記各構成の動作制御や、各構成との間での信号またはデータの送受信を行う。
状態観測部212は、状態検出部としての回転角検出部17、トルクセンサー18、及び作業環境検出部19による検出結果に基づいて、ロボットアーム11の状態を観測するもので、図2に示すように、物理量処理部212Aと、画像処理部212Bと、を備える。
物理量処理部212Aは、回転角検出部17により検出された関節12それぞれの回転角を示す物理量を処理して、関節12の回転角の大きさを算出すると共に、トルクセンサー18により検出されたアーム駆動部16(駆動モーター)それぞれのトルクを示す物理量を処理して、アーム駆動部16のトルクを算出し、算出した結果を学習部213へ出力する。画像処理部212Bは、作業環境検出部19が撮影した画像を処理し、ロボットアーム11の行動に必要な情報を抽出し、抽出した結果を学習部213へ出力する。なお、アーム駆動部16(駆動モーター)のトルクについては、トルクセンサー18ではなく、モーター電流から換算して検出するようにしてもよい。
学習部213は、目標到達位置へ到達するまでのロボットアーム11の行動過程において、状態観測部212により観測される、ある時刻におけるロボットアーム11の状態と、当該状態からのロボットアーム11の行動と、当該行動後のロボットアーム11の状態とを関連付けて、ロボットアーム11の行動を学習する。
学習部213が実行する学習アルゴリズムとしては、例えば、強化学習などの機械学習としての公知のアルゴリズムを採用することができ、学習部213は、図2に示すように、報酬計算部213Aと、関数更新部213Bと、を備える。
強化学習のアルゴリズムとしては、例えば、Q学習が挙げられる。Q学習は、ある状態sの下で、行動aを選択した場合の行動の価値を示す関数Q(s,a)を学習する方法である。ある状態sのときに、関数Qが最も高くなる行動aが最適な行動となるが、学習を開始した時点では、状態sと行動aとの相関性が分からないので、試行錯誤で、ある状態sの下で種々の行動aを選択し、その時に与えられる報酬rを使って、関数Qを反復して更新し、関数Qを最適なものに近付ける。
報酬計算部213Aは、状態sで行動aを選択した結果として環境(つまり、状態s)が変化したときに、その環境の変化によって与えられる報酬rを計算するもので、ロボットアーム11の動いた軌跡、及びアーム駆動部16の駆動に応じて報酬を計算する。
以下の数式1は報酬を与えるための計算式の一例で、2以上の項の和で表現される。
報酬r=w1×r1+w2×r2 … 数式1
r1はロボットアーム11が動いた軌跡による報酬を示し、r2はアーム駆動部16(駆動モーター)それぞれの駆動による報酬を示している。w1,w2は各項それぞれの重みを示している。報酬r1,r2は、以下の数式3乃至5が示すように-1~+1の間で正規化した値で、その計算結果に重みとしてw1、w2を掛け算した値の和が報酬rである。
r1=(-2×距離d)/k1+1 (0<d≦k1) … 数式2
r1=-1 (k1<d) … 数式3
r2=(-2×トルクt)/k2+1 (0<t≦k2) … 数式4
r2=-1 (k2<t) … 数式5
k1,k2は定数で、定数k1としては、例えば、ロボットアーム11の行動開始位置から目標到達位置までを直線で結んだ最短経路の距離が挙げられる。
距離dは、ロボットアーム11の先端部15の位置と目標到達位置との距離を示し、距離dが短くなるにつれて、報酬r1は大きくなる。ロボットアーム11が動いた軌跡については、回転角検出部17で検出される関節12それぞれの回転角から求めてもよいし、作業環境検出部19で検出される画像から求めてもよい。
トルクtは、アーム駆動部16それぞれのトルクの総和を示し、トルクtが大きくなるにつれて、報酬r2は小さくなる。つまり、報酬r2は、アーム駆動部16の駆動電力に応じて計算される報酬である。
また、ここではアーム駆動部16の駆動に応じた報酬r2として、アーム駆動部16のトルクを用いて説明しているが、アーム駆動部16の駆動時間をカウントし、駆動時間の長さを用いて、駆動時間が長くなるにつれて、報酬r2が小さくなるように、報酬r2を計算するようにしてもよい。
関数更新部213Bは、より高い報酬rが得られる行動aを選択しやすくなるように関数Qを更新するもので、報酬計算部213Aにより計算された報酬rに基づいて、ロボットアーム11のある状態からある行動を選択する価値を示す行動価値関数を更新する。そして、ロボットアーム11の行動を繰り返す中で、行動価値関数を更新していくことで、学習部213は、ある状態に対する最適な行動を学習し、行動価値関数は収束する。
学習部213による学習結果としての行動価値関数については、すべての状態と行動との組に対して、その価値を報酬テーブル(行動価値テーブル)として、保持しておくことが可能で、学習部213は、上記報酬テーブルを報酬テーブル記憶部241に保存する。
ロボット制御装置20の制御ユニット21における処理動作の一例について、図4に示したフローチャートに基づいて説明する。なお、この処理動作は、ロボットアーム11の動作過程においてわれる処理動作である。
状態観測部212が、回転角検出部17、トルクセンサー18、及び作業環境検出部19による検出結果に基づいて、ロボットアーム11の状態を観測し(S1)、報酬計算部213Aが、状態観測部212により観測される、ロボットアーム11の状態に基づいて、ロボットアーム11の動いた軌跡、及びアーム駆動部16の駆動に応じて報酬を計算する(S2)。
続いて、関数更新部213Bが、報酬計算部213Aにより計算された報酬に基づいて、行動価値関数を更新し(S3)、その後、処理はS1へ戻る。すなわち、S1乃至S3を繰り返すことにより、ロボット制御装置20は、行動価値関数(報酬テーブル)の更新を継続して行う。
意思決定部214は、学習部213による学習結果(行動価値関数)に基づいて、ロボットアーム11に行わせる行動を選択する。例えば、意思決定部214は、ある状態から最も価値のある行動を選択し、選択した内容を行動計画部215に出力する。
行動計画部215は、意思決定部214から入力した内容に基づいて、ロボット10の行動計画を生成し、生成した行動計画を示す情報を、その情報の内容に応じて、アーム行動指示部216と、グリッパー行動指示部217とに出力する。例えば、行動計画部215は、ロボットアーム11の先端部15の軌跡を生成する。
アーム行動指示部216は、行動計画部215から入力した行動計画を示す情報に応じて、ロボットアーム11の関節12を駆動するアーム駆動部16の動作を制御する駆動信号を生成し、アーム駆動部16の駆動を制御する。
グリッパー行動指示部217は、行動計画部215から入力した行動計画を示す情報に応じて、グリッパー駆動部41Cの動作を制御する駆動信号を生成し、グリッパー駆動部41Cの駆動を制御する。
上記実施形態によれば、実際の学習結果から、ロボットアーム11のある状態から価値の高い行動を自動的に選択することができるので、ユーザーの作業負担を大きくすることなく、ロボットアーム11の先端部15が目標到達位置へ到達するまでの効率のよい行動を計画することが可能となる。また、ロボットアーム11の行動を学習するので、機器ごとのバラツキや、機種ごとの構成の違いにも柔軟に対応することが可能となるので、ユーザーの作業負担が大きくなるのを防ぐこともできる。
また、報酬テーブル記憶部241で保存されている報酬テーブルを、通信インターフェイス部26を介して、他のロボット制御装置へ送信し、当該他のロボット制御装置での初期テーブルとして用いるようにすれば、学習効率を高めることができる。また、報酬テーブルについては、ネットワーク上で保存して、他のロボット制御装置との間で共有することも可能である。
図5は、第2実施形態に係る学習装置を有するロボット制御装置を含んで構成されるロボット制御システムの主要内部構成を概略的に示した機能ブロック図である。図1に示したロボット制御装置1とは、制御ユニット21が設定受付部218を備える点で相違する。
設定受付部218は、ロボットアームの動いた軌跡及び前記関節駆動部の駆動それぞれに対する上記報酬の重みのユーザー設定を、ユーザーによる操作部22の操作に応じて受け付ける。制御ユニット21は、記憶部24に記憶されている制御プログラムに従った上記プロセッサーによる動作により、更に設定受付部218としても機能する。但し、設定受付部218は、制御ユニット21による制御プログラムに基づく動作によらず、ハードウェア回路により構成することも可能である。
報酬計算部213Aは、設定受付部218が受け付けたユーザー設定の重みに従って、報酬rを計算する。例えば、アーム駆動部16(駆動モーター)による消費電力量の削減よりも、ロボットアーム11の動く距離を短くすること(つまり、作業時間を短くすること)をユーザーが優先したい場合は、重みw1を大きく設定すれば、数式1の1項目の変化量を捉えやすくなり、ユーザーの希望する行動価値関数を得ることが可能となる。
従って、上記第2実施形態によれば、個別の重み付け設定により、ユーザー好みの行動価値関数を得て、ロボットアーム11をユーザー好みに行動させることが可能となる。
ところで、学習部213による学習を継続すると、最新の行動価値関数(報酬テーブル)よりも、過去の報酬テーブルの方が、より適切なものであったとか、ユーザーの好みに合っていた、といったことが生じることが考えられる。
そこで、別の実施形態では、複数の報酬テーブルを報酬テーブル記憶部241で保存できるようにし、例えば、学習部213は、操作部22を介して報酬テーブルの保存のユーザー指示を受け付けると、その時に使用している報酬テーブルを、報酬テーブル記憶部241に保存させ、操作部22を介して過去の報酬テーブルの使用のユーザー指示を受け付けると、当該過去の報酬テーブルを使用するようにする。
学習部213によって十分な学習が行われ、行動価値関数(報酬テーブル)が収束していれば、それ以上、学習を行う必要はないが、ロボット10の作業環境が大きく変化した場合には、再学習を行うのが好ましい。例えば、温度や湿度が大きく変化すると、ロボット10を構成するハードウェアの特性が変わる場合があり、それまでの報酬テーブルではロボットアーム11の最適な行動が得られないおそれがある。
そこで、更なる別の実施形態では、作業環境検出部19として、温度センサーや湿度センサーを設け、ロボット10の電源をオフする時の温度や湿度を測定して保持しておき、ロボット10の電源をオンした時の温度や湿度と比較して、予め定められた閾値以上の差が生じている場合には、学習部213が再学習を行うようにする。
また、作業環境に応じた報酬テーブルを獲得し、作業環境それぞれに応じた報酬テーブルを報酬テーブル241に保存させておき、意思決定部214は、作業環境に応じた報酬テーブルを報酬テーブル記憶部241から読み出して、ロボットアーム11に行わせる行動を選択するようにしてもよい。
なお、上記実施形態では、ロボット制御装置20が本発明に係る学習装置を有する場合について説明しているが、学習装置を構成する各機能については、ロボット制御装置20に外付けされていてもよい。その場合には、ロボット制御装置20と学習装置とは、LANチップなどの通信モジュールを備えるインターフェイスを備え、互いにデータの送受信が可能となるように接続されるものとする。
本発明は上記実施の形態の構成に限られず種々の変形が可能である。また、上記実施形態では、図1乃至図5を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
1 ロボット制御システム
10 ロボット
11 ロボットアーム
12 関節
15 先端部
16 アーム駆動部
17 回転角検出部
20 ロボット制御装置
41 グリッパー
211 制御部
212 状態観測部
213 学習部
213A 報酬計算部
213B 関数更新部
215 行動計画部
218 設定受付部

Claims (7)

  1. 複数の関節を有し、三次元空間を自在に移動可能なロボットアームと、
    前記複数の関節それぞれに設けられた、前記関節を駆動する関節駆動部と、
    前記ロボットアームの位置を含む、当該ロボットアームの状態を検出する状態検出部と、
    温度センサー又は湿度センサーと、を備えるロボットの行動を学習する学習装置であって、
    前記状態検出部による検出結果に基づいて、前記ロボットアームの状態を観測する状態観測部と、
    予め設定された目標到達位置へ到達するまでの前記ロボットアームの行動過程において、前記状態観測部により観測される、ある時刻における前記ロボットアームの状態と、当該状態からの前記ロボットアームの行動と、当該行動後の前記ロボットアームの状態とを関連付けて、前記ロボットアームの行動を学習する学習部と、
    記憶部と、を備え、
    前記学習部は、
    前記ロボットアームの動いた軌跡、及び前記関節駆動部の駆動に応じて報酬を計算する報酬計算部と、
    前記報酬計算部により計算された前記報酬に基づいて、前記ロボットアームのある状態からある行動を選択する価値を示す行動価値関数を更新する関数更新部と、を備え
    前記学習部は、前記学習装置が前記温度センサーを備える場合には、前記ロボットの電源をオフする時に前記温度センサーが計測した第1温度を保持しておき、前記ロボットの電源をオンした時に前記温度センサーが計測した第2温度と前記第1温度との差が、予め定められた第1閾値以上である場合には、再学習を行ない、前記第2温度毎に、前記第2温度に応じた前記行動価値関数を前記記憶部に保存させ
    前記学習部は、前記学習装置が前記湿度センサーを備える場合には、前記ロボットの電源をオフする時に前記湿度センサーが計測した第1湿度を保持しておき、前記ロボットの電源をオンした時に前記湿度センサーが計測した第2湿度と前記第1湿度との差が、予め定められた第2閾値以上である場合には、再学習を行ない、前記第2湿度毎に、前記第2湿度に応じた前記行動価値関数を前記記憶部に保存させる学習装置。
  2. 前記状態観測部は、前記状態検出部による検出結果に基づいて、前記ロボットアームの先端部の位置を観測し、
    前記報酬計算部は、前記ロボットアームの前記先端部と前記目標到達位置との距離が短くなるにつれて、前記報酬を高くして前記計算を行う請求項1に記載の学習装置。
  3. 前記状態検出部は、前記関節駆動部それぞれのトルクを検出し、
    前記状態観測部は、前記状態検出部による検出結果に基づいて、前記関節駆動部それぞれのトルクを観測し、
    前記報酬計算部は、前記関節駆動部それぞれのトルクの総和が大きくなるにつれて、前記報酬を小さくして前記計算を行う請求項1又は請求項2に記載の学習装置。
  4. 前記報酬計算部は、前記関節駆動部の駆動時間が長くなるにつれて、前記報酬を小さくして前記計算を行う請求項1又は請求項2に記載の学習装置。
  5. 前記ロボットアームの動いた軌跡及び前記関節駆動部の駆動それぞれに対する前記報酬の重みのユーザー設定を受け付ける設定受付部を更に備え、
    前記報酬計算部は、前記設定受付部が受け付けたユーザー設定の重みに従って、前記報酬を計算する請求項1乃至請求項4のいずれかに記載の学習装置。
  6. 請求項1乃至請求項5のいずれかに記載の学習装置と、
    前記学習装置による学習結果に基づいて、前記ロボットアームに行わせる行動を選択する意思決定部と
    前記意思決定部による意思決定に基づいて、前記ロボットアームの行動を制御する指示部と、を備え、
    前記意思決定部は、前記第2温度又は前記第2湿度に応じた前記行動価値関数を前記記憶部から読み出して、前記指示部が前記ロボットアームに行わせる行動を選択する、ロボット制御装置。
  7. 請求項6に記載のロボット制御装置と、
    前記ロボットと、を備えるロボット制御システム。
JP2018224020A 2018-11-29 2018-11-29 学習装置、ロボット制御装置、及びロボット制御システム Active JP7247552B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018224020A JP7247552B2 (ja) 2018-11-29 2018-11-29 学習装置、ロボット制御装置、及びロボット制御システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018224020A JP7247552B2 (ja) 2018-11-29 2018-11-29 学習装置、ロボット制御装置、及びロボット制御システム

Publications (2)

Publication Number Publication Date
JP2020082314A JP2020082314A (ja) 2020-06-04
JP7247552B2 true JP7247552B2 (ja) 2023-03-29

Family

ID=70905484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018224020A Active JP7247552B2 (ja) 2018-11-29 2018-11-29 学習装置、ロボット制御装置、及びロボット制御システム

Country Status (1)

Country Link
JP (1) JP7247552B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
CN113326872A (zh) * 2021-05-19 2021-08-31 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
CN113684885B (zh) * 2021-08-19 2022-09-02 上海三一重机股份有限公司 作业机械控制方法、装置及作业机械

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016120549A (ja) 2014-12-24 2016-07-07 キヤノン株式会社 ロボット制御方法及びロボット制御装置
JP2018043338A (ja) 2016-09-16 2018-03-22 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
JP2018051664A (ja) 2016-09-27 2018-04-05 ファナック株式会社 最適な物品把持経路を学習する機械学習装置、及び機械学習方法
JP2018097810A (ja) 2016-12-16 2018-06-21 ファナック株式会社 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法
WO2018143003A1 (ja) 2017-01-31 2018-08-09 株式会社安川電機 ロボットパス生成装置及びロボットシステム
JP2018126798A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115511A (ja) * 1997-06-20 1999-01-22 Fanuc Ltd ロボットの衝突検知方式

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016120549A (ja) 2014-12-24 2016-07-07 キヤノン株式会社 ロボット制御方法及びロボット制御装置
JP2018043338A (ja) 2016-09-16 2018-03-22 ファナック株式会社 ロボットの動作プログラムを学習する機械学習装置,ロボットシステムおよび機械学習方法
JP2018051664A (ja) 2016-09-27 2018-04-05 ファナック株式会社 最適な物品把持経路を学習する機械学習装置、及び機械学習方法
JP2018097810A (ja) 2016-12-16 2018-06-21 ファナック株式会社 ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法
WO2018143003A1 (ja) 2017-01-31 2018-08-09 株式会社安川電機 ロボットパス生成装置及びロボットシステム
JP2018126798A (ja) 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム

Also Published As

Publication number Publication date
JP2020082314A (ja) 2020-06-04

Similar Documents

Publication Publication Date Title
JP7247552B2 (ja) 学習装置、ロボット制御装置、及びロボット制御システム
CN109002012B (zh) 控制装置以及机器学习装置
JP6810087B2 (ja) 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
US11701772B2 (en) Operation prediction system and operation prediction method
US10082771B2 (en) Machine learning method and machine learning apparatus learning operating command to electric motor and machine tool including machine learning apparatus
CN104858876B (zh) 机器人任务的可视调试
US20170249561A1 (en) Robot learning via human-demonstration of tasks with force and position objectives
CN108214485B (zh) 机器人控制装置、以及机器人控制方法
CN111433691B (zh) 控制系统、工厂系统、学习系统、估计用模型的生成方法和致动器的状态估计方法
JPWO2017033358A1 (ja) 複数のロボットシステム間の情報共有システム及び情報共有方法
JP6811465B2 (ja) 学習装置、学習方法、学習プログラム、自動制御装置、自動制御方法および自動制御プログラム
WO2019032814A1 (en) SYSTEM AND METHOD FOR DIRECT TEACHING TO A ROBOT
JP6811688B2 (ja) 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置
US11285602B2 (en) Adjustment support device
EP4082726A1 (en) Training data selection device, robot system, and training data selection method
US11059180B2 (en) Control device and machine learning device
CN112638596A (zh) 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法
CN114449970B (zh) 使用器具推断装置、方法以及手术辅助机器人
US20220032451A1 (en) Method for learning robot task and robot system using the same
CN109421049A (zh) 机器人系统
JP6490132B2 (ja) ロボットの制御装置、機械学習装置及び機械学習方法
CN113329850A (zh) 机器人控制系统和机器人控制方法
US20230241770A1 (en) Control device, control method and storage medium
JP7159525B2 (ja) ロボット制御装置、学習装置、及びロボット制御システム
JP6940425B2 (ja) 制御装置及び機械学習装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230227

R150 Certificate of patent or registration of utility model

Ref document number: 7247552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150