JP2020034994A - 強化学習装置 - Google Patents
強化学習装置 Download PDFInfo
- Publication number
- JP2020034994A JP2020034994A JP2018158391A JP2018158391A JP2020034994A JP 2020034994 A JP2020034994 A JP 2020034994A JP 2018158391 A JP2018158391 A JP 2018158391A JP 2018158391 A JP2018158391 A JP 2018158391A JP 2020034994 A JP2020034994 A JP 2020034994A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- action
- control target
- learning
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Manipulator (AREA)
Abstract
【課題】強化学習装置において、アクションライブラリ内の行動の数やその組み合わせが多くなる場合であっても、学習に要する時間を短くできるようにする。【解決手段】強化学習装置は、制御対象の最終目標と現在の状態を入力する状態入力部と、制御対象の行動により生じる状態変化の良し悪しを表す報酬を決定する環境部と、学習部を備える。学習部は、アクションライブラリと、アクションライブラリの中から制御対象の行動を選択する行動選択部と、選択された行動にて制御対象を動作させる制御部と、状態入力部からの入力に基づき、環境部から得られる報酬が明らかに悪くなる不要行動を特定する情報を有し、その情報に基づき行動選択部にて不要行動が選択されるのを無効化する判定部と、を備える。【選択図】図1
Description
本開示は、ロボットなどの制御対象の最適な行動を学習する強化学習装置に関する。
従来、ロボットの関節、マニピュレータ、センサなど、制御対象各部の動きを「アクション」として定義し、各アクションを順次実行することで、制御対象の目標状態への最適な行動を探索するよう構成された強化学習装置が知られている。
また、この種の強化学習装置においては、特許文献1に記載のように、制御対象各部の動きを表す基本アクションに加えて、複数の基本アクションを同時に行う複合アクションを定義することで、アクションライブラリを拡張することも提案されている。
つまり、特許文献1では、制御対象の行動を学習する際に、基本アクションと複合アクションとを組み合わせて順次実行することで、複合アクションにて、より短時間で実現可能な行動を探索できるようにしている。
また、特許文献1では、学習の結果、合理的でない又は実施不可能であると判定された複合アクションを、アクションライブラリから削除することで、その後の学習に用いられる複合アクションの数を減らすことも提案されている。
上記提案の強化学習装置では、学習時に合理的でない又は実施不可能であると判断された複合アクションを、アクションライブラリから削除するので、その後の学習時の計算量を低減して、学習に要する時間を短縮することができる。
しかし、上記提案の強化学習装置において、学習の初期段階では、アクションライブラリ内の基本アクション及び複合アクションが全て利用される。また、アクションライブラリから削除されるのは、学習時に合理的でない又は実施不可能であると判断された複合アクションだけであり、基本アクションについては、学習時に全て利用される。
従って、例えば、ロボットにより多品種少量生産を行う場合など、アクションライブラリにアクションとして登録される行動の数が多い場合には、学習時のアクションライブラリの探索範囲が広くなり、学習に要する時間が長くなる、という問題があった。
また、この問題は、アクションライブラリ内の行動の数が多い場合だけでなく、作業工程が複雑で、多くのアクションの積み重ねが必要な場合や、複数台で協調作業をするためにアクションの組み合わせが膨大になる場合などにも、同様に発生する。
本開示の一局面では、制御対象の最適な行動を学習する強化学習装置において、アクションライブラリ内の行動の数やその組み合わせが多くなる場合であっても、学習に要する時間を短くできるようにすることが望ましい。
本開示の一局面の強化学習装置においては、制御対象の最終目標と現在の状態をそれぞれ入力する状態入力部(20)と、制御対象の行動により生じる状態変化の良し悪しを表す報酬を決定する環境部(10)と、学習部(30)とを備える。
また、学習部は、制御対象にて実現可能な全行動が定義されたアクションライブラリ(32)、状態入力部から入力された現在の状態から最終目標に向けて制御対象を移動させるための行動をアクションライブラリ内の全行動の中から選択する行動選択部(34)、及び、行動選択部にて選択された行動にて制御対象を動作させる制御部(36)、を備え、制御部が制御対象を動作させることによって環境部から得られる報酬がよくなるように行動選択部の選択動作を学習する。
そして、更に、学習部には、状態入力部からの入力に基づき、環境部から得られる報酬が明らかに悪くなる不要行動を特定する情報を有し、その情報に基づき、行動選択部にて不要行動が選択されるのを無効化する判定部(38)、が備えられている。
従って、本開示の強化学習装置によれば、学習部において、行動選択部が、状態入力部からの入力に基づき、アクションライブラリの中から行動を選択する際の、アクションライブラリの探索範囲を制限することができる。
このため、本開示の強化学習装置によれば、アクションライブラリ内の行動の数やその組み合わせが多くなる場合であっても、学習に要する時間を短くすることができる。
なお、判定部が不要アクションを特定するのに用いる情報は、制御対象を現在の状態から最終目標に向けて移動させる際の行動として、正解になり得ない行動を特定するための情報であり、設計者が予め設定するようにすればよい。
なお、判定部が不要アクションを特定するのに用いる情報は、制御対象を現在の状態から最終目標に向けて移動させる際の行動として、正解になり得ない行動を特定するための情報であり、設計者が予め設定するようにすればよい。
なお、この欄及び特許請求の範囲に記載した括弧内の符号は、一つの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本発明の技術的範囲を限定するものではない。
以下に本開示の実施形態を図面と共に説明する。
本実施形態の強化学習装置1は、ロボットなどの制御対象の最適な行動を強化学習によって取得するための装置であり、図1に示すように、環境部10と、状態入力部20と、学習部30とを備える。
本実施形態の強化学習装置1は、ロボットなどの制御対象の最適な行動を強化学習によって取得するための装置であり、図1に示すように、環境部10と、状態入力部20と、学習部30とを備える。
なお、図1に示す環境部10、状態入力部20、及び、学習部30は、コンピュータが学習機能を有するプログラムを実行することにより具現化される機能ブロックであり、強化学習装置1は、コンピュータにて構成されている。
環境部10は、本実施形態では、制御対象がモデル化されて各部の動きを再現する所謂シミュレータにて構成されており、制御対象の行動によって変化した環境(状態)とその結果の良し悪しを表す報酬とを決定する。
なお、環境部10は、ロボットなどの実機を各種アクチュエータで動作させて、その動きをセンサやカメラで計測することで、制御対象の行動によって変化した状態と、その行動の良し悪しを表す報酬を、コンピュータにて算出するように構成されていてもよい。
次に、状態入力部20は、制御対象の行動により実現すべき最終目標を認識する目標認識部22と、制御対象の現在の状態を認識する現状認識部24と、を備える。
目標認識部22は、使用者が入力してくる数値データや画像データから、例えば、ロボットにより組み立てられる装置の最終形状など、制御対象の最終目標を認識し、学習部30に入力する。
目標認識部22は、使用者が入力してくる数値データや画像データから、例えば、ロボットにより組み立てられる装置の最終形状など、制御対象の最終目標を認識し、学習部30に入力する。
また、現状認識部24は、環境部10から制御対象の現在の状態を表すデータを取得することで、制御対象の現在の状態を認識し、学習部30に入力する。
次に、学習部30は、学習の主体となる所謂エージェントであり、アクションライブラリ32と、行動選択部34と、制御部36と、判定部38と、を備える。
次に、学習部30は、学習の主体となる所謂エージェントであり、アクションライブラリ32と、行動選択部34と、制御部36と、判定部38と、を備える。
アクションライブラリ32は、制御対象にて実現可能な全行動が行動毎に定義された、全行動のデータベースであり、コンピュータのメモリに記憶されている。
そして、行動選択部34は、状態入力部20の目標認識部22及び現状認識部24からの入力に基づき、制御対象を現在の状態から最終目標に向けて動作させるための行動を、アクションライブラリ32に記憶された行動の中から選択する。
そして、行動選択部34は、状態入力部20の目標認識部22及び現状認識部24からの入力に基づき、制御対象を現在の状態から最終目標に向けて動作させるための行動を、アクションライブラリ32に記憶された行動の中から選択する。
また制御部36は、行動選択部34にて選択された行動にて、制御対象を動作させるためのものであり、そのための指令(行動X)を環境部10に出力する。なお、環境部10が、ロボットなどの実機を含む場合、制御部36は、実機に設けられたモータなどの各種アクチュエータを駆動することで、制御対象を動作させる。
次に、判定部38は、状態入力部20からの入力に基づき、アクションライブラリ32内の全行動の内、環境部10から得られる報酬が明らかに悪くなる不要行動を特定するための情報を備え、行動選択部34にて不要行動が選択されるのを無効化する。
この結果、学習部30において、行動選択部34が、アクションライブラリ32の中から制御対象の行動を選択する際の、アクションライブラリの探索範囲を制限して、不要行動が選択されるのを抑制することができる。
なお、判定部38において、不要行動を特定するための情報は、設計者により設定され、アクションライブラリ32と同様、コンピュータのメモリに予め記憶されている。
また、この情報は、現状認識部24から入力される制御対象の状態毎に、不要行動を特定可能なデータベースとして構成される。但し、制御対象となるロボットを利用して多品種生産を行う場合には、目標認識部22から入力される最終目標が製品毎に異なることから、この情報は、最終目標毎に、不要行動を特定可能なデータベースとして構成されていてもよい。
また、この情報は、現状認識部24から入力される制御対象の状態毎に、不要行動を特定可能なデータベースとして構成される。但し、制御対象となるロボットを利用して多品種生産を行う場合には、目標認識部22から入力される最終目標が製品毎に異なることから、この情報は、最終目標毎に、不要行動を特定可能なデータベースとして構成されていてもよい。
次に、学習部30において、行動選択部34がアクションライブラリ32から行動を選択して制御部36が制御対象を動作させる際の一連の動作を、図2に示すフローチャートに沿って説明する。
図2に示すように、学習部30においては、まずS110にて、状態入力部20から制御対象の最終目標及び現在の状態をそれぞれ取得する。
そして、続くS120では、その取得データ、詳しくは、制御対象の現在の状態及び最終目標の少なくとも一方、に基づき、アクションライブラリ32内の全行動の内、報酬が明らかに悪くなる不要行動を特定し、無効化する、判定部38としての処理を実行する。
そして、続くS120では、その取得データ、詳しくは、制御対象の現在の状態及び最終目標の少なくとも一方、に基づき、アクションライブラリ32内の全行動の内、報酬が明らかに悪くなる不要行動を特定し、無効化する、判定部38としての処理を実行する。
なお、S120にて、不要行動を無効化することにより、次にアクションライブラリ32の中から行動を選択する際の、アクションライブラリ32の探索範囲が制限されることになる。
そして、続くS130では、S110にて取得した制御対象の最終目標及び現在の状態に基づき、S120の処理により探索範囲が制限されたアクションライブラリ32の中から、制御対象の次の行動を選択する、行動選択部34としての処理を実行する。
次に、S140では、S130で選択された行動を制御対象に実施させる指令(行動X)を環境部10に出力することで、制御対象を動作させる、制御部36としての処理を実行する。
すると、環境部10では、制御対象の行動により、制御対象の状態が変化するので、その状態変化が検出されると共に、その状態変化の良し悪しを表す報酬が算出される。
このため、続くS150では、環境部10から報酬を取得して、今回の行動と関連づけてメモリに記憶し、その後、再度S110に移行することで、上記一連の動作を繰り返し実行する。
このため、続くS150では、環境部10から報酬を取得して、今回の行動と関連づけてメモリに記憶し、その後、再度S110に移行することで、上記一連の動作を繰り返し実行する。
そして、学習部30では、上記一連の動作によって得られる報酬が大きくなるよう、行動選択部34における各状態に対する行動の選択動作を更新することで、制御対象の最適な行動を学習する。
以上説明したように、本実施形態の強化学習装置1においては、学習部30において、状態入力部20からの入力に基づき行動を選択する際、不要行動が選択されることのないように、アクションライブラリ32の探索範囲を制限することができる。
このため、本実施形態の強化学習装置1によれば、アクションライブラリ32内の行動の数やその組み合わせが多くなる場合であっても、学習に要する時間を短くすることができる。
ところで、本実施形態の学習部30を、ニューラルネットワークにて構成する場合には、図3に示すように、ニューラルネットワークの出力層に、アクションライブラリ32の全行動を設定すればよい。なお、図では、説明を簡単にするため、アクションライブラリ32内の全行動の数が「5」とされている。
そして、判定部38は、設計者により予め設定された不要行動のデータベースに従い、ニューラルネットワークの出力層の全行動の一部を、無効化するようにすればよい。
つまり、例えば、制御対象が状態1であるときには、図3Aに示すように、出力層の全行動の内、下方の2つを不要行動として無効化することで、上方の3つを探索範囲として設定する。
つまり、例えば、制御対象が状態1であるときには、図3Aに示すように、出力層の全行動の内、下方の2つを不要行動として無効化することで、上方の3つを探索範囲として設定する。
また、例えば、制御対象が状態2であるときには、図3Bに示すように、出力層の全行動の内、上方の2つを不要行動として無効化することで、下方の3つを探索範囲として設定する。
従って、学習部30をニューラルネットワークにて構成しても、本開示の技術を適用して、学習に要する時間を短縮することができるようになる。
なお、この場合、学習部30の学習アルゴリズムを、Q学習アルゴリズムにした場合、状態毎に制限される探索範囲内の行動の中で、Q値が最も大きくなる行動が、学習結果として選択されて、制御対象の制御に利用されることになる。
なお、この場合、学習部30の学習アルゴリズムを、Q学習アルゴリズムにした場合、状態毎に制限される探索範囲内の行動の中で、Q値が最も大きくなる行動が、学習結果として選択されて、制御対象の制御に利用されることになる。
次に、図4に示すように、本実施形態の強化学習装置1を、多種多様な目標形状を再現するロボットの行動計画部として利用する場合には、ロボットの最終目標となる目標形状に応じて、ロボットの行動の探索範囲を制限するようにしてもよい。
つまり、一つのロボットを用いて多種多様な目標形状を再現する場合、各目標形状を実現するのに利用される部品が異なるため、ロボットの周囲には、全ての目標形状を再現可能な全ての部品が配置されることになる。
例えば、目標形状1、2を順に再現する場合、ロボットの周囲には、目標形状1を再現するのに必要な部品A,F,D,Gと、目標形状2を再現するのに必要な部品H,C,Bと、目標形状1、2を再現するのには不要な部品Eが配置されることがある。
この場合、強化学習装置を中心に構成される行動計画部にて、目標形状1、2を順に再現する際のロボットの行動を設定する際には、通常、ロボットの周囲に配置された全部品A〜Hの中から必要な部品を順次選択して目標形状1、2を再現するように、ロボットの行動を学習させる。
しかし、このようにすると、目標形状1を再現するための行動の学習時にも、目標形状2を再現するための行動の学習時にも、ロボットの周囲に配置された全部品A〜Hが探索対象となることから、学習に要する時間が長くなる。
つまり、ロボットの周囲に配置される部品の数がN個である場合、ランダム試行で正解を獲得できる確率は1/Nとなるため、部品の数Nが大きいほど、目標形状1、2をそれぞれ再現するためには、探索に多くのイテレーションが必要となり、時間がかかる。
従って、この学習に要する時間を短くするには、目標形状1を再現するためのロボットの最適な行動を学習する際に、目標形状1を再現するのに不要な部品H,C,B,Eは選択しないように、学習時のロボットの行動の探索範囲を制限するとよい。
同様に、目標形状2を再現するためのロボットの最適な行動を学習する際には、目標形状2を再現するのに不要な部品A,F,D,Gは選択しないように、学習時のロボットの行動の探索範囲を制限するとよい。
これに対し、本実施形態の強化学習装置1によれば、判定部38により、行動選択部34が行動を選択する際のアクションライブラリ32の探索範囲を制限することができる。
従って、ロボットに多種多様な目標形状を再現させる際には、設計者が、目標形状毎に、不要な行動を無効化するための情報を設定して、判定部38に記憶させることで、学習に要する時間を短くすることができるようになる。
従って、ロボットに多種多様な目標形状を再現させる際には、設計者が、目標形状毎に、不要な行動を無効化するための情報を設定して、判定部38に記憶させることで、学習に要する時間を短くすることができるようになる。
以上、本開示の一実施形態について説明したが、本開示の強化学習装置は、上記実施形態に限定されるものではなく、種々変形して実施することができる。
[変形例]
例えば、ロボットなどの制御対象は、行動選択部34にて選択された行動にて動作させた場合、制御対象周囲の障害物や壁などに当たり、動作が制限されることがある。
[変形例]
例えば、ロボットなどの制御対象は、行動選択部34にて選択された行動にて動作させた場合、制御対象周囲の障害物や壁などに当たり、動作が制限されることがある。
このように、レイアウト上の制約により、物理的動作限度が存在する場合には、例えば、ロボットの関節の角度など、制御対象各部の動作位置を取得して、その動作位置が物理的動作限度に達することのないよう、行動選択部の動作を制限できるようにするとよい。
そして、このためには、図5に示す強化学習装置2のように、学習部30に、制御対象各部の物理的動作限度を表す情報が記憶された動作限度記憶部39を設け、状態入力部20に制御対象各部の動作位置を環境部10から取得する位置取得部26を設けるとよい。
なお、動作限度記憶部39に記憶される動作限度は、制御対象周囲の空間の環境によって決まり、この環境は、制御対象をモデル化した環境部10から取得することができる。このため、動作限度記憶部39に記憶される動作限度は、制御対象のモデルから予め設定するようにしてもよく、或いは、環境部10から取得するようにしてもよい。
また、位置取得部26は、例えば、ロボットの関節など、制御対象各部の動作位置を環境部から取得し、学習部30の判定部38に入力するよう構成する。
そして、判定部38は、位置取得部26にて取得された制御対象各部の動作位置が、動作限度記憶部39に記憶された物理的動作限度に接近若しくは到達しているときに、行動選択部34による行動の選択範囲を制限するように構成する。
そして、判定部38は、位置取得部26にて取得された制御対象各部の動作位置が、動作限度記憶部39に記憶された物理的動作限度に接近若しくは到達しているときに、行動選択部34による行動の選択範囲を制限するように構成する。
つまり、学習部30においては、図6に示すように、S120の処理を実行した後、S122に移行して、位置取得部26を介して、制御対象各部の動作位置を検出する。
そして、続くS124にて、S122で検出した動作位置が動作限度記憶部39に記憶された物理的動作限度に到達しているか否かを判断し、動作位置が物理的動作限度に到達していると判断されると、S126に移行する。
そして、続くS124にて、S122で検出した動作位置が動作限度記憶部39に記憶された物理的動作限度に到達しているか否かを判断し、動作位置が物理的動作限度に到達していると判断されると、S126に移行する。
S126では、S124にて動作位置が物理的動作限度に到達していると判断された部分が、物理的動作限度から離れるように、行動選択部34が行動を選択する際のアクションライブラリ32の探索範囲を制限し、S130に移行する。
また、S124にて、制御対象各部の動作位置は、物理的動作限度に到達していないと判断された場合には、S130に移行する。
そして、S130では、S122及びS126にて制限された探索範囲内でアクションライブラリ32から制御対象の次の行動を選択し、S140、S150の処理を実行した後、S110に移行する。
そして、S130では、S122及びS126にて制限された探索範囲内でアクションライブラリ32から制御対象の次の行動を選択し、S140、S150の処理を実行した後、S110に移行する。
このように、本変形例の強化学習装置2においては、制御対象各部の動作位置が物理的動作限度に到達していると判断すると、行動選択部34がアクションライブラリ32から次の行動を選択する際の探索範囲を、物理的動作限度から離れるように制限する。
従って、本変形例の強化学習装置2によれば、上記実施形態の強化学習装置1に比べ、行動選択部34によるアクションライブラリ32の探索範囲を、より良好に制限することができる。従って、学習部30における学習動作をより効率よく実施して、学習に要する時間を短くすることができる。
なお、S124においては、制御対象各部の動作位置が、物理的動作限度から所定量離れた近傍位置に到達しているか否かを判断することにより、制御対象各部の動作位置が物理的動作限度に接近したか否かを判断するようにしてもよい。
また次に、上記実施形態及び変形例の説明では、強化学習装置1,2は、ロボットの最適な行動を学習することを例にとり説明したが、本開示の技術は、制御対象の最適な行動を学習する装置であれば適用できる。例えば、自動車などの移動体の行動を学習する装置であっても上記と同様に適用して、同様の効果を得ることができる。
また、上記実施形態における1つの構成要素が有する複数の機能を、複数の構成要素によって実現したり、1つの構成要素が有する1つの機能を、複数の構成要素によって実現したりしてもよい。また、複数の構成要素が有する複数の機能を、1つの構成要素によって実現したり、複数の構成要素によって実現される1つの機能を、1つの構成要素によって実現したりしてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加又は置換してもよい。なお、特許請求の範囲に記載した文言のみによって特定される技術思想に含まれるあらゆる態様が本発明の実施形態である。
1,2…強化学習装置、10…環境部、20…状態入力部、22…目標認識部、24…現状認識部、26…位置取得部、30…学習部、32…アクションライブラリ、34…行動選択部、36…制御部、38…判定部、39…動作限度記憶部。
Claims (2)
- 制御対象の最終目標と現在の状態をそれぞれ入力する状態入力部(20)と、
前記制御対象の行動により生じる状態変化の良し悪しを表す報酬を決定する環境部(10)と、
前記制御対象にて実現可能な全行動が定義されたアクションライブラリ(32)、前記状態入力部から入力された現在の状態から前記最終目標に向けて前記制御対象を移動させるための行動を前記アクションライブラリ内の全行動の中から選択する行動選択部(34)、及び、該行動選択部にて選択された行動にて前記制御対象を動作させる制御部(36)、を備え、前記制御部が前記制御対象を動作させることによって前記環境部から得られる報酬がよくなるように前記行動選択部の選択動作を学習するよう構成された学習部(30)と、
を備え、更に、前記学習部は、前記状態入力部からの入力に基づき、前記環境部から得られる報酬が明らかに悪くなる不要行動を特定する情報を有し、該情報に基づき、前記行動選択部にて前記不要行動が選択されるのを無効化する判定部(38)、を備えている、強化学習装置。 - 前記制御対象各部の動作位置を取得する位置取得部(16)と、
前記制御対象各部の物理的動作限度を表す情報が記憶された動作限度記憶部(39)と、
を備え、
前記判定部は、前記位置取得部にて取得された前記制御対象各部の動作位置が、前記動作限度記憶部に記憶された物理的動作限度に接近若しくは到達しているか否かを判定し、前記制御対象の動作位置が前記物理的動作限度に接近若しくは到達しているときには、前記行動選択部が、前記制御対象の動作位置が前記物理的動作限度から離れる結果をもたらす行動を選択するよう、前記行動選択部の動作を制限する、
ように構成されている、請求項1に記載の強化学習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158391A JP2020034994A (ja) | 2018-08-27 | 2018-08-27 | 強化学習装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158391A JP2020034994A (ja) | 2018-08-27 | 2018-08-27 | 強化学習装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020034994A true JP2020034994A (ja) | 2020-03-05 |
Family
ID=69668122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018158391A Pending JP2020034994A (ja) | 2018-08-27 | 2018-08-27 | 強化学習装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020034994A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102346900B1 (ko) * | 2021-08-05 | 2022-01-04 | 주식회사 애자일소다 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04261790A (ja) * | 1991-02-15 | 1992-09-17 | Fujitsu Ltd | 関節型ロボットの制御装置 |
WO2018042730A1 (ja) * | 2016-08-30 | 2018-03-08 | 本田技研工業株式会社 | ロボットの制御装置およびロボットの制御方法 |
-
2018
- 2018-08-27 JP JP2018158391A patent/JP2020034994A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04261790A (ja) * | 1991-02-15 | 1992-09-17 | Fujitsu Ltd | 関節型ロボットの制御装置 |
WO2018042730A1 (ja) * | 2016-08-30 | 2018-03-08 | 本田技研工業株式会社 | ロボットの制御装置およびロボットの制御方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102346900B1 (ko) * | 2021-08-05 | 2022-01-04 | 주식회사 애자일소다 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107263464B (zh) | 机器学习装置、机械系统、制造系统以及机器学习方法 | |
US10571896B2 (en) | Natural machine interface system | |
US9108316B2 (en) | Method and system for in-production optimization of the parameters of a robot used for assembly | |
US20170153611A1 (en) | Control parameter tuning device, control parameter tuning method, control parameter tuning program | |
Kilinc et al. | Reinforcement learning for robotic manipulation using simulated locomotion demonstrations | |
JP2023541149A (ja) | ロボット制御方法、装置、機器、及びプログラム | |
JP2022063240A (ja) | 自己学習システムを用いて工作機械上での機械加工をシミュレーションするための方法及び装置 | |
JP2010179454A5 (ja) | ||
JP7259860B2 (ja) | ロボットの経路決定装置、ロボットの経路決定方法、プログラム | |
JP2020034994A (ja) | 強化学習装置 | |
JP2009125920A (ja) | ロボットの作業動作最適化装置 | |
WO2020054345A1 (ja) | 電子制御装置、ニューラルネットワーク更新システム | |
Meriçli et al. | Multi-resolution corrective demonstration for efficient task execution and refinement | |
JP2020095539A (ja) | 障害物回避モデル生成方法、障害物回避モデル生成装置、および障害物回避モデル生成プログラム | |
CN116601647A (zh) | 演化模仿学习 | |
Liu et al. | Learning visual path–following skills for industrial robot using deep reinforcement learning | |
JPWO2022013933A5 (ja) | 制御装置、制御方法及びプログラム | |
JP2023541264A (ja) | 自動化された機械学習方法及びその装置 | |
JP7095467B2 (ja) | 訓練データ評価装置、訓練データ評価方法、およびプログラム | |
JPWO2019142728A1 (ja) | 制御装置、制御方法およびプログラム | |
US11597079B2 (en) | Robot apparatus, robot system, robot control method, and storage medium | |
JP7351672B2 (ja) | 移動経路生成装置 | |
US20200201268A1 (en) | System and method for guiding a sensor around an unknown scene | |
JP2022026106A5 (ja) | モデル生成方法、探索プログラム及びモデル生成装置 | |
Kunert et al. | Generating of Task-Based Controls for Joint-Arm Robots with Simulation-based Reinforcement Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210318 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221004 |