JP7398373B2 - 制御装置、システム、制御方法、及びプログラム - Google Patents
制御装置、システム、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP7398373B2 JP7398373B2 JP2020529025A JP2020529025A JP7398373B2 JP 7398373 B2 JP7398373 B2 JP 7398373B2 JP 2020529025 A JP2020529025 A JP 2020529025A JP 2020529025 A JP2020529025 A JP 2020529025A JP 7398373 B2 JP7398373 B2 JP 7398373B2
- Authority
- JP
- Japan
- Prior art keywords
- policy
- control
- information
- environment
- information regarding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000004088 simulation Methods 0.000 claims description 83
- 230000007613 environmental effect Effects 0.000 claims description 51
- 230000006399 behavior Effects 0.000 claims description 22
- 230000002787 reinforcement Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/42—Recording and playback systems, i.e. in which the programme is recorded from a cycle of operations, e.g. the cycle of operations being manually controlled, after which this record is played back on the same machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39298—Trajectory learning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40515—Integration of simulation and planning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Manipulator (AREA)
Description
まず、本実施の形態の一例における学習システム1の全体構成について、図1を参照しながら説明する。図1は、本実施の形態の一例における学習システム1の全体構成の一例を示す図である。
次に、本実施の形態の一例における学習装置10のハードウェア構成について、図3を参照しながら説明する。図3は、本実施の形態の一例における学習装置10のハードウェア構成の一例を示す図である。
次に、本実施の形態の一例における学習装置10の機能構成について、図4を参照しながら説明する。図4は、本実施の形態の一例における学習装置10の機能構成の一例を示す図である。
以降では、本実施の形態における学習システム1による学習処理について、図5を参照しながら説明する。図5は、本実施の形態における学習処理の一例を示すフローチャートである。
以上のように、本実施の形態における学習システム1では、シミュレーション環境での学習と、実環境での学習とを、Curriculum learningによりタスクの複雑度を高くしながら、所定の順序で繰り返し行う。このとき、シミュレーション環境ではロボット30がタスクを実現するための動作(いわゆるプランニング)を学習させて、実環境では当該動作を実現するために必要な駆動部(例えばアクチュエータ等)の制御値を学習させる。すなわち、本実施の形態における学習システム1では、シミュレーション環境での方策πsimに用いられる行動価値関数と、環境での方策πrealに用いられる行動価値関数とでそれぞれ異なるニューラルネットワークを用いる。また、本実施の形態における学習システム1では、実環境での学習結果をシミュレーション環境に反映する。
10 学習装置
20 制御装置
30 ロボット
40 センサ
101 シミュレーション学習部
102 実機学習部
103 複雑化部
104 利得判定部
111 環境情報取得部
112 行動決定部
113 行動実行部
114 方策更新部
115 出力部
121 環境情報取得部
122 行動決定部
123 制御値計算部
124 ロボット制御部
125 方策更新部
126 出力部
Claims (29)
- 少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
実環境における環境情報を取得することと、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得することと、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得することと、
前記第2の情報に基づいて、前記制御対象を制御することと、
を実行し、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記第2の方策は、少なくとも前記実環境における複数の制御対象のいずれか1つの制御結果に基づいて更新されたものであり、
前記第1の方策及び前記第2の方策は、それぞれ異なるニューラルネットワークを用いて表現される、
制御装置。 - 少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
実環境における環境情報を取得することと、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得することと、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得することと、
前記第2の情報に基づいて、前記制御対象を制御することと、
を実行し、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサは、更に、
前記シミュレーション環境における環境情報を取得することと、
前記シミュレーション環境における環境情報及び前記第1の方策に基づいて、前記仮想の制御対象の制御に関する第3の情報を取得することと、
前記第3の情報に基づいて、前記仮想の制御対象を制御することと、
前記仮想の制御対象の制御結果に基づいて、前記第1の方策を更新することと、
を実行する、
制御装置。 - 少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
実環境における環境情報を取得することと、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得することと、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得することと、
前記第2の情報に基づいて、前記制御対象を制御することと、
前記制御対象の制御結果に基づいて、前記第2の方策を更新することと、
を実行し、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサは、
前記第1の方策を更新した後、前記第2の方策を更新することと、
前記第2の方策を更新した後、前記第1の方策を更新することと、
を実行する、
制御装置。 - 少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
実環境における環境情報を取得することと、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得することと、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得することと、
前記第2の情報に基づいて、前記制御対象を制御することと、
前記制御対象の制御結果に基づいて、前記第2の方策を更新することと、
を実行し、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサは、
第1のタスクを用いて前記第2の方策を更新した後、前記第1のタスクより複雑度が高い第2のタスクを用いて前記第2の方策を更新すること、
を実行する、
制御装置。 - 少なくとも1つのメモリと、
少なくとも1つのプロセッサと、を備え、
前記少なくとも1つのプロセッサは、
実環境における環境情報を取得することと、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得することと、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得することと、
前記第2の情報に基づいて、前記制御対象を制御することと、
前記制御対象の制御結果に基づいて、前記第2の方策を更新することと、
を実行し、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサは、
第1のタスクを用いて前記第1の方策を更新した後、前記第1のタスクより複雑度が高い第2のタスクを用いて前記第1の方策を更新すること、
を実行する、
制御装置。 - 前記第2の方策は、少なくとも前記実環境における複数の制御対象のいずれか1つを用いて更新されたものである、
請求項2乃至請求項5のいずれか1項に記載の制御装置。 - 前記第1の方策及び前記第2の方策は、それぞれ異なるニューラルネットワークを用いて表現される、
請求項2乃至請求項6のいずれか1項に記載の制御装置。 - 前記第1の情報は、前記制御対象の行動に関する情報であり、
前記第2の情報は、前記制御対象が前記行動を実現するための制御値に関する情報である、
請求項1乃至請求項7のいずれか1項に記載の制御装置。 - 前記行動に関する情報は、前記制御対象の駆動部のトルク値に関する情報である、
請求項8に記載の制御装置。 - 前記制御値に関する情報は、前記制御対象の駆動部の電流値に関する情報である、
請求項8又は請求項9に記載の制御装置。 - 前記行動は、少なくとも二足歩行及び物体の把持のいずれかを実現するためのものである、
請求項8乃至請求項10のいずれか1項に記載の制御装置。 - 前記第1の方策及び前記第2の方策は、深層強化学習を用いて更新されたものである、
請求項1乃至請求項11のいずれか1項に記載の制御装置。 - 前記環境情報は、少なくとも、前記実環境における画像及び前記制御対象の駆動部の計測値のいずれか1つに関する情報を含む、
請求項1乃至請求項12のいずれか1項に記載の制御装置。 - 請求項1乃至請求項13のいずれか1項に記載の制御装置と、
前記環境情報を取得するためのセンサと、
前記制御対象と、
を備えるシステム。 - 少なくとも1つのプロセッサが、
実環境における環境情報を取得し、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得し、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得し、
前記第2の情報に基づいて、前記制御対象を制御する、
制御方法であって、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記第2の方策は、少なくとも前記実環境における複数の制御対象のいずれか1つの制御結果に基づいて更新されたものであり、
前記第1の方策及び前記第2の方策は、それぞれ異なるニューラルネットワークを用いて表現される、
制御方法。 - 少なくとも1つのプロセッサが、
実環境における環境情報を取得し、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得し、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得し、
前記第2の情報に基づいて、前記制御対象を制御する、
制御方法であって、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサが、更に、
前記シミュレーション環境における環境情報を取得し、
前記シミュレーション環境における環境情報及び前記第1の方策に基づいて、前記仮想の制御対象の制御に関する第3の情報を取得し、
前記第3の情報に基づいて、前記仮想の制御対象を制御し、
前記仮想の制御対象の制御結果に基づいて、前記第1の方策を更新する、
制御方法。 - 少なくとも1つのプロセッサが、
実環境における環境情報を取得し、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得し、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得し、
前記第2の情報に基づいて、前記制御対象を制御し、
前記制御対象の制御結果に基づいて、前記第2の方策を更新する、
制御方法であって、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサが、
前記第1の方策を更新した後、前記第2の方策を更新し、
前記第2の方策を更新した後、前記第1の方策を更新する、
制御方法。 - 少なくとも1つのプロセッサが、
実環境における環境情報を取得し、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得し、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得し、
前記第2の情報に基づいて、前記制御対象を制御し、
前記制御対象の制御結果に基づいて、前記第2の方策を更新する、
制御方法であって、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサが、
第1のタスクを用いて前記第2の方策を更新した後、前記第1のタスクより複雑度が高い第2のタスクを用いて前記第2の方策を更新する、
制御方法。 - 少なくとも1つのプロセッサが、
実環境における環境情報を取得し、
前記環境情報及び第1の方策に基づいて、前記実環境の制御対象の制御に関する第1の情報を取得し、
前記第1の情報及び第2の方策に基づいて、前記制御対象の制御に関する第2の情報を取得し、
前記第2の情報に基づいて、前記制御対象を制御し、
前記制御対象の制御結果に基づいて、前記第2の方策を更新する、
制御方法であって、
前記第1の方策は、シミュレーション環境における仮想の制御対象を用いて更新されたものであり、
前記少なくとも1つのプロセッサが、
第1のタスクを用いて前記第1の方策を更新した後、前記第1のタスクより複雑度が高い第2のタスクを用いて前記第1の方策を更新する、
制御方法。 - 前記第2の方策は、少なくとも前記実環境における複数の制御対象のいずれか1つを用いて更新されたものである、
請求項16乃至請求項19のいずれか1項に記載の制御方法。 - 前記第1の方策及び前記第2の方策は、それぞれ異なるニューラルネットワークを用いて表現される、
請求項16乃至請求項20のいずれか1項に記載の制御方法。 - 前記第1の情報は、前記制御対象の行動に関する情報であり、
前記第2の情報は、前記制御対象が前記行動を実現するための制御値に関する情報である、
請求項15乃至請求項21のいずれか1項に記載の制御方法。 - 前記行動に関する情報は、前記制御対象の駆動部のトルク値に関する情報である、
請求項22に記載の制御方法。 - 前記制御値に関する情報は、前記制御対象の駆動部の電流値に関する情報である、
請求項22又は請求項23に記載の制御方法。 - 前記行動は、少なくとも二足歩行及び物体の把持のいずれかを実現するためのものである、
請求項22乃至請求項24のいずれか1項に記載の制御方法。 - 前記第1のタスク及び前記第2のタスクは二足歩行であって、前記第2のタスクの歩行速度は前記第1のタスクの歩行速度より速い、
請求項18又は請求項19に記載の制御方法。 - 前記第1の方策及び前記第2の方策は、深層強化学習を用いて更新される、
請求項15乃至請求項26のいずれか1項に記載の制御方法。 - 前記第2の方策を用いて、前記第1の方策を更新する、
請求項15乃至請求項27のいずれか1項に記載の制御方法。 - 請求項15乃至請求項28のいずれか1項に記載の制御方法を、前記少なくとも1つのプロセッサに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018127803 | 2018-07-04 | ||
JP2018127803 | 2018-07-04 | ||
PCT/JP2019/026414 WO2020009139A1 (ja) | 2018-07-04 | 2019-07-03 | 学習方法、学習装置、学習システム及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2020009139A1 JPWO2020009139A1 (ja) | 2021-07-08 |
JPWO2020009139A5 JPWO2020009139A5 (ja) | 2022-07-12 |
JP7398373B2 true JP7398373B2 (ja) | 2023-12-14 |
Family
ID=69059532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020529025A Active JP7398373B2 (ja) | 2018-07-04 | 2019-07-03 | 制御装置、システム、制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210107144A1 (ja) |
JP (1) | JP7398373B2 (ja) |
WO (1) | WO2020009139A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580795B (zh) * | 2019-09-29 | 2024-09-06 | 华为技术有限公司 | 一种神经网络的获取方法以及相关设备 |
TWI757999B (zh) * | 2020-12-04 | 2022-03-11 | 國立陽明交通大學 | 即時避障系統、即時避障方法及具有即時避障功能的無人載具 |
CN112363402B (zh) * | 2020-12-21 | 2021-05-14 | 杭州未名信科科技有限公司 | 基于模型相关强化学习的足式机器人的步态训练方法、装置、电子设备及介质 |
JP7538756B2 (ja) * | 2021-03-18 | 2024-08-22 | 株式会社東芝 | データ生成装置、データ生成方法、制御装置、制御方法及びプログラム |
KR102346900B1 (ko) * | 2021-08-05 | 2022-01-04 | 주식회사 애자일소다 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178492A (ja) | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | 強化学習法を用いたプラントシミュレーション方法 |
JP2004322224A (ja) | 2003-04-21 | 2004-11-18 | Yaskawa Electric Corp | ロボット制御装置 |
JP2014211667A (ja) | 2013-04-17 | 2014-11-13 | 日本電信電話株式会社 | ロボット協調搬送計画装置、方法及びプログラム |
CN106228314A (zh) | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
JP2017030137A (ja) | 2015-07-31 | 2017-02-09 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
JP2017030135A (ja) | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
JP2017185577A (ja) | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
JP2017211913A (ja) | 2016-05-27 | 2017-11-30 | 日本電信電話株式会社 | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム |
US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8554370B2 (en) * | 2009-05-15 | 2013-10-08 | Honda Motor Co., Ltd | Machine learning approach for predicting humanoid robot fall |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US9358685B2 (en) * | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
US9630318B2 (en) * | 2014-10-02 | 2017-04-25 | Brain Corporation | Feature detection apparatus and methods for training of robotic navigation |
WO2017197018A2 (en) * | 2016-05-10 | 2017-11-16 | Trustees Of Tufts College | Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems |
CN115338859A (zh) * | 2016-09-15 | 2022-11-15 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
WO2018071392A1 (en) * | 2016-10-10 | 2018-04-19 | Deepmind Technologies Limited | Neural networks for selecting actions to be performed by a robotic agent |
EP3595850A1 (en) * | 2017-04-17 | 2020-01-22 | Siemens Aktiengesellschaft | Mixed reality assisted spatial programming of robotic systems |
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
US11688160B2 (en) * | 2018-01-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
US11709462B2 (en) * | 2018-02-12 | 2023-07-25 | Adobe Inc. | Safe and efficient training of a control agent |
KR102619004B1 (ko) * | 2018-12-14 | 2023-12-29 | 삼성전자 주식회사 | 로봇 장치 및 로봇의 작업 기술을 학습하는 방법 |
US11768504B2 (en) * | 2020-06-10 | 2023-09-26 | AI Incorporated | Light weight and real time slam for robots |
US20220143821A1 (en) * | 2020-11-11 | 2022-05-12 | Sony Interactive Entertainment Inc. | Method for robotic training based on randomization of surface stiffness |
-
2019
- 2019-07-03 WO PCT/JP2019/026414 patent/WO2020009139A1/ja active Application Filing
- 2019-07-03 JP JP2020529025A patent/JP7398373B2/ja active Active
-
2020
- 2020-12-23 US US17/132,164 patent/US20210107144A1/en active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178492A (ja) | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | 強化学習法を用いたプラントシミュレーション方法 |
JP2004322224A (ja) | 2003-04-21 | 2004-11-18 | Yaskawa Electric Corp | ロボット制御装置 |
JP2014211667A (ja) | 2013-04-17 | 2014-11-13 | 日本電信電話株式会社 | ロボット協調搬送計画装置、方法及びプログラム |
JP2017030137A (ja) | 2015-07-31 | 2017-02-09 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
JP2017030135A (ja) | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
JP2017064910A (ja) | 2015-07-31 | 2017-04-06 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
JP2017185577A (ja) | 2016-04-04 | 2017-10-12 | ファナック株式会社 | シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法 |
JP2017211913A (ja) | 2016-05-27 | 2017-11-30 | 日本電信電話株式会社 | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム |
CN106228314A (zh) | 2016-08-11 | 2016-12-14 | 电子科技大学 | 基于深度增强学习的工作流调度方法 |
US20180165602A1 (en) | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020009139A1 (ja) | 2021-07-08 |
US20210107144A1 (en) | 2021-04-15 |
WO2020009139A1 (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7398373B2 (ja) | 制御装置、システム、制御方法、及びプログラム | |
US11429854B2 (en) | Method and device for a computerized mechanical device | |
US11886997B2 (en) | Training action selection neural networks using apprenticeship | |
Fu et al. | One-shot learning of manipulation skills with online dynamics adaptation and neural network priors | |
US11458630B2 (en) | Mitigating reality gap through simulating compliant control and/or compliant contact in robotic simulator | |
CN110355751B (zh) | 控制装置和机器学习装置 | |
US8725294B2 (en) | Controlling the interactive behavior of a robot | |
Tan et al. | Simulation-based design of dynamic controllers for humanoid balancing | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
Colomé et al. | A friction-model-based framework for reinforcement learning of robotic tasks in non-rigid environments | |
JP5225720B2 (ja) | ロボットのモーションの発生及び制御のための装置ならびに方法 | |
US20200104685A1 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
US11759947B2 (en) | Method for controlling a robot device and robot device controller | |
TWI802820B (zh) | 機器人控制裝置、方法和儲存媒體 | |
Sievers et al. | Learning purely tactile in-hand manipulation with a torque-controlled hand | |
US11790042B1 (en) | Mitigating reality gap through modification of simulated state data of robotic simulator | |
CN111783250B (zh) | 柔性机器人末端抵达控制方法、电子设备和存储介质 | |
CN110799308B (zh) | 利用耐噪声结构化探索确定对于机器人的控制策略 | |
US11631028B2 (en) | Method of updating policy for controlling action of robot and electronic device performing the method | |
US10556336B1 (en) | Determining robot inertial properties | |
Sutanto et al. | Learning sensor feedback models from demonstrations via phase-modulated neural networks | |
JPWO2020009139A5 (ja) | 制御装置、システム、制御方法、方策更新方法、及び生成方法 | |
JP7336856B2 (ja) | 情報処理装置、方法及びプログラム | |
Singh et al. | Mc-Mujoco: simulating articulated robots with FSM controllers in MuJoCo | |
WO2021186500A1 (ja) | 学習装置、学習方法、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7398373 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |