JP7354425B2 - データ駆動型ロボット制御 - Google Patents
データ駆動型ロボット制御 Download PDFInfo
- Publication number
- JP7354425B2 JP7354425B2 JP2022516123A JP2022516123A JP7354425B2 JP 7354425 B2 JP7354425 B2 JP 7354425B2 JP 2022516123 A JP2022516123 A JP 2022516123A JP 2022516123 A JP2022516123 A JP 2022516123A JP 7354425 B2 JP7354425 B2 JP 7354425B2
- Authority
- JP
- Japan
- Prior art keywords
- robot
- experience
- data
- task
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 claims description 85
- 238000012549 training Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 41
- 230000009471 action Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000272 proprioceptive effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241000009334 Singa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1661—Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Description
110 ポリシーニューラルネットワーク
112 ロボット
114 環境
120 ロボット経験データ
122 経験
130 アノテーションデータ
140 報酬モデル
150 訓練データ
170 人間のユーザ
Claims (14)
- コンピュータ実装方法であって、
環境とのロボットインタラクションを特徴づけるロボット経験データを保守するステップであって、前記ロボット経験データが、観測および前記観測に応じてそれぞれのロボットによって行われる行動を各々含む複数の経験を含む、保守するステップと、
前記ロボット経験データ中の前記経験の第1のサブセット内の各経験に、特定のタスクに対するそれぞれのタスク固有の報酬を割り当てるアノテーションデータを取得するステップと、
前記アノテーションデータ上で、入力観測を入力として受け取り、前記入力観測に割り当てられるべき、前記特定のタスクに対するタスク固有の報酬の予測である報酬予測を出力として生成する、報酬モデルを訓練するステップと、
複数の経験の各々を前記特定のタスクに対するタスク固有の報酬と関連付ける、前記特定のタスクに対するタスク固有の訓練データを生成するステップであって、前記ロボット経験データ中の前記経験の第2のサブセット内の各経験に対して、
報酬予測を生成するために、前記訓練された報酬モデルを使用して前記経験における前記観測を処理することと、
前記報酬予測を前記経験と関連付けることとを含む、生成するステップと、
前記特定のタスクに対する前記タスク固有の訓練データ上でポリシーニューラルネットワークを訓練するステップであって、前記ポリシーニューラルネットワークが、観測を含むネットワーク入力を受け取り、ロボットが前記特定のタスクを行うための制御ポリシーを定義するポリシー出力を生成するように構成される、訓練するステップと
を含む、方法。 - 前記訓練されたポリシーニューラルネットワークを使用して、ロボットが前記特定のタスクを行う間、前記ロボットを制御するステップ
をさらに含む、請求項1に記載の方法。 - ロボットが前記特定のタスクを行う間、前記ロボットを制御する際に使用する前記訓練されたポリシーニューラルネットワークを指定するデータを提供するステップ
をさらに含む、請求項1に記載の方法。 - 前記特定のタスクを行うために前記ポリシーニューラルネットワークを使用して前記ロボットを制御した結果として生成される経験を取得するステップと、
前記経験を前記ロボット経験データに追加するステップと
をさらに含む、請求項2または3のいずれか一項に記載の方法。 - 前記ロボット経験データが、複数の異なるタスクを行いながら複数のロボットのインタラクションから収集されたデータを含む、請求項1~4のいずれか一項に記載の方法。
- 前記ロボット経験データ中の前記経験が、前記複数の異なるタスクのいずれに対する報酬とも関連付けられない、請求項5に記載の方法。
- 経験データの前記第2のサブセットが、前記特定のタスクとは異なる1つまたは複数のタスクをロボットが行った結果として収集された、請求項5または6のいずれか一項に記載の方法。
- 前記ポリシーニューラルネットワークを訓練するステップが、オフポリシー強化学習技法を使用して前記ポリシーニューラルネットワークを訓練するステップを含む、請求項1~7のいずれか一項に記載の方法。
- 経験データの前記第1のサブセットが、ロボットが前記特定のタスクの1つまたは複数のエピソードを行うとき、収集されたデモンストレーション経験を含む、請求項1~8のいずれか一項に記載の方法。
- 前記ロボットが、前記特定のタスクの前記1つまたは複数のエピソードを行いながら、ユーザによって制御される、請求項9に記載の方法。
- アノテーションデータを取得するステップが、
ユーザへの提示のために、経験データの前記第1のサブセット内の前記経験の1つまたは複数の表現を提供するステップと、
前記ユーザから、前記1つまたは複数の経験に対する前記報酬を定義する入力を取得するステップと
を含む、請求項1~10のいずれか一項に記載の方法。 - 前記報酬モデルを訓練するステップが、同じタスクエピソードからの異なる経験間の報酬予測の差を測定するヒンジ損失関数を最適化するように前記報酬モデルを訓練するステップを含む、請求項1~11のいずれか一項に記載の方法。
- 1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1~12のいずれか一項に記載のそれぞれの方法を実行させるように動作可能な命令を記憶する1つまたは複数のストレージデバイスとを含む、システム。
- 1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、請求項1から12のいずれか一項に記載のそれぞれの方法を実行させる命令で符号化されたコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962900407P | 2019-09-13 | 2019-09-13 | |
US62/900,407 | 2019-09-13 | ||
PCT/EP2020/075609 WO2021048434A1 (en) | 2019-09-13 | 2020-09-14 | Data-driven robot control |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022548049A JP2022548049A (ja) | 2022-11-16 |
JP7354425B2 true JP7354425B2 (ja) | 2023-10-02 |
Family
ID=72752871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022516123A Active JP7354425B2 (ja) | 2019-09-13 | 2020-09-14 | データ駆動型ロボット制御 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11712799B2 (ja) |
EP (1) | EP4014165A1 (ja) |
JP (1) | JP7354425B2 (ja) |
KR (1) | KR20220054388A (ja) |
CN (1) | CN114761965A (ja) |
WO (1) | WO2021048434A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
CN113806512A (zh) * | 2021-09-30 | 2021-12-17 | 中国平安人寿保险股份有限公司 | 机器人对话模型的训练方法、装置、设备及存储介质 |
CN115319741B (zh) * | 2022-08-05 | 2023-10-10 | 美的集团(上海)有限公司 | 机器人控制模型的训练方法和机器人控制方法 |
CN116755397B (zh) * | 2023-05-26 | 2024-01-23 | 北京航空航天大学 | 一种基于图卷积策略梯度的多机协同任务调度方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018101035A1 (ja) | 2016-11-29 | 2018-06-07 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
US20190258918A1 (en) | 2016-11-03 | 2019-08-22 | Deepmind Technologies Limited | Training action selection neural networks |
US20190259051A1 (en) | 2016-11-04 | 2019-08-22 | Deepmind Technologies Limited | Environment prediction using reinforcement learning |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017189859A1 (en) * | 2016-04-27 | 2017-11-02 | Neurala, Inc. | Methods and apparatus for pruning experience memories for deep neural network-based q-learning |
US10766136B1 (en) * | 2017-11-03 | 2020-09-08 | Amazon Technologies, Inc. | Artificial intelligence system for modeling and evaluating robotic success at task performance |
KR102048365B1 (ko) * | 2017-12-11 | 2019-11-25 | 엘지전자 주식회사 | 인공지능을 이용한 이동 로봇 및 이동 로봇의 제어방법 |
US20190314983A1 (en) * | 2018-04-17 | 2019-10-17 | Sony Corporation | Recording medium, information processing apparatus, and information processing method |
US20200039064A1 (en) * | 2018-08-06 | 2020-02-06 | The Regents Of The University Of California | Low-Cost Compliant Robot Arm and System for Manipulation |
WO2020062002A1 (en) * | 2018-09-28 | 2020-04-02 | Intel Corporation | Robot movement apparatus and related methods |
US11292133B2 (en) * | 2018-09-28 | 2022-04-05 | Intel Corporation | Methods and apparatus to train interdependent autonomous machines |
US20200175406A1 (en) * | 2018-11-30 | 2020-06-04 | Silot Pte. Ltd. | Apparatus and methods for using bayesian program learning for efficient and reliable knowledge reasoning |
JP2020121381A (ja) * | 2019-01-31 | 2020-08-13 | セイコーエプソン株式会社 | 機械学習器、ロボットシステム、及び機械学習方法 |
US11430037B2 (en) * | 2019-09-11 | 2022-08-30 | Ebay Korea Co. Ltd. | Real time item listing modification |
-
2020
- 2020-09-14 WO PCT/EP2020/075609 patent/WO2021048434A1/en unknown
- 2020-09-14 EP EP20786464.6A patent/EP4014165A1/en active Pending
- 2020-09-14 JP JP2022516123A patent/JP7354425B2/ja active Active
- 2020-09-14 KR KR1020227010461A patent/KR20220054388A/ko unknown
- 2020-09-14 CN CN202080064205.XA patent/CN114761965A/zh active Pending
- 2020-09-14 US US17/020,294 patent/US11712799B2/en active Active
-
2023
- 2023-06-08 US US18/331,632 patent/US20240042600A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190258918A1 (en) | 2016-11-03 | 2019-08-22 | Deepmind Technologies Limited | Training action selection neural networks |
US20190259051A1 (en) | 2016-11-04 | 2019-08-22 | Deepmind Technologies Limited | Environment prediction using reinforcement learning |
WO2018101035A1 (ja) | 2016-11-29 | 2018-06-07 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
Non-Patent Citations (1)
Title |
---|
AGARWAL, R. et al.,Learning to Generalize from Sparse and Underspecified Rewards,arXiv.org [online],2019年05月31日,[検索日 2023.07.03], インターネット:<URL:https://arxiv.org/pdf/1902.07198v4.pdf>,<DOI:10.48550/arXiv.1902.07198> |
Also Published As
Publication number | Publication date |
---|---|
CN114761965A (zh) | 2022-07-15 |
WO2021048434A1 (en) | 2021-03-18 |
US20240042600A1 (en) | 2024-02-08 |
US11712799B2 (en) | 2023-08-01 |
KR20220054388A (ko) | 2022-05-02 |
EP4014165A1 (en) | 2022-06-22 |
JP2022548049A (ja) | 2022-11-16 |
US20210078169A1 (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7354425B2 (ja) | データ駆動型ロボット制御 | |
US11741334B2 (en) | Data-efficient reinforcement learning for continuous control tasks | |
US20210110115A1 (en) | Selecting actions using multi-modal inputs | |
US10635944B2 (en) | Self-supervised robotic object interaction | |
US11627165B2 (en) | Multi-agent reinforcement learning with matchmaking policies | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
EP3776364A1 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
US20230256593A1 (en) | Off-line learning for robot control using a reward prediction model | |
US11842277B2 (en) | Controlling agents using scene memory data | |
US20230330846A1 (en) | Cross-domain imitation learning using goal conditioned policies | |
EP3970071A1 (en) | Reinforcement learning with centralized inference and training | |
US20220076099A1 (en) | Controlling agents using latent plans |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220510 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7354425 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |