JP2023024296A - ピックアンドプレイスシステムのための深層強化学習装置及び方法 - Google Patents
ピックアンドプレイスシステムのための深層強化学習装置及び方法 Download PDFInfo
- Publication number
- JP2023024296A JP2023024296A JP2022110447A JP2022110447A JP2023024296A JP 2023024296 A JP2023024296 A JP 2023024296A JP 2022110447 A JP2022110447 A JP 2022110447A JP 2022110447 A JP2022110447 A JP 2022110447A JP 2023024296 A JP2023024296 A JP 2023024296A
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- pick
- robots
- robot
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000033001 locomotion Effects 0.000 claims abstract description 35
- 238000004088 simulation Methods 0.000 claims abstract description 18
- 230000009471 action Effects 0.000 claims description 45
- 238000009877 rendering Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 14
- 230000003111 delayed effect Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1682—Dual arm manipulator; Coordination of several manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1687—Assembly, peg and hole, palletising, straight line, weaving pattern movement
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/39—Robotics, robotics to robotics hand
- G05B2219/39106—Conveyor, pick up article, object from conveyor, bring to test unit, place it
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Manipulator (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Numerical Control (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
Abstract
Description
110:レンダリングエンジン
111:コア部
112:ROS #
113:ML-エージェント
114:WebGL
120:強化学習エージェント
130:制御エンジン
140:環境
200、200a、200b:ロボット
300:コンベヤーベルト
400:物体
Claims (11)
- 提供されたアクション(Action)に対して一つ以上のロボット(200、200a、200b)のパーキング位置と配置位置間の経路を要請し、受信したロボット(200、200a、200b)の動きによる経路に基づいてシミュレーションを行い、強化学習に用いられる状態(State)情報と報酬(Reward)情報を提供するレンダリングエンジン(110)、
前記レンダリングエンジン(110)から提供された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボット(200、200a、200b)の動きが最適化するようにアクションを決定する強化学習エージェント(120)、及び
前記アクションに基づいてロボット(200、200a、200b)が動くように制御し、前記レンダリングエンジン(110)の要請に対応してロボット(200、200a、200b)の動きによる経路情報を前記レンダリングエンジン(110)に提供する制御エンジン(130)、を含み、
前記強化学習エージェント(120)は、ロボット(200、200a、200b)の現在状態と選択可能な物体400の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定することを特徴とする、ピックアンドプレイスシステムのための深層強化学習装置。 - 前記ロボット(200、200a、200b)の動きによる経路情報は、実際環境でロボット(200、200a、200b)が動いた経路及びあらかじめ保存されたシミュレータープログラム上でロボット(200、200a、200b)が動いた経路のいずれか一つであることを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
- 前記レンダリングエンジン(110)は、ウェブ(Web)を通じて視覚化する応用プログラムがさらに設置されたことを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
- 前記強化学習エージェント(120)は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
- 前記強化学習エージェント(120)は、シミュレーション上の不確実性と動く物体400を考慮するためのLSTM(Long Short Term Memory)レイヤを備えたことを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
- 前記強化学習エージェント(120)は、最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項1に記載のピックアンドプレイスシステムのための深層強化学習装置。
- a)強化学習エージェント(120)が、強化学習に用いられるアクションに対する状態情報と報酬情報をレンダリングエンジン(110)に要請して収集する段階、
b)強化学習エージェント(120)が、前記収集された状態情報と報酬情報を用いたエピソードに基づいて深層強化学習を行ってロボット(200、200a、200b)の動きが最適化するようにアクションを決定する段階、
c)前記レンダリングエンジン(110)が決定されたアクションを出力すると、制御エンジン(130)が前記アクションに基づいてロボット(200、200a、200b)が動くように制御する段階、及び
d)前記レンダリングエンジン(110)がロボット(200、200a、200b)の経路情報を受信し、動きによる経路に基づいてシミュレーションを行う段階、を含み、
前記b)段階は、ロボット(200、200a、200b)の現在状態と選択可能な物体400の情報によって、特定ロボットに任意の物体を把持するかを割り振るアクションを決定することを特徴とする、ピックアンドプレイスシステムのための深層強化学習方法。 - 前記a)段階で収集される情報は、一つ以上のロボット(200、200a、200b)のパーキング位置と配置位置間の経路を含むロボット(200、200a、200b)の動き情報であることを特徴とする、請求項7に記載のピックアンドプレイスシステムのための深層強化学習方法。
- 前記b)段階は、報酬が遅延(Delay)することに対応して遅延報酬(Delayed Reward)処理を行うことを特徴とする、請求項7に記載のピックアンドプレイスシステムのための深層強化学習方法。
- 前記b)段階は、強化学習エージェント(120)が最も短いピックアンドプレイス時間周期を生成する確率値を有する個体を選択するように学習することを特徴とする、請求項7に記載のピックアンドプレイスシステムのための深層強化学習方法。
- 前記c)段階は、制御エンジン(130)が実際環境でロボット(200、200a、200b)及びあらかじめ保存されたシミュレータープログラム上でロボット(200、200a、200b)が動くように制御し、それに対応する動き経路を抽出することを特徴とする、請求項7に記載のピックアンドプレイスシステムのための深層強化学習方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210103263A KR102346900B1 (ko) | 2021-08-05 | 2021-08-05 | 픽 앤 플레이스 시스템을 위한 심층 강화학습 장치 및 방법 |
KR10-2021-0103263 | 2021-08-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023024296A true JP2023024296A (ja) | 2023-02-16 |
JP7398830B2 JP7398830B2 (ja) | 2023-12-15 |
Family
ID=79342648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022110447A Active JP7398830B2 (ja) | 2021-08-05 | 2022-07-08 | ピックアンドプレイスシステムのための深層強化学習装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230040623A1 (ja) |
JP (1) | JP7398830B2 (ja) |
KR (1) | KR102346900B1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102464963B1 (ko) * | 2022-05-25 | 2022-11-10 | 주식회사 애자일소다 | 데이터 기반의 물체 위치 최적화를 위한 강화학습 장치 |
KR102458105B1 (ko) * | 2022-06-21 | 2022-10-25 | 주식회사 애자일소다 | 다중 에이전트 기반의 경로 설정 강화학습 장치 및 방법 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09131683A (ja) * | 1995-11-10 | 1997-05-20 | Fanuc Ltd | 複数のロボットにトラッキング動作を行なわせるための視覚センサ・ロボットシステム |
JP2002157571A (ja) * | 2000-11-20 | 2002-05-31 | Fujitsu Ltd | 問題解決器、及び記憶媒体 |
JP2010207989A (ja) * | 2009-03-11 | 2010-09-24 | Honda Motor Co Ltd | 対象物の把持システム及び同システムにおける干渉検出方法 |
JP2012111029A (ja) * | 2010-11-19 | 2012-06-14 | Fanuc Robotics America Corp | 3次元ロボットワークセルデータの表示システム、表示方法及び表示装置 |
JP2013000860A (ja) * | 2011-06-20 | 2013-01-07 | Yaskawa Electric Corp | ピッキングシステム |
JP2016516224A (ja) * | 2013-02-18 | 2016-06-02 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | グラフィックス処理ユニットのためのハードウェアによるコンテンツ保護 |
JP2017030135A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
US20180129974A1 (en) * | 2016-11-04 | 2018-05-10 | United Technologies Corporation | Control systems using deep reinforcement learning |
WO2018110314A1 (ja) * | 2016-12-16 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2018126802A (ja) * | 2017-02-06 | 2018-08-16 | ファナック株式会社 | ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法 |
JP2019219981A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社日立製作所 | 施策探索装置、方法、およびプログラム |
WO2020009139A1 (ja) * | 2018-07-04 | 2020-01-09 | 株式会社Preferred Networks | 学習方法、学習装置、学習システム及びプログラム |
JP2020044638A (ja) * | 2018-09-21 | 2020-03-26 | トヨタ自動車株式会社 | 制御装置、その処理方法及びプログラム |
JP2020110894A (ja) * | 2019-01-16 | 2020-07-27 | 株式会社エクサウィザーズ | 学習済モデル生成装置、ロボット制御装置、及び、プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109906132B (zh) | 2016-09-15 | 2022-08-09 | 谷歌有限责任公司 | 机器人操纵的深度强化学习 |
JP2020034994A (ja) * | 2018-08-27 | 2020-03-05 | 株式会社デンソー | 強化学習装置 |
JP6904327B2 (ja) * | 2018-11-30 | 2021-07-14 | オムロン株式会社 | 制御装置、制御方法、及び制御プログラム |
-
2021
- 2021-08-05 KR KR1020210103263A patent/KR102346900B1/ko active IP Right Grant
-
2022
- 2022-07-08 JP JP2022110447A patent/JP7398830B2/ja active Active
- 2022-07-18 US US17/867,001 patent/US20230040623A1/en active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09131683A (ja) * | 1995-11-10 | 1997-05-20 | Fanuc Ltd | 複数のロボットにトラッキング動作を行なわせるための視覚センサ・ロボットシステム |
JP2002157571A (ja) * | 2000-11-20 | 2002-05-31 | Fujitsu Ltd | 問題解決器、及び記憶媒体 |
JP2010207989A (ja) * | 2009-03-11 | 2010-09-24 | Honda Motor Co Ltd | 対象物の把持システム及び同システムにおける干渉検出方法 |
JP2012111029A (ja) * | 2010-11-19 | 2012-06-14 | Fanuc Robotics America Corp | 3次元ロボットワークセルデータの表示システム、表示方法及び表示装置 |
JP2013000860A (ja) * | 2011-06-20 | 2013-01-07 | Yaskawa Electric Corp | ピッキングシステム |
JP2016516224A (ja) * | 2013-02-18 | 2016-06-02 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | グラフィックス処理ユニットのためのハードウェアによるコンテンツ保護 |
JP2017030135A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
US20180129974A1 (en) * | 2016-11-04 | 2018-05-10 | United Technologies Corporation | Control systems using deep reinforcement learning |
WO2018110314A1 (ja) * | 2016-12-16 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2018126802A (ja) * | 2017-02-06 | 2018-08-16 | ファナック株式会社 | ワークの取り出し動作を改善するワーク取り出し装置およびワーク取り出し方法 |
JP2019219981A (ja) * | 2018-06-21 | 2019-12-26 | 株式会社日立製作所 | 施策探索装置、方法、およびプログラム |
WO2020009139A1 (ja) * | 2018-07-04 | 2020-01-09 | 株式会社Preferred Networks | 学習方法、学習装置、学習システム及びプログラム |
JP2020044638A (ja) * | 2018-09-21 | 2020-03-26 | トヨタ自動車株式会社 | 制御装置、その処理方法及びプログラム |
JP2020110894A (ja) * | 2019-01-16 | 2020-07-27 | 株式会社エクサウィザーズ | 学習済モデル生成装置、ロボット制御装置、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7398830B2 (ja) | 2023-12-15 |
US20230040623A1 (en) | 2023-02-09 |
KR102346900B1 (ko) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Billard et al. | Learning from humans | |
JP7398830B2 (ja) | ピックアンドプレイスシステムのための深層強化学習装置及び方法 | |
Sadeghi et al. | Sim2real viewpoint invariant visual servoing by recurrent control | |
Sadeghi et al. | Sim2real view invariant visual servoing by recurrent control | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
JP6671694B1 (ja) | 機械学習装置、機械学習システム、データ処理システム及び機械学習方法 | |
JP2013193202A (ja) | 人間援助型タスクデモンストレーションを使用してロボットを訓練するための方法およびシステム | |
JP2022061022A (ja) | 力及びトルク誘導ロボット組立のための技術 | |
Dimeas et al. | Towards progressive automation of repetitive tasks through physical human-robot interaction | |
Liu et al. | Intention Recognition in Physical Human‐Robot Interaction Based on Radial Basis Function Neural Network | |
Hodson | A gripping problem | |
Sidiropoulos et al. | A human inspired handover policy using gaussian mixture models and haptic cues | |
CN114932555A (zh) | 机械臂协同作业系统及机械臂控制方法 | |
Martins et al. | rsoccer: A framework for studying reinforcement learning in small and very small size robot soccer | |
Arana-Arexolaleiba et al. | Transferring human manipulation knowledge to industrial robots using reinforcement learning | |
Liu et al. | An augmented reality-assisted interaction approach using deep reinforcement learning and cloud-edge orchestration for user-friendly robot teaching | |
US12032343B2 (en) | Control system for controlling a machine using a control agent with parallel training of the control agent | |
Liu et al. | Sim-and-real reinforcement learning for manipulation: A consensus-based approach | |
US20230311323A1 (en) | Methods and systems for improving controlling of a robot | |
Scheiderer et al. | Effects of domain randomization on simulation-to-reality transfer of reinforcement learning policies for industrial robots | |
Beik Mohammadi et al. | Mixed-reality deep reinforcement learning for a reach-to-grasp task | |
Lemos et al. | Navigation robot training with Deep Q-Learning monitored by Digital Twin | |
Nambiar et al. | Automation of unstructured production environment by applying reinforcement learning | |
Gomes et al. | Deep Reinforcement learning applied to a robotic pick-and-place application | |
Zeng et al. | AHEGC: Adaptive Hindsight Experience Replay With Goal-Amended Curiosity Module for Robot Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20220804 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7398830 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |