JP6695170B2 - ロボットの動作を改善する方法 - Google Patents
ロボットの動作を改善する方法 Download PDFInfo
- Publication number
- JP6695170B2 JP6695170B2 JP2016038697A JP2016038697A JP6695170B2 JP 6695170 B2 JP6695170 B2 JP 6695170B2 JP 2016038697 A JP2016038697 A JP 2016038697A JP 2016038697 A JP2016038697 A JP 2016038697A JP 6695170 B2 JP6695170 B2 JP 6695170B2
- Authority
- JP
- Japan
- Prior art keywords
- actions
- action
- original
- robot
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/40—Robotics, robotics mapping to robotics vision
- G05B2219/40499—Reinforcement learning algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
Description
モーション:この場合、ロボットアクチュエータを用いて環境が操作され、あるいはロボットが移動される。
実現可能性は、アクションの組合せがロボットの制約条件を満たしているということだけで判断されるのではなく、関連する状況に対してその複合アクションが有用であるか否かをも考慮しなければならない。このことは、生成された複合アクションを追加した後のアクションライブラリに基づいて新しい制御ポリシーを学習することにより評価され得る。学習そのものは、すでに述べたように、最新の強化学習テクニックを用いて実行される。図4は、学習プロセスが開始されたときの初期テーブルであり得るテーブルを示している。使用されるQ学習アルゴリズムは、複合アクションを学習するためいくつかの特別な態様を考慮しなければならない。
Q学習は、開拓ステップ(exploitation step)の際に最高のQ値を持つアクションを選択するので、本アルゴリズムは、新しい複合アクションの探索に集中するように強制され、学習速度が大幅に改善される。強化学習ステップの結果は、以前の既存のアクションと、(可能であれば)いくつかの複合アクションと、を用いる制御ポリシーである。すなわち、ポリシーは、どのアクションが実現可能であるかについての情報を含むのみならず、それらを使用し得る状況についての情報も含む。
Claims (7)
- 予め定義されたアクションのセットに基づいて作動される少なくとも一つのロボットの動作を改善する方法であって、
−アクションライブラリ(6)に保存されているオリジナルアクションのセットのうちの少なくとも2つであって、前記ロボットにより実行されるべき最適なアクションの順が示された制御ポリシーによって順次実行されることとなる2つのアクションを組み合わせて、少なくとも2つのアクションが並行して実行される複合アクション(S1、S3)を生成するステップと、
−前記オリジナルアクションに加えて前記複合アクションをアクションライブラリ(6)に保存するステップと、
−生成された複合アクションを追加した後の前記アクションライブラリ(6)内に現在保存されているアクションのセットにアクションの順次実行よりもアクションの並行実行が好ましいと評価する報酬関数を用いた強化学習アルゴリズムを適用して、前記オリジナルアクションと前記複合アクションとを用いる新しい制御ポリシーを学習するステップと、
−前記強化学習アルゴリズムを適用することにより、使用しないことに決定された前記複合アクションを、前記アクションライブラリ(6)から削除して、結果として得られたアクションライブラリを生成し、
−前記結果として得られたアクションライブラリ(6)と、前記強化学習アルゴリズムを適用して学習した前記新しい制御ポリシーと、に基づいて、ロボット(10、15.1、15.2)を作動させるステップと、
を有する方法。 - 前記複合アクションは、少なくとも2つのオリジナルアクションの組み合わせであり、そのような組み合わせは、前記アクションライブラリ(6)の全てのオリジナルアクションのうちのオリジナルアクションの、全ての可能なペアについて実行される(S1)、
ことを特徴とする、請求項1に記載の方法。 - どの複合アクションが不可能かを決定し、それら不可能な複合アクションを前記ライブラリに保存することを行わない、
ことを特徴とする、請求項2に記載の方法。 - 前記オリジナルアクションと前記複合アクションとを含むアクションの前記セットについての制御ポリシーの学習が、前記強化学習アルゴリズムを適用することにより実行される(S4)際に、前記オリジナルアクションのみに基づいて生成された制御ポリシー(S2)についての知識が使用される、
ことを特徴とする、請求項1ないし3のいずれか一項に記載の方法。 - 前記強化学習アルゴリズムの適用のため、複合アクション及び又はより速いタスク達成を良しとする報酬関数が用いられる、
ことを特徴とする、請求項1ないし4のいずれか一項に記載の方法。 - 少なくとも、前記複合アクションを生成するステップ(S1、S3)、前記複合アクションを保存するステップ、及び強化学習アルゴリズムを適用するステップ(S4)が、シミュレーションとして実行される、
ことを特徴とする、請求項1ないし5のいずれか一項に記載の方法。 - 少なくとも、前記複合アクションを生成するステップ(S1、S3)、前記複合アクシ
ョンを保存するステップ、及び強化学習アルゴリズムを適用するステップ(S4)は、複数回実行され、各繰り返し実行の際に、結果として得られたアクションライブラリ(6)のすべてのアクションが、次の繰り返し実行のためのオリジナルアクションを構成する、
ことを特徴とする、請求項1ないし6のいずれか一項に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15162447.5A EP3075496B1 (en) | 2015-04-02 | 2015-04-02 | Method for improving operation of a robot |
EP15162447.5 | 2015-04-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016196079A JP2016196079A (ja) | 2016-11-24 |
JP6695170B2 true JP6695170B2 (ja) | 2020-05-20 |
Family
ID=52824077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016038697A Active JP6695170B2 (ja) | 2015-04-02 | 2016-03-01 | ロボットの動作を改善する方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10279474B2 (ja) |
EP (1) | EP3075496B1 (ja) |
JP (1) | JP6695170B2 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9358685B2 (en) * | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
JP6907856B2 (ja) | 2016-10-04 | 2021-07-21 | 信越化学工業株式会社 | (メタ)アクリル酸トリイソプロピルシリルと(メタ)アクリル酸誘導体の共重合体およびその製造方法 |
JP6457473B2 (ja) * | 2016-12-16 | 2019-01-23 | ファナック株式会社 | ロボットおよびレーザスキャナの動作を学習する機械学習装置,ロボットシステムおよび機械学習方法 |
US10453345B2 (en) | 2017-01-30 | 2019-10-22 | International Business Machines Corporation | Autonomous presentation of a self-driving vehicle |
US11568236B2 (en) | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
JP6933167B2 (ja) * | 2018-03-14 | 2021-09-08 | オムロン株式会社 | ロボットの制御装置 |
US11235467B2 (en) * | 2018-04-23 | 2022-02-01 | University Of Southern California | System and method for trajectory planning for manipulators in robotic finishing applications |
US11000950B2 (en) * | 2018-06-01 | 2021-05-11 | X Development Llc | Robotic motion planning |
WO2020047657A1 (en) | 2018-09-04 | 2020-03-12 | Kindred Systems Inc. | Real-time real-world reinforcement learning systems and methods |
US11292133B2 (en) * | 2018-09-28 | 2022-04-05 | Intel Corporation | Methods and apparatus to train interdependent autonomous machines |
JP2021033685A (ja) | 2019-08-26 | 2021-03-01 | 株式会社デンソー | 学習プログラム及び学習方法 |
WO2021037869A1 (en) | 2019-08-28 | 2021-03-04 | Ventana Medical Systems, Inc. | Assessing antigen retrieval and target retrieval progression quantitation with vibrational spectroscopy |
EP4022287A1 (en) | 2019-08-28 | 2022-07-06 | Ventana Medical Systems, Inc. | Systems and methods for assessing specimen fixation duration and quality using vibrational spectroscopy |
EP4022286A1 (en) | 2019-08-28 | 2022-07-06 | Ventana Medical Systems, Inc. | Label-free assessment of biomarker expression with vibrational spectroscopy |
CN110658829B (zh) * | 2019-10-30 | 2021-03-30 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
JP7452657B2 (ja) * | 2020-07-14 | 2024-03-19 | 日本電気株式会社 | 制御装置、制御方法及びプログラム |
KR102386009B1 (ko) * | 2020-07-30 | 2022-04-13 | 네이버랩스 주식회사 | 로봇 작업의 학습 방법 및 로봇 시스템 |
CN112297005B (zh) * | 2020-10-10 | 2021-10-22 | 杭州电子科技大学 | 一种基于图神经网络强化学习的机器人自主控制方法 |
JP7480670B2 (ja) * | 2020-10-19 | 2024-05-10 | オムロン株式会社 | 動作計画装置、動作計画方法、及び動作計画プログラム |
CN112580582B (zh) * | 2020-12-28 | 2023-03-24 | 达闼机器人股份有限公司 | 动作学习方法、装置、介质及电子设备 |
US11999060B2 (en) | 2020-12-28 | 2024-06-04 | Cloudminds Robotics Co., Ltd. | Action learning method, medium, and electronic device |
CN117697763A (zh) * | 2024-01-23 | 2024-03-15 | 北京智源人工智能研究院 | 一种基于大模型的双臂操作任务学习方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5367449A (en) * | 1992-05-27 | 1994-11-22 | Michael Manthey | Artificial intelligence system |
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
JP2000122992A (ja) * | 1998-08-12 | 2000-04-28 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP4525477B2 (ja) * | 2005-02-23 | 2010-08-18 | ソニー株式会社 | 学習制御装置および学習制御方法、並びに、プログラム |
US8265789B2 (en) | 2007-12-03 | 2012-09-11 | Electronics And Telecommunications Research Institute | Network-based robot system and method for action execution of robot |
WO2013049633A1 (en) * | 2011-09-28 | 2013-04-04 | Causata Inc. | Online asynchronous reinforcement learning from concurrent customer histories |
JP2013242761A (ja) * | 2012-05-22 | 2013-12-05 | Internatl Business Mach Corp <Ibm> | マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム |
US9434072B2 (en) * | 2012-06-21 | 2016-09-06 | Rethink Robotics, Inc. | Vision-guided robots and methods of training them |
US9358685B2 (en) * | 2014-02-03 | 2016-06-07 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
AU2015220546A1 (en) * | 2014-02-20 | 2016-06-09 | Mark Oleynik | Methods and systems for food preparation in a robotic cooking kitchen |
US9555545B2 (en) * | 2014-05-21 | 2017-01-31 | Bot & Dolly, Llc | Systems and methods for time-based parallel robotic operation |
US10671235B2 (en) * | 2015-03-03 | 2020-06-02 | Soroco Private Limited | Software robots for programmatically controlling computer programs to perform tasks |
-
2015
- 2015-04-02 EP EP15162447.5A patent/EP3075496B1/en active Active
-
2016
- 2016-03-01 JP JP2016038697A patent/JP6695170B2/ja active Active
- 2016-03-30 US US15/084,705 patent/US10279474B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016196079A (ja) | 2016-11-24 |
US10279474B2 (en) | 2019-05-07 |
EP3075496B1 (en) | 2022-05-04 |
EP3075496A1 (en) | 2016-10-05 |
US20160288323A1 (en) | 2016-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6695170B2 (ja) | ロボットの動作を改善する方法 | |
US11458626B2 (en) | Trajectory generating method, and trajectory generating apparatus | |
JP7419001B2 (ja) | マニピュレータの衝突回避のための動作計画方法および装置 | |
CN109890572B (zh) | 用于无碰撞运动规划的方法 | |
Kaltsoukalas et al. | On generating the motion of industrial robot manipulators | |
US8924016B2 (en) | Apparatus for planning path of robot and method thereof | |
KR20220042249A (ko) | 온 디맨드 원격 조작이 가능한 자율 로봇 | |
KR20100081824A (ko) | 로봇의 경로계획장치 및 그 방법 | |
JP7387920B2 (ja) | ロボットを制御するための方法及びロボットコントローラ | |
CN114063446A (zh) | 用于控制机器人设备的方法和机器人设备控制器 | |
US11806872B2 (en) | Device and method for controlling a robotic device | |
JP2009172721A (ja) | ロボット軌道制御装置及びロボット軌道制御方法 | |
Leeper et al. | Methods for collision-free arm teleoperation in clutter using constraints from 3d sensor data | |
US11577392B2 (en) | Splitting transformers for robotics planning | |
US11747787B2 (en) | Combining transformers for robotics planning | |
US20210245364A1 (en) | Method And Control System For Controlling Movement Trajectories Of A Robot | |
Pichler et al. | Towards robot systems for small batch manufacturing | |
Petschnigg et al. | Online simulation for flexible robotic manufacturing | |
US9409294B1 (en) | Hierarchical geometric plan composition (HGPC) framework for robot task planning | |
Kojcev et al. | Evaluation of deep reinforcement learning methods for modular robots | |
KR20240003844A (ko) | 다수 매니퓰레이터 로봇의 협업을 통해 물체를 재배치하기 위한 작업 및 이동 계획 수립 방법, 시스템 및 프로그램 | |
WO2020059342A1 (ja) | ロボットシミュレータ | |
Pichler et al. | User centered framework for intuitive robot programming | |
Sheetz et al. | Composable Causality in Semantic Robot Programming | |
Lyu et al. | Human-robot interaction control through demonstration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20170802 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170804 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695170 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |