CN111618862A - 一种先验知识引导下的机器人操作技能学习系统及方法 - Google Patents

一种先验知识引导下的机器人操作技能学习系统及方法 Download PDF

Info

Publication number
CN111618862A
CN111618862A CN202010535605.6A CN202010535605A CN111618862A CN 111618862 A CN111618862 A CN 111618862A CN 202010535605 A CN202010535605 A CN 202010535605A CN 111618862 A CN111618862 A CN 111618862A
Authority
CN
China
Prior art keywords
robot
state
action
learning
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010535605.6A
Other languages
English (en)
Other versions
CN111618862B (zh
Inventor
宋锐
李凤鸣
李贻斌
王艳红
刘义祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010535605.6A priority Critical patent/CN111618862B/zh
Publication of CN111618862A publication Critical patent/CN111618862A/zh
Application granted granted Critical
Publication of CN111618862B publication Critical patent/CN111618862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本公开提出了一种先验知识引导下的机器人操作技能学习系统及方法,包括:物理环境模块、评价模块及机器人操作技能策略学习模块;物理环境模块采集机器人作业环境信息及当前的操作状态;评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。有效提高学习效率,降低学习难度。

Description

一种先验知识引导下的机器人操作技能学习系统及方法
技术领域
本公开属于机器学习技术领域,尤其涉及一种先验知识引导下的机器人操作技能学习系统及方法。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
强化学习已经成为机器人操作技能学习的主要方法,它通过模仿人类的学习方式,在不进行显式教学的情况下,利用传感器反馈信息,通过不断地与环境交互,得到外部的奖励或惩罚信号,适应不断变化的环境,采取适当的动作。
但是发明人在研究中发现,目前的大部分学习方法完全是从零开始探索,训练时间较长,使得机器人技能学习的效率下降。
发明内容
为克服上述现有技术的不足,本公开提供了一种先验知识引导下的机器人操作技能学习系统,将专家经验知识和操作操作工艺规则的先验知识应用于强化学习的方法,减少机器人操作技能学习过程中的无效探索,有效提高学习效率,降低学习难度。
为实现上述目的,本公开的一个或多个实施例提供了如下技术方案:
一方面,公开了一种先验知识引导下的机器人操作技能学习系统,包括:
物理环境模块、评价模块及机器人操作技能策略学习模块;
所述物理环境模块采集机器人作业环境信息及当前的操作状态;
所述评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;
所述机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。
另一方面,公开了一种先验知识引导下的机器人操作技能学习方法,包括:
采集机器人作业环境信息及当前的操作状态;
利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;
基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。
以上一个或多个技术方案存在以下有益效果:
本公开技术方案结合反馈探索策略,将专家经验知识和操作工艺规则的先验知识应用于机器人操作技能学习过程中,有效提高学习效率,降低学习难度。
本公开技术方案结合操作工艺规则的评价体系,可以根据规则进行灵活调整,有利于提高机器人操作任务的灵活性。
本公开技术方案操作技能学习模块主要解决机器人遇到未知的装配状态时,能够通过自主探索学习并找到接下来要执行的动作。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例机器人操作技能学习系统框架图;
图2为本公开实施例先验知识引导下的机器人操作操作技能学习方法框架图;
图3为本公开实施例基于深度策略梯度算法训练流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种先验知识引导下的机器人操作技能学习系统,将专家经验知识和操作操作工艺规则的先验知识应用于强化学习的方法,减少机器人操作技能学习过程中的无效探索,有效提高学习效率,降低学习难度。
图1所示的机器人操作技能学习系统,分为物理环境模块、评价模块、机器人操作技能策略学习模块、数据存储区四部分,其中物理环境模块包括机器人、控制器、传感系统(包括视觉系统、力觉系统、关节传感系统等)。传感系统主要采集机器人作业环境的主要信息,包括:机械臂的末端接触力、机械臂的运动状态、当前装配工件的图像,评价模块是利用操作操作工艺的先验知识对以往机器人探索操作策略的表现进行评价,指导调整机制,从而调整策略学习过程。传感系统输出的图像、力/力矩、位移、关节角度、关节速度等参数作为当前的操作状态,与机器人当前执行的动作、评价体系给出的奖励值组成多元组数,存入数据操作区。技能学习模块主要负责操作策略的学习,给出机器人动作决策。
本公开实施例子提出的先验知识包括专家经验和操作工艺规则。专家经验是指通过人为设定操作过程中的多种典型接触状态与机械臂动作,借助多次实验采集大量样本通过学习训练,从而建立的操作接触状态与机械臂动作一一映射的专家知识库。操作工艺规则主要是指根据操作工艺设定的操作质量,通过建立影响操作质量的位姿偏移量、操作深度、操作接触力等参数模型,从而得到的操作参数与操作质量之间的规则。算法具体框架如图2所示,评估网络即装配状态值网络,主要是用来计算当前动作的Q值,巨册网络也是策略网络,主要是根据当前的状态,选择机械臂下一步要执行的动作。
系统从数据存储区获取多元组数,首先判断取出的操作状态是否存在基于人类经验的专家知识库,如果是,根据专家经验直接映射到机器人的操作动作;如果不是,输入到策略网络中计算状态值函数,根据状态值函数的值来选择机器人下一步的执行动作。其中,策略网络是针对机器人装配动作选择策略μ的拟合构建的网络模型。
算法执行步骤为:
步骤1:通过传感系统将作业环境信息放入数据存储区D={e1,e2…et},其中et=(st,at,rt,s′t),表示每个时间步t的转移样本。st表示从操作作业环境获得的操作状态,at表示机械臂的执行动作,rt表示评价体系输出的奖励值,s′t表示机械臂执行完动作后的操作状态。
步骤2:从数据存储区取出数据样本,将取出的样本中的st,首先输入到知识库,采用SVDD新类识别的方法,判断是否是库中已有状态。如果是,直接根据专家经验知识库,发送出机械臂的动作at传给控制器,转到步骤4。如果不是,转到步骤3。
步骤3:从数据存储区取出四元组数,将操作状态作为输入数据,输入到建立的深度策略网络模型中,将机器人的对应的操作动作输出,并同时将此四元组中的操作状态和动作值输入到状态-动作值评论家网络中,计算出状态-动作值Q,输出机器人动作。
策略网络用来评价选择的装配动作的好坏。策略网络的输入是结合经验池中的et=(st,at,rt,s′t),输入是当前的装配状态、,输出是动作值,选择CNN的网络结构。状态-动作值网络是计算Q值函数的网络,,主要是为了计算选择的装配动作的Q值,利用Q值来判断选择的装配动作的优劣。
步骤4:将得到的动作执行指令通过控制器输出给机器人,机器人执行动作。
步骤5:机器人执行动作后,根据评价体系对机器人执行动作的策略进行评价,并把评价奖赏值r传给数据存储区。
在该实施例子中,传感系统由视觉传感器、六维力传感器、关节传感器组成,视觉提供当前操作环境图像,预处理成特征矩阵P,六维力传感器安装在机械臂末端,用来获得零部件之间的操作力F和力矩信息M。通过关节传感器获得机械臂的运动状态R,包括关节角度、角速度、关节扭矩等。上述信息作为装配状态的描述[P F M R]。
专家模型对应操作状态-机械臂动作的映射关系,映射关系的建立通过极限学习机的方法得到,具体的步骤为:
2-1设定机械臂末端的初始位置,执行操作过程,记录操作状态st
2-2调整机械臂动作,使机械臂完成操作任务,记录调整过程中的操作状态st以及执行动作at
2-3采集多组操作状态—机械臂调整动作的数据,采用极限学习机的方法,经过训练得到专家知识模型,知识库建立在分类学习模型的基础上的。
步骤3中
本步骤涉及基于深度策略梯度算法,训练流程如图3所示。步骤3描述的训练过程是这个网络参数的更新过程。评估网络也可以成为状态值网络,决策网络也成为策略网络。
3-1当前状态动作值Q值定义为:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]
μ表示经过训练后得到的最优策略,st为当前装配状态,at机械臂装配动作,执行策略μ,st+1为执行完动作at后的下一装配状态。Qμ(st,at)表示t时刻在策略μ下机械臂选择执行动作at后的长期累积奖励,Qμ(st+1,μ(st+1)表示下一时刻即t+1的长期累积奖励。
3-2设Q网络的损失函数为:
Figure BDA0002536883780000061
其中,yi=ri+γQ'(si+1,μ'(si+1μ')|θQ'),N表示经验池中四元组的数目。
3-3计算策略网络的梯度
Figure BDA0002536883780000062
其中,γ是折扣因子。
该步骤解释了策略梯度的方法,主要来更新网络参数,优化目标函数,使得损失函数收敛。
3-4采用Adam优化状态值网络和策略网络的参数,对应的目标网络均采用软策略进行更新参数,保证算法的稳定性。
状态值网络主要根据计算的Q值选择执行动作at,策略网络是评价当前选择的at的好坏。
θ′←τ·θ+(1-τ)·θ′
其中,τ=0.001,θ为当前网络参数,θ′为目标网络参数。
评价模块通过嵌入操作工艺规则的先验知识来设置,考虑更多的因素,描述更复杂的奖励逻辑。设定奖励r=r1+r2,其中r1为每集结束时奖励agent成功完成操作任务的正奖励,r2为每步惩罚操作任务速度低、接触力大的负奖励。设操作任务可以通过M个时间步长成功完成,且接触力不超过安全边界时,则agent可以获得限制在[0,+1)内,于是有
Figure BDA0002536883780000071
其中,K是当前装配步长,Kmax是给定的最大步长。
奖励r2与接触力/力矩有关,结合操作任务工艺,将操作任务质量分为成功,较好,非常好,较差,失败五种类型,建立接触力/力矩-质量评价规则库,设定r2∈[-1,0),输出负奖励为-1,对应于最坏输入的最大惩罚,其中机器人在这个时间步长执行最坏的操作策略。利用先验知识对以往操作策略的表现进行评价,指导调整机制,从而调整策略探索过程。
另一实施例子中,公开了一种先验知识引导下的机器人操作技能学习方法,包括:
采集机器人作业环境信息及当前的操作状态;
利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;
基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种先验知识引导下的机器人操作技能学习系统,其特征是,包括:
物理环境模块、评价模块及机器人操作技能策略学习模块;
所述物理环境模块采集机器人作业环境信息及当前的操作状态;
所述评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;
所述机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。
2.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,所述物理环境模块包括:
传感系统,采集机器人作业环境的主要信息,其中,采集的图像、力或力矩、位移、关节角度、关节速度参数作为当前的操作状态。
3.如权利要求2所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,还包括数据存储区,将传感系统输出的机器人当前的操作状态、机器人当前执行的动作、评价模块给出的奖励值组成多元组数,进行存储。
4.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,所述评价模块通过设定操作过程中的多种典型接触状态与机械臂动作,采集大量样本通过学习训练,从而建立的操作接触状态与机械臂动作一一映射的专家知识库。
5.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,所述评价模块根据操作工艺设定操作质量,通过建立影响操作质量的位姿偏移量、操作深度、操作接触力参数模型,得到操作参数与操作质量之间的规则。
6.如权利要求3所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,所述机器人操作技能策略学习模块从数据存储区获取多元组数,首先判断取出的操作状态是否存在专家知识库,如果是,根据专家知识库存储的数据直接映射到机器人的操作动作;如果不是,输入到策略网络中计算状态值函数,根据状态值函数的值来选择机器人下一步的执行动作。
7.如权利要求3所述的一种先验知识引导下的机器人操作技能学习系统,其特征是,所述传感系统由视觉传感器、六维力传感器、关节传感器组成,所述视觉传感器采集机器人当前操作环境图像,预处理成特征矩阵;
所述六维力传感器安装在机械臂末端,用来获得零部件之间的操作力和力矩信息;
所述关节传感器用于获得机械臂的运动状态,包括关节角度、角速度、关节扭矩。
8.一种先验知识引导下的机器人操作技能学习方法,其特征是,包括:
采集机器人作业环境信息及当前的操作状态;
利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值;
基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习,建立操作接触状态与机械臂动作一一映射的专家知识库,输出机器人动作决策。
9.如权利要求8所述的一种先验知识引导下的机器人操作技能学习方法,其特征是,所述输出机器人动作决策时,取出数据样本,将取出的样本中的操作状态,首先输入到专家知识库,采用类识别的方法,判断是否是库中已有状态,如果是,直接根据专家经验知识库,发送出机械臂的动作传给控制器;
如果不是,从数据存储区取出四元组数,将操作状态作为输入数据,输入到建立的深度策略网络模型中,将机器人的对应的操作动作输出,并同时将此四元组中的操作状态和动作值输入到状态-动作值评论家网络中,计算出状态-动作值,输出机器人动作。
10.如权利要求8所述的一种先验知识引导下的机器人操作技能学习方法,其特征是,建立操作接触状态与机械臂动作一一映射的专家知识库时:
设定机械臂末端的初始位置,执行操作过程,记录操作状态;
调整机械臂动作,使机械臂完成操作任务,记录调整过程中的操作状态以及执行动作;
采集多组操作状态—机械臂调整动作的数据,采用极限学习机的方法,经过训练得到专家知识模型。
CN202010535605.6A 2020-06-12 2020-06-12 一种先验知识引导下的机器人操作技能学习系统及方法 Active CN111618862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010535605.6A CN111618862B (zh) 2020-06-12 2020-06-12 一种先验知识引导下的机器人操作技能学习系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010535605.6A CN111618862B (zh) 2020-06-12 2020-06-12 一种先验知识引导下的机器人操作技能学习系统及方法

Publications (2)

Publication Number Publication Date
CN111618862A true CN111618862A (zh) 2020-09-04
CN111618862B CN111618862B (zh) 2022-10-14

Family

ID=72268489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010535605.6A Active CN111618862B (zh) 2020-06-12 2020-06-12 一种先验知识引导下的机器人操作技能学习系统及方法

Country Status (1)

Country Link
CN (1) CN111618862B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112847337A (zh) * 2020-12-24 2021-05-28 珠海新天地科技有限公司 一种用于工业机器人自主操作应用程序的方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN112967559A (zh) * 2021-03-29 2021-06-15 北京航空航天大学 一种基于虚拟装配环境的装配技能直接生成方法
CN113478478A (zh) * 2021-06-16 2021-10-08 北京控制工程研究所 一种面向不确定对象的感知执行交互自然柔顺类人操控方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005021A (ja) * 2002-05-30 2004-01-08 Communication Research Laboratory 画像識別方法及び画像認識モデル
JP2006263897A (ja) * 2005-03-25 2006-10-05 National Institute Of Advanced Industrial & Technology タスクスキルによる丸型ハンドルバルブ操作装置
CN110253577A (zh) * 2019-06-19 2019-09-20 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005021A (ja) * 2002-05-30 2004-01-08 Communication Research Laboratory 画像識別方法及び画像認識モデル
JP2006263897A (ja) * 2005-03-25 2006-10-05 National Institute Of Advanced Industrial & Technology タスクスキルによる丸型ハンドルバルブ操作装置
CN110253577A (zh) * 2019-06-19 2019-09-20 山东大学 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FENGMING LI 等: "Manipulation Skill Acquisition for Robotic Assembly Based on Multi-Modal Information Description", 《IEEE》 *
FENGMING LI 等: "Robot skill acquisition in assembly process using deep reinforcement learning", 《ELSEVIER》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112847337A (zh) * 2020-12-24 2021-05-28 珠海新天地科技有限公司 一种用于工业机器人自主操作应用程序的方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN112966591B (zh) * 2021-03-03 2023-01-20 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN112967559A (zh) * 2021-03-29 2021-06-15 北京航空航天大学 一种基于虚拟装配环境的装配技能直接生成方法
CN113478478A (zh) * 2021-06-16 2021-10-08 北京控制工程研究所 一种面向不确定对象的感知执行交互自然柔顺类人操控方法
CN113478478B (zh) * 2021-06-16 2022-08-12 北京控制工程研究所 一种面向不确定对象的感知执行交互自然柔顺类人操控方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策系统
CN114161419A (zh) * 2021-12-13 2022-03-11 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法
CN114161419B (zh) * 2021-12-13 2023-09-15 大连理工大学 一种情景记忆引导的机器人操作技能高效学习方法

Also Published As

Publication number Publication date
CN111618862B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN111618862B (zh) 一种先验知识引导下的机器人操作技能学习系统及方法
CN109948642B (zh) 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
WO2021238303A1 (zh) 运动规划的方法与装置
Daniel et al. Active reward learning with a novel acquisition function
JP2020126646A (ja) 人の走行データをトレーニングデータとして利用して、強化学習を支援することによりカスタマイズ型経路プランニングを遂行する学習方法及び学習装置
CN112102405A (zh) 基于深度强化学习的机器人搅动-抓取组合方法
US20240308068A1 (en) Data-efficient hierarchical reinforcement learning
CN111695690A (zh) 基于合作式强化学习与迁移学习的多智能体对抗决策方法
CN110253577B (zh) 基于机器人操作技能获得的弱刚度零部件装配系统及方法
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN109871011A (zh) 一种基于预处理层与深度强化学习的机器人导航方法
CN113043275B (zh) 基于专家演示和强化学习的微零件装配方法
CN112847235B (zh) 基于深度强化学习的机器人分阶力引导装配方法及系统
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN115990891A (zh) 一种基于视觉示教和虚实迁移的机器人强化学习装配的方法
CN113657573A (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
CN108927806A (zh) 一种应用于大批量重复性加工的工业机器人学习方法
Langsfeld Learning task models for robotic manipulation of nonrigid objects
RU2359308C2 (ru) Нейросетевой регулятор для управления курсом судна
CN114789443B (zh) 一种基于多源信息深度强化学习的机械臂控制方法及系统
CN115167419B (zh) 一种基于dqn算法的机器人路径规划方法
CN114800488B (zh) 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置
CN114918919B (zh) 一种机器人运动技能学习方法及系统
Dıaz Robot Behavior Learning through Biased Exploration in Reinforcement Learning from Expert Demonstrations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant