CN111618847B - 基于深度强化学习与动态运动基元的机械臂自主抓取方法 - Google Patents
基于深度强化学习与动态运动基元的机械臂自主抓取方法 Download PDFInfo
- Publication number
- CN111618847B CN111618847B CN202010323721.1A CN202010323721A CN111618847B CN 111618847 B CN111618847 B CN 111618847B CN 202010323721 A CN202010323721 A CN 202010323721A CN 111618847 B CN111618847 B CN 111618847B
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- motion
- reinforcement learning
- deep reinforcement
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J19/00—Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
- B25J19/02—Sensing devices
- B25J19/04—Viewing devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度强化学习与动态运动基元的机械臂自主抓取方法,包括如下步骤:步骤1:安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行预处理,并作为状态信息发送给深度强化学习智能体;步骤2:基于所述状态和深度强化学习原理构建局部策略近端优化训练模型;步骤3:融合动态运动基元和模仿学习构建一种新的混合运动基元模型;步骤4:基于所述的模型训练机械臂自主抓取物体。本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题,通过结合动态运动基元算法,把元参数的学习问题转化为强化学习问题,可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务。
Description
技术领域
本发明涉及机械臂和深度强化学习训练系统技术领域,具体为基于深度强化学习与动态运动基元的机械臂自主抓取方法。
背景技术
目前机器人技术的研究已经从传统的机械动力学开始向智能化控制方向进行转变,特别是综合吸收了控制理论、人工神经网络和机器学习等领域的研究成果后,机器人技术已经逐渐成为了人工智能领域的核心之一。作为近年来机器学习领域中的研究热点之一,深度强化学习无论是在理论研究上还是在实际应用中都取得了丰富的成果。然而,机器人在解决现实生活中遇到的问题时,只有一个好的深度强化学习算法是远远不够的。这是因为传统的深度强化学习算法的控制策略是逐步生成的,这种策略更倾向于使机器人快速的完成任务,而不是模仿示教运动轨迹平滑的运动。由于机器人关节运动是由电机进行驱动控制的,如果电机的运动轨迹(角度轨迹、角速度轨迹和角加速度轨迹)具有较大的波动性,此时电机的驱动力矩也会产生很大的波动性,甚至是较大的突变值,这容易对机器人关节造成损害。因此,与人类运动一样,机械臂的运动需要平滑的进行编码,没有突然的加速或颠簸的过程,只有这样才能确保机器人的稳定性和安全性。
发明内容
本发明的目的在于提供基于深度强化学习与动态运动基元的机械臂自主抓取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于深度强化学习与动态运动基元的机械臂自主抓取方法,包括如下步骤:
步骤1:安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行预处理,并作为状态信息发送给深度强化学习智能体;
步骤2:基于所述状态和深度强化学习原理构建局部策略近端优化训练模型;
步骤3:融合动态运动基元和模仿学习构建一种新的混合运动基元模型;
步骤4:基于所述的模型训练机械臂自主抓取物体。
优选的,在步骤1中,安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行采集处理,作为状态信息发送给深度强化学习智能体,包括:
摄像机,所述摄像机为双目摄像机Bumblee2,所述摄像机安装在机械臂距离底座上方0.8-1米,且在识别区域正前方,确保机械臂开始工作时无遮挡;摄像机拍摄的识别区域的图像信息,经采集预处理后,该信息将作为环境状态被系统接收;
机械臂,所述机械臂为具有5个自由度的UR5机器人,各关节能够灵活运动。
优选的,在步骤2中,基于所述状态和深度强化学习原理构建局部策略近端优化训练模型包括:在系统中通过设计奖赏函数来评判机械臂是否抓取到物体,奖赏函数的设定为稀疏的,当机械臂完成抓取任务的时候获得奖赏为+1,其它时刻为零,从而引导机械臂快速完成抓取任务获得更多的奖赏回报;机械臂从初始状态到完成抓取任务的运动轨迹可以通过一组元参数δ表示,
是机械臂到达目标位置时对应的关节角度和角速度的值,局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s);将元参数自我学习问题建模为强化学习问题,目标函数可以表示为:
其中Kullback-Leibler距离通常被用来约束策略更新的幅度大小,使策略梯度算法具有更强的鲁棒性,超参数KLtarget网络参数的期望变化,依据深度强化学习策略梯度更新规则,依据所述目标函数优化网络参数θ。
优选的,在步骤3中,融合动态运动基元和模仿学习构建一种新的混合运动基元模型,包括一种改进的动态运动基元算法,其相应的动力学方程为:
其中τ是一个时间常数,αz是一个预先设定的固定参数,满足在终止时刻1/τ时z≈0,gf是角度期望值,是期望的最终速度,gm是移动目标,变换函数f(z)可以使得系统生成任意复杂的非线性轨迹,其定义形式为:
其中ωi是第i个可调参数,C是可调参数的总数,ψi(z)是每一个可调参数对应的权重值,其定义形式为:
该函数是由中心为ci宽度为hi的归一化高斯函数构成;
由于变换函数f(z)在参数上是线性的,局部加权回归算法来求解参数ωi,即最小化目标函数为:
其中ft ref是示教轨迹中期望的变换函数值,t∈{1,2,L,T}表示演示的时间步长;
混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹,新的运动基元可表示为:
其中是权重参数λi(s)=exp(-αm||s-si||),其表示运动基元μi对新的运动基元μ的贡献程度。
优选的,在步骤4中,基于所述的模型训练机械臂自主抓取物体,包括:
设计训练环境,其中所述的训练环境中的控制对象是机械臂,机械臂收到控制决策信息后,执行抓取任务,完成一个运动周期;
在所述运动周期内,智能体首先通过深度强化学习模型得到当前状态st对应的元参数δt,之后依据混合动态运动基元模型得到关节运动轨迹并形成控制决策信息,机械臂执行运动后的到新的状态st+1和奖赏回报rt;
把训练样本(st,at,rt,st+1)存储到经验池中,用于深度强化学习参数训练;
所述机械臂通过所述基于深度强化学习和动态运动基元模型与环境不断交互训练,直至机械臂能够自主的完成抓取任务。
与现有技术相比,本发明的有益效果是:
(1)本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题,通过结合动态运动基元算法,把元参数的学习问题转化为强化学习问题,可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务。
(2)本发明中的新的动态运动基元模型能够帮助机械臂生成光滑的运动轨迹,对各种抓取任务具有一定的适应性;
(3)本发明实现了一种端到端的机器人自主抓取任务,学习训练后机器人只需要通过摄像机观察物体的初始姿态,就可以生成平滑的运动轨迹完成抓取任务。
附图说明
图1是本发明方法步骤流程图;
图2是摄像机和机械臂抓取系统示意图;
图3基于深度强化学习与动态运动基元的机械臂自主抓取训练系统结构图;
图4是多自由度机械臂模仿学习结构图;
图5是元参数学习问题示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,一种基于深度强化学习与动态运动基元的机械臂自主抓取方法,包括以下步骤:
步骤1:安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行处理,得到目标抓取物的坐标信息,并作为状态信息发送给深度强化学习智能体。
如图2所示,本发明所述摄像机2为双目摄像机Bumblee2,摄像机2安装在机械臂距离底座上方0.8-1米,且在识别区域正前方,确保机械臂1开始工作时无遮挡;
摄像机2拍摄的识别区域的图像信息,经采集处理获得抓取目标物3的坐标信息,该信息将作为环境状态被系统接收;
机械臂1为具有5个自由度的UR5机器人,各关节能够灵活运动,机械臂控制机械手4运动;
步骤2:基于所述状态和深度强化学习原理构建局部策略近端优化训练模型
设计系统奖赏函数,在系统中通过设计奖赏函数来评判机械臂是否抓取到物体,奖赏函数的设定为稀疏的,当机械臂完成抓取任务的时候获得奖赏为+1,其它时刻为零,从而引导机械臂快速完成抓取任务获得更多的奖赏回报;
如图5所示,机械臂从初始状态到完成抓取任务的运动轨迹可以通过一组元参数δ表示,即:
是机械臂到达目标位置时对应的关节角度和角速度的值,局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s)。
为了赋予机器人自主学习的能力,本发明将元参数自我学习问题建模为强化学习问题,目标函数可以表示为:
其中Kullback-Leibler距离通常被用来约束策略更新的幅度大小,使策略梯度算法具有更强的鲁棒性,超参数KLtarget网络参数的期望变化,依据深度强化学习策略梯度更新规则,可以依据所述目标函数优化网络参数θ。
步骤3:融合动态运动基元和模仿学习构建一种新的混合运动基元模型
如图3所示,根据所述深度强化学习模型可以得到抓取目标状态s对应的元参数δ(s),该参数将作为动态运动基元的期望目标。如图4所示,对于多关节机器人,每个关节独立的利用动态运动基元生成运动轨迹。
为提高传统动态运动基元的性能表现,本发明包含一种改进的动态运动基元算法,其相应的动力学方程为:
其中τ是一个时间常数,αz是一个预先设定的固定参数,满足在终止时刻1/τ时z≈0,gf是角度期望值,是期望的最终速度,gm是移动目标,变换函数f(z)可以使得系统生成任意复杂的非线性轨迹,其定义形式为:
其中ωi是第i个可调参数,C是可调参数的总数,ψi(z)是每一个可调参数对应的权重值,其定义形式为:
该函数是由中心为ci宽度为hi的归一化高斯函数构成;
为了建立动态运动基元库,我们一般通过模式学习来初始化动态运动基元,对于多关节机器人,可以针对每个关节分别学习相应的运动参数,由于变换函数f(z)在参数上是线性的,我们可以局部加权回归算法来求解参数ωi,即最小化目标函数为:
其中ft ref是示教轨迹中期望的变换函数值,t∈{1,2,L,T}表示演示的时间步长;
混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹,新的运动基元可表示为:
其中是权重参数λi(s)=exp(-αm||s-si||),其表示运动基元μi对新的运动基元μ的贡献程度。
在步骤4中,基于所述的模型训练机械臂自主抓取物体,包括:
设计训练环境,其中所述的训练环境中的控制对象是机械臂,机械臂收到控制决策信息后,执行抓取任务,完成一个运动周期;
如图3所示,在所述运动周期内,智能体首先依据摄像头得到新的抓取目标物的视觉图像信息,并进行预处理后作为深度强化学习智能体检测的环境状态信息。
通过深度强化学习模型得到当前状态st对应的元参数δt,并把该信息作为混合动态运动基元的目标,依据混合动态基元计算公式可得到相应的新的运动轨迹。
机械臂执行新的运动控制命令后,智能体可以到新的状态st+1和奖赏回报rt。
把训练样本(st,at,rt,st+1)存储到经验池中,用于深度强化学习参数训练;
所述机械臂通过所述基于深度强化学习和动态运动基元模型与环境不断交互训练,直至机械臂能够自主的完成抓取任务。
本发明未详述之处,均为本领域技术人员的公知技术。
综上所述,本发明能够有效解决基于传统深度强化学习的机械臂关节运动不平滑问题,通过结合动态运动基元算法,把元参数的学习问题转化为强化学习问题,可以利用深度强化学习的训练方法使得机械臂完成自主抓取任务;本发明中的新的动态运动基元模型能够帮助机械臂生成光滑的运动轨迹,对各种抓取任务具有一定的适应性;本发明实现了一种端到端的机器人自主抓取任务,学习训练后机器人只需要通过摄像机观察物体的初始姿态,就可以生成平滑的运动轨迹完成抓取任务。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (4)
1.基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:包括如下步骤:
步骤1:安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行预处理,并作为状态信息发送给深度强化学习智能体;
步骤2:基于所述状态信息和深度强化学习原理构建局部策略近端优化训练模型;
步骤3:融合动态运动基元和模仿学习构建一种新的混合运动基元模型;
步骤4:基于所述的新的混合运动基元模型训练机械臂自主抓取物体;
在步骤3中,融合动态运动基元和模仿学习构建一种新的混合运动基元模型,包括一种改进的动态运动基元算法,其相应的动力学方程为:
其中ωi是第i个可调参数,C是可调参数的总数,ψi(z)是每一个可调参数对应的权重值,其定义形式为:
该函数是由中心为ci宽度为hi的归一化高斯函数构成;
由于变换函数f(z)在参数上是线性的,局部加权回归算法来求解参数ωi,即最小化目标函数为:
其中ft ref是示教轨迹中期望的变换函数值,t∈{1,2,…,T}表示演示的时间步长;
新的混合运动基元模型是指通过随机的抽取一小批运动基元来计算所有运动基元的权重得到新的运动轨迹,新的运动基元可表示为:
2.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤1中,安装摄像机图组件,确保识别区域不被遮挡,并对抓取目标区域图像进行采集处理,作为状态信息发送给深度强化学习智能体,包括:
摄像机,所述摄像机为双目摄像机Bumblee2,所述摄像机安装在机械臂距离底座上方0.8-1米,且在识别区域正前方,确保机械臂开始工作时无遮挡;摄像机拍摄的抓取目标区域的图像信息,经采集预处理后,该图像信息将作为环境状态信息被系统接收;
机械臂,所述机械臂为具有5个自由度的UR5机器人,各关节能够灵活运动。
3.根据权利要求1所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤2中,基于所述状态和深度强化学习原理构建局部策略近端优化训练模型包括:在系统中通过设计奖赏函数来评判机械臂是否抓取到物体,奖赏函数的设定为稀疏的,当机械臂完成抓取任务的时候获得奖赏为+1,其它时刻为零,从而引导机械臂快速完成抓取任务获得更多的奖赏回报;机械臂从初始状态到完成抓取任务的运动轨迹通过一组元参数δ表示,是机械臂到达目标位置时对应的关节角度和角速度的值,局部策略近端优化训练模型的目的就是训练学习一个从状态s到元参数δ的映射函数δ(s);将元参数自我学习问题建模为强化学习问题,目标函数可以表示为:
4.根据权利要求3所述的基于深度强化学习与动态运动基元的机械臂自主抓取方法,其特征在于:在步骤4中,基于所述新的混合运动基元模型训练机械臂自主抓取物体,包括:
设计训练环境,其中所述的训练环境中的控制对象是机械臂,机械臂收到控制决策信息后,执行抓取任务,完成一个运动周期;
在所述运动周期内,智能体首先通过深度强化学习模型得到当前状态st对应的元参数δt,之后依据新的混合运动基元模型得到关节运动轨迹并形成控制决策信息,机械臂执行运动后得到新的状态st+1和奖赏回报rt;
把训练样本(st,at,rt,st+1)存储到经验池中,用于深度强化学习参数训练;
所述机械臂通过智能体与环境不断交互训练,直至机械臂能够自主的完成抓取任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323721.1A CN111618847B (zh) | 2020-04-22 | 2020-04-22 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323721.1A CN111618847B (zh) | 2020-04-22 | 2020-04-22 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111618847A CN111618847A (zh) | 2020-09-04 |
CN111618847B true CN111618847B (zh) | 2022-06-21 |
Family
ID=72269021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010323721.1A Active CN111618847B (zh) | 2020-04-22 | 2020-04-22 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111618847B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506044A (zh) * | 2020-09-10 | 2021-03-16 | 上海交通大学 | 一种基于视觉反馈和强化学习的柔性臂控制与规划方法 |
CN112338921A (zh) * | 2020-11-16 | 2021-02-09 | 西华师范大学 | 一种基于深度强化学习的机械臂智能控制快速训练方法 |
CN112405543B (zh) * | 2020-11-23 | 2022-05-06 | 长沙理工大学 | 一种基于深度强化学习的机械臂密集物体温度优先抓取方法 |
CN112605974A (zh) * | 2020-11-27 | 2021-04-06 | 广东省科学院智能制造研究所 | 一种机器人复杂操作技能表征方法及系统 |
CN112966591B (zh) * | 2021-03-03 | 2023-01-20 | 河北工业职业技术学院 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
CN113156900B (zh) * | 2021-03-30 | 2022-06-28 | 南京航空航天大学 | 一种基于元强化学习的加工变形控制方法 |
CN113341706B (zh) * | 2021-05-06 | 2022-12-06 | 东华大学 | 基于深度强化学习的人机协作流水线系统 |
CN113232019A (zh) * | 2021-05-13 | 2021-08-10 | 中国联合网络通信集团有限公司 | 机械臂控制方法、装置、电子设备及存储介质 |
CN113400307B (zh) * | 2021-06-16 | 2022-10-18 | 清华大学 | 一种空间机器人机械臂的控制方法 |
CN113393495B (zh) * | 2021-06-21 | 2022-02-01 | 暨南大学 | 基于强化学习的高空抛物轨迹识别方法 |
CN113771081B (zh) * | 2021-07-06 | 2024-04-30 | 清华大学 | 一种基于物理的虚拟人手自动抓取方法及装置 |
CN113664403B (zh) * | 2021-08-18 | 2023-02-10 | 中国第一汽车股份有限公司 | 一种自适应汽车车架焊接方法及系统 |
CN113927593B (zh) * | 2021-09-22 | 2023-06-13 | 北京航空航天大学 | 基于任务分解的机械臂操作技能学习方法 |
CN113829351B (zh) * | 2021-10-13 | 2023-08-01 | 广西大学 | 一种基于强化学习的移动机械臂的协同控制方法 |
CN114227688B (zh) * | 2021-12-29 | 2023-08-04 | 同济大学 | 一种基于曲线配准的示教轨迹学习方法 |
CN115524997B (zh) * | 2022-09-28 | 2024-05-14 | 山东大学 | 基于强化与模仿学习的机器人动态操作布料方法及系统 |
CN116901055B (zh) * | 2023-05-19 | 2024-04-19 | 兰州大学 | 仿人手交互控制方法和装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108181900A (zh) * | 2017-12-26 | 2018-06-19 | 华南理工大学 | 一种基于增强学习智能算法的航海船舶运动控制方法 |
CN109605377A (zh) * | 2019-01-21 | 2019-04-12 | 厦门大学 | 一种基于强化学习的机器人关节运动控制方法及系统 |
CN110400345A (zh) * | 2019-07-24 | 2019-11-01 | 西南科技大学 | 基于深度强化学习的放射性废物推抓协同分拣方法 |
CN110919659A (zh) * | 2019-12-24 | 2020-03-27 | 哈尔滨工程大学 | 一种基于ddgpes的机器人控制方法 |
CN110963209A (zh) * | 2019-12-27 | 2020-04-07 | 中电海康集团有限公司 | 一种基于深度强化学习的垃圾分拣装置与方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3769264A1 (en) * | 2018-05-18 | 2021-01-27 | Deepmind Technologies Limited | Meta-gradient updates for training return functions for reinforcement learning systems |
-
2020
- 2020-04-22 CN CN202010323721.1A patent/CN111618847B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN108052004A (zh) * | 2017-12-06 | 2018-05-18 | 湖北工业大学 | 基于深度增强学习的工业机械臂自动控制方法 |
CN108181900A (zh) * | 2017-12-26 | 2018-06-19 | 华南理工大学 | 一种基于增强学习智能算法的航海船舶运动控制方法 |
CN109605377A (zh) * | 2019-01-21 | 2019-04-12 | 厦门大学 | 一种基于强化学习的机器人关节运动控制方法及系统 |
CN110400345A (zh) * | 2019-07-24 | 2019-11-01 | 西南科技大学 | 基于深度强化学习的放射性废物推抓协同分拣方法 |
CN110919659A (zh) * | 2019-12-24 | 2020-03-27 | 哈尔滨工程大学 | 一种基于ddgpes的机器人控制方法 |
CN110963209A (zh) * | 2019-12-27 | 2020-04-07 | 中电海康集团有限公司 | 一种基于深度强化学习的垃圾分拣装置与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111618847A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111618847B (zh) | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 | |
CN109625333B (zh) | 一种基于深度增强学习的空间非合作目标捕获方法 | |
Yu et al. | Sim-to-real transfer for biped locomotion | |
CN108161934B (zh) | 一种利用深度强化学习实现机器人多轴孔装配的方法 | |
CN110000785B (zh) | 农业场景无标定机器人运动视觉协同伺服控制方法与设备 | |
CN104942809A (zh) | 基于视觉伺服系统的机械臂动态模糊逼近器 | |
CN106527129A (zh) | 一种并联机器人间接自适应模糊控制参数的确定方法 | |
CN108196453A (zh) | 一种机械臂运动规划群体智能计算方法 | |
CN108029340A (zh) | 一种基于自适应神经网络的采摘机器人手臂及其控制方法 | |
Fang et al. | Skill learning for human-robot interaction using wearable device | |
CN113821045B (zh) | 一种腿足机器人强化学习动作生成系统 | |
CN113043275B (zh) | 基于专家演示和强化学习的微零件装配方法 | |
CN113759901A (zh) | 一种基于深度强化学习的移动机器人自主避障方法 | |
CN115416024A (zh) | 一种力矩控制的机械臂自主轨迹规划方法和系统 | |
Khadivar et al. | Adaptive fingers coordination for robust grasp and in-hand manipulation under disturbances and unknown dynamics | |
Ennen et al. | Learning robust manipulation skills with guided policy search via generative motor reflexes | |
Peng et al. | Moving object grasping method of mechanical arm based on deep deterministic policy gradient and hindsight experience replay | |
Hercus et al. | Control of an unmanned aerial vehicle using a neuronal network | |
CN114995468B (zh) | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 | |
Yan et al. | Autonomous vision-based navigation and stability augmentation control of a biomimetic robotic hammerhead shark | |
Setiawan et al. | Design of automatic under water robot system based on mamdani fuzzy logic controller | |
Cao et al. | A realtime Q-Learning method for unmanned surface vehicle target tracking | |
CN114571456A (zh) | 基于机器人技能学习的电连接器装配方法及系统 | |
Li et al. | Guest editorial for special issue on human-centered intelligent robots: issues and challenges | |
Hu et al. | Learning motor skills of reactive reaching and grasping of objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |