CN113967909A - 基于方向奖励的机械臂智能控制方法 - Google Patents

基于方向奖励的机械臂智能控制方法 Download PDF

Info

Publication number
CN113967909A
CN113967909A CN202111070047.1A CN202111070047A CN113967909A CN 113967909 A CN113967909 A CN 113967909A CN 202111070047 A CN202111070047 A CN 202111070047A CN 113967909 A CN113967909 A CN 113967909A
Authority
CN
China
Prior art keywords
mechanical arm
reinforcement learning
learning algorithm
strategy
robot arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111070047.1A
Other languages
English (en)
Other versions
CN113967909B (zh
Inventor
陈小前
满桁宇
熊丹
黄奕勇
韩伟
刘红卫
付康佳
杨延杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202111070047.1A priority Critical patent/CN113967909B/zh
Publication of CN113967909A publication Critical patent/CN113967909A/zh
Application granted granted Critical
Publication of CN113967909B publication Critical patent/CN113967909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于方向奖励的机械臂智能控制方法,该方法包括:S1:确定机械臂的初始姿态,获取预定的目标点位置;S2:通过强化学习算法控制机械臂移动,以使得机械臂的末端执行器移动至预定的目标点位置;在S2中,强化学习算法为DDPG算法,强化学习算法设置有控制机械臂移动的奖励函数,奖励函数的公式如下:R=Rd+Rv+Rg。由此,本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题,能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力,而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置,能够增强机械臂控制的自主能力。

Description

基于方向奖励的机械臂智能控制方法
技术领域
本发明涉及自动控制技术领域,尤其涉及一种基于方向奖励的机械臂智能控制方法。
背景技术
当前,神经生理学家对生物的运动控制进行了深入的探索研究,他们的研究表明,运动控制与生物的神经细胞高度相关,运动首先以更抽象的、基于方向的形式进行计划编码。在部分研究中,研究人员通过设置简单的手臂到达实验,对恒河猴运动系统多个区域的神经细胞进行记录。研究结果表明,运动皮质细胞编码运动方向,朝着特定方向的运动需要激活相应的细胞。而且,通过进一步地研究表明,在手臂的到达运动控制中,人脑通过调整运动皮质细胞编码的预期运动方向使得其与实际的目标方向相匹配来完成任务,即通过方向偏差来控制手臂末端到达预定的目标位置。
强化学习是一种在交互中学习的计算性方法。控制系统通过执行动作与环境交互,以预期收益信号最大化为目标,实现了智能化的控制。DDPG是强化学习中针对连续行为的策略学习方法。其中,DDPG能够基于确定性行为策略的原理,通过对策略网络和Q值网络的训练,获得了一个确定性行为策略模型,从而实现了对连续行为的控制。
机械臂作为一种智能化机械设备,其主要功能是协助或替代人类完成一定的工作任务。因其适用性强,灵活性高,被广泛应用于各行各业。随着计算机科学技术的快速发展,有关控制机械臂的研究和应用得到了不断的发展。
在传统的机械臂控制方法中,为完成机械臂末端执行器到达预定目标的运动控制任务,控制系统首先要规划好末端执行器到达预定目标位置的运动轨迹,然后再一一求解运动轨迹各点对应的机械臂各关节的角度,从而实现对机械臂的控制,使其末端执行器到达预定的目标位置。然而,运动轨迹各点对应的机械臂各关节的角度的求解涉及到机械臂雅可比矩阵的求逆问题,由于一个末端位置可以由不同的机械臂姿态来达成,因而雅可比矩阵的逆解存在着一对多的情况;此外,当机械臂末端执行器位于奇异点时,一个末端位置会对应无限多组解,微小的位移变化量就会导致某些轴的角度产生剧烈变化,产生近似无限大的角速度,从而导致奇异性问题的产生;以上情况使得机械臂的雅可比矩阵的求逆问题变得十分复杂,这使得研究人员在机械臂传统控制方法的设计时耗费了大量的精力。
发明内容
为解决上述现有技术中存在的部分或全部技术问题,本发明提供一种基于方向奖励的机械臂智能控制方法。
本发明的技术方案如下:
一种基于方向奖励的机械臂智能控制方法,所述方法包括:
S1:确定机械臂的初始姿态,获取预定的目标点位置;
S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;
在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:
R=Rd+Rv+Rg
其中,R表示总奖励;Rd表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;Rv表示所述机械臂的末端执行器运动的速度绝对值取负后的值;表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,Rg=1,如果不是,Rg=0。
可选地,所述机械臂具有多个关节,在所述S2中,所述强化学习算法输出的动作值为所述关节运动的角速度,所述强化学习算法能够控制所述机械臂在预定的时间内移动。
可选地,在所述强化学习算法中,根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。
可选地,在所述S2中,为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率,当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时,切换至通过综合控制策略控制所述机械臂移动,之后再切换回通过所述强化学习算法训练得到的策略继续移动,
其中,所述综合控制策略包括第一随机策略和第二随机策略,所述第一随机策略是以通过所述强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值,从而使得所述机械臂能够跳出无法完成移动的状态;所述第二随机策略是采用限定的动作值替代所述强化学习算法训练得到的策略输出的动作值,使得所述机械臂可以先暂时远离所述预定的目标点位置。
可选地,在所述S2中,当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时,通过所述第一随机策略控制所述机械臂移动,当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动;
当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第二预定时长t2且没有完成任务时,通过所述第二随机策略控制所述机械臂移动,当通过所述第二随机策略控制所述机械臂执行的时长超过第二管控时长c2后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动。
本发明技术方案的主要优点如下:
本发明中的方法,基于人脑通过调整运动皮质细胞编码的预期运动方向为目标方向的原理,利用了强化学习算法中针对连续控制问题的DDPG算法,可以有效地实现对机械臂的实时控制,并能够让机械臂的末端执行器运动到预定的目标点位置。与现有技术相比,本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题,能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力,而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置,能够增强机械臂控制的自主能力。此外,不需要额外的轨迹规划算法,可以提高机械臂控制的智能化水平。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为根据本发明的一个实施方式中的基于方向奖励的机械臂智能控制方法的步骤示意图;
图2为根据本发明的一个实施方式中的基于方向奖励的机械臂智能控制方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图,详细说明本发明实施例提供的技术方案。
在根据本发明的一个实施方式中提供了一种基于方向奖励的机械臂智能控制方法,该方法从仿生的角度,模拟人脑通过调整运动皮质细胞编码的预期运动方向与实际目标方向相符来完成手臂到达运动任务的机理,结合强化学习中的连续控制方法,把运动方向与目标方向的偏差作为方向奖励,直接建立了机械臂当前的状态与机械臂的关节控制指令映射,再通过学习到的控制策略与随机策略的结合形成的综合策略,实现了机械臂末端执行器到达预定目标位置的运动控制。
如图1所示,本实施方式中的基于方向奖励的机械臂智能控制方法包括:
S1:确定机械臂的初始姿态,获取预定的目标点位置;
S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;
可以理解,本实施方式中提供的方法用于控制机械臂移动,可以让机械臂的末端执行器到达预订的目标点位置。在该方法中,控制系统可以提前确定机械臂的初始姿态,当控制系统获取预定的目标点位置之后,控制系统将会基于机械臂的初始姿态,采取强化学习算法来控制机械臂,逐步地控制机械臂移动以使得机械臂的末端执行器到达预定的目标点位置附近。
本方法中,采取的强化学习算法为DDPG(Deep Deterministic Policy Gradient)算法,该算法是一种针对连续行为控制并且较为成熟的强化学习算法。为了使机械臂的末端执行器移动至预定的目标点位置,在该强化学习算法中设置有控制机械臂移动的奖励函数。
该奖励函数的公式如下:
R=Rd+Rv+Rg
其中,R表示总奖励;Rd表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;Rv表示所述机械臂的末端执行器运动的速度绝对值取负后的值;Rg表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,Rg=1,如果不是,Rg=0。
可以理解,本方法中的奖励函数采用了模拟人脑通过方向偏差来控制手臂末端到达预定目标位置的机理。在该方法中,采用机械臂的末端执行器的运动速度方向与目标点位置的目标方向的夹角变化(映射到0-1之间)作为负奖励;将机械臂的末端执行器的运动的速度绝对值变化(映射到0-1之间)作为负奖励,以便于让机械臂的末端执行器在到达目标点位置时能够稳定下来。此外,当机械臂的末端执行器到达预定的目标点位置范围内时,可使得机械臂将获得一个+1奖励。
进一步地,机械臂具有多个关节,在所述S2中,强化学习算法输出的动作值为关节运动的角速度,强化学习算法能够控制机械臂在预定的时间内移动。而且,在强化学习算法中,根据关节运动的角速度和预定的时间确定机械臂下一时刻的运动姿态。
可以理解,本方法中采用速度控制来保证机械臂控制的连续性,而且强化学习算法每次在预定的时间内控制机械臂移动,由此,关节运动的角速度乘以该预定的时间即可以得到关节下一时刻的关节角,从而确定机械臂下一时刻的运动姿态,以便于控制机械臂后续的运动。
本方法的控制原理是基于神经生物学家对生物运动控制的研究而得出来的。具体地,神经生物学家在对生物的运动控制的研究表明,人脑存在着编码预期运动方向的神经细胞,即运动皮质细胞,该类细胞的活动与手臂的预期的运动方向高度相关。神经生理学家把这种编码形成的预期运动方向成为场向量,人脑通过调整场向量方向与预定的目标方向相符,从而使手臂末端可以到达预定的目标位置。这说明,人脑中存在着基于方向偏差的运动控制机制,人脑通过产生的场向量方向与实际目标方向的偏差来不断调整场向量的指向,而场向量又时时刻刻对应着手臂末端预期的运动方向,这使得人脑可以通过方向偏差来控制手臂末端的运动方向,最终使得手臂末端坐标收敛到预定的目标位置上。
由此,根据上述手臂末端运动控制机理,为解决机械臂末端到达运动控制问题,在本方法中,基于DDPG的强化学习算法中,将机械臂的末端执行器的运动速度方向与目标点位置的方向之间的夹角作为负奖励值。本实施方式中的强化学习算法的目标是最大化预期收益,在机械臂的末端执行器到达目标点位置的控制过程中,末端执行器的运动速度方向与目标点位置的方向之间的夹角变化时刻影响着预期收益值。为了使得预期收益最大化,机械臂控制系统必须通过强化学习算法学习到一个使得末端执行器的运动速度方向与目标点位置的方向偏差变小的策略,通过该策略即可模拟人脑可以通过方向偏差来控制手臂末端的运动方向机制。
进一步地,在本方法的S2中,为提高机械臂的末端执行器移动至预定的目标点位置的成功率,当机械臂无法通过强化学习算法训练得到的策略完成移动时,切换至通过综合控制策略控制机械臂移动,之后再切换回通过强化学习算法训练得到的策略继续移动,
其中,综合控制策略包括第一随机策略和第二随机策略,第一随机策略是以通过强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值,从而使得机械臂能够跳出无法完成移动的状态;第二随机策略是采用限定的动作值替代强化学习算法训练得到的策略输出的动作值,使得机械臂可以先暂时远离预定的目标点位置。
具体地,如图2所示,当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时,通过所述第一随机策略控制所述机械臂移动,当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动;
当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第二预定时长t2且没有完成任务时,通过所述第二随机策略控制所述机械臂移动,当通过所述第二随机策略控制所述机械臂执行的时长超过第二管控时长c2后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动。
由此,在本方法中,除了采用基于DDPG强化学习算法训练得到的策略进行控制外,为保证机械臂完成末端执行器到达预定目标任务的成功率,本发明还采用了随机策略以保证一定的探索性,也就是说,在机械臂暂时无法通过学习到的策略完成任务时,机械臂的控制系统会先切换到随机策略以保证一定的探索,然后在切换回学习到的策略进行控制,使得机械臂末端执行器可以到达预定的目标位置。
本实施方式中的基于方向奖励的机械臂智能控制方法具有以下优点:
本实施方式中的方法,基于人脑通过调整运动皮质细胞编码的预期运动方向为目标方向的原理,利用了强化学习算法中针对连续控制问题的DDPG算法,有效地实现了对机械臂的实时控制,而且能够让机械臂的末端执行器运动到预定的目标点位置。与现有技术相比,本方法可以避免传统机械臂控制中的雅各比矩阵求逆问题和机械臂存在的奇异点问题,能够简化机械臂控制算法的设计。通过该方法驱动的机械臂具有较高的自主能力,而且机械臂控制系统可以在与环境交互的过程中自主到达预定的目标位置,能够增强机械臂控制的自主能力。此外,不需要额外的轨迹规划算法,可以提高机械臂控制的智能化水平。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。
最后应说明的是:以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种基于方向奖励的机械臂智能控制方法,其特征在于,所述方法包括:
S1:确定机械臂的初始姿态,获取预定的目标点位置;
S2:通过强化学习算法控制所述机械臂移动,以使得所述机械臂的末端执行器移动至所述预定的目标点位置;
在所述S2中,所述强化学习算法为DDPG算法,所述强化学习算法设置有控制所述机械臂移动的奖励函数,所述奖励函数的公式如下:
R=Rd+Rv+Rg
其中,R表示总奖励;Rd表示所述机械臂的末端执行器运动的速度方向与所述预定的目标点位置的目标方向的夹角取负后的值;Rv表示所述机械臂的末端执行器运动的速度绝对值取负后的值;Rg表示所述机械臂的末端执行器是否到达所述预定的目标点位置范围内的奖励值,如果是,Rg=1,如果不是,Rg=0。
2.根据权利要求1所述的基于方向奖励的机械臂智能控制方法,其特征在于,所述机械臂具有多个关节,在所述S2中,所述强化学习算法输出的动作值为所述关节运动的角速度,所述强化学习算法能够控制所述机械臂在预定的时间内移动。
3.根据权利要求2所述的基于方向奖励的机械臂智能控制方法,其特征在于,在所述强化学习算法中,根据所述关节运动的角速度和所述预定的时间确定所述机械臂下一时刻的运动姿态。
4.根据权利要求1所述的基于方向奖励的机械臂智能控制方法,其特征在于,在所述S2中,为提高所述机械臂的末端执行器移动至所述预定的目标点位置的成功率,当所述机械臂无法通过所述强化学习算法训练得到的策略完成移动时,切换至通过综合控制策略控制所述机械臂移动,之后再切换回通过所述强化学习算法训练得到的策略继续移动,
其中,所述综合控制策略包括第一随机策略和第二随机策略,所述第一随机策略是以通过所述强化学习算法训练得到的策略输出的动作值为均值来产生服从高斯分布的随机动作值,从而使得所述机械臂能够跳出无法完成移动的状态;所述第二随机策略是采用限定的动作值替代所述强化学习算法训练得到的策略输出的动作值,使得所述机械臂可以先暂时远离所述预定的目标点位置。
5.根据权利要求4所述的基于方向奖励的机械臂智能控制方法,其特征在于,在所述S2中,当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第一预定时长t1且没有完成任务时,通过所述第一随机策略控制所述机械臂移动,当通过所述第一随机策略控制所述机械臂执行的时长超过第一管控时长c1后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动;
当通过所述强化学习算法训练得到的策略控制所述机械臂执行的时长超过第二预定时长t2且没有完成任务时,通过所述第二随机策略控制所述机械臂移动,当通过所述第二随机策略控制所述机械臂执行的时长超过第二管控时长c2后,返回通过所述强化学习算法训练得到的策略控制所述机械臂移动。
CN202111070047.1A 2021-09-13 2021-09-13 基于方向奖励的机械臂智能控制方法 Active CN113967909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070047.1A CN113967909B (zh) 2021-09-13 2021-09-13 基于方向奖励的机械臂智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070047.1A CN113967909B (zh) 2021-09-13 2021-09-13 基于方向奖励的机械臂智能控制方法

Publications (2)

Publication Number Publication Date
CN113967909A true CN113967909A (zh) 2022-01-25
CN113967909B CN113967909B (zh) 2023-05-16

Family

ID=79586512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070047.1A Active CN113967909B (zh) 2021-09-13 2021-09-13 基于方向奖励的机械臂智能控制方法

Country Status (1)

Country Link
CN (1) CN113967909B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190232488A1 (en) * 2016-09-15 2019-08-01 Google Llc Deep reinforcement learning for robotic manipulation
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂系统约束运动规划方法
CN112313044A (zh) * 2018-06-15 2021-02-02 谷歌有限责任公司 用于机器人操纵的深度强化学习
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190232488A1 (en) * 2016-09-15 2019-08-01 Google Llc Deep reinforcement learning for robotic manipulation
CN112313044A (zh) * 2018-06-15 2021-02-02 谷歌有限责任公司 用于机器人操纵的深度强化学习
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN112171660A (zh) * 2020-08-18 2021-01-05 南京航空航天大学 一种基于深度强化学习的空间双臂系统约束运动规划方法
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN112433525A (zh) * 2020-11-16 2021-03-02 南京理工大学 基于模仿学习及深度强化学习的移动机器人导航方法
CN112435275A (zh) * 2020-12-07 2021-03-02 中国电子科技集团公司第二十研究所 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
CN112666939A (zh) * 2020-12-09 2021-04-16 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡晓东等: "一种动态环境下空间机器人的快速路径规划方法", 《空间控制技术与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法
CN114789444B (zh) * 2022-05-05 2022-12-16 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Also Published As

Publication number Publication date
CN113967909B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
US20220212342A1 (en) Predictive robotic controller apparatus and methods
US11161241B2 (en) Apparatus and methods for online training of robots
US8996177B2 (en) Robotic training apparatus and methods
Schaal et al. Computational motor control in humans and robots
Abreu et al. Learning low level skills from scratch for humanoid robot soccer using deep reinforcement learning
Li et al. Bio-inspired intelligence with applications to robotics: a survey
EP1974869A1 (en) Apparatus and method for generating and controlling the motion of a robot
CN115781685B (zh) 一种基于强化学习的高精度机械臂控制方法及系统
CN116533249A (zh) 基于深度强化学习的机械臂控制方法
CN113967909B (zh) 基于方向奖励的机械臂智能控制方法
Frazelle et al. Optimizing a continuum manipulator’s search policy through model-free reinforcement learning
Peng et al. Moving object grasping method of mechanical arm based on deep deterministic policy gradient and hindsight experience replay
CN114055471B (zh) 一种结合神经运动规划算法和人工势场法的机械臂在线运动规划方法
Gräve et al. Improving imitated grasping motions through interactive expected deviation learning
Man et al. Intelligent Motion Control Method Based on Directional Drive for 3-DOF Robotic Arm
Jiang et al. Motion sequence learning for robot walking based on pose optimization
Krause et al. Direct control of an active tactile sensor using echo state networks
Suzuki Generalization of Bernstein's problem toward autonomous action development of artificial muscle based robots
CN117140527B (zh) 一种基于深度强化学习算法的机械臂控制方法及系统
DiGiovanna et al. Towards real-time distributed signal modeling for brain-machine interfaces
Miyamoto et al. A kendama learning robot based on a dynamic optimization theory
Mitrovic Stochastic optimal control with learned dynamics models
CN115431253A (zh) 基于球形模块化自重构机器人的流动与操纵方法及装置
Barrera et al. Anticipatory visual perception as a bio-inspired mechanism underlying robot locomotion
Morasso et al. Motion planning and bimanual coordination in humanoid robots.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant