CN114851184B - 一种面向工业机器人的强化学习奖励值计算方法 - Google Patents

一种面向工业机器人的强化学习奖励值计算方法 Download PDF

Info

Publication number
CN114851184B
CN114851184B CN202110078241.8A CN202110078241A CN114851184B CN 114851184 B CN114851184 B CN 114851184B CN 202110078241 A CN202110078241 A CN 202110078241A CN 114851184 B CN114851184 B CN 114851184B
Authority
CN
China
Prior art keywords
industrial robot
target
calculating
pose
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110078241.8A
Other languages
English (en)
Other versions
CN114851184A (zh
Inventor
徐金雄
班勃
岑健
熊建斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110078241.8A priority Critical patent/CN114851184B/zh
Publication of CN114851184A publication Critical patent/CN114851184A/zh
Application granted granted Critical
Publication of CN114851184B publication Critical patent/CN114851184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种面向工业机器人的强化学习奖励值计算方法,包括如下步骤:S1:工业机器人状态参数初始化计算;S2:工业机器人末端执行机构的位姿奖励值计算;S3:工业机器人碰撞奖励值计算;S4:工业机器人探索奖励值计算;S5:目标奖励值计算;本发明通过划分出目标附近区域和非目标附近区域,可以让工业机器人的末端在前期能快速靠近目标位置,在后期靠近目标位置的同时调整合适的姿态,加快工业机器人的探索过程;综合考虑了工业机器人各种状态信息(位置、姿态、碰撞等),避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。

Description

一种面向工业机器人的强化学习奖励值计算方法
技术领域
本发明属于工业机器人技术领域,具体涉及一种面向工业机器人的强化学习奖励值计算方法。
背景技术
工业机器人是面向工业领域的多关节机械手或多自由度的机器装置,目前已在汽车制造、电器工业、金属制品业等重要行业领域中得到了广泛应用。但工业机器人在投入实际生产前都需要通过人工示教编程或人工离线编程对工业机器人的运动轨迹规划进行规划。这种人工规划方式最大的问题在于:无法根据作业任务的改变,自动对机器人的运动做出调整。
强化学习的出现,为工业机器人的智能运动轨迹规划提供了一种新方法。通过强化学习中的“探索-试错”机制,使得工业机器人具备自主学习能力,能根据任务需求自主完成轨迹规划任务。其中,强化学习算法中的奖励函数所提供的奖励值,是工业机器人能找到完成作业任务的关键。
但由于工业机器人状态和行为维度高,而且在运动轨迹规划中还需考虑机器人与障碍物之间的碰撞问题。因此如何设计出面向工业机器人的强化学习奖励值计算方法,是当前急需解决的问题。
发明内容
本发明的目的在于提供一种面向工业机器人的强化学习奖励值计算方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种面向工业机器人的强化学习奖励值计算方法,包括如下步骤:
S1:工业机器人状态参数初始化计算:
具体包括步骤:
(1)获取工业机器人作业环境中障碍物的三维点云分布{p1,p2,…,pn},以及工业机器人的目标位姿矩阵
Figure BDA0002908310900000021
(矩阵中R为3×3的旋转矩阵表示姿态,P为3×1的平移矩阵表示位置量);
(2)根据工业机器人的D-H参数,计算初始时刻机器人末端执行机构的位姿矩阵:
Figure BDA0002908310900000022
上一时刻位姿矩阵:
Figure BDA0002908310900000023
和当前时刻的位姿矩阵
Figure BDA0002908310900000024
(3)根据位姿矩阵中的平移矩阵P,计算工业机器人末端执行机构初始时刻到目标的最短距离:Dst;上一时刻到目标的最短距离:Dt和当前时刻到目标的最短距离Dt+1
(4)计算工业机器人当前时刻各关节连杆与障碍物之间的最短距离:d1,d2,d3,…,di(表示第i个关节连杆到障碍物的距离),以及末端执行机构与障碍物之间的最短距离:dE
(5)计算当前时刻工业机器人末端位姿矩阵与目标位姿矩阵中旋转矩阵之间的余弦夹角:
Figure BDA0002908310900000025
S2:工业机器人末端执行机构的位姿奖励值计算:
主要流程有:
(1)条件判断,若满足不等式Dt+1<0.1×Dst则工业机器人末端已进入目标附近区域;
(2)在目标附近区域,则位姿奖励值计算公式为:
Figure BDA0002908310900000026
(3)若未进入目标附近区域,则位姿奖励值计算公式为:
Figure BDA0002908310900000027
S3:工业机器人碰撞奖励值计算:
(1)找到工业机器人关节连杆和末端到障碍物之间的最短距离:
dmin=min{d1,d2,...,di,dE}
(2)利用下式计算碰撞奖励值的大小:
Figure BDA0002908310900000031
式中ds表示安全距离,根据经验可以取20-30cm;dd表示危险距离,根据经验可以取5-10cm;
S4:工业机器人探索奖励值计算:
(1)若未进入目标附近区域,则探索奖励值计算公式为:
Figure BDA0002908310900000032
(2)若进入目标附近区域,则探索奖励值计算公式为:
Figure BDA0002908310900000033
S5:目标奖励值计算:
Figure BDA0002908310900000034
式中Δθa表示末端姿态允许的偏差角度,ΔD表示末端位置允许的偏差量;
S6:总奖励值计算:
∑R=Rpose+Rco+Rsec+Raim
优选的,所述目标位姿矩阵
Figure BDA0002908310900000035
中R为3×3的旋转矩阵表示姿态,P为3×1的平移矩阵表示位置量。
优选的,公式
Figure BDA0002908310900000036
表示离目标距离越近,姿态越接近目标姿态则奖励值越大;公式
Figure BDA0002908310900000037
表示离目标距离越近奖励值越大,不考虑末端的姿态。
优选的,
Figure BDA0002908310900000041
中“*”表示矩阵内积,“||||”表示矩阵的模,θt+1为两个矩阵的夹角。
优选的,公式
Figure BDA0002908310900000042
表示前期探索时,工业机器人末端位置若靠近目标位置则会受到一个小惩罚作为探索过程中的代价,若远离目标位置则会受到一个稍大的惩罚;
公式
Figure BDA0002908310900000043
表示后期探索时,工业机器人末端姿态若靠近目标姿态则会受到一个小惩罚作为探索过程中的代价,若远离目标姿态则会受到一个稍大的惩罚。
与现有技术相比,本发明的有益效果是:本发明提供的一种面向工业机器人的强化学习奖励值计算方法,本发明通过划分出目标附近区域和非目标附近区域,可以让工业机器人的末端在前期能快速靠近目标位置,在后期靠近目标位置的同时调整合适的姿态,加快工业机器人的探索过程;
综合考虑了工业机器人各种状态信息(位置、姿态、碰撞等),避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。
附图说明
图1为工业机器人各参量示意图;
图中:1工业机器人基座、2关节连杆Ⅰ、3关节连杆Ⅱ、4末端执行机构、5障碍物、6末端执行机构的目标位姿、7末端执行机构当前姿态的空间矢量、8末端执行机构目标姿态的空间矢量。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
与本发明相近的实现方案主要有:
1、李跃,邵振洲,等.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020。
该方法的核心思想为:利用机械臂末端与障碍物和目标点的相对方向和相对位置,为深度强化学习算法设计了一种新型方位奖励函数,包括位置奖励函数和方向奖励函数。其中位置奖励函数包括避障项和目标引导项,避障项负责警示机械臂,让其与障碍物保持一定的安全距离,目标引导项用于激励机械臂在避开障碍物的同时迅速到达目标点。方向奖励函数参照库伦定律障碍物与机械臂末端的关系可以表示为同种电荷间相互排斥,目标点与机械臂末端的关系则可以视为异种电荷的相互吸引。
存在问题:1、奖励值计算时只考虑机械臂末端的三维位置(x,y,z),缺乏对机械臂末端姿态的考虑(空间旋转量的考虑)。2、只考虑机械臂末端与障碍物之间的碰撞问题,缺乏其它关节与障碍物之间的碰撞问题。
2、丘文波.工业机械臂智能路径规划研究[D].广东工业大学,2018。
该方法的核心思想为:根据机械臂的探索过程、是否与障碍发生碰撞以及是否到达目标位置来设定相应的奖励值。其中机械臂的探索成本指的是机械臂每一次探索后机械臂末端与目标点之间距离的程度来给予一定的惩罚,如果运动之后距离变大了,就给与一个大一点惩罚,如果变小的就给一个小一点的惩罚。机械臂的碰撞惩罚:机械臂碰到一个障碍物的时候直接给予一个大的惩罚。到达目标奖励:达到目标的奖励指的是到达目标后直接给予机械臂一个大的奖励,让机械臂学习到在进行路径探索过程中收达到目标会获得巨大奖励。
存在问题:1、奖励值计算时只考虑机械臂末端的三维位置(x,y,z),缺乏对机械臂末端姿态的考虑。2、机械臂的碰撞惩罚,只考虑是否碰撞没有考虑与障碍之间的安全距离。
实施例1:本发明提供了一种面向工业机器人的强化学习奖励值计算方法,包括如下步骤:
S1:工业机器人状态参数初始化计算:
具体包括步骤:
(1)获取工业机器人作业环境中障碍物的三维点云分布{p1,p2,…,pn},以及工业机器人的目标位姿矩阵
Figure BDA0002908310900000061
(矩阵中R为3×3的旋转矩阵表示姿态,P为3×1的平移矩阵表示位置量);
(2)根据工业机器人的D-H参数,计算初始时刻机器人末端执行机构的位姿矩阵:
Figure BDA0002908310900000062
上一时刻位姿矩阵:
Figure BDA0002908310900000063
和当前时刻的位姿矩阵
Figure BDA0002908310900000064
(3)根据位姿矩阵中的平移矩阵P,计算工业机器人末端执行机构初始时刻到目标的最短距离:Dst;上一时刻到目标的最短距离:Dt;和当前时刻到目标的最短距离Dt+1
(4)计算工业机器人当前时刻各关节连杆与障碍物之间的最短距离:d1,d2,d3,…,di(表示第i个关节连杆到障碍物的距离),以及末端执行机构与障碍物之间的最短距离:dE
(5)计算当前时刻工业机器人末端位姿矩阵与目标位姿矩阵中旋转矩阵之间的余弦夹角:
Figure BDA0002908310900000065
(式中“*”表示矩阵内积,“||||”表示矩阵的模,θt+1为两个矩阵的夹角);
S2:工业机器人末端执行机构的位姿奖励值计算:
主要流程有:
(1)条件判断,若满足不等式Dt+1<0.1×Dst则工业机器人末端已进入目标附近区域;
(2)在目标附近区域,则位姿奖励值计算公式为:
Figure BDA0002908310900000071
(该公式表示离目标距离越近,姿态越接近目标姿态则奖励值越大);
(3)若未进入目标附近区域,则位姿奖励值计算公式为:
Figure BDA0002908310900000072
(该公式表示离目标距离越近奖励值越大,不考虑末端的姿态);
S3:工业机器人碰撞奖励值计算:
(1)找到工业机器人关节连杆和末端到障碍物之间的最短距离:
dmin=min{d1,d2,...,di,dE}
(2)利用下式计算碰撞奖励值的大小:
Figure BDA0002908310900000073
式中ds表示安全距离,根据经验可以取20-30cm;dd表示危险距离,根据经验可以取5-10cm;
S4:工业机器人探索奖励值计算:
(1)若未进入目标附近区域,则探索奖励值计算公式为:
Figure BDA0002908310900000074
(该公式表面前期探索时,工业机器人末端位置若靠近目标位置则会受到一个小惩罚作为探索过程中的代价;若远离目标位置则会受到一个稍大的惩罚);
(2)若进入目标附近区域,则探索奖励值计算公式为:
Figure BDA0002908310900000081
(该公式表面后期探索时,工业机器人末端姿态若靠近目标姿态则会受到一个小惩罚作为探索过程中的代价;若远离目标姿态则会受到一个稍大的惩罚);
S5:目标奖励值计算:
Figure BDA0002908310900000082
式中Δθa表示末端姿态允许的偏差角度,ΔD表示末端位置允许的偏差量;
S6:总奖励值计算:
∑R=Rpose+Rco+Rsec+Raim
如图1的工业机器人各参量示意图中,1为工业机器人基座、2为关节连杆Ⅰ、3为关节连杆Ⅱ、4为末端执行机构、5为障碍物、6为末端执行机构的目标位姿、7为末端执行机构当前姿态的空间矢量、8为末端执行机构目标姿态的空间矢量。
关节连杆Ⅰ到障碍物之间的最短距离为d1
关节连杆Ⅱ到障碍物之间的最短距离为d2
末端执行机构到障碍物之间的最短距离为dE
末端执行机构到末端执行机构的目标位姿之间的距离为的Dt+1
末端执行机构当前姿态的空间矢量和末端执行机构目标姿态的空间矢量之间的夹角为余弦夹角θt+1
本发明主要解决的核心问题是利用强化学习算法对工业机器人进行运动轨迹规划时奖励值的计算问题。该问题直接影响工业机器人运动轨迹的规划结果以及规划时间,而现有的奖励值计算方法都存在一定的不足。
本发明根据末端与目标之间的距离划分出目标附近区域和非目标附近区域。不同区域下位姿奖励值和探索奖励值的计算方法各不相同。
奖励值的计算综合考虑了的机器人末端的位置和姿态信息,关节连杆和末端到障碍物之间的信息,机器人当前时刻与上一时刻的状态变化信息,以及是否到达目标位姿状态。
综上所述,与现有技术相比,本发明通过划分出目标附近区域和非目标附近区域,可以让工业机器人的末端在前期能快速靠近目标位置,在后期靠近目标位置的同时调整合适的姿态,加快工业机器人的探索过程;
综合考虑了工业机器人各种状态信息(位置、姿态、碰撞等),避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种面向工业机器人的强化学习奖励值计算方法,其特征在于:包括如下步骤:
S1:工业机器人状态参数初始化计算:
具体包括步骤:
(1)获取工业机器人作业环境中障碍物的三维点云分布{p1,p2,…,pn},以及工业机器人的目标位姿矩阵
Figure FDA0004168241240000011
矩阵中R为3×3的旋转矩阵表示姿态,P为3×1的平移矩阵表示位置量;
(2)根据工业机器人的D-H参数,计算初始时刻机器人末端执行机构的位姿矩阵:
Figure FDA0004168241240000012
上一时刻位姿矩阵:
Figure FDA0004168241240000013
和当前时刻的位姿矩阵
Figure FDA0004168241240000014
(3)根据位姿矩阵中的平移矩阵P,计算工业机器人末端执行机构初始时刻到目标的最短距离Dst,上一时刻到目标的最短距离Dt和当前时刻到目标的最短距离Dt+1
(4)计算工业机器人当前时刻各关节连杆与障碍物之间的最短距离d1,d2,d3,…,di,di表示第i个关节连杆到障碍物的距离;以及末端执行机构与障碍物之间的最短距离dE
(5)计算当前时刻工业机器人末端位姿矩阵与目标位姿矩阵中旋转矩阵之间的余弦夹角:
Figure FDA0004168241240000015
S2:工业机器人末端执行机构的位姿奖励值计算:
主要流程有:
(1)条件判断,若满足不等式Dt+1<0.1×Dst则工业机器人末端已进入目标附近区域;
(2)在目标附近区域,则位姿奖励值计算公式为:
Figure FDA0004168241240000021
(3)若未进入目标附近区域,则位姿奖励值计算公式为:
Figure FDA0004168241240000022
S3:工业机器人碰撞奖励值计算:
(1)找到工业机器人关节连杆和末端到障碍物之间的最短距离:
dmin=min{d1,d2,...,di,dE}
(2)利用下式计算碰撞奖励值的大小:
Figure FDA0004168241240000023
式中ds表示安全距离,根据经验取20-30cm;dd表示危险距离,根据经验取5-10cm;
S4:工业机器人探索奖励值计算:
(1)若未进入目标附近区域,则探索奖励值计算公式为:
Figure FDA0004168241240000024
(2)若进入目标附近区域,则探索奖励值计算公式为:
Figure FDA0004168241240000025
S5:目标奖励值计算:
Figure FDA0004168241240000026
式中Δθa表示末端姿态允许的偏差角度,ΔD表示末端位置允许的偏差量;
S6:总奖励值计算:
∑R=Rpose+Rco+Rsec+Raim
2.根据权利要求1所述的一种面向工业机器人的强化学习奖励值计算方法,其特征在于:公式
Figure FDA0004168241240000031
表示离目标距离越近,姿态越接近目标姿态则奖励值越大;公式
Figure FDA0004168241240000032
表示离目标距离越近奖励值越大,不考虑末端的姿态。
3.根据权利要求1所述的一种面向工业机器人的强化学习奖励值计算方法,其特征在于:
Figure FDA0004168241240000033
中“*”表示矩阵内积,“||||”表示矩阵的模,θt+1为两个矩阵的夹角。
4.根据权利要求1所述的一种面向工业机器人的强化学习奖励值计算方法,其特征在于:公式
Figure FDA0004168241240000034
表示前期探索时,工业机器人末端位置若靠近目标位置则会受到一个小惩罚作为探索过程中的代价,若远离目标位置则会受到一个稍大的惩罚;
公式
Figure FDA0004168241240000035
表示后期探索时,工业机器人末端姿态若靠近目标姿态则会受到一个小惩罚作为探索过程中的代价,若远离目标姿态则会受到一个稍大的惩罚。
CN202110078241.8A 2021-01-20 2021-01-20 一种面向工业机器人的强化学习奖励值计算方法 Active CN114851184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110078241.8A CN114851184B (zh) 2021-01-20 2021-01-20 一种面向工业机器人的强化学习奖励值计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110078241.8A CN114851184B (zh) 2021-01-20 2021-01-20 一种面向工业机器人的强化学习奖励值计算方法

Publications (2)

Publication Number Publication Date
CN114851184A CN114851184A (zh) 2022-08-05
CN114851184B true CN114851184B (zh) 2023-05-09

Family

ID=82623535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110078241.8A Active CN114851184B (zh) 2021-01-20 2021-01-20 一种面向工业机器人的强化学习奖励值计算方法

Country Status (1)

Country Link
CN (1) CN114851184B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115533924B (zh) * 2022-12-01 2023-02-28 北京航空航天大学杭州创新研究院 协同运动控制方法及装置、机器人控制设备和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3031585A2 (en) * 2014-12-09 2016-06-15 Toyota Jidosha Kabushiki Kaisha Collision avoidance method, control device, and program
WO2017199196A1 (en) * 2016-05-19 2017-11-23 Politecnico Di Milano Method and device for controlling the motion of one or more collaborative robots
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018146769A1 (ja) * 2017-02-09 2018-08-16 三菱電機株式会社 位置制御装置及び位置制御方法
DE102018204740A1 (de) * 2017-03-31 2018-10-04 Fanuc Corporation Aktionsinformationslernvorrichtung, Robotersteuersystem und Aktionsinformationslernverfahren
WO2018205778A1 (zh) * 2017-05-11 2018-11-15 苏州大学张家港工业技术研究院 基于深度带权双q学习的大范围监控方法及监控机器人
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
CN110802598A (zh) * 2019-11-26 2020-02-18 广东技术师范大学 基于多蚁群迭代寻优算法的焊接机器人路径规划方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN111360834A (zh) * 2020-03-25 2020-07-03 中南大学 一种基于深度强化学习的仿人机器人运动控制方法及系统
CN111515932A (zh) * 2020-04-23 2020-08-11 东华大学 一种基于人工势场与强化学习的人机共融流水线实现方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111829528A (zh) * 2020-07-27 2020-10-27 中国科学院自动化研究所 仿生滑翔机器海豚的实时路径规划方法及系统
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018126796A (ja) * 2017-02-06 2018-08-16 セイコーエプソン株式会社 制御装置、ロボットおよびロボットシステム
CN109987169B (zh) * 2017-12-29 2021-01-08 深圳市优必选科技有限公司 双足机器人的步态控制方法、装置、终端设备及介质
US10695911B2 (en) * 2018-01-12 2020-06-30 Futurewei Technologies, Inc. Robot navigation and object tracking
JP6970078B2 (ja) * 2018-11-28 2021-11-24 株式会社東芝 ロボット動作計画装置、ロボットシステム、および方法
CN111380514A (zh) * 2018-12-29 2020-07-07 深圳市优必选科技有限公司 机器人位姿估计方法、装置、终端及计算机存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3031585A2 (en) * 2014-12-09 2016-06-15 Toyota Jidosha Kabushiki Kaisha Collision avoidance method, control device, and program
WO2017199196A1 (en) * 2016-05-19 2017-11-23 Politecnico Di Milano Method and device for controlling the motion of one or more collaborative robots
JP2018030185A (ja) * 2016-08-23 2018-03-01 ファナック株式会社 人とロボットが協働して作業を行うロボットの動作を学習する機械学習器、ロボットシステムおよび機械学習方法
WO2018146769A1 (ja) * 2017-02-09 2018-08-16 三菱電機株式会社 位置制御装置及び位置制御方法
DE102018204740A1 (de) * 2017-03-31 2018-10-04 Fanuc Corporation Aktionsinformationslernvorrichtung, Robotersteuersystem und Aktionsinformationslernverfahren
WO2018205778A1 (zh) * 2017-05-11 2018-11-15 苏州大学张家港工业技术研究院 基于深度带权双q学习的大范围监控方法及监控机器人
WO2019241680A1 (en) * 2018-06-15 2019-12-19 Google Llc Deep reinforcement learning for robotic manipulation
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN110802598A (zh) * 2019-11-26 2020-02-18 广东技术师范大学 基于多蚁群迭代寻优算法的焊接机器人路径规划方法
CN110883776A (zh) * 2019-11-29 2020-03-17 河南大学 一种快速搜索机制下改进dqn的机器人路径规划算法
CN111360834A (zh) * 2020-03-25 2020-07-03 中南大学 一种基于深度强化学习的仿人机器人运动控制方法及系统
CN111515932A (zh) * 2020-04-23 2020-08-11 东华大学 一种基于人工势场与强化学习的人机共融流水线实现方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111829528A (zh) * 2020-07-27 2020-10-27 中国科学院自动化研究所 仿生滑翔机器海豚的实时路径规划方法及系统
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于强化学习的煤矸石分拣机械臂智能控制算法研究;张永超等;《工矿自动化》;第47卷(第1期);全文 *
面向轨迹规划的深度强化学习奖励函数设计;李跃等;《计算机工程与应用》;第56卷(第2期);全文 *

Also Published As

Publication number Publication date
CN114851184A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN108000501B (zh) 一种用于串联机器人的新型轨迹规划方法
CN110561440B (zh) 一种冗余度机械臂加速度层多目标规划方法
JP5114019B2 (ja) エフェクタの軌道を制御するための方法
CN107966907B (zh) 一种应用于冗余度机械臂的障碍物躲避解决方法
CN109901397B (zh) 一种使用粒子群优化算法的机械臂逆运动学方法
CN108772835B (zh) 一种障碍物与物理极限躲避方法
CN114851184B (zh) 一种面向工业机器人的强化学习奖励值计算方法
Zanchettin et al. A novel passivity-based control law for safe human-robot coexistence
Doan et al. Optimal redundancy resolution for robotic arc welding using modified particle swarm optimization
Ide et al. Real-time trajectory planning for mobile manipulator using model predictive control with constraints
Furukawa Time-subminimal trajectory planning for discrete non-linear systems
Chen et al. Energy saving control approach for trajectory tracking of autonomous mobile robots
CN110026986B (zh) 多臂协同作业柔顺控制方法
Liu et al. A force field method based multi-robot collaboration
Campos de Almeida et al. Automated synthesis of modular manipulators’ structure and control for continuous tasks around obstacles
CN114378830B (zh) 一种机器人腕关节奇异规避方法及系统
Sun et al. Development of the “Quad-SCARA” platform and its collision avoidance based on Buffered Voronoi Cell
Keshmiri et al. Performance comparison of various navigation guidance methods in interception of a moving object by a serial manipulator considering its kinematic and dynamic limits
Sun et al. Hybrid task constrained planner for robot manipulator in confined environment
Vergara et al. Generating reactive approach motions towards allowable manifolds using generalized trajectories from demonstrations
Mironov et al. Model predictive control with torque constraints for velocity-driven robotic manipulator
Jin et al. A synthetic algorithm for tracking a moving object in a multiple-dynamic obstacles environment based on kinematically planar redundant manipulators
Chen et al. Adaptive Stiffness Visual Servoing for Unmanned Aerial Manipulators With Prescribed Performance
CN114347036B (zh) 优化机械臂关节中心距离和关节运动范围的方法
CN117075525B (zh) 基于约束型模型预测控制的移动机器人控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant