CN114851184B

CN114851184B - 一种面向工业机器人的强化学习奖励值计算方法

Info

Publication number: CN114851184B
Application number: CN202110078241.8A
Authority: CN
Inventors: 徐金雄; 班勃; 岑健; 熊建斌
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-05-09
Anticipated expiration: 2041-01-20
Also published as: CN114851184A

Abstract

本发明公开了一种面向工业机器人的强化学习奖励值计算方法，包括如下步骤：S1：工业机器人状态参数初始化计算；S2：工业机器人末端执行机构的位姿奖励值计算；S3：工业机器人碰撞奖励值计算；S4：工业机器人探索奖励值计算；S5：目标奖励值计算；本发明通过划分出目标附近区域和非目标附近区域，可以让工业机器人的末端在前期能快速靠近目标位置，在后期靠近目标位置的同时调整合适的姿态，加快工业机器人的探索过程；综合考虑了工业机器人各种状态信息(位置、姿态、碰撞等)，避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。

Description

一种面向工业机器人的强化学习奖励值计算方法

技术领域

本发明属于工业机器人技术领域，具体涉及一种面向工业机器人的强化学习奖励值计算方法。

背景技术

工业机器人是面向工业领域的多关节机械手或多自由度的机器装置，目前已在汽车制造、电器工业、金属制品业等重要行业领域中得到了广泛应用。但工业机器人在投入实际生产前都需要通过人工示教编程或人工离线编程对工业机器人的运动轨迹规划进行规划。这种人工规划方式最大的问题在于：无法根据作业任务的改变，自动对机器人的运动做出调整。

强化学习的出现，为工业机器人的智能运动轨迹规划提供了一种新方法。通过强化学习中的“探索-试错”机制，使得工业机器人具备自主学习能力，能根据任务需求自主完成轨迹规划任务。其中，强化学习算法中的奖励函数所提供的奖励值，是工业机器人能找到完成作业任务的关键。

但由于工业机器人状态和行为维度高，而且在运动轨迹规划中还需考虑机器人与障碍物之间的碰撞问题。因此如何设计出面向工业机器人的强化学习奖励值计算方法，是当前急需解决的问题。

发明内容

本发明的目的在于提供一种面向工业机器人的强化学习奖励值计算方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种面向工业机器人的强化学习奖励值计算方法，包括如下步骤：

S1：工业机器人状态参数初始化计算：

具体包括步骤：

(1)获取工业机器人作业环境中障碍物的三维点云分布{p₁,p₂,…,p_n}，以及工业机器人的目标位姿矩阵

(矩阵中R为3×3的旋转矩阵表示姿态，P为3×1的平移矩阵表示位置量)；

(2)根据工业机器人的D-H参数，计算初始时刻机器人末端执行机构的位姿矩阵：

上一时刻位姿矩阵：

和当前时刻的位姿矩阵

(3)根据位姿矩阵中的平移矩阵P，计算工业机器人末端执行机构初始时刻到目标的最短距离：D_st；上一时刻到目标的最短距离：D_t和当前时刻到目标的最短距离D_t+1；

(4)计算工业机器人当前时刻各关节连杆与障碍物之间的最短距离：d₁,d₂,d₃,…,d_i(表示第i个关节连杆到障碍物的距离)，以及末端执行机构与障碍物之间的最短距离：d_E；

(5)计算当前时刻工业机器人末端位姿矩阵与目标位姿矩阵中旋转矩阵之间的余弦夹角：

S2：工业机器人末端执行机构的位姿奖励值计算：

主要流程有：

(1)条件判断，若满足不等式D_t+1<0.1×D_st则工业机器人末端已进入目标附近区域；

(2)在目标附近区域，则位姿奖励值计算公式为：

(3)若未进入目标附近区域，则位姿奖励值计算公式为：

S3：工业机器人碰撞奖励值计算：

(1)找到工业机器人关节连杆和末端到障碍物之间的最短距离：

d_min＝min{d₁,d₂,...,d_i,d_E}

(2)利用下式计算碰撞奖励值的大小：

式中d_s表示安全距离，根据经验可以取20-30cm；d_d表示危险距离，根据经验可以取5-10cm；

S4：工业机器人探索奖励值计算：

(1)若未进入目标附近区域，则探索奖励值计算公式为：

(2)若进入目标附近区域，则探索奖励值计算公式为：

S5：目标奖励值计算：

式中Δθ_a表示末端姿态允许的偏差角度，ΔD表示末端位置允许的偏差量；

S6：总奖励值计算：

∑R＝R_pose+R_co+R_sec+R_aim。

优选的，所述目标位姿矩阵

中R为3×3的旋转矩阵表示姿态，P为3×1的平移矩阵表示位置量。

优选的，公式

表示离目标距离越近，姿态越接近目标姿态则奖励值越大；公式

表示离目标距离越近奖励值越大，不考虑末端的姿态。

优选的，

中“*”表示矩阵内积，“||||”表示矩阵的模，θ_t+1为两个矩阵的夹角。

优选的，公式

表示前期探索时，工业机器人末端位置若靠近目标位置则会受到一个小惩罚作为探索过程中的代价，若远离目标位置则会受到一个稍大的惩罚；

公式

表示后期探索时，工业机器人末端姿态若靠近目标姿态则会受到一个小惩罚作为探索过程中的代价，若远离目标姿态则会受到一个稍大的惩罚。

与现有技术相比，本发明的有益效果是：本发明提供的一种面向工业机器人的强化学习奖励值计算方法，本发明通过划分出目标附近区域和非目标附近区域，可以让工业机器人的末端在前期能快速靠近目标位置，在后期靠近目标位置的同时调整合适的姿态，加快工业机器人的探索过程；

综合考虑了工业机器人各种状态信息(位置、姿态、碰撞等)，避免工业机器人最终规划出来的运动轨迹存在姿态无法满足实际生产需求这一问题。

附图说明

图1为工业机器人各参量示意图；

图中：1工业机器人基座、2关节连杆Ⅰ、3关节连杆Ⅱ、4末端执行机构、5障碍物、6末端执行机构的目标位姿、7末端执行机构当前姿态的空间矢量、8末端执行机构目标姿态的空间矢量。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

与本发明相近的实现方案主要有：

1、李跃,邵振洲,等.面向轨迹规划的深度强化学习奖励函数设计[J].计算机工程与应用,2020。

该方法的核心思想为：利用机械臂末端与障碍物和目标点的相对方向和相对位置，为深度强化学习算法设计了一种新型方位奖励函数，包括位置奖励函数和方向奖励函数。其中位置奖励函数包括避障项和目标引导项，避障项负责警示机械臂，让其与障碍物保持一定的安全距离，目标引导项用于激励机械臂在避开障碍物的同时迅速到达目标点。方向奖励函数参照库伦定律障碍物与机械臂末端的关系可以表示为同种电荷间相互排斥，目标点与机械臂末端的关系则可以视为异种电荷的相互吸引。

存在问题：1、奖励值计算时只考虑机械臂末端的三维位置(x,y,z)，缺乏对机械臂末端姿态的考虑(空间旋转量的考虑)。2、只考虑机械臂末端与障碍物之间的碰撞问题，缺乏其它关节与障碍物之间的碰撞问题。

2、丘文波.工业机械臂智能路径规划研究[D].广东工业大学,2018。

该方法的核心思想为：根据机械臂的探索过程、是否与障碍发生碰撞以及是否到达目标位置来设定相应的奖励值。其中机械臂的探索成本指的是机械臂每一次探索后机械臂末端与目标点之间距离的程度来给予一定的惩罚，如果运动之后距离变大了，就给与一个大一点惩罚，如果变小的就给一个小一点的惩罚。机械臂的碰撞惩罚：机械臂碰到一个障碍物的时候直接给予一个大的惩罚。到达目标奖励：达到目标的奖励指的是到达目标后直接给予机械臂一个大的奖励，让机械臂学习到在进行路径探索过程中收达到目标会获得巨大奖励。

存在问题：1、奖励值计算时只考虑机械臂末端的三维位置(x,y,z)，缺乏对机械臂末端姿态的考虑。2、机械臂的碰撞惩罚，只考虑是否碰撞没有考虑与障碍之间的安全距离。

实施例1：本发明提供了一种面向工业机器人的强化学习奖励值计算方法，包括如下步骤：

S1：工业机器人状态参数初始化计算：

具体包括步骤：

上一时刻位姿矩阵：

和当前时刻的位姿矩阵

(3)根据位姿矩阵中的平移矩阵P，计算工业机器人末端执行机构初始时刻到目标的最短距离：D_st；上一时刻到目标的最短距离：D_t；和当前时刻到目标的最短距离D_t+1；

(式中“*”表示矩阵内积，“||||”表示矩阵的模，θ_t+1为两个矩阵的夹角)；

S2：工业机器人末端执行机构的位姿奖励值计算：

主要流程有：

(2)在目标附近区域，则位姿奖励值计算公式为：

(该公式表示离目标距离越近，姿态越接近目标姿态则奖励值越大)；

(3)若未进入目标附近区域，则位姿奖励值计算公式为：

(该公式表示离目标距离越近奖励值越大，不考虑末端的姿态)；

S3：工业机器人碰撞奖励值计算：

d_min＝min{d₁,d₂,...,d_i,d_E}

(2)利用下式计算碰撞奖励值的大小：

S4：工业机器人探索奖励值计算：

(1)若未进入目标附近区域，则探索奖励值计算公式为：

(该公式表面前期探索时，工业机器人末端位置若靠近目标位置则会受到一个小惩罚作为探索过程中的代价；若远离目标位置则会受到一个稍大的惩罚)；

(2)若进入目标附近区域，则探索奖励值计算公式为：

(该公式表面后期探索时，工业机器人末端姿态若靠近目标姿态则会受到一个小惩罚作为探索过程中的代价；若远离目标姿态则会受到一个稍大的惩罚)；

S5：目标奖励值计算：

S6：总奖励值计算：

∑R＝R_pose+R_co+R_sec+R_aim。

如图1的工业机器人各参量示意图中，1为工业机器人基座、2为关节连杆Ⅰ、3为关节连杆Ⅱ、4为末端执行机构、5为障碍物、6为末端执行机构的目标位姿、7为末端执行机构当前姿态的空间矢量、8为末端执行机构目标姿态的空间矢量。

关节连杆Ⅰ到障碍物之间的最短距离为d₁；

关节连杆Ⅱ到障碍物之间的最短距离为d₂；

末端执行机构到障碍物之间的最短距离为d_E；

末端执行机构到末端执行机构的目标位姿之间的距离为的D_t+1；

末端执行机构当前姿态的空间矢量和末端执行机构目标姿态的空间矢量之间的夹角为余弦夹角θ_t+1；

本发明主要解决的核心问题是利用强化学习算法对工业机器人进行运动轨迹规划时奖励值的计算问题。该问题直接影响工业机器人运动轨迹的规划结果以及规划时间，而现有的奖励值计算方法都存在一定的不足。

本发明根据末端与目标之间的距离划分出目标附近区域和非目标附近区域。不同区域下位姿奖励值和探索奖励值的计算方法各不相同。

奖励值的计算综合考虑了的机器人末端的位置和姿态信息，关节连杆和末端到障碍物之间的信息，机器人当前时刻与上一时刻的状态变化信息，以及是否到达目标位姿状态。

综上所述，与现有技术相比，本发明通过划分出目标附近区域和非目标附近区域，可以让工业机器人的末端在前期能快速靠近目标位置，在后期靠近目标位置的同时调整合适的姿态，加快工业机器人的探索过程；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。