CN114952828A

CN114952828A - 一种基于深度强化学习的机械臂运动规划方法和系统

Info

Publication number: CN114952828A
Application number: CN202210501902.8A
Authority: CN
Inventors: 彭刚; 杨进
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-30

Abstract

本发明公开了一种基于深度强化学习的机械臂运动规划方法和系统，其中方法包括：在仿真环境中的不同任务场景下对深度强化学习网络进行训练，将训练过程中产生的经验数据分别存储在成功经验回放池和失败经验回放池；将深度强化学习网络训练得到的损失值和奖励值输入神经网络，输出权重，按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至收敛，得到训练好的深度强化学习网络；将真实环境下识别的目标物体位姿映射到仿真环境中，将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络，得到最优路径。本发明数据利用率高、时间复杂度低、学习效率高、算法应用部署难度小。

Description

一种基于深度强化学习的机械臂运动规划方法和系统

技术领域

本发明属于智能机械臂控制领域，更具体地，涉及一种基于深度强化学习的机械臂运动规划方法和系统。

背景技术

在科学技术的推动下，机器人逐渐进入到各行各业，其可以代替或协助人类高效的完成复杂多样的任务，提高生产效率并且降低生产成本。但是传统机器人控制大都以人为主导，即机器人只会按照人所设定的程序逻辑进行相应动作，难以适应非结构化、不确定性环境。而人工智能技术的发展催生了智能机器人，相比一般机器人而言，其对随机变化环境的适应性更强，在智能算法的驱动下可以根据真实环境做出合理决策，且具有自主学习能力，可减少对人类专家知识经验的依赖。智能机器人兼具感知、运动、决策等多个要素，能够在一定程度上融合真实场景信息做出最合理的动作，更符合人类发展的需求。因此机器人智能化已然成为机器人未来发展的趋势，机械臂是机器人的一种，其应用广泛，有着丰富的应用场景。

近些年来，深度强化学习(Deep Reinforcement Learning，DRL)的发展如火如荼，并在游戏、智能交通、自动驾驶、智能医疗等领域都发挥了极大的作用。DRL结合了深度学习对环境信息的感知能力同时也兼具强化学习对经验数据的决策能力，通过模仿人的学习过程使智能体拥有类人化的思维。目前，DRL也被广泛应用于机械臂控制领域中，基于DRL的机械臂运动规划方法实现了深度学习和强化学习的优势互补，并结合常规的控制理论、机器人学等领域知识为机械臂智能控制提供新思路。

深度强化学习通常会利用传统经验回放机制来打破经验数据之间的相关性，以保证算法的稳定收敛，但是这种经验回放机制在抽样经验数据时并未考虑经验数据的重要程度，无法充分利用经验数据；之后有研究学者提出优先经验回放机制，利用经验数据的优先度选择性抽样，虽然在一定程度上解决了上述问题，但优先经验回放机制存在着时间复杂度高、超参数敏感的问题。其次，深度强化学习方法落地应用困难，目前基于深度强化学习的机械臂控制研究在仿真环境中大都能够取得很好的实验效果，但是迁移到真实机械臂上时实验效果往往会大打折扣。一方面是由于仿真环境与真实环境之间的差异，两者并不是完全对等的，在真实环境中存在很多干扰和噪声。另一方面，直接在真实机械臂上进行训练会对实体机械臂造成一定损耗，对于个人或小的研究机构而言是难以承受的损失。

由此可见，现有技术存在传统经验回放机制的经验数据利用率不足、优先经验回放机制时间复杂度高、超参数敏感、深度强化学习算法从仿真环境部署到真实环境的难度较大的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度强化学习的机械臂运动规划方法和系统，由此解决现有技术存在传统经验回放机制的经验数据利用率不足、优先经验回放机制时间复杂度高、超参数敏感、深度强化学习算法从仿真环境部署到真实环境的难度较大的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度强化学习的机械臂运动规划方法，包括：

在仿真环境中的不同任务场景下对深度强化学习网络进行训练，将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池；

当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时，将深度强化学习网络训练得到的损失值和奖励值输入神经网络，输出权重，按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，将训练得到新的损失值和奖励值输入神经网络，输出新的权重，按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至深度强化学习网络收敛，得到训练好的深度强化学习网络；

将真实环境下识别的目标物体位姿映射到仿真环境中，将仿真环境中机械臂的状态空间信息和目标物体位姿输入训练好的深度强化学习网络进行运动规划，得到真实环境下机械臂抓取目标物体的最优路径。

进一步地，所述训练时的任务场景包括：目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景，以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景。

进一步地，所述训练时的任务场景为任务一场景时，奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。

进一步地，所述姿态奖励函数为：

其中，R_original(D_PT)＝J_reach+R_dis(D_PT)+R_done+R_obstacle，J_reach表示任务状态项，即是否完成运动规划任务，完成即为1，未完成即为0，R_dis表示机械臂工具末端与目标点之间的曼哈顿距离D_PT的相反数，R_done表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励，R_obstacle表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值，

表示机械臂期望运动方向与实际运动方向的两个空间三维向量的夹角，

代表一个数学操作，兰

的值小于π/2时，

否则

R_posture表示姿态奖励值。

进一步地，所述步长奖励函数为：

其中，R_stride表示步长奖励值，

表示机械臂的关节速度向量，

表示机械臂的关节运动约束，

Δt表示机械臂对控制信号的响应时间，N_J表示机械臂的自由度。

进一步地，所述人工设置动态域奖励函数为：

R_MDA＝δ·[R_postureR_stride]^T＝δ_posture·R_posture+δ_stride·R_stride

其中，R_MDA表示人工设置动态域奖励值，δ由姿态系数δ_posture和步长系数δ_stride组成，将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离D_PT大于等于预设值的区域作为快速搜索区域，其余区域为慢速调整区域，快速搜索区域内姿态系数和步长系数分别为1和0，慢速调整区域内姿态系数和步长系数分别为0和1。

进一步地，所述自适应动态域奖励函数为：

R_ADA＝ρ₁R_stride+ρ₂R_posture

其中，R_ADA表示自适应动态域奖励值，ρ₁为步长权重系数，ρ₂为姿态权重系数，

表示对D_PT作约束，当D_PT大于1时则取1，ω₁和ω₂分别为ρ₁和ρ₂的调节参数，均大于0。

进一步地，所述训练时的任务场景为任务二场景时，奖励值通过自适应动态域奖励函数计算得到。

进一步地，所述深度强化学习网络的训练包括：

随机初始化深度强化学习网络参数，初始化成功经验回放池、失败经验回放池以及缓存池，随机初始化设置权重α_NSER；

在每个回合中，从仿真环境中的不同任务场景下的状态空间信息中获取初始状态s₁，将初始状态s₁输入深度强化学习网络，输出初始动作a₁，在该回合的后续每一步中，将第t步的状态s_t输入深度强化学习网络，输出动作a_t，执行动作a_t根据奖励函数计算奖励值r_t，转移到新状态s_t+1，在缓存池中存储经验数据(s_t，a_t，r_t，s_t+1)；

若在单个回合的最大时间步长内，机械臂完成了运动规划任务，则将该时间步长之前的所有经验数据存放于成功经验回放池中，否则将其存放于失败经验回放池中；

当成功经验回放池和失败经验回放池内的经验数据的数量均达到N_minibatch时，从成功经验回放池中随机采样α_NSER*N_minibatch个经验数据并且从失败经验回放池中随机采样(1-α_NSER)*N_minibatch个经验数据；

利用抽取的经验数据训练深度强化学习网络，将训练过程中形成的新的经验数据先放置于缓存池，然后按照任务执行状态分别添加至成功经验回放池和失败经验回放池；

将训练得到的损失值和奖励值输入神经网络，输出新的权重，按照新的权重从更新后的成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至深度强化学习网络收敛，得到训练好的深度强化学习网络。

按照本发明的另一方面，提供了一种基于深度强化学习的机械臂运动规划系统，包括：视觉传感器、仿真模块、深度强化学习网络、训练模块和真实机械臂控制模块；

所述视觉传感器，用于获取真实环境下的目标物体图像，识别目标物体位姿；

所述仿真模块，用于将真实环境下识别的目标物体位姿映射到仿真环境中；

所述深度强化学习网络，用于对仿真环境中机械臂的状态空间信息和目标物体位姿进行运动规划，得到真实环境下机械臂抓取目标物体的最优路径；

所述真实机械臂控制模块，用于控制真实机械臂按照最优路径运动。

所述训练模块，用于在仿真环境中的不同任务场景下对深度强化学习网络进行训练，将训练过程中产生的经验数据按照任务执行状态分别存储在成功经验回放池和失败经验回放池；当成功经验回放池和失败经验回放池中经验数据的数量均达到设定值时，将深度强化学习网络训练得到的损失值和奖励值输入神经网络，输出权重，按照权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，将训练得到新的损失值和奖励值输入神经网络，输出新的权重，按照新的权重从成功经验回放池和失败经验回放池中抽取经验数据送入深度强化学习网络进行训练，循环迭代至深度强化学习网络收敛，得到训练好的深度强化学习网络。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明将经验数据分别存储在成功经验回放池和失败经验回放池，使用神经网络学习抽取经验数据的权重，采用基于神经网络的分离经验回放池方法替代传统的经验回放机制以及优先经验回放机制，一方面可以提高深度强化学习算法对经验数据的利用率，另一方面，可以保证算法较低的时间复杂度，并且没有引入额外超参数，提高了算法的学习效率。利用深度强化学习网络训练得到的损失值和奖励值训练神经网络，用训练所得的权重抽取经验数据训练深度强化学习网络，如此，在保证较低时间复杂度的同时，提高了深度强化学习中经验数据的利用率，且能适应多种任务场景。利用基于多进程的仿真与真实环境联调的方式，低成本的实现了深度强化学习在真实环境中的应用，降低了机械臂在真实环境中基于深度强化学习算法进行训练所导致的损耗，同时可以保证实时性和准确性，减少了深度强化学习应用部署的难度。

(2)在训练时考虑了目标物体位置随机变化且在机械臂工作区域内无任何障碍物以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务场景，使得最终训练好的网络能够更好的适应多种机械臂运动规划任务场景，并且在不同任务场景中均具有较优的表现性能。进而使得本发明与现有传统的机械臂运动规划方法RRT Connect、PRM、EST相比，在不同运动规划任务场景中所规划出的路径长度是最短的。

(3)对于简单的任务场景，奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。对于复杂的任务场景，只有结合自适应动态域奖励机制的NSER-DDPG网络才收敛。

(4)本发明所提出的姿态奖励函数可以减少作为智能体的机械臂前期在环境中的无效探索，促使机械臂能够更快的接近目标点，从而加速算法收敛。步长奖励函数通过在姿态奖励函数的基础上增加步长约束项，可以使机械臂学到具有较短规划路径长度的运动规划策略。为了更好的综合姿态奖励函数和步长奖励函数的优势，本发明提出了动态域奖励函数机制，分为人工设置动态域和自适应动态域法，人工设置动态域奖励函数机制会根据机械臂末端与目标点之间的距离，人为的将机械臂的工作区域划分为快速搜索区域和慢速调整区域，在不同区域采用不同的奖励函数机制。本发明进一步提出了自适应动态域奖励函数，通过所设计的以机械臂工具末端到目标点之间的距离为自变量的一元函数计算得到一个权重值，将该权重值附加到姿态奖励函数和步长奖励函数上，从而实现姿态奖励函数和步长奖励函数的融合。通过实验验证表明，本发明所提出的自适应动态域奖励函数在不同机械臂运动规划任务场景、不同主流深度强化学习算法中均具有最优的表现性能，即其算法收敛后的回合奖励值最大，完成运动规划的时间步长数最少，且算法收敛后的回合标准差最小。通过实验验证了自适应奖励函数机制的有效性、鲁棒性以及一定的通用性。

(5)基于神经网络的分离经验回放池方法将原始经验数据回放池一分为二，分别叫做成功经验回放池和失败经验回放池。算法训练过程中，如果机械臂碰到障碍物或者未完成运动规划任务，则将此经验数据放入到失败经验回放池中，如果顺利完成运动规划任务，则将其放入到成功经验回放池中。而由于强化学习的回报延时性，因此需要把之前的经验数据也要存放到对应的经验回放池中，本发明通过新增一个缓存池来实现上述过程。算法训练时，需要从ER_success和ER_fail这两个经验回放池中选择累计N_minibatch个经验数据进行训练。倘若均从成功经验回放池中抽样经验数据，则有可能造成过拟合的现象；如果均从失败经验回放池中抽样经验数据，则有可能导致算法收敛较慢，难以学到有效的策略来完成任务。本发明为了解决这一问题，同时减少超参数给算法带来的调参影响，通过设计一个神经网络自学习权重系数α_NSER，将该权重系数附加于不同经验回放池上，从而进行经验数据采样。

附图说明

图1是本发明实施例提供的一种基于深度强化学习的机械臂运动规划方法的流程图；

图2是本发明实施例提供的NSER-DDPG算法框架示意图；

图3是本发明实施例提供的计算权重系数α_NSER的网络结构图；

图4是本发明实施例提供的多进程任务流程框图；

图5是本发明实施例提供的任务一仿真场景图；

图6是本发明实施例提供的任务二仿真场景图；

图7中(a)是本发明实施例提供的任务一真实场景的正视图；

图7中(b)是本发明实施例提供的任务一真实场景的侧视图；

图8中(a)是本发明实施例提供的任务二真实场景的正视图；

图8中(b)是本发明实施例提供的任务二真实场景的侧视图；

图9是本发明实施例提供的机械臂实际运动方向与期望运动方向示意图；

图10是本发明实施例提供的人工设置动态域示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于深度强化学习的机械臂运动规划方法，包括：

本发明使用所设计的基于神经网络的分离经验回放池(Neural Network basedExperience Replay Separation，NSER)方法替代DDPG中传统的经验回放(ExperienceReplay，ER)机制，得到改进后的NSER-DDPG算法。本发明使用NSER-DDPG算法与传统运动规划方法RRT Connect、PRM、EST相比，由于DDPG算法的特性，其针对同一位置目标点给出的策略动作始终保持一致；而传统运动规划方法针对同一位置目标点可能会规划出不同的路径，为了保证对比实验中路径长度的准确性和实验结果的可靠性，在使用传统运动规划方法进行规划时：针对同一目标点重复进行三轮规划，取这三轮所规划的路径长度的平均值作为结果。在每一轮规划中，算法搜索当前臂型到目标臂型的路径，并针对目标臂型搜索六次，选择可达到目标臂型的最短路径，从而保证每一轮运动规划所得到的路径均为本轮的最短路径。

原始DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度算法)中包含的四个网络的功能如表1所示，

表1 DDPG中的网络功能描述

如图2所示，所述深度强化学习网络的训练包括：

为了加快算法的收敛速度，降低对电脑算力的依赖程度，本发明所选择的状态信息(深度强化学习网络输入)不包含图像信息，选用6维机械臂关节角度信息

6维机械臂关节速度信息

和3维目标物体位置信息target³构成状态集合S¹⁵。

其中θ₁～θ₆分别表示机械臂六个关节角度值，单位为弧度(rad)；v₁～v₆分别表示机械臂六个关节速度，单位为弧度每秒(rad/s)；target³表示的是目标点的空间三维位置，单位为米(m)。机械臂控制系统的动作空间(深度强化学习网络输出)为6维机械臂关节角度集合。

基于神经网络的分离经验回放池方法将原始经验数据回放池一分为二，分别叫做成功经验回放池ER_success和失败经验回放池ER_fail。算法训练过程中，如果机械臂碰到障碍物或者未完成运动规划任务，则将此经验数据放入到失败经验回放池中，如果顺利完成运动规划任务，则将其放入到成功经验回放池中。而由于强化学习的回报延时性，因此需要把之前的经验数据也要存放到对应的经验回放池中，本发明通过新增一个缓存池来实现上述过程，该缓存池的容量与最大时间步长保持一致。算法训练时，需要从ER_success和ER_fail这两个经验回放池中选择累计N_minibatch个经验数据进行训练。倘若均从成功经验回放池中抽样经验数据，则有可能造成过拟合的现象；如果均从失败经验回放池中抽样经验数据，则有可能导致算法收敛较慢，难以学到有效的策略来完成任务。本发明为了解决这一问题，同时减少超参数给算法带来的调参影响，通过设计一个神经网络自学习权重系数α_NSER，将该权重系数附加于不同经验回放池上，从而进行经验数据采样。

用于计算权重系数α_NSER的网络结构设计图如图3所示。其输入为DDPG中Actor Net的loss值以及奖励值，其loss为奖励值的相反数，输出即为α_NSER。因此该网络中全连接层FC₁输入大小为2，输出大小为128；FC₂的输入大小即为FC₁的输出大小，FC₂输出大小为64；FC₁和FC₂层的激活函数均为ReLU。FC₃层实则为输出层，输入大小为64，输出大小为1，其激活函数为sigmoid。

一种基于深度强化学习的机械臂运动规划系统，包括：视觉传感器、仿真模块、深度强化学习网络、训练模块和真实机械臂控制模块；

如图4所示，开启机械臂运动规划任务时，同时启动一个视觉传感器进程、一个仿真环境进程、和一个真实机械臂控制进程。所述视觉传感器进程用于获取机械臂工作空间内的目标物体图像，根据标定结果计算得到目标物体在机械臂基坐标系下的位姿，实时显示图像数据流；所述仿真环境进程获取所述视觉传感器进程中计算得到的目标物体位姿信息，将其映射于仿真环境中，并加载训练好的深度强化学习网络，根据目标物体当前位姿和任务环境状态做出合理决策，同时根据策略执行动作后的结果进行语音播报提示，若存在可达且避免碰撞的规划策略，则控制真实机械臂进行运动；若不存在则通过语音播报提示机械臂无法运动的原因；所述真实机械臂控制进程用于控制真实机械臂按照最优路径运动。

所述训练时的任务场景包括：目标物体位置随机变化且在机械臂工作区域内无任何障碍物的任务一场景，如图5所示，以及目标物体位置随机变化且在机械臂工作区域内有多个障碍物的任务二场景，如图6所示。图7中(a)是任务一真实场景的正视图，图7中(b)是任务一真实场景的侧视图，图8中(a)是任务二真实场景的正视图，图8中(b)是任务二真实场景的侧视图。

进一步地，奖励值通过姿态奖励函数、步长奖励函数、人工设置动态域奖励函数或自适应动态域奖励函数计算得到。

进一步地，所述姿态奖励函数为：

其中，R_original(D_PT)＝J_reach+R_dis(D_PT)+R_done+R_obstacle，J_reach表示任务状态项，即是否完成运动规划任务，完成即为1，未完成即为0，R_dis表示机械臂工具末端与目标点之间的曼哈顿距离D_PT的相反数，R_done表示机械臂在规定的时间步长内完成轨迹任务所得到的额外奖励，例如，设置为+20，R_obstacle表示机械臂在运动规划过程中与工作空间内的障碍物发生碰撞的惩罚值，例如，设置为-20，

如图9所示，

表示机械臂期望运动方向PT与实际运动方向PP’的两个空间三维向量的夹角，

代表一个数学操作，当

的值小于π/2时，

否则

R_posture表示姿态奖励值。

进一步地，所述步长奖励函数为：

其中，R_stride表示步长奖励值，

表示机械臂的关节速度向量，

表示机械臂的关节运动约束，

Δt表示机械臂对控制信号的响应时间，N_J表示机械臂的自由度。例如，N_J为6，Δt为0.05。

进一步地，所述人工设置动态域奖励函数为：

R_MDA＝δ·[R_posture，R_stride]^T＝δ_posture·R_posture+δ_stride·R_stride

其中，R_MDA表示人工设置动态域奖励值，δ由姿态系数δ_posture和步长系数δ_stride组成，如图10所示，将机械臂的工作区域内机械臂工具末端与目标点之间的曼哈顿距离D_PT大于等于预设值(例如，预设值为0.5)的区域作为快速搜索区域，其余区域为慢速调整区域，快速搜索区域内姿态系数和步长系数分别为1和0，慢速调整区域内姿态系数和步长系数分别为0和1。

进一步地，所述自适应动态域奖励函数为：

R_ADA＝ρ₁R_stride+ρ₂R_posture

实施例1

在不同任务场景下就原始DDPG、PER-DDPG、NSER-DDPG三种算法进行对比实验。由于PER算法中α_PER超参数对算法最终性能有一定影响，因此本发明选择了不同的α_PER进行实验，分别为0.4、0.5、0.6、0.7、0.8。其中PER算法中β_PER设置为0.4，ε_PER设置为0.01，计算p_i的方式采用proportional prioritization方式。在任务一、任务二场景下就上述不同算法进行对比实验，实验表明，对于任务一场景来说，使用PER-DDPG算法，当设置α_PER为0.6或0.8时，将导致算法不收敛。在任务一中，对于PER-DDPG算法来说，当α_PER设置为0.5时，该算法具有最好的表现性能。对于任务二场景来说，使用PER-DDPG算法，当设置α_PER为0.6时，将导致算法不收敛。在任务二中，对于PER-DDPG算法来说，当α_PER设置为0.7时，该算法具有最好的表现性能。

本发明就DDPG、PER-DDPG和NSER-DDPG三类算法的时间复杂度进行对比实验，统计了单个时间步长下的平均采样、平均更新和平均总时间，如表2所示：

表2不同算法单个时间步长的平均采样、平均更新和平均总时间

方法	total time(s)	sample time(s)	update time(s)
				DDPG(R<sub>ADA</sub>)	0.13411	0.00091	0.00833
DDPG(R<sub>ADA</sub>)+PER	0.15618	0.00213	0.01668
				DDPG(R<sub>ADA</sub>)+NSER	0.13885	0.00094	0.00888

从表2中可以看出，PER-DDPG算法的时间复杂度明显高于其余两种算法，这是由于PER-DDPG算法在采样时根据经验数据的优先度进行采样，而在更新过程中，除了更新DDPG算法中的各个网络参数及其loss值，还需要进行重要性采样权重的计算以及经验数据的优先度更新。而NSER-DDPG算法相比PER-DDPG而言，时间复杂度较低，且根据上述实验表明可以取得较好的实验效果。

实施例2

NSER-DDPG算法开始训练前，首先随机初始化Actor Netμ(s|θ^μ)和Critic Net Q(s，a|θ^Q)的参数θ^μ和θ^Q，并初始化Target Actor Net和Target Critic Net的参数(θ^μ′←θ^μ，θ^Q′←θ^Q)，初始化成功经验回放池ER_success、失败经验回放池ER_fail以及缓存池ER_backup，并随机初始化设置α_NSER(α_NSER∈[0，1))。初始化阶段完成后，进入训练阶段，在每个episode(回合)开始时，初始化随机过程

获取初始状态s₁，并设置任务完成标志done＝False，在每个episode中的最大时间步长内，根据

选择动作，并在任务场景中执行该动作，根据奖励函数F_R(可选择上述所设计的四种奖励函数中的任意一种)获得奖励值r_t，转移到新状态s_t+1。从ER_success中随机采样α_NSER*N_minibatch个经验数据并且从ER_fai中随机采样(1-α_NSER)*N_minibatch个经验数据，根据最小化损失函数L更新Critic Net：

其中y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)，接着计算ActorNet loss，其定义为L_a＝-Q(s_i，a_i|θ^Q)，根据采样策略梯度更新Actor Net：

利用软更新机制更新Target Net，更新规则为θ^Q′←τθ^Q+(1--τ)θ^Q′、θ^μ′←τθ^μ+(1--τ)θ^μ′，接着利用所设计的神经网络计算α_NSER。在每个episode中所设置的最大时间步长内，如果机械臂完成了运动规划任务，则直接退出当前循环并进入下一个episode。训练过程中，需要先将经验数据(s_t，a_t，r_t，s_t+1)存储在一个缓存池中(用队列或列表等数据结构存储均可)，并根据任务状态(成功或失败)存储到对应的成功或失败经验回放池中，每个episode结束时清空缓存池，便于下一个episode内备份经验数据。

NSER-DDPG算法训练时，根据Actor Net网络学习到的策略，促使机械臂在机械臂任务场景中执行相应的动作，随后根据所设计的奖励函数机制计算得到该动作所对应的即时奖励，Critic Net根据动作和即时奖励值计算得到该动作对应的Q值，而Actor Net根据loss，即Q值的相反数进行策略更新和提升。在此过程中，将ActorNet计算得到的loss值以及即时奖励值传入到所设计的计算α_NSER的神经网络中，该神经网络的loss值为即时奖励值的相反数，据此更新该网络得到新的α_NSER值，根据α_NSER从成功和失败经验回放池中均匀采样经验数据，将经验数据送入NSER-DDPG主干网络(即DDPG所包含的网络)中进行训练，重复执行上述过程。

实施例3

为验证所提出的自适应动态域奖励函数机制的有效性，将所提出的姿态奖励函数、步长奖励函数、人工设置动态域奖励函数与自适应动态域奖励函数机制进行对比，基于DDPG算法在不同任务场景中进行实验，其中，在任务二场景中，当且仅当在自适应动态域奖励函数机制的激励作用下，DDPG算法才会收敛。

本发明所提出的姿态奖励函数可以减少作为智能体的机械臂前期在环境中的无效探索，促使机械臂能够更快的接近目标点，从而加速算法收敛。但是姿态奖励函数所得到的规划路径长度并不是最优的，而步长奖励函数通过在姿态奖励函数的基础上增加步长约束项，可以使机械臂学到具有较短规划路径长度的运动规划策略，但是步长奖励函数会导致算法的收敛时间较长，从而影响算法最终的表现性能。为了更好的综合姿态奖励函数和步长奖励函数的优势，本发明提出了动态域奖励函数机制，分为人工设置动态域和自适应动态域法，人工设置动态域奖励函数机制会根据机械臂末端与目标点之间的距离，人为的将机械臂的工作区域划分为快速搜索区域和慢速调整区域，在不同区域采用不同的奖励函数机制，这种方式中，奖励函数机制的切换过程是阶跃式的，势必会给算法带来一定的不稳定因素。为了解决这一问题，本发明进一步提出了自适应动态域奖励函数，通过所设计的以机械臂工具末端到目标点之间的距离为自变量的一元函数计算得到一个权重值，将该权重值附加到姿态奖励函数和步长奖励函数上，从而实现姿态奖励函数和步长奖励函数的融合。通过实验验证表明，本发明所提出的自适应动态域奖励函数在不同机械臂运动规划任务场景、不同主流深度强化学习算法中均具有最优的表现性能，即其算法收敛后的回合奖励值最大，完成运动规划的时间步长数最少，且算法收敛后的回合标准差最小。通过实验验证了自适应奖励函数机制的有效性、鲁棒性以及一定的通用性。

结合不同奖励函数机制的NSER-DDPG算法在不同任务场景中进行对比实验验证，为了更好的量化实验结果，设计如下四个实验评价指标：

①运动规划任务完成时或算法开始收敛时所对应的回合数E_start

②算法收敛后的回合奖励均值R_episode

③算法收敛后完成运动规划任务所需的平均时间步长数N_step

④算法收敛后的回合奖励标准差R_STDEV

其中E_start的含义如下：由于实验中设置奖励最大值为20，当在某个回合下奖励值稳定达到该上限的80％(稳定的标准为：在当前回合后的40个回合内策略动作所获得的回合奖励均值也维持在奖励上限的80％)，则认为运动规划任务在该回合完成，E_start即为该回合数。E_start越小表示算法收敛越快；R_episode的定义如下式所示，其中R_steps表示一个回合内所获得的奖励总和，r_i表示一个时间步长对应的奖励值，即一个状态动作对所对应的即时奖励，N_end表示跳出当前回合时所对应的时间步长数。R_episode越大，表示策略动作的表现越好。

N_step的定义如下式所示，其中

表示第i个回合完成运动规划任务所需的时间步长数，N_step自然越小越好，表示在当前策略引导下，作为智能体的机械臂能够更快完成运动规划任务；R_STOEV的定义如下式所示，

表示第i个回合的回合奖励值。R_STDEV用来表示任务完成后或算法开始收敛后的稳定性，R_STDEV越小越好。

表3任务一场景中，不同奖励机制激励下的算法训练过程中的评价指标结果

奖励函数	E<sub>start</sub>	R<sub>episode</sub>	N<sub>step</sub>	R<sub>STDEV</sub>
					R<sub>posture</sub>	6425	13.9399	14	10.0274
R<sub>stride</sub>	9119	14.5018	11	8.7643
					R<sub>MDA</sub>	7812	11.3648	16	12.5097
R<sub>ADA</sub>	4516	17.8508	8	6.4376

任务一场景中，不同奖励函数机制结合NSER-DDPG算法在训练过程中的实验效果如表3所示，从表中可以看出，基于自适应动态域奖励机制的DDPG算法有很好的表现性能。

在任务二场景下，只有结合自适应动态域奖励机制的NSER-DDPG算法才收敛，其在第6015个回合时开始收敛，收敛后的回合奖励均值R_episode为16.1622，完成运动规划任务所需的平均时间步长数N_step为9，回合奖励标准差R_STDEV为6.7696。

为了验证自适应奖励函数机制在其他主流深度强化学习算法上的适应性，本发明选择主流深度强化学习算法SAC算法在任务一场景下进行验证，实验结果如表4所示：

表4不同奖励激励下的SAC算法训练过程中的评价指标结果

奖励函数	E<sub>start</sub>	R<sub>episode</sub>	N<sub>step</sub>	R<sub>STDEV</sub>
					R<sub>posture</sub>	4400	14.0369	10	9.9619
R<sub>stride</sub>	4895	15.6193	9	8.1928
					R<sub>MDA</sub>	3255	14.7823	10	14.7823
R<sub>ADA</sub>	2686	15.8503	9	9.2950

从表4中可以看出，结合自适应动态域奖励机制的SAC算法有很好的表现性能，这也验证了自适应动态域奖励函数机制的适应性。

表5任务一场景下，NSER-DDPG结合不同奖励机制激励下的算法模型测试结果

奖励函数	成功率	T<sub>reward</sub>
			R<sub>posture</sub>	92.6％	15.7138
R<sub>stride</sub>	88.2％	14.0698
			R<sub>MDA</sub>	96.2％	16.4454
R<sub>ADA</sub>	99.0％	17.9495

NSER-DDPG算法结合不同奖励函数机制在任务一场景中进行模型测试的结果如表5所示，结合自适应动态域奖励函数机制的NSER-DDPG算法在任务一场景中的运动规划成功率可以达到99％。

结合自适应动态域奖励函数机制的NSER-DDPG算法在任务二场景中的运动规划成功率可以达到81.2％，获得的回合平均奖励为14.3752。

实施例4

在自适应动态域奖励函数中，ω₁和ω₂分别为ρ₁和ρ₂的调节参数，均大于0。一般的，令ω₁＝ω₂。ω₁，ω₂的取值会影响ρ₁，ρ₂的变化速率，间接影响自适应动态域奖励值，从而影响策略选择。分别令ω₁＝ω₂＝0.5，ω₁＝ω₂＝1.0，ω₁＝ω₂＝2.0，通过ρ₁，ρ₂的变化，分析ω₁，ω₂对最终策略选择的影响过程。实验时，除在计算R_ADA时选择不同的ω₁，ω₂以外，其余超参数均保持一致。表6中展示了选取不同ω₁，ω₂的DDPG算法训练过程中所对应的评价指标结果。

表6不同超参数下的DDPG算法训练过程中的评价指标结果

奖励函数	E<sub>start</sub>	R<sub>episode</sub>	N<sub>step</sub>	R<sub>STDEV</sub>
					ω<sub>1</sub>＝ω<sub>2</sub>＝0.5	4119	14.7656	11	9.5861
ω<sub>1</sub>＝ω<sub>2</sub>＝1.0	4516	16.0149	9	7.7522
					ω<sub>1</sub>＝ω<sub>2</sub>＝2.0	4967	15.2954	10	8.0541

综合上述图表，ω₁＝ω₂＝1.0时，DDPG算法在任务一场景中可以取得最好的实验效果，算法稳定收敛，收敛后获得的回合奖励最大，并且完成运动规划任务所需的时间步长最少。ω₁＝ω₂＝2.0或ω₁＝ω₂＝0.5时，其标准差较大，这表明算法不稳定收敛。因此，在选择ω₁，ω₂值时，可根据实际任务场景结合上述分析灵活应用。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。