CN114859911A

CN114859911A - 一种基于drl的四足机器人路径规划方法

Info

Publication number: CN114859911A
Application number: CN202210477781.8A
Authority: CN
Inventors: 陈利球; 陈根升; 牛宪伟; 王体方; 许政伟
Original assignee: Yunnan Honglingyun Technology Co ltd
Current assignee: Yunnan Honglingyun Technology Co ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-05

Abstract

本发明提供一种基于DRL的四足机器人路径规划方法，首先通过四足机器人自带的RGB‑D相机对环境进行预扫描，基于栅格法对运动环境进行建模得到环境地图，进而分解为一系列具有二值信息的栅格单元，得到初始状态，将其作为深度卷积神经网络的输入，引入注意力机制优化网络结构以解决深度强化学习DQN算法未能很好利用关键局部信息的问题；通过端对端训练，结合四足机器人的运动特点设置奖励函数，利用置信区间上界探索策略对神经网络进行训练，得到四足机器人所能够执行的八个动作的Q值；最后运用人工势场算法不断探测环境中的动态障碍物并进行实时避碍，实现有效的四足机器人路径规划。

Description

一种基于DRL的四足机器人路径规划方法

技术领域

本发明属于机器人路径规划技术领域，涉及一种基于深度强化学习的路径规划算法，采用DQN对全局信息进行规划，确定出一条最优路径后，基于人工势场算法，预测环境环境中的动态障碍物信息，进行实时避碍。

背景技术

随着机器人技术的发展，足式机器人被广泛应用于实际，如：灾后搜救、军事侦察等领域。相比较轮式、履带式机器人，足式机器人只需要寻找一系列离散的足散点来接触地面，对于一些崎岖的地形有较好的适应性；并且由于足式机器人的腿部具有多个自由度，其在运动时重心位置的调整具有很好的灵活性。

在足式机器人中，四足机器人以良好的负载能力和行走稳定性被广泛应用于实际。随着人工智能的兴起，四足机器人正朝着自探索、自学习、自适应的方向发展。四足机器人的自主导航过程可以分为环境感知、路径规划和运动控制三个过程。路径规划作为其中间环节，是移动机器人实现自主导航的关键技术，移动机器人路径规划结果的优劣程度将直接影响机器人完成任务的质量。

在移动机器人领域，路径规划一直是一大研究热点，其目的是规划出一条从起始点到目标点的最优无碰撞路径。传统的路径规划方法是基于物理模型构建机器人的运动环境，然后结合传统的搜索算法如粒子群优化算法来完成路径规划。然而这些方法需要提前搭建环境地图，对陌生的场景泛化能力差，四足机器人常常因无法绕过障碍物而陷在局部之中。并且在机器人的许多应用环境中，机器人的工作环境是复杂多样不可预测的，这要求机器人需要具有一定的智能程度，即具有自主学习能力和对环境的探索能力。另一方面，由于机器人在未知环境下，由于机器人对环境信息的掌握并不是很充足，为了让机器人成功地在未知环境下成功、高效地实现路径规划，需要机器人系统具有一定程度的适应能力和处理紧急情况的能力。因此，提高四足机器人对环境的适应性，对环境进行感知，对提高其路径规划的能力具有重大意义。

根据路径规划过程对环境信息的已知程度，路径规划可以分为全局路径规划和局部路径规划。其中应用较为广泛的全局路径规划有A*算法、dijkstra算法、自由空间法、可视图法等；局部路径规划算法有人工势场算法、遗传算法、强化学习算法等。

近年来，强化学习在四足机器人技术领域备受关注，在路径规划问题上有优秀的表现。强化学习作为一种重要的机器学习方法，其采用了“尝试与失败”机制，基于马尔可夫策略与环境不断交互与试错，根据环境反馈的立即奖励修改状态到动作的映射策略，从而获得最优行为策略。由于强化学习在学习过程中不需要先验知识，是通过与环境交互累计奖励来优化策略，因此其在求解复杂优化决策问题方面有着广泛的应用前景。

发明内容

本发明的目的是提供一种基于DRL的四足机器人路径规划方法，以解决四足机器人在复杂障碍物环境下(在该环境中不仅存在静态的已知障碍物还存在未知的动态障碍物)的路径规划问题。首先基于马尔可夫策略，对四足机器人运动环境进行建模，设置奖励函数，运用DQN算法对全局信息进行规划，得到一条最优或较优的路径；然后在全局规划的基础上，基于人工势场算法不断探测环境中的动态障碍物，进行实时避碍，使四足机器人的自主学习率和运动安全性均得到提高，避免陷在局部状态，其运动鲁棒性更强。

为到达上述目的，本发明通过如下技术方案来实现：一种基于DRL的四足机器人路径规划方法，包括如下步骤：

步骤S1、通过四足机器人的RGB-D相机对环境进行预扫描，基于栅格法对运动环境进行建模得到环境地图，将四足机器人、障碍物、目标位置均通过栅格坐标表示，得到初始状态；

步骤S2、将四足机器人运动环境分解为一系列具有二值信息的栅格单元，从而分成被障碍物占据的栅格和可自由通行的栅格；

步骤S3、基于马尔可夫决策过程进行建模，并初始化基本参数；

步骤S4、引入注意力机制优化神经网络模型，并建立DQN网络；

步骤S5、将提取到的状态特征和目标位置作为网络的输入，根据置信区间上界策略进行探索动作；

步骤S6、接下来在全局路径规划的基础上，运用人工势场算法不断探测环境中的动态障碍物，进行实时避碍；

步骤S7、执行动作，得到当前奖励值，不断通过目标值网络更新权重，以获取最佳的期望奖励，实现估计值网络的训练；

步骤S8、重复执行步骤S4、步骤S5和步骤S6，确定出一条最优的全局路径。

具体地，所述步骤S1中，在进行路径规划前，对四足机器人获得的环境图像进行分割处理，基于栅格法，将其运动环境定义为20*20的栅格图；如果在栅格中发现障碍物，则定义为障碍物位置；如果在栅格中发现目标点，则定义为目标位置。

具体地，所述步骤S2中，栅格图以每个栅格为基本单元，主要包括两种状态：若栅格中存在障碍物则定义为障碍栅格，否则为自由栅格；环境Map由栅格map_i构成，如公式(1)所示：

Map＝{map_i,map_i＝0或1,i为整数} (1)

其中map_i＝0表示该格为自由栅格，map_i＝1表示该格为障碍栅格。

具体地，所述S3中，建模方式和初始化参数的具体步骤如下：

步骤S3.1：基于马尔可夫决策过程对四足机器人的运动环境进行建模，其MDP定义如下：

(1)单智能体：四足机器人；

(2)动作空间：四足机器人沿着空白栅格进行移动，可以进行上下左右的移动，则其动作空间可以表示为A＝{0,1,2,3}，其中，0代表东，1代表东南，2代表南，3代表西南，4代表西，5代表西北，6代表北，7代表东北，方向为顺时针编码方向；

(3)状态空间：包括四足机器人的状态信息和t时刻障碍物的状态信息；四足机器人在t时刻的状态信息定义为S_t＝{(x,y),θ/2π,d_obj,d_aim}，其中(x,y)表示四足机器人在当前地图中的坐标，θ/2π表示其朝向，d_obj和d_aim分别表示距离最近障碍物和目标位置的距离。t时刻观察状态的第i个障碍物的状态表示为O_i＝{p_x,p_y,v_x,v_y,r}，分别表示障碍物的位置[p_x,p_y]、速度[v_x,v_y]和大小半径r；

(4)奖励函数：智能体通过环境的反馈来评价动作好坏，通过学习后选择奖励值最大的动作；当四足机器人抵达目标点或者障碍物时，给予一个固定的奖励值，同时本次路径规划结束；当四足机器人处于其他状态时，机器人距离目标点越近，在每一步的移动中，获得的奖励值越大；相反机器人距离障碍物越近，在每一步的移动中，会得到一个负奖励；这里将两个奖励值之和作为四足机器人执行一次动作后获得的最终的奖励，通过公式(2)计算：

四足机器人在执行动作时的奖励值函数如公式(3)所示：

其中，若是四足机器人到达目标点，奖励值为200；若是四足机器人与障碍物的最小距离小于设定值，表示与障碍物发生碰撞，奖励值为-200，在这两个条件下，四足机器人都会停止训练，否则，此时的奖励值由两部分组成：四足机器人与最近障碍物的距离信息的负奖励值，四足机器人与目标点距离信息的正奖励值；

步骤S3.2：初始化深度强化学习模型的基本参数的具体步骤为：强化学习学习率α∈(0,1),奖励折扣因子γ∈(0,1),贪婪因子ε，经验回放池容量L，目标值网络权重更新步长C，估计值网络随机参数θ，目标值网络参数θ’，迭代次数N，Q值函数的更新表达式如公式(4)所示：

Q(s_t,a)＝Q(s_t,a_t)+α(reward+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t) (4)

步骤S3.3：随机生成起始点坐标和目标点坐标，并确保起始点和目标点处不存在障碍物。

具体地，所述步骤S4中，基于DQN的全卷积神经网络模型如下：该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成，层间使用线性整流单元(ReLU)作为激活函数，卷积层的最终输出输入到Softmax函数中；在机器人路径规划问题中，选取具有最高价值的移动方向就可以得到问题的最优解。在网络中引入注意力机制可以充分利用特征的关键局部信息，它通过结构化方式选取输入的一部分，降低数据的维度，减少计算量。同时，它能够使神经网络更专注于利用输入数据中更关键的信息。环境特征提取的具体步骤如下：

(1)首先利用MLP对状态向量S_t和O_t进行特征提取，生成固定长度的状态特征向量，再进行特征融合得到n+1固定长度的特征向量e_i，i＝1,...,n+1，其中n表示环境中障碍物的个数；

(2)把得到的特征向量e_i作为第二层MLP的输入，将e_i分别输入到多层感知机φ_f和φ_a中分别求得成对的人机交互特征f_i和每个障碍物的注意力分数a_i，其中注意力分数指的是障碍物对四足机器人产生干扰的可能性大小；

f_i＝φ_f(e_i,w_f),i＝1,...,n+1 (5)

a_i＝φ_a(e_i,w_a),i＝1,...,n+1 (6)

(3)利用类Softmax对获得的注意力分数a_i进行归一化处理，与人机交互特征f_i线性组合得到环境障碍物特征C_t，如公式(7)所示：

(4)将环境障碍物特征C_t与四足机器人特征S_t进行特征融合得到特征H_t，将特征H_t输入到DQN网络中得到四足机器人下一时刻的最佳动作。

具体地，所述S5中，四足机器人动作选择策略的具体步骤为：采用置信区间上界(upper-confidence-bound,UCB)作为神经网络的探索策略，置信区间用于衡量一个随机变量分布的置信水平，当置信区间越大，越说明该变量不确定因素更大；UCB策略就是采用置信水平实现对开发与探索之间的平衡，如公式(8)所示：

a_t＝argmax(Q_t(a)+U_t(a)) (8)

其中N_t(a)表示动作a被选择的次数，lnt表示动作总次数的对数，c是一个权值；随着训练的进行，当前动作被采样的次数很低时，N_t(a)不变，而lnt在增加，U_t(a)值变大，不确定性越高，对应动作被执行的概率越大；反之亦然。

具体地，所述S6中，基于人工势场算法的实时避碍过程的具体步骤为：基于人工势场的思想，将四足机器人周围的运动虚拟化，障碍物会对其产生一个“斥力”，目标物会对其产生一个“引力”，“引力”和“斥力”势场函数分别如公式(9)、公式(10)所示：

其中：φ、η分别为引力和斥力增益系数；

ρ₀为障碍物能够影响四足机器人的距离；

ρ_g为目标点到四足机器人的欧氏距离；

ρ为障碍物影响区域到机器人的最小距离。

势场函数的负梯度即为相应的引力、斥力函数，分别如公式(11)、公式(12)表示：

机器人受到的合力F＝F_att+F_rep，该力决定了机器人的行走路径。

具体地，所述S7中，执行动作的具体步骤为：

步骤S7.1：执行选择的动作a_t，并根据奖励函数计算出所得到的奖励值reward_t，到达一个新的状态statet_t+1；

步骤S7.2：将state_t、a_t、reward_t、state_t+1组成经验集<state_t,a_t,reward_t,state_t+1>存入记忆池；由于经验池回放池的容量为L，当经验集的数量超过其容量时，则删除最早的经验集；

步骤S7.3：从经验回放池D中采用随机抽样的方式抽取小批量随机样本进行训练，根据目标值网络和经验集i计算出目标值y_i，计算方式如公式(13)如下：

步骤S7.4：通过反向传播使用梯度下降法更新估计值网络的权重θ；

步骤S7.5：每隔C步更新一次目标值网络的权重θ’，使得θ’＝θ；

步骤S7.6：当四足机器人到达目标位置或者与障碍物发生碰撞时，本次路径规划结束；

步骤S7.7：重复训练步骤。

本发明中，整个路径规划算法分为全局路径规划和局部路径规划，使用栅格法对四足机器人运动环境进行建模，运用DQN算法对全局信息进行规划，确定出一条最优或较优的路线，接下来再基于人工势场算法探测环境中动态障碍物信息，进行实时避碍，使四足机器人的自主学习率和运动安全性均得到提高，其运动鲁棒性更强，具有良好的泛化能力。

附图说明

图1是以示例性实施方式提供的基于注意力机制和深度强化学习的四足机器人实时避障与路径规划方法流程图；

图2是以示例性实施方式提供的四足机器人运动方向图；

图3是以示例性实施方式提供的四足机器人实时避障过程中使用的人工势场法受力分析图；

图4是以示例性实施方式提供的四足机器人实时避障与路径规划方法中深度强化学习DQN算法模型图。

具体实施方式

一种基于DRL的四足机器人路径规划方法，参考图1，该方法包括以下步骤：

步骤S2、将机器人运动环境分解为一系列具有二值信息的栅格单元，从而分成被障碍物占据的栅格和可自由通行的栅格；

步骤S5、将提取到环境状态特征和目标位置作为网络的输入，根据ε-greedy策略选择动作；

所述步骤S1中包括以下步骤：

栅格法是由W.E.Howden在1986年提出的，他在进行路径规划时采用了栅格表示地图。栅格法将机器人规划空间分解成一系列具有二值信息的网络单元，以基本元素为最小栅格粒度，将地图进行栅格划分。赋予每个栅格一个通行因子后，路径规划问题就变成在栅格网上寻求两个栅格节点间的最优路径问题。

在进行路径规划前，对四足机器人RGB-D相机获得的环境图像进行分割处理，基于栅格法，将其运动环境定义为20*20的栅格图。如果在栅格中发现障碍物，则定义为障碍物位置；如果在栅格中发现目标点，则定义为目标位置。

所述步骤S2中包括以下步骤：

栅格图以每个栅格为基本单元，主要包括两种状态：若栅格中存在障碍物则定义为障碍栅格取值为1，否则为自由栅格取值为0。环境Map由栅格map_i构成,其可以描述如下：

Map＝{map_i,map_i＝0或1,i为整数} (1)

所述步骤S3中包括以下步骤：

(1)单智能体：四足机器人；

(2)动作空间：四足机器人沿着空白栅格进行移动，可以进行上下左右的移动，则其动作空间可以表示为A＝{0,1,2,3}，其中，0代表东，1代表东南，2代表南，3代表西南，4代表西，5代表西北，6代表北，7代表东北，方向为顺时针编码方向，四足机器人工作方向如图2所示；

(3)状态空间：包括四足机器人的状态信息和t时刻障碍物的状态信息。四足机器人在t时刻的状态信息定义为S_t＝{(x,y),θ/2π,d_obj,d_aim}，其中(x,y)表示四足机器人在当前地图中的坐标，θ/2π表示其朝向，d_obj和d_aim分别表示距离最近障碍物和目标位置的距离。t时刻观察状态的第i个障碍物的状态表示为O_i＝{p_x,p_y,v_x,v_y,r}，分别表示障碍物的位置[p_x,p_y]、速度[v_x,v_y]和大小半径r；

四足机器人在执行动作时的奖励值函数如公式(3)所示：

步骤S3.2：初始化深度强化学习模型的基本参数的具体步骤为：设置强化学习学习率α＝0.01,奖励折扣因子γ＝0.9,贪婪因子ε，经验回放池容量L＝10000，目标值网络权重更新步长C，估计值网络随机参数θ，目标值网络参数θ’，迭代次数N＝12000，Q值函数的更新表达式如公式(4)所示：

Q(s_t,a)＝Q(s_t,a_t)+α(reward+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t) (4)

所述步骤S4中包括以下步骤：首先设计一个基于DQN的全卷积神经网络模型，可以最大限度地保留图像原有的空间信息，该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成，层间使用线性整流单元(ReLU)作为激活函数，卷积层的最终输出输入到Softmax函数中；由于在机器人路径规划问题中，选取具有最高价值的移动方向就可以得到问题的最优解；在网络中引入注意力机制可以充分利用特征的关键局部信息，它通过结构化方式选取输入的一部分，降低数据的维度，减少计算量。同时，它能够使神经网络更专注于利用输入数据中更关键的信息。具体步骤如下：

(2)把得到的特征向量e_i作为第二层MLP的输入。将e_i分别输入到多层感知机φ_f和φ_a中分别求得成对的人机交互特征f_i和每个障碍物的注意力分数a_i，其中注意力分数指的是障碍物对四足机器人产生干扰的可能性大小；

f_i＝φ_f(e_i,w_f),i＝1,...,n+1 (5)

a_i＝φ_a(e_i,w_a),i＝1,...,n+1 (6)

所述步骤S5中包括以下步骤：步骤S5中动作选择策略具体过程如下：ε-greedy探索策略在训练初期由于样本数量小不能有助于四足机器人很好的探索最优动作，本发明采用置信区间上界(upper-confidence-bound,UCB)作为神经网络的探索策略；置信区间用于衡量一个随机变量分布的置信水平，当置信区间越大，越说明该变量不确定因素更大，UCB策略就是采用置信水平实现对开发与探索之间的平衡，如公式(8)所示：

a_t＝argmax(Q_t(a)+U_t(a)) (8)

通常

其中N_t(a)表示动作a被选择的次数，lnt表示动作总次数的对数，c是一个权值。随着训练的进行，当前动作被采样的次数很低时，N_t(a)不变，而lnt在增加，U_t(a)值变大，不确定性越高，对应动作被执行的概率越大；反之亦然。

所述步骤S6中提到一种基于人工势场的局部路径规划算法包括以下步骤：

势场的方法是由Khatib最先提出的，他把机械手或者是移动机器人在环境中的运动视为在一种抽象的人造受力场中运动：目标点对机器人产生引力，障碍物对机器人产生斥力，最后基于人工势场的思想，将四足机器人周围的运动虚拟化，障碍物会对其产生一个“斥力”，目标物会对其产生一个“引力”。引力和斥力势场函数分别如公式(9)、公式(10)所示：

其中：φ、η分别为引力和斥力增益系数；

ρ₀为障碍物能够影响四足机器人的距离；

ρ_g为目标点到四足机器人的欧氏距离；

ρ为障碍物影响区域到机器人的最小距离。

机器人受到的合力F＝F_att+F_rep，该力决定了机器人的行走路径，如图3所示。

所述步骤S7中，本发明算法模型如图4所示，执行动作的过程包括以下步骤：

步骤S7.7：重复训练步骤。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于DRL的四足机器人路径规划方法，其特征在于，包括如下步骤：

步骤S6、运用人工势场算法不断探测环境中的动态障碍物，进行实时避碍；

2.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S1具体过程如下：在进行路径规划前，对四足机器人获得的环境图像进行分割处理：基于栅格法，将其运动环境定义为20*20的栅格图，如果在栅格中发现障碍物，则定义为障碍物位置；如果在栅格中发现目标点，则定义为目标位置。

3.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S2具体过程如下：栅格图以每个栅格为基本单元，包括两种状态：若栅格中存在障碍物则定义为障碍栅格，否则为自由栅格；环境Map由栅格map_i构成，其描述如下：

Map＝{map_i,map_i＝0或1,i为整数} (1)

其中，map_i＝0表示该格为自由栅格，map_i＝1表示该格为障碍栅格。

4.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S3具体包括如下步骤：

(1)单智能体：四足机器人；

(2)动作空间：四足机器人沿着空白栅格进行移动，进行上下左右的移动，则其动作空间可以表示为A＝{0,1,2,3,4,5,6,7}，其中，0代表东，1代表东南，2代表南，3代表西南，4代表西，5代表西北，6代表北，7代表东北，方向为顺时针编码方向；

(3)状态空间：包括四足机器人的状态信息和t时刻障碍物的状态信息；四足机器人在t时刻的状态信息定义为S_t＝{(x,y),θ/2π,d_obj,d_aim}，其中(x,y)表示四足机器人在当前地图中的坐标，θ/2π表示其朝向，d_obj和d_aim分别表示距离最近障碍物和目标位置的距离，t时刻观察状态的第i个障碍物的状态表示为O_i＝{p_x,p_y,v_x,v_y,r}，分别表示障碍物的位置[p_x,p_y]、速度[v_x,v_y]和大小半径r；

(4)奖励函数：智能体通过环境的反馈来评价动作好坏，通过学习后选择奖励值最大的动作；当四足机器人抵达目标点或者障碍物时，给予一个固定的奖励值，同时本次路径规划结束；当四足机器人处于其他状态时，机器人距离目标点越近，在每一步的移动中，获得的奖励值越大；相反机器人距离障碍物越近，在每一步的移动中，会得到一个负奖励；将两个奖励值之和作为四足机器人执行一次动作后获得的最终的奖励，通过公式(2)计算：

四足机器人在执行动作时的奖励值函数如公式(3)所示：

其中，若四足机器人到达目标点，奖励值为200；若四足机器人与障碍物的最小距离小于设定值，表示与障碍物发生碰撞，奖励值为-200，在这两个条件下，四足机器人都会停止训练，否则，此时的奖励值由两部分组成：四足机器人与最近障碍物的距离信息的负奖励值，四足机器人与目标点距离信息的正奖励值；

步骤S3.2：初始化深度强化学习模型的基本参数，基本参数包括：强化学习学习率α∈(0,1),奖励折扣因子γ∈(0,1),贪婪因子ε，经验回放池容量L，目标值网络权重更新步长C，估计值网络随机参数θ，目标值网络参数θ’，迭代次数N，Q值函数的更新表达式如公式(4)所示：

Q(s_t,a)＝Q(s_t,a_t)+α(reward+γmaxQ(s_t+1,a_t+1)-Q(s_t,a_t) (4)

5.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S4中的具体过程如下：

步骤S4.1：设计一个基于DQN的全卷积神经网络模型，能够最大限度地保留图像原有的空间信息，该网络模型由4个3*3空间尺寸的卷积层和1个1*1的特殊卷积层组成，层间使用线性整流单元作为激活函数，卷积层的最终输出输入到Softmax函数中；

步骤S4.2：在机器人路径规划问题中，选取具有最高价值的移动方向就得到问题的最优解；在网络中引入注意力机制能充分利用特征的关键局部信息，它通过结构化方式选取输入的一部分，降低数据的维度，减少计算量；同时，它能够使神经网络更专注于利用输入数据中更关键的信息，具体步骤如下：

f_i＝φ_f(e_i,w_f),i＝1,...,n+1 (5)

a_i＝φ_a(e_i,w_a),i＝1,...,n+1 (6)

6.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S5中动作选择策略具体过程如下：采用置信区间上界作为神经网络的探索策略，置信区间用于衡量一个随机变量分布的置信水平，当置信区间越大，越说明该变量不确定因素更大；UCB策略就是采用置信水平实现对开发与探索之间的平衡，如公式(8)所示：

a_t＝argmax(Q_t(a)+U_t(a)) (8)

其中Nt(a)表示动作a被选择的次数，lnt表示动作总次数的对数，c是一个权值；随着训练的进行，当前动作被采样的次数很低时，Nt(a)不变，而lnt在增加，U_t(a)值变大，不确定性越高，对应动作被执行的概率越大；反之亦然。

7.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S6中人工势场算法的实时避碍过程如下：将四足机器人周围的运动虚拟化，障碍物会对其产生一个“斥力”，目标物会对其产生一个“引力”；“引力”和“斥力”势场函数分别如公式(9)、公式(10)所示：

其中：

η分别为引力和斥力增益系数；

ρ₀为障碍物能够影响四足机器人的距离；

ρ_g为目标点到四足机器人的欧氏距离；

ρ为障碍物影响区域到机器人的最小距离；

8.如权利要求1所述的一种基于DRL的四足机器人路径规划方法，其特征在于：步骤S7包括如下步骤：

步骤S7.1：执行选择的动作at，并根据奖励函数计算出所得到的奖励值reward_t，到达一个新的状态statet_t+1；

步骤S7.7：重复训练步骤。