CN111552183B

CN111552183B - 一种基于自适应权重强化学习的六足机器人避障方法

Info

Publication number: CN111552183B
Application number: CN202010416376.6A
Authority: CN
Inventors: 李华雄; 任其成; 陈春林; 王岚; 唐开强; 王子辉; 朱张青; 辛博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-05-17
Filing date: 2020-05-17
Publication date: 2021-04-23
Anticipated expiration: 2040-05-17
Also published as: CN111552183A

Abstract

本发明公开了一种基于自适应权重强化学习的六足机器人避障方法，步骤包括：由六足机器人通过测距传感器测量机器人与附近各个障碍物的距离，并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合；根据有限的状态集合建立六足机器人避障模型，再利用自适应权重强化学习算法学习出最优网络模型参数θ*；根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略，由最优目标策略获得六足机器人在t时刻避障所要采取的动作a_t。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果，具有良好的市场应用前景。

Description

一种基于自适应权重强化学习的六足机器人避障方法

技术领域

本发明涉及一种机器人避障方法，尤其是一种基于自适应权重强化学习的六足机器人避障方法。

背景技术

六足机器人在结构上具有多冗余自由度，因而具有较高的地形环境适应能力。六足机器人能够在路况复杂的野外行走、越障，完成轮式或履带式所不能完成的非结构性环境中的运输作业，在森林采伐、矿山开采、水下建筑、核工业、军事运输及探测、星球探测等领域有着非常广阔的应用前景。因此，六足机器人的相关研究一直备受各国专家学者的关注，但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。

传统的六足机器人步行运动采取固定步态的方法，如三足步态、四足步态、波动步态等，研究者把几种不同的步态根据参数的不同分别做成几组步态数据，当有不同需求的时候调用。利用这种步态能够在平面上表现出良好的行走能力，但在不规则地形特别是未知环境中，机器人则没有办法实现稳定的行走，因此迫切需要一种能够适应未知地形的步态规划方法。

为了能够使六足机器人适应复杂非结构路况，需要用到机器学习的方法。在机器学习中，强化学习(Reinforcement Learning)属于较为活跃的领域，在解决决策等方面其的应用极为广泛。强化学习相比于其他学习法，其属于智能体与环境进行交互的过程。从延迟奖励当中对此近似过程开展学习工作则属于智能体的根本任务，试错学习为该任务的核心学习思想，此工作旨在选择最佳的动作序列，基于此获取最多的报酬。

发明内容

发明目的：提供一种基于自适应权重强化学习的六足机器人避障方法，能够使得六足机器人在复杂工作环境中作业。

技术方案：本发明所述的基于自适应权重强化学习的六足机器人避障方法，包括如下步骤：

步骤1，由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离，并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合；

步骤2，根据有限的状态集合建立六足机器人避障模型，再利用自适应权重强化学习算法学习出最优网络模型参数θ*；

步骤3，根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略，由最优目标策略获得六足机器人在t时刻避障所要采取的动作a_t。

进一步的，步骤1中，通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为：

步骤1.1，利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离，测距传感器每三个分为一组，三组传感器分别位于机器人的前侧、左侧以及右侧，假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3，且a1、a2和a3为前侧三个测距传感器的测量值，b1、b2和b3为左侧三个测距传感器的测量值，c1、c2和c3为右侧三个测距传感器的测量值，再通过公式(1)进行处理：

式中，a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离，R^aV为前侧三个测距传感器距离机器人定位中心的平均距离，R^bV为左侧三个测距传感器距离机器人定位中心的平均距离，R^cV为右侧三个测距传感器距离机器人定位中心的平均距离，机器人定位中心为机器人中的定位传感器安装位置；

步骤1.2，利用模糊隶属度函数对距离进行模糊化，从而转化为有限的状态集合：

每个障碍物距离都对应近、中、远三个隶属度，从而将六足机器人的障碍物信息便转化为27个状态，式中x为障碍物距离，F(x)为隶属度。

进一步的，步骤2中，利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为：

步骤2.1，根据有限的状态集合在python中建立六足机器人避障模型；

步骤2.2，设定大循环参数k，且1≤k≤K，K表示终止时刻；

步骤2.3，记录k时刻六足机器人从环境中获得的回报值r_k以及k时刻六足机器人的状态s_k，将样本(s_k-1,a_k-1,r_k-1，s_k)存入回放存储中并设置

其中a_k-1表示在状态s_k-1下六足机器人采取的动作，r_k-1表示六足机器人对应获得的回报值，CIF为对应样本复杂度指示函数，

表示最大的复杂度指示函数中的最大值；

步骤2.4，设定小循环参数m，且m的初始值为1；

步骤2.5，当m≤M时，其中M表示神经网络训练的批大小，根据式(3)自适应选择合适的训练样本：

式(3)中，m作为对应样本编号，P(m)为编号m样本的采样概率，ψ为指数随机因子，CIF为对应样本复杂度指示函数，指数随机因子ψ→[0，1]决定采用优先级的程度，当ψ值为0时，为均匀采样，当ψ值为1时，为优先级采样；

步骤2.6，计算对应样本的时间差分误差δ_m：

式(4)中，r_m为样本m时六足机器人从环境中获得的回报值，γ∈[0，1]为折扣因子，s_m+1为s_m的下一个状态，a_m+1为状态s_m+1下的动作，θ^-为目标Q值网络参数，θ为主深度Q值网络参数；

步骤2.7，计算编号m样本的重要性采样权重w_m：

式(5)中，D为回放存储的容量，P(m)为状态样本序列x_m＝(s_m,a_m,r_m,s_m+1)的采样概率，β为补偿系数，

表示重要性采样权重参数中的最大值；

步骤2.8，计算权重变化量：

式(6)中，Δ是权重变化率，初始化为0，

表示目标Q值网络对参数θ的导数；

步骤2.9，根据复杂度指示函数式(7)计算编号m样本的复杂度；

CIF_m＝RAF(r_m,δ_m)+ηCPF(cn_m+1) (7)

式(7)中，RAF(r_m,δ_m)为样本回报值的重要性参数，CPF(cn_m+1)被定义为样本的使用次数的影响参数，为单调递增的函数，且值域在0到1之间，cn_m+1是样本对应的使用次数，η为样本的覆盖惩罚项的权衡参数；

RAF(r_m,δ_m)的计算公式为：

RAF(r_m,δ_m)＝|δ_m|*RWF(r_m)+τ (8)

式(8)中，τ为一个较小的正数，RWF(r_m)的计算公式为：

CPF(cn_m+1)的计算公式为：

式(10)中，p和q均大于0，且为两个预设常数；

步骤2.10，m的值自加1，若m≤M，则返回步骤2.5，若m＞M，则结束小循环进入步骤2.11；

步骤2.11，利用随机梯度下降更新主深度Q值网络参数，更新公式为：

SGD(θ←θ+λ*Δ,and reset Δ＝0) (11)

式(11)中λ为更新步长，式(12)中y为样本m对应的理论标记值，Loss(θ；Q,y)为损失函数，式(13)中_θLoss为损失函数Loss(θ；Q,y)对其中的参数θ的导数；

步骤2.12，延迟更新目标Q值网络参数：

θ^-←θ (14)

式(14)在计算过程中应保持目标Q值网络参数θ的固定，参数的更新应隔一段时间更新一次；

步骤2.13，六足机器人根据式(15)选择m时刻目标策略对应的动作a_m为：

式(15)中，s_m表示六足机器人m时刻对应的状态，π为避障的目标策略，p_m表示选择这个动作的概率，ε为一个较小的正数；

步骤2.14，k的值自加1，若k≤K，则返回步骤2.3，若k＞K且公式(12)中的Loss(θ；Q,y)的单调减少而收敛到最小值，则结束大循环，得到了最优网络模型参数θ*。

进一步的，步骤2.9中，η的参数预设值为：η∈{0.2，0.3，0.4}；步骤2.11中，更新步长λ的初始值为0.00025；步骤2.13中，参数ε设置为0.01；步骤2.9中，两个预设常数p和q分别为2和20。

进一步的，步骤3中，利用最优目标策略获得六足机器人在k时刻避障所要采取的动作a_k的具体步骤为：

步骤3.1，根据步骤2中学习出的最优网络模型参数θ*，得到六足机器人在t时刻避障的最优目标策略：

式(16)中，s_t表示六足机器人t时刻对应的状态，π*为避障的最优目标策略，p_t表示选择这个动作的概率，ε设置为0.01；

步骤3.2，利用最优目标策略获得六足机器人在t时刻避障所要采取的动作：

a_t～π*(s_t) (17)

式(17)中，a_t表示六足机器人在t时刻避障所要采取的动作。

本发明与现有技术相比，其有益效果是：(1)将权重自适应概念应用到深度强化学习中，让智能体的学习过程能够循序渐进；(2)设计了复杂度指示函数作为样本复杂性的评价标准，样本复杂度函数的设置保证了样本数据的有效性和效率性；(3)回报值自适应函数考虑了正负回报值对经验排序的影响，相当于在优先经验回放的基础上二次调整权重；(4)设计的覆盖惩罚函数可以记录状态样本的使用次数，并且它是一个单调递减函数，因此状态样本使用的次数越多，那么下一次它被选中的几率就会降低，有效的避免在实验过程中出现过拟合和欠拟合现象；(5)通过自适应权重强化学习算法学习出最优网络参数和相应状态的最优策略，从而得出六足机器人的最优动作。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本发明公开的基于自适应权重强化学习的六足机器人避障方法，包括如下步骤：

步骤2.2，设定大循环参数k，且1≤k≤K，K表示终止时刻；

步骤2.3，记录k时刻六足机器人从环境中获得的回报值r_k以及k时刻六足机器人的状态s_k，将样本(s_k-1,a_k-1,r_k-1,s_k)存入回放存储中并设置

表示最大的复杂度指示函数中的最大值；

步骤2.4，设定小循环参数m，且m的初始值为1；

式(3)中，m作为对应样本编号，P(m)为编号m样本的采样概率，ψ为指数随机因子，CIF为对应样本复杂度指示函数，指数随机因子ψ→[0,1]决定采用优先级的程度，当ψ值为0时，为均匀采样，当ψ值为1时，为优先级采样，加入随机因子的作用是可以在优先级抽样和均匀采样之间取得平衡，从而保证训练样本的多样性；

步骤2.6，计算对应样本的时间差分误差δ_m：

式(4)中，r_m为样本m时六足机器人从环境中获得的回报值，γ∈[0,1]为折扣因子，s_m+1为s_m的下一个状态，a_m+1为状态s_m+1下的动作，θ^-为目标Q值网络参数，θ为主深度Q值网络参数，目标Q值网络实际上为主深度Q值网络的副本，其设置是为了确保输出Q值的稳定性；

步骤2.7，计算编号m样本的重要性采样权重w_m：

表示重要性采样权重参数中的最大值，除以

对所有w_m进行规一化操作，以确保时间差分误差只会缩小以增加稳定性；

步骤2.8，计算权重变化量：

式(6)中，Δ是权重变化率，初始化为0，

表示目标Q值网络对参数θ的导数；

步骤2.9，根据复杂度指示函数式(7)计算编号m样本的复杂度；

CIF_m＝RAF(r_m,δ_m)+ηCPF(cn_m+1) (7)

RAF(r_m,δ_m)的计算公式为：

RAF(r_m,δ_m)＝|δ_m|*RWF(r_m)+τ (8)

式(8)中，τ为一个较小的正数，RWF(r_m)的计算公式为：

CPF(cn_m+1)的计算公式为：

式(10)中，p和q均大于0，且为两个预设常数；

SGD(θ←θ+λ*Δ,and reset Δ＝0) (11)

步骤2.12，延迟更新目标Q值网络参数：

θ^-←θ (14)

在上述算法步骤中，在每次迭代过程中，六足机器人在k-1时间得到样本x_k-1。然后，六足机器人将其存储在回放存储中，同时设置这个样本的cn_k-1＝0和复杂度指示函数

六足机器人从回放存储中自适应选择合适的样本组成批量训练样本。样本选择的概率与样本的复杂度成正比。然后样本新的复杂性指示根据公式(7)来更新。最后，动态更新样本的权重影响因子(即RAF和CPF)，以便在下一次迭代中以更大的概率选择更复杂的样本。这个过程一致迭代进行，直到算法收敛为止。最后，我们通过迭代求解得到了最优网络模型参数θ*。

进一步的，步骤2.9中，η的参数预设值为：η∈{0.2,0.3,0.4}；步骤2.11中，更新步长λ的初始值为0.00025；步骤2.13中，参数ε设置为0.01；步骤2.9中，两个预设常数p和q分别为2和20。

a_t～π*(s_t) (17)

式(17)中，a_t表示六足机器人在t时刻避障所要采取的动作。

本发明采用模糊控制和自适应权重强化学习相结合的方法，可以有效的解决模糊控制中模糊推理机制建立复杂这一问题。模糊控制中的模糊推理机制是通过自适应权重强化学习的方法学习出来的，而并非依赖于专家经验或者大量的实验结果；六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤；通过模糊逻辑对距离信息进行处理，六足机器人在一个时间点可能会处于多个不同的状态，我们把所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。

把六足机器人的障碍物信息转化为一个有限的状态集合，继而把六足机器人的避障过程看成一个马尔科夫决策过程，再利用自适应权重强化学习算法学习出再利用自适应权重强化学习算法学习出最优网络模型参数θ*；确定六足机器人在当前状态下所处的状态集合，再利用根据上述训练好的最优网络模型θ*得到避障的最优目标策略，获得六足机器人在避障时所要采取的动作，最终实现了六足机器人在复杂的环境中安全快速到达指定地点。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。