CN111552183B - 一种基于自适应权重强化学习的六足机器人避障方法 - Google Patents

一种基于自适应权重强化学习的六足机器人避障方法 Download PDF

Info

Publication number
CN111552183B
CN111552183B CN202010416376.6A CN202010416376A CN111552183B CN 111552183 B CN111552183 B CN 111552183B CN 202010416376 A CN202010416376 A CN 202010416376A CN 111552183 B CN111552183 B CN 111552183B
Authority
CN
China
Prior art keywords
robot
formula
obstacle
value
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010416376.6A
Other languages
English (en)
Other versions
CN111552183A (zh
Inventor
李华雄
任其成
陈春林
王岚
唐开强
王子辉
朱张青
辛博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202010416376.6A priority Critical patent/CN111552183B/zh
Publication of CN111552183A publication Critical patent/CN111552183A/zh
Application granted granted Critical
Publication of CN111552183B publication Critical patent/CN111552183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于自适应权重强化学习的六足机器人避障方法,步骤包括:由六足机器人通过测距传感器测量机器人与附近各个障碍物的距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果,具有良好的市场应用前景。

Description

一种基于自适应权重强化学习的六足机器人避障方法
技术领域
本发明涉及一种机器人避障方法,尤其是一种基于自适应权重强化学习的六足机器人避障方法。
背景技术
六足机器人在结构上具有多冗余自由度,因而具有较高的地形环境适应能力。六足机器人能够在路况复杂的野外行走、越障,完成轮式或履带式所不能完成的非结构性环境中的运输作业,在森林采伐、矿山开采、水下建筑、核工业、军事运输及探测、星球探测等领域有着非常广阔的应用前景。因此,六足机器人的相关研究一直备受各国专家学者的关注,但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。
传统的六足机器人步行运动采取固定步态的方法,如三足步态、四足步态、波动步态等,研究者把几种不同的步态根据参数的不同分别做成几组步态数据,当有不同需求的时候调用。利用这种步态能够在平面上表现出良好的行走能力,但在不规则地形特别是未知环境中,机器人则没有办法实现稳定的行走,因此迫切需要一种能够适应未知地形的步态规划方法。
为了能够使六足机器人适应复杂非结构路况,需要用到机器学习的方法。在机器学习中,强化学习(Reinforcement Learning)属于较为活跃的领域,在解决决策等方面其的应用极为广泛。强化学习相比于其他学习法,其属于智能体与环境进行交互的过程。从延迟奖励当中对此近似过程开展学习工作则属于智能体的根本任务,试错学习为该任务的核心学习思想,此工作旨在选择最佳的动作序列,基于此获取最多的报酬。
发明内容
发明目的:提供一种基于自适应权重强化学习的六足机器人避障方法,能够使得六足机器人在复杂工作环境中作业。
技术方案:本发明所述的基于自适应权重强化学习的六足机器人避障方法,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at
进一步的,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
Figure GDA0002909792420000021
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
Figure GDA0002909792420000022
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
进一步的,步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置
Figure GDA0002909792420000023
其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,
Figure GDA0002909792420000031
表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
Figure GDA0002909792420000032
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;
步骤2.6,计算对应样本的时间差分误差δm
Figure GDA0002909792420000033
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;
步骤2.7,计算编号m样本的重要性采样权重wm
Figure GDA0002909792420000034
式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,
Figure GDA0002909792420000035
表示重要性采样权重参数中的最大值;
步骤2.8,计算权重变化量:
Figure GDA0002909792420000036
式(6)中,Δ是权重变化率,初始化为0,
Figure GDA0002909792420000037
表示目标Q值网络对参数θ的导数;
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rmm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rmm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rmm)的计算公式为:
RAF(rmm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
Figure GDA0002909792420000041
CPF(cnm+1)的计算公式为:
Figure GDA0002909792420000042
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and reset Δ=0) (11)
Figure GDA0002909792420000043
Figure GDA0002909792420000044
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
Figure GDA0002909792420000045
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
进一步的,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
进一步的,步骤3中,利用最优目标策略获得六足机器人在k时刻避障所要采取的动作ak的具体步骤为:
步骤3.1,根据步骤2中学习出的最优网络模型参数θ*,得到六足机器人在t时刻避障的最优目标策略:
Figure GDA0002909792420000051
式(16)中,st表示六足机器人t时刻对应的状态,π*为避障的最优目标策略,pt表示选择这个动作的概率,ε设置为0.01;
步骤3.2,利用最优目标策略获得六足机器人在t时刻避障所要采取的动作:
at~π*(st) (17)
式(17)中,at表示六足机器人在t时刻避障所要采取的动作。
本发明与现有技术相比,其有益效果是:(1)将权重自适应概念应用到深度强化学习中,让智能体的学习过程能够循序渐进;(2)设计了复杂度指示函数作为样本复杂性的评价标准,样本复杂度函数的设置保证了样本数据的有效性和效率性;(3)回报值自适应函数考虑了正负回报值对经验排序的影响,相当于在优先经验回放的基础上二次调整权重;(4)设计的覆盖惩罚函数可以记录状态样本的使用次数,并且它是一个单调递减函数,因此状态样本使用的次数越多,那么下一次它被选中的几率就会降低,有效的避免在实验过程中出现过拟合和欠拟合现象;(5)通过自适应权重强化学习算法学习出最优网络参数和相应状态的最优策略,从而得出六足机器人的最优动作。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明公开的基于自适应权重强化学习的六足机器人避障方法,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at
进一步的,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
Figure GDA0002909792420000061
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
Figure GDA0002909792420000071
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
进一步的,步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置
Figure GDA0002909792420000072
其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,
Figure GDA0002909792420000075
表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
Figure GDA0002909792420000073
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样,加入随机因子的作用是可以在优先级抽样和均匀采样之间取得平衡,从而保证训练样本的多样性;
步骤2.6,计算对应样本的时间差分误差δm
Figure GDA0002909792420000074
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数,目标Q值网络实际上为主深度Q值网络的副本,其设置是为了确保输出Q值的稳定性;
步骤2.7,计算编号m样本的重要性采样权重wm
Figure GDA0002909792420000081
式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,
Figure GDA0002909792420000082
表示重要性采样权重参数中的最大值,除以
Figure GDA0002909792420000083
对所有wm进行规一化操作,以确保时间差分误差只会缩小以增加稳定性;
步骤2.8,计算权重变化量:
Figure GDA0002909792420000084
式(6)中,Δ是权重变化率,初始化为0,
Figure GDA0002909792420000085
表示目标Q值网络对参数θ的导数;
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rmm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rmm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rmm)的计算公式为:
RAF(rmm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
Figure GDA0002909792420000086
CPF(cnm+1)的计算公式为:
Figure GDA0002909792420000087
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and reset Δ=0) (11)
Figure GDA0002909792420000091
Figure GDA0002909792420000092
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
Figure GDA0002909792420000093
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
在上述算法步骤中,在每次迭代过程中,六足机器人在k-1时间得到样本xk-1。然后,六足机器人将其存储在回放存储中,同时设置这个样本的cnk-1=0和复杂度指示函数
Figure GDA0002909792420000094
六足机器人从回放存储中自适应选择合适的样本组成批量训练样本。样本选择的概率与样本的复杂度成正比。然后样本新的复杂性指示根据公式(7)来更新。最后,动态更新样本的权重影响因子(即RAF和CPF),以便在下一次迭代中以更大的概率选择更复杂的样本。这个过程一致迭代进行,直到算法收敛为止。最后,我们通过迭代求解得到了最优网络模型参数θ*。
进一步的,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
进一步的,步骤3中,利用最优目标策略获得六足机器人在k时刻避障所要采取的动作ak的具体步骤为:
步骤3.1,根据步骤2中学习出的最优网络模型参数θ*,得到六足机器人在t时刻避障的最优目标策略:
Figure GDA0002909792420000101
式(16)中,st表示六足机器人t时刻对应的状态,π*为避障的最优目标策略,pt表示选择这个动作的概率,ε设置为0.01;
步骤3.2,利用最优目标策略获得六足机器人在t时刻避障所要采取的动作:
at~π*(st) (17)
式(17)中,at表示六足机器人在t时刻避障所要采取的动作。
本发明采用模糊控制和自适应权重强化学习相结合的方法,可以有效的解决模糊控制中模糊推理机制建立复杂这一问题。模糊控制中的模糊推理机制是通过自适应权重强化学习的方法学习出来的,而并非依赖于专家经验或者大量的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过模糊逻辑对距离信息进行处理,六足机器人在一个时间点可能会处于多个不同的状态,我们把所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
把六足机器人的障碍物信息转化为一个有限的状态集合,继而把六足机器人的避障过程看成一个马尔科夫决策过程,再利用自适应权重强化学习算法学习出再利用自适应权重强化学习算法学习出最优网络模型参数θ*;确定六足机器人在当前状态下所处的状态集合,再利用根据上述训练好的最优网络模型θ*得到避障的最优目标策略,获得六足机器人在避障时所要采取的动作,最终实现了六足机器人在复杂的环境中安全快速到达指定地点。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (4)

1.一种基于自适应权重强化学习的六足机器人避障方法,其特征在于,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述学习出的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at
步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置
Figure FDA0002909792410000011
其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,
Figure FDA0002909792410000012
表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
Figure FDA0002909792410000013
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;
步骤2.6,计算对应样本的时间差分误差δm
Figure FDA0002909792410000014
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;
步骤2.7,计算编号m样本的重要性采样权重wm
Figure FDA0002909792410000015
式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,
Figure FDA0002909792410000021
表示重要性采样权重参数中的最大值;
步骤2.8,计算权重变化量:
Figure FDA0002909792410000022
式(6)中,Δ是权重变化率,初始化为0,
Figure FDA0002909792410000023
表示目标Q值网络对参数θ的导数;
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rmm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rmm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rmm)的计算公式为:
RAF(rmm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
Figure FDA0002909792410000024
CPF(cnm+1)的计算公式为:
Figure FDA0002909792410000025
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and resetΔ=0) (11)
Figure FDA0002909792410000026
Figure FDA0002909792410000027
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
Figure FDA0002909792410000031
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
2.根据权利要求1所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
Figure FDA0002909792410000032
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
Figure FDA0002909792410000041
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
3.根据权利要求1所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
4.根据权利要求1所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤3中,利用最优目标策略获得六足机器人在k时刻避障所要采取的动作ak的具体步骤为:
步骤3.1,根据步骤2中学习出的最优网络模型参数θ*,得到六足机器人在t时刻避障的最优目标策略:
Figure FDA0002909792410000042
式(16)中,st表示六足机器人t时刻对应的状态,π*为避障的最优目标策略,pt表示选择这个动作的概率,ε设置为0.01;
步骤3.2,利用最优目标策略获得六足机器人在t时刻避障所要采取的动作:
at~π*(st) (17)
式(17)中,at表示六足机器人在t时刻避障所要采取的动作。
CN202010416376.6A 2020-05-17 2020-05-17 一种基于自适应权重强化学习的六足机器人避障方法 Active CN111552183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010416376.6A CN111552183B (zh) 2020-05-17 2020-05-17 一种基于自适应权重强化学习的六足机器人避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010416376.6A CN111552183B (zh) 2020-05-17 2020-05-17 一种基于自适应权重强化学习的六足机器人避障方法

Publications (2)

Publication Number Publication Date
CN111552183A CN111552183A (zh) 2020-08-18
CN111552183B true CN111552183B (zh) 2021-04-23

Family

ID=72004859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010416376.6A Active CN111552183B (zh) 2020-05-17 2020-05-17 一种基于自适应权重强化学习的六足机器人避障方法

Country Status (1)

Country Link
CN (1) CN111552183B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068433B (zh) * 2020-09-09 2022-11-22 哈尔滨理工大学 一种基于双操作者的野外六足机器人操控训练方法
CN111949039B (zh) * 2020-09-09 2021-06-04 西北工业大学 一种基于半圆形仿生刀锋腿的六足机器人航向控制方法
CN112965498A (zh) * 2021-02-23 2021-06-15 上海电机学院 一种智能扫路车运行轨迹跟踪控制方法
CN113359707A (zh) * 2021-05-19 2021-09-07 杭州电子科技大学 一种基于双层模糊强化学习的六足机器人避障方法
CN115392438B (zh) * 2022-09-14 2023-07-07 吉林建筑大学 基于多Agent环境的深度强化学习算法、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110097192A (zh) * 2019-04-25 2019-08-06 长春理工大学 基于强化学习的自适应移动学习路径生成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448681A (en) * 1992-03-27 1995-09-05 National Semiconductor Corporation Intelligent controller with neural network and reinforcement learning
CN102402712A (zh) * 2011-08-31 2012-04-04 山东大学 基于神经网络的机器人强化学习初始化方法
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
CN108161934A (zh) * 2017-12-25 2018-06-15 清华大学 一种利用深度强化学习实现机器人多轴孔装配的方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110097192A (zh) * 2019-04-25 2019-08-06 长春理工大学 基于强化学习的自适应移动学习路径生成方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Collision avoidance controller for AUV systems using stochastic real value reinforcement learning method;H. Sayyaadi等;《SICE 2000. Proceedings of the 39th SICE Annual Conference. International Session Papers (IEEE Cat. No.00TH8545)》;20000728;第165-170页 *
Self-Paced Prioritized Curriculum Learning With Coverage Penalty in Deep Reinforcement Learning;Zhipeng Ren等;《IEEE Transactions on Neural Networks and Learning Systems》;20180201;第29卷(第6期);第2216-2226页 *
基于启发神经网络强化学习的AUV路径规划方法研究;胡磊;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20200115(第01(2020)期);第C036-140页 *
基于强化学习的移动机器人自主学习及导航控制;陈春林;《中国博士学位论文全文数据库 信息科技辑》;20070415(第04(2007)期);第I140-39页 *
基于迁移强化学习的六足机器人步态学习研究;唐开强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190715(第07(2019)期);第I140-370页 *
约束条件下基于强化学习的六足机器人步态规划;唐开强;《第18届中国系统仿真技术及其应用学术年会论文集(18th CCSSTA 2017)》;20170811;第28-34页 *

Also Published As

Publication number Publication date
CN111552183A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111552183B (zh) 一种基于自适应权重强化学习的六足机器人避障方法
CN110928189B (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN110110419B (zh) 一种基于多目标学习的tbm掘进参数预测方法
CN111413966A (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN114625151B (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN109884900B (zh) 基于自适应模型预测控制的收获机路径跟踪控制器的设计方法
CN114199248B (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN113138555A (zh) 一种基于遗传算法优化的grnn电主轴热误差建模方法
CN117369244B (zh) 一种基于焊接机器人焊枪位置控制优化方法
CN112571418B (zh) 四足机器人运动状态聚类与自主决策方法
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
CN111968156A (zh) 一种自适应超特征融合的视觉跟踪方法
CN114037050B (zh) 一种基于脉冲神经网络内在可塑性的机器人退化环境避障方法
CN117452827B (zh) 一种欠驱动无人艇轨迹跟踪控制方法
CN113190018B (zh) 一种基于改进航向误差率的智能体路径控制方法
CN110197250A (zh) 一种多因素影响的动力电池参数在线辨识方法
CN113064422A (zh) 基于双神经网络强化学习的自主水下航行器路径规划方法
CN117319232A (zh) 一种基于行为预测的多智能体集群一致性协同控制方法
CN116738123A (zh) 一种基于改进天牛须算法优化模糊pid的井口控压方法
CN114895206A (zh) 基于改进灰狼优化算法的rbf神经网络的锂离子电池soh估计方法
Jin et al. WOA-AGA algorithm design for robot path planning
CN115541837B (zh) 一种基于动态模糊神经网络的出水总氮智能检测方法
CN117826713A (zh) 一种改进的强化学习agv路径规划方法
He et al. An Improved Dueling Double Deep Q Network Algorithm and Its Application to the Optimized Path Planning for Unmanned Ground Vehicle
CN111369038A (zh) 一种基于遗传算法的多目标动态调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant