CN111552183A - 一种基于自适应权重强化学习的六足机器人避障方法 - Google Patents
一种基于自适应权重强化学习的六足机器人避障方法 Download PDFInfo
- Publication number
- CN111552183A CN111552183A CN202010416376.6A CN202010416376A CN111552183A CN 111552183 A CN111552183 A CN 111552183A CN 202010416376 A CN202010416376 A CN 202010416376A CN 111552183 A CN111552183 A CN 111552183A
- Authority
- CN
- China
- Prior art keywords
- robot
- formula
- obstacle
- value
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 18
- 241000238631 Hexapoda Species 0.000 claims abstract description 70
- 230000006870 function Effects 0.000 claims abstract description 36
- 230000009471 action Effects 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 230000005021 gait Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于自适应权重强化学习的六足机器人避障方法,步骤包括:由六足机器人通过测距传感器测量机器人与附近各个障碍物的距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。该避障方法能够在障碍物数量较多的位置环境中实现较好的避障效果,具有良好的市场应用前景。
Description
技术领域
本发明涉及一种机器人避障方法,尤其是一种基于自适应权重强化学习的六足机器人避障方法。
背景技术
六足机器人在结构上具有多冗余自由度,因而具有较高的地形环境适应能力。六足机器人能够在路况复杂的野外行走、越障,完成轮式或履带式所不能完成的非结构性环境中的运输作业,在森林采伐、矿山开采、水下建筑、核工业、军事运输及探测、星球探测等领域有着非常广阔的应用前景。因此,六足机器人的相关研究一直备受各国专家学者的关注,但是如何提高六足机器人在非结构环境下的移动能力仍然是个悬而未决的课题。
传统的六足机器人步行运动采取固定步态的方法,如三足步态、四足步态、波动步态等,研究者把几种不同的步态根据参数的不同分别做成几组步态数据,当有不同需求的时候调用。利用这种步态能够在平面上表现出良好的行走能力,但在不规则地形特别是未知环境中,机器人则没有办法实现稳定的行走,因此迫切需要一种能够适应未知地形的步态规划方法。
为了能够使六足机器人适应复杂非结构路况,需要用到机器学习的方法。在机器学习中,强化学习(Reinforcement Learning)属于较为活跃的领域,在解决决策等方面其的应用极为广泛。强化学习相比于其他学习法,其属于智能体与环境进行交互的过程。从延迟奖励当中对此近似过程开展学习工作则属于智能体的根本任务,试错学习为该任务的核心学习思想,此工作旨在选择最佳的动作序列,基于此获取最多的报酬。
发明内容
发明目的:提供一种基于自适应权重强化学习的六足机器人避障方法,能够使得六足机器人在复杂工作环境中作业。
技术方案:本发明所述的基于自适应权重强化学习的六足机器人避障方法,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。
进一步的,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
进一步的,步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;
步骤2.6,计算对应样本的时间差分误差δm:
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;
步骤2.7,计算编号m样本的重要性采样权重wm:
步骤2.8,计算权重变化量:
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rm,δm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rm,δm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rm,δm)的计算公式为:
RAF(rm,δm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
CPF(cnm+1)的计算公式为:
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and resetΔ=0) (11)
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
进一步的,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
进一步的,步骤3中,利用最优目标策略获得六足机器人在k时刻避障所要采取的动作ak的具体步骤为:
步骤3.1,根据步骤2中训练好的最优网络模型参数θ*,得到六足机器人在t时刻避障的最优目标策略:
式(16)中,st表示六足机器人t时刻对应的状态,π*为避障的最优目标策略,pt表示选择这个动作的概率,ε设置为0.01;
步骤3.2,利用最优目标策略获得六足机器人在t时刻避障所要采取的动作:
at~π*(st) (17)
式(17)中,at表示六足机器人在t时刻避障所要采取的动作。
本发明与现有技术相比,其有益效果是:(1)将权重自适应概念应用到深度强化学习中,让智能体的学习过程能够循序渐进;(2)设计了复杂度指示函数作为样本复杂性的评价标准,样本复杂度函数的设置保证了样本数据的有效性和效率性;(3)回报值自适应函数考虑了正负回报值对经验排序的影响,相当于在优先经验回放的基础上二次调整权重;(4)设计的覆盖惩罚函数可以记录状态样本的使用次数,并且它是一个单调递减函数,因此状态样本使用的次数越多,那么下一次它被选中的几率就会降低,有效的避免在实验过程中出现过拟合和欠拟合现象;(5)通过自适应权重强化学习算法学习出最优网络参数和相应状态的最优策略,从而得出六足机器人的最优动作。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本发明公开的基于自适应权重强化学习的六足机器人避障方法,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。
进一步的,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
进一步的,步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样,加入随机因子的作用是可以在优先级抽样和均匀采样之间取得平衡,从而保证训练样本的多样性;
步骤2.6,计算对应样本的时间差分误差δm:
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数,目标Q值网络实际上为主深度Q值网络的副本,其设置是为了确保输出Q值的稳定性;
步骤2.7,计算编号m样本的重要性采样权重wm:
式(5)中,D为回放存储的容量,P(m)为状态样本序列xm=(sm,am,rm,sm+1)的采样概率,β为补偿系数,表示重要性采样权重参数中的最大值,除以对所有wm进行规一化操作,以确保时间差分误差只会缩小以增加稳定性;
步骤2.8,计算权重变化量:
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rm,δm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rm,δm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rm,δm)的计算公式为:
RAF(rm,δm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
CPF(cnm+1)的计算公式为:
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θλ*Δ,and resetΔ=0) (11)
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
在上述算法步骤中,在每次迭代过程中,六足机器人在k-1时间得到样本xk-1。然后,六足机器人将其存储在回放存储中,同时设置这个样本的cnk-1=0和复杂度指示函数六足机器人从回放存储中自适应选择合适的样本组成批量训练样本。样本选择的概率与样本的复杂度成正比。然后样本新的复杂性指示根据公式(7)来更新。最后,动态更新样本的权重影响因子(即RAF和CPF),以便在下一次迭代中以更大的概率选择更复杂的样本。这个过程一致迭代进行,直到算法收敛为止。最后,我们通过迭代求解得到了最优网络模型参数θ*。
进一步的,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
进一步的,步骤3中,利用最优目标策略获得六足机器人在k时刻避障所要采取的动作ak的具体步骤为:
步骤3.1,根据步骤2中训练好的最优网络模型参数θ*,得到六足机器人在t时刻避障的最优目标策略:
式(16)中,st表示六足机器人t时刻对应的状态,π*为避障的最优目标策略,pt表示选择这个动作的概率,ε设置为0.01;
步骤3.2,利用最优目标策略获得六足机器人在t时刻避障所要采取的动作:
at~π*(st) (17)
式(17)中,at表示六足机器人在t时刻避障所要采取的动作。
本发明采用模糊控制和自适应权重强化学习相结合的方法,可以有效的解决模糊控制中模糊推理机制建立复杂这一问题。模糊控制中的模糊推理机制是通过自适应权重强化学习的方法学习出来的,而并非依赖于专家经验或者大量的实验结果;六足机器人避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过模糊逻辑对距离信息进行处理,六足机器人在一个时间点可能会处于多个不同的状态,我们把所有状态的最优动作进行融合就可以得出六足机器人避障所需采取的动作。
把六足机器人的障碍物信息转化为一个有限的状态集合,继而把六足机器人的避障过程看成一个马尔科夫决策过程,再利用自适应权重强化学习算法学习出再利用自适应权重强化学习算法学习出最优网络模型参数θ*;确定六足机器人在当前状态下所处的状态集合,再利用根据上述训练好的最优网络模型θ*得到避障的最优目标策略,获得六足机器人在避障时所要采取的动作,最终实现了六足机器人在复杂的环境中安全快速到达指定地点。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
Claims (5)
1.一种基于自适应权重强化学习的六足机器人避障方法,其特征在于,包括如下步骤:
步骤1,由六足机器人通过测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,并通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合;
步骤2,根据有限的状态集合建立六足机器人避障模型,再利用自适应权重强化学习算法学习出最优网络模型参数θ*;
步骤3,根据上述训练好的最优网络模型参数θ*得到六足机器人避障的最优目标策略,由最优目标策略获得六足机器人在t时刻避障所要采取的动作at。
2.根据权利要求1所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤1中,通过模糊隶属度函数将测量的障碍物距离转化为有限的状态集合的具体步骤为:
步骤1.1,利用安装在机器人上的九个测距传感器测量机器人与前侧、左侧以及右侧三个方向上的障碍物距离,测距传感器每三个分为一组,三组传感器分别位于机器人的前侧、左侧以及右侧,假设九个测距传感器的测量结果分别为a1、a2、a3、b1、b2、b3、c1、c2以及c3,且a1、a2和a3为前侧三个测距传感器的测量值,b1、b2和b3为左侧三个测距传感器的测量值,c1、c2和c3为右侧三个测距传感器的测量值,再通过公式(1)进行处理:
式中,a、b以及c分别为机器人前侧、左侧以及右侧三个方向上的障碍物距离,RaV为前侧三个测距传感器距离机器人定位中心的平均距离,RbV为左侧三个测距传感器距离机器人定位中心的平均距离,RcV为右侧三个测距传感器距离机器人定位中心的平均距离,机器人定位中心为机器人中的定位传感器安装位置;
步骤1.2,利用模糊隶属度函数对距离进行模糊化,从而转化为有限的状态集合:
每个障碍物距离都对应近、中、远三个隶属度,从而将六足机器人的障碍物信息便转化为27个状态,式中x为障碍物距离,F(x)为隶属度。
3.根据权利要求1所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤2中,利用自适应权重强化学习算法学习出最优网络模型参数θ*的具体步骤为:
步骤2.1,根据有限的状态集合在python中建立六足机器人避障模型;
步骤2.2,设定大循环参数k,且1≤k≤K,K表示终止时刻;
步骤2.3,记录k时刻六足机器人从环境中获得的回报值rk以及k时刻六足机器人的状态sk,将样本(sk-1,ak-1,rk-1,sk)存入回放存储中并设置其中ak-1表示在状态sk-1下六足机器人采取的动作,rk-1表示六足机器人对应获得的回报值,CIF为对应样本复杂度指示函数,表示最大的复杂度指示函数中的最大值;
步骤2.4,设定小循环参数m,且m的初始值为1;
步骤2.5,当m≤M时,其中M表示神经网络训练的批大小,根据式(3)自适应选择合适的训练样本:
式(3)中,m作为对应样本编号,P(m)为编号m样本的采样概率,ψ为指数随机因子,CIF为对应样本复杂度指示函数,指数随机因子ψ→[0,1]决定采用优先级的程度,当ψ值为0时,为均匀采样,当ψ值为1时,为优先级采样;
步骤2.6,计算对应样本的时间差分误差δm:
式(4)中,rm为样本m时六足机器人从环境中获得的回报值,γ∈[0,1]为折扣因子,sm+1为sm的下一个状态,am+1为状态sm+1下的动作,θ-为目标Q值网络参数,θ为主深度Q值网络参数;
步骤2.7,计算编号m样本的重要性采样权重wm:
步骤2.8,计算权重变化量:
步骤2.9,根据复杂度指示函数式(7)计算编号m样本的复杂度;
CIFm=RAF(rm,δm)+ηCPF(cnm+1) (7)
式(7)中,RAF(rm,δm)为样本回报值的重要性参数,CPF(cnm+1)被定义为样本的使用次数的影响参数,为单调递增的函数,且值域在0到1之间,cnm+1是样本对应的使用次数,η为样本的覆盖惩罚项的权衡参数;
RAF(rm,δm)的计算公式为:
RAF(rm,δm)=|δm|*RWF(rm)+τ (8)
式(8)中,τ为一个较小的正数,RWF(rm)的计算公式为:
CPF(cnm+1)的计算公式为:
式(10)中,p和q均大于0,且为两个预设常数;
步骤2.10,m的值自加1,若m≤M,则返回步骤2.5,若m>M,则结束小循环进入步骤2.11;
步骤2.11,利用随机梯度下降更新主深度Q值网络参数,更新公式为:
SGD(θ←θ+λ*Δ,and resetΔ=0) (11)
式(11)中λ为更新步长,式(12)中y为样本m对应的理论标记值,Loss(θ;Q,y)为损失函数,式(13)中θLoss为损失函数Loss(θ;Q,y)对其中的参数θ的导数;
步骤2.12,延迟更新目标Q值网络参数:
θ-←θ (14)
式(14)在计算过程中应保持目标Q值网络参数θ的固定,参数的更新应隔一段时间更新一次;
步骤2.13,六足机器人根据式(15)选择m时刻目标策略对应的动作am为:
式(15)中,sm表示六足机器人m时刻对应的状态,π为避障的目标策略,pm表示选择这个动作的概率,ε为一个较小的正数;
步骤2.14,k的值自加1,若k≤K,则返回步骤2.3,若k>K且公式(12)中的Loss(θ;Q,y)的单调减少而收敛到最小值,则结束大循环,得到了最优网络模型参数θ*。
4.根据权利要求3所述的基于自适应权重强化学习的六足机器人避障方法,其特征在于,步骤2.9中,η的参数预设值为:η∈{0.2,0.3,0.4};步骤2.11中,更新步长λ的初始值为0.00025;步骤2.13中,参数ε设置为0.01;步骤2.9中,两个预设常数p和q分别为2和20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010416376.6A CN111552183B (zh) | 2020-05-17 | 2020-05-17 | 一种基于自适应权重强化学习的六足机器人避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010416376.6A CN111552183B (zh) | 2020-05-17 | 2020-05-17 | 一种基于自适应权重强化学习的六足机器人避障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552183A true CN111552183A (zh) | 2020-08-18 |
CN111552183B CN111552183B (zh) | 2021-04-23 |
Family
ID=72004859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010416376.6A Active CN111552183B (zh) | 2020-05-17 | 2020-05-17 | 一种基于自适应权重强化学习的六足机器人避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552183B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949039A (zh) * | 2020-09-09 | 2020-11-17 | 西北工业大学 | 一种基于半圆形仿生刀锋腿的六足机器人航向控制方法 |
CN112068433A (zh) * | 2020-09-09 | 2020-12-11 | 哈尔滨理工大学 | 一种基于双操作者的野外六足机器人操控训练方法 |
CN112965498A (zh) * | 2021-02-23 | 2021-06-15 | 上海电机学院 | 一种智能扫路车运行轨迹跟踪控制方法 |
CN113359707A (zh) * | 2021-05-19 | 2021-09-07 | 杭州电子科技大学 | 一种基于双层模糊强化学习的六足机器人避障方法 |
CN115392438A (zh) * | 2022-09-14 | 2022-11-25 | 吉林建筑大学 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5448681A (en) * | 1992-03-27 | 1995-09-05 | National Semiconductor Corporation | Intelligent controller with neural network and reinforcement learning |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN107562053A (zh) * | 2017-08-30 | 2018-01-09 | 南京大学 | 一种基于模糊q学习的六足机器人避障方法 |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
CN108161934A (zh) * | 2017-12-25 | 2018-06-15 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN110097192A (zh) * | 2019-04-25 | 2019-08-06 | 长春理工大学 | 基于强化学习的自适应移动学习路径生成方法 |
-
2020
- 2020-05-17 CN CN202010416376.6A patent/CN111552183B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5448681A (en) * | 1992-03-27 | 1995-09-05 | National Semiconductor Corporation | Intelligent controller with neural network and reinforcement learning |
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102799179A (zh) * | 2012-07-06 | 2012-11-28 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
CN107562053A (zh) * | 2017-08-30 | 2018-01-09 | 南京大学 | 一种基于模糊q学习的六足机器人避障方法 |
CN108161934A (zh) * | 2017-12-25 | 2018-06-15 | 清华大学 | 一种利用深度强化学习实现机器人多轴孔装配的方法 |
CN109407676A (zh) * | 2018-12-20 | 2019-03-01 | 哈尔滨工业大学 | 基于DoubleDQN网络和深度强化学习的移动机器人避障方法 |
CN110097192A (zh) * | 2019-04-25 | 2019-08-06 | 长春理工大学 | 基于强化学习的自适应移动学习路径生成方法 |
Non-Patent Citations (6)
Title |
---|
H. SAYYAADI等: "Collision avoidance controller for AUV systems using stochastic real value reinforcement learning method", 《SICE 2000. PROCEEDINGS OF THE 39TH SICE ANNUAL CONFERENCE. INTERNATIONAL SESSION PAPERS (IEEE CAT. NO.00TH8545)》 * |
ZHIPENG REN等: "Self-Paced Prioritized Curriculum Learning With Coverage Penalty in Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
唐开强: "基于迁移强化学习的六足机器人步态学习研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
唐开强: "约束条件下基于强化学习的六足机器人步态规划", 《第18届中国系统仿真技术及其应用学术年会论文集(18TH CCSSTA 2017)》 * |
胡磊: "基于启发神经网络强化学习的AUV路径规划方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
陈春林: "基于强化学习的移动机器人自主学习及导航控制", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949039A (zh) * | 2020-09-09 | 2020-11-17 | 西北工业大学 | 一种基于半圆形仿生刀锋腿的六足机器人航向控制方法 |
CN112068433A (zh) * | 2020-09-09 | 2020-12-11 | 哈尔滨理工大学 | 一种基于双操作者的野外六足机器人操控训练方法 |
CN111949039B (zh) * | 2020-09-09 | 2021-06-04 | 西北工业大学 | 一种基于半圆形仿生刀锋腿的六足机器人航向控制方法 |
CN112965498A (zh) * | 2021-02-23 | 2021-06-15 | 上海电机学院 | 一种智能扫路车运行轨迹跟踪控制方法 |
CN113359707A (zh) * | 2021-05-19 | 2021-09-07 | 杭州电子科技大学 | 一种基于双层模糊强化学习的六足机器人避障方法 |
CN115392438A (zh) * | 2022-09-14 | 2022-11-25 | 吉林建筑大学 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
CN115392438B (zh) * | 2022-09-14 | 2023-07-07 | 吉林建筑大学 | 基于多Agent环境的深度强化学习算法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111552183B (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111552183B (zh) | 一种基于自适应权重强化学习的六足机器人避障方法 | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN107065890B (zh) | 一种无人车智能避障方法及系统 | |
CN110928189B (zh) | 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法 | |
CN110378439B (zh) | 基于Q-Learning算法的单机器人路径规划方法 | |
CN111413966A (zh) | 一种递进式模型预测无人驾驶规划跟踪协同控制方法 | |
CN114625151A (zh) | 一种基于强化学习的水下机器人避障路径规划方法 | |
CN114199248B (zh) | 一种基于混合元启发算法优化anfis的auv协同定位方法 | |
CN117369244B (zh) | 一种基于焊接机器人焊枪位置控制优化方法 | |
CN113138555A (zh) | 一种基于遗传算法优化的grnn电主轴热误差建模方法 | |
CN110095788A (zh) | 一种基于灰狼优化算法的rbpf-slam改进方法 | |
CN112571418A (zh) | 四足机器人运动状态聚类与自主决策方法 | |
CN117452827B (zh) | 一种欠驱动无人艇轨迹跟踪控制方法 | |
Xiao et al. | Multiobjective path optimization of an indoor AGV based on an improved ACO-DWA | |
CN113190018B (zh) | 一种基于改进航向误差率的智能体路径控制方法 | |
CN113419524B (zh) | 一种结合深度q学习的机器人路径学习与避障系统及方法 | |
Yin et al. | Reinforcement learning path planning based on step batch Q-learning algorithm | |
CN113064422A (zh) | 基于双神经网络强化学习的自主水下航行器路径规划方法 | |
He et al. | An Improved Dueling Double Deep Q Network Algorithm and Its Application to the Optimized Path Planning for Unmanned Ground Vehicle | |
CN114839878A (zh) | 基于改进ppo算法的双足机器人行走稳定性优化方法 | |
CN117826713B (zh) | 一种改进的强化学习agv路径规划方法 | |
Jin et al. | WOA-AGA algorithm design for robot path planning | |
CN115541837B (zh) | 一种基于动态模糊神经网络的出水总氮智能检测方法 | |
CN116931566A (zh) | 基于woa-rbf网络的考虑滑动的林业机器人轨迹跟踪方法 | |
CN117724478B (zh) | 一种自动化集装箱码头agv路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |