CN110883776A - 一种快速搜索机制下改进dqn的机器人路径规划算法 - Google Patents

一种快速搜索机制下改进dqn的机器人路径规划算法 Download PDF

Info

Publication number
CN110883776A
CN110883776A CN201911198660.4A CN201911198660A CN110883776A CN 110883776 A CN110883776 A CN 110883776A CN 201911198660 A CN201911198660 A CN 201911198660A CN 110883776 A CN110883776 A CN 110883776A
Authority
CN
China
Prior art keywords
robot
algorithm
action
environment
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911198660.4A
Other languages
English (en)
Other versions
CN110883776B (zh
Inventor
王俊
陈天星
张德华
杨青朋
赵正云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN201911198660.4A priority Critical patent/CN110883776B/zh
Publication of CN110883776A publication Critical patent/CN110883776A/zh
Application granted granted Critical
Publication of CN110883776B publication Critical patent/CN110883776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及一种快速搜索机制下改进DQN的机器人路径规划算法,包括如下步骤:S1、设置算法中所需的参数;S2、根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境;S3、设计快速搜索机制;S4、建立机器人的动作集;S5、设计一个连续的报酬函数;S6、机器人通过训练输出一条最佳路径;本发明提供了一种快速搜索机制下改进DQN的机器人路径规划算法,改善了Deep Q_Learning算法存在的环境利用率低、搜索效率低等问题,能够使机器人在未知环境下快速搜索出最佳路径。

Description

一种快速搜索机制下改进DQN的机器人路径规划算法
技术领域
本发明属于路径规划技术领域,具体涉及一种快速搜索机制下改进DQN的机器人路径规划算法。
背景技术
强化学习是一种借鉴‘经验’的闭环学习方法,机器人通过与环境之间不断地进行信息交互,从而达到自主学习的过程。机器人与环境之间进行交互的过程可以描述为一个马尔科夫决策问题。
强化学习中Q_Learning算法被广泛应用于机器人路径规划技术,机器人通过Q_Learning学习与环境交互以此达到自主规划路径的目的。由于Q_Learning 算法是计算Q表中的值,然后从中选取Q值较大的动作作为要执行的动作,这样就容易造成计算速度慢和维数爆炸等问题,因此提出Deep Q_Learning算法,即DQN算法,DQN算法在Q_Learning算法的基础上增加了深度神经网络用于计算Q值,这样解决了Q_Learning算法造成维数爆炸等问题。
DQN算法的基本思路为将强化学习Q_Learning算法与深度神经网络相结合,通过神经网络计算回报值来代替Q表,通过不断学习来减小Q估计和Q现实之间的误差值,进而不断更新targetQ网络,优化权重,最终达到自主进行路径规划的目的。但是,DQN算法需要不断地对学习空间进行探索,这种搜索存在很大的盲目性与不必要性,这样算法就存在环境利用率低、搜索效率低等问题,进而容易造成算法学习效率低、搜索花费时间长、搜索出来路径较长等缺陷。
发明内容
本发明的目的是为了解决背景技术中所提出的问题,而提供一种快速搜索机制下改进DQN的机器人路径规划算法,改善了DQN算法存在的环境利用率低、搜索效率低等问题,能够使机器人在未知环境下搜索出最优路径。
本发明的目的是这样实现的:
一种快速搜索机制下改进DQN的机器人路径规划算法,包括如下步骤:
S1、设置实验所需参数,参数包括贪婪系数∈、记忆库大小M、折扣率γ、学习率α、批量学习值batch;
S2、根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境,地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G (xg,yg),当前坐标为C(xc,yc);
S3、设计快速搜索机制,本设计采用一种快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆,深度记忆的形成,使机器人在动作选择上以及目标搜索上更加精确,较少不必要的搜索,提高搜索效率;
S4、建立机器人的动作集,将DQN算法中(上、下、左、右)四个动作扩充为(上、下、左、右、左上、右下、右上、右下)八个动作;
S5、在DQN算法的基础上,改进并引用启发式搜索算法,设计一个连续的报酬函数;
S6、设置n回合,当机器人达到目标点,一个合结束,当达到n回合,训练结束,机器人通过n回合训练输出一条最短路径。
进一步的,所述S1中Q_Learning算法包括如下步骤:
S1.1、强化学习问题可以描述为一个马尔科夫决策过程,即MDP,MDP过程由5元素构成:{A、S、P、R、γ},其中S代表机器人的状态集,A是机器人的动作集,R是报酬函数,γ是折扣因子,即γ∈[0,1],P代表转移概率,即机器人在t时刻执行动作at后状态由St转移到St+1的概率;
S1.2、通过强化学习,使机器人找到最优的行动序列π*={a1 *、a2 *.....an *},在给定的环境下最大化累计奖励,在给定的行动策略π中,累计奖励和状态价值函数定义如下:
Figure RE-GDA0002347654570000031
其中,Gt为累计奖励,表示从时间步长t到动作序列借宿的奖励折扣的总和;
S1.3、根据S1.2中的(1),Gt是累计激励的期望值,通过定义一个状态值函数来量化给定状态下累计奖励的期望值,如下式所示:
Figure RE-GDA0002347654570000032
其中,Vπ(St)代表机器人从状态St执行策略π得到的激励的期望。
将状态值函数转换成状态-动作值函数来描述累计奖励,如下式所示:
Figure RE-GDA0002347654570000033
根据(3),Q_Learning算法为求得最大的状态-动作值函数,即q*(st at)。
进一步的,S1中,DQN算法包括如下步骤:
S1.11、根据Q_leaning算法,首先建立一张Q值表,通过机器人与环境交互,得到奖赏函数值,通过不断迭代修改Q值表,使选择正奖赏值的动作的概率不断增加,随着不断与环境交互,更该动作策略集,是机器人的动作最终趋于最优动作集;
S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略,算法再一次迭代使需要考察每一个状态-动作对Q(s,a)的值,Q_Learning算法的基本形式为:
Q(st,at)=(1-α)Q(st,at)+α[rt+γmaxaQ(st+1,at)] (4),
其中,st为t时刻移动机器人的状态,在st状态下执行动作at,移动机器人状态变为st+1,同时得到回报值rt
S1.13、构建两个神经网络,通过深度神经网络对回报值得计算代替Q表,一个神经网络用于计算Q现实,一个用于计算法Q估计,然后计算Q现实与Q 估计的差值进行训练,最终达到差值最小。
进一步的,Q现实与Q估计具有相同的网络结构但是参数不同,每个网络由输入层、两个隐藏层、输出层四层构成,输入层为机器人当前状态S,输出层输出为每一个动作对应的Q值,每一个隐藏层由10个神经元构成,激励函数选用 Relu函数。
进一步的,S3中,建立快速搜索机制包括如下步骤:
S3.1、设计快速搜索机制,采用快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆;
S3.2、设计路径快速下降线,机器人从起始点到目标点沿着某一条线走路径减少最快,这条路径减少最快的线称为路径快速下降线,机器人沿着路径快速下降线行走,能够实现路程最短达到目标点,根据两点之间线段最短原理,将由目标点与起始点所构成的线段设计为快速降线;
S3.3、设计搜索器,将机器人与其目标点方位相同的一个身为的大小设计为搜索器的大小,搜索器的功能是提取当前坐标、计算回报值并提取回报值最大的动作,并返回最大回报值的动作与障碍物坐标,形成深度记忆库。
进一步的,S4中,建立机器人的动作集包括如下步骤:
S4.1、在设计的动作集中,机器人能执行(上、下、左、右、左上、左下、右上、右下)八个动作,用机器人当前坐标(x,y)表示当前状态S(x,y);
S4.2、机器人通过执行动作集中的动作达到邻近位置;
S4.3、机器人在状态Si执行动作ai达到状态Si+1,描述为如下过程:
Si=(x,y),Si+1=(xi+1,yi+1);
Figure RE-GDA0002347654570000051
进一步的,S5中,连续的报酬函数的设计包括如下步骤:
S5.1、机器人每执行一个动作,会有相应的回报值作为奖励,回报值用来给机器人反馈,机器人通过回报值来改变自己的动作;
S5.2、灰色矩形代表机器人,黑色矩形代表障碍物,圆形代表目标点,定义机器人的起始坐标为S(xs,ys),当前坐标为C(xc,yc),目标点坐标G(xg,yg), D为起始点与目标点之间的距离,L1为起始点与当前位置之间的距离,L2为当前位置与目标点之间的距离,如下式所示:
Figure RE-GDA0002347654570000052
Figure RE-GDA0002347654570000061
其中,机器人达到目标点回报值为+1;机器人达到障碍物回报值为-1;机器人即没有达到目标点也没有碰到障碍物回报值为
Figure RE-GDA0002347654570000062
进一步的,S1中,参数设置如下:
S1.1、强化学习中参数如下:α代表学习率设置为0.1,γ代表折扣因子为 0.9,ε为贪婪策略设置为0.9,batch为批量学习大小为32,记忆库大小为M 为500,回报函数R;
S1.2、DQN算法有一个记忆库,记忆库用来前期搜索训练样本,定义记忆库的大小为M步,记忆库有两部分构成,一部分是由搜索器搜索出来的深层记忆,一部分是浅层记忆,搜索器搜索出来的深层记忆包括两部分,一部分是障碍物坐标,另一部分是回报值最大的动作。将搜索器搜索出来的回报值最大的动作,按先后顺序排列起来,构成一组最佳运动策略,供以后的学习训练;
S1.3、Q现实与Q估计的均方差,如下所示:
Figure RE-GDA0002347654570000063
S1.4、每5步学习一次,每300步对Q现实的参数更新一次,更新公式如下:
Figure RE-GDA0002347654570000064
进一步的,S6中,设置n回合进行训练,当机器人到达目标点则本回合结束,达到n回合时训练结束,输入最优路径。
与现有技术相比,本发明的有益效果在于:
本发明提供的一种基于快速搜索机制的改进的DQN算法,在DQN算法中引入启发式搜索算法的思想,设计了一种快速搜索机制下的连续报酬函数,机器人在连续报酬函数的作用下对执行的每一步动作,能够得到及时的反馈;本发明在DQN算法的基础上设计一种快速搜索机制,采用一种快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记,深度记忆的形成,使机器人在动作选择上以及目标搜索上更加精确,较少不必要的搜索,提高搜索效率。本发明不仅改善了DQN 算法存在的环境利用率低、搜索效率低等问题,还能够使机器人在未知环境下搜索出最优路径。
附图说明
图1是本发明流程示意图。
图2本发明参数设计图。
图3是本发明20*20仿真环境图。
图4是本发明30*30仿真环境图。
图5是快速降线图。
图6是搜索器图。
图7是本发明20*20环境下损失函数图。
图8是本发明30*30环境下损失函数图。
图9是本发明20*20仿真环境最优路径图。
图10是本发明30*30仿真环境最优路径图。
具体实施方式
下面结合附图对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
结合图1,一种快速搜索机制下改进DQN的机器人路径规划算法,包括如下步骤:
S1、设置实验所需参数,参数包括贪婪系数∈、记忆库大小M、折扣率γ、学习率α、批量学习值batch;
S2、根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境,地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G (xg,yg),当前坐标为C(xc,yc);
S3、设计快速搜索机制,采用一种快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆,深度记忆的形成,使机器人在动作选择上以及目标搜索上更加精确,减少不必要的搜索,提高搜索效率;
S4、建立机器人的动作集,将DQN算法中(上、下、左、右)四个动作扩充为(上、下、左、右、左上、右下、右上、右下)八个动作;
S5、在DQN算法的基础上,改进并引用启发式搜索算法,设计一个连续的报酬函数;
S6、设置n回合,当机器人达到目标点,本回合结束,重复步骤S1,当达到n回合,训练结束,机器人通过n回合训练输出一条最短路径。
实施例2
结合图3,仿真环境采用python tkinter进行编写,大小为20*20的栅格地图,地图中灰色矩形代表机器人,圆形代表目标点,黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G(xg,yg),当前坐标为C(xc,yc)。
实施例3
根据图3、图5、图6、图7和图9所示,建立一个20*20的栅格地图用来模拟当前环境,地图中灰色矩形代表机器人,圆形代表目标点,黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G(xg,yg),当前坐标为 C(xc,yc)。
快速搜索机制的设计,设计快速搜索机制,本设计采用一种快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆。深度记忆的形成,使机器人在动作选择上以及目标搜索上更加精确,较少不必要的搜索,提高搜索效率。
动作集的设计,本发明将原DQN算法中(上、下、左、右)四个动作扩充为(上、下、左、右、左上、右下、右上、右下)八个动作,扩充动作集,曾达机器人可选动作,提高机器人的学习能力。
报酬函数的设计,报酬函数是评价机器人所做动作好坏的重要标志,报酬函数设计的越精确,机器人越能够得到及时的反馈,以此提高学习效率。本发明设计一个连续的报酬函数,连续报酬函数是机器人对当前所做的动作能够得到精确反馈,提高了环境利用率和学习效率。
DQN算法有一个记忆库,记忆库用来前期搜索训练样本,定义记忆库的大小为n步,记忆库有两部分构成,一部分是由搜索器搜索出来的深层记忆,一部分是浅层记忆,搜索器搜索出来的深层记忆包括两部分,一部分是障碍物坐标,另一部分是回报值最大的动作。将搜索器搜索出来的回报值最大的动作,按先后顺序排列起来,构成一组最佳运动策略,供以后的学习训练。
本发明设置500回合,当机器人达到目标点一个回合结束,重复上述步骤,当达到500回合,训练结束,机器人通过500回合训练能够找到一条最优路径。
实施例4
S1中Q_Learning算法包括如下步骤:
S1.1、强化学习问题可以描述为一个马尔科夫决策过程,即MDP,MDP过程由5元素构成:{A、S、P、R、γ},其中S代表机器人的状态集,A是机器人的动作集,R是报酬函数,γ是折扣因子,即γ∈[0,1],P代表转移概率,即机器人在t时刻执行动作at后状态由St转移到St+1的概率;
S1.2、通过强化学习,使机器人找到最优的行动序列π*={a1 *、a2 *.....an *},在给定的环境下最大化累计奖励,在给定的行动策略π中,累计奖励和状态价值函数定义如下:
Figure RE-GDA0002347654570000101
其中,Gt为累计奖励,表示从时间步长t到动作序列借宿的奖励折扣的总和;
S1.3、根据S3.2中的(1),Gt是累计激励的期望值,通过定义一个状态值函数来量化给定状态下累计奖励的期望值,如下式所示:
Figure RE-GDA0002347654570000102
其中,Vπ(St)代表机器人从状态St执行策略π得到的激励的期望,将状态值函数转换成状态-动作值函数来描述累计奖励,如下式所示:
Figure RE-GDA0002347654570000111
根据(3),Q_Learning算法为求得最大的状态-动作值函数,即q*(st at)。
实施例4
S1中,DQN算法包括如下步骤:
S1.11、根据Q_Learning算法,首先建立一张Q值表,通过机器人与环境交互,得到奖赏函数值,通过不断迭代修改Q值表,使选择正奖赏值的动作的概率不断增加,随着不断与环境交互,更该动作策略集,是机器人的动作最终趋于最优动作集;
S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略,算法再一次迭代使需要考察每一个状态-动作对Q(s,a)的值,Q_Learning算法的基本形式为:
Q(st,at)=(1-α)Q(st,at)+α[rt+γmaxaQ(st+1,at)] (4),
其中,st为t时刻移动机器人的状态,在st状态下执行动作at,移动机器人状态变为st+1,同时得到回报值rt
S1.13、构建两个神经网络,通过深度神经网络对回报值得计算代替Q表,一个神经网络用于计算Q现实,一个用于计算法Q估计,然后计算Q现实与Q 估计的差值进行训练,最终达到差值最小。
由于Q_Learning算法容易造成为爆炸等问题,研究人员提出Deep Q_Learning即DQN算法,深度强化学习算法结合了深度学习的感知能力与强化学习的决策能力,通过深度神经网络对回报值得计算代替Q表,这样大大提高了运算速度并且很好地解决了Q_Learning算法存在的维数爆炸问题。
Q现实与Q估计具有相同的网络结构但是参数不同,每个网络由输入层、两个隐藏层、输出层四层构成,输入层为机器人当前状态S,输出层输出为每一个动作对应的Q值,每一个隐藏层由10个神经元构成,激励函数选用Relu函数。
实施例5
建立机器人的动作集包括如下步骤:
在设计的动作集中,机器人能执行(上、下、左、右、左上、左下、右上、右下)八个动作,用机器人当前坐标(x,y)表示当前状态S(x,y);
机器人通过执行动作集中的动作达到邻近位置;
机器人在状态Si执行动作ai达到状态Si+1,可以描述如下过程:
Si=(x,y),Si+1=(xi+1,yi+1);
Figure RE-GDA0002347654570000121
实施例6
S5中,连续的报酬函数的设计包括如下步骤:
S5.1、机器人每执行一个动作,会有相应的回报值作为奖励,回报值用来给机器人反馈,机器人通过回报值来改变自己的动作;
S5.2、灰色矩形代表机器人,黑色矩形代表障碍物,圆形代表目标点,定义机器人的起始坐标为S(xs,ys),当前坐标为C(xc,yc),目标点坐标G(xg,yg), D为起始点与目标点之间的距离,L1为起始点与当前位置之间的距离,L2为当前位置与目标点之间的距离,如下式:
Figure RE-GDA0002347654570000131
Figure RE-GDA0002347654570000132
其中,机器人达到目标点回报值为+1;机器人达到障碍物回报值为-1;机器人即没有达到目标点也没有碰到障碍物回报值为
Figure RE-GDA0002347654570000133
实施例7
S1中,参数设置如下:α代表学习率设置为0.1,γ代表折扣因子为0.9,ε为贪婪策略设置为0.9,batch为批量学习大小为32,记忆库大小为M为500,回报函数R。
DQN算法有一个记忆库,记忆库用来前期搜索训练样本,定义记忆库的大小为n步,记忆库有两部分构成,一部分是由搜索器搜索出来的深层记忆,一部分是浅层记忆,搜索器搜索出来的深层记忆包括两部分,一部分是障碍物坐标,另一部分是回报值最大的动作,将搜索器搜索出来的回报值最大的动作,按先后顺序排列起来,构成一组最佳运动策略,供以后的学习训练。
Q现实与Q估计的均方差;如下所示:
Figure RE-GDA0002347654570000134
每5步学习一次,每300步对Q现实的参数更新一次,更新公式如下:
Figure RE-GDA0002347654570000135
设置500回合进行训练,当机器人到达目标点则本回合结束,达到500回合时训练结束,输入最短路径,结果如图7-10所示。
由图5可知,灰色为起始点,为目标点,图中给出L1、L2、L3三条路径,则路径快速降线为L1。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的保护范围内所做的任何修改,等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:包括如下步骤:
S1、设置实验所需参数,参数包括贪婪系数、记忆库大小、折扣率、学习率、批量学习值;
S2、根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境;
S3、设计快速搜索机制,采用快速搜索机制对当前位置环境进行部分建模,在建模的同时进行奖赏值的计算,对奖赏值最大的动作以及障碍物点进行深度记忆;
S4、建立机器人的动作集,将DQN算法中四个动作扩充为八个动作;
S5、设计连续报酬函数:改进并引用启发式搜索算法,设计一个连续的报酬函数;
S6、设置n回合,当机器人达到目标点,一个回合结束,当达到n回合,训练结束,机器人通过n回合训练输出一条最优路径。
2.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:所述S1中Q_Learnin算法包括如下步骤:
S1.1、强化学习问题为一个马尔科夫决策过程,即MDP,MDP过程由5元素构成:{A、S、P、R、γ},其中S代表机器人的状态集,A是机器人的动作集,R是报酬函数,γ是折扣因子,即γ∈[0,1],P代表转移概率,即机器人在t时刻执行动作at后状态由St转移到St+1的概率;
S1.2、通过强化学习,使机器人找到最优的行动序列π*={a1 *、a2 *.....an *},在给定的环境下最大化累计奖励。
3.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S1中,DQN算法包括如下步骤:
S1.11、根据Q_Learnin算法,建立一张Q值表,通过机器人与环境交互,得到奖赏函数值,通过不断迭代修改Q值表,使选择正回报值的动作的概率不断增加,随着不断与环境交互,更该动作策略集,是机器人的动作最终趋于最优动作集;
S1.12、强化学习采用状态-动作对Q(s,a)迭代方式来获得最优策略;
S1.13、构建两个神经网络,通过深度神经网络对回报值得计算代替Q表,一个神经网络用于计算Q现实,一个用于计算法Q估计,然后计算Q现实与Q估计的差值进行训练,最终达到差值最小。
4.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S2中,根据三维地形环境的坡度特征和机器人运动几何学特性,建立一个二维的栅格地图用来模拟环境,采用python tkinter搭建仿真环境,仿真环境分为简单环境和复杂环境两种,环境地图中地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物,机器人的起始坐标用S(xs,ys),目标点坐标G(xg,yg),当前坐标为C(xc,yc)。
5.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S3中,快速搜索机制的设计,包括如下步骤:
S3.1、设计路径快速下降线,机器人沿着路径快速下降线行走,将由目标点与起始点所构成的线段设计为快速降线;
S3.2、设计搜索器,将机器人与其目标点方位相同的一个身为的大小设计为搜索器的大小。
6.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S4中,机器人能执行上、下、左、右、左上、左下、右上、右下八个动作,用机器人当前坐标(x,y)表示当前状态S(x,y)。
7.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于:S5中,设计连续的报酬函数,机器人每执行一个动作,会有相应的回报值作为奖励,回报值用来给机器人反馈,机器人通过回报值来改变自己的动作,地图中用灰色矩形代表机器人,用圆形代表目标点,用黑色矩形代表障碍物。
8.根据权利要求1所述的一种快速搜索机制下改进DQN的机器人路径规划算法,其特征在于,其特征在于:S6中,设置n回合进行训练,当机器人到达目标点则本回合结束,达到n回合时训练结束,输入最优路径。
CN201911198660.4A 2019-11-29 2019-11-29 一种快速搜索机制下改进dqn的机器人路径规划算法 Active CN110883776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911198660.4A CN110883776B (zh) 2019-11-29 2019-11-29 一种快速搜索机制下改进dqn的机器人路径规划算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911198660.4A CN110883776B (zh) 2019-11-29 2019-11-29 一种快速搜索机制下改进dqn的机器人路径规划算法

Publications (2)

Publication Number Publication Date
CN110883776A true CN110883776A (zh) 2020-03-17
CN110883776B CN110883776B (zh) 2021-04-23

Family

ID=69749388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911198660.4A Active CN110883776B (zh) 2019-11-29 2019-11-29 一种快速搜索机制下改进dqn的机器人路径规划算法

Country Status (1)

Country Link
CN (1) CN110883776B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111421538A (zh) * 2020-03-31 2020-07-17 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111645079A (zh) * 2020-08-04 2020-09-11 天津滨电电力工程有限公司 一种带电作业机器人机械臂路径规划控制装置及其方法
CN112720462A (zh) * 2020-12-09 2021-04-30 深圳先进技术研究院 一种机器人的轨迹规划系统和方法
CN113177664A (zh) * 2021-05-20 2021-07-27 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113189998A (zh) * 2021-04-30 2021-07-30 武汉工程大学 一种基于深度强化学习的多乘客动态车辆路径优化方法
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法
CN114185354A (zh) * 2022-02-15 2022-03-15 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统
CN114851184A (zh) * 2021-01-20 2022-08-05 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
CN107992036A (zh) * 2017-11-20 2018-05-04 汕头大学 一种智能停车库中存取车路径规划方法、装置及存储介质
CN108594858A (zh) * 2018-07-16 2018-09-28 河南大学 马尔科夫运动目标的无人机搜索方法及装置
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法
CN110245742A (zh) * 2019-05-08 2019-09-17 上海电力学院 一种基于Keras平台的自适应深度学习模型优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799179A (zh) * 2012-07-06 2012-11-28 山东大学 基于单链序贯回溯q学习的移动机器人路径规划算法
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
CN107992036A (zh) * 2017-11-20 2018-05-04 汕头大学 一种智能停车库中存取车路径规划方法、装置及存储介质
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations
CN108594858A (zh) * 2018-07-16 2018-09-28 河南大学 马尔科夫运动目标的无人机搜索方法及装置
CN110245742A (zh) * 2019-05-08 2019-09-17 上海电力学院 一种基于Keras平台的自适应深度学习模型优化方法
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111421538B (zh) * 2020-03-31 2022-05-20 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111421538A (zh) * 2020-03-31 2020-07-17 西安交通大学 一种基于优先级经验回放的深度强化学习机器人控制方法
CN111645079A (zh) * 2020-08-04 2020-09-11 天津滨电电力工程有限公司 一种带电作业机器人机械臂路径规划控制装置及其方法
CN112720462A (zh) * 2020-12-09 2021-04-30 深圳先进技术研究院 一种机器人的轨迹规划系统和方法
CN112720462B (zh) * 2020-12-09 2021-08-27 深圳先进技术研究院 一种机器人的轨迹规划系统和方法
CN114851184B (zh) * 2021-01-20 2023-05-09 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法
CN114851184A (zh) * 2021-01-20 2022-08-05 广东技术师范大学 一种面向工业机器人的强化学习奖励值计算方法
CN113189998A (zh) * 2021-04-30 2021-07-30 武汉工程大学 一种基于深度强化学习的多乘客动态车辆路径优化方法
CN113177664A (zh) * 2021-05-20 2021-07-27 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113177664B (zh) * 2021-05-20 2024-03-19 的卢技术有限公司 一种以安全性、距离代价为约束的自学习路径规划方法
CN113759901A (zh) * 2021-08-12 2021-12-07 杭州电子科技大学 一种基于深度强化学习的移动机器人自主避障方法
CN114185354B (zh) * 2022-02-15 2022-05-17 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统
CN114185354A (zh) * 2022-02-15 2022-03-15 中国科学院微电子研究所 一种基于dqn的agv全局路径规划方法和系统

Also Published As

Publication number Publication date
CN110883776B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN110883776B (zh) 一种快速搜索机制下改进dqn的机器人路径规划算法
Kohler et al. PSO+: A new particle swarm optimization algorithm for constrained problems
CN109945881B (zh) 一种蚁群算法的移动机器人路径规划方法
Abdel-Basset et al. A novel whale optimization algorithm integrated with Nelder–Mead simplex for multi-objective optimization problems
CN112325897B (zh) 基于启发式深度强化学习的路径规划方法
CN109241291A (zh) 基于深度强化学习的知识图谱最优路径查询系统及其方法
CN110544296A (zh) 一种敌方威胁不确定环境下无人机三维全局航迹智能规划方法
CN109597425B (zh) 基于强化学习的无人机导航和避障方法
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
CN112462803B (zh) 一种基于改进nsga-ii的无人机路径规划方法
CN110389591A (zh) 一种基于dbq算法的路径规划方法
CN116242383B (zh) 一种基于增强哈里斯鹰算法的无人车路径规划方法
CN112784140B (zh) 一种高能效神经网络架构的搜索方法
Yang et al. Real-time optimal navigation planning using learned motion costs
CN108413963A (zh) 基于自学习蚁群算法的条形机器人路径规划方法
CN109799829B (zh) 一种基于自组织映射的机器人群体协同主动感知方法
CN114859911A (zh) 一种基于drl的四足机器人路径规划方法
CN109540163A (zh) 一种基于差分进化和模糊控制相结合的避障路径规划算法
CN116339316A (zh) 一种基于深度强化学习的深海采矿机器人路径规划方法
Li et al. A mixing algorithm of ACO and ABC for solving path planning of mobile robot
CN114815801A (zh) 一种基于策略-价值网络及mcts的自适应环境路径规划方法
Wang et al. An improved NSGA-II algorithm for UAV path planning problems
Li et al. A novel path planning algorithm based on Q-learning and adaptive exploration strategy
Jin et al. WOA-AGA algorithm design for robot path planning
CN114153216A (zh) 基于深度强化学习和块规划的月面路径规划系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant