CN110321666A

CN110321666A - 基于先验知识与dqn算法的多机器人路径规划方法

Info

Publication number: CN110321666A
Application number: CN201910735725.8A
Authority: CN
Inventors: 李波; 易洁; 梁宏斌
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-10-11
Anticipated expiration: 2039-08-09
Also published as: CN110321666B

Abstract

本发明涉及机器人路径规划技术领域，具体涉及基于先验知识与DQN算法的多机器人路径规划方法，包括：初始化多机器人系统的参数；判断是否出现特殊状态，若是，则选取先验Q值向量的最大先验对应的动作指令，若否，则根据ε‑greedy策略生成动作指令；然后，计算生成机器人执行动作指令后的运行状态参数和奖赏函数，将相关数据存储到经验池中，并更新targetQ网络；根据多机器人系统的targetQ网络和初始状态参数，重复执行选取动作指令和生成状态参数以规划得到多机器人系统的最优路径。本发明能更好地帮助改善将DQN算法用于多机器人系统的路径规划时，targetQ网络收敛速度慢和训练随机性过大的问题。

Description

基于先验知识与DQN算法的多机器人路径规划方法

技术领域

本发明涉及机器人路径规划技术领域，具体涉及基于先验知识与DQN算法的多机器人路径规划方法。

背景技术

移动机器人有着广泛的应用，例如家庭、农业、工业、军事等各个领域都具有移动机器人的身影。而在控制机器人移动的研究领域中的三大核心是机器人的定位、任务的分配和路径规划技术。其中，路径规划是移动机器人到达任务目标、完成任务内容的首要条件。例如：家庭服务型清洁机器人需要对室内环境进行合理的路径规划以完成清洁任务；农业采摘机器人需要路径规划才能在农作物间穿行以完成采摘任务；工业机器人也需要进行路径规划才能在共享工作空间中完成给定的任务。

随着机器人技术的发展及生产实践的需求，多机器人系统的研究已经成为了目前的研究热点。多机器人系统将使系统更加地复杂化，因为，针对多机器人系统的路径规划，不应该是简单地叠加每个机器人的单机器人路径规划路线，而必须将其作为一个整体考虑，多机器人之间的避障路径规划是多机器人系统的关键部分。

随着人工智能的迅猛发展，机器学习相关方法也为多机器人系统的路径规划问题提供了可行的方法。相关技术中，使用Q-Learning算法来解决多机器人之间的避障路径规划。但Q-Learning是使用表格来存放Q(s,a)，在完成多机器人路径规划时，因为机器人的增多，会造成维度爆炸，建立Q表将变得不切实际。因此，相关技术中还提出了DQN(Deep QNetwork)算法，该算法是将Q-Learning算法和卷积神经网络(Convolutional NeuralNetworks,CNN)相结合。

DQN算法的基本思路为通过Q-Learning算法来提供卷积神经网络的训练样本，不断更新targetQ网络，优化权重，而利用最终得到的targetQ网络完成多机器人系统路径的规划。但是，Q-Learning算法需要不断地对学习空间进行探索，这将会极大的增加计算的工作量，使得导致targetQ网络的收敛速度很慢；此外，使用ε-greedy策略时，是按照(1-ε)的概率来选择最大Q(s,a)的动作或者按照ε来选择一个随机的动作，这导致训练得到的targetQ网络的随机性过大，会产生大量的无用探索。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何更好地帮助改善将DQN算法用于多机器人路径规划时targetQ网络收敛速度慢和训练随机性过大的问题。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于先验知识与DQN算法的多机器人路径规划方法，包括以下步骤：

S1：初始化多机器人系统的迭代次数阈值、探索步数阈值、先验知识、先验规则、经验池、迭代次数和探索步数，所述先验知识根据单个机器人的最优路径生成，所述先验规则包括特殊状态序列和先验Q值向量Q_p；然后通过先验知识初始化Q表和targetQ网络；

S2：判断迭代次数是否大于迭代次数阈值，若是：则执行步骤S5；若否：则初始化当前状态参数s_t和探索步数，再执行下一步骤；

S3：判断探索步数是否大于探索步数阈值，若是：则执行迭代次数自加一，再返回步骤S2；若否：则执行下一步骤；

S4：判断是否出现特殊状态若是：则选取先验Q值向量Q_p的最大先验对应的动作指令a_t；若否：则根据ε-greedy策略生成动作指令a_t；然后，根据动作指令a_t计算生成机器人执行动作指令a_t后的运行状态参数s_t+1和奖赏函数r_t，并将(s_t,a_t,r_t,s_t+1)存储到经验池；最后，更新targetQ网络，执行探索步数自加一，再返回步骤S3；

S5：获取targetQ网络，根据预设的初始状态参数从targetQ网络中获取动作指令，并重复：执行动作指令生成状态参数，根据状态参数选取动作指令，当生成的状态参数等于预设的目标状态参数时，生成得到多机器人系统的最优路径。

这样，通过每个单机器人的最优路径作为先验知识，使得每个机器人都倾向于在下一个动作选择与静态障碍物避碰的最优路线，且通过先验知识来合理的初始化Q表，能预测各个机器人倾向的后续动作，以决定此时自己的行为，能够较大程度的缩短学习时间；增加先验规则后，在出现特殊状态时，能根据先验规则控制机器人选取下一动作，降低出现无用探索的情况，若未出现特殊状态，则继续通过探索策略充分探索环境，不会对训练过程造成影响。本方案中，通过先验知识和先验规则能更好地帮助改善将DQN算法用于多机器人路径规划时targetQ网络收敛速度慢和训练随机性过大的问题。

优选的，步骤S1中还初始化Q网络，并随机生成Q网络的网络权重ω；然后，在初始化targetQ网络时，令targetQ网络的网络权重

这样，通过Q网络作为标记，用于对targetQ网络及targetQ网络的网路权重进行更新，有利于targetQ网络的成型。

优选的，步骤S4中，更新targetQ网络包括：

S401：从经验池中随机选取minibatch的transitions(s_j,a_j,r_j,s_j+1)，计算动作值函数y_j的值，再执行下一步骤；

S402：采用梯度下降法更新(y_j-Q(s_t,a_j,ω))²和Q网络的网络权重ω，执行预设的时间步自加一，再执行下一步骤；

S403：判断时间步是否等于预设的时间步阈值，若是：则更新targetQ网络，执行网络权重执行探索步数自加一，执行时间步阈值清零，再返回步骤S3；若否：则执行探索步数自加一，再返回步骤S3。

这样，通过时间步阈值确定targetQ网络更新的时间，即每经过时间步阈值个时间步就更新targetQ网络一次，在保证targetQ网络更新的前提下，能够减少系统的计算量。

优选的，步骤S401中，计算动作值函数y_j的值时，判断j+1是否为终点，若是：则执行y_j＝r_j，式中r_j为第j步的奖赏函数；若否：则执行式中r_j为第j步的奖赏函数，γ为折扣因子，为动作值函数的预估值。

这样，根据当前步骤确定动作值函数y_j的值，使得更准确动作值函数y_j值，有利于更好的更新targetQ网络。

优选的，步骤S3中所述的根据ε-greedy策略生成动作指令a_t时，随机生成σ∈(0，1)，判断σ是否大于预设的探索因子ε，若是：则执行动作指令若否：则生成一个随机动作指令a_t。

这样，通过ε-greedy策略生成的动作指令，有利于得到最优解，从而提升targetQ网络的稳定性。

优选的，步骤S1中的单个机器人的最优路径，其路径的规划包括：

S101：初始化单机器人系统的探索因子、最大迭代次数、终止状态参数、目标状态参数、最大计数阈值、开始更新时刻、迭代次数、探索步数、动作值函数、状态-动作对的访问次数、成功路径、成功路径储存表；

S102：判断迭代次数是否大于最大迭代次数，若是：则执行步骤S106；若否：则初始化当前状态参数，再执行下一步骤；

S103：生成一个随机数，比较随机数和探索因子后生成一个动作指令，根据该动作指令计算生成机器人执行该动作指令后的运行状态参数和奖赏函数；然后，判断运行状态参数是否等于终止状态参数，若是：则继续判断运行状态参数是否等于目标状态参数，若等于，则将成功路径存储到成功路径储存表中，执行迭代次数自加一，再返回步骤S102，若不等于，则执行迭代次数自加一，再返回步骤S102；若否：则执行下一步骤；

S104：判断开始更新时刻是否小于等于探索步数，若是：则存储奖赏函数，执行状态-动作对的访问次数自加一，再执行下一步骤；若否：则判断状态-动作对的访问次数是否等于最大计数阈值，若是，则更新动作值函数，再执行下一步骤，若否，则执行下一步骤；

S105：将运行状态参数存储到成功路径中，执行探索步数自加一，再返回步骤S103；

S106：获取动作值函数，根据预设的初始状态参数从动作值函数中选取动作指令，并重复：执行动作指令生成状态参数，根据状态参数选取动作指令，当生成的状态参数等于预设的目标状态参数时，得到单机器人系统的最优路径。

这样，在Q-Learning算法中增加了最大计数阈值，利用状态-动作对的访问次数来决定是否更新动作值函数(Q值)，即当状态-动作对的访问次数达到最大计数阈值时，才开始更新动作值函数，这不仅减少了计算量，还极大的提升了更新学习的速度；且这种更新动作值函数的方式具有多步预见能力，考虑了未来多个状态-动作对对动作值函数的影响，学习得到的控制策略会更为合理。此外，本方案中，选择状态-动作对的访问次数作为动作值函数更新的依据，在保证提升更新学习速度的前提下，不会影响前序的步骤，即不需要减少探索因子的值，因而能避免学习系统因对环境的探索完全性不足导致错过最优解的问题。

优选的，步骤S104中，更新动作值函数的公式为Q(s,a)＝U(s,a)/h，式中Q(s,a)为动作值函数，U(s,a)为存储的奖赏函数，h为最大计数阈值。

这样，更新后的动作值函数为存储的所有奖赏函数的平均值，一方面，通过平均计算法能减少计算量，还有利于提升动作值函数的准确性；另一方面，不再需要计算资格迹矩阵，这进一步减少了计算的复杂度。

优选的，步骤S103中，若运行状态参数等于终止状态参数且等于目标状态参数，则在执行步骤S102之前，执行预设的成功寻路次数自加一，成功路径数自加一。

这样，通过记录和更新成功寻路次数和成功路径数，能及时反馈学习系统的学习效果，还能辅助决策探索因子的更新，这有利于辅助解决Q-Learning算法的探索与利用平衡问题。

优选的，步骤S102中，若迭代次数小于最大迭代次数，则先判断成功寻路次数是否大于预设的最大成功寻路次数，若是：则更新探索因子的值，再执行下一步骤；若否：则执行下一步骤。

这样，通过成功寻路次数能反馈学习系统的学习效果，通过学习效果来不断更新探索因子的值，使得ε-greedy策略具有更强的适应能力，能更符合运行规律。

优选的，步骤S102中，更新探索因子的值时，先判断成功路径数是否小于预设的最小路径数，若是：则执行ε′＝ε+eSize×(Minpathnum-pathnun)，ε为更新前的探索因子，ε′为更新后的探索因子，并令ε′＝ε，式中eSize为预设的探索因子单次更新步长，MinPathNum为最小路径数，PathNum为成功路径数；若否：则执行ε′＝ε-eSize×(i/eCycle)，ε表示更新前的探索因子，ε′表示更新后的探索因子，并令ε′＝ε，式中，eSize为预设的探索因子单次更新步长，i为迭代次数，eCycle为预设的探索因子改变周期。

这样，通过成功路径数和成功寻路次数的组合能更准确、及时的反馈学习系统的学习效果，从而通过学习效果来不断更新探索因子的值，使得ε-greedy策略具有更强的适应能力，也能更符合运行规律。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为实施例一中基于先验知识与DQN算法的多机器人路径规划方法的逻辑框图；

图2为实施例一中步骤S4的子步骤的逻辑框图；

图3为实施例二中单机器人最优路径规划的逻辑框图；

图4为实施例二中单机器人路径规划的流程图；

图5为实施例二中更新Q值表的流程图；

图6为实施例二中改进前的多机器人系统路径规划的收敛性能图；

图7为实施例二中改进后的多机器人系统路径规划的收敛性能图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

DQN(Deep Q Network)算法，是Q-Learning算法和卷积神经网络(ConvolutionalNeural Networks,CNN)的结合，其通过Q-Learning来提供卷积神经网络需要的训练样本，不断地优化权重矩阵；还通过卷积神经网络对输入数据进行学习计算，得出每个状态下的所有动作的估计Q值，即动作Q值。

一、DQN算法描述

DQN算法是利用值函数近似可以用来解决Q表过大难以存取得问题，其实就是使用一个函数来代替表示Q(s,a)，即：

Q(s,a)＝f(s,a) (1-1)

而函数f可以是任意类型的函数，例如使用线性函数来表示Q(s,a)：

Q(s,a)＝ω₁s+ω₂a+b (1-2)

其中：ω₁，ω₂，b是函数f的参数。

通过函数表示，状态s的维度就变得无关紧要，因为最后都会通过矩阵运算降维为单值的Q值。这就是价值函数近似的基本思路。但是我们并不清楚Q值真实的一个分布情况，因此准确地来说是用函数f来近似Q值分布，同时用ω来统一表示函数f的参数，则式(1-1)可表示为：

Q(s,a)≈f(s,a,ω) (1-3)

那么就可以说我们需要寻找一个函数f，使得Q(s)≈f(s,ω)。

此时，输入状态s后，将得到一个向量[Q(s,a₁),Q(s,a₂),Q(s,a₃),…Q(s,a_n)]，这个向量由状态s下的所有动作的Q值组成。如此一来，只要将状态s进行输入后，就可以获取所有动作的Q值，这个意味着在后期进行动作选择和Q值更新时将会更加便利。

DQN算法的核心就是使用卷积神经网络来近似代替Q值函数，也就是说我们用一个卷积神经网络来表示这个函数f(s,ω)。也就是说，使用Q-Network(Q网络)来表示Q值。

卷积神经网络的训练是一个最优化问题，最优化一个损失函数[48](LossFunction)，也就是标记信号和卷积神经网络输出的偏差值，目标是让损失函数最小化。为此，我们得存在一定的训练样本，其中包括大量的带标记数据，然后使用反向传播[49]以及梯度下降来更新卷积神经网络的参数。

此时使用Q-Learning计算出来的正确Q值当做标记信息，为Q-Network提供需要的训练样本，不断地优化权重矩阵。因此，Q-Network训练的损失函数就是：

其中：s',a'表示下一个状态和动作。

二、DQN学习算法流程

1.容量为N的Memory D(经验池)

2.初始化标记Q-Network，随机生成标记权重ω

3.初始化target Q-Network，网络权重为

4.遍历循环episode＝1,2,…,M：

5.初始化初始状态s₁

6.遍历循环step＝1,2,…,T：

7.用ε-greedy策略：

8.选择一个随机动作a_t，或者选择

9.执行动作a_t，观察奖励r_t以及新的状态s_t+1

10.将transition样本(s_t,a_t,r_t,s_t+1)存入经验池D中

11.从经验池D中随机抽取一个minibatch的transitions(s_j,a_j,r_j,s_j+1)

12.令

13.对(y_j-Q(s_t,a_j,ω))²关于ω使用梯度下降法进行更新

14.每隔C步更新target Q网络，

15.End for

16.End for

综上可知，DQN算法与Q-Learning算法还存在一个不一样的地方：即DQN算法加入了一个经验池D，即增加了经验回放(Experience Replay)的部分。经验回放的作用是先将系统探索到的样本信息存储在经验池D中，样本信息为一个由当前状态s_t、当前状态动作值a_t、当前采取动作获得的立即奖励r_t、下一个状态s_t+1组成的四元组。训练时，通过经验回放机制对经验池D中存储的样本中随机抽取一组minibatch样本，再使用梯度下降法进行迭代学习。

经验回放的目的是因为加入了神经网络模型，要求数据满足独立同分布，但QLearning算法得到的样本前后是有关系的。为了打破数据之间的关联性，通过存储-采样的方法将这个关联性打破了，从而更容易收敛。

三、DQN算法的缺陷分析

发明人通过对比和分析发现，DQN算法存在以下问题：

1)收敛速度较慢：将DQN算法应用到多机器人路径规划问题时，由于是从零开始获取样本数据，算法需要大量的时间来学习；

2)随机性过大：DQN算法沿用了Q-Learning算法的探索策略——ε-greedy策略来对未知环境进行探索，但是这种动作选择的规则增加了训练时动作选择的随机性，产生了很多无用的探索。

针对上述问题，本发明提供了基于先验知识与DQN算法的多机器人路径规划方法，包括以下步骤：

实施例一：

如图1所示：基于先验知识与DQN算法的多机器人路径规划方法，包括：

S1：初始化多机器人系统的迭代次数阈值N、探索步数阈值M、时间步阈值C、先验知识、先验规则、经验池D，迭代次数i、探索步数t、Q网络，随机生成Q网络的标记权重ω，所述先验知识根据每个单机器人的最优路径生成，所述先验规则包括状态序列动作序列特殊状态序列和先验Q值向量Q_p；通过先验知识初始化Q表和targetQ网络，令targetQ网络的网络权重

具体的，本实施例中，预设多机器人系统的状态序列为动作序列为特殊状态序列为当出现特殊状态p_i情况时，此时最优动作选择策略为由此建立该特殊的状态和最优动作的映射关系此时称这个映射关系为先验规则。其中为算法的输入，特殊的状态可以同样为算法的输入也可以是别的影响动作选择的一个信号，特殊状态序列与多机器人系统的状态序列应当满足还设定验Q值向量为式中为动作a_n的先验Q值，向量Q_p为已知先验规则时的所有动作的先验Q值的集合。

S2：判断迭代次数是否大于迭代次数阈值，若是：则执行步骤S5；若否：则初始化当前状态参数s_t和探索步数，再执行下一步骤。

S3：判断探索步数是否大于探索步数阈值，若是：则执行迭代次数自加一，在返回步骤S2；若否：则执行下一步骤。

S4：判断是否出现特殊状态若是：则选取先验Q值向量Q_p的最大先验对应的动作指令a_t；若否：则根据ε-greedy策略生成动作指令a_t；然后，根据动作指令a_t计算生成机器人执行动作指令a_t后的运行状态参数s_t+1和奖赏函数r_t，将(s_t,a_t,r_t,s_t+1)存储到经验池；最后，更新targetQ网络，执行探索步数自加一，再返回步骤S3

其中，ε-greedy策略，是随机生成σ∈(0，1)，判断σ是否大于预设的探索因子ε，若是：则执行动作指令若否：则选择一个随机动作指令a_t。

如图2所示：更新targetQ网络包括：

计算动作值函数y_j的值时，判断j+1是否为终点，若是：则执行y_j＝r_j，式中r_j为第j步的奖赏函数；若否：则执行式中r_j为第j步的奖赏函数，γ为折扣因子，为动作值函数的预估值。

实施例二：本实施例还公开了单机器人的最优路径的规划方法。

如图3所示：单机器人的最优路径的规划方法，包括：

S101：初始化单机器人系统的动作集A、状态集S、最大迭代次数n、最大探索步数m、最小路径数MinPathNum、最大成功寻路次数MaxSuccessNum、探索因子ε、探索因子单次更新步长eSize、探索因子改变周期eCycle、最大计数阈值h、开始更新时刻B(s,a)、完成更新时刻、动作值函数Q(s,a)、状态动作对的访问次数C(s,a)、奖赏函数存储U(s,a)、成功寻路次数SuccessNum、成功路径数PathNum、成功路径的PathList、成功路径储存表List、迭代次数i和探索步数t。

S102：判断迭代次数i是否大于最大迭代次数n，若是：则执行步骤S6；若否：判断成功寻路次数SuccessNum是否大于预设的最大成功寻路次数MaxSuccessNum，若是：则更新探索因子ε的值，并执行下一步骤；若否：则执行下一步骤。

更新探索因子的值时，判断成功路径数PathNum是否小于预设的最小路径数MinPathNum，若是：则执行ε′＝ε+eSize×(Minpathnum-pathnun)，ε表示更新前的探索因子，ε′表示更新后的探索因子，并令ε′＝ε，式中，eSize为预设的探索因子单次更新步长，MinPathNum为最小路径数，PathNum为成功路径数；若否：则执行ε′＝ε-eSize×(i/eCycle)，ε表示更新前的探索因子，ε′表示更新后的探索因子，并令ε′＝ε，式中，eSize为预设的探索因子单次更新步长，i为迭代次数，eCycle为预设的探索因子改变周期。

S103：生成一个随机数σ∈(0，1)，比较随机数σ和探索因子ε的值后选择一个动作指令a_t，根据该动作指令a_t计算生成机器人执行该动作指令后的运行状态参数s_t+1和奖赏函数r_t+1；判断运行状态参数s_t+1是否等于终止状态参数，若是：则判断运行状态参数s_t+1是否等于目标状态参数，若等于，则将成功路径PathList存储到成功路径储存表List中、执行迭代次数i自加一、成功寻路次数SuccessNum自加一、成功路径数PathNum自加一，并执行步骤S2，若不等于，则执行迭代次数i自加一，并执行步骤S2；若否：则执行下一步骤。

其中，若随机数σ的值大于探索因子ε，则根据预设的概率模型选取动作a_t；若随机数σ的值小于等于探索因子ε，则从动作集A中随机选取动作a_t；概率模型选取动作指令a_t的公式为式中P(s|a_k)为选状态参数S下选取动作指令a_k的概率，Q(s,a_k)为状态参数S下动作指令a_k的Q值，为状态参数S下所有动作指令的Q值和。

S104：判断开始更新时刻B(s,a)是否小于等于探索步数t，若是：则将奖赏函数r_t+1存储于奖赏函数存储U(s,a)、执行状态-动作对的访问次数C(s,a)自加一，并执行下一步骤；若否：则判断状态-动作对的访问次数C(s,a)是否等于最大计数阈值h，若是，则更新动作值函数Q(s,a)，并执行下一步骤，若否：则执行下一步骤。

其中，更新动作值函数的公式为Q(s,a)＝U(s,a)/h，式中，Q(s,a)为动作值函数，U(s,a)为存储的奖赏函数，h为最大计数阈值。

S105：将运行状态参数s_t+1存储到成功路径PathList中、执行探索步数t自加一，并执行步骤S3；

S106：获取动作值函数，根据预设的初始状态参数从动作值函数中选取动作指令，并重复：执行动作指令生成状态参数，根据状态参数选取动作指令，当生成的状态参数等于预设的目标状态参数时，得到单机器人的最优路径。

为了更好的介绍路径规划的流程，本实施例中还公开了单机器人路径规划方法的流程图。

如图4和图5所示：基于单机器人路径规划流程，包括以下步骤：

步骤一：初始化动作值函数Q(s,a)、动作集A、状态集S、最大迭代次数n、最大探索步数m、最小路径数MinPathNum、最大成功寻路次数MaxSuccessNum、探索因子ε、探索因子单次更新步长eSize、探索因子改变周期eCycle、状态动作对被访问次数C(s,a)，开始更新时刻B(s,a)，完成更新时刻E(s,a)奖赏函数存储U(s,a)，L(s,a)是否进行学习，最大计数阈值h、成功寻路次数SuccessNum、成功路径数PathNum、成功路径的PathList、成功路径储存表List、迭代次数i和探索步数t。

初始化：Q(s,a)＝0，C(s,a)＝0，U(s,a)＝0，SuccessNum＝0，PathNum＝0，PathList＝0、List＝0、i＝1，t＝1。

步骤二：判断i是否大于n，若是：则结束学习；若否：则执行t＝0，并清空PathList，再判断SuccessNum是否大于MaxSuccessNum，若SuccessNum大于MaxSuccessNum，则更新ε的值，若SuccessNum小于等于MaxSuccessNum，则执行S3步骤。

其中，更新探索因子ε的值时：若PathNum小于最MinPathNum，则采用公式ε+eSize×(MinPathNum-PathNyn)；若PathNum大于等于MinPathNum，则采用公式ε-eSize×(i/eCycle)；式中，ε为探索因子，eSize为探索因子单次更新步长，MinPathNum为最小路径数，PathNum为成功路径数，i为迭代次数，eCycle为探索因子改变周期。

步骤三：初始化状态s，s∈S。

步骤四：判断t是否大于m，若是：则执行i+1，并返回步骤二；若否：则生成随机数σ∈(0，1)，再判断σ是否大于ε，若大于，则根据概率式选择在状态s_t时执行的动作a_t，若不大于，则随机选择动作a_t，a_t∈A。

其中，根据概率式选择动作a_t的公式为：式中P(s|a_k)为选状态参数S下选取动作指令a_k的概率，Q(s,a_k)为状态参数S下动作指令a_k的Q值，为状态参数S下所有动作指令的Q值和。

步骤五：执行动作a_t得到状态s_t+1和奖励r_t+1。

步骤六：判断状态s_t+1是否为终止状态，若是：则再判断状态s_t+1是否为目标状态，若状态s_t+1为目标状态，则执行如下操作——将SuccessNum值加一后，判定此时的PathList在不在于List中，若不在于List中，则将PathList加入List，PathNum值加一，i的值加一，并且执行步骤二，若不为目标状态，则i的值加一，并返回步骤二；若否：则执行步骤七。

步骤七：判断B(s,a)是否小于等于t(即上一动作值函数Q(s,a)的更新时刻在这一步之前时)，若是：L(s,a)＝true，即使其进行学习；若否，执行步骤八。

步骤八：判定L(s,a)的值是否为真，若是：C(s,a)是否等于0，若等于0，则此刻开始学习，即则令B(s,a)＝t，若不等于0，不进行任何操作，进行完针对C(s,a)的判断后，执行C(s,a)+＝1(访问次数增加一次)，U(s,a)+＝r_r+1+λ_maxQ(s_t+1,a)(存储奖励)；若否：则执行步骤九。

步骤九：判断C(s,a)是否等于h(访问次数是否达到最大计数阈值)，若是：则执行Q(s,a)＝U(s,a)/h(取前h步奖励值的平均值),U(s,a)＝0(清空奖励),C(s,a)＝0(清空访问次数)，同时，令更新时刻E(s,a)＝i。

步骤十：判断E(s,a)是否大于等于E(s,a)，若是：令L(s,a)＝true，U(s,a)＝0，C(s,a)＝0；若否：执行步骤十一。

步骤十一：将s_t+1放入PathList中，s←s_t+1，将当前状态变为s_t+1。t值加一，执行步骤四。

实施例三：

本实施例中，公开了多机器人系统的路径规划的仿真实验。

一、仿真实验说明

1)进行仿真实验时，软件平台采用Windows10操作系统，CPU采用Inter Core I5-8400，运行内存的大小为16GB。单机器人系统的路径规划算法将使用Python语言与TensorFlow深度学习工具完成仿真实验，多机器人路径规划算法采用matlab语言在matlab2016a仿真软件上进行编写。

2)本文将使用栅格法来对环境进行描述，将机器人系统的工作空间划分成若干个的小栅格，每个小栅格都可以代表机器人系统的一个状态。在地图中白色栅格表示安全区域，黑色栅格表示存在障碍物。

环境中目标状态和障碍物都是静止的，且对于机器人而言环境中的障碍物和边境位置是未知的。后续实验中，机器人的工作空间分别为10×10或者20×20的栅格地图。

3)多机器人系统的MDP四元组定义如下(系统中机器人的容量为n)：

(1)动作集合：每一机器人可以采取的动作定为向上、向下、向左、向右四个动作，以及躲避动作(保持不动，用4代替)。动作空间则为：A＝{0，1,2,3，4}，但是使用一个动作向量来描述：其中表示第t步第i个机器人采取的动作。

(2)状态集合：同样是S＝{1,2,3…100}或者S＝{1,2,3…400}，使用状态向量来描述：其中表示第t步第i个机器人的状态。

(3)迁移函数：上标i表示第i个机器人：

(4)奖赏函数：多机器人系统中，由于存在多个机器人，因此在单机器人系统的奖赏函数基础上，增加一个如果机器人与机器人之间发生碰撞，则获得立即奖赏为-10。因此，多机器人系统的奖赏函数应为：

二、设定初始Q值表

本在仿真实验中，我们使用包含三个机器人的多机器人系统。

每个机器人的静态避障路径：代表第i个机器人的避障路径，但是由于路径的步数(长度)不同，因此对于步数短的机器人进行扩增，将目标状态填充进单个机器人的静态避障路径。此外，由于多机器人系统中采用的是状态向量，因此，将各个机器人的静态避障路径合并为状态向量来进行表示。

首先初始化Q值表为0，当多机器人系统发生状态转移的动作值函数设定为一个合理的大于0的数值，这样可以迫使多机器人系统对环境有一定的了解，倾向于选择最优的静态避障路径，而不用去随机的尝试动作。

三、设定先验规则

先验规则的特殊的状态设定想法是当两个机器人发生资源争夺时，随机使其中一个机器人选择躲避动作。设定概率ξ＝0.5，

因此，特殊的状态序列

p₁：机器人1与机器人2的状态发生碰撞即对应的动作为动作为以概率ξ选择机器人1选择动作4保持不动，否则机器人2选择动作4保持不动。

p₂：机器人2与机器人3的状态发生碰撞即对应的动作为动作为以概率ξ选择机器人2选择动作4保持不动，否则机器人3选择动作4保持不动。

p₃：机器人1与机器人3的状态发生碰撞即对应的动作为动作为以概率ξ选择机器人1选择动作4保持不动，否则机器人3选择动作4保持不动。

先验规则的特殊的状态设定想法是当某个机器人运行至目标状态后，保持不动。

因此，特殊状态序列

p₄：机器人1的当前状态等于目标状态时，对应的动作为动作为机器人选择动作4保持不动。

p₅：机器人2的当前状态等于目标状态时，对应的动作为动作为机器人选择动作4保持不动。

p₆：机器人3的当前状态等于目标状态时，对应的动作为动作为机器人选择动作4保持不动。

四、实验

仿真实验在matlab2016a上进行，使用10×10的栅格地图，多机器人系统包含三个机器人。三个机器人的起始状态分别为(10,7)、(8,9)、(7,10)，目标状态分别为(1,8)、(6,5)、(1,4)。实验结果：改进前算法的损失函数收敛性能如图6所示，改进后算法的损失函数收敛性能如图7所示，

根据图6和图7可知：在算法收敛速度方面，DQN算法训练到2500步依然没有收敛，而改进后的DQN算法在第600步左右已经趋于完全收敛。因此我们可以发现改进后的DQN算法明显算法收敛速度得到了加快。

这是由于通过先验知识，增加机器人系统对环境的了解，加快了Q-Network的优化速度；同时又加入了先验规则，在学习训练时，降低了无用的随机探索次数，缩短了训练时长，使得算法更加智能高效。因此，可以说明先验知识和先验规则的引入能够提高DQN算法的性能，具有一定的实际意义。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于先验知识与DQN算法的多机器人路径规划方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S1中还初始化Q网络，并随机生成Q网络的网络权重ω；然后，在初始化targetQ网络时，令targetQ网络的网络权重

3.如权利要求2所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S4中，更新targetQ网络包括：

4.如权利要求3所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S401中，计算动作值函数y_j的值时，判断j+1是否为终点，若是：则执行y_j＝r_j，式中r_j为第j步的奖赏函数；若否：则执行式中r_j为第j步的奖赏函数，γ为折扣因子，为动作值函数的预估值。

5.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S3中所述的根据ε-greedy策略生成动作指令a_t时，随机生成σ∈(0，1)，判断σ是否大于预设的探索因子ε，若是：则执行动作指令若否：则生成一个随机动作指令a_t。

6.如权利要求1所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S1中的单个机器人的最优路径，其路径的规划包括：

7.如权利要求6所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S104中，更新动作值函数的公式为Q(s,a)＝U(s,a)/h，式中Q(s,a)为动作值函数，U(s,a)为存储的奖赏函数，h为最大计数阈值。

8.如权利要求6所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S103中，若运行状态参数等于终止状态参数且等于目标状态参数，则在执行步骤S102之前，执行预设的成功寻路次数自加一，成功路径数自加一。

9.如权利要求8所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S102中，若迭代次数小于最大迭代次数，则先判断成功寻路次数是否大于预设的最大成功寻路次数，若是：则更新探索因子的值，再执行下一步骤；若否：则执行下一步骤。

10.如权利要求9所述的基于先验知识与DQN算法的多机器人路径规划方法，其特征在于：步骤S102中，更新探索因子的值时，先判断成功路径数是否小于预设的最小路径数，若是：则执行ε′＝ε+eSize×(Minpathnum-pathnun)，ε表示更新前的探索因子，ε′表示更新后的探索因子，并令ε′＝ε，式中，eSize为预设的探索因子单次更新步长，MinPathNum为最小路径数，PathNum为成功路径数；若否：则执行ε′＝ε-eSize×(i/eCycle)，ε表示更新前的探索因子，ε′表示更新后的探索因子，并令ε′＝ε，式中，eSize为预设的探索因子单次更新步长，i为迭代次数，eCycle为预设的探索因子改变周期。