CN113687657B

CN113687657B - 用于多智能体编队动态路径规划的方法和存储介质

Info

Publication number: CN113687657B
Application number: CN202110985514.7A
Authority: CN
Inventors: 杨洪勇; 韩艺琳; 范之琳; 宁新顺; 刘飞; 刘莉; 王丽丽; 张顺宁
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-07-14
Anticipated expiration: 2041-08-26
Also published as: CN113687657A

Abstract

本发明公开了一种用于多智能体编队动态路径规划的方法，该方法包括：步骤S1：初始化环境信息，获取多智能体的目标位置；步骤S2：多智能体中的领航智能体，根据多智能体的目标位置，获取领航智能体当前状态对应的领航值函数，根据领航值函数进行Q值初始化；步骤S3：领航智能体采用分层强化学习算法进行策略学习，并更新领航智能体Q值表；步骤S4：多智能体中的跟随智能体，根据领航智能体的当前位置确定跟随智能体目标位置，根据跟随智能体目标位置，获取跟随智能体当前状态对应的跟随值函数，并进行Q值初始化，根据贪婪策略选择动作，得到下一状态和回报，保存学习经验；步骤S5：更新跟随智能体Q值表。

Description

用于多智能体编队动态路径规划的方法和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用于多智能体编队动态路径规划的方法和存储介质。

背景技术

在移动智能体领域，路径规划因具有时效性而被广为关注，并在机器学习和人工智能领域占有一定的重要地位，如今基于单智能体的路径规划研究成果非常显著，在此基础上的多智能体的路径规划不仅可以实现单智能体原本的功能，还能将信息整合利用，在道路探索，信息传递和物流分拣等方面有更高的效率。

强化学习算法是目前机器学习中重要的学习方法之一，是以智能体的多次训练并累计经验为主，通过不断根据接收到的环境信号选择策略并加以学习，将自身信息再次反馈给环境，在积累大量经验后完成一个阶段的自我学习的过程。Q-learning算法作为表格型强化学习算法，能够指导智能体在未知环境中探索最优路径，但随着智能体数量和方向动作的增加，在实验过程中难免引起智能体第一次到达目标点的时间和奖励收敛的速度慢等问题，同时算法中参与计算的数值也越庞大，引起维度灾难。

多智能体强化学习过程中，智能体在彼此通信的情况下存在相互协作或竞争的关系，在多智能体自主编队领域，多用领航-跟随法实现群体控制，跟随者实时的目标定位和导航也是衡量编队控制性能的一个关键点。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：为保证多智能体实时编队，领航者会基于跟随者的当前位置选择等待或者继续前进两种状态，这使得基于马尔可夫的强化学习算法无法保证多个决策者之间步调的一致性。

发明内容

本公开实施例提供了一种用于多智能体编队动态路径规划的方法和存储介质，以解决现有技术中基于马尔可夫的强化学习算法无法保证多个决策者之间步调一致性的技术问题。

第一方面，提供了一种用于多智能体编队动态路径规划的方法，该方法包括：步骤S1：初始化环境信息，获取多智能体的目标位置；步骤S2：所述多智能体中的领航智能体，根据所述多智能体的目标位置，获取所述领航智能体当前状态对应的领航值函数，根据所述领航值函数进行Q值初始化；步骤S3：所述领航智能体采用分层强化学习算法进行策略学习，所述领航智能体在一个Option阶段内进行策略学习，根据学习到的策略选择动作，根据环境反馈得到回报或者终止信号，保存当前的状态、回报和动作信息后，根据领航智能体强化学习算法更新所述领航智能体Q值表；步骤S4：所述多智能体中的跟随智能体，根据所述领航智能体的当前位置确定跟随智能体目标位置，根据所述跟随智能体目标位置，获取所述跟随智能体当前状态对应的跟随值函数，根据所述跟随值函数进行Q值初始化，根据贪婪策略选择动作，得到下一状态和回报，保存学习经验；步骤S5：所述跟随智能体到达所述跟随智能体目标位置且到达次数达到预设阈值，根据跟随智能体强化学习算法更新所述跟随智能体Q值表；步骤S6：重复上述步骤S3至步骤S5，直至所述多智能体到达所述目标位置或者学习回合数达到预设阈值。

结合第一方面，在第一方面的第一种可能的实现方式中，所述领航值函数

所述跟随值函数/>

其中，s_T为所述领航智能体的当前状态，s_f为所述跟随智能体的当前状态，δ为负向引力尺度因子，-1＜δ≤0，ρ_aim1为所述领航智能体的当前位置与所述目标位置的距离，ρ为栅格环境中斜对角线上两端点间的距离，ρ_aim2为所述跟随智能体的当前位置与所述跟随智能体目标位置的距离。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述步骤S3中，根据领航智能体强化学习算法更新所述领航智能体Q值，包括：通过以下公式更新所述领航智能体Q值：

Q^l+1(s_t,a_t)＝Q^l(s_t,a_t)+α×[r_t+γ×max_aQ^l(s_t+1,a)-^l(s_t,a_t)]+μ×α×[r_t+1+γ×max_aQ^l(s_t+2,a)-Q^l(s_t+1,a_t+1)]

其中,s_t为所述领航智能体当前时刻t的状态，a_t为所述领航智能体当前时刻t选择的动作，Q^l+1(s_t,a_t)为下一回合所述领航智能体移动至s_t时选择动作a_t的Q值，Q^l(s_t,a_t)为当前回合更新下一回合的Q值，为学习因子，0＜α≤1，r_t为所述领航智能体在当前时刻选择动作策略后获得的回报，r_t+1为所述领航智能体在下一时刻t+1选择动作策略后的预期回报，γ为折扣因子，max_aQ^l(s_t+1,a)为所述领航智能体在当前回合l下一时刻t+1选择最优动作策略得到的Q值，μ为正向策略尺度因子，0＜μ≤α，max_aQ^l(s_t+2,a)为所述领航智能体在当前回合l下下一时刻t+2选择最优动作策略得到的Q值，Q^l(s_t+1,a_t+1)为当前回合所述领航智能体移动至s_t+1时选择动作a_t+1的Q值。

结合第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述步骤S5中，根据跟随智能体强化学习算法更新所述跟随智能体Q值，包括：通过以下公式更新所述跟随智能体Q值：

Q_k+1(s，a)＝(1-α_k)×Q_k(s，a)+α_k×[r+γ^τ×maxQ_k(s′,a′)]

其中，k为所述跟随智能体内部迭代次数，α_k为所述跟随智能体的学习率，α<α_k≤1，α为学习因子，γ为折扣因子，τ为所述跟随智能体从当前位置到达所述跟随智能体目标位置所经过的步数，maxQk(s′,a′)为所述跟随智能体在目标位置选择最优动作策略得到的Q值，Q_k+1(s，a)为所述跟随智能体在下一回合移动至状态s时选择动作a的Q值，Q_k(s，a)为所述跟随智能体在当前状态时的Q值，用于更新下一回合的Q值。

结合第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述步骤S2中，根据所述领航值函数进行Q值初始化，包括：通过以下公式初始化状态-动作对值函数：

Q(s_T，a_t)＝r+γ×V(s_T)

其中，a_t为所述领航智能体的动作策略，r为回报，γ为折扣因子。

结合第一方面，在第一方面的第五种可能的实现方式中，所述步骤S3中，所述领航智能体根据学习到的策略选择动作，包括：通过以下公式调整策略选择因子ε，

其中，/>

为当前学习回合数。

结合第一方面，在第一方面的第六种可能的实现方式中，所述步骤S3中，所述领航智能体在一个Option阶段内进行策略学习过程，设置最大循环次数。

第二方面，提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行前述的用于多智能体编队动态路径规划的方法。

本公开实施例提供的用于领航跟随型多智能体系统编队路径规划的方法和存储介质，可以实现以下技术效果：

将编队中的多智能体划分为领航智能体和跟随智能体，结合改进的分层强化学习和层次目标导向的方法，使得多智能体在动态未知环境下探索最优路径的过程中，可以同时保持自主编队和对障碍物的躲避；同时，提出在多智能体单步学习过程的基础上叠加一次学习过程的方法，可以累积智能体对障碍物的敏感程度并加深对最优路径的记忆；此外，引入基于半马尔科夫决策过程的分层强化学习，采用策略分层的方式并进行时间抽象，将全局任务细分为多个子任务进行学习，并在离散环境下封装跟随智能体的多个动态信息，将其视为单个抽象动作，使得跟随智能体只需分阶段完成局部路径规划，有效提升了多智能体的路径规划能力。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的用于多智能体编队动态路径规划的方法流程示意图；

图2是本公开实施例提供的多智能体环境信息示意图；

图3是本公开实施例提供的跟随智能体编队与目标位置的示意图；

图4是本公开实施例提供的多智能体动态避障及路径规划示意图；

图5是本公开实施例提供的多智能体行走步数变化图；

图6是本公开实施例提供的用于多智能体编队动态路径规划方法的另一流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本公开实施例中所涉概念进行介绍。马尔科夫决策过程(Markov DecisionProcess,简称MDP)主要用于建模决策模型。考虑一个动态系统，它的状态是随机的，必须做出决定，而代价由决策决定。然而，在许多的决策问题中，决策阶段之间的时间不是恒定的，而是随机的。半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDPs)作为马尔科夫决策过程的扩展，用于对随机控制问题进行建模，不同于马尔科夫决策过程，半马尔科夫决策过程的每个状态都具有一定的逗留时间，并且逗留时间是一个通用的连续随机变量。

Option学习算法，是一种分层强化学习算法，其基本思想是将学习任务抽象成若干Option，每个Option可以理解为一个为完成某子任务而定义在某状态子空间上的按一定的策略执行的动作序列。其中，每个Option既可以是一个简单的基本动作，也可以是一组连续的动作集，通过上层Option对下层Option作为一种特殊的“动作”加入到原来的动作集中。Option可以由设计者根据专家知识事先确定，也可以自动生成，在本公开实例中主要展示自动生成的Option学习算法。

Q-Learning是强化学习算法中的value-based的算法，Q即为Q(s，a)在某一时刻的状态s(s∈State)下，采取动作a(a∈Action)能够获得收益的期望，环境会根据智能体的动作反馈相应的回报，所以，算法的主要思想就是将状态和动作构建成一张Q值表来存储Q值，然后，根据Q值来选取能够获得最大收益的动作。强化学习的目标是最大化Q值，对Q值进行初始化时，目标位置方向处的Q值最大，其余位置方向处Q值与到目标点的距离成反比，障碍物处Q值设置最小。

图1是本公开实施例提供的用于多智能体编队动态路径规划的方法流程示意图。如图1所示，本公开实施例提供了一种用于多智能体编队动态路径规划的方法，该方法包括：步骤S1：初始化环境信息，获取多智能体的目标位置；步骤S2：多智能体中的领航智能体，根据多智能体的目标位置，获取领航智能体当前状态对应的领航值函数，根据领航值函数进行Q值初始化；步骤S3：领航智能体采用分层强化学习算法进行策略学习，领航智能体在一个Option阶段内进行策略学习，根据学习到的策略选择动作，根据环境反馈得到回报或者终止信号，保存当前的状态、回报和动作信息后，根据领航智能体强化学习算法更新领航智能体Q值表；步骤S4：多智能体中的跟随智能体，根据领航智能体的当前位置确定跟随智能体目标位置，根据跟随智能体目标位置，获取跟随智能体当前状态对应的跟随值函数，根据跟随值函数进行Q值初始化，根据贪婪策略选择动作，得到下一状态和回报，保存学习经验；步骤S5：跟随智能体到达跟随智能体目标位置且到达次数达到预设阈值，根据跟随智能体强化学习算法更新跟随智能体Q值表；步骤S6：重复上述步骤S3至步骤S5，直至多智能体到达目标位置或者学习回合数达到预设阈值。其中，Option为完成某子任务而定义在某状态子空间上的按一定的策略执行的动作序列。

本公开实施例提供的用于多智能体编队动态路径规划的方法，可以实现以下技术效果：将编队中的多智能体划分为领航智能体和跟随智能体，结合改进的分层强化学习和层次目标导向的方法，使得多智能体在动态未知环境下探索最优路径的过程中，可以同时保持自主编队和对障碍物的躲避；同时，提出在多智能体单步学习过程的基础上叠加一次学习过程的方法，可以累积智能体对障碍物的敏感程度并加深对最优路径的记忆；此外，引入基于半马尔科夫决策过程的分层强化学习，采用策略分层的方式并进行时间抽象，将全局任务细分为多个子任务进行学习，并在离散环境下封装跟随智能体的多个动态信息，将其视为单个抽象动作，使得跟随智能体只需分阶段完成局部路径规划，有效提升了多智能体的路径规划能力。

步骤S1中，初始化环境信息，包括：获取多智能体的起始位置和目标位置；在环境信息中添加静态障碍物和动态障碍物，动态障碍物按照预设的规则在指定区域内移动，静态障碍物散落分布在多智能体起始位置和目标位置之间直线最短路径区域内；多智能体可以进行八个方向上的动作，多智能体动作集包括：向上、向下、向左、向右、向左上、向右上、向左下和向右下；智能体20×20的状态集包括：静态栅格环境下以左上端点为原点的(0，0)，(0，1)，(1，1)……(20，20)；其中，多智能体不能跨过障碍物区域，只能对路径上的障碍物进行规避。可以将障碍物设置为，领航智能体每前进预设步数障碍物进行一次随机位置变换。这样，可以测试多智能体的实时避障能力，也可以测试跟随智能体在编队行进过程中处理碰撞的能力。其中，多智能体包括：领航智能体和跟随智能体；多智能体的目标位置包括：目标区域或者目标点。

图2是本公开实施例提供的多智能体环境信息示意图。如图2所示，在静态栅格环境中，多智能体示意图如方格21所示，目标位置示意图如方格22所示，静态障碍物示意图如方格23所示，动态障碍物示意图如方格24所示，其中，动态障碍物24在虚线框25内运动。

在一些实施例中，领航值函数

其中，s_T为领航智能体的当前状态，为负向引力尺度因子，-1＜δ≤0，ρ_aim1为领航智能体的当前位置与目标位置的距离，ρ为栅格环境中斜对角线上两端点间的距离。这样，通过在领航智能体搜索路径的过程中添加具有目标导向的引力，对人工势场函数进行改进，可以减少斥力场对路径探索的影响；同时，在初始路径规划阶段，引入改进的人工势场法可以帮助智能体快速获得经验。

在一些实施例中，步骤S1中，领航智能体的当前位置与目标位置的距离ρ_aim1，通过以下公式计算得到，

领航智能体的当前位置为(x_A，y_A)，领航智能体的目标位置为(x_B，y_B)。在获取第一距离之前，领航智能体对全局位置环境进行遍历，建立以二维直角坐标系(x,y)表示的栅格环境。在初始化阶段，仅领航智能体对全局环境进行遍历初始化，跟随智能体在领航智能体每一步移动之后，只在局部编队范围内进行状态初始化。

在一些实施例中，步骤S1还包括：步骤S11：多智能体中的领航智能体和跟随智能体由当前位置分别进入分层强化学习训练回合。多智能体由层次目标导向机制，以当前位置和目标位置为基础，进行层次切割和提取目标信息，转化为动作选择策略对应的状态-动作值函数Q。

在一些实施例中，步骤S2中，根据领航值函数进行Q值初始化，包括：通过以下公式初始化状态-动作对值函数Q(s_T，a_t)＝r+γ×V(s_T)，其中，a_t为领航智能体的动作策略，r为回报，γ为折扣因子。在得到当前动作初始领航值函数的基础上，根据当前状态判断下一状态的位置信息，并从环境信息中读取领航智能体行至此位置将会得到的回报r。

在一些实施例中，多智能体由层次目标导向机制，以当前位置和目标位置为基础，进行层次切割和提取目标信息转化为动作选择策略对应的状态-动作值函数Q。领航智能体和跟随智能体由当前位置分别进入分层强化学习训练回合。

在一些实施例中，领航智能体动作选择采用ε-greedy策略，即，以ε的概率选择当前最大状态-动作值函数对应的动作策略，否则，以1-ε的概率随机选择动作策略执行。

在一些实施例中，步骤S3中，领航智能体在原有强化学习训练过程的基础上再加一层强化学习，并更新Q值，领航智能体在当前状态选择动作策略后，保存当前状态、回报和动作信息后，查找动作策略对应的下一状态，并进入下一状态，在下一状态判断状态信息，保存领航智能体在下一状态下的学习经验信息。

在一些实施例中，步骤S4中，领航智能体通过以下公式调整策略选择因子ε，

其中，/>

为当前学习回合数。这样，根据多智能体路径学习的程度，动态调整策略选择因子，可以提高最优路径的收敛速度。

在一些实施例中，步骤S3中，根据领航智能体强化学习算法更新领航智能体Q值，包括：通过以下公式更新领航智能体Q值：

Q^l+1(s_t,a_t)＝Q^l(s_t,a_t)+α×[r_t+γ×max_aQ^l(s_t+1,a)-Q^l(s_t,a_t)]+μ×α×[r_t+1+γ×max_aQ^l(s_t+2,a)-Q^l(s_t+1,a_t+1)]

其中,s_t为领航智能体当前时刻t的状态，a_t为领航智能体当前时刻t选择的动作，Q^l+1(s_t,a_t)为下一回合领航智能体移动至s_t时选择动作a_t的Q值，Q^l(s_t,a_t)为当前回合更新下一回合的Q值，为学习因子，0＜α≤1，r_t为领航智能体在当前时刻选择动作策略后获得的回报，r_t+1为领航智能体在下一时刻t+1选择动作策略后的预期回报，γ为折扣因子，max_aQ^l(s_t+1,a)为领航智能体在当前回合l下一时刻t+1选择最优动作策略得到的Q值，μ为正向策略尺度因子，0＜μ≤α，max_aQ^l(s_t+2,a)为领航智能体在当前回合l下下一时刻t+2选择最优动作策略得到的Q值，Q^l(s_t+1,a_t+1)为当前回合领航智能体移动至s_t+1时选择动作a_t+1的Q值。这样，利用表格型强化学习的反向传播的特点，改进强化学习算法，在智能体学习过程的基础上在进行分层学习，可以提升智能体在动态环境中躲避障碍物的能力。

在一些实施例中，步骤S3中，领航智能体选择在一个Option阶段内进行策略学习过程中，设置最大循环次数，一般最大循环次数的取值范围大于10次，最大不超过40个回合，避免跟随智能体等待过久。这样，可以减少路径规划后期的无效迭代。

在一些实施例中，步骤S3中，领航智能体进入动作策略选择阶段，直至动作出现次数达到第一预设阈值M₁，Option执行结束，其中0＜M₁＜5。本领域技术人员也可以根据实际需求对第一预设阈值进行设置。

图3是本公开实施例提供的跟随智能体编队与目标位置的示意图。如图3所示，23为静态障碍物，31表示编队中的最优位置，多智能体编队前进过程中，若到达最优位置与对障碍物避让行为产生冲突，跟随智能体可选择次优位置32前进，次优位置32仍在跟随智能体的编队合理误差范围内。

在一些实施例中，步骤S4中，多个跟随智能体分别利用引力势场更新后的Q值为目标导向，跟随智能体分别以当前位置为起始位置进入SMDP-Option内部策略学习过程，，跟随智能体由目标导向进行局部路径规划，可以保证在多智能体前进过程中，编队位置不便并避免碰撞。

在一些实施例中，可以设置跟随智能体局部路径探索的终止条件，跟随智能体在当前时刻，若动作出现次数达到M₁，SMDP-Option执行结束。

在一些实施例中，跟随值函数

其中，s_f为跟随智能体的当前状态，包括：跟随智能体的当前位置，ρ_aim2为跟随智能体的当前位置与跟随智能体目标位置的距离，计算得到V(s_f)后，进一步计算各动作对应的初始Q值，采用ε-greedy策略选择动作，得到下一状态和回报，记录学习经验。

在一些实施例中，步骤S5中，根据跟随智能体强化学习算法更新跟随智能体Q值，包括：通过以下公式更新跟随智能体Q值：

Q_k+1(s，a)＝(1-α_k)×Q_k(s，a)+α_k×[r+γ^τ×maxQ_k(s′,a′)]

其中，k为跟随智能体内部迭代次数，α_k为学习率，γ为折扣率，τ为跟随智能体从当前位置到达跟随智能体目标位置所经过的步数，maxQ_k(s′,a′)为跟随智能体在跟随智能体目标位置选择最优动作策略得到的Q值，Q_k+1(s，a)更新的是跟随智能体在下一回合移动至状态s时选择动作a的Q值，Q_k(s，a)为跟随智能体在当前状态时的Q值，用于更新下一回合的Q值，s′为跟随智能体在编队中的目标位置。

在一些实施例中，步骤S5还包括：跟随智能体不能同时满足到达跟随智能体目标位置和到达次数达到第二预设阈值时，转入步骤S4。

在一些实施例中，步骤S5中，更新跟随智能体Q值表后，跟随智能体经Option阶段后的学习经验收敛出一条局部最优路径，并以greedy策略选择动作，跟随领航智能体编队前进。跟随智能体完成一个阶段的Option策略学习，领航智能体继续进行路径规划，领航智能体根据环境反馈得到的回报或者终止信号判断是否终止本次回合，若没有终止信号，领航智能体进入步骤S3，调整策略选择因子ε；若领航智能体获取到终止信号并且学习回合数达到最大循环次数，则完成多智能体的路径规划和编队控制；若领航智能体获取到终止信号且学习回合数未达到最大循环次数，则当前学习回合数自增一，领航智能体进入步骤S2。这样，跟随智能体结合改进的人工势场法和强化学习，根据编队目标位置合理调整动作，可以有效提高用于多智能体编队动态路径规划的方法的收敛性。

图4是本公开实施例提供的多智能体动态避障及路径规划示意图。如图4所示，多智能体编队在动态路径规划过程中进行避障的移动路径示意图。图5是本公开实施例提供的多智能体行走步数变化图。如图5所示，图中横坐标表示多智能体学习回合数，纵坐标表示领航智能体每回合的移动步数。

图6是本公开实施例提供的用于多智能体编队动态路径规划方法的另一流程示意图。如图6所示，初始化环境信息，确定多智能体的当前位置信息和目标位置信息；多智能体中的领航智能体和多个跟随智能体分别进入分层强化学习过程，当学习回合数达到预设阈值时，完成多智能体的路径规划和编队控制，绘制奖励函数，当学习回合数未达到预设阈值时，利用改进的人工势场法计算领航智能体当前状态对应的状态-动作对值函数，得到领航智能体路径Q值表；各跟随智能体根据领航智能体当前位置确定各跟随智能体目标位置，各跟随智能体进入SMDP-Option策略学习；各跟随智能体利用改进的人工势场法为目标导向，根据策略选择动作并前进；判断跟随智能体的策略是否在合理误差内，当跟随智能体的策略在合理误差内时，跟随智能体前进并实现与领航智能体的路径编队，当跟随智能体的策略不在合理误差内时，跟随智能体返回上一步，重新根据策略选择动作并前进；判断领航智能体学习回合数是否达到预设阈值，未达到时，返回计算领航智能体当前状态对应的状态-动作对值函数的步骤，达到时，完成多智能体的路径规划和编队控制，绘制奖励函数。

本公开实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行前述的用于多智能体编队动态路径规划的方法。

本公开实施例提供的用于多智能体编队动态路径规划的方法和存储介质，利用改进分层强化学习算法结合引力势场，多智能体以编队的形式下利用目标导向机制，加速寻找目标位置和目标点，结合改进分层强化学习方式在未知环境中提升探索和躲避障碍物的能力，不断优化前进路线，直至探索出到达目标位置的最优策略。在实验验证中，多智能体通过自主导航规划出一条由当前位置到达目标位置的最优编队路径，同时能实时规避障碍物，比传统强化学习方法更快收敛到最优路径，证明了本方案的有效性和可行性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于多智能体编队动态路径规划的方法，其特征在于，包括：

步骤S1：初始化环境信息，获取多智能体的目标位置；

步骤S2：所述多智能体中的领航智能体，根据所述多智能体的目标位置，获取所述领航智能体当前状态对应的领航值函数，根据所述领航值函数进行Q值初始化；

步骤S3：所述领航智能体采用分层强化学习算法进行策略学习，所述领航智能体在一个Option阶段内进行策略学习，根据学习到的策略选择动作，根据环境反馈得到回报或者终止信号，保存当前的状态、回报和动作信息后，根据领航智能体强化学习算法更新所述领航智能体Q值表；

步骤S4：所述多智能体中的跟随智能体，根据所述领航智能体的当前位置确定跟随智能体目标位置，根据所述跟随智能体目标位置，获取所述跟随智能体当前状态对应的跟随值函数，根据所述跟随值函数进行Q值初始化，根据贪婪策略选择动作，得到下一状态和回报，保存学习经验；

步骤S5：所述跟随智能体到达所述跟随智能体目标位置且到达次数达到预设阈值，根据跟随智能体强化学习算法更新所述跟随智能体Q值表；

步骤S6：重复上述步骤S3至步骤S5，直至所述多智能体到达所述目标位置或者学习回合数达到预设阈值；

所述领航值函数

所述跟随值函数

其中，s_T为所述领航智能体的当前状态，s_f为所述跟随智能体的当前状态，δ为负向引力尺度因子，-1＜δ≤0，ρ_aim1为所述领航智能体的当前位置与所述目标位置的距离，ρ为栅格环境中斜对角线上两端点间的距离，ρ_aim2为所述跟随智能体的当前位置与所述跟随智能体目标位置的距离；

所述步骤S3中，根据领航智能体强化学习算法更新所述领航智能体Q值，包括：通过以下公式更新所述领航智能体Q值：

Q^l+1(s_t，a_t)＝Q^l(s_t，a_t)+α×[r_t+γ×max_aQ^l(s_t+1，a)-Q^l(s_t，a_t)]+μ×α×[r_t+1+γ×max_aQ^l(s_t+2，a)-Q^l(s_t+1，a_t+1)]

其中,_t为所述领航智能体当前时刻t的状态，a_t为所述领航智能体当前时刻t选择的动作，Q^l+1(s_t,a_t)为下一回合所述领航智能体移动至s_t时选择动作a_t的Q值，Q^l(s_t,a_t)为当前回合更新下一回合的Q值，为学习因子，0＜α≤1，r_t为所述领航智能体在当前时刻选择动作策略后获得的回报，r_t+1为所述领航智能体在下一时刻t+1选择动作策略后的预期回报，γ为折扣因子，max_aQ^l(s_t+1,a)为所述领航智能体在当前回合l下一时刻t+1选择最优动作策略得到的Q值，μ为正向策略尺度因子，0＜μ≤α，max_aQ^l(s_t+2,a)为所述领航智能体在当前回合l下下一时刻t+2选择最优动作策略得到的Q值，Q^l(s_t+1,a_t+1)为当前回合所述领航智能体移动至s_t+1时选择动作a_t+1的Q值；

所述步骤S5中，根据跟随智能体强化学习算法更新所述跟随智能体Q值，包括：通过以下公式更新所述跟随智能体Q值：

Q_k+1(s，a)＝

(1-α_k)×Q_k(s，a)+α_k×[r+γ^τ×maxQ_k(s′，a′)]

其中，k为所述跟随智能体内部迭代次数，α_k为所述跟随智能体的学习率α＜α_k≤1，α为学习因子，0＜α≤1，γ为折扣因子，τ为所述跟随智能体从当前位置到达所述跟随智能体目标位置所经过的步数，maxQ_k(s′,′)为所述跟随智能体在所述跟随智能体目标位置选择最优动作策略得到的Q值，Q_k+1(s，a)为所述跟随智能体在下一回合移动至状态s时选择动作a的Q值，Q_k(s，a)为所述跟随智能体在当前状态时的Q值，用于更新下一回合的Q值。

2.根据权利要求1所述的方法，其特征在于，所述步骤S2中，根据所述领航值函数进行Q值初始化，包括：通过以下公式初始化状态-动作值函数：

Q(s_T/a_t)＝r+γ×V(sT)

3.根据权利要求2所述的方法，其特征在于，所述步骤S3中，所述领航智能体根据学习到的策略选择动作，包括：通过以下公式调整策略选择因子ε，

其中，l为当前学习回合数。

4.根据权利要求1所述的方法，其特征在于，所述步骤S3中，所述领航智能体在一个Option阶段内进行策略学习过程，设置最大循环次数。

5.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1至4中任一项所述的用于多智能体编队动态路径规划的方法。