CN113218399B

CN113218399B - 一种基于多智能体分层强化学习的迷宫导航方法及装置

Info

Publication number: CN113218399B
Application number: CN202110519144.8A
Authority: CN
Inventors: 穆朝絮; 刘朝阳; 朱鹏飞
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-10-04
Anticipated expiration: 2041-05-12
Also published as: CN113218399A

Abstract

本发明公开了一种基于多智能体分层强化学习的迷宫导航方法及装置，方法包括：各个智能体采用分层结构执行探索动作，判断智能体周围是否存在障碍物，若存在则执行避障动作，智能体逐渐减少使用分层结构选取动作；智能体在当前迷宫环境状态下执行动作，收集经验数据，根据经验数据更新环境模型，判断智能体是否到达目标点或与障碍物碰撞，若是则智能体重新从初始位置开始探索，否则智能体继续在迷宫环境中探索；智能体使用经验数据和环境模型进行训练，每个智能体绕过迷宫环境中的障碍物，以最短路径到达各自指定目标点。装置包括：处理器和存储器。本发明帮助智能体更快的找到目标点、减少交互次数，应对智能体之间不协调导致的环境非静态问题。

Description

一种基于多智能体分层强化学习的迷宫导航方法及装置

技术领域

本发明涉及多智能体强化学习领域，尤其涉及一种基于多智能体分层强化学习的迷宫导航方法及装置。

背景技术

多智能体系统是由多个具有自主个体组成的群体系统，通过智能体之间的通信、合作和竞争等方式，完成单个智能体不能完成的复杂工作。多智能体迷宫导航使得多个智能体能够在迷宫环境中快速的导航到指定的目标点，完成特定的任务，在物资运输、失火救援、野外搜救和仓库物流运输等方面得到了广泛的应用。因此，对于多智能体迷宫导航的研究具有重要的意义。

强化学习是机器学习的子领域，主要用于处理序列决策问题。强化学习中包含两个元素，即环境和智能体，它的主要思想是智能体与环境发生交互，得到环境的反馈量，并根据反馈量调整智能体的策略。强化学习方法主要使用无模型结构，通过智能体自主与环境交互进行学习，因而具有广泛的适用性。然而，无模型的强化学习方法收敛速度很慢，在复杂的环境下甚至无法收敛。基于模型的强化学习方法利用智能体与环境交互的经验数据建立环境模型，使用环境模型进行训练，能够显著加速算法的收敛速度。

多智能体强化学习将强化学习引入到多智能体系统中，通过多智能体学习的方式实现智能体之间的合作及竞争，从而提升强化学习的鲁棒性、灵活性和适应性。多智能体强化学习在应用于迷宫导航时面临一些挑战。首先是智能体在迷宫中做决策时，不仅需要考虑与迷宫环境的交互，还需要考虑与其它智能体的交互，导致算法收敛困难；另一个是当多个智能体同时存在于迷宫环境中时，智能体在更新策略时会受到其它智能体策略的影响，智能体之间的协调性不足，导致环境具有非静态性；最后是当迷宫环境复杂时，智能体需要很多的探索才能得到积极的奖励值，导致算法复杂度很高。

发明内容

本发明提供了一种基于多智能体分层强化学习的迷宫导航方法及装置，本发明解决了帮助智能体更快的找到目标点、减少智能体之间的交互次数，以及应对智能体之间不协调导致的环境非静态问题，详见下文描述：

第一方面，一种基于多智能体分层强化学习的迷宫导航方法，所述方法包括：

获取智能体的位置信息，初始化每个智能体的参数，建立初始迷宫环境模型；

各个智能体采用分层结构执行探索动作，判断智能体周围是否存在障碍物，若存在则执行避障动作，否则执行导航动作，经一段时间的探索后，智能体逐渐减少使用分层结构选取动作；

智能体在当前迷宫环境状态下执行动作，收集经验数据，根据经验数据更新环境模型，判断智能体是否到达目标点或与障碍物碰撞，若是则智能体重新从初始位置开始探索，否则智能体继续在迷宫环境中探索；

智能体使用收集的经验数据和环境模型进行训练，每个智能体都绕过迷宫环境中的障碍物，以最短的路径到达各自指定的目标点。

其中，所述分层结构包括：主导航模块、辅助导航模块和避障模块，所述主导航模块通过在线训练得到，辅助导航模块和避障模块经预训练得到，用于加速主导航模块的探索过程。

在一种实施方式中，所述主导航模块为：

智能体在每个学习周期开始时从同一个位置出发，当有智能体碰撞到障碍物或智能体之间发生碰撞，所有智能体得到负的奖励值，并从迷宫中的任意位置开始再次进行探索，当所有智能体同时到达目标点时，所有智能体得到正的奖励值，一个学习周期结束。

在一种实施方式中，所述辅助导航模块在学习周期开始前从迷宫中的任意位置出发，当所有智能体到达终点时，得到正的奖励值。

在一种实施方式中，所述避障模块在每个学习周期开始前智能体从迷宫的任意位置出发，当智能体碰到障碍物时，一个学习周期终止，所有智能体接收负奖励，剩下的情况下，智能体每走一步都会得到一个小的正奖励。

第二方面，一种基于多智能体分层强化学习的迷宫导航装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

本发明所使用的多智能体分层强化学习算法，在应用于迷宫导航时，保证智能体能够快速的导航到达各自指定的目标点，解决智能体在面临收敛困难和协调性差的情况下，算法稳定收敛的问题，提升了多智能体强化学习在迷宫导航中的性能。

关于多智能体迷宫导航问题，应用基于模型的多智能体分层强化学习算法，根据分层结构分布式的执行各个智能体的动作，减少多个智能体在迷宫中的探索时间。

总体而言，通过本发明所构思的技术方案与现有技术相比，具有以下有益效果：

(1)该方法提出一种分层结构，利用离线训练后的辅助导航和避障模块，来加速主导航模块的搜索过程，并提供了一个动作选择器，用于选取主导航、辅助导航和避障策略得到的动作，解决了多智能体强化学习初始时刻在迷宫中探索时间长的问题；

(2)该方法使用智能体与环境交互的经验数据建立模型，利用模型训练显著的加快了算法的收敛速度，并通过设计强化学习算法的更新方式，减缓了环境非静态问题带来的影响。

附图说明

图1为多智能体迷宫环境简图；

图2为多智能体分层强化学习的简单结构图；

图3为多智能体强化学习算法在5×5的2D栅格迷宫中的收敛图；

图4为多智能体强化学习算法在8×8的2D栅格迷宫中的收敛图；

图5为多智能体强化学习算法在3D栅格迷宫环境中的收敛图；

图6为一种基于多智能体分层强化学习的迷宫导航装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于模型的多智能体分层强化学习迷宫导航方法，参见图1和图2，该方法包括以下步骤：

步骤(1)：获取智能体的位置信息，初始化每个智能体的参数，建立初始迷宫环境模型；

步骤(2)：各个智能体采用分层结构执行探索动作，判断智能体周围是否存在障碍物，若存在则执行避障动作，否则执行导航动作，经过一段时间的探索后，智能体逐渐减少使用分层结构选取动作；

步骤(3)：智能体在当前迷宫环境状态下执行动作，收集经验数据，根据经验数据更新环境模型，判断智能体是否到达目标点或者与障碍物碰撞，若是则智能体重新从初始位置开始探索，否则智能体继续在迷宫环境中探索；

步骤(4)：智能体使用收集的经验数据和环境模型进行训练，采用两个不同大小的学习率更新智能体的参数，经过一段时间的训练后，每个智能体都能绕过迷宫环境中的障碍物，以最短的路径快速到达各自指定的目标点。

其中，步骤(1)中的涉及智能体位置信息的获取，智能体参数的初始化和初始迷宫模型的建立。智能体的位置以坐标的形式表示为(x_a,y_a)，x_a和y_a分别代表从左下角起智能体所在的横纵格子数，图1是多智能体迷宫环境简图，初始化每个智能体的参数Q_i(s,a_i)，即智能体的动作值函数，建立初始环境模型model(s,{a₁,...,a_n})。

步骤(2)中涉及使用分层结构分布式的执行各个智能体的探索动作，图2是分层结构的简单结构图。分层结构中包含：主导航模块、辅助导航模块和避障模块，其中辅助导航模块和避障模块是经过预训练得到的，用来加速主导航模块的探索过程。

步骤(2)的进一步解释包括下述环节：

(2-1)分层结构中的主导航模块是在迷宫环境中通过在线训练得到的。具体过程为：智能体在每个学习周期(Episode)开始时从同一个位置出发，当有一个智能体碰撞到障碍物或者智能体之间发生碰撞时，所有智能体得到负的奖励值，并从迷宫中的任意位置开始再次进行探索，当所有智能体同时到达目标点时，所有智能体得到正的奖励值，一个学习周期结束。

(2-2)分层结构中的辅助导航模块和避障模块是在迷宫环境中通过离线训练得到的。具体过程为：辅助导航模块在训练过程中不考虑迷宫中的障碍物，并且在学习周期开始前从迷宫中的任意位置出发，当所有智能体到达终点时，得到正的奖励值，训练辅助导航模块的主要目的是使智能体快速的在迷宫环境中找到指定的目标点。避障模块在训练过程中不考虑智能体的目标点，每个学习周期开始前智能体从迷宫的任意位置出发，当智能体碰到障碍物时，一个学习周期终止，并且所有智能体接收负奖励，在剩下的情况下，智能体每走一步都会得到一个小的正奖励，避障模块的主要目的是使智能体尽可能的移动从而掌握障碍物的位置信息。

(2-3)动作执行器负责选择主导航、辅助导航和避障模块中的策略，具体过程为：辅助导航和避障模块是用来帮助主导航模块减少初始的探索时间。因此，辅助导航和避障只用在初始的学习周期中，并且这些策略的使用随着学习周期的增大而逐渐减小，直至为0。

本发明实施例提出一种动作选择方案来分布式的选取智能体的动作，用公式表示为：

其中，action_pn，action_an，action_a分别代表主导航，辅助导航以及避障的动作，κ代表辅助导航和避障相对于主导航被选取的概率，并且随着学习周期的增大而逐渐减小，μ代表从0到1的随机数。

步骤(3)根据分层结构获取到每个智能体动作a＝{a₁,...,a_n}后，在当前迷宫环境状态s下，执行这些动作，得到环境反馈的奖励值r，转移到下一个迷宫环境状态s'，并根据智能体与环境交互的经验数据(s,{a₁,...,a_n},r,s')并行的储存到迷宫环境模型中，完成对模型的更新，即：

model(s,{a₁,...,a_n})←r,s' (2)

如果每个智能体都到达各自的目标点，一个学习周期结束，智能体从迷宫环境的初始位置出发重新开始探索。

步骤(4)根据实时交互的经验数据，使用两个不同的学习率更新每个智能体的Q函数，即动作值函数，并根据环境模型，重复的更新N次的每个智能体的Q函数，智能体更新的主要思想为：在更新Q函数时使用两个学习率，当时间差分误差

非负时，采用较大的学习率α，否则采用较小的学习率β，且两个学习率满足0＜β＜α＜1，即：

其中，Q_i(s,a_i)为智能体i的动作值函数，←为赋值符号，将符号右边计算得到的值赋值到左边，

为智能体i的目标函数，γ为折扣因子，a_i为智能体i采取的动作，Q_i为智能体i的Q值。

为了使本领域人员更好地理解本发明，下面结合具体实施例，对本发明的多智能体分层强化学习迷宫导航方法进行详细说明。

仿真中采用的迷宫环境包括5×5的2D栅格迷宫，8×8的2D栅格迷宫和3D栅格迷宫。示意图如图1所示。

根据步骤(1)，初始化所有智能体的动作值函数Q_i(s,a_i)为0，初始化环境模型model(s,a)中的所有值为0，获取所有智能体在迷宫环境中的初始位置s_t＝s₀；

根据步骤(2)，多智能体分层强化学习的训练过程如下：

主导航模块采用在线的方式进行训练，训练过程包括2000个学习周期。在训练过程中，考虑智能体之间的碰撞和迷宫环境中的障碍物。当智能体之间碰撞或者智能体撞上障碍物时，所有智能体得到-1的奖励值，并再次从迷宫的任意位置出发，或者当所有智能体到达目标点时，所有智能体得到正奖励10并且一个学习周期结束。在学习周期刚开始时，智能体初始的探索率ε设置为0.7，之后在每15个学习周期后ε减少0.1，直到降为0.1为止。

对于辅助导航来说，训练过程中不考虑迷宫中的障碍物，并随机设置每个智能体的起点位置。另外，训练过程经历2000个学习周期。为了保证智能体可以利用训练好的策略并且进行探索，采用ε-greedy的方法。

其中，ε称为探索率，智能体有ε的几率随机选取动作，剩下的几率选取使Q值最大的动作。辅助导航初始的ε设为1，每隔100个学习周期智能体的ε都减少0.1，直到最后降为0.1。当所有智能体达到对应的目标点时智能体获得正奖励10，一个学习周期结束。对于避障来说，训练过程也包含2000个学习周期。由于智能体需要在迷宫充分的搜索来掌握障碍物的位置，所以在初始的1000个学习周期里面将ε设为1，然后在接下来的1000个学习周期中，每100个学习周期ε减少0.1。所有智能体在迷宫中的起点位置是随机设置的，当有智能体碰撞到障碍物，或者所有智能体到达指定的目标点时，一个学习周期终止。当与障碍物发生碰撞时，所有智能体都得到负的奖励值-10，当所有智能体到达目标点时得到一个正的奖励值10。

智能体动作是根据动作执行器来选取的，初始时刻将κ设置为0.5，接着κ每隔40个学习周期下降0.1，直到降到0为止。避障和辅助导航的策略是根据Q_i(s,a_i)来选取的，当Q_i(s,a_i)小于0时，采用避障的动作，否则采取辅助导航的策略。

根据步骤(4)，采用两个不同的学习率对智能体i的动作值函数Q_i(s_t,a_it)进行更新。其中学习率α设为0.1，β设置为0.04，利用环境模型的更新次数N＝4。

给定智能体的数量为n＝2。图3是多智能体分层强化学习应用在5×5的2D迷宫环境中的结果。其中Dyna-Q代表基于模型的强化学习算法，HDyna-Q代表使用了不同学习率后的Dyna-Q算法，HHDyna-Q代表使用了分层结构后的HDyna-Q算法。子图(a)，(b)分别代表初始时刻和算法收敛时刻的奖励值从结果可以看出，相对于其它两种算法，提出的多智能体的分层强化学习可以显著的减少智能体在迷宫环境中的初始探索时间。图4和图5分别是算法应用在8×8的2D迷宫，以及3D迷宫中的情况。可以看到，所提出的算法不仅可以在初始时刻减少探索时间，并且可以在收敛阶段保持好的协调性。

基于同一发明构思，本发明实施例还提供了一种基于模型的多智能体分层强化学习迷宫导航装置，参见图6，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

其中，分层结构包括：主导航模块、辅助导航模块和避障模块，主导航模块通过在线训练得到，辅助导航模块和避障模块经预训练得到，用于加速主导航模块的探索过程。

在一种实施方式中，主导航模块为：

在一种实施方式中，辅助导航模块在学习周期开始前从迷宫中的任意位置出发，当所有智能体到达终点时，得到正的奖励值。

在一种实施方式中，避障模块在每个学习周期开始前智能体从迷宫的任意位置出发，当智能体碰到障碍物时，一个学习周期终止，所有智能体接收负奖励，剩下的情况下，智能体每走一步都会得到一个小的正奖励。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。