CN114610024B

CN114610024B - 一种用于山地环境下的多智能体协同搜索节能方法

Info

Publication number: CN114610024B
Application number: CN202210177844.8A
Authority: CN
Inventors: 李博; 张红雨; 韦旭东; 吴磊; 钟山
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2023-06-02
Anticipated expiration: 2042-02-25
Also published as: CN114610024A

Abstract

本发明公开了一种用于山地环境下的多智能体协同搜索节能方法，包括以下步骤：S1.确定智能体的特性参数；S2.进行导航目标选择，获得下一个要遍历的目标位置；S3.构建运动学模型，控制智能体从当前位置运动到目标位置。本发明通过深度强化学习选择导航目标点，并鼓励智能体沿等高线方向在导航目标点之间移动，通过深度强化学习模型，智能体可以自己进行学习，选择最优路径以减少重复覆盖和能量消耗。

Description

一种用于山地环境下的多智能体协同搜索节能方法

技术领域

本发明涉及多智能体协同搜索，特别是涉及一种用于山地环境下的多智能体协同搜索节能方法。

背景技术

利用多智能体搜索感兴趣区域的算法已经比较成熟。多智能体主要被用于搜索不平坦的地形，但现有的搜索算法都是针对平坦地形设计的，因此多智能体在导航目标之间的移动往往采用最短路径方式移动。在不平坦的地形上使用最短路径移动会消耗更多的能量。目前智能体基本是使用便携式能源供电，如果智能体移动过程中消耗的能量过多，可能会导致不能完成搜索任务。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于山地环境下的多智能体协同搜索节能方法，通过深度强化学习选择导航目标点，并鼓励智能体沿等高线方向在导航目标点之间移动，通过深度强化学习模型，智能体可以自己进行学习，选择最优路径以减少重复覆盖和能量消耗。

本发明的目的是通过以下技术方案来实现的：一种用于山地环境下的多智能体协同搜索节能方法，包括以下步骤：

S1.确定智能体的特性参数；

S2.进行导航目标选择，获得下一个要遍历的目标位置；

S3.构建运动学模型，控制智能体从当前位置运动到目标位置。

所述步骤S1智能体的特性参数包括智能体的数量为N、智能体的搜索半径r_s以及智能体之间的通信半径为r_c；其中r_s>0，r_c>2r_s。

步骤S2中所述的导航目标选择，包括信息地图引入和深度强化学习。所述信息地图引入过程包括：

考虑到智能体由于功率约束，所能克服的最大倾角有限，假设能克服的最大倾角为60度，遍历的区域在x-y平面的投影为m*n的矩形，将该区域划分成k*l个小矩形区域，k和l的定义如下：

将矩形的中心点看做是一个引导点γ_x,y坐标用(x,y)表示；整个搜索区域就看作是记录所有引导点γ的一张信息地图；

智能体i的信息地图M_i(γ)存储着其区域覆盖的历史信息，表示为M_i(γ)＝γ_x,y(x,y＝1,2,...,m)，其值为0或1：若智能体i没有遍历过引导点γ所在位置，则记m_i(γ)＝0，否则记m_i(γ)＝1，如果智能体之间的距离小于智能体之间的通信半径r_c，那么它们会进行信息交互，更新彼此的信息地图更新公式如下：

m_i(γ_x，y)＝max(m_s(γ_x，y)).

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据。

所述深度强化学习过程包括：

针对山地的搜索遍历，引入信息地图之后，就转换为遍历完整个信息地图的γ点；为了提高遍历效率，减少重覆盖，采用深度强化学习，让智能体自己去选择下一个最优的γ点进行遍历；所述深度强化学习就是让智能体与外界环境进行交互，智能体通过采取行为改变自身状态并获得一定奖励，经过网络的训练之会得到一个深度强化学习模型；

深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励，让智能体最终选择奖励最大的行为，深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型；

深度强化学习的目的是为了让智能体自己选择如何遍历γ点，这里γ点是被投影到了x-y平面，智能体看成是在二维空间对γ点进行遍历；将智能体有9种运动状态:上、下、左、右、左上、左下、右上、右下、停止；这九项行动构成智能体的向动作空间，使用数字1到9来对应不同的动作，所以动作空间定义如下：

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}

在遍历过程中，为了实现更少的能量消耗，最重要的是避免区域重复覆盖，减少不必要的能量消耗；因此，本算法的奖惩函数如下：

其中γ¹是智能体-i选择的下一个遍历点，由奖惩函数得到，当智能体以垂直或水平方式遍历γ¹，且γ¹未被遍历过时，则奖励为1；如果智能体通过对角线的方式遍历γ¹，而γ¹点没有被遍历时，那么它的奖励为0；

相对于垂直或水平的方式，走对角线会导致更多的重复覆盖和消耗更多的能量，所以使用垂直或水平的方式移动智能体；如果γ¹已经被遍历过，则给奖励-1作为惩罚，这表明算法更倾向智能体在未被遍历过的区域行走；深度强化学习的状态是信息地图网格化后的图像，因此图像的特征相对较少。智能体会根据深度强化学习训练模型，自动得到下一个最优的导航目标点。

所述步骤S3中，设从当前点γ⁰到下一个点γ¹之间的控制量u_i，由运动控制量u_i ^α和地形适应力u_i ^v组成；这里u_i ^α是引导智能体从γ⁰移动到γ¹，u_i ^v是使智能体尽量沿等高线方向移动，从而减少能量消耗，包括：

S301.构建运动控制量u_i ^α：

运动控制量u_i ^α的具体定义如下：

u_i ^α＝f_i ^d+f_i ^s.

f_i ^d的作用是让智能体在运动过程中不会内部发生碰撞，f_i ^s的作用是引导智能体从一个区域去往另一个区域，f_i ^d的定义如下

其中S_i＝{j:||q_j-q_i||<r_c,j＝1,2,...,N,j≠i}，q_j和q_i代表智能体i和智能体j的位置矢量；d是智能体之间的最小期望距离，ψ是一个非负的势能函数，定义如下：

k_p是一个常数；

f_i ^s的定义如下：

k_s和k_v是常数，r_i是智能体i在此时的导航位置。

S302.构建地形适应力u_i ^v：

通过施加一个地形适应力来阻止垂直于等高线的运动，即通过这个力让智能体的加速度方向尽量贴近等高线：

使用h(x,y)作为点(x,y)的高度，那么点(x,y)的梯度我们用g(x,y)表示，具体如下

g(x,y)的方向是山地坡度最大的方向，||g(x,y)||表示梯度的大小；

假设智能体i在某一时刻t的位置矢量和速度矢量在x-y平面的投影分别为p_i和v_i那么力u_i ^v表示为：

其中v_i·g(p_i)表示速度v_i在梯度g方向上的投影，力u_i ^v的方向是负梯度的方向，这个力和等高线是垂直的；

当智能体沿登高线运动的时候v_i·g(p_i)的内积为0，那么这个力就不起作用，大小为0，如果智能体没有沿等高线运动而是偏向梯度方向运动时，那么根据平行四边形法则加上一个负梯度方向的力，就能将智能体沿等高线引导；其中k是一个常数，注意当处于山地的山顶或者谷底时||g(x,y)||的大小为0，这时候将力u_i ^v的大小设置为0；当智能体以及沿等高线运动的时候力u_i ^v就为0，如果智能体偏离了等高线运动，力u_i ^v就被激活，然后将智能体往等高线引导。其中，运动控制量u_i ^α是一个引导智能体向目标位置运动的一个力，地形适应力u_i ^v是引导智能体沿等高线方向运动的一个力；两个力的合力控制了智能体的最终运动。

本发明的有益效果是：引入一种地形适应力，以鼓励智能体沿地形等高线运动；并通过深度强化学习模型，智能体可以自己进行学习，选择最优路径以减少重复覆盖和能量消耗。

附图说明

图1为本发明的方法流程图；

图2为实施例中的网络模型示意图；

图3为DQN模型的原理示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种用于山地环境下的多智能体协同搜索节能方法，包括以下步骤：

S1.确定智能体的特性参数；

S2.进行导航目标选择，获得下一个要遍历的目标位置；

为了提高遍历效率，本算法引入信息地图。它将我们要遍历的区域进行网格化，然后再利用深度强化学习引导智能体去遍历信息地图的网格，这样达到将整个区域都遍历完的目的。；步骤S2中所述的导航目标选择，包括信息地图引入和深度强化学习。所述信息地图引入过程包括：

m_i(γ_x，y)＝max(m_s(γ_x，y)).

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据。

所述深度强化学习过程包括：

在本申请的实施例中，深度强化学习主要由四部分构成，分别是需要遍历的外界环境、经验回放池、深度神经网络和值拟合的Q-learning；本专利的DQN模型如图3所示：

图3中的s表示智能体的当前状态，a表示智能体的当前行为，s′表示智能体在状态s下采取了行为a后的状态，a′表示s′状态下的可选行为，r表示智能体选取了行为a后得到的奖励，学习过程如下：

1、将环境信息s输入到当前值网络，输出为action的Q值，选择最大Q值对应的action，或者随机生成一个action(所谓的探索)，将action输入环境，得到奖励r和下一个环境信息s’，存储当前环境s,选择的action,得到的奖励r这4个信息,然后再将s’输入到当前网络，循环步骤1，直到存储了一定量的[(s,a,r,s’),…]，这个过程中当前网络没有更新。

2、从存储的[(s,a,r,s’),…]中sample出一部分(s,a,r,s’)，将sample出来的多个s做为batch输入到当前网络，得到batch的action的Q值Q(s,a)。

3、将sample出来的多个s’做为batch输入到目标值网络(当前值网络与目标值网络有相同的网络结构)，得到batch的action的Q值q_next,取q_next中最大的Q值(dim＝1)并乘以一个系数λ，然后再加上sample出来的奖励r，得到q_target＝r+λmax(s’,a’)。

4、计算loss：loss为第2步的结果Q(s,a)与第3步的结果q_target的MSE，然后根据loss反向传播更新当前值网络。

5、循环1到4步骤，每过一定的步数后，将当前值网络的权重更新到目标值网络上。

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}

相对于垂直或水平的方式，走对角线会导致更多的重复覆盖和消耗更多的能量，所以使用垂直或水平的方式移动智能体；如果γ¹已经被遍历过，则给奖励-1作为惩罚，这表明算法更倾向智能体在未被遍历过的区域行走；深度强化学习的状态是信息地图网格化后的图像，因此图像的特征相对较少，智能体会根据深度强化学习训练模型，自动得到下一个最优的导航目标点。

状态图像的每一个特征信息都很重要，所以本算法中采用了四层卷积层加一层池化层的网络模型，卷积核的尺寸设置为3或1，具体如图2所示；

S301.构建运动控制量u_i ^α：

运动控制量u_i ^α的具体定义如下：

u_i ^α＝f_i ^d+f_i ^s.

k_p是一个常数；

f_i ^s的定义如下：

k_s和k_v是常数，r_i是智能体i在此时的导航位置。

S302.构建地形适应力u_i ^v：

为了让从一个点到另一个点之间的能耗更低，通常是让智能体沿等高线行走。通过施加一个地形适应力来阻止垂直于等高线的运动，即通过这个力让智能体的加速度方向尽量贴近等高线：

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种用于山地环境下的多智能体协同搜索节能方法，其特征在于：包括以下步骤：

S1.确定智能体的特性参数；

所述步骤S1智能体的特性参数包括智能体的数量为N、智能体的搜索半径r_s以及智能体之间的通信半径为r_c；其中r_s>0，r_c>2r_s；

S2.进行导航目标选择，获得下一个要遍历的目标位置；

步骤S2中所述的导航目标选择，包括信息地图引入和深度强化学习：

所述信息地图引入过程包括：

m_i(γ_x，y)＝max(m_s(γ_x，y)).

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据；

所述深度强化学习过程包括：

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}

相对于垂直或水平的方式，走对角线会导致更多的重复覆盖和消耗更多的能量，所以使用垂直或水平的方式移动智能体；如果γ¹已经被遍历过，则给奖励-1作为惩罚，这表明算法更倾向智能体在未被遍历过的区域行走；深度强化学习的状态是信息地图网格化后的图像，因此图像的特征相对较少；智能体会根据深度强化学习训练模型，自动得到下一个最优的导航目标点；

S3.构建运动学模型，控制智能体从当前位置运动到目标位置；

S301.构建运动控制量u_i ^α：

运动控制量u_i ^α的具体定义如下：

u_i ^α＝f_i ^d+f_i ^s.

k_p是一个常数；

f_i ^s的定义如下：

k_s和k_v是常数，r_i是智能体i在此时的导航位置；

S302.构建地形适应力u_i ^v：

当智能体沿登高线运动的时候v_i·g(p_i)的内积为0，那么这个力就不起作用，大小为0，如果智能体没有沿等高线运动而是偏向梯度方向运动时，那么根据平行四边形法则加上一个负梯度方向的力，就能将智能体沿等高线引导；其中k是一个常数，注意当处于山地的山顶或者谷底时||g(x,y)||的大小为0，这时候将力u_i ^v的大小设置为0；当智能体以及沿等高线运动的时候力u_i ^v就为0，如果智能体偏离了等高线运动，力u_i ^v就被激活，然后将智能体往等高线引导；其中，运动控制量u_i ^α是一个引导智能体向目标位置运动的一个力，地形适应力u_i ^v是引导智能体沿等高线方向运动的一个力；两个力的合力控制了智能体的最终运动。