CN114764251B

CN114764251B - 一种基于能耗模型的多智能体协同搜索节能方法

Info

Publication number: CN114764251B
Application number: CN202210523068.2A
Authority: CN
Inventors: 李博; 张红雨; 张璇; 韦旭东; 杨辉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-10-10
Anticipated expiration: 2042-05-13
Also published as: CN114764251A

Abstract

本发明公开了一种基于能耗模型的多智能体协同搜索节能方法，包括以下步骤：S1.确定智能体的参数信息；S2.构建智能体的信息地图和能耗模型；S3.通过深度强化学习，控制各个智能体进行运动，并在每一个智能体每一次运动后，确定该智能体的状态和下一个动作，实现各个智能体的连续运动，以完成智能体的协同搜索。本发明在智能体持续动作过程中，选择下一个动作时，结合了智能体的能耗模型，以保证多智能体系统的全局能耗最低。

Description

一种基于能耗模型的多智能体协同搜索节能方法

技术领域

本发明涉及智能体协同搜索，特别是涉及一种基于能耗模型的多智能体协同搜索节能方法。

背景技术

多智能体算法目前已经比较成熟，人们常常使用它们去完成区域搜索。智能体在实际工作时，往往是在不平坦的山地地形中工作。但是目前智能体基本的都是采用便携式能源供电，因此使用多智能体去搜索山地等环境时，可能存在智能体还没有遍历完感兴趣区域智能体就没电了，导致不能遍历完感兴趣区域。因此智能体在山地环境中运动时，应该尽量减少移动过程中的能量消耗。而现有的节能算法都是考虑如何让智能体在运动轨迹上尽可能走节能路径，但这属于局部能耗最优，全局能耗不一定是最优的。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于能耗模型的多智能体协同搜索节能方法，在智能体持续动作过程中，选择下一个动作时，结合了智能体的能耗模型，以保证多智能体系统的全局能耗最低。

本发明的目的是通过以下技术方案来实现的：一种基于能耗模型的多智能体协同搜索节能方法，包括以下步骤：

S1.确定智能体的参数信息；

S2.构建智能体的信息地图和能耗模型；

S3.通过深度强化学习，控制各个智能体进行运动，并在每一个智能体每一次运动后，确定该智能体的状态和下一个动作，实现各个智能体的连续运动，以完成智能体的协同搜索。

进一步地，步骤S1所述的特性参数包括：

智能体的数量为N；

所有智能体的搜索半径为r_s,r_s＞0；

智能体之间的通信半径为r_c，r_c＞2r_s。

进一步地，步骤S2中构建智能体的信息地图包括以下步骤：

S201.智能体由于功率约束，所能克服的最大倾角有限，设能克服的最大倾角为φ_m度，遍历的区域在x-y平面的投影为m*n的矩形，将遍历的区域划分成k*l个小矩形区域，即k*l个网格，k和l的定义如下：

将矩形的中心点看做是一个引导点γ_x,y坐标用(x,y)表示；将整个搜索区域就看作是记录所有引导点γ的一张信息地图；

智能体i的信息地图m_i(γ_x,y)存储着其区域覆盖的历史信息，x＝1,2,...,m，y＝1,2,...,n：

若智能体i没有遍历过引导点γ所在位置，则记m_i(γ_x,y)＝0，否则记m_i(γ_x,y)＝1；

S202.当智能体之间的距离小于智能体之间的通信半径r_c，那么它们会进行信息交互，更新彼此的信息地图更新公式如下：

m_i(γ_x,y)＝max(m_s(γ_x,y)) (1-2)

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据。

进一步地，步骤S2中构建智能体能耗模型包括以下步骤：

假设智能体模型为小车模型，故智能体的物理模型如下：

假设n_c是智能体在环境中的当前位置，n_n是智能体要去的下一个位置；其中n_c在x-y平面的坐标为(n_c.x,n_c.y)，n_n的坐标为(n_z.x,n_z.y)。故n_c与n_n的连线在x-y平面的投影定义为：

n_c和n_n的高度差定义为：

Δ(n_c，n_n)＝Z(n_n.x，n_n.y)-Z⁽n_c.x，n_c.y) ₍1-4)

上式中z(n_n.x,n_n.y)和z(n_c.x,n_c.y)代表n_c和n_n的高度；

定义在三维空间中n_c和n_n的欧式距离为s(n_c,n_n)，那么s(n_c,n_n)的定义为：

定义n_c和n_n之间的夹角为φ(n_c,n_n)，那么φ(n_c,n_n)的定义为：

假设在实验过程中智能体匀速运动，那么根据智能体物理模型可得，智能体运动时主要是重力和摩檫力做功，它们的合力F定义如下：

F＝mg(μcosφ+sinφ) (1-7)

其中g为重力加速度，μ是摩擦系数，m是智能体的质量。故理论上智能体运动距离为 s时，它的能耗为：

E＝mgs(μcosφ+sinφ) (1-8)

智能体在实际运动过程中能克服的最大倾角和智能体的最大功率有关，设智能体能克服的最大倾角为φ_m；

当智能体在下坡时为了防止智能体发生侧翻，能耗模型中定义了临界断裂角φ_b，它的定义如下

φ_b＝-arctan(μ) (1-9)

实际运动过程中，当φ(n_c,n_n)＞φ_m时，认为故最终的能耗模型如下所示：

进一步地，所述步骤S3包括：

S301.将待搜索区域作为遍历的区域，按照步骤S2得到各个智能体的信息地图，作为各个智能体的初始信息地图；

S302.构建深度强化学习模型，所述深度强化模型包括两个神经网络，第一个神经网络为目标值网络，用于预测目标值；第二个神经网络为当前值网络，用于预测现实值，当前值网络与目标值网络有相同的网络结构；

目标值网络和当前值网络的输入为智能体的状态，输出为智能体的动作；

所述智能体的状态包括智能体所在位置信息的和智能体的信息地图；所述位置信息是指智能体在信息地图中的γ点坐标；

智能体的动作即智能体的运动方向，由于智能体每次动作只移动一个网格，故智能体的动作决定了下一个要遍历位置信息；

智能体有9种运动方向:上、下、左、右、左上、左下、右上、右下、停止；这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作，所以动作空间定义如下：

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}。

S303.初始化每个智能体的状态s_i0、动作a_i0和速度信息，其中假设智能体进行匀速运动，速度保持不变，设定训练总轮数N，并初始化n＝1；

S304.进行第n轮数据获取和更新，过程如下：

A1、确定第i个智能体的位置信息；

A2、计算智能体i的控制量u_i；

A3、当智能体i与其他智能体之间的距离小于智能体之间的通信半径r_c，进行信息交互，更新信息地图：

m_i(γ_x,y)＝max(m_s(γ_x,y))

并根据步骤A1的位置信息和步骤A3中更新得到的信息地图形成智能体的状态s_i；

A4、根据奖励函数计算出奖励r_i；

A5、通过控制量u_i控制智能体i按照当前动作a_i进行移动，并确定运动后智能体i的位置信息和信息地图，并构建状态s′_i；

A6、将{s_i,a_i,s′_i,r_i}作为一组数据加入经验回放池；

A7、对s_i进行更新，将s′_i作为更新后的s_i；

A8、将步骤A7中更新得到的s_i作为目标值网络的输入，由目标值网络输出的新的a_i；

S305.对n进行更新，更新后的n等于更新前的n+1；并判断更新后的n是否大于N，若是，进入步骤S306，若否，返回步骤S305；

S306.设定经验回放池中的大小C_max，即存放的最大数据数目，当经验回放池中存放的数据超出C_max时，则将经验回放池中最先加入的一组数据删除，并将新的一组数据加入经验回放池；

S307.从经验回放池中随机选择多组数据，对深度强化学习模型进行训练：

B1、对于从经验回放池中选择的任一组数据{s_i,a_i,s′_i,r_i},将s_i,a_i输入当前值网络中，在当前值网络中采用动作价值函数对输入的s_i,a_i进行评分，得到对应的Q值，记为Q(s_i,a_i)；

B2、将s′_i分别与动作空间中的九个动作中的可行动作进行组合，并将每一个组合输入到目标值网络中，在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分，得到多个Q值，取其中的最大值，记为max(Q(s′_i,a′_i))；

所述可行动作是指，根据状态s′_i中的位置信息和信息地图，该位置信息周围m_i(γ_x,y)为0 的可行位置，前往可行位置的动作即为可行动作；

B3、计算损失函数loss＝Q(s_i,a_i)-(r_i+λmax(Q(s′_i,a′_i)))，其中λ为常系数；

B4、根据损失函数loss反向传播更新当前值网络；

B5、对于选择的每一组数据，重复执行步骤B1～B5,然后利用得到的当前值网络对目标值网络进行更新，即将得到当前值网络作为新的目标值网络；

S308.在i＝1,2,…,N时，对不同的智能体，同时执行步骤S304～S307,得到不断对当前值网络和目标值网络进行学习与更新，并完成各个智能体写协同搜索。

本发明的有益效果是：考虑到现有的多智能体搜索节能算法，是对智能体的运动轨迹做出限制，使智能体尽量去走节能路径从而使智能体的能耗尽量少，但是从智能体运动轨迹方面去考虑节能，只能做到在局部能耗最优，而局部能耗最优不代表全局能耗最优，本发明直接将能耗模型加入到深度强化学习的奖惩函数中，从而使得在智能体在选在下一个目标位置时考虑的是如何使全局能耗最优，本发明提出的算法搭载到多智能体系统中时，智能体能以全局能耗最优为目标去对感兴趣区域进行遍历，相比于现有的一些节能算法，节能效果上有很大的提升。

附图说明

图1为本发明的原理示意图；

图2为智能体的物理模型示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

现有的多智能体搜索算法基本都是使用连续的控制系统，本发明提出的方法为了能使得全局能耗最优采用的是离散-连续混合系统，原理如图1所示，可以看出本发明的方法中，首先是将感兴趣区域离散为信息地图，接着智能体通过深度强化学习选择下一个要遍历的最优目标位置，这是属于离散过程；智能体知道要遍历的目标位置后就使用运动学模型从当前位置运到到目标位置这是一个连续过程，具体地，本发明的方法包括以下步骤：

S1.确定智能体的参数信息；包括：

智能体的数量为N；

所有智能体的搜索半径为r_s,r_s＞0；

智能体之间的通信半径为r_c，r_c＞2r_s。

S2.构建智能体的信息地图和能耗模型；

为了提高遍历效率，本算法引入信息地图。它将我们要遍历的区域进行网格化，然后再利用深度强化学习引导智能体去遍历信息地图的网格，这样达到将整个区域都遍历完的目的，步骤S2中构建智能体的信息地图包括以下步骤：

m_i(γ_x,y)＝max(m_s(γ_x,y)) (1-2)

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据。

步骤S2中构建智能体能耗模型包括以下步骤：

假设智能体模型为小车模型，故智能体的物理模型如图2所示：

n_c和n_n的高度差定义为：

Δ(n_c，m_n)＝z(n_n.x，n_n.y)-z(n_c.x，n_c.y) (1-4)

上式中z(n_n.x,n_n.y)和z(n_c.x,n_c.y)代表n_c和n_n的高度；

定义n_c和n_n之间的夹角为φ(n_c,n_n)，那么φ(n_c,n_n)的定义为：

F＝mg(μcosφ+sinφ) (1-7)

E＝mgs(μcosφ+sinφ) (1-8)

φ_b＝-arctan(μ) (1-9)

在本申请的实施例中，对山地的搜索遍历，引入信息地图之后，就转换为遍历完整个信息地图的γ点；为了提高遍历效率，减少重覆盖，采用深度强化学习，让智能体自己去选择下一个最优的γ点进行遍历；深度强化学习就是让智能体与外界环境进行交互，智能体通过采取行为改变自身状态并获得一定奖励，经过网络的训练之后我们会得到一个深度强化学习模型，深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励，让智能体最终选择奖励最大的行为，深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型；

深度强化学习的目的是为了让智能体自己选择如何遍历γ点，这里γ点是被投影到了x-y 平面，那么智能体就看成是在二维空间对γ点进行遍历；深度强化学习的状态是信息地图网格化后的图像，智能体是在山地环境中，故网络训练的时候是在山地环境中进行训练，本申请采用的双线性网络进行训练，具体的网络参数如下表所示：

具体地，所述步骤S3包括：

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}。

S304.进行第n轮数据获取和更新，过程如下：

A1、确定第i个智能体的位置信息；

A2、计算智能体i的控制量u_i；

m_i(γ_x,y)＝max(m_s(γ_x,y))

A4、根据奖励函数计算出奖励r_i；

A6、将{s_i,a_i,s′_i,r_i}作为一组数据加入经验回放池；

A7、对s_i进行更新，将s′_i作为更新后的s_i；

B4、根据损失函数loss反向传播更新当前值网络；

所述步骤A1中，在第n轮训练中，确定智能体i的位置信息时：若当前轮数n＝1，确定的位置信息为步骤S303中初始化状态s_i0中包含的位置信息；若当前轮数为n大于1，则确定的位置信息为第n-1轮训练过程中，步骤A5中得到的智能体i运动后的位置信息；

所述步骤A5中，若当前轮数n＝1，则当前动作a_i为初始化动作a_i0；若当前轮数为n大于1，则当前动作a_i为第n-1轮训练过程中，步骤A8得到的新的a_i。

所述步骤A4中，根据奖励函数计算出奖励r_i的过程如下：

奖惩函数设置如下：

r_i(s_i，a_i)＝r_i(s_i，a_i)-c_eE_cost (1-11)

奖惩函数中s_i是智能体的当前状态，a_i是智能体在当前状态下要做的动作，c_e是一个小于1的常数，它的取值为最大能耗的倒数；E_cost是从当前位置到下一个位置的能耗，即步骤 S2中能耗模型的计算结果c_d(n_c，n_n)，r′_i(s_i,a_i)的定义如下：

根据奖励函数计算得到的r_i(s_i,a_i)即为奖励奖励r_i。

所述步骤A2中，智能体i的控制量u_i按照如下方式计算：

智能体从当前位置运动到下一个目标位置时，为了减少能源消耗是采用的最短路径方式运动，智能体的运动是有控制量控制；运动控制量/>的具体定义如下：

计算得到的即为智能体i的控制量u_i；

f_i ^d的作用是让智能体在运动过程中不会内部发生碰撞；f_i ^s的作用是引导智能体从一个区域去往另一个区域，f_i ^d的定义如下

S_i＝{j:||p_j-p_i||＜r_c,j＝1,2,...,N,j≠i}，其中p_j和p_i代表智能体i和智能体j的位置矢量， d是智能体之间的最小期望距离，ψ是一个非负的势能函数，定义如下：

这里k_p是一个常数，f_i ^s的定义如下：

这里k_s和k_v是常数，是智能体i在时刻t时对应的引导点的位置，v_i是智能体i的速度。

所述步骤A8中，将步骤A7中更新得到的s_i作为目标值网络的输入，由目标值网络输出的新的a_i的过程如下：

根据状态s_i中的位置信息和信息地图，确定该位置信息周围m_i(γ_x,y)为0多个目标位置，即为可行位置；

将动作空间中前往可行位置的动作记为可行动作；

将s_i分别与每一个可行动作进行组合，并将每一个组合输入到目标值网络中，在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分，得到多个Q值，取其中的最大值，该最大值对应的可行动作即为动作a_i。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于能耗模型的多智能体协同搜索节能方法，其特征在于：包括以下步骤：

S1.确定智能体的参数信息；

步骤S1所述的参数信息包括：

智能体的数量为N；

所有智能体的搜索半径为r_s,r_s＞0；

智能体之间的通信半径为r_c，r_c＞2r_s；

S2.构建智能体的信息地图和能耗模型；

步骤S2中构建智能体的信息地图包括以下步骤：

m_i(γ_x,y)＝max(m_s(γ_x,y)) (1-2)

m_s(γ(x,y))表示通信范围内其他智能体的信息地图数据；

步骤S2中构建智能体能耗模型包括以下步骤：

假设智能体模型为小车模型，故智能体的物理模型如下：

假设n_c是智能体在环境中的当前位置，n_n是智能体要去的下一个位置；其中n_c在x-y平面的坐标为(n_c.x,n_c.y)，n_n的坐标为(n_z.x,n_z.y)；故n_c与n_n的连线在x-y平面的投影定义为：

n_c和n_n的高度差定义为：

Δ(n_c，n_n)＝z(n_n..x，n_n.y)-z(n_c..x，n_c.y) (1-4)

上式中z(n_n.x,n_n.y)和z(n_c.x,n_c.y)代表n_c和n_n的高度；

定义n_c和n_n之间的夹角为φ(n_c,n_n)，那么φ(n_c,n_n)的定义为：

F＝mg(μcosφ+sinφ) (1-7)

其中g为重力加速度，μ是摩擦系数，m是智能体的质量；故理论上智能体运动距离为s时，它的能耗为：

E＝mgs(μcosφ+sinφ) (1-8)

φ_b＝-arctan(μ) (1-9)

S3.通过深度强化学习，控制各个智能体进行运动，并在每一个智能体每一次运动后，确定该智能体的状态和下一个动作，实现各个智能体的连续运动，以完成智能体的协同搜索；

所述步骤S3包括：

S302.构建深度强化学习模型，所述深度强化学习模型包括两个神经网络，第一个神经网络为目标值网络，用于预测目标值；第二个神经网络为当前值网络，用于预测现实值，当前值网络与目标值网络有相同的网络结构；

A＝{1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}

S304.进行第n轮数据获取和更新，过程如下：

A1、确定第i个智能体的位置信息；

A2、计算智能体i的控制量u_i；

m_i(γ_x,y)＝max(m_s(γ_x,y))

A4、根据奖励函数计算出奖励r_i；

所述步骤A4中，根据奖励函数计算出奖励r_i的过程如下：

奖惩函数设置如下：

r_i(s_i，a_i)＝r′_i(s_i，a_i)-c_eE_cost (1-11)

奖惩函数中s_i是智能体的当前状态，a_i是智能体在当前状态下要做的动作，c_e是一个小于1的常数，它的取值为最大能耗的倒数；E_cost是从当前位置到下一个位置的能耗，即步骤S2中能耗模型的计算结果c_d(n_c，n_m)，r′_i(s_i,a_i)的定义如下：

根据奖励函数计算得到的r_i(s_i,a_i)即为奖励r_i；

A6、将{s_i,a_i,s′_i,r_i}作为一组数据加入经验回放池；

A7、对s_i进行更新，将s′_i作为更新后的s_i；

所述可行动作是指，根据状态s′_i中的位置信息和信息地图，该位置信息周围m_i(γ_x,y)为0的可行位置，前往可行位置的动作即为可行动作；

B4、根据损失函数loss反向传播更新当前值网络；

2.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法，其特征在于：所述步骤A1中，在第n轮训练中，确定智能体i的位置信息时：若当前轮数n＝1，确定的位置信息为步骤S303中初始化状态s_i0中包含的位置信息；若当前轮数为n大于1，则确定的位置信息为第n-1轮训练过程中，步骤A5中得到的智能体i运动后的位置信息；

3.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法，其特征在于：所述步骤A2中，智能体i的控制量u_i按照如下方式计算：

计算得到的即为智能体i的控制量u_i；

S_i＝{j:||p_j-p_i||＜r_c,j＝1,2,...,N,j≠i}，其中p_j和p_i代表智能体i和智能体j的位置矢量，d是智能体之间的最小期望距离，ψ是一个非负的势能函数，定义如下：

这里k_p是一个常数，f_i ^s的定义如下：

4.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法，其特征在于：所述步骤A8中，将步骤A7中更新得到的s_i作为目标值网络的输入，由目标值网络输出的新的a_i的过程如下：

将动作空间中前往可行位置的动作记为可行动作；