CN114764251B - 一种基于能耗模型的多智能体协同搜索节能方法 - Google Patents

一种基于能耗模型的多智能体协同搜索节能方法 Download PDF

Info

Publication number
CN114764251B
CN114764251B CN202210523068.2A CN202210523068A CN114764251B CN 114764251 B CN114764251 B CN 114764251B CN 202210523068 A CN202210523068 A CN 202210523068A CN 114764251 B CN114764251 B CN 114764251B
Authority
CN
China
Prior art keywords
agent
intelligent
information
follows
energy consumption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210523068.2A
Other languages
English (en)
Other versions
CN114764251A (zh
Inventor
李博
张红雨
张璇
韦旭东
杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210523068.2A priority Critical patent/CN114764251B/zh
Publication of CN114764251A publication Critical patent/CN114764251A/zh
Application granted granted Critical
Publication of CN114764251B publication Critical patent/CN114764251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)

Abstract

本发明公开了一种基于能耗模型的多智能体协同搜索节能方法,包括以下步骤:S1.确定智能体的参数信息;S2.构建智能体的信息地图和能耗模型;S3.通过深度强化学习,控制各个智能体进行运动,并在每一个智能体每一次运动后,确定该智能体的状态和下一个动作,实现各个智能体的连续运动,以完成智能体的协同搜索。本发明在智能体持续动作过程中,选择下一个动作时,结合了智能体的能耗模型,以保证多智能体系统的全局能耗最低。

Description

一种基于能耗模型的多智能体协同搜索节能方法
技术领域
本发明涉及智能体协同搜索,特别是涉及一种基于能耗模型的多智能体协同搜索节能方法。
背景技术
多智能体算法目前已经比较成熟,人们常常使用它们去完成区域搜索。智能体在实际工作时,往往是在不平坦的山地地形中工作。但是目前智能体基本的都是采用便携式能源供电,因此使用多智能体去搜索山地等环境时,可能存在智能体还没有遍历完感兴趣区域智能体就没电了,导致不能遍历完感兴趣区域。因此智能体在山地环境中运动时,应该尽量减少移动过程中的能量消耗。而现有的节能算法都是考虑如何让智能体在运动轨迹上尽可能走节能路径,但这属于局部能耗最优,全局能耗不一定是最优的。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于能耗模型的多智能体协同搜索节能方法,在智能体持续动作过程中,选择下一个动作时,结合了智能体的能耗模型,以保证多智能体系统的全局能耗最低。
本发明的目的是通过以下技术方案来实现的:一种基于能耗模型的多智能体协同搜索节能方法,包括以下步骤:
S1.确定智能体的参数信息;
S2.构建智能体的信息地图和能耗模型;
S3.通过深度强化学习,控制各个智能体进行运动,并在每一个智能体每一次运动后,确定该智能体的状态和下一个动作,实现各个智能体的连续运动,以完成智能体的协同搜索。
进一步地,步骤S1所述的特性参数包括:
智能体的数量为N;
所有智能体的搜索半径为rs,rs>0;
智能体之间的通信半径为rc,rc>2rs
进一步地,步骤S2中构建智能体的信息地图包括以下步骤:
S201.智能体由于功率约束,所能克服的最大倾角有限,设能克服的最大倾角为φm度,遍历的区域在x-y平面的投影为m*n的矩形,将遍历的区域划分成k*l个小矩形区域,即k*l个网格,k和l的定义如下:
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;将整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图mix,y)存储着其区域覆盖的历史信息,x=1,2,...,m,y=1,2,...,n:
若智能体i没有遍历过引导点γ所在位置,则记mix,y)=0,否则记mix,y)=1;
S202.当智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)) (1-2)
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据。
进一步地,步骤S2中构建智能体能耗模型包括以下步骤:
假设智能体模型为小车模型,故智能体的物理模型如下:
假设nc是智能体在环境中的当前位置,nn是智能体要去的下一个位置;其中nc在x-y平面的坐标为(nc.x,nc.y),nn的坐标为(nz.x,nz.y)。故nc与nn的连线在x-y平面的投影定义为:
nc和nn的高度差定义为:
Δ(nc,nn)=Z(nn.x,nn.y)-Z(nc.x,nc.y) (1-4)
上式中z(nn.x,nn.y)和z(nc.x,nc.y)代表nc和nn的高度;
定义在三维空间中nc和nn的欧式距离为s(nc,nn),那么s(nc,nn)的定义为:
定义nc和nn之间的夹角为φ(nc,nn),那么φ(nc,nn)的定义为:
假设在实验过程中智能体匀速运动,那么根据智能体物理模型可得,智能体运动时主要是重力和摩檫力做功,它们的合力F定义如下:
F=mg(μcosφ+sinφ) (1-7)
其中g为重力加速度,μ是摩擦系数,m是智能体的质量。故理论上智能体运动距离为 s时,它的能耗为:
E=mgs(μcosφ+sinφ) (1-8)
智能体在实际运动过程中能克服的最大倾角和智能体的最大功率有关,设智能体能克服的最大倾角为φm
当智能体在下坡时为了防止智能体发生侧翻,能耗模型中定义了临界断裂角φb,它的定义如下
φb=-arctan(μ) (1-9)
实际运动过程中,当φ(nc,nn)>φm时,认为故最终的能耗模型如下所示:
进一步地,所述步骤S3包括:
S301.将待搜索区域作为遍历的区域,按照步骤S2得到各个智能体的信息地图,作为各个智能体的初始信息地图;
S302.构建深度强化学习模型,所述深度强化模型包括两个神经网络,第一个神经网络为目标值网络,用于预测目标值;第二个神经网络为当前值网络,用于预测现实值,当前值网络与目标值网络有相同的网络结构;
目标值网络和当前值网络的输入为智能体的状态,输出为智能体的动作;
所述智能体的状态包括智能体所在位置信息的和智能体的信息地图;所述位置信息是指智能体在信息地图中的γ点坐标;
智能体的动作即智能体的运动方向,由于智能体每次动作只移动一个网格,故智能体的动作决定了下一个要遍历位置信息;
智能体有9种运动方向:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}。
S303.初始化每个智能体的状态si0、动作ai0和速度信息,其中假设智能体进行匀速运动,速度保持不变,设定训练总轮数N,并初始化n=1;
S304.进行第n轮数据获取和更新,过程如下:
A1、确定第i个智能体的位置信息;
A2、计算智能体i的控制量ui
A3、当智能体i与其他智能体之间的距离小于智能体之间的通信半径rc,进行信息交互,更新信息地图:
mix,y)=max(msx,y))
并根据步骤A1的位置信息和步骤A3中更新得到的信息地图形成智能体的状态si
A4、根据奖励函数计算出奖励ri
A5、通过控制量ui控制智能体i按照当前动作ai进行移动,并确定运动后智能体i的位置信息和信息地图,并构建状态s′i
A6、将{si,ai,s′i,ri}作为一组数据加入经验回放池;
A7、对si进行更新,将s′i作为更新后的si
A8、将步骤A7中更新得到的si作为目标值网络的输入,由目标值网络输出的新的ai
S305.对n进行更新,更新后的n等于更新前的n+1;并判断更新后的n是否大于N,若是,进入步骤S306,若否,返回步骤S305;
S306.设定经验回放池中的大小Cmax,即存放的最大数据数目,当经验回放池中存放的数据超出Cmax时,则将经验回放池中最先加入的一组数据删除,并将新的一组数据加入经验回放池;
S307.从经验回放池中随机选择多组数据,对深度强化学习模型进行训练:
B1、对于从经验回放池中选择的任一组数据{si,ai,s′i,ri},将si,ai输入当前值网络中,在当前值网络中采用动作价值函数对输入的si,ai进行评分,得到对应的Q值,记为Q(si,ai);
B2、将s′i分别与动作空间中的九个动作中的可行动作进行组合,并将每一个组合输入到目标值网络中,在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分,得到多个Q值,取其中的最大值,记为max(Q(s′i,a′i));
所述可行动作是指,根据状态s′i中的位置信息和信息地图,该位置信息周围mix,y)为0 的可行位置,前往可行位置的动作即为可行动作;
B3、计算损失函数loss=Q(si,ai)-(ri+λmax(Q(s′i,a′i))),其中λ为常系数;
B4、根据损失函数loss反向传播更新当前值网络;
B5、对于选择的每一组数据,重复执行步骤B1~B5,然后利用得到的当前值网络对目标值网络进行更新,即将得到当前值网络作为新的目标值网络;
S308.在i=1,2,…,N时,对不同的智能体,同时执行步骤S304~S307,得到不断对当前值网络和目标值网络进行学习与更新,并完成各个智能体写协同搜索。
本发明的有益效果是:考虑到现有的多智能体搜索节能算法,是对智能体的运动轨迹做出限制,使智能体尽量去走节能路径从而使智能体的能耗尽量少,但是从智能体运动轨迹方面去考虑节能,只能做到在局部能耗最优,而局部能耗最优不代表全局能耗最优,本发明直接将能耗模型加入到深度强化学习的奖惩函数中,从而使得在智能体在选在下一个目标位置时考虑的是如何使全局能耗最优,本发明提出的算法搭载到多智能体系统中时,智能体能以全局能耗最优为目标去对感兴趣区域进行遍历,相比于现有的一些节能算法,节能效果上有很大的提升。
附图说明
图1为本发明的原理示意图;
图2为智能体的物理模型示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
现有的多智能体搜索算法基本都是使用连续的控制系统,本发明提出的方法为了能使得全局能耗最优采用的是离散-连续混合系统,原理如图1所示,可以看出本发明的方法中,首先是将感兴趣区域离散为信息地图,接着智能体通过深度强化学习选择下一个要遍历的最优目标位置,这是属于离散过程;智能体知道要遍历的目标位置后就使用运动学模型从当前位置运到到目标位置这是一个连续过程,具体地,本发明的方法包括以下步骤:
S1.确定智能体的参数信息;包括:
智能体的数量为N;
所有智能体的搜索半径为rs,rs>0;
智能体之间的通信半径为rc,rc>2rs
S2.构建智能体的信息地图和能耗模型;
为了提高遍历效率,本算法引入信息地图。它将我们要遍历的区域进行网格化,然后再利用深度强化学习引导智能体去遍历信息地图的网格,这样达到将整个区域都遍历完的目的,步骤S2中构建智能体的信息地图包括以下步骤:
S201.智能体由于功率约束,所能克服的最大倾角有限,设能克服的最大倾角为φm度,遍历的区域在x-y平面的投影为m*n的矩形,将遍历的区域划分成k*l个小矩形区域,即k*l个网格,k和l的定义如下:
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;将整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图mix,y)存储着其区域覆盖的历史信息,x=1,2,...,m,y=1,2,...,n:
若智能体i没有遍历过引导点γ所在位置,则记mix,y)=0,否则记mix,y)=1;
S202.当智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)) (1-2)
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据。
步骤S2中构建智能体能耗模型包括以下步骤:
假设智能体模型为小车模型,故智能体的物理模型如图2所示:
假设nc是智能体在环境中的当前位置,nn是智能体要去的下一个位置;其中nc在x-y平面的坐标为(nc.x,nc.y),nn的坐标为(nz.x,nz.y)。故nc与nn的连线在x-y平面的投影定义为:
nc和nn的高度差定义为:
Δ(nc,mn)=z(nn.x,nn.y)-z(nc.x,nc.y) (1-4)
上式中z(nn.x,nn.y)和z(nc.x,nc.y)代表nc和nn的高度;
定义在三维空间中nc和nn的欧式距离为s(nc,nn),那么s(nc,nn)的定义为:
定义nc和nn之间的夹角为φ(nc,nn),那么φ(nc,nn)的定义为:
假设在实验过程中智能体匀速运动,那么根据智能体物理模型可得,智能体运动时主要是重力和摩檫力做功,它们的合力F定义如下:
F=mg(μcosφ+sinφ) (1-7)
其中g为重力加速度,μ是摩擦系数,m是智能体的质量。故理论上智能体运动距离为 s时,它的能耗为:
E=mgs(μcosφ+sinφ) (1-8)
智能体在实际运动过程中能克服的最大倾角和智能体的最大功率有关,设智能体能克服的最大倾角为φm
当智能体在下坡时为了防止智能体发生侧翻,能耗模型中定义了临界断裂角φb,它的定义如下
φb=-arctan(μ) (1-9)
实际运动过程中,当φ(nc,nn)>φm时,认为故最终的能耗模型如下所示:
S3.通过深度强化学习,控制各个智能体进行运动,并在每一个智能体每一次运动后,确定该智能体的状态和下一个动作,实现各个智能体的连续运动,以完成智能体的协同搜索。
在本申请的实施例中,对山地的搜索遍历,引入信息地图之后,就转换为遍历完整个信息地图的γ点;为了提高遍历效率,减少重覆盖,采用深度强化学习,让智能体自己去选择下一个最优的γ点进行遍历;深度强化学习就是让智能体与外界环境进行交互,智能体通过采取行为改变自身状态并获得一定奖励,经过网络的训练之后我们会得到一个深度强化学习模型,深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励,让智能体最终选择奖励最大的行为,深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型;
深度强化学习的目的是为了让智能体自己选择如何遍历γ点,这里γ点是被投影到了x-y 平面,那么智能体就看成是在二维空间对γ点进行遍历;深度强化学习的状态是信息地图网格化后的图像,智能体是在山地环境中,故网络训练的时候是在山地环境中进行训练,本申请采用的双线性网络进行训练,具体的网络参数如下表所示:
具体地,所述步骤S3包括:
S301.将待搜索区域作为遍历的区域,按照步骤S2得到各个智能体的信息地图,作为各个智能体的初始信息地图;
S302.构建深度强化学习模型,所述深度强化模型包括两个神经网络,第一个神经网络为目标值网络,用于预测目标值;第二个神经网络为当前值网络,用于预测现实值,当前值网络与目标值网络有相同的网络结构;
目标值网络和当前值网络的输入为智能体的状态,输出为智能体的动作;
所述智能体的状态包括智能体所在位置信息的和智能体的信息地图;所述位置信息是指智能体在信息地图中的γ点坐标;
智能体的动作即智能体的运动方向,由于智能体每次动作只移动一个网格,故智能体的动作决定了下一个要遍历位置信息;
智能体有9种运动方向:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}。
S303.初始化每个智能体的状态si0、动作ai0和速度信息,其中假设智能体进行匀速运动,速度保持不变,设定训练总轮数N,并初始化n=1;
S304.进行第n轮数据获取和更新,过程如下:
A1、确定第i个智能体的位置信息;
A2、计算智能体i的控制量ui
A3、当智能体i与其他智能体之间的距离小于智能体之间的通信半径rc,进行信息交互,更新信息地图:
mix,y)=max(msx,y))
并根据步骤A1的位置信息和步骤A3中更新得到的信息地图形成智能体的状态si
A4、根据奖励函数计算出奖励ri
A5、通过控制量ui控制智能体i按照当前动作ai进行移动,并确定运动后智能体i的位置信息和信息地图,并构建状态s′i
A6、将{si,ai,s′i,ri}作为一组数据加入经验回放池;
A7、对si进行更新,将s′i作为更新后的si
A8、将步骤A7中更新得到的si作为目标值网络的输入,由目标值网络输出的新的ai
S305.对n进行更新,更新后的n等于更新前的n+1;并判断更新后的n是否大于N,若是,进入步骤S306,若否,返回步骤S305;
S306.设定经验回放池中的大小Cmax,即存放的最大数据数目,当经验回放池中存放的数据超出Cmax时,则将经验回放池中最先加入的一组数据删除,并将新的一组数据加入经验回放池;
S307.从经验回放池中随机选择多组数据,对深度强化学习模型进行训练:
B1、对于从经验回放池中选择的任一组数据{si,ai,s′i,ri},将si,ai输入当前值网络中,在当前值网络中采用动作价值函数对输入的si,ai进行评分,得到对应的Q值,记为Q(si,ai);
B2、将s′i分别与动作空间中的九个动作中的可行动作进行组合,并将每一个组合输入到目标值网络中,在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分,得到多个Q值,取其中的最大值,记为max(Q(s′i,a′i));
所述可行动作是指,根据状态s′i中的位置信息和信息地图,该位置信息周围mix,y)为0 的可行位置,前往可行位置的动作即为可行动作;
B3、计算损失函数loss=Q(si,ai)-(ri+λmax(Q(s′i,a′i))),其中λ为常系数;
B4、根据损失函数loss反向传播更新当前值网络;
B5、对于选择的每一组数据,重复执行步骤B1~B5,然后利用得到的当前值网络对目标值网络进行更新,即将得到当前值网络作为新的目标值网络;
S308.在i=1,2,…,N时,对不同的智能体,同时执行步骤S304~S307,得到不断对当前值网络和目标值网络进行学习与更新,并完成各个智能体写协同搜索。
所述步骤A1中,在第n轮训练中,确定智能体i的位置信息时:若当前轮数n=1,确定的位置信息为步骤S303中初始化状态si0中包含的位置信息;若当前轮数为n大于1,则确定的位置信息为第n-1轮训练过程中,步骤A5中得到的智能体i运动后的位置信息;
所述步骤A5中,若当前轮数n=1,则当前动作ai为初始化动作ai0;若当前轮数为n大于1,则当前动作ai为第n-1轮训练过程中,步骤A8得到的新的ai
所述步骤A4中,根据奖励函数计算出奖励ri的过程如下:
奖惩函数设置如下:
ri(si,ai)=ri(si,ai)-ceEcost (1-11)
奖惩函数中si是智能体的当前状态,ai是智能体在当前状态下要做的动作,ce是一个小于1的常数,它的取值为最大能耗的倒数;Ecost是从当前位置到下一个位置的能耗,即步骤 S2中能耗模型的计算结果cd(nc,nn),r′i(si,ai)的定义如下:
根据奖励函数计算得到的ri(si,ai)即为奖励奖励ri
所述步骤A2中,智能体i的控制量ui按照如下方式计算:
智能体从当前位置运动到下一个目标位置时,为了减少能源消耗是采用的最短路径方式运动,智能体的运动是有控制量控制;运动控制量/>的具体定义如下:
计算得到的即为智能体i的控制量ui
fi d的作用是让智能体在运动过程中不会内部发生碰撞;fi s的作用是引导智能体从一个区域去往另一个区域,fi d的定义如下
Si={j:||pj-pi||<rc,j=1,2,...,N,j≠i},其中pj和pi代表智能体i和智能体j的位置矢量, d是智能体之间的最小期望距离,ψ是一个非负的势能函数,定义如下:
这里kp是一个常数,fi s的定义如下:
这里ks和kv是常数,是智能体i在时刻t时对应的引导点的位置,vi是智能体i的速度。
所述步骤A8中,将步骤A7中更新得到的si作为目标值网络的输入,由目标值网络输出的新的ai的过程如下:
根据状态si中的位置信息和信息地图,确定该位置信息周围mix,y)为0多个目标位置,即为可行位置;
将动作空间中前往可行位置的动作记为可行动作;
将si分别与每一个可行动作进行组合,并将每一个组合输入到目标值网络中,在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分,得到多个Q值,取其中的最大值,该最大值对应的可行动作即为动作ai
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (4)

1.一种基于能耗模型的多智能体协同搜索节能方法,其特征在于:包括以下步骤:
S1.确定智能体的参数信息;
步骤S1所述的参数信息包括:
智能体的数量为N;
所有智能体的搜索半径为rs,rs>0;
智能体之间的通信半径为rc,rc>2rs
S2.构建智能体的信息地图和能耗模型;
步骤S2中构建智能体的信息地图包括以下步骤:
S201.智能体由于功率约束,所能克服的最大倾角有限,设能克服的最大倾角为φm度,遍历的区域在x-y平面的投影为m*n的矩形,将遍历的区域划分成k*l个小矩形区域,即k*l个网格,k和l的定义如下:
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;将整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图mix,y)存储着其区域覆盖的历史信息,x=1,2,...,m,y=1,2,...,n:
若智能体i没有遍历过引导点γ所在位置,则记mix,y)=0,否则记mix,y)=1;
S202.当智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)) (1-2)
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据;
步骤S2中构建智能体能耗模型包括以下步骤:
假设智能体模型为小车模型,故智能体的物理模型如下:
假设nc是智能体在环境中的当前位置,nn是智能体要去的下一个位置;其中nc在x-y平面的坐标为(nc.x,nc.y),nn的坐标为(nz.x,nz.y);故nc与nn的连线在x-y平面的投影定义为:
nc和nn的高度差定义为:
Δ(nc,nn)=z(nn..x,nn.y)-z(nc..x,nc.y) (1-4)
上式中z(nn.x,nn.y)和z(nc.x,nc.y)代表nc和nn的高度;
定义在三维空间中nc和nn的欧式距离为s(nc,nn),那么s(nc,nn)的定义为:
定义nc和nn之间的夹角为φ(nc,nn),那么φ(nc,nn)的定义为:
假设在实验过程中智能体匀速运动,那么根据智能体物理模型可得,智能体运动时主要是重力和摩檫力做功,它们的合力F定义如下:
F=mg(μcosφ+sinφ) (1-7)
其中g为重力加速度,μ是摩擦系数,m是智能体的质量;故理论上智能体运动距离为s时,它的能耗为:
E=mgs(μcosφ+sinφ) (1-8)
智能体在实际运动过程中能克服的最大倾角和智能体的最大功率有关,设智能体能克服的最大倾角为φm
当智能体在下坡时为了防止智能体发生侧翻,能耗模型中定义了临界断裂角φb,它的定义如下
φb=-arctan(μ) (1-9)
实际运动过程中,当φ(nc,nn)>φm时,认为故最终的能耗模型如下所示:
S3.通过深度强化学习,控制各个智能体进行运动,并在每一个智能体每一次运动后,确定该智能体的状态和下一个动作,实现各个智能体的连续运动,以完成智能体的协同搜索;
所述步骤S3包括:
S301.将待搜索区域作为遍历的区域,按照步骤S2得到各个智能体的信息地图,作为各个智能体的初始信息地图;
S302.构建深度强化学习模型,所述深度强化学习模型包括两个神经网络,第一个神经网络为目标值网络,用于预测目标值;第二个神经网络为当前值网络,用于预测现实值,当前值网络与目标值网络有相同的网络结构;
目标值网络和当前值网络的输入为智能体的状态,输出为智能体的动作;
所述智能体的状态包括智能体所在位置信息的和智能体的信息地图;所述位置信息是指智能体在信息地图中的γ点坐标;
智能体的动作即智能体的运动方向,由于智能体每次动作只移动一个网格,故智能体的动作决定了下一个要遍历位置信息;
智能体有9种运动方向:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}
S303.初始化每个智能体的状态si0、动作ai0和速度信息,其中假设智能体进行匀速运动,速度保持不变,设定训练总轮数N,并初始化n=1;
S304.进行第n轮数据获取和更新,过程如下:
A1、确定第i个智能体的位置信息;
A2、计算智能体i的控制量ui
A3、当智能体i与其他智能体之间的距离小于智能体之间的通信半径rc,进行信息交互,更新信息地图:
mix,y)=max(msx,y))
并根据步骤A1的位置信息和步骤A3中更新得到的信息地图形成智能体的状态si
A4、根据奖励函数计算出奖励ri
所述步骤A4中,根据奖励函数计算出奖励ri的过程如下:
奖惩函数设置如下:
ri(si,ai)=r′i(si,ai)-ceEcost (1-11)
奖惩函数中si是智能体的当前状态,ai是智能体在当前状态下要做的动作,ce是一个小于1的常数,它的取值为最大能耗的倒数;Ecost是从当前位置到下一个位置的能耗,即步骤S2中能耗模型的计算结果cd(nc,nm),r′i(si,ai)的定义如下:
根据奖励函数计算得到的ri(si,ai)即为奖励ri
A5、通过控制量ui控制智能体i按照当前动作ai进行移动,并确定运动后智能体i的位置信息和信息地图,并构建状态s′i
A6、将{si,ai,s′i,ri}作为一组数据加入经验回放池;
A7、对si进行更新,将s′i作为更新后的si
A8、将步骤A7中更新得到的si作为目标值网络的输入,由目标值网络输出的新的ai
S305.对n进行更新,更新后的n等于更新前的n+1;并判断更新后的n是否大于N,若是,进入步骤S306,若否,返回步骤S305;
S306.设定经验回放池中的大小Cmax,即存放的最大数据数目,当经验回放池中存放的数据超出Cmax时,则将经验回放池中最先加入的一组数据删除,并将新的一组数据加入经验回放池;
S307.从经验回放池中随机选择多组数据,对深度强化学习模型进行训练:
B1、对于从经验回放池中选择的任一组数据{si,ai,s′i,ri},将si,ai输入当前值网络中,在当前值网络中采用动作价值函数对输入的si,ai进行评分,得到对应的Q值,记为Q(si,ai);
B2、将s′i分别与动作空间中的九个动作中的可行动作进行组合,并将每一个组合输入到目标值网络中,在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分,得到多个Q值,取其中的最大值,记为max(Q(s′i,a′i));
所述可行动作是指,根据状态s′i中的位置信息和信息地图,该位置信息周围mix,y)为0的可行位置,前往可行位置的动作即为可行动作;
B3、计算损失函数loss=Q(si,ai)-(ri+λmax(Q(s′i,a′i))),其中λ为常系数;
B4、根据损失函数loss反向传播更新当前值网络;
B5、对于选择的每一组数据,重复执行步骤B1~B5,然后利用得到的当前值网络对目标值网络进行更新,即将得到当前值网络作为新的目标值网络;
S308.在i=1,2,…,N时,对不同的智能体,同时执行步骤S304~S307,得到不断对当前值网络和目标值网络进行学习与更新,并完成各个智能体写协同搜索。
2.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法,其特征在于:所述步骤A1中,在第n轮训练中,确定智能体i的位置信息时:若当前轮数n=1,确定的位置信息为步骤S303中初始化状态si0中包含的位置信息;若当前轮数为n大于1,则确定的位置信息为第n-1轮训练过程中,步骤A5中得到的智能体i运动后的位置信息;
所述步骤A5中,若当前轮数n=1,则当前动作ai为初始化动作ai0;若当前轮数为n大于1,则当前动作ai为第n-1轮训练过程中,步骤A8得到的新的ai
3.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法,其特征在于:所述步骤A2中,智能体i的控制量ui按照如下方式计算:
智能体从当前位置运动到下一个目标位置时,为了减少能源消耗是采用的最短路径方式运动,智能体的运动是有控制量控制;运动控制量/>的具体定义如下:
计算得到的即为智能体i的控制量ui
fi d的作用是让智能体在运动过程中不会内部发生碰撞;fi s的作用是引导智能体从一个区域去往另一个区域,fi d的定义如下
Si={j:||pj-pi||<rc,j=1,2,...,N,j≠i},其中pj和pi代表智能体i和智能体j的位置矢量,d是智能体之间的最小期望距离,ψ是一个非负的势能函数,定义如下:
这里kp是一个常数,fi s的定义如下:
这里ks和kv是常数,是智能体i在时刻t时对应的引导点的位置,vi是智能体i的速度。
4.根据权利要求1所述的一种基于能耗模型的多智能体协同搜索节能方法,其特征在于:所述步骤A8中,将步骤A7中更新得到的si作为目标值网络的输入,由目标值网络输出的新的ai的过程如下:
根据状态si中的位置信息和信息地图,确定该位置信息周围mix,y)为0多个目标位置,即为可行位置;
将动作空间中前往可行位置的动作记为可行动作;
将si分别与每一个可行动作进行组合,并将每一个组合输入到目标值网络中,在目标值网络中采用动作价值函数分别对输入的每一个组合进行评分,得到多个Q值,取其中的最大值,该最大值对应的可行动作即为动作ai
CN202210523068.2A 2022-05-13 2022-05-13 一种基于能耗模型的多智能体协同搜索节能方法 Active CN114764251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210523068.2A CN114764251B (zh) 2022-05-13 2022-05-13 一种基于能耗模型的多智能体协同搜索节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210523068.2A CN114764251B (zh) 2022-05-13 2022-05-13 一种基于能耗模型的多智能体协同搜索节能方法

Publications (2)

Publication Number Publication Date
CN114764251A CN114764251A (zh) 2022-07-19
CN114764251B true CN114764251B (zh) 2023-10-10

Family

ID=82365267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210523068.2A Active CN114764251B (zh) 2022-05-13 2022-05-13 一种基于能耗模型的多智能体协同搜索节能方法

Country Status (1)

Country Link
CN (1) CN114764251B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503454A (zh) * 2014-12-23 2015-04-08 浙江理工大学 基于多智能体理论的搜救机器人系统运动控制方法
CN106488482A (zh) * 2016-09-12 2017-03-08 西安电子科技大学 基于多智能体进化算法的无线传感器网络优化方法
CN108462608A (zh) * 2018-03-26 2018-08-28 西安电子科技大学 基于多智能体进化算法的无线传感器网络寿命优化方法
CN111157002A (zh) * 2019-12-30 2020-05-15 西安电子科技大学 基于多智能体进化算法的飞行器3d路径规划方法
CN111818535A (zh) * 2020-06-05 2020-10-23 温州大学 一种融合多种群优化算法的无线局域网三维优化部署方法
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN113110464A (zh) * 2021-04-22 2021-07-13 集美大学 一种降低能耗的智能全电船路径规划方法
CN113204236A (zh) * 2021-04-14 2021-08-03 华中科技大学 一种智能体路径跟踪控制方法
CN113433967A (zh) * 2021-06-07 2021-09-24 北京邮电大学 一种可充电无人机路径规划方法及系统
CN113673068A (zh) * 2020-05-13 2021-11-19 中国石油化工股份有限公司 稠油油藏气水电热剂综合利用路径规划模型的建立方法
CN113703488A (zh) * 2021-09-24 2021-11-26 江苏师范大学 基于改进蚁群算法的多架次作业植保无人机路径规划方法
CN113848904A (zh) * 2021-09-24 2021-12-28 安徽工程大学 一种基于惩罚能耗优化多移动机器人任务分配的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US11499837B2 (en) * 2018-09-30 2022-11-15 Strong Force Intellectual Capital, Llc Intelligent transportation systems

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503454A (zh) * 2014-12-23 2015-04-08 浙江理工大学 基于多智能体理论的搜救机器人系统运动控制方法
CN106488482A (zh) * 2016-09-12 2017-03-08 西安电子科技大学 基于多智能体进化算法的无线传感器网络优化方法
CN108462608A (zh) * 2018-03-26 2018-08-28 西安电子科技大学 基于多智能体进化算法的无线传感器网络寿命优化方法
CN111157002A (zh) * 2019-12-30 2020-05-15 西安电子科技大学 基于多智能体进化算法的飞行器3d路径规划方法
CN113673068A (zh) * 2020-05-13 2021-11-19 中国石油化工股份有限公司 稠油油藏气水电热剂综合利用路径规划模型的建立方法
CN111818535A (zh) * 2020-06-05 2020-10-23 温州大学 一种融合多种群优化算法的无线局域网三维优化部署方法
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN113204236A (zh) * 2021-04-14 2021-08-03 华中科技大学 一种智能体路径跟踪控制方法
CN113110464A (zh) * 2021-04-22 2021-07-13 集美大学 一种降低能耗的智能全电船路径规划方法
CN113433967A (zh) * 2021-06-07 2021-09-24 北京邮电大学 一种可充电无人机路径规划方法及系统
CN113703488A (zh) * 2021-09-24 2021-11-26 江苏师范大学 基于改进蚁群算法的多架次作业植保无人机路径规划方法
CN113848904A (zh) * 2021-09-24 2021-12-28 安徽工程大学 一种基于惩罚能耗优化多移动机器人任务分配的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bo Li等."Energy-efficient multi-agent cooperative search control based on deep reinforcement learning on uneven terrains".《IEEE ITOEC》.2022,第1384-1388页. *
Nuwan Ganganath等."Multiobjective path planning on uneven terrains based on NAMOA".《2016 IEEE international symposium on circuits and systems(ISCAS)》.2016,第1846-1849页. *
肖剑."基于增强学习的Flocking集群协同控制算法研究".《中国优秀硕士学位论文全文数据库信息科技辑》.2020,第I140-15页. *

Also Published As

Publication number Publication date
CN114764251A (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
Low et al. Solving the optimal path planning of a mobile robot using improved Q-learning
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
Shi et al. Driving decision and control for automated lane change behavior based on deep reinforcement learning
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN114859911A (zh) 一种基于drl的四足机器人路径规划方法
CN114397896A (zh) 一种改进粒子群算法的动态路径规划方法
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN116339316A (zh) 一种基于深度强化学习的深海采矿机器人路径规划方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
Guillen-Perez et al. Learning from Oracle demonstrations—a new approach to develop autonomous intersection management control algorithms based on multiagent deep reinforcement learning
Vazquez et al. Deep interactive motion prediction and planning: Playing games with motion prediction models
CN114764251B (zh) 一种基于能耗模型的多智能体协同搜索节能方法
CN114610024B (zh) 一种用于山地环境下的多智能体协同搜索节能方法
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
CN114740849B (zh) 基于行人步行决策规则的移动机器人自主导航方法及装置
Zhang et al. Target Tracking and Path Planning of Mobile Sensor Based on Deep Reinforcement Learning
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
CN115097814A (zh) 基于改进pso算法的移动机器人路径规划方法、系统及应用
Wang et al. Efficient Reinforcement Learning for Autonomous Ship Collision Avoidance under Learning Experience Reuse
Elallid et al. Vehicles control: Collision avoidance using federated deep reinforcement learning
Moreira Deep Reinforcement Learning for Automated Parking
Elfahim et al. Drone path optimization in complex environment based on Q-learning algorithm
Chen Construction of an Intelligent Robot Path Recognition System Supported by Deep Learning Network Algorithms
Wang Research on Hybrid A* and Genetic Algorithm for Path Planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant