CN114610024B - 一种用于山地环境下的多智能体协同搜索节能方法 - Google Patents

一种用于山地环境下的多智能体协同搜索节能方法 Download PDF

Info

Publication number
CN114610024B
CN114610024B CN202210177844.8A CN202210177844A CN114610024B CN 114610024 B CN114610024 B CN 114610024B CN 202210177844 A CN202210177844 A CN 202210177844A CN 114610024 B CN114610024 B CN 114610024B
Authority
CN
China
Prior art keywords
agent
gamma
force
reinforcement learning
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210177844.8A
Other languages
English (en)
Other versions
CN114610024A (zh
Inventor
李博
张红雨
韦旭东
吴磊
钟山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210177844.8A priority Critical patent/CN114610024B/zh
Publication of CN114610024A publication Critical patent/CN114610024A/zh
Application granted granted Critical
Publication of CN114610024B publication Critical patent/CN114610024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种用于山地环境下的多智能体协同搜索节能方法,包括以下步骤:S1.确定智能体的特性参数;S2.进行导航目标选择,获得下一个要遍历的目标位置;S3.构建运动学模型,控制智能体从当前位置运动到目标位置。本发明通过深度强化学习选择导航目标点,并鼓励智能体沿等高线方向在导航目标点之间移动,通过深度强化学习模型,智能体可以自己进行学习,选择最优路径以减少重复覆盖和能量消耗。

Description

一种用于山地环境下的多智能体协同搜索节能方法
技术领域
本发明涉及多智能体协同搜索,特别是涉及一种用于山地环境下的多智能体协同搜索节能方法。
背景技术
利用多智能体搜索感兴趣区域的算法已经比较成熟。多智能体主要被用于搜索不平坦的地形,但现有的搜索算法都是针对平坦地形设计的,因此多智能体在导航目标之间的移动往往采用最短路径方式移动。在不平坦的地形上使用最短路径移动会消耗更多的能量。目前智能体基本是使用便携式能源供电,如果智能体移动过程中消耗的能量过多,可能会导致不能完成搜索任务。
发明内容
本发明的目的在于克服现有技术的不足,提供一种用于山地环境下的多智能体协同搜索节能方法,通过深度强化学习选择导航目标点,并鼓励智能体沿等高线方向在导航目标点之间移动,通过深度强化学习模型,智能体可以自己进行学习,选择最优路径以减少重复覆盖和能量消耗。
本发明的目的是通过以下技术方案来实现的:一种用于山地环境下的多智能体协同搜索节能方法,包括以下步骤:
S1.确定智能体的特性参数;
S2.进行导航目标选择,获得下一个要遍历的目标位置;
S3.构建运动学模型,控制智能体从当前位置运动到目标位置。
所述步骤S1智能体的特性参数包括智能体的数量为N、智能体的搜索半径rs以及智能体之间的通信半径为rc;其中rs>0,rc>2rs
步骤S2中所述的导航目标选择,包括信息地图引入和深度强化学习。所述信息地图引入过程包括:
考虑到智能体由于功率约束,所能克服的最大倾角有限,假设能克服的最大倾角为60度,遍历的区域在x-y平面的投影为m*n的矩形,将该区域划分成k*l个小矩形区域,k和l的定义如下:
Figure BDA0003521050630000011
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图Mi(γ)存储着其区域覆盖的历史信息,表示为Mi(γ)=γx,y(x,y=1,2,...,m),其值为0或1:若智能体i没有遍历过引导点γ所在位置,则记mi(γ)=0,否则记mi(γ)=1,如果智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)).
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据。
所述深度强化学习过程包括:
针对山地的搜索遍历,引入信息地图之后,就转换为遍历完整个信息地图的γ点;为了提高遍历效率,减少重覆盖,采用深度强化学习,让智能体自己去选择下一个最优的γ点进行遍历;所述深度强化学习就是让智能体与外界环境进行交互,智能体通过采取行为改变自身状态并获得一定奖励,经过网络的训练之会得到一个深度强化学习模型;
深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励,让智能体最终选择奖励最大的行为,深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型;
深度强化学习的目的是为了让智能体自己选择如何遍历γ点,这里γ点是被投影到了x-y平面,智能体看成是在二维空间对γ点进行遍历;将智能体有9种运动状态:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}
在遍历过程中,为了实现更少的能量消耗,最重要的是避免区域重复覆盖,减少不必要的能量消耗;因此,本算法的奖惩函数如下:
Figure BDA0003521050630000021
其中γ1是智能体-i选择的下一个遍历点,由奖惩函数得到,当智能体以垂直或水平方式遍历γ1,且γ1未被遍历过时,则奖励为1;如果智能体通过对角线的方式遍历γ1,而γ1点没有被遍历时,那么它的奖励为0;
相对于垂直或水平的方式,走对角线会导致更多的重复覆盖和消耗更多的能量,所以使用垂直或水平的方式移动智能体;如果γ1已经被遍历过,则给奖励-1作为惩罚,这表明算法更倾向智能体在未被遍历过的区域行走;深度强化学习的状态是信息地图网格化后的图像,因此图像的特征相对较少。智能体会根据深度强化学习训练模型,自动得到下一个最优的导航目标点。
所述步骤S3中,设从当前点γ0到下一个点γ1之间的控制量ui,由运动控制量ui α和地形适应力ui v组成;这里ui α是引导智能体从γ0移动到γ1,ui v是使智能体尽量沿等高线方向移动,从而减少能量消耗,包括:
S301.构建运动控制量ui α
运动控制量ui α的具体定义如下:
ui α=fi d+fi s.
fi d的作用是让智能体在运动过程中不会内部发生碰撞,fi s的作用是引导智能体从一个区域去往另一个区域,fi d的定义如下
Figure BDA0003521050630000031
其中Si={j:||qj-qi||<rc,j=1,2,...,N,j≠i},qj和qi代表智能体i和智能体j的位置矢量;d是智能体之间的最小期望距离,ψ是一个非负的势能函数,定义如下:
Figure BDA0003521050630000032
kp是一个常数;
fi s的定义如下:
Figure BDA0003521050630000033
ks和kv是常数,ri是智能体i在此时的导航位置。
S302.构建地形适应力ui v
通过施加一个地形适应力来阻止垂直于等高线的运动,即通过这个力让智能体的加速度方向尽量贴近等高线:
使用h(x,y)作为点(x,y)的高度,那么点(x,y)的梯度我们用g(x,y)表示,具体如下
Figure BDA0003521050630000034
g(x,y)的方向是山地坡度最大的方向,||g(x,y)||表示梯度的大小;
假设智能体i在某一时刻t的位置矢量和速度矢量在x-y平面的投影分别为pi和vi那么力ui v表示为:
Figure BDA0003521050630000041
其中vi·g(pi)表示速度vi在梯度g方向上的投影,力ui v的方向是负梯度的方向,这个力和等高线是垂直的;
当智能体沿登高线运动的时候vi·g(pi)的内积为0,那么这个力就不起作用,大小为0,如果智能体没有沿等高线运动而是偏向梯度方向运动时,那么根据平行四边形法则加上一个负梯度方向的力,就能将智能体沿等高线引导;其中k是一个常数,注意当处于山地的山顶或者谷底时||g(x,y)||的大小为0,这时候将力ui v的大小设置为0;当智能体以及沿等高线运动的时候力ui v就为0,如果智能体偏离了等高线运动,力ui v就被激活,然后将智能体往等高线引导。其中,运动控制量ui α是一个引导智能体向目标位置运动的一个力,地形适应力ui v是引导智能体沿等高线方向运动的一个力;两个力的合力控制了智能体的最终运动。
本发明的有益效果是:引入一种地形适应力,以鼓励智能体沿地形等高线运动;并通过深度强化学习模型,智能体可以自己进行学习,选择最优路径以减少重复覆盖和能量消耗。
附图说明
图1为本发明的方法流程图;
图2为实施例中的网络模型示意图;
图3为DQN模型的原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种用于山地环境下的多智能体协同搜索节能方法,包括以下步骤:
S1.确定智能体的特性参数;
所述步骤S1智能体的特性参数包括智能体的数量为N、智能体的搜索半径rs以及智能体之间的通信半径为rc;其中rs>0,rc>2rs
S2.进行导航目标选择,获得下一个要遍历的目标位置;
为了提高遍历效率,本算法引入信息地图。它将我们要遍历的区域进行网格化,然后再利用深度强化学习引导智能体去遍历信息地图的网格,这样达到将整个区域都遍历完的目的。;步骤S2中所述的导航目标选择,包括信息地图引入和深度强化学习。所述信息地图引入过程包括:
考虑到智能体由于功率约束,所能克服的最大倾角有限,假设能克服的最大倾角为60度,遍历的区域在x-y平面的投影为m*n的矩形,将该区域划分成k*l个小矩形区域,k和l的定义如下:
Figure BDA0003521050630000051
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图Mi(γ)存储着其区域覆盖的历史信息,表示为Mi(γ)=γx,y(x,y=1,2,...,m),其值为0或1:若智能体i没有遍历过引导点γ所在位置,则记mi(γ)=0,否则记mi(γ)=1,如果智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)).
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据。
所述深度强化学习过程包括:
针对山地的搜索遍历,引入信息地图之后,就转换为遍历完整个信息地图的γ点;为了提高遍历效率,减少重覆盖,采用深度强化学习,让智能体自己去选择下一个最优的γ点进行遍历;所述深度强化学习就是让智能体与外界环境进行交互,智能体通过采取行为改变自身状态并获得一定奖励,经过网络的训练之会得到一个深度强化学习模型;
深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励,让智能体最终选择奖励最大的行为,深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型;
在本申请的实施例中,深度强化学习主要由四部分构成,分别是需要遍历的外界环境、经验回放池、深度神经网络和值拟合的Q-learning;本专利的DQN模型如图3所示:
图3中的s表示智能体的当前状态,a表示智能体的当前行为,s′表示智能体在状态s下采取了行为a后的状态,a′表示s′状态下的可选行为,r表示智能体选取了行为a后得到的奖励,学习过程如下:
1、将环境信息s输入到当前值网络,输出为action的Q值,选择最大Q值对应的action,或者随机生成一个action(所谓的探索),将action输入环境,得到奖励r和下一个环境信息s’,存储当前环境s,选择的action,得到的奖励r这4个信息,然后再将s’输入到当前网络,循环步骤1,直到存储了一定量的[(s,a,r,s’),…],这个过程中当前网络没有更新。
2、从存储的[(s,a,r,s’),…]中sample出一部分(s,a,r,s’),将sample出来的多个s做为batch输入到当前网络,得到batch的action的Q值Q(s,a)。
3、将sample出来的多个s’做为batch输入到目标值网络(当前值网络与目标值网络有相同的网络结构),得到batch的action的Q值q_next,取q_next中最大的Q值(dim=1)并乘以一个系数λ,然后再加上sample出来的奖励r,得到q_target=r+λmax(s’,a’)。
4、计算loss:loss为第2步的结果Q(s,a)与第3步的结果q_target的MSE,然后根据loss反向传播更新当前值网络。
5、循环1到4步骤,每过一定的步数后,将当前值网络的权重更新到目标值网络上。
深度强化学习的目的是为了让智能体自己选择如何遍历γ点,这里γ点是被投影到了x-y平面,智能体看成是在二维空间对γ点进行遍历;将智能体有9种运动状态:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}
在遍历过程中,为了实现更少的能量消耗,最重要的是避免区域重复覆盖,减少不必要的能量消耗;因此,本算法的奖惩函数如下:
Figure BDA0003521050630000061
其中γ1是智能体-i选择的下一个遍历点,由奖惩函数得到,当智能体以垂直或水平方式遍历γ1,且γ1未被遍历过时,则奖励为1;如果智能体通过对角线的方式遍历γ1,而γ1点没有被遍历时,那么它的奖励为0;
相对于垂直或水平的方式,走对角线会导致更多的重复覆盖和消耗更多的能量,所以使用垂直或水平的方式移动智能体;如果γ1已经被遍历过,则给奖励-1作为惩罚,这表明算法更倾向智能体在未被遍历过的区域行走;深度强化学习的状态是信息地图网格化后的图像,因此图像的特征相对较少,智能体会根据深度强化学习训练模型,自动得到下一个最优的导航目标点。
状态图像的每一个特征信息都很重要,所以本算法中采用了四层卷积层加一层池化层的网络模型,卷积核的尺寸设置为3或1,具体如图2所示;
S3.构建运动学模型,控制智能体从当前位置运动到目标位置。
所述步骤S3中,设从当前点γ0到下一个点γ1之间的控制量ui,由运动控制量ui α和地形适应力ui v组成;这里ui α是引导智能体从γ0移动到γ1,ui v是使智能体尽量沿等高线方向移动,从而减少能量消耗,包括:
S301.构建运动控制量ui α
运动控制量ui α的具体定义如下:
ui α=fi d+fi s.
fi d的作用是让智能体在运动过程中不会内部发生碰撞,fi s的作用是引导智能体从一个区域去往另一个区域,fi d的定义如下
Figure BDA0003521050630000071
其中Si={j:||qj-qi||<rc,j=1,2,...,N,j≠i},qj和qi代表智能体i和智能体j的位置矢量;d是智能体之间的最小期望距离,ψ是一个非负的势能函数,定义如下:
Figure BDA0003521050630000072
kp是一个常数;
fi s的定义如下:
Figure BDA0003521050630000073
ks和kv是常数,ri是智能体i在此时的导航位置。
S302.构建地形适应力ui v
为了让从一个点到另一个点之间的能耗更低,通常是让智能体沿等高线行走。通过施加一个地形适应力来阻止垂直于等高线的运动,即通过这个力让智能体的加速度方向尽量贴近等高线:
使用h(x,y)作为点(x,y)的高度,那么点(x,y)的梯度我们用g(x,y)表示,具体如下
Figure BDA0003521050630000074
g(x,y)的方向是山地坡度最大的方向,||g(x,y)||表示梯度的大小;
假设智能体i在某一时刻t的位置矢量和速度矢量在x-y平面的投影分别为pi和vi那么力ui v表示为:
Figure BDA0003521050630000081
其中vi·g(pi)表示速度vi在梯度g方向上的投影,力ui v的方向是负梯度的方向,这个力和等高线是垂直的;
当智能体沿登高线运动的时候vi·g(pi)的内积为0,那么这个力就不起作用,大小为0,如果智能体没有沿等高线运动而是偏向梯度方向运动时,那么根据平行四边形法则加上一个负梯度方向的力,就能将智能体沿等高线引导;其中k是一个常数,注意当处于山地的山顶或者谷底时||g(x,y)||的大小为0,这时候将力ui v的大小设置为0;当智能体以及沿等高线运动的时候力ui v就为0,如果智能体偏离了等高线运动,力ui v就被激活,然后将智能体往等高线引导。其中,运动控制量ui α是一个引导智能体向目标位置运动的一个力,地形适应力ui v是引导智能体沿等高线方向运动的一个力;两个力的合力控制了智能体的最终运动。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (1)

1.一种用于山地环境下的多智能体协同搜索节能方法,其特征在于:包括以下步骤:
S1.确定智能体的特性参数;
所述步骤S1智能体的特性参数包括智能体的数量为N、智能体的搜索半径rs以及智能体之间的通信半径为rc;其中rs>0,rc>2rs
S2.进行导航目标选择,获得下一个要遍历的目标位置;
步骤S2中所述的导航目标选择,包括信息地图引入和深度强化学习:
所述信息地图引入过程包括:
考虑到智能体由于功率约束,所能克服的最大倾角有限,假设能克服的最大倾角为60度,遍历的区域在x-y平面的投影为m*n的矩形,将该区域划分成k*l个小矩形区域,k和l的定义如下:
Figure FDA0004164716510000011
将矩形的中心点看做是一个引导点γx,y坐标用(x,y)表示;整个搜索区域就看作是记录所有引导点γ的一张信息地图;
智能体i的信息地图Mi(γ)存储着其区域覆盖的历史信息,表示为Mi(γ)=γx,y(x,y=1,2,...,m),其值为0或1:若智能体i没有遍历过引导点γ所在位置,则记mi(γ)=0,否则记mi(γ)=1,如果智能体之间的距离小于智能体之间的通信半径rc,那么它们会进行信息交互,更新彼此的信息地图更新公式如下:
mix,y)=max(msx,y)).
ms(γ(x,y))表示通信范围内其他智能体的信息地图数据;
所述深度强化学习过程包括:
针对山地的搜索遍历,引入信息地图之后,就转换为遍历完整个信息地图的γ点;为了提高遍历效率,减少重覆盖,采用深度强化学习,让智能体自己去选择下一个最优的γ点进行遍历;所述深度强化学习就是让智能体与外界环境进行交互,智能体通过采取行为改变自身状态并获得一定奖励,经过网络的训练之会得到一个深度强化学习模型;
深度强化学习模型会根据智能体选择的这个行为的正确性给一个奖励,让智能体最终选择奖励最大的行为,深度强化学习里面最重要的就是动作空间、奖惩函数和网络模型;
深度强化学习的目的是为了让智能体自己选择如何遍历γ点,这里γ点是被投影到了x-y平面,智能体看成是在二维空间对γ点进行遍历;将智能体有9种运动状态:上、下、左、右、左上、左下、右上、右下、停止;这九项行动构成智能体的向动作空间,使用数字1到9来对应不同的动作,所以动作空间定义如下:
A={1:上,2:下,3:左,4:右,5:左上,6:左下,7:右上,8:右下,9:停止}
在遍历过程中,为了实现更少的能量消耗,最重要的是避免区域重复覆盖,减少不必要的能量消耗;因此,本算法的奖惩函数如下:
Figure FDA0004164716510000021
其中γ1是智能体-i选择的下一个遍历点,由奖惩函数得到,当智能体以垂直或水平方式遍历γ1,且γ1未被遍历过时,则奖励为1;如果智能体通过对角线的方式遍历γ1,而γ1点没有被遍历时,那么它的奖励为0;
相对于垂直或水平的方式,走对角线会导致更多的重复覆盖和消耗更多的能量,所以使用垂直或水平的方式移动智能体;如果γ1已经被遍历过,则给奖励-1作为惩罚,这表明算法更倾向智能体在未被遍历过的区域行走;深度强化学习的状态是信息地图网格化后的图像,因此图像的特征相对较少;智能体会根据深度强化学习训练模型,自动得到下一个最优的导航目标点;
S3.构建运动学模型,控制智能体从当前位置运动到目标位置;
所述步骤S3中,设从当前点γ0到下一个点γ1之间的控制量ui,由运动控制量ui α和地形适应力ui v组成;这里ui α是引导智能体从γ0移动到γ1,ui v是使智能体尽量沿等高线方向移动,从而减少能量消耗,包括:
S301.构建运动控制量ui α
运动控制量ui α的具体定义如下:
ui α=fi d+fi s.
fi d的作用是让智能体在运动过程中不会内部发生碰撞,fi s的作用是引导智能体从一个区域去往另一个区域,fi d的定义如下
Figure FDA0004164716510000022
其中Si={j:||qj-qi||<rc,j=1,2,...,N,j≠i},qj和qi代表智能体i和智能体j的位置矢量;d是智能体之间的最小期望距离,ψ是一个非负的势能函数,定义如下:
Figure FDA0004164716510000031
kp是一个常数;
fi s的定义如下:
Figure FDA0004164716510000032
ks和kv是常数,ri是智能体i在此时的导航位置;
S302.构建地形适应力ui v
通过施加一个地形适应力来阻止垂直于等高线的运动,即通过这个力让智能体的加速度方向尽量贴近等高线:
使用h(x,y)作为点(x,y)的高度,那么点(x,y)的梯度我们用g(x,y)表示,具体如下
Figure FDA0004164716510000033
g(x,y)的方向是山地坡度最大的方向,||g(x,y)||表示梯度的大小;
假设智能体i在某一时刻t的位置矢量和速度矢量在x-y平面的投影分别为pi和vi那么力ui v表示为:
Figure FDA0004164716510000034
其中vi·g(pi)表示速度vi在梯度g方向上的投影,力ui v的方向是负梯度的方向,这个力和等高线是垂直的;
当智能体沿登高线运动的时候vi·g(pi)的内积为0,那么这个力就不起作用,大小为0,如果智能体没有沿等高线运动而是偏向梯度方向运动时,那么根据平行四边形法则加上一个负梯度方向的力,就能将智能体沿等高线引导;其中k是一个常数,注意当处于山地的山顶或者谷底时||g(x,y)||的大小为0,这时候将力ui v的大小设置为0;当智能体以及沿等高线运动的时候力ui v就为0,如果智能体偏离了等高线运动,力ui v就被激活,然后将智能体往等高线引导;其中,运动控制量ui α是一个引导智能体向目标位置运动的一个力,地形适应力ui v是引导智能体沿等高线方向运动的一个力;两个力的合力控制了智能体的最终运动。
CN202210177844.8A 2022-02-25 2022-02-25 一种用于山地环境下的多智能体协同搜索节能方法 Active CN114610024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210177844.8A CN114610024B (zh) 2022-02-25 2022-02-25 一种用于山地环境下的多智能体协同搜索节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210177844.8A CN114610024B (zh) 2022-02-25 2022-02-25 一种用于山地环境下的多智能体协同搜索节能方法

Publications (2)

Publication Number Publication Date
CN114610024A CN114610024A (zh) 2022-06-10
CN114610024B true CN114610024B (zh) 2023-06-02

Family

ID=81858697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210177844.8A Active CN114610024B (zh) 2022-02-25 2022-02-25 一种用于山地环境下的多智能体协同搜索节能方法

Country Status (1)

Country Link
CN (1) CN114610024B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792133B (zh) * 2022-06-23 2022-09-27 中国科学院自动化研究所 基于多智能体协作系统的深度强化学习方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005142A2 (en) * 2000-07-10 2002-01-17 Hrl Laboratories, Llc Method and apparatus for terrain reasoning with distributed embedded processing elements
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113239211A (zh) * 2021-06-17 2021-08-10 电子科技大学 一种基于课程学习的强化学习知识图谱推理方法
CN113741454A (zh) * 2021-08-31 2021-12-03 浙江大学 一种基于搜索的多智能体路径规划方法及系统
CN113741444A (zh) * 2021-08-26 2021-12-03 北京理工大学 一种基于多智能体邻近交互与轨迹预测的路径规划方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11294891B2 (en) * 2019-04-25 2022-04-05 Adobe Inc. Interactive search experience using machine learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005142A2 (en) * 2000-07-10 2002-01-17 Hrl Laboratories, Llc Method and apparatus for terrain reasoning with distributed embedded processing elements
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113239211A (zh) * 2021-06-17 2021-08-10 电子科技大学 一种基于课程学习的强化学习知识图谱推理方法
CN113741444A (zh) * 2021-08-26 2021-12-03 北京理工大学 一种基于多智能体邻近交互与轨迹预测的路径规划方法
CN113741454A (zh) * 2021-08-31 2021-12-03 浙江大学 一种基于搜索的多智能体路径规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Finding energy-efficient paths on uneven terrains;Ganganath N 等;IEEE;全文 *

Also Published As

Publication number Publication date
CN114610024A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN112230678B (zh) 基于粒子群算法的三维无人机路径规划方法及规划系统
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
WO2016045615A1 (zh) 机器人静态路径规划方法
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
CN107300925A (zh) 基于改进鱼群算法的四旋翼无人机姿控参数整定方法
CN116804879B (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN113848919A (zh) 一种基于蚁群算法的室内agv路径规划方法
CN112033410A (zh) 移动机器人环境地图构建方法、系统及存储介质
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN114625151A (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN110849355B (zh) 一种地磁多参量多目标快速收敛的仿生导航方法
CN114610024B (zh) 一种用于山地环境下的多智能体协同搜索节能方法
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
CN115540869A (zh) 一种基于改进灰狼算法的无人机3d路径规划方法
CN110530373A (zh) 一种机器人路径规划方法、控制器及系统
CN116088576A (zh) 一种基于改进鲸鱼算法的无人机三维路径规划方法
CN115903888A (zh) 一种基于天牛群算法的旋翼无人机自主路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116501069A (zh) 一种基于多智能体强化学习的水面无人集群航路规划方法
CN115344046A (zh) 一种基于改进深度q网络算法的移动机器人路径规划
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN115167419B (zh) 一种基于dqn算法的机器人路径规划方法
CN113741416B (zh) 基于改进捕食者猎物模型和dmpc的多机器人全覆盖路径规划方法
CN115016499A (zh) 一种基于sca-ql的路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant