CN113156954B - 一种基于增强学习的多智能体集群避障方法 - Google Patents

一种基于增强学习的多智能体集群避障方法 Download PDF

Info

Publication number
CN113156954B
CN113156954B CN202110447666.1A CN202110447666A CN113156954B CN 113156954 B CN113156954 B CN 113156954B CN 202110447666 A CN202110447666 A CN 202110447666A CN 113156954 B CN113156954 B CN 113156954B
Authority
CN
China
Prior art keywords
cluster
obstacle avoidance
agent
obstacle
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110447666.1A
Other languages
English (en)
Other versions
CN113156954A (zh
Inventor
张瑛
黄治宇
薛玉玺
肖剑
吴磊
高天奇
张钱江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110447666.1A priority Critical patent/CN113156954B/zh
Publication of CN113156954A publication Critical patent/CN113156954A/zh
Application granted granted Critical
Publication of CN113156954B publication Critical patent/CN113156954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0217Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with energy consumption, time reduction or distance reduction criteria
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0289Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于增强学习的多智能体集群避障方法,包括以下步骤:S1.建立集群系统的运动模型;S2.定义避障因子ξ及避障评价准则;S3.设计ξ<ξmin时集群队形变换避障模型Q‑learning训练的状态空间、行为空间和奖励函数;S4.设计
Figure DDA0003037535090000011
时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数;S5:设计智能体行为选择方法;S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障。本发明根据避障因子、避障评价准则等参数用于智能体集群避障模型选择判断,并结合Q‑learning算法将集群自主协同避障模型进行训练,得到最优的集群个体避障策略和高避障效率。

Description

一种基于增强学习的多智能体集群避障方法
技术领域
本发明涉及多智能体避障,特别是涉及一种基于增强学习的多智能体集群避障方法。
背景技术
近年来无人机、无人小车等智能体因其稳定性高、适应性强、风险小等特点得到了快速发展;智能体集群化解决了单个智能体功能性有限的问题,发挥集群优势的同时对智能个体进行了有效的整合。
集群避障一直以来是智能体群体控制的重要模块,大多避障算法在遭遇复杂障碍物环境时容易陷入局部最优值使得智能体无法快速进行障碍物躲避。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于增强学习的多智能体集群避障方法,实现了智能体集群根据当前环境中障碍物情况进行避障判断,并进行队型快速避障。
本发明的目的是通过以下技术方案来实现的:一种基于增强学习的多智能体集群避障方法,包括以下步骤:
S1.建立集群系统的运动模型:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
Figure GDA0003931967160000011
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
Figure GDA0003931967160000012
Figure GDA0003931967160000013
为集群智能体相互避撞的控制输入量,/>
Figure GDA0003931967160000014
为集群智能体向期望位置移动控制量;
Figure GDA0003931967160000015
c为正常数,定义p-agent i与p-agent j之间的势场力如下:
Figure GDA0003931967160000016
其中z为输入量,pi为集群智能体i的位置;
Figure GDA0003931967160000021
/>
dα=||d||σ
Figure GDA0003931967160000022
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
Figure GDA0003931967160000023
其中,h,l为常数
Figure GDA0003931967160000024
函数的设计保证了势场函数的平滑,为了保证范数,微定义σ范数:
Figure GDA0003931967160000025
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
Figure GDA0003931967160000026
式中,
Figure GDA0003931967160000027
为PID算法中的比例与微分控制参数,vi为agent i的速度,pγ为agent i下一时刻的期望位置。
S2.定义避障因子ξ及避障评价准则:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
Figure GDA0003931967160000028
其中,
Figure GDA0003931967160000029
表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队型中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队型的宽度可表示为:
Dq=2D0+(n-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队型中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子
Figure GDA0003931967160000031
其中/>
Figure GDA0003931967160000032
表示所有队型库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队型通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队型变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
Figure GDA0003931967160000041
避障路径代价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和。
(3)避障队型结构差异
集群队型结构差异(Obstacle formation structural difference)描述了集群进行障碍物躲避时每个智能体与原有队型之间的偏差度,该差异代价计算方式如下:
Figure GDA0003931967160000042
其中pstart表示集群当前的队型位置矩阵,pend表示集群进行队型变换之后的位置矩阵。n为集群中智能体的个数。
S3.设计ξ<ξmin时集群队型变换避障模型Q-learning训练的状态空间、行为空间和奖励函数:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Figure GDA0003931967160000043
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2 cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队型变换避障模型的Q-learning奖励函数为:
Figure GDA0003931967160000051
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ123],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队型的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
S4.设计
Figure GDA0003931967160000052
时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数:
S401.当避障因子
Figure GDA0003931967160000053
时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态。定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体与障碍物边缘的距离,θi表示智能体与障碍物的夹角角度,智能体与障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
Figure GDA0003931967160000054
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d11,d22,.........,dkk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
Figure GDA0003931967160000061
其中,ri k表示智能体i在第k次迭代中的奖励值,
Figure GDA0003931967160000062
分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
Figure GDA0003931967160000063
其中,Ds表示集群的障碍物安全避障距离,
Figure GDA0003931967160000064
分别表示计算反馈值中时间代价和路程代价的控制参数。
S5:设计智能体行为选择方法:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
Figure GDA0003931967160000065
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
Figure GDA0003931967160000066
Figure GDA0003931967160000071
其中,Qj k(si,ai)是第j个agent的Q值,agent i的邻居数
Figure GDA0003931967160000072
wj权重定义如下:/>
Figure GDA0003931967160000073
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
Figure GDA0003931967160000074
Figure GDA0003931967160000075
hr(·)是一个阈值函数,定义如下:
Figure GDA0003931967160000076
S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障:
S601.重复S1-S5步骤更新迭代集群中智能体Q值表,直到Q值表收敛;经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择,并通过增强学习训练好的模型来进行避障;
S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物,表述如下
ai'=arg maxQi(si,ai)
si表示智能体当前i时刻状态ai表示智能体当前时刻选择的行为;ai’表示智能体障碍物躲避速度和方向最优策略选择;
S603.根据ai’得到相应的避障行为策略:
Figure GDA0003931967160000077
本发明的有益效果是:本发明根据避障因子、避障评价准则等参数用于智能体集群避障模型选择判断,并结合Q-learning算法将集群自主协同避障模型进行训练,得到最优的集群个体避障策略和高避障效率。
附图说明
图1为本发明的方法流程图;
图2为集群处于最后位置的智能体通过障碍物中心点位置时的避障原理示意图;
图3为智能体离散化角度状态量为极坐标后效果示意图;
图4为智能体在遭遇障碍物时的距离变量示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
本发明根据智能体集群在障碍物环境任务执行过程中避障方面的需要对Flocking协同控制算法和Q-learning算法进行结合,针对复杂障碍物环境提出一种多智能体的自主协同避障方法。在学习过程中不需要借鉴其邻居的历史经验,有助于加快多智能体集群的训练效率,具体地:
如图1所示,一种基于增强学习的多智能体集群避障方法,包括以下步骤:
S1.建立集群系统的运动模型:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
Figure GDA0003931967160000081
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
Figure GDA0003931967160000082
Figure GDA0003931967160000083
为集群智能体相互避撞的控制输入量,/>
Figure GDA0003931967160000084
为集群智能体向期望位置移动控制量;
Figure GDA0003931967160000085
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
Figure GDA0003931967160000086
其中z为输入量,pi为集群智能体i的位置;
Figure GDA0003931967160000087
da=||d||σ
Figure GDA0003931967160000091
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
Figure GDA0003931967160000092
其中,h,l为常数
Figure GDA0003931967160000093
函数的设计保证了势场函数的平滑,为了保证范数,微定义σ范数:
Figure GDA0003931967160000094
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
Figure GDA0003931967160000095
式中,
Figure GDA0003931967160000096
为PID算法中的比例与微分控制参数,vi为agent i的速度,pγ为agent i下一时刻的期望位置。
S2.定义避障因子ξ及避障评价准则:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
Figure GDA0003931967160000097
其中,
Figure GDA0003931967160000098
表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队型中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队型的宽度可表示为:
Dq=2D0+(n-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队型中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子
Figure GDA0003931967160000101
其中/>
Figure GDA0003931967160000102
表示所有队型库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队型通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队型变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
Figure GDA0003931967160000111
避障路径代价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和。
(3)避障队型结构差异
集群队型结构差异(Obstacle formation structural difference)描述了集群进行障碍物躲避时每个智能体与原有队型之间的偏差度,该差异代价计算方式如下:
Figure GDA0003931967160000112
其中pstart表示集群当前的队型位置矩阵,pend表示集群进行队型变换之后的位置矩阵。n为集群中智能体的个数。
S3.设计ξ<ξmin时集群队型变换避障模型Q-learning训练的状态空间、行为空间和奖励函数:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后,根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Figure GDA0003931967160000113
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2 cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.如图2所示,当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队型变换避障模型的Q-learning奖励函数为:
Figure GDA0003931967160000114
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ123],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队型的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
S4.设计
Figure GDA0003931967160000121
时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数:
S401.当避障因子
Figure GDA0003931967160000122
时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态。定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体与障碍物边缘的距离,θi表示智能体与障碍物的夹角角度,智能体与障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
Figure GDA0003931967160000123
智能体离散化角度状态量为极坐标后效果如图3所示;
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;智能体在遭遇障碍物时的距离变量di如图4所示:
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d11,d22,.........,dkk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
Figure GDA0003931967160000131
其中,ri k表示智能体i在第k次迭代中的奖励值,
Figure GDA0003931967160000132
分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
Figure GDA0003931967160000133
其中,Ds表示集群的障碍物安全避障距离,
Figure GDA0003931967160000134
分别表示计算反馈值中时间代价和路程代价的控制参数。
S5:设计智能体行为选择方法:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
Figure GDA0003931967160000135
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
Figure GDA0003931967160000136
Figure GDA0003931967160000141
其中,Qj k(si,ai)是第j个agent的Q值,agent i的邻居数
Figure GDA0003931967160000142
wj权重定义如下:
Figure GDA0003931967160000143
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
Figure GDA0003931967160000144
Figure GDA0003931967160000145
hr(·)是一个阈值函数,定义如下:
Figure GDA0003931967160000146
S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障:
S601.重复S1-S5步骤更新迭代集群中智能体Q值表,直到Q值表收敛;经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择,并通过增强学习训练好的模型来进行避障;
S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物,表述如下
ai'=argmaxQi(si,ai)
si表示智能体当前i时刻状态ai表示智能体当前时刻选择的行为;ai’表示智能体障碍物躲避速度和方向最优策略选择;
S603.根据ai’得到相应的避障行为策略:
Figure GDA0003931967160000147
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种基于增强学习的多智能体集群避障方法,其特征在于:包括以下步骤:
S1.建立集群系统的运动模型;
S2.定义避障因子ξ及避障评价准则;
所述步骤S2包括:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
Figure FDA0003931967150000011
其中,
Figure FDA0003931967150000012
表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队型中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队型的宽度可表示为:
Dq=2D0+(n-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队型中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子
Figure FDA0003931967150000013
其中
Figure FDA0003931967150000014
表示所有队型库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队型通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高;
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队型变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
Figure FDA0003931967150000021
避障路径代价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和;
(3)避障队型结构差异
集群队型结构差异描述集群进行障碍物躲避时每个智能体与原有队型之间的偏差度,该差异代价计算方式如下:
Figure FDA0003931967150000022
其中,pstart表示集群当前的队型位置矩阵,pend表示集群进行队型变换之后的位置矩阵;n为集群中智能体的个数;
S3.设计ξ<ξmin时集群队型变换避障模型Q-learning训练的状态空间、行为空间和奖励函数;
S4.设计
Figure FDA0003931967150000031
时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数;
S5:设计智能体行为选择方法;
S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障。
2.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S1包括:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
Figure FDA0003931967150000032
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
Figure FDA0003931967150000033
Figure FDA0003931967150000034
为集群智能体相互避撞的控制输入量,
Figure FDA0003931967150000035
为集群智能体向期望位置移动控制量;
Figure FDA0003931967150000036
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
Figure FDA0003931967150000037
其中z为输入量,pi为集群智能体i的位置;
Figure FDA0003931967150000038
dα=||d||α
Figure FDA0003931967150000039
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
Figure FDA0003931967150000041
其中,h,l为常数
Figure FDA0003931967150000042
函数的设计保证了势场函数的平滑,为了保证范数,微定义σ范数:
Figure FDA0003931967150000043
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
Figure FDA0003931967150000044
式中,
Figure FDA0003931967150000045
为PID算法中的比例与微分控制参数,vi为agent i的速度,pγ为agent i下一时刻的期望位置。
3.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S3包括:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Figure FDA0003931967150000046
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队型变换避障模型的Q-learning奖励函数为:
Figure FDA0003931967150000051
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ123],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队型的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
4.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S4包括:
S401.当避障因子
Figure FDA0003931967150000052
时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态;定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体与障碍物边缘的距离,θi表示智能体与障碍物的夹角角度,智能体与障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
Figure FDA0003931967150000053
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d11,d22,.........,dkk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
Figure FDA0003931967150000061
其中,ri k表示智能体i在第k次迭代中的奖励值,
Figure FDA0003931967150000062
分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
Figure FDA0003931967150000063
其中,Ds表示集群的障碍物安全避障距离,
Figure FDA0003931967150000064
分别表示计算反馈值中时间代价和路程代价的控制参数。
5.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S5包括:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
Figure FDA0003931967150000065
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
Figure FDA0003931967150000071
Figure FDA0003931967150000072
其中,Qj k(si,ai)是第j个agent的Q值,agent i的邻居数
Figure FDA0003931967150000073
wj权重定义如下:
Figure FDA0003931967150000074
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
Figure FDA0003931967150000075
Figure FDA0003931967150000076
hr(·)是一个阈值函数,定义如下:
Figure FDA0003931967150000077
6.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S6包括:
S601.重复S1-S5步骤更新迭代集群中智能体Q值表,直到Q值表收敛;经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择,并通过增强学习训练好的模型来进行避障;
S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物,表述如下
ai'=argmaxQi(si,ai)
si表示智能体当前i时刻状态,ai表示智能体当前时刻选择的行为;ai’表示智能体障碍物躲避速度和方向最优策略选择;
S603.根据ai’得到相应的避障行为策略:
Figure FDA0003931967150000078
CN202110447666.1A 2021-04-25 2021-04-25 一种基于增强学习的多智能体集群避障方法 Active CN113156954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110447666.1A CN113156954B (zh) 2021-04-25 2021-04-25 一种基于增强学习的多智能体集群避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110447666.1A CN113156954B (zh) 2021-04-25 2021-04-25 一种基于增强学习的多智能体集群避障方法

Publications (2)

Publication Number Publication Date
CN113156954A CN113156954A (zh) 2021-07-23
CN113156954B true CN113156954B (zh) 2023-03-24

Family

ID=76870370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110447666.1A Active CN113156954B (zh) 2021-04-25 2021-04-25 一种基于增强学习的多智能体集群避障方法

Country Status (1)

Country Link
CN (1) CN113156954B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326749B (zh) * 2022-01-11 2023-10-13 电子科技大学长三角研究院(衢州) 一种基于Deep Q-Learning的集群区域覆盖方法
CN114610024B (zh) * 2022-02-25 2023-06-02 电子科技大学 一种用于山地环境下的多智能体协同搜索节能方法
CN114815820B (zh) * 2022-04-18 2023-10-03 电子科技大学 一种基于自适应滤波的智能体小车线性路径规划方法
CN115019185B (zh) * 2022-08-03 2022-10-21 华中科技大学 类脑连续学习协同围捕方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346391B1 (en) * 2006-12-28 2013-01-01 Science Applications International Corporation Methods and systems for an autonomous robotic platform
EP3757875A1 (en) * 2018-11-30 2020-12-30 Baidu Online Network Technology (Beijing) Co., Ltd. Obstacle avoidance method and device used for driverless vehicle
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776483B (zh) * 2018-08-16 2021-06-29 圆通速递有限公司 基于蚁群算法和多智能体q学习的agv路径规划方法和系统
WO2020079702A1 (en) * 2018-10-18 2020-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Formation flight of unmanned aerial vehicles
CN109976340B (zh) * 2019-03-19 2022-02-08 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
CN110007688B (zh) * 2019-04-25 2021-06-01 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN111880564A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于协同增强学习的多智能体区域搜索方法
CN111880565A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于Q-Learning的集群协同对抗方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346391B1 (en) * 2006-12-28 2013-01-01 Science Applications International Corporation Methods and systems for an autonomous robotic platform
EP3757875A1 (en) * 2018-11-30 2020-12-30 Baidu Online Network Technology (Beijing) Co., Ltd. Obstacle avoidance method and device used for driverless vehicle
CN112241176A (zh) * 2020-10-16 2021-01-19 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Also Published As

Publication number Publication date
CN113156954A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113156954B (zh) 一种基于增强学习的多智能体集群避障方法
CN112904842B (zh) 一种基于代价势场的移动机器人路径规划与优化方法
WO2022241808A1 (zh) 一种多机器人轨迹规划方法
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN109508035B (zh) 基于分布式控制的多区域分级式无人机编队路径规划方法
KR101339480B1 (ko) Rrt 기반의 듀얼 트리 구조를 이용한 이동 로봇의 궤적 계획 방법
Zhang et al. Receding horizon control for multi-UAVs close formation control based on differential evolution
CN111882047B (zh) 一种基于强化学习与线性规划的快速空管防冲突方法
CN110413005A (zh) 一种基于逆推法的多无人机协同航迹规划方法
CN115509251A (zh) 基于mappo算法的多无人机多目标协同跟踪控制方法
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN108020226A (zh) 一种固定翼无人机自主避障的航迹规划方法
CN113759935B (zh) 基于模糊逻辑的智能群体编队移动控制方法
CN106647264A (zh) 一种基于控制约束的扩展鲁棒h∞的无人机控制方法
Zhang et al. Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
CN114637312A (zh) 一种基于智能变形决策的无人机节能飞行控制方法及系统
Xiang-Yin et al. Differential evolution-based receding horizon control design for multi-UAVs formation reconfiguration
Yang et al. Path planning and collision avoidance methods for distributed multi-robot systems in complex dynamic environments
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法
CN116841298A (zh) 适用于四轮移动机器人变道预警的有限时间跟踪控制方法
CN114815878B (zh) 基于实时优化和深度学习的高超声速飞行器协同制导方法
CN115079569A (zh) 一种基于天牛须搜索算法的agv非线性自抗扰控制方法
CN111596668B (zh) 基于逆向强化学习的移动机器人拟人化路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant