CN113156954A - 一种基于增强学习的多智能体集群避障方法 - Google Patents
一种基于增强学习的多智能体集群避障方法 Download PDFInfo
- Publication number
- CN113156954A CN113156954A CN202110447666.1A CN202110447666A CN113156954A CN 113156954 A CN113156954 A CN 113156954A CN 202110447666 A CN202110447666 A CN 202110447666A CN 113156954 A CN113156954 A CN 113156954A
- Authority
- CN
- China
- Prior art keywords
- cluster
- obstacle avoidance
- agent
- obstacle
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000006399 behavior Effects 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 108010074864 Factor XI Proteins 0.000 claims abstract description 10
- 238000013461 design Methods 0.000 claims abstract description 7
- 238000010187 selection method Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 53
- 230000009466 transformation Effects 0.000 claims description 29
- 230000004888 barrier function Effects 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012856 packing Methods 0.000 claims description 6
- 230000008602 contraction Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 241000970807 Thermoanaerobacterales Species 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 238000005381 potential energy Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0217—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with energy consumption, time reduction or distance reduction criteria
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0289—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling with means for avoiding collisions between vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
Description
技术领域
本发明涉及多智能体避障,特别是涉及一种基于增强学习的多智能体集群避障方法。
背景技术
近年来无人机、无人小车等智能体因其稳定性高、适应性强、风险小等特点得到了快速发展;智能体集群化解决了单个智能体功能性有限的问题,发挥集群优势的同时对智能个体进行了有效的整合。
集群避障一直以来是智能体群体控制的重要模块,大多避障算法在遭遇复杂障碍物环境时容易陷入局部最优值使得智能体无法快速进行障碍物躲避。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于增强学习的多智能体集群避障方法,实现了智能体集群根据当前环境中障碍物情况进行避障判断,并进行队形快速避障。
本发明的目的是通过以下技术方案来实现的:一种基于增强学习的多智能体集群避障方法,包括以下步骤:
S1.建立集群系统的运动模型:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
dα=||d||σ
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
S2.定义避障因子ξ及避障评价准则:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
其中,表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队形中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队形的宽度可表示为:
Dq=2D0+(Sque-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队形中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子其中表示所有队形库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队形通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,该评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队形变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
该评价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和。
(3)避障队形结构差异
集群队形结构差异(Obstacle formation structural difference)描述了集群进行障碍物躲避时每个智能体与原有队形之间的偏差度,该差异代价计算方式如下:
其中pstart表示集群当前的队形位置矩阵,pend表示集群进行队形变换之后的位置矩阵。n为集群中智能体的个数。
S3.设计ξ<ξmin时集群队形变换避障模型Q-learning训练的状态空间、行为空间和奖励函数:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队形变换避障模型的Q-learning回报函数为:
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ1,σ2,σ3],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队形的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
S401.当避障因子时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态。定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体于障碍物边缘的距离,θi表示智能体于障碍物的夹角角度,智能体于障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d1,θ1,d2,θ2,.........,dk,θk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
其中,ri k表示智能体i在第k次迭代中的奖励值,分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
S5:设计智能体行为选择方法:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
hr(·)是一个阈值函数,定义如下:
S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障:
S601.重复S1-S5步骤更新迭代集群中智能体Q值表,直到Q值表收敛;经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择,并通过增强学习训练好的模型来进行避障;
S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物,表述如下
ai'=argmaxQi(si,ai)
si表示智能体当前i时刻状态ai表示智能体当前时刻选择的行为;ai’表示智能体障碍物躲避速度和方向最优策略选择;
S603.根据ai’得到相应的避障行为策略:
本发明的有益效果是:本发明根据避障因子、避障评价准则等参数用于智能体集群避障模型选择判断,并结合Q-learning算法将集群自主协同避障模型进行训练,得到最优的集群个体避障策略和高避障效率。
附图说明
图1为本发明的方法流程图;
图2为集群处于最后位置的智能体通过障碍物中心点位置时的避障原理示意图;
图3为智能体离散化角度状态量为极坐标后效果示意图;
图4为智能体在遭遇障碍物时的距离变量示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
本发明根据智能体集群在障碍物环境任务执行过程中避障方面的需要对Flocking协同控制算法和Q-learning算法进行结合,针对复杂障碍物环境提出一种多智能体的自主协同避障方法。在学习过程中不需要借鉴其邻居的历史经验,有助于加快多智能体集群的训练效率,具体地:
如图1所示,一种基于增强学习的多智能体集群避障方法,包括以下步骤:
S1.建立集群系统的运动模型:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
dα=||d||σ
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
S2.定义避障因子ξ及避障评价准则:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
其中,表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队形中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队形的宽度可表示为:
Dq=2D0+(Sque-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队形中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子其中表示所有队形库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队形通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,该评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队形变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
该评价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和。
(3)避障队形结构差异
集群队形结构差异(Obstacle formation structural difference)描述了集群进行障碍物躲避时每个智能体与原有队形之间的偏差度,该差异代价计算方式如下:
其中pstart表示集群当前的队形位置矩阵,pend表示集群进行队形变换之后的位置矩阵。n为集群中智能体的个数。
S3.设计ξ<ξmin时集群队形变换避障模型Q-learning训练的状态空间、行为空间和奖励函数:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后,根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.如图2所示,当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队形变换避障模型的Q-learning回报函数为:
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ1,σ2,σ3],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队形的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
S401.当避障因子时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态。定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体于障碍物边缘的距离,θi表示智能体于障碍物的夹角角度,智能体于障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
智能体离散化角度状态量为极坐标后效果如图3所示;
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;智能体在遭遇障碍物时的距离变量di如图4所示:
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d1,θ1,d2,θ2,.........,dk,θk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
其中,ri k表示智能体i在第k次迭代中的奖励值,分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
S5:设计智能体行为选择方法:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
hr(·)是一个阈值函数,定义如下:
S6.获取训练得到的Q值表,基于S1中定义的运动模型进行集群自主协同避障:
S601.重复S1-S5步骤更新迭代集群中智能体Q值表,直到Q值表收敛;经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择,并通过增强学习训练好的模型来进行避障;
S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物,表述如下
ai'=argmaxQi(si,ai)
si表示智能体当前i时刻状态ai表示智能体当前时刻选择的行为;ai’表示智能体障碍物躲避速度和方向最优策略选择;
S603.根据ai’得到相应的避障行为策略:
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (7)
2.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S1包括:
基于Flocking集群控制算法,假设集群V中包含p个智能体,V={1,2....p},集群中第i个智能体定义为agent i,其动力学模型表述成下列式子:
其中pi为智能体agent i的位置,vi为智能体agent i的速度,ui为智能体agent i的加速度,ui为集群智能体的控制输入量;
在运动过程中,集群每个agent i的控制输入量表示为:
csα为正常数,定义p-agent i与p-agent j之间的势场力如下:
其中z为输入量,pi为集群智能体i的位置;
dα=||d||σ
其中rα集群智能体之间通信距离,σ1,a,b,c为自定义参数;
式中,∈为自定义参数;
集群智能体向期望位置移动控制量如下式:
3.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S2包括:
S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系,用符号ξ来表示:
其中,表示集群探测范围内第i个障碍物的位置,ragent为智能体的半径,Dobs表示障碍物之间的间距,dg表示队形中智能体之间的间距,在不同的队型下整个集群拥有不同的避障因子,且每个队型有一个对应的避障因子最小值记作ξmin,Dq为集群队形的宽度可表示为:
Dq=2D0+(Sque-1)dg+2ragent
D0为一个常数,表示最小避障物距离,dg表示队形中智能体之间的间距,如果避障因子ξ>1,则障碍物之间间隙大于智能体集群队型宽度Dq,整个集群不需要进行队型变换就能够通过障碍物
ξ<1时包括如下情况:
(1)当避障因子ξmin<ξ<1,此时集群能够保持当前队型的几何构型不变,通过收缩当前队型间距的方式通过障碍物区域;通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换;
(2)当避障因子ξ<ξmin,智能体集群已经无法保持现有队型的几何构型,必须进行队型结构变换,由于在避障的安全距离中考虑了智能体与障碍物边缘的距离,此时将通过协同Q-learning来建立队型结构变换的引导点,选取最高效的队型变换方式通过障碍物间隙;
(3)当避障因子其中表示所有队形库中变形因子最小的值,此时障碍物间隙过小,整个集群无法保持任何队形通过障碍物区域,因此将采取智能体自主躲避障碍物的策略模型;整个自主避障过程将由Q-learning进行速度和角度的控制;
为了优化场景中集群的障碍物躲避效率,建立可量化的集群避障策略准则来评判某次避障过程,在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略,采用合适的避障模型进行快速的障碍物躲避,pstart为集群开始避障时的位置数据,pend为集群结束避障时的位置数据;
S202.设避障评价准则用于增强学习的训练,定义避障评价准则如下:
(1)避障收敛时间
在多智能体集群避障过程中,无论采用哪种避障策略去进行集群的障碍物躲避,整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。
避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间,该评价参数如下:
Oact(pstart,pend)=max{ti end-ti start},i=1,2.....n
其中ti end、ti start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间,Oact用于评价集群完成避障行为时智能体的最大时间消耗;
(2)避障路径代价
由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定,因此不论是在集群的避障过程中还是在队形变换的行为过程中,减小智能体的能量消耗,缩短集群避障过程中的路程长度,以最短的路径进行障碍物躲避是至关重要的一项避障准则;
避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗,定义避障路径代价参数如下:
该评价参数对每个智能体的速度进行积分,得到整个集群整个障碍物躲避过程中的路径代价总和;
(3)避障队形结构差异
集群队形结构差异描述集群进行障碍物躲避时每个智能体与原有队形之间的偏差度,该差异代价计算方式如下:
其中,pstart表示集群当前的队形位置矩阵,pend表示集群进行队形变换之后的位置矩阵;n为集群中智能体的个数。
4.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S3包括:
S301.当ξ<ξmin时集群进入障碍物的安全避障距离后根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练,定义状态量和行为量为:
Sque表示在某个队型下y轴上的智能体个数,dg表示集群当前队型智能体的间距,Ds为集群的障碍物安全避障距离,表示为:
Ds=ragent+D0+o1V+o2cosω,ω∈[0,π/2]
o1、o2为两个常量表示控制参数,V表示集群的运动速度,ω表示集群与障碍物的夹角;
S302.当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障,由此设计队形变换避障模型的Q-learning回报函数为:
其中R(Oact,Oapc,Ofsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为:
R(Oact,Oapc,Ofsd)=[Oact,Oapc,Ofsd]·σ·100
σ=[σ1,σ2,σ3],其中σ1、σ2、σ3分别表示集群从一种队型变为另一种队形的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。
5.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S4包括:
S401.当避障因子时,根据提出的避障场景将智能体的相关状态量进行离散化,为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行,选用极坐标的方式表示智能体的相关避障状态。定义状态量为:
Angle={0,π/16,2π/16,3π/16,.....,31π/16}
设d0表示智能体危险距离,Δ表示稳定避障的动态偏移距离,dobs表示智能体于障碍物边缘的距离,θi表示智能体于障碍物的夹角角度,智能体于障碍物的距离是阈值交互Q-learning训练中的重要判断指标,dobs、Δ、d0满足下列关系:
S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量di划分为四个等级;其中偏移距离满足关系Δ=D0-d0,偏移距离根据实时的稳定避障距离进行动态变化,保证不同速度下智能体与障碍物的稳定避障距离;
S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent,因此相互之间存在势能场使得相互之间不会发生相互的碰撞;在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定,因此将状态空间设计为:
si=[v,d1,θ1,d2,θ2,.........,dk,θk],θ∈Angle
上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式,dk、θk分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度;
根据定义的极坐标方向值,将智能体行为空间表示为:
Ai={ang,v}
ang={1,2,3.......32}
在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远,并且根据避障评价准则对Q-learning的奖励函数进行设计:
其中,表示智能体i在第k次迭代中的奖励值,分别表示智能体在第k次迭代中的状态值和行为值,D0表示智能体在避障过程中的稳定避障距离,R(Oact,Oapc)表示集群避障过程关于收敛时间和路程代价的反馈值,表示为:
6.根据权利要求1所述的一种基于增强学习的多智能体集群避障方法,其特征在于:所述步骤S5包括:
S501.根据agent的状态以及行为,对于典型的Q-learning学习算法,设置Q值表更新函数如下:
式中k表示第k次训练,α为学习率,η为折扣因子,ai'表示下一行为,si'为下一状态;
S502.为降低了学习算法和流量的计算复杂度,加快学习算法的收敛速度,当集群中agent A与其他agent建立连接时,能够获取彼此的Q值;仅考虑邻居的Q值表中具有较大Q值的状态操作,以供更新agent的Q值参考,则第i个agent在第k+1次迭代的Q值表将更新如下:
qi代表集群第i个智能体的位置,ra是一个常数表示邻接半径,
hr(·)是一个阈值函数,定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447666.1A CN113156954B (zh) | 2021-04-25 | 2021-04-25 | 一种基于增强学习的多智能体集群避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110447666.1A CN113156954B (zh) | 2021-04-25 | 2021-04-25 | 一种基于增强学习的多智能体集群避障方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113156954A true CN113156954A (zh) | 2021-07-23 |
CN113156954B CN113156954B (zh) | 2023-03-24 |
Family
ID=76870370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110447666.1A Active CN113156954B (zh) | 2021-04-25 | 2021-04-25 | 一种基于增强学习的多智能体集群避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113156954B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114326749A (zh) * | 2022-01-11 | 2022-04-12 | 电子科技大学长三角研究院(衢州) | 一种基于Deep Q-Learning的集群区域覆盖方法 |
CN114610024A (zh) * | 2022-02-25 | 2022-06-10 | 电子科技大学 | 一种用于山地环境下的多智能体协同搜索节能方法 |
CN114815820A (zh) * | 2022-04-18 | 2022-07-29 | 电子科技大学 | 一种基于自适应滤波的智能体小车线性路径规划方法 |
CN115019185A (zh) * | 2022-08-03 | 2022-09-06 | 华中科技大学 | 类脑连续学习协同围捕方法、系统及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8346391B1 (en) * | 2006-12-28 | 2013-01-01 | Science Applications International Corporation | Methods and systems for an autonomous robotic platform |
CN108776483A (zh) * | 2018-08-16 | 2018-11-09 | 圆通速递有限公司 | 基于蚁群算法和多智能体q学习的agv路径规划方法和系统 |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
WO2020079702A1 (en) * | 2018-10-18 | 2020-04-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Formation flight of unmanned aerial vehicles |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
CN111880565A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于Q-Learning的集群协同对抗方法 |
EP3757875A1 (en) * | 2018-11-30 | 2020-12-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Obstacle avoidance method and device used for driverless vehicle |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
-
2021
- 2021-04-25 CN CN202110447666.1A patent/CN113156954B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8346391B1 (en) * | 2006-12-28 | 2013-01-01 | Science Applications International Corporation | Methods and systems for an autonomous robotic platform |
CN108776483A (zh) * | 2018-08-16 | 2018-11-09 | 圆通速递有限公司 | 基于蚁群算法和多智能体q学习的agv路径规划方法和系统 |
WO2020079702A1 (en) * | 2018-10-18 | 2020-04-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Formation flight of unmanned aerial vehicles |
EP3757875A1 (en) * | 2018-11-30 | 2020-12-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Obstacle avoidance method and device used for driverless vehicle |
CN109976340A (zh) * | 2019-03-19 | 2019-07-05 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN110007688A (zh) * | 2019-04-25 | 2019-07-12 | 西安电子科技大学 | 一种基于强化学习的无人机集群分布式编队方法 |
CN111880564A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于协同增强学习的多智能体区域搜索方法 |
CN111880565A (zh) * | 2020-07-22 | 2020-11-03 | 电子科技大学 | 一种基于Q-Learning的集群协同对抗方法 |
CN112241176A (zh) * | 2020-10-16 | 2021-01-19 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
Non-Patent Citations (8)
Title |
---|
DELIN LUO等: "UAV formation flight control and formation switch strategy", 《PROCEEDINGS OF THE 2013 8TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE & EDUCATION (ICCSE 2013)》 * |
JIAN XIAO等: "A Distributed Multi-Agent Dynamic Area", 《IEEE ACCESS》 * |
任立敏等: "障碍环境下多移动机器人动态优化队形变换", 《机器人》 * |
吴健发等: "无人机避障航路规划方法研究综述", 《无人系统技术》 * |
周宇亮: "无人机集群编队控制技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
孙锡国: "动态环境下多机器人协调控制的编队方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
林倩玉: "多无人机协同编队控制算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 * |
肖剑: "基于增强学习的Flocking集群协同控制算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114326749A (zh) * | 2022-01-11 | 2022-04-12 | 电子科技大学长三角研究院(衢州) | 一种基于Deep Q-Learning的集群区域覆盖方法 |
CN114326749B (zh) * | 2022-01-11 | 2023-10-13 | 电子科技大学长三角研究院(衢州) | 一种基于Deep Q-Learning的集群区域覆盖方法 |
CN114610024A (zh) * | 2022-02-25 | 2022-06-10 | 电子科技大学 | 一种用于山地环境下的多智能体协同搜索节能方法 |
CN114610024B (zh) * | 2022-02-25 | 2023-06-02 | 电子科技大学 | 一种用于山地环境下的多智能体协同搜索节能方法 |
CN114815820A (zh) * | 2022-04-18 | 2022-07-29 | 电子科技大学 | 一种基于自适应滤波的智能体小车线性路径规划方法 |
CN114815820B (zh) * | 2022-04-18 | 2023-10-03 | 电子科技大学 | 一种基于自适应滤波的智能体小车线性路径规划方法 |
CN115019185A (zh) * | 2022-08-03 | 2022-09-06 | 华中科技大学 | 类脑连续学习协同围捕方法、系统及介质 |
CN115019185B (zh) * | 2022-08-03 | 2022-10-21 | 华中科技大学 | 类脑连续学习协同围捕方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113156954B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113156954B (zh) | 一种基于增强学习的多智能体集群避障方法 | |
CN112904842B (zh) | 一种基于代价势场的移动机器人路径规划与优化方法 | |
CN109508035B (zh) | 基于分布式控制的多区域分级式无人机编队路径规划方法 | |
CN110850719B (zh) | 一种基于强化学习的空间非合作目标参数自整定追踪方法 | |
CN110162086A (zh) | 一种基于模型预测控制框架的集群无人机编队方法 | |
Kapnopoulos et al. | A cooperative particle swarm optimization approach for tuning an MPC-based quadrotor trajectory tracking scheme | |
CN104501816A (zh) | 一种多无人飞行器协调避碰导引规划方法 | |
CN115509251A (zh) | 基于mappo算法的多无人机多目标协同跟踪控制方法 | |
CN112001120B (zh) | 一种基于强化学习的航天器对多拦截器自主规避机动方法 | |
CN113253744B (zh) | 多机器人协同轨迹规划方法、装置、电子设备和存储介质 | |
CN113759935B (zh) | 基于模糊逻辑的智能群体编队移动控制方法 | |
CN111880565A (zh) | 一种基于Q-Learning的集群协同对抗方法 | |
CN113485323B (zh) | 一种级联多移动机器人灵活编队方法 | |
CN111882047A (zh) | 一种基于强化学习与线性规划的快速空管防冲突方法 | |
CN111596668B (zh) | 基于逆向强化学习的移动机器人拟人化路径规划方法 | |
Hassan et al. | Haptic assisted aircraft optimal assembly path planning scheme based on swarming and artificial potential field approach | |
Zhao et al. | Four-dimensional trajectory generation for UAVs based on multi-agent Q learning | |
Luo et al. | UAV path planning based on the average TD3 algorithm with prioritized experience replay | |
CN114637312A (zh) | 一种基于智能变形决策的无人机节能飞行控制方法及系统 | |
CN114637323A (zh) | 面向无人机编队保持的航路规划方法 | |
CN111176324B (zh) | 一种多无人机分布式协同编队规避动态障碍的方法 | |
CN117387635A (zh) | 一种基于深度强化学习和pid控制器的无人机导航方法 | |
CN114815878B (zh) | 基于实时优化和深度学习的高超声速飞行器协同制导方法 | |
CN116069015A (zh) | 基于手势和语音交互辅助的机器人半自主导航方法及系统 | |
CN112161626B (zh) | 一种基于航路跟踪映射网络的高可飞性航路规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |