CN113156954A

CN113156954A - 一种基于增强学习的多智能体集群避障方法

Info

Publication number: CN113156954A
Application number: CN202110447666.1A
Authority: CN
Inventors: 张瑛; 黄治宇; 薛玉玺; 肖剑; 吴磊; 高天奇; 张钱江
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-23
Anticipated expiration: 2041-04-25
Also published as: CN113156954B

Abstract

本发明公开了一种基于增强学习的多智能体集群避障方法,包括以下步骤：S1.建立集群系统的运动模型；S2.定义避障因子ξ及避障评价准则；S3.设计ξ＜ξ_min时集群队形变换避障模型Q‑learning训练的状态空间、行为空间和奖励函数；S4.设计

时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数；S5:设计智能体行为选择方法；S6.获取训练得到的Q值表，基于S1中定义的运动模型进行集群自主协同避障。本发明根据避障因子、避障评价准则等参数用于智能体集群避障模型选择判断，并结合Q‑learning算法将集群自主协同避障模型进行训练，得到最优的集群个体避障策略和高避障效率。

Description

一种基于增强学习的多智能体集群避障方法

技术领域

本发明涉及多智能体避障，特别是涉及一种基于增强学习的多智能体集群避障方法。

背景技术

近年来无人机、无人小车等智能体因其稳定性高、适应性强、风险小等特点得到了快速发展；智能体集群化解决了单个智能体功能性有限的问题，发挥集群优势的同时对智能个体进行了有效的整合。

集群避障一直以来是智能体群体控制的重要模块，大多避障算法在遭遇复杂障碍物环境时容易陷入局部最优值使得智能体无法快速进行障碍物躲避。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于增强学习的多智能体集群避障方法，实现了智能体集群根据当前环境中障碍物情况进行避障判断，并进行队形快速避障。

本发明的目的是通过以下技术方案来实现的：一种基于增强学习的多智能体集群避障方法，包括以下步骤：

S1.建立集群系统的运动模型：

基于Flocking集群控制算法，假设集群V中包含p个智能体，V＝{1,2....p}，集群中第i个智能体定义为agent i，其动力学模型表述成下列式子：

其中p_i为智能体agent i的位置,v_i为智能体agent i的速度，u_i为智能体agent i的加速度，u_i为集群智能体的控制输入量；

在运动过程中，集群每个agent i的控制输入量表示为：

为集群智能体相互避撞的控制输入量，

为集群智能体向期望位置移动控制量；

c^sα为正常数，定义p-agent i与p-agent j之间的势场力如下：

其中z为输入量，p_i为集群智能体i的位置；

d_α＝||d||_σ

其中r_α集群智能体之间通信距离，σ₁,a,b,c为自定义参数；

其中，h,l为常数

函数的设计保证了势场函数的平滑，为了保证范数，微定义σ范数：

式中，∈为自定义参数；

集群智能体向期望位置移动控制量如下式：

式中，

为PID算法中的比例与微分控制参数，v_i为agent i的速度，p_γ为agent i下一时刻的期望位置。

S2.定义避障因子ξ及避障评价准则：

S201.设避障因子用于描述多智能体集群在有效范围内探测到障碍物时根据自身队型和障碍物的复杂程度之间的关系，用符号ξ来表示：

其中，

表示集群探测范围内第i个障碍物的位置，r_agent为智能体的半径，D_obs表示障碍物之间的间距，d_g表示队形中智能体之间的间距，在不同的队型下整个集群拥有不同的避障因子，且每个队型有一个对应的避障因子最小值记作ξ_min，D_q为集群队形的宽度可表示为：

D_q＝2D₀+(S_que-1)d_g+2r_agent

D₀为一个常数，表示最小避障物距离，d_g表示队形中智能体之间的间距，如果避障因子ξ＞1，则障碍物之间间隙大于智能体集群队型宽度D_q，整个集群不需要进行队型变换就能够通过障碍物

ξ＜1时包括如下情况：

(1)当避障因子ξ_min＜ξ＜1，此时集群能够保持当前队型的几何构型不变，通过收缩当前队型间距的方式通过障碍物区域；通过计算队型收缩程度建立新的队型虚拟引导点来指引智能体进行队型收缩变换；

(2)当避障因子ξ＜ξ_min，智能体集群已经无法保持现有队型的几何构型，必须进行队型结构变换，由于在避障的安全距离中考虑了智能体与障碍物边缘的距离，此时将通过协同Q-learning来建立队型结构变换的引导点，选取最高效的队型变换方式通过障碍物间隙；

(3)当避障因子

其中

表示所有队形库中变形因子最小的值，此时障碍物间隙过小，整个集群无法保持任何队形通过障碍物区域，因此将采取智能体自主躲避障碍物的策略模型；整个自主避障过程将由Q-learning进行速度和角度的控制；

为了优化场景中集群的障碍物躲避效率，建立可量化的集群避障策略准则来评判某次避障过程，在集群运动过程中遭遇障碍物时智能体集群首先会根据避障因子选择避障策略，采用合适的避障模型进行快速的障碍物躲避，p_start为集群开始避障时的位置数据，p_end为集群结束避障时的位置数据；

S202.设避障评价准则用于增强学习的训练，定义避障评价准则如下：

(1)避障收敛时间

在多智能体集群避障过程中，无论采用哪种避障策略去进行集群的障碍物躲避，整个集群完成避障行为到恢复原有队型的过程所用到的时间越短则该次避障的效率越高。

避障收敛时间描述集群从进入障碍物安全距离到集群中所有智能体恢复原有队型的时间，该评价参数如下：

O_act(p_start,p_end)＝max{t_i ^end-t_i ^start},i＝1,2.....n

其中t_i ^end、t_i ^start分别表示第i个智能体结束避障后到达原有队型位置点和进入障碍物安全距离的时间，O_act用于评价集群完成避障行为时智能体的最大时间消耗；

(2)避障路径代价

由于在执行集群任务的过程中智能体的电源能量有限续航的路程较为固定，因此不论是在集群的避障过程中还是在队形变换的行为过程中，减小智能体的能量消耗，缩短集群避障过程中的路程长度，以最短的路径进行障碍物躲避是至关重要的一项避障准则；

避障路径代价描述集群智能体在进行避障到恢复原有队型的路程消耗，定义避障路径代价参数如下：

该评价参数对每个智能体的速度进行积分，得到整个集群整个障碍物躲避过程中的路径代价总和。

(3)避障队形结构差异

集群队形结构差异(Obstacle formation structural difference)描述了集群进行障碍物躲避时每个智能体与原有队形之间的偏差度，该差异代价计算方式如下：

其中p_start表示集群当前的队形位置矩阵，p_end表示集群进行队形变换之后的位置矩阵。n为集群中智能体的个数。

S3.设计ξ＜ξ_min时集群队形变换避障模型Q-learning训练的状态空间、行为空间和奖励函数：

S301.当ξ＜ξ_min时集群进入障碍物的安全避障距离后根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练，定义状态量和行为量为：

S_que表示在某个队型下y轴上的智能体个数，d_g表示集群当前队型智能体的间距，D_s为集群的障碍物安全避障距离，表示为：

D_s＝r_agent+D₀+o₁V+o₂cosω,ω∈[0,π/2]

o₁、o₂为两个常量表示控制参数，V表示集群的运动速度，ω表示集群与障碍物的夹角；

S302.当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障，由此设计队形变换避障模型的Q-learning回报函数为：

其中R(O_act,O_apc,O_fsd)表示集群避障过程关于收敛时间、路程代价和队型结构差异的反馈值表示为：

R(O_act,O_apc,O_fsd)＝[O_act,O_apc,O_fsd]·σ·100

σ＝[σ₁,σ₂,σ₃]，其中σ₁、σ₂、σ₃分别表示集群从一种队型变为另一种队形的过程变换收敛时间、变换路程代价、队型结构差异的重要性权重因子。

S4.设计

时集群自主协同避障模型增强学习训练的状态空间、行为空间和奖励函数：

S401.当避障因子

时,根据提出的避障场景将智能体的相关状态量进行离散化，为了减小状态量离散化以后对避障精度造成的影响保证Flocking控制下的α-agent模块稳定运行，选用极坐标的方式表示智能体的相关避障状态。定义状态量为：

Angle＝{0,π/16,2π/16,3π/16,.....,31π/16}

设d₀表示智能体危险距离，Δ表示稳定避障的动态偏移距离，d_obs表示智能体于障碍物边缘的距离，θ_i表示智能体于障碍物的夹角角度，智能体于障碍物的距离是阈值交互Q-learning训练中的重要判断指标，d_obs、Δ、d₀满足下列关系：

S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量d_i划分为四个等级；其中偏移距离满足关系Δ＝D₀-d₀，偏移距离根据实时的稳定避障距离进行动态变化，保证不同速度下智能体与障碍物的稳定避障距离；

S403.基于Flocking集群控制算法下的多智能体避障过程由于智能体之间存在维持质点稳定的α-agent，因此相互之间存在势能场使得相互之间不会发生相互的碰撞；在控制算法之上实现个体的避障过程将由周围环境中的障碍物距离和夹角决定，因此将状态空间设计为：

s_i＝[v,d₁,θ₁,d₂,θ₂,.........,d_k,θ_k],θ∈Angle

上式表示智能体周围感知环境中探测到k个障碍物时的状态表达式，d_k、θ_k分别表示智能体i与周围环境中障碍物k的距离和角度偏差,v表示智能体的速度；

根据定义的极坐标方向值，将智能体行为空间表示为：

A_i＝{ang,v}

ang＝{1,2,3.......32}

在整个障碍物躲避过程中智能体与障碍物之间不能发生碰撞也不能离障碍物过远，并且根据避障评价准则对Q-learning的奖励函数进行设计：

其中，r_i ^k表示智能体i在第k次迭代中的奖励值，

分别表示智能体在第k次迭代中的状态值和行为值，D₀表示智能体在避障过程中的稳定避障距离，R(O_act,O_apc)表示集群避障过程关于收敛时间和路程代价的反馈值，表示为：

其中，D_s表示集群的避障安全距离，

分别表示计算反馈值中时间代价和路程代价的控制参数。

S5:设计智能体行为选择方法：

S501.根据agent的状态以及行为，对于典型的Q-learning学习算法,设置Q值表更新函数如下：

式中k表示第k次训练，α为学习率，η为折扣因子，a_i'表示下一行为，s_i'为下一状态；

S502.为降低了学习算法和流量的计算复杂度，加快学习算法的收敛速度，当集群中agent A与其他agent建立连接时，能够获取彼此的Q值；仅考虑邻居的Q值表中具有较大Q值的状态操作，以供更新agent的Q值参考，则第i个agent在第k+1次迭代的Q值表将更新如下：

其中，Q_j ^k(s_i,a_i)是第j个agent的Q值，agent i的邻居数

w_j权重定义如下：

q_i代表集群第i个智能体的位置，r_a是一个常数表示邻接半径，

h_r(·)是一个阈值函数，定义如下：

S6.获取训练得到的Q值表，基于S1中定义的运动模型进行集群自主协同避障：

S601.重复S1-S5步骤更新迭代集群中智能体Q值表，直到Q值表收敛；经过增强学习训练后的多智能体集群能够根据当前障碍物的避障因子情况来进行避障模型选择，并通过增强学习训练好的模型来进行避障；

S602.经过Q-learning学习训练以后每个智能体根据Q值表选择最佳的运动策略来通过障碍物，表述如下

a_i'＝argmaxQ_i(s_i,a_i)

s_i表示智能体当前i时刻状态a_i表示智能体当前时刻选择的行为；a_i’表示智能体障碍物躲避速度和方向最优策略选择；

S603.根据a_i’得到相应的避障行为策略：

本发明的有益效果是：本发明根据避障因子、避障评价准则等参数用于智能体集群避障模型选择判断，并结合Q-learning算法将集群自主协同避障模型进行训练，得到最优的集群个体避障策略和高避障效率。

附图说明

图1为本发明的方法流程图；

图2为集群处于最后位置的智能体通过障碍物中心点位置时的避障原理示意图；

图3为智能体离散化角度状态量为极坐标后效果示意图；

图4为智能体在遭遇障碍物时的距离变量示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

本发明根据智能体集群在障碍物环境任务执行过程中避障方面的需要对Flocking协同控制算法和Q-learning算法进行结合，针对复杂障碍物环境提出一种多智能体的自主协同避障方法。在学习过程中不需要借鉴其邻居的历史经验，有助于加快多智能体集群的训练效率，具体地：

如图1所示，一种基于增强学习的多智能体集群避障方法，包括以下步骤：

S1.建立集群系统的运动模型：

在运动过程中，集群每个agent i的控制输入量表示为：

为集群智能体相互避撞的控制输入量，

为集群智能体向期望位置移动控制量；

c^sα为正常数，定义p-agent i与p-agent j之间的势场力如下：

其中z为输入量，p_i为集群智能体i的位置；

d_α＝||d||_σ

其中r_α集群智能体之间通信距离，σ₁,a,b,c为自定义参数；

其中，h,l为常数

式中，∈为自定义参数；

集群智能体向期望位置移动控制量如下式：

式中，

S2.定义避障因子ξ及避障评价准则：

其中，

D_q＝2D₀+(S_que-1)d_g+2r_agent

ξ＜1时包括如下情况：

(3)当避障因子

其中

(1)避障收敛时间

O_act(p_start,p_end)＝max{t_i ^end-t_i ^start},i＝1,2.....n

(2)避障路径代价

(3)避障队形结构差异

S301.当ξ＜ξ_min时集群进入障碍物的安全避障距离后，根据障碍物间隙的宽度、当前队型以及当前队型的队型宽度进行状态输入进行Q-learning的训练，定义状态量和行为量为：

D_s＝r_agent+D₀+o₁V+o₂cosω,ω∈[0,π/2]

S302.如图2所示，当集群处于最后位置的智能体通过障碍物中心点位置时结束该障碍物的避障，由此设计队形变换避障模型的Q-learning回报函数为：

R(O_act,O_apc,O_fsd)＝[O_act,O_apc,O_fsd]·σ·100

S4.设计

S401.当避障因子

Angle＝{0,π/16,2π/16,3π/16,.....,31π/16}

智能体离散化角度状态量为极坐标后效果如图3所示；

S402.根据智能体在障碍物环境中与障碍物的距离关系将Q-learning训练中第i个智能体的距离变量d_i划分为四个等级；其中偏移距离满足关系Δ＝D₀-d₀，偏移距离根据实时的稳定避障距离进行动态变化，保证不同速度下智能体与障碍物的稳定避障距离；智能体在遭遇障碍物时的距离变量d_i如图4所示：

s_i＝[v,d₁,θ₁,d₂,θ₂,.........,d_k,θ_k],θ∈Angle

根据定义的极坐标方向值，将智能体行为空间表示为：

A_i＝{ang,v}

ang＝{1,2,3.......32}

其中，r_i ^k表示智能体i在第k次迭代中的奖励值，

其中，D_s表示集群的避障安全距离，

分别表示计算反馈值中时间代价和路程代价的控制参数。

S5:设计智能体行为选择方法：

其中，Q_j ^k(s_i,a_i)是第j个agent的Q值，agent i的邻居数

w_j权重定义如下：

h_r(·)是一个阈值函数，定义如下：

a_i'＝argmaxQ_i(s_i,a_i)

S603.根据a_i’得到相应的避障行为策略：

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。