CN117319232A - 一种基于行为预测的多智能体集群一致性协同控制方法 - Google Patents
一种基于行为预测的多智能体集群一致性协同控制方法 Download PDFInfo
- Publication number
- CN117319232A CN117319232A CN202311327287.4A CN202311327287A CN117319232A CN 117319232 A CN117319232 A CN 117319232A CN 202311327287 A CN202311327287 A CN 202311327287A CN 117319232 A CN117319232 A CN 117319232A
- Authority
- CN
- China
- Prior art keywords
- agent
- network
- state
- model
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000006399 behavior Effects 0.000 claims abstract description 68
- 238000004891 communication Methods 0.000 claims abstract description 66
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 39
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 28
- 238000013461 design Methods 0.000 claims abstract description 17
- 239000003795 chemical substances by application Substances 0.000 claims description 273
- 230000001133 acceleration Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000009916 joint effect Effects 0.000 claims description 12
- 239000002245 particle Substances 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种面向随机通信环境的基于行为预测的多智能体集群一致性协同控制方法,包括以下步骤:建立随机通信环境模型;设计多智能体集群一致性协同控制任务下的强化学习的状态空间、动作空间、回报函数;设计基于图编码器的策略网络模型与评估网络模型;设计深度强化学习的策略模型更新方法;设计基于策略先验的行为预测方法。本发明针对随机通信环境,提出一种基于深度强化学习多智能体集群一致性协同控制方法,并设计一种行为预测模块以实现对未通信的邻居智能体的运动信息的估计,提高智能体对环境信息的感知能力与基于深度强化学习的多智能体集群一致性协同控制方法的实用性。
Description
技术领域
本发明专利属于多智能体系统和强化学习领域,是一种面向随机通信环境的基于行为预测的集群一致性协同控制方法,涉及到随机通信环境建模、强化学习要素设计、基于图注意力机制的网络模型设计、图编码器设计、多智能体一致性控制以及行为预测等一系列方法。
背景技术
多智能体集群一致性协同控制技术是多智能体研究的重要问题之一,并被广泛研究。近年来,人工智能技术蓬勃发展推动了工业信息的各个领域的智能化,同时也给多智能体集群一致性协同控制研究带来了一种可行的智能学习方法。强化学习作为一种无监督的机器学习方法,已被成功应用于多智能体集群一致性协同控制中。由于强化学习是一种利用与环境交互的经验与延时奖励的机制实现策略进化的学习方法,相对于传统的控制方法,所学得的策略具有整个控制过程最优以及更好的环境适应性的特点。由于强化学习的这些优势,目前强化学习已成为了解决多智能体集群一致性协同控制任务中的环境适应性问题的一种主流方法。
但当前的基于强化学习的一致性协同控制算法仍存在训练环境模型过于理想的问题,没有考虑智能体因对环境感知的随机性而造成的智能体的观测状态信息的不确定性与非完备性。这种非完备状态信息直接影响了智能体对外界环境的感知能力,减弱了强化学习的控制策略学习效果。因此,如何提高智能体对外部随机环境的感知能力是推动基于强化学习的集群一致性协同控制算法的实际应用亟待解决的重要问题。为解决此问题,本发明针对随机通信环境下的智能体观测状态非完备性问题,本文提供了一种基于先验策略的行为预测模型的加权学习方法。
发明内容
本发明的目的在于克服现有技术的不足,针对随机通信环境,本发明提供了一种基于强化学习与行为预测的多智能体集群一致性协同控制方法,以解决了因随机通信造成的智能体观测状态非完备性问题,增强了智能体在随机通信环境下的信息感知能力,提高智能体在该环境下的集群一致性协同控制的效果。本发明的目的是通过以下技术方案来实现的:
一种基于行为预测的多智能体集群一致性协同控制方法,包括以下步骤:
步骤S1、建立随机通信环境模型,包括智能体质点运动模型、基于高斯函数的随机通信模型与障碍物探测模型,所构建的模型为基于强化学习的多智能体集群一致性协同控制的离线训练提供交互环境;
步骤S2、针对多智能体集群一致性协同控制任务需求及环境约束,为深度强化学习设计状态、动作控制以及回报函数,方法如下:
状态设计:基于所述步骤S1中的所构建的随机通信环境模型,利用可通信的邻居智能体、虚拟领导点及被探测的障碍物的位置与速度信息构造智能体i的局部观测oi,通过联合所有智能体的局部观测来构造全局状态s=(o1,o2,…,oi,…,on);
动作设计:将智能体的加速度定义为智能体的动作ai,基于每个智能体的动作构造联合动作a=(a1,a2,…,ai,…,an);
回报函数设计:将多智能体集群一致性协同控制任务产生的控制误差作为智能体控制的回报值,其中控制误差包含了智能体之间的位置及速度一致性控制的误差、智能体与虚拟领导点在位置与速度上产生的控制误差以及因智能体与外部环境的距离过小产生的控制误差;
步骤S3、设计图编码器模块,并基于图编码器模块与多层感知机设计评估网络模型以及策略网络模型;将所述步骤S2中的全局状态s和与联合动作a作为评估网络的输入以完成状态-行为的评估,将所述步骤S2中的观测状态oi作为策略网络模型的输入以得到智能体i的加速度控制量;
步骤S4、通过设计基于共享机制的多智能体强化学习的随机策略优化方法以完成对所述步骤S3中的策略网络模型与评估网络模型的参数更新;
步骤S5、通过一种行为预测网络模型完成对未通信的邻居智能体的运动信息的预测,并基于先验策略以及策略参数加权的方法完成对策略模型的学习;在预测网络模型的行为预测过程中,通过当前智能体的观测状态来推断未建立通信的邻居智能体的观测状态,并利用所推断的邻居智能体的观测状态来估计该邻居的行为,将得到的行为送入所述步骤S1中的智能体质点运动模型可得到未通信的邻居的运动信息;
步骤S6、基于行为预测的多智能体集群一致性协同控制方法的控制流程包括以下步骤:
步骤S6.1、利用所述步骤S5的预测的未通信的邻居智能体的运动信息以及所述步骤S1的环境模型的观测状态信息构建完备的观测信息;
步骤S6.2、利用所述步骤S2的状态构造方法与所述步骤S6.1所构造的完备的观测信息来重构智能体观测状态;
步骤S6.3、将所述步骤S6.2所重构的智能体观测状态送入所述步骤S4所设计的策略网络模型得到智能体行为;
步骤S6.4、将所述步骤S6.3所得到智能体行为送入所述步骤S1中的智能体质点运动模型以完成智能体的运动控制。
上述技术方案中,所述步骤S1包括:
步骤S1.1、建立智能体质点运动模型:
将每个智能体视为具有半径ra的圆形实体,使用二阶微分系统描述智能体i的圆心运动状态:
其中,与/>分别表示智能体i的位置、速度与加速度向量,/>与/>分别表示/>与/>的微分,n表示集群中智能体的数目;
步骤S1.2、建立下列随机通信概率模型:
基于智能体之间的通信距离构建智能体的邻居集合:
其中,Va为所有智能体构成的集合,rc为通信距离。
基于通信信号随距离衰减原理,构建随机高斯通信模型:
其中,为智能体i与智能体j之间通信概率,σc为通信衰减系数,基于上述的通信模型,智能体i的实际可通信的邻居智能体集合为/>的子集,用/>表示;
步骤S1.3、建立下列障碍物探测模型:
基于智能体的探测距离,智能体i观测到的环境中障碍物集合可表示为:
其中,Vo为环境中所有障碍物构成的集合,为障碍物k的位置,rd为智能体所装配的探测传感器的置信半径,在该范围内,所探测到的障碍物运动信息是可信的。
上述技术方案中,所述步骤S2包括:
设计状态空间:智能体i与通过与邻居智能体建立通信,获得邻居的位置与速度信息,根据自身运动信息以及通信所获得的邻居运动信息可构建智能体i的内部观测状态,表示为:
其中,表示邻居智能体j相对于智能体i的相对运动状态,表示如下:
其中,||vmax||表示智能体的最大速度的模值;
智能体i对虚拟领导者的观测状态可表示为
根据智能体i的探测数据,智能体的外部观测状态可表示为:
式中,m为环境中所有障碍物的数目,表示障碍物相对于智能体i的运动状态,表示为:
其中,为障碍物k的速度;
基于上述描述的三组观测状态信息,智能体i的观测状态可定义为:将多智能体一致性协同控制的系统状态定义为联合状态s=(o1,o2,…,oi,…,on);
设计动作空间:根据所述步骤S1中的智能体运动模型,只需提供加速度控制量即可实现对智能体的运动控制,因此将智能体i的动作ai定义为加速度控制量:
设计回报函数:将多智能体集群一致性协同控制系统的系统控制误差作为智能体回报r(s,a),控制误差包含每个智能体的控制误差ei,表示如下:
其中,与/>分别是由邻居智能体、虚拟领导点与被探测的障碍物造成的控制误差,三种控制误差的计算方法如下:
其中,pl与vl分别为虚拟领导点的位置与速度,与/>为位置控制参数,/>与为速度一致性控制参数,dα为智能体之间的期望距离,dγ为智能体的聚合半径,dβ为智能体的避障距离,min()为取最小值操作,φα(),φγ(),φβ()为势场函数,定义如下:
其中,与/>为函数参数,ε(z)为单位阶跃函数。
上述技术方案中,所述步骤S3包括:
设计图编码器模块:将所述步骤S2中的内部观测状态与外部观测状态/>送入基于距离的图注意力模块中分别得到聚合后的特征/>与/>同时将领导点的观测状态/>送入一个全连接网络中以完成维度映射得到/>将特征/>及/>拼接得到图编码器的输出特征hi';
在基于距离的图注意力模块中,以当前智能体i的运动状态作为查询值,其他邻居智能体或邻居障碍物作为键值,通过查询值与键值的相似度来计算注意力权重,方法如下:
其中,与/>为衰减系数,将权重/>与/>利用softmax函数归一化后得到注意力权重系数/>与/>利用下列聚合操作可得到图注意力模块的输出:
其中,与/>分别表示智能体的信息与障碍物的信息的高维映射的特征;
评估网络模型:评估网络由图编码与多层感知机组成,所述步骤S2的系统状态s输入评估网络模型中,评估网络模型对s中的每一个观测状态进行编码得到编码后的特征,并将由编码得到的特征进行拼接得到特征hs,同时联合行为a经多层感知机映射后得到行为特征ha,hs与ha拼接并经过多层感知机后得到评估值Q;
策略网络模型:策略网络由图编码器与多层感知机组成,智能体的观测状态经过图编码器后得到聚合特征,然后将聚合特征送入多层感知机中可得到智能体的行为ai的均值与方差。
上述技术方案中,所述步骤S4包括:
深度强化学习的策略更新方法:在多智能体集群一致性协同控制任务中,智能体的状态空间、行为空间属性完全相同,在基于深度强化学习的集群一致性协同控制算法中,所有智能体等价并共享相同的评估网络、策略网络和经验池数据,将策略网络记为π,利用两个独立的评估网络进行评估;
评估网络参数更新:智能体的评估网络将系统状态s和联合动作a作为输入,并通过最小化时序差分误差进行参数优化,定义评估网络的损失函数如下:
其中,为经验回放池,ED表示求多个样本的均值,φj为第j个评估网络的参数,表示带参数φj的Q函数,目标拟合值/>定义如下:
其中,γ为折扣因子,α为可学习的温度系数,s′与o′i分别表示下一时刻的系统状态与观测状态,表示下一时刻采样的联合动作,πθ表示带参数θ的策略,πθ(·|oi')表示在观测状态oi'条件下的策略输出,采样方法由下式表示:
其中,μ与σ分别为策略网络输出的行为均值与方法,θ表示策略网络的参数,⊙表示Hadamard积,ξ为服从标准正态分布的多维随机变量,tanh()函数将动作限制在有限范围内,I为单位矩阵。
策略网络参数更新:智能体i的策略网络将观测状态oi作为输入,并以最大化Q值与策略熵之和为优化目标,表示如下:
其中,表示采样得到的联合动作;
利用列损失函数如下更新温度系数α:
其中,表示策略熵的期望值下限,dim(A)表示动作空间A的维度。
上述技术方案中,所述步骤S5包括:
基于行为预测网络模型的行为预测过程:基于所述步骤S2的观测状态计算方法,利用智能体i在t-1时刻所观测到的信息来推断智能体k的观测然后将/>送入所构建的行为预测网络/>中得到所估计的行为,然后将估计的行为送入运动模型网络中可估计t时刻智能体k的运动速度/>最后根据下式可预测出智能体在t时刻的位置/>
其中,Δt为控制时间间隔,为智能体k在t-1时刻的估计位置,/>表示对智能体k估计的速度;
基于先验策略的预测网络模型的训练过程:智能体在多智能体集群一致性协同控制任务中不断将产生的数据存入样本池中以构造预测网络的训练样本,预测网络根据训练样本对网络模型进行优化,并基于梯度下降的方法更新网络权重参数,得到的新的网络权重参数与策略网络参数通过加权和的方法得到最终的预测网络权重,这一过程可由下式表示:
θp←τpθp+(1-τp)θ
其中,τp为网络更新比例,θp为预测网络权重参数。
因为本发明采用上述技术方案,因此具备以下有益效果:
因为本发明采用基于预测网络模型的行为预测方法,解决了基于强化学习的多智能体集群一致性协同控制算法对随机通信环境的适应性技术问题,利用预测网络模型预测邻居智能体的运动状态解决随机通信环境下智能体的观测状态信息丢失问题,增强智能体对环境感知的能力,从而达到了在该环境下多智能体集群一致性协同控制的高稳定性、高控制精度以及强鲁棒性的效果;其中,步骤S2所设计的回报函数,使得所提出的多智能体集群一致性协同控制方法具有同时集群、避撞以及避障的功能;步骤3所设计的图编码器模块,使得本发明所提出的方法能够有效的适应于动态数量的智能体规模以及障碍物规模的场景;步骤4所采用的共享机制使得多智能体强化学习算法能够快速地完成多智能体一致性协同控制策略的优化;步骤S5所采用的基于先验策略以及策略参数加权的方法,能够使行为预测网络实现快速的收敛。
附图说明
图1为本发明的方法流程图;
图2为基于行为预测方法多智能体集群一致性协同控制方法的控制流程示意图;
图3为评估网络与策略网络结构示意图;
图4为行为预测预测过程以及训练流程示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于行为预测的多智能体集群一致性协同控制方法,包括以下步骤:
步骤S1、建立随机通信环境模型,包括智能体质点运动模型、基于高斯函数的随机通信模型与障碍物探测模型,所构建的模型为基于强化学习的多智能体集群一致性协同控制的离线训练提供交互环境;
步骤S2、针对多智能体集群一致性协同控制任务需求及环境约束,为深度强化学习设计状态、动作控制以及回报函数,方法如下:
状态设计:基于所述步骤S1中的所构建的随机通信环境模型,利用可通信的邻居智能体、虚拟领导点及被探测的障碍物的位置与速度信息构造智能体i的局部观测oi,通过联合所有智能体的局部观测来构造全局状态s=(o1,o2,…,oi,…,on);
动作设计:将智能体的加速度定义为智能体的动作ai,基于每个智能体的动作构造联合动作a=(a1,a2,…,ai,…,an);
回报函数设计:将多智能体集群一致性协同控制任务产生的控制误差作为智能体控制的回报值,其中控制误差包含了智能体之间的位置及速度一致性控制的误差、智能体与虚拟领导点在位置与速度上产生的控制误差以及因智能体与外部环境的距离过小产生的控制误差;
步骤S3、设计图编码器模块,并基于图编码器模块与多层感知机设计评估网络模型以及策略网络模型;将所述步骤S2中的全局状态s和与联合动作a作为评估网络的输入以完成状态-行为的评估,将所述步骤S2中的观测状态oi作为策略网络模型的输入以得到智能体i的加速度控制量;
步骤S4、通过设计基于共享机制的多智能体强化学习的随机策略优化方法以完成对所述步骤S3中的策略网络模型与评估网络模型的参数更新;
步骤S5、通过一种行为预测网络模型完成对未通信的邻居智能体的运动信息的预测,并基于先验策略以及策略参数加权的方法完成对策略模型的学习;在预测网络模型的行为预测过程中,通过当前智能体的观测状态来推断未建立通信的邻居智能体的观测状态,并利用所推断的邻居智能体的观测状态来估计该邻居的行为,将得到的行为送入所述步骤S1中的智能体质点运动模型可得到未通信的邻居的运动信息;
步骤S6、如图2所示,基于行为预测的多智能体集群一致性协同控制方法的控制流程包括以下步骤:
步骤S6.1、利用所述步骤S5的预测的未通信的邻居智能体的运动信息以及所述步骤S1的环境模型的观测状态信息构建完备的观测信息;
步骤S6.2、利用所述步骤S2的状态构造方法与所述步骤S6.1所构造的完备的观测信息来重构智能体观测状态;
步骤S6.3、将所述步骤S6.2所重构的智能体观测状态送入所述步骤S4所设计的策略网络模型得到智能体行为;
步骤S6.4、将所述步骤S6.3所得到智能体行为送入所述步骤S1中的智能体质点运动模型以完成智能体的运动控制。
上述技术方案中,所述步骤S1包括:
步骤S1.1、建立智能体质点运动模型:
将每个智能体视为具有半径ra的圆形实体,使用二阶微分系统描述智能体i的圆心运动状态:
其中,与/>分别表示智能体i的位置、速度与加速度向量,/>与/>分别表示与/>的微分,n表示集群中智能体的数目;
步骤S1.2、建立下列随机通信概率模型:
基于智能体之间的通信距离构建智能体的邻居集合:
其中,Va为所有智能体构成的集合,rc为通信距离。
基于通信信号随距离衰减原理,构建随机高斯通信模型:
其中,为智能体i与智能体j之间通信概率,σc为通信衰减系数,基于上述的通信模型,智能体i的实际可通信的邻居智能体集合为Ni a的子集,用/>表示;
步骤S1.3、建立下列障碍物探测模型:
基于智能体的探测距离,智能体i观测到的环境中障碍物集合可表示为:
其中,Vo为环境中所有障碍物构成的集合,为障碍物k的位置,rd为智能体所装配的探测传感器的置信半径,在该范围内,所探测到的障碍物运动信息是可信的。
上述技术方案中,所述步骤S2包括:
设计状态空间:智能体i与通过与邻居智能体建立通信,获得邻居的位置与速度信息,根据自身运动信息以及通信所获得的邻居运动信息可构建智能体i的内部观测状态,表示为:
其中,表示邻居智能体j相对于智能体i的相对运动状态,表示如下:
其中,||vmax||表示智能体的最大速度的模值;
智能体i对虚拟领导者的观测状态可表示为
根据智能体i的探测数据,智能体的外部观测状态可表示为:
式中,m为环境中所有障碍物的数目,表示障碍物相对于智能体i的运动状态,表示为:
其中,为障碍物k的速度;
基于上述描述的三组观测状态信息,智能体i的观测状态可定义为:将多智能体一致性协同控制的系统状态定义为联合状态s=(o1,o2,…,oi,…,on);
设计动作空间:根据所述步骤S1中的智能体运动模型,只需提供加速度控制量即可实现对智能体的运动控制,因此将智能体i的动作ai定义为加速度控制量:
设计回报函数:将多智能体集群一致性协同控制系统的系统控制误差作为智能体回报r(s,a),控制误差包含每个智能体的控制误差ei,表示如下:
其中,与/>分别是由邻居智能体、虚拟领导点与被探测的障碍物造成的控制误差,三种控制误差的计算方法如下:
其中,pl与vl分别为虚拟领导点的位置与速度,与/>为位置控制参数,/>与为速度一致性控制参数,da为智能体之间的期望距离,dγ为智能体的聚合半径,dβ为智能体的避障距离,min()为取最小值操作,φα(),φγ(),φβ()为势场函数,定义如下:
其中,与/>为函数参数,ε(z)为单位阶跃函数。
上述技术方案中,所述步骤S3包括:
设计图编码器模块:将所述步骤S2中的内部观测状态与外部观测状态/>送入基于距离的图注意力模块中分别得到聚合后的特征/>与/>同时将领导点的观测状态/>送入一个全连接网络中以完成维度映射得到/>将特征/>及/>拼接得到图编码器的输出特征hi';
在基于距离的图注意力模块中,以当前智能体i的运动状态作为查询值,其他邻居智能体或邻居障碍物作为键值,通过查询值与键值的相似度来计算注意力权重,方法如下:
其中,与/>为衰减系数,将权重/>与/>利用softmax函数归一化后得到注意力权重系数/>与/>利用下列聚合操作可得到图注意力模块的输出:
其中,与/>分别表示智能体的信息与障碍物的信息的高维映射的特征;
如图3所示,智能体的评估网络模型与策略网络模型的结构如下:
评估网络模型:评估网络由图编码与多层感知机组成,所述步骤S2的系统状态s输入评估网络模型中,评估网络模型对s中的每一个观测状态进行编码得到编码后的特征,并将由编码得到的特征进行拼接得到特征hs,同时联合行为a经多层感知机映射后得到行为特征ha,hs与ha拼接并经过多层感知机后得到评估值Q;
策略网络模型:策略网络由图编码器与多层感知机组成,智能体的观测状态经过图编码器后得到聚合特征,然后将聚合特征送入多层感知机中可得到智能体的行为ai的均值与方差。
上述技术方案中,所述步骤S4包括:
深度强化学习的策略更新方法:在多智能体集群一致性协同控制任务中,智能体的状态空间、行为空间属性完全相同,在基于深度强化学习的集群一致性协同控制算法中,所有智能体等价并共享相同的评估网络、策略网络和经验池数据,将策略网络记为π,利用两个独立的评估网络进行评估;
评估网络参数更新:智能体的评估网络将系统状态s和联合动作a作为输入,并通过最小化时序差分误差进行参数优化,定义评估网络的损失函数如下:
其中,为经验回放池,ED表示求多个样本的均值,φj为第j个评估网络的参数,表示带参数φj的Q函数,目标拟合值/>定义如下:
其中,γ为折扣因子,α为可学习的温度系数,s′与oi′分别表示下一时刻的系统状态与观测状态,表示下一时刻采样的联合动作,πθ表示带参数θ的策略,πθ(·|oi')表示在观测状态oi'条件下的策略输出,采样方法由下式表示:
其中,μ与σ分别为策略网络输出的行为均值与方法,θ表示策略网络的参数,⊙表示Hadamard积,ξ为服从标准正态分布的多维随机变量,tanh()函数将动作限制在有限范围内,I为单位矩阵。
策略网络参数更新:智能体i的策略网络将观测状态oi作为输入,并以最大化Q值与策略熵之和为优化目标,表示如下:
其中,表示采样得到的联合动作;
利用列损失函数如下更新温度系数α:
其中,表示策略熵的期望值下限,dim(A)表示动作空间A的维度。
上述技术方案中,如图4所示,所述步骤S5包括以下两过程:
基于行为预测网络模型的行为预测过程:如图4实线部分流程所示,基于所述步骤S2的观测状态计算方法,利用智能体i在t-1时刻所观测到的信息来推断智能体k的观测然后将/>送入所构建的行为预测网络/>中得到所估计的行为,然后将估计的行为送入运动模型网络中可估计t时刻智能体k的运动速度/>最后根据下式可预测出智能体在t时刻的位置/>
其中,Δt为控制时间间隔,为智能体k在t-1时刻的估计位置,/>表示对智能体k估计的速度;
基于先验策略的预测网络模型的训练过程:如图4虚线部分流程所示,智能体在多智能体集群一致性协同控制任务中不断将产生的数据存入样本池中以构造预测网络的训练样本,预测网络根据训练样本对网络模型进行优化,并基于梯度下降的方法更新网络权重参数,得到的新的网络权重参数与策略网络参数通过加权和的方法得到最终的预测网络权重,这一过程可由下式表示:
θp←τpθp+(1-τp)θ
其中,τp为网络更新比例,θp为预测网络权重参数。
Claims (6)
1.一种基于行为预测的多智能体集群一致性协同控制方法,其特征在于,包括以下步骤:
步骤S1、建立随机通信环境模型,包括智能体质点运动模型、基于高斯函数的随机通信模型与障碍物探测模型,所构建的模型为基于强化学习的多智能体集群一致性协同控制的离线训练提供交互环境;
步骤S2、针对多智能体集群一致性协同控制任务需求及环境约束,为深度强化学习设计状态、动作控制以及回报函数,方法如下:
状态设计:基于所述步骤S1中的所构建的随机通信环境模型,利用可通信的邻居智能体、虚拟领导点及被探测的障碍物的位置与速度信息构造智能体i的局部观测oi,通过联合所有智能体的局部观测来构造全局状态s=(o1,o2,…,oi,…,on);
动作设计:将智能体的加速度定义为智能体的动作ai,基于每个智能体的动作构造联合动作a=(a1,a2,…,ai,…,an);
回报函数设计:将多智能体集群一致性协同控制任务产生的控制误差作为智能体控制的回报值,其中控制误差包含了智能体之间的位置及速度一致性控制的误差、智能体与虚拟领导点在位置与速度上产生的控制误差以及因智能体与外部环境的距离过小产生的控制误差;
步骤S3、设计图编码器模块,并基于图编码器模块与多层感知机设计评估网络模型以及策略网络模型;将所述步骤S2中的全局状态s和与联合动作a作为评估网络的输入以完成状态-行为的评估,将所述步骤S2中的观测状态oi作为策略网络模型的输入以得到智能体i的加速度控制量;
步骤S4、通过设计基于共享机制的多智能体强化学习的随机策略优化方法以完成对所述步骤S3中的策略网络模型与评估网络模型的参数更新;
步骤S5、通过一种行为预测网络模型完成对未通信的邻居智能体的运动信息的预测,并基于先验策略以及策略参数加权的方法完成对策略模型的学习;在预测网络模型的行为预测过程中,通过当前智能体的观测状态来推断未建立通信的邻居智能体的观测状态,并利用所推断的邻居智能体的观测状态来估计该邻居的行为,将得到的行为送入所述步骤S1中的智能体质点运动模型可得到未通信的邻居的运动信息;
步骤S6、基于行为预测的多智能体集群一致性协同控制方法的控制流程包括以下步骤:
步骤S6.1、利用所述步骤S5的预测的未通信的邻居智能体的运动信息以及所述步骤S1的环境模型的观测状态信息构建完备的观测信息;
步骤S6.2、利用所述步骤S2的状态构造方法与所述步骤S6.1所构造的完备的观测信息来重构智能体观测状态;
步骤S6.3、将所述步骤S6.2所重构的智能体观测状态送入所述步骤S4所设计的策略网络模型得到智能体行为;
步骤S6.4、将所述步骤S6.3所得到智能体行为送入所述步骤S1中的智能体质点运动模型以完成智能体的运动控制。
2.根据权利要求1所述的一种基于行为预测的多智能体集群一致性协同控制方法,其特征在于:所述步骤S1包括:
步骤S1.1、建立智能体质点运动模型:
将每个智能体视为具有半径ra的圆形实体,使用二阶微分系统描述智能体i的圆心运动状态:
其中,与/>分别表示智能体i的位置、速度与加速度向量,/>与/>分别表示/>与的微分,n表示集群中智能体的数目;
步骤S1.2、建立下列随机通信概率模型:
基于智能体之间的通信距离构建智能体的邻居集合:
其中,Va为所有智能体构成的集合,rc为通信距离。
基于通信信号随距离衰减原理,构建随机高斯通信模型:
其中,为智能体i与智能体j之间通信概率,σc为通信衰减系数,基于上述的通信模型,智能体i的实际可通信的邻居智能体集合为Ni a的子集,用/>表示;
步骤S1.3、建立下列障碍物探测模型:
基于智能体的探测距离,智能体i观测到的环境中障碍物集合可表示为:
其中,Vo为环境中所有障碍物构成的集合,为障碍物k的位置,rd为智能体所装配的探测传感器的置信半径,在该范围内,所探测到的障碍物运动信息是可信的。
3.根据权利要求1所述的一种基于行为预测的多智能体集群一致性协同控制方法,其特征在于:所述步骤S2包括:
设计状态空间:智能体i与通过与邻居智能体建立通信,获得邻居的位置与速度信息,根据自身运动信息以及通信所获得的邻居运动信息可构建智能体i的内部观测状态,表示为:
其中,表示邻居智能体j相对于智能体i的相对运动状态,表示如下:
其中,||vmax||表示智能体的最大速度的模值;
智能体i对虚拟领导者的观测状态可表示为
根据智能体i的探测数据,智能体的外部观测状态可表示为:
式中,m为环境中所有障碍物的数目,表示障碍物相对于智能体i的运动状态,表示为:
其中,为障碍物k的速度;
基于上述描述的三组观测状态信息,智能体i的观测状态可定义为:将多智能体一致性协同控制的系统状态定义为联合状态s=(o1,o2,…,oi,…,on);
设计动作空间:根据所述步骤S1中的智能体运动模型,只需提供加速度控制量即可实现对智能体的运动控制,因此将智能体i的动作ai定义为加速度控制量:
设计回报函数:将多智能体集群一致性协同控制系统的系统控制误差作为智能体回报r(s,a),控制误差包含每个智能体的控制误差ei,表示如下:
其中,与/>分别是由邻居智能体、虚拟领导点与被探测的障碍物造成的控制误差,三种控制误差的计算方法如下:
其中,pl与vl分别为虚拟领导点的位置与速度,与/>为位置控制参数,/>与/>为速度一致性控制参数,dα为智能体之间的期望距离,dγ为智能体的聚合半径,dβ为智能体的避障距离,min()为取最小值操作,φα(),φγ(),φβ()为势场函数,定义如下:
其中,与/>为函数参数,ε(z)为单位阶跃函数。
4.根据权利要求1所述的一种基于行为预测的多智能体集群一致性协同控制方法,其特征在于:所述步骤S3包括:
设计图编码器模块:将所述步骤S2中的内部观测状态与外部观测状态/>送入基于距离的图注意力模块中分别得到聚合后的特征/>与/>同时将领导点的观测状态/>送入一个全连接网络中以完成维度映射得到/>将特征/>及/>拼接得到图编码器的输出特征hi';
在基于距离的图注意力模块中,以当前智能体i的运动状态作为查询值,其他邻居智能体或邻居障碍物作为键值,通过查询值与键值的相似度来计算注意力权重,方法如下:
其中,与/>为衰减系数,将权重/>与/>利用softmax函数归一化后得到注意力权重系数/>与/>利用下列聚合操作可得到图注意力模块的输出:
其中,与/>分别表示智能体的信息与障碍物的信息的高维映射的特征;
评估网络模型:评估网络由图编码与多层感知机组成,所述步骤S2的系统状态s输入评估网络模型中,评估网络模型对s中的每一个观测状态进行编码得到编码后的特征,并将由编码得到的特征进行拼接得到特征hs,同时联合行为a经多层感知机映射后得到行为特征ha,hs与ha拼接并经过多层感知机后得到评估值Q;
策略网络模型:策略网络由图编码器与多层感知机组成,智能体的观测状态经过图编码器后得到聚合特征,然后将聚合特征送入多层感知机中可得到智能体的行为ai的均值与方差。
5.根据权利要求1所述的一种面向随机通信环境的基于行为预测的多智能体集群一致性协同控制方法,其特征在于:所述步骤S4包括:
深度强化学习的策略更新方法:在多智能体集群一致性协同控制任务中,智能体的状态空间、行为空间属性完全相同,在基于深度强化学习的集群一致性协同控制算法中,所有智能体等价并共享相同的评估网络、策略网络和经验池数据,将策略网络记为π,利用两个独立的评估网络进行评估;
评估网络参数更新:智能体的评估网络将系统状态s和联合动作a作为输入,并通过最小化时序差分误差进行参数优化,定义评估网络的损失函数如下:
其中,为经验回放池,ED表示求多个样本的均值,φj为第j个评估网络的参数,/>表示带参数φj的Q函数,目标拟合值/>定义如下:
其中,γ为折扣因子,α为可学习的温度系数,s′与o′i分别表示下一时刻的系统状态与观测状态,表示下一时刻采样的联合动作,πθ表示带参数θ的策略,πθ(·|oi')表示在观测状态oi'条件下的策略输出,采样方法由下式表示:
其中,μ与σ分别为策略网络输出的行为均值与方法,θ表示策略网络的参数,⊙表示Hadamard积,ξ为服从标准正态分布的多维随机变量,tanh()函数将动作限制在有限范围内,I为单位矩阵。
策略网络参数更新:智能体i的策略网络将观测状态oi作为输入,并以最大化Q值与策略熵之和为优化目标,表示如下:
其中,表示采样得到的联合动作;
利用列损失函数如下更新温度系数α:
其中,表示策略熵的期望值下限,dim(A)表示动作空间A的维度。
6.根据权利要求1所述的一种面向随机通信环境的基于行为预测的集群一致性协同控制方法,其特征在于:所述步骤S5包括:
基于行为预测网络模型的行为预测过程:基于所述步骤S2的观测状态计算方法,利用智能体i在t-1时刻所观测到的信息来推断智能体k的观测然后将/>送入所构建的行为预测网络/>中得到所估计的行为,然后将估计的行为送入运动模型网络中可估计t时刻智能体k的运动速度/>最后根据下式可预测出智能体在t时刻的位置/>
其中,Δt为控制时间间隔,为智能体k在t-1时刻的估计位置,/>表示对智能体k估计的速度;
基于先验策略的预测网络模型的训练过程:智能体在多智能体集群一致性协同控制任务中不断将产生的数据存入样本池中以构造预测网络的训练样本,预测网络根据训练样本对网络模型进行优化,并基于梯度下降的方法更新网络权重参数,得到的新的网络权重参数与策略网络参数通过加权和的方法得到最终的预测网络权重,这一过程可由下式表示:
θp←τpθp+(1-τp)θ
其中,τp为网络更新比例,θp为预测网络权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311327287.4A CN117319232A (zh) | 2023-10-13 | 2023-10-13 | 一种基于行为预测的多智能体集群一致性协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311327287.4A CN117319232A (zh) | 2023-10-13 | 2023-10-13 | 一种基于行为预测的多智能体集群一致性协同控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117319232A true CN117319232A (zh) | 2023-12-29 |
Family
ID=89236995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311327287.4A Pending CN117319232A (zh) | 2023-10-13 | 2023-10-13 | 一种基于行为预测的多智能体集群一致性协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117319232A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118211496A (zh) * | 2024-05-21 | 2024-06-18 | 西南科技大学 | 一种基于深度强化学习的多智能体放射源项估计方法 |
-
2023
- 2023-10-13 CN CN202311327287.4A patent/CN117319232A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118211496A (zh) * | 2024-05-21 | 2024-06-18 | 西南科技大学 | 一种基于深度强化学习的多智能体放射源项估计方法 |
CN118211496B (zh) * | 2024-05-21 | 2024-07-16 | 西南科技大学 | 一种基于深度强化学习的多智能体放射源项估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112162555B (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN108803349B (zh) | 非线性多智能体系统的最优一致性控制方法及系统 | |
EP2065842B1 (en) | Adaptive driver assistance system with robust estimation of object properties | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
CN113408392B (zh) | 基于卡尔曼滤波和神经网络的航迹补全方法 | |
CN112132263A (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN112819253A (zh) | 一种无人机避障和路径规划装置及方法 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN111707270B (zh) | 一种基于分布估计和强化学习的无地图避障导航方法 | |
CN117319232A (zh) | 一种基于行为预测的多智能体集群一致性协同控制方法 | |
Zhang et al. | Recurrent neural network‐based model predictive control for multiple unmanned quadrotor formation flight | |
CN104900063A (zh) | 一种短程行驶时间预测方法 | |
CN112631134A (zh) | 一种基于模糊神经网络的智能小车避障方法 | |
CN116582442A (zh) | 一种基于层次化通信机制的多智能体协作方法 | |
Liang et al. | Hierarchical reinforcement learning with opponent modeling for distributed multi-agent cooperation | |
CN116503029B (zh) | 用于自动驾驶的模块数据协同处理方法及系统 | |
CN116520887A (zh) | 一种混杂多无人机集群结构自适应调整方法 | |
CN114995149B (zh) | 液压位置伺服系统改进混沌变权麻雀搜索参数辨识方法 | |
CN115562258A (zh) | 基于神经网络的机器人社会自适应路径规划方法及系统 | |
CN114185273A (zh) | 一种饱和受限下分布式前置时间一致性控制器的设计方法 | |
Borisov et al. | Integration of neural network algorithms, nonlinear dynamics models, and fuzzy logic methods in prediction problems | |
Fan et al. | RNN-UKF: Enhancing Hyperparameter Auto-Tuning in Unscented Kalman Filters through Recurrent Neural Networks | |
CN111523090B (zh) | 基于高斯混合概率假设密度的数目时变多目标跟踪方法 | |
CN117193320A (zh) | 一种基于深度强化学习的多智能体避障导航控制方法 | |
Zhong et al. | Improved ICM-DDQN Obstacle Avoidance Method for Unmanned Underwater Vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |