CN115903901A - 内部状态未知的无人集群系统输出同步优化控制方法 - Google Patents
内部状态未知的无人集群系统输出同步优化控制方法 Download PDFInfo
- Publication number
- CN115903901A CN115903901A CN202211488163.XA CN202211488163A CN115903901A CN 115903901 A CN115903901 A CN 115903901A CN 202211488163 A CN202211488163 A CN 202211488163A CN 115903901 A CN115903901 A CN 115903901A
- Authority
- CN
- China
- Prior art keywords
- follower
- unmanned aerial
- aerial vehicle
- drone
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明公开了一种内部状态未知的无人集群系统输出同步优化控制方法,包括:设计状态估计器,估计系统未知内部状态,对内部状态进行重构,根据重构的内部状态,重新定义局部误差系统。对于新的局部误差系统结合矩阵理论、系统稳定性理论进行误差系统稳定性分析。进一步,考虑系统精确模型未知下,优化控制策略,本发明提出了改进的Q‑学习算法。通过引入经验回放和目标网络,解决多无人机在跟环境交互过程中不能充分探索的问题,提高无人集群系统收敛速率,进一步降低系统资源的消耗。本发明中的无人集群系统内部状态未知,更符合现实。
Description
技术领域
本发明涉及无人机控制方法领域,具体涉及内部状态未知的无人集群系统输出同步优化控制方法。
背景技术
近年来,专家学者受到自然界生物群集行为的启发将无人集群系统一致性应用于复杂系统协同控制中,无人集群系统一致性问题在智能电网、编队控制、无人机集群等领域有着重要的应用前景。
对于无人集群系统来说,一致性问题是一个基本现象。所有无人机在一致控制协议的作用下通过信息交换实现相同的状态。对未知的内部状态,现有的相关工作使用可测量的系统输入/输出数据来重构,用输入/输出数据进行重构内部状态时需要用到增广矩阵,而增广矩阵是一个状态不能完全可控的系统,容易导致追踪误差。另一方面,现有的工作较少考虑无人集群系统在执行任务过程中能量消耗问题。
发明内容
本发明所要解决的技术问题在于:如何解决现有的研究工作中,较少考虑无人集群系统在内部状态未知的情况下的优化问题,然而在实际中,一方面由于无人机的内部状态不容易测量,另一方面由于无人机算力、存储的有限以及任务的复杂性,所以考虑一种内部状态未知的无人集群系统输出同步优化控制方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:根据无人集群系统各个无人机之间的连接情况,构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵;
S2:通过状态估计器估计所述无人集群系统未知的内部状态,将所述无人机划分为领导者无人机和追随者无人机,重构无人机的局部状态误差系统,并定义性能函数;
S3:采用Q学习算法中的Actor-Critic网络结构分别近似无人机的控制动作和性能函数,采用Critic网络对所述性能函数进行近似处理,Actor网络根据所述性能函数更新无人机的控制动作;
S4:Critic网络对Actor网络近似的控制动作进行评价,Actor网络根据Critic网络的评价对控制动作进行调整,整个过程使用梯度下降更新;在训练神经网络参数时采用经验回放策略和目标网络技术,当Actor-Critic网络结构的神经网络参数不再更新时,即获取到近似优化输出一致控制策略。
本发明相比现有技术具有以下优点:
1、本发明提出了一种获取内部状态的新方法。具体而言,本发明基于输出反馈机制设计了状态估计器。与现有的内部状态重构方法相比,本发明中的方法不需要使用会导致系统不稳定的增广矩阵,而这种状态估计器能够提升系统的稳定性能。
2、本发明基于估计的内部状态,提出了一种等效系统模型来表征局部输出同步误差的动态特性,这有利于优化控制。
3、本发明的无人集群系统是系统精确模型未知的系统,相比于传统的优化方法要求精确模型已知,然而在很多实际情形中,系统精确模型未知或者不容易获取,本发明所使用的Actor-Critic框架能较好的解决系统精确模型未知的情形。
4、本发明所提出的经验重演策略和目标网络技术,可以使得无人机与环境的充分交互,同时避免了使用激励条件。仿真结果已得到验证。本发明所提出的增加经验池和目标网络技术方法能有效的提高无人机与环境的探索,最终提高系统的收敛性。
附图说明
图1是本发明的整体流程图;
图2是本发明的系统收敛过程中可能出现的拓扑图;
图3为本发明的对比实验的无人机追踪误差演变图;
图4为本发明的对比实验的无人机追踪轨迹演变图;
图5为本发明的对比实验的近似优化控制演变图;
图6为本发明的无人机追踪误差演变图;
图7为本发明的无人机追踪轨迹演变图;
图8为本发明的近似优化控制演变图;
图9为本发明中算法1,算法2和算法3的关系图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的整体流程图;如图1所示,本实施例提供一种内部状态未知的无人集群系统输出同步优化控制方法,该方法为无人集群系统在合作竞争关系下的反同步优化控制方法,该方法包括但不限于如下步骤:
S1:根据无人集群系统各个无人机之间的连接情况,构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵;在本发明实施例中,所述无人集群系统中,各个无人机通过一定的方式进行连接,本实施例以图2为示例拓扑结构图,一个由5个节点组成的领导者-追随者模式的无人集群系统,其中节点1、2、3、4表示追随者无人机,节点0表示领导者无人机。值得注意的是,追随者无人机4会从领导者无人机0处获取信息。
因此,所述本发明中拉普拉斯连接矩阵的相关参数为:
所述拓扑结构图表示为:G=diag{1,1,0,0};
S2:通过状态估计器估计所述无人集群系统未知的内部状态,将所述无人机划分为领导者无人机和追随者无人机,重构无人机的局部状态误差系统,并定义性能函数;
在本发明实施例中,所述无人集群系统包括领导者与追随者模式,每个无人机包含自身的状态信息,xi(k)表示第i个无人机的状态信息,xj(k)表示第j个无人机的状态信息;通过上述方式,将领导者无人机与追随者无人机采用相对应的领导者动态方程与追随者动态方程进行更新,表示为:
领导者无人机动态方程表示为:
追随者无人机动态方程表示为:
其中,x0(k+1)表示领导者无人机在k+1时刻的状态值,x0(k)表示领导者无人机在k时刻的状态值,y0(k)表示领导者无人机在k时刻的控制输出,yi(k)表示追随者无人机i在k时刻的控制输出,xi(k+1)表示追随者无人机i在k+1时刻的状态值,xi(k)表示追随者无人机i在k时刻的状态值,μi(k)表示追随者无人机i在k时刻的控制输入,A,Bi,C为不同的未知常数矩阵,这几个常数矩阵具有一定合适维度,但是其具体值是未知的。
在本发明实施例中,还需要根据所述领导者动态方程与追随者动态方程重构得到无人机的局部状态误差系统,表示为:
其中,表示追随者无人机i在k时刻的局部状态误差系统,bi表示追随者无人机是否能接收领导者无人机的状态信息,bi=1表示追随者无人机能够接收领导者无人机的信息,bi=0表示追随者无人机不能接收领导者无人机的信息;x0(k)表示领导者无人机的状态信息,aij≥0表示追随者无人机i接收追随者无人机j的状态信息情况,aij>0表示追随者无人机i能够接收追随者无人机j的状态信息,aij=0表示追随者无人机i不能接收追随者无人机j的状态信息;Ni表示追随者无人机集合;
因此,所述局部状态误差系统等价为:
其中,W是观测增益矩阵;表示追随者无人机i在k+1时刻的状态观测值与真实值之差,A,Bi,C为不同的未知常数矩阵;表示基于重构内部状态值的局部误差系统,μi(k)表示追随者无人机i在k时刻的控制输入,eiy(k)表示基于内部重构的追随者无人机i在k时刻的重构输出误差,表示追随者无人机i在k时刻的输出误差与重构误差的差值。Ni表示追随者无人机i的邻居追随者无人机集合;表示追随者无人机i在k时刻的状态观测值,表示追随者无人机j在k时刻的状态观测值。
在本发明实施例中,还基于所述无人机的局部状态误差系统确定性能函数,表示为:
其中,追随者无人机i在k时刻的性能函数,ci(eiy(k),μi(k))表示追随者无人机i在k时刻与环境交互过程中做了控制策略μi(k),这个过程中,追随者无人机通过内置装置获取的具体性能消耗值,,Qi表示追随者无人机i的权重矩阵,Qi≥0;Ri表示追随者无人机i的对称矩阵,Ri>0;0<γ<1是折扣因子。
S3:采用Q学习算法中的Actor-Critic网络结构分别近似无人机的控制动作和性能函数,采用Critic网络对所述性能函数进行近似处理,Actor网络根据所述性能函数更新无人机的控制动作;
在发明实施例中,采用Critic网络对性能函数近似,Actor网络根据性能函数更新控制动作;
其中,表示追随者无人机i在k时刻的性能函数,Wci,now表示Critic网络中追随者无人机i的当前权重参数,f(·)=tanh(·)表示激活函数,zci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量;上标T表示转置;Wai,now表示Actor网络中追随者无人机i的当前权重参数,表示通过Actor网络对追随者无人机i在k时刻控制动作的近似。
S4:Critic网络对Actor网络近似的控制动作进行评价,Actor网络根据Critic网络的评价对控制动作进行调整,整个过程使用梯度下降更新;在训练神经网络参数时采用经验回放策略和目标网络技术,当Actor-Critic网络结构的神经网络参数不再更新时,即获取到近似优化输出一致控制策略。
在本发明实施例中,Critic网络对Actor网络近似的控制动作进行评价包括Critic网络通过性能函数的输出值来评价无人机控制动作的优劣,采用网络近似结构得出近似性能函数,采用贝尔曼方程得出贝尔曼性能函数,利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数;使所述差分性能函数最小化,利用梯度下降法训练调整Critic网络的神经网络参数。
其中,对于Critic网络:
Critic网络通过性能函数的输出值来评价无人机控制动作的优劣,对于性能函数,由以下网络结构近似:
采用贝尔曼方程得出贝尔曼性能函数,由贝尔曼方程得到:
利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数,表示为:
其中,Wci,new表示Critic网络中追随者无人机i的更新权重参数,Wci,now表示Critic网络中追随者无人机i的当前权重参数,βci表示Critic网络中追随者无人机i的学习率,eci(k)表示Critic网络中追随者无人机i在k时刻的局部状态误差系统,f(·)=tanh(·)表示激活函数,zci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。
在本发明实施例中,Actor网络采用包含追随者无人机本身及其邻居无人机的局部状态误差系统信息,近似控制动作;利用近似性能函数来近似控制动作;计算出近似性能函数与期望的最终消耗目标的差值损失,使损失差值损失最小化,利用梯度下降法训练调整Actor网络的神经网络参数。
其中,对于Actor网络:
Actor网络用于近似控制策略,表示如下:
因此,Actor网络的网络权重更新表示为:
其中,Wai,new表示Actor网络中追随者无人机i的更新权重参数,Wai,now表示Actor网络中追随者无人机i的当前权重参数,βai表示Actor网络中追随者无人机i的学习率,表示Actor网络中追随者无人机i在k时刻的局部状态误差系统,表示f(zci(k))关于zci(k)的偏导。
在本发明实施例中,对于Q学习算法中的控制策略更新过程,以下简称算法1,本发明采用了如下方式对其进行处理,具体的更新方式如下:
步骤2)采用动态规划的方式更新Q函数值,表示为:
步骤3)通过如下方式,更新控制策略:
在本发明实施例中,还采用了经验回放策略来训练网络参数,以下简称算法2,具体包括如下过程:
步骤1)初始化经验池的容量Dc
步骤3)对于存放的第i个四元组,如果存入的四元组数大于经验池的容量,则删除最开始存入的元组;否则直接
从经验池里任意选一个元组进行后续的更新。
在本发明实施例中,对于改进的深度Q学习算法(Deep Q-learning),本发明采用如下方式对其进行训练,以下简称算法3,包括如下步骤:训练修改的Deep Q-learning算法
步骤2:计算Critic网络的差值
步骤3:用梯度下降法更新Critic网络的参数
步骤4:用梯度下降法更新Actor网络的参数
步骤5:τ是需要手动调的超参数用于做加权平均更新目标网络的参数:
步骤6:如果神经网络参数两次更新的差值的范数小于事先给定的较小参数ε,则认定系统收敛,迭代终止。
步骤7:否则,返回第2步
为了使得更新过程更加直观,用图9进行展示。为了验证提出的内部状态未知的最优输出同步控制方法的有效性,运用matlab进行仿真验证。本实施例以图2为实验拓扑图,一个由5个节点组成的领导者-追随者模式的无人集群系统,其中节点1、2、3、4表示追随者无人机,节点0表示领导者无人机。值得注意的是,agent 4会从领导者无人机0处获取信息。
本发明中的相关参数为:
拓扑结构表示为:G=diag{1,1,0,0};
系统相关参数为:
Q11=Q22=Q33=Q44=I2×2,R11=R12=R14=R21=R22=R33=R34=R41=R43=R44=1,
R13=R23=R24=R31=R32=R42=0,学习率βai=βci=0.05,折扣率γ=0.95。
从仿真结果可看出,图3和图4分别展示了无人集群系统的误差收敛图和轨迹演化图。然后,我们可以得出无人集群系统最终实现了一致性。近似优化控制器的演化如图5所示,控制器在达到收敛之前,振荡很强。
为了进一步验证本发明的优势,可以使用与对比实验相同的无人机动态系统、拓扑结构,系统状态的初始值、Critic权重、Actor权重和其他相关参数。
将图3与图6、图4与图7在相同参数下进行比较,我们发现图6和图7中状态收敛速度更快,这意味着可本发明所提算法可以提高无人集群系统的收敛速度。为了进一步说明所提出算法的优点,图5和图8给出了比较仿真结果,以描述控制器的演变。很明显,图8中的曲线更稳定,收敛速度更快。这说明该算法可以生成性能更好的控制器。
由以往的研究可知,选择不合适的合作竞争强度参数会导致无人集群系统不稳定。因此,本发明通过设计一个自适应合作竞争强度函数,当具有合作竞争交互关系的无人集群系统最终达到反同步一致性时,相应的合作强度和竞争强度参数收敛到最佳值(见图9),而无需手动调整协同参数,保证了系统的稳定性,提高了系统的鲁棒性。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于,包括以下步骤:
S1:根据无人集群系统各个无人机之间的连接情况,构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵;
S2:通过状态估计器估计所述无人集群系统未知的内部状态,将所述无人机划分为领导者无人机和追随者无人机,重构无人机的局部状态误差系统,并定义性能函数;
S3:采用Q学习算法中的Actor-Critic网络结构分别近似无人机的控制动作和性能函数,采用Critic网络对所述性能函数进行近似处理,Actor网络根据所述性能函数更新无人机的控制动作;
S4:Critic网络对Actor网络近似的控制动作进行评价,Actor网络根据Critic网络的评价对控制动作进行调整,整个过程使用梯度下降更新;在训练神经网络参数时采用经验回放策略和目标网络技术,当Actor-Critic网络结构的神经网络参数不再更新时,即获取到近似优化输出一致控制策略。
3.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S2中的领导者无人机与追随者无人机采用相对应的领导者动态方程与追随者动态方程进行更新;并根据所述领导者动态方程与追随者动态方程重构得到无人机的局部状态误差系统,基于所述无人机的局部状态误差系统确定性能函数,其中:
领导者无人机动态方程表示为:
追随者无人机动态方程表示为:
其中,x0(k+1)表示领导者无人机在k+1时刻的状态值,x0(k)表示领导者无人机在k时刻的状态值,y0(k)表示领导者无人机在k时刻的控制输出,xi(k+1)表示追随者无人机i在k+1时刻的状态值,yi(k)表示追随者无人机i在k时刻的控制输出,xi(k)表示追随者无人机i在k时刻的状态值,μi(k)表示追随者无人机i在k时刻的控制输入,A,Bi,C为不同的未知常数矩阵;
无人机的局部状态误差系统重构为:
其中,表示追随者无人机i在k时刻的局部状态误差系统,bi表示追随者无人机是否能接收领导者无人机的状态信息,bi=1表示追随者无人机能够接收领导者无人机的信息,bi=0表示追随者无人机不能接收领导者无人机的信息;aij≥0表示追随者无人机i接收追随者无人机j的状态信息情况,aij>0表示追随者无人机i能够接收追随者无人机j的状态信息,aij=0表示追随者无人机i不能接收追随者无人机j的状态信息;Ni表示追随者无人机i的邻居追随者无人机集合;表示追随者无人机i在k时刻的状态观测值,表示追随者无人机j在k时刻的状态观测值;
消耗性能函数表示为:
4.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Critic网络对Actor网络近似的控制动作进行评价包括Critic网络通过性能函数的输出值来评价无人机控制动作的优劣,采用网络近似结构得出近似性能函数,采用贝尔曼方程得出贝尔曼性能函数,利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数;使所述差分性能函数最小化,利用梯度下降法训练调整Critic网络的神经网络参数。
6.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法,其特征在于:步骤S4中,Actor网络采用包含追随者无人机本身及其邻居无人机的局部状态误差系统信息,利用近似性能函数来近似控制动作;计算出近似性能函数与期望的最终消耗目标的差值损失,利用梯度下降法训练调整Actor网络的神经网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488163.XA CN115903901A (zh) | 2022-11-25 | 2022-11-25 | 内部状态未知的无人集群系统输出同步优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488163.XA CN115903901A (zh) | 2022-11-25 | 2022-11-25 | 内部状态未知的无人集群系统输出同步优化控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115903901A true CN115903901A (zh) | 2023-04-04 |
Family
ID=86487546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211488163.XA Pending CN115903901A (zh) | 2022-11-25 | 2022-11-25 | 内部状态未知的无人集群系统输出同步优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115903901A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116360504A (zh) * | 2023-05-31 | 2023-06-30 | 北京航空航天大学 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-25 CN CN202211488163.XA patent/CN115903901A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116360504A (zh) * | 2023-05-31 | 2023-06-30 | 北京航空航天大学 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
CN116360504B (zh) * | 2023-05-31 | 2023-10-27 | 北京航空航天大学 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Levine et al. | Variational policy search via trajectory optimization | |
CN110376900B (zh) | 参数优化方法、终端设备以及计算机存储介质 | |
CN111353582A (zh) | 一种基于粒子群算法的分布式深度学习参数更新方法 | |
US20210342696A1 (en) | Deep Learning Model Training Method and System | |
CN111506405A (zh) | 一种基于深度强化学习的边缘计算时间片调度方法 | |
CN113886953B (zh) | 基于分布式强化学习的无人机智能仿真训练方法及装置 | |
CN113900380A (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
CN111178486A (zh) | 一种基于种群演化的超参数异步并行搜索方法 | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
CN114065929A (zh) | 一种深度强化学习模型的训练方法、装置及存储介质 | |
CN113419424B (zh) | 减少过估计的模型化强化学习机器人控制方法及系统 | |
CN113313265A (zh) | 基于带噪声专家示范的强化学习方法 | |
Hafez et al. | Topological Q-learning with internally guided exploration for mobile robot navigation | |
CN106502100A (zh) | 多移动机器人的分布式单时滞控制器设计方法 | |
EP3525136A1 (en) | Distributed machine learning system | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
WO2024066675A1 (zh) | 基于时态均衡分析的多智能体多任务分层连续控制方法 | |
CN114995157A (zh) | 多智能体系统在合作竞争关系下的反同步优化控制方法 | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
CN114200830B (zh) | 一种多智能体一致性强化学习控制方法 | |
CN114371729B (zh) | 一种基于距离优先经验回放的无人机空战机动决策方法 | |
CN110610231A (zh) | 一种信息处理方法、电子设备和存储介质 | |
CN113449867B (zh) | 一种基于知识蒸馏的深度强化学习多智能体协作方法 | |
Li et al. | Multi-intersections traffic signal intelligent control using collaborative q-learning algorithm | |
CN113469369A (zh) | 一种面向多任务强化学习的缓解灾难性遗忘的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |