CN114895710A - 一种无人机集群自主行为的控制方法及系统 - Google Patents

一种无人机集群自主行为的控制方法及系统 Download PDF

Info

Publication number
CN114895710A
CN114895710A CN202210607478.5A CN202210607478A CN114895710A CN 114895710 A CN114895710 A CN 114895710A CN 202210607478 A CN202210607478 A CN 202210607478A CN 114895710 A CN114895710 A CN 114895710A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
autonomous behavior
information
decision model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210607478.5A
Other languages
English (en)
Inventor
张婷婷
宋爱国
董会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Army Engineering University of PLA
Original Assignee
Southeast University
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University, Army Engineering University of PLA filed Critical Southeast University
Priority to CN202210607478.5A priority Critical patent/CN114895710A/zh
Publication of CN114895710A publication Critical patent/CN114895710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了无人机控制领域的一种无人机集群自主行为的控制方法及系统,包括:接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;所述自主行为决策模型的训练过程包括:构建自主行为决策模型,通过卷积神经网络对自主行为决策模型进行模拟训练,利用任务奖励Rtask和宽带奖励Rcomm对状态评价函数Q和自主行为决策模型进行迭代更新,训练后自主行为决策模型使无人机集群在通信资源稀缺的战场环境下,提高无人机的通信效率,保证无人机在不同带宽条件下执行任务。

Description

一种无人机集群自主行为的控制方法及系统
技术领域
本发明属于无人机控制领域,具体涉及一种无人机集群自主行为的控制方法及系统。
背景技术
在日益复杂的作战环境和作战任务下,传统无人系统的人机交互技术无法支持操作/指挥人员对集群进行实时决策与控制,需要无人机具备自主、智能完成任务的能力,并展开协同来应对战场的复杂性和动态性。如何实现在不确定作战环境下对战场态势变化的自主响应将是无人机集群完成复杂任务的关键。
同时如何类比指挥员或驾驶员的决策过程来研究无人机的自主性行为和决策机制,对理解、设计和实现无人机自主系统具有重要意义。通信是无人机集群协同决策控制的基础。在通信资源稀缺的战场环境下实现无人机集群的高效通信具有重要意义。目前多智能体强化学习方法在无人机集群自主协同策略研究中应用广泛,但多数方法未考虑有限通信资源带来的影响。
发明内容
本发明的目的在于提供一种无人机集群自主行为的控制方法及系统,在通信资源稀缺的战场环境下,提高无人机在行为决策过程中的通信效率,保证无人机在不同带宽条件下执行任务。
为达到上述目的,本发明所采用的技术方案是:
本发明第一方面提供了一种无人机集群自主行为的控制方法,包括:
接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;
所述自主行为决策模型的训练过程包括:
基于部分可观马尔可夫决策过程构建自主行为决策模型;
通过卷积神经网络对自主行为决策模型进行模拟训练,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm
根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi);
训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新。
优选的,将感知信息oi作为观测信息mi+1发送至其他无人机的方法包括:
通过DSDV协议对各无人机的路由设定序列号,按照信道容量约束条件将观测信息mi+1沿无交叉的有向树网在无人机集群中传播;
所述信道容量约束条件包括:无人机之间的链路为单向链路,各无人机同一时刻间隙发送观测信息m的最大次数为1,观测信息m自发送到无人机集群中最后无人机接收到观测信息mi+1的时延小于一个时刻间隙。
优选的,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm,表达公式为:
Figure BDA0003671933150000021
公式中,gcomm,i表示为第i无人机的通信资源分配量,gcomm表示为无人机集群的通信资源分配量,Rcomm,i表示为第i无人机的宽带奖励;kcomm表示为码元离散电平的数目。
Figure BDA0003671933150000031
Figure BDA0003671933150000032
公式中,B表示为无人机之间的信道带宽;N表示为无人机集群中无人机的数量;L表示为观测信息中符号数量;Nb表示为每个符号所占比特的数量;nm表示为发送观测信息的无人机数量。
优选的,通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励Rcomm和任务奖励Rtask并存入经验池D;
所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态si、动作ai、感知信息oi、观测信息mi、状态评价函数Q的参数θQ和自主行为决策模型的参数θμ
将经验池D中状态评价函数Q的参数θQ历史状态记作hQ;将经验池D中自主行为决策模型的参数θμ历史状态记作hμ
优选的,通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括:采用Recurrent Actor-Critic神经网络对自主行为决策模型进行模拟训练,Recurrent Actor子神经网络对自主行为决策模型进行模拟;Recurrent Critic网络对状态评价函数Q进行模拟。
优选的,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括:
通过将全局态势信息输入自主行为决策模型,获取无人机动作ai的决策;
通过运动模型对无人机动作ai进行执行;所述状态评价函数Q根据执行结果进行评价;
所述运动模型表达公式为:
Figure BDA0003671933150000041
公式中,xi′表示为无人机执行动作ai后的自身状态si′的横向坐标;yi′表示为无人机执行动作ai后的自身状态si′的纵向坐标;xi表示为无人机执行动作ai前的自身状态si的横向坐标;yi表示为无人机执行动作ai前的自身状态si的纵向坐标;vi表示为无人机执行动作ai的速度;
Figure BDA0003671933150000042
表示为无人机执行动作ai的航向角。
优选的,利用损失函数L(θQi)对状态评价函数Q进行迭代更新的方法包括:
由经验池D随机抽取T个样本;样本包括无人机第j时刻的自身状态sj、无人机第j时刻的动作aj、无人机第j时刻执行动作aj后的自身状态sj′和第i无人机第j时刻的奖励值
Figure BDA0003671933150000043
通过损失函数L(θQi)计算T个样本的损失值,根据损失值对状态评价函数Q进行迭代更新;
所述损失函数L(θQi)表达公式为
Figure BDA0003671933150000044
Figure BDA0003671933150000045
公式中,h′μ表示为更新后的经验池D中自主行为决策模型的参数θμ历史状态;h′Q表示为更新后的经验池D中状态评价函数Q的参数θQ历史状态;
Figure BDA0003671933150000046
表示为在j时刻第i无人机的奖励值;
Figure BDA0003671933150000047
表示为评价第i无人机执行任务μi的状态评价函数Q;μi(·)表示为第i无人机执行的任务;γ表示为折扣因子,γ∈[0,1]。
优选的,累计回报期望值函数J(μi)的表述公式为
Figure BDA0003671933150000051
Ri=(Rcomm,i+Rtask,i)
公式中,E表示为奖励值权重值Ri,t表示为自主行为决策模型的训练次数。
本发明第二方面提供了一种无人机集群自主行为的控制系统,包括:
全局态势信息采集模块,接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
无人机决策模块;用于将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;
模型构建模块,基于部分可观马尔可夫决策过程构建自主行为决策模型;
模型训练模块,用于通过卷积神经网络对自主行为决策模型进行模拟训练,训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新;
训练评价模块,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm;根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi)。
本发明第三方面提供了计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现所述控制方法的步骤。
与现有技术相比,本发明的有益效果:
本发明利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm;利用任务奖励Rtask和宽带奖励Rcomm对状态评价函数Q和自主行为决策模型进行迭代更新,训练后自主行为决策模型使无人机集群在通信资源稀缺的战场环境下,提高无人机在行为决策过程中的通信效率,保证无人机在不同带宽条件下执行任务。
附图说明
图1是本发明实施例提供的无人机自主行为决策模型的结构图;
图2是本发明实施例提供的无人机运动模型的结构图;
图3是本发明实施例提供的无人机集群通信的路径图;
图4是本发明实施例提供的不同带宽条件下无人机的学习曲线图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
如图1所示,本实施例提供了一种无人机集群自主行为的控制方法,包括:
接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;无人机i基于通信的自主行为决策模型可以表示为μi(ai|oi,m-i);
将感知信息oi作为观测信息mi+1发送至其他无人机的方法包括:
如图3所示,通过DSDV协议对各无人机的路由设定序列号,通过给每个路由设定序列号避免了路由环路的产生,信息根据经过的链路数来选择传输路径;按照信道容量约束条件将观测信息mi+1沿无交叉的有向树网在无人机集群中传播;所述信道容量约束条件包括:无人机之间的链路为单向链路,各无人机同一时刻间隙发送观测信息m的最大次数为1,观测信息m自发送到无人机集群中最后无人机接收到观测信息mi+1的时延小于一个时刻间隙。
无人机之间采用频分多址接入协议(Frequency Division Multiple Access,FDMA),将无线信道资源按照当前时刻所需的链路数量平均分成为若干个子信道,每条物理链路分得一个子信道。
表1为通信网路的路由协议
Figure BDA0003671933150000071
所述自主行为决策模型的训练过程包括:
基于部分可观马尔可夫决策过程构建自主行为决策模型;通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括:
采用Recurrent Actor-Critic神经网络对自主行为决策模型进行模拟训练,Recurrent Actor子神经网络对自主行为决策模型进行模拟;Recurrent Critic网络对状态评价函数Q进行模拟。
通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励Rcomm和任务奖励Rtask并存入经验池D;
所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态si、动作ai、感知信息oi、观测信息mi、状态评价函数Q的参数θQ和自主行为决策模型的参数θμ
将经验池D中状态评价函数Q的参数θQ历史状态记作hQ;将经验池D中自主行为决策模型的参数θμ历史状态记作hμ
利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括:
如图2所示,通过将全局态势信息输入自主行为决策模型,获取无人机动作ai的决策;通过运动模型对无人机动作ai进行执行;所述状态评价函数Q根据执行结果进行评价,获得无人机集群的任务奖励Rtask
假设所有无人机的飞行高度恒定,无人机i的自身状态用si=[xi,yi]描述,所述运动模型表达公式为:
Figure BDA0003671933150000081
公式中,xi′表示为无人机执行动作ai后的自身状态si′的横向坐标;yi′表示为无人机执行动作ai后的自身状态si′的纵向坐标;xi表示为无人机执行动作ai前的自身状态si的横向坐标;yi表示为无人机执行动作ai前的自身状态si的纵向坐标;vi表示为无人机执行动作ai的速度;
Figure BDA0003671933150000082
表示为无人机执行动作ai的航向角。
根据信道容量约束条件计算无人机集群的宽带奖励Rcomm的方法包括:
宽带奖励Rcomm表达公式为:
Figure BDA0003671933150000091
Figure BDA0003671933150000092
Figure BDA0003671933150000093
公式中,gcomm,i表示为第i无人机的通信资源分配量,gcomm表示为无人机集群的通信资源分配量,Rcomm,i表示为第i无人机的宽带奖励;kcomm表示为码元离散电平的数目;B表示为无人机之间的信道带宽;N表示为无人机集群中无人机的数量;L表示为观测信息中符号数量;Nb表示为每个符号所占比特的数量;nm表示为发送观测信息的无人机数量。
根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi);
利用损失函数L(θQi)对状态评价函数Q进行迭代更新的方法包括:
由经验池D随机抽取T个样本;样本包括无人机第j时刻的自身状态sj、无人机第j时刻的动作aj、无人机第j时刻执行动作aj后的自身状态sj′和第i无人机第j时刻的奖励值
Figure BDA0003671933150000094
通过损失函数L(θQi)计算T个样本的损失值,根据损失值对状态评价函数Q进行迭代更新;
所述损失函数L(θQi)表达公式为
Figure BDA0003671933150000095
Figure BDA0003671933150000096
公式中,h′μ表示为更新后的经验池D中自主行为决策模型的参数θμ历史状态;h′Q表示为更新后的经验池D中状态评价函数Q的参数θQ历史状态;
Figure BDA0003671933150000101
表示为在j时刻第i无人机的奖励值;
Figure BDA0003671933150000102
表示为评价第i无人机执行任务μi的状态评价函数Q;μi(·)表示为第i无人机执行的任务;γ表示为折扣因子,γ∈[0,1]。
累计回报期望值函数J(μi)的表述公式为
Figure BDA0003671933150000103
Ri=(Rcomm,i+Rtask,i)
公式中,E表示为奖励值权重值Ri,t表示为自主行为决策模型的训练次数。
训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新。
本发明在课题组自建的无人作战Swarmflow仿真平台中模拟了带宽受限作战场景下的无人机空中对抗;该仿真环境基于大洞山卫星地图模拟了真实的空域作战环境,选取2000m×2000m的空域作为交战区域。在该空域内敌我双方的无人机群以2:4兵力态势的进行对抗,无人机以离散的时间步长同时进行决策并采取行动。
将空中对抗任务简化为对抗性质的协同攻击,双方的作战目标是尽可能地通过协同来攻击对方获得奖励,假设无人机可以目测敌机与自己的方位角。如果一方有两个以上的无人机和敌方一个无人机相遇,参与攻击的无人机将获得奖励,被围攻的敌机将得到惩罚,反之亦然。同时无人机的航向角越接近与目标敌机的方位角,得到的负奖励值越小。
由于战场上可利用的信道带宽有限,双方无人机需要采用高效的通信方式避免频繁通信,设定战场上双方可用带宽大小为B,将折扣因子γ设定为0.9,仿真时间步长设定为0.1,批样本数设定为64;训练回合数设定为12000;每回合最多仿真的时间步数设定为3000000;为验证所提方法可以降低带宽消耗的同时,保持无人机的协同能力,分别在不同带宽大小场景下重复了实验,如图4所示,结果表明带宽越小,无人机策略学习的速度越慢,同时训练前期的奖励值越小。
实施例二
本实施例提供了一种无人机集群自主行为的控制系统,本实施例提供控制系统可以应用于实施例一所述控制方法,控制系统包括:
全局态势信息采集模块,接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
无人机决策模块;用于将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;
模型构建模块,基于部分可观马尔可夫决策过程构建自主行为决策模型;
模型训练模块,用于通过卷积神经网络对自主行为决策模型进行模拟训练,训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新;
训练评价模块,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm;根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi)。
实施例三
本实施例提供了计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现实施例一所述无人机集群自主行为的控制方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种无人机集群自主行为的控制方法,其特征在于,包括:
接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;
所述自主行为决策模型的训练过程包括:
基于部分可观马尔可夫决策过程构建自主行为决策模型;
通过卷积神经网络对自主行为决策模型进行模拟训练,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm
根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi);训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新。
2.根据权利要求1所述的一种无人机集群自主行为的控制方法,其特征在于,将感知信息oi作为观测信息mi+1发送至其他无人机的方法包括:
通过DSDV协议对各无人机的路由设定序列号,按照信道容量约束条件将观测信息mi+1沿无交叉的有向树网在无人机集群中传播;所述信道容量约束条件包括:无人机之间的链路为单向链路,各无人机同一时刻间隙发送观测信息m的最大次数为1,观测信息m自发送到无人机集群中最后无人机接收到观测信息mi+1的时延小于一个时刻间隙。
3.根据权利要求2所述的一种无人机集群自主行为的控制方法,其特征在于,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm,表达公式为:
Figure FDA0003671933140000021
Figure FDA0003671933140000022
Figure FDA0003671933140000023
公式中,gcomm,i表示为第i无人机的通信资源分配量,gcomm表示为无人机集群的通信资源分配量,Rcomm,i表示为第i无人机的宽带奖励;kcomm表示为码元离散电平的数目;B表示为无人机之间的信道带宽;N表示为无人机集群中无人机的数量;L表示为观测信息中符号数量;Nb表示为每个符号所占比特的数量;nm表示为发送观测信息的无人机数量。
4.根据权利要求3所述的一种无人机集群自主行为的控制方法,其特征在于,通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励Rcomm和任务奖励Rtask并存入经验池D;所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态si、动作ai、感知信息oi、观测信息mi、状态评价函数Q的参数θQ和自主行为决策模型的参数θμ;将经验池D中状态评价函数Q的参数θQ历史状态记作hQ;将经验池D中自主行为决策模型的参数θμ历史状态记作hμ
5.根据权利要求4所述的一种无人机集群自主行为的控制方法,其特征在于,通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括:
采用Recurrent Actor-Critic神经网络对自主行为决策模型进行模拟训练,Recurrent Actor子神经网络对自主行为决策模型进行模拟;Recurrent Critic网络对状态评价函数Q进行模拟。
6.根据权利要求4所述的一种无人机集群自主行为的控制方法,其特征在于,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括:
通过将全局态势信息输入自主行为决策模型,获取无人机动作ai的决策;通过运动模型对无人机动作ai进行执行;所述状态评价函数Q根据执行结果进行评价;
所述运动模型表达公式为:
Figure FDA0003671933140000031
公式中,xi′表示为无人机执行动作ai后的自身状态si′的横向坐标;yi′表示为无人机执行动作ai后的自身状态si′的纵向坐标;xi表示为无人机执行动作ai前的自身状态si的横向坐标;yi表示为无人机执行动作ai前的自身状态si的纵向坐标;vi表示为无人机执行动作ai的速度;
Figure FDA0003671933140000033
表示为无人机执行动作ai的航向角。
7.根据权利要求6所述的一种无人机集群自主行为的控制方法,其特征在于,利用损失函数L(θQi)对状态评价函数Q进行迭代更新的方法包括:
由经验池D随机抽取T个样本;样本包括无人机第j时刻的自身状态sj、无人机第j时刻的动作aj、无人机第j时刻执行动作aj后的自身状态sj′和第i无人机第j时刻的奖励值
Figure FDA0003671933140000032
通过损失函数L(θQi)计算T个样本的损失值,根据损失值对状态评价函数Q进行迭代更新;
所述损失函数L(θQi)表达公式为
Figure FDA0003671933140000041
Figure FDA0003671933140000042
公式中,h′μ表示为更新后的经验池D中自主行为决策模型的参数θμ历史状态;h′Q表示为更新后的经验池D中状态评价函数Q的参数θQ历史状态;
Figure FDA0003671933140000043
表示为在j时刻第i无人机的奖励值;
Figure FDA0003671933140000044
表示为评价第i无人机执行任务μi的状态评价函数Q;μi(·)表示为第i无人机执行的任务;γ表示为折扣因子,γ∈[0,1]。
8.根据权利要求7所述的一种无人机集群自主行为的控制方法,其特征在于,累计回报期望值函数J(μi)的表述公式为
Figure FDA0003671933140000045
Ri=(Rcomm,i+Rtask,i)
公式中,E表示为奖励值权重值Ri,t表示为自主行为决策模型的训练次数。
9.一种无人机集群自主行为的控制系统,其特征在于,包括:
全局态势信息采集模块,接收其他无人机发送的观测信息mi并采集周围环境的感知信息oi,获取全局态势信息;
无人机决策模块;用于将全局态势信息输入至训练好的自主行为决策模型,获取无人机动作ai;将感知信息oi作为观测信息mi+1至其他无人机;
模型构建模块,基于部分可观马尔可夫决策过程构建自主行为决策模型;
模型训练模块,用于通过卷积神经网络对自主行为决策模型进行模拟训练,训练过程中利用损失函数L(θQi)对状态评价函数Q进行迭代更新,利用累计回报期望值函数J(μi)的策略梯度对自主行为决策模型进行迭代更新;
训练评价模块,利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价,获得无人机集群的任务奖励Rtask,根据信道容量约束条件计算无人机集群的宽带奖励Rcomm;根据无人机集群的训练状态信息、宽带奖励Rcomm和任务奖励Rtask建立损失函数L(θQi)和累计回报期望值函数J(μi)。
10.计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至权利要求8任意一项所述无人机集群自主行为的控制方法步骤。
CN202210607478.5A 2022-05-31 2022-05-31 一种无人机集群自主行为的控制方法及系统 Pending CN114895710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607478.5A CN114895710A (zh) 2022-05-31 2022-05-31 一种无人机集群自主行为的控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607478.5A CN114895710A (zh) 2022-05-31 2022-05-31 一种无人机集群自主行为的控制方法及系统

Publications (1)

Publication Number Publication Date
CN114895710A true CN114895710A (zh) 2022-08-12

Family

ID=82725241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607478.5A Pending CN114895710A (zh) 2022-05-31 2022-05-31 一种无人机集群自主行为的控制方法及系统

Country Status (1)

Country Link
CN (1) CN114895710A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115981369A (zh) * 2023-01-09 2023-04-18 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN115981369B (zh) * 2023-01-09 2023-12-01 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法

Similar Documents

Publication Publication Date Title
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN109990790A (zh) 一种无人机路径规划方法及装置
CN113919485B (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN111008449A (zh) 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
CN112801540B (zh) 基于无人集群的智能协同架构设计方法
CN113298260B (zh) 一种基于深度强化学习的对抗仿真推演方法
CN110162065A (zh) 一种基于有向跟随的自适应多智能体编队控制方法
CN111580544A (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN111898770B (zh) 一种多智能体强化学习方法、电子设备及存储介质
CN111178496A (zh) 多代理强化学习合作任务场景下的代理间交换知识的方法
CN112462602B (zh) 一种在DoS攻击下保持移动舞台车队安全间距的分布式控制方法
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
CN114895710A (zh) 一种无人机集群自主行为的控制方法及系统
CN113406965A (zh) 一种基于强化学习的无人机能耗优化方法
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN113554680A (zh) 目标跟踪方法、装置、无人机和存储介质
CN109752952A (zh) 一种获取多维随机分布及强化控制器的方法和装置
CN117648548A (zh) 基于离线-在线混合强化学习的智能决策方法和装置
CN113382060A (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN116757249A (zh) 一种基于分布式强化学习的无人机集群策略意图识别方法
CN116400726A (zh) 一种基于强化学习的旋翼无人机逃逸方法及系统
WO2023038605A1 (en) Autonomous virtual entities continuously learning from experience
CN114371634B (zh) 一种基于多级事后经验回放的无人机作战模拟仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination