CN114895710A

CN114895710A - 一种无人机集群自主行为的控制方法及系统

Info

Publication number: CN114895710A
Application number: CN202210607478.5A
Authority: CN
Inventors: 张婷婷; 宋爱国; 董会
Original assignee: Southeast University; Army Engineering University of PLA
Current assignee: Southeast University; Army Engineering University of PLA
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-12

Abstract

本发明公开了无人机控制领域的一种无人机集群自主行为的控制方法及系统，包括：接收其他无人机发送的观测信息m_i并采集周围环境的感知信息o_i，获取全局态势信息；将全局态势信息输入至训练好的自主行为决策模型，获取无人机动作a_i；将感知信息o_i作为观测信息m_i+1至其他无人机；所述自主行为决策模型的训练过程包括：构建自主行为决策模型，通过卷积神经网络对自主行为决策模型进行模拟训练，利用任务奖励R_task和宽带奖励R_comm对状态评价函数Q和自主行为决策模型进行迭代更新，训练后自主行为决策模型使无人机集群在通信资源稀缺的战场环境下，提高无人机的通信效率，保证无人机在不同带宽条件下执行任务。

Description

一种无人机集群自主行为的控制方法及系统

技术领域

本发明属于无人机控制领域，具体涉及一种无人机集群自主行为的控制方法及系统。

背景技术

在日益复杂的作战环境和作战任务下，传统无人系统的人机交互技术无法支持操作/指挥人员对集群进行实时决策与控制，需要无人机具备自主、智能完成任务的能力，并展开协同来应对战场的复杂性和动态性。如何实现在不确定作战环境下对战场态势变化的自主响应将是无人机集群完成复杂任务的关键。

同时如何类比指挥员或驾驶员的决策过程来研究无人机的自主性行为和决策机制，对理解、设计和实现无人机自主系统具有重要意义。通信是无人机集群协同决策控制的基础。在通信资源稀缺的战场环境下实现无人机集群的高效通信具有重要意义。目前多智能体强化学习方法在无人机集群自主协同策略研究中应用广泛，但多数方法未考虑有限通信资源带来的影响。

发明内容

本发明的目的在于提供一种无人机集群自主行为的控制方法及系统，在通信资源稀缺的战场环境下，提高无人机在行为决策过程中的通信效率，保证无人机在不同带宽条件下执行任务。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种无人机集群自主行为的控制方法，包括：

接收其他无人机发送的观测信息m_i并采集周围环境的感知信息o_i，获取全局态势信息；

将全局态势信息输入至训练好的自主行为决策模型，获取无人机动作a_i；将感知信息o_i作为观测信息m_i+1至其他无人机；

所述自主行为决策模型的训练过程包括：

基于部分可观马尔可夫决策过程构建自主行为决策模型；

通过卷积神经网络对自主行为决策模型进行模拟训练，利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价，获得无人机集群的任务奖励R_task，根据信道容量约束条件计算无人机集群的宽带奖励R_comm；

根据无人机集群的训练状态信息、宽带奖励R_comm和任务奖励R_task建立损失函数L(θ_Qi)和累计回报期望值函数J(μ_i)；

训练过程中利用损失函数L(θ_Qi)对状态评价函数Q进行迭代更新，利用累计回报期望值函数J(μ_i)的策略梯度对自主行为决策模型进行迭代更新。

优选的，将感知信息o_i作为观测信息m_i+1发送至其他无人机的方法包括：

通过DSDV协议对各无人机的路由设定序列号，按照信道容量约束条件将观测信息m_i+1沿无交叉的有向树网在无人机集群中传播；

所述信道容量约束条件包括：无人机之间的链路为单向链路，各无人机同一时刻间隙发送观测信息m的最大次数为1，观测信息m自发送到无人机集群中最后无人机接收到观测信息m_i+1的时延小于一个时刻间隙。

优选的，根据信道容量约束条件计算无人机集群的宽带奖励R_comm，表达公式为：

公式中，g_comm,i表示为第i无人机的通信资源分配量，g_comm表示为无人机集群的通信资源分配量，R_comm,i表示为第i无人机的宽带奖励；k_comm表示为码元离散电平的数目。

公式中，B表示为无人机之间的信道带宽；N表示为无人机集群中无人机的数量；L表示为观测信息中符号数量；N_b表示为每个符号所占比特的数量；n_m表示为发送观测信息的无人机数量。

优选的，通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励R_comm和任务奖励R_task并存入经验池D；

所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态s_i、动作a_i、感知信息o_i、观测信息m_i、状态评价函数Q的参数θ_Q和自主行为决策模型的参数θ_μ；

将经验池D中状态评价函数Q的参数θ_Q历史状态记作h_Q；将经验池D中自主行为决策模型的参数θ_μ历史状态记作h_μ。

优选的，通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括：采用Recurrent Actor-Critic神经网络对自主行为决策模型进行模拟训练，Recurrent Actor子神经网络对自主行为决策模型进行模拟；Recurrent Critic网络对状态评价函数Q进行模拟。

优选的，利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括：

通过将全局态势信息输入自主行为决策模型，获取无人机动作a_i的决策；

通过运动模型对无人机动作a_i进行执行；所述状态评价函数Q根据执行结果进行评价；

所述运动模型表达公式为：

公式中，x_i′表示为无人机执行动作a_i后的自身状态s_i′的横向坐标；y_i′表示为无人机执行动作a_i后的自身状态s_i′的纵向坐标；x_i表示为无人机执行动作a_i前的自身状态s_i的横向坐标；y_i表示为无人机执行动作a_i前的自身状态s_i的纵向坐标；v_i表示为无人机执行动作a_i的速度；

表示为无人机执行动作a_i的航向角。

优选的，利用损失函数L(θ_Qi)对状态评价函数Q进行迭代更新的方法包括：

由经验池D随机抽取T个样本；样本包括无人机第j时刻的自身状态s^j、无人机第j时刻的动作a^j、无人机第j时刻执行动作a^j后的自身状态s^j′和第i无人机第j时刻的奖励值

通过损失函数L(θ_Qi)计算T个样本的损失值，根据损失值对状态评价函数Q进行迭代更新；

所述损失函数L(θ_Qi)表达公式为

公式中，h′_μ表示为更新后的经验池D中自主行为决策模型的参数θ_μ历史状态；h′_Q表示为更新后的经验池D中状态评价函数Q的参数θ_Q历史状态；

表示为在j时刻第i无人机的奖励值；

表示为评价第i无人机执行任务μ_i的状态评价函数Q；μ_i(·)表示为第i无人机执行的任务；γ表示为折扣因子，γ∈[0,1]。

优选的，累计回报期望值函数J(μ_i)的表述公式为

R_i＝(R_comm,i+R_task,i)

公式中，E表示为奖励值权重值R_i，t表示为自主行为决策模型的训练次数。

本发明第二方面提供了一种无人机集群自主行为的控制系统，包括：

全局态势信息采集模块，接收其他无人机发送的观测信息m_i并采集周围环境的感知信息o_i，获取全局态势信息；

无人机决策模块；用于将全局态势信息输入至训练好的自主行为决策模型，获取无人机动作a_i；将感知信息o_i作为观测信息m_i+1至其他无人机；

模型构建模块，基于部分可观马尔可夫决策过程构建自主行为决策模型；

模型训练模块，用于通过卷积神经网络对自主行为决策模型进行模拟训练，训练过程中利用损失函数L(θ_Qi)对状态评价函数Q进行迭代更新，利用累计回报期望值函数J(μ_i)的策略梯度对自主行为决策模型进行迭代更新；

训练评价模块，利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价，获得无人机集群的任务奖励R_task，根据信道容量约束条件计算无人机集群的宽带奖励R_comm；根据无人机集群的训练状态信息、宽带奖励R_comm和任务奖励R_task建立损失函数L(θ_Qi)和累计回报期望值函数J(μ_i)。

本发明第三方面提供了计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现所述控制方法的步骤。

与现有技术相比，本发明的有益效果：

本发明利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价，获得无人机集群的任务奖励R_task，根据信道容量约束条件计算无人机集群的宽带奖励R_comm；利用任务奖励R_task和宽带奖励R_comm对状态评价函数Q和自主行为决策模型进行迭代更新，训练后自主行为决策模型使无人机集群在通信资源稀缺的战场环境下，提高无人机在行为决策过程中的通信效率，保证无人机在不同带宽条件下执行任务。

附图说明

图1是本发明实施例提供的无人机自主行为决策模型的结构图；

图2是本发明实施例提供的无人机运动模型的结构图；

图3是本发明实施例提供的无人机集群通信的路径图；

图4是本发明实施例提供的不同带宽条件下无人机的学习曲线图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

如图1所示，本实施例提供了一种无人机集群自主行为的控制方法，包括：

将全局态势信息输入至训练好的自主行为决策模型，获取无人机动作a_i；无人机i基于通信的自主行为决策模型可以表示为μ_i(a_i|o_i,m_-i)；

将感知信息o_i作为观测信息m_i+1发送至其他无人机的方法包括：

如图3所示，通过DSDV协议对各无人机的路由设定序列号，通过给每个路由设定序列号避免了路由环路的产生，信息根据经过的链路数来选择传输路径；按照信道容量约束条件将观测信息m_i+1沿无交叉的有向树网在无人机集群中传播；所述信道容量约束条件包括：无人机之间的链路为单向链路，各无人机同一时刻间隙发送观测信息m的最大次数为1，观测信息m自发送到无人机集群中最后无人机接收到观测信息m_i+1的时延小于一个时刻间隙。

无人机之间采用频分多址接入协议(Frequency Division Multiple Access，FDMA)，将无线信道资源按照当前时刻所需的链路数量平均分成为若干个子信道，每条物理链路分得一个子信道。

表1为通信网路的路由协议

所述自主行为决策模型的训练过程包括：

基于部分可观马尔可夫决策过程构建自主行为决策模型；通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括：

采用Recurrent Actor-Critic神经网络对自主行为决策模型进行模拟训练，Recurrent Actor子神经网络对自主行为决策模型进行模拟；Recurrent Critic网络对状态评价函数Q进行模拟。

通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励R_comm和任务奖励R_task并存入经验池D；

利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括：

如图2所示，通过将全局态势信息输入自主行为决策模型，获取无人机动作a_i的决策；通过运动模型对无人机动作a_i进行执行；所述状态评价函数Q根据执行结果进行评价，获得无人机集群的任务奖励R_task。

假设所有无人机的飞行高度恒定，无人机i的自身状态用s_i＝[x_i,y_i]描述，所述运动模型表达公式为：

表示为无人机执行动作a_i的航向角。

根据信道容量约束条件计算无人机集群的宽带奖励R_comm的方法包括：

宽带奖励R_comm表达公式为：

公式中，g_comm,i表示为第i无人机的通信资源分配量，g_comm表示为无人机集群的通信资源分配量，R_comm,i表示为第i无人机的宽带奖励；k_comm表示为码元离散电平的数目；B表示为无人机之间的信道带宽；N表示为无人机集群中无人机的数量；L表示为观测信息中符号数量；N_b表示为每个符号所占比特的数量；n_m表示为发送观测信息的无人机数量。

利用损失函数L(θ_Qi)对状态评价函数Q进行迭代更新的方法包括：

所述损失函数L(θ_Qi)表达公式为

表示为在j时刻第i无人机的奖励值；

累计回报期望值函数J(μ_i)的表述公式为

R_i＝(R_comm,i+R_task,i)

本发明在课题组自建的无人作战Swarmflow仿真平台中模拟了带宽受限作战场景下的无人机空中对抗；该仿真环境基于大洞山卫星地图模拟了真实的空域作战环境，选取2000m×2000m的空域作为交战区域。在该空域内敌我双方的无人机群以2:4兵力态势的进行对抗，无人机以离散的时间步长同时进行决策并采取行动。

将空中对抗任务简化为对抗性质的协同攻击，双方的作战目标是尽可能地通过协同来攻击对方获得奖励，假设无人机可以目测敌机与自己的方位角。如果一方有两个以上的无人机和敌方一个无人机相遇，参与攻击的无人机将获得奖励，被围攻的敌机将得到惩罚，反之亦然。同时无人机的航向角越接近与目标敌机的方位角，得到的负奖励值越小。

由于战场上可利用的信道带宽有限，双方无人机需要采用高效的通信方式避免频繁通信，设定战场上双方可用带宽大小为B，将折扣因子γ设定为0.9，仿真时间步长设定为0.1，批样本数设定为64；训练回合数设定为12000；每回合最多仿真的时间步数设定为3000000；为验证所提方法可以降低带宽消耗的同时，保持无人机的协同能力，分别在不同带宽大小场景下重复了实验，如图4所示，结果表明带宽越小，无人机策略学习的速度越慢，同时训练前期的奖励值越小。

实施例二

本实施例提供了一种无人机集群自主行为的控制系统，本实施例提供控制系统可以应用于实施例一所述控制方法，控制系统包括：

实施例三

本实施例提供了计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述无人机集群自主行为的控制方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种无人机集群自主行为的控制方法，其特征在于，包括：

所述自主行为决策模型的训练过程包括：

基于部分可观马尔可夫决策过程构建自主行为决策模型；

根据无人机集群的训练状态信息、宽带奖励R_comm和任务奖励R_task建立损失函数L(θ_Qi)和累计回报期望值函数J(μ_i)；训练过程中利用损失函数L(θ_Qi)对状态评价函数Q进行迭代更新，利用累计回报期望值函数J(μ_i)的策略梯度对自主行为决策模型进行迭代更新。

2.根据权利要求1所述的一种无人机集群自主行为的控制方法，其特征在于，将感知信息o_i作为观测信息m_i+1发送至其他无人机的方法包括：

通过DSDV协议对各无人机的路由设定序列号，按照信道容量约束条件将观测信息m_i+1沿无交叉的有向树网在无人机集群中传播；所述信道容量约束条件包括：无人机之间的链路为单向链路，各无人机同一时刻间隙发送观测信息m的最大次数为1，观测信息m自发送到无人机集群中最后无人机接收到观测信息m_i+1的时延小于一个时刻间隙。

3.根据权利要求2所述的一种无人机集群自主行为的控制方法，其特征在于，根据信道容量约束条件计算无人机集群的宽带奖励R_comm，表达公式为：

4.根据权利要求3所述的一种无人机集群自主行为的控制方法，其特征在于，通过递归神经网络LSTM记忆无人机集群的状态训练信息、宽带奖励R_comm和任务奖励R_task并存入经验池D；所述无人机集群的状态训练信息包括无人机集群中各无人机的自身状态s_i、动作a_i、感知信息o_i、观测信息m_i、状态评价函数Q的参数θ_Q和自主行为决策模型的参数θ_μ；将经验池D中状态评价函数Q的参数θ_Q历史状态记作h_Q；将经验池D中自主行为决策模型的参数θ_μ历史状态记作h_μ。

5.根据权利要求4所述的一种无人机集群自主行为的控制方法，其特征在于，通过卷积神经网络对自主行为决策模型进行模拟训练的方法包括：

6.根据权利要求4所述的一种无人机集群自主行为的控制方法，其特征在于，利用状态评价函数Q对训练过程中自主行为决策模型的决策进行评价的方法包括：

通过将全局态势信息输入自主行为决策模型，获取无人机动作a_i的决策；通过运动模型对无人机动作a_i进行执行；所述状态评价函数Q根据执行结果进行评价；

所述运动模型表达公式为：