CN115826627A

CN115826627A - 一种编队指令的确定方法、系统、设备及存储介质

Info

Publication number: CN115826627A
Application number: CN202310144556.7A
Authority: CN
Inventors: 曹一丁; 黄安付; 郭伟; 李唯; 尹辉
Original assignee: Baiyang Times Beijing Technology Co ltd
Current assignee: Baiyang Times Beijing Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-03-21

Abstract

本申请提供了一种编队指令的确定方法、系统、设备及存储介质。在执行所述方法时，根据数字战场中的若干个单位和全局信息确定态势输入数据，将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；根据所述第一表示向量和LSTM层确定输出结果；根据所述输出结果确定动作谓语、动作宾语和动作主语；根据所述动作谓语、动作宾语和动作主语生成编队指令。相比于队形控制策略中需要无人机局部感知和信息共享机制可能存在的信息缺失问题，本申请改良了当一架或几架无人机阵亡/被击落，影响信息共享的情况，其他无人机可以得到战场信息重新进行编队，提高了编队效率。

Description

一种编队指令的确定方法、系统、设备及存储介质

技术领域

本申请涉及作战信息融合技术领域，尤其涉及一种编队指令的确定方法、系统、设备及存储介质。

背景技术

无人机作为一种非载人飞行器仅需远程无线操控或提前设置的控制程序即可完成预定任务。因为其成本低、灵活性高和机动性强等优势，无人机已经在民用和军用领域被广泛应用。多架无人机组成的无人机编队，除了拥有单机的优势外，还具备区域范围广、侦查和打击成功率高等特点。所以无人机编队逐渐成为执行任务的主要载体，因此引发对此的研究热潮。

当前，无人机现有的编队方法中仍存在缺陷，一方面，无人机编队控制方法中无人机之间不共享信息时，只需要预先制定好每架无人机的飞行路线，它们就可以按照程序要求形成编队队形，并在空中进行队形变换。采用这种方法设计的编队系统，对操作指令的设计的依赖性较强，一旦指令设计出错，将产生无法挽回的损失；另一方面，无人机编队控制过程中，若编队成员共享信息时，无人机之间通过通信网络发送和接收其他无人机的消息，从而实现分布式协同编队，但是相对的，无人机编队要求每个个体同时具有高度的自主决策能力和很强的合作飞行能力，自主决策能力要求无人机能对环境进行检测，及时处理相关数据，做出决策，驱动无人机执行控制指令；合作性要求编队成员之间能够组成一个相互协作的整体，面对复杂飞行环境时可以共同行动，对编队成员的要求性较高，当出现个别人员决策失误时，将产生无法挽回的巨大损失。

因此，解决使用队形控制策略的传统多无人机编队方法，解决无人机局部感知，因一架或几架无人机阵亡/被击落和个体决策动作影响信息共享，同时可能无法继续编队的缺陷，是本领域技术人员急需解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种编队指令的确定方法、系统、设备及存储介质，旨在实现基于PPO算法的集中控制多无人机重组编队。

第一方面，一种编队指令的确定方法，所述方法包括：

根据数字战场中的若干个单位和全局信息确定态势输入数据，所述单位包括第一方单位、第二方攻击单位和第二方待侦察单位；

将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；

根据所述第一表示向量和LSTM层确定输出结果；

根据所述输出结果确定动作谓语、动作宾语和动作主语；

根据所述动作谓语、动作宾语和动作主语生成编队指令。

可选的，所述根据数字战场中的若干个单位和全局信息确定态势输入数据包括：

获取数字战场上的单位和全局信息；

表征各个单位的特征，得到每个单位对应的向量；

将每个单位、各单位对应的向量和所述全局信息确定为态势输入数据。

可选的，所述态势输入数据包括第一方无人机状态信息、第二方攻击单位状态、第二方待侦查单位信息和全局信息，所述将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量包括：

将前三类态势输入数据经过全连接网络处理提取出所述前三类态势输入数据各自对应的态势特征；

所述全局信息经过卷积神经网络变化后，再经过全连接网络处理，得到全局信息处理结果；

组合连接所述前三类态势输入数据各自对应的态势特征和所述全局信息处理结果，得到组合结果；

将所述组合结果输入全连接网络进行决策推理，得到第一表示向量。

可选的，所述根据所述输出结果确定动作谓语、动作宾语和动作主语包括：

所述输出结果经过全连接后输出动作谓语；

根据所述输出结果和备选第一方单位经过分组网络计算得到动作主语；

响应于所述动作谓语为移动，所述输出结果经过全连接输出移动方向；

响应于所述动作谓语为侦察，所述输出结果与备选第二方单位计算注意力机制分数，生成动作宾语，所述动作宾语用于指示待侦察目标或移动方向。

可选的，所述将所述态势输入数据输入神经网络结构经过多层处理之前，还包括：

设置奖励函数，结合PPO算法对神经网络架构进行训练，得到训练好的神经网络结构；

所述结合PPO算法对神经网络架构进行训练，得到训练好的神经网络结构，包括：

获取环境信息，输入第一Actor网络获得动作分布；

从所述动作分布中采样第一动作，输入至环境获得并储存奖惩值和下一时刻的环境状态；

将所述下一时刻的环境状态输入所述第一Actor网络循环，储存生成环境状态集合和动作集合，所述环境状态集合包括若干条环境状态，所述动作集合包括若干条动作；

获取循环结束时对应的环境状态，将其输入至第一Critic网络，获得第一价值量；

将所述环境状态集合中所有的环境状态组合输入第一Critic网络，获得每个环境状态的价值量；

根据所述每个环境状态的价值量和所述第一价值量确定优势值；

根据每一步的优势值计算第一损失函数，更新所述第一Critic网络；

根据所述第一Actor网络、第二Actor网络、所述环境状态集合和所述动作集合确定重要性权重；

根据所述重要性权重、所述优势值和贪心算法确定第二损失函数，更新所述第一Actor网络；

响应于所述第一Actor网络更新完毕生成第三Actor网络，获取所述第三Actor网络的权重更新所述第二Actor网络。

可选的，所述设置奖励函数，包括：

设置主线奖励函数和辅助奖励函数，所述主线奖励函数根据是否编队飞行完成侦察任务设置加分，所述辅助奖励函数根据超出编队限制机间距离的第一方无人机数量、稳定保持编队时间、第一方无人机被击落数量和第一方完成任务时间中的任意一个设置；

根据所述主线奖励函数和所述辅助奖励函数线性组合生成奖励函数。

可选的，所述根据所述第一Actor网络、第二Actor网络、所述环境状态集合和所述动作集合确定重要性权重，包括：

将所述环境状态集合中所有的环境状态输入所述第一Actor网络和所述第二Actor网络，获得第一正态分布随机数的生成函数和第二正态分布随机数的生成函数；将所述动作集合中所有的动作输入所述第一正态分布随机数的生成函数和第二正态分布随机数的生成函数，获得第一伴随概率和第二伴随概率；

将所述第一伴随概率和第二伴随概率相除获得重要性权重。

第二方面，本申请实施例提供了一种编队指令的确定系统，其特征在于，所述系统包括：

态势输入数据确定单元，用于根据数字战场中的若干个单位和全局信息确定态势输入数据，所述单位包括第一方单位、第二方攻击单位和第二方待侦察单位；

第一表示向量确定单元，用于将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；

输出结果确定单元，用于根据所述第一表示向量和LSTM层确定输出结果；

动作元素确定单元，用于根据所述输出结果确定动作谓语、动作宾语和动作主语；

编队指令生成单元，用于根据所述动作谓语、动作宾语和动作主语生成编队指令。

第三方面，本申请实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面任一项所述的编队指令的确定方法。

第四方面，本申请实施例提供了一种存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述的编队指令的确定方法。

本申请实施例提供了一种编队指令的确定方法、系统、设备及存储介质。在执行所述方法时，根据数字战场中的若干个单位和全局信息确定态势输入数据，所述单位包括第一方单位、第二方攻击单位和第二方待侦察单位；将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；根据所述第一表示向量和LSTM层确定输出结果；根据所述输出结果确定动作谓语、动作宾语和动作主语；根据所述动作谓语、动作宾语和动作主语生成编队指令。通过设计指挥官架构的深度神经网络、PPO算法训练出指挥官智能体对无人机群进行集中控制，下达编队控制指令，当有个体被击落，智能体实时控制剩余无人机重新编队。相比于队形控制策略中需要无人机局部感知和信息共享机制可能存在的信息缺失问题，本方案不会出现当一架或几架无人机阵亡/被击落，影响信息共享，其他无人机可以得到战场信息重新进行编队，提高了编队效率。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的编队指令的确定的方法的一种方法流程图；

图2为本申请实施例提供的神经网络结构图；

图3为本申请实施例提供的编队指令的确定方法中PPO算法对神经网络架构的一种流程示意图；

图4为本申请实施例提供的奖励值随训练步数变化曲线示意图；

图5为本申请实施例提供的胜率随训练步数变化曲线示意图；

图6为本申请实施例所提供的一种编队指令的确定系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

正如前文所述，随着环境与任务的复杂性日益增加，单机的性能已经无法满足实际使用需求，而多架无人机组成的无人机编队，除了拥有单机的优势外，还具备区域范围广、侦查和打击成功率高等特点。所以无人机编队逐渐成为执行任务的主要载体。多无人机编队任务涉及到多种技术的综合使用，是一项十分复杂的研究内容。每个编队成员必须具备控制器、传感器、与推进系统，编队整体需具备多传感器信息融合、机间通信等能力。近年来，国内外众多高校、研究组织和科技企业已经就此展开了大量研究和试验。

根据编队控制方式的不同，可以将编队的控制方法分为共享信息型和不共享信息型。无人机之间不共享信息时，只需要预先制定好每架无人机的飞行路线，它们就可以按照程序要求形成编队队形，并在空中进行队形变换。采用这种方法设计的编队系统，操作指令的设计十分重要，一旦出错，将产生无法挽回的损失。编队成员共享信息时，无人机之间通过通信网络发送和接收其他无人机的消息，从而实现分布式协同编队，这种编队方式自主性和鲁棒性更高。无人机编队要求每个个体同时具有高度的自主决策能力和很强的合作飞行能力。自主决策能力要求无人机能对环境进行检测，及时处理相关数据，做出决策，驱动无人机执行控制指令；合作性要求编队成员之间能够组成一个相互协作的整体，面对复杂飞行环境时可以共同行动。此外，极端的气象条件、突发的障碍、通信网络的时延或者故障都会使环境变得复杂。实际任务执行时，无人机与其他环境要素一起构成了复杂的系统，相互影响和制约，多无人机系统必须能尽快做出分析和决策。

为了解决使用队形控制策略的传统多无人机编队方法，解决无人机局部感知，因一架或几架无人机阵亡/被击落和个体决策动作影响信息共享，同时可能无法继续编队的问题。本申请实施例提供了一种编队指令的确定方法、系统、设备及存储介质。在执行所述方法时，根据数字战场中的若干个单位和全局信息确定态势输入数据，所述单位包括第一方单位、第二方攻击单位和第二方待侦察单位；将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；根据所述第一表示向量和LSTM层确定输出结果；根据所述输出结果确定动作谓语、动作宾语和动作主语；根据所述动作谓语、动作宾语和动作主语生成编队指令。通过设计指挥官架构的深度神经网络、PPO算法训练出指挥官智能体对无人机群进行集中控制，下达编队控制指令，当有个体被击落，智能体实时控制剩余无人机重新编队。相比于队形控制策略中需要无人机局部感知和信息共享机制可能存在的信息缺失问题，本方案不会出现当一架或几架无人机阵亡/被击落，影响信息共享，其他无人机可以得到战场信息重新进行编队。

本申请实施例提供的方法执行主体可以为传感器和处理系统，可以用于获取整个数字战场上的单位分成我方单位、敌方攻击单位和敌方待侦察单位，此外还应包括全局信息如地方火力分布、地形信息、隐藏区域。处理系统可以用于执行本方案中各个步骤的处理指令，例如可以将获取到的动作指令元素合称为编队指令，并将编队指令下达给队列中的无人机执行。

以下通过一个实施例，对本申请提供的编队指令的确定方法进行说明。请参考图1，图1为本申请实施例所提供的编队指令的确定方法的一种方法流程图，包括：

S101：根据数字战场中的若干个单位和全局信息确定态势输入数据。

所述单位包括第一方单位、第二方攻击单位和第二方待侦察单位。

该步骤S101可以详细拆解为以下内容：

S1011：获取数字战场上的单位和全局信息。

将整个数字战场上的单位分成我方单位、敌方攻击单位和敌方待侦察单位，即上述数字战场上的单位。此外，还可以包括全局信息如地方火力分布、地形信息、隐藏区域。

S1012：表征各个单位的特征，得到每个单位对应的向量。

将数字战场上的所有单位的重要特征表示出来，每个单位最终表示为一个向量：如单位类型、目前坐标、攻击距离、移动速度及其他重要的特征，这些特征并不是每个单位都有，比如攻击距离对于没有攻击力的单位来说就没有。每一种全局信息是一个二维矩阵。

S1013：将每个单位、各单位对应的向量和所述全局信息确定为态势输入数据。

将上述步骤中获得的所有单位和整个战场的态势的向量表示都输入神经网络，此外全局态势如地形、敌方火力分布等也输入神经网络。以上输入神经网络的内容及为态势输入数据。

S102：将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量。

所述态势输入数据包括第一方无人机状态信息、第二方攻击单位状态、第二方待侦查单位信息和全局信息。

将上述步骤中的态势输入数据输入后，经过Feature Encoder也就是几层变换如连接(concat)、卷积神经网络(CNN)、全连接层(fc)、relu等得到一个融合的表示，这个表示是一个高维向量如256维，即本申请中命名的第一表示向量。

该步骤S102可以详细拆解为以下步骤：

S1021：将前三类所述态势输入数据经过全连接网络处理提取出所述前三类态势输入数据各自对应的态势特征。

第一类为第一方无人机状态信息，包括无人机基本信息，无人机正在受攻击的状况；第二类为第二方攻击单位状态，包括敌方攻击单位基本信息，敌方火力的状况；第三类为第二方待侦查单位信息，包括目前已被发现的隐藏单位的状况; 第四类为全局信息，包括敌方火力分布、地形图和隐藏区域。每类数据不固定，随着战场形势而变化。将前三类态势数据各自经过两层全连接网络提取出态势特征。

S1021：所述全局信息经过卷积神经网络变化后，再经过全连接网络处理，得到全局信息处理结果。

第四类为全局信息经过CNN变化后再经过全连接然后全部组合连接起来组成全局态势特征，再经过一层全连接网络进行决策推理，得到全局信息的处理结果。

S1022：组合连接所述前三类态势输入数据各自对应的态势特征和所述全局信息处理结果，得到组合结果。

将上述步骤中已经获得的态势特征和处理结果进行连接(concat)，得到组合结果。

S1023：将所述组合结果输入全连接网络进行决策推理，得到第一表示向量。

S103：根据所述第一表示向量和LSTM层确定输出结果。

将已经得到的组合结果再经过一个LSTM层保留需要记忆的数据。该步骤后，LSTM的输出不仅包含了当前的态势信息，而且包含了以前的历史信息。

S104：根据所述输出结果确定动作谓语、动作宾语和动作主语。

将LSTM经过全连接得到本次决策的动作谓语，谓语为侦察或移动，再分别与无人机和待侦察单位attention得到主语、宾语，宾语有两种，某个待侦察目标或移动方向。

所述输出结果经过全连接后输出动作谓语；根据所述输出结果和备选第一方单位经过分组网络计算得到动作主语。响应于所述动作谓语为移动，所述输出结果经过全连接输出移动方向；响应于所述动作谓语为侦察，所述输出结果与备选第二方单位计算注意力机制分数，生成动作宾语，所述动作宾语用于指示待侦察目标或移动方向。

上述LSTM层输出决策的执行动作a（即本申请中自主命名的输出结果）后完成后续处理，LSTM层输出的a经过全连接后输出动作谓语，LSTM层输出的a与备选我方单位经过分组网络计算得到我方单位即动作主语，如果谓语是移动，LSTM层输出的a则再经过全连接输出移动方向，如果谓语是侦察，LSTM层输出的a则与备选敌方单位计算attention分数，输出动作宾语。

S105：根据所述动作谓语、动作宾语和动作主语生成编队指令。

根据上述步骤中获得的动作控制元素，动作谓语、动作宾语和动作主语生成编队指令，该指令可以由中央控制系统发出控制无人机进行编队。

关于神经网络的架构可以参见说明书附图2，图2为本申请实施例提供的神经网络结构图。其中，图2的函数处理可以为Softmax。在实际应用场景中Softmax函数可以将上一层的原始数据进行归一化，转化为一个【0,1】之间的数值，这些数值可以被当做概率分布，用来作为多分类的目标预测值。Softmax函数一般作为神经网络的最后一层，接受来自上一层网络的输入值，然后将其转化为概率。

相较于现有技术，本申请具有以下有益效果：

通过设计指挥官架构的深度神经网络、PPO算法训练出指挥官智能体对无人机群进行集中控制，下达编队控制指令，当有个体被击落，智能体实时控制剩余无人机重新编队。相比于队形控制策略中需要制定尽可能多的规则，本方案更高效，节省人力时间。相比于队形控制策略中需要无人机局部感知和信息共享机制可能存在的信息缺失问题，本方案不会出现当一架或几架无人机阵亡/被击落，影响信息共享，其他无人机可以得到战场信息重新进行编队。

下面对本申请实施例提供的编队指令的确定方法进行详细介绍。参见图3所示，图3为本申请实施例提供的编队指令的确定方法中PPO算法对神经网络架构的一种流程示意图。其具体过程如下：

在本方法中，红方（第一方）智能体的强化学习算法使用近端策略优化算法（Proximal Policy Optimization，PPO）。PPO算法属于Actor-Critic强化学习优化算法中的一类，其与Q-Learning等value-based方法不同，它是直接通过优化策略函数，计算累积期望回报的策略梯度，从而求解出使得回报整体最大化的策略参数。

S201：获取环境信息，输入第一Actor网络获得动作分布。

S202：从所述动作分布中采样第一动作，输入至环境获得并储存奖惩值和下一时刻的环境状态。

S203：将所述下一时刻的环境状态输入所述第一Actor网络循环，储存生成环境状态集合和动作集合。

所述环境状态集合包括若干条环境状态，所述动作集合包括若干条动作。

在应用场景中，网络结构包括actor网络和critic网络。actor网络的输入为状态，输出为动作概率（对于离散动作空间而言）或者动作概率分布参数（对于连续动作空间而言）critic网络的输入为状态，输出为状态的价值。如果actor网络输出的动作越能够使优势（优势的定义等下给出）变大，那么就越好。如果critic网络输出的状态价值越准确，那么就越好。

将环境信息s，即传感器信息，输入到Actor-New网络（第一Actor网络），输出得到高斯分布的均值和方差，即表示action的分布，然后从这个分布里面采样出来一个action（第一动作），在输入到环境中得到r和下一步的状态s_进行储存，再将s_输入到Actor-New网络（第一Actor网络），进行循环，直到存储来一定量的信息。关于需要存储的信息的量，可以根据实际需求进行调整，或者根据配置适应性修改，在此不做限制，并且其中Actor-New网络这里是不更新的。

S204：获取循环结束时对应的环境状态，将其输入至第一Critic网络，获得第一价值量。

将上述步骤中循环完成最后得到的s_输入到Critic-NN网络（即第一Critic网络），输出得到v_值（第一价值量），然后通过计算一定步数折扣奖励。

S205：将所述环境状态集合中所有的环境状态组合输入第一Critic网络，获得每个环境状态的价值量。

S206：根据所述每个环境状态的价值量和所述第一价值量确定优势值。

将存储的所有s组合（即环境状态集合中的内容组合）输入到Critic-NN网络中，得到每个s的v（价值量）然后与上述步骤中获得的第一价值量结合，计算优势值advantage。

S207：根据每一步的优势值计算第一损失函数，更新所述第一Critic网络。

通过每一步的advantage计算Critic-Loss（第一损失函数，即价值网络的损失函数），然后反向传播更新Critic-NN网络。

S208：根据所述第一Actor网络、所述第二Actor网络、所述环境状态集合和所述动作集合确定重要性权重。

将存储的所有s组合输入到Actor-Old网络和Actor-New网络，分别得到Normal1和Normal2（正态分布随机数的生成函数1、2），并将存储的所有action输入这两个分布并得到对应的prob1和prob2（伴随概率1、2），并相除得到important weight（重要性权重），也就是比率ratio。

S209：根据所述重要性权重、所述优势值和贪心算法确定第二损失函数，更新所述第一Actor网络。

通过ratio，advantage和epsilon计算Actor-Loss，然后反向传播更新Actor-New网络（第一Actor网络）。

S210：响应于所述第一Actor网络更新完毕生成第三Actor网络，获取所述第三Actor网络的权重更新所述第二Actor网络。

更新完成后，用Actor-New网络权重来更新Actor-Old网络。

而后循环以上步骤。

在强化学习中，奖励函数在客观上决定了算法在追求的实际目标。在设计奖励函数是，逻辑上可以分为主线奖励和辅助奖励两类。根据所述主线奖励函数和所述辅助奖励函数线性组合生成奖励函数。

其中，主线奖励是指为了强化学习中主要定性目标和定量目标的达成、改善而设定的奖励，因此主线奖励需要直接反应任务的根本目的，例如在定性目标达成时给予智能体正向奖励，或者将定量目标本身或经过某种形式的变换后作为奖励。由于主线奖励相对于任务目标来说往往是无偏的，因此主线奖励函数一般是较简单、也较理想的形式。由于主线奖励往往在完成任务时才能获取，因此面临奖励稀疏的问题。

为了克服奖励稀疏问题，在主线奖励设置的同时，可以考虑设置辅助奖励。在主线奖励的基础上，辅助奖励通过增加其他过程奖励项或者惩罚项，使得奖励函数变得稠密的同时引导智能体在环境中更加高效地探索，从而加速强化学习算法的收敛速度并提升算法性能。在实际任务中，常见的三类辅助奖励函数包括子目标奖励、塑型奖励和内驱奖励。

在本方法的PPO算法中，奖励函数的设计将直接关系到智能体的训练效果，是否能完成规定任务，奖励函数的设计应直接反应真正的目的，而不是引导智能体如何去实现目的，本方法中的智能体的目的是在一定机间距离范围内通过编队飞行抵近侦察敌方目标，如有被击落的飞机重新编队完成侦察任务。同时尽可能降低无人机折损率，并将侦察目标数，被敌方击中次数加入奖励函数设计中。

本方案中可以设置主线奖励函数和辅助奖励函数，所述主线奖励函数根据是否编队飞行完成侦察任务设置加分，所述辅助奖励函数根据超出编队限制机间距离的第一方无人机数量、稳定保持编队时间、第一方无人机被击落数量和第一方完成任务时间中的任意一个设置。红蓝双方的胜负规则为：红方通过编队飞行完成侦察任务，则红方胜利，红方在完成侦察任务前都被击落则蓝方胜利。此处，红方代表第一方，蓝方代表第二方。

因此，红方智能体的主线奖励函数，主要是是否编队飞行完成侦察任务。如果编队侦察完成侦察任务，则主线奖励加1分，如果未编队完成侦察任务则为零。其定义如下：

此外，为了加速智能体的训练，可以考虑加入部分辅助奖励函数，可以考虑的辅助奖励函数如下。

在红方编队飞行过程中，如果m（0＜m＜n）架红方无人机超出编队限制机间距离，则应当采取惩罚，因此其辅助奖励函数可定义如下。

R_ex1=-0.5×m（m：超出编队限制机间距离的红方无人机数量）

在红方编队飞行中，若稳定保持编队时长超过1分钟，则应给予相应奖励，其辅助奖励函数可定义如下：

R_ex2=0.4×t（t：稳定保持编队时间）

在红方编队飞行中，若有无人机被击落，则应当采取惩罚，因此其辅助奖励函数可定义如下：

R_ex3=-0.7×n （n：红方无人机被击落数量）

红方完成任务，若消耗时间较短，则应给予相应奖励，其辅助奖励函数可定义如下：

R_ex4=0.1×e（e：完成任务时间）

综合考虑本方法总体目标，总体奖励函数Reward_total的构建可以是上述主线奖励函数和辅助奖励函数的线性组合，如下所示，其中 ratio 为各奖励函数的系数列向量：

Reward_total=ratio×[R_main，R_ex1，R_ex2，R_ex3，R_ex4]

需要注意的是，不适当的辅助奖励函数，以及包括主线奖励函数在内的各奖励函数之间的不合理取值，可能诱导智能体向非正常业务逻辑发展，出现设计者不希望看到的异常行为，常见的情况包括鲁莽型奖励函数、贪婪型奖励函数和懦弱型奖励函数。因此，上述主线奖励函数、辅助奖励函数选取，以及取值配比，均需在项目实际开发中根据实际情况进行调试、测验。上述说明不对本申请本构想产生限制。

经过训练后的智能体实际应用效果可以参见图4和图5，图4为本申请实施例提供的奖励值随训练步数变化曲线示意图，图5为本申请实施例提供的胜率随训练步数变化曲线示意图。

以上为本申请实施例提供一种编队指令的确定方法的一些具体实现方式，基于此，本申请还提供了对应的系统。下面将从功能模块化的角度对本申请实施例提供的系统进行介绍。

请参考图6，图6为本申请实施例所提供的一种编队指令的确定系统的结构示意图。

本实施例中，该装置可以包括：

第一表示向量确定单元300，用于将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量；

输出结果确定单元301，用于根据所述第一表示向量和LSTM层确定输出结果；

动作元素确定单元302，用于根据所述输出结果确定动作谓语、动作宾语和动作主语；

编队指令生成单元303，用于根据所述动作谓语、动作宾语和动作主语生成编队指令。

所述第一表示向量确定单元具体用于：

获取数字战场上的单位和全局信息；表征各个单位的特征，得到每个单位对应的向量；将每个单位、各单位对应的向量和所述全局信息确定为态势输入数据。

所述输出结果确定单元具体用于：

将前三类所述态势输入数据经过全连接网络处理提取出所述前三类态势输入数据各自对应的态势特征；所述全局信息经过卷积神经网络变化后，再经过全连接网络处理，得到全局信息处理结果；组合连接所述前三类态势输入数据各自对应的态势特征和所述全局信息处理结果，得到组合结果；将所述组合结果输入全连接网络进行决策推理，得到第一表示向量。

所述编队指令生成单元具体用于：

所述输出结果经过全连接后输出动作谓语；根据所述输出结果和备选第一方单位经过分组网络计算得到动作主语；响应于所述动作谓语为移动，所述输出结果经过全连接输出移动方向；响应于所述动作谓语为侦察，所述输出结果与备选第二方单位计算注意力机制分数，生成动作宾语，所述动作宾语用于指示待侦察目标或移动方向。

所述装置还包括：

奖励函数设置单元，用于设置奖励函数。

所述装置还包括：

训练单元，用于结合PPO算法对神经网络架构进行训练，得到训练好的神经网络结构。

所述训练单元具体用于，获取环境信息，输入第一Actor网络获得动作分布；

根据所述第一Actor网络、所述第二Actor网络、所述环境状态集合和所述动作集合确定重要性权重；

奖励函数设置单元具体用于，设置主线奖励函数和辅助奖励函数，所述主线奖励函数根据是否编队飞行完成侦察任务设置加分，所述辅助奖励函数根据超出编队限制机间距离的第一方无人机数量、稳定保持编队时间、第一方无人机被击落数量和第一方完成任务时间中的任意一个设置；根据所述主线奖励函数和所述辅助奖励函数线性组合生成奖励函数。

以上对本申请所提供的一种编队指令的确定方法、系统、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种编队指令的确定方法，其特征在于，所述方法包括：

根据所述第一表示向量和LSTM层确定输出结果；

根据所述输出结果确定动作谓语、动作宾语和动作主语；

根据所述动作谓语、动作宾语和动作主语生成编队指令。

2.根据权利要求1所述的方法，其特征在于，所述根据数字战场中的若干个单位和全局信息确定态势输入数据包括：

获取数字战场上的单位和全局信息；

表征各个单位的特征，得到每个单位对应的向量；

3.根据权利要求1所述的方法，其特征在于，所述态势输入数据包括第一方无人机状态信息、第二方攻击单位状态、第二方待侦查单位信息和全局信息，所述将所述态势输入数据输入神经网络结构经过多层处理，确定第一表示向量包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述输出结果确定动作谓语、动作宾语和动作主语包括：

所述输出结果经过全连接后输出动作谓语；

5.根据权利要求1所述的方法，其特征在于，所述将所述态势输入数据输入神经网络结构经过多层处理之前，还包括：

获取环境信息，输入第一Actor网络获得动作分布；

6.根据权利要求5所述的方法，其特征在于，所述设置奖励函数，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述第一Actor网络、第二Actor网络、所述环境状态集合和所述动作集合确定重要性权重，包括：

将所述第一伴随概率和第二伴随概率相除获得重要性权重。

8.一种编队指令的确定系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的编队指令的确定方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现如权利要求1-7任一项所述的编队指令的确定方法。