CN118034065A

CN118034065A - 一种无人机决策网络的训练方法及装置

Info

Publication number: CN118034065A
Application number: CN202410431325.9A
Authority: CN
Inventors: 刘昊; 刘德元; 钟森; 马子豪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11
Also published as: CN118034065B

Abstract

本申请提供了一种无人机决策网络的训练方法及装置，涉及无人机控制技术领域，应用于设置有无人机决策网络和价值网络的无人机决策架构，在对无人机决策架构进行训练的过程中，构建策略损失函数用于调整无人机决策网络所涉及的网络参数；构建动作损失函数，用于调整动作价值网络所涉及的网络参数；构建状态损失函数，用于调整状态价值网络所涉及的网络参数；并利用价值网络中的动作价值网络和状态价值网络，对无人机决策网络的实时训练效果在动作价值和状态价值两个方面上进行评价，以保证双方无人机博弈过程中，用于对己方无人机的飞行策略进行预估的决策网络的预估精度，有助于提高无人机在博弈过程中需执行的待执行动作预估效果的准确性。

Description

一种无人机决策网络的训练方法及装置

技术领域

本申请涉及无人机控制技术领域，尤其是涉及一种无人机决策网络的训练方法及装置。

背景技术

随着无人机技术的不断发展，无人机的种类也越来越多，无人机包括固定翼无人机，固定翼无人机是一个集多变量、不确定、非线性、快时变、强耦合、静不稳定及欠驱动为一体的复杂被控对象，其飞行控制技术一直是航空领域研究的重点和难点；人为控制的控制方式，无法很好地在对战过程中对敌我双方的对战状态进行判断；因此，逐渐将对无人机的控制方式，转变为非人为控制的方式。

目前，通常以预训练的方式获得具有策略预估能力的策略网络，但是，在预训练过程中无法预知训练效果的好坏，以此，无法保证策略网络在训练过程中是向着提高预测精度方向进行训练的，因此，也就无法保证策略网络的预估精度，易训练出预估精度较差的策略网络，间接地，降低了预估结果的准确性。

发明内容

有鉴于此，本申请的目的在于提供一种无人机决策网络的训练方法及装置，在训练的无人机决策网络时，通过所构建的价值网络，实时对无人机决策网络训练效果进行评估，以此，可以保证无人机决策网络是向着提高预估精度的方向上进行训练的，进而，可以提高双方无人机博弈过程中，用于对己方无人机的飞行策略进行预估的决策网络的预估精度。

本申请实施例提供了一种无人机决策网络的训练方法，应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的策略分布；所述训练方法包括：

基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数；

按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整所述基础策略目标函数的表示形式，得到策略损失函数；其中，所述策略分布是指随机抽取待执行动作的动作概率密度；所述动作价值网络用于评判在特定状态下采取预设动作的价值；不同特定状态下采取相同动作的价值不同；所述特定状态是指所述无人机在执行所述预设动作时的位置坐标、航向角以及滚转角；

参考梯度下降理论，构建所述动作价值网络的基础动作目标函数以及所述状态价值网络的状态损失函数；其中，所述状态价值网络用于评判特定状态的价值；

通过将额外构造的附加状态价值网络引入所述基础动作目标函数，调整所述基础动作目标函数的表示形式，得到动作损失函数；

获取多个样本无人机的样本状态信息；其中，所述样本状态信息用于描述在多个历史时刻中所述多个样本无人机之间的历史对战状态；

将所述多个样本无人机的样本状态信息作为输入特征，迭代训练所述无人机决策网络、所述动作价值网络和所述状态价值网络；

在迭代训练过程中利用所述策略损失函数、所述动作损失函数和所述状态损失函数，更新所述无人机决策网络、所述动作价值网络和所述状态价值网络的网络参数，得到训练好的无人机决策网络。

在一种可能的实施方式中，所述动作价值网络包括目标奖励函数；通过以下步骤构建目标奖励函数：

按照预设奖励机制，基于无人机在飞行状态下所涉及的飞行参数，构建对所述基础动作目标函数进行补偿的基础奖励函数；其中，所述基础奖励函数用于在预设状态区域内对无人机的状态价值进行补偿；

参考剪枝搜索算法，利用无人机在飞行状态下所涉及的飞行参数，构建在全部状态空间内对所述基础动作目标函数进行补偿的引导奖励函数；

组合所述基础奖励函数和所述引导奖励函数，构建得到用于对敌方无人机的飞行策略进行建模的所述目标奖励函数。

在一种可能的实施方式中，所述获取多个样本无人机的样本状态信息，包括：

从经验回放池中抽取所述多个样本无人机的基础状态信息；

按照预设抽取规则，提炼所述基础状态信息，得到用于训练的多个样本无人机的样本状态信息。

在一种可能的实施方式中，所述训练方法还包括：

按照预设时间间隔，参考当前时刻所述状态价值网络的网络参数，更新所述附加状态价值网络的网络参数。

在一种可能的实施方式中，所述目标奖励函数为：

其中，表示目标奖励函数的输出值，表示基础奖励函数，为引导奖励函数，为预设常数，为调节角度与距离权重的参数，表示第架己方无人机，为第架己方无人机相对于敌方无人机的方位角，为敌方无人机相对于第架己方无人机的天线角，为第架己方无人机与敌方无人机之间的相对距离。

在一种可能的实施方式中，所述策略损失函数为：

其中，D表示训练过程中样本无人机的基础状态信息所存储的经验回放池，表示第架己方无人机的时刻的基础状态信息，表示第架己方无人机的t时刻的待执行动作，表示第架己方无人机的时刻控制策略，为第架己方无人机的时刻控制策略的动作价值。

在一种可能的实施方式中，所述训练方法还包括：

获取多个待控无人机在当前时刻的基础对战状态信息；其中，所述基础对战状态信息用于描述在当前时刻所述多个待控无人机之间的当前对战状态；

对所述对战状态信息进行信息提炼，确定所述多个待控无人机的目标对战状态信息；

基于所述目标对战状态信息，通过所述训练好的无人机决策网络，预估所述多个待控无人机在当前时刻的待执行动作。

本申请实施例还提供了一种无人机决策网络的训练装置，应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的待执行动作；所述训练装置包括：

第一函数构建模块，用于基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数；

第一函数调整模块，用于按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整所述基础策略目标函数的表示形式，得到策略损失函数；其中，所述动作价值网络用于评判在特定状态下采取预设动作的价值；不同特定状态下采取相同动作的价值不同；所述特定状态是指所述无人机在执行所述预设动作时的位置坐标、航向角以及滚转角；

第二函数构建模块，用于参考梯度下降理论，构建所述动作价值网络的基础动作目标函数以及所述状态价值网络的状态损失函数；其中，所述状态价值网络用于评判特定状态的价值；

第二函数调整模块，用于通过加额外构造的附加状态价值网络引入所述基础动作目标函数，调整所述基础动作目标函数的表示形式，得到动作损失函数；

信息获取模块，用于获取多个样本无人机的样本状态信息；其中，所述样本状态信息用于描述在多个历史时刻中所述多个样本无人机之间的历史对战状态；

迭代训练模块，用于将所述多个样本无人机的样本状态信息作为输入特征，迭代训练所述无人机决策网络、所述动作价值网络和所述状态价值网络；

网络更新模块，用于在迭代训练过程中利用所述策略损失函数、所述动作损失函数和所述状态损失函数，更新所述无人机决策网络、所述动作价值网络和所述状态价值网络的网络参数，得到训练好的无人机决策网络。

在一种可能的实施方式中，所述动作价值网络包括目标奖励函数；所述训练装置还包括奖励函数构建模块，所述奖励函数构建模块用于通过以下步骤构建目标奖励函数：

在一种可能的实施方式中，所述信息获取模块在用于获取多个样本无人机的样本状态信息时，所述信息获取模块用于：

从经验回放池中抽取所述多个样本无人机的基础状态信息；

在一种可能的实施方式中，所述训练装置还包括第三函数调整模块，所述第三函数调整模块用于：

在一种可能的实施方式中，所述目标奖励函数为：

在一种可能的实施方式中，所述策略损失函数为：

其中，D表示训练过程中样本无人机的基础状态信息所存储的经验回放池，表示第架己方无人机的时刻的基础状态信息，表示第架己方无人机的时刻的待执行动作，表示第架己方无人机的时刻控制策略，为第架己方无人机的t时刻控制策略的动作价值。

在一种可能的实施方式中，所述训练装置还包括动作预估模块，所述动作预估模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的无人机决策网络的训练方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的无人机决策网络的训练方法的步骤。

本申请实施例提供的无人机决策网络的训练方法及装置，基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数；按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整基础策略目标函数的表示形式，得到策略损失函数；参考梯度下降理论，构建动作价值网络的基础动作目标函数以及状态价值网络的状态损失函数；通过将额外构造的附加状态价值网络引入所述基础动作目标函数，调整基础动作目标函数的表示形式，得到动作损失函数；获取多个样本无人机的样本状态信息；将多个样本无人机的样本状态信息作为输入特征，迭代训练无人机决策网络、动作价值网络和状态价值网络；在迭代训练过程中利用策略损失函数、动作损失函数和状态损失函数，更新无人机决策网络、动作价值网络和状态价值网络的网络参数，得到训练好的无人机决策网络。这样，便可以在迭代训练的过程中通过价值网络，对无人机决策网络的预估效果进行评价，以保证无人机决策网络的训练方向的正确性，有助于提高双方无人机博弈过程中，用于对己方无人机的飞行策略进行预估的决策网络的预估精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种无人机决策网络的训练方法的流程图；

图2为本申请实施例所提供的一种无人机相对几何关系示意图；

图3为本申请实施例所提供的一种无人机控制策略架构图；

图4为本申请实施例所提供的一种无人机飞行状态示意图；

图5为本申请实施例所提供的气流坐标系与机体坐标系的相对关系示意图；

图6为本申请实施例所提供的无人机的角度响应曲示意图；

图7为本申请实施例所提供的对战过程步长变化趋势示意图；

图8为本申请实施例所提供的对战过程奖励变化趋势示意图；

图9为本申请实施例所提供的一种空战轨迹示意图；

图10为本申请实施例所提供的一种无人机决策网络的训练装置的结构示意图之一；

图11为本申请实施例所提供的一种无人机决策网络的训练装置的结构示意图之二；

图12为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

经研究发现，目前，通常以预训练的方式获得具有策略预估能力的策略网络，但是，在预训练过程中无法预知训练效果的好坏，以此，无法保证策略网络在训练过程中是向着提高预测精度方向进行训练的，因此，也就无法保证策略网络的预估精度，易训练出预估精度较差的策略网络，间接地，降低了预估结果的准确性。

基于此，本申请实施例提供了一种无人机决策网络的训练方法，可以在迭代训练的过程中通过价值网络，对无人机决策网络的预估效果进行评价，以保证无人机决策网络的训练方向的正确性，有助于提高无人机决策网络的预估精度。

请参阅图1，图1为本申请实施例所提供的一种无人机决策网络的训练方法的流程图。应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的策略分布；如图1中所示，本申请实施例提供的无人机决策网络的训练方法，包括：

S101、基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数。

S102、按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整所述基础策略目标函数的表示形式，得到策略损失函数。

S103、参考梯度下降理论，构建所述动作价值网络的基础动作目标函数以及所述状态价值网络的状态损失函数。

S104、通过将额外构造的附加状态价值网络引入所述基础动作目标函数，调整所述基础动作目标函数的表示形式，得到动作损失函数。

S105、获取多个样本无人机的样本状态信息；其中，所述样本状态信息用于描述在多个历史时刻中所述多个样本无人机之间的历史对战状态。

S106、将所述多个样本无人机的样本状态信息作为输入特征，迭代训练所述无人机决策网络、所述动作价值网络和所述状态价值网络。

S107、在迭代训练过程中利用所述策略损失函数、所述动作损失函数和所述状态损失函数，更新所述无人机决策网络、所述动作价值网络和所述状态价值网络的网络参数，得到训练好的无人机决策网络。

本申请实施例所提供的一种无人机决策网络的训练方法，应用于设置有无人机决策网络和价值网络的无人机决策架构，在对无人机决策架构进行训练的过程中，构建策略损失函数用于调整无人机决策网络所涉及的网络参数；构建动作损失函数，用于调整动作价值网络所涉及的网络参数；构建状态损失函数，用于调整状态价值网络所涉及的网络参数；并利用价值网络中的动作价值网络和状态价值网络，对无人机决策网络的实时训练效果在动作价值和状态价值两个方面上进行评价，以保证训练好的无人机决策网络能够具有较高的预估精度，有助于提高双方无人机博弈过程中，用于对己方无人机的飞行策略进行预估的决策网络的预估精度。

这里，无人机空战问题所涉及的状态空间和动作空间均为连续空间，如果没有对状态空间进行足够多的探索，很难让无人机决策网络学习到最优的控制策略。但是，若通过大量训练的方式来对状态控件进行过度的探索，则会消耗大量的计算资源，因此，针对于无人机问题，需要在采样学习的过程中对探索和数据利用做以权衡。

因此，针对于无人机问题，结合Soft actor-critic强化学习架构（SAC强化学习架构），来设计无人机决策架构，以进行无人机多对一空战策略的学习，相比于DDPG架构及其变形等其他方法，SAC强化学习架构在实际参数调节中也更容易工程实现。

在无人机决策架构中，具体包括无人机决策网络和价值网络两大部分；其中，无人机决策网络输出的是无人机的策略分布，可理解为动作概率密度函数，无人机需执行的待执行动作是利用动作概率密度函数，随机抽取所得到的，所以，也可认为是一种随机策略。

在步骤S101中，基于最大熵理论及其相关理论，向最大熵理论所涉及的原始目标函数中引入策略熵概念，构建得到无人机决策网络所涉及的基础策略目标函数。

具体的，基础策略目标函数为：

其中，为最大时间限制，表示从当前状态出发，基于策略分布与环境交互，所有可能到达的状态-动作分布，为传统目标函数的累计奖励值，为折扣因子，为策略熵，即动作概率密度函数的熵。

这里，在Soft actor-critic强化学习架构中，训练无人机决策网络的目的在于，使得基础策略目标函数值最大化；同时，也就意味着，当基础策略目标函数所输出的累计奖励值高时，允许基础策略目标函数拥有较低策略熵，以此，使得函数输出更加稳定；而当基础策略目标函数所输出的累计奖励值低时，基础策略目标函数则拥有较高策略熵，以此，鼓励无人机决策网络探索更多的动作。

在Soft actor-critic强化学习架构中，价值网络包括参数化的动作价值网络，根据贝尔曼方程，所构建的动作价值网络满足如下关系：

（2）

其中，为动作价值网络的参数，为状态价值函数，表示时刻基础奖励函数输出的基础奖励值，状态价值函数则是基于传统价值函数与策略熵之和所构建的，具体的，状态价值函数为：

这里，对于每个无人机在时刻的基础奖励值，可以利用无人机的在时刻的状态信息（即，状态计算特征量），与，通过对基础奖励函数进行判定来确定，其中，为己方无人机的数量；具体判定过程如下：

需要说明的是，这里仅是以示例的形式进行说明，对于判定过程中所涉及的判定条件，例如，等均为示例，在其他实施方式中可以根据实际情况而定。

在步骤S102中，在无人机决策网络的训练提升过程中，无人机决策网络的目标是最小化无人机决策网络所输出的策略分布与指数化的动作价值网络分布之间的KL散度，因此，需进一步的，按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整已构建的基础策略目标函数的表示形式，以得到策略损失函数。

具体的，策略损失函数为：

其中，所述策略分布是指随机抽取待执行动作的动作概率密度；所述动作价值网络用于评判在特定状态下采取预设动作的价值；不同特定状态下采取相同动作的价值不同；所述特定状态是指所述无人机在执行所述预设动作时的位置坐标、航向角以及滚转角；即，无人机在特定时刻（例如，t时刻）执行预设动作（例如，待执行动作）时的基础状态信息（包括位置坐标、航向角以及滚转角等信息）。

在无人机决策网络的训练过程中，动作价值网络和状态价值网络也会跟随训练过程进行网络参数的调整，因此，还需分别构建动作价值网络的动作损失函数和状态价值网络的状态损失函数，以在训练过程中依据动作损失函数对动作价值网络所涉及的网络参数进行调整，依据状态损失函数对状态价值网络所涉及的网络参数进行调整。

在步骤S103中，在训练过程中动作价值网络和状态价值网络应呈现梯度下降的状态，因此，参考于梯度下降理论，构建动作价值网络的基础动作目标函数以及状态价值网络的状态损失函数，通过最小化基础动作目标函数和状态损失函数，完成动作价值网络和状态价值网络的训练。

具体的，基础动作目标函数为：

其中，表示从经验回放池中随机抽取的用于训练的样本无人机的基础状态信息，为TD-target项，是动作价值网络更新的目标，为目标奖励函数。

其中，所述状态价值网络用于评判特定状态的价值。

在一种实施方式中，通过以下步骤构建目标奖励函数：

步骤a、按照预设奖励机制，基于无人机在飞行状态下所涉及的飞行参数，构建对所述动作价值网络进行补偿的基础奖励函数。

该步骤中，按照预设奖励机制，利用无人机在飞行状态下所涉及的飞行参数，构建用于对基础动作目标函数进行补偿的基础奖励函数；其中，基础奖励函数仅能够对位于预设状态区域内的无人机的状态价值进行补偿。

可见，所构建的基础奖励函数是稀疏的，无人机只有在部分状态区域才会得到相应的奖励反馈，这便会使得学习效率低下；因此，还需要构建引导奖励函数，以能够在整个状态区域内对无人机的状态价值进行补偿。

这里，飞行参数至少包括第i架己方无人机与敌方无人机之间的相对距离（），第i架己方无人机相对于敌方无人机的方位角（）与敌方无人机相对于第i架己方无人机的天线角（）。

步骤b、参考剪枝搜索算法，利用无人机在飞行状态下所涉及的飞行参数，构建在全部状态空间内对所述基础动作目标函数进行补偿的引导奖励函数。

该步骤中，参考剪枝搜索算法，利用无人机在飞行状态下所涉及的飞行参数，构建在全部状态空间内对基础动作目标函数进行补偿的引导奖励函数。

其中，剪枝搜索算法的参考价值函数为：

步骤c、组合所述基础奖励函数和所述引导奖励函数，构建得到用于对敌方无人机的飞行策略进行建模的所述目标奖励函数。

该步骤中，组合基础奖励函数和引导奖励函数，构建得到用于对敌方无人机的飞行策略进行建模的目标奖励函数为：

以此，在对己方无人机的飞行策略进行预估时，可以利用目标奖励函数对敌方无人机的飞行策略进行建模，模拟出在敌方无人机执行相应飞行策略的情况下，己方无人机应执行的最佳飞行策略，进而，能够在将敌方飞行策略作为参考的情况下，更加准确地预估得到适合于当前对战局势的己方无人机的飞行策略。

这里，虽然在公式（5）的参数调整过程中，状态价值函数可以根据公式（3），由动作价值网络和策略函数（即，策略分布）估算得到，但在实际使用中，构造一个独立的参数化的状态价值网络，实现状态价值函数的单独估计，可以提高训练的稳定性；因此，针对于状态价值网络的更新过程，构建的状态损失函数为：

在步骤S104中，采用目标网络技巧，构造附加状态价值网络，附加状态价值网络与状态价值网络完全相同，通过将额外构造的附加状态价值网络引入基础动作目标函数，调整基础动作目标函数的表示形式，得到动作损失函数：

以此，使得动作价值网络更新的目标函数中，TD-target项不会频繁变动，有助于提高学习的稳定性。

在一种实施方式中，所述训练方法还包括：按照预设时间间隔，参考当前时刻所述状态价值网络的网络参数，更新所述附加状态价值网络的网络参数。

该步骤中，在训练过程中，需定时地对附加状态价值网络的网络参数进行更新；按照预设时间间隔，参考当前时刻状态价值网络的网络参数，更新附加状态价值网络的网络参数，使得同步。

在步骤S105中，通常是将获取到的基础状态信息直接用于无人机决策网络的训练，但是，为了降低无人机决策网络的训练难度，提高学习效率，需从多个样本无人机的基础状态信息中，提取出适用于训练的样本状态信息。

在一种实施方式中，步骤S105包括：

S1051、从经验回放池中抽取所述多个样本无人机的基础状态信息。

该步骤中，请参阅图2，图2为本申请实施例所提供的一种无人机相对几何关系示意图。如图2所示，以样本无人机为2个己方无人机和1个敌方无人机为例进行说明，经验回放池中所存储的多个样本无人机的基础状态信息如下：

其中，分别表示己方两架无人机的状态量，表示敌方无人机的状态量。位置状态量在空战所在高度平面内不限制取值，航向角取值范围是，滚转角取值范围视无人机机动能力而定。

进一步，为了方便后续对无人机之间相对态势的描述，分别以己方1、2号无人机视角，基于基础状态量定义如下特征量：其中包括与敌方距离为，己方1、2号无人机相对敌方无人机的方位角，敌方无人机相对我方1、2号无人机的天线角。

各无人机的动作均为滚转角速率，1、2号无人机动作取值范围如下：

S1052、按照预设抽取规则，提炼所述基础状态信息，得到用于训练的多个样本无人机的样本状态信息。

该步骤中，按照预设抽取规则，对基础状态信息进行提炼，得到能够更加全面反映空战态势的样本状态信息，再基于样本状态信息对无人机决策网络进行训练；对应于上述实施例，提炼出的样本状态信息如下：

（13）

需要说明的是，具体需要提炼出的状态信息，可根据实际情况而定，在此不做限制。

在步骤S106中，采用梯度下降的方式，利用提炼出的多个样本无人机的样本状态信息作为输入特征，迭代训练已构建的无人机决策网络、动作价值网络和状态价值网络。

在步骤S107中，在迭代训练过程中利用策略损失函数、动作损失函数和状态损失函数，分别实现无人机决策网络、动作价值网络和状态价值网络的网络参数的更新，以得到预期预估精度的训练好的无人机决策网络。

在一种实施方式中，所述训练方法还包括：

步骤1、获取多个待控无人机在当前时刻的基础对战状态信息。

其中，所述基础对战状态信息用于描述在当前时刻所述多个待控无人机之间的当前对战状态。

步骤2、对所述对战状态信息进行信息提炼，确定所述多个待控无人机的目标对战状态信息。

该步骤中，按照预设抽取规则，对多个待控无人机在当前时刻的对战状态信息进行提炼，得到能够更加全面反映当前对战状态的目标对战状态信息。

步骤3、基于所述目标对战状态信息，通过所述训练好的无人机决策网络，预估所述多个待控无人机在当前时刻的待执行动作。

该步骤中，将目标对战状态信息输入至训练好的无人机决策网络，通过无人机决策网络中的策略分布，确定多个待控无人机在当前时刻需要执行的待执行动作。

这里，待执行动作具体指无人机的滚转角速率μ。

请参阅图3，图3为本申请实施例所提供的一种无人机控制策略架构图。如图3所示，无人机控制策略架构3包括信息获取层决策层3a和控制层3b，决策层3a中设置有信息获取子层3a-1、特征构造子层3a-2、无人机决策网络3a-3、控制分配子层3a-4以及无人机位置动力学方程3a-5；控制层3b中设置有姿态角控制器3b-1、角速率控制器3b-2以及无人机姿态动力学方程3b-3；

信息获取子层3a-1获取环境、己方无人机以及敌方无人机的基础对战状态信息；特征构造子层3a-2从基础对战状态信息中提炼出目标对战状态信息；无人机决策网络3a-3利用目标对战状态信息对无人机的滚转角速率μ进行预估，并将滚转角速率μ输入控制分配子层3a-4；控制分配子层3a-4基于滚转角速率μ，确定出输入至姿态角控制器3b-1的无人机迎角α、侧滑角β与滚转角μ；姿态角控制器3b-1基于无人机迎角α、侧滑角β与滚转角速率μ，确定出输入至角速率控制器3b-2的无人机的转动角速率在机体坐标轴上的分量p、q、r；角速率控制器3b-2基于无人机的转动角速率在机体坐标轴上的分量p、q、r，确定出输入至无人机姿态动力学方程3b-3的控制力矩在机体坐标轴上的分量L、M、N；无人机姿态动力学方程3b-3输出参数至无人机位置动力学方程3a-5，并分别反馈参数至姿态角控制器3b-1及角速率控制器3b-2；无人机位置动力学方程3a-5向特征构造子层3a-2反馈相关参数，相关参数至少包括无人机位置状态量、航向角以及滚转角速率。

这里，无人机的位置动力学模型如下：

（14）

其中，为无人机质心在地面惯性坐标系内的坐标，,分别为气流坐标系相对地面惯性坐标系的航迹倾斜角与航向角，表示无人机迎角产生的法向过载，表示无人机推力产生的轴向过载，需要指出，由于无人机采用倾斜转弯机动方式，侧滑角较小，故忽略侧滑角带来的侧向过载。为滚转角，确定了法向过载在垂直与速度矢量平面内的指向。在地面惯性坐标系中，无人机的飞行状态（如图4所示，图4为本申请实施例所提供的一种无人机飞行状态示意图）。

针对无人机姿态动力学，首先基于前述无人机为面对称飞行器的假设，可以确定在机体坐标系中，无人机的转动惯量矩阵为：

搭建无人机姿态动力学如下，姿态动力学包含角速率动态和角度动态，角速率动态给出了机体坐标系内，无人机相对惯性系转动角速率的动态方程：

（15）

其中，分别为无人机的转动角速率在机体坐标轴上的分量（如图5所示，图5为本申请实施例所提供的气流坐标系与机体坐标系的相对关系示意图），L、M、N为控制力矩在机体坐标轴上的分量，由惯性积组成，且满足：

角度动态给出了无人机迎角、侧滑角与滚转角的动态方程。其中迎角与侧滑角可由气流坐标系与机体坐标系的相对关系给出（如图5所示）。角度动态方程如下：

（16）

其中，为无人机质量，为重力加速度，为无人机速度大小，为空气密度，为无人机机翼参考面积，为升力系数，为发动机推力，为侧向力系数。无人机位置动态中的法向过载由迎角产生，其关系如下：

（17）

综上，公式（14）、公式（15）与公式（16）共同组成了无人机的六自由度动力学模型。

这里，构造四个坐标系方便表示无人机的位置、速度、加速度以及气动力等矢量的分量大小：

（1）地面惯性坐标系：原点取在低纬度地区的地面上的某点，坐标系固连在大地上并视为惯性坐标系，z轴的单位矢量铅锤指向下，x轴的单位矢量指向北，y轴的单位矢量指向东，共同构建成为右手坐标系。

（2）机体坐标系：原点取在无人机的质心处，坐标系固连在无人机上，x轴的单位矢量与无人机的机身轴线重合并指向机头，y轴的单位矢量垂直于无人机对称平面指向机身右侧，z轴的单位矢量在无人机对称平面内，且与x轴垂直指向机身下方。

（3）气流坐标系：原点取在无人机的质心处，坐标系与无人机固连，x轴的单位矢量与无人机速度矢量重合且方向一致，z轴的单位矢量在无人机的对称平面内，且与x轴垂直指向机腹下方，y轴的单位矢量指向机身右侧且与、共同构成右手直角坐标系。

（4）航迹坐标系：原点取在无人机的质心处，坐标系与无人机固连，x轴的单位矢量与无人机速度方向一致，z轴的单位矢量处在包含飞行速度矢量的铅锤平面内，与垂直指向下方，y轴的单位矢量与、共同构成右手直角坐标系。

示例性的，在仿真测试中，设定无人机的参数如下：无人机质量，转动惯量矩阵为

空气密度取20摄氏度一个标准大气压的条件下，无人机速度为常值，机翼参考面积，升力系数，侧向力系数。

为了验证控制层中传统PID控制器的跟踪性能，给定参考信号，其中滚转角速率最大值约：

请参阅图6，图6为本申请实施例所提供的无人机的角度响应曲示意图。如图6所示，无人机姿态角跟踪参考信号效果良好，响应速度较快。

而对于无人机多对一空战控制策略的学习，超参数设置为：每局最大时间限制为40秒，共进行1000局对决。无人机初始状态在合适范围内随机生成，学习率为0.0003，批容量为256，经验回放池大小为1000000，策略网络、软动作价值网络与状态价值网络的结构为包含三个隐藏层、每层256个神经元的全连接网络。选择Adam优化器进行梯度下降，其中的Momentum参数设为0.9，gamma参数设为0.99。

请参阅图7和图8，图7为本申请实施例所提供的对战过程步长变化趋势示意图，图8为本申请实施例所提供的对战过程奖励变化趋势示意图。如图7所示，平均对局总步长刚开始为最大步长，随着训练的进行，平均对局总步长呈现下降态势。而对于己方每局的平均累计奖励，随着训练的进行逐步上升。为了更加直观地展现学习到的空战策略，选则空战初始位置进行验证，初始状态分别为：

(1.20)

请参阅图9，图9为本申请实施例所提供的一种空战轨迹示意图。如图9所示，可以看到己方一号无人机9a负责诱导敌方无人机9b，己方二号无人机9c则绕后进行偷袭，所设计的深度强化学习算法探索出了可以相互配合的多对一空战策略。

本申请实施例提供的无人机决策网络的训练装置，基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数；按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整所述基础策略目标函数的表示形式，得到策略损失函数；参考梯度下降理论，构建所述动作价值网络的基础动作目标函数以及所述状态价值网络的状态损失函数；通过将额外构造的附加状态价值网络引入所述基础动作目标函数，调整所述基础动作目标函数的表示形式，得到动作损失函数；获取多个样本无人机的样本状态信息；其中，所述样本状态信息用于描述在多个历史时刻中所述多个样本无人机之间的历史对战状态；将所述多个样本无人机的样本状态信息作为输入特征，迭代训练所述无人机决策网络、所述动作价值网络和所述状态价值网络；在迭代训练过程中利用所述策略损失函数、所述动作损失函数和所述状态损失函数，更新所述无人机决策网络、所述动作价值网络和所述状态价值网络的网络参数，得到训练好的无人机决策网络。这样，便可以在迭代训练的过程中通过价值网络，对无人机决策网络的预估效果进行评价，以保证无人机决策网络的训练方向的正确性，有助于提高双方无人机博弈过程中，用于对己方无人机的飞行策略进行预估的决策网络的预估精度。

请参阅图10、图11，图10为本申请实施例所提供的一种无人机决策网络的训练装置的结构示意图之一，图11为本申请实施例所提供的一种无人机决策网络的训练装置的结构示意图之二。应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的待执行动作；如图10中所示，所述训练装置1000包括：

第一函数构建模块1010，用于基于最大熵理论，通过向原始目标函数中引入策略熵，构建基础策略目标函数；

第一函数调整模块1020，用于按照无人机决策网络所输出的策略分布与动作价值网络之间所产生的KL散度的预设变化要求，调整所述基础策略目标函数的表示形式，得到策略损失函数；其中，所述策略分布是指随机抽取待执行动作的动作概率密度；所述动作价值网络用于评判在特定状态下采取预设动作的价值；不同特定状态下采取相同动作的价值不同；所述特定状态是指所述无人机在执行所述预设动作时的位置坐标、航向角以及滚转角；

第二函数构建模块1030，用于参考梯度下降理论，构建所述动作价值网络的基础动作目标函数以及所述状态价值网络的状态损失函数；其中，所述状态价值网络用于评判特定状态的价值；

第二函数调整模块1040，用于通过加额外构造的附加状态价值网络引入所述基础动作目标函数，调整所述基础动作目标函数的表示形式，得到动作损失函数；

信息获取模块1050，用于获取多个样本无人机的样本状态信息；其中，所述样本状态信息用于描述在多个历史时刻中所述多个样本无人机之间的历史对战状态；

迭代训练模块1060，用于将所述多个样本无人机的样本状态信息作为输入特征，迭代训练所述无人机决策网络、所述动作价值网络和所述状态价值网络；

网络更新模块1070，用于在迭代训练过程中利用所述策略损失函数、所述动作损失函数和所述状态损失函数，更新所述无人机决策网络、所述动作价值网络和所述状态价值网络的网络参数，得到训练好的无人机决策网络。

进一步的，如图11所示，所述动作价值网络包括目标奖励函数；所述训练装置1000还包括奖励函数构建模块1080，所述奖励函数构建模块1080用于通过以下步骤构建目标奖励函数：

进一步的，所述信息获取模块1050在用于获取多个样本无人机的样本状态信息时，所述信息获取模块1050用于：

从经验回放池中抽取所述多个样本无人机的基础状态信息；

进一步的，如图11所示，所述训练装置1000还包括第三函数调整模块1090，所述第三函数调整模块1090用于：

进一步的，所述目标奖励函数为：

进一步的，所述策略损失函数为：

进一步的，如图11所示，所述训练装置1000还包括动作预估模块1100，所述动作预估模块1100用于：

请参阅图12，图12为本申请实施例所提供的一种电子设备的结构示意图。如图12中所示，所述电子设备1200包括处理器1210、存储器1220和总线1230。

所述存储器1220存储有所述处理器1210可执行的机器可读指令，当电子设备1200运行时，所述处理器1210与所述存储器1220之间通过总线1230通信，所述机器可读指令被所述处理器1210执行时，可以执行如上述图1所示方法实施例中的无人机决策网络的训练方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的无人机决策网络的训练方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种无人机决策网络的训练方法，其特征在于，应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的策略分布；所述训练方法包括：

2.根据权利要求1所述的训练方法，其特征在于，所述动作价值网络包括目标奖励函数；通过以下步骤构建目标奖励函数：

3.根据权利要求1所述的训练方法，其特征在于，所述获取多个样本无人机的样本状态信息，包括：

从经验回放池中抽取所述多个样本无人机的基础状态信息；

4.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：

5.根据权利要求2所述的训练方法，其特征在于，所述目标奖励函数为：

6.根据权利要求1所述的训练方法，其特征在于，所述策略损失函数为：

7.根据权利要求1所述的训练方法，其特征在于，所述训练方法还包括：

8.一种无人机决策网络的训练装置，其特征在于，应用于无人机决策架构；所述无人机决策架构包括无人机决策网络和价值网络；所述价值网络包括动作价值网络和状态价值网络；所述无人机决策网络用于预估无人机在下一时刻的待执行动作；所述训练装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的无人机决策网络的训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的无人机决策网络的训练方法的步骤。