CN117313561B

CN117313561B - 无人机智能决策模型训练方法及无人机智能决策方法

Info

Publication number: CN117313561B
Application number: CN202311618148.7A
Authority: CN
Inventors: 高阳; 颜冠伟; 常惠; 聂勤; 薛迪; 李岱伟; 张鑫辰
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-02-13
Anticipated expiration: 2043-11-30
Also published as: CN117313561A

Abstract

本发明涉及智能决策技术领域，提供一种无人机智能决策模型训练方法及无人机智能决策方法，该训练方法首先在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；然后基于训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型。该训练方法得到的目标智能决策模型具有较强的通用性、鲁棒性以及较高的准确性。采用各低层策略与策略选择器分层训练的方式，缩短了学习周期，可以应对复杂机动。

Description

无人机智能决策模型训练方法及无人机智能决策方法

技术领域

本发明涉及智能决策技术领域，尤其涉及一种无人机智能决策模型训练方法及无人机智能决策方法。

背景技术

自主机动决策是无人机智能化的关键技术，是无人机技术研究的热点方向之一。目前，无人机自主机动决策常用的技术有专家系统法、微分对策法、影响图法、优化理论法、动态规划法等。

专家系统方法使用规定的规则库和推理机，但是规则库建立起来太复杂，通用性、鲁棒性和准确性低。微分对策法在面对复杂的空战态势和环境，容易出现模型规模大带来的维数灾难。虽然影响图法能够更直观、更真实地反馈现状，并对现状进行分类和解释，但由于其复杂，难以进行解析求解。在众多优化理论方法中，目前常用的是遗传算法。该方法通过评估相应机动的适应性来获得合理的机动，具有广泛的实用性，但主观性和经验性强。动态规划法将空战过程划分为多个规划时域，并在每个规划时域内进行最优控制，避免了维数灾难，但学习周期长，难以应对复杂机动。

发明内容

本发明提供一种无人机智能决策模型训练方法及无人机智能决策方法，用以解决现有技术中存在的缺陷。

本发明提供一种无人机智能决策模型训练方法，包括：

在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；

基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型；

其中，所述各低层策略包括控制区策略、攻击性射击策略和防守性射击策略，所述策略选择器用于从所述各低层策略中选择最优的低层策略；所述目标深度Q网络的评估网络和目标网络中均包含有竞争网络结构，所述竞争网络结构包括与隐藏层连接的状态价值网络和动作优势网络。

根据本发明提供的一种无人机智能决策模型训练方法，所述基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型，包括：

基于所述训练数据集，采用所述目标深度Q网络，分别对各低层策略进行训练，得到各目标低层策略；

基于所述训练数据集，采用所述目标深度Q网络，通过计算内在奖励和外界奖励，对所述策略选择器进行训练，得到目标策略选择器，并基于所述各目标低层策略以及所述目标策略选择器，构建所述目标智能决策模型；

其中，所述内在奖励基于内在好奇心模块确定，所述外界奖励基于所述各目标低层策略的奖励函数确定。

根据本发明提供的一种无人机智能决策模型训练方法，目标控制区策略的奖励函数基于双方无人机模型的相对位置奖惩、双方无人机模型的靠近奖惩、双方无人机智能体的导弹攻击奖励、己方无人机模型的飞行高度惩罚以及双方无人机模型的距离惩罚确定。

根据本发明提供的一种无人机智能决策模型训练方法，目标攻击性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、己方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

根据本发明提供的一种无人机智能决策模型训练方法，目标防守性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、双方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

根据本发明提供的一种无人机智能决策模型训练方法，对双方无人机模型的仿真对战过程进行伤害计算，包括：

在己方无人机模型位于对方无人机智能体的导弹攻击范围内时，己方无人机智能体的血量基于指定速度减少，所述指定速度基于所述己方无人机模型持续处于所述导弹攻击范围的累计时长确定。

根据本发明提供的一种无人机智能决策模型训练方法，所述训练数据集包括状态空间和动作空间；

所述状态空间包括双方无人机模型的空气动力学信息、位置信息和姿态信息；

所述动作空间包括双方无人机智能体的飞行控制动作。

本发明还提供一种无人机智能决策方法，包括：

获取待决策无人机的实时状态信息；

将所述实时状态信息输入至目标智能决策模型中，以使所述目标智能决策模型中的目标策略选择器基于所述实时状态信息从各目标低层策略中选择最优的目标低层策略；

基于选择的目标低层策略，对所述待决策无人机进行动作控制；

其中，所述目标智能决策模型基于上述的无人机智能决策模型训练方法训练得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种无人机智能决策模型训练方法或无人机智能决策方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种无人机智能决策模型训练方法或无人机智能决策方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一种无人机智能决策模型训练方法或无人机智能决策方法。

本发明提供的无人机智能决策模型训练方法及无人机智能决策方法，该训练方法首先在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；然后基于训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型。该训练方法并不需要建立规则库，使得到的目标智能决策模型具有较强的通用性、鲁棒性以及较高的准确性，对于无人机决策具有较高的成功率，同时可以避免主观性和经验性对无人机决策的影响。该训练方法中采用的各低层策略与策略选择器分层训练，缩短了学习周期，可以应对复杂机动。而且，该训练方法中采用的目标深度Q网络的评估网络和目标网络中均包含有竞争网络结构，竞争网络结构包括与隐藏层连接的状态价值网络和动作优势网络，可以实现对Q值的准确估计，进一步提升目标智能决策模型的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的无人机智能决策模型训练方法的流程示意图；

图2是本发明提供的已方无人机智能体的导弹攻击范围示意图；

图3是本发明提供的目标深度Q网络的体系结构示意图；

图4是本发明提供的竞争网络结构的示意图；

图5是本发明提供的无人机智能决策方法的流程示意图；

图6是本发明提供的无人机智能决策方法利用目标智能决策模型实现对待决策无人机的动作控制的过程示意图；

图7是本发明提供的利用目标智能决策模型确定控制策略与基于规则式策略进行红蓝双方无人机智能体对抗的胜率对比示意图；

图8是本发明提供的无人机智能决策模型训练装置的结构示意图；

图9是本发明提供的无人机智能体的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

由于现有的无人机自主机动决策均存在各种技术问题，为解决现有的无人机自主机动决策存在的一个或多个技术问题，本发明实施例中提供了一种无人机智能决策模型训练方法，通过该方法训练得到的无人机智能决策模型可以进一步应用于双方或多方无人机对战的智能决策。

图1为本发明实施例中提供的一种无人机智能决策模型训练方法的流程示意图，如图1所示，该方法包括：

S11，在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；

S12，基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型；

具体地，本发明实施例中提供的无人机智能决策模型训练方法，其执行主体为无人机智能决策模型训练装置，该装置可以配置于计算机内，该计算机可以为本地计算机或云计算机，本地计算机可以是电脑、平板等，此处不作具体限定。该训练方法得到的无人机智能体决策模型可以应用于双方无人机对战场景下的任一方无人机智能体，以下仅从己方（或红方）的角度出发，对无人机智能体决策模型的训练过程进行描述。

首先执行步骤S1，在此之前，构建双方无人机智能体的仿真对战场景。在仿真对战场景中，双方进行对抗，双方均具有一个需要保护不被敌机突破的防御阵地和一架用于拦截和攻击的无人机模型，红蓝双方具有完全对称的作战条件和任务目标。双方无人机智能体被指定的作战目标是入侵对方防区，或者击落对方无人机模型，当红蓝双方其中一方完成其任务时，仿真对战结束并产生胜负结果。

可以理解的是，在仿真对战场景中，可以执行场景模拟设置并显示当前对战的三维态势信息以及无人机模型的飞行状态信息等。

无人机模型可以是多自由度的无人机运动模型，用于模拟真实的无人机。每一方的无人机模型可以通过该方的无人机智能体进行控制。无人机智能体是用于控制无人机模型的运动以实现双方仿真作战的虚拟的人工智能系统。

此处，无人机模型可以使用目标航路点的控制方式进行控制。无人机智能体在接收到目标航路点的相关信息后，会自动按照目标航路点的位置坐标和当前的位置坐标以及机身姿态做出路径规划，大地目标航迹，并自动控制无人机模型沿目标航迹飞行。

本发明实施例中，无人机模型可以是六自由度的无人机运动模型，六自由度分别为航行速度、轨迹俯仰角、轨迹偏航角以及三维位置坐标。由此，双方无人机模型在仿真对战过程中的运动状态信息可以包括空气动力学信息、位置信息和姿态信息，该空气动力学信息包括双方无人机模型的航行速度和航行加速度，位置信息包括运动状态信息中的三维位置坐标，姿态信息包括双方无人机模型的轨迹俯仰角、轨迹偏航角以及角度变化速率。

仿真对战场景中，采用北东地的惯性坐标系（即x轴的正负向为北向，y轴的正方向为东向，z轴的正方向为指向大地），控制输入是切向过载、法向过载、绕航行速度矢量的滚转角，建立无人机模型。该无人机模型的运动方程通过如下公式表示：

（1）

其中，、/>、/>表示无人机模型在惯性坐标系中的三维位置坐标的三个维度，为无人机模型的航行速度，/>为无人机模型的轨迹航偏角，/>为无人机模型的轨迹俯仰角，/>为无人机模型绕航行速度矢量的滚转角，/>为无人机模型的切向过载，/>为无人机模型的法向过载，/>、/>、/>表示/>在三个坐标轴方向的分量，/>为重力加速度。/>、/>、/>的取值范围均可以为[-180°，180°）。

利用四阶龙格库塔算法对公式（1）进行数值积分，可以得到无人机模型的航行速度变化规律和空间轨迹变化规律。

在对战仿真环境中，无人机智能体能够获取到己方无人机模型所具有的运动状态信息。不仅如此，双方无人机模型的运动状态信息是彼此透明的，即一方无人机模型的运动状态信息既可以被己方无人机智能体获取，也可以被对方无人机智能体获取。

在对双方无人机模型的仿真对战过程进行伤害计算和胜负判定时，需要配置无人机智能体的导弹攻击范围。导弹攻击范围可以是一个圆锥面和球面围成的立体区域，圆锥面的中心轴线与无人机模型的机头指向重合，圆锥面的角度可以为80度，球面的半径可以为500米。圆锥面的角度和球面的半径相当于分别限制了无人机模型的最大射击倾斜角度和最大攻击极限距离。

如图2所示，为已方无人机智能体的导弹攻击范围示意图。图2中1为己方无人机模型，2为对方无人机模型。

在进行伤害计算时，伤害值可以通过双方无人机智能体减少的血量进行表征。当对方无人机模型位于己方无人机智能体的导弹攻击范围内时，视为己方无人机智能体正在攻击对方无人机智能体，对方无人机智能体的血量减少。血量减少速度可以根据需要进行设置，既可以设置为定值，也可以根据被攻击的时长进行适应性设置，此处不作具体限定。

在进行胜负判定时，若对方无人机智能体的血量为0，则确定己方获胜；若己方无人机智能体的血量为0，则确定对方失败；若达到最大作战时长，则确定双方平局。该最大作战时长可以根据需要进行设置，例如可以设置为T=300s。

基于一个完整的仿真对战过程中的运动状态信息、伤害计算结果以及胜负判定结果等数据，可以构建得到训练数据集，用以对初始智能决策模型进行训练。可以理解的是，运动状态信息均是在没有模拟传感器噪声的情况下确定的。

该训练数据集可以包括状态空间和动作空间，状态空间可以包括双方无人机模型的运动状态信息，动作空间可以包括双方无人机智能体的飞行动作。

该飞行动作用于控制双方无人机模型的飞行控制系统，飞行控制系统可以包括无人机模型的副翼、升降舵、方向舵和油门等设备。

然后执行步骤S12，将训练数据集存储到经验回放单元中，并每次从经验回放单元中随机抽取样本，采用目标深度Q网络（Deep Q Network，DQN），对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型。

目标深度Q网络是一种强化学习算法，结合了深度学习的感知能力和强化学习的决策能力，利用深度学习提取高维特征的能力，克服了强化学习难以用高维状态和动作空间进行决策的问题，实现了端到端的感知和决策控制，通用性强。

初始智能决策模型具有层级结构，包括策略选择器和各低层策略，各低层策略包括控制区策略、攻击性射击策略和防守性射击策略。

控制区策略是指使己方无人机智能体试图在对方无人机模型的后面获得一个追击位置，并占据一个状态空间的区域，使对方无人机模型实际上不可能逃脱己方无人机智能体的追击。

攻击性射击策略是指鼓励己方无人机智能体从侧面和正面进攻，在更近的距离处，导弹射击奖励的幅度更大。因此，攻击性射击策略通常会采取会产生最大伤害，但容易受到对方无人机智能体的反击射击。在防御方面，攻击性射击策略需要避免近距离射击的次数多于远距离射击的次数，使其成为相对不那么激进的逃避者。

防守性射击策略是指己方无人机智能体对近距离和远距离的导弹射击进行同等评估，从而产生有效地保持进攻得分位置的行为，即使得分的幅度可能很低。在防御方面，防守性射击策略需要避免从所有距离均等射击，使其对所有伤害都同样敏感，并且是一个相对积极的逃避者。

策略选择器可以用于根据当前的参与环境从所有低层策略中选择最优的低层策略，该策略选择器可以位于层级结构的顶层，可以以预设频率周期性地执行选择的低层策略，该预设频率可以是10Hz，也可以是其他取值，此处不作具体限定。

对策略选择器和各低层策略进行分层训练，是指对策略选择器和各低层策略进行独立训练，即各低层策略先分别单独训练，然后对策略选择器进行训练。

在对各低层策略进行训练时，每个低层子策略都采用相同的运动状态信息，并且具有相同的多层感知器架构。所有低层策略均采用目标深度Q网络实现训练。在评估各低层策略时，双方无人机智能体可以以最大模拟频率向参与环境输入飞行动作。该最大模拟频率可以是每秒50次，即50Hz。

控制区策略可以是在所有低层策略的最大范围的初始条件下进行训练，该初始条件可以包括双方无人机模型的均匀随机位置、轨迹俯仰角、轨迹偏航角和航行速度组成。

攻击性射击策略也可以在初始条件下进行训练，并将双方无人机模型置于交战内，最大限度地提高学习己方无人机智能体有效进攻和防御炮击机动所花费的时间。

防守性射击策略在训练期间可以利用相同的初始条件，并具有与攻击性射击策略类似的奖励功能。

各低层策略经过训练，可以得到对应的目标低层策略，即目标控制区策略、目标攻击性射击策略以及目标防守性射击策略，可以分别在状态空间的特定区域中表现出色。

本发明实施例中，采用目标深度Q网络实现对策略选择器的训练。在训练策略选择器时，需要冻结各目标低层策略的参数，使得策略选择器的训练不会出现与除各目标低层策略外的其他复杂情况，简化学习问题，并可以实现以模块化方式训练和重用己方无人机智能体。

在训练策略选择器时，采用的奖励函数是稀疏的，可以包括外界奖励，外界奖励是指各低层策略下参与环境给予的奖励，可以基于己方无人机智能体相对于对方无人机智能体的位置确定，该外界奖励的目标是将对方无人机模型定位在己方无人机智能体的武器交战区内。

可以理解的是，本发明实施例中采用的目标深度Q网络可以使用神经网络取代Q-learning通过查表计算Q值的方式，通过神经网络来进行价值函数的近似，解决输入的运动状态信息维数很高时Q值的计算问题，同时采用两个网络来减少目标Q值计算和需要更新的Q网络的参数之间的依赖关系，解决算法不易于收敛的问题。

目标深度Q网络可以包括评估网络和目标网络，评估网络用于计算Q值评估值，更新结构参数，目标网络用于计算目标Q值，评估网络和目标网络的结构保持一致。目标网络的结构参数不需要迭代更新，而是每隔一段时间将评估网络的结构参数复制过来，减少目标Q值和Q值评估值之间的相关性。

目标深度Q网络的损失函数可以表示为：

（2）

（3）

其中，为损失函数，/>为利用目标网络计算得到的目标Q值，/>为当前状态，/>为当前动作，/>为评估网络得到的/>下/>的Q值评估值，/>为下一状态，为使用评估网络得到的最大评估值的动作，/>为通过目标网络计算的下/>的Q值，/>为执行/>所得到的奖励，/>为平衡系数，E表示平方均值法。

图3为目标深度Q网络的体系结构示意图，如图3所示，本发明实施例中在仿真对战环境中得到训练数据集，并将训练数据集存储至经验回放单元，然后从经验回放单元中取样输入至初始决策模型。初始决策模型中，结合目标网络和评估网络的输出以及奖励计算损失函数，并采用梯度下降法对评估网络的结构参数进行更新。经过一段时间后将评估网络的结构参数复制给目标网络进行结构参数同步。最后，基于评估网络，探索低层策略，选择最优的低层策略，并控制无人机智能体在参与环境中执行对应的动作。

为了更准确的估计Q值，在评估网络和目标网络中加入竞争网络结构，利用基于竞争网络结构的目标深度Q网络在动作不会对环境产生价值影响的情形下判断状态的价值，寻找用于双方对战的最优的低层策略。

图4是竞争网络结构的示意图，如图4所示，该竞争网络结构可以包括输入层、隐藏层、与隐藏层连接的状态价值网络和动作优势网络以及输出层。无人机智能体在机动过程中从参与环境中获取运动状态信息作为评估网络的输入，经过隐藏层后得到的特征分别被输入到状态价值网络和动作优势网络中进行进一步的数据处理，然后将状态价值网络和动作优势网络的输出相加，最后输出Q值。

引入竞争网络结构后，Q值的计算方式如以下公式所示：

（4）

其中，为Q值，/>为状态价值网络的输出，为动作优势网络的输出，/>为隐藏层的网络参数，/>为动作优势网络的结构参数，/>为状态价值网络的结构参数，/>为所有可能采取的动作，/>为对所有动作对应的动作优势网络的输出取均值。

本发明实施例中提供的无人机智能决策模型训练方法，首先在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；然后基于训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型。该训练方法并不需要建立规则库，使得到的目标智能决策模型具有较强的通用性、鲁棒性以及较高的准确性，对于无人机决策具有较高的成功率，同时可以避免主观性和经验性对无人机决策的影响。该训练方法中采用的各低层策略与策略选择器分层训练，缩短了学习周期，可以应对复杂机动。而且，该训练方法中采用的目标深度Q网络的评估网络和目标网络中均包含有竞争网络结构，竞争网络结构包括与隐藏层连接的状态价值网络和动作优势网络，可以实现对Q值的准确估计，进一步提升目标智能决策模型的准确性。

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练方法，所述基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型，包括：

具体地，本发明实施例中，在对各低层策略进行训练时，可以根据各低层策略要实现的功能，采用目标深度Q网络进行训练，最终得到训练后的各目标低层策略。此后，冻结各目标低层策略的结构参数，用以训练策略选择器。

在训练策略选择器时，可以引入内在奖励的计算，并将计算得到的内在奖励结合外界奖励，共同确定奖励函数对策略选择器进行训练，得到目标策略选择器。最终，利用各目标低层策略以及目标策略选择器，构建目标智能决策模型。内在奖励的引入，可以帮助解决无人机智能体反馈稀疏的环境中表现不佳的问题，仅需稀疏的外界奖励即可实现对策略选择器的训练，避免繁琐的人工设置与调整。

其中，内在奖励可以是通过内在好奇心模块（Intrinsic Curiosity Module，ICM）确定的好奇心奖励，外界奖励可以通过各目标低层策略的奖励函数确定。

本发明实施例中，可以将外界奖励与内在奖励之和作为策略选择器的奖励函数的取值，初始决策模型的训练目标是使奖励函数最大化。即有：

（5）

其中，为t时刻的奖励函数，/>表示t时刻的内在奖励，/>表示t时刻的外界奖励。

为了方便学习，可以确定与每一步的航迹角度成正比的外界奖励，包括目标控制区策略的奖励函数、目标攻击性射击策略的奖励函数以及目标防守性射击策略的奖励函数。

在一次完整的训练过程中，通过策略选择器选择的低层策略的状态与动作均作为内在好奇心模块的输入，通过内在好奇心模块进行计算，最终输出内在奖励。

内在好奇心模块可以包括编码器、前向模块和逆模块，编码器用于对策略选择器选择的低层策略的当前状态和下一状态进行编码，分别得到当前状态特征和下一状态特征。前向模块用于根据策略选择器选择的低层策略的当前动作和当前状态特征对下一状态的特征进行预测，得到下一状态特征预测值。逆模块用于根据当前状态特征向量和下一状态特征对当前动作进行预测。

此后，通过将预测状态特征与原始状态特征进行误差计算，并将计算结果作为内在奖励。

前向模块的操作可以通过如下公式进行表示：

（6）

其中，表示下一状态特征预测值，/>表示下一状态，学习函数/>为前向模块，/>表示当前状态特征，/>表示当前状态，/>表示当前动作，/>为前向模块的结构参数。

可以通过最小化损失函数的方式进行优化，前向模块的损失函数可以表示为：

（7）

其中，为前向模块的损失函数。

由此，内在奖励可以通过以下公式进行计算：

（8）

其中，为比例因子，满足/>。

根据上述分析，损失函数的整体优化目标可以表示为：

（9）

其中，表示策略选择器选择的低层策略，θ _P表示策略选择器选择的低层策略的结构参数，/>为所有r _t的期望值，表示当前状态/>的策略梯度损失和内在奖励的重要性，λ>0用于衡量策略梯度损失和内在奖励的重要性程度，可以不将策略梯度损失反向传播到正向模型，以防止奖励退化解。L _I为逆模块的损失函数，用于衡量预测动作与当前动作之间的差异。β>0为平衡系数。

在上述实施例的基础上，目标控制区策略的奖励函数基于双方无人机模型的相对位置奖惩、双方无人机模型的靠近奖惩、双方无人机智能体的导弹攻击奖励、己方无人机模型的飞行高度惩罚以及双方无人机模型的距离惩罚确定。

具体地，本发明实施例中，可以利用战斗机飞行员的领域知识确定目标控制区策略的多维奖励函数。

目标控制器策略的奖励函数可以表示为：

（10）

其中，表示目标控制器策略的奖励函数；/>为双方无人机模型的相对位置奖惩，表示使己方无人机模型处于对方无人机模型的后方并指向对方无人机模型时给出奖励，当对方无人机模型出现这种情况时给出惩罚；/>为双方无人机模型的靠近奖惩，表示当己方无人机智能体追击对方时，若己方无人机模型向对方无人机模型靠近则奖励，当己方无人机智能体被对方无人机智能体追击时，若己方无人机模型还靠近对方无人机模型则惩罚；/>为己方无人机智能体的导弹攻击奖励，表示当己方无人机智能体得到导弹攻击的角度和距离时获得奖励；/>为对方无人机智能体的导弹攻击奖励，表示当对方无人机智能体得到导弹攻击的角度和距离时获得惩罚；/>为己方无人机模型的飞行高度惩罚，表示当己方无人机模型的飞行高度低于最低高度阈值时进行惩罚；/>为双方无人机模型的距离惩罚，表示己方无人机模型与对方无人机模型的角度和距离在最小攻击距离之内时惩罚，防止追逐时过度攻击。

在上述实施例的基础上，目标攻击性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、己方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

具体地，目标攻击性射击策略的奖励函数可以通过如下公式确定：

（11）

其中，表示目标攻击性射击策略的奖励函数；/>为己方无人机模型的跟踪角惩罚，表示无论己方无人机模型相对于对方无人机模型的位置如何，若己方无人机模型相对于对方无人机模型具有非零航迹角（己方无人机模型的机头和对方无人机模型的中心之间的角度）则惩罚；/>为己方无人机智能体的导弹攻击奖励，表示当己方无人机智能体得到导弹攻击的角度和距离时获得奖励；/>为己方无人机模型的飞行高度惩罚，表示当己方无人机模型的飞行高度低于最低高度阈值时进行惩罚。

在上述实施例的基础上，目标防守性射击策略基于己方无人机模型的跟踪角惩罚、双方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

具体地，目标防守性射击策略的奖励函数可以通过如下公式确定：

（12）

其中，表示目标防守性射击策略的奖励函数；/>为己方无人机模型的跟踪角惩罚，表示无论己方无人机模型相对于对方无人机模型的位置如何，若己方无人机模型相对于对方无人机模型具有非零航迹角（己方无人机模型的机头和对方无人机模型的中心之间的角度）则惩罚；/>为己方无人机智能体的导弹攻击奖励，表示当己方无人机智能体得到导弹攻击的角度和距离时获得奖励；/>为对方无人机智能体的导弹攻击奖励，表示当对方无人机智能体得到导弹攻击的角度和距离获得惩罚；/>为己方无人机模型的飞行高度惩罚，表示当己方无人机模型的飞行高度低于最低高度阈值时进行惩罚。

在上述实施例的基础上，对双方无人机模型的仿真对战过程进行伤害计算，包括：

在对方无人机模型位于己方无人机智能体的导弹攻击范围内时，对方无人机智能体的血量基于指定速度减少，所述指定速度基于所述对方无人机模型持续处于所述导弹攻击范围的累计时长确定。

具体地，在仿真对战过程中，需要考虑无人机智能体被攻击时的血量减少速度，即掉血速度。无人机智能体的剩余血量与被持续攻击的时长（即持续处于导弹攻击范围的累计时长）有关，任一方无人机智能体的剩余血量可以通过如下公式计算：

（13）

（14）

（15）

其中，是当前时刻，/>是己方无人机模型处于对方无人机智能体的导弹攻击范围内的累计时长，/>是己方无人机模型最近一次进入对方无人机智能体的导弹攻击范围的时刻，/>是己方无人机智能体在t时刻的掉血速度，即指定速度，与己方无人机模型在对方无人机智能体的导弹攻击范围内的累计时长/>成正比，比例系数为。己方无人机模型停留在对方无人机智能体的导弹攻击范围内被持续攻击的时间越长，己方无人机智能体的血量减少速度越快。/>和/>分别是己方无人机智能体的初始血量和当前剩余血量，其当前剩余血量为初始血量扣除已累积的血量减少值。

当己方无人机模型逃离对方无人机智能体的导弹攻击范围后被持续攻击的累计时长清零，再次置于对方无人机智能体的导弹攻击范围内时，被攻击的累计时长会重新开始计算，已方无人机智能体的掉血速度也会随之从零开始逐渐增加。

如图5所示，在上述实施例的基础上，本发明实施例中还提供了一种无人机智能决策方法，该方法包括：

S21，获取待决策无人机的实时状态信息；

S22，将所述实时状态信息输入至目标智能决策模型中，以使所述目标智能决策模型中的目标策略选择器基于所述实时状态信息从各目标低层策略中选择最优的目标低层策略；

S23，基于选择的目标低层策略，对所述待决策无人机进行动作控制；

其中，所述目标智能决策模型基于上述各实施例中提供的无人机智能决策模型训练方法训练得到。

具体地，本发明实施例中提供的无人机智能决策方法，其执行主体为无人机智能体，该无人机智能体可以配置于无人机内，用于通过无人机智能决策方法对无人机进行动作控制。

首先执行步骤S21，获取待决策无人机的实时状态信息，该待决策无人机可以是实际对战场景下的任一方无人机。该实时状态信息是指待决策无人机实时的运动状态信息，可以包括实时的空气动力学信息、位置信息和姿态信息等。

然后执行步骤S22，调用目标智能决策模型，将实时状态信息输入至目标智能决策模型中，目标智能决策模型则接收实时状态信息并利用目标策略选择器从各目标低层策略中选择最优的目标低层策略。各目标低层策略可以包括目标控制区策略、目标攻击性射击策略以及目标防守性射击策略。最优的目标低层策略可以是目标控制区策略、目标攻击性射击策略以及目标防守性射击策略中的一个，由目标策略选择器确定。

该目标智能决策模型可以利用上述各实施例中提供的无人机智能决策模型训练方法对初始决策模型训练得到。

最后执行步骤S23，利用选择的目标低层策略，对待决策无人机进行动作控制。该动作控制包括对待决策无人机的副翼、升降舵、方向舵和油门等设备进行控制。

无人机智能决策方法利用目标智能决策模型实现对待决策无人机的动作控制的过程如图6所示。

本发明实施例中提供的无人机智能决策方法，由于该方法采用的目标智能决策模型具有较强的通用性、鲁棒性以及较高的准确性，对于无人机决策具有较高的成功率，同时可以避免主观性和经验性对无人机决策的影响。由此，得到的控制策略更加准确，使控制动作更加精准。

在上述实施例的基础上，以红方无人机智能体和蓝方无人机智能体相对匀速直线飞行的对抗场景为例，按照上述各实施例中提供的无人机智能决策模型训练方法对初始决策模型训练，得到目标智能决策模型。通过训练可以让目标智能决策模型在简单任务中学习到合适的攻击策略，可以设定训练最大回合数为10000，单回合最大步长为35，环境刷新周期为1s，单回合终止条件为无人机智能体单回合执行步数达到最大。

为了进一步说明目标智能决策模型的设计与实现的可行性，利用该目标智能决策模型确定红方无人机智能体的控制策略，利用基于规则式策略（策略1.0、策略1.1、策略1.2）作为蓝方无人机智能体的控制策略，进行1v1模式的实验以验证目标智能决策模型的有效性。

其中，策略1.0是指双方无人机模型距离小于6km时蓝方无人机智能体追击，双方无人机模型距离大于6km时蓝方无人机智能体也追击。策略1.1是指双方无人机模型距离小于6km时蓝方无人机智能体追击，双方无人机模型距离大于6km时蓝方无人机智能体截击。策略1.2是指双方无人机模型距离小于10km时蓝方无人机智能体追击，双方无人机模型距离大于10km且红方无人机智能体到达其防御阵地的距离小于蓝方无人机智能体到达其防御阵地的距离时，蓝方无人机智能体截击；双方无人机模型距离大于10km且红方无人机智能体到达其防御阵地的距离大于蓝方无人机智能体到达其防御阵地的距离时，蓝方无人机智能体冲锋。

在实验时设置双方无人机模型均初始化为水平方向，从正前方与对方无人机模型交锋。假设红方无人机模型的初始位置为（-45000，0，-3000），初始速度为350m/s，初始高度为3000m，初始俯仰角为0°，初始航向角为0°，初始滚转角为0°；蓝方无人机模型的初始位置为（45000，0，-3000），初始速度为350m/s，初始俯仰角为0°，初始航向角为180°，初始滚转角为0°。

图7是红蓝双方无人机智能体对抗的胜率对比。图7中利用本发明实施例中提供的目标智能决策模型确定的控制策略用3表示，策略1.0用4表示，策略1.1用5表示，策略1.2用6表示。利用本发明实施例中提供的目标智能决策模型确定的控制策略与策略1.0进行对抗胜率达到了91%，与策略1.1进行对抗胜率达到了89%，与策略1.2进行对抗胜率达到了84%。由此可知，目标智能决策模型给出的控制策略胜率得到了提高，证明了目标智能决策模型在博弈条件下的可行性，可以让无人机有效地作出决策，引导无人机占领有利的态势位置。

综上所述，本发明实施例中提供的目标智能决策模型，实现了对抗战场中无人机自主机动决策。

如图8所示，在上述实施例的基础上，本发明实施例中提供了一种无人机智能决策模型训练装置，包括：

训练数据集构建模块81，用于在双方无人机智能体的仿真对战场景下，获取双方无人机模型在仿真对战过程中的运动状态信息，并对双方无人机模型的仿真对战过程进行伤害计算和胜负判定，构建训练数据集；

模型训练模块82，用于基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型；

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，所述模型训练模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，目标控制区策略的奖励函数基于双方无人机模型的相对位置奖惩、双方无人机模型的靠近奖惩、双方无人机智能体的导弹攻击奖励、己方无人机模型的飞行高度惩罚以及双方无人机模型的距离惩罚确定。

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，目标攻击性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、己方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，目标防守性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、双方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，训练数据集构建模块，具体用于：

在上述实施例的基础上，本发明实施例中提供的无人机智能决策模型训练装置，所述训练数据集包括状态空间和动作空间；

所述动作空间包括双方无人机智能体的飞行控制动作。

具体地，本发明实施例中提供的无人机智能决策模型训练装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

如图9所示，在上述实施例的基础上，本发明实施例中提供了一种无人机智能体，包括：

信息获取模块91，用于获取待决策无人机的实时状态信息；

决策模块92，用于将所述实时状态信息输入至目标智能决策模型中，以使所述目标智能决策模型中的目标策略选择器基于所述实时状态信息从各目标低层策略中选择最优的目标低层策略；

控制模块93，用于基于选择的目标低层策略，对所述待决策无人机进行动作控制；

具体地，本发明实施例中提供的无人机智能体中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器（Processor）110、通信接口（Communications Interface）120、存储器（Memory）130和通信总线140，其中，处理器110，通信接口120，存储器130通过通信总线140完成相互间的通信。处理器110可以调用存储器130中的逻辑指令，以执行上述各实施例中提供的无人机智能决策模型训练方法或无人机智能决策方法。

此外，上述的存储器130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例中提供的无人机智能决策模型训练方法或无人机智能决策方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的无人机智能决策模型训练方法或无人机智能决策方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无人机智能决策模型训练方法，其特征在于，包括：

其中，所述各低层策略包括控制区策略、攻击性射击策略和防守性射击策略，所述策略选择器用于从所述各低层策略中选择最优的低层策略；所述目标深度Q网络的评估网络和目标网络中均包含有竞争网络结构，所述竞争网络结构包括与隐藏层连接的状态价值网络和动作优势网络；

所述基于所述训练数据集，采用目标深度Q网络，对初始智能决策模型中的策略选择器和各低层策略进行分层训练，得到目标智能决策模型，包括：

其中，所述内在奖励基于内在好奇心模块确定，所述外界奖励基于所述各目标低层策略的奖励函数确定；通过策略选择器选择的低层策略的状态与动作作为内在好奇心模块的输入，通过内在好奇心模块进行计算，最终输出内在奖励；

所述训练数据集包括状态空间和动作空间；

所述动作空间包括双方无人机智能体的飞行控制动作；

所述评估网络和所述目标网络的结构一致；

双方无人机智能体在机动过程中从参与环境中获取运动状态信息作为评估网络的输入，经过隐藏层后得到的特征分别被输入到状态价值网络和动作优势网络中进行进一步的数据处理，然后将状态价值网络和动作优势网络的输出相加，最后输出Q值；

引入竞争网络结构后，Q值的计算方式如以下公式所示：

；

其中，为Q值，/>为状态价值网络的输出，为动作优势网络的输出，/>为隐藏层的网络参数，/>为动作优势网络的结构参数，/>为状态价值网络的结构参数，/>为所有可能采取的动作，/>为对所有动作对应的动作优势网络的输出取均值；

将所述训练数据集存储至经验回放单元，从所述经验回放单元中取样输入至初始决策模型；所述初始决策模型中，结合目标网络和评估网络的输出以及奖励计算损失函数，并采用梯度下降法对评估网络的结构参数进行更新；经过一段时间后将评估网络的结构参数复制给目标网络进行结构参数同步；基于评估网络，探索低层策略，选择最优的低层策略，并控制无人机智能体在参与环境中执行对应的动作。

2.根据权利要求1所述的无人机智能决策模型训练方法，其特征在于，目标控制区策略的奖励函数基于双方无人机模型的相对位置奖惩、双方无人机模型的靠近奖惩、双方无人机智能体的导弹攻击奖励、己方无人机模型的飞行高度惩罚以及双方无人机模型的距离惩罚确定。

3.根据权利要求1所述的无人机智能决策模型训练方法，其特征在于，目标攻击性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、己方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

4.根据权利要求1所述的无人机智能决策模型训练方法，其特征在于，目标防守性射击策略的奖励函数基于己方无人机模型的跟踪角惩罚、双方无人机智能体的导弹攻击奖励以及己方无人机模型的飞行高度惩罚确定。

5.根据权利要求1-4中任一项所述的无人机智能决策模型训练方法，其特征在于，对双方无人机模型的仿真对战过程进行伤害计算，包括：

6.一种无人机智能决策方法，其特征在于，包括：

获取待决策无人机的实时状态信息；

其中，所述目标智能决策模型基于如权利要求1-5中任一项所述的无人机智能决策模型训练方法训练得到。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的无人机智能决策模型训练方法或如权利要求6所述的无人机智能决策方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的无人机智能决策模型训练方法或如权利要求6所述的无人机智能决策方法。