CN114489144B

CN114489144B - 无人机自主机动决策方法、装置及无人机

Info

Publication number: CN114489144B
Application number: CN202210363450.1A
Authority: CN
Inventors: 高阳; 李�浩; 颜冠伟; 常惠; 聂勤; 梁亚蓉; 赵皓; 张鑫辰
Original assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Current assignee: Institute of Automation of Chinese Academy of Science; AVIC Chengdu Aircraft Design and Research Institute
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-12
Anticipated expiration: 2042-04-08
Also published as: CN114489144A

Abstract

本发明提供一种无人机自主机动决策方法、装置及无人机，该方法包括：搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；将当前空间状态信息输入至双深度Q网络，生成无人机的动作序列；从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作。本发明提供的无人机自主机动决策方法、装置及无人机，基于多维度的各无人机的运动模型，模拟无人机博弈对抗仿真环境，并确定当前空间状态信息，通过双深度Q网络生成无人机的动作序列，通过动作序列筛选出无人机的下一动作，并指导无人机进行对抗。能够在多维度空间进行决策，避免过拟合，实现端到端的快速感知和决策控制，提高通用性。

Description

无人机自主机动决策方法、装置及无人机

技术领域

本发明涉及无人机控制技术领域，尤其涉及一种无人机自主机动决策方法、装置及无人机。

背景技术

随着战场环境的复杂性和计算机技术特别是人工智能技术的快速发展，无人机的智能化和自主化程度不断提高。

目前，无人机自主机动决策常用的技术有专家系统法、微分对策法、影响图法、优化理论法、动态规划法等。其中，专家系统方法使用规定的规则库和推理机，但是规则库建立起来太复杂，通用性、鲁棒性和准确性低。微分对策法在面对非零和问题时效果不佳，且由于复杂的空战态势和环境，容易出现模型规模大带来的维数灾难。虽然影响图法能够更直观、更真实地反馈现状，并对现状进行分类和解释，但由于其复杂，难以进行解析求解。在众多优化理论方法中，目前常用的是遗传算法。该方法通过评估相应机动的适应性来获得合理的机动，具有广泛的实用性。但时效性差，主观性和经验性强。动态规划法将空战过程划分为多个规划时域，并在每个规划时域内进行最优控制，避免了维数灾难，但学习周期长，难以应对复杂机动。

可见，现有技术中关于优化无人机自主机动决策的部分技术方案，适应的场景和提供的决策方案都比较有限，难以应对无人机对抗过程中用高维状态和动作空间的决策，无法满足通用性的需求。

发明内容

本发明提供一种无人机自主机动决策方法、装置及无人机，用以解决现有技术中高维状态和动作空间的处理过程中鲁棒性低、通用性差的缺陷，实现无人机多维度空间进行决策，避免过拟合。

本发明提供一种无人机自主机动决策方法，包括：

搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；

将所述当前空间状态信息输入至双深度Q网络，生成所述无人机的动作序列；

从所述动作序列中筛选出所述无人机的下一动作，并引导所述无人机执行所述下一动作；

其中，所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。

根据本发明提供的一种无人机自主机动决策方法，所述从所述动作序列中筛选出所述无人机的下一动作，包括：

基于epsilon-greedy策略，对所述动作序列进行全局探索，获取探索系数；

在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下，基于玻尔兹曼策略，从所述动作序列中确定所述无人机的下一动作；

其中，所述目标随机数是伴随所述动作序列在0和1之间随机生成的。

根据本发明提供的一种无人机自主机动决策方法，在所述将所述当前空间状态信息输入至双深度Q网络，生成所述无人机的动作序列之前，还包括：

基于所述当前空间状态信息，在所述评估网络中得到所述动作序列中各动作的评估值，以根据最大评估值确定目标动作；

基于所述当前空间状态信息，在所述目标网络中获取所述目标动作的目标值；

基于所述最大评估值和所述目标动作的目标值，利用损失函数进行反向传播，更新所述评估网络的参数，并将所述评估网络的参数同步更新至所述目标网络。

根据本发明提供的一种无人机自主机动决策方法，所述基于所述当前空间状态信息，在所述目标网络中获取所述目标动作的目标值，包括：

基于所述当前空间状态信息，以使得所述无人机执行目标动作之后，得到下一空间状态信息和综合奖励值；

生成一样本，并将所述样本存至经验回放队列；所述样本至少包括所述下一空间状态信息和所述综合奖励值；从所述经验回放队列抽样，并输入至所述目标网络，获取所述目标动作的目标值。

根据本发明提供的一种无人机自主机动决策方法，所述当前空间状态信息包括所述对抗环境下的无人机的数量、转移函数、综合奖励值，以及各所述无人机的位姿信息、候选动作和奖励函数中的至少一种。

根据本发明提供的一种无人机自主机动决策方法，所述搭建各无人机的运动模型，包括：

基于六自由度，建立所述无人机的状态方程；

基于控制参量和预设动作库，对所述无人机的状态方程进行积分，获取所述无人机的航迹；

根据所述航迹的变化规律，构建所述运动模型；

其中，所述控制参量与所述候选动作的维度对应。

根据本发明提供的一种无人机自主机动决策方法，所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成；

或，所述对抗环境包括一个或者多个所述无人机，以及一个或者多个有人机以分组对抗的形式组成。

本发明还提供一种无人机自主机动决策装置，包括：

空间信息获取模块，用于搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；

序列获取模块，用于将所述当前空间状态信息输入至双深度Q网络，生成所述无人机的动作序列；

动作筛选模块，用于从所述动作序列中筛选出所述无人机的下一动作，并引导所述无人机执行所述下一动作；

本发明还提供一种无人机，包括无人机本体，所述无人机本体中设置有决策处理器；还包括存储器及存储在所述存储器上并可在所述决策处理器上运行的程序或指令，所述程序或指令被所述决策处理器执行时执行如上述任一种所述无人机自主机动决策方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述无人机自主机动决策方法。

本发明提供的无人机自主机动决策方法、装置及无人机，基于多维度的各无人机的运动模型，模拟无人机博弈对抗仿真环境，并确定当前空间状态信息，通过双深度Q网络生成无人机的动作序列，通过动作序列筛选出无人机的下一动作，并指导无人机进行对抗。能够在多维度空间进行决策，避免过拟合，实现端到端的快速感知和决策控制，提高通用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的无人机自主机动决策方法的流程示意图；

图2是本发明提供的双深度Q网络的结构示意图；

图3是本发明提供的无人机自主机动决策方法的仿真结果示意图；

图4是本发明提供的无人机自主机动决策装置的结构示意图；

图5是本发明提供的无人机的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

图1是本发明提供的无人机自主机动决策方法的流程示意图。如图1所示，本发明实施例提供的无人机自主机动决策方法，包括：步骤101、搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息。

其中，对抗环境由两个或者两个以上的目标无人机以分组对抗的形式组成。

需要说明的是，本发明实施例提供的无人机自主机动决策方法的执行主体无人机自主机动决策装置。

无人机自主机动决策装置本身是一个设置在无人机上的电子设备。无人机自主机动决策装置的应用场景为在空战演练中，由无人机自主作出决策，引导无人机占领有利的态势位置。

对抗环境，是指由两方无人机集群在平面区域内的协同对抗场景。其中，蓝方作为进攻方，希望突破红方无人机的拦截，成功抵达目的地遂行军事行动。红方则希望在给定的区域内完成对蓝方无人机的拦截，阻止蓝方的突防。

具体地，在步骤101中，无人机自主机动决策装置根据任一无人机在任一时刻下在三维空间中的运动维度，建立该无人机的运动模型。并将对抗环境中红蓝双方的无人机的状态特征用对应的运动模型进行表征，以融合生成当前空间状态信息。

其中，在任意的某个时刻，无人机所处的状态

可以由无人机的速度和位姿信息组成。

优选地，无人机自主机动决策装置在建立好各无人机的运动模型后，执行场景模拟设置并在显示界面中对相关态势信息进行实时的前端显示，以构建无人机博弈对抗仿真环境。

步骤102、将当前空间状态信息输入至双深度Q网络，生成目标无人机的动作序列。

其中，双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。

需要说明的是，双深度Q网络（Double Deep Q Network，DDQN）的基本思想是将动作的选择与评估分开。在DDQN中有包含两套结构相同而参数不同的神经网络结构，即评估网络和目标网络。其实质是使用评估网络来评估对抗策略，使用目标网络来估算其价值。

具体地，在步骤102中，无人机自主机动决策装置将DDQN应用到无人机智能对抗中，将无人机连续无限的当前空间状态信息作为DDQN的输入，利用DDQN中的评估网络和目标网络对无人机动作的选择和评估进行解耦合操作处理，寻找无人机进行对抗所能采取的动作序列，以作为对抗策略。

步骤103、从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作。

具体地，在步骤103中，无人机自主机动决策装置按照指定策略进行筛选，从动作序列中选取出某一动作作为无人机以对抗为目的所执行的下一动作，并对根据下一动作产生相应指令，以驱动无人机各部件，使无人机在下一时刻以指定的位姿到达指定位置。

本发明实施例基于多维度的各无人机的运动模型，模拟无人机博弈对抗仿真环境，并确定当前空间状态信息，通过双深度Q网络生成无人机的动作序列，通过动作序列筛选出无人机的下一动作，并指导无人机进行对抗。能够在多维度空间进行决策，避免过拟合，实现端到端的快速感知和决策控制，提高通用性。

在上述任一实施例的基础上，从动作序列中筛选出无人机的下一动作，包括：基于epsilon-greedy策略，对动作序列进行全局探索，获取探索系数。

具体地，在步骤103中，无人机自主机动决策装置使用epsilon-greedy策略来对无人机的探索和利用进行折中，对步骤102中获取的动作序列中的每个动作进行实验，确定每个动作对应的探索系数，其计算公式如下所示：

其中，

为动作序列中的每个动作，

为无人机当前所处的状态，在每次实验中以

的概率进行探索，以

的概率进行利用。

在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下，基于玻尔兹曼策略，从所述动作序列中确定所述无人机的下一动作。

具体地，每次开始实验时，会伴随产生一个目标随机数，将目标随机数与本次实验的动作所对应的探索系数进行对比。

其中，目标随机数的取值范围为大于0，且小于1。

在目标随机数大于或者等于该动作对应的探索系数的情况下，即说明当前处于以

的概率进行利用的阶段，无人机自主机动决策装置则进一步地使用玻尔兹曼策略进行探索，通过计算动作序列中每个动作被采取的概率值进行无人机动作的判断和选择，根据该概率值的大小选择最大值所对应的动作，并作为无人机在当前步长所要采取的下一动作。

其中，玻尔兹曼策略根据每个动作的Q值（即

），对动作空间每个动作被采取的概率值进行计算，

为动作序列中包含的动作之一，

为无人机在当前状态

采取动作

的概率，其计算公式如下所示：

在目标随机数小于该动作对应的探索系数的情况下，即说明当前处于以

的概率进行探索的阶段，则无人机自主机动决策装置以均匀概率随机，从动作序列中选取动作，并将该动作作为无人机在当前步长所要采取的下一动作。

本发明实施例基于使用epsilon-greedy策略作为全局探索策略，在利用阶段通过采用玻尔兹曼策略进行局部探索，确定无人机的下一动作。能够在无人机探索环境时采用epsilon-greedy和玻尔兹曼结合的混合策略，有效避免无人机陷入到次优策略或局部最优策略。

在上述任一实施例的基础上，在所述将所述当前空间状态信息输入至双深度Q网络，生成所述无人机的动作序列之前，还包括：

基于所述当前空间状态信息，在所述评估网络中得到所述动作序列中各动作的评估值，以根据最大评估值确定目标动作。

需要说明的是，在训练双深度Q网络之前，需要预先设置迭代轮数、高维度的当前状态信息、动作序列、步长、衰减因子

、参数为

的评估网络、参数为

的目标网络、批量梯度下降的样本数量，以及目标网络的参数更新频率。

本发明实施例对此不作具体限定。示例性地，如表1所示：

表1 算法参数设定表

并随机初始化动作序列中所有动作对应的价值Q。随机初始化当前评估网络的所有参数

，初始化目标网络的参数

，同时，清空经验回放队列。

具体地，在参数为

的评估网络中使用当前状态信息作为输入，得到评估网络的动作序列中所有动作对应的Q值输出。利用指定策略在环境中进行探索和利用，选择最大的 Q值所对应的动作作为目标动作。

基于所述当前空间状态信息，在所述目标网络中获取所述目标动作的目标值。

具体地，在参数为

的目标网络中使用当前状态信息作为输入，得到在当前状态信息下执行目标动作，所得到新状态对应的目标值。

具体地，根据目标动作对应的评估值和目标值计算损失函数，并通过误差反向传递的方式更新评估网络的参数

。若当前迭代轮数与目标网络的参数更新频率契合，则同步更新目标网络的参数

，直至当前状态信息下执行目标动作所得到的新状态的奖励值满足要求，则判定其为终止状态，当前轮迭代完毕。

本发明实施例对此过程不作具体限定，其过程如下所示：

其中，

为无人机的当前状态信息，

为目标动作，

为评估网络的输出值，

为目标网络的输出值，

为目标动作的目标值，

为评估值，

为衰减因子，取值范围为

，

为即时奖励。损失函数

根据评估值和目标值的均方误差（Mean Square Error, MSE）进行计算后最终得到。

本发明实施例基于将当前状态信息输入到双深度Q网络的评估网络确定目标动作，通过在目标网络中以当前状态信息执行目标动作计算目标值，通过目标动作的评估值和目标值，反向传播更新双深度Q网络。能够减少经验样本之间的相关性，避免过拟合。

图2是本发明提供的双深度Q网络的结构示意图。如图2所示，在上述任一实施例的基础上，基于当前空间状态信息，在目标网络中获取目标动作的目标值，包括：基于当前空间状态信息，以使得所述无人机执行目标动作之后，得到下一空间状态信息和综合奖励值。

具体地，在目标网络的训练过程中，在输入的当前空间状态信息对应的状态下，执行目标动作并与环境交互，得到下一空间状态信息，以及对应的综合奖励值。

其中，对抗环境中红蓝双方无人机的学习目标不同。红方无人机的目标是学习最大化折扣奖励的预期总和的策略。相反，蓝方无人机的联合策略是最小化期望和。针对此现象，本发明构建关键事件奖励塑造，如表2所示。

表2关键事件奖励塑造表

生成一样本，并将所述样本存至经验回放队列。所述样本至少包括所述下一空间状态信息和所述综合奖励值。

具体地，根据将下一空间状态信息

和综合奖励值

，结合当前空间状态信息

与目标动作添加至

元组中，并将其作为样本存入至经验回放队列D中。

从所述经验回放队列抽样，并输入至所述目标网络，获取所述目标动作的目标值。

具体地，从经验回放队列D中采样指定数量的样本，以计算目标动作的目标值。

本发明实施例基于在目标网络中以当前状态信息执行目标动作计算目标值。能够将动作的选择与评估分开由评估网络来评估对抗策略，使用目标网络来估算其价值，避免过拟合。

在上述任一实施例的基础上，当前空间状态信息包括对抗环境下的无人机的数量、转移函数、综合奖励值，以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。

具体地，在步骤101中，基于红蓝双方对抗条件下的多无人机博弈中，以二人零和博弈为条件对对抗博弈进行建模，以表征任一无人机的当前空间状态信息。

可选地，对抗环境下的无人机的数量，是指参与对抗的无人机的总数。

可选地，各无人机的位姿信息，是指参与对抗的每一个无人机在三维空间下的状态特征。

可选地，候选动作，是指不同无人机可选的机动动作。示例性地，可供选择的机动动作是围绕预先设置的控制维度开展的。

可选地，奖励函数，是指在不同无人机执行策略时获得的奖励机制，可以获取对应的综合奖励值。

可选地，转移函数，是指红方无人机当前状态下在红方根据策略选择的动作与对手蓝方选择的动作的联合行为影响下，转移到下一状态的概率。

可选地，综合奖励值，是指执行该状态下所有行为的概率与对应行为产生的即时奖励的乘积的和。

优选地，将对抗环境中的各无人机状态特征融合至一个元组

，以表征当前空间状态信息。

示例性地，以红蓝双方在同一高度下进行1V1对抗博弈为示例：

（1）将红蓝双方无人机对抗中玩家数量

设定为2。

（2）根据影响无人机对抗态势的因素，可以确定每一个无人机的状态特征。

由于红蓝双方在同一高度下进行对抗博弈，所以能影响无人机对抗态势的因素包括：三维空间的x坐标轴、三维空间的y坐标轴、偏转角和滚转角，则根据对抗空间下的每个无人机的因素融合成空间状态特征

，即主要由红方无人机的二维坐标

、偏转角

和滚转角

，以及蓝方无人机二维坐标

、偏转角

和滚转角

组成。

在上式中，下标为r的元素表示红方无人机的状态特征，下标为b的元素表示蓝方无人机的状态特征。

由于无人机的状态空间是连续无限空间，所以需要用到深度学习神经网络来处理这些特征。

（3）无人机的候选动作

时从影响无人机对抗态势的因素中选取一个或者多个，作为对抗中执行机动动作进行控制的参量。以围绕滚转角设定候选动作为示例，可以设置向左滚转L、维持滚转G和向右滚转R三类可选动作。

（4）确定转移函数

，以红方为例，红方当前状态

在红方根据策略选择的动作与对手蓝方选择的动作的联合行为影响下，转移到下一状态

的概率。

（5）需要确定对抗环境中每个无人机的状态特征、候选动作和奖励函数

，无人机为当前状态

决策选择一个动作，到达下一个状态

，利用对应的奖励函数，可以得到与环境交互后反馈综合奖励值，然后进行下一轮交互，由此实现循环。

本发明实施例基于无人机的数量、转移函数、综合奖励值，以及各无人机的位姿信息、候选动作和奖励函数融合成对抗环境的当前空间状态信息。能够在高维度完整的反映当前的态势信息。

在上述任一实施例的基础上，搭建无人机的运动模型，包括：基于六自由度，建立无人机的状态方程。

具体地，在步骤101中，围绕着速度和六自由度构建一个七元组，去描述任一无人机的状态

，并依照七元组中的每一个元素随着时间的变化，建立无人机的状态方程。

其中，

表示无人机在惯性坐标系中的位置，

为无人机速度，

为俯仰角，

为偏航角，

为滚转角。

基于控制参量和预设动作库，对无人机的状态方程进行积分，获取所述无人机的航迹。

其中，控制参量与候选动作的维度对应。

需要说明的是，需要说明的是，在步骤101之前，需要预先根据任务需求，选定无人机在三维空间的控制参量。

控制参量，是指根据无人机航迹变化所发生改变的参量。控制参量用于规定无人机在对抗环境中可以执行机动动作的维度。

预设动作库，是指在各中控制参量下能执行的动作集合。预设动作库包括但不限于定常飞行、减速飞行、加速飞行、左转弯、右转弯、向上拉起和向下俯冲等机动动作。

具体地，无人机自主机动决策装置采用预先设置的控制参量和预设动作库，根据四阶龙格-库塔法对常微分方程组进行数值积分，得到各无人机的航迹。

根据所述航迹的变化规律，构建所述运动模型。

具体地，无人机自主机动决策装置将无人机的轨迹随时间变化的规律，作为该无人机的运动模型。

其中，无人机的航迹变化规律包括该无人机的机动速度随时间变化的规律和空间轨迹随时间变化的规律。

本发明实施例基于控制参量和预设动作库，对六自由度的状态方程进行积分，并根据获取的无人机的航迹关于时间的变化规律，构建所述运动模型。能够提高对无人机进行控制的灵活性。

图3是本发明提供的无人机自主机动决策方法的仿真结果示意图。如图3所示，在上述任一实施例的基础上，所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成。

或，对抗环境包括一个或者多个无人机，以及一个或者多个有人机以分组对抗的形式组成。

需要说明的是，将有人机搭载的电子设备与其飞行操纵杆通信连接，以使得电子设备可以接收到有人机在飞行操纵杆控制下的态势信息在人机博弈对抗仿真环境下进行实时的前端显示。

本发明实施例对有人机的飞行操纵杆不作具体限定，优选地，有人机设置有HOTAS飞行操纵杆，以进行人机博弈对抗的实验。

具体地，将各无人机搭载的无人机自主机动决策，与参与对抗的飞机搭载的电子装置建立对应的通信连接关系，并在统一的仿真平台进行前端显示。

本发明实施例对参与对抗的飞机，及其搭载的电子设备不作具体限定。

可选地，将红方无人机搭载的无人机自主机动决策装置与蓝方无人机搭载的无人机自主机动决策装置建立对应的通信连接关系，并在统一的仿真平台进行前端显示。

可选地，将各无人机搭载的无人机自主机动决策装置与有人机搭载的电子设备建立对应的通信连接关系，并在统一的仿真平台进行前端显示。

本发明实施例对无人机自主机动决策装置、有人机搭载的电子设备以及仿真平台之间的通信过程不作具体限定。

示例性地，仿真平台向无人机自主机动决策装置和有人机的电子设备发送模拟时间戳、模拟控制命令、训练集序号和训练步骤序号。

并且，仿真平台将无人机的态势信息、与无人机当前态势相关的机动动作，输出至无人机自主机动决策装置。

仿真平台将有人机的态势信息、与有人机当前态势相关的机动动作，输出至有人机的电子设备。

相对地，无人机自主机动决策装置可以将模拟时间戳响应、无人机机动策略（即下一动作）、无人机位置、无人机速度、无人机方位角和无人机俯仰角，输出至仿真平台。

相对地，有人机的电子设备可以将模拟时间戳响应、有人机位置、有人机速度、有人机方位角和有人机俯仰角，输出至仿真平台。

优选地，为避免无人机与有人机直接对抗导致大量无效和错误决策导致学习效率低下和局部最优问题，该系统模仿人类学习过程：

第一，进行基础训练，使无人机面对一个执行简单机动模拟目标来探索简单的策略。

第二，进行模拟对抗训练。使无人机基于简单的策略优化算法进行机动，以供目标无人机与之对抗并学习此类机动策略。

第三，进行人机对抗训练。在目标无人机可以用简单的优化算法完全击败其他无人机的基础上，对抗由操作员控制的有人机，学习和更新机动策略。

下面给出一种无人机自主机动决策的具体实施过程：

步骤1、在训练过程中，红蓝双方无人机的运动模型均采用步骤101中描述的模型，利用改进的算法不断探索出新的策略，使得对抗的输出更加合理和完善。

步骤2、以无人机和目标无人机相对飞行，目标匀速直线运动飞行的对抗场景为例，按照发明内容的步骤对无人机的对抗进行强化学习建模和训练。实验在1v1的无人机对抗模式下进行，利用DDQN算法和改进DDQN算法的无人机分别与基于规则式策略进行对抗，验证改进算法的有效性。

步骤3、为了进一步说明算法设计与实现的可行性，本发明实验中设置双方均初始化为水平方向，从正前方与敌人交锋，假设红方的初始位置为（0，0，10000），初始速度为100m/s，初始高度为10000m，初始俯仰角为0°，初始航向角为90°，初始滚转角为0°。而蓝方的初始位置为（2000，2000，10000），初始速度为100m/s，初始俯仰角为0°，初始航向角为120°，初始滚转角为0°。

步骤4、通过训练可以让无人机在简单任务中学习到合适的攻击策略，实验中设定训练最大回合数为10000，单回合最大步长为30，道路环境刷新周期为1s，单回合终止条件为无人机单回合执行步数达到最大或无人机进行决策。

步骤5、在红蓝双方无人机智能对抗仿真中，用基于深度强化学习的智能体（红方）与基于有人机操作输入数据（蓝方）对抗的方式进行。从初始状态向后运行20个决策步长，即一轮学习，执行10000轮完成算法的训练，分别统计训练过程中各个阶段内红方胜出、蓝方胜出和打成平局的次数，并计算各个阶段内的平均奖励值。

从实验对比中DDQN网络和改进的DDQN网络都可以在博弈情景下生成对抗策略，实验的仿真结果如图3所示，通过各回合步长的平均奖励值变化曲线进行对比，可以看出经过一定阶段的训练学习之后，红方在对抗中取得了较为优秀的成绩。在本回合中获得的总奖励曲线是呈上升态势的，但改进DDQN网络的奖励值更大，并且可以更快的收敛，证明了算法在博弈条件下的可行性，可以让无人机有效地作出决策，引导无人机占领有利的态势位置。

图4是本发明提供的无人机自主机动决策装置的结构示意图。在上述任一实施例的基础上，如图4所示，本发明实施例提供的无人机自主机动决策装置，包括：空间信息获取模块410、序列获取模块420和动作筛选模块430，其中：

空间信息获取模块410，用于搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息。

序列获取模块420，用于将当前空间状态信息输入至双深度Q网络，生成无人机的动作序列。

动作筛选模块430，用于从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作。

具体地，空间信息获取模块410、序列获取模块420和动作筛选模块430顺次电连接。

空间信息获取模块410根据任一无人机在任一时刻下在三维空间中的运动维度，建立该无人机的运动模型。并将对抗环境中红蓝双方的无人机的状态特征用对应的运动模型进行表征，以融合生成当前空间状态信息。

序列获取模块420将DDQN应用到无人机智能对抗中，将无人机连续无限的当前空间状态信息作为DDQN的输入，利用DDQN中的评估网络和目标网络对无人机动作的选择和评估进行解耦合操作处理，寻找无人机进行对抗所能采取的动作序列，以作为对抗策略。

动作筛选模块430按照指定策略进行筛选，从动作序列中选取出某一动作作为无人机以对抗为目的所执行的下一动作，并对根据下一动作产生相应指令，以驱动无人机各部件，使无人机在下一时刻以指定的位姿到达指定位置。

可选地，动作筛选模块430包括全局探索单元和局部探索单元，其中：

全局探索单元，用于基于epsilon-greedy策略，对动作序列进行全局探索，获取探索系数。

局部探索单元，用于在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下，基于玻尔兹曼策略，从所述动作序列中确定所述无人机的下一动作。

可选地，该装置还包括，包括第一训练模块、第二训练模块、第三训练模块，其中：

第一训练模块，用于基于所述当前空间状态信息，在所述评估网络中得到所述动作序列中各动作的评估值，以根据最大评估值确定目标动作。

第二训练模块，用于基于所述当前空间状态信息，在所述目标网络中获取所述目标动作的目标值。

第三训练模块，用于基于所述最大评估值和所述目标动作的目标值，利用损失函数进行反向传播，更新所述评估网络的参数，并将所述评估网络的参数同步更新至所述目标网络。

可选地，第二训练模块包括交互单元、回放单元和计算单元，其中：

交互单元，用于基于所述当前状态信息，以使得所述无人机执行目标动作之后，得到下一空间状态信息和综合奖励值。

回放单元，用于生成一样本，并将所述样本存至经验回放队列；所述样本至少包括下一空间状态信息和所述综合奖励值。

计算单元，用于从所述经验回放队列抽样，并输入至所述目标网络，获取所述目标动作的目标值。

可选地，当前空间状态信息包括对抗环境下的无人机的数量、转移函数、综合奖励值，以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。

可选地，空间信息获取模块410包括状态获取单元、航机获取单元和建模单元，其中：

状态获取单元，用于基于六自由度，建立无人机的状态方程。

航机获取单元，用于基于控制参量和预设动作库，对无人机的状态方程进行积分，获取所述无人机的航迹；

建模单元，用于根据所述航迹的变化规律，构建所述运动模型。

其中，控制参量与候选动作的维度对应。

可选地，所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成。

本发明实施例提供的无人机自主机动决策装置，用于执行本发明上述无人机自主机动决策方法，其实施方式与本发明提供的无人机自主机动决策方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

图5是本发明提供的无人机的结构示意图。在上述任一实施例的基础上，如图5所示，本发明实施例提供的无人机包括无人机本体510，无人机本体510中设置有决策处理器520，由决策处理器520执行无人机自主机动决策方法，并驱动无人机本体510的各部件执行对应机动动作，以进行对抗。

本发明的无人机还包括存储器及存储在存储器上并可在决策处理器上运行的程序或指令，所述程序或指令被决策处理器520执行时执行无人机自主机动决策方法，该方法包括：搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；将当前空间状态信息输入至双深度Q网络，生成无人机的动作序列；从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作；其中，双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的无人机自主机动决策方法，该方法包括：搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；将当前空间状态信息输入至双深度Q网络，生成无人机的动作序列；从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作；其中，双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的无人机自主机动决策方法，该方法包括：搭建各无人机的运动模型，并基于所有无人机的所述运动模型，确定对抗环境相关的当前空间状态信息；将当前空间状态信息输入至双深度Q网络，生成无人机的动作序列；从动作序列中筛选出无人机的下一动作，并引导无人机执行下一动作；其中，双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无人机自主机动决策方法，其特征在于，包括：

其中，所述双深度Q网络由两个结构相同且参数不同的评估网络和目标网络组成；

所述从所述动作序列中筛选出所述无人机的下一动作，包括：

其中，所述目标随机数是伴随所述动作序列在0和1之间随机生成的；

所述当前空间状态信息包括所述对抗环境下的所述无人机的数量、转移函数、综合奖励值，以及各无人机的位姿信息、候选动作和奖励函数中的至少一种。

2.根据权利要求1所述的无人机自主机动决策方法，其特征在于，在所述将所述当前空间状态信息输入至双深度Q网络，生成所述无人机的动作序列之前，还包括：

3.根据权利要求2所述的无人机自主机动决策方法，其特征在于，所述基于所述当前空间状态信息，在所述目标网络中获取所述目标动作的目标值，包括：

生成一样本，并将所述样本存至经验回放队列；所述样本至少包括所述下一空间状态信息和所述综合奖励值；

4.根据权利要求1所述的无人机自主机动决策方法，其特征在于，所述搭建各无人机的运动模型，包括：

基于六自由度，建立所述无人机的状态方程；

根据所述航迹的变化规律，构建所述运动模型；

其中，所述控制参量与所述候选动作的维度对应。

5.根据权利要求1所述的无人机自主机动决策方法，其特征在于，所述对抗环境由两个或者两个以上的所述无人机以分组对抗的形式组成；

6.一种无人机自主机动决策装置，其特征在于，包括：

所述动作筛选模块包括全局探索单元和局部探索单元；

所述全局探索单元，用于基于epsilon-greedy策略，对所述动作序列进行全局探索，获取探索系数；

所述局部探索单元，用于在所述动作序列相关的目标随机数大于或者等于所述探索系数的情况下，基于玻尔兹曼策略，从所述动作序列中确定所述无人机的下一动作；

7.一种无人机，其特征在于，包括无人机本体，所述无人机本体中设置有决策处理器；还包括存储器及存储在所述存储器上并可在所述决策处理器上运行的程序或指令，所述程序或指令被所述决策处理器执行时执行如权利要求1至5任一项所述无人机自主机动决策方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述无人机自主机动决策方法。