CN108021754A

CN108021754A - 一种无人机自主空战决策框架及方法

Info

Publication number: CN108021754A
Application number: CN201711275066.1A
Authority: CN
Inventors: 马耀飞; 刘品; 陈静心; 李妮; 龚光红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2018-05-11

Abstract

本发明公开了一种无人机自主空战决策框架及方法，属于计算机仿真领域。所述框架包括基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。空战决策模块生成空战训练数据集输出给深度网络学习模块，学习获得深度网络和Q值拟合函数、动作选择函数，并输出给强化学习模块；空战仿真环境使用学习好的空战决策函数进行自我空战过程，并记录空战过程数据形成强化学习训练集；强化学习模块利用强化学习训练集对Q值拟合函数优化改进，获得性能更好的空战策略。本发明能对本质上复杂的Q函数进行更精确、更快速地拟合，提高了学习效果，最大程度避免了收敛到局部最优值，并且构造了一个空战决策优化的闭环过程，不需外部干预。

Description

一种无人机自主空战决策框架及方法

技术领域

本发明属于计算机仿真领域，具体涉及一种无人机自主空战决策框架及方法。

背景技术

随着无人机在军事领域的大量应用，如何建立高性能的无人机自主决策方法框架，成为促进无人机进一步承担复杂任务部署、提高应用效率的关键。无人机自主空战决策方法根据自身的任务部署、威胁态势和载荷配置情况，决策自身的机动或战术行动，以实现以最小代价完成作战任务的目标。

基于领域知识的决策技术是实现自主空战决策的主要传统方式，具有易于构建的实用特点。但知识决策系统的主要问题是面对瞬息万变的任务环境难以不断获取新知识并持续提高决策质量。最近几年，机器学习技术的发展对传统的知识决策方法带来了新的机遇。首先，以深度网络为基础的大数据处理技术为知识的自动获取提供了实用路径。从大量数据中学习领域知识成为此类技术的特点。其次，强化技术被广泛用于优化已有的智能决策模型。强化学习通过行为主体与环境的交互获取不同状态下行动决策的反馈，从而使行为主体决策时倾向于选择使自己获益最大的行动。上述技术在汽车无人驾驶、游戏AI、机器人导航、自主规划等多个方面得到了应用。

发明内容

本发明的目的是充分利用机器学习、强化学习等不同方法的优点，为无人机自主决策提供一种更加快捷、通用的无人机自主空战决策框架及方法。

本发明提供的一种无人机自主空战决策框架，包括：基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境。

所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块；所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块。

空战态势输入模块从空战仿真环境中获取当前作战情况数据，将所获取的数据进行设定的归一化处理，得到当前作战态势s，并输出到空战决策规则库。空战决策规则库中针对作战飞机事先建立一组机动动作，每个动作由唯一的序号进行索引。当空战决策规则库接收到当前作战态势s时，进行规则匹配，选择相匹配的机动动作，并将对应的索引序号输出给决策输出模块。决策输出模块将对应的索引序号a输出给空战仿真环境，在空战仿真环境根据a执行对应的机动动作，将所执行a后新的作战态势s′返回给空战决策模块。所述的空战训练数据集S＝{<s,a,s′>}。

深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数。深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层，深度网络输出层输出数据给动作选择函数。深度网络输入层的维度与当前作战态势的维度相同，深度网络输出层的维度与机动动作的个数相同。所述的深度网络学习模块基于空战训练数据集对深度网络进行训练，逐渐学习得到空战决策模块的决策策略，得到Q值拟合函数和动作选择函数π(s)。动作选择函数采用贪婪原则，计算为当前作战态势s选择不同机动动作a的Q值，选择拟合的Q值最大的机动动作序号a。深度网络学习模块将学习好的深度网络和Q值拟合函数动作选择函数π(s)输出给强化学习模块。

空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程，并将空战过程数据记录，形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}，其中，r(s,a)是对s下选择动作a的即时回报，Q(s,a)是(s,a)组合的Q值。

强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数进行优化改进。强化学习模块利用训练集中每条记录的r(s,a)更新Q值，将其与当前拟合函数的计算结果之差作为反馈，优化深度网络中的网络参数，获得性能更好的空战策略。

对应地，本发明提供了一种无人机自主空战决策方法，包括如下步骤：

步骤1，依据空战决策规则库在空战仿真环境进行空战过程仿真，记录当前作战态势s，选择的机动动作a，执行a后的新作战态势s′，并生成空战训练数据集S＝{<s,a,s′>}；

步骤2，建立深度网络，利用空战训练数据集S进行训练，使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近，训练过程中根据贝尔曼价值迭代方程计算(s,a)组合的Q值的拟合函数然后得到基于贪婪策略的动作决策函数π(s)。

步骤3，利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真，记录仿真过程中产生的决策过程，并形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}；其中，r(s,a)是对s下选择动作a的即时回报，Q(s,a)是(s,a)组合的Q值。

步骤4，在强化学习训练集X中进行随机采样，利用采样集合每条记录的回报值r(s,a)更新Q值，将其与当前拟合函数的计算结果之差作为反馈，优化深度网络参数；

步骤5：重复步骤2～4，直到满足预设的空战性能指标时，停止，此时输出最后的深度网络以及拟合函数决策函数π(s)。

与现有技术相比，本发明的优点和积极效果在于：

1)本发明利用空战仿真及专家建立的空战决策规则库来获得大批量空战数据，解决了深度网络学习的初始数据来源问题，使学习优化过程不必从头开始；

2)本发明采用深度网络学习模块对价值函数Q进行拟合，具有更好的精确度。深度网络比传统三层神经网络的表达能力更强，能够对本质上复杂的Q函数进行更精确、更快速地拟合，提高了学习效果；

3)深度网络、强化学习模块和空战仿真环境构成了一个空战决策优化的闭环过程。除了初始时通过专家建立的空战决策规则库生成训练数据，在后续学习中可通过自我对战实现决策性能优化的自动过程，不需外部干预；

4)更新深度网络参数时，通过随机采样获取部分记录优化网络参数，避免了训练集X中的记录前后关联问题，从而最大程度避免了收敛到局部最优值。

附图说明

图1是本发明的无人机自主空战决策框架的结构示意图；

图2是本发明的基于领域知识的空战决策模块的结构示意图；

图3是本发明的深度网络学习模块的结构示意图。

图中：

1-基于领域知识的空战决策模块；2-深度网络学习模块；3-强化学习模块；4-空战仿真环境；

101-空战态势输入模块；102-空战决策规则库；103-决策输出模块；201-深度网络输入层；

202-深度网络隐藏层；203-深度网络输出层；204-动作选择函数。

具体实施方式

下面结合附图对本发明的技术方案进行具体说明。

本发明是一种基于领域知识、深度网络和强化学习的混合式无人机自主空战决策框架，整体如图1所示，该框架包括基于领域知识的空战决策模块1、深度网络学习模块2、强化学习模块3和空战仿真环境4。

基于领域知识的空战决策模块1是空战训练数据集的生产者。基于领域知识的空战决策模块1采用产生式规则作为决策主体，产生式规则来源于对空战领域专家的调研。基于领域知识的空战决策模块1以当前的作战态势为输入，输出要执行的机动动作，形成空战训练数据集，表示为S＝{<s,a,s′>}。<s,a,s′>为数据集中一条具体的决策记录，其中s表示当前作战态势，采用矢量表示，包含了一组作战态势描述数据，包括空战双方的相对位置、相对角度、相对速度以及各自的武器携带情况等。a为输出的机动动作索引序号。s′为执行动作a后新的空战态势。空战决策模块1将空战训练数据集S输出给深度网络学习模块2。

如图2所示，空战决策模块1包含的子模块有：空战态势输入模块101、空战决策规则库102和决策输出模块103。空战态势输入模块101从空战仿真环境4中获取当前作战情况数据，将所获取的数据进行设定的归一化处理，得到当前作战态势s，并输出到空战决策规则库102。空战决策规则库102中针对作战飞机事先建立一组机动动作，每个动作由唯一的序号进行索引。当空战决策规则库102接收到当前作战态势s时，进行规则匹配，选择相匹配的机动动作，并将对应的索引序号输出给决策输出模块103。决策输出模块103将对应的索引序号a输出给空战仿真环境4。一旦选中某个索引序号，则按照事先规定的过程完成对应的机动动作。空战仿真环境4将执行动作a后的作战态势s′返回给空战决策模块1。

深度网络学习模块2对空战训练数据进行归一化处理，输入到深度网络进行学习训练。如图3所示，深度网络学习模块2包括深度网络输入层201、深度网络隐藏层202、深度网络输出层203和动作选择函数204。深度网络输入层201的维度与当前作战态势矢量s的维度相同，深度网络输入层201将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层202。深度网络隐藏层202中设有3～5层隐藏层，深度网络隐藏层202输出数据给深度网络输出层203。深度网络输出层203的维度与机动动作的个数相同，将输出数据给动作选择函数204。动作选择函数204基于贪婪原则，选择最大的Q(s,a)值对应的机动动作序号a。模块2基于模块1生成的空战决策数据进行训练，逐渐学习得到模块1的决策策略，得到了Q值的拟合函数并基于贪婪策略得到动作决策函数是求取使得值最大的机动动作序号a。

强化学习模块3利用空战仿真环境4对深度网络学习模块2输出的Q值拟合函数进行优化。空战仿真环境4使用完成学习的空战决策函数π(s)连续进行自我空战过程，并将空战过程数据记录，形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}。X的每条记录空战都包含5个部分：

●s：当前作战态势矢量；

●a：根据当前态势s选择的机动动作序号；

●s′：执行机动动作a后更新的空战态势；

●r(s,a)：对s下选择动作a的即时回报；

●Q(s,a)：<s,a>组合的Q值。

对训练集X进行随机采样，每次只选取部分记录(称为采样集合)用于更新Q值。通过贝尔曼价值迭代方程，强化学习模块利用采样集合中记录的r(s,a)对Q(s,a)进行更新，并与深度网络学习模块2输出的求差，作为反馈信号修正深度网络模块2的参数，进而得到性能更好的空战策略。

空战仿真环境4用于提供作战飞机模型和威胁环境，生成空战数据并提供给其他模块。对空战态势输入模块1，空战仿真环境4模拟执行空战态势输入模块1输入的机动动作序号a，得到更新后的空战态势s′输出给空战态势输入模块1。对于深度网络学习模块2，空战仿真环境4提供给空战训练数据。对于强化学习模块3，空战仿真环境4利用深度网络学习模块2完成学习的空战决策函数π(s)连续进行自我空战过程，并记录空战过程数据，形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}，并输出给强化学习模块3。

相应地，本发明提供的无人机自主空战决策方法，实现步骤如下：

步骤1：依据空战决策规则库在空战仿真环境进行空战过程仿真，生成空战训练数据集S。

如上所述，用户使用基于领域知识的空战决策模块1、空战仿真环境4执行空战过程仿真，记录仿真过程中产生的决策过程，包括当前作战态势s、选择的机动动作a、执行a后的新作战态势s′，形成空战训练数据集S＝{<s,a,s’>}。

步骤2：建立深度网络，利用空战训练数据集S进行训练，使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近，初步拟合空战状态的价值函数，获得初步空战策略。

本步骤中，使用深度网络学习模块2，用空战训练数据集S进行训练深度网络，使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近，在训练过程中根据贝尔曼价值迭代方程计算空战决策(s,a)的Q值的拟合函数进而得到的动作决策函数为

步骤3：利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真，记录仿真过程中产生的决策过程，并形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}。

本步骤使用强化学习模块3，利用完成学习的深度网络在空战仿真环境4中进行空战仿真。记录仿真过程中产生的决策过程，形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>。

步骤4：对强化学习训练集X采样，改进深度网络学习模块2的网络参数，从而改进空战决策的Q值拟合函数达到改进空战决策函数π(s)的目的。

步骤5：返回步骤3，直到两次改进之间的差别小于预设的阈值，停止迭代，输出最后得到的深度网络参数、决策过程的Q值拟合函数以及动作决策函数π(s)。

Claims

1.一种无人机自主空战决策框架，其特征在于，包括：基于领域知识的空战决策模块、深度网络学习模块、强化学习模块和空战仿真环境；

所述的空战决策模块用于生成空战训练数据集S输出给深度网络学习模块；所述的空战决策模块包含的子模块有空战态势输入模块、空战决策规则库和决策输出模块；

空战态势输入模块从空战仿真环境中获取当前作战情况数据，将所获取的数据进行设定的归一化处理，得到当前作战态势s，并输出到空战决策规则库；空战决策规则库中针对作战飞机事先建立一组机动动作，每个动作由唯一的序号进行索引；当空战决策规则库接收到当前作战态势s时，进行规则匹配，选择相匹配的机动动作，并将对应的索引序号输出给决策输出模块；决策输出模块将对应的索引序号a输出给空战仿真环境，在空战仿真环境根据a执行对应的机动动作，将所执行a后新的作战态势s′返回给空战决策模块；

深度网络学习模块包括深度网络输入层、深度网络隐藏层、深度网络输出层和动作选择函数；深度网络输入层将输入的空战训练数据集S进行归一化处理输出到深度网络隐藏层，深度网络输出层输出数据给动作选择函数；深度网络输入层的维度与当前作战态势的维度相同，深度网络输出层的维度与机动动作的个数相同；所述的深度网络学习模块基于空战训练数据集对深度网络进行训练，逐渐学习得到空战决策模块的决策策略，得到Q值拟合函数和动作选择函数π(s)；深度网络学习模块将学习好的深度网络和Q值拟合函数动作选择函数π(s)输出给强化学习模块；

空战仿真环境使用深度网络学习模块完成学习的空战决策函数π(s)连续进行自我空战过程，并将空战过程数据记录，形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}，其中，r(s,a)是对s下选择动作a的即时回报，Q(s,a)是(s,a)组合的Q值；

强化学习模块利用空战仿真环境输出的强化学习训练集对Q值拟合函数进行优化改进；强化学习模块利用训练集中每条记录的r(s,a)更新Q值，将其与当前拟合函数的计算结果之差作为反馈，优化深度网络中的网络参数，获得性能更好的空战策略。

2.如权利要求1所述的一种无人机自主空战决策框架，其特征在于，所述的空战训练数据集S＝{<s,a,s′>}。

3.如权利要求1所述的一种无人机自主空战决策框架，其特征在于，所述的动作选择函数采用贪婪原则，计算为当前作战态势s选择不同机动动作a的Q值，选择拟合的Q值最大的机动动作序号a。

4.如权利要求1所述的一种无人机自主空战决策框架，其特征在于，所述的强化学习模块在强化学习训练集X中进行随机采样，利用采样集合每条记录的r(s,a)更新Q值。

5.应用如权利要求1所述的一种无人机自主空战决策框架的方法，其特征在于，操作步骤如下：

步骤一，依据空战决策规则库在空战仿真环境进行空战过程仿真，记录当前作战态势s，选择的机动动作a，执行a后的新作战态势s′，并生成空战训练数据集S＝{<s,a,s′>}；

步骤二，建立深度网络，利用空战训练数据集S进行训练，使深度网络的输入-输出关系与空战训练数据集S中的s→a对应关系趋近，训练过程中根据贝尔曼价值迭代方程计算(s,a)组合的Q值的拟合函数然后得到基于贪婪策略的动作决策函数π(s)；

步骤三，利用步骤2训练好的深度网络在空战仿真环境中进行空战仿真，记录仿真过程中产生的决策过程，并形成强化学习训练集X＝{<s,a,s′,r(s,a),Q(s,a)>}；其中，r(s,a)是对s下选择动作a的即时回报，Q(s,a)是(s,a)组合的Q值；

步骤四，在强化学习训练集X中进行随机采样，利用采样集合每条记录的回报值r(s,a)更新Q值，将其与当前拟合函数的计算结果之差作为反馈，优化深度网络参数；

步骤五：重复步骤2～4，直到满足预设的空战性能指标时，停止，此时输出最后的深度网络以及拟合函数决策函数π(s)。