CN114841055A

CN114841055A - 一种基于生成对抗网络的无人机集群任务预分配方法

Info

Publication number: CN114841055A
Application number: CN202210336032.3A
Authority: CN
Inventors: 毕文豪; 严钰文; 张安
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-02
Anticipated expiration: 2042-03-31
Also published as: CN114841055B

Abstract

本发明提供了一种基于生成对抗网络的无人机集群任务预分配方法，对无人机信息与目标信息进行预处理，建立生成对抗网络的生成模型G(x)并生成分配序列，建立生成对抗网络的判别模型并对生成序列评价，采用梯度下降最优化目标，计算生成模型优化目标，采用梯度下降最优化目标，通过对抗训练，得到任务分配生成模型，最终得到期望的任务分配结果。本发明利用了生成对抗网络能在高实时性、高对抗性和不确定性的大容量、多维度数据战场环境下挖掘作战行动模型，在理论上能够逼近任意函数的这一特点，能够给出合理的任务分配方案，同时由于生成对抗网络在处理数据方面的高效保证了本发明方法能够快速得到任务分配结果。

Description

一种基于生成对抗网络的无人机集群任务预分配方法

技术领域

本发明涉及无人机集群与深度学习领域，特别是一种任务预分配方法。

背景技术

无人机集群任务分配技术作为无人机集群作战的关键技术之一，旨在结合战场态势和自身能力信息，进行最优的任务部署，提高集群的作战效能。其中任务预分配作为无人机集群任务分配的初始环节，旨在满足各项战术和技术指标的前提下，将不同位置、价值、威胁程度的目标在作战初期合理分配给不同的无人机，形成有效的任务序列。

目前的任务预分配通常采用协同任务分配(Cooperative Multi-TaskAssignment Problem,CMTAP)方法进行建模，其考虑了真实战场环境下无人机的异构性与时间约束，建立一种多目标的组合优化问题。针对该类模型，以遗传算法、粒子群算法为代表的启发式算法在集群规模较小的情况下能够迅速找出较优解。但由于这类算法与模型在求解最优问题时存在以下缺点：

(1)算法在求解过程中有一定的随机性；

(2)算法求解时需要进行多次迭代，同时迭代次数与任务分配模型规模有关。

因此，通过启发式算法求解CMTAP模型得到任务分配结果的方法在大型任务分配场景下分配效率较低，分配时间过长。

发明内容

为了克服现有技术的不足，本发明提供一种基于生成对抗网络的无人机集群任务预分配方法。为了克服启发式算法求解大型CMTAP问题时计算效率低，计算时间长的缺点，本发明提供一种基于生成对抗网络的无人机集群任务预分配方法，根据已知的无人机和任务目标信息，能够快速地得到合理的任务预分配序列。

本发明解决其技术问题所采用的技术方案的具体步骤如下：

步骤1：数据预处理

对无人机信息与目标信息进行预处理，其中无人机信息包括弹药量、对目标的毁伤概率、对目标的侦察收益、无人机续航能力；目标信息包括目标重要度、目标打击收益、目标侦察收益。

预处理包括以下三个步骤：

a).将无人机信息表示为1×n₁的信息向量l_a，其中n₁为无人机数量，a＝1,2,...,k₁,k₁为无人机信息种类数量；将目标信息表示为1×n₂的信息向量k_b，其中n₂等于目标数量，b＝1,2,...,k₂,k₂为目标信息种类数量；

b).由于n₁、n₂存在长度不同的情况，取n＝max(n₁,n₂)为指定长度，将小于指定长度的向量l_a、k_b后进行补零处理，最终得到长度都为n的无人机信息向量l_new_a和目标信息向量k_new_b，之后将各个信息向量按行组合成为(k₁+k₂,n)的信息矩阵M；

c).使用如下公式对信息矩阵M中每一行数据进行归一化处理：

式中x_norm_(i,j)为第i行第j列进行归一化后的数据，x_i,j为第i行第j个数据，Min_i为第i行值最小的数据，Max_i为第i行值最大的数据，i＝1,2,...,k₁+k₂，j＝1,2,...,n，记经过归一化处理后的矩阵为M_norm；

将经过归一化后的矩阵M_norm作为模型的输入数据，记为data_i，同时将与无人机和目标信息对应的真实的任务分配序列记为real_i，进入步骤2；

步骤2：建立生成对抗网络的生成模型G(x)并生成分配序列；

步骤3：建立生成对抗网络的判别模型D(x)并对生成序列评价；

判别模型由词嵌入模型、深度卷积网络、全连接网络组成，三者作为判别模型的基本架构；

判别模型评价指标如下：

其中G(z)为生成模型生成的序列，D(y))为判别模型得到的评分,

表示真实分配序列通过判别模型后评分的期望，

表示生成的分配序列经过判别模型后评分的期望；

步骤4：采用梯度下降最优化目标:min-V(G,D)；

根据步骤(3)中的序列评价指标V(D,G)，使用随机最速下降法更新判别模型中的参数，包括判别模型中卷积网络每一个卷积核的参数、全连接网络中每一个神经元的权值以及每一个神经元的偏置；

步骤5：计算生成模型优化目标；

生成模型优化的目标函数如下：

J(θ)＝E[R_T|s₀,θ] (2)

式(2)中s₀为初始状态，θ为生成模型中的参数，R_T为判别模型对完整的生成序列给出的评价；J(θ)表示对评价的期望，即在某一个初始条件s₀和参数θ的条件下，产生某个完全的序列的评价的期望值；

期望的计算公式如下：

式中G_θ(y₁|s₀)表示利用生成模型生成某一个y₁序列的概率；

(表示当生成器G_θ生成了一个未完全序列y₁后，通过蒙特卡洛方法对该序列进行多次补全后放入判别器D_φ中得到补全序列的评价指标值，随后对由y₁产生的多个序列评价指标值取平均后的均值；

步骤6：采用梯度下降最优化目标min-J(θ)

根据式(2)，使用随机最速下降法优化目标min-J(θ)，更新生成模型中的参数，即生成模型中LSTM网络中的w_i、b_i与全连接网络的权重与偏置；

步骤7：对抗训练；

进行生成模型和判别模型的对抗训练，即重复步骤(2)到步骤(6)，直到达到设定的终止条件，终止条件为达到最大训练次数或模型网络的loss值不再变化，即认为生成模型的网络收敛，保存生成模型，即为本发明的任务分配生成模型；

步骤8：任务分配序列生成

给定战场信息，按照步骤1对输入数据进行处理后，将无人机信息和目标信息输入任务分配生成模型，即可快速得到期望的任务分配结果。

所述步骤2建立生成对抗网络的生成模型G(x)并生成分配序列的具体步骤为：

待分配无人机数量为k，待完成任务数量为l；

使用序列到序列的模型框架，首先建立LSTM网络Net₁，Net₁由多个LSTM单元组成，单元数等于输入数据的列数n，设置相关网络参数：emb_dim，hid_dim，n_layer，分别表示输入词向量大小、特征向量维度和网络层数；该网络对输入数据实现一种变换

其中x_i为data_i中的行向量，w_i为可变参数，b_i为偏置，h₀为随机初始化的向量；通过该变换对输入数据矩阵的每一列数据进行计算后，取输出数据中包含数据特征的隐藏空间向量h_n；

将隐藏空间向量h_n用来初始化另一个LSTM网络Net₂，其中LSTM单元数为任务数量l，每一个LSTM单元的输出经过全连接网络后将输出数据从向量空间映射到输出标签空间，最终经过l个LSTM单元后得到一个l×k的输出矩阵，设矩阵的行向量为z_j，使用softmax公式：

将每一行向量的k个实数映射为k个(0,1)之间的实数，并对每一行向量进行基于概率的抽样，即每一行依概率抽取一个数据，得到其位置索引，将得到的数据组成一个l×1的向量，即为生成的分配序列；

建立的基于LSTM的模型作为任务分配的生成模型G(x)。

所述步骤3中，D(y)、D(G(z))的计算步骤为：

a).建立关于无人机的索引词典，将生成的分配序列对应的每一个无人机编号映射为向量，设词维度为p，则生成的分配序列变为l×p的矩阵Matrix_1；

b).对Matrix_1矩阵做卷积处理，通过池化网络进行下采样，其中每一个卷积网络后连接一个池化网络，经过多次处理得到Matrix_final；

c).将Matrix_final通过两层全连接网络得到生成的分配序列的评分D(G(z))，其中全连接网络参数包括input_dim和outout_size，分别为全连接网络的输入维度和输出维度；

d).将真实的分配序列real_i通过步骤a)建立的无人机索引词典找出分配序列中每个数字对应的无人机编号，即将分配序列映射为无人机编号序列，得到的矩阵Matrix_2，按照步骤b)、步骤c)得到真实分配序列的评分D(y)。

本发明的有益效果在于利用了生成对抗网络能在高实时性、高对抗性和不确定性的大容量、多维度数据战场环境下挖掘作战行动模型，在理论上能够逼近任意函数的这一特点，能够给出合理的任务分配方案，同时由于生成对抗网络在处理数据方面的高效保证了本发明方法能够快速得到任务分配结果。

附图说明

图1是本发明的数据预处理流程图。

图2是本发明的生成模型示意图。

图3是本发明的判别模型示意图。

图4是本发明的任务分配模型的训练架构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

下面以某一实际任务分配场景说明上述具体实施过程。

假设战场信息数据包括无人机机信息数据和目标信息数据。这里无人机个数为40架，任务目标15个，则无人机信息数据为一个4×40的矩阵，代表无人机各项性能；目标信息数据为一个2×30的矩阵，代表任务收益。真实的分配数据由启发式算法根据不同的战场信息生成并表示为分配序列。

采用本发明所提出的任务分配方法，训练任务分配网络模型并根据战场信息进行任务分配，实施过程如下：

1.战场数据预处理流程。

将战场信息进行拼接得到输入矩阵，对每一行进行归一化处理，如图1所示，进行归一化后的样本数据的归一化信息矩阵M_norm的转置如下表所示：

步骤2.建立生成对抗网络的生成模型并生成分配序列；

搭建如图2所示的生成模型，并设定生成模型中各网络参数如下：

①LSTM单元网络参数：

其中emb_dim为词向量大小，本发明取36，hid_dim为隐藏层维度，本发明取128；

②全连接网络参数：

output_size在本实例中等于无人机数量，数值为40。

将预处理的数据输入进网络，得到对应战场数据的生成分配序列如下表所示。其中T_i为任务编号，i＝1,2,...,l，l为任务数量；x_j表示无人机编号数，j＝1,2,...,n，n为无人机数量，该序列表示编号为T_i的任务由编号为x_j的无人机执行；如下表所示：

T1

T2

T3

T4

T5

T6

T7

T8

T9

T10

…

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

…

步骤3.建立生成对抗网络的判别模型并对生成序列评价；

搭建如图3所示的判别模型，设定其中各网络参数如下：

①深度卷积网络为29层，每一层输入维度和输出维度如下：

每一层卷积核大小kernel_size为；

kernel_size＝{(1,40),(2,40),...,(29,40)}

②池化层参数设定

池化层层数与卷积层相同，每一层核大小kernel_size设为：

kernel_size＝{(29,1),(28,1),...,(2,1)}

③全连接层设定

将生成序列和真实序列混合并生成标签矩阵T^n×2，输入进判别模型进行计算得到对生成序列和真实序列的评价指标值，例如：(0.872,0.128)，表示有0.872的概率认为该序列为生成序列，有0.128的概率认为该序列为真实序列。

随后设置判别模型参数为可变，根据式(1)计算评价指标。

步骤4.判别模型参数优化。

采用梯度下降方法最优化函数min-V(G,D)，更新判别模型中卷积网络的卷积核参数与全连接层的权重与偏置参数后，固定已更新的判别模型参数。

步骤5.计算生成模型优化目标及参数优化。

设置生成模型参数可变，首先使用蒙特卡洛搜索计算得到

根据式(3)计算期望值，即生成模型的优化函数值J(θ)。

步骤6.采用梯度下降方法最优化目标min-J(θ)，更新生成模型的参数，即生成模型中LSTM网络中的w_i、b_i与全连接网络的权重与偏置，随后固定生成模型参数。

步骤7.以上计算模型为本发明中任务分配模型的训练模型，如图4所示，重复上述过程(2)-(6)，进行生成模型和判别模型的对抗训练，直到损失函数保持在一定范围内，认为模型训练完毕，保存生成模型；

步骤8.使用该生成模型进行任务分配，得到某一次任务分配的部分序列如下表所示，该序列表示T₁目标分配给编号37的无人机执行，T₂目标分配给编号39的无人机执行，T₅目标分配给编号11的无人机执行等：

T<sub>1</sub>	T<sub>2</sub>	T<sub>3</sub>	T<sub>4</sub>	T<sub>5</sub>	T<sub>6</sub>	T<sub>7</sub>	T<sub>8</sub>	T<sub>9</sub>	T<sub>10</sub>	…
											37	39	38	40	11	27	18	3	4	13	…

同时记录得到算法运行时间为0.16秒。