CN116301042A

CN116301042A - 一种基于vgg16和虚拟博弈的无人机群自主控制方法

Info

Publication number: CN116301042A
Application number: CN202310257728.1A
Authority: CN
Inventors: 张海宾; 靳咏雷; 孙文; 李晓军; 王海涛; 黄相喆; 贾志娟
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-23

Abstract

本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法，无人机利用预先训练好的姿态识别模型识别博弈对手的历史移动信息，根据历史移动信息计算前一时刻博弈对手的策略倾向；之后无人机从待选动作集选择待选动作，根据博弈过程公式计算博弈对手选择该动作的策略倾向和策略概率；设计奖励函数，无人机基于得到的博弈对手的策略概率用最佳响应决策规则选择一个自身动作进行移动，并观察博弈对手的动作变化，直至整个无人机群趋于稳定状态，如此实现对周围多台无人机的分析和博弈。采用本发明的技术方案在遭遇信号干扰时，可以使部分无人机单元失控的情况下，自身无人机可以自行调整移动姿态，使系统集群整体保持相对稳定。

Description

一种基于VGG16和虚拟博弈的无人机群自主控制方法

技术领域

本发明属于无人机技术领域，具体涉及一种基于VGG16和虚拟博弈的无人机群自主控制方法。

背景技术

近年来，由于无人机技术的不断发展，无人机被用于合作执行各种复杂的任务，包括搜索、救援、安全巡逻等，无人机群被广泛应用于军事、抗洪抢险、抗震救灾和日常生活等场景中。但是，随着无人机群的广泛应用，也带来了无人机群控制难题。一方面，因为无人机被越来越多的应用于恶劣且复杂的场景中，在这些场景中，信号往往不稳定。另一方面，不法分子仅仅通过局部的信号干扰就可以致使部分无人机失去控制，从而使无人机出现失控炸机的现象。为避免该情况的发生，这就需要无人机在遇到短暂信号干扰而失去控制的条件下仍能自主控制飞行。

现如今，针对无人机的安全防御技术局限于单一领域的无人机安全防控，即无人机群通过安全防御技术能够有效检测和预防无人机的某种异常行为，但是面对致使无人机出现的异常行为的各种各样的手段，单一的安全防御已无法保证无人机群的正常运行。这就需要无人机在发生行为异常后，无人机群仍能保持正常运行。因此，将安全防御和无人机群自主控制技术相结合，使无人机群在面对信号干扰或异常行为时仍能够自主控制。但是，传统的无人机群控制技术反馈缓慢，无法及时响应无人机群任务的需求。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法，应用于无人机群，无人机群中的任一无人机为博弈者，其他无人机为博弈对手，一种基于VGG16和虚拟博弈的无人机群自主控制方法包括：

步骤1，任一博弈者获取前一时刻博弈对手的运动图像；

步骤2，将运动图像预处理后送入训练好的姿态识别模型中，从而识别博弈对手在前一时刻的移动方向；

步骤3，获取预先设计的无人机的待选动作集；

步骤4，根据博弈对手在前一时刻的所有待选动作的策略倾向以及移动方向，计算博弈对手在当前时刻所有待选动作的策略倾向；

步骤5，根据每个博弈对象在当前时刻所有待选动作的策略倾向，计算当前时刻所有博弈对手选择某一待选动作的联合概率，并将所述联合概率转化为所有博弈对手在当前时刻最大可能的执行动作；

步骤6，设计奖励函数，基于所有博弈对手在当前时刻最大可能的执行动作选择使得奖励函数最大化的自身执行动作；

步骤7，博弈者按照自身执行动作飞行，继续观察博弈对手的动作变化；

步骤8，重复步骤1至步骤7，直至无人机群趋于稳定状态。

本发明的有益效果：

(1)本发明针对无人机信号不稳定的恶劣场景和信号干扰的攻击手段，在无人机群失去控制后可自主飞行，同时每个无人机都能够进行独立的计算和决策，具有良好的自主性，同时保护了个体隐私。

(2)本发明采用VGG16网络作为姿态识别模型，具有识别局限性小、迁移性好、占用计算资源低，可实现较大规模的无人机姿态的实时识别，这为在无人机基于扩展卡尔曼滤波器虚拟博弈的自主飞行控制模块中较快选取行动提供了基础。并且数据集采用的是多场景下的无人机飞行姿态，所以基于VGG16网络的飞行姿态识别模型在众多场景下具有较好的识别准确率。

(3)本发明的方法使得无人机能实时观察博弈对手的移动状态，不断迭代模型，所以在信号干扰情况下，无人机通过自主控制模块能够做出快速动态调整。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明提供的无人机自主飞行控制模型框架示意图；

图2是本发明提供的一种基于VGG16和虚拟博弈的无人机群自主控制方法的流程示意图；

图3是本发明提供的模拟30台无人机遭遇干扰后自主控制飞行场景示意图；

图4是本发明提供的VGG16网络的损失函数的示意图；

图5是本发明提供的VGG16网络的准确率的示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

本发明预先收集众多场景下的无人机姿态数据集，并在VGG16网络中进行模型训练。无人机飞行过程中通过无人机的摄像头收集集群中周围其他无人机姿态的数据集，将收集的数据集预处理后送入VGG16网络进行无人机姿态的识别；将识别的结果传输到无人机的自主飞行控制模块中，基于对周围多台无人机的分析和博弈，使无人机集群在遭遇信号干扰使部分无人机单元失控的情况下，该异常单元可以自行调整移动姿态，使系统集群整体保持相对稳定。

本发明主要分为基于VGG16网络的无人机群姿态识别模块和基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块两部分，其中无人机群姿态识别模块负责信息的采集和识别，无人机自主飞行控制模块负责遭遇干扰或攻击后无人机的自主控制。无人机自主飞行模型框架如图1所示。

实施例一

本发明提供了一种基于VGG16和虚拟博弈的无人机群自主控制方法，应用于无人机群，无人机群中的任一无人机为博弈者，其他邻近无人机为博弈对手，包括：

步骤1，任一博弈者获取前一时刻博弈对手的运动图像；

本发明将前一时刻的移动方向作为历史移动信息，预处理为对比度变换，将对比度变换之后的运动图像送入姿态识别模型。

本发明的步骤1至步骤2是由基于VGG16网络的无人机群姿态识别模块完成。无人机i在移动过程中记录其博弈对手j，即邻近无人机的移动方向并保存。

步骤3，获取预先设计的无人机的待选动作集；

步骤8，重复步骤1至步骤7，直至无人机群趋于稳定状态。

本发明中博弈者i重复步骤1-7直至无人机群趋于稳定状态，得到当前时刻所有博弈对手的所有可选动作策略倾向分布。

本发明步骤3至步骤8由基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块完成。如图3所示，该模块利用Repast-Simphony模拟仿真软件构建二维平面上的30台无人机，测试并实现基于扩展卡尔曼滤波器虚拟博弈的无人机群自主飞行控制模块。

实施例二

本发明基于VGG16网络的无人机群姿态识别模块去收集、预处理和数据分类过程。

所述姿态识别模型的训练过程为：

(1)预先采集无人机在多个场景下的历史运动视频，并对历史运动视频进行预处理；

数据收集：拍摄无人机在城市、草地、沙漠、戈壁、海洋等多个场景下的运动视频，将拍摄的无人机运动视频根据无人机的运动方向分类为“前”“后”“左”“右”“悬停”“左前”“左后”“右前”“右后”9种运动姿态。9种姿态不同场景的部分数据集。

数据集预处理：将拍摄的无人机运动视频转化为一帧一帧的静态图片，通过直方图均衡化方法对静态图片进行对比度变换，公式可表示为：

其中，n表示图像总像素个数，n_i表示图像中灰度级为i的像素个数，k表示图像灰度级的级数。

(2)将预处理之后的运动视频分为训练数据集以及测试数据集；

本发明将预处理后的无人机的运动姿态数据集打乱顺序并分为训练数据集和校验数据集两类。

(3)获取预先构建的VGG16网络，并将该VGG16网络作为姿态识别模型；

所述VGG16网络其由13个卷积层、3个全连接层和5个池化层所组成；VGG16网络对数据集进行模型训练的损失率如图4所示，准确率如图5所示。

其中VGG16网络由13个卷积层、3个全连接层和5个池化层所组成。首先经过两次由64个3*3大小的卷积核组成的卷积层，步长为1，然后经过一次2*2大小的最大池化层，步长为2；再经过两次由128个3*3大小的卷积核组成的卷积层，步长为1，然后经过一次2*2大小的最大池化层，步长为2；再经过三次由256个3*3大小的卷积核组成的卷积层，步长为1，然后经过一次2*2大小的最大池化层，步长为2；再经过三次512个3*3卷积核大小的卷积层，步长为1，然后经过一次2*2大小的最大池化层，步长为2；再经过三次512个3*3卷积核大小的卷积层，步长为1，然后经过一次2*2大小的最大池化层，步长为2；之后经过3个全连接层；最后通过SoftMax回归分类器输出分类结果。

1)卷积层：实现局部连接和权值共享两个功能，极大减小了卷积过程中的参数量，卷积过程用公式可表示为：

f(x)＝ω·x+b，

其中，x表示输入参数，ω表示权值参数，b表示偏置量，权值参数ω和偏置量b由反向传播算法不断迭代更新，至参数变化达到阈值停止；

2)池化层：将卷积层得到的特征矩阵通过max pooling的方法进行最大池化操作，然后经过ReLU激活函数输出，得到的输出结果作为下一层的输入；ReLU函数公式可表示为：

σ(x)＝max(0,x)，

其中，x表示为经过上一层得到的输出参数，ReLU函数的目的是避免参数中有负值；

3)全连接层：将经过13个卷积层和5个池化层得到的特征矩阵输入全连接层，全连接层进行全连接操作，表示为：

其中，x_i表示经过卷积和池化操作后得到的第i个特征向量，ω_ji表示为第j个神经元在第i个特征参数上的权重，b_j表示第j个神经元的偏置量；

4)SoftMax回归分类：将经过全连接层得到的特征向量送入分类器，由分类器进行无人机姿态类型的分类判断操作，经过SoftMax回归分类器得到的概率分布p输出，可用公式表示为：

其中，X表示为由全连接层得到的特征向量，ω_j表示为模型的权重参数，

表示为概率分布P的归一化系数，j表示为全连接层对应的输出类型；

5)迭代优化：反向传播中使用交叉熵计算损失函数，采用Adam梯度下降优化算法进行权重参数ω和偏置量b的迭代优化：

损失函数f(ω)表示为：

其中，P表示为预测值的概率分布，Q表示目标值的概率分布，p_j为P的子项，q_j为Q的子项；

Adam梯度下降优化算法按照下述公式进行优化：

其中，t表示为迭代次数，ω表示为待优化参数，f(ω)表示为损失函数，α表示为学习率，g_t表示损失函数的梯度值，m_t表示一阶动量，β₁表示一阶动量参数，V_t表示为二阶动量，β₂表示为二阶动量参数，η_t表示为当前时刻的梯度。

(4)将训练数据集送入所述VGG16网络中进行姿态识别模型的训练，根据损失函数迭代优化训练过程；

(5)将所述测试数据集送入VGG16网络中进行模型校验，比较识别结果与实际标签从而确定所述VGG16网络的准确率；

将测试数据集送入VGG16网络中进行模型校验，比较识别结果与实际标签，测试通过VGG16训练得到的无人机飞行姿态识别模型的准确率能够达到99.83％。

(6)重复步骤4至步骤5的过程，直至VGG16网络达到准确率标准，获得训练好的VGG16网络。

实施例三

作为本发明一种可选的实施方式，步骤4包括：

步骤41，博弈者迭代计算博弈对手在前一时刻采取所有动作的策略倾向；

在当前时刻t，博弈者i基于连续玻尔兹曼方程的自回归模型迭代计算截至t-1时刻博弈对手j所有动作的策略倾向：

其中，i∈N,N＝{1,2,…,i,…,n}，N表示无人机群的集合，n表示无人机的数量，

表示t-1时刻博弈者i的博弈对手j所有动作的策略倾向，α_h表示h时刻的相关系数，ε(t-1)表示随机误差项。

步骤42，选择任一动作作为待选动作；

步骤43，根据前一时刻的移动方向以及策略倾向计算博弈对手在当前时刻选择所述待选动作的策略倾向。

步骤43包括：

博弈者i基于扩展卡尔曼滤波器计算t时刻博弈对手j选择某一待选动作a～的策略倾向

其中，

是博弈者i在t时刻的博弈过程中博弈对手j所有动作的策略倾向；/>

表示包含姿态信息的策略倾向噪声(即干扰因素)；

博弈者与博弈对手的博弈过程用状态空间模型表示为：

其中，G为博弈过程，h为连续玻尔兹曼分量，

是均值为零的指示函数观察j倾向的误差，ζ_t服从N(0,P)分布，P为协方差矩阵。

实施例四

在一种具体的实施例中，步骤5包括：

步骤51，基于策略倾向

博弈者i通过连续玻尔兹曼分量/>

估计博弈对手j在t时刻选择某一待选动作/>

的策略概率/>

公式可表示为：

其中，τ表示连续玻尔兹曼方程中的熵值参数，A^j表示博弈者j的可选动作集合，数学描述为A^j＝{a¹,a²,…,aⁱ,…,a^q}，q表示博弈者j的可选动作数量，aⁱ表示某一待选动作；S^j表示博弈者j在可选动作集合上的策略概率集合，数学描述为S^j＝{s¹,s²,…,s^j(aⁱ),…sⁿ(a^q)}，s^j(aⁱ)表示博弈者j选择动作aⁱ的概率；

步骤52，计算无人机i所有博弈对手t时刻选择动作

的联合概率/>

公式可表示为：

其中，动作

包括：“前”“后”“左”“右”“悬停”“左前”“左后”“右前”“右后”9种待选动作。

步骤53，针对博弈对手j的每个待选动作均执行计算联合概率的过程，得到博弈对手j所有待选动作的联合概率；

步骤54，选择联合概率

最大的待选动作/>

作为博弈对手在当前时刻最大可能选择的执行动作/>

从而使得联合概率/>

转换为纯策略，可表示为如下公式：

其中，A为无人机单元的可选动作集，

为A中的任意可选动作。该转换方式有利于无人系统集群更大的概率选择相同的行动策略。

实施例五

作为本发明一种可选的实施例，步骤6包括：

设计博弈者i的奖励函数rⁱ(sⁱ,s^-i)：

其中，

表示博弈者i动作集合Aⁱ的待选动作，c表示惩罚系数，/>

表示博弈者i在选择动作/>

博弈对手选择动作/>

时的博弈收益，/>

表示博弈者i选择动作/>

的取值函数，当博弈者倾向于选择相同行动时，/>

博弈者倾向于选择不同行动时，/>

实施例六

作为本发明一种可选的实施例，步骤7包括：

步骤71：博弈者i应用最佳响应决策规则选择一个自身动作

最佳响应决策公式表示为：

步骤72：基于奖励函数和所述最佳响应决策公式，通过Adam梯度下降算法得到最优决策：

步骤73：按照最优决策所对应的动作

执行，并继续观察博弈对手的动作变化。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于VGG16和虚拟博弈的无人机群自主控制方法，应用于无人机群，无人机群中的任一无人机为博弈者，其他无人机为博弈对手，其特征在于，包括：

步骤1，任一博弈者获取前一时刻博弈对手的运动图像；

步骤3，获取预先设计的无人机的待选动作集；

步骤8，重复步骤1至步骤7，直至无人机群趋于稳定状态。

2.根据权利要求1所述的基于VGG16和虚拟博弈的无人机群自主控制方法，其特征在于，所述姿态识别模型的训练过程为：

3.根据权利要求2所述的基于VGG16和虚拟博弈的无人机群自主控制方法，其特征在于，所述VGG16网络其由13个卷积层、3个全连接层和5个池化层所组成；

(1)卷积层：实现局部连接和权值共享两个功能，极大减小了卷积过程中的参数量，卷积过程用公式可表示为：

f(x)＝ω·x+b，

(2)池化层：将卷积层得到的特征矩阵通过max pooling的方法进行最大池化操作，然后经过ReLU激活函数输出，得到的输出结果作为下一层的输入；ReLU函数公式可表示为：

σ(x)＝max(0,x)，

(3)全连接层：将经过13个卷积层和5个池化层得到的特征矩阵输入全连接层，全连接层进行全连接操作，表示为：

(4)SoftMax回归分类：将经过全连接层得到的特征向量送入分类器，由分类器进行无人机姿态类型的分类判断操作，经过SoftMax回归分类器得到的概率分布p输出，可用公式表示为：

(4)迭代优化：反向传播中使用交叉熵计算损失函数，采用Adam梯度下降优化算法进行权重参数ω和偏置量b的迭代优化：

损失函数f(ω)表示为：

Adam梯度下降优化算法按照下述公式进行优化：

4.根据权利要求1所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤4包括：

步骤42，选择任一动作作为待选动作；

步骤43，根据前一时刻移动方向以及策略倾向计算博弈对手选择所述待选动作的策略倾向。

5.根据权利要求4所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤41包括：

6.根据权利要求5所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤43包括：

其中，

表示包含姿态信息的策略倾向噪声；

博弈者与博弈对手的博弈过程用状态空间模型表示为：

其中，G为博弈过程，h为连续玻尔兹曼分量，

7.根据权利要求6所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤5包括：

步骤51，基于策略倾向

博弈者i通过连续玻尔兹曼分量/>

估计博弈对手j在t时刻选择某一待选动作/>

的策略概率/>

公式可表示为：

步骤52，计算无人机i所有博弈对手t时刻选择动作

的联合概率/>

公式可表示为：

步骤54，选择联合概率

最大的待选动作，作为博弈对手在当前时刻最大可能选择的执行动作/>

从而使得联合概率/>

转换为纯策略，可表示为如下公式：

其中，A为无人机单元的可选动作集，

8.根据权利要求7所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤6包括：

设计博弈者i的奖励函数rⁱ(sⁱ,s^-i)：

其中，

表示博弈者i动作集合Aⁱ的待选动作，c表示惩罚系数，/>

表示博弈者i在选择动作/>

博弈对手选择动作a时的博弈收益，/>

表示博弈者i选择动作/>

的取值函数，当博弈者倾向于选择相同行动时，/>

博弈者倾向于选择不同行动时，

9.根据权利要求8所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤7包括：

步骤71：博弈者i应用最佳响应决策规则选择一个自身动作

最佳响应决策公式表示为：

步骤73：按照最优决策所对应的动作

执行，并继续观察博弈对手的动作变化。

10.根据权利要求9所述的基于VGG16和虚拟博弈的无人机群自主控制方法，步骤8包括：

博弈者i重复步骤1-7直至无人机群趋于稳定状态，得到当前时刻所有博弈对手的所有可选动作策略倾向分布。