CN115631444A

CN115631444A - 一种无人机航拍图像目标检测算法

Info

Publication number: CN115631444A
Application number: CN202211348468.0A
Authority: CN
Inventors: 曾钦勇; 赵彦; 尹小杰; 王少敏
Original assignee: Chengdu Haofu Technology Co ltd
Current assignee: Chengdu Haofu Technology Co ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-01-20

Abstract

本发明公开了一种无人机航拍图像目标检测算法，该算法包括以下步骤，S1使用混合数据集训练初始检测网络模型，swin transformer模型对图像进行特征提取，获得目标检测模型；S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端；S3图像服务器终端处理视频图像信息，实现无人机对目标实时检测。该检测算法结合Transformer系列模型，在通道和空间维度上进行Attention，进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证，该方法打破了CNN感受野的局限性，显著提高了无人机吊舱视角下的检测准确度，增加了CV领域的多样性。

Description

一种无人机航拍图像目标检测算法

技术领域

本发明涉及图像检测领域，具体讲是一种无人机航拍图像目标检测算法。

背景技术

航空图像目标检测在军事侦察、导弹制导、无人机武器系统等领域发挥着重要作用。当航空器在飞行时，需要使用光电吊舱对地面目标进行实时检测，比如军事侦察、海上巡检等任务。而航空检测任务不同于一般场景下的目标检测，无人机吊舱视角下的目标不仅视场变化大、疏密变化大、尺度变化大，且目标重叠、截断、遮挡的情况常有。

目前该领域算法往往通过将多个两阶段目标检测算法集成，提升检测精确度的同时也牺牲了检测速度。得益于深度学习的发展，原本用于自然语言处理的Transformer模型被证实在计算机视觉领域用于目标检测时也能取得较好的表现。

发明内容

为此，本发明公开了一种机载光电吊舱观测场景下的车辆检测方法。该方法结合单阶段目标检测算法和Transformer系列模型，在通道和空间维度上进行 Attention，进而利用训练得到的检测模型对吊舱拍摄的视频序列进行检测。经测试验证，该方法打破了CNN感受野的局限性，显著提高了无人机吊舱视角下的检测准确度，增加了CV领域的多样性。

本发明是这样实现的，构造一种无人机航拍图像目标检测算法，该算法包括以下步骤，

S1使用混合数据集训练初始检测网络模型，swin transformer模型对图像进行特征提取，获得目标检测模型；

S2将无人机吊舱航拍视频通过无线网络传输到图像服务器终端；

S3图像服务器终端处理视频图像信息，实现无人机对目标实时检测。

进一步的，在S1中，所述训练是指是指对初始网络进行有监督训练，且通过单阶段检测器进行训练，所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。

进一步的，在训练单阶段检测器过程中，先将有标签的训练样本输入至单阶段检测器，由单阶段检测器输出预测结果，利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失，并使用随机梯度下降法将损失的梯度回传给单阶段检测器，以调整模型的参数，其初始网络损失函数表示为：

式中：其中L_cls代表分类损失，采用二值交叉熵损失(BCELoss)函数，L_rrg代表定位损失函数，采用的是IoU损失函数，L_obj代表置信度损失，采用二值交叉熵损失函数。λ代表定位损失的平衡系数，N_pos代表被分成正样的Anchorpoint 个数；

训练过程中正负样本匹配所使用损失函数为：

其中，

表示每一个样本与每个groundturth之间的分类损失，

表示每个样本与每个groundturth直接的回归损失。

进一步的，所述Transformer模块包含有多头注意力和多层感知机，每层感知机之间使用ResNet的残差结构进行连接，Transformer中的注意力机制基于图片中物体的像素点施加注意力，将图片转化为序列，将序列中的任意两个位置之间的距离缩小为一个常量，从而判断特征图中像素点之间的关联性以及图片中物体的重要程度。首先从图片中的每一个像素点生成三个不同的向量，分别是Query向量(Q)，Key向量(K)和Value向量(V)，通过注意力机制中的Q和K做点乘，目的是计算相似度即attention操作，然后经过softmax 函数得到一组注意力权重，最后将注意力权重对Value进行加权求和，得到注意力下的Value值，从而得到图片中某点的关注程度。transformer注意力机制的公式为：

式中：Q表示查询向量，K为键，表示被查询信息与其他信息的相关性的向量，V表示被查询信息的向量。基于此，我们将特征图拆成更小的window计算局部注意力，并利用不同Transformer层之间的窗口滑动计算window间的特征关联，在降低计算量的同时也获得了全局的特征依赖关系。该模型提取的特征能够建立起图像不同部分间的空间联系。

进一步的，所述训练样本包括图像和标签信息。

进一步的，所述网络分为backbone/neck/head三个部分。

进一步的，在网络模型backbone中，采用了swin transformer网络进行层次性特征提取；

将提取出的特征通过注意力机制，使得输入的特征图进行自适应特征细化；

上述所获得的特征输入到Neck结构中进行多尺度特征融合；

将融合后的特征输入到head网络，将head网络的输出进行解码，获得最后的可视化检测结果。

在上述网络模型backbone改进中，采用了swin transformer网络进行层次性特征提取，该网络底部处理的数据更多也更局部，顶部的网络处理的数据更少但是语义信息是更丰富。

进一步的，在步骤S3中，将无人机吊舱图像通过无线网络传输到图像服务器上，图像服务器将收到的图像输入到目标检测模型，目标检测模型输出预测信息，完成对无人机吊舱图像的目标检测。

本发明具有如下有益效果：

1、根据本发明提供的无人机吊舱航拍图像目标检测方法，相比传统检测算法和基于深度学习的两阶段检测算法，显著提高检测精度，可以实现无人机吊舱实时目标检测。

2、根据本发明提供的无人机吊舱航拍图像目标检测方法，引入领域自适应到目标检测领域，提高检测算法在未知环境检测效果，实现自适应检测。

附图说明

图1是本发明运用于目标检测的流程图；

具体实施方式

下面将结合附图1对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种无人机航拍图像目标检测算法，可以按照如下方式予以实施：一种无人机航拍图像目标检测算法，该算法包括以下步骤，

S1使用混合数据集训练初始检测网络模型，swintransformer模型对图像进行特征提取，获得目标检测模型；

S3图像服务器终端处理视频图像信息，实现无人机对车辆目标实时检测。

在本实施例中，在S1中，所述训练是指是指对初始网络进行有监督训练，且通过单阶段检测器进行训练，所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。

在本实施例中，在训练单阶段检测器过程中，先将有标签的训练样本输入至单阶段检测器，由单阶段检测器输出预测结果，利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失，并使用随机梯度下降法将损失的梯度回传给单阶段检测器，以调整模型的参数，其初始网络损失函数表示为：

式中：其中L_cls代表分类损失，采用二值交叉熵损失(BCELoss)函数，L_reg代表定位损失函数，采用的是IoU损失函数，L_obj代表置信度损失，采用二值交叉熵损失函数。λ代表定位损失的平衡系数，N_pos代表被分成正样的Anchorpoint 个数；

训练过程中正负样本匹配所使用损失函数为：

其中，

表示每一个样本与每个groundturth之间的分类损失，

表示每个样本与每个groundturth直接的回归损失。

在本实施例中，有监督训练的样本为无人机视角下采集的车辆俯视图与平视图，其中每个图片中目标都有对应的标签信息。

在本实施例中，所述Transformer模块包含有多头注意力和多层感知机，每层感知机之间使用ResNet的残差结构进行连接，Transformer中的注意力机制基于图片中物体的像素点施加注意力，将图片转化为序列，将序列中的任意两个位置之间的距离缩小为一个常量，从而判断特征图中像素点之间的关联性以及图片中物体的重要程度，transformer注意力机制的公式为：

式中：Q表示查询向量，K为键，表示被查询信息与其他信息的相关性的向量，V表示被查询信息的向量。

在本实施例中，所述训练样本包括图像和标签信息。

在本实施例中，所述网络分为backbone/neck/head三个部分。

在本实施例中，在网络模型backbone中，采用了swintransformer网络进行层次性特征提取；

上述所获得的特征输入到Neck结构中进行多尺度特征融合；

在本实施例中，在步骤S3中，将无人机吊舱图像通过无线网络传输到图像服务器上，图像服务器将收到的图像输入到目标检测模型，目标检测模型输出预测信息，完成对无人机吊舱图像的车辆目标检测。

为了展示本发明的优异效果，其实验数据如下表，

1、设置一组航拍图像数据进行模拟实验，计算推理时间，NMS时间，平均精度

2、采用YOLOX目标检测网络进行试验，计算推理时间，NMS时间，平均精度

	推理时间(ms)	NMS时间(ms)	平均精度(map)
				试验例	15.51	0.55	78.10
实施例	10.470	0.48	85.39

由上表可以看出，说明实施例网络在网络前向推理过程中速度更快，网络对于车辆目标检测的精度更高，实施例的检测方法在各项指标均高于试验例。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种无人机航拍图像目标检测算法，其特征在于：该算法包括以下步骤S1使用混合数据集训练初始检测网络模型，swin transformer模型对图像进行特征提取，获得目标检测模型；

2.根据权利要求1所述一种无人机航拍图像目标检测算法，其特征在于：在S1中，所述训练是指是指对初始网络进行有监督训练，且通过单阶段检测器进行训练，所述单阶段检测器选择为改进后的YOLOX单阶段目标检测器。

3.根据权利要求2所述一种无人机航拍图像目标检测算法，其特征在于：在训练单阶段检测器过程中，先将有标签的训练样本输入至单阶段检测器，由单阶段检测器输出预测结果，利用初始网络损失函数计算预测结果标签值与训练样本的标签值之间的损失，并使用随机梯度下降法将损失的梯度回传给单阶段检测器，以调整模型的参数，其初始网络损失函数表示为：

其中L_cls代表分类损失，采用二值交叉熵损失(BCELoss)函数，L_reg代表定位损失函数，采用的是IoU损失函数，L_obj代表置信度损失，采用二值交叉熵损失函数。λ代表定位损失的平衡系数，N_pos代表被分成正样的Anchorpoint个数；

训练过程中正负样本匹配所使用损失函数为：

其中，

表示每一个样本与每个groundturth之间的分类损失，

表示每个样本与每个groundturth直接的回归损失。

4.根据权利要求2所述一种无人机航拍图像目标检测算法，其特征在于：所述Transformer模块包含有多头注意力和多层感知机，每层感知机之间使用ResNet的残差结构进行连接，Transformer中的注意力机制基于图片中物体的像素点施加注意力，将图片转化为序列，将序列中的任意两个位置之间的距离缩小为一个常量，从而判断特征图中像素点之间的关联性以及图片中物体的重要程度，transformer注意力机制的公式为：

其中，Q表示查询向量，K为键，表示被查询信息与其他信息的相关性的向量，V表示被查询信息的向量。

5.根据权利要求2所述一种无人机航拍图像目标检测算法，其特征在于：所述训练样本包括图像和标签信息。

6.根据权利要求2所述一种无人机航拍图像目标检测算法，其特征在于：所述网络分为backbone/neck/head三个部分。

7.根据权利要求6所述一种无人机航拍图像目标检测算法，其特征在于：在网络模型backbone中，采用了swin transformer网络进行层次性特征提取；

上述所获得的特征输入到Neck结构中进行多尺度特征融合；

8.根据权利要求1所述一种无人机航拍图像目标检测算法，其特征在于：在步骤S3中，将无人机吊舱图像通过无线网络传输到图像服务器上，图像服务器将收到的图像输入到目标检测模型，目标检测模型输出预测信息，完成对无人机吊舱图像的目标检测。