CN111709397A

CN111709397A - 一种基于多头自注意力机制的无人机变尺寸目标检测方法

Info

Publication number: CN111709397A
Application number: CN202010659641.3A
Authority: CN
Inventors: 李湛; 莫文昊; 杨学博; 孙维超; 高会军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-09-25
Anticipated expiration: 2040-07-08
Also published as: CN111709397B

Abstract

一种基于多头自注意力机制的无人机变尺寸目标检测方法，属于目标检测技术领域，本发明为解决现有无人机目标检测算法对于小目标检测性能差的问题。本发明包括：建立数据集；建立网络结构：采用多头自注意力机制建立多头自注意力目标检测头网络，所述多头自注意力目标检测头网络的后端采用Faster Rcnn基本框架，在多头自注意力目标检测头网络的回归层再次引入自注意力机制；分步骤进行网络训练；对目标物体进行检测：对图像进行预处理后输入多头自注意力目标检测头网络，多头自注意力目标检测头网络输出检测结果。本发明用于对大小变化目标无人机的目标检测。

Description

一种基于多头自注意力机制的无人机变尺寸目标检测方法

技术领域

本发明涉及一种基于多头自注意力机制的无人机变尺寸目标检测方法，属于目标检测技术领域。

背景技术

随着无人机技术的迅速成熟和发展，消费级无人机价格不断降低，操作智能性和便利性不断提升，无人机的使用门槛不断降低，在包括军事用途、城市管理、地理测绘、日常出行等众多领域取得了大量的应用和进步，因此，无人机在日常生活中的使用逐渐增多。

随着无人机数量和使用的不断增加，通过无人机机载摄像头拍摄的图片和视频数量也在逐步提升，通过无人机，能够快速获得大量包括地理信息、车辆行人信息、城市建设情况等多种信息的数据样本。但由于无人机图像的覆盖区域大，信息一般难以被有效提取，传统的统计方式需要依靠大量的人工手动计数，严重影响了无人机影像的应用。

近年来，深度学习技术的突破发展提出了大量目标检测网络，一定程度上解决了图像视频目标检测与跟踪的任务。诸如：Yolo V3、SSD、Faster RCNN、Retina Net等网络在已有公开数据集和实际引用中均取得了较好的性能，广泛应用于监控影像等近平视高度图像的目标检测中。但由于受到飞行高度、俯视角度、物体小而密集、背景干扰大、物体大小变化等因素的影响，这些算法在无人机图像中效果并不理想。

注意力机制最早在自然语言处理领域中被提出，用于解决语言翻译、对话生成问题等中的连接权重分配问题，近两年开始用于图像领域，通过在特定层的使用，提高网络对区域信息的判断和使用，取得了一定的效果。但是，大量采用注意力机制代替卷积网络的应用仍较少。

发明内容

本发明目的是为了解决现有无人机目标检测算法对于小目标检测性能差的问题，提供了一种基于多头自注意力机制的无人机变尺寸目标检测方法。

本发明所述一种基于多头自注意力机制的无人机变尺寸目标检测方法，它包括：

S1、建立数据集：

采用无人机的机载摄像头采集一组包含目标物体的图片，获取一组数据，结合开源数据集制作标签，建立数据集；

S2、建立网络结构：

根据S1获取的数据集，采用多头自注意力机制建立多头自注意力目标检测头网络，所述多头自注意力目标检测头网络的后端采用Faster Rcnn基本框架，在多头自注意力目标检测头网络的回归层再次引入自注意力机制；

S3、分步骤进行网络训练，获得训练好的多头自注意力目标检测头网络；

S4、对目标物体进行检测：

无人机的机载摄像头采集目标物体的图像，对图像进行预处理后输入S3获取的多头自注意力目标检测头网络，多头自注意力目标检测头网络输出检测结果。

优选的，S1所述采集一组包含目标物体的图片获取一组数据集的过程包括：

对图片进行去噪、数据归一化和图片数据降采样。

优选的，S2所述建立多头自注意力目标检测头网络的方法包括：

S2-1、将数据集依次输入两个标准残差块中，数据在每个标准残差块中依次经过卷积层、合并层和激活层，然后向高维度特征空间映射，获得上层网络计算结果；

S2-2、将上层网络计算结果输入自注意力层，获得自注意力层的输出结果；

S2-3、将自注意力层的输出结果输入回归层，选择目标物体候选框与特征图合并，作为多头自注意力目标检测头网络的输出结果；

S2-4、将多头自注意力目标检测头网络的输出结果输入到后端Faster Rcnn基本框架的分类检测网络中，获得目标物体的最终位置和所述类别。

优选的，S3所述进行网络训练的具体方法包括：

S3-1、在ImageNet数据集上对S2建立的多头自注意力目标检测头网络和回归层进行预训练，将训练好的模型合并到多头自注意力目标检测头网络中；

S3-2、将S1获取的数据集划分为训练集和测试集两部分；

S3-3、利用S1获取的数据集对多头自注意力目标检测头网络进行端到端的训练，同时利用测试集进行性能检测；

S3-4、根据性能检测调整训练结果，返回执行S3-3，直至获取最终训练好的多头自注意力目标检测头网络。

优选的，S4所述对图像进行预处理包括：

空间域滤波图像去噪和数据标准化处理。

本发明的优点：本发明提出的一种基于多头自注意力机制的无人机变尺寸目标检测方法解决了当前无人机目标检测算法存在的对于小目标物体检测性能差的问题，解决了由于网络层数不断增加小目标在特征图上小的问题。采用多头自注意力网络代替部分卷积层，并减少了神经网络的使用，能够在保证精度的情况下提高运行效率。对于大小变化的物体具有较好的鲁棒性和适应性，可以应对无人机在不同飞行高度下同一物体在图像上大小变化过大的问题。

附图说明

图1是一种基于多头自注意力机制的无人机变尺寸目标检测方法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

具体实施方式一：下面结合图1说明本实施方式，本实施方式所述一种基于多头自注意力机制的无人机变尺寸目标检测方法，它包括：

S1、建立数据集：

S2、建立网络结构：

S4、对目标物体进行检测：

本实施方式中，S1所述一组数据集结合开源数据集采用数据集制作软件Labelme制作标签。

进一步的，S1所述采集一组包含目标物体的图片获取一组数据集的过程包括：

对图片进行去噪、数据归一化和图片数据降采样。

本实施方式中，获得的数据集为符合网络输入格式的数据[3,W_in,H_in]。

再进一步的，S3所述进行网络训练的具体方法包括：

S3-2、将S1获取的数据集划分为训练集和测试集两部分；

再进一步的，S4所述对图像进行预处理包括：

空间域滤波图像去噪和数据标准化处理。

具体实施方式二：本实施方式对具体实施方式一作进一步说明，S2所述建立多头自注意力目标检测头网络的方法包括：

S2-2、将上层网络计算结果输入自注意力层；

S2-3、自注意力层的输出结果输入回归层，选择目标物体候选框与特征图合并，作为多头自注意力目标检测头网络的输出结果；

本实施方式中，S2-2将上层网络计算结果输入自注意力层中，定义

则自注意力层的输出结果是：Self-Attention(X)_t,i＝softmax(A_t,:)XW_val。

本实施方式中，对于S2-3的输出结果，根据默认候选框的评价分数，对输出结果的特征图进行注意力网络权重平衡：

α＝softmax(f_att(x))；

本实施方式中，将S2-4获得的结果进行存储，并将回归框标记在图片中，便于工作人员查看检测情况。

具体实施方式三：本实施方式对具体实施方式二作进一步说明，S2-2所述自注意力层的输出结果的计算方法包括：

输入矩阵

将输入特征层转化为序列化的像素层，包括T个D_in维度的序列化像素；

通过序列化像素层的查询矩阵W_qry、关键词矩阵W_key和其值矩阵W_val得到每个输入序列的注意力分数

将注意力分数A：转化为自注意力权重，获得输出结果：

Self-Attention(X)：＝softmax(A：)XW_val。

进一步的，S2-3所述多头自注意力目标检测头网络的输出结果的获取方法包括：

提取自注意力层的输出结果的特征信息，通过映射矩阵W_out和偏置B_out与各层结果合并，获得最终输出：

其中：N_h表示多头自注意力目标检测头网络的特征空间，h表示N_h中的特征层。

本实施方式中，所述映射矩阵

D_h表示多头自注意力目标检测头网络的空间分辨率，D_out表示输出特征的分辨率。

具体实施方式四：本实施方式对具体实施方式三作进一步说明，与具体实施方式三不同，在计算自注意力分数A：时，加入位置信息向量

位置信息向量P中，位置编码包括绝对位置编码和相对位置编码。

进一步的，位置信息向量P采用绝对位置编码，能够覆盖全局空间信息。

采用绝对位置编码，给每个像素赋予固定的一个位置向量P_p，自注意力分数A：转化为：

再进一步的，位置信息向量P采用相对位置编码，能够反应输入序列信息与目标图片中心位置的映射关系。

采用相对位置编码，自注意力分数A：转化为：

基于本发明提出的一种基于多头自注意力机制的无人机变尺寸目标检测方法，在VHR-10、RSOD和VisDrone2019航拍图像数据集上进行模型训练和检测，并将本专利方法和其他常用的目标检测算法精度进行比较，其结果如表1所示：

表1

	RetinaNet	SSD	Faster R-CNN	Mask R-CNN	AttFasterR-CNN
						VHR-10	0.869	0.848	0.865	0.884	0.893
RSOD	0.947	0.922	0.963	0.977	0.979
						VisDrone	0.235	0.203	0.262	0.281	0.279

由表1实验数据显示，本发明提出的方法在VHR-10和RSOD数据集上都取得了更好的效果，在VisDrone上相比FasterR-CNN有较大的提升。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。