CN110276269B

CN110276269B - 一种基于注意力机制的遥感图像目标检测方法

Info

Publication number: CN110276269B
Application number: CN201910457637.6A
Authority: CN
Inventors: 时光; 刘军民; 郭保民; 张讲社; 周长胜; 刘洋; 陈琨; 陈姝璇; 张博文
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-06-29
Anticipated expiration: 2039-05-29
Also published as: CN110276269A

Abstract

本发明提供的一种基于注意力机制的遥感图像目标检测方法，包括以下步骤：步骤1，对数据集进行增强处理，得到增强后的数据集；步骤2，构建基于注意力机制的目标检测模型，并通过步骤1中得到的增强后的数据集训练该目标检测模型，直至达到相应的停止条件；本发明的增强处理技术能够更好的利用有限的高分辨率遥感图像中的目标信息，能够辅助模型更准确的识别出遥感图像中具有多种旋转角度的目标；同时，构建的基于注意力机制的目标检测模型能够有效的利用遥感图像的上下文信息，使模型能够利用其它位置的信息辅助当前位置目标的识别；进而使得本发明能够大大提高目标检测的识别精度与定位准确度。

Description

一种基于注意力机制的遥感图像目标检测方法

技术领域

本发明属于遥感图像处理，深度学习以及目标检测领域，特别涉及一种基于注意力机制的遥感图像目标检测方法。

背景技术

遥感图像的目标检测是在高分辨率的卫星或者航空图像中检测是否存在一个或者多个感兴趣的目标，并且给出每个目标的边界框以及其相应的物体类别。这里的目标不仅仅包括人造物体如汽车，轮船，建筑物等与背景具有明确边界的目标，并且还包括地形目标如随着遥感技术的飞速发展，产生了大量的高分辨率遥感图像。而在遥感图像分析领域，目标检测是一项十分重要的基础技术，其在交通规划，环境检测，地理灾害预防等领域有着广泛的应用前景。近年来，遥感图像的目标检测逐渐得到了越来越多的关注。

目标检测方法可大概分为四种，基于模板匹配的方法，基于知识的方法，基于OBIA的方法以及机器学习方法。基于使用的模板类型，模板匹配方法可被进一步的分为固定模板匹配和可变模板匹配方法两大类，其主要步骤包括模板生成和相似度度量。而基于知识的目标检测方法则通过使用先验知识如几何信息和纹理信息将目标检测问题转化为一个假设检验问题。基于OBIA的方法主要包括图像分割和目标分类两个步骤，其中如何选择合适的分割尺度是影响目标检测效果的关键因素。

基于机器学习的方法往往包括特征提取，特征融合，维数约减，分类器训练这几个步骤。其中特征提取阶段依赖于生成的候选区域或者感兴趣的区域(ROI),这些候选区域通常使用选择搜索(selective search,SS)算法生成，其方法通常包括手工设计的特征如谱特征，纹理特征和局部图像特征，如尺度不变特征变换，SIFT，梯度方向直方图(histogramof orientedgradients,HOG)等特征。特征分类则主要是训练一个分类器，例如支撑向量机，条件随机场，稀疏编码等。其核心是通过训练一个分类器来辨别ROI的标签(是否是目标)。这些方法严重依赖于手动设计的特征以及有标签的训练样本。

近年来，深度学习技术在图像处理领域取得了巨大成功，深度学习提供了一种可以从大量的训练样本中自动学习特征的方法。基于深度学习技术，学者们提出了多种目标检测算法。主要分为两大类，一类算法是基于候选区域的如R-CNN，Fast R-CNN和Faster R-CNN等。基于候选区域的算法首先筛选出图像中可能存在目标的多个候选区域，然后使用SVM,神经网络等算法来判断候选区域中是否存感兴趣的目标。在Faster R-CNN中，提出使用卷积神经网络Region Proposal Net来生成候选区域，并且使用共享RPN权重的卷积神经网路来判断候选区域的类别以及预测目标位置相对于候选区域的偏移量。这种方法虽然能够达到很高的精度，但是由于其分为两个阶段，其训练和检测速度较慢。另一种是端对端的算法如SSD和YOLO。这类方法将目标检测看作一个回归问题，借助默认边界框(anchorbox)，通过一个步骤就能得到目标的位置以及类别信息。其中SSD使用预定义的宽高比和尺度参数，在VGG16的不同尺度的特征图上都定义了多个默认边界框。YOLO则使用自定义的网络结构，从数据中聚类得到相应的默认边界框。

然而这些算法使用的是基于分类问题而设计的CNN网络，将其应用到目标检测任务中会存在一些问题。首先，目标检测任务则要求对目标的位置敏感，而基于分类问题的CNN网络其本身有一定的平移不变性和缩放不变性。基于此问题，学者提出了全卷积神经网络和位置敏感度池化层来代替普通的CNN。另外，为了快速的扩大感受野，CNN中往往使用大量的下采样操作，这使得最终得到的富含语义特征的特征图分辨率较低，这对于目标检测中小物体的检测是不利的。为了解决这一问题，一方面学者提出使用空洞卷积代替普通卷积以及池化，在不缩小分辨率的情况下增大感受野。另一方面，采用特征金字塔(FPN)的结构，使用高层的特征来为低层特征提供抽象的语义信息。

在遥感图像目标检测中，由于遥感图像是由星载或空载传感器从顶部视角由上自下拍摄得到的，其性质与摄像机在地面水平拍摄的自然图像不同。这些问题尤为突出，首先目标检测任务中存在大量的小目标，例如汽车，轮船，飞机等。另外，图像中的目标往往具有更多的不同旋转角度，以及复杂的背景。有学者提出使用旋转不变层来处理旋转变换，但是其方法需要对对网络结构做出较大改变，并且算法复杂度较高。最后，在遥感图像的目标检测中，由于图像分辨率较高，每个像素都可能包含重要的信息，因此上下文信息对目标检测任务十分重要。有学者提出通过增大ROI区域的方式利用图像中的上下问题信息，但是这种方法只能利用ROI区域附近的上下文信息，无法利用全局的上下文信息。

发明内容

本发明的目的在于提供一种基于注意力机制的遥感图像目标检测方法，解决了现有技术中存在的不足。

为了达到上述目的，本发明采用的技术方案是：

本发明提供的一种基于注意力机制的遥感图像目标检测方法，包括以下步骤：

步骤1，对数据集进行增强处理，得到增强后的数据集；

步骤2，构建基于注意力机制的目标检测模型，并通过步骤1中得到的增强后的数据集训练该目标检测模型，直至达到相应的停止条件。

优选地，步骤1中，增强处理包括随机旋转变换和随机尺度变换，具体地，对数据集进行随机旋转变换的具体方法是：

首先对数据集进行90°旋转变换、180°旋转变换、270°旋转变换、上下翻转变换或左右翻转变换，之后对数据集中经过变换后的目标图像的真实边界框坐标进行变换；

随机尺度变换包括对训练图像进行随机缩放变换和随机宽高比变换。

优选地，设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2，y2)；则经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1，w-x2)、右下角坐标为(y2，h-x1)；经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2，h-y2)、右下角坐标为(w-x1，h-y1)；经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2，x1)、右下角坐标为(h-y1，x2)；经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2，y1)、右下角坐标为(w-x1，y2)；经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1，h-y2)、右下角坐标均为(x2，h-y1)。

优选地，步骤2，构建基于注意力机制的目标检测模型的具体方法是：

在YOLOv3模型的特征融合层中加入了位置嵌入层和注意力层，得到基于注意力机制的目标检测模型。

优选地，向特征融合层中加入位置嵌入层的具体方法是：

利用下式将特征融合层的特征图X^l与位置嵌入相加，得到融入了位置信息的特征图

其中，X^l为第l个特征融合层的特征图；

为特征嵌入矩阵；

的初始像素值与X^l的像素值相等。

优选地，向特征融合层中加入注意力层的具体方法是，将融入了位置信息的特征图

的每个位置

使用注意力机制融合编码为

具体地：

S1，将融入了位置信息的特征图

的每个位置

线性映射为三个不同的向量

公式为：

其中，W_Q，W_K，W_V为可学习的变换矩阵，×表示矩阵乘法，(i，j)表示融入了位置信息的特征图中每一个位置的坐标；

S2，利用S1中得到的变换向量

构建注意力机制的加权系数

其公式为：

其中，·表示点积，(k，l)融入了位置信息的特征图中每一个位置的坐标；

S3，利用S1中得到的变换向量

和S2中得到的加权系数

结合下式得到注意力机制的编码特征图

S4，将S3中得到的注意力机制的编码特征图

与特征融合层的特征图X^l串联，作为注意力层的输出。

优选地，步骤2中，将步骤1中得到的增强后的数据集与随机梯度下降法相结合，训练得到的基于注意力机制的目标检测模型，直至达到相应的停止条件。

与现有技术相比，本发明具有以下有益效果：

本发明提供的一种基于注意力机制的遥感图像目标检测方法，首先对数据集进行预处理，之后再利用处理后的数据集对构建的基于注意力机制的目标检测模型进行训练；本发明的增强处理技术能够更好的利用有限的高分辨率遥感图像中的目标信息，能够辅助模型更准确的识别出遥感图像中具有多种旋转角度的目标；同时，构建的基于注意力机制的目标检测模型能够有效的利用遥感图像的上下文信息，特别是对于高分辨率的遥感图像，能够利用其全局上下文信息。使模型能够利用其它位置的信息辅助当前位置目标的识别。进而使得本发明能够大大提高目标检测的识别精度与定位准确度。

进一步的，旋转和翻转变换能够有效的提升模型对于遥感图像中各个方向目标的检测和定位能力；另外，图像的旋转和翻转变换处理作为一种数据增强手段，能够有效的防止模型过拟合；因此，能够提高模型尤其是对具有较多旋转角度目标的识别精度。

进一步的，位置嵌入和注意力机制对模型的特征进行融合，这使模型在检测和定位当前位置的目标时，能够使用其它位置的信息作为辅助，从而综合利用当前位置与其它位置的信息。

附图说明

图1是本发明的注意力机制应用于目标检测框架YOLOv3的示意图；

图2是图1中注意力机制的示意图；

图3是图1中所用DarkNet 53的网络结构示意图。

图4是本发明在遥感图像目标检测任务上的检测效果图。

具体实施方式

下面结合附图，对本发明进一步详细说明。

本发明的目的在于提供一种基于注意力机制的遥感图像目标检测方法，以解决上述存在的技术问题。本发明可用于遥感图像的目标检测中，能够增加算法对目标旋转变换的鲁棒性并且利用图像中的全局上下文信息辅助定位与判断目标，从而大大提高目标检测精度。

步骤1，对数据集进行增强处理，得到增强后的数据集；其中，增强处理包括随机旋转变换和随机尺度变换；

具体地，对数据集进行随机旋转变换的具体方法是：

设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2，y2)；则：

经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1，w-x2)、右下角坐标为(y2，h-x1)；

经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2，h-y2)、右下角坐标为(w-x1，h-y1)；

经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2，x1)、右下角坐标为(h-y1，x2)；

经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2，y1)、右下角坐标为(w-x1，y2)；

经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1，h-y2)、右下角坐标均为(x2，h-y1)。

步骤2，构建基于注意力机制的目标检测模型，并通过增强后的数据集训练基于注意力机制的目标检测模型；

基于注意力机制的目标检测模型的具体构建方法是：

基于YOLOv3构建包含注意力机制的目标检测模型，基于注意力机制的目标检测模型的网络结构为在YOLOv3模型的特征融合层中，加入了位置嵌入层和注意力层。

向特征融合层中加入位置嵌入层的具体方法是：

其中，X^l为第l个特征融合层的特征图；

为特征嵌入矩阵；

使用随机方式初始化，其形状与X^l相同。

向特征融合层中加入注意力层的具体方法是，将融入了位置信息的特征图

的每个位置

使用注意力机制融合编码为

具体地：

S1，将融入了位置信息的特征图

的每个位置

线性映射为三个不同的向量

公式为：

S2，利用S1中得到的变换向量

构建注意力机制的加权系数

其公式为：

其中，·表示点积，(k，l)为融入了位置信息的特征图中每一个位置的坐标；

S3，利用S1中得到的变换向量

和S2中得到的加权系数

结合下式得到注意力机制的编码特征图

S4，将S3中得到的注意力机制的编码特征图

与特征融合层的特征图X^l串联，作为注意力层的输出。

使用步骤1中得到的增强后的数据集作为输入，通过随机梯度下降法训练得到的基于注意力机制的目标检测模型，直至达到相应的停止条件。

实施例

本发明的一种基于注意力机制的遥感图像目标检测方法，具体包括以下阶段和步骤：

阶段1，训练图像的增强处理阶段：此阶段为了提升目标检测对于遥感图像中变换的鲁棒性，具体包括以下步骤：

步骤1.1：对数据集中的图像进行随机尺度变换。

步骤1.2：对数据集中的图像进行随机旋转和翻转变换。

阶段2，注意力的目标检测模型构建和训练阶段：

遥感图像由于分辨率较高，其中各个位置都包含着丰富的上下文信息，这些上下文信息能够帮助模型更好的辨别和定位目标；因此，在目标检测模型中，引入上下文信息是有利的，然而现有基于卷积神经网络的目标检测算法，大多数都是基于特征图上单个特征点来判断和定位目标的，其单个特征点的感受野范围有限，不能很好的利用较远处的上下文信息；综上，本申请利用注意力机制，对特征图进行重新编码，使得特征图中的每一点都包含全局的上下文信息，具体过程分为以下两个步骤：

步骤2.1：将特征图嵌入空间位置信息。

步骤2.2：使用注意力机制，对特征图进行编码。

阶段3，使用增强过的图像训练基于注意力机制的目标检测模型。

工作原理：

旋转和翻转变换能够有效的提升模型对于遥感图像中各个方向目标的检测和定位能力。尤其是图像中目标的数量较少，并且包含各种旋转角度时；另外，图像的旋转和翻转变换处理作为一种数据增强手段，能够有效的防止模型过拟合；因此，能够提高模型尤其是对具有较多旋转角度目标的识别精度；

而位置嵌入和注意力机制对模型的特征进行融合，这使模型在检测和定位当前位置的目标时，能够使用其它位置的信息作为辅助，从而综合利用当前位置与其它位置的信息。特别是对于高分辨率的遥感图像，由于其每个位置都包含大量的与检测有关的比如地貌，场景，相关目标的信息。因此能够有效利用这些全局上下文信息，会使得目标检测的精度和准确度大大提升。本发明不依赖于具体的网络结构，其技术可应用于主流基于卷积神经网络的目标识别框架。使用该方法作用于目标检测框架YOLOv3，在三个遥感图像数据集上进行实验，结果表明我们提出的注意力机制模型，可以大大提高目标检测的精度。

实现过程：

实施例中选择NWPU VHR-10，RSOD，LEVIR这三个数据集作为实验数据。

NWPU VHR-10西北工业大学标注的航天遥感目标检测数据集，共有800张遥感图像，其中包含目标的650张，背景图像150张，目标包括：飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆10个类别；

RSOD数据集为武汉大学团队标注的遥感图像目标检测数据集，总共包含2326张遥感图像，包含飞机、操场、立交桥、油桶四类目标；

LEVIR数据集包括21，952张600*800的遥感图像。其中包含目标的3791张。其目标有三种为：飞机，轮船，油罐。

本实验中，分别从以上数据集中分别选取60％，20％，20％的数据作为训练集，测试集和验证集。使用加入了注意力机制的YOLOv3模型(YOLOv3Att)进行检测。

使用本发明的YOLOv3Att方法进行目标检测，包括以下阶段：

阶段1，训练图像的增强处理阶段：

此阶段提升目标检测模型对于遥感图像中各种变换的鲁棒性，已知图像X其宽高为w，h，其中包含k个目标，其左上角坐标为(x1_i，y1_i)，右下角坐标为(x2_i，y2_i)，其中i＝1，...，k。

具体包括以下步骤：

步骤1.1：对数据集中的每幅图像X进行随机尺度和缩放变换，具体做法为，从(1-ξ，1+ξ)的范围中，随机取两个数α，β；以

作为新的宽高比。从(0.25，2)的范围中，随机选取一个数γ作为X的缩放因子，对X进行缩放，得到变换后的图像为X_s；其中，ξ为预先给定的变换参数。

步骤1.2：对数据集中的图像进行随机旋转和翻转变换。

步骤1处理过的图像X_s进行随机旋转和翻转变换，并且对其中目标的真实边界框坐标做相应的变换。其中旋转变换包括对图像进行90°，180°，270°的旋转，翻转变换包括上下翻转和左右翻转变换，变换后的图像为X_ts。

图像X_s中真实边界框的左上角坐标为(x1，y1)，右下角坐标为(x2，y2)。

经过90°变换后边界框坐标为：(y1，w-x2)，(y2，h-x1).

经过180°旋转后，边界框坐标为：(w-x2，h-y2)(w-x1，h-y1)

经过270°旋转后，边界框坐标为：(h-y2，x1)(h-y1，x2)

经过左右翻转变换后，边界框坐标为：(w-x2，y1)(w-x1，y2)

经过上下翻转变换后，边界框的坐标为：(x1，h-y2)(x2，h-y1)

阶段2，注意力的目标检测模型构建和训练阶段：

基于卷积神经网络的目标检测模型如YOLOv3，使用不同分辨率的特征融合层X^l来作为特征检测图像中的目标；在特征融合层X^l中引入空间位置信息嵌入和注意力机制。

步骤2.1：将特征融合层的特征图X^l与位置嵌入相加，得到融入了位置信息的特征图

其公式为：

其中，X^l为第l个特征融合层的特征图，

为特征嵌入矩阵，为可学习的参数，

一开始随机初始化，其大小与X^l相同；

步骤2.2，将融入了位置信息的特征图

的每个位置

使用注意力机制融合编码为

具体步骤为：

步骤2.2.1，特征图

每个位置

为一个c维的向量，将其线性映射为三个不同的向量

公式为：

其中，W_Q，W_K，W_V为可学习的变换矩阵；×表示矩阵乘法；(i，j)表示特征图中每一个位置的坐标；

步骤2.2.2，使用得到的变换向量

构建注意力机制的加权系数

其公式为：

其中·表示点积；(k，l)也表示特征图中每一个位置的坐标；

步骤2.2.3，使用

与加权系数

得到注意力机制的编码特征图

其公式为：

步骤2.2.4，将注意力机制的编码特征图

与原始特征图X^l串联，作为注意力层的输出用于目标检测任务。

目前，目标检测算法常用的评价指标为AP(average precision)，也即平均精度。其中精度(precision)表示识别出来某类目标中所含真实目标的比例。与精度相关的另一个指标为召回率(recall)，表示识别出来的某类目标与所有真实目标的比率。检测算法一般会给出某个位置是否含有目标的得分。实际应用中，我们可以通过给定一个阈值，得分大于阈值表示模型认为该位置有目标。通过不同的阈值，可以选择让系统识别能出多少个图片，当然阈值的变化会导致Precision与Recall值发生变化。而AP则衡量了选择不同阈值的情况下，某类目标的平均识别精度。

本例使用AP对三个数据集上的目标检测结果进行评价：

使用普通的YOLOv3模型，加入了数据增广的YOLOv3模型(YOLOv3 Rot)，和引入了注意力机制的YOLOv3模型(YOLOv3 Att)，在NWPU VHR-10数据集上做目标检测实验。并计算在训练集和测试集合上的AP值，结果在表1中，从表1中可得，对图像进行增强处理能够大大提高检测精度，特别是对于数据集中数量较少的目标类别(例如，篮球场，桥梁)以及包含多种旋转角度的目标类别(如船)，其精度提升很大。而引入注意力机制后的模型能进一步提升目标检测的精度，特别是对于港口和车辆这两类目标。

表2为在RSOD数据集上的目标检测实验结果，结果表明，图像增强能大大提高飞机，油罐，立交桥的检测精度。而注意力机制的引入，能进一步的提升对各类目标的检测精度。表3为在LEVIR数据集上的目标检测实验结果，从表中易得在图像中的三类目标飞机，油罐和船上，使用了注意力机制的模型的检测AP有一定的提高。

此外，图4显示了我们的方法在NWPU VHR-10数据集上的检测结果。其中图左边一列为与不使用注意力机制的检测结果，右边一列为使用了注意力机制的检测结果。从图中对比可得：使用了注意力机制得模型能够正确检测出更多的物体，并且其检测的精确度(score)要更高。

表1 NWPU VHR-10数据集上目标检测的实验结果

表2 RSOD数据集上的目标检测实验结果

表3 LEVIR数据集上的目标检测实验结果

Claims

1.一种基于注意力机制的遥感图像目标检测方法，其特征在于，包括以下步骤：

步骤1，对数据集进行增强处理，得到增强后的数据集；

步骤2，构建基于注意力机制的目标检测模型，并通过步骤1中得到的增强后的数据集训练该目标检测模型，直至达到相应的停止条件；

其中，步骤2中，构建基于注意力机制的目标检测模型的具体方法是：

在YOLOv3模型的特征融合层中加入了位置嵌入层和注意力层，得到基于注意力机制的目标检测模型；

向特征融合层中加入位置嵌入层的具体方法是：

其中，X^l为第l个特征融合层的特征图；

为特征嵌入矩阵；

的初始像素值与X^l的像素值相等。

2.根据权利要求1所述的一种基于注意力机制的遥感图像目标检测方法，其特征在于，步骤1中，增强处理包括随机旋转变换和随机尺度变换，具体地，对数据集进行随机旋转变换的具体方法是：

3.根据权利要求2所述的一种基于注意力机制的遥感图像目标检测方法，其特征在于，设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2,y2)；则经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1,w-x2)、右下角坐标为(y2,h-x1)；经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2,h-y2)、右下角坐标为(w-x1,h-y1)；经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2,x1)、右下角坐标为(h-y1,x2)；经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2,y1)、右下角坐标为(w-x1,y2)；经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1,h-y2)、右下角坐标均为(x2,h-y1)。

4.根据权利要求1所述的一种基于注意力机制的遥感图像目标检测方法，其特征在于，向特征融合层中加入注意力层的具体方法是，将融入了位置信息的特征图