CN110276269B - 一种基于注意力机制的遥感图像目标检测方法 - Google Patents

一种基于注意力机制的遥感图像目标检测方法 Download PDF

Info

Publication number
CN110276269B
CN110276269B CN201910457637.6A CN201910457637A CN110276269B CN 110276269 B CN110276269 B CN 110276269B CN 201910457637 A CN201910457637 A CN 201910457637A CN 110276269 B CN110276269 B CN 110276269B
Authority
CN
China
Prior art keywords
transformation
attention mechanism
target
target detection
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910457637.6A
Other languages
English (en)
Other versions
CN110276269A (zh
Inventor
时光
刘军民
郭保民
张讲社
周长胜
刘洋
陈琨
陈姝璇
张博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910457637.6A priority Critical patent/CN110276269B/zh
Publication of CN110276269A publication Critical patent/CN110276269A/zh
Application granted granted Critical
Publication of CN110276269B publication Critical patent/CN110276269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供的一种基于注意力机制的遥感图像目标检测方法,包括以下步骤:步骤1,对数据集进行增强处理,得到增强后的数据集;步骤2,构建基于注意力机制的目标检测模型,并通过步骤1中得到的增强后的数据集训练该目标检测模型,直至达到相应的停止条件;本发明的增强处理技术能够更好的利用有限的高分辨率遥感图像中的目标信息,能够辅助模型更准确的识别出遥感图像中具有多种旋转角度的目标;同时,构建的基于注意力机制的目标检测模型能够有效的利用遥感图像的上下文信息,使模型能够利用其它位置的信息辅助当前位置目标的识别;进而使得本发明能够大大提高目标检测的识别精度与定位准确度。

Description

一种基于注意力机制的遥感图像目标检测方法
技术领域
本发明属于遥感图像处理,深度学习以及目标检测领域,特别涉及一种基于注意力机制的遥感图像目标检测方法。
背景技术
遥感图像的目标检测是在高分辨率的卫星或者航空图像中检测是否存在一个或者多个感兴趣的目标,并且给出每个目标的边界框以及其相应的物体类别。这里的目标不仅仅包括人造物体如汽车,轮船,建筑物等与背景具有明确边界的目标,并且还包括地形目标如随着遥感技术的飞速发展,产生了大量的高分辨率遥感图像。而在遥感图像分析领域,目标检测是一项十分重要的基础技术,其在交通规划,环境检测,地理灾害预防等领域有着广泛的应用前景。近年来,遥感图像的目标检测逐渐得到了越来越多的关注。
目标检测方法可大概分为四种,基于模板匹配的方法,基于知识的方法,基于OBIA的方法以及机器学习方法。基于使用的模板类型,模板匹配方法可被进一步的分为固定模板匹配和可变模板匹配方法两大类,其主要步骤包括模板生成和相似度度量。而基于知识的目标检测方法则通过使用先验知识如几何信息和纹理信息将目标检测问题转化为一个假设检验问题。基于OBIA的方法主要包括图像分割和目标分类两个步骤,其中如何选择合适的分割尺度是影响目标检测效果的关键因素。
基于机器学习的方法往往包括特征提取,特征融合,维数约减,分类器训练这几个步骤。其中特征提取阶段依赖于生成的候选区域或者感兴趣的区域(ROI),这些候选区域通常使用选择搜索(selective search,SS)算法生成,其方法通常包括手工设计的特征如谱特征,纹理特征和局部图像特征,如尺度不变特征变换,SIFT,梯度方向直方图(histogramof orientedgradients,HOG)等特征。特征分类则主要是训练一个分类器,例如支撑向量机,条件随机场,稀疏编码等。其核心是通过训练一个分类器来辨别ROI的标签(是否是目标)。这些方法严重依赖于手动设计的特征以及有标签的训练样本。
近年来,深度学习技术在图像处理领域取得了巨大成功,深度学习提供了一种可以从大量的训练样本中自动学习特征的方法。基于深度学习技术,学者们提出了多种目标检测算法。主要分为两大类,一类算法是基于候选区域的如R-CNN,Fast R-CNN和Faster R-CNN等。基于候选区域的算法首先筛选出图像中可能存在目标的多个候选区域,然后使用SVM,神经网络等算法来判断候选区域中是否存感兴趣的目标。在Faster R-CNN中,提出使用卷积神经网络Region Proposal Net来生成候选区域,并且使用共享RPN权重的卷积神经网路来判断候选区域的类别以及预测目标位置相对于候选区域的偏移量。这种方法虽然能够达到很高的精度,但是由于其分为两个阶段,其训练和检测速度较慢。另一种是端对端的算法如SSD和YOLO。这类方法将目标检测看作一个回归问题,借助默认边界框(anchorbox),通过一个步骤就能得到目标的位置以及类别信息。其中SSD使用预定义的宽高比和尺度参数,在VGG16的不同尺度的特征图上都定义了多个默认边界框。YOLO则使用自定义的网络结构,从数据中聚类得到相应的默认边界框。
然而这些算法使用的是基于分类问题而设计的CNN网络,将其应用到目标检测任务中会存在一些问题。首先,目标检测任务则要求对目标的位置敏感,而基于分类问题的CNN网络其本身有一定的平移不变性和缩放不变性。基于此问题,学者提出了全卷积神经网络和位置敏感度池化层来代替普通的CNN。另外,为了快速的扩大感受野,CNN中往往使用大量的下采样操作,这使得最终得到的富含语义特征的特征图分辨率较低,这对于目标检测中小物体的检测是不利的。为了解决这一问题,一方面学者提出使用空洞卷积代替普通卷积以及池化,在不缩小分辨率的情况下增大感受野。另一方面,采用特征金字塔(FPN)的结构,使用高层的特征来为低层特征提供抽象的语义信息。
在遥感图像目标检测中,由于遥感图像是由星载或空载传感器从顶部视角由上自下拍摄得到的,其性质与摄像机在地面水平拍摄的自然图像不同。这些问题尤为突出,首先目标检测任务中存在大量的小目标,例如汽车,轮船,飞机等。另外,图像中的目标往往具有更多的不同旋转角度,以及复杂的背景。有学者提出使用旋转不变层来处理旋转变换,但是其方法需要对对网络结构做出较大改变,并且算法复杂度较高。最后,在遥感图像的目标检测中,由于图像分辨率较高,每个像素都可能包含重要的信息,因此上下文信息对目标检测任务十分重要。有学者提出通过增大ROI区域的方式利用图像中的上下问题信息,但是这种方法只能利用ROI区域附近的上下文信息,无法利用全局的上下文信息。
发明内容
本发明的目的在于提供一种基于注意力机制的遥感图像目标检测方法,解决了现有技术中存在的不足。
为了达到上述目的,本发明采用的技术方案是:
本发明提供的一种基于注意力机制的遥感图像目标检测方法,包括以下步骤:
步骤1,对数据集进行增强处理,得到增强后的数据集;
步骤2,构建基于注意力机制的目标检测模型,并通过步骤1中得到的增强后的数据集训练该目标检测模型,直至达到相应的停止条件。
优选地,步骤1中,增强处理包括随机旋转变换和随机尺度变换,具体地,对数据集进行随机旋转变换的具体方法是:
首先对数据集进行90°旋转变换、180°旋转变换、270°旋转变换、上下翻转变换或左右翻转变换,之后对数据集中经过变换后的目标图像的真实边界框坐标进行变换;
随机尺度变换包括对训练图像进行随机缩放变换和随机宽高比变换。
优选地,设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2,y2);则经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1,w-x2)、右下角坐标为(y2,h-x1);经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2,h-y2)、右下角坐标为(w-x1,h-y1);经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2,x1)、右下角坐标为(h-y1,x2);经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2,y1)、右下角坐标为(w-x1,y2);经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1,h-y2)、右下角坐标均为(x2,h-y1)。
优选地,步骤2,构建基于注意力机制的目标检测模型的具体方法是:
在YOLOv3模型的特征融合层中加入了位置嵌入层和注意力层,得到基于注意力机制的目标检测模型。
优选地,向特征融合层中加入位置嵌入层的具体方法是:
利用下式将特征融合层的特征图Xl与位置嵌入相加,得到融入了位置信息的特征图
Figure BDA0002077077650000041
Figure BDA0002077077650000042
其中,Xl为第l个特征融合层的特征图;
Figure BDA0002077077650000043
为特征嵌入矩阵;
Figure BDA0002077077650000044
的初始像素值与Xl的像素值相等。
优选地,向特征融合层中加入注意力层的具体方法是,将融入了位置信息的特征图
Figure BDA0002077077650000045
的每个位置
Figure BDA0002077077650000046
使用注意力机制融合编码为
Figure BDA0002077077650000047
具体地:
S1,将融入了位置信息的特征图
Figure BDA0002077077650000048
的每个位置
Figure BDA0002077077650000049
线性映射为三个不同的向量
Figure BDA00020770776500000410
公式为:
Figure BDA00020770776500000411
Figure BDA00020770776500000412
Figure BDA00020770776500000413
其中,WQ,WK,WV为可学习的变换矩阵,×表示矩阵乘法,(i,j)表示融入了位置信息的特征图中每一个位置的坐标;
S2,利用S1中得到的变换向量
Figure BDA0002077077650000051
构建注意力机制的加权系数
Figure BDA0002077077650000052
其公式为:
Figure BDA0002077077650000053
Figure BDA0002077077650000054
其中,·表示点积,(k,l)融入了位置信息的特征图中每一个位置的坐标;
S3,利用S1中得到的变换向量
Figure BDA0002077077650000055
和S2中得到的加权系数
Figure BDA0002077077650000056
结合下式得到注意力机制的编码特征图
Figure BDA0002077077650000057
Figure BDA0002077077650000058
S4,将S3中得到的注意力机制的编码特征图
Figure BDA0002077077650000059
与特征融合层的特征图Xl串联,作为注意力层的输出。
优选地,步骤2中,将步骤1中得到的增强后的数据集与随机梯度下降法相结合,训练得到的基于注意力机制的目标检测模型,直至达到相应的停止条件。
与现有技术相比,本发明具有以下有益效果:
本发明提供的一种基于注意力机制的遥感图像目标检测方法,首先对数据集进行预处理,之后再利用处理后的数据集对构建的基于注意力机制的目标检测模型进行训练;本发明的增强处理技术能够更好的利用有限的高分辨率遥感图像中的目标信息,能够辅助模型更准确的识别出遥感图像中具有多种旋转角度的目标;同时,构建的基于注意力机制的目标检测模型能够有效的利用遥感图像的上下文信息,特别是对于高分辨率的遥感图像,能够利用其全局上下文信息。使模型能够利用其它位置的信息辅助当前位置目标的识别。进而使得本发明能够大大提高目标检测的识别精度与定位准确度。
进一步的,旋转和翻转变换能够有效的提升模型对于遥感图像中各个方向目标的检测和定位能力;另外,图像的旋转和翻转变换处理作为一种数据增强手段,能够有效的防止模型过拟合;因此,能够提高模型尤其是对具有较多旋转角度目标的识别精度。
进一步的,位置嵌入和注意力机制对模型的特征进行融合,这使模型在检测和定位当前位置的目标时,能够使用其它位置的信息作为辅助,从而综合利用当前位置与其它位置的信息。
附图说明
图1是本发明的注意力机制应用于目标检测框架YOLOv3的示意图;
图2是图1中注意力机制的示意图;
图3是图1中所用DarkNet 53的网络结构示意图。
图4是本发明在遥感图像目标检测任务上的检测效果图。
具体实施方式
下面结合附图,对本发明进一步详细说明。
本发明的目的在于提供一种基于注意力机制的遥感图像目标检测方法,以解决上述存在的技术问题。本发明可用于遥感图像的目标检测中,能够增加算法对目标旋转变换的鲁棒性并且利用图像中的全局上下文信息辅助定位与判断目标,从而大大提高目标检测精度。
本发明提供的一种基于注意力机制的遥感图像目标检测方法,包括以下步骤:
步骤1,对数据集进行增强处理,得到增强后的数据集;其中,增强处理包括随机旋转变换和随机尺度变换;
具体地,对数据集进行随机旋转变换的具体方法是:
首先对数据集进行90°旋转变换、180°旋转变换、270°旋转变换、上下翻转变换或左右翻转变换,之后对数据集中经过变换后的目标图像的真实边界框坐标进行变换;
设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2,y2);则:
经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1,w-x2)、右下角坐标为(y2,h-x1);
经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2,h-y2)、右下角坐标为(w-x1,h-y1);
经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2,x1)、右下角坐标为(h-y1,x2);
经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2,y1)、右下角坐标为(w-x1,y2);
经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1,h-y2)、右下角坐标均为(x2,h-y1)。
随机尺度变换包括对训练图像进行随机缩放变换和随机宽高比变换。
步骤2,构建基于注意力机制的目标检测模型,并通过增强后的数据集训练基于注意力机制的目标检测模型;
基于注意力机制的目标检测模型的具体构建方法是:
基于YOLOv3构建包含注意力机制的目标检测模型,基于注意力机制的目标检测模型的网络结构为在YOLOv3模型的特征融合层中,加入了位置嵌入层和注意力层。
向特征融合层中加入位置嵌入层的具体方法是:
利用下式将特征融合层的特征图Xl与位置嵌入相加,得到融入了位置信息的特征图
Figure BDA0002077077650000071
Figure BDA0002077077650000072
其中,Xl为第l个特征融合层的特征图;
Figure BDA0002077077650000073
为特征嵌入矩阵;
Figure BDA0002077077650000074
使用随机方式初始化,其形状与Xl相同。
向特征融合层中加入注意力层的具体方法是,将融入了位置信息的特征图
Figure BDA0002077077650000081
的每个位置
Figure BDA0002077077650000082
使用注意力机制融合编码为
Figure BDA0002077077650000083
具体地:
S1,将融入了位置信息的特征图
Figure BDA0002077077650000084
的每个位置
Figure BDA0002077077650000085
线性映射为三个不同的向量
Figure BDA0002077077650000086
公式为:
Figure BDA0002077077650000087
Figure BDA0002077077650000088
Figure BDA0002077077650000089
其中,WQ,WK,WV为可学习的变换矩阵,×表示矩阵乘法,(i,j)表示融入了位置信息的特征图中每一个位置的坐标;
S2,利用S1中得到的变换向量
Figure BDA00020770776500000810
构建注意力机制的加权系数
Figure BDA00020770776500000811
其公式为:
Figure BDA00020770776500000812
Figure BDA00020770776500000813
其中,·表示点积,(k,l)为融入了位置信息的特征图中每一个位置的坐标;
S3,利用S1中得到的变换向量
Figure BDA00020770776500000814
和S2中得到的加权系数
Figure BDA00020770776500000815
结合下式得到注意力机制的编码特征图
Figure BDA00020770776500000816
Figure BDA00020770776500000817
S4,将S3中得到的注意力机制的编码特征图
Figure BDA00020770776500000818
与特征融合层的特征图Xl串联,作为注意力层的输出。
使用步骤1中得到的增强后的数据集作为输入,通过随机梯度下降法训练得到的基于注意力机制的目标检测模型,直至达到相应的停止条件。
实施例
本发明的一种基于注意力机制的遥感图像目标检测方法,具体包括以下阶段和步骤:
阶段1,训练图像的增强处理阶段:此阶段为了提升目标检测对于遥感图像中变换的鲁棒性,具体包括以下步骤:
步骤1.1:对数据集中的图像进行随机尺度变换。
步骤1.2:对数据集中的图像进行随机旋转和翻转变换。
阶段2,注意力的目标检测模型构建和训练阶段:
遥感图像由于分辨率较高,其中各个位置都包含着丰富的上下文信息,这些上下文信息能够帮助模型更好的辨别和定位目标;因此,在目标检测模型中,引入上下文信息是有利的,然而现有基于卷积神经网络的目标检测算法,大多数都是基于特征图上单个特征点来判断和定位目标的,其单个特征点的感受野范围有限,不能很好的利用较远处的上下文信息;综上,本申请利用注意力机制,对特征图进行重新编码,使得特征图中的每一点都包含全局的上下文信息,具体过程分为以下两个步骤:
步骤2.1:将特征图嵌入空间位置信息。
步骤2.2:使用注意力机制,对特征图进行编码。
阶段3,使用增强过的图像训练基于注意力机制的目标检测模型。
工作原理:
旋转和翻转变换能够有效的提升模型对于遥感图像中各个方向目标的检测和定位能力。尤其是图像中目标的数量较少,并且包含各种旋转角度时;另外,图像的旋转和翻转变换处理作为一种数据增强手段,能够有效的防止模型过拟合;因此,能够提高模型尤其是对具有较多旋转角度目标的识别精度;
而位置嵌入和注意力机制对模型的特征进行融合,这使模型在检测和定位当前位置的目标时,能够使用其它位置的信息作为辅助,从而综合利用当前位置与其它位置的信息。特别是对于高分辨率的遥感图像,由于其每个位置都包含大量的与检测有关的比如地貌,场景,相关目标的信息。因此能够有效利用这些全局上下文信息,会使得目标检测的精度和准确度大大提升。本发明不依赖于具体的网络结构,其技术可应用于主流基于卷积神经网络的目标识别框架。使用该方法作用于目标检测框架YOLOv3,在三个遥感图像数据集上进行实验,结果表明我们提出的注意力机制模型,可以大大提高目标检测的精度。
实现过程:
实施例中选择NWPU VHR-10,RSOD,LEVIR这三个数据集作为实验数据。
NWPU VHR-10西北工业大学标注的航天遥感目标检测数据集,共有800张遥感图像,其中包含目标的650张,背景图像150张,目标包括:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁、车辆10个类别;
RSOD数据集为武汉大学团队标注的遥感图像目标检测数据集,总共包含2326张遥感图像,包含飞机、操场、立交桥、油桶四类目标;
LEVIR数据集包括21,952张600*800的遥感图像。其中包含目标的3791张。其目标有三种为:飞机,轮船,油罐。
本实验中,分别从以上数据集中分别选取60%,20%,20%的数据作为训练集,测试集和验证集。使用加入了注意力机制的YOLOv3模型(YOLOv3Att)进行检测。
使用本发明的YOLOv3Att方法进行目标检测,包括以下阶段:
阶段1,训练图像的增强处理阶段:
此阶段提升目标检测模型对于遥感图像中各种变换的鲁棒性,已知图像X其宽高为w,h,其中包含k个目标,其左上角坐标为(x1i,y1i),右下角坐标为(x2i,y2i),其中i=1,...,k。
具体包括以下步骤:
步骤1.1:对数据集中的每幅图像X进行随机尺度和缩放变换,具体做法为,从(1-ξ,1+ξ)的范围中,随机取两个数α,β;以
Figure BDA0002077077650000111
作为新的宽高比。从(0.25,2)的范围中,随机选取一个数γ作为X的缩放因子,对X进行缩放,得到变换后的图像为Xs;其中,ξ为预先给定的变换参数。
步骤1.2:对数据集中的图像进行随机旋转和翻转变换。
步骤1处理过的图像Xs进行随机旋转和翻转变换,并且对其中目标的真实边界框坐标做相应的变换。其中旋转变换包括对图像进行90°,180°,270°的旋转,翻转变换包括上下翻转和左右翻转变换,变换后的图像为Xts
图像Xs中真实边界框的左上角坐标为(x1,y1),右下角坐标为(x2,y2)。
经过90°变换后边界框坐标为:(y1,w-x2),(y2,h-x1).
经过180°旋转后,边界框坐标为:(w-x2,h-y2)(w-x1,h-y1)
经过270°旋转后,边界框坐标为:(h-y2,x1)(h-y1,x2)
经过左右翻转变换后,边界框坐标为:(w-x2,y1)(w-x1,y2)
经过上下翻转变换后,边界框的坐标为:(x1,h-y2)(x2,h-y1)
阶段2,注意力的目标检测模型构建和训练阶段:
基于卷积神经网络的目标检测模型如YOLOv3,使用不同分辨率的特征融合层Xl来作为特征检测图像中的目标;在特征融合层Xl中引入空间位置信息嵌入和注意力机制。
步骤2.1:将特征融合层的特征图Xl与位置嵌入相加,得到融入了位置信息的特征图
Figure BDA0002077077650000112
其公式为:
Figure BDA0002077077650000113
其中,Xl为第l个特征融合层的特征图,
Figure BDA0002077077650000114
为特征嵌入矩阵,为可学习的参数,
Figure BDA0002077077650000115
一开始随机初始化,其大小与Xl相同;
步骤2.2,将融入了位置信息的特征图
Figure BDA0002077077650000121
的每个位置
Figure BDA0002077077650000122
使用注意力机制融合编码为
Figure BDA0002077077650000123
具体步骤为:
步骤2.2.1,特征图
Figure BDA0002077077650000124
每个位置
Figure BDA0002077077650000125
为一个c维的向量,将其线性映射为三个不同的向量
Figure BDA0002077077650000126
公式为:
Figure BDA0002077077650000127
Figure BDA0002077077650000128
Figure BDA0002077077650000129
其中,WQ,WK,WV为可学习的变换矩阵;×表示矩阵乘法;(i,j)表示特征图中每一个位置的坐标;
步骤2.2.2,使用得到的变换向量
Figure BDA00020770776500001210
构建注意力机制的加权系数
Figure BDA00020770776500001211
其公式为:
Figure BDA00020770776500001212
Figure BDA00020770776500001213
其中·表示点积;(k,l)也表示特征图中每一个位置的坐标;
步骤2.2.3,使用
Figure BDA00020770776500001214
与加权系数
Figure BDA00020770776500001215
得到注意力机制的编码特征图
Figure BDA00020770776500001216
其公式为:
Figure BDA00020770776500001217
步骤2.2.4,将注意力机制的编码特征图
Figure BDA00020770776500001218
与原始特征图Xl串联,作为注意力层的输出用于目标检测任务。
阶段3,使用增强过的图像训练基于注意力机制的目标检测模型。
目前,目标检测算法常用的评价指标为AP(average precision),也即平均精度。其中精度(precision)表示识别出来某类目标中所含真实目标的比例。与精度相关的另一个指标为召回率(recall),表示识别出来的某类目标与所有真实目标的比率。检测算法一般会给出某个位置是否含有目标的得分。实际应用中,我们可以通过给定一个阈值,得分大于阈值表示模型认为该位置有目标。通过不同的阈值,可以选择让系统识别能出多少个图片,当然阈值的变化会导致Precision与Recall值发生变化。而AP则衡量了选择不同阈值的情况下,某类目标的平均识别精度。
本例使用AP对三个数据集上的目标检测结果进行评价:
使用普通的YOLOv3模型,加入了数据增广的YOLOv3模型(YOLOv3 Rot),和引入了注意力机制的YOLOv3模型(YOLOv3 Att),在NWPU VHR-10数据集上做目标检测实验。并计算在训练集和测试集合上的AP值,结果在表1中,从表1中可得,对图像进行增强处理能够大大提高检测精度,特别是对于数据集中数量较少的目标类别(例如,篮球场,桥梁)以及包含多种旋转角度的目标类别(如船),其精度提升很大。而引入注意力机制后的模型能进一步提升目标检测的精度,特别是对于港口和车辆这两类目标。
表2为在RSOD数据集上的目标检测实验结果,结果表明,图像增强能大大提高飞机,油罐,立交桥的检测精度。而注意力机制的引入,能进一步的提升对各类目标的检测精度。表3为在LEVIR数据集上的目标检测实验结果,从表中易得在图像中的三类目标飞机,油罐和船上,使用了注意力机制的模型的检测AP有一定的提高。
此外,图4显示了我们的方法在NWPU VHR-10数据集上的检测结果。其中图左边一列为与不使用注意力机制的检测结果,右边一列为使用了注意力机制的检测结果。从图中对比可得:使用了注意力机制得模型能够正确检测出更多的物体,并且其检测的精确度(score)要更高。
表1 NWPU VHR-10数据集上目标检测的实验结果
Figure BDA0002077077650000141
表2 RSOD数据集上的目标检测实验结果
Figure BDA0002077077650000142
Figure BDA0002077077650000151
表3 LEVIR数据集上的目标检测实验结果
Figure BDA0002077077650000152

Claims (5)

1.一种基于注意力机制的遥感图像目标检测方法,其特征在于,包括以下步骤:
步骤1,对数据集进行增强处理,得到增强后的数据集;
步骤2,构建基于注意力机制的目标检测模型,并通过步骤1中得到的增强后的数据集训练该目标检测模型,直至达到相应的停止条件;
其中,步骤2中,构建基于注意力机制的目标检测模型的具体方法是:
在YOLOv3模型的特征融合层中加入了位置嵌入层和注意力层,得到基于注意力机制的目标检测模型;
向特征融合层中加入位置嵌入层的具体方法是:
利用下式将特征融合层的特征图Xl与位置嵌入相加,得到融入了位置信息的特征图
Figure FDA0003008686640000011
Figure FDA0003008686640000012
其中,Xl为第l个特征融合层的特征图;
Figure FDA0003008686640000013
为特征嵌入矩阵;
Figure FDA0003008686640000014
的初始像素值与Xl的像素值相等。
2.根据权利要求1所述的一种基于注意力机制的遥感图像目标检测方法,其特征在于,步骤1中,增强处理包括随机旋转变换和随机尺度变换,具体地,对数据集进行随机旋转变换的具体方法是:
首先对数据集进行90°旋转变换、180°旋转变换、270°旋转变换、上下翻转变换或左右翻转变换,之后对数据集中经过变换后的目标图像的真实边界框坐标进行变换;
随机尺度变换包括对训练图像进行随机缩放变换和随机宽高比变换。
3.根据权利要求2所述的一种基于注意力机制的遥感图像目标检测方法,其特征在于,设定数据集中的目标图像的原始真实边界框的左上角坐标为(x1,y1)、右下角坐标为(x2,y2);则经过90°旋转变换后的该目标图像的边界框的左上角坐标为(y1,w-x2)、右下角坐标为(y2,h-x1);经过180°旋转变换后的图像的该目标图像的真实边界框的左上角坐标为(w-x2,h-y2)、右下角坐标为(w-x1,h-y1);经过270°旋转变换后的该目标图像的真实边界框的左上角坐标为(h-y2,x1)、右下角坐标为(h-y1,x2);经过左右翻转变换后的该目标图像的真实边界框的左上角坐标为(w-x2,y1)、右下角坐标为(w-x1,y2);经过上下翻转变换后的该目标图像的真实边界框的左上角坐标均为(x1,h-y2)、右下角坐标均为(x2,h-y1)。
4.根据权利要求1所述的一种基于注意力机制的遥感图像目标检测方法,其特征在于,向特征融合层中加入注意力层的具体方法是,将融入了位置信息的特征图
Figure FDA0003008686640000021
的每个位置
Figure FDA0003008686640000022
使用注意力机制融合编码为
Figure FDA0003008686640000023
具体地:
S1,将融入了位置信息的特征图
Figure FDA0003008686640000024
的每个位置
Figure FDA0003008686640000025
线性映射为三个不同的向量
Figure FDA0003008686640000026
公式为:
Figure FDA0003008686640000027
Figure FDA0003008686640000028
Figure FDA0003008686640000029
其中,WQ,WK,WV为可学习的变换矩阵,×表示矩阵乘法,(i,j)表示融入了位置信息的特征图中每一个位置的坐标;
S2,利用S1中得到的变换向量
Figure FDA00030086866400000210
构建注意力机制的加权系数
Figure FDA00030086866400000211
其公式为:
Figure FDA00030086866400000212
Figure FDA00030086866400000213
其中,·表示点积,(k,l)融入了位置信息的特征图中每一个位置的坐标;
S3,利用S1中得到的变换向量
Figure FDA00030086866400000214
和S2中得到的加权系数
Figure FDA00030086866400000215
结合下式得到注意力机制的编码特征图
Figure FDA00030086866400000216
Figure FDA0003008686640000031
S4,将S3中得到的注意力机制的编码特征图
Figure FDA0003008686640000032
与特征融合层的特征图Xl串联,作为注意力层的输出。
5.根据权利要求1所述的一种基于注意力机制的遥感图像目标检测方法,其特征在于,步骤2中,将步骤1中得到的增强后的数据集与随机梯度下降法相结合,训练得到的基于注意力机制的目标检测模型,直至达到相应的停止条件。
CN201910457637.6A 2019-05-29 2019-05-29 一种基于注意力机制的遥感图像目标检测方法 Active CN110276269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910457637.6A CN110276269B (zh) 2019-05-29 2019-05-29 一种基于注意力机制的遥感图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910457637.6A CN110276269B (zh) 2019-05-29 2019-05-29 一种基于注意力机制的遥感图像目标检测方法

Publications (2)

Publication Number Publication Date
CN110276269A CN110276269A (zh) 2019-09-24
CN110276269B true CN110276269B (zh) 2021-06-29

Family

ID=67960455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910457637.6A Active CN110276269B (zh) 2019-05-29 2019-05-29 一种基于注意力机制的遥感图像目标检测方法

Country Status (1)

Country Link
CN (1) CN110276269B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705457B (zh) * 2019-09-29 2024-01-19 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN111008555B (zh) * 2019-10-21 2021-08-17 武汉大学 一种无人机图像弱小目标增强提取方法
CN111160276B (zh) * 2019-12-31 2023-05-12 重庆大学 基于遥感影像的u型空洞全卷积分割网络识别模型
CN111291622B (zh) * 2020-01-16 2023-07-11 武汉汉达瑞科技有限公司 一种遥感影像中建筑物变化检测的方法及装置
CN111414962B (zh) * 2020-03-19 2023-06-23 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
CN111507271B (zh) * 2020-04-20 2021-01-12 北京理工大学 一种机载光电视频目标智能化检测与识别方法
CN111582281B (zh) * 2020-05-11 2023-05-16 广东小天才科技有限公司 一种图片显示优化的方法、装置、电子设备和存储介质
CN112069868A (zh) * 2020-06-28 2020-12-11 南京信息工程大学 一种基于卷积神经网络的无人机实时车辆检测方法
CN114037885B (zh) * 2020-07-21 2023-06-20 四川大学 一种基于可选择的膨胀卷积核大小的目标检测方法
CN111914795B (zh) * 2020-08-17 2022-05-27 四川大学 一种航拍图像中旋转目标检测方法
CN112101169B (zh) * 2020-09-08 2024-04-05 平安科技(深圳)有限公司 基于注意力机制的道路图像目标检测方法及相关设备
CN112101189B (zh) * 2020-09-11 2022-09-30 北京航空航天大学 基于注意力机制的sar图像目标检测方法及测试平台
CN112528786B (zh) * 2020-11-30 2023-10-31 北京百度网讯科技有限公司 车辆跟踪方法、装置及电子设备
CN112418345B (zh) * 2020-12-07 2024-02-23 深圳小阳软件有限公司 细粒度小目标快速识别的方法和装置
CN112465057B (zh) * 2020-12-08 2023-05-12 中国人民解放军空军工程大学 一种基于深度卷积神经网络的目标检测识别方法
CN112906478B (zh) * 2021-01-22 2024-01-09 北京百度网讯科技有限公司 目标对象的识别方法、装置、设备和存储介质
CN113095169B (zh) * 2021-03-26 2022-03-29 生态环境部卫星环境应用中心 大空间范围储油罐提取方法
CN115115939B (zh) * 2022-07-28 2023-04-07 北京卫星信息工程研究所 基于特征注意力机制的遥感图像目标细粒度识别方法
CN116485736A (zh) * 2023-04-04 2023-07-25 深圳市眼科医院(深圳市眼病防治研究所) 基于深度学习的眼底视网膜图像异常区域检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214298A (zh) * 2011-06-20 2011-10-12 复旦大学 基于选择性视觉注意机制的遥感图像机场目标检测与识别方法
CN105550685A (zh) * 2015-12-11 2016-05-04 哈尔滨工业大学 基于视觉注意机制的大幅面遥感影像感兴趣区域提取方法
CN106096655A (zh) * 2016-06-14 2016-11-09 厦门大学 一种基于卷积神经网络的光学遥感图像飞机检测方法
CN107247930A (zh) * 2017-05-26 2017-10-13 西安电子科技大学 基于cnn和选择性注意机制的sar图像目标检测方法
CN107330405A (zh) * 2017-06-30 2017-11-07 上海海事大学 基于卷积神经网络的遥感图像飞机目标识别方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN109033107A (zh) * 2017-06-09 2018-12-18 腾讯科技(深圳)有限公司 图像检索方法和装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930868B (zh) * 2016-04-20 2019-02-12 北京航空航天大学 一种基于层次化增强学习的低分辨率机场目标检测方法
CN107871119B (zh) * 2017-11-01 2021-07-06 西安电子科技大学 一种基于目标空间知识和两阶段预测学习的目标检测方法
CN109389091B (zh) * 2018-10-22 2022-05-03 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN109711463B (zh) * 2018-12-25 2023-04-07 广东顺德西安交通大学研究院 基于注意力的重要对象检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214298A (zh) * 2011-06-20 2011-10-12 复旦大学 基于选择性视觉注意机制的遥感图像机场目标检测与识别方法
CN105550685A (zh) * 2015-12-11 2016-05-04 哈尔滨工业大学 基于视觉注意机制的大幅面遥感影像感兴趣区域提取方法
CN106096655A (zh) * 2016-06-14 2016-11-09 厦门大学 一种基于卷积神经网络的光学遥感图像飞机检测方法
CN107247930A (zh) * 2017-05-26 2017-10-13 西安电子科技大学 基于cnn和选择性注意机制的sar图像目标检测方法
CN109033107A (zh) * 2017-06-09 2018-12-18 腾讯科技(深圳)有限公司 图像检索方法和装置、计算机设备和存储介质
CN107330405A (zh) * 2017-06-30 2017-11-07 上海海事大学 基于卷积神经网络的遥感图像飞机目标识别方法
CN107766894A (zh) * 2017-11-03 2018-03-06 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HSF-Net: Multiscale Deep Feature Embedding for Ship Detection in Optical Remote Sensing Imagery;Qingpeng Li等;《 IEEE Transactions on Geoscience and Remote Sensing》;20180717;第56卷(第12期);第7147 - 7161页 *
基于选择性视觉注意机制的遥感图像机场检测;王鑫;《中国优秀硕士学位论文全文数据库信息科技辑》;20130315(第3期);I140-661 *

Also Published As

Publication number Publication date
CN110276269A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN111091105B (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
Wang et al. Learning center probability map for detecting objects in aerial images
Wang et al. Multiscale visual attention networks for object detection in VHR remote sensing images
Gong et al. Context-aware convolutional neural network for object detection in VHR remote sensing imagery
CN110136154B (zh) 基于全卷积网络与形态学处理的遥感图像语义分割方法
CN106228125B (zh) 基于集成学习级联分类器的车道线检测方法
CN110929607B (zh) 一种城市建筑物施工进度的遥感识别方法和系统
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN109685152A (zh) 一种基于dc-spp-yolo的图像目标检测方法
CN111259930A (zh) 自适应注意力指导机制的一般性目标检测方法
US20200117959A1 (en) Object-based Convolutional Neural Network for Land Use Classification
CN112101165A (zh) 兴趣点识别方法、装置、计算机设备和存储介质
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN103714148B (zh) 基于稀疏编码分类的sar图像检索方法
Zhu et al. Diverse sample generation with multi-branch conditional generative adversarial network for remote sensing objects detection
CN113850129A (zh) 一种旋转等变的空间局部注意力遥感图像目标检测方法
Li et al. Using a semantic edge-aware multi-task neural network to delineate agricultural parcels from remote sensing images
CN108932455B (zh) 遥感图像场景识别方法及装置
CN106096658B (zh) 基于无监督深度空间特征编码的航拍图像分类方法
CN112395958A (zh) 基于四尺度深浅层特征融合的遥感图像小目标检测方法
CN117079132A (zh) 基于高斯距离损失的遥感图像目标检测方法
CN116563726A (zh) 一种基于卷积神经网络的遥感图像舰船目标检测方法
Huang et al. A multispectral and multiangle 3-D convolutional neural network for the classification of ZY-3 satellite images over urban areas
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant