CN113850129A - 一种旋转等变的空间局部注意力遥感图像目标检测方法 - Google Patents

一种旋转等变的空间局部注意力遥感图像目标检测方法 Download PDF

Info

Publication number
CN113850129A
CN113850129A CN202110964104.4A CN202110964104A CN113850129A CN 113850129 A CN113850129 A CN 113850129A CN 202110964104 A CN202110964104 A CN 202110964104A CN 113850129 A CN113850129 A CN 113850129A
Authority
CN
China
Prior art keywords
candidate
feature tensor
convolution
target
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110964104.4A
Other languages
English (en)
Inventor
肖亮
段牧笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110964104.4A priority Critical patent/CN113850129A/zh
Publication of CN113850129A publication Critical patent/CN113850129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种旋转等变的空间局部注意力遥感图像目标检测方法,包括:采取多方向旋转卷积,构造旋转等变卷积模块;级联旋转等变残差子模块,构造特征张量增强模块;采取邻域权重自适应上采样,构建注意力上采样模块;采取金字塔注意力模块提取多尺度特征张量;采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域;对候选区域进行特征提取并实现目标的分类和定位。本发明方法充分考虑了目标的尺度和旋转对检测任务的影响,上采样注意力机制和非极大值抑制机制提高了多尺度目标的检测精度和检测速度,能够有效处理大纵横比、分布密集和方向任意的目标检测问题,且网络轻量化,小样本学习能力强。

Description

一种旋转等变的空间局部注意力遥感图像目标检测方法
技术领域
本发明涉及遥感图像目标检测技术,特别是一种旋转等变的空间局部注意力遥感图像目标检测方法。
背景技术
目标检测旨在获得图像中预定义类别目标的定位和类别,是计算机视觉领域最基本、最重要的任务之一。针对遥感图像的目标检测任务对于地理信息系统测绘、农业、交通规划和导航等各种民用应用具有重要意义。由于遥感图像的空间覆盖范围广,图像中的物体通常具有大纵横比、分布密集和方向任意的问题。上述因素使得在光学遥感图像中准确识别和定位目标物体成为一项具有挑战性的任务。
随着深度学习的快速发展,许多基于深度学习的遥感图像目标检测方法已经被提出。光学遥感图像与通常从水平视角拍摄的自然图像不同,遥感图像通常是鸟瞰图,这意味着图像中的物体总是任意定向的,高度复杂的背景和多变的外观进一步增加了检测物体的难度。Ma等人[Ma J,Shao W,Ye H,et al.Arbitrary-oriented scene text detectionvia rotation proposals[J].IEEE Transactions on Multimedia,2018,20(11):3111-3122.]通过预先设计大量的具有不同角度、尺度和纵横比的锚框来最终生成方向任意的检测框,并在检测稀疏分布的目标方面表现出较好的效果。然而,由于遥感图像中目标的方向高度多样化且分布密集,通过使用有限方向的检测框与遥感图像中的所有目标配对通常是很困难的,这类方法会显著增加计算复杂度。为了解决这一不足,Ding等人[Ding J,Xue N,Long Y,et al.Learning roi transformer for oriented object detection in aerialimages[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:2849-2858.]提出了ROI Transformer,将区域建议网络生成的水平候选框转换为旋转候选框,从而避免了设计大量旋转的锚框,取得了较好的效果。然而,传统的卷积神经网络框架对平移等变特征具有良好的泛化能力,但在旋转等变特征和尺度变化方面表现不佳。上述方法并未考虑到特征张量增强模块存在的缺陷,使得经过特征张量增强模块提取得到的特征图不具备旋转等变性,从而对后续识别和定位目标物体的过程造成影响。王等人[王道累,杜文斌等.一种基于密集连接与特征增强的遥感图像目标检测方法:中国,10079059.4[P].2021-05-18.]通过引入带有空洞卷积的特征增强模块和特征金字塔模块,提取多尺度特征张量,主要应对遥感图像分辨率低、目标尺度小等问题。该方法实现了较好的检测结果,但是空洞卷积扩大了感受野范围的同时,对于密集分布的目标不具备注意力机制,同时,特征金字塔模块采用最近邻插值的方式对特征张量进行上采样,上采样结果不具备自适应性。
发明内容
本发明公开了一种旋转等变的空间局部注意力遥感图像目标检测方法,该方法充分考虑了目标的尺度和旋转对检测任务的影响,上采样注意力机制和非极大值抑制机制提高了多尺度目标的检测精度和检测速度,能够有效处理大纵横比、分布密集和方向任意的目标检测问题,且网络轻量化,小样本学习能力强。
实现本发明目的的技术解决方案为:一种旋转等变的空间局部注意力遥感图像目标检测方法,包括以下步骤:
第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作;
第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;
第三步,采取邻域权重自适应上采样,构建注意力上采样单元,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点;
第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量;
第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选区域的生成,推损失阻碍抑制不同类高分候选区域的生成;
第六步,对候选区域进行特征提取并实现目标的分类和定位,即通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
本发明与现有技术相比,其显著特点在于:(1)采取旋转等变卷积构造旋转等变残差子模块,相互级联构成旋转等变特征张量增强模块,提取旋转等变特征张量;(2)注意力上采样单元能够在大的感受野内聚合上下文信息,利用该模块构建金字塔注意力模块,提取的多尺度特征张量更为准确;(3)采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,可以避免误检和漏检;(4)通过构建端到端检测模型,能够有效处理大纵横比、分布密集和方向任意的目标检测问题,且网络轻量化,小样本学习能力强。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明的方法流程示意图。
图2是旋转等变残差单元的结构图。
图3是注意力上采样单元的结构图。
图4是本发明方法对HRSC 2016数据集的检测结果图。
图5是本发明方法对DOTA-v1.0数据集的检测结果图。
具体实施方式
相较于现有方法,本发明应用旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,使得经过特征张量增强模块得到的特征张量具备旋转等变性;应用邻域权重自适应的注意力上采样,构建注意力上采样单元,预测像素值来自局部空间像素点的组合而非最邻近像素点;利用注意力上采样方法,构建金字塔注意力模块,能够得到更加精确的多尺度特征张量;通过设计可学习的非极大值抑制损失函数训练网络,指导区域建议网络生成候选区域,在一定程度上能够避免目标物体的误检和漏检。
结合图1,下面详细说明本发明的实施过程,步骤如下:
第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作,具体过程为:
(1)对原始卷积核分别进行8次不同方向的旋转变换,得到8个对不同方向敏感的卷积核。即通过原始卷积核围绕中心点逆时针旋转αr度后,使用双线性插值对旋转卷积核的像素值进行重新采样,插值过程中落到原始卷积核外部的采样点像素值为0。对卷积核进行旋转变换过程可表示为:
Figure BDA0003223347890000041
其中,
Figure BDA0003223347890000042
表示原始卷积核,
Figure BDA0003223347890000043
表示经旋转变换后的卷积核,n表示旋转卷积核的大小,
Figure BDA0003223347890000046
表示旋转操作,αr表示旋转角度,记为
Figure BDA0003223347890000044
R表示离散的旋转方向,方向数设为8。
(2)将输入特征张量分别通过8个方向旋转卷积层,得到8个对不同方向敏感的特征张量,记为fi,i=1,2…8。
(3)将这8个fi沿通道维度拼接,得到对8个方向旋转等变的特征张量,作为旋转等变卷积模块的输出。
第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;
每个残差子模块由不同规模的旋转等变残差单元构成,残差子模块S1-S4分别包含3、4、6、3个残差单元,经过残差子模块S1-S4分别得到下采样步长为4、8、16、32的多尺度特征张量,其中,旋转等变残差单元如图2所示,其结构流程可表示为:
(1)输入特征张量f依次经过1×1卷积层、3×3旋转等变卷积层和1×1卷积层,得到特征张量f′。
(2)f′与f经过1×1卷积层得到的特征张量f″对应像素值进行加运算,所得特征张量即为旋转等变残差单元的输出。
将旋转等变残差子模块S1-S4进行逐模块级联,构成特征张量增强模块,用于提取旋转等变特征张量,其性质可表示为:
Figure BDA0003223347890000045
其中,I为特征张量增强模块的输入,Tr表示旋转变换操作,Li表示特征张量增强模块中的卷积层运算,M表示特征张量增强模块的卷积层数。
第三步,采取邻域权重自适应上采样,构建注意力上采样单元,如图3所示,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点,具体过程为:
(1)通过3×3卷积层将输入特征张量的通道数转化为
Figure BDA0003223347890000051
维,其中δ为上采样率,值设为≥2;kup为学习的局部卷积核大小,值设为≥5。
(2)通过亚像素卷积层将每个像素的δ2个通道重新排列成一个二维的δ×δ的区域,从而大小为
Figure BDA0003223347890000052
的特征张量被重新排列成
Figure BDA0003223347890000053
Figure BDA0003223347890000054
大小的特征张量,其中H、W分别为特征图的宽和高。
(3)对每个像素点对应的kup×kup大小的局部卷积核,采用Softmax函数进行归一化,使卷积核值的总和为1。将学习得到的局部卷积核同输入特征张量做卷积运算,此时输入特征张量每个像素点对应δ2个不同的局部卷积核。
(4)通过一个1×1卷积层计算得到256×δ×H×δ×W大小的上采样率为δ的特征张量。
第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量,其过程为:
(1)特征张量增强模块中旋转等变残差子模块S1-S4输出的特征张量F1-F4作为金字塔注意力模块的输入,通过1×1卷积层分别将特征张量F1-F4的通道数化为256维,得到4个通道数相同、空间尺度不同的特征张量,记为F′i,i=1,2,3,4。
(2)空间尺度较小的3个特征张量F′2,F′3,F′4,分别经注意力上采样单元得到上采样后的特征张量,记为Fi″,i=2,3,4,分别同特征张量F′1,F′2,F′3的对应像素值进行加运算,共得到3个融合特征张量。
(3)通过3×3卷积层分别对融合特征张量和F′4进行特征提取,得到的4个特征张量作为金字塔注意力模块的输出。
第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选框的生成以避免误检,推损失阻碍抑制不同类高分候选框的生成以避免漏检,非极大值抑制损失可定义为:
Lnms=λpullLpullpushLpu
其中,Lpull表示拉损失,Lpush表示推损失,λpull和λpush表示权重系数,分别为0.5和0.05。区域建议网络的具体实现过程为:
(1)通过锚框生成层对金字塔注意力模块输出的特征张量分配候选框,为每个像素点分别设置像素面积为322,642,1282,2562,5122,宽高比为1∶2,1∶1,2∶1的15类候选框。通过一个1×1卷积层对这些候选框进行打分,按照得分对候选框由大到小排序,保留得分前2000的候选框作为步骤(2)的输入。
(2)选取当前得分最高的候选框作为当前候选框,判断该候选框对应的真实标签是否与已有候选框索引,若是,则计算当前候选框与已有候选框的拉损失,否则,计算当前候选框索引到其对应的真实标签值。拉损失定义为:
Figure BDA0003223347890000061
其中,ln(.)表示对数运算,
Figure BDA0003223347890000062
表示当前候选框,
Figure BDA0003223347890000063
表示相同真实标签对应得分最高的候选框,
Figure BDA0003223347890000064
表示当前候选框的得分,Nt表示固定阈值,其值为0.5,IOU表示同一目标的当前候选框和其他候选框的交并比,定义为:
Figure BDA0003223347890000065
其中,area(·)表示集合的面积计算算子,bi和bj表示两个不同的候选框。
(3)将当前候选框存入最终保留列表,计算其余候选框与当前候选框的IOU,当二者IOU大于固定阈值M时,判断二者对应的真实标签值是否相同:相同则删除与当前候选框做比较的候选框,不同则计算这两个候选框的推损失并保留此比较候选框。推损失定义为:
Figure BDA0003223347890000066
Figure BDA0003223347890000067
其中,bj表示和
Figure BDA0003223347890000068
对应不同真实标签值的候选框,sj表示候选框bj的得分。
(4)在得分列表中删除当前候选框,重复执行步骤(2)和步骤(3),不断添加符合要求的候选框至最终保留列表直到得分列表为空,最终保留列表即为区域建议网络最终获取的候选区域。
第六步,对候选区域进行特征提取并实现目标的分类和定位,通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类。池化操作具体实现过程为:
(1)将不同尺度的候选区域分割为7×7个均等大小的单元。
(2)对每个单元进行4等分,4个区域的中心位置即为该单元像素值的采样点,利用双线性插值的方法计算这4个采样点的像素值。
(3)对每个单元进行最大值池化操作,即选取4个采样点像素值中的最大值作为该单元的像素值,最终得到7×7大小的候选区域。
经过池化操作得到固定空间尺寸的候选区域特征张量通过一个全连接层和Softmax分类器进行分类,以获得目标的分类结果。同时,通过一个全连接层用于回归包括候选区域中心点坐标、宽、高以及逆时针方向旋转角度的偏移值,以获得目标的准确定位结果。
本发明的效果可通过以下仿真实验进一步说明:
仿真条件
仿真实验采用两组光学遥感图像数据:HRSC 2016数据集和DOTA-v1.0数据集。HRSC 2016数据集的所有图像均来自谷歌地球,训练集、验证集和测试集分别包含436、181和444张图像,共包含2976个目标,图像大小范围为300×300到1500×900像素。DOTA-v1.0数据集的所有图像均来自谷歌地球、GF-2和JL-1卫星,以及CycloMedia Technology B.V.提供的航拍图像,训练集、验证集和测试集分别包含1411、458和937张图像,共包含403318个目标,图像大小范围为800×800到20000×20000像素。两组数据集均采用定向包围框的注释格式。实验中,将HRSC 2016数据集的所有图像都调整为800×512大小;将DOTA-v1.0数据集中的所以图像裁剪为1024×1024大小的图像块,步长设为824。将原训练集和原验证集作为训练集,原测试集作为测试集。两组实验以类内平均检测精度(Average Precision,AP)和类间平均检测精度(mean Average Precision,mAP)作为评价指标。此外,对比方法包括:感兴趣区域转换器(RoI Transformer,RoI Trans.)方法、动态细化网络(DynamicRefinement Network,DRN)方法、中心概率图(Center Probability Map,CenterMap)方法、细化旋转网络(Refined Rotation RetinaNet,R3Det)方法和单映射对齐网络(Single-shot Alignment Network,S2A-Net)方法。
实验中网络优化器采用SGD优化器,初始学习率为0.01,每衰减一次学习率除以10,动量和权重衰减分别为0.9和0.0001。此外,网络在DOTA-v1.0的前12个时期和HRSC2016的前36个时期内训练模型,其他网络超参数配置总结在表1中。仿真实验均在Linux操作系统下采用Python3.8+pytorch1.8+cuda11.2完成。
表1网络超参数配置
Figure BDA0003223347890000081
Figure BDA0003223347890000091
仿真实验结果分析
表2-3为本发明方法对HRSC 2016与DOTA-v1.0数据集进行仿真实验的检测精度(%)。
表2不同方法对HRSC 2016数据集的检测结果
指标 RoI Trans. DRN CenterMap R<sup>3</sup>Det S<sup>2</sup>A-Net 本发明
mAP 86.20 87.17 87.96 89.26 90.17 90.58
表3不同方法对DOTA-v1.0数据集的检测结果
Class RoI Trans. DRN CenterMap R<sup>3</sup>Det S<sup>2</sup>A-Net 本发明
1 88.64 88.91 88.88 89.49 89.11 89.18
2 78.52 80.22 81.24 81.17 82.84 82.90
3 43.44 43.52 53.15 50.53 48.37 50.62
4 75.92 63.35 60.65 66.10 71.11 71.47
5 68.81 73.48 78.62 70.92 78.11 79.26
6 73.68 70.69 66.55 78.66 78.39 78.95
7 83.59 84.94 78.10 78.21 87.25 87.36
8 90.74 90.14 88.83 90.81 90.83 90.86
9 77.27 83.85 77.80 85.26 84.90 85.62
10 81.46 84.11 83.61 84.23 85.64 85.53
11 58.39 50.12 49.36 61.81 60.36 61.34
12 53.54 58.41 66.19 63.77 62.60 63.70
13 62.83 67.62 72.10 68.16 65.26 66.35
14 58.93 68.60 72.36 69.83 69.13 70.67
15 47.67 52.50 58.70 67.17 57.94 54.66
mAP 69.56 70.70 71.74 73.74 74.12 74.56
从实验结果来看,我们可以发现,通过使用本发明方法可以明显提升两个数据集的检测精度。在HRSC 2016数据集上,本发明方法的平均精度为90.58%,通过本发明方法获得的检测图如图4所示。相比于其他方法,本发明方法能够得到更好的检测结果,主要得益于提出的旋转等变特征张量增强模块能够更准确地提取目标的方向信息。在DOTA-v1.0数据集上,本发明方法的平均检测精度为74.56%,通过本发明方法获得的检测图如图5所示。相比于其他方法,本发明方法对篮球场和地面田径场这两个尺度变化较大的类具有较好的检测效果,这得益于本发明提出的注意力金字塔模块,该模块能够更加准确地提取多尺度特征信息;对船舶和车辆这两个纵横比较大的类具有较好的检测效果,主要得益于本发明提出的非极大值抑制损失函数,能够删除冗余检测框的同时使检测框的定位更加准确。上述结果充分表明了本发明方法能够有效地学习遥感图像的特征信息,具有较高的检测性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,包括以下步骤:
第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作;
第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;
第三步,采取邻域权重自适应上采样,构建注意力上采样单元,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点;
第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量;
第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选区域的生成,推损失阻碍抑制不同类高分候选区域的生成;
第六步,对候选区域进行特征提取并实现目标的分类和定位,即通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类。
2.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第一步,采取多方向旋转卷积,构造旋转等变卷积模块,该模块包含多个方向旋转卷积层并级联特征张量拼接操作,具体为:
(1)对原始卷积核分别进行8次不同方向的旋转变换,得到8个对不同方向敏感的卷积核;对卷积核进行旋转变换过程表示为:
Figure FDA0003223347880000011
其中,
Figure FDA0003223347880000012
表示原始卷积核,
Figure FDA0003223347880000013
表示经旋转变换后的卷积核,n表示旋转卷积核的大小,
Figure FDA0003223347880000014
表示旋转操作,αr表示旋转角度,记为
Figure FDA0003223347880000015
R表示离散的旋转方向,方向数设为8;
(2)将输入特征张量分别通过8个方向旋转卷积层,得到8个对不同方向敏感的特征张量,记为fi,i=1,2...8;
(3)将这8个fi沿通道维度拼接,得到对8个方向旋转等变的特征张量,作为旋转等变卷积模块的输出。
3.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第二步,级联旋转等变残差子模块,构造特征张量增强模块,即利用第一步旋转等变卷积构造旋转等变残差子模块,相互级联构成特征张量增强模块,提取旋转等变特征张量;旋转等变的特征张量增强模块的性质可表示为:
Figure FDA0003223347880000021
其中,I为特征张量增强模块的输入,Tr表示旋转变换操作,Li表示特征张量增强模块中的卷积层运算,M表示特征张量增强模块的卷积层数。
4.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第三步,采取邻域权重自适应上采样,构建注意力上采样单元,采样时通过卷积预测采样权重,预测像素值来自局部空间像素点的组合而非最邻近像素点,具体过程为:
(1)通过3×3卷积层将输入特征张量的通道数转化为
Figure FDA0003223347880000022
维,其中δ为上采样率,值设为≥2;kup为学习的局部卷积核大小,值设为≥5;
(2)通过亚像素卷积层将每个像素的δ2个通道重新排列成一个二维的δ×δ的区域,从而大小为
Figure FDA0003223347880000023
的特征张量被重新排列成
Figure FDA0003223347880000024
Figure FDA0003223347880000025
大小的特征张量,其中H、W分别为特征图的宽和高;
(3)对每个像素点对应的kup×kup大小的局部卷积核,采用Softmax函数进行归一化,使卷积核值的总和为1;将学习得到的局部卷积核同输入特征张量做卷积运算,此时输入特征张量每个像素点对应δ2个不同的局部卷积核;
(4)通过一个1×1卷积层计算得到256×δ×H×δ×W大小的上采样率为δ的特征张量。
5.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第四步,采取金字塔注意力模块提取多尺度特征张量,即利用第三步的注意力上采样方法,构建金字塔注意力模块,提取多尺度特征张量,其过程为:
(1)特征张量增强模块中旋转等变残差子模块S1至S4输出的特征张量F1-F4作为金字塔注意力模块的输入,通过1×1卷积层分别将特征张量F1-F4的通道数化为256维,得到4个通道数相同、空间尺度不同的特征张量,记为F′i,i=1,2,3,4;
(2)空间尺度较小的3个特征张量F′2,F′3,F′4,分别经注意力上采样单元得到上采样后的特征张量,记为F″i,i=2,3,4,分别同特征张量F′1,F′2,F′3的对应像素值进行加运算,共得到3个融合特征张量;
(3)通过3×3卷积层分别对融合特征张量以及F′4进行特征提取,得到的4个特征张量作为金字塔注意力模块的输出。
6.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第五步,采取可学习的非极大值抑制损失重构损失函数训练网络,指导区域建议网络生成候选区域,即在非极大值抑制过程中增加拉损失和推损失,拉损失用于抑制同类低分候选框的生成以避免误检,推损失阻碍抑制不同类高分候选框的生成以避免漏检,非极大值抑制损失可定义为:
Lnms=λpullLpullpushLpush
其中,Lpull表示拉损失,Lpush表示推损失,λpull和λpush表示权重系数;区域建议网络的具体实现过程为:
(1)通过锚框生成层对金字塔注意力模块输出的特征张量分配候选框,为每个像素点分别设置像素面积为322,642,1282,2562,5122,宽高比为1∶2,1∶1,2∶1的15类候选框;通过一个1×1卷积层对这些候选框进行打分,按照得分对候选框由大到小排序,保留得分前2000的候选框作为步骤(2)的输入;
(2)选取当前得分最高的候选框作为当前候选框,判断该候选框对应的真实标签是否与已有候选框索引,若是,则计算当前候选框与已有候选框的拉损失,否则,计算当前候选框索引到其对应的真实标签值;拉损失定义为:
Figure FDA0003223347880000031
其中,ln(·)表示对数运算,
Figure FDA0003223347880000032
表示当前候选框,
Figure FDA0003223347880000033
表示相同真实标签对应得分最高的候选框,
Figure FDA0003223347880000034
表示当前候选框的得分,Nt表示固定阈值,IOU表示同一目标的当前候选框和其他候选框的交并比,定义为:
Figure FDA0003223347880000035
其中,area(.)表示集合的面积计算算子,bi和bj表示两个不同的候选框;
(3)将当前候选框存入最终保留列表,计算其余候选框与当前候选框的IOU,当二者IOU大于固定阈值Nt时,判断二者对应的真实标签值是否相同:相同则删除与当前候选框做比较的候选框,不同则计算这两个候选框的推损失并保留此比较候选框;推损失定义为:
Figure FDA0003223347880000043
Figure FDA0003223347880000041
其中,bj表示和
Figure FDA0003223347880000042
对应不同真实标签值的候选框,sj表示候选框bj的得分;
(4)在得分列表中删除当前候选框,重复执行步骤(2)和步骤(3),不断添加符合要求的候选框至最终保留列表直到得分列表为空,最终保留列表即为区域建议网络最终获取的候选区域。
7.根据权利要求6所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,λpull和λpus分别为0.5和0.05,Nt取值为0.5。
8.根据权利要求1所述的旋转等变的空间局部注意力遥感图像目标检测方法,其特征在于,第六步,对候选区域进行特征提取并实现目标的分类和定位,通过池化操作将候选区域池化为固定尺寸的特征张量,并级联全连接层及Softmax分类器进行定位和分类;池化操作具体实现过程为:
(1)将不同尺度的候选区域分割为7×7个均等大小的单元;
(2)对每个单元进行4等分,4个区域的中心位置即为该单元像素值的采样点,利用双线性插值的方法计算这4个采样点的像素值;
(3)对每个单元进行最大值池化操作,即选取4个采样点像素值中的最大值作为该单元的像素值,最终得到7×7大小的候选区域;
经过池化操作得到固定空间尺寸的候选区域特征张量通过一个全连接层和Softmax分类器进行分类,以获得目标的分类结果;同时,通过一个全连接层用于回归包括候选区域中心点坐标、宽、高以及逆时针方向旋转角度的偏移值,以获得目标的准确定位结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8中任一项所述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8中任一项所述旋转等变的空间局部注意力遥感图像目标检测方法的步骤。
CN202110964104.4A 2021-08-21 2021-08-21 一种旋转等变的空间局部注意力遥感图像目标检测方法 Pending CN113850129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110964104.4A CN113850129A (zh) 2021-08-21 2021-08-21 一种旋转等变的空间局部注意力遥感图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110964104.4A CN113850129A (zh) 2021-08-21 2021-08-21 一种旋转等变的空间局部注意力遥感图像目标检测方法

Publications (1)

Publication Number Publication Date
CN113850129A true CN113850129A (zh) 2021-12-28

Family

ID=78975909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110964104.4A Pending CN113850129A (zh) 2021-08-21 2021-08-21 一种旋转等变的空间局部注意力遥感图像目标检测方法

Country Status (1)

Country Link
CN (1) CN113850129A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611666A (zh) * 2022-03-08 2022-06-10 安谋科技(中国)有限公司 一种nms函数的量化方法、电子设备及介质
CN114821356A (zh) * 2022-04-24 2022-07-29 中国人民解放军空军工程大学 一种精确定位的光学遥感目标检测方法
CN115019174A (zh) * 2022-06-10 2022-09-06 西安电子科技大学 基于像素重组和注意力的上采样遥感图像目标识别方法
CN115375677A (zh) * 2022-10-24 2022-11-22 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统
CN116188933A (zh) * 2023-05-04 2023-05-30 泉州装备制造研究所 一种基于群等变的鸟瞰图目标方向预测方法
CN116343192A (zh) * 2023-02-10 2023-06-27 泉州装备制造研究所 一种室外3d目标检测方法及系统
CN116883996A (zh) * 2023-09-01 2023-10-13 武汉互创联合科技有限公司 基于旋转等变网络的胚胎发育阶段预测与质量评估系统
CN114611666B (zh) * 2022-03-08 2024-05-31 安谋科技(中国)有限公司 一种nms函数的量化方法、电子设备及介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611666A (zh) * 2022-03-08 2022-06-10 安谋科技(中国)有限公司 一种nms函数的量化方法、电子设备及介质
CN114611666B (zh) * 2022-03-08 2024-05-31 安谋科技(中国)有限公司 一种nms函数的量化方法、电子设备及介质
CN114821356A (zh) * 2022-04-24 2022-07-29 中国人民解放军空军工程大学 一种精确定位的光学遥感目标检测方法
CN114821356B (zh) * 2022-04-24 2024-05-28 中国人民解放军空军工程大学 一种精确定位的光学遥感目标检测方法
CN115019174A (zh) * 2022-06-10 2022-09-06 西安电子科技大学 基于像素重组和注意力的上采样遥感图像目标识别方法
CN115375677A (zh) * 2022-10-24 2022-11-22 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统
CN116343192A (zh) * 2023-02-10 2023-06-27 泉州装备制造研究所 一种室外3d目标检测方法及系统
CN116188933A (zh) * 2023-05-04 2023-05-30 泉州装备制造研究所 一种基于群等变的鸟瞰图目标方向预测方法
CN116188933B (zh) * 2023-05-04 2023-09-01 泉州装备制造研究所 一种基于群等变的鸟瞰图目标方向预测方法及装置
CN116883996A (zh) * 2023-09-01 2023-10-13 武汉互创联合科技有限公司 基于旋转等变网络的胚胎发育阶段预测与质量评估系统
CN116883996B (zh) * 2023-09-01 2023-12-08 武汉互创联合科技有限公司 基于旋转等变网络的胚胎发育阶段预测与质量评估系统

Similar Documents

Publication Publication Date Title
CN113850129A (zh) 一种旋转等变的空间局部注意力遥感图像目标检测方法
CN110276269B (zh) 一种基于注意力机制的遥感图像目标检测方法
CN109902677B (zh) 一种基于深度学习的车辆检测方法
JP7096365B2 (ja) 目標検出および目標検出ネットワークのトレーニング
CN109447994B (zh) 结合完全残差与特征融合的遥感图像分割方法
CN111507335B (zh) 自动标注利用于深度学习网络的训练图像的方法和装置
CN108549893B (zh) 一种任意形状的场景文本端到端识别方法
Mahaur et al. Small-object detection based on YOLOv5 in autonomous driving systems
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
WO2017215622A1 (zh) 物体分割方法及装置、计算设备
US10509987B1 (en) Learning method and learning device for object detector based on reconfigurable network for optimizing customers&#39; requirements such as key performance index using target object estimating network and target object merging network, and testing method and testing device using the same
CN113362329B (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN109712071B (zh) 基于航迹约束的无人机图像拼接与定位方法
CN111523553B (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
KR20200027889A (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN110889399B (zh) 基于深度学习的高分辨率遥感影像弱小目标检测方法
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN113065594A (zh) 一种基于北斗数据与遥感影像融合的路网提取方法及装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
Abdollahi et al. Road extraction from high-resolution orthophoto images using convolutional neural network
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination