CN111539428A

CN111539428A - 基于多尺度特征整合和注意力机制的旋转目标检测方法

Info

Publication number: CN111539428A
Application number: CN202010374248.XA
Authority: CN
Inventors: 黎万义; 李文通; 王鹏; 罗永康
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-14

Abstract

本发明属于计算机视觉领域，具体涉及一种基于多尺度特征整合和注意力机制的旋转目标检测方法、系统、装置，旨在解决旋转目标检测方法检测精度较低、鲁棒性差的问题。本系统方法包括：获取待检测的图像；采用特征金字塔网络提取图像的多尺度特征，并进行处理、缩放、整合，得到整合多尺度的特征图I；分别对I进行处理，得到前景特征图、背景特征图，并与I进行矩阵逐点相乘运算，得到前景显著性特征图、背景显著性特征图；通过预设第一方法得到注意力特征图，并通过区域建议网络获取待检测目标的候选区域；根据候选区域的位置，并结合注意力特征图，通过旋转目标检测网络得到检测结果。本发明提高了检测的精度及鲁棒性。

Description

基于多尺度特征整合和注意力机制的旋转目标检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多尺度特征整合和注意力机制的旋转目标检测方法、系统、装置。

背景技术

目标检测是一项重要的计算机视觉任务，广泛应用于遥感、工业检测、机器人等领域。其中，在俯视角度等条件下的目标检测存在目标角度多样、分布密集复杂、尺度差异大、具有类内差异与类间相似性，背景复杂等问题。常规的目标检测为水平框，对于自然图像，目标多为垂直水平分布，然而对于从俯视角度获取的图像，目标会以任意角度的形式呈现，水平框往往不能满足此类目标的精确检测，尤其是对于长、宽比尺度相差较大且目标密集分布的情况，水平框检测框之间相互重叠且冗余的检测区域过多，且采用非极大值抑制(NMS)的过程，极容易出现目标漏检的情况。

目前基于深度学习的双阶段目标检测算法在检测精度上有很好的优势与性能表现，其中以Faster RCNN为代表的网络模型在自然图像上取得了令人满意的效果。然而该方法难以直接应用于俯视角度获取图像等条件下的旋转目标检测。在已有研究中，旋转框目标检测应用于场景文字检测任务较多，以R2CNN为代表的算法，在场景文字检测上取得优异的表现。然而，对于背景复杂的高分遥感、工业检测等图像，由于存在目标角度多样、分布密集复杂、尺度差异大、具有类内差异与类间相似性，背景复杂等难点，场景文字检测的旋转框目标检测算法无法有效地应用与解决此问题，这也使得俯视角度获取图像条件下的多类旋转目标检测更具有挑战性。

综上分析，研究能有效处理目标角度多样、分布密集复杂、尺度差异大等难点的旋转目标检测方法，显得尤为重要。因此，本发明提出了一种基于多尺度特征整合和注意力机制的旋转目标检测方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的旋转目标检测方法对于俯视角度下目标角度多样、尺度差异大、背景复杂等情况下得检测精度较低、鲁棒性差的问题，本发明第一方面，提出了一种基于多尺度特征整合和注意力机制的旋转目标检测方法，该方法包括：

步骤S100，获取待检测的图像，作为输入图像；

步骤S200，采用特征金字塔网络提取所述输入图像的多尺度特征，并分别通过预设的特征卷积处理方法进行处理，得到处理特征图；采用双线性插值法对各处理特征图进行缩放并整合，得到整合多尺度的特征图I；

步骤S300，基于第一网络的双通道卷积层，分别通过所述预设的特征卷积处理方法对I进行处理，得到前景特征图、背景特征图，并与I进行矩阵逐点相乘运算，得到前景显著性特征图A1、背景显著性特征图A2；所述第一网络为基于注意力机制的卷积神经网络；

步骤S400，基于A1、A2，通过预设第一方法得到注意力特征图；基于所述注意力特征图，通过区域建议网络获取待检测目标的候选区域；

步骤S500，根据候选区域的位置，并结合所述注意力特征图，通过旋转目标检测网络得到所述待检测目标的检测结果；所述旋转目标检测网络基于卷积神经网络构建。

在一些优选的实施方式中，步骤S200中“分别通过预设的特征卷积处理方法进行处理，得到处理特征图”，其方法为：

对多尺度特征进行多个设定尺寸的卷积，卷积后相加，并通过线性整流激活函数进行处理，得到处理特征图。

在一些优选的实施方式中，各处理特征图其缩放的尺寸为

其中，n为特征金字塔网络的层级数。

在一些优选的实施方式中，所述整合多尺度的特征图I其获取方法为：

其中，F_k为经过缩放后的处理特征图，n为处理特征图的数量，k为自然数，表示下标。

在一些优选的实施方式中，步骤S400中“通过预设第一方法得到注意力特征图”，其方法为：

A＝max(A1-A2，0)

其中，A表示注意力特征图。

在一些优选的实施方式中，所述第一网络的双通道卷积层其在训练过程中的更新方法为：

基于获取的前景特征图、背景特征图，结合预设的掩膜Mask，通过L_Att损失函数获取损失值；

基于所述损失值，对双通道卷积层的权重参数进行更新。

在一些优选的实施方式中，所述旋转目标检测网络其结构包括池化层、全连接层、分类层、回归层；其中，所述全连接层其层数为2；所述池化层的池化方式为PS ROI Align；通过该网络获取检测结果的方法为：

基于候选区域的位置，通过PS ROI Align的池化方式将所述注意力特征图对应区域进行池化，得到固定尺寸的区域特征图；

通过全连接层提取各区域特征图的特征，并通过所述分类层对待检测目标进行分类；

基于分类结果，通过所述回归层对待检测目标的区域进行坐标回归，得到坐标回归值；

通过坐标合并方法、非极大值抑制方法对各坐标回归值进行处理，得到待检测目标的检测结果。

本发明的第二方面，提出了一种基于多尺度特征整合和注意力机制的旋转目标检测系统，该系统包括图像获取模块、整合多尺度特征图获取模块、显著性特征图获取模块、候选区域获取模块、检测结果输出模块；

所述图像获取模块，配置为获取待检测的图像，作为输入图像；

所所述整合多尺度特征图获取模块，配置为采用特征金字塔网络提取所述输入图像的多尺度特征，并分别通过预设的特征卷积处理方法进行处理，得到处理特征图；采用双线性插值法对各处理特征图进行缩放并整合，得到整合多尺度的特征图I；

所述显著性特征图获取模块，配置为基于第一网络的双通道卷积层，分别通过所述预设的特征卷积处理方法对I进行处理，得到前景特征图、背景特征图，并与I进行矩阵逐点相乘运算，得到前景显著性特征图A1、背景显著性特征图A2；所述第一网络为基于注意力机制的卷积神经网络；

所述候选区域获取模块，配置为基于A1、A2，通过预设第一方法得到注意力特征图；基于所述注意力特征图，通过区域建议网络获取待检测目标的候选区域；

所述检测结果输出模块，配置为根据候选区域的位置，并结合所述注意力特征图，通过旋转目标检测网络得到所述待检测目标的检测结果；所述旋转目标检测网络基于卷积神经网络构建。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的基于多尺度特征整合和注意力机制的旋转目标检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于多尺度特征整合和注意力机制的旋转目标检测方法。

本发明的有益效果：

本发明提高了俯视图像的检测精度及鲁棒性。本发明通过特征金字塔网络提取俯视图像的多尺度特征，并进行多尺寸的卷积处理，处理后通过双向插值法进行缩放并整合，得到整合多尺度的特征图I，克服了俯视图像尺度差异大的问题。通过基于注意力机制的卷积网络的双通道卷积层分别对I进行处理，获取前景、背景特征图，并与I进行矩阵逐点相乘运算，获取突出前景目标且抑制背景的注意力特征图，克服了俯视图像背景复杂的问题。

基于注意力特征图，通过区域建议网络获取待检测目标的候选区域，并根据候选区域的位置，通过预训练的旋转目标检测网络得到待检测目标的检测结果。克服目标角度多样、分布密集复杂、类内差异与类间相似性的问题，提高了检测精度。

同时，本发明能有效地进行多类别任意方向的旋转目标检测，具有较好的鲁棒性，能用于高分遥感图像目标检测、工业零件检测定位、工业表面瑕疵检测等涉及旋转目标的多种场景中。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于多尺度特征整合和注意力机制的旋转目标检测方法的流程示意图；

图2是本发明一种实施例的基于多尺度特征整合和注意力机制的旋转目标检测系统的框架示意图；

图3是本发明一种实施例的用于多尺度特征提取的特征金字塔(FPN)网络的结构示意图；

图4是本发明一种实施例的非对称卷积模块(AC Block)的结构示意图；

图5是本发明一种实施例的获取注意力特征图的流程示意图；

图6是本发明一种实施例的基于注意力机制的特征提取网络的结构示意图；

图7是本发明一种实施例的基于旋转目标检测网络获取检测结果的流程示意图；

图8是本发明一种实施例的基于多尺度特征整合和注意力机制的旋转目标检测方法获取的检测结果的效果示意图；

图9是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于多尺度特征整合和注意力机制的旋转目标检测方法，如图1所示，包括以下步骤：

步骤S100，获取待检测的图像，作为输入图像；

为了更清晰地对本发明基于多尺度特征整合和注意力机制的旋转目标检测方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

步骤S100，获取待检测的图像，作为输入图像。

在本实施例中，获取的待检测图像为俯视图像，可以为高分遥感图像、工业零件俯视图像、工业表面图像等。

步骤S200，采用特征金字塔网络提取所述输入图像的多尺度特征，并分别通过预设的特征卷积处理方法进行处理，得到处理特征图；采用双线性插值法对各处理特征图进行缩放并整合，得到整合多尺度的特征图I。

在本实施例中，使用特征金字塔(FPN)网络对输入的图像进行多尺度特征的提取，金字塔的层级数优选设置为5，在其他实施例中可以根据实际情况进行设置。特征金字塔(FPN)网络结构如图3所示。特征金字塔主要包含三个部分，左边自底向上的路径和自顶向下的路径和中间的连接部分。其中自底向上的路径是卷积网络的前馈计算，由不同比例的特征映射组成的特征层级，其缩放步长为2。具有相同阶段会产生相同大小的输出映射特征图，特征金字塔为每个阶段定义一个金字塔等级，因为每个阶段的最深层具有最强的特征，故选择每个阶段的最后一层的特征图作为每个等级的输出。具体对应Conv2，Conv3，Conv4和Conv5阶段的输出为{C2，C3，C4，C5}，并且它们分别相对于输入图像具有{4，8，16，32}的步长。另一条是自顶向下的路径通过对在空间上抽象但语义更强的高层特征图进行上采样得到高分辨率的特征。通过侧向从底向上的路径使得高层特征得到增强，每个横向连接自底向上的路径和自顶向下路径的特征图具有相同尺寸。按对应特征图元素相加，将上采样映射与相应的自底而上映射合并，得到最终的特征映射集定义为{P2，P3，P4，P5}，称为P特征图，不同层级对应不同的尺度。

使用非对称卷积模块(AC Block)对P特征图进行处理，本实施例中有4个P特征图，即{P2，P3，P4，P5}，对每一个P特征图并行地进行多个设定尺寸进行卷积。在本发明中，优选选取3个不同尺寸的卷积分支进行卷积，如图4所示。3个卷积分支的卷积核分别为3×3、1×3和3×1，非对称卷积模块的通道数均为256。根据卷积的可加性将卷积输出的特征图进行对应相加，然后经过线性整流激活函数ReLu得到处理的特征图{F2,F3,F4,F5}。将多尺度特征处理为处理特征图，此处理方法简称为特征卷积处理方法。

采用双线性插值法分别改变特征图{F2,F3,…,Fn}的尺寸大小到设定的特征图尺寸，特征图尺寸优选为

n表示特征金字塔网络的层级数，在本实施例中n为5，特征图尺寸为

即将特征图{F2,F3,F4,F5}的尺寸用双线性插值法缩放到F3的尺寸。

将缩放后的特征图进行整合，得到整合多尺度的特征图，如图5所示，图5中的4xUp、2x Up、1x、2x Down分别代表为对特征图进行4倍上采样、2倍上采样、特征图保持不变以及2倍下采样操作，从而实现多尺度特征图{F2,F3,F4,F5}的尺寸统一,多尺度特征图整合的过程如公式(1)所示：

其中，I表示整合多尺度的特征图，F_k表示处理特征图，k为自然数，表示下标。

步骤S300，基于第一网络的双通道卷积层，分别通过所述预设的特征卷积处理方法对I进行处理，得到前景特征图、背景特征图，并与I进行矩阵逐点相乘运算，得到前景显著性特征图A1、背景显著性特征图A2；所述第一网络为基于注意力机制的卷积神经网络。

在本实施例中，基于整合多尺度的特征图，通过基于注意力机制的特征提取网络(卷积神经网络)获取注意力特征图，如图6所示。

具体处理步骤如下：

步骤S310，使用由非对称卷积层构成的非对称卷积网络AC ConvNet对输入特征图I(W×H×256)进行卷积操作，得到两通道的特征图Q(W×H×2)；即使用双通道的非对称卷积层，对I并行进行三个尺寸不同的卷积分支，三个卷积分支的卷积核大小为：3×3、1×3和3×1；根据卷积的可加性将输出的特征图进行对应相加，然后经过线性整流激活函数ReLu得到处理后的特征图Q。另外，在本注意力网络结构中加入了目标的真实标记的注意掩膜Mask图，作为Q特征图的监督信息，从而在训练学习过程中使Q特征图的两个通道分别对应前景特征图和背景特征图，通过L_Att损失函数获取损失值，对双通道卷积层的权重进行更新，如图6所示。该步骤中的卷积处理过程与步骤S200中的特征卷积处理方法类似，不过此处的非对称卷积层的通道数为2。

步骤S320，采用上下分支，在每个分支分别使用softmax激活函数对特征图Q的前景特征图和背景特征图进行处理，得到两通道的显著性图(saliency map)，两个通道的显著性图分别代表是前景分值(W×H×1)和背景分值(W×H×1)，其值均在[0，1]之间，前景显著性图和背景显著性图分别计为S1和S2。S1和S2的计算如公式(2)(3)所示：

S₁＝[softmax(Q)]₀ (2)

S₂＝[softmax(Q)]₁ (3)

步骤S330，将前景显著性图S1、背景显著性图S2，分别和I进行矩阵逐点相乘运算(Hadamard product)，得到前景显著性特征图A1和背景显著性特征图A2。A1和A2的计算如公式(4)所示：

A₁＝S₁*I，A₂＝S₂*I (4)

步骤S400，基于A1、A2，通过预设第一方法得到注意力特征图；基于所述注意力特征图，通过区域建议网络获取待检测目标的候选区域。

在本实施例中，基于A1、A2，通过预设第一方法得到注意力特征图A(W×H×256)，图6中的乘以-1作为是让A1-A2，即通过含有前景特征信息A1减去背景噪声特征信息A2，并与临界值0进行比较，得到一个完善的注意力特征图A。第一方法如公式(5)所示：

A＝max(A1-A2，0) (5)

计算得到突出前景目标且抑制背景的注意力特征图A。本实施的注意力特征图计算过程和示例如图6所示。

基于得到的注意力特征图，通过候选区域生成网络获得若干候选矩形区域(即图7中的RPN候选区域F)。本实施例中，候选区域生成网络使用快速的区域卷积神经网络(Faster RCNN)中的区域建议网络(Region Proposal Network，RPN)。

在本实施例中，通过旋转目标检测网络获取待检测目标的检测结果，旋转检测网络由池化层、全连接层、分类层、回归层构成，全连接层其层数为2。如图7所示，具体处理过程如下：

步骤S510，基于RPN候选区域的位置，通过PS ROI Align的池化方式将注意力特征图对应区域进行池化，得到固定尺寸的区域特征图；

对位置敏感的候选区域池化PS ROI Align将区域池化ROI Align与对位置敏感的区域池化PS ROI Pooling进行结合，取消了常规特征池化的两次量化操作，分别为：(1)ROI的边界坐标值保持精确的浮点数值；(2)每个ROI中所有的矩形单元的边界值保持精确的浮点数值。

在本实施例中，PS ROI Align的具体实现过程为：首先在池化前的特征图上寻找对应通道上的对应区域，接着将每一个候选区域平均划分为n×n个单元，然后在每一个单元内，按照设置的采样点数目计算出采样点的坐标值，并使用双线性内插的方法计算出特征图上的每一个采样点处所对应的像素值，实现在每个矩形单元中计算出精确地固定位置固定数量的采样点。最后得C+1特征图，经全局平均池化得C+1维向量，并进行后续的坐标回归与分类。

步骤S520，通过全连接层提取各区域特征图的特征，并通过所述分类层对待检测目标进行分类；

基于区域特征图，使用两个全连接层(Fc2、Fc1)提取特征，并使用分类层(Cls)进行目标分类，其中分类层的输出为m个分类分值(cls score)。其中，两个全连接层FC1和FC2的尺寸均为1024。

步骤S530，基于分类结果，通过回归层(Reg)对待检测目标的区域进行坐标回归，得到坐标回归值；

使用回归层进行旋转区域坐标回归，回归层的输出为(v_x，v_y，v_w，v_h，v_θ)，即待预测目标区域的坐标回归值。

步骤S540，通过坐标合并方法、非极大值抑制方法对各坐标回归值进行处理，得到待检测目标的检测结果。检测结果包括目标位置的旋转矩形、表示目标标识的类别、分类置信度。

为了更好的理解本发明，图8给出了基于多尺度特征整合和注意力机制的旋转目标检测方法获取检测结果的实例，其中，图8(a)为输入的图像，图8(b)为整合后的特征图，图8(c)为提取的注意力特征图，图8(d)为生成的候选矩形区域，图8(e)为旋转目标检测结果，图8(f)所示为图像旋转目标物体真实标注。

另外，本发明方法在训练过程中，使用标注了旋转目标的训练图像集对旋转目标检测网络进行训练，训练完成后保存旋转目标检测网络的权重参数，在线对新图像进行检测，得到旋转目标检测结果，输出为多个多类别旋转目标，每个目标包括表示目标位置的旋转矩形和表示目标标识的类别及分类置信度。

在训练过程中，本发明方法的损失函数L包含了区域建议网络、旋转矩形框回归、分类和注意力学习等多个任务的损失，具体如公式(6)所示：

L＝L_RPN+λ₁L_{Reg_OBB}+λ₂L_Cls+λ₃L_Att (6)

其中，L_RPN为区域建议网络的损失值，L_{Reg_OBB}为回归层的损失值，L_Cls为分类层的损失值，L_Att为注意力学习损失值，λ₁，λ₂，λ₃是预设的权重系数。在本实施例中，权重系数分别优选设置为λ₁＝4，λ₂＝2，λ₃＝1。

L_RPN和L_Cls，与快速的区域卷积神经网络目标检测器Faster RCNN的相同，回归层的损失值的计算方法如公式(7)所示：

其中，当标记的类别为前景物体时，

否则

表示真实标注的目标向量，v＝(v_x，v_y，v_w，v_h，v_θ)表示预测的偏移向量，i，j为自然数，表示下标，L_reg是平滑的L₁函数(smooth L₁)，用于回归旋转矩形框的5个参数，定义如公式(8)-(15)所示：

v_x＝(x-x_a)/w_a，v_y＝(y-y_a)/h_a (10)

v_w＝log(w/w_a)，v_h＝log(h/h_a) (11)

v_θ＝θ-θ_a (12)

其中，x，y，w，h和θ分别表示矩形框中心x坐标、y坐标、宽度、高度和旋转角，变量x，x_a，x^*、y，y_a，y^*、w，w_a，w^*、h，h_a，h^*、θ，θ_a，θ^*分别表示预测的矩形框、锚点框和真实框的中心x坐标、y坐标、宽度、高度和旋转角。

注意力学习损失值L_Att是特征图Q与目标真实标注的掩膜Mask进行像素级的softmax交叉熵损失，其获取方法如公式(16)所示：

其中，

表示标记的掩膜Mask的像素，uij为特征图Q的像素。

本发明第二实施例的一种基于多尺度特征整合和注意力机制的旋转目标检测系统，如图2所示，包括：图像获取模块100、整合多尺度特征图获取模块200、显著性特征图获取模块300、候选区域获取模块400、检测结果输出模块500；

所述图像获取模块100，配置为获取待检测的图像，作为输入图像；

所述整合多尺度特征图获取模块200，配置为采用特征金字塔网络提取所述输入图像的多尺度特征，并分别通过预设的特征卷积处理方法进行处理，得到处理特征图；采用双线性插值法对各处理特征图进行缩放并整合，得到整合多尺度的特征图I；

所述显著性特征图获取模块300，配置为基于第一网络的双通道卷积层，分别通过所述预设的特征卷积处理方法对I进行处理，得到前景特征图、背景特征图，并与I进行矩阵逐点相乘运算，得到前景显著性特征图A1、背景显著性特征图A2；所述第一网络为基于注意力机制的卷积神经网络；

所述候选区域获取模块400，配置为基于A1、A2，通过预设第一方法得到注意力特征图；基于所述注意力特征图，通过区域建议网络获取待检测目标的候选区域；

所述检测结果输出模块500，配置为根据候选区域的位置，并结合所述注意力特征图，通过旋转目标检测网络得到所述待检测目标的检测结果；所述旋转目标检测网络基于卷积神经网络构建。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于多尺度特征整合和注意力机制的旋转目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于多尺度特征整合和注意力机制的旋转目标检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于多尺度特征整合和注意力机制的旋转目标检测方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

下面参考图9，其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图9示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)901，其可以根据存储在只读存储器(ROM，Read Only Memory)902中的程序或者从存储部分908加载到随机访问存储器(RAM，Random Access Memory)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O，Input/Output)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，该方法包括：

步骤S100，获取待检测的图像，作为输入图像；

2.根据权利要求1所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，步骤S200中“分别通过预设的特征卷积处理方法进行处理，得到处理特征图”，其方法为：

3.根据权利要求2所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，各处理特征图其缩放的尺寸为

其中，n为特征金字塔网络的层级数。

4.根据权利要求3所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，所述整合多尺度的特征图I其获取方法为：

其中，F_k为经过缩放后的处理特征图，k为自然数，表示下标。

5.根据权利要求1所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，所述第一网络的双通道卷积层其在训练过程中的更新方法为：

基于所述损失值，对双通道卷积层的权重参数进行更新。

6.根据权利要求1所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，步骤S400中“通过预设第一方法得到注意力特征图”，其方法为：

A＝max(A1-A2，0)

其中，A表示注意力特征图。

7.根据权利要求1所述的基于多尺度特征整合和注意力机制的旋转目标检测方法，其特征在于，所述旋转目标检测网络其结构包括池化层、全连接层、分类层、回归层；其中，所述全连接层其层数为2；所述池化层的池化方式为PS ROI Align；通过该网络获取检测结果的方法为：

8.一种基于多尺度特征整合和注意力机制的旋转目标检测系统，其特征在于，该系统包括：图像获取模块、整合多尺度特征图获取模块、显著性特征图获取模块、候选区域获取模块、检测结果输出模块；

所述整合多尺度特征图获取模块，配置为采用特征金字塔网络提取所述输入图像的多尺度特征，并分别通过预设的特征卷积处理方法进行处理，得到处理特征图；采用双线性插值法对各处理特征图进行缩放并整合，得到整合多尺度的特征图I；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序应用由处理器加载并执行以实现权利要求1-7任一项所述的基于多尺度特征整合和注意力机制的旋转目标检测方法。

10.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于多尺度特征整合和注意力机制的旋转目标检测方法。