CN112926480B

CN112926480B - 一种面向多尺度、多朝向的航拍物体检测方法及系统

Info

Publication number: CN112926480B
Application number: CN202110253427.2A
Authority: CN
Inventors: 刘春生; 陈路昌; 常发亮; 李爽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2023-01-31
Anticipated expiration: 2041-03-05
Also published as: CN112926480A

Abstract

本发明提供了一种面向多尺度、多朝向的航拍物体检测方法及系统，首先模拟人眼的注意力机制，采用级联的注意力网络减少复杂背景对感兴趣目标的影响，使用自适应特征拼接网络在检测网络提取感兴趣区域时自适应地融合来自特征金字塔不同层的输出特征，使得不同尺度的物体可以充分利用不同尺度的信息，使用有向框的多定义与选择策略改进一般有向目标检测框的回归过程；本发明能够提高航拍物体检测的准确性和精度。

Description

一种面向多尺度、多朝向的航拍物体检测方法及系统

技术领域

本发明属于航拍物体检测技术领域，具体涉及一种面向多尺度、多朝向的航拍物体检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着飞行器技术与航拍技术的快速发展，高分辨率航拍图像的获取变得越来越容易。作为航拍图像分析过程中极为重要的一环，对车辆、建筑物等多种物体的识别检测在诸如城市规划、智能监控等领域发挥着重要的作用。与传统的目标检测不同，航拍图像中的目标检测具有一些特殊的问题，主要表现在以下几个方面：

1、由于飞行器都是在鸟瞰视角下俯视拍摄物体，所以物体的朝向可以是任意的。

2、由于飞行器的拍摄角非常广，所以捕获到的图像信息不仅包含感兴趣的物体，还包含许多可能会对检测造成干扰的背景信息。

3、由于飞行器在拍摄时所处的高度有时高有时低，造成航拍图像中的物体尺度分布不一。此外，即便是相同的物体，其本身也存在一定的尺度变化。

由于这些特点的存在，给高分辨率航拍图像中物体的识别检测带来了巨大的挑战。深度学习，尤其是卷积神经网络的快速发展，极大地提高了目标检测的性能，许多基于卷积神经网络的目标检测器在诸多领域表现出了优越的性能。

然而，这些检测器在检测到物体时会使用一个垂直于水平线的矩形框将其表示出来，称之为水平目标检测框。如果航拍图像中具有不同朝向的物体也使用这样一个水平目标检测框来表示的话，会导致包裹物体的框内包含许多的冗余区域，影响检测器的性能。有许多方法为水平检测框添加额外的角度参数来表示物体，使得检测的结果更加精准。但由于角度参数本身存在周期性，会使得角度在回归时产生误差；对于多尺度目标的检测，许多方法使用特征金字塔网络(FPN,Feature Pyrami d Network)为不同大小的目标匹配不同精度的特征图以提高多尺度目标检测的精度，但是其匹配策略会导致目标匹配到并不合适的特征图上。

发明内容

本发明为了解决上述问题，提出了一种面向多尺度、多朝向的航拍物体检测方法及系统，本发明改善有向检测框的角度回归过程与特征金字塔的特征匹配策略，并设置一种空间注意力结构抑制航拍图像中的复杂背景噪声，有效地提高了对于航拍图像中物体检测的准确性。

根据一些实施例，本发明采用如下技术方案：

一种面向多尺度、多朝向的航拍物体检测方法，包括以下步骤：

构建检测网络，所述检测网络包括级联注意力网络、特征融合网络和目标检测框，其中，特征融合网络使用自适应特征拼接网络在检测网络提取感兴趣区域时自适应地融合来自特征金字塔不同层的输出特征；

获取航拍图像，初始配置检测网络的参数，通过特征提取层以及特征金字塔；

利用级联注意力网络抑制输出特征中的背景噪声，并输出物体候选区域；

根据候选区域，在不同的特征金字塔输出层上提取特征，根据不同的权重将这些特征进行拼接；

使用有向目标检测框多定义与选择策略优化目标检测框的回归过程，并输出所属的类别；

根据网络的前向输出结果与真实值之间的差值，进行迭代训练，更新网络参数，使用更新后的检测网络对输入的航拍图像进行处理，得到物体检测结果。

作为可选择的实施方式，所述级联注意力网络包括分块自注意力模型，分块自注意力模型用于将原始输入特征图分成四块，每一块特征图中的每一个像素都会学习和其他像素之间的关系，从而捕获图像的局部几何特征，四块特征图通过一个跳连接结构与精炼前的特征图相加并，然后拼接到一起。

作为可选择的实施方式，所述级联注意力网络还包括有监督的空间注意力模型，用于以物体的掩膜作为监督信息学习一个权重图，权重图中包含物体的部位权值接近于1，不包含物体的背景部分权值接近于0，将权重图和精炼后的特征图相乘以突出前景，抑制背景。

作为进一步限定的实施方式，所述权重图与掩膜之间的损失作为损失函数的一部分，参与反向传播，且最终获得的特征图通过跳连接与原始输入的不同层级的特征图相加，完成特征的背景噪声抑制过程。

作为可选择的实施方式，使用RoI-Al ign操作在不同的特征金字塔输出层上提取特征的具体过程包括：从特征金字塔层输出的四个层级的特征图以及一个全局特征图上提取特征，之后经过RoI-Al i gn操作，获得五个大小一致的特征，再将它们拼接到一起，进行卷积，得到最终特征图，该特征图包含五个特征的相应权重信息，权重信息分别与输入特征相乘，得到包含各个尺度特征的特征图，由不同占比的四个尺度特征以及一个包含全局语义信息的语义特征构成拼接特征。

作为可选择的实施方式，使用有向目标检测框多定义与选择策略优化目标检测框的回归过程的具体过程包括：将水平检测框添加一个角度信息形成一个有向框来表示，对于每个真实的有向框OBB₁，交换它的宽和高，然后顺时针旋转一定角度获得OBB₂，逆时针旋转一定角度获得OBB₃，分别计算这三个有向框与预测框之间的损失值，选择损失值最小的一个作为最后的真实框。

作为可选择的实施方式，进行迭代训练时，损失函数包括分类损失、位置损失以及级联注意力网络中的掩膜分割损失。

一种面向多尺度、多朝向的航拍物体检测系统，包括：

模型构建模块，被配置为构建检测网络，所述检测网络包括级联注意力网络、特征融合网络和目标检测框，其中，特征融合网络使用自适应特征拼接网络在检测网络提取感兴趣区域时自适应地融合来自特征金字塔不同层的输出特征；

特征获取模块，被配置为获取航拍图像，初始配置检测网络的参数，通过特征提取层以及特征金字塔；

特征精炼模块，被配置为利用级联注意力网络抑制输出特征中的背景噪声，并输出物体候选区域；

拼接模块，被配置为根据候选区域，在不同的特征金字塔输出层上提取特征，根据不同的权重将这些特征进行拼接；

回归优化模块，被配置为使用有向目标检测框多定义与选择策略优化目标检测框的回归过程，并输出所属的类别；

更新处理模块，被配置为根据网络的前向输出结果与真实值之间的差值，进行迭代训练，更新网络参数，使用更新后的检测网络对输入的航拍图像进行处理，得到物体检测结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种面向多尺度、多朝向的航拍物体检测方法的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种面向多尺度、多朝向的航拍物体检测方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明设计一种级联注意力网络，从粗到细地抑制背景信息对检测的干扰；本发明设计了一种自适应拼接网络，使得不同大小的物体可以充分利用不同尺度的特征信息，实现多尺度目标检测；提出了针对不同方向物体检测的有向检测框多定义与选择策略，提高有向框回归的准确性。

本发明对于航拍图像中物体检测的精度有了明显提升，且能够抑制航拍图像中的复杂背景噪声，有效地提高了对于航拍图像中物体检测的准确性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为AMFFA-Net结构图。

图2(a)-(d)为角度回归的不连续性示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明旨在通过克服航拍图像中物体被复杂背景包围、物体尺度变化大以及物体呈多方向分布的问题，提高航拍图像物体的检测精度。该方法首先模拟人眼的注意力机制，采用一个级联的注意力网络(CA-Net,Cascad i ng Attent ion Network)减少复杂背景对感兴趣目标的影响。之后使用自适应特征拼接网络(AFC-Net，Adapt i ve FeatureConcatenate Network)在检测网络提取感兴趣区域(RoI)时自适应地融合来自特征金字塔(FPN,Feature Pyramid Network)不同层的输出特征，使得不同尺度的物体可以充分利用不同尺度的信息。最终使用有向框的多定义与选择策略(OBB-MDS-Strategy，OBB Mu lt i-Defi nit i on and Se l ect ion Strategy)改进一般有向目标检测框(OBB,Or ientedBound i ng Box)的回归过程使得对多朝向物体的检测过程更加平滑、准确。通过以上三个方面的改进后，网络对于航拍图像中物体检测的精度有了明显提升。

具体的，构建了一个双阶段的端到端目标检测框架AMFFA-Net。嵌入级联注意力结构抑制背景信息，加入自适应拼接网络改善不同尺度物体的特征匹配过程，最后在有向框的回归阶段引入有向框的多定义与选择策略，改善有向框的回归过程。AMFFA-Net结构见图1。

1级联注意力结构：

为了使网络可以更聚焦于感兴趣区域，我们设计了级联注意力网络(CA-Net，Cascad i ng Attent i on Network)，由粗到细地抑制图像中的背景干扰。级联注意力结构的第一部分为分块自注意力模型(PSA-M，Patch i ng Se l f-Attent i on Modu l e)，我们将原始输入特征图分成四块，每一块特征图中的每一个像素都会学习和其他像素之间的关系，从而捕获图像的局部几何特征。最终精炼后的四块特征图通过一个跳连接结构与精炼前的特征图相加并，然后拼接到一起。精炼后的每一块特征图

的获取过程可表示为：

其中

为精炼前的特征，C是大小为32*16*16的特征图，A是大小为16*16*32的特征图，B是大小为32*16*16的特征图，“·”为矩阵相乘操作。

级联注意力的第二部分为有监督的空间注意力模型(SPA-M，Superv i sed Pos it i on Attent i on Modu l e)。经过PSA-M模块的特征图仍然存在一些背景噪声，SPA-M以物体的掩膜作为监督信息学习一个权重图，权重图中包含物体的部位权值接近于1，不包含物体的背景部分权值接近于0，这个权重图和由PSA-M模块获得的精炼图F^m相乘以突出前景抑制背景。权重图与掩膜之间的损失作为损失函数的一部分，参与我们的网络训练的反向传播。该抑制噪声过程可表示为：

F^r＝F^m+Sigmoid(φ(F^m)) (2)

其中F^r表示最终获得的特征图，φ表示卷积操作。

经过CA-Net输出的F^r通过跳连接与原始输入的不同层级的特征图相加，完成特征的背景噪声抑制过程。

2自适应特征拼接网络

为了使不同大小的物体能自适应地充分利用来自特征金字塔层中不同层级特征以及一个全局特征，我们设计了自适应特征拼接网络(AFC-Net，Adapt ive featureconcatenate network)。每个RPN网络输出的RoI(Region of I nterest)都从特征金字塔层输出的四个层级的特征图以及一个全局特征图上提取五个特征L₁，L₂，L₃，L₄，G，而不是只在某一个层级上提取特征。之后经过RoI-Al ign操作，获得五个大小为7*7*256的特征，使用1*1的卷积得到五个大小为7*7*16的卷积，再将它们拼接到一起，获得一个7*7*80的特征图。这个特征图再经过一个3*3的卷积获得一个7*7*5的特征图，该特征图包含L₁，L₂，L₃，L₄，G的权重信息S₁，S₂，S₃，S₄，S₅，即当前的RoI应该根据这个权重从特征金字塔层输出的四个层级的特征图以及一个全局特征图上提取信息。权重信息分别与输入特征相乘，得到包含各个尺度特征的特征图F_N。

该网络由输入得到拼接特征F_N的计算方式可以表示为：

F_N＝concat(S₁*L₁，S₂*L₂，S₃*L₃，S₄*L₄，S₅*G) (3)

F_N由不同占比的四个尺度特征以及一个包含全局语义信息的语义特征构成，可以处理多尺度信息。

3有向目标检测框多定义与选择策略

对于倾斜物体如何表示的问题，最好的解决办法就是给传统的水平检测框添加一个角度信息形成一个有向框来表示。根据Opencv对一个有向框的定义，有向框最靠近坐标轴x轴正方向的那条边及其对边称为宽(w)，其临边及临边的对边称为高(h)，w与x轴正方向之间的角度称为θ。根据这种定义方式直接训练网络，由于角度的周期性会造成回归不连续的问题。

图2(b)为图2(a)中船舰的特征图，可以看到它和图2(c)中的特征图十分相似，故可能会输出如图2(d)所示的倾斜框。假设角度是连续的，那么这个框可以被网络接受，只要稍微向右旋转即可获得正确的检测框。但是根据Opencv的定义，图2(a)中的真实框的宽、高以及角度分别为(30，10，-85°)，而图2(d)中的预测框的宽、高以及角度分别为(10，30，-5°)，也就是说明该预测框必须转换自己的长与高，并且旋转80°后才能视作一个正确的框，显然这个回归过程十分困难。

本实施例提出有向目标检测框多定义与选择策略，为每个真实有向框提供多种定义方式，并选择与预测框最接近的表示形式，以使得回归过程变得平滑。每个真实倾斜框，使用如下公式进行多个定义：

对于每个真实框OBB₁，我们交换它的宽和高，然后顺时针旋转90°获得OBB₂，逆时针旋转90°获得OBB₃。分别计算这三个有向框与预测框之间的损失值，选择损失值最小的那一个，也就是与预测框的表达形式接近的那一个有向框作为最后的真实框。经过这种多定义与选择策略，有向框的回归过程变得更加平滑，预测结果变得更加准确。

4迭代过程中的损失函数

在迭代训练过程中，我们的损失函数由分类损失、位置损失以及级联注意力网络中的掩膜分割损失构成：

L(p，c，c^*，v)＝λ₁L_cls(p，c)+λ₂L_reg(v^*，v)+λ₃L_seg(A^*，A) (5)

L_cls(p，c)＝-log(p) (6)

L_reg(v^*，v)＝∑_{i∈{x，y，w，h，θ}}Smooth_L1(v^*-v) (7)

其中c为候选框种类，p为输出置信度，v为倾斜框坐标，A为掩膜，“*”代表真实值，λ₁、λ₂和λ₃为超参数且他们的值设置为1，(i，j)为像素坐标。

网络训练流程如下：

1：初始化网络参数，输入图片，输出图片中物体的种类以及对应的检测框。

2：借助pytorch的自动求导，更新网络参数。

3：得到最优化模型的参数并保存。

作为具体实施例，基于pytorch框架实现，在ubuntu16.04系统下运行，硬件环境为NVIDlA 2080Ti显卡。整体方法包括如下步骤：

步骤1：随机初始化网络参数，输入图片，通过特征提取层以及特征金字塔(FPN)输出特征。

步骤2：通过级联注意力网络抑制背景噪声：

步骤1输出的特征通过级联注意力网络抑制其中的背景噪声，之后输出物体候选区域。

步骤3：通过自适应特征拼接网络联合不同尺度的信息：

根据步骤2输出的候选区域，使用Rol-Align操作在不同的特征金字塔输出层上提取特征，根据不同的权重将这些特征进行拼接。

步骤4：使用有向目标检测框多定义与选择策略优化有向框的回归过程：倾斜框回归，并输出所属的类别。

步骤5：根据网络的前向输出结果与真实值之间的差值，进行迭代训练，更新网络参数。

损失函数为：L(p，c，c*，v)＝λ₁L_cls(p，c)+λ₂L_reg(v*，v)+λ₃L_seg(A*，A)。

其中：

L_cls(p，c)＝-log(p)

L_reg(v^*，v)＝∑_{i∈{x，y，w，h，θ}}Smooth_L1(v^*-v)

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种面向多尺度、多朝向的航拍物体检测方法，其特征是：包括以下步骤：

所述级联注意力网络包括分块自注意力模型，分块自注意力模型用于将原始输入特征图分成四块，每一块特征图中的每一个像素都会学习和其他像素之间的关系，从而捕获图像的局部几何特征，四块特征图通过一个跳连接结构与精炼前的特征图相加并，然后拼接到一起；

所述级联注意力网络还包括有监督的空间注意力模型，用于以物体的掩膜作为监督信息学习一个权重图，权重图中包含物体的部分权值接近于1，不包含物体的背景部分权值接近于0，将权重图和精炼后的特征图相乘以突出前景，抑制背景；

其中，在不同的特征金字塔输出层上提取特征的具体过程包括：从特征金字塔层输出的四个层级的特征图以及一个全局特征图上提取特征，之后经过RoI-Align操作，获得五个大小一致的特征，再将它们拼接到一起，进行卷积，得到最终特征图，该特征图包含五个特征的相应权重信息，权重信息分别与输入特征相乘，得到包含各个尺度特征的特征图，由不同占比的四个尺度特征以及一个包含全局语义信息的语义特征构成拼接特征；

其中，使用有向目标检测框多定义与选择策略优化目标检测框的回归过程的具体过程包括：将水平检测框添加一个角度信息形成一个有向框来表示，对于每个真实的有向框OBB₁，交换它的宽和高，然后顺时针旋转90°获得OBB₂，逆时针旋转90°获得OBB₃，分别计算这三个有向框与预测框之间的损失值，选择损失值最小的一个作为最后的真实框；

2.如权利要求1所述的一种面向多尺度、多朝向的航拍物体检测方法，其特征是：所述权重图与掩膜之间的损失作为损失函数的一部分，参与反向传播，且最终获得的特征图通过跳连接与原始输入的不同层级的特征图相加，完成特征的背景噪声抑制过程。

3.如权利要求1所述的一种面向多尺度、多朝向的航拍物体检测方法，其特征是：进行迭代训练时，损失函数包括分类损失、位置损失以及级联注意力网络中的掩膜分割损失。

4.一种面向多尺度、多朝向的航拍物体检测系统，其特征是：包括：

5.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-3中任一项所述的一种面向多尺度、多朝向的航拍物体检测方法的步骤。

6.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-3中任一项所述的一种面向多尺度、多朝向的航拍物体检测方法的步骤。