CN115620141A

CN115620141A - 一种基于加权可变形卷积目标检测方法和装置

Info

Publication number: CN115620141A
Application number: CN202211319155.2A
Authority: CN
Inventors: 许雄; 赵贝贝; 童小华; 谢欢; 王超; 冯永玖; 陈鹏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-17

Abstract

本发明涉及一种基于加权可变形卷积目标检测方法和装置，在经典的方法Faster R‑CNN的基础上，进行了以下优化：在特征提取网络ResNet‑101中引入了加权可变形卷积和全局上下文模块；在特征融合网络中，使用了轻量级的特征融合网络替换特征金字塔网络来学习多尺度特征表示；在损失函数中引入位置损失函数，位置损失函数包括宽高比损失函数和交并比损失函数；在后处理过程中，采用基于中心距离的非极大抑制算法。与现有技术相比，本发明可有效提取和增强目标的边界特征，在保证检测精度的同时加快训练速度，预测框的位置和宽高比均更接近于真实框，同时解决了重叠目标漏检的问题。

Description

一种基于加权可变形卷积目标检测方法和装置

技术领域

本发明涉及图像处理领域，尤其是涉及一种基于加权可变形卷积目标检测方法和装置。

背景技术

在目标检测领域中最大的挑战是需要应对图像目标的各种几何变换。相同类别的目标由于拍摄角度、环境、以及物体本身的特性，会在图像中呈现不同大小、形态，甚至是非刚性形变，模型如何适用这些复杂的几何形变是目标检测需要解决的一大难点。

卷积神经网络在目标检测领域内获得了较大的进展，采用的卷积核大多为1×1、3×3等固定形状的卷积核，对复杂几何结构的目标适应性较差，容易丢失关键特征。而现有的模型对于目标几何形变的适应能力基本上来源于数据集中多样性，模型本身并不具有处理几何形变的能力，因此对于数据集外的其他几何形变的目标，模型的检测性能较差，泛化能力不足。尤其是针对形状多样，边界模糊，尺度差异大等目标，经典的基于深度学习的目标检测网络提取目标特征的能力有限，易与周围地物混淆，检测框回归位置不准确，并且受环境和目标自身特性的影响，存在部分目标漏检的问题，造成检测精度较低。

中国专利公布号CN114519819A公开了一种基于全局上下文感知的遥感图像目标检测方法，使用深度残差网络(ResNet 101)提取图像的特征，利用特征金字塔网络(FPN，Feature Pyramid Network)进一步提取特征并生成候选区域。生成候选区域后，使用特征池化对齐特征；在特征提取网络的最高层加入全局上下文提取模块，提取特征与原始特征通过相加的方式融合，得到新的特征。最后利用全连接层对新特征进行分类，生成目标类别及边框。该方法中采用了深度残差网络提取图像的特征，该模型检测速度快，但采用固定形状的卷积核实现特征提取，在目标结构复杂的情景下容易丢失关键特征。此外，方法中使用特征金字塔网络学习多尺度特征表示，该网络训练精度好，但结构较为复杂，训练时间较长。

综上，当前的遥感图像目标检测方法存在以下缺点：

(1)特征提取过程中大多采用固定形状的卷积核，对复杂几何结构的目标适应性较差，容易丢失关键特征，对于数据集外的其他几何形变的目标，模型的检测性能较差，泛化能力不足，尤其是针对形状多样，边界模糊，尺度差异大等目标；

(2)损失函数缺少关于预测框的交并比和宽高比的设计；

(3)特征融合过程中，特征金字塔网络结构复杂，训练时间较长。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种引入加权可变形卷积网络从而实现根据图像特征自适应调整采样位置，提高对复杂几何结构目标的检测能力的检测方法。

本发明的目的可以通过以下技术方案来实现：

本发明的一个方面，提供了一种基于加权可变形卷积目标检测方法，包括如下步骤：获取待检测图像，将所述待检测图像转换为预设格式，获得统一格式的待检测图像；将所述统一格式的待检测图像输入预训练好的目标检测模型，获得目标检测结果，其中，所述目标检测模型包括：特征提取网络，包括全局上下文子网络和加权可变形卷积子网络，所述全局上下文子网络用于根据所述统一格式的待检测图像，获取远程依赖特征，所述加权可变形卷积子网络基于所述待检测图像的标准采样点位置来计算二维偏移量，获得偏移后的采样点位置，根据所述偏移后的采样点位置和偏移权重进行采样，获取复杂目标特征；特征融合网络，用于根据所述的远程依赖特征和复杂目标特征，获得融合的多尺度特征金字塔，根据所述融合的多尺度特征金字塔，输出目标检测结果。

作为优选的技术方案，所述的二维偏移量和偏移权重的获得方法为：将所述统一格式的待检测图像输入单独的预训练好的神经网络，获得所述二维偏移量和偏移权重。

作为优选的技术方案，所述的预训练好的神经网络采用梯度下降法进行训练。

作为优选的技术方案，所述的全局上下文子网络包括：上下文建模单元，用于根据所述统一格式的待检测图像，获取注意力权值；特征转换单元，用于根据所述统一格式的待检测图像和所述注意力权值，获取各通道的通道权重；融合单元，用于根据所述统一格式的待检测图像和所述通道权重，获取所述远程依赖特征。

作为优选的技术方案，所述的通道权重的获取方法具体为：通过一个或多个瓶颈结构获取所述统一格式的待检测图像中各通道间的依赖关系，根据所述各通道间的依赖关系获得通道权重。

作为优选的技术方案，所述的融合的多尺度特征金字塔的获得方法包括如下步骤：对包括所述的远程依赖特征和复杂目标特征在内的源特征图进行转换，获取转换后的特征图；对转换后的源特征图上采样；将转换后的特征图逐像素相加并取均值，获取融合特征图；采用包括上采样和下采样在内的方式，根据融合特征图获取融合的多尺度特征金字塔。

作为优选的技术方案，所述的预训练好的目标检测模型的获取步骤包括：获取训练样本集，其中，所述训练样本集中的每个样本均包括RGB样本图片和对应目标的标注文件；基于所述训练样本集对所述目标检测模型进行训练，损失函数值达到预设收敛条件后，获得所述预训练好的目标检测模型，其中，所述损失函数值为每个样本的RGB样本图片的预测图像与所述RGB样本图片对应目标的标注文件之间的损失函数值，所述损失函数包括位置损失函数项，所述位置损失函数用于表示预测框和实际框的差异程度，差异程度越小，所述损失函数值越小。

作为优选的技术方案，所述的位置损失函数包括长宽比损失子函数和交并比损失子函数，其中，所述交并比损失子函数用于衡量预测框和真实框的重叠度，重叠度越高交并比损失子函数值越小；所述长宽比损失子函数用于衡量预测框和真实框在长度和宽度上的一致性，一致性越高长宽比损失子函数值越小。

作为优选的技术方案，在获得目标检测结果后，经过非极大抑制处理后，输出最终检测结果。

本发明的另一个方面，提供了一种电子装置，包括：一个或多个处理器和存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行上所述基于加权可变形卷积目标检测方法和装置的指令。

与现有技术相比，本发明具有以下优点：

(1)引入了加权可变形卷积和全局上下文网络，在标准卷积的基础上，通过梯度下降法学习一个二维偏移量和权值，表示x、y方向以及偏移后采样点位置的权重，将学习的偏移量与输入特征图的采样点相加，用偏移后的采样点代替规则采样点，由此得到加权可变形卷积，能够根据图像特征自适应调整采样位置，加权可变形卷积提高了对复杂几何结构目标的特征提取能力以及泛化性，全局上下文模块提取了图像的远程依赖特征，使得特征图聚焦到感兴趣目标，并增强了感兴趣目标的特征表示；

(2)在Faster RCNN网络的分类损失函数和回归损失函数的基础上，引入预测框的交并比和宽高比作为位置损失函数，交并比衡量了预测框和真实框的重叠度，以提取到更为准确的目标边界，长宽比用于判断预测框和真实框在宽度和高度上是否具有一致性，引入位置损失函数后，预测框的位置和宽高比均更接近于真实框，从而提高形状不同的、边界模糊的固废目标回归的准确度；

(3)在特征融合网络中，使用了轻量级的特征融合网络替换特征金字塔网络来学习多尺度特征表示，在保证检测精度的同时加快训练速度；

(4)在原始非极大抑制算法的基础上引入两个检测框的中心距离作为抑制指标，基于中心距离的非极大抑制算法经计算后认为这是两个目标，不会抑制掉其中的一个预测框，因此有效的解决了漏检问题。

附图说明

图1为本发明实施例的一种基于全局上下文感知的遥感图像目标检测方法的流程图；

图2为本发明实施例的加权可变卷积子网络的示意图；

图3为本发明实施例的全局上下文子网络的示意图；

图4为本发明实施例的轻量级融合网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例1

本实施例提供了一种基于加权可变形卷积目标检测方法和装置，在经典的目标检测方法Faster R-CNN的基础上，分别对特征提取网络、特征融合网络、损失函数和后处理过程进行了优化。

如图1所述为本实施例的流程图。以固废垃圾遥感检测为例，步骤S1中将待检测的图像输入训练好的目标检测模型，目标检测模型包括特征提取网络和特征融合网络。步骤S2中利用特征提取网络提取待检测图像的特征，特征提取网络包括加权可变形卷积子网络和全局上下文子网络。其中，加权可变形卷积子网络用于提取待检测图像的复杂目标特征，全局上下文子网络用于提取待检测图像的远程依赖特征。步骤S3中，利用特征融合网络将步骤S2中获得的特征融合，在步骤S4中生成检测的结果，经过步骤S5后处理得到最后的检测结果。

如图2所述为加权可变形卷积子网络的示意图。加权可变形卷积是在标准卷积的规则格网RG的每一个位置上加入了一个可学习的二维偏移量Δp和权重系数w_RF(p_n)，将标准卷积经过偏移后，再乘以一个权重系数，以表示经过偏移的采样位置是否为感兴趣区域，可降低无关背景信息的影响，增加模型对感兴趣区域的聚焦能力，提高模型的检测能力。其中，Δp_n为所述二维偏移量，w_RF(p_n)为所述偏移权重，p₀为输入特征图的采样点，p_n是标准卷积的规则网格RG的一个位置。Δp和w_RF(p_n)是通过对输入特征图使用单独的卷积层获得的，并且和输入特征图的尺寸一致，最终获得一个通道数为3N的偏移量图，前2N层表示N个二维的偏移量，第3N层输入至sigmoid层即可得到权重系数。加权可变形卷积和标准卷积的输入特征图和输出特征图尺寸、通道数一致，便于应用在主流的目标检测网络中。

如图3所述为全局上下文子网络的示意图。全局上下文模块由上下文建模单元、特征转换单元和融合单元三部分组成。上下文建模单元是通过一个尺寸为1×1的卷积层对C×H×W特征进行变换，将其转换成尺寸为HW×1的特征，然后通过softmax函数来计算特征图的注意力权值以获取查询位置在特征图上的重要性。特征转换单元是通过一个瓶颈结构来捕获通道间的依赖关系，即分别计算特征图中每个通道的重要程度，并根据重要性为每个通道分配不同的权重。同时，使用层归一化操作LN使得网络优化更加容易，提高网络的泛化能力。特征融合单元是采用像素级相加的操作，将全局上下文特征聚合到输入特征图的每个位置上，最终输出具有全局上下文信息的特征图。将全局上下文子网络与加权可变形卷积子网络相结合，嵌入到特征提取网络中，以提取和增强固废的边界特征。具体过程如下：通过一个尺寸为1×1的卷积层将加权可变形卷积的输出特征图的通道数转换为256层，然后插入全局上下文模块，由此可将全局上下文子网络与加权可变形卷积子网络相结合，嵌入到特征提取网络中，以提取和增强目标的边界特征。

如图4所述为特征融合网络的示意图。选择ResNet-101网络的conv3_4、conv4_23、conv5_3作为融合操作的源特征。使用尺寸为1×1的卷积层对源特征图进行转换；然后采用双线性内插的操作将特征图上采样，使其特征图的尺寸与conv3_4的尺寸相同，所有的特征在空间维度上都具有相同的大小；最后将转换后的特征图进行逐像素相加，并取均值，即可获取融合特征图。融合完成后，需要采用上采样或下采样的方式重新构建特征金字塔网络，以获取多尺度特征，具体操作过程如下：使用尺寸为3×3的卷积核应用在融合特征图上来增强特征，再将增强的特征图依次经过2倍上采样操作和两个步长为2的最大池化操作，由此可得到特征图P2、P4和P5，最终得到融合的多尺度特征图{P2,P3,P4,P5}。

训练好的目标检测模型的训练过程包括，利用固废数据制作训练样本集，基于训练样本集对所述目标检测模型进行训练，损失函数值达到预设收敛条件后，获得预训练好的目标检测模型。

在训练样本集的制作过程中，使用LableImg对影像进行矩形框标注，获取包围目标的矩形框，保存为xml文件，xml文件和影像作为检测网络训练时的输入。

在损失函数中引入预测框的交并比和宽高比作为优化方向，引入交并比损失函数和宽高比损失函数。使得训练朝着预测框与真实框交并比和宽高比更具一致性的方向进行优化。交并比损失函数为预测框与真实框交集和并集的比值。宽高比损失函数为预测框和真实框宽和高归一化后的差值。交并比衡量了预测框和真实框的重叠度，其定义如下式所示。其中P为预测框，T为真实框，L_IOU为交并比损失函数。

IOU＝|P∩T|/|P∪T|

L_IOU＝1-IOU

长宽比用于判断预测框和真实框在宽度和高度上是否具有一致性，其定义如下式所示。其中，w^t和h^t分别为待检测目标的真实框的宽和高，w^p和h^p分别为预测框的宽和高，L_AR为宽高比损失函数。

交并比损失函数和宽高比损失函数构成了位置损失函数，其损失函数如下式所示。

L_loc＝L_IOU+k·L_AR

最终，目标检测网络的损失函数由分类损失、回归损失和位置损失三部分组成，其定义如下式所示。

本实施例针对形状不规则，外观不明显，边界模糊，尺寸差异大的目标特性，造成目标检测精度较低的问题，提出了基于加权可变形卷积和全局上下文的检测网络，通过对多个模块的优化和组合，提高了特征的鲁棒性，缓解了小目标和重叠目标的漏检问题，从而提高了目标检测的性能。

实施例2

与实施例1相比，本实施例在考虑两个预测框交并比的基础上，还在后处理过程中使用中心距离的非极大抑制的方法进行处理，中心点距离计算公式如下式所示。式中，c(B,b_i)表示预测框和真实框中心点之间的距离，d表示两个检测框的最小外界框的对角线距离。

基于中心距离的NMS(非极大抑制)公式如下式所示。(解释变量)

非极大抑制算法的具体操作过程为：假设所有的目标检测框集合为S；根据预测框的分数进行排序，将得分最高的目标框B从列表S中取出，放入集合F中；依次计算S中的目标框b_i与B的交并比，若大于阈值θ，则删除该目标框，反之，放入集合F中；将S中的预测框重复①～④，直至S为空集，则集合F为最终的检测结果。除了考虑两个预测框之间的交并比，还引入了两个预测框的中心距离作为抑制因素。中心距离为两个检测框中心点之间的欧式距离与两个检测框的最小包围框的对角线距离的比值。当两个预测框的重叠度较高，但中心点距离较大时，基于中心距离的NMS经计算后认为这是两个目标，不会抑制掉其中的一个预测框，因此有效的解决了漏检问题。

实施例3

本实施例提供了一种电子装置，包括：一个或多个处理器和存储器，存储器内储存有一个或多个程序，一个或多个程序包括用于执行实施例1、实施例2中任一基于加权可变形卷积目标检测方法和装置的指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于加权可变形卷积目标检测方法，其特征在于，包括如下步骤：

获取待检测图像，将所述待检测图像转换为预设格式，获得统一格式的待检测图像；

将所述统一格式的待检测图像输入预训练好的目标检测模型，获得目标检测结果，

其中，所述目标检测模型包括：

特征提取网络，包括全局上下文子网络和加权可变形卷积子网络，所述全局上下文子网络用于根据所述统一格式的待检测图像，获取远程依赖特征，所述加权可变形卷积子网络基于所述待检测图像的标准采样点位置来计算二维偏移量，获得偏移后的采样点位置，根据所述偏移后的采样点位置和偏移权重进行采样，获取复杂目标特征；

特征融合网络，用于根据所述的远程依赖特征和复杂目标特征，获得融合的多尺度特征金字塔，根据所述融合的多尺度特征金字塔，输出目标检测结果。

2.根据权利要求1所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的二维偏移量和偏移权重的获得方法为：将所述统一格式的待检测图像输入单独的预训练好的神经网络，获得所述二维偏移量和偏移权重。

3.根据权利要求2所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的预训练好的神经网络采用梯度下降法进行训练。

4.根据权利要求1所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的全局上下文子网络包括：

上下文建模单元，用于根据所述统一格式的待检测图像，获取注意力权值；

特征转换单元，用于根据所述统一格式的待检测图像和所述注意力权值，获取各通道的通道权重；

融合单元，用于根据所述统一格式的待检测图像和所述通道权重，获取所述远程依赖特征。

5.根据权利要求4所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的通道权重的获取方法具体为：通过一个或多个瓶颈结构获取所述统一格式的待检测图像中各通道间的依赖关系，根据所述各通道间的依赖关系获得通道权重。

6.根据权利要求1所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的融合的多尺度特征金字塔的获得方法包括如下步骤：

对包括所述的远程依赖特征和复杂目标特征在内的源特征图进行转换，获取转换后的特征图；

对转换后的源特征图上采样；

将转换后的特征图逐像素相加并取均值，获取融合特征图；

采用包括上采样和下采样在内的方式，根据融合特征图获取融合的多尺度特征金字塔。

7.根据权利要求1所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的预训练好的目标检测模型的获取步骤包括：

获取训练样本集，其中，所述训练样本集中的每个样本均包括RGB样本图片和对应目标的标注文件；

基于所述训练样本集对所述目标检测模型进行训练，损失函数值达到预设收敛条件后，获得所述预训练好的目标检测模型，

其中，所述损失函数值为每个样本的RGB样本图片的预测图像与所述RGB样本图片对应目标的标注文件之间的损失函数值，所述损失函数包括位置损失函数项，所述位置损失函数用于表示预测框和实际框的差异程度，差异程度越小，所述损失函数值越小。

8.根据权利要求7所述的一种基于加权可变形卷积目标检测方法，其特征在于，所述的位置损失函数包括长宽比损失子函数和交并比损失子函数，其中，所述交并比损失子函数用于衡量预测框和真实框的重叠度，重叠度越高交并比损失子函数值越小；所述长宽比损失子函数用于衡量预测框和真实框在长度和宽度上的一致性，一致性越高长宽比损失子函数值越小。

9.根据权利要求1所述的一种基于加权可变形卷积目标检测方法，其特征在于，在获得目标检测结果后，经过非极大抑制处理后，输出最终检测结果。

10.一种电子装置，其特征在于，包括：一个或多个处理器和存储器，所述存储器内储存有一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述基于加权可变形卷积目标检测方法和装置的指令。