CN114841244A

CN114841244A - 一种基于鲁棒采样和混合注意力金字塔的目标检测方法

Info

Publication number: CN114841244A
Application number: CN202210352519.0A
Authority: CN
Inventors: 张秀伟; 郭炜; 张艳宁; 倪涵; 尹翰林; 孙怡
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-05
Filing date: 2022-04-05
Publication date: 2022-08-02
Anticipated expiration: 2042-04-05
Also published as: CN114841244B

Abstract

本发明公开了一种基于鲁棒采样和混合注意力金字塔的目标检测方法，包括步骤：基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略，构建鲁棒性更强的正负训练样本集合；利用正负训练样本集合对全卷积目标检测网络模型进行训练，将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合，设计出多种结构的混合注意力特征金字塔模块；设计出由教师‑学生模型指导的基于分类分支和回归分支感知引导的修正损失函数。通过构建采用修正中心度质量评估损失函数的全卷积目标检测网络模型，在自然场景数据集和城市场景数据集上提高了检测精度，可以应用于复杂的目标检测场景中。

Description

一种基于鲁棒采样和混合注意力金字塔的目标检测方法

技术领域

本发明属于模式识别技术领域，具体涉及一种视频图像标注文字的合规性检验方法。

背景技术

目前，在计算机视觉领域中，目标检测是最重要的任务之一，用于支持实例级识别任务以及下游应用，例如智能视频监控、自动驾驶、智慧城市等方面。单阶段检测方法相比两阶段检测方法具有更简单的设计和更有竞争力的性能优势，逐渐成为了目标检测领域的主流方法。文献“FCOS:Fully Convolutional One-Stage Object Detection”以每像素预测的方式进行检测，相比RetinaNet、SSD、YOLO v3这类依赖于预先设定的锚框，避免了与锚框相关的复杂计算，如训练过程中计算IoU分数，更为重要的是，避免了与锚框相关的超参数，这些超参数通常对最终检测性能敏感。文献“Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection”对于FCOS和RetinaNet两类有无锚框的经典网络进行了详细的对比实验，得出了训练样本选择策略是影响两类网络模型性能的重要因素，进一步提出了基于目标的统计特征来自适应进行训练样本选择的策略。未引入额外开销的前提下，在公开数据集上达到了更好的检测效果。

该方法依旧存在着与目标有关的超参数，并不是完全无参数的选择策略，从实验结果上来讲，只能说是相对鲁棒的策略。对于不同的数据集，需要进行多次实验来能选择出最佳的参数。此外，样本选择策略中选用正态分布来进行区间的划分，对于候选框的分布并不是完全的拟合。无论是FCOS抑或是ATSS，两者的瓶颈部分均采用特征金字塔的模块，该模块用于进行多尺度目标检测，将注意力模块的思想融入该模块有助于增强多尺度检测的性能。FCOS的网络头部结构中的中心度分支用于评估目标框的质量，其对于负样本没有有效的监督信号，在网络训练过程中损失函数存在无法下降的现象。

发明内容

为了克服现有技术的不足，本发明提供了一种基于鲁棒采样和混合注意力金字塔的目标检测方法，包括步骤：基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略，构建鲁棒性更强的正负训练样本集合；利用正负训练样本集合对全卷积目标检测网络模型进行训练，将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合，设计出多种结构的混合注意力特征金字塔模块；设计出由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数。通过构建采用修正中心度质量评估损失函数的全卷积目标检测网络模型，在自然场景数据集和城市场景数据集上提高了检测精度，可以应用于复杂的目标检测场景中。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：基于输入图像构建正训练样本和负训练样本集合；

步骤1-1：图像中每个目标的真实框建立一个候选正样本集合，对于特征金字塔的每一层，将与该层特征金字塔对应的候选锚框中心在真实框内部且与真实框中心的L2距离排名前十的候选锚框挑选出来；

其中，

分别表示第p个维度的两个向量对应的数值，I₁、I₂分别表示两个同等维度的向量，p表示第p个维度，d₂(.)表示L2距离；

步骤1-2：采用式(2)计算步骤1-1挑选出的候选锚框与真实框的A_g值：

其中，b表示候选锚框中心与真实框中心点之间的欧几里得距离；g表示能够同时覆盖候选锚框与真实框的最小框的对角线距离，AR表示宽高比；x₁、x₂分别表示锚框的左下角横坐标和右上角横坐标，y₁、y₂分别表示锚框的左下角纵坐标和右上角纵坐标，A、B分别表示候选锚框与真实框，AR_A、AR_B分别表示候选锚框与真实框的宽高比；

步骤1-3：根据步骤1-2计算得到的结果建立正态分布，进行建模拟合，计算均值和标准差，进而划定正样本阈值；

步骤1-4：将步骤1-2计算得到的A_g值结果中高于正样本阈值的数值所对应的候选锚框挑选出来作为正样本集合，其余部分作为负样本集合；

步骤2：构建基于混合注意力特征金字塔的全卷积目标检测网络模型，并利用正样本集合和负样本集合作为训练集对全卷积目标检测网络模型进行训练；

步骤2-1：所述基于混合注意力特征金字塔的全卷积目标检测网络模型包括主干网络模块、混合注意力模块和头部解码模块；

步骤2-2：所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101；

步骤2-3：所述混合注意力模块由通道注意力模块和空间注意力模块串联，通道注意力层在前，空间注意力层在后，具体如下：

构造通道注意力层：输入图像经过特征提取层后，特征图的大小设定为(w,h,c),w、h、c分别表示特征图的宽度、高度和深度；每个分支的特征图分为四个分支，第一分支经过最大池化层后得到形状为(1,1,c)的特征图，再经过两个1×1卷积先降维后升维，得到用于表示特征图之间的相关性向量(1,1,c)；第二分支经过最大池化层后变为形状为(1,1,c)的特征图，进行压缩转置为形状为(c,1)大小的向量，再经过3×3的一维卷积层后得到形状为(c,1)大小的向量，再经过转置扩张恢复成形状为(1,1,c)的特征图；第三分支经过平均池化层后得到形状为(1,1,c)的特征图，进行压缩转置为形状为(c,1)大小的向量，再经过3×3的一维卷积层后得到形状为(c,1)大小的向量，再经过转置扩张恢复为形状为(1,1,c)的特征图；第四分支经过平均池化层后得到形状为(1,1,c)的特征图，再经过两个1×1卷积先降维后升维，得到用于表示特征图之间的相关性向量(1,1,c)；四个分支叠加起来经过Sigmoid函数归一化到0～1之间后，将得到的权重向量与输入的特征图相乘，得到通道注意力特征图；

构造空间注意力层：通道注意力特征图大小设定为(w,h,c)，分为两个分支，两个分支都经过1×1卷积降低特征数量得到形状为(w,h,c/2)的特征图，第一分支经过均值化计算模块得到形状为(w,h,1)的特征图，第二分支经过最大化计算模块得到形状为(w,h,1)的特征图；两个特征图基于通道叠加为形状为(w,h,2)的特征图，经过1×1卷积降维到形状为(w,h,1)的特征图，经过Sigmoid函数归一化到0～1之间后，将得到的权重向量与输入的特征图相乘便得到混合注意力特征图；

混合注意力特征图再经过1×1卷积和3×3的一维卷积层形成5层特征金字塔输出特征图；

步骤2-4：所述头部解码模块作为编解码结构的解码模块，由分类分支、回归分支、中心度质量评估分支三部分组成；

在头部解码模块中，特征金字塔输出特征图分为两个主分支，第一个主分支经过四个二维卷积得到分类分支的分类特征图和分类分数，分类特征图的尺寸为(H×W×C)；第二个主分支经过四个二维卷积后分为回归子分支和中心度子分支，回归分支输出得到回归特征图和目标边界框坐标，回归特征图的尺寸为(H×W×4)，中心度子分支经过二维卷积后得到中心度特征图和中心度分数，中心度特征图的尺寸为(H×W×4)；

步骤3：构建由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数；

步骤3-1：全卷积目标检测网络模型的损失函数由三部分组成：其中分类损失函数使用Focal Loss，回归损失函数使用GIoU Loss，中心度质量评估损失函数使用基于中心度的BCE Loss：

L_cls＝L_fl＝-(1-p_t)^γlog(p_t)

其中，L_cls表示分类损失函数，L_fl表示Focal Loss；L_reg表示回归损失函数，L_GIoU表示GIoU Loss；L_centerness表示中心度质量评估损失函数，L_BCE表示BCE Loss；p_t表示预测概率，γ表示标签类别，GIoU表示广义交并比，IoU表示交并比，A^c表示最小包含两个框的框，U表示两个框的并集，N表示样本数量，Y_i表示真实值，y_i表示预测值；

步骤3-2：基于教学-学生模型思想的指导，构建出基于分类损失和回归损失的下降趋势感知引导的修正中心度质量评估损失函数作为整体损失函数，其具体如下所示：

其中，

表示第t个时期的分类损失值，

表示第t个时期的回归损失值，

表示第t-1个时期的中心度损失值，β表示系数因子，t表示训练周期；

步骤4：将分类分数和中心度分数相乘作为非极大值抑制分数进行排序选择，将非极大值抑制分数最大值作为最终输出结果，回归分支输出的结果用于预测目标边界框。

优选地，所述混合注意力模块由通道注意力模块和空间注意力模块串联，空间注意力层在前，通道注意力层在后。

优选地，所述混合注意力模块由通道注意力模块和空间注意力模块并联。

本发明的有益效果如下：

本发明提出了一种基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法；经过训练后的网络模型开销小；在复杂自然场景和城市场景中，提高了目标检测精度，能够应对各种常见的目标检测。

利用本发明的方法，可以选择更好的正负样本用于网络训练，可以更好地关注不同尺度的物体，并且基于注意力机制捕捉上下文信息，获得重要且有意义的特征，进而得到场景的空间布局信息，得到更好的定位精度。

附图说明

图1是本发明的网络结构图。

图2是本发明四分支通道注意力模块结构图。

图3是本发明两分支空间注意力模块结构图。

图4是本发明混合注意力模块串联结构图，(a)通道注意力模块在前，(b)空间注意力模块在前。

图5是本发明混合注意力模块并联结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

一种基于鲁棒采样和混合注意力金字塔的目标检测方法，首先研究并设计了多种将通道注意力模块和空间注意力模块混合的模块用于增强多尺度表达能力，探究该混合注意力模块相比通道注意力模块和空间注意力模块的优势与竞争力，其次考虑了该模块如何融入到特征金字塔模块以及对该模块所处的位置进行了对比。同时分析了现有的训练样本选择策略的优点和缺点，提出了该选择策略存在超参数，并非完全无参数化，此外该选择策略根据正态分布来划定阈值与选择区间，对目标进行统计学分析后发现该分布并不是完全合适，因此提出了更为合适和合理的正负样本划分方法。最后针对基于中心度的质量评估分支在训练过程中损失值无法下降，会影响网络优化的问题，根据教师-学生模型的指导下，用于改进该分支，优化指导网络训练过程。包括如下步骤：

步骤1：基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略，构建鲁棒性更强的正负训练样本集合，在原始的自适应训练样本采样策略基于IoU来进行候选样本框的选择过程中融入宽高比以及中心距离等因素进行修正，从而改进原始方法只能描述候选框与真实框只能表示重叠率，而不能表示中心点距离以及锚框相似性的问题；

AR表示宽高比，作为修正因子，对两个框之间的归一化距离进行建模，融入了更多信息，使得挑选出来的框更具鲁棒性和代表性，

步骤2：利用步骤1构建的鲁棒性更强的正负训练样本集合对全卷积目标检测网络模型进行训练，将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合，设计出多种结构的混合注意力特征金字塔模块，混合注意力模块接在特征提取层后面，从而增强目标检测网络模型的多尺度表达能力；构建基于混合注意力特征金字塔的全卷积目标检测网络模型，并利用正样本集合和负样本集合作为训练集对全卷积目标检测网络模型进行训练；

步骤2-2：所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101；

步骤2-3：所述混合注意力模块由通道注意力模块和空间注意力模块串联组成，具体如下：

步骤3：全卷积目标检测网络模型头部的中心度质量评估损失函数存在训练不下降的问题，由此构建由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数；

L_cls＝L_fl＝-(1-p_t)^γlog(p_t)

步骤3-2：中心度质量评估损失函数存在训练不下降的异常现象，基于教学-学生模型思想的指导，构建出基于分类损失和回归损失的下降趋势感知引导的修正中心度质量评估损失函数作为整体损失函数，其具体如下所示：

步骤3-3：步骤S22公式基于第t个时期的分类分支和回归分支的损失平均值作为t-1个时期中心度分支的修正因子，将学习率优化函数的思想作为损失函数的优化方式，第t个时期的中心度分支的损失函数由以上两部分组成；

具体实施例：

为了解决上述技术问题，本发明解决其技术问题所采用的技术方案：基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法。

其特点是包含以下步骤：

S1：基于输入图像生成的候选样本框集合设计鲁棒性训练样本采样策略，构建鲁棒性更强的正负训练样本集合，在原始的自适应训练样本采样策略基于IoU来进行候选样本框的选择过程中融入宽高比以及中心距离等因素进行修正，从而改进原始方法只能描述候选框与真实框只能表示重叠率，而不能表示中心点距离以及锚框相似性的问题；

S2：利用步骤S1构建的鲁棒性更强的正负训练样本集合对全卷积目标检测网络模型进行训练，将空间注意力机制和通道注意力机制与全卷积目标检测网络模型中的金字塔特征提取模块进行融合，设计出多种结构的混合注意力特征金字塔模块，混合注意力模块接在特征提取层后面，从而增强目标检测网络模型的多尺度表达能力；

S3：全卷积目标检测网络模型头部的中心度质量评估损失函数存在训练不下降的问题，对此设计出由教师-学生模型指导的基于分类分支和回归分支感知引导的修正损失函数；

利用上述技术方法，通过构建了新的基于鲁棒性样本采样策略、注意力特征金字塔以及修正中心度质量评估损失函数的全卷积目标检测方法。在公开数据集MS COCO和Cityscapes上进行了训练和测试。MS COCO数据集是微软开发的大型自然场景数据集，总共有80种类别，训练集包含118281幅图像，验证集包含5000幅图像，测试集包含40670幅图像。Cityscapes数据集是城市场景数据集，总共有50个欧洲城市，包含了5000张精细标注图像以及20000张非精细标注图像。

通过与3种深度学习方法进行了对比，表1为本发明方法与其它基于深度学习方法的精度比较。

表1本发明方法在MS COCO数据集上与另外三种深度学习方法的对比

从表1可以看出，本发明方法全面优于其它3种方法，在主干网络为ResNet-50上检测精度达41.4，在主干网络为ResNet-50上检测精度达48.1，对各种尺寸的检测精度均有所提升。

本发明公开一种目标检测方法，为了解决正负训练样本采样策略鲁棒性和建模分布拟合的问题，融入了宽高比及中心距离信息，用于选择出更为合适的正负样本以及实现无参数化的采样策略。为了增强特征金字塔的多尺度表达能力，设计了多种注意力模块，并于特征金字塔相结合，对比研究了其结构设计和位置设计。为了解决中心度质量评估分支训练损失不下降的问题，融入了教师-学生模型以及知识蒸馏的思想，使得端到端的思想进一步实现。整体上增强了样本表征能力、多尺度表达能力，进而提高了定位准确率和检测精度。本发明检测准确率在基于参考文献的方法在MS COCO数据集和Cityscapes数据集上均提高了2.0AP～3.6AP。

Claims

1.一种基于鲁棒采样和混合注意力金字塔的目标检测方法，其特征在于，包括如下步骤：

步骤1：基于输入图像构建正训练样本和负训练样本集合；

其中，

步骤2-2：所述主干网络模块使用ResNet-50或ResNeXt-64x4d-101；

构造通道注意力层：输入图像经过特征提取层后，特征图的大小设定为(w，h，c)，w、h、c分别表示特征图的宽度、高度和深度；每个分支的特征图分为四个分支，第一分支经过最大池化层后得到形状为(1，1，c)的特征图，再经过两个1×1卷积先降维后升维，得到用于表示特征图之间的相关性向量(1，1，c)；第二分支经过最大池化层后变为形状为(1，1，c)的特征图，进行压缩转置为形状为(c，1)大小的向量，再经过3×3的一维卷积层后得到形状为(c，1)大小的向量，再经过转置扩张恢复成形状为(1，1，c)的特征图；第三分支经过平均池化层后得到形状为(1，1，c)的特征图，进行压缩转置为形状为(c，1)大小的向量，再经过3×3的一维卷积层后得到形状为(c，1)大小的向量，再经过转置扩张恢复为形状为(1，1，c)的特征图；第四分支经过平均池化层后得到形状为(1，1，c)的特征图，再经过两个1×1卷积先降维后升维，得到用于表示特征图之间的相关性向量(1，1，c)；四个分支叠加起来经过Sigmoid函数归一化到0～1之间后，将得到的权重向量与输入的特征图相乘，得到通道注意力特征图；

构造空间注意力层：通道注意力特征图大小设定为(w，h，c)，分为两个分支，两个分支都经过1×1卷积降低特征数量得到形状为(w，h，c/2)的特征图，第一分支经过均值化计算模块得到形状为(w，h，1)的特征图，第二分支经过最大化计算模块得到形状为(w，h，1)的特征图；两个特征图基于通道叠加为形状为(w，h，2)的特征图，经过1×1卷积降维到形状为(w，h，1)的特征图，经过Sigmoid函数归一化到0～1之间后，将得到的权重向量与输入的特征图相乘便得到混合注意力特征图；

L_cls＝L_fl＝-(1-p_t)^γlog(p_t)

其中，

表示第t个时期的分类损失值，

表示第t个时期的回归损失值，

2.根据权利要求1所述的一种基于鲁棒采样和混合注意力金字塔的目标检测方法，其特征在于，所述混合注意力模块由通道注意力模块和空间注意力模块串联，空间注意力层在前，通道注意力层在后。

3.根据权利要求1所述的一种基于鲁棒采样和混合注意力金字塔的目标检测方法，其特征在于，所述混合注意力模块由通道注意力模块和空间注意力模块并联组成。