CN111814704B

CN111814704B - 基于级联注意力与点监督机制的全卷积考场目标检测方法

Info

Publication number: CN111814704B
Application number: CN202010672308.6A
Authority: CN
Inventors: 马苗; 田卓钰; 郭敏; 任杰
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2021-11-26
Anticipated expiration: 2040-07-14
Also published as: CN111814704A

Abstract

一种基于级联注意力与点监督机制的全卷积考场目标检测方法，由构建全卷积考场目标检测网络模型、训练全卷积考场目标检测网络模型、检测测试集图像组成。本发明在FCOS方法的基础上，提出了级联注意力模块，插入骨干网络与特征金字塔网络之间，使特征金字塔网络获得显著的特征；在全卷积检测头部模块增加了点监督分支，使检测模型具有区分交叠目标能力，能在考生座位密集的考场监控场景下检测交叠目标，解决了密集场景下目标检测包围框回归不准确的问题。本发明精度为92.9％，检测速度为22.1帧/秒，提高了考场目标检测任务的精度与速度，可用于考场检测。

Description

基于级联注意力与点监督机制的全卷积考场目标检测方法

技术领域

本发明属于教育科学和图像处理的交叉研究技术领域，具体地涉及到标准化考场中的考生目标检测。

背景技术

考试是考核学习者知识水平和能力的主要途径。为了规范考场秩序、防范考生作弊行为，维护考试的公平和公正，我国目前主要采用现场考官巡查与电子视频监控相结合的方式进行监考。由于考场监控视频的数据量庞大、冗余信息过多，传统考场监控系统效率极低，监测人员往往会因劳动强度大而导致视觉疲劳，无法保证对多个考场监控画面进行高效监测，难以发现考生的异常行为。运用先进的计算机视觉技术服务于现行的各类考试，建设智慧考场，实现考生行为的智能化监控，对于减轻监测人员的压力、维护考场秩序和保证考试公平具有重要的现实意义。现有的考场智能化监测技术的研究较少，主要使用传统的图像处理技术监测异常情况，存在着准确率低、计算量大、速度慢等问题，无法满足考场监测的现实需求。

基于深度学习的目标检测技术可大致分为两阶段检测方法与单阶段检测方法两类。两阶段方法通常包括候选区域的生成及分类两个步骤，但其速度往往过慢，难以实际应用。单阶段方法利用卷积神经网络对整幅图像提取特征并直接预测回归目标的类别与位置，提高了目标检测的速度，但检测精度不高。另外目前大多数方法采用基于先验锚框的思想，不仅需要人工设计繁琐的锚框参数，而且当结合多尺度架构时会变得十分复杂。虽然近年来在目标检测领域出现了一些无锚框的目标检测方法，避免了手工设计锚框的步骤，但未考虑针对标准化考场下考生目标分布相对密集且因考生就坐位置与成像设备间的距离导致成像尺寸差异大的情况。

目标检测(FCOS)方法是一种基于全卷积网络的逐像素目标检测方法。该目标检测方法先对输入图片进行特征提取，以特征图中各个像素点为中心进行目标分类与包围框回归，FCOS方法由骨干网络、特征金字塔模块、全卷积检测头部三部分组成。骨干网络通常采用残差网络进行特征提取，将提取得到的一系列特征图输入至特征金字塔模块中进行多尺度特征融合，将不同尺度的特征图输入全卷积检测头部模块进行目标的分类与回归。全卷积检测头部模块包含分类分支和回归分支，其中分类分支包含分类得分图和Center-ness热力图，回归分支包含距离信息图。

考虑到真实考场监控视频中考生目标分布相对密集且因就坐位置与成像设备间的距离导致成像尺寸差异大，FCOS方法难以对其进行精确检测。另外，在FCOS方法中若标注的真实框重叠，位置(x,y)映射到原图中将得到多个真实框，则该位置被认为是模糊样本，重叠的真实框可能会在训练过程中造成难以处理的歧义。在教室监控场景下，目标分布密集，大多数目标会相互遮挡，仅使用FCOS方法中的多级预测和Center-ness方法难以确定检测框的边界，容易造成误判。

发明内容

本发明所要解决的技术问题在于克服现有技术的缺点，提供一种方法能够有效进行考场目标检测的基于级联注意力与点监督机制的全卷积考场目标检测方法。

解决上述技术问题所采用的技术方案是由下述步骤组成：

(1)构建全卷积考场目标检测网络模型

在Pytorch框架下，将基于级联注意力的特征增强模块的特征提取网络输出与采用点监督分支的检测模块连接构成基于级联注意力与点监督机制的全卷积考场目标检测网络模型。

(2)训练全卷积考场目标检测网络模型

(a)设置网络的超级参数

从标准化考场考生检测专用数据集中取700张图像作为训练集，180张图像作为测试集，训练集输入图像的像素大小为1000×600，数据批量为2，采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器，学习率初始设置为0.005～0.015并且在第35～40轮迭代处下降10倍，全卷积考场目标检测网络模型共训练45～50轮。

(b)网络参数的初始化

采用ImageNet数据集对骨干网络ResNet50进行预训练得到权重和偏置，将权重和偏置作为特征提取网络的初始权重和偏置，其他的网络均使用Xavier方法初始化。

(c)训练全卷积考场目标检测网络

将训练集中的所有图像输入全卷积考场目标检测网络进行前向传播并计算损失函数，损失函数是分类损失和回归损失的和，其中分类损失由得分图损失、Center-ness损失、点监督损失组成，回归损失为交并比损失，使用自适应矩估计算法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新全卷积考场目标检测网络的权重和偏置，直至达到设定的迭代次数，训练结束，得到训练好的全卷积考场目标检测网络。

(3)检测测试集图像

(a)设置网络参数

设置区域置信度输出阈值为0.05，单张图最大检测目标数为100，其他参数均为网络默认值；

(b)将测试集中的图像输入训练好的全卷积考场目标检测网络中，输出考场目标检测的结果图。

在步骤(1)中，本发明的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络、级联注意力模块、特征金字塔网络、全卷积检测头部模块四部分组成，骨干网络的输出与级联注意力模块的输入相连，级联注意力模块的输出与特征金字塔网络的输入相连，特征金字塔网络的输出与全卷积检测头部模块的输入相连。

本发明的级联注意力模块由3个级联注意力层组成，该级联注意力层以骨干网络的特征图作为输入，通过空间注意力机制SA得到具有空间注意力的一级特征F’；将该特征与原始输入特征图拼接并进行卷积操作，得到二级特征F”；重复该操作，将二级特征再次与原始输入特征图拼接并卷积，得到三级特征F”’；对一级特征、二级特征、三级特征进行拼接融合，将融合后的特征输入至通道注意力机制CA中，得到输出特征F_output，其表达式如下：

式中F为输入特征图，符号

为特征图拼接操作，Conv为两次1×1的卷积操作。

本发明的全卷积检测头部模块由分类分支和回归分支组成，分类分支由分类卷积模块、分类得分图、Center-ness热力图和点监督分支组成，回归分支由回归卷积模块、距离信息图组成。

本发明的点监督分支的构建方法为：在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点，将以目标中心C为圆心、(1-P)为半径生成中心点区域，并将中心点区域的标签置为1，其余区域置为0，使用二进制交叉熵损失函数对该分支进行监督。

本发明在FCOS方法的基础上，提出了级联注意力模块，插入骨干网络与特征金字塔网络之间，使特征金字塔网络自适应地获得显著的特征；在全卷积检测头部模块增加了点监督分支，使检测模型具有区分交叠目标的能力，能在考生座位密集的考场监控场景下检测交叠目标，解决了密集场景下目标检测包围框回归不准确的技术问题；用标准化考场中的考生目标图像集训练得基于级联注意力与点监督机制的全卷积考场目标检测网络。在标准化考场考生检测专用数据集上的实验结果表明，本发明平均精度达到92.9％，检测速度为22.1帧/秒，有效地提高了考场目标检测任务的精度与速度。本发明与现有技术相比，具有检测区域准确、检测速度快等优点，可用于考场检测。

附图说明

图1是本发明实施例1的流程图。

图2是图1中全卷积考场目标检测网络模型结构图。

图3是图2中全卷积检测头部模块中分类分支的结构图。

图4是图2中全卷积检测头部模块中回归分支的结构图。

图5是标准化考场考生检测专用数据集中的图像。

图6是图5经过全卷积考场目标检测网络模型后输出的考生目标检测结果图。

具体实施方式

下面结合附图和实例对本发明进行进一步的说明，但本发明不限于下述实例。

实施例1

以在标准化考场考生检测专用数据集为例，基于级联注意力与点监督机制的全卷积考场目标检测方法步骤如下(参见图1)：

(1)构建全卷积考场目标检测网络模型

在图2中，本实施例的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络1、级联注意力模块2、特征金字塔网络3、全卷积检测头部模块4四部分组成，其中骨干网络1由3个依次相连的特征提取层组成，级联注意力模块2由3个依次相连的级联注意力层组成，特征金字塔网络3由5个依次相连的特征提取层组成，全卷积检测头部模块4由5个依次相连的全卷积检测头部层组成；骨干网络1的输出与级联注意力模块2的输入相连，级联注意力模块2的输出与特征金字塔网络3的输入相连，特征金字塔网络3的输出与全卷积检测头部模块4的输入相连。

本实施例级联注意力模块2的构建方法为：以骨干网络1的特征图作为输入，通过空间注意力机制SA得到具有空间注意力的一级特征F’；将该特征与原始输入特征图拼接并进行卷积操作，得到二级特征F”；重复该操作，将二级特征再次与原始输入特征图拼接并卷积，得到三级特征F”’；对一级特征、二级特征、三级特征进行拼接融合，融合后的特征输入至通道注意力机制CA中，得到输出特征F_output，其表达式如下：

式中F为输入特征图，符号

为特征图拼接操作，Conv为两次1×1的卷积操作；

在图3、4中，本实施例的全卷积检测头部模块4由分类分支和回归分支组成，分类分支由分类卷积模块4-1、分类得分图4-2、Center-ness热力图4-3和点监督分支4-4组成，其中分类卷积模块4-1由4个1×1卷积依次相连构成；回归分支由回归卷积模块4-5、距离信息图4-6组成，其中回归卷积模块4-5由4个1×1卷积依次相连构成。具体为将多尺度特征图输入分类分支中，经过四次1×1卷积，得到分类得分图4-2与Center-ness热力图4-3。分类得分图4-2在各点预测存在各类别目标的概率，大于置信度阈值的点被认为存在目标；Center-ness热力图4-3的通道数为1，该图负责预测各点距所属目标中心点的距离，距离目标中心越近，其值越高；将多尺度特征图输入回归分支中，经过四次1×1卷积后通过预测一个四通道的距离信息图v^*(l^*,t^*,r^*,b^*)来回归目标位置，各像素点的回归目标位置可以用公式表示为：

其中，l^*,t^*,r^*,b^*表示像素点(x,y)到四条边框的距离，(x₀ ⁽ⁱ⁾,y₀ ⁽ⁱ⁾)和(x₁ ⁽ⁱ⁾,y₁ ⁽ⁱ⁾)表示包围框左上角和右下角的坐标。

本实施例的点监督分支4-4的构建方法为：在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点，将以目标中心C为圆心、(1-P)为半径生成中心点区域，并将中心点区域的标签置为1，其余区域置为0，使用二进制交叉熵损失函数对该分支进行监督。

本实施例的级联注意力模块2的构建方法：将级级联注意力模块2插入骨干网络1与特征金字塔网络3之间可以使特征金字塔网络3自适应地获得更显著的特征，通过级联的方式逐级修正增强了特征；为了更好地处理密集或有遮挡的目标，在全卷积检测头部模块4增加了点监督分支4-4，使得本发明具有区分交叠目标的能力，能够更好地在考生座位密集的考场监控场景下处理交叠的目标，改善密集场景下目标检测包围框回归不准确的现象。

(2)训练全卷积考场目标检测网络模型

(a)设置网络的超级参数

从标准化考场考生检测专用数据集中取700张图像作为训练集，180张图像作为测试集，训练集输入图像的像素大小为1000×600，数据批量为2，采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器，学习率初始设置为0.01并且在第36轮迭代处下降10倍，全卷积考场目标检测网络模型共训练48轮；

(b)网络参数的初始化

采用ImageNet数据集对骨干网络ResNet50进行预训练，得到权重和偏置，将权重和偏置作为特征提取网络的初始权重和偏置，其他的网络均使用Xavier方法初始化。

(c)训练全卷积考场目标检测网络

本实施例的损失函数L如下：

L＝L_Cls+λL_Reg

其中，L_cls和L_reg分别表示分类损失和回归损失；λ为调衡参数，用于平衡两类损失之间的重要性，本实施例设定λ为1；上式中的分类损失L_cls为：

其中，α为Focal Loss中平衡正负样本的权重因子，γ为Focal Loss中平衡难易样本的权重因子，本实施例取α为0.25，γ为2.0，P_score、P_centerness、P_point分别为分类得分图、Center-ness为热力图、点监督分支各个位置的预测值。上式中的回归损失L_Reg为：

其中，Area_predict表示网络预测的检测框所在区域，Area_gro_undtruth表示真实目标框所在区域。

(3)检测测试集图像

(a)设置网络参数

设置区域置信度输出阈值为0.05，单张图最大检测目标数为100，其他参数均为网络默认值。

(b)将测试集中的图像输入训练好的全卷积考场目标检测网络中，输出考场目标检测的结果图，将测试集中的图5输入全卷积考场目标检测网络中输出达到置信度的包围框，输出得到考生目标检测结果图见图6，由图6可见，本发明可以有效地检测考生目标。

实施例2

以在标准化考场考生检测专用数据集为例，基于级联注意力与点监督机制的全卷积考场目标检测方法步骤如下：

(1)构建全卷积考场目标检测网络模型

该步骤与实施例1相同。

(2)训练全卷积考场目标检测网络模型

(a)设置网络的超级参数

从标准化考场考生检测专用数据集中取700张图像作为训练集，180张图像作为测试集，训练集输入图像的像素大小为1000×600，数据批量为2，采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器，学习率初始设置为0.005并且在第35轮迭代处下降10倍，全卷积考场目标检测网络模型共训练45轮。

该步骤中的其它步骤与实施例1相同。

(3)检测测试集图像

该步骤与实施例1相同。

实施例3

(1)构建全卷积考场目标检测网络模型

该步骤与实施例1相同。

(2)训练全卷积考场目标检测网络模型

(a)设置网络的超级参数

从标准化考场考生检测专用数据集中取700张图像作为训练集，180张图像作为测试集，训练集输入图像的像素大小为1000×600，数据批量为2，采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器，学习率初始设置为0.015并且在第40轮迭代处下降10倍，全卷积考场目标检测网络模型共训练50轮。

该步骤中的其它步骤与实施例1相同。

(3)检测测试集图像

该步骤与实施例1相同。

为例验证本发明的有益效果，发明人采用本发明实施例1的基于级联注意力与点监督机制的全卷积考场目标检测方法与FCOS方法、目标检测(SSD)方法、目标检测(RetinaNet)方法、目标检测(Faster-RCNN)方法、目标检测(Cascade-RCNN)方法进行了对比实验，实验结果见表1。

表1实施例1方法与现有方法性能对比表

网络模型	骨干网络	平均精度(％)	检测速度(帧/秒)
				Faster-RCNN	ResNet50	89.4	8.2
Faster-RCNN*	ResNet50	90.2	8.2
				Faster-RCNN*	ResNet50+FPN	91.9	14.5
Cascade_RCNN	ResNet50+FPN	92.5	6.3
				SSD	ResNet50+FPN	89.6	20.3
RetinaNet	ResNet50+FPN	91.3	18.5
				FCOS(baseline)	ResNet50+FPN	91.1	22.4
实施例1	ResNet50+FPN	92.9	22.1

由表1可见，原始的FCOS方法虽然在所有方法中取得了最快的检测速度22.4帧/秒，其检测精度为91.1％，明显低于两阶段方法(Faster-RCNN,Cascade-RCNN)。在FCOS方法中添加了级联注意力模块并引入了点监督分支后，实施例1方法的检测精度达到了92.9％，同时保持22.1帧/秒的速度，达到了最优的性能。

与目前具有优异性能的单阶段方法SSD和RetinaNet相比，实施例1方法不仅拥有更高的检测精度，还拥有更快地检测速度。实施例1的方法检测精度优于Faster-RCNN方法3.91％、优于使用RoI-Align方法的Faster-RCNN方法2.99％，检测速度高于Faster-RCNN方法169.5％。同时使用FPN方法与RoI-Align方法的Faster-RCNN方法，实施例1的方法的检测精度优于其平均精度1.09％，检测速度高于其检测速度52.3％。与高精度的Cascade-RCNN方法相比，实施例1的方法高于其平均精度，检测速度高于其250.8％。综合考虑平均检测精度、检测速度两个因素，本实施例1的考场目标检测方法优于其它检测方法。

Claims

1.一种基于级联注意力与点监督机制的全卷积考场目标检测方法，其特征在于由下述步骤组成：

(1)构建全卷积考场目标检测网络模型

在Pytorch框架下，将基于级联注意力的特征增强模块的特征提取网络输出与采用点监督分支(4-4)的检测模块连接构成基于级联注意力与点监督机制的全卷积考场目标检测网络模型；

点监督分支(4-4)的构建方法为：在训练阶段以置信度P认为各目标中心点附近的区域属于该目标的中心点，将以目标中心C为圆心、(1-P)为半径生成中心点区域，并将中心点区域的标签置为1，其余区域置为0，使用二进制交叉熵损失函数对该分支进行监督；

所述的基于级联注意力与点监督机制的全卷积考场目标检测网络模型由骨干网络(1)、级联注意力模块(2)、特征金字塔网络(3)、全卷积检测头部模块(4)四部分组成，骨干网络(1)的输出与级联注意力模块(2)的输入相连，级联注意力模块(2)的输出与特征金字塔网络(3)的输入相连，特征金字塔网络(3)的输出与全卷积检测头部模块(4)的输入相连；

所述的级联注意力模块(2)由3个级联注意力层组成，该级联注意力层以骨干网络(1)的特征图作为输入，通过空间注意力机制SA得到具有空间注意力的一级特征F’；将该特征与原始输入特征图拼接并进行卷积操作，得到二级特征F”；重复该操作，将二级特征再次与原始输入特征图拼接并卷积，得到三级特征F”’；对一级特征、二级特征、三级特征进行拼接融合，将融合后的特征输入至通道注意力机制CA中，得到输出特征F_output，其表达式如下：

式中F为输入特征图，符号

为特征图拼接操作，Conv为两次1×1的卷积操作；

(2)训练全卷积考场目标检测网络模型

(a)设置网络的超级参数

从标准化考场考生检测专用数据集中取700张图像作为训练集，180张图像作为测试集，训练集输入图像的像素大小为1000×600，数据批量为2，采用随机梯度下降法作为全卷积考场目标检测网络模型的优化器，学习率初始设置为0.005～0.015并且在第35～40轮迭代处下降10倍，全卷积考场目标检测网络模型共训练45～50轮；

(b)网络参数的初始化

采用ImageNet数据集对骨干网络ResNet50进行预训练得到权重和偏置，将权重和偏置作为特征提取网络的初始权重和偏置，其他的网络均使用Xavier方法初始化；

(c)训练全卷积考场目标检测网络

将训练集中的所有图像输入全卷积考场目标检测网络进行前向传播并计算损失函数，损失函数是分类损失和回归损失的和，其中分类损失由得分图损失、Center-ness损失、点监督损失组成，回归损失为交并比损失，使用自适应矩估计算法降低损失值来进行反向传播，反复循环前向传播和反向传播，并更新全卷积考场目标检测网络的权重和偏置，直至达到设定的迭代次数，训练结束，得到训练好的全卷积考场目标检测网络；

(3)检测测试集图像

(a)设置网络参数

2.根据权利要求1所述的基于级联注意力与点监督机制的全卷积考场目标检测方法，其特征在于：所述的全卷积检测头部模块(4)由分类分支和回归分支组成，分类分支由分类卷积模块(4-1)、分类得分图(4-2)、Center-ness热力图(4-3)和点监督分支(4-4)组成，回归分支由回归卷积模块(4-5)、距离信息图(4-6)组成。