CN112800942A

CN112800942A - 一种基于自校准卷积网络的行人检测方法

Info

Publication number: CN112800942A
Application number: CN202110105126.5A
Authority: CN
Inventors: 李琦铭; 李俊; 强华
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-14
Anticipated expiration: 2041-01-26
Also published as: CN112800942B

Abstract

本发明提供一种基于自校准卷积网络的行人检测方法，包括：步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取，得到不同层的特征图；步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图；步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差，将特征图解译为检测结果；步骤40、输出检测结果中带有边界框的行人。采用本发明的行人检测方法，可实现小尺度行人的高精度检测。

Description

一种基于自校准卷积网络的行人检测方法

技术领域

本发明涉及一种基于自校准卷积网络的行人检测方法。

背景技术

行人检测作为一项重要的基础研究任务在机器视觉领域发挥着重要作用，其在视频监控、自动驾驶、虚拟现实、智能安防等方面都有广泛的应用前景。由于行人与摄像头距离的不同，导致行人在图像或视频中的尺寸大小不一，准确地检测并定位图像或视频中的小尺度行人仍是一项极具挑战的任务。已有的基于锚框的行人检测方法通常都需要铺设锚点框，用传统的滑动窗口的形式来判断预设的锚点框内是否存在行人。这些方法需要针对特定数据集设计，且需要优化锚点框超参数，从而增加了训练难度，另外这些方法在分类阶段，由于高层卷积特征图分辨率降低，小尺度的行人无法得到有效的描述，会降低检测的总体性能。

发明内容

本发明要解决的技术问题，在于提供一种基于自校准卷积网络的行人检测方法，可实现对小尺度行人的高效检测。

本发明提供了一种基于自校准卷积网络的行人检测方法，包括：

步骤10、采用自校准卷积网络对输入的图片进行多层卷积网络的特征提取，得到不同层的特征图；

步骤20、通过特征融合将高低层之间的特征进行融合得到用于检测的行人特征图；

步骤30、通过检测器的头部对行人特征图生成中心点特征图、尺度特征图和偏差特征图来调整预测值和真实值之间的偏差，将特征图解译为检测结果；

步骤40、输出检测结果中带有边界框的行人。

进一步的，所述步骤10进一步包括：

步骤11、预先输入图像X到SCNet自校准卷积网络，通过两个卷积分成两个特征X₁、X₂，对其中的特征X₁采用平均池化，下采样r倍，再经过F2卷积提取得到特征，对得到的特征进行上采样，经过Sigmoid激活函数对F3卷积提取后的特征进行校准得到特征Y'₁，对Y'₁进行F4卷积提取特征得到输出特征Y₁，对特征X₂经过F1卷积提取得到特征Y₂；

步骤12、对两个尺度空间输出的特征Y₁、Y₂进行拼接操作，得到特征Y；

步骤13、将图像特征Y作为输入，经过SCNet自校准卷积网络生成具有不同分辨率的复数层特征图，所述复数层特征图的大小逐层递减。

进一步的，所述步骤13具体为：将图像Y作为输入，生成具有不同分辨率的复数个特征图，将所述特征图定义为：φ_i＝f_i(φ_i-1)＝f_i(f_i-1(...f₂(f₁(Y))))；

其中φ_i表示第i层输出的特征图，复数个所述特征图的大小逐渐减小，生成的特征图f_i(·)由卷积或池化处理得到，给定一个具有N层的网络，所有生成的特征图表示为φ＝{φ₁,φ₂,...,φ_N}，将负责检测的这些特征图表示为φ_det。

进一步的，所述步骤20进一步包括：

步骤21、对所有要融合的特征图进行L2归一化；

步骤22、将除了第1层外的其余层的特征图分辨率反卷积到和第1层的特征图分辨率一致的尺度；

步骤23、再将这些特征图连接起来，得到用于检测的行人特征图。

进一步的，所述步骤30进一步包括：

步骤31、预先在检测器头部依次添加一个3×3的卷积层、两个并联的1×1的卷积层和一个2×2的卷积层；

步骤32、先对行人特征图采用所述检测器头部的3×3的卷积层将其通道数减小到256；

步骤32、通过所述检测器头部的两个并联的1×1的卷积层生成行人中心点特征图和行人尺度预测图；

步骤33、通过所述检测器头部的2×2的卷积层生成行人偏差预测图。

进一步的，预先在训练过程中获取公开数据集中对应的中心点真实值和尺度真实值，并获取行人中心点偏移量的真实值为

其中，x_k和y_k表示第K个行人的中心点坐标，根据所述中心点真实值、尺度真实值以及偏移量的真实值对检测器头部的中心点预测值、尺度预测值以及行人偏差预测值进行调整。

进一步的，所述检测器头部采用如下损失函数对预测值进行优化：

L＝λ₁L_c+λ₂L_s+λ₃L_o，

其中λ₁、λ₂和λ₃分别表示中心分类损失Lc的权重、尺度回归损失Ls的权重和偏移回归损失Lo的权重，具体值通过实验设置。

进一步的，所述步骤40进一步包括：

步骤41、获取中心点热图中置信度高于0.01的位置及其在比例图中的相应比例，自动生成边界框，每个边界框需预测x、y、wide、height和置信度这5个参数，其中(x、y)为边界框左上角的坐标，wide为边界框的宽，height为边界框的高；

步骤42、将其重新映射到原始图像大小；

步骤43、使用阈值为0.5非极大值抑制算法去除多余的窗口，找到最佳的行人检测位置；

步骤44、绘制边界框，输出检测结果中带有边界框的行人。

本发明的优点在于：

通过高效的自校准卷积网络的方法来扩大网络的感受野范围进行行人特征的提取，并通过特征融合将高低层之间的特征进行融合来提升多尺度行人的检测精度，通过检测器头部进行特征图的解译工作，将特征图解译为检测结果，来进行偏差调整，实现小尺度行人无锚框的高效检测。本发明的基于自校准卷积网络的行人检测方法，可应用于需要进行目标检测的各种任务，如视频监控、自动驾驶、虚拟现实、智能安防等，应用范围广。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明一种基于自校准卷积网络的行人检测方法的执行流程图。

图2为本发明一种基于自校准卷积网络的行人检测方法的原理示意图。

图3为本发明一种基于自校准卷积网络的行人检测方法的SCNetBlock结构示意图。

具体实施方式

如图1至图3所示，本发明的一种基于自校准卷积网络的行人检测方法，包括：

步骤40、输出检测结果中带有边界框的行人。

较佳的，所述步骤10进一步包括：

步骤11、预先输入图像X到SCNet自校准卷积网络，通过两个卷积分成两个特征X₁、X₂，对其中的特征X₁采用平均池化，下采样r倍(r＝4)，再经过F2卷积提取得到特征，对得到的特征进行上采样(采用双线性插值法)，经过Sigmoid激活函数对F3卷积提取后的特征进行校准得到特征Y'₁，对Y'₁进行F4卷积提取特征得到输出特征Y₁，对特征X₂经过F1卷积提取得到特征Y₂；

步骤12、对两个尺度空间输出的特征Y₁、Y₂进行拼接操作，得到特征Y；本发明通过将输入的图像先经过SCNet自校准卷积网络(如图3所示)，对行人特征进行分层提取，可有效扩大网络中每个卷积层的感受野范围。在SCNet中，它使每个空间位置能够自适应地对不同区域高低层之间的特征进行提取，使得行人与背景物更具区分性，突出行人的中心点位置。这要归功于SCNet的SCNetBlock中的异构卷积和滤波器间的通信模块，此模块是由多个卷积注意力模块组合起来，用来替换ResNet的基本卷积结构。

较佳的，所述步骤13具体为：将图像Y作为输入，生成具有不同分辨率的复数个特征图，将所述特征图定义为：φ_i＝f_i(φ_i-1)＝f_i(f_i-1(...f₂(f₁(Y))))；

其中φ_i表示第i层输出的特征图，复数个所述特征图的大小逐渐减小，生成的特征图f_i(·)由卷积或池化处理得到，给定一个具有N层的网络，所有生成的特征图表示为φ＝{φ₁,φ₂,...,φ_N}，将负责检测的这些特征图表示为φ_det。如图2所示，本发明一较佳实施例中，负责检测的特征图为图2中第1-4层的特征图，即采用4层结构，分别为layer1、layer2、layer3和layer4。设置四层特征图可以缓解多尺度行人的检测问题，相比CSP行人检测算法的layer4来说，CSP中的layer4特征图尺寸是原输入图像尺寸的1/16与layer3特征图尺寸一致。而发明在SC-CSP行人检测算法中将其特征图尺度下采样到原图的1/32，本发明的这样做的好处在于使多尺度行人的检测范围更广，从而可以有效提升小尺度行人的检测精度。

较佳的，所述步骤20进一步包括：

步骤21、对所有要融合的特征图进行L2归一化；

步骤22、将除了第1层外的其余层的特征图分辨率反卷积到和第1层的特征图分辨率一致的尺度，即原图的1/4；

由于低层特征图拥有较高的空间分辨率，高层特征图则包含更多的语义信息。为了使不同层的特征图都能很好的应用在最终的检测中，本发明中把低层和高层的特征图融合成一个特征图。且出于减少算法复杂度的考虑，采用上述这种特征融合方式。

较佳的，所述步骤30进一步包括：

在SC-CSP检测器中，仅对一组特征图φ_det进行检测，表示为：

其中

代表检测器的头部，通常

包含两个元素cls(·)、regr(·)，其中cls(·)为预测分类器分数，regr(·)为预测边界框的尺度和偏差。

较佳的，预先在训练过程中获取公开数据集中对应的中心点真实值和尺度真实值，并获取行人中心点偏移量的真实值为

其中，x_k和y_k表示第K个行人的中心点坐标，根据所述中心点真实值、尺度真实值以及偏移量的真实值对检测器头部的中心点预测值、尺度预测值以及行人偏差预测值进行调整。本发明中，进行预测的特征图尺寸与经过特征提取的特征图尺寸相同，即(H/r×W/r)＝(160×320)。给定边界框的注释，就可以自动生成中心点真实值。行人检测的真实值分为：中心点真实值和尺度真实值。中心点真实值指把行人的中心点表示为正样本，行人的其他位置表示为负样本。行人的尺度可以定义为行人的高度或宽度。为了向行人检测提供高质量的真实值，进而提出了线注释，其可以自动生成紧密的边界框，本专利边界框的纵横比是0.41，根据此注释，只能预测每个行人的高度，进而预测行人的宽度，最后以预测的宽高比生成边界框；尺度真实值指第K个正样本的位置分配与第K个行人相应的log(h_k)值。当附加了偏移特征图时，将行人中心点偏移量的真实值定义为

较佳的，所述检测器头部采用如下损失函数对预测值进行优化：

L＝λ₁L_c+λ₂L_s+λ₃L_o，

其中λ₁、λ₂和λ₃分别表示中心分类损失Lc的权重、尺度回归损失Ls的权重和偏移回归损失Lo的权重，具体值通过实验设置，在一实验中λ₁、λ₂和λ₃的较佳取值分别为0.01、1和0.1。

由于中心点预测通过交叉熵损失可以将其公式化为分类任务，但很难确定更为精确的中心点，且正负样本的模糊性会导致训练过程很难进行。为了减少正样本附近负样本的模糊性，本发明中采用二维高斯掩模G(·)，并以每个正样本的位置为中心，用公式表示为：

其中K是图像中行人的数量，(x_k，y_k，w_k，h_k)是第K个行人的中心点坐标、宽度和高度，高斯掩模的方差

与单个行人的高度和宽度成比例。如果这些掩模有重叠，则重叠位置选择最大值。为了解决极端的正负样本不平衡的问题，我们采用焦点权重，因此，本发明的分类损失函数Lc可以表示为：

其中

其中P_ij∈[0，1]是网络的估计概率，指示位置(i，j)中是否存在行人的中心，y_ij∈{0，1}是真实值的标签，其中y_ij＝1表示正样本的位置，α_ij和γ是聚焦超参数，实验设置γ＝2。为了减少正样本附近负样本的模糊性，使用高斯掩模M的α_ij来减少负样本的模糊性，其中β超参数控制惩罚，实验中β＝4可以获得最佳性能，对于正样本α_ij设置为1。

对于尺度预测，我们通过Smooth L1损失将其公式化为回归任务。即所述尺度回归损失Ls表示为：

其中s_k和t_k分别代表网络的预测和每个正样本的真实值。

由于附加了偏移预测分支，类似SmoothL1损失，并将其表示为L_o。

较佳的，所述步骤40进一步包括：

步骤42、将其重新映射到原始图像大小；

步骤43、使用阈值为0.5非极大值抑制算法(Non-Maximum Suppression,NMS)去除多余(交叉重复)的窗口，找到最佳的行人检测位置；

步骤44、绘制边界框，输出检测结果中带有边界框的行人。

在测试过程中，SC-CSP只是涉及FCN的单个转发，并带有多个预测机制，采用如上步骤41-44的方式可以找到最佳的行人检测位置。

为了验证本发明性能，我们运用Python语言结合PyTorch框架实现了上述算法，卷积网络是在ImageNet上预训练得到的SCNet-50网络。并选择CityPersons数据集进行实验，CityPersons数据集是一个大规模行人检测数据集，用2975幅图像进行训练，用500幅图像进行测试。我们在4个GPU上优化网络，每个GPU上有2个图像用于一个小批量，网络的学习率分别设置为2×10^-5。为了检验本专利提出的SC-CSP方法的性能，选用平均漏检率(AverageMiss Rate)作为检验的综合指标。

如下表1、表2给出了本专利方法在CityPersons数据集上对大小为(1024×2048)的原始图像进行测试，并与现有最新方法分别在遮挡方面与多尺度方面进行比较，本发明提出的SC-CSP方法的平均漏检率低于专门针对遮挡处理的RepLoss和OR-CNN方法，可见SC-CSP在没有任何遮挡处理策略的情况下表现良好。在合理的情况下，精度相比原CSP算法提升了0.6％。如表2所示，我们在行人的大中小三个不同尺度范围的情况上与现有最新技术进行对比实验，在各个尺度范围上，行人的平均漏检率均有下降，尤其是在小尺度范围上，行人的平均漏检率相比CSP方法下降了1.1％。

表1 SC-CSP算法与现有技术在遮挡方面的比较情况

表2 SC-CSP算法与现有技术在尺度方面的比较情况

本发明针对小尺度行人的实例数据，深入研究小尺度行人在无锚行人检测框架中的特征区分性，提出上述高效的自校准卷积网络的方法，利用基于自校准卷积网络的行人检测算法对输入图片进行多层卷积网络的特征提取，可以扩大网络的感受野范围，将图像的像素信息充分转化为具有一定语义的高层信息，之后通过特征融合将高低层之间的特征进行融合来提升多尺度行人的检测精度，最后将融合后的特征图通过检测器的头部，利用改进后的检测器头部生成中心点特征图、尺度特征图、偏差特征图来调整预测值和真实值之间的偏差，缓解行人检测中的偏差问题，提升行人的检测精度。本发明提出的基于自校准卷积网络的行人检测方法，可应用于需要进行目标检测的各种任务(如视频监控、自动驾驶、虚拟现实、智能安防等)。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于自校准卷积网络的行人检测方法，其特征在于：包括：

步骤40、输出检测结果中带有边界框的行人。

2.如权利要求1所述的一种基于自校准卷积网络的行人检测方法，其特征在于：所述步骤10进一步包括：

3.如权利要求2所述的一种基于自校准卷积网络的行人检测方法，其特征在于：所述步骤13具体为：将图像Y作为输入，生成具有不同分辨率的复数个特征图，将所述特征图定义为：φ_i＝f_i(φ_i-1)＝f_i(f_i-1(...f₂(f₁(Y))))；

4.如权利要求1所述的一种基于自校准卷积网络的行人检测方法，其特征在于：所述步骤20进一步包括：

步骤21、对所有要融合的特征图进行L2归一化；

5.如权利要求1所述的一种基于自校准卷积网络的行人检测方法，其特征在于：所述步骤30进一步包括：

6.如权利要求5所述的一种基于自校准卷积网络的行人检测方法，其特征在于：

预先在训练过程中获取公开数据集中对应的中心点真实值和尺度真实值，并获取行人中心点偏移量的真实值为

7.如权利要求5所述的一种基于自校准卷积网络的行人检测方法，其特征在于：

所述检测器头部采用如下损失函数对预测值进行优化：

L＝λ₁L_c+λ₂L_s+λ₃L_o，

8.如权利要求1所述的一种基于自校准卷积网络的行人检测方法，其特征在于：所述步骤40进一步包括：

步骤42、将其重新映射到原始图像大小；

步骤44、绘制边界框，输出检测结果中带有边界框的行人。