CN111814754A

CN111814754A - 面向夜间场景的单帧图像行人检测方法和装置

Info

Publication number: CN111814754A
Application number: CN202010832371.1A
Authority: CN
Inventors: 陈海波; 罗志鹏; 徐振宇; 姚粤汉
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-23

Abstract

本发明提供一种面向夜间场景的单帧图像行人检测方法和装置，所述方法包括以下步骤：获取包含多个夜间单帧图像的数据集，并对所述数据集中的夜间单帧图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，以得到行人检测模型；通过所述行人检测模型对待检测夜间单帧图像进行行人检测。本发明能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

Description

面向夜间场景的单帧图像行人检测方法和装置

技术领域

本发明涉及目标检测技术领域，具体涉及一种面向夜间场景的单帧图像行人检测方法、一种面向夜间场景的单帧图像行人检测装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。

背景技术

行人检测(Pedestrian Detection)是指利用计算机视觉等技术来判断图像或者视频序列中是否存在行人并给予精确定位。行人检测技术在智能辅助驾驶、行人分析、自动驾驶、智能机器人等领域有着非常广泛的应用。然而，由于行人一般是运动着的，所拍摄的图像往往呈现动态趋势，造成了图像模糊且噪声信息干扰，而且，行人本身具有特殊的属性，可因其穿着、姿势、形态等多种因素呈现多样性，这就为精确实现行人检测任务带来了困难。尤其是夜间行人检测，是一个非常困难的研究点。由于夜间拍摄图像往往呈现色彩信息不足，图像对比度低的问题，因此如何设计一个鲁棒的夜间行人检测策略是亟待解决的问题。

发明内容

本发明为解决上述技术问题，提供了一种面向夜间场景的单帧图像行人检测方法和装置，能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

本发明采用的技术方案如下：

一种面向夜间场景的单帧图像行人检测方法，包括以下步骤：获取包含多个夜间单帧图像的数据集，并对所述数据集中的夜间单帧图像进行增强处理；构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；通过增强处理后的数据集对所述神经网络进行训练，以得到行人检测模型；通过所述行人检测模型对待检测夜间单帧图像进行行人检测。

对所述数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强。

所述特征提取网络为CBNet，所述预测网络包括RPN和Cascade RCNN。

通过增强处理后的数据集对所述神经网络进行训练，包括：将增强后的数据集中的夜间单帧图像I₀输入两个主干网络Backbone1和Backbone2，对于Backbone1结构，I₀首先经过一个卷积操作后形成F_{1_0}特征图，对于Backbone2结构，I₀首先经过一个卷积操作后形成F_{2_0}特征图；之后，F_{1_0}经过Backbone1的R1_1层后，生成特征F_{1_1}，F_{1_1}经过上采样操作后与F_{2_0}进行相加操作，并经过Backbone2的R2_1层，生成特征图F_{2_1}，即D₁；特征F_{1_1}经过Backbone1的R1_2层后，生成特征图F_{1_2}，F_{1_2}经过上采样操作后与F_{2_1}进行相加操作，并经过Backbone2的R2_2层，生成特征图F_{2_2}，即D₂；同理，特征F_{1_2}经过Backbone1的R1_3层后，生成特征图F_{1_3}，F_{1_3}经过上采样操作后与F_{2_2}进行相加操作，并经过Backbone2的R2_3层，生成特征图F_{2_3}，即D₃；最后，特征F_{1_3}经过Backbone1的R1_4层后，生成特征图F_{1_4}，F_{1_4}经过上采样操作后与F_{2_3}进行相加操作，并经过Backbone2的R2_4层，生成特征图F_{2_4}，即D₄；将特征图D₁、D₂、D₃、D₄分别送入RPN，RPN首先将特征图D₁、D₂、D₃、D₄的每个像素点作为锚点，即映射回原图后的一组锚框的中心点，然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框；RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量，其中，RPN经过预测后得到锚框的前背景得分，只考虑前景得分超过某个threshold的那些锚框，并对其进行偏移量回归操作，得到区域推荐框，即Proposal，其中，将大小不同的Proposal映射特征进行Pooling操作，得到大小相同的特征，得到后续网络Cascade RCNN的输入特征，后续网络Cascade RCNN主要由三级采用双分支结构的网络Head₁、Head₂、Head₃构成，即将Pooling后的特征和Proposal送入第一级网络Head₁中，预测Proposal的类别得分和回归偏移量，得到第一级网络Head₁的输出框，设为Proposal₁；将各个特征图所对应的Proposal₁分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₁送入第二级网络Head₂中，预测Proposal₁的类别得分和回归偏移量，得到第二级网络Head₂的输出框，设为Proposal₂；最后，将各个特征图所对应的Proposal₂分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₂送入第三级网络Head₃中，预测Proposal₂的类别得分和回归偏移量，得到第三级网络Head₃的输出框，设为Proposal₃，即最终目标预测框。

训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器，

b＝(b_x,b_y,b_w,b_h)

为保证回归操作对尺度、位置的不变性，L_loc操作对应的向量Δ＝(δ_x,δ_y,δ_w,δ_h)，

对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

其中，T表示Cascade RCNN叠加的总分支数，t表示当前的分支，Cascade RCNN中每个分支f_t通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果，λ为加权系数，λ＝1，[y^t≥1]表示只在正样本中计算回归损失，y^t是x^t按照上式和u_t计算出来的label。

一种面向夜间场景的单帧图像行人检测装置，包括：增强模块，所述增强模块用于获取包含多个夜间单帧图像的数据集，并对所述数据集中的夜间单帧图像进行增强处理；构建模块，所述构建模块用于构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；训练模块，所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练，以得到行人检测模型；检测模块，所述检测模块用于通过所述行人检测模型对待检测夜间单帧图像进行行人检测。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述面向夜间场景的单帧图像行人检测方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述面向夜间场景的单帧图像行人检测方法。

一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行上述面向夜间场景的单帧图像行人检测方法。

本发明的有益效果：

本发明通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

附图说明

图1为本发明实施例的面向夜间场景的单帧图像行人检测方法的流程图；

图2为本发明一个实施例的CBNet的结构示意图；

图3为本发明一个实施例的DCN的结构示意图；

图4为本发明一个实施例的RPN的结构示意图；

图5为本发明一个实施例的Cascade RCNN的结构示意图；

图6为本发明一个实施例的Double Head的结构示意图；

图7为本发明一个实施例的FPN的结构示意图；

图8为本发明一个实施例的残差通道增加模块的结构示意图；

图9为本发明一个实施例的Bottleneck的结构示意图；

图10为本发明一个实施例的non-local模块的结构示意图；

图11为本发明实施例的面向夜间场景的单帧图像行人检测装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的面向夜间场景的单帧图像行人检测方法包括以下步骤：

S1，获取包含多个夜间单帧图像的数据集，并对数据集中的夜间单帧图像进行增强处理。

其中，数据集中可包含大量的夜间场景下拍摄得到的单帧图像，例如可以为对应道路处设置的摄像头在夜间拍摄得到的图像，部分图像中包含行人，部分图像中不包含行人。该数据集作为训练集，在存储和处理能力允许的范围内，所包含的图像数量越大，后续训练出的检测模型精度越高。

在本发明的一个实施例中，可对数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强，以缓解图像对比度低的问题。

具体地，可随机采样数据集中的图像，对于采样到的图像I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择。采样的多张图像I_i(i＝1,2,3…n)以batch的形式I送入特征提取网络，batch中所有图像的长边为L，图像的短边为了统一尺寸，则以整个batch中图像短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base。

S_base＝S_i+padding

在本发明的一个具体实施例中，L可为2048，短边S1～S2可为为1024～1536。

S2，构建神经网络，其中，神经网络包括特征提取网络和预测网络，特征提取网络融合多个主干网络，每个主干网络中均融合可变形卷积网络，预测网络包含双分支结构。

在本发明的一个实施例中，特征提取网络可为CBNet，其融合多个backbone，能够增强特征提取能力，每个backbone网络中融合DCN(Deformable Convolution Net，可变形卷积网络)，能够提高网络对于形变的适应性。在本发明的一个实施例中，CBNet和DCN的结构分别如图2和图3所示。

预测网络包括RPN(Region Proposal Network，区域生成网络)和Cascade RCNN，Cascade RCNN采用Double Head结构，分别为回归和分类分支设计更精准的结构。在本发明的一个实施例中，RPN和Cascade RCNN结构分别如图4和图5所示，Double Head结构如图6所示。

S3，通过增强处理后的数据集对神经网络进行训练，以得到行人检测模型。

在本发明的一个具体实施例中，CBNet可融合两个加入DCN的ResNeXt。加入DCN的ResNeXt进行特征提取的流程包括：将图像I输入ResNeXt，经过stage2输出特征图F₂，将F₂输入可变形卷积网络DCN输出特征图F_{d_2}，将F_{d_2}经过stage3输出特征图F₃，将F₃输入可变形卷积网络输出特征图F_{d_3}，将F_{d_3}经过stage4输出特征图F₄，将F₄输入可变形卷积网络输出特征图F_{d_4}，将F_{d_4}经过stage5输出特征图F₅，将F₅输入可变形卷积网络输出特征图F_{d_5}。其中，F₂、F₃、F₄、F₅为大小不同、通道数不同的特征图，也就是说，F₂、F₃、F₄和F₅构成特征金字塔网络FPN，在本发明的一个实施例中，FPN结构如图7所示。设特征图F₂大小为(a，b)，通道数为256；特征图F₃大小为(a/2，b/2)，通道数为512；特征图F₄大小为(a/4，b/4)，通道数为1024；特征图F₅大小为(a/8，b/8)，通道数为2048。首先通过4个1x1卷积操作，将F₂、F₃、F₄、F₅的通道数变为相同的，即256。将特征图F₅进行插值操作，使其大小变为(a/4，b/4)，再将F₅和F₄进行相加操作，形成D₄，此时D₄的大小为(a/4，b/4)，通道数为256；类比地，将特征图D₄进行插值操作，使其大小变为(a/2，b/2)，再将D₄和F₃进行相加操作，形成D₃，此时D₃的大小为(a/2，b/2)，通道数为256；类比地，将特征图D₃进行插值操作，使其大小变为(a，b)，再将D₃和F₂进行相加操作，形成D₂，此时D₂的大小为(a，b)，通道数为256；特征图F₅经过插值以后，所形成的feature map作为D₁。由此，D₁、D₂、D₃、D₄为融合高低层之后的特征。

而对于融合两个主干网络的CBNet，其进行特征提取的流程为：将增强后的数据集中的夜间单帧图像I₀输入两个主干网络Backbone1和Backbone2，对于Backbone1结构，I₀首先经过一个卷积操作后形成F_{1_0}特征图，对于Backbone2结构，I₀首先经过一个卷积操作后形成F_{2_0}特征图；之后，F_{1_0}经过Backbone1的R1_1层后，生成特征F_{1_1}，F_{1_1}经过上采样操作后与F_{2_0}进行相加操作，并经过Backbone2的R2_1层，生成特征图F_{2_1}，即D₁；特征F_{1_1}经过Backbone1的R1_2层后，生成特征图F_{1_2}，F_{1_2}经过上采样操作后与F_{2_1}进行相加操作，并经过Backbone2的R2_2层，生成特征图F_{2_2}，即D₂；同理，特征F_{1_2}经过Backbone1的R1_3层后，生成特征图F_{1_3}，F_{1_3}经过上采样操作后与F_{2_2}进行相加操作，并经过Backbone2的R2_3层，生成特征图F_{2_3}，即D₃；最后，特征F_{1_3}经过Backbone1的R1_4层后，生成特征图F_{1_4}，F_{1_4}经过上采样操作后与F_{2_3}进行相加操作，并经过Backbone2的R2_4层，生成特征图F_{2_4}，即D₄。至此，Backbone1网络和Backbone2网络被融合在了一起，生成的特征D₁、D₂、D₃、D₄不仅具有多尺度特征，而且信息表达能力更强。每个输出特征不仅仅只经过一个backbone的一层网络，相当于经过多次卷积操作。公式表示如下：

其中，k表示backbone的下标，l表示backbone中stage的下标。

表示第k个backbone的第(l-1)个stage的输出feature值，

表示第(k-1)个backbone的第l个stage的输出feature值，

表示第k个backbone的第l个stage的输出值，g表示1x1的卷积操作以及上采样操作。

接下来，可将特征图D₁、D₂、D₃、D₄分别送入RPN，RPN首先将特征图D₁、D₂、D₃、D₄的每个像素点作为锚点，即映射回原图后的一组锚框的中心点，然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框；RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量。其中，前景背景预测分支的真值由预先设定的锚框与真实的bounding box进行IOU(Intersection Over Union，交并比)值计算得到。具体来说，根据IOU计算值将锚框的标签值设置为-1、0、1。RPN在进行训练时，只会将标签为-1和1的锚框送入网络，并将标签为-1的锚框设置为0标签，主要用于二分类时易于计算损失函数。同时，回归分支的真值由标签为1的锚框与bounding box计算位置偏移量得到。

由上述步骤，RPN经过预测后得到锚框的前背景得分，只考虑前景得分超过某个threshold的那些锚框，并对其进行偏移量回归操作，得到区域推荐框，即Proposal，RPN任务结束。其中，可将大小不同的Proposal映射特征进行Pooling操作，得到大小相同的特征，得到后续网络Cascade RCNN的输入特征，后续网络Cascade RCNN主要由三级采用双分支结构的网络Head₁、Head₂、Head₃构成，即将Pooling后的特征和Proposal送入第一级网络Head₁中，预测Proposal的类别得分和回归偏移量，得到第一级网络Head₁的输出框，设为Proposal₁；将各个特征图所对应的Proposal₁分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₁送入第二级网络Head₂中，预测Proposal₁的类别得分和回归偏移量，得到第二级网络Head₂的输出框，设为Proposal₂；最后，将各个特征图所对应的Proposal₂分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₂送入第三级网络Head₃中，预测Proposal₂的类别得分和回归偏移量，得到第三级网络Head₃的输出框，设为Proposal₃，即最终目标预测框。

上述的第一级网络、第二级网络、第三级网络均分别采用Double Head结构，参照图6，Double Head由ROI Align层和两条平行分支(分类分支和回归分支)组成，即总体上分为分类预测分支和回归预测分支。一般做法中，分类预测分支和回归预测分支都采用全连接层进行预测，在本发明的实施例中，分类预测分支使用两个全连接来输出，回归分支则改为卷积操作来输出。具体来说，卷积操作包括一个如图8所示的残差通道增加模块，即将输出的256通道数增加到1024通道数，除此之外，还包括ResNet网络中如图9所示的Bottleneck结构和如图10所示的non-local模块，采用non-local结构的目的是引入更多非局部信息。

在本发明的一个实施例中，训练网络时的分类损失L_cls使用交叉熵损失，对于每一个ROI，经过头结构(Head_i)后得到分类结果C_i(i＝1,2,3)：

其中，h(x)表示Head_i中的分类分支，输出M+1维向量，将ROI预测为M+1中的一个类别，N代表当前Head_i阶段中ROI个数，y对应类别标签，y的类别标签由ROI与对应的标签的IoU大小决定：

其中，Head₁中的IoU阈值u设置为u₁，Head₂和Head₃中的阈值u分别设置为u₂、u₃，x是ROI，g_y是目标x的类别标签，IoU阈值u定义了检测器的质量。通过不同的IOU阈值，有效地解决了检测中的噪声干扰问题。在本发明的一个具体实施例中，u₁、u₂、u₃可分别设置为0.5、0.6、0.7。

训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器：

b＝(b_x,b_y,b_w,b_h)

上式中的数值都比较小，为了提升多任务训练的效率，对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

其中，T表示Cascade RCNN叠加的总分支数，t表示当前的分支，Cascade RCNN中每个分支f_t通过各个分支上的训练数据b_t优化，b_t来源于b₁经过之前所有分支输出后的结果，而非直接使用RPN的初始分布b₁来训练f_t，λ为加权系数，[y^t≥1]表示只在正样本中计算回归损失，y^t是x^t按照上式和u_t计算出来的label。在本发明的一个具体实施例中，T取3，λ取1。

在本发明的一个实施例中，可利用随机梯度下降对误差求偏导更新网络权值。共训练m个epoch，初始学习率为ε₁，参考框的比率设置为[r₁,r₂,r₃,…r_n]。训练完成后得到模型M₁，更换Cascade RCNN检测网络中的特征提取网络，将ResNeXt更换为HRNet，其他结构保持不变，重新训练第二个模型得到M₂。m取50，初始学习率为ε₁为0.002，参考框的比率设置为[0.33,0.5,1,2,3]。

通过测试集检验目标检测模型时，测试集中的图片可保持原有宽高比例缩放到(w₁，h₁)，(w₂，h₂)，(w₃，h₃)，对两个模型M₁、M₂采用多尺度测试。对于测试集的每一张图片，可在两个模型上得到对应的检测框，然后利用softnms对模型得到的所有框进行融合，得到最终检测框结果。宽高比例分别设置为(1333,800)、(1600,1080)、(2048,1280)。M₁和M₂的特征提取网络分别采用ResNext101(64x4d)，HRNet-W32。

S4，通过行人检测模型对待检测夜间单帧图像进行行人检测。

根据本发明实施例的面向夜间场景的单帧图像行人检测方法，通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

对应上述实施例的面向夜间场景的单帧图像行人检测方法，本发明还提出一种面向夜间场景的单帧图像行人检测装置。

如图11所示，本发明实施例的面向夜间场景的单帧图像行人检测装置包括增强模块10、构建模块20、训练模块30和检测模块40。其中，增强模块10用于获取包含多个夜间单帧图像的数据集，并对数据集中的夜间单帧图像进行增强处理；构建模块20用于构建神经网络，其中，神经网络包括特征提取网络和预测网络，特征提取网络融合多个主干网络，每个主干网络中均融合可变形卷积网络，预测网络包含双分支结构；训练模块30用于通过增强处理后的数据集对神经网络进行训练，以得到行人检测模型；检测模块40用于通过行人检测模型对待检测夜间单帧图像进行行人检测。

其中，数据集中可包含大量的夜间场景下拍摄得到的图像，例如可以为对应道路处设置的摄像头在夜间拍摄得到的图像，部分图像中包含行人，部分图像中不包含行人。该数据集作为训练集，在存储和处理能力允许的范围内，所包含的图像数量越大，后续训练出的检测模型精度越高。

在本发明的一个实施例中，增强模块10可对数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强，以缓解图像对比度低的问题。

具体地，可随机采样数据集中的图像，对于采样到的图像I_i，比较其自身的宽I_i_w和高I_i_h，选取宽高中的长边max(I_i_w,I_i_h)缩放到L，短边min(I_i_w,I_i_h)缩放至S，S从S₁～S₂之间随机选择。采样的多张图像I_i(i＝1,2,3…n)以batch的形式I送入特征提取网络，batch中所有图像的长边为L，图像的短边为了统一尺寸，则以整个batch中图片短边S_i(i＝1,2,3…n)中最大的值max(S_i)为基准S_base，其余的S_i加padding至S_base。

S_base＝S_i+padding

在本发明的一个实施例中，特征提取网络可为CBNet，其融合多个backbone，能够增强特征提取能力，每个backbone网络中融合DCN，能够提高网络对于形变的适应性。在本发明的一个实施例中，CBNet和DCN的结构分别如图2和图3所示。

预测网络包括RPN和Cascade RCNN，Cascade RCNN采用Double Head结构，分别为回归和分类分支设计更精准的结构。在本发明的一个实施例中，RPN和Cascade RCNN结构分别如图4和图5所示，Double Head结构如图6所示。

其中，k表示backbone的下标，l表示backbone中stage的下标。

表示第k个backbone的第(l-1)个stage的输出feature值，

表示第(k-1)个backbone的第l个stage的输出feature值，

接下来，训练模块30可将特征图D₁、D₂、D₃、D₄分别送入RPN，RPN首先将特征图D₁、D₂、D₃、D₄的每个像素点作为锚点，即映射回原图后的一组锚框的中心点，然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框；RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量。其中，前景背景预测分支的真值由预先设定的锚框与真实的bounding box进行IOU值计算得到。具体来说，根据IOU计算值将锚框的标签值设置为-1、0、1。RPN在进行训练时，只会将标签为-1和1的锚框送入网络，并将标签为-1的锚框设置为0标签，主要用于二分类时易于计算损失函数。同时，回归分支的真值由标签为1的锚框与bounding box计算位置偏移量得到。

上述的第一级网络、第二级网络、第三级网络均分别采用Double Head结构，即总体上分为分类预测分支和回归预测分支。一般做法中，分类预测分支和回归预测分支都采用全连接层进行预测，在本发明的实施例中，分类预测分支使用两个全连接来输出，回归分支则改为卷积操作来输出。具体来说，卷积操作包括一个如图8所示的残差通道增加模块，即将输出的256通道数增加到1024通道数，除此之外，还包括ResNet网络中如图9所示的Bottleneck结构和如图10所示的non-local模块，采用non-local结构的目的是引入更多非局部信息。

在本发明的一个实施例中，训练模块30训练网络时的分类损失L_cls使用交叉熵损失，对于每一个ROI，经过头结构(Head_i)后得到分类结果C_i(i＝1,2,3)：

训练模块30训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI，b是对ROI的预测坐标，g是标签坐标值，f表示回归器：

b＝(b_x,b_y,b_w,b_h)

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

根据本发明实施例的面向夜间场景的单帧图像行人检测装置，通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种计算机设备。

本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时，可实现根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。

根据本发明实施例的计算机设备，处理器执行存储在存储器上的计算机程序时，通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种非临时性计算机可读存储介质。

本发明实施例的非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。

根据本发明实施例的非临时性计算机可读存储介质，处理器执行存储在其上的计算机程序时，通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

对应上述实施例，本发明还提出一种计算机程序产品。

当本发明实施例的计算机程序产品中的指令由处理器执行时，可执行根据本发明上述实施例所述的面向夜间场景的单帧图像行人检测方法。

根据本发明实施例的计算机程序产品，处理器执行其中的指令时，通过将增强处理后的图像输入神经网络中进行训练，并通过在神经网络的特征提取网络融合多个主干网络，在每个主干网络中均融合可变形卷积网络，以及在预测网络中设置双分支结构，所得到的行人检测模型能够实现针对诸如夜间场景图像的行人检测，准确性和鲁棒性较高。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种面向夜间场景的单帧图像行人检测方法，其特征在于，包括以下步骤：

获取包含多个夜间单帧图像的数据集，并对所述数据集中的夜间单帧图像进行增强处理；

构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

通过增强处理后的数据集对所述神经网络进行训练，以得到行人检测模型；

通过所述行人检测模型对待检测夜间单帧图像进行行人检测。

2.根据权利要求1所述的面向夜间场景的单帧图像行人检测方法，其特征在于，对所述数据集中的夜间单帧图像以批数据的形式执行空间层次的图像增强。

3.根据权利要求1或2所述的面向夜间场景的单帧图像行人检测方法，其特征在于，所述特征提取网络为CBNet，所述预测网络包括RPN和Cascade RCNN。

4.根据权利要求3所述的面向夜间场景的单帧图像行人检测方法，其特征在于，通过增强处理后的数据集对所述神经网络进行训练，包括：

将增强后的数据集中的夜间单帧图像I₀输入两个主干网络Backbone1和Backbone2，对于Backbone1结构，I₀首先经过一个卷积操作后形成F_{1_0}特征图，对于Backbone2结构，I₀首先经过一个卷积操作后形成F_{2_0}特征图；之后，F_{1_0}经过Backbone1的R1_1层后，生成特征F_{1_1}，F_{1_1}经过上采样操作后与F_{2_0}进行相加操作，并经过Backbone2的R2_1层，生成特征图F_{2_1}，即D₁；特征F_{1_1}经过Backbone1的R1_2层后，生成特征图F_{1_2}，F_{1_2}经过上采样操作后与F_{2_1}进行相加操作，并经过Backbone2的R2_2层，生成特征图F_{2_2}，即D₂；同理，特征F_{1_2}经过Backbone1的R1_3层后，生成特征图F_{1_3}，F_{1_3}经过上采样操作后与F_{2_2}进行相加操作，并经过Backbone2的R2_3层，生成特征图F_{2_3}，即D₃；最后，特征F_{1_3}经过Backbone1的R1_4层后，生成特征图F_{1_4}，F_{1_4}经过上采样操作后与F_{2_3}进行相加操作，并经过Backbone2的R2_4层，生成特征图F_{2_4}，即D₄；

将特征图D₁、D₂、D₃、D₄分别送入RPN，RPN首先将特征图D₁、D₂、D₃、D₄的每个像素点作为锚点，即映射回原图后的一组锚框的中心点，然后为每个锚点设置3种不同比例、3种不同尺度的锚框作为整个检测流程的基础框；RPN通过两路预测分支分别预测锚框的前景背景得分以及回归偏移量，其中，RPN经过预测后得到锚框的前背景得分，只考虑前景得分超过某个threshold的那些锚框，并对其进行偏移量回归操作，得到区域推荐框，即Proposal，其中，将大小不同的Proposal映射特征进行Pooling操作，得到大小相同的特征，得到后续网络Cascade RCNN的输入特征，后续网络Cascade RCNN主要由三级采用双分支结构的网络Head₁、Head₂、Head₃构成，即将Pooling后的特征和Proposal送入第一级网络Head₁中，预测Proposal的类别得分和回归偏移量，得到第一级网络Head₁的输出框，设为Proposal₁；将各个特征图所对应的Proposal₁分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₁送入第二级网络Head₂中，预测Proposal₁的类别得分和回归偏移量，得到第二级网络Head₂的输出框，设为Proposal₂；最后，将各个特征图所对应的Proposal₂分别映射到D₁、D₂、D₃、D₄上，形成大小不同的映射特征，并将其和Proposal₂送入第三级网络Head₃中，预测Proposal₂的类别得分和回归偏移量，得到第三级网络Head₃的输出框，设为Proposal₃，即最终目标预测框。

5.根据权利要求4所述的面向夜间场景的单帧图像行人检测方法，其特征在于，训练网络时的回归损失L_loc使用平滑的L₁损失，x是ROI(Region Of Interest，感兴趣区域)，b是对ROI的预测坐标，g是标签坐标值，f表示回归器，

b＝(b_x,b_y,b_w,b_h)

对Δ做正则化操作：

δ′_x＝(δ_x-u_x)/σ_x；

检测网络中每个Head_i(i＝1,2,3)的总损失：

L(x^t,g)＝L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g)

b^t＝f_t-1(x^t-1,b^t-1)

6.一种面向夜间场景的单帧图像行人检测装置，其特征在于，包括：

增强模块，所述增强模块用于获取包含多个夜间单帧图像的数据集，并对所述数据集中的夜间单帧图像进行增强处理；

构建模块，所述构建模块用于构建神经网络，其中，所述神经网络包括特征提取网络和预测网络，所述特征提取网络融合多个主干网络，每个所述主干网络中均融合可变形卷积网络，所述预测网络包含双分支结构；

训练模块，所述训练模块用于通过增强处理后的数据集对所述神经网络进行训练，以得到行人检测模型；

检测模块，所述检测模块用于通过所述行人检测模型对待检测夜间单帧图像进行行人检测。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。

9.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行根据权利要求1-5中任一项所述的面向夜间场景的单帧图像行人检测方法。