CN110309747B

CN110309747B - 一种支持多尺度快速深度行人检测模型

Info

Publication number: CN110309747B
Application number: CN201910544072.5A
Authority: CN
Inventors: 高静; 陈志奎; 端辉; 李朋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-09-16
Anticipated expiration: 2039-06-21
Also published as: CN110309747A

Abstract

本发明公开了一种支持多尺度快速深度行人检测模型，包括通过1*1与3*3小卷积核卷积层构建更深层次的特征提取计算架构；基于特征融合金字塔模型设计多尺度深度特征融合计算结构，融合底层强结构特征与高层强语义特征；设计合理网络输出层结构，融合行人中心位置信息、行人边界框的宽高信息、边界框的置信度信息以及行人所属置信度信息，设计对应的误差函数度量网络的代价，通过反向传播算法训练多尺度快速深度行人检测模型；最后，通过反向传播算法对模型参数进行训练，拟合复杂环境中多尺度行人信息。本发明针对实时行人检测的多尺度、深度抽象的特点，设计支持多尺度快速深度行人模型，能够快速有效检测复杂环境中行人。

Description

一种支持多尺度快速深度行人检测模型

技术领域

本发明属于行人检测处理技术领域，涉及一种支持多尺度快速深度行人检测模型。

背景技术

随着社会的快速发展，人们对有效安全保护的需求越来越迫切。行人检测可以准确识别视频流或者静态图片中的行人信息，是一种常用的安全监控手段。然而，当前的行人检测模型大多基于方向梯度直方图(Histogram of Oriented Gradient,HOG)等浅层特征，难以对复杂图像进行深度抽象，从而无法有效地建模行人信息，因此，随着检测环境的日益复杂，这要求行人检测算法能够挖掘出复杂环境中检测图像的深度感知信息，准确地挖掘出不同尺度行人信息。深度卷积特征学习模型基于有监督、半监督、无监督学习策略，通过堆叠多层卷积层、抽样层以及全连接层，逐层构建复杂环境中图像的多层表示，抽取图像中高层行人信息。

深度卷积特征学习模型能够有效地拟合数据中隐含的抽象信息，然而该模型属于单一尺度特征学习模型，无法融合图像的底层结构信息与高层语义抽象信息，难以构建不同尺度上的行人信息，无法有效地适应日益复杂的行人检测环境。金字塔特征融合模型是一种有效的不同尺度特征融合方法，因此本发明基于金字塔模型提出一种支持多尺度快速深度行人检测模型用来识别复杂环境中不同尺度的行人。

实现支持多尺度快速深度行人检测模型具有两个大的挑战：

(1)快速深度行人特征拟合：在日益复杂的环境中，视频检测图像内容复杂包含多种物体对象，对于这类行人检测数据，通过堆叠多层卷积层、抽样层以及全连接层构建深度卷积计算模型，抽象出复杂环境中行人检测数据的深度语义信息。传统的深度卷积特征学习模型，在构建深度网络时结构复杂，计算前向特征消耗大量的计算资源，未能充分利用深度模型的结构知识，模型在抽象复杂环境中的深度语义行人信息时速度慢，无法满足快速实时行人检测的要求。因此如何设计合理的特征提取网络结构，快速地构建有效的行人信息，是实现支持多尺度快速深度行人检测模型的关键问题。

(2)多尺度结构语义特征融合：在日益复杂的环境中，视频检测图像内容复杂，检测图像中包含尺度各异的行人目标。针对这类多目标不同尺度行人检测图像，需要充分对不同尺度底层结构特征信息与高层语义信息进行融合，才能有效地对学习不同尺度的深度行人信息。现有的行人检测模型大多为在单一尺度的特征上构建行人信息，无法充分检测图像中尺度各异的行人目标，因此如何设计有效的多尺度融合特征，有效地实现不同尺度的结构信息与语义信息的融合，实现多尺度结构语义特征融合是设计支持多尺度快速深度行人检测模型的关键问题。

本发明提供的多尺度快速深度行人检测模式通过构建有效的深层网络，快速拟合检测数据中深度行人信息，进而有效地对行人信息进行分析预测，同时，它通过构建多尺度特征融合网络，将检测数据中的底层结构信息与高层语义信息进行融合，进而有效地识别多尺度行人信息。

发明内容

传统的行人检测模型不支持深度特征抽象与多尺度检测，本发明提供了一种支持多尺度快速深度行人检测模型，设计快速的深度特征提取网络与特征融合网络，以应对日益复杂环境中的行人检测迫切需求。

本发明的技术方案：

一种支持多尺度快速深度行人检测模型，包括特征提取模块、特征融合模块以及行人检测模块；所述特征提取模块基于深度卷积特征范式构建输入检测数据的深层抽象表示，所述特征融合模块通过金字塔模型融合输入检测数据的多尺度特征，所述行人检测模块检测行人信息并构建行人定位边界框；采用所述行人检测模型进行行人检测的具体步骤如下：

(1)所述特征提取模块进行深度特征提取计算：基于深度卷积特征模型计算范式，使用3×3卷积层构建特征提取模块的主干网络，随机向特征提取模块的主干网络添加1×1卷积层，所述特征提取模块包括2个单卷积层和5个多卷积层，单卷积层由3*3卷积层、批归一化层、以及LeakyReLU非线性激活函数映射构成，每个单卷积层后各具有1个最大值抽样层，多卷积层由两个单卷积层以及在两个单卷积层之间的1*1卷积层及其对应的批归一化层与LeakyReLU非线性激活函数映射构成，前4个多卷积层后各具有1个最大值抽样层，所述特征提取模块包括23个计算层：17个卷积层和6个最大值抽样层；

3*3卷积：给定的输入特征x∈R^I×I，步长为S，外延为P，则3*3卷积的操作定义如下：

其中，y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，3*3卷积的操作中为((I+P-3)/S+1)*((I+P-3)S/+1)维，m＝i+s-1以及n＝j+h-1；I为输入特征维度，R表示实数集，s为卷积核行索引，h为卷积核列索引；

1*1卷积：给定的输入特征x∈R^I×I，步长为S＝1，外延为P＝0，则1*1卷积的操作定义如下：

y_ijα＝f(x_ij·k_α+b_α) (2)

其中，y_ijα表示第α个输出特征图中的第(i,j)个元素，y表示输出特征，1*1卷积操作中为I*I维度，f表示非线性函数，k_α表示第α个卷积核以及b_α表示对应偏置，x_ij表示输入特征图中的第(i,j)个元素；

最大值抽样：给定的输入特征x∈R^I×I，步长为S＝2，则最大值抽样的操作定义如下：

y_ij＝max(x_ij,x_i+1j,x_ij+1,x_i+1j+1) (3)

其中，y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，最大值抽样操作中为(I/2)*(I/2)维度；

(2)所述特征融合模块进行多尺度特征融合计算：在特征融合阶段计算中，特征提取模块中的卷积层自底至顶逐层构建金字塔模型中的每层特征图，逐层构建输入流向的高层强语义特征，通过上采样操作自顶至底构建金字塔模型中对应层强语义特征，通过通道叠加操作融合金字塔模型中对应层特征，构建最终输出特征；

在特征提取模块中的计算层的第11层、15层、23层分别以52*52、26*26以及13*13多个尺度的特征图上分别进行高层强语义特征与底层强结构特征融合构建特征融合模块；

特征提取模块中的计算层的第11层的输入特征为X⁽⁹⁾，同时

分别表示网络第9层卷积核、10层卷积核以及11层卷积核，则特征融合模块中自底向顶流向第一特征图O⁽¹¹⁾的计算如下：

其中，f表示非线性映射函数，b表示对应层偏置；

特征融合模块中自底至顶流向的第二特征图O⁽¹⁵⁾与第三特征图O⁽²³⁾计算公式分别如下：

特征融合模块中自顶至底流向的第一强语义特征图TO⁽²³⁾与特征融合模块中自底至顶流向的第三特征图O⁽²³⁾一致；

第二强语义特征图TO⁽¹⁵⁾的计算形式如下：

TO⁽¹⁵⁾＝upsample(TO⁽²³⁾*K_1×1) (7)

其中，upsample表示上采样操作；

第三强语义特征图TO⁽¹¹⁾的计算形式如下：

其中，

表示通道叠加；

特征融合模块中的输出层的多尺度特征图的如下：

FO⁽²³⁾＝TO⁽²³⁾*K_1×1 (9)

其中，FO⁽¹¹⁾、FO⁽¹⁵⁾、FO⁽²³⁾分别表示第11层、15层、23的多尺度融合特征图；

多尺度特征融合的计算包括3*3卷积操作、1*1卷积操作以及上采样操作，3*3卷积操作、1*1卷积操作形式化定义分别如式(1)和式(2)，上采样操作形式化定如下：

上采样：给定的输入特征x∈R^I×I，步长为S＝2，则上采样的操作定义如下：

y_ij＝upsample(x_ij) (12)

即将x中每一个元素复制到2*2特征图的其中，y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，上采样操作中为2I*2I维度；

(3)所述行人检测模块进行检测计算：所述行人检测模块通过行人中心位置信息、行人边界框的宽高信息、边界框的置信度信息以及行人所属置信度信息构建行人检测计算的网络输出层，通过张量升阶操作将多尺度特征融合模块的输出中，13*13*18的张量升阶为13*13*3*6的张量，26*26*18的张量升阶为26*26*3*6的张量，52*52*18的张量升阶为52*52*3*6的张量；

所述行人检测模块涉及的行人检测代价函数，其包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测行人类别置信度损失，其中

预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示行人检测器输出结果个数；I_i表示第i个输出结果中是否包含行人目标，I_i＝1表示包含，I_i＝0表示不包含；t_w×t_h表示行人目标边界框的相对面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示行人目标的真实中心坐标位置，b_x,b_y表示预测的行人目标中心点坐标位置；

预测边界框宽高损失E₂的形式定如下：

其中，t_w,t_h表示行人目标真实边界框的高度和宽度，b_w,b_h表示行人目标预测边界框的高度和宽度；

预测边界框置信度损失E₃的形式定义如下：

其中t_c表示行人目标边界框真实置信度，p_c表示网络预测的行人目标边界框；

预测行人类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (16)

其中，I_i表示预测边界框中心坐标损失第i个输出结果中是否包含行人目标，也表示真实数据行人的概率，I_i＝1表示包含时，概率为1，I_i＝0表示不包含时，概率为0，p_i表示是预测的行人置信度或者概率；

综合上述E₁、E₂、E₃、E₄，所述行人检测代价函数形式化定义如下：

本发明的有益效果：本发明面向行人检测的准确性、快速性以及多尺度性的特点设计了支持多尺度检测的快速深度行人检测模型，以克服当前行人检测模型无法抽象检测数据的深度语义以及无法检测不同尺度行人目标的难题，从而提升模型对多尺度行人检测的准确性与实时性。重点是设计了面向行人检测的深度特征提取模块、面向行人检测多尺度特征融合模块以及面向行人检测检测模块。

附图说明

图1是本发明实施例中提供的支持多尺度快速深度行人检测模型的框架图。

图2是本发明实施例中提供的支持多尺度快速深度行人检测模型的特征提取模块的示意图。

图3是本发明实施例中提供的支持多尺度快速深度行人检测模型的特征融合模块的示意图。

图4是本发明实施例中提供的支持多尺度快速深度行人检测模型的行人检测模块的示意图。

图5是基础深度特征提取网络的示意图。

图6显示增加小卷积块进行行人检测的漏检率的结果示意图。

图7显示增加小卷积块进行行人检测的速度的结果示意图。

图8(a)和图8(b)显示标准数据集中多尺度快速深度行人检测的实时验证示意图。

图9(a)至图9(h)显示真实复杂环境中采用本发明实施例中提供的支持多尺度快速深度行人检测模型进行实时检测的验证示意图。

图10是本发明实施例中提供的支持多尺度快速深度行人检测模型的检测流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

图1至图4分别是本发明实施例中提供的支持多尺度快速深度行人检测模型的框架图、特征提取模块、特征融合模块、行人检测模块的示意图。参见图1至图4，在本实施例中提供的多尺度快速深度行人检测模型包括：特征提取模块、特征融合模块以及行人检测模块。其中，特征提取模块基于深度卷积特征计算范式堆叠多层卷积层、抽样层构建深度特征提取模型，逐层拟合输入检测数据的深层抽象表示；特征融合模块基于金字塔模型构建特征融合网络，融合输入检测数据的多尺度特征；行人检测模块构建多尺度快速行人检测模型的输出层，检测行人信息构建行人定位边界框，并通过反向传播算法对多尺度快速深度行人检测模型参数进行训练。

多尺度快速深度行人检测模型通过堆叠多个卷积层和抽样层构建深度特征抽取与多尺度特征融合网络，其包括反向参数更新计算与前向特征提取计算，在反向参数更新计算中，行人检测模型采用反向传播算法对网络参数进行更新，在前向特征提取过程中，行人检测模型涉及深度特征提取计算、多尺度特征融合计算以及行人检测计算三个过程，具体计算如下：

(1)特征提取模块进行深度特征提取计算：在计算机视觉领域更深层次的特征对输入图像具有更强的抽象能力，因此，本实施例中提供的支持多尺度快速深度行人检测模型在不改变深度卷积特征模型计算范式的前提下，通过使用小尺度卷积核卷积层学习输入检测数据特征，在确保计算复杂性的前提下，构建更深层特征提取网络结构，建模输入图像的更深层特征提高模型识别能力。具体地，首先使用3×3卷积层构建特征提取模块的主干网络，在减少模型参数的同时增加模型深度；然后随机向特征提取模块的主干网络添加1×1卷积层，在不过多增加网络参数的前提下进一步提高深度特征提取网络的深度，最终提高模型的学习能力。

具体地，探索卷积层网络的计算结构，设计合理的面向行人检测的深度网络计算结构，并着重向深度特征提取网络中添加小卷积核计算层，在不增加大量网络参数的前提下，提高网络对检测图像特征抽象能力，用于拟合输入数据的本质特征表示。

参见图1和图2，特征提取模块包括2个单卷积层(SCL)和5个多卷积层(MCL)，单卷积层结构由一个3*3卷积层加批归一化层再加上LeakyReLU非线性激活函数构成，每个单卷积层后各具有1个最大值抽样层。多卷积层结构在两个SCL结构中间添加1*1卷积及其对应的批归一化层与LeakyReLU非线性激活函数，前4个多卷积层后各具有1个最大值抽样层。因此，特征提取模块包括23个计算层：17个卷积层和6个最大值抽样层。特征提取模块中行人检测深度特征提取模块的网络参数具体如表1所示。

表1特征提取模块中行人检测深度特征提取网络参数说明表

其中，Conv表示卷积层；Maxpooling表示最大抽样。

面向行人检测的深度特征提取模块的网络接受416*416维的图像输入，输出13*13维的特征图。面向行人检测的深度特征提取模块的网络主要涉及3*3卷积操作、1*1的卷积操作以及最大抽样(Maxpooling)操作。网络涉及主要的操作形式化定义如下：

3*3卷积定义：对于给定的输入特征x∈R^I×I，步长(stride)为S，外延(padding)为P，则3*3卷积的操作定义如下：

其中，y_ij表示输出特征图中第(i,j)个元素(其中，i和j表示输出特征图维度索引)，y表示输出特征，3*3卷积操作中为((I+P-3)/S+1)*((I+P-3)S/+1)维度，m＝i+s-1以及n＝j+h-1；I为输入特征维度，R表示实数集，s为卷积核行索引，h为卷积核列索引。

在面向行人检测的深度特征提取网络中使用3*3的卷积，可以在不影响对输入图像特征维度缩减的情况下有效地减少网络参数，提高网络的拟合能力降低网络过拟合风险。此外，通过在网络中使用3*3的卷积层可以有效地提高对输入数据中不明显物体的提取，尤其是小尺寸目标的特征识别能力，提高网络对小尺度行人的检测能力。

1*1卷积定义：对于给定的输入特征x∈R^I×I，步长为S＝1，外延为P＝0，则1*1卷积的操作定义如下：

y_ijα＝f(x_ij·k_α+b_α) (2)

其中，y_ijα表示第α个输出特征图中的第(i,j)个元素，y表示输出特征，1*1卷积的操作中为I*I维度，f表示非线性函数，k_α表示第α个卷积核以及b_α表示对应偏置，x_ij表示输入特征图中的第(i,j)个元素。

在面向行人检测的深度特征提取网络中使用1*1的卷积，可以提高网络对局部特征的非线性模式的识别能力，提高对输入图像学习能力；同时其通过计算通道的融合计算可以有效融合对前层输出的底层语义表示进行有效地组合构建高层抽象表示；此外，向特征网络中添加1*1卷积层可以不大量增加网络参数的情况下，进一步提高特征提取网络的深度，使特征提取网络有效地构建行人深度表示。

最大抽样定义：对于给定的输入特征x∈R^I×I，步长为S＝2，则最大抽样的操作定义如下：

y_ijs＝max(x_ijs,x_i+1js,x_ij+1s,x_i+1j+1s) (3)

其中，y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，最大抽样操作中为(I/2)*(I/2)维度。

在面向行人检测的深度特征提取网络中使用最大抽样层，可以压缩网络输入数据的特征维度，同时最大抽样层捕获通过局部感知域中凸显特征，抑制局部感知域中的非突显特征，可以有效防止由输入数据中行人的变形导致的特征提取网络对检测效率降低的现象。

(2)特征融合模块进行多尺度特征融合计算：在快速行人检测中，行人与摄像设备间的距离的多样性要求检测模型对于尺度不同目标都具有较好的检测能力，因此，本实施例中提供的支持多尺度快速深度行人检测模型采用特征融合金字塔模型有效地融合网络的低维高层强语义特征与高维底层强结构特征，提高快速行人检测模型的多尺度检测能力，尤其是小尺度行人检测能力。具体地，首先通过特征融合阶段的卷积层自底至顶逐层构建金字塔模型中的每层特征图，逐层构建输入图像的语义特征；然后通过上采样操作自顶至底构建金字塔模型中对应层强语义特征(即，经过上采样后的强语义特征)，最后，通过通道叠加操作融合金字塔模型中对应层特征构建最终输出特征。

基于金字塔特征融合模型，设计合理的多尺度特征融合网络结构，融合低维高层强语义特征与高维底层强结构语义特征，在不同特征尺度上构建行人数据的感知表示，提高网络对行人捕获能力。

图3是本发明实施例中提供的支持多尺度快速深度行人检测模型的特征融合模块的示意图。如图1和图3所示，在特征提取模块中的计算层的第11层、15层、23层分别以52*52、26*26以及13*13等多个尺度的特征图上分别进行高层强语义特征与底层强结构特征融合构建特征融合模块。

深度特征融合模块的网络包括3个SCL层，3个来自特征提取模块的MCL层(MCL3-MCL5)以及2个上采样层(UpSampling)，其中，前2个MCL(MCL3和MCL4)后各跟一个最大值抽样层。3个SCL层用于约束多尺度特征的维度，2个上采样层将高层强语义特征扩展至对应尺度特征强语义特征图，上采样层结构由SCL结构加上一个2倍上采样层构成。3个MCL层用于逐层学习输入行人数据的强语义表示，Concat表示特征通道叠加融合。

多尺度特征融合阶段的计算过程如下：当行人检测数据经过深度特征提取网络达到多尺度特征融合网络时，深度特征首先自底至顶通过3*3卷积层与1*1卷积层逐层构建金字塔模型中的每层特征图，然后通过上采样操作自顶至底将高层强语义特征反映射到对应层强语义特征，最后，将前向强结构特征与反向强语义特征进行通道融合，构建行人数据的最终不同尺度特征。

特征提取模块中的计算层的第11层输入特征X⁽⁹⁾，同时

其中，f表示非线性映射函数，b表示对应层偏置。

同理，融合网络自底至顶流向的第二特征图O⁽¹⁵⁾与第三特征图O⁽²³⁾计算公式如下：

特征融合模块中自顶至底流向的第一强语义特征图TO⁽²³⁾与特征融合模块中自底至顶流向的第三特征图O⁽²³⁾一致。

第二强语义特征图TO⁽¹⁵⁾的计算形式如下：

TO⁽¹⁵⁾＝upsample(TO⁽²³⁾*K_1×1) (7)

其中，upsample表示上采样操作。

第三强语义特征图TO⁽¹¹⁾的计算形式如下：

其中，

表示通道叠加。

特征融合模块中的输出层的多尺度特征图的如下：

FO⁽²³⁾＝TO⁽²³⁾*K_1×1 (9)

其中，FO⁽¹¹⁾、FO⁽¹⁵⁾、FO⁽²³⁾分别表示第11层、15层、23的多尺度融合特征图。

多尺度特征融合阶段的计算主要包括3*3卷积操作、1*1卷积操作以及上采样操作，3*3卷积操作、1*1卷积操作形式化定义如上述式(1)和式(2)，上采样操作形式化定如下：

上采样定义：给定的输入特征x∈R^I×I，步长为S＝2，则上采样的操作定义如下：

y_ijs＝upsample(x_ij) (12)

即将x中每一个元素复制到2*2特征图的其中，y表示输出特征，上采样操作中为2I*2I维度，y_ij表示输出特征图中第(i,j)个元素。

在深度特征提取层第11层、15层、23层分别以52*52、26*26以及13*13等多个尺度的征图上分别进行高层强语义特征与底层强结构特征融合构建特征融合网络。

(3)行人检测模块进行行人检测计算：在行人检测计算中，模型不仅要检测出图像中是否包含行人，而且还要提供行人位置信息，即模型要在检测图像中准确标注出行人边界框。因此，本实施例中提供的支持多尺度快速深度行人检测模型通过行人中心位置信息、行人边界框的宽高信息、边界框的置信度信息以及行人所属置信度信息等4种信息构建行人检测计算的网络输出层。同时，基于均方差误差函数设计中心位置信息、边界框的宽高信息、边界框的置信度信息以及行人所属置信度信息误差函数来度量模型的输出。

具体地，设计合理网络输出层结构，融合行人中心位置信息、行人边界框的宽高信息、边界框的置信度信息以及行人所属置信度信息，在检测图像中是否包含行人的同时提供准确的标注出行人边界框。通过张量升阶操作将多尺度特征融合模块的输出，13*13*18的张量升阶为13*13*3*6的张量，26*26*18的张量升阶为26*26*3*6的张量，52*52*18的张量升阶为52*52*3*6的张量。此外，设计对应的误差函数度量网络的代价，通过反向传播算法训练多尺度快速深度行人检测模型。

参见图1和图4，其中，(x,y)表示预测的目标的中心位置，(w,h)表示边界框的宽和高，剩余两维表示边界框的置信度以及行人的置信度。为了训练多尺度快速深度行人检测模型，本实施例中提供的支持多尺度快速深度行人检测模型基于均方差代价函数设计了面向行人检测代价函数，其包括预测边界框中心坐标损失、预测边界框宽高损失、预测边界框置信度损失和预测行人类别置信度损失。具体地：

①预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示行人检测器输出结果个数；I_i表示第i个输出结果中是否包含行人目标，I_i＝1表示包含，I_i＝0表示不包含；t_w×t_h表示行人目标边界框的相对面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示行人目标的真实中心坐标位置，b_x,b_y表示预测的行人目标中心点坐标位置。

②预测边界框宽高损失E₂的形式定如下：

其中，t_w,t_h表示行人目标真实边界框的高度和宽度，b_w,b_h表示行人目标预测边界框的高度和宽度。

③预测边界框置信度损失E₃的形式定义如下：

其中t_c表示行人目标边界框真实置信度，p_c表示网络预测的行人目标边界框置信度。

④预测行人类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (16)

其中，I_i表示预测边界框中心坐标损失表示第i个输出结果中是否包含行人目标，也表示真实数据行人的概率。I_i＝1表示包含时，概率为1，I_i＝0表示不包含时，概率为0。p_i表示是预测的行人置信度或者概率。

综上所述，所述行人检测代价函数形式化定义如下：

其中，E₁表示预测边界框中心坐标损失，E₂表示预测边界框宽高损失，E₃表示预测边界框置信度损失，E₄表示预测行人类别置信度损失。

结合本发明的技术方案，进行实验验证如下：

为了验证本发明实施例中提供的支持多尺度快速深度行人检测模型的有效性，将多尺度快速深度行人检测模型分别与典型的行人检测算法(HOG+SVM)、多目标检测算法(Tiny-YoLo、YoLo-V3)进行对比，验证本发明实施例中提供的支持多尺度快速深度行人检测模型的快速性与多尺度的有效性。具体地，首先验证小卷积核3*3卷积对行人深度特征提取的有效性，然后验证小卷积核1*1卷积层对行人深度特征抽取的有效性，最后通过与典型模型对比验证所设计行人检测模型的有效性。为了进一步验证多尺度行人检测模型的有效性，将行人检测算法(HOG+SVM)、多目标检测算法(Tiny-YoLo、YoLo-V3)以及多尺度行人检测算法融合到行人检测系统中验证本发明实施例中提供的支持多尺度快速深度行人检测模型的有效性。

1)实验验证数据集：

本发明使用公开的数据多类目标检测数据集(PASCAL VOC 2007+2012)和行人检测数据集(INRIA)验证多尺度快速深度行人检测模型的有效性。具体地：本发明抽取PASCALVOC 2007+2012中行人检测图像，并将其与INRIA融合，构建最终的实验数据集。融合后的数据集包含9180张训练行人图像，288张测试行人图像。

2)实验验证标准：

本发明模型漏检率与模型预测速度来验证多尺度快速深度行人检测模型：

漏检率MR：表示被错误判断成非行人目标样本占总的行人目标样本的比例，形式化定义：

其中，FN(False Negative)表示将行人目标错误判读为非行人目标的数量，TP(True Positive)表示将行人目标正确判断的数量，TN(True Negative)表示将非行人目标正确判断的数量。

预测速度FPS，即帧率表示一秒内连续显示模型预测的图像数。例如，检测模型一秒钟可以预测M张图像，那么模型的预测速度FPS就为M

3)实验结果

首先验证行人检测数据深度特征提取计算中小卷积核3*3卷积核对行人检测影响。具体的本发明在基本深度卷积特征融合模型(图5)基础之上向网络中添加1、2、3、4个3*3卷积层(分别加在了图5中的SCL3，SCL4，SCL5，SCL6后面)，验证3*3的小卷积层行人检测网络的性能提升，实验结果如表2所示。

表2增加3*3卷积层检测情况

如表2所示，向基本深度卷积特征融合模型添加3*3卷积层可以得到两个结论。第一，随着3*3卷积层数不断增加，模型的漏检率在逐渐下降，即随着网络深度的增加，行人的检测准确率也随之增加，这是因为随着向基础深度卷积深度网络中添加3*3计算层，网络结构加深，深度特征提取网络的拟合能增强。第二，检测速度FPS随着3*3卷积层数不断增加，也在逐渐变慢，这是因为在增加卷积层数后，参数量变多，网络结构变得复杂，特征在抽取过程中计算量增大，使得算法检测速度变慢。实验表明向基础深度卷积提取网络中添加3*3小卷积核可以调高深度网络对行人检测数据抽象能力，但同时增加了网络计算时间。

进一步验证行人检测数据深度特征提取计算中1*1小卷积核卷积核对行人检测影响。具体地，向网络中添加1、2、3、4个1*1卷积层验证1*1的小卷积层行人检测网络的性能提升，在图5的基础上，分别在SCL3，SCL4，SCL5，SCL6后增加3*3与1*1卷积块，实验结果如表3所示。

表3增加3*3与1*1卷积层情况

表3呈现了在增加3*3卷积与1*1卷积块对行人检测性能的影响。从表中发现1*1小卷积核卷积层与3*3卷积核卷积层对行人检测算法具有相同的功效，可以提升深度特征提取网络对复杂图像的抽象能力，但会增加一定的计算代价。

通过图6与图7可以发现，在增加3*3卷积层后在跟随增加相应的1*1卷积层可以进一步降低模型的漏检率，提升模型对行人检测数据的抽象能力。此外，在增加1*1卷积层后，行人检测算法的检测速度相对于只增加3*3的检测速度提升，这是因为1*1卷积层通过通道融合有效地减少了检测模型参数的计算量。

多尺度特征融合网络有效性验证

基于上述结果，本发明采用基础深度卷积特征提取网络上增加5个3*3卷积与1*1卷积结合的卷积块网络结构验证多尺特征融合网络对行人检测的有效。分别向网络的23层、15层、11层逐层增加尺度为13、26、52的融合网络来验证多尺度特征网络的效果。实验结果如表3所示。

通过表3实验数据可以发现，通过向模型中增加多尺度特征融合网络，行人检测模型的漏检率在深度特征提取网络的基础上，模型的漏检率进一步降低。此外，随着特征尺度个数的增加，漏检率可以进一步下降，检测的准确度得到了提升，这是因为多尺度特征融合网络可以从不同尺度对检测数据从强结构与强语义角度进一步提升对模型的描述能力。

表3多尺度特征融合网络验证结果

多尺度快速深度行人检测模型

本发明采用基础深度卷积特征提取网络上增加5个3*3卷积与1*1卷积结合的卷积块网络结构与三层多尺度特征融合网络(即，由23层、15层、11层组成的3层多尺度特征融合网络，最终获得如图2所示的特征提取网络结构)的结构验证对行人检测的有效性，本发明通过与典型算法行人检测算法HOG+SVM、Tiny-YoLo以及YoLov3对比，实验结果如表4所示。

表4多尺度快速深度行人检测算法结果

通过表4的实验结果可以得到2个现象。第一，本实施例中提供的支持多尺度快速深度行人检测模型的多尺度快速深度行人检测算法相对HOG+SVM与Tiny-YoLo相比，可以很多程度上降低行人检测的漏检率，提高行人检测的准确性，具体地，本实施例中提供的支持多尺度快速深度行人检测模型相对于HOG+SVM算法漏检率减少了37.01％，相对于Tiny-YoLo减少9.25％，这是因为本实施例中提供的支持多尺度快速深度行人检测模型所设计的小卷积核深度特征提取网络可以对检测图像具有更好的抽象能力，同时本实施例中提供的支持多尺度快速深度行人检测模型所设计多尺度融合网络可以有效地对行人检测图像中结构特征与语义特征进行不同尺度地融合。虽然，本发明所设计的多尺度快速深度行人检测模型，在检测速度上慢于Tiny-YoLo 80FPS，然而本发明所设计的多尺度快速深度行人检测模型检测速度可以达到152FPS，其完全可以满足快速行人检测的需求。

第二，虽然YoLo-v3算法在行人检测过程中的漏检率达到最低3.09％，但本发明实施例中提供的支持多尺度快速深度行人检测模型的漏检率可以达到近似结果6.31％，准确率可以满足快速行人检测的要求。此外，YoLo-v3算法在行人检测过程中的检测速度只有35FPS，其无法发满足快速行人检测应用的需求，而本发明实施例中提供的支持多尺度快速深度行人检测模型的检测速度为152FPS，其完全可以满足快速行人检测的需求。综上，本发明的多尺度快速行人检测模型在漏检率与检测速度方面折中，同时可以达到快速行人检测的需求。

实时行人检测系统验证

为了进一步验证多尺度行人检测模型的有效性，本发明实施例中提供的支持多尺度快速深度行人检测模型将多尺度快速深度行人检测算法融合到行人检测系统中，验证本发明实施例中提供的支持多尺度快速深度行人检测模型对行人检测的有效性。实验结果如图8(a)和图8(b)以及图9(a)至图9(h)所示。

图8(a)和图8(b)中展示了真实场景中本实施例中提供的支持多尺度快速深度行人检测模型对实时行人检测结果，从图中可以发现本发明实施例中提供的支持多尺度快速深度行人检测模型可以检测出图中所有行人，即使行人之间有重叠，本发明提供的检测模型也可以有效地检测出来行人信息。

图9(a)至图9(h)中展示了实时行人检测的结果。其中图9(a)、图9(c)、图9(e)、图9(g)为时间间隔为1秒的原始视频图像，图9(b)、图9(d)、图9(f)、图9(g)为本发明实施例中提供的支持多尺度快速深度行人检测模型对应的行人检测结果。从图9(a)至图9(h)的检测结果中可以发现，本发明实施例中提供的支持多尺度快速深度行人检测模型有效的检测出监控视频中的所有行人，同时算法可以实时锁定监控视频中的所有行人。此外，算法的时效性也满足行人检测场景的要求。

Claims

1.一种支持多尺度快速深度行人检测模型，其特征在于，该支持多尺度快速深度行人检测模型包括特征提取模块、特征融合模块以及行人检测模块；所述特征提取模块基于深度卷积特征范式构建输入检测数据的深层抽象表示，所述特征融合模块通过金字塔模型融合输入检测数据的多尺度特征，所述行人检测模块检测行人信息并构建行人定位边界框；采用所述行人检测模型进行行人检测的具体步骤如下：

(1)所述特征提取模块进行深度特征提取计算：基于深度卷积特征模型计算范式，使用3×3卷积层构建特征提取模块的主干网络，随机向特征提取模块的主干网络添加1×1卷积层，所述特征提取模块包括2个单卷积层和5个多卷积层，单卷积层由3*3卷积层、批归一化层、以及LeakyReLU非线性激活函数映射构成，每个单卷积层后各具有1个最大值抽样层；多卷积层由两个单卷积层以及在两个单卷积层之间的1*1卷积层及其对应的批归一化层与LeakyReLU非线性激活函数映射构成，前4个多卷积层后各具有1个最大值抽样层；所述特征提取模块共包括23个计算层：17个卷积层和6个最大值抽样层；

其中，y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，3*3卷积的操作中为((I+P-3)/S+1)*((I+P-3)/S+1)维，m＝i+s-1以及n＝j+h-1；I为输入特征维度，R表示实数集，s为卷积核行索引，h为卷积核列索引；f表示非线性映射函数；b表示对应层偏置；

y_ijα＝f(x_ij·k_α+b_α) (2)

y_ij＝max(x_ij,x_i+1j,x_ij+1,x_i+1j+1) (3)

分别表示网络第9层卷积核、10层卷积核以及11层卷积核，则特征融合模块中自底至顶流向的第一特征图O⁽¹¹⁾的计算如下：

第二强语义特征图TO⁽¹⁵⁾的计算形式如下：

TO⁽¹⁵⁾＝upsample(TO⁽²³⁾*K_1×1) (7)

其中，upsample表示上采样操作；

第三强语义特征图TO⁽¹¹⁾的计算形式如下：

其中，

表示通道叠加；

特征融合模块中的输出层的多尺度特征图的如下：

FO⁽²³⁾＝TO⁽²³⁾*K_1×1 (9)

y_ij＝upsample(x_ij) (12)

即将x中的每一个元素复制到2*2特征图，其中y_ij表示输出特征图中第(i,j)个元素，y表示输出特征，上采样操作中为2I*2I维度；

预测边界框中心坐标损失E₁的形式化定义如下：

其中，N表示行人检测器输出结果个数；I_i表示第i个输出结果中是否包含行人目标，I_i＝1表示包含，I_i＝0表示不包含；t_w×t_h表示行人目标真实边界框的面积，取值范围(0,1)，用于加权预测的边界框；t_x,t_y表示行人目标的真实中心坐标位置，b_x,b_y表示预测的行人目标中心点坐标位置；

预测边界框宽高损失E₂的形式定如下：

预测边界框置信度损失E₃的形式定义如下：

预测行人类别置信度损失E₄的形式定义如下：

E₄＝(I_i-p_i)² (16)