CN109101914B

CN109101914B - 一种基于多尺度的行人检测方法和装置

Info

Publication number: CN109101914B
Application number: CN201810862611.5A
Authority: CN
Inventors: 李磊; 董远; 白洪亮; 熊风烨
Original assignee: Suzhou Feisou Technology Co ltd
Current assignee: SUZHOU FEISOU TECHNOLOGY Co.,Ltd.
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-08-20
Anticipated expiration: 2038-08-01
Also published as: CN109101914A

Abstract

本发明实施例提供一种基于多尺度的行人检测方法和装置，其中所述方法包括:将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；将图像特征集合输入至特征融合模型，输出融合特征；将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于回归结果和分类结果得到行人检测结果。本发明实施例提供的方法和装置，在实现多尺度行人检测的同时，简化了特征提取模型，增加了行人检测的灵活性，减少了计算开销，避免了过多的资源占用，提高了多尺度行人检测的准确率。

Description

一种基于多尺度的行人检测方法和装置

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种基于多尺度的行人检测方法和装置。

背景技术

行人检测可定义为：判断输入图片(或视频帧)是否包含行人，如果有，给出位置信息。行人检测是计算机视觉领域的一个研究热点，是车辆辅助驾驶、智能视频监控和人体行为分析等应用中的第一步，近年来也应用在航拍图像、受害者营救等新兴领域中。

现实场景中，由于监控设备的高度、拍摄角度、行人与监控设备距离变化等因素，监控设备拍摄到的行人的大小各异，尺寸跨度很大，这给行人检测带来了困难。目前，针对图像中行人尺寸多变的问题，主要有一下两种策略：其一是应用单一模型针对多尺度图像和特征图进行行人检测，一般具有较好的精度，但是计算开销大，主要代表为RCNN，将输入的目标区域全都缩放到同一尺寸计算卷积特征。其二是应用多个模型，其中每一模型针对单一图像尺寸和特征图进行行人检测，避免重复计算特征，但是对每个尺度生成一个检测器，较为复杂。

发明内容

本发明实施例提供一种基于多尺度的行人检测方法和装置，用以解决现有的针对多尺度的行人检测方法存在计算开销大或操作复杂的问题。

一方面，本发明实施例提供一种基于多尺度的行人检测方法，包括：

将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；

将图像特征集合输入至特征融合模型，输出融合特征；

将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果；其中，特征提取模型、特征融合模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

另一方面，本发明实施例提供一种基于多尺度的行人检测装置，包括：

特征提取模块，用于将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；

特征回归分类模块，用于将图像特征集合输入至特征回归分类模型，输出待检测图像的行人检测结果；其中，特征提取模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

又一方面，本发明实施例提供一种基于多尺度的行人检测设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如前所述的基于多尺度的行人检测方法。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的基于多尺度的行人检测方法。

本发明实施例提供的一种基于多尺度的行人检测方法和装置，通过特征提取模型提取多层级的图像特征，以适应多尺度的行人检测需求。同时基于Resnet网络，保护图像特征的完整性，从而在实现多尺度的行人检测的同时，简化了特征提取模型，增加了行人检测的灵活性，减少了计算开销，避免了过多的资源占用，提高了多尺度行人检测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种基于多尺度的行人检测方法的流程示意图；

图2为现有技术中的两层Resnet网络的结构示意图；

图3为本发明实施例的一种特征提取模型的结构示意图；

图4为本发明实施例的一种特征提取模型的结构示意图；

图5为本发明实施例的一种特征融合模型的结构示意图；

图6为本发明实施例的一种基于多尺度的行人检测装置的结构示意图；

图7为本发明实施例的一种基于多尺度的行人检测设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现实场景中，由于监控设备的高度、拍摄角度、行人与监控设备距离变化等因素，监控设备拍摄到的行人的大小各异，尺寸跨度很大，这给行人检测带来了困难。而现有的多尺度解决方案存在计算开销大或操作复杂的问题，为了解决这一问题，本发明实施例提出了一种能够适应多尺度的行人检测方法，图1为本发明实施例的一种基于多尺度的行人检测方法的流程示意图，如图1所示，所述方法包括：

101，将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成。

在执行上述步骤之前，可以先获取待检测图像。此处，待检测图像可以是任意需要进行行人检测的图像，例如监控设备拍摄的图像、从监控设备拍摄的视频中提取的视频帧，本发明实施例对此不作具体限定。

其中，Resnet网络(Residual Network)即残差网络，图2为现有技术中的两层Resnet网络的结构示意图，如图2所示，Resnet网络能够直接将输入信息绕道到输出，保护信息的完整性，加深网络，减缓因网络层数不断加深导致在训练集上误差增大、梯度弥散的问题。基于Resnet网络建立的特征提取模型中，首层卷积单元的输入为待检测图像，此外每层卷积单元的输入为上层卷积单元输出的图像特征，通过从特征提取模型中的不同层的卷积单元来获取图像特征，能够得到适应进行不同尺度的行人检测的图像特征。例如，低层的卷积单元输出的图像特征，具备更小的感受野，更加适合进行小目标的检测，而高层的卷积单元输出的图像特征，则对于大目标的检测更加准确。需要说明的是，特征提取模型中的卷积单元的数量可以根据实际应用需求确定，本发明实施例中对此不作具体限定。

例如，图3为本发明实施例的一种特征提取模型的结构示意图，如图3所示，基于Resnet网络建立的包括4层卷积单元的特征提取模型，对应地，图像特征集合包括卷积单元1输出的图像特征1、卷积单元2输出的图像特征2、卷积单元3输出的图像特征3和卷积单元4输出的图像特征4。

102，将图像特征集合输入至特征融合模型，输出融合特征。

此处，特征融合模型用于将图像特征集合中每一卷积单元输出的图像特征进行融合，得到适用于多尺度的图像特征，即融合特征。

103，将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果。

具体地，将融合特征输入到特征回归分类模型，特征回归分类模型基于融合特征对待检测图像进行行人检测，输出行人检测结果，特征回归分类模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对特征回归分类模型的类型和结构作具体限定。

此处，融合特征的回归结果用于指示待检测图像中行人的位置信息，融合特征的分类结果用于指示待检测图像中对应位置信息为行人或背景的概率。基于融合特征的回归结果和分类结果，可以得到待检测图像的行人检测结果。

其中，特征提取模型、特征融合模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

在执行上述步骤之前，还可预先训练得到特征提取模型、特征融合模型和特征回归分类模型，具体可通过如下方式训练得到特征提取模型、特征融合模型和特征回归分类模型：首先，收集大量样本图像，针对每一样本图像，标记该样本图像的样本行人检测结果。随后，基于样本图像和样本图像对应的样本行人检测结果对初始特征提取模型、初始特征融合模型和初始特征回归分类模型进行训练，从而得到特征提取模型、特征融合模型和特征回归分类模型。

本发明实施例提供的方法，通过特征提取模型提取多层级的图像特征，以适应多尺度的行人检测需求。同时基于Resnet网络，保护图像特征的完整性，从而在实现多尺度的行人检测的同时，简化了特征提取模型，增加了行人检测的灵活性，减少了计算开销，避免了过多的资源占用，提高了多尺度行人检测的准确率。

特征融合模型特征融合模型基于上述任一实施例，一种基于多尺度的行人检测方法，101，将待检测图像输入至特征提取模型，输出图像特征集合，具体包括：

针对任一卷积单元，对该卷积单元的上层卷积单元输出的图像特征进行降采样和卷积，得到该卷积单元的卷积特征；将该卷积单元的卷积特征与上层卷积单元输出的图像特征相加，作为该卷积单元输出的图像特征。

此处，卷积单元包括降采样和卷积两部分，降采样是降低特定信号的采样率的过程，通常用于降低数据传输速率或者数据大小，本发明实施例中用于对图片进行缩小以获取较低分辨率的图片，每经过一次降采样，图像的尺度降一杯，即长宽变为原来的一半。

图4为本发明实施例的一种特征提取模型的结构示意图，如图4所示的基于Resnet网络建立的包含4层卷积单元的特征提取模型，卷积单元1对待检测图像进行降采样和卷积，得到卷积单元1的卷积特征1，并将卷积特征1与待检测图像相加，作为卷积单元1输出的图像特征1，此处的图像特征1为4倍特征。在此基础上，卷积单元2对4倍特征进行降采样和卷积，得到卷积特征2，并将卷积特征2与4倍特征相加，作为卷积单元2输出的图像特征2，此处的图像特征2为8倍特征。卷积单元3对8倍特征进行降采样和卷积，得到卷积特征3，并将卷积特征3与8倍特征相加，作为卷积单元3输出的图像特征3，此处的图像特征3为16倍特征。卷积单元4对16倍特征进行降采样和卷积，得到卷积特征4，并将卷积特征4与16倍特征相加，作为卷积单元4输出的图像特征4，此处的图像特征4为32倍特征。

基于上述任一实施例，一种基于多尺度的行人检测方法，102，将图像特征集合输入至特征融合模型，输出融合特征，具体包括：

1)将图像特征集合中任一卷积单元输出的图像特征进行归一化计算，得到该卷积单元的归一化特征。

此处，对每一卷积单元输出的图像特征进行归一化，是为了规避不同层的卷积单元输出的图像特征数值分布不同的问题。常用的归一化方法包括线性比例变换法、极差变换法和0均值标准化方法等，本发明实施例对此不作具体限定。

作为优选，本发明实施例应用图像特征的L2模值进行归一化。其计算流程如下：

其中，x是任一图像特征的全部像素点组成的向量，分母‖x‖₂为图像特征的L2模值，定义为：

2)针对任一卷积单元，将该卷积单元的下层卷积单元对应的通道拼接特征进行反卷积后与该卷积单元的归一化特征进行通道拼接，得到该卷积单元对应的通道拼接特征。

当给定一张待检测图像，并输入至特征提取模型得到特征提取模型中每一层卷积单元输出的图像特征。由于特征提取模型是分层级的，包含有补偿大于1的卷积层和池化层，导致图形特征的空间尺度会随着层数的增加而下降，不同层级的图像特征分辨率也不同。反卷积是卷积的逆向操作，用于扩大图像的尺度，此处，对通道拼接特征进行反卷积是为了对分辨率低的高层图像特征进行上采样计算，以使得在进行各层图像特征融合的同时，能够保持较高的分辨率。

3)将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到融合特征。

此处，顶层卷积单元是指特征提取模块中将待检测图像作为输入的卷积单元，顶层卷积单元对应的通道拼接特征包含了每层卷积单元输出的多尺度图像特征，对顶层卷积单元对应的通道拼接特征进行卷积可以从通道拼接特征中获取更多的语义信息，并对通道拼接特征进行压缩，降低在后续分类中不需要的特征权重。随后进行池化，对通道拼接特征进行降维，获取最终的融合特征。

例如，图5为本发明实施例的一种特征融合模型的结构示意图，如图5所示，由图4示出的特征提取模块输出的图像特征集合包括3个层级的图像特征，分别为卷积单元1、2、3和4的输出，对应4倍特征、8倍特征、16倍特征和32倍特征。分别对4倍特征、8倍特征、16倍特征和32倍特征进行L2归一化，将卷积单元4输出的32倍特征的归一化特征反卷积后，与卷积单元3输出的16倍特征的归一化特征进行通道拼接，得到卷积单元3对应的通道拼接特征。将卷积单元3对应的通道拼接特征反卷积后，与卷积单元2输出的8倍特征的归一化特征进行通道拼接，得到卷积单元2对应的通道拼接特征。将卷积单元2对应的通道拼接特征反卷积后，与卷积单元1输出的4倍特征的归一化特征进行通道拼接，得到卷积单元1对应的通道拼接特征，即顶层卷积单元对应的通道拼接特征。

随后，将卷积单元1对应的通道拼接特征进行卷积、池化，得到融合特征。此处的池化为ROI池化。

基于上述任一实施例，一种基于多尺度的行人检测方法，特征回归分类模型包括卷积层、回归连接层和分类全连接层。

对应地，103，将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果，具体包括：将融合特征输入至特征回归分类模型的卷积层，输出卷积融合特征；将卷积融合特征输入至特征回归分类模型的回归全连接层，输出回归结果，将卷积融合特征输入至特征回归分类模型的分类全连接层，输出分类结果，基于回归结果和分类结果得到待检测图像的行人检测结果。此处，回归全连接层用于对输入的卷积融合特征进行回归，分类全连接层用于对输入的卷积融合特征进行分类。

基于上述任一实施例，一种基于多尺度的行人检测方法，101，将待检测图像输入至特征提取模型，输出图像特征集合，之前还包括：基于样本图像和样本图像对应的样本行人检测结果训练特征提取模型、特征融合模型和特征回归分类模型，直至损失函数满足预设条件；其中，损失函数包括特征图像特征集合中每一图像特征的特征损失函数。

具体地，每一图像特征的特征损失函数L_f(X|W)如下：

其中，X为全部训练样本，W为当前模型的权重参数，f为从特征提取模型中分出来的一个RPN层级，每一RPN层级对应一个卷积单元，X_f为所有与层级f的经检测框匹配上的真实框样本，N_f为匹配到层级f的样本个数，l_f(x)为一个样本在一个RPN层级中的损失值，它的定义如下。

为一个样本在层级f的分类结果损失值，该损失函数为一般分类任务中使用的softmax损失函数，

为一个样本的候选区域框的回归结果的损失值，该损失函数为Fast R-CNN中提出的smooth L1损失函数如下所示：

基于上述任一实施例，一种基于多尺度的行人检测方法，样本图像和样本图像对应的样本行人检测结果是基于Caltech行人数据集获取的。

Caltech行人检测数据集是由安装在车辆的驾驶室中的后视镜上的摄像机进行录像得到的视频数据集，由驾驶员在美国的日常马路上驾驶汽车摄制得到，因而Caltech行人检测数据集中的行人数据特点非常真实而有代表性。对Caltech行人检测数据集中的行人尺寸进行统计可以发现，数据集中的行人高度呈正态分布，分布在16到128像素，具有中位值48像素和log均值50像素。对于分辨率为640*480的图像来说，高度50像素、宽度20像素的是比较小的。尤其在最近普遍应用的基于深度学习、卷积神经网络的行人检测方法中，池化层会对特征图进行降采样来减小宽高尺度。对于如图4所示的ResNet网络的特征提取模型，该模型最终对输入的待检测图像进行了32倍的降采样，如果不加改动直接使用最终输出的32倍特征完成行人检测的话，20*50像素的行人在最后尺寸为20*15像素的特征图中只占2个像素，对于要求达到的检测目标来说是不够的。因此，在本发明实施例中，基于图4的特征提取模型，获取了每层卷积单元的输出，并进行融合，基于融合特征进行目标检测。

基于上述任一实施例，一种基于多尺度的行人检测方法，参考图5所示的特征融合模型的结构示意图，可知在特征提取模型包括四层串联的卷积单元的情况下，顶层卷积单元输出的图像特征为4倍特征，第二层卷积单元输出的图像特征为8倍特征，第三层卷积单元输出的图像特征为16倍特征，第四层卷积单元输出的图像特征为32倍特征。

对应地，将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到融合特征，具体包括：

1)针对顶层卷积单元对应的通道拼接特征中对应顶层卷积单元、第二层卷积单元和第三层卷积单元分别输出的图像特征的特征，分别通过两种尺度的卷积核进行卷积，得到6个候选区域；针对所述顶层卷积单元对应的通道拼接特征中对应第四层卷积单元输出的图像特征的特征，通过单一尺度的卷积核进行卷积，得到1个候选区域。

具体地，针对顶层卷积单元(图4中的卷积单元1)对应的通道拼接特征中对应顶层卷积单元输出的图像特征的特征，通过两种尺度的卷积核进行卷积，得到两个候选区域。同理，针对顶层卷积单元对应的通道拼接特征中对应第二层卷积单元(图4中的卷积单元2)输出的图像特征的特征，通过两种尺度的卷积核进行卷积，得到两个候选区域。针对顶层卷积单元对应的通道拼接特征中对应第三层卷积单元(图4中的卷积单元3)输出的图像特征的特征，通过两种尺度的卷积核进行卷积，得到两个候选区域，即针对顶层卷积单元对应的通道拼接特征中对应顶层卷积单元、第二层卷积单元和第三层卷积单元分别输出的图像特征的特征，进行两种尺度的卷积，共得到6个候选区域。例如，此处的两种尺度的卷积核分别为3*5和5*7。

针对顶层卷积单元对应的通道拼接特征中对应第四层卷积单元(即底层卷积单元，图4中的卷积单元4)输出的图像特征的特征，由于第四层卷积单元的感受最大，选用单一尺度的卷积核进行卷积，得到1个候选区域。例如，此处单一尺度的卷积核为3*5。

2)将6个候选区域和1个候选区域反卷积后进行ROI pooling，得到融合特征。此处，对共7个候选区域进行反卷积后，达到统一尺度(即4倍特征)。

为了更好地理解与应用本发明提出的一种基于多尺度的行人检测方法，本发明进行以下示例，且本发明不仅局限于以下示例。

在对特征提取模型和特征回归分类模型进行训练时，基于图4所示的特征提取模型，特征提取模型选择Resnet50，分别提取4个RPN层，基于图5所示的特征融合模型，在对顶层卷积单元对应的通道拼接特征进行卷积时，对应4个卷积单元，RPN1-3层前级卷积采用两种尺度，此处选择3*5与5*7的卷积核，RPN4层的感受最大，选择3*5卷积核，以适应不同尺度的行人，由此产生7个不同尺度的图像特征。每一RPN层级均单独返回一个损失值以进行参数调整，以期达到较好的图像特征提取效果。随后，通过反卷积后达到统一尺度(4倍特征)进行融合，然后进行ROI pooling，在通过全连接层进行分类和回归，提升识别准确率。此处，分类结果为两类，分类得分大于等于0.5则确认行人检出，分类得分小于0.5则确认为背景类。

基于上述任一方法实施例，图6为本发明实施例的一种基于多尺度的行人检测装置的结构示意图，如图6所示，一种基于多尺度的行人检测装置，包括：

特征提取模块601，用于将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；

特征融合模块602，用于将图像特征集合输入至特征融合模型，输出融合特征；

特征回归分类模块603，用于将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果；

需要说明的是，上述特征提取模块601、特征融合模块602和特征回归分类模块603配合以执行上述实施例中的一种基于多尺度的行人检测方法，该系统的具体功能参见上述的基于多尺度的行人检测方法的实施例，此处不再赘述。

本发明实施例提供的装置，通过特征提取模型提取多层级的图像特征，以适应多尺度的行人检测需求。同时基于Resnet网络，保护图像特征的完整性，从而在实现多尺度的行人检测的同时，简化了特征提取模型，增加了行人检测的灵活性，减少了计算开销，避免了过多的资源占用，提高了多尺度行人检测的准确率。

基于上述任一实施例，一种基于多尺度的行人检测装置，特征提取模块601具体用于：

针对任一所述卷积单元，对该卷积单元的上层卷积单元输出的图像特征进行降采样和卷积，得到该卷积单元的卷积特征；

将该卷积单元的卷积特征与上层卷积单元输出的图像特征相加，作为该卷积单元输出的图像特征。

基于上述任一实施例，一种基于多尺度的行人检测装置，特征融合模块，具体用于：

将图像特征集合中任一卷积单元输出的图像特征进行归一化计算，得到该卷积单元的归一化特征；

针对任一卷积单元，将该卷积单元的下层卷积单元对应的通道拼接特征进行反卷积后与该卷积单元的归一化特征进行通道拼接，得到该卷积单元对应的通道拼接特征；

将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到所述融合特征。

基于上述任一实施例，一种基于多尺度的行人检测装置，特征回归分类模块包括卷积层、回归全连接层和分类全连接层；

对应地，特征回归分类模块具体用于：

将融合特征输入至特征回归分类模型的卷积层，输出卷积融合特征；

将所述卷积融合特征输入至特征回归分类模型的回归全连接层，输出回归结果，将卷积融合特征输入至特征回归分类模型的分类全连接层，输出分类结果，基于回归结果和分类结果得到待检测图像的行人检测结果。

基于上述任一实施例，一种基于多尺度的行人检测装置，还包括：

训练模块，用于基于样本图像和样本图像对应的样本行人检测结果训练特征提取模型、特征融合模型和特征回归分类模型，直至损失函数满足预设条件；其中，损失函数包括特征图像特征集合中每一图像特征的特征损失函数。

基于上述任一实施例，一种基于多尺度的行人检测装置，样本图像和样本图像对应的样本行人检测结果是基于Caltech行人数据集获取的。

基于上述任一实施例，一种基于多尺度的行人检测装置，特征提取模型为基于Resnet网络建立的包括四层串联的卷积单元的卷积神经网络；

对应地，顶层卷积单元输出的图像特征为4倍特征，第二层卷积单元输出的图像特征为8倍特征，第三层卷积单元输出的图像特征为16倍特征，第四层卷积单元输出的图像特征为32倍特征，图像特征集合由4倍特征、8倍特征、16倍特征和32倍特征构成。

基于上述任一实施例，一种基于多尺度的行人检测装置，将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到融合特征，具体包括：

针对顶层卷积单元对应的通道拼接特征中对应顶层卷积单元、第二层卷积单元和第三层卷积单元分别输出的图像特征的特征，分别通过两种尺度的卷积核进行卷积，得到6个候选区域；

针对顶层卷积单元对应的通道拼接特征中对应第四层卷积单元输出的图像特征的特征，通过单一尺度的卷积核进行卷积，得到1个候选区域；

将6个候选区域和1个候选区域反卷积后进行ROI pooling，得到融合特征。

图7为本发明实施例的一种基于多尺度的行人检测设备的结构示意图，如图7所示，基于多尺度的行人检测设备包括：处理器(processor)701、通信接口(CommunicationsInterface)702、存储器(memory)703和总线704，其中，处理器701，通信接口702，存储器703通过总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行如下方法，例如包括：将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；将图像特征集合输入至特征融合模型，输出融合特征；将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果；其中，特征提取模型、特征融合模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

本发明实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；将图像特征集合输入至特征融合模型，输出融合特征；将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果；其中，特征提取模型、特征融合模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：将待检测图像输入至特征提取模型，输出图像特征集合；特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，图像特征集合由多层串联的卷积单元中每一卷积单元输出的图像特征构成；将图像特征集合输入至特征融合模型，输出融合特征；将融合特征输入至特征回归分类模型，输出融合特征的回归结果和分类结果，基于融合特征的回归结果和分类结果得到待检测图像的行人检测结果；其中，特征提取模型和特征回归分类模型是基于样本图像和样本图像对应的样本行人检测结果进行训练后得到的。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的通信设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种基于多尺度的行人检测方法，其特征在于，包括：

将待检测图像输入至特征提取模型，输出图像特征集合；所述特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，所述图像特征集合由所述多层串联的卷积单元中每一所述卷积单元输出的图像特征构成；

将所述图像特征集合输入至特征融合模型，输出融合特征；

将所述融合特征输入至特征回归分类模型，输出所述融合特征的回归结果和分类结果，基于所述融合特征的回归结果和分类结果得到所述待检测图像的行人检测结果；

其中，所述特征提取模型、所述特征融合模型和所述特征回归分类模型是基于样本图像和所述样本图像对应的样本行人检测结果进行训练后得到的；

所述将所述图像特征集合输入至特征融合模型，输出融合特征，具体包括：

将所述图像特征集合中任一卷积单元输出的图像特征进行归一化计算，得到所述任一卷积单元的归一化特征；

针对任一所述卷积单元，将所述任一卷积单元的下层卷积单元对应的通道拼接特征进行反卷积后与所述任一卷积单元的归一化特征进行通道拼接，得到所述任一卷积单元对应的通道拼接特征；

将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到所述融合特征；

所述特征提取模型为基于Resnet网络建立的包括四层串联的卷积单元的卷积神经网络；

所述将顶层卷积单元对应的通道拼接特征卷积后进行池化，得到所述融合特征，具体包括：

针对所述顶层卷积单元对应的通道拼接特征中对应顶层卷积单元、第二层卷积单元和第三层卷积单元分别输出的图像特征的特征，分别通过两种尺度的卷积核进行卷积，得到6个候选区域；

针对所述顶层卷积单元对应的通道拼接特征中对应第四层卷积单元输出的图像特征的特征，通过单一尺度的卷积核进行卷积，得到1个候选区域；

将所述6个候选区域和所述1个候选区域反卷积后进行ROI pooling，得到所述融合特征。

2.根据权利要求1所述的方法，其特征在于，所述将待检测图像输入至特征提取模型，输出图像特征集合，具体包括：

针对任一所述卷积单元，对所述任一卷积单元的上层卷积单元输出的图像特征进行降采样和卷积，得到所述任一卷积单元的卷积特征；

将所述任一卷积单元的卷积特征与所述上层卷积单元输出的图像特征相加，作为所述任一卷积单元输出的图像特征。

3.根据权利要求1所述的方法，其特征在于，所述特征回归分类模型包括卷积层、回归全连接层和分类全连接层；

对应地，所述将所述融合特征输入至所述特征回归分类模型，输出所述融合特征的回归结果和分类结果，基于所述融合特征的回归结果和分类结果得到所述待检测图像的行人检测结果，具体包括：

将所述融合特征输入至所述特征回归分类模型的卷积层，输出卷积融合特征；

将所述卷积融合特征输入至所述特征回归分类模型的回归全连接层，输出所述回归结果，将所述卷积融合特征输入至所述特征回归分类模型的分类全连接层，输出所述分类结果，基于所述回归结果和所述分类结果得到所述待检测图像的行人检测结果。

4.根据权利要求1所述的方法，其特征在于，所述将待检测图像输入至特征提取模型，输出图像特征集合，之前还包括：

基于所述样本图像和所述样本图像对应的样本行人检测结果训练所述特征提取模型、所述特征融合模型和所述特征回归分类模型，直至损失函数满足预设条件；

其中，所述损失函数包括所述图像特征集合中每一图像特征的特征损失函数。

5.一种基于多尺度的行人检测装置，其特征在于，包括：

特征提取模块，用于将待检测图像输入至特征提取模型，输出图像特征集合；所述特征提取模型为基于Resnet网络建立的包括多层串联的卷积单元的神经网络，对应地，所述图像特征集合由所述多层串联的卷积单元中每一所述卷积单元输出的图像特征构成；

特征融合模块，用于将所述图像特征集合输入至特征融合模型，输出融合特征；

特征回归分类模块，用于将所述融合特征输入至特征回归分类模型，输出所述融合特征的回归结果和分类结果，基于所述融合特征的回归结果和分类结果得到所述待检测图像的行人检测结果；

所述特征融合模块，具体用于将所述图像特征集合中任一卷积单元输出的图像特征进行归一化计算，得到所述任一卷积单元的归一化特征；

6.一种基于多尺度的行人检测设备，其特征在于，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如权利要求1至4任一所述的基于多尺度的行人检测方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一所述的基于多尺度的行人检测方法。