CN109359574A

CN109359574A - 基于信道级联的广域视场行人检测方法

Info

Publication number: CN109359574A
Application number: CN201811165201.1A
Authority: CN
Inventors: 姚拓中; 何姣姣; 安鹏; 何加铭
Original assignee: Ningbo University of Technology
Current assignee: Ningbo University of Technology
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-02-19
Anticipated expiration: 2038-09-30
Also published as: CN109359574B

Abstract

本发明提供一种基于信道级联的广域视场行人检测方法，包括步骤：S1、获取训练图像的级联信息层；S2、对最新的级联信息层进行训练，获取分类器；S3、提取待检测图像的特征后输入分类器中；步骤S1中包括：S11、对所有的训练图像进行最大池化处理；S12、对第一层池化特征图和第二层池化特征图进行卷积处理；S13、将新获取的级联信息层与下一层池化特征图进行卷积处理；S14、判断当前进行卷积处理的池化特征图是否为第N‑a层池化特征图，若是，执行步骤S2；否则，执行步骤S33。上述方法有效改善了广域视场下行人检测问题，在减少小尺寸行人漏检率的同时，提高了整体行人检测精度，同时，信道级联策略也适用于其他网络设计。

Description

基于信道级联的广域视场行人检测方法

技术领域

本发明涉及行人检测领域，尤其涉及一种基于信道级联的广域视场行人检测方法。

背景技术

目标，为更上层的任务如行为识别与分析、行人姿态分析与研究等提供必要的技术基础。行人检测在智能视频监控、车辆辅助驾驶行人保护系统、智能交通控制、智能机器人等领域得到广泛应用，有着巨大的商业价值。而广角视场下的行人更加具有研究价值，如大型购物中心、新型娱乐场所及火车站、汽车站等大型场所。但广角视场下行人检测存在着以下问题：1、行人多姿态多尺度问题；2、检测场景的变化跨度大问题；3、行人之间存在不同程度遮挡问题。在实际应用中，除了面临以上难题外，还需要考虑摄像机的视角以及其他一些环境因素，例如由于天气原因导致的光线和亮度问题，还有不同的路况等，都对行人检测的精准度有干扰。

近年来，一系列新的目标检测算法不断涌现，它们都是利用神经网络提取图像特征，并获得了相当好的精确度。首先，通过广泛的研究重新审视目标检测的进步，特别地，利用Faster-RCNN进行检测在我们的火车站行人数据集上。由于数据集中行人尺度变化跨度大，所以远处行人的检测效果很差，原因在于尺寸行人分辨率过小，在提取特征时信息丢失更多。因此，提供一种减少小尺寸行人漏检率的行人检测方法，成为目前亟待解决的问题。

发明内容

本发明的技术方案是：基于信道级联的广域视场行人检测方法，所述方法包括步骤：

S1、提供多个训练图像作为训练集，获取训练图像的级联信息层；

S2、对最新的级联信息层进行训练，获取分类器；

S3、提供一待检测图像，提取该待检测图像的特征后输入分类器中，获取检测结果；

其中，步骤S1中包括步骤：

S11、对所有的训练图像进行最大池化处理，每幅训练图像均获取N层池化特征图，舍弃最后a层池化特征图；

S12、对第一层池化特征图和第二层池化特征图进行卷积处理，获取一级联信息层；

S13、将新获取的级联信息层与下一层池化特征图进行卷积处理，获取下一级级联信息层；

S14、判断当前进行卷积处理的池化特征图是否为第N-a层池化特征图，若是，执行步骤S2；否则，返回执行步骤S33；

其中，N和a均为正整数。

较佳的，所述第一层池化特征图和所述第二层池化特征图进行卷积以获取所述级联信息层的公式为：

F:X|Y,X|R^H×W×C,X|R^H'×W'×C'

其中，F表示卷积操作，X表示网络的输入，Y表示网络的输出，R表示实数域，H表示卷积层输入图的高，W表示卷积层输入图的宽，C表示卷积层输入图的通道，H'表示卷积层输出图的高，W'表示卷积层输出图的宽，C'表示卷积层输出图的通道。

较佳的，在每一层卷积后使用最大池化操作对级联信息层尺寸进行尺寸压缩处理，所述压缩公式为：

其中，r为池化操作的步长，H₂指的是第二层卷积输入的池化特征图的高。

较佳的，在每一级池化后的池化特征图与级联卷积层级联后，用1*1卷积对其进行信道压缩。

较佳的，采用k-means算法在训练集中手工标记的目标框中进行聚类，自动找到目标框的统计规律，将聚类个数设定为选取的搜索框的个数，以聚类中心对应的框作为选取的搜索框，获取分类器。

较佳的，利用代价函数判定选取的所述搜索框是否有利于检测，所述代价函数为：

J(box,center)＝1|IOU(box,center)

在上式中，box是训练数据(x1,y1,x2,y2)中标注的目标框坐标，其中(x1,y1)是目标框的左上角坐标，(x2,y2)是目标框的右下角坐标，center是随机生成的初始坐标，IOU函数是计算重合度的函数。

较佳的，k-means算法中的k值为9。

上述技术方案具有如下优点或有益效果：本申请的基于信道级联的广域视场行人检测方法，提出了一种新的特征抽取思想，利用信道之间的联系采用递进式级联策略抽取图像特征，并将其应用于Faster-RCNN算法中，取得不错的效果。根据特征图对比，展示优化网络在图像特征提取上的优越性。该方法的优势在于不仅充分利用像素通道信息，采用递进式级联的方式优化特征提取网络，从而构建更强特征抽取网络，而且利用无监督学习算法有效改进RPN搜索机制，从而缓解了行人检测中远处和周围行人由于尺度过小检测不到的问题。此外，在候选区域选取网络中，结合行人在图片中的特点，聚类确定符合行人特点的搜索框。通过对两阶段算法中各个阶段优化，从而提高对远处行人的检测性能。上述方法有效改善了广域视场下行人检测问题，在减少小尺寸行人漏检率的同时，提高了整体行人检测精度，同时，信道级联策略也适用于其他网络设计。

附图说明

参考所附附图，以更加充分的描述本发明的实施例。然而，所附附图仅用于说明和阐述，并不构成对本发明范围的限制。

图1为本发明基于信道级联的广域视场行人检测方法中的代价函数曲线；

图2为本发明基于信道级联的广域视场行人检测方法中各个卷积层所提取到的特征对比图；

图3为本发明基于信道级联的广域视场行人检测方法中可视化结果对比图；

图4为本发明基于信道级联的广域视场行人检测方法中远处行人检测结果图；

图5为本发明基于信道级联的广域视场行人检测方法中不同视角下的检测结果图。

具体实施方式

下面结合附图和具体实施例对本发明基于信道级联的广域视场行人检测方法进行详细说明。

基于信道级联的广域视场行人检测方法，包括步骤：

S2、对最新的级联信息层进行训练，获取分类器；

S3、提供一待检测图像，将该待检测图像提取特征后输入分类器中，获取检测结果；

其中，步骤S1包括步骤：

S14、判断当前进行卷积处理的池化特征图是否为第N-a层池化特征图，若是，执行步骤S2；否则，返回执行步骤S33。

具体来说，在上述基于信道级联的广域视场行人检测方法中，对于训练样本图像，并不是利用传统的Faster-RCNN提取特征图，而是在获取N层池化特征图后，将第一层池化特征图和第二层池化特征图进行卷积处理，获取一级级联信息层，之后再将该级联信息层与下一层池化特征图进行卷积处理，获取新一级的级联信息层。以此类推，直至将N-a层池化特征图进行卷积处理获取最终的级联信息层，对该级联信息层进行训练，以学习获取分类器模型。值得指出的是，由于经多层池化后，后几层的池化特征图层图像因为经过了多个最大池化层作用，图像分辨率过低，所以舍弃后面a层池化特征图。值得指出的是，上述N与a均为正整数。

在上述方法中，第一层池化特征图和第二层池化特征图进行卷积以获取级联信息层信息的公式为：

F:X|Y,X|R^H×W×C,X|R^H'×W'×C'

其中，F表示卷积操作，X表示网络的输入，Y表示网络的输出，R表示实数域，H表示卷积层输入图的高，W表示卷积层输入图的宽，C表示卷积层输入图的通道，相应的，H'表示卷积层输出图的高，W'表示卷积层输出图的宽，C'表示卷积层输出图的通道。

近一步来讲，为了实现递进式级联，增强信道信息，我们在优化网络中的每一层卷积后使用最大池化操作对级联信息层尺寸进行尺寸压缩处理，压缩公式为：

近一步来讲，在每一级池化后的输出和卷积输出级联后，用1*1卷积对其进行信道压缩，进而丰富信道信息。这种方式不仅起到了降维的作用，而且1*1的卷积在前一层的学习上添加了非线性激励，提升网络的表达能力。得到增强特征后，使用局部响应归一化将不同特征融合在同一空间，凸显图像特征，并将其作为下一级卷积输入，随后进行递进式级联，构建优化特征抽取网络。逐层递进级联信道信息，有利于聚合更多低层有用信息，减少了特征传递过程中信息的丢失。

近一步来讲，利用在训练样本及行人检测时利用聚类算法选取搜索框。

近一步来讲，采用k-means算法在训练集中手工标记的目标框中进行聚类，自动找到目标框的统计规律，将聚类个数设定为选取的搜索框的个数，以聚类中心对应的框作为选取的搜索框，获取分类器。

近一步来讲，对样本数据进行聚类分析后，利用爬山算法选取最优的适合检测的搜索框个数。

近一步来讲，利用代价函数判定选取的搜索框是否有利于检测，该代价函数为：

J(box,center)＝1|IOU(box,center)

在上式中，box是训练数据(x1,y1,x2,y2)中标注的目标框坐标，其中(x1,y1)是目标框的左上角坐标，(x2,y2)是目标框的右下角坐标，center是随机生成的初始坐标，在聚类过程中主要通过衡量距离将所有的训练数据中坐标进行分类，IOU函数是计算重合度的函数。

近一步来讲，如图1所示，当聚类个数增加到一定值时，代价函数将缓慢变化，这个拐点被设定为最优搜索框个数，利用k-means算法聚类过程中，当k>9时待建函数变化很小，则优选的k值为9。

下面对上述算法的实验结果进行分析。为了训练和评估我们提出的行人检测器，提出了一个火车站行人数据集。这个数据集是2016年从监控摄像机的视频中采集的火车站行人数据集，图像大小为960×1280，采样在白天。图像中目标尺度大，远处的小人不易检测、存在遮挡严重等问题。我们随机选择6000个阳性样本作为训练集，另一个为1500个样本作为测试集。我们的实验平台是Windows、GPU，显卡NVIDAGeForce GTX10606GB，网络训练和检测都是基于深度学习框架tensorflow。

卷积神经网络提取特征时，一般地，前景部分激活度高，得到的特征更加具有分辨性，易于图像分类与检测。通过可视化展示了各个卷积层所提取到的特征，并清晰地发现最终提取到的特征展示了检测目标的全局信息。如图2所示。图(a)是原算法各个卷积层提取的特征，图(b)是优化后网络提取的特征。对比(a)(b)中第二、三层特征图，优化网络提取的特征目标轮廓细节信息更清晰，背景更加纯净，第四层特征图差异比较大，(b)中加入局部响应归一化使得响应比较大的值相对更大，因此将其送入第五层卷积神经网络后，使得我们需要的目标信息更加清晰。图3给了更多的特征对比图，第一列是原图，第二列是VGG网络提取的特征，第三列是CCN网络提取的特征。通过对比结果展示CCN提取特征的有效性。

网络中参数设置，学习率为0.01，设置的最大迭代次数为40000次，采用火车站数据集。首先，我们对比了不同网络结构对检测精度的影响，选取最有特征提取网络。在表1中网络结构从上到下分别为结构一，结构二，结构三，其中1、2、3、4、5分别表示卷积的层数。括号中的代表两级级联。表中对比不同层级联信息对近处、中间及其远处行人检测精度的影响。根据网络结构对比结果，我们选择结构三作为通道级联网络。

表1不同层级联信息的检测结果对比

Table 1 Comparison of detection results atdifferentlevels ofinformation at different levels

表2 anchor选取对比表

Table 2 Anchor selection comparison table

最后，结合两种改进策略，使用改进的Faster-RCNN进行行人检测，在表3中，我们对比了改进后的算法与原算法，结果表明优化算法平均检测速度提高了25.2％，远处行人的检测率提高了30.3％，并且速度有所提升。

表3不同算法的检测结果对比

Table 3 Comparison of test results from different algorithms

为了进一步研究搜索框对远处行人的检测，我们采用控制变量法。首先输入检测图，经过优化网络提取有效特征，再利用改进后RPN网络定位目标，在RPN中保持大尺寸的搜索框不变，研究小尺寸的搜索框对检测效果的影响。检测结果如图4所示。结果表明，我们自动选取的小尺寸搜索框对小物体检测更有利。

图5给出了一些不同视角下算法对比检测结果，图(a)是Faster-RCNN在不同视角下的检测结果，图(b)是对应的Improved FRCNN的检测结果。从图中可以看出，优化后的算法更适应于大视场下的检测，在减少了远处行人的漏检率同时，提高了整体的检测率。

本申请的基于信道级联的广域视场行人检测方法，提出了一种新的特征抽取思想，利用信道之间的联系采用递进式级联策略抽取图像特征，并将其应用于Faster-RCNN算法中，取得不错的效果。根据特征图对比，展示优化网络在图像特征提取上的优越性。该方法的优势在于不仅充分利用像素通道信息，采用递进式级联的方式优化特征提取网络，从而构建更强特征抽取网络，而且利用无监督学习算法有效改进RPN搜索机制，从而缓解了行人检测中远处和周围行人由于尺度过小检测不到的问题。此外，在候选区域选取网络中，结合行人在图片中的特点，聚类确定符合行人特点的搜索框。通过对两阶段算法中各个阶段优化，从而提高对远处行人的检测性能。上述方法有效改善了广域视场下行人检测问题，在减少小尺寸行人漏检率的同时，提高了整体行人检测精度，同时，信道级联策略也适用于其他网络设计。

对于本领域的技术人员而言，阅读上述说明后，各种变化和修正无疑将显而易见。因此，所附的权利要求书应看作是涵盖本发明的真实意图和范围的全部变化和修正。在权利要求书范围内任何和所有等价的范围与内容，都应认为仍属本发明的意图和范围内。

Claims

1.基于信道级联的广域视场行人检测方法，其特征在于，所述方法包括步骤：

S2、对最新的级联信息层进行训练，获取分类器；

其中，步骤S1中包括步骤：

其中，N和a均为正整数。

2.根据权利要求1所述的基于信道级联的广域视场行人检测方法，其特征在于，所述第一层池化特征图和所述第二层池化特征图进行卷积以获取所述级联信息层的公式为：

F:X|Y,X|R^H×W×C,X|R^{H’×W’×C’}

3.根据权利要求1所述的基于信道级联的广域视场行人检测方法，其特征在于，在每一层卷积后使用最大池化操作对级联信息层尺寸进行尺寸压缩处理，所述压缩公式为：

4.根据权利要求3所述的基于信道级联的广域视场行人检测方法，其特征在于，在每一级池化后的池化特征图与级联卷积层级联后，用1*1卷积对其进行信道压缩。

5.根据权利要求1所述的基于信道级联的广域视场行人检测方法，其特征在于，采用k-means算法在训练集中手工标记的目标框中进行聚类，自动找到目标框的统计规律，将聚类个数设定为选取的搜索框的个数，以聚类中心对应的框作为选取的搜索框，获取分类器。

6.根据权利要求5所述的基于信道级联的广域视场行人检测方法，其特征在于，利用代价函数判定选取的所述搜索框是否有利于检测，所述代价函数为：

J(box,center)＝1|IOU(box,center)

7.根据权利要求6所述的基于信道级联的广域视场行人检测方法，其特征在于，k-means算法中的k值为9。