CN110008853A

CN110008853A - 行人检测网络及模型训练方法、检测方法、介质、设备

Info

Publication number: CN110008853A
Application number: CN201910198487.1A
Authority: CN
Inventors: 胡永健; 陈浩; 刘琲贝
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-12
Anticipated expiration: 2039-03-15
Also published as: CN110008853B

Abstract

本发明公开了一种行人检测网络，以VGG16为基础网络，包括fc6、fc7、conv6_2、conv7_2和conv8_2五个特征层。本发明还公开一种行人检测网络模型训练方法，包括步骤：计算行人框宽高比的期望值E；特征提取，得到置信度图和坐标偏置图；制定密集框生成策略；对训练数据文件进行预处理，训练行人检测网络得到行人检测网络模型。本发明还公开了一种行人检测方法，包括步骤：设置检测阈值，加载行人检测网络模型，初始化网络参数；将图片送入模型中，得到检测结果；将所有的检测框通过非极大值抑制对重复检测的框进行滤除，最后将结果保存在文件中。本发明基于密集框生成网络，有效地克服了现有技术在行人密集场景下漏检率高等缺点，提升该框架在行人密集场景下的检测性能。

Description

行人检测网络及模型训练方法、检测方法、介质、设备

技术领域

本发明涉及深度学习及行人检测领域，具体涉及一种密集行人检测网络及模型训练方法、密集行人检测方法、介质、设备。

背景技术

大数据时代的到来，带来了重大的时代转型，从科学研究到医疗保险，从银行业到互联网，科技信息技术产业都在不断的发展。特别是最近几年，人工智能开始进入人们的视野。人工智能是研究如何用计算机来模拟人脑的思维方式并作出决策的学科，其领域包括智能机器人、计算机视觉、自然语言处理和专家系统等。计算机视觉作为人工智能的一个重要研究领域，一直以来都是学术界和工业界研究的热点。计算机视觉技术就是教会计算机如何看懂和理解世界，其有很多应用场景。比如智能监控系统、无人驾驶汽车、智能机器人等。其中智能视频监控系统逐步成为图像智能分析中的一项重要应用领域和研究方向。

近年来，随着深度学习研究的火热，一批基于深度学习的目标检测方法也相继出现。2014年Girshick等人在CVPR会议上发表论文《Rich Feature Hierarchies forAccurate Object Detection and Semantic Segmentation》，提出了“候选窗口生成+对候选框提取特征分类”的目标检测两步法，大大提升了PASCAL VOC数据集上的检测精度。虽然R-CNN在精确度上有较大的提升，但是其缺点非常明显，就是速度较慢。随后，Girshick等人又于2015年发表论文《Faster R-CNN:towards real-time object detection withregion proposal networks》，Faster R-CNN摈弃了之前目标检测的通用模式(候选窗口生成+对候选框提取特征分类)，采取了一种全新的，一种名为RPN(Region ProposalNetworks)网络生成候选区域的方法，提升了速度还有候选框的召回率。2016年，Redmon等人在CVPR会议上发表论文《You Only Look Once:Unified,Real-Time ObjectDetection》，提出YOLO目标检测方法，该方法使用了回归的思想，给定输入图像，直接在图像的多个位置上回归出这个位置的目标边框以及目标类别，这样大大提升了目标检测的速度，但是检测精度并不是很好。同年，Liu等人在ECCV会议上发表论文《SSD:Single ShotMultiBox Detector》，其在YOLO模型的基础上进行改进，提升了检测精度的同时，保持了实时检测的速度要求。针对密集行人检测，Felzenszwalb提出的一种基于可变形部件模型(Deformable Part Model，DPM)的目标检测算法，由于可变部件模型的使用，该算法对于目标的形变问题具有很强的鲁棒性，目前已成为众多检测器、人体姿态、图像分割和行为分类的重要部分。但是，DPM是手工设计的特征，目前很多针对密集行人检测的方法也还是停留在传统手工特征和手工特征与卷积神经网络相结合的方法，相较于深度学习的方法，显得检测性能不足，而Faster R-CNN、YOLO、SSD等目标检测算法直接用于密集检测也存在性能下降的问题。究其原因，是因为密集行人出现的场景下，行人之间相互遮挡，不同行人之间的特征存在太多相似性，会影响检测器的判断。

发明内容

本发明提供一种行人检测网络及模型训练方法、检测方法、介质、设备，该行人检测方法为基于密集框生成网络的密集行人检测方法，有效地克服了现有技术在行人密集场景下漏检率高等缺点，提升该框架在行人密集场景下的检测性能。

本发明通过制定一种密集默认框选取策略，然后结合行人框比例的特点，提出一种基于密集框生成网络的密集行人检测方法。本发明所用的网络是在VGG16的基础上选取生成5个特征提取层，通过在多尺寸的特征图上选取密集的默认框，并且通过调整默认框的宽高比使得其更符合行人的身体比例特征，更好地处理行人密集场景下的检测任务，提升检测性能。

本发明的目的可以通过下述技术方案实现：

行人检测网络，其特征在于，以VGG16为基础网络，选用其中的fc6、fc7再增加conv6_2、conv7_2和conv8_2三个特征层，总共包括五个特征层。

优选的，所述行人检测网络用VGG16作为基础网络，将VGG16中的fc6的全连接操作改成3x3的卷积操作；

通过inception操作生成fc7，将VGG16中的conv4_3和fc7选为特征层；

通过inception操作增加conv6_2、conv7_2、conv8_2共3个特征层，得到总共5个特征层；

将网络设置为二分类检测，以适用于行人检测。

优选的，所述行人检测网络采用的inception结构，包括四个分支，第一个分支是一个1x1卷积操作，第二个分支是一个3x3卷积操作，第三个分支包括两个操作，先进行1x1的卷积操作，然后进行3x3的最大池化操作，第四个分支5x5的卷积操作，其中5x5的卷积操作通过5x1和1x5的卷积操作级联实现，最后将四个分支所得到的结果通过concatenate操作拼接得到最终的特征层，融合了不同尺寸卷积核所提取的特征，增强了尺寸适应性。

优选的，所述特征层进行特征提取过程中，在conv4_3和fc7之间采用pad＝0，kernel_size＝2，stride＝2的最大池化操作进行下采样，在fc7和conv6_2之间采用pad＝1，kernel_size＝3，stride＝2的卷积操作进行下采样、conv6_2和conv7_2、conv7_2和conv8_2之间分别进行两次pad＝0，kernel_size＝3，stride＝1的卷积操作，最后得到conv4_3、fc7、conv6_2、conv7_2、conv8_2所产生的特征图的尺寸分别是38x38、19x19、10x10、6x6、2x2，由于行人检测的场景大多是远景检测，而默认框的生成又是以特征图为基准，对原图进行划分单元格，以每个单元格为中心选取默认框，极少用到1x1的特征进行划分单元格，因而采用这一组尺寸的特征图能够优化算法的性能，减少某些特殊情况下的误检。

行人检测网络模型训练方法，包括步骤：

确定行人数据集并统计数据集中行人框的宽高比，得到行人框宽高比的期望值E；

对行人检测网络的5个特征层生成的特征图使用不规则卷积核的卷积操作进行特征提取，从每张特征图中分别得到一张表征类别置信度的置信度图和一张表征检测框坐标位置的坐标偏置图，减少特征提取引入的噪声；

制定密集框生成策略，从行人检测网络的5个特征层生成的特征图中选取密集的默认框，并通过调整默认框的宽高比为E使得其更符合行人的身体比例特征，从而更好地处理行人密集场景下的检测任务，提升检测性能。将训练样本图片及其标签文件生成训练数据文件，通过预处理，统一调整样本数据尺寸，然后送进调整默认框选取策略后的行人检测网络中进行训练，待达到预设的迭代次数后得到训练好的行人检测网络模型。

优选的，统计数据集中行人框的宽高比时，将宽高比划分区间，统计每个区间出现的频率，得到频率分布直方图，根据各区间出现的频率，通过公式E＝∑i·P_i计算出宽高比的期望值E，其中i取每个宽高比区间的中值，P_i是每个区间出现的频率。

优选的，所述生成位置偏置图是通过4x4＝16个3x1的不规则卷积核生成，每一个卷积核的卷积操作得到的值分别代表候选目标框4个坐标参数x_min，x_max，y_min以及y_max中的一个，而每个网格又预测4个候选目标框；生成类别置信度图是通过2x4＝8个3x1的不规则卷积核生成，每一个卷积核的卷积操作得到值分别代表着每个候选目标框属于行人的置信度和属于背景的置信度，采用3x1的卷积核进行特征提取是因为3x1的卷积核比较符合行人的身体比例特征，尽量避免提取特征的过程引入过多的噪声。

优选的，所述密集框生成策略统一在conv4_3、fc7、conv6_2、conv7_2、conv8_2所产生的特征图中每个网格选取4个默认框，然后将其中3个设为行人宽高比的期望值E，然后再把这3个宽高比为E的默认框均匀排列在每个网格水平方向上1/4、1/2和3/4偏移的位置上，竖直方向统一设置为网格1/2偏移的位置；剩下的一个默认框宽高比设为1:1，然后放置在特征图每个网格的中心位置形成密集框，由于算法只有在默认框与真实框的IOU(Intersection over Union)达到阈值之后才会判定为匹配，在接下来的训练过程中才会逐渐逼近真实框，如果两个真实框太近，就容易造成默认框只能匹配其中一个而漏掉另一个情况，采用密集框能降低这种情况下的漏检。

优选的，设置置信度阈值τ和非极大抑制阈值λ，在每张特征图中预测H·W·4个候选框中通过非极大值抑制(Non-Maximum Suppression，NMS)去除重复检测的目标框，然后去除类别置信度低于τ的目标框；其中，H和W分别是特征图的高度和宽度；所保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果。

行人检测方法，包括步骤：

设置检测阈值，加载行人检测网络模型数据，初始化网络参数；

将图片送入模型中，对图片数据进行一次前向计算，从类别置信度图和坐标偏置图中输出图片的检测结果，检测结果包括每个框的类别的置信度和x_min，x_max，y_min以及y_max四个坐标；

将所有的框通过非极大值抑制(Non-Maximum Suppression，NMS)对重复检测的框进行滤除，最后将结果保存在文件中。

介质，存储有程序，所述程序被处理器执行时，实现上述行人检测方法。

设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述行人检测方法。

本发明相对于现有技术具有如下的优点及效果：

1、本发明提供了一种基于密集框生成网络的密集行人检测方法，针对密集行人场景，创新性地提出采取密集框的选框策略，避免了由于行人密集导致默认框与真实框无法匹配而产生漏检；

2、本发明方法通过分析真实行人框的宽高比，得出一个符合行人身体比例特征的宽高比期望值，将默认框设为此期望值，使得默认框和真实目标框的匹配更精准；

3、本发明方法通过采用更高效的网络，通过使用inception结构生成特征图，加宽网络结构，增强网络对尺寸的适应性，使用3x1的不规则卷积对特征图进行特征提取，因为3x1的卷积核比较符合行人的身体比例特征，减少特征提取时候引入的噪声，提升了检测性能。

附图说明

图1是本发明实施例基于密集框生成网络的密集行人检测网络模型训练方法的训练流程框图。

图2是本发明的测试密集行人检测方法流程框图。

图3是本发明检测网络结构图。

图4是本发明检测网络结构中采用的inception结构图。

图5是CUHK Occlusion Dataset数据集行人框宽高比的频率分布直方图。

图6是SSD的选框策略和本发明的密集框选取策略对比图。

图7是实施例在CUHK Occlusion Dataset数据集上检测结果P-R曲线。

图8是实施例检测结果对比图。

具体实施方式

为更好地理解本发明，下面结合实施例及附图对本发明作进一步的描述，但本发明的实施方式不限于此。

实施例

一种基于密集框生成网络的密集行人检测方法，包括密集行人检测模型训练和密集行人检测模型测试两部分。

图1所示为本发明的密集行人检测模型的训练流程框图，具体实施主要包括训练网络搭建、lmdb训练数据生成、行人框宽高比统计和期望值计算、制定学习策略、反向传播更新权重、模型保存等步骤。图2所示为本发明的复杂背景行人检测模型的测试流程框图，主要包括测试网络搭建和参数设置、测试模型初始化、测试图像读取、测试网络前向计算、检测结果输出及保存等步骤。

图3为本发明的网络结构图，本发明方法在SSD网络的基础上，结合行人框的比例特征还有密集行人检测的特点，通过密集框生成策略生成默认框，通过inception结构加强网络的特征提取能力，通过使用3x1的不规则卷积核从特征图中提取更符合行人身体比例的特征，减少噪声的引入，使其在保证实时检测速度要求的同时，提升密集场景下的行人检测性能。

图4为本发明网络所使用的inception结构，其包括四个分支，使用不同尺寸的卷积核进行特征提取，加强网络对尺寸的适应性。

下面以MS COCO数据集的行人数据作为训练集，以CUHK Occlusion Dataset数据集作为测试集来说明本发明的实施过程。MS COCO数据集中的图像来源于复杂的日常生活场景，包括91类目标，328,000张图片和2,500,000个标签。由于现在公开的行人数据集要么不符合密集行人场景的要求，要么图片数量太少质量太差，所以本实施例从MS COCO中筛选出21792张行人图片作为训练集。CUHK Occlusion Dataset数据集是由香港中文大学发布的，包含Caltech、ETHZ、TUD-Brussels、INRIA、Caviar等数据集和他们自己拍摄的总共1063张密集行人的图片，由于图片数量较少，因此在本实施例中用作测试集。本实施例主要基于深度学习框架Caffe来实现，实验所用显卡为GTX1080Ti。

本发明的模型训练部分流程框图如图1和图2所示，具体步骤如下：

第一步，框架搭建和参数调整。基于Caffe搭建SSD目标检测框架，生成实验所需的训练网络文件train.prototxt、测试网络文件text.prototxt、训练参数训练策略文件solver.prototxt，训练启动文件train.sh。

第二步，筛选数据，生成lmdb数据文件。从数据集中筛选出行人标注信息生成xml文件，根据标注信息再筛选出图片，然后一张图片对应一个xml标签文件，然后生成训练数据lmdb。

第三步，统计宽高比，求出宽高比期望值。统计CUHK Occlusion Dataset数据集中行人框的宽高比，如图5所示得出频率分布直方图，通过公式E＝∑i·P_i求出宽高比的期望值E为0.44。

第四步，在SSD基础上搭建训练和测试网络。修改SSD框架中的默认框选框策略为本发明中的密集框选框策略。如图6所示，密集框选框策略统一在conv4_3、fc7、conv6_2、conv7_2、conv8_2所产生的特征图中每个网格选取4个默认框，然后将其中3个设为行人宽高比的期望值0.44，然后再把这3个宽高比为0.44的默认框均匀排列在每个网格水平方向上1/4、1/2和3/4偏移的位置上，竖直方向统一设置为网格1/2偏移的位置，剩下的一个默认框宽高比设为1:1，然后放置在特征图每个网格的中心位置形成密集框。

第五步，调整网络参数，制定学习策略。修改SSD模型的训练网络和测试网络中的类别参数，将其由21类分类网络修改为二分类网络，使其适用于行人检测。制定训练策略，将最大训练迭代次数设置为120000次，1-80000次迭代的学习率为0.0005，80001-100000次迭代的学习率为0.00005,100001-120000次迭代的学习率为0.000005，训练的batch_size设置为16，IOU阈值设置为0.5，非极大抑制阈值设置为0.45，每迭代5000次之后对训练模型进行测试。

第六步，加载预训练模型。加载SSD的作者Wei Liu所提供的VGG_ILSVRC_16_layers_fc_reduced.caffemodel文件作为预训练模型，初始化SSD网络权重系数，运行训练启动文件train.sh开启训练。

第七步，模型训练。每次从训练数据lmdb中加载batch_size张图片数据，经过预处理之后导入到训练网络中，网络提取特征之后通过分类和回归模块计算损失值，然后通过反向传播更新模型权重值，当模型拟合或者达到最大训练迭代次数，停止训练并保存模型权重值，输出对应的caffemodel文件，判断是否拟合是否达到最大迭代次数，如果是，保存模型然后结束训练，否则返回第七步继续训练。

第八步，对最终模型进行测试。首先读入测试图片送进测试网络中，对图片数据进行一次前向计算，会输出这张图片的检测结果，检测结果包括每个框的类别、置信度、x_min，x_max，y_min以及y_max四个坐标，然后将所有的框通过非极大值抑制(Non-MaximumSuppression，NMS)对重复检测的框进行滤除，最后将结果保存在文件中。

第九步，将保存在结果文件中的检测结果在测试图片中框绘制出来。

为了验证本发明方法的可行性以及检验该方法的各项性能，将本发明方法与SSD在Caffe深度学习框架上仿真实验结果进行对比。为了保证实验数据的有效性及公平性，本次实验SSD模型与本发明方法的实验环境和所有实验参数均相同，都是以MS COCO数据集筛选出的21792张行人图片作为训练集，CUHK Occlusion Dataset数据集共1063张密集行人图片作为测试集。程序运行所使用的GPU型号为NVIDIA GeForce GTX 1080Ti，详细训练参数设置为：batch_size＝16，最大训练迭代次数max_iter＝120000，优化函数为SGD(Stochastic Gradient Descent，随机梯度下降)，动量参数momentum＝0.9，1-80000次迭代的学习率为0.0005，80001-100000次迭代的学习率为0.00005,100001-120000次迭代的学习率为0.000005，IOU阈值设置为0.5，非极大抑制阈值设置为0.45。以下将本发明方法的测试结果与默认的SSD框架的测试结果进行对比，在检测准确率、召回率、模型收敛速度等方面对本发明方法进行分析评价。

表1列举了SSD模型和本发明方法的各项检测结果，以及这两个模型的对比数据。其中“原始数据”表示CUHK Occlusion Dataset测试集所包含的数据，其它三列分别表示SSD的检测结果、本发明方法的检测结果、本发明方法对比于SSD模型的提升量。表1的测试数据所对应的测试参数为：IOU交并比阈值overlap_threshold＝0.5，NMS非极大值抑制阈值nms_threshold＝0.45，置信度阈值confidence_threshold＝0.5，两种方法的实验环境及其他实验参数全部保持一致。

由表1的数据可知，本发明方法在所有对比指标上的检测结果均优于SSD模型。其中CUHK Occlusion Dataset测试集行人框的数量总共为9840个，SSD模型检测出了3129个，召回率约为31.80％，而本发明方法检测出了3856个，召回率约为39.19％，相比于SSD模型提高了7.39％，并且检测的准确率也比SSD算法要高，总体性能评价指标mAP相较于SSD算法也提高了5.96％。

表1

	原始数据	SSD	本发明方法	提升量
					正样本数量	9840	3129	3856	727
检测框数量	-	3609	4411	802
					召回率	-	31.80％	39.19％	7.39％
准确率	-	86.70％	87.42％	0.72％
					mAP	-	62.15％	68.11％	5.96％

实施例采用P-R(Precision-Recall)曲线纵坐标表示检测准确率(Precision)，横坐标表示检测召回率(Recall)，设置不同的置信度阈值求得多对P-R值，将多对P-R值绘制成相应的P-R曲线，曲线越往右上角检测性能越好。图7是本发明与SSD算法在CUHKOcclusion Dataset数据集上，IOU交并比阈值overlap_threshold＝0.5，NMS非极大值抑制阈值nms_threshold＝0.45时的P-R曲线，其中灰色三角标曲线为本发明算法的P-R曲线，灰色星标曲线为SSD算法的P-R曲线。由图可以看出，本发明算法要优于SSD算法的性能。

表2

	SSD	本发明方法
			总默认框数量	8732	7760
特征层数	6	5
			是否采用inception	否	是
测试速度	69FPS	54FPS

表2所示是本发明方法与SSD在速度性能上的对比。神经网络根据输入的数据，然后进行一次前向计算之后，会在网络的末端产生检测结果，所以检测速度实际上就是神经网络进行一次前向计算所需的时间。由于SSD在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2这6个层中选取的默认框总数是8732，而本发明方法只有conv4_3、fc7、conv6_2、conv7_2、conv8_2这5个特征层并且只选取了7760个默认框，虽然采用了复杂inception结构进行特征提取，但是速度没有下降太多。SSD算法在NVIDIA GeForce GTX 1080Ti显卡下的测试速度为69FPS，而本发明方法在同等条件下的测试速度为54FPS，达到实时检测的要求。

图8展示了一些SSD和本发明方法的实际检测结果图，左边一列为SSD算法的检测结果，右边一列是本发明方法的检测结果。可以看出，在行人密集场景下，本发明方法比SSD的检测性能要好。

本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.行人检测网络，其特征在于，以VGG16为基础网络，选用其中的fc6、fc7，再增加conv6_2、conv7_2和conv8_2三个特征层，总共包括五个特征层。

2.根据权利要求1所述的行人检测网络，其特征在于：

用VGG16作为基础网络，将VGG16中的fc6的全连接操作改成3x3的卷积操作；

通过inception操作生成fc7，将VGG16中的conv4_3和fc7选为特征层；

将网络设置为二分类检测。

3.根据权利要求2所述的行人检测网络，其特征在于，所述行人检测网络采用的inception结构，包括四个分支，第一个分支是一个1x1卷积操作，第二个分支是一个3x3卷积操作，第三个分支包括两个操作，先进行1x1的卷积操作，然后进行3x3的最大池化操作，第四个分支5x5的卷积操作，其中5x5的卷积操作通过5x1和1x5的卷积操作级联实现，最后将四个分支所得到的结果通过concatenate操作拼接得到最终的特征层。

4.根据权利要求2所述的行人检测网络，其特征在于，所述特征层进行特征提取过程中，在conv4_3和fc7之间采用pad＝0，kernel_size＝2，stride＝2的最大池化操作进行下采样，在fc7和conv6_2之间采用pad＝1，kernel_size＝3，stride＝2的卷积操作进行下采样、conv6_2和conv7_2、conv7_2和conv8_2之间分别进行两次pad＝0，kernel_size＝3，stride＝1的卷积操作；最后得到conv4_3、fc7、conv6_2、conv7_2、conv8_2所产生的特征图的尺寸分别是38x38、19x19、10x10、6x6、2x2。

5.行人检测网络模型训练方法，其特征在于，包括步骤：

对行人检测网络的5个特征层生成的特征图使用不规则卷积核进行特征提取，从每张特征图中分别得到一张表征类别置信度的置信度图和一张表征检测框坐标位置的坐标偏置图；

制定密集框生成策略，从行人检测网络的5个特征层生成的特征图中选取密集的默认框，并通过调整默认框的宽高比为E使得其更符合行人的身体比例特征；

将训练样本图片及其标签文件生成训练数据文件，通过预处理，统一调整样本数据尺寸，然后送进调整默认框选取策略后的行人检测网络中进行训练，待达到预设的迭代次数后得到训练好的行人检测网络模型。

6.根据权利要求5所述的行人检测网络模型训练方法，其特征在于，所述生成位置偏置图是通过4x4＝16个3x1的不规则卷积核生成，每一个卷积核的卷积操作得到的值分别代表候选目标框4个坐标参数x_min，x_max，y_min以及y_max中的一个，而每个网格又预测4个候选目标框；生成类别置信度图是通过2x4＝8个3x1的不规则卷积核生成，每一个卷积核的卷积操作得到值分别代表着每个候选目标框属于行人的置信度和属于背景的置信度。

7.根据权利要求5所述的行人检测网络模型训练方法，其特征在于，设置置信度阈值τ和非极大抑制阈值λ，在每张特征图中预测H·W·4个候选框中通过非极大值抑制去除重复检测的目标框，然后去除类别置信度低于τ的目标框；其中，H和W分别是特征图的高度和宽度；所保留的目标框及其对应的行人类别置信度即可作为行人检测的输出结果。

8.行人检测方法，其特征在于，包括步骤：

设置检测阈值，加载行人检测网络模型初始化网络参数；

将图片送入模型中，对图片数据进行一次前向计算，从类别置信度图和坐标偏置图中得到检测结果，检测结果包括每个框的类别的置信度和x_min，x_max，y_min以及y_max四个坐标；

将所有的框通过非极大值抑制对重复检测的框进行滤除，最后将结果保存在文件中。

9.介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求8的行人检测方法。

10.设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求8的行人检测方法。