CN106897738B

CN106897738B - 一种基于半监督学习的行人检测方法

Info

Publication number: CN106897738B
Application number: CN201710052773.8A
Authority: CN
Inventors: 王树锋; 吴斯; 许勇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2019-07-16
Anticipated expiration: 2037-01-22
Also published as: CN106897738A

Abstract

本发明公开了一种基于半监督学习的行人检测方法，首先获取源图像集的训练样本和所属类别，将目标场景图像集中的一部分图像进行行人标记，获取目标场景图像对应的训练样本和样本特征；其次由源图像集的训练样本训练生成决策森林，目标场景图像集中知晓所属类别的训练样本对决策森林中的决策树进行筛选，重组后产生新的决策森林；再者通过新的决策森林对目标场景图像集中未知所属类别训练样本进行评分，将置信度高的训练样本标记为行人训练样本；然后通过目标场景图像集中知晓输送类别的训练样本以及上述行人训练样本训练神经网络；最后测试样本输入至新的决策森林，将置信度高的测试样本通过神经网络得出行人检测结果。具有行人检测精度高的优点。

Description

一种基于半监督学习的行人检测方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于半监督学习的行人检测方法和系统。

背景技术

随着计算机视觉技术的发展，行人检测是当前目标检测方面的研究热点之一，在视频监控、智能交通、人机交互、虚拟现实等领域有着广泛的应用。基于视觉的行人检测属于人体运动分析的研究范畴，通过对人体的检测、跟踪、轨迹分析以及行为识别，系统可实时检测异常事件并报警，变被动监视为主动报警。随着大数据时代的发展，计算机相关技术也相应地需要解决大数据的挑战。行人检测除了具有的服饰变化、姿态变化、模式多样等难点外，还具有中远距离行人分辨率低、特征信息不明显、场景复杂多变等问题，这些困难使得行人检测成为一个极具挑战性的研究课题。对于现有的一般的行人检测方法，没有用目标场景的样本进行训练，因此应用于特定的目标场景时往往会存在检测准确率下降的问题。因此，这就需要利用计算机视觉和人工智能领域相关知识来产生一个适应于该场景下的行人检测器。

现有技术中，通常采用基于统计分类的方法进行行人检测，基于统计分类的方法通过从一系列训练数据中学习得到分类器，常用的统计分类方法有基于神经网络的方法、基于支持向量机(SVM)的方法和基于Adaboost的方法。其中基于统计分类的方法，用于训练分类器的训练样本集中，未标注样本的数量远大于已标注样本的数量，如果只是用少量已标注样本，训练得到学习模型不具有很好的泛化能力，同时造成大量未标注样本的浪费，如果只是用大量未标注样本，将会忽略已标注样本的价值，而且得到的分类器将不够精确。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于半监督学习的行人检测方法，该方法只需要人为对目标场景图像集中一部分图像进行行人标记即可得到具有很好泛化能力的行人检测器，能够有效节省人工标记图像所花费的时间，具有行人检测精度高的优点。

本发明的目的通过下述技术方案实现：一种基于半监督学习的行人检测方法，步骤如下：

S1、获取源图像集中每幅图像对应的训练样本和各训练样本对应的样本特征；且获取到源图像集对应的各训练样本的所属类别，其中所属类别包括行人和非行人；

同时，获取目标场景图像集，将目标场景图像集中的其中一部分图像进行行人标记；然后将目标场景图像集中的每幅图像进行滑动窗的加窗处理后，得到目标场景图像集对应的各个训练样本，其中带有行人标记的图像经过滑动窗的加窗处理后得到训练样本为知晓所属类别的训练样本；然后提取目标场景图像集对应的各个训练样本的样本特征；

S2、将源图像集对应的各训练样本的样本特征作为决策森林的输入，且将源图像集对应的各训练样本的所属类别作为决策森林的输出，对决策森林进行训练，生成一个包含多棵决策树的决策森林；

S3、使用目标场景图像集中带有行人标记的图像对应的训练样本的样本特征对步骤S2获取到的决策森林中的所有决策树进行重组产生新的决策森林；

S4、将目标场景图像集中未带有行人标记的图像对应的训练样本的样本特征输入至步骤S3中产生的新的决策森林；然后通过该新的决策森林对这些训练样本进行评分，得出这些训练样本的置信度；最后将置信度单元大于等于定值X的训练样本标记为行人训练样本；

S5、将目标场景图像集中带有行人标记的图像对应的训练样本以及步骤S4中行人训练样本对应的原始图像输入至神经网络，以对神经网络进行训练，得到训练后的神经网络作为最终的行人检测器；

S6、将待检测的每幅目标场景图像经过滑动窗的加窗处理后得到测试样本，然后提取各测试样本的样本特征，将各测试样本的样本特征输入至步骤S3获得的新决策森林，通过该新的决策森林对这些测试样本进行评分，得到这些测试样本的置信度，再者对这些测试样本的置信度进行判断，将置信度小于定值X的测试样本判定为非行人测试样本，将置信度大于等于一定值的测试样本对应的原始图像输入至步骤S5获取到的行人检测器中，通过行人检测器判定出测试样本所属类别，得出测试样本是否为行人样本，从而得到行人检测的结果。

优选的，步骤S3中获取到目标场景图像集对应的各个训练样本的具体过程如下：

S31、将目标场景图像集中每幅图像进行各种尺度的缩放，形成多尺度的图像空间，即图像金字塔；

S32、使用滑动窗口在图像金字塔空间上进行滑动，每滑动一次即得到一个训练样本；

步骤S6中获取到目标场景图像集对应的各个训练样本的具体过程如下：

S6a、将待检测的每幅目标场景图像进行各种尺度的缩放，形成多尺度的图像空间，即图像金字塔；

S6b、使用滑动窗口在图像金字塔空间上进行滑动，每滑动一次即得到一个测试样本；

步骤S1中，源图像集中每幅图像对应的训练样本的样本特征为Haar-like特征；

步骤S1中，针对目标场景图像集对应的每个训练样本所提取的样本特征为Haar-like特征；具体提取过程如下：

首先由目标场景图像集对应的每个训练样本对应的原始图像计算出10个通道的特征图；

然后使用人工预设的Haar-like滤波器对10通道的特征图进行卷积，得到每个样本对应的Haar-like特征；

步骤S6中，针对各测试样本所提取的样本特征为Haar-like特征；具体提取过程如下：

首先由每个测试样本对应的原始图像计算出10个通道的特征图；

然后使用人工预设的Haar-like滤波器对10通道的特征图进行卷积，得到每个样本对应的Haar-like特征。

优选的，重组产生新的决策森林的具体过程如下：目标场景图像集中带有行人标记的图像对应的训练样本的样本特征来训练一个支持向量机(SVM)分类器，从而学习到一组最优的组合系数，并通过上述学习得到的这组最优的组合系数对步骤S2获取到的决策森林中的决策树进行重组产生新的决策森林；

其中新的决策森林为：

其中D为步骤S2获取到的决策森林中的决策树总数；x表示目标场景图像集中带有行人标记的图像对应的各训练样本；表示第d棵决策树的组合系数，是上述学习到的一组最优的组合系数中的其中一个；bias是支持向量机(SVM)分类器的一个偏置；表示目标场景图像集中带有行人标记的图像对应的训练样本x输入至第d棵决策树时的输出，表示的是目标场景图像集中带有行人标记的图像对应的训练样本x输入至第d棵决策树时得到的新的决策森林的输出。

优选的，步骤S4中将置信度单元大于等于定值X的训练样本标记为行人训练样本的同时，给行人训练样本赋予样本重要性权重；

所述步骤S5将目标场景图像集中带有行人标记的图像对应的训练样本以及步骤S4中赋予样本重要性权重的行人训练样本对应的原始图像输入至神经网络，以对神经网络进行训练。

优选的，步骤S4中行人训练样本被赋予的样本重要性权重为：

其中w_r为行人训练样本r被赋予的样本重要性权重，s_r表示新的决策森林对行人训练样本r的评分，s_min和s_max分别表示步骤S4中标记为行人训练样本的所有样本中评分的最小值和最大值，λ为一参数，λ＝0.5～2。

优选的，所述神经网络为卷积神经网络，所述步骤S5中最终的行人检测器即为训练后的卷积神经网络。

更进一步的，步骤S6中测试样本对应的原始图像输入至步骤S5中获取到的行人检测器后，通过以下处理后得到判定出测试样本所属类别，即是否为行人样本：

S61、测试样本对应的原始图像作为输入层特征图输入到训练后的卷积神经网络；

S62、卷积神经网络中首先对输入层特征图进行卷积和稀疏线性激活，得到卷积层C1；

S63、将卷积层C1特征图进行最大值池化，得到降采样层P1；

S64、将降采样层P1特征图进行局部响应值归一化，得到归一化层N1；

S65、将归一化层N1特征图进行卷积和稀疏线性激活，得到卷积层C2；

S66、将卷积层C2特征图进行最大值池化，得到降采样层P2；

S67、将降采样层P2特征图进行局部响应值归一化，得到归一化层N2；

S68、将归一化层N2特征图进行卷积和稀疏线性激活，得到卷积层C3；

S69、将卷积层C3特征图进行卷积和稀疏线性激活，得到卷积层C4；

S70、将卷积层C4特征图进行卷积和稀疏线性激活，得到卷积层C5；

S71、将卷积层C5特征图进行最大值池化，得到降采样层P5；

S72、将降采样层P5特征图进行全连接计算、稀疏线性激活和随机性置零，得到全连接层FC6；

S73、将全连接层FC6特征图进行全连接计算、稀疏线性激活和随机性置零，得到全连接层FC7；

S74、将全连接层FC7特征图进行全连接计算，然后采用Softmax函数计算出卷积神经输入的原始图像对应测试样本属于行人的概率以及不属于行人的概率，以此判定出测试样本所属类别。

更进一步的，所述卷积层C1～C5和全连接层FC6～FC7均为带参数的隐含层；

所述卷积层C1～C5的每个卷积层中，经过当前卷积层的第j个卷积核卷积得到的特征图为：

其中，表示的是第a层卷积层第i个神经元的第j个卷积核，为第a层卷积层的第j个卷积核的神经元的偏置，f是激活函数，为当前卷积层的上一层第i个神经元输出的特征图；

步骤S74中采用的Softmax函数为：

其中，p∈{0,1,…,C-1}表示的是C个类别中的一个，C表示类别的总数，x_p表示全连接层全连接层FC7的第p个神经元的输出，x₀,x₁,…,x_C-1分别表示全连接层全连接层FC7的第0,1,…C-1个神经元的输出，y_p则是代表测试样本属于第p类类别的概率。

优选的，步骤S6中训练后的神经网络判定出待检测的每幅目标场景图像对应的各测试样本所属类别后，进行非极大值抑制，以获取到最终行人检测结果，其中具体过程如下：

Sa、选取出待检测的每幅目标场景图像中属于行人类别的测试样本，并且根据神经网络的输出获取到这些测试样本属于行人类别的概率；

Sb、将属于行人类别的概率最大的测试样本选取出来，然后将该测试样本分别与其他各测试样本进行重叠程度的计算，将与该测试样本重叠程度是达到一定阈值Y的其他测试样本进行抑制，同时将该测试样本取出作为一个行人检测结果；然后进入步骤Sc；

Sc、在当前剩下的属于行人类别的测试样本中，将属于行人类别的概率最大的测试样本选取出来并且作为其中一个行人检测结果；然后将该测试样本分别与其他各测试样本进行重叠程度的计算，将与该测试样本重叠程度是达到一定阈值Y的其他测试样本进行抑制；并且进入步骤Sd；

Sd、重新执行步骤Sc，直到当前剩下的属于行人类别的测试样本只有一个，则将该测试样本作为一个行人检测结果，并且结束检测。

更进一步的，所述定值X取值为0.5以上，所述阈值Y为30％，所述步骤S2将目标场景图像集中的5％的图像进行行人标记。

本发明相对于现有技术具有如下的优点及效果：

(1)在本发明中利用现有公知的源图像集训练决策森林，并且只需要将目标场景图像集中一部分图像进行行人标记，其他的图像均无需行人标记，通过带行人标记的图像获取到的训练样本重组后产生的新的决策森林即可对未带行人标记的图像对应训练样本进行评分，从而能够将其中的行人训练样本选取出来，再通过这些行人训练样本以及带行人标记的图像的训练样本训练神经网络，得到最终的行人检测器。由上述可知，本发明只需要人为对目标场景图像集中一部分图像进行行人标记即可得到具有很好泛化能力的行人检测器，能够有效节省人工标记图像所花费的时间。本发明中将传统机器学习中的决策森林与深度学习中的神经网络进行级联实现基于半监督学习的行人检测，其中决策森林输入对应的是人为提取的样本特征，而神经网络输入的是样本对应的原始图像，由于人为设计的特征与深度网络学习到的特征空间具有互补性，因此使得整个行人检测方法具有更好的表达能力和区分能力，并且这种级联的方法能有效提高行人检测方法的效率和准确率。

(2)本发明通过目标场景图像集中知晓输送类别的训练样本对决策森林中的决策树进行筛选，重组后产生新的决策森林，从而由该新的决策针对目标场景图像集中未带行人标记的图像对应训练样进行所属类别判定，其中新的决策森林是由已有的决策森林通过筛选一些共同的特征并且重新组合后产生的，因此新的决策森林在目标场景中使用更加可靠，能够更加精确地检测。

(3)本发明在通过最终的行人检测器对测试样本进行检测之前，测试样本首先通过新的决策树进行评分，然后将置信度低的测试样本直接判定为非行人样本，而置信度高的测试样本才输入至最终的行人检测器进行行人的检测，这样的操作使得本发明有效减少了行人检测器的工作量，并且进一步提高了行人检测的准确率。

(4)本发明采用神经网络作为最终的行人检测器，相比其他的检测器，神经网络的模型参数更多，因此具有更强大的分类能力，并且能够同时进行特征提取和分类，不需要输入人为设计的特征，而是直接输入原始图像即可实现分类。因此本发明通过神经网络可以更方便、快捷的实现行人检测。另外本发明中的神经网络可以选用卷积神经网络，相比其他神经网络，卷积神经网络的卷积操作能够从图像中学到重要的边缘局部特征以及全局特征，因此在处理图像这种数据时效果会更好。并且卷积神经网络中卷积核的参数相对较少，能很好地避免过拟合。

(5)本发明针对于通过新的决策森林获取到的目标场景图像集对应的行人训练样本赋予样本重要性权重，其中置信度高的行人训练样本将被赋予更高的权重，而置信度低的行人训练样本将被赋予相对较低的权重，从而通过权重体现各行人训练样本的重要性，在训练神经网络阶段，行人训练样本被赋予的权重将输入至神经网络的一个最小化目标函数中，因此将权重输入至目标函数中，可以使得目标函数求得最合适的分类器参数，能够训练出更适合且更加准确的行人检测器。

(6)本发明在最终的行人检测器检测出每幅目标场景图像对应的各测试样本所属类别后，再进行非极大值抑制，将每幅目标场景图像中表示同一个行人的各测试样本中所属行人类别概率最大的测试样本留下，而表示同一个行人的其他所属行人类别概率低的测试样本进行抑制，因此保留了最能表达行人的测试样本，使得行人检测精度更高。

附图说明

图1是本发明方法的流程图。

图2是本发明新的决策森林生成流程图。

图3是本发明卷积神经网络结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种基于半监督学习的行人检测方法，如图1所示，步骤如下：

S1、获取源图像集中每幅图像对应的训练样本和各训练样本对应的样本特征；且获取到源图像集对应的各训练样本的所属类别，其中所属类别包括行人和非行人；本实施例中源图像集是比较通用的数据，并且这些图像带有标注信息，即每张源图像上的行人的位置坐标都提供，因此利用这些图像可以很好地初始化分类器；

同时，获取目标场景图像集，将目标场景图像集中的其中一部分图像进行行人标记，在本实施例中将目标场景图像集中5％的图像进行行人标记，例如当获取目标场景图像集中有400张目标场景图像时，则取其中20张图像进行行人标记；然后将目标场景图像集中的每幅图像进行滑动窗的加窗处理后，得到目标场景图像集对应的各个训练样本，其中带有行人标记的图像经过滑动窗的加窗处理后得到训练样本为知晓所属类别的训练样本；然后提取目标场景图像集对应的各个训练样本的样本特征；

本步骤中，获取到目标场景图像集对应的各个训练样本的具体过程如下：

S11、将目标场景图像集中每幅图像进行各种尺度的缩放，形成多尺度的图像空间，即图像金字塔；

S12、使用滑动窗口在图像金字塔空间上进行滑动，每滑动一次即得到一个训练样本；

本步骤中，针对目标场景图像集对应的每个训练样本所提取的样本特征为Haar-like特征；具体提取过程如下：

首先由目标场景图像集对应的每个训练样本对应的原始图像计算出10个通道的特征图(LUV颜色通道、6个梯度方向直方图以及灰度图)；

S2、将源图像集对应的各训练样本的样本特征作为决策森林的输入，且将源图像集对应的各训练样本的所属类别作为决策森林的输出，对决策森林进行训练，生成一个包含多棵决策树的决策森林；本实施例中决策森林则是由许多棵由AdaBoost算法进行组合起来的简单的决策树组成的，每棵决策树实质是对图像块中某些特定的局部特征的描述。

S3、使用目标场景图像集中带有行人标记的图像对应的训练样本的样本特征对步骤S2获取到的决策森林中的所有决策树进行重组产生新的决策森林，其中重组方法是利用目标场景图像集中带有行人标记的图像对应的训练样本的样本特征来训练一个支持向量机(SVM)分类器，从而学习到一组最优的组合系数，并通过上述学习得到的这组最优的组合系数对步骤S2获取到的决策森林中的决策树进行重组产生新的决策森林，如图2所示，该新的决策森林为适用于目标场景图像的新分类器；本实施例中得到的新的决策森林为：

其中D为步骤S2获取到的决策森林中的决策树总数；x表示目标场景图像集中带有行人标记的图像对应的各训练样本；表示第d棵决策树的组合系数，是上述一组最优的组合系数中的其中一个；bias是支持向量机(SVM)分类器的一个偏置；表示目标场景图像集中带有行人标记的图像对应的训练样本x输入至第d棵决策树时的输出，表示的是目标场景图像集中带有行人标记的图像对应的训练样本x输入至第d棵决策树时得到的新的决策森林的输出。

S4、将目标场景图像集中未带有行人标记的图像对应的训练样本的样本特征输入至步骤S3中产生的新的决策森林；然后通过该新的决策森林对这些训练样本进行评分，得出这些训练样本的置信度；最后将置信度单元大于等于定值X的训练样本标记为行人训练样本，且为行人训练样本赋予样本重要性权重；在本实施例中X取值为0.5以上。

本步骤中，行人训练样本被赋予的样本重要性权重为：

其中w_r为行人训练样本r被赋予的样本重要性权重，s_r表示新的决策森林对行人训练样本r的评分，s_min和s_max分别表示步骤S4中标记为行人训练样本的所有样本中评分的最小值和最大值，λ为一参数，本实施例中λ＝0.5～2。

S5、将目标场景图像集中带有行人标记的图像对应的训练样本以及步骤S4中赋予样本重要性权重的行人训练样本对应的原始图像输入至神经网络，以对神经网络进行训练，得到训练后的神经网络作为最终的行人检测器；

S6、将待检测的每幅目标场景图像经过滑动窗的加窗处理后得到测试样本，然后提取各测试样本的样本特征，将各测试样本的样本特征输入至步骤S3获得的新决策森林，通过该新的决策森林对这些测试样本进行评分，得到这些测试样本的置信度，再者对这些测试样本的置信度进行判断，将置信度小于定值X的测试样本判定为非行人测试样本，将置信度大于等于一定值的测试样本对应的原始图像输入至步骤S5获取到的行人检测器中，通过行人检测器判定出测试样本所属类别，得出测试样本是否为行人样本，从而得到行人检测的结果。其中行人检测器将有两个输出，分别为是行人的输出概率和不是行人的输出概率。通过这两个输出概率判定出对应测试样本是否为行人样本。

本步骤中，针对各测试样本所提取的样本特征为Haar-like特征；具体提取过程如下：

首先由每个测试样本对应的原始图像计算出10个通道的特征图(LUV颜色通道、6个梯度方向直方图以及灰度图)；

本实施例上述步骤S6中训练后的神经网络判定出待检测的每幅目标场景图像对应的各测试样本所属类别后，进行非极大值抑制，以获取到最终行人检测结果，其中具体过程如下：

Sb、将属于行人类别的概率最大的测试样本选取出来，然后将该测试样本分别与其他各测试样本进行重叠程度的计算，将与该测试样本重叠程度是达到一定阈值Y的其他测试样本进行抑制，同时将该测试样本取出作为一个行人检测结果；然后进入步骤Sc；本实施例中阈值Y为30％。

本实施例上述步骤中所使用的神经网络为卷积神经网络，所述步骤S5中最终的行人检测器即为训练后的卷积神经网络。如图3所示该卷积神经网络从输入层至输出层之间包括卷积层C1、降采样层P1、归一化层N1、卷积层C2、降采样层P2、归一化层N2、卷积层C3、卷积层C4、卷积层C5、降采样层P5、全连接层FC6、全连接层FC7以及Softmax函数层。

在步骤S6中测试样本对应的原始图像输入至步骤S5中获取到的行人检测器后，通过以下处理后得到判定出测试样本所属类别，即是否为行人样本：

S63、将卷积层C1特征图进行最大值池化，得到降采样层P1；

S66、将卷积层C2特征图进行最大值池化，得到降采样层P2；

S71、将卷积层C5特征图进行最大值池化，得到降采样层P5；

其中上述卷积层C1～C5和全连接层FC6～FC7均为带参数的隐含层；

其中，表示的是第a层卷积层第i个神经元的第j个卷积核，为第a层卷积层的第j个卷积核的神经元的偏置，f是激活函数，可以是ReLU，Sigmoid，Tanh等类型的函数，为当前卷积层的上一层第i个神经元输出的特征图。

步骤S74中采用的Softmax函数为：

其中，p∈{0,1,…,C-1}表示的是C个类别中的一个，C表示类别的总数，x_p表示全连接层全连接层FC7的第p个神经元的输出，q＝0,1,…,C，x₀,x₁,…,x_C-1分别表示全连接层全连接层FC7的第0,1,…C-1个神经元的输出，y_p则是代表测试样本属于第p类类别的概率。

由上述可知，本实施例行人检测方法在训练行人检测器时，只需要目标场景图像集中的其中一部分图像进行行人标，而其他部分的图像均无需进行行人标记，即目标场景图像集只有一部分图像对应的训练样本是知晓所属类别的(即有监督的)，而其他部分图像对应的训练样本是不知晓类别的(即无监督的)，因此本发明行人检测方法是一种基于半监督学习的行人检测方法。

本实施例上述行人检测方法首先获取到源图像集的训练样本和训练样本所属类别，并且同时获取目标场景图像集，将目标场景图像集中的其中一部分图像进行行人标记，因此通过目标场景图像集获取到的训练样本中，带行人标记图像对应的训练样本为知晓所属类别的训练样本；其次通过源图像集的训练样本训练生成决策森林，并且通过目标场景图像集中知晓输送类别的训练样本对决策森林中的决策树进行筛选，重组后产生新的决策森林；再者通过新的决策森林对目标场景图像集中未知所属类别的训练样本进行评分，得出这些训练样本的置信度，将置信度高的训练样本标记为行人训练样本；然后通过目标场景图像集中知晓输送类别的训练样本以及上述行人训练样本训练神经网络；最后将待检测的每幅目标场景图像对应测试样本输入至新的决策森林，通过新的决策森警进行评分，将置信度高的测试样本输入至训练后的神经网络，通过神经网络得出行人检测结果。由上述可知，本实施例只需要人为对目标场景图像集中一部分图像进行行人标记即可得到具有很好泛化能力的行人检测器，能够有效节省人工标记图像所花费的时间。本实施例中将传统机器学习中的决策森林与深度学习中的神经网络进行级联实现行人检测，其中决策森林输入对应的是人为提取的样本特征，而神经网络输入的是样本对应的原始图像，由于人为设计的特征与深度网络学习到的特征空间具有互补性，因此使得整个行人检测方法具有更好的表达能力和区分能力，并且这种级联的方法能有效提高行人检测方法的效率和准确率。

本实施例上述步骤S3通过目标场景图像集中知晓输送类别的训练样本对决策森林中的决策树进行筛选，重组后产生新的决策森林，从而由该新的决策针对目标场景图像集中未带行人标记的图像对应训练样进行所属类别判定，其中新的决策森林是由已有的决策森林通过筛选一些共同的特征并且重新组合后产生的，因此新的决策森林在目标场景中使用更加可靠，能够更加精确地检测。

本实施例上述步骤S6中，在通过最终的行人检测器对测试样本进行检测之前，测试样本首先通过新的决策树进行评分，然后将置信度低的测试样本直接判定为非行人样本，而置信度高的测试样本才输入至最终的行人检测器进行行人的检测，这样的操作使得本发明有效减少了行人检测器的工作量，并且进一步提高了行人检测的准确率。

本实施例上述步骤S4针对于通过新的决策森林获取到的目标场景图像集对应的行人训练样本赋予样本重要性权重，其中置信度高的行人训练样本将被赋予更高的权重，而置信度低的行人训练样本将被赋予相对较低的权重，从而通过权重体现各行人训练样本的重要性，在训练神经网络阶段，如图所示，行人训练样本被赋予的权重将输入至神经网络的一个最小化目标函数中，因此将权重输入至目标函数中，可以使得目标函数求得最合适的分类器参数，能够训练出更适合且更加准确的行人检测器。

本实施例上述步骤S6中，在最终的行人检测器检测出每幅目标场景图像对应的各测试样本所属类别后，再进行非极大值抑制，将每幅目标场景图像中表示同一个行人的各测试样本中所属行人类别概率最大的测试样本留下，而表示同一个行人的其他所属行人类别概率低的测试样本进行抑制，因此保留了最能表达行人的测试样本，使得行人检测精度更高。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于半监督学习的行人检测方法，其特征在于，步骤如下：

S4、将目标场景图像集中未带有行人标记的图像对应的训练样本的样本特征输入至步骤S3中产生的新的决策森林；然后通过该新的决策森林对这些训练样本进行评分，得出这些训练样本的置信度；最后将置信度单元大于等于定值X的训练样本标记为行人训练样本的同时，给行人训练样本赋予样本重要性权重；

2.根据权利要求1所述的基于半监督学习的行人检测方法，其特征在于，步骤S3中获取到目标场景图像集对应的各个训练样本的具体过程如下：

3.根据权利要求1所述的基于半监督学习的行人检测方法，其特征在于，重组产生新的决策森林的具体过程如下：目标场景图像集中带有行人标记的图像对应的训练样本的样本特征来训练一个支持向量机(SVM)分类器，从而学习到一组最优的组合系数，并通过上述学习得到的这组最优的组合系数对步骤S2获取到的决策森林中的决策树进行重组产生新的决策森林；

其中产生的新的决策森林为：

4.根据权利要求1所述的基于半监督学习的行人检测方法，其特征在于，步骤S4中行人训练样本被赋予的样本重要性权重为：

5.根据权利要求1所述的基于半监督学习的行人检测方法，其特征在于，所述神经网络为卷积神经网络，所述步骤S5中最终的行人检测器即为训练后的卷积神经网络。

6.根据权利要求5所述的基于半监督学习的行人检测方法，其特征在于，步骤S6中测试样本对应的原始图像输入至步骤S5中获取到的行人检测器后，通过以下处理后得到判定出测试样本所属类别，即是否为行人样本：

S63、将卷积层C1特征图进行最大值池化，得到降采样层P1；

S66、将卷积层C2特征图进行最大值池化，得到降采样层P2；

S71、将卷积层C5特征图进行最大值池化，得到降采样层P5；

7.根据权利要求6所述的基于半监督学习的行人检测方法，其特征在于，所述卷积层C1～C5和全连接层FC6～FC7均为带参数的隐含层；

步骤S74中采用的Softmax函数为：

8.根据权利要求1所述的基于半监督学习的行人检测方法，其特征在于，步骤S6中训练后的神经网络判定出待检测的每幅目标场景图像对应的各测试样本所属类别后，进行非极大值抑制，以获取到最终行人检测结果，其中具体过程如下：

9.根据权利要求8所述的基于半监督学习的行人检测方法，其特征在于，所述定值X取值为0.5以上，所述阈值Y为30％，所述步骤S2将目标场景图像集中的5％的图像进行行人标记。