CN110046601A

CN110046601A - 针对十字路口场景的行人检测方法

Info

Publication number: CN110046601A
Application number: CN201910332848.7A
Authority: CN
Inventors: 杨静; 夷洲; 段原杰; 孙国梓
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-07-23
Anticipated expiration: 2039-04-24
Also published as: CN110046601B

Abstract

本发明揭示了一种针对十字路口场景的行人检测方法，包括如下步骤：S1、准备并整理十字路口场景的训练样本集合，所述训练样本集合包括正样本集和负样本集；S2、利用平均背景模型算法建立十字路口场景的背景模型；S3、使用训练样本，训练得到各个部位的分类器；S4、利用行为知识空间算法，将各个部位的分类器进行组合，形成最终的分类器；S5、向模型中输入待检测图片，完成对待检测图片中行人的检测识别。本发明通过对基于整体特征的算法以及基于多部位的算法的融合，再加上利用场景的相似性提出背景建模的预处理，为十字路口场景下的行人检测提出了一种快速可行且效果良好的方案。

Description

针对十字路口场景的行人检测方法

技术领域

本发明涉及一种行人检测方法，具体涉及一种针对十字路口场景的行人检测方法，属于计算机视觉技术与图像识别领域。

背景技术

随着互联网、人工智能技术以及智能硬件水平的迅猛发展和不断提高，记录有人们日常生活景象的图像及视频数据的种类及数量也与日俱增，这使得计算机视觉技术在对人们日常生活的进行分析的过程中所起到的作用越来越大，也正因如此，目前对于计算机视觉技术的相关研究也愈加火热。

计算机视觉技术，顾名思义是一门研究如何使用机器“看”东西的自然科学。更确切的说，是用摄影机、照相机以及计算机对图片和视频进行跟踪、识别与检测，并进一步完成图像处理、最终得到相应结果的一门科学。计算机科学中的人流量统计技术就是在计算机视觉的基础上、通过计算机判断图像或者视频序列中是否存在特定行人的技术。在商场、地铁、车站、景区等场所中均有着广泛的应用，其所统计出的人流量数据可以为各场所的管理人员做出相应的决策提供必要的依据。

传统的目标检测算法主要以机器学习为主，这类算法主要通过建立合适的物体特征提取模型，并通过相应的方法构建出足够强大的分类器，实现物体的检测和识别。现有研究表明，机器学习技术可以有效地克服行人姿态和衣着多样性为自动识别所带来的困难，因此这一技术也是目前行人检测领域内比较主流的研究方向。具体而言，目前主流的检测算法主要分为三大类：基于整体特征的算法、基于多部位的算法、基于多视角的算法。其中，基于整体的算法主要有小波特征、边缘模板、Edgelet特征、Shapelet特征以及Hog特征等。基于多部位的算法主要有自适应组合分类器、基于贝叶斯推断的组合算法以及隐式形状模型等。而在目前各类基于多视角的算法中，最新的算法是CBT(Cluter Boosted Tree)。

尽管现有技术中已经存在诸多检测算法，每种算法也都具有其各自的优点，但是在实际的应用过程中技术人员发现，现有的各类算法仍然存在着很多的缺点。大致包括：对于衣着、外观、姿态各异的行人检测精度不够高；提取的特征在特征空间中的分布不够紧凑；分类器的性能受训练样本的影响较大，即场景的普遍适用性不够高；离线训练时的负样本无法涵盖所有真实应用场景的情况等。

综上所述，如何在现有技术的基础上提出一种全新的行人检测方法，尽可能地克服现有技术中所存在的诸多缺陷，也就成为了本领域内技术人员共同的研究目标。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种针对十字路口场景的行人检测方法，包括如下步骤：

S1、准备并整理十字路口场景的训练样本集合，所述训练样本集合包括正样本集和负样本集；

S2、利用平均背景模型算法建立十字路口场景的背景模型；

S3、使用训练样本，训练得到各个部位的分类器；

S4、利用行为知识空间算法，将各个部位的分类器进行组合，形成最终的分类器；

S5、向模型中输入待检测图片，完成对待检测图片中行人的检测识别。

优选地，S1具体包括如下步骤：

S11、收集准备十字路口场景的训练样本集合，所述正样本集内包括多个正样本，所述正样本为十字路口场景下、包含有行人的样本，所述负样本集内包括多个负样本，所述负样本为十字路口场景下、未包含有行人的样本；

S12、训练样本集合收集完成后，手动裁剪训练样本，并将所有经过裁剪的正样本进行归类、将所有经过裁剪的负样本进行归类。

优选地，在S11所述的收集准备十字路口场景的训练样本集合过程中，当出现正负样本不匹配的情况时，执行如下步骤：

S111、合成样本，通过改变已有训练样本的形态来扩充训练样本集合，改变形态的方式至少包括平移、镜像反转以及旋转；

S112、改变样本权重，增大较少样本类的样本权重，使较少样本类的损失值减小。

优选地，S2中所述平均背景模型算法的流程，具体包括如下步骤：

S21、计算M帧图像的平均值，建立一个初始背景BG；

S22、将当前帧图像减去初始背景BG得到差值D，通过公式检测前景像素和背景像素，所述公式为

d(x，y)＝I(x，y)-u(x，y)，

其中，I(x，y)为当前像素值，u(x，y)为背景模型中相同位置像素的平均值，d(x，y)为I(x，y)与u(x，y)两者的差值，TH为阈值，output(x，y)为输出图像的像素值；

S23、使用被检测的图片对背景模型进行更新；

S24、输入下一张图片，并返回执行S22步骤直至停止。

优选地，S3具体包括如下步骤：

S31、针对每一张训练样本，利用adaboost算法提取出其局部的Shapelet特征；

S32、针对所提取出的Shapelet特征，利用改进的级联分类器训练出各个部位的分类器。

优选地，S31具体包括如下步骤：

S311、提取每张训练样本的底层特征，选择{0度、30度、60度、90度、120度、150度}这六个方向，提取这些方向上训练样本的梯度信息并计算每个像素周围的梯度信息均值；

S312、在每个子窗口中，采用Adaboost算法对S311中得到的底层特征进行训练，筛选出Shapelet特征。

优选地，S32具体包括如下步骤：

S321、构建改进的级联分类器，所述改进的级联分类器由分类能力逐渐加强的一组分类器级联而成，在所述改进的级联分类器中，各级分类器的分类能力由前至后逐渐增强，且每一级分类器均使用改进的adaboost算法训练；

S322、利用所提取出的Shapelet特征，使用S321中构建的改进的级联分类器训练出各个部位的分类器。

优选地，S4具体包括如下步骤：

S41、构建知识空间样本，使用具有代表性和公认性的类标签来构建行为知识空间，每一个行为知识空间单元的值根据两方面确定、分别是每个类输入样本空间的所有样本和样本最可能落入的类；

S42、进行决策，在决策阶段，分别得到每个样本最可能落入的类，每个分类器中的样本在分类器融合后最可能落入的单元和最后的决策制定根据落入某个分类器的样本数的比例确定；

S43、重复S42步骤直至停止。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明通过对基于整体特征的算法以及基于多部位的算法的融合，再加上利用场景的相似性提出背景建模的预处理，为十字路口场景下的行人检测提出了一种快速可行且效果良好的方案。本发明的方法充分地利用了场景的相似性，方法的检测效果好、速率快、可实施性强，具有很高的使用及推广价值。

同时，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于计算机视觉与图像识别方面的其他相关技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法流程示意图；

图2为本发明S2中建立背景模型的流程示意图；

图3为本发明S32中利用改进的级联分类器训练分类器的流程示意图；

图4为本发明S4中利用行为知识空间算法合成最终分类器的流程示意图。

具体实施方式

本发明揭示了一种针对十字路口场景的行人检测方法，下面结合具体方案的实施例，进一步阐述本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，本发明的方法步骤如下。

S1、准备并整理十字路口场景的训练样本集合，所述训练样本集合包括正样本集和负样本集。

具体而言，S1包括如下步骤：

S11、收集准备十字路口场景的训练样本集合，所述正样本集内包括多个正样本，所述正样本为十字路口场景下、包含有行人的样本，所述负样本集内包括多个负样本，所述负样本为十字路口场景下、未包含有行人的样本。

针对识别问题，正样本是我们想要正确识别出的类所对应的样本，即存在行人的样本，负样本原则上可以选取除人以外的其他图片，但一般尽量不选取“模糊样本”，即容易误判的样本，操作者可以从一段视频中截取每一帧的图片，将其中包含行人的样本作为正样本，剩余的作为负样本。

在训练样本的采集过程中，很容易出现正负样本不匹配的问题，从而导致比例大的样本过拟合，进而减低降低模型的可信度。因此当出现正负样本不匹配的情况时，可以采取如下解决办法。

S111、合成样本，通过改变已有训练样本的形态来扩充训练样本集合，改变形态的方式至少包括平移、镜像反转以及旋转。

S112、改变样本权重，增大较少样本类的样本权重，使较少样本类的损失值减小，从而提高模型的可信度。

S2、利用平均背景模型算法建立十字路口场景的背景模型。由于本发明的方法针对的检测场景都是十字路口，而每个路口的场景具有很大的相似性，因而可以建立背景模型，快速排除不含检测目标的区域，这样就会大大提升检测速率。

背景建模算法是视频图像中运动目标检测的一种方法，其基本思想是对图像的背景进行建模。一旦背景模型建立，将当前的图像与背景模型进行某种比较，根据比较结果确定前景目标(需要检测的运动目标)。本方案采用的是平均背景模型(Average BackgroundModel)，它是一种简单、计算速度快但对环境光照变化和背景的多模态性比较敏感的一种背景建模算法。其基本思想是：计算每个像素的平均值作为它的背景模型。检测当前帧时，只需要将当前帧像素值I(x，y)减去背景模型中相同位置像素的平均值u(x，y)，得到差值d(x，y)，将d(x，y)与一个阈值TH进行比较，那么得到输出图像output的值如下：

d(x，y)＝I(x，y)-u(x，y)，

在本方案中，为了提高提高算法的鲁棒性，所以在检测完之后还对背景模型进行了更新。

如图2所示，此处S2中所述平均背景模型算法的流程，具体包括如下步骤：

S21、计算M帧图像的平均值，建立一个初始背景BG。

d(x，y)＝I(x，y)-u(x，y)，

其中，I(x，y)为当前像素值，u(x，y)为背景模型中相同位置像素的平均值，d(x，y)为I(x，y)与u(x，y)两者的差值；TH为阈值；output(x，y)为输出图像的像素值。

S23、使用被检测的图片对背景模型进行更新。

S24、输入下一张图片，并返回执行S22步骤直至停止。

S3、使用训练样本，训练得到各个部位的分类器。具体而言，包括如下步骤：

S31、针对每一张训练样本，利用adaboost算法提取出其局部的Shapelet特征。

S311、提取每张训练样本的底层特征，选择{0度、30度、60度、90度、120度、150度}这六个方向，提取这些方向上训练样本的梯度信息并计算每个像素周围的梯度信息均值。不同于一般的Shapelet特征只有四个方向，本发明采用了六个方向，使得检测效果更加良好。

S312、在每个子窗口中，采用Adaboost算法对S311中得到的底层特征进行训练，这样可以筛选出Shapelet特征。这样的特征对比于底层特征，其分类能力要提高很多，因为它是更多信息的集合，包括方向信息和强度信息，对样本的分类的准确率更高，对图像信息的描述更加完全。

S32、针对所提取出的Shapelet特征，利用改进的级联分类器训练出各个部位的分类器，具体流程如图3所示。

S321、构建改进的级联分类器，所述改进的级联分类器由分类能力逐渐加强的一组分类器级联而成，在所述改进的级联分类器中，各级分类器的分类能力由前至后逐渐增强，且每一级分类器均使用改进的adaboost算法训练。

具体而言，由于Shapelet特征只能对图像中某一个区域的特征描述，所以只是单独使用其中某一个特征，都无法有很好的分类效果。所以采用级联分类器(cascade)来训练出最终的强分类器。

级联分类器(cascade)是一种链式结构的分类器，由分类能力逐渐加强的一组分类器级联而成，可大大加快检测的效率。一旦某级分类器排除了某个样本，那么该样本就被马上判定为负，不再进一步地处理。

本方案中设置最初的几级分类器只负责排除简单的负样本，只需少量的特征参与计算。而靠后的分类器，由于其分类能力更强，故设置其负责排除与人脸非常近似的负样本。在本方案的级联分类器中，每一级都使用改进的adaboost算法训练，保证能让大部分的人脸样本通过，而每级都排除一部分非人脸区域。这个结构可以尽可能快地排除非目标区域，从而节约出时间用于对那些更像目标的区域进行计算。

训练级联分类器的负样本，初始时，我们通过之前预处理过程中建立的背景模型中获取；之后让前一级的分类器无法正确分类的负样本作为下一级分类器的训练样本。

传统的AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候，每个样本对应的权重是相同的，在此样本分布下训练出一个基本分类器h(x)。对于h(x)错分的样本，则增加其对应样本的权重；而对于正确分类的样本，则降低其权重。这样可以使得错分的样本突出出来，并得到一个新的样本分布。

该算法存在的问题是如果在训练样本中有一个或几个非常难的样本很难正确对其进行划分，那么在几轮的权值更新过后，这些样本将被赋予一个很高的权值。那么在之后的训练过程中，所挑选的弱分类器及其权值都将仅仅是为了这极少一部分的样本，也就是说训练过程只是在这些样本上做过度拟合。

为解决以上问题，本发明设置两个阈值：一个上限值、一个下限值，在每一轮的样本权值更新完之后，在下一轮样本权值归一化之前，我们遍历所有的样本的权值，计算出每一个样本的权值占比，如果该样本的权值占比越过之前设置的上限值，那么就将这个样本的权值减去一个很小的权值；反之，如果该样本的权值占比低于下限值，那么就将这个样本的权值加上一个很小的权值。举例说明如下：

假设有一个难样本w₁，其权值为0.02，同时有个简单的样本w₂，其权值为0.001。其中w₁/w₂＝20，难样本的权值是简单样本的20倍。假设难样本的权值越过了上限值，简单样本的权值越过了下限值，对它们都进行调整，设定一个很小的权值m＝0.001，则调整之后的w′₁＝w₁-m＝0.019调整之后的w′₂＝w₂+m＝0.002。那么w′₁/w′₂＝9.5，难样本的权值是简单样本的9.5倍，相较于之前结果，减少了一半。

通过上述例子，可以明显发现，本方案提出的方法可以很好的是权值的分布更加的合理均匀。这样就会使Adaboosting算法从特征池中选择更多的特征进行训练，这样训练得出的特征的表征能力也会更强。

S4、利用行为知识空间(BKS)算法，将各个部位的分类器进行组合，形成最终的分类器。在进行数据集融合时，传统的算法主要以贝叶斯为主，但贝叶斯在使用过程中有很强的局限性，比如要求各分类器之间的协方差为零即相互独立的，这一点在实际操作过程当中很难满足，在此基础上，本发明提出使用行为知识空间算法(BKS)来进行改进。如图4所示，所述S4具体包括如下步骤：

S41、构建知识空间样本，使用具有代表性和公认性的类标签来构建行为知识空间，每一个行为知识空间单元的值根据两方面确定、分别是每个类输入样本空间的所有样本和样本最可能落入的类。

S42、进行决策，在决策阶段，分别得到每个样本最可能落入的类，每个分类器中的样本在分类器融合后最可能落入的单元和最后的决策制定根据落入某个分类器的样本数的比例确定。

S43、不断重复决策，样本每次落入某个单元的数量不确定，因此分类和决策阶段需要在不同的测试模式上多次重复进行以减小误差和避免偶然性。

S5、向模型中输入待检测图片，完成对待检测图片中行人的检测识别。具体而言，模型训练之后，得到适合十字路口场景的模型，并由模型生成检测子。利用检测子检测负样本，得到hardexample，最后提取hardexample的Shapelet特征并结合之前的特征一起投入训练，得到最终检测子。

综上所述，本发明通过对基于整体特征的算法以及基于多部位的算法的融合，再加上利用场景的相似性提出背景建模的预处理，为十字路口场景下的行人检测提出了一种快速可行且效果良好的方案。本发明的方法充分地利用了场景的相似性，方法的检测效果好、速率快、可实施性强，具有很高的使用及推广价值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种针对十字路口场景的行人检测方法，其特征在于，包括如下步骤：

S2、利用平均背景模型算法建立十字路口场景的背景模型；

S3、使用训练样本，训练得到各个部位的分类器；

2.根据权利要求1所述的针对十字路口场景的行人检测方法，其特征在于，S1具体包括如下步骤：

3.根据权利要求2所述的针对十字路口场景的行人检测方法，其特征在于，在S11所述的收集准备十字路口场景的训练样本集合过程中，当出现正负样本不匹配的情况时，执行如下步骤：

4.根据权利要求1所述的针对十字路口场景的行人检测方法，其特征在于，S2中所述平均背景模型算法的流程，具体包括如下步骤：

S21、计算M帧图像的平均值，建立一个初始背景BG；

d(x，y)＝I(x，y)-u(x，y)，

S23、使用被检测的图片对背景模型进行更新；

S24、输入下一张图片，并返回执行S22步骤直至停止。

5.根据权利要求1所述的针对十字路口场景的行人检测方法，其特征在于，S3具体包括如下步骤：

6.根据权利要求5所述的针对十字路口场景的行人检测方法，其特征在于，S31具体包括如下步骤：

7.根据权利要求5所述的针对十字路口场景的行人检测方法，其特征在于，S32具体包括如下步骤：

8.根据权利要求1所述的针对十字路口场景的行人检测方法，其特征在于，S4具体包括如下步骤：

S43、重复S42步骤直至停止。