CN106570453A

CN106570453A - 用于行人检测的方法、装置和系统

Info

Publication number: CN106570453A
Application number: CN201610876667.7A
Authority: CN
Inventors: 汤晓鸥; 田永龙; 罗平; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-10-09
Filing date: 2016-09-29
Publication date: 2017-04-19
Anticipated expiration: 2036-09-29
Also published as: CN106570453B; WO2017059576A1

Abstract

本申请公开了一种用于行人检测的方法、装置和系统。其中一种所述系统包括：第一框生成器，用于从多个行人训练图像生成候选框；训练图像块生成器，用于从基准框和由第一框生成器生成的候选框生成训练局部图像块；检测器训练单元，用于从训练局部图像块训练局部检测器；检测器选择单元，用于从所有经过训练的局部检测器中选择互补的局部检测器；第二框生成器，用于从多个行人测试图像生成候选框；测试图像块生成器，用于从由第二框生成器生成的候选框生成测试局部图像块；以及测试单元，用于从测试局部图像块和所选的局部检测器生成检测结果。

Description

用于行人检测的方法、装置和系统

技术领域

本申请大体涉及行人检测领域，更具体地涉及用于行人检测的方法、装置和系统。

背景技术

行人检测在视频监控、机器人以及汽车安全中具有诸多应用。近年来行人检测已经被广泛地研究。虽然行人检测的质量在过去的几年里已经取得了持续的改善，但是遮挡仍然是构造良好的行人检测器的障碍。例如，在无遮挡的情况下，相对于VJ检测器，目前表现最好的检测器SpatialPooling+平均漏检率的下降达到75％，而在严重遮挡的情况下，相对于VJ检测器，SpatialPooling+平均漏检率的下降只达到21％。遮挡是时常发生的，例如，在街道场景中，所有行人中的约70％至少在一帧中是被遮挡的。目前用于处理遮挡的行人检测器一般可分为两类：训练用于不同遮挡类型的特定检测器以及将局部可见性作为潜在变量进行建模。在第一类中，构造特定检测器需要遮挡类型的先验知识。第二类方法将行人模板划分成多个局部部分并且用潜在变量推测可见性。虽然这些方法取得了不错的效果，但是手动选择局部部分可能不是最佳的解决方案，并且当处理除街道之外的、遮挡类型可能改变的其它场景(例如，拥挤场景和商场监控)中的行人检测时这些方法时这些方法可能并不是有效的。因此需要使用广泛局部检测器来处理不同级别的行人遮挡，并从而改善行人检测。

发明内容

本申请提供了一种行人检测技术方案。

根据本申请的一方面公开了用于行人检测的方法，该方法包括：从多个行人测试图像生成候选框；从所生成的候选框生成测试局部图像块；以及通过所生成的测试局部图像块和经过预先训练的多个互补局部检测器生成检测结果，其中，多个互补局部检测器中的不同检测器检测行人的不同局部的特征。

在一个实施方式中，该方法还包括：基于多个预先经过训练的局部检测器在支持向量机中的权重，从多个预先经过训练的局部检测器中选择互补的局部检测器。

在一个实施方式中，基于多个预先经过训练的局部检测器在支持向量机中的权重，从多个预先经过训练的局部检测器中选择互补的局部检测器的步骤包括：通过多个预先经过训练的局部检测器评估出行人的每个身体局部的分数；将所评估出的分数输入到支持向量机中获得对应的与各个分数对应的权重；分别确定出行人的每个身体局部的分数与各个分数对应的权重的内积；以及根据内积来选择互补的局部检测器。

在一个实施方式中，根据内积来选择互补的局部检测器的步骤包括：选择出内积较大的多个局部检测器作为互补的局部检测器。

在一个实施方式中，该方法还包括:将筛选出的局部检测器评估出的分数重新输入到支持向量机中以更新权重。

在一个实施方式中，从所生成的测试局部图像块和经过预先训练的多个互补局部检测器生成检测结果的步骤包括：通过测试局部图像块、局部检测器以及更新后的权重评估行人的每个身体局部的分数；以及通过组合每个身体局部的分数来生成检测结果。

在一个实施方式中，通过组合每个身体局部的分数来生成检测结果的步骤包括：通过以加权方式组合每个身体局部的分数来生成检测结果。

在一个实施方式中，从所生成的候选框生成测试局部图像块的步骤包括：对于与所选的局部检测器对应的每个身体局部，从从多个行人测试图像生成的候选框提取测试局部图像块作为为其生成的测试局部图像块。

根据本申请的另一方面公开了用于行人检测的装置，该装置包括：第二框生成器，从多个行人测试图像生成候选框；测试图像块生成器，从所生成的候选框生成测试局部图像块；以及测试单元，通过所生成的测试局部图像块和经过预先训练的多个互补局部检测器生成检测结果，其中，多个互补局部检测器中的不同检测器检测行人的不同局部的特征。

在一个实施方式中，该装置还包括：检测器选择单元，基于多个预先经过训练的局部检测器在支持向量机中的权重，从多个预先经过训练的局部检测器中选择互补的局部检测器。

在一个实施方式中，检测器选择单元，通过多个预先经过训练的局部检测器评估出行人的每个身体局部的分数；将所评估出的分数输入到支持向量机中获得对应的与各个分数对应的权重；分别确定出行人的每个身体局部的分数与各个分数对应的权重的内积；以及根据内积来选择互补的局部检测器。

在一个实施方式中，检测器选择单元选择出内积值较大的多个局部检测器作为互补的局部检测器。

在一个实施方式中，检测器选择单元还包括：再学习模块，将筛选出的局部检测器的分数重新输入到支持向量机中更新权重。

在一个实施方式中，测试单元，通过测试局部图像块、局部检测器和更新的权重评估行人的每个身体局部的分数；以及通过组合每个身体局部的分数来生成检测结果。

在一个实施方式中，测试单元通过以加权方式组合每个身体局部的分数来生成检测结果。

在一个实施方式中，测试图像块生成器对于与所选的局部检测器对应的每个身体局部，从从多个行人测试图像生成的候选框提取测试局部图像块作为为其生成的测试局部图像块。

根据本申请的又一方面公开了用于行人检测的装置。该装置包括第一框生成器、训练图像块生成器、检测器训练单元、检测器选择单元、第二框生成器、测试图像块生成器以及测试单元，其中，第一框生成器用于从多个行人训练图像生成候选框；训练图像块生成器用于从基准框和由第一框生成器生成的候选框生成训练局部图像块；检测器训练单元用于从所生成的训练局部图像块训练一个或多个局部检测器；检测器选择单元用于从所有经过训练的局部检测器中选择互补的局部检测器，其中，互补的局部检测器中的不同检测器检测行人的不同局部的特征；第二框生成器用于从多个行人测试图像生成候选框；测试图像块生成器用于从由第二框生成器生成的候选框中生成测试局部图像块；测试单元用于从测试局部图像块和所选的局部检测器生成检测结果。

在一个实施方式中，训练图像块生成器包括：标记模块，配置成通过将候选框与基准框进行比较，将候选框标记为负候选框或正候选框；以及提取模块，配置成从负候选框和正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

在一个实施方式中，检测器训练单元包括：混合模块，配置成混合正训练局部图像块和负训练局部图像块，以及将混合的正训练局部图像块和负训练局部图像块分批；训练模块，配置成通过使用所分批的图像块迭代地训练每个局部检测器直到所有局部检测器中的每个收敛。

在一个实施方式中，检测器训练单元还包括：参数学习模块，配置成为每个局部检测器学习用于处理偏移的参数。

在一个实施方式中，检测器选择单元包括：权重学习模块，配置成学习所有局部检测器的组合权重；以及选择模块，配置成根据组合权重来选择互补的局部检测器。

在一个实施方式中，检测器选择单元还包括：再学习模块，配置成对所选的互补的局部检测器的组合权重进行再学习。

在一个实施方式中，测试图像块生成器还包括：提取模块，配置成，对于与所选的局部检测器对应的每个身体局部，从第二框生成器生成的候选框提取测试局部图像块作为为其生成的测试图像块。

在一个实施方式中，测试单元还包括：评估模块，配置成使用相应的局部检测器从测试局部图像块、所选的局部检测器以及经过再学习的组合权重评估每个身体局部的分数；以及结果生成模块，配置成通过以加权方式组合每个身体局部的分数来生成检测结果。

根据本申请的再一实施方式公开了用于行人检测的方法。该方法包括：从多个行人训练图像生成候选框；从基准框和从多个行人训练图像生成的候选框生成训练局部图像块；从所生成的训练局部图像块训练一个或多个局部检测器；从所有经过训练的局部检测器中选择互补的局部检测器，其中，互补的局部检测器中的不同检测器检测行人的不同局部的特征；从多个行人测试图像生成候选框；从多个行人测试图像中生成的候选框生成测试局部图像块；以及从测试局部图像块和所选的局部检测器中生成检测结果。

在一个实施方式中，生成训练局部图像块的步骤包括：通过将候选框与基准框进行比较，将候选框标记为负候选框或正候选框；以及从负候选框和正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

在一个实施方式中，训练局部检测器的步骤包括：混合正训练局部图像块和负训练局部图像块，以及将混合的正训练局部图像块和负训练局部图像块分批；以及通过使用所分批的图像块迭代地训练每个局部检测器直到所有局部检测器中的每个收敛。

在一个实施方式中，训练局部检测器的步骤还包括：为每个局部检测器学习用于处理偏移的参数。

在一个实施方式中，选择互补的局部检测器的步骤包括：学习所有局部检测器的组合权重；以及根据组合权重来选择互补的局部检测器。

在一个实施方式中，选择互补的局部检测器的步骤还包括：对所选互补的局部检测器的组合权重进行再学习。

在一个实施方式中，生成用于测试的局部图像块的步骤包括：对于与所选的局部检测器对应的每个身体局部，从从多个行人测试图像生成的候选框提取测试局部图像块作为为其生成的测试局部图像块。

在一个实施方式中，生成检测结果的步骤包括：使用相应的局部检测器从测试局部图像块、所选的局部检测器以及经过再学习的组合权重评估每个身体局部的分数；以及通过以加权方式组合每个身体局部的分数来生成检测结果。

根据本申请的再一方面公开了用于行人检测的系统。该系统包括存储器和处理器，其中，存储器存储可执行部件，处理器电联接至存储器，处理器执行可执行部件以进行系统的操作，其中，可执行部件包括第一框生成部件、训练图像块生成部件、检测器训练部件、检测器选择部件、第二框生成部件、测试图像块生成部件以及测试部件，其中，第一框生成部件配置成用于从多个行人训练图像生成候选框；训练图像块生成部件配置成用于从基准框和由第一框生成器生成的候选框生成训练局部图像块；检测器训练部件配置成用于从所生成的训练局部图像块中训练一个或多个局部检测器；检测器选择部件配置成用于从所有经过训练的局部检测器中选择互补的局部检测器，其中，互补的局部检测器中的不同检测器检测行人的不同局部的特征；第二框生成部件配置成用于从多个行人测试图像生成候选框；测试图像块生成部件配置成用于从由第二框生成器生成的候选框生成测试局部图像块；测试部件配置成用于从测试局部图像块和所选的局部检测器生成检测结果。

在一个实施方式中，训练图像块生成部件还包括：标记子部件，配置成通过将候选框和基准框进行比较，将候选框标记为负候选框或正候选框；以及提取子部件，配置成从负候选框和正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

在一个实施方式中，检测器训练部件还包括：混合子部件，配置成混合正训练局部图像块和负训练局部图像块以及将混合的正训练局部图像块和负训练局部图像块分批；训练子部件，配置成通过使用所分批的图像块迭代地训练每个局部检测器直到所有局部检测器中的每个收敛。

在一个实施方式中，检测器训练部件还包括：参数学习子部件，配置成为每个局部检测器学习用于处理偏移的参数。

在一个实施方式中，检测器选择部件还包括：权重学习子部件，配置成学习所有局部检测器的组合权重；以及选择子部件，配置成根据组合权重选择互补的局部检测器。

在一个实施方式中，检测器选择部件还包括：再学习子部件，配置成对所选互补的局部检测器的组合权重进行再学习。

在一个实施方式中，测试图像块生成部件还包括：提取子部件，配置成，对于与所选的局部检测器对应的每个身体局部，从第二框生成器生成的候选框提取测试局部图像块作为为其生成的测试图像块。

在一个实施方式中，测试图像块生成部件还包括：提取子部件，配置成从由第二框生成器生成的候选框为与所选的局部检测器对应的每个身体局部提取测试局部图像块作为所生成的测试图像块。

在一个实施方式中，测试部件还包括：评估子部件，配置成使用相应的局部检测器从测试局部图像块、所选的局部检测器以及经过再学习的组合权重评估每个身体局部的分数；以及结果生成子部件，配置成通过以加权方式组合每个身体局部的分数来生成检测结果。

本发明具有如下至少之一特点：

1)困难负样本减少----在深度学习行人属性和场景属性任务的帮助下，困难负样本的数量显著下降；

2)弱监督训练----本系统可仅用弱标记的数据来训练，例如，需要的监督是行人边界框而不是诸如腿和手臂的强局部注释；

3)强局部检测器----每个局部检测器已经是强检测器，其能够通过仅观察候选框中的局部来检测行人；以及

4)互补的局部选择----由于在不同的场景下，不是所有的局部检测器都是同等权重的和必要的，本系统可自动地选择互补的局部并决定它们的权重。

附图说明

下文参照附图描述本发明的示例性的非限制性实施方式。附图是说明性的，并且一般不是精确尺寸的。不同附图中的相同或相似的元件用相同的附图标记标注。

图1是示出了根据本申请实施方式的用于行人检测的系统的示意图。

图2是示出了根据本申请实施方式的训练图像块生成器的示意图。

图3是根据本申请实施方式的训练局部图像块的图示。

图4是为每个局部检测器生成训练数据的示例。

图5是示出了根据本申请另一实施方式的检测器训练单元的示意图。

图6a示出了IoU将如何随水平和竖直方向的少许偏移而迅速下降。

图6b示出了在AlexNet中如何处理偏移问题。

图7是示出了根据本申请实施方式的检测器选择单元的示意图。

图8是选择的局部和它们的权重的示例。

图9是示出了根据本申请实施方式的测试单元的示意图。

图10是示出了根据本申请实施方式的用于行人检测的方法的示意性流程图。

图11是示出了根据本申请实施方式的用于生成训练局部图像块的过程的示意性流程图。

图12是示出了根据本申请实施方式的用于训练局部检测器的过程的示意性流程图。

图13是示出了根据本申请实施方式的用于选择互补的局部检测器的过程的示意性流程图。

图14是示出了根据本申请实施方式的用于生成检测结果的过程的示意性流程图。

图15示出了根据本申请实施方式的用于行人检测的系统。

具体实施方式

现在将详细基准示例性实施方式，示例性实施方式的示例在附图中示出。在适当的时候，在全部附图中，相同的附图标记被用来指代相同或类似的部分。图1是示出了根据一些公开的实施方式的用于行人检测的示例性装置1000的示意图。

应理解的是，装置1000可使用某些硬件、软件或它们的组合来实现。此外，本发明的实施方式可适合于在包含计算机程序代码的一个或多个计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光存储器等)上实施的计算机程序产品。

在装置1000使用软件实现的情况下，装置1000可在一个或多个系统上运行，该一个或多个系统可包括通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算设备、或计算机网络，其中，计算机网络包括以集中式方式或分布式方式操作的计算机组。

回到图1，其中装置1000通过硬件实现。装置1000可包括第一框生成器100、训练图像块生成器200、检测器训练单元300、检测器选择单元400、第二框生成器500、测试图像块生成器600以及测试单元700。在图1所示的实施方式中，第一框生成器100可配置成从多个行人训练图像生成候选框。具体地，大部分行人图像块被保留下来，并且同时大部分负图像块被过滤掉。目标预测生成器200可配置成从基准框(ground truth box)和由第一框生成器100生成的候选框生成训练局部图像块。具体地，对每个候选框提取广泛局部图像块，例如腿、头和上身。检测器训练单元300可配置成从训练局部图像块中训练一个或多个局部检测器。检测器选择单元400可配置成从所有经过训练的局部检测器中选择互补的局部检测器。检测器选择单元400的输出可以是所选的互补的局部检测器的组合。互补的局部检测器中的每个可基于其在支持向量机(SVM)中的权重来选择。在一些实施方式中，互补的局部检测器可以是在SVM中具有最大权重的那些检测器。假设所有局部检测器评估出的行人的每个身体局部的分数组合成一个向量x，那么最终的分类结果就是权重向量w与x的内积。在这里，向量x是由不同的局部检测器，也就是卷积神经网络给出的，然后将所评估出的分数x输入到支持向量机(SVM)中获得对应的与各个分数对应的权重w，这部分内容属于现有技术，不再赘述。接着，分别确定出行人的每个身体局部的分数x与各个分数对应的权重w的内积(在本文中还称为“组合权重”)后，根据内积来选择所述互补的局部检测器。在一个实施方式中，选择出内积值较大的多个局部检测器作为所述互补的局部检测器。例如，假设最开始用上全部49(例如)个局部检测器时候，w和x都是49维向量，筛选出w和x的内积值较大的多个(例如6个)局部检测器作为互补的局部检测器。

第二框生成器500可配置成从多个行人测试图像中生成候选框。测试图像块生成器600可配置成从由第二框生成器500生成的候选框中生成测试局部图像块。测试单元700可配置成从测试局部图像块和所选局部检测器生成诸如置信度分数的检测结果。

通常，遮挡具有多种形式。例如，左半身局部或右半身局部可能被树遮挡，以及下半身局部也可能被汽车遮挡，互补局部检测器中的不同检测器就是用于检测行人的不同局部的特征。因此，可广泛地构造包含多种语义身体局部的局部池。

在一些实施方式中，可以将行人认为是具有2m×m网格的刚体，其中，2m和m分别表示水平维度和竖直维度上的网格数量。每个网格是方形的且具有相等的尺寸。下文中，将网格定义为最小单元，且每个局部原型被限制成矩形。局部原型的尺寸定义为：

其中，w和h表示局部原型的以网格为单位的宽度和高度，因此W_min和H_min用于避免过于局域的局部，因为我们主要关注中级语义的局部。

然后，对于每个(w,h)∈S，在网格模板上滑动h×w的矩形将生成处于不同位置的局部原型。完整的局部池可表达成如下：

其中，x和y是局部原型中的左上网格的坐标，且i是唯一id。具体地，全身的局部原型是(1,1,m,2m,i_full)。将m设置为更大的值将生成过大的池，这将在训练和测试阶段导致过多的计算。此外，设置太小的W_min和H_min(例如W_min＝0.1×m)会导致过于局域的局部原型。

第一框生成器100或第二框生成器500利用诸如训练图像或测试图像的静态图像作为输入并使用行人检测器来检测这些图像中的行人。例如，诸如“选择性搜索(selectivesearch)”、“Edgebox”和“LDCF”的区域建议方法可被用来生成候选边界框。

训练数据集或测试数据集的尺寸对深度模型(例如，ConvNet)至关重要。例如，可使用Caltech数据集，Caltech数据集是目前最大的行人基准，其由～250k个标记的帧和～350k个注释的边界框组成。我们利用每一帧并采用～50k个行人边界框作为正训练图像块，而不是使用典型的合理的(Reasonable)训练设置，其中，典型的Reasonable训练设置使用视频中的每第30个图像，并且由～1.7k个行人组成。负图像块具有与任何基准(groundtruth)的<0.5的IoU，并且负图像块由LDCF建议。

如图2中所示，训练图像块生成器200还包括标记模块201和提取模块202，其中，标记模块201用于通过和基准框比较，将候选框标记为负候选框或正候选框，提取模块202用于从负候选框和正候选框为每个身体局部(例如，腿、头和上身)提取负训练局部图像块和正训练局部图像块。图3是训练局部图像块(即，生成器200的输出)的图示。

图4是为每个局部检测器生成训练数据的示例。(1)给定局部原型，负行人建议(negative pedestrian proposal)内的相应区域被用作用于相应局部检测器的负样本。该假定是因为大部分直立的行人都是很好地对准的，并且负行人图像块和正行人图像块中的对应区域应该不同。例如，如果头-肩局部占据了负建议的上部三分之一区域，那么根据先验知识，该建议应该被认为是正行人图像块。(2)每个行人用两个BB注释，其中，BB代表可视(B_vis)局部和完整(B_full)局部。我们将完整局部(B_full)划分成2m×m个网格，并计算可视局部(B_vis)和每个网格之间的IoU。然后通过基于每个网格的IoU值进行阈值过滤来获得可视分布图(visible map)。如果基准的可视网格可覆盖给定局部原型的模板网格，则对应区域可被提取为正样本。

如图5中所示，检测器训练单元300还包括混合模块301、训练模块302以及参数学习模块303，其中，混合模块301用于混合正训练局部图像块和负训练局部图像块并将它们分批，训练模块302用于通过使用经过分批的局部图像块来迭代地训练每个局部检测器直到所有局部检测器中的每个收敛，参数学习模块303用于为每个局部检测器学习用于处理偏移的参数。

众所周知，基于目标检测和分段数据来细调(fine-tuning)用于ImageNet分类任务的预训练的CNN可以显著改善性能。具体地，在预训练阶段学习到的参数被直接用作细调阶段的初始值。类似的策略可直接适用于细调用于局部识别的通用CNN图像分类模型。预训练任务和细调任务之间的主要差别是输入数据的类型。图像分类任务将完整图像或整体对象作为输入，其中，该输入包含丰富的上下文信息，而局部识别任务只能观测中级局部图像块。经过评估的深度模型包括AlexNet、Clarifai和GoogLeNet，它们是过去三年中ImageNet分类挑战的获胜模型。AlexNet和Clarifai具有～6千万个参数并且共享类似的结构，而GoogLeNet仅仅使用比AlexNet和Clarifai少12x的参数但采用更深度的结构。本发明的框架可灵活地与其它通用的深度模型合并。

在通过建议识别的检测方案(例如，深度检测器)中，建议的位置质量对于识别阶段是关键性的。行人检测器或其支持者(proponent)经常受到位置质量差的困扰。如已知的，最好的建议方法SpatialPooling+在使用0.5的IoU阈值的情况下检测到93％的行人，而在使用0.9的IoU阈值的情况下仅检测到10％的行人。偏移是导致低IoU值的主要原因之一。如图6a中所示，在水平或竖直方向上将基准边界框偏移10％会产生0.9的IoU值，这是高质量的建议。然而，同时在两个方向上的偏移导致IoU值为0.68，这对特征提取阶段和分类阶段是效果欠佳的。除全身偏移外，每个身体局部将从它的固定模板位置偏移，并且同一个行人的不同局部可能朝不同方向偏移。在本发明的框架中，用于每个局部检测器的正训练样本都被很好地对准，而测试建议可能在所有方向偏移。因此，处理全身和局部的偏移是必须的。

处理此问题的直接方式是：伴随抖动地剪裁在每个建议周围的多个图像块，然后将剪裁的图像块馈送进深度模型中，并选择最高分数或平均分数作为伴有惩罚的检测分数。然而，此方法将使测试时间增加k倍，其中，k是为针对每个建议的剪裁的图像块的数量。

为减少测试计算量，首先将具有全连接层的通用ConvNet模型重新修改为全卷积神经网络，其中，该全卷积神经网络不需要固定输入尺寸并且可通过仅一个正向传递(forward pass)来处理多个邻近图像块。随后，可改变全卷积ConvNet的输入尺寸。以AlexNet为例，其原始输入尺寸为227×227。如图所示，在将fc6、fc7、fc8重新修改为conv6(1×1×4096)、conv7(1×1×4096)、conv8(1×1×2)后，由于卷积和池化操作与输入尺寸无关，因此全卷积AlexNet能接收扩展的输入尺寸。由于分类层的接收域(receptivefield)的步长为32，所以扩展的输入应为(227+32n)×(227+32n)以保持正向过程可用，其中，n表示扩展的步长且为非负整数。

给定建议的局部图像块(X_min,Y_min,w,h)和n，扩展的剪裁图像块为(X_min’,Y_min’,w’,h’)，其中

然后将图像块的尺寸调整为例如(227+32n)×(227+32n)并将其馈送进全卷积AlexNet中。从而，(1+n)×(1+n)个邻近的227×227图像块被同时探查，而扩展的比例保持与建议的比例相同。conv8的最终输出可被看作为(1+n)×(1+n)的分数图S，并且每个分数与227×227的区域对应。局部图像块的最终分数定义为：

其中，P_i,j是关于相对偏移距离(离建议的局部框的相对偏移距离)的惩罚项，并且被定义为：

其中，a是单方向偏移惩罚权重，以及b是几何距离的惩罚权重。

在本实施中，对于所有的局部原型，设置n＝2，并在训练集上通过6重交叉验证来搜索用于每个局部原型的a、b的值。图6b示出了全身局部检测器的示例，该示例中评估了9个邻近图像块，其中，a＝2且b＝10。偏移处理是一种环境建模，其保持比例不变同时通过填充和调整尺寸来将可能导致训练阶段和测试阶段之间比例差异的更大的区域剪裁为227×227。

如图7中所示，检测器选择单元400还包括权重学习模块401、选择模块402以及再学习模块403。权重学习模块401用于学习所有局部检测器的组合权重(即，如上所述的每个身体局部的分数x与各个分数对应的权重w的内积)；选择模块402用于根据组合权重选择一个或多个局部检测器。再学习模块403用于再学习所选局部检测器的组合权重，即，将选择出的局部检测器评估出的分数重新输入到支持向量机(SVM)中来更新权重。

对每个局部原型来说，其ConvNet检测器的输出可直接用作可视分数而不是在顶部堆叠线性的SVM作为RCNN框架。据发现，附加用于最小化困难负样本(hard negatives)的SVM检测器相对于直接使用ConvNet输出并没有表现出显著的改善，尤其对于GoogLeNet。这可归因于由LDCF生成的训练建议已经是困难负样本。因此，SVM训练阶段被安全地移除以节省特征提取的时间。

然后，线性SVM被用于基于例如45个局部检测器评估出的分数来学习互补性。为了减小测试计算成本，简单地选择SVM权重值最高的6个局部，并得到近似的性能。还被示出的是，性能的改善主要得益于局部互补性。图8是所选局部和它们权重的图示。

测试图像块生成器600还包括提取模块，对于与所选局部检测器对应的每个身体局部，该提取模块从由第二框生成器500生成的候选框提取测试局部图像块作为为其生成的测试图像块。

如图9中所示，测试单元700还包括评估模块701和结果生成模块702。评估模块701可配置成使用相应的局部检测器，从测试局部图像块、所选局部检测器和再学习的组合权重评估每个身体局部的分数。结果生成模块702可配置成通过以加权方式组合每个身体局部的分数来生成检测分数。

图10是示出了根据本申请实施方式的用于行人检测的方法2000的示意性流程图。在下文中，方法2000可参照图10来详细描述。

在步骤S210中，例如通过使用诸如选择性搜索、Edgebox和LDCF的区域建议方法，从多个行人训练图像生成候选框。

在步骤S220中，从基准框和从多个行人训练图像生成的候选框生成训练局部图像块。

如图11中所示，训练局部图像块的步骤S220包括以下步骤。具体地，在步骤S221中，通过与基准框比较，将候选框标记为负候选框或正候选框。在步骤S222中，对于每个身体局部，从负候选框和正候选框中提取负训练局部图像块和正训练局部图像块作为训练局部图像块。

然后，方法2000继续进行步骤S230，在此步骤中，从训练局部图像块训练局部检测器。

如图12中所示，训练局部检测器的步骤S230包括以下步骤。具体地，在步骤S231中，混合正训练局部图像块和负训练局部图像块并将其分批。在步骤S232中，通过使用这些分批的图像块分别迭代地训练每个局部检测器直到所有局部检测器收敛。在步骤S233中，对于每个局部检测器，学习参数以用于处理偏移。

然后，方法2000进行步骤S240，在该步骤中，从所有经过训练的局部检测器中选择互补的局部检测器。

如图13中所示，选择互补的局部检测器的步骤S240包括：步骤S241，学习所有局部检测器的组合权重；步骤S242，根据组合权重选择一个或多个局部检测器；以及步骤S243，再学习所选局部检测器的组合权重。

然后，方法2000继续进行步骤S250，在此步骤中，从多个行人测试图像生成相应的候选框。

然后，方法2000继续进行步骤S260，在此步骤中，从候选框生成测试局部图像块，其中，候选框从多个行人测试图像生成。

生成测试局部图像块的步骤S260还包括：对于与所选局部检测器对应的每个身体局部，从候选框为提取测试局部图像块作为为其生成的测试局部图像块，其中，候选框从多个行人测试图像生成。

然后，方法2000继续进行步骤S270，在此步骤中，从测试局部图像块和所选局部检测器生成检测结果。

如图14中所示，生成检测结果的步骤S270包括以下步骤。在步骤S271中，使用相应的局部检测器从测试局部图像块、所选局部检测器和再学习的组合权重评估每个身体局部的分数。在步骤S272中，通过以加权方式组合每个身体局部的分数生成检测结果。

图15示出了用于行人检测的系统3000。系统3000包括存储器310和处理器320，其中，存储器310存储可执行部件，处理器320电联接至存储器310，并且处理器320执行可执行部件以进行系统3000的操作。可执行部件包括第一框生成部件311、训练图像块生成部件312、检测器训练部件313、检测器选择部件314、第二框生成部件315、测试图像块生成部件316以及测试部件317，其中，第一框生成部件311配置成用于从多个行人训练图像生成候选框，训练图像块生成部件312配置成用于从由第一框生成器生成的候选框和基准框生成训练局部图像块，检测器训练部件313配置成用于从生成的训练局部图像块训练一个或多个局部检测器，检测器选择部件314配置成用于从所有经过训练的局部检测器中选择互补的局部检测器，第二框生成部件315配置成用于从多个行人测试图像生成候选框，测试图像块生成部件316配置成用于从由第二框生成器生成的候选框生成测试局部图像块，测试部件317配置成用于从测试局部图像块和所选局部检测器生成检测结果。

在一个实施方式中，训练图像块生成部件312还可包括标记子部件和提取子部件。标记子部件配置成通过将候选框和基准框进行比较，将候选框标记为负候选框或正候选框。提取子部件配置成从负候选框和正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

检测器训练部件313还可包括混合子部件和训练子部件。混合子部件用于混合正训练局部图像块和负训练局部图像块以及将混合的正训练局部图像块和负训练局部图像块分批。训练子部件则通过使用所分批的图像块迭代地训练每个局部检测器直到所有局部检测器中的每个收敛。作为一种选择，检测器训练部件313还可包括：配置成为每个局部检测器学习用于处理偏移的参数的学习子部件。

检测器选择部件314还可包括：配置成学习所有局部检测器的组合权重的权重学习子部件；以及配置成根据所述组合权重选择所述互补的局部检测器的选择子部件。检测器选择部件314还可包括：再学习子部件，用于对所选互补的局部检测器的所述组合权重进行再学习。

测试图像块生成部件316还可包括提取子部件。对于与所选的局部检测器对应的每个身体局部，提取子部件从第二框生成器生成的候选框提取测试局部图像块作为为其生成的测试图像块。作为一种选择，测试图像块生成部件316包括的提取子部件还可配置成从由第二框生成器生成的候选框为与所选的局部检测器对应的每个身体局部提取测试局部图像块作为所生成的测试图像块。

根据一个实施方式，测试部件317还包括评估子部件和结果生成子部件。评估子部件配置成使用相应的所述局部检测器从所述测试局部图像块、所选的局部检测器以及经过再学习的所述组合权重评估每个身体局部的分数。结果生成子部件通过以加权方式组合所述每个身体局部的分数来生成检测结果。

本申请来源于“用于行人检测的深度学习强局部(Deep Learning Strong Partsfor Pedestrian Detection)”，并旨在解决在单个图像中检测行人的问题，目的在于构造可处理不同级别遮挡的行人检测器。输入是单个静态图像，并且输出由检测到的边界框和置信度组成。

显而易见，本领域技术人员在不背离本发明精神和范围的情况下，可对本发明进行改变或修改。由此，如果这些改变或修改属于权利要求和等同技术的范围，则它们也可落入本发明的范围。

Claims

1.用于行人检测的方法，包括：

从多个行人测试图像生成候选框；

从所生成的候选框生成测试局部图像块；以及

通过所生成的测试局部图像块和经过预先训练的多个互补局部检测器生成检测结果，

其中，所述多个互补局部检测器中的不同检测器检测行人的不同局部的特征。

2.如权利要求1所述的方法，还包括：

基于多个预先经过训练的局部检测器在支持向量机中的权重，从所述多个预先经过训练的局部检测器中选择所述互补的局部检测器。

3.如权利要求2所述的方法，其中，基于多个预先经过训练的局部检测器在支持向量机中的权重，从所述多个预先经过训练的局部检测器中选择所述互补的局部检测器的步骤包括：

通过所述多个预先经过训练的局部检测器评估出所述行人的每个身体局部的分数；

将所评估出的分数输入到支持向量机中获得对应的与各个分数对应的权重；

分别确定出所述行人的每个身体局部的分数与各个分数对应的权重的内积；以及

根据所述内积来选择所述互补的局部检测器。

4.用于行人检测的装置，包括：

第二框生成器，从多个行人测试图像生成候选框；

测试图像块生成器，从所生成的候选框生成测试局部图像块；以及

测试单元，通过所生成的测试局部图像块和经过预先训练的多个互补局部检测器生成检测结果，

5.如权利要求4所述的装置，还包括：

检测器选择单元，基于多个预先经过训练的局部检测器在支持向量机中的权重，从所述多个预先经过训练的局部检测器中选择所述互补的局部检测器。

6.用于行人检测的装置，包括：

第一框生成器，用于从多个行人训练图像生成候选框；

训练图像块生成器，用于从基准框和由所述第一框生成器生成的候选框生成训练局部图像块；

检测器训练单元，用于从所生成的训练局部图像块训练一个或多个局部检测器；

检测器选择单元，用于通过所有经过训练的局部检测器中选择互补的局部检测器，其中，所述互补局部检测器中的不同检测器检测行人的不同局部的特征；

第二框生成器，用于从多个行人测试图像生成候选框；

测试图像块生成器，用于从由所述第二框生成器生成的候选框生成测试局部图像块；以及

测试单元，用于从所述测试局部图像块和所选择的局部检测器生成检测结果。

7.根据权利要求6所述的装置，其中，所述训练图像块生成器包括：

标记模块，配置成通过将所述候选框与所述基准框进行比较，将所述候选框标记为负候选框或正候选框；以及

提取模块，配置成从所述负候选框和所述正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

8.用于行人检测的方法，包括：

从多个行人训练图像生成候选框；

从基准框和从多个行人训练图像生成的所述候选框生成训练局部图像块；

从所述训练局部图像块训练一个或多个局部检测器；

从所有经过训练的局部检测器中选择互补的局部检测器，其中所述多个互补局部检测器中的不同检测器检测行人的不同局部的特征；

从多个行人测试图像生成候选框；

通过所述从多个行人测试图像生成的候选框生成测试局部图像块；以及

从所述测试局部图像块和所选择的局部检测器生成检测结果。

9.根据权利要求8所述的方法，其中，所述生成训练局部图像块的步骤包括：

通过将所述候选框与所述基准框进行比较，将所述候选框标记为负候选框或正候选框；以及

从所述负候选框和所述正候选框为每个身体局部提取负训练局部图像块和正训练局部图像块作为所生成的训练局部图像块。

10.用于行人检测的系统，包括：

存储器，存储可执行部件；以及

处理器，电联接至所述存储器，所述处理器执行所述可执行部件以进行所述系统的操作，其中，所述可执行部件包括：

第一框生成部件，配置成用于从多个行人训练图像生成候选框；

训练图像块生成部件，配置成用于从基准框和由所述第一框生成器生成的候选框中生成训练局部图像块；

检测器训练部件，配置成用于从所生成的训练局部图像块训练一个或多个局部检测器；

检测器选择部件，配置成用于从所有经过训练的所述局部检测器中选择互补的局部检测器，其中，所述互补的局部检测器中的不同检测器检测行人的不同局部的特征；

第二框生成部件，配置成用于从多个行人测试图像生成候选框；

测试图像块生成部件，配置成用于从由所述第二框生成器生成的候选框生成测试局部图像块；以及

测试部件，配置成用于从所述测试局部图像块和所选的局部检测器生成检测结果。