CN111091101A

CN111091101A - 基于一步法的高精度行人检测方法、系统、装置

Info

Publication number: CN111091101A
Application number: CN201911334171.7A
Authority: CN
Inventors: 雷震; 庄楚斌
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-01
Anticipated expiration: 2039-12-23
Also published as: CN111091101B

Abstract

本发明属于图像处理与模式识别技术领域，具体涉及了一种基于一步法的高精度行人检测方法、系统、装置，旨在解决现有技术在复杂场景下无法兼顾行人检测效率与精度的问题。本发明包括：基于一步法ALFNet构建行人检测模型，定义锚点框尺寸并关联网络层、定义窗口回归目标以及锚点框匹配方法；对训练图像进行增广和困难样本挖掘，并通过软标签生成训练样本；依次通过训练样本训练行人预测模型直至模型收敛或训练次数达到设定值；将待检测行人图像输入模型进行前传计算，并通过基于余弦的非极大值抑制方法滤除重复预测的冗余行人预测窗口，获得最终行人检测标注图。本发明在复杂场景下，行人检测效率高、精度高，模型鲁棒性好，适用范围广。

Description

基于一步法的高精度行人检测方法、系统、装置

技术领域

本发明属于图像处理与模式识别技术领域，具体涉及了一种基于一步法的高精度行人检测方法、系统、装置。

背景技术

行人检测是一种利用计算机视觉技术对图像或视频序列中出现的所有行人使用矩形框进行精准定位的技术，在基于行人的计算机视觉、模式识别等领域有着极为广泛的应用，例如自动驾驶，视频监控和生物特征识别等。并且对于大部分与行人相关的应用，都首先要求对行人进行精确的检测。

在实际应用场景中，行人的高效检测问题是目前行人检测算法所面临的最大挑战之一。现有的高精度行人检测算法都是基于二步法检测器Faster R-CNN进行扩展得到的，这类方法虽然拥有较高的检测精度，但算法效率较差，无法满足实际应用的实时性需求。另一方面，一步法检测器如SSD虽然拥有较好的实时性，但单阶段的回归方式无法很好地解决因背景信息复杂而带来的错检、漏检问题，特别是对于存在大量遮挡情况的行人应用场景，检测算法的检测精度更是差强人意。因此针对复杂场景下的行人检测问题，设计出高效且精确的行人检测算法仍是一个核心研究难点，有着极为广泛的研究意义和实用价值。针对该问题，尽管有着一系列研究工作致力于提升行人检测算法在复杂场景下的检测精度，但这些工作的核心重点都是在于提升遮挡场景下的行人检测精度，且模型架构仍然是基于二步法Faster R-CNN，依然没有从本质上解决行人检测算法效率低下的问题。设计出高精度的实时行人检测算法以满足实际的行人应用需求，仍需要更多的探索和研究。

总的来说，行人检测方法中基于二步法检测器的检测方法效率较差，无法满足实际应用中的实时性需求，而基于一步法检测器的检测方法无法解决因背景信息复杂带来的错检、漏检问题，检测精度低。

发明内容

为了解决现有技术中的上述问题，即现有技术在复杂场景下无法兼顾行人检测效率与精度的问题，本发明提供了一种基于一步法的高精度行人检测方法，该高精度行人检测方法包括：

步骤A10，通过训练好的行人检测模型对获取的待检测行人图像进行前传计算，获取带行人标注框的图像；

步骤A20，基于所述带行人标注框的图像，通过基于余弦的非极大值抑制方法滤除重复的冗余行人标注框，获得行人检测标注图像；

其中，所述行人检测模型基于一步法ALFNet构建，并通过基于软标签的样本训练后进行模型测试，其方法为：

步骤S10，基于一步法ALFNet构建行人检测模型，定义所述行人检测模型中锚点框尺寸并关联网络层、定义所述行人检测模型中窗口回归目标以及定义所述行人检测模型中锚点框匹配方法；

步骤S20，依次基于获取的训练样本集合中每一个样本，对所述行人检测模型训练直至模型收敛或达到预设训练次数，获得训练好的行人检测模型。

在一些优选的实施例中，步骤S10中“定义所述行人检测模型中锚点框尺寸并关联网络层”，其方法为：

定义四个锚点框，并分别将所述锚点框依次与所述行人检测模型的conv4_3层、conv5_3层、conv6_3层、conv7_3特征层关联。

在一些优选的实施例中，所述四个锚点框，其尺度分别为：分别为：

(16,24)、(32,48)、(64,96)、(128,192)。

在一些优选的实施例中，所述行人检测模型中窗口回归目标为集中式IoU回归损失函数；

所述集中式IoU回归损失函数为：

其中，B_gt和B_pref分别为标注和预测的检测窗口，窗口C表示同时包围B_gt和B_pred的最小矩形框，|C\(B_gt∩B_pred)|表示窗口C中去除B_gt和B_pred交集的部分，t_i和

分别为参数化后的标注和预测窗口的中心点坐标，smooth_L1为平滑之后的L₁(x)范数。

在一些优选的实施例中，所述smooth_L1函数为：

其中，σ∈[0，1)，为用于调整所述集中式IoU回归损失函数关于边界的敏感性的平滑因子。

在一些优选的实施例中，步骤S10中“定义所述行人检测模型中锚点框匹配方法”，其方法为：

对于所述待检测行人图像，获取完整行人矩形标注框、行人可见区域矩形标注框，以所述行人可见区域标注框面积与完整行人矩形标注框面积之比作为行人可见度，并执行：

行人可见度低于0.5时，以其对应的行人可见区域矩形标注框进行锚点框的匹配；

行人可见度高于0.5时，以其对应的完整行人矩形标注框进行锚点框的匹配。

在一些优选的实施例中，所述训练样本，其获取方法为：

步骤B10，分别获取训练图像集中每一个图像的当前锚点框与标注框的交并比；

步骤B20，基于所述交并比，通过预设的软标签计算方法以及预设的正样本标签阈值、负样本标签阈值，获取每一个训练图像及其对应的标签作为训练样本。

在一些优选的实施例中，所述预设的软标签计算方法为：

其中，IoU表示当前锚点框与标注框的交并比，T_pos和T_neg分别为预设的正样本标签阈值和负样本标签阈值。

在一些优选的实施例中，所述基于余弦的非极大值抑制方法为：

其中，N_t为预设的IoU阈值，IoU(M，b_i)表示预测窗口b_i和M之间的交并比，

为用于对b_i的得分s_i进行重新评分的权值函数。

本发明的另一方面，提出了一种基于一步法的高精度行人检测系统，该高精度行人检测系统包括输入模块、行人预测模块、冗余窗口过滤模块、输出模块；

所述输入模块，配置为获取待检测行人图像并输入；

所述行人预测模块，配置为通过训练好的行人检测模型对获取的待检测行人图像进行前传计算，获取带行人标注框的图像；

所述冗余窗口过滤模块，配置为基于所述待行人标注框的图像，通过基于余弦的非极大值抑制方法滤除重复的冗余行人标注框，获得行人检测标注图像；

所述输出模块，配置为输出获取的行人检测标注图像作为行人检测结果；

其中，所述行人预测模块包括模型构建模块、参数定义模块、模型训练模块；

所述模型构建模块，配置为基于一步法ALFNet构建行人检测模型；

所述参数定义模块，配置为定义所述行人检测模型中锚点框尺寸并关联网络层、定义所述行人检测模型中窗口回归目标以及定义所述行人检测模型中锚点框匹配方法；

所述模型训练模块，配置为依次基于获取的训练样本集合中每一个样本，对所述行人检测模型训练直至模型收敛或达到预设训练次数，获得训练好的行人检测模型。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于一步法的高精度行人检测方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；所述处理器，适于执行各条程序；所述存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于一步法的高精度行人检测方法。

本发明的有益效果：

(1)本发明基于一步法的高精度行人检测方法，模型的不同设定层关联不同的锚点框尺度，并结合基于坐标点回归与IoU回归两种窗口回归方式，实现了模型对不同尺度行人的检测，提高了模型检测的窗口定位精度，最终提高模型行人检测的精度。

(2)本发明基于一步法的高精度行人检测方法，采用基于可见度的锚点框匹配算法，对于存在较大遮挡的行人(可见度较低)，使用其可见部分进行锚点框的匹配和回归，能较好地减少背景信息的影响，避免冗余特征信息的干扰，而对于遮挡较少的行人，使用完整的标注框进行匹配能引入更多的上下文信息辅助检测的进行，有助于提升模型的整体分类精度。

(3)本发明基于一步法的高精度行人检测方法，对原始训练图像运用数据增广技术和困难负样本挖掘方法进行扩充，并采用软标签标记训练样本，实现对边界样本充分利用，在增强模型的泛化能力的同时，有效提升了模型进行行人检测的鲁棒性。

(4)本发明基于一步法的高精度行人检测方法，采用余弦形式的非极大值抑制算法，结合设定的权重函数来过滤重复预测的冗余窗口，克服了常规非极大值抑制算法存在的问题，使其更加适用于遮挡情况下的行人检测问题，且该算法没有引入任何额外超参，推广性和实用性较强。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于一步法的高精度行人检测方法的流程示意图；

图2是本发明基于一步法的高精度行人检测方法一种实施例的行人检测模型的网络结构示意图；

图3是本发明基于一步法的高精度行人检测方法一种实施例的完整行人矩形标注框和行人可见区域矩形标注框的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种基于一步法的高精度行人检测方法，本方法针对复杂场景下的高效行人检测问题，选择一步法ALFNet为基础架构，针对网络的训练和测试阶段设计了一系列优化策略以提升行人检测的精度，最终本发明能对图像中的行人进行高效且精准的检测，显著地提升了行人检测算法的实用性。

本发明的一种基于一步法的高精度行人检测方法，该高精度行人检测方法包括：

为了更清晰地对本发明基于一步法的高精度行人检测方法进行说明，下面结合图1对本发明方法实施例中各步骤展开详述。

本发明一种实施例的基于一步法的高精度行人检测方法，各步骤详细描述如下：

步骤A10，通过训练好的行人检测模型对获取的待检测行人图像进行前传计算，获取带行人标注框的图像。

本发明选择一步法ALFNet为基础架构，针对网络的训练和测试阶段设计了一系列优化策略以提升行人检测算法的检测精度。为了进一步提高模型窗口回归的精确度，本发明融合了现有的坐标点回归(L₁损失函数)和IoU回归两种窗口回归方式，提出了集中式IoU回归损失函数作为模型训练过程中检测窗口的回归目标，帮助模型更快更准地进行行人的定位。接着，为了强化模型对于遮挡环境的行人检测能力，本发明提出了基于可见度的锚点框匹配算法和基于余弦函数的非极大值抑制算法，显著提升了模型检测遮挡行人的能力。最后，针对正负样本生成阶段，本发明进一步设计了一种新的软标签来替代原有的二值化{0,1}标签，在提高有效样本利用率的同时，也增强了模型的鲁棒性。

其中，行人检测模型基于一步法ALFNet构建，并通过基于软标签的样本训练后进行模型测试，其方法为：

步骤S10，基于一步法ALFNet构建行人检测模型，定义行人检测模型中锚点框尺寸并关联网络层、定义行人检测模型中窗口回归目标以及定义行人检测模型中锚点框匹配方法。

卷积神经网络的低层特征由于感受野较小，可以表达小尺度行人而难以表达大尺度行人，而卷积神经网络的高层特征由于感受野较大，可以表达大尺度行人而无法表达小尺度行人。本发明设计锚点框关联层的位置时，为了确保不同尺度的行人都有丰富的特征用于检测，在更宽范围的卷积层上铺设锚点框，以一步法ALFNet为基础架构构建了一个多尺度的行人检测模型，包含两阶段的窗口回归过程以提升模型的整体定位和分类能力。其中第二阶段的检测头与第一阶段的检测头相同，因此本发明行人检测模型并未增加太多的额外计算开销，算法仍保留了较高的实时性。本发明选择VGG16模型为基础分类网络，并分别在分类模型的conv4_3，conv5_3，conv6_3和conv7_3特征层上关联锚点框，使得不同尺度行人的特征都能够得到有效利用。这四个检测层所关联的锚点框尺度分别为(16,24)，(32,48)，(64,96)，(128,192)，所有锚点框的宽高比值均为0.41(人体大致比例)，从而实现模型对于不同尺度行人的检测。具体的锚点框设计说明如表1所示：

表1

检测层	下采样倍数	锚点框尺寸	宽高比
				conv4_3	8	16，24	0.41
conv5_3	16	32，48	0.41
				conv6_3	32	64，96	0.41
conv7_3	64	128，192	0.41

如图2所示，为本发明基于一步法的高精度行人检测方法一种实施例的行人检测模型的网络结构示意图，包括一阶段和二阶段两个阶段的窗口回归过程。其中，一阶段窗口回归主要用于对预设置的锚点框进行粗略的窗口回归调整，得到大致的物体位置坐标。之后送入到二阶段窗口回归模块中进行更精细的窗口预测调整，并输出最终的预测结果。待检测的图像宽为W高为H，conv4_3，conv5_3，conv6_3和conv7_3分别代表选取的需要铺设锚点框的网络层，H/8、H/16、H/32、H/64分别代表下采样之后的特征图的高度，而W/8、W/16、W/32、W/64则分别代表下采样之后特征图的宽度。

现有的窗口回归方式包含两种形式，基于坐标点的回归和基于IoU的回归。其中，基于坐标点的回归方式存在着模型优化目标和性能测量指标不匹配的问题，即目标损失函数值最小化，并不意味着模型定位的精准；而基于IoU的回归方式则存在着检测窗口偏移的问题。为了提升检测器的窗口定位精度，本发明融合了现有的坐标点回归(L₁损失函数)和IoU回归两种窗口回归方式，提出了集中式IoU回归损失函数作为模型训练过程中检测窗口的回归目标，集中式IoU回归损失函数如式(1)所示：

其中，B_gt和B_pred分别为标注和预测的检测窗口，窗口C表示同时包围B_gt和B_pred的最小矩形框，|C\(B_gt∩B_pred)|表示窗口C中去除B_gt和B_pred交集的部分，t_i和

smooth_ln(x)为平滑的Ln(x)函数，该函数在(0,1)区间内连续可微，用于约束集中式IoU回归损失函数，使得预测窗口和标注窗口的交并比(IoU)最大化，smooth_L1函数如式(2)所示：

通过在训练阶段引入该集中式IoU回归损失函数，能够约束候选窗口使其更加紧凑地位于目标物体的中心位置，并建立了优化回归损失函数和最大化IoU度量值之间的联系，有利于提升模型的整体定位能力。

现有的行人检测模型在进行锚点框匹配计算时，都是使用完整的标注窗口与锚点框进行匹配，在无遮挡环境下，检测器性能良好。但对于存在大规模遮挡的情况，如图3所示，部分人体特征因遮挡的存在使得其人体的可见区域只占整个标注框很小的一部分，直接使用完整标注框进行匹配的做法容易受到背景信息的干扰，从而降低模型的整体分类能力。为了解决该问题，本发明定义行人检测模型中锚点框匹配方法为基于可见度的锚点框匹配方法，具体包括：

对于给定行人图像，获取完整行人矩形标注框、行人可见区域矩形标注框，并以行人可见区域标注框面积与完整行人矩形标注框面积之比作为行人可见度：行人可见度低于0.5时，以其对应的行人可见区域矩形标注框进行锚点框的匹配；行人可见度高于0.5时，以其对应的完整行人矩形标注框进行锚点框的匹配。

通过这样的调整，对于存在较大遮挡的行人(可见度较低)，使用其可见部分进行锚点框的匹配和回归，能较好地减少背景信息的影响，避免冗余特征信息的干扰。而对于遮挡较少的行人，使用完整的标注框进行匹配能引入更多的上下文信息辅助检测的进行，有助于提升模型的整体分类精度。

训练样本，其获取方法为：

步骤B10，分别获取训练图像集中每一个图像的当前锚点框与标注框的交并比。

目前基于锚点框的检测算法在训练阶段，需要设置正样本标签阈值T_pos和负样本标签阈值T_neg来进行正负样本的划分。对于IoU大于T_pos的样本会被赋予正样本标签1，小于T_neg的样本则会被赋予负样本标签0，而IoU取值介于两阈值之间的样本则会被抛弃，不参与到模型训练中。这种二值化硬标签的设计，使得模型对于边界样本鲁棒性不够，且无法充分利用所有的有效样本。

本发明提出了一种新的软标签计算方法，以充分利用这些边界样本，如式(3)所示：

在常规正负样本划分策略基础上，针对位于阈值T_neg和T_po之间的这些本应被抛弃的边界样本，同样赋予这些样本一个取值连续且位于[0,1]区间之内的标签值。之后将这些样本同样加入到模型训练中，让分类模型学习一个取值连续的预测得分输出，实现对边界样本充分利用的同时，有效提升了模型的鲁棒性。

对于原始的训练图像集中的图像，可以运用数据增广技术和困难负样本挖掘方法来扩充训练样本，以增强模型的泛化能力。

对于输入的每张训练图像，依次进行颜色抖动，随机裁剪和水平翻转操作来扩充训练数据集，并重新调整大小为1280×640用于后续的网络训练。但这样生成的数据集中负样本的数量远远大于正样本的数量。为了使训练过程更加稳定，加快网络的收敛速度，使用困难负样本挖掘技术，选择部分负样本参与训练。具体来说，对于所有的负样本，计算出它们分类预测所带来的误差值，并根据误差值进行降序排序，选取误差值最大的一批负样本作为训练数据集的负样本，保证正样本与负样本的数量比例为1:3。这样正负样本之间有着比较平衡的数量关系，有利于网络训练的平稳进行。

将每一个训练样本依次送入网络模型进行训练，直至训练收敛或达到预设训练次数，得到训练好的行人检测模型。

步骤A20，基于所述带行人标注框的图像，通过基于余弦的非极大值抑制方法滤除重复的冗余行人标注框，获得行人检测标注图像。

现有的基于锚点框的检测器在测试阶段，都会使用非极大值抑制(NMS)算法来滤除一些重复预测的冗余窗口。这种贪婪的NMS算法存在着一个明显的问题，当IoU阈值设置的过低会降低模型对于遮挡物体的召回率，而较高的阈值则会一定程度上增加模型的错检率。特别是对于行人检测这种存在大量互相遮挡的应用场景，该问题会更加突出。为了解决这一问题，本发明对已有的非极大值抑制算法进行了重新设计，提出了余弦形式的非极大值抑制算法，如式(4)所示：

其中，N_t为预设的IoU阈值，IoU(M，b_i)表示预测窗口b_i和M之间的交并比，f(IoU(M，b_i))为用于对b_i的得分s_i进行重新评分的权值函数，权值函数的设计需要尽可能的保留低重叠率的预测窗口，并抑制高重叠率的预测窗口。因为重叠率较高的预测框有较高的概率为重复预测的窗口，且重叠度越高，对其得分施加的衰减程度也应该越高。

f(IoU(M，b_i))函数如式(5)所示：

该权值函数充分利用了余弦函数的特性，函数取值位于[0,1]区间内，且会随着预测窗口b_i和M之间重叠度的增大而减小，从而加大对预测得分s_i的衰减程度，实现对高重叠度窗口的抑制和低重叠度窗口的保留。克服了常规非极大值抑制算法存在的问题，使其更加适用于遮挡情况下的行人检测问题，且该算法没有引入任何额外超参数，推广性和实用性较强。此外，由于输出的检测框的数量非常多，本发明首先通过置信度阈值T＝0.05，筛掉大部分的检测框；接着，根据置信度选出前1000个检测框；然后，使用提出的基于余弦形式的非极大值抑制法去除重复的检测框，并根据置信度选出前200个检测框，即得到最终的行人检测结果。

本发明第二实施例的基于一步法的高精度行人检测系统，该高精度行人检测系统包括输入模块、行人预测模块、冗余窗口过滤模块、输出模块；

所述输入模块，配置为获取待检测行人图像并输入；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于一步法的高精度行人检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于一步法的高精度行人检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于一步法的高精度行人检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。