CN113191204B

CN113191204B - 一种多尺度遮挡行人检测方法及系统

Info

Publication number: CN113191204B
Application number: CN202110372771.3A
Authority: CN
Inventors: 韩守东; 郑丽君; 潘孝枫; 丁绘霖
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-06-17
Anticipated expiration: 2041-04-07
Also published as: CN113191204A

Abstract

本发明公开了一种多尺度遮挡行人检测方法和系统，将行人头部检测模型与行人全身检测模型相结合，通过可信IoU阈值构建待定全身检测结果集，并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选，提升了密集场景下的行人检出率。采用多个单分辨率并行子网络和多个多尺度特征融合模块来构建特征提取网络，提升了特征提取网络输出特征的质量和信息完备性。在通道连结多个子网络输出特征后，使用通道选取模块进一步聚合了语义相关的特征通道，为后续多尺度目标的中心点预测、尺度预测和偏置预测任务提供了更良好和更精准的特征信息。

Description

一种多尺度遮挡行人检测方法及系统

技术领域

本发明属于计算机视觉图像处理领域，更具体地，涉及一种多尺度遮挡行人检测方法及系统。

背景技术

行人检测是计算机视觉领域中一种非常重要而又相当具有挑战性的热点问题。行人检测同目标检测一样，目的是在图像或视频中判断是否存在行人目标以及精准确定目标位置。

虽然目标检测技术已经发展得相对成熟，但由于行人目标具有各种尺度、姿态以及遮挡情况，再加上不同自然环境、摄像机设置、拍摄角度等因素的影响，一般的目标检测器很难完美适用于行人检测问题。然而在现实生活中，行人检测在车辆辅助驾驶系统、智能交通、人群监控等领域中的实际应用，不仅能够帮助解决许多社会安全问题，还能在一定程度上解放人力资源，实现自动化。因此，即使在行人检测算法研究的道路上困难重重，还是有众多学者、机构、公司为其广大的应用发展前景而前赴后继，努力找到一种更好的方法，使得行人检测器能够更有效地应用在现实生活与生产中。

目前大多行人检测器都是在两阶段检测算法Faster R-CNN网络基础上针对特定问题进行改进，但近年来兴起的无锚检测器凭借其结构简单、检测效果佳、扩展性强、鲁棒性好等优势在行人检测乃至目标检测领域得到了迅速的发展。CSP(Center and ScalePrediction，中心点和尺度预测)是一个基于密集预测的典型无锚检测器，它利用CNN高度的抽象能力，以更高层的语义特征点(目标中心点和目标宽高属性)来代替低层视觉特征点(感兴趣区域、角点、极值点等)进行检测。

虽然与一般基于深度学习的检测器相比，CSP打破了手工设置固定大小、纵横比锚框的限制，减少了超参数限制带来的泛化性能丢失，同时缓解了背景干扰过多、正负样本不均衡等问题，但对于多尺度行人检测和密集场景中行人遮挡等难点问题，该检测器还是存在较大的改进空间。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种多尺度遮挡行人检测方法及系统，以减少密集场景下多尺度遮挡行人的错检和漏检。

为实现上述目的，按照本发明的一个方面，提供了一种多尺度遮挡行人检测方法，包括：

S1：将待检测图像分别输入行人全身检测模型和行人头部检测模型，得到全身检测结果集和头部检测结果集；其中，所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立；

S2：取出置信度最高的全身检测结果作为最终检测结果，并将其作为参考对象，计算余下的全身检测结果与参考对象之间的IoU值，将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集；

S3：逐一判断待定检测结果是否具有匹配的头部检测结果，若是，则将所述待定检测结果返回至全身检测结果集，返回步骤S3，直至全身检测结果集为空集；若否，返回步骤S3，直至全身检测结果集为空集。

优选地，所述逐一判断待定检测结果是否具有匹配的头部检测结果，具体为：

将头部检测结果按照预设比例转化为虚拟全身检测结果，计算待定检测结果与未被匹配的各虚拟全身检测结果的IoU值，若各IoU值中的最大值大于匹配IoU阈值，且所述待定检测结果与所述最大值对应的虚拟全身检测结果的宽值间距与高值间距之和小于匹配间距阈值，则所述待定检测结果有匹配的头部检测框。

优选地，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到所述待检测图像的特征图，基于所述待检测图像的特征图，获取全身检测框和头部检测框的中心点、高度和中心点偏置量；对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框，并对所述全身检测候选框和头部检测候选框进行NMS后处理，得到全身检测结果和头部检测结果。

优选地，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到n张分辨率不同的特征图，并将所述n张分辨率不同的特征图进行通道连结，得到所述待检测图像的特征图；其中，n为大于0的整数。

优选地，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到所述待检测图像的特征图之后，还包括：

将所述待检测图像的特征图F进行降维得到矩阵M，将矩阵M与转置矩阵M`相乘，并进行softmax变换得到方阵N，将所述方阵N与矩阵M相乘，并进行维度还原得到张量F`，将F`与F进行逐通道逐元素相加，得到张量E。

优选地，对所述全身检测候选框进行NMS后处理时所采用的IoU阈值大于对所述头部检测候选框进行NMS后处理时所采用的IoU阈值，且大于所述可信阈值。

按照本发明的另一方面，提供了一种多尺度遮挡行人检测系统，所述系统包括：输入模块、行人检测全身检测模型、行人头部检测模型、第一筛选模块与第二筛选模块；

所述输入模块用于将待检测图像分别输入行人全身检测模型和行人头部检测模型；所述行人全身检测模型和行人头部检测模型分别输出全身检测结果集和头部检测结果集；其中，所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立；

所述第一筛选模块用于取出置信度最高的全身检测结果作为最终检测结果，并将其作为参考对象，计算余下的全身检测结果与参考对象之间的IoU值，将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集；

所述第二筛选模块用于逐一判断待定检测结果是否具有匹配的头部检测结果，若是，则将所述待定检测结果返回至全身检测结果集，第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果，并将其作为参考对象，计算余下的全身检测结果与参考对象之间的IoU值，将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集，直至全身检测结果集为空集；若否，第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果，并将其作为参考对象，计算余下的全身检测结果与参考对象之间的IoU值，将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集，直至全身检测结果集为空集，直至全身检测结果集为空集。

优选地，所述行人全身检测模型和行人头部检测模型的特征提取模块均包括n条分支、特征融合模块和连结模块；

其中，第1,2,……,n条分支分别具有n,…2,1个阶段，每个阶段均包括卷积层和残差层，第1条分支的初始输入为待检测图像，其余分支的初始输入由对上一条分支在上一阶段的输出图像进行降采样得到；除第1分支的第1阶段，各分支的各阶段末尾都包含特征融合模块，用于融合相邻分支或跨分支的特征；

所述n条分支对待检测图像进行特征提取，输出n张分辨率不同的特征图，所述连结模块将所述n张分辨率不同的特征图进行通道连结，得到所述待检测图像的特征图。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

将行人头部检测模型与行人全身检测模型相结合，通过可信IoU阈值构建待定全身检测结果集，并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选，删除没有匹配头部检测结果的冗余全身检测结果，相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式，保留了具有匹配的头部检测结果的全身检测结果，从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果，也即尽可能地保留了更多的被遮挡的全身检测结果，提升了在密集场景中的行人检出率，大大改善了对遮挡行人的检测性能。

进一步地，在行人检测模型中，采用多个单分辨率并行子网络和多个多尺度特征融合模块来构建特征提取网络，通过多个并行子网络来保持不同的特征分辨率；通过多个特征融合模块对相邻层及跨层的上下文信息进行有效融合，从而提升了特征提取网络输出特征的质量和信息完备性，改善了多尺度行人检测性能。

进一步地，行人检测模型还包括通道选取模块，在通道连结多个子网络输出特征后，使用通道选取模块进一步聚合了语义相关的特征通道，从而强调了前景目标信息，弱化了背景信息干扰，为后续多尺度目标的中心点预测、尺度预测和偏置预测任务提供了更良好和更精准的特征信息。

附图说明

图1是本发明实施例提供的多尺度遮挡行人检测方法流程图之一；

图2是本发明实施例提供的多尺度遮挡行人检测方法流程图之二；

图3为本发明实施例提供的改进的特征提取网络的结构示意图之一；

图4为本发明实施例提供的改进的特征提取网络的结构示意图之二；

图5为本发明实施例提供的特征融合模块的结构示意图；

图6为本发明实施例提供的通道选取模块的结构示意图；

图7中的(a),(b)为原始CSP在CityPersons验证子集上的行人检测结果示意图；图7中的(c),(d)本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；

图8中的(a),(b)为本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；图8中的(c),(d)为本发明实施例提供的具有改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；

图9中的(a),(b)为本发明实施例提供的结合改进的特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；图9中的(c),(d)为本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；

图10为原始CSP、本发明实施例提供的具有改进特征提取网络的行人检测模型、本发明实施例提供的同时具有改进特征提取网络和通道选取模块的行人检测模型分别在Citypersons不同尺度行人验证子集上行人检测结果的平均对数误检率示意图；

图11为原始CSP、本发明实施例提供的行人检测方法分别在CityPersons不同遮挡程度的验证子集上行人检测结果的平均对数误检率示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例提供一种多尺度遮挡行人检测方法，如图1所示，所述方法包括：

S1：将待检测图像分别输入行人全身检测模型和行人头部检测模型，得到全身检测结果集和头部检测结果集；其中，所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立。

具体地，CSP模型的结构包括：

(1)特征提取模块：与其他算法一样，CSP首先使用特征提取网络提取输入图片的特征图，该特征图被共享用于后续所有预测模块。

(2)中心点预测模块：该模块以行人标注中心点生成的高斯分布图作为目标，对特征图上各点进行逐像素地打分，得分越高的位置越有可能为某一行人边界框的中心点坐标。

(3)尺度预测模块：该模块以行人标注中心点和高度生成的掩膜图像作为目标，对特征图进行卷积回归操作，得到的预测图像中，每一像素点处的像素值均为该点可能存在目标的高度对数预测值。

(4)中心点偏置预测模块：该模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标，使用该模块得到的预测图像中各点像素值，可以对中心点预测模块得到的预测中心点坐标进行微调，减少图像缩放造成的量化误差，提高行人定位精度。

(5)检测框生成与后处理模块：根据中心点预测模块、尺度预测模块和中心点偏置预测模块的输出，可由几何计算得到原图中行人预测候选框的中心点坐标和宽高，进而得到该候选框的坐标；对这些候选框进行非极大值抑制操作，筛除冗余框，即可得到最终的行人检测框集合。

所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立。所述行人全身检测模型基于样本图像以及对应的全身检测框标签进行监督训练后得到，所述行人头部检测模型基于样本图像以及对应的头部检测框标签进行监督训练后得到。

如图1所示，所述行人检测模型包括行人全身检测模型和行人头部检测模型，均包括特征提取模块、中心点预测模块、中心点偏置预测模块、尺度预测模块和检测框生成与后处理模块。

所述行人全身检测模型基于待识别图像，生成并输出全身检测结果集；所述行人头部检测模型基于待识别图像，生成并输出头部检测结果集。

S2：取出置信度最高的全身检测结果作为最终检测结果，并将其作为参考对象，计算余下的全身检测结果与参考对象之间的IoU(Intersection Over Union，交并比)值，将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集；

具体地，置信度即中心点热图像素值。

下面以一个具体的例子对步骤S2-S3进行举例说明：

将由行人全身检测模型得到的全身检测结果集合设为B＝{b₀,b₁,...,b_n}，将最终行人检测结果集合设为D＝{}(D初始为空集)。

第一步：选取B中置信度得分最高的框b_k，从B中删除并直接放入D；

第二步：从B里剩下的全身检测框中，选取所有与b_k之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`，假设B`＝{b₀,b₃,b₄}，并将{b₀,b₃,b₄}从B中删除；

第三步：依次判断b₀,b₃,b₄是否有头部框对应，若有，则将其放回到B中，否则将其彻底从B`中删除；

第四步：循环第一步到第三步，直到B为空集，最后得到的D即为最终行人检测结果。

本发明实施例提供的方法，将行人头部检测模型与行人全身检测模型相结合，通过可信IoU阈值构建待定全身检测结果集，并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选，删除没有匹配头部检测结果的冗余全身检测结果，相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式，保留了具有匹配的头部检测结果的全身检测结果，从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果，也即尽可能地保留了更多的被遮挡的全身检测结果，提升了在密集场景中的行人检出率，大大改善了对遮挡行人的检测性能。

具体地，将头部检测结果集中的所有头部检测框按比例转化为虚拟的全身检测框，以全身检测框和未被匹配的各虚拟全身检测框的IoU值衡量它们的位置匹配关系：若各IoU值中的最大值大于匹配IoU阈值，表示所述全身检测框与所述最大值对应的虚拟全身检测框满足位置匹配条件。

以虚拟全身检测框和全身检测框的宽值间距和高值间距之和L1_dis距离衡量它们的尺度匹配关系：

其中，b_j表示第j个全身检测框，bf_i表示第i个头部检测框转化而来的虚拟全身检测框)；

当L1_dis小于匹配间距阈值时，表示它们满足尺度匹配条件。

当虚拟全身检测框bf_i与全身检测框b_j同时满足上述两个条件时，认为它们互相匹配。

本发明实施例提供的方法，根据头部检测框与全身检测框之间的IoU值、宽值间距和高值间距的对头部检测框与全身检测框进行匹配，并基于匹配结果对行人全身检测框结果进行进一步的过滤筛选，提升了在密集场景中的行人检出率，从而大大改善了对遮挡行人的检测性能。

优选地，所述可信阈值为0.5，所述匹配IoU阈值为0.5，所述匹配间距阈值为80。

下面以一个具体的例子对匹配和筛选过程进行进一步说明：

匹配过程：由行人全身检测模型和行人头部检测模型，分别得到行人全身检测结果集合和行人头部检测结果集合。将所述行人全身检测结果集合和行人头部检测结果集合进行一一匹配，匹配过程为：

(1)根据下式将头部预测框结果bh_i＝(x1_i,y1_i,x2_i,y2_i)按照比例转化为虚拟的全身框结果bf_i＝(x1'_i,y1'_i,x2'_i,y2'_i)(i＝1,2,...,N)；

(2)计算全身预测框集合B^1×M中每一个全身框与虚拟全身框集合BF^1×N中所有框的IoU，得到矩阵A^M×N,A中元素a_ji代表b_j与bf_i之间的IoU。

(3)设定全身框匹配向量VF^1×M和头部框匹配向量VH^1×N，将它们的元素全部初始化为0；并对全身框集合B按照置信度进行排序。

(4)从B中选取置信度最大的全身框b_j，若它未被匹配(也就是它在VF下标对应处元素为0)，则将BF中还未被匹配(也就是其在VH中下标对应元素为0)的所有虚拟全身框取出组成一个子集BF_res。

(5)根据IoU矩阵A，获得BF_res中与b_j之间IoU最大的虚拟全身框bf_i。

(6)判断b_j与bf_i之间IoU是否大于匹配IoU阈值t_{new_iou}，若小于，则证明它们在位置上就不匹配；若大于，则进行下一步。

(7)使用两框尺度间的L1距离

判断头部框大小与全身框大小是否满足标注的对应比例关系；若它们之间的L1距离大于匹配间距阈值，则表明它们在尺度上具有很大差异，并不能相互匹配。

(8)若b_j和bf_i这两个框既满足IoU限制条件，又满足尺度的L1距离限制条件，则认为它们可以匹配，长度为N的匹配向量中第j个元素被置为1，即将VF和VH中对应的元素设置为1，并在B中删除b_j，在BF中删除bf_i。否则仅在B中删除b_j。

(9)对B中剩余的全身框循环进行以上过程，直到B为空或者BF为空；

(10)返回全身框匹配结果VF^1×M和头部框匹配结果VH^1×N。

筛选过程：根据匹配结果对行人整体预测框进行最后筛选。结合全身框匹配结果VF^1×M做最后一次筛选，筛选过程为：

(1)将全身检测结果集中的全身检测框按照置信度得分高低进行排序；

(2)计算全身检测框集合中每两个框之间的IoU，得到一个IoU方阵；

(3)选择置信度得分最高的全身框b_m添加到最终行人检测结果集合中，并从全身检测结果集中将它(们)删除；

(4)从IoU方阵中获取上面选中的全身框b_m与其他全身框之间的IoU，若某个全身框b_n与b_m之间IoU小于可信阈值，则将其保留在全身检测结果集中；若b_n与b_m之间IoU大于可信阈值，且在全身框匹配向量VF^1×M中，b_n对应元素为1，则也将b_n保留在全身检测结果集中；若b_n与b_m之间IoU大于可信阈值，且在全身框匹配向量VF^1×M中，b_n对应元素为0，则将b_n从全身检测结果集中删除。

(5)重复上面两个步骤，直到全身检测结果集为空，返回最终结果集合。

优选地，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到所述待检测图像的特征图，基于所述待检测图像的特征图，获取全身检测框和头部检测框的中心点、高度和中心点偏置量；对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框，并对所述全身检测候选框和头部检测候选框进行NMS后处理，得到全身检测结果集和头部检测结果集。

具体地，如图2所示，所述行人全身检测模型和行人头部检测模型的特征提取模块分别对所述待检测图像进行特征融合和特征提取，得到所述待检测图像的特征图F。

所述行人全身检测模型和行人头部检测模型的中心点预测模块、中心点偏置预测模块和尺度预测模块分别对所述待检测图像的特征图F进行处理，分别生成中心点热图、中心点偏置预测图和尺度预测图。

进一步地，中心点预测模块以行人标注中心点生成的高斯分布图作为目标，对特征图上各点进行逐像素地打分，得分越高的位置越有可能为某一行人边界框的中心点坐标。

在对所述中心点预测模块进行训练的过程中，中心点预测模块以所述待检测图像的特征图F作为输入，以目标边界框中心点生成的大小为

的高斯图作为训练目标，使用

形式的Focal Loss衡量该模块输出热图与目标之间的差异，其中

M_x,y表示标注高斯图上某一点的对应像素值，p_x,y表示该模块预测得到的热图中对应的像素值。

进一步地，中心点偏置预测模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标，使用该模块得到的预测图像中各点像素值，可以对中心点预测模块得到的预测中心点坐标进行微调，减少图像缩放造成的量化误差，提高行人定位精度。

进一步地，尺度预测模块以行人标注中心点和高度生成的掩膜图像作为目标，对特征图进行卷积回归操作，得到的预测图像中，每一像素点处的像素值均为该点可能存在目标的高度对数预测值。

行人全身检测网络中的尺度预测模块以F作为输入，在大小为

的图中，将中心点为

边长为4的正方形范围内像素点值设为log(h)，其他像素值均为0，则此掩膜图像即为尺度预测模块的回归目标，使用SmoothL1 loss计算该分支的损失值并进行梯度回传；其中，(x_c,y_c)为全身检测框的中心点坐标。类似地，行人头部检测网络的尺度预测模块行人全身检测网络中的尺度预测模块以F作为输入，在大小为

的图中，将中心点为

边长为2的正方形范围内像素点值设为log(h/3)，其他像素值均为0，则此掩膜图像即为尺度预测模块的回归目标，使用SmoothL1loss计算该分支的损失值并进行梯度回传。

进一步地，行人全身/头部检测网络的中心点偏置预测模块的输入与loss计算同尺度预测模块，但生成掩膜的方式为：仅在目标中心点

像素处赋值

所述行人全身检测模型和行人头部检测模型的检测框生成与后处理模块对所述中心点热图、中心点偏置预测图和尺度预测图进行几何变换得到全身检测候选框和头部检测候选框，并对所述全身检测候选框和头部检测候选框进行NMS后处理，得到全身检测候选框和头部检测候选框。

进一步地，所述中心点预测模块、中心点偏置预测模块和尺度预测模块的输出，可由几何计算得到原图中检测候选框的中心点坐标和宽高，进而得到该候选框的坐标；对这些候选框进行非极大值抑制操作，筛除冗余框，即可得到最终的行人检测框集合。

进一步地，在预测框生成与后处理模块对中心点预测模块、尺度预测模块和中心点偏置预测模块这三个并行模块的输出结果几何变换得到检测候选框时，假设某边界框的高的预测值为h，则行人全身检测候选框的宽为0.41×h，行人头部检测候选框的宽为0.82×h。

所述特征提取模块为改进的特征提取网络，包括n条分支、特征融合模块和连结模块。

所述n条分支对待检测图像进行特征融合和特征提取，输出n张分辨率不同的特征图，所述连结模块将所述n张分辨率不同的特征图进行通道连结，得到所述待检测图像的特征图F。

具体地，所述连结模块所述n张分辨率不同的特征图先全部上采样到相同的分辨率大小，再进行通道连结。

优选地，n＝4。当n＝4时，如图3-4所示，所述改进的特征提取网络结构包括四条分支，即四个子网络；其中，第1分支包括4个阶段、第2分支包括3个阶段、第3分支包括2个阶段、第4分支包括1个阶段，每个阶段包含不同数量的BasicBlock或BottleNeck。

如图4所示，以第一分支为例，输入的特征图在第一阶段首先经过一个模块，该模块由4个BottleNeck组成，输出特征通道数为256；然后将第一阶段输出的特征图送入第二阶段，第二个阶段也仅有一个模块，该模块含4个输出通道数为C的BasicBlock；接着在第三阶段，特征依次通过四个模块，每个模块均由4个输出通道数为C的BasicBlock组成；最后的第四阶段包含三个同样结构的模块，输出

的特征图。以此类推，第二、三、四条分支的输出结果分别为

和

大小的特征图。

优选地，BasicBlock可以由2个3×3的卷积块和残差连接组成；BottleNeck可以由首尾两个1×1的卷积块、中间一个3×3的卷积块以及残差连接组成，它们都是ResNet的主要组成部分。

每个子网络从头到尾都保持特征图分辨率不变，以H×W×3大小的图像作为输入为例，则第一条分支输出

大小的特征图C1，第二、三、四条分支分别输出

和

大小的特征图C2、C3和C4。

第一子网络的初始输入为待识别图像经过第一条分支的初始输入是待检测图像经过卷积处理得到，可选地，所述卷积处理为2次卷积处理，分辨率为H/4*W/4。低层子网络的初始输入为上一层网络上一阶段输出经由降采样得到；可选地，所述降采样为步长为2的3×3卷积降采样。例如：第二子网络的初始输入为对第一子网络在第一阶段的输出进行步长为2的3×3卷积降采样得到，第三子网络的初始输入为对第二子网络在第二阶段的输出进行步长为2的3×3卷积降采样得到。

如图3所示，除第一分支第一阶段外，每个子网络的每个阶段末尾都包含一个特征融合模块，该模块不仅能够融合相邻层特征，还能跨层进行上下文信息融合。如图5所示，若在第i分支(i＝{1,2,3,4})的第j阶段(j＝{2,3,4})末尾进行特征融合，则需使用步长为2的3×3卷积对第i-1条分支(i-1≥1)第j阶段的特征N_i-1,j进行一次下采样得到N'_i-1,j，对第i+1条分支(i+1≤4)第j阶段的特征N_i+1,j进行一次双线性插值和一次1×1卷积得到N'_i+1,j，最后将大小相同的N'_i-1,j、N_i,j和N'_i+1,j逐通道逐元素的相加，得到融合后特征N'_i,j，即可作为第i分支第j+1阶段(j+1≤4)的输入；若涉及到跨层特征融合，则需将第i-k分支(i-k≥1)第j阶段的特征N_i-k,j进行k次下采样操作，将第i+k分支(i+k≤4)第j阶段的特征N_i+k,j进行k次上采样操作，才能与N_i,j融合得到N'_i,j。

特征提取网络的四个子网络有四个输出{C₁,C₂,C₃,C₄}，将他们直接进行通道连结，得到大小为

的特征图。

进一步地，以ImageNet数据集作为预训练数据集，训练样本为物体图片，标签是物体类别，训练结合了多个并行子网络和多个多尺度特征融合模块的特征提取网络，得到的模型参数将被用作行人头部检测模型和行人全身检测模型训练的初始化。

本发明实施例提供的方法，通过采用改进的特征提取网络，不仅可以保持适合小尺度行人检测的高分辨率特征图，还能获取到适合大尺度行人检测、具有高级语义信息的低分辨率特征图，同时利用深度融合的机制，使不同尺度信息充分融合、相互补充，使得该网络提取到的特征更适用于多尺度行人的检测，使得检测器对多尺度行人，尤其是小尺度行人的检测性能大大提升。

将所述待检测图像的特征图F进行降维得到矩阵M，将矩阵M与转置矩阵M`相乘，并进行softmax变换得到方阵N，将所述方阵N与矩阵M相乘，并进行维度还原得到张量F`，将F`与所述待检测图像的特征图F进行逐通道逐元素相加，得到张量E。

具体地，将大小为

特征图F输入至通道选取模块，如图6所示，在通道选取模块中，特征图F首先被降维成A×C的矩阵M，其中

然后对M与它的转置M'进行矩阵乘法，并经过一次softmax得到C×C的方阵N，该方阵刻画了通道特征间的关系——N中每个元素N_j,i表示第j个通道的特征F_j对第i个通道特征F_i的影响，其计算方式为：

接着将所述方阵N与矩阵M相乘，得到A×C大小的矩阵，然后进行维度还原得到张量F'，大小为

将张量F`与所述待检测图像的特征图F进行逐通道逐元素相加，即得到通道选取模块的输出E。特征图F经过通道选取模块后，输出大小不变。

进一步地，将通道选取模块输出特征E经由一个3×3的卷积，将通道由480缩减为256，然后同时送入中心点预测模块、尺度预测模块和中心点偏置预测模块，即可得到图中行人的预测中心点、高度和中心点偏置量，最后即可进行预测候选框的生成和后处理，得到最终的行人全身/头部检测框集合。

本发明提供的方法，采用通道选取模块对所述待检测图像的特征图进行进一步处理，利用其自适应加权融合各通道特征的优势，可以在全局层面进一步聚合语义相关的通道特征，以强调行人前景特征、弱化无关背景干扰，进而获取更加精确的特征输出，从而使用于后续各预测模块的特征更加精准，增强了行人检测模型对行人和非行人的辨别能力。

优选地，对所述全身检测候选框进行NMS后处理时，采用的IoU阈值为0.7；对所述头部检测候选框进行NMS后处理时，采用的IoU阈值为0.4，可信阈值为0.5。

具体地，在行人全身检测网络中，候选框的宽高比为0.41，NMS后处理时IoU阈值为0.7；在行人头部检测网络中，候选框的宽高比设为0.82，NMS后处理时IoU阈值设为0.4，所述可信阈值为0.5。

本发明实施例提供的方法，对行人全身检测候选框进行NMS后处理时，使用了较高的IoU阈值，目的是保留更多的重叠框，减少密集场景中相互遮挡的行人检测框的漏检，并通过初步的过滤降低后续结合头部的筛选过程的计算量。对行人头部检测候选框进行NMS后处理时，使用了较低的IoU阈值，这是基于行人头部不易被遮挡的实际情况做出的设置，目的是得到较为可靠的头部预测结果，从而保证后续结合头部的筛选结果质量。

使用CityPersons数据集的训练集对行人检测模型进行训练，训练过程中会对训练集进行一些数据增强操作，包括：随机水平翻转、随机裁剪以及对图像亮度、对比度和饱和度的随机干扰。行人全身检测模型的训练标注即为CityPersons训练集的原始标注，行人头部检测模型的训练标注则为按比例由CityPersons原始标注生成而来的头部标注。本发明实施例中设置行人头部框标注大小为

其中h、w分别为行人全身标注框的宽和高，行人头部框标注中心点坐标为

其中(x_c,y_c)为行人全身标注框中心点坐标。

本发明实施例设置的头部框标注大多包含了行人头部到肩部的整体轮廓，该轮廓具有行人特性，且不易随着光照、遮挡和行人姿态等发生巨大形变，因此使用该标注能够使行人头部检测模型得到更好的泛化性能。

以ImageNet数据集作为预训练数据集，得到的模型参数用作行人头部检测模型和行人全身检测模型训练的初始化，使用CityPersons数据集的训练集对行人头部检测模型和行人全身检测模型分别进行训练，训练过程中使用Adam作为优化器，设置batch size为4，用两块1080ti GPU循环训练240个epoch。

图7中的(a),(b)为原始CSP在CityPersons不同尺度验证子集上的行人检测结果示意图；图7中的(c),(d)本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图，其中的椭圆形标注表示原CSP的漏检行人。对比可知，利用全身检测框与头部检测框的匹配结果对行人全身检测框进行进一步的过滤筛选，可以在密集场景中尽可能保留更多的遮挡行人正确检测框，同时也能利用更低的IoU阈值减少密集场景下的错误检测。

图8中的(a),(b)为本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；图8中的(c),(d)为本发明实施例提供的结合改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图，其中的椭圆形标注表示原行人检测模型的漏检行人。对比可见，使用多个并行分支和多次多尺度特征融合，使得本发明的行人检测方法能够更全面地捕捉到各个尺度的行人目标，尤其是显著提高了小尺度目标的检出率。

图9中的(a),(b)为本发明实施例提供的结合改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图；图9中的(c),(d)为本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图，其中的椭圆形标注表示具有改进特征提取网络的行人检测模型的漏检行人。对比可见，通道选取模块能使网络更专注于行人前景特征，从而更精准地区分行人与非行人。

图10为原始CSP、本发明实施例提供的具有改进特征提取网络的行人检测方法、本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法分别在Citypersons不同尺度行人验证子集上行人检测结果的平均对数误检率示意图。其中，Reasonable为CityPersons数据集中最常用来评估算法性能的验证子集，该子集中仅包含高度在[50，+∞)范围内、可见程度在[0.65,+∞)范围内的行人边界框。Large为CityPersons数据集中尺寸较大的行人边界框集合，包含高度在[100，+∞)范围内、可见程度在[0.65,+∞)范围内的行人边界框；Medium为尺寸中等的行人边界框集合，包含高度在[75,100)范围内、可见程度在[0.65,+∞)范围内的行人边界框；Small为小尺度行人验证子集，包含高度在[50,75)范围内、可见程度在[0.65,+∞)范围内的行人边界框。如图10所示，采用本发明实施例提供的具有改进特征提取网络的行人检测模型，相较于原始的CSP模型，在不同尺度的行人验证子集上，平均对数误检率MR^-2均有所降低；而同时具有改进特征提取网络和通道选取模块的行人检测模型，相较于仅具有改进特征提取网络的行人检测模型，在不同尺度的行人验证子集上，平均对数误检率MR^-2均有进一步的降低，其中对小尺度行人的检测性能提升最为显著。

图11为原始CSP、本发明实施例提供的行人检测方法分别在CityPersons不同遮挡程度的验证子集上行人检测结果的平均对数误检率示意图。其中，Bare为被遮挡程度较低的行人边界框子集，其中的边界框高度均在[50，+∞)范围内、可视程度均在[0.9,1]范围内；Partial为被遮挡程度中等的行人边界框子集，其中的边界框高度均在[50，+∞)范围内、可视程度均在[0.65,0.9)范围内；Heavy为被遮挡较为严重的行人边界框子集，其中的边界框高度均在[50，+∞)范围内、可视程度均在[0,0.65范围内；Reasonable Heavy为Reasonable子集中遮挡较为严重的行人边界框子集，其中的边界框高度均在[50，+∞)范围内、可视程度均在[0.2,0.65)范围内。此外，GT表示对应子集中行人真实标注框的数量；TP表示检测器检测出来的正确行人边界框数量，其值越接近GT越好；FP表示检测器误认为是行人的错误预测框数量，其值越接近0越好；MR^-2为行人检测领域中最常使用的评估指标，其值越小越好。如图11所示，本发明实施例提供的行人检测方法相较于原始CSP能够获得较低的MR^-2，由此可见，本发明实施例提供的行人检测方法能够将误检率控制在一定范围内的情况下，降低密集场景下遮挡行人的漏检率。

下面对本发明提供的多尺度遮挡行人检测系统进行描述，下文描述的多尺度遮挡行人检测系统与上文描述的多尺度遮挡行人检测方法可相互对应参照。

本发明实施例提供一种多尺度遮挡行人检测系统，包括：输入模块、行人检测全身检测模型、行人头部检测模型和第一筛选模块与第二筛选模块；

本发明实施例提供的系统，将行人头部检测模型与行人全身检测模型相结合，通过可信IoU阈值构建待定全身检测结果集，并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选，删除没有匹配头部检测结果的冗余全身检测结果，相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式，保留了具有匹配的头部检测结果的全身检测结果，从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果，也即尽可能地保留了更多的被遮挡的全身检测结果，提升了在密集场景中的行人检出率，大大改善了对遮挡行人的检测性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多尺度遮挡行人检测方法，其特征在于，所述方法包括：

S2：选取B中置信度得分最高的框b_k，从B中删除并直接放入D；

其中，B为由行人全身检测模型得到的全身检测结果集合，D为最终行人检测结果集合，D＝{}，D初始为空集；

S3：从B里剩下的全身检测框中，选取所有与b_k之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`，并将B`中的元素从B中删除；

S4：依次判断B`中的各元素是否有头部框对应，若有，则将其放回到B中，否则将其彻底从B`中删除；

S5：循环S2到S4，直到B为空集，最后得到的D即为最终行人检测结果；

所述CSP模型包括特征提取模块、中心点预测模块、尺度预测模块、中心点偏置预测模块及检测框生成与后处理模块；所述特征提取模块使用特征提取网络提取输入图片的特征图，该特征图被共享用于中心点预测模块、尺度预测模块、中心点偏置预测模块；中心点预测模块以行人标注中心点生成的高斯分布图作为目标，对特征图上各点进行逐像素地打分，以获取行人检测框的中心点坐标；尺度预测模块以行人标注中心点和高度生成的掩膜图像作为目标，对特征图进行卷积回归操作，得到的预测图像中，每一像素点处的像素值均为该点可能存在目标的高度对数预测值；中心点偏置预测模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标，使用该模块得到的预测图像中各点像素值，对中心点预测模块得到的预测中心点坐标进行微调；检测框生成与后处理模块根据中心点预测模块、尺度预测模块和中心点偏置预测模块的输出，由几何计算得到原图中行人预测候选框的中心点坐标和宽高，进而得到该候选框的坐标；对这些候选框进行非极大值抑制操作，筛除冗余框，得到检测结果集。

2.如权利要求1所述的多尺度遮挡行人检测方法，其特征在于，所述判断B`中的各元素是否有头部框对应，具体为：

3.如权利要求1所述的多尺度遮挡行人检测方法，其特征在于，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到所述待检测图像的特征图，基于所述待检测图像的特征图，获取全身检测框和头部检测框的中心点、高度和中心点偏置量；对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框，并对所述全身检测候选框和头部检测候选框进行NMS后处理，得到全身检测结果和头部检测结果。

4.如权利要求3所述的多尺度遮挡行人检测方法，其特征在于，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到n张分辨率不同的特征图，并将所述n张分辨率不同的特征图进行通道连接，得到所述待检测图像的特征图；其中，n为大于0的整数。

5.如权利要求4所述的多尺度遮挡行人检测方法，其特征在于，所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取，得到所述待检测图像的特征图之后，还包括：

6.如权利要求3所述的多尺度遮挡行人检测方法，其特征在于，对所述全身检测候选框进行NMS后处理时所采用的IoU阈值大于对所述头部检测候选框进行NMS后处理时所采用的IoU阈值，且大于所述可信阈值。

7.一种多尺度遮挡行人检测系统，其特征在于，所述系统包括：输入模块、行人检测全身检测模型、行人头部检测模型、第一筛选模块与第二筛选模块、循环模块；

所述第一筛选模块用于选取B中置信度得分最高的框b_k，从B中删除并直接放入D；从B里剩下的全身检测框中，选取所有与b_k之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`，并将B`中的元素从B中删除；其中，B为由行人全身检测模型得到的全身检测结果集合，D为最终行人检测结果集合，D＝{}，D初始为空集；

所述第二筛选模块用于依次判断B`中的各元素是否有头部框对应，若有，则将其放回到B中，否则将其彻底从B`中删除；

循环模块，用于重复执行所述第一筛选模块、第二筛选模块的操作，直到B为空集，最后得到的D即为最终行人检测结果；

8.如权利要求7所述的多尺度遮挡行人检测系统，其特征在于，所述行人全身检测模型和行人头部检测模型的特征提取模块均包括n条分支、特征融合模块和连接模块；

所述n条分支对待检测图像进行特征提取，输出n张分辨率不同的特征图，所述连接模块将所述n张分辨率不同的特征图进行通道连接，得到所述待检测图像的特征图。