CN113920468A

CN113920468A - 一种基于跨尺度特征增强的多分支行人检测方法

Info

Publication number: CN113920468A
Application number: CN202111516697.4A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 翟贵乾
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-01-11
Anticipated expiration: 2041-12-13
Also published as: CN113920468B

Abstract

本发明属于人工智能智慧社区应用技术领域，涉及一种基于跨尺度特征增强的多分支行人检测方法，先引入基于多路径的候选区域感知策略，根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成候选目标区域集，再根据相邻卷积特征层在视觉语义上的互补性，设计跨尺度特征聚合模块，将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力，然后生成具有尺度感知能力的多分支行人检测模型，最后通过动态非极大值抑制对各分支行人检测结果进行筛选；检测错误率小，而且使用动态的置信度对检测结果进行筛选，检测结果准确。

Description

一种基于跨尺度特征增强的多分支行人检测方法

技术领域

本发明属于人工智能智慧社区应用技术领域，涉及一种基于跨尺度特征增强的多分支行人检测方法，能够有效的处理智慧社区监控视频中行人目标的多尺度变化。

背景技术

随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视，智能视频监控技术已经发展成为当前的研究热点；行人检测、跟踪、再识别与检索是智能化视频监控系统中的核心关键技术，还可以为后续的更高层次的场景理解、行为分析和异常事件监控提供可靠的数据支持。行人检测技术作为所有技术的基础工作，直接影响着智能视频监控的智能化水平，具有重要的研究意义和应用价值。

视频中行人空间尺度的变化（几倍甚至几十倍尺度差异）是行人检测的主要瓶颈之一。由于运动的行人距离摄像装置的距离会不断变化，造成行人在图像中的成像具有多尺度性，这种行人的多尺度对于神经网络的特征提取和识别都会造成不利影响，为智能视频监控的行人检测任务带来极大的挑战性。

目前，在行人检测过程中行人的多尺度性检测难问题主要体现在极端尺度行人的漏检、误检，网络模型不能够在多尺度行人检测中达到很好的平衡。不同分辨率的特征层对于不同尺度的行人具有不同的响应已经被研究者们所验证，不同分辨率的特征层即由原始图像尺度经卷积神经网络模型下采样不同的倍数。由于小尺度的行人分辨率较低，如果使用和大尺度的行人相同的特征层进行特征提取，会造成小尺度行人特征信息的严重丢失、不足甚至该层特征层已经完全不包含该行人特征信息，因此造成行人漏检。

计算机视觉的研究者们在深度学习的计算机视觉的研究中，证明了不同分辨率的特征层具有不同层次的语义特征信息和位置特征信息，即高层次的特征层具有丰富的语义信息，能够有效的描述行人目标的全局信息，但是丢失了详细特征信息，不能够很好的描述行人目标的边缘特征；低层次的特征层具有足够的位置信息，能够有效体现出边缘特征信息，但是语义信息不够丰富。

基于单分支行人检测模型在面临行人尺度变化差异大的情况下，由于单特征层对不同尺度行人特征的刻画能力有限，不可避免的导致其行人检测能力有限。基于多分支的行人检测模型虽然采用了多特征层对行人特征不同粒度的表征能力，但是多分支之间存在大量的冗余检测，未能充分发挥不同层次特征对不同尺度行人的感知能力。另一方面，在现有的多分支行人检测模型中，最终都是将各分支的检测结果汇总再一起通过非极大值抑制后筛选出最终的行人检测结果。但是，由于不同检测分支检测到的行人尺度相差较大，统一在一起后使用非极大值抑制忽略了不同分支之间的差异性。

发明内容

本发明的目的在于解决行人检测中多尺度变化情况下行人检测性能严重下降的问题，设计提供一种基于跨尺度特征增强的多分支行人检测方法。

为实现上述目的，本发明所述基于跨尺度特征增强的多分支行人检测方法通过以下步骤实现：

（1）为提高特征提取效率和候选框生成质量，将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率（

）；

（2）将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层

；

（3）在深度卷积特征层上引入基于多路径的候选区域网络，根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集，以提高不同尺度行人目标的召回率；

（4）鉴于相邻卷积特征层在视觉语义上的互补性，在相邻卷积特征层上采用跨尺度特征聚合模块，通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接，将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征，聚合形成特征金字塔提高行人语义特征的表征能力；

（5）在步骤（4）跨尺度特征聚合后的特征金字塔上，根据步骤（3）多路径行人候选区域网络生成的行人候选区域集，训练生成具有尺度感知能力的多分支行人检测模型，其中各检测分支使用独立的损失函数进行联合学习，以最小化不同尺度行人的检测错误率；

（6）根据步骤（5）中训练生成的多分支行人检测模型，将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理，筛选出疑似行人目标；再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理，以减少虚警检测，优化最终的行人检测结果。

进一步的，所述步骤（1）具体包括如下步骤：

（11）将输入图像等比例缩放到统一宽度像素

或者高度像素

，提高候选框对应的特征提取效率；

（12）在图像缩放等比例缩放后，使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率

以满足行人候选框区域与其特征相对齐。

进一步的，所述步骤（2）具体包括如下步骤：

（21）加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50；

（22）将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征层

。

进一步的，所述步骤（3）具体包括如下步骤：

（31）在深度卷积特征层

上分别引入一个独立的候选区域生成候选区域网络，各候选区域网络路径根据不同卷积特征层的有效感受野大小与行人高度进行最佳匹配,将行人目标按照行人高度分配到不同的候选框生成路径中，以分别感知行人真实标注框的高度范围分别为[inf, 64]、[32, 256]、[128,inf]的候选区域，并生成长宽比例为1:1和2:1的行人初始候选框，其中inf表示在不同图像中行人目标像素高度可能存在的数量；

（32）不同特征层候选区域网络路径针对不同尺寸范围大小的行人候选框独立地开展行人类别与非行人类别的二分类训练，并只对包含真实行人标注框的区域进行边界框回归得到行人候选框；

（33）对各候选区域网络路径生成的行人候选框分别进行非极大值抑制，以生成不同尺度行人的最优候选区域集。

进一步的，所述步骤（4）具体包括如下步骤：

（41）为增强不同尺度的特征信息，通过通道注意力机制强化不同层次特征，训练学习生成针对各特征层的加权融合矩阵

，生成注意力增强后的视觉语义特征

；

（42）采用跨尺度特征聚合模块，通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接，将相邻尺度的注意力增强后的卷积层特征

通过加权融合方式进行特征聚合，形成含有丰富语义信息的视觉强化特征

；

（43）根据卷积神经网络各特征层感受野大小的差异，以通道注意力增强后的视觉强化特征

为基础，逐层形成特征金字塔

提高行人语义特征的表征能力。

进一步的，所述步骤（5）具体包括如下步骤：

（51）在特征金字塔

上，以步骤（3）多路径行人候选区域网络生成的行人候选框为基础，在各特征层上分别选取以置信度为排序依据的前300个候选框，并对每个候选框区域对应的特征金字塔

进行特征提取，训练生成多分支行人检测模型；

（52）将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中，各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练，并只对包含真实行人标注框的区域进行边界框回归训练，最小化不同尺度行人的检测错误率。

本发明先引入基于多路径的候选区域感知策略，根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选目标区域集，以提高不同尺度行人目标的召回率，再根据相邻卷积特征层在视觉语义上的互补性，设计跨尺度特征聚合模块，将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力，然后生成具有尺度感知能力的多分支行人检测模型，以最小化不同尺度行人的检测错误率，最后，通过动态非极大值抑制对各分支行人检测结果进行筛选，以减少假阳性案例，优化最终检测结果。

本发明与现有技术相比，具有以下优点：

（1）采用的跨尺度特征聚合模块首次实现了在不同尺度特征融合之前，首先通过视觉注意力机制强化不同尺度特征的有效语义信息，然后再通过横向连接，自上而下路径和自下而上路径来融合相邻尺度卷积层特征进行增强表示；

（2）引入基于多路径的候选区域感知策略，根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选区域集，并设计具有尺度感知能力的多分支行人检测模型，以最小化不同尺度行人的检测错误率；

（3）考虑到不同尺度行人目标受背景因素影响的差异性，检测结果的置信度分布范围的不同，使用动态的置信度对检测结果进行筛选，检测结果准确。

附图说明

图1为本发明所述基于跨尺度特征增强的多分支行人检测过程框架图；

图2为本发明步骤（4）采用的通道注意力示意图；

图3为本发明所述跨尺度特征聚合模块工作示意图；

图4 为本发明所述多分支行人检测示意图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明。

实施例：

本实施例所述基于跨尺度特征增强的多分支行人检测方法流程如图1所示，主要包括以下六个步骤：

）；

；

本实施例所述方法可有效处理视频监控中行人空间尺度的变化，并且弥补了现有方法的缺点，在不影响行人检测效率的前提下提高了对于极端尺度行人的检测效果，使网络模型具有良好的鲁棒性，下面做出进一步详细说明：

对于步骤（1），为提高特征提取效率，将输入图像等比例缩放到统一宽度像素

或者高度像素

，提高候选框对应的特征提取效率，本实施例中

，

，在图像缩放等比例缩放后，为提高多路径候选框生成质量，使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率

以满足行人候选框区域与其特征相对齐。

对于步骤（2），首先加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50，再将步骤（1）得到的图像输入到深度残差卷积神经网络ResNet50中提取不同深度层次下不同尺度的特征层

。

对于步骤（3），先引入基于多路径候选区域网络的尺度补偿策略，根据

卷积特征层的有效感受野大小和行人高度的最佳匹配方式，将行人目标按照行人高度分配到不同候选区域网络路径中，自适应地生成一系列针对特定目标尺度的候选区域集，其中，每个候选区域网络路径设置的有效真实标注框的范围分别为[inf,64], [32, 256], [128,inf] ，其中inf表示在不同图像中行人目标像素高度可能存在的数量；对不同的候选区域网络路径生成的初始候选框进行筛选，限制该路径生成的初始候选框的有效范围，依次为分别取值为

，并生成长宽比例为1:1和2:1的行人初始候选框；

其次，由于每个候选区域生成路径针对不同尺度的行人目标进行训练，所以每个候选区域网络路径使用单独的多任务损失函数，其定义如下：

其中，

表示行人候选目标训练样本数据，当表示通过行人候选集学习的网络参数，目标框的真实标注为行人正样本时

取值为1，否则取值为0，

代表通过Softmax函数目标候选框取值为行人正样本的概率值

，这里

；

表示目标标注框在图像中的位置以及尺寸大小，

表示目标候选框在图像中的位置以及尺寸大小，和表示目标候选框在图像中的水平方向和垂直方向的像素点位置，和表示目标候选框在图像中的宽度和高度，

表示判别目标候选区域是否为行人正样本的目标分类损失函数，目标定位损失函数

是由目标类别在图像中的边框四元组

和其预测值

的

范数来定义，

意味着回归损失函数只在目标真实标注框为行人正样本的情况下被激活，

是一个损失平衡因子，表示行人目标分类损失和行人候选框回归损失的偏向大小；

再次，对生成的初始候选目标框进行筛选，各候选区域网络路径通过非极大值抑制操作来减少目标候选区域，各个候选区域路径选取分数排在前100个的行人候选区域。

对于步骤（4），跨尺度特征聚合模块主要由以下三个步骤完成，如图3所示：

，生成注意力增强后的视觉语义特征

，假定不同尺度特征层输出特征

,将其进行卷积核为

的降维和下采样为

，并将其特征维度重写为

,

；通道注意力矩阵

定义为：

其中，

表示

的转置矩阵；

经过通道注意力增强后的视觉语义特征

定义为：

其中，

是离线训练的尺度超参数，初始化为0，这样加权融合了通道注意力特征和原始尺度的卷积特征，以突出相应尺度的特征语义信息；

步骤（42）为聚合相邻卷积特征层上有效特征信息，设计一种相邻尺度特征聚合模块（如图3所示），通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接，将相邻尺度的注意力增强后的卷积层特征

通过加权融合

方式进行特征聚合，形成含有丰富语义信息的视觉强化特征

：

其中，

表示自下而上低层特征通过平均池化操作的连接，

表示自上而下高层特征通过双线性插值的上采样连接，

表示

卷积核；

步骤（43）为发挥相邻卷积特征层在视觉语义上的互补性，根据卷积神经网络各特征层感受野大小的差异，以通道注意力增强后的视觉强化特征

为基础，通过跨尺度特征聚合模块融合相邻特征层形成特征金字塔

：

其中，

的特征生成不需要经过高层特征的上采样，因为本实施例采用的残差卷积神经网络模型ResNet50只经过了5次下采样，故特征层

不需要上采样操作。

对于步骤（5），基于步骤（3）根据不同分辨率的特征层生成不同尺度候选目标的有效性，使用步骤（4）跨尺度聚合特征层来处理不同尺度的候选目标区域；多分支行人检测分为多尺度特征提取和目标检测两个部分，具体实现过程如下：

步骤（51）、在步骤（4）不同尺度特征聚合增强后的特征金字塔

进行特征提取，

在跨尺度特征聚合后的特征金字塔

上提取不同尺度行人特征，为统一特征维度，本实施例把各层金字塔特征对应的候选区域通过最大池化方式提取

的特征分辨率,并使用两个全连接层将特征映射到1024维，以输入到行人检测的分类和回归任务中；

步骤（52）、将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中，各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练，并只对包含真实行人标注框的区域进行边界框回归训练，最小化不同尺度行人的检测错误率，

对于不同尺度集的候选区域使用对应的检测分支，每个分支使用各自的损失函数，实现对不同尺度目标的并行检测，在多路径行人候选区域推荐网络的基础上，根据行人目标尺度对应于

注意力增强后聚合特征的有效性，设计了基于尺度感知的多任务损失函数，具体的，基于行人目标尺度从多路径行人候选区域推荐网络中自适应选择的卷积特征层，并从训练数据中学习多任务损失函数对不同尺度目标在不同的卷积神经网络特征层上的权重参数，有效地融合不同尺度目标在不同特征层上的多任务损失，生成行人目标的候选框区域，以获取行人目标的较高召回率，本实施例所述基于尺度感知的多任务损失函数定义为：

其中M表示步骤（4）中注意力增强的特征金字塔

的层数，分别

应于步骤（3）多路径行人候选区域推荐网络的路径数量，本实施例中M取值为3，表示在不同空间分辨率下的行人训练数据集，

表示不同空间分辨率下的行人目标在相应卷积特征层上损失函数

的尺度感知权重，其值是根据Gaussian函数求取；本实施例根据行人目标尺度在深度残差神经网络ResNet-50的不同卷积特征层上为行人目标像素高度在ResNet-50上

的高度平均值取值分别为

，

和

，其对应的行人目标高度覆盖范围取值为

，

和

。

对于步骤（6），将步骤（5）不同尺度聚合特征层上的检测结果做非极大值抑制处理，针对不同尺度的目标区域使用相应的非极大值抑制阈值处理，对于最后产生的结果再次经行筛选，具体实现过程如下：

步骤（61）由于上述不同分支网络模型的检测结果对应不同尺度的检测目标，因此使用动态非极大值抑制阈值对每个分支精细化检测结果，同时，由于不同尺度行人目标受背景因素影响的差异性，检测结果的置信度分布范围应不同，因此使用动态的置信度对检测结果进行筛选。

步骤（62）融合上述多分支行人检测的结果，由于不同分支检测结果可能存在交集，使用非极大值抑制方法解决此问题。

以上公开的仅为本发明的具体实施例，根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。