CN113920468A - 一种基于跨尺度特征增强的多分支行人检测方法 - Google Patents

一种基于跨尺度特征增强的多分支行人检测方法 Download PDF

Info

Publication number
CN113920468A
CN113920468A CN202111516697.4A CN202111516697A CN113920468A CN 113920468 A CN113920468 A CN 113920468A CN 202111516697 A CN202111516697 A CN 202111516697A CN 113920468 A CN113920468 A CN 113920468A
Authority
CN
China
Prior art keywords
pedestrian
feature
candidate
branch
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111516697.4A
Other languages
English (en)
Other versions
CN113920468B (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202111516697.4A priority Critical patent/CN113920468B/zh
Publication of CN113920468A publication Critical patent/CN113920468A/zh
Application granted granted Critical
Publication of CN113920468B publication Critical patent/CN113920468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于人工智能智慧社区应用技术领域,涉及一种基于跨尺度特征增强的多分支行人检测方法,先引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成候选目标区域集,再根据相邻卷积特征层在视觉语义上的互补性,设计跨尺度特征聚合模块,将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力,然后生成具有尺度感知能力的多分支行人检测模型,最后通过动态非极大值抑制对各分支行人检测结果进行筛选;检测错误率小,而且使用动态的置信度对检测结果进行筛选,检测结果准确。

Description

一种基于跨尺度特征增强的多分支行人检测方法
技术领域
本发明属于人工智能智慧社区应用技术领域,涉及一种基于跨尺度特征增强的多分支行人检测方法,能够有效的处理智慧社区监控视频中行人目标的多尺度变化。
背景技术
随着人工智能与计算机视觉技术的发展以及人们对公共安全领域的日益重视,智能视频监控技术已经发展成为当前的研究热点;行人检测、跟踪、再识别与检索是智能化视频监控系统中的核心关键技术,还可以为后续的更高层次的场景理解、行为分析和异常事件监控提供可靠的数据支持。行人检测技术作为所有技术的基础工作,直接影响着智能视频监控的智能化水平,具有重要的研究意义和应用价值。
视频中行人空间尺度的变化(几倍甚至几十倍尺度差异)是行人检测的主要瓶颈之一。由于运动的行人距离摄像装置的距离会不断变化,造成行人在图像中的成像具有多尺度性,这种行人的多尺度对于神经网络的特征提取和识别都会造成不利影响,为智能视频监控的行人检测任务带来极大的挑战性。
目前,在行人检测过程中行人的多尺度性检测难问题主要体现在极端尺度行人的漏检、误检,网络模型不能够在多尺度行人检测中达到很好的平衡。不同分辨率的特征层对于不同尺度的行人具有不同的响应已经被研究者们所验证,不同分辨率的特征层即由原始图像尺度经卷积神经网络模型下采样不同的倍数。由于小尺度的行人分辨率较低,如果使用和大尺度的行人相同的特征层进行特征提取,会造成小尺度行人特征信息的严重丢失、不足甚至该层特征层已经完全不包含该行人特征信息,因此造成行人漏检。
计算机视觉的研究者们在深度学习的计算机视觉的研究中,证明了不同分辨率的特征层具有不同层次的语义特征信息和位置特征信息,即高层次的特征层具有丰富的语义信息,能够有效的描述行人目标的全局信息,但是丢失了详细特征信息,不能够很好的描述行人目标的边缘特征;低层次的特征层具有足够的位置信息,能够有效体现出边缘特征信息,但是语义信息不够丰富。
基于单分支行人检测模型在面临行人尺度变化差异大的情况下,由于单特征层对不同尺度行人特征的刻画能力有限,不可避免的导致其行人检测能力有限。基于多分支的行人检测模型虽然采用了多特征层对行人特征不同粒度的表征能力,但是多分支之间存在大量的冗余检测,未能充分发挥不同层次特征对不同尺度行人的感知能力。另一方面,在现有的多分支行人检测模型中,最终都是将各分支的检测结果汇总再一起通过非极大值抑制后筛选出最终的行人检测结果。但是,由于不同检测分支检测到的行人尺度相差较大,统一在一起后使用非极大值抑制忽略了不同分支之间的差异性。
发明内容
本发明的目的在于解决行人检测中多尺度变化情况下行人检测性能严重下降的问题,设计提供一种基于跨尺度特征增强的多分支行人检测方法。
为实现上述目的,本发明所述基于跨尺度特征增强的多分支行人检测方法通过以下步骤实现:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率(
Figure DEST_PATH_IMAGE001
);
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层
Figure 782055DEST_PATH_IMAGE002
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
进一步的,所述步骤(1)具体包括如下步骤:
(11)将输入图像等比例缩放到统一宽度像素
Figure DEST_PATH_IMAGE003
或者高度像素
Figure 636879DEST_PATH_IMAGE004
,提高候选框对应的特征提取效率;
(12)在图像缩放等比例缩放后,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率
Figure 682195DEST_PATH_IMAGE001
以满足行人候选框区域与其特征相对齐。
进一步的,所述步骤(2)具体包括如下步骤:
(21)加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
(22)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征层
Figure 483929DEST_PATH_IMAGE002
进一步的,所述步骤(3)具体包括如下步骤:
(31) 在深度卷积特征层
Figure DEST_PATH_IMAGE005
上分别引入一个独立的候选区域生成候选区域网络,各候选区域网络路径根据不同卷积特征层的有效感受野大小与行人高度进行最佳匹配,将行人目标按照行人高度分配到不同的候选框生成路径中,以分别感知行人真实标注框的高度范围分别为[inf, 64]、[32, 256]、[128,inf]的候选区域,并生成长宽比例为1:1和2:1的行人初始候选框,其中inf表示在不同图像中行人目标像素高度可能存在的数量;
(32)不同特征层候选区域网络路径针对不同尺寸范围大小的行人候选框独立地开展行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归得到行人候选框;
(33)对各候选区域网络路径生成的行人候选框分别进行非极大值抑制,以生成不同尺度行人的最优候选区域集。
进一步的,所述步骤(4)具体包括如下步骤:
(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵
Figure 970405DEST_PATH_IMAGE006
,生成注意力增强后的视觉语义特征
Figure DEST_PATH_IMAGE007
(42)采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的卷积层特征
Figure 589605DEST_PATH_IMAGE007
通过加权融合方式进行特征聚合,形成含有丰富语义信息的视觉强化特征
Figure 260233DEST_PATH_IMAGE008
(43)根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉强化特征
Figure 990292DEST_PATH_IMAGE007
为基础,逐层形成特征金字塔
Figure DEST_PATH_IMAGE009
提高行人语义特征的表征能力。
进一步的,所述步骤(5)具体包括如下步骤:
(51)在特征金字塔
Figure 331275DEST_PATH_IMAGE009
上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔
Figure 731163DEST_PATH_IMAGE009
进行特征提取,训练生成多分支行人检测模型;
(52)将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率。
本发明先引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选目标区域集,以提高不同尺度行人目标的召回率,再根据相邻卷积特征层在视觉语义上的互补性,设计跨尺度特征聚合模块,将跨尺度的卷积特征通过视觉注意力机制聚合在一起提高行人语义特征的表征能力,然后生成具有尺度感知能力的多分支行人检测模型,以最小化不同尺度行人的检测错误率,最后,通过动态非极大值抑制对各分支行人检测结果进行筛选,以减少假阳性案例,优化最终检测结果。
本发明与现有技术相比,具有以下优点:
(1)采用的跨尺度特征聚合模块首次实现了在不同尺度特征融合之前,首先通过视觉注意力机制强化不同尺度特征的有效语义信息,然后再通过横向连接,自上而下路径和自下而上路径来融合相邻尺度卷积层特征进行增强表示;
(2)引入基于多路径的候选区域感知策略,根据不同卷积特征层的有效感受野大小在相应特征层上自适应地生成一系列合理的候选区域集,并设计具有尺度感知能力的多分支行人检测模型,以最小化不同尺度行人的检测错误率;
(3)考虑到不同尺度行人目标受背景因素影响的差异性,检测结果的置信度分布范围的不同,使用动态的置信度对检测结果进行筛选,检测结果准确。
附图说明
图1为本发明所述基于跨尺度特征增强的多分支行人检测过程框架图;
图2为本发明步骤(4)采用的通道注意力示意图;
图3为本发明所述跨尺度特征聚合模块工作示意图;
图4 为本发明所述多分支行人检测示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明。
实施例:
本实施例所述基于跨尺度特征增强的多分支行人检测方法流程如图1所示,主要包括以下六个步骤:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率(
Figure 751072DEST_PATH_IMAGE001
);
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层
Figure 753663DEST_PATH_IMAGE002
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
本实施例所述方法可有效处理视频监控中行人空间尺度的变化,并且弥补了现有方法的缺点,在不影响行人检测效率的前提下提高了对于极端尺度行人的检测效果,使网络模型具有良好的鲁棒性,下面做出进一步详细说明:
对于步骤(1),为提高特征提取效率,将输入图像等比例缩放到统一宽度像素
Figure 683573DEST_PATH_IMAGE003
或者高度像素
Figure 644575DEST_PATH_IMAGE004
,提高候选框对应的特征提取效率,本实施例中
Figure 292726DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
,在图像缩放等比例缩放后,为提高多路径候选框生成质量,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率
Figure 364587DEST_PATH_IMAGE001
以满足行人候选框区域与其特征相对齐。
对于步骤(2),首先加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50,再将步骤(1)得到的图像输入到深度残差卷积神经网络ResNet50中提取不同深度层次下不同尺度的特征层
Figure 149003DEST_PATH_IMAGE002
对于步骤(3),先引入基于多路径候选区域网络的尺度补偿策略,根据
Figure 15328DEST_PATH_IMAGE005
卷积特征层的有效感受野大小和行人高度的最佳匹配方式,将行人目标按照行人高度分配到不同候选区域网络路径中,自适应地生成一系列针对特定目标尺度的候选区域集,其中,每个候选区域网络路径设置的有效真实标注框的范围分别为[inf,64], [32, 256], [128,inf] ,其中inf表示在不同图像中行人目标像素高度可能存在的数量;对不同的候选区域网络路径生成的初始候选框进行筛选,限制该路径生成的初始候选框的有效范围,依次为分别取值为
Figure 9829DEST_PATH_IMAGE012
,并生成长宽比例为1:1和2:1的行人初始候选框;
其次,由于每个候选区域生成路径针对不同尺度的行人目标进行训练,所以每个候选区域网络路径使用单独的多任务损失函数,其定义如下:
Figure 495168DEST_PATH_IMAGE014
Figure 258725DEST_PATH_IMAGE016
Figure 295951DEST_PATH_IMAGE018
Figure 387535DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
表示行人候选目标训练样本数据,当表示通过行人候选集学习的网络参数,目标框的真实标注为行人正样本时
Figure 66778DEST_PATH_IMAGE022
取值为1,否则取值为0,
Figure DEST_PATH_IMAGE023
代表通过Softmax函数目标候选框取值为行人正样本的概率值
Figure 828716DEST_PATH_IMAGE024
,这里
Figure DEST_PATH_IMAGE025
Figure 443368DEST_PATH_IMAGE026
表示目标标注框在图像中的位置以及尺寸大小,
Figure DEST_PATH_IMAGE027
表示目标候选框在图像中的位置以及尺寸大小,和表示目标候选框在图像中的水平方向和垂直方向的像素点位置,和表示目标候选框在图像中的宽度和高度,
Figure 412461DEST_PATH_IMAGE028
表示判别目标候选区域是否为行人正样本的目标分类损失函数,目标定位损失函数
Figure DEST_PATH_IMAGE029
是由目标类别在图像中的边框四元组
Figure 505182DEST_PATH_IMAGE030
和其预测值
Figure DEST_PATH_IMAGE031
Figure 508910DEST_PATH_IMAGE032
范数来定义,
Figure DEST_PATH_IMAGE033
意味着回归损失函数只在目标真实标注框为行人正样本的情况下被激活,
Figure 28884DEST_PATH_IMAGE034
是一个损失平衡因子,表示行人目标分类损失和行人候选框回归损失的偏向大小;
再次,对生成的初始候选目标框进行筛选,各候选区域网络路径通过非极大值抑制操作来减少目标候选区域,各个候选区域路径选取分数排在前100个的行人候选区域。
对于步骤(4),跨尺度特征聚合模块主要由以下三个步骤完成,如图3所示:
(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵
Figure 485273DEST_PATH_IMAGE006
,生成注意力增强后的视觉语义特征
Figure 850527DEST_PATH_IMAGE007
,假定不同尺度特征层输出特征
Figure DEST_PATH_IMAGE035
,将其进行卷积核为
Figure 443182DEST_PATH_IMAGE036
的降维和下采样为
Figure DEST_PATH_IMAGE037
,并将其特征维度重写为
Figure 134058DEST_PATH_IMAGE038
,
Figure DEST_PATH_IMAGE039
;通道注意力矩阵
Figure 343322DEST_PATH_IMAGE006
定义为:
Figure 512266DEST_PATH_IMAGE040
其中,
Figure DEST_PATH_IMAGE041
表示
Figure 225007DEST_PATH_IMAGE038
的转置矩阵;
经过通道注意力增强后的视觉语义特征
Figure 680260DEST_PATH_IMAGE007
定义为:
Figure DEST_PATH_IMAGE043
其中,
Figure 252186DEST_PATH_IMAGE044
是离线训练的尺度超参数,初始化为0,这样加权融合了通道注意力特征和原始尺度的卷积特征,以突出相应尺度的特征语义信息;
步骤(42)为聚合相邻卷积特征层上有效特征信息,设计一种相邻尺度特征聚合模块(如图3所示),通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的卷积层特征
Figure 221892DEST_PATH_IMAGE007
通过加权融合
方式进行特征聚合,形成含有丰富语义信息的视觉强化特征
Figure 789139DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE045
其中,
Figure 680872DEST_PATH_IMAGE046
表示自下而上低层特征通过平均池化操作的连接,
Figure DEST_PATH_IMAGE047
表示自上而下高层特征通过双线性插值的上采样连接,
Figure 740095DEST_PATH_IMAGE048
表示
Figure 375476DEST_PATH_IMAGE036
卷积核;
步骤(43)为发挥相邻卷积特征层在视觉语义上的互补性,根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉强化特征
Figure 407017DEST_PATH_IMAGE007
为基础,通过跨尺度特征聚合模块融合相邻特征层形成特征金字塔
Figure 469651DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE053
其中,
Figure 281749DEST_PATH_IMAGE054
的特征生成不需要经过高层特征的上采样,因为本实施例采用的残差卷积神经网络模型ResNet50只经过了5次下采样,故特征层
Figure 720820DEST_PATH_IMAGE054
不需要上采样操作。
对于步骤(5),基于步骤(3)根据不同分辨率的特征层生成不同尺度候选目标的有效性,使用步骤(4)跨尺度聚合特征层来处理不同尺度的候选目标区域;多分支行人检测分为多尺度特征提取和目标检测两个部分,具体实现过程如下:
步骤(51)、在步骤(4)不同尺度特征聚合增强后的特征金字塔
Figure 872447DEST_PATH_IMAGE009
上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔
Figure 105982DEST_PATH_IMAGE009
进行特征提取,
在跨尺度特征聚合后的特征金字塔
Figure DEST_PATH_IMAGE055
上提取不同尺度行人特征,为统一特征维度,本实施例把各层金字塔特征对应的候选区域通过最大池化方式提取
Figure 874218DEST_PATH_IMAGE056
的特征分辨率,并使用两个全连接层将特征映射到1024维,以输入到行人检测的分类和回归任务中;
步骤(52)、将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率,
对于不同尺度集的候选区域使用对应的检测分支,每个分支使用各自的损失函数,实现对不同尺度目标的并行检测,在多路径行人候选区域推荐网络的基础上,根据行人目标尺度对应于
Figure 851402DEST_PATH_IMAGE055
注意力增强后聚合特征的有效性,设计了基于尺度感知的多任务损失函数,具体的,基于行人目标尺度从多路径行人候选区域推荐网络中自适应选择的卷积特征层,并从训练数据中学习多任务损失函数对不同尺度目标在不同的卷积神经网络特征层上的权重参数,有效地融合不同尺度目标在不同特征层上的多任务损失,生成行人目标的候选框区域,以获取行人目标的较高召回率,本实施例所述基于尺度感知的多任务损失函数定义为:
Figure 982169DEST_PATH_IMAGE058
Figure 386605DEST_PATH_IMAGE060
Figure 376558DEST_PATH_IMAGE062
其中M表示步骤(4)中注意力增强的特征金字塔
Figure 891853DEST_PATH_IMAGE055
的层数,分别
应于步骤(3)多路径行人候选区域推荐网络的路径数量,本实施例中M取值为3,表示在不同空间分辨率下的行人训练数据集,
Figure DEST_PATH_IMAGE063
表示不同空间分辨率下的行人目标在相应卷积特征层上损失函数
Figure 283651DEST_PATH_IMAGE064
的尺度感知权重,其值是根据Gaussian函数求取;本实施例根据行人目标尺度在深度残差神经网络ResNet-50的不同卷积特征层上为行人目标像素高度在ResNet-50上
Figure DEST_PATH_IMAGE065
的高度平均值取值分别为
Figure 124568DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
Figure 882045DEST_PATH_IMAGE068
,其对应的行人目标高度覆盖范围取值为
Figure DEST_PATH_IMAGE069
Figure 466610DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
对于步骤(6),将步骤(5)不同尺度聚合特征层上的检测结果做非极大值抑制处理,针对不同尺度的目标区域使用相应的非极大值抑制阈值处理,对于最后产生的结果再次经行筛选,具体实现过程如下:
步骤(61)由于上述不同分支网络模型的检测结果对应不同尺度的检测目标,因此使用动态非极大值抑制阈值对每个分支精细化检测结果,同时,由于不同尺度行人目标受背景因素影响的差异性,检测结果的置信度分布范围应不同,因此使用动态的置信度对检测结果进行筛选。
步骤(62)融合上述多分支行人检测的结果,由于不同分支检测结果可能存在交集,使用非极大值抑制方法解决此问题。
以上公开的仅为本发明的具体实施例,根据本发明提供的技术思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。

Claims (6)

1.一种基于跨尺度特征增强的多分支行人检测方法,其特征在于,通过以下步骤实现:
(1)为提高特征提取效率和候选框生成质量,将输入图像的空间分辨率按等比例采样并填充到某一空间分辨率;
(2)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的特征层得到深度卷积特征层;
(3)在深度卷积特征层上引入基于多路径的候选区域网络,根据不同深度卷积特征层的有效感受野大小在对应特征层上自适应地生成一系列针对特定目标尺度的候选区域集,以提高不同尺度行人目标的召回率;
(4)鉴于相邻卷积特征层在视觉语义上的互补性,在相邻卷积特征层上采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的卷积特征通过通道注意力机制增强视觉语义特征,聚合形成特征金字塔提高行人语义特征的表征能力;
(5)在步骤(4)跨尺度特征聚合后的特征金字塔上,根据步骤(3)多路径行人候选区域网络生成的行人候选区域集,训练生成具有尺度感知能力的多分支行人检测模型,其中各检测分支使用独立的损失函数进行联合学习,以最小化不同尺度行人的检测错误率;
(6)根据步骤(5)中训练生成的多分支行人检测模型,将不同分支预测的行人检测结果根据各分支检测的行人尺度特点进行非极大值抑制处理,筛选出疑似行人目标;再针对不同分支筛选出的疑似行人目标使用结合行人尺寸和置信度的动态自适应非极大值阈值进行后处理,以减少虚警检测,优化最终的行人检测结果。
2.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(1)具体包括如下步骤:
(11)将输入图像等比例缩放到统一宽度像素
Figure 940337DEST_PATH_IMAGE001
或者高度像素
Figure 713121DEST_PATH_IMAGE002
,提高候选框对应的特征提取效率;
(12)在图像缩放等比例缩放后,使用图像边界像素值对图像进行填充,使图像采样到同一空间分辨率
Figure 503091DEST_PATH_IMAGE003
以满足行人候选框区域与其特征相对齐。
3.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(2)具体包括如下步骤:
(21)加载在ImageNet分类数据集上预训练后生成的深度残差卷积神经网络模型ResNet50;
(22)将图像输入到深度残差卷积神经网络ResNet50中提取不同尺度下的深度卷积特征层
Figure 412141DEST_PATH_IMAGE004
4.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(3)具体包括如下步骤:
(31) 在深度卷积特征层
Figure 12887DEST_PATH_IMAGE005
上分别引入一个独立的候选区域生成候选区域网络,各候选区域网络路径根据不同卷积特征层的有效感受野大小与行人高度进行最佳匹配,将行人目标按照行人高度分配到不同的候选框生成路径中,以分别感知行人真实标注框的高度范围分别为[inf, 64]、[32, 256]、[128,inf]的候选区域,并生成长宽比例为1:1和2:1的行人初始候选框,其中inf表示在不同图像中行人目标像素高度可能存在的数量;
(32)不同特征层候选区域网络路径针对不同尺寸范围大小的行人候选框独立地开展行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归得到行人候选框;
(33)对各候选区域网络路径生成的行人候选框分别进行非极大值抑制,以生成不同尺度行人的最优候选区域集。
5.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(4)具体包括如下步骤:
(41)为增强不同尺度的特征信息,通过通道注意力机制强化不同层次特征,训练学习生成针对各特征层的加权融合矩阵
Figure 7387DEST_PATH_IMAGE006
,生成注意力增强后的视觉语义特征
Figure 351781DEST_PATH_IMAGE007
(42)采用跨尺度特征聚合模块,通过横向同层特征连接、自上而下高层特征连接和自下而上低层特征连接,将相邻尺度的注意力增强后的卷积层特征
Figure 115338DEST_PATH_IMAGE007
通过加权融合方式进行特征聚合,形成含有丰富语义信息的视觉强化特征
Figure 152564DEST_PATH_IMAGE008
(43)根据卷积神经网络各特征层感受野大小的差异,以通道注意力增强后的视觉强化特征
Figure 368782DEST_PATH_IMAGE007
为基础,逐层形成特征金字塔
Figure 267599DEST_PATH_IMAGE009
提高行人语义特征的表征能力。
6.根据权利要求1所述基于跨尺度特征增强的多分支行人检测方法,其特征在于,所述步骤(5)具体包括如下步骤:
(51)在特征金字塔
Figure 885662DEST_PATH_IMAGE009
上,以步骤(3)多路径行人候选区域网络生成的行人候选框为基础,在各特征层上分别选取以置信度为排序依据的前300个候选框,并对每个候选框区域对应的特征金字塔
Figure 93789DEST_PATH_IMAGE009
进行特征提取,训练生成多分支行人检测模型;
(52)将各分支提取的行人候选区域特征输入到对应分支的行人检测模型中,各检测分支使用独立的交叉熵损失函数进行行人类别与非行人类别的二分类训练,并只对包含真实行人标注框的区域进行边界框回归训练,最小化不同尺度行人的检测错误率。
CN202111516697.4A 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法 Active CN113920468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111516697.4A CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111516697.4A CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Publications (2)

Publication Number Publication Date
CN113920468A true CN113920468A (zh) 2022-01-11
CN113920468B CN113920468B (zh) 2022-03-15

Family

ID=79249025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111516697.4A Active CN113920468B (zh) 2021-12-13 2021-12-13 一种基于跨尺度特征增强的多分支行人检测方法

Country Status (1)

Country Link
CN (1) CN113920468B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639171A (zh) * 2022-05-18 2022-06-17 松立控股集团股份有限公司 一种停车场全景安全监控方法
CN115082902A (zh) * 2022-07-22 2022-09-20 松立控股集团股份有限公司 一种基于激光雷达点云的车辆目标检测方法
CN115375677A (zh) * 2022-10-24 2022-11-22 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108867B1 (en) * 2017-04-25 2018-10-23 Uber Technologies, Inc. Image-based pedestrian detection
CN109522958A (zh) * 2018-11-16 2019-03-26 中山大学 基于跨尺度特征融合的深度卷积神经网络目标检测方法
CN110781744A (zh) * 2019-09-23 2020-02-11 杭州电子科技大学 一种基于多层次特征融合的小尺度行人检测方法
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111860693A (zh) * 2020-07-31 2020-10-30 元神科技(杭州)有限公司 一种轻量级视觉目标检测方法及系统
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
FR3103938A1 (fr) * 2019-12-03 2021-06-04 Idemia Identity & Security France Procédé de détection d’au moins un élément d’intérêt visible dans une image d’entrée au moyen d’un réseau de neurones à convolution
CN113743521A (zh) * 2021-09-10 2021-12-03 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108867B1 (en) * 2017-04-25 2018-10-23 Uber Technologies, Inc. Image-based pedestrian detection
CN109522958A (zh) * 2018-11-16 2019-03-26 中山大学 基于跨尺度特征融合的深度卷积神经网络目标检测方法
CN110781744A (zh) * 2019-09-23 2020-02-11 杭州电子科技大学 一种基于多层次特征融合的小尺度行人检测方法
FR3103938A1 (fr) * 2019-12-03 2021-06-04 Idemia Identity & Security France Procédé de détection d’au moins un élément d’intérêt visible dans une image d’entrée au moyen d’un réseau de neurones à convolution
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111914917A (zh) * 2020-07-22 2020-11-10 西安建筑科技大学 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN111860693A (zh) * 2020-07-31 2020-10-30 元神科技(杭州)有限公司 一种轻量级视觉目标检测方法及系统
CN112446308A (zh) * 2020-11-16 2021-03-05 北京科技大学 基于语义增强的多尺度特征金字塔融合的行人检测方法
CN113743521A (zh) * 2021-09-10 2021-12-03 中国科学院软件研究所 一种基于多尺度上下文感知的目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINJUN WANG 等: "Multi-scale pedestrian detection based on self-attention and adaptively spatial feature fusion", 《IET INTELLIGENT TRANSPORT SYSTEMS》 *
XIAOTAO SHAO 等: "Multi-Scale Feature Pyramid Network: A Heavily Occluded Pedestrian Detection Network Based on ResNet", 《SENSORS》 *
史晨晨 等: "基于改进特征金字塔的目标检测", 《电子测量技术》 *
李佐龙 等: "多尺度特征融合重建的行人检测方法", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639171A (zh) * 2022-05-18 2022-06-17 松立控股集团股份有限公司 一种停车场全景安全监控方法
CN114639171B (zh) * 2022-05-18 2022-07-29 松立控股集团股份有限公司 一种停车场全景安全监控方法
CN115082902A (zh) * 2022-07-22 2022-09-20 松立控股集团股份有限公司 一种基于激光雷达点云的车辆目标检测方法
CN115082902B (zh) * 2022-07-22 2022-11-11 松立控股集团股份有限公司 一种基于激光雷达点云的车辆目标检测方法
CN115375677A (zh) * 2022-10-24 2022-11-22 山东省计算中心(国家超级计算济南中心) 基于多路径和多尺度特征融合的酒瓶缺陷检测方法及系统

Also Published As

Publication number Publication date
CN113920468B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN108961235B (zh) 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN110363182B (zh) 基于深度学习的车道线检测方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN110738697A (zh) 基于深度学习的单目深度估计方法
CN111444939B (zh) 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法
CN111008633B (zh) 一种基于注意力机制的车牌字符分割方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN116612292A (zh) 一种基于深度学习的小目标检测方法
CN115620141A (zh) 一种基于加权可变形卷积目标检测方法和装置
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
Fan et al. A novel sonar target detection and classification algorithm
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN112365451A (zh) 图像质量等级的确定方法、装置、设备及计算机可读介质
CN109284752A (zh) 一种车辆的快速检测方法
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN113344005B (zh) 一种基于优化小尺度特征的图像边缘检测方法
CN111476226A (zh) 一种文本定位方法、装置及模型训练方法
CN114283431B (zh) 一种基于可微分二值化的文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant