CN113191204B - 一种多尺度遮挡行人检测方法及系统 - Google Patents
一种多尺度遮挡行人检测方法及系统 Download PDFInfo
- Publication number
- CN113191204B CN113191204B CN202110372771.3A CN202110372771A CN113191204B CN 113191204 B CN113191204 B CN 113191204B CN 202110372771 A CN202110372771 A CN 202110372771A CN 113191204 B CN113191204 B CN 113191204B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- detection
- module
- detection result
- body detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 507
- 230000000903 blocking effect Effects 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012216 screening Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 26
- 238000012805 post-processing Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 2
- 238000012549 training Methods 0.000 description 19
- 238000012795 verification Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000036544 posture Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- LKJPSUCKSLORMF-UHFFFAOYSA-N Monolinuron Chemical compound CON(C)C(=O)NC1=CC=C(Cl)C=C1 LKJPSUCKSLORMF-UHFFFAOYSA-N 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多尺度遮挡行人检测方法和系统,将行人头部检测模型与行人全身检测模型相结合,通过可信IoU阈值构建待定全身检测结果集,并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选,提升了密集场景下的行人检出率。采用多个单分辨率并行子网络和多个多尺度特征融合模块来构建特征提取网络,提升了特征提取网络输出特征的质量和信息完备性。在通道连结多个子网络输出特征后,使用通道选取模块进一步聚合了语义相关的特征通道,为后续多尺度目标的中心点预测、尺度预测和偏置预测任务提供了更良好和更精准的特征信息。
Description
技术领域
本发明属于计算机视觉图像处理领域,更具体地,涉及一种多尺度遮挡行人检测方法及系统。
背景技术
行人检测是计算机视觉领域中一种非常重要而又相当具有挑战性的热点问题。行人检测同目标检测一样,目的是在图像或视频中判断是否存在行人目标以及精准确定目标位置。
虽然目标检测技术已经发展得相对成熟,但由于行人目标具有各种尺度、姿态以及遮挡情况,再加上不同自然环境、摄像机设置、拍摄角度等因素的影响,一般的目标检测器很难完美适用于行人检测问题。然而在现实生活中,行人检测在车辆辅助驾驶系统、智能交通、人群监控等领域中的实际应用,不仅能够帮助解决许多社会安全问题,还能在一定程度上解放人力资源,实现自动化。因此,即使在行人检测算法研究的道路上困难重重,还是有众多学者、机构、公司为其广大的应用发展前景而前赴后继,努力找到一种更好的方法,使得行人检测器能够更有效地应用在现实生活与生产中。
目前大多行人检测器都是在两阶段检测算法Faster R-CNN网络基础上针对特定问题进行改进,但近年来兴起的无锚检测器凭借其结构简单、检测效果佳、扩展性强、鲁棒性好等优势在行人检测乃至目标检测领域得到了迅速的发展。CSP(Center and ScalePrediction,中心点和尺度预测)是一个基于密集预测的典型无锚检测器,它利用CNN高度的抽象能力,以更高层的语义特征点(目标中心点和目标宽高属性)来代替低层视觉特征点(感兴趣区域、角点、极值点等)进行检测。
虽然与一般基于深度学习的检测器相比,CSP打破了手工设置固定大小、纵横比锚框的限制,减少了超参数限制带来的泛化性能丢失,同时缓解了背景干扰过多、正负样本不均衡等问题,但对于多尺度行人检测和密集场景中行人遮挡等难点问题,该检测器还是存在较大的改进空间。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种多尺度遮挡行人检测方法及系统,以减少密集场景下多尺度遮挡行人的错检和漏检。
为实现上述目的,按照本发明的一个方面,提供了一种多尺度遮挡行人检测方法,包括:
S1:将待检测图像分别输入行人全身检测模型和行人头部检测模型,得到全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立;
S2:取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集;
S3:逐一判断待定检测结果是否具有匹配的头部检测结果,若是,则将所述待定检测结果返回至全身检测结果集,返回步骤S3,直至全身检测结果集为空集;若否,返回步骤S3,直至全身检测结果集为空集。
优选地,所述逐一判断待定检测结果是否具有匹配的头部检测结果,具体为:
将头部检测结果按照预设比例转化为虚拟全身检测结果,计算待定检测结果与未被匹配的各虚拟全身检测结果的IoU值,若各IoU值中的最大值大于匹配IoU阈值,且所述待定检测结果与所述最大值对应的虚拟全身检测结果的宽值间距与高值间距之和小于匹配间距阈值,则所述待定检测结果有匹配的头部检测框。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图,基于所述待检测图像的特征图,获取全身检测框和头部检测框的中心点、高度和中心点偏置量;对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框,并对所述全身检测候选框和头部检测候选框进行NMS后处理,得到全身检测结果和头部检测结果。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到n张分辨率不同的特征图,并将所述n张分辨率不同的特征图进行通道连结,得到所述待检测图像的特征图;其中,n为大于0的整数。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图之后,还包括:
将所述待检测图像的特征图F进行降维得到矩阵M,将矩阵M与转置矩阵M`相乘,并进行softmax变换得到方阵N,将所述方阵N与矩阵M相乘,并进行维度还原得到张量F`,将F`与F进行逐通道逐元素相加,得到张量E。
优选地,对所述全身检测候选框进行NMS后处理时所采用的IoU阈值大于对所述头部检测候选框进行NMS后处理时所采用的IoU阈值,且大于所述可信阈值。
按照本发明的另一方面,提供了一种多尺度遮挡行人检测系统,所述系统包括:输入模块、行人检测全身检测模型、行人头部检测模型、第一筛选模块与第二筛选模块;
所述输入模块用于将待检测图像分别输入行人全身检测模型和行人头部检测模型;所述行人全身检测模型和行人头部检测模型分别输出全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立;
所述第一筛选模块用于取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集;
所述第二筛选模块用于逐一判断待定检测结果是否具有匹配的头部检测结果,若是,则将所述待定检测结果返回至全身检测结果集,第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集,直至全身检测结果集为空集;若否,第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集,直至全身检测结果集为空集,直至全身检测结果集为空集。
优选地,所述行人全身检测模型和行人头部检测模型的特征提取模块均包括n条分支、特征融合模块和连结模块;
其中,第1,2,……,n条分支分别具有n,…2,1个阶段,每个阶段均包括卷积层和残差层,第1条分支的初始输入为待检测图像,其余分支的初始输入由对上一条分支在上一阶段的输出图像进行降采样得到;除第1分支的第1阶段,各分支的各阶段末尾都包含特征融合模块,用于融合相邻分支或跨分支的特征;
所述n条分支对待检测图像进行特征提取,输出n张分辨率不同的特征图,所述连结模块将所述n张分辨率不同的特征图进行通道连结,得到所述待检测图像的特征图。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
将行人头部检测模型与行人全身检测模型相结合,通过可信IoU阈值构建待定全身检测结果集,并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选,删除没有匹配头部检测结果的冗余全身检测结果,相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式,保留了具有匹配的头部检测结果的全身检测结果,从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果,也即尽可能地保留了更多的被遮挡的全身检测结果,提升了在密集场景中的行人检出率,大大改善了对遮挡行人的检测性能。
进一步地,在行人检测模型中,采用多个单分辨率并行子网络和多个多尺度特征融合模块来构建特征提取网络,通过多个并行子网络来保持不同的特征分辨率;通过多个特征融合模块对相邻层及跨层的上下文信息进行有效融合,从而提升了特征提取网络输出特征的质量和信息完备性,改善了多尺度行人检测性能。
进一步地,行人检测模型还包括通道选取模块,在通道连结多个子网络输出特征后,使用通道选取模块进一步聚合了语义相关的特征通道,从而强调了前景目标信息,弱化了背景信息干扰,为后续多尺度目标的中心点预测、尺度预测和偏置预测任务提供了更良好和更精准的特征信息。
附图说明
图1是本发明实施例提供的多尺度遮挡行人检测方法流程图之一;
图2是本发明实施例提供的多尺度遮挡行人检测方法流程图之二;
图3为本发明实施例提供的改进的特征提取网络的结构示意图之一;
图4为本发明实施例提供的改进的特征提取网络的结构示意图之二;
图5为本发明实施例提供的特征融合模块的结构示意图;
图6为本发明实施例提供的通道选取模块的结构示意图;
图7中的(a),(b)为原始CSP在CityPersons验证子集上的行人检测结果示意图;图7中的(c),(d)本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;
图8中的(a),(b)为本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;图8中的(c),(d)为本发明实施例提供的具有改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;
图9中的(a),(b)为本发明实施例提供的结合改进的特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;图9中的(c),(d)为本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;
图10为原始CSP、本发明实施例提供的具有改进特征提取网络的行人检测模型、本发明实施例提供的同时具有改进特征提取网络和通道选取模块的行人检测模型分别在Citypersons不同尺度行人验证子集上行人检测结果的平均对数误检率示意图;
图11为原始CSP、本发明实施例提供的行人检测方法分别在CityPersons不同遮挡程度的验证子集上行人检测结果的平均对数误检率示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种多尺度遮挡行人检测方法,如图1所示,所述方法包括:
S1:将待检测图像分别输入行人全身检测模型和行人头部检测模型,得到全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立。
具体地,CSP模型的结构包括:
(1)特征提取模块:与其他算法一样,CSP首先使用特征提取网络提取输入图片的特征图,该特征图被共享用于后续所有预测模块。
(2)中心点预测模块:该模块以行人标注中心点生成的高斯分布图作为目标,对特征图上各点进行逐像素地打分,得分越高的位置越有可能为某一行人边界框的中心点坐标。
(3)尺度预测模块:该模块以行人标注中心点和高度生成的掩膜图像作为目标,对特征图进行卷积回归操作,得到的预测图像中,每一像素点处的像素值均为该点可能存在目标的高度对数预测值。
(4)中心点偏置预测模块:该模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标,使用该模块得到的预测图像中各点像素值,可以对中心点预测模块得到的预测中心点坐标进行微调,减少图像缩放造成的量化误差,提高行人定位精度。
(5)检测框生成与后处理模块:根据中心点预测模块、尺度预测模块和中心点偏置预测模块的输出,可由几何计算得到原图中行人预测候选框的中心点坐标和宽高,进而得到该候选框的坐标;对这些候选框进行非极大值抑制操作,筛除冗余框,即可得到最终的行人检测框集合。
所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立。所述行人全身检测模型基于样本图像以及对应的全身检测框标签进行监督训练后得到,所述行人头部检测模型基于样本图像以及对应的头部检测框标签进行监督训练后得到。
如图1所示,所述行人检测模型包括行人全身检测模型和行人头部检测模型,均包括特征提取模块、中心点预测模块、中心点偏置预测模块、尺度预测模块和检测框生成与后处理模块。
所述行人全身检测模型基于待识别图像,生成并输出全身检测结果集;所述行人头部检测模型基于待识别图像,生成并输出头部检测结果集。
S2:取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU(Intersection Over Union,交并比)值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集;
具体地,置信度即中心点热图像素值。
S3:逐一判断待定检测结果是否具有匹配的头部检测结果,若是,则将所述待定检测结果返回至全身检测结果集,返回步骤S3,直至全身检测结果集为空集;若否,返回步骤S3,直至全身检测结果集为空集。
下面以一个具体的例子对步骤S2-S3进行举例说明:
将由行人全身检测模型得到的全身检测结果集合设为B={b0,b1,...,bn},将最终行人检测结果集合设为D={}(D初始为空集)。
第一步:选取B中置信度得分最高的框bk,从B中删除并直接放入D;
第二步:从B里剩下的全身检测框中,选取所有与bk之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`,假设B`={b0,b3,b4},并将{b0,b3,b4}从B中删除;
第三步:依次判断b0,b3,b4是否有头部框对应,若有,则将其放回到B中,否则将其彻底从B`中删除;
第四步:循环第一步到第三步,直到B为空集,最后得到的D即为最终行人检测结果。
本发明实施例提供的方法,将行人头部检测模型与行人全身检测模型相结合,通过可信IoU阈值构建待定全身检测结果集,并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选,删除没有匹配头部检测结果的冗余全身检测结果,相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式,保留了具有匹配的头部检测结果的全身检测结果,从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果,也即尽可能地保留了更多的被遮挡的全身检测结果,提升了在密集场景中的行人检出率,大大改善了对遮挡行人的检测性能。
优选地,所述逐一判断待定检测结果是否具有匹配的头部检测结果,具体为:
将头部检测结果按照预设比例转化为虚拟全身检测结果,计算待定检测结果与未被匹配的各虚拟全身检测结果的IoU值,若各IoU值中的最大值大于匹配IoU阈值,且所述待定检测结果与所述最大值对应的虚拟全身检测结果的宽值间距与高值间距之和小于匹配间距阈值,则所述待定检测结果有匹配的头部检测框。
具体地,将头部检测结果集中的所有头部检测框按比例转化为虚拟的全身检测框,以全身检测框和未被匹配的各虚拟全身检测框的IoU值衡量它们的位置匹配关系:若各IoU值中的最大值大于匹配IoU阈值,表示所述全身检测框与所述最大值对应的虚拟全身检测框满足位置匹配条件。
以虚拟全身检测框和全身检测框的宽值间距和高值间距之和L1_dis距离衡量它们的尺度匹配关系:
其中,bj表示第j个全身检测框,bfi表示第i个头部检测框转化而来的虚拟全身检测框);
当L1_dis小于匹配间距阈值时,表示它们满足尺度匹配条件。
当虚拟全身检测框bfi与全身检测框bj同时满足上述两个条件时,认为它们互相匹配。
本发明实施例提供的方法,根据头部检测框与全身检测框之间的IoU值、宽值间距和高值间距的对头部检测框与全身检测框进行匹配,并基于匹配结果对行人全身检测框结果进行进一步的过滤筛选,提升了在密集场景中的行人检出率,从而大大改善了对遮挡行人的检测性能。
优选地,所述可信阈值为0.5,所述匹配IoU阈值为0.5,所述匹配间距阈值为80。
下面以一个具体的例子对匹配和筛选过程进行进一步说明:
匹配过程:由行人全身检测模型和行人头部检测模型,分别得到行人全身检测结果集合和行人头部检测结果集合。将所述行人全身检测结果集合和行人头部检测结果集合进行一一匹配,匹配过程为:
(1)根据下式将头部预测框结果bhi=(x1i,y1i,x2i,y2i)按照比例转化为虚拟的全身框结果bfi=(x1'i,y1'i,x2'i,y2'i)(i=1,2,...,N);
(2)计算全身预测框集合B1×M中每一个全身框与虚拟全身框集合BF1×N中所有框的IoU,得到矩阵AM×N,A中元素aji代表bj与bfi之间的IoU。
(3)设定全身框匹配向量VF1×M和头部框匹配向量VH1×N,将它们的元素全部初始化为0;并对全身框集合B按照置信度进行排序。
(4)从B中选取置信度最大的全身框bj,若它未被匹配(也就是它在VF下标对应处元素为0),则将BF中还未被匹配(也就是其在VH中下标对应元素为0)的所有虚拟全身框取出组成一个子集BFres。
(5)根据IoU矩阵A,获得BFres中与bj之间IoU最大的虚拟全身框bfi。
(6)判断bj与bfi之间IoU是否大于匹配IoU阈值tnew_iou,若小于,则证明它们在位置上就不匹配;若大于,则进行下一步。
(8)若bj和bfi这两个框既满足IoU限制条件,又满足尺度的L1距离限制条件,则认为它们可以匹配,长度为N的匹配向量中第j个元素被置为1,即将VF和VH中对应的元素设置为1,并在B中删除bj,在BF中删除bfi。否则仅在B中删除bj。
(9)对B中剩余的全身框循环进行以上过程,直到B为空或者BF为空;
(10)返回全身框匹配结果VF1×M和头部框匹配结果VH1×N。
筛选过程:根据匹配结果对行人整体预测框进行最后筛选。结合全身框匹配结果VF1×M做最后一次筛选,筛选过程为:
(1)将全身检测结果集中的全身检测框按照置信度得分高低进行排序;
(2)计算全身检测框集合中每两个框之间的IoU,得到一个IoU方阵;
(3)选择置信度得分最高的全身框bm添加到最终行人检测结果集合中,并从全身检测结果集中将它(们)删除;
(4)从IoU方阵中获取上面选中的全身框bm与其他全身框之间的IoU,若某个全身框bn与bm之间IoU小于可信阈值,则将其保留在全身检测结果集中;若bn与bm之间IoU大于可信阈值,且在全身框匹配向量VF1×M中,bn对应元素为1,则也将bn保留在全身检测结果集中;若bn与bm之间IoU大于可信阈值,且在全身框匹配向量VF1×M中,bn对应元素为0,则将bn从全身检测结果集中删除。
(5)重复上面两个步骤,直到全身检测结果集为空,返回最终结果集合。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图,基于所述待检测图像的特征图,获取全身检测框和头部检测框的中心点、高度和中心点偏置量;对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框,并对所述全身检测候选框和头部检测候选框进行NMS后处理,得到全身检测结果集和头部检测结果集。
具体地,如图2所示,所述行人全身检测模型和行人头部检测模型的特征提取模块分别对所述待检测图像进行特征融合和特征提取,得到所述待检测图像的特征图F。
所述行人全身检测模型和行人头部检测模型的中心点预测模块、中心点偏置预测模块和尺度预测模块分别对所述待检测图像的特征图F进行处理,分别生成中心点热图、中心点偏置预测图和尺度预测图。
进一步地,中心点预测模块以行人标注中心点生成的高斯分布图作为目标,对特征图上各点进行逐像素地打分,得分越高的位置越有可能为某一行人边界框的中心点坐标。
在对所述中心点预测模块进行训练的过程中,中心点预测模块以所述待检测图像的特征图F作为输入,以目标边界框中心点生成的大小为的高斯图作为训练目标,使用形式的Focal Loss衡量该模块输出热图与目标之间的差异,其中Mx,y表示标注高斯图上某一点的对应像素值,px,y表示该模块预测得到的热图中对应的像素值。
进一步地,中心点偏置预测模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标,使用该模块得到的预测图像中各点像素值,可以对中心点预测模块得到的预测中心点坐标进行微调,减少图像缩放造成的量化误差,提高行人定位精度。
进一步地,尺度预测模块以行人标注中心点和高度生成的掩膜图像作为目标,对特征图进行卷积回归操作,得到的预测图像中,每一像素点处的像素值均为该点可能存在目标的高度对数预测值。
行人全身检测网络中的尺度预测模块以F作为输入,在大小为的图中,将中心点为边长为4的正方形范围内像素点值设为log(h),其他像素值均为0,则此掩膜图像即为尺度预测模块的回归目标,使用SmoothL1 loss计算该分支的损失值并进行梯度回传;其中,(xc,yc)为全身检测框的中心点坐标。类似地,行人头部检测网络的尺度预测模块行人全身检测网络中的尺度预测模块以F作为输入,在大小为的图中,将中心点为边长为2的正方形范围内像素点值设为log(h/3),其他像素值均为0,则此掩膜图像即为尺度预测模块的回归目标,使用SmoothL1loss计算该分支的损失值并进行梯度回传。
所述行人全身检测模型和行人头部检测模型的检测框生成与后处理模块对所述中心点热图、中心点偏置预测图和尺度预测图进行几何变换得到全身检测候选框和头部检测候选框,并对所述全身检测候选框和头部检测候选框进行NMS后处理,得到全身检测候选框和头部检测候选框。
进一步地,所述中心点预测模块、中心点偏置预测模块和尺度预测模块的输出,可由几何计算得到原图中检测候选框的中心点坐标和宽高,进而得到该候选框的坐标;对这些候选框进行非极大值抑制操作,筛除冗余框,即可得到最终的行人检测框集合。
进一步地,在预测框生成与后处理模块对中心点预测模块、尺度预测模块和中心点偏置预测模块这三个并行模块的输出结果几何变换得到检测候选框时,假设某边界框的高的预测值为h,则行人全身检测候选框的宽为0.41×h,行人头部检测候选框的宽为0.82×h。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到n张分辨率不同的特征图,并将所述n张分辨率不同的特征图进行通道连结,得到所述待检测图像的特征图;其中,n为大于0的整数。
所述特征提取模块为改进的特征提取网络,包括n条分支、特征融合模块和连结模块。
其中,第1,2,……,n条分支分别具有n,…2,1个阶段,每个阶段均包括卷积层和残差层,第1条分支的初始输入为待检测图像,其余分支的初始输入由对上一条分支在上一阶段的输出图像进行降采样得到;除第1分支的第1阶段,各分支的各阶段末尾都包含特征融合模块,用于融合相邻分支或跨分支的特征;
所述n条分支对待检测图像进行特征融合和特征提取,输出n张分辨率不同的特征图,所述连结模块将所述n张分辨率不同的特征图进行通道连结,得到所述待检测图像的特征图F。
具体地,所述连结模块所述n张分辨率不同的特征图先全部上采样到相同的分辨率大小,再进行通道连结。
优选地,n=4。当n=4时,如图3-4所示,所述改进的特征提取网络结构包括四条分支,即四个子网络;其中,第1分支包括4个阶段、第2分支包括3个阶段、第3分支包括2个阶段、第4分支包括1个阶段,每个阶段包含不同数量的BasicBlock或BottleNeck。
如图4所示,以第一分支为例,输入的特征图在第一阶段首先经过一个模块,该模块由4个BottleNeck组成,输出特征通道数为256;然后将第一阶段输出的特征图送入第二阶段,第二个阶段也仅有一个模块,该模块含4个输出通道数为C的BasicBlock;接着在第三阶段,特征依次通过四个模块,每个模块均由4个输出通道数为C的BasicBlock组成;最后的第四阶段包含三个同样结构的模块,输出的特征图。以此类推,第二、三、四条分支的输出结果分别为和大小的特征图。
优选地,BasicBlock可以由2个3×3的卷积块和残差连接组成;BottleNeck可以由首尾两个1×1的卷积块、中间一个3×3的卷积块以及残差连接组成,它们都是ResNet的主要组成部分。
第一子网络的初始输入为待识别图像经过第一条分支的初始输入是待检测图像经过卷积处理得到,可选地,所述卷积处理为2次卷积处理,分辨率为H/4*W/4。低层子网络的初始输入为上一层网络上一阶段输出经由降采样得到;可选地,所述降采样为步长为2的3×3卷积降采样。例如:第二子网络的初始输入为对第一子网络在第一阶段的输出进行步长为2的3×3卷积降采样得到,第三子网络的初始输入为对第二子网络在第二阶段的输出进行步长为2的3×3卷积降采样得到。
如图3所示,除第一分支第一阶段外,每个子网络的每个阶段末尾都包含一个特征融合模块,该模块不仅能够融合相邻层特征,还能跨层进行上下文信息融合。如图5所示,若在第i分支(i={1,2,3,4})的第j阶段(j={2,3,4})末尾进行特征融合,则需使用步长为2的3×3卷积对第i-1条分支(i-1≥1)第j阶段的特征Ni-1,j进行一次下采样得到N'i-1,j,对第i+1条分支(i+1≤4)第j阶段的特征Ni+1,j进行一次双线性插值和一次1×1卷积得到N'i+1,j,最后将大小相同的N'i-1,j、Ni,j和N'i+1,j逐通道逐元素的相加,得到融合后特征N'i,j,即可作为第i分支第j+1阶段(j+1≤4)的输入;若涉及到跨层特征融合,则需将第i-k分支(i-k≥1)第j阶段的特征Ni-k,j进行k次下采样操作,将第i+k分支(i+k≤4)第j阶段的特征Ni+k,j进行k次上采样操作,才能与Ni,j融合得到N'i,j。
进一步地,以ImageNet数据集作为预训练数据集,训练样本为物体图片,标签是物体类别,训练结合了多个并行子网络和多个多尺度特征融合模块的特征提取网络,得到的模型参数将被用作行人头部检测模型和行人全身检测模型训练的初始化。
本发明实施例提供的方法,通过采用改进的特征提取网络,不仅可以保持适合小尺度行人检测的高分辨率特征图,还能获取到适合大尺度行人检测、具有高级语义信息的低分辨率特征图,同时利用深度融合的机制,使不同尺度信息充分融合、相互补充,使得该网络提取到的特征更适用于多尺度行人的检测,使得检测器对多尺度行人,尤其是小尺度行人的检测性能大大提升。
优选地,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图之后,还包括:
将所述待检测图像的特征图F进行降维得到矩阵M,将矩阵M与转置矩阵M`相乘,并进行softmax变换得到方阵N,将所述方阵N与矩阵M相乘,并进行维度还原得到张量F`,将F`与所述待检测图像的特征图F进行逐通道逐元素相加,得到张量E。
具体地,将大小为特征图F输入至通道选取模块,如图6所示,在通道选取模块中,特征图F首先被降维成A×C的矩阵M,其中然后对M与它的转置M'进行矩阵乘法,并经过一次softmax得到C×C的方阵N,该方阵刻画了通道特征间的关系——N中每个元素Nj,i表示第j个通道的特征Fj对第i个通道特征Fi的影响,其计算方式为:
接着将所述方阵N与矩阵M相乘,得到A×C大小的矩阵,然后进行维度还原得到张量F',大小为将张量F`与所述待检测图像的特征图F进行逐通道逐元素相加,即得到通道选取模块的输出E。特征图F经过通道选取模块后,输出大小不变。
进一步地,将通道选取模块输出特征E经由一个3×3的卷积,将通道由480缩减为256,然后同时送入中心点预测模块、尺度预测模块和中心点偏置预测模块,即可得到图中行人的预测中心点、高度和中心点偏置量,最后即可进行预测候选框的生成和后处理,得到最终的行人全身/头部检测框集合。
本发明提供的方法,采用通道选取模块对所述待检测图像的特征图进行进一步处理,利用其自适应加权融合各通道特征的优势,可以在全局层面进一步聚合语义相关的通道特征,以强调行人前景特征、弱化无关背景干扰,进而获取更加精确的特征输出,从而使用于后续各预测模块的特征更加精准,增强了行人检测模型对行人和非行人的辨别能力。
优选地,对所述全身检测候选框进行NMS后处理时所采用的IoU阈值大于对所述头部检测候选框进行NMS后处理时所采用的IoU阈值,且大于所述可信阈值。
优选地,对所述全身检测候选框进行NMS后处理时,采用的IoU阈值为0.7;对所述头部检测候选框进行NMS后处理时,采用的IoU阈值为0.4,可信阈值为0.5。
具体地,在行人全身检测网络中,候选框的宽高比为0.41,NMS后处理时IoU阈值为0.7;在行人头部检测网络中,候选框的宽高比设为0.82,NMS后处理时IoU阈值设为0.4,所述可信阈值为0.5。
本发明实施例提供的方法,对行人全身检测候选框进行NMS后处理时,使用了较高的IoU阈值,目的是保留更多的重叠框,减少密集场景中相互遮挡的行人检测框的漏检,并通过初步的过滤降低后续结合头部的筛选过程的计算量。对行人头部检测候选框进行NMS后处理时,使用了较低的IoU阈值,这是基于行人头部不易被遮挡的实际情况做出的设置,目的是得到较为可靠的头部预测结果,从而保证后续结合头部的筛选结果质量。
使用CityPersons数据集的训练集对行人检测模型进行训练,训练过程中会对训练集进行一些数据增强操作,包括:随机水平翻转、随机裁剪以及对图像亮度、对比度和饱和度的随机干扰。行人全身检测模型的训练标注即为CityPersons训练集的原始标注,行人头部检测模型的训练标注则为按比例由CityPersons原始标注生成而来的头部标注。本发明实施例中设置行人头部框标注大小为其中h、w分别为行人全身标注框的宽和高,行人头部框标注中心点坐标为其中(xc,yc)为行人全身标注框中心点坐标。
本发明实施例设置的头部框标注大多包含了行人头部到肩部的整体轮廓,该轮廓具有行人特性,且不易随着光照、遮挡和行人姿态等发生巨大形变,因此使用该标注能够使行人头部检测模型得到更好的泛化性能。
以ImageNet数据集作为预训练数据集,得到的模型参数用作行人头部检测模型和行人全身检测模型训练的初始化,使用CityPersons数据集的训练集对行人头部检测模型和行人全身检测模型分别进行训练,训练过程中使用Adam作为优化器,设置batch size为4,用两块1080ti GPU循环训练240个epoch。
图7中的(a),(b)为原始CSP在CityPersons不同尺度验证子集上的行人检测结果示意图;图7中的(c),(d)本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图,其中的椭圆形标注表示原CSP的漏检行人。对比可知,利用全身检测框与头部检测框的匹配结果对行人全身检测框进行进一步的过滤筛选,可以在密集场景中尽可能保留更多的遮挡行人正确检测框,同时也能利用更低的IoU阈值减少密集场景下的错误检测。
图8中的(a),(b)为本发明实施例提供的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;图8中的(c),(d)为本发明实施例提供的结合改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图,其中的椭圆形标注表示原行人检测模型的漏检行人。对比可见,使用多个并行分支和多次多尺度特征融合,使得本发明的行人检测方法能够更全面地捕捉到各个尺度的行人目标,尤其是显著提高了小尺度目标的检出率。
图9中的(a),(b)为本发明实施例提供的结合改进特征提取网络的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图;图9中的(c),(d)为本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法在CityPersons不同尺度验证子集上的行人检测结果示意图,其中的椭圆形标注表示具有改进特征提取网络的行人检测模型的漏检行人。对比可见,通道选取模块能使网络更专注于行人前景特征,从而更精准地区分行人与非行人。
图10为原始CSP、本发明实施例提供的具有改进特征提取网络的行人检测方法、本发明实施例提供的同时结合改进特征提取网络和通道选取模块的行人检测方法分别在Citypersons不同尺度行人验证子集上行人检测结果的平均对数误检率示意图。其中,Reasonable为CityPersons数据集中最常用来评估算法性能的验证子集,该子集中仅包含高度在[50,+∞)范围内、可见程度在[0.65,+∞)范围内的行人边界框。Large为CityPersons数据集中尺寸较大的行人边界框集合,包含高度在[100,+∞)范围内、可见程度在[0.65,+∞)范围内的行人边界框;Medium为尺寸中等的行人边界框集合,包含高度在[75,100)范围内、可见程度在[0.65,+∞)范围内的行人边界框;Small为小尺度行人验证子集,包含高度在[50,75)范围内、可见程度在[0.65,+∞)范围内的行人边界框。如图10所示,采用本发明实施例提供的具有改进特征提取网络的行人检测模型,相较于原始的CSP模型,在不同尺度的行人验证子集上,平均对数误检率MR-2均有所降低;而同时具有改进特征提取网络和通道选取模块的行人检测模型,相较于仅具有改进特征提取网络的行人检测模型,在不同尺度的行人验证子集上,平均对数误检率MR-2均有进一步的降低,其中对小尺度行人的检测性能提升最为显著。
图11为原始CSP、本发明实施例提供的行人检测方法分别在CityPersons不同遮挡程度的验证子集上行人检测结果的平均对数误检率示意图。其中,Bare为被遮挡程度较低的行人边界框子集,其中的边界框高度均在[50,+∞)范围内、可视程度均在[0.9,1]范围内;Partial为被遮挡程度中等的行人边界框子集,其中的边界框高度均在[50,+∞)范围内、可视程度均在[0.65,0.9)范围内;Heavy为被遮挡较为严重的行人边界框子集,其中的边界框高度均在[50,+∞)范围内、可视程度均在[0,0.65范围内;Reasonable Heavy为Reasonable子集中遮挡较为严重的行人边界框子集,其中的边界框高度均在[50,+∞)范围内、可视程度均在[0.2,0.65)范围内。此外,GT表示对应子集中行人真实标注框的数量;TP表示检测器检测出来的正确行人边界框数量,其值越接近GT越好;FP表示检测器误认为是行人的错误预测框数量,其值越接近0越好;MR-2为行人检测领域中最常使用的评估指标,其值越小越好。如图11所示,本发明实施例提供的行人检测方法相较于原始CSP能够获得较低的MR-2,由此可见,本发明实施例提供的行人检测方法能够将误检率控制在一定范围内的情况下,降低密集场景下遮挡行人的漏检率。
下面对本发明提供的多尺度遮挡行人检测系统进行描述,下文描述的多尺度遮挡行人检测系统与上文描述的多尺度遮挡行人检测方法可相互对应参照。
本发明实施例提供一种多尺度遮挡行人检测系统,包括:输入模块、行人检测全身检测模型、行人头部检测模型和第一筛选模块与第二筛选模块;
所述输入模块用于将待检测图像分别输入行人全身检测模型和行人头部检测模型;所述行人全身检测模型和行人头部检测模型分别输出全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立;
所述第一筛选模块用于取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集;
所述第二筛选模块用于逐一判断待定检测结果是否具有匹配的头部检测结果,若是,则将所述待定检测结果返回至全身检测结果集,第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集,直至全身检测结果集为空集;若否,第一筛选模块继续取出置信度最高的全身检测结果作为最终检测结果,并将其作为参考对象,计算余下的全身检测结果与参考对象之间的IoU值,将IoU值大于可信阈值的全身检测结果取出构建为待定检测结果集,直至全身检测结果集为空集,直至全身检测结果集为空集。
本发明实施例提供的系统,将行人头部检测模型与行人全身检测模型相结合,通过可信IoU阈值构建待定全身检测结果集,并结合全身检测结果与头部检测结果的匹配情况对待定全身检测结果集再次进行筛选,删除没有匹配头部检测结果的冗余全身检测结果,相比较于现有技术中仅通过IoU阈值对单个CSP全身检测模型输出的全身检测结果集进行筛选得到最终检测结果的方式,保留了具有匹配的头部检测结果的全身检测结果,从而避免误删除与最终检测结果相隔较近但并非是冗余全身检测结果的全身检测结果,也即尽可能地保留了更多的被遮挡的全身检测结果,提升了在密集场景中的行人检出率,大大改善了对遮挡行人的检测性能。
优选地,所述行人全身检测模型和行人头部检测模型的特征提取模块均包括n条分支、特征融合模块和连结模块;
其中,第1,2,……,n条分支分别具有n,…2,1个阶段,每个阶段均包括卷积层和残差层,第1条分支的初始输入为待检测图像,其余分支的初始输入由对上一条分支在上一阶段的输出图像进行降采样得到;除第1分支的第1阶段,各分支的各阶段末尾都包含特征融合模块,用于融合相邻分支或跨分支的特征;
所述n条分支对待检测图像进行特征提取,输出n张分辨率不同的特征图,所述连结模块将所述n张分辨率不同的特征图进行通道连结,得到所述待检测图像的特征图。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种多尺度遮挡行人检测方法,其特征在于,所述方法包括:
S1:将待检测图像分别输入行人全身检测模型和行人头部检测模型,得到全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立;
S2:选取B中置信度得分最高的框bk,从B中删除并直接放入D;
其中,B为由行人全身检测模型得到的全身检测结果集合,D为最终行人检测结果集合,D={},D初始为空集;
S3:从B里剩下的全身检测框中,选取所有与bk之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`,并将B`中的元素从B中删除;
S4:依次判断B`中的各元素是否有头部框对应,若有,则将其放回到B中,否则将其彻底从B`中删除;
S5:循环S2到S4,直到B为空集,最后得到的D即为最终行人检测结果;
所述CSP模型包括特征提取模块、中心点预测模块、尺度预测模块、中心点偏置预测模块及检测框生成与后处理模块;所述特征提取模块使用特征提取网络提取输入图片的特征图,该特征图被共享用于中心点预测模块、尺度预测模块、中心点偏置预测模块;中心点预测模块以行人标注中心点生成的高斯分布图作为目标,对特征图上各点进行逐像素地打分,以获取行人检测框的中心点坐标;尺度预测模块以行人标注中心点和高度生成的掩膜图像作为目标,对特征图进行卷积回归操作,得到的预测图像中,每一像素点处的像素值均为该点可能存在目标的高度对数预测值;中心点偏置预测模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标,使用该模块得到的预测图像中各点像素值,对中心点预测模块得到的预测中心点坐标进行微调;检测框生成与后处理模块根据中心点预测模块、尺度预测模块和中心点偏置预测模块的输出,由几何计算得到原图中行人预测候选框的中心点坐标和宽高,进而得到该候选框的坐标;对这些候选框进行非极大值抑制操作,筛除冗余框,得到检测结果集。
2.如权利要求1所述的多尺度遮挡行人检测方法,其特征在于,所述判断B`中的各元素是否有头部框对应,具体为:
将头部检测结果按照预设比例转化为虚拟全身检测结果,计算待定检测结果与未被匹配的各虚拟全身检测结果的IoU值,若各IoU值中的最大值大于匹配IoU阈值,且所述待定检测结果与所述最大值对应的虚拟全身检测结果的宽值间距与高值间距之和小于匹配间距阈值,则所述待定检测结果有匹配的头部检测框。
3.如权利要求1所述的多尺度遮挡行人检测方法,其特征在于,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图,基于所述待检测图像的特征图,获取全身检测框和头部检测框的中心点、高度和中心点偏置量;对所述全身检测框和头部检测框的中心点、高度和中心点偏置量进行几何变换得到全身检测候选框和头部检测候选框,并对所述全身检测候选框和头部检测候选框进行NMS后处理,得到全身检测结果和头部检测结果。
4.如权利要求3所述的多尺度遮挡行人检测方法,其特征在于,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到n张分辨率不同的特征图,并将所述n张分辨率不同的特征图进行通道连接,得到所述待检测图像的特征图;其中,n为大于0的整数。
5.如权利要求4所述的多尺度遮挡行人检测方法,其特征在于,所述行人全身检测模型和行人头部检测模型分别对所述待检测图像进行特征提取,得到所述待检测图像的特征图之后,还包括:
将所述待检测图像的特征图F进行降维得到矩阵M,将矩阵M与转置矩阵M`相乘,并进行softmax变换得到方阵N,将所述方阵N与矩阵M相乘,并进行维度还原得到张量F`,将F`与F进行逐通道逐元素相加,得到张量E。
6.如权利要求3所述的多尺度遮挡行人检测方法,其特征在于,对所述全身检测候选框进行NMS后处理时所采用的IoU阈值大于对所述头部检测候选框进行NMS后处理时所采用的IoU阈值,且大于所述可信阈值。
7.一种多尺度遮挡行人检测系统,其特征在于,所述系统包括:输入模块、行人检测全身检测模型、行人头部检测模型、第一筛选模块与第二筛选模块、循环模块;
所述输入模块用于将待检测图像分别输入行人全身检测模型和行人头部检测模型;所述行人全身检测模型和行人头部检测模型分别输出全身检测结果集和头部检测结果集;其中,所述行人全身检测模型和行人头部检测模型均基于训练好的CSP模型建立;
所述第一筛选模块用于选取B中置信度得分最高的框bk,从B中删除并直接放入D;从B里剩下的全身检测框中,选取所有与bk之间IoU值大于可信阈值的全身检测框组成待定检测结果集合B`,并将B`中的元素从B中删除;其中,B为由行人全身检测模型得到的全身检测结果集合,D为最终行人检测结果集合,D={},D初始为空集;
所述第二筛选模块用于依次判断B`中的各元素是否有头部框对应,若有,则将其放回到B中,否则将其彻底从B`中删除;
循环模块,用于重复执行所述第一筛选模块、第二筛选模块的操作,直到B为空集,最后得到的D即为最终行人检测结果;
所述CSP模型包括特征提取模块、中心点预测模块、尺度预测模块、中心点偏置预测模块及检测框生成与后处理模块;所述特征提取模块使用特征提取网络提取输入图片的特征图,该特征图被共享用于中心点预测模块、尺度预测模块、中心点偏置预测模块;中心点预测模块以行人标注中心点生成的高斯分布图作为目标,对特征图上各点进行逐像素地打分,以获取行人检测框的中心点坐标;尺度预测模块以行人标注中心点和高度生成的掩膜图像作为目标,对特征图进行卷积回归操作,得到的预测图像中,每一像素点处的像素值均为该点可能存在目标的高度对数预测值;中心点偏置预测模块以原图中某点坐标和按比例放缩后该点映射坐标之间的差异为预测目标,使用该模块得到的预测图像中各点像素值,对中心点预测模块得到的预测中心点坐标进行微调;检测框生成与后处理模块根据中心点预测模块、尺度预测模块和中心点偏置预测模块的输出,由几何计算得到原图中行人预测候选框的中心点坐标和宽高,进而得到该候选框的坐标;对这些候选框进行非极大值抑制操作,筛除冗余框,得到检测结果集。
8.如权利要求7所述的多尺度遮挡行人检测系统,其特征在于,所述行人全身检测模型和行人头部检测模型的特征提取模块均包括n条分支、特征融合模块和连接模块;
其中,第1,2,……,n条分支分别具有n,…2,1个阶段,每个阶段均包括卷积层和残差层,第1条分支的初始输入为待检测图像,其余分支的初始输入由对上一条分支在上一阶段的输出图像进行降采样得到;除第1分支的第1阶段,各分支的各阶段末尾都包含特征融合模块,用于融合相邻分支或跨分支的特征;
所述n条分支对待检测图像进行特征提取,输出n张分辨率不同的特征图,所述连接模块将所述n张分辨率不同的特征图进行通道连接,得到所述待检测图像的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372771.3A CN113191204B (zh) | 2021-04-07 | 2021-04-07 | 一种多尺度遮挡行人检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110372771.3A CN113191204B (zh) | 2021-04-07 | 2021-04-07 | 一种多尺度遮挡行人检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191204A CN113191204A (zh) | 2021-07-30 |
CN113191204B true CN113191204B (zh) | 2022-06-17 |
Family
ID=76975465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110372771.3A Expired - Fee Related CN113191204B (zh) | 2021-04-07 | 2021-04-07 | 一种多尺度遮挡行人检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191204B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565207B (zh) * | 2022-11-29 | 2023-04-07 | 武汉图科智能科技有限公司 | 一种融合特征模仿的遮挡场景下行人检测方法 |
CN115713731B (zh) * | 2023-01-10 | 2023-04-07 | 武汉图科智能科技有限公司 | 拥挤场景行人检测模型构建方法及拥挤场景行人检测方法 |
CN117876968B (zh) * | 2024-03-11 | 2024-05-28 | 盛视科技股份有限公司 | 联合多目标的密集行人检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN111310731A (zh) * | 2019-11-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频推荐方法、装置、设备及存储介质 |
CN112418117A (zh) * | 2020-11-27 | 2021-02-26 | 北京工商大学 | 一种基于无人机图像的小目标检测方法 |
CN112668432A (zh) * | 2020-12-22 | 2021-04-16 | 上海幻维数码创意科技股份有限公司 | 一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205B (zh) * | 2018-06-04 | 2019-06-14 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
US20210102197A1 (en) * | 2019-10-07 | 2021-04-08 | The Broad Institute, Inc. | Designing sensitive, specific, and optimally active binding molecules for diagnostics and therapeutics |
-
2021
- 2021-04-07 CN CN202110372771.3A patent/CN113191204B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815886A (zh) * | 2019-01-21 | 2019-05-28 | 南京邮电大学 | 一种基于改进YOLOv3的行人和车辆检测方法及系统 |
CN110909591A (zh) * | 2019-09-29 | 2020-03-24 | 浙江大学 | 用编码向量的行人图像检测自适应非极大值抑制处理方法 |
CN111310731A (zh) * | 2019-11-15 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频推荐方法、装置、设备及存储介质 |
CN112418117A (zh) * | 2020-11-27 | 2021-02-26 | 北京工商大学 | 一种基于无人机图像的小目标检测方法 |
CN112668432A (zh) * | 2020-12-22 | 2021-04-16 | 上海幻维数码创意科技股份有限公司 | 一种基于YoloV5和DeepSort的地面互动投影系统中人体检测跟踪方法 |
Non-Patent Citations (2)
Title |
---|
A Pedestrian Multiple Hypothesis Tracker Fusing Head and Body Detections;Jamie Sherrah等;《2013 International Conference on Digital Image Computing:Techniques and Applications(DICRA)》;20131231;第1-8页 * |
道路场景行人检测关键技术研究;徐哲炜;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20210115(第01期);第I138-205页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113191204A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902677B (zh) | 一种基于深度学习的车辆检测方法 | |
CN112884064B (zh) | 一种基于神经网络的目标检测与识别方法 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
Biasutti et al. | Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN112836713A (zh) | 基于图像无锚框检测的中尺度对流系统识别与追踪方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN114926747A (zh) | 一种基于多特征聚合与交互的遥感图像定向目标检测方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
García‐Aguilar et al. | Improved detection of small objects in road network sequences using CNN and super resolution | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN115100652A (zh) | 基于高分遥感图像的电子地图自动化生成方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN117115727A (zh) | 一种变电站缺陷判别方法及系统 | |
Ju et al. | An improved YOLO V3 for small vehicles detection in aerial images | |
Li et al. | Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module | |
CN113657225B (zh) | 一种目标检测方法 | |
Tian et al. | Unsupervised road anomaly detection with language anchors | |
Zhang et al. | CE-RetinaNet: A channel enhancement method for infrared wildlife detection in UAV images | |
CN113111740A (zh) | 一种遥感图像目标检测的特征编织方法 | |
Ke et al. | Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images | |
Sun et al. | Flame Image Detection Algorithm Based onComputer Vision. | |
CN116385876A (zh) | 基于yolox的光学遥感影像地物检测方法 | |
CN116129234A (zh) | 一种基于注意力的4d毫米波雷达与视觉的融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220617 |
|
CF01 | Termination of patent right due to non-payment of annual fee |