CN114202774A - 密集行人检测方法 - Google Patents

密集行人检测方法 Download PDF

Info

Publication number
CN114202774A
CN114202774A CN202111512063.1A CN202111512063A CN114202774A CN 114202774 A CN114202774 A CN 114202774A CN 202111512063 A CN202111512063 A CN 202111512063A CN 114202774 A CN114202774 A CN 114202774A
Authority
CN
China
Prior art keywords
prediction
pedestrian
frame
density
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111512063.1A
Other languages
English (en)
Inventor
高尚
王一帆
卢湖川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Weishi Technology Co ltd
Dalian University of Technology
Ningbo Research Institute of Dalian University of Technology
Original Assignee
Dalian Weishi Technology Co ltd
Ningbo Research Institute of Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Weishi Technology Co ltd, Ningbo Research Institute of Dalian University of Technology filed Critical Dalian Weishi Technology Co ltd
Priority to CN202111512063.1A priority Critical patent/CN114202774A/zh
Publication of CN114202774A publication Critical patent/CN114202774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种密集行人检测方法。在网络训练阶段,搭建卷积神经网络,训练编码器解码器及检测头部预测正确的行人包围框;并根据预测结果,为每个行人分配一个最佳的预测候选框;固定密度估计头部外的其他网络参数,使用每个行人唯一的预测候选框生成密度目标,训练密度估计头部;最后放开网络所有参数,联合训练整个网络。在测试应用阶段,在进行后处理时,每选定一个确定保留的行人框,则在这张预测密度图上减去对应位置的高斯激活图,对于那些与该被保留行人重叠率大于阈值的行人框,利用更新后的密度图对这些行人框进行二次判断。本发明在密集场景下,解决了通用的非极大值抑制方法会误删的正确预测的包围框的问题,同时也不影响非密集场景的表现。

Description

密集行人检测方法
技术领域
本发明属于图像行人检测技术领域,用于解决检测器后处理阶段常用的非极大值抑制方法,在行人密集情况下,误删正确预测候选框,而导致整体召回率偏低的问题。
背景技术
行人检测是一项非常有挑战的计算机视觉任务,并且作为核心模块被广泛应用于各种计算机视觉系统中。虽然在近些年行人检测技术取得了显著的进步,由于实际应用的情况下,经常出现的遮挡状况,密集状况下的行人检测还是一个十分具有挑战性的任务。
近些年,基于卷积神经网络的方法在行人检测领域取得了绝对的优势地位,精度远高于采用手工设计特征所得到的结果。基于深度卷积神经网络的行人检测器大多基于通用物体检测的经典的深度学习算法,如Ren等人在2015年NeurIPS会议文章Faster r-cnn:Towards real-time object detection with region proposal中提出的Faster R-CNN算法,Tian等人在2019年ICCV会议文章Fcos:Fully convolutional one-stage objectdetection中提出的Fcos算法,并在这些框架上针对行人的特点,及公共场景中行人的密集特性提出针对性的改进方案。这些工作主体可分为两类:
第一类是改进候选框提取阶段,包括改进网络结构而获得更好的行人特征进行后续的候选框分类和回归;设计针对性的损失函数辅助网络训练,提升网络输出的准确性和鲁棒性。Zhang等人在2018年ECCV文章Occlusion-aware R-CNN:Detecting Pedestriansin a Crowd上提出OR-CNN网络,对每个候选框提取5个关键的部位特征进行打分,最后聚合多个非遮挡部位得分得到最后的候选框得分。Pang等人在2019年ICCV会议Mask-GuidedAttention Network for Occluded Pedestrian Detection上提出的MGAN网络通过注意力自网络提取人体前景部位特征进行候选框分类。Wang等人在2018年CVPR会议上提出的Repulsion Loss:Detecting Pedestrians in a Crowd通过推开属于不同行人的预测框来解决密集情况下,预测框出现在两个行人中间的情况。
第二类是改进冗余候选框的后处理过程。尽管第一类方法显著提高了候选框的准确率与召回率,但是由于这些方法对每一个行人会预测多个候选框,仍然需要后处理过程来去除多余的预测,对每个行人只保留一个预测框。广泛使用的非极大值抑制方法在行人检测中会出现高阈值效果差而低阈值在密集情况下会误删本来正确预测的包围框。Liu等人在2019年CVPR文章Adaptive NMS:Refining Pedestrian Detection in a Crowd提出AdaptiveNMS方法,对每个包围框预测一个密度变量,根据密度自适应的决定当前包围框非极大值抑制使用的阈值。但是由于没有对高阈值抑制的位置做出限制,仍然会导致冗余的预测。Xie等人在2020年ECCV会议提出的CountandSimilarity-Aware R-CNN forPedestrian Detection方法和Zhang等人在2021年IEEE Transactions on Multimedia期刊文章Attribute-Aware Pedestrian Detection in a Crowd提出的APD方法在非极大值抑制时不但考虑了位置重叠率和密度,还引入了相似度比较,只有在低相似度时才对高重叠率包围框进行保留。这种方法取得了很好的提升,但是这种方法和人的判别机制还是有不同,人可以不通过比较相似度而区分两个行人是否为同一个行人,在行人外观比较相似的场景中(比如校园或工厂中人们服装相同)这种方法可能会失效。
基于以上的考虑,我们的专利提出了一个完全基于密度和重叠率的方法,而且解决了AdaptiveNMS方法中对与冗余位置信息的缺失。
发明内容
本发明要解决的技术问题是:在密集场景中,即使检测器检测到了正确的行人目标,在使用非极大值抑制进行后处理时,由于目标重叠率太大,正常使用的低阈值会抑制掉本来需要保留的目标。简单的调高阈值会使得本该被抑制的重复样本被保留下来,导致准确率下降;使用自适应的非极大值抑制可以在密集区域提高阈值,而在简单场景使用低阈值,但是这样的做法无法区分密集行人存在的具体位置,导致在密集情况下,依旧会有很多假的正样本被保留。
本发明的技术方案是:相比于自适应非极大值抑制,我们重新定义了密度为同一张图像上所有真值框生成的高斯激活图在对应位置的求和,并在网络训练时让网络学会预测该密度图。在进行后处理时,每选定一个确定保留的行人框,则在这张预测密度图上减去对应位置的高斯激活图,对于那些与该被保留行人重叠率大于阈值的行人框,我们利用更新后的密度图对这些行人框进行二次判断,如该框对应的高斯激活图能更好的重构密度图,则保留;反之,则舍弃。具体步骤如下:
(1)网络训练阶段
我们的网络结构如图1所示,我们的方法基于单阶段目标检测算法CenterNet,检测器头部如图2所示,该方法的检测头部有三个输出分支,分别为预测目标的中心点响应即为预测框得分、目标精确位置相对于输出网格位置的偏移量以及目标的宽和高;
图3为我们提出的密度估计分支,理想状态下密度的定义为同一张图像上所有真值框生成的高斯激活图在对应位置的求和。而在测试阶段,我们需要将预测的候选框与密度图相对应,所以这里,我们定义密度图的真值为与每个行人包围框最为匹配的预测候选框生成的高斯激活图在对应位置的求和。定义最匹配的势能矩阵为:
Figure BDA0003395717310000041
其中Qi,π(i)∈[0,1]表示第i个真值与第π(i)个预测候选框的匹配能量。Ωi表示所有预测候选框的集合。第一项表示空间先验,只有在包围框内部的点的值为1;第二项为预测得分的置信度;第三项为预测候选框与真值包围框的重叠率。α表示重叠率在能量函数中的比重,使用匈牙利算法得到每个真值的最佳匹配预测候选框:
Figure BDA0003395717310000042
其中G表示真值包围框的数量,N为预测候选框的数量。
由于需要从较好的预测中计算密度的真值,我们采用了分阶段训练的方法:先固定密度估计分支,先训练编码器解码器及检测头部。再固定密度估计分支外其他的参数,对密度估计分支训练。最后放开所有参数联合训练。
(2)测试阶段
将图片输入网络,得到四项输出,分别为得分激活图,预测框的高和宽,实际中心点相对于预测输出网格的细微偏移量以及密度预测图Hm。通过前三项可以计算得到预测候选框,筛选得分大于0.05的每张图2000个得分最高的候选框,得到预测候选框集合
Figure BDA0003395717310000051
,以及对应的得分
Figure BDA0003395717310000052
设置非极大值抑制的阈值为Nt
初始化输出预测候选框
Figure BDA00033957173100000512
为空集;
Figure BDA00033957173100000513
中选出最大的一个,得到序号m;更新Hm=Hm-Gauss(bm),其中Gauss(bm)为候选框bm生成的高斯激活图;更新
Figure BDA0003395717310000053
对所有
Figure BDA0003395717310000054
,如果iou(bm,bi)>Nt,计算
Figure BDA0003395717310000055
,如果
Figure BDA0003395717310000056
则更新
Figure BDA0003395717310000057
Figure BDA0003395717310000058
其中Norm()为矩阵的二范数。
循环上一步骤直到
Figure BDA0003395717310000059
为空集;输出
Figure BDA00033957173100000510
Figure BDA00033957173100000511
本发明的效果和益处是,它解决了AdaptiveNMS方法中对与冗余位置信息的缺失,可以减少假正样本。而且,由于它完全基于密度和重叠率的方法,更适用于行人密集并外观相似情况。
附图说明
图1是总体框架图。
图2是检测头部结构图。
图3是密度估计头部结构图。
图4每一列代表一个应用实例;(a)-1和(a)-2是原始图像;(b)-1和(b)-2是标准非极大值抑制后得到的预测框结果图;(c)-1和(c)-2是使用了我们提出的密度估计非极大值抑制后得到的预测框结果图;(d)-1和(d)-2是密度图可视化图。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
步骤1:准备训练数据集,训练数据集可以为已有的大型密集行人检测数据集CrowdHuman,也可以是特定的自主构建的数据集。如为自主构建数据集,需要标注包围行人整个身体的包围框,即行人左上和右下位置的坐标。有了训练数据,则可读取包围框真值构建检测头部的训练使用的标签,进行训练。
按照图1所示搭建卷积神经网络,基于单阶段目标检测算法CenterNet,主干网络使用dla-34;检测器头部如图2所示,该方法的检测头部有三个输出分支,分别预测目标的中心点响应(预测框得分),目标精确位置相对于输出网格位置的偏移量,和目标的宽和高;密度估计头部结构如图3所示,由一个可形变卷积和3个卷积模块串联构成。
步骤2:固定密度估计头部参数,训练其余部分直到收敛;其中,热度图估计部分使用中心惩罚降低的聚焦损失函数训练,尺度估计和偏移量估计分支使用平滑的1-范数损失函数训练。
步骤3:由检测头部输出计算预测框和对应的得分。按照公式(1)计算预测框与真值框匹配能量矩阵Qi,π(i),使用匈牙利算法求解公式(2),得到每个真值框对应的最匹配的预测框。
步骤4:利用上一步得到的与真值框唯一匹配的预测框和对应得分,以预测框为中心,以1/6预测框的宽和高为标准差,构建二维高斯激活图,在预测框对应位置叠加得到密度图的训练真值标签。
步骤5:固定编码器解码器部分和检测头部,使用二范数损失函数单独训练密度估计头部参数,直到收敛。
步骤6:放开所有参数,联合训练整个网络,直到收敛。
步骤7:测试应用阶段,将一张图片输入网络,得到四项输出,分别为得分激活图Hs,预测框的高H和宽W,实际中心点相对于预测输出网格的细微偏移量ox,oy以及密度预测图Hm
步骤8:通过前三项可以计算得到预测候选框,对于网络输出的某一位置(xc,y_c),该位置的预测框得分为Hs(xc,yc),包围框位置bi=(x1,y1,x2,y2)计算方式如下:
x1=(xc-0.5*W(xc,yc)+ox)×r
y1=(yc-0.5*H(xc,yc)+oy)×r
x2=(xc+0.5*W(xc,yc)+ox)×r
y2=(yc+0.5*H(xc,yc)+oy)×r
其中,r为网络输入相对于输出大小的比率,筛选得分大于0.05的2000个得分最高的候选框,得到预测候选框集合
Figure BDA0003395717310000071
,以及对应的得分
Figure BDA0003395717310000072
设置非极大值抑制的阈值为Nt
步骤9:初始化输出预测候选框
Figure BDA0003395717310000073
为空集;
步骤10:从
Figure BDA0003395717310000074
中选出最大的一个,得到序号k;更新Hm=Hm-Gauss(bk),其中Gauss(bk)为候选框bk生成的高斯激活图;更新
Figure BDA0003395717310000075
步骤11:对所有
Figure BDA00033957173100000712
,如果iou(bk,bi)>Nt,计算
Figure BDA0003395717310000076
如果
Figure BDA0003395717310000077
则更新
Figure BDA0003395717310000078
其中Norm()为矩阵的二范数。
步骤12:循环步骤10和步骤11直到
Figure BDA0003395717310000079
为空集;输出
Figure BDA00033957173100000710
Figure BDA00033957173100000711

Claims (1)

1.一种密集行人检测方法,其特征在于,步骤如下:
步骤1:基于大型密集行人检测数据集CrowdHuman,读取包围框真值,构建检测头部训练使用的标签;
搭建卷积神经网络,基于单阶段目标检测算法CenterNet,该方法的检测头部有三个输出分支,分别为预测目标的中心点响应即为预测框得分、目标精确位置相对于输出网格位置的偏移量以及目标的宽和高;
步骤2:固定密度估计头部参数,训练其余部分直到收敛;
步骤3:由检测头部的输出计算预测框
Figure FDA0003395717300000011
和对应的得分
Figure FDA0003395717300000012
按照公式(1)计算第i个真值与第π(i)个预测候选框的匹配能量Qi,π(i);其中Ωi表示所有预测候选框的集合,
Figure FDA0003395717300000013
表示预测框置信度,IoU(·,·)表示两个包围框的重叠度,α∈[0,1]为匹配能量函数中预测框质量所占比重;使用匈牙利算法求解公式(2),得到真值框与预测框的最优匹配
Figure FDA0003395717300000014
Figure FDA0003395717300000015
Figure FDA0003395717300000016
步骤4:利用上一步得到的与真值框唯一匹配的预测框和其对应得分,以预测框为中心,以1/6预测框的宽和高为标准差,构建二维高斯激活图,在预测框对应位置叠加得到密度图的训练真值;
步骤5:固定编码器解码器部分和检测头部,使用二范数损失函数单独训练密度估计头部参数,直到收敛;
步骤6:放开所有参数,联合训练整个卷积神经网络,直到收敛;
步骤7:测试应用阶段,将图片输入卷积神经网络,得到四项输出,分别为得分激活图,预测框的高和宽,实际中心点相对于预测输出网格的细微偏移量以及密度预测图Hm
步骤8:通过步骤7的前三项计算得到预测候选框,每张图筛选得分大于0.05的2000个得分最高的候选框,得到预测候选框集合
Figure FDA0003395717300000021
以及对应的得分
Figure FDA0003395717300000022
设置非极大值抑制的阈值为Nt
步骤9:初始化输出预测候选框
Figure FDA0003395717300000023
为空集;
步骤10:从
Figure FDA0003395717300000024
中选出最大的一个,得到序号k;更新Hm=Hm-Gauss(bk),其中,Gauss(bk)为候选框bk生成的高斯激活图;更新
Figure FDA0003395717300000025
步骤11:对所有
Figure FDA0003395717300000026
如果iou(bk,bi)>Nt,计算
Figure FDA0003395717300000027
如果
Figure FDA0003395717300000028
则更新
Figure FDA0003395717300000029
其中Norm()为矩阵的二范数;
步骤12:循环步骤10和步骤11直到
Figure FDA00033957173000000210
为空集;输出
Figure FDA00033957173000000211
Figure FDA00033957173000000212
CN202111512063.1A 2021-12-07 2021-12-07 密集行人检测方法 Pending CN114202774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111512063.1A CN114202774A (zh) 2021-12-07 2021-12-07 密集行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111512063.1A CN114202774A (zh) 2021-12-07 2021-12-07 密集行人检测方法

Publications (1)

Publication Number Publication Date
CN114202774A true CN114202774A (zh) 2022-03-18

Family

ID=80652594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111512063.1A Pending CN114202774A (zh) 2021-12-07 2021-12-07 密集行人检测方法

Country Status (1)

Country Link
CN (1) CN114202774A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876968A (zh) * 2024-03-11 2024-04-12 盛视科技股份有限公司 联合多目标的密集行人检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876968A (zh) * 2024-03-11 2024-04-12 盛视科技股份有限公司 联合多目标的密集行人检测方法
CN117876968B (zh) * 2024-03-11 2024-05-28 盛视科技股份有限公司 联合多目标的密集行人检测方法

Similar Documents

Publication Publication Date Title
Wang et al. Adaptive fusion for RGB-D salient object detection
Huang et al. A novel nonlocal-aware pyramid and multiscale multitask refinement detector for object detection in remote sensing images
Shami et al. People counting in dense crowd images using sparse head detections
Kamencay et al. Improved Depth Map Estimation from Stereo Images Based on Hybrid Method.
CN111797716A (zh) 一种基于Siamese网络的单目标跟踪方法
CN114863097B (zh) 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
Angelov et al. An approach to automatic real‐time novelty detection, object identification, and tracking in video streams based on recursive density estimation and evolving Takagi–Sugeno fuzzy systems
Erdem et al. Video object tracking with feedback of performance measures
KR20160091786A (ko) 사용자 관리 방법 및 사용자 관리 장치
CN104933417A (zh) 一种基于稀疏时空特征的行为识别方法
Chen et al. Multitarget tracking in nonoverlapping cameras using a reference set
Tang et al. Multiple-kernel adaptive segmentation and tracking (MAST) for robust object tracking
El-Ghaish et al. Human action recognition based on integrating body pose, part shape, and motion
GB2409029A (en) Face detection
CN116311384A (zh) 基于中间模态和表征学习的跨模态行人重识别方法、装置
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
Panda et al. An end to end encoder-decoder network with multi-scale feature pulling for detecting local changes from video scene
Lin et al. Multi-motion segmentation via co-attention-induced heterogeneous model fitting
CN114202774A (zh) 密集行人检测方法
Lv et al. Key frame extraction for sports training based on improved deep learning
CN117132922A (zh) 图像识别方法、装置、设备及存储介质
CN116453192A (zh) 一种基于分块的自注意力遮挡人脸识别方法
Liu et al. [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video
KR102639179B1 (ko) 딥러닝 네트워크의 불확실도 판단방법
Zhang et al. PMVC: Promoting Multi-View Consistency for 3D Scene Reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220816

Address after: 116024 No. 2 Ling Road, Ganjingzi District, Liaoning, Dalian

Applicant after: DALIAN University OF TECHNOLOGY

Applicant after: Ningbo Research Institute of Dalian University of Technology

Applicant after: Dalian Weishi Technology Co.,Ltd.

Address before: No.26 Yucai Road, Jiangbei District, Ningbo City, Zhejiang Province

Applicant before: Ningbo Research Institute of Dalian University of Technology

Applicant before: Dalian Weishi Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220826

Address after: No.26 Yucai Road, Jiangbei District, Ningbo City, Zhejiang Province

Applicant after: Ningbo Research Institute of Dalian University of Technology

Applicant after: Dalian Weishi Technology Co.,Ltd.

Applicant after: DALIAN University OF TECHNOLOGY

Address before: 116024 No. 2 Ling Road, Ganjingzi District, Liaoning, Dalian

Applicant before: DALIAN University OF TECHNOLOGY

Applicant before: Ningbo Research Institute of Dalian University of Technology

Applicant before: Dalian Weishi Technology Co.,Ltd.