CN110909591B - 用编码向量的行人图像检测自适应非极大值抑制处理方法 - Google Patents

用编码向量的行人图像检测自适应非极大值抑制处理方法 Download PDF

Info

Publication number
CN110909591B
CN110909591B CN201910936327.2A CN201910936327A CN110909591B CN 110909591 B CN110909591 B CN 110909591B CN 201910936327 A CN201910936327 A CN 201910936327A CN 110909591 B CN110909591 B CN 110909591B
Authority
CN
China
Prior art keywords
detection
density
detection frame
vector
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910936327.2A
Other languages
English (en)
Other versions
CN110909591A (zh
Inventor
朱建科
张加良
杨雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910936327.2A priority Critical patent/CN110909591B/zh
Publication of CN110909591A publication Critical patent/CN110909591A/zh
Application granted granted Critical
Publication of CN110909591B publication Critical patent/CN110909591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用编码向量的行人图像检测自适应非极大值抑制处理方法。行人图像进行特征提取,获得多幅特征图,特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果。本发明方法通过神经网络模型学习检测框编码向量,具备表达行人检测框的密度信息与身份信息的能力,有效地解决了在行人检测中显著的行人相互遮挡问题。

Description

用编码向量的行人图像检测自适应非极大值抑制处理方法
技术领域
本发明涉及计算机视觉目标检测领域,设计了一种基于编码向量加入图像行人检测框密度信息和身份信息的行人图像检测自适应非极大值抑制算法
背景技术
行人检测是计算机视觉领域的一个重要分支,在自动驾驶、智能视频监控、智能机器人等领域有着重要的应用。由于行人姿态、体型、穿着的变化,自然场景下光线、环境的变化以及部分遮挡的问题使得行人检测仍旧是一个挑战。
行人检测作为目标检测的一个特定任务,其发展历程与目标检测具有一致性。一般地,可以将目标检测分为基于锚点的方法和最新的无锚点的检测方法。其中基于锚点的方法,如Faster-RCNN、SSD以及它们的变形在过去几年中占有主导地位;而无锚点的方法,如ComerNet、CenterNet、CSP展现了它们不错的结果以及灵活的结构设计。的探测器是基于无锚点的方法。
行人检测无锚点的算法思想是通过深度学习提取具有高级语义的特征。具体地,将行人检测中行人的中心点坐标和检测框的尺度(宽和高)作为高级语义特征,那么行人检测就完全可以转化为这些语义特征的检测。对于一张输入的图像,经过卷积神经网络分成中心点特征图和尺度特征图,计算得到中心点的坐标和检测框的尺度,即可检测出行人。
作为目标检测的特定任务,行人检测具有自身的特点,其中人群的遮挡问题是重要挑战之一。在最新的行人检测数据集CrowdHuman中,人群的密集水平变得很高,以RFB-Net为骨干的基于密度信息的自适应非极大值算法在此数据集上进行行人检测,丢失率从12.7%升高到了63.03%,可见拥挤环境下的行人检测是一个关键问题。
为了解决这个问题,目前有以下几种方法:1.采用恒定的非极大值抑制阈值,通过提出额外的损失来约束回归目标,以产生更紧凑的检测框,从而降低NMS 阈值的影响;2.采用软非极大值抑制,对检测框进行重新估分,对较差的框抑制其分数而不是直接过滤;3.采用自适应的非极大值抑制,通过一种估计检测框密度的方法,来自适应地设置NMS算法的阈值。
然而这些算法仍未能很好地解决拥挤环境下的行人检测问题,准确率仍有较大的提升空间。
发明内容
为了解决背景技术中存在的问题,本发明基于无锚点的行人检测算法,在 CSP(Centerand Scale Prediction)的基础上扩展了一个身份-密度分支,并提出了一种针对检测框抑制的自适应非极大值抑制算法,是一种结合考虑行人检测框的密度信息与身份信息的自适应非极大值抑制算法。
如图1所示,本发明采用的技术方案具体步骤如下:
1)行人图像进行特征提取,获得多幅特征图,一幅特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;
2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果。
本发明提出了的一种自适应的非极大值抑制算法,能够根据检测框的密度信息及检测框之间的距离信息,自适应地计算非极大值抑制的阈值,从而对多余的检测框进行抑制。
本发明进行检测框的抑制可以尽可能地抑制同一对象上的不同检测框,并保留不同对象上的检测框,极大地提高了行人检测的效果。
所述步骤1)具体分为两个阶段:
在模型训练阶段:
1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φdet
具体实施中,记输入行人图像的大小为W×H,使用DLA-34骨架网络作为特征提取模块进行特征提取,得到W/4×H/4的特征图φdet
1.2)输入的行人图像上存在真实矩形框(anchor box锚框),真实值为真实矩形框中点的坐标(xk,yk);特征图φdet的大小为输入的行人图像的1/4,对于输入行人图像上的第k个真实值(xk,yk),该真实值(xk,yk)在特征图φdet中位于坐标
Figure BDA0002221683680000021
处,取特征图φdet中位于特征提取后的真实值坐标
Figure BDA0002221683680000022
附近的四个整数位置像素点坐标作为四个正样本,即
Figure BDA0002221683680000023
Figure BDA0002221683680000024
后续对于每一个真实矩形框,真实矩形框是指用于训练的输入图片上已经标注每一个行人的正确矩形框,采用上述四个正样本用于损失函数的计算。
1.3)特征图φdet分别连接到四个次级特征处理模块进行处理,获得中心点特征图、尺度特征图、偏移量特征图(未在图1中画出)和身份-密度特征图,由此扩展出四个分支,每个次级特征处理模块均由两个卷积层依次连接构成。
所述的中心点特征图、尺度特征图、偏移量特征图为无锚点的检测框算法的常规操作。
中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框,四种特征图分别代表对应不同的检测框属性:中心点特征图上的每个像素点表示特征图φdet上对应的像素点为检测框的中心的置信度,即表示对应坐标为检测框中心的概率,尺度特征图上的每个像素点代表了以特征图φdet上对应相同位置的像素点为中心所建立的检测框的长和宽,偏移量特征图上的每个像素点代表了特征图φdet上对应像素点的坐标相对于原始输入图片上的坐标的偏移量;身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量,根据编码向量计算对应检测框的身份信息及密度信息。
1.4)利用损失函数进行网络训练;
在模型测试阶段
2.1)对输入的行人图像通过训练好的检测模型得到特征图φdet进而得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
具体实施中,记输入行人图像的大小为W×H,通过训练好的检测模型得到 W/4×H/4的特征图φdet与四张和φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
2.2)根据中心点特征图上每一个像素点代表一个检测框,每个点的值表示该点为检测框中心的置信度,对置信度过低的检测框进行过滤,获得所有候选检测框。
如图3所示,身份-密度特征图上的每个像素点代表一个检测框,针对每个检测框,建立一种长度为m的编码向量e,如图2所示,编码向量e表示三维坐标系上的一个点,编码向量e起点为原点,编码向量e的长度(即向量末端到原点的距离)表示密度信息,编码向量e的末端终点的坐标表示身份信息。即身份- 密度特征图中的每个像素点采用了一个长度为m的编码向量e表示,编码向量e包含有检测框的密度信息和身份信息。
若将两个检测框b1,b1的编码向量记作e1,e2,将e1,e2标准化为长度为1的编码向量
Figure BDA0002221683680000041
编码向量
Figure BDA0002221683680000042
之间的线段长度表征两个检测框b1,b1之间的距离,距离越大,则两个检测框b1,b1以越大概率属于不同的分类,以此来表示身份信息之间的差异。
如图3所示,取编码向量e的长度m=3为例进行说明。当m=3时,任意一个编码向量e都可以表示为以
Figure BDA0002221683680000043
为球心d为半径的球面上的一点。e1,e2分别是以 d1,d2为半径的球面上的点,取d1,d2的长度作为编码向量e1,e2对应检测框的密度值,即di=||ei||2。将编码向量进行标准化,即将向量标准化到以1为半径的球面上,那么球面上两个点的欧氏距离即可表示为两个编码向量的距离。
在图3中,
Figure BDA0002221683680000044
分别为编码向量e1,e2归一化后的值,于是编码向量e1,e2的距离可以表示为
Figure BDA0002221683680000045
即使当两个编码向量的密度信息很接近时,如e1,e2对应的密度d1,d2非常接近,身份信息对应的距离值仍可以很大,如图3中的dist(e1,e2)。
并且在网络模型优化训练时,建立和利用以下编码向量e的损失函数进行训练:
1)先建立编码向量e中密度信息的损失函数,通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示,密度真实值是指该真实矩形框与其他真是矩形框的最大重叠度(iou值):
Figure BDA0002221683680000046
其中,N表示真实矩形框的数量,Np表示每个真实矩形框的正样本数量, Np=4,ek,i表示第k个真实矩形框第i个正样本的编码向量,||ek,i||2表示L2 范数,dk为真实矩形框k的密度真实值;
2)本发明采用以下公式来表示编码向量e中身份信息的损失函数,分为拉 (pull)和推(push)两部分:
Figure BDA0002221683680000047
Figure BDA0002221683680000048
Figure BDA0002221683680000049
其中,Lpull表示每个真实矩形框与对应的四个正样本距离的子损失函数, Lpush表示每个检测框与其他检测框距离的子损失函数,
Figure BDA0002221683680000051
表示编码向量ek,i对应的单位向量,Δ表示判断两个检测框是否重合的阈值,在实际实验中取Δ=1, ek表示第k个真实矩形框四个正样本编码向量的均值,
Figure BDA0002221683680000052
表示编码向量ek对应的单位向量,
Figure BDA0002221683680000053
表示第j个检测框编码向量对应的单位向量;
3)编码向量e的损失函数LID表示为:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子损失函数Ldensity所占的权重比例;
将编码向量e的损失函数LID放入网络结构中进行训练得到身份-密度特征图 ID-Map。
所述步骤1.3)中,身份-密度特征图的次级特征处理模块是在特征提取模块之后连接一个有256个通道的3×3卷积核的卷积层,再连接一个有256个通道的1×1卷积核的卷积层获得身份-密度特征图(ID-Map);中心点特征图、尺度特征图、偏移量特征图的次级特征处理模块的卷积层结构参数均不同,且和身份-密度特征图的次级特征处理模块的卷积层结构参数不同。
所述步骤2)具体为:
将候选检测框(即特征图中的各个像素点所代表的检测框)全部放入集合
Figure BDA0002221683680000054
作为所有初始的检测框的集合,特征图中的各个像素点所代表的检测框是指由四种特征图完整包含组成了检测框的信息,同时建立一个空集
Figure BDA0002221683680000055
作为检测框的筛选结果集合,当集合
Figure BDA0002221683680000056
不等于空集时,执行以下循环:
2.1)从集合
Figure BDA0002221683680000057
中选取置信度最高对应的检测框,记为当前最优检测框
Figure BDA0002221683680000058
将当前最优检测框
Figure BDA0002221683680000059
从集合
Figure BDA00022216836800000510
中转移到集合
Figure BDA00022216836800000511
中;
2.2)计算集合
Figure BDA00022216836800000512
中剩余的每个检测框bi与当前最优检测框
Figure BDA00022216836800000513
的距离值
Figure BDA00022216836800000514
Figure BDA00022216836800000515
δt为预设的编码向量距离阈值,则取自适应阈值
Figure BDA00022216836800000516
Figure BDA00022216836800000517
为当前最优检测框
Figure BDA00022216836800000518
的编码向量e中的密度信息
Figure BDA00022216836800000519
max()表示取两者中的较大者,否则取自适应阈值
Figure BDA00022216836800000520
Nt为固定预设的非极大值抑制值;
2.3)最后比较每个检测框bi与当前最优检测框
Figure BDA00022216836800000521
的重叠度(iou值)与重叠度阈值
Figure BDA00022216836800000522
之间大小,若重叠度(iou值)大于重叠度阈值
Figure BDA00022216836800000523
则将检测框bi从集合
Figure BDA00022216836800000524
中删去,同时将检测框bi对应的置信度si从置信度集合
Figure BDA00022216836800000525
中删去,否则保留检测框bi
2.4)以最后获得筛选结果集合中的检测框作为行人图像中的行人检测结果。
本发明中,对于每个检测框建立了一个长度为m的编码向量e,编码向量e同时表示检测框的密度信息和身份信息,其中根据检测框的身份信息计算不同检测框之间的距离值,通过编码向量e自适应地计算非极大值抑制的阈值;同时建立编码向量e关于密度信息和身份信息的损失函数,利用损失函数对网络进行训练处理。
本发明的基本步骤是对输入图像进行特征提取得到特征图,在特征图后接四个分支,用于对特征图上的每一个点预测一个检测框,分别为中心点分支、尺度分支、偏移量分支,以及本发明提出的身份-密度分支。根据这四个分支得到的特征图,使用非极大值抑制算法对多余的检测框进行抑制,得到最终的检测框作为输出。
本发明方法通过神经网络模型学习检测框编码向量,使得该编码向量同时具备表达行人检测框的密度信息与身份信息的能力,进而利用该编码向量设计了自适应非极大值抑制的后处理算法,有效地解决了在行人检测中显著的行人相互遮挡问题。
本发明与背景技术相比,具有更有益的效果:
本发明建立了编码向量,在编码向量中加入图像行人检测框密度信息和身份信息,利用身份信息和密度信息来自适应地调整非极大值抑制后处理算法的阈值。与传统的选择单一阈值的非极大值抑制算法相比,引入该编码向量后的自适应非极大值抑制算法可以更好的进行拥挤人群中的行人检测框抑制。方法在行人检测数据集CityPersons和CrowdHuman上取得了最先进的结果,能有效地提高在拥挤场景下行人检测的结果。
附图说明
图1为本发明的实现流程图。
图2为使用编码向量e来表示检测框密度信息和身份信息的直观示意图。
图3为自适应的非极大值抑制算法ID-NMS的伪代码。
图4为当前最先进的算计以及本发明在数据集CityPersons上的实验结果对比图。
图5为当前最先进的算计以及本发明在数据集CrowdHuman上的实验结果对比图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清晰、详细、完整的描述。
本发明的实施例如下:
以CityPersons数据集为例。
在模型训练阶段:
1.1)输入大小为640×1280的图片,使用DLA-34网络进行特征提取,得到大小为160×320的特征图φdet
1.2)对每个原始图像上的真实矩形框计算特征图φdet上的正样本,如原始图像上的第k个真实矩形框中心点坐标为(xk,yk),那么在特征图φdet中真实值变为
Figure BDA0002221683680000071
可能为非整数值,于是取该
Figure BDA0002221683680000072
附近的四个整数坐标作为新的真实值,即
Figure BDA0002221683680000073
因此对于每一个真实值,都存在4个正样本用于损失函数的计算。
1.3)在特征图φdet后连接四个分支(分别为中心点分支、尺度分支、偏移量分支以及身份-密度分支),每个分支分别连接一个256通道的3×3卷积核,以及一个1×1的卷积核,分别设置损失函数,其中身份-密度分支的损失函数为发明方法步骤3)中的LID。根据以上网络结构及损失函数即可训练出各个分支的特征图,得到中心点特征图、尺度特征图、偏移量特征图,以及本发明提出的身份-密度特征图。
其中中心点特征图上的每个值表示特征图φdet上对应的点为检测框的中心的概率;尺度特征图为特征图φdet上对应的点所对应的检测框的长和宽;由于特征图φdet相对于原始图片尺寸减小,真实值具有信息损失,
因此使用偏移量特征图来表示真实值的偏移量;身份-密度特征图表示特征图φdet上每个点对应的编码向量,根据编码向量可以计算对应检测框的身份信息及密度信息。
在本例中,取编码向量的长度m=4,因此身份-密度特征图维度是4。
1.4)利用发明内容定义的损失函数进行网络训练。
在测试阶段:
2.1)输入一张大小为[640×1280](测试阶段输入大小是1024x2048)的图片,利用训练好的网络模型进行前向传播,得到大小为[160×320](256×512) 的特征图φdet。网络继续前向传播得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图。
2.2)根据各个特征图上的特征信息,使用本发明提出的基于身份和密度信息的非极大值抑制算法对多余的检测框进行抑制。在算法中,
Figure BDA00022216836800000829
表示预处理后初始的检测框的集合,在本例中特征图φdet的大小为[160×320](256×512),为了提高NMS算法的效率,首先使用一个置信度阈值对中心点特征图对应的所有检测框进行过滤,在本例中取阈值=0.05,过滤后剩余的检测框组成集合
Figure BDA0002221683680000081
Figure BDA0002221683680000082
表示
Figure BDA0002221683680000083
中每个检测框对应的置信度分数的集合,即中心点特征图上的值;ε表示所有检测框的编码向量;
Figure BDA0002221683680000084
表示每个检测框的密度值,可通过计算对应编码向量的 L2范式得到;δt为编码向量的距离阈值,本例中取δt=0.9,Nt为固定的NMS 阈值,本例中取Nt=0.5,
Figure BDA0002221683680000085
用于表示最终选取的检测框的集合。
在本发明的非极大值抑制算法中,先将
Figure BDA0002221683680000086
置为空集,当集合
Figure BDA0002221683680000087
非空时执行以下循环:从
Figure BDA0002221683680000088
中选取
Figure BDA0002221683680000089
中最高分数对应的检测框,记为
Figure BDA00022216836800000810
将检测框
Figure BDA00022216836800000811
并入集合
Figure BDA00022216836800000812
并将
Figure BDA00022216836800000813
从集合
Figure BDA00022216836800000814
中删去。计算
Figure BDA00022216836800000815
中剩余每个检测框bi与检测框
Figure BDA00022216836800000816
的距离值
Figure BDA00022216836800000817
Figure BDA00022216836800000818
则取自适应阈值
Figure BDA00022216836800000819
为检测框
Figure BDA00022216836800000820
的密度;否则
Figure BDA00022216836800000821
最后比较检测框bi与检测框
Figure BDA00022216836800000822
的iou值与阈值
Figure BDA00022216836800000823
的大小,若
Figure BDA00022216836800000824
大于阈值则将检测框bi
Figure BDA00022216836800000825
中删去,同时将对应的分数si
Figure BDA00022216836800000826
中删去,否则保留bi
最后得到的
Figure BDA00022216836800000827
就是保留下来的检测框的集合,
Figure BDA00022216836800000828
为对应的检测框的置信度。
为验证本发明,在本领域已公开的具有挑战的行人检测数据集CityPersons 和CrowdHuman上进行设计实验。CityPersons数据集是在CityScapes数据集的基础上进行标注的,因其多样性而具有挑战。使用官方训练集2975张图片进行训练,各500张图片进行验证和测试。CrowdHuman数据集最近常用于拥挤场景下的行人检测任务,该数据集中图片的行人拥挤程度远大于CityPersons。这个数据集分别使用15000、4370、5000张图片用于训练、验证以及测试。实验采用标准的评价标准——对数平均漏检率(log-average Miss-Rate,LAMR)和误检数(False Positive Per Image,FPPI)来评价行人检测的结果。
图4、图5分别为当前最先进的方法以及本发明在CityPersons及 CrowdHuman数据集上的结果,由此可以看到本发明的结果与其他方法相比有较大的优势。

Claims (2)

1.一种用编码向量的行人图像检测自适应非极大值抑制处理方法,其特征在于:
1)行人图像进行特征提取,获得多幅特征图,特征图中包含有身份信息和密度信息,进而通过网络模型处理获得候选检测框;
2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理,优化获得行人目标的检测框作为检测结果;
所述步骤1)具体分为两个阶段:
在模型训练阶段:
1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φdet
1.2)输入的行人图像上存在真实矩形框,真实值为真实矩形框中点的坐标(xk,yk);特征图φdet的大小为输入的行人图像的1/4,对于输入行人图像上的第k个真实值(xk,yk),该真实值(xk,yk)在特征图φdet中位于坐标
Figure FDA0003562347500000011
处,取特征图φdet中位于特征提取后的真实值坐标
Figure FDA0003562347500000012
附近的四个整数位置像素点坐标作为四个正样本;
1.3)特征图φdet分别连接到四个次级特征处理模块进行处理,获得中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图,每个次级特征处理模块均由两个卷积层依次连接构成;
中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框,四种特征图分别代表对应不同的检测框属性:中心点特征图上的每个像素点表示特征图φdet上对应的像素点为检测框的中心的置信度,尺度特征图上的每个像素点代表了以特征图φdet上对应相同位置的像素点为中心所建立的检测框的长和宽,偏移量特征图上的每个像素点代表了特征图φdet上对应像素点的坐标相对于原始输入图片上的坐标的偏移量;身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量;
1.4)利用损失函数进行网络训练;
在模型测试阶段:
2.1)对输入的行人图像通过训练好的检测模型得到特征图φdet进而得到四张与φdet同等大小的中心点特征图、尺度特征图、偏移量特征图,以及身份-密度特征图;
2.2)根据中心点特征图上每一个像素点代表一个检测框,每个点的值表示该点为检测框中心的置信度,对置信度过低的检测框进行过滤,获得所有候选检测框;
针对每个检测框,建立一种长度为m的编码向量e,编码向量e起点为原点,编码向量e的长度表示密度信息,编码向量e的末端终点的坐标表示身份信息;并且在网络模型优化训练时,建立和利用以下编码向量e的损失函数进行训练:
1)先建立编码向量e中密度信息的损失函数,通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示,密度真实值是指该真实矩形框与其他真实矩形框的最大重叠度:
Figure FDA0003562347500000021
其中,N表示真实矩形框的数量,Np表示每个真实矩形框的正样本数量,Np=4,ek,i表示第k个真实矩形框第i个正样本的编码向量,||ek,i||2表示L2范数,dk为真实矩形框k的密度真实值;
2)采用以下公式来表示编码向量e中身份信息的损失函数,分为拉pull和推push两部分:
Figure FDA0003562347500000022
Figure FDA0003562347500000023
Figure FDA0003562347500000024
其中,Lpull表示每个真实矩形框与对应的四个正样本距离的子损失函数,Lpush表示每个检测框与其他检测框距离的子损失函数,
Figure FDA0003562347500000025
表示编码向量ek,i对应的单位向量,Δ表示判断两个检测框是否重合的阈值,ek表示第k个真实矩形框四个正样本编码向量的均值,
Figure FDA0003562347500000026
表示编码向量ek对应的单位向量,
Figure FDA0003562347500000027
表示第j个检测框编码向量对应的单位向量;
3)编码向量e的损失函数LID表示为:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子损失函数Ldensity所占的权重比例;
最后将编码向量e的损失函数LID放入网络结构中进行训练得到身份-密度特征图ID-Map;
所述步骤2)具体为:
将候选检测框全部放入集合
Figure FDA0003562347500000031
作为所有初始的检测框的集合,同时建立一个空集
Figure FDA0003562347500000032
作为检测框的筛选结果集合,当集合
Figure FDA0003562347500000033
不等于空集时,执行以下循环:
2.1)从集合
Figure FDA0003562347500000034
中选取置信度最高对应的检测框,记为当前最优检测框
Figure FDA0003562347500000035
将当前最优检测框
Figure FDA0003562347500000036
从集合
Figure FDA0003562347500000037
中转移到集合
Figure FDA0003562347500000038
中;
2.2)计算集合
Figure FDA0003562347500000039
和剩余的每个检测框bi与当前最优检测框
Figure FDA00035623475000000310
的距离值
Figure FDA00035623475000000311
Figure FDA00035623475000000312
δt为预设的编码向量距离阈值,则取自适应重叠度阈值
Figure FDA00035623475000000313
Figure FDA00035623475000000314
为当前最优检测框
Figure FDA00035623475000000315
的编码向量e中的密度信息
Figure FDA00035623475000000316
max()表示取两者中的较大者,否则取自适应重叠度阈值
Figure FDA00035623475000000317
Nt为固定预设的非极大值抑制值;
2.3)最后比较每个检测框bi与当前最优检测框
Figure FDA00035623475000000318
的重叠度与自适应重叠度阈值
Figure FDA00035623475000000319
之间大小,若重叠度大于自适应重叠度阈值
Figure FDA00035623475000000320
则将检测框bi从集合
Figure FDA00035623475000000321
中删去,否则保留检测框bi
2.4)以最后获得筛选结果集合中的检测框作为行人图像中的行人检测结果。
2.根据权利要求1所述的一种用编码向量的行人图像检测自适应非极大值抑制处理方法,其特征在于:所述步骤1.3)中,身份-密度特征图的次级特征处理模块是在特征提取模块之后连接一个有256个通道的3×3卷积核的卷积层,再连接一个有256个通道的1×1卷积核的卷积层获得身份-密度特征图。
CN201910936327.2A 2019-09-29 2019-09-29 用编码向量的行人图像检测自适应非极大值抑制处理方法 Active CN110909591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910936327.2A CN110909591B (zh) 2019-09-29 2019-09-29 用编码向量的行人图像检测自适应非极大值抑制处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910936327.2A CN110909591B (zh) 2019-09-29 2019-09-29 用编码向量的行人图像检测自适应非极大值抑制处理方法

Publications (2)

Publication Number Publication Date
CN110909591A CN110909591A (zh) 2020-03-24
CN110909591B true CN110909591B (zh) 2022-06-10

Family

ID=69815441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910936327.2A Active CN110909591B (zh) 2019-09-29 2019-09-29 用编码向量的行人图像检测自适应非极大值抑制处理方法

Country Status (1)

Country Link
CN (1) CN110909591B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488197A (zh) * 2020-04-14 2020-08-04 浙江新再灵科技股份有限公司 基于云服务器的深度学习模型部署方法及部署系统
CN111553247B (zh) * 2020-04-24 2023-08-08 上海锘科智能科技有限公司 一种基于改进骨干网络的视频结构化系统、方法及介质
CN113205106A (zh) * 2020-06-19 2021-08-03 深圳瑞为智能科技有限公司 一种基于检测框密度优化的目标检测应用方法
CN112417990B (zh) * 2020-10-30 2023-05-09 四川天翼网络股份有限公司 一种考试学生违规行为识别方法及系统
CN112699808A (zh) * 2020-12-31 2021-04-23 深圳市华尊科技股份有限公司 密集目标检测方法、电子设备及相关产品
CN113191204B (zh) * 2021-04-07 2022-06-17 华中科技大学 一种多尺度遮挡行人检测方法及系统
CN114120127A (zh) * 2021-11-30 2022-03-01 济南博观智能科技有限公司 一种目标检测方法、装置及相关设备
CN117095161B (zh) * 2023-10-20 2023-12-22 云南联合视觉科技有限公司 一种向量化编码的旋转目标检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190574A1 (zh) * 2016-05-04 2017-11-09 北京大学深圳研究生院 一种基于聚合通道特征的快速行人检测方法
CN107909027A (zh) * 2017-11-14 2018-04-13 电子科技大学 一种具有遮挡处理的快速人体目标检测方法
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190574A1 (zh) * 2016-05-04 2017-11-09 北京大学深圳研究生院 一种基于聚合通道特征的快速行人检测方法
CN107909027A (zh) * 2017-11-14 2018-04-13 电子科技大学 一种具有遮挡处理的快速人体目标检测方法
CN108985186A (zh) * 2018-06-27 2018-12-11 武汉理工大学 一种基于改进YOLOv2的无人驾驶中行人检测方法
CN109766796A (zh) * 2018-12-20 2019-05-17 西华大学 一种面向密集人群的深度行人检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Pedestrian Detection Method Based on Genetic Algorithm for Optimize XGBoost Training Parameters;Yu Jiang et al.;《IEEE Access》;20190820(第7期);全文 *
基于运动特征及位置估计的行人检测算法;弓剑锋;《计算机工程与应用》;20190430(第07期);全文 *

Also Published As

Publication number Publication date
CN110909591A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110909591B (zh) 用编码向量的行人图像检测自适应非极大值抑制处理方法
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN111354017A (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN110175649B (zh) 一种关于重新检测的快速多尺度估计目标跟踪方法
CN113361334B (zh) 基于关键点优化和多跳注意图卷积行人重识别方法及系统
CN104200495A (zh) 一种视频监控中的多目标跟踪方法
CN112149591B (zh) 用于sar图像的ssd-aeff自动桥梁检测方法及系统
US11887346B2 (en) Systems and methods for image feature extraction
CN112419317B (zh) 一种基于自编码网络的视觉回环检测方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN113962281A (zh) 基于Siamese-RFB的无人机目标跟踪方法
CN111260655B (zh) 基于深度神经网络模型的图像生成方法与装置
CN114897728A (zh) 图像增强方法、装置、终端设备以及存储介质
CN116188825A (zh) 一种基于并行注意力机制的高效特征匹配方法
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN111091583A (zh) 长期目标跟踪方法
CN114820712B (zh) 一种自适应目标框优化的无人机跟踪方法
JP4133246B2 (ja) 画像変形情報生成装置、画像変形情報生成方法及び画像変形情報生成プログラム
CN114821651A (zh) 一种行人重识别方法、系统、设备及计算机可读存储介质
CN115170826A (zh) 基于局部搜索的运动小目标快速光流估计方法及存储介质
CN113052043A (zh) 一种降低误检率的手部检测方法及装置
Girish et al. One network doesn't rule them all: Moving beyond handcrafted architectures in self-supervised learning
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant