CN110909591B

CN110909591B - 用编码向量的行人图像检测自适应非极大值抑制处理方法

Info

Publication number: CN110909591B
Application number: CN201910936327.2A
Authority: CN
Inventors: 朱建科; 张加良; 杨雨
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-06-10
Anticipated expiration: 2039-09-29
Also published as: CN110909591A

Abstract

本发明公开了一种用编码向量的行人图像检测自适应非极大值抑制处理方法。行人图像进行特征提取，获得多幅特征图，特征图中包含有身份信息和密度信息，进而通过网络模型处理获得候选检测框；针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理，优化获得行人目标的检测框作为检测结果。本发明方法通过神经网络模型学习检测框编码向量，具备表达行人检测框的密度信息与身份信息的能力，有效地解决了在行人检测中显著的行人相互遮挡问题。

Description

用编码向量的行人图像检测自适应非极大值抑制处理方法

技术领域

本发明涉及计算机视觉目标检测领域，设计了一种基于编码向量加入图像行人检测框密度信息和身份信息的行人图像检测自适应非极大值抑制算法

背景技术

行人检测是计算机视觉领域的一个重要分支，在自动驾驶、智能视频监控、智能机器人等领域有着重要的应用。由于行人姿态、体型、穿着的变化，自然场景下光线、环境的变化以及部分遮挡的问题使得行人检测仍旧是一个挑战。

行人检测作为目标检测的一个特定任务，其发展历程与目标检测具有一致性。一般地，可以将目标检测分为基于锚点的方法和最新的无锚点的检测方法。其中基于锚点的方法，如Faster-RCNN、SSD以及它们的变形在过去几年中占有主导地位；而无锚点的方法，如ComerNet、CenterNet、CSP展现了它们不错的结果以及灵活的结构设计。的探测器是基于无锚点的方法。

行人检测无锚点的算法思想是通过深度学习提取具有高级语义的特征。具体地，将行人检测中行人的中心点坐标和检测框的尺度(宽和高)作为高级语义特征，那么行人检测就完全可以转化为这些语义特征的检测。对于一张输入的图像，经过卷积神经网络分成中心点特征图和尺度特征图，计算得到中心点的坐标和检测框的尺度，即可检测出行人。

作为目标检测的特定任务，行人检测具有自身的特点，其中人群的遮挡问题是重要挑战之一。在最新的行人检测数据集CrowdHuman中，人群的密集水平变得很高，以RFB-Net为骨干的基于密度信息的自适应非极大值算法在此数据集上进行行人检测，丢失率从12.7％升高到了63.03％，可见拥挤环境下的行人检测是一个关键问题。

为了解决这个问题，目前有以下几种方法：1.采用恒定的非极大值抑制阈值，通过提出额外的损失来约束回归目标，以产生更紧凑的检测框，从而降低NMS 阈值的影响；2.采用软非极大值抑制，对检测框进行重新估分，对较差的框抑制其分数而不是直接过滤；3.采用自适应的非极大值抑制，通过一种估计检测框密度的方法，来自适应地设置NMS算法的阈值。

然而这些算法仍未能很好地解决拥挤环境下的行人检测问题，准确率仍有较大的提升空间。

发明内容

为了解决背景技术中存在的问题，本发明基于无锚点的行人检测算法，在 CSP(Centerand Scale Prediction)的基础上扩展了一个身份-密度分支，并提出了一种针对检测框抑制的自适应非极大值抑制算法，是一种结合考虑行人检测框的密度信息与身份信息的自适应非极大值抑制算法。

如图1所示，本发明采用的技术方案具体步骤如下：

1)行人图像进行特征提取，获得多幅特征图，一幅特征图中包含有身份信息和密度信息，进而通过网络模型处理获得候选检测框；

2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理，优化获得行人目标的检测框作为检测结果。

本发明提出了的一种自适应的非极大值抑制算法，能够根据检测框的密度信息及检测框之间的距离信息，自适应地计算非极大值抑制的阈值，从而对多余的检测框进行抑制。

本发明进行检测框的抑制可以尽可能地抑制同一对象上的不同检测框，并保留不同对象上的检测框，极大地提高了行人检测的效果。

所述步骤1)具体分为两个阶段：

在模型训练阶段：

1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φ_det。

具体实施中，记输入行人图像的大小为W×H，使用DLA-34骨架网络作为特征提取模块进行特征提取，得到W/4×H/4的特征图φ_det。

1.2)输入的行人图像上存在真实矩形框(anchor box锚框)，真实值为真实矩形框中点的坐标(x_k，y_k)；特征图φ_det的大小为输入的行人图像的1/4，对于输入行人图像上的第k个真实值(x_k，y_k)，该真实值(x_k，y_k)在特征图φ_det中位于坐标

处，取特征图φ_det中位于特征提取后的真实值坐标

附近的四个整数位置像素点坐标作为四个正样本，即

后续对于每一个真实矩形框，真实矩形框是指用于训练的输入图片上已经标注每一个行人的正确矩形框，采用上述四个正样本用于损失函数的计算。

1.3)特征图φ_det分别连接到四个次级特征处理模块进行处理，获得中心点特征图、尺度特征图、偏移量特征图(未在图1中画出)和身份-密度特征图，由此扩展出四个分支，每个次级特征处理模块均由两个卷积层依次连接构成。

所述的中心点特征图、尺度特征图、偏移量特征图为无锚点的检测框算法的常规操作。

中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框，四种特征图分别代表对应不同的检测框属性：中心点特征图上的每个像素点表示特征图φ_det上对应的像素点为检测框的中心的置信度，即表示对应坐标为检测框中心的概率，尺度特征图上的每个像素点代表了以特征图φ_det上对应相同位置的像素点为中心所建立的检测框的长和宽，偏移量特征图上的每个像素点代表了特征图φ_det上对应像素点的坐标相对于原始输入图片上的坐标的偏移量；身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量，根据编码向量计算对应检测框的身份信息及密度信息。

1.4)利用损失函数进行网络训练；

在模型测试阶段

2.1)对输入的行人图像通过训练好的检测模型得到特征图φ_det进而得到四张与φ_det同等大小的中心点特征图、尺度特征图、偏移量特征图，以及身份-密度特征图。

具体实施中，记输入行人图像的大小为W×H，通过训练好的检测模型得到 W/4×H/4的特征图φ_det与四张和φ_det同等大小的中心点特征图、尺度特征图、偏移量特征图，以及身份-密度特征图。

2.2)根据中心点特征图上每一个像素点代表一个检测框，每个点的值表示该点为检测框中心的置信度，对置信度过低的检测框进行过滤，获得所有候选检测框。

如图3所示，身份-密度特征图上的每个像素点代表一个检测框，针对每个检测框，建立一种长度为m的编码向量e，如图2所示，编码向量e表示三维坐标系上的一个点，编码向量e起点为原点，编码向量e的长度(即向量末端到原点的距离)表示密度信息，编码向量e的末端终点的坐标表示身份信息。即身份- 密度特征图中的每个像素点采用了一个长度为m的编码向量e表示，编码向量e包含有检测框的密度信息和身份信息。

若将两个检测框b₁，b₁的编码向量记作e₁，e₂，将e₁，e₂标准化为长度为1的编码向量

编码向量

之间的线段长度表征两个检测框b₁，b₁之间的距离，距离越大，则两个检测框b₁，b₁以越大概率属于不同的分类，以此来表示身份信息之间的差异。

如图3所示，取编码向量e的长度m＝3为例进行说明。当m＝3时，任意一个编码向量e都可以表示为以

为球心d为半径的球面上的一点。e₁，e₂分别是以 d₁，d₂为半径的球面上的点，取d₁，d₂的长度作为编码向量e₁，e₂对应检测框的密度值，即d_i＝||e_i||₂。将编码向量进行标准化，即将向量标准化到以1为半径的球面上，那么球面上两个点的欧氏距离即可表示为两个编码向量的距离。

在图3中，

分别为编码向量e₁，e₂归一化后的值，于是编码向量e₁，e₂的距离可以表示为

即使当两个编码向量的密度信息很接近时，如e₁，e₂对应的密度d₁，d₂非常接近，身份信息对应的距离值仍可以很大，如图3中的dist(e₁，e₂)。

并且在网络模型优化训练时，建立和利用以下编码向量e的损失函数进行训练：

1)先建立编码向量e中密度信息的损失函数，通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示，密度真实值是指该真实矩形框与其他真是矩形框的最大重叠度(iou值)：

其中，N表示真实矩形框的数量，N_p表示每个真实矩形框的正样本数量， N_p＝4，e_k，i表示第k个真实矩形框第i个正样本的编码向量，||e_k，i||₂表示L2 范数，d_k为真实矩形框k的密度真实值；

2)本发明采用以下公式来表示编码向量e中身份信息的损失函数，分为拉 (pull)和推(push)两部分：

其中，L_pull表示每个真实矩形框与对应的四个正样本距离的子损失函数， L_push表示每个检测框与其他检测框距离的子损失函数，

表示编码向量e_k，i对应的单位向量，Δ表示判断两个检测框是否重合的阈值，在实际实验中取Δ＝1， e_k表示第k个真实矩形框四个正样本编码向量的均值，

表示编码向量e_k对应的单位向量，

表示第j个检测框编码向量对应的单位向量；

3)编码向量e的损失函数L_ID表示为：

L_ID＝λ_densityL_density+(L_pull+L_push)

其中，λ_density表示子损失函数L_density所占的权重比例；

将编码向量e的损失函数L_ID放入网络结构中进行训练得到身份-密度特征图 ID-Map。

所述步骤1.3)中，身份-密度特征图的次级特征处理模块是在特征提取模块之后连接一个有256个通道的3×3卷积核的卷积层，再连接一个有256个通道的1×1卷积核的卷积层获得身份-密度特征图(ID-Map)；中心点特征图、尺度特征图、偏移量特征图的次级特征处理模块的卷积层结构参数均不同，且和身份-密度特征图的次级特征处理模块的卷积层结构参数不同。

所述步骤2)具体为：

将候选检测框(即特征图中的各个像素点所代表的检测框)全部放入集合

作为所有初始的检测框的集合，特征图中的各个像素点所代表的检测框是指由四种特征图完整包含组成了检测框的信息，同时建立一个空集

作为检测框的筛选结果集合，当集合

不等于空集时，执行以下循环：

2.1)从集合

中选取置信度最高对应的检测框，记为当前最优检测框

将当前最优检测框

从集合

中转移到集合

中；

2.2)计算集合

中剩余的每个检测框b_i与当前最优检测框

的距离值

若

δ_t为预设的编码向量距离阈值，则取自适应阈值

为当前最优检测框

的编码向量e中的密度信息

max()表示取两者中的较大者，否则取自适应阈值

N_t为固定预设的非极大值抑制值；

2.3)最后比较每个检测框b_i与当前最优检测框

的重叠度(iou值)与重叠度阈值

之间大小，若重叠度(iou值)大于重叠度阈值

则将检测框b_i从集合

中删去，同时将检测框b_i对应的置信度s_i从置信度集合

中删去，否则保留检测框b_i。

2.4)以最后获得筛选结果集合中的检测框作为行人图像中的行人检测结果。

本发明中，对于每个检测框建立了一个长度为m的编码向量e，编码向量e同时表示检测框的密度信息和身份信息，其中根据检测框的身份信息计算不同检测框之间的距离值，通过编码向量e自适应地计算非极大值抑制的阈值；同时建立编码向量e关于密度信息和身份信息的损失函数，利用损失函数对网络进行训练处理。

本发明的基本步骤是对输入图像进行特征提取得到特征图，在特征图后接四个分支，用于对特征图上的每一个点预测一个检测框，分别为中心点分支、尺度分支、偏移量分支，以及本发明提出的身份-密度分支。根据这四个分支得到的特征图，使用非极大值抑制算法对多余的检测框进行抑制，得到最终的检测框作为输出。

本发明方法通过神经网络模型学习检测框编码向量，使得该编码向量同时具备表达行人检测框的密度信息与身份信息的能力，进而利用该编码向量设计了自适应非极大值抑制的后处理算法，有效地解决了在行人检测中显著的行人相互遮挡问题。

本发明与背景技术相比，具有更有益的效果：

本发明建立了编码向量，在编码向量中加入图像行人检测框密度信息和身份信息，利用身份信息和密度信息来自适应地调整非极大值抑制后处理算法的阈值。与传统的选择单一阈值的非极大值抑制算法相比，引入该编码向量后的自适应非极大值抑制算法可以更好的进行拥挤人群中的行人检测框抑制。方法在行人检测数据集CityPersons和CrowdHuman上取得了最先进的结果，能有效地提高在拥挤场景下行人检测的结果。

附图说明

图1为本发明的实现流程图。

图2为使用编码向量e来表示检测框密度信息和身份信息的直观示意图。

图3为自适应的非极大值抑制算法ID-NMS的伪代码。

图4为当前最先进的算计以及本发明在数据集CityPersons上的实验结果对比图。

图5为当前最先进的算计以及本发明在数据集CrowdHuman上的实验结果对比图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清晰、详细、完整的描述。

本发明的实施例如下：

以CityPersons数据集为例。

在模型训练阶段：

1.1)输入大小为640×1280的图片，使用DLA-34网络进行特征提取，得到大小为160×320的特征图φ_det。

1.2)对每个原始图像上的真实矩形框计算特征图φ_det上的正样本，如原始图像上的第k个真实矩形框中心点坐标为(x_k，y_k)，那么在特征图φ_det中真实值变为

可能为非整数值，于是取该

附近的四个整数坐标作为新的真实值，即

因此对于每一个真实值，都存在4个正样本用于损失函数的计算。

1.3)在特征图φ_det后连接四个分支(分别为中心点分支、尺度分支、偏移量分支以及身份-密度分支)，每个分支分别连接一个256通道的3×3卷积核，以及一个1×1的卷积核，分别设置损失函数，其中身份-密度分支的损失函数为发明方法步骤3)中的L_ID。根据以上网络结构及损失函数即可训练出各个分支的特征图，得到中心点特征图、尺度特征图、偏移量特征图，以及本发明提出的身份-密度特征图。

其中中心点特征图上的每个值表示特征图φ_det上对应的点为检测框的中心的概率；尺度特征图为特征图φ_det上对应的点所对应的检测框的长和宽；由于特征图φ_det相对于原始图片尺寸减小，真实值具有信息损失，

因此使用偏移量特征图来表示真实值的偏移量；身份-密度特征图表示特征图φ_det上每个点对应的编码向量，根据编码向量可以计算对应检测框的身份信息及密度信息。

在本例中，取编码向量的长度m＝4，因此身份-密度特征图维度是4。

1.4)利用发明内容定义的损失函数进行网络训练。

在测试阶段：

2.1)输入一张大小为[640×1280](测试阶段输入大小是1024x2048)的图片，利用训练好的网络模型进行前向传播，得到大小为[160×320](256×512) 的特征图φ_det。网络继续前向传播得到四张与φ_det同等大小的中心点特征图、尺度特征图、偏移量特征图，以及身份-密度特征图。

2.2)根据各个特征图上的特征信息，使用本发明提出的基于身份和密度信息的非极大值抑制算法对多余的检测框进行抑制。在算法中，

表示预处理后初始的检测框的集合，在本例中特征图φ_det的大小为[160×320](256×512)，为了提高NMS算法的效率，首先使用一个置信度阈值对中心点特征图对应的所有检测框进行过滤，在本例中取阈值＝0.05，过滤后剩余的检测框组成集合

表示

中每个检测框对应的置信度分数的集合，即中心点特征图上的值；ε表示所有检测框的编码向量；

表示每个检测框的密度值，可通过计算对应编码向量的 L2范式得到；δ_t为编码向量的距离阈值，本例中取δ_t＝0.9，N_t为固定的NMS 阈值，本例中取N_t＝0.5，

用于表示最终选取的检测框的集合。

在本发明的非极大值抑制算法中，先将

置为空集，当集合

非空时执行以下循环：从

中选取

中最高分数对应的检测框，记为

将检测框

并入集合

并将

从集合

中删去。计算

中剩余每个检测框b_i与检测框

的距离值

若

则取自适应阈值

为检测框

的密度；否则

最后比较检测框b_i与检测框

的iou值与阈值

的大小，若

大于阈值则将检测框b_i从

中删去，同时将对应的分数s_i从

中删去，否则保留b_i。

最后得到的

就是保留下来的检测框的集合，

为对应的检测框的置信度。

为验证本发明，在本领域已公开的具有挑战的行人检测数据集CityPersons 和CrowdHuman上进行设计实验。CityPersons数据集是在CityScapes数据集的基础上进行标注的，因其多样性而具有挑战。使用官方训练集2975张图片进行训练，各500张图片进行验证和测试。CrowdHuman数据集最近常用于拥挤场景下的行人检测任务，该数据集中图片的行人拥挤程度远大于CityPersons。这个数据集分别使用15000、4370、5000张图片用于训练、验证以及测试。实验采用标准的评价标准——对数平均漏检率(log-average Miss-Rate，LAMR)和误检数(False Positive Per Image，FPPI)来评价行人检测的结果。

图4、图5分别为当前最先进的方法以及本发明在CityPersons及 CrowdHuman数据集上的结果，由此可以看到本发明的结果与其他方法相比有较大的优势。

Claims

1.一种用编码向量的行人图像检测自适应非极大值抑制处理方法，其特征在于：

1)行人图像进行特征提取，获得多幅特征图，特征图中包含有身份信息和密度信息，进而通过网络模型处理获得候选检测框；

2)针对所有候选检测框利用多幅特征图采用非极大值抑制算法进行迭代处理，优化获得行人目标的检测框作为检测结果；

所述步骤1)具体分为两个阶段：

在模型训练阶段：

1.1)对输入的行人图像采用特征提取模块后进行特征提取得到特征图φ_det；

1.2)输入的行人图像上存在真实矩形框，真实值为真实矩形框中点的坐标(x_k，y_k)；特征图φ_det的大小为输入的行人图像的1/4，对于输入行人图像上的第k个真实值(x_k，y_k)，该真实值(x_k，y_k)在特征图φ_det中位于坐标

处，取特征图φ_det中位于特征提取后的真实值坐标

附近的四个整数位置像素点坐标作为四个正样本；

1.3)特征图φ_det分别连接到四个次级特征处理模块进行处理，获得中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图，每个次级特征处理模块均由两个卷积层依次连接构成；

中心点特征图、尺度特征图、偏移量特征图和身份-密度特征图上的每个像素点代表对应一个检测框，四种特征图分别代表对应不同的检测框属性：中心点特征图上的每个像素点表示特征图φ_det上对应的像素点为检测框的中心的置信度，尺度特征图上的每个像素点代表了以特征图φ_det上对应相同位置的像素点为中心所建立的检测框的长和宽，偏移量特征图上的每个像素点代表了特征图φ_det上对应像素点的坐标相对于原始输入图片上的坐标的偏移量；身份-密度特征图上的每个像素点对应建立包含身份信息及密度信息的编码向量；

1.4)利用损失函数进行网络训练；

在模型测试阶段：

2.1)对输入的行人图像通过训练好的检测模型得到特征图φ_det进而得到四张与φ_det同等大小的中心点特征图、尺度特征图、偏移量特征图，以及身份-密度特征图；

2.2)根据中心点特征图上每一个像素点代表一个检测框，每个点的值表示该点为检测框中心的置信度，对置信度过低的检测框进行过滤，获得所有候选检测框；

针对每个检测框，建立一种长度为m的编码向量e，编码向量e起点为原点，编码向量e的长度表示密度信息，编码向量e的末端终点的坐标表示身份信息；并且在网络模型优化训练时，建立和利用以下编码向量e的损失函数进行训练：

1)先建立编码向量e中密度信息的损失函数，通过最小化编码向量e中密度信息与密度真实值之间的均方误差进行表示，密度真实值是指该真实矩形框与其他真实矩形框的最大重叠度：