CN113239904A

CN113239904A - 基于卷积神经网络的高分辨率密集目标计数方法

Info

Publication number: CN113239904A
Application number: CN202110775324.2A
Authority: CN
Inventors: 练智超; 顾思琦; 李千目; 李硕豪
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-08-10
Anticipated expiration: 2041-07-09
Also published as: CN113239904B

Abstract

本发明公开了一种基于卷积神经网络的高分辨率密集目标计数方法，该方法为：对图像密度进行预估；基于标注数据通过高斯掩膜生成监督预测密度图；利用初级主干网络提取低层次特征；利用多路径扩张卷积层对多感受野的高级语义信息进行编码，获取全局的上下文信息；利用空间域注意力机制模块和通道域注意力机制模块进一步区分前景与背景，减少模型的误判率并输出加入了注意力掩膜的特征图谱；利用编码阶段的多路特征图谱通过解码网络恢复图像的空间信息以生成最终的高分辨率预测密度图；对密度图进行求和得到预测的人群计数结果。本发明改善了由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况，有效提高了密集人群计数的精度。

Description

基于卷积神经网络的高分辨率密集目标计数方法

技术领域

本发明涉及视觉人群密度分析技术领域，特别是一种基于卷积神经网络的高分辨率密集目标计数方法。

背景技术

密集目标技术是计算机视觉领域十分重要且应用广泛的任务，例如密集人群计数应用于城市安全、交通流量检测和大型商场景点人流量监控等至关重要的领域，该任务的目的是在图像中获取人群的分布情况以及人群中所包含的人头数目；密集细胞计数则广泛应用于生物医学领域；在工业化领域常使用密集目标计数方法对工业化设施进行实时统计等。

目前受到广泛关注的方法大多是基于卷积神经网络的计数方法，其中包括上下文自适应方法：扩大网络的接受域，提取丰富的上下文信息，对于空间和通道的上下文提取应用注意力机制以预测最终的尺度信息；尺度自适应方法：利用多列卷积神经网络对不同尺度进行特征提取，利用尺度信息约束最终的预测结果。

以最广泛应用的密集人群计数为例，Li等人提出了一种基于空洞卷积层的密集人群检测网络CSRNet，CSRNet通过将VGG-16网络最后的全连接层改为空洞卷积层，使得网络的感受野进一步扩大，同时对解码阶段的特征分辨率保持不变，输出了高分辨率的预测密度图(LiY, ZhangX, ChenD. CSRNet:Dilated Convolutional Neural Networks forUnderstanding the Highly CongestedScenes[J]. IEEE, 2018,pp. 1091-1100)。Liu等人在CSRNet的基础上基于空间金字塔池化提取多尺度上下文特征，提出了CANNet(LiuW,SalzmannM,FuaP. Context-AwareCrowdCounting[J]. 2018, pp. 5094-5103)。经典的多列结构密集人群计数网络MCNN利用多列卷积层提取多尺度信息，再将特征图谱融合形成包含尺度自适应的计数网络(ZhangY, ZhouD, ChenS, etal. Single-Image CrowdCounting via Multi-Column Convolutional Neural Network[C],2016, IEEEConferenceon Computer Visionand Pattern Recognition (CVPR). IEEE, 2016, pp.589-597.)。尽管上述方法在密集人群计数上有很大进步，但是这些方法在处理高密度密集人群技术时仍然表现不佳，主要原因在于，密集人群检测的最新数据集包含更大的尺度变化和密度不均匀问题。此外，这些方法没有形成完善的编解码网络，不能在保留细节信息的前提下生成高分辨率的特征图谱，不利于对高分辨率的图像进行预测。

姚等人所提出的专利——基于级联高分辨卷积神经网络的密集人群计数算法所使用的主干网较为复杂，运算时间较长，对于硬件环境要求比较高；陈等人提出的专利算法——一种基于注意力机制循环缩放的密集人群计数与精确定位方法和系统，利用了人群的定位信息和三分支的神经网络进行密度评定，虽然也利用了注意力机制获得了很好的效果，但这加重了前期的标注负担，且网络过于繁杂不利于训练和应用(张姗姗,姚肇亮,杨健. 基于级联高分辨卷积神经网络的密集人群计数算法[P]. 江苏省：CN111460912A,2020-07-28.)。

综上可知，目前密集人群计数当中存在因尺度变化过大、密度不均匀、遮挡或背景相似所造成的计数不准确的问题，并且网络的复杂度往往较高，运算量大、不利于训练和应用。

发明内容

本发明的目的在于提供一种基于卷积神经网络的高分辨率密集目标计数方法，通过设计一种编解码卷积神经网络，使其能够对较大的目标尺度变化做出合理的预测，同时适应非均匀的密度情况，获得高分辨率图像的密集目标计数结果。

实现本发明目的的技术解决方案为：一种基于卷积神经网络的高分辨率密集目标计数方法，包括如下步骤：

步骤1、对输入图像的密度等级进行判定，确定密集人群图像；

步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小，生成监督预测密度图；

步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息，再通过一个空洞卷积网络来提取全局低层特征信息，并输出空洞卷积网络中第四卷积层输出的特征图谱F_C4、第七卷积层输出的特征图谱F_C7以及最终输出第一特征图谱F₁；

步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层，采用多路径扩张卷积层从第一特征图谱F₁提取出具有多接受场的全局高级语义信息，并输出第二特征图谱F₂；

步骤5、利用空间注意力机制模块和通道注意力机制模块对第二特征图谱F₂进行加权，筛选第二特征图谱F₂中所包含的全局高级语义信息，输出第三特征图谱F₃；

步骤6、利用第三特征图谱F₃、步骤3输出的包含低层次信息的特征图谱F_C4、特征图谱F_C7进行解码操作，逐步通过上采样操作和解码卷积网络恢复第三特征图谱F₃的空间信息，并输出最终的高分辨率预测密度图；

步骤7、将高分辨率预测密度图的像素值进行累加求和，得到最终密集人群的计数结果。

本发明与现有技术相比，其显著优点为：

（1）设计了基于紧密连接网络DenseNet所设计的多路径扩张卷积层，使其输出的特征图谱具有多尺度高级语义特征信息；

（2）并行利用空间注意力机制和通道注意力机制对特征图谱进行加权，对其中的高级语义信息和初级特征进行筛选，在学习图像的密度图变化的同时减少背景纹理对于模型的误导性；

（3）在解码阶段利用编码阶段的多个特征图谱输出补充单纯上采样所带来的细节不足的问题，恢复了图像的空间信息，输出高分辨率预测密度图。

附图说明

图1为本发明的基于卷积神经网络的高分辨率密集人群计数方法流程图。

图2为本发明使用密集连接空洞卷积层来融合不同尺度大小的特征生成特征图谱F ₂ 示意图。

图3为本发明的多域注意力机制模块示意图。

图4为本发明多路径解码器生成最终高分辨预测密度图的示意图。

图5为本发明最终输出预测密度图和原始图像对比可视化图。

具体实施方式

本发明一种基于卷积神经网络的高分辨率密集目标计数方法，包括如下步骤：

作为一种具体示例，步骤1所述对输入图像的密度等级进行判定，确定密集人群图像，具体如下：

利用图像分辨率和目标人数计算图像密度，z代表一张图像，ρ(z)为图像密度：

式中，height、weight分别表示图像的宽、高包含的像素个数，number为图像中包含的目标人数；

设定阈值ε，若图像密度ρ(z)超过该阈值则判定输入图像为密集人群图像，进行密集目标计数；阈值ε根据不同的数据集和训练结果进行不同的设置。

作为一种具体示例，步骤2中所述利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小，生成监督预测密度图，具体如下：

使用高斯模糊对头部标注进行模糊，并使监督预测密度图的分布遵循高斯均匀化，几何自适应高斯核定义为：

其中，D(a)为生成的监督预测密度图，先计算当前人头a和图像中所有其他人头a _k的平均距离

，k=1,2,…,B-1，B为总人头数，高斯核函数的方差σ _k由平均距离

乘以比例系数β得到，从而D(x)包含全局人头的像素分布，δ(·)为狄拉克函数，

为方差为σ _k的高斯函数。

作为一种具体示例，步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息，再通过一个空洞卷积网络来提取全局低层特征信息，并输出空洞卷积网络的第四卷积层输出特征图谱F_C4、第七卷积层输出特征图谱F_C7以及最终输出第一特征图谱F₁，具体为：

首先利用VGG-16 Net网络的前10个卷积层和最大池化层提取部分底层特征信息，接着利用6层空洞卷积网络提取全局低层特征信息，从而扩大提取出来的特征图谱的接受域，并将输入图像的通道数由3通道变为64通道，使所提取的特征维持在原始图像的八分之一大小的分辨率水平，输出结果为第一特征图谱F₁；同时输出空洞卷积网络层中第四层卷积层输出的特征图谱F_C4和第七层卷积层输出的特征图谱F_C7。

作为一种具体示例，步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层，采用多路径扩张卷积层从第一特征图谱F₁提取出具有多接受场的全局高级语义信息，并输出第二特征图谱F₂，具体为：

基于紧密连接网络DenseNet构建多路径扩张卷积层，具体内部结构包含五层空洞卷积，空洞率分别为3、6、12、18和24，相邻空洞卷积之间用1×1卷积相连调整输入通道数，此处的多路径扩张卷积层是指每一个空洞卷积会与之前所有卷积层进行空间连接，从而输出包含多路空洞卷积层信息的特征图谱，并在经过1×1卷积调整通道数量之后输入到后面的所有卷积层；该模块能够提取并融合不同尺度大小的特征，并最终输出具有多接受场的全局高级语义信息的特征图谱；

运行顺序为将第一特征图谱F₁作为输入，通过上述多路径扩张卷积层提取全局高级语义信息，并输出第二特征图谱F₂，且F₂具有和F₁相同的图像大小。

作为一种具体示例，步骤5所述利用空间注意力机制和通道注意力机制对第二特征图谱F₂进行加权，筛选第二特征图谱F₂中所包含的全局高级语义信息，输出第三特征图谱F₃，具体如下；

空间注意力机制模块中，S代表空间、H和W代表图像的宽高；通道注意力机制模块中，C代表通道；

对于输入F₂ϵℝ^C×H×W，将其分别通过两个注意力模块的1×1卷积，通过形变和转置形变操作获得新的特征图谱S₁, S₂, C₁和C₂,其中{S₁, C₁}ϵℝ^C×HW并且{S₂, C₂}ϵℝ^HW×C；然后使用矩阵乘法将S₁, S₂矩阵相乘产生空间注意力图谱S₃ϵℝ^HW×HW；同时将C₁, C₂矩阵相乘产生通道注意力图谱C₃ϵℝ^C×C，公式如下：

其中

表示第u个通道对第v个通道的影响，

代表第u个空间区域对第v个空间区域的影响，将

、

通过图中形变层和SoftMax层得到

和

，再利用公式(5)、(6)中自学习因子

、

分别对

和

进行元素相乘，η和

为实验中设置的超参数；在得到空间域和频率域的结果特征图谱S_final和C_final后，再将两种特征图谱通过连接操作和卷积操作得到最终的注意力图谱F₃，公式定义如下：

作为一种具体示例，步骤6中利用第三特征图谱F₃、步骤3输出的包含低层次信息的特征图谱F_C4、特征图谱F_C7进行解码操作，逐步通过上采样操作和解码卷积网络恢复第三特征图谱F₃的空间信息，并输出最终的高分辨率预测密度图，具体方法如下：

利用步骤3中输出的特征图谱F_C4和特征图谱F_C7作为解码器的构建基础，首先对输入特征图谱F₃进行两倍的上采样操作输入到第一个1×1的卷积层当中调整通道数，并输出具有与F_C7相同通道数的特征图谱F_{3_1}，接着将F_{3_1}与特征图谱F_C7拼接之后进行两倍上采样操作，再输入到第二个1×1的卷积层当中调整通道数并输出具有与F_C4相同通道数的特征图谱F_{3_2}，将特征图谱F_{3_2}与F_C4进行拼接之后进行两倍上采样操作得到恢复了部分细节信息的特征图谱F_{3_3}，最后将F_{3_3}通过两个卷积层输出最终的高分辨率预测密度图。

下面结合附图及具体实施例对本发明做进一步详细说明。

实施例

如图1所示，一种基于卷积神经网络的高分辨率密集目标计数方法EBM-Net，包括：对图像密度进行预估；基于图像人群标注数据通过高斯掩膜生成监督预测密度图；将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息，再通过一个空洞卷积网络来提取全局低层特征信息，并输出空洞卷积网络中第四卷积层输出的特征图谱F_C4、第七卷积层输出的特征图谱F_C7以及最终输出第一特征图谱F₁；利用基于紧密连接网络DenseNet所设计的多路径扩张卷积层对F₁提取出具有多接受场的全局高级语义信息，并输出特征图谱F₂；步骤5中并行利用空间注意力机制和通道注意力机制对F₂进行加权，对F₂中所包含的高级语义信息和初级特征进行筛选，在学习图像的密度图变化的同时减少背景纹理对于模型的误导性，并输出特征图谱F₃；利用编码阶段的多路特征图谱通过解码网络MDM恢复图像的空间信息以生成最终的高分辨率预测密度图；对密度图进行求和得到预测的人群计数结果。本发明有效提高了密集人群计数的精度，改善了预测任务中由人群分布不均匀、尺度变化较大和前后景纹理相似等造成的计数不准的情况。

步骤1、对输入图像的密度等级进行判定，确定密集人群图像，具体如下：

步骤2、利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小，生成监督预测密度图，具体如下：

为方差为σ _k的高斯函数。

步骤3、将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息，再通过一个空洞卷积网络来提取全局低层特征信息，并输出空洞卷积网络的第四卷积层输出特征图谱F_C4、第七卷积层输出特征图谱F_C7以及最终输出第一特征图谱F₁，具体为：

步骤4、基于紧密连接网络DenseNet构建多路径扩张卷积层，采用多路径扩张卷积层从第一特征图谱F₁提取出具有多接受场的全局高级语义信息，并输出第二特征图谱F₂，具体为：

步骤5、利用空间注意力机制和通道注意力机制对第二特征图谱F₂进行加权，筛选第二特征图谱F₂中所包含的全局高级语义信息，输出第三特征图谱F₃，具体如下；

其中

表示第u个通道对第v个通道的影响，

代表第u个空间区域对第v个空间区域的影响，将

、

通过图中形变层和SoftMax层得到

和

，再利用公式(5)、(6)中自学习因子

、

分别对

和

进行元素相乘，η和

步骤6、利用第三特征图谱F₃、步骤3输出的包含低层次信息的特征图谱F_C4、特征图谱F_C7进行解码操作，逐步通过上采样操作和解码卷积网络恢复第三特征图谱F₃的空间信息，并输出最终的高分辨率预测密度图，具体方法如下：

步骤7、如图5所示，利用高分辨率密集人群预测密度图，对其像素值进行累加求和，得到最终密集人群的计数结果。左图时输入图像，中间为生成的密度图，右图时预测得到的F₃，图像左下角为图像所对应的人群计数值。

表1本发明方法在数据集NWPU-Crowd数据集上的比较

表1是本发明方法EBM-Net,与其他基于密度图和卷积神经网络的人群计数方法在数据集NWPU-Crowd上结果的比较。评测指标包括MAE表示平均单张图像计数误差人数，MSE表示平均计数的方差，NAE表示平均绝对误差。可以发现，本发明在三项指标上都取得了最高的排名，此外，在不同人群密度等级（S0-S4）的预测结果中，本发明也处于领先地位。这充分证明了本发明不仅能提高密集人群计数的效果，还能适应不同尺度不同密集程度的人群大小。

本发明利用编解码卷积神经网络提取人群图像的高分辨率特征，采用了密集连接空洞卷积层提取多感受野特征，并利用多路径解码模块和上采样操作恢复图像的空间信息，从而生成具有丰富细节信息的高分辨率预测密度图，有效的解决了图像尺度变化、人群场景密度不均匀和前后景纹理相似等情况带来的计数不准的问题。

Claims

1.一种基于卷积神经网络的高分辨率密集目标计数方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法，其特征在于，步骤1所述对输入图像的密度等级进行判定，确定密集人群图像，具体如下：

3.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法，其特征在于，步骤2中所述利用几何自适应高斯响应计数估计密集人群图像中单个人头的尺度大小，生成监督预测密度图，具体如下：

为方差为σ _k的高斯函数。

4.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法，其特征在于，步骤3所述将监督预测密度图先通过VGG-16 Net主干网络提取部分底层特征信息，再通过一个空洞卷积网络来提取全局低层特征信息，并输出空洞卷积网络的第四卷积层输出特征图谱F_C4、第七卷积层输出特征图谱F_C7以及最终输出第一特征图谱F₁，具体为：

5.根据权利要求1所述的基于卷积神经网络的高分辨率密集目标计数方法，其特征在于，步骤4所述基于紧密连接网络DenseNet构建多路径扩张卷积层，采用多路径扩张卷积层从第一特征图谱F₁提取出具有多接受场的全局高级语义信息，并输出第二特征图谱F₂，具体为：