CN115965613A

CN115965613A - 基于空洞卷积的跨层连接的施工场景人群计数方法

Info

Publication number: CN115965613A
Application number: CN202310015749.2A
Authority: CN
Inventors: 赵志强; 马培红; 邱原; 贾萌; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-04-14

Abstract

本发明公开了基于空洞卷积的跨层连接的施工场景人群计数方法，(1)获取公开的人群计数数据集，并根据人工标注生成真实密度图；(2)建立基于空洞卷积的跨层连接的施工场景人群计数网络CL‑DCNN；(3)将数据集中的人群图像输入人群计数网络CL‑DCNN输出图像的预测密度图；(4)将输出的预测密度图进行积分求和得到图像的人群总数，并将输出的预测密度图与真实密度图进行损失计算，不断迭代更新人群计数网络中的参数；(5)将施工场景下的测试图片输入训练好的人群计数网络，生成人群密度图并积分求和得到人群计数结果。本发明具有很好的自适应能力和很高的预测精度。

Description

基于空洞卷积的跨层连接的施工场景人群计数方法

技术领域

本发明属于图像处理与计算机视觉技术领域，具体涉及基于空洞卷积的跨层连接的施工场景人群计数方法。

背景技术

工地的施工现场充满安全隐患，现场人员过多更易造成大型事故的发生，如果能及时掌握现场人员的数量及定位，就能早一步发现安全隐患，做出及时的合理疏通，减少人员伤亡，可见在施工场景下进行人群计数是很有意义的。

目前关于人群计数的方法可大体分为三类：(1)基于检测的方法，使用一个移动窗口式检测器来识别图像中的人，并将此信息用于计数任务中。检测有两种方式，基于整体和基于局部的方式，用检测器提取出整体或局部特征后，训练分类器，例如支持向量机、Boosting和随机森林等。但无论何种基于检测的方法，都很难处理人群之间严重的遮挡问题。(2)基于回归的方法，分两个步骤：第一步，从人群图像中提取有效特征，早期利用手工特征，如边缘特征和纹理特征(方向梯度直方图HOG、尺度不变特征SIFT、局部二值模式LBP、灰度共生矩阵GLCM等)，第二步，利用各种回归函数来估计人群数量，回归方法包括线性回归，岭回归和高斯过程回归等。这种方法从特征直接回归人群计数结果，无法体现出人群密度分布。(3)基于卷积神经网络的方法，使用卷积神经网络构建一个端到端的回归方法，将整个图像作为输入，直接预测人群图像的密度图，将密度图积分求和即可得到人群计数结果。

施工现场大多复杂多变，人群往往呈不均匀分布，且由于人群离摄像设备的远近不同，人的大小也会出现视角信息的畸变，人与人之间、背景与人之间也都遮挡严重等，这些问题都给施工场景人群计数任务带来了不小的困难，本发明基于此提出了一种基于空洞卷积的跨层连接的施工场景人群计数方法。

发明内容

本发明的目的在于提供基于空洞卷积的跨层连接的施工场景人群计数方法，以解决人群图像中出现视角畸变、人群之间遮挡严重等问题。

本发明所采用的技术方案是：基于空洞卷积的跨层连接的施工场景人群计数方法，具体包括如下步骤：

步骤1，获取公开的人群计数数据集，并根据人群图像对应的标注信息生成真实密度图；

步骤2，建立基于空洞卷积的跨层连接的施工场景人群计数网络CL-DCNN；

步骤3，将数据集中的人群图像输入步骤2的CL-DCNN输出图像的预测密度图；

步骤4，将输出的预测密度图进行积分求和得到图像的人群总数，并将输出的预测密度图与真实密度图进行损失计算，不断选代更新人群计数网络中的参数，得到最优的人群计数网络CL-DCNN；

步骤5，将施工场景下的测试图片输入步骤4训练好的最优的人群计数网络CL-DCNN，输出对应的人群分布密度图，对密度图积分求和得到施工场景人群图像的计数结果。

本发明的特点还在于，

步骤1所述数据集包括人群图像和对应的人工标注文件，所述人工标注文件的格式为图片内每个人头位置的坐标，对每个数据集分别进行整理归类，随机抽选出所需数量的图片作为训练集，剩下的作为测试集。

根据数据集包含的标注信息，将原始图像按照标注信息经过二值化后采用高斯平滑生成人群图像的真实密度图，具体如下。

在一张人群图像中，首先创建一张与原图大小一致的全0矩阵，设像素x_i处有一个人头目标，将其表示为δ(x-x_i)，并在矩阵中将该点处的值置1，则一张带有N个人头标记的图像定义为H(x)，用如下公式表示：

其中，x代表二维坐标，i表示人群图像中在像素x_i处有人头，N代表人群图像的人头总数，将人群密度图定义为F(x)，由H(x)与二维高斯核卷积得到，

此时密度图F(x)计算公式如下。

不同数据集由于人群分布的稀疏程度不同，高斯核的标准差也不同，当图像中人群分布较均匀时，此时采用固定标准差的高斯核，σ_i＝15；

当图像中人群较密集时，由于视角畸变严重，人头会呈现不同大小，此时采用k个最近邻人头距离的平均值作为高斯核的标准差，即在同一张人群图像内不同位置的人头采用不同标准差的高斯核，＝3：

σ_i＝βdⁱ (4)

其中，*表示卷积操作，β是系数因子，dⁱ代表像素x_i处的人头k个最近邻人头距离的平均值，

表示像素x_i处的人头和像素x_j处的人头间的距离。

步骤2具体如下：

步骤2.1：构建基于空洞卷积的跨层连接的施工场景人群计数网络CL-DCNN，确定网络的结构、深度、训练方式；

步骤2.2：步骤2.1所述的CL-DCNN由前端网络和后端网络两部分组成，其中前端网络采用VGG16的前10层卷积层作为特征提取器，生成深层特征图；后端网络将深层特征图进行二维空洞卷积扩大感受野，提取更深层次的语义特征，与浅层特征图进行通道维度的拼接以实现多层特征的融合，再将融合后的特征图进行上采样，得到与原图大小一致的密度图。

步骤3具体如下:

将从步骤1的数据集中获取的训练集图片，输入步骤2.1的人群计数网络CL-DCNN中输出预测密度图。

步骤4具体如下：

步骤4.1：将步骤3输出的预测密度图进行积分求和得到人群总数结果，并将步骤3生成的预测密度图与步骤1中生成的真实密度图计算均方误差作为计数损失，除了计算人群计数损失以外，还计算预测密度图和真实密度图之间的结构相似性损失函数来衡量预测密度图的质量；

步骤2.1所述的人群计数网络CL-DCNN的损失函数

由计数损失

和SSIM损失函数

组成，计算公式如下。

其中，

表示人群计数损失，计算预测密度图与真实密度图的误差平方和，M表示样本总个数，

表示SSIM损失，用来约束预测密度图的质量；α表示权重因子，是个超参数。X_i表示第i个输入样本，θ表示模型参数集合，F(X_i,θ)表示第i个样本的预测密度图，D_i表示第i个样本的真实密度图；

步骤4.2、根据步骤4.1中设计的损失函数

采用Adam优化器训练步骤2.1中的人群计数网络CL-DCNN，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，经过偏执校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳；

步骤4.3、训练结束，得到最优的人群计数网络CL-DCNN。

给定预测密度图p和对应的真实密度图q，它们的SSIM计算公式如下：

c₁＝(k₁L)²,c₂＝(k₂L)²

其中，μ_p是预测密度图p的像素平均值，μ_q是真实密度图q的像素平均值，

是预测密度图p的像素方差，

是真实密度图q的像素方差，σ_pq是预测密度图p和真实密度图q的像素协方差；c₁,c₂是用来维持稳定的常数，L是输入图像像素值的动态范围，此处的L＝255，k₁＝0.01，k₂＝0.03；SSIM的取值范围是[-1,1]，预测密度图p和真实密度图q的相似度越高，它们之间的SSIM度量指数值就越高。

本发明的有益效果是，本发明的基于空洞卷积的跨层连接的施工场景人群计数方法基于CNN特征，不仅可以处理任意尺度的图像，而且检测精度较高，采用空洞卷积扩大感受野，可以适应图像内尺寸变化的人群。采用浅层特征图与深层特征图跨层连接，可以达到多层特征融合的效果，充分利用各层特征。最后采用SSIM(Structural Simlarity，结构相似性)损失，进一步约束生成的密度图的质量。这种方法具有很好的自适应能力和很高的预测精度。

附图说明

图1是本发明的基于空洞卷积的跨层连接的施工场景人群计数方法的整体实施方案流程图；

图2是本发明的基于空洞卷积的跨层连接的施工场景人群计数方法的训练模型示意图；

图3(a)是本发明的基于空洞卷积的跨层连接的施工场景人群计数方法应用于实际场景的检测效果图；

图3(b)是图3(a)的人群计数网络预测的密度图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用与限制本发明的范围，在阅读本发明后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的整体实施方案流程图参照图1-图2，基于空洞卷积的跨层连接的施工场景人群计数方法，包括以下步骤：

S1、获取公开的人群计数数据集，并根据人群图像对应的标注信息生成真实密度图；

S2、建立基于空洞卷积的跨层连接的施工场景人群计数网络CL-DCNN(Cross-Layer Dilated Convolution Neural Network)；

S3、将数据集中的人群图像输入步骤S2的CL-DCNN输出图像的预测密度图；

S4、将输出的预测密度图进行积分求和得到图像的人群总数，并将输出的预测密度图与真实密度图进行损失计算，不断选代更新人群计数网络中的参数；

S5、将施工场景下的测试图片输入步骤S4训练好的人群计数网络，生成人群密度图并积分求和得到人群计数结果。

进一步的，所述步骤S1的具体步骤如下：

S11、从网上获取多个公开的人群计数数据集，其中包括人群图像和对应的人工标注文件，所属标注文件的格式为图片内每个人头位置的坐标。对每个数据集分别进行整理归类，随机抽选出所需数量的图片作为训练集，剩下的作为测试集；

S12、根据数据集包含的人工标注信息，将原始图像按照标注信息经过二值化后采用高斯平滑生成人群图像的真实密度图。

在一张人群图像中，首先创建一张与原图大小一致的全0矩阵，设像素x_i处有一个人头目标，将其表示为δ(x-x_i)，并在矩阵中将该点处的值置1，则一张带有N个人头标记的图像定义为H(x)，用如下公式表示。

其中x代表二维坐标，i表示人群图像中在像素x_i处有人头，N代表人群图像的人头总数。将人群密度图定义为F(x)，由H(x)与二维高斯核G_σ()卷积得到，

此时密度图F(x)计算公式如下。

σ_i＝βdⁱ (4)

表示像素x_i处的人头和像素x_j处的人头间的距离。

进一步的，所述步骤S2的具体步骤如下：

S21、构建建立基于空洞卷积的跨层连接的施工场景人群计数网络CL-DCNN，确定网络的结构、深度、训练方式；

S22、步骤S21所述的CL-DCNN由前端网络和后端网络两部分组成，其中前端网络采用VGG16的前10层卷积层作为特征提取器，生成深层特征图；后端网络将深层特征图进行空洞卷积扩大感受野，提取更深层次的语义特征，与浅层特征图进行通道维度的拼接以实现多层特征的融合，再将融合后的特征图进行上采样，得到与原图大小一致的密度图。

空洞卷积，又称扩张卷积、扩展卷积，是在标准的特征图中加入空洞，以此来增加感受野，相比原来的正常卷积，空洞卷积中多了一个空洞率，正常卷积的空洞率为1。在参数量相同的情况下，采用空洞卷积可增大感受野，大的感受野有助于识别不同人群密度区域内的目标，避免稀疏区域人头尺寸较大的行人被遗漏。

CL-DCNN的卷积层的具体参数如表1所示。前端的Conv1-2表示原图经过第一组两个相同的卷积核进行卷积，卷积核尺寸为3*3，卷积核数量为64，空洞率为1，空洞率为1的空洞卷积与普通卷积相同，此时得到64个特征图。在Conv1-2之后加入一个最大池化层进行降采样，特征图的尺寸变为原始图像的1/2；Conv2-2表示将所得的特征图经过第二组两个相同的卷积核进行卷积，卷积核尺寸为3*3，卷积核数量为128，得到128个特征图，并在Conv2-2后加入一层最大池化层进行降采样，此时特征图尺寸变为原图像的1/4；将得到的特征图输入Conv3-1至Conv3-3中，得到256个特征图，并在之后加入最大池化层，此时特征图尺寸变为原始图像的1/8；再将得到的特征图输入到Conv4-1至Conv4-3中，得到512个特征图。随后将得到的特征图输入空洞卷积，卷积核个数为256，特征图尺寸保持不变，为原始图像的1/8；和Conv3-3得到的特征图进行通道维度上的融合，将融合后的特征图经过上采样，此时的特征图尺寸变为原始图像的1/4；将得到的特征图和前端Conv2-2得到的特征图进行融合，经过上采样，得到1/2原始图像的特征图；将所得特征图与前端Conv1-2得到的特征图进行融合，再进行上采样，就得到和原始图像尺寸相同的特征图，最后经过1*1的卷积核改变通道数，变为单通道的密度图。

表1CL-DCNN各层卷积层具体参数

进一步的，所述步骤S3的具体步骤如下：

S31、将从步骤S1的数据集中获取的训练集图片，输入步骤S21的人群计数网络CL-DCNN中输出预测密度图。

进一步的，所述步骤S4的具体步骤如下：

S41、将步骤S31输出的预测密度图进行积分求和得到人群总数结果，并将步骤S31生成的预测密度图与步骤S1中生成的真实密度图计算均方误差作为计数损失。为了克服人群图像中背景干扰严重的问题，除了计算人群计数损失以外，还采用SSIM损失函数来衡量预测密度图的质量，提高模型的计数精度。

步骤S21所述的人群计数网络CL-DCNN的损失函数

由计数损失

和SSIM损失函数

组成，具体的，计算公式如下。

其中，

表示SSIM损失，用来约束预测密度图的质量。α表示权重因子，是个超参数；X_i表示第i个输入样本，θ表示模型参数集合，F(X_i,)表示第i个样本的预测密度图，D_i表示第i个样本的真实密度图。

c₁＝(k₁L)²,c₂＝(k₂L)²

是预测密度图p的像素方差，

是真实密度图q的像素方差，σ_pq是预测密度图p和真实密度图q的像素协方差。c₁,c₂是用来维持稳定的常数，L是输入图像像素值的动态范围，此处的L＝255，k₁＝0.01，k₂＝0.03。SSIM的取值范围是[-1,1]，预测密度图p和真实密度图q的相似度越高，它们之间的SSIM度量指数值就越高；

S42、根据S41中设计的损失函数采用Adam优化器进行模型训练，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，经过偏执校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳；

S43、训练结束，得到最优的人群计数网络CL-DCNN。

进一步的，所述步骤S5的具体步骤如下：

S51、将提前采集好的施工场景下的人群图像作为测试图像输入步骤S43所述的最优的人群计数网络CL-DCNN，输出对应的人群分布密度图，对密度图积分求和得到施工场景人群图像的计数结果。

如图3(a)-(b)所示，我们将实际场景中拍摄的施工场景图片输入到步骤S43所述的最优的人群计数网络CL-DCNN，检测出图片中的人群计数结果，达到了理想效果。

综上所述，本发明公开了一种基于空洞卷积的跨层连接的施工场景人群计数方法，主要阐述了训练的方法。首先，获取公开的人群计数数据集，并根据人工标注生成真实密度图；其次，建立基于空洞卷积的跨层连接的施工场景人群计数网络CL-DCNN(Cross-Layer Dilated Convolution Neural Network)；然后，将数据集中的人群图像输入人群计数网络CL-DCNN输出图像的预测密度图；将预测密度图进行积分求和得到图像的人群总数，并将输出的预测密度图与真实密度图进行损失计算，不断迭代更新人群计数网络中的参数；最后，将施工场景下的测试图片输入训练好的人群计数网络，生成人群密度图并积分求和得到人群计数结果。

本发明提供的基于空洞卷积的跨层连接的施工场景人群计数方法基于CNN特征，不仅可以处理任意尺度的图像，而且检测精度较高，采用空洞卷积扩大感受野，可以适应图像内尺寸变化的人群。采用浅层特征图与深层特征图跨层连接，可以达到多层特征融合的效果，充分利用各层特征。最后采用SSIM损失，进一步约束生成的密度图的质量。这种方法具有很好的自适应能力和很高的预测精度。