CN111709290A

CN111709290A - 基于编解码-跳跃连接尺度金字塔网络的人群计数方法

Info

Publication number: CN111709290A
Application number: CN202010418960.5A
Authority: CN
Inventors: 姜明; 李鹏飞; 张旻; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-09-25
Anticipated expiration: 2040-05-18
Also published as: CN111709290B

Abstract

本发明公开了一种基于编解码‑跳跃连接尺度金字塔网络的人群计数方法。本发明提出了一种深度卷积神经网络结构，称为ED‑SSPNet，由特征提取编码器(FEE)和特征映射解码器(DMD)两部分组成。FEE整合了尺度聚合模块中提取的特征，利用加权的跳跃连接的方式获取多尺度信息和上下文信息，保证信息不丢失。DMD采用反卷积和融合操作生成包含细节信息的特征，得到高质量的密度图，达到精确计数的目的。结果表明，这种方法具有更好的鲁棒性和自适应能力。

Description

基于编解码-跳跃连接尺度金字塔网络的人群计数方法

技术领域

本文发明涉及人群图像计数方法，具体来讲是一种基于编解码-跳跃连接尺度金字塔神经网络的人群计数方法，属于人群图像处理技术领域。

背景技术

密集人群图像通过全卷积网络提取特征并映射生成密度图，进而积分得到人数，是当前进行人群计数最流行的方法。虽然相关的研究已经取得了很好的效果，但是这项任务仍面临巨大的挑战。在采集图像过程中，图像中的人群受到角度，光照，重叠等因素的影响，会引发透视畸变，数据分布等方面的问题；在使用深度卷积网络处理过程中，随着层数的增加，图像特征不断被提取到低分辨率特征图上，尺度信息和上下文信息等会逐渐丢失,导致不能生成高质量密度图。针对这种情况，目前主要的人群计数的处理方法主要有基于目标提取的方法，基于直接回归的方法，基于密度图回归等方法。但是这些方法难免出现计数效果不佳，特征提取困难，尺度问题难以解决等问题。所以较好的处理方法是建立端对端的处理方法，通过深度学习建立从输入到输出，让模型自动学习人群图像特征，从而给出准确的计数。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于编解码-跳跃连接尺度金字塔神经网络的人群计数方法，以解决现有的使用深度学习进行人群计数工作中的多尺度和上下文信息丢失的问题。

本发明解决其技术问题所采用的技术方案如下：

步骤(1)获取人群数据集，将数据集中的每张图片，根据数据集中带有的人头位置标注，利用二维高斯卷积核，生成对应的人群密度图标签，然后进行数据增强操作；

步骤(2)通过加权跳跃连接的方式将四个级联尺度金字塔模块进行信息整合，构建特征提取编码器(FEE)；

步骤(3)通过反卷积和融合的方式，构建密度图解码器(DMD)；

步骤(4)FEE和DMD进行组合，构建ED-SSPNet模型；

步骤(5)将人群图像数据输入训练好的ED-SSPNet模型，输出对应图像的密度图，对模型输出的密度图积分，统计出图像中人群数量。

本发明有益效果如下：

本发明提出了一种深度卷积神经网络结构，称为ED-SSPNet(具有跳跃连接的标度金字塔网络的编译码器)。ED-SSPNet由特征提取编码器(FEE)和密度映射解码器(DMD)两部分组成。FEE整合了尺度聚合模块中提取的特征，利用加权的跳连接获取多尺度信息和上下文信息，保证信息不丢失。DMD采用反卷积和融合操作生成包含细节信息的特征，得到高质量的密度图，达到精确计数的目的。结果表明，这种方法具有更好的鲁棒性和自适应能力。

附图说明

图1是本发明的整体实施方案流程图

图2是本发明的CSPM模块架构图

图3是本发明的FEE部分跳跃连接示意图

图4是本发明的ED-SSPNet模型整体架构示意图；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1是本发明的整体实施方案流程图，一种基于编解码-跳跃连接尺度金字塔神经网络的人群计数方法，包括以下步骤：

步骤(3)通过反卷积和融合的方式，构建密度图解码器(DMD)；

步骤(4)FEE和DMD进行组合，构建ED-SSPNet模型；

步骤(5)将人群图像数据输入训练好的ED-SSPNet模型，输出对应图像的密度图，对模型输出的密度图积分，统计出图像中人群数量。步骤(1)具体实现过程如下：

1-1.获取人群数据集，将数据集中每张原始图像根据标签数据生成对应的密度图，所述的标签数据指的是原始图像中所标出的人头中心在图像中的像素位置，生成的密度图表示为：

其中，x_i表示人头中心在图像中的像素位置，δ(x-x_i)表示为delta函数，N为图像中的人群总数，

为距离x_i最近的m个行人之间的平均距离，

(x)为归一化高斯核函数，在这里超参数β＝0.3，m＝3；

1-2.数据增强，将每一张原始图像和对应的密度图大小调整到1024*768；

首先，对调整后的原始图像和对应密度图进行9等分互不重叠的裁剪，得到9对关于图像-密度图的数据；

然后，对调整后的原始图像和对应密度图进行随机裁剪，再得到9对关于图像-密度图的数据。

如图2和3所示，步骤(2)具体实现过程如下：

2-1.构建级联尺度金字塔模块(CSPM)；

2-1-1.对输入CSPM的特征图，采用1*1卷积的方式进行降维操作；

2-1-2.利用含有空洞率分别为1,4,8,16的四种空洞卷积对步骤2-1-1中降维操作后的特征图进行并行卷积，得到四种大小相同的特征图；

2-1-3.将步骤2-1-2中得到的四个特征图进行四层的级联操作，将各层级联操作所产生的的特征图进行concat操作，然后与步骤2-1-1中未降维操作的原始输入特征图相加产生最终的输出；

其中，各层级联操作所获得的特征输出公式如下所示：

表示第s层的融合特征，通道连接在一起的最终输出得到尺度金字塔

W和H表示特征图的宽度和高度，s表示级联层数，C_s表示最终通道数量，R表示特征图；

2-2.前端使用含有2,4,8三种不同空洞率的串联卷积组成的SSPNet网络，后端使用加权跳跃连接的方式将4个CSPM进行信息融合构建特征提取编码器(FEE)；

所构建特征提取编码器(FEE)后端包括四个CSPM和三个连接层，具体加权跳跃连接的方式为1-CSPM和2-CSPM相连，2-CSPM和3-CSPM相连，3-CSPM和4-CSPM相连；三个相连设置权重规则如下：

其中，i为第i次相连,取值为1或2或3，设第一次连接权重为w，则各个层次中权重值分为为w，

步骤(3)具体实现过程如下：

3-1.将步骤2-2中特征提取编码器(FEE)加权跳跃连接产生的3组融合特征以及特征提取编码器(FEE)前端的SPPNet网络提取的特征，分别使用1*1卷积进行降维，传递到密度图解码器(DMD)中；所述的融合特征由1-CSPM和2-CSPM相连，2-CSPM和3-CSPM相连，3-CSPM和4-CSPM相连后分别输出，前一层的融合特征作为后一层的输入特征；

3-2.将步骤3-1中获得的3个融合特征和SPPNet网络提取的特征，进行反卷积和融合操作获得最终融合特征，从而并恢复分辨率以及图像细节信息；

3-3.使用1*1Conv对最终融合特征映射为密度图。

如图4所示，步骤(4)具体实现过程如下：

4-1.设计ED-SSPNet模型的具体参数，网络参数配置如表1所示：

其中，Conv-n代表n*n的卷积，括号内为(输入通道数，输出通道数)，网络的每一层表示为Conv卷积核大小(卷积核数量，空洞率)，除Conv1*1外(没有空洞率)：

4-2.设计损失函数，在损失函数中，选择欧氏距离来评估真实密度图和估计密度图之间的差异；利用欧几里德损失来度量像素级的估计误差；损失函数如下:

其中，N是训练批次大小，F(X_i；θ)是ED-SSPNet模型产生的估计密度图，F_i是输入图像的真实密度图；此外，还关注实际计数与估计值之间的平均绝对误差损失；损失函数如下:

其中，C(I_i)是第X_i张图像产生的估计值，C'(I_i)是实际计数值；通过对上述两个损失函数进行加权，将最终损失函数定义为:

Loss＝L_E+αL_c (6)

其中，α是平衡L_E和L_c之间权重的超参数，取值为0.01；

4-3.对ED-SSPNet模型进行端到端的训练，迭代次数为1000次，使用标准的随机梯度下降法训练，学习率设置为0.001；得到最终的ED-SSPNet模型。

步骤(5)具体实现过程如下：

5.1将测试图像输入到ED-SSPNet模型中，获得人群密度图。

5.2对密度图进行积分运算，获得最终人数。