CN112861718A

CN112861718A - 一种轻量级特征融合人群计数方法及系统

Info

Publication number: CN112861718A
Application number: CN202110170991.8A
Authority: CN
Inventors: 李展; 陆晋晖; 陈志涛; 陈浩; 郭思正; 陆东平; 史磊
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-05-28

Abstract

本发明公开了一种轻量级特征融合人群计数方法及系统，该方法步骤包括：根据数据集图片及对应每张图片标注，生成用于监督网络学习的真实密度图；将待计数的人群图片输入到LightCount网络中，LightCount网络包括多列并行卷积网络结构和单列深度卷积结构，多列并行卷积网络结构提取不同人头大小的特征，单列深度卷积结构提取图片信息，最终卷积操作得到预测密度图；将预测密度图与真实密度图进行欧氏距离比较，通过反向传播更新网络参数，训练得到最终的网络模型；将人群图片输入到最终的网络模型中，输出人群密度图，对人群密度图进行积分，得到最终预测的人群总数。本发明能减少网络参数量和计算时间，提高网络的计数准确性。

Description

一种轻量级特征融合人群计数方法及系统

技术领域

本发明涉及人群计数技术领域，具体涉及一种轻量级特征融合人群计数方法及系统。

背景技术

人群计数任务旨在估计人群密度分布和人群总数。一般来说，人群计数主要包括以下几类主流方法：一是基于传统检测的方法，通过滑动窗口机制，使用窗口对图像中的人头进行检测，每个检测出来的人头用回归框标注，再计算人群总数，这种方法虽然简单，但并不能体现图像中人群的分布情况，更重要的是，该方法在面对密集人群计算时，性能会严重下降，造成巨大的估计误差；二是基于回归的传统图像处理方法，这种方法通过手工提取图像中的特征，如SIFT、HOG等特征然后使用线性回归等方法对特征进行处理得到人头总数；三是近年基于卷积神经网络的方法，Fu等人提出了第一个用于人群计数的卷积神经网络模型CovNet，该模型删除了特征图中存在的一些相似网络连接并连接两个分类器，提高模型的计算速度和人群计数的准确性。随后，MCNN是第一个被提出用来处理人群基数任务的多列卷积神经网络。MCNN拥有三个卷积分支，分别使用大、中、小三种卷积核提取密集、适中、稀疏区域的人群不同聚集程度的特征，取得了一定的成效。但由于MCNN是多分支结构，需要对每个分支进行预训练，不属于完全端到端的训练方法，需要耗费更多的计算资源和训练时间，且由于MCNN三列分支是并行的，其网络结构冗余，网络结构不够精简，网络参数量大，推断时间长，不利于模型在中小平台上部署。因此，有人提出了单分支的卷积神经网络来解决这些问题，如CSRNet；CSRNet使用空洞卷积操作和单分支的卷积神经网络解决人群密度尺度不均的问题，通过扩张卷积操作的感受野提取更多对任务有用的特征，也取得了良好的成效，但由于CSRNet的网络较深，需要训练更多的网络参数量，也不利于在其他平台上部署。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种轻量级特征融合人群计数方法，本发明融合多列和单列卷积神经网络的优点，在保证效果的情况下精简网络结构，使网络更适用于其他计算资源有限的设备平台。

本发明的第二目的在于提供一种轻量级特征融合人群计数系统；

本发明的第三目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种轻量级特征融合人群计数方法，包括下述步骤：

数据集预处理：根据数据集中的图片及对应每张图片中人头中心点的二维坐标标注，生成真实密度图，所述真实密度图用于监督网络学习；

构建LightCount网络，将待计数的人群图片输入到LightCount网络中，输出预测密度图；

所述LightCount网络包括多列并行卷积网络结构和单列深度卷积结构，所述多列并行卷积网络结构设有不同大小的卷积核的并列卷积层，用于提取不同人头大小的特征，所述单列深度卷积结构设有多个串联卷积层和串联最大池化层，用于提取图片信息，各层卷积层输出特征图，最终卷积操作得到预测密度图；

将所述预测密度图与所述真实密度图进行欧氏距离比较，通过反向传播更新网络参数，训练得到最终的网络模型；

将人群图片输入到最终的网络模型中，输出人群密度图，对人群密度图进行积分，将人群密度图中所有像素点的数值相加，得到最终预测的人群总数。

作为优选的技术方案，所述真实密度图表示为：

F(x)＝δ(x-x_i)*G_σ

其中，G_σ表示高斯卷积操作，σ表示方差，x_i表示每张图片中人头中心点的二维坐标位置，x表示其它像素位置，δ表示用狄拉克δ函数计算的原始标注图。

作为优选的技术方案，还包括数据增强步骤，具体步骤包括：

对数据集的图片进行灰度化处理，在灰度图像上随机选取N个左上角起始坐标点，裁剪出N张长、宽均为原图设定缩小尺寸比例的子样本图像，作为训练图像，在获得的子样本图像中随机选取设定比例的图像作为验证集，用于观察网络的学习情况。

作为优选的技术方案，所述通过反向传播更新网络参数，训练得到最终的网络模型，具体步骤包括：

基于深度学习开源框架进行训练，损失函数采用L2损失，将得到的L2损失作为网络训练的误差，通过反向传播和梯度下降更新网络模型的参数；

卷积层的参数w_i和偏差b_i每次迭代的更新公式为：

其中，L_total表示L2损失；

将数据集中的图片划分出验证集，将验证集上得到的损失作为观测值；

每两个训练轮次比较一下当前得到的网络权重在验证集上的L2损失，若误差比上一次的验证集误差小，则保存当前网络权重；

设置训练轮次，训练结束后，得到最终的网络模型参数。

为了达到上述第二目的，本发明采用以下技术方案：

一种轻量级特征融合人群计数系统，包括：数据集预处理模块、LightCount网络构建模块、网络模型训练模块和计数模块；

所述数据集预处理模块用于进行数据集预处理：根据数据集中的图片及对应每张图片中人头中心点的二维坐标标注，生成真实密度图，所述真实密度图用于监督网络学习；

所述LightCount网络构建模块用于构建LightCount网络，将待计数的人群图片输入到LightCount网络中，输出预测密度图；

所述网络模型训练模块用于将所述预测密度图与所述真实密度图进行欧氏距离比较，通过反向传播更新网络参数，训练得到最终的网络模型；

所述计数模块用于将人群图片输入到最终的网络模型中，输出人群密度图，对人群密度图进行积分，将人群密度图中所有像素点的数值相加，得到最终预测的人群总数。

作为优选的技术方案，所述LightCount网络的输入端设有三列并行的卷积层，为第一卷积层、第二卷积层和第三卷积层，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核；

所述第一卷积层连接有第一最大池化层，所述第二卷积层连接有第二最大池化层、所述第三卷积层连接有第三最大池化层；

所述第一最大池化层、第二最大池化层、第三最大池化层的输出通过通道拼接；

设置连续的单列卷积和池化层在通道拼接后继续提取图像信息，依次设置第四卷积层、第五卷积层、第四最大池化层、第六卷积层、第五最大池化层、第七卷积层、第八卷积层和第九卷积层；

采用ReLU函数对每一层卷积层进行非线性激活；

所述第九卷积层输出最终的预测密度图。

作为优选的技术方案，所述LightCount网络在训练时，设有第一Dropout层和第二Dropout层；

所述第一Dropout层设置在第四卷积层和第五卷积层之间，所述第二Dropout层设置在第七卷积层和第八卷积层之间。

作为优选的技术方案，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核，卷积核大小分别为9×9，7×7，5×5，分别用于提取人群不同密集程度区域的特征。

作为优选的技术方案，所述第一最大池化层、第二最大池化层和第三最大池化层的卷积核大小为2×2，用于将待处理的特征图分为2×2的不重叠小邻域，对每个邻域中的四个像素值取最大值，将原特征图大小缩小为原来的1/2；

所述第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层的卷积核大小为3×3；

所述第九卷积层的卷积核大小为1×1；

各个最大池化层的卷积核大小为2×2。

为了达到上述第三目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述轻量级特征融合人群计数方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明结合多列并行卷积提取多尺度特征的优势和单列深度卷积计算量少的优势，设计出LightCount人群计数网络，LightCount人群计数网络采取的多列并行卷积网络结构，能提取不同人头大小的特征，提高网络的计数准确性；LightCount人群计数网络采取的单列深度卷积结构，能在提取特征的同时尽量减少网络参数量，减少网络的计算时间，使其更适用于有计算时间要求和存储资源有限的设备。

附图说明

图1为本发明轻量级特征融合人群计数方法的步骤流程示意图；

图2为本发明LightCount人群计数网络的结构示意图；

图3为本发明训练过程流程图。

图4为本发明通过测试图像的验证结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种轻量级特征融合人群计数方法，包括下述步骤：

S1：数据集的预处理：

对训练集中数据的处理，使用公开标注数据集，公开数据集包括RGB三通道彩色图片，以及对应每张图片中人头中心点的二维坐标标注，根据图片与坐标生成数据集所对应的真实密度图，真实密度图用于监督网络学习；

真实密度图的生成采用以下方式：生成的密度图表示为：

F(x)＝δ(x-x_i)*G_σ，

其中G_σ高斯卷积操作，σ为方差，x_i为每张图片中人头中心点的二维坐标位置，x是其他像素位置。δ是用狄拉克δ函数计算的原始标注图，即图中在人头中心点x_i位置上的函数值为1，而在其他位置上的函数值为0。不同于其他人群计数方法中使用自适应方差的方式，本实施例采用固定方差，高斯核大小设置为15×15，方差σ固定为4。对高斯模糊后的密度图像以每8×8的区域取平均值并将平均值映射到8×8区域内每一个像素点上。

在本实施例中，通过以下方式对数据进行增强：

对数据集的图片进行灰度化处理，在灰度图像上随机选取9个左上角起始坐标点，裁剪出9张长、宽均为原图1/4大小的子样本图像保存下来作为训练图像；在获得的子样本图像中随机选取10％的图像作为验证集，用于观察网络的学习情况。

S2：构建LightCount网络，将要计数的人群图片输入到LightCount网络中，LightCount网络的输出即为所需要的人群预测密度图，把预测密度图与真实密度图做欧氏距离对比，通过反向传播算法更新网络参数，训练得到最终的网络模型；

在本实施例中，采用的欧氏距离损失(L2损失)为：

其中，M为训练集大小，X^k表示第K张输入图片，D^k为真实密度图，D(X^k；θ)表示输入图片经过参数为θ的网络后输出的预测密度图；

LightCount网络的构造过程如下：

如图2所示，本实施例的人群图片首先输入到一个三列并行的卷积层，卷积核大小分别为9×9，7×7，5×5，使用三列卷积的目的是为了提取不同人群密度的不同尺度特征，9×9卷积核用于提取人群稀疏区域的特征，7×7卷积核用于提取人群适中区域的特征，5×5的卷积核用于提取人群密集区域的特征。并行卷积后紧接着一个2×2的最大池化层。在并行卷积中，使用same padding技术将输出特征图尺寸一致化。

并行卷积后紧接一个2×2的最大池化层，最大池化层依次将待处理的特征图分为2×2的不重叠小邻域，对每个邻域中的四个像素值取最大值，将原特征图大小缩小为原来的1/2。通过去掉非极大值，保留最大值，能保留主要特征来减少参数量和计算量。

结合图2所示，对这三个具有不同卷积核的并行卷积层进行卷积操作和池化操作之后，得到三组不同的特征图，通过通道拼接的方式融合为一组特征图；然后是用连续的单列卷积和池化继续提取图像信息，依次是两个卷积层，卷积核都是3×3的，再是一个2×2的最大池化层，接下来是一个具有3×3卷积核的卷积层，然后是一个2×2的最大池化层，再是两个具有3×3卷积核的卷积层，所有卷积操作步长为1，池化操作区域不重叠，详见下表1所示。其中，使用ReLU函数对每一层卷积层进行非线性激活。最后，通过1×1的卷积核对前面步骤得到的特征图进行卷积操作，得到最终密度图。在训练时，第二层和第五层加上Dropout层。其中，Dropout通过使一部分神经元失活的方式来防止训练的过拟合。

在本实施例中，卷积神经网络具体配置如下表1所示：

表1 卷积神经网络配置表

在训练时，第二层和第五层加上Dropout层。Dropout通过使一部分神经元失活的方式来防止训练的过拟合。由于第二层属于神经网络靠前部分，在靠前部分加入droput相当于为后面的卷积层加入噪声数据，以提高图像对噪声的鲁棒性；第五层属于神经网络靠后部分，在靠后部分加入dropout，接近网络输出，有利于提高网络泛化能力防止过拟合。

S3：在本实施例中，神经网络的训练过程为：基于深度学习开源框架进行训练，使用了Adam优化器，学习率设置为10^-4，损失函数使用L2损失；将得出的L2损失作为网络训练的误差，通过反向传播和梯度下降更新网络模型的参数，在本实施例中，对于卷积层的参数w_i和偏差b_i每次迭代的更新公式如下，L_total为L2损失：

同时，本实施例将验证集上得到的损失作为观测值，如图3所示，每两个训练轮次比较一下当前得到的网络权重在验证集上的L2损失(即误差)，若误差比上次的验证集误差小，则保存当前网络权重(即当前网络模型)；使用EarlyStopping，在训练过程中损失长时间不下降时尽早结束训练，即设置网络如果在50个训练轮次内没有验证集误差的下降，就认为模型已经收敛，并停止训练。在训练参数配置上，设置了4000个训练轮次，并将batchsize(每个轮次训练的图像数量)设置为1。训练结束后，得到最终的网络模型参数。

S4：将人群图片输入训练后的计数网络中，输出即为人群密度图，对人群密度图进行积分，即将密度图中所有像素点的数值相加，得到最终预测的人群总数。

如图4所示，通过测试图像验证本实施例的轻量级特征融合人群计数方法的效果，图中GT代表真实人数，Est代表计数网络预测人数；

如下表2所示，得到测试图像的计数结果，预测人数即为计数网络预测出来的人数，其中，相对误差百分比计算方式为：

其中，||为绝对值符号，相对误差百分比越小，证明计数网络的估计越接近真实人数，网络预测越精确；

并结合下表3和下表4可知，本发明通过去掉MCNN网络中冗余的多列多尺度网络结构，减少了计算量和计算时间，使其更适用于有时间要求的计算平台，有利于在其他存储资源有限的设备上部署。

表3 测试图像的计数结果表

表4 网络的质量评估表

表格中MAE为网络预测人数与实际人数之间的绝对值误差，MSE为网络预测人数与实际人数之间的均方误差，网络参数量越小，证明网络模型占用得存储空间越小，其中，k的单位为千，如56k代表参数量约为56000个。

实施例2

本实施例提供一种轻量级特征融合人群计数系统，包括：数据集预处理模块、LightCount网络构建模块、网络模型训练模块和计数模块；

在本实施例中，数据集预处理模块用于进行数据集预处理：根据数据集中的图片及对应每张图片中人头中心点的二维坐标标注，生成真实密度图，真实密度图用于监督网络学习；

在本实施例中，LightCount网络构建模块用于构建LightCount网络，将待计数的人群图片输入到LightCount网络中，输出预测密度图；

在本实施例中，LightCount网络包括多列并行卷积网络结构和单列深度卷积结构，多列并行卷积网络结构设有不同大小的卷积核的并列卷积层，用于提取不同人头大小的特征，单列深度卷积结构设有多个串联卷积层和串联最大池化层，用于提取图片信息，各层卷积层输出特征图，最终卷积操作得到预测密度图；

在本实施例中，网络模型训练模块用于将所述预测密度图与所述真实密度图进行欧氏距离比较，通过反向传播更新网络参数，训练得到最终的网络模型；

在本实施例中，计数模块用于将人群图片输入到最终的网络模型中，输出人群密度图，对人群密度图进行积分，将人群密度图中所有像素点的数值相加，得到最终预测的人群总数。

在本实施例中，LightCount网络的输入端设有三列并行的卷积层，为第一卷积层、第二卷积层和第三卷积层，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核；

在本实施例中，第一卷积层连接有第一最大池化层，所述第二卷积层连接有第二最大池化层、所述第三卷积层连接有第三最大池化层；

在本实施例中，第一最大池化层、第二最大池化层、第三最大池化层的输出通过通道拼接；

在本实施例中，设置连续的单列卷积和池化层在通道拼接后继续提取图像信息，依次设置第四卷积层、第五卷积层、第四最大池化层、第六卷积层、第五最大池化层、第七卷积层、第八卷积层和第九卷积层；

在本实施例中，采用ReLU函数对每一层卷积层进行非线性激活；

在本实施例中，第九卷积层输出最终的预测密度图。

在本实施例中，LightCount网络在训练时，设有第一Dropout层和第二Dropout层；

在本实施例中，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核，卷积核大小分别为9×9，7×7，5×5，分别用于提取人群不同密集程度区域的特征。

在本实施例中，第一最大池化层、第二最大池化层和第三最大池化层的卷积核大小为2×2，用于将待处理的特征图分为2×2的不重叠小邻域，对每个邻域中的四个像素值取最大值，将原特征图大小缩小为原来的1/2；

在本实施例中，第四卷积层、第五卷积层、第六卷积层、第七卷积层、第八卷积层的卷积核大小为3×3；第九卷积层的卷积核大小为1×1，各个最大池化层的卷积核大小为2×2。

实施例3

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的轻量级特征融合人群计数方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种轻量级特征融合人群计数方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的轻量级特征融合人群计数方法，其特征在于，所述真实密度图表示为：

F(x)＝δ(x-x_i)*G_σ

3.根据权利要求1所述的轻量级特征融合人群计数方法，其特征在于，还包括数据增强步骤，具体步骤包括：

4.根据权利要求1所述的轻量级特征融合人群计数方法，其特征在于，所述通过反向传播更新网络参数，训练得到最终的网络模型，具体步骤包括：

卷积层的参数w_i和偏差b_i每次迭代的更新公式为：

其中，L_total表示L2损失；

设置训练轮次，训练结束后，得到最终的网络模型参数。

5.一种轻量级特征融合人群计数系统，其特征在于，包括：数据集预处理模块、LightCount网络构建模块、网络模型训练模块和计数模块；

6.根据权利要求5所述的轻量级特征融合人群计数系统，其特征在于，所述LightCount网络的输入端设有三列并行的卷积层，为第一卷积层、第二卷积层和第三卷积层，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核；

采用ReLU函数对每一层卷积层进行非线性激活；

所述第九卷积层输出最终的预测密度图。

7.根据权利要求6所述的轻量级特征融合人群计数系统，其特征在于，所述LightCount网络在训练时，设有第一Dropout层和第二Dropout层；

8.根据权利要求6所述的轻量级特征融合人群计数系统，其特征在于，所述第一卷积层、第二卷积层和第三卷积层设有不同大小的卷积核，卷积核大小分别为9×9，7×7，5×5，分别用于提取人群不同密集程度区域的特征。

9.根据权利要求6所述的轻量级特征融合人群计数系统，其特征在于，所述第一最大池化层、第二最大池化层和第三最大池化层的卷积核大小为2×2，用于将待处理的特征图分为2×2的不重叠小邻域，对每个邻域中的四个像素值取最大值，将原特征图大小缩小为原来的1/2；

所述第九卷积层的卷积核大小为1×1；

各个最大池化层的卷积核大小为2×2。

10.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-4任一项所述轻量级特征融合人群计数方法。