CN115965905A

CN115965905A - 一种基于多尺度融合卷积网络的人群计数方法及系统

Info

Publication number: CN115965905A
Application number: CN202211557637.1A
Authority: CN
Inventors: 沈礼文; 李翔宇
Original assignee: 709th Research Institute of CSSC
Current assignee: 709th Research Institute of CSSC
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-14

Abstract

本发明提供了一种基于多尺度融合卷积网络的人群计数方法及系统，方法包括：获取待计数的人群图像；将所述人群图像输入至人群计数模型中的特征提取网络，获得所述特征提取网络输出的特征图；将所述特征图输入至人群计数模型中的多尺度融合卷积网络，获得所述多尺度融合卷积网络输出的人群密度图；对所述人群密度图进行积分求和运算，获得所述人群图像中的人群数量；其中，所述人群计数模型是基于样本人群图像及其对应的真实人群密度图训练得到的。本发明实现了克服人群密集时相互遮挡对计数的影响，解决人群图像中不同目标所呈现的尺度差异性较大的问题，提升人群计数的准确率和效率，并且可以应用于不同场景，具有较好的实用性。

Description

一种基于多尺度融合卷积网络的人群计数方法及系统

技术领域

本发明属于人工智能技术领域，更具体地，涉及一种基于多尺度融合卷积网络的人群计数方法及系统。

背景技术

人群计数是公共安防行业中非常需要的一种技术。人群计数指的是对于给定的一幅图像或一段视频，通过计算机自动处理，分析出其中的人数。

基于神经网络的人群计数方法是目前较为主流的人群计数方法，通过神经网络得到目标人头检测框，从而实现人头数量的统计。然而，由于遮挡、人群密集等问题，目前的基于神经网络的人群计数方法的计数准确率仍然较低。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于多尺度融合卷积网络的人群计数方法及系统，旨在解决现有人群计数方法的计数准确率较低的问题。

为实现上述目的，第一方面，本发明提供了一种基于多尺度融合卷积网络的人群计数方法，包括：

S101获取待计数的人群图像；

S102将所述人群图像输入至人群计数模型中的特征提取网络，获得所述特征提取网络输出的特征图；

S103将所述特征图输入至人群计数模型中的多尺度融合卷积网络，获得所述多尺度融合卷积网络输出的人群密度图；

S104对所述人群密度图进行积分求和运算，获得所述人群图像中的人群数量；

其中，所述人群计数模型是基于样本人群图像及其对应的真实人群密度图训练得到的。

在一个可选的示例中，所述多尺度融合卷积网络依次包括通道数为512的第一分支网络、通道数为256的第二分支网络、通道数为128的第三分支网络和通道数为64的第四分支网络；每个分支网络包括三个卷积核大小分别为3×3、5×5、7×7的卷积网络。

在一个可选的示例中，步骤S103具体包括：

将所述特征图分别输入至所述第一分支网络中的三个卷积网络，将所述第一分支网络中的三个卷积网络分别输出的特征进行融合得到融合特征，将所述融合特征分别输入至所述第二分支网络中的三个卷积网络，以此类推，最终获得所述第四分支网络输出的人群密度图。

在一个可选的示例中，在所述第一分支网络后连接通道数为512的下采样层；在所述第二分支网络后连接通道数为256的下采样层；在所述第三分支网络后连接通道数为128的下采样层；在所述第四分支网络后连接通道数为1的卷积层。

在一个可选的示例中，所述特征提取网络依次包括通道数为64的两层卷积层、通道数为128的两层卷积层、通道数为256的三层卷积层和通道数为512的三层卷积层。

第二方面，本发明提供了一种基于多尺度融合卷积网络的人群计数系统，包括：

图像获取模块，用于获取待计数的人群图像；

特征提取模块，用于将所述人群图像输入至人群计数模型中的特征提取网络，获得所述特征提取网络输出的特征图；

多尺度融合模块，用于将所述特征图输入至人群计数模型中的多尺度融合卷积网络，获得所述多尺度融合卷积网络输出的人群密度图；

人群计数模块，用于对所述人群密度图进行积分求和运算，获得所述人群图像中的人群数量；

在一个可选的示例中，所述多尺度融合模块中的多尺度融合卷积网络依次包括通道数为512的第一分支网络、通道数为256的第二分支网络、通道数为128的第三分支网络和通道数为64的第四分支网络；每个分支网络包括三个卷积核大小分别为3×3、5×5、7×7的卷积网络。

在一个可选的示例中，所述多尺度融合模块具体用于将所述特征图分别输入至所述第一分支网络中的三个卷积网络，将所述第一分支网络中的三个卷积网络分别输出的特征进行融合得到融合特征，将所述融合特征分别输入至所述第二分支网络中的三个卷积网络，以此类推，最终获得所述第四分支网络输出的人群密度图。

在一个可选的示例中，所述多尺度融合模块中的多尺度融合卷积网络在所述第一分支网络后连接通道数为512的下采样层；在所述第二分支网络后连接通道数为256的下采样层；在所述第三分支网络后连接通道数为128的下采样层；在所述第四分支网络后连接通道数为1的卷积层。

在一个可选的示例中，所述特征提取模块中的特征提取网络依次包括通道数为64的两层卷积层、通道数为128的两层卷积层、通道数为256的三层卷积层和通道数为512的三层卷积层。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种基于多尺度融合卷积网络的人群计数方法及系统，通过人群计数模型包括特征提取网络和多尺度融合卷积网络，先由特征提取网络对输入的人群图像进行特征提取，再由多尺度融合卷积网络根据提取得到的特征图进行多尺度的特征提取和融合，再通过映射得到人群密度图，最后对人群密度图进行积分求和运算获得人群数量，从而可以实现实时的人群计数预测，克服人群密集时相互遮挡对计数的影响，解决人群图像中不同目标所呈现的尺度差异性较大的问题，提升人群计数的准确率和效率，并且可以应用于不同场景，具有较好的实用性，对监控人数管理有着重要意义。

附图说明

图1是本发明实施例提供的人群计数方法的流程示意图之一；

图2是本发明实施例提供的人群计数模型的网络架构图；

图3为本发明实施例提供的人群计数方法的流程示意图之二；

图4是本发明实施例提供的人群计数系统的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于多尺度融合卷积网络的人群计数方法。图1是本发明实施例提供的人群计数方法的流程示意图之一，如图1所示，该方法包括：

步骤S101，获取待计数的人群图像。

此处，待计数的人群图像即需要进行人群计数的人群图像，可以是手机、摄像头等图像采集设备采集得到的图像，也可以是通过爬虫技术从互联网上爬取得到的图像，本发明实施例对此不作具体限定。

步骤S102，将人群图像输入至人群计数模型中的特征提取网络，获得特征提取网络输出的特征图；

步骤S103，将特征图输入至人群计数模型中的多尺度融合卷积网络，获得多尺度融合卷积网络输出的人群密度图；

步骤S104，对人群密度图进行积分求和运算，获得人群图像中的人群数量；

其中，人群计数模型是基于样本人群图像及其对应的真实人群密度图训练得到的。

具体地，在获取到待计数的人群图像之后，可以应用人群计数模型生成人群图像对应的人群密度图，在此基础上，即可直接通过对人群密度图中的像素进行积分求和运算，获得人群图像中的人群数量。此处，人群密度图用于以密度图的形式直观地表示人群的密集程度。

人群计数模型具体可以包括特征提取网络和多尺度融合卷积网络，将人群图像输入到人群计数模型之后，可以先由前端的特征提取网络对输入的人群图像进行特征提取，从而获得人群图像的2D特征图并输出给后端的多尺度融合卷积网络，再由多尺度融合卷积网络根据该特征图进行不同尺度的人群特征的提取和融合，得到人群特征图，并将人群特征图映射为人群密度图。可以理解的是，多尺度融合卷积网络输出的人群密度图即为人群计数模型的输出。

需要说明的是，本发明实施例中前端的特征提取网络提取尽可能多的特征，再由后端的多尺度融合卷积网络将前端提取到的特征图映射为点位，即通过将图像中的人头位置学习映射为具体的点位，方便后续进行人群数量的统计，提升人群计数的准确率，并且，多尺度融合卷积网络可以提取特征图中不同尺度的人群特征，可以提升人群计数模型对于人群尺度变化的敏感度，解决人群图像中不同目标所呈现的尺度差异性较大的问题。

另外，在执行步骤S102之前，还可以预先训练得到人群计数模型，具体可以通过如下方式进行训练：首先，收集大量有头部位置标签的人群图像作为样本人群图像，并利用标注信息产生对应的真实人群密度图；随即，应用样本人群图像及其对应的真实人群密度图，对初始人群计数模型进行训练，从而得到人群计数模型。

本发明实施例提供的方法，通过人群计数模型包括特征提取网络和多尺度融合卷积网络，先由特征提取网络对输入的人群图像进行特征提取，再由多尺度融合卷积网络根据提取得到的特征图进行多尺度的特征提取和融合，再通过映射得到人群密度图，最后对人群密度图进行积分求和运算获得人群数量，从而可以实现实时的人群计数预测，克服人群密集时相互遮挡对计数的影响，解决人群图像中不同目标所呈现的尺度差异性较大的问题，提升人群计数的准确率和效率，并且可以应用于不同场景，具有较好的实用性，对监控人数管理有着重要意义。

基于上述实施例，多尺度融合卷积网络依次包括通道数为512的第一分支网络、通道数为256的第二分支网络、通道数为128的第三分支网络和通道数为64的第四分支网络；每个分支网络包括三个卷积核大小分别为3×3、5×5、7×7的卷积网络。

具体地，后端的多尺度融合卷积网络依次包括卷积层通道数为512的第一分支网络、卷积层通道数为256的第二分支网络、卷积层通道数为128的第三分支网络和卷积层通道数为64的第四分支网络，每个分支网络均包含三个不同卷积核大小为3×3、5×5、7×7的卷积网络，在扩大感受视野的同时能处理不同尺度的人群特征，并且整体上保持为单列网络，能减少整体模型的参数。

并且，通过后端的多尺度融合卷积网络逐层减少通道数，可以实现逐步将前端提取到的特征图映射为点位，即通过将图像中的人头位置学习映射为具体的点位，从而方便后续人群数量的统计。

基于上述任一实施例，步骤S103具体包括：

将特征图分别输入至第一分支网络中的三个卷积网络，将第一分支网络中的三个卷积网络分别输出的特征进行融合得到融合特征，将融合特征分别输入至第二分支网络中的三个卷积网络，以此类推，最终获得第四分支网络输出的人群密度图。

具体地，在上述提供的多尺度融合卷积网络结构的基础上，具体可以通过如下方式获得较为准确的人群密度图：先将前端网络提取到的特征图分别输入到第一分支网络中的三个卷积网络中，得到这三个卷积网络输出的不同尺度的特征，再将这三个特征进行融合得到融合特征，并将融合特征分别输入至第二分支网络中的三个卷积网络，以此类推，再经过第三分支网络、第四分支网络，最终即可获得第四分支网络输出的人群密度图，作为人群计数模型的输出。

基于上述任一实施例，在第一分支网络后连接通道数为512的下采样层；在第二分支网络后连接通道数为256的下采样层；在第三分支网络后连接通道数为128的下采样层；在第四分支网络后连接通道数为1的卷积层。

具体地，可以在第一分支网络后连接通道数为512、卷积核大小为1×1的下采样层，在第二分支网络后连接通道数为256、卷积核大小为1×1的下采样层，在第三分支网络后连接通道数为128、卷积核大小为1×1的下采样层，从而通过下采样减少模型的参数，并且，在第四分支网络后连接通道数为1、卷积核大小为1×1的卷积层，最终实现将前端提取到的特征图映射为具体的点位。

进一步地，每个分支网络中的每个卷积网络后可以添加ReLU激活函数，如对于第一分支网络，特征图分别经过第一分支网络中的卷积核大小为3×3、5×5、7×7的卷积网络，再分别经过ReLU激活函数后经过全连接层进行连接，接着再经过通道数为512、卷积核大小为1×1的下采样层，最终获得的特征再输入到第二分支网络。

基于上述任一实施例，特征提取网络依次包括通道数为64的两层卷积层、通道数为128的两层卷积层、通道数为256的三层卷积层和通道数为512的三层卷积层。

具体地，考虑到VGG16网络适用于分类和定位任务，在提取图片特征时有较好的效果，因此本发明实施例取不包含全连接层的VGG16网络的前十三层作为前端的特征提取网络，其中十三层网络包括10层卷积层和3层最大池化层。

图2是本发明实施例提供的人群计数模型的网络架构图，如图2所示，前端的特征提取网络可以依次包括通道数为64的两层卷积层、最大池化层、通道数为128的两层卷积层、最大池化层、通道数为256的三层卷积层、最大池化层和通道数为512的三层卷积层。第十层卷积层的输出即为特征提取网络输出的特征图。

通过前端网络逐层增加通道数，可以实现提取更多的图像2D特征，进而可以提升后续人群计数的准确性。

基于上述任一实施例，目前，已有相关研究提出基于MCNN的人群计数方法，该方法利用3个具有不同卷积核大小的网络来分别提取人群图像的特征，这类利用多个网络的模型具有较多的参数，计算量大，无法进行实时的人群计数预测。而且多阵列的网络并不能如所描述的提取不同的人头特征，有很多低效的分支结构。另外还有研究提出基于CSRNet的人群计数方法，CSRNet利用预训练的VGG16网络，后接空洞卷积(Dilated Convolution)得到了人群估计的结果。其单列的网路结果有效地减少了模型训练难度和模型参数，但也受限于单列网络对人群尺度变化不敏感。

针对上述问题，本发明实施例提供一种基于VGG16的多尺度融合的卷积网络的人群计数方法。图3为本发明实施例提供的人群计数方法的流程示意图之二，如图3所示，该方法主要包括以下步骤：对获取的样本人群图像利用标注信息产生对应的真实人群密度图、构建基于VGG16的多尺度融合卷积网络的人群计数模型、初始化人群计数模型的权重参数、将人群计数模型的权重参数人群图像和对应生成的真实人群密度图输入网络，完成前向传播、将前向传播的结果与真实的人群密度图计算损失，更新模型参数、迭代前向传播和更新模型参数到指定次数、将输出的特征图映射为密度图，得到估计人数，各步骤的具体实施细节如下：

步骤S1：对获取的样本人群图像预处理，并利用标注信息产生对应的真实人群密度图，具体方式如下：

步骤S11：先将带有人的头部位置标签的样本人群图像转换成样本人群密度图，具体方式为，如果某个人的头部位置在像素点x，将其到相近其他人的头部位置的距离表示为δ(x-x_i)，则有N个人的头部位置标记的样本人群图像可表示为下式：

步骤S12：将位置矩阵通过几何自适应高斯核生成真实人群密度图，几何自适应定义为下式:

对于真实值δ中的每个人头，使用d_i表示该人头到k个最近邻人头的平均距离，β为定值，例如β＝0.3，k＝3，G表示高斯核。为了生成密度图，将δ(x-x_i)与参数为σ_i(标准偏差)的高斯核进行卷积运算，得到最终的密度F，其中标准差σ_i值具有几何自适应的性质。

步骤S2：构建基于VGG16的多尺度融合卷积网络的人群计数模型，如图2所示，构建的具体方式如下：

步骤S21：搭建不包含全连接层的VGG16网络，且只取其前十三层，作为前端2D特征提取器即特征提取网络；其中十三层网络包括10层卷积层和3层最大池化层；

步骤S22：搭建多尺度融合的卷积网络，利用通道数分别为512、256、128、64的4层局部分支网络，每层局部分支网络均包含三种大小为3*3、5*5、7*7的卷积核，在通道数分别为512、256、128的分支网络后加一层卷积核大小为1*1的下采样层，最后用通道数为1、卷积核大小为1*1的卷积层，作为后端网络；

步骤S23：将步骤S21搭建的VGG16网络的第十层卷积层输出的特征图分别送入多尺度融合的卷积网络；

步骤S24：将步骤S22中卷积核大小为3*3、5*5、7*7的卷积网络进行融合的具体操作是：使输入数据的张量经过分支网络后获得相应的输出张量，保持行维度不变，对列维度进行连接，外加上下采样，减少模型参数，进行特征融合；其中，行维度为通道数，对于每一层分支网络，3*3、5*5、7*7的卷积核提取后列维度不同，为了保持行列一致，可以将缺列的用0补全再进行特征融合输入下一层。

步骤S3：初始化人群计数模型的权重参数，具体方式为，对于步骤S2获得的人群计数模型，其前端特征提取器VGG16的初始值为不包含全连接层且只取前十三层的VGG16的分类权重，其他的卷积层和全连接层都采用正态分布初始化参数，其中：μ＝0，σ＝0.01，即可得到初始人群计数模型；

步骤S4：将步骤S1预处理后的样本人群图像和真实人群密度图输入网络，完成前向传播；

步骤S5：将步骤S4前向传播的结果与输入网络的真实人群密度图计算损失，更新模型参数，具体方式如下：

步骤S51：计算前向传播的结果与真实人群密度图的均方差损失，具体方式为：

其中，N代表一次前向传播的输入数据的样本数，本发明中N可以为400，Z(x_i；)代表当前第i个数据前向传播计算的密度图，

代表当前第i个数据的真实人群密度图；

步骤S52：将步骤S51计算得到的损失利用随机梯度下降法更新模型参数；

步骤S6：迭代步骤S4，S5到指定次数，本发明中迭代次数可以为400次；

步骤S7：应用迭代过程中最优的一次权重参数，获得训练完成的人群计数模型，将该模型应用于人群计数任务中，输入一张人群图像，进入前端网络提取图像的2D特征图，将获得的2D特征图分别送入卷积层通道数为512的第一分支网络中的卷积核大小为3*3、5*5、7*7的三个卷积网络，再经过卷积层通道数为256的第二分支网络、卷积层通道数为128的第三分支网络和卷积层通道数为64的第四分支网络，在通道数分别为512、256、128的分支网络后加一层卷积核大小为1*1的下采样层，最后用通道数为1、卷积核大小为1*1的卷积层，得到最终估计的人群特征图，并将人群特征图映射为人群密度图。

与当前方法相比较，本发明提出了基于VGG16的多尺度融合的卷积网络的人群计数方法，网络中包含的VGG16特征提取器作为前端网络，后端接三个不同卷积核大小为3*3、5*5、7*7的卷积网络，在扩大感受视野的同时能处理不同尺度的人群，并且整体上保持为卷积核大小分别为3*3、5*5、7*7的单列网络，利用局部分支网络来提取不同尺度的特征，进行下采样减少模型参数，进行特征融合，有较强的实用性。

本方法利用通道数分别为512、256、128、64的4层局部分支网络，每层局部分支网络均包含三种大小为3*3、5*5、7*7的卷积核，每层网络后加一层卷积核大小为1*1的下采样层，最后用通道数为1、卷积核大小为1×1的卷积层，作为后端卷积网络的方法提取不同尺度的人群特征，进而获得人群密度图用于人群计数。相比于已有方法，本发明提出的方法更为准确，可以应用于不同场景，可以克服人群密集时相互遮挡对计数的影响，可以解决人群在图片中不同分布时所呈现的不同尺度的问题，整体单列的网络能减少整体模型的参数，局部多分支网络能提取不同尺度的人群特征，具有较好的实用性，对监控人数管理有重要意义。

基于上述任一实施例，本发明实施例提供了一种基于多尺度融合卷积网络的人群计数系统。图4是本发明实施例提供的人群计数系统的架构图，如图4所示，该系统具体包括：

图像获取模块410，用于获取待计数的人群图像；

特征提取模块420，用于将人群图像输入至人群计数模型中的特征提取网络，获得特征提取网络输出的特征图；

多尺度融合模块430，用于将特征图输入至人群计数模型中的多尺度融合卷积网络，获得多尺度融合卷积网络输出的人群密度图；

人群计数模块440，用于对人群密度图进行积分求和运算，获得人群图像中的人群数量；

本发明实施例提供的系统，通过人群计数模型包括特征提取网络和多尺度融合卷积网络，先由特征提取网络对输入的人群图像进行特征提取，再由多尺度融合卷积网络根据提取得到的特征图进行多尺度的特征提取和融合，再通过映射得到人群密度图，最后对人群密度图进行积分求和运算获得人群数量，从而可以实现实时的人群计数预测，克服人群密集时相互遮挡对计数的影响，解决人群图像中不同目标所呈现的尺度差异性较大的问题，提升人群计数的准确率和效率，并且可以应用于不同场景，具有较好的实用性，对监控人数管理有着重要意义。

可以理解的是，上述各个模块的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

另外，本发明实施例提供了另一种基于多尺度融合卷积网络的人群计数装置，其包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述实施例中的方法。

此外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述实施例中的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度融合卷积网络的人群计数方法，其特征在于，包括：

S101获取待计数的人群图像；

2.根据权利要求1所述的人群计数方法，其特征在于，所述多尺度融合卷积网络依次包括通道数为512的第一分支网络、通道数为256的第二分支网络、通道数为128的第三分支网络和通道数为64的第四分支网络；每个分支网络包括三个卷积核大小分别为3×3、5×5、7×7的卷积网络。

3.根据权利要求2所述的人群计数方法，其特征在于，步骤S103具体包括：

4.根据权利要求2所述的人群计数方法，其特征在于，在所述第一分支网络后连接通道数为512的下采样层；在所述第二分支网络后连接通道数为256的下采样层；在所述第三分支网络后连接通道数为128的下采样层；在所述第四分支网络后连接通道数为1的卷积层。

5.根据权利要求1至4中任一项所述的人群计数方法，其特征在于，所述特征提取网络依次包括通道数为64的两层卷积层、通道数为128的两层卷积层、通道数为256的三层卷积层和通道数为512的三层卷积层。

6.一种基于多尺度融合卷积网络的人群计数系统，其特征在于，包括：

图像获取模块，用于获取待计数的人群图像；

7.根据权利要求6所述的人群计数系统，其特征在于，所述多尺度融合模块中的多尺度融合卷积网络依次包括通道数为512的第一分支网络、通道数为256的第二分支网络、通道数为128的第三分支网络和通道数为64的第四分支网络；每个分支网络包括三个卷积核大小分别为3×3、5×5、7×7的卷积网络。

8.根据权利要求7所述的人群计数系统，其特征在于，所述多尺度融合模块具体用于将所述特征图分别输入至所述第一分支网络中的三个卷积网络，将所述第一分支网络中的三个卷积网络分别输出的特征进行融合得到融合特征，将所述融合特征分别输入至所述第二分支网络中的三个卷积网络，以此类推，最终获得所述第四分支网络输出的人群密度图。

9.根据权利要求7所述的人群计数系统，其特征在于，所述多尺度融合模块中的多尺度融合卷积网络在所述第一分支网络后连接通道数为512的下采样层；在所述第二分支网络后连接通道数为256的下采样层；在所述第三分支网络后连接通道数为128的下采样层；在所述第四分支网络后连接通道数为1的卷积层。

10.根据权利要求6至9中任一项所述的人群计数系统，其特征在于，所述特征提取模块中的特征提取网络依次包括通道数为64的两层卷积层、通道数为128的两层卷积层、通道数为256的三层卷积层和通道数为512的三层卷积层。