CN116071709B

CN116071709B - 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Info

Publication number: CN116071709B
Application number: CN202310333635.2A
Authority: CN
Inventors: 方炯韬; 刘茜
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-16
Anticipated expiration: 2043-03-31
Also published as: CN116071709A

Abstract

本发明公开了图像处理领域的一种基于改进型VGG16网络的人群计数方法、系统及存储介质，方法包括：采集监控场景的实时人群图像；将实时人群图像输入至预训练后的人群计数网络模型，获得对实时人群图像的计数结果；所述人群计数网络模型包括：改进原始VGG16网络，去除最后三个全连接层；充分融合不同层级语义特征；并增加了多尺度膨胀卷积块，充分融合了多尺度信息；以及分类分支辅助完成计数任务；有效解决了拥挤环境下人头较小不易检测的问题，提高整体图像的计数准确性，同时可以直观地看到人群在图片中所在的位置。

Description

一种基于改进型VGG16网络的人群计数方法、系统及存储介质

技术领域

本发明属于图像处理技术领域，具体涉及基于改进型VGG16网络的人群计数方法、系统及存储介质。

背景技术

人群计数是公共安防行业中非常需要的一种技术。对于给定的一幅图像或一段视频，通过计算机自动处理，分析出其中的人数。近年来，流感时常反复，避免人群聚集成为重中之重，而且人群聚集会带来更多安全隐患，踩踏事件在全国乃至全世界层出不穷，引起了人们的广泛关注。与此同时，视频监控摄像机也越来越普及，遍布大街小巷。利用视频中的图像数据，精确地估算出当前场景的人数及密度分布，适当地进行人流疏导，就可以尽量减少类似事件的发生。

现有的技术中关于人群计数的方法存在大量漏检、拥挤环境下人头较小不易检测以及无法直观的看到人群分布的缺陷。

发明内容

本发明的目的在于提供一种基于改进型VGG16网络的人群计数方法、系统及存储介质，对于人群较多的拥挤场景进行人群计数具有鲁棒性，避免了产生漏检现象，同时可以直观的看到人群在图片中所在的位置。

为达到上述目的，本发明所采用的技术方案是：

本发明第一方面提供了一种基于改进型VGG16网络的人群计数方法，包括：

采集监控场景的实时人群图像；将实时人群图像输入预训练后的人群计数网络模型，获得对实时人群图像的计数结果；

所述人群计数网络模型包括：特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络；

所述特征提取层为VGG16网络的前十三层；特征提取层作用于提取所述特征图P1、特征图P2和特征图P3；

所述多层语义融合模块用于对特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取，并融合形成特征图R；

所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z；

所述分类分支模块对特征图Z进行处理后，经过Sigmoid激活函数处理获得人群数量区间；

所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图，对人群密度图进行积分运算得到人群数量；

所述人群计数网络模型的训练过程包括：

由监控数据库中获取含有标注信息的人群图像，对人群图像进行预处理构建训练集、验证集及测试集；其中，标注信息为人群图像数据中的人群数量区间；

通过训练集和验证集对人群计数网络模型进行训练；利用L2范数损失和交叉熵损失构建损失函数；根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置；

通过测试集对更新的人群计数网络模型进行测试，采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值，根据评估值保存人群计数网络模型的网络参数，重复迭代直至设定的训练轮数全部完成输出最终的人群计数网络模型。

优选的，构建训练集、验证集及测试集的方法包括：

对人群图像缩放至设定尺寸，根据人群数量将人群图像划分为C个类别；将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集。

优选的，所述特征提取层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层；

Conv1_1卷积层、Conv1_2卷积层、Conv2_1卷积层、Conv2_2卷积层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层的卷积核都为3，其通道数分别为64、64、128、128、256、256、256、512、512、512、512、512、512；

Pool1最大池化层、Pool2最大池化层、Pool3最大池化层和Pool4最大池化层的步长为2以及池化区域为2，特征图P1表示为经过Conv3_3卷积层和Pool3最大池化层的特征图，特征图P2表示经过Conv4_3卷积层和Pool4最大池化层的特征图，特征图P3表示经过Conv5_3卷积层的特征图。

优选的，所述多层语义融合模块包括注意力机制；所述特征图P1通过注意力机制进行特征提取后形成特征图Y1；所述特征图P2通过注意力机制进行特征提取后，使用双线性插值的方式上采样2倍获得特征图Y2；所述特征图P3通过注意力机制进行特征提取后，使用双线性插值的方式上采样4倍获得特征图Y3；所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。

优选的，所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括：

将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制；对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接，然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图；将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图。

优选的，所述多尺度膨胀卷积模块对特征图R进行特征以及上下文信息提取形成特征图Z的方法包括：

所述多尺度膨胀卷积模块先将特征图R按通道维度平均分成第一子特征图R1、第二子特征图R2、第三子特征图R3和第四子特征图R4；对第一子特征图R1进行膨胀率为1的膨胀卷积获得特征图A1；对第二子特征图R2进行膨胀率为2的膨胀卷积获得特征图A2；对第三子特征图R3进行膨胀率为3的膨胀卷积获得特征图A3；对第四子特征图R4进行膨胀率为4的膨胀卷积获得特征图A4；

将所述特征图A1与特征图A2在通道维度上拼接后进行卷积核为3的卷积获得新特征图B2；将所述新特征图B2与特征图A3在通道维度上拼接后进行卷积核为3的卷积获得新特征图B3；将所述新特征图B3与特征图A4在通道维度上拼接后进行卷积核为3的卷积获得新特征图B4；

将特征图A1、新特征图B2、新特征图B3和新特征图B4在通道维度上拼接后进行卷积核为3的卷积获得特征图Z。

优选的，所述分类分支模块依次包括全局平均池化和全连接层；所述全局平均池化将特征图的尺寸下采样为1×1，通道数设为512；全连接层的输入结点为512，全连接层的输出结点为10，最后使用Sigmoid激活函数处理获得人群数量区间。

优选的，所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括：

对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得设定尺寸的人群密度图。

优选的，利用L2范数损失和交叉熵损失构建损失函数，表达公式为：

公式中，y_i表示为第i个训练样本的真实标记值；

表示为第i个训练样本的预测值；n表示为训练样本数；L_A为L2范数损失；L_B为交叉熵损失；表示为设定的权重参数；L表示为损失函数。

本发明第二方面提供了一种基于改进型VGG16网络的人群计数系统，包括：

监测模块，用于采集监控场景的实时人群图像；将实时人群图像输入至预训练后的人群计数网络模型，获得对实时人群图像的计数结果；所述人群计数网络模型包括：特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络；所述特征提取层为VGG16网络的前十三层；特征提取层用于提取特征图P1、特征图P2和特征图P3；所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取，将初次特征提取后的特征融合形成特征图R；所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z；所述分类分支模块对特征图Z进行处理后，经过Sigmoid激活函数处理获得人群数量区间；所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图，再对人群密度图进行积分运算得到人群数量；

获取模块，用于由监控数据库中获取含有标注信息的人群图像，对人群图像进行预处理构建训练集、验证集及测试集；其中，标注信息为人群图像数据中的人群数量区间；

训练模块，通过训练集和验证集对人群计数网络模型进行训练；所述人群计数网络模型包括：特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络；利用L2范数损失和交叉熵损失构建损失函数；根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置；

评价模块，用于通过测试集对更新的人群计数网络模型进行测试，采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值，根据评估值保存人群计数网络模型的网络参数，重复迭代直至设定的训练轮数全部完成，输出最终的人群计数网络模型。

本发明第三方面提供了计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述人群计数方法的步骤。

与现有技术相比，本发明的有益效果：

本发明基于改进型VGG16网络的人群计数方法结合VGG16网络的前十三层、多层语义融合模块、多尺度膨胀卷积模块、分类分支和生成人群密度图像的后端网络，构建人群计数网络模型；充分融合不同层级语义特征，充分融合多尺度信息，使用分类分支辅助完成计数任务，有效解决了拥挤环境下人头较小不易检测的问题，提高整体图像的计数准确性，同时可以直观地看到人群在图片中所在的位置。

附图说明

图1是本发明实施例一提供的一种基于改进型VGG16网络的人群计数方法的流程图；

图2是本发明实施例一提供的人群计数网络模型的结构图；

图3是本发明实施例一提供的VGG16网络提取特征的流程图；

图4是本发明实施例一提供的多层语义融合模块的结构图；

图5是本发明实施例一提供的注意力机制的流程图；

图6是本发明实施例一提供的多尺度膨胀卷积模块的结构图；

图7是本发明实施例一提供的分类分支模块的结构图；

图8是本发明实施例一提供的生成人群密度图像的后端网络的结构图。

实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例

如图1至图8所示，本实施例提供了一种基于改进型VGG16网络的人群计数方法，包括：

采集监控场景的实时人群图像；将实时人群图像输入预训练后的人群计数网络模型，获得对实时人群图像的计数结果。

所述人群计数网络模型的训练过程包括：

设定训练人群计数网络模型初始参数如下；初始学习率（learningrate）：0.00001；优化器（optimization）：Adam优化器；学习率衰减（learningratedecay）：等步长调整学习率策略；权重衰减（weightdecay）：0.995；批大小（batchsize）：4；训练轮数（epoch）：500；在训练前人群计数网络模型的卷积层都采用正太分布初始化参数，其中：数学期望μ＝0，方差σ＝0.01；由监控数据库中获取含有标注信息的人群图像，对人群图像缩放至设定尺寸，根据人群数量将人群图像划分为C个类别；将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集；其中，标注信息为人群图像数据中的人群数量区间；

获取基于改进型VGG16网络构建的人群计数网络模型；所述人群计数网络模型包括：特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络；

所述特征提取层为VGG16网络的前十三层；特征提取层作用于提取特征图P1、特征图P2和特征图P3；

所述多层语义融合模块用于对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取，并融合形成特征图R；

所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图，再对人群密度图进行积分运算得到人群数量。

所述VGG16网络的前十三层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层；

所述多层语义融合模块包括注意力机制；所述特征图P1通过注意力机制进行特征提取后形成特征图Y1；所述特征图P2通过注意力机制进行特征提取后，使用双线性插值的方式上采样2倍获得特征图Y2；所述特征图P3通过注意力机制进行特征提取后，使用双线性插值的方式上采样4倍获得特征图Y3；所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。

所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括：

将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制；对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接，然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图；将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图；所述输出特征图包含特征图Y1、特征图Y2和特征图Y3。

所述多尺度膨胀卷积模块对特征图R再次进行特征以及上下文信息提取形成特征图Z的方法包括：

所述分类分支模块依次包括全局平均池化和全连接层；所述全局平均池化将特征图的尺寸下采样为1×1，通道数设为512；全连接层的输入结点为512，全连接层的输出结点为10，最后使用Sigmoid激活函数处理获得人群数量区间。

所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括：

对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得人群密度图。

通过训练集和验证集对人群计数网络模型进行训练；利用L2范数损失和交叉熵损失构建损失函数；

利用L2范数损失和交叉熵损失构建损失函数，表达公式为：

公式中，y_i表示为第i个训练样本的真实标记值；

根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置；采用等步长调整学习率策略进行学习率lr衰减，衰减公式如下：

其中，base_lr为初始学习率；

采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值，表达公式为：

根据评估值保存人群计数网络模型的网络参数，直至500轮全部完成输出最终的人群计数网络模型。

实施例

一种基于改进型VGG16网络的人群计数系统，本实施例提供的系统可以应用于第一实施例所述的方法，人群计数系统包括：

实施例

本发明第三方面提供了计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一实施例所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于改进型VGG16网络的人群计数方法，其特征在于，包括：

所述特征提取层为VGG16网络的前十三层；特征提取层用于提取特征图P1、特征图P2和特征图P3；

所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取，将初次特征提取后的特征融合形成特征图R；

所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图，再对人群密度图进行积分运算得到人群数量；

所述人群计数网络模型的训练过程包括：

通过测试集对更新的人群计数网络模型进行测试，采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值，根据评估值保存人群计数网络模型的网络参数，重复迭代直至设定的训练轮数全部完成，输出最终的人群计数网络模型。

2.根据权利要求1所述的基于改进型VGG16网络的人群计数方法，其特征在于，构建训练集、验证集及测试集的方法包括：

3.根据权利要求1所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述特征提取层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层；

4.根据权利要求1所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述多层语义融合模块包括注意力机制；所述特征图P1通过注意力机制进行特征提取后形成特征图Y1；所述特征图P2通过注意力机制进行特征提取后，使用双线性插值的方式上采样2倍获得特征图Y2；所述特征图P3通过注意力机制进行特征提取后，使用双线性插值的方式上采样4倍获得特征图Y3；所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。

5.根据权利要求4所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括：

6.根据权利要求1所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述多尺度膨胀卷积模块对特征图R进行特征以及上下文信息提取形成特征图Z的方法包括：

7.根据权利要求1所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述分类分支模块依次包括全局平均池化和全连接层；所述全局平均池化将特征图的尺寸下采样为1×1，通道数设为512；全连接层的输入结点为512，全连接层的输出结点为10，最后使用Sigmoid激活函数处理获得人群数量区间。

8.根据权利要求4所述的基于改进型VGG16网络的人群计数方法，其特征在于，所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括：

9.一种基于改进型VGG16网络的人群计数系统，其特征在于，包括：

10.计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至权利要求8任一项所述方法的步骤。