CN113205078B

CN113205078B - 基于多分支递进强化注意力人群计数方法

Info

Publication number: CN113205078B
Application number: CN202110605989.9A
Authority: CN
Inventors: 沈世晖; 黄良军; 祝鲁宁; 张亚妮
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-04-16
Anticipated expiration: 2041-05-31
Also published as: CN113205078A

Abstract

本发明提供了一种基于多分支递进强化注意力人群计数方法，该方法具体步骤如下：S1：读取数据集，预处理数据；S2：构建多分支递进强化注意力神经网络；S3：训练多分支递进强化注意力神经网络并测试；S4：获取摄像头图像，输入训练好的神经网络进行测试，得到该图片的预测人数。通过上述方式，本发明能够适用于大规模密集人群场景时的人群数量检测，有效提高检测人数结果的准确性。

Description

基于多分支递进强化注意力人群计数方法

技术领域

本发明涉及一种基于多分支递进强化注意力人群计数方法。

背景技术

随着国家城市化步伐的加快和城市经济的迅猛发展，旅游事业和人群集会场景增多的同时，伴随而来的还有安全隐患。而另一方面，随着景点集会的人数越来越多，现有的空间又不足以容纳非常多的人数时，通过限制人流量来达到对安全情况的控制，已成为了一种必要手段。因此通过一种人群计数方法，预测人群数量，对高度拥挤的场景进行预警，可以帮助相关人员进行突发事件事前预警和事后决策，人们的生命和财产安全就可得到保障。

目前已有的人群计数主要分为两种：1)基于传统方法的方法，例如支持向量机、决策树等；2)基于深度学习的方法，如MSCNN、CSRNet等网神经络方法。以上基于深度学习的人群计数方法均存在一定的局限性。方法1)使用传统方法，复杂度高，精度差；方法2)使用现有神经网络，精度较低等问题。

发明内容

本发明的目的在于提供一种基于多分支递进强化注意力人群计数方法。

为解决上述问题，本发明提供一种基于多分支递进强化注意力人群计数方法，包括：

S1：读取数据集并进行数据预处理，得到预处理的数据；

S2：构建多分支递进强化注意力神经网络的主干；

S3：基于所述预处理的数据和多分支递进强化注意力神经网络的主干，训练所述多分支递进强化注意力神经网络并测试网络准确性，以得到训练好的神经网络；

S4：获取视频中的人群图像，输入进训练好的神经网络测试，得到该图片的预测人数。

进一步的，在上述方法中，S1包括：

S11：下载公开数据集；

S12：将公开数据集，分为数据集和训练集；

S13：分别将数据集和训练集的图像数据宽高像素补充为8的倍数，并按比例调整定位图的位置，以分别得到数据集的定位图和训练集的定位图；

S14：利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图，利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。

进一步的，在上述方法中，所述S2包括：

S21：设置前端网络部分提取特征的结构：以VGG16的feature层作为特征提取层，卷积核大小为3，采用Pytorch的Conv2d卷积，每个卷积层后都加上Relu激活函数，每层的通道数为64，64，128，128，MaxPooling(kernel＝2)，256，256，256，MaxPooling(kernel＝2)，512，512，512，用所述结构提取到总体特征；

S22：基于提取到的总体特征，加载VGG16网络结构的预训练参数；

S23：后端网络设计。

进一步的，在上述方法中，所述步骤S23包括：

S231：后端主干网络为：二维卷积Conv2d，卷积核大小为3，输入到网络的通道数为512，输出网络层数为128，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM1；最近邻插值上采样，上采样倍数为原数图像2倍；二维卷积Conv2d，卷积核大小为3，输入网络层数为128，输出网络层数为64，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM2；最近邻插值上采样，上采样倍数为原数图像2倍；二维卷积Conv2d，卷积核大小为3，输入网络层数为64，输出网络层数为16，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM3；最近邻插值上采样，上采样倍数为原数图像2倍；最后一层为二维卷积Conv2d输入通道数为16，输出网络层数为1，卷积核大小为1的全卷积网络，后接Relu激活函数，输出预测密度图；

S232：构建多分支递进强化注意力模块网络，其中，共前后两个阶段：将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为1，填充大小为1，得到卷积结果con1，后将con1输入强化注意力模块处理得到out1；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为2，填充大小为2，得到卷积结果con2，后将con2加上out1输入强化注意力模块得到out2；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为3，填充大小为3，得到卷积结果con3，后将con3加上out2输入强化注意力模块得到out3；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为5，填充大小为5，得到卷积结果con4，后将con4加上out3输入强化注意力模块得到out4；将out4作为第二阶段的输入图像in2，将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为5，填充大小为5，得到卷积结果con5，后将con5输入强化注意力模块得到out5；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为3，填充大小为3，得到卷积结果con6，后将con6加上out5输入强化注意力模块得到out6；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为2，填充大小为2，得到卷积结果con7，后将con7加上out6输入强化注意力模块得到out7；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为1，填充大小为1，得到卷积结果con8，后将con8加上out7输入强化注意力模块得到out8；

S233：构建自定义强化注意力模块：将特征图x输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x1；将特征图x1输入二维分离卷积，输入通道等于输出通道，卷积核大小为3，分组数groups等于通道数，得到特征图x2；将特征图x2输入全通道注意力模块，得到的结果再加上x2得到特征图x3；将特征图x3输入交叉通道注意力模块，得到的结果再加上x3得到特征图x4；将特征图x4输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x5，最后将特征图x5加上x得到强化注意力结果F。

进一步的，在上述方法中，所述S233还包括：

S2331：构建自定义全通道注意力模块：将特征图f输入全通道注意力模块中，获取其通道数c和批处理数b；再将b和c输入进平均池化层和Softmax层中，拉伸为一维的张量avg，再将avg经过Linear层、Relu层、Linear层和Sigmod层中，强化需要注意的区域，再用reshape功能将其恢复成f的维度，形成新的特征图f’；

S2332：构建自定义交叉通道注意力模块：将特征图g输入交叉通道注意力模块中，获取其通道数c和批处理数b，分别形成横向的张量h和纵向的张量w；再将h和w输入进平均池化层和Softmax层中，拉伸为两个一维的张量avg_h和avg_w，再将avg_h和avg_w经过一个Sigmod层中，强化需要注意的区域，再用reshape功能分别将两个维度的张量恢复成h和w的维度，接着再用concat功能形成新的特征图g’。

进一步的，在上述方法中，所述步骤S3包括：

S31：损失函数及参数设定：损失函数使用mse均方误差，使用Adam优化器，batchsize设为1，学习率0.00001，epoch设为2000；

S32：将处理后的高斯图输入神经网络进行训练；

S43：加载训练出的网络参数，用测试集测试评价函数mae、mse大小，以估算神经网络的性能。

进一步的，在上述方法中，所述S4包括：

S41：获取视频中的人群图像，将人群图像处理为小于1024乘1024像素，以得到处理后的图像；

S42：将处理后的图像，输入测试好的网络，得到预测人数y。

与现有技术相比，本发明的有益效果是：

1：本发明可以对高密度大规模人群进行更加准确的人群数量估计；

2：本发明改进了经典卷积神经网络的结构，通过特征提取模块和自定义多分支递进强化注意力模块代替了简单的卷积网络层，使用Adam优化器对神经网络的初始权值阈值进行优化，加快了网络的收敛速度，贴近网络最优参数，增强了网络对不同特征的提取；

3：本发明在VGG16的feature层提取特征基础上，通过自定义多分支递进强化注意力模块，进一步强化了不同区域的特征信息，提高网络对密集人群的注意力，克服了密集区域内特征提取细致的问题。

附图说明

图1是本发明一个实施例的基于多分支递进强化注意力神经网络流程示意图；

图2是本发明一个实施例的多分支递进强化注意力神经网络结构示意图；

图3是本发明一个实施例的多分支递进强化注意力模块结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于多分支递进强化注意力人群计数方法，包括：

S1：读取数据集并进行数据预处理，得到预处理的数据；

S2：构建多分支递进强化注意力神经网络的主干；

在此，本发明提出采用多分支递进强化注意力神经网络的方法，将有效增强不同区域人群的特征，同时将注意力集中到单个图片中人群数量密集的区域，解决对高密度区域提取特征不丰富问题，强化高密度人群的特征图，使得学习特征更加精细。

本发明能够适用于大规模密集人群场景时的人群数量检测，有效提高检测人数结果的准确性。

本发明的基于多分支递进强化注意力人群计数方法一实施例中，S1包括：

S11：下载公开数据集；

S12：将公开数据集，分为数据集和训练集；

本发明的基于多分支递进强化注意力人群计数方法一实施例中，所述S2包括：

S23：后端网络设计。

本发明的基于多分支递进强化注意力人群计数方法一实施例中，所述步骤S23包括：

在此，通过此方式为每个特征图增加一个权重参数，从而提高精度；

本发明的基于多分支递进强化注意力人群计数方法一实施例中，所述S233还包括：

本发明的基于多分支递进强化注意力人群计数方法一实施例中，所述步骤S3包括：

S32：将处理后的高斯图输入神经网络进行训练；

本发明的基于多分支递进强化注意力人群计数方法一实施例中，所述S4包括：

S42：将处理后的图像，输入测试好的网络，得到预测人数y。

具体的，如图2所示，本发明提供一种基于多分支递进强化注意力的人群计数方法，对其中多分支递进强化注意力的网络结构细节进一步阐述，包括：

1：前端网络部分提取特征。以VGG16的feature层作为特征提取层，卷积核大小为3，采用Pytorch的Conv2d卷积，每个卷积层后都加上Relu激活函数，每层的通道数为64，64，128，128，MaxPooling(kernel＝2)，256，256，256，MaxPooling(kernel＝2)，512，512，512。用此结构提取到总体特征。

2：后端网络设计。

3：后端主干网络为：二维卷积Conv2d，卷积核大小为3，输入到网络的通道数为512，输出网络层数为128，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM1；最近邻插值上采样，上采样倍数为原数图像2倍；二维卷积Conv2d，卷积核大小为3，输入网络层数为128，输出网络层数为64，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM2；最近邻插值上采样，上采样倍数为原数图像2倍；二维卷积Conv2d，卷积核大小为3，输入网络层数为64，输出网络层数为16，后接Relu激活函数；自定义的多分支递进强化注意力模块CPM3；最近邻插值上采样，上采样倍数为原数图像2倍；最后一层为二维卷积Conv2d输入通道数为16，输出网络层数为1，卷积核大小为1的全卷积网络，后接Relu激活函数。输出预测密度图。

如图3所示，本发明提供一种基于多分支递进强化注意力的人群计数方法，对其中多分支递进强化注意力的网络结构中的递进强化注意力模块进一步阐述，包括：

1：构建多分支递进强化注意力模块网络，其中共前后两个阶段。将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为1，填充大小为1，得到卷积结果con1，后将con1输入强化注意力模块处理得到out1；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为2，填充大小为2，得到卷积结果con2，后将con2加上out1输入强化注意力模块得到out2；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为3，填充大小为3，得到卷积结果con3，后将con3加上out2输入强化注意力模块得到out3；将输入图像in1做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为5，填充大小为5，得到卷积结果con4，后将con4加上out3输入强化注意力模块得到out4；将out4作为第二阶段的输入图像in2。将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为5，填充大小为5，得到卷积结果con5，后将con5输入强化注意力模块得到out5；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为3，填充大小为3，得到卷积结果con6，后将con6加上out5输入强化注意力模块得到out6；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为2，填充大小为2，得到卷积结果con7，后将con7加上out6输入强化注意力模块得到out7；将输入图像in2做二维卷积，输入通道等于输出通道，卷积核大小为3，扩张率为1，填充大小为1，得到卷积结果con8，后将con8加上out7输入强化注意力模块得到out8。通过此方式为每个特征图增加一个权重参数，从而提高精度。

2：构建自定义强化注意力模块。将特征图x输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x1。将特征图x1输入二维分离卷积，输入通道等于输出通道，卷积核大小为3，分组数groups等于通道数，得到特征图x2。将特征图x2输入全通道注意力模块，得到的结果再加上x2得到特征图x3。将特征图x3输入交叉通道注意力模块，得到的结果再加上x3得到特征图x4。将特征图x4输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x5，最后将特征图x5加上x得到强化注意力结果F。

3：构建自定义全通道注意力模块。将特征图f输入全通道注意力模块中，获取其通道数c和批处理数b。再将b和c输入进平均池化层和Softmax层中，拉伸为一维的张量avg，再将avg经过Linear层、Relu层、Linear层和Sigmod层中，强化需要注意的区域，再用reshape功能将其恢复成f的维度，形成新的特征图f’。

4：构建自定义交叉通道注意力模块。将特征图g输入交叉通道注意力模块中，获取其通道数c和批处理数b，分别形成横向的张量h和纵向的张量w。再将h和w输入进平均池化层和Softmax层中，拉伸为两个一维的张量avg_h和avg_w，再将avg_h和avg_w经过一个Sigmod层中，强化需要注意的区域，再用reshape功能分别将两个维度的张量恢复成h和w的维度，接着再用concat功能形成新的特征图g’。

本发明可用于大型集会及人群密集的旅游场所、商场等的人流量检测系统，利用单图片对当前图片人数进行预测，尤其在人数数量密集的情况下，本发明更加准确。

与现有技术相比，本发明的有益效果是：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于多分支递进强化注意力人群计数方法，其特征在于，包括：

S1：读取数据集并进行数据预处理，得到预处理的数据；

S2：构建多分支递进强化注意力神经网络的主干；

S4：获取视频中的人群图像，输入进训练好的神经网络测试，得到该图片的预测人数；

S1包括：

S11：下载公开数据集；

S12：将公开数据集，分为数据集和训练集；

S14：利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图，利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图；

所述S2包括：

S23：后端网络设计；

所述步骤S23包括：

S233：构建自定义强化注意力模块：将特征图x输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x1；将特征图x1输入二维分离卷积，输入通道等于输出通道，卷积核大小为3，分组数groups等于通道数，得到特征图x2；将特征图x2输入全通道注意力模块，得到的结果再加上x2得到特征图x3；将特征图x3输入交叉通道注意力模块，得到的结果再加上x3得到特征图x4；将特征图x4输入二维卷积，输入通道等于输出通道，卷积核大小为3，后接Relu激活函数得到特征图x5，最后将特征图x5加上x得到强化注意力结果F；

所述S233还包括：

2.如权利要求1所述的基于多分支递进强化注意力人群计数方法，其特征在于，所述步骤S3包括：

S32：将处理后的高斯图输入神经网络进行训练；

3.如权利要求1所述的基于多分支递进强化注意力人群计数方法，其特征在于，所述S4包括：

S42：将处理后的图像，输入测试好的网络，得到预测人数y。