CN113205078A - 基于多分支递进强化注意力人群计数方法 - Google Patents
基于多分支递进强化注意力人群计数方法 Download PDFInfo
- Publication number
- CN113205078A CN113205078A CN202110605989.9A CN202110605989A CN113205078A CN 113205078 A CN113205078 A CN 113205078A CN 202110605989 A CN202110605989 A CN 202110605989A CN 113205078 A CN113205078 A CN 113205078A
- Authority
- CN
- China
- Prior art keywords
- attention
- convolution
- inputting
- channel
- enhancing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000750 progressive effect Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 55
- 230000002708 enhancing effect Effects 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004807 localization Effects 0.000 claims description 9
- 101100168115 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) con-6 gene Proteins 0.000 claims description 8
- 101100168117 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) con-8 gene Proteins 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000003014 reinforcing effect Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多分支递进强化注意力人群计数方法,该方法具体步骤如下:S1:读取数据集,预处理数据;S2:构建多分支递进强化注意力神经网络;S3:训练多分支递进强化注意力神经网络并测试;S4:获取摄像头图像,输入训练好的神经网络进行测试,得到该图片的预测人数。通过上述方式,本发明能够适用于大规模密集人群场景时的人群数量检测,有效提高检测人数结果的准确性。
Description
技术领域
本发明涉及一种基于多分支递进强化注意力人群计数方法。
背景技术
随着国家城市化步伐的加快和城市经济的迅猛发展,旅游事业和人群集会场景增多的同时,伴随而来的还有安全隐患。2014年上海外滩就因人数众多,发生踩踏事件。而另一方面,随着景点集会的人数越来越多,现有的空间又不足以容纳非常多的人数时,通过限制人流量来达到对安全情况的控制,已成为了一种必要手段。因此通过一种人群计数方法,预测人群数量,对高度拥挤的场景进行预警,可以帮助相关人员进行突发事件事前预警和事后决策,人们的生命和财产安全就可得到保障。
目前已有的人群计数主要分为两种:1)基于传统方法的方法,例如支持向量机、决策树等;2)基于深度学习的方法,如MSCNN、CSRNet等网神经络方法。以上基于深度学习的人群计数方法均存在一定的局限性。方法1)使用传统方法,复杂度高,精度差;方法2)使用现有神经网络,精度较低等问题。
发明内容
本发明的目的在于提供一种基于多分支递进强化注意力人群计数方法。
为解决上述问题,本发明提供一种基于多分支递进强化注意力人群计数方法,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数。
进一步的,在上述方法中,S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。
进一步的,在上述方法中,所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计。
进一步的,在上述方法中,所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
进一步的,在上述方法中,所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
进一步的,在上述方法中,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
进一步的,在上述方法中,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
与现有技术相比,本发明的有益效果是:
1:本发明可以对高密度大规模人群进行更加准确的人群数量估计;
2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义多分支递进强化注意力模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;
3:本发明在VGG16的feature层提取特征基础上,通过自定义多分支递进强化注意力模块,进一步强化了不同区域的特征信息,提高网络对密集人群的注意力,克服了密集区域内特征提取细致的问题。
附图说明
图1是本发明一个实施例的基于多分支递进强化注意力神经网络流程示意图;
图2是本发明一个实施例的多分支递进强化注意力神经网络结构示意图;
图3是本发明一个实施例的多分支递进强化注意力模块结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于多分支递进强化注意力人群计数方法,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数。
在此,本发明提出采用多分支递进强化注意力神经网络的方法,将有效增强不同区域人群的特征,同时将注意力集中到单个图片中人群数量密集的区域,解决对高密度区域提取特征不丰富问题,强化高密度人群的特征图,使得学习特征更加精细。
本发明能够适用于大规模密集人群场景时的人群数量检测,有效提高检测人数结果的准确性。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
在此,通过此方式为每个特征图增加一个权重参数,从而提高精度;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
具体的,如图2所示,本发明提供一种基于多分支递进强化注意力的人群计数方法,对其中多分支递进强化注意力的网络结构细节进一步阐述,包括:
1:前端网络部分提取特征。以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kemel=2),512,512,512。用此结构提取到总体特征。
2:后端网络设计。
3:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数。输出预测密度图。
如图3所示,本发明提供一种基于多分支递进强化注意力的人群计数方法,对其中多分支递进强化注意力的网络结构中的递进强化注意力模块进一步阐述,包括:
1:构建多分支递进强化注意力模块网络,其中共前后两个阶段。将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2。将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8。通过此方式为每个特征图增加一个权重参数,从而提高精度。
2:构建自定义强化注意力模块。将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1。将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2。将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3。将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4。将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
3:构建自定义全通道注意力模块。将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b。再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’。
4:构建自定义交叉通道注意力模块。将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w。再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
本发明可用于大型集会及人群密集的旅游场所、商场等的人流量检测系统,利用单图片对当前图片人数进行预测,尤其在人数数量密集的情况下,本发明更加准确。
与现有技术相比,本发明的有益效果是:
1:本发明可以对高密度大规模人群进行更加准确的人群数量估计;
2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义多分支递进强化注意力模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;
3:本发明在VGG16的feature层提取特征基础上,通过自定义多分支递进强化注意力模块,进一步强化了不同区域的特征信息,提高网络对密集人群的注意力,克服了密集区域内特征提取细致的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (7)
1.一种基于多分支递进强化注意力人群计数方法,其特征在于,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数。
2.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。
3.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计。
4.如权利要求3所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
5.如权利要求4所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
6.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
7.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605989.9A CN113205078B (zh) | 2021-05-31 | 2021-05-31 | 基于多分支递进强化注意力人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110605989.9A CN113205078B (zh) | 2021-05-31 | 2021-05-31 | 基于多分支递进强化注意力人群计数方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205078A true CN113205078A (zh) | 2021-08-03 |
CN113205078B CN113205078B (zh) | 2024-04-16 |
Family
ID=77023857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110605989.9A Active CN113205078B (zh) | 2021-05-31 | 2021-05-31 | 基于多分支递进强化注意力人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205078B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947732A (zh) * | 2021-12-21 | 2022-01-18 | 北京航空航天大学杭州创新研究院 | 基于强化学习图像亮度调节的空中视角人群计数方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112597964A (zh) * | 2020-12-30 | 2021-04-02 | 上海应用技术大学 | 分层多尺度人群计数的方法 |
CN112668532A (zh) * | 2021-01-05 | 2021-04-16 | 重庆大学 | 基于多阶段混合注意网络的人群计数方法 |
-
2021
- 2021-05-31 CN CN202110605989.9A patent/CN113205078B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020169043A1 (zh) * | 2019-02-21 | 2020-08-27 | 苏州大学 | 一种密集人群计数的方法、装置、设备以及存储介质 |
CN112132023A (zh) * | 2020-09-22 | 2020-12-25 | 上海应用技术大学 | 基于多尺度上下文增强网络的人群计数方法 |
CN112597964A (zh) * | 2020-12-30 | 2021-04-02 | 上海应用技术大学 | 分层多尺度人群计数的方法 |
CN112668532A (zh) * | 2021-01-05 | 2021-04-16 | 重庆大学 | 基于多阶段混合注意网络的人群计数方法 |
Non-Patent Citations (2)
Title |
---|
朱珂;张莹;李瑞丽;: "全息课堂:基于数字孪生的可视化三维学习空间新探", 远程教育杂志, no. 04 * |
马骞;: "基于通道域注意力机制的人群密度估计算法研究", 电子设计工程, no. 15 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947732A (zh) * | 2021-12-21 | 2022-01-18 | 北京航空航天大学杭州创新研究院 | 基于强化学习图像亮度调节的空中视角人群计数方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113205078B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
Marin et al. | Efficient segmentation: Learning downsampling near semantic boundaries | |
CN106683048B (zh) | 一种图像超分辨率方法及设备 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN112597964B (zh) | 分层多尺度人群计数的方法 | |
CN111523546A (zh) | 图像语义分割方法、系统及计算机存储介质 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113283356B (zh) | 多级注意力尺度感知人群计数方法 | |
CN107169994A (zh) | 基于多特征融合的相关滤波跟踪方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN112861931B (zh) | 一种基于差异注意力神经网络的多级别变化检测方法、系统、介质及电子设备 | |
CN113538457B (zh) | 利用多频动态空洞卷积的视频语义分割方法 | |
CN111160356A (zh) | 一种图像分割分类方法和装置 | |
CN103164856A (zh) | 一种基于稠密sift流的视频复制粘贴盲检测方法 | |
CN114821058A (zh) | 一种图像语义分割方法、装置、电子设备及存储介质 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN112668532A (zh) | 基于多阶段混合注意网络的人群计数方法 | |
CN115272957A (zh) | 一种基于特征交互的人群计数方法 | |
CN116311091A (zh) | 一种基于金字塔密度感知注意力网络的车辆计数方法 | |
CN113205078B (zh) | 基于多分支递进强化注意力人群计数方法 | |
CN114821519A (zh) | 一种基于坐标注意力的交通标志识别方法及系统 | |
CN111881914B (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |