CN109598220B - 一种基于多元输入多尺度卷积的人数统计方法 - Google Patents
一种基于多元输入多尺度卷积的人数统计方法 Download PDFInfo
- Publication number
- CN109598220B CN109598220B CN201811415338.8A CN201811415338A CN109598220B CN 109598220 B CN109598220 B CN 109598220B CN 201811415338 A CN201811415338 A CN 201811415338A CN 109598220 B CN109598220 B CN 109598220B
- Authority
- CN
- China
- Prior art keywords
- image
- scale
- convolution
- network
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多元输入多尺度卷积的人数统计方法,包括步骤如下:(1)对图像进行大尺度卷积处理,并且提取图像特征;(2)对图像进行小尺度卷积处理,并且提取图像特征;(3)对密度图进行最大池化,并且提取特征;(4)通过图像和密度图的特征向量计算图像中的人数。本发明提高了网络对尺度变化的鲁棒性,降低了在测试集上的均方误差。
Description
技术领域
本发明涉及一种基于多元输入多尺度卷积的人数统计方法,属于图像处理技术领域。
背景技术
从静态图像中准确估计人数是为了实现重点区域内的人群密度监控,以防范可能发生的群众聚集和踩踏事件。在数字图像中,随着人群密度的增加,每个人在图像中所占的像素数量也越来越少,人数统计也越来越难。受到复杂背景、物体遮挡和透视失真等因素影响,图像中人数的精确估计非常困难。近年来,基于卷积神经网络的深度学习技术得到广泛的研究。针对人数的精确估计,研究人员设计了相应的卷积神经网络结构,极大提高了人数统计的准确度。
Zhang[1]等人提出了一种基于多列卷积神经网络的单张图像人群计数算法,如图3所示,其中的多列卷积神经网络有三个子网络,每个子网络用到卷积核的大小不同,每个子网络的输入为同一张图像,在经过四次卷积和两次池化后,三个子网络输出的特征图在“通道”维度上链接在一起,再用一个1×1的核卷积得到人群的密度图。但是,这三个子网络只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度。
Daniel[2]提出了一种基于多尺度块的多分支卷积网络,如图4所示。该方案由三个不同的子网组成,虽然输入块有不同的尺度,但是,该专利的三个子网络的结构是一样的,并且这三个子网络只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度。
Han[3]提出了基于残差网络(ResNet)和条件随机场相结合的方法,如图5所示。该方案首先从每张图像中有重叠地采样出若干个块,然后用残差网络计算出每个块的人数预测值,然后把这些块的人数预测值送到条件随机场计算图像中的人数预测值。但是,该方案必须先用残差网络计算出每个块的预测值,然后才能利用条件随机场预测出图像中的人数;也就是说,该方案是分步执行的,并且这两个步骤不能合并成一个步骤。
中国专利文献CN107657226 A公开了一种基于深度学习的人数估计方法,属于基于深度学习的人群密度估计。采用一种基于卷积层和池化层的单列卷积神经网络,通过大量样本的训练,学习人群特征,从而估计输入图像的人群密度图,进而对密度图进行积分,得到该图像上人群的人数估计。虽然,该专利采用基于单列卷积神经网络,降低了网络复杂度,但是不能证明对密度图进行积分就能得到该图像上人数的准确估计。
中国专利文献CN105528589A公开了一种基于多列卷积神经网络的单张图像人群计数算法,其中的多列卷积神经网络有三个子网络,每个子网络用到卷积核的大小不同,每个子网络的输入为同一张图像,在经过四次卷积和两次池化后,三个子网络输出的特征图在“通道”维度上链接在一起,再用一个1×1的核卷积得到人群的密度图。但是,该专利的三个子网络只在网络的高层链接在一起,在网络浅层的多尺度特征没有被充分融合,造成了几何特征丢失,影响了人数估计的精度。
上述两篇现有专利文献中虽然都采用了卷积神经网络及密度图统计人数,但是各个子网络之间没有交叉链接实现信息交流。此外,也并没有证据表明密度图的积分等于图像中的人数。
通过实验发现,图像中物体遮挡和透视失真较严重时,Zhang[1]等人提出的一种基于多列卷积神经网络的单张图像人群计数算法、Daniel[2]提出的一种基于多尺度块的多分支卷积网络及Han[3]提出了基于残差网络(ResNet)和条件随机场相结合的方法的准确度仍然较低。比如说,Zhang[1]与中国专利文献CN105528589A提出的方案虽然每个子网络的尺度不同,但是,在浅层的多尺度特征没有被充分融合,仅仅融合了高层的多尺度特征。Daniel[2]提出的方案虽然利用了多列卷积网络,但是每列的结构相同,多尺度特征仅仅体现在训练集包含的块具有不同的尺度而已。Han[3]提出的方案需要先计算每个块的人数预测值,然后基于这些块的预测值计算图像中人数的预测值,然而对于复杂纹理区域从图像中有重叠地采样可能会给模型增加噪声。因此基于深度学习的人数估计算法还有很大的提升空间。
发明内容
针对现有静态图像人数统计技术存在的不足,本发明提出一种基于多元输入多尺度卷积的人数统计方法。
本发明涉及图像分析中的特征提取技术和统计分析中的回归模型,采用深度卷积网络提取特征,并将指示局部人群密度的密度图当作辅助信息,用监督学习的方式训练网络,将得到的网络参数用于未知图像人数的预测,降低了预测的误差。
术语解释:
1.批归一化(Batch Normalization)处理,包括以下四个步骤:
①求每一个训练批次数据的均值;
②求每一个训练批次数据的方差;
③使用求得的均值和方差对该批次的训练数据做规范化,即把该批次的每一个训练数据减去均值后再除以标准差;
④乘以尺度因子γ,再加上平移因子β。
2.线性整流(ReLU)激活函数,是指f(x)=max(0,x)。
3.最大池化(即“下采样”)操作,是指对邻域内的特征点取最大。
5.mini-batch随机梯度下降算法,一阶最优化算法,要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长进行迭代搜索。而mini-batch随机梯度下降算法在更新每一参数时都只使用“一部分”样本。
6.大尺度卷积模块,如图1所示,图像同时经过尺寸为11×11,9×9,7×7的卷积核卷积,每一个尺度的卷积之后都经过一次批归一化和一次线性整流激活函数,最后将所得的特征图在特征维度上链接在一起。图中的N1表示卷积核的个数。
7.小尺度卷积模块,如图2所示,图像同时经过尺寸为5×5,3×3的卷积核卷积,每一个尺度的卷积之后都经过一次批归一化和一次线性整流激活函数,最后将所得的特征图在特征维度上链接在一起。图中的N2表示卷积核的个数。
发明概述:
一种基于多元输入多尺度卷积的人数统计方法,包括步骤如下:
(1)对图像进行大尺度卷积处理,并且提取特征;
(2)对图像进行小尺度卷积处理,并且提取特征;
(3)对密度图进行最大池化操作,并且提取特征;
(4)通过图像和密度图的特征向量计算图像中的人数。
本发明的技术方案为:
一种基于多元输入多尺度卷积的人数统计方法,包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数。
根据本发明优选的,所述步骤(1),获取多尺度数据,包括:
①对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
进一步优选的,所述步骤①中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。
②将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
进一步优选的,所述步骤②中,将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为320×240。
③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加共4种操作,获得新的图像集合,记为I;
④对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
⑤通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;σ的取值范围是0.05到10;
进一步优选的,σ=3.0。
⑥获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(2)对多尺度数据进行多级多尺度卷积处理;
运行于基于多输入源的级联多尺度深度卷积模型;该模型包括三个子网络,包括子网络一、子网络二、子网络三,子网络一和子网络二用到卷积核的大小不同,输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理,得到64维特征向量;同时,输入图像在子网络二依次经过三个小尺度卷积模块,再经过一个全连接层处理,得到64维特征向量;密度图在子网络三内经过两次最大池化和一次批归一化,在子网络三的输出,得到64维特征向量;将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层,输出一个数,这个数就表示图像中的人数;
网络结构部署如下:
进一步优选的,所述步骤(2)中,子网络一对图像集合I做大尺度卷积处理,获得特征向量:包括:
a、采用N1为16的大尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该大尺度卷积模块内的4个卷积核进行随机初始化;
b、采用该大尺度卷积模块对大小为320×240的输入图像进行卷积;
c、采用滑动窗口为3、步长为2的最大池化对大尺度卷积模块的卷积结果进行下采样操作,将输出图像集合标记为Ο11;
d、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对小尺度卷积模块内的3个卷积核进行随机初始化;
e、采用该小尺度卷积模块对Ο11进行卷积,再进行一次批归一化处理;将输出图像的集合记为Ο12;
f、采用一个输入有1131个神经单元,输出有64个神经单元的全连接层MLP11,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W11,并将偏置项b初始化为0;采用全连接层MLP11处理Ο12,经过线性整流(ReLU)激活函数,得到64维的特征向量v11。
进一步优选的,所述步骤(2)中,子网络二,对图像集合I做小尺度卷积处理,并且获得特征向量,包括:
g、采用N2为16的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
h、采用该小尺度卷积模块对大小为320×240的输入图像进行卷积;再进行一次批归一化处理,将所得图像集合标记为Ο21;
i、采用滑动窗口为3、步长为2的最大池化对Ο21进行下采样操作,将所得图像集合标记为Ο22;
j、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
k、采用该小尺度卷积模块对Ο22进行卷积,接着进行一次批归一化处理,将所得图像集合标记为Ο23;
l、采用N2为6的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
m、采用N2为6的小尺度卷积模块对Ο23进行卷积,再进行一次批归一化处理,将所得图像集合标记为Ο24;
n、采用一个输入有285个神经单元、输出有64个神经单元的全连接层MLP21,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W21,并将偏置项b初始化为0;用全连接层MLP21处理Ο24,经过线性整流(ReLU)激活函数,得到64维的特征向量v21。
进一步优选的,所述步骤(2)中,子网络三,从密度图集合M获得特征向量,包括:
o、对密度图依次进行滑动窗口为3、步长为2的最大池化和滑动窗口为2、步长为1的最大池化;
p、经过批归一化处理,将输出的图像的集合标记为Ο31;
r、用全连接层MLP31处理Ο31和Ο21,并且经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量v31。
进一步优选的,所述步骤(2)中,利用图像和密度图的特征向量计算图像中的人数,包括:
(3)网络训练:
ⅰ、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,n表示训练集增广后的样本数量,即n=70400。F(Ij,Mj,Θ)表示整个网络学习到的函数,j表示图像编号,λ表示正则项的权重,Ij,Mj,Θ分别表示主、从输入和网络参数;
ⅱ、应用mini-batch随机梯度下降算法最小化损失函数,mini-batch为16;
ⅲ、在训练网络之前,设置超参数,包括初始学习率base_lr,每t次迭代学习率降低到原来的r%,最大迭代次数n,网络参数更新冲量m;网络参数衰减系数beta;base_lr的取值范围为1e-1~1e-6,t的取值范围为1~10000,r的取值范围为0.01~100,n的取值范围为1000~100000,m的取值范围为0.09~0.99,beta的取值范围为0.00005~0.5;
进一步优选的,base_lr的取值范围为1e-5;t的取值为2000;r的取值为10;n的取值为10000;m的取值为0.95;beta的取值为0.0005。
ⅳ、采取分级预训练的策略训练整个基于多输入源的级联多尺度深度卷积模型:
首先,预训练子网络一,用所得参数初始化子网络一;然后,预训练子网络二,用所得参数初始化子网络二;最后,训练整个模型;
B、测试过程:
利用训练所得的模型参数,初始化基于多输入源的级联多尺度深度卷积模型,把测试集中的图像及其对应的密度图分别作为模型的主、从输入,模型直接输出图像中的人数。如果在实际应用中,只有测试图像没有对应的密度图,则可以用全卷积网络产生的密度图代替真实的密度图。
本发明的有益效果为:
1.本发明提出了一种图像(块)多尺度和卷积核多尺度相结合的方法,提高了网络对尺度变化的鲁棒性,降低了在测试集上的均方误差;
2.本发明利用密度图作为辅助信息,提高了人数估计的准确度;
3.本发明提出了多层级联的多尺度卷积网络结构,增强了网络的特征提取能力。
附图说明
图1为大尺度卷积模块的结构框图;
图2为小尺度卷积模块的结构框图;
图3是Zhang等人提出的多列卷积网络的架构图。
图4是Daniel等人提出的一种基于多尺度块的多分支卷积网络的架构图。
图5是Han等人提出的一种将残差网络(ResNet)、全连接网络和马尔可夫随机场相结合的架构图。
图6是本发明提出的一种基于多输入源的级联多尺度深度卷积模型的网络结构图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于多元输入多尺度卷积的人数统计方法,包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数。
(2)对多尺度数据进行多级多尺度卷积处理;
运行于基于多输入源的级联多尺度深度卷积模型;如图6所示,该模型包括三个子网络,包括子网络一、子网络二、子网络三,子网络一和子网络二用到卷积核的大小不同,输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理,得到64维特征向量;同时,输入图像在子网络二依次经过三个小尺度卷积模块,再经过一个全连接层处理,得到64维特征向量;密度图在子网络三内经过两次最大池化和一次批归一化,在子网络三的输出,得到64维特征向量;将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层,输出一个数,这个数就表示图像中的人数;图1为大尺度卷积模块的结构框图如图1所示,小尺度卷积模块的结构框图如图2所示。
(3)网络训练:
ⅰ、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,n表示训练集增广后的样本数量,即n=70400。F(Ij,Mj,Θ)表示整个网络学习到的函数,j表示图像编号,λ表示正则项的权重,Ij,Mj,Θ分别表示主、从输入和网络参数;
ⅱ、应用mini-batch随机梯度下降算法最小化损失函数,mini-batch为16;
ⅲ、在训练网络之前,设置超参数,包括初始学习率base_lr,每t次迭代学习率降低到原来的r%,最大迭代次数n,网络参数更新冲量m;网络参数衰减系数beta;base_lr的取值范围为1e-1~1e-6,t的取值范围为1~10000,r的取值范围为0.01~100,n的取值范围为1000~100000,m的取值范围为0.09~0.99,beta的取值范围为0.00005~0.5;
ⅳ、采取分级预训练的策略训练整个基于多输入源的级联多尺度深度卷积模型:
首先,预训练子网络一,用所得参数初始化子网络一;然后,预训练子网络二,用所得参数初始化子网络二;最后,训练整个模型;
B、测试过程:
利用训练所得的模型参数,初始化基于多输入源的级联多尺度深度卷积模型,把测试集中的图像及其对应的密度图分别作为模型的主、从输入,模型直接输出图像中的人数。
实施例2
根据实施例1所述的一种基于多元输入多尺度卷积的人数统计方法,其区别在于:
步骤(1),获取多尺度数据,包括:
①对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
②将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加共4种操作,获得新的图像集合,记为I;
④对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
⑤通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;σ的取值范围是0.05到10;
⑥获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
步骤(2)中,子网络一对图像集合I做大尺度卷积处理,获得特征向量:包括:
a、采用N1为16的大尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该大尺度卷积模块内的4个卷积核进行随机初始化;
b、采用该大尺度卷积模块对大小为320×240的输入图像进行卷积;
c、采用滑动窗口为3、步长为2的最大池化对大尺度卷积模块的卷积结果进行下采样操作,将输出图像集合标记为Ο11;
d、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对小尺度卷积模块内的3个卷积核进行随机初始化;
e、采用该小尺度卷积模块对Ο11进行卷积,再进行一次批归一化处理;将输出图像的集合记为Ο12;
f、采用一个输入有1131个神经单元,输出有64个神经单元的全连接层MLP11,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W11,并将偏置项b初始化为0;采用全连接层MLP11处理Ο12,经过线性整流(ReLU)激活函数,得到64维的特征向量v11。
步骤(2)中,子网络二,对图像集合I做小尺度卷积处理,并且获得特征向量,包括:
g、采用N2为16的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
h、采用该小尺度卷积模块对大小为320×240的输入图像进行卷积;再进行一次批归一化处理,将所得图像集合标记为Ο21;
i、采用滑动窗口为3、步长为2的最大池化对Ο21进行下采样操作,将所得图像集合标记为Ο22;
j、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
k、采用该小尺度卷积模块对Ο22进行卷积,接着进行一次批归一化处理,将所得图像集合标记为Ο23;
l、采用N2为6的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
m、采用N2为6的小尺度卷积模块对Ο23进行卷积,再进行一次批归一化处理,将所得图像集合标记为Ο24;
n、采用一个输入有285个神经单元、输出有64个神经单元的全连接层MLP21,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W21,并将偏置项b初始化为0;用全连接层MLP21处理Ο24,经过线性整流(ReLU)激活函数,得到64维的特征向量v21。
进一步优选的,所述步骤(2)中,子网络三,从密度图集合M获得特征向量,包括:
o、对密度图依次进行滑动窗口为3、步长为2的最大池化和滑动窗口为2、步长为1的最大池化;
p、经过批归一化处理,将输出的图像的集合标记为Ο31;
r、用全连接层MLP31处理Ο31和Ο21,并且经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量v31。
步骤(2)中,利用图像和密度图的特征向量计算图像中的人数,包括:
实施例3
根据实施例1所述的一种基于多元输入多尺度卷积的人数统计方法,其区别在于:
步骤(1),获取多尺度数据,包括:
①对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。
②将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为320×240。
③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加共4种操作,获得新的图像集合,记为I;该步骤仅对训练集有效,对测试集无效。
④对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;对测试集的每一幅图像执行同样的操作;
⑤通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0dxc表示尺寸为e×f的全零矩阵;σ=3.0。
⑥获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
步骤(2)中,子网络一对图像集合I做大尺度卷积处理,获得特征向量:包括:
a、采用N1为16的大尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该大尺度卷积模块内的4个卷积核进行随机初始化;
b、采用该大尺度卷积模块对大小为320×240的输入图像进行卷积;
c、采用滑动窗口为3、步长为2的最大池化对大尺度卷积模块的卷积结果进行下采样操作,将输出图像集合标记为Ο11;
d、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对小尺度卷积模块内的3个卷积核进行随机初始化;
e、采用该小尺度卷积模块对Ο11进行卷积,再进行一次批归一化处理;将输出图像的集合记为Ο12;
f、采用一个输入有1131个神经单元,输出有64个神经单元的全连接层MLP11,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W11,并将偏置项b初始化为0;采用全连接层MLP11处理Ο12,经过线性整流(ReLU)激活函数,得到64维的特征向量v11。
步骤(2)中,子网络二,对图像集合I做小尺度卷积处理,并且获得特征向量,包括:
g、采用N2为16的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
h、采用该小尺度卷积模块对大小为320×240的输入图像进行卷积;再进行一次批归一化处理,将所得图像集合标记为Ο21;
i、采用滑动窗口为3、步长为2的最大池化对Ο21进行下采样操作,将所得图像集合标记为Ο22;
j、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
k、采用该小尺度卷积模块对Ο22进行卷积,接着进行一次批归一化处理,将所得图像集合标记为Ο23;
l、采用N2为6的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
m、采用N2为6的小尺度卷积模块对Ο23进行卷积,再进行一次批归一化处理,将所得图像集合标记为Ο24;
n、采用一个输入有285个神经单元、输出有64个神经单元的全连接层MLP21,用最小值为最大值为的均匀分布初始化全连接层的权重矩阵W21,并将偏置项b初始化为0;用全连接层MLP21处理Ο24,经过线性整流(ReLU)激活函数,得到64维的特征向量v21。
步骤(2)中,子网络三,从密度图集合M获得特征向量,包括:
o、对密度图依次进行滑动窗口为3、步长为2的最大池化和滑动窗口为2、步长为1的最大池化;
p、经过批归一化处理,将输出的图像的集合标记为Ο31;
r、用全连接层MLP31处理Ο31和Ο21,并且经过一种常见的S函数(sigmoid)激活函数,得到64维的特征向量v31。
步骤(2)中,利用图像和密度图的特征向量计算图像中的人数,包括:
步骤(3)中,网络训练,包括:
ⅰ、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,n表示训练集增广后的样本数量,即n=70400。F(Ij,Mj,Θ)表示整个网络学习到的函数,j表示图像编号,λ表示正则项的权重,Ij,Mj,Θ分别表示主、从输入和网络参数;
ⅱ、应用mini-batch随机梯度下降算法最小化损失函数,mini-batch为16;
ⅲ、在训练网络之前,设置超参数,包括初始学习率base_lr,每t次迭代学习率降低到原来的r%,最大迭代次数n,网络参数更新冲量m;网络参数衰减系数beta;base_lr的取值范围为1e-5;t的取值为2000;r的取值为10;n的取值为10000;m的取值为0.95;beta的取值为0.0005。
ⅳ、采取分级预训练的策略训练整个基于多输入源的级联多尺度深度卷积模型:
首先,预训练子网络一,用所得参数初始化子网络一;然后,预训练子网络二,用所得参数初始化子网络二;最后,训练整个模型;
本实施例的效果可以通过实验进一步说明。表1比较了采用本发明与Zhang等人的方法、Daniel等人的方法和Han等人的方法在UCSD和MALL图像数据库的测试集上的预测误差。表中“(用真实密度图计算)”是指:把真实密度图的像素和看作是对应图像中的真实人数。
表1
由表1可知,本发明的方法比其它四种方法更准确。
Claims (10)
1.一种基于多元输入多尺度卷积的人数统计方法,其特征在于,包括步骤如下:
A、训练过程
(1)获取多尺度数据,多尺度数据是指多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数;
(2)对多尺度数据进行多级多尺度卷积处理;运行于基于多输入源的级联多尺度深度卷积模型;该模型包括三个子网络,包括子网络一、子网络二、子网络三,子网络一和子网络二用到卷积核的大小不同,输入图像在子网络一依次经过一个大尺度卷积模块、一个小尺度卷积模块、一个全连接层处理,得到64维特征向量;同时,输入图像在子网络二依次经过三个小尺度卷积模块,再经过一个全连接层处理,得到64维特征向量;密度图在子网络三内经过两次最大池化和一次批归一化,在子网络三的输出,得到64维特征向量;将在子网络一得到的64维特征向量、子网络二得到的64维特征向量和子网络三得到的64维特征向量同时输入全连接层,输出一个数,这个数就表示图像中的人数;
(3)网络训练:
ⅰ、定义损失函数,即待优化的目标函数如式(Ⅰ)所示:
式(Ⅰ)中,n表示训练集增广后的样本数量,F(Ij,Mj,Θ)表示整个网络学习到的函数,j表示图像编号,λ表示正则项的权重,Ij,Mj,Θ分别表示主、从输入和网络参数;
ii、应用mini-batch随机梯度下降算法最小化损失函数,mini-batch为16;
ⅲ、在训练网络之前,设置超参数,包括初始学习率base_lr,每t次迭代学习率降低到原来的r%,最大迭代次数n,网络参数更新冲量m;网络参数衰减系数beta;base_lr的取值范围为1e-1~1e-6,t的取值范围为1~10000,r的取值范围为0.01~100,n的取值范围为1000~100000,m的取值范围为0.09~0.99,beta的取值范围为0.00005~0.5;
iv、采取分级预训练的策略训练整个基于多输入源的级联多尺度深度卷积模型:
首先,预训练子网络一,用所得参数初始化子网络一;然后,预训练子网络二,用所得参数初始化子网络二;最后,训练整个模型;
B、测试过程:
利用训练所得的模型参数,初始化基于多输入源的级联多尺度深度卷积模型,把测试集中的图像及其对应的密度图分别作为模型的主、从输入,模型直接输出图像中的人数。
2.根据权利要求1所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,base_lr的取值范围为1e-5;t的取值为2000;r的取值为10;n的取值为10000;m的取值为0.95;beta的取值为0.0005。
3.根据权利要求1所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,所述步骤(1),获取多尺度数据,包括:
①对图像数据库中的每一幅图像做随机裁剪,得到M个大小为a×b、N个大小为c×d的图像块,M取值范围是1-100,N的取值范围是1-100,a的取值范围是1-320,b的取值范围是1-240,c的取值范围是1-320,d的取值范围是1-240,a、b、c、d的单位为像素;
②将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为e×f,e的取值范围是80-640,f的取值范围是60-480;
③对图像数据库中的每一幅图像以及每个图像块都分别依次进行水平翻转、垂直翻转、中心对称变换、高斯噪声添加操作,获得新的图像集合,记为I;
④对新的图像集合I中的每一幅图像的人头位置进行标注,得到图像集合I的标注模板图集合,记为L,以及新的图像集合I中所有图像中人数的集合C;
⑤通过式(Ⅱ)对标注模板集合L中每一幅图像进行处理,得到图像集合I的密度图集合,记为M:
式(Ⅱ)中,{(xk,yk),0≤k≤Ci}表示图像i中标记出的人的像素位置,Ci表示图像i中的人数,Mi(x,y)表示图像i对应的密度图,σ是标准差,i表示图像的编号,0e×f表示尺寸为e×f的全零矩阵;σ的取值范围是0.05到10;
⑥获得多尺度数据训练集(I,M,C),每个样本用(Ii,Mi,Ci)表示,即Ii表示图像i,Mi表示图像i的密度图,Ci表示图像i中的人数。
4.根据权利要求3所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,所述步骤①中,对图像数据库中的每一幅图像做随机裁剪,得到5个大小为120×80、5个大小为150×100的图像块。
5.根据权利要求3所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,所述步骤②中,将图像数据库中的每一幅图像,以及步骤①随机截取的每个图像块的分辨率调整为320×240。
6.根据权利要求3所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,σ=3.0。
7.根据权利要求1所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,所述步骤(2)中,子网络一对图像集合I做大尺度卷积处理,获得特征向量:包括:
a、采用N1为16的大尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该大尺度卷积模块内的4个卷积核进行随机初始化;
b、采用该大尺度卷积模块对大小为320×240的输入图像进行卷积;
c、采用滑动窗口为3、步长为2的最大池化对大尺度卷积模块的卷积结果进行下采样操作,将输出图像集合标记为Ο11;
d、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对小尺度卷积模块内的3个卷积核进行随机初始化;
e、采用该小尺度卷积模块对Ο11进行卷积,再进行一次批归一化处理;将输出图像的集合记为Ο12;
8.根据权利要求7所述的一种基于多元输入多尺度卷积的人数统计方法,其特征在于,所述步骤(2)中,子网络二,对图像集合I做小尺度卷积处理,并且获得特征向量,包括:
g、采用N2为16的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
h、采用该小尺度卷积模块对大小为320×240的输入图像进行卷积;再进行一次批归一化处理,将所得图像集合标记为Ο21;
i、采用滑动窗口为3、步长为2的最大池化对Ο21进行下采样操作,将所得图像集合标记为Ο22;
j、采用N2为8的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
k、采用该小尺度卷积模块对Ο22进行卷积,接着进行一次批归一化处理,将所得图像集合标记为Ο23;
l、采用N2为6的小尺度卷积模块,并且采用均值为0、方差为1的高斯分布,对该小尺度卷积模块的3个卷积核进行随机初始化;
m、采用N2为6的小尺度卷积模块对Ο23进行卷积,再进行一次批归一化处理,将所得图像集合标记为Ο24;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415338.8A CN109598220B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多元输入多尺度卷积的人数统计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811415338.8A CN109598220B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多元输入多尺度卷积的人数统计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109598220A CN109598220A (zh) | 2019-04-09 |
CN109598220B true CN109598220B (zh) | 2021-07-30 |
Family
ID=65959551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811415338.8A Active CN109598220B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多元输入多尺度卷积的人数统计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598220B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110264410B (zh) * | 2019-05-07 | 2021-06-15 | 西安理工大学 | 一种基于细节特征的图像超分辨率重建方法 |
CN110705344B (zh) * | 2019-08-21 | 2023-03-28 | 中山大学 | 一种基于深度学习的人群计数模型及其实现方法 |
CN110516394A (zh) * | 2019-09-02 | 2019-11-29 | 南京航空航天大学 | 基于深度神经网络的航空发动机稳态模型建模方法 |
CN110866445A (zh) * | 2019-10-12 | 2020-03-06 | 西南交通大学 | 一种基于深度学习的人群计数和密度估计方法 |
CN111144494A (zh) * | 2019-12-27 | 2020-05-12 | 睿魔智能科技(深圳)有限公司 | 物体检测模型训练方法、检测方法、装置、设备及介质 |
CN111345815B (zh) * | 2020-02-11 | 2023-05-02 | 广州视源电子科技股份有限公司 | 一种心电信号中qrs波的检测方法、装置、设备和存储介质 |
CN111488834B (zh) * | 2020-04-13 | 2023-07-04 | 河南理工大学 | 一种基于多层级特征融合的人群计数方法 |
CN113011329B (zh) * | 2021-03-19 | 2024-03-12 | 陕西科技大学 | 一种基于多尺度特征金字塔网络及密集人群计数方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845621B (zh) * | 2017-01-18 | 2019-04-30 | 山东大学 | 基于深度卷积神经网络的密集人群人数计数方法及系统 |
CN108416250B (zh) * | 2017-02-10 | 2021-06-22 | 浙江宇视科技有限公司 | 人数统计方法及装置 |
CN107862261A (zh) * | 2017-10-25 | 2018-03-30 | 天津大学 | 基于多尺度卷积神经网络的图像人群计数方法 |
CN108830145B (zh) * | 2018-05-04 | 2021-08-24 | 深圳技术大学(筹) | 一种基于深度神经网络的人数统计方法及存储介质 |
CN108830205B (zh) * | 2018-06-04 | 2019-06-14 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
-
2018
- 2018-11-26 CN CN201811415338.8A patent/CN109598220B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109598220A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598220B (zh) | 一种基于多元输入多尺度卷积的人数统计方法 | |
CN109271960B (zh) | 一种基于卷积神经网络的人数统计方法 | |
CN108846426B (zh) | 基于深度双向lstm孪生网络的极化sar分类方法 | |
CN109522857B (zh) | 一种基于生成式对抗网络模型的人数估计方法 | |
CN110889852B (zh) | 基于残差-注意力深度神经网络的肝脏分割方法 | |
CN111639719B (zh) | 基于时空运动和特征融合的足迹图像检索方法 | |
CN112818969B (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN111090764B (zh) | 基于多任务学习和图卷积神经网络的影像分类方法及装置 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN111832228B (zh) | 基于cnn-lstm的振动传递系统 | |
CN114998958B (zh) | 一种基于轻量化卷积神经网络的人脸识别方法 | |
CN112001278A (zh) | 一种基于结构化知识蒸馏的人群计数模型及其方法 | |
CN114360030A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
CN111325288B (zh) | 基于聚类思想的多视角动态脑网络特征维度约减方法 | |
CN111738954A (zh) | 一种基于双层空洞U-Net模型的单帧湍流退化图像去畸变方法 | |
CN113177592A (zh) | 一种图像分割方法、装置、计算机设备及存储介质 | |
CN112529063A (zh) | 一种适用于帕金森语音数据集的深度域适应分类方法 | |
CN110097499B (zh) | 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 | |
CN112884721B (zh) | 一种异常检测方法、系统及计算机可读存储介质 | |
CN112967210A (zh) | 一种基于全卷积孪生网络的无人机图像去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |