CN111985381B - 一种基于伸缩卷积神经网络的引导区域密集人群计数方法 - Google Patents

一种基于伸缩卷积神经网络的引导区域密集人群计数方法 Download PDF

Info

Publication number
CN111985381B
CN111985381B CN202010814302.8A CN202010814302A CN111985381B CN 111985381 B CN111985381 B CN 111985381B CN 202010814302 A CN202010814302 A CN 202010814302A CN 111985381 B CN111985381 B CN 111985381B
Authority
CN
China
Prior art keywords
data set
crowd
guide area
convolution
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010814302.8A
Other languages
English (en)
Other versions
CN111985381A (zh
Inventor
张硕
孔亚广
陈张平
郑小青
张帆
赵晓东
陈云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010814302.8A priority Critical patent/CN111985381B/zh
Publication of CN111985381A publication Critical patent/CN111985381A/zh
Application granted granted Critical
Publication of CN111985381B publication Critical patent/CN111985381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于伸缩卷积神经网络的引导区域密集人群计数方法。本发明首先进行人群计数数据集等级划分;其次进行引导区域选取;然后调整引导区域尺度一致;最后通过伸缩卷积神经网络得到最终的人群数目预测。本发明有效的提取了人群计数数据集的密集人群区域,提高了图片的抗干扰能力,且对网络模型深度进行了加强,有效的解决了尺度不均匀、遮挡严重等场景,加入了自适应分块损失函数与感知损失、欧式损失融合来优化模型,提高了密度图的分辨率质量,提升密集人群计数的准确性。

Description

一种基于伸缩卷积神经网络的引导区域密集人群计数方法
技术领域
本发明涉及伸缩卷积神经网络,引导区域选取,图像分割,人群计数技术领域,具体涉及一种基于伸缩卷积神经网络的引导区域密集人群计数方法。
背景技术
目前人群计数随着计算机网络的发展在安防和公共安全方面得到广泛的应用,传统基于滑动窗口的检测和通过回归方法计数只适用稀疏场景,而对于密集场景或者遮挡情况严重场景效果很差,所以目前多采用卷积神经网络来预测人群数量,许多基于卷积神经网络的框架结构可以捕获低分辨率的特征,也会有不错的人群统计效果,但是抗干扰能力较差,还有些方法受限于图片局部尺度不一致,人群分布的差异性较大,背景噪声影响严重、整幅图像透视失真,遮挡严重等问题,直接导致难以生成可靠的密度图或生成的人群密度图分辨率质量下降,由此严重影响密集人群计数的准确性和可靠性。
发明内容
本发明针对现有技术的不足,提出一种基于伸缩卷积神经网络的引导区域密集人群计数方法。
具体包括以下步骤:
步骤一、人群计数数据集等级划分
本方法图像熵被定义为随机量的度量,对人群计数数据集中图片进行熵滤波处理,具体方法如下:从人群计数数据集任意选取一张图片,假定选取的图片尺寸大小为M*N,图片记为A,A所对应的直方图是一种离散的频率分布,直方图中每个矩形框的数值描述为相应灰度值的频率,直方图中所有矩形框代表的数值之和为图片中的像素总数量,即h(j):
Figure BDA0002632122700000011
E为矩形框的个数,j表示为随机变量的概率分布,归一化直方图p(j)表示为:
Figure BDA0002632122700000021
则图像熵可表示为:
Figure BDA0002632122700000022
对人群计数数据集中所有图片都进行图像熵运算,统计得到所有的图片的熵值,按熵值对相应的人群计数数据集图片进行排序,由于图像熵值反映图片内部信息的均匀程度,此处根据先验设置图像熵的阈值,对人群计数数据集进行等级划分,收集人群计数数据集中图像熵大于阈值的图片,生成新的密集人群数据集,即分布极其不均匀、遮挡严重、尺度差异较大的区域图片,也是在人群计数数据集中预测误差比较大的场景。
步骤二、引导区域选取
针对步骤一处理后的密集人群数据集,需获取重要区域信息,抑制干扰信息,得到适用于密集人群数据集的引导区域,这里提出一种算法来提取密集人群数据集中引导区域和保留更多的密集人群数据集上下文结构信息,具体方法如下:
2、1特征提取
针对密集人群数据集中每张训练图片,此处图片尺寸为512*512*3,分别依次通过卷积操作和池化模块,首先,将当前的训练图片输入到两个3*3的卷积核中,通道为64,得到512*512*64的特征图,512*512*64的特征图经过池化得到256*256*64的特征图。
然后,将256*256*64的特征图输入到两个3*3的卷积核中,通道为128,得到256*256*128的特征图,256*256*128的特征图经过池化得到128*128*128的特征图,将128*128*128的特征图C0按通道划分为两个128*128*64的特征图C1、C2。
进一步,对于密集人群数据集中512*512*3的训练图片,缩小一倍为256*256*3训练图片,将当前图片输入到三个3*3的卷积核中,通道为64,得到256*256*64的特征图,256*256*64的特征图经过池化得到128*128*64的特征图C3。
最后,C2与C3结合得到一个新的128*128*128的特征图C4,将C0和C4输入到1*1的卷积核中得到特征图O和引导图I。
上述所有卷积核的步距为1,补丁为1;池化的尺寸为2,步距为2。
2、2构造引导规则
使用1*1*1的卷积核对O和I做线性变换得到O1和I1,对O1和I1进行按像素累加结合,再经过RELU激活函数,再输入到1*1*1卷积核中做线性变换,最后通过Sigmoid激活函数得到关注图G。则Ii是对I进行下采样得到的与O相同尺寸的低分辨率特征图,在特征图O中对每个位置h,构造一个半径为r的窗口wh,窗口系数定义分别为:
Figure BDA0002632122700000031
Figure BDA0002632122700000032
这里的λ是正则化系数,Gi是位置i的关注图权重,这里
Figure BDA0002632122700000033
Nh是窗口wh处的像素数量,Oi是位置i的像素,()′表示()的平均值,为了确定窗口系数,这里定义Ili是Ii的像素点,则通过线性变换得到窗口wh的输出为:
Ohi=ahIli+bh,i∈wh
计算窗口中所有像素点的差异性,公式为:
Figure BDA0002632122700000034
由于不同位置i涉及多个窗口wh的系数不同,将不同窗口中所有的Ohi取平均值得到O′hi,公式如下:
Figure BDA0002632122700000035
这里的wi是包含位置i所有窗口的集和区域,然后对Al和Bl进行上采样得到对AH和BH,得出高分辨率的引导密度图
O′=AH*I+BH
将引导密度图进行反卷积操作,得到与密集人群数据集尺寸大小相同密度图的引导区域。
步骤三、调整引导区域尺度一致
针对步骤二中密度图的引导区域进行分割,使其密集人群数据集图片的各部分尺度一致,将密度图的引导区域一级划分为2*2的四块,分别为Q1、Q2、Q3、Q4,由于图片远处人头较小,近处较大,再二级划分Q1和Q2,分别为Q11、Q12、Q13、Q14;Q21、Q22、Q23、Q24;计算每一块的平均密度,公式为
Figure BDA0002632122700000041
这里Rd表示第d块面积,(d)是第d块的引导像素点数,然后二级分块区域与相应的一级分块区域进行对比,一级分块区域与整张图片进行对比,决定一级分块与二级分块区域放缩程度,放缩系数选取根据分块区域平均密度,然后用每一块乘以相应的系数得到放缩后的每一块引导区域,此时将每一块引导区域拼接,以每一分块级别中尺寸最大的引导区域为基准,若尺寸不一致,则进行补丁操作,获得尺度一致的引导区域密度图,将引导区域密度图和密集人群数据集训练图片进行对应像素点乘,得到新的引导区域人群数据集。
步骤四、伸缩卷积神经网络
在原有的卷积操作上添加了偏移量来适应人头标注带来的误差,每个卷积核的偏移量可以根据当前位置误差自行学习优化,即伸缩卷积核,针对步骤三获取的引导区域人群数据集训练图片,输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为256,经过一个过滤器连接,得到特征图S1。
使用伸缩卷积核为1*1,通道为256的卷积对S1进行处理,再输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为128,经过一个过滤器连接,得到特征图S2。
使用伸缩卷积核为1*1,通道为128的卷积对S2进行处理,再输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为64,经过一个过滤器连接,得到特征图S3。
最后经过一个的伸缩卷积核1*1,通道为1的卷积生成密度图,对生成密度图进行积分求和得到最终的人群数目预测,这里用平均绝对误差(MAE)和均方误差(MSE)来评估预测性能,具体公式如下:
Figure BDA0002632122700000042
Figure BDA0002632122700000051
这里的N1是人群计数数据集测试图片数量,g表示第g张测试数据集图片,zg是地面真实值,
Figure BDA0002632122700000052
是估计值,通过MAE和MSE表示该方法预测准确性。
本发明还使用损失函数融合来优化模型,第一种是欧氏距离作为损失函数,也是最常见的一种像素均方误差,公式如下:
Figure BDA0002632122700000053
这里的N2是引导区域人群数据集图片数量,Xk是第k张输入图片,θ是模型的参数,D(Xk;θ)是估计的密度图,Dk是真实的密度图,该损失函数求和像素的欧几里得距离来测量像素级的估计误差,但是这种损失函数会忽略不同级别的密度对网络训练的影响。
第二种损失函数为自适应分块损失,自适应分块损失可以根据真实的局部人群计数将密度图划分为不均匀的锥形子区域,自适应分块计算出每个局部相对估计损失,然后对其求和得到最终的损失,具体方式如下:
将真实密度图Dk划分为2*2的四个一级分块区域,并用Bx1表示子区域,1∈{1,2,3,4},如果某个子区域的计数值高于给定的阈值S,则将其划分为2*2的四个二级分块区域,用Bx1,x2表示,x2∈{1,2,3,4},将一个区域迭代的划分为2*2的n级分块区域,用Bx1,x2…xn表示,xn∈{1,2,3,4},直到所有子区域块计数值都小于阈值S,当所有块分割完成后,会得到一个非均匀非线性的锥形网格,将得到的自适应锥形网格应用于估计的密度图,由此计算出每个子区域的局部损耗,公式如下:
Figure BDA0002632122700000054
此处
Figure BDA0002632122700000055
是n-1级分块区域估计密度图,
Figure BDA0002632122700000056
是n-1级分块区域真实密度图,最后进行求和得到分块总损失
Figure BDA0002632122700000061
第三种损失是感知损失,加入一个生成图像的高层感知特征图,通过最小化图像的感知差异,生成图像可以在语义上和目标图像上更加相似,感知损失函数公式如下:
Figure BDA0002632122700000062
这里F(Xk;θ)是预测特征,Fk是真实特征。最后总的损失函数为
Ls=L2+λdL1+λfL3
这里λd和λf是欧式损失和感知损失的权重。
本发明相对于现有技术所具有的效果,本发明有效的提取了人群计数数据集的密集人群区域,提高了图片的抗干扰能力,且对网络模型深度进行了加强,有效的解决了尺度不均匀、遮挡严重等场景,加入了自适应分块损失函数与感知损失、欧式损失融合来优化模型,提高了密度图的分辨率质量,提升密集人群计数的准确性。
附图说明
图1为密集人群计数流程图;
图2a和图2b为生成特征图的两种网络模型图;
图3为引导区域提取流程图;
图4为伸缩卷积神经网络模型图。
具体实施方式
以下结合附图对本发明作进一步说明:
如图1所示,本发明包括以下步骤:
步骤一、人群计数数据集等级划分
假设将图像分为背景和前景两个部分,熵是一种统计测量方法,背景与前景的熵值差异较大,用以确定随机数据源中包含的信息数量,图像的信息量越大,对应的熵就越大,信息熵决定图像内部的均匀程度,本方法的熵被定义为随机量的度量,具体方法如下:
给定一个大小为M*N的图像A,对应的直方图是一种离散的频率分布,直方图中每个矩形框的数值描述为相应灰度值的频率,直方图中所有矩形框代表的数值之和为图像中的像素数量,即h(j):
Figure BDA0002632122700000071
E为矩形框的个数,j表示为随机变量的概率分布,概率分布要满足以下条件:
Figure BDA0002632122700000072
归一化直方图p(j)表示为:
Figure BDA0002632122700000073
则熵可表示为:
Figure BDA0002632122700000074
可以计算得出不同区域的熵值不同,然后再计算整幅图像的熵,最后把不同区域的熵值和整体区域的熵值做一个统计,反映出图像内部的均匀程度,由此得到整幅图像的尺度多样性,上下文信息和遮挡是否严重等信息问题。上述方法对M*N图像进行统计,下面针对具体的人群数据集做处理,根据先验设置图像熵的阈值,对人群计数数据集进行等级划分,收集人群计数数据集中图像熵大于阈值的图片,生成新的密集人群数据集,即分布极其不均匀、遮挡严重、尺度差异较大的区域图片,也是在人群计数数据集中预测误差比较大的场景。
步骤二、引导区域选取
针对上述预处理后的数据集图片,由于密集人群数据集中人群密度等级较高,尺度一致性有较大差别,易受背景噪声的影响,所以这里首先要获取重要区域信息,而抑制干扰信息,得到适用于密集人群计数数据集的引导区域,这里提出一种算法来提取密集人群图片中引导区域以及解决上采样引起的引导区域边界模糊问题,而且本方法可以保存更多的密集人群图片上下文结构信息,同时也能解决遮挡严重和失真严重问题,对最后提高密度图的分辨率有直接影响,具体方法如下:
针对密集人群数据集中每张训练图片,此处图片尺寸为512*512*3,分别依次通过卷积操作和池化模块,首先,将当前的训练图片输入到两个3*3的卷积核中,通道为64,得到512*512*64的特征图,512*512*64的特征图经过池化得到256*256*64的特征图。
然后,将256*256*64的特征图输入到两个3*3的卷积核中,通道为128,得到256*256*128的特征图,256*256*128的特征图经过池化得到128*128*128的特征图,将128*128*128的特征图C0按通道划分为两个128*128*64的特征图C1、C2,见图2a。
进一步,对于密集人群数据集中512*512*3的训练图片,缩小一倍为256*256*3图片,将当前图片输入到三个3*3的卷积核中,通道为64,得到256*256*64的特征图,256*256*64的特征图经过池化得到128*128*64的特征图C3,见图2b。
最后,C2与C3结合得到一个新的128*128*128的特征图C4,将C0和C4输入到1*1的卷积核中得到特征图O和引导图I。
使用1*1*1的卷积核对O和I做线性变换得到O1和I1,对O1和I1进行按像素累加结合,再经过RELU激活函数,再输入到1*1*1卷积核中做线性变换,最后通过Sigmoid激活函数得到关注图G。则Ii是对I进行下采样得到的与O相同尺寸的低分辨率特征图,在特征图O中对每个位置h,构造一个半径为r的窗口wh,窗口系数定义分别为:
Figure BDA0002632122700000081
Figure BDA0002632122700000082
这里的λ是正则化系数,Gi是位置i的关注图权重,这里
Figure BDA0002632122700000083
Nh是窗口wh处的像素数量,Oi是位置i的像素,X′表示X的平均值,为了确定窗口系数,这里定义Ili是Ii的像素点,则通过线性变换得到窗口wh的输出为:
Ohi=ahIli+bh,i∈wh
计算窗口中所有像素点的差异性,公式为:
Figure BDA0002632122700000084
由于不同位置i涉及多个窗口wh的系数不同,将不同窗口中所有的Ohi取平均值得到O′hi,公式如下:
Figure BDA0002632122700000091
这里的wi是包含位置i所有窗口的集和区域,然后对Ai和Bl进行上采样得到对AH和BH,得出高分辨率的引导密度图:
O′=AH*I+BH
将引导密度图进行反卷积操作,得到与密集人群数据集尺寸大小相同密度图的引导区域。
将密度图的引导区域一级划分为2*2的四块,分别为Q1、Q2、Q3、Q4,由于图片远处人头较小,近处较大,再二级划分Q1和Q2,分别为Q11、Q12、Q13、Q14;Q21、Q22、Q23、Q24;计算每一块的平均密度,公式为:
Figure BDA0002632122700000092
这里Rd表示第d块面积,V(d)是第d块的引导像素点数,然后二级分块区域与相应的一级分块区域进行对比,一级分块区域与整张图片进行对比,决定一级分块与二级分块区域放缩程度,放缩系数选取根据分块区域平均密度,然后用每一块乘以相应的系数得到放缩后的每一块引导区域,此时将每一块引导区域拼接,以每一分块级别中尺寸最大的引导区域为基准,若尺寸不一致,则进行补丁操作,获得尺度一致的引导区域密度图,将引导区域密度图和密集人群数据集训练图片进行对应像素点乘,得到新的引导区域人群数据集,见图3。
步骤三、伸缩卷积神经网络
目前的方法都是直接对上述的特征图进行反卷积操作得到密度图,这样得到的密度图质量会大大降低和带来极大的预测误差,所以这里采用伸缩卷积神经网络进行优化处理,见图4,当前人群计数数据集上人头标注多是由人工自行标定,这样就使得对于每个人头的标注位置都有很大差异,可能在头顶,面部,额头等位置,这样就会因为人头标注的差异性带来很大的误差,为后续的训练带来极大的麻烦,可能导致网络无法继续学习或学习效果较差,直接影响人群数目的统计。原有的卷积神经网络中卷积核是固定不变的,这样就会使得训练不具有自适应性,这里加入伸缩卷积进行处理,在原有的卷积操作上添加了偏移量来适应人头标注带来的误差,每个卷积核的偏移量是可以根据位置误差自行进行学习优化。从而减少初始人为原因带来误差,增大感受野范围,提高最后生成密度图的分辨率,增强密度图预测可信度。具体流程如下:对上述的一致性特征图经过一个三列的伸缩卷积,卷积核的大小分别为3*3、5*5、7*7,通道数都是256个,再经过一个过滤器连接,再经过一个卷积核为1*1,通道为256的卷积,再通过一个三列的伸缩卷积,卷积核的大小分别为3*3、5*5、7*7,通道数都是128个,再经过一个过滤器连接,再经过一个卷积核为1*1,通道为128的卷积,再通过一个三列的伸缩卷积,卷积核的大小分别为3*3、5*5、7*7,通道数都是64个,再经过一个过滤器连接,最后经过一个的卷积核1*1,通道为1的卷积生成密度图。最后对生成密度图进行积分求和得到最终的人群数目预测,这里用平均绝对误差(MAE)和均方误差(MSE)来评估测试数据的性能,具体公式如下:
Figure BDA0002632122700000101
Figure BDA0002632122700000102
这里的N1是测试数据集的图片数量,g表示第g张测试数据集图片,zg是地面真实值,
Figure BDA0002632122700000103
是估计值,通过MAE和MSE表示该方法预测准确性。
步骤四、融合损失函数优化模型
本发明使用损失函数融合来优化模型,第一种是欧氏距离作为损失函数,也是最常见的一种像素均方误差,公式如下:
Figure BDA0002632122700000104
这里的N2是引导区域人群数据集图片数量,Xk是第k张输入图片,θ是模型的参数,D(Xk;θ)是估计的密度图,Dk是真实的密度图,该损失函数求和像素的欧几里得距离来测量像素级的估计误差,但是这种损失函数会忽略不同级别的密度对网络训练的影响。
第二种损失函数为自适应分块损失,自适应分块损失可以根据真实的局部人群计数将密度图划分为不均匀的锥形子区域,自适应分块计算出每个局部相对估计损失,然后对其求和得到最终的损失,具体方式如下:
将真实密度图Dk划分为2*2的四个一级分块区域,并用Bx1表示子区域,x1∈{1,2,3,4},如果某个子区域的计数值高于给定的阈值S,则将其划分为2*2的四个二级分块区域,用Bx1,x2表示,x2∈{1,2,3,4},将一个区域迭代的划分为2*2的n级的分块区域,用Bx1,x2…xn表示,xn∈{1,2,3,4},直到所有子区域块计数值都小于阈值S,当所有块分割完成后,会得到一个非均匀非线性的锥形网格,将得到的自适应锥形网格应用于估计的密度图,由此计算出每个子区域的局部损耗,公式如下:
Figure BDA0002632122700000111
此处
Figure BDA0002632122700000112
是n-1级分块区域估计密度图,
Figure BDA0002632122700000113
是n-1级分块区域真实密度图,最后进行求和得到分块总损失
Figure BDA0002632122700000114
第三种损失是感知损失,加入一个生成图像的高层感知特征图,通过最小化图像的感知差异,生成图像可以在语义上和目标图像上更加相似,感知损失函数公式如下:
Figure BDA0002632122700000115
这里F(Xk;θ)是预测特征,Fk是真实特征。最后总的损失函数为
Ls=L2+λdL1+λfL3
这里λd和λf是欧式损失和感知损失的权重。

Claims (2)

1.一种基于伸缩卷积神经网络的引导区域密集人群计数方法,其特征在于该方法包括以下步骤:
步骤一、人群计数数据集等级划分
将图像熵定义为随机量的度量,对人群计数数据集中图片进行熵滤波处理,具体如下:
从人群计数数据集任意选取一张图片,假定选取的图片尺寸大小为M*N,图片记为A,A所对应的直方图是一种离散的频率分布,直方图中每个矩形框的数值描述为相应灰度值的频率,直方图中所有矩形框代表的数值之和为图片中的像素总数量,即
Figure 214947DEST_PATH_IMAGE002
Figure 663246DEST_PATH_IMAGE004
E为矩形框的个数,j表示为随机变量的概率分布,归一化直方图
Figure 974141DEST_PATH_IMAGE006
表示为:
Figure 900509DEST_PATH_IMAGE008
则图像熵表示为:
Figure 996772DEST_PATH_IMAGE010
对人群计数数据集中所有图片都进行图像熵运算,统计得到所有的图片的熵值,按熵值对相应的人群计数数据集图片进行排序,由于图像熵值反映图片内部信息的均匀程度,根据先验设置图像熵的阈值,对人群计数数据集进行等级划分,收集人群计数数据集中图像熵大于阈值的图片,生成新的密集人群数据集,即分布极其不均匀、遮挡严重、尺度差异较大的区域图片,也是在人群计数数据集中预测误差比较大的场景;
步骤二、引导区域选取
针对步骤一处理后的密集人群数据集,需获取重要区域信息,抑制干扰信息,得到适用于密集人群数据集的引导区域,这里提出一种算法来提取密集人群数据集中引导区域和保留更多的密集人群数据集上下文结构信息,具体如下:
2.1特征提取
针对密集人群数据集中每张训练图片,此处图片尺寸为512*512*3,分别依次通过卷积操作和池化模块,首先,将当前的训练图片输入到两个3*3的卷积核中,通道为64,得到512*512*64的特征图,512*512*64的特征图经过池化得到256*256*64的特征图;
然后,将256*256*64的特征图输入到两个3*3的卷积核中,通道为128,得到256*256*128的特征图,256*256*128的特征图经过池化得到128*128*128的特征图,将128*128*128的特征图C0按通道划分为两个128*128*64的特征图C1、C2;
对于密集人群数据集中512*512*3的训练图片,缩小一倍为256*256*3训练图片,将当前图片输入到三个3*3的卷积核中,通道为64,得到256*256*64的特征图,256*256*64的特征图经过池化得到128*128*64的特征图C3;
最后,特征图C2与特征图C3结合得到一个新的128*128*128的特征图C4,将C0和C4输入到1*1的卷积核中得到特征图O和引导图
Figure 350393DEST_PATH_IMAGE012
所有卷积核的步距为1,补丁为1;池化的尺寸为2,步距为2;
2.2构造引导规则
使用1*1*1的卷积核对特征图O和引导图
Figure 148585DEST_PATH_IMAGE012
做线性变换得到O1和I1,对O1和I1进行按像素累加结合,再经过RELU激活函数,再输入到1*1*1卷积核中做线性变换,最后通过Sigmoid激活函数得到关注图G;则
Figure 878644DEST_PATH_IMAGE014
是对
Figure 593527DEST_PATH_IMAGE012
进行下采样得到的与O相同尺寸的低分辨率特征图,在特征图O中对每个位置h,构造一个半径为r的窗口
Figure 118050DEST_PATH_IMAGE016
,窗口系数定义分别为:
Figure 403538DEST_PATH_IMAGE018
Figure 671708DEST_PATH_IMAGE020
其中λ是正则化系数,
Figure 476984DEST_PATH_IMAGE022
是位置i的关注图权重,
Figure 437987DEST_PATH_IMAGE024
是窗口
Figure 210771DEST_PATH_IMAGE016
处的像素数量,
Figure 17053DEST_PATH_IMAGE026
是位置i的像素,
Figure 440950DEST_PATH_IMAGE028
表示
Figure 307274DEST_PATH_IMAGE030
的平均值,
Figure 770617DEST_PATH_IMAGE032
为了确定窗口系数,这里定义
Figure 380590DEST_PATH_IMAGE034
Figure 409726DEST_PATH_IMAGE014
的像素点,则通过线性变换得到窗口
Figure 463263DEST_PATH_IMAGE016
的输出为:
Figure 210640DEST_PATH_IMAGE036
计算窗口中所有像素点的差异性:
Figure 624303DEST_PATH_IMAGE038
由于不同位置i涉及多个窗口
Figure 507946DEST_PATH_IMAGE016
的系数不同,将不同窗口中所有的
Figure 230920DEST_PATH_IMAGE040
取平均值得到
Figure 200013DEST_PATH_IMAGE042
,公式如下:
Figure DEST_PATH_IMAGE043
这里的
Figure DEST_PATH_IMAGE045
是包含位置i所有窗口的集和区域,然后对
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE049
进行上采样得到对
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE053
,得出高分辨率的引导密度图
Figure DEST_PATH_IMAGE055
将引导密度图进行反卷积操作,得到与密集人群数据集尺寸大小相同密度图的引导区域;
步骤三、调整引导区域尺度一致
针对步骤二中密度图的引导区域进行分割,使其密集人群数据集图片的各部分尺度一致,将密度图的引导区域一级划分为2*2的四块,分别为Q1、Q2、Q3、Q4,由于图片远处人头较小,近处较大,再二级划分Q1和Q2,分别为Q11、Q12、Q13、Q14;Q21、Q22、Q23、Q24;计算每一块的平均密度,公式为
Figure DEST_PATH_IMAGE057
这里
Figure DEST_PATH_IMAGE059
表示第d块面积,
Figure DEST_PATH_IMAGE061
是第d块的引导像素点数;
二级分块区域与相应的一级分块区域进行对比,一级分块区域与整张图片进行对比,决定一级分块与二级分块区域放缩程度,根据分块区域平均密度选取放缩系数;
用每一块乘以相应的放缩系数得到放缩后的每一块引导区域,此时将每一块引导区域拼接,以每一分块级别中尺寸最大的引导区域为基准,若尺寸不一致,则进行补丁操作,获得尺度一致的引导区域密度图,将引导区域密度图和密集人群数据集训练图片进行对应像素点乘,得到新的引导区域人群数据集;
步骤四、伸缩卷积神经网络
在原有的卷积操作上添加了偏移量来适应人头标注带来的误差,每个卷积核的偏移量根据当前位置误差自行学习优化,针对步骤三获取的引导区域人群数据集训练图片,输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为256,经过一个过滤器连接,得到特征图S1;
使用伸缩卷积核为1*1,通道为256的卷积对S1进行处理,再输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为128,经过一个过滤器连接,得到特征图S2;
使用伸缩卷积核为1*1,通道为128的卷积对S2进行处理,再输入到三列伸缩卷积核中,三列卷积核的大小分别为3*3、2个3*3、3个3*3,通道数为64,经过一个过滤器连接,得到特征图S3;
最后经过一个的伸缩卷积核1*1,通道为1的卷积生成密度图,对生成密度图进行积分求和得到最终的人群数目预测。
2.根据权利要求1所述的一种基于伸缩卷积神经网络的引导区域密集人群计数方法,其特征在于:还包括采用损失函数融合优化模型,所述损失函数选用欧氏距离、自适应分块损失和感知损失。
CN202010814302.8A 2020-08-13 2020-08-13 一种基于伸缩卷积神经网络的引导区域密集人群计数方法 Active CN111985381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010814302.8A CN111985381B (zh) 2020-08-13 2020-08-13 一种基于伸缩卷积神经网络的引导区域密集人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010814302.8A CN111985381B (zh) 2020-08-13 2020-08-13 一种基于伸缩卷积神经网络的引导区域密集人群计数方法

Publications (2)

Publication Number Publication Date
CN111985381A CN111985381A (zh) 2020-11-24
CN111985381B true CN111985381B (zh) 2022-09-09

Family

ID=73434307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010814302.8A Active CN111985381B (zh) 2020-08-13 2020-08-13 一种基于伸缩卷积神经网络的引导区域密集人群计数方法

Country Status (1)

Country Link
CN (1) CN111985381B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862023B (zh) * 2021-04-26 2021-07-16 腾讯科技(深圳)有限公司 对象密度确定方法、装置、计算机设备和存储介质
CN113468995A (zh) * 2021-06-22 2021-10-01 之江实验室 一种基于密度等级感知的人群计数方法
CN113643235B (zh) * 2021-07-07 2023-12-29 青岛高重信息科技有限公司 一种基于深度学习的芯片计数方法
CN117253184B (zh) * 2023-08-25 2024-05-17 燕山大学 一种雾先验频域注意表征引导的雾天图像人群计数方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879990A (zh) * 2019-11-22 2020-03-13 成都考拉悠然科技有限公司 一种预计机场安检旅客排队等候时长的方法及其应用
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
CN111488827A (zh) * 2020-04-10 2020-08-04 山东师范大学 一种基于多尺度特征信息的人群计数方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6914699B2 (ja) * 2017-04-04 2021-08-04 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879990A (zh) * 2019-11-22 2020-03-13 成都考拉悠然科技有限公司 一种预计机场安检旅客排队等候时长的方法及其应用
CN111144329A (zh) * 2019-12-29 2020-05-12 北京工业大学 一种基于多标签的轻量快速人群计数方法
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
CN111488827A (zh) * 2020-04-10 2020-08-04 山东师范大学 一种基于多尺度特征信息的人群计数方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多层BP神经网络和无参数微调的人群计数方法;徐洋等;《计算机科学》;20181015(第10期);全文 *
基于计算机视觉的人群计数与密度估计研究;虞扬;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715;全文 *

Also Published As

Publication number Publication date
CN111985381A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111985381B (zh) 一种基于伸缩卷积神经网络的引导区域密集人群计数方法
CN111723860B (zh) 一种目标检测方法及装置
US11488308B2 (en) Three-dimensional object detection method and system based on weighted channel features of a point cloud
WO2023015743A1 (zh) 病灶检测模型的训练方法及识别图像中的病灶的方法
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN107808138B (zh) 一种基于FasterR-CNN的通信信号识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN111986125A (zh) 一种用于多目标任务实例分割的方法
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN110866455B (zh) 一种路面水体检测方法
CN110245620B (zh) 一种基于注意力的非最大化抑制方法
CN112381897A (zh) 基于自编码网络结构的低照度图像增强方法
CN117495735B (zh) 一种基于结构引导的建筑物立面纹理自动修复方法及系统
CN113052170A (zh) 一种无约束场景下的小目标车牌识别方法
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN117576724A (zh) 一种无人机飞鸟检测方法、系统、设备和介质
CN111832508B (zh) 基于die_ga的低照度目标检测方法
CN117456376A (zh) 一种基于深度学习的遥感卫星影像目标检测方法
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质
CN115587994A (zh) 基于多视角特征的模型融合图像篡改检测方法及装置
CN111860332B (zh) 基于多阈值级联检测器的双通道电力图零部件检测方法
CN113496159B (zh) 一种多尺度卷积与动态权重代价函数的烟尘目标分割方法
CN114596433A (zh) 一种绝缘子识别方法
CN112380985A (zh) 变电站入侵异物实时检测方法
CN111461139A (zh) 一种复杂场景下的多目标视觉显著性分层检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant