CN114005085A - 一种视频中密集人群分布检测与计数方法 - Google Patents
一种视频中密集人群分布检测与计数方法 Download PDFInfo
- Publication number
- CN114005085A CN114005085A CN202111259984.1A CN202111259984A CN114005085A CN 114005085 A CN114005085 A CN 114005085A CN 202111259984 A CN202111259984 A CN 202111259984A CN 114005085 A CN114005085 A CN 114005085A
- Authority
- CN
- China
- Prior art keywords
- map
- attention
- scale feature
- group
- crowd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提出了一种视频中密集人群分布检测与计数方法。首先获取大量含不同密度人群的视频构建数据集;然后构建多尺度特征融合和注意力机制的深度神经网络,将训练集输入至网络,输出对应的人群密度图和注意力图的预测结果,结合真实密度图和注意力图构建损失函数模型进行训练,生成优化后的网络;通过优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群视频图像的密度图,进一步用基于网格的分层次密度空间聚类方法对估计密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。本发明能解决摄像机透视失真、尺度变化和背景噪声影响的问题,提高了计数精度和稳定性;同时,对人群进行组群划分,可以直观显示出人群的分布情况。
Description
技术领域
本发明涉及智能视频监控邻域中的人群检测方法,特别涉及一种视频中密集人群分布检测与计数方法。
背景技术
随着公共安全、交通场景等领域对安全防范的需求与日俱增,智能视频监控逐渐取代了传统视频监控。人群分布检测与计数是智能视频监控邻域的一个研究热点,有着重要的社会意义和市场应用前景。例如,在人群容易聚集的公共场所,人群信息可用于对踩踏等安全问题进行预警,人群分布信息能帮助合理分配人力、物力资源,从而减少事故伤亡甚至避免事故发生;对于城市公共交通系统,可以根据乘客数量灵活增减车次、制定合理的车辆时刻表,既能避免站台和乘车拥挤、等车时间长又能保证车辆利用率;对于大型商场,可以根据客流量在不同商店中的分布对商店数量、类型和位置进行调整,制定更好的营销策略,提高经济效益。
目前人群计数的方法主要可以分为三类:基于检测的方法、基于回归的方法和基于密度图估计的方法。基于检测的方法在图像上使用基于滑动窗口的人或头部检测器,用低级描述符从头部或身体提取手工特征,通过检测个体直接估计人数。但是,在遮挡严重的拥挤场景中这类方法表现不佳。为了克服遮挡问题,一些工作引入了基于回归的方法。这些方法将人群视为一个整体,直接学习图像特征和图像人数之间的映射关系。基于特征的回归方法通常首先对图像进行前景分割,使人群与背景分离开,然后提取全局特征或者局部特征,最后使用回归模型来学习人群计数的映射函数。这些方法具有高密度人群计数的能力,但忽略了空间信息。基于密度图估计的方法通过学习人群特征和相应密度之间的映射,生成人群密度图,密度图的积分即为人数。与直接输出人数相比,人群密度图能显示人群的分布特征,有助于获得更准确、更全面的信息。
实现准确的人群计数有两个难点:(1)摄像机透视失真。到拍摄设备距离不同的行人大小不同,一幅图像内行人尺度变化明显;(2)场景中背景复杂。人群场景中通常有建筑物、树木等背景噪声。
发明内容
为了解决上述技术所存在的问题,本发明提出了一种视频中密集人群分布检测与计数方法。
本发明提供的技术方案是一种视频中密集人群分布检测与计数方法,其特征在于,包括以下步骤
步骤1:获取大量含不同密度人群的视频构建数据集;
步骤2:构建多尺度特征融合和注意力机制的深度神经网络,将步骤1.1中构建的训练样本集依次输入至多尺度特征融合和注意力机制的深度神经网络,输出训练样本集对应的人群密度图和注意力图的预测结果,进一步结合步骤1.2中训练样本集对应的真实密度图和步骤1.3中训练样本集对应的真实注意力图构建损失函数模型,利用损失函数模型进行训练,直至损失函数模型的损失减小到一定程度且训练达到迭代最大次数,生成优化后多尺度特征融合和注意力机制的深度神经网络;
步骤3:对于人群视频图像,通过步骤2中优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群密度图,进一步用基于网格的分层次密度空间聚类方法对输出的估计人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
作为优选,步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下:
步骤1.1:标注人群图像;
视频切割成K帧图像,在第k帧图像中,记第i个人头的中心点像素坐标为(xk,i,yk,i),在第k帧图像中将(xk,i,yk,i)处的像素值标注为1,用脉冲函数δ(xk-xk,i)表示,k∈[1,K],i∈[1,Nk],K表示视频中图像的帧数,Nk表示第k帧图像中人的数量,xk表示第k帧图像中的像素点,xk,i第k帧图像中第i个人头的中心点像素坐标的X轴坐标,yk,i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标;
第k帧图像中除(xk,i,yk,i)外其余像素坐标上的像素值标注为0;
在标注后的K帧图像中随机挑选2K/3帧图像作为训练样本集,剩余K/3帧图像作为测试样本集;
步骤1.2:将带标签的人群图像转换为人群密度图;
步骤1.3:将步骤1.2生成的真实密度图F(xk)中像素值小于像素阈值的点的像素值置0,其余点的像素值置1,生成真实注意力图;
作为优选,步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成;
所述多尺度特征图提取器,用于从人群图像中提取出深层的、大尺度的特征图和浅层的、小尺度的特征图,作为所述多尺度特征融合模块的输入;
所述多尺度特征融合模块,用于融合深层的、大尺度的特征图和浅层的、小尺度的特征图,并生成一幅包含多尺度特征信息和多层次语义信息的特征图F;
所述注意力模块,用于区分特征图F中的人群区域与背景区域,生成一幅注意力图Matt,用注意力图Matt优化特征图F,得到由注意力约束的特征图Frefine;
最后由特征图Frefine回归高分辨率、高质量的密度图Ffinal;
所述多尺度特征图提取器具体构建方法为:
使用VGG16_bn的前13层卷积结构以及4层池化层组成;
所述多尺度特征图提取器由第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层依次串联级联构成;
所述第一组卷积层由两个卷积核大小为3×3、卷积核个数为64的卷积层串联组成;
所述第二组卷积层由两个卷积核大小为3×3、卷积核个数为128的卷积层串联组成;
所述第三组卷积层由三个卷积核大小为3×3、卷积核个数为256的卷积层串联组成;
所述第四组卷积层、第五组卷积层均由三个卷积核大小为3×3、卷积核个数为512的卷积层串联组成;
所述多尺度特征图提取器具体的网络结构是:
C(64,3)×2-P-C(128,3)×2-P-C(256,3)×3-P-C(512,3)×3-P-C(512,3)×3
其中,C(n,3)表示卷积核大小为3×3、卷积核个数为n的卷积层,P表示窗口大小为2×2的最大池化层。将多尺度特征图提取器在每次池化操作前划分为1个阶段,共划分为5个阶段:Conv1_2、Conv2_2、Conv3_3、Conv4_3和Conv5_3,每个阶段分别获得大小为1、1/2、1/4、1/8、1/16的特征图;Conv2_2-Conv5_3这四个阶段的输出特征图输入多尺度特征融合模块的对应阶段;
所述多尺度特征融合模块,具体构建方法为:
所述多尺度特征融合模块由第一上采样层、第一组卷积层、第二上采样层、第二组卷积层、第三上采样层、第三组卷积层依次串联级联构成,具体的网络结构是:
U-C(256,1)-C(256,3)-U-C(128,1)-C(128,3)-U-C(64,1)-C(64,3)-C(32,3)
其中,C(n,m)表示卷积核大小为m×m、卷积核个数为n的卷积层,U代表采样率为2的双线性上采样层。该模块在每次上采样操作前划分为1个阶段,共划分为3个阶段。在每个阶段,输入特征图经过上采样后与多尺度特征图提取器对应阶段输出的低层特征图在通道维度上连接,然后通过卷积层组,接着输入下一阶段。模块顶层输出一幅包含多尺度特征信息和多层次语义信息的特征图F,输入注意力模块;
所述注意力模块具体构建方法为:
所述注意力模块生成一幅注意力图Matt,公式为:
Matt=Sigmoid(W⊙F+b)
其中,W是1×1×1卷积层的权重矩阵,b是1×1×1卷积层的偏置,⊙表示对应元素相乘,Sigmoid表示sigmoid激活函数;
用注意力图Matt优化特征图F,公式为:
将由注意力约束的特征图Frefine通过一个1×1×1的卷积层生成高质量、高分辨率的人群密度图Ffinal;
步骤2所述构建损失函数模型为:
对于人群密度图的生成,使用欧氏距离监督网络输出的估计密度图和步骤1.2中生成的对应的真实密度图之间的差异,密度图损失函数表示为:
其中D和D分别表示步骤1.2生成的真实密度图集合和网络输出的估计密度图集合,Di是第i张估计密度图的所有像素的值,Di是第i张真实密度图的所有像素的值,N是训练集的图像数量。
对于注意力图的生成,使用二分类交叉熵监督注意力模块生成的估计注意力图和步骤1.3中生成的对应的真实注意力图之间的差异,注意力图损失函数表示为:
其中M和M分别表示步骤1.3生成的真实注意力图集合和注意力模块生成的估计注意力图集合,Mi是第i张真实注意力图中所有像素的值,Mi是第i张估计注意力图中所有像素的值,N是训练集的图像数量。
网络的总损失函数为:L=L(D,D)+λL(M,M)
步骤2中所述生成多尺度特征融合和注意力机制的深度神经网络的具体实现方式如下:
步骤2.1:将步骤1构建的训练样本集依次进行统一短边长度并随机缩放处理、随机裁剪图像块处理、随机水平翻转处理、gamma对比变换操作。对于有灰度图像的数据集,还要将彩色图像随机变化成灰度图;
步骤2.2:设置网络初始权重参数和训练参数,包括训练样本输入批量、优化算法、学习率、动量、迭代周期;
步骤2.4:对步骤2的多尺度特征融合和注意力机制的深度神经网络进行训练;
在每个迭代周期内,将步骤2.1中处理后的训练样本集输入到多尺度特征融合和注意力机制的深度神经网络中,计算步骤2中所述的损失函数L,更新网络的权重参数,直至完成所有迭代周期后训练结束;当损失函数L的值随着迭代周期的增加呈减小趋势时说明训练有效;
作为优选,步骤3中聚类方法的具体实现方式如下:
步骤3.1:对第k帧图像,其人群密度图二维空间为Ωk,将像素值不为0的点的集合表示为样本集Xk={xk,1,xk,2,…,xk,n},其中xk,i是二维向量,失函数模型xk,i={xk,i1,xk,i2}。设置参数s,将Ωk在每个维度上划分为s个区间,从而把Ωk划分为s2个不相交的矩形单元{uk,11,...,uk,1s,...,uk,ss}。
步骤3.2:对第k帧图像,遍历其样本集Xk,将每个单元格中的样本作为一类,得到每个单元格包含的样本集合{ck,11,ck,12…,ck,ss},计算每个单元格的密度。
步骤3.4:从Uk={uk,1,...,uk,2,...,uk,n}中任选一个网格uk,i开始,初始化一个集合Ck,j为uk,i对应的样本集合ck,pq,即Ck,j=ck,pq。
步骤3.5:对与uk,i相邻的稠密网格进行广度优先遍历,将遍历到的网格标记为“已访问”,并将其对应的样本集合加入到集合Ck,j中;广度遍历结束后将集合Ck,j加入到类集合Ck中。
步骤3.6:若Uk中还有元素未访问,转到步骤3.4,否则进行下一步。
步骤3.7:对于集合Ck,j中的样本点pk,i,将其与第l个最近邻样本点的距离称为核心距离,表示为:
corel(pk,i)=d(x,Nl(pk,i))
两个样本点pk,i和pk,j之间的互达距离表示为:
dmreach-l(pk,i,pk,j)=max{corel(pk,i),corel(pk,j),d(pk,i,pk,j)}
d(·)表示两个样本点之间的直线距离。
步骤3.8:用互达距离表示两个样本点之间的距离,通过Prim算法构建一个最小生成树。
步骤3.9:构建聚类层次结构。将树中的所有边按照升序排列,然后依次选取每条边,将边链接的两个子图进行合并,生成聚类树。
步骤3.10:确定聚类最小簇大小。步骤3.5得到的某个集合Ck,j中包含m个网格,每个网格样本点数的集合记为Nk={nk,1,nk,2,…,nk,m},网格中人群密度图积分为Dk={dk,1,dk,2,...,dk,m},则对于网格i,其密度记为假设最少K人为一个组群,则对于网格i,最小组群包含的样本点个数应为取人群密度最小的网格的最小组群样本点个数作为聚类最小簇大小Bk,表示为:
步骤3.11:压缩聚类树。自上而下遍历聚类树,在每个节点分裂时,比较左右两个子节点样本数与最小簇样本数的大小关系。如果两个子节点中有一个的样本数少于最小簇样本数,直接删除该子节点,并且用另一个子节点保留父节点的身份;如果两个子节点中的样本数都小于最小簇样本数,则将两个子节点都删除,即当前节点不再向下分裂;如果两个子节点中的样本数都大于最小簇样本数,则进行正常分裂,即保持原聚类树不变。
步骤3.12:提取簇。对于树中的每个节点,定义两个变量:λbirth代表分裂产生当前节点时断开边的长度的倒数,λdeath代表当前节点分裂成两个子节点时断开边的长度的倒数;对每个节点中的每个样本点ak,i,定义为样本点ak,i因分裂离开该节点时断开边的长度的倒数,则节点的稳定性表示为:
将聚类树的每个叶节点都选定为某个簇,自下而上遍历整棵树,并比较当前节点稳定性和其两个子节点稳定性和的大小。如果当前节点的稳定性小于其两个子节点稳定性和,则将两个子节点的稳定性之和设置为当前节点的稳定性;反之,将当前节点定为某个簇,并删除所有子节点。
步骤3.13:根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
与现有技术相比,本发明的优点和有益效果:
本发明能适应图像中行人尺寸变化,消除摄像机透视失真的影响,提高了计数精度和计数稳定性。
本发明能有效抑制人群图像中背景噪声的影响,减少错误识别,提高计数精度和密度图质量。
本发明对人群进行组群的划分,可以直观的显示出人群的分布情况。
附图说明
图1:是本发明实施例的整体流程图;
图2:是本发明实施例中,人群计数方法的流程示意图;
图3:是本发明实施例的检测结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的流程示意图如图1所示,一种视频中密集人群分布检测与计数方法,其特征在于,包括以下步骤
步骤1:获取大量含不同密度人群的视频构建数据集;
步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下:
步骤1.1:标注人群图像;
视频切割成K=100帧图像,在第k帧图像中,记第i个人头的中心点像素坐标为(xk,i,yk,i),在第k帧图像中将(xk,i,yk,i)处的像素值标注为1,用脉冲函数δ(xk-xk,i)表示,k∈[1,K],i∈[1,Nk],K表示视频中图像的帧数,Nk表示第k帧图像中人的数量,xk表示第k帧图像中的像素点,xk,i第k帧图像中第i个人头的中心点像素坐标的X轴坐标,yk,i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标;
第k帧图像中除(xk,i,yk,i)外其余像素坐标上的像素值标注为0;
在标注后的K帧图像中随机挑选2K/3帧图像作为训练样本集,剩余K/3帧图像作为测试样本集;
步骤1.2:将带标签的人群图像转换为人群密度图;
步骤1.3:将步骤1.2生成的真实密度图F(xk)中像素值小于像素阈值的点的像素值置0,其余点的像素值置1,生成真实注意力图;
步骤2:构建多尺度特征融合和注意力机制的深度神经网络,将步骤1.1中构建的训练样本集依次输入至多尺度特征融合和注意力机制的深度神经网络,输出训练样本集对应的人群密度图和注意力图的预测结果,进一步结合步骤1.2中训练样本集对应的真实密度图和步骤1.3中训练样本集对应的真实注意力图构建损失函数模型,利用损失函数模型进行训练,直至损失函数模型的损失减小到一定程度且训练达到迭代最大次数,生成优化后多尺度特征融合和注意力机制的深度神经网络;上述流程如图2所示。
步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成;
所述多尺度特征图提取器,用于从人群图像中提取出深层的、大尺度的特征图和浅层的、小尺度的特征图,作为所述多尺度特征融合模块的输入;
所述多尺度特征融合模块,用于融合深层的、大尺度的特征图和浅层的、小尺度的特征图,并生成一幅包含多尺度特征信息和多层次语义信息的特征图F;
所述注意力模块,用于区分特征图F中的人群区域与背景区域,生成一幅注意力图Matt,用注意力图Matt优化特征图F,得到由注意力约束的特征图Frefine;
最后由特征图Frefine回归高分辨率、高质量的密度图Ffinal;
所述多尺度特征图提取器具体构建方法为:
使用VGG16_bn的前13层卷积结构以及4层池化层组成;
所述多尺度特征图提取器由第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层依次串联级联构成;
所述第一组卷积层由两个卷积核大小为3×3、卷积核个数为64的卷积层串联组成;
所述第二组卷积层由两个卷积核大小为3×3、卷积核个数为128的卷积层串联组成;
所述第三组卷积层由三个卷积核大小为3×3、卷积核个数为256的卷积层串联组成;
所述第四组卷积层、第五组卷积层均由三个卷积核大小为3×3、卷积核个数为512的卷积层串联组成;
所述多尺度特征图提取器具体的网络结构是:
C(64,3)×2-P-C(128,3)×2-P-C(256,3)×3-P-C(512,3)×3-P-C(512,3)×3
其中,C(n,3)表示卷积核大小为3×3、卷积核个数为n的卷积层,P表示窗口大小为2×2的最大池化层。将多尺度特征图提取器在每次池化操作前划分为1个阶段,共划分为5个阶段:Conv1_2、Conv2_2、Conv3_3、Conv4_3和Conv5_3,每个阶段分别获得大小为1、1/2、1/4、1/8、1/16的特征图;Conv2_2-Conv5_3这四个阶段的输出特征图输入多尺度特征融合模块的对应阶段;
所述多尺度特征融合模块,具体构建方法为:
所述多尺度特征融合模块由第一上采样层、第一组卷积层、第二上采样层、第二组卷积层、第三上采样层、第三组卷积层依次串联级联构成,具体的网络结构是:
U-C(256,1)-C(256,3)-U-C(128,1)-C(128,3)-U-C(64,1)-C(64,3)-C(32,3)
其中,C(n,m)表示卷积核大小为m×m、卷积核个数为n的卷积层,U代表采样率为2的双线性上采样层。该模块在每次上采样操作前划分为1个阶段,共划分为3个阶段。在每个阶段,输入特征图经过上采样后与多尺度特征图提取器对应阶段输出的低层特征图在通道维度上连接,然后通过卷积层组,接着输入下一阶段。模块顶层输出一幅包含多尺度特征信息和多层次语义信息的特征图F,输入注意力模块;
所述注意力模块具体构建方法为:
所述注意力模块生成一幅注意力图Matt,公式为:
Matt=Sigmoid(W⊙F+b)
其中,W是1×1×1卷积层的权重矩阵,b是1×1×1卷积层的偏置,⊙表示对应元素相乘,Sigmoid表示sigmoid激活函数;
用注意力图Matt优化特征图F,公式为:
将由注意力约束的特征图Frefine通过一个1×1×1的卷积层生成高质量、高分辨率的人群密度图Ffinal;
步骤2所述构建损失函数模型为:
对于人群密度图的生成,使用欧氏距离监督网络输出的估计密度图和步骤1.2中生成的对应的真实密度图之间的差异,密度图损失函数表示为:
其中D和D分别表示步骤1.2生成的真实密度图集合和网络输出的估计密度图集合,Di是第i张估计密度图的所有像素的值,Di是第i张真实密度图的所有像素的值,N是训练集的图像数量。
对于注意力图的生成,使用二分类交叉熵监督注意力模块生成的估计注意力图和步骤1.3中生成的对应的真实注意力图之间的差异,注意力图损失函数表示为:
其中M和M分别表示步骤1.3生成的真实注意力图集合和注意力模块生成的估计注意力图集合,Mi是第i张真实注意力图中所有像素的值,Mi是第i张估计注意力图中所有像素的值,N是训练集的图像数量。
网络的总损失函数为:L=L(D,D)+λL(M,M)
步骤2中所述生成多尺度特征融合和注意力机制的深度神经网络的具体实现方式如下:
步骤2.1:将步骤1构建的训练样本集依次进行统一短边长度并随机缩放处理、随机裁剪图像块处理、随机水平翻转处理、gamma对比变换操作。对于有灰度图像的数据集,还要将彩色图像随机变化成灰度图;
步骤2.2:设置网络初始权重参数和训练参数,包括训练样本输入批量、优化算法、学习率、动量、迭代周期;多尺度特征图提取器由在ImageNet数据集上预训练的VGG-16_bn网络的参数初始化,其他参数由均值为0、标准差为0.01的高斯分布随机初始化;训练数据的输入批量大小为8;采用Adam优化算法,学习率设置为1e-5,动量momentum设置为5e-3,迭代次数为500。
步骤2.4:对步骤2的多尺度特征融合和注意力机制的深度神经网络进行训练;
在每个迭代周期内,将步骤2.1中处理后的训练样本集输入到多尺度特征融合和注意力机制的深度神经网络中,计算步骤2中所述的损失函数L,更新网络的权重参数,直至完成所有迭代周期后训练结束;当损失函数L的值随着迭代周期的增加呈减小趋势时说明训练有效;
在每个迭代周期完成后需要验证当前网络的性能:将步骤1.1中构建的测试样本集上输入当前网络,得到测试集中图像的人数估计,评估网络性能,并保存当前性能最好的网络模型。在一次训练中,所有迭代周期中性能最好的一个模型即为本次训练的最优多尺度特征融合和注意力机制的深度神经网络。若一次训练结束后,网络性能较差,则调整步骤3.2中的训练参数,重复步骤3.4,重新训练,直至达到理想的性能。
前述的模型性能评估使用两个评价指标:平均绝对误差MAE和均方根误差RMSE,分别评估模型的计数准确性和计数稳定性,两个评价指标的定义如下:
步骤3:对于人群视频图像,通过步骤2中优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群密度图,进一步用基于网格的分层次密度空间聚类方法对输出的估计人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
进一步的,步骤3中聚类方法的具体实现方式如下:
步骤3.1:对第k帧图像,其人群密度图二维空间为Ωk,将像素值不为0的点的集合表示为样本集Xk={xk,1,xk,2,...,xk,n},其中xk,i是二维向量,失函数模型xk,i={xk,i1,xk,i2}。设置参数s,将Ωk在每个维度上划分为s个区间,从而把Ωk划分为s2个不相交的矩形单元{uk,11,...,uj,1s,…,uk,ss}。
步骤3.2:对第k帧图像,遍历其样本集Xk,将每个单元格中的样本作为一类,得到每个单元格包含的样本集合{ck,11,ck,12…,ck,ss},计算每个单元格的密度。
步骤3.4:从Uk={uk,1,...,uk,2,...,uk,n}中任选一个网格uk,i开始,初始化一个集合Ck,j为uk,i对应的样本集合ck,pq,即Ck,j=ck,pq。
步骤3.5:对与uk,i相邻的稠密网格进行广度优先遍历,将遍历到的网格标记为“已访问”,并将其对应的样本集合加入到集合Ck,j中;广度遍历结束后将集合Ck,j加入到类集合Ck中。
步骤3.6:若Uk中还有元素未访问,转到步骤3.4,否则进行下一步。
步骤3.7:对于集合Ck,j中的样本点pk,i,将其与第l个最近邻样本点的距离称为核心距离,表示为:
corel(pk,i)=d(x,Nl(pk,i))
两个样本点pk,i和pk,j之间的互达距离表示为:
dmreach-l(pk,i,pk,j)=max{corel(pk,i),corel(pk,j),d(pk,i,pk,j)}
d(·)表示两个样本点之间的直线距离。
步骤3.8:用互达距离表示两个样本点之间的距离,通过Prim算法构建一个最小生成树。
步骤3.9:构建聚类层次结构。将树中的所有边按照升序排列,然后依次选取每条边,将边链接的两个子图进行合并,生成聚类树。
步骤3.10:确定聚类最小簇大小。步骤3.5得到的某个集合Ck,j中包含m个网格,每个网格样本点数的集合记为Nk={nk,1,nk,2,...,nk,m},网格中人群密度图积分为Dk={dk,1,dk,2,...,dk,m},则对于网格i,其密度记为假设最少K人为一个组群,则对于网格i,最小组群包含的样本点个数应为取人群密度最小的网格的最小组群样本点个数作为聚类最小簇大小Bk,表示为:
步骤3.11:压缩聚类树。自上而下遍历聚类树,在每个节点分裂时,比较左右两个子节点样本数与最小簇样本数的大小关系。如果两个子节点中有一个的样本数少于最小簇样本数,直接删除该子节点,并且用另一个子节点保留父节点的身份;如果两个子节点中的样本数都小于最小簇样本数,则将两个子节点都删除,即当前节点不再向下分裂;如果两个子节点中的样本数都大于最小簇样本数,则进行正常分裂,即保持原聚类树不变。
步骤3.12:提取簇。对于树中的每个节点,定义两个变量:λbirth代表分裂产生当前节点时断开边的长度的倒数,λdeath代表当前节点分裂成两个子节点时断开边的长度的倒数;对每个节点中的每个样本点ak,i,定义为样本点ak,i因分裂离开该节点时断开边的长度的倒数,则节点的稳定性表示为:
将聚类树的每个叶节点都选定为某个簇,自下而上遍历整棵树,并比较当前节点稳定性和其两个子节点稳定性和的大小。如果当前节点的稳定性小于其两个子节点稳定性和,则将两个子节点的稳定性之和设置为当前节点的稳定性;反之,将当前节点定为某个簇,并删除所有子节点。
步骤3.13:根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。人群密度估计与组群识别结果如图3所示。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
1.一种视频中密集人群分布检测与计数方法,其特征在于,包括以下步骤
步骤1:获取大量含不同密度人群的视频构建数据集;
步骤2:构建多尺度特征融合和注意力机制的深度神经网络,将步骤1.1中构建的训练样本集依次输入至多尺度特征融合和注意力机制的深度神经网络,输出训练样本集对应的人群密度图和注意力图的预测结果,进一步结合步骤1.2中训练样本集对应的真实密度图和步骤1.3中训练样本集对应的真实注意力图构建损失函数模型,利用损失函数模型进行训练,直至损失函数模型的损失减小到一定程度且训练达到迭代最大次数,生成优化后多尺度特征融合和注意力机制的深度神经网络;
步骤3:对于人群视频图像,通过步骤2中优化后的多尺度特征融合和注意力机制的深度神经网络预测得到人群密度图,进一步用基于网格的分层次密度空间聚类方法对输出的估计人群密度图进行点聚类来识别组群,快速得到组群的人数和位置信息。
2.根据权利要求1所述的视频中密集人群分布检测与计数方法,其特征在于,步骤1所述获取大量含不同密度人群的视频构建数据集的具体实现方式如下:
步骤1.1:标注人群图像;
视频切割成K帧图像,在第k帧图像中,记第i个人头的中心点像素坐标为(xk,i,yk,i),在第k帧图像中将(xk,i,yk,i)处的像素值标注为1,用脉冲函数δ(xk-xk,i)表示,k∈[1,K],i∈[1,Nk],K表示视频中图像的帧数,Nk表示第k帧图像中人的数量,xk表示第k帧图像中的像素点,xk,i第k帧图像中第i个人头的中心点像素坐标的X轴坐标,yk,i第k帧图像中第i个人头的中心点像素坐标的Y轴坐标;
第k帧图像中除(xk,i,yk,i)外其余像素坐标上的像素值标注为0;
在标注后的K帧图像中随机挑选2K/3帧图像作为训练样本集,剩余K/3帧图像作为测试样本集;
步骤1.2:将带标签的人群图像转换为人群密度图;
步骤1.3:将步骤1.2生成的真实密度图F(xk)中像素值小于像素阈值的点的像素值置0,其余点的像素值置1,生成真实注意力图。
3.根据权利要求1所述的视频中密集人群分布检测与计数方法,其特征在于,步骤2所述多尺度特征融合和注意力机制的深度神经网络由多尺度特征图提取器、多尺度特征融合模块、注意力模块依次串联级联构成;
所述多尺度特征图提取器,用于从人群图像中提取出深层的、大尺度的特征图和浅层的、小尺度的特征图,作为所述多尺度特征融合模块的输入;
所述多尺度特征融合模块,用于融合深层的、大尺度的特征图和浅层的、小尺度的特征图,并生成一幅包含多尺度特征信息和多层次语义信息的特征图F;
所述注意力模块,用于区分特征图F中的人群区域与背景区域,生成一幅注意力图Matt,用注意力图Matt优化特征图F,得到由注意力约束的特征图Frefine;
最后由特征图Frefine回归高分辨率、高质量的密度图Ffinal;
所述多尺度特征图提取器具体构建方法为:
使用VGG16_bn的前13层卷积结构以及4层池化层组成;
所述多尺度特征图提取器由第一组卷积层、第一池化层、第二组卷积层、第二池化层、第三组卷积层、第三池化层、第四组卷积层、第四池化层、第五组卷积层依次串联级联构成;
所述第一组卷积层由两个卷积核大小为3×3、卷积核个数为64的卷积层串联组成;
所述第二组卷积层由两个卷积核大小为3×3、卷积核个数为128的卷积层串联组成;
所述第三组卷积层由三个卷积核大小为3×3、卷积核个数为256的卷积层串联组成;
所述第四组卷积层、第五组卷积层均由三个卷积核大小为3×3、卷积核个数为512的卷积层串联组成;
所述多尺度特征图提取器具体的网络结构是:
C(64,3)×2-P-C(128,3)×2-P-C(256,3)×3-P-C(512,3)×3-P-C(512,3)×3
其中,C(n,3)表示卷积核大小为3×3、卷积核个数为n的卷积层,P表示窗口大小为2×2的最大池化层;将多尺度特征图提取器在每次池化操作前划分为1个阶段,共划分为5个阶段:Conv1_2、Conv2_2、Conv3_3、Conv4_3和Conv5_3,每个阶段分别获得大小为1、1/2、1/4、1/8、1/16的特征图;Conv2_2-Conv5_3这四个阶段的输出特征图输入多尺度特征融合模块的对应阶段;
所述多尺度特征融合模块,具体构建方法为:
所述多尺度特征融合模块由第一上采样层、第一组卷积层、第二上采样层、第二组卷积层、第三上采样层、第三组卷积层依次串联级联构成,具体的网络结构是:
U-C(256,1)-C(256,3)-U-C(128,1)-C(128,3)-U-C(64,1)-C(64,3)-C(32,3)
其中,C(n,m)表示卷积核大小为m×m、卷积核个数为n的卷积层,U代表采样率为2的双线性上采样层;该模块在每次上采样操作前划分为1个阶段,共划分为3个阶段;在每个阶段,输入特征图经过上采样后与多尺度特征图提取器对应阶段输出的低层特征图在通道维度上连接,然后通过卷积层组,接着输入下一阶段;模块顶层输出一幅包含多尺度特征信息和多层次语义信息的特征图F,输入注意力模块;
所述注意力模块具体构建方法为:
所述注意力模块生成一幅注意力图Matt,公式为:
Matt=Sigmoid(W⊙F+b)
其中,W是1×1×1卷积层的权重矩阵,b是1×1×1卷积层的偏置,⊙表示对应元素相乘,Sigmoid表示sigmoid激活函数;
用注意力图Matt优化特征图F,公式为:
将由注意力约束的特征图Frefine通过一个1×1×1的卷积层生成高质量、高分辨率的人群密度图Ffinal;
步骤2所述构建损失函数模型为:
对于人群密度图的生成,使用欧氏距离监督网络输出的估计密度图和步骤1.2中生成的对应的真实密度图之间的差异,密度图损失函数表示为:
其中D和D分别表示步骤1.2生成的真实密度图集合和网络输出的估计密度图集合,Di是第i张估计密度图的所有像素的值,Di是第i张真实密度图的所有像素的值,N是训练集的图像数量;
对于注意力图的生成,使用二分类交叉熵监督注意力模块生成的估计注意力图和步骤1.3中生成的对应的真实注意力图之间的差异,注意力图损失函数表示为:
其中M和M分别表示步骤1.3生成的真实注意力图集合和注意力模块生成的估计注意力图集合,Mi是第i张真实注意力图中所有像素的值,Mi是第i张估计注意力图中所有像素的值,N是训练集的图像数量;
网络的总损失函数为:L=L(D,D)+λL(M,M)
步骤2中所述生成多尺度特征融合和注意力机制的深度神经网络的具体实现方式如下:
步骤2.1:将步骤1构建的训练样本集依次进行统一短边长度并随机缩放处理、随机裁剪图像块处理、随机水平翻转处理、gamma对比变换操作;对于有灰度图像的数据集,还要将彩色图像随机变化成灰度图;
步骤2.2:设置网络初始权重参数和训练参数,包括训练样本输入批量、优化算法、学习率、动量、迭代周期;
步骤2.4:对步骤2的多尺度特征融合和注意力机制的深度神经网络进行训练;
在每个迭代周期内,将步骤2.1中处理后的训练样本集输入到多尺度特征融合和注意力机制的深度神经网络中,计算步骤2中所述的损失函数L,更新网络的权重参数,直至完成所有迭代周期后训练结束;当损失函数L的值随着迭代周期的增加呈减小趋势时说明训练有效。
4.根据权利要求1所述的视频中密集人群分布检测与计数方法,其特征在于,步骤3中聚类方法的具体实现方式如下:
步骤3.1:对第k帧图像,其人群密度图二维空间为Ωk,将像素值不为0的点的集合表示为样本集Xk={xk,1,xk,2,…,xk,n},其中xk,i是二维向量,失函数模型xk,i={xk,i1,xk,i2};设置参数s,将Ωk在每个维度上划分为s个区间,从而把Ωk划分为s2个不相交的矩形单元{uk,11,...,uk,1s,...,uk,ss};
步骤3.2:对第k帧图像,遍历其样本集Xk,将每个单元格中的样本作为一类,得到每个单元格包含的样本集合{ck,11,ck,12…,ck,ss},计算每个单元格的密度;
步骤3.4:从Uk={uk,1,...,uk,2,...,uk,n}中任选一个网格uk,i开始,初始化一个集合Ck,j为uk,i对应的样本集合ck,pq,即Ck,j=ck,pq;
步骤3.5:对与uk,i相邻的稠密网格进行广度优先遍历,将遍历到的网格标记为“已访问”,并将其对应的样本集合加入到集合Ck,j中;广度遍历结束后将集合Ck,j加入到类集合Ck中;
步骤3.6:若Uk中还有元素未访问,转到步骤3.4,否则进行下一步;
步骤3.7:对于集合Ck,j中的样本点pk,i,将其与第l个最近邻样本点的距离称为核心距离,表示为:
corel(pk,i)=d(x,Nl(pk,i))
两个样本点pk,i和pk,j之间的互达距离表示为:
dmreach-l(pk,i,pk,j)=max{corel(pk,i),corel(pk,j),d(pk,i,pk,j)}
d(·)表示两个样本点之间的直线距离;
步骤3.8:用互达距离表示两个样本点之间的距离,通过Prim算法构建一个最小生成树;
步骤3.9:构建聚类层次结构;将树中的所有边按照升序排列,然后依次选取每条边,将边链接的两个子图进行合并,生成聚类树;
步骤3.10:确定聚类最小簇大小;步骤3.5得到的某个集合Ck,j中包含m个网格,每个网格样本点数的集合记为Nk={nk,1,nk,2,...,nk,m},网格中人群密度图积分为Dk={dk,1,dk,2,...,dk,m},则对于网格i,其密度记为假设最少K人为一个组群,则对于网格i,最小组群包含的样本点个数应为取人群密度最小的网格的最小组群样本点个数作为聚类最小簇大小Bk,表示为:
步骤3.11:压缩聚类树;自上而下遍历聚类树,在每个节点分裂时,比较左右两个子节点样本数与最小簇样本数的大小关系;如果两个子节点中有一个的样本数少于最小簇样本数,直接删除该子节点,并且用另一个子节点保留父节点的身份;如果两个子节点中的样本数都小于最小簇样本数,则将两个子节点都删除,即当前节点不再向下分裂;如果两个子节点中的样本数都大于最小簇样本数,则进行正常分裂,即保持原聚类树不变;
步骤3.12:提取簇;对于树中的每个节点,定义两个变量:λbirth代表分裂产生当前节点时断开边的长度的倒数,λdeath代表当前节点分裂成两个子节点时断开边的长度的倒数;对每个节点中的每个样本点ak,i,定义为样本点ak,i因分裂离开该节点时断开边的长度的倒数,则节点的稳定性表示为:
将聚类树的每个叶节点都选定为某个簇,自下而上遍历整棵树,并比较当前节点稳定性和其两个子节点稳定性和的大小;如果当前节点的稳定性小于其两个子节点稳定性和,则将两个子节点的稳定性之和设置为当前节点的稳定性;反之,将当前节点定为某个簇,并删除所有子节点;
步骤3.13:根据聚类结果划分组群,对每一个组群内的密度图进行积分得到该组群的人数,根据密度图聚类的位置在原图上框出组群位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111259984.1A CN114005085A (zh) | 2021-10-28 | 2021-10-28 | 一种视频中密集人群分布检测与计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111259984.1A CN114005085A (zh) | 2021-10-28 | 2021-10-28 | 一种视频中密集人群分布检测与计数方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005085A true CN114005085A (zh) | 2022-02-01 |
Family
ID=79924448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111259984.1A Pending CN114005085A (zh) | 2021-10-28 | 2021-10-28 | 一种视频中密集人群分布检测与计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005085A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114390079A (zh) * | 2022-03-24 | 2022-04-22 | 成都秦川物联网科技股份有限公司 | 一种智慧城市公共场所管理方法和物联网系统 |
CN115810178A (zh) * | 2023-02-03 | 2023-03-17 | 中电信数字城市科技有限公司 | 人群异常聚集预警方法、装置、电子设备及介质 |
CN116758488A (zh) * | 2023-08-16 | 2023-09-15 | 启迪数字科技(深圳)有限公司 | 场馆人群定位方法、装置、设备及介质 |
CN117173748A (zh) * | 2023-11-03 | 2023-12-05 | 杭州登虹科技有限公司 | 一种基于人形识别与人形检测的视频人形事件提取系统 |
-
2021
- 2021-10-28 CN CN202111259984.1A patent/CN114005085A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114390079A (zh) * | 2022-03-24 | 2022-04-22 | 成都秦川物联网科技股份有限公司 | 一种智慧城市公共场所管理方法和物联网系统 |
CN114390079B (zh) * | 2022-03-24 | 2022-06-03 | 成都秦川物联网科技股份有限公司 | 一种智慧城市公共场所管理方法和物联网系统 |
US11868926B2 (en) | 2022-03-24 | 2024-01-09 | Chengdu Qinchuan Iot Technology Co., Ltd. | Systems and methods for managing public place in smart city |
CN115810178A (zh) * | 2023-02-03 | 2023-03-17 | 中电信数字城市科技有限公司 | 人群异常聚集预警方法、装置、电子设备及介质 |
CN116758488A (zh) * | 2023-08-16 | 2023-09-15 | 启迪数字科技(深圳)有限公司 | 场馆人群定位方法、装置、设备及介质 |
CN116758488B (zh) * | 2023-08-16 | 2023-11-10 | 启迪数字科技(深圳)有限公司 | 场馆人群定位方法、装置、设备及介质 |
CN117173748A (zh) * | 2023-11-03 | 2023-12-05 | 杭州登虹科技有限公司 | 一种基于人形识别与人形检测的视频人形事件提取系统 |
CN117173748B (zh) * | 2023-11-03 | 2024-01-26 | 杭州登虹科技有限公司 | 一种基于人形识别与人形检测的视频人形事件提取系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
JP6395158B2 (ja) | シーンの取得画像を意味的にラベル付けする方法 | |
CN114005085A (zh) | 一种视频中密集人群分布检测与计数方法 | |
CN109344285B (zh) | 一种面向监控的视频图谱构建和挖掘方法、设备 | |
CN108280397B (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN111091045A (zh) | 一种基于时空注意力机制的手语识别方法 | |
WO2021147325A1 (zh) | 一种物体检测方法、装置以及存储介质 | |
CN107203775B (zh) | 一种图像分类的方法、装置和设备 | |
CN111191654B (zh) | 道路数据生成方法、装置、电子设备及存储介质 | |
CN113421269A (zh) | 一种基于双分支深度卷积神经网络的实时语义分割方法 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN111241963B (zh) | 基于交互建模的第一人称视角视频交互行为识别方法 | |
CN113269054B (zh) | 一种基于时空2d卷积神经网络的航拍视频分析方法 | |
CN114398491A (zh) | 一种基于知识图谱的语义分割图像实体关系推理方法 | |
CN109670555B (zh) | 基于深度学习的实例级行人检测和行人重识别系统 | |
CN113221641A (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
Guo et al. | Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN115035298A (zh) | 基于多维注意力机制的城市街景语义分割增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |