CN112085767B - 一种基于深度光流跟踪的客流统计方法及系统 - Google Patents
一种基于深度光流跟踪的客流统计方法及系统 Download PDFInfo
- Publication number
- CN112085767B CN112085767B CN202010885690.9A CN202010885690A CN112085767B CN 112085767 B CN112085767 B CN 112085767B CN 202010885690 A CN202010885690 A CN 202010885690A CN 112085767 B CN112085767 B CN 112085767B
- Authority
- CN
- China
- Prior art keywords
- layer
- pedestrian
- head area
- input
- characteristic diagram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 37
- 238000007619 statistical method Methods 0.000 title claims abstract description 18
- 238000003062 neural network model Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000006073 displacement reaction Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明的一种基于深度光流跟踪的客流统计方法及系统,包括:获取行人图像;使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计,即对于任意给出的一幅行人图像,经过深度神经网络模型前向运算后,分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量;进而获取当前帧行人头部区域的位置和相对于前帧的身份地址,更新跟踪列表;采用客流统计方法,完成客流统计。本发明采用深度学习基于一个深度神经网络模型,并行实现行人头部区域的位置检测和行人头部区域的跟踪;综合利用了图像的多尺度语义信息和帧间光流信息,客流统计更加的准确,鲁棒性更强;基于anchor‑free的策略设计深度神经网络模型,系统运行速度更快。
Description
技术领域
本发明涉及行人检测跟踪和客流统计技术领域,具体涉及一种基于深度光流跟踪的客流统计方法及系统。
背景技术
基于客流量是衡量公共场所繁忙程度的重要依据,准确的实时客流信息对于管理公共场所和调度公共设施具有重要指导意义。例如:对于公交车运输系统,掌握各个站点和时段的客流量,公交公司可以更加合理的调整线路和增减车辆,提升了资源的利用率。对于商场和超市,准确掌握实时客流量,可以动态调整工作人员数量和制定合理的营销策略。
目前,客流统计主要有以下几类技术:
(1)基于红外测距的统计技术,如“基于红外测距传感器的公交车客流统计系统”(中国专利申请号:CN201310731307)。该类技术虽然成本低,实现简单,但当出现密集以及拥挤的人群时,准确率会严重下降甚至失效。
(2)基于视频图像处理的统计技术,如“一种基于自适应模板匹配的客流统计方法”(中国专利申请号:CN201010509217),这是典型的基于二维图像检测和跟踪技术的,该类技术在一些特定场景,如光线稳定的室内入口处,能取得很好的统计结果,但是在光线不稳的室外,比如公交车上,该方法会出现较为严重误差。
(3)基于视频深度信息的统计技术,如:“基于立体视觉的公交客流统计方法及其系统”(中国专利申请号:CN200510060288),“一种基于测距原理的实时人数统计方法与系统”(中国专利申请号:CN201210390592)。该类技术能够较准确的定位出人的位置,同时对于复杂环境和拥挤人群也有较好的效果,但是算法较为复杂,运行效率低下,同时硬件成本也较高。
发明内容
本发明提出的一种基于深度光流跟踪的客流统计方法及系统,可解决背景技术中的技术问题。
为实现上述目的,本发明采用了以下技术方案:
一种基于深度光流跟踪的客流统计方法,包括:
包括以下步骤:
获取行人图像;
使用事先训练好的基于深度光流跟踪的客流统计模型进行客流统计,即对于任意给出的一幅行人图像,经过深度神经网络模型前向运算后,分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量;
根据当前帧中行人头部区域中心点位置和对应的运动位移量,进而获取当前帧行人头部区域相对于前帧的身份地址,更新跟踪列表完成当前帧中行人头部区域的跟踪过程;
基于获取的行人头部区域的跟踪列表,采用客流统计方法,完成客流统计。
进一步的,所示基于深度光流跟踪的客流统计模型包括输入模块、主干模块、瓶颈模块、预测模块;
其中,
所述主干模块用来提取输入图像的多尺度深层语义融合特征;
所述瓶颈模块利用主干模块输出的多尺度深层语义特征和输入模块提供的行人头部区域位置图像,生成一幅具有全局信息、局部信息和空间位置信息的融合特征图;
所述预测模块基于瓶颈模块neck的输出特征图,预测当前帧图像中,行人头部区域的位置和相对于前帧图像的运行位移量。
进一步的,所述输入模块的输入图像包括两幅3通道RGB图像和一幅灰度图像,其中,两幅3通道RGB图像分别表示当前帧图像和之前某帧图像,一幅灰度图像表示之前某帧图像中行人头部区域位置。
进一步的,所述主干模块的网络结构包括conv0层是一个核尺寸为7×7,跨度为2×2的卷积层;maxpool0层是一个核尺寸为2×2,跨度为2×2的最大值池化层;conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络,作用是在保留更多图像细节的同时,快速降低特征图分辨率,减少后续操作的运算量;
resblock0、resblock1、resblock2、resblock3均是resnet网络的resblock残差模块,其中,resconv2层是一个核尺寸为1x1,跨度为2x2的卷积层;resconv0层是一个核尺寸为3x3,跨度为2x2的卷积层;resconv1层、resconv3层、resconv4层均是一个核尺寸为3x3,跨度为1x1的卷积层;eltsum0层和eltsum1层均是特征图相加运算层,其作用是把多个输入特征图按对应元素相加合并成一个输出特征图。
进一步的,所述瓶颈模块的网络结构包括,
C2、C3、C4、C5分别表示主干模块中resblock0、resblock1、resblock2、resblock3模块对应的输出特征图;行人头部位置图像指的是输入模块中之前某帧图像中行人头部区域位置图像;upsample层是上采样率为2的上采样层;downsample层是下采样率为4的下采样层;sum-P2、sum-P3、sum-P4均是特征图相加运算层,用于把两个输入特征图按对应元素相加合并成一个输出特征图;concat层是合并层,其作用是把多个输入特征图按通道维度并成一个输出特征图;conv-p4、conv-p3、conv-p2均是一个核尺寸为3x3跨度为1x1的卷积层,其作用是融合输出的拼接特征图或相加特征图和调整输入特征图尺寸;conv-p5层是一个核尺寸为1x1跨度为1x1的卷积层,其作用是调整输入特征图尺寸。
进一步的,所述预测模块的网络结构包括,
b0_conv0、b1_conv0、b2_conv0均是一个核尺寸为1×1,跨度为1×1的卷积层,其作用是调整输入特征图尺寸,降低模型的运算量;b0_conv1、b1_conv1、b2_conv1均是一个核尺寸为3×3,跨度为1×1的卷积层;b0_conv2、b1_conv2、b2_conv2均是一个核尺寸为1×1,跨度为1×1的卷积层;b0_conv2主要用来预测行人头部区域的中心位置;b1_conv2主要用来预测行人头部区域的半径;b2_conv2主要用来预测行人头部区域的运行位移量。
进一步的,所述主干模块具体采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络。
进一步的,所述基于深度光流跟踪的客流统计模型构建步骤如下,
S1、设计深度神经网络模型;
S2、训练深度神经网络模型,通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优。
进一步的,所述使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计具体包括:
S31、获取当前帧行人头部区域中心位置,在当前帧行人头部区域中心位置预测分支的输出特征图上,它的每一个像素位置的值表示该位置点是行人头部区域中心的概率值;
S32、获取当前帧行人头部区域位置,基于获取的行人头部区域中心点,在行人头部区域半径预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的半径,和步骤S31获取的行人头部区域中心组合在一起,表示当前帧行人头部区域的位置;
S33、获取当前帧行人头部区域的运动位移量,基于获取的行人头部区域中心点,在行人头部区域运动位移量预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的运动位移量;
S34、获取当前帧行人头部区域的身份地址,完成行人头部区域的跟踪过程,首先根据当前帧中行人头部区域中心点和对应的运动位移量,计算当前帧行人头部区域在前帧图像中的近似位置,然后统计前帧图像中所有行人头部区域和该近似位置的距离,选择最小距离作为判断依据,如果该最小距离小于设置的阈值,则前帧图像中,该最小距离对应的行人头部区域和当前帧中行人头部区域具有相同身份地址,如果该最小距离小不于设置的阈值,则当前帧中行人头部区域就是新出现的行人头部区域;更新跟踪列表完成当前帧中行人头部区域的跟踪过程;
S35、统计客流数量,基于步骤S34获取的行人头部区域的跟踪列表,采用任意常用的客流统计方法,完成准确的客流统计。
另一方面,本发明还公开一种基于深度光流跟踪的客流统计系统,包括以下单元:
数据获取单元,用于获取行人图像;
客流统计单元,用于使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计;
还包括以下子单元:
模型构建单元,用于设计深度神经网络模型;
模型训练单元,用于训练深度神经网络模型,通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优。
由上述技术方案可知,本发明的基于深度光流跟踪的客流统计方法及系统,本发明采用深度学习技术,基于一个深度神经网络模型,并行实现行人头部区域的位置检测和行人头部区域的跟踪;综合利用了图像的多尺度语义信息和帧间光流信息,客流统计更加的准确,鲁棒性更强;基于anchor-free的策略设计深度神经网络模型,系统运行速度更快。
附图说明
图1是本发明的方法流程图;
图2是本发明模型构建的流程图;
图3是深度神经网络模型结构图,
图4是主干模块网络结构图;
图5是resblock残差模块结构图;
图6是瓶颈模块网络结构图;
图7是预测模块网络结构图;
其中每个模块图形旁边的字母数字,表示当前模块的输出特征图尺寸,即:特征图高度×特征图宽度×特征图通道数;H表示输入图像的高度,W表示输入图像的宽度,IH表示输入特征图的高度,IW表示输入特征图的宽度,C表示输入特征图的通道数。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本实施例中,摄像机安装在行人的上方,摄像机视线和竖直方向的夹角在正负30度以内,以确保采集的图像中,行人头部区域不存在长时间的遮挡情况。
如图1所示,本发明实施例的一种基于深度光流跟踪的客流统计方法,包括:
获取行人图像;
使用事先设置好的基于深度光流跟踪的客流统计模型,对于任意给出的一幅行人图像,经过深度神经网络模型前向运算后,分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量;
根据当前帧中行人头部区域中心点位置和对应的运动位移量,进而获取当前帧行人头部区域相对于前帧的身份地址,更新跟踪列表完成当前帧中行人头部区域的跟踪过程;
基于获取的行人头部区域的跟踪列表,采用客流统计方法,完成客流统计。
其中,基于深度光流跟踪的客流统计模型的构建步骤如下:
如图2所示,具体的步骤如下:
S1、设计深度神经网络模型,众所周知,在实际应用场景下,受光线变化、设备成像质量和拍摄角度的影响,图像中行人头部区域会出现模糊、遮挡、偏色等缺陷,使用现有的行人头部检测方法和行人头部跟踪方法很难进行精确的客流统计,因此,本发明提出一种基于深度光流跟踪的客流统计方法,该方法采用深度学习技术,通过借助一个精心设计的深度神经网络模型,综合利用当前帧的图像信息和前后帧之间的运动光流信息,能够并行的预测出行人头部区域位置和行人头部区域相对于前帧中行人头部区域的运动位移量,借助简单的后处理即可实现行人头部的跟踪,进而完成精确的客流统计。本发明使用卷积神经网络(CNN)进行深度神经网络模型设计,为了方便叙述本发明,定义一些术语:特征图分辨率指的是特征图高度×特征图宽度,特征图尺寸指的是特征图高度×特征图宽度×特征图通道数,核尺寸指的是核宽度×核高度,跨度指的是宽度方向跨度×高度方向跨度,另外,每一个卷积层后面均带有批量归一化层和非线性激活层。本发明设计的深度神经网络模型采用全卷积网络,包括输入模块input、主干模块backbone、瓶颈模块neck、预测模块detector,其具体网络结构如图3所示,设计过程分为以下步骤:
S11、设计深度神经网络模型的输入模块,由于本发明所采用的深度神经网络模型是基于全卷积网络,对输入图像分辨率不做要求,输入图像包括两幅3通道RGB图像和一幅灰度图像,其中,两幅3通道RGB图像分别表示当前帧图像和之前某帧图像,一幅灰度图像表示之前某帧图像中行人头部区域位置。
S12、设计深度神经网络模型的主干模块,主干模块主要用来提取输入图像的多尺度深层语义融合特征,是整个深度神经网络模型中运算操作最密集的部分,直接决定了深度神经网络模型的性能。本发明采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络,如图4所示,conv0层是一个核尺寸为7×7,跨度为2×2的卷积层;maxpool0层是一个核尺寸为2×2,跨度为2×2的最大值池化层;conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络,主要作用是在保留更多图像细节的同时,快速降低特征图分辨率,减少后续操作的运算量;resblock0、resblock1、resblock2、resblock3均是resnet网络的resblock残差模块,其具体网络结构如图5所示,其中,resconv2层是一个核尺寸为1x1,跨度为2x2的卷积层;resconv0层是一个核尺寸为3x3,跨度为2x2的卷积层;resconv1层、resconv3层、resconv4层均是一个核尺寸为3x3,跨度为1x1的卷积层;eltsum0层和eltsum1层均是特征图相加运算层,其作用是把多个输入特征图按对应元素相加合并成一个输出特征图。
S13、设计深度神经网络模型的瓶颈模块,瓶颈模块主要利用主干模块输出的多尺度深层语义特征和输入模块提供的行人头部区域位置图像,生成一幅具有全局信息、局部信息和空间位置信息的融合特征图。瓶颈模块的具体网络结构如图6所示,C2、C3、C4、C5分别表示主干模块中resblock0、resblock1、resblock2、resblock3等模块对应的输出特征图;行人头部位置图像指的是输入模块中之前某帧图像中行人头部区域位置图像;upsample层是上采样率为2的上采样层;downsample层是下采样率为4的下采样层;sum-P2、sum-P3、sum-P4均是特征图相加运算层,主要用于把两个输入特征图按对应元素相加合并成一个输出特征图;concat层是合并层,其作用是把多个输入特征图按通道维度并成一个输出特征图;conv-p4、conv-p3、conv-p2均是一个核尺寸为3x3跨度为1x1的卷积层,其作用是融合输出的拼接特征图或相加特征图和调整输入特征图尺寸;conv-p5层是一个核尺寸为1x1跨度为1x1的卷积层,其作用是调整输入特征图尺寸;
S14、设计深度神经网络模型的预测模块,预测模块主要基于瓶颈模块的输出特征图,预测当前帧图像中,行人头部区域的位置和相对于前帧图像的运行位移量,具体网络结构如图7所示,b0_conv0、b1_conv0、b2_conv0均是一个核尺寸为1×1,跨度为1×1的卷积层,其作用是调整输入特征图尺寸,降低模型的运算量;b0_conv1、b1_conv1、b2_conv1均是一个核尺寸为3×3,跨度为1×1的卷积层;b0_conv2、b1_conv2、b2_conv2均是一个核尺寸为1×1,跨度为1×1的卷积层;b0_conv2主要用来预测行人头部区域的中心位置;b1_conv2主要用来预测行人头部区域的半径;b2_conv2主要用来预测行人头部区域的运行位移量;
S2、训练深度神经网络模型,主要是通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优,具体的步骤如下:
S21、获取训练样本图像,首先是收集各种场景,各种光线、各种角度下的行人图像;然后标注每一幅图像中行人头部区域的位置,本发明中行人头部区域的位置使用圆形表示,所以行人头部区域的位置参数分别是圆形中心和半径;接着在同一个视频场景下,标注所有图像中每个行人的唯一身份地址;最后,在同一个视频场景下,选择相邻T帧的前后帧两幅图像(一般要求选取的两幅图像之间有相同身份地址的行人),合成训练样本对,该样本对包括相邻的前后帧两幅图像和前帧图像对应的行人头部区域中心位置图像。由于本发明中预测行人头部区域中心位置的输出特征图是一幅语义分割图,为了增加深度神经网络模型的性能,本发明中行人头部区域中心位置的标注信息由点信息变成局部区域图像信息,具体方法是以此行人头部区域中心位置点为中心,以此行人头部区域半径的1/3为半径,基于高斯分布生成局部区域概率分布图像。
S22、设计深度神经网络模型的目标损失函数,预测行人头部区域中心位置分支的目标损失函数采用的是经典的交叉熵损失函数,预测行人头部区域半径分支的目标损失函数采用的是经典的均方差损失函数,预测行人头部区域运动位移量分支的目标损失函数采用的是经典的均方差损失函数。
S23、训练深度神经网络模型,主要是把标注好的车牌样本图像集合送入定义好的深度神经网络模型,学习相关的模型参数;
S3、使用深度神经网络模型,对于任意给出的一幅行人图像,经过深度神经网络模型前向运算后,分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量,进而获取当前帧行人头部区域的位置和相对于前帧的身份地址,具体方法如下:
S31、获取当前帧行人头部区域中心位置,在当前帧行人头部区域中心位置预测分支的输出特征图上,它的每一个像素位置的值表示该位置点是行人头部区域中心的概率值,本发明主要采用局部区域极大值抑制算法,选择局部最大概率值的点作为行人头部区域中心点;
S32、获取当前帧行人头部区域位置,基于获取的行人头部区域中心点,在行人头部区域半径预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的半径,和步骤S31获取的行人头部区域中心组合在一起,表示当前帧行人头部区域的位置。
S33、获取当前帧行人头部区域的运动位移量,基于获取的行人头部区域中心点,在行人头部区域运动位移量预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的运动位移量;
S34、获取当前帧行人头部区域的身份地址,主要是完成行人头部区域的跟踪过程,首先根据当前帧中行人头部区域中心点和对应的运动位移量,计算当前帧行人头部区域在前帧图像中的近似位置,然后统计前帧图像中所有行人头部区域和该近似位置的距离,选择最小距离作为判断依据,如果该最小距离小于设置的阈值,则前帧图像中,该最小距离对应的行人头部区域和当前帧中行人头部区域具有相同身份地址,如果该最小距离小不于设置的阈值,则当前帧中行人头部区域就是新出现的行人头部区域;更新跟踪列表完成当前帧中行人头部区域的跟踪过程。
S35、统计客流数量,基于步骤S34获取的行人头部区域的跟踪列表,采用任意常用的客流统计方法,如过线计数法,即可完成准确的客流统计。
综上可知,本发明的基于深度光流跟踪的客流统计方法及系统,本发明采用深度学习技术,基于一个深度神经网络模型,并行实现行人头部区域的位置检测和行人头部区域的跟踪;综合利用了图像的多尺度语义信息和帧间光流信息,客流统计更加的准确,鲁棒性更强;基于anchor-free的策略设计深度神经网络模型,系统运行速度更快。
另一方面,本发明还公开一种基于深度光流跟踪的客流统计系统,包括以下单元:
数据获取单元,用于获取行人图像;
客流统计单元,用于使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计;
还包括以下子单元:
模型构建单元,用于设计深度神经网络模型;
模型训练单元,用于训练深度神经网络模型,通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优。
第三方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于深度光流跟踪的客流统计方法,其特征在于:
包括以下步骤:
获取行人图像;
使用事先训练好的基于深度光流跟踪的客流统计模型进行客流统计,即对于任意给出的一幅行人图像,经过深度神经网络模型前向运算后,分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量;
根据当前帧中行人头部区域中心点位置和对应的运动位移量,进而获取当前帧行人头部区域相对于前帧的身份地址,更新跟踪列表完成当前帧中行人头部区域的跟踪过程;
基于获取的行人头部区域的跟踪列表,采用客流统计方法,完成客流统计;
所述基于深度光流跟踪的客流统计模型包括输入模块、主干模块、瓶颈模块、预测模块;
所述主干模块用来提取输入图像的多尺度深层语义融合特征;
所述瓶颈模块利用主干模块输出的多尺度深层语义特征和输入模块提供的行人头部区域位置图像,生成一幅具有全局信息、局部信息和空间位置信息的融合特征图;
所述预测模块基于瓶颈模块neck的输出特征图,预测当前帧图像中,行人头部区域的位置和相对于前帧图像的运行位移量;
所述主干模块的网络结构包括conv0层是一个核尺寸为7×7,跨度为2×2的卷积层;maxpool0层是一个核尺寸为2×2,跨度为2×2的最大值池化层;conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络,作用是在保留更多图像细节的同时,快速降低特征图分辨率,减少后续操作的运算量;
resblock0、resblock1、resblock2、resblock3均是resnet网络的resblock残差模块,其中,resconv2层是一个核尺寸为1x1,跨度为2x2的卷积层;resconv0层是一个核尺寸为3x3,跨度为2x2的卷积层;resconv1层、resconv3层、resconv4层均是一个核尺寸为3x3,跨度为1x1的卷积层;eltsum0层和eltsum1层均是特征图相加运算层,其作用是把多个输入特征图按对应元素相加合并成一个输出特征图;
所述瓶颈模块的网络结构包括,
C2、C3、C4、C5分别表示主干模块中resblock0、resblock1、resblock2、resblock3模块对应的输出特征图;行人头部位置图像指的是输入模块中之前某帧图像中行人头部区域位置图像;upsample层是上采样率为2的上采样层;downsample层是下采样率为4的下采样层;sum-P2、sum-P3、sum-P4均是特征图相加运算层,用于把两个输入特征图按对应元素相加合并成一个输出特征图;concat层是合并层,其作用是把多个输入特征图按通道维度并成一个输出特征图;conv-p4、conv-p3、conv-p2均是一个核尺寸为3x3跨度为1x1的卷积层,其作用是融合输出的拼接特征图或相加特征图和调整输入特征图尺寸;conv-p5层是一个核尺寸为1x1跨度为1x1的卷积层,其作用是调整输入特征图尺寸;
其中,C5层特征图作为conv-p5层的输入,conv-p5层的输出特征图作为upsample5层的输入,upsample5层的输出特征图和C4层特征图共同作为sum-P4层的输入,sum-P4层的输出特征图作为conv-p4层的输入,conv-p4层的输出特征图作为upsample4层的输入,upsample4层的输出特征图和C3层特征图共同作为sum-P3层的输入,sum-P3层的输出特征图作为conv-p3层的输入,conv-p3层的输出特征图作为upsample3层的输入,upsample3层的输出特征图和C2层特征图共同作为sum-P2层的输入;
行人头部位置图像作为downsample层的输入,downsample层的输出特征图和sum-P2层的输出特征图共同作为concat层的输入,concat层的输出特征图作为conv-p2层的输入,conv-p2层的输出特征图即是当前瓶颈模块的输出特征图。
2.根据权利要求1所述的基于深度光流跟踪的客流统计方法,其特征在于:所述输入模块的输入图像包括两幅3通道RGB图像和一幅灰度图像,其中,两幅3通道RGB图像分别表示当前帧图像和之前某帧图像,一幅灰度图像表示之前某帧图像中行人头部区域位置。
3.根据权利要求1所述的基于深度光流跟踪的客流统计方法,其特征在于:所述预测模块的网络结构包括,
b0_conv0、b1_conv0、b2_conv0均是一个核尺寸为1×1,跨度为1×1的卷积层,其作用是调整输入特征图尺寸,降低模型的运算量;b0_conv1、b1_conv1、b2_conv1均是一个核尺寸为3×3,跨度为1×1的卷积层;b0_conv2、b1_conv2、b2_conv2均是一个核尺寸为1×1,跨度为1×1的卷积层;b0_conv2主要用来预测行人头部区域的中心位置;b1_conv2主要用来预测行人头部区域的半径;b2_conv2主要用来预测行人头部区域的运行位移量;
其中,瓶颈模块特征图分别作为b0_conv0层、b1_conv0层、b2_conv0层的输入,b0_conv0层的输出特征图作为b0_conv1层的输入,b0_conv1层的输出特征图作为b0_conv2层的输入,b0_conv2层的输出特征图即可预测行人头部区域的中心位置;
b1_conv0层的输出特征图作为b1_conv1层的输入,b1_conv1层的输出特征图作为b1_conv2层的输入,b1_conv2层的输出特征图即可预测行人头部区域的半径大小;
b2_conv0层的输出特征图作为b2_conv1层的输入,b2_conv1层的输出特征图作为b2_conv2层的输入,b2_conv2层的输出特征图即可预测行人头部区域的运动位移量。
4.根据权利要求1所述的基于深度光流跟踪的客流统计方法,其特征在于:所述主干模块具体采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络。
5.根据权利要求1所述的基于深度光流跟踪的客流统计方法,其特征在于:所述基于深度光流跟踪的客流统计模型构建步骤如下,
S1、设计深度神经网络模型;
S2、训练深度神经网络模型,通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优。
6.根据权利要求1所述的基于深度光流跟踪的客流统计方法,其特征在于:所述使用事先训练好的基于深度光流跟踪的客流统计模型进行客流统计具体包括:
S31、获取当前帧行人头部区域中心位置,在当前帧行人头部区域中心位置预测分支的输出特征图上,它的每一个像素位置的值表示该位置点是行人头部区域中心的概率值;
S32、获取当前帧行人头部区域位置,基于获取的行人头部区域中心点,在行人头部区域半径预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的半径,和步骤S31获取的行人头部区域中心组合在一起,表示当前帧行人头部区域的位置;
S33、获取当前帧行人头部区域的运动位移量,基于获取的行人头部区域中心点,在行人头部区域运动位移量预测分支的输出特征图上提取对应位置的预测值,表示当前帧行人头部区域的运动位移量;
S34、获取当前帧行人头部区域的身份地址,完成行人头部区域的跟踪过程,首先根据当前帧中行人头部区域中心点和对应的运动位移量,计算当前帧行人头部区域在前帧图像中的近似位置,然后统计前帧图像中所有行人头部区域和该近似位置的距离,选择最小距离作为判断依据,如果该最小距离小于设置的阈值,则前帧图像中,该最小距离对应的行人头部区域和当前帧中行人头部区域具有相同身份地址,如果该最小距离不小于设置的阈值,则当前帧中行人头部区域就是新出现的行人头部区域;更新跟踪列表完成当前帧中行人头部区域的跟踪过程;
S35、统计客流数量,基于步骤S34获取的行人头部区域的跟踪列表,采用任意常用的客流统计方法,完成准确的客流统计。
7.一种基于深度光流跟踪的客流统计系统,用于实现权利要求1-6任意一项所述的基于深度光流跟踪的客流统计方法,其特征在于,
包括以下单元:
数据获取单元,用于获取行人图像;
客流统计单元,用于使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计;
还包括以下子单元:
模型构建单元,用于设计深度神经网络模型;
模型训练单元,用于训练深度神经网络模型,通过大量的标注好的训练样本数据,优化深度神经网络模型参数,使得深度神经网络模型检测性能最优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885690.9A CN112085767B (zh) | 2020-08-28 | 2020-08-28 | 一种基于深度光流跟踪的客流统计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010885690.9A CN112085767B (zh) | 2020-08-28 | 2020-08-28 | 一种基于深度光流跟踪的客流统计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085767A CN112085767A (zh) | 2020-12-15 |
CN112085767B true CN112085767B (zh) | 2023-04-18 |
Family
ID=73728926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010885690.9A Active CN112085767B (zh) | 2020-08-28 | 2020-08-28 | 一种基于深度光流跟踪的客流统计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085767B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112857746A (zh) * | 2020-12-29 | 2021-05-28 | 上海眼控科技股份有限公司 | 一种灯光检测仪的追踪方法、装置、电子设备及存储介质 |
CN114170269B (zh) * | 2021-11-18 | 2024-04-12 | 安徽清新互联信息科技有限公司 | 一种基于时空相关性的多目标跟踪方法、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563347A (zh) * | 2017-09-20 | 2018-01-09 | 南京行者易智能交通科技有限公司 | 一种基于tof相机的客流计数方法和装置 |
CN110991287A (zh) * | 2019-11-23 | 2020-04-10 | 深圳市恩钛控股有限公司 | 一种实时视频流人脸检测跟踪方法及检测跟踪系统 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408746B (zh) * | 2014-11-21 | 2017-07-14 | 安徽清新互联信息科技有限公司 | 一种基于深度信息的客流统计系统 |
CN104392522B (zh) * | 2014-11-21 | 2016-08-24 | 安徽清新互联信息科技有限公司 | 一种基于伪深度信息的客流统计系统 |
KR101688218B1 (ko) * | 2016-08-25 | 2016-12-20 | 델리아이 주식회사 | 객체 인지 기반의 실시간 영상 검지 기술을 이용한 교통 흐름 및 돌발 상황 관리 시스템 및 그 처리 방법 |
CN108021848B (zh) * | 2016-11-03 | 2021-06-01 | 浙江宇视科技有限公司 | 客流量统计方法及装置 |
CN108154110B (zh) * | 2017-12-22 | 2022-01-11 | 任俊芬 | 一种基于深度学习人头检测的密集人流量统计方法 |
CN108242062B (zh) * | 2017-12-27 | 2023-06-30 | 北京纵目安驰智能科技有限公司 | 基于深度特征流的目标跟踪方法、系统、终端及介质 |
CN108171752A (zh) * | 2017-12-28 | 2018-06-15 | 成都阿普奇科技股份有限公司 | 一种基于深度学习的海面船只视频检测与跟踪方法 |
CN109829436B (zh) * | 2019-02-02 | 2022-05-13 | 福州大学 | 基于深度表观特征和自适应聚合网络的多人脸跟踪方法 |
CN110334602B (zh) * | 2019-06-06 | 2021-10-26 | 武汉市公安局视频侦查支队 | 一种基于卷积神经网络的人流量统计方法 |
CN110503666B (zh) * | 2019-07-18 | 2021-11-23 | 上海交通大学 | 一种基于视频的密集人群计数方法与系统 |
CN110415277B (zh) * | 2019-07-24 | 2022-03-08 | 中国科学院自动化研究所 | 基于光流和卡尔曼滤波的多目标追踪方法、系统、装置 |
CN110570456A (zh) * | 2019-07-26 | 2019-12-13 | 南京理工大学 | 基于yolo目标检测算法和光流追踪算法融合的机动车轨迹提取方法 |
CN110619655B (zh) * | 2019-08-23 | 2022-03-29 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
CN110796035B (zh) * | 2019-10-14 | 2024-05-24 | 上海复瞰科技有限公司 | 一种基于人形检测和速度计算的进出人数统计方法 |
CN111160085A (zh) * | 2019-11-19 | 2020-05-15 | 天津中科智能识别产业技术研究院有限公司 | 一种人体图像关键点姿态估计方法 |
CN111062967B (zh) * | 2019-11-25 | 2023-05-26 | 山大地纬软件股份有限公司 | 一种基于目标动态跟踪的电力营业厅客流统计方法及系统 |
US10713493B1 (en) * | 2020-02-06 | 2020-07-14 | Shenzhen Malong Technologies Co., Ltd. | 4D convolutional neural networks for video recognition |
CN111488795B (zh) * | 2020-03-09 | 2022-12-02 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
-
2020
- 2020-08-28 CN CN202010885690.9A patent/CN112085767B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563347A (zh) * | 2017-09-20 | 2018-01-09 | 南京行者易智能交通科技有限公司 | 一种基于tof相机的客流计数方法和装置 |
CN110991287A (zh) * | 2019-11-23 | 2020-04-10 | 深圳市恩钛控股有限公司 | 一种实时视频流人脸检测跟踪方法及检测跟踪系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112085767A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN113486726A (zh) | 一种基于改进卷积神经网络的轨道交通障碍物检测方法 | |
Zhang et al. | ISSAFE: Improving semantic segmentation in accidents by fusing event-based data | |
Mahjourian et al. | Geometry-based next frame prediction from monocular video | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
US11170470B1 (en) | Content-adaptive non-uniform image downsampling using predictive auxiliary convolutional neural network | |
CN112085767B (zh) | 一种基于深度光流跟踪的客流统计方法及系统 | |
CN103093458B (zh) | 关键帧的检测方法及装置 | |
CN112101113A (zh) | 一种轻量化的无人机图像小目标检测方法 | |
US11557089B1 (en) | System and method for determining a viewpoint of a traffic camera | |
Xu et al. | Ground plane context aggregation network for day-and-night on vehicular pedestrian detection | |
CN117173399A (zh) | 一种跨模态交叉注意力机制的交通目标检测方法及系统 | |
Yang et al. | YOLOv8-Lite: A Lightweight Object Detection Model for Real-time Autonomous Driving Systems | |
EP4445331A1 (en) | Object detection device, object detection method, and object detection system | |
Xia et al. | Unsupervised optical flow estimation with dynamic timing representation for spike camera | |
CN117409204A (zh) | 一种基于特征复用和两阶段自注意力的实时语义分割方法 | |
CN117237612A (zh) | 一种基于yolox模型的复杂道路场景目标检测方法 | |
CN105184809A (zh) | 运动对象检测方法和运动对象检测装置 | |
CN116630904A (zh) | 融合非临近跳连与多尺度残差结构的小目标车辆检测方法 | |
CN115512263A (zh) | 一种面向高空坠物的动态视觉监测方法及装置 | |
WO2019045586A1 (ru) | Способ мониторинга движущихся объектов | |
Liu et al. | A YOLOX Object Detection Algorithm Based on Bidirectional Cross-scale Path Aggregation | |
CN114612999A (zh) | 一种目标行为分类方法、存储介质及终端 | |
Pham et al. | Object detection framework for high mobility vehicles tracking in night-time |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |