CN112085767A

CN112085767A - 一种基于深度光流跟踪的客流统计方法及系统

Info

Publication number: CN112085767A
Application number: CN202010885690.9A
Authority: CN
Inventors: 张卡; 何佳; 戴亮亮; 尼秀明
Original assignee: Anhui Qingxin Internet Information Technology Co ltd
Current assignee: Anhui Qingxin Internet Information Technology Co ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-15
Anticipated expiration: 2040-08-28
Also published as: CN112085767B

Abstract

本发明的一种基于深度光流跟踪的客流统计方法及系统，包括：获取行人图像；使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计，即对于任意给出的一幅行人图像，经过深度神经网络模型前向运算后，分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量；进而获取当前帧行人头部区域的位置和相对于前帧的身份地址，更新跟踪列表；采用客流统计方法，完成客流统计。本发明采用深度学习基于一个深度神经网络模型，并行实现行人头部区域的位置检测和行人头部区域的跟踪；综合利用了图像的多尺度语义信息和帧间光流信息，客流统计更加的准确，鲁棒性更强；基于anchor‑free的策略设计深度神经网络模型，系统运行速度更快。

Description

一种基于深度光流跟踪的客流统计方法及系统

技术领域

本发明涉及行人检测跟踪和客流统计技术领域，具体涉及一种基于深度光流跟踪的客流统计方法及系统。

背景技术

基于客流量是衡量公共场所繁忙程度的重要依据，准确的实时客流信息对于管理公共场所和调度公共设施具有重要指导意义。例如：对于公交车运输系统，掌握各个站点和时段的客流量，公交公司可以更加合理的调整线路和增减车辆，提升了资源的利用率。对于商场和超市，准确掌握实时客流量，可以动态调整工作人员数量和制定合理的营销策略。

目前，客流统计主要有以下几类技术:

(1)基于红外测距的统计技术，如“基于红外测距传感器的公交车客流统计系统”(中国专利申请号：CN201310731307)。该类技术虽然成本低，实现简单，但当出现密集以及拥挤的人群时，准确率会严重下降甚至失效。

(2)基于视频图像处理的统计技术，如“一种基于自适应模板匹配的客流统计方法”(中国专利申请号：CN201010509217)，这是典型的基于二维图像检测和跟踪技术的，该类技术在一些特定场景，如光线稳定的室内入口处，能取得很好的统计结果，但是在光线不稳的室外，比如公交车上，该方法会出现较为严重误差。

(3)基于视频深度信息的统计技术，如：“基于立体视觉的公交客流统计方法及其系统”(中国专利申请号：CN200510060288)，“一种基于测距原理的实时人数统计方法与系统”(中国专利申请号：CN201210390592)。该类技术能够较准确的定位出人的位置，同时对于复杂环境和拥挤人群也有较好的效果，但是算法较为复杂，运行效率低下，同时硬件成本也较高。

发明内容

本发明提出的一种基于深度光流跟踪的客流统计方法及系统，可解决背景技术中的技术问题。

为实现上述目的，本发明采用了以下技术方案：

一种基于深度光流跟踪的客流统计方法，包括：

包括以下步骤：

获取行人图像；

使用事先训练好的基于深度光流跟踪的客流统计模型进行客流统计，即对于任意给出的一幅行人图像，经过深度神经网络模型前向运算后，分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量；

根据当前帧中行人头部区域中心点位置和对应的运动位移量，进而获取当前帧行人头部区域相对于前帧的身份地址，更新跟踪列表完成当前帧中行人头部区域的跟踪过程；

基于获取的行人头部区域的跟踪列表，采用客流统计方法，完成客流统计。

进一步的，所示基于深度光流跟踪的客流统计模型包括输入模块、主干模块、瓶颈模块、预测模块；

其中，

所述主干模块用来提取输入图像的多尺度深层语义融合特征；

所述瓶颈模块利用主干模块输出的多尺度深层语义特征和输入模块提供的行人头部区域位置图像，生成一幅具有全局信息、局部信息和空间位置信息的融合特征图；

所述预测模块基于瓶颈模块neck的输出特征图，预测当前帧图像中，行人头部区域的位置和相对于前帧图像的运行位移量。

进一步的，所述输入模块的输入图像包括两幅3通道RGB图像和一幅灰度图像，其中，两幅3通道RGB图像分别表示当前帧图像和之前某帧图像，一幅灰度图像表示之前某帧图像中行人头部区域位置。

进一步的，所述主干模块的网络结构包括conv0层是一个核尺寸为7×7，跨度为2×2的卷积层；maxpool0层是一个核尺寸为2×2，跨度为2×2的最大值池化层；conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络，作用是在保留更多图像细节的同时，快速降低特征图分辨率，减少后续操作的运算量；

resblock0、resblock1、resblock2、resblock3均是resnet网络的resblock残差模块，其中，resconv2层是一个核尺寸为1x1,跨度为2x2的卷积层；resconv0层是一个核尺寸为3x3,跨度为2x2的卷积层；resconv1层、resconv3层、resconv4层均是一个核尺寸为3x3,跨度为1x1的卷积层；eltsum0层和eltsum1层均是特征图相加运算层，其作用是把多个输入特征图按对应元素相加合并成一个输出特征图。

进一步的，所述瓶颈模块的网络结构包括，

C2、C3、C4、C5分别表示主干模块中resblock0、resblock1、resblock2、resblock3模块对应的输出特征图；行人头部位置图像指的是输入模块中之前某帧图像中行人头部区域位置图像；upsample层是上采样率为2的上采样层；downsample层是下采样率为4的下采样层；sum-P2、sum-P3、sum-P4均是特征图相加运算层，用于把两个输入特征图按对应元素相加合并成一个输出特征图；concat层是合并层，其作用是把多个输入特征图按通道维度并成一个输出特征图；conv-p4、conv-p3、conv-p2均是一个核尺寸为3x3跨度为1x1的卷积层，其作用是融合输出的拼接特征图或相加特征图和调整输入特征图尺寸；conv-p5层是一个核尺寸为1x1跨度为1x1的卷积层，其作用是调整输入特征图尺寸。

进一步的，所述预测模块的网络结构包括，

b0_conv0、b1_conv0、b2_conv0均是一个核尺寸为1×1，跨度为1×1的卷积层，其作用是调整输入特征图尺寸，降低模型的运算量；b0_conv1、b1_conv1、b2_conv1均是一个核尺寸为3×3，跨度为1×1的卷积层；b0_conv2、b1_conv2、b2_conv2均是一个核尺寸为1×1，跨度为1×1的卷积层；b0_conv2主要用来预测行人头部区域的中心位置；b1_conv2主要用来预测行人头部区域的半径；b2_conv2主要用来预测行人头部区域的运行位移量。

进一步的，所述主干模块具体采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络。

进一步的，所述基于深度光流跟踪的客流统计模型构建步骤如下，

S1、设计深度神经网络模型；

S2、训练深度神经网络模型，通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型检测性能最优。

进一步的，所述使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计具体包括：

S31、获取当前帧行人头部区域中心位置，在当前帧行人头部区域中心位置预测分支的输出特征图上，它的每一个像素位置的值表示该位置点是行人头部区域中心的概率值；

S32、获取当前帧行人头部区域位置，基于获取的行人头部区域中心点，在行人头部区域半径预测分支的输出特征图上提取对应位置的预测值，表示当前帧行人头部区域的半径，和步骤S31获取的行人头部区域中心组合在一起，表示当前帧行人头部区域的位置；

S33、获取当前帧行人头部区域的运动位移量，基于获取的行人头部区域中心点，在行人头部区域运动位移量预测分支的输出特征图上提取对应位置的预测值，表示当前帧行人头部区域的运动位移量；

S34、获取当前帧行人头部区域的身份地址，完成行人头部区域的跟踪过程，首先根据当前帧中行人头部区域中心点和对应的运动位移量，计算当前帧行人头部区域在前帧图像中的近似位置，然后统计前帧图像中所有行人头部区域和该近似位置的距离，选择最小距离作为判断依据，如果该最小距离小于设置的阈值，则前帧图像中，该最小距离对应的行人头部区域和当前帧中行人头部区域具有相同身份地址，如果该最小距离小不于设置的阈值，则当前帧中行人头部区域就是新出现的行人头部区域；更新跟踪列表完成当前帧中行人头部区域的跟踪过程；

S35、统计客流数量，基于步骤S34获取的行人头部区域的跟踪列表，采用任意常用的客流统计方法，完成准确的客流统计。

另一方面，本发明还公开一种基于深度光流跟踪的客流统计系统，包括以下单元：

数据获取单元，用于获取行人图像；

客流统计单元，用于使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计；

还包括以下子单元：

模型构建单元，用于设计深度神经网络模型；

模型训练单元，用于训练深度神经网络模型，通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型检测性能最优。

由上述技术方案可知，本发明的基于深度光流跟踪的客流统计方法及系统，本发明采用深度学习技术，基于一个深度神经网络模型，并行实现行人头部区域的位置检测和行人头部区域的跟踪；综合利用了图像的多尺度语义信息和帧间光流信息，客流统计更加的准确，鲁棒性更强；基于anchor-free的策略设计深度神经网络模型，系统运行速度更快。

附图说明

图1是本发明的方法流程图；

图2是本发明模型构建的流程图；

图3是深度神经网络模型结构图，

图4是主干模块网络结构图；

图5是resblock残差模块结构图；

图6是瓶颈模块网络结构图；

图7是预测模块网络结构图；

其中每个模块图形旁边的字母数字，表示当前模块的输出特征图尺寸，即：特征图高度×特征图宽度×特征图通道数；H表示输入图像的高度，W表示输入图像的宽度，IH表示输入特征图的高度，IW表示输入特征图的宽度，C表示输入特征图的通道数。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本实施例中，摄像机安装在行人的上方，摄像机视线和竖直方向的夹角在正负30度以内，以确保采集的图像中，行人头部区域不存在长时间的遮挡情况。

如图1所示，本发明实施例的一种基于深度光流跟踪的客流统计方法，包括：

获取行人图像；

使用事先设置好的基于深度光流跟踪的客流统计模型，对于任意给出的一幅行人图像，经过深度神经网络模型前向运算后，分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量；

其中，基于深度光流跟踪的客流统计模型的构建步骤如下：

如图2所示，具体的步骤如下：

S1、设计深度神经网络模型，众所周知，在实际应用场景下，受光线变化、设备成像质量和拍摄角度的影响，图像中行人头部区域会出现模糊、遮挡、偏色等缺陷，使用现有的行人头部检测方法和行人头部跟踪方法很难进行精确的客流统计，因此，本发明提出一种基于深度光流跟踪的客流统计方法，该方法采用深度学习技术，通过借助一个精心设计的深度神经网络模型，综合利用当前帧的图像信息和前后帧之间的运动光流信息，能够并行的预测出行人头部区域位置和行人头部区域相对于前帧中行人头部区域的运动位移量，借助简单的后处理即可实现行人头部的跟踪，进而完成精确的客流统计。本发明使用卷积神经网络(CNN)进行深度神经网络模型设计，为了方便叙述本发明，定义一些术语：特征图分辨率指的是特征图高度×特征图宽度，特征图尺寸指的是特征图高度×特征图宽度×特征图通道数，核尺寸指的是核宽度×核高度，跨度指的是宽度方向跨度×高度方向跨度，另外，每一个卷积层后面均带有批量归一化层和非线性激活层。本发明设计的深度神经网络模型采用全卷积网络，包括输入模块input、主干模块backbone、瓶颈模块neck、预测模块detector，其具体网络结构如图3所示，设计过程分为以下步骤：

S11、设计深度神经网络模型的输入模块，由于本发明所采用的深度神经网络模型是基于全卷积网络，对输入图像分辨率不做要求，输入图像包括两幅3通道RGB图像和一幅灰度图像，其中，两幅3通道RGB图像分别表示当前帧图像和之前某帧图像，一幅灰度图像表示之前某帧图像中行人头部区域位置。

S12、设计深度神经网络模型的主干模块，主干模块主要用来提取输入图像的多尺度深层语义融合特征，是整个深度神经网络模型中运算操作最密集的部分，直接决定了深度神经网络模型的性能。本发明采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络，如图4所示，conv0层是一个核尺寸为7×7，跨度为2×2的卷积层；maxpool0层是一个核尺寸为2×2，跨度为2×2的最大值池化层；conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络，主要作用是在保留更多图像细节的同时，快速降低特征图分辨率，减少后续操作的运算量；resblock0、resblock1、resblock2、resblock3均是resnet网络的resblock残差模块，其具体网络结构如图5所示，其中，resconv2层是一个核尺寸为1x1,跨度为2x2的卷积层；resconv0层是一个核尺寸为3x3,跨度为2x2的卷积层；resconv1层、resconv3层、resconv4层均是一个核尺寸为3x3,跨度为1x1的卷积层；eltsum0层和eltsum1层均是特征图相加运算层，其作用是把多个输入特征图按对应元素相加合并成一个输出特征图。

S13、设计深度神经网络模型的瓶颈模块，瓶颈模块主要利用主干模块输出的多尺度深层语义特征和输入模块提供的行人头部区域位置图像，生成一幅具有全局信息、局部信息和空间位置信息的融合特征图。瓶颈模块的具体网络结构如图6所示，C2、C3、C4、C5分别表示主干模块中resblock0、resblock1、resblock2、resblock3等模块对应的输出特征图；行人头部位置图像指的是输入模块中之前某帧图像中行人头部区域位置图像；upsample层是上采样率为2的上采样层；downsample层是下采样率为4的下采样层；sum-P2、sum-P3、sum-P4均是特征图相加运算层，主要用于把两个输入特征图按对应元素相加合并成一个输出特征图；concat层是合并层，其作用是把多个输入特征图按通道维度并成一个输出特征图；conv-p4、conv-p3、conv-p2均是一个核尺寸为3x3跨度为1x1的卷积层，其作用是融合输出的拼接特征图或相加特征图和调整输入特征图尺寸；conv-p5层是一个核尺寸为1x1跨度为1x1的卷积层，其作用是调整输入特征图尺寸；

S14、设计深度神经网络模型的预测模块，预测模块主要基于瓶颈模块的输出特征图，预测当前帧图像中，行人头部区域的位置和相对于前帧图像的运行位移量，具体网络结构如图7所示，b0_conv0、b1_conv0、b2_conv0均是一个核尺寸为1×1，跨度为1×1的卷积层，其作用是调整输入特征图尺寸，降低模型的运算量；b0_conv1、b1_conv1、b2_conv1均是一个核尺寸为3×3，跨度为1×1的卷积层；b0_conv2、b1_conv2、b2_conv2均是一个核尺寸为1×1，跨度为1×1的卷积层；b0_conv2主要用来预测行人头部区域的中心位置；b1_conv2主要用来预测行人头部区域的半径；b2_conv2主要用来预测行人头部区域的运行位移量；

S2、训练深度神经网络模型，主要是通过大量的标注好的训练样本数据，优化深度神经网络模型参数，使得深度神经网络模型检测性能最优，具体的步骤如下：

S21、获取训练样本图像，首先是收集各种场景，各种光线、各种角度下的行人图像；然后标注每一幅图像中行人头部区域的位置，本发明中行人头部区域的位置使用圆形表示，所以行人头部区域的位置参数分别是圆形中心和半径；接着在同一个视频场景下，标注所有图像中每个行人的唯一身份地址；最后，在同一个视频场景下，选择相邻T帧的前后帧两幅图像(一般要求选取的两幅图像之间有相同身份地址的行人)，合成训练样本对，该样本对包括相邻的前后帧两幅图像和前帧图像对应的行人头部区域中心位置图像。由于本发明中预测行人头部区域中心位置的输出特征图是一幅语义分割图，为了增加深度神经网络模型的性能，本发明中行人头部区域中心位置的标注信息由点信息变成局部区域图像信息，具体方法是以此行人头部区域中心位置点为中心，以此行人头部区域半径的1/3为半径，基于高斯分布生成局部区域概率分布图像。

S22、设计深度神经网络模型的目标损失函数，预测行人头部区域中心位置分支的目标损失函数采用的是经典的交叉熵损失函数，预测行人头部区域半径分支的目标损失函数采用的是经典的均方差损失函数，预测行人头部区域运动位移量分支的目标损失函数采用的是经典的均方差损失函数。

S23、训练深度神经网络模型，主要是把标注好的车牌样本图像集合送入定义好的深度神经网络模型，学习相关的模型参数；

S3、使用深度神经网络模型，对于任意给出的一幅行人图像，经过深度神经网络模型前向运算后，分别输出行人头部区域的中心位置、行人头部区域的半径以及行人头部区域的运动位移量，进而获取当前帧行人头部区域的位置和相对于前帧的身份地址，具体方法如下：

S31、获取当前帧行人头部区域中心位置，在当前帧行人头部区域中心位置预测分支的输出特征图上，它的每一个像素位置的值表示该位置点是行人头部区域中心的概率值，本发明主要采用局部区域极大值抑制算法，选择局部最大概率值的点作为行人头部区域中心点；

S32、获取当前帧行人头部区域位置，基于获取的行人头部区域中心点，在行人头部区域半径预测分支的输出特征图上提取对应位置的预测值，表示当前帧行人头部区域的半径，和步骤S31获取的行人头部区域中心组合在一起，表示当前帧行人头部区域的位置。

S34、获取当前帧行人头部区域的身份地址，主要是完成行人头部区域的跟踪过程，首先根据当前帧中行人头部区域中心点和对应的运动位移量，计算当前帧行人头部区域在前帧图像中的近似位置，然后统计前帧图像中所有行人头部区域和该近似位置的距离，选择最小距离作为判断依据，如果该最小距离小于设置的阈值，则前帧图像中，该最小距离对应的行人头部区域和当前帧中行人头部区域具有相同身份地址，如果该最小距离小不于设置的阈值，则当前帧中行人头部区域就是新出现的行人头部区域；更新跟踪列表完成当前帧中行人头部区域的跟踪过程。

S35、统计客流数量，基于步骤S34获取的行人头部区域的跟踪列表，采用任意常用的客流统计方法，如过线计数法，即可完成准确的客流统计。

综上可知，本发明的基于深度光流跟踪的客流统计方法及系统，本发明采用深度学习技术，基于一个深度神经网络模型，并行实现行人头部区域的位置检测和行人头部区域的跟踪；综合利用了图像的多尺度语义信息和帧间光流信息，客流统计更加的准确，鲁棒性更强；基于anchor-free的策略设计深度神经网络模型，系统运行速度更快。

数据获取单元，用于获取行人图像；

还包括以下子单元：

模型构建单元，用于设计深度神经网络模型；

第三方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述方法的步骤。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度光流跟踪的客流统计方法，其特征在于：

包括以下步骤：

获取行人图像；

2.根据权利要求1所述的基于深度光流跟踪的客流统计方法，其特征在于：所示基于深度光流跟踪的客流统计模型包括输入模块、主干模块、瓶颈模块、预测模块；

其中，

3.根据权利要求2所述的基于深度光流跟踪的客流统计方法，其特征在于：所述输入模块的输入图像包括两幅3通道RGB图像和一幅灰度图像，其中，两幅3通道RGB图像分别表示当前帧图像和之前某帧图像，一幅灰度图像表示之前某帧图像中行人头部区域位置。

4.根据权利要求2所述的基于深度光流跟踪的客流统计方法，其特征在于：所述主干模块的网络结构包括conv0层是一个核尺寸为7×7，跨度为2×2的卷积层；maxpool0层是一个核尺寸为2×2，跨度为2×2的最大值池化层；conv0层和maxpool0层共同组成了一个特征图分辨率快速下降网络，作用是在保留更多图像细节的同时，快速降低特征图分辨率，减少后续操作的运算量；

5.根据权利要求4所述的基于深度光流跟踪的客流统计方法，其特征在于：所述瓶颈模块的网络结构包括，

6.根据权利要求5所述的基于深度光流跟踪的客流统计方法，其特征在于：所述预测模块的网络结构包括，

7.根据权利要求2所述的基于深度光流跟踪的客流统计方法，其特征在于：所述主干模块具体采用了改进的ResNet经典网络作为深度神经网络模型的主干模块网络。

8.根据权利要求2所述的基于深度光流跟踪的客流统计方法，其特征在于：所述基于深度光流跟踪的客流统计模型构建步骤如下，

S1、设计深度神经网络模型；

9.根据权利要求1所述的基于深度光流跟踪的客流统计方法，其特征在于：所述使用事先设置好的基于深度光流跟踪的客流统计模型进行客流统计具体包括：

10.一种基于深度光流跟踪的客流统计系统，其特征在于，

包括以下单元：

数据获取单元，用于获取行人图像；

还包括以下子单元：

模型构建单元，用于设计深度神经网络模型；