CN110334602A

CN110334602A - 一种基于卷积神经网络的人流量统计方法

Info

Publication number: CN110334602A
Application number: CN201910489555.XA
Authority: CN
Inventors: 邢钊; 刘建涛; 薛永大
Original assignee: Video Investigation Team Of Wuhan Public Security Bureau
Current assignee: Video Investigation Team Of Wuhan Public Security Bureau
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-15
Anticipated expiration: 2039-06-06
Also published as: CN110334602B

Abstract

一种基于卷积神经网络的人流量统计方法，包括采集视频中的行人目标，对视频中的行人目标进行打标，获取标注图像和行人目标标注信息数据集，将数据集分成训练数据集和测试数据集；设计基于改进的快速消化卷积层卷积层IRDCL和多尺度卷积层MSCL构成的行人目标检测和比对网络模型PersonBoxes；将标注图像和行人目标标注信息放入行人PersonBoxes中进行训练，输出行人目标检测和比对训练模型；在行人目标检测和比对训练模型基础上，输入视频流数据，生成行人目标移动轨迹，输出视频流在对应时间段内人流量信息，实现人流量统计。本发明能够实现行人目标的检测和跟踪，统计得到人流量情况，通过分析人流量情况，协助公安部门进行提前布控，把案件侦查由事后向事前转化。

Description

一种基于卷积神经网络的人流量统计方法

技术领域

本发明涉及智能视频监控技术领域，尤其涉及一种基于卷积神经网络的人流量统计方法。

背景技术

随着科技的快速发展，智能视频监控技术在公安刑侦业务中广泛应用，通过视频录像记录行人及车辆行为，从视频中发觉潜在的安全风险已成为刑侦技术的重要手段。在平安城市的建设中，视频监控的数量急剧增加，对视频监控数据的利用就显得十分重要，特别是在一些重点布控区域，需要时刻关注该区域的人流量信息，通过人流量信息来进行合理的警力布控，提升公安的监管效率，更进一步，基于卷积神经网络的人流量统计方法可以高效、实时的分析监控视频中的人流量，从而减少警力对海量视频的巡视，提升公安办公效率。

发明内容

本发明的目的在于提供一种基于卷积神经网络的人流量统计方法，旨在用于解决现有视频监控场景中人流量统计速度慢、准确率低和稳定性差等问题，通过一种基于卷积神经网络的人流量统计方法可以为视频侦查场景中提供人流分布情况。本发明的技术方案如下：

一种基于卷积神经网络的人流量统计方法，该方法包括以下步骤：

步骤1，获取监控场景的监控视频，获取视频帧图像，对帧图像中的行人目标进行打标，获取标注图像及对应的行人目标标注信息，将行人目标标注信息数据集按照一定比例分成训练数据集和测试数据集；

步骤2，构建基于改进的快速消化的卷积层IRDCL和多尺度卷积层MSCL的行人目标检测和比对网络模型PersonBoxes；

步骤3，将步骤1获得的标注图像及训练数据集放入PersonBoxes中进行训练，通过迭代训练，利用反传播算法，逐步更新该网络模型的训练参数，直至该网络模型收敛；训练过程中，将测试数据集送入PersonBoxes网络模型中验证模型的定位、分类和比对性能；

步骤4，在步骤3训练出的行人目标检测和比对网络模型PersonBoxes的基础上，输入视频流数据，生成行人目标移动轨迹，根据生成的移动轨迹数量，输出视频流在对应时间段内人流量信息，实现人流量统计。

进一步地：步骤1中，行人目标标注信息数据格式为{frameId,objectNum,objectId_1[left_1,top_1,right_1,bottom_1,objectId_1],…,objectId_i[left_i,top_i,right_i,bottom_i]},其中，frameId为帧号，可以通过初始值为1，逐帧递增(非必要)，objectNum为该帧图像中行人目标的个数，objectId_i为该帧图像中第i个行人目标对应的ID，left_i,top_i,right_i,bottom_i分别对应着该帧图像中第i个行人目标的左、上、右、下坐标信息，根据相邻帧行人目标的关联关系获取objectId_i在前后帧的坐标信息，从而获取行人目标轨迹信息。

进一步地，将行人目标标注信息数据集按照7:3的比例分成训练数据集和测试数据集。

进一步地：步骤2中，行人目标检测和比对网络模型PersonBoxes包括：

改进的快速消化卷积层IRDCL，由Conv1_1、Conv1_2、Pooling_1、Conv2_1、Conv2_2和Pooling_2组成，IRDCL可以快速降低图像尺寸，减少网络的通道数，减少信息损失，以实现快速提取特征，保证实时性，卷积层Conv1_1、Conv1_2、Conv2_1和Conv2_2的步长分别为2、2、1和2，卷积层之后均连接BN(Batch Normalization)和激活函数ReLU，池化层Pooling_1和Pooling_2的步长分别为2和2，经过IRDCL，到Inception网络前面尺寸就缩小了32倍，为了充分的获取特征信息，Conv1_1和Conv1_2的卷积核大小设置为5×5，Pooling_1的卷积核大小设置为3×3，Conv2_1和Conv2_2的卷积核大小设置为3×3，Pooling_2的卷积核大小设置为3×3。

多尺度卷积层MSCL，由Inception1、Inception2、Inception3、Conv3_1、Conv3_2、Conv4_1和Conv4_2组成，其中Inception的网络结构如图3所示，Inception用多尺度卷积核去卷积同一个输入，然后再相加，在增加特征表达能力的同时减少计算量，增加BN和gradient clipping可以稳定训练，Inception1、Inception2和Inception3输出的特征尺度为32×32，Conv3_2输出的特征尺度为16×16，Conv4_2输出的特征尺度为8×8，通过锚框(Anchor)可以关联多尺度的特征图，Inception1、Inception2和Inception3的Anchor尺度分别为32×32、64×64和128×128，Conv3-2和Conv4-2的Anchor尺度分别为256×256和512×512。

ROI Pooling Layers，由ROI Pooling_1、ROI Pooling_2和ROI Pooling_3组成，ROI Pooling把不同尺度的行人目标输出为7×7的特征信息。

Mutil-task Loss多任务损失函数计算，由SoftMaxLoss、SmothL1Loss和AAMLoss组成，SoftMaxLoss是一个2分类器，用于区分是否为行人目标，SmothL1Loss是一个回归损失函数，用来做边框回归，AAMLoss是增加间隔的角度损失函数，用于对帧之间的行人目标的相似度进行评估，SoftMaxLoss和SmothL1Loss计算Inception3、Conv3-2和Conv4-2连接后的损失，AAMLoss计算Inception3、Conv3-2和Conv4-2中行人目标经过对应ROI Pooling输出相同维度特征的损失。

进一步地，步骤3中，输入标注图像标准化到1024×1024×3，即宽高均为1024的3通道图像，行人目标标注信息也对应进行尺度变换。

进一步地：所述步骤3中训练网络模型PersonBoxes采用batchSize为32，初始学习率为0.001进行训练，训练数据集有0.5的概率翻转，训练检测网络在Anchor匹配后，大多数Anchor是负样本，导致正样本和负样本严重不均衡，为了更快更稳定的训练，将Anchor按照loss值排序并选取最高的几个，保证正样本和负样本的比例最高不超过3:1，并从Inception3、Conv3-2和Conv4-2特征图中提取特征，进行分类计算。

进一步地：所述步骤4中，利用训练出的行人目标检测和比对网络模型PersonBoxes提取视频流中每帧图像的行人目标和对应的特征信息，通过获取的每帧图像的行人目标和对应的特征信息，利用余弦相似度算法对行人目标特征信息相似度进行计算，选取最大相似度，且大于最小相似度0.5为匹配成功，生成行人目标移动轨迹，根据生成的行人目标移动轨迹数量，输出视频流在对应时间段内人流量信息，实现人流量统计。

进一步地，所述方法还包括：在进行余弦相似度计算之前，利用当前帧行人目标对应的特征信息，与前一帧检测到的行人目标进行特征比对(如果为第一帧，则不需要进行比对，仅存储检测到的目标及特征即可)，特征比对区域为以当前帧的目标中心点为中心且宽和高为该目标区域宽高的1.5倍的矩形区域，以该矩形区域对前一帧进行候选目标过滤，在前一帧中，提取中心点落入与当前帧对应的所述矩形区域范围内的目标，作为比对的候选目标。

与现有技术相比，本发明具有以下有益效果：

本发明提供的一种基于卷积神经网络的人流量统计方法，设计了行人目标检测和比对网络模型PersonBoxes并进行训练，训练后的模型能够根据输入的实时视频流数据分析当前及前一段时间范围的人流量情况，通过人流量情况，可以监测布控区域的人员密度分布情况，通过分析人员密度可以提取进行相关重点布控，提升办案效率，把案件侦破由事后向事前转换，为平安城市的构建提供技术支持。本发明采用IRDCL和MSCL构建PersonBoxes快速的实现了行人目标提取和比对，IRDCL通过快速降低图像特征尺寸，保证的处理的实时性，MSCL利用多尺度特征，具有丰富感受野，能够获得更多候选框，从而能够检测尺度变化的行人目标，同时，本发明利用AAMLoss进行比对损失计算，提升了行人目标跟踪的准确性。

附图说明

图1为本发明实施例提供的一种基于卷积神经网络的人流量统计方法的流程图；

图2为本发明实施例提供的一种基于卷积神经网络的人流量统计方法的网络模型PersonBoxes的网络结构图；

图3为本发明实施例提供的一种基于卷积神经网络的人流量统计方法的网络模型PersonBoxes的网络结构中Inception结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种基于卷积神经网络的人流量统计方法，包括以下步骤：

步骤3，将步骤1获得的标注图像及训练数据集放入PersonBoxes中进行训练，通过迭代训练，利用反传播算法，逐步更新该网络模型的训练参数，直至该网络模型收敛；训练过程中，将测试数据集送入PersonBoxes网络模型中验证模型的定位、分类和比对性能，输出训练模型；

步骤4，在步骤3训练出的行人目标检测和比对网络模型PersonBoxes的基础上，输入视频流数据，通过检测网络检测到行人区域，通过对比网络对比相邻帧的目标得到行人目标相邻帧的关联关系，在一定时间范围内，生成行人目标移动轨迹，根据生成的移动轨迹数量，统计出视频流在对应时间段内人流量信息，实现人流量统计。把该方法集成到视频侦查等相关产品中，即可实现人流量统计，结合人流量数据进行更合理的警员分布，以及重点区域布控。本发明能够实现行人目标的检测和跟踪，从而统计得到人流量情况，通过分析人流量情况，可以协助公安部门进行提前布控，可以把案件侦查由事后向事前转化。PersonBoxes检测和比对网络利用IRDCL和MSCL可以快速、准确的定位、分类和比对目标，得到高准确率的人流量统计结果。

本发明提供的一种基于卷积神经网络的人流量统计方法，设计了行人目标检测和比对网络模型PersonBoxes并进行训练，训练后的模型能够根据输入的实时视频流数据分析当前及前一段时间范围的人流量情况，通过人流量情况，可以监测布控区域的人员密度分布情况，通过分析人员密度可以提取进行相关重点布控，提升办案效率，把案件侦破由事后向事前转换，为平安城市的构建提供了技术支持。

优选地：步骤1中，行人目标标注信息数据格式为{frameId,objectNum,objectId_1[left_1,top_1,right_1,bottom_1,objectId_1],…,objectId_i[left_i,top_i,right_i,bottom_i]},其中，frameId为帧号，可以通过初始值为1，逐帧递增，objectNum为该帧图像中行人目标的个数，objectId_i为该帧图像中第i个行人目标对应的ID，left_i,top_i,right_i,bottom_i分别对应着该帧图像中第i个行人目标的左、上、右、下坐标信息，根据objectId_i的坐标信息可以关联前后帧之间目标的轨迹信息，得到视频中行人目标的轨迹数据。

优选，将行人目标标注信息数据集按照7:3的比例分成训练数据集和测试数据集。

本实施例通过从监控视频中提取行人目标作为样本，对实际应用环境适应性更好，鲁棒性更强，更加实用于实战。

优选地：行人目标检测和比对网络模型PersonBoxes如图2所示：

其中，201为输入数据，输入数据是步骤S1所标注的行人目标标注信息与标注图像，输入图像标准化到1024×1024×3，即宽高均为1024的3通道图像，标注信息也对应进行尺度变换。

202是改进的快速消化卷积层IRDCL，由Conv1_1、Conv1_2、Pooling_1、Conv2_1、Conv2_2和Pooling_2组成，IRDCL可以快速降低图像尺寸，减少网络的通道数，减少信息损失，以实现快速提取特征，保证实时性，卷积层Conv1_1、Conv1_2、Conv2_1和Conv2_2的步长分别为2、2、1和2，卷积层之后均连接BN(Batch Normalization)和激活函数ReLU，池化层Pooling_1和Pooling_2的步长分别为2和2，经过IRDCL，到Inception网络前面尺寸就缩小了32倍，为了充分的获取特征信息，Conv1_1和Conv1_2的卷积核大小设置为5×5，Pooling_1的卷积核大小设置为3×3，Conv2_1和Conv2_2的卷积核大小设置为3×3，Pooling_2的卷积核大小设置为3×3。

203是多尺度卷积层MSCL，由Inception1、Inception2、Inception3、Conv3_1、Conv3_2、Conv4_1和Conv4_2组成，其中Inception的网络结构如图3所示，Inception用多尺度卷积核去卷积同一个输入，然后再相加，在增加特征表达能力的同时减少计算量，增加BN和gradient clipping可以稳定训练，Inception1、Inception2和Inception3输出的特征尺度为32×32，Conv3_2输出的特征尺度为16×16，Conv4_2输出的特征尺度为8×8，通过锚框(Anchor)可以关联多尺度的特征图，Inception1、Inception2和Inception3的Anchor尺度分别为32×32、64×64和128×128，Conv3-2和Conv4-2的Anchor尺度分别为256×256和512×512。

204是ROI Pooling Layers，由ROI Pooling_1、ROI Pooling_2和ROI Pooling_3组成，ROI Pooling把不同尺度的行人目标输出为7×7的特征信息。

205是Mutil-task Loss多任务损失函数计算，由SoftMaxLoss、SmothL1Loss和AAMLoss组成，SoftMaxLoss是一个2分类器，用于区分是否为行人目标，SmothL1Loss是一个回归损失函数，用来做边框回归，AAMLoss是增加间隔的角度损失函数，用于对帧之间的行人目标的相似度进行评估，SoftMaxLoss和SmothL1Loss计算Inception3、Conv3-2和Conv4-2连接后的损失，AAMLoss计算Inception3、Conv3-2和Conv4-2中行人目标经过对应ROIPooling输出相同维度特征的损失。

优选地：所述步骤3中训练网络模型PersonBoxes采用batchSize为32，初始学习率为0.001进行训练，训练数据集有0.5的概率翻转，训练检测网络在Anchor匹配后，大多数Anchor是负样本，导致正样本和负样本严重不均衡，为了更快更稳定的训练，将Anchor按照loss值排序并选取最高的几个，保证正样本和负样本的比例最高不超过3:1，比对网络根据行人目标ID是否相同进行分类，相同则为同类行人目标，不相同为不同类行人目标，从Inception3、Conv3-2和Conv4-2特征图中提取特征，进行分类计算。

优选地：所述步骤4中，利用训练出的行人目标检测和比对网络模型PersonBoxes提取视频流中每帧图像的行人目标和对应的特征信息，通过获取的每帧图像的行人目标和对应的特征信息，利用余弦相似度算法对行人目标特征信息相似度进行计算，选取最大相似度，且大于最小相似度0.5为匹配成功，生成行人目标移动轨迹，根据生成的行人目标移动轨迹数量，输出视频流在对应时间段内人流量信息，实现人流量统计。

优选地，所述方法还包括：在进行余弦相似度计算之前，利用当前帧行人目标对应的特征信息，与前一帧检测到的行人目标进行特征比对(如果为第一帧，则不需要进行比对，仅存储检测到的目标及特征即可)，特征比对区域为以当前帧的目标中心点为中心且宽和高为该目标区域宽高的1.5倍的矩形区域，以该矩形区域对前一帧进行候选目标过滤，在前一帧中，提取中心点落入与当前帧对应的所述矩形区域范围内的目标，作为比对的候选目标。

上述实施例中，在步骤3训练出的行人检测和比对网络模型PersonBoxes基础上，输入视频流数据，通过检测网络检测到行人区域，通过对比网络对比相邻帧的目标得到行人目标在相邻帧的关联关系，生成行人目标的轨迹信息，在一定时间范围内，则可以统计出人流量情况，把该方法集成到视频侦查等相关产品中，即可实现人流量统计，结合人流量数据进行更合理的警员分布，以及重点区域布控。本发明能够实现行人目标的检测和跟踪，从而统计得到人流量情况，通过分析人流量情况，可以协助公安部门进行提前布控，可以把案件侦查由事后向事前转化。PersonBoxes检测和比对网络利用IRDCL和MSCL可以快速、准确的定位、分类和比对目标，得到高准确率的人流量统计结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的人流量统计方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于卷积神经网络的人流量统计方法，其特征在于：步骤1中，行人目标标注信息数据格式为{frameId,objectNum,objectId_1[left_1,top_1,right_1,bottom_1,objectId_1],…,objectId_i[left_i,top_i,right_i,bottom_i]},其中，frameId为帧号，objectNum为该帧图像中行人目标的个数，objectId_i为该帧图像中第i个行人目标对应的ID，left_i,top_i,right_i,bottom_i分别对应着该帧图像中第i个行人目标的左、上、右、下坐标信息。

3.根据权利要求1所述的一种基于卷积神经网络的人流量统计方法，其特征在于，将行人目标标注信息数据集按照7:3的比例分成训练数据集和测试数据集。

4.根据权利要求1所述的一种基于卷积神经网络的人流量统计方法，其特征在于：步骤2中，行人目标检测和比对网络模型PersonBoxes包括：

改进的快速消化卷积层IRDCL，由Conv1_1、Conv1_2、Pooling_1、Conv2_1、Conv2_2和Pooling_2组成，卷积层Conv1_1、Conv1_2、Conv2_1和Conv2_2的步长分别为2、2、1和2，卷积层之后均连接BN和激活函数ReLU，池化层Pooling_1和Pooling_2的步长分别为2和2，Conv1_1和Conv1_2的卷积核大小设置为5×5，Pooling_1的卷积核大小设置为3×3，Conv2_1和Conv2_2的卷积核大小设置为3×3，Pooling_2的卷积核大小设置为3×3；

多尺度卷积层MSCL，由Inception1、Inception2、Inception3、Conv3_1、Conv3_2、Conv4_1和Conv4_2组成，Inception1、Inception2和Inception3输出的特征尺度为32×32，Conv3_2输出的特征尺度为16×16，Conv4_2输出的特征尺度为8×8，通过锚框(Anchor)可以关联多尺度的特征图，Inception1、Inception2和Inception3的Anchor尺度分别为32×32、64×64和128×128，Conv3-2和Conv4-2的Anchor尺度分别为256×256和512×512；

ROI Pooling Layers，由ROI Pooling_1、ROI Pooling_2和ROI Pooling_3组成，ROIPooling把不同尺度的行人目标输出为7×7的特征信息；

5.根据权利要求1所述的一种基于卷积神经网络的人流量统计方法，其特征在于，步骤3中，输入标注图像标准化到1024×1024×3，即宽高均为1024的3通道图像，行人目标标注信息也对应进行尺度变换。

6.根据权利要求4所述的一种基于卷积神经网络的人流量统计方法，其特征在于：所述步骤3中，训练网络模型PersonBoxes采用batchSize为32，初始学习率为0.001进行训练，训练检测网络在Anchor匹配后，大多数Anchor是负样本，导致正样本和负样本严重不均衡，为了更快更稳定的训练，将Anchor按照loss值排序并选取最高的几个，保证正样本和负样本的比例最高不超过3:1，并从Inception3、Conv3-2和Conv4-2特征图中提取特征，进行分类计算。

7.根据权利要求1所述的一种基于卷积神经网络的人流量统计方法，其特征在于：所述步骤4中，利用训练出的行人目标检测和比对网络模型PersonBoxes提取视频流中每帧图像的行人目标和对应的特征信息，通过获取的每帧图像的行人目标和对应的特征信息，利用余弦相似度算法对行人目标特征信息相似度进行计算，选取最大相似度，且大于最小相似度0.5为匹配成功，生成行人目标移动轨迹，根据生成的行人目标移动轨迹数量，输出视频流在对应时间段内人流量信息，实现人流量统计。

8.根据权利要求7所述的一种基于卷积神经网络的人流量统计方法，其特征在于，所述方法还包括：在进行余弦相似度计算之前，利用当前帧行人目标对应的特征信息，与前一帧检测到的行人目标进行特征比对，特征比对区域为以当前帧的目标中心点为中心且宽和高为该目标区域宽高的1.5倍的矩形区域，以该矩形区域对前一帧进行候选目标过滤，在前一帧中，提取中心点落入与当前帧对应的所述矩形区域范围内的目标，作为比对的候选目标。