CN110866453A

CN110866453A - 基于卷积神经网络的实时人群稳定状态识别方法及装置

Info

Publication number: CN110866453A
Application number: CN201911006032.1A
Authority: CN
Inventors: 赵荣泳; 董大亨; 王妍; 刘琼; 李翠玲; 马云龙
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-03-06
Anticipated expiration: 2039-10-22
Also published as: CN110866453B

Abstract

本发明涉及一种基于卷积神经网络的实时人群稳定状态识别方法及装置，所述方法包括以下步骤：获取输入图像，以所述输入图像作为多列卷积神经网络模型的输入，获得给定网格区域的人群数；对所述输入图像进行图像校正，获得所述给定网格区域的实际面积；基于所述人群数和实际面积，获得所述给定网格区域的人群密度值；基于所述人群密度值识别各给定网格区域的人群稳定状态；其中，所述多列卷积神经网络模型包括多个并行的、结构相同的卷积神经网络，各卷积神经网络的卷积核大小各不相同，各卷积神经网络的输出通过1×1的滤波器映射生成二维密度图矩阵，获得给定网格区域的人群数。与现有技术相比，本发明具有精度高等优点。

Description

基于卷积神经网络的实时人群稳定状态识别方法及装置

技术领域

本发明涉及一种人群状态信息识别方法及装置，尤其是涉及一种基于卷积神经网络的实时人群稳定状态识别方法及装置。

背景技术

人群稳定性分析是一个具有挑战性但具有重要安全意义的研究热点。其中，人群密度是分析人群稳定性直接有效的判定依据。随着图形处理单元计算能力和机器深度学习能力的提升，深度学习体系中的卷积神经网络(CNN)更多地应用于高精度图像处理。目前，公共场所日益普及的视频监控系统(VSS)所具备的H.265高清高压缩比的视频技术，有效支持了实时获取人群分布的高清图像。卷积神经网络对高清图像的人群动态记数和密度分析提供了技术支持，使得实时人群稳定性分析更加具有先进性和应用价值。

到目前为止，基于图像处理的人群稳定性分析，尚存在若干不足：1)实时视频监控系统的原始图像存在透视失真问题，无法及时校正，导致人群密度值估算的产生较大偏差。2)缺乏有效的人群稳定性分析动态模型及装置，及时判定流动人群的稳定性，以辅助人群流动管控。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种精度高的基于卷积神经网络的实时人群稳定状态识别方法及装置。

本发明的目的可以通过以下技术方案来实现：

一种基于卷积神经网络的实时人群稳定状态识别方法，包括以下步骤：

获取输入图像，以所述输入图像作为多列卷积神经网络模型的输入，获得给定网格区域的人群数；

对所述输入图像进行图像校正，获得所述给定网格区域的实际面积；

基于所述人群数和实际面积，获得所述给定网格区域的人群密度值；

基于所述人群密度值识别各给定网格区域的人群稳定状态；

其中，所述多列卷积神经网络模型包括多个并行的、结构相同的卷积神经网络，各卷积神经网络的卷积核大小各不相同，各卷积神经网络的输出通过1×1的滤波器映射生成二维密度图矩阵，获得给定网格区域的人群数。

进一步地，所述多列卷积神经网络模型中，对输入图像的每个2×2区域采用步幅为2的最大池化层。

进一步地，所述多列卷积神经网络模型为四列卷积神经网络模型。

进一步地，所述卷积神经网络采用整流线性单元作为激活函数。

进一步地，所述图像校正中采用的投影变换矩阵H表示为：

H＝HsHaHp

其中，Hs代表相似变换，Ha是仿射变换，Hp是纯投影变换。

进一步地，基于人群稳定性判据识别给定网格区域的人群稳定状态，所述人群稳定性判据中，人群密度越低，则人群状态越稳定。

进一步地，所述人群稳定性判据中，将人群密度值划分为非常低、低、中等、高和非常高五个类别，若人群密度值属于非常低或低的类别，则识别人群处于稳定状态，若人群密度值属于中的类别，则识别人群处于临界稳定状态，若人群密度值属于高或非常高的类别，则识别人群处于不稳定状态。

本发明还提供一种基于卷积神经网络的实时人群稳定状态识别装置，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行上述方法的步骤。

与现有技术相比，本发明具有如下有益效果：

1、本发明在获取人群密度值时对图像进行了校正处理，解决了图像的透视失真问题，从而获得更准确的人群密度值，为人群稳定性分析提供可靠的数据前提。现有基于视频监控系统的人群稳定性分析，均存在原始图像的透视失真问题，透视失真导致每个人或每组人群在图像中占据不同数量的像素，因而使得实际区域大小存在偏差。图像校正能够处理该问题，计算出给定网格区域的实际面积和人群密度值，是人群稳定性分析模型的重要组成部分和数据基础。

2、本发明采用多列卷积神经网络对人群进行计数处理，增加列数调整参数，实现了精度的进一步提高，实时准确的计算出人群密度。

3、本发明基于多列卷积神经网络和图像处理技术的结合，获得人群稳定状态判定结果，为人群稳定性分析和人群管控提供了新技术手段。

附图说明

图1为本发明的流程示意图；

图2为本发明的卷积神经网络架构图；

图3为本发明图像校正过程示意图；

图4为本发明实施例检票闸机通道前方区域人群视频的一帧图像；

图5为图4的ABCD区域中人群密度值的三维分布；

图6为图4的abcd区域人群密度值的折线图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例提供一种基于卷积神经网络的实时人群稳定状态识别方法，包括以下步骤：

获取来自视频监控系统(VSS)的输入图像，以所述输入图像作为多列卷积神经网络模型的输入，获得给定网格区域的人群数；

基于所述人群密度值识别各给定网格区域的人群稳定状态。

1、多列卷积神经网络模型MCNN

不同于传统的卷积神经网络，本实施例采用先进的多列卷积神经网络架构来完成人群计数任务，增加列数调整参数，实现了精度的进一步提高，实时准确的计算出人群密度。

本实施例中，采用四列卷积神经网络架构(4C-CNN)采用，如图2所示，包含四个并行的CNN，所有列的网络结构相同，其滤波器对于图像信息的感受域大小不同(即7×7、5×5、3×3和1×1滤波器)。整流线性单元被用作激活函数。为防止模型训练过程的过度拟合，对于每个2×2区域采用步幅为2的最大池化层。最后累加所有列的输出，用一个1×1的滤波器将它们映射到密度图，进行人群计数。

利用上述四列卷积神经网络架构获取给定网格区域的人群数的具体过程为：将输入图像转换为像素矩阵；以所述像素矩阵作为多列卷积神经网络模型的输入，获得二维密度图矩阵；对所述二维密度图矩阵进行求和操作，即将矩阵中的数值进行相加求和，获得输入图像给定网格区域的人群数量。

2、图像校正

由于透视失真，场景中的远物体看起来比近物体更小，即对于图像像素阵列中相同尺寸的阵列，远离相机的像素阵列所对应的实际区域将更大。因此，需要对图像进行校正以获得给定网格区域的实际区域面积。

本实施例采用的图像校正算法中，需要估计两个消失点和地平面上两个角度的先验知识。大多数公共聚集场所是地平面场景，例如车站广场、庙会、步行街等，因此，这些参数可以通过大量平行线和垂直线获得。该图像校正算法采用的投影变换矩阵H可以被分解为三个矩阵Hs，Ha和Hp的级联，如等式(1)所示。

H＝HsHaHp (1)

其中，Hs代表相似变换，Ha是仿射变换，Hp是纯投影变换，具体地：

其中，R是旋转矩阵，t是平移向量，s是各向同性缩放，有四个自由度，Ha为具有由参数α和β表示的两个自由度，l_∞＝(l₁,l₂,l₃)^T是平面的消失线，向量l_∞是同质的并且具有两个自由度。

如图3为原始图片通过投影变换矩阵H处理之后变化的过程，校正之后的图片消除了图像透视失真的问题。

3、人群稳定性分析

基于人群稳定性判据识别给定网格区域的人群稳定状态，所述人群稳定性判据中，人群密度越低，则人群状态越稳定。

所述人群稳定性判据中，将人群密度值划分为非常低(VL)、低(L)、中等(M)、高(H)和非常高(VH)五个类别，若人群密度值属于非常低或低的类别，则识别人群处于稳定状态，若人群密度值属于中的类别，则识别人群处于临界稳定状态，若人群密度值属于高或非常高的类别，则识别人群处于不稳定状态。具体的人群稳定性判据如表1所示。当人群处于临界稳定状态时，安全管理部门应密切关注人群的运动状况。一旦人群达到不稳定状态，应采取紧急安全管理措施，如限制人流，增加防护栏以及增加现场安保人员。

表1人群状态划分

为了验证该模型的有效性，在春节期间收集上海虹桥火车站等候大厅的人群视频。入境通道前面的区域通常是最密集的区域，因为人们需要在那里排队进入铁路枢纽然后搭乘高铁。图4显示了这个重要区域中人群视频的一帧图像。其中，ABCD区域被划分为多个较小的网格区域，通过人群稳定性分析模型进行定量地识别处理，得到人群密度值的结果如图5所示。根据模型结果，安全部门可以判断哪些区域需要增加一些安全措施以防止事故发生，减少不必要的人力和物力资源浪费。

通过实验，可以发现入境通道附近区域的人群密度值高于其他区域，将此区域称为高风险区域，如图4中abcd区域所示。采用155秒的视频进行实验，其中人们正在穿过入站通道并且每5秒记录结果数据。高风险区域的人群密度值如图6所示。实验结果表明，当时间(t)为35s，120s或125s时，高风险区域的人群处于临界稳定状态。

实施例2

本实施例提供一种基于卷积神经网络的实时人群稳定状态识别装置，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器调用所述计算机程序执行如实施例1所述方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，包括以下步骤：

基于所述人群密度值识别各给定网格区域的人群稳定状态；

2.根据权利要求1所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，所述多列卷积神经网络模型中，对输入图像的每个2×2区域采用步幅为2的最大池化层。

3.根据权利要求1所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，所述多列卷积神经网络模型为四列卷积神经网络模型。

4.根据权利要求1所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，所述卷积神经网络采用整流线性单元作为激活函数。

5.根据权利要求1所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，所述图像校正中采用的投影变换矩阵H表示为：

H＝HsHaHp

其中，Hs代表相似变换，Ha是仿射变换，Hp是纯投影变换。

6.根据权利要求1所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，基于人群稳定性判据识别给定网格区域的人群稳定状态，所述人群稳定性判据中，人群密度越低，则人群状态越稳定。

7.根据权利要求6所述的基于卷积神经网络的实时人群稳定状态识别方法，其特征在于，所述人群稳定性判据中，将人群密度值划分为非常低、低、中等、高和非常高五个类别，若人群密度值属于非常低或低的类别，则识别人群处于稳定状态，若人群密度值属于中的类别，则识别人群处于临界稳定状态，若人群密度值属于高或非常高的类别，则识别人群处于不稳定状态。

8.一种基于卷积神经网络的实时人群稳定状态识别装置，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器调用所述计算机程序执行如权利要求1-7任一所述方法的步骤。