CN108615027B

CN108615027B - 一种基于长短期记忆-加权神经网络对视频人群计数的方法

Info

Publication number: CN108615027B
Application number: CN201810446463.9A
Authority: CN
Inventors: 杨彪; 曹金梦; 张御宇; 吕继东; 邹凌
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2021-10-08
Anticipated expiration: 2038-05-11
Also published as: CN108615027A

Abstract

本发明公开了一种基于长短期记忆的加权卷积神经网络对视频中的人群进行计数的方法，首先根据不同场景估计透视图，进而生成人群的自适应密度图；然后对连续多帧图像降采样后输入神经网络，并基于图像及其对应的真实自适应密度图训练网络；利用训练好的网络估计输入图像的密度图，并根据密度图预测人数。针对场景中人群的尺度差异，本发明通过一种分尺度损失函数衡量网络学习到的不同尺度特征。针对人群分布不均匀问题，本发明通过一种加权损失函数权衡不同区域的贡献。同时，本发明通过长短期记忆获取相邻帧之间的关联信息，并通过平滑滤波对预测的人数进行后处理，提高了人群计数的准确性。

Description

一种基于长短期记忆-加权神经网络对视频人群计数的方法

技术领域

本发明属于智能监控领域，特别涉及一种利用长短期记忆-加权神经网络对视频图像进行人群计数的方法。

背景技术

随着全球人口剧增，群体事件中拥挤、踩踏等行为不断增加。2015年元旦，发生在上海外滩的恶性踩踏事件导致35人遇难，世界各地的宗教活动也容易发生大规模踩踏事件，产生极其严重的社会影响。因此，通过公共场所的监控视频实时监控人数，当人数超过一定阈值时发出警报，可以有效地避免发生恶性群体性事件，同时也可以为人流疏导提供依据。此外，基于视频的人群计数也可扩展到其他领域，例如统计道路中车流量进而对交通状况进行分析。

现有的人群计数方法通常通过检测和回归实现。检测计数法使用预训练好的检测器对当前场景进行扫描，从而统计场景中的目标个数。但是，大量的候选检测区域以及多尺度分析限制了目标检测的速度，目标间的相互遮挡也会影响检测的精度，导致检测计数法难以在复杂环境下得到应用。区别于检测计数法，回归计数法可以学习到视觉特征和人群数目之间的映射关系，从而直接通过提取的视觉特征估计人数，大大提高了人群计数算法的实时性。同时，通过提取合理的特征，可以有效克服复杂背景、目标遮挡等不利因素的影响。常用的视觉特征包括形状、边缘、面积、角点等低级视觉特征。近年来，随着深度技术的发展，越来越多的研究者尝试利用卷积神经网络自动从图像中提取人群计数相关的特征，这些自动提取的特征对复杂干扰因素的鲁棒性要强于传统手动提取的低级视觉特征。当得到与人群计数相关的特征后，训练一个回归器直接进行人数预测。常用的回归器包括支持向量回归器(SVR)、随机森林(RF)、极限学习机(ELM)。这些回归器可以从提取得到的视觉特征中学习与人数相关的信息，从而预测人数。但是，回归计数法仅在稀疏人群场景下取得了较好的效果，在极其密集的人群中，手动提取的特征无法用于准确预测人数，而传统的分类器也很难准确学到特征与人数之间的映射关系，检测效果较差。

近年来，大量研究利用深度学习进行人群计数。其中，大多数研究尝试将输入人群图像映射成密度图，并通过统计密度图的像素和预测场景人数。这类方法主要通过卷积神经网络(convolution neural network，CNN)自动提取与人群计数相关的视觉特征，这些自动提取的特征在处理人群严重遮挡、光照变化、透视畸变等问题上具有较强鲁棒性。然而，利用深度学习进行人群计数仍然存在诸如人群分布不均匀、尺度不一等挑战。同时，当前主流的深度学习人群计数方法通常只预测静止图像中的人数，而不能预测具有丰富时域信息的视频图像中的人数。基于上述问题，本发明提出了一种利用长短期记忆-加权卷积神经网络(multi-column convolution neural network-long short term memory，MCNN-LSTM)对视频图像进行人群计数的方法。

发明内容

本发明目的在于提出一种基于长短期记忆-加权卷积神经网络对视频图像进行人群计数的方法，此方法对人群分布不均、尺度不一等问题具有很强的鲁棒性，同时能够通过视频帧间的关联信息增强人群计数的准确性。

本发明的技术方案为：

一种基于长短期记忆-加权卷积神经网络对视频图像进行人群计数的方法，包括以下步骤：

1)：根据不同场景情况估计透视图，进而计算人群自适应密度图；

2)：构建多尺度卷积神经网络解决人群尺度差异问题；

3)：设计加权损失函数解决人群分布不均匀问题；

4)：通过长短期记忆网络获取连续帧之间的关联信息，并对人群计数结果进行后处理。

进一步，所述步骤1)具体包括：

(1)：估计人群稀疏场景的透视图

对于人群稀疏场景，通常可以观测到完整的目标信息，因此根据目标在不同位置的高度信息估计场景透视图M。为增强估计得到的场景透视图的准确性，利用相同目标多个不同帧内的高度信息估计透视图；

(2)：估计人群密集场景的透视图

对于人群密集场景，通常只能够观测到人群的头部信息，因此定义头-头距离(目标头部与其最邻近头部的距离)，用于估计场景透视图。由于头-头距离与场景的透视畸变值成正比，利用最小方差拟合获取所有观测值头-头距离与观测值离图像顶端距离的线性关系，估计人群密集场景的透视图M；

(3)：计算人群自适应密度图

根据场景透视图M(任意位置p的值为M(p))生成人群自适应密度图，密度图由以行人头部位置为中心的高斯核与以行人身体为中心的二元分布相加得到，获得标记的行人头部中心P_h后，根据透视图推测行人身体中心P_b，生成自适应密度图为：

其中D(p)是自适应密度图中位置p处的密度值，Z是图像中的真实人数，σ_h表示归一化二维高斯核N_h的方差，σ_x与σ_y表示二元分布N_b的方差，令σ_h＝σ_x＝0.2M(p),σ_y＝0.5M(p)，生成的密度图中某一位置处密度值越高表示该位置人群密度越大。

进一步，所述步骤2)具体为：

(1)：构建三通道卷积神经网络(Convolutional Neural Network，CNN)，每个通道由不同参数的卷积滤波器组成，从而具有不同的感受野；对具有较大感受野的CNN通道，使用较少数量的卷积滤波器，以减小网络规模；

(2)：每个CNN通道前两层卷积后连接步长为2的最大池化层，故不同通道第3层卷积滤波器的输入是原图大小的1/4，从而降低网络的计算量；

(3)：对三个CNN通道的输出进行拼接融合，使得输出特征中包含人群不同的尺度信息，解决人群尺度差异问题。

进一步，所述步骤3)具体包括：

(1)：生成不同区域权重：

在训练阶段，根据生成的密度图将人群图像分为低密度、中等密度以及高密度区域，赋予不同区域不同的权重，得到尺寸与输入图像相同的加权矩阵W。本发明设置中等密度区域权重为1，高密度区域权重为2，低密度区域权重为3；

(2)：设计加权欧式距离损失函数：

针对人群分布不均匀问题，提出一种加权欧式距离损失函数增强预测密度图中的高密度区域，同时抑制预测密度图中的低密度区域，从而增强预测密度图的准确性。加权欧式距离损失函数为：

其中N表示样本数目，O表示训练后的网络参数，D(P)表示图像P的生成密度图，F_d(P,O)表示图像P的预测密度图，W表示加权矩阵。

进一步，所述步骤4)具体包括：

(1)：设计长短期记忆网络获取连续帧之间的关联信息

将三个CNN通道的融合结果输入卷积-长短期记忆网络，通过长短期记忆机制获取视频连续帧之间的关联信息，并将卷积-长短期记忆网络的输出送入解卷积层进行上采样，弥补前期池化操作造成的细节丢失，输出更为准确的人群预测密度图；

(2)：根据预测密度图进行人群计数

将某帧图像处理后得到的人群预测密度图的所有像素值积分求和，得到该帧图像的预测人数，如果图像内设置了感兴趣区域，仅预测感兴趣区域内的人群个数；

(3)：通过后处理提高人群计数准确性

视频图像的连续性保证了相邻帧人数不会发生突变，利用该特点对连续帧预测人数进行后处理，提高视频人群计数的准确性。本发明对连续帧的人群计数结果进行高斯平滑滤波，过滤少数偏差较大的预测值，提高最终人群计数的准确性。

本发明的有益效果：

(1)考虑到人群稀疏与密集场景的差别，本发明设计了适用于不同场景的透视图估计方法，并根据估计得到的透视图生成人群自适应密度图，同时考虑行人头部和身体位置信息，能较好模拟真实人群密度，由此估计人群数目。

(2)由于摄像机成像原理会导致人群具有不同的尺度信息，本发明通过构建具有不同感受野的多通道卷积神经网络获取不同尺度的人群特征，并通过融合多通道输出结果解决人群尺度差异问题。

(3)考虑到人群分布不均匀问题，本发明在训练阶段根据生成的密度图将输入图片分成高密度、中等密度以及低密度区域，对不同的区域赋予不同的权重，并设计加权欧氏距离损失函数以保证网络能够较好地激活高密度区域，抑制低密度区域(通常是背景)，从而解决人群分布不均匀问题，提高人群计数的准确性。

(4)考虑到视频连续帧间存在大量的相关性，利用卷积-长短期记忆网络获取连续帧卷积特征间的关联信息，并将卷积-长短期记忆网络的输出进行上采样操作以弥补丢失的细节信息，对于每帧预测的人数，通过高斯平滑滤波进行后处理，进一步提高对视频中人群计数的准确性。

附图说明

图1是本发明利用长短期记忆-加权卷积神经网络对视频人群计数方法的系统流程图；

图2是本发明中提出的人群稀疏场景下的透视图估计示意图；

图3是本发明中提出的人群密集场景下的透视图估计示意图；

图4是本发明中基于长短期记忆-加权卷积神经网络的示意图；

图5是本发明提出的高密度、中等密度以及低密度区域的示意图。

图6是本发明提出的视频人群预测结果的后处理示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明，但本发明的保护范围并不限于此。

图1给出了基于长短期记忆-加权卷积神经网络的视频人群计数方法的系统流程图：

本发明提出的视频人群计数方法，将连续帧(通常为10帧)人群图像同时输入长短期记忆-加权卷积神经网络，每张图像都使用去噪和下采样进行预处理，通过多通道卷积神经网络自动提取不同尺度的人群特征，将提取的人群特征输入卷积长短期记忆网络，用以获取连续帧之间的时域关联信息。然后将卷积长短期记忆网络的输出结果输入解卷积滤波器进行上采样操作，用以弥补前期池化操作时造成的信息丢失，并输出预测密度图，通过累加预测密度图的像素值得到预测人数，并通过后处理模块(高斯平滑滤波)对连续帧的人数预测结果进行后续处理，提高视频人群计数的准确性。

本发明的具体操作步骤：

1)生成人群自适应密度图

①估计人群稀疏场景的透视图

对于人群稀疏场景，通常可以观测到完整的目标信息，因此根据目标在不同位置的高度信息估计场景透视图M。为增强估计得到的场景透视图的准确性，利用相同目标多个不同帧内的高度信息估计透视图。

对于透视图M中的任意元素，将其分解为水平权重w_v和垂直权重w_l。将图像底部的水平线设置为标准线，并令该水平线上的水平、垂直权重为1。如图2所示，将相同目标在不同帧内用矩形跟踪框标识出来，并将该目标在每一帧中的矩形框定义为观测值i，观测值中包含该矩形框的宽w_v ⁱ、高w_l ⁱ以及水平位置lⁱ。然后，对于图像内任意像素(v,l)，它的权重值定义如下：

其中，m表示观测值数目，l_b表示图像底部(或感兴趣区域)的水平位置。最后，定义透视图M在像素(v,l)处的像素值为

②估计人群密集场景的透视图

对于人群密集场景，通常只能够观测到人群的头部信息，因此定义头-头距离(目标头部与其最邻近头部的距离)，用于估计场景透视图。由于头-头距离与场景的透视畸变值成正比，可以利用最小方差拟合获取所有观测值头-头距离与观测值离图像顶端距离的线性关系，进而估计人群密集场景的透视图M。

定义所有标记的观测值为P(x_i,y_i)(i＝1,2,…,n)，其中x_i表示观测值距离图像顶端的距离，y_i表示观测值的透视畸变值(实际为头-头距离)，n表示观测值数目。通过对所有观测值进行最小方差拟合得到顶端距离与透视畸变值的线性映射L:y＝ax+b。如图3所示为估计人群密集场景透视图的示意图，其中图3(a)表示密集人群示意图，图3(b)表示标记出的所有观测值以及估计得到的线性映射L，图3(c)表示场景的透视图。最小方差的计算如下式所示：

其中计算f(a,b)最小时候对应的参数a与b等价于计算f(a,b)的驻点，因此，参数a与b可通过如下方式计算得到：

③计算人群自适应密度图

根据估计得到的场景透视图M，可以利用以行人头部为中心的高斯核与以行人身体为中心的二元分布生成人群自适应密度图。获得标记的行人头部中心P_h后，根据透视图推测行人身体中心P_b，生成自适应密度图：

其中D(p)是自适应密度图中位置p处的密度值，Z是图像中的真实人数，用于对生成密度图进行规范化处理，σ_h表示归一化二维高斯核N_h的方差，σ_x与σ_y表示二元分布N_b的方差，令σ_h＝σ_x＝0.2M(p),σ_y＝0.5M(p)，M(p)表示场景透视图中位置p的值，生成的密度图中某一位置的处密度值越高表示该位置人群密度越大。

2)设计长短期记忆-多通道卷积神经网络

目前，卷积神经网络已被广泛用于解决人脸检测、目标检测、目标跟踪等模式识别问题，卷积神经网络可以自动提取目标特征，通过设计合理的分类器，可以较好地解决模式识别领域的传统难题。但是，人群图像存在较为严重的尺度差异问题，传统单通道卷积神经网络较难获取多尺度的人群特征，使用多通道卷积神经网络融合可以较好地获取空间上多尺度的人群特征，从而预测出更加准确的人群密度图。

传统的基于卷积神经网络的人群计数方法往往是对单帧图像进行密度图估计，进而预测人数。但是，视频中的连续帧存在丰富的时域关联信息，充分利用这些关联信息可以较好地改善视频人群计数的准确性。卷积-长短期记忆网络能够很好地获取不同帧人群特征间的关联信息，从而将人群相关的时空特征输出到解卷积滤波器，利用上采样操作弥补多通道卷积神经网络中最大池化操作造成的信息丢失，输出更为准确的预测密度图用于估计视频人数。

基于上述讨论，本实施例提出一种用于视频人群计数的MCNN-LSTM，示意图如图4所示。MCNN-LSTM的左边部分为多通道卷积神经网络，每个通道有四个不同大小局部感受野的卷积层。一般来说，具有较大感受野的滤波器对头部较大的密度图建模更有效。最上层通道处理的图像中人群头部较大，使用较大局部感受野卷积层提取特征(1个9×9卷积，3个7×7卷积)，中间通道采用1个7×7卷积，3个5×5卷积提取有效特征，最下层通道则采用局部感受野较小的卷积层(1个5×5卷积，3个3×3卷积)。为降低计算复杂度，对于具有较大感受野的CNN通道，使用较少数量的滤波器。每个通道前4个卷积后都连接Dropout层、Parametric Rectified Linear Unit(PReLU)激活层和Local Response Normalization(LRN)层，且前两层卷积之后连接步长为2的最大池化层，故不同通道第3层卷积的输入(conv1_3，conv2_3和conv3_3)是原图大小的1/4。将每个通道第4层卷积的输出融合，并将融合后的结果输入至卷积-长短期记忆网络中以获取人群时空特征。

卷积-长短期记忆网络总共有3层，分别包含128、256、512个3×3滤波器，卷积-长短期记忆网络可以在多通道卷积神经网络获取的空间人群特征的基础上，获取到视频连续帧之间的时域信息，从而获取到时空人群特征。卷积-长短期记忆网络输出的时空人群特征通过两个解卷积层Deconv1和Deconv2进行上采样操作，最终利用一个1×1的全卷积滤波器估计人群的预测密度图，用于进行人群计数。

3)设计加权欧氏距离损失函数

本实施例提出的MCNN-LSTM通过最小化加权欧氏距离损失函数的方式进行训练，用于克服人群分布不均匀问题。在训练阶段，根据生成的人群自适应密度图中各个位置的像素值的不同，将人群图像分为高密度、中等密度以及低密度区域，如图5所示。其中，设置中等密度区域的权重为1，高密度区域的权重为2，低密度区域的权重为3，从而创建一个尺寸与输入图像一致的权重矩阵W。

得到权重矩阵W后，估计预测密度图与其真实值之间的损失L_WE使用加权欧几里德损失来计算。定义如下：

其中N是训练样本数目，O是网络参数，F_d(P,O)是输入图像P的预测密度图，D(P)是F_d(P,O)的真实值。通过对图像中不同密度区域以不同的权重进行最小化，可以增强预测密度图中高密度区域的响应，抑制低密度区域(通常是背景区域)的响应，从而提高预测密度图的准确性。

4)运用后处理策略

通过MCNN-LSTM网络得到每一帧的预测人数后，根据视频连续帧中人数不会突变的特点，利用高斯平滑滤波对连续的人群计数结果进行后处理，剔除人群预测中可能存在的粗大误差，从而改善视频人群计数的准确性。如图6所示为视频人群预测结果的后处理过程，对于连续帧中预测的人数，使用一个固定帧长的滑动窗(滑动窗宽度可调)增量式地获取一定帧数的人群预测结果x，然后利用高斯平滑滤波函数对x进行平滑，剔除可能的粗大误差。高斯平滑滤波函数定义如下：

其中，σ表示高斯滤波方差，μ表示滑动窗内选到的x的均值。

以上所述对本发明进行了简单说明，并不受上述工作范围限值，只要采取本发明思路和工作方法进行简单修改运用到其他设备，或在不改变本发明主要构思原理下做出改进和润饰的等行为，均在本发明的保护范围之内。

Claims

1.一种基于长短期记忆-加权卷积神经网络对视频人群计数的方法，其特征在于，包括以下步骤：

步骤1)：根据不同场景情况估计透视图，进而计算人群自适应密度图；

步骤2)：构建多尺度卷积神经网络解决人群尺度差异问题；

步骤3)：设计加权损失函数解决人群分布不均匀问题；

步骤4)：通过长短期记忆网络获取连续帧之间的关联信息，并对人群计数结果进行后处理；

所述步骤1)具体包括：

(1)：估计人群稀疏场景的透视图

对于人群稀疏场景，根据目标在不同位置的高度信息估计场景透视图M；为增强估计得到的场景透视图的准确性，利用相同目标多个不同帧内的高度信息估计透视图；

(2)：估计人群密集场景的透视图

对于人群密集场景，定义头-头距离为目标头部与其最邻近头部的距离，用于估计场景透视图；利用最小方差拟合获取所有观测值头-头距离与观测值离图像顶端距离的线性关系，估计人群密集场景的透视图M；

(3)：计算人群自适应密度图

根据场景透视图M，生成人群自适应密度图，密度图由以行人头部位置为中心的高斯核与以行人身体为中心的二元分布相加得到，获得标记的行人头部中心Ph后，根据透视图推测行人身体中心Pb，生成自适应密度图为：其中D(p)是自适应密度图中位置p处的密度值，Z是图像中的真实人数，σh表示归一化二维高斯核Nh的方差，σx与σy表示二元分布Nb的方差，令σh＝σx＝0.2M(p),σy＝0.5M(p)，M (p)为任意位置p的值，生成的密度图中某一位置处密度值越高表示该位置人群密度越大；

所述步骤2)具体为：

(1)：构建三通道卷积神经网络(Convolutional Neural Network，CNN)，每个通道由不同参数的卷积滤波器组成，从而具有不同的感受野；

(3)：对三个CNN通道的输出进行拼接融合，使得输出特征中包含人群不同的尺度信息，解决人群尺度差异问题；

所述步骤3)具体包括：

(1)：生成不同区域权重：

在训练阶段，根据生成的密度图将人群图像分为低密度、中等密度以及高密度区域，赋予不同区域不同的权重，得到尺寸与输入图像相同的加权矩阵W；设置中等密度区域权重为1，高密度区域权重为2，低密度区域权重为3；

(2)：设计加权欧式距离损失函数：

针对人群分布不均匀问题，提出一种加权欧式距离损失函数增强预测密度图中的高密度区域，同时抑制预测密度图中的低密度区域，从而增强预测密度图的准确性；加权欧式距离损失函数为：其中N表示样本数目，O表示训练后的网络参数，D(P)表示图像P的生成密度图，Fd(P,O)表示图像P的预测密度图，W表示加权矩阵；

所述步骤4)具体包括：

(1)：设计长短期记忆网络获取连续帧之间的关联信息

(2)：根据预测密度图进行人群计数

(3)：通过后处理提高人群计数准确性

视频图像的连续性保证了相邻帧人数不会发生突变，利用该特点对连续帧预测人数进行后处理，提高视频人群计数的准确性；对连续帧的人群计数结果进行高斯平滑滤波，提高最终人群计数的准确性。