CN105608446B

CN105608446B - 一种视频流异常事件的检测方法及装置

Info

Publication number: CN105608446B
Application number: CN201610074818.7A
Authority: CN
Inventors: 李楠楠; 李革; 徐旦
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2019-02-12
Anticipated expiration: 2036-02-02
Also published as: CN105608446A

Abstract

本申请提供的视频流异常事件的检测方法及装置，将自动编码机堆叠起来构建深度神经网络框架，通过无监督的方式学习外形和运动信息的深度表述特征，设计单分类支持向量机作为正常与异常事件的分类器。为了更好地利用外形和运动信息的互补性，使用了两层信息融合方式来提高分类器的分类能力：前期的特征融合和后期的分类结果融合，两次的融合技术来更好利用外形和运动信息之间的互补性，提高了异常事件检测和定位的准确率。

Description

一种视频流异常事件的检测方法及装置

技术领域

本发明涉及图像处理技术领域，一种视频流异常事件的检测方法及装置。

背景技术

在视频流中自动检测异常事件是智能视频监控的一个基本研究问题，近年来在工业界和学术界都引起了极大的关注。视频异常事件检测同时也和计算机视觉领域其他的问题相关联，比如：显著性分析，兴趣区域预测等。处理这类问题的方法通常是通过正常行为模式学习一个行为模型，把与此模型显著背离的模式检测为异常行为。以前学者的研究工作大体上可以划分为两类：基于场景中独立目标轨迹分析和基于空间或者时间行为模式构建。现有技术中一种是采用具有相似运动模式且空间上靠近的轨迹被识别出来且用于异常事件检测；另一种是使用多层次光流直方图作为特征描述子，构建一个稀疏词典模型来描述正常行为模式，把特征重构误差作为异常事件检测的标准。但是，这类方法有一个共同的特点：从低层次的外形和动作描述中，人工提取出一些特征用于模型构建。但是这些人工特征隐含了对描述对象的先验知识。然而，在复杂的视频监控场景下，这些先验知识很难获得，因而人工提取特征具有很大的局限性，因此，现有技术的视频流检测中，不仅检测难度大，并且检测的准确性也受到制约，导致检测不准。

发明内容

本申请提供一种视频流异常事件的检测方法及装置，可以提高异常事件检测和定位的准确率。

根据第一方面，一种实施例中提供一种视频流异常事件的检测方法，包括：将训练样本集输入至深度学习神经网络，学习得到所述深度学习神经网络的模型参数，得到训练后的深度学习神经网络；其中，所述深度学习神经网络包括：堆叠在一起的多个自动编码器机，所述训练样本集为多个训练样本的集合，所述训练样本提取自训练图像；根据所述训练样本，分别学习出所述训练样本的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；采用支持向量机学习方法，分别对所述训练图像的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型；将待测的视频流图像预先分成若干个预设大小的待测图像块，将所述待测图像块输入至所述训练后的深度学习神经网络，分别学习出所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；将所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数分别输入至所述三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分；将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分；判断所述异常事件得分是否大于阈值，若是，则判定所述图像块为异常事件。

根据第二方面，一种实施例中提供一种一种视频流异常事件的检测装置，包括：训练阶段输入单元，用于将训练样本集输入至深度学习神经网络，学习得到所述深度学习神经网络的模型参数，得到训练后的深度学习神经网络；其中，所述深度学习神经网络包括：堆叠在一起的多个自动编码器机，所述训练样本集为多个训练样本的集合，所述训练样本提取自训练图像；训练阶段学习单元，用于根据所述训练样本，分别学习出所述训练样本的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；判别器构建单元，用于采用支持向量机学习方法，分别对所述训练图像的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型；输入单元，用于将待测的视频流图像预先分成若干个预设大小的待测图像块，将所述待测图像块输入至所述训练后的深度学习神经网络，分别学习出所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；计算单元，用于将所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数分别输入至所述三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分；融合单元，用于将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分；判断单元，用于判断所述异常事件得分是否大于阈值，若是，则判定所述图像块为异常事件。

依据上述实施例的视频流异常事件的检测方法及装置，将自动编码机堆叠起来构建深度神经网络框架，通过无监督的方式学习外形和运动信息的深度表述特征，设计单分类支持向量机作为正常与异常事件的分类器。为了更好地利用外形和运动信息的互补性，使用了两层信息融合方式来提高分类器的分类能力：前期的特征融合和后期的分类结果融合，两次的融合技术来更好利用外形和运动信息之间的互补性，提高了异常事件检测和定位的准确率。

附图说明

图1为本申请实施例的视频流异常事件的检测方法流程图；

图2为一种实施例的视频流异常事件的检测方法的步骤101的流程图；

图3为一种实施例的视频流异常事件的检测方法步骤101的流程图；

图4为一种实施例的视频流异常事件的检测方法步骤101的流程图；

图5为一种实施例的神经网络的检测示意图；

图6为本申请实施例的视频流异常事件的检测装置结构示意图；

图7为一种实施例的视频流异常事件的检测装置结构示意图；

图8为一种实施例的视频流异常事件的检测装置结构示意图；

图9为一种实施例的视频流异常事件的检测装置结构示意图。

具体实施方式

目前，深度学习框架已经被成功地应用于解决各种计算机视觉问题，比如：图像分类，物体检测，行为识别等。例如：在现有技术中，基于自动编码机的非监督深度学习方法已经被用于解决物体追踪问题。深度学习方法成功的核心之处在于通过多层次的非线性变换可以学习到具有很强区分能力的特征。本申请的视频流异常事件的检测方法及装置，主要利用层叠的自动稀疏编码机(stacked sparse autoencoders)来学习视频图像外形、运动信息的深度特征表述，然后构建单分类支持向量机(one-class Support Vector Machine)模型进行异常事件检测。同时，应用一种两次的融合技术来更好利用外形和运动信息之间的互补性，以提高异常事件检测和定位的准确率。

下面通过具体实施方式结合附图对本发明作进一步详细说明。

实施例一：

请参考图1，本申请实施例提供一种视频流异常事件的检测方法，包括以下步骤：

101、将训练样本集输入至深度学习神经网络，学习得到训练后的深度学习神经网络。

深度学习神经网络包括：堆叠在一起的多个自动编码器机，训练样本集为多个训练样本的集合，训练样本提取自训练图像。

需要进一步指出的是，应使用大量的图片或者图像块对深度学习神经网络进行训练，以提高深度学习神经网络的判断准确性。而一般来说，在训练深度学习神经网络时，输入到神经网络中的图像应该是大小在预设范围内的小图像块，因此，若采集的是较大的图片时或者图像时，应对这些较大的图片或者图像进行切割，分割为可以对神经网络进行学习的图像块。本申请实施例中的训练样本指的是预先分割好的图像块，后续不再赘述。

如图2所示，其中，述训练样本为图像块的外形信息特征，步骤101可以是：

101A、使用多个不同尺寸的滑动窗口对训练图像进行滑动采样，得到不同尺寸的图像块；

101B、将不同尺寸的图像块缩放到尺寸为w_a×h_a×c_a大小的图像块，其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目；

101C、将尺寸为w_a×h_a×c_a大小的图像块归一化至区间[0,1]，并输入至深度学习神经网络。

如图3所示，训练样本为图像块的运动信息特征，步骤101同时可以是：

101A’、使用预设尺寸的窗口在图像中滑动采集光流块其中，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

101B’、将尺寸为w_m×h_m×c_m大小的光流块归一化至区间[0,1]，并输入至深度学习神经网络。

102、根据训练样本，分别学习出训练样本的外形信息特征参数、运动信息特征参数以及外形信息和所述运动信息的联合特征参数。

如图4所示，训练样本为图像块的图像块的外形信息和所述运动信息的联合特征，步骤101、将训练样本输入至深度学习神经网络包括：

101A1、从同一训练图像的同一位置上采集w_a×h_a×c_a大小的图像块以及采集光流块其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

101B1、将w_a×h_a×c_a大小的图像块以及采集光流块输入至深度学习神经网络。

值得指出的是，在训练深度学习神经网络时，这些训练样本是从大量的已知的训练图像中采集的，也即，预先挑选出一些图像块，这些图像块已经预先被判断过是带异常事件的图像块。后续再学习出训练样本(正常事件的图像块)的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数，并利用这些参数构建相应的单分类支持向量机模型。在后续的测试阶段，将待测试样本依照同样的过程，通过训练好的深度神经网络模型，提取测试样本的特征参数，并送入单分类支持向量机进行判别。

本实施例中，自动编码机是一种只含一个隐含层的神经网络，用来学习从带噪声的数据恢复原始数据x_i(通常由x_i通过添加高斯白噪声或者椒盐噪声得到)。自动编码机可以被划分为两个部分：编码和解码。这两个部分分别对应着两个映射函数f_e(W,b)和f_d(W',b')，其中(W,b)和(W',b')分别对应编码器和解码器的权重和偏置参数。给定一组训练样本自动编码器求解对应的权重和偏置参数。

本实施例利用自动编码机的堆叠来构成深度神经网络，进而学习外形信息、运动信息以及外形信息和外形信息和运动信息联合的深度特征表述。如图5所示，深度网络构建包括两个部分：编码和解码。对于编码部分，在第一层我们设置过完备的神经节点数目来从输入数据中抽取表征信息；在随后的网络层，神经节点的数目依次减半直到拥有最少数目的中间层(bottleneck)。解码部分拥有和编码部分相对称的结构。神经网络训练包括两个过程：预调节和精调节。预调节过程是对每两层网络进行单独调整。输入数据加入噪声后经过编码函数f_e(.)得到映射结果，此结果作为后一层神经网络的输入。通过这种逐步两层之间的调整，神经网络参数可以得到设置合理的初始值。精调节过程把整个神经网络看成一个整体，用误差后向传播算法进行参数调整。

103、采用支持向量机学习方法，分别对训练图像的外形信息特征参数、运动信息特征参数以及外形信息和运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型。

104、将待测的视频流图像预先分成若干个预设大小的待测图像块，将待测图像块输入至训练后的深度学习神经网络，分别学习出待测图像块的外形信息特征参数、运动信息特征参数以及外形信息和运动信息的联合特征参数。

105、将待测图像块的外形信息特征参数、运动信息特征参数以及外形信息和运动信息的联合特征参数分别输入至三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分。

106、将三类异常信息的得分做加权求和，计算得到图像块的异常事件得分。

假设三类异常信息的得分为A^k,k∈{A,M,J}，异常事件得分为A_s＝∑_k∈{A,M,J}α^kA^k，线性组合系数α^k∈{α^A,α^M,α^J}，通过以下最优化算式(1)计算得到，其中，α^A、α^M、α^J分别表示外形信息特征的线性组合系数、运动信息特征的线性组合系数以及所述外形信息和所述运动信息的联合线性组合系数。

其中，s,t,α^k＞0,∑_kα^k＝1

其中是训练样本组成的列矩阵，W_s ^k为映射变换矩阵，为归一化项，λ_s为用户定义参数。我们取W_s ^k为矩阵所对应前d个最大的特征向量，则α可通过求解下式所示优化问题得到：

其中c^k,c＝[c^A,c^M,c^J]，

107、判断异常事件得分是否大于阈值，若是，则判定图像块为异常事件。

将异常事件得分A_s和阈值η比较，若A_s＞η，则判定为异常事件。

实施例二：

请参考图6，本申请实施例提供一种视频流异常事件的检测装置，包括：

训练阶段输入单元30，用于将训练样本集输入至深度学习神经网络，学习得到所述深度学习神经网络的模型参数，得到训练后的深度学习神经网络；其中，所述深度学习神经网络包括：堆叠在一起的多个自动编码器机，所述训练样本集为多个训练样本的集合，所述训练样本提取自训练图像。

训练阶段学习单元31，用于根据所述训练样本，分别学习出所述训练样本的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数。

判别器构建单元32，用于采用支持向量机学习方法，分别对所述训练图像的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型。

输入单元33，用于将待测的视频流图像预先分成若干个预设大小的待测图像块，将所述待测图像块输入至所述训练后的深度学习神经网络，分别学习出所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数。

计算单元34，用于将所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数分别输入至所述三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分。

融合单元35，用于将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分。

判断单元36，用于判断所述异常事件得分是否大于阈值，若是，则判定所述图像块为异常事件。

如图7所示，一个实施例中，所述训练样本为图像块的外形信息特征，输入单元30具体包括：

采样模块30A，用于使用若干个不同尺寸的滑动窗口对训练图像进行滑动采样，得到多个不同尺寸的训练图像块；

缩放模块30B，用于将所述多个不同尺寸的图像块缩放到尺寸为w_a×h_a×c_a大小的图像块；其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目；

归一化模块30C，用于将尺寸为w_a×h_a×c_a大小的图像块归一化至[0,1]，得到所述训练样本。

输入模块30D,用于将得到的所述训练样本并输入至深度学习神经网络。

如图8所示，一个实施例中，训练样本为图像块的运动信息特征，输入单元30具体包括：

光流块采样模块30A’，用于使用预设尺寸的窗口在图像中滑动采集光流块其中，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目。

第二归一化模块30B’，用于将尺寸为w_m×h_m×c_m大小的光流块归一化至区间[0,1]，得到所述训练样本

第二输入模块30C’，用于将得到的所述训练样本并输入至深度学习神经网络。

如图9所示，一个实施例中，训练样本为图像块的外形信息和所述运动信息的联合特征，输入单元30具体包括：

多采集模块30A1，用于从同一训练图像的同一位置上采集w_a×h_a×c_a大小的图像块以及采集光流块其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

第三输入模块30B1，用于将所述w_a×h_a×c_a大小的图像块以及采集光流块输入至深度学习神经网络。

设三类异常信息的得分为A^k,k∈{A,M,J}，所述图像块的异常事件得分为A_s＝∑_k∈{A,M,J}α^kA^k，则融合单元34具体用于：通过以下最优化算式(1)计算所述线性组合系数α^k：

其中，s,t,α^k＞0,∑_kα^k＝1

其中，是训练样本组成的列矩阵，W_s ^k为映射变换矩阵，为归一化项，λ_s为预定义参数。

我们取W_s ^k为矩阵S^kS^kT所对应前d个最大的特征向量，则α可通过求解下式所示优化问题得到：

其中c^k,c＝[c^A,c^M,c^J]，

判断单元36具体用于：将异常事件得分A_s和阈值η比较，若A_s＞η，则判定为异常事件。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种视频流异常事件的检测方法，其特征在于，包括：

将训练样本集输入至深度学习神经网络，学习得到所述深度学习神经网络的模型参数，得到训练后的深度学习神经网络；其中，所述深度学习神经网络包括：堆叠在一起的多个自动编码器机，所述训练样本集为多个训练样本的集合，所述训练样本提取自训练图像；

根据所述训练样本，分别学习出所述训练样本的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；

采用支持向量机学习方法，分别对所述训练图像的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型；

将待测的视频流图像预先分成若干个预设大小的待测图像块，将所述待测图像块输入至所述训练后的深度学习神经网络，分别学习出所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；

将所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数分别输入至所述三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分；

将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分；

判断所述异常事件得分是否大于阈值，若是，则判定所述图像块为异常事件。

2.如权利要求1所述的视频流异常事件的检测方法，其特征在于，所述训练样本为图像块的外形信息特征，所述将训练样本输入至深度学习神经网络包括：

使用若干个不同尺寸的滑动窗口对训练图像进行滑动采样，得到多个不同尺寸的训练图像块；

将所述多个不同尺寸的图像块缩放到尺寸为w_a×h_a×c_a大小的图像块；其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目；

将尺寸为w_a×h_a×c_a大小的图像块归一化至[0,1]，得到所述训练样本并输入至深度学习神经网络。

3.如权利要求1所述的视频流异常事件的检测方法，其特征在于，所述训练样本为图像块的运动信息特征，所述将训练样本输入至深度学习神经网络包括：

使用预设尺寸的窗口在图像中滑动采集光流块其中，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

将尺寸为w_m×h_m×c_m大小的光流块归一化至区间[0,1]，得到所述训练样本并输入至深度学习神经网络。

4.如权利要求1所述的视频流异常事件的检测方法，其特征在于，所述训练样本为图像块的外形信息和所述运动信息的联合特征，所述将训练样本输入至深度学习神经网络包括：

从同一训练图像的同一位置上采集w_a×h_a×c_a大小的图像块以及采集光流块其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

将所述w_a×h_a×c_a大小的图像块以及采集光流块输入至深度学习神经网络。

5.如权利要求1-3中任意一项所述的视频流异常事件的检测方法，其特征在于，所述将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分包括：

设三类异常信息的得分为A^k,k∈{A,M,J}，所述图像块的异常事件得分为A_s＝∑_k∈{A,M,J}α^kA^k，其中，α^k∈{α^A,α^M,α^J}为线性组合系数，通过以下最优化算式(1)计算所述线性组合系数α^k：

其中，s,t,α^k＞0,∑_kα^k＝1

其中，是训练样本组成的列矩阵，为映射变换矩阵，为归一化项，λ_s为预定义参数。

6.一种视频流异常事件的检测装置，其特征在于，包括：

训练阶段输入单元，用于将训练样本集输入至深度学习神经网络，学习得到所述深度学习神经网络的模型参数，得到训练后的深度学习神经网络；其中，所述深度学习神经网络包括：堆叠在一起的多个自动编码器机，所述训练样本集为多个训练样本的集合，所述训练样本提取自训练图像；

训练阶段学习单元，用于根据所述训练样本，分别学习出所述训练样本的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；

判别器构建单元，用于采用支持向量机学习方法，分别对所述训练图像的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数进行学习，对应构建出三个单分类支持向量机模型；

输入单元，用于将待测的视频流图像预先分成若干个预设大小的待测图像块，将所述待测图像块输入至所述训练后的深度学习神经网络，分别学习出所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数；

计算单元，用于将所述待测图像块的外形信息特征参数、运动信息特征参数以及所述外形信息和所述运动信息的联合特征参数分别输入至所述三个单分类支持向量机模型，对应计算得到所述图像块的三类异常信息的得分；

融合单元，用于将所述三类异常信息的得分做加权求和，计算得到所述图像块的异常事件得分；

判断单元，用于判断所述异常事件得分是否大于阈值，若是，则判定所述图像块为异常事件。

7.如权利要求6所述的检测装置，其特征在于，所述训练样本为图像块的外形信息特征，所述输入单元具体包括：

采样模块，用于使用若干个不同尺寸的滑动窗口对训练图像进行滑动采样，得到多个不同尺寸的训练图像块；

缩放模块，用于将所述多个不同尺寸的图像块缩放到尺寸为w_a×h_a×c_a大小的图像块；其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目；

归一化模块，用于将尺寸为w_a×h_a×c_a大小的图像块归一化至[0,1]，得到所述训练样本；

输入模块，用于将得到的所述训练样本并输入至深度学习神经网络。

8.如权利要求6所述的检测装置，其特征在于，包括：所述训练样本为图像块的运动信息特征，所述输入单元具体包括：

光流块采样模块，用于使用预设尺寸的窗口在图像中滑动采集光流块其中，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

第二归一化模块，用于将尺寸为w_m×h_m×c_m大小的光流块归一化至区间[0,1]，得到所述训练样本；

第二输入模块，用于将得到的所述训练样本并输入至深度学习神经网络。

9.如权利要求6所述的检测装置，其特征在于，所述训练样本为图像块的外形信息和所述运动信息的联合特征，所述输入单元具体包括：

多采集模块，用于从同一训练图像的同一位置上采集w_a×h_a×c_a大小的图像块以及采集光流块其中，w_a和h_a是图像片段的宽度和高度，c_a是图像颜色的通道数目，w_m和h_m是光流块的宽度和高度，c_m是图像颜色的通道数目；

10.如权利要求6-8中任意一项所述的检测装置，其特征在于，设三类异常信息的得分为A^k,k∈{A,M,J}，所述图像块的异常事件得分为A_s＝∑_k∈{A,M,J}α^kA^k，则所述融合单元具体用于：通过以下最优化式(1)计算线性组合系数α^k：

其中，s,t,α^k＞0,∑_kα^k＝1