CN105550713A

CN105550713A - 一种持续学习的视频事件检测方法

Info

Publication number: CN105550713A
Application number: CN201510995737.6A
Authority: CN
Inventors: 张卫山; 赵德海; 宫文娟; 卢清华; 李忠伟
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-05-04

Abstract

本发明提出了一种持续学习的视频事件检测方法，包括初始学习阶段和增量学习阶段；在初始学习阶段，准备了带有标签的视频数据，使用稀疏自编码对所述带有标签的视频数据进行学习，训练出一个先验模型；在增量学习阶段，使用训练好的先验模型对新到来的视频数据进行分类，计算概率评分和梯度距离，根据计算结果使用主动学习来决定为新到来的视频数据自动添加标签还是人工添加标签。本发明结合深度学习和主动学习，自动选择最合适的特征并且利用视频流数据逐渐改善现有的模型；当获得新的视频数据时，使用无监督学习来提取特征，然后使用主动学习来尽量减少人为分类的工作，逐渐完善模型，最终达到持续学习的目的。

Description

一种持续学习的视频事件检测方法

技术领域

本发明涉及计算机视觉、模式识别、机器学习多种领域，尤其是一种持续学习的视频事件检测方法。

背景技术

现有的视频事件检测系统，大多数为人工提取视频中的特征，例如梯度直方图(HOG)、光流直方图(HOF)等运动特征，这些人工选取的特征并不能适用于所有的领域或者场景，需要根据不同的应用进行不同的取舍。而深度学习正是解决这个问题的有效途径。

有部分研究也尝试使用深度学习的方法，例如C3D，但是都是使用大量有标签的数据训练出一个固定的模型，这个模型在使用过程中是不能改变的，这就导致其不能适应复杂的环境变化，而且对于视频中所有未训练过的事件类别，都无法准确识别，这对于不断变化的视频数据来说是很不适用的。因此需要一个能够持续学习的系统。

视频数据量非常巨大，处理需要消耗大量的计算资源，直接对视频数据进行处理将会产生很高的延时，甚至堵塞，因此需要一个合理的编码方式，对视频运动进行表达。

发明内容

为解决现有技术中的缺点和不足，本发明提出一种持续学习的视频事件检测方法，将深度学习和主动学习相结合，既能够发挥深度学习有效学习最有用的特征的优势，减少人工选取特征的局限性，又能够发挥主动学习不断增量式优化参数的优势，使其能够适应不断变化的环境。

本发明的技术方案是这样实现的：

一种持续学习的视频事件检测方法，包括初始学习阶段和增量学习阶段；

在初始学习阶段，准备了带有标签的视频数据，使用稀疏自编码对所述带有标签的视频数据进行学习，训练出一个先验模型；

在增量学习阶段，使用训练好的先验模型对新到来的视频数据进行分类，计算概率评分和梯度距离，根据计算结果使用主动学习来决定为新到来的视频数据自动添加标签还是人工添加标签。

可选地，初始学习阶段使用带有标签的数据训练一个先验模型，具体步骤为：

(11)定位并分割视频数据中的运动片段，剔除大量的没有目标或者目标静止的视频，从大量的视频中选取特定几个事件，为这些视频片段增加标签，构成预训练的数据集；

(12)使用时空金字塔和平均池化方法，对分割出的运动成分提取时空兴趣点特征，深度学习网络从所述时空兴趣点特征中自动学习到最有效的特征；

(13)采用稀疏自编码的方法自动从无标签的数据中学习有用的特征，这是一个拥有一层输入层、一层隐层和一层输出层的神经网络，所述神经网络输出特征的高阶表达，当得到新的数据时，稀疏自编码增量更新和调整网络参数；

(14)使用多项逻辑回归或者softmax做分类器，对高阶特征进行分类，训练当前的模型。

可选地，所述步骤(11)中，使用背景消除方法，提取视频片段中的运动成分，定位运动目标。

可选地，增量学习阶段使用新获得的视频数据对当前模型进行调整和优化，具体步骤为：

(21)将新获得的视频流数据存储在缓存中，当达到一定量时，将这一个批次的视频进行预处理；

(22)将视频特征输入到先验模型中进行分类，得出分类结果，并且计算概率评分和梯度距离，决定要保留当前的分类标签或者是人为增加标签；

(23)用有标签的样本来训练神经网络，优化网络参数。

可选地，将这一个批次的视频进行预处理，包括运动片段的截取、动作表达。

本发明的有益效果是：

(1)深度学习自动学习良好的特征，避免了人工选取特征的局限性，适应能力更强；

(2)持续学习的方式使网络模型不断得到修正优化，在外界环境改变时，能够尽快的适应，在检测到未训练过的事件时，可以选择性的加入该分类并在后期进行学习；

(3)事件检测系统可以对某特定区域进行监督，在第一时间发现异常的行为，为人们所关注的公共安全增添保障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明持续学习的视频事件检测方法的流程图；

图2为本发明中稀疏自编码的解析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明为一种持续学习的视频事件检测方法，包括初始学习阶段和增量学习阶段，在初始学习阶段，准备了带有标签的视频数据，使用稀疏自编码对这些数据进行学习，训练出一个先验模型；在增量学习阶段，使用训练好的先验模型来对新到来的视频数据进行分类，计算概率评分和梯度距离，根据计算结果使用主动学习来决定为这个视频数据自动添加标签还是人工添加标签。

其中，初始学习阶段使用有标签的数据训练一个先验模型，具体步骤为：

(11)定位并分割视频数据中的运动片段，剔除大量的没有目标或者目标静止的视频，缩减冗余数据，从大量的视频中选取特定几个事件，为这些视频片段增加标签，构成预训练的数据集。优选地，使用背景消除方法，提取视频片段中的运动成分，更精准的定位运动目标。

(12)为了减少视频的数据量，加快处理速度，使用时空金字塔和平均池化方法，对分割出的运动成分提取时空兴趣点(STIP)特征，深度学习网络可以从这些特征中自动的学习到最有效的特征。

(13)采用稀疏自编码的方法自动从无标签的数据中学习有用的特征，这是一个拥有一层输入层、一层隐层和一层输出层的神经网络，这个神经网络会输出特征的高阶表达，当得到新的数据时，稀疏自编码可以增量更新和调整网络参数。

增量学习阶段使用新获得的视频数据对当前模型进行调整和优化，具体步骤为：

(21)将新获得的视频流数据存储在缓存中，当达到一定量时，将这一个批次的视频进行预处理，包括运动片段的截取、动作表达。

(22)将视频特征输入到先验模型中进行分类，得出分类结果，并且计算概率评分和梯度距离，决定要保留当前的分类标签或者是人为增加标签。

(23)用这个有标签的样本来训练神经网络，优化网络参数，同时可以删除缓存中这一批视频数据。

本发明的持续学习的视频事件检测方法，充分发挥深度学习自动学习最有效特征的优势，避免了人工选取特征的局限性，适用场景更广泛，持续学习的方式能够增量式更新当前的模型，优化模型参数，使之能够适应不断变化的环境，同时增量式的学习方法不需要保留所有视频样本，节约了大量的存储空间，而且预处理的动作表达阶段也对视频数据进行了压缩，可以对视频流数据进行有效的实时处理。

本发明可以对社会公共区域进行实时监控，当监控区域出现异常事件时及时报警，使安保部门可以在第一时间进行防范工作，这正是人们共同关注的公共安全问题，因此本发明有很高的社会价值。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种持续学习的视频事件检测方法，其特点在于，包括初始学习阶段和增量学习阶段；

2.如权利要求1所述的一种持续学习的视频事件检测方法，其特点在于，初始学习阶段使用带有标签的数据训练一个先验模型，具体步骤为：

3.如权利要求2所述的一种持续学习的视频事件检测方法，其特点在于，所述步骤(11)中，使用背景消除方法，提取视频片段中的运动成分，定位运动目标。

4.如权利要求1所述的一种持续学习的视频事件检测方法，其特点在于，增量学习阶段使用新获得的视频数据对当前模型进行调整和优化，具体步骤为：

(23)用有标签的样本来训练神经网络，优化网络参数。

5.如权利要求4所述的一种持续学习的视频事件检测方法，其特点在于，将这一个批次的视频进行预处理，包括运动片段的截取、动作表达。