CN110032917A

CN110032917A - 一种异常事件检测方法、装置及电子设备

Info

Publication number: CN110032917A
Application number: CN201810031159.8A
Authority: CN
Inventors: 程战战; 钮毅; 罗兵华
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2019-07-19

Abstract

本发明实施例提供了一种异常事件检测方法、装置及电子设备，该方法中，获取待处理视频数据，将待处理视频数据输入预先训练完成的非监督神经网络，得到待处理视频数据对应的输出视频数据，计算待处理视频数据与输出视频数据的相似度，当相似度小于预设相似度阈值时，确定待处理视频数据为包括异常事件的视频数据。本发明中的非监督神经网络是基于包括非异常事件的图像样本训练得到的，由于包括非异常事件的图像样本的数量较大，因此，非监督神经网络的精度较高，进一步使得异常事件检测的准确率较高。

Description

一种异常事件检测方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种异常事件检测方法、装置及电子设备。

背景技术

目前，监控设备广泛应用于各个领域，可以对各种场景进行监控，例如：对交通场景、机场安检场景、步行道路场景等进行监控。

在监控过程中，会发生一些小概率的不经常发生的异常事件，例如：回头、摔倒、撞车等事件。目前，对异常事件进行检测的方法为：对包含异常事件的视频数据进行学习，训练出先验模型。然后，使用训练好的先验模型对新的视频数据进行分类，确定新的视频数据中是否包含异常事件。

上述对异常事件进行检测的方法需要依赖大量的包含异常事件的视频数据来训练先验模型，视频数据的数量越多，先验模型的精度越高。由于异常事件是一些小概率的不经常发生的事件，因此，包含异常事件的视频数据的数量较少，导致先验模型的精度较低，进一步使得异常事件检测的准确率较低。

发明内容

本发明实施例的目的在于提供一种异常事件检测方法、装置及电子设备，以提高异常事件检测的准确率。具体技术方案如下：

一种异常事件检测方法，所述方法包括：

获取待处理视频数据；

将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据，其中，所述非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当所述图像样本与所述输出数据的相似度大于预设阈值时所得到的神经网络，所述图像样本为包括非异常事件的图像样本数据；

计算所述待处理视频数据与所述输出视频数据的相似度；

当所述相似度小于预设相似度阈值时，确定所述待处理视频数据为包括异常事件的视频数据。

可选的，所述获取待处理视频数据的步骤，包括：

根据预设采样方式，获取待处理视频序列；

根据预设步长滑动预设长度的滑动窗口，从所述待处理视频序列中选择所述滑动窗口内所述预设长度个待处理视频帧；

将所获取的所述预设长度个待处理视频帧确定为待处理视频数据。

可选的，所述非监督神经网络包括卷积层和反卷积层；

当所述待处理视频数据包括一个待处理视频帧时，所述将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据的步骤，包括：

通过所述卷积层对所述待处理视频帧进行卷积运算，得到所述待处理视频帧的第一视频特征，采用所述卷积层的压缩计算参数对所述第一视频特征进行压缩处理，得到第一压缩数据；

通过所述反卷积层的解压缩计算参数对所述第一压缩数据进行解压缩处理，得到第一解压缩数据，对所述第一解压缩数据进行反卷积运算，得到所述待处理视频帧对应的输出视频帧。

可选的，所述非监督神经网络包括卷积层、时空建模层和反卷积层；

当所述待处理视频数据包括多个待处理视频帧时，所述将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据的步骤，包括：

通过所述卷积层对所述待处理视频数据中的各个待处理视频帧进行卷积运算，得到每个待处理视频帧的第二视频特征，采用所述卷积层的压缩计算参数对各个第二视频特征进行压缩处理，得到第二压缩数据；

基于每个待处理视频帧，通过所述时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系；

通过所述反卷积层的解压缩计算参数对所述第二压缩数据进行解压缩处理，得到第二解压缩数据，基于所述时间先后顺序和所述空间关联关系对所述第二解压缩数据进行反卷积运算，得到各个待处理视频帧对应的输出视频帧。

可选的，所述基于每个待处理视频帧，通过所述时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系的步骤，包括：

通过所述时空建模层将各个待处理视频帧的时间确定为各个第二视频特征的时间信息，根据各个第二视频特征的时间信息确定各个第二视频特征之间的时间先后顺序；

针对任意两个待处理视频帧中的目标对象，将所述目标对象在该两个待处理视频帧中的位置变化作为该两个待处理视频帧的第二视频特征之间的空间关联关系。

可选的，当所述待处理视频数据包括多个待处理视频帧时，所述计算所述待处理视频数据与所述输出视频数据的相似度的步骤，包括：

根据预设公式计算所述待处理视频数据中的每个待处理视频帧与其对应的输出视频帧的相似度：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

其中，e(t)为第t个待处理视频帧与其对应的输出视频帧的欧式距离，x(t)为第t个待处理视频帧，f_w为所述非监督神经网络的网络参数，S_a(t)为第t个待处理视频帧与其对应的输出视频帧的欧式距离的归一化值，[e(t)]_min为待处理视频数据中的最小欧式距离，[e(t)]_max为待处理视频数据中的最大欧式距离，S_r(t)为第t个待处理视频帧与其对应的输出视频帧的相似度；

根据所述待处理视频数据中的每个视频帧与其对应的输出视频帧的相似度，计算所述待处理视频数据与所述输出视频数据的相似度。

可选的，在确定所述待处理视频数据为包括异常事件的视频数据的步骤之后，所述方法还包括：

当所述待处理视频数据包括多个待处理视频帧时，根据预设选取规则从所述多个待处理视频帧中选取目标视频帧；当所述待处理视频数据包括一个待处理视频帧时，确定所述待处理视频数据为目标视频帧；

获取与所述目标视频帧相邻的预设帧数个参考视频帧；

将所述目标视频帧与所述参考视频帧作为目标视频数据；

将所述目标视频数据输入预先构建的异常事件分类模型，确定所述目标视频数据对应的异常事件类型，其中，所述异常事件分类模型包括视频数据特征与异常事件类型的对应关系。

一种异常事件检测装置，所述装置包括：

获取模块，用于获取待处理视频数据；

输出视频数据确定模块，用于将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据，其中，所述非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当所述图像样本与所述输出数据的相似度大于预设阈值时所得到的神经网络，所述图像样本为包括非异常事件的图像样本数据；

计算模块，用于计算所述待处理视频数据与所述输出视频数据的相似度；

确定模块，用于当所述相似度小于预设相似度阈值时，确定所述待处理视频数据为包括异常事件的视频数据。

可选的，所述获取模块，包括：

待处理视频序列获取单元，用于根据预设采样方式，获取待处理视频序列；

滑动窗口单元，用于根据预设步长滑动预设长度的滑动窗口，从所述待处理视频序列中选择所述滑动窗口内所述预设长度个待处理视频帧；

确定单元，用于将所获取的所述预设长度个待处理视频帧确定为待处理视频数据。

可选的，所述非监督神经网络包括卷积层和反卷积层；

当所述待处理视频数据包括一个待处理视频帧时，所述输出视频数据确定模块，包括：

第一压缩单元，用于通过所述卷积层对所述待处理视频帧进行卷积运算，得到所述待处理视频帧的第一视频特征，采用所述卷积层的压缩计算参数对所述第一视频特征进行压缩处理，得到第一压缩数据；

第一解压缩单元，用于通过所述反卷积层的解压缩计算参数对所述第一压缩数据进行解压缩处理，得到第一解压缩数据，对所述第一解压缩数据进行反卷积运算，得到所述待处理视频帧对应的输出视频帧。

当所述待处理视频数据包括多个待处理视频帧时，所述输出视频数据确定模块，包括：

第二压缩单元，用于通过所述卷积层对所述待处理视频数据中的各个待处理视频帧进行卷积运算，得到每个待处理视频帧的第二视频特征，采用所述卷积层的压缩计算参数对各个第二视频特征进行压缩处理，得到第二压缩数据；

关联关系确定单元，用于基于每个待处理视频帧，通过所述时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系；

第二解压缩单元，用于通过所述反卷积层的解压缩计算参数对所述第二压缩数据进行解压缩处理，得到第二解压缩数据，基于所述时间先后顺序和所述空间关联关系对所述第二解压缩数据进行反卷积运算，得到各个待处理视频帧对应的输出视频帧。

可选的，所述关联关系确定单元，具体用于：

可选的，当所述待处理视频数据包括多个待处理视频帧时，所述计算模块，包括：

第一相似度计算单元，用于根据预设公式计算所述待处理视频数据中的每个待处理视频帧与其对应的输出视频帧的相似度：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

第二相似度计算单元，用于根据所述待处理视频数据中的每个视频帧与其对应的输出视频帧的相似度，计算所述待处理视频数据与所述输出视频数据的相似度。

可选的，所述装置还包括：

目标视频帧选取模块，用于在确定所述待处理视频数据为包括异常事件的视频数据之后，当所述待处理视频数据包括多个待处理视频帧时，根据预设选取规则从所述多个待处理视频帧中选取目标视频帧；当所述待处理视频数据包括一个待处理视频帧时，确定所述待处理视频数据为目标视频帧；

参考视频帧获取模块，用于获取与所述目标视频帧相邻的预设帧数个参考视频帧；

目标视频数据确定模块，用于将所述目标视频帧与所述参考视频帧作为目标视频数据；

异常事件类型确定模块，用于将所述目标视频数据输入预先构建的异常事件分类模型，确定所述目标视频数据对应的异常事件类型，其中，所述异常事件分类模型包括视频数据特征与异常事件类型的对应关系。

一种电子设备，包括处理器和存储器，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现上述任一所述的方法步骤。

本发明实施例中，获取待处理视频数据，将待处理视频数据输入预先训练完成的非监督神经网络，得到待处理视频数据对应的输出视频数据，其中，非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当图像样本与输出数据的相似度大于预设阈值时所得到的神经网络，图像样本为包括非异常事件的图像样本数据，计算待处理视频数据与输出视频数据的相似度，当相似度小于预设相似度阈值时，确定待处理视频数据为包括异常事件的视频数据。本发明中的非监督神经网络是基于包括非异常事件的图像样本训练得到的，由于包括非异常事件的图像样本的数量较大，因此，非监督神经网络的精度较高，进一步使得异常事件检测的准确率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的异常事件检测方法的第一种流程示意图；

图2(a)为本发明实施例提供的滑动窗口的示意图；

图2(b)为本发明实施例提供的滑动窗口向后移动一格的示意图；

图3为本发明实施例提供的异常事件检测的示意图；

图4为本发明实施例提供的非监督神经网络的第一种结构示意图；

图5为本发明实施例提供的得到待处理视频数据对应的输出视频数据的第一种流程示意图；

图6为本发明实施例提供的非监督神经网络的第二种结构示意图；

图7为本发明实施例提供的得到待处理视频数据对应的输出视频数据的第二种流程示意图；

图8为本发明实施例提供的异常事件检测方法的二种流程示意图；

图9为本发明实施例提供的一种异常事件检测装置的结构示意图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决上述技术问题，本发明实施例提供了一种异常事件检测方法、装置及电子设备，该方法可以应用于电子设备，电子设备可以为计算机设备，具体不做限定。

下面首先对本发明实施例提供的一种异常事件检测方法进行详细说明。

图1为本发明实施例提供的一种异常事件检测方法的流程示意图，可以包括：

S101：获取待处理视频数据。

这里的“待处理视频数据”可以为视频采集设备实时采集的视频数据，也可以为已经采集完成的视频数据，在此不做任何限定。

步骤S101可以包括：

根据预设采样方式，获取待处理视频序列；

根据预设步长滑动预设长度的滑动窗口，从待处理视频序列中选择滑动窗口内预设长度个待处理视频帧；

将所获取的预设长度个待处理视频帧确定为待处理视频数据。

一般可以通过采样来获取视频数据。为了获取待处理视频数据，可以根据预设采样方式从多媒体流中获取待处理视频序列。其中，预设采样方式可以为每两帧采一帧，也可以为每一帧采一帧，这都是合理的。

由此，从多媒体流中预先取出了待处理视频序列，然后根据预设步长滑动预设长度的滑动窗口，从待处理视频序列中选择滑动窗口内预设长度个待处理视频帧，将所获取的预设长度个待处理视频帧确定为待处理视频数据。

例如：参见图2(a)，假设预设长度为6帧，图2中的每一个小方格代表一帧，则通过6帧长度的滑动窗口，从待处理视频序列中选择1-6帧待处理视频帧，将该1-6帧待处理视频帧确定为待处理视频数据。

参见图2(b)，预设步长为1帧，当下一次再获得待处理视频数据时，可以将滑动窗口向后移动一格，从待处理视频序列中选择2-7帧待处理视频帧，将该2-7帧待处理视频帧确定为待处理视频数据。

示例性的，当预设步长为1帧，预设长度为1帧时，获取的待处理视频数据为一个待处理视频帧，即每次取一个待处理视频帧。

S102：将待处理视频数据输入预先训练完成的非监督神经网络，得到待处理视频数据对应的输出视频数据，其中，非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当图像样本与输出数据的相似度大于预设阈值时所得到的神经网络，图像样本为包括非异常事件的图像样本数据。

在获取待处理视频数据后，为了确定待处理视频数据中是否包括异常事件，可以将获取的待处理视频数据输入预先训练完成的非监督神经网络，进而，得到待处理视频数据对应的输出视频数据。

其中，非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当图像样本与输出数据的相似度大于预设阈值时所得到的神经网络，图像样本为包括非异常事件的图像样本数据。

在图像样本中包括各种正常事件，例如：交通场景中，图像样本中包括正常行驶的车辆，不包括车祸事件或者逆行的车辆；机场安检场景中，图像样本中包括进行安检的安检员和被检乘客，不包括摔倒事件；步行道路场景中，图像样本包括正常行走的行人，不包括回头的行人或者打架事件。

可见，非监督神经网络是基于非异常事件的图像样本训练得到的，进而，可以将待处理视频数据输入非监督神经网络，得到待处理视频数据对应的输出视频数据，这个过程可以理解为待处理视频数据的重建，重建的结果为输出视频数据。

如果重建的效果较好，则可认为待处理视频数据符合绝大部分图像样本，即待处理视频数据为包括非异常事件的视频数据，如果重建的效果不好，则可认为待处理视频数据不符合绝大部分图像样本，即待处理视频数据为包括异常事件的视频数据。

为了方案清楚及布局清晰，后续将会对非监督神经网络的具体训练方式以及得到输出视频数据的具体方式进行举例介绍。

S103：计算待处理视频数据与输出视频数据的相似度。

为了确定待处理视频数据是否为包括异常事件的视频数据，需要确定重建的效果是否不好，由于是重建待处理视频数据，因此，可以通过计算待处理视频数据与输出视频数据的相似度的方式来确定重建效果的好坏。

如果相似度较高，说明待处理视频数据与重建的输出视频数据相似，待处理视频数据符合绝大部分图像样本，重建的效果较好；如果相似度较低，说明待处理视频数据与重建的输出视频数据不相似，待处理视频数据不符合绝大部分图像样本，重建的效果不好。

当待处理视频数据包括一个待处理视频帧时，步骤S103可以包括：

根据下述公式计算待处理视频帧与其对应的输出视频帧的相似度：

e(1)＝||x(1)-f_w(x(1))||₂

S_r(1)＝1/e(1)

e(1)为待处理视频帧与其对应的输出视频帧的欧式距离，x(1)为待处理视频帧，f_w为非监督神经网络的网络参数。S_r(1)为待处理视频帧与其对应的输出视频帧的相似度。需要说明的是，S_r(1)的值越小，待处理视频数据包括异常事件的可能性越高。

当待处理视频数据包括多个待处理视频帧时，步骤S103可以包括：

根据预设公式计算待处理视频数据中的每个待处理视频帧与其对应的输出视频帧的相似度：

根据待处理视频数据中的每个视频帧与其对应的输出视频帧的相似度，计算待处理视频数据与输出视频数据的相似度。

在一种实现方式中，预设公式可以为：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

需要说明的是S_r(t)的值越小，第t帧包括异常事件的可能性越高。

示例性的，在步行道路场景中，存在行人行走，参见图3，图3中横坐标为视频帧的帧数，纵坐标为相似度，由图3可知第100帧时的S_r(t)最小，此时，第100帧中存在骑车事件，其中，黑色矩形所标识的就是骑车事件。骑车事件为异常事件。

在另一种实现方式中，预设公式可以为：

其中，为第t个待处理视频帧的向量形式，f_w为所述非监督神经网络的网络参数，为第t个待处理视频帧对应的输出视频帧的向量形式，S_m(t)为第t个待处理视频帧与其对应的输出视频帧的相似度。需要说明的是S_m(t)的值越小，待处理视频数据包括异常事件的可能性越高。

根据待处理视频数据中的每个视频帧与其对应的输出视频帧的相似度，计算待处理视频数据与输出视频数据的相似度的方式有多种，包括但不限于以下几种：

第一种：计算待处理视频数据中的所有视频帧的相似度的平均值，将该平均值作为待处理视频数据与输出视频数据的相似度。

第二种：根据预设选取规则从待处理视频数据中选取预设数量个待处理视频帧，计算该预设数量个待处理视频帧的相似度的平均值，将该平均值作为待处理视频数据与输出视频数据的相似度。

第三种：根据预设选取规则从待处理视频数据中选取一个待处理视频帧，将该待处理视频帧与其对应的输出视频帧的相似度作为待处理视频数据与输出视频数据的相似度。

S104：当相似度小于预设相似度阈值时，确定待处理视频数据为包括异常事件的视频数据。

在计算待处理视频数据与输出视频数据的相似度后，当相似度小于预设相似度阈值时，说明待处理视频数据与重建的输出视频数据不相似，待处理视频数据不符合绝大部分图像样本，重建的效果不好，此时，可以确定待处理视频数据为包括异常事件的视频数据。

由于可以实现上述方法的非监督神经网络的结构可以有多种，在一种实施方式中，参见图4，非监督神经网络可以包括卷积层和反卷积层，下面对该种结构的非监督神经网络的具体训练过程进行详细介绍，该训练过程具体可以包括：

11、预先设定初始神经网络的结构：该结构中包含卷积层和反卷积层，二者结构对称，二者相连接的部分(图4中的中轴线)为二者的对称轴。

作为一种实施方式，假设一帧视频帧的长为L，宽为W，通道数量为3(RGB，RED红，GREEN绿，BLUE蓝)，则可以设定卷积层神经元个数、以及反卷积层神经元个数＝长度*宽度*图像通道数。

即将初始神经网络的卷积层的神经元数量设定为L*W*3，每个通道对应一个神经元，相对称的，该初始神经网络的反卷积层的神经元数量也为L*W*3，每个通道对应一个神经元。

另外，卷积层和反卷积层的对称轴也是二者的分界线，该位置既为输出压缩数据的位置，也为输入压缩数据的位置，该位置所在层级的神经元个数可以根据压缩数据的规格尺寸来设定。

12、对卷积层和反卷积层的计算参数进行初始化。

13、假设得到了n份图像样本，将该n份图像样本中的一份图像样本输入卷积层，通过卷积层对该份图像样本进行卷积运算，得到该份图像样本的图像特征，采用卷积层的当前计算参数，对该份图像样本的图像特征进行压缩处理，得到压缩数据；将该压缩数据输入至反卷积层，采用反卷积层的当前计算参数，对该压缩数据进行解压缩处理，得到解压缩数据，对解压缩数据进行反卷积运算，得到该份图像样本对应的输出数据。

14、计算该图像样本与该输出数据之间的相似度，判断该相似度是否大于预设阈值；如果是，获取该n份图像样本中的下一份图像样本，返回步骤13继续对该下一份图像样本进行处理，如果否，执行步骤15。

15、调整卷积层和反卷积层中的计算参数，直至该相似度大于预设阈值后，获取该n份图像样本中的下一份图像样本，返回步骤13继续对该下一份图像样本进行处理。

具体的，可以通过BP(Error Back Propagation，误差反向传播)算法反向传播算法、以及SGD(随机梯度下降)算法对卷积层及反卷积层中的计算参数进行调整，直至二者的相似度大于预设阈值。

16、重复执行上述步骤，直至每份图像样本与其对应的输出数据之间的相似度都大于预设阈值后，将卷积层的当前计算参数确定为压缩计算参数，将反卷积层的当前计算参数确定为解压缩计算参数。

本领域技术人员可以理解，非监督神经网络的训练过程为迭代求解的过程，最终的迭代结果需要满足：使得每份图像样本与其对应的输出数据之间的相似度都大于预设阈值。基于此，迭代结束条件可以设定为：对计算参数的调整幅度越来越小，当计算参数基本不变时(调整幅度小于一阈值)，则可以认为迭代结束，实现了每份图像样本与其对应的输出数据之间的相似度都大于预设阈值。

具体的，可以将上述n份图像样本轮流多次输入神经网络，每次都对神经网络的计算参数进行调整，直至调整幅度小于一阈值时，调整结束，得到了最终的压缩计算参数和解压缩计算参数，完成了训练过程。

或者，也可以针对迭代次数设定一阈值，其中，每将一份图像样本输入神经网络、并调整计算参数直至该份图像样本与其对应的输出数据之间的相似度大于预设阈值，作为一次迭代。

当迭代次数达到该阈值时，认为达到上述结束条件。可以理解，如果迭代次数很多，也可以实现每份图像样本与其对应的输出数据之间的相似度都大于预设阈值。

具体的，可以将上述n份数据轮流多次输入神经网络，每次都对神经网络的计算参数进行调整，直至迭代次数达到阈值，调整结束，得到了最终的压缩计算参数和解压缩计算参数，完成了训练过程。

需要说明的是，训练得到非监督神经网络的方式并不只限于此，在此并不做任何限定。

作为一种实施方式，图4中的神经网络可以为自编码神经网络(AutoEncoder)或者堆栈自编码神经网络(Stacked Autoencoders)。图4下侧部分的网络结构可以为编码网络结构，上侧部分的网络结构为解码网络结构，编码网络结构与解码网络结构相对称。

需要说明的是，图4中卷积层和反卷积层的计算参数也是对称的，上述对神经网络的计算参数进行调整时，可以对二者对称调整。

需要说明的是，将待处理视频帧输入非监督神经网络得到输出视频帧的过程与通过图像样本训练非监督神经网络的过程相同，下面进行简单介绍：

在非监督神经网络包括卷积层和反卷积层的情况下，当待处理视频数据包括一个待处理视频帧时，参见图5，图1中的S102可以包括：

S1021：通过卷积层对待处理视频帧进行卷积运算，得到待处理视频帧的第一视频特征，采用卷积层的压缩计算参数对第一视频特征进行压缩处理，得到第一压缩数据。

将待处理视频帧输入非监督神经网络中后，通过卷积层对待处理视频帧进行卷积运算，得到待处理视频帧的第一视频特征，然后利用上述训练得到的卷积层的压缩计算参数对第一视频特征进行压缩处理，得到第一压缩数据。

上述非监督神经网络的训练过程中确定出的压缩计算参数及解压缩计算参数为迭代计算出的最优解，因此，利用该最优解对待处理视频帧进行压缩，能得到较好的压缩效果。

S1022：通过反卷积层的解压缩计算参数对第一压缩数据进行解压缩处理，得到第一解压缩数据，对第一解压缩数据进行反卷积运算，得到待处理视频帧对应的输出视频帧。

将第一压缩数据输入反卷积层，利用上述训练得到的反卷积层的解压缩计算参数对第一压缩数据进行解压缩处理，得到第一解压缩数据，对第一解压缩数据进行反卷积运算，得到待处理视频帧对应的输出视频帧。反卷积运算为卷积运算的逆过程。

由此，完成了对一帧待处理视频帧的重建。

当前，上述包括卷积层和反卷积层的非监督神经网络也适用于待处理视频数据包括多个待处理视频帧的情况，针对待处理视频数据中的每个待处理视频帧的处理方式与图5中的方式相同，在此不再赘述。

在另一种实施方式中，参见图6，非监督神经网络可以包括卷积层、时空建模层和反卷积层，下面对该种结构的非监督神经网络的具体训练过程进行详细介绍，该训练过程具体可以包括：

21、预先设定初始神经网络的结构：该结构中包含卷积层、时空建模层和反卷积层。

由于图像样本可能是从同一多媒体视频流中获取的，各个图像样本之间并不是独立存在的，各个图像样本的特征之间可能存在时间和空间上的关联关系，因此，可以设定初始神经网络包括时空建模层，用于利用时序建模方法完成帧序列之间的信息关联。

22、对卷积层和反卷积层的计算参数进行初始化。

23、假设得到了n份图像样本，在这n份图像样本中，选择一组图像样本，其中，一组图像样本中包含m份图像样本，m小于n。可以随机选择，也可以顺序选择，具体选择方式不做限定。

24、将该组图像样本输入卷积层，通过卷积层对该组中每份图像样本进行卷积运算，得到每份图像样本的图像特征，采用卷积层的当前计算参数，对该组中每份图像样本的图像特征进行压缩处理，得到压缩数据；

基于该组中每份图像样本，通过时空建模层确定各份图像样本的图像特征之间的时间先后顺序和空间关联关系；

将该压缩数据输入至反卷积层，采用反卷积层的当前计算参数，对该压缩数据进行解压缩处理，得到解压缩数据，基于时间先后顺序和空间关联关系对解压缩数据进行反卷积运算，得到该组图像样本对应的输出数据。

其中，基于该组中每份图像样本，通过时空建模层确定各份图像样本的图像特征之间的时间先后顺序和空间关联关系的方式可以为：

通过时空建模层将该组中各份图像样本的时间确定为各份图像样本的时间信息，根据各份图像样本的时间信息确定各份图像样本的图像特征之间的时间先后顺序；针对任意两份图像样本中的目标对象，将目标对象在该两份图像样本中的位置变化作为该两份图像样本的图像特征之间的空间关联关系。

示例性的，由于图像样本可能是从同一多媒体视频流中获取的，因此，每份图像样本的时间可以为该图像样本在多媒体视频流中对应的时间戳。

例如：假设从同一多媒体视频流中获取了10份图像样本，即获取了10帧视频帧，假设一组图像样本中包含3份图像样本，即3帧视频帧，则第一组图像样本包括：第1帧视频帧、第2帧视频帧和第3帧视频帧，假设第1帧视频帧的时间戳为8:00、第2帧视频帧的时间戳为8:01和第3帧视频帧的时间戳为8:02；

则第1帧视频帧的时间信息为8:00、第2帧视频帧的时间信息为8:01和第3帧视频帧的时间信息为8:02；

根据各份图像样本的时间信息确定各份图像样本的图像特征之间的时间先后顺序为：第1帧视频帧、第2帧视频帧和第3帧视频帧。

由于图像样本中较为重要的内容为目标对象，例如：车、人、猫等。因此，图像样本的图像特征一般也与目标对象有关。目标对象一般会存在运动的行为，例如：目标对象为人，人奔跑；目标对象为车，车行驶，因此，目标对象在不同的图像样本中的位置会发生变化，因此，针对任意两份图像样本中的目标对象，可以将目标对象在该两份图像样本中的位置变化作为该两份图像样本的图像特征之间的空间关联关系。

25、计算该组图像样本与该组图像样本对应的输出数据之间的相似度，判断该相似度是否大于预设阈值；如果是，选择下一组图像样本，返回步骤24继续对该下一组图像样本进行处理，如果否，执行步骤26。

26、调整卷积层和反卷积层中的计算参数，直至该相似度大于预设阈值后选择下一组图像样本，返回步骤24继续对该下一组图像样本进行处理。

举例来说，步骤24中可以将整组图像样本一并输入卷积层、反卷积层，并得到整组图像样本的输出数据；这种情况下，步骤25中计算整组的图像样本与输出数据的相似度，如果相似度大于预设阈值，对非监督神经网络中的计算参数进行调整，直至该相似度大于预设阈值。然后选择下一组图像样本，继续对下一组图像样本进行处理。

或者，步骤24中也可以将该组图像样本中的每份图像样本依次输入卷积层、反卷积层，这样，每份图像样本都对应一份输出数据；这种情况下，步骤25中可以针对每份图像样本，计算该份图像样本与其对应的输出数据的相似度，如果相似度大于预设阈值，对神经网络中的计算参数进行调整，直至该相似度大于预设阈值。需要说明的是，这里的调整可以只是暂时调整，对调整结果进行记录后，再恢复至调整前的计算参数。

这样，便针对该组中每份图像样本都记录了一个调整结果，可以将该组对应的全部调整结果取平均值，根据该平均值，对非监督神经网络中的计算参数进行调整。这里的调整不是暂时调整，不进行恢复，调整后选择下一组图像样本，继续对下一组图像样本进行处理。

27、重复执行上述步骤，直至每组图像样本与其对应的输出数据之间的相似度都大于预设阈值后，将卷积层的当前计算参数确定为压缩计算参数，将反卷积层的当前计算参数确定为解压缩计算参数。

如上所述，非监督神经网络的训练过程为迭代求解的过程，最终的迭代结果需要满足：使得每组图像样本与其对应的输出数据之间的相似度都大于预设阈值。基于此，迭代结束条件可以设定为：对计算参数的调整幅度越来越小，当计算参数基本不变时(调整幅度小于一阈值)，则可以认为迭代结束，实现了每组图像样本与其对应的输出数据之间的相似度都大于预设阈值。

具体的，可以将各组图像样本轮流多次输入神经网络，每次都对神经网络的计算参数进行调整，直至调整幅度小于一阈值时，调整结束，得到了最终的压缩计算参数和解压缩计算参数，完成了训练过程。

或者，也可以针对迭代次数设定一阈值，其中，每将一组图像样本输入神经网络、并调整计算参数直至该组图像样本与其对应的输出数据之间的相似度大于预设阈值，作为一次迭代。

当迭代次数达到该阈值时，认为达到上述结束条件。可以理解，如果迭代次数很多，也可以实现每组图像样本与其对应的输出数据之间的相似度都大于预设阈值。

具体的，可以将各组图像样本轮流多次输入神经网络，每次都对神经网络的计算参数进行调整，直至迭代次数达到阈值，调整结束，得到了最终的压缩计算参数和解压缩计算参数，完成了训练过程。

需要说明的是，本实施方式基于一组图像样本与其对应的输出数据的相似度，对神经网络中的计算参数进行调整，相比于基于一份图像样本与其对应的输出数据的相似度，对神经网络中的计算参数进行调整，减少了调整次数，提高了训练效率。同时，本实施方式中还考虑了各份图像样本之间的时间关联关系和空间关联关系，可以更好的完成对图像样本的重建。

在本发明实施例提供的神经网络训练方式中，第一次训练时，将计算参数由初始值调整为训练得到的值，第二次训练时，基于第一次训练得到的计算参数进一步进行调整，之后的每次训练，都基于上一次训练得到的计算参数进一步进行调整，这样，每次训练过程中，计算参数调整幅度较小，计算量较小。

在非监督神经网络包括卷积层、时空建模层和反卷积层的情况下，当待处理视频数据包括多个待处理视频帧时，参见图7，图1中的S102可以包括：

S1023：通过卷积层对待处理视频数据中的各个待处理视频帧进行卷积运算，得到每个待处理视频帧的第二视频特征，采用卷积层的压缩计算参数对各个第二视频特征进行压缩处理，得到第二压缩数据。

将待处理视频帧输入非监督神经网络中后，通过卷积层对待处理视频数据中的各个待处理视频帧进行卷积运算，得到每个待处理视频帧的第二视频特征，然后利用上述训练得到的卷积层的压缩计算参数对各个第二视频特征进行压缩处理，得到第二压缩数据。

S1024：基于每个待处理视频帧，通过时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系。

由于各帧待处理视频帧的视频特征之间存在时间关联关系和空间关联关系，因此，基于每个待处理视频帧，通过时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系。

上述基于每个待处理视频帧，通过时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系，可以包括：

通过时空建模层将各个待处理视频帧的时间确定为各个第二视频特征的时间信息，根据各个第二视频特征的时间信息确定各个第二视频特征之间的时间先后顺序；

针对任意两个待处理视频帧中的目标对象，将目标对象在该两个待处理视频帧中的位置变化作为该两个待处理视频帧的第二视频特征之间的空间关联关系。

S1025：通过反卷积层的解压缩计算参数对第二压缩数据进行解压缩处理，得到第二解压缩数据，基于时间先后顺序和空间关联关系对第二解压缩数据进行反卷积运算，得到各个待处理视频帧对应的输出视频帧。

将第二压缩数据输入反卷积层，利用上述训练得到的反卷积层的解压缩计算参数对第二压缩数据进行解压缩处理，得到第二解压缩数据。

由于各个第二视频特征之间存在时间关联关系和空间关联关系，因此，需要基于时间先后顺序和空间关联关系对第二解压缩数据进行反卷积运算，得到各个待处理视频帧对应的输出视频帧。

由此，完成了对多帧待处理视频帧的重建。

在图1所示方法的基础上，当待处理视频数据包括多个待处理视频帧时，参见图8，在步骤S104之后，该方法还可以包括：

S105：根据预设选取规则从多个待处理视频帧中选取目标视频帧。

由于异常事件的类型有多种，因此，在确定待处理视频数据为包括异常事件的视频数据后，可以确定异常事件具体为那种类型的异常事件。为了确定异常事件的类型，需要根据预设选取规则从多个待处理视频帧中选取目标视频帧。

其中，预设选取规则可以包括但不限于以下几种规则：

第一种规则：任意选择一帧目标视频帧。

第二种规则：选择位于预设位数的目标视频帧。

例如：假设待处理视频数据包括5帧待处理视频帧，假设预设位数为3，则选择位于第3位的待处理视频帧。

S106：获取与目标视频帧相邻的预设帧数个参考视频帧。

由于异常事件不可能仅发生在短短的一帧时间内，因此，在选取了目标视频帧后，需要获取与目标视频帧相邻的预设帧数个参考视频帧。

其中，获取与目标视频帧相邻的预设帧数个参考视频帧可以为获取时间戳小于目标视频帧的视频帧，也可以为获取时间戳大于目标视频帧的视频帧，也可以为两者的结合。

例如：假设待处理视频数据包括9帧待处理视频帧，假设目标视频帧为第5帧视频帧，假设预设帧数为2，则获取与目标视频帧相邻的预设帧数个参考视频帧可以为：第3帧视频帧和第4帧视频帧，或者，获取第6帧视频帧和第7帧视频帧，或者，获取第4帧视频帧和第6帧视频帧。

S107：将目标视频帧与参考视频帧作为目标视频数据。

在获取了参考视频帧后，即可将目标视频帧与参考视频帧作为目标视频数据。由此，该目标视频数据尽可能多的包括了异常事件的发生过程。

S108：将目标视频数据输入预先构建的异常事件分类模型，确定目标视频数据对应的异常事件类型，其中，异常事件分类模型包括视频数据特征与异常事件类型的对应关系。

为了确定异常事件的类型，通过包括异常事件的图像样本预先构建了异常事件分类模型，其中，异常事件分类模型包括视频数据特征与异常事件类型的对应关系。

在获得了目标视频数据后，将目标视频数据输入预先构建的异常事件分类模型，异常事件分类模型提取目标视频数据的视频数据特征，根据视频数据特征与异常事件类型的对应关系，确定目标视频数据对应的异常事件类型。

由此，通过将目标视频数据输入预先构建的异常事件分类模型的方式，确定目标视频数据对应的异常事件类型。

在图1所示方法的基础上，当待处理视频数据包括一个待处理视频帧时，在步骤S104之后，该方法还可以包括：

确定待处理视频数据为目标视频帧；

获取与目标视频帧相邻的预设帧数个参考视频帧；

将目标视频帧与参考视频帧作为目标视频数据；

将目标视频数据输入预先构建的异常事件分类模型，确定目标视频数据对应的异常事件类型，其中，异常事件分类模型包括视频数据特征与异常事件类型的对应关系。

由于异常事件不可能仅发生在短短的一帧时间内，因此，需要获取与目标视频帧相邻的预设帧数个参考视频帧。然后将目标视频帧与参考视频帧作为目标视频数据。

具体的实现过程参见图8中的描述，在此不再赘述。

与上述方法实施例相对应，本发明实施例还提供一种异常事件检测装置，如图9所示，所述装置可以包括：

获取模块201，用于获取待处理视频数据；

输出视频数据确定模块202，用于将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据，其中，所述非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当所述图像样本与所述输出数据的相似度大于预设阈值时所得到的神经网络，所述图像样本为包括非异常事件的图像样本数据；

计算模块203，用于计算所述待处理视频数据与所述输出视频数据的相似度；

确定模块204，用于当所述相似度小于预设相似度阈值时，确定所述待处理视频数据为包括异常事件的视频数据。

在本发明的一种实现方式中，所述获取模块201，可以包括：

在本发明的一种实现方式中，所述非监督神经网络包括卷积层和反卷积层；

当所述待处理视频数据包括一个待处理视频帧时，所述输出视频数据确定模块202，可以包括：

在本发明的一种实现方式中，所述非监督神经网络包括卷积层、时空建模层和反卷积层；

当所述待处理视频数据包括多个待处理视频帧时，所述输出视频数据确定模块202，可以包括：

在本发明的一种实现方式中，所述关联关系确定单元，可以具体用于：

在本发明的一种实现方式中，当所述待处理视频数据包括多个待处理视频帧时，所述计算模块203，可以包括：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

在本发明的一种实现方式中，所述装置还可以包括：

本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001和存储器1002，

存储器1002，用于存放计算机程序；

处理器1001，用于执行存储器1002上所存放的计算机程序时，实现如下方法步骤：

获取待处理视频数据；

计算所述待处理视频数据与所述输出视频数据的相似度；

本发明实施例中，电子设备获取待处理视频数据，将待处理视频数据输入预先训练完成的非监督神经网络，得到待处理视频数据对应的输出视频数据，其中，非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当图像样本与输出数据的相似度大于预设阈值时所得到的神经网络，图像样本为包括非异常事件的图像样本数据，计算待处理视频数据与输出视频数据的相似度，当相似度小于预设相似度阈值时，确定待处理视频数据为包括异常事件的视频数据。本发明中的非监督神经网络是基于包括非异常事件的图像样本训练得到的，由于包括非异常事件的图像样本的数量较大，因此，非监督神经网络的精度较高，进一步使得异常事件检测的准确率较高。

在本发明的一种实现方式中，所述获取待处理视频数据的步骤，可以包括：

根据预设采样方式，获取待处理视频序列；

当所述待处理视频数据包括一个待处理视频帧时，所述将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据的步骤，可以包括：

当所述待处理视频数据包括多个待处理视频帧时，所述将所述待处理视频数据输入预先训练完成的非监督神经网络，得到所述待处理视频数据对应的输出视频数据的步骤，可以包括：

在本发明的一种实现方式中，所述基于每个待处理视频帧，通过所述时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系的步骤，可以包括：

在本发明的一种实现方式中，当所述待处理视频数据包括多个待处理视频帧时，所述计算所述待处理视频数据与所述输出视频数据的相似度的步骤，可以包括：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

在本发明的一种实现方式中，在确定所述待处理视频数据为包括异常事件的视频数据的步骤之后，所述方法还可以包括：

获取与所述目标视频帧相邻的预设帧数个参考视频帧；

将所述目标视频帧与所述参考视频帧作为目标视频数据；

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

获取待处理视频数据；

计算所述待处理视频数据与所述输出视频数据的相似度；

本发明实施例中，计算机程序被处理器执行时获取待处理视频数据，将待处理视频数据输入预先训练完成的非监督神经网络，得到待处理视频数据对应的输出视频数据，其中，非监督神经网络为：基于图像样本对预设结构的初始神经网络进行训练，得到图像样本对应的输出数据，当图像样本与输出数据的相似度大于预设阈值时所得到的神经网络，图像样本为包括非异常事件的图像样本数据，计算待处理视频数据与输出视频数据的相似度，当相似度小于预设相似度阈值时，确定待处理视频数据为包括异常事件的视频数据。本发明中的非监督神经网络是基于包括非异常事件的图像样本训练得到的，由于包括非异常事件的图像样本的数量较大，因此，非监督神经网络的精度较高，进一步使得异常事件检测的准确率较高。

根据预设采样方式，获取待处理视频序列；

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

获取与所述目标视频帧相邻的预设帧数个参考视频帧；

将所述目标视频帧与所述参考视频帧作为目标视频数据；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常事件检测方法，其特征在于，所述方法包括：

获取待处理视频数据；

计算所述待处理视频数据与所述输出视频数据的相似度；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频数据的步骤，包括：

根据预设采样方式，获取待处理视频序列；

3.根据权利要求1所述的方法，其特征在于，所述非监督神经网络包括卷积层和反卷积层；

4.根据权利要求1所述的方法，其特征在于，所述非监督神经网络包括卷积层、时空建模层和反卷积层；

5.根据权利要求4所述的方法，其特征在于，所述基于每个待处理视频帧，通过所述时空建模层确定各个第二视频特征之间的时间先后顺序和空间关联关系的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，当所述待处理视频数据包括多个待处理视频帧时，所述计算所述待处理视频数据与所述输出视频数据的相似度的步骤，包括：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

7.根据权利要求1所述的方法，其特征在于，在确定所述待处理视频数据为包括异常事件的视频数据的步骤之后，所述方法还包括：

获取与所述目标视频帧相邻的预设帧数个参考视频帧；

将所述目标视频帧与所述参考视频帧作为目标视频数据；

8.一种异常事件检测装置，其特征在于，所述装置包括：

获取模块，用于获取待处理视频数据；

9.根据权利要求8所述的装置，其特征在于，所述获取模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述非监督神经网络包括卷积层和反卷积层；

11.根据权利要求8所述的装置，其特征在于，所述非监督神经网络包括卷积层、时空建模层和反卷积层；

12.根据权利要求11所述的装置，其特征在于，所述关联关系确定单元，具体用于：

13.根据权利要求8所述的装置，其特征在于，当所述待处理视频数据包括多个待处理视频帧时，所述计算模块，包括：

e(t)＝||x(t)-f_w(x(t))||₂

S_r(t)＝1-S_a(t)

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种电子设备，其特征在于，包括处理器和存储器，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现权利要求1-7任一所述的方法步骤。