CN104281858A

CN104281858A - 三维卷积神经网络训练方法、视频异常事件检测方法及装置

Info

Publication number: CN104281858A
Application number: CN201410469780.4A
Authority: CN
Inventors: 田永鸿; 史业民; 王耀威; 黄铁军
Original assignee: Peking University; China Security and Fire Technology Co Ltd
Current assignee: Peking University; China Security and Fire Technology Co Ltd
Priority date: 2014-09-15
Filing date: 2014-09-15
Publication date: 2015-01-14
Anticipated expiration: 2034-09-15
Also published as: CN104281858B

Abstract

本发明实施例涉及视频图像技术领域，尤其涉及一种三维卷积神经网络训练方法、一种基于三维卷积神经网络的视频异常事件检测方法及装置，用以对拥挤人群场景下发生的异常事件进行检测。本发明实施例的方法中三维卷积神经网络正向传递过程中第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，由于最后一层卷积层对所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

Description

三维卷积神经网络训练方法、视频异常事件检测方法及装置

技术领域

本发明涉及视频图像技术领域，尤其涉及一种三维卷积神经网络训练方法、一种基于三维卷积神经网络的视频异常事件检测方法及装置。

背景技术

随着经济的快速发展，在商场、体育场等公共场所中常常存在着人流高峰，而这些拥挤的人群对公共安全带来了极大的隐患。如果能够及时检测到监控视频中的异常行为，便可及时采取相应的解决方案，避免重大意外事件发生。

现有技术中用于对监控视频中的异常事件进行自动检测的方法需基于运动对象的跟踪，即通过不断检测运动对象运动轨迹，进行异常行为检测。该类方法异常行为检测效果在很大程度上依赖于运动对象跟踪的结果，因此该类方法仅适用于非拥挤场景中，但对于如商场、体育场等公共场所的拥挤场景，由于目标的互遮挡与自遮挡相当严重，导致有效的运动对象跟踪困难，因此在人群拥挤的场景下，基于运动对象跟踪的方法并不适用。

综上，亟需一种视频异常事件检测方法，用以对拥挤人群场景下发生的异常事件进行检测。

发明内容

本发明实施例提供一种三维卷积神经网络的训练方法、一种基于三维卷积神经网络的视频异常事件检测方法及装置，用以对拥挤人群场景下发生的异常事件进行检测。

本发明实施例提供一种三维卷积神经网络的训练方法，包括：

三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

三维卷积神经网络的训练方法包括：

执行正向传递过程，根据正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数；

正向传递过程包括：三维卷积神经网络接收待检测视频序列的特征块，针对特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件；

其中，第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第N组卷积-采样层中的采样层进行采样处理。

三维卷积神经网络正向传递过程中第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，由于最后一层卷积层对所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

较佳的，三维卷积神经网络接收待检测视频序列的特征块之前，还应做一些前期处理，如：对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

较佳的，三维卷积神经网络接收待检测视频序列的特征块，对特征块进行检测，输出的异常事件检测结果中包括异常值概率和正常值概率；由于前期可能对视频帧序列进行切割，因此同一个帧序列可能具有多个特征块，三维卷积神经网络会对每个特征块输出一个异常事件检测结果。根据多个待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件时，若待检测视频序列的特征块中至少有一个特征块满足以下条件，则确定待检测视频序列发生异常事件：异常值概率减去正常值概率得到的差值大于设定阈值。

如前，三维卷积神经网络输出的异常事件检测结果中包括异常值概率和正常值概率。当想要确定具体哪一帧发生了异常事件时，则需结果多个特征块进行计算。例如，需要确定第k帧是否发生了异常事件，则需将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加；其中，所有包含第k帧的视频帧序列是通过具有l帧时间长度的滑动窗口每次移动单帧得到的；针对所有包含第k帧的视频帧序列中的所有特征块，若加权相加之后的异常值概率减去加权相加之后的正常值概率得到的差值大于设定阈值，则确定第k帧发生异常事件；其中，k为正整数。

较佳的，由于第k帧具有多个异常检查结果，因此对第k帧的异常检测结果进行加权相加之前必须设定权值。针对所有包含第k帧的视频帧序列中的所有特征块，将第一特征块的的异常检测结果中的异常值概率和正常值概率的权值设置为最大值；其中，第一特征块满足以下条件：

或

其中，表示向下取整，表示向上取整。

基于上述训练的三维卷积神经网络，本发明实施例还提供一种基于三维卷积神经网络的视频异常事件检测方法，三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

基于三维卷积神经网络的视频异常事件检测方法包括：

三维卷积神经网络接收待检测视频序列的特征块，针对特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件；

或

其中，表示向下取整，表示向上取整。

基于相同构思，本发明实施例提供一种基于三维卷积神经网络的视频异常事件检测装置，包括：

存储单元，用于被配置以存储三维卷积神经网络的模型的描述信息，三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

接收单元，用于在正向传递过程中和视频异常事件检测过程中接收待检测视频序列的特征块；

检测单元，用于在正向传递过程中和视频异常事件检测过程中针对所述特征块执行异常检测过程，

异常事件确定单元，用于在正向传递过程中和视频异常事件检测过程中根据待检测视频序列的每个特征块的异常事件检测结果确定所述待检测视频序列是否发生异常事件；

其中，第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第N组卷积-采样层中的采样层进行采样处理；

输出处理单元：在反向传递过程中：根据正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数。

较佳的，该装置还包括特征块生成单元，用于在接收待检测视频序列的特征块之前，生成特征块。如：对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

较佳的，三维卷积神经网络接收待检测视频序列的特征块，对特征块进行检测，输出的异常事件检测结果中包括异常值概率和正常值概率；由于前期可能对视频帧序列进行切割，因此同一个帧序列可能具有多个特征块，三维卷积神经网络会对每个特征块输出一个异常事件检测结果。异常事件检测模块根据多个待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件时，若待检测视频序列的特征块中至少有一个特征块满足以下条件，则确定待检测视频序列发生异常事件：异常值概率减去正常值概率得到的差值大于设定阈值。

如前，三维卷积神经网络输出的异常事件检测结果中包括异常值概率和正常值概率。当想要确定具体哪一帧发生了异常事件时，则需结果多个特征块进行计算。例如，异常事件检测模块需要确定第k帧是否发生了异常事件，则需将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加；

其中，所有包含第k帧的视频帧序列是通过具有l帧时间长度的滑动窗口每次移动单帧得到的；

针对所有包含第k帧的视频帧序列中的所有特征块，若加权相加之后的异常值概率减去加权相加之后的正常值概率得到的差值大于设定阈值，则确定第k帧发生异常事件；

其中，k为正整数。

或

其中，表示向下取整，表示向上取整。

本发明实施例提供一种基于三维卷积神经网络的视频异常事件检测装置，包括：

存储器，用于被配置以存储三维卷积神经网络的模型的描述信息，三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

处理器，用于被配置以在三维卷积神经网络中执行训练过程和视频异常事件检测过程，训练过程包括正向传递过程和反向传递过程，其中：

在正向传递过程中：三维卷积神经网络接收待检测视频序列的特征块，针对特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件；

在反向传递过程中：根据正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数；

在视频异常事件检测过程中，三维卷积神经网络接收待检测视频序列的特征块，针对特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件；

较佳的，处理器接收待检测视频序列的特征块之前，还应做一些前期处理。如：对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

较佳的，三维卷积神经网络接收待检测视频序列的特征块，对特征块进行检测，输出的异常事件检测结果中包括异常值概率和正常值概率；由于前期可能对视频帧序列进行切割，因此同一个帧序列可能具有多个特征块，三维卷积神经网络会对每个特征块输出一个异常事件检测结果。处理器根据多个待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件时，若待检测视频序列的特征块中至少有一个特征块满足以下条件，则确定待检测视频序列发生异常事件：异常值概率减去正常值概率得到的差值大于设定阈值。

如前，三维卷积神经网络输出的异常事件检测结果中包括异常值概率和正常值概率。当想要确定具体哪一帧发生了异常事件时，则需结果多个特征块进行计算。例如，处理器需要确定第k帧是否发生了异常事件，则需将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加；

其中，k为正整数。

或

其中，表示向下取整，表示向上取整。

本发明实施例中，三维卷积神经网络正向传递过程中第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，由于最后一层卷积层对所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种三维卷积神经网络模型图；

图2为本发明实施例提供的一种三维卷积神经网络训练方法流程示意图；

图3为本发明实施例提供的一种三维卷积神经网络训练方法流程示意图；

图4为本发明实施例提供的一种基于三维卷积神经网络的视频异常事件检测方法流程示意图；

图5为本发明实施例提供的一种基于三维卷积神经网络的视频异常事件检测装置示意图；

图6为本发明实施例提供的另一种基于三维卷积神经网络的视频异常事件检测装置示意图。

具体实施方式

三维卷积神经网络是多层的神经网络，在三维卷积神经网络中，使用所有通道中的每个卷积层上的三维卷积核(3D filter)对输入的数据进行卷积操作，从而得到多组特征信息(比如对于图像识别来说，该特征信息可以是特征图)，该多组特征信息被输出到下一层采样层，作为采样层上的输入数据，数据经过下采样之后，再次得到多组特征信息，并将该特征信息输出到下一层卷积层中，重复进行处理，经过若干个处理过程最终由输出层输出结果。

本发明实施例使用的三维卷积神经网络模型，包含多个通道，且按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1。从而使第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第N组卷积-采样层中的采样层进行采样处理。由于第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

图1中给出了一种本发明实施例适用的三维卷积神经网络模型，包含两个通道，且从输入层至输出层依次包含第一组至第三组卷积-采样层，每组卷积-采样层中包含一个卷积层和一个采样层，每一层的输入均与前一层的输出相连接。第三组卷积-采样层中卷积层与第二组卷积-采样层中的采样层全连接。从而使第三组卷积-采样层中的卷积层上的每个卷积核对第二组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第三组卷积-采样层中的采样层进行采样处理。

本发明实施例基于图1中所示的两个通道、三组卷积-采样层进行介绍，本领域技术人员可知，通道数量可增加、卷积-采样层的数量也可增加，本发明实施例不做限制。

为了使本发明的目的、技术方案及有益效果更佳清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图2示出了本发明实施例提供的一种三维卷积神经网络的训练方法的一个示例流程。在该示例流程的各种实现中，各步骤可以被删除、组合或分成子步骤。该示例流程可包括准备阶段和训练阶段。

在准备阶段，需要准备训练用样本数据和三维卷积神经网络。训练用样本数据可为成千上万数量级的视频序列的特征块的样本，并要标出每个样本对应的正确识别结果。三维卷积神经网络的模型可参见前述的描述，三维卷积神经网络的模型的描述信息可配置到存储器中。

在训练阶段，这些样本中的每一个都将输入至三维卷积神经网络，并且计算输出以确定输出结果与期望的输出结果有多远。这个过程被称为“正向传递”。然后，根据输出结果与期望结果的差异，确定三维卷积神经网络模型参数的误差度，根据误差修正模型参数，从而进行三维卷积神经网络学习，这个过程被称为“反向传递”。“正向传递”过程和“反向传递”过程，均可由处理器来实现。

训练方法为：

步骤201，执行正向传递过程；输入的样本数据经三维卷积神经网络的正向传递过程，可以得到该给定样本的输出结果。

步骤202，根据正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数。

具体来说，训练过程中的步骤201可包括如下步骤301～303。

步骤301，执行正向传递过程，三维卷积神经网络接收待检测视频序列的特征块。如前，这里将大量的视频序列的特征块作为样本数据。

具体实施中，将准备的一段待检测的第i帧至第i+l帧的视频帧序列，对视频帧序列进行特征提取，此时，所提取的特征为低层次的特征，如光流特征、灰度梯度、HOG、SIFT特征。并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。i、l、R、C的取值均可自行设定，l、R和C的大小可随场景的变化而进行调整。R和C也可依据摄像画面的大小进行调整。一段视频帧序列的一个完整的视频画面可被分割为多个特征库。举个例子，R×C×l的一段视频帧序列可被分割为R1×C1×l、R2×C2×l、R3×C3×l、R4×C4×l四个特征块，此时R为R1、R2、R3、R4的和，C为C1、C2、C3、C4的和。

在三维卷积神经网络的训练阶段，需要对准备好的特征块进行标注。

将准备好的已标注的待检测的视频帧序列的特征块输入到待训练的三维卷积神经网络中，本发明实施例所使用的待训练的三维卷积神经网络如前。

在步骤302中，三维卷积神经网络针对特征块执行异常检测过程。

具体来说，在本发明实施例中，将每一个特征块依次输入到三维卷积神经网络中，在三维卷积神经网络所执行的正向传递过程，三维卷积神经网络依次输出该特征块的检测结果。在三维卷积神经网络所执行的正向传递过程中，在每个卷积层上，每个卷积核基于输入的每个特征图进行卷积以得到特征信息，将得到的特征信息作为该卷积层的输出结果进行输出以作为下一个采样层的输入。

在此，基于图1所示的三维卷积神经网络以一个特征块为例进行介绍，具体如下：

将已标注的一个特征块输入到输入层中，依据步骤301中所提取的特征信息将该特征块按多个通道输入至输入层。具体实施中，将特征块的不同特征按不同通道进行输入，一个特征分配一个通道，图1中将该特征块分为两个通道输入，第一通道为水平光流通道、第二通道为垂直光流通道。

输入层中两个通道的的输出作为第一层卷积层的输入。第一层卷积层中依然保持输入层中的两个通道，每个通道分别采用a1个r1×c1×l1的3D卷积核。卷积层中使用的卷积核越多，则可产生更多特征图。其中，r1×c1为空间维度，l1为时间维度。

第一层卷积层的输出作为第一层采样层的输入。第一采样层中采用a1个n1×m1的窗口进行下采样，由于第一采样层采用的窗口数量与第一卷积层中采用的卷积核数量一致，因此通过第一采样层可得到与第一卷积层所得到的数目相同的特征图，通过第一采样层所得到的特征图的空间分辨率比通过第一卷积层所得到的特征图的空间分辨率低。

第一层采样的输出作为第二层卷积层的输入。第二层卷积层中依然保持输入层中的两个通道，并采用a2个r2×c2×l2的3D卷积核。卷积层中使用的卷积核越多，则可产生更多特征图。

第二层卷积层的输出作为第二层采样层的输入。第二采样层中采用a2个n2×m2的窗口进行下采样，由于第二采样层采用的窗口数量与第二卷积层中采用的卷积核数量一致，因此通过第二采样层可得到与第二卷积层所得到的数目相同的特征图，通过第二采样层所得到的特征图的空间分辨率比通过第二卷积层所得到的特征图的空间分辨率低。至此，各个层的操作仍旧在各自的通道中单独进行，当数据传输至第三层卷积层时，所有通道融合为一个通道，详述如下。

第二层采样的输出作为第三层卷积层的输入。第三层卷积层采用a3个r3×c3×l3的3D卷积核，第三层卷积层与第二层采样层全连接，从而使第三层卷积层对第二层采样层中的所有通道的所有特征图的数据进行卷积，从而提取多种特征的混合特征，进而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。第三层卷积层将所有通道的特征融合为一个通道，之后所有数据的传输也均在一个通道上进行。具体实施中，卷积操作可将特征块的分辨率降低，同时通过卷积层的操作，也可将第三层卷积层的三维特征块处理为二维。较佳的，本发明实施例中，经过第三层卷积层的处理，融合后的特征能够以较小的长度表征原视频。

第三层卷积层的输出作为第三层采样层的输入。第三采样层中采用a3个n3×m3的窗口进行下采样，由于第三采样层采用的窗口数量与第三卷积层中采用的卷积核数量一致，因此通过第三采样层可得到与第三卷积层所得到的数目相同的特征图，通过第三采样层所得到的特征图的空间分辨率比通过第三卷积层所得到的特征图的空间分辨率低。通过第三层采样层的下采样，得到了高层次的特征。且，经过多层卷积和子采样操作，原始输入三维特征块的特征向量被转化为维度更低但描述能力更强的特征向量。

第三层采样层的输出作为输出层的输入，输出层中的两个节点分别与第三采样层全连接，输出层中的每个节点均对第三采样层中的所有特征进行特征提取，从而得到更精确的测试结果。输出层中的两个节点分别用于输出特征块的异常值概率和正常值概率。

本发明实施例中，三维卷积神经网络基于多通道中的每个通道上的数据进行卷积，以产生多组特征，上述三维卷积神经网络训练过程中，卷积核的大小和下采样窗口的大小可以随着场景的不同而自主定义，卷积核的大小和下采样窗口的大小决定了异常事件检测的粒度，卷积核和下采样窗口越小，则异常事件检测的粒度越小，反之，卷积核和下采样窗口越大，则异常事件检测的粒度越大，每一层卷积层所使用的卷积核的个数则影响了特征的多样性，即在每一层卷积层上采用的卷积核数量越多，则所描述的特征也就越多。通常，较佳的，每个通道的卷积核数量从输入层至输出层越来越多，进而可在后期得到更多的特征。此外，可以根据需要增减卷积层和子采样层的数量，以及通道的数量，本发明实施例不做限制。

步骤303，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件。

三维卷积神经网络输出的异常事件检测结果中包括异常值概率和正常值概率。若待检测视频序列的特征块的异常值概率减去正常值概率得到的差值大于设定阈值，则确定待检测视频序列的特征块发生异常事件。

由于同一组视频帧序列可能会被切割为多个特征块，则视频帧序列中的视频画面上发生的异常事件可能被切割到一个特征块上，而该视频帧序列的其它特征块上不存在异常事件，基于此种情况，本发明实施例规定在同一个视频帧序列的多个特征块中，只要有一个特征块被确定发生异常事件，则确定该视频帧序列发生异常事件。

较佳的，为了确定某一帧是否发生异常事件，可通过具有l帧时间长度的滑动窗口每次移动单帧得到多个包含第k帧的视频帧序列；

将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加；针对所有包含第k帧的视频帧序列中的所有特征块，若加权相加之后的异常值概率减去加权相加之后的正常值概率得到的差值大于设定阈值，则确定第k帧发生异常事件，其中，k为正整数。

较佳的，针对所有包含第k帧的视频帧序列中的所有特征块，将第一特征块的的异常检测结果中的异常值概率和正常值概率的权值设置为最大值；其中，第一特征块满足以下条件：

或

其中，表示向下取整，表示向上取整。

举个例子，假设l为6，即滑动窗口步长为6，此时将滑动窗口每次移动单帧得到1帧-7帧、2帧-8帧、3帧-9帧…的特征块，可见，特征块之间有重合帧。此时假设需要检测第7帧是否发生异常事件，由于1帧-7帧、2帧-8帧、3帧-9帧…7帧-13帧的特征块中均包含第7帧，则此时，将包含第7帧的7个特征块的异常概率值分别进行加权相加，将包含第7帧的7个特征块的正常概率值分别进行加权相加，加权相加之后的异常值概率减去加权相加之后的正常值概率得到的差值大于设定阈值时，则判定第7帧发生了异常事件。

由于4帧-10帧的特征块中，第7帧处于最中间的一帧，因此，于4帧-10帧的特征块最为有效，为了保证4帧-10帧的特征块的值能够发挥主要作用，因此将4帧-10帧的特征块的异常值概率和正常值概率均设置为最大，此时可弱化其它特征块的作用。例如，可将上述7个特征块中的异常值概率和正常值概率的权值集合设置为w＝[0.05，0.1，0.2，0.3，0.2，0.1，0.05]。假设步长l为奇数，此时欲测试第j帧，则将第j帧处于接近中间位置的待测试的特征块中的异常值概率和正常值概率设置为最大值。

当需要测试视频流的首尾的6帧时，由于首尾6帧并没有产生7个特征块，此时可依据有限数量的特征块对各个帧进行计算，方法如上。

在步骤202中，根据步骤301至303正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数。三维卷积神经网络的模型参数可包括层间连接的权重(weight)，还可以包括刺激函数的参数等参数。

“反向传递过程”即为采用误差函数计算三维卷积神经网络的输出值距离期望输出值有多远，之后依据三维卷积神经网络的输出值与期望输出值之间的偏差调整三维卷积神经网络的模型参数。具体来说，采用误差函数，计算三维卷积神经网络的输出值距离期望输出值有多远，然后为误差函数确定梯度函数，通过该梯度函数得到每个三维卷积神经网络矩阵的每个条目相对于误差的偏导数，之后可根据梯度下降法计算出每个矩阵的调整量，其中，矩阵中的数值为三维卷积神经网络的参数，例如可为权重参数。然后，根据梯度函数修正包括卷积核和偏差的矩阵在内的三维卷积神经网络的模型参数。通过上述“反向传递”过程，可根据样本输出结果确定三维卷积神经网络与期望结果的误差，根据该误差来确定每个三维卷积神经网络矩阵所需作出的修正，从而达到训练三维卷积神经网络的目的。

举个例子，假设标注过的特征块中有异常事件发生，而检测结果却显示该特征块没有异常事件发生，则确定检测结果和实际结果直接的误差，并依据误差修正三维卷积神经网络的参数，从而达到训练三维卷积神经网络的目的。

最后，只要有更多的样本输入，上述正向传递和反向传递步骤就会被反复执行。在样本输入结束时，三维卷积神经网络已经对这些输入进行训练，上述三维卷积神经网络训练过程就此结束。

综上，三维卷积神经网络正向传递过程中第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，由于对所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

基于上述三维卷积神经网络的训练方法所训练出的三维卷积神经网络进行视频异常事件的检测，图4示出了本发明实施例所提供的一种基于三维卷积神经网络的视频异常事件检测方法的一个示例流程。在该示例流程的各种实现中，各步骤可以被删除、组合或分成子步骤。具体来说，检测过程可包括如下步骤401～403。

基于三维卷积神经网络的视频异常事件的检测，大致与神经网络训练过程中的正向传递过程类似，下面仅结合图4大致描述基于三维卷积神经网络的视频异常事件的检测过程，该过程中的具体细节实现可参照前述的训练过程中的正向传递过程。三维卷积神经网络的模型可参见前述的描述。

步骤401，执行正向传递过程，三维卷积神经网络接收待检测视频序列的特征块。如前，这里将大量的视频序列的特征块作为样本数据。

具体实施中，将准备的一段待检测的第i帧至第i+l帧的视频帧序列，对视频帧序列进行特征提取。并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。i、l、R、C的取值均可自行设定，l、R和C的大小可随场景的变化而进行调整。

在步骤402中，三维卷积神经网络针对特征块执行异常检测过程。

在此，该步骤中特征块在三维卷积神经网络中的传输过程如前步骤302中，在此不再赘述，仅举个例子如下：

将一个特征块输入到输入层中，依据步骤401中所提取的特征信息将该特征块按多个通道输入至输入层。具体实施中，一个特征分配一个通道，图1中将该特征块分为两个通道输入，第一通道为水平光流通道、第二通道为垂直光流通道。假设，输入80×80×7的特征块。

输入层中两个通道的的输出作为第一层卷积层的输入。第一层卷积层中依然保持输入层中的两个通道，每个通道分别采用10个6×6×3的3D卷积核。通过第一层卷积层的操作输出得到两组特征图，每组10个特征图，每个特征图的大小均为75×75×5。

第一层卷积层的输出作为第一层采样层的输入。第一采样层中采用10个3×3的窗口进行下采样。通过第一层采样层的操作输出得到两组特征图，每组10个特征图，每个特征图的大小均为(75/3)×(75/3)×5，即25×25×5。

第一层采样的输出作为第二层卷积层的输入。第二层卷积层中依然保持输入层中的两个通道，并采用20个4×4×3的3D卷积核。卷积层中使用的卷积核越多，则可产生更多特征图。通过第二层卷积层的操作输出得到两组特征图，每组20个特征图，每个特征图的大小均为22×22×3。

第二层卷积层的输出作为第二层采样层的输入。第二采样层中采用20个2×2的窗口进行下采样。通过第二层采样层的操作输出得到两组特征图，每组20个特征图，每个特征图的大小均为11×11×3。

第二层采样的输出作为第三层卷积层的输入。第三层卷积层采用24个6×6×3的3D卷积核，第三层卷积层与第二层采样层全连接，从而使第三层卷积层对第二层采样层中的所有通道的所有特征图的数据进行卷积，从而提取多种特征的混合特征，进而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。通过第三层卷积层的操作输出得到一组特征图，共有24个特征图，每个特征图的大小均为6×6×1。

第三层卷积层的输出作为第三层采样层的输入。第三采样层中采用24个3×3的窗口进行下采样。通过第三层采样层的操作输出得到一组特征图，共有24个特征图，每个特征图的大小均为2×2×1。

经过多层卷积和子采样操作，原始输入被转化为96个特征向量。

本发明实施例中，三维卷积神经网络基于多通道中的每个通道上的数据进行卷积，以产生多组特征，上述三维卷积神经网络训练过程中，卷积核的大小和下采样窗口的大小可以随着场景的不同而自主定义，卷积核的大小和下采样窗口的大小决定了异常事件检测的粒度，卷积核和下采样窗口越小，则异常事件检测的粒度越小，反之，卷积核和下采样窗口越大，则异常事件检测的粒度越大，每一层卷积层所使用的卷积核的个数则影响了特征的多样性，即在每一层卷积层上采用的卷积核数量越多，则所描述的特征也就越多。此外，可以根据需要增减卷积层和子采样层的数量，以及通道的数量，本发明实施例不做限制。

步骤403，根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件。

或

其中，表示向下取整，表示向上取整。

上述方案具体示例参见前述步骤303中所示。

基于相同的构思，图5示出了本发明实施例所提供的一种基于三维卷积神经网络的视频异常事件检测装置,包括存储单元501、接收单元502、检测单元503、异常事件确定单元504、输出处理单元505，进一步还包括特征块生成单元506，其中：

存储单元501，用于被配置以存储三维卷积神经网络的模型的描述信息，三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

接收单元502，用于在正向传递过程中和视频异常事件检测过程中接收待检测视频序列的特征块；

检测单元503，用于在正向传递过程中和视频异常事件检测过程中针对特征块执行异常检测过程；

异常事件确定单元504，用于在正向传递过程中和视频异常事件检测过程中根据待检测视频序列的每个特征块的异常事件检测结果确定待检测视频序列是否发生异常事件；

输出处理单元505：在反向传递过程中：根据正向传递过程的输出结果，在三维卷积神经网络中执行反向传递过程，以修正三维卷积神经网络的模型参数。

特征块生成单元506，还用于：

对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

较佳的，异常事件检测结果中包括异常值概率和正常值概率；

异常事件确定单元504，具体用于：

若待检测视频序列的特征块中至少有一个特征块满足以下条件，则确定待检测视频序列发生异常事件：异常值概率减去正常值概率得到的差值大于设定阈值。

较佳的，异常事件确定单元504，具体用于：

将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加；

其中，k为正整数。

较佳的，异常事件确定单元504，还用于：

在将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加之前，针对所有包含第k帧的视频帧序列中的所有特征块，将第一特征块的的异常检测结果中的异常值概率和正常值概率的权值设置为最大值；其中，第一特征块满足以下条件：

或

其中，表示向下取整，表示向上取整。

从上述内容可以看出：三维卷积神经网络正向传递过程中第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，由于对所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述拥挤人群场景下发生的异常事件，进而提高异常事件的检测的准确率。

基于相同的构思，图6示出了本发明实施例所提供的另一种基于三维卷积神经网络的视频异常事件检测装置,包括：

存储器601，用于被配置以存储三维卷积神经网络的模型的描述信息，三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

处理器602，用于被配置以在三维卷积神经网络中执行训练过程和视频异常事件检测过程，训练过程包括正向传递过程和反向传递过程，其中：

处理器602，还用于：

处理器602，具体用于：

较佳的，处理器602，具体用于：

其中，k为正整数。

较佳的，将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加之前，还包括：

针对所有包含第k帧的视频帧序列中的所有特征块，将第一特征块的的异常检测结果中的异常值概率和正常值概率的权值设置为最大值；其中，第一特征块满足以下条件：

或

其中，表示向下取整，表示向上取整。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理装置的处理器以产生一个机器，使得通过计算机或其他可编程数据处理装置的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理装置上，使得在计算机或其他可编程装置上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程装置上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种三维卷积神经网络的训练方法，其特征在于，包括：

所述三维卷积神经网络的训练方法包括：

执行正向传递过程，根据所述正向传递过程的输出结果，在所述三维卷积神经网络中执行反向传递过程，以修正所述三维卷积神经网络的模型参数；

所述正向传递过程包括：三维卷积神经网络接收待检测视频序列的特征块，针对所述特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定所述待检测视频序列是否发生异常事件；

2.如权利要求1所述的三维卷积神经网络的训练方法，其特征在于，所述三维卷积神经网络接收待检测视频序列的特征块之前，还包括：

对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将所述第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

3.如权利要求1所述的三维卷积神经网络的训练方法，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

所述根据待检测视频序列的每个特征块的异常事件检测结果确定所述待检测视频序列是否发生异常事件，包括：

若所述待检测视频序列的特征块中至少有一个特征块满足以下条件，则确定所述待检测视频序列发生异常事件：异常值概率减去正常值概率得到的差值大于设定阈值。

4.如权利要求2所述的三维卷积神经网络的训练方法，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

其中，所述所有包含第k帧的视频帧序列是通过具有l帧时间长度的滑动窗口每次移动单帧得到的；

其中，k为正整数。

5.如权利要求4所述的三维卷积神经网络的训练方法，其特征在于，所述将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加之前，还包括：

针对所有包含第k帧的视频帧序列中的所有特征块，将第一特征块的的异常检测结果中的异常值概率和正常值概率的权值设置为最大值；其中，所述第一特征块满足以下条件：

或

其中，表示向下取整，表示向上取整。

6.一种基于三维卷积神经网络的视频异常事件检测方法，其特征在于，所述三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

所述基于三维卷积神经网络的视频异常事件检测方法包括：

三维卷积神经网络接收待检测视频序列的特征块，针对所述特征块执行异常检测过程，根据待检测视频序列的每个特征块的异常事件检测结果确定所述待检测视频序列是否发生异常事件；

7.如权利要求6所述的基于三维卷积神经网络的视频异常事件检测方法，其特征在于，所述三维卷积神经网络接收待检测视频序列的特征块之前，还包括：

8.如权利要求6所述的基于三维卷积神经网络的视频异常事件检测方法，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

9.如权利要求7所述的基于三维卷积神经网络的视频异常事件检测方法，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

其中，k为正整数。

10.如权利要求9所述的基于三维卷积神经网络的视频异常事件检测方法，其特征在于，所述将所有包含第k帧的视频帧序列中的所有特征块的异常检测结果中的异常值概率进行加权相加，将包含第k帧的所有视频帧序列中的所有特征块的异常检测结果中的正常值概率进行加权相加之前，还包括：

或

其中，表示向下取整，表示向上取整。

11.一种基于三维卷积神经网络的视频异常事件检测装置，其特征在于，包括：

存储单元，用于被配置以存储三维卷积神经网络的模型的描述信息，所述三维卷积神经网络中按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1；

输出处理单元：在所述反向传递过程中：根据所述正向传递过程的输出结果，在所述三维卷积神经网络中执行反向传递过程，以修正所述三维卷积神经网络的模型参数。

12.如权利要求11所述的装置，其特征在于，还包括特征块生成单元，

用于对待检测的第i帧至第i+l帧的视频帧序列进行特征提取，并将所述第i帧至第i+l帧的视频帧序列切割为R×C×l的多个特征块；其中，i、l、R、C均为大于1的整数，R和C分别表示特征块的长度和宽度。

13.如权利要求11所述的装置，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

所述异常事件确定单元，具体用于：

14.如权利要求12所述的装置，其特征在于，所述异常事件检测结果中包括异常值概率和正常值概率；

所述异常事件确定单元，具体用于：

其中，k为正整数。

15.如权利要求14所述的装置，其特征在于，所述异常事件确定单元，还用于：

或

其中，表示向下取整，表示向上取整。