CN111652201B

CN111652201B - 基于深度视频事件补全的视频数据异常识别方法和装置

Info

Publication number: CN111652201B
Application number: CN202010792801.1A
Authority: CN
Inventors: 王思齐; 余广; 蔡志平; 祝恩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-10-27
Anticipated expiration: 2040-08-10
Also published as: CN111652201A

Abstract

本申请涉及一种基于深度视频事件补全的视频数据异常识别方法和装置。所述方法包括：获取当前视频帧中前景目标所在区域，从当前视频帧所在的预设长度视频帧序列中，获取各视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，从视频事件数据中抽除图像数据得到不完整视频事件数据，输入预设的深度视频事件补全模型进行外观补全和运动补全，根据补全结果和被抽除图像数据间的误差识别视频事件数据中的异常。上述方法使用基于深度神经网络的深度视频事件补全模型，结合外观补全和运动补全方式补全不完整视频事件，充分挖掘了视频事件数据中的高层次语义特征，利用了视频中的上下文信息，有效提升了识别异常视频事件的性能。

Description

基于深度视频事件补全的视频数据异常识别方法和装置

技术领域

本申请涉及模式识别和视频安防监控技术领域，特别是涉及基于深度视频事件补全的视频数据异常识别方法和装置。

背景技术

从监控视频数据中识别异常事件是智能安防的核心任务。而由于异常事件具有抽象性（定义模糊）、新颖性（通常是全新、未记录的情况）、低频性（出现频率一般极低，导致数据难以收集）等特点，目前最常用的方案是单类别分类，使用仅包含正常类别视频事件的数据训练得到一个正常事件模型，将明显无法用该正常事件模型进行描述的视频事件判别为异常事件。

目前的技术方案缺乏从视频事件中提取到高质量特征表示的能力。监控视频数据中识别异常的核心问题在于提取到视频事件数据中包含高层次语义、具备较强判别性的特征。现有技术提取特征有两种途径：一种是针对特定场景视频数据来人工设计特征算子，该过程复杂、需要大量专业领域知识，得到的特征算子的可解释性和在不同场景之间的通用性较差。另一种是基于近年来兴起的深度神经网络进行视频事件数据特征的自动学习。训练深度网络时，异常的新颖性和低频性往往使得收集充分的异常类别训练数据十分困难，因此一般仅能采用压缩-重建范式和视频帧预测范式进行视频事件特征学习。压缩-重建范式由于仅要求神经网络的输出等于输入，很容易拘泥于底层细节，使得深度网络死板地记忆输入的每一个像素，忽视了视频帧图像中对人类感知具有重要意义的高层次结构和语义特征；同时，由于深度网络具有很强的建模和泛化能力，压缩-重建范式常常使得异常也能被很好地重建出来，从而降低了其对于异常的识别能力。视频帧预测范式旨在通过一个正常的视频序列中已有的若干视频帧图像预测下一帧视频图像，从而促使深度网络关注到正常视频事件中前景目标的高层次结构和运动模式，而在测试中无法被深度网络很好地预测的视频帧即被认为包含异常。但这一范式仅利用单一视频帧的预测效果进行异常识别，而视频中的异常事件往往会持续多帧，被预测帧之外的视频帧中的上下文信息无法被充分利用于识别异常；并且，在以视频帧作为处理的基本单元时，往往同时包含不同尺度的前景和大量无关的背景，这会干扰深度网络训练和视频事件特征学习过程，降低网络对视频事件的聚焦能力。

发明内容

基于此，有必要针对上述技术问题，提供一种能够更好地学习到视频事件数据中所包含的高层次语义特征且更充分地利用视频事件序列数据中上下文信息的视频数据异常识别方法和装置。

一种基于深度视频事件补全的视频数据异常识别方法，所述方法包括：

获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据。

从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。深度视频事件补全模型包括基于深度神经网络的外观补全网络和运动补全网络。

根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差，识别视频事件数据中的异常。

其中一个实施例中，获得预先训练的深度视频事件补全模型的方式包括：

将预设的视频数据中的一个视频帧标记为基准视频帧，获取基准视频帧中前景目标所在的前景目标区域，从包括基准视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集。

从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先设置的深度视频事件补全模型。

根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差定义误差函数，根据误差函数训练深度视频事件补全模型，得到训练好的深度视频事件补全模型。

其中一个实施例中，获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据之前还包括：

获取当前视频帧的外观线索信息，根据外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域。

获取当前视频帧的运动线索信息，根据运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域。

根据一般前景目标区域和运动前景目标区域，得到当前视频帧中前景目标所在的前景目标区域。

其中一个实施例中，获取当前视频帧的外观线索信息，根据外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域的步骤包括：

使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域。

根据预设的一般前景目标区域过滤规则过滤当前视频帧中的目标区域，得到当前视频帧中基于外观线索的一般前景目标区域。一般前景目标区域过滤规则包括：目标区域面积阈值和目标区域交叠阈值。

其中一个实施例中，获取当前视频帧的运动线索信息，根据运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域的步骤包括：

获取当前视频帧的光流数据，根据预设的门限值对光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域。

去除与一般前景目标区域重合的运动前景区域，对剩余的运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧中基于运动线索的运动前景目标区域。运动前景目标区域过滤规则包括：运动前景区域面积阈值和运动前景区域纵横比阈值。

其中一个实施例中，从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据的步骤包括：

从视频事件数据的图像数据序列中依次抽除第i个图像数据，得到第i类不完整视频事件数据。其中，图像数据序列包括D个图像数据。

将得到的D类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。

根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差，识别视频事件数据中的异常的步骤包括：

分别计算D类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全误差，以及被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全误差，根据外观补全误差和运动补全误差识别视频事件数据中的异常。

其中一个实施例中，分别计算D类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全误差，以及被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全误差，根据外观补全误差和运动补全误差识别视频事件数据中的异常的步骤包括：

计算第i类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全均方误差值。

计算第i类不完整视频事件数据的被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全均方误差值。

根据预设的权重值、外观补全均方误差值和运动补全均方误差值，得到第i类不完整视频事件数据的异常值。

集成D类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别视频事件数据中的异常。

一种基于深度视频事件补全的视频数据异常识别装置，其特征在于，所述装置包括：

视频事件数据生成模块，用于获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据。

深度视频事件补全模块，用于从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。深度视频事件补全模型包括基于深度神经网络的外观补全网络和运动补全网络。

异常事件识别模块，用于根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差，识别视频事件数据中的异常。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述一种基于深度视频事件补全的视频数据异常识别方法、装置、计算机设备和存储介质，获取当前视频帧的前景目标区域，从当前视频帧所在的视频帧序列中获取每个视频帧在前景目标区域的图像数据序列，构建视频事件数据。从视频事件数据中抽除部分图像数据，生成不完整视频事件数据，输入预先训练的深度视频事件补全模型，输出外观补全图像数据和运动信息补全数据，根据输出与被抽除图像数据及其运动信息间的误差识别视频事件数据中的异常。本申请提供的方法、装置、计算机设备和存储介质使用了基于深度神经网络的深度视频事件补全模型，结合外观补全和运动补全方式补全不完整视频事件，能够更充分地挖掘解视频事件数据中的高层次语义特征，使模型能充分利用视频帧序列的上下文信息，提升了异常视频事件数据的识别性能。

附图说明

图1为一个实施例中一种基于深度视频事件补全的视频数据异常识别方法的应用场景图；

图2为一个实施例中一种基于深度视频事件补全的视频数据异常识别方法的步骤图；

图3为一个实施例中一种基于深度视频事件补全的视频数据异常识别方法的流程示意图；

图4为一个实施例中视频事件数据的生成过程示意图；

图5为一个实施例中深度视频事件补全的过程示意图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于深度视频事件补全的视频数据异常识别方法，可以应用于如图1所示的应用环境中，视频异常识别设备102通过有线、无线等方式的通信链路从视频提供设备104获取待识别的视频数据。其中，视频异常识别设备102可以但不限于是具备相应计算能力的服务器、个人计算机、笔记本电脑等计算设备，视频提供设备104可以是各类实时视频采集设备，也可以是存储有视频数据的其他设备。

在一个实施例中，如图2所示，提供了一种基于深度视频事件补全的视频数据异常识别方法，以该方法应用于图1中视频异常识别设备102为例进行说明，包括以下步骤：

步骤202，获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据。

具体来说，以当前视频帧中的前景目标区域为基准，获取包括当前视频帧的预设帧数或时间长度的视频帧序列，从该视频帧序列的每一帧中获取当前视频帧的前景目标区域对应位置的图像数据。根据得到的图像数据序列生成视频事件数据，视频事件数据中包括了当前视频帧中前景目标区域的上下文数据。可以看到，本步骤中得到的视频事件数据覆盖了该视频帧序列对应的时间段，并且包含时序信息，因此可以视为一个表示视频事件数据的时空立方体单元。

步骤204，从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。深度视频事件补全模型包括基于深度神经网络的外观补全网络和运动补全网络。

外观补全是指根据抽除后剩余的图像数据的外观特征推断得到抽除的图像数据（即外观补全图像数据）。外观特征主要是指前景目标区域中的图像块包含的目标对象所表现出的形状、结构等外形特征以及颜色、纹理等视觉特征。将视频事件数据中的图像数据抽取出来，得到一个不完整视频事件数据，将其输入基于深度神经网络的深度视频事件补全模型分别进行外观补全和运动补全。注意这里抽取图像数据的方式可以是一次抽取一个或多个，抽取的次数可以是一次或多次，不同的抽取方式得到的不完整视频事件是不同的。外观补全网络和运动补全网络都可以使用生成式深度网络实现。

步骤206，根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差，识别视频事件数据中的异常。

将深度视频事件补全模型输出的外观补全图像数据和被抽除的图像数据比较，将其输出的运动信息补全数据与被抽除的图像数据的运动信息数据比较，当上述两个比较结果差距较小时（如小于预设值），则认为补全结果与从原始视频事件数据中抽除的图像数据的一致度较高，即该视频事件数据中不存在异常；反之，则认为视频事件数据中包含异常。视频异常识别设备102可以根据异常检测结果发出告警，以及对包括异常的视频事件数据进行后续处理。

本实施例提供的方法使用了基于深度神经网络的深度视频事件补全模型，结合外观补全和运动补全方式补全不完整视频事件，能够更充分地挖掘解视频事件数据中的高层次语义特征，使模型能充分利用视频帧序列的上下文信息，能够有效提升识别异常视频事件数据的性能。

具体来说，为了实现基于深度视频事件补全的视频数据异常识别，需要构建训练样本集对基于深度神经网络的深度视频事件补全模型进行预先训练。本实施例中，在用于训练的视频数据中指定一个基准视频帧，获取该基准视频帧的前景目标所在的前景目标区域，从包括该基准帧的指定长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集。

从训练样本集中抽取出图像数据，得到不完整视频事件数据，将其输入基于深度神经网络的深度视频事件补全模型分别进行外观补全和运动补全。外观补全网络的误差函数定义为其输出的外观补全图像和被抽除的图像数据之间的误差，可以用均方误差（MSE）的方式计算，训练中通过梯度下降法等方法更新网络参数，通过最小化误差函数值使补全图像数据尽可能接近被抽除的图像数据，实现最佳的外观补全效果。运动补全网络输出的是运动信息补全数据，将其与被抽除的图像数据的运动信息进行比较，可参照外观补全网络误差函数的定义方式定义运动补全网络的误差函数，随后以定义的误差函数的值为优化目标进行模型训练。

需要注意的是，不同的图像数据抽除方式（即抽除不同位置的图像数据）得到的不完整视频事件被视为不同类型的不完整视频事件。为了取得更好的补全效果，可以对不同类型的不完整视频事件使用独立的补全网络，这些独立的补全网络在模型中采用并行结构，使用相应的不完整视频事件对其进行训练；而使用训练好的模型进行视频事件补全时，将不同类型的不完整视频事件输入对应的补全网络。

本实施例提供了一种构建和训练深度视频事件补全模型的方式，定义了训练样本集和误差函数进行模型训练，使训练好的深度视频事件补全模型能够输出符合预设要求补全结果。

其中一个实施例中，提供了一种基于深度视频事件补全的视频数据异常识别方法，其流程如图3所示，包括以下步骤：

步骤302，使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域。根据预设的一般前景目标区域过滤规则过滤当前视频帧中的目标区域，得到当前视频帧中基于外观线索的一般前景目标区域。一般前景目标区域过滤规则包括：目标区域面积阈值和目标区域交叠阈值。

如图4所示，基于外观线索定位当前视频帧中包含前景目标的目标区域，即使用在大规模通用图像数据集（如Microsoft COCO, Pascal VOC数据集）上预训练过的、具备很强目标定位能力的深度目标检测网络（如SSD，YOLOv3，Cascade RCNN等），根据视频帧图像中的外观纹理信息较为精准地定位出常见的一般前景目标（如行人、车辆等）的所在区域，随后使用简单高效的启发式一般前景目标区域过滤规则（如区域面积、区域重叠比例）对初步定位到的目标区域进行过滤，去掉其中无明显意义或者重叠的区域，并得到基于外观线索的一般前景目标区域定位结果。

步骤304，获取当前视频帧的光流数据，根据预设的门限值对光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域。去除与一般前景目标区域重合的运动前景区域，对剩余的运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧的运动前景目标区域。运动前景目标区域过滤规则包括：运动前景区域面积阈值和运动前景区域纵横比阈值。

如图4所示，基于运动线索对当前视频帧中发生明显运动、但未能通过外观线索定位到的运动前景区域进行定位。本实施例使用光流法计算当前视频帧的光流作为运动线索，通过设置一定阈值将光流模值（即强度）二值化，标识出当前视频帧上具有显著前景运动的区域。随后，为了降低计算开销并增加对运动前景区域中包含的前景目标个体定位的准确性，将已经藉由外观线索得到的一般前景目标区域从二值化后的运动前景区域上减去，仅留下外观线索未定位到的运动前景区域作进一步考虑。最后，通过轮廓检测技术提取剩余的运动前景区域的轮廓并求出能够包含该轮廓的最小矩形区域，再通过高效的启发式规则（如区域面积、区域纵横比）过滤后作为基于运动线索的运动前景目标区域定位结果。

步骤302基于外观线索进行前景目标区域定位，步骤304基于运动线索进行前景目标区域定位，这两种方式结合能够实现准确而全面的目标前景区域定位，获得更高质量的视频事件表示。一方面，在基于外观线索的前景目标区域定位中使用预训练过的目标检测器，相较于现有技术大大改善了对常见一般目标个体的定位准确性；而在基于运动线索的前景目标区域定位中，从运动前景区域中去除已经由外观线索定位到的一般前景目标区域的做法也可以更准确地确定运动前景区域中尚未由外观线索定位到的前景目标个体位置，避免了运动前景区域中的若干个前景目标相互重叠交连，导致运动前景目标区域定位结果不准确的情况。另一方面，结合外观线索与运动线索的前景目标区域定位方式有效地保证了视频中的前景目标被全面地涵盖，避免了目标检测器未学习过的、或者受到环境因素干扰的前景目标被遗漏（如高速运动导致图像模糊，使得基于外观线索的目标识别方式失效等情况）。

步骤306，获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据。从视频事件数据的图像数据序列中依次抽除第i个图像数据，得到第i类不完整视频事件数据。其中，图像数据序列包括D个图像数据。

具体来说，根据每一个得到的前景目标区域的位置，从当前视频帧中截取出该位置区域的图像块P ₁。同时，为了描述视频事件中前景目标的行为与动作，本实施例截取与当前视频帧相邻的前（D-1）个视频帧，并从这（D-1）个视频帧中相同区域截取图像块P ₂ ，…… P _D 。D个被取出的图像块被缩放为统一的尺寸H×W，并堆叠成为一个H×W×D的时空立方体作为表示一个视频事件数据的基本单元，这也是之后深度视频事件补全模型的统一尺寸的输入。

步骤308，将得到的D类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。

步骤310，计算第i类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全均方误差值。计算第i类不完整视频事件数据的被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全均方误差值。根据预设的权重值、外观补全均方误差值和运动补全均方误差值，得到第i类不完整视频事件数据的异常值。集成D类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别视频事件数据中的异常。

如图5所示，从提取出的视频事件数据的时空立方体中抽除第i个前景图像块，将其转化为第i类不完整视频事件。同时，将抽除的图像数据及其对应的光流作为之后深度视频事件补全的目标。被抽除的图像数据对应的光流可以通过经典光流计算方法（如classic-NL方法）或者预训练好的深度光流网络（如FlowNet网络）得到。对不完整视频事件，基于使用生成式深度网络（如自编码器或者U型网络）的外观补全网络进行外观补全。与外观补全网络类似，对不完整视频事件同样基于使用生成式深度网络的运动补全网络进行运动补全，不同之处在于将补全目标从被抽除的图像数据换为被抽除图像数据对应的光流。

需要注意的是，除了使用光流作为当前视频帧的运动线索以外，还可以基于帧间差分法等方法实现同样的技术效果。当使用帧间差分法时，计算当前视频帧的时间维梯度作为运动线索，通过设置一定阈值将梯度模值二值化，以得到当前视频帧上具有显著前景运动的运动前景区域。

对某一个视频事件数据进行异常识别时，首先根据深度视频事件补全模型的输出分别得到该视频事件数据对应的D类不完整视频事件的异常值，随后集成得到的D个异常值得到该视频事件数据的最终异常值。具体地，在计算一个不完整视频事件的异常分数时，可以首先根据外观图像均方误差值、运动信息均方误差值和预设的权重值得到该不完整视频事件的异常分数值，然后以一个视频事件数据对应的D类不完整视频事件的异常分数的平均值作为该视频事件数据的最终异常值。当该最终异常值大于预设值时，认为该视频事件数据中包括异常。需要指出的是，不完整视频事件的异常分数计算方法除了均方误差值之外，还可以是图像结构相似性度量（SSIM）、峰值信噪比（PSNR）等误差度量。

本实施例给出了一种全新的深度视频事件补全范式，能够更有效地捕捉视频事件中高层次语义信息和利用视频事件中的上下文信息，从而获得包含高层次语义、更具有判别性的特征表示。这一深度视频事件补全范式要求深度网络从不完整视频事件提供的信息推断出缺失的图像数据及其对应的光流，这就促使深度网络必须捕捉到视频事件中的目标个体的形态结构、运动模式等高层次语义信息才能实现较好的补全效果，从而鼓励深度网络在训练过程中学习更好的视频事件特征表示。另外，深度视频事件补全范式通过对所有可能的不完整视频事件类型进行学习，并将补全不同类型不完整视频事件时得到的异常打分进行集成后得到最终的异常打分，充分利用了视频事件中动作的上下文信息。

为证明本申请提供的基于深度视频事件补全的视频数据异常识别方法的效果，在一台装备有两个NVIDIA TITAN Xp GPU、Intel i7-9700K CPU和64GiB RAM的计算机上基于Python 3.6和PyTorch 0.4.1的编程环境中对本申请提供的方法进行了实验。其中，基于外观线索定位当前视频帧中包含的一般前景目标区域时，目标检测网络采用了在MicrosoftCOCO上预训练的Cascade RCNN网络，深度视频事件补全模型采用了标准的U型网络结构，模型训练和异常识别时的打分均采用均方误差，光流计算采用了FlowNet v2网络。

在上述设置下分析本申请提供的基于深度视频事件补全的视频数据异常识别方法的性能，该方法在基准测试数据集上与现有技术相比能够获得更加优越的性能：在最常用的帧层（frame-level）级用户接收特性曲线线下面积（Area Under ROC Curve, AUROC）指标上相较于其他技术方案至少能够实现2%-10%的提升。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种基于深度视频事件补全的视频数据异常识别装置，其特征在于，所述装置包括：

其中一个实施例中，获得预先训练的深度视频事件补全模型的方式包括：将预设的视频数据中的一个视频帧标记为基准视频帧，获取基准视频帧中前景目标所在的前景目标区域，从包括基准视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集。从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先设置的深度视频事件补全模型。根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差定义误差函数，根据误差函数训练深度视频事件补全模型，得到训练好的深度视频事件补全模型。

其中一个实施例中，还包括前景目标区域获取模块，用于获取当前视频帧的外观线索信息，根据外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域。获取当前视频帧的运动线索信息，根据运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域。根据一般前景目标区域和运动前景目标区域，得到当前视频帧中前景目标所在的前景目标区域。

其中一个实施例中，前景目标区域获取模块，用于使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域。根据预设的一般前景目标区域过滤规则过滤当前视频帧中的目标区域，得到当前视频帧中基于外观线索的一般前景目标区域。一般前景目标区域过滤规则包括：目标区域面积阈值和目标区域交叠阈值。

其中一个实施例中，前景目标区域获取模块，用于获取当前视频帧的光流数据，根据预设的门限值对光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域。去除与一般前景目标区域重合的运动前景区域，对剩余的运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧中基于运动线索的运动前景目标区域。运动前景目标区域过滤规则包括：运动前景区域面积阈值和运动前景区域纵横比阈值。

其中一个实施例中，深度视频事件补全模块，用于从视频事件数据的图像数据序列中依次抽除第i个图像数据，得到第i类不完整视频事件数据。其中，图像数据序列包括D个图像数据。将得到的D类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。

异常事件识别模块，用于分别计算D类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全误差，以及被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全误差，根据外观补全误差和运动补全误差识别视频事件数据中的异常。

其中一个实施例中，异常事件识别模块，用于计算第i类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全均方误差值。计算第i类不完整视频事件数据的被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全均方误差值。根据预设的权重值、外观补全均方误差值和运动补全均方误差值，得到第i类不完整视频事件数据的异常值。集成D类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别视频事件数据中的异常。

关于基于深度视频事件补全的视频数据异常识别装置的具体限定可以参见上文中对于基于深度视频事件补全的视频数据异常识别方法的限定，在此不再赘述。上述基于深度视频事件补全的视频数据异常识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测视频数据、视频事件数据、视频深度视频事件补全模型的输出数据、视频事件异常识别结果等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度视频事件补全的视频数据异常识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将预设的视频数据中的一个视频帧标记为基准视频帧，获取基准视频帧中前景目标所在的前景目标区域，从包括基准视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集。从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先设置的深度视频事件补全模型。根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差定义误差函数，根据误差函数训练深度视频事件补全模型，得到训练好的深度视频事件补全模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前视频帧的外观线索信息，根据外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域。获取当前视频帧的运动线索信息，根据运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域。根据一般前景目标区域和运动前景目标区域，得到当前视频帧中前景目标所在的前景目标区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域。根据预设的一般前景目标区域过滤规则过滤当前视频帧中的目标区域，得到当前视频帧中基于外观线索的一般前景目标区域。一般前景目标区域过滤规则包括：目标区域面积阈值和目标区域交叠阈值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取当前视频帧的光流数据，根据预设的门限值对光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域。去除与一般前景目标区域重合的运动前景区域，对剩余的运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧中基于运动线索的运动前景目标区域。运动前景目标区域过滤规则包括：运动前景区域面积阈值和运动前景区域纵横比阈值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从视频事件数据的图像数据序列中依次抽除第i个图像数据，得到第i类不完整视频事件数据。其中，图像数据序列包括D个图像数据。将得到的D类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。分别计算D类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全误差，以及被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全误差，根据外观补全误差和运动补全误差识别视频事件数据中的异常。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：计算第i类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全均方误差值。计算第i类不完整视频事件数据的被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全均方误差值。根据预设的权重值、外观补全均方误差值和运动补全均方误差值，得到第i类不完整视频事件数据的异常值。集成D类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别视频事件数据中的异常。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将预设的视频数据中的一个视频帧标记为基准视频帧，获取基准视频帧中前景目标所在的前景目标区域，从包括基准视频帧的预设长度的视频帧序列中，获取每个视频帧在前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集。从视频事件数据的图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将不完整视频事件数据输入预先设置的深度视频事件补全模型。根据被抽除的图像数据和外观补全图像数据之间的误差，以及根据被抽除的图像数据的运动信息数据和运动信息补全数据之间的误差定义误差函数，根据误差函数训练深度视频事件补全模型，得到训练好的深度视频事件补全模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取当前视频帧的外观线索信息，根据外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域。获取当前视频帧的运动线索信息，根据运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域。根据一般前景目标区域和运动前景目标区域，得到当前视频帧中前景目标所在的前景目标区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域。根据预设的一般前景目标区域过滤规则过滤当前视频帧中的目标区域，得到当前视频帧中基于外观线索的一般前景目标区域。一般前景目标区域过滤规则包括：目标区域面积阈值和目标区域交叠阈值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取当前视频帧的光流数据，根据预设的门限值对光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域。去除与一般前景目标区域重合的运动前景区域，对剩余的运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧中基于运动线索的运动前景目标区域。运动前景目标区域过滤规则包括：运动前景区域面积阈值和运动前景区域纵横比阈值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从视频事件数据的图像数据序列中依次抽除第i个图像数据，得到第i类不完整视频事件数据。其中，图像数据序列包括D个图像数据。将得到的D类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据。分别计算D类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全误差，以及被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全误差，根据外观补全误差和运动补全误差识别视频事件数据中的异常。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：计算第i类不完整视频事件数据的被抽除的图像数据和外观补全图像数据之间的外观补全均方误差值。计算第i类不完整视频事件数据的被抽除的图像数据的运动信息数据和运动信息补全数据之间的运动补全均方误差值。根据预设的权重值、外观补全均方误差值和运动补全均方误差值，得到第i类不完整视频事件数据的异常值。集成D类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别视频事件数据中的异常。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度视频事件补全的视频数据异常识别方法，其特征在于，所述方法包括：

获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在所述前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据；

从所述视频事件数据的所述图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将所述不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据；所述深度视频事件补全模型包括基于深度神经网络的外观补全网络和运动补全网络；

根据被抽除的所述图像数据和所述外观补全图像数据之间的误差，以及根据被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的误差，识别所述视频事件数据中的异常。

2.根据权利要求1所述的方法，其特征在于，获得所述预先训练的深度视频事件补全模型的方式包括：

将预设的视频数据中的一个视频帧标记为基准视频帧，获取所述基准视频帧中前景目标所在的前景目标区域，从包括所述基准视频帧的预设长度的视频帧序列中，获取每个视频帧在所述前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据，作为训练样本集；

从所述视频事件数据的所述图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将所述不完整视频事件数据输入预先设置的深度视频事件补全模型；

根据被抽除的所述图像数据和所述外观补全图像数据之间的误差，以及根据被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的误差定义误差函数，根据所述误差函数训练所述深度视频事件补全模型，得到训练好的深度视频事件补全模型。

3.根据权利要求1所述的方法，其特征在于，所述获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在所述前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据之前还包括：

获取当前视频帧的外观线索信息，根据所述外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域；

获取当前视频帧的运动线索信息，根据所述运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域；

根据所述一般前景目标区域和所述运动前景目标区域，得到当前视频帧中前景目标所在的前景目标区域。

4.根据权利要求3所述的方法，其特征在于，所述获取当前视频帧的外观线索信息，根据所述外观线索信息和预设的一般前景目标区域过滤规则，得到当前视频帧的一般前景目标区域的步骤包括：

使用预先训练的目标检测器基于外观线索获取当前视频帧中的目标区域；

根据预设的一般前景目标区域过滤规则过滤当前视频帧中的所述目标区域，得到当前视频帧中基于外观线索的一般前景目标区域；所述一般前景目标区域过滤规则包括：根据目标区域面积阈值和目标区域交叠阈值过滤当前视频帧中的所述目标区域。

5.根据权利要求3所述的方法，其特征在于，所述获取当前视频帧的运动线索信息，根据所述运动线索信息和预设的运动前景目标区域过滤规则，得到当前视频帧的运动前景目标区域的步骤包括：

获取当前视频帧的光流数据，根据预设的门限值对所述光流数据进行二值化处理，得到当前视频帧中包含显著前景运动的运动前景区域；

去除与所述一般前景目标区域重合的所述运动前景区域，对剩余的所述运动前景区域进行轮廓检测，根据预设的运动前景目标区域过滤规则过滤轮廓检测的结果，得到当前视频帧中基于运动线索的运动前景目标区域；所述运动前景目标区域过滤规则包括：根据运动前景区域面积阈值和运动前景区域纵横比阈值过滤所述轮廓检测的结果。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，从所述视频事件数据的所述图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将所述不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据的步骤包括：

从所述视频事件数据的所述图像数据序列中依次抽除第

个图像数据，得到第

类不完整视频事件数据；其中，所述图像数据序列包括

个图像数据；

将得到的

类不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据；

所述根据被抽除的所述图像数据和所述外观补全图像数据之间的误差，以及根据被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的误差，识别所述视频事件数据中异常的步骤包括：

分别计算

类不完整视频事件数据的被抽除的所述图像数据和所述外观补全图像数据之间的外观补全误差，以及被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的运动补全误差，根据所述外观补全误差和所述运动补全误差识别所述视频事件数据中的异常。

7.根据权利要求6所述的方法，其特征在于，所述分别计算

类不完整视频事件数据的被抽除的所述图像数据和所述外观补全图像数据之间的外观补全误差，以及被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的运动补全误差，根据所述外观补全误差和所述运动补全误差识别所述视频事件数据中异常的步骤包括：

计算第

类不完整视频事件数据的被抽除的所述图像数据和所述外观补全图像数据之间的外观补全均方误差值；

计算第

类不完整视频事件数据的被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的运动补全均方误差值；

根据预设的权重值、所述外观补全均方误差值和所述运动补全均方误差值，得到第

类不完整视频事件数据的异常值；

集成

类不完整视频事件数据的异常值得到对应的视频事件数据的最终异常值，根据预设的异常值门限识别所述视频事件数据中异常。

8.一种基于深度视频事件补全的视频数据异常识别装置，其特征在于，所述装置包括：

视频事件数据生成模块，用于获取当前视频帧中前景目标所在的前景目标区域，从包括当前视频帧的预设长度的视频帧序列中，获取每个视频帧在所述前景目标区域的图像数据，根据得到的图像数据序列生成视频事件数据；

深度视频事件补全模块，用于从所述视频事件数据的所述图像数据序列中抽除预设数量的图像数据，得到对应的不完整视频事件数据，将所述不完整视频事件数据输入预先训练的深度视频事件补全模型，得到对应的外观补全图像数据和运动信息补全数据；所述深度视频事件补全模型包括基于深度神经网络的外观补全网络和运动补全网络；

异常事件识别模块，用于根据被抽除的所述图像数据和所述外观补全图像数据之间的误差，以及根据被抽除的所述图像数据的运动信息数据和所述运动信息补全数据之间的误差，识别所述视频事件数据中异常。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。