CN109214253A

CN109214253A - 一种视频帧检测方法及装置

Info

Publication number: CN109214253A
Application number: CN201710552142.2A
Authority: CN
Inventors: 赵儒; 赵一儒; 刘垚; 邓兵; 黄建强; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2019-01-15
Anticipated expiration: 2037-07-07
Also published as: CN109214253B

Abstract

本申请实施例公开了一种视频帧检测方法及装置。所述方法包括：获取目标视频帧序列；利用卷积神经网络模型提取所述目标视频帧序列的视频特征数据，所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到；根据所述视频特征数据进行视频重建，生成重建视频帧序列；基于所述目标视频帧序列和所述重建视频帧序列之间的差异值，确定所述目标视频帧序列中存在异常事件。利用本申请实施例，可以提高视频帧检测的检测准确率和检测效率。

Description

一种视频帧检测方法及装置

技术领域

本申请涉及视频图像处理技术领域，特别涉及一种视频帧检测方法及装置。

背景技术

随着世界城市化的进展和汽车的普及，无论是在发展中国家还是发达国家，交通拥挤加剧、交通事故频繁、交通环境恶化等问题变得日趋严重。智能交通系统可以将先进的计算机处理技术、信息技术、数据通讯传输技术及电子自动控制技术等综合运用于交通运输管理体系中，通过对交通信息的实时采集、传输和处理，借助各种科技手段和设备，对各种交通状况进行协调和处理。

交通监控视频中的异常事件检测属于智能交通系统中的重要环节。随着人工智能技术的快速发展，现有技术中，可以利用深度学习对历史交通监控视频进行学习，具体的做法是，获取大量的训练视频数据，其中包括正样本和负样本，正样本是指训练视频数据中包括交通异常事件，负样本是指训练视频数据中不包括交通异常事件。利用深度学习方式对所述正样本和负样本进行训练学习，生成视频分类模型。在训练生成视频分类模型之后，可以将具有一定时长的视频片段输入至所述视频分类模型中，所述视频分类模型可以识别出输入视频片段中是否包括交通异常事件。

现有技术中利用深度学习方式生成视频分类模型的方法在实施时具有以下缺点：

(1)在深度学习的训练过程，需要对正样本和负样本进行人工标注，即标注训练视频数据中是否包含交通异常事件，由于参与训练的视频数据数量较多，因此人工成本较高；

(2)在真实的应用场景中，交通异常事件占日常交通中的比例很小。这样，不仅增加获取包含交通异常事件视频数据的难度，并且，由于正样本和负样本的分布不平衡，对于视频分类模型的训练具有较大的影响；

(3)交通异常事件的分类较多，不同类别的交通异常事件的差异较大，因此，很难总结出交通异常事件的“共性”，不利于对视频分类模型的训练。

发明内容

本申请实施例的目的在于提供一种视频帧检测方法及装置，可以提高视频帧检测的检测准确率和检测效率。

本申请实施例提供的视频帧检测方法及装置具体是这样实现的：

一种视频帧检测方法，所述方法包括：

获取目标视频帧序列；

利用卷积神经网络模型提取所述目标视频帧序列的视频特征数据，所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到；

根据所述视频特征数据进行视频重建，生成重建视频帧序列；

基于所述目标视频帧序列和所述重建视频帧序列之间的差异值，确定所述目标视频帧序列中存在异常事件。

一种卷积神经网络模型构建方法，所述方法包括：

1)利用卷积神经网络模型分别提取多个基准历史视频帧序列的视频特征数据，并根据所述视频特征数据进行视频重建，生成重建视频帧序列；

2)计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值；

3)重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值。

一种卷积神经网络模型构建方法，所述方法包括：

3)利用所述卷积神经网络模型分别预测所述多个基准历史视频帧序列的预测视频帧序列

4)计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值；

5)重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值。

一种视频检测装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取目标视频帧序列；

一种卷积神经网络模型构建装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

本申请提供的视频帧检测方法及装置，可以利用卷积神经网络模型对目标视频帧序列进行异常事件检测，检测所述目标视频帧序列中是否存在异常事件。其中所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行无监督训练学习得到，利用所述卷积伸进网络模型进行异常事件检测，具有下述优势：

(1)训练所述卷积神经网络模型时所使用的数据源为不包括异常事件的基准历史视频帧序列。由于现实情况中异常事件的发生概率较低，因此，获取不包括异常事件的历史视频数据比获取包含异常事件的历史视频数据相对比较容易；

(2)不包括异常事件的基准历史视频帧序列，即“正常”基准历史视频帧序列的规律性比较强，因此，利用所述卷积神经网络模型可以很好地提取“正常”基准历史视频帧序列的特征数据，提升所述卷积神经网络模型的识别精度；

(3)对历史视频数据进行无监督学习，节省现有技术中对训练数据进行人工打标的过程，降低数据训练成本，提高数据训练效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是应用场景中一段交通视频中的视频帧序列；

图2是应用场景中视频帧编号和误差值之间的曲线关系图；

图3是应用场景中发生交通事故时的一个视频帧画面；

图4是应用场景中对上述视频帧的重建视频帧画面；

图5是应用场景中视频帧和重建视频帧的重建差异值分布图；

图6是本申请提供的视频帧检测方法的一种实施例的方法流程图；

图7是本申请实施例适用的三维卷积神经网络模型示意图；

图8是本申请提供的视频帧检测装置的一种实施例的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

由上述可知，现有技术中在对历史交通视频进行深度学习的过程中，需要构建正样本和负样本，且需要对正样本和负样本进行人工标注。一般情况下，如果要获取精确的视频分类模型，则需要大量的正样本和负样本进行深度学习。这样，一方面，该方式需要耗费较高的人工成本进行样本标注；另一方面，由于正常交通期间，发生异常事件的情况极少，因此，获取足够多的负样本相对比较困难。如果在训练过程中，出现正样本的数量远远大于负样本的数量，将导致视频分类模型的不准确。如果利用这样的视频分类模型对实际交通视频进行异常事件监测，即判断该交通视频中是否存在异常事件，则很有可能导致判断不准确的事件发生。例如，在发生交通事故的情况下，但检测结果却是无异常事件发生，进而导致不能快速处理交通事故，及时疏通交通拥堵，交通异常处理效率较低。或者，在交通正常的情况下，但检测结果却是发生异常事件，进而导致事故检查人员的人力资源的浪费。

基于类似于上文描述的技术需求，本申请提供的视频帧检测方法可以构建三维卷积神经网络模型，提供对未发生异常事件的历史交通视频进行深度学习以调整所述三维卷积神经网络模型的模型参数。整个深度学习的过程为无监督学习的过程，不需要进行人工标注等工作。

下面通过一个具体的应用场景说明本实施例方法的具体实施方式。

首先，获取多个交通监控视频数据，并从所述多个交通监控视频数据中提取出多个基准历史视频帧序列，所述基准历史视频帧序列中不包括异常交通事件，即所述基准历史视频帧序列中可以包括路面上车辆、行人等目标物正常活动的画面。另一方面，还可以构建三维卷积神经网络模型，所述三维卷积神经网络模型中可以包括模型参数，所述模型参数例如可以包括模型中的三维卷积核的权重值等。

利用所述多个基准历史视频帧序列不断地训练所述三维卷积神经网络模型。具体地，可以利用所述三维卷积神经网络模型分别提取出所述基准历史视频帧序列的特征数据。然后，可以利用所述特征数据进行视频帧序列的重建，生成重建视频帧序列。在理想情况下，重建得到的重建视频帧序列与所述基准历史视频帧序列相同，但是，三维卷积神经网络模型的特征提取准确性难以达到100％，因此，两者之间存在误差。计算所述重建视频帧序列与所述基准历史视频帧序列之间的误差，当所述误差大于预设阈值时，可以调整所述三维卷积神经网络模型的模型参数。逐个使用所述多个基准历史视频帧序列对所述三维卷积神经网络模型的模型参数进行调整，直至重建视频帧序列与基准历史视频帧序列之间的误差不大于预设阈值。

在训练完成所述三维卷积神经网络模型之后，可以利用所述三维卷积神经网络模型对交通监控视频进行实时检测，以发现视频中的异常事件。图1是2017年7月1日10:00到10：23之间杭州市某交叉路口的一段路面监控视频，该视频共有4500个视频帧。在本场景中，可以利用上述训练好的三维卷积神经网络模型对该路面监控视频进行检测，查看该杭州市的交叉路口在2017年7月1日10:00到10：23之间是否发生交通异常事件。具体地，如图1所示，可以设置一滑动窗口，该滑动窗口的宽度为10帧，即每次对10帧的视频帧序列进行检测。如果设置该路面监控视频中视频帧编号为1-4500，滑动窗口的步长为3，则第一次检测视频帧序列为1-10，第二次为4-13，第三次为7-16，依次类推，直至完成整个路面监控视频的异常事件检测。如果检测结果为视频帧序列和重建视频帧序列之间的重建差异值，则依次对所述路面监控视频中的视频帧进行检测之后，可以生成如图2所示的分别以视频帧编号和误差值之间的曲线关系图。

如图2所示的曲线关系图，横坐标为路面监控视频的视频帧编号，纵坐标为视频帧序列和重建视频帧序列之间的误差值。由于所述三维卷积神经网络模型根据基准历史视频帧序列训练得到，则当视频帧序列和重建视频帧序列之间的误差值越大时，可以确定视频帧序列越“偏离”常规视频帧序列，即当前视频帧序列发生异常事件的概率越大。如图2中的方框中的曲线所示，从第1150个视频帧左右开始，误差值急剧增大，若设置当误差值大于40％时，确定发生异常事件。而图2所示的方框中的曲线的误差值的平均值已大于40％，则可以确定从第1150个视频帧到第4200个视频帧的这段时间内，该交叉路口发生了交通异常事件。

检测人员在接收到异常事件提醒警报之后，调用该交叉路口的监控录像发现，在2017年7月1日10:05到10：23的时间段之间，在该交叉路口的确发生交通事故，一辆银色汽车和一辆黑色汽车相撞，导致两辆车均长时间停留在交叉路口处。图3是发生交通事故时的一个视频帧，图4是对该视频帧的重建视频帧，图5是该视频帧和重建视频帧的重建差异值分布图。通过图5发现，两辆车附近的区域(即图3-5中椭圆形区域)的重建差异值值高于视频帧中其他区域的重建差异值值。这是因为：在正常的交通中，车辆、行人都是在以一定速度前行的，而视频中椭圆形区域内的车辆行人均长时间停留在原地不动，导致重建差异值相对较高。因此，提供本申请提供的三维卷积神经网络模型，可以准确地检测出视频帧序列中的异常事件。

当然，需要说明的是，本申请的视频帧检测方法不限于应用于交通视频的检测，还可以应用于商场、银行、车站等人流量较多的公共场所的异常事件检测工作中。

下面结合附图对本申请所述的视频帧检测方法进行详细的说明。图6是本申请提供的视频帧检测方法的一种实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的视频帧检测过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

图6是本申请提供的视频帧检测方法的一种实施例的方法流程图，如图6所述，所述方法可以包括以下步骤：

S601：获取目标视频帧序列。

本实施例中，所述目标视频帧序列可以包括由预设数量连续的视频帧组成的序列，例如所述预设数量可以为10帧、16帧、20帧等等。具体在选取所述目标视频帧序列的过程中，可以设置预设宽度的提取窗口，通过所述提取窗口从时长较长的视频数据中提取目标视频帧序列，例如从8小时时长的视频数据中提取出20帧的目标视频帧序列。

S603：利用卷积神经网络模型提取所述目标视频帧序列的视频特征数据，所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到。

本实施例中，可以利用深度学习中的卷积神经网络算法对多个基准历史视频帧序列进行训练学习。其中，所述基准历史视频帧序列可以包括未发生异常事件的视频帧序列，即不发生异常事件时的“正常”视频数据。因此，可以利用卷积神经网络对“正常”视频数据进行深度学习，获取“正常”视频数据的特征数据，进而提高异常事件检测的准确率。

在本申请的一个实施例中，所述卷积神经网络模型可以包括三维卷积神经网络模型。三维卷积神经网络是多层的神经网络，是在二维卷积神经网络模型的基础之上增加了时间维度。在三维卷积神经网络中，使用所有通道中的每个卷积层上的三维卷积核(3Dfilter)对输入的数据进行卷积操作，从而得到多组特征信息(比如对于图像识别来说，该特征信息可以是特征图)，该多组特征信息被输出到下一层采样层，作为采样层上的输入数据，数据经过下采样之后，再次得到多组特征信息，并将该特征信息输出到下一层卷积层中，重复进行处理，经过若干个处理过程最终由输出层输出结果。

本申请实施例使用的三维卷积神经网络模型，包含多个通道，且按照正向传递过程依次包含第一组至第N组卷积-采样层，每组卷积-采样层中按照正向传递过程包含一个卷积层和一个采样层，第N-1组卷积-采样层中的采样层与第N组卷积-采样层中的卷积层全连接，N>1。从而使第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第N组卷积-采样层中的采样层进行采样处理。由于第N组卷积-采样层中的卷积层上的每个卷积核对第N-1组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，从而可通过这些特征更好地描述正常交通时的路面状况，进而提高异常事件的检测的准确率。

图7是本申请实施例适用的三维卷积神经网络模型，包含两个通道，且从输入层至输出层依次包含第一组至第三组卷积-采样层，每组卷积-采样层中包含一个卷积层和一个采样层，每一层的输入均与前一层的输出相连接。第三组卷积-采样层中卷积层与第二组卷积-采样层中的采样层全连接。从而使第三组卷积-采样层中的卷积层上的每个卷积核对第二组卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，并将通过卷积所得到的特征图信息输出给第三组卷积-采样层中的采样层进行采样处理。

本发明实施例基于图1中所示的两个通道、三组卷积-采样层进行介绍，本领域技术人员可知，通道数量可增加、卷积-采样层的数量也可增加，本申请实施例不做限制。

基于上述三位卷积神经网络的基本工作方式，本申请实施例提出一种适用的三维卷积神经网络模型的构建方法。具体地，所述获取三维卷积神经网络模型可以包括：

本实施例中，可以首先构建三维卷积神经网络，所述三维卷积神经网络中包括模型参数。所述模型参数可以包括三维卷积核的权重值，所述三维卷积神经网络中可以包括多个三维卷积核，卷积核的数量与网络中的通道数量、卷积-采样层的数量相关。本实施例中，还可以获取多个基准历史视频帧序列，所述基准历史视频帧序列中不包括异常事件。以交通视频举例说明，所述基准历史视频帧序列中不包括交通事故等异常事件。由此可见，不包括异常事件的历史视频数据相对于包括异常事件的历史视频数据更容易获取。在正常交通情况下，车辆行驶具有较强的规律性，相应地，不包括异常事件的基准历史视频帧序列中更加容易训练得到特征数据。

在获取到所述基准历史视频帧序列之后，可以利用所述三维卷积神经网络模型对所述历史视频序列进行特征提取，获取所述基准历史视频帧序列的视频特征数据。在获取所述基准历史视频帧序列的视频特征数据之后，还可以对所述视频特征数据进行视频重建，生成重建视频帧序列。在视频重建过程中，可以按照图7所示的数据流向的逆向过程进行重建，进而获取与输入的基准历史视频帧序列相同帧数、相同像素值的视频帧序列。

在理想情况下，当所述三维卷积神经网络的精确度为100％时，重建得到的重建视频帧序列与输入的基准历史视频帧序列是相同的。但是，神经网络的精确度难以达到100％，因此，本实施例中，可以计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值。本实施例中，可以设置预设阈值，并判断所述重建差异值是否大于预设阈值。当判断结果为所述重建差异值大于所述预设阈值时，可以认为此时的三维卷积神经网络模型还未能达到准确度要求。当所述三维卷积神经网络模型不能达到准确度要求时，可以对所述三维卷积神经网络模型的模型参数进行调整。具体地，可以利用反向传递的方式对所述模型参数进行调整，由上述可知，由于最后一层卷积-采样层中的采样层的所有通道的所有特征图的数据进行卷积，从而可提取更具有表达能力的特征，因此，从最后一层开始，依次向前调整每一层的模型参数，调整后的模型的准确性可以得到显著提高。最后，重复上述步骤3)、4)和5)，直至所述重建差异值不大于所述预设阈值，此时，可以确定所述三维卷积神经网络的精度满足预设要求。

需要说明的是，在一个实施例中，在计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值时，可以分别计算所述基准历史视频帧序列和所述重建视频帧序列对应视频帧之间的欧式距离。例如，所述基准历史视频帧序列和所述重建视频帧序列均是16帧的视频序列，在计算所述重建差异值的过程中，可以计算所述视频帧序列的第一帧和所述重建视频帧序列的第一帧之间的欧式距离，依次类推，第二帧与第二帧之间的欧式距离，直至计算得到16帧视频帧之间的欧式距离。然后，可以根据所述欧式距离计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值。具体地，在一种实施例中，所述重建差异值可以包括所有视频帧之间的欧氏距离的和值。在另一种实施例中，所述重建差异值可以包括所有视频帧之间的欧式距离的平均值。对于重建差异值的计算方式，本申请在此不做限制。

在本申请的另一个实施例中，还可以通过另一种方式训练三维卷积神经网络模型，具体地，所述获取三维卷积神经网络模型可以包括：

本实施例中步骤1)、2)的实施方式与上一实施例的步骤1)、2)的实施方式相同，在此不再赘述。所述下一组基准历史视频帧序列可以包括与所述历史视频序列具有相同帧数的与所述历史视频序列相邻的视频帧序列。例如，一段视频数据包括200帧视频帧，视频帧的编号为1-200，如果所述基准历史视频帧序列为1-10，则所述基准历史视频帧序列的下一组基准历史视频帧序列为11-20。本实施例中，还可以利用所述三维卷积神经网络模型分别预测所述多个基准历史视频帧序列的预测视频帧序列，即通过所述三维卷积神经网络模型预测所述基准历史视频帧序列的下一组视频帧序列。所述预测视频帧序列与所述下一组基准历史视频帧序列相对应，理想情况下，所述预测视频帧序列与所述下一组基准历史视频帧序列相同。但是，所述三维卷积神经网络的预测准确率一般不可能达到100％，因此，所述预测视频帧序列与所述下一组基准历史视频帧序列之间存在差异。利用与上述实施例计算所述重建差异值相同的方式计算所述预测视频帧序列与所述下一组基准历史视频帧序列之间的预测差异值。

在现实生活中，无论是在监控的路面交通中，还是商场、车站等公共场所的日常活动中，对于同一监控摄像设备拍摄的视频数据中，总是有不同的目标物(如车辆、行人)从视频画面中“出去”，又有新的目标物“走进”视频画面中。而所述三维卷积神经网络模型可以预测到当前视频序列中目标物的正常活动，如目标车辆的正常活动路线是在预设时间段内行驶进视频画面中，又行驶出视频画面；目标行人的正常活动路线是在预设时间段内走进视频画面，又走出视频画面。但是，所述三维卷积神经网络模型很难预测到视频画面中在下一时间段内出现的目标物。因此，预测得到的所述预测视频帧序列相对于所述基准历史视频帧序列，不存在新的目标物。而基于真实场景的所述下一组基准历史视频帧序列中可以出现新的目标物。例如，基准历史视频帧序列中有两个目标物，一辆白车和一辆红车，那么，所述预测视频帧序列只能预测到所述白车和红车的运动路线。但是在真实场景中，所述下一组基准历史视频帧序列中出现了一辆蓝车，可是所述预测视频序列难以预测到蓝车的出现。

基于此，计算得到的所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值往往具有较大误差，但是误差中的不可预测部分无法通过训练而改变的。由上述可知，在计算两个视频帧序列之间的误差的过程中，可以逐帧计算对应的两个视频帧之间的欧式距离，再根据所述欧式距离计算两个视频帧序列时间的误差。在本申请实施例中，可以赋予不同的视频帧之间的欧式距离不同的权重值。具体地，在本申请的一个实施例中，所述计算所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值可以包括：

SS1：分别计算所述基准历史视频帧序列的下一组基准历史视频帧序列和所述预测视频帧序列对应视频帧之间的欧式距离；

SS3：设置所述欧式距离的权重值，所述权重值的大小被设置为按照视频帧时间上由先至后的顺序依次递减；

SS5：根据所述欧式距离和所述欧式距离的权重值确定所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值。

本实施例中，可以首先分别计算所述下一组基准历史视频帧序列和所述预测视频帧序列对应视频帧之间的欧式距离。可以发现，所述预测视频帧序列中时间比较靠前的视频帧比较接近于基于真实场景的下一组基准历史视频帧序列，这是因为即使有新的目标物出现于所述下一组基准历史视频帧序列，往往也是在所述下一组基准历史视频帧序列的时间比较靠后的视频帧中出现。因此，可以设置上述计算得到的欧式距离的权重值，所述权重值的大小按照视频帧时间上由先至后的顺序依次递减。最后，再根据所述欧式距离和所述欧式距离的权重值确定所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值。在一个实施例中，所述预测差异值的表达式可以包括：

其中，T为所述下一组基准历史视频帧序列的帧数，所述预测视频帧序列与所述下一组基准历史视频帧序列具有相同帧数，t为视频帧的编号，t的范围为1-T，X_t为所述下一组基准历史视频帧序列中的第t帧，f(X)_t为所述预测视频帧序列的第t帧，||X_t-f(X)_t||为所述下一组基准历史视频帧序列中的第t帧与所述预测视频帧序列的第t帧之间的欧式距离。

通过上式可以发现，视频帧之间的欧式距离的权重值为(T-t)/T²，当t逐渐增大时，欧式距离的权重值逐渐减小。此时，时间越靠前的视频帧之间的欧式距离的重要性越高，时间越靠后的视频帧之间的欧式距离的重要性越低，这样，可以有效降低实际场景中新的目标物出现在下一组基准历史视频帧序列中而造成的干扰，真实地反映所述三维卷积神经网络模型的性能。

在计算得到所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值之后，可以利用所述重建差异值和所述预测差异值联合确定所述三维卷积神经网络模型的当前性能。具体地，当所述重建差异值与所述预测差异值的和大于所述预设阈值时，调整所述模型参数。具体调整所述模型参数的方式可以参考上述实施方式，本实施例在此不做限制。重复步骤1)至4)，直至所述重建差异值与所述预测差异值的和不大于所述预设阈值，此时，可以确定所述三维卷积神经网络的精度满足预设要求。

S605：根据所述视频特征数据进行视频重建，生成重建视频帧序列。

S607：基于所述目标视频帧序列和所述重建视频帧序列之间的差异值，确定所述目标视频帧序列中存在异常事件。

本实施例中，可以利用训练得到所述三维卷积神经网络模型提取所述目标视频帧序列的视频特征数据，并根据所述视频特征数据进行视频重建，生成重建视频帧序列。然后，计算所述目标视频帧序列和所述重建视频帧序列之间的重建差异值。具体的重建方式和重建差异值计算方式可以参考上述实施例，在此不再赘述。当所述重建差异值大于预设阈值时，可以确定所述目标视频帧序列中存在异常事件。

本申请提供的视频帧检测方法，可以利用卷积神经网络模型对目标视频帧序列进行异常事件检测，检测所述目标视频帧序列中是否存在异常事件。其中所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行无监督训练学习得到，利用所述卷积伸进网络模型进行异常事件检测，具有下述优势：

本申请另一方面还提供一种卷积神经网络模型构建方法，所述方法可以包括：

可选的，在本申请的一个实施例中，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值可以包括：

判断所述重建差异值是否大于预设阈值；

若判断结果为是，则调整所述卷积神经网络模型的模型参数；

重复步骤1)和2)，直至所述重建差异值不大于预设阈值。

可选的，在本申请的一个实施例中，所述计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值可以包括：

分别计算所述基准历史视频帧序列和所述重建视频帧序列对应视频帧之间的欧式距离；

根据所述欧式距离确定所述历史视频序列和所述重建视频帧序列之间的重建差异值。

本申请另一方面还提供所述卷积神经网络模型构建方法的另一种实施例，所述方法可以包括：

可选的，在本申请的一个实施例中，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值可以包括：

判断所述重建差异值与所述预测差异值的和值是否大于预设阈值；

重复步骤1)至4)，直至所述重建差异值与所述预测差异值的和值不大于预设阈值。

可选的，在本申请的一个实施例中，所述计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值可以包括：

分别计算所述基准历史视频帧序列的下一组基准历史视频帧序列和所述预测视频帧序列对应视频帧之间的欧式距离；

设置所述欧式距离的权重值，所述权重值的大小被设置为按照视频帧时间上由先至后的顺序依次递减；

根据所述欧式距离和所述欧式距离的权重值确定所述下一组基准历史视频帧序列和所述预测视频帧序列之间的预测差异值。

对应于上述实施例方法，如图8所示，本申请还提供一种视频检测装置，可以包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

获取目标视频帧序列；

可选的，在本申请的一个实施例中，所述处理器在实现步骤卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到时可以包括：

可选的，在本申请的一个实施例中，所述处理器在实现步骤重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值时可以包括：

判断所述重建差异值是否大于预设阈值；

重复步骤1)和2)，直至所述重建差异值不大于预设阈值。

可选的，在本申请的一个实施例中，所述处理器在实现步骤重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值可以包括：

可选的，在本申请的一个实施例中，所述处理器在实现步骤计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值可以包括：

可选的，在本申请的一个实施例中，所述处理器在实现步骤计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值时可以包括：

可选的，在本申请的一个实施例中，所述处理器在实现步骤确定所述目标视频帧序列中存在异常事件之后，还实现：

发送警报消息，所述警报消息中可以包括所述异常事件的发生地点和发生时间。

对应于上述卷积神经网络模型构建方法，本申请还提供一种卷积神经网络模型构建装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

本申请还提供卷积神经网络模型构建装置的另一种实施例，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时可以实现：

尽管本申请内容中提到实施例中的无监督训练学习、重建视频帧序列、预测视频帧序列、计算欧式距离等之类的数据学习、处理描述，但是，本申请并不局限于必须是完全符合行业编程语言设计标准或实施例所描述的数据反馈、处理的情况。在某些实施例描述的基础上略加修改后的实施方案也可以实行上述实施例相同、等同或相近、或变形后可预料的实施效果。当然，即使不采用上数据处理、判断的方式，只要符合本申请上述各实施例的数据学习、处理方式，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频帧检测方法，其特征在于，所述方法包括：

获取目标视频帧序列；

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到包括：

3.根据权利要求2所述的方法，其特征在于，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值包括：

判断所述重建差异值是否大于预设阈值；

重复步骤1)和2)，直至所述重建差异值不大于所述预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到包括：

3)利用所述卷积神经网络模型分别预测所述多个基准历史视频帧序列的预测视频帧序列；

5.根据权利要求4所述的方法，其特征在于，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值包括：

6.根据权利要求2或4所述的方法，其特征在于，所述计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值包括：

7.根据权利要求4所述的方法，其特征在于，所述计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值包括：

8.根据权利要求1所述的方法，其特征在于，在确定所述目标视频帧序列中存在异常事件之后，所述方法包括：

发送警报消息，所述警报消息中包括所述异常事件的发生地点和发生时间。

9.一种卷积神经网络模型构建方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值包括：

判断所述重建差异值是否大于预设阈值；

重复步骤1)和2)，直至所述重建差异值不大于预设阈值。

11.根据权利要求9所述的方法，其特征在于，所述计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值包括：

12.一种卷积神经网络模型构建方法，其特征在于，所述方法包括：

13.根据权利要求12所述的方法，其特征在于，所述重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值包括：

14.根据权利要求12所述的方法，其特征在于，所述计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值包括：

15.根据权利要求12所述的方法，其特征在于，所述计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值包括：

16.一种视频检测装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

获取目标视频帧序列；

17.根据权利要求16所述的装置，其特征在于，所述处理器在实现步骤卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到时包括：

18.根据权利要求17所述的装置，其特征在于，所述处理器在实现步骤重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值不大于预设阈值时包括：

判断所述重建差异值是否大于预设阈值；

重复步骤1)和2)，直至所述重建差异值不大于预设阈值。

19.根据权利要求16所述的装置，其特征在于，所述处理器在实现步骤卷积神经网络模型被设置为根据多个基准历史视频帧序列进行学习得到时包括：

20.根据权利要求19所述的装置，其特征在于，所述处理器在实现步骤重复调整所述卷积神经网络模型的模型参数，直至所述重建差异值与所述预测差异值的和值不大于预设阈值包括：

21.根据权利要求17或19所述的装置，其特征在于，所述处理器在实现步骤计算所述基准历史视频帧序列和所述重建视频帧序列之间的重建差异值包括：

22.根据权利要求19所述的装置，其特征在于，所述处理器在实现步骤计算所述基准历史视频帧序列的下一组基准历史视频帧序列与所述预测视频帧序列之间的预测差异值时包括：

23.根据权利要求16所述的装置，其特征在于，所述处理器在实现步骤确定所述目标视频帧序列中存在异常事件之后，还实现：

24.一种卷积神经网络模型构建装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

25.一种卷积神经网络模型构建装置，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：