CN117079079B

CN117079079B - 视频异常检测模型的训练方法、视频异常检测方法及系统

Info

Publication number: CN117079079B
Application number: CN202311256773.1A
Authority: CN
Inventors: 胡金晖; 张力元; 阮威健; 屈玉涛; 袁明冬; 蔡少仲; 刘博�; 蔡俊勋
Original assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Current assignee: Smart City Research Institute Of China Electronics Technology Group Corp
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-15
Anticipated expiration: 2043-09-27
Also published as: CN117079079A

Abstract

本申请适用于信息处理技术领域，提供了一种视频异常检测模型的训练方法、视频异常检测方法及系统。上述训练方法通过获取训练集；基于训练集对视频异常检测模型进行训练，直至视频异常检测模型收敛；通过在添加伪装异常事件使伪装异常事件不包含真实异常事件，可以避免模型在训练时将同类的真实异常事件所强关联的场景特征纳入学习，以及通过双处理流分别提取外观特征和运动特征，可以将处于前景的目标与场景进行分割，在训练阶段实现了场景迁移，使模型具有良好的跨场景检测能力；且通过添加伪装异常事件生成伪装异常视频，可以克服真实异常视频采集难度高的问题，在提高模型的训练效率的同时提高模型的检测准确性。

Description

视频异常检测模型的训练方法、视频异常检测方法及系统

技术领域

本申请属于信息处理技术领域，尤其涉及一种视频异常检测模型的训练方法、视频异常检测方法及系统。

背景技术

随着视频技术的快速普及，在各个领域得到广泛应用，例如平安城市、道路交通、企业/小区安防、金融财保等，自动识别视频中的异常事件变得越来越重要，通过智能的异常视频检测可以有效节省人力资源，提高异常检测效率。

目前，传统的视频异常检测模型是将正常视频和异常视频作为训练样本，根据训练样本进行全监督训练。然而在真实场景中，异常视频的数量有限，且异常视频所涵盖的异常事件有限，容易导致训练得到的视频异常检测模型的检测准确性低。因此，如何提高视频异常检测模型的检测准确性成为当前亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种视频异常检测模型的训练方法，以解决现有的视频异常检测模型的检测准确性差的问题。

本申请实施例的第一方面提供了一种视频异常检测模型的训练方法，包括：

获取训练集，所述训练集包括多个第一正常视频和多个伪装异常视频，所述伪装异常视频由对应的第二正常视频添加伪装异常噪音得到；

基于所述多个第一正常视频和多个伪装异常视频对所述视频异常检测模型进行训练，直至所述视频异常检测模型收敛；

其中，在训练过程中，若所述视频异常检测模型的输入数据为第一正常视频，对应的输出数据为相应第一正常视频中的正常事件和预测异常事件；若所述视频异常检测模型的输入数据为伪装异常视频，对应的输出数据为相应伪装异常视频中的正常事件和预测异常事件；所述视频异常检测模型根据事件类型的判断误差进行优化；

所述视频异常检测模型包括外观检测网络和运动检测网络，所述外观检测网络用于提取所述第一正常视频的外观特征和所述伪装异常视频的外观特征，所述运动检测网络用于提取所述第一正常视频的运动特征和所述伪装异常视频的运动特征，第一正常视频所含事件的事件类型根据所述第一正常视频的外观特征和所述第一正常视频的运动特征确定，伪装异常视频所含事件的事件类型根据所述伪装异常视频的外观特征和所述伪装异常视频的运动特征确定。

本申请实施例的第一方面提供一种视频异常检测模型的训练方法，通过获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到；基于多个第一正常视频和多个伪装异常视频对视频异常检测模型进行训练，直至视频异常检测模型收敛；通过在添加伪装异常事件使伪装异常事件不包含真实异常事件，可以避免模型在训练时将同类的真实异常事件所强关联的场景特征纳入学习，以及通过双处理流分别提取外观特征和运动特征，可以将处于前景的目标与场景进行分割，在训练阶段实现了场景迁移，使模型具有良好的跨场景检测能力；且通过添加伪装异常事件生成伪装异常视频，可以克服真实异常视频采集难度高的问题，可以在提高模型的训练效率的同时提高模型的检测准确性。

本申请实施例的第二方面提供一种视频异常检测方法，包括：

获取待测视频；

将所述待测视频输入视频异常检测模型，确定所述待测视频中所有目标的事件类型；

其中，所述视频异常检测模型为本申请实施例第一方面提供的所述视频异常检测模型的训练方法中的视频异常检测模型，所述目标为所述待测视频中的任一前景对象。

本申请实施例的第二方面提供一种视频异常检测方法，通过视频异常检测模型判断待测视频中所有目标的事件类型，可以淡化场景和背景对异常检测的影响，具有兼容性强、检测准确性高的优点。

本申请实施例的第三方面提供了一种视频异常检测系统，包括摄像设备和如本申请实施例第三方面提供的处理设备，所述摄像设备和所述处理设备连接；

所述摄像设备用于获取待测视频；

所述处理设备用于将所述待测视频输入视频异常检测模型，确定所述待测视频中所有目标的事件类型；

其中，所述视频异常检测模型为本申请实施例第二方面提供的所述视频异常检测方法中的视频异常检测模型，所述目标为所述待测视频中的任一前景对象。

可以理解的是，上述第三方面的有益效果可以参见上述第二方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频异常检测模型的训练方法的第一种流程示意图；

图2是本申请实施例提供的在第二正常视频上添加伪装异常噪音得到伪装异常视频的场景示意图；

图3是本申请实施例提供的视频异常检测模型的训练方法的第二种流程示意图；

图4是本申请实施例提供的视频异常检测模型的第一种架构示意图；

图5是本申请实施例提供的视频异常检测模型的第二种架构示意图；

图6是本申请实施例提供的视频异常检测模型的训练方法的第三种流程示意图；

图7是本申请实施例提供的视频异常检测方法的一种流程示意图；

图8是本申请实施例提供的处理设备的一种结构示意图；

图9是本申请实施例提供的视频异常检测系统的一种结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在应用中，目前，传统的视频异常检测模型是将正常视频和异常视频作为训练样本，根据训练样本进行全监督训练。然而在真实场景中，异常视频的数量有限，且异常视频所涵盖的异常事件有限，容易导致训练得到的视频异常检测模型的检测准确性低。因此，如何提高视频异常检测模型的检测准确性成为当前亟需解决的问题。

针对上述技术问题，本申请实施例提供一种视频异常检测模型的训练方法，通过获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到；基于多个第一正常视频和多个伪装异常视频对视频异常检测模型进行训练，直至视频异常检测模型收敛；通过在添加伪装异常事件使伪装异常事件不包含真实异常事件，可以避免模型在训练时将同类的真实异常事件所强关联的场景特征纳入学习，以及通过双处理流分别提取外观特征和运动特征，可以将处于前景的目标与场景进行分割，在训练阶段实现了场景迁移，使模型具有良好的跨场景检测能力；且通过添加伪装异常事件生成伪装异常视频，可以克服真实异常视频采集难度高的问题，可以在提高模型的训练效率的同时提高模型的检测准确性。

本申请实施例提供的视频异常检测模型的训练方法可以应用于服务器或终端设备。终端设备可以是手机、平板电脑、可穿戴设备、车载设备、增强现实（AugmentedReality，AR）/虚拟现实（Virtual Reality，VR）设备、笔记本电脑、超级移动个人计算机（Ultra-Mobile Personal Computer，UMPC）、上网本、个人数字助理（Personal DigitalAssistant，PDA）等。本申请实施例对终端设备的具体类型不作任何限制。

如图1所示，本申请实施例提供的视频异常检测模型的训练方法，包括如下步骤S101和步骤S102：

步骤S101、获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到。

在应用中，在生成训练集时，可以先采集正常视频，再根据伪装异常视频在全部视频中的预设比例划分第一正常视频和第二正常视频，第一正常视频可以直接投入训练，第二正常视频可以通过添加伪装异常噪音以得到伪装异常视频。其中，采集的正常视频的数量以及伪装异常视频在全部视频中的预设比例可以根据实际训练需要进行设置，例如，采集的正常视频的数量可以是500个、1000个或2000个等，预设比例可以是30%、40%、50%、60%或70%等，本申请实施例对采集的正常视频的具体数量和预设比例的具体数值不作任何限制。

在应用中，通过添加伪装异常噪音可以相应伪装异常视频在生成伪装异常事件，可以将伪装异常事件区别于真实异常事件，例如，以视频异常检测模型（下面称为模型）运用于高速道路的异常检测为例，假设真实异常事件包括人、自行车、摩托车及电动车，则伪装异常事件可以包括飞机、船舶、猪、牛等。通过控制伪装异常事件不包含真实异常事件，可以避免模型在训练时将同类的真实异常事件所强关联的场景特征（例如自行车、摩托车及电动车在高速道路上出现时较大概率在应急车道行驶，则相应的场景特征为应急车道）纳入学习，从而提高模型在不同场景下对异常事件的捕捉能力，并淡化场景对异常检测的影响。

图2示例性的示出了在第二正常视频20上添加伪装异常噪音10（飞机）得到伪装异常视频30的场景示意图。

步骤S102、基于多个第一正常视频和多个伪装异常视频对视频异常检测模型进行训练，直至视频异常检测模型收敛；

其中，在训练过程中，若视频异常检测模型的输入数据为第一正常视频，对应的输出数据为相应第一正常视频中的正常事件和预测异常事件；若视频异常检测模型的输入数据为伪装异常视频，对应的输出数据为相应伪装异常视频中的正常事件和预测异常事件；视频异常检测模型根据事件类型的判断误差进行优化。

在应用中，下面以伪装异常视频作为输入数据为例，对模型的工作原理进行说明，模型可以识别伪装异常视频中所包含的所有目标，目标是伪装异常视频中的前景对象（参照图2中的伪装异常视频30，伪装异常视频30中的背景可以包括云、太阳及大地，前景对象可以包括树和飞机），并判断每一个目标的事件类型，事件类型可以包括正常事件和预测异常事件。

在应用中，以第一正常视频作为输入数据时模型的工作原理，可以参照上述与上述以伪装异常视频作为输入数据时模型的工作原理，在此不再赘述。区别在于判断误差的获取方法，下面进行说明：以第一正常视频作为输入数据时，由于第一正常视频未包含预测异常事件，因此可以根据模型输出的第一正常视频中的预测异常事件获取判断误差；以伪装异常视频作为输入数据时，由于伪装异常视频具有预先添加且已知的伪装异常事件，可以将伪装异常事件与伪装异常视频中所有目标的事件类型进行比对，以获取判断误差（参照图2中的伪装异常视频30，若树被模型判断为正常事件，则针对树的判断正确；若飞机被模型判断为正常事件，则针对飞机的判断错误，伪装异常视频30中飞机存在判断误差）。

在应用中，模型可以由卷积神经网络（Convolutional Neural Networks，CNN）和二值神经网络（Binary Neural Network，BNN）等网络架构组合搭建。具体的，CNN可以用于提取视频中的目标特征，BNN可以基于目标特征判断相应目标的事件类型。模型的具体网络架构可以根据实际需要进行配置，本申请实施例对模型的具体网络架构不作任何限制。

在应用中，通过获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到；基于多个第一正常视频和多个伪装异常视频对视频异常检测模型进行训练，直至视频异常检测模型收敛；通过在添加伪装异常事件使伪装异常事件不包含真实异常事件，可以避免模型在训练时将同类的真实异常事件所强关联的场景特征纳入学习，从而提高模型在不同场景下对异常事件的捕捉能力，并淡化场景对异常检测的影响；且通过添加伪装异常事件生成伪装异常视频，可以克服真实异常视频采集难度高的问题，可以在提高模型的训练效率的同时提高模型的检测准确性。

如图3所示，在一个实施例中，基于图1所对应的实施例，包括如下步骤S301至步骤S306：

步骤S301、获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到。

在应用中，步骤S301提供的训练方法和上述步骤S101中提供的训练方法一致，在此不再赘述。

步骤S302、通过目标检测模块对第一正常视频进行目标识别，获取第一正常视频中第一目标的位置信息；第一目标为第一正常视频中的任一前景对象；位置信息用于表征相应目标在视频中的位置和轮廓；

步骤S303、针对任一第一目标，根据第一目标的位置信息对相应第一正常视频中的第一目标进行特征提取，得到第一目标的原始图像特征；

步骤S304、通过目标检测模块对伪装异常视频进行目标识别，获取伪装异常视频中第二目标的位置信息；第二目标为伪装异常视频中的任一前景对象；

步骤S305、针对任一第二目标，根据第二目标的位置信息对相应伪装异常视频中的第二目标进行特征提取，得到第二目标的原始图像特征。

在应用中，下面以对伪装异常视频进行预处理为例对目标检测模块和特征提取方法进行说明：目标检测模块可以获取伪装异常视频中每一帧的图像，并识别每一帧图像中的第二目标，以获取第二目标的位置信息，位置信息用于表征第二目标在伪装异常视频中的位置和轮廓，从而可以根据位置信息对第二目标进行准确识别；

在应用中，目标检测模块可以基于CNN进行搭建，具体可以是YOLOv3算法，YOLOv3在平均检测精度和平均检测用时较为平衡，可以在精度和速度上实现较好的均衡。目标检测模块在投入使用前可以采用预设数据集进行预训练，预设数据集可以包括伪装异常事件、第一正常视频中的正常事件及第二正常视频中的正常事件，以提升目标检测模块的目标检测精度。

在应用中，在得到第二目标的位置信息后，可以基于位置信息对第二目标进行特征提取，以得到第二目标的原始图像特征。所提取的特征具体可以是外观特征和运动特征，以便于模型确定第二目标的对象类别和运动轨迹。

在应用中，对第一正常视频进行预处理的方法和上述对伪装异常视频进行预处理的方法一致，在此不再赘述。

步骤S306、根据第一目标的原始图像特征和第二目标的原始图像特征对视频异常检测模型进行训练，直至视频异常检测模型收敛；

其中，在训练过程中，若视频异常检测模型的输入数据为第一目标的原始图像特征，对应的输出数据为相应第一目标的事件类型；若视频异常检测模型的输入数据为第二目标的原始图像特征，对应的输出数据为相应第二目标的事件类型。

在应用中，在得到第一目标/第二目标的原始图像特征后，模型可以基于原始图像特征确定第一目标/第二目标的对象类别和运动轨迹，并根据上述对象类别和运动轨迹分析事件类型。通过对视频进行预处理可以提高模型对第一目标/第二目标的解析深度和解析速度，有利于模型提高检测准确性。

图4示例性的示出了视频异常检测模型的一种架构示意图，包括目标检测器40，视频异常检测模型50，外观检测网络51及运动检测网络52，其中，目标检测器40仅用于执行目标检测，图4中未示出用于执行特征提取的模块，下面基于图4对模型架构进行说明：

视频异常检测模型包括外观检测网络和运动检测网络；针对任意一个第一目标或任意一个第二目标，原始图像特征包括相应目标的原始外观特征和原始运动特征；原始外观特征根据相应目标的位置信息进行裁剪和图像处理得到；原始运动特征根据相应目标在不同帧中的位置信息获取运动路径得到；

若外观检测网络的输入数据为第一目标的原始外观特征，对应的输出数据为相应第一目标的重构外观特征；

若外观检测网络的输入数据为第二目标的原始外观特征，对应的输出数据为相应第二目标的重构外观特征；

若运动检测网络的输入数据为第一目标的原始运动特征，对应的输出数据为相应第一目标的重构运动特征；

若运动检测网络的输入数据为第二目标的原始运动特征，对应的输出数据为相应第二目标的重构运动特征；

其中，在训练过程中，针对任一第一目标，视频异常检测模型用于根据第一目标的外观特征绝对差和第一目标的运动特征绝对差，确定相应第一目标的事件类型；针对任一第二目标，视频异常检测模型用于根据第二目标的外观特征绝对差和第二目标的运动特征绝对差，确定相应第二目标的事件类型；针对任意一个第一目标或任意一个第二目标，外观特征绝对差表征相应目标的原始外观特征与相应目标的重构外观特征之间的绝对差，运动特征绝对差表征相应目标的原始运动特征与相应目标的重构运动特征之间的绝对差。

在应用中，原始图像特征可以包括相应目标的原始外观特征和原始运动特征，下面以第二目标为例，对原始外观特征和原始运动特征的获取方法进行说明：在得到第二目标的位置信息后，可以根据位置信息对第二目标进行裁剪，从而得到在每一帧的图像中提取出第二目标，还可以对提取出的第二目标进行图像处理以强化外观特征，图像处理方法具体可以是转换为灰度图，从而得到原始外观特征。具体的，可以通过Mask R-CNN算法实现第二目标的裁剪和灰度图转换；

在得到第二目标的位置信息后，可以根据位置信息锁定每一帧的图像中的第二目标，并根据多帧图像中的第二目标，获取第二目标的运动路径，从而得到第二目标的光流图。具体的，可以采用SelFlow算法计算第二目标的光流（运动路径的一种体现方法），第二目标的光流图可以由三个连续帧中第二目标的光流构成。第一目标的原始图像特征的获取方法可以参照上述第二目标的原始图像特征的获取方法，在此不再赘述。

需要说明的是，在添加伪装异常事件时，也可以通过改变第二正常视频中任一前景对象的运动特征实现，具体的，假设选定第t-k帧，第t帧，第t+k帧（k可以是大于1的整数，t可以是大于或等于1的整数，t-k＞0）的帧三元组中的前景对象，可以将该前景对象的光流图作为运动特征植入第二正常视频中，也可以将该光流图作为原始运动特征输入至模型中，从而实现伪装异常事件的生成。

在应用中，外观检测网络的输入数据可以是各个第二目标的原始外观特征，也可以是伪装异常视频和相应伪装异常视频所包含的所有第二目标的原始外观特征，并对所有第二目标的原始外观特征进行并行处理，以输出所有第二目标的重构外观特征。外观检测网络的输入分辨率可以根据实际算力进行设置，具体可以是64×64，本申请实施例对外观检测网络的输入分辨率不作任何限制。

在应用中，外观检测网络可以包含一个编码器和一个解码器，其中外观检测网络的编码器用于对第二目标的原始外观特征进行编码，并将编码后的第二目标的原始外观特征输入至外观检测网络的解码器，以对编码后的第二目标的原始外观特征进行重构，得到第二目标的重构外观特征。

在一个实施例中，外观检测网络也可以包含一个编码器、一个分析单元及三个解码器，其中，外观检测网络的编码器用于对第二目标的原始外观特征进行编码，得到编码后的第二目标的原始外观特征，并通过外观检测网络的分析单元对编码后的第二目标的原始外观特征进行分析，以确定第二目标的事件类型并将第二目标与背景进行分割；若第二目标的事件类型为正常事件，则通过外观检测网络的第一解码器对编码后的第二目标的原始外观特征进行重构；若第二目标的事件类型为异常事件，则通过外观检测网络的第二解码器对编码后的第二目标的原始外观特征进行重构；外观检测网络的第三解码器用于生成一个掩码，上述掩码用于对伪装异常视频中各个第二目标进行区分并淡化伪装异常视频中的背景。

在应用中，若第二目标的事件类型为异常事件，进行了深度挖掘的重构外观特征会与原始外观特征不同，因此可以根据第二目标的外观特征绝对差和第二目标的运动特征绝对差对第二目标的事件类型进行预测。

在应用中，第一目标的原始外观特征在外观检测网络中的处理流程可以参照上述第二目标的原始外观特征在外观检测网络中的处理流程，在此不再赘述。

在应用中，运动检测网络的输入数据可以是各个第二目标的原始运动特征，也可以是伪装异常视频和相应伪装异常视频所包含的所有第二目标的原始运动特征，并对所有第二目标的原始运动特征进行并行处理，以输出所有第二目标的重构运动特征。运动检测网络的输入分辨率可以根据实际算力进行设置，具体可以是64×64，且运动检测网络所输入的原始运动特征所包含的向量数量也可以根据实际需要进行设置，具体可以是2个向量（分别为运动方向向量和运动幅度向量），本申请实施例对运动检测网络的输入分辨率不作任何限制。

在应用中，运动检测网络可以包含一个编码器和一个解码器，其中运动检测网络的编码器用于对第二目标的原始运动特征进行编码，并将编码后的第二目标的原始运动特征输入至运动检测网络的解码器，以对编码后的第二目标的原始运动特征进行重构，得到第二目标的重构运动特征。

在一个实施例中，运动检测网络也可以包含一个编码器、一个分析单元及两个解码器，其中，运动检测网络的编码器用于对第二目标的原始运动特征进行编码，得到编码后的第二目标的原始运动特征，并通过运动检测网络的分析单元对编码后的第二目标的原始运动特征进行分析，以确定第二目标的事件类型；若第二目标的事件类型为正常事件，则通过运动检测网络的第一解码器对编码后的第二目标的原始运动特征进行重构；若第二目标的事件类型为异常事件，则通过运动检测网络的第二解码器对编码后的第二目标的原始运动特征进行重构。

在应用中，若第二目标的事件类型为异常事件，进行了深度挖掘的重构运动特征会与原始运动特征不同，因此可以根据第二目标的运动特征绝对差和第二目标的运动特征绝对差对第二目标的事件类型进行预测。

在应用中，第一目标的原始运动特征在运动检测网络中的处理流程可以参照上述第二目标的原始运动特征在运动检测网络中的处理流程，在此不再赘述。

在应用中，外观检测网络/运动检测网络的编码器的具体架构可以包括三个卷积（Convolution）层，每个卷积层由3×3的滤波器组成，滤波器的大小为2×2，步长为2，每个卷积层连接一个最大池化层并具有整流线性单元（Linear Rectification Function，ReLU）作为激活函数。

在应用中，通过将视频异常检测模型的处理流分为外观检测网络和运动检测网络两条处理流，可以针对性的采集目标的外观特征和运动特征，并结合外观特征和运动特征对目标的事件类型进行分析，相较于传统的单处理流模型，通过并行的分类特征采集，可以提高每一类特征的采集深度，还可以将处于前景的目标与场景（背景）进行分割，大幅减少对场景特征的学习，在训练阶段实现了场景迁移，使模型具有良好的跨场景检测能力，有效提高了模型检测的准确性。

图5示例性的示出了视频异常检测模型的一种架构示意图，包括目标检测器40，视频异常检测模型50，外观检测网络51、第一运动检测子网络521、第二运动检测子网络522及判断网络53，其中，目标检测器40仅用于执行目标检测，图5中未示出用于执行特征提取的模块，下面基于图5对模型架构进行说明：

运动检测网络包括第一运动检测子网络和第二运动检测子网络，原始运动特征包括相应目标的原始运动方向特征和原始运动幅度特征；

若第一运动检测子网络的输入数据为第一目标的原始运动方向特征，对应的输出数据为相应第一目标的重构运动方向特征；

若第一运动检测子网络的输入数据为第二目标的原始运动方向特征，对应的输出数据为相应第二目标的重构运动方向特征；

若第二运动检测子网络的输入数据为第一目标的原始运动幅度特征，对应的输出数据为相应第一目标的重构运动幅度特征；

若第二运动检测子网络的输入数据为第二目标的原始运动幅度特征，对应的输出数据为相应第二目标的重构运动幅度特征；

其中，在训练过程中，针对任一第一目标，视频异常检测模型用于根据第一目标的外观特征绝对差、第一目标的运动方向特征绝对差及第一目标的运动幅度特征绝对差，确定相应第一目标的事件类型；针对任一第二目标，视频异常检测模型用于根据第二目标的外观特征绝对差、第二目标的运动方向特征绝对差及第二目标的运动幅度特征绝对差，确定相应第二目标的事件类型；针对任意一个第一目标或任意一个第二目标，运动方向特征绝对差表征相应目标的原始运动方向特征与相应目标的重构运动方向特征之间的绝对差，运动幅度特征绝对差表征相应目标的原始运动幅度特征与相应目标的重构运动幅度特征之间的绝对差。

视频异常检测模型还包括判断网络；

若判断网络的输入数据为第一目标的外观特征绝对差，对应的输出数据为第一目标的外观异常分数；

若判断网络的输入数据为第一目标的运动方向特征绝对差，对应的输出数据为第一目标的运动方向异常分数；

若判断网络的输入数据为第一目标的运动幅度特征绝对差，对应的输出数据为第一目标的运动幅度异常分数；

判断网络用于根据第一目标的外观异常分数、第一目标的运动方向异常分数及第一目标的运动特征异常分数，计算第一目标的综合异常分数，并根据第一目标的综合异常分数确定第一目标的事件类型。

若判断网络的输入数据为第二目标的外观特征绝对差，对应的输出数据为第二目标的外观异常分数；

若判断网络的输入数据为第二目标的运动方向特征绝对差，对应的输出数据为第二目标的运动方向异常分数；

若判断网络的输入数据为第二目标的运动幅度特征绝对差，对应的输出数据为第二目标的运动幅度异常分数；

判断网络用于根据第二目标的外观异常分数、第二目标的运动方向异常分数及第二目标的运动特征异常分数，计算第二目标的综合异常分数，并根据第二目标的综合异常分数确定第二目标的事件类型。

在应用中，运动检测网络具体可以包括第一运动检测子网络和第二运动检测子网络，第一运动检测子网络/第二运动检测子网络的网络架构可以参照上述运动检测网络的网络架构。原始运动方向特征在第一运动检测子网络的处理流程可以参照上述原始运动特征在运动检测网络中的处理流程，原始运动幅度特征在第二运动检测子网络的处理流程可以参照上述原始运动特征在运动检测网络中的处理流程，在此不再赘述。

在应用中，以根据第二目标的综合异常分数确定第二目标的事件类型为例，判断网络可以根据第二目标的外观异常分数、第二目标的运动方向异常分数及第二目标的运动特征异常分数，计算第二目标的综合异常分数，具体计算方法可以是计算平均数，若第二目标的综合异常分数大于预设综合异常分数，确定第二目标的事件类型为异常事件，若第二目标的综合异常分数未大于预设综合异常分数，确定第二目标的事件类型为正常事件。

其中，外观异常分数、运动方向异常分数及运动特征异常分数的分数区间可以是[0，1]，异常概率和分数大小呈正相关，预设综合异常分数具体可以是0.6、0.7或0.8等。

在应用中，根据第一目标的综合异常分数确定第一目标的事件类型的方法可以参照上述描述，在此不再赘述。

在应用中，判断网络可以是基于BNN搭建的二分类网络，判断网络的具体架构可以包括五个卷积层、一个全连接层及一个分类层（具体可以是Softmax分类层）。本申请实施例对判断网络的具体架构不作任何限制。

在应用中，通过将视频异常检测模型的处理流分为外观检测网络、第一运动检测子网络及第二运动检测子网络三条处理流，可以进一步针对性的采集目标的外观特征、运动方向特征及运动幅度特征，并结合上述三个特征对目标的事件类型进行分析，进一步提高了特征的采集深度，可以更有效的提升模型的跨场景检测能力和异常检测准确性。

如图6所示，在一个实施例中，基于图3所对应的实施例，包括如下步骤S601至步骤S610：

步骤S601、获取训练集，训练集包括多个第一正常视频和多个伪装异常视频，伪装异常视频由对应的第二正常视频添加伪装异常噪音得到；

步骤S602、通过目标检测模块对第一正常视频进行目标识别，获取第一正常视频中第一目标的位置信息；第一目标为第一正常视频中的任一前景对象；位置信息用于表征相应目标在视频中的位置和轮廓；

步骤S603、针对任一第一目标，根据第一目标的位置信息对相应第一正常视频中的第一目标进行特征提取，得到第一目标的原始图像特征；

步骤S604、通过目标检测模块对伪装异常视频进行目标识别，获取伪装异常视频中第二目标的位置信息；第二目标为伪装异常视频中的任一前景对象；

步骤S605、针对任一第二目标，根据第二目标的位置信息对相应伪装异常视频中的第二目标进行特征提取，得到第二目标的原始图像特征；

步骤S606、根据第一目标的原始图像特征和第二目标的原始图像特征对视频异常检测模型进行训练，直至视频异常检测模型收敛；

在应用中，步骤S601至步骤S606提供的训练方法可以参照上述步骤S301至步骤S306中提供的训练方法，在此不再赘述。

步骤S607、针对任一伪装异常视频，获取伪装异常视频中的伪装异常事件；

步骤S608、根据伪装异常事件和伪装异常视频中每个第二目标的事件类型，确定伪装异常视频的事件类型的判断误差。

在应用中，在通过训练集进行训练过程中，或者在通过训练集完成一轮训练后，可以通过步骤S607至步骤S610对模型进行优化，下面对具体的模型优化方法进行说明：

在应用中，可以获取伪装异常视频中的伪装异常事件，并根据伪装异常事件为相应第二目标赋予伪装异常事件标签或正常事件标签，并根据标签确定相应第二目标的事件类型判断是否正确。具体的，针对任一第二目标，若上述任一第二目标的标签与事件类型相同，则确定上述任一第二目标的事件类型判断正确；若上述任一第二目标的标签与事件类型不同，则确定上述任一第二目标的事件类型判断错误。针对伪装异常视频，判断误差的单位可以是每个第二目标的事件类型的判断正确性，也可以是一个伪装异常视频中所有第二目标的事件类型的判断正确性。

步骤S609、针对任一第一正常视频，根据第一正常视频中每个第一目标的事件类型，确定第一正常视频的事件类型的判断误差；

步骤S610、根据伪装异常视频的事件类型的判断误差和第一正常视频的事件类型的判断误差对视频异常检测模型进行优化。

在应用中，由于第一正常视频未包含预测异常事件，因此可以根据模型输出的第一正常视频中的预测异常事件获取判断误差。具体的，针对任一第一目标，若上述任一第一目标的事件类型被判断为异常事件，则确定上述任一第一目标的事件类型判断错误；若上述任一第一目标的事件类型被判断为正常事件，则确定上述任一第一目标的事件类型判断正确。针对第一正常视频，判断误差的单位可以是每个第一目标的事件类型的判断正确性，也可以是一个第一正常视频中所有第一目标的事件类型的判断正确性。

在应用中，可以根据伪装异常视频的事件类型的判断误差和第一正常视频的事件类型的判断误差对视频异常检测模型进行优化，以不断提升视频异常检测模型的检测准确性，直至视频异常检测模型收敛，收敛条件可以是伪装异常视频的事件类型的判断误差小于预设判断误差，也可以是伪装异常视频的事件类型的判断误差和第一正常视频的事件类型的判断误差的平均值小于预设判断误差。

如图7所示，本申请实施例提供的一种视频异常检测方法，包括如下步骤S701和步骤S702：

步骤S701、获取待测视频；

步骤S702、将待测视频输入视频异常检测模型，确定待测视频中所有目标的事件类型；

其中，视频异常检测模型为上述视频异常检测模型的训练方法中的视频异常检测模型，目标为待测视频中的任一前景对象。

在应用中，通过视频异常检测模型判断待测视频中所有目标的事件类型，可以淡化场景和背景对异常检测的影响，具有兼容性强、检测准确性高的优点。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

如图8所示，本申请实施例提供的一种处理设备100，包括存储器101、处理器102以及存储在存储器101中并可在处理器上运行的计算机程序103，处理器102执行计算机程序103时实现上述各个视频异常检测方法实施例中的步骤。

在应用中，处理器可以是中央处理单元（Central Processing Unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在应用中，存储器在一些实施例中可以是虚拟机管理设备的内部存储单元，例如虚拟机管理设备的硬盘或内存。存储器在另一些实施例中也可以是虚拟机管理设备的外部存储设备，例如虚拟机管理设备上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器还可以既包括虚拟机管理设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序（BootLoader）、数据以及其他程序等，例如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

可以理解的是，本申请实施例示意的结构并不构成对处理设备100的具体限定。在本申请另一些实施例中，处理设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括图形处理器等。图示的部件可以以硬件，软件或软件和硬件的组合实现。

如图9所示，本申请实施例提供的一种视频异常检测系统300，包括摄像设备200和上述处理设备100，摄像设备200和处理设备100连接；

摄像设备200用于获取待测视频并发送至处理设备100；

处理设备100用于将待测视频输入视频异常检测模型，确定待测视频中所有目标的事件类型。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述视频异常检测模型的训练方法或视频异常检测方法实施例中的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的终端设备和方法，可以通过其它的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频异常检测模型的训练方法，其特征在于，包括：

获取训练集，所述训练集包括多个第一正常视频和多个伪装异常视频，所述伪装异常视频由对应的第二正常视频添加伪装异常事件得到，所述伪装异常事件未包含真实异常事件；

所述视频异常检测模型包括外观检测网络和运动检测网络，所述外观检测网络用于提取所述第一正常视频的外观特征和所述伪装异常视频的外观特征，所述运动检测网络用于提取所述第一正常视频的运动特征和所述伪装异常视频的运动特征，第一正常视频所含事件的事件类型根据所述第一正常视频的外观特征和所述第一正常视频的运动特征确定，伪装异常视频所含事件的事件类型根据所述伪装异常视频的外观特征和所述伪装异常视频的运动特征确定；

所述基于所述多个第一正常视频和多个伪装异常视频对所述视频异常检测模型进行训练，包括：通过目标检测模块对所述第一正常视频进行目标识别，获取所述第一正常视频中第一目标的位置信息；所述第一目标为第一正常视频中的任一前景对象；针对任一第一目标，根据所述第一目标的位置信息对相应第一正常视频中的第一目标进行特征提取，得到所述第一目标的原始图像特征；通过目标检测模块对所述伪装异常视频进行目标识别，获取所述伪装异常视频中第二目标的位置信息；所述第二目标为伪装异常视频中的任一前景对象；针对任一第二目标，根据所述第二目标的位置信息对相应伪装异常视频中的第二目标进行特征提取，得到所述第二目标的原始图像特征；根据所述第一目标的原始图像特征和所述第二目标的原始图像特征对所述视频异常检测模型进行训练，直至所述视频异常检测模型收敛；其中，在训练过程中，若所述视频异常检测模型的输入数据为第一目标的原始图像特征，对应的输出数据为相应第一目标的事件类型；若所述视频异常检测模型的输入数据为第二目标的原始图像特征，对应的输出数据为相应第二目标的事件类型；所述位置信息用于表征相应目标在视频中的位置和轮廓；

所述运动检测网络包括第一运动检测子网络和第二运动检测子网络，所述运动检测网络的数据包括第一目标的原始运动特征和第二目标的原始运动特征，所述原始图像特征包括相应目标的原始外观特征和原始运动特征；所述原始运动特征包括相应目标的原始运动方向特征和原始运动幅度特征；

若所述第一运动检测子网络的输入数据为第一目标的原始运动方向特征，对应的输出数据为相应第一目标的重构运动方向特征；

若所述第一运动检测子网络的输入数据为第二目标的原始运动方向特征，对应的输出数据为相应第二目标的重构运动方向特征；

若所述第二运动检测子网络的输入数据为第一目标的原始运动幅度特征，对应的输出数据为相应第一目标的重构运动幅度特征；

若所述第二运动检测子网络的输入数据为第二目标的原始运动幅度特征，对应的输出数据为相应第二目标的重构运动幅度特征；

其中，在训练过程中，针对任一第一目标，所述视频异常检测模型用于根据所述第一目标的外观特征绝对差、第一目标的运动方向特征绝对差及第一目标的运动幅度特征绝对差，确定相应第一目标的事件类型；针对任一第二目标，所述视频异常检测模型用于根据所述第二目标的外观特征绝对差、第二目标的运动方向特征绝对差及第二目标的运动幅度特征绝对差，确定相应第二目标的事件类型；针对任意一个第一目标或任意一个第二目标，所述运动方向特征绝对差表征相应目标的原始运动方向特征与相应目标的重构运动方向特征之间的绝对差，所述运动幅度特征绝对差表征相应目标的原始运动幅度特征与相应目标的重构运动幅度特征之间的绝对差。

2.如权利要求1所述的训练方法，其特征在于，针对任意一个第一目标或任意一个第二目标，所述原始图像特征包括相应目标的原始外观特征和原始运动特征；所述原始外观特征根据相应目标的位置信息进行裁剪和图像处理得到；所述原始运动特征根据相应目标在不同帧中的位置信息获取运动路径得到。

3.如权利要求1所述的训练方法，其特征在于，所述外观检测网络的输入数据包括第一目标的原始外观特征和第二目标的原始外观特征；

若所述外观检测网络的输入数据为第一目标的原始外观特征，对应的输出数据为相应第一目标的重构外观特征；

若所述外观检测网络的输入数据为第二目标的原始外观特征，对应的输出数据为相应第二目标的重构外观特征；

若所述运动检测网络的输入数据为第一目标的原始运动特征，对应的输出数据为相应第一目标的重构运动特征；

若所述运动检测网络的输入数据为第二目标的原始运动特征，对应的输出数据为相应第二目标的重构运动特征；

其中，在训练过程中，针对任一第一目标，所述视频异常检测模型用于根据所述第一目标的外观特征绝对差和所述第一目标的运动特征绝对差，确定相应第一目标的事件类型；针对任一第二目标，所述视频异常检测模型用于根据所述第二目标的外观特征绝对差和所述第二目标的运动特征绝对差，确定相应第二目标的事件类型；针对任意一个第一目标或任意一个第二目标，所述外观特征绝对差表征相应目标的原始外观特征与相应目标的重构外观特征之间的绝对差，所述运动特征绝对差表征相应目标的原始运动特征与相应目标的重构运动特征之间的绝对差。

4.如权利要求1所述的训练方法，其特征在于，所述视频异常检测模型还包括判断网络；

若所述判断网络的输入数据为第一目标的外观特征绝对差，对应的输出数据为第一目标的外观异常分数；

若所述判断网络的输入数据为第一目标的运动方向特征绝对差，对应的输出数据为第一目标的运动方向异常分数；

若所述判断网络的输入数据为第一目标的运动幅度特征绝对差，对应的输出数据为第一目标的运动幅度异常分数；

所述判断网络用于根据所述第一目标的外观异常分数、所述第一目标的运动方向异常分数及所述第一目标的运动特征异常分数，计算所述第一目标的综合异常分数，并根据所述第一目标的综合异常分数确定所述第一目标的事件类型。

5.如权利要求1所述的训练方法，其特征在于，所述视频异常检测模型还包括判断网络；

若所述判断网络的输入数据为第二目标的外观特征绝对差，对应的输出数据为第二目标的外观异常分数；

若所述判断网络的输入数据为第二目标的运动方向特征绝对差，对应的输出数据为第二目标的运动方向异常分数；

若所述判断网络的输入数据为第二目标的运动幅度特征绝对差，对应的输出数据为第二目标的运动幅度异常分数；

所述判断网络用于根据所述第二目标的外观异常分数、所述第二目标的运动方向异常分数及所述第二目标的运动特征异常分数，计算所述第二目标的综合异常分数，并根据所述第二目标的综合异常分数确定所述第二目标的事件类型。

6.如权利要求4或5项所述的训练方法，其特征在于，所述方法还包括：

针对任一伪装异常视频，获取所述伪装异常视频中的伪装异常事件；

根据所述伪装异常事件和所述伪装异常视频中每个第二目标的事件类型，确定所述伪装异常视频的事件类型的判断误差；

针对任一第一正常视频，根据所述第一正常视频中每个第一目标的事件类型，确定所述第一正常视频的事件类型的判断误差；

根据所述伪装异常视频的事件类型的判断误差和所述第一正常视频的事件类型的判断误差对所述视频异常检测模型进行优化。

7.一种视频异常检测方法，其特征在于，包括：

获取待测视频；

其中，所述视频异常检测模型为权利要求1至6任一项所述训练方法中的视频异常检测模型，所述目标为所述待测视频中的任一前景对象。

8.一种视频异常检测系统，其特征在于，包括摄像设备和处理设备，所述摄像设备和所述处理设备连接；

所述摄像设备用于获取待测视频并发送至所述处理设备；

其中，所述视频异常检测模型为权利要求7所述视频异常检测方法中的视频异常检测模型，所述目标为所述待测视频中的任一前景对象。