CN116416552B

CN116416552B - 视频异常检测方法、装置和计算机可读存储介质

Info

Publication number: CN116416552B
Application number: CN202310177624.XA
Authority: CN
Inventors: 郭亚男; 曹林; 杜康宁; 孙文文; 田澍; 张帆; 赵宗民
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2025-11-11
Anticipated expiration: 2043-02-17
Also published as: CN116416552A

Abstract

本说明书提供了视频异常检测方法、装置和计算机可读存储介质。基于该方法，具体实施前，预先训练得到至少包括跨模态注意力机制模块的预设的特征处理模型。具体实施时，先将所获取的目标视频划分成多个目标图像片段和多个目标光流片段；再利用预设的特征提取网络处理多个目标图像片段和多个目标光流片段，提取得到对应的目标外观特征和目标运动特征；接着，利用预设的特征处理模型先通过跨模态注意力机制模块去除目标外观特征和目标运动特征的冗余信息，得到并融合优化后的目标外观特征和优化后的目标运动特征；再利用预设的特征处理模型通过处理融合后的目标特征，得到目标处理结果，从而能够准确、高效地确定出目标视频是否存在异常目标。

Description

视频异常检测方法、装置和计算机可读存储介质

技术领域

本说明书属于视频数据处理技术领域，尤其涉及视频异常检测方法、装置和计算机可读存储介质。

背景技术

在一些诸如道路交通监控等涉及视频数据处理的应用场景中，通常需要训练并利用相对应的视频处理模型来帮助工作人员及时检测识别出视频中是否存在异常。

但是，基于现有方法训练得到的视频处理模型在具体应用于视频异常检测时，往往需要同时提取并处理包含有大量冗余信息在内的视频特征，导致具体实施时存在检测效率低，容易出现检测误差的技术问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了视频异常检测方法、装置和计算机可读存储介质，通过训练并利用至少包括跨模态注意力机制模块的预设的特征处理模型，能够准确、高效地检测识别出目标视频是否存在异常目标。

本说明书提供了一种视频异常检测方法，包括：

获取目标视频；

根据目标视频，划分得到多个目标图像片段和多个目标光流片段；

利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；

利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；

根据所述目标处理结果，确定所述目标视频是否存在异常目标。

在一个实施例中，所述预设的特征处理模型还包括全连接神经网络；其中，所述全连接神经网络用于通过处理所述融合后的目标特征，输出对应的目标处理结果。

在一个实施例中，所述跨模态注意力机制模块按照以下方式去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征：

将所述目标外观特征确定为第一主模态特征，并将所述目标运动特征确定为第一辅助模态特征；

根据所述第一主模态特征，获取第一全局信息，并根据所述第一辅助模态特征，获取第一局部信息；

根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征。

在一个实施例中，所述跨模态注意力机制模块至少包括：平均池化层、第一卷积层、第二卷积层，以及Sigmoid函数。

在一个实施例中，根据所述第一主模态特征，获取第一全局信息，包括：

所述平均池化层通过处理所述第一主模态特征，输出相对应的初始的第一全局信息；所述第一卷积层通过处理所述初始的第一全局信息，获取并利用相应通道的依赖关系，输出相对应的第一全局感知描述符作为所述第一全局信息。

在一个实施例中，根据所述第一辅助模态特征，获取第一局部信息，包括：

所述第二卷积层通过处理所述第一辅助模态特征，输出相对应的第一局部感知描述符作为所述第一局部信息。

在一个实施例中，根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征，包括：

将所述第一全局信息和所述第一局部信息相乘，得到第一通道描述符；

利用基于Sigmoid函数和第一通道描述符所生成的信道级的第一优化权值，通过处理所述第一主模态特征，得到相对应的优化后的目标外观特征。

在一个实施例中，所述方法还包括：

构建初始模型；其中，所述初始模型至少包括初始的跨模态注意力机制模块和初始的全连接神经网络；

获取并根据样本视频，构建得到样本正包和样本负包；

根据所述样本正包、样本负包，以及预设的特征提取网络，获取相应的样本外观特征和样本运动特征；

基于预设的损失函数，利用所述样本外观特征和样本运动特征，训练所述初始模型，以得到符合要求的预设的特征处理模型。

本说明书还提供了一种视频异常检测装置，包括：

获取模块，用于获取目标视频；

划分模块，用于根据目标视频，划分得到多个目标图像片段和多个目标光流片段；

提取模块，用于利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；

处理模块，用于利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；

确定模块，用于根据所述目标处理结果，确定所述目标视频是否存在异常目标。

本说明书还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现以下步骤：获取目标视频；根据目标视频，划分得到多个目标图像片段和多个目标光流片段；利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；根据所述目标处理结果，确定所述目标视频是否存在异常目标。

基于本说明书提供的视频异常检测方法、装置和计算机可读存储介质，具体实施前，可以通过构建至少包括初始的跨模态注意力机制模块和初始的全连接神经网络的初始模型；并利用样本正包、样本负包，以及预设的特征提取网络，通过弱监督学习训练初始模型，得到与已有的特征提取网络相适配的，至少包括跨模态注意力机制模块的预设的特征处理模型。具体实施时，在获取待处理的目标视频后，可以先将所获取的目标视频划分成多个目标图像片段和多个目标光流片段；再利用预设的特征提取网络处理多个目标图像片段和多个目标光流片段，提取得到目标外观特征和目标运动特征两种不同维度的视频特征；接着，再利用预设的特征处理模型先通过跨模态注意力机制模块去除目标外观特征和目标运动特征的冗余信息，得到相对应的针对视频异常检测的优化后的目标外观特征和优化后的目标运动特征；并通过融合上述两种不同维度的特征，得到针对视频异常检测，且特征信息较为丰富、全面的融合后的目标特征；再利用预设的特征处理模型通过全连接神经网络处理上述融合后的目标特征，得到对应的目标处理结果，以便能根据该目标处理结果确定目标视频是否存在异常目标。从而可以准确、高效地检测识别出目标视频中的异常目标，有效地提高了针对视频异常检测的检测效率和检测精度。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的视频异常检测方法的流程示意图；

图2是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图3是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图4是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图5是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图6是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图7是在一个场景示例中，应用本说明书实施例提供的视频异常检测方法的一种实施例的示意图；

图8是本说明书的一个实施例提供的模型训练方法的流程示意图；

图9是本说明书的一个实施例提供的服务器的结构组成示意图；

图10是本说明书的一个实施例提供的视频异常检测装置的结构组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

参阅图1所示，本说明书实施例提供了一种视频异常检测方法。其中，该方法具体实施时，可以包括以下内容：

S101：获取目标视频；

S102：根据目标视频，划分得到多个目标图像片段和多个目标光流片段；

S103：利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；

S104：利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；

S105：根据所述目标处理结果，确定所述目标视频是否存在异常目标。

在一些实施例中，上述目标视频具体可以理解为待检测是否存在异常目标的视频数据。

具体的，针对不同的应用场景，上述目标视频可以是不同类型的视频数据。例如，参阅图2中的(a)、(b)、(c)、(d)，在道路交通监控场景，上述目标视频具体可以是通过道路监控摄像头所采集到的包含有道路路面情况的视频数据。又例如，参阅图2中的(e)、(f)，在超市安保场景中，上述目标视频具体还可以是通过设置于超市的安保摄像头所采集到的包含有超市内部情况的视频数据等。当然，需要说明的是，上述所列举的目标视频只是一种示意性说明。具体实施时，根据具体的应用场景和处理需求，上述目标视频还可以包括其他类型的视频数据。对此本说明书不作限定。

具体的，上述异常目标可以包括异常对象，和/或，异常行为等。

其中，上述异常对象具体可以理解为在所针对的应用场景中需要关注或存在风险的物品对象。例如，参阅图2中的(a)、(b)、(c)，在道路交通监控场景中，上述异常对象可以是不允许进入人行道的物品对象，譬如：自行车、滑板、卡车等。

上述异常行为具体可以理解为再所针对的应用场景中需要关注或存在风险的动作行为。例如，参阅图2中的(d)，在道路交通监控场景中，上述异常行为可以是路面上发生的交通事故。又例如，参阅图2中的(e)、(f)，在超市安保场景中，上述异常行为可以超市中发生的异常动作行为等。

在一些实施例中，具体实施时，参阅图3所示，可以先根据目标视频，划分得到针对该目标视频的多个目标图像片段(可以简记为RGB)以及多个目标光流片段(可以简记为Optical Flow)。其中，目标图像片段至少包含有关于目标视频的外观特征信息，目标光流片段至少包含有关于目标视频的运动特征信息。

在一些实施例中，具体实施时，可以利用预设的特征提取网络通过处理多个目标图像片段，提取得到对应的目标外观特征；通过处理多个目标光流片段，提取得到对应的目标运动特征。

在一些实施例中，上述预设的特征提取网络包括训练好的I3D网络。具体的，上述预设的特征提取网络可以是预先利用Kinetics数据集训练得到的I3D网络。在一些情况下，上述预设的特征提取网络还可以包括训练好的C3D网络。

其中，上述Kinetics数据集具体可以是针对视频动作分类设计的。相应的，在利用基于Kinetics数据集训练得到的预设的特征提取网络直接提取得到的特征数据时，更适用于视频动作分类，在用于视频异常检测时往往会存在大量的冗余信息。上述冗余信息一方面增加整体的数据处理量，影响了视频异常检测的检测效率；另一方也会对视频异常检测中的关键特征数据造成掩盖和干扰，进而影响视频异常检测的检测精度。

在一些实施例中，具体的，参阅图4所示，上述I3D网络具体可以包括以下结构：卷积层(例如，Conv)、池化层(例如，Max-Pool，Avg-Pool)和Inc层(例如，Inc.)。其中，Rec.field表示感受野。

进一步，参阅图5所示，上述Inc层具体可以通过使用1×1×1和3×3×3卷积，增加了网络对尺度的适应性，以便通过预设的特征提取网络能够提取得到不同尺度的外观特征和运动特征，获得相对更好的特征提取效果。

具体实施时，上述利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征，可以包括：利用I3D网络通过卷积核和池化核在时-空域中分别对目标图像片段和目标光流片段进行卷积和池化操作，得到1024维的空域外观特征向量以及1024维的时域运动特征向量，分别作为所述目标外观特征和所述目标运动特征。

在一些实施例中，上述预设的特征处理模型具体可以理解为一种基于跨模态注意力机制通过弱监督训练得到能够检测并识别出视频中的异常目标的神经网络模型。其中，上述预设的特征处理模型至少包括跨模态注意力机制模块(Cross-modal AttentionModule,CAM)。

基于上述预设的特征处理模型，一方面可以有效地去除目标外观特征和目标运动特征的冗余信息，得到适用于视频异常检测的优化后的目标外观特征和优化后的目标运动特征；另一方面还可以充分地融合上述优化后的目标外观特征和优化后的目标运动特征这两种不同维度的特征数据，得到针对视频异常检测，且信息较为丰富、全面的融合后的目标特征，进而可以利用上述融合后的目标特征准确、高效地实现视频异常检测，以确定出目标是否存在异常目标。

在一些实施例中，所述预设的特征处理模型具体还可以包括全连接神经网络；其中，所述全连接神经网络具体用于通过处理所述融合后的目标特征，输出对应的目标处理结果。

在一些实施例中，具体实施时，所述跨模态注意力机制模块可以按照以下方式去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征：

S1：将所述目标外观特征(例如，F^appearance)确定为第一主模态特征，并将所述目标运动特征(例如，F^motion)确定为第一辅助模态特征；

S2：根据所述第一主模态特征，获取第一全局信息(例如，M^G)，并根据所述第一辅助模态特征，获取第一局部信息(例如，M^L)；

S3：根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征(例如，)。

类似的，所述跨模态注意力机制模块可以按照以下方式去除所述目标运动特征的冗余信息，得到相对应的优化后的目标运动特征(例如，)：

S1：将所述目标运动特征确定为第二主模态特征，并将所述目标外观特征确定为第二辅助模态特征；

S2：根据所述第二主模态特征，获取第二全局信息，并根据所述第二辅助模态特征，获取第二局部信息；

S3：根据所述第二全局信息和所述第二局部信息，检测并去除所述目标运动特征的冗余信息，得到相对应的优化后的目标运动特征。

在一些实施例中，参阅图6所示，所述跨模态注意力机制模块至少可以包括：平均池化层(可以记为AvgPool)、第一卷积层(可以记为F^G)、第二卷积层(可以记为F^L)，以及Sigmoid函数等结构。

下面以利用跨模态注意力机制模块去除目标外观特征的冗余信息得到优化后的目标外观特征为例，具体说明如何利用预设的特征处理模型中的跨模态注意力机制模块来优化处理目标外观特征。关于如何利用预设的特征处理模型中的跨模态注意力机制模块来优化处理目标运动特征，可以参考关于优化处理目标外观特征的实施例，本说明书不再赘述。

在一些实施例中，上述根据所述第一主模态特征，获取第一全局信息，具体实施时，可以包括：所述平均池化层通过处理所述第一主模态特征，输出相对应的初始的第一全局信息；所述第一卷积层通过处理所述初始的第一全局信息，获取并利用相应通道的依赖关系，输出相对应的第一全局感知描述符作为所述第一全局信息。

具体的，例如，参阅图6所示，预设的特征处理模型可以先将第一主模态特征F^appearance输入至跨模态注意力机制模块中的平均池化层AvgPool，以获取第一主模态特征的初始的第一全局信息X_g；再利用第一卷积层F^G通过处理该初始的第一全局信息，获取并利用通道的依赖关系，以生成并输出第一全局感知描述符M^G作为第一全局信息。

具体操作，可以通过以下算式表示：X_g＝AvgPool(F^appearance)，M^G＝F^G(X_g)。

进一步，上述第一卷积层的卷积核具体可以是3×3，步长为1。此外，在利用第一卷积层进行卷积操作前还可以对特征图(例如，初始的第一全局信息)的外侧进行尺度为1的全0填充。进而可以使得第一卷积层在具体操作时，可以获得相对更好的处理效果。

在一些实施例中，考虑到多个模态会从不同的角度提供相关的特征信息，因此可以利用从第一辅助模态特征中获取跨模态的局部信息来检测并去除第一主模态特征中与视频异常检测任务无关的冗余信息。

基于上述考虑，上述根据所述第一辅助模态特征，获取第一局部信息，具体实施时，可以包括：所述第二卷积层通过处理所述第一辅助模态特征，输出相对应的第一局部感知描述符作为所述第一局部信息。

具体的，例如，参阅图6所示，预设的特征处理模型可以将第一辅助模态特征输入至第二卷积层F^L，以生成一个跨模态的第一局部感知描述符M^L作为所述第一局部信息。

具体操作，可以通过以下算式表示：M^L＝F^L(F^motion)。

进一步，上述第二卷积层的卷积核具体可以是3×3，步长为1。此外，在利用第二卷积层进行卷积操作前还可以对特征图(例如，第一辅助模态特征)的外侧进行尺度为1的全0填充。进而可以使得第二卷积层在具体操作时，可以获得相对更好的处理效果。

在一些实施例中，上述根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征，具体实施时，可以包括：将所述第一全局信息和所述第一局部信息相乘，得到第一通道描述符；利用基于Sigmoid函数和第一通道描述符所生成的信道级的第一优化权值，通过处理所述第一主模态特征，得到相对应的优化后的目标外观特征。

具体的，例如，参阅图6所示，首先，预设的特征处理模型可以将第一全局信息和第一局部信息相乘，得到用于优化外观特征的第一通道描述符M，具体操作可以表示为：其中，表示元素的乘法运算符。

接着，预设的特征处理模型可以先基于Sigmoid函数和第一通道描述符生成相应的信道级的第一优化权值σ(M)；再利用σ(M)检测并去除目标外观特征的冗余信息，得到优化后的目标外观特征，具体操作可以表示为：其中，σ(·)表示Sigmoid函数。

基于上述实施例，通过预设的特征处理模型中的跨模态注意力机制模块，可以先从主模态特征中获得特定于该模态的上下文全局信息，同时从辅助模态特征中获得跨模态的特定的局部信息；然后，再通过聚合不同模态的全局信息和局部信息，精准、有效地滤除目标外观特征和目标运动特征中与视频异常检测任务无关的冗余信息，实现对目标外观特征和目标运动特征的优化处理，得到针对视频异常检测的，效果较好的优化后的目标外观特征和优化后的目标运动特征。

在一些实施例中，具体实施时，跨模态注意力机制模块可以按照以下算式通过融合所述优化后的目标外观特征和优化后的目标运动特征，得到所需要的融合后的目标特征：

其中，v表示融合后的目标特征，cat(.)表示对优化后的目标外观特征和优化后的目标运动特征进行拼接操作。

基于上述实施例，通过预设的特征处理模型中的跨模态注意力机制模块，可以有效地融合优化后的目标外观特征和优化后的目标运动特征这两种不同维度的特征数据，得到针对视频异常检测的，特征信息较为丰富、全面，效果相对较好的融合后的目标特征，进而后续预设的特征处理模型可以通过利用全连接神经网络基于上述融合后的目标特征准确地判断出目标视频是否存在异常目标。

在一些实施例中，参阅图7所示，所述方法具体实施时，还可以包括以下内容：

S1：构建初始模型；其中，所述初始模型至少包括初始的跨模态注意力机制模块和初始的全连接神经网络；

S2：获取并根据样本视频，构建得到样本正包和样本负包；

S3：根据所述样本正包、样本负包，以及预设的特征提取网络，获取相应的样本外观特征和样本运动特征；

S4：基于预设的损失函数，利用所述样本外观特征和样本运动特征，训练所述初始模型，以得到符合要求的预设的特征处理模型。

具体实施时，参阅图7所示，在获取样本视频后，首先，可以根据样本视频中是否存在异常目标，标记出样本视频是正常样本视频(例如，Normal Video)还是异常样本视频(例如，Anomaly Video)；再将其中的正常样本视频划分为样本负包(例如，B_n)，将异常样本视频划分为样本正包(例如，B_a)。其中，Dropouts表示随机失活。

接着，可以先对样本正包和样本负包中的样本视频进行划分，得到对应的多个(例如)样本图像片段和样本光流片段，可以分别记为：和再利用训练好的预设的特征提取网络I3D网络提取得到对应的样本外观特征和样本运动特征，可以分别记为：和

进而，可以基于预设的损失函数(例如，Loss)，利用所述样本外观特征和样本运动特征，训练所述初始模型，不断地调整模型参数，以使得基于该模型计算出样本正包和样本负包中的各样本视频的异常分数(例如，Anomaly Score，具体可以表示为：)中正常样本视频的异常分数与异常样本视频的异常分数之间的差异值大于预设的差异阈值为止，从而可以得到符合要求的预设的特征处理模型。

在一些实施例中，上述预设的损失函数具体可以是一种基于MIL排序算法改进后的损失函数。

具体的，上述预设的损失函数可以采用样本正包和样本负包中样本视频的最高异常分数计算MIL排序损失，并将该排序损失与hinge loss函数相结合。

基于上述预设的损失函数，可以更有针对性地扩大基于模型输出的异常样本视频与正常样本视频的异常分数之间的差距，以便模型能够更加准确地区分正常视频和异常视频。

具体的，上述预设的损失函数可以表示为以下形式：

其中，v_a为样本正包中异常样本视频的融合后的特征，v_n为样本负包中正常样本视频的融合后的特征，f(v_a)和f(v_n)分别表示样本正包中的异常样本视频的异常分数和样本负包中的正常样本视频的异常分数，和分别表示样本正包中异常样本视频的最高异常分数和样本负包中正常样本视频的最高异常分数。

在一些实施例中，一方面，考虑到视频数据在数据信息上具有连续性，因此按顺序排列的相邻片段之间的差异应尽可能小且具备平滑性，因此，可以进一步在损失函数中引入平滑项a进行控制。

其中，平滑项a具体可以按照以下算式设置：

另一方面，又考虑到在实际的应用场景中在所采集到的视频中异常目标往往很少发生且持续时间短，导致样本正包中的异常分数会表现相对稀疏，因此，可以进一步在损失函数中引入稀疏项b。

其中，稀疏项b具体可以按照以下算式设置：

此外，还考虑到为了避免在训练模型时出现过拟合现象，还可以在预设的损失函数中引入正则项||W||_F进行控制。

综合上述考虑，上述预设的损失函数可以表示为以下形式：

L(W)＝l(B_a,B_n)+λ₁a+λ₂b+||W||_F

其中，λ₁和λ₂分别为平滑项和稀疏项的权重系数。

基于上述预设的损失函数，可以更加快速地训练得到符合要求的预设的特征处理模型。

在一些实施例中，在根据所述目标处理结果，确定所述目标视频是否存在异常目标之后，所述方法还包括：在确定目标视频存在异常目标的情况下，可以生成关于该异常目标的警报提示，以提醒相关工作人员。此外，在确定目标视频存在异常目标的情况下，还可以将该目标视频保存于指定的异常视频数据库中进行存档，便于后续的回溯查询。

由上可见，本说明书实施例提供的视频异常检测方法，具体实施前，可以通过构建至少包括初始的跨模态注意力机制模块和初始的全连接神经网络的初始模型；并利用样本正包、样本负包，以及预设的特征提取网络，训练初始模型，得到至少包括跨模态注意力机制模块的预设的特征处理模型。具体实施时，在获取待处理的目标视频后，可以先将所获取的目标视频划分成多个目标图像片段和多个目标光流片段；再利用预设的特征提取网络处理多个目标图像片段和多个目标光流片段，得到目标外观特征和目标运动特征两种不同维度的视频特征；接着，再利用预设的特征处理模型先通过跨模态注意力机制模块去除目标外观特征和目标运动特征的冗余信息，得到相对应的针对视频异常检测的优化后的目标外观特征和优化后的目标运动特征；再融合上述两种特征，得到针对视频异常检测，且信息较为丰富、全面的融合后的目标特征；再利用预设的特征处理模型通过全连接神经网络处理融合后的目标特征，得到对应的目标处理结果，以便根据该目标处理结果确定目标视频是否存在异常目标。从而可以准确、高效地检测识别出目标视频中的异常目标，有效地提高了针对视频异常检测的检测效率和检测精度。

参阅图8所示，本说明书还提供一种适用于视频异常检测的模型训练方法，具体实施时，可以包括以下内容：

S801：构建初始模型；其中，所述初始模型至少包括初始的跨模态注意力机制模块和初始的全连接神经网络；

S802：获取并根据样本视频，构建得到样本正包和样本负包；

S803：根据所述样本正包、样本负包，以及预设的特征提取网络，获取相应的样本外观特征和样本运动特征；

S804：基于预设的损失函数，利用所述样本外观特征和样本运动特征，训练所述初始模型，以得到符合要求的预设的特征处理模型。

利用基于上述方式训练得到的预设的特征处理模型可以准确、高效地确定出目标视频是否存在异常目标。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标视频；根据目标视频，划分得到多个目标图像片段和多个目标光流片段；利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；根据所述目标处理结果，确定所述目标视频是否存在异常目标。

为了能够更加准确地完成上述指令，参阅图9所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口901、处理器902以及存储器903，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口901，具体可以用于获取目标视频。

所述处理器902，具体可以用于根据目标视频，划分得到多个目标图像片段和多个目标光流片段；利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；根据所述目标处理结果，确定所述目标视频是否存在异常目标。

所述存储器903，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口901可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器902可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器903可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述视频异常检测方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取目标视频；根据目标视频，划分得到多个目标图像片段和多个目标光流片段；利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；根据所述目标处理结果，确定所述目标视频是否存在异常目标。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图10所示，在软件层面上，本说明书实施例还提供了一种视频异常检测装置，该装置具体可以包括以下的结构模块：

获取模块1001，具体可以用于获取目标视频；

划分模块1002，具体可以用于根据目标视频，划分得到多个目标图像片段和多个目标光流片段；

提取模块1003，具体可以用于利用预设的特征提取网络通过处理多个目标图像片段和多个目标光流片段，得到对应的目标外观特征和目标运动特征；

处理模块1004，具体可以用于利用预设的特征处理模型处理所述目标外观特征和目标运动特征，得到关于目标视频的目标处理结果；其中，所述预设的特征处理模型至少包括：跨模态注意力机制模块；所述跨模态注意力机制模块用于去除所述目标外观特征和目标运动特征的冗余信息，得到相对应的优化后的目标外观特征和优化后的目标运动特征；所述跨模态注意力机制模块还用于融合所述优化后的目标外观特征和优化后的目标运动特征，得到融合后的目标特征；

确定模块1005，具体可以用于根据所述目标处理结果，确定所述目标视频是否存在异常目标。

在一些实施例中，所述预设的特征处理模型具体还可以包括全连接神经网络等；其中，所述全连接神经网络用于通过处理所述融合后的目标特征，输出对应的目标处理结果。

在一些实施例中，所述跨模态注意力机制模块具体可以按照以下方式去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征：将所述目标外观特征确定为第一主模态特征，并将所述目标运动特征确定为第一辅助模态特征；根据所述第一主模态特征，获取第一全局信息，并根据所述第一辅助模态特征，获取第一局部信息；根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征。

在一些实施例中，所述跨模态注意力机制模块至少可以包括：平均池化层、第一卷积层、第二卷积层，以及Sigmoid函数等结构。

在一些实施例中，所述跨模态注意力机制模块具体可以按照以下方式根据所述第一主模态特征，获取第一全局信息：通过所述平均池化层通过处理所述第一主模态特征，输出相对应的初始的第一全局信息；所述第一卷积层通过处理所述初始的第一全局信息，获取并利用相应通道的依赖关系，输出相对应的第一全局感知描述符作为所述第一全局信息。

在一些实施例中，所述跨模态注意力机制模块具体可以按照以下方式根据所述第一辅助模态特征，获取第一局部信息：通过所述第二卷积层通过处理所述第一辅助模态特征，输出相对应的第一局部感知描述符作为所述第一局部信息。

在一些实施例中，所述跨模态注意力机制模块具体可以按照以下方式根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征：将所述第一全局信息和所述第一局部信息相乘，得到第一通道描述符；利用基于Sigmoid函数和第一通道描述符所生成的信道级的第一优化权值，通过处理所述第一主模态特征，得到相对应的优化后的目标外观特征。

在一些实施例中，所述装置具体还可以包括训练模型，具体实施时，可以用于构建初始模型；其中，所述初始模型至少包括初始的跨模态注意力机制模块和初始的全连接神经网络；

获取并根据样本视频，构建得到样本正包和样本负包；根据所述样本正包、样本负包，以及预设的特征提取网络，获取相应的样本外观特征和样本运动特征；基于预设的损失函数，利用所述样本外观特征和样本运动特征，训练所述初始模型，以得到符合要求的预设的特征处理模型。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的视频异常检测装置，具体实施前，可以通过构建至少包括初始的跨模态注意力机制模块和初始的全连接神经网络的初始模型；并利用样本正包、样本负包，以及预设的特征提取网络，训练初始模型，得到至少包括跨模态注意力机制模块的预设的特征处理模型。具体实施时，在获取待处理的目标视频后，可以先将所获取的目标视频划分成多个目标图像片段和多个目标光流片段；再利用预设的特征提取网络处理多个目标图像片段和多个目标光流片段，得到目标外观特征和目标运动特征两种不同维度的视频特征；接着，再利用预设的特征处理模型先通过跨模态注意力机制模块去除目标外观特征和目标运动特征的冗余信息，得到相对应的针对视频异常检测的优化后的目标外观特征和优化后的目标运动特征；再融合上述两种特征，得到针对视频异常检测，且信息较为丰富、全面的融合后的目标特征；再利用预设的特征处理模型通过全连接神经网络处理融合后的目标特征，得到对应的目标处理结果，以便根据该目标处理结果确定目标视频是否存在异常目标。从而可以准确、高效地检测识别出目标视频中的异常目标，有效地提高了针对视频异常检测的检测效率和检测精度。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种视频异常检测方法，其特征在于，包括：

获取目标视频；

根据所述目标处理结果，确定所述目标视频是否存在异常目标；

其中，所述跨模态注意力机制模块按照以下方式去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征：将所述目标外观特征确定为第一主模态特征，并将所述目标运动特征确定为第一辅助模态特征；根据所述第一主模态特征，获取第一全局信息，并根据所述第一辅助模态特征，获取第一局部信息；根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征。

2.根据权利要求1所述的方法，其特征在于，所述预设的特征处理模型还包括全连接神经网络；其中，所述全连接神经网络用于通过处理所述融合后的目标特征，输出对应的目标处理结果。

3.根据权利要求1所述的方法，其特征在于，所述跨模态注意力机制模块至少包括：平均池化层、第一卷积层、第二卷积层，以及Sigmoid函数。

4.根据权利要求3所述的方法，其特征在于，根据所述第一主模态特征，获取第一全局信息，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述第一辅助模态特征，获取第一局部信息，包括：

6.根据权利要求3所述的方法，其特征在于，根据所述第一全局信息和所述第一局部信息，检测并去除所述目标外观特征的冗余信息，得到相对应的优化后的目标外观特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取并根据样本视频，构建得到样本正包和样本负包；

8.一种视频异常检测装置，其特征在于，包括：

获取模块，用于获取目标视频；

确定模块，用于根据所述目标处理结果，确定所述目标视频是否存在异常目标；

9.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。