CN117437578A

CN117437578A - 视频异常特征检测方法、装置、计算机设备及存储介质

Info

Publication number: CN117437578A
Application number: CN202311597658.0A
Authority: CN
Inventors: 陈丽; 郑勤华; 周炫余; 吴莲华; 肖天星; 杜君磊; 王怀波
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-01-23

Abstract

本发明涉及视频异常检测技术领域，公开了视频异常特征检测方法、装置、计算机设备及存储介质，该视频异常特征检测方法包括：获取待检测的目标视频数据；基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征；基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征；其中，融合视觉特征由目标视频数据的正常视觉特征和异常视觉特征融合得到；基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征；基于最终特征进行异常特征检测，得到异常特征检测结果；本发明能够满足对大规模的视频数据进行异常检测的需求，在异常特征检测时能够同时针对多种异常视觉特征进行检测。

Description

视频异常特征检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种视频异常特征检测方法、装置、计算机设备及存储介质。

背景技术

异常检测主要指在预期正常数据中检测出与正常数据有较大偏差的异常数据。异常检测已被用于许多重要领域，如视频监控、网络入侵检测、医疗保健和教育领域等。

针对视频领域的异常检测，由于采集设备参数各异、场景繁杂、采集过程不规范等原因，出现了大量的异常视频数据；针对上述异常视频数据的检测，传统检测方法主要依靠人工进行排查；然而，依靠人工进行排查难以满足对大规模的视频数据进行异常检测的需求。

发明内容

有鉴于此，本发明提供了一种视频异常特征检测方法、装置、计算机设备及存储介质，以解决现有的视频异常特征检测方法难以满足对大规模的视频数据进行异常检测的需求。

第一方面，本发明提供了一种视频异常特征检测方法，该视频异常特征检测方法包括：获取待检测的目标视频数据；基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征；基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征；其中，融合视觉特征由目标视频数据的正常视觉特征和异常视觉特征融合得到；基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征；基于最终特征进行异常特征检测，得到异常特征检测结果。

在一种可选的实施方式中，基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征，包括：提取目标视频数据的视频特征，得到目标视频数据的待分类视觉特征；将待分类视觉特征输入至预先训练好的视觉特征检测模型中，通过视觉特征检测模型，基于待分类视觉特征与预设视频特征的相似程度进行检测，得到正常视觉特征和异常视觉特征；其中，视觉特征检测模型由历史视频数据和对应的历史视觉特征分类结果进行训练得到；对正常视觉特征和异常视觉特征进行融合，得到融合视觉特征。

在一种可选的实施方式中，视觉特征检测模型包括由第一记忆项组成的第一特征提取网络和由第二记忆项组成的第二特征提取网络；基于待分类视觉特征与预设视频特征的相似程度进行检测，包括：通过第一特征提取网络基于第一记忆项对待分类视觉特征进行检测，得到正常视觉特征；通过第二特征提取网络基于第二记忆项对待分类视觉特征进行检测，得到异常视觉特征。

在一种可选的实施方式中，视频异常特征检测方法还包括：计算待分类视觉特征第一记忆项和第二记忆项的记忆项相似度；基于记忆项相似度确定最相关的目标记忆项；基于待分类视觉特征对目标记忆项进行更新。

在一种可选的实施方式中，视频异常特征检测方法还包括：对记忆项相似度进行归一化处理，得到第一记忆项和第二记忆项对应的注意力数值；基于注意力数值和对应的记忆项进行融合，得到融合视觉特征。

在一种可选的实施方式中，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征，包括：提取目标视频数据的语义特征，得到通用提示信息和状态提示信息；对通用提示信息和状态提示信息进行融合，得到语义先验特征。

在一种可选的实施方式中，基于语义先验特征和融合视觉特征进行特征融合，包括：获取预设语义特征集合；基于语义先验特征在预设语义特征集合中提取语义特征；基于语义特征和融合视觉特征的相似度进行特征融合，得到最终特征。

第二方面，本发明提供了一种视频异常检测装置，该视频异常检测装置包括：获取模块，用于获取待进行视频异常检测的目标视频数据；第一特征提取模块，用于基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征；第二特征提取模块，用于基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征；其中，融合视觉特征由目标视频数据的正常视觉特征和异常视觉特征融合得到；特征融合模块，用于基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征；异常评分模块，用于基于最终特征进行异常评分，得到异常检测结果。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的视频异常特征检测方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的视频异常特征检测方法。

本发明提供的视频异常特征检测方法，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征，以提取目标视频数据中可能包含多种异常视觉特征，从而增强对异常视觉特征的理解；并且，基于视频特征维度对目标视频数据进行第二特征提取，能够考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，解决了现有的视频异常特征检测方法难以满足对大规模的视频数据进行异常检测的需求的问题，在异常特征检测时能够同时针对多种异常视觉特征进行检测。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的视频异常特征检测方法的流程示意图；

图2是根据本发明实施例的另一视频异常特征检测方法的流程示意图；

图3是根据本发明实施例的再一视频异常特征检测方法的流程示意图；

图4是根据本发明实施例的又一视频异常特征检测方法的流程示意图；

图5是根据本发明实施例的一种视频异常特征检测模型的结构图；

图6是根据本发明实施例的视频异常检测装置的结构框图；

图7是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于教育场景下的体育活动视频数据而言，由于采集设备参数各异、场景繁杂、采集过程不规范等原因，出现了大量的异常体育活动视频数据；针对上述异常体育活动视频数据的检测，传统的视频异常特征检测方法主要依靠教育专家进行排查；然而，随着教育数据建设规模的逐渐扩大，传统的视频异常特征检测方法难以满足对大规模的体育活动视频数据进行异常检测的需求。

针对上述问题，随着人工智能技术的发展，基于数据挖掘和智能优化算法对视频进行异常检测成为潮流；相关技术中存在基于深度学习的视频异常特征检测方法主要分为半监督异常特征检测方法和弱监督异常特征检测方法；经发明人研究发现，半监督的异常特征检测方法只对正常数据进行训练，限制了模型的检测性能，难以满足教育领域高精度的需求。而弱监督的视频异常特征检测方法仅提供视频级别的标签，对正常数据和异常数据均进行训练，该方法相比于无监督方法引入了少量的先验信息，大幅提升了模型的检测性能；但是，该方法主要针对异常种类较为单一的监控视频，难以直接应用于异常类型较多的体育活动视频数据中。因此，目前亟需提出一种视频异常特征检测方法，以解决相关技术中的上述问题。

为解决上述问题，根据本发明实施例，提供了一种视频异常特征检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种视频异常特征检测方法，图1是根据本发明实施例的视频异常特征检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取待检测的目标视频数据。

示例性地，目标视频数据由拍摄设备拍摄得到，目标视频数据为目标主体进行体育活动时的体育活动视频数据，目标主体可以为学生、成年人、老年人等。

示例性地，目标视频数据中包含基于目标视频数据的属性信息，采用不同属性维度的文字特征对目标视频数据进行文字维度的标注，得到的目标视频数据的语义特征；具体地，在进行文字维度的标注时，考虑的方面至少包括表征目标视频数据所处动作类型的动作类型维度，以及表征目标视频数据所处状态的状态类型维度；其中，属性信息用于表征目标视频的体育活动属性，状态类型维度包括正常状态和异常状态；本发明将正常状态界定为国家智慧平台的采集规范，即规定学生处于镜头中心，面对镜头，全身出镜，且只包含学生一人。

因此本发明将不符合上述要求的视频界定为异常，在异常视频中，本发明筛选了大规模跳绳数据中存在的7种常见的异常跳绳状态视频，如表1所示。

表1异常类型汇总表

示例性地，体育活动视频数据可以为跳绳活动视频数据；在得到跳绳视频数据后，对跳绳视频数据进行动作类型维度和状态类型维度的文本标注。

步骤S102，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征。

由于目标视频数据中可能包含多种异常视觉特征，为了从文字维度增强对异常视觉特征的理解，在本实施例中基于文字特征维度对预先标注好的语义特征进行特征提取，使得在本发明中能够通过文字维度考虑目标视频数据的异常视觉特征。

步骤S103，基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征；其中，融合视觉特征由目标视频数据的正常视觉特征和异常视觉特征融合得到。

由于目标视频数据中可能同时包含异常视觉特征的视频数据和正常视觉特征的视频数据，示例性地，基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征，以同时考虑正常视觉特征和异常视觉特征对目标视频数据的异常特征检测的影响，

步骤S104，基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征。

为了使得在对目标视频数据进行检测时，考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，且，考虑多种异常视觉特征对异常特征检测影响，在本实施例中，基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征；在融合的过程中，保留目标视频数据可能具有的多种异常视觉特征和同时包含异常视觉特征的视频数据和正常视觉特征，以使得在进行异常特征检测时能够考虑上述几个方面的特征。

步骤S105，基于最终特征进行异常特征检测，得到异常特征检测结果。

本实施例提供的视频异常特征检测方法，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征，以提取目标视频数据中可能包含多种异常视觉特征，从而增强对异常视觉特征的理解；并且，基于视频特征维度对目标视频数据进行第二特征提取，能够考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，解决了现有的视频异常特征检测方法难以满足对大规模的视频数据进行异常检测的需求的问题，在异常特征检测时能够同时针对多种异常视觉特征进行检测。

在本实施例中提供了一种视频异常特征检测方法，图2是根据本发明实施例的视频异常特征检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取待检测的目标视频数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

步骤S202，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S203，基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征。

具体地，上述步骤S203包括：

步骤S2031，提取目标视频数据的视频特征，得到目标视频数据的待分类视觉特征。

步骤S2032，将待分类视觉特征输入至预先训练好的视觉特征检测模型中，通过视觉特征检测模型，基于待分类视觉特征与预设视频特征的相似程度进行检测，得到正常视觉特征和异常视觉特征。

示例性地，视觉特征检测模型由历史视频数据和对应的历史视觉特征分类结果进行训练得到；具体地，将历史视频数据输入至视觉特征检测模型中，通过视觉特征检测模型对待分类视觉特征进行分类，得到分类结果，在模型训练的过程中，不断调整模型参数，一方面，使得模型能够存储历史视觉特征中的典型的正常视觉特征和异常视觉特征；另一方面，使得模型能够学习不同的待分类视觉特征与特征类型的对应关系。

示例性地，在训练好模型后，待分类视觉特征输入至预先训练好的视觉特征检测模型中，通过视觉特征检测模型与预设视频特征的相似程度进行检测，得到正常视觉特征和异常视觉特征。

步骤S2033，对正常视觉特征和异常视觉特征进行融合，得到融合视觉特征。

相关技术中采用记忆网络进行视觉特征检测的方法，主要使用单个记忆网络存储并增强正常视频的特征；经发明人研究发现，当正常视频和异常视频相似度较大时，单个记忆网络难以对正常视觉特征和异常视觉特征进行区分；基于此，在一些可选的实施方式中，视觉特征检测模型包括由第一记忆项组成的第一特征提取网络和由第二记忆项组成的第二特征提取网络；

在本实施例中，视觉特征检测模型可以为双记忆网络模型；其中，单个记忆网络能够存储典型的视频特征，可用于正常视频的特征增强；而双记忆网络模型的设计，能够在进行视觉特征检测时扩大正常视频特征与异常视频特征之间的距离。

示例性的，双记忆网络中，每一记忆网络由m个维度为c的记忆项组成，以一个视频特征zj为查询，检索最相关的记忆项；其中，记忆项即为上述预设视频特征；示例性地，预设视频特征包括预设正常视觉子特征和预设异常视觉子特征；基于此，在一些可选的实施方式中，视觉特征检测模型包括两个记忆网络，其中，每一记忆网络由多个记忆项组成，第一记忆网络用于基于第一记忆项记忆正常视觉特征，由m个维度为c的第一记忆项组成，第二记忆网络用于基于第二记忆项记忆异常视觉特征，由m个维度为c的第二记忆项组成；其中，第一记忆项用于表征预设正常视觉子特征，第二记忆项用于表征预设异常视觉子特征。

上述步骤S2032包括：

步骤a1，通过第一特征提取网络基于第一记忆项对待分类视觉特征进行检测，得到正常视觉特征；

步骤a2，通过第二特征提取网络基于第二记忆项对待分类视觉特征进行检测，得到异常视觉特征。

在本实施例中，为了使得视觉特征检测模型进一步学习正常视频特征与异常视频特征之间的差异信息，采用自监督的方式对上述第一记忆项和第二记忆项进行更新；因此，在一些可选的实施方式中，该视频异常特征检测方法还包括：计算待分类视觉特征第一记忆项和第二记忆项的记忆项相似度；基于记忆项相似度确定最相关的目标记忆项；基于待分类视觉特征对目标记忆项进行更新。

具体地，可以通过计算待分类视觉特征与第一记忆项和第二记忆项的欧氏距离以实现计算待分类视觉特征第一记忆项和第二记忆项的记忆项相似度，也可以通过计算待分类视觉特征与第一记忆项和第二记忆项的余弦相似度以实现计算待分类视觉特征第一记忆项和第二记忆项的记忆项相似度；示例性地，以余弦相似度为例对本实施例进行说明。

示例性地，首先计算记忆网络中第i个记忆项与待分类的第j个视觉特征之间的余弦相似性，计算公式如下：

公式(1)中，e_i表示第i个记忆项，Z_j表示第j个待分类视觉特征，表示由待分类视觉特征z_j构成的矩阵转置。

之后，检索与该视频特征最相关的记忆项，并将该记忆项记为k_j，具体地，采用argmax函数进行计算，计算公式如下：

k_j＝arg_imaxs_ij (2)

其中，arg_i表示第i个记忆项对应的第i个自变量，maxs_ij表示由余弦相似度最大的记忆项构成的集合。

最后，对最相关的记忆项进行更新，具体地，更新公式如下：

其中，τ为衰减率，τ∈[0,1]，j为第j个视频特征，k_(j)为与第j个视频特征最相关的记忆项索引。

在对第一记忆项、第二记忆项单独进行更新或同时对第一记忆项、第二记忆项进行更新之后，有必要对记忆项对应的注意力进行更新，以实现对视觉特征的增强；因此，在一些可选的实施方式中，视频异常特征检测方法还包括：对记忆项相似度进行归一化处理，得到第一记忆项和第二记忆项对应的注意力数值；基于注意力数值和对应的记忆项进行融合，得到融合视觉特征。

示例性地，在更新记忆网络后，对视频特征进行增强。首先对计算得到的余弦相似度进行归一化处理，得到注意力a_ij。

其中，exp(·)表示对变量归一化处理，s_ij表示由公式(1)计算得到，表示第i个记忆项和第j个视频特征计算得到的相似度，m表示记忆项个数。

其次，基于注意力对记忆项的特征进行聚合得到增强的视频特征

步骤S204，基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征。详细请参见图1所示实施例的步骤S104，在此不再赘述。

步骤S205，基于最终特征进行异常特征检测，得到异常特征检测结果。详细请参见图1所示实施例的步骤S105，在此不再赘述。

本实施例提供的视频异常特征检测方法，每一记忆网络分别存储并增强正常视觉特征和异常视觉特征，充分考虑了正常视觉特征和异常视觉特征的差异程度，能够有效地对正常视觉特征和异常视觉特征进行区分。

通过对现有的跳绳视频数据进行整理分析，本发明发现现有跳绳数据异常状态类型较多，模型难以一一理解进行学习。因此，本发明引入语义引导模块，通过迁移大规模图文数据预训练模型CLIP中蕴含的知识，增强对多种跳绳异常类型的理解；基于此，在本实施例中提供了一种视频异常特征检测方法，图3是根据本发明实施例的视频异常特征检测方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取待检测的目标视频数据。详细请参见图2所示实施例的步骤S201，在此不再赘述。

步骤S302，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征。

具体地，步骤S302包括：

步骤S3021，提取目标视频数据的语义特征，得到通用提示信息和状态提示信息。

在本发明中，对于目标视频数据基于语义特征维度设计了两级提示，将目标视频数据的动作类型和状态类型转换为文本描述；其中，对于动作类型的文本描述模板为“{类型}的跳绳视频”、“一种{类型}的跳绳视频”、“针对异常检测的{类型}跳绳视频”等；正常视频状态的提示模板为“没有踮脚”、“有绳”、“全身出镜”、“正面入镜”和“正置视频”；异常视频状态的提示模板为“非跳绳视频”、“踮脚”、“完全侧身”、“未全身入镜”、“背面入镜”和“横置视频”；应理解的，目标视频数据包含正常视觉特征时对应上述正常视频状态，目标视频数据包含异常视觉特征时对应上述异常视频状态。

步骤S3022，对通用提示信息和状态提示信息进行融合，得到语义先验特征。

例如给定动作类型为单脚跳，状态类型为背面入镜，一级提示首先将其填入通用模板“{类型}的跳绳视频”得到动作类型描述单脚跳的跳绳视频，二级提示在此基础上加入状态级提示“背面入镜”得到最终的文本描述“一类背面入镜的单脚跳跳绳视频”。

示例性地，针对跳绳的目标视频数据，提取目标视频数据的语义特征得到的结果为，通用提示信息为单脚跳，状态提示信息为背面入镜，在融合的过程中，首先将通用提示信息填入通用模板{类型}的跳绳视频”得到动作类型描述“单脚跳的跳绳视频”，基于状态提示信息在此基础上加入状态级提示“背面入镜”得到文本描述“一类背面入镜的单脚跳跳绳视频”。

示例性地，在通过上述提示模板得到文本描述后，本发明使用预训练的文本编码器得到文本描述的语义特征集合t＝{t1,...,t_n}。

步骤S303，基于视频特征维度对目标视频数据进行第二特征提取。详细请参见图2所示实施例的步骤S203，在此不再赘述。

步骤S304，基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征。详细请参见图2所示实施例的步骤S204，在此不再赘述。

步骤S305，基于最终特征进行异常特征检测，得到异常特征检测结果。详细请参见图2所示实施例的步骤S205，在此不再赘述。

在本实施例中，提取目标视频数据的语义特征，得到通用提示信息和状态提示信息，对通用提示信息和状态提示信息进行融合，得到语义先验特征，以引入语义引导模块，使得在进行异常特征检测时考虑多种跳绳异常类型对异常特征检测的影响。

为了使得在对目标视频数据进行检测时，考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，且，考虑多种异常视觉特征对异常特征检测影响，在一些可选的实施方式中，图4是根据本发明实施例的视频异常特征检测方法的流程图，如图4所示，该流程包括如下步骤：

步骤S401，获取待检测的目标视频数据。详细请参见图3所示实施例的步骤S301，在此不再赘述。

步骤S402，基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征；详细请参见图3所示实施例的步骤S302，在此不再赘述。

步骤S403，基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征；详细请参见图3所示实施例的步骤S303，在此不再赘述。

步骤S404，基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征。

具体地，步骤S404包括：

步骤S4041，获取预设语义特征集合。

在本实施例中，预设语义特征集合为使用预训练的文本编码器提取历史视觉特征得到文本描述的语义特征集合t＝{t1,...,t_n}；其中，历史视觉特征包括历史正常视觉子特征和历史异常视觉子特征，预训练的文本编码器为大规模图文数据预训练模型(Contrastive Language-Image Pre-training，CLIP)。

步骤S4042，基于语义先验特征在预设语义特征集合中提取语义特征。

步骤S4043，基于语义特征和融合视觉特征的相似度进行特征融合，得到最终特征。

在本实施例中，可以采用concat的方式进行特征融合；通过concat的融合方式可以将语义特征和融合视觉特征按照通道维度进行拼接，得到最终特征；上述融合的方式，语义特征考虑了多种异常视觉特征对异常特征检测影响，融合视觉特征考虑了正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，在进行异常状态检测时能够考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，且，考虑多种异常视觉特征对异常特征检测影响，在检测时能够更加准确。

步骤S405，基于最终特征进行异常特征检测，得到异常特征检测结果。详细请参见图3所示实施例的步骤S304，在此不再赘述。

本实施例提供的视频异常特征检测方法，在进行异常状态检测时能够考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，且，考虑多种异常视觉特征对异常特征检测影响，在检测时能够更加准确。

作为本发明实施例的一个或多个具体应用实施例，可以采用预先训练好的视频异常特征检测模型实现上述实施例示出的方法；图5是根据本发明实施例的一种视频异常特征检测模型的结构图，在本实施例中，将结合图5对本发明的技术方案进行说明。

示例性地，如图5所示，视频异常特征检测模型包括语义特征提取子模型、视觉特征提取子模型和异常评分子模型；其中，目标视频数据经语义特征提取子模型得到文本特征，目标视频数据经视觉特征提取子模型得到视觉特征，视觉特征和文本特征经异常评分子模型进行评分，得到异常特征检测结果。

具体地，在获取到待检测的目标视频数据后，语义特征提取子模型首先基于提示信息库，提取状态提示信息和通用提示信息，之后将状态提示信息和通用提示信息进行融合，将融合后的提示信息输入至CLIP文本编码器，经过池化层得到语义特征。

在获取到待检测的目标视频数据后，视觉特征提取子模型首先依次通过CLIP图像编码器和时序注意力网络对目标视频数据进行特征提取，得到待检测视觉特征；之后视觉特征分别输入至异常视频记忆网络和正常视频记忆网络中，得到异常视觉特征和正常视觉特征，并且基于待检测视觉特征采用自监督更新的方式对神经网络进行更新，最后将正常视觉特征和异常视觉特征进行融合，得到融合视觉特征。

在得到融合视觉特征和文本特征后，异常评分子模型首先将融合视觉特征和语义特征进行融合，得到最终特征，并基于最终特征进行异常评分。

示例性地，在对视频异常特征检测模型进行训练时，模型训练的目标函数由重建损失和交叉熵损失组成；基于重构的方法主要对输入视频进行编码和解码，并以降低重构误差为目标训练神经网络。在此过程中，较常用的损失函数是均方误差，它用图像重构前后所有像素点的像素值之差的平方均值衡量图像重构的质量；均方误差的计算如公式(6)所示：

其中，z^t为输入特征，为重建的输出特征。

在视频级标签的监督下，模型采用交叉熵损失进行优化。交叉熵的计算公式如公式(7)所示：

其中y_i表示预测的结果，y′_i表示视频级的标签；

最终模型的损失如(8)所示，其中λ为超参数。

loss＝loss_rec+λloss_entro (8)

示例性地，为了综合评估本发明的异常检测方法的性能，发明人使用受试者工作特征(receiver operating characteristic，ROC)曲线所对应的面积(area under thecurve，AUC)来作为模型特性的衡量指标。AUC可以定量地描述出模型的性能，表示预测为正的概率值比预测为负的概率值大的可能性，即算法根据得分值将随机挑选的正样本排在负样本前面的概率。

为了进一步验证本发明提出的视频异常特征检测模型(CSC-ME)中不同子模型所包含的功能模块的有效性，本发明在自建跳绳数据集上对模型开展消融使用，比较模型中不同模块的性能。具体为探究双记忆网络和语义引导模块对结果的影响；消融实验AUC指标结果如表2所示。其中，w/o All表示去掉本文中设计的所有新模块；表2是本发明的消融实验结果表，参见表2：

表2

从表2的结果可以明显看出，本发明的引入语义引导模块和双记忆网络的技术方案，网络的性能得到了显著的提升；引入语义引导模块和双记忆网络的加入，在异常跳绳数据分类任务中发挥了关键作用，并在多方面改善了模型性能。首先，语义引导模块的加入对网络的性能产生了积极影响；该模块利用了大规模预训练模型中的知识，将异常类型的语义信息引入模型，从而增强了模型对异常类型的理解，这一步骤对于更好地区分不同的异常跳绳行为起到了关键作用。通过引入语义引导模块，模型可以更准确地识别和分类异常跳绳数据，从而提高了AUC性能。其次，双记忆网络的改进进一步增强了模型的性能；该网络的设计允许模型同时保留正常和异常数据的特征表示，而不仅仅是正常数据，这避免了单一记忆网络只能表示正常数据的缺陷。通过双记忆网络，模型能够更好地适应正常和异常数据之间的差异，提高了模型的泛化性和性能。最后，当语义引导模块和双记忆网络结合在一起时，网络的性能得到了更多的提升。这种组合利用了语义信息的引导和对特征的双重保留，进一步增强了模型的分类和识别能力。这表明这两个模块之间存在协同效应，可以提高模型的综合性能。

(二)对比实验

为了横向比较本文所提算法的性能，在自建数据集上与经典算法比较AUC指标，表3为对比实验结果，参见表3：

表3

如表3，表3展示了不同模型在处理跳绳数据时的性能差异；在缺乏先验信息的情况下，无监督方法的AUC值普遍低于弱监督方法。例如，MPN模型和GCL模型的AUC值分别为56.03％和78.01％。弱监督方法提供了视频级的标签，引入了少量的先验信息，因此AUC值得到显著提高。具体而言，IBL模型采用多实例学习策略进行跳绳视频的异常检测，并引入袋内损失(inner bag loss)来约束正常视频和异常视频的特征空间，其AUC值为82.69％。为了减少训练批次之间的数据相关性，CLAWS模型采用随机批次的训练方法，其AUC值达到了87.28％。然而，IBL模型和CLAWS模型只考虑当前跳绳视频帧的信息，忽略了时间上下文的语义。因此，CRFD模型采用因果时间关系模块来捕获视频帧之间的局部时间依赖关系，对特征进行时序增强，取得了89.24％的AUC值。在异常检测模型的训练初期，由于模型训练的精度不足，往往导致其选择出错误的异常片段。为了减少模型选择错误的概率，MSL模型采用多个视频片段组成的序列作为优化单元，并引入自训练策略逐步学习并调整异常得分，其AUC值为90.01％。为了更全面地理解和区分正常和异常跳绳行为，UR-DMU模型引入记忆网络分别存储正常和异常类跳绳数据的信息，将正常和异常的跳绳数据成对训练，AUC值达到了91.43％。然而，该方法提出的记忆网络采用反向传播策略对记忆项进行更新，易导致模型陷入局部最小值，收敛速度较慢，增加训练的成本。

本发明进一步提出了CSC-ME模型，该模型引入了跳绳异常类型提示的语言先验信息，并采用自监督更新策略对UR-DMU的记忆网络进行改进；这些改进将AUC提升到94.14％，相比之前的SOTA模型UR-DMU，获得了2.71％的性能提升。这意味着CSC-ME模型在异常跳绳数据检测任务中取得了令人满意的成果，显著提高了模型的性能。

在本实施例中还提供了一种视频异常检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种视频异常检测装置，如图6所示，包括：

数据获取模块501，用于获取待检测的目标视频数据。

第一特征提取模块502，用于基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征。

第二特征提取模块503，用于基于视频特征维度对目标视频数据进行第二特征提取，得到融合视觉特征。

特征融合模块504，用于基于语义先验特征和融合视觉特征进行特征融合，得到目标视频数据的最终特征。

异常特征检测模块505，用于基于最终特征进行异常特征检测，得到异常特征检测结果。

本实施例的视频异常检测装置，第一特征提取模块502基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征，以提取目标视频数据中可能包含多种异常视觉特征，从而增强对异常视觉特征的理解；并且，第二特征提取模块503基于视频特征维度对目标视频数据进行第二特征提取，能够考虑正常视觉特征和异常视觉特征同时对目标视频数据的异常特征检测的影响，解决了现有的视频异常特征检测方法难以满足对大规模的视频数据进行异常检测的需求的问题，在异常特征检测时能够同时针对多种异常视觉特征进行检测。

在一些可选的实施方式中，第二特征提取模块503包括：

视觉特征提取单元，用于提取目标视频数据的视频特征，得到目标视频数据的待分类视觉特征；

视觉特征检测单元，用于将待分类视觉特征输入至预先训练好的视觉特征检测模型中，通过视觉特征检测模型，基于待分类视觉特征与预设视频特征的相似程度进行检测，得到正常视觉特征和异常视觉特征；其中，视觉特征检测模型由历史视频数据和对应的历史视觉特征分类结果进行训练得到；

视觉特征融合单元，用于对正常视觉特征和异常视觉特征进行融合，得到融合视觉特征。

在一些可选的实施方式中，视觉特征检测单元包括：

正常视觉特征提取子单元，用于通过第一特征提取网络基于第一记忆项对待分类视觉特征进行检测，得到正常视觉特征；

异常视觉特征提取子单元，用于通过第二特征提取网络基于第二记忆项对待分类视觉特征进行检测，得到异常视觉特征。

在一些可选的实施方式中，视频异常检测装置还包括：

相似度计算单元，用于计算待分类视觉特征所述第一记忆项和所述第二记忆项的记忆项相似度；

目标记忆项确定单元，用于基于所述记忆项相似度确定最相关的目标记忆项；

更新单元，用于基于所述待分类视觉特征对所述目标记忆项进行更新。

在一些可选的实施方式中，视频异常检测装置还包括：

归一化处理模块，用于对记忆项相似度进行归一化处理，得到第一记忆项和第二记忆项对应的注意力数值；

得到融合视觉特征确定模块，用于基于注意力数值和对应的记忆项进行融合，得到融合视觉特征。

在一些可选的实施方式中，第一特征提取模块502包括：

提示信息提取单元，用于提取目标视频数据的语义特征，得到通用提示信息和状态提示信息；

提示信息融合单元，用于对通用提示信息和状态提示信息进行融合，得到语义先验特征。

在一些可选的实施方式中，特征融合模块504包括：

语义特征集合获取模块，用于获取预设语义特征集合；

语义特征提取模块，用于基于语义先验特征在预设语义特征集合中提取语义特征；

最终特征确定模块，用于基于语义特征和融合视觉特征的相似度进行特征融合，得到最终特征。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的视频异常检测装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图6所示的视频异常检测装置。

请参阅图7，图7是本发明可选实施例提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种视频异常特征检测方法，其特征在于，所述视频异常特征检测方法包括：

获取待检测的目标视频数据；

基于文字特征维度对所述目标视频数据进行第一特征提取，得到语义先验特征；

基于视频特征维度对所述目标视频数据进行第二特征提取，得到融合视觉特征；其中，所述融合视觉特征由所述目标视频数据的正常视觉特征和异常视觉特征融合得到；

基于所述语义先验特征和所述融合视觉特征进行特征融合，得到所述目标视频数据的最终特征；

基于所述最终特征进行异常特征检测，得到异常特征检测结果。

2.根据权利要求1所述的视频异常特征检测方法，其特征在于，所述基于视频特征维度对所述目标视频数据进行第二特征提取，得到融合视觉特征，包括：

提取所述目标视频数据的视频特征，得到所述目标视频数据的待分类视觉特征；

将所述待分类视觉特征输入至预先训练好的视觉特征检测模型中，通过所述视觉特征检测模型，基于所述待分类视觉特征与预设视频特征的相似程度进行检测，得到所述正常视觉特征和所述异常视觉特征；其中，所述视觉特征检测模型由历史视频数据和对应的历史视觉特征分类结果进行训练得到；

对所述正常视觉特征和所述异常视觉特征进行融合，得到所述融合视觉特征。

3.根据权利要求2所述的视频异常特征检测方法，其特征在于，所述视觉特征检测模型包括由第一记忆项组成的第一特征提取网络和由第二记忆项组成的第二特征提取网络；

所述基于所述待分类视觉特征与预设视频特征的相似程度进行检测，包括：

通过第一特征提取网络基于第一记忆项对所述待分类视觉特征进行检测，得到所述正常视觉特征；

通过第二特征提取网络基于第二记忆项对所述待分类视觉特征进行检测，得到所述异常视觉特征。

4.根据权利要求3所述的视频异常特征检测方法，其特征在于，所述视频异常特征检测方法还包括：

计算待分类视觉特征所述第一记忆项和所述第二记忆项的记忆项相似度；

基于所述记忆项相似度确定最相关的目标记忆项；

基于所述待分类视觉特征对所述目标记忆项进行更新。

5.根据权利要求4所述的视频异常特征检测方法，其特征在于，所述视频异常特征检测方法还包括：

对所述记忆项相似度进行归一化处理，得到第一记忆项和第二记忆项对应的注意力数值；

基于所述注意力数值和对应的所述记忆项进行融合，得到所述融合视觉特征。

6.根据权利要求1所述的视频异常特征检测方法，其特征在于，所述基于文字特征维度对目标视频数据进行第一特征提取，得到语义先验特征，包括：

提取所述目标视频数据的语义特征，得到通用提示信息和状态提示信息；

对所述通用提示信息和所述状态提示信息进行融合，得到所述语义先验特征。

7.根据权利要求1所述的视频异常特征检测方法，其特征在于，所述基于所述语义先验特征和所述融合视觉特征进行特征融合，包括：

获取预设语义特征集合；

基于所述语义先验特征在预设语义特征集合中提取语义特征；

基于所述语义特征和所述融合视觉特征的相似度进行特征融合，得到所述最终特征。

8.一种视频异常检测装置，其特征在于，所述视频异常检测装置包括：

获取模块，用于获取待进行视频异常检测的目标视频数据；

第一特征提取模块，用于基于文字特征维度对所述目标视频数据进行第一特征提取，得到语义先验特征；

第二特征提取模块，用于基于视频特征维度对所述目标视频数据进行第二特征提取，得到融合视觉特征；其中，所述融合视觉特征由所述目标视频数据的正常视觉特征和异常视觉特征融合得到；

特征融合模块，用于基于所述语义先验特征和所述融合视觉特征进行特征融合，得到所述目标视频数据的最终特征；

异常评分模块，用于基于所述最终特征进行异常评分，得到异常检测结果。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的视频异常特征检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的视频异常特征检测方法。