CN117746298A

CN117746298A - 视频异常检测方法、装置、电子设备和存储介质

Info

Publication number: CN117746298A
Application number: CN202311804372.5A
Authority: CN
Inventors: 陈茂东; 谌鹏; 丁东成; 程大龙; 常欢; 殷保才; 胡金水; 魏思
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-03-22

Abstract

本发明提供一种视频异常检测方法、装置、电子设备和存储介质，涉及计算机视觉技术领域。方法包括：获取检测场景对应的提示样本集，提示样本集包括至少一个正常样本和至少一个异常样本，正常样本包括第一样本视频和其对应的第一文本描述数据，异常样本包括第二样本视频和其对应的第二文本描述数据；将各第一样本视频的视频特征、各第一文本描述数据的文本特征、各第二样本视频的视频特征，以及各第二文本描述数据的文本特征，输入至任务编码模型得到任务编码；基于任务编码，更新视频异常检测模型的模型参数；将待检测视频的视频特征输入至更新后的视频异常检测模型，得到视频异常检测结果。本发明可以快速适应各种视频异常检测场景的需求。

Description

视频异常检测方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频异常检测方法、装置、电子设备和存储介质。

背景技术

随着计算机视觉技术的迅速发展，视频异常检测的应用范围越来越广泛，例如，起火检测、家居跌倒检测、工业违规操作检测和体育违规检测等等。因此，需要针对各检测场景构建对应的视频异常检测模型。

目前，在面临新的新增检测场景时，需要重新构建和训练该新增检测场景对应的视频异常检测模型，或者，需要对旧的检测场景对应的视频异常检测模型进行重新训练。然而，现有方式均需要进行模型训练，导致针对新增检测场景时，需要耗费较多的训练时间，进而导致视频异常检测的效率降低。

发明内容

本发明提供一种视频异常检测方法、装置、电子设备和存储介质，用以解决现有技术中针对新增检测场景的视频异常检测的效率低的缺陷，实现快速适应各种视频异常检测场景的需求。

本发明提供一种视频异常检测方法，包括：

确定待检测视频，以及所述待检测视频对应的检测场景；

获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据；

将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑；

基于所述任务编码，更新视频异常检测模型的模型参数；

将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

根据本发明提供的一种视频异常检测方法，所述将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，包括：

分别将各所述第一样本视频的视频特征与各所述第一文本描述数据的文本特征进行特征融合，得到所述至少一个正常样本的第一融合特征，并分别将各所述第二样本视频的视频特征与各所述第二文本描述数据的文本特征进行特征融合，得到所述至少一个异常样本的第二融合特征；

分别将所述至少一个正常样本的第一融合特征，输入至所述任务编码模型中的特征提取层，得到所述特征提取层输出的所述至少一个正常样本的第一表示特征，并分别将所述至少一个异常样本的第二融合特征，输入至所述特征提取层，得到所述特征提取层输出的所述至少一个异常样本的第二表示特征；

将所述至少一个正常样本的第一表示特征进行特征融合，得到正常表示特征，并将所述至少一个异常样本的第二表示特征进行特征融合，得到异常表示特征；

将所述正常表示特征与所述异常表示特征进行特征融合，得到融合表示特征；

将所述融合表示特征输入至所述任务编码模型的任务编码层，得到所述任务编码层输出的任务编码。

根据本发明提供的一种视频异常检测方法，任一所述正常样本的第一融合特征是基于如下方式确定：

将所述正常样本中的所述第一样本视频的视频特征与所述正常样本中的所述第一文本描述数据的文本特征进行特征融合，得到所述正常样本的第一融合特征；

其中，所述第一样本视频的视频特征是基于如下方式确定：

获取所述第一样本视频的视频时空特征，所述视频时空特征包括多个通道的时空特征图；

针对任一所述通道，将所述通道的时空特征图进行特征整合，得到所述通道的通道特征；

将各所述通道的通道特征进行特征拼接，得到所述第一样本视频的视频特征。

根据本发明提供的一种视频异常检测方法，所述任务编码模型是基于如下方式训练：

获取样本检测场景对应的提示样本训练集，所述提示样本训练集包括至少一个第一正常训练样本和至少一个第一异常训练样本，所述第一正常训练样本包括所述样本检测场景对应的正常的第三样本视频和所述第三样本视频对应的第三文本描述数据，所述第一异常训练样本包括所述样本检测场景对应的异常的第四样本视频和所述第四样本视频对应的第四文本描述数据；

将各所述第三样本视频的视频特征、各所述第三文本描述数据的文本特征、各所述第四样本视频的视频特征，以及各所述第四文本描述数据的文本特征，输入至待训练模型，得到所述待训练模型输出的样本任务编码；

基于所述样本任务编码，更新所述视频异常检测模型的模型参数；

将所述样本检测场景对应的第五样本视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的样本视频异常检测结果；

基于所述样本视频异常检测结果和所述第五样本视频对应的视频异常检测结果标签，对所述待训练模型进行训练，得到所述任务编码模型。

根据本发明提供的一种视频异常检测方法，所述将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，之前还包括：

获取所述检测场景对应的正样本，以及所述正样本对应的负样本，所述正样本包括至少一个第二正常训练样本和至少一个第二异常训练样本，所述第二正常训练样本包括所述检测场景对应的正常的第六样本视频和所述第六样本视频对应的第五文本描述数据，所述第二异常训练样本包括所述检测场景对应的异常的第七样本视频和所述第七样本视频对应的第六文本描述数据，所述负样本包括至少一个第三正常训练样本和至少一个第三异常训练样本，所述第三正常训练样本包括第八样本视频和所述第八样本视频对应的第七文本描述数据，所述第三异常训练样本包括第九样本视频和所述第九样本视频对应的第八文本描述数据；

将各所述第六样本视频的视频特征、各所述第五文本描述数据的文本特征、各所述第七样本视频的视频特征，以及各所述第六文本描述数据的文本特征，输入至初始任务编码模型，得到所述初始任务编码模型输出的所述正样本对应的第一任务编码，并将各所述第八样本视频的视频特征、各所述第七文本描述数据的文本特征、各所述第九样本视频的视频特征，以及各所述第八文本描述数据的文本特征，输入至初始任务编码模型，得到所述初始任务编码模型输出的所述负样本对应的第二任务编码；

基于所述第一任务编码和所述第二任务编码，对所述初始任务编码模型进行对比学习训练，得到所述任务编码模型。

根据本发明提供的一种视频异常检测方法，任一所述第一样本视频的视频特征是基于视频编码器编码得到的，任一所述第一文本描述数据的文本特征是基于文本编码器编码得到的；

所述视频编码器和所述文本编码器是基于如下方式训练得到：

获取第十样本视频和所述第十样本视频对应的第九文本描述数据；

基于所述第十样本视频和所述第九文本描述数据，对所述视频编码器对应的待训练编码器和所述文本编码器对应的待训练编码器进行对齐训练，得到所述视频编码器和所述文本编码器。

根据本发明提供的一种视频异常检测方法，所述第一文本描述数据包括所述检测场景对应的场景描述数据和所述检测场景对应的异常描述数据。

本发明还提供一种视频异常检测装置，包括：

场景确定模块，用于确定待检测视频，以及所述待检测视频对应的检测场景；

样本获取模块，用于获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据；

任务编码模块，用于将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑；

参数更新模块，用于基于所述任务编码，更新视频异常检测模型的模型参数；

异常检测模块，用于将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视频异常检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视频异常检测方法。

本发明提供的视频异常检测方法、装置、电子设备和存储介质，确定待检测视频，以及待检测视频对应的检测场景，以获取该检测场景对应的提示样本集，且提示样本集包括至少一个正常样本和至少一个异常样本，且正常样本包括该检测场景对应的正常的第一样本视频和第一样本视频对应的第一文本描述数据，且异常样本包括该检测场景对应的异常的第二样本视频和第二样本视频对应的第二文本描述数据，以将各第一样本视频的视频特征、各第一文本描述数据的文本特征、各第二样本视频的视频特征，以及各第二文本描述数据的文本特征，输入至任务编码模型，得到任务编码模型输出的任务编码，且任务编码用于表征该检测场景对应的检测任务的异常判别逻辑，从而准确得到表征该检测场景对应的检测任务的异常判别逻辑的任务编码，进而基于任务编码，准确更新视频异常检测模型的模型参数，进而将待检测视频的视频特征输入至更新后的视频异常检测模型，准确得到更新后的视频异常检测模型输出的视频异常检测结果，以提高视频异常检测模型对于该检测场景的检测准确性；同时，通过上述方式，在面临新的新增检测场景时，只需获取该检测场景对应的提示样本集，并基于该提示样本集得到该检测场景对应的任务编码，即可快速更新视频异常检测模型的模型参数，以快速得到可以对该新增检测场景进行异常检测的模型，无需进行模型训练，从而提高视频异常检测的效率，即实现快速适应新增检测场景的需求，减少对新增检测场景的开发适应成本；同时，通过上述方式，只需获取该检测场景对应的少量提示样本，即可得到任务编码，从而无需标注大量数据，进而减少样本收集时间和样本收集成本，最终提高视频异常检测的效率；同时，通过上述方式，可以直接在旧检测场景对应的视频异常检测模型上进行模型参数的更新，无需重新调整或部署视频异常检测模型，从而减少满足新的检测场景需求的调整时间，最终提高视频异常检测的效率；同时，通过上述方式，无需进行模型训练，从而无需在模型的应用端上完成模型训练，进而降低对模型应用端的硬件要求。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的视频异常检测方法的流程示意图之一；

图2为本发明提供的视频异常检测方法的流程示意图之二；

图3为本发明提供的视频异常检测方法的流程示意图之三；

图4为本发明提供的视频异常检测方法的流程示意图之四；

图5为本发明提供的视频异常检测装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的视频异常检测模型的训练方式主要包括有监督、半监督和无监督的，模型在不同组成、规模的训练集上做训练，如只在包括正常样本的数据集上做无监督的重构训练或做域适应迁移训练等等。然而，在面临新的检测场景时，均需要做或多或少的模型训练操作，有的需要重新采集大量数据重新训练模型，有的则需要基于新场景的少量样本重新训练模型，导致针对新增检测场景时，需要耗费较多的训练时间，进而导致视频异常检测的效率降低。例如，起火检测的模型如何快速应用到家居跌倒检测、工业违规操作检测、体育违规检测等等，现有方式都不可避免需要训练模型，从而导致需要有一定的开发适应成本。

此外，现有方式均需要进行模型训练，导致针对新增检测场景时，需要花费较多时间调整旧检测场景对应的视频异常检测模型，且需要花费较多时间部署新增检测场景对应的视频异常检测模型，从而需要花费大量时间满足新的检测场景需求。

此外，现有方式均需要进行模型训练，导致针对新增检测场景时，需要满足较高的硬件要求，然而，视频异常检测模型大多部署于移动端等硬件配置较低的设备上，基于此，无法在模型的应用端上完成模型训练，还需要在另一训练端上完成模型训练，进而导致需要花费大量时间满足新的检测场景需求，且对硬件要求也高。

针对上述问题，本发明提出以下各实施例。图1为本发明提供的视频异常检测方法的流程示意图之一，如图1所示，该视频异常检测方法包括：

步骤110，确定待检测视频，以及所述待检测视频对应的检测场景。

此处，待检测视频为待视频异常检测的视频。不同检测场景对应不同的视频异常检测任务，即对应不同的视频异常检测需求。该检测场景可以包括但不限于：起火检测、家居跌倒检测、工业违规操作检测和体育违规检测等等。例如，检测场景为体育场景中运球评测中的违规检测，则待检测视频为人正在做篮球运球动作的视频。

在一实施例中，若待检测视频对应的检测场景为新增的检测场景，即该待检测视频对应的检测场景与视频异常检测模型对应的目标检测场景不相同，则基于下述步骤120-步骤150，可以快速得到满足该新增的检测场景的检测需求的视频异常检测模型。该视频异常检测模型之前是针对该目标检测场景的样本集训练得到的，或其之前是针对该目标检测场景对应的提示样本集更新得到的(具体执行过程与下述步骤120-步骤140基本相同)，后续在步骤140之后，将更新后的视频异常检测模型对应的目标检测场景更新为该待检测视频对应的检测场景。

在另一实施例中，若待检测视频对应的检测场景为旧的检测场景，即该待检测视频对应的检测场景与视频异常检测模型对应的目标检测场景相同，则基于下述步骤120-步骤150，随着该检测场景对应的提示样本集的扩增，可以在模型的应用过程中实时优化视频异常检测模型，且可以持续优化视频异常检测模型，以进一步提高视频异常检测模型的鲁棒性。基于此，考虑到在模型的应用(推理)过程中，人工发现视频异常检测模型针对某一检测视频的视频异常检测结果有误时，则对该检测视频进行文本描述，并将其添加到提示样本集，以再次更新视频异常检测模型的模型参数。

在另一实施例中，若待检测视频对应的检测场景为旧的检测场景，即该待检测视频对应的检测场景与视频异常检测模型对应的目标检测场景相同时，直接将待检测视频的视频特征输入至视频异常检测模型，得到该视频异常检测模型输出的视频异常检测结果，从而减少模型的更新过程，进而提高视频异常检测的效率。

步骤120，获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据。

此处，提示样本集可以包括少量样本，即基于少量样本提示即可完成视频异常检测模型的模型参数(如权重参数)更新。

考虑到需要得到(学习到或捕捉到)表征该检测场景对应的检测任务的异常判别逻辑的任务编码，即需要学习视频正常与视频异常的区别与联系，基于此，提示样本集包括至少一个正常样本和至少一个异常样本，且正常样本包括该检测场景对应的正常的第一样本视频，异常样本包括该检测场景对应的异常的第二样本视频。例如，检测场景为体育场景中运球评测中的违规检测，则第一样本视频为画面中的人正在做篮球运球动作，且未发生运球违规的视频，第二样本视频为画面中的人正在做篮球运球动作，且中间发生运球违规的视频。

考虑到若仅仅包括样本视频，无法很好地得到表征该检测场景对应的检测任务的异常判别逻辑的任务编码，基于此，需要有提示信息，即提供判别提示，即正常样本还包括第一样本视频对应的第一文本描述数据，异常样本还包括第二样本视频对应的第二文本描述数据，从而得到更准确的任务编码，以提高视频异常检测模型的鲁棒性。例如，检测场景为体育场景中运球评测中的违规检测，则第一文本描述数据为画面中的人正在做篮球运球动作，且未发生运球违规的视频，第二文本描述数据为画面中的人正在做篮球运球动作，且中间发生运球违规的视频。

在一实施例中，第一文本描述数据是基于第一样本视频的标签确定的，第二文本描述数据是基于第二样本视频的标签确定的。

在一实施例中，若待检测视频对应的检测场景为新增的检测场景，则直接获取该检测场景对应的提示样本集。

在另一实施例中，若待检测视频对应的检测场景为旧的检测场景，则获取新增提取样本，将新增提取样本添加至该检测场景对应的提示样本集。该新增提取样本可以为人工发现视频异常检测模型针对某一检测视频的视频异常检测结果有误时所确定的样本。

步骤130，将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码。

其中，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑。

此处，视频特征是通过对视频进行特征提取得到的。在一实施例中，该视频特征为视频时空特征，该视频时空特征包括通道、宽、高和时间的维度。在另一实施例中，该视频特征为对视频时空特征进行整合后的特征。该视频时空特征以及对视频时空特征进行整合的整合方式可以参照下述第一样本视频的视频特征的确定方式。在一实施例中，视频时空特征是基于视频编码器编码得到的。

在一实施例中，视频编码器包括卷积层。进一步地，视频编码器还可以包括但不限于以下至少一种：池化层、激活层、注意力层等等。当然，该视频编码器还可以基于transformer结构构建，或者基于其他结构构建，此处不对视频编码器做具体限定。

此处，文本特征是通过对文本描述数据进行特征提取得到的。在一实施例中，文本特征是基于文本编码器编码得到的。

此处，任务编码模型用于基于提示样本集中各提示样本的视频特征和文本特征，解析提取出表征检测场景对应的检测任务的异常判别逻辑的任务编码。

在一实施例中，该任务编码模型包括特征提取层，以用于提取输入的特征，该任务编码模型包括任务编码层，以用于提取得到任务编码。

此处，任务编码的维度与视频异常检测模型的模型参数的集合长度对应，即任务编码的维度与视频异常检测模型的模型参数的个数相同，从而确保后续能够基于任务编码更新视频异常检测模型的模型参数。

步骤140，基于所述任务编码，更新视频异常检测模型的模型参数。

具体地，基于任务编码包括的各参数，一一替换视频异常检测模型的模型参数(权重参数)。应理解，若视频异常检测模型未初始化，则基于任务编码初始化视频异常检测模型的模型参数；若视频异常检测模型已初始化，则基于任务编码更新视频异常检测模型的模型参数。

步骤150，将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

此处，视频特征是通过对待检测视频进行特征提取得到的。在一实施例中，该视频特征为视频时空特征，该视频时空特征包括通道、宽、高和时间的维度。在一实施例中，该视频特征为视频时空特征，该视频时空特征包括通道、宽、高和时间的维度。在另一实施例中，该视频特征为对视频时空特征进行整合后的特征。该视频时空特征以及对视频时空特征进行整合的整合方式可以参照下述第一样本视频的视频特征的确定方式。

在一实施例中，视频时空特征是基于视频编码器编码得到的。此外，待检测视频的视频特征与第一样本视频的视频特征和第二样本视频的视频特征，可以通过相同的视频编码器编码得到。

在一实施例中，视频异常检测模型包括特征提取层和分类层(判别层)。进一步地，该特征提取层可以包括多层的卷积层。此处不对视频异常检测模型的结构做具体限定。

在一实施例中，视频异常检测模型用于做二分类，即视频异常检测结果包括有异常或无异常。在另一实施例中，视频异常检测模型用于做多分类，即视频异常检测结果包括各异常类型或无异常。

本发明实施例提供的视频异常检测方法，确定待检测视频，以及待检测视频对应的检测场景，以获取该检测场景对应的提示样本集，且提示样本集包括至少一个正常样本和至少一个异常样本，且正常样本包括该检测场景对应的正常的第一样本视频和第一样本视频对应的第一文本描述数据，且异常样本包括该检测场景对应的异常的第二样本视频和第二样本视频对应的第二文本描述数据，以将各第一样本视频的视频特征、各第一文本描述数据的文本特征、各第二样本视频的视频特征，以及各第二文本描述数据的文本特征，输入至任务编码模型，得到任务编码模型输出的任务编码，且任务编码用于表征该检测场景对应的检测任务的异常判别逻辑，从而准确得到表征该检测场景对应的检测任务的异常判别逻辑的任务编码，进而基于任务编码，准确更新视频异常检测模型的模型参数，进而将待检测视频的视频特征输入至更新后的视频异常检测模型，准确得到更新后的视频异常检测模型输出的视频异常检测结果，以提高视频异常检测模型对于该检测场景的检测准确性；同时，通过上述方式，在面临新的新增检测场景时，只需获取该检测场景对应的提示样本集，并基于该提示样本集得到该检测场景对应的任务编码，即可快速更新视频异常检测模型的模型参数，以快速得到可以对该新增检测场景进行异常检测的模型，无需进行模型训练，从而提高视频异常检测的效率，即实现快速适应新增检测场景的需求，减少对新增检测场景的开发适应成本；同时，通过上述方式，只需获取该检测场景对应的少量提示样本，即可得到任务编码，从而无需标注大量数据，进而减少样本收集时间和样本收集成本，最终提高视频异常检测的效率；同时，通过上述方式，可以直接在旧检测场景对应的视频异常检测模型上进行模型参数的更新，无需重新调整或部署视频异常检测模型，从而减少满足新的检测场景需求的调整时间，最终提高视频异常检测的效率；同时，通过上述方式，无需进行模型训练，从而无需在模型的应用端上完成模型训练，进而降低对模型应用端的硬件要求。

基于上述任一实施例，图2为本发明提供的视频异常检测方法的流程示意图之二，如图2所示，上述步骤130包括：

步骤131，分别将各所述第一样本视频的视频特征与各所述第一文本描述数据的文本特征进行特征融合，得到所述至少一个正常样本的第一融合特征，并分别将各所述第二样本视频的视频特征与各所述第二文本描述数据的文本特征进行特征融合，得到所述至少一个异常样本的第二融合特征。

此处，任一正常样本的第一融合特征是基于该正常样本中的第一样本视频的视频特征与该正常样本中的第一文本描述数据的文本特征进行特征融合得到的。一个正常样本对应一个第一融合特征，任一第一融合特征包括视频特征和文本特征，即任一第一融合特征是由视频特征和文本特征融合得到的，该特征融合方式可以为拼接方式或相加方式。

此处，任一异常样本的第二融合特征是基于该异常样本中的第二样本视频的视频特征与该异常样本中的第二文本描述数据的文本特征进行特征融合得到的。一个异常样本对应一个第二融合特征，任一第二融合特征包括视频特征和文本特征，即任一第二融合特征是由视频特征和文本特征融合得到的，该特征融合方式可以为拼接方式或相加方式。

步骤132，分别将所述至少一个正常样本的第一融合特征，输入至所述任务编码模型中的特征提取层，得到所述特征提取层输出的所述至少一个正常样本的第一表示特征，并分别将所述至少一个异常样本的第二融合特征，输入至所述特征提取层，得到所述特征提取层输出的所述至少一个异常样本的第二表示特征。

具体地，针对任一正常样本的第一融合特征，将该第一融合特征输入至该特征提取层，得到该特征提取层输出的一个第一表示特征。针对任一异常样本的第二融合特征，将该第二融合特征输入至该特征提取层，得到该特征提取层输出的一个第二表示特征。

在一实施例中，该特征提取层包括注意力层，以分别关注第一融合特征和第二融合特征的重要信息，从而提高特征提取的准确性，即提高第一表示特征和第二表示特征的表征能力，进而提高任务编码的准确性，最终提高视频异常检测模型的检测准确性。进一步地，该注意力层为多头自注意力层(MHSA，multi-head self attention)，以进一步提高第一表示特征和第二表示特征的表征能力。

步骤133，将所述至少一个正常样本的第一表示特征进行特征融合，得到正常表示特征，并将所述至少一个异常样本的第二表示特征进行特征融合，得到异常表示特征。

具体地，将各第一表示特征进行特征融合，得到正常类的正常表示特征，将各第二表示特征进行特征融合，得到异常类的异常表示特征。

在一实施例中，该特征融合方式可以为特征平均方式，即将各第一表示特征进行平均，得到正常类的正常表示特征，将各第二表示特征进行平均，得到异常类的异常表示特征。例如，可以通过平均池化实现特征平均操作。

在一实施例中，各正常样本均标注有正常类的标签，各异常样本均标注有异常类的标签，基于此，可以将正常类的第一表示特征和异常类的第二表示特征进行区分，从而分别进行特征融合。

在另一实施例中，各正常样本中的第一文本描述数据可以用于表征第一表示特征为正常类的表示特征，各异常样本中的第二文本描述数据可以用于表征第二表示特征为异常类的表示特征，即任务编码模型可以自行将正常类的第一表示特征和异常类的第二表示特征进行区分，从而分别进行特征融合。

步骤134，将所述正常表示特征与所述异常表示特征进行特征融合，得到融合表示特征。

此处，融合表示特征为提示样本集对应的完整表示特征，即其为检测场景对应的完整表示。该特征融合方式可以为特征拼接方式或特征相加方式等等。

步骤135，将所述融合表示特征输入至所述任务编码模型的任务编码层，得到所述任务编码层输出的任务编码。

在一实施例中，任务编码层包括多层感知器层(MLP，Multi-Layer Perceptron)。当然，该任务编码层也可以为其他结构，此处不做限定。

为便于理解本发明实施例，此处以一具体实施例进行说明。如图3所示，该任务编码模型包括多头自注意力层和多层感知器层；具体地，分别将至少一个正常样本的第一融合特征，输入至多头自注意力层，得到多头自注意力层输出的至少一个正常样本的第一表示特征，并分别将至少一个异常样本的第二融合特征，输入至多头自注意力层，得到多头自注意力层输出的至少一个异常样本的第二表示特征，将至少一个正常样本的第一表示特征进行特征融合，得到正常表示特征，并将至少一个异常样本的第二表示特征进行特征融合，得到异常表示特征，将正常表示特征与异常表示特征进行特征融合，得到融合表示特征，将融合表示特征输入至多层感知器层，得到多层感知器层输出的任务编码。

本发明实施例提供的视频异常检测方法，分别将各第一样本视频的视频特征与各第一文本描述数据的文本特征进行特征融合，得到至少一个正常样本的第一融合特征，并分别将各第二样本视频的视频特征与各第二文本描述数据的文本特征进行特征融合，得到至少一个异常样本的第二融合特征，以供后续可以将至少一个正常样本的第一表示特征进行特征融合，得到正常表示特征，并将至少一个异常样本的第二表示特征进行特征融合，得到异常表示特征，进而可以将正常表示特征与异常表示特征进行特征融合，准确得到完整的融合表示特征，最终将融合表示特征输入至任务编码模型的任务编码层，准确得到任务编码层输出的任务编码，从而提高更新后的视频异常检测模型对于该检测场景的检测准确性。

基于上述任一实施例，该方法中，任一所述正常样本的第一融合特征是基于如下方式确定：

此处，该第一融合特征包括视频特征和文本特征，即该第一融合特征是由视频特征和文本特征融合得到的，该特征融合方式可以为拼接方式或相加方式等。

相应的，任一所述异常样本的第二融合特征是基于如下方式确定：

将所述异常样本中的所述第二样本视频的视频特征与所述异常样本中的所述第二文本描述数据的文本特征进行特征融合，得到所述异常样本的第二融合特征；

此处，该第二融合特征包括视频特征和文本特征，即该第二融合特征是由视频特征和文本特征融合得到的，该特征融合方式可以为拼接方式或相加方式等。

其中，所述第一样本视频的视频特征是基于如下方式确定：

此处，第一样本视频包括多帧图像。该视频时空特征包括通道、宽、高和时间的维度。在一实施例中，视频时空特征是基于视频编码器编码得到的。

在一实施例中，通过2D(维)卷积对每一帧图像进行特征提取，得到每一帧图像的图像特征，再将每一帧图像的图像特征沿时间维拼接得到该视频时空特征。应理解，2D卷积逐帧处理，得到的是图像级特征，需要拼接后才是完整的视频时空特征。

在另一实施例中，通过3D(维)卷积对第一样本视频进行特征提取，直接得到该视频时空特征。该3D卷积是涵盖时间和空间维度的，从而可以直接得到视频时空特征。应理解，3D卷积相比2D卷积额外包括了时间维，所以可以一步到位，提取到完整的视频时空特征。

此处，时空特征图为三维特征图，即时空特征图包括高、宽、时间的维度。

具体地，针对任一通道，将该通道的时空特征图进行空间和时间的特征整合，得到该通道的通道特征；之后将各通道的通道特征进行通道的特征拼接，得到属于特征图的视频特征。更为具体地，先对该通道的时空特征图进行空间维度的特征整合，得到整合后的第一特征，再对该第一特征进行时间维度的特征整合，得到整合后的通道特征。

此处，特征整合的方式可以是展平方式或池化方式等等。该展平方式为沿着每个通道，对时空特征图在时间维和空间维上进行展平，即将时空特征图变成通道*K的通道特征，K的值等于时间*宽*高，从而保留更多的时间信息和空间信息，进而提高视频特征的表征能力。该池化方式为沿着每个通道，对时空特征图在时间维和空间维上做池化平均”，即将时空特征图变成通道*1的通道特征。

此外，第二样本视频的视频特征与上述第一样本视频的视频特征的确定方式基本相同，此处不再一一赘述。

本发明实施例提供的视频异常检测方法，通过上述视频特征的确定方式，便于视频特征与文本特征进行特征融合，准确得到第一融合特征，进而准确得到任务编码，从而提高更新后的视频异常检测模型对于该检测场景的检测准确性。

基于上述任一实施例，该方法中，所述任务编码模型是基于如下方式训练：

此处，任务编码模型在训练阶段学习“如何从少量提示样本中总结给定检测场景的异常判别逻辑”，以支撑零训练部署应用。该任务编码模型是采用元学习训练方式训练。

此处，样本检测场景可以包括但不限于：起火检测、家居跌倒检测、工业违规操作检测和体育违规检测等等。为提高任务编码模型的训练效果，可以采用多种样本检测场景对应的提示样本训练集进行模型训练。

此处，提示样本训练集同样可以包括少量样本，即基于少量样本提示即可完成任务编码模型的训练。该提示样本训练集与上述提示样本集的设定基本相同，此处不再一一赘述。

此处，第三样本视频的视频特征可以参照上述第一样本视频的视频特征，第三文本描述数据的文本特征可以参照上述第一文本描述数据的文本特征，第四样本视频的视频特征可以参照上述第二样本视频的视频特征，第四文本描述数据的文本特征可以参照上述第二文本描述数据的文本特征。

此处，待训练模型为任务编码模型的初始模型，其具体结构参照任务编码模型。样本任务编码参照上述任务编码。

具体地，基于样本任务编码包括的各参数，一一替换视频异常检测模型的模型参数(权重参数)。应理解，若视频异常检测模型未初始化，则基于样本任务编码初始化视频异常检测模型的模型参数；若视频异常检测模型已初始化，则基于样本任务编码更新视频异常检测模型的模型参数。

此处，第五样本视频可以参照上述待检测视频。样本视频异常检测结果可以参照上述视频异常检测结果。视频异常检测结果标签为第五样本视频的真实结果。该损失函数可以选择交叉熵损失函数。

本发明实施例提供的视频异常检测方法，通过上述方式，预先训练任务编码模型，以使任务编码模型可以准确输出检测场景对应的任务编码；且通过上述方式，可以仅对任务编码模型进行训练，无需在对任务编码模型训练的同时，对其他模型进行同步训练，从而提高模型训练效果。

基于上述任一实施例，该方法中，所述将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，之前还包括：

在一实施例中，若该检测场景为新的检测场景，则获取该检测场景对应的正样本和负样本，以对旧场景的任务编码模型进行对比学习训练。

在另一实施例中，若该检测场景为旧的检测场景，则获取该检测场景对应的正样本和负样本，以对旧场景的任务编码模型进行对比学习优化。

此处，正样本与上述正常样本并不相同，该正样本为对比学习所需的样本，负样本与上述异常样本并不相同，该负样本为对比学习所需的样本。此外，正样本为检测场景对应的正样本，进而提高针对该检测场景的视频异常检测准确性。

此处，第二正常训练样本可以参照上述第一正常训练样本，第二异常训练样本可以参照上述第一异常训练样本。

此处，第六样本视频的视频特征可以参照上述第一样本视频的视频特征，第五文本描述数据的文本特征可以参照上述第一文本描述数据的文本特征，第七样本视频的视频特征可以参照上述第二样本视频的视频特征，第六文本描述数据的文本特征可以参照上述第二文本描述数据的文本特征。

此处，初始任务编码模型为任务编码模型的初始模型，即为待训练模型或待优化模型，其具体结构参照任务编码模型。第一任务编码参照上述任务编码。

此处，对比学习训练的损失函数为对比学习损失函数，对比学习的训练方式此处不做具体赘述。

本发明实施例提供的视频异常检测方法，通过上述方式，可以预先训练任务编码模型，以在应用阶段(推理阶段)使任务编码模型可以准确输出检测场景对应的任务编码，也可以在应用阶段(推理阶段)优化任务编码模型，提高任务编码模型的鲁棒性，进而提高更新后的视频异常检测模型针对该检测场景的检测准确性，即支持在部署阶段中构建正样本和负样本，通过判断与正负样本的距离来进行对比学习训练；且通过上述方式，可以仅对任务编码模型进行训练，无需在对任务编码模型训练的同时，对其他模型进行同步训练，从而提高模型训练效果。

基于上述任一实施例，该方法中，任一所述第一样本视频的视频特征是基于视频编码器编码得到的，任一所述第一文本描述数据的文本特征是基于文本编码器编码得到的。

在一些实施例中，该视频特征包括多帧图像特征，即任一帧图像特征是基于视频编码器编码得到的。

在另一些实施例中，获取第一样本视频的视频时空特征，视频时空特征包括多个通道的时空特征图；针对任一通道，将通道的时空特征图进行特征整合，得到通道的通道特征；将各通道的通道特征进行特征拼接，得到第一样本视频的视频特征。即视频时空特征是基于视频编码器编码得到的。

在一实施例中，第十样本视频和第九文本描述数据可以基于大规模开源视频描述或视频问答数据集确定得到。

本发明实施例提供的视频异常检测方法，通过上述方式，可以对视频编码器和文本编码器做视觉-文本的对齐匹配训练，以确保文本特征的文本表示空间与视频特征的视觉表示空间协同对齐，保证引入的文本描述数据有利于捕捉到样本视频的区别与联系，进而提高任务编码的准确性，即提高检测场景对应的检测任务的异常判别逻辑的准确性，最终提高视频异常检测的准确性。

基于上述任一实施例，所述第一文本描述数据包括所述检测场景对应的场景描述数据和所述检测场景对应的异常描述数据。

此处，场景描述数据用于描述视频的场景；例如，检测场景为体育场景中运球评测中的违规检测，则场景描述数据为“画面中的人正在做篮球运球动作”。

此处，异常描述数据用于描述视频中是否发生异常，进一步地，异常描述数据还用于描述视频中的异常检测类型。例如，检测场景为体育场景中运球评测中的违规检测，则异常描述数据为“中间发生运球违规”或“未发生运球违规”。

其他文本描述数据也可以参照该第一文本描述数据的设定方式。

本发明实施例提供的视频异常检测方法，通过上述方式，准确设定文本描述数据，从而提供更清楚准确的提示信息，进而得到更准确的任务编码，以提高视频异常检测模型的鲁棒性。

为便于理解以上各实施例，此处以一具体实施例进行说明。如图4所示，将提示样本集中至少一个第一样本视频和至少一个第二样本视频分别输入至视频编码器，得到视频编码器输出的各第一样本视频的视频特征和各第二样本视频的视频特征；将提示样本集中至少一个第一文本描述数据和至少一个第二文本描述数据分别输入至文本编码器，得到文本编码器输出的各第一文本描述数据的文本特征和各第二文本描述数据的文本特征；将各第一样本视频的视频特征、各第一文本描述数据的文本特征、各第二样本视频的视频特征，以及各第二文本描述数据的文本特征，输入至任务编码模型，得到任务编码模型输出的任务编码；基于任务编码，更新视频异常检测模型的模型参数；将待检测视频输入至视频编码器，得到视频编码器输出的视频特征；将待检测视频的视频特征输入至更新后的视频异常检测模型，得到更新后的视频异常检测模型输出的视频异常检测结果。

基于上述各实施例，对于新来的检测场景，将少量的提示样本输入模型中，获取任务编码初始化或更新视频异常检测模型的权重参数，在后续应用中，可直接将待检测视频输入直接经过视频异常检测模型输出结果。本发明只需输入少量提示样本，即可完成准确的视频异常检测，且部署使用时无需再次训练或微调模型，能够快速适应不同检测场景的需求。即针对检测场景只需要收集少量的正常样本和异常样本，无需训练即可快速生成解决方案，准确高效完成视频异常检测。换言之，本发明能够高效捕捉少量带标注样本的模式区别与联系，准确建模任务场景，无需训练即可快速适应各类异常检测场景。本发明可应用于图像异常检测领域，只需针对性修改提示样本集即可，即在准确完成异常检测的同时极大提高模型的普适性与部署效率。

下面对本发明提供的视频异常检测装置进行描述，下文描述的视频异常检测装置与上文描述的视频异常检测方法可相互对应参照。

图5为本发明提供的视频异常检测装置的结构示意图，如图5所示，该视频异常检测装置，包括：

场景确定模块510，用于确定待检测视频，以及所述待检测视频对应的检测场景；

样本获取模块520，用于获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据；

任务编码模块530，用于将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑；

参数更新模块540，用于基于所述任务编码，更新视频异常检测模型的模型参数；

异常检测模块550，用于将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行视频异常检测方法，该方法包括：确定待检测视频，以及所述待检测视频对应的检测场景；获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据；将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑；基于所述任务编码，更新视频异常检测模型的模型参数；将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视频异常检测方法，该方法包括：确定待检测视频，以及所述待检测视频对应的检测场景；获取所述检测场景对应的提示样本集，所述提示样本集包括至少一个正常样本和至少一个异常样本，所述正常样本包括所述检测场景对应的正常的第一样本视频和所述第一样本视频对应的第一文本描述数据，所述异常样本包括所述检测场景对应的异常的第二样本视频和所述第二样本视频对应的第二文本描述数据；将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，所述任务编码用于表征所述检测场景对应的检测任务的异常判别逻辑；基于所述任务编码，更新视频异常检测模型的模型参数；将所述待检测视频的视频特征输入至更新后的视频异常检测模型，得到所述更新后的视频异常检测模型输出的视频异常检测结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频异常检测方法，其特征在于，包括：

确定待检测视频，以及所述待检测视频对应的检测场景；

基于所述任务编码，更新视频异常检测模型的模型参数；

2.根据权利要求1所述的视频异常检测方法，其特征在于，所述将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，包括：

3.根据权利要求2所述的视频异常检测方法，其特征在于，任一所述正常样本的第一融合特征是基于如下方式确定：

其中，所述第一样本视频的视频特征是基于如下方式确定：

4.根据权利要求1所述的视频异常检测方法，其特征在于，所述任务编码模型是基于如下方式训练：

5.根据权利要求1所述的视频异常检测方法，其特征在于，所述将各所述第一样本视频的视频特征、各所述第一文本描述数据的文本特征、各所述第二样本视频的视频特征，以及各所述第二文本描述数据的文本特征，输入至任务编码模型，得到所述任务编码模型输出的任务编码，之前还包括：

6.根据权利要求1所述的视频异常检测方法，其特征在于，任一所述第一样本视频的视频特征是基于视频编码器编码得到的，任一所述第一文本描述数据的文本特征是基于文本编码器编码得到的；

7.根据权利要求1所述的视频异常检测方法，其特征在于，所述第一文本描述数据包括所述检测场景对应的场景描述数据和所述检测场景对应的异常描述数据。

8.一种视频异常检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述视频异常检测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述视频异常检测方法。