CN115909127A

CN115909127A - 异常视频识别模型的训练方法、异常视频识别方法和装置

Info

Publication number: CN115909127A
Application number: CN202211260400.7A
Authority: CN
Inventors: 张恒
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-04-04

Abstract

本公开关于一种异常视频识别模型的训练方法、异常视频识别方法和装置，包括：获取样本视频的各个视频帧、视频文本信息、局部图像、风险标签、内容标签和监督文本信息；通过待训练的异常视频识别模型，对各个视频帧、视频文本信息和局部图像进行编码处理，得到样本视频的视频特征；对视频特征进行识别处理，得到样本视频的预测风险信息和预测内容信息；基于预测风险信息与风险标签之间的第一差异信息、预测内容信息与内容标签之间的第二差异信息，以及视频特征与监督文本信息的监督文本特征之间的第三差异信息，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。该方法可以提高对异常视频的识别效率，减少人力的消耗。

Description

异常视频识别模型的训练方法、异常视频识别方法和装置

技术领域

本公开涉及互联网技术领域，尤其涉及一种异常视频识别模型的训练方法、异常视频识别方法、装置、电子设备、存储介质及程序产品。

背景技术

随着互联网的快速发展，网络平台上出现了越来越多的视频资源，比如在短视频平台或者各种自媒体平台上都存在很多的视频数据。在各个平台上均需要对上述视频数据进行审核工作，确保风险视频不会流出，降低舆论的影响，以确保平台的生态健康的发展。

目前的风险视频的识别方法多为人工识别，然而，各个平台上每天上传的视频数量巨大，依靠纯人力的方式进行审核需要消耗较多的时间和人力。

发明内容

本公开提供一种异常视频识别模型的训练方法、异常视频识别方法、装置、电子设备、存储介质及程序产品，以至少解决相关技术中风险视频的审核需要消耗较多的时间和人力的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种异常视频识别模型的训练方法，包括：

获取样本视频的各个视频帧、视频文本信息、局部图像、风险标签、内容标签和监督文本信息，所述风险标签基于所述监督文本信息得到，所述内容标签基于所述视频文本信息得到；

通过待训练的异常视频识别模型，对所述样本视频的各个视频帧、所述视频文本信息和所述局部图像进行编码处理，得到所述样本视频的视频特征；对所述视频特征进行识别处理，得到所述样本视频的预测风险信息和预测内容信息；

基于所述预测风险信息与所述风险标签之间的第一差异信息、所述预测内容信息与所述内容标签之间的第二差异信息，以及所述视频特征与所述监督文本信息的监督文本特征之间的第三差异信息，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，所述待训练的异常视频识别模型包括时空视觉编码器、区域级视觉编码器、文本编码器和多模态编码器；

所述通过待训练的异常视频识别模型，对所述样本视频的各个视频帧、所述视频文本信息和所述局部图像进行编码处理，得到所述样本视频的视频特征，包括：

通过所述时空视觉编码器，对所述样本视频的各个视频帧进行编码处理，得到所述样本视频的初始视频特征；

通过所述区域级视觉编码器，对所述局部图像进行编码处理，得到所述样本视频的局部图像特征；

通过所述文本编码器，对所述视频文本信息进行编码处理，得到所述样本视频的文本特征；

通过所述多模态编码器，对所述初始视频特征、所述局部图像特征以及所述文本特征进行融合处理，得到所述样本视频的视频特征。

在一示例性实施例中，所述方法还包括：

通过局部检测模型，对所述样本视频的各个视频帧进行检测处理，得到所述各个视频帧中的局部对象对应的检测框；

根据所述检测框，对所述各个视频帧进行裁剪处理，得到所述样本视频的局部图像。

在一示例性实施例中，所述方法还包括所述局部检测模型的训练过程，所述局部检测模型的训练过程，包括：

获取样本图像；所述样本图像标注有类别标签和检测框标签，所述类别标签包括多个局部对象的对象标签；

通过初始局部检测模型对所述样本图像进行检测处理，得到所述样本图像的图像特征；并对所述图像特征进行分类处理，得到所述样本图像的预测类别及预测检测框；

基于所述预测类别与所述类别标签之间的差异信息，以及所述预测检测框与所述检测框标签之间的差异信息，对所述初始局部检测模型进行训练，得到训练完成的局部检测模型。

在一示例性实施例中，所述基于所述预测风险信息与所述风险标签之间的第一差异信息、所述预测内容信息与所述内容标签之间的第二差异信息，以及所述视频特征与所述监督文本信息的监督文本特征之间的第三差异信息，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型，包括：

根据所述第一差异信息得到第一损失值、根据所述第二差异信息得到第二损失值，以及根据所述第三差异信息，得到第三损失值；

根据所述第一损失值、所述第二损失值和所述第三损失值，得到总损失；

基于所述总损失，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，所述样本视频包括多个视频，所述第三差异信息包括正样本差异信息和负样本差异信息；所述方法还包括：

获取目标样本视频的视频特征与所述目标样本视频的监督文本信息的监督文本特征之间的正样本差异信息，以及获取所述目标样本视频的视频特征与其他样本视频的监督文本信息的监督文本特征之间的负样本差异信息；所述目标样本视频为所述多个视频中的任一个视频，所述其他样本视频为除所述目标样本视频之外的视频；

以减小所述正样本差异信息，增大所述负样本差异信息，以及减小所述总损失为目标，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，所述方法还包括所述样本数据中的内容标签和风险标签的确定方法，所述样本数据中的内容标签和风险标签的确定方法包括：

从视频平台上采集样本视频及所述样本视频的监督文本信息；

对所述样本视频的监督文本信息进行识别处理，得到所述样本视频的风险标签；

获取所述样本视频的视频文本信息，对所述样本视频的视频文本信息进行识别处理，得到所述样本视频的内容标签。

根据本公开实施例的第二方面，提供一种异常视频识别方法，包括：

获取待识别视频的各个视频帧、视频文本信息和局部图像；

通过异常视频识别模型对所述各个视频帧、所述视频文本信息和所述局部图像进行编码处理，得到所述待识别视频的视频特征；对所述视频特征进行分析处理，得到所述待识别视频的预测风险信息和预测内容信息；所述异常视频识别模型通过以样本视频的各个视频帧、视频文本信息和局部图像为输入，以所述样本视频的风险标签、内容标签和监督文本信息为监督信息训练得到；所述风险标签基于所述监督文本信息得到，所述内容标签基于所述视频文本信息得到；

基于所述预测风险信息和预测内容信息，确定针对所述待识别视频的异常识别结果。

在一示例性实施例中，所述基于所述预测风险信息和预测内容信息，确定针对所述待识别视频的异常识别结果，包括：

将所述预测内容信息与预设的风险内容信息进行匹配，得到匹配结果；

基于所述匹配结果与所述预测风险信息，确定针对所述待识别视频的异常识别结果。

根据本公开实施例的第三方面，提供一种异常视频识别模型的训练装置，包括：

获取单元，被配置为执行获取样本视频的各个视频帧、视频文本信息、局部图像、风险标签、内容标签和监督文本信息，所述风险标签基于所述监督文本信息得到，所述内容标签基于所述视频文本信息得到；

预测单元，被配置为执行通过待训练的异常视频识别模型，对所述样本视频的各个视频帧、所述视频文本信息和所述局部图像进行编码处理，得到所述样本视频的视频特征；对所述视频特征进行识别处理，得到所述样本视频的预测风险信息和预测内容信息；

训练单元，被配置为执行基于所述预测风险信息与所述风险标签之间的第一差异信息、所述预测内容信息与所述内容标签之间的第二差异信息，以及所述视频特征与所述监督文本信息的监督文本特征之间的第三差异信息，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

所述预测单元，还被配置为执行通过所述时空视觉编码器，对所述样本视频的各个视频帧进行编码处理，得到所述样本视频的初始视频特征；通过所述区域级视觉编码器，对所述局部图像进行编码处理，得到所述样本视频的局部图像特征；通过所述文本编码器，对所述视频文本信息进行编码处理，得到所述样本视频的文本特征；通过所述多模态编码器，对所述初始视频特征、所述局部图像特征以及所述文本特征进行融合处理，得到所述样本视频的视频特征。

在一示例性实施例中，所述装置还包括局部图像确定单元，被配置为执行通过局部检测模型，对所述样本视频的各个视频帧进行检测处理，得到所述各个视频帧中的局部对象对应的检测框；根据所述检测框，对所述各个视频帧进行裁剪处理，得到所述样本视频的局部图像。

在一示例性实施例中，所述装置还包括检测模型训练单元，被配置为执行获取样本图像；所述样本图像标注有类别标签和检测框标签，所述类别标签包括多个局部对象的对象标签；通过初始局部检测模型对所述样本图像进行检测处理，得到所述样本图像的图像特征；对所述图像特征进行分类处理，得到所述样本图像的预测类别及预测检测框；基于所述预测类别与所述类别标签之间的差异信息，以及所述预测检测框与所述检测框标签之间的差异信息，对所述初始局部检测模型进行训练，得到训练完成的局部检测模型。

在一示例性实施例中，所述训练单元，还被配置为执行根据所述第一差异信息得到第一损失值、根据所述第二差异信息得到第二损失值，以及根据所述第三差异信息，得到第三损失值；根据所述第一损失值、所述第二损失值和所述第三损失值，得到总损失；基于所述总损失，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，所述样本视频包括多个视频，所述第三差异信息包括正样本差异信息和负样本差异信息；所述训练单元，还被配置为执行获取目标样本视频的视频特征与所述目标样本视频的监督文本信息的监督文本特征之间的正样本差异信息，以及获取所述目标样本视频的视频特征与其他样本视频的监督文本信息的监督文本特征之间的负样本差异信息；所述目标样本视频为所述多个视频中的任一个视频，所述其他样本视频为除所述目标样本视频之外的视频；以减小所述正样本差异信息，增大所述负样本差异信息，以及减小所述总损失为目标，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，所述获取单元，还被配置为执行从视频平台上采集样本视频及所述样本视频的监督文本信息；对所述样本视频的监督文本信息进行识别处理，得到所述样本视频的风险标签；获取所述样本视频的视频文本信息，对所述样本视频的视频文本信息进行识别处理，得到所述样本视频的内容标签。

根据本公开实施例的第四方面，提供一种异常视频识别装置，包括：

获取单元，被配置为执行获取待识别视频的各个视频帧、视频文本信息和局部图像；

预测单元，被配置为执行通过异常视频识别模型对所述各个视频帧、所述视频文本信息和所述局部图像进行编码处理，得到所述待识别视频的视频特征；对所述视频特征进行分析处理，得到所述待识别视频的预测风险信息和预测内容信息；所述异常视频识别模型通过以样本视频的各个视频帧、视频文本信息和局部图像为输入，以所述样本视频的风险标签、内容标签和监督文本信息为监督信息训练得到；所述风险标签基于所述监督文本信息得到，所述内容标签基于所述视频文本信息得到；

识别单元，被配置为执行基于所述预测风险信息和预测内容信息，确定针对所述待识别视频的异常识别结果。

在一示例性实施例中，所述识别单元，还被配置为执行将所述预测内容信息与预设的风险内容信息进行匹配，得到匹配结果；基于所述匹配结果与所述预测风险信息，确定针对所述待识别视频的异常识别结果。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上任一项所述的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上任一项所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过训练异常视频识别模型，以通过异常视频识别模型进行后续视频的识别，可以提高识别效率，减少人力的消耗。通过样本视频的各个视频帧、视频文本信息和局部图像共同作为样本视频的表征，通过这种多尺度、多模态的特征表征样本视频，可以提高样本视频的表示准确度，从而提高基于多模态的特征训练得到的异常视频识别模型的准确度，通过预测风险信息与风险标签之间的第一差异信息、预测内容信息与内容标签之间的第二差异信息，以及视频特征与监督文本信息的监督文本特征之间的第三差异信息，对待训练的异常视频识别模型进行训练，采用这种多任务学习的方式，多个任务之间相辅相成，进一步提升了异常视频识别模型整体对异常视频的异常内容的理解能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种异常视频识别模型的训练方法的流程示意图。

图2是根据一示例性实施例示出的一种异常视频识别模型的模型结构示意图。

图3是根据一示例性实施例示出的一种局部检测模型的训练过程的流程示意图。

图4是根据一示例性实施例示出的一种局部检测模型的模型结构示意图。

图5是根据一示例性实施例示出的一种风险标签和内容标签的关系示意图。

图6是根据一示例性实施例示出的一种异常视频识别方法的流程示意图。

图7是根据一示例性实施例示出的一种通过异常识别模型进行视频识别的示意图。

图8是根据一示例性实施例示出的一种异常视频识别模型的训练装置的结构框图。

图9是根据一示例性实施例示出的一种异常视频识别装置的结构框图。

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

在一示例性实施例中，如图1所示，提供了一种异常视频识别模型的训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

在步骤S110中，获取样本视频的各个视频帧、视频文本信息、局部图像、风险标签、内容标签和监督文本信息，风险标签基于监督文本信息得到，内容标签基于视频文本信息得到。

其中，视频文本信息可包括样本视频的标题、话题、文字说明，以及通过OCR(文字识别)技术识别样本视频得到的文本信息等，是视频的内容表达。

其中，局部图像表示视频帧中某个局部区域的图像，一个视频帧中可提取出一个局部图像，也可能提取出多个局部图像，也可能没有提取出局部图像。

其中，风险标签表示视频内容存在风险性的标签，可以为二分类标签，如有风险和无风险，风险标签也可以用风险程度表示，例如，风险程度为80。

其中，内容标签表示视频本身的内容的标签，例如，内容标签可以为宠物、做饭教学等。

其中，监督文本信息表示预先收集的样本视频存在的问题描述。

具体实现中，可以从视频平台上采集历史视频和历史视频的监督文本信息，获取历史视频的视频文本信息，通过对监督文本信息进行挖掘，得到历史视频的风险标签，通过对视频文本信息进行挖掘，得到历史视频的内容标签，通过对历史视频的各个视频帧进行局部区域检测，得到局部图像。将历史视频、历史视频的监督文本信息、历史视频的各个视频帧、视频文本信息、局部图像、风险标签和内容标签，组成为样本数据。

在步骤S120中，通过待训练的异常视频识别模型，对样本视频的各个视频帧、视频文本信息和局部图像进行编码处理，得到样本视频的视频特征；对视频特征进行识别处理，得到样本视频的预测风险信息和预测内容信息。

具体实现中，可以采用单流的模式对样本视频的各个视频帧、视频文本信息和局部图像进行编码处理，得到样本视频的视频特征，也可以采用多流的模式对样本视频的各个视频帧、视频文本信息和局部图像进行编码处理，得到样本视频的视频特征。

更具体地，在单流模式下，可先将样本视频的各个视频帧、视频文本信息和局部图像先进行融合处理，将融合结果输入一个编码器中，得到样本视频的视频特征。

在多流模式下，可通过3个编码器分别对样本视频的各个视频帧、视频文本信息和局部图像进行编码处理，再通过一个融合模块对各个编码器的输出结果进行融合处理，得到样本视频的视频特征。

由此，通过上述单流模式或多流模式可以得到融合了样本视频的多尺度/多模态信息的视频特征，可以提升对局部风险的捕获能力，进一步地，可通过对视频特征进行识别处理，得到样本视频的预测风险信息和预测内容信息。

在步骤S130中，基于预测风险信息与风险标签之间的第一差异信息、预测内容信息与内容标签之间的第二差异信息，以及视频特征与监督文本信息的监督文本特征之间的第三差异信息，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

具体实现中，在异常视频识别模型输出样本视频的预测风险信息和预测内容信息后，可将输出结果与监督信息进行比对，得到预测结果与监督信息之间的差异信息，根据差异信息对待训练的异常视频识别模型的模型参数进行调整。

更具体地，可将输出结果中的预测风险信息与风险标签进行比对，得到第一差异信息，将输出结果中的预测内容信息与内容标签进行比对，得到第二差异信息，以及将样本视频的视频特征与监督文本信息的监督文本特征进行比对，得到第三差异信息，根据第一差异信息、第二差异信息和第三差异信息，得到总损失，基于总损失对待训练的异常视频识别模型进行训练，直至达到预设的迭代次数或损失精度，得到训练完成的异常视频识别模型。

上述异常视频识别模型的训练方法中，通过训练异常视频识别模型，以通过异常视频识别模型进行后续视频的识别，可以提高识别效率，减少人力的消耗。通过样本视频的各个视频帧、视频文本信息和局部图像共同作为样本视频的表征，通过这种多尺度、多模态的特征表征样本视频，可以提高样本视频的表示准确度，从而提高基于多模态的特征训练得到的异常视频识别模型的准确度，通过预测风险信息与风险标签之间的第一差异信息、预测内容信息与内容标签之间的第二差异信息，以及视频特征与监督文本信息的监督文本特征之间的第三差异信息，对待训练的异常视频识别模型进行训练，采用这种多任务学习的方式，多个任务之间相辅相成，进一步提升了异常视频识别模型整体对异常视频的异常内容的理解能力。

在一示例性实施例中，待训练的异常视频识别模型包括时空视觉编码器、区域级视觉编码器、文本编码器和多模态编码器；

上述步骤S120，具体可通过以下步骤实现：

步骤S1201，通过时空视觉编码器，对样本视频的各个视频帧进行编码处理，得到样本视频的初始视频特征；

步骤S1202，通过区域级视觉编码器，对局部图像进行编码处理，得到样本视频的局部图像特征；

步骤S1203，通过文本编码器，对视频文本信息进行编码处理，得到样本视频的文本特征；

步骤S1204，通过多模态编码器，对初始视频特征、局部图像特征以及文本特征进行融合处理，得到样本视频的视频特征。

其中，时空视觉编码器(Space-Time Vision Encoder)和区域级视觉编码器(Region-Level Vision Encoder)中的视觉分支(Vision Encoder)可以为ResNet(Deepresidual network，深度残差神经网络)或EfficientNet(有效网)系列的基础模型。

其中，文本编码器(Text Encoder)可以为Bert系列的模型。

其中，多模态编码器(Multi-Modal Encoder)可以为TransFormer(一种以自注意力为主要部件的特定模型)或者是MFH(Multi-Faceted Hierarchical，多视角层级的多任务学习模型)等模型。

参考图2，为一示例性实施例示出的异常视频识别模型的模型结构示意图，对应多流模式下确定样本视频的视频特征的方式，如图2所示，在多流模式下，样本视频的各个视频帧输入时空视觉编码器，得到初始视频特征。样本视频的局部图像输入区域级视觉编码器，得到样本视频的局部图像特征。样本视频的视频文本信息输入文本编码器，得到样本视频的文本特征，进一步地，样本视频的初始视频特征、局部图像特征以及文本特征输入多模态编码器，由多模态编码器进行融合处理，得到样本视频的视频特征。多模态编码器后可接多分类模块，进行多标签的预测，即进行风险信息和内容信息的预测。

本实施例中，通过多个编码器分别对样本视频各个模态的信息分别进行处理，之后通过多模态编码器对得到的各个模态的特征进行融合处理，使得得到的样本视频的视频特征更准确，通过这种采用多尺度特征的多模态框架，也可提升异常识别模型捕获局部风险的能力。

在一示例性实施例中，样本视频的局部图像通过下述方式得到：

通过局部检测模型，对样本视频的各个视频帧进行检测处理，得到各个视频帧中的局部对象对应的检测框；

根据检测框，对各个视频帧进行裁剪处理，得到样本视频的局部图像。

其中，检测框对应局部对象在视频帧中所覆盖的区域。

具体地，参考图2，可通过局部检测模型对样本视频的各个视频帧进行检测处理，得到各个视频帧中的局部对象对应的检测框，按照每个视频帧中检测框的位置和大小，对相应视频帧进行裁剪，得到各个视频帧中的局部图像，组成样本视频的局部图像。

在一示例性实施例中，如图3所示，局部检测模型的训练过程，包括：

步骤S310，获取样本图像；样本图像标注有类别标签和检测框标签，类别标签包括多个局部对象的对象标签；

步骤S320，通过初始局部检测模型对样本图像进行检测处理，得到样本图像的图像特征；并对图像特征进行分类处理，得到样本图像的预测类别及预测检测框；

步骤S330，基于预测类别与类别标签之间的差异信息，以及预测检测框与检测框标签之间的差异信息，对初始局部检测模型进行训练，得到训练完成的局部检测模型。

具体实现中，可以通过开源数据获取样本图像，例如，从开源数据集ImageNet、opening、COCO中获取样本图像，样本图像标注有类别标签和检测框标签，类别标签包括多个局部对象的对象标签，例如，腿、胳膊、头等。在获取样本图像后，可将样本图像输入初始局部检测模型中，得到样本图像的图像特征，通过初始局部检测模型中的分类层对图像特征进行分类处理，可得到样本图像的预测类别及预测检测框。进一步可将预测结果与监督信息进行比对，即将预测类别与类别标签进行比对，得到差异信息，将预测检测框与检测框标签进行比对，得到差异信息，基于两个差异信息，得到损失值，通过损失值调整初始局部检测模型的模型参数，对初始局部检测模型进行训练，得到训练完成的局部检测模型。

其中，开源数据集的格式可以为：“**.jpg,腿,x1，y1,x2,y2”，“**.jpg,胳膊,x1，y1,x2,y2”，“**.jpg,头,x1，y1,x2,y2”等，其中，x1,y1,x2,y2表示图像中局部对象对应的检测框坐标。

参考图4，为一示例性实施例示出的局部检测模型的模型结构示意图，局部检测模型可以由多层CNN(Convolutional Neural Networks，卷积神经网络)和一些后处理解析层构成，采用Yolov5(一种对象检测算法)技术进行局部对象检测。输入数据为：样本图像、类别标签和bounding box(检测框)标签，对于一个batch(一批)的样本数据，通过多层卷积神经网络得到图像特征，对图像特征进行解析，得到预测类别和预测检测框。根据类别标签和检测框标签确定局部检测模型预测的类别和检测框是否准确，计算得到相应的差异信息，将差异信息作为局部检测模型的损失，更新指导局部检测模型的训练，直至模型的损失收敛，完成训练。

上述实施例，通过训练局部检测模型，对样本图像中的局部对象进行检测，可以将图像中的局部图像提取出来，为后续的异常视频识别模型提供了多尺度的特征提取奠定了基础，可以提升异常视频识别模型进行风险识别的能力。

在一示例性实施例中，上述步骤S130具体可以通过以下步骤实现：

步骤S1301，根据第一差异信息得到第一损失值、根据第二差异信息得到第二损失值，以及根据第三差异信息，得到第三损失值；

步骤S1302，根据第一损失值、第二损失值和第三损失值，得到总损失；

步骤S1303，基于总损失，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

其中，损失值为用来衡量模型预测结果与真实区域之间的指标，损失值越小说明模型预测越好，模型的训练过程即是优化损失值的过程。

本步骤中，第一损失值、第二损失值和第三损失值可看作三个任务的损失值，如图2所示，任务1为风险侧的对比、任务2为内容侧的对比、任务3为视频特征与监督文本信息的监督文本特征之间的对比，其中，监督文本特征通过将监督文本信息输入文本编码器得到，通过三个任务的联合学习训练，三个任务之间相辅相成，可以提升异常视频识别模型的特征提取能力。需要说明的是，图2中对监督文本信息进行编码的文本编码器和对视频文本信息进行编码的文本编码器的参数相同，以便于进行后续的对比。

具体实现中，可将第一差异信息、第二差异信息和第三差异信息分别作为第一损失值、第二损失值和第三损失值，进一步可由第一损失值、第二损失值和第三损失值，得到总损失，由总损失更新指导异常视频识别模型的训练，直至总损失收敛趋于平稳，完成训练。

更具体地，可以通过对第一损失值、第二损失值和第三损失值进行求和，得到总损失。也可以通过预先为三个损失值进行赋权，确定各个损失值的权重，通过各个损失值的权重，对第一损失值、第二损失值和第三损失值进行加权求和，得到总损失。

本实施例中，通过多个任务的损失值，联合对异常视频识别模型训练，可以提升异常视频识别模型的特征提取能力，进而提升异常识别模型对风险内容的理解能力。

在一示例性实施例中，样本视频包括多个视频，第三差异信息包括正样本差异信息和负样本差异信息；所述方法还包括：获取目标样本视频的视频特征与目标样本视频的监督文本信息的监督文本特征之间的正样本差异信息，以及获取目标样本视频的视频特征与其他样本视频的监督文本信息的监督文本特征之间的负样本差异信息；目标样本视频为多个视频中的任一个视频，其他样本视频为除目标样本视频之外的视频；以减小正样本差异信息，增大负样本差异信息，以及减小所述总损失为目标，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

具体地，图2中任务3对应的融合得到的视频特征与监督文本信息的监督文本特征之间的对比学习的主要思想为：将正样本之间的距离拉近，正样本与负样本之间的距离拉远，在本实施例中，同一个样本视频的视频特征和监督文本信息为正样本，A样本视频的视频特征与B样本视频的监督文本信息为负样本。因此，任务3的训练方式可以为：通过获取目标样本视频的视频特征与目标样本视频的监督文本信息的监督文本特征之间的差异信息，作为正样本差异信息；获取目标样本视频的视频特征与其他样本视频的监督文本信息的监督文本特征之间的差异信息，作为负样本差异信息。以减小正样本差异信息，增大负样本差异信息，以及减小总损失为目标，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

本实施例中，通过视频特征与监督文本信息之间的对比学习，将文本模态与视频模态之间进行对齐，增强文本模态和视频模态的交互和表征能力，使模态之间的交互更充分，风险识别效果更好，并且能够减少对训练数据的依赖，同时提升模型的泛化性。

在一示例性实施例中，样本数据中的内容标签和风险标签通过下述方式确定：

步骤S1101，从视频平台上采集样本视频及样本视频的监督文本信息；

步骤S1102，对样本视频的监督文本信息进行识别处理，得到样本视频的风险标签；

步骤S1102，获取样本视频的视频文本信息，对样本视频的视频文本信息进行识别处理，得到样本视频的内容标签。

具体实现中，可以搜集视频平台上用户历史上传的各种各样的监督文本信息，并获取各监督文本信息对应的视频，作为样本视频。考虑到如果对样本数据进行人工标注，带来的成本较高(数据量大，规则复杂)的问题，本实施例采用对监督文本信息和视频内容信息进行挖掘的方式，得到风险标签和内容标签。

更具体地，监督文本信息是用户对视频中的泛风险内容的表达，例如监督文本信息为“未成年不良行为1”“未成年不良行为2”等。可以对监督文本信息进行关键词抽取、去燥等处理，挖掘出细粒度的风险标签。其中，关键词抽取可以采用TF-IDF方法(Termfrequency–inverse document frequency，一种用于信息检索与数据挖掘的常用加权技术)。

视频中话题、标题、说明文字等视频文本信息是视频的内容表达，通过相关性清洗(分词，词性，去噪等)、后验概率校验等，挖掘出视频的内容侧标签。

如图5所示，为风险标签和内容标签的关系示意图，由于视频的内容标签为视频本身的表达，因此，基于视频的内容标签确定风险标签可以作为先验概率，而基于视频的风险标签校验内容标签可以作为后验概率，通过后验概率对筛选的内容标签进行清洗。

本实施例中，采用“群体智慧”的监督文本信息确定样本视频，基本无需人工标注，降低了人工工作量，节省人力物力，提升了训练数据的规模，可以进一步提升异常视频识别模型的效果。

上述实施例中的异常视频识别模型的训练方法，提供了一种多任务联合学习、感知多尺度特征的多模态框架，采用用户举报或审核线等“群体智慧”的数据作为样本数据，同时引入了监督文本信息与视频特征之间的对比学习，能够减少对训练数据的依赖的同时提升模型的泛化性，通过多尺度特征可以提升对模型对风险的捕获和感知能力，大幅提升对风险视频的识别效果。

在一示例性实施例中，如图6所示，提供了一种异常视频识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S610，获取待识别视频的各个视频帧、视频文本信息和局部图像；

步骤S620，通过异常视频识别模型对各个视频帧、视频文本信息和局部图像进行编码处理，得到待识别视频的视频特征；对视频特征进行分析处理，得到待识别视频的预测风险信息和预测内容信息；异常视频识别模型通过以样本视频的各个视频帧、视频文本信息和局部图像为输入，以样本视频的风险标签、内容标签和监督文本信息为监督信息训练得到；风险标签基于监督文本信息得到，内容标签基于视频文本信息得到；

步骤S630，基于预测风险信息和预测内容信息，确定针对待识别视频的异常识别结果。

参考图7，为通过异常识别模型进行视频识别的示意图，在获取待识别视频后，首先由局部检测模型对待识别视频的各个视频帧进行检测处理，得到待识别视频的局部图像，然后待识别视频的各个视频帧输入时空视觉编码器，局部图像输入区域级视觉编码器，视频文本信息输入文本编码器，各个编码器的编码结果输入多模态编码器，由多模态编码器进行融合处理，得到融合结果，作为待识别视频的视频特征。进一步通过多分类层对待识别视频的视频特征进行分析处理，得到待识别视频的预测风险信息和预测内容信息。最后可通过预测风险信息和预测内容信息，确定针对待识别视频的异常识别结果。

进一步地，在一示例性实施例中，步骤S630具体包括以下步骤：

步骤S6301，将预测内容信息与预设的风险内容信息进行匹配，得到匹配结果；

步骤S6302，基于匹配结果与预测风险信息，确定针对待识别视频的异常识别结果。

具体地，可以预先设定风险内容信息，在得到待识别视频的预测内容信息后，与预设的风险内容信息进行匹配，得到匹配结果，匹配结果可以为命中风险内容和未命中风险内容，根据匹配结果和预测风险信息，确定针对待识别视频的异常识别结果。

更具体地，可以在匹配结果命中风险内容，且预测风险信息也为存在风险的情况下，确定待识别视频存在异常，也可以设定匹配结果命中风险内容，或者预测风险信息存在风险的情况下，确定待识别视频存在异常，具体策略可以根据需求进行设定，本申请对此不作限制。

上述实施例提供的异常视频识别方法，通过待识别视频的各个视频帧、视频文本信息和局部图像共同作为待识别视频的表征，通过这种多尺度、多模态的特征表征待识别视频，可以提高待识别视频的表示准确度，进而提高得到的预测风险信息和预测内容信息的准确性，最后基于预测风险信息和预测内容信息，从多个维度确定针对待识别视频的异常识别结果，可以保证异常识别结果的可信度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的异常视频识别模型的训练方法的异常视频识别模型的训练装置，以及一种用于实现上述所涉及的异常视频识别方法的异常视频识别装置。

图8是根据一示例性实施例示出的一种异常视频识别模型的训练装置的结构框图。参照图8，该装置包括：

获取单元810，被配置为执行获取样本视频的各个视频帧、视频文本信息、局部图像、风险标签、内容标签和监督文本信息，风险标签基于监督文本信息得到，内容标签基于视频文本信息得到；

预测单元820，被配置为执行通过待训练的异常视频识别模型，对样本视频的各个视频帧、视频文本信息和局部图像进行编码处理，得到样本视频的视频特征；对视频特征进行识别处理，得到样本视频的预测风险信息和预测内容信息；

训练单元830，被配置为执行基于预测风险信息与风险标签之间的第一差异信息、预测内容信息与内容标签之间的第二差异信息，以及视频特征与监督文本信息的监督文本特征之间的第三差异信息，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

预测单元820，还被配置为执行通过时空视觉编码器，对样本视频的各个视频帧进行编码处理，得到样本视频的初始视频特征；通过区域级视觉编码器，对局部图像进行编码处理，得到样本视频的局部图像特征；通过文本编码器，对视频文本信息进行编码处理，得到样本视频的文本特征；通过多模态编码器，对初始视频特征、局部图像特征以及文本特征进行融合处理，得到样本视频的视频特征。

在一示例性实施例中，上述装置还包括局部图像确定单元，被配置为执行通过局部检测模型，对样本视频的各个视频帧进行检测处理，得到各个视频帧中的局部对象对应的检测框；根据检测框，对各个视频帧进行裁剪处理，得到样本视频的局部图像。

在一示例性实施例中，所述装置还包括检测模型训练单元，被配置为执行获取样本图像；样本图像标注有类别标签和检测框标签，类别标签包括多个局部对象的对象标签；通过初始局部检测模型对样本图像进行检测处理，得到样本图像的图像特征；对图像特征进行分类处理，得到样本图像的预测类别及预测检测框；基于预测类别与类别标签之间的差异信息，以及预测检测框与检测框标签之间的差异信息，对初始局部检测模型进行训练，得到训练完成的局部检测模型。

在一示例性实施例中，训练单元830，还被配置为执行根据第一差异信息得到第一损失值、根据第二差异信息得到第二损失值，以及根据第三差异信息，得到第三损失值；根据第一损失值、第二损失值和第三损失值，得到总损失；基于总损失，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，样本视频包括多个视频，第三差异信息包括正样本差异信息和负样本差异信息；训练单元830，还被配置为执行获取目标样本视频的视频特征与目标样本视频的监督文本信息的监督文本特征之间的正样本差异信息，以及获取目标样本视频的视频特征与其他样本视频的监督文本信息的监督文本特征之间的负样本差异信息；目标样本视频为多个视频中的任一个视频，其他样本视频为除目标样本视频之外的视频；以减小正样本差异信息，增大负样本差异信息，以及减小所述总损失为目标，对待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型。

在一示例性实施例中，获取单元810，还被配置为执行从视频平台上采集样本视频及样本视频的监督文本信息；对样本视频的监督文本信息进行识别处理，得到样本视频的风险标签；获取样本视频的视频文本信息，对样本视频的视频文本信息进行识别处理，得到样本视频的内容标签。

图9是根据一示例性实施例示出的一种异常视频识别装置的结构框图。参照图9，该装置包括：

获取单元910，被配置为执行获取待识别视频的各个视频帧、视频文本信息和局部图像；

预测单元920，被配置为执行通过异常视频识别模型对各个视频帧、视频文本信息和局部图像进行编码处理，得到待识别视频的视频特征；对视频特征进行分析处理，得到待识别视频的预测风险信息和预测内容信息；异常视频识别模型通过以样本视频的各个视频帧、视频文本信息和局部图像为输入，以样本视频的风险标签、内容标签和监督文本信息为监督信息训练得到；风险标签基于监督文本信息得到，内容标签基于视频文本信息得到；

识别单元930，被配置为执行基于预测风险信息和预测内容信息，确定针对待识别视频的异常识别结果。

在一示例性实施例中，识别单元930，还被配置为执行将预测内容信息与预设的风险内容信息进行匹配，得到匹配结果；基于匹配结果与预测风险信息，确定针对待识别视频的异常识别结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于实现异常视频识别模型的训练方法的电子设备1000的框图。例如，电子设备1000可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图10，电子设备1000可以包括以下一个或多个组件：处理组件1002、存储器1004、电源组件1006、多媒体组件1008、音频组件1010、输入/输出(I/O)的接口1012、传感器组件1014以及通信组件1016。

处理组件1002通常控制电子设备1000的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件1006为电子设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为电子设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述电子设备1000和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括前置摄像头和/或后置摄像头。当电子设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括麦克风(MIC)，当电子设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备1000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1000的显示器和小键盘，传感器组件1014还可以检测电子设备1000或电子设备1000组件的位置改变，用户与电子设备1000接触的存在或不存在，设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在一示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1004，上述指令可由电子设备1000的处理器1020执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备1000的处理器1020执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种异常视频识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待训练的异常视频识别模型包括时空视觉编码器、区域级视觉编码器、文本编码器和多模态编码器；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括所述局部检测模型的训练过程，所述局部检测模型的训练过程包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述预测风险信息与所述风险标签之间的第一差异信息、所述预测内容信息与所述内容标签之间的第二差异信息，以及所述视频特征与所述监督文本信息的监督文本特征之间的第三差异信息，对所述待训练的异常视频识别模型进行训练，得到训练完成的异常视频识别模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述样本视频包括多个视频，所述第三差异信息包括正样本差异信息和负样本差异信息；所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括所述样本数据中的内容标签和风险标签的确定方法，所述样本数据中的内容标签和风险标签的确定方法包括：

8.一种异常视频识别方法，其特征在于，包括：

获取待识别视频的各个视频帧、视频文本信息和局部图像；

9.根据权利要求8所述的方法，其特征在于，所述基于所述预测风险信息和预测内容信息，确定针对所述待识别视频的异常识别结果，包括：

10.一种异常视频识别模型的训练装置，其特征在于，包括：

11.一种异常视频识别装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的方法。