CN116778376B

CN116778376B - 内容安全检测模型训练方法、检测方法和装置

Info

Publication number: CN116778376B
Application number: CN202310530291.4A
Authority: CN
Inventors: 刘雨帆; 李兵; 胡卫明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2024-03-22
Anticipated expiration: 2043-05-11
Also published as: CN116778376A

Abstract

本发明提供一种内容安全检测模型训练方法、检测方法和装置，其中训练方法包括：获取第一样本视频，并提取第一样本视频的压缩域信息；提取第一样本视频中的各帧图像在标准色域下的多源特征；基于第一样本视频的压缩域信息和标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型。本发明提供的内容安全检测模型训练方法、检测方法和装置，相比于现有的逐帧提取标准色域信息，极大提高了信息提取效率，并利用标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，从而提升了压缩域内容安全检测的性能，能够同时兼顾效率和性能。

Description

内容安全检测模型训练方法、检测方法和装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种内容安全检测模型训练方法、检测方法和装置。

背景技术

在内容安全领域，对于各类敏感内容的检测是最为关键的研究内容。

目前最常见和通用的方法可以分为两种类型。第一种是直接对所有图像/视频(在原始的RGB域，对于视频需要解码成一帧帧的图像)训练分类模型，从而判断图像/视频中是否包含敏感内容。这类方法最为简单，但是对于视频需要进行逐帧的处理，效率低。另外，对于视频而言需要耗费的资源随着视频长度的增加呈线性增长，难以应用到对实时要求高的场景。第二种类型则是对视频内容进行适当采样，降低对于长视频的计算开销。然而，这类方法的性能依赖采样的质量，当关键的信息没有被采样到时(例如包含敏感信息的帧)，这类方法的性能就会显著下降。

因此，亟需一种同时兼顾视频内容安全检测的效率和性能的方法。

发明内容

本发明提供一种内容安全检测模型训练方法、检测方法和装置，用以解决现有技术中视频内容安全检测效率和性能不能兼顾的缺陷。

本发明提供一种内容安全检测模型训练方法，包括：

获取第一样本视频，并提取所述第一样本视频的压缩域信息；

提取所述第一样本视频中的各帧图像在标准色域下的多源特征，所述多源特征包括内容安全特征、分割特征和语义特征；

基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型；

所述跨模态蒸馏学习包括学习所述标准色域下的多源特征，学习标准色域下各帧图像之间的时域关系，以及学习所述多源特征中各特征的重要性中的至少一种。

根据本发明提供的内容安全检测模型训练方法，所述基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，包括：

对所述第一样本视频的压缩域信息进行多源特征提取，得到在压缩域下的多源特征；

对所述压缩域下的多源特征和所述标准色域下的多源特征分别进行时域关系计算，分别得到压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，并基于所述压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，确定时域关系损失；

基于所述压缩域下的多源特征和所述标准色域下的多源特征，确定各特征的重要性权重，并基于所述压缩域下的多源特征、所述标准色域下的多源特征和所述各特征的重要性权重，确定多源特征选择损失；

对所述压缩域下的多源特征进行内容安全检测，得到所述第一样本视频在压缩域下的第一预测检测结果，并基于所述第一预测检测结果和所述第一样本视频的标签，确定检测损失；

基于所述时域关系损失、所述多源特征选择损失和所述检测损失中的至少一种，对初始模型进行跨模态蒸馏学习。

根据本发明提供的内容安全检测模型训练方法，所述对所述压缩域下的多源特征和所述标准色域下的多源特征分别进行时域关系计算，分别得到压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，包括：

将所述压缩域下的多源特征映射到预设的特征空间，得到压缩域下的映射特征；

基于所述压缩域下的映射特征中每两个特征之间的相似度，确定压缩域下每两帧特征之间的时域关系，并基于所述标准色域下的多源特征中每两帧特征之间的相似度，确定所述标准色域下每两帧特征之间的时域关系。

根据本发明提供的内容安全检测模型训练方法，所述提取所述第一样本视频中的各帧图像在标准色域下的多源特征，包括：

基于标准色域内容安全检测子模型，提取所述第一样本视频中的各帧图像在标准色域下的内容安全特征，所述标准色域内容安全检测子模型是对第二样本视频中的标准图像帧进行扰动后训练得到的；

基于标准色域分割子模型，提取所述第一样本视频中的各帧图像在标准色域下的分割特征；

基于跨模态特征提取子模型，提取所述第一样本视频中的各帧图像在标准色域下的语义特征。

根据本发明提供的内容安全检测模型训练方法，所述标准色域内容安全检测子模型的训练步骤包括：

获取第二样本视频，并提取所述第二样本视频中的标准图像帧的初始特征；

对所述初始特征进行扰动，得到扰动特征；

对所述扰动特征进行内容安全检测，得到第二预测检测结果；

基于所述第二预测检测结果和所述第二样本视频的标签，对初始子模型进行参数迭代，得到所述标准色域内容安全检测子模型。

根据本发明提供的内容安全检测模型训练方法，所述基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型，包括：

基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到中间模型；

对所述第一样本视频的压缩域信息进行难易评估，得到各第一样本视频的难易程度；

基于所述各第一样本视频的难易程度，对所述中间模型的各层分类器进行动态截止训练，以对中间模型进行动态压缩，得到训练完成的内容安全检测模型。

根据本发明提供的内容安全检测模型训练方法，所述提取所述第一样本视频的压缩域信息，包括：

对所述第一样本视频进行部分解码，得到所述第一样本视频的压缩域信息，所述压缩域信息包括标准色域帧信息、残差矢量信息和运动矢量信息。

本发明还提供一种内容安全检测方法，包括：

获取待检测的视频；

基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于上述任一项所述的内容安全检测模型训练方法训练得到。

本发明还提供一种内容安全检测模型训练装置，包括：

样本视频获取单元，用于获取第一样本视频，并提取所述第一样本视频的压缩域信息；

多源特征提取单元，用于提取所述第一样本视频中的各帧图像在标准色域下的多源特征，所述多源特征包括内容安全特征、分割特征和语义特征；

蒸馏学习单元，用于基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型；

本发明还提供一种内容安全检测装置，包括：

视频获取单元，用于获取待检测的视频；

安全检测单元，用于基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于上述任一项所述的内容安全检测模型训练方法训练得到。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述内容安全检测模型训练方法，或所述内容安全检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述内容安全检测模型训练方法，或所述内容安全检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述内容安全检测模型训练方法，或所述内容安全检测方法。

本发明提供的内容安全检测模型训练方法、检测方法和装置，通过提取第一样本视频的压缩域信息，相比于现有的逐帧提取标准色域信息，极大提高了信息提取效率；并利用标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，使得训练得到的内容安全检测模型在压缩域能够达到和标准色域接近甚至更好的内容安全检测性能，从而提升了压缩域内容安全检测的性能，能够同时兼顾效率和性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的内容安全检测模型训练方法的流程示意图；

图2是本发明提供的内容安全检测方法的流程示意图；

图3是本发明提供的内容安全检测模型训练装置的结构示意图；

图4是本发明提供的内容安全检测装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，针对内容安全检测主要有两种方法，第一种是直接对所有图像/视频(在原始的RGB域，对于视频需要解码成一帧帧的图像)训练分类模型，从而判断图像/视频中是否包含敏感内容。这类方法最为简单，但是对于视频需要进行逐帧的处理，效率低。另外，对于视频而言需要耗费的资源随着视频长度的增加呈线性增长，难以应用到对实时要求高的场景。

第二种则是对视频内容进行适当采样，降低对于长视频的计算开销。然而，这类方法的性能依赖采样的质量，当关键的信息没有被采样到时(例如包含敏感信息的帧)，这类方法的性能就会显著下降。

基于上述考虑，为了提升内容安全检测的效率，达到低碳内容安全检测，即同时兼顾视频内容安全检测的效率和性能，本发明的发明构思在于：提取第一样本视频的压缩域信息，相比于现有的逐帧提取标准色域信息，极大提高了信息提取效率；并利用标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，使得训练得到的内容安全检测模型在压缩域能够达到和标准色域接近甚至更好的内容安全检测性能。

基于上述发明构思，本发明提供一种内容安全检测模型训练方法、检测方法和装置，应用于视频的内容安全检测场景，以提高检测的效率和性能。

下面将结合附图详细描述本发明的技术方案。图1是本发明提供的内容安全检测模型训练方法的流程示意图，该方法中各步骤的执行主体可以是内容安全检测模型训练装置，该装置可通过软件和/或硬件实现，该装置可集成在电子设备中，电子设备可以是终端设备(如智能手机、个人电脑等)，也可以是服务器(如本地服务器或云端服务器，也可以为服务器集群等)，也可以是处理器，也可以是芯片等。

如图1所示，该方法可以包括如下步骤：

步骤110，获取第一样本视频，并提取第一样本视频的压缩域信息。

具体地，考虑到现有的编解码器仅支持对RGB域的编码和解码。这意味着只能将多张RGB图像帧编码为一个视频，或将一个视频编码为连续的RGB图像帧。这样的做法虽然简单易行，但在内容安全检测领域里存在着解码时间长、信息冗余需要处理导致处理效率低下等问题。

因此，为了提取第一样本视频的压缩域信息，可对现有解码器进行改进，基于改进后的解码器对第一样本视频进行部分解码，得到第一样本视频的压缩域信息。

压缩域信息包括标准色域帧信息、残差矢量信息和运动矢量信息，此处的标准色域具体可以是RGB色域，当然还可以是CIE Lab色域、CMYK色域等等。以标准色域为RGB色域为例，例如压缩域信息可表示为：{I帧(RGB帧)、R(残差矢量)、MV(运动矢量)}。

压缩域信息包含多个GoP，每个GoP的组成为一个关键帧I帧(RGB帧)，以及多个R帧(残差矢量)以及多个MV帧(运动矢量)。针对不同的GoP，其包含的R帧和MV帧的数目会有不同，但是每个GoP中，R帧的输入和MV帧的数目一致。另外，I帧的数目加上R帧(或者MV帧)的数目为全解码后RGB帧的数目。

需说明的是，此处的第一样本视频和后续步骤中的第二样本视频可以是相同的，也可以是不同的，此处是为了区分样本视频用于训练的模型不同。其中第一样本视频用于训练得到内容安全检测模型，第二样本视频用于训练得到标准色域内容安全检测子模型。

相较于传统的逐帧RGB域信息(全解码)提取方式，提取压缩域信息的效率高出一到两个数量级。具体实现上，可以对现有的解码器(例如H.264)进行源码层面的改造，并编译生成新的解码器。将第一样本视频输入至新的解码器，以支持部分解码并输出压缩域信息。

步骤120，提取第一样本视频中的各帧图像在标准色域下的多源特征，多源特征包括内容安全特征、分割特征和语义特征；

步骤130，基于第一样本视频的压缩域信息和标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型。其中，跨模态蒸馏学习包括学习标准色域下的多源特征，学习标准色域下各帧图像之间的时域关系，以及学习多源特征中各特征的重要性中的至少一种。

具体地，考虑到在压缩域信息上直接进行内容安全检测，会存在性能显著下降的问题(主要原因是部分解码的压缩域信息相比于全解码RGB域信息存在一定信息丢失)。

因此，为了提升压缩域内容安全检测的性能，可以充分利用RGB域的信息来提升压缩域的内容安全检测性能，即利用RGB域的信息对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型。

为了实现蒸馏学习，可首先在步骤120中提取第一样本视频中的各帧图像在标准色域下的多源特征，此处的标准色域可以是RGB域。例如可通过多个预训练模型对RGB域进行多源特征提取，形成多源知识。可针对RGB域训练多个预训练模型，包括RGB域内容安全分类模型，RGB域分割模型以及RGB-NLP域跨模态特征提取模型。然后利用多个预训练模型进行RGB域的多源知识提取，为步骤130中的跨模态知识蒸馏做储备。

在得到标准色域下的多源特征之后，即可基于第一样本视频的压缩域信息和标准色域下的多源特征，对初始模型进行跨模态蒸馏学习。

初始模型在蒸馏学习中可以直接学习标准色域下的多源特征，还可以学习标准色域下各帧图像之间的时域关系，还可以学习多源特征中各特征的重要性，还可以学习其中的任意两种或者所有，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过提取第一样本视频的压缩域信息，相比于现有的逐帧提取标准色域信息，极大提高了信息提取效率；并利用标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，使得训练得到的内容安全检测模型在压缩域能够达到和标准色域接近甚至更好的内容安全检测性能，从而提升了压缩域内容安全检测的性能，能够同时兼顾效率和性能。

基于上述实施例，步骤130具体包括：

步骤131，对第一样本视频的压缩域信息进行多源特征提取，得到在压缩域下的多源特征；

步骤132，对压缩域下的多源特征和标准色域下的多源特征分别进行时域关系计算，分别得到压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，并基于压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，确定时域关系损失；

步骤133，基于压缩域下的多源特征和标准色域下的多源特征，确定各特征的重要性权重，并基于压缩域下的多源特征、标准色域下的多源特征和各特征的重要性权重，确定多源特征选择损失；

步骤134，对压缩域下的多源特征进行内容安全检测，得到第一样本视频在压缩域下的第一预测检测结果，并基于第一预测检测结果和第一样本视频的标签，确定检测损失；

步骤135，基于时域关系损失、多源特征选择损失和检测损失中的至少一种，对初始模型进行跨模态蒸馏学习。

具体地，针对跨模态知识蒸馏，可通过步骤131-135实现。

针对步骤131，可通过初始模型中的压缩域伪编码器模块实现，可将第一样本视频的压缩域信息输入至压缩域伪编码器模块，输出在压缩域下的多源特征，可表示为3*N个特征。压缩域伪编码器模块的结构可以是ResNet50等。

针对步骤132，可通过初始模型中的多胞胎时域特征映射模块实现。该模块构建多胞胎时域关系图，并促进压缩域模型学习RGB域多帧特征之间的时域关系。可将压缩域下的多源特征和标准色域下的多源特征分别输入多胞胎时域特征映射模块，分别输出压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，对应的时域关系可用关系矩阵表示。并在此基础上，确定时域关系损失。

进一步地，步骤132具体包括：

步骤132-1，将压缩域下的多源特征映射到预设的特征空间，得到压缩域下的映射特征；

步骤132-2，基于压缩域下的映射特征中每两个特征之间的相似度，确定压缩域下每两帧特征之间的时域关系，并基于标准色域下的多源特征中每两帧特征之间的相似度，确定标准色域下每两帧特征之间的时域关系。

具体地，此处将压缩域下的多源特征映射到预设的特征空间，可通过不同的核函数实现。

在一个实施例中，多胞胎时域特征映射模块的输入是N个特征，输出是3个N*N的关系矩阵，建模了不同核函数映射下的帧间特征关系。具体来说，该模块将输入的N个特征用3个不同的核函数映射到不同的特征空间，然后在映射后的特征空间分别计算特征之间的两两余弦距离，最终得到3个N*N的关系矩阵；其中核函数为线性核函数，指数核函数和高斯核函数。

其中N*N的关系矩阵的计算如下所述，对于N个特征向量{f₁,f₂,…,f_N}，对应的关系矩阵的第i行第j列对应的值为(其中<f_i,f_j>表示两个特征的余弦相似度)：

M[i,j]＝<f_i,f_j>

则对应的时域关系损失损失函数可表示为：

Loss1＝EuclideanLoss(M₁,M_1-pred)+EuclideanLoss(M₂,M_2-pred)+EuclideanLoss(M₃,M_3-pred)

式中，M_i表示标准色域下的多源特征计算得到的矩阵，M_i-pred表示压缩域下的映射特征计算得到矩阵。

针对步骤133，可通过初始模型中的多源知识选择模块实现。该模块用于选择不同知识的蒸馏强度。该模块的输入是3*N个RGB域特征，以及3*N个压缩域伪编码器输出特征，即压缩域下的多源特征和标准色域下的多源特征，输出是3*N个权重，表示知识蒸馏阶段的蒸馏重要性。

对于3*N个标准色域下的多源特征{f₁,d₂,…,d_3n}和3*N个压缩域下的多源特征{d_1-p,d_2-p,…,f_3n-p}，以及输出的3*N个权重{w₁,w₂,…,w_3N}，对应的多源特征选择损失函数可表示为：

Loss2＝∑w_i*EuclideanLoss(f_i,d_i-p)

针对步骤134，可通过初始模型中的融合分类模块。这个模块的输入是3*N个压缩域伪编码器的输出特征，即压缩域下的多源特征，输出是最终的压缩域视频分类结果(安全/不安全)。该模块的结构可以为多层感知机(MLP，Multilayer Perceptron)。基于该模块输出的第一预测检测结果和标签，将利用CrossEntropyLoss进行损失函数计算，由此确定的检测损失可表示为：

Loss3＝CrossEntropyLoss(pred,y)

式中，pred表示第一样本视频在压缩域下的第一预测检测结果，y表示第一样本视频的标签。

在此基础上，可基于时域关系损失、多源特征选择损失和检测损失中的至少一种，对初始模型进行跨模态蒸馏学习。在一个实施例中，初始模型的模型损失可包括时域关系损失、多源特征选择损失和检测损失之和。

基于上述任一实施例，步骤120具体包括：

步骤121，基于标准色域内容安全检测子模型，提取第一样本视频中的各帧图像在标准色域下的内容安全特征，标准色域内容安全检测子模型是对第二样本视频中的标准图像帧进行扰动后训练得到的；

步骤122，基于标准色域分割子模型，提取第一样本视频中的各帧图像在标准色域下的分割特征；

步骤123，基于跨模态特征提取子模型，提取第一样本视频中的各帧图像在标准色域下的语义特征。

具体地，针对标准色域下的多源特征获取，可通过预训练模型实现。基于标准色域内容安全检测子模型，提取第一样本视频中的各帧图像在标准色域下的内容安全特征，基于标准色域分割子模型，提取第一样本视频中的各帧图像在标准色域下的分割特征，基于跨模态特征提取子模型，提取第一样本视频中的各帧图像在标准色域下的语义特征。

需说明的是，此121-123三个步骤可以同时并行执行，也可以顺时执行，且不限定各步骤的执行顺序。

在执行步骤121之前，可预先训练得到标准色域内容安全检测子模型。标准色域内容安全检测子模型的训练步骤包括：

获取第二样本视频，并提取第二样本视频中的标准图像帧的初始特征；

对初始特征进行扰动，得到扰动特征；

对扰动特征进行内容安全检测，得到第二预测检测结果；

基于第二预测检测结果和第二样本视频的标签，对初始子模型进行参数迭代，得到标准色域内容安全检测子模型。

具体地，此处标准色域以RGB域为例，利用创新提出的自适应帧扰动模块来训练RGB域的内容安全模型。相比于传统的RGB域内容安全模型，本实施例通过自适应扰动模块来扰动一些关键的帧，从而使得模型在部分原始输入信息受到干扰(或者缺失)的情况下，仍然可以达到较好的性能。这样可以提升模型的鲁棒性。

首先进行视频内容安全标注。根据第二样本视频中是否包含敏感内容将第二样本视频标注为安全和不安全两种类型。应当标注各种类型的不安全以及安全的第二样本视频作为训练数据，以提升后续模型应用时的性能。

RGB域内容安全检测子模型包括三个模块，其中一个模块是RGB帧特征提取模块。这个模块的结构可以是任意的CNN网络，例如ResNet50等。这个模块的输入是视频全解码后的N帧RGB图像，输出是对应的N个初始特征向量，即初始特征。

RGB域内容安全检测子模型的第二个模块是自适应帧扰动模块，其输入是第一个模块输出的N个初始特征向量，输出是扰动后的N个初始特征向量。该结构首先计算N个初始特征向量的模，然后通过一个softmax得到一个N维的概率，然后将概率最大的K个特征进行随机扰动(例如添加高斯噪声，或者随机dropout等)后输出，得到扰动特征。

RGB域内容安全检测模型的第三个模块是融合分类模块。这个模块的输入是第二个模块的输出，即扰动特征，输出是最终的视频分类结果(安全/不安全)，即第二预测检测结果。该模块的结构为MLP。该模块的输出和标签将利用CrossEntropyLoss进行损失函数计算，并在下一步进行训练。损失函数可表示为：

Loss4＝CrossEntropyLoss(pred,y)

式中，pred表示第二预测检测结果，y表示第二样本视频的标签。

利用上述的模型结构，基于SGD梯度反传方法，对初始子模型进行参数迭代，得到标准色域内容安全检测子模型。

在执行步骤122之前，可预先训练得到标准色域分割子模型。训练该模型是为了能够提取得到RGB域(即RGB图像)上的物体的信息，在后续跨模态蒸馏中增强压缩域对于物体的感知能力(压缩域本身缺乏对于物体的刻画)。标准色域分割子模型的训练方法可包括如下步骤：

视频分割图谱标注。利用公开的分割模型进行粗标注，然后进行人工微调，得到最终的视频标注结果。

RGB域分割模型包括两个模块，第一个模块是随机dropout模块。该模块的输入是RGB图像，输出是随机dropout一定比例像素的RGB图像。这种数据增广策略可以提升训练得到的分割模型的性能。

RGB域分割模型的第二个模块是分割模块。这个模块的输入是RGB图像，输出是对应的分割图谱以及对应的分割特征。该模块的结构可以是UNET等。该模块的输出为一个分割图谱(每个像素表示对应像素的类别，例如人体、建筑等等类别)。该输出将和标注的图谱计算欧式距离，作为最终的损失函数，并在下一步进行训练。

Loss5＝EuclideanLoss(pred_map,y_map)

式中，pred_map表示分割图谱，y_map表示标注的图谱。

利用上述的模型结构，基于SGD梯度反传方法进行训练，得到标准色域分割子模型。

在执行步骤122之前，可预先训练得到跨模态特征提取子模型。该模型用于提取RGB图像对应的NLP域特征。该模块可以在后续的跨模态知识蒸馏环节提升压缩域模型对于RGB图像的语义理解能力。跨模态特征提取子模型的训练方法可包括如下步骤：

RGB图像的文本标注。首先利用开源的image caption模型对图像进行标注，然后进行人工微调，得到最终的文本标注。

RGB-NLP域跨模态特征提取模型包含两个模块，第一个模块是RGB图像特征提取模块。该模块的结构为Transformer。该模块的输入是RGB图像输出是图像特征。

RGB-NLP域跨模态特征提取模型的第二个模块是文本特征提取模块。该模块的结构为Transformer。该模块的输入是文本，输出是文本特征。

训练阶段将一定数量的标注好文本的图像(图像-文本对)，以及同样数量的不匹配的图像-文本对，进行特征提取，然后将匹配的图像-文本对的特征的余弦相似度最大化，将不匹配的图像-文本对的特征的余弦相似度最小化，并用AdamW优化器进行训练优化。本部分的损失函数可表示为：

when y＝1,Loss6＝EuclideanLoss(feat_image,feat_text)

when y＝0,Loss7＝-1.0/EuclideanLoss(feat_image,feat_text)

式中，feat_image,feat_text表示图像-文本对。

基于上述任一实施例，步骤130具体包括：

步骤136，基于第一样本视频的压缩域信息和标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到中间模型；

步骤137，对第一样本视频的压缩域信息进行难易评估，得到各第一样本视频的难易程度；

步骤138，基于各第一样本视频的难易程度，对中间模型的各层分类器进行动态截止训练，以对中间模型进行动态压缩，得到训练完成的内容安全检测模型。

具体地，为了进一步提升整体模型的计算效率，训练样本难易评估模型，针对不同样本的难易程度，对模型进行动态压缩。从而对于容易的样本进行大幅的动态压缩，提升计算资源的利用率。

首先，基于第一样本视频的压缩域信息和标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到中间模型。

在此基础上，对中间模型进行自适应动态压缩，主要包含两个步骤，第一个步骤是压缩域模型动态截止训练，使得压缩域模型可以在不同计算开销下输出最佳的预测结果；第二个步骤是动态压缩，基于引入的难易估计模块，来对不同样本进行不同的模型压缩，从而得到最佳的算力-性能折衷。压缩域模型动态截止训练，使得压缩域模型可以在不同计算开销下输出最佳的预测结果。在压缩域模型不同层引出分类器，进行视频内容安全分类训练。这个阶段只有分类器参数进行更新，压缩域模型参数保持不变。

针对第一样本视频的压缩域信息进行难易评估可通过引入的难易估计模块实现，来对不同样本视频的压缩域信息进行不同的模型压缩，从而得到最佳的算力-性能折衷。

难易程度估计模块的输入为压缩域信息，输出为样本难易程度(例如可提前标注0-9共10个等级，等级越高，难度越大)；分类器的输出和标签将利用CrossEntropyLoss进行损失函数计算，并在下一步进行训练

Loss＝CrossEntropyLoss(pred,y)

截止训练后的压缩域模型。根据难易程度选择需要进行的推理深度。难度越大，推理深度越深。以下为一个可能的选择规则，0-3级对应最浅层的分类器输出，4-6级对应中间层分类器输出，7-9对应最后一层的分类器输出。

本发明实施例提供的方法，针对不同样本的难易程度，对模型进行动态压缩，从而对于容易的样本进行大幅的动态压缩，提升计算资源的利用率。

基于上述任一实施例，提供一种内容安全检测模型训练方法，包括：

首先改造现有的编解码器，使其支持输出压缩域信息，包括{I帧(RGB帧)，R(残差矢量)，MV(运动矢量)}；压缩域信息的提取，比传统的逐帧RGB域信息的提取效率高一到两个数量级。

然后，为了提升压缩域内容安全检测的性能，采用多源跨模态知识蒸馏方法。针对RGB域训练多个预训练模型，包括RGB域内容安全分类模型，RGB域分割模型以及RGB-NLP域跨模态特征提取模型。然后利用多个预训练模型进行RGB域的多源知识提取，为后续的跨模态知识蒸馏做储备。

其次，在压缩域设计对应的网络结构，利用RGB域提取得到的多源知识进行跨模态知识蒸馏，使得在压缩域能够达到和RGB域接近甚至更好的内容安全检测性能。

最后，为了进一步提升整体模型的计算效率，训练样本难易评估模型，针对不同样本的难易程度，对模型进行动态压缩。从而对于容易的样本进行大幅的动态压缩，提升计算资源的利用率。

基于上述任一实施例，图2是本发明提供的内容安全检测方法的流程示意图，如图2所示，内容安全检测方法包括：

步骤210，获取待检测的视频；

步骤220，基于内容安全检测模型，对待检测的视频进行内容安全检测，得到内容安全检测结果，内容安全检测模型基于如上述的内容安全检测模型训练方法训练得到。

具体地，根据上述方法训练得到的内容安全检测模型，可用来对视频进行内容安全检测。

待检测的视频即需要进行内容安全检测的视频，可将待检测的视频输入至训练好的内容安全检测模型，由内容安全检测模型进行内容安全检测，并输出内容安全检测结果。此处的内容安全检测结果可包括安全或不安全。

下面对本发明提供的内容安全检测模型训练装置进行描述，下文描述的内容安全检测模型训练装置与上文描述的内容安全检测模型训练方法可相互对应参照。

基于上述实施例，图3是本发明提供的内容安全检测模型训练装置的结构示意图，如图3所示，内容安全检测模型训练装置包括样本视频获取单元310、多源特征提取单元320和蒸馏学习单元330，其中：

样本视频获取单元310，用于获取第一样本视频，并提取所述第一样本视频的压缩域信息；

多源特征提取单元320，用于提取所述第一样本视频中的各帧图像在标准色域下的多源特征，所述多源特征包括内容安全特征、分割特征和语义特征；

蒸馏学习单元330，用于基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型；

本发明实施例提供的内容安全检测模型训练装置，通过提取第一样本视频的压缩域信息，相比于现有的逐帧提取标准色域信息，极大提高了信息提取效率；并利用标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，使得训练得到的内容安全检测模型在压缩域能够达到和标准色域接近甚至更好的内容安全检测性能，从而提升了压缩域内容安全检测的性能，能够同时兼顾效率和性能。

基于上述实施例，蒸馏学习单元具体用于：

基于上述实施例，多源特征提取单元具体用于：

基于上述实施例，还包括子模型训练单元，用于：

对所述初始特征进行扰动，得到扰动特征；

基于上述实施例，蒸馏学习单元还具体用于：

基于上述实施例，样本视频获取单元具体用于：

基于上述实施例，图4是本发明提供的内容安全检测装置的结构示意图，如图4所示，内容安全检测装置包括视频获取单元410、安全检测单元420，其中：

视频获取单元410，用于获取待检测的视频；

安全检测单元420，用于基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于如上述所述的内容安全检测模型训练方法训练得到。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行内容安全检测模型训练方法，该方法包括：

处理器可以调用存储器中的逻辑指令，以执行内容安全检测方法，该方法包括：

获取待检测的视频；

基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于所述的内容安全检测模型训练方法训练得到。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的内容安全检测模型训练方法，该方法包括：

所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的内容安全检测方法，该方法包括：

获取待检测的视频；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的内容安全检测模型训练方法，该方法包括：

该计算机程序被处理器执行时实现以执行上述各方法提供的内容安全检测方法，该方法包括：

获取待检测的视频；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种内容安全检测模型训练方法，其特征在于，包括：

所述跨模态蒸馏学习包括学习所述标准色域下的多源特征，学习标准色域下各帧图像之间的时域关系，以及学习所述多源特征中各特征的重要性中的至少一种；

所述基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，包括：

2.根据权利要求1所述的内容安全检测模型训练方法，其特征在于，所述对所述压缩域下的多源特征和所述标准色域下的多源特征分别进行时域关系计算，分别得到压缩域下每两帧特征之间的时域关系和标准色域下每两帧特征之间的时域关系，包括：

3.根据权利要求1所述的内容安全检测模型训练方法，其特征在于，所述提取所述第一样本视频中的各帧图像在标准色域下的多源特征，包括：

4.根据权利要求3所述的内容安全检测模型训练方法，其特征在于，所述标准色域内容安全检测子模型的训练步骤包括：

对所述初始特征进行扰动，得到扰动特征；

5.根据权利要求1-4中任一项所述的内容安全检测模型训练方法，其特征在于，所述基于所述第一样本视频的压缩域信息和所述标准色域下的多源特征，对初始模型进行跨模态蒸馏学习，得到训练完成的内容安全检测模型，包括：

基于所述各第一样本视频的难易程度，对所述中间模型的各层分类器进行动态截止训练，以对所述中间模型进行动态压缩，得到训练完成的内容安全检测模型。

6.根据权利要求1-4中任一项所述的内容安全检测模型训练方法，其特征在于，所述提取所述第一样本视频的压缩域信息，包括：

7.一种内容安全检测方法，其特征在于，包括：

获取待检测的视频；

基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于如权利要求1-6中任一项所述的内容安全检测模型训练方法训练得到。

8.一种内容安全检测模型训练装置，其特征在于，包括：

所述蒸馏学习单元，具体用于：

9.一种内容安全检测装置，其特征在于，包括：

视频获取单元，用于获取待检测的视频；

安全检测单元，用于基于内容安全检测模型，对所述待检测的视频进行内容安全检测，得到内容安全检测结果，所述内容安全检测模型基于如权利要求1-6中任一项所述的内容安全检测模型训练方法训练得到。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述内容安全检测模型训练方法，或如权利要求7所述内容安全检测方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述内容安全检测模型训练方法，或如权利要求7所述内容安全检测方法。