CN114821401A

CN114821401A - 视频审核方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114821401A
Application number: CN202210363246.XA
Authority: CN
Inventors: 杨帆; 郭春超; 王红法; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-29

Abstract

本申请公开了一种视频审核方法、装置、设备、存储介质及程序产品，属于机器学习领域。所述方法包括：获取目标视频的n种单模态特征；分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征；对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征；基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签。本申请通过多模态融合特征对目标视频进行多角度且结合前后内容的审核，提高了审核目标视频所输出的违规类别标签的准确率。

Description

视频审核方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及机器学习领域，特别涉及一种视频审核方法、装置、设备、存储介质及程序产品。

背景技术

随着互联网的不断发展，人们可以通过互联网发布大量的视频，例如，在广告平台投放广告视频，但是，这些广告视频中可能存在有违反投放平台规定的内容。

目前，广告视频的检测方法通常为：预先训练一个用于审核广告视频的机器学习模型，从目标视频中获取一系列图像帧的图像特征，将图像特征输入到机器学习模型中，机器学习模型会对每帧图像的图像特征分别进行数据处理，得到每帧图像对应的违规类别并标注，再汇总每帧图像的违规类别，最终输出目标视频的违规类别标签。

但相关技术中，通过逐帧判断图像特征违规类别的方式，容易造成漏审，且审核内容单一，最终导致输出的广告视频的违规类别标签不准确。

发明内容

本申请提供了一种视频审核方法、装置、设备、存储介质及程序产品，能够提高目标视频的审核准确率。所述技术方案如下：

根据本申请的一方面，提供了一种视频审核方法，所述方法包括：

获取目标视频的n种单模态特征，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征；

对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征；

基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述分别将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征进行融合，得到n种单模态中间特征，包括：

将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征中第j帧对应的单模态特征进行融合，得到第j帧对应的单模态中间特征，j为正整数。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述将所述n种单模态中间特征进行多模态融合，得到所述多模态融合特征，包括：

对于所述n种单模态中间特征中属于第i种类型的单模态中间特征，将不同帧对应的单模态中间特征进行融合，得到第i种类型的单模态中间融合特征；

将不同类型对应的所述单模态中间融合特征进行融合，得到所述多模态融合特征。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征，包括：

对于所述n种单模态特征中属于第i种类型的单模态特征，将不同帧对应的单模态特征在时间序列上进行融合，得到第i种单模态时序融合特征。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述n种单模态特征包括所述图像特征；

从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的图像；

将所述图像输入至图像特征学习网络进行特征提取，得到所述图像特征。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述n种单模态特征包括所述音频特征；

从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的音频；

将所述音频输入至音频特征学习网络进行特征提取，得到所述音频特征。

根据本申请的一方面，提供了一种视频审核，所述方法包括：所述n种单模态特征包括图像文本特征和音频文本特征；

从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的图像和音频；

将所述图像进行光学字符识别OCR，得到图像文本，将所述图像文本输入至所述文本特征学习网络进行特征提取，得到所述图像文本特征；

将所述音频进行自动语音识别ASR，得到音频文本，将所述音频文本输入至所述文本特征学习网络进行特征提取，得到所述音频文本特征。

根据本申请的一方面，提供了一种视频审核模型的训练方法，所述方法包括：

获取样本视频的n种单模态特征及所述样本视频的真实违规类别标签，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

将所述多模态融合特征输入至所述视频审核模型进行视频审核，得到多模态预测违规类别标签；

基于所述多模态预测违规类别标签及所述真实违规类别标签，计算第一损失函数值；

基于所述第一损失函数值对所述视频审核模型的模型参数进行更新。

所述视频审核模型包括特征融合网络；所述对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征，包括：

确定属于同一类型的第i种时序融合特征和第i种单模态特征，i为不大于n的正整数；

分别将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征在所述特征融合网络中进行融合，得到n种单模态中间特征；

将所述n种单模态中间特征在所述特征融合网络中进行多模态融合，得到所述多模态融合特征。

所述分别将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征在所述特征融合网络中进行融合，得到n种单模态中间特征，包括：

在所述特征融合网络中，将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征中第j帧对应的单模态特征进行融合，得到第j帧对应的单模态中间特征，j为正整数。

所述将所述n种单模态中间特征在所述特征融合网络中进行多模态融合，得到所述多模态融合特征，包括：

对于所述n种单模态中间特征中属于第i种类型的单模态中间特征，将不同帧对应的单模态中间特征在所述特征融合网络中进行融合，得到第i种类型的单模态中间融合特征；

将不同类型对应的所述单模态中间融合特征在所述特征融合网络中进行融合，得到所述多模态融合特征。

所述视频审核模型包括时序融合网络；所述分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征，包括：

在所述时序融合网络中，对于所述n种单模态特征中属于第i种类型的单模态特征，将不同帧对应的单模态特征在时间序列上进行融合，得到第i种单模态时序融合特征。

所述视频审核模型包括整体判别器；所述将所述多模态融合特征输入至所述视频审核模型进行视频审核，得到多模态预测违规类别标签，包括：

将所述多模态融合特征输入至所述视频审核模型中的所述整体判别器进行判别，得到所述多模态融合特征对应的所述多模态预测违规类别标签。

根据本申请的一方面，提供了一种视频审核模型的训练方法，所述方法还包括：

将所述n种单模态时序融合特征输入至所述视频审核模型进行视频审核，得到n种单模态预测违规类别标签；

基于所述单模态预测违规类别标签及所述真实违规类别标签，计算第二损失函数值；

所述基于所述第一损失函数值对所述视频审核模型的模型参数进行更新，包括：

基于所述第一损失函数值及所述第二损失函数值对所述视频审核模型的模型参数进行更新。

所述视频审核模型包括n种单模态判别器；所述将所述n种单模态时序融合特征输入至所述视频审核模型进行视频审核，得到n种单模态预测违规类别标签，包括：

将所述n种单模态时序融合特征的第i种时序融合特征输入至所述视频审核模型中对应的第i种单模态判别器中进行判别，得到所述目标视频的第i种单模态违规类别标签。

所述n种单模态时序融合特征包括图像时序融合特征；

所述将所述n种单模态时序融合特征的第i种时序融合特征输入至视频审核模型中对应的第i种单模态判别器中进行判别，得到所述目标视频的第i种单模态违规类别标签，包括：

将所述图像时序融合特征输入至所述视频审核模型中的图像判别器进行判别，得到图像预测违规类别标签；

所述基于所述单模态预测违规类别标签及所述真实违规类别标签，计算第二损失函数值，包括：

基于所述图像预测违规类别标签及所述真实违规类别标签，计算第二图像损失函数值。

所述n种单模态时序融合特征包括音频时序融合特征；

将所述音频时序融合特征输入至所述视频审核模型中的音频判别器进行判别，得到音频预测违规类别标签；

基于所述音频预测违规类别标签及所述真实违规类别标签，计算第二音频损失函数值。

所述n种单模态时序融合特征包括文本时序融合特征；

将所述文本时序融合特征输入至所述视频审核模型中的文本判别器进行判别，得到文本预测违规类别标签；

基于所述文本预测违规类别标签及所述真实违规类别标签，计算第二文本损失函数值。

所述真实违规类别标签包括真实文本违规类别标签；所述方法还包括：

从所述样本视频中抽取出目标视频帧，获取所述目标视频帧中的文本；

根据所述文本及所述真实违规类别标签，确定所述样本视频对应的所述真实文本违规类别标签；

基于所述文本预测违规类别标签及所述真实文本违规类别标签，计算所述第二文本损失函数值。

所述第一损失函数值为所述多模态预测违规类别标签及所述真实违规类别标签之间的第一交叉熵，所述第二损失函数值为所述单模态预测违规类别标签及所述真实违规类别标签之间的第二交叉熵；

所述基于所述第一损失函数值及所述第二损失函数值对所述视频审核模型的模型参数进行更新，包括：

基于所述第一交叉熵及所述第二交叉熵的和，对所述视频审核模型的模型参数进行更新。

根据本申请的一方面，提供了一种视频审核装置，所述装置包括：

获取模块，用于获取目标视频的n种单模态特征，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

时序融合模块，用于分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征；

特征融合模块，用于对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征；

审核模块，用于基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签。

根据本申请的一方面，提供了一种视频审核模型的训练装置，所述装置包括：

获取模块，用于获取样本视频的n种单模态特征及所述样本视频的真实违规类别标签，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

审核模块，用于基于所述多模态融合特征进行视频审核，得到多模态预测违规类别标签；

计算模块，用于基于所述多模态预测违规类别标签及所述真实违规类别标签，计算第一损失函数值；

更新模块，用于基于所述第一损失函数值对所述视频审核模型的模型参数进行更新。

根据本申请的另一方面，提供了一种计算机设备，该计算机设备包括：处理器和存储器，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的视频审核方法或所述的视频审核模型的训练方法。

根据本申请的另一方面，提供了一种计算机存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如上方面所述的视频审核方法或所述的视频审核模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行如上方面所述的视频审核方法或所述的视频审核模型的训练方法。

本申请提供的技术方案带来的有益效果至少包括：

通过获取目标视频的n种单模态特征，分别时序融合n种单模态特征中的单模态特征，得到n种单模态时序融合特征；进一步融合n种单模态时序融合特征及n种单模态特征，得到多模态融合特征，最终将多模态融合特征输入至视频审核模型进行判别，从而得到目标视频的违规类别标签。本申请通过多模态融合特征对目标视频进行多角度的审核，提高了审核目标视频输出的违规类别标签的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种视频审核方法的示意图；

图2是本申请一个示例性实施例提供的计算机系统的架构示意图；

图3是本申请一个示例性实施例提供的视频审核方法的流程图；

图4是本申请一个示例性实施例提供的视频审核方法的流程图；

图5是本申请一个示例性实施例提供的目标视频模态分离的示意图；

图6是本申请一个示例性实施例提供的单模态特征提取的示意图；

图7是本申请一个示例性实施例提供的特征融合的示意图；

图8是本申请一个示例性实施例提供的判别违规类别标签的示意图；

图9是本申请一个示例性实施例提供的视频审核模型的训练方法的流程图；

图10是本申请一个示例性实施例提供的视频审核模型的训练方法的流程图；

图11是本申请一个示例性实施例提供的视频审核方法的流程图；

图12是本申请一个示例性实施例提供的视频审核装置的框图；

图13是本申请一个示例性实施例提供的视频审核模型的训练装置的框图；

图14是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频审核方法的技术方案，如图1所示，该方法可以由计算机设备执行，计算机设备可以是终端或服务器。

示例性地，计算机设备获取目标视频101，从目标视频101中抽取出目标视频帧，并从目标视频帧中获取图像102和音频103。

可选地，抽取出目标视频帧的方式为1秒抽1帧、1秒抽2帧、1秒抽3帧中的至少一种，但不限于此，本申请实施例对此不作任何限定。

例如，从目标视频101中以1秒抽1帧的方式，抽取50帧目标视频帧，并从该50帧目标视频帧中获取每一帧对应的图像102和音频103。

计算机设备通过光学字符识别(Optical Character Recognition，OCR)对目标视频101的图像102进行文本识别，得到图像文本104；通过自动语音识别技术(AutomaticSpeech Recognition，ASR)对目标视频101的音频103进行文本识别，得到音频文本105。

计算机设备将图像102输入至图像特征学习网络106进行特征提取，得到图像特征107；将音频103输入至音频特征学习网络110进行特征提取，得到音频特征111；将图像文本104输入至文本特征学习网络108进行特征提取，得到对应的图像文本特征；将音频文本105输入至文本特征学习网络108进行特征提取，得到对应的音频文本特征，图像文本特征及音频文本特征统称为文本特征109。

计算机设备将图像特征107输入至时序融合网络112进行融合，得到图像时序融合特征114；将音频特征111输入至时序融合网络112进行融合，得到音频时序融合特征115；将文本特征109输入至时序融合网络112进行融合，得到文本时序融合特征116。

计算机设备将图像特征107、音频特征109、文本特征111、图像时序融合特征114、音频时序融合特征115和文本融合特征116输入至特征融合网络113进行融合，得到多模态融合特征120。

计算机设备将多模态融合特征120输入至视频审核模型中的整体判别器121进行判别，得到多模态融合特征120对应的多模态违规类别标签；将图像时序融合特征114输入至视频审核模型中的图像判别器117进行判别，得到图像时序融合特征114对应的图像违规类别标签；将音频时序融合特征115输入至视频审核模型中的音频判别器118进行判别，得到音频时序融合特征115对应的音频违规类别标签；将文本时序融合特征116输入至视频审核模型中的文本判别器119进行判别，得到文本时序融合特征116对应的文本违规类别标签；计算机设备将多模态违规类别标签、图像违规类别标签、音频违规类别标签、文本违规类别标签进行汇总取并集，得到目标视频101的违规类别标签122。

例如，计算机设备将多模态融合特征120输入至视频审核模型中的整体判别器121进行判别，得到多模态违规类别标签为：图像暴力---文本含有敏感词---音频刺耳。

计算机设备将图像时序融合特征114输入至视频审核模型中的图像判别器117进行判别，得到图像违规类别标签为：图像不雅。

将音频时序融合特征115输入至视频审核模型中的音频判别器118进行判别，得到音频违规类别标签为：音频刺耳。

将文本时序融合特征116输入至视频审核模型中的文本判别器119进行判别，得到文本违规类别标签为：文本不连贯。

计算机设备将多模态违规类别标签、图像违规类别标签、音频违规类别标签、文本违规类别标签进行汇总，得到目标视频101的违规类别标签122为：图像暴力、图像不雅---文本含有敏感词、文本不连贯---音频刺耳。

综上所述，本实施例提供的方法，通过获取目标视频的图像特征、音频特征和文本特征，分别时序融合图像特征、音频特征和文本特征，得到图像时序融合特征、音频时序融合特征和文本融合特征；并进一步融合图像特征、音频特征、文本特征、图像时序融合特征、音频时序融合特征和文本融合特征，得到多模态融合特征，最终将多模态融合特征及图像特征、音频特征、文本特征输入至视频审核模型中的判别器进行判别，从而得到目标视频的违规类别标签。本申请通过图像、音频、文本三种单模态特征及多模态融合特征对目标视频进行多角度且结合前后内容的审核，提高了审核目标视频输出的违规类别标签的准确率。

图2示出了本申请一个实施例提供的计算机系统的架构示意图。该计算机系统可以包括：终端100和服务器200。

终端100可以是诸如手机、平板电脑、车载终端(车机)、可穿戴设备、个人计算机(Personal Computer，PC)、智能语音交互设备、智能家电、车载终端、飞行器、无人售货终端等电子设备。终端100中可以安装运行目标应用程序的客户端，该目标应用程序可以是支持视频审核的应用程序，也可以是提供有视频审核功能的其他应用程序，本申请对此不作限定。另外，本申请对该目标应用程序的形式不作限定，包括但不限于安装在终端100中的应用程序(Application，App)、小程序等，还可以是网页形式。

服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器200可以是上述目标应用程序的后台服务器，用于为目标应用程序的客户端提供后台服务。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图像类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

终端100和服务器200之间可以通过网络进行通信，如有线或无线网络。

本申请实施例提供的视频审核方法或视频审核模型的训练方法，各步骤的执行主体可以是计算机设备，所述计算机设备是指具备数据计算、处理和存储能力的电子设备。以图2所示的方案实施环境为例，可以由终端100执行视频审核方法或视频审核模型的训练方法(如终端100中安装运行的目标应用程序的客户端执行视频审核方法或视频审核模型的训练方法)，也可以由服务器200执行该视频审核方法或视频审核模型的训练方法，或者由终端100和服务器200交互配合执行，本申请对此不作限定。

图3是本申请一个示例性实施例提供的视频审核方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤302：获取目标视频的n种单模态特征。

计算机设备获取目标视频的n种单模态特征，其中，n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数。

模态(Modality)：用于表示信息的来源或者形式，每一种信息的来源或者形式都可以成为一种模态，如：人有触觉、听觉；信息的媒介包括语音、视频、文字等；多种多样的传感器，包括：雷达、红外、加速度计等，以上的每一种都可以称之为一种模态。

本申请实施例中，模态用于指示来自同一数据来源的数据集合，如：获取目标视频中的图像特征、音频特征和文本特征，其中，图像特征为一个模态、音频特征为一个模态、文本特征为一个模态，文本特征包括文本图像文本特征和音频文本特征。

其中，获取目标视频的方式包括如下情况中的至少一种：

1、计算机设备接收目标视频，例如：终端为发起视频录制的终端，通过终端录制视频，并在录制结束后，将目标视频发送至服务器进行审核。

2、计算机设备从已存储的数据库中获取目标视频，如：在广告平台数据库中，获取至少一个待投放的广告视频。

值得注意的是，上述获取目标视频的方式仅为示意性的举例，本申请实施例对此不加以限定。

步骤304：分别对n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征。

时序融合是指将从目标视频中所抽取的所有或部分目标视频帧中的特征进行融合。

单模态时序融合特征是指将从目标视频中所抽取的所有或部分目标视频帧中的单一特征进行融合得到的特征。比如，图像时序融合特征、音频时序融合特征和文本融合特征，但不限于此，本申请实施例对此不作限定。

例如，以图像、音频为例，计算机设备从目标视频中以1秒抽1帧的方式，抽取50帧目标视频帧，并从该50帧目标视频帧中获取每一帧对应的图像特征和音频特征，计算机设备对该50帧目标视频帧对应的图像特征进行时序融合，得到图像时序融合特征；计算机设备对该50帧目标视频帧对应的音频特征进行时序融合，得到音频时序融合特征。

步骤306：对n种单模态时序融合特征及n种单模态特征进行融合，得到多模态融合特征。

多模态融合特征是指将从目标视频中所抽取的目标视频帧中的至少两种特征进行融合得到的特征。

比如，将图像特征和音频特征进行融合、将图像特征和文本特征进行融合，但不限于此，本申请实施例对此不作限定。

例如，计算机设备获取图像特征和音频特征，计算机设备对图像特征、音频特征、图像时序融合特征、音频时序融合特征进行特征融合，得到多模态融合特征。

步骤308：基于多模态融合特征进行视频审核，得到目标视频的违规类别标签。

违规类别标签用于标记目标视频的违规点。

可选地，违规类别标签包括图像不雅、文本存在敏感词汇、音频刺耳中的至少一种，但不限于此，本申请实施例对此不作限定。

例如，计算机设备获取图像特征和音频特征的情况下，计算机设备将多模态融合特征输入至视频审核模型进行判别，最终得到目标视频的违规类别标签。

综上所述，本实施例提供的方法，通过对目标视频的n种单模态特征中的每种单模态特征进行时序融合，得到目标视频的n种单模态时序融合特征，并融合n种单模态时序融合特征及n种单模态特征，得到多模态融合特征；将多模态融合特征输入至视频审核模型进行判别，得到目标视频的违规类别标签。本申请通过多模态融合特征对目标视频进行多角度且结合前后内容的审核，提高了审核目标视频输出的违规类别标签的准确率。

图4是本申请一个示例性实施例提供的视频审核方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤402：获取目标视频的n种单模态特征。

在一种可能的实现方式中，计算机设备从目标视频中抽取出目标视频帧，获取目标视频帧中的图像；并将图像输入至图像特征学习网络进行特征提取，得到图像特征。

图像特征学习网络用于提取整个目标视频帧中的图像的特征，从而得到图像特征。

可选地，图像特征学习网络为残差神经网络(ResNet)，但不限于此，本申请实施例对此不作任何限定。

在一种可能的实现方式中，计算机设备从目标视频中抽取出目标视频帧，获取目标视频帧中的音频；并将音频输入至音频特征学习网络进行特征提取，得到音频特征。

音频特征学习网络用于提取整个目标视频帧中的音频的特征，从而得到音频特征。

可选地，音频特征学习网络为卷积网络(VGGish)、深度神经网络(Deep NeuralNetworks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)，但不限于此，本申请实施例对此不作任何限定。

在一种可能的实现方式中，计算机设备从目标视频中抽取出目标视频帧，获取所述目标视频帧中的图像和音频；计算机设备将图像进行光学字符识别OCR，得到图像文本，将图像文本输入至文本特征学习网络进行特征提取，得到图像文本特征。

计算机设备将音频进行自动语音识别ASR，得到音频文本，将音频文本输入至文本特征学习网络进行特征提取，得到音频文本特征。

文本特征学习网络用于提取整个目标视频帧中的文本的特征，从而得到文本特征。

可选地，文本特征学习网络为语言表征模型(Bidirectional EncoderRepresentation from Transformers，BERT)，但不限于此，本申请实施例对此不作任何限定。

需要说明的是，上述图像特征学习网络、音频特征学习网络、文本特征学习网络均属于特征提取网络，在本申请实施例中，特征提取网络的数量至少为两个，特征提取网络的数量可以更多。

例如，如图5所示出的目标视频模态分离的示意图，计算机设备获取目标视频501，并对目标视频501进行模态分离502，比如，从目标视频501中以1秒抽1帧的方式，抽取50帧目标视频帧，并从该50帧目标视频帧中获取每一帧对应的图像503和音频505，计算机设备通过光学字符识别OCR对目图像503进行文本识别，得到图像文本504；通过自动语音识别技术ASR对目标视频501的音频505进行文本识别，得到音频文本506。

如图6所示出的单模态特征提取的示意图，在获取目标视频的图像601、图像文本602、音频文本603、音频604的情况下，计算机设备将图像601输入至图像特征学习网络605进行特征提取，得到图像特征606；将音频604输入至音频特征学习网络609进行特征提取，得到音频特征610；将图像文本602输入至文本特征学习网络607进行特征提取，得到对应的图像文本特征；将音频文本603分别输入至文本特征学习网络607进行特征提取，得到音频文本特征，图像文本特征及音频文本特征统称为文本特征608。

步骤404：分别对n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征。

时序融合是指将从目标视频中所抽取的目标视频帧中的特征进行融合。

单模态时序融合特征是指将从目标视频中所抽取的目标视频帧中的单一特征进行融合得到的特征。

时序融合网络用于融合目标视频中所抽取的目标视频帧中的单一特征。

示例性地，计算机设备对于n种单模态特征中属于第i种类型的单模态特征，将不同帧对应的单模态特征在时间序列上进行融合，得到第i种单模态时序融合特征。

例如，计算机设备将图像特征输入至时序融合网络，在时序融合网络中对不同帧对应的图像特征在时间序列上进行融合，得到图像时序融合特征；将音频特征输入至时序融合网络，在时序融合网络中对不同帧对应的音频特征在时间序列上进行融合，得到音频时序融合特征；将图像文本特征输入至时序融合网络，在时序融合网络中对不同帧对应的图像文本特征在时间序列上进行融合，得到图像文本时序融合特征；将音频文本特征输入至时序融合网络，在时序融合网络中对不同帧对应的音频文本特征在时间序列上进行融合，得到音频文本时序融合特征。

时序融合网络的时序融合公式可表示为：

F_m1x＝v_1x(w_1x(F_x))

其中，x∈{i，a，t}，i代表图像模态、a代表音频模态、t代表文本模态；F_x为单模态特征(F_i为图像特征、Fa为音频特征、F_t为文本特征)；V_1x是时序融合方程，可以使用全连接网络或者全卷积网络进行实现；W_1x是特征映射方程，可以使用全连接网络或者全卷积网络进行实现；F_m1x为时序融合特征。

时序融合网络的具体的时序融合方程如下所示：

其中，T表示目标视频帧的帧数，k表示当前帧，

与

是第k帧的映射参数，

是第k帧的权重参数，

为当前帧的单模态特征。

步骤406：对n种单模态时序融合特征及n种单模态特征进行融合，得到多模态融合特征。

示例性地，计算机设备将n种单模态时序融合特征及n种单模态特征输入至特征融合网络进行融合，得到多模态融合特征。

特征融合网络用于对目标视频帧中的至少两种特征进行融合。

示例性地，计算机设备确定属于同一类型的第i种时序融合特征和第i种单模态特征，i为不大于n的正整数。

计算机设备分别将属于同一类型的第i种时序融合特征和第i种单模态特征进行融合，得到n种单模态中间特征。

计算机设备将n种单模态中间特征进行多模态融合，得到多模态融合特征。

示例性地，计算机设备将属于同一类型的第i种时序融合特征和第i种单模态特征中第j帧对应的单模态特征进行融合，得到第j帧对应的单模态中间特征，j为正整数。

示例性地，计算机设备对于n种单模态中间特征中属于第i种类型的单模态中间特征，将不同帧对应的单模态中间特征进行融合，得到第i种类型的单模态中间融合特征；计算机设备将不同类型对应的单模态中间融合特征进行融合，得到多模态融合特征。

例如，如图7所示出的特征融合的示意图，在获取图像特征701、文本特征702、音频特征703的情况下，计算机设备将图像特征701输入至时序融合网络705进行时序融合，在时序融合网络705中对不同帧对应的图像特征701在时间序列上进行融合，得到图像时序融合特征707；将音频特征703输入至时序融合网络705进行时序融合，在时序融合网络705中对不同帧对应的音频特征703在时间序列上进行融合，得到音频时序融合特征709；将文本特征702输入至时序融合网络705进行时序融合，在时序融合网络705中对不同帧对应的文本特征702在时间序列上进行融合，得到文本时序融合特征708。

计算机设备将图像特征701、文本特征702、音频特征703、图像时序融合特征707、音频时序融合特征709和文本时序融合特征708输入至特征融合网络704进行融合，在特征融合网络704中，计算机设备将图像时序融合特征707和图像特征701中的每一帧进行融合，得到图像特征701对应的图像单模态中间特征；计算机设备将音频时序融合特征709和音频特征703中的每一帧进行融合，得到音频特征703对应的音频单模态中间特征；计算机设备将文本时序融合特征708和文本特征702中的每一帧进行融合，得到文本特征702对应的文本单模态中间特征。

计算机设备将图像单模态中间特征中的每一帧特征进行融合，得到图像单模态中间融合特征；计算机设备将音频单模态中间特征中的每一帧特征进行融合，得到音频单模态中间融合特征；计算机设备将文本单模态中间特征中的每一帧特征进行融合，得到文本单模态中间融合特征。

计算机设备将图像单模态中间融合特征、音频单模态中间融合特征及文本单模态中间融合特征进行融合，得到所述多模态融合特征706。

特征融合网络的多模态融合公式可表示为：

F_m2＝v₂(w_2i(F_i),w_2t(F_t),w_2a(F_a),w_2I(F_m1i),w_2T(F_m1t),w_2A(F_m1a))

其中，V₂是多模态融合方程，可以使用全连接网络或者全卷积网络进行实现；W_2i、W_2t和W_2a分别是图像特征F_i、文本特征F_t和音频特征F_a的特征映射方程，可以使用全连接网络或者全卷积网络进行实现；F_m2为多模态融合特征；W_2I、W_2T和W_2A分别是图像时序融合特征F_m1i、文本时序融合特征F_m1t和音频时序融合特征F_m1a的特征映射方程，可以使用全连接网络或者全卷积网络进行实现。

特征融合网络的具体的多模态融合公式可表示为：

F_m2＝v_2i×(w_2i×F_i+b_2i)+v_2t×(w_2t×F_t+b_2t)+v_2a×(w_2a×F_a+b_2a)+v_2I×(w_2I×F_m1i+b_2I)+v_2T×(w_2T×F_m1t+b_2T)+v_2A×(w_2A×F_m1a+b_2A)

其中，v_2i、v_2t和v_2a分别是图像、文本和音频三个模态的权重参数，w_2i与b_2i、w_2t与b_2t和w_2a与b_2a分别是图像特征、文本特征和音频特征的映射参数，w_2I与b_2I、w_2T与b_2T和w_2A与b_2A分别是图像时序融合特征F_m1i、文本时序融合特征F_m1t和音频时序融合特征F_m1a的映射参数。

步骤408：基于n种单模态时序融合特征进行视频审核，得到目标视频的n种单模态违规类别标签。

违规类别标签用于标记目标视频的违规点。

在一种可能的实现方式中，视频审核模型包括n种单模态判别器；计算机设备将n种单模态时序融合特征输入至视频审核模型中与n种单模态时序融合特征对应的n种单模态判别器中进行判别，得到n种单模态时序融合特征对应的n种单模态违规类别标签。

示例性地，计算机设备将n种单模态时序融合特征的第i种时序融合特征输入至视频审核模型中对应的第i种单模态判别器中进行判别，得到目标视频的第i种单模态违规类别标签。

例如，计算机设备将图像时序融合特征输入至视频审核模型中的图像判别器进行判别，得到图像违规类别标签为：图像不雅。

将音频时序融合特征输入至视频审核模型中的音频判别器进行判别，得到音频违规类别标签为：音频刺耳。

将文本时序融合特征输入至视频审核模型中的文本判别器进行判别，得到文本违规类别标签为：文本不连贯。

步骤410：基于多模态融合特征进行视频审核，得到目标视频的违规类别标签。

在一种可能的实现方式中，视频审核模型包括整体判别器；计算机设备将多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到多模态融合特征对应的多模态违规类别标签。

例如，计算机设备将多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到多模态违规类别标签为：图像暴力---文本含有敏感词---音频刺耳。

步骤412：将多模态违规类别标签及n种单模态违规类别标签取并集，得到目标视频的违规类别标签。

示例性地，计算机设备将多模态违规类别标签、图像违规类别标签、音频违规类别标签及文本违规类别标签进行汇总取并集，得到目标视频的违规类别标签。

例如，如图8所示出的判别违规类别标签的示意图，在获取多模态融合特征801、图像时序融合特征804、文本时序融合特征807、音频时序融合特征810的情况下，计算机设备将多模态融合特征801输入至视频审核模型中的整体判别器802进行判别，得到多模态融合特征801对应的多模态违规类别标签803；将图像时序融合特征804输入至视频审核模型中的图像判别器805进行判别，得到图像时序融合特征804对应的图像违规类别标签806；将音频时序融合特征810输入至视频审核模型中的音频判别器811进行判别，得到音频时序融合特征810对应的音频违规类别标签812；将文本时序融合特征807输入至视频审核模型中的文本判别器808进行判别，得到文本时序融合特征807对应的文本违规类别标签809；计算机设备将多模态违规类别标签803、图像违规类别标签806、音频违规类别标签812、文本违规类别标签809进行汇总取并集，得到目标视频的违规类别标签813。

计算机设备将图像时序融合特征输入至视频审核模型中的图像判别器进行判别，得到图像违规类别标签为：图像不雅。

计算机设备将多模态违规类别标签、图像违规类别标签、音频违规类别标签、文本违规类别标签进行汇总，得到目标视频的违规类别标签为：图像暴力、图像不雅---文本含有敏感词、文本不连贯---音频刺耳。

综上所述，本实施例提供的方法，通过获取目标视频的n种单模态时序融合特征及多模态融合特征；将多模态融合特征及n种单模态时序融合特征输入至视频审核模型中的判别器进行判别，得到多模态融合特征对应的多模态违规类别标签及单模态时序融合特征对应的单模态违规类别标签，基于多模态违规类别标签与单模态违规类别标签得到目标视频的违规类别标签。本申请通过至少两种单模态时序融合特征及多模态融合特征对目标视频进行多角度且结合前后内容的审核，提高了审核目标视频输出的违规类别标签的准确率。

以上实施例示出了视频审核方法，接下来将就视频审核模型的训练方法作进一步描述。

图9是本申请一个示例性实施例提供的视频审核模型的训练方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤902：获取样本视频的n种单模态特征及样本视频的真实违规类别标签。

计算机设备获取样本视频的n种单模态特征及样本视频的真实违规类别标签，其中，n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数。

真实违规类别标签是指样本视频中的图像、音频或文本中存在的违规点，文本包括图像文本和音频文本。

获取样本视频的方式包括如下情况中的至少一种：

1、计算机设备接收样本视频，例如：终端为发起视频录制的终端，通过终端录制视频，并在录制结束后，将该视频发送至服务器进行审核。

2、计算机设备从已存储的数据库中获取样本视频，如：在广告平台数据库中，获取至少一个待投放的广告视频。

值得注意的是，上述获取样本视频的方式仅为示意性的举例，本申请实施例对此不加以限定。

步骤904：分别对n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征。

时序融合是指将从样本视频中所抽取的目标视频帧中的特征进行融合。

单模态时序融合特征是指将从样本视频中所抽取的目标视频帧中的单一特征进行融合得到的特征。比如，图像时序融合特征、音频时序融合特征和文本融合特征，但不限于此，本申请实施例对此不作限定。

例如，计算机设备从样本视频中以1秒抽1帧的方式，抽取50帧目标视频帧，并从该50帧目标视频帧中获取每一帧对应的图像特征和音频特征，计算机设备对该50帧目标视频帧对应的图像特征进行时序融合，得到图像时序融合特征；计算机设备对该50帧目标视频帧对应的音频特征进行时序融合，得到音频时序融合特征。

步骤906：对n种单模态时序融合特征及n种单模态特征进行融合，得到多模态融合特征。

多模态融合特征是指将从样本视频中所抽取的目标视频帧中的至少两种特征进行融合得到的特征。

步骤908：基于多模态融合特征进行视频审核，得到多模态预测违规类别标签。

违规类别标签用于标记样本视频的违规点。

多模态预测违规类别标签用于标识视频审核模型预测出的样本视频的违规点。

例如，计算机设备获取图像特征和音频特征的情况下，计算机设备将多模态融合特征输入至视频审核模型进行判别，最终得到样本视频的多模态预测违规类别标签。

步骤910：基于多模态预测违规类别标签及真实违规类别标签，计算第一损失函数值。

在获取多模态预测违规类别标签的情况下，计算机设备基于多模态预测违规类别标签及真实违规类别标签，计算第一损失函数值。

步骤912：基于第一损失函数值对视频审核模型的模型参数进行更新。

示例性地，计算机设备基于第一损失函数值对视频审核模型的模型参数进行更新，从而得到训练完成的视频审核模型。

模型参数更新是指对视频审核模型里面的网络参数进行更新，或对模型里面的各个网络模块的网络参数进行更新，或对模型里面的各个网络层的网络参数进行更新，但不限于此，本申请实施例对此不作限定。

视频审核模型的模型参数包括视频审核模型中图像特征学习网络的网络参数、文本特征学习网络的网络参数、音频特征学习网络的网络参数、时序融合网络的网络参数、特征融合网络的网络参数、整体判别器的网络参数中的至少一种。

综上所述，本实施例提供的方法，通过获取样本视频的n种单模态特征及样本视频的真实违规类别标签，分别时序融合n种单模态特征中的单模态特征，得到n种单模态时序融合特征；融合n种单模态时序融合特征及n种单模态特征，得到多模态融合特征；将多模态融合特征输入至视频审核模型中进行判别，得到多模态预测违规类别标签；基于多模态预测违规类别标签及真实违规类别标签，计算第一损失函数值；基于第一损失函数值对视频审核模型的模型参数进行更新，使得训练好的视频审核模型能够具备更高的视频审核精度，从而得到更加准确的违规类别标签。

图10是本申请一个示例性实施例提供的视频审核模型的训练方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤1002：获取样本视频的n种单模态特征及样本视频的真实违规类别标签。

计算机设备获取样本视频的n种单模态特征及样本视频的真实违规类别标签，其中，n种单模态特征包括图像特征、音频特征和文本特征中的至少两种，n为大于1的正整数，文本特征包括图像文本特征和音频文本特征。

真实违规类别标签是用于标注样本视频中的图像、音频或文本中存在的违规点的标签。

在一种可能的实现方式中，计算机设备从样本视频中抽取出目标视频帧，获取目标视频帧中的图像；并将图像输入至图像特征学习网络进行特征提取，得到图像特征。

图像特征学习网络用于提取整个样本视频帧中的图像的特征，从而得到图像特征。

在一种可能的实现方式中，计算机设备从样本视频中抽取出目标视频帧，获取目标视频帧中的音频；并将音频输入至音频特征学习网络进行特征提取，得到音频特征。

在一种可能的实现方式中，计算机设备从目标视频中抽取出目标视频帧，获取目标视频帧中的文本；并将文本输入至文本特征学习网络进行特征提取，得到文本特征。

示例性地，计算机设备获取目标视频帧中的图像和音频；将图像进行光学字符识别OCR，得到图像文本，将图像文本输入至文本特征学习网络进行特征提取，得到图像文本特征。

步骤1004：分别对n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征。

计算机设备将图像特征输入至时序融合网络，在时序融合网络中对不同帧对应的图像特征在时间序列上进行融合，得到图像时序融合特征；将音频特征输入至时序融合网络，在时序融合网络中对不同帧对应的音频特征在时间序列上进行融合，得到音频时序融合特征；将图像文本特征输入至时序融合网络，在时序融合网络中对不同帧对应的图像文本特征在时间序列上进行融合，得到图像文本时序融合特征；将音频文本特征输入至时序融合网络，在时序融合网络中对不同帧对应的音频文本特征在时间序列上进行融合，得到音频文本时序融合特征。

时序融合网络的时序融合公式可参加步骤404中的公式，本处不再赘述。

步骤1006：对n种单模态时序融合特征及n种单模态特征进行融合，得到多模态融合特征。

特征融合网络的多模态融合公式可参加步骤406中的公式，本处不再赘述。

步骤1008：将多模态融合特征输入至视频审核模型进行视频审核，得到多模态预测违规类别标签。

违规类别标签用于标记样本视频的违规点。

示例性地，视频审核模型包括整体判别器，计算机设备将多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到多模态融合特征对应的多模态预测违规类别标签。

步骤1010：基于多模态预测违规类别标签及真实违规类别标签，计算第一损失函数值。

步骤1012：将n种单模态时序融合特征输入至视频审核模型进行视频审核，得到n种单模态违规类别标签。

违规类别标签用于标记样本视频的违规点。

单模态预测违规类别标签用于标识视频审核模型预测出的样本视频的单模态下的违规点。单模态预测违规类别标签对样本视频的整体进行违规点标注。

可选地，单模态预测违规类别标签包括图像不雅、文本存在敏感词汇、音频刺耳中的至少一种，但不限于此，本申请实施例对此不作限定。

示例性地，将n种单模态时序融合特征输入至视频审核模型中对应的n种单模态判别器进行判别，得到n种单模态时序融合特征对应的n种单模态预测违规类别标签。

在一种可能的实现方式中，n种单模态时序融合特征包括图像时序融合特征；计算机设备将图像时序融合特征输入至视频审核模型中的图像判别器进行判别，得到图像预测违规类别标签。

在一种可能的实现方式中，n种单模态时序融合特征包括音频时序融合特征；计算机设备将音频时序融合特征输入至视频审核模型中的音频判别器进行判别，得到音频预测违规类别标签。

在一种可能的实现方式中，n种单模态时序融合特征包括文本时序融合特征；计算机设备将文本时序融合特征输入至视频审核模型中的文本判别器进行判别，得到文本预测违规类别标签。

单模态预测违规类别标签的获取公式可表示为：

其中，P_x为在单模态下的整体样本视频的单模态预测违规类别标签，

为单模态下的每一帧对应的违规类别，

其中，x∈{i，a，t}表示图像、音频或者文本模态；c表示c种违规点类别，违规点类别为0表示该模态没有违规点，违规点类别为1表示该模态的违规点类别为1；k表示出现违规点的视频帧；T表示所有出现违规点的视频帧数。

在一种可能的实现方式中，从样本视频中抽取出目标视频帧，获取目标视频帧中的文本；根据文本及真实违规类别标签，确定出样本视频对应的真实文本违规类别标签。真实文本违规类别标签用于标识样本视频的文本模态下的违规点。真实文本违规类别标签对样本视频的单帧进行帧级别违规点标注。

真实文本违规类别标签的获取公式可表示为：

其中，R_t为文本模态下的真实违规类别标签，

为文本模态下的每一帧对应的真实违规点，即真实文本违规类别标签，T_ocr为图像文本，T_asr为音频文本，

为字符串匹配算法。

可选地，字符串匹配算法为完全匹配算法、编辑距离匹配算法中的至少一种，但不限于此，本申请实施例对此不作限定。

步骤1014：基于单模态预测违规类别标签及真实违规类别标签，计算第二损失函数值。

计算机设备基于单模态预测违规类别标签及真实违规类别标签，计算第二损失函数值。

第二损失函数值包括：第二图像损失函数、第二文本损失函数、第二音频损失函数。

在一种可能的实现方式中，基于图像预测违规类别标签及真实违规类别标签，计算第二图像损失函数值。

在一种可能的实现方式中，基于音频预测违规类别标签及真实违规类别标签，计算第二音频损失函数值。

在一种可能的实现方式中，基于文本预测违规类别标签及真实违规类别标签，计算第二文本损失函数值。

在一种可能的实现方式中，基于文本预测违规类别标签及真实文本违规类别标签，计算第二文本损失函数值。

步骤1016：基于第一损失函数值及第二损失函数值对视频审核模型的模型参数进行更新。

示例性地，第二损失函数值为单模态预测违规类别标签及真实违规类别标签之间的第二交叉熵，第一损失函数值为多模态预测违规类别标签及真实违规类别标签之间的第一交叉熵。

计算机设备基于第一交叉熵及第二交叉熵的和，对视频审核模型的模型参数进行更新。

交叉熵的计算公式可表示为：

loss_x＝-r_x log(p_x)-(1-r_x)log(1-p_x)

其中，x∈{i，a，t，m}表示图像模态、音频模态、文本模态或者多模态融合，r_x是R_x的独热向量表示，R_x为整体样本视频的真实违规类别标签或真实文本违规类别标签，p_x是视频审核模型在该模态下的预测违规类别标签输出。

示意性的，独热编码向量指One-Hot编码对应的向量，其中，One-Hot编码又称一位有效编码，其使用方法是通过N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候，各状态下只有一位状态有效。

视频审核模型的模型参数包括视频审核模型中图像特征学习网络的网络参数、文本特征学习网络的网络参数、音频特征学习网络的网络参数、时序融合网络的网络参数、特征融合网络的网络参数、图像判别器的网络参数、文本判别器的网络参数、音频判别器的网络参数、整体判别器的网络参数中的至少一种。

在一些实施例中，视频审核模型的模型参数更新包括更新视频审核模型中的所有网络模块的网络参数，或，固定视频审核模型中的部分网络模块的网络参数，仅更新剩余部分的网络模块的网络参数。比如，对视频审核模型的模型参数进行更新时，固定视频审核模型中的特征融合网络的网络参数、时序融合网络的网络参数和特征学习网络的网络参数，仅对判别器网络的网络参数进行更新。

基于第一交叉熵及第二交叉熵的和，将第一交叉熵及第二交叉熵的和作为误差，基于误差反向传播算法对视频审核模型中的图像特征学习网络、文本特征学习网络、音频特征学习网络、时序融合网络、特征融合网络、图像判别器、文本判别器、音频判别器、整体判别器的网络参数进行更新，以使得第一交叉熵及第二交叉熵的和越来越小，直至第一交叉熵及第二交叉熵的和发生收敛，从而得到训练完成的视频审核模型。

第一交叉熵及第二交叉熵的和发生收敛是指第一交叉熵及第二交叉熵的和不再发生改变，或，视频审核模型的训练时相邻两次迭代之间的误差差别小于预设值，或，视频审核模型的训练次数达到预设次数中的至少一种，但不限于此，本申请实施例对此不作限定。

具体的，上述视频审核模型的训练过程可以包括：在第一次迭代过程中，将样本视频的n种单模态特征，输入初始模型，得到第一次迭代过程的违规类别标签预测结果。基于第一次迭代过程的违规类别标签预测结果与真实违规类别标签，确定损失函数，基于损失函数，对初始模型中的模型参数进行调整。将第一次迭代调整后的模型参数作为第二次迭代的模型参数，再进行第二次迭代。重复多次上述迭代过程，在第N次过程中，以第N-1次迭代调整后的模型参数作为新的模型参数，进行模型训练，直到训练满足目标条件，则将满足目标条件的迭代过程所对应的模型获取为视频审核模型。

可选的，训练满足的目标条件可以为初始模型的训练迭代次数达到目标次数，技术人员可以预先设定训练迭代次数。或者，训练满足的目标条件可以为损失值满足目标阈值条件，如损失值小于0.00001，但不限于此，本申请实施例对此不作限定。

综上所述，本实施例提供的方法，通过获取样本视频的n种单模态特征及样本视频的真实违规类别标签，分别时序融合n种单模态特征中的单模态特征，得到n种单模态时序融合特征；通过n种单模态时序融合特征输入至视频审核模型中进行判别，得到n种单模态预测违规类别标签；提供了多种基于单模态预测违规类别标签及真实违规类别标签，计算第一损失函数值的方式；融合n种单模态时序融合特征及n种单模态特征，得到多模态融合特征；将多模态融合特征输入至视频审核模型中进行判别，得到多模态预测违规类别标签；基于多模态预测违规类别标签及真实违规类别标签，计算第二损失函数值；基于第一损失函数值及第二损失函数值对视频审核模型的模型参数进行更新，使得训练好的视频审核模型能够具备更高的视频审核精度，从而得到更加准确的违规类别标签。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本视频和目标视频都是在充分授权的情况下获取的。

图11是本申请一个示例性实施例提供的视频审核方法的流程图。该方法可以由计算机设备执行，计算机设备可以是图2中的终端100或服务器200。该方法包括：

步骤1101：开始。

步骤1102：输入目标视频。

计算机设备向视频审核模型输入待审核的目标视频。

步骤1103：模态分离。

计算机设备获取目标视频，并对目标视频进行模态分离，比如，从目标视频中以1秒抽1帧的方式，抽取50帧目标视频帧，并从该50帧目标视频帧中获取每一帧对应的图像和音频，计算机设备通过光学字符识别OCR对目图像进行文本识别，得到图像文本；通过自动语音识别技术ASR对目标视频的音频进行文本识别，得到音频文本。

步骤1104：多模态特征提取。

在获得目标视频的图像、图像文本、音频文本、音频的情况下，计算机设备将图像输入至图像特征学习网络进行特征提取，得到图像特征；将音频输入至音频特征学习网络进行特征提取，得到音频特征；将图像文本输入至文本特征学习网络进行特征提取，得到对应的图像文本特征；将音频文本分别输入至文本特征学习网络进行特征提取，得到音频文本特征，图像文本特征及音频文本特征统称为文本特征。

步骤1105：模态特征融合。

在获取图像特征、文本特征、音频特征的情况下，计算机设备将图像特征输入至时序融合网络进行时序融合，得到图像时序融合特征；将音频特征输入至时序融合网络进行时序融合，得到音频时序融合特征；将文本特征输入至时序融合网络进行时序融合，得到文本时序融合特征。

计算机设备将图像特征、文本特征、音频特征、图像时序融合特征、音频时序融合特征和文本融合特征输入至特征融合网络进行融合，得到多模态融合特征。

步骤1106：模态违规判别。

在获取多模态融合特征、图像时序融合特征、文本时序融合特征、音频时序融合特征的情况下，计算机设备将多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到多模态融合特征对应的多模态违规类别标签；将图像时序融合特征输入至视频审核模型中的图像判别器进行判别，得到图像时序融合特征对应的图像违规类别标签；将音频时序融合特征输入至视频审核模型中的音频判别器进行判别，得到音频时序融合特征对应的音频违规类别标签；将文本时序融合特征输入至视频审核模型中的文本判别器进行判别，得到文本时序融合特征对应的文本违规类别标签。

步骤1107：输出违规类别标签。

计算机设备将多模态违规类别标签、图像违规类别标签、音频违规类别标签、文本违规类别标签进行汇总，得到目标视频的违规类别标签。

步骤1108：结束。

图12示出了本申请一个示例性实施例提供的视频审核装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

获取模块1201，用于获取目标视频的n种单模态特征，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

时序融合模块1202，用于分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征；

特征融合模块1203，用于对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征；

审核模块1204，用于基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签。

在一种可能的实现方式中，特征融合模块1203，还用于确定属于同一类型的第i种时序融合特征和第i种单模态特征，i为不大于n的正整数；

分别将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征进行融合，得到n种单模态中间特征；

将所述n种单模态中间特征进行多模态融合，得到所述多模态融合特征。

在一种可能的实现方式中，特征融合模块1203，还用于将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征中第j帧对应的单模态特征进行融合，得到第j帧对应的单模态中间特征，j为正整数。

在一种可能的实现方式中，特征融合模块1203，还用于对于所述n种单模态中间特征中属于第i种类型的单模态中间特征，将不同帧对应的单模态中间特征进行融合，得到第i种类型的单模态中间融合特征；

在一种可能的实现方式中，时序融合模块1202，还用于对于所述n种单模态特征中属于第i种类型的单模态特征，将不同帧对应的单模态特征在时间序列上进行融合，得到第i种单模态时序融合特征。

在一种可能的实现方式中，审核模块1204，还用于将所述多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到所述目标视频的多模态违规类别标签。

在一种可能的实现方式中，审核模块1204，还用于基于所述n种单模态时序融合特征进行视频审核，得到所述目标视频的n种单模态违规类别标签。

在一种可能的实现方式中，审核模块1204，还用于将所述n种单模态时序融合特征的第i种时序融合特征输入至视频审核模型中对应的第i种单模态判别器中进行判别，得到所述目标视频的第i种单模态违规类别标签；

在一种可能的实现方式中，审核模块1204，还用于将所述多模态违规类别标签及所述n种单模态违规类别标签取并集，得到所述目标视频的所述违规类别标签。

在一种可能的实现方式中，获取模块1201，还用于从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的图像；将所述图像输入至图像特征学习网络进行特征提取，得到所述图像特征。

在一种可能的实现方式中，获取模块1201，还用于从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的音频；将所述音频输入至音频特征学习网络进行特征提取，得到所述音频特征。

在一种可能的实现方式中，获取模块1201，还用于从所述目标视频中抽取出目标视频帧，获取所述目标视频帧中的图像和音频；

图13示出了本申请一个示例性实施例提供的视频审核模型的训练装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为计算机设备的全部或一部分，该装置包括：

获取模块1301，用于获取样本视频的n种单模态特征及所述样本视频的真实违规类别标签，所述n种单模态特征包括图像特征、音频特征、图像文本特征和音频文本特征中的至少两种，n为大于1的正整数；

时序融合模块1302，用于分别对所述n种单模态特征中的每种单模态特征进行时序融合，得到n种单模态时序融合特征；

特征融合模块1305，用于对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征；

审核模块1303，还用于将所述多模态融合特征输入至所述视频审核模型进行视频审核，得到多模态预测违规类别标签；

计算模块1304，还用于基于所述多模态预测违规类别标签及所述真实违规类别标签，计算第一损失函数值。

更新模块1306，用于基于所述第一损失函数值对所述视频审核模型的模型参数进行更新。

在一种可能的实现方式中，特征融合模块1305，还用于确定属于同一类型的第i种时序融合特征和第i种单模态特征，i为不大于n的正整数；

在一种可能的实现方式中，特征融合模块1305，还用于在所述特征融合网络中，将属于同一类型的所述第i种时序融合特征和所述第i种单模态特征中第j帧对应的单模态特征进行融合，得到第j帧对应的单模态中间特征，j为正整数。

在一种可能的实现方式中，特征融合模块1305，还用于对于所述n种单模态中间特征中属于第i种类型的单模态中间特征，将不同帧对应的单模态中间特征在所述特征融合网络中进行融合，得到第i种类型的单模态中间融合特征；

在一种可能的实现方式中，时序融合模块1302，还用于在所述时序融合网络中，对于所述n种单模态特征中属于第i种类型的单模态特征，将不同帧对应的单模态特征在时间序列上进行融合，得到第i种单模态时序融合特征。

在一种可能的实现方式中，审核模块1303，还用于将所述多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到所述多模态融合特征对应的所述多模态预测违规类别标签。

在一种可能的实现方式中，审核模块1303，还用于将所述n种单模态时序融合特征输入至所述视频审核模型进行视频审核，得到n种单模态预测违规类别标签。

在一种可能的实现方式中，计算模块1304，还用于基于所述单模态预测违规类别标签及所述真实违规类别标签，计算第二损失函数值。

在一种可能的实现方式中，更新模块1306，还用于基于所述第一损失函数值及所述第二损失函数值对所述视频审核模型的模型参数进行更新。

在一种可能的实现方式中，审核模块1303，还用于将所述n种单模态时序融合特征的第i种时序融合特征输入至视频审核模型中对应的第i种单模态判别器中进行判别，得到所述目标视频的第i种单模态违规类别标签。

在一种可能的实现方式中，审核模块1303，还用于将所述图像时序融合特征输入至所述视频审核模型中的图像判别器进行判别，得到图像预测违规类别标签；

在一种可能的实现方式中，计算模块1304，还用于基于所述图像预测违规类别标签及所述真实违规类别标签，计算第二图像损失函数值。

在一种可能的实现方式中，审核模块1303，还用于将所述音频时序融合特征输入至所述视频审核模型中的音频判别器进行判别，得到音频预测违规类别标签；

在一种可能的实现方式中，计算模块1304，还用于基于所述音频预测违规类别标签及所述真实违规类别标签，计算第二音频损失函数值。

在一种可能的实现方式中，审核模块1303，还用于将所述文本时序融合特征输入至所述视频审核模型中的文本判别器进行判别，得到文本预测违规类别标签；

在一种可能的实现方式中，计算模块1304，还用于基于所述文本预测违规类别标签及所述真实违规类别标签，计算第二文本损失函数值。

在一种可能的实现方式中，计算模块1304，还用于从所述样本视频中抽取出目标视频帧，获取所述目标视频帧中的文本；根据所述文本及所述真实违规类别标签，确定所述样本视频对应的所述真实文本违规类别标签；基于所述文本预测违规类别标签及所述真实文本违规类别标签，计算所述第二文本损失函数值。

在一种可能的实现方式中，更新模块1306，还用于基于所述第一交叉熵及所述第二交叉熵的和，对所述视频审核模型的模型参数进行更新。

图14示出了本申请一示例性实施例示出的计算机设备1400的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述图像计算机设备1400包括中央处理单元(Central Processing Unit，CPU)1401、包括随机存取存储器(Random Access Memory，RAM)1402和只读存储器(Read-Only Memory，ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述图像计算机设备1400还包括用于存储操作系统1409、应用程序1410和其他程序模块1411的大容量存储设备1406。

所述大容量存储设备1406通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1406及其相关联的计算机可读介质为图像计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1406可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1406可以统称为存储器。

根据本公开的各种实施例，所述图像计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即图像计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1407连接到网络1408，或者说，也可以使用网络接口单元1407来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一段计算机程序，所述至少一段计算机程序存储于存储器中，中央处理器1401通过执行该至少一段程序来实现上述各个实施例所示的视频审核方法或视频审核模型的训练方法中的全部或部分步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序，该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的视频审核模型的训练方法或视频审核方法。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条程序，该至少一条程序由处理器加载并执行以实现上述各方法实施例提供的视频审核模型的训练方法或视频审核方法。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机程序由计算机设备的处理器从所述计算机可读存储介质读取并执行，使得所述计算机设备执行上述各方法实施例提供的视频审核模型的训练方法或视频审核方法。

可以理解的是，在本申请的具体实施方式中，涉及到的数据，历史数据，以及画像等与用户身份或特性相关的用户数据处理等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同切换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频审核方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述n种单模态时序融合特征及所述n种单模态特征进行融合，得到多模态融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签，包括：

将所述多模态融合特征输入至视频审核模型中的整体判别器进行判别，得到所述目标视频的多模态违规类别标签。

4.根据权利要求1至3任一所述的方法，其特征在于，所示方法还包括：

基于所述n种单模态时序融合特征进行视频审核，得到所述目标视频的n种单模态违规类别标签。

5.根据权利要求4所述的方法，其特征在于，所述基于所述n种单模态时序融合特征进行视频审核，得到所述目标视频的n种单模态违规类别标签，包括：

将所述n种单模态时序融合特征的第i种时序融合特征输入至视频审核模型中对应的第i种单模态判别器中进行判别，得到所述目标视频的第i种单模态违规类别标签；

所述基于所述多模态融合特征进行视频审核，得到所述目标视频的违规类别标签，包括：

将所述多模态违规类别标签及所述n种单模态违规类别标签取并集，得到所述目标视频的所述违规类别标签。

6.一种视频审核模型的训练方法，其特征在于，所述方法包括：

7.一种视频审核装置，其特征在于，所述装置包括：

8.一种视频审核模型的训练装置，其特征在于，所述装置包括：

审核模块，用于将所述多模态融合特征输入至所述视频审核模型进行视频审核，得到多模态预测违规类别标签；

9.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一条计算机程序，至少一条所述计算机程序由所述处理器加载并执行以实现如权利要求1至5中任一项所述的视频审核方法，或，如权利要求6所述的视频审核模型的训练方法。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行以实现如权利要求1至5中任一项所述的视频审核方法，或，如权利要求6所述的视频审核模型的训练方法。