CN108124191B

CN108124191B - 一种视频审核方法、装置及服务器

Info

Publication number: CN108124191B
Application number: CN201711406873.2A
Authority: CN
Inventors: 丁圣龙; 王璇; 尉明望; 郁陈焙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2019-07-12
Anticipated expiration: 2037-12-22
Also published as: CN108124191A

Abstract

本发明提出一种视频审核方法、装置及服务器。所述方法包括：根据待审核视频中的场景截取所述待审核视频的多媒体片段；检测所述多媒体片段的内容是否属于禁止类别；若属于，则发送所述待审核视频属于禁止类别的提示信息；其中，所述多媒体片段包括图像帧、音频片段、语音片段和/或文字片段。本发明可以实现：根据待审核视频中的场景截取其多媒体片段，检测所述多媒体片段的内容是否属于禁止类别，其中，多媒体片段包括图像帧、音频片段、语音片段和文字片段，将待审核视频根据场景截成多媒体片段，当其中一个片段具有较强烈的特征表现，即可认定该待审核视频是属于禁止类别的，因此，在视频较长的情况下，本技术方案可以大大地提高审核效率。

Description

一种视频审核方法、装置及服务器

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频审核方法、装置及服务器。

背景技术

随着互联网技术的繁荣发展，网络上的视频资源也越来越多。大量的视频鱼龙混杂，尤其是一些用户自行上传的视频更是如此。诸如一些影视片段含有色情、严重暴力等内容，或者一些视频涉及版权等问题。为了能够将不良视频过滤，需要对视频的内容进行审核。

传统技术中，广电行业对于视频审核采取的方式主要是：采用播控系统，将视频进行多轮人工审核。具体是为人工审核人员提供一个封闭或半封闭的集中办公场所，并为每个审核人员配备工位和视频播放设备，可以同时以不同速率播放多个视频，一般情况下，每个视频经过二至四人审核确认没有问题后方可通过审核。

采用传统技术的视频审核方式，必须对用户上传的视频进行完整播放，导致审核效率低下。

发明内容

本发明实施例提供一种视频审核方法、装置及服务器，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种视频审核的方法，包括：

根据待审核视频中的场景截取所述待审核视频的多媒体片段；

检测所述多媒体片段的内容是否属于禁止类别；

若属于，则发送所述待审核视频属于禁止类别的提示信息；

其中，所述多媒体片段包括图像帧、音频片段、语音片段和文字片段

结合第一方面，本发明在第一方面的第一种实施方式中，截取待审核视频的多媒体片段，包括：

截取所述待审核视频的图像帧；

提取所述待审核视频的音频片段；

提取所述待审核视频的语音片段；

获取所述待审核视频中的文字片段。

结合第一方面的第一实施方式，检测所述多媒体片段的内容是否属于禁止类别，包括：

若所述图像帧存在属于禁止类别的可能性，则根据预设禁止类别分类表判断所述图像帧是否属于所述禁止类别；

若所述图像帧属于所述禁止类别，则计算所述图像帧属于所述禁止类别的置信度。

结合第一方面的第一种实施方式，检测所述多媒体片段的内容是否属于禁止类别，包括：

提取所述待审核视频的音频片段的频谱；

根据所述音频片段的频谱确定所述音频片段是否属于所述禁止类别；

若所述音频片段属于所述禁止类别，则计算所述音频片段属于所述禁止类别的置信度。

采集一语言的语音标注数据样本；

根据所述语言的语音标注数据样本，采用机器学习算法构建语音识别机器模型；

根据所述语音识别机器模型输出的结果确定所述语音片段是否属于所述禁止类别；

若所述语音片段属于所述禁止类别，则计算所述语音片段属于所述禁止类别的置信度。

采集图像标记数据样本；

根据所述图像标记数据样本，采用机器学习算法构建文字识别模型；

根据所述文字识别模型识别所述图像帧中的文字；

审核所述图像帧中的文字是否包含敏感词，以确定所述图像帧中的文字是否属于禁止类别；

对所述图像帧中不包含敏感词的文字进行语义分析，根据所述语义分析结构确定所述图像帧中的文字是否属于禁止类别；

若所述图像帧中的文字片段属于禁止类别，则计算所述文字片段属于所述禁止类别的置信度。

根据所述待审核视频的图像帧、音频片段、语音片段和文字片段属于禁止类别的置信度，确定所述待审核视频是否属于禁止类别。

第二方面，本发明实施例提供了一种视频审核装置，包括：

截取模块，配置为根据待审核视频中的场景截取所述待审核视频的多媒体片段；

检测模块，配置为检测所述多媒体片段的内容是否属于禁止类别；

提示模块，配置为当所述多媒体片段的内容属于禁止类别时，发送所述待审核视频属于禁止类别的提示信息；

其中，所述多媒体片段包括图像帧、音频片段、语音片段和/或文字片段。

第三方面，本发明实施例提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的视频审核方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储视频审核装置所用的计算机软件指令，其包括用于执行上述第一方面中视频审核方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：根据待审核视频中的场景截取其多媒体片段，检测所述多媒体片段的内容是否属于禁止类别，其中，多媒体片段包括图像帧、音频片段、语音片段和文字片段，将待审核视频根据场景截成多媒体片段，当其中一个片段具有较强烈的特征表现，即可认定该待审核视频是属于禁止类别的，因此，在视频较长的情况下，本技术方案可以大大地提高审核效率。

上述技术方案中的另一个技术方案具有如下优点或有益效果：本技术方案从图像帧、音频、语音和文字四个维度进行审核，能够较为全面地对待审核视频进行审核。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为本发明实施例一的视频审核方法的流程图；

图2为本发明实施例二的视频审核方法的流程图；

图3为本发明实施例三的视频审核方法的流程图；

图4为本发明实施例四的视频审核方法的流程图；

图5为本发明实施例五的视频审核方法的流程图；

图6为本发明实施例六的视频审核方法的流程图；

图7为本发明实施例七的视频审核装置的示意图；

图8为本发明实施例八的服务器的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

本发明实施例提供一种视频审核方法。如图1所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S101，根据待审核视频中的场景截取所述待审核视频的多媒体片段。

本发明实施例采用场景检测技术，首先将待审核视频按照场景进行分割，根据场景的时长，在截取多媒体片段时，根据多媒体片段的类型做不同的截取，例如，截取图像帧时，可以随机选择若干图像帧，在截取音频片段时，可以截取一场景中的一段音频，还可以截取一场景的所有音频。其中，场景可以认为是一系列连续的图像帧，在同一场景中的图像帧差异较小。由于同一场景中的图像帧差异度较小，因此，在同一场景中选择若干图像帧或者一段音频等多媒体片段，即可以表征该场景下的多媒体片段可能属于的类别。

S102，检测所述多媒体片段的内容是否属于禁止类别。

本实施例所涉及的禁止类别可以包色情和暴力等类别。本发明实施例将以色情类别为例，介绍本发明方法。

S103，若属于，则发送所述待审核视频属于禁止类别的提示信息。

本发明实施例在具体实施时，由于多媒体片段有很多个，因此在检测完当前多媒体片段时，如果当前的多媒体片段具有很强烈的特征表明该多媒体片段具有禁止内容，属于禁止类别，则可以仅根据当前多媒体片段确定待审核视频属于禁止类别，这时不用再检测其他的多媒体片段；如果当前的多媒体片段并没有显示出强烈的特征表明该多媒体片段属于禁止类别，则需要再继续进行检测，直至所述多媒体片段全部检测完成；当最后的一个多媒体片段检测完成时，发送完成视频审核的提示。

由于截取待审核视频的多媒体片段时，多媒体片段的属性中表明了该多媒体片段的起止位置或起止时间，而起止位置或起止时间是连续的，因此可以根据位置或时间的连续性来确定所述多媒体片段是否全部检测完成。

另外，本技术方案从图像帧、音频、语音和文字四个维度进行审核，能够较为全面地对待审核视频进行审核。

实施例二

在实施例一的基础上，本发明实施例提供一种视频审核方法。如图2所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S201，截取所述待审核视频的图像帧。

S202，若所述图像帧存在属于禁止类别的可能性，则根据预设禁止类别分类表判断所述图像帧是否属于所述禁止类别。

本发明实施例为确定图像帧是否存在属于禁止类别的可能性，对图像帧进行了详细的分类，禁止类别分类表如表1所示：

表1：

显然，表1中的特殊类别和卡通正常是不属于禁止类别的，自然正常和自然性感的色情程度为中等，卡通色情和自然色情则具有较为强烈的色情特征。

S203，若所述图像帧属于所述禁止类别，则计算所述图像帧属于所述禁止类别的置信度。

本发明实施例可以采用机器学习算法，构建图像识别模型，用于对截取的图像帧进行分类，并输出图像帧分类的结果和置信度。举例来说，首先采集500万张图片样本，然后对该500万张图片样本，根据上表中的类别进行标注分类，根据样本的标注分类结果，采用机器学习算法，例如，卷积神经网络(Convolutional Neural Network，CNN)等人工智能算法，构建图像识别模型；在对待审核视频截取图像帧后，将图像帧输入构建的图像识别模型，然后得到输出的图像帧分类结果以及每一分类结果的置信度。此时可以由人工根据输出结果判断，图像帧属于卡通色情、自然色情、自然正常、自然性感或者卡通正常和特殊类别，然后再综合其他结果，决定当前的待审核视频是否可以通过审核。还可以由计算机进行自动判断，对于具有较为强烈的色情特征的卡通色情和自然色情，直接发出待审核视频属于禁止类别的提示。

上述技术方案中的一个技术方案具有如下优点或有益效果：将图像帧进行详细地分类，然后将截取的多媒体片段的图像帧与禁止类别分类表进行比对，以确定多媒体片段的图像帧是否属于禁止类别，若所截取的图像帧具有较强烈的色情特征，即可认定该待审核视频是属于禁止类别的。

实施例三

在实施例一的基础上，本发明实施例提供一种视频审核方法。如图3所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S301，提取所述待审核视频的音频片段。

S302，提取所述待审核视频的音频片段的频谱。

例如，本发明实施例采集2万个音频片段进行了标注，然后使用RNN、CNN等人工智能算法进行训练，得到音频识别机器模型。通过音频识别机器模型对音频频谱进行分析。

S303，根据所述音频片段的频谱确定所述音频片段是否属于所述禁止类别。

本发明实施例在提取待审核视频的语音片段后，对音频片段的频谱进行识别，可检测其中是否存在娇喘片段。若存在，则说明该语音片段属于禁止类别。

S304，若所述音频片段属于所述禁止类别，则计算所述音频片段属于所述禁止类别的置信度。

具体地，训练得到的语音识别机器模型可对音频进行逐段分类，然后输出音频片段的起止时间和置信度。

具体地，在计算置信度时还输出音频片段的起止时间。这样一方面可使审核人员对于出现禁止内容的位置有所了解，另一方面，由于音频片段较多，可方便判断对于每一音频片段全部审核完成。

上述技术方案中的一个技术方案具有如下优点或有益效果：截取待审核视频中的音频片段，检测其音频频谱是否存在娇喘等片段，若存在，则说明该音频片段属于禁止类别。

实施例四

在实施例一的基础上，本发明实施例提供一种视频审核方法。如图4所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S401，提取所述待审核视频的语音片段。

S402，采集一语言的语音标注数据样本。

S403，根据所述语言的语音标注数据样本，采用机器学习算法构建语音识别机器模型。

例如，本发明实施例采集2万小时的各场景中的中文或英文语音标注数据进行训练，得到语音识别机器模型。该语音识别机器模型可用于对待审核视频的音频进行语音识别。并且可识别多种语言，如中文、英文等语言；还可以识别方言，如上海话、普通话。

S404，根据所述语音识别机器模型输出的结果确定所述语音片段是否属于所述禁止类别。

S405，若所述语音片段属于所述禁止类别，则计算所述语音片段属于所述禁止类别的置信度。

上述技术方案中的一个技术方案具有如下优点或有益效果：截取待审核视频中的语音片段，检测其语音片段是否存在禁止的内容，若存在，则说明该语音片段属于禁止类别。

实施例五

在实施例一的基础上，本发明实施例提供一种视频审核方法。如图5所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S501，获取所述待审核视频中的文字片段。

S502，采集图像标记数据样本。

S503，根据所述图像标记数据样本，采用机器学习算法构建文字识别模型。

例如，本发明实施例采集100万张图片标记数据作为样本，进行训练，得到文字识别模型。该文字识别模型可对待审核视频图像帧中的文字进行识别，并且支持中文简体、中文繁体、英文文字等。

S504，根据所述文字识别模型识别所述图像帧中的文字。

S505，审核所述图像帧中的文字是否包含敏感词，以确定所述图像帧中的文字是否属于禁止类别。

具体地，在审核时，可采用检测敏感词的方法对文字进行审核。首先对文本切词后，与敏感词匹配；或者切词后，再组合，进行匹配，如果匹配则说明文字中包含了敏感词。

S506，对所述图像帧中不包含敏感词的文字进行语义分析，根据所述语义分析结构确定所述图像帧中的文字是否属于禁止类别。

S507，若所述图像帧中的文字片段属于禁止类别，则计算所述文字片段属于所述禁止类别的置信度。

具体地，在计算置信度时，还会输出识别的文字和文字位置，以确定文字的位置。

上述技术方案中的一个技术方案具有如下优点或有益效果：根据待审核视频中的文字片段，检测所述文字片段中是否包含敏感词，或对文字片段进行语义分析，以确定该文字片段是否属于禁止类别。

实施例六

在实施例一的基础上，本发明实施例提供一种视频审核方法。如图6所示，为本发明的视频审核方法的流程图。本发明的视频审核方法包括如下步骤：

S601，截取所述待审核视频的图像帧；

S602，若所述图像帧存在属于禁止类别的可能性，则根据预设禁止类别分类表判断所述图像帧是否属于所述禁止类别；

S603，若所述图像帧属于所述禁止类别，则计算所述图像帧属于所述禁止类别的置信度；

S604，提取所述待审核视频的音频片段；

S605，提取所述待审核视频的音频片段的频谱；

S606，根据所述音频片段的频谱确定所述音频片段是否属于所述禁止类别；

S607，若所述音频片段属于所述禁止类别，则计算所述音频片段属于所述禁止类别的置信度；

S608，提取所述待审核视频的语音片段；

S609，采集一语言的语音标注数据样本；

S610，根据所述语言的语音标注数据样本，采用机器学习算法构建语音识别机器模型；

S611，根据所述语音识别机器模型输出的结果确定所述语音片段是否属于所述禁止类别；

S612，若所述语音片段属于所述禁止类别，则计算所述语音片段属于所述禁止类别的置信度；

S613，获取所述待审核视频中的文字片段；

S614，采集图像标记数据样本；

S615，根据所述图像标记数据样本，采用机器学习算法构建文字识别模型；

S616，根据所述文字识别模型识别所述图像帧中的文字；

S617，审核所述图像帧中的文字是否包含敏感词，以确定所述图像帧中的文字是否属于禁止类别；

S618，对所述图像帧中不包含敏感词的文字进行语义分析，根据所述语义分析结构确定所述图像帧中的文字是否属于禁止类别；

S619，若所述图像帧中的文字片段属于禁止类别，则计算所述文字片段属于所述禁止类别的置信度；

S620，根据所述待审核视频的图像帧、音频片段、语音片段和文字片段属于禁止类别的置信度，确定所述待审核视频是否属于禁止类别。

本发明实施例可用于广电、互联网行业等的视频审核。利用人工智能技术从待审核视频的图像帧、音频、语音和文字四个维度进行审核，能够发现待审核视频中现出的所有禁止内容，审核得更全面。

本发明实施例，节省了培训人审团队的成本；另外，对于较长的视频，采用性能优化方式，可以极大地提高审核效率。

本发明实施例从四个维度进行交叉验证，在交叉验证阶段可以去掉部分机器审核的噪音结果，提高审核准确率；本发明实施例还支持视频审核，对于企业用户来说，只需要提供视频地址即可完成审核，无需搭建任何对接平台。

实施例七

本发明实施例提供一种视频审核装置。如图7所示，为本发明的视频审核装置的示意图。本发明的视频审核装置包括：

所述装置包括：

截取模块71，配置为根据待审核视频中的场景截取所述待审核视频的多媒体片段；

检测模块72，配置为检测所述多媒体片段的内容是否属于禁止类别；

提示模块73，配置为当所述多媒体片段的内容属于禁止类别时，发送所述待审核视频属于禁止类别的提示信息；

本发明的视频审核装置的能够实现提高审核效率的有益效果，该有益效果与实施例一一致，在此不再赘述。

实施例八

本发明实施例八提供一种服务器，如图8所示，该服务器包括：存储装置81和处理器82，存储器81内存储有可在处理器82上运行的计算机程序。处理器82执行所述计算机程序时实现上述实施例中的信息分类方法。存储器81和处理器82的数量可以为一个或多个。

该服务器还包括：

通信接口83，用于存储装置81和处理器82与外部设备之间的通信。

存储装置81可能包含高速RAM存储装置，也可能还包括非易失性存储装置(non-volatile memory)，例如至少一个磁盘存储装置。

如果存储装置81、处理器82和通信接口83独立实现，则存储装置81、处理器82和通信接口83可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储装置81、处理器82及通信接口83集成在一块芯片上，则存储装置81、处理器82及通信接口83可以通过内部接口完成相互间的通信。

实施例九

本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如图1至图6中任一实施例所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本发明实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频审核方法，其特征在于，所述方法包括：

检测所述多媒体片段的内容是否属于禁止类别；

若属于，则发送所述待审核视频属于禁止类别的提示信息；

其中，所述多媒体片段包括图像帧、音频片段、语音片段和文字片段；

其中所述截取待审核视频的多媒体片段，包括：

截取所述待审核视频的图像帧；

提取所述待审核视频的音频片段；

提取所述待审核视频的语音片段；

获取所述待审核视频中的文字片段；

其中所述检测所述多媒体片段的内容是否属于禁止类别，包括：

采集图像标记数据样本；

根据所述文字识别模型识别所述图像帧中的文字；

若所述图像帧中的文字片段属于禁止类别，则计算所述文字片段属于所述禁止类别的置信度，

当所述图像帧、音频片段、语音片段和文字片段之一属于禁止类别的置信度时，则认定所述待审核视频属于禁止类别。

2.根据权利要求1所述的方法，其特征在于，检测所述多媒体片段的内容是否属于禁止类别，包括：

3.根据权利要求1所述的方法，其特征在于，检测所述多媒体片段的内容是否属于禁止类别，包括：

提取所述待审核视频的音频片段的频谱；

4.根据权利要求1所述的方法，其特征在于，检测所述多媒体片段的内容是否属于禁止类别，包括：

采集一语言的语音标注数据样本；

5.一种视频审核装置，其特征在于，所述装置包括：

截取模块，配置为根据待审核视频中的场景截取所述待审核视频的多媒体片段，包括截取所述待审核视频的图像帧，提取所述待审核视频的音频片段，提取所述待审核视频的语音片段，获取所述待审核视频中的文字片段；

其中所述检测模块还配置为：

采集图像标记数据样本；

根据所述文字识别模型识别所述图像帧中的文字；

6.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

7.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。