CN111382623B

CN111382623B - 一种直播审核的方法、装置、服务器和存储介质

Info

Publication number: CN111382623B
Application number: CN201811628763.5A
Authority: CN
Inventors: 潘跃; 刘振强; 石峰
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-06-23
Anticipated expiration: 2038-12-28
Also published as: CN111382623A

Abstract

本发明公开了一种直播审核的方法、装置、服务器和存储介质。其中，该方法包括：按照预设时间间隔获取直播视频中的视频帧或者预设时长的音频；将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量；合并所述视频帧的特征向量或者所述音频的特征向量，得到所述直播视频的特征向量；根据所述直播视频的特征向量，确定所述直播视频的当前审核类别。本发明实施例提供的技术方案，实现对当前直播视频的准确审核，解决了现有审核方法中仅根据当前单个视频帧的检测结果确定审核类别，易造成误判、漏判的问题，提高了直播审核的全面性和准确性。

Description

一种直播审核的方法、装置、服务器和存储介质

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种直播审核的方法、装置、服务器和存储介质。

背景技术

随着互联网技术的快速发展，网络直播也越来越广泛地应用到人们的日常生活中，而由于直播内容的多样性，可能会涉及到恐怖、暴力、色情或政治敏感等话题，因此在用户直播时后台还需要判断直播内容是否违规，以防止违规内容在互联网上快速传播。

在目前的直播审核业务中，通常是对直播视频流按照一定的时间间隔进行截图，并检测当前截图中是否包含违规信息，通过对当前单视频帧的检测结果判断整个直播内容是否违规。此时现有的直播审核仅根据当前单个视频帧的检测结果确定审核类别，极易造成误判、漏判的问题。

发明内容

本发明实施例提供了一种直播审核的方法、装置、服务器和存储介质，提高了直播审核的全面性和准确性。

第一方面，本发明实施例提供了一种直播审核的方法，该方法包括：

按照预设时间间隔获取直播视频中的视频帧或者预设时长内的音频；

将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量；

合并所述视频帧的特征向量或者所述音频的特征向量，得到所述直播视频的特征向量；

根据所述直播视频的特征向量，确定所述直播视频的当前审核类别。

进一步的，所述合并所述视频帧的特征向量或者所述音频的特征向量，得到所述直播视频的特征向量，包括：

获取当前视频帧的特征向量或者当前音频的特征向量；

合并所述当前视频帧与之前预设数量的视频帧的特征向量，或者合并当前音频与之前预设数量的音频的特征向量，得到所述直播视频的特征向量。

进一步的，根据所述直播视频的特征向量，确定所述直播视频的当前审核类别，包括：

将所述直播视频的特征向量输入预先构建的直播审核模型，得到所述直播视频的违规得分；

所述违规得分超出预设违规阈值，则所述直播视频的当前审核类别为违规直播；

所述违规得分未超出预设违规阈值，则所述直播视频的当前审核类别为正常直播。

进一步的，在确定所述直播视频的当前审核类别为违规直播之后，还包括：

向人工审核平台上报所述直播视频，以获取所述人工审核平台反馈的违规处理方式。

进一步的，所述直播审核模型通过执行下述操作构建：

获取训练样本的样本特征向量和样本标签，所述样本特征向量由按照预设时间间隔获取的所述历史直播视频中的历史视频帧或者预设时长内的历史音频在不同类型的卷积神经网络模型中的历史特征向量合并得到，所述样本标签为所述历史直播视频的历史审核类别；

将所述样本特征向量输入预设的神经网络模型中，得到所述训练样本的当前审核类别；

根据训练样本的样本标签和当前审核类别，确定对应的分类损失，对神经网络模型中的训练参数进行修正，并继续获取新的训练样本，直至所述分类损失低于预设损失阈值，则将当前的神经网络模型作为直播审核模型。

进一步的，所述直播审核模型为XGBoost机器分类模型。

第二方面，本发明实施例提供了一种直播审核的装置，该装置包括：

直播获取模块，用于按照预设时间间隔获取直播视频中的视频帧或者预设时长内的音频；

特征向量确定模块，用于将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量；

特征向量合并模块，用于合并所述视频帧的特征向量或者所述音频的特征向量，得到所述直播视频的特征向量；

审核类别确定模块，用于根据所述直播视频的特征向量，确定所述直播视频的当前审核类别。

进一步的，所述特征向量合并模块，包括：

当前特征获取单元，用于获取当前视频帧的特征向量或者当前音频的特征向量；

特征合并单元，用于合并所述当前视频帧与之前预设数量的视频帧的特征向量，或者合并当前音频与之前预设数量的音频的特征向量，得到所述直播视频的特征向量。

进一步的，所述审核类别确定模块，包括：

违规得分确定单元，用于将所述直播视频的特征向量输入预先构建的直播审核模型，得到所述直播视频的违规得分；

审核单元，用于所述违规得分超出预设违规阈值，则所述直播视频的当前审核类别为违规直播；所述违规得分未超出预设违规阈值，则所述直播视频的当前审核类别为正常直播。

进一步的，所述直播审核的装置，还包括：

违规处理模块，用于在所述直播视频的当前审核类别为违规直播之后，向人工审核平台上报所述直播视频，以获取所述人工审核平台反馈的违规处理方式。

进一步的，所述直播审核模型通过执行下述操作构建：

进一步的，所述直播审核模型为XGBoost机器分类模型。

第三方面，本发明实施例提供了一种服务器，该服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的直播审核的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的直播审核的方法。

本发明实施例提供的一种直播审核的方法、装置、服务器和存储介质，通过将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，提取对应的特征向量，提高了每一视频帧或者音频的特征全面性，并将按照预设时间间隔获取的多个视频帧或者音频的特征向量进行合并，减少了审核过程中视频帧或者音频的特征遗漏，此时得到的直播视频的特征向量较为全面，根据该直播视频的特征向量确定的当前审核类别，解决了现有审核方法中仅根据当前单个视频帧的检测结果确定审核类别，造成误判、漏判的问题，提高了直播审核的全面性和准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例一提供的一种直播审核的方法的流程图；

图1B为本发明实施例一提供的方法中直播审核的原理示意图；

图2为本发明实施例二提供的一种直播审核的方法的流程图；

图3为本发明实施例三提供的直播审核的方法中对直播审核模型的构建原理图；

图4为本发明实施例四提供的一种直播审核的方法所适用的应用场景的场景架构图；

图5为本发明实施例五提供的一种直播审核的装置的结构示意图；

图6为本发明实施例六提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

由于目前的直播审核业务主要通过采集直播视频过程中当前时刻的视频帧或者当前预设时间段内的音频，检测当前直播的视频画面或音频中是否存在违规信息，从而确定整个直播视频是否违规，单个视频帧或音频的检测结果，存在一定的审核局限性。因此，本发明实施例提出一种基于人工智能技术的直播审核方法，采用多个不同类型下的卷积神经网络模型，更加全面地提取出每一视频帧或者音频的特征，并协同使用按照预设时间间隔持续采集的多个视频帧或者多个音频信息的特征，进行融合特征分析，提高对一些难以分辨的直播视频的审核准确度，降低直播审核中的漏判率和错判率。

实施例一

图1A为本发明实施例一提供的一种直播审核的方法的流程图，本实施例可应用于任一种对用户直播过程中的直播视频进行准确审核的直播审核服务端上。本发明实施例的技术方案适用于如何准确检测直播视频中是否存在违规内容的情况中。本实施例提供的一种直播审核的方法可以由本发明实施例提供的直播审核的装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的服务器中，该服务器可以是各类直播应用程序对应的、承载有相应直播审核能力的后台服务端。

具体的，参考图1A，该方法可以包括如下步骤：

S110，按照预设时间间隔获取直播视频中的视频帧或者预设时长内的音频。

其中，直播视频是任一用户可以通过各类直播应用程序将自身当前的媒体信息分享给其他用户，从而实现网络社交所对应的视频数据；如用户直播过程中录制的网络视频或者实时直播的游戏信息等。为了防止直播过程中当前用户将一些违规内容分享给其他用户，对人们的日常生活造成一定的不良影响，因此在将网络直播过程中的直播视频对应发送给直播间的其他用户之前，还需要对该直播视频中包含的视频内容进行审核，从而将存在违规内容的直播视频过滤出来，执行对应的违规处理操作。本实施例中在对直播视频进行审核时，可以对该直播视频中包括的视频画面和视频录音分别进行审核，从而分析该直播视频是否违规。此时，若当前对视频画面进行审核，则需要获取直播视频中各个时刻对应的视频帧；若当前对视频录音进行审核，则需要获取直播视频中在各个预设时间内的音频。

可选的，本实施例中首先需要获取对应的直播视频，可以通过与各个直播用户端建立无线连接，以在用户进行直播时，能够实时获取本次直播对应的直播视频。具体的，根据直播视频具体需要审核的视频内容所属类型，在获取直播过程中的直播视频时，可以直接采集直播视频中的视频帧或者预设时长内的音频，后续对该视频帧或者音频进行相应分析，确定该直播视频中当前是否存在违规内容。

需要说明的是，由于直播视频中可能连续多帧的视频画面或者连续一段时间采集的音频内容都是相似的，此时为了减少数据处理量，本实施例中可以按照预设时间间隔依次采集直播视频中多个时刻对应的视频帧，如在直播过程中每次相隔10秒采集一次该时刻的视频帧；或者按照预设时间间隔依次采集直播视频中多个预设时长内的音频，如在直播过程中每次相隔10秒采集一次预设时长内的音频。

此外，本实施例中在获取到直播视频中的视频帧或者音频后，为了满足后续模型中对于视频帧或者音频的处理需求，本实施例还需要对该视频帧或者音频进行预处理，例如对视频帧的画面尺寸进行相应缩放、调整对应的分辨率或者二值化等基本处理，对音频进行重采样，以确保满足模型对于音频的要求；本实施例中的预处理过程主要为了保证待处理数据能够满足后续处理模型的要求。同时，本实施例中的预设时间间隔可以由审核业务特点和计算服务处理能力来调整，从而达到实时处理的要求。

S120，将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量。

其中，卷积神经网络模型是一种深度机器学习模型，能够预先设定该模型中的训练参数，通过按照预设时间间隔获取的大量历史直播视频中的视频帧或者预设时长内的音频，对该模型中设定的训练参数进行优化训练，从而使得该模型具备一定的违规分类能力，对于各类型的直播视频，均能够准确识别出该直播视频中是否存在违规内容。一般地，卷积神经网络模型基本包括两层结构：特征提取层和特征映射层；其中，特征提取层可以根据其中的训练参数和对应神经元结构，提取出直播视频中每一视频帧或音频对应的特征；特征映射层可以对提取出的视频帧特征或者音频特征进行分析，准确判断当前视频帧或者音频中是否存在违规内容，从而对该直播视频进行准确分类。

可选的，为了能够更加全面、完整地得到直播视频中每一视频帧或者音频在各方面的特征，本实施例中预先训练出多个不同类型的卷积神经网络模型，每个卷积神经网络模型中的特征提取层根据其中设定的训练参数和对应神经元结构的不同，能够提取出每一视频帧或者音频在不同方面的特征，并通过特征映射层对视频帧或者音频对应方面的特征进行分析，从而准确判断当前视频帧或者音频中是否存在违规内容。

需要说明的是，本实施例中不同类型的卷积神经网络均在线下进行训练，通过收集整理出直播业务中大量的历史直播视频，并确定每一历史直播视频的分类标签，该分类标签为历史直播视频所属的直播类别，具体是违规直播或正常直播，或者违规直播中的暴力、恐怖、政治敏感等具体哪一类型的违规直播。本实施例中可以通过人工标注的方法对历史直播视频的分类标签进行标注，采用大量标注好的历史直播视频作为训练样本，分别按照预设时间间隔获取训练样本中的视频帧或者音频，并将训练样本中的每一视频帧或音频输入到预设的不同类型的卷积神经网络模型中，从而得到不同方面的特征，并对该特征进行分析确定该训练样本的分类类别，与标注的分类标签进行比对，根据比对结果优化训练出不同类型下的训练参数和神经元结构，从而对不同类型的卷积神经网络模型进行迭代训练，直到不同类型的卷积神经网络模型具备一定的违规分类能力，也就是针对任一种直播视频均能够准确识别出当前所属的分类类别。此外，如果存在新的审核需求时，也可以在线下对相应的卷积神经网络模型再次进行训练，无需占用线上的运行空间，提高运行速率。具体的，本实施例中对于设定的不同类型的卷积神经网络模型的数量不作限定，可以根据特征提取需求和审核业务处理能力综合确定，不同类型的卷积神经网络模型的数量越多，所提取的视频帧或者音频的特征就更加全面。

可选的，在按照预设时间间隔获取到直播视频中的视频帧或者音频时，可以将每一视频帧或者音频分别输入到本实施例中预先训练出来的不同类型的卷积神经网络模型中，不同类型的卷积神经网络模型均对同一视频帧或者音频进行并行处理，从而得到每一视频帧或者音频在不同类型的卷积神经网络模型中对应提取的特征向量，并将各个不同类型的卷积神经网络模型中提取的特征向量进行合并，得到每一视频帧或者音频对应的特征向量。此时每一视频帧或者音频的特征向量中包含了该视频帧或者音频在不同方面的特征，相比通过单一模型提取的特征更加全面、完整；本实施例中采用不同类型的卷积神经网络模型对同一视频帧或者音频进行特征提取，融合了不同模型的表现能力，提高了特征提取的全面性和完整性。

S130，合并视频帧的特征向量或者音频的特征向量，得到直播视频的特征向量。

具体的，为了对直播视频进行准确审核，需要对当前时间段内按照预设时间间隔获取的多个视频帧或者音频的特征进行融合，此时在得到每一视频帧或者音频的特征向量后，可以将按照预设时间间隔获取的多个视频帧或者音频的特征向量进行合并，并将合并后的特征向量作为直播视频当前的特征向量，后续对该特征向量进行分析，判断当前的直播视频是否存在违规内容。由于合并后的特征向量对多个视频帧或者音频的特征进行了融合，在后续根据该特征向量进行分析时，进一步提高了对一些难以分辨的直播视的审核准确度，能够减少审核过程中对于视频帧或者音频的漏判或错判，提高了直播审核的准确性。

可选的，由于网络直播是实时获取视频数据的，因此本实施例中在按照预设时间间隔获取直播视频中的视频帧或者音频时，如图1B所示，可以是在直播录制过程中按照预设时间间隔依次采集当前时刻的视频帧或者从当前时刻开始采集后续直播过程中处于预设时长内的音频，同时每采集到一个视频帧或者音频，均可以对应输入到本实施例中不同类型的卷积神经网络模型中，得到该视频帧或者音频的特征向量；此时对于当前时刻之前按照预设时间间隔采集的前预设数量的视频帧或者音频的特征向量已经确定，因此在本实施例中，合并视频帧的特征向量或者音频的特征向量，得到直播视频的特征向量，具体可以包括：

S131，获取当前视频帧的特征向量或者当前音频的特征向量。

具体的，在直播录制过程中按照预设时间间隔每采集一次视频帧或者音频，均会将该时刻采集的当前视频帧或者从该时刻开始在后续预设时长内采集的当前音频输入到不同类型的卷积神经网络模型中，通过对不同类型的卷积神经网络模型中输出的不同方面的特征进行合并，从而对应得到当前视频帧的特征向量或者当前音频的特征向量。

S132，合并当前视频帧与之前预设数量的视频帧的特征向量，或者合并当前音频与之前预设数量的音频的特征向量，得到直播视频的特征向量。

具体的，由于在按照预设时间间隔采集当前视频帧或者当前音频之前，已经相应采集了在当前视频帧或者当前音频之前的预设数量的视频帧或者音频，且本实施例每采集一次视频帧或者音频时，均会通过不同类型的卷积神经网络模型来确定之前预设数量的视频帧或者音频的特征向；因此本实施例在获取当前视频帧的特征向量或者当前音频的特征向量时，可以确保在当前视频帧之前预设数量的视频帧的特征向量，或者在当前音频之前的预设数量的音频的特征向量已经确定。

本实施例中在获取到当前视频帧的特征向量或者当前音频的特征向量时，可以直接对当前视频帧与之前预设数量的视频帧的特征向量进行合并，或者直接对当前音频与之前预设数量的音频的特征向量进行合并，并将合并后的特征向量作为本次直播视频当前的特征向量，后续对该特征向量进行分析，从而确定该直播视频的当前审核类别；本实施例中通过在直播视频的录制过程中，同时进行直播审核，提高了审核效率；此外本实施例中提及的审核方法也可以适用于上传的网络视频进行审核的过程中，通过对上传的网络视频进行解码时，同时对该网络视频进行审核，提高审核效率。同时，本实施例中所缓存的当前视频帧之前的预设数量的视频帧的特征向量所占用的存储空间基本可以忽略不计，相比于直接使用不同类型的卷积神经网络模型确定直播视频的特征向量，本实施例中的额外存储和计算开销都非常小，不会影响直播审核的处理速度。

S140，根据直播视频的特征向量，确定直播视频的当前审核类别。

其中，审核类别为直播视频可能属于的任意一种视频类型，可以包括正常视频和违规视频，其中违规视频中还可以细分为暴力视频、恐怖视频以及政治敏感视频等含有各种具体违规内容的类型。

具体的，本实施例在得到直播视频的特征向量后，可以对该特征向量进行分析，从而判断该直播视频与正常视频以及各类违规视频之间的区别程度，确定该直播视频的当前审核类别。可选的，本实施例中可以通过分别分析大量正常的或者违规的历史直播视频的特征，从而判断出正常视频和违规视频中应该存在的共性特征，后续通过分析该直播视频的特征向量与正常视频和违规视频中所应包含的共性特征之间的区别程度，确定该直播视频的当前审核类别。需要说明的是，本实施例中通过在直播录制过程中按照预设时间间隔采集当前时刻的视频帧或者从当前时刻开始采集后续录制过程中处于预设时长内的音频，与之前采集的预设数量的视频帧或者音频的特征进行合并，从而判断直播视频的当前审核类型，因此在直播过程中，按照预设时间间隔每采集一次视频帧或者音频，都需要确定一次当前审核类别，与直接提取整个直播视频中多个视频帧或者音频的特征进行合并，从而确定审核类别相比，本实施例在直播过程中多次对当前的直播视频进行审核，提高了审核的准确性。

本实施例提供的技术方案，通过将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，提取对应的特征向量，提高了每一视频帧或者音频的特征全面性，并将按照预设时间间隔获取的多个视频帧或者音频的特征向量进行合并，减少了审核过程中视频帧或者音频的特征遗漏，此时得到的直播视频的特征向量较为全面，根据该直播视频的特征向量确定的当前审核类别，解决了现有审核方法中仅根据当前单个视频帧的检测结果确定审核类别，造成误判、漏判的问题，提高了直播审核的全面性和准确性。

实施例二

图2为本发明实施例二提供的一种直播审核的方法的流程图。本实施例是在上述实施例的基础上进行优化。具体的，如图2所示，本实施例中对于直播视频的当前审核类别的具体确定过程进行详细的解释说明。

可选的，如图2所示，本实施例中可以包括如下步骤：

S210，按照预设时间间隔获取直播视频中的视频帧或者预设时长内的音频。

S220，将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量。

S230，合并视频帧的特征向量或者音频的特征向量，得到直播视频的特征向量。

S240，将直播视频的特征向量输入预先构建的直播审核模型，得到直播视频的违规得分。

其中，直播审核模型是一种机器学习模型，通过采用大量训练样本对该模型中的训练参数和神经元结构进行训练，能够具备一定的违规分类能力，从而根据任一种直播视频的特征向量准确区分出该直播视频中是否存在违规内容。

本实施例中在通过不同类型的卷积神经网络模型得到每一视频帧或者音频对应的特征向量，并对当前视频帧与之前预设数量的视频帧的特征向量进行合并，或者对当前音频与之前预设数量的音频的特征向量进行合并，得到能够融合多个视频帧或者音频信息的当前直播视频的特征向量，此时将该直播视频的特征向量输入到预先通过大量训练样本构建的直播审核模型中，该直播审核模型采用该模型中预先训练的训练参数以及各个神经元结构的关系，对该直播视频的特征向量进行分析，从而得到该直播视频当前的违规得分，后续根据该违规得分判断该直播视频中是否存在违规内容。

S250，判断违规得分是否超出预设违规阈值，若是，执行S270；若否，执行S260。

其中，预设违规阈值是由开发人员预先设定的能够准确区分出直播视频属于正常视频还是违规视频的一种分类临界值。本实施例中在通过预先构建的直播审核模型对该直播视频的特征向量进行分析，得到该直播视频的违规得分后，还需要将该违规得分进一步与预设违规阈值进行比对，判断该直播视频中是否存在违规内容。

S260，直播视频的当前审核类别为正常直播。

可选的，若违规得分未超出预设违规阈值，则确定该直播视频中不存在违规内容，因此该直播视频的当前审核类别为正常直播。

S270，直播视频的当前审核类别为违规直播。

可选的，若违规得分超出预设违规阈值，此时则确定该直播视频中存在一定的违规内容，因此该直播视频的当前审核类别为违规直播。

S280，向人工审核平台上报直播视频。

具体的，在判断当前的直播视频为违规直播后，为了对该直播视频进行下一步违规处理，本实施例中可以将该违规直播的直播视频直接上报给对应的人工审核平台，由该人工审核平台的工作人员根据具体的审核业务规则来判断对该直播视频的具体处理方式，并反馈给直播审核服务端。

S290，获取人工审核平台反馈的违规处理方式。

具体的，在接收到人工审核平台反馈的违规处理方式后，按照该违规处理方式对该直播视频进行对应的封禁或者警告等具体操作，防止违规直播的违规内容在互联网上传播。

本实施例提供的技术方案，通过采用预先构建的直播审核模型对直播视频的特征向量进行分析，确定该直播视频的当前审核类别，相比直接通过不同类型的卷积神经网络模型确定的审核类别，提高了直播审核的全面性和准确性，同时对于特征计算量的要求较小，提高了审核效率。

实施例三

图3为本发明实施例三提供的直播审核的方法中对直播审核模型的构建原理图。本实施例是在上述实施例的基础上进行优化，本实施例中主要对直播审核模型的具体训练过程进行详细的解释说明。

可选的，本实施例可以包括如下步骤：

S310，获取训练样本的样本特征向量和样本标签。

其中，样本特征向量由按照预设时间间隔获取的历史直播视频中的历史视频帧或者预设时长内的历史音频在不同类型的卷积神经网络模型中的历史特征向量合并得到，该样本标签为历史直播视频的历史审核类别。具体的，本实施例中在线下对不同类型的卷积神经网络模型进行训练时，会收集整理出直播业务中大量的历史直播视频，并确定出每一历史直播视频的分类标签，以判断每一历史直播视频所属的直播类别具体是正常直播还是违规直播。此时通过对不同类型的卷积神经网络模型进行训练时，能够得到大量历史直播视频的特征向量，本实施例中此时的历史直播视频作为本次训练的神经网络模型的训练样本，此时通过不同类型的卷积神经网络模型得到的各个历史直播视频的特征向量则为本次训练样本的样本特征向量，通过人工标注的分类标签为对应训练样本的样本标签。

可选的，在线下对不同类型的卷积神经网络模型进行训练时，同时也可以采用通过卷积神经网络模型训练得到的各个历史直播视频的特征向量对直播审核模型进行训练。具体的，获取通过不同类型的卷积神经网络模型确定的各个历史直播视频的特征向量和对应的分类标签，作为本次直播审核模型训练的训练样本的样本特征向量和样本标签。

S320，将样本特征向量输入预设的神经网络模型中，得到训练样本的当前审核类别。

具体的，在得到各个训练样本的样本特征向量时，直接将该样本特征向量输入到本实施例中预先设定的又一神经网络模型中，此时该神经网络模型是针对最终的直播审核进行训练，通过该模型中的训练参数和各个神经元结构之间的关系，对输入的训练样本的样本特征向量进行分析，此时训练样本中包括正常直播视频，也包括违规直播视频，通过判断当前输入的训练样本的样本特征向量与现有的正常直播视频和违规直播视频中所包含的共性特征之间的区别程度，确定该训练样本的当前审核类别，以便后续将当前审核类别与样本标签进行比对，根据比对结果对该预设的神经网络模型中的训练参数和神经元结构进行优化，从而对该预设的神经网络模型进行迭代训练。

S330，根据训练样本的样本标签和当前审核类别，确定对应的分类损失，对神经网络模型中的训练参数进行修正，并继续获取新的训练样本，直至分类损失低于预设损失阈值，则将当前的神经网络模型作为直播审核模型。

具体的，在得到训练样本的当前审核类别时，该当前审核类别是一种预估值，此时对当前审核类别与样本标签进行比对分析，也就是对训练样本的预估类别和实际类别进行比对，从而确定本次审核时该预设的神经网络模型中的存在的分类损失，该分类损失可以明确表明当前训练的神经网络模型的分类准确程度。可选的，本实施例中可以采用任一种现有的损失函数来判断本次训练的分类损失，对此不作限定。

同时，本实施例在得到本次训练存在的分类损失时，还需要对该分类损失进行判断，若本次训练的分类损失超出预设损失阈值，说明本次训练的神经网络模型对直播审核的准确性还不高，需要再次进行训练；此时将本次训练得到的分类损失按照模型训练过程进行反向传播，并根据该分类损失对预设的神经网络模型中的训练参数进行修正，从而不断调整该模型中的训练参数，继续获取新的训练样本，通过修正后的神经网络模型再次确定该新的训练样本的当前审核类别，得到性的分类损失，依次循环，直至得到的分类损失低于预设损失阈值，说明本次训练的神经网络模型对直播审核已经达到一定的准确性，无需对训练样本再次训练，此时将当前的神经网络模型作为最终的直播审核模型，不断提高神经网络模型的分类准确度，以便后续通过该直播审核模型对各类直播视频进行准确审核。

可选的，本实施例中预设的神经网络模型为XGBoost机器分类模型，因此最终得到直播审核模型为XGBoost机器分类模型。XGBoost机器分类模型的训练过程耗时小，在有新的审核需求需要更新该模型时，训练XGBoost机器分类模型所花费的时间与训练卷积神经网络模型所用时间相比可以忽略不计，因此本实施例在维护和更新上所带来的时间成本很低。此外，本实施例中还可以将该XGBoost机器分类模型替换成其他机器学习分类方法，如同属于梯度增强的梯度增强决策树(Gradient Boosted Decision Trees，GBDT)、支持向量机(Support Vector Machine，SVM)以及随机森林(Random Forest，RF)等等。

本实施例提供的技术方案，通过将大量训练样本中样本特征向量输入到预设的神经网络模型中进行训练，构建能够对直播视频的特征向量进行分析的直播审核模型，从而实现对多个视频帧或者音频的特征进行融合的直播审核，解决了现有技术中对于直播审核存在局限性的问题，提高了直播审核的全面性和准确性。

实施例四

图4为本发明实施例四提供的一种直播审核的方法所适用的应用场景的场景架构图。本实施例中主要以特定的应用场景对直播审核的具体过程进行详细描述。参照图4，本实施例中包括直播审核服务端40、用户终端41和人工审核平台42；直播审核服务端40分别与用户终端41和人工审核平台42建立无线连接。

可选的，用户可以通过所在的用户终端41进行对应的网络直播，并将直播过程中的直播视频持续发送给直播审核服务端40，直播审核服务端40按照预设时间间隔采集用户终端41上用户当前直播的直播视频中在当前时刻的视频帧或者从当前时刻开始采集后续直播过程中预设时长内的音频，从而采用本发明实施例中提供的直播审核的方法对该直播视频进行审核，得到该直播视频的违规得分，若该违规得分超出预设违规阈值，则可以将该直播视频发送给相应的人工审核平台42，由该人工审核平台42端的工作人员进一步对该直播视频再次进行人工审核，从而确定该直播视频的违规处理方式，在人工审核完成后，由人工审核平台42将针对该直播视频进行人工审核的违规处理方式作为对应的反馈信息返回给直播审核服务端40中，从而使该直播审核服务端40按照该违规处理方式对该直播视频进行对应的封禁或者警告等具体操作，防止违规直播的违规内容在互联网上传播。本实施例中通过机器审核和人工审核相结合的方式，进一步提升直播审核的精确度。

需要说明的是，本实施例中对于用户终端41的数量不作限定，根据网络直播的用户数量确定。

实施例五

图5为本发明实施例五提供的一种直播审核的装置的结构示意图，具体的，如图5所示，该装置可以包括：

直播获取模块510，用于按照预设时间间隔获取直播视频中的视频帧或者预设时长内的音频；

特征向量确定模块520，用于将每一视频帧或者音频分别输入不同类型的卷积神经网络模型，得到对应的特征向量；

特征向量合并模块530，用于合并视频帧的特征向量或者音频的特征向量，得到直播视频的特征向量；

审核类别确定模块540，用于根据直播视频的特征向量，确定直播视频的当前审核类别。

进一步的，上述特征向量合并模块530，可以包括：

特征合并单元，用于合并当前视频帧与之前预设数量的视频帧的特征向量，或者合并当前音频与之前预设数量的音频的特征向量，得到直播视频的特征向量。

进一步的，上述审核类别确定模块540，可以包括：

违规得分确定单元，用于将直播视频的特征向量输入预先构建的直播审核模型，得到直播视频的违规得分；

审核单元，用于违规得分超出预设违规阈值，则直播视频的当前审核类别为违规直播；违规得分未超出预设违规阈值，则直播视频的当前审核类别为正常直播。

进一步的，上述直播审核的装置，还可以包括：

违规处理模块，用于在直播视频的当前审核类别为违规直播之后，向人工审核平台上报直播视频，以获取人工审核平台反馈的违规处理方式。

进一步的，上述直播审核模型可以通过执行下述操作构建：

获取训练样本的样本特征向量和样本标签，该样本特征向量由按照预设时间间隔获取的历史直播视频中的历史视频帧或者预设时长内的历史音频在不同类型的卷积神经网络模型中的历史特征向量合并得到，该样本标签为历史直播视频的历史审核类别；

将样本特征向量输入预设的神经网络模型中，得到训练样本的当前审核类别；

根据训练样本的样本标签和当前审核类别，确定对应的分类损失，对神经网络模型中的训练参数进行修正，并继续获取新的训练样本，直至分类损失低于预设损失阈值，则将当前的神经网络模型作为直播审核模型。

进一步的，上述直播审核模型可以为XGBoost机器分类模型。

本实施例提供的直播审核的装置可适用于上述任意实施例提供的直播审核的方法，具备相应的功能和有益效果。

实施例六

图6为本发明实施例六提供的一种服务器的结构示意图，如图6所示，该服务器包括处理器60、存储装置61和通信装置62；服务器中处理器60的数量可以是一个或多个，图6中以一个处理器60为例；服务器中的处理器60、存储装置61和通信装置62可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储装置61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的直播审核的方法对应的程序指令/模块。处理器60通过运行存储在存储装置61中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述直播审核的方法。

存储装置61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置62可用于实现服务器与用户间的网络连接或者移动数据连接。

本实施例提供的一种服务器可用于执行上述任意实施例提供的直播审核的方法，具备相应的功能和有益效果。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的直播审核的方法。该方法具体可以包括：

合并视频帧的特征向量或者音频的特征向量，得到直播视频的特征向量；

根据直播视频的特征向量，确定直播视频的当前审核类别。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的直播审核的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述直播审核的装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种直播审核的方法，其特征在于，包括：

按照预设时间间隔获取直播视频中的视频帧或者预设时长的音频；

根据所述直播视频的特征向量，确定所述直播视频的当前审核类别；

其中，每个所述卷积神经网络模型中的特征提取层根据其中设定的训练参数和对应神经元结构的不同，提取出每一视频帧或者音频在不同方面的特征，并通过特征映射层对视频帧或者音频对应方面的特征进行分析，判断当前视频帧或者音频中是否存在违规内容；

所述将每一视频帧或者音频分别输入不同类型的卷积神经网络模型时，不同类型的所述卷积神经网络模型均对同一视频帧或者音频进行并行处理，得到每一视频帧或者音频在不同类型的所述卷积神经网络模型中对应提取的特征向量，并将各个不同类型的所述卷积神经网络模型中提取的特征向量进行合并，得到每一视频帧或者音频对应的特征向量。

2.根据权利要求1所述的方法，其特征在于，所述合并所述视频帧的特征向量或者所述音频的特征向量，得到所述直播视频的特征向量，包括：

获取当前视频帧的特征向量或者当前音频的特征向量；

3.根据权利要求1或2所述的方法，其特征在于，根据所述直播视频的特征向量，确定所述直播视频的当前审核类别，包括：

4.根据权利要求3所述的方法，其特征在于，在所述直播视频的当前审核类别为违规直播之后，还包括：

5.根据权利要求3所述的方法，其特征在于，所述直播审核模型通过执行下述操作构建：

获取训练样本的样本特征向量和样本标签，所述样本特征向量由按照预设时间间隔获取的历史直播视频中的历史视频帧或者预设时长内的历史音频在不同类型的卷积神经网络模型中的历史特征向量合并得到，所述样本标签为所述历史直播视频的历史审核类别；

6.根据权利要求5所述的方法，其特征在于，所述直播审核模型为XGBoost机器分类模型。

7.一种直播审核的装置，其特征在于，包括：

审核类别确定模块，用于根据所述直播视频的特征向量，确定所述直播视频的当前审核类别；

8.根据权利要求7所述的装置，其特征在于，所述特征向量合并模块，包括：

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的直播审核的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的直播审核的方法。