CN114359771A

CN114359771A - 视频审核方法、装置、设备及可读存储介质

Info

Publication number: CN114359771A
Application number: CN202111220776.0A
Authority: CN
Inventors: 余养强
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-04-15

Abstract

本申请公开了一种视频审核方法、装置、设备及可读存储介质，电子设备从待审核视频中获取多帧图像，将多帧图像依次输入至视频审核模型以得到每帧图像的识别结果和识别结果的置信度，根据各帧图像的识别结果和置信度确定待审核视频是否为违规视频。其中，每帧图像的识别结果是根据视频审核模型中多目标识别网络包含的多个分支网络的输出结果确定出的。采用该种方案，视频审核模型的多目标识别网络包含多个分支网络，不同分支网络用于识别不同的目标，每个分支网络只关注本分支的目标，通过细化任务目标，使得学习更有目标性，准确率高、速度快。

Description

视频审核方法、装置、设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种视频审核方法、装置、设备及可读存储介质。

背景技术

随着互联网技术繁荣发展，网络上的视频资源众多。视频审核是过滤网络视频资源池中不良或违规内容的重要手段。

传统技术中，审核人员逐个地将待审核视频(用户自行上传的视频)从头到尾完整播放一遍，在播放待审核视频的过程中，由审核人员对其进行审核。

然而，人工审核视频的方式费时费力、效率有限，成本高且无法实现大批量的视频审核。

发明内容

本申请提供一种视频审核方法、装置、设备及可读存储介质，采用能够识别多种不同目标的视频审核模型审核视频，准确率高、速度快。

第一方面，本申请实施例提供一种视频审核方法，包括：

从待审核视频中获取多帧图像；

向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，所述视频审核模型包括特征提取网络和多目标识别网络，所述多目标识别网络包含多个分支网络，所述多个分支网络中的不同分支网络用于识别不同的目标，所述多帧图像中每帧图像的识别结果是根据所述多个分支网络中每个分支网络的输出结果确定出的；

根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频。

第二方面，本申请实施例提供一种视频审核装置，包括：

获取模块，用于从待审核视频中获取多帧图像；

处理模块，用于向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，所述视频审核模型包括特征提取网络和多目标识别网络，所述多目标识别网络包含多个分支网络，所述多个分支网络中的不同分支网络用于识别不同的目标，所述多帧图像中每帧图像的识别结果是根据所述多个分支网络中每个分支网络的输出结果确定出的；

确定模块，用于根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时使得所述电子设备实现如上第一方面或第一方面各种可能的实现方式所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令在被处理器执行时用于实现如上第一方面或第一方面各种可能的实现方式所述的方法。

第五方面，本申请实施例提供一种包含计算程序的计算机程序产品，所述计算机程序被处理器执行时实现如上第一方面或第一方面各种可能的实现方式所述的方法。

本申请实施例提供的视频审核方法、装置、设备及可读存储介质，电子设备从待审核视频中获取多帧图像，将多帧图像依次输入至视频审核模型以得到每帧图像的识别结果和识别结果的置信度，根据各帧图像的识别结果和置信度确定待审核视频是否为违规视频。其中，每帧图像的识别结果是根据视频审核模型中多目标识别网络包含的多个分支网络的输出结果确定出的。采用该种方案，视频审核模型的多目标识别网络包含多个分支网络，不同分支网络用于识别不同的目标，每个分支网络只关注本分支的目标，通过细化任务目标，使得学习更有目标性，准确率高、速度快。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的视频审核方法的实施环境示意图；

图1B是本申请实施例提供的视频审核方法中生成视频审核模型的网络架构图；

图2是本申请实施例提供的视频审核方法的流程图；

图3是本申请实施例提供的视频审核方法中训练视频审核模型的过程示意图；

图4是本申请实施例提供的视频审核方法中视频审核的结构示意图；

图5是本申请实施例提供的视频审核模型中特征提取网络的结构示意图；

图6是本申请实施例提供的视频审核模型中多目标识别网络的全连接分类层的结构示意图；

图7是本申请实施例提供的视频审核方法中注意力模块的结构示意图；

图8为本申请实施例提供的视频审核方法中基本注意力模块的示意图；

图9是本申请实施例提供的视频审核方法中多特征融合注意力模块的示意图；

图10是本申请实施例提供的视频审核方法中多特征融合注意力模块的另一个示意图；

图11A是本申请实施例提供的视频审核方法中的一种热力图；

图11B是本申请实施例提供的视频审核方法中的另一种热力图；

图12A是本申请实施例提供的视频审核方法中的又一种热力图；

图12B是本申请实施例提供的视频审核方法中的又一种热力图；

图13是本申请实施例提供的视频审核方法的另一个流程图；

图14为本申请实施例提供的一种视频审核装置的示意图；

图15为本申请实施例提供的另一种视频审核装置的示意图；

图16为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前，互联网上的视频日益增多，且大部分以广告、影像日志(Vlog)、短视频等多种形式出现。随着第五代(5G)和第六代(6G)通信技术及物联网的快速发展，视频的数量呈指数增长。现在很多网站都支持并允许用户自行上传视频并展示给公众，用户自行上传的视频可能会存在问题，通常将这些视频叫做不良视频、违规视频等。为了过滤掉违规视频，需要对视频的内容进行审核(简称视频审核)。

人工审核过程中，审核员将待审核视频从头到尾播放一遍，从而对待审核视频进行审核。这种方式效率低下、成本高。

随着人工智能(Artificial Intelligence，AI)技术的发展，基于深度学习的违规内容识别方法也逐渐成熟。然而，基于深度学习的视频审核方法一方面依赖大量的训练样本，而违规内容数据相对有限，导致积累训练样本的成本高。另一方面，由于不同模型对违规内容的定义不同，一定程度上增加了训练的难度。

因此，如何结合有效的深度学习方法，构建高效的视频审核方法，尽可能减少人工干预，实为急待解决的问题。

基于此，本申请实施例提供一种视频审核方法、装置、设备及可读存储介质，通过细化任务目标，使得学习更有目标性，采用能够识别多种不同目标的视频审核模型审核视频，准确率高、速度快。同时，在视频审核模型中引入注意力机制，结合不同结构的注意力机制，使得视频审核模型中的多目标识别网络的各分支网络的学习更具有专注性。

本申请实施例包括视频审核方法和视频审核模型的训练方法，属于人工智能技术中的机器学习和深度学习范畴，该两个方法可以由同一个或不同的电子设备执行。

图1A是本申请实施例提供的视频审核方法的实施环境示意图。该实施环境包括：终端设备11和服务器12，终端设备11和服务器12之间建立网络连接。用户可以通过终端设备11将待审核视频发送至服务器12。终端设备11具体可以是手机、平板电脑、笔记本、台式电脑等，服务器12可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器12上部署视频审核模型，该视频审核模型可以是服务器12自己利用样本集对初始模型进行训练得到的，也可以是服务器12从其他电子设备上获取到的。视频审核模型为针对某种违规识别业务的模型。视频审核模型可以是服务器12利用大量图像样本对初始模型进行训练得到的、未经过加速处理的模型，也可以是服务器12利用Tensor RT模型加速技术加速后的模型，服务器12 能够将加速后的模型构建成服务或软件工具开发包(Software Development Kit，SDK)。

服务器12接收到待审核视频后，对待审核视频进行分帧处理得到多帧图像，将待审核视频的部分或全部图像输入至视频审核模型，使得视频审核模型输出每帧图像的识别结果和置信度。之后，服务器12根据各帧图像的识别结果和置信度确定待审核视频是否为违规视频。

本申请实施例是以视频审核方法应用于服务器12为例，并通过终端设备和服务器的交互实现，可以理解的是，该视频审核方法也可以应用于终端设备等，本申请实施例并不限制。

图1B是本申请实施例提供的视频审核方法中生成视频审核模型的网络架构图。请参照图1B，一种实施例中，模型生成系统可全部部署在云环境中。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台。其中，云数据中心包括云服务提供商拥有的大量基础资源，包括计算资源、存储资源或网络资源等。计算资源例如为服务器等。以云数据中心包括的计算资源是运行有虚拟机的服务器为例，模型生成系统可独立部署在云数据中心的服务器或虚拟机上。模型生成系统也可以分布式部署在云数据中心的多台服务器上、或者分布式部署在云数据中心的多台虚拟机上、或者分布式部署在云数据中心的服务器和虚拟机上。

如图1B所示，模型生成系统例如可以由云服务提供商在云服务平台抽象成一种模型生成服务提供给用户，用户在云服务平台购买该云服务后，云环境利用部署在云数据中心的模型生成系统向用户提供模型生成服务。用户在使用模型生成服务时，可以通过应用程序接口(application program interface，API)或者图形用户接口(Graphical UserInterface，GUI)指定需要模型生成服务完成的任务(即任务目标)、并上传样本集至云环境，云环境中的模型生成系统接收用户的任务目标和样本集，执行自动生成模型的操作，模型生成系统通过API 或者GUI向用户返回自动生成的视频审核模型。该视频审核模型可被用户下载或者在线使用。

用户预先根据需求对样本进行分类，细化出多种不同类别的目标：普通旗帜、行人、建筑物、其他(不是前4个目标中的任意一个目标，但是也不是违规物体)共5个目标。不包含这5个目标中的任意一个或多个目标的图像为正样本图像，若一个样本图像包含这5个目标中的任意一个目标，则该样本图像为负样本。用户上传样本集后，指定模型生成服务完成的任务为：训练一个包含特征提取网络和多目标识别网络的视频审核模型，特征提取网络能够输出多层层级特征，利用不同的层级特征生成注意力机制。其中，特征提取网络用于提取前述5个目标中的每个目标的特征，多目标识别网络包含5个分支网络，分别对应5 个目标中的不同目标。

本申请实施例所述的视频审核方法包括两个阶段：学习阶段和预测阶段。学习阶段，利用图1B所示架构训练出视频审核模型。之后，在预测阶段，基于图1A所示实施环境，使用该视频审核模型进行视频审核。

下面，基于图1A和图1B，对本申请实施例所述的视频审核方法进行详细说明。示例性的，请参见图2。图2是本申请实施例提供的视频审核方法的流程图。本实施例的执行主体为电子设备，该电子设备例如为图1A中的服务器等，本实施例包括：

201、从待审核视频中获取多帧图像。

本申请实施例中，待审核视频可以是用户通过终端设备上传的、期望展示给公众的视频等。待审核视频可以是直播视频、点播视频等。

电子设备获取到待审核视频后，对待审核视频进行分帧处理从而得到多个图像帧。电子设备可以从这些图像帧中确定出多帧图像用于视频审核。例如，当视频比较短时，将分帧处理得到的所有图像帧用于视频审核；再如，当视频比较长时，每10秒抽取一帧图像从而得到多帧图像。

另外，电子设备还可以根据视频类型获取多帧图像。例如，当待审核视频为直播视频时，可以选择每10秒抽取一帧图像从而得到多帧图像；再如，当待审核视频为点播视频时，电子设备每1秒抽取1帧图像从而得到多帧图像，比如，一个点播视频的长度为3分钟，每秒30帧图像，则抽取180帧图像。

202、向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，所述视频审核模型包括特征提取网络和多目标识别网络，所述多目标识别网络包含多个分支网络，所述多个分支网络中的不同分支网络用于识别不同的目标，所述多帧图像中每帧图像的识别结果是根据所述多个分支网络中每个分支网络的输出结果确定出的。

本申请实施例中，对于每一帧图像而言，该帧图像可能并不包含单一的目标对象，而是包含多个目标，甚至正常目标和违规目标共存，且两者都占主体地位。例如，一帧图像中可能既存在多种不同特征的敏感部位，又存在正常的人体特征。此时，若只给出单一类别判断，则学习过程中难以训练出视频审核模型，预测过程中，难以准确的得到待识别图像的识别结果。

为此，本申请实施例中，服务器上预先部署一个视频审核模型，该视频审核模型包括两部分：特征提取网络和多目标识别网络。特征提取网络用于根据预先细化的目标，提取各目标的特征，多目标识别网络用于对每个目标进行识别。比如，预先细化出11种目标，则多目标识别网络包含11个分支网络，每个分支网络对应一个目标，每个分支网络只关注本分支网络的目标。如此一来，针对一帧图像中多个目标共存的情况，无需大量的训练样本体现这种现象，降低积累样本的成本。

对于每一帧图像，服务器利用特征提取网络提取特征，并将提取出的特征输入至多目标识别网络，得到多个输出结果和每个输出结果的置信度。之后，根据多个输出结果和每个输出结果的置信度，确定一帧图像的识别结果和该识别结果对应的置信度。

其中，识别结果的置信度用于指示该识别结果的可信程度，置信度越高，说明该识别结果越准确。

203、根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频。

服务器得到每帧图像的识别结果和每帧图像的识别结果的置信度后，根据该些识别结果和置信度确定待审核视频是否为违规视频。

一种方式中，服务器确定多帧图像中满足预设条件的图像是否超过预设数量，若满足条件的图像超过预设数量，则确定待审核视频为违规视频；若满足预设条件的图像小于预设数量，则确定待审核视频为合法视频。预设条件包括：识别结果为预设结果，且置信度超过预设置信度。以预设置信度为0.8、预设数量为100为例，若对一个3分钟的点播视频抽取180帧图像用于视频审核，当该180 帧图像中超过100帧图像的识别结果包含违规对象，且该100帧图像的识别结果的置信度均大于0.8，则说明该3分钟的点播视频为违规视频。该100帧图像为180 帧图像中连续或不连续的图像。

另一种方式中，除了考虑识别结果是否满足预设结果、数量是否超过预设数量外，还需要考虑连续性。此时，当多帧图像中存在超过预设数量的、连续的多帧图像，所述连续的多帧图像的识别结果符合预设结果，且所述连续的多帧图像的识别结果的置信度大于预设阈值时，服务器确定所述待审核视频为违规视频。以预设结果预设置信度为0.8、预设数量为1000为例，若对一个30分钟的点播视频抽取1800帧图像用于视频审核，当该1800帧图像中超过1000帧图像的识别结果包含前述违规对象，且该1000帧图像的识别结果的置信度均大于0.8，若该1000帧图像不连续，则说明30分钟的点播视频不是违规视频。其中，连续可以是严格意义上的连续，即该1000帧图像为1800帧图像中依次相邻的图像，时间轴上相邻的两帧图像之间不存在其他图像帧。或者，该1000帧图像中，时间轴上相邻的两帧图像之间存在不符合预设条件的图像，但不符合预设条件的图像的数量比较少。

采用该种方案，考虑识别结果、数量的同时考虑连续性，提高视频审核准确率。

本申请实施例提供的视频审核方法，电子设备从待审核视频中获取多帧图像，将多帧图像依次输入至视频审核模型以得到每帧图像的识别结果和识别结果的置信度，根据各帧图像的识别结果和置信度确定待审核视频是否为违规视频。其中，每帧图像的识别结果是根据视频审核模型中多目标识别网络包含的多个分支网络的输出结果确定出的。采用该种方案，视频审核模型的多目标识别网络包含多个分支网络，不同分支网络用于识别不同的目标，每个分支网络只关注本分支的目标，通过细化任务目标，使得学习更有目标性，准确率高、速度快。

本申请实施例所述的视频审核方法，包括学习阶段和预测阶段，下面，对这两个阶段分别进行详细说明。

学习阶段是收集样本、利用大量样本对初始模型进行训练得到视频审核模型的阶段。

图3是本申请实施例提供的视频审核方法中训练视频审核模型的过程示意图。本实施例包括：

301、确定多个类别，多个类别中的类别和所述多目标识别网络中的分支网络一一对应。

本申请实施例中，并非简单的分为正样本和负样本，而是对正样本和负样本进行细化，得到细化类别的样本图像。这样一来，收集样本时，先确定多个类别，多个类别中的类别和所述多目标识别网络中的分支网络一一对应。之后，针对每个类别，收集相关图像作为样本图像。例如，收集的图像样本类别如下：

1)受伤：包括流血的人或者动物。

2)大火：包括森林大火、建筑大火、工厂大火、车辆爆炸等，该场景存在火或者浓烟。

3)旗帜：包括各种违规旗帜。

4)管制道具：包括刀具等。

5)普通旗帜：如各国国旗和各正常组织的旗帜。

6)普通人：非特殊人，单人和多人，不存在聚集的情况。

7)风景名胜。

8)其他正常目标，不属于上述1)-7)中任意一个类别。

通过将违规识别中的正负样本细化，能够满足不同的业务处理需求，例如，对违规等级的不同要求，对违规对象限制的不同。另外，通过细化，可以让深度学习学习有针对性、更具指导性的特征，使得网络更好训练。例如，违规旗帜相对的是普通旗帜，这些目标都有可能出现在违规视频的图像帧中，单独细化出来，可以让深度学习网络强化各自的特征。

302、获取包含所述多个类别中每个类别的图像样本的样本集。

本步骤中，电子设备针对细化的类别有针对性地收集图像样本以得到样本集。

通常情况下，对正负样本细化后能够得到多个类别，但是有的图像样本可能不属于任意一个类别，因此，定义多个类别还包括一个其他类别，例如上述的11)。除了其他类别外，对于任意一个类别(例如，上述的1)-7)中的任意一个)，以下称为目标类别，电子设备可根据目标类别的范围获取图像样本。例如，对于1)，获取包含受伤的人或动物的图像。对于其他类别，可以将任何不属于 1)-7)类别的图像样本作为该类别的图像样本。或者，也可以针对性的收集图像样本。收集过程中，电子设备根据目标类别确定关联特征。之后，获取具有关联特征且不属于目标类别的图像样本，从而得到属于其他类别的图像样本。

以目标类别为1)为例，关联特征为红色，则电子设备获取具有红色特征但不是受伤图像的图像作为其他类别8)的图像，比如，包含红色的花朵、红色的衣服等的图像。另外，电子设备还可以对其他类别的图像样本进行归类，提炼出新的细化类别，比如，新增建筑类、车辆类等。

采用该种方案，电子设备有针对性的获取图像样本，能够提高模型训练的准确率和训练速度。

303、构建初始模型，所述初始模型包括初始特征提取网络和初始多目标识别网络。

304、利用所述样本集中的图像样本训练所述初始模型，以得到所述视频审核模型。

示例性的，电子设备将样本集中的图像样本不断地输入至初始模型，每次输入图像样本后，对初始特征提取网络的参数和初始多目标识别网络的参数进行优化，迭代训练初始模型，使得初始特征提取网络的参数和初始多目标识别网络的参数达到最优，将参数最优的初始模型作为最终的视频审核模型。也就是说，参数最优的初始特征提取网络为视频审核模型中的特征提取网络，参数最优的初始多目标识别网络为视频审核模型中的多目标识别网络。

另外，判断模型训练是否结束的依据还可以是迭代训练次数到达预设的迭代次数等，本申请实施例并不限制。

采用该种方案，实现训练出准确的视频审核模型的目的。

训练好的视频审核模型包括特征提取网络和多目标识别网络。特征提取网络用于输出多层层级特征，所述多个分支网络中的每个分支网络包括注意力模块和全连接分类层，且至少两个分支网络的注意力模块对应所述多层层级特征中的不同层级特征。

图4是本申请实施例提供的视频审核方法中视频审核的结构示意图。请参照图4，该视频审核模型包括特征提取网络和多目标识别网络。其中，特征提取网络可以是DenseNet121、ResNet50或EfficientNetB0等，本申请实施例并不限制。多目标识别网络包括多个分支网络，每个分支网络(以下称之为目标分支网络)包括级联的全局池化层、第一全连接层、失活层、第二全连接层、第三全连接层、第四全连接层和分类输出层。特征提取网络和多目标识别网络之间建立注意力机制。下面，对特征提取网络、多目标识别网络和注意力机制分别进行说明。

图5是本申请实施例提供的视频审核模型中特征提取网络的结构示意图。图5中，特征提取网络采用DenseNet121经典结构，包括卷积(convolution)层、池化(pooling)层、密集块和过渡(DenseBlock+Transition)(1)、 DenseBlock+Transition(2)、DenseBlock+Transition(3)和DenseBlock(4)，其中，DenseBlock(4)输出分类层特征，分类层特征例如为7×7的向量。训练过程中，可采用imagenet的预训练模型对初始特征提取网络进行初始化。

特征提取网络用于输出多层层级特征，多层层级特征包括分类层特征和中间层特征。图5中，特征提取网络的DenseBlock(4)的输出为分类层特征(也称之为深层特征)，该分类层特征被输入至各个分支网络。特征提取网络的 DenseBlock+Transition(1)、DenseBlock+Transition(2)和DenseBlock+Transition (3)的任意一个输出为中间层特征，该些中间层特征和分类层特征也称之为不同层级的层级特征、浅层特征等，电子设备基于该些层级特征能够建立注意力机制。

请同时参照图4和图5，图4中用于生成浅层特征的卷积(conv)即为图5 中的DenseBlock+Transition(1)、DenseBlock+Transition(2)、 DenseBlock+Transition(3)中任意一个的输出。以DenseBlock+Transition(1) 为例，根据图5可知：DenseBlock+Transition(1)包含6个卷积，则浅层特征为6个卷积中最后一个卷积的输出。

图6是本申请实施例提供的视频审核模型中多目标识别网络的全连接分类层的结构示意图。本申请实施例中，多目标识别网络的每个分支网络包括注意力模块和全连接分类层，多目标识别网络利用注意力模块和全连接分类层对特征提取网络提取的特征进行识别。以下将任意一个分支网络称之为目标分支网络，目标分支网络的全连接的输入为注意力模块的输出，全连接分类层包括：1 个全局池化层，4个全连接层，前3个全连接层包含relu激活层、一个失活 (dropout)层以及分类输出层。分类输出层包括softmax层和分类概率层，用于输出2个类别，即做二分类判断，判断是否为该分支网络的目标。另外，分类输出层还输出目标分支网络的输出结果的置信度。每个分支网络单独判断，单独学习全连接的参数。

采用该种方案，多目标识别网络包含多个分支网络，不同分支网络用于识别不同的目标，在多目标共存场景下，目标识别准确度高。而且，有助于识别小目标，小目标是指：一幅图像中，主体目标占据面积比较大，主体目标之外的目标。例如，一幅图像中，一俩车占据了80％的面积，其余20％的图像中，包含不法人员，则不法人员为小目标。

本申请实施例中，目标分支网络的注意力模块可采用SE通道注意力模块、空间和通道注意力模块、空间注意力模块或SKnet多路注意力模块等。下面，以SE通道注意力模块，对目标分支网络的注意力模块进行说明。示例性的，请参照图7。

图7是本申请实施例提供的视频审核方法中注意力模块的结构示意图。请参照图7，SE通道注意力模块包括一个全局池化层、2个全连接(full connection， FC)以及激活层等，激活层的激活函数例如为sigmoid函数。对于目标分支网络而言，电子设备确定出目标分支网络对应的层级特征，并将该层级特征输入至注意力模块，使得注意力模块输出一个特征向量，该特征向量例如为一个1 ×1×C的向量，该向量也称之为权重向量。同时，特征提取网络的分类层特征输入至各个分支网络的注意力模块，分类层特征例如为一个H×W×C的向量。电子设备对该两个向量进行相乘等，得到全脸连接层的输入特征，该输入特征能够有效指导目标分支网络识别目标分支网络对应的目标。其中，H表示图像样本或待识别的图像帧在长度方向上的像素数量，W表示图像样本或待识别的图像帧在宽度方向上的像素数量，C表示RGB通道数据。或者，H表示卷积层输出的特征的长度，W表示卷积层输出的特征的宽度，C表示通道(channel) 数量。

采用该种方案，通过在目标识别网络中引入注意力机制，能够提高目标对象的学习效率和准确率。

可选的，上述实施例中，不同的目标单独识别，因此，可以基于各分支网络的特点，采用不同的注意力机制。也就是说，多个分支网络中，至少存在两个分支网络，该两个分支网络的的注意力模块对应所述多层层级特征中的不同层级特征。例如，一个分支网络对应的层级特征是DenseBlock+Transition(1) 的输出，另一个分支网络对应的层级特征是DenseBlock+Transition(2)的输出。再如，一个分支网络对应的层级特征是DenseBlock+Transition(3)的输出，另一个分支网络对应的层级特征是DenseBlock+Transition(4)的输出。

如此一来，多目标识别网络的每个分支网络，除了利用特征提取网络的分类层特征外，还可以综合不同层级的层级特征，提高单目标识别精度。而且，在多目标识别网络中，引入注意力机制，每个分支网络对进入自身的特征进行筛选，能够更好的关注本分支网络的特征，同时提高小目标对象的识别成功率。

可选的，上述实施例中，至少两个分支网络对应的层级特征不同，可以是多个分支网络中存在至少一个第一分支网络和至少一个第二分支网络，所述第一分支网络的注意力模块对应的层级特征为所述特征提取网络的中间层特征中的至少一个，或者，所述第一分支网络的注意力模块对应的层级特征为所述分类层特征和所述中间层特征中的至少一个；所述第二分支网络的注意力模块对应的层级特征至少包含所述特征提取网络的分类层特征。

示例性的，第一分支网络的注意力模块利用一个或多个不同的层级特征产生注意力机制，且该层级特征不能仅仅是分类层特征。例如，第一分支网络对应的层级特征是DenseBlock+Transition(1)、DenseBlock+Transition(2)、DenseBlock+Transition(3)中的至少一个，或者，第一分支网络对应的层级特征是DenseBlock(4)以及DenseBlock+Transition(1)、DenseBlock+Transition (2)、DenseBlock+Transition(3)中的至少一个。该种情况下，第一分支网络的注意力模块称之为多特征融合注意力模块。

第二分支网络的注意力模块利用分类层特征产生注意力机制。即第二分支网络对应的层级特征仅为DenseBlock(4)的输出。这种情况下，第二分支网络的注意力模块称之为基本注意力模块。

图8为本申请实施例提供的视频审核方法中基本注意力模块的示意图。请参照图8，注意力模块采用SE通道注意力模块，包括全局池化层、2个FC以及激活层等。该注意力模块用于产生权重向量的依据为分类层特征，即DenseBlock (4)输出的特征。注意力模块利用分类层特征产生一个1×1×C的权重向量，利用该权重向量和分类层特征(一个H×W×C的向量)产生一个新的特征，该新的特征即为全连接分类层的输入特征。

图9是本申请实施例提供的视频审核方法中多特征融合注意力模块的示意图。请参照图9，注意力模块采用SE通道注意力模块，包括全局池化层、2个 FC以及激活层等。该注意力模块用于产生权重向量的依据为一个融合特征，该融合特征是中间特征和分类层特征的融合特征，中间特征可以是 DenseBlock+Transition(1)、DenseBlock+Transition(2)、DenseBlock+Transition (3)中的任意一个，分类层特征例如为DenseBlock(4)输出的特征。

图10是本申请实施例提供的视频审核方法中多特征融合注意力模块的另一个示意图。请参照图10，注意力模块采用SE通道注意力模块，包括全局池化层、 2个FC以及激活层等。该注意力模块用于产生权重向量的依据为一个中间特征。

采用该种方案，各分支网络根据不同的层级特征生成注意力机制，可以使得各个分支网络能够准确识别各自的目标。

上述实施例中，多目标识别网络中存在多个分支网络，分支网络对应的层级特征可根据分支网络的目标确定，例如，一个分支网络的正样本的特征在于纹理、形状等，而特征提取网络中的中间层特征即为形状、颜色、纹理等，因此，可以基于图10，利用中间层特征生成注意力机制。

本申请实施例中，针对不同目标，即不同分支网络采用不同的注意力机制，能够有效抓取相关类别的特征。示例性的，请参照图11A和图11B，以及图12A 和图12B。

图11A是本申请实施例提供的视频审核方法中的一种热力图。图11B是本申请实施例提供的视频审核方法中的另一种热力图。电子设备可根据特征提取网络提取出的特征，通过计算像素的偏导数、对偏导数求取全局平均值的方式等，生成热力图。请参照图11A，热力图表达了共存图中一种正样本所在的区域，图11B表达了共存图中另一种正样本所在的区域。显然采用本申请实施例所述的视频审核模型能准确学习到共存的正样本。

图12A是本申请实施例提供的视频审核方法中的又一种热力图。图12B是本申请实施例提供的视频审核方法中的又一种热力图。请参照图12A，热力图表达了共存图中一种正样本所在的区域，图12B表达了共存图中大火所在的区域。显然采用本申请实施例所述的视频审核模型能准确学习到共存的正样本。

可选的，上述实施例中，为了加快整视频审核模型的推理速度，电子设备利用大量的训练样本对初始模型进行训练，得到视频审核模型后，还将视频审核模型构建成服务或SDK.

示例性的，电子设备采用Tensor RT等，对视频审核模型进行转换，加快视频审核模型的推理速度，并封装成SDK或服务，便于用户使用。

以上详细描述了视频审核模型的训练过程以及训练好的视频审核模型的结构。下面，对利用视频审核模型如何审核待审核视频进行详细说明。

视频审核过程中，电子设备从待审核视频中获取多帧图像，对于多帧图像中的任意一帧图像，以下称之为目标图像，电子设备利用所述特征提取网络提取所述目标图像的特征，以得到所述多层层级特征，所述目标图像是所述多帧图像中的任意一帧图像，所述多层层级特征包括分类层特征和中间层特征。之后，将多层层级特征输入所述多个分支网络中的每个分支网络，以得到每个分支网络的输出结果和所述输出结果的置信度。最后，根据所述多个分支网络中每个分支网络的输出结果和所述输出结果的置信度，确定所述目标图像的识别结果和所述识别结果的置信度。

示例性的，特提取网络提取出的分类层特征输入至各个分支网络的注意力模块，同时，每个分支网络的注意力模块具有对应的层级特征。注意力模块根据分类层特征和层级特征计算出全连接层的输入特征，全连接层根据输入特征得到一个二分类结构。例如，一个分支网络的目标对象是大火，则该分支网络的权连接层的输入为目标图像是否包含大火、包含大火的概率、不包含大火的概率。其中，包含大火是指目标图像中具有大火等元素。

采用该种方案，实现准确确定出每帧图像的识别结果和识别结果的置信度的目的。

图13是本申请实施例提供的视频审核方法的另一个流程图。本实施例的执行主体为电子设备，电子设备上集成编解码模块、识别模块和判断模块。本实施例包括：

1301、接收待审核视频，对待审核视频进行抽帧处理。

示例性的，编解码模块对接收到视频进行抽帧处理。在一个实施例中，采用多媒体视频处理工具，如Fast Forward Mpeg等对待审核视频进行抽帧处理，从而得到多帧图像。其中，待审核视频为RGB格式等，本申请实施例并不限制。抽帧频率可根据视频的长度、类型确定。例如，当待审核视频为直播视频时，抽帧频率为每10秒抽1帧；当待审核视频为点播视频时，抽帧频率为每1秒抽取1帧。得到多帧图像后，依次将多帧图像输入至识别模块。

1302、利用视频审核模型审核对每帧图像进行识别，得到各帧图像的识别结果和识别结果的置信度。

以下将多帧图像中的任意一帧图像称之为目标图像。由于视频审核模型中存在多个分支网络，每个分支网络都会对该目标图像进行识别，从而得到各个分支网络的输出结果和各输出结果的置信度。电子设备根据该些分支网络的输出结果和置信度确定目标图像的识别结果和识别结果的置信度。

可选的，步骤1302包括如下步骤：

13021、对于所述多帧图像中的目标图像，利用所述特征提取网络提取所述目标图像的特征，以得到多层层级特征，所述目标图像是所述多帧图像中的任意一帧图像，所述多层层级特征包括分类层特征和中间层特征。

13022、对于所述多目标识别网络中的目标分支网络，向所述目标分支网络的注意力模块输入对应的层级特征，以得到所述目标分支网络对应的特征向量，所述目标分支网络是所述多个分支网络中的任意一个分支网络。

其中，目标分支网络包括一个全局池化层、2个全连接(full connection，FC) 以及激活层等，激活层的激活函数例如为sigmoid函数。激活层的输出即为上述的特征向量，该特征向量可以表示为1×1×C。

13023、根据所述特征向量和所述分类层特征确定所述目标分支网络的全连接分类层的输入特征。

以特征提取网络为经典的DenseNet121为例，分类层特征即为DenseBlock (4)的输出，可以表示为H×W×C。

13024、将所述输入特征输入至所述目标分支网络的全连接分类层，以得到所述目标分支网络的识别结果和所述识别结果的置信度。

13025、按照置信度从高到低的顺序对所述多个分支网络的识别结果排序，将排序靠前的、预设数量的分支网络的识别结果的总和作为所述目标图像的识别结果。

例如，多目标分支网络中存在11个分支网络，则针对目标图像，多目标识别结果会得到11个输出结果。假设预设数量为3，排序靠前的三个分支网络的输出结果均是违规对象，置信度依次为0.8、0.75、0.7，则电子设备认为目标图像的识别结果为3个违规对象，识别结果的置信度可以是三个输出结果的置信度的最小值，也可以是平均值等。

采用该种方案，从多个分支网络的输出结果中确定出一定数量的输出结果，并将该些输出结果的总和作为目标图像的识别结果，该识别结果能够更准确的描述目标图像。

1303、根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频。

示例性的，在得到多帧图像中每帧图像的识别结果和置信度后，可将各帧图像的识别结果和置信度输入至判断模块，由判断模块进行判断。假设置信度大于0.9为强可信度，置信度介于0.7-0.9之间为中可信度，置信度小于0.7为不可信。判断模块根据多帧图像中各图像的识别结果的置信度，确定每帧图像是否为违规图像。例如，若一帧图像的识别结果符合违规且置信度大于0.7且小于 0.9，则认为这一帧图像为中可信度的违规图像。

之后，电子设备判断多帧图像中强可信度和中可信度的图像在时间上的集中度。例如，若连续10帧图像的识别结果符合违规且置信度大于0.7，则认为待审核视频为违规视频。

另外，还可以根据多帧图像中每帧图像的识别结果和置信度确定待审核视频的违规级别，根据业务需求人工符合违规置信度为中级的视频。采用该种方案，极大程度上降低人工复核的工作量，同时保证违规识别的精度。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图14为本申请实施例提供的一种视频审核装置的示意图。该视频审核装置1400包括：获取模块141、处理模块142和确定模块143。

获取模块141，用于从待审核视频中获取多帧图像；

处理模块142，用于向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，所述视频审核模型包括特征提取网络和多目标识别网络，所述多目标识别网络包含多个分支网络，所述多个分支网络中的不同分支网络用于识别不同的目标，所述多帧图像中每帧图像的识别结果是根据所述多个分支网络中每个分支网络的输出结果确定出的；

确定模块143，用于根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频。

一种可行的实现方式中，所述特征提取网络用于输出多层层级特征，所述多个分支网络中的每个分支网络包括注意力模块和全连接分类层。

一种可行的实现方式中，所述多个分支网络中至少两个分支网络的注意力模块对应所述多层层级特征中的不同层级特征。

一种可行的实现方式中，所述处理模块142，用于对于所述多帧图像中的目标图像，利用所述特征提取网络提取所述目标图像的特征，以得到所述多层层级特征，所述目标图像是所述多帧图像中的任意一帧图像，所述多层层级特征包括分类层特征和中间层特征；将所述多层层级特征输入所述多个分支网络中的每个分支网络，以得到每个分支网络的输出结果和所述输出结果的置信度；根据所述多个分支网络中每个分支网络的输出结果和所述输出结果的置信度，确定所述目标图像的识别结果和所述识别结果的置信度。

一种可行的实现方式中，所述处理模块142将所述多层层级特征输入所述多个分支网络中的每个分支网络，以得到每个分支网络的输出结果和所述输出结果的置信度时，用于对于所述多目标识别网络中的目标分支网络，向所述目标分支网络的注意力模块输入对应的层级特征，以得到所述目标分支网络对应的特征向量，所述目标分支网络是所述多个分支网络中的任意一个分支网络；根据所述特征向量和所述分类层特征确定所述目标分支网络的全连接分类层的输入特征；将所述输入特征输入至所述目标分支网络的全连接分类层，以得到所述目标分支网络的输出结果和所述输出结果的置信度。

一种可行的实现方式中，所述处理模块142根据所述多个分支网络中每个分支网络的输出结果和所述输出结果的置信度，确定所述目标图像的识别结果和所述识别结果的置信度时，用于按照所述输出结果的置信度从高到低的顺序对所述多个分支网络的输出结果排序，将排序靠前的、预设数量的分支网络的输出结果的总和作为所述目标图像的识别结果。

一种可行的实现方式中，所述多个分支网络中存在至少一个第一分支网络，所述第一分支网络的注意力模块对应的层级特征为所述特征提取网络的中间层特征中的至少一个，或者，所述第一分支网络的注意力模块对应的层级特征为所述分类层特征和所述中间层特征中的至少一个。

一种可行的实现方式中，所述多个分支网络中存在至少一个第二分支网络，所述第二分支网络的注意力模块对应的层级特征仅包含所述特征提取网络的分类层特征。

一种可行的实现方式中，所述多目标识别网络中的目标分支网络的全连接分类层包括级联的全局池化层、第一全连接层、失活层、第二全连接层、第三全连接层、第四全连接层和分类输出层。

一种可行的实现方式中，所述确定模块143，用于当所述多帧图像中存在超过预设数量的、连续的多帧图像，所述连续的多帧图像的识别结果符合预设结果，且所述连续的多帧图像的识别结果的置信度大于预设阈值时，确定所述待审核视频为违规视频。

图15为本申请实施例提供的另一种视频审核装置的示意图。该视频审核装置1500包括：获取模块151、处理模块152、确定模块153、训练模块154。其中，关于获取模块151、处理模块152、确定模块153的描述可参见图14的描述。

训练模块154，用于在所述处理模块152向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度之前，确定多个类别，所述多个类别中的类别和所述多目标识别网络中的分支网络一一对应；获取包含所述多个类别中每个类别的图像样本的样本集；构建初始模型，所述初始模型包括初始特征提取网络和初始多目标识别网络；利用所述样本集中的图像样本训练所述初始模型，以得到所述视频审核模型。

一种可行的设计中，所述训练模块154获取包含所述多个类别中每个类别的图像样本的样本集时，用于对于所述多个类别中的目标类别，确定关联特征，所述目标类别是所述多个类别中除其他类别之外的类别；获取具有所述关联特征且不属于所述目标类别的图像样本，以得到属于所述其他类别的图像样本。

再请参照图15，一种可行的实现方式中，上述的视频审核装置1500还包括：

构建模块155，用于将所述视频审核模型构建成服务或软件开发工具包 SDK。

本申请实施例提供的视频审核装置，可以执行上述实施例中电子设备的动作，其实现原理和技术效果类似，在此不再赘述。

图16为本申请实施例提供的一种电子设备的结构示意图。如图16所示，该电子设备1600包括：

处理器161和存储器162；

所述存储器162存储计算机指令；

所述处理器161执行所述存储器162存储的计算机指令，使得所述处理器161 执行如上电子设备实施的视频审核方法。

处理器161的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该电子设备1600还包括通信部件163。其中，处理器161、存储器 162以及通信部件163可以通过总线164连接。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，所述计算机指令被处理器执行时用于实现如上电子设备实施的视频审核方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包含计算机程序，计算机程序被处理器执行时实现如上电子设备实施的视频审核方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种视频审核方法，其特征在于，包括：

从待审核视频中获取多帧图像；

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络用于输出多层层级特征，所述多个分支网络中的每个分支网络包括注意力模块和全连接分类层。

3.根据权利要求2所述的方法，其特征在于，

所述多个分支网络中至少两个分支网络的注意力模块对应所述多层层级特征中的不同层级特征。

4.根据权利要求2所述的方法，其特征在于，所述向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，包括：

对于所述多帧图像中的目标图像，利用所述特征提取网络提取所述目标图像的特征，以得到所述多层层级特征，所述目标图像是所述多帧图像中的任意一帧图像，所述多层层级特征包括分类层特征和中间层特征；

将所述多层层级特征输入所述多个分支网络中的每个分支网络，以得到每个分支网络的输出结果和所述输出结果的置信度；

根据所述多个分支网络中每个分支网络的输出结果和所述输出结果的置信度，确定所述目标图像的识别结果和所述识别结果的置信度。

5.根据权利要求4所述的方法，其特征在于，所述将所述多层层级特征输入所述多个分支网络中的每个分支网络，以得到每个分支网络的输出结果和所述输出结果的置信度，包括：

对于所述多目标识别网络中的目标分支网络，向所述目标分支网络的注意力模块输入对应的层级特征，以得到所述目标分支网络对应的特征向量，所述目标分支网络是所述多个分支网络中的任意一个分支网络；

根据所述特征向量和所述分类层特征确定所述目标分支网络的全连接分类层的输入特征；

将所述输入特征输入至所述目标分支网络的全连接分类层，以得到所述目标分支网络的输出结果和所述输出结果的置信度。

6.根据权利要求4所述的方法，其特征在于，所述根据所述多个分支网络中每个分支网络的输出结果和所述输出结果的置信度，确定所述目标图像的识别结果和所述识别结果的置信度，包括：

按照所述输出结果的置信度从高到低的顺序对所述多个分支网络的输出结果排序，将排序靠前的、预设数量的分支网络的输出结果的总和作为所述目标图像的识别结果。

7.根据权利要求5所述的方法，其特征在于，

所述多个分支网络中存在至少一个第一分支网络，所述第一分支网络的注意力模块对应的层级特征为所述特征提取网络的中间层特征中的至少一个，或者，所述第一分支网络的注意力模块对应的层级特征为所述分类层特征和所述中间层特征中的至少一个。

8.根据权利要求5所述的方法，其特征在于，

所述多个分支网络中存在至少一个第二分支网络，所述第二分支网络的注意力模块对应的层级特征仅包含所述特征提取网络的分类层特征。

9.根据权利要求2-8任一项所述的方法，其特征在于，所述多目标识别网络中的目标分支网络的全连接分类层包括级联的全局池化层、第一全连接层、失活层、第二全连接层、第三全连接层和、第四全连接层和分类输出层。

10.根据权利要求1-8任一项所述的方法，其特征在于，所述根据所述多帧图像中每帧图像的识别结果和所述识别结果的置信度，确定所述待审核视频是否为违规视频，包括：

当所述多帧图像中存在超过预设数量的、连续的多帧图像，所述连续的多帧图像的识别结果符合预设结果，且所述连续的多帧图像的识别结果的置信度大于预设阈值时，确定所述待审核视频为违规视频。

11.根据权利要求1-8任一项所述的方法，其特征在于，所述向视频审核模型输入所述多帧图像，以得到所述多帧图像中每帧图像的识别结果和所述识别结果的置信度之前，还包括：

确定多个类别，所述多个类别中的类别和所述多目标识别网络中的分支网络一一对应；

获取包含所述多个类别中每个类别的图像样本的样本集；

构建初始模型，所述初始模型包括初始特征提取网络和初始多目标识别网络；

利用所述样本集中的图像样本训练所述初始模型，以得到所述视频审核模型。

12.根据权利要求11所述的方法，其特征在于，所述获取包含所述多个类别中每个类别的图像样本的样本集，包括：

对于所述多个类别中的目标类别，确定关联特征，所述目标类别是所述多个类别中除其他类别之外的类别；

获取具有所述关联特征且不属于所述目标类别的图像样本，以得到属于所述其他类别的图像样本。

13.根据权利要求11所述的方法，其特征在于，所述利用所述样本集中的图像样本训练所述初始模型，以得到所述视频审核模型之后，还包括：

将所述视频审核模型构建成服务或软件开发工具包SDK。

14.一种视频审核装置，其特征在于，包括：

获取模块，用于从待审核视频中获取多帧图像；

15.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时使得所述电子设备实现如权利要求1至13任一所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13任一所述的方法。