CN111143612B

CN111143612B - 视频审核模型训练方法、视频审核方法及相关装置

Info

Publication number: CN111143612B
Application number: CN201911380104.9A
Authority: CN
Inventors: 朱海昇; 石峰; 刘振强
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-06-27
Anticipated expiration: 2039-12-27
Also published as: CN111143612A

Abstract

本发明实施例公开了一种视频审核模型训练方法、视频审核方法及相关装置，训练方法包括：获取训练视频的多帧视频帧；将视频帧输入违规图像审核模型中以提取视频帧的视频帧特征；采用视频帧特征、起始时间和终止时间训练模型得到视频审核模型，视频审核模型用于预测视频帧为违规视频片段的起始点和终止点的概率。由于结合视频帧特征、违规视频片段的起始时间和终止时间建模，在通过视频审核模型审核视频时，一方面，无需人工对每帧视频帧审核，节省了时间消耗，另一方面，充分考虑了视频帧的上下文信息，可以有效判定动作类违规内容，再者，能够根据视频帧为起始点和终止点的概率提取违规视频片段送人工审核，降低了人工审核强度，节省了人力。

Description

视频审核模型训练方法、视频审核方法及相关装置

技术领域

本发明实施例涉及视频审核技术领域，尤其涉及一种视频审核模型训练方法、视频审核模型训练方法装置、视频审核方法、视频审核装置、设备和存储介质。

背景技术

随着直播软件、短视频软件的流行，互联网上每天都会产生大量视频内容，大量视频内容中可能存在违规的视频内容，需要通过视频审核手段过滤违规的视频内容。

由于高速网络的普及与流量资费的平民化，长视频越来越流行，视频内容从原来的几十秒发展到了几分钟乃至几十分钟，单纯依靠人工审核视频内容是远远不够的，目前通过计算机学习算法对视频内容进行辅助审核，机器学习算法先将视频先分解为帧进行逐帧违规判定，然后再将违规概率高的视频交由人工进行复审，目前的违规内容审核方法存在以下问题：

1)在视频长度增大时，逐帧违规判定的计算资源开销与时间消耗较大；

2)逐帧违规判定无法结合视频上下文信息，无法对动作类违规内容进行判定。

3)长视频中涉及违规片段的时长相对于整个视频来说通常较短，将整个视频交由人工进行复审在效率和效果上不佳。

发明内容

本发明实施例提供一种视频审核模型训练方法、视频审核模型训练装置、视频审核方法、视频审核装置、设备和存储介质，以解决现有技术中人工审核视频存在的问题。

第一方面，本发明实施例提供了一种视频审核模型训练方法，包括：

获取训练视频的多帧视频帧，所述训练视频标注有违规视频片段的起始时间和终止时间；

将所述视频帧输入预先训练的违规图像审核模型中以提取所述视频帧的视频帧特征；

采用所述视频帧特征、所述起始时间和终止时间训练模型，得到视频审核模型，所述视频审核模型用于预测所述视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

第二方面，本发明实施例提供了一种视频审核方法，包括：

对待审核视频进行采样，获得所述待审核视频的多帧视频帧；

将所述视频帧输入预先训练的违规图像审核模型中获得所述视频帧的视频帧特征以及所述视频帧为违规视频帧的概率；

将所述视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起始概率和为终止点的终点概率；

基于所述视频帧为违规视频片段的起点概率和终点概率确定所述待审核视频中的违规视频片段；

对所述违规视频片段进行审核；

其中，所述视频审核模型通过本发明任一实施例所述的视频审核模型训练方法所训练。

第三方面，本发明实施例提供了一种视频审核模型训练方法装置，包括：

视频帧获取模块，用于获取训练视频的多帧视频帧，所述训练视频标注有违规视频片段的起始时间和终止时间；

视频帧特征提取模块，用于将所述视频帧输入预先训练的违规图像审核模型中以提取所述视频帧的视频帧特征；

模型训练模块，用于采用所述视频帧特征、所述起始时间和终止时间训练模型，得到视频审核模型，所述视频审核模型用于预测所述视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

第四方面，本发明实施例提供了一种视频审核装置，包括：

待审核视频采样模块，用于对待审核视频进行采样，获得所述待审核视频的多帧视频帧；

待审核视频帧特征提取模块，用于将所述视频帧输入预先训练的违规图像审核模型中获得所述视频帧的视频帧特征以及所述视频帧为违规视频帧的概率；

模型预测模块，用于将所述视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起始概率和为终止点的终点概率；

违规视频片段提取模块，用于基于所述视频帧为违规视频片段的起点概率和终点概率确定所述待审核视频中的违规视频片段；

违规视频片段送审模块，用于对所述违规视频片段进行审核；

第五方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的视频审核模型训练方法和/或视频审核方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的视频审核模型训练方法和/或视频审核方法。

本发明实施例在获取标注有违规视频片段的起始时间和终止时间的训练视频的多帧视频帧后，将视频帧输入预先训练的违规图像审核模型中以提取视频帧的视频帧特征，并采用视频帧特征、起始时间和终止时间训练模型得到用于输出视频帧为训练视频的违规视频片段的起始点和终止点的概率。在对待审核视频审核时，可以将待审核视频采样后的多个视频帧先输入违规图像审核模型提取视频帧特征和视频帧违规的概率，进一步将视频帧特征输入视频审核模型中获得每帧视频帧为违规视频片段的起始点和终止点的概率，基于起始点和终止点的概率确定待审核视频中的违规视频片段以进行视频审核。在训练视频审核模型时结合了视频帧特征、违规视频片段的起始时间和终止时间建模，在通过该视频审核模型审核视频时，一方面，无需人工对每帧视频帧审核，节省了时间消耗，另一方面，结合违规视频片段的起始时间和终止时间建模，充分考虑了视频帧之间的上下文信息，可以有效判定动作类违规内容，再者，视频审核模型可以预测视频帧为违规视频片段的起始点和终止点的概率，能够根据视频帧为起始点和终止点的概率提取违规视频片段送人工审核，降低了人工审核强度，节省了人力。

附图说明

图1是本发明实施例一提供的一种视频审核模型训练方法的步骤流程图；

图2A是本发明实施例二提供的一种视频审核模型训练方法的步骤流程图；

图2B是本发明实施例的视频审核模型的示意图；

图3是本发明实施例三提供的一种视频审核方法的步骤流程图；

图4A是本发明实施例四提供的一种视频审核方法的步骤流程图；

图4B是本发明实施例的起点概率序列和终点概率序列的曲线示意图；

图4C是本发明实施例的初始违规视频片段的过滤示意图；

图4D是本发明实施例视频审核的过程示意图；

图5是本发明实施例五提供的一种视频审核模型训练方法装置的结构框图；

图6是本发明实施例六提供的一种视频审核装置的结构框图；

图7是本发明实施例七提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频审核模型训练方法的步骤流程图，本发明实施例可适用于训练视频审核模型的情况，该方法可以由本发明实施的视频审核模型训练装置来执行，该视频审核模型训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的设备中，具体地，如图1所示，本发明实施例的视频审核模型训练方法可以包括如下步骤：

S101、获取训练视频的多帧视频帧，所述训练视频标注有违规视频片段的起始时间和终止时间。

本发明实施例中，训练视频可以为短视频、直播平台上的视频，在获得训练视频后可以对训练视频解码得到训练视频的多个视频帧，同时，训练视频还通过人工标注有违规视频片段的起始时间和终止时间，其中，起始时间可以为训练视频中违规视频片段的起始视频帧在训练视频中的播放时间，终止时间可以为训练视频中违规视频片段的终止视频帧在训练视频中的播放时间。

S102、将所述视频帧输入预先训练的违规图像审核模型中以提取所述视频帧的视频帧特征。

本发明实施例的违规图像审核模型可以为预测图像为违规图像的概率的模型，对于一帧视频帧，输入该违规图像审核模型后可以得到该视频帧为违规图像的概率，同时可以通过该违规图像审核模型输出视频帧的视频帧特征，例如，违规图像审核模型为卷积神经网络，则可以输出全连接层之前的任意卷积层提取的视频帧特征。

S103、采用所述视频帧特征、所述起始时间和终止时间训练模型，得到视频审核模型，所述视频审核模型用于预测所述视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

本发明实施例中，视频审核模型可以预测出训练视频中的一个视频帧属于违规视频片段的起始点的起点概率和属于违规视频片段的终止点的终止概率。

具体地，在初始化模型的模型参数后，可以将视频帧特征输入模型中得到视频帧为违规视频片段的起始视频帧的起点概率和为终止视频帧的终点概率，然后采用视频帧在训练视频中的播放时间，人工标注的训练视频中违规片段的起始时间和终止时间计算损失率，不断对模型进行迭代调整模型参数，在损失率小于预设值或者跌打次数达到预设的次数时停止对模型进行迭代，得到用于预测视频帧为违规视频片段的起始点和终止点的概率的视频审核模型。

本发明实施例在训练视频审核模型时，结合了视频帧特征、违规视频片段的起始时间和终止时间建模，在通过该视频审核模型审核视频时，一方面，无需人工对每帧视频帧审核，节省了时间消耗，另一方面，结合违规视频片段的起始时间和终止时间建模，充分考虑了视频帧之间的上下文信息，可以有效判定动作类违规内容，再者，视频审核模型可以预测视频帧为违规视频片段的起始点和终止点的概率，能够根据起始点和终止点的概率提取违规视频片段送人工审核，降低了人工审核强度，节省了人力。

实施例二

图2A为本发明实施例二提供的一种视频审核模型训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2A所示，本发明实施例的视频审核模型训练方法可以包括如下步骤：

S201、按照预设周期对训练视频进行采样，得到采样后的多帧视频帧。

在本发明实施例中，训练视频的帧率通常为25fps，则可以预设周期对训练视频进行采样得到采样后的多帧视频帧，例如按照每秒1帧的采样周期对训练视频进行采样，从而大大降低了用于视频训练的视频帧的数量。可选地，还可以将提取的视频帧进行图像缩放、对比度增强等图像处理以获得高质量的视频帧，能够获得高质量的视频帧特征。

S202、将所述视频帧输入预先训练的违规图像审核模型中以提取所述视频帧的视频帧特征。

本发明实施例的违规图像审核模型可以为预测图像为违规图像的概率的模型，对于一帧视频帧，输入该违规图像审核模型后可以得到该视频帧为违规图像的概率。在本发明实施例中，违规图像审核模型可以通过以下方式训练：

首先，构建训练数据集，训练数据为网络直播、长视频应用程序上的视频，对训练视频进行采样获得视频帧，为每个视频帧标注违规或者正常的标签。

其次，训练数据预处理和曾广，将每帧视频帧缩放到指定尺寸，然后从缩放后的视频帧中随机截取224x224的区域，并对该区域随机进行左右翻转，以丰富得到的视频帧的多样性。

最后，违规图像审核模型训练，违规图像审核模型可以是轻量级的卷积神经网络，该卷积神经网络能够将每帧视频帧分为违规/正常两个类别，卷积神经网络最后是一个包含两个神经元的全连接层，训练时采用Softmax+交叉熵损失函数来计算模型损失率，同时采用随机梯度下降算法来进行模型参数更新，使得最终得到的违规图像审核模型能够输出每帧视频帧为违规图像的概率，并且设置违规图像审核模型全连接层前的任一卷积层输出视频帧的视频帧特征。

每帧视频帧输入训练好的违规图像审核模型后，可以输出该视频帧属于违规图像的概率，在概率高于预设阈值时判定该视频帧为违规图像，同时，违规图像审核模型还输出视频帧的视频帧图像。

S203、初始化视频审核模型的模型参数。

具体地，视频审核模型可以为卷积神经网络，可以构建包含多个层级一维卷积层和二维卷积层的卷积神经网络，并初始化卷积神经网络的参数得到初始化后的视频审核模型，本发明实施例对一维卷积层和二维卷积层的数量不加以限制。

S204、将所述视频帧特征输入所述视频审核模型中得到所述视频帧为违规视频片段的起始视频帧的起点概率和为终止点视频帧的终点概率。

在本发明的可选实施例中，可以对违规图像审核模型输出的视频帧特征进行均匀采样，以将训练视频帧中的部分视频帧的视频帧特征输入多个层级一维卷积层中获得多个层级一维卷积层输出的第一视频帧特征，以降低后续的计算复杂度、减少冗余的计算。

在本发明的优选实施例中，在多个层级一维卷积层中，可以将视频帧特征输入多个层级一维卷积层中，获得每个层级一维卷积层输出的第一子视频帧特征，然后获取第一子视频帧特征的特征属性数据，该特征属性数据可以为第一子视频帧特征的时间长度、通道维度、空间长度和空间宽度，然后采用特征属性数据计算每个层级一维卷积层的权重，具体地，针对每个层级一维卷积层，采用第一子视频帧特征、视频帧特征的时间长度、通道维度、空间长度和空间宽度计算每个层级一维卷积层的权重，然后计算每个层级一维卷积层的权重和每个层级一维卷积层输出的第一子视频帧特征的乘积作为每个层级一维卷积层的第二子视频特征，计算所有层级一维卷积层的第二子视频特征的和值作为多个层级一维卷积层输出的第一视频帧特征。

如图2B所示为本发明实施例的视频审核模型的一个示例，在图2B所示的视频审核模型中，包括多个层级一维卷积层(1D Covn)，将视频帧特征输入第一层级一维卷积层后得到第一层级一维卷积层输出的第一子视频特征，将第一层级一维卷积层输出的第一子视频特征输入第二层级一维卷积层后得到第二层级一维卷积层提取的第一子视频帧特征，以此类推。

对于视频帧特征F∈R^t×c×h×w，其中，t,c,h,w分别代表视频帧特征的时间长度、通道维度、以及视频帧特征的空间长度和宽度，则可以通过以下公式计算每个层级一维卷积层的权重：

其中，H_gap为全局平均池化，用于压缩特征的空间维度，使之变成t×c的向量，H_squeeze和H_unsqueeze分别用于降低视频帧特征向量的维度，以及将视频帧特征向量恢复为原来的维度；τ是归一化激活函数，本发明实施例采用sigmoid函数作为归一化激活函数。通过上述公式不仅得到了不同层级一维卷积层提取的第一子视频帧特征的重要程度，同时，对于某一层级一维卷积层，可以挖掘出视频帧特征的时间、通道维度的相关性，从而增强模型的建模能力。

如图2B所示，在计算得到各个层级一维卷积层的权重w_i后，可以采用该层级的权重w_i和该层级提取的第一子视频帧特征F_i相乘，得到多个层级一维卷积层的第二字视频帧特征F_i′，所有层级一维卷积层的第二字视频帧特征F_i′求和即得到多层一维卷积层输出的第一视频帧特征F。

在获得多个层级一维卷积层输出的第一视频帧特征F后，可以将第一视频帧特征输入多个层级的二维卷积层中得到降维后的第二视频帧特征，将第二视频帧特征输入多个层级一维卷积层中得到第三视频帧特征，将第三视频帧特征输入全连接层中获得视频帧的起点概率和终点概率。

如图2B所示，第一视频帧特征F后输入一个二维卷积层(2D Conv)中进行降维处理得到降维后的第二视频帧特征，降维后的第二视频帧特征随后经过多个一维卷积层后恢复至原来的维度得到第三视频帧特征，第三视频帧特征经过全连接层后输出视频帧特征对应的视频帧为违规视频片段的起始点的起点概率p^s，以及视频帧为违规视频片段的终止点的终点概率p^e。

本发明实施例中，模型包括一维卷积层和二维卷积层，视频审核模型的计算复杂度非常低，视频审核模型运行所使用的计算资源少，并且通过多个一维卷积层对视频帧特征在时间维度上关联其他维度特征来建模，充分考虑了视频帧之间的上下文信息，可以有效判定动作类违规内容。

S205、获取所述视频帧在所述训练视频中的播放时间。

在本发明实施例中，可以获取训练视频的播放时间戳，该播放时间戳上记录了每帧视频帧在训练视频中的播放时间，可以通过播放时间戳查找每个视频帧的播放时间。

S206、采用所述播放时间、所述起始时间和所述终止时间计算损失率。

在本发明的可选实施例中，可以采用起始时间计算起始时间区间，以及采用终止时间计算终止时间区间，基于播放时间计算播放时间区间，计算播放时间区间与起始时间区间的第一交并比，以及计算播放时间区间与终止时间区间的第二交并比，在第一交并比大于预设阈值时为播放时间标记起始点类标，在第二交并比大于预设阈值时为播放时间标记终止点类标，然后采用视频帧的起点概率、终点概率、起始点类标和终止点类标来计算损失率。

具体地，训练视频标注有违规视频片段的起始时间和终止时间y＝[y^s,y^e]，y^s、y^e分别表示违规视频片段的起始时间和终止时间，对于起始时间y^s可以计算起始时间区间r^s＝[y^s-d,y^s+d]，对于终止时间y^e可以计算终止时间区间r^e＝[y^e-d,y^e+d]，其中

同理，对于视频帧的播放时间t可以计算播放时间区间/>

对于训练视频，可以将训练视频中的多帧视频帧的视频帧特征输入视频审核模型后，预测出每帧视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率，从而可以得到训练视频的起点概率序列

和终点概率序列

其中T＝[1,2,…,t]。对于播放时间t对应的视频帧，如果其播放时间区间r_t与某个起始时间区间r^s的交并比大于阈值σ，则为该播放时间t标记起始点类标

以表达该播放时间为违规视频片段的起始时间，同理，如果播放时间区间r_t与某个终止时间区域r^e的交并比大于阈值σ，则为该播放时间t标记终止点类标/>

以表达该播放时间为违规视频片段的终止时间，对于所有/>

及/>

可以通过以下损失函数计算损失率：

L_C＝L_CE(P^s,G^s)+L_CE(P^e,G^e)，

其中，

L_CE表示交叉熵损失。

S207、在所述损失率未满足预设条件时，根据所述损失率调整模型参数。

在每轮迭代计算损失率后，如果损失率未达到预设阈值，根据损失率调整模型参数，具体地，可以采用损失率计算梯度，基于梯度对模型参数进行梯度下降，返回S204，重复执行S204-S207直到损失率小于预设阈值时停止对视频审核模型进行迭代，当然还可以是在迭代次数达到预设次数时停止迭代，从而得到用于输出视频帧为违规视频片段的起始点和终止点的概率的视频审核模型。

本发明实施例在采样得到多帧视频帧后，将视频帧输入违规图像审核模型中提取视频帧特征，并采用视频帧特征输入视频审核模型中提取视频帧为违规视频片段的起始视频帧的起点概率和为终止点视频帧的终点概率，并采用视频帧的播放时间、人工标注的违规视频片段的起始时间和终止时间计算损失率来调整模型参数，从而得到用于输出视频帧为违规视频片段的起始点和终止点的概率的视频审核模型。在通过该视频审核模型审核视频时，一方面，无需人工对每帧视频帧审核，节省了时间消耗，另一方面，结合违规视频片段的起始时间和终止时间建模，充分考虑了视频帧之间的上下文信息，可以有效判定动作类违规内容，再者，视频审核模型可以预测视频帧为违规视频片段的起始点和终止点的概率，能够根据起始点和终止点的概率提取违规视频片段送人工审核，降低了人工审核强度，节省了人力。

实施例三

图3为本发明实施例三提供的一种视频审核方法的步骤流程图，本发明实施例可适用于视频审核的情况，该方法可以由本发明实施的视频审核装置来执行，该视频审核装置可以由硬件或软件来实现，并集成在本发明实施例所提供的设备中，具体地，如图3所示，本发明实施例的视频审核方法可以包括如下步骤：

S301、对待审核视频进行采样，获得所述待审核视频的多个视频帧。

在本发明实施例中，待审核视频可以为直播平台或者其他长视频应用程序上需要审核是否存在违规内容的视频。在获得待审核视频后，可以对待审核视频进行解码，在解码过程中按照预设周期采样多帧视频帧，得到待审核视频的稀疏视频帧序列，该稀疏视频帧序列包括了多帧视频帧，每个视频帧在待审核视频中具有播放时间。

S302、将所述视频帧输入预先训练的违规图像审核模型中获得所述视频帧的视频帧特征以及所述视频帧为违规视频帧的概率。

本发明实施例的违规图像审核模型可以为预测图像为违规图像的概率的模型，对于一帧视频帧，输入该违规图像审核模型后可以得到该视频帧为违规图像的概率，在该概率大于预设阈值时可以确定视频帧为违规图像。同时可以通过该违规图像审核模型输出视频帧的视频帧特征，例如，违规图像审核模型为卷积神经网络，则可以输出全连接层之前的任意卷积层提取的视频帧特征。

S303、将所述视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点和终止点的概率。

本发明实施例的视频审核模型可通过实施例一或实施例二提供的视频审核模型训练方法所训练，在视频帧特征输入该视频审核模型中后，视频审核模型输出该视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

S304、基于所述视频帧的起点概率和终点概率确定所述待审核视频中的违规视频片段。

待审核视频包括多个视频帧，每个视频帧均通过视频审核模型预测出起点概率和终端概率，按照视频帧在待审核视频中的播放时间排序，可以得到待审核视频的起点概率序列和终点概率序列，则可以通过起点概率序列中大于预设值的起点概率对应的播放时间和终点概率序列中大于预设值的终点概率对应的播放时间组合多个视频片段作为待审核视频中的违规视频片段。

S305、对所述违规视频片段进行审核。

具体地，可以从待审核视频中提取除违规视频片段送人工审核。

本发明实施例采样待审核视频的多帧视频帧后，将视频帧输入违规图像审核模型提取视频帧特征，将视频帧特征输入预先训练的视频审核模型中获得视频帧为违规视频片段的起始点和终止点的概率，并基于视频帧的起点概率和终点概率确定所述待审核视频中的违规视频片段，对该违规视频片段进行审核，无需对整个待审核视频进行审核，降低了人工审核的强度，节省了人力，提高了视频审核效率。

进一步地，本发明实施例在训练视频审核模型时结合了视频帧特征、违规视频片段的起始时间和终止时间建模，能够结合违规视频片段的起始时间和终止时间建模，充分考虑了视频帧之间的上下文信息，可以有效判定动作类违规内容。

实施例四

图4A为本发明实施例四提供的一种视频审核方法的步骤流程图，本发明实施例在前述实施例三的基础上进行优化，具体地，如图4A所示，本发明实施例的视频审核方法可以包括如下步骤：

S401、对待审核视频进行采样，获得所述待审核视频的多个视频帧。

S402、将所述视频帧输入预先训练的违规图像审核模型中获得所述视频帧的视频帧特征以及所述视频帧为违规视频帧的概率。

S403、按照预设周期对多帧视频帧特征进行采样，获得采样后的多帧视频帧特征。

在本发明实施例中，由于相邻的视频帧通常是高度相似的，多个视频帧输入违规图像审核模型提取视频帧特征序列和预设视频帧为违规视频帧的概率后，可以对视频帧特征序列进行采样，可选地，可以按照预设周期对视频帧特征序列进行采样以提取部分视频帧特征输入视频审核模型中，以降低后续的计算复杂度、减少冗余的计算。

S404、将采样后的多帧视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点和终止点的概率。

具体地，本发明实施例的视频审核模型可通过实施例一或实施例二提供的视频审核模型训练方法所训练，在视频帧特征输入该视频审核模型中后，视频审核模型输出该视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

S405、根据所述视频帧在所述待审核视频中的播放时间、所述视频帧的起点概率和终点概率，生成所述待审核视频的起点概率序列和终点概率序列。

待审核视频包括多个视频帧，每个视频帧均通过视频审核模型预测出起点概率和终端概率，按照视频帧在待审核视频中的播放时间排序，可以得到待审核视频的起点概率序列

和终点概率序列/>

其中T＝[1,2,…,t]，t为视频帧的播放时间。

S406、在所述起点概率序列中确定出概率值大于预设阈值的第一起点概率，以及在所述终点概率序列中确定出概率值大于预设阈值的第一终点概率。

在本发明实施例中，起点概率表达了视频帧为违规视频片段的起始点的概率，终点概率表达了视频帧为违规视频片段的终止点的概率，对于待审核视频的起点概率序列，可以取阈值大于预设阈值的至少一个第一起点概率，对于终点概率序列，可以取阈值大于预设阈值的至少一个第一终点概率。

如图4B为本发明实施例的起点概率序列和终点概率序列的示意图，图4B中，纵坐标为概率值，横坐标为播放时间，实线曲线为起点概率序列曲线，虚线曲线为起点概率序列曲线。示例性地，在一个时间窗口中，包含了大于阈值的第一起点概率A1、A2和A3，大于阈值的第一终点概率B1和B2。

S407、基于所述第一起点概率和所述第一终点概率确定多个初始违规视频片段。

在本发明实施例中，可以将第一起点概率对应的视频帧作为违规视频片段的起始帧，将第一终点概率对应的、位于起始帧之后的视频帧确定为违规视频片段的终止点帧。

示例性地，如图4B所示，可以将第一起点概率A1对应的视频帧(播放时间)作为违规视频的起始帧(起始时间)，将位于第一起点概率A1之后的第一终点概率B1对应的视频帧(播放时间)作为违规视频的终止帧(终止时间)，以此类推可以提取出待审核视频的多个初始违规视频片段。

S408、对所述初始违规视频片段进行过滤得到最终的违规视频片段。

在本发明的可选实施例中，违规视频片段进行过滤可以包括以下两种方式：

方式一：对于在播放时间上重叠的两个初始违规视频片段，通过非极大值抑制算法确定出最终的违规视频片段。

如图4C所示，第一视频片段和第二视频片段为初始违规视频片段，并且第一视频片段和第二视频片段在播放时间上重叠，则可以通过非极大值抑制算法确定第一视频片段为最终的违规视频片段。

方式二：去掉不包含违规视频帧的初始违规视频片段，其中违规视频帧包括预测为违规视频帧的概率大于预设阈值的视频帧。

其中，在违规图像审核模型中已经预测出各个视频帧属于违规视频帧的概率，可以将该概率大于阈值的视频帧确定为违规视频帧，在初始违规视频片段中，如果未包含有违规视频帧，则过滤掉该初始违规视频片段，将剩余的初始违规视频片段作为待审核视频的最终违规视频片段，如图4C所示，第三视频片段未包括任何违规视频帧，则丢弃第三视频片段。当然，上述两种方式可以择一实施或者同时实施，本发明实施例对此不加以限制。

本发明实施例对多个初始违规视频片段进一步过滤，得到待审核视频的最终违规视频片段，避免了违规视频片段误判的情况，提高了判定违规视频片段的准确度。

S409、对所述最终的违规视频片段进行审核。

为了使得本领域技术人员更清楚地理解本发明实施例的视频审核方法，以下结合图4D对本发明实施例的视频审核方法进行说明：

本示例在获得待审核视频后，对待审核视频解码得到待审核视频的多个视频帧，然后从多个视频帧中均匀采样N帧视频帧输入违规图像审核模型中得到每帧视频帧正常或者违规的概率，并输出N帧视频帧特征，从N帧视频帧特征中均匀采样M帧视频帧特征输入视频审核模型中提取到每帧视频帧作为违规视频片段的起始点的起点概率和作为终止点的终点概率，从而得到待审核视频的起点概率序列和终点概率序列，从而可以根据起点概率序列和终点概率序列确定待审核视频的违规视频片段。

本发明实施例采样待审核视频的多帧视频帧后，将视频帧输入违规图像审核模型提取视频帧特征，对提取的多帧视频帧特征均匀采样部分视频帧特征输入预先训练的视频审核模型中获得视频帧为违规视频片段的起始点和终止点的概率，并基于视频帧的起点概率和终点概率生成待审核视频的起点概率序列和终点概率序列，在起点概率序列中确定出概率值大于预设阈值的第一起点概率，以及在终点概率序列中确定出概率值大于预设阈值的第一终点概率后，基于第一起点概率和第一终点概率确定多个初始违规视频片段，对初始违规视频片段进行过滤得到最终的违规视频片段，对最终的违规视频片段进行审核，无需对整个待审核视频进行审核，降低了人工审核的强度，节省了人力，提高了视频审核效率。

进一步地，对多个初始违规视频片段进一步过滤，得到待审核视频的最终违规视频片段，避免了违规视频片段误判的情况，提高了判定违规视频片段的准确度。

实施例五

图5是本发明实施例五提供的一种视频审核模型训练方法装置的结构框图，如图5所示，本发明实施例的视频审核模型训练方法装置具体可以包括如下模块：

视频帧获取模块501，用于获取训练视频的多帧视频帧，所述训练视频标注有违规视频片段的起始时间和终止时间；

视频帧特征提取模块502，用于将所述视频帧输入预先训练的违规图像审核模型中以提取所述视频帧的视频帧特征；

模型训练模块503，用于采样所述视频帧特征、所述起始时间和终止时间训练模型，得到视频审核模型，所述视频审核模型用于预测所述视频帧为违规视频片段的起始点的起点概率和终止点的终点概率。

可选地，所述视频帧获取模块501包括：

视频帧采样子模块，用于按照预设周期对训练视频进行采样，得到采样后的多帧视频帧。

可选地，所述模型训练模块503包括：

初始化子模块，用于初始化视频审核模型的模型参数；

视频帧特征输入子模块，用于将所述视频帧特征输入所述视频审核模型中得到所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率；

播放时间获取子模块，用于获取所述视频帧在所述训练视频中的播放时间；

损失率计算子模块，用于采用所述播放时间、所述起始时间和所述终止时间计算损失率；

模型参数调整子模块，用于在所述损失率未满足预设条件时，根据所述损失率调整模型参数，返回视频帧特征输入子模块。

可选地，所述视频审核模型包括多个层级一维卷积层和二维卷积层，所述视频帧特征输入子模块包括：

第一一维卷积层输入单元，用于将所述视频帧特征输入多个层级一维卷积层中，获得多个层级一维卷积层输出的第一视频帧特征；

二维卷积层输入单元，用于将所述第一视频帧特征输入多个层级二维卷积层中得到降维后的第二视频帧特征；

第二一维卷积层输入单元，用于将所述第二视频帧特征输入多个层级一维卷积层中得到第三视频帧特征；

全连接层输入单元，用于将所述第三视频帧特征输入全连接层中获得所述视频帧的起点概率和终点概率。

可选地，所述第一一维卷积层输入单元包括：

一维卷积层输入子单元，用于将所述视频帧特征输入多个层级一维卷积层中，获得每个层级一维卷积层输出的第一子视频帧特征；

特征属性数据获取子单元，用于获取所述第一子视频帧特征的特征属性数据；

权重计算子单元，用于采用所述特征属性数据计算每个层级一维卷积层的权重；

第二子视频特征计算子单元，用于计算所述每个层级一维卷积层的权重和所述每个层级一维卷积层输出的第一子视频帧特征的乘积作为每个层级一维卷积层的第二子视频特征；

第一视频帧特征计算子单元，用于计算所有层级一维卷积层的第二子视频特征的和值作为多个层级一维卷积层输出的第一视频帧特征。

可选地，所述特征属性数据获取子单元包括：

特征属性数据获取组件，用于获取所述第一子视频帧特征的时间长度、通道维度、空间长度和空间宽度。

可选地，所述权重计算子单元包括：

权重计算组件，用于针对每个层级一维卷积层，采用所述第一子视频帧特征、所述第一子视频帧特征的时间长度、通道维度、空间长度和空间宽度计算所述每个层级一维卷积层的权重。

可选地，所述损失率计算子模块包括：

起止时间区间计算单元，用于采用所述起始时间计算起始时间区间，以及采用所述终止时间计算终止时间区间；

播放时间区间计算单元，用于基于所述播放时间计算播放时间区间；

交并比计算单元，用于计算所述播放时间区间与所述起始时间区间的第一交并比，以及计算所述播放时间区间与所述终止时间区间的第二交并比；

起始点类标标记单元，用于在所述第一交并比大于预设阈值时为所述播放时间标记起始点类标；

终止点类标标记单元，用于在所述第二交并比大于预设阈值时为所述播放时间标记终止点类标；

损失率计算单元，用于采用所述视频帧的起点概率、终点概率、起始点类标和终止点类标计算损失率。

本发明实施例所提供的视频审核模型训练方法装置可执行本发明实施例一或实施例二所述视频审核模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六提供的一种视频审核装置的结构框图，如图6所示，本发明实施例的视频审核装置具体可以包括如下模块：

待审核视频采样模块601，用于对待审核视频进行采样，获得所述待审核视频的多帧视频帧；

待审核视频帧特征提取模块602，用于将所述视频帧输入预先训练的违规图像审核模型中获得所述视频帧的视频帧特征以及所述视频帧为违规视频帧的概率；

模型预测模块603，用于将所述视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起始概率和为终止点的终点概率；

违规视频片段提取模块604，用于基于所述视频帧为违规视频片段的起点概率和终点概率确定所述待审核视频中的违规视频片段；

违规视频片段送审模块605，用于对所述违规视频片段进行审核；

其中，所述视频审核模型通过本发明实施例一或实施例二任所述的视频审核模型训练方法所训练。

可选地，所述模型预测模块603包括：

视频帧特征采样子模块，用于按照预设周期对多帧视频帧特征进行采样，获得采样后的多帧视频帧特征；

模型预测子模块，用于将采样后的多帧视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率。

可选地，所述违规视频片段提取模块604包括：

起点和终点概率序列生成子模块，用于根据所述视频帧在所述待审核视频中的播放时间、所述起点概率和终点概率，生成所述待审核视频的起点概率序列和终点概率序列；

第一起点概率和第一终点概率确定子模块，用于在所述起点概率序列中确定出概率值大于预设阈值的第一起点概率，以及在所述终点概率序列中确定出概率值大于预设阈值的第一终点概率；

初始违规视频片段确定子模块，用于基于所述第一起点概率和所述第一终点概率确定多个初始违规视频片段；

初始违规视频片段过滤子模块，用于对所述初始违规视频片段进行过滤得到最终的违规视频片段。

可选地，所述初始违规视频片段确定子模块包括：

初始违规视频片段确定单元，用于将所述第一起点概率对应的视频帧作为违规视频片段的起始帧，将位于所述起始帧之后的、所述第一终点概率对应的视频帧确定为所述违规视频片段的终止帧。

可选地，所述初始违规视频片段过滤子模块包括：

非极大值抑制单元，用于对于在播放时间上重叠的两个初始违规视频片段，通过非极大值抑制算法确定出最终的违规视频片段，和/或，

非违规视频片段去除单元，用于去掉不包含违规视频帧的初始违规视频片段，其中所述违规视频帧包括预测为违规视频帧的概率大于预设阈值的视频帧。

本发明实施例所提供的视频审核装置可执行本发明实施例三所述视频审核方法，具备执行方法相应的功能模块和有益效果。

实施例七

参照图7，示出了本发明一个示例中的一种设备的结构示意图。如图7所示，该设备具体可以包括：处理器70、存储器71、具有触摸功能的显示屏72、输入装置73、输出装置74以及通信装置75。该设备中处理器70的数量可以是一个或者多个，图7中以一个处理器70为例。该设备的处理器70、存储器71、显示屏72、输入装置73、输出装置74以及通信装置75可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例一或实施例二所述的视频审核模型训练方法对应的程序指令/模块(例如，上述实施例五的视频审核模型训练方法装置中的视频帧获取模块501、视频帧特征提取模块502和模型训练模块503)，或如本发明实施例三或实施例四所述的视频审核方法对应的程序指令/模块(例如，上述实施例六的视频审核装置中的待审核视频采样模块601、待审核视频帧特征提取模块602、模型预测模块603、违规视频片段提取模块604和违规视频片段送审模块605)。存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏72为具有触摸功能的显示屏72，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏72用于根据处理器70的指示显示数据，还用于接收作用于显示屏72的触摸操作，并将相应的信号发送至处理器70或其他装置。可选的，当显示屏72为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏72的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器70或者其他设备。

通信装置75，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置73可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置74可以包括扬声器等音频设备。需要说明的是，输入装置73和输出装置74的具体组成可以根据实际情况设定。

处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述所述的视频审核模型训练方法和/或视频审核方法。

具体地，实施例中，处理器70执行存储器71中存储的一个或多个程序时，具体实现本发明实施例提供的视频审核模型训练方法和/或视频审核方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频审核模型训练方法和/或视频审核方法。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的视频审核模型训练方法和/或视频审核方法。

值得注意的是，上述视频审核模型训练方法装置和视频审核装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频审核模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练视频的多帧视频帧，包括：

按照预设周期对训练视频进行采样，得到采样后的多帧视频帧。

3.根据权利要求1所述的方法，其特征在于，所述采用所述视频帧特征、所述起始时间和终止时间训练模型，得到视频审核模型，包括：

初始化视频审核模型的模型参数；

将所述视频帧特征输入所述视频审核模型中得到所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率；

获取所述视频帧在所述训练视频中的播放时间；

采用所述播放时间、所述起始时间和所述终止时间计算损失率；

在所述损失率未满足预设条件时，根据所述损失率调整模型参数，返回将所述视频帧特征输入所述视频审核模型中得到所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率的步骤。

4.根据权利要求3所述的方法，其特征在于，所述视频审核模型包括多个层级一维卷积层和二维卷积层，所述将所述视频帧特征输入所述视频审核模型中得到所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率，包括：

将所述视频帧特征输入多个层级一维卷积层中，获得多个层级一维卷积层输出的第一视频帧特征；

将所述第一视频帧特征输入多个层级二维卷积层中得到降维后的第二视频帧特征；

将所述第二视频帧特征输入多个层级一维卷积层中得到第三视频帧特征；

将所述第三视频帧特征输入全连接层中获得所述视频帧的起点概率和终点概率。

5.根据权利要求4所述的方法，其特征在于，所述将所述视频帧特征输入多个层级一维卷积层中，获得多个层级一维卷积层输出的第一视频帧特征，包括：

将所述视频帧特征输入多个层级一维卷积层中，获得每个层级一维卷积层输出的第一子视频帧特征；

获取所述第一子视频帧特征的特征属性数据；

采用所述特征属性数据计算每个层级一维卷积层的权重；

计算所述每个层级一维卷积层的权重和所述每个层级一维卷积层输出的第一子视频帧特征的乘积作为每个层级一维卷积层的第二子视频特征；

计算所有层级一维卷积层的第二子视频特征的和值作为多个层级一维卷积层输出的第一视频帧特征。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一子视频帧特征的特征属性数据，包括：

获取所述第一子视频帧特征的时间长度、通道维度、空间长度和空间宽度。

7.根据权利要求6所述的方法，其特征在于，所述采用所述特征属性数据计算每个层级一维卷积层的权重，包括：

针对每个层级一维卷积层，采用所述第一子视频帧特征、所述第一子视频帧特征的时间长度、通道维度、空间长度和空间宽度计算所述每个层级一维卷积层的权重。

8.根据权利要求3所述的方法，其特征在于，所述采用所述播放时间、所述起始时间和所述终止时间计算损失率，包括：

采用所述起始时间计算起始时间区间，以及采用所述终止时间计算终止时间区间；

基于所述播放时间计算播放时间区间；

计算所述播放时间区间与所述起始时间区间的第一交并比，以及计算所述播放时间区间与所述终止时间区间的第二交并比；

在所述第一交并比大于预设阈值时为所述播放时间标记起始点类标；

在所述第二交并比大于预设阈值时为所述播放时间标记终止点类标；

采用所述视频帧的起点概率、终点概率、起始点类标和终止点类标计算损失率。

9.一种视频审核方法，其特征在于，包括：

对所述违规视频片段进行审核；

其中，所述视频审核模型通过权利要求1-8任一项所述的视频审核模型训练方法所训练。

10.根权利要求9所述的方法，其特征在于，所述将所述视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起始概率和为终止点的终点概率，包括：

按照预设周期对多帧视频帧特征进行采样，获得采样后的多帧视频帧特征；

将采样后的多帧视频帧特征输入预先训练的视频审核模型中获得所述视频帧为违规视频片段的起始点的起点概率和为终止点的终点概率。

11.根据权利要求9或10所述的方法，其特征在于，所述基于所述视频帧为违规视频片段的起点概率和终点概率确定所述待审核视频中的违规视频片段，包括：

根据所述视频帧在所述待审核视频中的播放时间、所述起点概率和终点概率，生成所述待审核视频的起点概率序列和终点概率序列；

在所述起点概率序列中确定出概率值大于预设阈值的第一起点概率，以及在所述终点概率序列中确定出概率值大于预设阈值的第一终点概率；

基于所述第一起点概率和所述第一终点概率确定多个初始违规视频片段；

对所述初始违规视频片段进行过滤得到最终的违规视频片段。

12.根据权利要求11所述的方法，其特征在于，所述基于所述第一起点概率和所述第一终点概率确定多个初始违规视频片段，包括：

将所述第一起点概率对应的视频帧作为违规视频片段的起始帧，将位于所述起始帧之后的、所述第一终点概率对应的视频帧确定为所述违规视频片段的终止帧。

13.根据权利要求11所述的方法，其特征在于，所述对所述初始违规视频片段进行过滤得到最终的违规视频片段，包括：

对于在播放时间上重叠的两个初始违规视频片段，通过非极大值抑制算法确定出最终的违规视频片段，和/或，

去掉不包含违规视频帧的初始违规视频片段，其中所述违规视频帧包括预测为违规视频帧的概率大于预设阈值的视频帧。

14.一种视频审核模型训练装置，其特征在于，包括：

15.一种视频审核装置，其特征在于，包括：

16.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的视频审核模型训练方法和/或如权利要求9-13中任一项所述的视频审核方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的视频审核模型训练方法和/或如权利要求9-13中任一项所述的视频审核方法。