CN111225234B

CN111225234B - 视频审核方法、视频审核装置、设备和存储介质

Info

Publication number: CN111225234B
Application number: CN201911338418.2A
Authority: CN
Inventors: 杨睿智; 石峰; 刘振强
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-07-26
Anticipated expiration: 2039-12-23
Also published as: CN111225234A

Abstract

本发明实施例公开了一种视频审核方法、视频审核装置、设备和存储介质，视频审核方法包括：获取待审核视频的多帧视频图像；从多帧视频图像中提取违规对象得到多帧违规图像；将每帧违规图像输入预先训练的违规分类模型中，获得违规图像所包含的违规分类以及违规分类的分类得分；基于所有违规图像的违规分类和分类得分确定每个违规分类的分类总得分；根据预设审核条件和每个违规分类的分类总得分审核待审核视频。一方面，提取违规图像输入违规分类模型，使得违规分类模型专注于对违规对象进行处理，提高了视频审核的精确度，同时提取的违规图像可以作为违规惩罚的依据，另一方面，可以根据审核条件选择违规分类对视频进行审核，灵活性高。

Description

视频审核方法、视频审核装置、设备和存储介质

技术领域

本发明实施例涉及视频审核技术领域，尤其涉及一种视频审核方法、视频审核装置、设备和存储介质。

背景技术

随着互联网技术的发展，短视频、直播等各种新型用户原创内容促使互联网视频越来越丰富，但与此同时，大量包括涉恐、涉暴、色情、政治敏感等违规对象的视频也被生产并在互联网上快速传播。

目前，随着机器学习取得长足进步，机器学习被广泛应用于对视频进行自动审核，现有机器学习审核视频方法通常是将整张视频图像作为输入进行处理，需要对训练视频中的图像是否存在违规对象以及违规类别进行人工标注，然后将视频图像及人工标注信息输入到机器学习模型中进行训练，并利用训练得到的模型对视频审核。

然而，视频审核业务具有以下特点：

第一，错误的审核结果降低用户体验，甚至造成一定的法律后果，对利用机器学习进行视频审核的精确度要求较高，同时为避免造成法律后果，需要对处罚提供明确的依据，比如将视频图像中违反法律规定的违规对象进行识别并定位、提取。

第二，视频审核时，视频图像中的违规对象具有清晰的定义，例如身体暴露部位、武器枪支、烟酒、政治符号等等。

第三，违规对象具有尺度不一致性，在视频图像中，违规对象以外的区域又极富变化，例如，武器枪支在整张视频图像中的面积占比可大可小，而视频图像的其余面积可以为非违规内容，现有的图像预处理、注意力机制等机器学习技术对于处理背景多变、前景尺度不一致的画面内容具有局限性。

第四，审核业务中对于违规对象的定义规则可随时间、地域发生变化，例如，政治因素可能使特定政治符号在不同时期是否违规产生变化，不同国家对不同身体暴露部位的接受程度大不相同。

由于上述视频审核业务特点，现有机器学习对视频进行审核存在无法定位、提取违规对象造成审核精确度低以及无法根据审核条件进行灵活审核的问题。

发明内容

本发明实施例提供一种视频审核方法、视频审核装置、设备和存储介质，以解决现有技术中视频审核存在审核精确度低以及无法根据审核条件进行灵活审核的问题。

第一方面，本发明实施例提供了一种视频审核方法，包括：

获取待审核视频的多帧视频图像；

从多帧视频图像中提取违规对象得到多帧违规图像；

将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分；

基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分；

根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频。

第二方面，本发明实施例提供了一种视频审核装置，包括：

视频图像获取模块，用于获取待审核视频的多帧视频图像；

违规图像提取模块，用于从多帧视频图像中提取违规对象得到多帧违规图像；

违规分类及得分获取模块，用于将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分；

分类总得分确定模块，用于基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分；

审核模块，用于根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频。

第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任一实施例所述的视频审核方法

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所述的视频审核方法。

本发明实施例在获取待审核视频的多帧视频图像后，从多帧视频图像中提取违规对象得到多帧违规图像，并将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分，再基于所有违规图像的违规分类和分类得分确定待审核视频在每个违规分类上的分类总得分，以根据预设审核条件和每个违规分类的分类总得分审核待审核视频，一方面，提取违规对象得到违规图像，将违规图像输入违规分类模型获得违规图像所包含的违规分类和分类得分，避免了根据整张视频图像预测违规分类和分类得分导致无法定位、提取违规对象造成审核精度低的问题，使得违规分类模型专注于对违规对象进行处理，避免了非违规对象背景的干扰，提高了视频审核的精确度，同时提取的违规图像可以作为违规惩罚的依据，另一方面，提供多个违规分类，可以根据预设审核条件选择不同的违规分类对视频进行审核，审核的灵活性高。

附图说明

图1是本发明实施例一提供的一种视频审核方法的步骤流程图；

图2A是本发明实施例二提供的一种视频审核方法的步骤流程图；

图2B为本发明视频审核的一个示例的流程图；

图3是本发明实施例三提供的一种视频审核装置的结构框图；

图4是本发明实施例四提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频审核方法的步骤流程图，本发明实施例可适用于审核视频的情况，该方法可以由本发明实施的视频审核装置来执行，该视频审核装置可以由硬件或软件来实现，并集成在本发明实施例所提供的设备中，具体地，如图1所示，本发明实施例的视频审核方法可以包括如下步骤：

S101、获取待审核视频的多帧视频图像。

本发明实施例中，待审核视频可以是用户上传至直播平台、短视频平台、视频播放平台的视频，还可以是直播过程中实时录制的视频等。对于待审核视频，需要审核视频中是否存在违规对象，其中，违规对象可以是涉及恐怖、色情、身体暴露等内容，或者是与当地法律法规等不符合的政治符号等。

在获取待审核视频后，可以按照预设采样周期从待审核视频中采集多帧原始视频图像，并对多帧原始视频图像进行预处理以得到预处理后的多帧视频图像，其中，预处理可以包括图像缩放处理，即将视频图像缩放到指定的尺寸或者分辨率等，具体的，对待审核视频可以按照一定的时间间隔t进行抽帧采样，然后将抽取出的原始视频图像缩放到预定义画面尺寸，得到多帧视频图像。

当然，在实际应用中，抽帧采样的方式还可以为抽取视频中的关键帧(I帧)、或者随机采样视频帧、或者按照视频播放时间戳中的设定节点抽取视频帧等等，对视频图像的预处理还可以包括去噪、对比度增强等处理，本发明实施例对获取原始视频图像和原始视频图像的处理方式均不加以限制。

S102、从多帧视频图像中提取违规对象得到多帧违规图像。

其中，违规图像可以为只包括违规对象的图像或者大部分面积为违规对象的图像，即从包含违规对象的视频图像中截取出违规对象的图像。具体地，针对每帧视频图像，可以识别出该视频图像中的违规对象以及违规对象在视频图像中的位置，每个视频图像中违规对象的数量可以为0、1、2等，然后根据每个违规对象在视频图像中的位置截取出包含违规对象的图像作为违规图像。在本发明的可选实施例中，可以预先训练违规对象检测模型，将每帧视频图像输入违规对象检测模型中，获得每帧视频图像中所包含的违规对象以及每个违规对象在视频图像中的位置信息，然后根据位置信息可以从视频图像中截取出违规图像。

S103、将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分。

本发明实施例中，违规分类模型可以预测出违规图像中包含的违规对象所属的违规分类以及在该违规分类上的分类得分，对于一个违规对象，预测所属的违规分类可以为一个或者一个以上，每个违规分类均有一个分类得分。违规分类模型可以是预先训练的深度神经网络、卷积神经网络等神经网络，每帧违规图像经过缩放尺寸调整、去噪、对比度增强等预处理后输入至预先训练的违规分类模型中，预测出每帧违规图像所包含的违规分类以及每个违规分类的分类得分。由于输入违规分类模型中的违规图像时从视频图像中提取违规对象得到的图像，避免视频图像中富于变化的背景区域，一方面，提高了预测违规分类和分类得分的准确度，另一方面，可以定位违规对象在视频中的位置，以为违规处罚提供法律证据。

S104、基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分。

具体的，对于一个待审核视频，可以提取出多个违规图像，每个违规图像均预测出至少一个违规分类以及每个违规分类的分类得分，则可以采用所有违规图像的所有违规分类和分类得分确定待审核视频在每个违规分类上的分类总得分。在本发明的可选实施例中，可以预先训练违规得分预测模型，将所有违规分类的分类得分输入该违规得分预测模型中预测出待审核视频在每个违规分类上的分类总得分。当然，还可以针对每一违规分类，取该违规分类的最大值、次大值、中位值等作为该违规分类的分类总得分。

S105、根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频。

本发明实施例中，预设审核条件可以是根据当前时间、地域的审核规则确定的指定违规分类，在得到待审核视频在多个违规分类上的分类总得分之后，可以采用指定违规分类以及指定违规分类的分类总得分对该待审核视频进行审核，使得审核者可以灵活地制定审核规则，提高了视频审核的灵活性。

本发明实施例一方面提取违规对象得到违规图像输入违规分类模型获得违规图像所包含的违规分类和分类得分，避免了根据整张视频图像预测违规分类和分类得分导致无法定位、提取违规对象造成审核精度低的问题，使得违规分类模型专注于对违规对象进行处理，避免了非违规对象背景的干扰，提高了视频审核的精确度，同时提取的违规图像可以作为违规惩罚的依据，另一方面，提供多个违规分类，可以根据预设审核条件选择不同的违规分类对视频进行审核，审核的灵活性高。

实施例二

图2A为本发明实施例二提供的一种视频审核方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2A所示，本发明实施例的视频审核方法可以包括如下步骤：

S201、获取待审核视频的多帧视频图像。

S202、将每帧视频图像输入预先训练的违规检测模型中，获得每帧视频图像中违规对象的违规信息。

在本发明实施例中，可以预先训练违规检测模块，该违规检测模型可以检测出视频图像中的违规对象以及该违规对象的违规信息，具体地，可以通过以下方法训练违规检测模型：

获取训练视频图像，该训练视频图像包括违规对象以及标注有违规对象的第一位置，将训练视频图像输入初始化的违规检测模型中以预测出训练视频图像中违规对象的第二位置，采用第一位置和第二位置计算损失率；若损失率未满足预设条件，则采用损失率计算梯度，并基于梯度和预设的学习率对违规检测模型进行反向传播以调整违规检测模型的模型参数，返回将训练图像输入初始化的违规检测模型中以预测出训练图像中违规对象的第二位置的步骤。

其中，训练视频图像的来源可以是但不仅限于从互联网短视频或互联网直播视频流中采样得到的图像，对于每帧训练视频图像，根据训练视频图像中的内容对该训练视频图像进行标注，标注的标签信息为训练视频图像中所有违规对象的位置信息，违规对象可以包括但不限于特定的身体暴露部位、武器枪支、烟酒、政治符号等。在标注时，可以对在不同的时间、地域可能规定的违规对象均进行标注，使得违规检测模型具有检测出所有违规对象的能力。

本发明实施例中，违规检测模型可以为DNN模型，DNN模型是一种深度神经网络，DNN模型能够从视频图像的像素信息提取特征并进行相关信息的预测。在初始化DNN模型的模型参数后输入训练视频图像，通过多层神经元之间的非线性映射得到提取后的特征，然后检测出训练视频图像中的违规对象、违规对象的违规信息，该违规信息可以包括违规对象的位置信息，通过该位置信息和训练视频图像中标注的位置信息进行比较来计算模型的损失率，其中，损失函数可以为任意定义的损失函数，直到损失率达到一定阈值或者训练的迭代次数达到预设次数，从而使得模型能够较为准确的检测出违规物体及其是否为违规物体的得分，如果损失率未满足预设条件，则采用损失率计算梯度，例如，可以采用损失率和随机梯度下降(stochastic gradient descent，SGD)或其变种(如Adam，RMSprop)计算梯度，并基于计算得到的梯度和预设的学习率对违规检测模型进行反向传播，以在反向传播时调整模型的模型参数，并返回将训练视频图像输入DNN模型的步骤，直到损失率小于预设值或者迭代次数大于预设次数。

当然，违规检测模型还可以是Xgboost、支持向量机、随机森林等模型，本发明实施例对违规检测模型的模型类型不加以限制。

将每帧视频图像输入预先训练的违规检测模型中后，违规检测模型可以输出每帧视频图像中所包含的违规对象以及该违规对象的违规信息，其中，违规信息可以包括位置信息和违规得分，位置信息可以为违规对象在视频图像中的位置，违规得分可以是视频图像中包含某一违规对象的概率。

S203、针对每帧视频图像，基于所述违规信息从所述视频图像中提取违规对象得到多帧违规图像。

在本发明的可选实施例中，违规信息包括违规对象的位置信息和违规得分，针对每帧视频图像可以确定出违规得分大于预设阈值的违规对象，根据位置信息从视频图像中提取包含违规得分大于预设阈值的违规对象得到违规图像。

具体地，由于违规得分可以是视频图像中包含某一违规对象的概率，则可以将违规得分小于预设阈值的违规对象剔除，对于违规得分大于预设阈值的违规对象，可以获取其位置信息，该位置信息可以为矩形框的对角顶点的在视频图像中的坐标信息，该矩形框为能够包含违规对象的最小矩形框，从视频图像中截取该矩形框的区域得到的图像即得到违规图像，从一帧视频图像中可以截取出0个、1个或1个以上的违规图像。

S204、对所述违规图像进行预处理，得到预处理后的违规图像。

具体地，可以将违规图像进行缩放处理得到指定尺寸大小的违规图像，当然，预处理还可以包括去噪、对比度增强等预处理。

S205、将预处理后的违规图像输入违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分。

在本发明实施例中，违规分类模型可以预测出违规图像中所包含的违规对象所属的违规分类以及属于各个违规分类的分类得分，本发明实施例中可以通过以下方式预先训练违规分类模型：

获取训练违规图像，训练违规图像标注有训练违规图像所包含的违规对象的违规分类，将训练违规图像输入初始化的违规分类模型中以预测出所述训练违规图像所包含的违规对象的不同违规分类以及各个违规分类下的分类得分，采用不同违规分类、各个违规分类下的分类得分以及训练违规图像中标注的违规分类求交叉熵得到分类损失率，若分类损失率未满足预设条件，则采用分类损失率计算梯度，基于梯度和预设的学习率对违规分类模型进行反向传播以调整违规分类模型的模型参数，返回将训练违规图像输入初始化的违规分类模型中以预测出训练违规图像所包含的违规对象的不同违规分类以及各个违规分类下的分类得分的步骤。

其中，训练用的违规图像可以是但不仅限于从互联网短视频或互联网直播视频流中采样、截取违规对象后得到的图像，对每一帧训练违规图像，标注的是违规对象所属的违规分类，违规分类可以包括但不限于特定的身体暴露部位、武器枪支、烟酒、政治符号等。在标注违规分类时，可以对在不同的时间、地域可能存在违规的类别均进行标注，使得违规分类模型具有识别出所有违规分类的能力。

本发明实施例中，违规分类模型可以为DNN模型，训练时首先初始化DNN模型的模型参数，然后通过神经元之间的非线性映射将违规图像的像素信息融合在一起，并通过一个Softmax回归层得到违规对象在不同违规分类下的分类得分，然后通过不同违规分类下的分类得分和标注的违规分类求交叉熵得到DNN模型的分类损失率，通过分类损失率计算梯度，采用梯度和预设的学习率反向传播以调整DNN模型的模型参数，并返回将训练违规图像输入违规分类模型的步骤，直到模型迭代到分类损失率小于预设阈值或是迭代次数达到预设次数为止。

当然，本发明实施例的违规分类模型还可以是无监督的检测模型或实例分割模型，CNN模型等，本发明示例对违规分类模型的模型类型不加以限制。

对于每个违规图像，可以将预处理后的违规图像输入违规分类模型中预测出每帧违规图像所包含的违规分类以及各个违规分类的分类得分，其中，每个违规图像所包含的违规分类可以为一个或一个以上，每个违规分类具有相应的分类得分，分类得分表达了违规图像所包含的违规对象属于某一个违规分类的概率，分类得分越高，违规图像所包含的违规对象属于某一违规分类的可能性越高。

S206、将所有违规分类的分类得分输入预先训练的违规得分预测模型中，得到所述待审核视频在每个违规分类上的总得分。

在实际应用中，一个待审核视频可以提取出多个违规图像，每个违规图像均预测出至少一个违规分类以及每个违规分类的分类得分，则可以采用所有违规图像的所有违规分类和分类得分确定待审核视频在每个违规分类上的分类总得分。

在本发明实施例，可以通过预先训练的违规得分预测模型预测待审核视频在每个违规分类上的总得分，其中，违规得分预测模型训练过程如下：

构建训练数据，训练数据包括训练视频和训练视频包含的违规分类以及每个违规分类的第一分类总得分，将所有违规分类的分类得分输入初始化的违规得分预测模型中以获得训练视频在每个违规分类的第二分类总得分，采用第一分类总得分和第二分类总得分计算损失率，若损失率未满足预设条件，则采用损失率计算梯度，基于梯度和预设的学习率对违规得分预测模型进行反向传播以调整违规得分预测模型的模型参数，返回将所有违规分类的分类得分输入初始化的违规得分预测模型中以获得训练视频在每个违规分类的第二分类总得分的步骤，直到损失率小于预设条件，例如小于预设阈值。

具体地，违规得分预测模型可以为DNN模型、CNN模型、Xgboost、支持向量机、随机森林等模型，在初始化模型参数后，输入训练视频的所有违规分类的分类得分得到训练视频在每个违规分类的第二分类总得分，基于预设损失函数(MSE均方误差损失函数、SVM合页损失函数、Cross Entropy交叉熵损失函数)、标注的第一分类总得分以及第二分类总得分计算损失率，并采用预设梯度(如SGD、Adam、RMSprop等)和损失率计算梯度，基于梯度和预设的学习率对模型反向传播以调整模型参数后对模型重新迭代，直到损失率小于预设阈值或者迭代次数达到设定的次数。

在获得待审核视频的所有违规分类的分类得分后，可以将所有违规分类的分类得分输入预先训练的违规得分预测模型中，得到待审核视频在每个违规分类上的总得分。

在本发明的另一实施例中，针对每个违规分类，还可以确定该违规分类的分类得分中的最大值、次大值、中间值、最小值中的一项作为待审核视频在每个违规分类上的分类总得分，例如，违规分类为枪支弹药，属于枪支弹药这一违规分类的违规图像有5个，5个违规图像在枪支弹药这一违规分类的分类得分分别为0.08、0.02、0.09、0.1、0.00，则可以从5个分类得分中确定出最大值、次大值、中间值、最小值中的一个作为待审核视频在枪支弹药这一违规分类的分类总得分，当然也可以对某一违规分类取均值、方差、求和作为该违规分类的分类总得分。通过确定分类得分中的最大值、次大值、中间值、最小值中的一项作为待审核视频在每个违规分类上的分类总得分，方案简单，计算量小，能够提高确定分类总得分的效率。

S207、从所有违规分类中确定出至少一个指定违规分类的分类总得分审核所述待审核视频。

在本发明实施例中，可以设置审核条件，该审核条件可以根据时间、地域等不同设置各个违规分类是否生效，如对于枪支弹药，在某些国家或者地区属于生效的违规分类，而在于其他国家或者地区属于未生效的违规分类，即预设审核条件包括至少一个指定违规分类，在对待审核视频审核时，可以去掉为非指定违规分类的分类总得分，根据指定违规分类的分类总得分对待审核视频审核，并且在指定违规分类的分类总得分大于预设阈值时，确定待审核视频为违规视频。

例如，对于发布至国家A的短视频，得到各个违规分类的分类总得分后，可以根据去掉不属于国家A的指定违规分类，采用国家A的指定违规分类对该短视频进行审核，如果指定违规分类的分类总得分大于预设阈值，确定该短视频在国家A属于违规视频，驳回该短视频发布至国家A。

为了使得本领域技术人员更清楚地理解本发明的视频审核方法，以下结合图2B对本发明实施例的视频审核方法进行实例说明，如图2B所示，本实例的视频审核方法包括以下步骤：

S1、获取视频图像。

在本示例中，以从待审核视频获取5个视频图像为示例。

S2、提取违规图像。

例如，通过违规检测模型从视频图像1提取到违规图像1，从视频图像2提取到违规图像2，从视频图像4提取到违规图像3。

S3、获得违规图像的违规分类和分类得分。

在本实例中，违规分类包括：身体暴露、武器枪支、烟酒以及政治符号共4个违规分类，可以通过违规分类模型分别预测违规图像1、违规图像2和违规图像3在上述4个违规分类的分类得分如下：

违规图像1：

身体暴露得分为0.00，武器枪支得分0.01，烟酒得分为0.00，政治符号得分为0.99；

违规图像2：

身体暴露得分为0.00，武器枪支得分0.08，烟酒得分为0.00，政治符号得分为0.92；

违规图像3：

身体暴露得分为0.00，武器枪支得分0.00，烟酒得分为0.01，政治符号得分为0.99。

S4、获得待审核视频的违规分类和分类总得分。

本实例可以将违规图像1、违规图像2和违规图像3的所有分类得分输入分类得分预测模型中，获得待审核视频的违规分类以及每个违规分类的分类总得分。如图2B所示，待审核视频的违规分类以及违规分类总得分如下：

待审核视频：

身体暴露得分为0.00，武器枪支得分0.01，烟酒得分为0.00，政治符号得分为0.99。

S5、根据审核条件调整待审核视频的违规分类和分类总得分。

本示例中，设置审核条件为：身体暴露和政治符号这两个违规分类属于指定的违规分类，而武器枪支和烟酒这两个违规分类不属于指定的违规分类，去掉武器枪支和烟酒这两个违规分类，采用身体暴露和政治符号这两个违规分类对待审核视频进行审核，审核得到结果为：政治符号的违规分类的分类总得分为0.99，大于预设阈值0.7，返回视频设计敏感政治信息等审核信息。

本发明实施例将从待审核视频的获取的多帧视频图像输入预先训练的违规检测模型中获得每帧视频图像中违规对象的违规信息，并根据违规信息提取每帧视频图像中的违规图像，将预处理后的违规图像输入违规分类模型中获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分，将所有违规分类的分类得分输入预先训练的违规得分预测模型中得到待审核视频在每个违规分类上的总得分，从所有违规分类中确定出至少一个指定违规分类的分类总得分审核待审核视频。一方面通过违规检测模型获得违规对象的违规信息后，根据违规信息提取违规对象得到违规图像，将违规图像输入违规分类模型获得违规图像所包含的违规分类和分类得分，避免了根据整张视频图像预测违规分类和分类得分导致无法定位、提取违规对象造成审核精度低的问题，使得违规分类模型更专注于对违规对象的处理，避免了非违规对象背景的干扰，提高了预测违规分类和分类得分的准确度，进而能够提高视频审核的精确度，同时提取的违规图像可以作为违规惩罚的依据，另一方面，提高多个违规分类，可以根据预设审核条件选择指导的违规分类对视频进行审核，审核的灵活性高。

实施例三

图3是本发明实施例三提供的一种视频审核装置的结构框图，如图3所示，本发明实施例的视频审核装置具体可以包括如下模块：

视频图像获取模块301，用于获取待审核视频的多帧视频图像；

违规图像提取模块302，用于从多帧视频图像中提取违规对象得到多帧违规图像；

违规分类及得分获取模块303，用于将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分；

分类总得分确定模块304，用于基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分；

审核模块305，用于根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频。

可选地，所述视频图像获取模块301包括：

视频图像采样子模块，用于按照预设采样周期从待审核视频中采集多帧原始视频图像；

视频图像处理子模块，用于对多帧原始视频图像进行预处理，得到预处理后的多帧视频图像；

其中，所述预处理包括图像缩放处理。

可选地，所述违规图像提取模块302包括：

违规信息获取子模块，用于将每帧视频图像输入预先训练的违规检测模型中，获得每帧视频图像中违规对象的违规信息；

违规图像提取子模块，用于针对每帧视频图像，基于所述违规信息从所述视频图像中提取违规对象得到多帧违规图像。

可选地，所述违规信息包括违规对象的位置信息和违规得分，所述违规图像提取子模块包括：

违规对象确定单元，用于针对每帧视频图像，确定出违规得分大于预设阈值的违规对象；

违规图像提取单元，用于根据所述位置信息从所述视频图像中提取包含违规得分大于预设阈值的违规对象得到违规图像。

可选地，所述违规检测模型通过违规检测模型训练模块训练，所述违规检测模型训练模块：

训练视频图像获取模块，用于获取训练视频图像，所述训练视频图像包括违规对象以及标注有所述违规对象的第一位置；

第二位置预测模块，用于将所述训练视频图像输入初始化的违规检测模型中以预测出所述训练视频图像中所述违规对象的第二位置；

违规检测模型损失率计算模块，用于采用所述第一位置和所述第二位置计算损失率；

违规检测模型梯度计算模块，用于若所述损失率未满足预设条件，则采用所述损失率计算梯度；

违规检测模型调整模块，用于基于所述梯度和预设的学习率对所述违规检测模型进行反向传播以调整所述违规检测模型的模型参数，返回第二位置预测模块。

可选地，所述违规分类及得分获取模块303包括：

违规图像预处理子模块，用于对所述违规图像进行预处理，得到预处理后的违规图像；

违规分类及得分获取子模块，用于将预处理后的违规图像输入违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分。

可选地，所述违规分类模型通过违规分类模型训练模块训练，所述违规分类模型训练模块包括：

训练违规图像获取模块，用于获取训练违规图像，所述训练违规图像标注有所述训练违规图像所包含的违规分类；

违规分类及得分预测模块，用于将所述训练违规图像输入初始化的违规分类模型中以预测出所述训练违规图像所包含的不同违规分类以及各个违规分类下的分类得分；

违规分类模型损失率计算模块，用于采用所述不同违规分类、各个违规分类下的分类得分以及所述训练违规图像中标注的违规分类求交叉熵得到分类损失率；

违规分类模型梯度计算模块，用于若所述分类损失率未满足预设条件，则采用所述分类损失率计算梯度；

违规分类模型调整模块，用于基于所述梯度和预设的学习率对所述违规分类模型进行反向传播以调整所述违规分类模型的模型参数，返回违规分类及得分预测模块。

可选地，所述分类总得分确定模块304包括：

总得分预测子模块，用于将所有违规分类的分类得分输入预先训练的违规得分预测模型中，得到所述待审核视频在每个违规分类上的总得分。

可选地，所述违规得分预测模型通过违规得分预测模型训练模块训练，所述违规得分预测模型训练模块包括：

训练数据构建模块，用于构建训练数据，所述训练数据包括训练视频和所述训练视频包含的违规分类以及每个违规分类的第一分类总得分；

第二分类总得分预测模块，用于将每个违规分类的分类得分输入初始化的违规得分预测模型中以获得所述训练视频在每个违规分类的第二分类总得分；

违规得分预测模型损失率计算模块，用于采用所述第一分类总得分和所述第二分类总得分计算损失率；

违规得分预测模型梯度计算模块，用于若所述损失率未满足预设条件，则采用所述损失率计算梯度；

违规得分预测模型调整模块，用于基于所述梯度和预设的学习率对所述违规得分预测模型进行反向传播以调整所述违规得分预测模型的模型参数，返回第二分类总得分预测模块。

可选地，所述违规分类及得分获取模块303包括：

分类总得分确定子模块，用于针对每个违规分类，确定所述违规分类的分类得分中的最大值、次大值、中间值、最小值中的一项作为所述待审核视频在每个违规分类上的分类总得分。

可选地，所述预设审核条件包括至少一个指定违规分类，所述审核模块305包括：

审核子模块，用于从所有违规分类中确定出至少一个指定违规分类的分类总得分审核所述待审核视频。

可选地，所述审核子模块包括：

违规视频确定单元，用于在所述分类总得分大于预设阈值时，确定所述待审核视频为违规视频。

本发明实施例所提供的视频审核装置可执行本发明实施例一、实施例二所提供的视频审核方法，具备执行方法相应的功能模块和有益效果。

实施例四

参照图4，示出了本发明一个示例中的一种设备的结构示意图。如图4所示，该设备具体可以包括：处理器40、存储器41、具有触摸功能的显示屏42、输入装置43、输出装置44以及通信装置45。该设备中处理器40的数量可以是一个或者多个，图4中以一个处理器40为例。该设备的处理器40、存储器41、显示屏42、输入装置43、输出装置44以及通信装置45可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例一到实施例二所述的视频审核方法对应的程序指令/模块(例如，上述实施例三的视频审核装置中的视频图像获取模块301、违规图像提取模块302、违规分类及得分获取模块303和分类总得分确定模块304)。存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器40可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏42为具有触摸功能的显示屏42，其可以是电容屏、电磁屏或者红外屏。一般而言，显示屏42用于根据处理器40的指示显示数据，还用于接收作用于显示屏42的触摸操作，并将相应的信号发送至处理器40或其他装置。可选的，当显示屏42为红外屏时，其还包括红外触摸框，该红外触摸框设置在显示屏42的四周，其还可以用于接收红外信号，并将该红外信号发送至处理器40或者其他设备。

通信装置45，用于与其他设备建立通信连接，其可以是有线通信装置和/或无线通信装置。

输入装置43可用于接收输入的数字或者字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置44可以包括扬声器等音频设备。需要说明的是，输入装置43和输出装置44的具体组成可以根据实际情况设定。

处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述视频审核方法。

具体地，实施例中，处理器40执行存储器41中存储的一个或多个程序时，具体实现本发明实施例提供的视频审核方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频审核方法。

需要说明的是，对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的视频审核方法。

值得注意的是，上述视频审核装置中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频审核方法，其特征在于，包括：

获取待审核视频的多帧视频图像；

通过预先训练的违规检测模型从多帧视频图像中提取违规对象得到多帧违规图像；

根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频；

所述违规检测模型通过以下方式训练：

获取训练视频图像，所述训练视频图像包括违规对象以及标注有所述违规对象的第一位置；

将所述训练视频图像输入初始化的违规检测模型中以预测出所述训练视频图像中所述违规对象的第二位置；

采用所述第一位置和所述第二位置计算损失率；

若所述损失率未满足预设条件，则采用所述损失率计算梯度；

基于所述梯度和预设的学习率对所述违规检测模型进行反向传播以调整所述违规检测模型的模型参数，返回将所述训练视频图像输入初始化的违规检测模型中以预测出所述训练视频图像中所述违规对象的第二位置的步骤。

2.根据权利要求1所述的方法，其特征在于，所述获取待审核视频的多帧图像，包括：

按照预设采样周期从待审核视频中采集多帧原始视频图像；

对多帧原始视频图像进行预处理，得到预处理后的多帧视频图像；

其中，所述预处理包括图像缩放处理。

3.根据权利要求1所述的方法，其特征在于，所述从多帧视频图像中提取违规对象得到多帧违规图像，包括：

将每帧视频图像输入预先训练的违规检测模型中，获得每帧视频图像中违规对象的违规信息；

针对每帧视频图像，基于所述违规信息从所述视频图像中提取违规对象得到多帧违规图像。

4.根据权利要求3所述的方法，其特征在于，所述违规信息包括违规对象的位置信息和违规得分，所述针对每帧视频图像，基于所述违规信息从所述视频图像中提取违规对象得到多帧违规图像，包括：

针对每帧视频图像，确定出违规得分大于预设阈值的违规对象；

根据所述位置信息从所述视频图像中提取包含违规得分大于预设阈值的违规对象得到违规图像。

5.根据权利要求1所述的方法，其特征在于，所述将每帧违规图像输入预先训练的违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分，包括：

对所述违规图像进行预处理，得到预处理后的违规图像；

将预处理后的违规图像输入违规分类模型中，获得每帧违规图像所包含的违规分类以及各个违规分类的分类得分。

6.根据权利要求1所述的方法，其特征在于，所述基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分，包括：

将所有违规分类的分类得分输入预先训练的违规得分预测模型中，得到所述待审核视频在每个违规分类上的总得分。

7.根据权利要求6所述的方法，其特征在于，所述违规得分预测模型通过以下方式训练：

构建训练数据，所述训练数据包括训练视频和所述训练视频包含的违规分类以及每个违规分类的第一分类总得分；

将每个违规分类的分类得分输入初始化的违规得分预测模型中以获得所述训练视频在每个违规分类的第二分类总得分；

采用所述第一分类总得分和所述第二分类总得分计算损失率；

基于所述梯度和预设的学习率对所述违规得分预测模型进行反向传播以调整所述违规得分预测模型的模型参数，返回将每个违规分类的分类得分输入初始化的违规得分预测模型中以获得所述训练视频在每个违规分类的第二分类总得分的步骤。

8.根据权利要求1所述的方法，所述基于所有违规图像的所述违规分类和所述分类得分确定所述待审核视频在每个违规分类上的分类总得分，包括：

针对每个违规分类，确定所述违规分类的分类得分中的最大值、次大值、中间值、最小值中的一项作为所述待审核视频在每个违规分类上的分类总得分。

9.根据权利要求1所述的方法，其特征在于，所述预设审核条件包括至少一个指定违规分类，所述根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频，包括：

从所有违规分类中确定出至少一个指定违规分类的分类总得分审核所述待审核视频。

10.根据权利要求9所述的方法，其特征在于，所述从所有违规分类中确定出至少一个指定违规分类的分类总得分审核所述待审核视频，包括：

在所述分类总得分大于预设阈值时，确定所述待审核视频为违规视频。

11.一种视频审核方法，其特征在于，包括：

获取待审核视频的多帧视频图像；

从多帧视频图像中提取违规对象得到多帧违规图像；

所述违规分类模型通过以下方式训练：

获取训练违规图像，所述训练违规图像标注有所述训练违规图像所包含的违规分类；

将所述训练违规图像输入初始化的违规分类模型中以预测出所述训练违规图像所包含的不同违规分类以及各个违规分类下的分类得分；

采用所述不同违规分类、各个违规分类下的分类得分以及所述训练违规图像中标注的违规分类求交叉熵得到分类损失率；

若所述分类损失率未满足预设条件，则采用所述分类损失率计算梯度；

基于所述梯度和预设的学习率对所述违规分类模型进行反向传播以调整所述违规分类模型的模型参数，返回将所述训练违规图像输入初始化的违规分类模型中以预测出所述训练违规图像所包含的不同违规分类以及各个违规分类下的分类得分的步骤。

12.一种视频审核装置，其特征在于，包括：

视频图像获取模块，用于获取待审核视频的多帧视频图像；

违规图像提取模块，用于通过预先训练的违规检测模型从多帧视频图像中提取违规对象得到多帧违规图像；

审核模块，用于根据预设审核条件和每个违规分类的分类总得分审核所述待审核视频；

所述违规检测模型通过违规检测模型训练模块训练，所述违规检测模型训练模块包括：

13.一种视频审核装置，其特征在于，包括：

视频图像获取模块，用于获取待审核视频的多帧视频图像；

所述违规分类模型通过违规分类模型训练模块训练，所述违规分类模型训练模块包括：

14.一种视频审核设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一项所述的视频审核方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11任一项所述的视频审核方法。