CN117541963A

CN117541963A - 包含文本风险的关键视频帧提取方法及装置

Info

Publication number: CN117541963A
Application number: CN202311551451.XA
Authority: CN
Inventors: 武文琦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-09

Abstract

本说明书一个或多个实施例公开了一种包含文本风险的关键视频帧提取方法及装置。所述方法包括：对输入视频进行特征提取，得到输入视频的时空信息特征；基于分类网络模型和输入视频的时空信息特征，对输入视频的每一帧视频帧进行打分判断，得到输入视频的每一帧视频帧的第一分数结果；在输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列；基于文本视频帧序列的相邻两帧视频帧之间的文本相似度，从文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于输入视频和目标视频帧序列，确定输入视频的每一帧视频帧的第二分数结果；基于第一分数预测结果和第二分数预测结果，从输入视频中确定包含文本信息的关键视频帧。

Description

包含文本风险的关键视频帧提取方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种包含文本风险的关键视频帧提取方法及装置。

背景技术

近年来随着移动互联网的发展，存量和在线生成的视频量级在迅速增加。与此同时，人们对自己的隐私数据越来越重视，隐私视频的不当泄露造成当事人的财产和精神损失。巨量的视频文件中往往存在包含风险文本的图像内容，因此需要对于视频中包含风险文本的图像内容进行全量召回。

相关技术中，通过判断相邻两帧视频帧的相似性来判定包含文本风险的视频帧。然而，由于该方式中提取的是图像全局特征，对文字信息不够敏感。因此，目前亟需提供更准确的包含文本风险的视频帧提取方案。

发明内容

一方面，本说明书一个或多个实施例提供一种包含文本风险的关键视频帧提取方法，包括：对输入视频进行特征提取，得到所述输入视频的时空信息特征。基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

另一方面，本说明书一个或多个实施例提供一种包含文本风险的关键视频帧提取装置，包括：特征提取模块，对输入视频进行特征提取，得到所述输入视频的时空信息特征。第一分数结果获取模块，基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。文本视频帧序列生成模块，在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。第二分数结果获取模块，基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。关键视频帧确定模块，基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

再一方面，本说明书一个或多个实施例提供一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，在所述可执行指令被执行时，能够使得所述处理器：对输入视频进行特征提取，得到所述输入视频的时空信息特征。基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的视频帧。

再一方面，本说明书实施例提供一种存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现以下流程：对输入视频进行特征提取，得到所述输入视频的时空信息特征。基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率。基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本说明书一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图2是根据本说明书另一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图3是根据本说明书另一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图4是根据本说明书另一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图5是根据本说明书另一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图6是根据本说明书另一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图；

图7是根据本说明书一实施例的一种包含文本风险的关键视频帧提取装置的示意性框图；

图8是根据本说明书一实施例的一种电子设备的示意性框图。

具体实施方式

本说明书一个或多个实施例提供一种包含文本风险的关键视频帧提取方法及装置，以解决提取的全局特征对文字信息不敏感，无法对文本风险进行去重和召回的问题。

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书一个或多个实施例保护的范围。

在内容安全领域，随着视频数量的快速增加，需要快速精准的对网络视频内容进行净化，也即需要对视频中包含文本风险的图像内容进行全量召回。然而，在所有的风险召回中，包含文本信息的图像的召回难度较大。视频流量量级增加后，需要去除内容重复的视频帧的同时感知包含文本风险的视频帧。第一种实现方式是采用平均截帧方案提取视频中包含文本风险的视频帧。但该方式对于视频内容不具备分析能力，会遗漏部分包含文本风险的视频帧，是相对低效的提取方式。第二种实现方式是通过判断相邻两帧视频帧的图像的相似性来确定包含文本风险的关键帧。该方案由于提取视频帧的图像全局特征，对于只占图像中很小区域的文字变化并不敏感，因此无法对文本类风险进行很好的召回和去重。为此，本说明书实施例提供一种包含文本风险的关键视频帧提取方法及装置，对输入视频的视频帧通过两种判断策略综合确定该视频帧是否为包含文本风险的关键视频帧，对输入视频提取时空信息特征后通过分类网络模型进行打分判断，获得该种策略下的该视频帧为包含文本风险的关键视频帧概率。对输入视频的视频帧剔除不包含文本信息的视频帧后，对相邻视频帧判定文本相似性，从而得到该种策略下的该视频帧为包含文本风险的关键视频帧概率。下面进行详细说明。

图1是根据本说明书一实施例的一种包含文本风险的关键视频帧提取方法的示意性流程图，如图1所示，该方法可以包括：

S102，对输入视频进行特征提取，得到输入视频的时空信息特征。

基于卷积网络对输入视频进行特征提取，具体地，空间卷积网络提取输入视频的空间特征，空间卷积网络对输入视频的视频帧进行图像卷积操作，通过时序卷积网络提取输入视频的时序特征。将获取的空间特征与时序特征按照特征层进行特征融合处理，得到输入视频的时空信息特征。

S104，基于预先训练的分类网络模型和输入视频的时空信息特征，对输入视频的每一帧视频帧进行打分判断，得到输入视频的每一帧视频帧的第一分数结果，第一分数结果用于表征输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

通过对训练视频的每一帧视频帧进行标注标签训练分类网络模型，标签包括该视频帧是否包含文本信息，该视频帧是否与该视频帧的前后视频帧为重复视频帧等。将训练好的分类网络模型对输入视频的时空信息特征进行打分判断，分类网络模型的输出值判断该视频帧为包含文本风险的视频帧的概率，从而得到第一分数结果。

S106，在输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。

对视频帧序列的每一帧视频帧是否包含文本信息进行判断，在输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。

S108，基于文本视频帧序列的相邻两帧视频帧之间的文本相似度，从文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于输入视频和目标视频帧序列，确定输入视频的每一帧视频帧的第二分数结果，第二分数结果用于表征输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

对文本视频帧序列的相邻两帧视频帧进行文本相似度判断，如果两帧视频帧包含的文本信息没有重复，则将两帧视频帧进行保留，否则剔除掉两帧视频帧中的一帧视频帧，直至剔除掉文本视频帧序列中包含的文本信息重复的视频帧，得到目标视频帧序列。显然地，目标视频帧序列的每一帧视频帧为包含文本信息且不与前后视频帧重复的视频帧的概率偏大，输入视频的视频帧序列中不包含在目标视频帧序列中的剩余视频帧为包含文本信息且不与前后视频帧重复的视频帧的概率较小。基于此，确定输入视频的每一帧视频帧的第二分数结果，第二分数结果用于确定输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

S110，基于第一分数预测结果和第二分数预测结果，从输入视频中确定包含文本信息的关键视频帧。

采用本说明书一个或多个实施例的技术方案，对输入视频的视频帧通过两种判断策略综合确定该视频帧是否为包含文本风险的关键视频帧，对输入视频提取时空信息特征后通过分类网络模型进行打分判断，获得该种策略下的该视频帧为包含文本风险的关键视频帧概率。对输入视频的视频帧剔除不包含文本信息的视频帧后，对相邻视频帧判定文本相似性，从而得到该种策略下的该视频帧为包含文本风险的关键视频帧概率。该技术方案对输入视频从文本相似度以及内容安全风险召回的角度实现关键视频帧的提取，即剔除掉包含相同文本信息的视频帧以及没有文本风险的视频帧，从而降低视频风险处理成本。

在一个实施例里，对输入视频进行特征提取，得到输入视频的时空信息特征，包括：基于3D卷积网络对输入视频进行特征提取，得到输入视频的每一帧视频帧的时空信息特征。

在一个实施例里，如图2所示，对输入视频进行特征提取，得到输入视频的时空信息特征(即S102)，可以执行为如下S1022-S1026：

S1022，对输入视频进行视频拆帧处理，得到输入视频的视频帧序列，基于2D卷积网络对视频帧序列的每一帧视频帧进行特征提取，得到视频帧序列的每一帧视频帧的第一输出特征。

将输入视频进行拆帧操作，每隔固定帧率抽选一帧图像得到视频帧序列，实际应用中帧率可以是10，20，30，具体的帧率因场景的不同而选择不同数值。基于2D卷积网络对视频帧序列的每一帧视频帧进行特征提取，可选地，视频帧序列的每一帧视频帧依次经过两个结构相同的2D卷积网络进行特征提取，得到视频帧序列的每一帧视频帧的第一输出特征。

S1024，对输入视频与视频帧序列的每一帧视频帧的第一输出特征进行对应视频帧的特征融合处理，得到融合视频。

对输入视频和视频帧序列的每一帧视频帧的第一输出特征进行对应视频帧的特征相加融合，得到融合视频，再作为一个三维视频输入到3D卷积网络进行特征提取。

S1026，基于3D卷积网络对融合视频进行特征提取，得到每一帧视频帧的时空信息特征。

可选地，选择三个结构相同的3D卷积网络串行连接，将融合视频作为第一个3D卷积网络的输入，依次经过三个3D卷积网络进行特征提取，得到输入视频的每一帧视频帧的时空信息特征。

该技术方案对于输入视频先经过两个2D卷积网络后再经过三个3D卷积网络进行特征提取，该框架可以充分提取输入视频中的时空信息，从而得到更加鲁棒的特征。选择两个2D卷积网络能够增加网络深度，使得2D卷积网络提取的特征更具有非线性。选择三个3D卷积网络同样能够增加网络深度，使得3D卷积网络提取到的特征更具有非线性。

在一个实施例中，如图3所示，对输入视频进行视频拆帧，得到输入视频的视频帧序列，基于2D卷积网络对视频帧序列的每一帧视频帧进行特征提取，得到视频帧序列的每一帧视频帧的第一输出特征(即S1022)，可以执行为如下S202-S208：

S202，基于空间卷积网络对视频帧序列的每一帧视频帧进行卷积处理，得到空间输出特征。

空间卷积网络对视频帧序列的每一帧视频帧进行卷积计算，输出是128*128大小的64维特征。

S204，对输入视频进行光流计算得到时序光流。

S206，基于时序卷积网络对时序光流进行卷积处理，得到时序输出特征。

时序卷积网络对时序光流进行特征提取，输出同样是128*128大小的64维特征。

S208，对空间输出特征和时序输出特征按照特征层进行特征融合，得到视频帧序列的每一帧视频帧的第一输出特征。

可选地，空间输出特征和时序输出特征进行特征融合处理，特征融合采用等权重特征相加，得到视频帧序列的每一帧视频帧的第一输出特征。

在一个实施例里，基于预先训练的分类网络模型和输入视频的时空信息特征，对输入视频的每一帧视频进行打分判断，包括：

基于敏感区域增强网络对输入视频的时空信息特征进行特征提取，得到输入视频的高层特征数据。敏感区域增强网络通过Attent ion模块来完成对输入视频的时空信息特征的高层特征提取，Attent ion模块对输入视频的时空信息特征的进一步高层特征提取能够增强文本敏感区域的特征聚合效果。

基于预先训练的分类网络模型对输入视频的高层特征数据进行打分判断，得到输入视频的每一帧视频帧的第一分数结果，第一分数结果用于表征输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

在一个实施例里，如图4所示，在输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列(即S106)步骤之前，还包括：

S602，对输入视频的每一帧视频帧进行特征提取，得到输入视频的每一帧视频帧的特征数据。

通过卷积网络对输入视频的每一帧视频帧进行特征提取，得到输入视频的每一帧视频帧的特征数据。

S604，基于敏感区域增强网络对每一帧视频帧的特征数据进行特征识别处理，得到每一帧视频帧的高层特征数据。

基于敏感区域增强网络对每一帧视频帧的特征数据进行特征识别，得到输入视频的每一帧视频帧的高层特征数据。敏感区域增强网络通过直接复用Attent ion模块来完成对每一帧视频帧的特征数据进的高层特征提取，Attent ion模块对每一帧视频帧的特征数据的进一步高层特征提取能够增强文本敏感区域的特征聚合效果。

S606，基于分类网络对每一帧视频帧的高层特征数据进行文本分类，得到每一帧视频帧的文本分类结果。

基于预先训练的分类网络对每一帧视频帧的高层特征数据进行文本分类，分类网络的输出为该视频帧包含文本信息的概率，基于此，可以得到每一帧视频帧是否包含文本信息的文本分类结果。文本分类结果用来表征该视频帧是否为包含文本信息的视频帧。

在一个实施例里，如图5所示，基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列(即S108)步骤之前，还包括：

S802，基于识别网络分别对视频帧序列的相邻两帧视频帧的特征数据进行特征识别，分别得到视频帧序列的相邻两帧视频帧的识别数据。

S804，基于打分网络分别对视频帧序列的相邻两帧视频帧的识别数据进行相似度判断。

识别网络使用标准模块incept ion模块，打分网络判断相邻两帧视频帧是否文本相同主要通过损失函数进行约束，通过训练识别网络使得识别网络学到判断的能力。

在一个实施例里，如图6所示，输入视频的相邻视频帧作为双流网络的一组输入数据，视频帧1输入至双流网络的第一子网络(如图6中姐妹网络1)，视频帧2输入至双流网络的第二子网络(如图6中姐妹网络2)。第一子网络与第二子网络为具有相同架构、参数和权重的相似子网络。为了确保第一子网络与第二子网络各自的网络不会将两个极其相似的图像映射到非常不同的特征空间，两个子网络的模型架构、超参数和权重必须相同。这两个子网络互为镜像，因此，对任何子网络架构、参数或权重的任何更改也适用于其他子网络。双流网络的目标是使用相似度分数对两个输入是相同还是不同进行分类。这里采用损失函数进行学习训练。

视频帧1经过第一子网络的卷积层提取特征后一路经过注意力模块后通过分类网络来判别视频帧图像中是否包含文本，可以通过对比学习来训练分类网络。同样地，视频帧2经过第二子网络的卷积层提取特征后一路经过注意力模块后通过分类网络来判别视频帧图像中是否包含文本，视频帧1的另一路链接第一子网络的Incept ion-A结构用来计算相邻两帧包含的文本特征的相似度，视频帧2的另一路链接第二子网络的Incept ion-A结构。对两个incept ion-A输出结果来判断两帧是否相同，通过相似度score来评价。

采用本说明书一个或多个实施例的技术方案，对输入视频的视频帧通过两种判断策略综合确定该视频帧是否为包含文本风险的关键视频帧，对输入视频提取时空信息特征后通过分类网络模型进行打分判断，获得该种策略下的该视频帧为包含文本风险的关键视频帧概率。对输入视频的视频帧剔除不包含文本信息的视频帧后，对相邻视频帧判定文本相似性，从而得到该种策略下的该视频帧为包含文本风险的关键视频帧概率。该技术方案对输入视频从文本相似度以及内容安全风险召回的角度实现关键视频帧的提取，即剔除掉包含相同文本信息的视频帧以及没有文本风险的视频帧，从而降低视频风险处理成本。该技术方案通过采用双流网络来对输入视频的相邻帧进行文本相似度判断，从而实现输入视频包含文本信息的关键帧的准确提取。

在一个实施例里，基于第一分数预测结果和第二分数预测结果，从输入视频中确定包含文本信息的关键视频帧，包括：

基于预设的权重分配，将第一分数结果与第二分数结果进行加权计算，确定输入视频的每一帧视频帧是否为包含文本信息的关键视频帧。可选地，第一分数结果与第二分数结果权重相同，两者进行加权平均，确定输入视频的每一帧视频帧是否为包含文本信息的关键视频帧。

在一个实施例里，基于第一分数预测结果和第二分数预测结果，从输入视频中确定包含文本信息的关键视频帧步骤之后，还包括：

将从输入视频中确定的包含文本信息的关键视频帧输入到风险防控模型中，通过风险防控模型对关键视频帧中的文本信息进行风险识别，得到相应的风险识别结果，并基于风险识别结果执行相应的风险防控处理。

综上，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

以上为本说明书一个或多个实施例提供的一种包含文本风险的关键视频帧提取方法，基于同样的思路，本说明书一个或多个实施例还提供一种包含文本风险的关键视频帧提取装置。

图7是根据本说明书一实施例的一种包含文本风险的关键视频帧提取装置的示意性框图。请参考图7，包含文本风险的关键视频帧提取装置可以包括：

特征提取模块710，对输入视频进行特征提取，得到所述输入视频的时空信息特征；

第一分数结果获取模块712，基于预先训练的分类网络模型对和输入视频的时空信息特征，对输入视频的每一帧视频帧进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

文本视频帧序列生成模块714，在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列；

第二分数结果获取模块716，基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

关键视频帧确定模块718，基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

在一个实施例中，特征提取模块710包括：

第一输出特征提取单元，对输入视频进行视频拆帧，得到输入视频的视频帧序列，基于2D卷积网络对视频帧序列的每一帧视频帧进行特征提取，得到视频帧序列的每一帧视频帧的第一输出特征。

视频融合单元，对输入视频与视频帧序列的每一帧视频帧的第一输出特征进行对应视频帧的特征融合，得到融合视频。

时空信息特征提取单元，基于3D卷积网络对融合视频进行特征提取，得到每一帧视频帧的时空信息特征。

在一个实施例中，第一输出特征提取单元包括：

空间输出特征提取子单元，基于空间卷积网络对视频帧序列的每一帧视频帧进行卷积操作，得到空间输出特征。

时序光流提取子单元，对输入视频进行光流计算得到时序光流。

时序输出特征提取子单元，基于时序卷积网络对时序光流进行卷积操作，得到时序输出特征。

特征融合子单元，对空间输出特征和时序输出特征按照特征层进行特征融合，得到视频帧序列的每一帧视频帧的第一输出特征。

敏感区域增强网络通过Attent ion模块来完成对输入视频的时空信息特征的高层特征提取，Attent ion模块对输入视频的时空信息特征的进一步高层特征提取能够增强文本敏感区域的特征聚合效果。

本领域的技术人员应可理解，上述风控模型建模装置能够用来实现前文所述的风控模型建模方法，其中的细节描述应与前文方法部分描述类似，为避免繁琐，此处不另赘述。

基于同样的思路，本说明书一个或多个实施例还提供一种电子设备，如图8所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1001和存储器1002，存储器1002中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1002可以是短暂存储或持久存储。存储在存储器1002的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器1001可以设置为与存储器1002通信，在电子设备上执行存储器1002中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源1003，一个或一个以上有线或无线网络接口1004，一个或一个以上输入输出接口1005，一个或一个以上键盘1006。

具体在本实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

对输入视频进行特征提取，得到输入视频的时空信息特征。

基于预先训练的分类网络模型对和输入视频的时空信息特征，对输入视频的每一帧视频帧进行打分判断，得到输入视频的每一帧视频帧的第一分数结果，第一分数结果用于确定输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

在输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列。

基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于输入视频和目标视频帧序列，确定输入视频的每一帧视频帧的第二分数结果，第二分数结果用于确定输入视频的每一帧视频帧为包含文本风险的视频帧的概率。

基于第一分数预测结果和第二分数预测结果，从输入视频中确定包含文本信息的视频帧。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于上述一种各方法实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书一个或多个实施例还提出了一种存储介质，该存储介质存储一个或多个计算机程序，该一个或多个计算机程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行上述风控模型建模方法实施例的各个过程，并具体用于执行：

对输入视频进行特征提取，得到输入视频的时空信息特征。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(trans itory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书一个或多个实施例而已，并不用于限制本申请。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims

1.一种包含文本风险的关键视频帧提取方法，包括：

对输入视频进行特征提取，得到所述输入视频的时空信息特征；

基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列；

基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

2.根据权利要求1所述的方法，所述对输入视频进行特征提取，得到所述输入视频的时空信息特征，包括：

基于3D卷积网络对所述输入视频进行特征提取，得到所述输入视频的每一帧视频帧的时空信息特征；或者，

对所述输入视频进行视频拆帧处理，得到所述输入视频的视频帧序列，基于2D卷积网络对所述视频帧序列的每一帧视频帧进行特征提取，得到所述视频帧序列的每一帧视频帧的第一输出特征；

对所述输入视频与所述视频帧序列的每一帧视频帧的第一输出特征进行对应视频帧的特征融合处理，得到融合视频；

基于3D卷积网络对融合视频进行特征提取，得到每一帧视频帧的时空信息特征。

3.根据权利要求2所述的方法，所述基于2D卷积网络对所述视频帧序列的每一帧视频帧进行特征提取，得到所述视频帧序列的每一帧视频帧的第一输出特征，包括：

基于空间卷积网络对所述视频帧序列的每一帧视频帧进行卷积处理，得到空间输出特征；

对所述输入视频进行光流计算得到时序光流；

基于时序卷积网络对所述时序光流进行卷积处理，得到时序输出特征；

对所述空间输出特征和所述时序输出特征进行特征融合处理，得到所述视频帧序列的每一帧视频帧的第一输出特征。

4.根据权利要求1所述的方法，所述基于预先训练的分类网络模型和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，包括：

基于敏感区域增强网络对所述输入视频的时空信息特征进行特征提取，得到所述输入视频的高层特征数据；

基于预先训练的分类网络模型对所述输入视频的高层特征数据进行打分判断。

5.根据权利要求1所述的方法，所述在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列步骤之前，还包括：

对所述输入视频的每一帧视频帧进行特征提取，得到所述输入视频的每一帧视频帧的特征数据；

基于敏感区域增强网络对所述每一帧视频帧的特征数据进行特征识别处理，得到所述每一帧视频帧的高层特征数据；

基于分类网络对所述每一帧视频帧的高层特征数据进行文本分类，得到所述每一帧视频帧的文本分类结果，所述文本分类结果用来表征该视频帧是否为包含文本信息的视频帧。

6.根据权利要求5所述的方法，所述基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列步骤之前，还包括：

基于识别网络分别对视频帧序列的相邻两帧视频帧的特征数据进行特征识别，分别得到视频帧序列的相邻两帧视频帧的识别数据；

基于打分网络分别对视频帧序列的相邻两帧视频帧的识别数据进行相似度判断。

7.根据权利要求6所述的方法，所述基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧，包括：

基于预设的权重分配，将所述第一分数结果与所述第二分数结果进行加权计算，确定所述输入视频的每一帧视频帧是否为包含文本信息的关键视频帧。

8.根据权利要求1至7任一项权利要求所述的方法，所述基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧步骤之后，还包括：

将从所述输入视频中确定的包含文本信息的关键视频帧输入到风险防控模型中，通过风险防控模型对所述关键视频帧中的文本信息进行风险识别，得到相应的风险识别结果，并基于所述风险识别结果执行相应的风险防控处理。

9.一种包含文本风险的关键视频帧提取装置，包括：

特征提取模块，对输入视频进行特征提取，得到所述输入视频的时空信息特征；

第一分数结果获取模块，基于预先训练的分类网络模型对和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

文本视频帧序列生成模块，在所述输入视频中剔除不包含文本信息的视频帧，生成文本视频帧序列；

第二分数结果获取模块，基于所述文本视频帧序列的相邻两帧视频帧之间的文本相似度，从所述文本视频帧序列中剔除包含的文本信息重复的视频帧，得到目标视频帧序列，并基于所述输入视频和所述目标视频帧序列，确定所述输入视频的每一帧视频帧的第二分数结果，所述第二分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

关键视频帧确定模块，基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的关键视频帧。

10.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，在所述可执行指令被执行时，能够使得所述处理器：

基于预先训练的分类网络模型对和所述输入视频的时空信息特征，对所述输入视频的每一帧视频进行打分判断，得到所述输入视频的每一帧视频帧的第一分数结果，所述第一分数结果用于表征所述输入视频的每一帧视频帧为包含文本风险的视频帧的概率；

基于所述第一分数预测结果和所述第二分数预测结果，从所述输入视频中确定包含文本信息的视频帧。