CN114501163A

CN114501163A - 视频处理方法、装置及存储介质

Info

Publication number: CN114501163A
Application number: CN202011261741.7A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-13
Anticipated expiration: 2040-11-12
Also published as: CN114501163B

Abstract

本公开关于一种视频处理方法、装置及存储介质，该方法包括：获取待处理视频的视频信息；对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征；对所述视频特征进行处理，获得所述待处理视频的预估反馈信息；根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频。基于本公开可以提高视频处理效率，提升对广告视频的识别准确率。

Description

视频处理方法、装置及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频处理方法、装置及存储介质。

背景技术

随着计算机网络应用的不断发展，视频资源越来越多，同时也吸引着大量商家在视频中插入广告，从而降低了用户的视频体验。

相关技术中，应用人工智能技术，利用传统的神经网络模型对视频资源进行广告识别。然而，由于视频资源的数量以及计算能力的限制，很难利用传统的神经网络模型进行全量视频分析。此外，有些视频资源的广告较为隐蔽，这类视频资源也不容易被传统的神经网络模型识别出，进而导致广告识别的识别准确率不高。

发明内容

本公开提供一种视频处理方法、装置及存储介质，以至少解决相关技术中对视频进行全量视频分析所存在的计算机能力等限制，以及广告视频识别准确率不高中至少一种问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：

获取待处理视频的视频信息；

对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征，所述视频特征至少用于表征所述待处理视频中封面帧的内容信息和随机帧的内容信息；

对所述视频特征进行处理，获得所述待处理视频的预估反馈信息，所述预估反馈信息用于表征用户对所述待处理视频进行预测反馈操作对应的指标信息；

根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述根据视频识别网络对所述第一特征、所述第二特征和所述预估反馈信息进行识别处理，确定所述待处理视频是否为广告视频步骤之后，所述方法还包括：

在确定待处理视频为广告视频的情况下，屏蔽所述待处理视频。

作为一种可选的实施方式，所述对所述视频特征进行处理，获得所述待处理视频的预估反馈信息步骤之前，所述方法还包括：

对所述视频信息进行用户特征提取，获得所述待处理视频的用户特征，所述用户特征用于表征与所述待处理视频相关用户的用户信息；

所述对所述视频特征进行处理，获得所述待处理视频的预估反馈信息步骤包括：

将所述视频特征和所述用户特征输入至反馈预测网络；

通过所述反馈预测网络对所述视频特征和所述用户特征进行处理，获得所述待处理视频的预估反馈信息。

作为一种可选的实施方式，所述视频特征至少包括用于表征所述待处理视频中封面帧的内容信息的第一特征，和用于表征所述待处理视频中随机帧的内容信息的第二特征；

所述对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征步骤包括：

从所述视频信息中提取封面帧数据和若干随机帧数据；

对所述封面帧数据中图像数据和文本数据进行编码处理，获得所述第一特征；

分别对每个所述随机帧数据中图像数据和文本数据进行编码处理，获得若干随机帧数据的所述第二特征。

作为一种可选的实施方式，所述预估反馈信息包括用于表征用户对所述待处理视频进行预测反馈操作对应的多个预估指标信息；

所述根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频步骤包括：

将所述预估反馈信息输入至第一子网络，通过所述第一子网络对所述预估反馈信息中各预估指标信息进行线性处理，获得第一处理特征；

将所述视频特征输入至第二子网络，通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征；

基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤包括：

通过所述第二子网络中至少两层全连接层和至少两层激活层，对所述视频特征进行非线性处理，获得第二处理特征，每层全连接层连接一层激活层；

所述基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频步骤包括：

将所述第一处理特征和所述第二处理特征进行向量拼接，得到拼接向量；

对所述拼接向量进行全连接分析处理，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述通过第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤之前，所述方法还包括：

通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征；

将所述相似性特征与所述第一特征和第二特征进行乘操作，得到所述待处理视频的联合特征；

所述通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤包括：

通过所述第二子网络对所述视频特征和所述联合特征进行非线性处理，获得第二处理特征。

作为一种可选的实施方式，所述通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征步骤包括：

将所述第一特征和每个随机帧的第二特征输入至注意力机制模块；

通过所述注意力机制模块对所述第一特征中每个特征分量和对应的每个随机帧的第二特征中每个特征分量进行点乘处理，得到相似度矩阵；所述相似度矩阵包括所述待处理视频中每个随机帧与对应的封面帧之间的相似度向量；

对所述相似度矩阵中各相似度向量进行叉乘处理，得到相似性特征。

作为一种可选的实施方式，所述方法还包括：

构建视频处理模型；

其中，所述视频处理模型至少包括所述反馈预测网络、第一子网络、第二子网络和注意力机制模块中至少一种。

根据本公开实施例的第二方面，提供一种频处理装置，包括：

获取模块，被配置为执行获取待处理视频的视频信息；

第一特征提取模块，被配置为执行对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征，所述视频特征至少用于表征所述待处理视频中封面帧的内容信息和随机帧的内容信息；

第一处理模块，被配置为执行对所述视频特征进行处理，获得所述待处理视频的预估反馈信息，所述预估反馈信息用于表征用户对所述待处理视频进行预测反馈操作对应的指标信息；

第二处理模块，被配置为执行根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述装置还包括：

屏蔽模块，被配置为执行在确定待处理视频为广告视频的情况下，屏蔽所述待处理视频。

作为一种可选的实施方式，所述装置还包括：

第二特征提取模块，被配置为执行对所述视频信息进行用户特征提取，获得所述待处理视频的用户特征，所述用户特征用于表征与所述待处理视频相关用户的用户信息；

相应地，所述第一处理模块，被配置为具体执行将所述视频特征和所述用户特征输入至反馈预测网络；以及通过所述反馈预测网络对所述视频特征和所述用户特征进行处理，获得所述待处理视频的预估反馈信息。

作为一种可选的实施方式，所述视频特征至少包括用于表征所述待处理视频中封面帧的内容信息的第一特征，和用于表征所述待处理视频中随机帧的内容信息的第二特征；所述第一特征提取模块包括：

数据提取单元，被配置为执行从所述视频信息中提取封面帧数据和若干随机帧数据；

该第一编码单元，被配置为执行对所述封面帧数据中图像数据和文本数据进行编码处理，获得所述第一特征；

该第二编码单元，被配置为执行分别对每个所述随机帧数据中图像数据和文本数据进行编码处理，获得若干随机帧数据的所述第二特征。

作为一种可选的实施方式，所述预估反馈信息包括用于表征用户对所述待处理视频进行预测反馈操作对应的多个预估指标信息；所述第二处理模块包括：

线性处理单元，被配置为执行将所述预估反馈信息输入至第一子网络，通过所述第一子网络对所述预估反馈信息中各预估指标信息进行线性处理，获得第一处理特征；

非线性处理单元，被配置为执行将所述视频特征输入至第二子网络，通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征；

确定单元，被配置为执行基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述非线性处理单元，被配置为具体执行通过所述第二子网络中至少两层全连接层和至少两层激活层，对所述视频特征进行非线性处理，获得第二处理特征，每层全连接层连接一层激活层。

所述确定单元，被配置为具体执行将所述第一处理特征和所述第二处理特征进行向量拼接，得到拼接向量；以及对所述拼接向量进行全连接分析处理，确定所述待处理视频是否为广告视频。

作为一种可选的实施方式，所述装置还包括：

相似特征确定模块，被配置为执行通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征；

联合特征确定模块，被配置为执行将所述相似性特征与所述第一特征和第二特征进行乘操作，得到所述待处理视频的联合特征；

相应地，所述非线性处理单元，被配置为具体执行通过所述第二子网络对所述视频特征和所述联合特征进行非线性处理，获得第二处理特征。

作为一种可选的实施方式，所述相似特征确定模块：

输入单元，被配置为执行将所述第一特征和每个随机帧的第二特征输入至注意力机制模块；

点乘单元，被配置为执行通过所述注意力机制模块对所述第一特征中每个特征分量和对应的每个随机帧的第二特征中每个特征分量进行点乘处理，得到相似度矩阵；所述相似度矩阵包括所述待处理视频中每个随机帧与对应的封面帧之间的相似度向量；

叉乘单元，被配置为执行对所述相似度矩阵中各相似度向量进行叉乘处理，得到相似性特征。

作为一种可选的实施方式，所述装置还包括：

模型构建模块，被配置为执行构建视频处理模型；

根据本公开实施例的第三方面，提供一种存储介质，当所述存储介质中的指令由所述电子设备的处理器执行时，使得电子设备能够执行如上述中任一实施方式所述的视频处理方法。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述任一实施方式所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例通过对待处理视频中封面帧和随机帧的内容信息进行特征提取得到视频特征，先对该视频特征进行处理，得到该待处理视频的预估反馈信息。由于该预估反馈信息是用于表征用户对该待处理视频进行预测反馈操作对应的指标信息，例如点击率、点赞率、转发率等预估指标信息，这些预估指标信息能够很好的反映用户对该待处理视频的后验反馈操作的情况，可以充分挖掘用户的二跳行为(例如点赞率、转发率等)。之后再根据根据预估反馈信息和视频特征，确定该待处理视频是否为广告视频。通过预估反馈信息与视频特征一起配合，可以对隐蔽的广告视频的隐藏特征进行更好地识别，从而利于在不检测视频全量帧的前提下快速地识别出广告视频，不仅降低了视频处理过程对计算机能力的限制，而且提高了视频处理效率，提升了对广告视频的识别准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图。

图2是根据一示例性实施例示出的一种视频处理方法的流程图。

图3是根据一示例性实施例示出的另一种视频处理方法的部分流程图。

图4是根据一示例性实施例示出的另一种视频处理方法的部分流程图。

图5是根据一示例性实施例示出的另一种视频处理方法的部分流程图。

图6是根据一示例性实施例示出的视频处理过程的示意图。

图7是根据一示例性实施例示出的一种视频处理装置框图。

图8是根据一示例性实施例示出的另一种视频处理装置框图。

图9是根据一示例性实施例示出的又一种视频处理装置框图。

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图，参见图1，该实施环境可以包括终端101和服务器102。

其中，终端101可以是但不限于为智能移动终端、便携式计算机、台式计算机、智能穿戴设备、智能家居等中一种或多种。终端101上可以搭载有支持视频处理方法的计算机程序，终端101的数量可以为至少一个，例如数个，或者更多数量。服务器102可以是但不限于为独立的服务器、服务器集群、分布式系统、云服务器和虚拟化中心等中一种或多种。

该终端101以及服务器102之间可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例在此不作限制。

首先介绍一下本公开实施例涉及的应用场景：

在一示例性的应用场景中，例如，在视频搜索场景中，用户向服务器发送视频搜索请求，服务器响应该视频搜索请求，确定待反馈搜索的视频集，对视频集每个视频执行本公开实施例提供的视频处理方法，服务器确定该待反馈搜索的视频是否为广告视频。

在视频推荐场景中，服务器在需要向终端推荐视频时，可以对待推荐的视频执行本公开实施例提供的视频处理方法，服务器确定该待推荐的视频是否为广告视频。

在视频发布审核场景中，用户在终端上制作完视频文件后，在视频发布之前，可以将视频文件发送至服务器。服务器可以获取该视频文件对应的待处理视频的视频信息，执行本公开实施例提供的视频处理方法，以确定该待处理视频是否为广告视频。

在视频界面优化场景中，用户通过触发终端上的视频筛选功能开关，服务器响应该视频筛选功能开关，获取待处理视频的视频信息，执行本公开实施例提供的视频处理方法，确定该待处理视频是否为广告视频。

应理解，本公开实施例所提供的视频处理方法除了可以由服务器单独执行实现，还可以由终端单独执行实现，也可由终端和服务器协同执行实现。

需要说明的是，本公开实施例的应用场景包括但不限于上述应用场景，还可适用于其他需要识别广告视频的场景。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，视频处理方法应用于电子设备，以该电子设备为上述实施环境示意图中服务器为例进行说明，包括以下步骤。

在步骤S201中，获取待处理视频的视频信息。

可选地，待处理视频可以包括但不限于为网络对象发布或转发的视频。该待处理视频可以至少包括一个视频封面和至少一段连续的视频帧。待处理视频可为短视频或长视频。该视频封面可以为静态视频帧画面，也可为至少由多个静态视频帧画面拼接而成的动态视频帧。这里的待处理视频的数量可为一个或多个。

待处理视频可以通过视频帧序列、数组等形式，预先存储在例如本地视频库或其他设备(例如云端、终端或者其他服务器等)中，以供服务器在需要时，可以从对应的视频存储位置中获取该待处理视频的视频信息以进行视频处理。该待处理视频的视频信息可以包括但不限于为待处理视频的视频内容信息和视频相关用户信息。

其中，视频内容信息可以至少包括但不限于为用于描述视频的视频帧图像内容信息、视频帧文本内容信息、视频帧音频内容信息、视频类别信息(比如生活类、健身类、体育类、影视类等)、视频标签信息(比如萌宠、育儿、护肤、篮球等)、视频标题信息、视频标识信息等一种或多种。

视频相关用户信息可以至少包括但不限于为视频发布者信息、视频作者信息、视频反馈用户信息等一种或多种。视频发布者信息可以用于描述视频发布者的画像，例如可以包括发布者的个人信息(比如个人ID、常住地址、年龄、偏好等)、发布设备标识、设备IP地址等。视频作者信息可以用于描述视频原创作者的画像，例如可以包括原创作者的个人信息(比如个人ID、常住地址、年龄、偏好等)、原创作者的设备标识、设备IP地址等。视频反馈用户信息可以用于描述对待处理视频执行反馈操作的用户列表信息和/或用户画像。该用户列表信息包括但不限于为点击的用户列表、点赞的用户列表、转发的用户列表、评论的用户列表、关注的用户列表、踩的用户列表等中一种或多种。

在步骤S202中，对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征。

可选地，所述视频特征可以用于指示视频本身的基本属性信息，视频特征可以至少用于表征所述待处理视频中封面帧的内容信息和随机帧的内容信息。仅作为示例，该内容信息可以包括画面信息、文本信息和音频信息中一种或多种。

在本公开实施例中，视频特征可以至少包括用于表征所述待处理视频中封面帧的内容信息的第一特征，和用于表征所述待处理视频中随机帧的内容信息的第二特征。

在一示例性实施例，第一特征可以包括但不限于为封面帧的图像特征、封面帧的文本特征、封面帧的类别特征、以及封面帧的音频特征等一种或多种。仅作为示例，封面帧的文本特征可以包括但不限于为帧画面文本特征、视频标题文本特征和视频摘要文本特征中一种或多种。该第一特征中的各特征可以采用向量形式表示，若第一特征中包括多种特征时，则该第一特征可为每种特征对应的向量进行向量融合或拼接而成的组合特征。

上述封面帧是指视频封面对应的帧。若视频封面为静态视频画面，则该第一特征可以为该静态视频画面的内容信息对应的特征；若视频封面为动态视频画面，也即多个静态视频画面拼接而成的，则该第一特征可以为视频封面中多个静态视频画面的内容信息对应的平均值特征或者最大值特征。需要说明的是，当视频封面包括音频帧时，此时对应的第一特征可以包括该音频帧对应的音频特征。

在一示例性实施例，第二特征可以包括但不限于为随机帧的图像特征、随机帧的文本特征、随机帧的类别特征、以及随机帧的音频特征等一种或多种。该第二特征中的各特征也可以采用向量形式表示，若第二特征中包括多种特征时，则该第二特征可为每种特征对应的向量进行向量融合或拼接而成的组合特征。

该随机帧是指待处理视频中除封面帧以外的任何视频帧，其数量可为数个、十几个、几十个甚至更多，但是该随机帧的数量要远少于待处理视频的全量视频帧的数量。对于多个随机帧对应的第二特征，第二特征中每种特征可以是多个随机帧对应的向量进行向量串联或拼接而成的组合特征。例如，第二特征中的各随机帧的图像特征TS可以是各随机帧对应的向量拼接而成，该TS的表达式可为TS＝(S1,S2,...,Sn)，其中，Si为第i个随机帧对应的图像特征，n为提取的随机帧的总数。

在一示例性实施例，上述步骤S202，所述对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征步骤可以包括：

在步骤S2021中，从所述视频信息中提取封面帧数据和若干随机帧数据。

可选地，随机帧数据的选取方式可为随机选取或者按照预设选取条件(例如预设采样时间间隔等)进行选取而得，本公开实施例在此不作限制。一般，一个视频是以镜头为最小单元，每个镜头可以由至少20帧画面构成。若需要对视频中全量视频帧进行分析处理，势必对视频处理设备的计算能力具有更高的要求，且计算量也非常大，不利于实际应用。本公开为了避免计算全量视频帧所带来的问题，从待处理视频中抽取随机帧数据进行后续视频处理。需要说明的是，这里的随机帧不同于视频领域的关键帧，该随机帧的数量要小于关键帧的数量，更远小于全量视频帧的数量。

在步骤S2022中，对所述封面帧数据中图像数据和文本数据进行编码处理，获得所述第一特征。

可选地，对所述封面帧数据中图像数据和文本数据通过嵌入手段进行编码处理，获得所述第一特征。嵌入(也即Embedding)的目的是将图像数据和/或文本数据表示为具有相对意义的稠密向量。该嵌入手段可有多种，例如嵌入层、词向量模型、赫夫曼编码等，本公开对此不作具体限定。

在一可选实施方式，以采用嵌入层进行编码处理为例，服务器在从视频信息中提取封面帧数据之后，可以将封面帧数据输入嵌入层，通过将封面帧数据映射到嵌入空间中，输出所述封面帧数据中图像数据和文本数据对应的稠密向量表示，将该稠密向量表示作为该第一特征。

可选地，可以将封面帧数据拆分成图像数据和文本数据，分别利用嵌入层进行单独的编码处理。该文本数据可以包括但不限于为利用OCR对封面帧画面进行识别所得的画面文本、封面帧的标题、封面帧的摘要、封面帧的类别等中至少一种。

可选地，该嵌入层可以包括两个部分，例如第一嵌入模块和第二嵌入模块，通过该第一嵌入模块可以对封面帧数据中的图像数据进行编码处理，得到第一图像特征；通过该第二嵌入模块对可以对封面帧数据中的文本数据进行编码处理，得到第一文本特征，并与所述第一图像特征进行组合，得到该第一特征。仅作为示例，该第一嵌入模块可以为图像特征提取网络，例如CNN网络等。该第二嵌入模块可以为文本特征提取网络，例如Bert网络等。

仅作为示例，第一特征可以包括封面帧的图像特征、封面帧标题的文本特征(例如bert特征)、封面帧的识别文本的bert特征和封面帧的类别特征中至少一种。

在视频封面为多个静态视频帧画面拼接而成的动态视频帧时，也即在视频封面为多帧时，可以分别提取视频封面中每一个封面帧的特征，之后确定多个封面帧中的向量最大值或向量平均值，作为该视频封面的特征，也即作为待处理视频的第一特征。

通过使用两个单独的嵌入模块对图像数据和文本数据进行分别特征提取，可以使得提取的特征内容更准确，有利于后续基于提取的视频特征进行更好的视频处理。

在步骤S2023中，分别对每个所述随机帧数据中图像数据和文本数据进行编码处理，获得若干随机帧数据的所述第二特征。

可选地，与上述对封面帧数据进行编码处理的方式类似，这里也可以通过嵌入手段分别对每个所述随机帧数据中图像数据和文本数据进行编码处理，获得若干随机帧数据的所述第二特征。该嵌入手段可有多种，例如嵌入层、词向量模型、赫夫曼编码等，本公开对此不作具体限定。

在一可选实施方式，以采用嵌入层进行编码处理为例，服务器在从视频信息中提取若干随机帧数据之后，可以将每个随机帧数据拆分别分成图像数据和文本数据，分别利用嵌入层进行单独的编码处理。通过将每个随机帧数据映射到嵌入空间中，输出每个随机帧数据中图像数据和文本数据对应的稠密向量表示，将该稠密向量表示作为该第二特征。

可选地，该嵌入层可以包括两个部分，例如第一嵌入模块和第二嵌入模块，通过该第一嵌入模块对每个随机帧数据中的图像数据进行编码处理，得到若干第二图像特征；通过该第二嵌入模块对可以对随机帧数据中的文本数据进行编码处理，得到若干第二文本特征，并每个第二文本特征与该随机帧数据对应的第二图像特征进行组合，得到若干随机帧数据的第二特征。仅作为示例，该第一嵌入模块可以为图像特征提取网络，例如CNN网络等。该第二嵌入模块可以为文本特征提取网络，例如Bert网络等。

仅作为示例，第二特征可以包括随机帧的图像特征、随机帧标题的bert特征、随机帧的识别文本的bert特征和随机帧的类别特征中至少一种。

本公开上述实施例，通过从视频信息中提取封面帧数据和若干随机帧数据，而不是从视频信息中提取全量视频帧数据，可以减少视频处理所针对的待处理的视频数据量，从而减少了视频处理过程的计算量，降低了对视频处理设备的计算能力的限制要求。此外，通过对封面帧数据和每个随机帧数据中的图像数据和文本数据分别进行编码处理，可以获得更为全面的视频特征信息，提高了视频处理的效果和准确性。而通过对各视频帧数据的图像数据和文本数据进行基于嵌入手段的编码处理，可以解决特征稀疏的问题，同时还能够降低视频特征的维度空间，进一步减少视频处理过程的计算量，提高视频处理效率。

需要说明的是，上述特征提取过程是以提取图像数据和文本数据为例进行说明的，在实际应用中，还可增加提取待处理视频中封面帧和随机帧的音频数据的特征，该音频数据的特征提取过程可参见上述图像数据或文本数据的特征提取过程，在此不再赘述。通过增加对封面帧和随机帧提取音频数据的特征，可以使得视频特征信息更全面的表达视频真实内容，有利于将隐藏在待处理视频中的音频中的广告内容识别出来，进一步提高视频处理的效果和准确性。

在步骤S203中，对所述视频特征进行处理，获得所述待处理视频的预估反馈信息。

预估反馈信息用于表征用户对所述待处理视频进行预测反馈操作对应的指标信息。其中，预测反馈操作可以为当将该待处理视频展示给用户时，用户对该待处理视频所做的可能触发操作。仅作为示例，该预测反馈操作可以至少包括点击、点赞、关注、播放时长、转发、评论、踩、展示量等操作中一种或多种。该指标信息可以至少包括点击率、点赞率、关注率、长播率、转发率、评论率、踩的概率等指标信息中一种或多种。其中，点击率为一跳指标，其它指标可以为二跳指标。相应的，预估反馈信息可以至少包括预估点击率、预估点赞率、预估关注率、预估长播率、预估转发率、预估评论率、预估踩的概率中一种或多种。

在一示例性实施例，服务器获得该待处理视频的视频特征之后，可以将待处理视频的视频特征输入至反馈预测网络，通过反馈预测网络对视频特征进行处理，预测输出该待处理视频的预估反馈信息。该预估反馈信息可以是向量或数组形式表示，若预测的指标信息为多个时，该预估反馈信息可以为多个向量或数组的组合表达。

其中，反馈预测网络可以是利用机器学习训练得到的模型。具体地，可以通过单任务或多任务训练后，反馈预测网络可以学习视频特征和预估反馈信息之间的关系，进而利用该反馈预测网络可以提前预测用户对待处理视频可能的反馈指标信息。仅作为示例，反馈预测网络可以但不限于为XGB模型、DNN模型等。

在另一示例性实施例，如图3所示，上述步骤S203，在对所述视频特征进行处理，获得所述待处理视频的预估反馈信息步骤之前，所述方法还可包括：

在步骤S301中，对所述视频信息进行用户特征提取，获得所述待处理视频的用户特征，所述用户特征用于表征与所述待处理视频相关用户的用户信息。

可选地，服务器从视频信息中提取与所述待处理视频相关用户的用户数据，之后可以通过特征提取网络中的嵌入层对该用户数据进行嵌入处理，获得用于表征与所述待处理视频相关用户的用户信息的用户特征。这里用于提取用户特征的嵌入层与上述用于提取视频特征的嵌入层可以是不同层结构，从而针对不同类型特征实现不同的特征提取目的，优化特征提取效果。

仅作为示例，该待处理视频相关用户可以为视频发布者、视频创作者、视频反馈用户等。以视频发布者为例，用户特征可以包括但不限于为视频发布者的ID对应的特征、常住地对应的特征等等。以视频反馈用户为例，用户特征可以包括但不限于为点击的用户列表、点赞的用户列表、转发的用户列表、评论的用户列表、关注的用户列表、踩的用户列表等等。

通过对视频信息中用户特征进行单独特征提取，可以针对性地对低维、离散的用户数据进行用户特征提取，可减少提取用户特征的计算量。此外，用户特征和视频特征分别进行特征提取得到的，可以减少特征提取时的用户特征和视频特征的信息丢失，将提取的特征一起作为反馈预测模型的输入进行预估反馈信息的预测，可以提高预估反馈信息的准确性和可靠性。

在此情况下，上述步骤S203，所述对所述视频特征进行处理，获得所述待处理视频的预估反馈信息步骤可以包括：

在步骤S302中，将所述视频特征和所述用户特征输入至反馈预测网络；

在步骤S303中，通过所述反馈预测网络对所述视频特征和所述用户特征进行处理，获得所述待处理视频的预估反馈信息。

可选地，服务器获得该待处理视频的视频特征和用户特征之后，可以将待处理视频的视频特征和用户特征进行融合后输入至反馈预测网络，基于反馈预测网络学习到的预估指标与视频特征和用户特征之间的映射关系，预测输出该待处理视频的预估反馈信息。该预估反馈信息可以是向量或数组形式表示，若预测的指标信息为多个时，该预估反馈信息可以为多个向量或数组的组合表达。

本公开上述实施例，通过对视频信息进行用户特征提取，获得该待处理视频的用户特征，之后利用反馈预测网络对提取的用户特征和视频特征进行处理，获得该待处理视频的预估反馈信息。如此，通过引入待处理视频的用户特征，可以使得反馈预测网络能够同时学习到用户特征和视频特征与预估反馈信息的关系，更好地学习用户特征、视频特征以及两者之间的隐含特征，有利于提高反馈预测网络的预估准确性和可靠性。同时，通过引入待处理视频的用户特征，由于该用户特征是表征与待处理视频相关用户的用户信息，还可在一定程度上学习到用户之间对广告视频进行相互点赞、转发等作弊行为，能够更好地识别出广告视频，进一步提高视频处理的效果和准确性。

在步骤S204中，根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频。

服务器获得该待处理视频的预估反馈信息之后，可以对该待处理视频的视频特征中第一特征、第二特征、以及经反馈预测网络得到的预估反馈信息进行分析处理，进而确定待处理视频是否为广告视频。

可选地，可以将视频特征中第一特征、第二特征、以及经反馈预测网络得到的预估反馈信息输入至视频识别网络，利用视频识别网络对输入数据进行分析处理，确定所述待处理视频是否为广告视频。

仅作为示例，该视频识别网络的分析处理结果可以通过标签来表示，例如标签0可以表示非广告视频，标签1可以表示广告视频。仅作为另一示例，该视频识别网络的分析处理结果可以包括待处理视频为广告视频的概率。在识别到该待处理视频为广告视频的概率大于预设广告概率阈值时，可以确定该待处理视频为广告视频；否则，可以确定该待处理视频为非广告视频。这里的广告视频可以为待处理视频中存在预设数量(比如至少一个)的广告视频帧(比如广告图像帧、广告文本帧和广告音频帧中至少一种)的视频。仅作为示例，该广告概率阈值可以设置为0.8～1中任一数值，当然还可为其他数值，本公开实施例不做具体限定。

上述视频识别网络可以是利用机器学习训练得到的模型。通过训练后，视频识别网络可以学习第一特征、第二特征和预估反馈信息与待处理视频为广告视频的概率之间的关系，进而利用该视频识别网络可以预测该待处理视频为广告视频的概率，或者预测该待处理视频是否为广告视频。

在一示例性实施例，该视频识别网络可以包括相互配合的第一子网络和第二子网络。该第一子网络可以用于进行低阶特征处理，第二子网络可以用于进行高阶特征处理，通过两个子网络相互配合分别对对应特征进行分析处理，可以获得更全面的视频分析处理结果。

可选地，如图4和6所示，上述步骤S204，所述根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频步骤可以包括：

在步骤S401中，将所述预估反馈信息输入至第一子网络，通过所述第一子网络对所述预估反馈信息中各预估指标信息进行线性处理，获得第一处理特征。

其中，所述预估反馈信息包括用于表征用户对所述待处理视频进行预测反馈操作对应的多个预估指标信息。

服务器可以将经反馈预测网络得到的预估反馈信息输入至第一子网络，通过第一子网络中的线性处理层对该预估反馈信息中各预估指标信息进行线性处理和组合，得到第一处理特征。该第一处理特征可以用于表征预估指标信息与广告视频之间的关系。仅作为示例，该第一子网络可以包括但不限于为广义线性网络、因子分解网络等等。该第一处理特征可以以第一识别向量形式表达。

在步骤S402中，将所述视频特征输入至第二子网络，通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征。

服务器可以将视频特征中的第一特征和第二特征输入至所述视频识别网络中第二子网络，通过对该第一特征和第二特征进行卷积处理，得到第二处理特征。该第二处理特征可以用于表征视频特征中各第一特征和第二特征之间的交叉关系信息和所述视频特征的深度特征信息。仅作为示例，该第一子网络可以包括但不限于为DNN(Deep NeuralNetwork，深度神经网络)等等。该第二处理特征可以以第二识别向量形式表达。

在一示例性实施例，第二子网络可以包括至少两层全连接层和至少两层激活层，每层全连接层后面连接一层激活层。通过将该视频特征输入至所述第二网络中，通过全连接层和激活层来学习输入的嵌入特征中交叉关系信息和深度特征信息，从而得到新的特征向量，也即得到第二处理特征。其中，上述激活层可以使用线性整流函数ReLU、tanh中至少一种激活函数。

在步骤S403中，基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频。

在一示例性实施例，可以将第一处理特征和第二处理特征进行融合，基于融合结果确定待处理视频是否为广告视频。或者，还可以分别将第一处理特征映射至第一广告类型概率，将第二处理特征映射至第二广告类型概率，基于第一广告类型概率和第二广告类型概率的加权和值，确定待处理视频的广告类型概率；之后在该广告类型概率大于等于预设广告类型概率时，确定该待处理视频为广告视频，否则，确定该待处理视频为非广告视频。

本公开上述实施例，通过将预估反馈信息和视频特征分别输入至视频识别网络中的第一子网络和第二子网络，利用该第一子网络进行低阶特征处理，利用该第二子网络进行高阶特征处理，该第二子网络包括至少两层全连接层和至少两层激活层，可以更好地解决非线性问题。通过两个子网络相互配合分别对对应特征进行多维度分析处理，可以获得更全面的视频分析处理结果，进一步提高视频处理的效果和准确性。

在另一示例性实施例，上述步骤S403，基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频步骤可以包括：

S4031，将所述第一处理特征和所述第二处理特征进行向量拼接，得到拼接向量；

S4032，对所述拼接向量进行全连接分析处理，确定所述待处理视频是否为广告视频。

可选地，可以通过拼接层对第一处理特征和第二处理特征进行向量拼接concat，这样不仅可以将第一处理特征和第二处理特征转换为一维向量，还可对转换后的各一维向量进行拼接，得到新的一维向量作为该拼接向量。之后，将该拼接向量输入最后一个全连接层，接着，对经由该最后一个全连接层输出的特征向量进行分析处理，以确定所述待处理视频是否为广告视频。需要说明的是，这里的最后一个全连接层是为了预测处理视频是否为广告视频，其设置位置不同于上述第二子网络中的各全连接层。

本公开上述实施例，通过将视频识别网络中的第一子网络和第二子网络所分别输出的第一处理特征和所述第二处理特征进行向量拼接，之后对拼接得到的拼接向量进行全连接分析处理，通过将第一处理特征和所述第二处理特征整合到一起，更好的对待处理视频进行特征融合表达，利于后续准确识别该待处理视频是否为广告视频，同时提高了视频处理过程的鲁棒性。

本公开实施例，通过对待处理视频中封面帧和随机帧的内容信息进行特征提取得到视频特征，先对该视频特征进行处理，得到该待处理视频的预估反馈信息。由于该预估反馈信息是用于表征用户对该待处理视频进行预测反馈操作对应的指标信息，例如点击率、点赞率、转发率等预估指标信息，这些预估指标信息能够很好的反映用户对该待处理视频的后验反馈操作的情况，可以充分挖掘用户的二跳行为(例如点赞率、转发率等)。之后再根据根据预估反馈信息和视频特征，确定该待处理视频是否为广告视频。通过预估反馈信息与视频特征一起配合，可以对隐蔽的广告视频的隐藏特征进行更好地识别，从而利于在不检测视频全量帧的前提下快速地识别出广告视频，不仅降低了视频处理过程对计算机能力的限制，而且提高了视频处理效率，提升了对广告视频的识别准确率。

在一示例性实施例中，如图5和6所示，上述步骤S402，所述通过第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤之前，所述方法还可以包括：

在步骤S501中，通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征。

其中，该相似度特性用于表征待处理视频中提取的各视频帧与封面帧之间的相似程度。

在一示例性实施例，上述步骤S501可以包括：

在步骤S5011中，将所述第一特征和每个随机帧的第二特征输入至注意力机制模块；

在步骤S5012中，通过所述注意力机制模块对所述第一特征中每个特征分量和对应的每个随机帧的第二特征中每个特征分量进行点乘处理，得到相似度矩阵；所述相似度矩阵包括所述待处理视频中每个随机帧与对应的封面帧之间的相似度向量；

在步骤S5013中，对所述相似度矩阵中各相似度向量进行叉乘处理，得到相似性特征。

这里的注意力机制模块可以设置在输入第二子网络之前，也可设置在第二子网络中。其中点乘处理也即进行內积处理，进行相似度计算；叉乘处理也即进行外积处理，通过向量外积对相似度计算所得的相似度矩阵进行一维向量表达。该相似性特征的输出表达可为A＝[A0,A1,...An]，其中，A0为封面帧与封面帧之间的相似度值，其可为1；Ai为第i个随机帧与封面帧之间的相似度值，其可选取0～1中任意值,。

在一些情况下，对于隐蔽性较好的广告视频，例如封面帧为非广告，而视频内容中存在广告内容，单纯依靠第一子网络和第二子网络来提取特征是远远不够的。

本公开实施例，通过对封面帧和随机帧的各嵌入特征进行內积处理和外积处理，可以计算封面帧与各随机帧的相似度，从而能够充分学习到封面帧与随机帧的差别，弱化对识别结果奉献不大的特征，便于基于该相似度有效地识别出这类隐蔽性广告视频，可以提高广告视频的识别准确性，同时可简化计算量。

在步骤S502中，将所述相似性特征与所述第一特征和第二特征进行乘操作，得到所述待处理视频的联合特征。

可选地，可以将第一特征和第二特征进行拼接，得到F＝[F0,F1,...Fn]，其中F0为封面帧的第一特征，Fi为第i个随机帧的第二特征。通过将上述A与F进行乘操作，也即将F中各特征分量与A中对应的相似度值相乘，例如第i个随机帧的第二特征与对应的第i个随机帧的相似度值相乘，即得到所述待处理视频的联合特征。该联合特征可以用于表征待处理视频的随机帧与视频帧的内在关联程度。

在一示例性实施例中，上述步骤S402，所述通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤可以包括：

在步骤S503中，通过所述第二子网络对所述视频特征和所述联合特征进行非线性处理，获得第二处理特征。

可选地，若注意力机制模块设置在输入第二子网络之前，则可以先将视频特征和所述联合特征进行拼接在一起，之后将拼接后的特征一起输入至该第二子网络，利用该第二子网络对视频特征和联合特征进行非线性处理，获得第二处理特征。

若注意力机制模块设置在第二子网络内，则可以省略将联合特征输入至第二子网络的步骤，直接将输入至第二子网络中的视频特征和该注意力机制模块产生的联合特征进行拼接之后，利用第二子网络中的各隐含层对拼接后的视频特征和联合特征进行非线性处理，获得第二处理特征。

由于该联合特征继承了随机帧与视频帧的相似关系，更有利于将隐蔽的广告视频识别处理，进一步提高视频处理的准确率。

本公开上述实施例，通过注意力机制模块计算第一特征与对应的每个随机帧的第二特征的相似度，之后将计算得到的相似性特征与第一特征和第二特征进行乘操作，得到待处理视频的联合特征，接着通过第二子网络对该视频特征和联合特征进行非线性处理，得到第二处理特征。从而基于相似性特征能够充分学习到封面帧与随机帧的差别，通过该联合特征能够弱化对识别结果奉献不大的特征，充分考虑了封面帧与随机帧的差别，使得第二子网络能够充分学习视频特征和联合特征的的内在联系，便于有效地识别出隐蔽性广告视频，可以进一步提高广告视频的识别准确性，同时可减少计算量。

在一示例性实施例，上述步骤S204，所述根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频步骤之后，所述方法还可以包括：

在步骤S205中，在确定待处理视频为广告视频的情况下，屏蔽所述待处理视频。

服务器在确定待处理视频为广告视频的情况，可以直接屏蔽该待处理视频，不向终端发送该待处理视频的视频信息，以使得该待处理视频不能在终端界面上展示出来。

在一些可选实施例，在确定待处理视频为广告视频的情况下，对该广告视频的处理操作并不限于上述的屏蔽操作，还可进行其他视频后处理操作，例如拦截该待处理视频、清除、打上广告标签、视频发布审核不通过、禁止发布、下架等，本申请对具体视频后处理操作不作具体限定。

本公开上述实施例，通过将确定为广告视频的待处理视频进行屏蔽处理，可以减少用户对广告视频的点击或操作，避免用户浪费时间观看该广告视频以降低用户体验感，可显著提高用户使用粘度。

在一示例性实施例，服务器在执行视频处理之前，可以构建视频处理模型。该视频处理模型至少包括嵌入网络、反馈预测网络、第一子网络、第二子网络、注意力机制模块中至少一种。若视频处理模型包括多种，则可以对网络或模块进行联合训练得到；当然，也可单独训练得到，例如可以先训练反馈预测网络，再联合训练其他网络和/或模块。

仅作为示例，在训练反馈预测网络的过程中，训练所使用的第一训练样本包括多个样本视频的视频特征以及每个所述样本视频对应的反馈信息样本，每个视频样本的视频特征包括至少包括用于表征所述样本视频中封面帧的内容信息的第一样本特征，以及用于表征所述待处理视频中随机帧的内容信息的第二样本特征。

可选地，该第一训练样本的构建方式可以包括：先收集一批视频广告(比如短视频广告)，将该视频广告随机插入正常的视频中并与收集的视频广告、正常视频，一起投放给全站用户，通过用户的点击、点赞、关注、播放时长、转发、评论、踩、展示量等计算正常视频和广告视频的点击率、点赞率、关注率、长播率、转发率、评论率、踩的概率等指标。之后对投放给用户的正常视频和广告视频提取embedding特征，该embedding特征包括但不限于封面(随机帧)的类别特征、封面(随机帧)的图像特征、封面(随机帧)标题的bert特征、封面(随机帧)ocr的bert特征等视频特征。之后，将该每个样本视频的视频特征与以及每个所述样本视频对应的反馈信息样本(例如点击率、点赞率、关注率、长播率、转发率、评论率、踩的概率等反馈指标)构建该第一训练样本。当然，在一些实施方式，该embedding特征还可包括发布者ID、常住地、点击的用户列表、点赞的用户列表、转发的用户列表等用户特征。也即，此时，该第一训练样本包括多个视频样本的视频特征、用户特征以及每个视频样本的对应的反馈信息样本(例如点击率、点赞率、关注率、长播率、转发率、评论率、踩的概率等反馈指标)。在第一训练样本中，引入点击的用户列表、点赞的用户列表和转发的用户列表的用户特征可以学习发布用户与其他用户之前的关联关系。

通过构建的第一训练样本对预训练反馈预测网络进行多任务训练，以预测每个视频样本对应的预测反馈信息指标，并利用实际的反馈指标作为训练目标进行网络训练，直至达到训练结束条件，获得训练好的反馈预测网络。

在联合训练第一子网络和第二子网络过程中，训练所使用的第二训练样本至少包括多个样本视频的视频特征以及每个所述样本视频对应的视频属性标签(例如广告视频和非广告视频)，还可包括每个样本视频的相关用户的用户特征；其联合训练过程与上述方法实施例相似，仅训练过程中用到的是样本视频、样本视频对应的视频特征和样本视频对应的相关用户数据，这里对具体网络训练过程以及其有益效果不再赘述。

本公开实施例提供的视频处理方法可以应用于以下任一场景下。

在视频搜索或视频推荐场景，服务器可以响应终端发送的搜索请求或推荐请求，确定相应的各候选视频，将该各候选视频作为待处理视频，执行本公开实施例提供的视频处理方法，以确定该待处理视频是否为广告视频。之后根据视频处理结果更新候选视频，并确定目标视频列表并返回至终端，以使得终端界面上展示该目标推荐视频或目标搜索视频。从而，避免了向用户发送广告视频，从而可提升视频推荐或视频搜索质量以及效果。

在视频发布审核场景中，用户在终端上制作完视频文件后，在视频发布之前，可以将视频文件发送至服务器。服务器可以获取该视频文件对应的待处理视频的视频信息，执行本公开实施例提供的视频处理方法，以确定该待处理视频是否为广告视频。若服务器确定该待处理视频为广告视频时，可以将该视频文件退回给终端，并可以向终端反馈存在广告内容，审核不通过的提示消息。若服务器确定该待处理视频不是广告视频，则在验证该待处理视频满足其它发布条件的情况下，可以反馈审核通过的提示消息，以使得录制的视频文件可以被发布。

在视频优化场景中，用户可以通过触发终端上的如视频优化控件(例如按钮或选项)，向服务器发送视频优化请求，服务器响应该视频优化请求获取预设时间段内发布至终端上的待优化视频列表，从存储有待优化视频的设备中获取待优化的视频的视频信息，并将获取的待优化的视频的视频信息作为该待处理视频的视频信息，以执行对该待处理视频进行视频处理操作。服务器在确定终端界面上展示的或即将刷新展示的待处理视频为广告视频的情况，服务器可以对该待处理视频进行屏蔽操作或者广告标记操作(比如在封面插入广告字样等)，从而优化终端上的视频展示界面，以使得展示在终端界面上的该视频上存在广告标记，通过该广告标记可以提示用户该视频为广告视频，避免用户误点击播放。

当然，除了上述场景之外，本公开实施例还可应用于其他需要广告视频识别的场景。

图7是根据一示例性实施例示出的一种视频处理装置框图。参照图7，该装置包括获取模块710、第一特征提取模块720、第一处理模块730和第二处理模块740。

该获取模块710，被配置为执行获取待处理视频的视频信息；

该第一特征提取模块720，被配置为执行对所述视频信息进行内容特征提取，获得所述待处理视频的视频特征，所述视频特征至少用于表征所述待处理视频中封面帧的内容信息和随机帧的内容信息；

该第一处理模块730，被配置为执行对所述视频特征进行处理，获得所述待处理视频的预估反馈信息，所述预估反馈信息用于表征用户对所述待处理视频进行预测反馈操作对应的指标信息；

该第二处理模块740，被配置为执行根据所述视频特征和所述预估反馈信息，确定所述待处理视频是否为广告视频。

在一示例性的实施例，所述装置还可以包括第二特征提取模块；

该第二特征提取模块750，被配置为执行对所述视频信息进行用户特征提取，获得所述待处理视频的用户特征，所述用户特征用于表征与所述待处理视频相关用户的用户信息。

相应地，该第一处理模块730，被配置为具体执行将所述视频特征和所述用户特征输入至反馈预测网络；以及通过所述反馈预测网络对所述视频特征和所述用户特征进行处理，获得所述待处理视频的预估反馈信息。

在一示例性的实施例，所述装置还可包括屏蔽模块；

该屏蔽模块760，被配置为执行在确定待处理视频为广告视频的情况下，屏蔽所述待处理视频。

在一示例性的实施例，所述视频特征至少包括用于表征所述待处理视频中封面帧的内容信息的第一特征，和用于表征所述待处理视频中随机帧的内容信息的第二特征；

该第一特征提取模块720包括数据提取单元、第一编码单元和第二编码单元；

该数据提取单元，被配置为执行从所述视频信息中提取封面帧数据和若干随机帧数据；

在一示例性的实施例，所述预估反馈信息包括用于表征用户对所述待处理视频进行预测反馈操作对应的多个预估指标信息；

该第二处理模块740可以包括线性处理单元、非线性处理单元和确定单元；

该线性处理单元，被配置为执行将所述预估反馈信息输入至第一子网络，通过所述第一子网络对所述预估反馈信息中各预估指标信息进行线性处理，获得第一处理特征；

该非线性处理单元，被配置为执行将所述视频特征输入至第二子网络，通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征；

该确定单元，被配置为执行基于所述第一处理特征和所述第二处理特征，确定所述待处理视频是否为广告视频。

在一示例性的实施例，该非线性处理单元，被配置为具体执行通过所述第二子网络中至少两层全连接层和至少两层激活层，对所述视频特征进行非线性处理，获得第二处理特征，每层全连接层连接一层激活层。

该确定单元，被配置为具体执行将所述第一处理特征和所述第二处理特征进行向量拼接，得到拼接向量；以及对所述拼接向量进行全连接分析处理，确定所述待处理视频是否为广告视频。

在一示例性的实施例，所述装置还可以包括相似特征确定模块770和联合特征确定模块780；

该相似特征确定模块770，被配置为执行通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征；

该联合特征确定模块780，被配置为执行将所述相似性特征与所述第一特征和第二特征进行乘操作，得到所述待处理视频的联合特征。

在一示例性的实施例，该非线性处理单元，被配置为具体执行通过所述第二子网络对所述视频特征和所述联合特征进行非线性处理，获得第二处理特征。

在一示例性的实施例，该相似特征确定模块770可以包括输入单元、点乘单元和叉乘单元；

该输入单元，被配置为执行将所述第一特征和每个随机帧的第二特征输入至注意力机制模块；

该点乘单元，被配置为执行通过所述注意力机制模块对所述第一特征中每个特征分量和对应的每个随机帧的第二特征中每个特征分量进行点乘处理，得到相似度矩阵；所述相似度矩阵包括所述待处理视频中每个随机帧与对应的封面帧之间的相似度向量；

该叉乘单元，被配置为执行对所述相似度矩阵中各相似度向量进行叉乘处理，得到相似性特征。

在一示例性的实施例，所述装置还可以包括模型构建模块，

该模型构建模块，被配置为执行构建视频处理模型；

本公开实施例通过对待处理视频中封面帧和随机帧的内容信息进行特征提取得到视频特征，先对该视频特征进行处理，得到该待处理视频的预估反馈信息。由于该预估反馈信息是用于表征用户对该待处理视频进行预测反馈操作对应的指标信息，例如点击率、点赞率、转发率等预估指标信息，这些预估指标信息能够很好的反映用户对该待处理视频的后验反馈操作的情况，可以充分挖掘用户的二跳行为(例如点赞率、转发率等)。之后再根据根据预估反馈信息和视频特征，确定该待处理视频是否为广告视频。通过预估反馈信息与视频特征一起配合，可以对隐蔽的广告视频的隐藏特征进行更好的识别，从而利于在不检测视频全量帧的前提下快速地识别出广告视频，不仅降低了视频处理过程对计算机能力的限制，而且提高了视频处理效率，提升了对广告视频的识别准确率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种电子设备的框图。参照图10，电子设备包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例中任一视频处理方法的步骤。

该电子设备可以终端、服务器或者类似的运算装置，以该电子设备是服务器为例，图10是根据一示例性实施例示出的一种用于视频处理的电子设备的框图，该电子设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(CentralProcessing Units，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在电子设备1000上执行存储介质1020中的一系列指令操作。

电子设备1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作系统1021，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个示例性实施例中，输入输出接口1040可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备1000的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一种实施方式中提供的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理视频的视频信息；

2.根据权利要求1所述的视频处理方法，其特征在于，所述根据视频识别网络对所述第一特征、所述第二特征和所述预估反馈信息进行识别处理，确定所述待处理视频是否为广告视频步骤之后，所述方法还包括：

3.根据权利要求1所述的视频处理方法，其特征在于，所述对所述视频特征进行处理，获得所述待处理视频的预估反馈信息步骤之前，所述方法还包括：

将所述视频特征和所述用户特征输入至反馈预测网络；

4.根据权利要求1-3任一所述的视频处理方法，其特征在于，所述视频特征至少包括用于表征所述待处理视频中封面帧的内容信息的第一特征，和用于表征所述待处理视频中随机帧的内容信息的第二特征；

从所述视频信息中提取封面帧数据和若干随机帧数据；

5.根据权利要求1所述的视频处理方法，其特征在于，所述预估反馈信息包括用于表征用户对所述待处理视频进行预测反馈操作对应的多个预估指标信息；

6.根据权利要求5所述的视频处理方法，其特征在于，所述通过所述第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤包括：

7.根据权利要求5或6所述的视频处理方法，其特征在于，所述通过第二子网络对所述视频特征进行非线性处理，获得第二处理特征步骤之前，所述方法还包括：

8.根据权利要求7所述的视频处理方法，其特征在于，所述通过注意力机制模块计算所述第一特征与对应的每个随机帧的第二特征的相似度，得到相似性特征步骤包括：

9.一种视频处理装置，其特征在于，包括：

获取模块，被配置为执行获取待处理视频的视频信息；

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的视频处理方法。