CN114417058A

CN114417058A - 一种视频素材的筛选方法、装置、计算机设备和存储介质

Info

Publication number: CN114417058A
Application number: CN202210010684.8A
Authority: CN
Inventors: 刘畅; 彭一晋; 陈学彬
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-29

Abstract

本发明提供了一种视频素材的筛选方法、装置、计算机设备和存储介质，该方法包括：召回未推送至客户端的素材，作为第一候选素材，素材包含视频数据且标记有标签；以优化评价指标为目标，根据标签表征的语义筛选出部分第一候选素材，作为第二候选素材；以优化评价指标为目标，根据标签表征的语义、视频数据的视觉内容筛选出部分第二候选素材，作为第三候选素材；对第三候选素材生成推送任务，推送任务用于由角色为优化师的用户筛选出部分第三候选素材并推送至客户端。对素材的优劣进行学习，进行知识的积累，从而快速挑选出优质的素材，避免先尝试推送部分素材然后调整的模式，大大提高了操作的简便性、提高推送素材的效率。

Description

一种视频素材的筛选方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机处理的技术领域，尤其涉及一种视频素材的筛选方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的不断进步，互联网媒体已经几乎覆盖率了人们生活的方方面面，由于互联网中的信息量十分之巨大，用户搜索的效率偏低，因此，为了给用户提供更加优质的素材，在运营的过程中会将特定的信息推送给用户。

对于新的素材，目前是由优化师根据经验评估素材的质量，首先尝试性将质量评估较高的素材推送至客户端，根据用户对素材的反馈再进行动态跟踪、调整。

但是，不同业务的素材形态多样，特别是视频类的素材，内容尤为为丰富，数量多达几十万、几百万，优化师挑选素材的效率面临很大的挑战，并且，先尝试性推送再根据用户的反馈调整，操作较为繁琐，增加成本。

发明内容

本发明提出了一种视频素材的筛选方法、装置、计算机设备和存储介质，以解决如何减少优选的素材、提升优化师的效率，并降低成本的问题。

第一方面，本发明实施例提供了一种素材的筛选方法，包括：

召回未推送至客户端的素材，作为第一候选素材，所述素材包含视频数据且标记有标签；

以优化评价指标为目标，根据所述标签表征的语义筛选出部分所述第一候选素材，作为第二候选素材；

以优化评价指标为目标，根据所述标签表征的语义、所述视频数据的视觉内容筛选出部分所述第二候选素材，作为第三候选素材；

对所述第三候选素材生成推送任务，所述推送任务用于由角色为优化师的用户筛选出部分所述第三候选素材并推送至客户端；

其中，所述评价指标为将素材推送至客户端，统计所述客户端对所述素材触发的操作形成的数据。

第二方面，本发明实施例还提供了一种视频素材的筛选装置，包括：

召回模块，用于召回未推送至客户端的素材，作为第一候选素材，所述素材包含视频数据且标记有标签；

粗排模块，用于以优化评价指标为目标，根据所述标签表征的语义筛选出部分所述第一候选素材，作为第二候选素材；

精排模块，用于以优化评价指标为目标，根据所述标签表征的语义、所述视频数据的视觉内容筛选出部分所述第二候选素材，作为第三候选素材；

任务生成模块，用于对所述第三候选素材生成推送任务，所述推送任务用于由角色为优化师的用户筛选出部分所述第三候选素材并推送至客户端；

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的视频素材的筛选方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的视频素材的筛选方法。

在本实施例中，召回未推送至客户端的素材，作为第一候选素材，素材包含视频数据且标记有标签；以优化评价指标为目标，根据标签表征的语义筛选出部分第一候选素材，作为第二候选素材；以优化评价指标为目标，根据标签表征的语义、视频数据的视觉内容筛选出部分第二候选素材，作为第三候选素材；对第三候选素材生成推送任务，推送任务用于由角色为优化师的用户筛选出部分第三候选素材并推送至客户端；其中，评价指标为将素材推送至客户端，统计客户端对素材触发的操作形成的数据。本实施例通过召回、粗排、精排这三个环节筛选素材，在较为高效的基础上，为优化师提供高质量的素材，大大减少了优化师筛选素材的数量，节约成本，在粗排、精排这两个阶段以评价指标为目标，对素材的优劣进行学习，进行知识的积累，从而快速挑选出优质的素材，避免先尝试推送部分素材然后调整的模式，大大提高了操作的简便性、提高推送素材的效率。

附图说明

图1为本发明实施例一提供的一种视频素材的筛选方法的流程图；

图2为本发明实施例一提供的一种筛选素材的过程示意图；

图3是本发明实施例二提供的一种视频素材的筛选方法的流程图；

图4是本发明实施例二提供的一种内容提取网络与内容理解网络的结构示意图；

图5为本发明实施例三提供的一种视频素材的筛选装置的结构示意图；

图6为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频素材的筛选方法的流程图，本实施例可适用于根据标签的语义、视频数据的视觉内容筛选素材的情况，该方法可以由视频素材的筛选装置来执行，该视频素材的筛选装置可以由软件和/或硬件实现，可配置在多媒体平台的计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：

步骤101、召回未推送至客户端的素材，作为第一候选素材。

如图2所示，在本实施例中，可以在多媒体平台中预先建立素材库，如分布式数据库，素材库中存储有大量的素材，这些素材以唯一的ID标识，通过素材的ID即可在素材库中查询素材的相关信息，例如，标签、视频数据，等等。

素材可以是已经推送至客户端的素材，也可以是未推送至客户端的素材，素材具有生命周期，一般为一个月以内，优选的素材的生命周期可以长达半年或更久。

具体而言，素材可以包括音频数据、视频数据、文本数据、图像数据、统一资源定位符(Uniform Resource Locator，URL)、JSON(JavaScript Object Notation，JS对象简谱数据)，等等，对于不同业务场景而言，素材的形式有所不同。

例如，对于新闻媒体领域而言，素材可以为新闻数据，对于多媒体娱乐而言，素材可以为短视频，对于电子商务(Electronic Commerce，EC)领域而言，素材可以为广告数据，等等。

各种素材虽然承载不同业务场景下的业务特性，但其本质仍然是数据。

此外，素材标记有标签，部分标签为素材生成时携带的标签，其中包括素材参数特征(如素材的特效、素材的配乐、视频数据的长宽、视频数据的时长、视频数据的画面质量、素材的简介等)、素材创作者特征(如创作者的国家、创作者的标签、创作者的等级、创作者的年龄、创作者的性别等)，部分标签为推送至客户端之后产生的标签，例如，曝光次数、点击次数、视频数据的播放次数、分享次数、评论数、完播率，等等。

多媒体平台在接收到客户端的请求时，针对不同的业务场景，可从按照不同的业务需求(如召回优质(非个性化)的视频数据、召回符合用户个性化需求的视频数据等)使用不同的召回策略从素材库中召回部分素材，记为第一候选素材，等待粗排、精排。

其中，客户端的请求可以由用户主动触发，例如，用户在客户端输入关键词并请求多媒体平台搜索与该关键词相关的素材，用户下拉已有的素材的列表请求多媒体平台刷新的素材，等等，客户端的请求也可以并非用户主动触发，例如，客户端在显示主页时请求多媒体平台推送优质的素材，客户端在当前素材中的视频数据结束播放前请求多媒体平台推送相关的素材，等等，本实施例对此不加以限制。

在一个示例中，召回策略包括但不限于：

热门召回(召回点击率或播放率最高的多个素材)、在线召回(召回在线的主播用户主持的直播节目(素材))、订阅召回(召回用户订阅的栏目(如某款游戏、餐饮等)的素材)、同国家召回(召回与用户所属国家相同的素材)、同语言召回(召回与用户使用的语言相同的素材)、协同过滤召回(使用协同过滤算法召回素材)、偏好召回(召回与用户的偏好相同的素材)、相似召回(召回与已召回的素材相似的其他素材)。

步骤102、以优化评价指标为目标，根据标签表征的语义筛选出部分第一候选素材，作为第二候选素材。

一般情况下，召回的第一候选素材的数量较多，通常达到万、千这个量级，而精排使用的算法可能较为复杂，为了提高排序的速度，可以在召回和精排之间加入一个粗排的环节。

在本实施例中，可以设置评价指标，其中，评价指标为将素材推送至客户端，统计客户端对素材触发的操作形成的数据。

例如，若素材为新闻数据的标题，其包含URL，该URL指向该新闻数据的所在页面，则评价指标可以为该页面的曝光率。

又如，若素材用于展示某个应用程序，其包含URL，该URL指向该应用程序的下载地址，则评价指标可以为安装该应用程序的概率。

再如，若素材中用于展示某个商品，其包含URL，该URL指向一个商品的地址，则评价指标可以用户下单购买商品的转化率。

如图2所示，在粗排的过程中，提取标签表征的语义上少量的特征，加载至简单的排序模型中，例如，LR(Logistic Regression，逻辑回归)模型、GBDT(Gradient BoostDecision Tree，梯度提升树)模型，等等，以优化评价指标为目的，对召回的第一候选素材进行粗略的排序，选择排序较高的部分第一候选素材，记为第二候选素材，即，推送第二候选素材至客户端相比于推送其他第一候选素材至客户端，更有利于优化评价指标。

粗排可以在保证一定精准的前提下，进一步减少精排的素材的数量，一般可将素材的数量降至千、百这个量级。

步骤103、以优化评价指标为目标，根据标签表征的语义、视频数据的视觉内容筛选出部分第二候选素材，作为第三候选素材。

如图2所示，在精排的过程中，提取标签表征的语义、视频数据的视觉内容上较多的的特征，加载至较为复杂的排序模型中，例如，CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)，等等，以优化评价指标为目的，对粗排的第二候选素材进行精确的排序，选择排序较高的部分第二候选素材，记为第三候选素材，即，推送第三候选素材至客户端相比于推送其他第二候选素材至客户端，更有利于优化评价指标。

精排可以尽量提高排序的精准度，进一步减少发送至客户端的素材的数量，一般可将素材的数量降至百、十这个量级。

步骤104、对第三候选素材生成推送任务。

在本实施例中，针对第三候选素材，可以生成推送任务，推送任务用于由角色为优化师的用户筛选出部分第三候选素材并推送至客户端，即推送任务分配给角色为优化师的用户，角色为优化师的用户使用账号、密码等信息登录客户端，执行推送任务，按照业务的需求挑选部分第三候选素材，这些挑选出来的部分第三候选素材可以打散之后、维持挑选出来的部分第三候选素材的数量(如百、十)推送客户端进行显示。

当然，除了部分第三候选素材之外，部分已推送至客户端的素材属于较为优质的素材，角色为优化师的用户还可以按照业务的需求挑选部分已推送至客户端的素材，这些挑选出来的部分第三候选素材、部分已推送至客户端的素材可以一同打散之后、维持挑选出来的部分第三候选素材的数量(如百、十)推送客户端进行显示。

其中，打散又称之为重排，即，对素材重新进行全局的排序，使得各种类型的素材更加均匀地分布。

实施例三

图3为本发明实施例二提供的一种视频素材的筛选方法的流程图，本实施例以前述实施例为基础，进一步细化粗排、精排的操作，该方法具体包括如下步骤：

步骤301、召回未推送至客户端的素材，作为第一候选素材。

其中，素材包含视频数据且标记有标签。

步骤302、从第一候选素材的标签中提取表征语义的第一素材特征。

对于第一候选素材，可以在素材库中查找对其标记的一个或多个标签，对一个或多个标签进行自然语言处理，从而提取一个或多个标签在语义上的特征，记为第一素材特征。

在本发明的一个实施例中，步骤302可以包括如下步骤：

步骤3021、确定连续词袋模型。

在本实施例中，可以预先训练连续词袋模型(continuous bag of words，CBOW)，将连续词袋模型的结构及参数存储在数据库中，在对第一候选素材粗排时，将连续词袋模型及其参数加载至内存运行。

连续词袋模型可以通过目标词(target word)周围的背景词(context word)来预测目标词(target word)。

在本发明的一个实施例中，步骤3021进一步可以包括如下步骤：

步骤30211、获取已推送至客户端的素材，作为历史素材。

素材是否推送至客户端可以作为一项信息记录在素材库中，那么，在素材库中查询该项信息，提取已推送至客户端的素材，记为历史素材。

一般情况下，可以使用真实已推送至客户端的历史素材训练连续词袋模型，但真实已推送至客户端的历史素材较为稀疏，为保证连续词袋模型的性能，可以在真实已推送至客户端的历史素材的基础上，构建已推送至客户端的历史素材。

在构建历史素材的过程中，可以获取未推送至客户端的素材，作为第一原始素材，第一原始素材的标签为第一原始素材生成时携带的标签，缺乏将第一原始素材推送至客户端之后产生的标签。

此时，召回与历史素材相似的第一原始素材，作为第二原始素材，为便于计算，可以应用标签对是否相似进行评价，例如，历史素材的国家(标签)与第一原始素材的国家(标签)相同时，可以认为历史素材与第一原始素材相似，历史素材中创造者(标签)与第一原始素材的创造者(标签)行为相似时，可以认为历史素材与第一原始素材相似，等等。

通过K-means(K均值聚类)等算法，以历史素材为中心对第二原始素材进行聚类，获得素材簇。

在素材簇中，将历史素材在推送至客户端后产生的部分标签共享至最接近历史素材的多个第二原始素材，以使多个第二原始素材成为新的历史素材。

本实施例参考历史素材将未推送至客户端的第一原始素材构建为新的历史素材，由于客户端对相似的素材的行为相近，因此可以保证共享至第一原始素的标签具有一定的准确性，以此大大提高历史素材的数量，可保证连续词袋模型的性能。

步骤30212、对历史素材的标签进行分词处理，获得多个词组。

将历史素材的标签进行分词处理，将历史素材中长度较长的标签拆解，得到多个词组。

其中，标签的语言有所不同，相应的分词处理也有所不同，例如，对于英文的标签，分词处理为拆分单词，对于中文的标签，分词处理为jieba分词等。

步骤30213、将多个词组编码为第一词向量。

对于历史素材中各个标签的词组，可以进行one-hot(独热编码)等方式编码为向量，记为第一词向量，即，以向量的形式表示历史素材各个标签中的词组，将历史素材中各个标签的分析化简为向量空间中的向量运算。

其中，one-hot又称为一位有效编码，采用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且，在任意时候只有一位有效。one-hot编码的向量是分类变量、作为二进制向量的表示，这要求将分类值映射到整数值，每个整数值被表示为二进制向量，除了整数的索引之外，其它都是0，索引被标记为1。

假设共有V个待编码的词组，则第一词向量为x_i的维度为1×V。

步骤30214、针对当前词组，将属于上下文的其他词组的第一词向量输入连续词袋模型中、映射为当前词组的第二词向量。

遍历历史素材各个标签中的每个词组，按照排序依次视为当前词组，确定属于当前词组上下文的其他词组，其他词组一般为排序在当前词组之前的词组、排序在当前词组之后的词组，将上下文的第一词向量输入连续词袋模型中、连续词袋模型将上下文的第一词向量映射为当前词组的第二词向量。

进一步而言，连续词袋模型具有输入层(Input Layer)、一层或多层隐藏层(Hidden Layer)、输出层(Output Layer)。

输入层的输入为属于当前第一词向量上下文的其他第一词向量，对于隐藏层，计算第一层隐藏层的输出h₁，共享的矩阵W_input维度为V×N,N表示每个隐藏层的维度，h₁的维度为1×N，那么：

其中，window为用于选定第一词向量为x_i上下文的窗口。

经过n层隐藏层，输出层的输出output，其中，h_n表示最后一层隐藏层，维度为N，共享的矩阵W_output维度为N×V，output的维度为1×V，那么：

output＝h_n×W_output

将输出的向量使用Softmax等激活函数(activation function，激活函数引入非线性因素，提高模型的表达力)归一化处理得到维度1×V的向量，在V个取值中选择概率最大的数字对应的位置为当前词组的第二词向量。

其中，Softmax是一种逻辑函数，能将一个含任意实数的K维向量z压缩到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，该函数多用于多分类问题中。

步骤30215、基于第二词向量计算标签损失值。

对于同一词组，将预测的第二词向量与真实的标签代入预设的损失函数(LossFunction)中，如交叉熵(cross entropy)，计算预测的第二词向量与真实的标签之间的损失值LOSS，记为标签损失值。

其中，真实的标签为向量，维度为1×V，V个值中有一个是1，其他是0。

步骤30216、按照标签损失值更新连续词袋模型。

在完成前向传播之后，可以对连续词袋模型进行反向传播，可将标签损失值代入SGD(stochastic gradient descent，随机梯度下降)、Adam(Adaptive momentum，自适应动量)等优化算法中，计算更新连续词袋模型中参数的幅度，按照该幅度更新连续词袋模型中的参数(共享的矩阵W_input，共享的矩阵W_output)。

步骤30217、判断是否满足词袋训练条件；若是，则执行步骤30218，若否，则返回执行步骤30214。

步骤30218、确定连续词袋模型训练完成。

在本实施例中，可以预先设置词袋训练条件，作为停止训练连续词袋模型的条件，例如，迭代的次数达到阈值，标签损失值连续多次的变化幅度小于阈值，等等，在每轮迭代训练中，判断是否满足词袋训练条件。

如果满足词袋训练条件，则可以认为连续词袋模型训练完成，此时，输出连续词袋模型中的参数，并持久化至数据库中。

如果未满足词袋训练条件，则可以进入下一轮迭代训练，重新执行步骤3014-步骤3016，如此循环迭代训练，直至连续词袋模型训练完成。

进一步地，连续词袋模型可以是独立训练，也可以是以历史素材作为样本对预训练的连续词袋模型进行微调(fine tuning)，即，在预训练的连续词袋模型的基础上，利用历史素材作为目标任务的样本继续训练，本实施例对此不加以限制。

步骤3022、对第一候选素材的标签进行分词处理，获得多个词组。

将第一候选素材的标签进行分词处理，将第一候选素材中长度较长的标签拆解，得到多个词组。

步骤3023、将多个词组编码为第一词向量。

对于第一候选素材中各个标签的词组，可以进行one-hot(独热编码)等方式编码为向量，记为第一词向量，即，以向量的形式表示第一候选素材各个标签中的词组，将第一候选素材中各个标签的分析化简为向量空间中的向量运算，为素材的筛选奠定数据基础。

步骤3024、针对当前词组，将属于上下文的其他词组的第一词向量输入连续词袋模型中、映射为当前词组的第二词向量，作为第一素材特征。

遍历第一候选素材各个标签中的每个词组，按照排序依次视为当前词组，确定属于当前词组上下文的其他词组，其他词组一般为排序在当前词组之前的词组、排序在当前词组之后的词组，将上下文的第一词向量输入连续词袋模型中、连续词袋模型将上下文的第一词向量映射为当前词组的第二词向量。

步骤303、根据第一素材特征计算第一候选素材对于评价指标的重要度，作为第一分数。

对于第一候选素材在语义上表征的特征(即第一素材特征)，可以通过机器学习或深度学习挖掘历史上将素材推送至客户端的情况，从而在语义上学习第一候选素材对于评价指标的重要度，记为第一分数。

在本发明的一个实施例中，步骤303进一步可以包括如下步骤：

步骤3031、确定第一梯度提升决策树、第一特征集合。

在本实施例中，可以预先针对素材的标签在语义上表征的特征训练梯度提升决策树(Light Gradient Boosting Machine，LightGBM)，记为第一梯度提升决策树，将第一梯度提升决策树的结构及参数存储在数据库中，在对第一候选素材粗排时，将第一梯度提升决策树及其参数加载至内存运行。

提升决策树(Gradient Boosting Decision Tree，GBDT)是利用弱分类器(决策树)迭代训练以得到最优的模型，即，提升决策树由多棵决策树组成，所有决策树的结论累加起来做最终结果，该模型具有训练效果好、不易过拟合等优点。而LightGBM是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

此外，可以预先针对素材的标签在语义上表征的特征训练第一特征集合，第一特征集合记录在先由第一决策提升树按照对于评价指标的重要度筛选的第一样本特征，构造第一样本特征的方式与构造第一素材特征的方式一致，即，第一样本特征为素材的标签(词组)在语义上表征的特征。

在具体实现中，获取已推送至客户端的素材，作为历史素材。

在历史素材较为稀疏的情况下，可获取未推送至客户端的素材，作为第一原始素材，召回与历史素材相似的第一原始素材，作为第二原始素材，以历史素材为中心对第二原始素材进行聚类，获得素材簇，在素材簇中，将历史素材在推送至客户端后产生的部分标签共享至最接近历史素材的多个第二原始素材，以使多个第二原始素材成为新的历史素材，由于客户端对相似的素材的行为相近，因此可以保证共享至第一原始素的标签具有一定的准确性，以此大大提高历史素材的数量，可保证第一梯度提升决策树的性能。

从历史素材的标签中提取表征语义的第一素材特征。

具体而言，确定连续词袋模型，对历史素材的标签进行分词处理，获得多个词组，将多个词组编码为第一词向量，针对当前词组，将属于上下文的其他词组的第一词向量输入连续词袋模型中、映射为当前词组的第二词向量，作为第一素材特征。

对于历史素材，可以划分为正样本、负样本这两个类别，由于素材推送客户端的现实原因，历史素材中正样本、负样本并不平衡，如果忽略不平衡的现象，第一梯度提升决策树会向数量较多的类别偏移。

因此，根据历史素材中正样本的数量、负样本的数量之间的比率来确定正样本的权重、负样本的权重，即，正样本的权重与正样本的数量占比负相关，负样本的权重与正样本的数量占比负相关。

经过加权，第一梯度提升决策树在训练过程中确定子树的分支点时，会强调具有较大权重的类别，从而保证第一梯度提升决策树的性能。

对于第一梯度提升决策树，可以设置评价优劣的指标为AUC(Area Under Curve)、binary_logloss(二分类对数损失)等。

其中，AUC是ROC(Receiver Operating Characteristic Curve，观测者操作特性曲线)曲线下与坐标轴围成的面积。

此外，设置训练的参数，包括：

1、核心参数，主要为指标类型、任务类型、训练目标、模型类型、迭代次数、学习率、叶子节点数等。

2、学习控制参数，主要为决策树的深度、一个叶子上数据的最小数量(用来减少过拟合)、不进行重采样的情况下随机选择数据比例、Bagging(装袋算法，是一种重要的集成学习方法)的次数、每次迭代中随机选择特征比例、L1正则、L2正则等。

3、其他参数，主要为数据集参数、预测参数等。

那么，以优化评价指标为目标，使用第一素材特征训练第一梯度提升决策树，为了找到最佳的参数，可以使用scikit-sklearn(python编程语言的自由软件机器学习库)中的GridSearchCV(对机器学习模型的指定参数值进行详尽搜索)对指定的参数执行网格搜索网格，训练寻找最优解。

第一梯度提升决策树能够实现自适应第一素材特征自动调整参数，从而突出对评价指标较为重要的第一素材特征的权重、削弱与评价目标相关性小的第一素材调整的权重。

第一梯度提升决策树在训练完成时输出第一素材特征对于评价指标的重要度，即，第一素材特征与评价指标的相关性。

筛选重要度大于预设的第一阈值的第一素材特征，作为第一样本特征写入第一特征集合中。

以优化评价指标为目标，使用第一样本特征再次训练第一梯度提升决策树，在再次训练第一梯度提升决策树完成时，保存第一梯度提升决策树的参数，通过两轮训练，可以大大提高第一梯度提升决策树计算第一素材特征对于评价指标的重要度的精确度。

步骤3032、筛选与第一样本特征相同的第一素材特征，作为第一目标特征。

在本实施例中，可以将第一素材特征与第一特征集合中的第一样本特征进行比较，如果第一素材特征与第一特征集合中的第一样本特征相同，则保留该第一素材特征，记为第一目标特征，如果第一素材特征与第一特征集合中的第一样本特征不同，则滤除该第一素材特征。

步骤3033、将第一目标特征输入第一梯度提升决策树中计算第一候选素材对于评价指标的重要度，作为第一分数。

针对第一候选素材中的第一素材特征，将所有第一目标特征组合之后，输入第一梯度提升决策树中，第一梯度提升决策树计算第一候选素材对于评价指标的重要度，记为第一分数。

步骤304、选择第一分数最高的部分第一候选素材为第二候选素材。

按照第一分数对第一候选素材进行降序排序，选择排序最高的k(k为正整数)个第一候选素材，记为第二候选素材。

步骤305、确定第一分数。

在精排的过程中，可以查询粗排时生成的第一分数，第一分数表示在标签表征的语义下、第一候选素材对于评价指标的重要度。

步骤306、从第二候选素材的视频数据中提取表征视觉内容的第二素材特征。

对于第二候选素材，可以在素材库中查找其包含的视频数据，对视频数据进行计算机视觉的处理，从而提取视频数据在视觉内容上的特征，记为第二素材特征。

在本发明的一个实施例中，步骤306可以包括如下步骤：

步骤3061、确定内容提取网络、内容理解网络。

在本实施例中，可以预先训练内容提取网络、内容理解网络，内容提取网络、内容理解网络均属于深度学习的模型，分别将内容提取网络的结构及参数、内容理解网络的结构及参数存储在数据库中，在对第二候选素材精排时，分别将内容提取网络及参数、内容理解网络及参数加载至内存运行。

其中，内容提取网络用于提取第二候选素材中视频数据的内容特征，该内容特征与评价指标无关。

内容理解网络用于对内容特征进行映射，使得与评价指标相关。

在本发明的一个实施例中，步骤3061进一步可以包括如下步骤：

步骤30611、获取已推送至客户端的素材，作为历史素材。

在历史素材较为稀疏的情况下，可获取未推送至客户端的素材，作为第一原始素材，召回与历史素材相似的第一原始素材，作为第二原始素材，以历史素材为中心对第二原始素材进行聚类，获得素材簇，在素材簇中，将历史素材在推送至客户端后产生的部分标签共享至最接近历史素材的多个第二原始素材，以使多个第二原始素材成为新的历史素材，由于客户端对相似的素材的行为相近，因此可以保证共享至第一原始素的标签具有一定的准确性，以此大大提高历史素材的数量，可保证内容理解网络的性能。

步骤30612、从历史素材的视频数据中提取多帧图像数据。

在本实施例中，可以按照预设的频次(如1FPS(Frames Per Second，每秒传输帧数))从历史素材的视频数据中提取多帧图像数据，形成序列。

步骤30613、将图像数据输入预训练为图像分类的内容提取网络中提取与评价指标无关的第一图像特征。

由于历史素材中的视频数据的数量有限，无法直接训练整个模型(即内容提取网络、内容理解网络)，且每次更新历史素材的视频数据后训练整个模型(内容提取网络、内容理解网络)开销太大，因此，在本实施例中，采用双阶段微调的方式，将整个模型分为内容提取网络和内容理解网络。

内容提取网络是预先训练为图像分类的模型，其参数固定，训练内容提取网络的任务并不一定与评价指标相关。

因此，将序列中的图像数据输入内容提取网络中，内容提取网络提取与评价指标无关的特征，记为第一图像特征。

在一个示例中，如图4所示，内容提取网络包括残差神经网络(Residual NeuralNetwork，ResNet)、时态移位网络(Temporal Shift Module for Efficient VideoUnderstanding，TSM)，即，内容提取网络为残差神经网络、时态移位网络融合的网络结构，包括2D CNN(二维卷积层，在卷积层执行2D卷积以从前一层的特征图上的局部邻域中提取特征)、残差块(residual block，残差块是一组层，其设置方式是将层的输出添加到块中更深的另一层。将其与主路径中对应层的输出相加后应用非线性操作，这种旁路连接称为快捷方式或跳连接)、时间转移模块、BN(batch normalization layer，也叫批量归一化，是一种通过变换重构对层的输入进行归一化，解决在训练过程中中间层数据分布发生改变的问题，使网络训练更快、更稳定)层、激活函数层、池化层(pooling layer，池化层是模仿人的视觉系统对数据进行降维，用汇总特征表示图像)、全连接层(fully connected Layer，一般位于整个卷积神经网络的最后，负责将卷积输出的二维特征图转化成一维的一个向量，实现网络端到端的学习过程)等结构，损失函数使用交叉熵损失和三元组损失(tripleloss，将锚点(anchor)样本与正(positive)样本和负(negative)样本进行比较，将锚点样本与正样本之间的距离最小化，将锚点样本与负样本之间的距离最大化)，可使用历史素材的视频数据中的图像数据训练，同源(视频数据)的图像数据视为为同一类，并具有相同的类别标签。

其中，残差神经网络为用于图像识别的深度残差学习框架，使用残差网络结构更容易优化，并且可以从显着增加的深度中获得更高的准确性，具体可以包括ResNet11、ResNet18，等等。

时态移位网络应用于深度学习的视频理解，可以达到3D CNN(三维卷积层，在卷积阶段执行3D卷积，以从空间和时间维度计算特征，3D卷积是通过将3D内核卷积到由多个连续帧堆叠在一起形成的立方体来实现的)的性能，但保持2D CNN的复杂性。TSM沿时间维度移动部分通道，从而促进相邻帧之间的信息交换。

那么，将序列中的图像数据输入残差神经网络中提取与评价指标无关的特征，记为残差特征，以及，将残差特征输入时态移位网络中提取与评价指标无关的特征，记为第一图像特征。

步骤30614、将第一图像特征输入内容理解网络中提取与评价指标相关的第二图像特征。

内容理解网络的输入层连接内容提取网络最后一层(一般为全连接层)，将序列中的第一图像特征输入内容理解网络中，内容理解网络提取与评价指标相关的特征，记为第二图像特征。

在一个示例中，如图4所示，内容理解网络包括第一全连接层FC、第二全连接层FC，那么，将第一图像特征输入第一全连接层中映射为与评价指标相关的特征，记为全连接特征，以及，将全连接特征输入第二全连接层中映射为与评价指标相关的特征，记为第二图像特征，以此作为第二素材特征。

步骤30615、基于第二图像特征按照评价指标计算内容损失值。

对于同一帧图像数据，将预测的第二图像特征与真实的标签代入预设的损失函数中，计算预测的第二图像特征与真实的标签之间的损失值，记为内容损失值。

进一步而言，针对不同类型的评价指标，损失函数有所不同，即，评价指标与损失函数存在映射关系，例如，若评价指标为是否安装应用程序，则损失函数为交叉熵，若评价指标为应用程序的安装率、转化率，则损失函数为均方差，等等。

步骤30616、按照内容损失值更新内容理解网络。

在完成前向传播之后，可以对内容损失值进行反向传播，可将内容损失值代入SGD、Adam等优化算法中，计算更新内容损失值中参数的幅度，按照该幅度更新内容损失值中的参数。

步骤30617、判断是否满足内容训练条件；若是，则执行步骤30618，若否，则返回执行步骤30613。

步骤30618、确定内容理解网络训练完成。

在本实施例中，可以预先设置内容训练条件，作为停止训练内容理解网络的条件，例如，迭代的次数达到阈值，内容损失值连续多次的变化幅度小于阈值，等等，在每轮迭代训练中，判断是否满足内容训练条件。

如果满足内容训练条件，则可以认为内容理解网络训练完成，此时，输出内容理解网络中的参数，并持久化至数据库中。

如果未满足内容训练条件，则可以进入下一轮迭代训练，重新执行步骤30613-步骤30616，如此循环迭代训练，直至内容理解网络训练完成。

进一步地，内容提取网络、内容理解网络可以是独立训练，也可以是以历史素材作为样本对预训练为图像分类的内容提取网络、内容理解网络进行微调(fine tuning)，即，在预训练为图像分类的内容提取网络、内容理解网络的基础上，利用历史素材作为目标任务的样本继续训练，本实施例对此不加以限制。

步骤3062、从第二候选素材的视频数据中提取多帧图像数据。

在本实施例中，可以按照预设的频次(如1FPS)从第二候选素材的视频数据中提取多帧图像数据，形成序列。

步骤3063、将图像数据输入内容提取网络中提取与评价指标无关的第一图像特征。

将序列中的图像数据输入内容提取网络中，内容提取网络提取与评价指标无关的特征，记为第一图像特征。

在一个示例中，内容提取网络包括残差神经网络、时态移位网络，那么，在本示例中，将序列中的图像数据输入残差神经网络中提取与评价指标无关的特征，记为残差特征，以及，将残差特征输入时态移位网络中提取与评价指标无关的特征，记为第一图像特征。

步骤3064、将第一图像特征输入内容理解网络中提取与评价指标相关的第二图像特征，作为第二素材特征。

将序列中的第一图像特征输入内容理解网络中，内容理解网络提取与评价指标相关的特征，记为第二图像特征。

在一个示例中，内容理解网络包括第一全连接层、第二全连接层，那么，在本示例中，将第一图像特征输入第一全连接层中映射为与评价指标相关的全连接特征，以及，将全连接特征输入第二全连接层中映射为与评价指标相关的第二图像特征，以此作为第二素材特征。

步骤307、根据第二素材特征计算第二素材对于评价指标的重要度，获得第二分数。

对于第二候选素材在视觉内容上表征的特征(即第二素材特征)，可以通过机器学习或深度学习挖掘历史上将素材推送至客户端的情况，从而在视觉内容上学习第二候选素材对于评价指标的重要度，记为第二分数。

在本发明的一个实施例中，步骤307进一步可以包括如下步骤：

步骤3071、确定第二梯度提升决策树、第二特征集合。

在本实施例中，可以预先针对素材的视频数据在视觉内容上表征的特征训练梯度提升决策树，记为第一梯度提升决策树，将第二梯度提升决策树的结构及参数存储在数据库中，在对第二候选素材精排时，将第二梯度提升决策树及其参数加载至内存运行。

此外，可以预先针对素材的视频数据在视觉内容上表征的特征训练第二特征集合，第二特征集合记录在先由第二决策提升树按照对于评价指标的重要度筛选的第二样本特征，构造第二样本特征的方式与构造第二素材特征的方式一致，即，第二样本特征为素材的视频数据(图像数据)在视觉内容上表征的特征。

在历史素材较为稀疏的情况下，可获取未推送至客户端的素材，作为第一原始素材，召回与历史素材相似的第一原始素材，作为第二原始素材，以历史素材为中心对第二原始素材进行聚类，获得素材簇，在素材簇中，将历史素材在推送至客户端后产生的部分标签共享至最接近历史素材的多个第二原始素材，以使多个第二原始素材成为新的历史素材，由于客户端对相似的素材的行为相近，因此可以保证共享至第一原始素的标签具有一定的准确性，以此大大提高历史素材的数量，可保证第二梯度提升决策树的性能。

从历史的视频数据中提取表征视觉内容的第二素材特征。

具体而言，确定内容提取网络、内容理解网络；从历史素材的视频数据中提取多帧图像数据；将图像数据输入内容提取网络中提取与评价指标无关的第一图像特征；将第一图像特征输入内容理解网络中提取与评价指标相关的第二图像特征，作为第二素材特征。

在一个示例中，内容提取网络包括残差神经网络、时态移位网络；那么，在本示例中，将图像数据输入残差神经网络中提取与评价指标无关的残差特征；将残差特征输入时态移位网络中提取与评价指标无关的第一图像特征。

在另一个示例中，内容理解网络包括第一全连接层、第二全连接层；那么，在本示例中，将第一图像特征输入第一全连接层中映射为与评价指标相关的全连接特征；将全连接特征输入第二全连接层中映射为与评价指标相关的第二图像特征，作为第二素材特征。

历史素材划分为正样本、负样本，正样本的权重与正样本的数量占比负相关，负样本的权重与正样本的数量占比负相关。

经过加权，第二梯度提升决策树在训练过程中确定子树的分支点时，会强调具有较大权重的类别，从而保证第二梯度提升决策树的性能。

以优化评价指标为目标，使用第二素材特征训练第二梯度提升决策树，第二梯度提升决策树在训练完成时输出第二素材特征对于评价指标的重要度。

筛选重要度大于预设的第二阈值的第二素材特征，作为第二样本特征写入第二特征集合中。

以优化评价指标为目标，使用第二样本特征再次训练第二梯度提升决策树，在再次训练第二梯度提升决策树完成时，保存第二梯度提升决策树的参数，通过两轮训练，可以大大提高第二梯度提升决策树计算第二素材特征对于评价指标的重要度的精确度。

步骤3072、筛选与第二样本特征的第二素材特征，作为第二目标特征。

在本实施例中，可以将第二素材特征与第二特征集合中的第二样本特征进行比较，如果第二素材特征与第二特征集合中的第二样本特征相同，则保留该第二素材特征，记为第二目标特征，如果第二素材特征与第二特征集合中的第二样本特征不同，则滤除该第二素材特征。

步骤3073、将第二目标特征输入第二梯度提升决策树中计算第二候选素材对于评价指标的重要度，作为第二分数。

针对第二候选素材中的第二素材特征，将所有第二目标特征组合之后，输入第二梯度提升决策树中，第二梯度提升决策树计算第二候选素材对于评价指标的重要度，记为第二分数。

步骤308、将第一分数与第二分数融合为第三分数。

在本实施例中，综合参考素材的标签在语义上表征的特征、素材的视频数据在视觉内容上表征的特征，将第一分数与第二分数融合为第三分数，提高第三分数的特征维度，从而提高评价素材对于评价指标的重要度的精确度。

其中，该融合可以为线性融合，也可以为非线性融合，本实施例对此不加以限制。

以线性融合为例，可以对第一分数乘以与标签匹配的第一权重，获得第一调权值，对第二分数乘以与视频数据匹配的第二权重，获得第二调权值，从而计算第一调权值与第二调权值之间的和值，作为第三分数。

对于不同的业务，第一权重与第二权重之间的大小关系有所不同，在一些情况下，第一权重可以大于第二权重，在另一些情况下，第一权重可以等于第二权重，在又一些情况下，第一权重可以小于第二权重。

例如，对于广告数据而言，第一权重大于第二权重。

步骤309、选择第三分数最高的部分第二候选素材为第三候选素材。

按照第三分数对第二候选素材进行降序排序，选择排序最高的n(n为正整数，n＜k)个第二候选素材，记为第三候选素材。

步骤310、对第三候选素材生成推送任务。

其中，推送任务用于由角色为优化师的用户筛选出部分第三候选素材并推送至客户端。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图5为本发明实施例三提供的一种视频素材的筛选装置的结构框图，具体可以包括如下模块：

召回模块501，用于召回未推送至客户端的素材，作为第一候选素材，所述素材包含视频数据且标记有标签；

粗排模块502，用于以优化评价指标为目标，根据所述标签表征的语义筛选出部分所述第一候选素材，作为第二候选素材；

精排模块503，用于以优化评价指标为目标，根据所述标签表征的语义、所述视频数据的视觉内容筛选出部分所述第二候选素材，作为第三候选素材；

任务生成模块504，用于对所述第三候选素材生成推送任务，所述推送任务用于由角色为优化师的用户筛选出部分所述第三候选素材并推送至客户端；

本发明实施例所提供的视频素材的筛选装置可执行本发明任意实施例所提供的视频素材的筛选方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视频素材的筛选方法。

实施例五

本发明实施例五还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频素材的筛选方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种素材的筛选方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述以优化评价指标为目标，根据所述标签表征的语义筛选出部分所述第一候选素材，作为第二候选素材，包括：

从所述第一候选素材的标签中提取表征语义的第一素材特征；

根据所述第一素材特征计算所述第一候选素材对于评价指标的重要度，作为第一分数；

选择所述第一分数最高的部分所述第一候选素材为第二候选素材。

3.根据权利要求2所述的方法，其特征在于，所述从所述第一候选素材的标签中提取表征语义的第一素材特征，包括：

确定连续词袋模型；

对所述第一候选素材的标签进行分词处理，获得多个词组；

将多个所述词组编码为第一词向量；

针对当前所述词组，将属于上下文的其他所述词组的第一词向量输入所述连续词袋模型中、映射为当前所述词组的第二词向量，作为第一素材特征。

4.根据权利要求3所述的方法，其特征在于，所述确定连续词袋模型，包括：

获取已推送至客户端的素材，作为历史素材；

对所述历史素材的标签进行分词处理，获得多个词组；

将多个所述词组编码为第一词向量；

针对当前所述词组，将属于上下文的其他所述词组的第一词向量输入连续词袋模型中、映射为当前所述词组的第二词向量；

基于所述第二词向量计算标签损失值；

按照所述标签损失值更新所述连续词袋模型；

判断是否满足词袋训练条件；若是，则确定所述连续词袋模型训练完成；若否，则返回执行所述针对当前所述词组，将属于上下文的其他所述词组的第一词向量输入连续词袋模型中、映射为当前所述词组的第二词向量。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一素材特征计算所述第一候选素材对于评价指标的重要度，作为第一分数，包括：

确定第一梯度提升决策树、第一特征集合，所述第一特征集合记录在先由所述第一决策提升树按照对于评价指标的重要度筛选的第一样本特征；

筛选与所述第一样本特征相同的所述第一素材特征，作为第一目标特征；

将所述第一目标特征输入所述第一梯度提升决策树中计算所述第一候选素材对于评价指标的重要度，作为第一分数。

6.根据权利要求5所述的方法，其特征在于，所述确定第一梯度提升决策树、第一特征集合，包括：

获取已推送至客户端的素材，作为历史素材；

从所述历史素材的标签中提取表征语义的第一素材特征；

以优化评价指标为目标，使用所述第一素材特征训练第一梯度提升决策树，所述第一梯度提升决策树在训练完成时输出所述第一素材特征对于评价指标的重要度；

筛选所述重要度大于预设的第一阈值的所述第一素材特征，作为第一样本特征写入第一特征集合中；

以优化评价指标为目标，使用所述第一样本特征训练第一梯度提升决策树。

7.根据权利要求6所述的方法，其特征在于，所述历史素材划分为正样本、负样本，所述正样本的权重与所述正样本的数量占比负相关，所述负样本的权重与所述正样本的数量占比负相关。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述以优化评价指标为目标，根据所述标签表征的语义、所述视频数据的视觉内容筛选出部分所述第二候选素材，作为第三候选素材，包括：

确定第一分数，所述第一分数表示在所述标签表征的语义下、所述第一候选素材对于评价指标的重要度；

从所述第二候选素材的视频数据中提取表征视觉内容的第二素材特征；

根据所述第二素材特征计算所述第二素材对于评价指标的重要度，获得第二分数；

将所述第一分数与所述第二分数融合为第三分数；

选择所述第三分数最高的部分所述第二候选素材为第三候选素材。

9.根据权利要求8所述的方法，其特征在于，所述从所述第二候选素材的视频数据中提取表征视觉内容的第二素材特征，包括：

确定内容提取网络、内容理解网络；

从所述第二候选素材的视频数据中提取多帧图像数据；

将所述图像数据输入所述内容提取网络中提取与评价指标无关的第一图像特征；

将所述第一图像特征输入所述内容理解网络中提取与评价指标相关的第二图像特征，作为第二素材特征。

10.根据权利要求9所述的方法，其特征在于，所述确定内容提取网络、内容理解网络，包括：

获取已推送至客户端的素材，作为历史素材；

从所述历史素材的视频数据中提取多帧图像数据；

将所述图像数据输入预训练为图像分类的内容提取网络中提取与评价指标无关的第一图像特征；

将所述第一图像特征输入内容理解网络中提取与评价指标相关的第二图像特征；

基于所述第二图像特征按照评价指标计算内容损失值；

按照所述内容损失值更新所述内容理解网络；

判断是否满足内容训练条件；若是，则确定所述内容理解网络训练完成；若否，则返回执行所述将所述图像数据输入预训练为图像分类的内容提取网络中提取与评价指标无关的第一图像特征。

11.根据权利要求9所述的方法，其特征在于，所述内容提取网络包括残差神经网络、时态移位网络；

所述将所述图像数据输入所述内容提取网络中提取与评价指标无关的第一图像特征，包括：

将所述图像数据输入所述残差神经网络中提取与评价指标无关的残差特征；

将所述残差特征输入所述时态移位网络中提取与评价指标无关的第一图像特征。

12.根据权利要求9所述的方法，其特征在于，所述内容理解网络包括第一全连接层、第二全连接层；

所述将所述第一图像特征输入所述内容理解网络中提取与评价指标相关的第二图像特征，作为第二素材特征，包括：

将所述第一图像特征输入所述第一全连接层中映射为与评价指标相关的全连接特征；

将所述全连接特征输入所述第二全连接层中映射为与评价指标相关的第二图像特征，作为第二素材特征。

13.根据权利要求7所述的方法，其特征在于，所述根据所述第二素材特征计算所述第二素材对于评价指标的重要度，获得第二分数，包括：

确定第二梯度提升决策树、第二特征集合，所述第二特征集合记录在先由所述第二决策提升树按照对于评价指标的重要度筛选的第二样本特征；

筛选与所述第二样本特征的所述第二素材特征，作为第二目标特征；

将所述第二目标特征输入所述第二梯度提升决策树中计算所述第二候选素材对于评价指标的重要度，作为第二分数。

14.根据权利要求13所述的方法，其特征在于，所述确定第二梯度提升决策树、第二特征集合，包括：

获取已推送至客户端的素材，作为历史素材；

从所述历史的视频数据中提取表征视觉内容的第二素材特征；

以优化评价指标为目标，使用所述第二素材特征训练第二梯度提升决策树，所述第二梯度提升决策树在训练完成时输出所述第二素材特征对于评价指标的重要度；

筛选所述重要度大于预设的第二阈值的所述第二素材特征，作为第二样本特征写入第二特征集合中；

以优化评价指标为目标，使用所述第二样本特征训练第二梯度提升决策树。

15.根据权利要求8所述的方法，其特征在于，所述将所述第一分数与所述第二分数融合为第三分数，包括：

对所述第一分数乘以与所述标签匹配的第一权重，获得第一调权值；

对所述第二分数乘以与所述视频数据匹配的第二权重，获得第二调权值；

计算所述第一调权值与所述第二调权值之间的和值，作为第三分数；

其中，所述第一权重大于所述第二权重。

16.根据权利要求4、6、10、14中任一项所述的方法，其特征在于，还包括：

获取未推送至客户端的素材，作为第一原始素材；

召回与所述历史素材相似的所述第一原始素材，作为第二原始素材；

以所述历史素材为中心对所述第二原始素材进行聚类，获得素材簇；

在所述素材簇中，将所述历史素材在推送至客户端后产生的部分标签共享至最接近所述历史素材的多个所述第二原始素材，以使多个所述第二原始素材成为新的历史素材。

17.一种视频素材的筛选装置，其特征在于，包括：

18.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-16中任一项所述的视频素材的筛选方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-16中任一项所述的视频素材的筛选方法。