CN109885723A

CN109885723A - 一种视频动态缩略图的生成方法、模型训练的方法及装置

Info

Publication number: CN109885723A
Application number: CN201910126750.6A
Authority: CN
Inventors: 袁艺天; 马林; 刘威; 朱文武
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-14
Anticipated expiration: 2039-02-20
Also published as: CN109885723B

Abstract

本发明公开了一种视频动态缩略图的生成方法，包括：获取待处理文本以及待处理视频，待处理文本包括N个词语，待处理视频包括T个片段，每个片段包括多帧图像，N为大于1的整数，T为大于1的整数；对待处理文本进行编码得到文本编码特征集合，对待处理视频进行编码得到视频编码特征集合；根据文本编码特征集合以及视频编码特征集合，获取交互特征集合；根据交互特征集合获取图卷积视频特征集合；通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段。本发明还公开了一种模型训练的方法及装置。本发明能够提升搜索的灵活度和广泛性，其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求。

Description

一种视频动态缩略图的生成方法、模型训练的方法及装置

技术领域

本发明涉及人工智能领域，尤其涉及一种视频动态缩略图的生成方法、模型训练的方法及装置。

背景技术

随着科学技术的迅猛发展，手机、平板和电脑等电子用户终端设备在人们的日常生活中越来越普及。随着网络覆盖范围越来越广泛，用户可以通过多种终端设备在连接网络的情况下观看视频，为了丰富人们的生活，种类繁多的视频开始出现，例如电视剧、电影、体育赛事、综艺节目、音乐节目、网络课程和学习资料等。

为了便于用户快速找到自己想看的视频，通常通过视频缩略图让用户快速了解视频的内容。目前，采用文本指定的视频缩略图生成方法普遍基于多模态语义匹配算法，该类方法通过深度神经网络将用户用于视频搜索的文本和视频中的每一帧图片投影到一个公共隐空间，并计算每一视频帧在公共隐空间中与文本的距离，从而选择最接近文本描述的视频帧作为视频缩略图。

然而，上述文本仅限于词汇或者短语，无法满足广泛而灵活的用户搜索场景，且采用上述方式生成的视频缩略图只能以单个视频帧的形式呈现出来，其表现力和所包含的视频内容也难以满足用户对于视频内容概览的诉求，导致视频浏览和搜索的效率降低。

发明内容

本发明实施例提供了一种视频动态缩略图的生成方法、模型训练的方法及装置，能够基于句子来生成相应的视频动态缩略图，提升搜索的灵活度和广泛性。同时，视频动态缩略图并非单个视频帧的形式，而是由多个视频片段组成的动态图像，其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求，从而提升视频浏览和搜索的效率。

有鉴于此，本发明第一方面提供一种视频动态缩略图的生成方法，包括：

获取待处理文本以及待处理视频，其中，所述待处理文本与所述待处理视频之间具有对应关系，所述待处理文本包括N个词语，所述待处理视频包括T个片段，每个片段包括多帧图像，所述N为大于1的整数，所述T为大于1的整数；

对所述待处理文本进行编码得到文本编码特征集合，对所述待处理视频进行编码得到视频编码特征集合，其中，所述文本编码特征集合包括N个词语特征，所述视频编码特征集合包括T个片段特征；

根据所述文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括T个交互特征；

根据所述交互特征集合获取图卷积视频特征集合，其中，所述图卷积视频特征集合包括T个图卷积片段特征；

通过时序条件指针网络生成所述图卷积视频特征集合所对应的至少一个目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，所述至少一个目标片段用于构成所述待处理视频所对应的视频动态缩略图。

本发明第二方面提供一种模型训练的方法，包括：

获取待训练文本集合以及待训练视频集合，其中，所述待训练文本集合包括至少一个待训练文本，所述待训练视频集合包括至少一个待训练视频，所述待训练文本与所述待训练视频之间具有对应关系，所述待训练文本包括多个词语，所述待训练视频包括多个片段；

对所述待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对所述待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，其中，每个文本编码特征集合包括多个词语特征，每个视频编码特征集合包括多个片段特征；

根据每个文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括多个交互特征；

根据各个交互特征集合获取对应的图卷积视频特征集合，其中，所述图卷积视频特征集合包括多个图卷积片段特征；

通过时序条件指针网络生成各个图卷积视频特征集合所对应的至少一个预测目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序；

采用所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。

本发明第三方面提供一种视频动态缩略图生成装置，包括：

获取模块，用于获取待处理文本以及待处理视频，其中，所述待处理文本与所述待处理视频之间具有对应关系，所述待处理文本包括N个词语，所述待处理视频包括T个片段，每个片段包括多帧图像，所述N为大于1的整数，所述T为大于1的整数；

编码模块，用于对所述获取模块获取的所述待处理文本进行编码得到文本编码特征集合，对所述待处理视频进行编码得到视频编码特征集合，其中，所述文本编码特征集合包括N个词语特征，所述视频编码特征集合包括T个片段特征；

所述获取模块，还用于根据所述编码模块编码得到的所述文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括T个交互特征；

所述获取模块，还用于根据所述交互特征集合获取图卷积视频特征集合，其中，所述图卷积视频特征集合包括T个图卷积片段特征；

生成模块，用于通过时序条件指针网络生成所述获取模块获取的所述图卷积视频特征集合所对应的至少一个目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，所述至少一个目标片段用于构成所述待处理视频所对应的视频动态缩略图。

在一种可能的设计中，在本发明实施例的第三方面的第一种实现方式中，

所述编码模块，具体用于通过第一神经网络对所述待处理文本中的每个词语进行编码处理，得到N个词语特征向量，其中，所述第一神经网络用于对文本进行处理；

通过双向神经网络对所述N个词语特征向量进行编码处理，得到所述N个词语特征，其中，所述N个词语特征用于构成所述文本编码特征集合。

在一种可能的设计中，在本发明实施例的第三方面的第二种实现方式中，

所述编码模块，具体用于通过第二神经网络对所述待处理视频中的每个片段进行编码处理，得到T个片段特征向量，其中，所述第二神经网络用于对图像进行处理；

通过双向神经网络对所述T个视频特征向量进行编码处理，得到所述T个片段特征，其中，所述T个片段特征用于构成所述视频编码特征集合。

在一种可能的设计中，在本发明实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于根据所述文本编码特征集合以及所述视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值；

根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，其中，所述注意力加权文本特征集合包括T个注意力加权文本特征；

对所述注意力加权文本特征集合以及所述视频编码特征集合进行融合处理，得到所述交互特征集合。

在一种可能的设计中，在本发明实施例的第三方面的第四种实现方式中，

所述获取模块，具体用于采用如下方式计算所述每个片段特征对每个词语的注意力权值：

其中，所述表示第t个片段对第n个词语的注意力权值，所述exp()表示指数函数，所述表示第t个片段对第n个词语的注意力中间量，所述N表示所述待处理文本中的词语总数，所述n表示所述待文本视频中的第n个词语，所述t表示所述待处理视频中的第t个片段，所述w^T表示第一模型参数，所述表示第二模型参数，所述表示第三模型参数，所述表示第四模型参数，所述tanh()表示双曲正切函数，所述表示所述文本编码特征集合中第n个词语的词语特征，所述表示所述视频编码特征集合中第t个片段的片段特征；

采用如下方式计算所述注意力加权文本特征集合：

其中，所述表示第t个片段的注意力加权文本特征；

采用如下方式计算所述交互特征集合：

其中，所述表示第t个片段的交互特征，所述σ()表示非线性函数，所述表示第五模型参数，所述表示第六模型参数，所述||表示拼接。

在一种可能的设计中，在本发明实施例的第三方面的第五种实现方式中，

所述获取模块，具体用于根据所述待处理视频生成T个节点，其中，每个节点对应于一个所述待处理视频中的一个片段；

根据所述交互特征集合计算得到节点之间的相似性；

根据所述节点之间的相似性计算得到所述T个节点所对应的视频片段图邻接矩阵；

通过第三神经网络以及所述视频片段图邻接矩阵，获取所述交互特征集合所对应的所述图卷积视频特征集合。

在一种可能的设计中，在本发明实施例的第三方面的第六种实现方式中，

所述获取模块，具体用于采用如下方式计算所述节点之间的相似性：

其中，所述F_ij表示所述第i个节点与第j个节点之间的相似性，所述()^T表示转置计算，所述表示所述交互特征集合中第i个节点的交互特征，所述表示所述交互特征集合中第j个节点的交互特征；

所述根据所述节点之间的相似性计算得到所述T个节点所对应的视频片段图邻接矩阵，包括：

采用如下方式计算所述视频片段图邻接矩阵：

其中，所述G_ij表示所述视频片段图邻接矩阵中第i行第j列的元素，所述λ表示超参数，所述exp()表示指数函数，所述j为大于或等于1且小于或等于所述T的整数。

在一种可能的设计中，在本发明实施例的第三方面的第七种实现方式中，

所述生成模块，具体用于根据所述图卷积视频特征集合获取目标图卷积视频特征集合，其中，所述目标图卷积视频特征集合包括所述图卷积视频特征集合以及第T+1个图卷积片段特征，所述第T+1个图卷积片段特征为0；

根据所述目标图卷积视频特征集合以及所述时序条件指针网络的隐向量，计算得到每个片段的注意力权值；

根据所述每个片段的注意力权值，计算得到所述至少一个目标片段。

在一种可能的设计中，在本发明实施例的第三方面的第八种实现方式中，

所述生成模块，具体用于采用如下方式计算所述每个片段的注意力权值：

其中，所述表示第t个片段作为第k个目标片段的注意力权值，所述exp()表示指数函数，所述表示所述第t个片段作为所述第k个目标片段的注意力中间量，所述w^T表示第一模型参数，所述tanh()表示双曲正切函数，所述表示第七模型参数，所述表示第八模型参数，所述b^P表示第九模型参数，所述表示所述目标图卷积视频特征集合中第t个图卷积视频特征，所述表示所述时序条件指针网络的隐向量，所述表示掩膜函数，所述p^k-1表示第k-1个目标片段，所述k为大于或等于1且小于或等于所述T+1的整数；

采用如下方式计算所述至少一个目标片段：

其中，所述p^k表示表示第k个目标片段，所述argmax()表示取最大值函数，所述表示所述第1个片段作为第k个目标片段的注意力权值，所述表示所述第T+1个片段作为第k个目标片段的注意力权值。

本发明第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练文本集合以及待训练视频集合，其中，所述待训练文本集合包括至少一个待训练文本，所述待训练视频集合包括至少一个待训练视频，所述待训练文本与所述待训练视频之间具有对应关系，所述待训练文本包括多个词语，所述待训练视频包括多个片段；

编码模块，用于对所述获取模块获取的所述待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对所述待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，其中，每个文本编码特征集合包括多个词语特征，每个视频编码特征集合包括多个片段特征；

所述获取模块，还用于根据所述编码模块编码得到的每个文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括多个交互特征；

所述获取模块，还用于根据各个交互特征集合获取对应的图卷积视频特征集合，其中，所述图卷积视频特征集合包括多个图卷积片段特征；

生成模块，用于通过时序条件指针网络生成所述获取模块获取的各个图卷积视频特征集合所对应的至少一个预测目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序；

训练模块，用于采用所述生成模块生成的所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。

在一种可能的设计中，在本发明实施例的第四方面的第一种实现方式中，

所述训练模块，具体用于采用如下所述损失函数进行训练：

其中，所述L_Γ表示所述损失函数，所述Γ表示待训练样本集合，所述V表示所述待训练视频，所述T表示所述待训练视频中的片段总数，所述t表示大于或等于1且小于或等于所述T的整数，所述S表示所述待训练文本，所述B表示所述至少一个真实目标片段，所述表示所述待训练视频中第t个片段为视频动态缩略图中第k个目标片段的概率，所述K表示所述视频动态缩略图中包含目标片段的最大数量，所述k表示大于或等于1且小于或等于所述T的整数，表示所述第t个片段作为第k个目标片段的注意力权值，所述log()表示对数函数。

本发明第五方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过时序条件指针网络生成所述图卷积视频特征集合所对应的至少一个目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，所述至少一个目标片段用于构成所述待处理视频所对应的视频动态缩略图；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明第六方面提供一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

采用所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果；

本发明的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种视频动态缩略图的生成方法，首先获取待处理文本以及待处理视频，其中，待处理文本与待处理视频之间具有对应关系，待处理文本包括N个词语，待处理视频包括T个片段，每个片段包括多帧图像，N为大于1的整数，T为大于1的整数，然后可以对待处理文本进行编码得到文本编码特征集合，对待处理视频进行编码得到视频编码特征集合，再根据文本编码特征集合以及视频编码特征集合，获取交互特征集合，接下来根据交互特征集合获取图卷积视频特征集合，最后通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段，且至少选择一个片段用于构成待处理视频所对应的视频动态缩略图。通过上述方式，用户在搜索视频时所采用的文本包括多个词语，也就是说，能够基于句子来生成相应的视频动态缩略图，提升了搜索的灵活度和广泛性。与此同时，视频动态缩略图并非单个视频帧的形式，而是由多个视频片段组成的动态图像，其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求，从而提升视频浏览和搜索的效率。

附图说明

图1为本发明实施例中视频动态缩略图生成系统的一个架构示意图；

图2为本发明实施例中视频动态缩略图生成方法的一个流程示意图；

图3为本发明实施例中视频动态缩略图的生成方法一个实施例示意图；

图4为本发明实施例中时序条件指针网络的一个框架示意图；

图5为本发明实施例中模型训练的方法一个实施例示意图；

图6为本发明实施例中视频动态缩略图生成装置一个实施例示意图；

图7为本发明实施例中模型训练装置一个实施例示意图；

图8为本发明实施例中服务器一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要用于提供视频内容理解服务，在后台服务器中，编码器对视频和文本进行特征提取和整合处理，通过图卷积网络建立视频与文本描述之间的语义交互，最后利用时序条件指针网络指出一组视频片段，并将其合成为基于文本的视频动态缩略图。本发明可以部署在视频类网站，用于生成视频缩略图，也可以与视频搜索技术相结合，从而加速视频检索的效率。

为了便于理解，本发明提出了一视频动态缩略图的生成方法，该方法应用于图1所示的视频动态缩略图生成系统，请参阅图1，图1为本发明实施例中视频动态缩略图生成系统的一个架构示意图，如图所示，用户通过客户端输入一段文本，具体可以是一个句子，服务器收到用户输入的句子之后，根据该句子的语义查找一个对应的视频，请参阅图2，图2为本发明实施例中视频动态缩略图生成方法的一个流程示意图，如图所示，服务器分别对句子和视频进行编码，得到文本编码特征集合U^S以及视频编码特征集合U^V，基于文本编码特征集合U^S以及视频编码特征集合U^V，利用注意力机制计算每一个片段对应句子中每一个词语的注意力权值，并基于每一个片段对应句子中每一个词语的注意力权值进一步得到面向视频片段的注意力加权文本特征集合，将注意力加权文本特征集合与视频编码特征集合U^V利用全连接操作进行融合，得到视频句子交互后的特征，即交互特征集合H^I。基于交互特征集合H^I，在视频片段之间构建由句子语义信息指定的视频图结构，并在此图中进行图卷积操作，得到图卷积视频特征集合H^G，最后，时序条件指针网络将作用于图卷积视频特征集合，顺序指出一系列目标片段，这些目标片段将连接起来构成最终的基于句子的视频动态缩略图。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

结合上述介绍，下面将对本发明中视频动态缩略图的生成方法进行介绍，请参阅图3，本发明实施例中视频动态缩略图的生成方法一个实施例包括：

101、获取待处理文本以及待处理视频，其中，待处理文本与待处理视频之间具有对应关系，待处理文本包括N个词语，待处理视频包括T个片段，每个片段包括多帧图像，N为大于1的整数，T为大于1的整数；

本实施例中，首先服务器获取待处理文本以及待处理视频，其中，待处理文本可以是用户手动输入的一句话或者一段话，比如“小狗和小猫抢食物”，根据该待处理文本的内容，服务器可以从后台数据库中可以找到大量的与待处理文本所表达的语义内容相关的视频，从这些视频中选择一个视频作为待处理视频，因此，待处理文本与待处理视频之间具有对应关系。

需要说明的是，待处理文本包括N个词语，N是大于1的整数，也就是说，待处理文本中包括多个词语，比如包括“小猫”、“小狗”以及“吃饭”等词语。待处理视频包括T个片段，T为大于1的整数，也就是说，待处理视频中包括多个片段，每个片段包括多帧图像，通常情况下，1分钟的视频可以平均划分为30个片段，即每个片段的长度为2秒。

102、对待处理文本进行编码得到文本编码特征集合，对待处理视频进行编码得到视频编码特征集合，其中，文本编码特征集合包括N个词语特征，视频编码特征集合包括T个片段特征；

本实施例中，服务器分别对待处理文本和待处理视频进行编码处理，即采用编码器对待处理文本中的每个词语进行编码，从而得到N个词语特征，这N个词语特征用于构成文本编码特征集合。采用编码器对待处理视频中的每个片段进行编码，从而得到T个片段特征，这T个片段特征用于构成视频编码特征集合。

需要说明的是，可以在对待处理文本进行编码的同时，对待处理视频进行编码。也可以先对待处理文本进行编码，再对待处理视频进行编码。还可以先对待处理视频进行编码，再对待处理文本进行编码，此处不做限定。

103、根据文本编码特征集合以及视频编码特征集合，获取交互特征集合，其中，交互特征集合包括T个交互特征；

本实施例中，服务器在获取到文本编码特征集合以及视频编码特征集合之后，基于文本编码特征集合以及视频编码特征集合，并利用注意力机制可以获取待处理视频中每个片段对待处理文本中每个词语的注意力权值，根据这些注意力权值以及视频编码特征集合生成T个交互特征，即每个交互特征对应于一个片段，从而得到交互特征集合。

其中，注意力机制可以使得神经网络具备专注于特征的能力。在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务。

104、根据交互特征集合获取图卷积视频特征集合，其中，图卷积视频特征集合包括T个图卷积片段特征；

本实施例中，服务器利用步骤103中得到的交互特征集合，在视频片段之间可以构建由句子语义信息指定的视频图结构，并在该视频图结构中进行图卷积操作，从而得到T个图卷积片段特征，这T个图卷积片段特征用于构成图卷积视频特征集合。

105、通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段，其中，时序条件指针网络能够指示所生成的视频缩略图中各个片段的时序，且至少选择一个片段用于构成待处理视频所对应的视频动态缩略图。

本实施例中，服务器根据图卷积视频特征集合获取至少一个目标片段，与此同时，服务器采用时序条件指针网络来顺序地从待处理视频中指出这些目标片段。其中，所有目标片段用于构成待处理视频所对应的视频动态缩略图。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第一个可选实施例中，对待处理文本进行编码得到文本编码特征集合，可以包括：

通过第一神经网络对待处理文本中的每个词语进行编码处理，得到N个词语特征向量，其中，第一神经网络用于对文本进行处理；

通过双向神经网络对N个词语特征向量进行编码处理，得到N个词语特征，其中，N个词语特征用于构成文本编码特征集合。

本实施例中，介绍了一种生成文本编码特征集合的方式，首先，服务器获取待处理文本中的N个词语，然后将N个词语输入至第一神经网络，由第一神经网络对待处理文本中的每个词语进行特征提取，从而得到词特征序列S＝[w₁,...w_N]，其中，w₁表示待处理文本第一个词语的词语特征向量，w_N表示待处理文本第N个词语的词语特征向量。在此基础上，将N个词语特征向量输入至双向神经网络，由双向神经网络对每个词语特征向量进行特征整合，从而得到文本编码特征集合其中，表示第一个词语特征，表示第N个词语特征。

其中，第一神经网络用于对文本进行处理，第一神经网络具体可以是Glove模型、word2vec模型，此处不做限定。对待处理文本进行编码后可以得到300维的词语特征向量。双向神经网络具体可以是双向门控循环神经网络(Bi-directional Gated RecurrentUnit，BiGRU)或者双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)等，此处不做限定。双向神经网络能够将待处理文本中的时序信息和上下文信息整合到特征编码中。

其次，本发明实施例中，提供了一种生成文本编码特征集合的方法，首先通过第一神经网络对待处理文本中的每个词语进行编码处理，得到N个词语特征向量，然后通过双向神经网络对N个词语特征向量进行编码处理，得到N个词语特征。通过上述方式，能够利用双向循环神经网络对词特征序列进行特征整合，得到文本编码特征集合，使得文本编码特征集合能够包含时序信息和上下文信息，从而提升文本编码特征的完整性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第二个可选实施例中，对待处理视频进行编码得到视频编码特征集合，可以包括：

通过第二神经网络对待处理视频中的每个片段进行编码处理，得到T个片段特征向量，其中，第二神经网络用于对图像进行处理；

通过双向神经网络对T个视频特征向量进行编码处理，得到T个片段特征，其中，T个片段特征用于构成视频编码特征集合。

本实施例中，介绍了一种生成视频编码特征集合的方式，首先，服务器获取待处理视频中的T个片段，然后将T个片段输入至第二神经网络，由第二神经网络对待处理视频中的每个片段进行特征提取，从而得到视频片段特征序列V＝[v₁,...v_T]，其中，v₁表示待处理视频第一个片段的片段特征向量，v_T表示待处理视频第T个片段的片段特征向量。在此基础上，将T个片段特征向量输入至双向神经网络，由双向神经网络对每个片段特征向量进行特征整合，从而得到视频编码特征集合其中，表示第一个片段特征，表示第N个片段特征。

其中，第二神经网络用于对视频进行处理，第二神经网络具体可以是三维卷积神经网络(3D convolutional networks，C3D)模型、膨胀三维卷积神经网络(Inflated 3Dconvolutional networks，I3D)模型或者伪三维残差神经网络(Pseudo-3D ResidualNetworks，P3D)模型，此处不做限定。对待处理视频进行编码后可以得到4096维度的片段特征向量。双向神经网络具体可以是BiGRU或者BiLSTM等，此处不做限定。双向神经网络能够将待处理视频中的时序信息和上下文信息整合到特征编码中。

其次，本发明实施例中，提供了一种生成视频编码特征集合的方法，首先通过第二神经网络对待处理视频中的每个片段进行编码处理，得到T个片段特征向量，然后通过双向神经网络对T个片段特征向量进行编码处理，得到T个片段特征。通过上述方式，能够利用双向循环神经网络对片段特征序列进行特征整合，得到视频编码特征集合，使得视频编码特征集合能够包含时序信息和上下文信息，从而提升视频编码特征的完整性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第三个可选实施例中，根据文本编码特征集合以及视频编码特征集合，获取交互特征集合，可以包括：

根据文本编码特征集合以及视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值；

根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，其中，注意力加权文本特征集合包括T个注意力加权文本特征；

对注意力加权文本特征集合以及视频编码特征集合进行融合处理，得到交互特征集合。

本实施例中，介绍一种获取交互特征集合的方式。首先根据文本编码特征集合以及视频编码特征集合计算得到每个片段特征对每个词语的注意力权值。具体地，文本编码特征集合其中，表示第一个词语特征，表示第N个词语特征，视频编码特征集合其中，表示第一个片段特征，表示第T个片段特征。假设文本编码特征集合包括2个词语，即得到视频编码特征集合包括3个片段，即得到此时，可以得到每个片段特征对每个词语的注意力权值，如下所示：

假设对的注意力权值为0.7，对的注意力权值为0.3。对的注意力权值为0.1，对的注意力权值为0.9。对的注意力权值为0.4，对的注意力权值为0.6。

基于上述假设，可以根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，其中，注意力加权文本特征集合包括T个注意力加权文本特征，具体地，的注意力加权文本特征表示为的注意力加权文本特征表示为的注意力加权文本特征表示为

最后，利用全连接操作，将面向视频片段的注意力加权文本特征集合与编码后的视频编码特征集合进行融合，得到交互特征集合

其次，本发明实施例中，提供了一种生成交互特征集合的方法，首先根据文本编码特征集合以及视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值，然后根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，最后对注意力加权文本特征集合以及视频编码特征集合进行融合处理，得到交互特征集合。通过上述方式，能够有效地将待处理文本和待处理视频之间的特征进行融合，从而更加深刻地刻画了文本和视频之间的语义交互以及视频片段的语义交互，从而生成既与文本语义信息匹配，又具有语义连贯性的视频动态缩略图。

可选地，在上述图3对应的第三个实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第四个可选实施例中，根据文本编码特征集合以及视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值，可以包括：

采用如下方式计算每个片段特征对每个词语的注意力权值：

其中，表示第t个片段对第n个词语的注意力权值，exp()表示指数函数，表示第t个片段对第n个词语的注意力中间量，N表示待处理文本中的词语总数，n表示待文本视频中的第n个词语，t表示待处理视频中的第t个片段，w^T表示第一模型参数，表示第二模型参数，表示第三模型参数，表示第四模型参数，tanh()表示双曲正切函数，表示文本编码特征集合中第n个词语的词语特征，表示视频编码特征集合中第t个片段的片段特征；

根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，可以包括：

采用如下方式计算注意力加权文本特征集合：

其中，表示第t个片段的注意力加权文本特征；

对注意力加权文本特征集合以及视频编码特征集合进行融合处理，得到交互特征集合，可以包括：

采用如下方式计算交互特征集合：

其中，表示第t个片段的交互特征，σ()表示非线性函数，表示第五模型参数，表示第六模型参数，||表示拼接。

本实施例中，介绍一种计算每个片段特征对每个词语的注意力权值的具体方式。在获取到文本编码特征集合以及视频编码特征集合之后，使用注意力机制计算视频中每个片段特征对每个词语的注意力权值，先通过第一模型参数w^T、第二模型参数第三模型参数以及第四模型参数对文本编码特征集合中的每个词语特征以及视频编码特征集合中的每个片段特征进行处理，得到每个片段对每个词语的注意力中间量具体计算方式如下：

然后利用注意力中间量计算得到对应的注意力权值具体计算方式如下：

然后采用文本编码特征集合中的每个词语特征以及注意力权值计算得到各个注意力加权文本特征具体计算方式如下：

最后，将视频编码特征集合中的各个片段特征与各个注意力加权文本特征进行拼接，并输入到一个全连接网络，从而得到融合后的交互特征，具体计算方式如下：

其中，表示第t个片段的交互特征，σ()表示非线性函数，该非线性函数可以是线性整流函数(Rectified Linear Unit，ReLU)。表示第五模型参数，表示第六模型参数，||表示拼接，交互特征集合表示为

再次，本发明实施例中，提供了一种计算每个片段特征对每个词语的注意力权值的方法。通过上述方式，为方案的实现提供了具体的实现依据，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第五个可选实施例中，根据根据交互特征集合获取图卷积视频特征集合，可以包括：

根据待处理视频生成T个节点，其中，每个节点对应于一个待处理视频中的一个片段；

根据交互特征集合计算得到节点之间的相似性；

根据节点之间的相似性计算得到T个节点所对应的视频片段图邻接矩阵；

通过第三神经网络以及视频片段图邻接矩阵，获取交互特征集合所对应的图卷积视频特征集合。

本实施例中，介绍了一种生成图卷积视频特征集合的方式。服务器基于已经得到的交互特征集合，可以进一步利用第三神经网络来刻画由句子语义所指导的视频片段之间的关系，具体而言，我们将待处理视频表征为一个图结构，图中每一个节点表示待处理视频中的一个片段，因此，T个片段对应于T个节点，节点之间的边表示片段之间由文本信息所引导的语义相似性(或关联度)。根据各个节点之间的相似性，可以计算得到T个节点对应的视频片段图邻接矩阵。根据视频片段图邻接矩阵确定第三神经网络，将交互特征集合输入至第三神经网络，由第三神经网络输出相应的图卷积视频特征集合。

需要说明的是，第三神经网络可以是图卷积神经网络(Graph ConvolutionalNetwork，GCN)，此处不做限定。

其次，本发明实施例中，提供了一种获取图卷积视频特征集合的方法，即先根据待处理视频生成T个节点，其中，每个节点对应于一个待处理视频中的一个片段，然后根据交互特征集合计算得到节点之间的相似性，再根据节点之间的相似性计算得到T个节点所对应的视频片段图邻接矩阵，最后服务器通过第三神经网络以及视频片段图邻接矩阵，获取交互特征集合所对应的图卷积视频特征集合。通过上述方式，可以利用图卷积网络构建一个由文本语义信息指定的视频图结构，该图结构充分挖掘了在句子语义内容指导下各个视频片段之间的语义交互关系，从而提升视频搜索的可靠性。

可选地，在上述图3对应的第五个实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第六个可选实施例中，根据交互特征集合计算得到节点之间的相似性，可以包括：

采用如下方式计算节点之间的相似性：

其中，F_ij表示第i个节点与第j个节点之间的相似性，()^T表示转置计算，表示交互特征集合中第i个节点的交互特征，表示交互特征集合中第j个节点的交互特征；

根据节点之间的相似性计算得到T个节点所对应的视频片段图邻接矩阵，可以包括：

采用如下方式计算视频片段图邻接矩阵：

其中，G_ij表示视频片段图邻接矩阵中第i行第j列的元素，λ表示超参数，exp()表示指数函数，j为大于或等于1且小于或等于T的整数。

本实施例中，介绍一种计算视频片段图邻接矩阵的具体方式。首先，将待处理视频表征为一个图结构，图中每一个节点表示待处理视频中的一个片段，因此，T个片段对应于T个节点，节点之间的边表示片段之间由文本信息所引导的语义相似性。在此定义下，T个节点中的第i个节点和第j个节点之间的语义相似性为F_ij，具体计算方式如下：

其中，F_ij表示为相似性矩阵F中的一个元素，表示交互特征集合中第i个节点的交互特征，表示交互特征集合中第j个节点的交互特征，此时，需要对相似性矩阵F中的各个元素F_ij进行归一化操作，得到视频片段图邻接矩阵中第i行第j列的元素，具体计算方式如下：

其中，G_ij表示视频片段图邻接矩阵G中第i行第j列的元素，i和j均为从1取值至T的整数，最后得到T×T个元素的视频片段图邻接矩阵G。根据视频片段图邻接矩阵G所定义的视频片段之间的关系，接下来可以进行图卷积操作，具体计算方式如下：

Z＝(G+I)XW^G；

其中，G表示T×T的视频片段图邻接矩阵，I表示对联矩阵，且I∈R^T×T，通过I可以加强各个节点的自我语义交互。X表示图卷积的输入特征，且X∈R^T×d，这里需要说明的，X的首次输入为交互特征集合表示为那么d就是H^I中每个片段所对应的向量维度。W^G表示图卷积操作的参数，且W^G∈R^d×d，因此，根据矩阵的乘法定律，卷积操作的输出Z的矩阵维度和输入X的矩阵维度保持一致，仍然为T×d。

在构建的视频片段图邻接矩阵G中进行图卷积操作，也就是根据文本指定的片段关系，在图中传递视频内部的语义信息。将一层的输出作为另一层的输入，图卷积操作可以叠加多层。我们将交互特征集合作为首层图卷积操作的输入，将最后一层图卷积的输出定义为图卷积视频片段特征，简而言之，就是上一次输入的X会对应输出Z，在下一次卷积操作时，输出的Z将作为下一次的输入X。根据预设的图卷积操作层数，将最后一层图卷积的输出定义为图卷积视频特征集合

可以理解的是，本发明可以设置两层图卷积操作，在实际应用中，还可以根据实际情况设置其他层数的卷积操作。

再次，本发明实施例中，提供了一种根据交互特征集合计算得到节点之间的相似性的方法，以及根据节点之间的相似性计算得到T个节点所对应的视频片段图邻接矩阵的方法。通过上述方式，为方案的实现提供了具体的实现依据，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第七个可选实施例中，通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段，可以包括：

根据图卷积视频特征集合获取目标图卷积视频特征集合，其中，目标图卷积视频特征集合包括图卷积视频特征集合以及第T+1个图卷积片段特征，第T+1个图卷积片段特征为0；

根据目标图卷积视频特征集合以及时序条件指针网络的隐向量，计算得到每个片段的注意力权值；

根据每个片段的注意力权值，计算得到至少一个目标片段。

本实施例中，将介绍一种生成视频动态缩略图的方法。首先，基于前述的图卷积视频特征集合时序条件指针网络将顺序地输出一系列整数(p¹,...,p^k...)，这些整数指示了所选择的片段在视频中的位置，使得被指示的片段将顺序连接，形成最终的视频动态缩略图。

为了便于介绍，请参阅图4，图4为本发明实施例中时序条件指针网络的一个框架示意图，如图所示，首先可以利用BiGRU神经网络整合图卷积视频特征集合，使其包含视频中的时序关系。在得到图卷积视频特征集合之后，还需要在该图卷积视频特征集合的末位填充零向量通过零向量可以指示视频片段的选择操作。最后得到目标图卷积视频特征集合p^k的计算依赖于一个带有时序条件限制的注意力机制，该注意力机制输出第t个片段作为第k个目标片段的注意力权值，最后根据每个片段的注意力权值，每次按顺序且不重复的选择一个视频片段，直至选择到设定的终止符，并顺次连接所选择的目标片段构成最终生成的视频动态缩略图。其中视频动态缩略图中包含待处理视频的至少一个目标片段。

其次，本发明实施例中，提供了一种获取频动态缩略图的方法。即首先服务器根据图卷积视频特征集合获取目标图卷积视频特征集合，然后服务器可以根据目标图卷积视频特征集合以及时序条件指针网络的隐向量，计算得到每个片段的注意力权值，最后根据每个片段的注意力权值，计算得到至少一个目标片段。通过上述方式，时序条件指针网络能够顺序指出构成视频动态缩略图的各个片段，并保证了所生成的视频动态缩略图与原始视频的时序和语义一致性，从而将用户的搜索查询以灵活的自然语言句子的形式呈现，不再限制为单一的词或者短语，且生成的视频动态缩略图也以更加具有表现力，内容更加丰富视频片段的形式展现，而不再限制于单一的视频帧。

可选地，在上述图3对应的第七个实施例的基础上，本发明实施例提供的视频动态缩略图的生成方法第八个可选实施例中，根据目标图卷积视频特征集合以及时序条件指针网络的隐向量，计算得到每个片段的注意力权值，可以包括：

采用如下方式计算每个片段的注意力权值：

其中，表示第t个片段作为第k个目标片段的注意力权值，exp()表示指数函数，表示第t个片段作为第k个目标片段的注意力中间量，w^T表示第一模型参数，tanh()表示双曲正切函数，表示第七模型参数，表示第八模型参数，b^P表示第九模型参数，表示目标图卷积视频特征集合中第t个图卷积视频特征，表示时序条件指针网络的隐向量，表示掩膜函数，p^k-1表示第k-1个目标片段，k为大于或等于1且小于或等于T+1的整数；

根据每个片段的注意力权值，计算得到至少一个目标片段，可以包括：

采用如下方式计算至少一个目标片段：

其中，p^k表示表示第k个目标片段，argmax()表示取最大值函数，表示第1个片段作为第k个目标片段的注意力权值，表示第T+1个片段作为第k个目标片段的注意力权值。

本实施例中，将介绍一种计算待输出片段集合的具体方式。基于目标图卷积视频特征集合从待处理视频中选择第t个片段作为第k个待输出片段的注意力权值接下来服务器通过如下方式进行计算：

其中，表示掩膜函数，可以表示为如下方式：

通过掩膜函数能够保证目标片段的选择不会重复，表示第t个片段作为第k个待输出片段的注意力中间量，注意力中间量的计算方式如下：

这里涉及到时序条件指针网络的隐向量在每一个待输出片段的选择步骤中，由另一个GRU网络进行如下计算：

在初始计算时，是由待处理文本中所有词语的平均向量计算得到的，相比于普通的指针网络，本发明所采用的时序条件指针网络中还包括了作用于注意力权值的掩膜函数在的作用下，如果前一个步骤中所选择的待输出片段为p^k-1，那么在后续步骤中再次选择p^k-1以及p^k-1之前的片段概率将被设置为0，这一时序条件限制能保证顺序地选择待输出片段维持它们在待处理文本中的时序位置关系，进而维持了所生成的视频动态缩略图的语义一致性。当某一个时刻下p^k＝T+1时，表示待输出片段的选择已结束，于是可以将已经选择的待输出片段进行顺序连接，得到待输出片段集合。最后从待输出片段集合中选择至少一个目标片段作为视频动态缩略图。

再次，本发明实施例中，提供一种计算得到每个片段的注意力权值的具体方式，以及计算得到待输出片段集合的具体方式。通过上述方式，为方案的实现提供了具体的实现依据，从而提升方案的可行性和可操作性。

下面将对本发明中模型训练的方法进行介绍，请参阅图5，本发明实施例中模型训练的方法一个实施例包括：

201、获取待训练文本集合以及待训练视频集合，其中，待训练文本集合包括至少一个待训练文本，待训练视频集合包括至少一个待训练视频，待训练文本与待训练视频之间具有对应关系，待训练文本包括多个词语，待训练视频包括多个片段；

本实施例中，首先服务器获取待训练文本集合以及待训练视频集合，待训练文本集合包括至少一个待训练文本，待训练视频集合包括至少一个待训练视频，其中，待训练文本可以是一句话或者一段话，比如“小狗和小猫抢食物”，与此同时，服务器获取该待训练文本所对应的待训练视频。

需要说明的是，待训练文本包括多个词语，N是大于1的整数，也就是说，待训练文本中包括多个词语，比如包括“小猫”、“小狗”以及“吃饭”等词语。待训练视频包括多个片段，T为大于1的整数，也就是说，待训练视频中包括多个片段，每个片段包括多帧图像，通常情况下，1分钟的视频可以平均划分为30个片段，即每个片段的长度为2秒。

202、对待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，其中，每个文本编码特征集合包括多个词语特征，每个视频编码特征集合包括多个片段特征；

本实施例中，服务器分别对每个待训练文本和每个待训练视频进行编码处理，即采用编码器对待训练文本中的每个词语进行编码，从而得到多个词语特征，这些词语特征用于构成文本编码特征集合。采用编码器对待训练视频中的每个片段进行编码，从而得到多个片段特征，这些片段特征用于构成视频编码特征集合。

需要说明的是，可以在对待训练文本进行编码的同时，对待训练视频进行编码。也可以先对待训练文本进行编码，再对待训练视频进行编码。还可以先对待训练视频进行编码，再对待训练文本进行编码，此处不做限定。

203、根据每个文本编码特征集合以及视频编码特征集合，获取交互特征集合，其中，交互特征集合包括多个交互特征；

本实施例中，服务器在获取到各个文本编码特征集合以及各个视频编码特征集合之后，基于文本编码特征集合以及视频编码特征集合，并利用注意力机制可以获取待训练视频中每个片段对待训练文本中每个词语的注意力权值，根据这些注意力权值以及视频编码特征集合生成T个交互特征，即每个交互特征对应于一个片段，从而得到交互特征集合。

204、根据各个交互特征集合获取对应的图卷积视频特征集合，其中，图卷积视频特征集合包括多个图卷积片段特征；

本实施例中，服务器利用步骤203中得到的交互特征集合，在视频片段之间可以构建由句子语义信息指定的视频图结构，并在该视频图结构中进行图卷积操作，从而得到多个图卷积片段特征，这多个图卷积片段特征用于构成图卷积视频特征集合。

205、通过时序条件指针网络生成各个图卷积视频特征集合所对应的至少一个预测目标片段，其中，时序条件指针网络用于指示视频动态缩略图中各个片段的时序；

本实施例中，服务器根据图卷积视频特征集合获取至少一个预测目标片段，与此同时，服务器采用时序条件指针网络来顺序地从待处理视频中指出这些预测目标片段。其中，所有预测目标片段用于构成待训练视频所对应的视频动态缩略图。

206、采用各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。

本实施例中，对于已经给定的待训练文本以及待训练视频，可以确定相应的真实标注情况，也就是能够获取待训练视频所对应的至少一个真实目标片段。最后，服务器利用损失函数、至少一个预测目标片段以及至少一个真实目标片段对模型进行训练，得到训练结果，该训练结果可以用于更新原有的模型。

本发明实施例中，提供了一种模型训练的方法，首先获取待训练文本集合以及待训练视频集合，然后对待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，再根据每个文本编码特征集合以及视频编码特征集合，获取交互特征集合，根据各个交互特征集合获取对应的图卷积视频特征集合，最后，服务器通过时序条件指针网络生成各个图卷积视频特征集合所对应的至少一个预测目标片段，然后采用各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。通过上述方式，服务器能够对多个词语的文本和对应的视频进行训练，从而实现基于句子生成相应的视频动态缩略图，提升了搜索的灵活度和广泛性。与此同时，视频动态缩略图并非单个视频帧的形式，而是由多个视频片段组成的动态图像，其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求，从而提升视频浏览和搜索的效率。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供的模型训练的方法第一个可选实施例中，采用各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，包括：

采用如下损失函数进行训练：

其中，L_Γ表示损失函数，Γ表示待训练样本集合，V表示待训练视频，T表示待训练视频中的片段总数，t表示大于或等于1且小于或等于T的整数，S表示待训练文本，B表示至少一个真实目标片段，表示待训练视频中第t个片段为视频动态缩略图中第k个目标片段的概率，K表示视频动态缩略图中包含目标片段的最大数量，k表示大于或等于1且小于或等于T的整数，表示第t个片段作为第k个目标片段的注意力权值，log()表示对数函数。

本实施例中，将介绍一种通过损失函数进行训练的方式，待训练样本集合包括待训练文本集合以及待训练视频集合，为了便于说明，先以待训练文本集合Γ中的一个待处理文本S以及待训练视频集合中的一个待训练视频V为例进行介绍，假设待处理文本S以及待训练视频V对应的真实标注B，即对应于至少一个真实目标片段，其中，B是一个0至1的矩阵，B∈R^T×K,K表示视频动态缩略图中包含目标片段的最大数量，T表示待训练视频中的片段总数。当矩阵元素时，表示待训练视频V中的第t个片段为视频动态缩略图中第k个目标片段，当矩阵元素时，表示待训练视频V中的第t个片段不是视频动态缩略图中第k个目标片段。因此，对于一个训练样本L(V,S,B)，可以采用如下损失函数进行计算：

其中，表示采用时序条件指针网络所预测的第t个片段作为第k个目标片段的注意力权值，即视频片段的被选择概率。

基于上述介绍，对于具有多个训练样本的待训练样本集合Γ＝{(V,S,B)}，可以采用如下损失函数进行计算：

其次，本发明实施例中，提供了一种利用损失函数进行训练的具体方式。通过上述方式，能够采用损失函数训练得到更准确的模型，为方案的实现提供了具体的实现依据，从而提升方案的可行性和可操作性。

下面对本发明中的视频动态缩略图生成装置进行详细描述，请参阅图6，图6为本发明实施例中视频动态缩略图生成装置一个实施例示意图，视频动态缩略图生成装置30包括：

获取模块301，用于获取待处理文本以及待处理视频，其中，所述待处理文本与所述待处理视频之间具有对应关系，所述待处理文本包括N个词语，所述待处理视频包括T个片段，每个片段包括多帧图像，所述N为大于1的整数，所述T为大于1的整数；

编码模块302，用于对所述获取模块301获取的所述待处理文本进行编码得到文本编码特征集合，对所述待处理视频进行编码得到视频编码特征集合，其中，所述文本编码特征集合包括N个词语特征，所述视频编码特征集合包括T个片段特征；

所述获取模块301，还用于根据所述编码模块302编码得到的所述文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括T个交互特征；

所述获取模块301，还用于根据所述交互特征集合获取图卷积视频特征集合，其中，所述图卷积视频特征集合包括T个图卷积片段特征；

生成模块303，用于通过时序条件指针网络生成所述获取模块301获取的所述图卷积视频特征集合所对应的至少一个目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，所述至少一个目标片段用于构成所述待处理视频所对应的视频动态缩略图。

本实施例中，获取模块301获取待处理文本以及待处理视频，其中，所述待处理文本与所述待处理视频之间具有对应关系，所述待处理文本包括N个词语，所述待处理视频包括T个片段，每个片段包括多帧图像，所述N为大于1的整数，所述T为大于1的整数，编码模块302对所述获取模块301获取的所述待处理文本进行编码得到文本编码特征集合，对所述待处理视频进行编码得到视频编码特征集合，其中，所述文本编码特征集合包括N个词语特征，所述视频编码特征集合包括T个片段特征，所述获取模块301根据所述编码模块302编码得到的所述文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括T个交互特征，所述获取模块301根据所述交互特征集合获取图卷积视频特征集合，其中，所述图卷积视频特征集合包括T个图卷积片段特征，生成模块303通过时序条件指针网络生成所述获取模块301获取的所述图卷积视频特征集合所对应的至少一个目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，所述至少一个目标片段用于构成所述待处理视频所对应的视频动态缩略图。

本发明实施例中，提供了一种视频动态缩略图生成装置，首先获取待处理文本以及待处理视频，其中，待处理文本与待处理视频之间具有对应关系，待处理文本包括N个词语，待处理视频包括T个片段，每个片段包括多帧图像，N为大于1的整数，T为大于1的整数，然后可以对待处理文本进行编码得到文本编码特征集合，对待处理视频进行编码得到视频编码特征集合，再根据文本编码特征集合以及视频编码特征集合，获取交互特征集合，接下来根据交互特征集合获取图卷积视频特征集合，最后通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段，且至少选择一个片段用于构成待处理视频所对应的视频动态缩略图。通过上述方式，用户在搜索视频时所采用的文本包括多个词语，也就是说，能够基于句子来生成相应的视频动态缩略图，提升了搜索的灵活度和广泛性。与此同时，视频动态缩略图并非单个视频帧的形式，而是由多个视频片段组成的动态图像，其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求，从而提升视频浏览和搜索的效率。

可选地，在上述图6所对应的实施例的基础上，本发明实施例提供的视频动态缩略图生成装置30的另一实施例中，

所述编码模块302，具体用于通过第一神经网络对所述待处理文本中的每个词语进行编码处理，得到N个词语特征向量，其中，所述第一神经网络用于对文本进行处理；

所述编码模块302，具体用于通过第二神经网络对所述待处理视频中的每个片段进行编码处理，得到T个片段特征向量，其中，所述第二神经网络用于对图像进行处理；

所述获取模块301，具体用于根据所述文本编码特征集合以及所述视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值；

所述获取模块301，具体用于采用如下方式计算所述每个片段特征对每个词语的注意力权值：

采用如下方式计算所述注意力加权文本特征集合：

其中，所述表示第t个片段的注意力加权文本特征；

采用如下方式计算所述交互特征集合：

所述获取模块301，具体用于根据所述待处理视频生成T个节点，其中，每个节点对应于一个所述待处理视频中的一个片段；

根据所述交互特征集合计算得到节点之间的相似性；

所述获取模块301，具体用于采用如下方式计算所述节点之间的相似性：

采用如下方式计算所述视频片段图邻接矩阵：

所述生成模块303，具体用于根据所述图卷积视频特征集合获取目标图卷积视频特征集合，其中，所述目标图卷积视频特征集合包括所述图卷积视频特征集合以及第T+1个图卷积片段特征，所述第T+1个图卷积片段特征为0；

所述生成模块303，具体用于具体用于采用如下方式计算所述每个片段的注意力权值：

采用如下方式计算所述至少一个目标片段：

下面对本发明中的模型训练装置进行详细描述，请参阅图7，图7为本发明实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练文本集合以及待训练视频集合，其中，所述待训练文本集合包括至少一个待训练文本，所述待训练视频集合包括至少一个待训练视频，所述待训练文本与所述待训练视频之间具有对应关系，所述待训练文本包括多个词语，所述待训练视频包括多个片段；

编码模块402，用于对所述获取模块401获取的所述待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对所述待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，其中，每个文本编码特征集合包括多个词语特征，每个视频编码特征集合包括多个片段特征；

所述获取模块401，还用于根据所述编码模块编码得到的每个文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括多个交互特征；

所述获取模块401，还用于根据各个交互特征集合获取对应的图卷积视频特征集合，其中，所述图卷积视频特征集合包括多个图卷积片段特征；

生成模块403，用于通过时序条件指针网络生成所述获取模块401获取的各个图卷积视频特征集合所对应的至少一个预测目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序；

训练模块404，用于采用所述生成模块403生成的所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。

本实施例中，获取模块401获取待训练文本集合以及待训练视频集合，其中，所述待训练文本集合包括至少一个待训练文本，所述待训练视频集合包括至少一个待训练视频，所述待训练文本与所述待训练视频之间具有对应关系，所述待训练文本包括多个词语，所述待训练视频包括多个片段，编码模块402对所述获取模块401获取的所述待训练文本集合中的各个待训练文本进行编码得到文本编码特征集合，对所述待训练视频集合中的各个待训练视频进行编码得到视频编码特征集合，其中，每个文本编码特征集合包括多个词语特征，每个视频编码特征集合包括多个片段特征，所述获取模块401根据所述编码模块编码得到的每个文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，其中，所述交互特征集合包括多个交互特征，所述获取模块401根据各个交互特征集合获取对应的图卷积视频特征集合，其中，所述图卷积视频特征集合包括多个图卷积片段特征，生成模块403通过时序条件指针网络生成所述获取模块401获取的各个图卷积视频特征集合所对应的至少一个预测目标片段，其中，所述时序条件指针网络用于指示视频动态缩略图中各个片段的时序，训练模块404采用所述生成模块403生成的所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，得到训练结果。

可选地，在上述图7所对应的实施例的基础上，本发明实施例提供的模型训练装置40的另一实施例中，

所述训练模块404，具体用于采用如下所述损失函数进行训练：

图8是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

在本发明实施例中，该服务器所包括的CPU 522还具有以下功能：

可选地，CPU 522具体用于执行如下功能：

通过第一神经网络对所述待处理文本中的每个词语进行编码处理，得到N个词语特征向量，其中，所述第一神经网络用于对文本进行处理；

可选地，CPU 522具体用于执行如下功能：

通过第二神经网络对所述待处理视频中的每个片段进行编码处理，得到T个片段特征向量，其中，所述第二神经网络用于对图像进行处理；

可选地，CPU 522具体用于执行如下功能：

根据所述文本编码特征集合以及所述视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值；

可选地，CPU 522具体用于执行如下功能：

采用如下方式计算所述每个片段特征对每个词语的注意力权值：

采用如下方式计算所述注意力加权文本特征集合：

其中，所述表示第t个片段的注意力加权文本特征；

采用如下方式计算所述交互特征集合：

可选地，CPU 522具体用于执行如下功能：

根据所述待处理视频生成T个节点，其中，每个节点对应于一个所述待处理视频中的一个片段；

根据所述交互特征集合计算得到节点之间的相似性；

可选地，CPU 522具体用于执行如下功能：

采用如下方式计算所述节点之间的相似性：

采用如下方式计算所述视频片段图邻接矩阵：

可选地，CPU 522具体用于执行如下功能：

根据所述图卷积视频特征集合获取目标图卷积视频特征集合，其中，所述目标图卷积视频特征集合包括所述图卷积视频特征集合以及第T+1个图卷积片段特征，所述第T+1个图卷积片段特征为0；

根据所述每个片段的注意力权值，计算得到待输出片段集合，其中，所述待输出片段集合中包括至少一个待输出片段；

从所述待输出片段集合中选择所述至少一个目标片段。

可选地，CPU 522具体用于执行如下功能：

采用如下方式计算所述每个片段的注意力权值：

采用如下方式计算所述至少一个目标片段：

可选地，CPU 522具体用于执行如下功能：

采用如下所述损失函数进行训练：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频动态缩略图的生成方法，其特征在于，包括：

2.根据权利要求1所述的生成方法，其特征在于，所述对所述待处理文本进行编码得到文本编码特征集合，包括：

3.根据权利要求1所述的生成方法，其特征在于，所述对所述待处理视频进行编码得到视频编码特征集合，包括：

4.根据权利要求1所述的生成方法，其特征在于，所述根据所述文本编码特征集合以及所述视频编码特征集合，获取交互特征集合，包括：

5.根据权利要求4所述的生成方法，其特征在于，所述根据所述文本编码特征集合以及所述视频编码特征集合，计算得到每个片段特征对每个词语的注意力权值，包括：

所述根据每个片段特征对每个词语的注意力权值，计算得到注意力加权文本特征集合，包括：

采用如下方式计算所述注意力加权文本特征集合：

其中，所述表示第t个片段的注意力加权文本特征；

所述对所述注意力加权文本特征集合以及所述视频编码特征集合进行融合处理，得到所述交互特征集合，包括：

采用如下方式计算所述交互特征集合：

6.根据权利要求1所述的生成方法，其特征在于，所述根据所述交互特征集合获取图卷积视频特征集合，包括：

根据所述交互特征集合计算得到节点之间的相似性；

7.根据权利要求6所述的方法，其特征在于，所述根据所述交互特征集合计算得到节点之间的相似性，包括：

采用如下方式计算所述节点之间的相似性：

采用如下方式计算所述视频片段图邻接矩阵：

8.根据权利要求1所述的生成方法，其特征在于，所述通过时序条件指针网络生成所述图卷积视频特征集合所对应的至少一个目标片段，包括：

9.根据权利要求8所述的生成方法，其特征在于，所述根据所述目标图卷积视频特征集合以及所述时序条件指针网络的隐向量，计算得到每个片段的注意力权值，包括：

采用如下方式计算所述每个片段的注意力权值：

所述根据所述每个片段的注意力权值，计算得到所述至少一个目标片段，包括：

采用如下方式计算所述至少一个目标片段：

10.一种模型训练的方法，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，所述采用所述各个图卷积视频特征集合所对应的至少一个预测目标片段以及至少一个真实目标片段，通过损失函数进行训练，包括：

采用如下所述损失函数进行训练：

12.一种视频动态缩略图生成装置，其特征在于，包括：

13.一种模型训练装置，其特征在于，包括：

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

15.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：