CN113361376B

CN113361376B - 获取视频封面的方法、装置、计算机设备及可读存储介质

Info

Publication number: CN113361376B
Application number: CN202110614357.9A
Authority: CN
Inventors: 黄彦春; 曹佐; 左凯; 张弓
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-01-17
Anticipated expiration: 2041-06-02
Also published as: CN113361376A

Abstract

本申请公开了获取视频封面的方法、装置、计算机设备及可读存储介质，属于人工智能技术领域。方法包括：获取文本和文本对应的视频，通过特征向量提取得到文本中包括的至少一个关键词对应的至少一个关键词特征向量，和视频中包括的多个视频片段对应的多个视频片段特征向量。将至少一个关键词特征向量和多个视频片段特征向量输入第一模型，得到第一模型输出的一个或两个矩阵，任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度；基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的备选视频片段，基于备选视频片段确定视频的视频封面。本申请获取视频封面的成功率较高。

Description

获取视频封面的方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种获取视频封面的方法、装置、计算机设备及可读存储介质。

背景技术

在视频展示页面中，往往会为视频设置视频封面，所设置的视频封面例如为从视频中截取的视频片段。在用户提供文本的情况下，如果能够将与该文本较为相关的视频片段设置为视频封面，则有利于提高用户体验。

相关技术中，通过图像理解算法对视频中的各个视频片段进行语义标签预测，从而得到各个视频片段对应的语义标签。如果用户提供的文本中包含语义标签，则将视频中该语义标签对应的视频片段作为视频封面。

然而，相关技术中预测得到的语义标签的覆盖率是有限的，但用户提供的文本往往是丰富且多变的。如果用户提供的文本中不包括语义标签，则相关技术不能确定出用于作为视频封面的视频片段。由此可见，通过相关技术获取视频封面的成功率较低。

发明内容

本申请实施例提供了一种获取视频封面的方法、装置、计算机设备及可读存储介质，以解决相关技术获取视频封面的成功率较低的问题。所述技术方案包括如下内容。

一方面，提供了一种获取视频封面的方法，所述方法包括：

获取文本和所述文本对应的视频，通过特征向量提取得到所述文本中包括的至少一个关键词对应的至少一个关键词特征向量，和所述视频中包括的多个视频片段对应的多个视频片段特征向量；

将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型，得到所述第一模型输出的一个或两个矩阵，任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量；

基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段，基于所述备选视频片段确定所述视频的视频封面。

在示例性实施例中，所述将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型之后，所述方法还包括：得到所述第一模型输出的相关程度数值，所述相关程度数值用于指示所述文本和所述视频之间的相关程度；所述基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的至少一个视频片段之前，所述方法还包括：响应于所述相关程度数值指示的相关程度高于第二相关程度阈值，再执行所述基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的至少一个视频片段。

在示例性实施例中，所述得到所述第一模型输出的相关程度数值，包括：响应于所述第一模型输出一个矩阵，得到所述第一模型基于多个参考数值输出的所述相关程度数值，所述多个参考数值与多个特征向量对一一对应，任一特征向量对通过拼接所述一个矩阵对应的一个目标询问标记与一个匹配的参考特征向量得到，所述参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，所述得到所述第一模型输出的相关程度数值，包括：响应于所述第一模型输出两个矩阵，得到所述第一模型基于多个第一参考数值和多个第二参考数值输出的所述相关程度数值，其中，所述多个第一参考数值与多个第一特征向量对一一对应，任一第一特征向量对通过拼接所述两个矩阵中的一个矩阵对应的一个目标询问标记与一个匹配的第一参考特征向量得到，所述多个第二参考数值与多个第二特征向量对一一对应，任一第二特征向量对通过拼接所述两个矩阵中的另一个矩阵对应的一个目标询问标记与一个匹配的第二参考特征向量得到，所述第一参考特征向量与所述第二参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，所述将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型之前，所述方法还包括：获取正训练样本和负训练样本，所述正训练样本包括相对应且相关的第一样本文本和第一样本视频，所述负训练样本包括相对应且不相关的第二样本文本和第二样本视频；基于所述正训练样本和所述负训练样本训练得到所述第一模型。

在示例性实施例中，所述得到所述第一模型输出的一个或两个矩阵，包括：对于任一矩阵，按照目标顺序对至少两个子矩阵进行乘积，得到所述任一矩阵，所述至少两个子矩阵通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成，所述至少两个子矩阵与所述至少两次跨越注意力处理一一对应，所述目标顺序包括所述至少两个子矩阵的生成顺序的倒序。

在示例性实施例中，所述基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段，包括：将所述多个视频片段特征向量输入第二模型，得到所述第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度；基于所述第一模型输出的一个或两个矩阵中的各个元素和所述多个精彩程度数值，从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段。

一方面，提供了一种获取视频封面的装置，所述装置包括：

获取模块，用于获取文本和所述文本对应的视频，通过特征向量提取得到所述文本中包括的至少一个关键词对应的至少一个关键词特征向量，和所述视频中包括的多个视频片段对应的多个视频片段特征向量；

输入模块，用于将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型；

得到模块，用于得到所述第一模型输出的一个或两个矩阵，任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量；

确定模块，用于基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段，基于所述备选视频片段确定所述视频的视频封面。

在示例性实施例中，所述得到模块，还用于得到所述第一模型输出的相关程度数值，所述相关程度数值用于指示所述文本和所述视频之间的相关程度；

所述确定模块，还用于响应于所述相关程度数值指示的相关程度高于第二相关程度阈值，再执行所述基于所述第一模型输出的一个或两个矩阵中的各个元素，从所述多个视频片段中确定与所述至少一个关键词相关的至少一个视频片段。

在示例性实施例中，所述得到模块，用于响应于所述第一模型输出一个矩阵，得到所述第一模型基于多个参考数值输出的所述相关程度数值，所述多个参考数值与多个特征向量对一一对应，任一特征向量对通过拼接所述一个矩阵对应的一个目标询问标记与一个匹配的参考特征向量得到，所述参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，所述得到模块，用于响应于所述第一模型输出两个矩阵，得到所述第一模型基于多个第一参考数值和多个第二参考数值输出的所述相关程度数值，其中，所述多个第一参考数值与多个第一特征向量对一一对应，任一第一特征向量对通过拼接所述两个矩阵中的一个矩阵对应的一个目标询问标记与一个匹配的第一参考特征向量得到，所述多个第二参考数值与多个第二特征向量对一一对应，任一第二特征向量对通过拼接所述两个矩阵中的另一个矩阵对应的一个目标询问标记与一个匹配的第二参考特征向量得到，所述第一参考特征向量与所述第二参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，所述装置还包括训练模块，用于获取正训练样本和负训练样本，所述正训练样本包括相对应且相关的第一样本文本和第一样本视频，所述负训练样本包括相对应且不相关的第二样本文本和第二样本视频；基于所述正训练样本和所述负训练样本训练得到所述第一模型。

在示例性实施例中，所述得到模块，用于对于任一矩阵，按照目标顺序对至少两个子矩阵进行乘积，得到所述任一矩阵，所述至少两个子矩阵通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成，所述至少两个子矩阵与所述至少两次跨越注意力处理一一对应，所述目标顺序包括所述至少两个子矩阵的生成顺序的倒序。

在示例性实施例中，所述确定模块，用于将所述多个视频片段特征向量输入第二模型，得到所述第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度；基于所述第一模型输出的一个或两个矩阵中的各个元素和所述多个精彩程度数值，从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段。

一方面，提供了一种计算机设备，所述计算机设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使计算机设备实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

另一方面，提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括：计算机指令，所述计算机指令被计算机执行时，使得所述计算机实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

本申请实施例所提供的技术方案带来的有益效果至少包括：

对文本中的关键词和视频中的视频片段进行特征向量提取，基于提取得到的特征向量选择用于作为视频封面的视频片段。即使文本中的关键词丰富多变，也能够获取到视频封面，因而获取视频封面的成功率较高。并且，在选择用于作为视频封面的视频片段的过程中，剔除了与关键词相关程度较低的视频片段，从而保证视频封面与文本具有一定的相关性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种获取视频封面的方法的流程图；

图3是本申请实施例提供的一种第一模型的结构示意图；

图4是本申请实施例提供的一种第一模型的结构示意图；

图5是本申请实施例提供的一种第一模型的结构示意图；

图6是本申请实施例提供的一种获取视频封面的流程示意图；

图7是本申请实施例提供的一种获取视频封面的装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种获取视频封面的方法，该方法可应用于如图1所示的实施环境中。图1中，包括安装有第一模型的计算机设备，第一模型用于根据输入的关键词特征向量和视频片段特征向量输出数值，第一模型输出的数值用于指示关键词和视频片段之间的相关程度。示例性地，该计算机设备还安装有第二模型，第二模型用于根据输入的视频片段特征向量输出数值，第二模型输出的数值用于指示视频片段的精彩程度。

在示例性实施例中，计算机设备包括电子设备或者服务器。其中，电子设备包括任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，如PC(Computer，个人计算机)、手机、智能手机、PDA(PersonalDigital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视等。服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述电子设备和服务器仅为举例，其他现有的或今后可能出现的电子设备或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，参见图2，本申请实施例提供了一种获取视频封面的方法，该方法可应用于图1所示的计算机设备中。如图2所示，该方法包括如下的步骤201至步骤203。

201，获取文本和文本对应的视频，通过特征向量提取得到文本中包括的至少一个关键词对应的至少一个关键词特征向量，和视频中包括的多个视频片段对应的多个视频片段特征向量。

其中，文本和视频相对应是指：文本的语义与视频的内容相关。例如，在视频搜索场景中，文本包括通过输入框检测到的搜索文本，文本对应的视频包括基于该搜索文本获得的视频搜索结果。该搜索文本由用户通过键盘输入，或者通过识别用户语音得到。又例如，在视频发布场景中，包括相对应的文本和视频，文本用于对视频进行介绍说明。文本通过输入框检测得到，视频根据检测到的指令从缓存中获得，或者根据检测到的指令录制得到，所检测到的指令由用户触发。

文本中包括至少一个关键词，从文本中提取得到至少一个关键词之后，对至少一个关键词进行特征向量提取，从而得到至少一个关键词特征向量，关键词和关键词特征向量一一对应。示例性地，对关键词进行特征向量提取的方式包括但不限于词汇嵌入(wordembedding)的方式。

通过对视频进行划分能够得到多个视频片段，不同视频片段的时长相同或者不同。示例性地，本实施例将视频平均划分为参考数量个视频片段，则各个视频片段的时长均等于视频总时长与参考数量的比值。或者，本实施例从视频首帧开始，以参考时长为周期进行划分得到视频片段。则除最后一个视频片段的时长小于或等于参考时长以外，其他视频片段的时长均等于该参考时长。本实施例不对上述参考数量和参考时长加以限定，参考数量和参考时长均可以根据经验设置，参考时长例如为1秒。

在划分得到多个视频片段之后，分别对各个视频片段进行特征向量提取，从而得到多个视频片段特征向量，视频片段与视频片段特征向量一一对应。示例性地，对于任一视频片段而言，进行特征提取的方式包括：从该任一视频片段中抽取视频帧，通过2D(2-dimension，二维)CNN(Convolutional Neural Networks，卷积神经网络)提取该任一视频帧的特征向量，将该任一视频帧的特征向量作为视频片段特征向量。或者，通过3D(3-dimension，三维)CNN直接对该任一视频片段进行提取，从而得到视频片段特征向量。

需要说明的是，进行特征向量提取的本质在于：将关键词或者视频片段映射至计算机能够理解的一个空间中，从而在该空间中得到计算机能够理解的关键词特征向量和视频片段特征向量。上述说明中涉及的word embedding、2D CNN和3D CNN等特征向量提取的方式仅为举例，不用于对本实施例进行特征向量提取的方式造成限定。

202，将至少一个关键词特征向量和多个视频片段特征向量输入第一模型，得到第一模型输出的一个或两个矩阵，任一矩阵中的一个元素用于指示一个目标询问(query)标记(token)与一个主键(key)标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量。

其中，第一模型包括第一子模型和第二子模型中的至少一个子模型，任一子模型的输入均包括上述至少一个关键词特征向量和多个视频片段特征向量。基于该输入，第一子模型用于输出第一矩阵，第二子模型用于输出第二矩阵，则第一模型输出的一个或两个矩阵是指：第一矩阵和第二矩阵中的至少一个。

对于第一子模型而言，询问标记包括多个视频片段特征向量，主键标记包括至少一个关键词特征向量，目标询问标记是指多个视频片段特征向量中与至少一个关键词特征向量之间的相关程度高于第一相关程度阈值的目标视频片段特征向量。相应地，第一子模型输出的第一矩阵中的第一元素用于指示一个目标视频片段特征向量与一个关键词特征向量之间的相关程度。

对于第二子模型而言，询问标记包括至少一个关键词特征向量，主键标记包括多个视频片段特征向量，目标询问标记是指至少一个关键词特征向量中与多个视频片段特征向量之间的相关程度均高于第一相关程度阈值的目标关键词特征向量。相应地，第二子模型输出的第二矩阵中的第二元素用于指示一个目标关键词特征向量与一个视频片段特征向量之间的相关程度。本实施例不对上述第一相关程度阈值加以限定，第一相关程度阈值可以根据经验设置。

能够看出，第一子模型的询问标记和第二子模型的询问标记是不同的特征向量，第一子模型的主键标记和第二子模型的主键标记也是不同的特征向量，第一子模型和第二子模型根据各自的询问标记和主键标记生成矩阵。其中，第一子模型生成第一矩阵的过程和第二子模型生成第二矩阵的过程是相同的，因而以下进行统一说明。

在第一子模型或者第二子模型中，包括至少一个第一部分和一个第二部分，该第二部分连接于至少一个第一部分之后，第一部分数量的增加有利于提升第一模型的泛化能力。第一子模型和第二子模型中第一部分的数量可以相同，也可以不同。本实施例中不对第一部分的数量加以限定，示例性地，第一部分的数量根据第一模型的训练样本的数量级确定。例如，在训练样本的数量级为百万级的情况下，则确定第一部分的数量为两个。如图3所示，图3示出了第一子模型和第二子模型均包括两个第一部分和一个第二部分的情况。

一个第一部分中包括一个跨越注意力(cross-attention)模块和一个噪声标记剔除(noise token drop)模块。首个第一部分中的输入为通过特征向量提取过程得到的询问标记和主键标记，首个第一部分中的cross-attention模块用于通过跨越注意力处理过程生成子矩阵、输出新的主键标记，首个第一部分中的noise token drop模块用于输出新的询问标记。

示例性地，首个第一部分的cross-attention模块用于根据通过特征向量提取得到的询问标记和主键标记生成一个子矩阵，子矩阵中的任一元素用于指示一个询问标记和一个主键标记之间的相关程度。在生成子矩阵之后，计算值(value)标记和子矩阵的乘积，得到注意力特征向量组。其中，值标记是对主键标记进行映射得到的标记，得到的注意力特征向量组用于作为新的主键标记。首个第一部分的noise token drop模块用于根据子矩阵从特征向量提取得到的主键标记中确定噪声标记，噪声标记是与各个主键标记之间的相关程度均低于第一相关程度阈值的询问标记。之后，剔除掉噪声标记，将噪声标记以外的其他询问标记组成非噪声特征向量组，该非噪声特征向量组用于作为新的询问标记。

示例性地，该cross-attention模块还可以通过多头(multi-head)跨越注意力处理生成该子矩阵。在multi-head跨越注意力处理过程中，将通过特征向量提取得到的询问标记拆分为至少两个询问子标记，将通过特征向量提取得到的主键标记拆分为至少两个主键子标记，询问子标记和主键子标记一一对应。之后，将相对应的询问子标记和主键子标记映射至同一空间，而不对应的询问子标记和主键子标记映射于不同空间。在完成映射之后，根据相对应的询问子标记和主键子标记生成参考矩阵，共得到至少两个参考矩阵。组合至少两个参考矩阵，便能够生成上述子矩阵。

参见图3，在第一子模型的首个第一部分中，通过特征向量提取的询问标记为多个视频片段特征向量，表示为(N×d)的矩阵，N为视频片段特征向量的数量，d为各个视频片段特征向量的维度。通过特征向量提取的主键标记包括至少一个关键词特征向量，表示为(M×d)的矩阵，M为关键词特征向量的数量，d为关键词特征向量的维度。另外，对主键标记进行映射得到的值标记也为(M×d)的矩阵。cross-attention模块根据(N×d)的多个视频片段特征向量和(M×d)的至少一个关键词特征向量生成(N×M)的子矩阵A1，A1中的任一元素用于指示一个视频片段特征向量与一个关键词特征向量之间的相关程度。另外，对(N×M)的子矩阵A1与(M×d)的值标记相乘，从而得到(N×d)的注意力特征向量组1。noise tokendrop模块根据(N×M)的子矩阵A1从(N×d)的多个视频片段特征向量中确定(N-N1)个噪声视频片段特征向量，在剔除噪声视频片段特征向量之后，得到(N1×d)的非噪声特征向量组。

在第二子模型的首个第一部分中，通过特征向量提取的询问标记为至少一个关键词特征向量，表示为(M×d)的矩阵。通过特征向量提取的主键标记为多个视频片段特征向量，表示为(N×d)的矩阵。对主键标记映射得到的值标记也为(N×d)的矩阵。cross-attention模块根据(M×d)的至少一个关键词特征向量和(N×d)的多个视频片段特征向量生成(M×N)的子矩阵B1，B1中的任一元素用于指示一个关键词特征向量与一个视频片段特征向量之间的相关程度。另外，对(M×N)的子矩阵B1与(N×d)的值标记相乘，从而得到(M×d)的注意力特征向量组4。noise token drop模块根据(M×N)的子矩阵B1从(M×d)的至少一个关键词特征向量中确定(M-M1)个噪声关键词特征向量，在剔除噪声关键词特征向量之后，得到(M1×d)的非噪声特征向量组。

如果第一部分的数量为多个，则第二个第一部分以及之后的各个第一部分的输入包括：前一个第一部分输出的新的主键标记和新的询问标记。根据此种输入，第二个第一部分以及之后各个第一部分继续通过cross-attention模块进行跨越注意力处理，从而生成子矩阵、输出新的主键标记，通过noise token drop模块输出新的询问标记。另外，第二部分包括一个cross-attention模块，第二部分的输入包括：前一个第一部分输出的新的主键标记和新的询问标记。根据此种输入，第二部分通过cross-attention模块进行跨越注意力处理，从而生成子矩阵、输出新的主键标记。其中，生成子矩阵的过程和输出过程参见上文对于首个第一部分的说明，此处不再进行赘述。

参见图3，在第一子模型的第二个第一部分中，cross-attention模块根据首个第一部分输出的(N1×d)的非噪声特征向量组和(N×d)的注意力特征向量组1生成(N1×N)子矩阵A2，对(N1×N)子矩阵A2与(N×d)的值标记相乘，从而得到(N1×d)的注意力特征向量组2。noise token drop模块根据(N1×N)子矩阵A2从(N1×d)的非噪声特征向量组中确定(N1-N2)个噪声视频片段特征向量，在剔除噪声视频片段特征向量之后，得到(N2×d)的非噪声特征向量组。能够看出，在第一子模型中，通过首个第一部分剔除了(N-N1)个噪声视频片段特征向量，通过第二个第一部分剔除了(N1-N2)个噪声视频片段特征向量，共剔除了(N-N2)个噪声视频片段特征向量，从而得到N2个目标视频片段特征向量。在第一子模型的第二部分中，cross-attention模块根据第二个第一部分输出的(N2×d)的非噪声特征向量组和(N1×d)的注意力特征向量组2生成(N2×N1)子矩阵A3，对(N2×N1)子矩阵A3与(N1×d)的值标记相乘，从而得到(N2×d)的注意力特征向量组3。

在第二子模型的第二个第一部分中，cross-attention模块根据首个第一部分输出的(M1×d)的非噪声特征向量组和(M×d)的注意力特征向量组4生成(M1×M)子矩阵B2，对(M1×M)子矩阵B2与(M×d)的值标记相乘，从而得到(M1×d)的注意力特征向量组5。noise token drop模块根据(M1×M)子矩阵B2从(M1×d)的非噪声特征向量组中确定(M1-M2)个噪声关键词特征向量，在剔除噪声关键词特征向量之后，得到(M2×d)的非噪声特征向量组。能够看出，在第二子模型中，通过首个第一部分剔除了(M-M1)个噪声关键词特征向量，通过第二个第一部分剔除了(M1-M2)个噪声关键词特征向量，共剔除了(M-M2)个噪声关键词特征向量，从而得到M2个目标关键词特征向量。在第二子模型的第二部分中，cross-attention模块根据第二个第一部分输出的(M2×d)的非噪声特征向量组和(M1×d)的注意力特征向量组5生成(M2×M1)子矩阵B3，对(M2×M1)子矩阵B3与(M1×d)的值标记相乘，从而得到(M2×d)的注意力特征向量组6。

能够看出，基于询问标记和主键标记，各个第一部分和第二部分均通过跨越注意力处理过程生成子矩阵。由于第一子模型和第二子模型包括至少一个第一部分和一个第二部分，因而第一子模型和第二子模型基于询问标记和主键标记进行了至少两次跨越注意力处理，从而生成至少两个子矩阵，至少两个子矩阵和至少两次跨越注意力处理一一对应。相应地，生成矩阵的过程包括：按照目标顺序对至少两个子矩阵进行乘积得到矩阵，目标顺序包括至少两个子矩阵的生成顺序的倒序。

如图3所示，在第一子模型中，首先由首个第一部分生成(N×M)的子矩阵A1，其次由第二个第一部分生成(N1×N)子矩阵A2，接着由第二部分生成(N2×N1)子矩阵A3，则通过计算A3×A2×A1得到第一子模型输出的第一矩阵A0，A0为(N2×M)的矩阵，该第一矩阵体现了N2个目标视频片段特征向量与M个关键词特征向量之间的相关程度，该第一矩阵中的任一第一元素用于指示一个目标视频片段特征向量与一个关键词特征向量之间的相关程度。在第二子模型中，首先由首个第一部分生成(M×N)的子矩阵B1，其次由第二个第一部分生成，接着由第二部分生成，通过计算B3×B2×B1得到第二子模型输出的第二矩阵B0，B0为(M2×N)的矩阵，该第二矩阵体现了M2个目标关键词特征向量与N个视频片段特征向量之间的相关程度，该第二矩阵中的任一第二元素用于指示一个目标关键词特征向量与一个视频片段特征向量之间的相关程度。

需要说明的是，本实施例中第一子模型和第二子模型的第二部分中不包括noisetoken drop模块的原因在于：无论第二部分是否包括noise token drop模块，均不会对矩阵的生成过程造成影响。由于矩阵通过至少两个子矩阵相乘得到，而在第二部分中子矩阵通过cross-attention模块即可生成，因而第二部分无需包括该noise token drop模块。从而，有利于节约训练第一模型和应用第一模型所需的处理资源，也有利于提高第一模型的训练速度。

示例性地，如图3所示，在第一子模型和第二子模型包括的第一部分和第二部分中，除了上述cross-attention模块和noise token drop模块以外，还包括前馈(feedforward)模块和相加归一化(add&norm)模块。feed forward模块用于对前一模块的输出进行空间映射，从而增加模型复杂度，有利于提升模型拟合能力。add&norm模块用于将前一模块的输入和输出相加并进行归一化，从而防止前一模块内的数据变化过大，有利于加快模型收敛速度。需要说明的是，cross-attention模块输出的注意力特征向量组经过feedforward模块和add&norm模块的处理之后，行数和列数均不会发生变化，经过feed forward模块和add&norm模块的处理之后的特征向量组用于作为新的主键标记。

以第一子模型中的首个第一部分为例，cross-attention模块输出(N×d)的注意力特征向量组1，feed forward模块连接于cross-attention模块之后，该注意力特征向量组1用于作为feed forward模块的输入，由feed forward模块输出空间映射后的特征向量组。接着，连接于feed forward模块之后的add&norm模块用于对注意力特征向量组1和空间映射后的特征向量组进行相加和归一化，得到归一化的特征向量组，该归一化的特征向量组用于作为第一子模型中第二个第一部分的输入。

203，基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的备选视频片段，基于备选视频片段确定视频的视频封面。

在第一模型仅包括第一子模型的情况下，第一模型仅输出上述第一矩阵，该第一矩阵中的任一第一元素用于指示一个目标视频片段特征向量与一个关键词特征向量之间的相关程度。示例性地，对于任一目标视频片段特征向量而言，如果与该目标视频片段特征向量的相关程度大于第一参考阈值的关键词特征向量的数量不少于一个，则该目标视频片段特征向量对应的视频片段可以作为备选视频片段，本实施例不对第一参考阈值加以限定。例如，目标视频片段特征向量与关键词特征向量1的相关程度为0.9，与关键词特征向量2的相关程度为0.8，与关键词特征向量3的相关程度为0.3，第一参考阈值为0.7，则与该目标视频片段特征向量的相关程度大于第一参考阈值的关键词特征向量的数量为两个(关键词特征向量1和关键词特征向量2)，不少于一个，因而该目标视频片段特征向量可以作为备选视频片段。

在第一模型仅包括第二子模型的情况下，第一模型仅输出上述第二矩阵，该第二矩阵中的任一第二元素用于指示一个目标关键词特征向量与一个视频片段特征向量之间的相关程度。示例性地，对于任一目标关键词特征向量而言，将与该目标关键词特征向量的相关程度大于第二参考阈值的视频片段特征向量对应的视频片段作为备选视频片段，本实施例不对第二参考阈值加以限定。例如，目标关键词特征向量与视频片段特征向量1的相关程度为0.9，与视频片段特征向量2的相关程度为0.2，与视频片段特征向量3的相关程度为0.8，第二参考阈值为0.6，则将视频片段特征向量1和视频片段特征向量3对应的视频片段作为备选视频片段。

在第一模型包括第一子模型和第二子模型的情况下，第一模型输出上述第一矩阵和第二矩阵。则本实施例按照上述说明，将基于第一矩阵确定的备选视频片段作为第一备选视频片段，将基于第二矩阵确定的备选视频片段作为第二备选视频片段，从而根据第一备选视频片段和第二备选视频片段确定备选视频片段。示例性地，在确定备选视频片段的过程中，对第一备选视频片段和第二备选视频片段进行合并去重，得到该备选视频片段。或者，将第一备选视频片段和第二备选视频片段中重复的视频片段确定为备选视频片段。

无论按照何种情况确定备选视频片段，示例性地，响应于备选视频片段的数量为一个，则将备选视频片段作为视频的视频封面。或者，响应于备选视频片段的数量为多个，则可以拼接多个备选视频片段得到视频的视频封面。

在示例性实施例中，将至少一个关键词特征向量和多个视频片段特征向量输入第一模型之后，方法还包括：得到第一模型输出的相关程度数值，相关程度数值用于指示文本和视频之间的相关程度。相应地，基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的至少一个视频片段之前，方法还包括：响应于相关程度数值指示的相关程度高于第二相关程度阈值，再执行基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的至少一个视频片段。

在该实施例中，响应于相关程度数值指示文本与视频的相关程度高于第二相关程度阈值，再按照上述说明将视频片段确定为视频封面。响应于相关程度数值指示文本与视频的相关程度不高于第二相关程度阈值，则说明文本与视频的相关性较小，即使矩阵中的元素指示的相关程度较高，也可能是元素存在误差，因而不再基于矩阵中的各个元素确定备选视频片段，也不再基于备选视频片段确定视频封面。示例性地，此种情况下可以显示视频封面选择页面，以提示用户进行视频封面的选择。之后，将基于该封面选择页面检测到的图像或者视频片段作为视频的视频封面。

在示例性实施例中，得到第一模型输出的相关程度数值，包括：响应于第一模型输出一个矩阵，得到第一模型基于多个参考数值输出的相关程度数值，多个参考数值与多个特征向量对一一对应，任一特征向量对通过拼接一个矩阵对应的一个目标询问标记与一个匹配的参考特征向量得到，参考特征向量通过基于询问标记与主键标记进行的至少两次跨越注意力处理生成。

其中，第一模型包括第一子模型或者第二子模型，基于第一子模型得到多个第一参考数值，基于第二子模型得到多个第二参考数值。其中，多个第一参考数值与多个第一特征向量对一一对应，任一第一特征向量对通过拼接第一矩阵对应的目标询问标记与一个匹配的第一参考特征向量得到，第一矩阵对应的目标询问标记即为第一子模型的目标询问标记，根据202中的说明可知，第一子模型的目标询问标记为目标视频片段特征向量。多个第二参考数值与多个第二特征向量对一一对应，任一第二特征向量对通过拼接第二矩阵对应的目标询问标记与一个匹配的第一参考特征向量得到，第二矩阵对应的目标询问标记即为第二子模型的目标询问标记，根据202中的说明可知，第二子模型的目标询问标记为目标关键词特征向量。基于此，参见图4，基于上述多个第一参考数值或者多个第二参考数值输出相关程度数值由非噪声标记组队(non-noise token pairs)模块的过程分别进行说明。

在第一子模型中，根据202中的说明可知，第二部分中的cross-attention模块会输出(N2×d)的注意力特征向量组3，将注意力特征向量组3中的向量作为多个第一参考特征向量，从而得到N2个第一参考特征向量。另外，通过各个第一部分中noise token drop模块所执行的剔除过程，能够得到N2个目标视频片段特征向量。之后，对相匹配的N2个第一参考特征向量和N2个目标视频片段特征向量进行拼接，从而得到N2个第一特征向量对，表示为(N2×2d)的矩阵。示例性地，本实施例对N2个第一参考特征向量和N2个目标视频片段特征向量分别添加索引，索引相同的特征向量即认为是相匹配的特征向量。之后，再将N2个第一特征向量对输入Sigmoid(S型生长曲线)模块，得到Sigmoid模块输出的N2个第一参考数值，也即是上述多个第一参考数值。示例性地，本实施例将多个第一参考数值中最大的第一参考数值作为相关程度数值。另外，本实施例还可以在Sigmoid模块添加feed forward模块，该feed forward模块的参见上文中的说明，此处不再进行赘述。

在第二子模型中，根据202中的说明可知，第二部分中的cross-attention模块会输出(M2×d)的注意力特征向量组6，将注意力特征向量组6中的向量作为多个第二参考特征向量，从而得到M2个第二参考特征向量。另外，通过各个第一部分中noise token drop模块所执行的剔除过程，能够得到M2个目标关键词特征向量。之后，对相匹配的M2个第二参考特征向量和M2个目标关键词特征向量进行拼接，从而得到N2个第一特征向量对，表示为(M2×2d)的矩阵。示例性地，本实施例对N2个第二参考特征向量和N2个目标关键词特征向量分别添加索引，索引相同的特征向量即认为是相匹配的特征向量。之后，再将N2个第二特征向量对输入Sigmoid模块，得到Sigmoid模块输出的N2个第二参考数值，也即是上述多个第二参考数值。示例性地，本实施例将多个第二参考数值中最大的第二参考数值作为相关程度数值。

在示例性实施例中，得到第一模型输出的相关程度数值，包括：响应于第一模型输出两个矩阵，得到第一模型基于多个第一参考数值和多个第二参考数值输出的相关程度数值。其中，多个第一参考数值和多个第二参考数值可参见上文说明，此处不再进行赘述。参见图5，本实施例通过全局最大池化(global max pooling)模块对第一子模型中的Sigmoid模块和第二子模型中的Sigmoid模块进行连接，则该global max pooling模块的输入为N2个第一参考数值和M2个第二参考数值。该global max pooling模块从N2个第一参考数值和M2个第二参考数值中确定最大的一个数值，将最大一个数值作为相关程度数值。

由于第一模型能够输出用于指示文本和视频之间的相关程度的相关程度数值，因而在对第一模型进行训练时，将相对应的文本和视频作为第一模型的训练样本即可。例如，将包含有相对应的文本和视频的UGC(User Generated Content，用户生成内容)作为训练样本。在示例性实施例中，将至少一个关键词特征向量和多个视频片段特征向量输入第一模型之前，方法还包括：获取正训练样本和负训练样本，正训练样本包括相对应且相关的第一样本文本和第一样本视频，负训练样本包括相对应且不相关的第二样本文本和第二样本视频，基于正训练样本和负训练样本训练得到第一模型。例如，同一条UGC中的文本和视频即为相对应且相关的第一样本文本和第二样本视频，因而可以作为正训练样本。不同条UGC中的文本和视频即为相对应且不相关的第二样本文本和第二样本视频，因而可以作为负训练样本。

在示例性实施例中，参见图6，基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的备选视频片段，包括：将多个视频片段特征向量输入第二模型，得到第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度。基于第一模型输出的一个或两个矩阵中的各个元素和多个精彩程度数值，从多个视频片段中确定与至少一个关键词相关的备选视频片段。

示例性地，基于第一模型输出的一个或两个矩阵中的各个元素，确定任一目标视频片段特征向量的相关性数值，相关性数值基于该任一目标视频片段特征向量与各个关键词特征向量的相关程度确定。示例性地，对于任一目标视频片段特征向量而言，计算该任一目标视频片段特征向量与各个关键词特征向量之间的相关程度的平均值，将该平均值作为该任一目标视频片段特征向量的相关性数值。例如，一个目标视频片段特征向量与关键词特征向量1的相关程度为0.9，与关键词特征向量2的相关程度为0.8，与关键词特征向量3的相关程度为0.3，则该目标视频片段特征向量的相关性数值即为0.9、0.8和0.3的平均值0.67。之后，对任一目标视频片段特征向量的相关性数值和精彩程度数值进行加权求和，不同数值的权重相同或不同，将加权求和值作为目标数值。之后，基于该目标数值选择得到备选视频片段，该备选视频片段不仅与文本中的关键词相关性较高，而且具有足够的精彩程度。

综上所述，本申请实施例对文本中的关键词和视频中的视频片段进行特征向量提取，基于提取得到的特征向量选择用于作为视频封面的视频片段。即使文本中的关键词丰富多变，也能够获取到视频封面，因而获取视频封面的成功率较高。并且，在选择用于作为视频封面的视频片段的过程中，剔除了与关键词相关程度较低的视频片段，从而保证视频封面与文本具有一定的相关性。

本申请实施例提供了一种获取视频封面的装置，参见图7，该装置包括：

获取模块701，用于获取文本和文本对应的视频，通过特征向量提取得到文本中包括的至少一个关键词对应的至少一个关键词特征向量，和视频中包括的多个视频片段对应的多个视频片段特征向量；

输入模块702，用于将至少一个关键词特征向量和多个视频片段特征向量输入第一模型；

得到模块703，用于得到第一模型输出的一个或两个矩阵，任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量；

确定模块704，用于基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的备选视频片段，基于备选视频片段确定视频的视频封面。

在示例性实施例中，得到模块703，还用于得到第一模型输出的相关程度数值，相关程度数值用于指示文本和视频之间的相关程度；

确定模块704，还用于响应于相关程度数值指示的相关程度高于第二相关程度阈值，再执行基于第一模型输出的一个或两个矩阵中的各个元素，从多个视频片段中确定与至少一个关键词相关的至少一个视频片段。

在示例性实施例中，得到模块703，用于响应于第一模型输出一个矩阵，得到第一模型基于多个参考数值输出的相关程度数值，多个参考数值与多个特征向量对一一对应，任一特征向量对通过拼接一个矩阵对应的一个目标询问标记与一个匹配的参考特征向量得到，参考特征向量通过基于询问标记与主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，得到模块703，用于响应于第一模型输出两个矩阵，得到第一模型基于多个第一参考数值和多个第二参考数值输出的相关程度数值，其中，多个第一参考数值与多个第一特征向量对一一对应，任一第一特征向量对通过拼接两个矩阵中的一个矩阵对应的一个目标询问标记与一个匹配的第一参考特征向量得到，多个第二参考数值与多个第二特征向量对一一对应，任一第二特征向量对通过拼接两个矩阵中的另一个矩阵对应的一个目标询问标记与一个匹配的第二参考特征向量得到，第一参考特征向量与第二参考特征向量通过基于询问标记与主键标记进行的至少两次跨越注意力处理生成。

在示例性实施例中，装置还包括训练模块，用于获取正训练样本和负训练样本，正训练样本包括相对应且相关的第一样本文本和第一样本视频，负训练样本包括相对应且不相关的第二样本文本和第二样本视频；基于正训练样本和负训练样本训练得到第一模型。

在示例性实施例中，得到模块703，用于对于任一矩阵，按照目标顺序对至少两个子矩阵进行乘积，得到任一矩阵，至少两个子矩阵通过基于询问标记与主键标记进行的至少两次跨越注意力处理生成，至少两个子矩阵与至少两次跨越注意力处理一一对应，目标顺序包括至少两个子矩阵的生成顺序的倒序。

在示例性实施例中，确定模块704，用于将多个视频片段特征向量输入第二模型，得到第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度；基于第一模型输出的一个或两个矩阵中的各个元素和多个精彩程度数值，从多个视频片段中确定与至少一个关键词相关的备选视频片段。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

参见图8，其示出了本申请实施例提供的一种电子设备800的结构示意图。该电子设备800可以是便携式移动电子设备，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)所组成的群组中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏805所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的获取视频封面的方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809所组成的群组中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测电子设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在电子设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在电子设备800的侧边框时，可以检测用户对电子设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件所组成的群组中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏808的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9为本申请实施例提供的服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器901加载并执行，以使服务器实现上述各个方法实施例提供的获取视频封面的方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例提供了一种计算机设备，计算机设备包括存储器及处理器；存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以使计算机设备实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令，指令由处理器加载并执行，以使计算机实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

本申请实施例提供了一种计算机程序或计算机程序产品，计算机程序或计算机程序产品包括：计算机指令，计算机指令被计算机执行时，使得计算机实现本申请的任一种示例性实施例所提供的获取视频封面的方法。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种获取视频封面的方法，其特征在于，所述方法包括：

将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型，得到所述第一模型输出的一个或两个矩阵，以及所述第一模型输出的相关程度数值，任一矩阵通过跨越注意力处理过程生成，所述任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量，所述相关程度数值用于指示所述文本和所述视频之间的相关程度；

响应于所述相关程度数值指示的相关程度高于第二相关程度阈值，将所述多个视频片段特征向量输入第二模型，得到所述第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度；

对任一目标视频片段特征向量的相关性数值和所述精彩程度数值进行加权求和，得到目标数值，所述目标视频片段特征向量为所述多个视频片段特征向量中与所述至少一个关键词特征向量之间的相关程度高于所述第一相关程度阈值的视频片段特征向量，所述任一目标视频片段特征向量的相关性数值基于所述第一模型输出的一个或两个矩阵中的各个元素确定；

基于多个目标视频片段特征向量的目标数值从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段，基于所述备选视频片段确定所述视频的视频封面。

2.根据权利要求1所述的方法，其特征在于，所述得到所述第一模型输出的相关程度数值，包括：

响应于所述第一模型输出一个矩阵，得到所述第一模型基于多个参考数值输出的所述相关程度数值，所述多个参考数值与多个特征向量对一一对应，任一特征向量对通过拼接所述一个矩阵对应的一个目标询问标记与一个匹配的参考特征向量得到，所述参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

3.根据权利要求1所述的方法，其特征在于，所述得到所述第一模型输出的相关程度数值，包括：

响应于所述第一模型输出两个矩阵，得到所述第一模型基于多个第一参考数值和多个第二参考数值输出的所述相关程度数值，其中，所述多个第一参考数值与多个第一特征向量对一一对应，任一第一特征向量对通过拼接所述两个矩阵中的一个矩阵对应的一个目标询问标记与一个匹配的第一参考特征向量得到，所述多个第二参考数值与多个第二特征向量对一一对应，任一第二特征向量对通过拼接所述两个矩阵中的另一个矩阵对应的一个目标询问标记与一个匹配的第二参考特征向量得到，所述第一参考特征向量与所述第二参考特征向量通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成。

4.根据权利要求1所述的方法，其特征在于，所述将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型之前，所述方法还包括：

获取正训练样本和负训练样本，所述正训练样本包括相对应且相关的第一样本文本和第一样本视频，所述负训练样本包括相对应且不相关的第二样本文本和第二样本视频；

基于所述正训练样本和所述负训练样本训练得到所述第一模型。

5.根据权利要求1所述的方法，其特征在于，所述得到所述第一模型输出的一个或两个矩阵，包括：

对于任一矩阵，按照目标顺序对至少两个子矩阵进行乘积，得到所述任一矩阵，所述至少两个子矩阵通过基于所述询问标记与所述主键标记进行的至少两次跨越注意力处理生成，所述至少两个子矩阵与所述至少两次跨越注意力处理一一对应，所述目标顺序包括所述至少两个子矩阵的生成顺序的倒序。

6.一种获取视频封面的装置，其特征在于，所述装置包括：

输入模块，用于将所述至少一个关键词特征向量和所述多个视频片段特征向量输入第一模型，得到所述第一模型输出的一个或两个矩阵，以及所述第一模型输出的相关程度数值，任一矩阵通过跨越注意力处理过程生成，所述任一矩阵中的一个元素用于指示一个目标询问标记与一个主键标记之间的相关程度，目标询问标记包括询问标记中与各个主键标记之间的相关程度高于第一相关程度阈值的标记，其中，询问标记包括关键词特征向量且主键标记包括视频片段特征向量，或者，询问标记包括视频片段特征向量且主键标记包括关键词特征向量，所述相关程度数值用于指示所述文本和所述视频之间的相关程度；

确定模块，用于响应于所述相关程度数值指示的相关程度高于第二相关程度阈值，将所述多个视频片段特征向量输入第二模型，得到所述第二模型输出的多个精彩程度数值，任一精彩程度数值用于指示一个视频片段特征向量对应的视频片段的精彩程度；

所述获取模块，还用于对任一目标视频片段特征向量的相关性数值和所述精彩程度数值进行加权求和，得到目标数值，所述目标视频片段特征向量为所述多个视频片段特征向量中与所述至少一个关键词特征向量之间的相关程度高于所述第一相关程度阈值的视频片段特征向量，所述任一目标视频片段特征向量的相关性数值基于所述第一模型输出的一个或两个矩阵中的各个元素确定；

所述确定模块，还用于基于多个目标视频片段特征向量的目标数值从所述多个视频片段中确定与所述至少一个关键词相关的备选视频片段，基于所述备选视频片段确定所述视频的视频封面。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使所述计算机设备实现权利要求1-5任一所述的获取视频封面的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现如权利要求1-5任一所述的获取视频封面的方法。