CN115357756A

CN115357756A - 视频检索方法、装置、设备及存储介质

Info

Publication number: CN115357756A
Application number: CN202210910350.6A
Authority: CN
Inventors: 路雨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-11-18

Abstract

本公开关于一种视频检索方法、装置、设备及存储介质。在本申请实施例中，对待检索长文本中的句子进行向量化处理，得到每个句子对应的第一句子向量，并根据待检索长文本中句子之间的时序关系以及每个句子对应的第一句子向量，生成可以体现句子之间的上下文关系的第二句子向量，待检索长文本中每个句子的第二句子向量可以体现其它句子的信息，使得基于待检索长文本中的第二句子向量检索得到的视频片段组成的视频信息，能够更好地契合待检索长文本主题，提高视频检索的效率和准确度。

Description

视频检索方法、装置、设备及存储介质

技术领域

本公开涉及视频检索技术领域，尤其涉及一种视频检索方法、装置、设备及存储介质

背景技术

随着互联网的飞速发展，视频成为了越来越重要的信息传达载体，在应用软件或社交网络中被普遍应用。目前，用户往往基于文本信息检索感兴趣的视频内容。

传统视频检索方案针对单个句子进行检索，即，针对一句话检索出一个视频内容，但是，对于包含多个句子的长文本，直接应用传统视频检索方案，检索效果并不理想，例如，检索出的视频与长文本的主题匹配度较低。

发明内容

本公开提供一种视频检索方法、装置、设备及存储介质，以至少解决对于包含多个句子的长文本，视频检索效果并不理想的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频检索方法，包括：获取待检索长文本，待检索长文本包括至少两个句子，至少两个句子之间存在时序关系；根据每个句子中包含的词语，对每个句子进行向量化处理，得到每个句子对应的第一句子向量；根据时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，其它句子包括至少两个句子中除该句子之外的全部或部分句子；根据至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到至少两个句子各自适配的视频片段；根据至少两个句子各自适配的视频片段，生成待检索长文本对应的视频信息。

可选的，根据每个句子中包含的词语，对所述至少两个句子分别进行向量化处理，得到所述至少两个句子分别对应的第一句子向量，包括：获取每个句子包括的多个词语对应的词向量；将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词语对应的词向量进行合成处理，得到每个句子对应的第一句子向量。

可选的，根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，包括：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。

可选的，所述视频向量库中包括已有视频片段及其对应的视频向量，根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段，包括：将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

可选的，所述方法还包括：预先选取已有视频片段；针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。

可选的，还包括：获取句子样本及其对应的视频片段样本；针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。

根据本公开实施例的第二方面，提供一种视频检索装置，包括：获取模块、处理模块、关联模块、检索模块和生成模块；获取模块，用于获取待检索长文本，待检索长文本包括至少两个句子，至少两个句子之间存在时序关系；处理模块，用于根据每个句子中包含的词语，对每个句子进行向量化处理，得到每个句子对应的第一句子向量；关联模块，用于根据时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，其它句子包括至少两个句子中除该句子之外的全部或部分句子；检索模块，用于根据至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到至少两个句子各自适配的视频片段；生成模块，用于根据至少两个句子各自适配的视频片段，生成待检索长文本对应的视频信息。

可选的，所述处理模块具体用于：获取每个句子包括的多个词语对应的词向量；将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词向量进行合成处理，得到每个句子对应的第一句子向量。

可选的，所述关联模块具体用于：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。

可选的，所述视频向量库中包括已有视频片段及其对应的视频向量，所述检索模块具体用于：将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

可选的，所述视频检索装置还包括：选取模块；所述选取模块，用于预先选取已有视频片段；所述处理模块还用于：针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。

可选的，所述获取模块还用于：获取句子样本及其对应的视频片段样本；所述生成模块还用于：针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；所述处理模块还用于：将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。

根据本公开实施例的第三方面，提供一种视频检索设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器与存储器耦合，用于执行计算机程序，以实现本申请实施例提供的视频检索方法中的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的视频检索方法中的步骤。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的视频检索方法中的步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本申请实施例中，对待检索长文本中的句子进行向量化处理，得到每个句子对应的第一句子向量，并根据待检索长文本中句子之间的时序关系以及每个句子对应的第一句子向量，生成可以体现句子之间的上下文关系的第二句子向量，待检索长文本中每个句子的第二句子向量可以体现其它句子的信息，使得基于待检索长文本中的第二句子向量检索得到的视频片段组成的视频信息，能够更好地契合待检索长文本主题，提高视频检索的效率和准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频检索方法的流程图。

图2是根据一示例性实施例示出的一种视频检索模型的框图。

图3是根据一示例性实施例示出的一种视频检索装置的流程图。

图4是根据一示例性实施例示出的一种视频检索设备的流程图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频检索方法的流程图，如图1所示，视频检索方法包括以下步骤：

101、获取待检索长文本，待检索长文本包括至少两个句子，至少两个句子之间存在时序关系；

102、根据每个句子中包含的词语，对每个句子进行向量化处理，得到每个句子对应的第一句子向量；

103、根据时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，其它句子包括至少两个句子中除该句子之外的全部或部分句子；

104、根据至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到至少两个句子各自适配的视频片段；

105、根据至少两个句子各自适配的视频片段，生成待检索长文本对应的视频信息。

在本实施例中，待检索长文本是指需要根据长文本检索视频信息的文本，该待检索长文本包括至少两个句子，至少两个句子之间存在时序关系，该时序关系可以体现句子出现的时间先后顺序。其中，获取待检索长文本的方式并不限定。例如，该视频检索方法实现在电子终端上，电子终端上安装有视频检索APP，该视频检索APP向用户展示文本输入界面，文本输入界面上包括编辑控件，响应于用户对编辑控件的触发操作，获取用户输入的长文本，将该长文本作为待检索长文本。又例如，该视频检索方法实现在电子终端上，电子终端上提供有图形用户界面，图像用户界面上包括视频检索界面，视频检索界面上包括文本导入控件，响应于用户对文本导入控件的触发操作，显示可以导入的文件，对用户选中的文本文件进行解析，得到长文本，将该长文本作为待检索长文本。

在本实施例中，在获取到待检索长文本之后，对于待检索长文本中包含的任一个句子，每个句子中包含词语，根据每个句子中包含的词语，对该句子进行向量化处理，得到该句子对应的句子向量，为了便于区分和描述，将对句子进行向量化处理得到的句子向量称为第一句子向量，从而可以得到待检索长文本中包含的至少两个句子分别对应的第一句子向量。其中，向量化处理是指将句子转换成实数向量的处理方式。例如，对句子的向量化可以是将句子拆分为词语(可以是一个字，两个字或者多个字)，预先设定每个词语的向量，向量的维度是词典的大小，词语的当前位置用1表示，其它位置用0表示，并将句子中词语出现的频率作为权重，根据每个词语的权重计算句子向量。

在本实施例中，可以根据待检索长文本中包含的至少两个句子之间的时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，其中，其它句子包括待检索长文本中至少两个句子中除该句子之外的全部或部分句子；每个句子对应的第二句子向量体现该句子与其它句子之间的上下文关系，从而为每个句子获得其他句子的信息。其中，关联处理可以是加权相乘操作，也可以是输入至循环神经网络(Recurrent Neural Network,RNN)模型中进行循环卷积运算，以实现针对每个句子对应的第一句子向量与其它句子对应的第一句子向量关联处理的操作。

例如，可以按照至少两个句子之间存在的时序关系，确定每个句子在时序关系上的排序位置，对于每个句子，将时序位于该句子之前的一个或多个句子作为其它句子，将每个句子对应的第一句子向量与该其它句子对应的第一句子向量进行关联处理。例如，长文本中包含3个句子，分别为句子A1、句子A2以及句子A3，三个句子的时序关系为：句子A1、句子A2以及句子A3，根据时序关系，句子A1之前没有句子，故而对句子A1的第一句子向量进行关联处理，得到的第二句子向量与第一句子向量相同；对句子A2对应的第一句子向量进行关联处理是指对句子A1和句子A2的第一句子向量进行关联处理，得到句子A2对应的第二句子向量，句子A2对应的第二句子向量可以体现句子A1与句子A2之间的上下文关系；对句子A3对应的第一句子向量进行关联处理是指对句子A1、句子A2以及句子A3的第一句子向量进行关联处理，得到句子A3对应的第二句子向量，句子A3对应的第二句子向量可以体现句子A1与句子A3以及句子A2与句子A3之间的上下文关系。

在本实施例中，在得到至少两个句子分别对应的第二句子向量之后，可根据至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到至少两个句子各自适配的视频片段。例如，视频库中包括多个视频片段，提取每个视频片段中各个镜头的图像特征或者每个视频片段中各关键帧的图像特征，将针对每个视频片段提取到的图像特征转换为特征向量，得到该视频片段对应的特征向量，其中，针对每个视频片段提取到的图像特征可以包含但不限于：颜色特征、纹理特征、形状特征、空间关系特征等；将每个第二句子向量与视频向量库中包含的多个视频片段对应的特征向量进行匹配，得到每个第二句子向量适配的特征向量，将该特征向量对应的视频片段作为与该第二句子向量对应的句子匹配的视频片段，从而得到待检索长文本中至少两个句子各自适配的视频片段。其中，视频片段的长度并不限定，例如，视频片段的长度可以是2s、3s、5s或6s等。

在本实施例中，在得到至少两个句子各自适配的视频片段之后，可根据至少两个句子各自适配的视频片段，生成待检索长文本对应的视频信息。例如，根据至少两个句子之间的时序关系，对至少两个句子各自适配的视频片段进行拼接，生成待检索长文本对应的视频信息。又例如，根据至少两个句子之间的时序关系，对至少两个句子各自适配的视频片段进行拼接，并在拼接位置处添加转场效果，以生成待检索长文本对应的视频信息，使得待检索长文本对应的视频信息在时序效果上更加自然流畅。

在一可选实施例中，可采用视频检索模型对待检索长文本进行视频检索，得到所述待检索长文本对应的视频信息。其中，视频检索模型的实现方式并不限定。一种具体的实现方式可参见图2，在图2中，视频检索模型包括：句子向量生成网络层、句子向量关联网络层、视频向量生成网络层以及视频检索网络层。

其中，句子向量生成网络层用于根据每个句子中包含的多个词语对应的词向量，生成每个句子对应的第一句子向量，凡是能够根据每个句子中包含的多个词语对应的词向量，生成每个句子对应的第一句子向量的网络层或模型均适应于本申请实施例，例如，句子向量生成网络层可以实现为：RNN或词到向量(word to vector，Word2vec)等。其中，句子向量关联网络层用于，根据时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，凡是能够根据时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理的网络层或模型均适应于本申请实施例，例如，子向量关联网络层实现为：RNN。其中，视频向量生成网络层，用于生成视频向量库中的视频片段，是能够生成视频向量库中的视频片段的网络层或模型均适用于本申请实施例，其中，视频向量生成网络层可以实现为RNN。其中，视频检索网络层，用于根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段，其中，视频检索网络层可以实现为RNN。

在一可选实施例中，并不限定根据每个句子中包含的词语，对所述至少两个句子分别进行向量化处理，得到所述至少两个句子分别对应的第一句子向量的实施方式。下面进行示例性说明。

示例X1：获取每个句子包括的多个词语对应的词向量，例如，可以通过预先建立词向量查询表，该查询表中包括每个词语及其对应的词向量，首先可以确定待检索长文本中每个句子中包含的词语，基于该查询表获取每个词语对应的词向量；将每个句子包括的多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过句子向量生成网络层对该多个词语对应的词向量进行合成处理，得到每个句子对应的第一句子向量。其中，句子向量生成网络层可以实现为RNN，如图2所示，其中，采用RNN作为句子向量生成网络层生成第一句子向量，可以将句子中词语的时序关系和/或词语出现的词频等因素考虑在内，从而提高句子向量生成的准确率。

示例X2：获取每个句子包括的多个词语对应的词向量，对每个句子包括的多个词语对应的词向量进行加权平均，得到该句子对应的第一句子向量。

在本实施例中，并不限定根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量的实施方式，下面进行示例性说明。

示例Y1：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第二句子向量进行关联处理，得到每个句子对应的第二句子向量。其中，句子向量关联网络层可实现为RNN，如图2所示。其中，针对待检索长文本中的任一句子来说，其它句子实现为除该任一句子之外的全部或部分句子。

在其它句子实现为除该任一句子之外的全部句子的情况下，例如，待检索长文本B0包括句子B1、句子B2、句子B3以及句子B4，在计算句子B3对应的第二句子向量的过程中，按照时序关系，将句子B1、句子B2以及句子B4分别对应的第一句子向量，与句子B3对应的第一句子向量进行关联处理，得到句子B3对应的第二句子向量。

在其它句子实现为除该任一句子之外的全部句子的情况下，例如，其它句子实现为该任一句子之前的全部句子，或者该任一句子之前的一个句子等。若其它句子实现为该任一句子之前的一个句子，待检索长文本B0包括句子B1、句子B2、句子B3以及句子B4，在计算句子B3对应的第二句子向量的过程中，按照时序关系，将句子B2与句子B3对应的第一句子向量进行关联处理，得到句子B3对应的第二句子向量。若其它句子实现为该任一句子之前的全部句子，待检索长文本B0包括句子B1、句子B2、句子B3以及句子B4，在计算句子B3对应的第二句子向量的过程中，按照时序关系，将句子B1和句子B2分别对应的第一句子向量，与句子B3对应的第一句子向量进行关联处理，得到句子B3对应的第二句子向量。

示例Y2：在不采用句子向量关联网络层的情况下，直接将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，例如，关联处理可以实现为加权相乘。

在本实施例中，并不限定根据至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到至少两个句子各自适配的视频片段的实施方式，下面进行示例性说明。

示例Z1：视频向量库中包括已有视频片段及其对应的视频向量，将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层(如图2所示)中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

其中，设定的相似度条件可以是相似度超过相似度阈值，例如，相似度阈值为：80％、90％或95％等，例如，若存在多个视频向量与第二句子向量之间的相似度超过设定的相似度阈值，则可以从该多个视频向量中随机选择一个视频向量，将该视频向量对应的视频片段作为与该第二句子向量对应的句子适配的视频片段。或者，设定的相似度条件可以是相似度最高，计算视频向量库中的视频向量与第二句子向量之间的相似度，选择相似度最高的视频向量，将该视频向量对应的视频片段作为与该第二句子向量对应的句子适配的视频片段。

其中，可以为第二句子向量和视频向量分别添加权重后，根据各自增添的权重系数，计算每个第二句子向量与视频向量库中的视频向量之间的相似度，对此不做限定。其中，为第二句子向量和视频向量分别添加的权重可以通过对视频检索网络层进行训练得到。

示例Z2：所述视频向量库中包括已有视频片段及其对应的视频向量，在不使用视频检索网络层的情况下，直接计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，例如，计算第二句子向量与视频向量之间的余弦相似度、欧氏距离(Euclidean)或曼哈顿距离(Manhattan distance)等，并将计算出来的数值作为第二句子向量与视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

在一可选实施例中，本申请实施例提供的方法还包括：根据视频向量库中的视频片段，生成视频片段对应的视频向量的过程，具体地，预先选取已有视频片段，其中，已有视频片段的选取方式并不限定。例如，可以直接选择独立的视频片段，该独立的视频片段对应有一个句子，将该独立的视频片段作为已有视频片段。又例如，可以获取已有长文本及其对应的已有视频，按照已有长文本中每个句子对应的时间片段，对已有视频进行切分，得到多个已有视频片段。在选取已有视频片段之后，针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将多个图像帧输入至视频检索模型中的视频向量生成网络层(如图2所示)中，对多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。其中，对多个图像帧中的图像特征可以是图像的亮度、边缘、纹理和色彩等，也可以是图像针对应的矩阵、直方图或主成份等。图像帧对应的特征向量是将图像帧的一个或多种特征组合在一起，形成的特征向量，用该特征向量表示该图像帧。若特征向量由一个特征组成，则该特征向量是一个一维向量；若特征向量由n个特征组成，则该特征向量是一个n维向量，其中，n≥2，且n为正整数。

其中，可以采用最大值池化(max pooling)、平均值池化或最小值池化等的方式，对多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。例如，视频片段C包括10个图像帧，每个图像帧对应有一个512维的特征向量，也即每个特征向量具有512个特征值，采用最大值池化的方式，对512个维度中的每个维度，从10个图像帧中选取最大特征值，作为视频向量在该维度的特征值，从而得到该已有视频片段对应的视频向量。

在一可选实施例中，还包括训练视频检索模型的过程，具体地，获取句子样本及其对应的视频片段样本，例如，可以获取长文本样本及其对应的视频样本，按照长文本样本中每个句子样本对应的时间片段切分视频样本，得到句子样本对应的视频片段样本；在获取句子样本及其对应的视频片段样本之后，生成句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本，其中，生成句子样本的句子向量的实施方式，可参见前述生成第一句子向量和第二句子向量的过程，在此不再赘述，其中，句子样本的句子向量对应于前述第二句子向量，另外生成视频向量的过程可参见前述，在此不再赘述；将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，损失函数为实际模型输出与预期的模型输出之间的差异信息，损失函数可以采用最大利润(Max-Margin)函数。

图3是根据一示例性实施例示出的一种视频检索装置框图。参照图3，该装置包括：获取模块31、处理模块32、关联模块33、检索模块34和生成模块35；

获取模块31，用于获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；

处理模块32，用于根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；

关联模块33，用于根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；

检索模块34，用于根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；

生成模块35，用于根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。

在一可选实施例中，处理模块具体用于：获取每个句子包括的多个词语对应的词向量；将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词向量进行合成处理，得到每个句子对应的第一句子向量。

在一可选实施例中，关联模块具体用于：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。

在一可选实施例中，视频向量库中包括已有视频片段及其对应的视频向量，检索模块具体用于：将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

在一可选实施例中，视频检索装置还包括：选取模块；选取模块，用于预先选取已有视频片段；处理模块还用于：针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。

在一可选实施例中，获取模块还用于：获取句子样本及其对应的视频片段样本；生成模块还用于：针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；处理模块还用于：将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。

图4为本申请又一示例性实施例提供的一种视频检索设备的结构示意图。如图4所示，该设备包括：存储器44和处理器45。

存储器44，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器44可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器45，与存储器44耦合，用于执行存储器44中的计算机程序，以用于：获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。

在一可选实施例中，处理器45在根据每个句子中包含的词语，对所述至少两个句子分别进行向量化处理，得到所述至少两个句子分别对应的第一句子向量时，具体用于：获取每个句子包括的多个词语对应的词向量；将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词语对应的词向量进行合成处理，得到每个句子对应的第一句子向量。

在一可选实施例中，处理器45在根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量时，具体用于：按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。

在一可选实施例中，视频向量库中包括已有视频片段及其对应的视频向量，处理器45在根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段时，具体用于：将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

在一可选实施例中，处理器45还用于：预先选取已有视频片段；针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。

在一可选实施例中，处理器45还用于：获取句子样本及其对应的视频片段样本；

针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。

进一步，如图4所示，该视频检索设备还包括：通信组件46、显示器47、电源组件48、音频组件49等其它组件。图4中仅示意性给出部分组件，并不意味着视频检索设备只包括图4所示组件。需要说明的是，图4中虚线框内的组件为可选组件，而非必选组件，具体可视视频检索设备的产品形态而定。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现图1所示方法中的各步骤。

相应地，本申请实施例还提供一种存储有计算机程序产品，当计算机程序被处理器执行时，致使处理器能够实现图1所示方法中的各步骤。

上述图4中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图4中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图4中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图4中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频检索方法，其特征在于，包括：

获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；

根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；

根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；

根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；

根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。

2.根据权利要求1所述的方法，其特征在于，根据每个句子中包含的词语，对所述至少两个句子分别进行向量化处理，得到所述至少两个句子分别对应的第一句子向量，包括：

获取每个句子包括的多个词语对应的词向量；

将所述多个词语对应的词向量输入至视频检索模型中的句子向量生成网络层中，通过所述句子向量生成网络层对所述多个词语对应的词向量进行合成处理，得到每个句子对应的第一句子向量。

3.根据权利要求1所述的方法，其特征在于，根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，包括：

按照所述时序关系，将每个句子对应的第一句子向量输入至视频检索模型中的句子向量关联网络层中，在所述句子向量关联网络层中，对每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到每个句子对应的第二句子向量。

4.根据权利要求1所述的方法，其特征在于，所述视频向量库中包括已有视频片段及其对应的视频向量，根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段，包括：

将所述每个句子对应的第二句子向量输入至视频检索模型中的视频检索网络层中，通过视频检索网络层计算每个第二句子向量与所述视频向量库中的视频向量之间的相似度，将满足设定相似度条件的视频向量对应的已有视频片段，作为与该第二句子向量对应的句子适配的视频片段，从而得到所述至少两个句子各自适配的视频片段。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

预先选取已有视频片段；

针对任一个已有视频片段，获取该已有视频片段中的多个图像帧，将所述多个图像帧输入至视频检索模型中的视频向量生成网络层中，对所述多个图像帧进行特征提取，得到多个图像帧分别对应的特征向量，对所述多个图像帧分别对应的特征向量进行融合，得到该已有视频片段对应的视频向量。

6.根据权利要求2-5任一项所述的方法，其特征在于，还包括：

获取句子样本及其对应的视频片段样本；

针对每个句子样本，生成该句子样本的句子向量，并生成该句子样本对应的视频片段样本的视频向量，作为一组训练样本；

将训练样本中的句子向量作为视频检索模型的输入，将训练样本中的视频向量作为预期的模型输出进行多次模型训练，并计算每次训练的损失函数，根据每次训练的损失函数，调整模型参数，直至损失函数符合设定要求时，得到视频检索模型；其中，所述损失函数为实际模型输出与预期的模型输出之间的差异信息。

7.一种视频检索装置，其特征在于，包括：获取模块、处理模块、关联模块、检索模块和生成模块；

所述获取模块，用于获取待检索长文本，所述待检索长文本包括至少两个句子，所述至少两个句子之间存在时序关系；

所述处理模块，用于根据每个句子中包含的词语，对每个句子进行向量化处理，得到所述每个句子对应的第一句子向量；

所述关联模块，用于根据所述时序关系，将每个句子对应的第一句子向量与其它句子对应的第一句子向量进行关联处理，得到该句子对应的第二句子向量，所述其它句子包括所述至少两个句子中除该句子之外的全部或部分句子；

所述检索模块，用于根据所述至少两个句子分别对应的第二句子向量分别在视频向量库中进行检索，得到所述至少两个句子各自适配的视频片段；

所述生成模块，用于根据所述至少两个句子各自适配的视频片段，生成所述待检索长文本对应的视频信息。

8.一种视频检索设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器与所述存储器耦合，用于执行所述计算机程序，以实现权利要求1-6中任一项所述方法中的步骤。

9.一种计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-6任一项所述方法中的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-6任一项所述方法中的步骤。