CN117556276A

CN117556276A - 用于确定文本和视频之间的相似度的方法和装置

Info

Publication number: CN117556276A
Application number: CN202410044723.5A
Authority: CN
Inventors: 俞旭铮; 蒋晨; 刘洪�; 郭清沛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117556276B

Abstract

本说明书的实施例提供了一种用于确定文本和视频之间的相似度的方法和装置。在该方法中，利用文本特征提取模型和视频特征提取模型分别得到文本和视频对应的初始文本特征和初始视频特征；根据文本的句法层级分析结果对初始文本特征进行处理，得到句法层级分析结果中的各个元素分别对应的文本特征；根据句法层级分析结果对应的文本特征与所得到的初始视频特征之间的匹配度，构建与句法层级分析结果对应的视频层级分析结果；进而对对应的初始视频特征进行处理得到视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定文本和所述视频之间的相似度。

Description

用于确定文本和视频之间的相似度的方法和装置

技术领域

本说明书实施例通常涉及计算机技术领域，尤其涉及用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法以及用于训练特征提取模型的方法和装置。

背景技术

随着互联网技术的飞速发展，网络视频的规模也越来越大，在诸如文本-视频检索或视频-文本检索任务中，对于准确计算文本与视频之间的语义相似度的需求也越来越强烈。相关的方式是遵循一个通用的范式，该范式通常可分为三个模块：文本编码、视频编码和文本视频对齐。由于文本模态和视频模态是两种具有不同性质的模态，其中文本通常具有良好的语法句法结构，而视频数据是非结构化的，同时伴随着大量的冗余信息。因此如何通过对齐模块对跨模态相似性进行建模，以提升所得到的多模态特征的表征能力，仍然是一个非常具有挑战性且重要的问题。

发明内容

鉴于上述，本说明书实施例提供了一种用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法、用于训练特征提取模型的方法和装置。利用该方法、装置，可以提升文本、视频的跨模态特征的表征能力，进而有助于实现准确计算文本与视频之间的语义相似度。

根据本说明书的实施例的一个方面，提供一种用于确定文本和视频之间的相似度的方法，包括：将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；对所述文本进行句法分析，得到句法层级分析结果；根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征；根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果；根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征；以及根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。

根据本说明书的实施例的另一个方面，提供一种文本视频检索方法，包括：接收用户提供的查询文本；根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。

根据本说明书的实施例的另一个方面，提供一种文本视频检索方法，包括：接收用户提供的查询视频；根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及将所述文本搜索结果提供给所述用户。

根据本说明书的实施例的另一个方面，提供一种用于训练特征提取模型的方法，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述方法包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对：将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征；针对各个当前训练样本，对该当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与该句法层级分析结果中的各个元素分别对应的文本特征；根据所得到的与该句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与该句法层级分析结果对应的视频层级分析结果；根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到该视频层级分析结果中的各个元素分别对应的视频特征；根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定该当前训练样本的文本数据和对应的视频数据之间的相似度；基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值；以及响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

根据本说明书的实施例的又一个方面，提供一种用于确定文本和视频之间的相似度的装置，包括：特征提取单元，被配置为将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；层级分析单元，被配置为对所述文本进行句法分析，得到句法层级分析结果；根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果；文本特征处理单元，被配置为根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征；视频特征处理单元，被配置为根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征；以及相似度确定单元，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。

根据本说明书的实施例的再一个方面，提供一种文本视频检索装置，包括：文本接收单元，被配置为接收用户提供的查询文本；相似度计算单元，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；视频结果提供单元，被配置为基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。

根据本说明书的实施例的又一个方面，提供一种视频文本检索装置，包括：视频接收单元，被配置为接收用户提供的查询视频；相似度计算单元，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；文本结果提供单元，被配置为基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及将所述文本搜索结果提供给所述用户。

根据本说明书的实施例的又一个方面，提供一种用于训练特征提取模型的装置，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对，所述训练单元包括：特征提取模块，被配置为将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征；层级分析模块，被配置为对各个当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；根据所得到的与句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与各个句法层级分析结果对应的视频层级分析结果；文本特征处理模块，被配置为将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与各个句法层级分析结果中的各个元素分别对应的文本特征；视频特征处理模块，被配置为根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到各个视频层级分析结果中的各个元素分别对应的视频特征；相似度确定模块，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定各个当前训练样本的文本数据和对应的视频数据之间的相似度；损失值确定模块，被配置为基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值；以及所述装置还包括：参数调整单元，被配置为响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

根据本说明书的实施例的另一方面，提供一种用于确定文本和视频之间的相似度的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于确定文本和视频之间的相似度的方法。

根据本说明书的实施例的另一方面，提供一种文本视频匹配检索的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的文本视频检索方法或视频文本检索方法。

根据本说明书的实施例的另一方面，提供一种用于训练特征提取模型的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于训练特征提取模型的方法。

根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法和/或用于训练特征提取模型的方法。

根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法和/或用于训练特征提取模型的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法、用于训练特征提取模型的方法和装置的示例性架构。

图2示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的方法的一个示例的流程图。

图3示出了根据本说明书的实施例的文本特征的确定过程的一个示例的流程图。

图4示出了根据本说明书的实施例的视频层级分析结果的一个示例的示意图。

图5示出了根据本说明书的实施例的视频层级分析结果的构建过程的一个示例的流程图。

图6示出了根据本说明书的实施例的视频层级分析结果的构建过程的又一个示例的流程图。

图7示出了根据本说明书的实施例的视频层级分析结果中的各个元素分别对应的视频特征的确定过程的一个示例的流程图。

图8示出了根据本说明书的实施例的文本和视频之间的相似度的确定过程的一个示例的示意图。

图9示出了根据本说明书的实施例的文本视频检索方法的一个示例的流程图。

图10示出了根据本说明书的实施例的视频文本检索方法的一个示例的流程图。

图11示出了根据本说明书的实施例的用于训练特征提取模型的方法的一个示例的流程图。

图12示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的装置的一个示例的方框图。

图13示出了根据本说明书的实施例的文本视频检索装置的一个示例的方框图。

图14示出了根据本说明书的实施例的视频文本检索装置的一个示例的方框图。

图15示出了根据本说明书的实施例的用于训练特征提取模型的装置的一个示例的方框图。

图16示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的装置的一个示例的方框图。

图17示出了根据本说明书的实施例的文本视频匹配检索装置的一个示例的方框图。

图18示出了根据本说明书的实施例的用于训练特征提取模型的装置的一个示例的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本说明书中，术语“对比损失(Contrastive Loss)”在非监督学习中广泛应用。该损失函数主要用于降维（如特征提取）过程中，即本来相似的样本，在经过降维后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。因而，该损失函数也可以很好地表达成对样本的匹配程度。

下面将结合附图来详细描述根据本说明书实施例的用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法、用于训练特征提取模型的方法和装置。

图1示出了根据本说明书实施例的用于确定文本和视频之间的相似度的方法、文本视频检索方法、视频文本检索方法、用于训练特征提取模型的方法和装置的示例性架构100。

在图1中，网络110被应用于在终端设备120和应用服务器130之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网（LAN）、广域网（WAN）等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备，但是应当理解，可以有不同数量的终端设备连接到网络110。

在一种实施方式中，终端设备120可以由用户使用。终端设备120可以包括可为用户提供各种服务的应用客户端（例如应用客户端121）。在一些情况下，应用客户端121可以与应用服务器130进行交互。例如，应用客户端121可以将用户输入的消息传送到应用服务器130，并且从应用服务器130接收与上述消息相关联的响应。在本文中，“消息”可以指任何输入信息，例如来自用户输入的查询文本或查询视频等。

应用服务器130可以存储用以确定文本与视频之间的相似度的特征提取模型。上述特征提取模型可以包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型。应用服务器130可以与视频数据库140连接。其中，视频数据库140中可以包括各个候选视频。应用服务器130还可以与模型训练服务器150连接。其中，模型训练服务器150可以用来训练得到上述文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型。应用服务器130还可以与文本数据库160连接。其中，文本数据库160中可以包括各个候选文本。从而，上述应用服务器130也可以相应地提供视频-文本检索服务。然而，应当理解，在其它情况下，应用服务器130也可以在本地存储候选视频或候选文本以及训练得到上述文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，而不是与视频数据库140、模型训练服务器150和文本数据库160进行交互。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，架构100中可以涉及任何其它网络实体。

图2示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的方法200的流程图。

如图2所示，在210，将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征。

在本实施例中，上述文本特征提取模型和视频特征提取模型可以是基于特征提取骨干（backbone）模型训练得到的、用以生成文本和视频的高维特征的模型。在一个示例中，上述特征提取骨干模型可以包括但不限于以下至少一项：Transformer模型、ViT（visiontransformer）模型、BERT（BidirectionalEncoder Representations from Transformers）模型、生成式预训练（Generative Pre-Training，GPT）模型、CLIP模型、卷积神经网络（Convolutional Neural Networks, CNN）等。

在本实施例中，上述文本特征提取模型可以根据文本得到该文本包含的各个词符对应的词符特征作为初始文本特征。在一个示例中，若文本包含N _t个词，则文本特征例如可以表示为，其中D可以指各个特征（例如/>,…）的长度。在一个示例中，上述初始文本特征还可以包括用于表征文本全句的词符（例如[CLS]词符）对应的全局文本特征，例如可以用 />表示。

上述视频特征提取模型可以根据视频所包含的图像得到对应的图像特征序列作为初始视频特征。在一个示例中，可以先按照采样率（例如每秒1帧）或关键帧提取技术对视频进行提取得到N _v个视频帧，再通过上述视频特征提取模型得到上述各个视频帧对应的图像特征。例如，初始视频特征可以表示为。其中D可以指各个特征（例如 />,…）的长度。 />可以用于表征与第i个视频帧相对应的初始视频特征。在一个示例中，还可以先将第i个视频帧划分为N _p个图像块（patch），再通过上述视频特征提取模型得到各个图像块对应的图像块特征。例如， />可以进一步表示为。其中，/>可以用于表征与第i个视频帧中的第j个图像块相对应的图像块特征，即帧级别的局部图像特征。在一个示例中，/>也可以用于表示与第i个视频帧相对应的帧特征，即帧级别的全局特征/>。在一个示例中，/>还可以包括上述两者，即。相关符号的含义可以参考前述。

在220，对文本进行句法分析，得到句法层级分析结果。

在本实施例中，可以应用各种句法分析工具得到上述文本所包含的各个词的词性标记，以及词之间的句法依赖关系。其中，句法分析工具例如可以包括spacy、NLTK,Stanford CoreNLP、Stanza等。之后，可以根据句法依存关系构建句法树，再利用深度优先等搜索算法将该句法树解析为具有指定层级的句法层次结构，即得到句法层级分析结果。在一个示例中，句法层级分析结果可以是一种将文本遵循由全局到局部的结构进行主体信息抽取而得到的结果。

可选地，句法层级分析结果中的元素可以包括：位于第一层级（例如可以用H ¹表示）的句子节点（例如可以用表示）和位于第二层级（例如可以用H ²表示）的动作节点（例如可以用 />等表示）。在一个示例中，句子节点可以用于指示文本整体。在一个示例中，动作节点可以与上述文本中的各个动词相对应。在一个示例中，各个动作节点可以与上述句子节点相连接。

可选地，句法层级分析结果中的元素还可以包括位于第三层级（例如可以用H ³表示）的实体节点（例如可以用等表示）。在一个示例中，实体节点可以与上述动作节点所指示的动词所涉及的各个名词、代词等指示实体的词相对应。在一个示例中，各个动作节点可以与其相关的实体节点相连接，用于表征所构建的动作短语（例如主谓结构、主谓宾结构、动宾结构等）。

可选地，句法层级分析结果中的元素还可以包括位于第四层级（例如可以用H ⁴表示）的属性节点（例如可以用等表示）。在一个示例中，属性节点可以与用于修饰上述实体节点的各个修饰词相对应。上述修饰词例如可以是形容词。在一个示例中，各个属性节点可以与其相关的实体节点相连接。

在230，根据句法层级分析结果对初始文本特征进行处理，得到与句法层级分析结果中的各个元素分别对应的文本特征。

在本实施例中，可以根据所得到的各个词符对应的词符特征来确定与句法层级分析结果中的各个元素分别对应的文本特征。在一个示例中，可以将上述全局文本特征确定为位于第一层级的句子节点对应的文本特征。在一个示例中，可以将上述文本包含的动词所对应的词符特征确定为位于第二层级的相应动作节点对应的文本特征。类似地，可以分别得到位于第三层级、第四层级的各个实体节点和各个属性节点对应的文本特征。

可选地，继续参见图3，图3示出了根据本说明书的实施例的文本特征的确定过程300的一个示例的流程图。

如图3所示，在310，从所得到的初始文本特征中分别提取与句法层级分析结果中的各个元素对应的初始文本特征，得到与句子节点、动作节点对应的文本特征。

在一个示例中，可以参考前述得到与句子节点、动作节点对应的文本特征。

在320，针对各个实体节点，根据与该实体节点相关联的属性节点对应的初始文本特征对该实体节点对应的初始文本特征进行特征增强，得到各个实体节点对应的文本特征。

在一个示例中，可以基于注意力（attention）机制进行特征增强。在一个示例中，对于位于第三层级的第i个实体节点（例如可以用表示），该实体节点对应的文本特征可以表示为： />，/>，，/>。其中，norm(·)可以用于表示层归一化操作。 />可以用于表示位于第三层级的第i个实体节点对应的初始文本特征（例如词符特征）。MLP ₄(·)可以用于表示一个可通过训练得到的多层感知机（MultilayerPerceptron）。match(·)可以用于表示计算两个特征之间的匹配度，例如可以通过内积相似度、余弦相似度、用于计算匹配度的神经网络等得到。 />可以用于表示与位于第k层级的第i个实体节点相关联的位于第（k+1）层级的属性节点集合。/>可以用于表示与该实体节点/>相关联的位于第四层级的第j个属性节点对应的初始文本特征。⊕可以用于表示维度方向上的连接（concat）。fusion(·)可以用于表示维度方向上的融合（例如将维度从2d压缩为d）。

基于此，本方案可以通过将句法层级分析结果中的属性节点的特征融合进实体节点的特征，从而可以使所得到的实体节点的文本特征包含更为丰富的、更细粒度的信息，提高特征表征能力。

回到图2，在240，根据所得到的与句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与句法层级分析结果对应的视频层级分析结果。

在本实施例中，所构建的视频层级分析结果中的各个元素可以与句法层级分析结果中的对应层级中的相应元素相匹配。

在一个示例中，相应地，视频层级分析结果中的元素可以包括：位于第一层级的视频节点（例如可以用表示）和位于第二层级的帧节点（例如可以用/>等表示）。其中，上述帧节点与视频帧组相对应，视频帧组中的每个视频帧与句法层级分析结果中的对应动作节点相匹配。

相应地，视频层级分析结果中的元素还可以包括：位于第三层级的图像块节点（例如可以用等表示）。其中，上述图像块节点与图像块组相对应，图像块组中的每个图像块与句法层级分析结果中的对应实体节点相匹配且属于对应的视频帧组中的视频帧。

可选地，进一步参考图4，图4示出了根据本说明书的实施例的视频层级分析结果400的一个示例的示意图。如图4所示，文本对410包括文本411和视频412。针对文本411“一个年轻女孩穿着绿色衬衫，这女孩正在骑马”的句法层级分析结果可以包括位于第一层级420的句子节点421，位于第二层级430的动作节点431、432和位于第三层级440的实体节点441、442、443、444。可选地，句法层级分析结果还可以包括位于第四层级450的属性节点451、452。可以理解，相邻层级的节点之间的关联关系可以通过连接关系来体现。

相应地，针对视频412的视频层级分析结果可以包括位于第一层级420的视频节点422，位于第二层级430的帧节点433、434和位于第三层级440的图像块节点445、446、447、448。其中，帧节点433可以用于表示与动作节点431相匹配的视频帧组，例如可以包括两个体现“穿”的视频帧4331、4332。同理，帧节点434可以用于表示与动作节点432相匹配的视频帧组，例如可以包括两个体现“骑”的视频帧4341、4342。进而，图像块节点445可以用于表示与实体节点441相匹配的图像块组。上述图像块组中可以包括视频帧4331、4332中体现“女孩”的图像块。同理，图像块节点446所表示的与实体节点442相匹配的图像块组可以包括视频帧4331、4332中体现“衬衫”的图像块。图像块节点447所表示的与实体节点443相匹配的图像块组可以包括视频帧4341、4342中体现“女孩”的图像块。图像块节点448所表示的与实体节点444相匹配的图像块组可以包括视频帧4341、4342中体现“马”的图像块。可以理解，相邻层级的节点之间的关联关系可以通过连接关系来体现。

可选地，继续参见图5，图5示出了根据本说明书的实施例的视频层级分析结果的构建过程500的一个示例的流程图。

如图5所示，在510，将所得到的与视频帧对应的帧特征提供给时间编码模型，得到各个帧特征对应的融合有时间信息的时间编码特征。

在一个示例中，时间编码模型例如可以是基于transformer的各种可以融合有序列位置信息的模型。在一个示例中，对于第i个视频帧相对应的帧特征，融合有时间信息的时间编码特征可以表示为/>。

针对各个动作节点，可以执行以下步骤520-530。

在520，确定该动作节点对应的文本特征和各个时间编码特征之间的匹配度。

在本实施例中，上述匹配度例如可以通过内积相似度、余弦相似度、用于计算匹配度的神经网络等得到。

在一个示例中，参考图4，针对动作节点431，可以分别确定该动作节点431对应的文本特征和视频410对应的各个时间编码特征之间的匹配度。

在530，选取第一数目个匹配度满足第一预定要求的时间编码特征对应的视频帧组成视频帧组，得到与该动作节点相对应的、位于第二层级的帧节点。

在本实施例中，第一预定要求例如可以是大于第一预定阈值或匹配度最高的前第一数目个。在一个示例中，与位于第二层级的第i个动作节点相对应的、位于第二层级的帧节点所组成的集合可以表示为/>，。其中，/>可以用于表示在集合{val _j}中值最高的前λ ₂个值所对应的索引j集合。其余符号的含义可以参考前述。

在一个示例中，参考图4，针对动作节点431，可以选取匹配度最高的2帧（例如视频帧4331、4332）形成与动作节点431相匹配的帧节点433。类似地，还可以形成与动作节点432相匹配的帧节点434。

基于此，本方案可以基于文本的句法层级分析结果中的动作节点来引导挑选出与该动作语义相关的图像帧，从而为特征融合后得到表征能力更强的、与特定动作相关的视觉特征奠定基础。

可选地，继续参见图6，图6示出了根据本说明书的实施例的视频层级分析结果的构建过程600的又一个示例的流程图。

如图6所示，针对各个帧节点，可以执行以下步骤610-620。

在610，确定与该帧节点相对应的实体节点对应的文本特征和与该帧节点相对应的视频帧组中的各个视频帧所划分的图像块对应的图像块特征之间的匹配度。

在一个示例中，可以参考前述图5实施例中步骤520的相关操作。

在一个示例中，参考图4，针对帧节点433，与帧节点433相匹配的动作节点431所涉及的实体节点可以包括实体节点441和实体节点442。针对实体节点441，可以分别确定实体节点441对应的文本特征和与帧节点433相对应的视频帧4331、4332所划分的图像块对应的图像块特征之间的匹配度。类似地，针对实体节点442，还可以分别确定实体节点442对应的文本特征和与帧节点433相对应的视频帧4331、4332所划分的图像块对应的图像块特征之间的匹配度。同理，还可以针对帧节点434，分别确定实体节点443、444对应的文本特征和与帧节点433相对应的视频帧4341、4342所划分的图像块对应的图像块特征之间的匹配度。

在620，选取第二数目个匹配度满足第二预定要求的图像块特征对应的图像块组成图像块组，得到与该帧节点相连接的、位于第三层级的图像块节点。

在本实施例中，第二预定要求例如可以是大于第二预定阈值或匹配度最高的前第二数目个。在一个示例中，与该帧节点相连接的、位于第三层级的图像块节点所组成的集合可以表示为，/>。其中， />可以表示从第j个帧所划分的（例如3×4个）图像块中根据与相应的实体节点/>之间的匹配度所选取的图像块集合。其余符号的含义可以参考前述。

在一个示例中，参考图4，针对帧节点433，对于对应的视频帧4331，可以从中选取匹配度大于第二预定阈值的图像块（例如第1行第3、4列的图像块）；同理，对于对应的视频帧4332，可以从中选取匹配度大于第二预定阈值的图像块（例如第1、2行第3列的图像块），从而形成与该帧节点433相连接的、位于第三层级的图像块节点445。可以理解，该图像块节点445与实体节点441相匹配。类似地，还可以进一步形成与实体节点442、443、444分别匹配的图像块节点446、447、448。

基于此，本方案可以基于句法层级分析结果中的（经特征增强的）实体节点来引导挑选图像块，从而为特征融合后得到比视频帧全局特征（例如视频帧的分类标记特征[CLS]）包含更多的细粒度局部信息的特征表征提供技术基础。

回到图2，在250，根据视频层级分析结果对各个元素对应的初始视频特征进行处理，得到视频层级分析结果中的各个元素分别对应的视频特征。

在一个示例中，对于视频层级分析结果中的各个元素，可以通过各种方式对该元素（例如视频节点、帧节点、图像块节点）对应的初始视频特征进行融合，从而得到该元素对应的视频特征。

可选地，继续参见图7，图7示出了根据本说明书的实施例的视频层级分析结果中的各个元素分别对应的视频特征的确定过程700的一个示例的流程图。

如图7所示，在710，基于各个视频帧对应的帧特征和句子节点对应的文本特征之间的匹配度，确定各个帧特征对应的融合系数。

在本实施例中，上述匹配度例如可以通过内积相似度、余弦相似度、用于计算匹配度的神经网络等得到。在一个示例中，匹配度越高，对应的融合系数的值越大。

在一个示例中，第j个视频帧对应的帧特征对应的融合系数可以表示为，/>。其中，/>可以用于表示句子节点对应的文本特征。其余符号的含义可以参考前述。

在720，根据各个融合系数对各个帧特征进行融合，得到视频节点对应的视频特征。

在本实施例中，可以根据各个融合系数采用加权融合的方式得到视频节点对应的视频特征。在一个示例中，视频节点对应的视频特征可以表示为。

基于此，本方案可以利用文本与视频之间的整体匹配度来引导视频中的各个图像帧对应的初始视频特征的融合，从而可以得到基于相匹配的文本（例如查询文本）的全局视频表征。

可选地，针对各个帧节点，可以对该帧节点所对应的视频帧组中的各个视频帧对应的时间编码特征进行融合，得到该帧节点对应的视频特征。在一个示例中，位于第二层级的第i个帧节点对应的视频特征可以表示为。相关符号的含义可以参考前述图5实施例中步骤530的相关描述。可选地，上述融合方式也可以参考上述步骤710的融合系数的确定步骤进行加权融合。

可选地，针对各个图像块节点，对该图像块节点所对应的图像块组中的各个图像块对应的图像块特征进行融合，得到该图像块节点对应的视频特征。在一个示例中，位于第三层级的第i个图像块节点对应的视频特征可以表示为。其中，。/>可以用于表示与位于第l层级的第i个节点 />相关联的位于第（l-1）层级的节点。相关符号的含义可以参考前述图6实施例中步骤620的相关描述。可选地，上述融合方式也可以参考上述步骤710的融合系数的确定步骤进行加权融合。

在一个示例中，参考图4，针对图像块节点445，可以对从视频帧4331中选取的第1行第3、4列的图像块所对应的图像块特征进行融合（例如求平均），得到对应于视频帧4331的局部视频特征。同理，可以对从视频帧4332中选取的第1、2行第3列的图像块所对应的图像块特征进行融合（例如求平均），得到对应于视频帧4332的局部视频特征。再通过融合（例如求平均）对应于视频帧4331、4332的局部视频特征得到该图像块节点445对应的视频特征。

回到图2，在260，根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定文本和视频之间的相似度。

在一个示例中，可以确定句子节点对应的文本特征和视频节点对应的视频特征之间的相似度。在一个示例中，对于位于第二层级的元素，可以确定动作节点的文本特征和与该动作节点相匹配的帧节点对应的视频特征之间的相似度。在一个示例中，对于位于第三层级的元素，可以确定实体节点的文本特征和与该实体节点相匹配的图像块节点对应的视频特征之间的相似度。之后，可以通过各种方式对所得到的各个相似度进行融合，从而确定文本和视频之间的相似度。

可选地，可以对各个层级中的各个元素分别对应的文本特征和视频特征之间的相似度进行加权求和，确定文本和视频之间的相似度。

在一个示例中，可以为不同的层级预先设定不同的权重，再对各层级所得到的相似度求平均。在一个示例中，可以基于注意力机制为层级结构中的各个元素设置不同的权重，从而确定文本和视频之间的相似度。

可选地，各个层级中的各个元素所对应的权重基于对该层级中的各个元素对应的文本特征或视频特征的归一化处理而确定。在一个示例中，针对各层级中的各个元素，可以确定该元素与上一层级中相关联的元素对应的特征之间的匹配度，再对位于同一层级的各个元素所对应的匹配度进行归一化处理，得到对应的权重。在一个示例中，以基于对句法层级分析结果中的各个元素对应的文本特征的归一化处理为例，位于第二层级的第i个元素所对应的权重可以表示为，/>,/>。其中，|H ²|可以用于表示位于句法层级分析结果或视频层级分析结果的第二层级的元素的数目。同理，位于第三层级的第i个元素所对应的权重可以表示为/>，。其中，|H ³|可以用于表示位于句法层级分析结果或视频层级分析结果的第三层级的元素的数目。可以理解，也可以采用除了softmax的其他归一化方式。类似地，也可以基于对视频层级分析结果中的各个元素对应的视频特征的归一化处理确定各个层级中的各个元素所对应的权重。

基于此，本方案可以依据句法层次结构为每个元素（例如文本-视频节点对）分配合适的权重，从而充分体现不同的动作对整个文本的重要性不同，不同的实体对同一个动作也有不同的重要性，更符合语义理解的客观逻辑。进而，通过聚合同一层内的相似性分数，实现从不同粒度对文本-视频特征进行对齐的目的。

下面参考图8，图8示出了根据本说明书的实施例的文本和视频之间的相似度的确定过程800的一个示例的示意图。

如图8所示，可以参照上述描述确定位于第i层级的各个元素与上一层级中相关联的元素对应的特征之间的匹配度，j∈[1,|H ⁱ|]。例如，对于第二层级，可以分别确定“穿”、“骑”对应的文本特征和完整句子“一个年轻女孩穿着绿色衬衫，这女孩正在骑马”对应的文本特征之间的匹配度/>。之后，通过对 />进行softmax操作得到与表征“穿”的动作节点和表征“骑”的动作节点分别对应的权重 />。类似地，可以通过所确定的匹配度 />，得到各个实体节点对应的权重/>和 />。

在一个示例中，可以根据上述权重对位于同一层级中的元素对应的相似度进行加权求和，得到各个层级对应的相似度。再综合（例如求平均）各个层级对应的相似度得到文本和视频之间的相似度。

利用图1-图8中公开的用于确定文本和视频之间的相似度的方法，可以通过建立句法层级结构来对文本描述进行高度抽象，并基于所建立的句法层级结构来引导得到对应的视频层级分析结果，进而为不同粒度的视频特征的筛选与融合提供依据，从而通过从不同粒度过滤掉视频中的冗余信息并利用特征融合来增强视频特征，提升文本与视频之间的信息交互程度，进而可以用于提高所确定的文本与视频之间的相似度的效果。

下面参考图9，图9示出了根据本说明书的实施例的文本视频检索方法900的一个示例的流程图。

如图9所示，在910，接收用户提供的查询文本。

在本实施例中，可以通过各种方式接收用户提供的查询文本。例如，上述查询文本可以是通过用户端直接输入的文字，也可以通过对用户使用用户端输入的图像、视频、语音等进行光学字符识别（OpticalCharacter Recognition，OCR）或自动语音识别(AutomaticSpeech Recognition，ASR)等转换而成的文字，此处不做限定。

在920，根据用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的查询文本和候选视频之间的相似度。

在本实施例中，可以将上述查询文本分别与候选视频集中的各个候选视频进行组合，以得到各个查询文本视频对。上述候选视频集所包括的候选视频可以根据实际需要而设定。例如，可以是全部的候选视频，也可以是根据各种粗筛方式而召回的部分的候选视频。上述用于确定文本和视频之间的相似度的方法具体可以参考前述图1-图8实施例的相关描述。

在930，基于所确定的相似度，从候选视频集中确定出匹配视频作为视频搜索结果。

在本实施例中，可以通过各种方式从候选视频集中确定出匹配视频。例如，可以将相似度最大的若干个候选视频确定为匹配视频。再例如，可以将相似度大于预设阈值的候选视频作为备选匹配视频，再通过诸如随机选取、依用户偏好选取等方式从上述备选匹配视频中确定出若干个匹配视频作为视频搜索结果。

在940，将视频搜索结果提供给用户。

在本实施例中，可以通过各种形式将上述视频搜索结果提供给用户。例如可以通过列表形式按照相似度由大至小的顺序排列上述视频搜索结果。可选地，还可以在各个视频搜索结果附近显示相应的相似度。

需要说明的是，将视频搜索结果提供给的用户，可以是与上述步骤910中描述的用户相同的用户，也可以是与上述步骤910中描述的用户使用同一用户端的用户，此处不做限定。

继续参考图10，图10示出了根据本说明书的实施例的视频文本检索方法1000的一个示例的流程图。

如图10所示，在1010，接收用户提供的查询视频。

在1020，根据用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的查询视频和候选文本之间的相似度。

在本实施例中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到。

在1030，基于所确定的相似度，从候选文本集中确定出匹配文本作为文本搜索结果。

在1040，将文本搜索结果提供给用户。

需要说明的是，上述步骤1010-1040的具体描述可以参考前述图9实施例的步骤910-940，只需将查询文本与查询视频互换、将候选视频与候选文本互换。

利用图9和图10中公开的文本视频检索方法和视频文本检索方法，提供了可以将用于确定文本和视频之间的相似度的方法应用于文本视频检索和视频文本检索领域的方法，以更为高效、准确地返回检索结果。

下面参考图11，图11示出了根据本说明书的实施例的用于训练特征提取模型的方法1100的一个示例的流程图。

如图11所示，在1110，利用训练样本集循环执行下述模型训练过程1120-1160，直到满足训练结束条件。

在本实施例中，上述训练样本集中的每个训练样本可以包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对。在一个示例中，可以将一条视频数据v _i和用来描述该视频数据的文本数据t _i组成正例文本视频对(t _i,v _i)；将一条视频数据v _j和用来描述其他视频数据的文本数据t _i(i≠j)组成负例文本视频对(t _i,v _j)。上述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型。

在1120，将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征。

在本实施例中，当前训练样本可以指在当前迭代过程（iteration）从上述训练样本集中选取的一批（batch）训练样本。当前训练样本集所包含的当前训练样本的数目与预定的批大小（batchsize）相当。

在1130，将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征。

针对各个当前训练样本，执行以下步骤1140-1148。

在1140，对该当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果。

在1142，将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与该句法层级分析结果中的各个元素分别对应的文本特征。

在本实施例中，当前文本特征处理模型可以用于执行如前述图2实施例中的对初始文本特征进行处理的操作。文本特征处理模型可以包括各种用于特征处理的参数可调的模型。在一个示例中，文本特征处理模型的可调参数可以参考前述图3实施例中步骤320的描述。

在1144，根据所得到的与该句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与该句法层级分析结果对应的视频层级分析结果。

在1146，根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到该视频层级分析结果中的各个元素分别对应的视频特征。

在本实施例中，当前视频特征处理模型可以用于执行如前述图2实施例中的对初始视频特征进行处理的操作。视频特征处理模型可以包括各种用于特征处理的参数可调的模型。在一个示例中，视频特征处理模型的可调参数可以参考前述图7实施例中步骤710以及可选的实现方式中的相应描述。

在1148，根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定该当前训练样本的文本数据和对应的视频数据之间的相似度。

需要说明的是，上述步骤1120、1130、1140-1148的具体操作过程可以分别参考图2实施例中步骤210、220-260的相关描述，此处不再赘述。

在1150，基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值。

在一个示例中，可以基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，按照预设的对比学习损失函数确定文图对比损失值和图文对比损失值中的至少一项。文图对比损失值例如可以表示为。相应地，图文对比损失值例如可以表示为/>。其中，B可以用于表示批大小，例如正例文本视频对的数目。τ可以用于表示对比学习损失函数的温度系数。sim(t _i,v _i)可以用于表示第i个正例文本视频对的文本数据和对应的视频数据之间的相似度。相应地，sim(t _i,v _j)和sim(t _j,v _i)可以用于表示负例文本视频对的文本数据和对应的视频数据之间的相似度。

在一个示例中，可以根据上述文图对比损失值和图文对比损失值中的至少一项确定当前训练样本集对应的对比损失值，例如两者之一或两者的均值。

在1160，判断是否满足训练结束条件。

在一个示例中，可以通过判断迭代次数是否达到预设次数、训练时长是否达到预设时长、对比损失值是否收敛等确定是否满足训练结束条件。

在1170，响应于不满足训练结束条件，根据对比损失值调整当前特征提取模型的模型参数。

在本实施例中，经过模型参数调整后的特征提取模型（包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型）可以充当下一模型训练过程的当前特征提取模型（包括当前文本特征提取模型、当前视频特征提取模型、当前文本特征处理模型和当前视频特征处理模型）。之后，可以利用上述训练样本集重新确定当前训练样本集，继续执行模型训练过程1120-1160，直到满足训练结束条件。

响应于满足训练结束条件，将当前特征提取模型确定为训练完成的特征提取模型（包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型）。从而可以利用训练完成的特征提取模型所包括的文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型得到对应的文本特征和视频特征，进而可以确定相应文本与视频之间的相似度。

利用图11中公开的用于训练特征提取模型的方法，可以通过基于文本分析所建立的句法层级结构来引导得到对应的视频层级分析结果，进而通过设计文本特征处理模型和视频特征处理模型对通过文本特征提取模型和视频特征提取模型得到的初始文本特征和初始视频特征进行处理，实现对文本特征基于文本结构的融合以及对不同粒度的视频特征的筛选与融合，在对比学习损失计算方式的反馈信号下充分学习文本与视频的跨模态交互，以使训练得到的特征提取模型可以生成包含更多信息量的特征表征。

下面参考图12，图12示出了根据本说明书的实施例的用于确定文本和视频之间的相似度的装置1200的一个示例的方框图。该装置实施例可以与图2-图8所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图12所示，用于确定文本和视频之间的相似度的装置1200可以包括特征提取单元1210、层级分析单元1220、文本特征处理单元1230、视频特征处理单元1240和相似度确定单元1250。

特征提取单元1210，被配置为将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征。特征提取单元1210的操作可以参考上面图2描述的210的操作。

层级分析单元1220，被配置为对所述文本进行句法分析，得到句法层级分析结果；根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果。层级分析单元1220的操作可以参考上面图2描述的220和240的操作。

在一个示例中，层级分析单元1220的操作可以进一步参考图4、图5、图6实施例的相关描述，此处不再赘述。

文本特征处理单元1230，被配置为根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征。文本特征处理单元1230的操作可以参考上面图2描述的230的操作。

在一个示例中，文本特征处理单元1230的操作可以进一步参考图3描述的310-320的操作，此处不再赘述。

视频特征处理单元1240，被配置为将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征。视频特征处理单元1240的操作可以参考上面图2描述的250的操作。

在一个示例中，视频特征处理单元1240的操作可以进一步参考图7描述的710-720及其可选的实现方式的操作，此处不再赘述。

相似度确定单元1250，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。相似度确定单元1250的操作可以参考上面图2描述的260的操作。

在一个示例中，相似度确定单元1250的操作可以进一步参考图8实施例的相关描述，此处不再赘述。

下面参考图13，图13示出了根据本说明书的实施例的文本视频检索装置1300的一个示例的方框图。该装置实施例可以与图9所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图13所示，文本视频检索装置1300可以包括文本接收单元1310、相似度计算单元1320和视频结果提供单元1330。

文本接收单元1310，被配置为接收用户提供的查询文本。文本接收单元1310的操作可以参考上面图9描述的910的操作。

相似度计算单元1320，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到。相似度计算单元1320的操作可以参考上面图9描述的920的操作。

视频结果提供单元1330，被配置为基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。视频结果提供单元1330的操作可以参考上面图9描述的930和940的操作。

下面参考图14，图14示出了根据本说明书的实施例的视频文本检索装置1400的一个示例的方框图。该装置实施例可以与图10所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图14所示，视频文本检索装置1400可以包括视频接收单元1410、相似度计算单元1420和文本结果提供单元1430。

视频接收单元1410，被配置为接收用户提供的查询视频。视频接收单元1410的操作可以参考上面图10描述的1010的操作。

相似度计算单元1420，被配置为根据如上所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到。相似度计算单元1420的操作可以参考上面图10描述的1020的操作。

文本结果提供单元1430，被配置为基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及将所述文本搜索结果提供给所述用户。文本结果提供单元1430的操作可以参考上面图10描述的1030和1040的操作。

下面参考图15，图15示出了根据本说明书的实施例的用于训练特征提取模型的装置1500的一个示例的方框图。该装置实施例可以与图11所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图15所示，用于训练特征提取模型的装置1500可以包括训练单元1510和参数调整单元1520。所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型。用于训练特征提取模型的装置1500被配置为由训练单元1510利用训练样本集循环执行模型训练过程，直到满足训练结束条件。所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对。

训练单元1510可以包括特征提取模块1511、层级分析模块1512、文本特征处理模块1513、视频特征处理模块1514、相似度确定模块1515和损失值确定模块1516。

特征提取模块1511，被配置为将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征。

层级分析模块1512，被配置为对各个当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；根据所得到的与句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与各个句法层级分析结果对应的视频层级分析结果。

文本特征处理模块1513，被配置为将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与各个句法层级分析结果中的各个元素分别对应的文本特征。

视频特征处理模块1514，被配置为根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到各个视频层级分析结果中的各个元素分别对应的视频特征。

相似度确定模块1515，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定各个当前训练样本的文本数据和对应的视频数据之间的相似度。

损失值确定模块1516，被配置为基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值。

需要说明的是，上述特征提取模块1511、层级分析模块1512、文本特征处理模块1513、视频特征处理模块1514、相似度确定模块1515和损失值确定模块1516的操作可以参考上面图11描述的1120-1130、1140和1144、1142、1146、1148和1150的操作。

参数调整单元1520，被配置为响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。参数调整单元1520的操作可以参考上面图11描述的1160-1170的操作。

以上参照图1到图15，对根据本说明书实施例的用于确定文本和视频之间的相似度的方法和装置、文本视频检索方法和装置、视频文本检索方法和装置以及用于训练特征提取模型的方法和装置的实施例进行了描述。

本说明书实施例的用于确定文本和视频之间的相似度的装置、文本视频检索装置、视频文本检索装置以及用于训练特征提取模型的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于确定文本和视频之间的相似度的装置、文本视频检索装置、视频文本检索装置以及用于训练特征提取模型例如可以利用电子设备实现。

图16示出了本说明书的实施例的用于确定文本和视频之间的相似度的装置1600的一个示例的方框图。

如图16所示，用于确定文本和视频之间的相似度的装置1600可以包括至少一个处理器1610、存储器（例如，非易失性存储器）1620、内存1630和通信接口1640，并且至少一个处理器1610、存储器1620、内存1630和通信接口1640经由总线1650连接在一起。至少一个处理器1610执行在存储器中存储或编码的至少一个计算机可读指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1610：执行如前所述的用于确定文本和视频之间的相似度的方法。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1610进行本说明书的各个实施例中以上结合图1-图8描述的各种操作和功能。

图17示出了本说明书实施例的文本视频匹配检索装置1700的一个示例的方框图。

如图17所示，文本视频匹配检索装置1700可以包括至少一个处理器1710、存储器（例如，非易失性存储器）1720、内存1730和通信接口1740，并且至少一个处理器1710、存储器1720、内存1730和通信接口1740经由总线1750连接在一起。至少一个处理器1710执行在存储器中存储或编码的至少一个计算机可读指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1710：执行如前所述的文本视频检索方法或视频文本检索方法。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1710进行本说明书的各个实施例中以上结合图9或图10描述的各种操作和功能。

图18示出了本说明书的实施例的用于训练特征提取模型的装置1800的一个示例的方框图。

如图18所示，用于训练特征提取模型的装置1800可以包括至少一个处理器1810、存储器（例如，非易失性存储器）1820、内存1830和通信接口1840，并且至少一个处理器1810、存储器1820、内存1830和通信接口1840经由总线1850连接在一起。至少一个处理器1810执行在存储器中存储或编码的至少一个计算机可读指令（即，上述以软件形式实现的元素）。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1810：执行如前所述的用于训练特征提取模型的方法。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1810进行本说明书的各个实施例中以上结合图11描述的各种操作和功能。

根据一个实施例，提供了一种例如计算机可读介质的程序产品。计算机可读介质可以具有指令（即，上述以软件形式实现的元素），该指令当被计算机执行时，使得计算机执行本说明书的各个实施例中以上结合图1-图11描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或者在云计算环境中，或者作为服务使用，比如软件即服务（SaaS）。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于确定文本和视频之间的相似度的方法，包括：

将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；

对所述文本进行句法分析，得到句法层级分析结果；

根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征；

根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果；

根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征；以及

根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。

2.如权利要求1所述的方法，其中，所述句法层级分析结果中的元素包括：位于第一层级的句子节点和位于第二层级的动作节点，

所述视频层级分析结果中的元素包括：位于第一层级的视频节点和位于第二层级的帧节点，其中，所述帧节点与视频帧组相对应，所述视频帧组中的每个视频帧与所述动作节点相匹配。

3.如权利要求2所述的方法，其中，所述句法层级分析结果中的元素还包括位于第三层级的实体节点，

所述视频层级分析结果中的元素还包括：位于第三层级的图像块节点，其中，所述图像块节点与图像块组相对应，所述图像块组中的每个图像块与所述实体节点相匹配且属于对应的视频帧组中的视频帧。

4.如权利要求3所述的方法，其中，所述句法层级分析结果中的元素还包括位于第四层级的属性节点，

所述根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征包括：

从所得到的初始文本特征中分别提取与所述句法层级分析结果中的各个元素对应的初始文本特征，得到与所述句子节点、所述动作节点对应的文本特征；以及

针对各个实体节点，根据与该实体节点相关联的属性节点对应的初始文本特征对该实体节点对应的初始文本特征进行特征增强，得到各个实体节点对应的文本特征。

5.如权利要求2所述的方法，其中，所述初始视频特征包括与视频帧对应的帧特征，

所述根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果包括：

将所得到的与视频帧对应的帧特征提供给时间编码模型，得到各个帧特征对应的融合有时间信息的时间编码特征；

针对各个动作节点，

确定该动作节点对应的文本特征和各个时间编码特征之间的匹配度；以及

选取第一数目个匹配度满足第一预定要求的时间编码特征对应的视频帧组成视频帧组，得到与该动作节点相对应的、位于第二层级的帧节点。

6.如权利要求3所述的方法，其中，所述初始视频特征包括与视频帧所划分的图像块对应的图像块特征，

针对各个帧节点，

确定与该帧节点相对应的实体节点对应的文本特征和与该帧节点相对应的视频帧组中的各个视频帧所划分的图像块对应的图像块特征之间的匹配度；以及

选取第二数目个匹配度满足第二预定要求的图像块特征对应的图像块组成图像块组，得到与该帧节点相连接的、位于第三层级的图像块节点。

7.如权利要求2所述的方法，其中，所述初始视频特征包括与视频帧对应的帧特征，

所述根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征包括：

基于各个视频帧对应的帧特征和所述句子节点对应的文本特征之间的匹配度，确定各个帧特征对应的融合系数；以及

根据各个融合系数对各个帧特征进行融合，得到所述视频节点对应的视频特征。

8.如权利要求5所述的方法，所述根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征包括：

针对各个帧节点，对该帧节点所对应的视频帧组中的各个视频帧对应的时间编码特征进行融合，得到该帧节点对应的视频特征。

9.如权利要求6所述的方法，所述根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征包括：

针对各个图像块节点，对该图像块节点所对应的图像块组中的各个图像块对应的图像块特征进行融合，得到该图像块节点对应的视频特征。

10.如权利要求1到9中任一所述的方法，其中，所述根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度包括：

对各个层级中的各个元素分别对应的文本特征和视频特征之间的相似度进行加权求和，确定所述文本和所述视频之间的相似度。

11.如权利要求10所述的方法，其中，各个层级中的各个元素所对应的权重基于对该层级中的各个元素对应的文本特征或视频特征的归一化处理而确定。

12.一种文本视频检索方法，包括：

接收用户提供的查询文本；

根据如权利要求1到11中任一所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；

基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及

将所述视频搜索结果提供给所述用户。

13.一种视频文本检索方法，包括：

接收用户提供的查询视频；

根据如权利要求1到11中任一所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；

基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及

将所述文本搜索结果提供给所述用户。

14.一种用于训练特征提取模型的方法，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述方法包括：

利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对：

将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；

将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征；

针对各个当前训练样本，

对该当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；

将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与该句法层级分析结果中的各个元素分别对应的文本特征；

根据所得到的与该句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与该句法层级分析结果对应的视频层级分析结果；

根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到该视频层级分析结果中的各个元素分别对应的视频特征；

根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定该当前训练样本的文本数据和对应的视频数据之间的相似度；

基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值；以及

响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

15.一种用于确定文本和视频之间的相似度的装置，包括：

特征提取单元，被配置为将所获取的文本视频对包括的文本和视频分别提供给文本特征提取模型和视频特征提取模型，得到对应的初始文本特征和初始视频特征，其中，所述初始文本特征包括所述文本包含的各个词符对应的词符特征，所述初始视频特征包括基于所述视频包含的图像而提取的图像特征；

层级分析单元，被配置为对所述文本进行句法分析，得到句法层级分析结果；根据所得到的与所述句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与所述句法层级分析结果对应的视频层级分析结果；

文本特征处理单元，被配置为根据所述句法层级分析结果对所述初始文本特征进行处理，得到与所述句法层级分析结果中的各个元素分别对应的文本特征；

视频特征处理单元，被配置为根据所述视频层级分析结果对各个元素对应的初始视频特征进行处理，得到所述视频层级分析结果中的各个元素分别对应的视频特征；以及

相似度确定单元，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定所述文本和所述视频之间的相似度。

16.一种文本视频检索装置，包括：

文本接收单元，被配置为接收用户提供的查询文本；

相似度计算单元，被配置为根据如权利要求1到11中任一所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询文本和候选视频之间的相似度，其中，各个查询文本视频对根据所述查询文本和候选视频集中的各个候选视频得到；

视频结果提供单元，被配置为基于所确定的相似度，从所述候选视频集中确定出匹配视频作为视频搜索结果；以及将所述视频搜索结果提供给所述用户。

17.一种视频文本检索装置，包括：

视频接收单元，被配置为接收用户提供的查询视频；

相似度计算单元，被配置为根据如权利要求1到11中任一所述的用于确定文本和视频之间的相似度的方法，确定各个查询文本视频对包括的所述查询视频和候选文本之间的相似度，其中，各个查询文本视频对根据所述查询视频和候选文本集中的各个候选文本得到；

文本结果提供单元，被配置为基于所确定的相似度，从所述候选文本集中确定出匹配文本作为文本搜索结果；以及将所述文本搜索结果提供给所述用户。

18.一种用于训练特征提取模型的装置，其中，所述特征提取模型包括文本特征提取模型、视频特征提取模型、文本特征处理模型和视频特征处理模型，所述装置被配置为由训练单元利用训练样本集循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由匹配的文本数据和视频数据组成的正例文本视频对或由不匹配的文本数据和视频数据组成的负例文本视频对，所述训练单元包括：

特征提取模块，被配置为将当前训练样本集中的各个当前训练样本的文本数据提供给当前文本特征提取模型，得到各个当前训练样本的初始文本特征；将各个当前训练样本的视频数据提供给当前视频特征提取模型，得到各个当前训练样本的初始视频特征；

层级分析模块，被配置为对各个当前训练样本的文本数据进行句法分析，得到对应的句法层级分析结果；根据所得到的与句法层级分析结果中的各个元素分别对应的文本特征与所得到的初始视频特征之间的匹配度，构建与各个句法层级分析结果对应的视频层级分析结果；

文本特征处理模块，被配置为将所得到的句法层级分析结果和该初始文本特征提供给当前文本特征处理模型，得到与各个句法层级分析结果中的各个元素分别对应的文本特征；

视频特征处理模块，被配置为根据该视频层级分析结果对各个元素对应的初始视频特征提供给当前视频特征处理模型，得到各个视频层级分析结果中的各个元素分别对应的视频特征；

相似度确定模块，被配置为根据对应层级中的各个元素分别对应的文本特征和视频特征之间的相似度，确定各个当前训练样本的文本数据和对应的视频数据之间的相似度；

损失值确定模块，被配置为基于所确定的各个当前训练样本的文本数据和对应的视频数据之间的相似度，确定当前训练样本集对应的对比损失值；以及

所述装置还包括：参数调整单元，被配置为响应于不满足训练结束条件，根据所述对比损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

19.一种用于确定文本和视频之间的相似度的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1至11中任一所述的用于确定文本和视频之间的相似度的方法。

20.一种文本视频匹配检索的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求12所述的文本视频检索方法或如权利要求13所述的视频文本检索方法。

21.一种用于训练特征提取模型的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求14所述的用于训练特征提取模型的方法。