CN115599953A

CN115599953A - 视频文本检索模型的训练方法、检索方法及相关设备

Info

Publication number: CN115599953A
Application number: CN202211183287.7A
Authority: CN
Inventors: 沈栋; 吴翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-01-13

Abstract

本公开关于视频文本检索模型的训练方法、检索方法及相关设备，该训练方法包括：将第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；将第一视频样本的描述文本数据输入待训练的文本特征提取模型，得到第一文本特征；在第一视频特征和第一文本特征中确定第二视频特征和第二文本特征以及第三视频特征和第三文本特征；根据第二视频特征和第二文本特征确定第一损失值，根据第三视频特征和第三文本特征确定第二损失值；基于第一损失值和第二损失值，调整待训练的文本特征提取模型的模型参数，得到已训练的文本特征提取模型；将预训练的视频特征提取模型和已训练的文本特征提取模型作为视频文本检索模型，该视频文本检索模型性能较高。

Description

视频文本检索模型的训练方法、检索方法及相关设备

技术领域

本公开涉及互联网应用技术，尤其涉及视频文本检索模型的训练方法、检索方法及相关设备。

背景技术

很多数据以模态的形式存在，对于同一事件，可以用图像、视频、音频、文本等多种模态的数据进行表示。随着各种视频平台的不断涌现，视频文本检索的需求越来越高，其中视频文本检索即根据视频检索出对应的文本，或者根据文本检索出对应的视频。目前，在获取用于进行视频文本检索的检索模型时，需要数据较大的样本量，从而在训练过程中对训练资源要求较高，在有限的训练资源下，训练出的模型性能较差。

发明内容

本公开提供一种视频文本检索模型的训练方法、检索方法及相关设备，以至少解决相关技术中在有限的训练资源下，训练出的模型性能较差的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频文本检索模型的训练方法，包括如下步骤：

获取第一视频样本，以及所述第一视频样本对应的描述文本数据；

将所述第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；

将所述第一视频样本对应的描述文本数据输入待训练的文本特征提取模型，得到第一文本特征；

在所述第一视频特征和所述第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征；根据所述第二视频特征和所述第二文本特征，确定出至少一个第一损失值，根据所述第三视频特征和所述第三文本特征，确定出至少一个第二损失值；基于所述至少一个第一损失值和所述至少一个第二损失值，对所述待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型；

将所述预训练的视频特征提取模型和所述已训练的文本特征提取模型作为视频文本检索模型，所述视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。

可选地，所述至少一个第一损失值包括第一视频文本损失值和第一文本视频损失值，所述根据所述第二视频特征和第二文本特征，确定出至少一个第一损失值，包括：

确定所述第二视频特征与所述第二文本特征的第一视频文本相似度，和所述第二文本特征与所述第二视频特征的第一文本视频相似度；所述第一视频文本相似度用于表征以所述第二视频特征在先进行所述第二视频特征与所述第二文本特征间的相似度比较的结果；所述第一文本视频相似度用于表征以所述第二文本特征在先进行所述第二文本特征与所述第二视频特征间的相似度比较的结果；

基于所述第一视频文本相似度和第一预设视频文本标签，确定第一视频文本损失值；基于所述第一文本视频相似度和第一预设文本视频标签，确定第一文本视频损失值；所述第一预设视频文本标签用于表征以所述第二视频特征在先进行所述第二视频特征与所述第二文本特征间的相似度比较的标注数据；所述第一预设文本视频标签用于表征以所述第二文本特征在先进行所述第二文本特征与所述第二视频特征间的相似度比较的标注数据；

将所述第一视频文本损失值和所述第一文本视频损失值中的至少一个，作为所述第一损失值。

可选地，所述确定所述第二视频特征与所述第二文本特征的第一视频文本相似度，和所述第二文本特征与所述第二视频特征的第一文本视频相似度，包括：

对所述第二视频特征进行正则化处理，获取正则化后的第二视频特征；

对所述第二文本特征进行正则化处理，获取正则化后的第二文本特征；

对所述正则化后的第二视频特征和所述正则化后的第二文本特征进行点乘，确定所述第二视频特征和所述第二文本特征的第一视频文本相似度；对所述正则化后的第二文本特征和所述正则化后的第二视频特征进行点乘，确定所述第二文本特征与所述第二视频特征的第一文本视频相似度。

可选地，所述至少一个第二损失值包括第二视频文本损失值和第二文本视频损失值，所述根据所述第三视频特征和第三文本特征，确定出至少一个第二损失值，包括：

确定所述第三视频特征与所述第三文本特征的第二视频文本相似度，和所述第三文本特征与所述第三视频特征的第二文本视频相似度；所述第二视频文本相似度用于表征以所述第三视频特征在先进行所述第三视频特征与所述第三文本特征间的相似度比较的结果；所述第二文本视频相似度用于表征以所述第三文本特征在先进行所述第三文本特征与所述第三视频特征间的相似度比较的结果；

基于所述第二视频文本相似度和第二预设视频文本标签，确定第二视频文本损失值；基于所述第二文本视频相似度和第二预设文本视频标签，确定第二文本视频损失值；所述第二预设视频文本标签用于表征以所述第三视频特征在先进行所述第三视频特征与所述第三文本特征间的相似度比较的标注数据；所述第二预设文本视频标签用于表征以所述第三文本特征在先进行所述第三文本特征与所述第三视频特征间的相似度比较的标注数据；

将所述第二视频文本损失值和所述第二文本视频损失值中的至少一个，作为所述第二损失值。

可选地，在所述将第一视频样本输入预训练的视频特征提取模型，得到第一视频特征的步骤前，所述方法还包括：

获取第二视频样本分别对应的图像数据、内容文本数据和预设分类标签；

将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征；

基于由所述预训练中的视频特征和所述预设分类标签对应的第三损失值，对所述待训练的视频特征提取模型的模型参数进行调整，得到预训练的视频特征提取模型。

可选地，所述将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征，包括：

将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，分别得到对应的图像特征和预训练中的文本特征；

将所述图像特征和所述预训练中的文本特征进行特征融合，得到预训练中的视频特征。

可选地，所述获取第二视频样本分别对应内容文本数据，包括：

获取每一第二视频样本的视频语音识别结果和视频图像文字识别结果；

基于所述视频语音识别结果以及所述视频图像文字识别结果，得到所述第二视频样本的内容文本数据。

根据本公开实施例的第二方面，提供一种视频文本检索方法，包括：

获取待检索数据，所述待检索数据为视频检索数据或文本检索数据；

将所述待检索数据输入视频文本检索模型，得到目标检索数据；在所述待检索数据为视频检索数据的情况下，所述目标检索数据为目标文本数据；在所述待检索数据为文本检索数据的情况下，所述目标检索数据为目标视频数据；

其中，所述视频文本检索模型根据上述的视频文本检索模型的训练方法得到。

根据本公开实施例的第三方面，提供一种视频文本检索模型的训练装置，包括如下模块：

数据获取模块，被配置为获取第一视频样本，以及所述第一视频样本对应的描述文本数据；

第一提取模块，被配置为将所述第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；

第二提取模块，被配置为将所述第一视频样本对应的描述文本数据输入待训练的文本特征提取模型，得到第一文本特征；

损失确定模块，被配置为在所述第一视频特征和所述第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征；根据所述第二视频特征和所述第二文本特征，确定出至少一个第一损失值，根据所述第三视频特征和第三文本特征，确定出至少一个第二损失值；基于所述至少一个第一损失值和所述至少一个第二损失值，对所述待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型；

模型获取模块，被配置为将所述预训练的视频特征提取模型和所述已训练的文本特征提取模型作为视频文本检索模型，所述视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。

可选地，所述损失确定模块，包括：

第一相似度确定单元，被配置为确定所述第二视频特征与所述第二文本特征的第一视频文本相似度，和所述第二文本特征与所述第二视频特征的第一文本视频相似度；所述第一视频文本相似度用于表征以所述第二视频特征在先进行所述第二视频特征与所述第二文本特征间的相似度比较的结果；所述第一文本视频相似度用于表征以所述第二文本特征在先进行所述第二文本特征与所述第二视频特征间的相似度比较的结果；

第一损失值确定单元，被配置为基于所述第一视频文本相似度和第一预设视频文本标签，确定第一视频文本损失值；基于所述第一文本视频相似度和第一预设文本视频标签，确定第一文本视频损失值；所述第一预设视频文本标签用于表征以所述第二视频特征在先进行所述第二视频特征与所述第二文本特征间的相似度比较的标注数据；所述第一预设文本视频标签用于表征以所述第二文本特征在先进行所述第二文本特征与所述第二视频特征间的相似度比较的标注数据；

第一损失值选取单元，被配置为将所述第一视频文本损失值和所述第一文本视频损失值中的至少一个，作为所述第一损失值。

可选地，所述第一相似度确定单元，包括：

第一正则化子单元，被配置为对所述第二视频特征进行正则化处理，获取正则化后的第二视频特征；

第二正则化子单元，被配置为对所述第二文本特征进行正则化处理，获取正则化后的第二文本特征；

相似度确定子单元，被配置为对所述正则化后的第二视频特征和所述正则化后的第二文本特征进行点乘，确定所述第二视频特征和所述第二文本特征的第一视频文本相似度；对所述正则化后的第二文本特征和所述正则化后的第二视频特征进行点乘，确定所述第二文本特征与所述第二视频特征的第一文本视频相似度。可选地，所述损失确定模块，包括：

第二相似度确定单元，被配置为确定所述第三视频特征与所述第三文本特征的第二视频文本相似度，和所述第三文本特征与所述第三视频特征的第二文本视频相似度；所述第二视频文本相似度用于表征以所述第三视频特征在先进行所述第三视频特征与所述第三文本特征间的相似度比较的结果；所述第二文本视频相似度用于表征以所述第三文本特征在先进行所述第三文本特征与所述第三视频特征间的相似度比较的结果；

第二损失值确定单元，被配置为基于所述第二视频文本相似度和第二预设视频文本标签，确定第二视频文本损失值；基于所述第二文本视频相似度和第二预设文本视频标签，确定第二文本视频损失值；所述第二预设视频文本标签用于表征以所述第三视频特征在先进行所述第三视频特征与所述第三文本特征间的相似度比较的标注数据；所述第二预设文本视频标签用于表征以所述第三文本特征在先进行所述第三文本特征与所述第三视频特征间的相似度比较的标注数据；

第二损失值选取单元，被配置为将所述第二视频文本损失值和所述第二文本视频损失值中的至少一个，作为所述第二损失值。

可选地，所述装置还包括：预训练模块，所述预训练模块，包括：

数据获取单元，被配置为获取第二视频样本分别对应的图像数据、内容文本数据和预设分类标签；

特征提取单元，被配置为将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征；

训练处理单元，被配置为基于由所述预训练中的视频特征和所述预设分类标签对应的第三损失值，对所述待训练的视频特征提取模型的模型参数进行调整，得到预训练的视频特征提取模型。

可选地，所述特征提取单元，包括：

提取处理子单元，被配置为将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到图像特征和预训练中的文本特征；

融合处理子单元，被配置为将所述图像特征和所述预训练中的文本特征进行特征融合，得到预训练中的视频特征。

可选地，所述数据获取单元，包括：

识别处理子单元，被配置为获取每一第二视频样本的视频语音识别结果和视频图像文字识别结果；

数据获取子单元，被配置为基于所述视频语音识别结果以及所述视频图像文字识别结果，得到所述第二视频样本的内容文本数据。

根据本公开实施例的第四方面，提供一种视频文本检索装置，包括：

数据获取模块，被配置为获取待检索数据，所述待检索数据为视频检索数据或文本检索数据；

数据检索模块，被配置为将所述待检索数据输入视频文本检索模型，得到目标检索数据；在所述待检索数据为视频检索数据的情况下，所述目标检索数据为目标文本数据；在所述待检索数据为文本检索数据的情况下，所述目标检索数据为目标视频数据；

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的视频文本检索模型的训练方法，或者实现如第二方面所述的视频文本检索方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的视频文本检索模型的训练方法，或者实现如第二方面所述的视频文本检索方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的视频文本检索模型的训练方法，或者实现如第二方面所述的视频文本检索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开对视频特征提取模型进行预先训练，得到预训练的视频特征提取模型，从而在获取第一视频样本和第一视频样本对应的描述文本数据后，将第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；并将描述文本数据输入待训练的文本特征提取模型，得到第一文本特征。进一步在第一视频特征和第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征。根据第二视频特征和第二文本特征，确定出至少一个第一损失值，以及根据来源于第三视频特征和第三文本特征，确定出至少一个第二损失值。利用至少一个第一损失值和至少一个第二损失值对待训练的文本特征提取模型的模型参数进行调整，确定已训练的文本特征提取模型，将预训练的视频特征提取模型和已训练的文本特征提取模型作为视频文本检索模型，该视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。在本公开提供的技术方案中，对视频文本检索模型进行分步训练，即预训练出视频特征提取模型，在对视频特征提取模型进行训练时，需要调整的模型参数数量较少，因此可以保证预训练出的视频特征提取模型具有较高的性能；然后在进行文本特征提取模型的训练时，固定预训练的视频特征提取模型的模型参数，利用较为准确的至少一个第一损失值和至少一个第二损失值，对待训练的文本特征提取模型的模型参数进行梯度求解和更新，有效减少同时需要调整的模型参数数量，降低显存的消耗，从而使得在训练资源有限的情况下，允许使用更大的样本数训练文本特征提取模型，使得文本特征提取模型更容易收敛，保证已训练的文本提取模型具有较高的性能，基于该预训练的视频特征提取模型和已训练的文本提取模型，可以获取到性能较高的视频文本检索模型。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频文本检索模型的训练方法的流程图；

图2是根据一示例性实施例示出的一种视频文本检索方法的流程图；

图3是根据一示例性实施例示出的一种视频文本检索模型的训练装置的框图；

图4是根据一示例性实施例示出的一种视频文本检索装置的框图；

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频文本检索模型的训练方法的流程图，该视频文本检索模型的训练方法用于服务器端。具体地，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该方法具体包括以下步骤。

在步骤S11中，获取第一视频样本，以及所述第一视频样本对应的描述文本数据。

在本步骤中，第一视频样本为获取的用于进行模型训练的视频数据。每一第一视频样本对应有描述文本数据，描述文本数据用于体现第一视频样本的主要内容，可以为对第一视频样本的内容进行概括得到的词语。例如，存在第一视频样本A，第一视频样本A的描述文本数据可以为“宠物”，其中作为视频形式存在的第一视频样本A为一个模态数据，作为文本形式存在的“宠物”为一个模态数据，两个模态数据具有一一对应关系。

在步骤S12中，将所述第一视频样本输入预训练的视频特征提取模型，得到第一视频特征。

在本步骤中，预先进行视频特征提取模型的训练，得到预训练的视频特征提取模型，在预训练阶段可以充分利用训练资源，获取到较为准确的预训练的视频特征提取模型。从而将第一视频样本输入预训练的视频特征提取模型时，可以获取到准确性较高的第一视频特征，为获取到性能较高的视频文本检索模型提供前提条件。

具体地，获取第一视频样本的图像数据和内容文本数据；将图像数据和内容文本数据输入预训练的视频特征提取模型，得到第一视频特征。其中，图像数据为对第一视频样本进行分帧处理获取到的数据，内容文本数据是对第一视频样本进行视频语音识别和视频图像文字识别获取到的。通过对第一视频样本的图像数据和内容文本数据进行综合考虑，得到准确性更高的第一视频特征。需要说明的是，因第一视频特征和第一文本特征属于不同模态，因此为了后续准确地确定出第一视频特征和第一文本特征间的相似度，需要第一视频特征和第一文本特征处于同一空间，即视频-文本空间，因此预训练的视频特征提取模型的输出层输出的是处于视频-文本空间的第一视频特征。

在步骤S13中，将所述第一视频样本对应的描述文本数据输入待训练的文本特征提取模型，得到第一文本特征。

在本步骤中，待训练的文本特征提取模型是预先搭建的神经网络模型，该神经网络模型用于进行文本特征提取。将每个描述文本数据输入待训练的文本特征提取模型，预设文本特征提取模块的输出层输出的是处于视频-文本空间的第一文本特征。具体地，待训练的文本特征提取模型可以为bert模型。

在步骤14中，在所述第一视频特征和所述第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征；根据所述第二视频特征和所述第二文本特征，确定出至少一个第一损失值，根据所述第三视频特征和第三文本特征，确定出至少一个第二损失值；基于所述至少一个第一损失值和所述至少一个第二损失值，对所述待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型。

在本步骤中，至少一个第一损失值用于评价来源于同一第一视频样本的第二视频特征和第二文本特征间的差异，至少一个第二损失值用于评价来源于不同第一视频样本的第三视频特征和第三文本特征的差异。在获取到至少一个第一损失值和至少一个第二损失值后，在固定预训练的视频特征提取模型的模型参数的情况下，对待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型，已训练的文本特征提取模型为经过训练的符合训练结束条件的模型，训练结束条件可以为模型收敛。从而无需对预训练的视频特征提取模型的模型参数进行调整，充分利用训练资源对待训练的文本特征提取模型进行训练，获取到性能较高的文本特征提取模型。

在一实施例中，所述至少一个第一损失值包括第一视频文本损失值和第一文本视频损失值，所述步骤14中根据所述第一视频特征和所述第一文本特征，确定出至少一个第一损失值，包括：

在本实施例中，来源于同一第一视频样本的第二视频特征和第二文本特征为相匹配的第二视频特征和第二文本特征，即该第二视频特征与该第二文本特征应具有较高的相似度。例如将第i个第一视频样本输入预训练的视频特征提取模型，得到第i个第一视频特征，将第i个第一视频样本对应的第i个描述文本数据输入待训练的文本特征提取模型，得到第i个第一文本特征，第i个第一视频特征和第i个第一文本特征即为相匹配的第二视频特征和第二文本特征，均来源于第i个第一视频样本，虽然二者的模态不同，但是描述对象一致，因此二者应具有较高的相似度。

来源于同一第一视频样本的第二视频特征和第二文本特征间的相似度存在两种可能的情况，即第二视频特征与第二文本特征的第一视频文本相似度，和第二文本特征与第二视频特征的第一文本视频相似度，其中第一视频文本相似度用于表征以第二视频特征在先进行第二视频特征与第二文本特征间的相似度比较的结果，第一文本视频相似度用于表征以第二文本特征在先进行第二文本特征与第二视频特征间的相似度比较的结果。预先设置第一预设视频文本标签和第一预设文本视频标签，其中，第一预设视频文本标签用于表征以第二视频特征在先进行第二视频特征与第二文本特征间的相似度比较的标注数据；第一预设文本视频标签用于表征以第二文本特征在先进行第二文本特征与第二视频特征间的相似度比较的标注数据。以第一视频文本相似度为预测值，以第一预设视频文本标签为真实值，准确地确定出第一视频文本损失值；以第一文本视频相似度为预测值，以第一预设文本视频标签为真实值，准确地确定第一文本视频损失值。将第一视频文本损失值和第一文本视频损失值中的至少一个，作为第一损失值。

举例来说，确定来源于第i个第一视频样本的第二视频特征和第二文本特征，即第i个第一视频特征和第i个第一文本特征，第i个第一视频特征即

应与第i个第一文本特征即

最相似，将

与

进行点乘，点乘结果记为

为

与

的相似度分数即第一视频文本相似度，将

对应的标注数据即第一预设视频文本标签设置为1，根据

和

对应的标注数据，确定出第一视频文本损失值。相应的，第i个第一文本特征即

应与第i个第一视频特征即

最相似，将

与

进行点乘，点乘结果记为

为

与

的相似度分数即第一文本视频相似度，将

对应的标注数据即第一预设文本视频标签设置为1，根据

和

对应的标签，确定出第一文本视频损失值。

在一实施例中，所述确定所述第二视频特征和所述第二文本特征的第一视频文本相似度，和所述第二文本特征与所述第二视频特征的第一文本视频相似度，包括：

在本实施例中，在确定第一视频文本相似度和第一文本视频相似度前，先对第二视频特征和第二文本特征分别进行正则化处理，以减少第二视频特征和第二文本特征中的数据数量，防止过拟合情况的出现，在保留重要特征的同时，有效提高训练资源的使用效率。具体地，对第二视频特征进行L2正则化，获取正则化后的第二视频特征，对第二文本特征进行L2正则化处理，获取正则化后的第二文本特征。对正则化后的第二视频特征和正则化后的第二文本特征进行点乘，确定第二视频特征和第二文本特征的第一视频文本相似度；对正则化后的第二文本特征和正则化后的第二视频特征进行点乘，确定第二文本特征与第二视频特征的第一文本视频相似度。

在一实施例中，所述至少一个第二损失值包括第二视频文本损失值和第二文本视频损失值，所述步骤14中所述根据所述第三视频特征和第三文本特征，确定出至少一个第二损失值，包括：

在本实施例中，来源于不同第一视频样本的第一视频特征和第一文本特征为不相匹配的第三视频特征和第三文本特征，即该第三视频特征与该第三文本特征应具有较低的相似度，也就是说第三视频特征对应一个第一视频样本，第三文本特征对应另一个第一视频样本。例如将第i个第一视频样本输入预训练的视频特征提取模型，得到第i个第一视频特征，将第j个第一视频样本对应的第j个描述文本数据输入待训练的文本特征提取模型，得到第j个第一文本特征，第i个第一视频特征和第j个第一文本特征即为不相匹配的第三视频特征和第三文本特征，二者属于不同模态，且描述对象不一致，因此二者应具有较低的相似度。

来源于不同第一视频样本的第三视频特征和第三文本特征间的相似度存在两种可能的情况，即第三视频特征与第三文本特征的第二视频文本相似度，以及第三文本特征与第三视频特征的第二文本视频相似度，其中，第二视频文本相似度用于表征以第三视频特征在先进行第三视频特征与第三文本特征间的相似度比较的结果；第二文本视频相似度用于表征以第三文本特征在先进行第三文本特征与第三视频特征间的相似度比较的结果。预先设置第二预设视频文本标签和第二预设文本视频标签，其中，第二预设视频文本标签用于表征以第三视频特征在先进行第三视频特征与第三文本特征间的相似度比较的标注数据；第二预设文本视频标签用于表征以第三文本特征在先进行第三文本特征与所述第三视频特征间的相似度比较的标注数据。以第二视频文本相似度为预测值，以第二预设视频文本标签为真实值，准确地确定出第二视频文本损失值；以第二文本视频相似度为预测值，以第二预设文本视频标签为真实值，准确地确定第二文本视频损失值。将第二视频文本损失值和第二文本视频损失值中的至少一个，作为所述第二损失值。

举例来说，确定出来源不同的第一视频样本的第三视频特征和第三文本特征，如第i个第一视频特征和第j个第一文本特征，第i个第一视频特征即

与

以外的第一文本特征如第j个第一文本特征即

不相似，将

与

进行点乘，点乘结果记为s_j，i，s_j，i为

与

的相似度分数即第二视频文本相似度，将s_j，i对应的标注数据即第二预设视频文本标签设置为0，根据s_j，i和s_j，i对应的标注数据，确定出第二视频文本损失值。相应的，第i个第一文本特征即

应与

以外的第一视频特征如第j个第一视频特征即

不相似，将

与

进行点乘，点乘结果记为s_i，j，s_i，j为

与

的相似度分数即第二文本视频相似度，将s_i，j对应的标注数据即第二预设文本视频标签设置为0，根据s_i，j和s_i，j对应的标注数据，确定第二文本视频损失值。

在一实施例中，确定所述第三视频特征与所述第三文本特征的第二视频文本相似度，和所述第三文本特征与所述第三视频特征的第二文本视频相似度包括：

对所述正则化后的第三视频特征和所述正则化后的第三文本特征进行点乘，确定所述第三视频特征和所述第三文本特征的第二视频文本相似度；对所述正则化后的第三文本特征和所述正则化后的第三视频特征进行点乘，确定所述第三文本特征与所述第三视频特征的第二文本视频相似度。

在本实施例中，在确定第二视频文本相似度和第二文本视频相似度前，先对第三视频特征和第三文本特征分别进行正则化处理，以减少第三视频特征和第三文本特征中的数据数量，防止过拟合情况的出现，在保留重要特征的同时，有效提高训练资源的使用效率。具体地，对第三视频特征进行L2正则化，获取正则化后的第三视频特征，对第三文本特征进行L2正则化处理，获取正则化后的第三文本特征。对正则化后的第三视频特征和正则化后的第三文本特征进行点乘，确定第三视频特征和第三文本特征的第二视频文本相似度；对正则化后的第三文本特征和正则化后的第三视频特征进行点乘，确定第三文本特征与第三视频特征的第二文本视频相似度。

在一实施例中，在确定出第一视频文本损失值、第一文本视频损失值、第二视频文本损失值、第二文本视频损失值后，根据第一视频文本损失值、第一文本视频损失值、第二视频文本损失值和第二文本视频损失值对待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型。具体地，可以根据第一视频文本损失值和第二视频文本损失值，确定出第一交叉熵损失值，根据第一文本视频损失值和第二文本视频损失值，确定出第二交叉熵损失值，根据第一交叉熵损失值和第二交叉熵损失值，对待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型。

在步骤S15中，将所述预训练的视频特征提取模型和所述已训练的文本特征提取模型作为视频文本检索模型，所述视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。

在本步骤中，将预训练的视频特征提取模型和已训练的文本特征提取模型共同作为视频文本检索模型，视频文本检索模型中的预训练的视频特征提取模型可以用于视频特征的提取，视频文本检索模型中的已训练的文本特征提取模型可以用于文本特征的提取。

在上述实施例中，对视频特征提取模型进行预先训练，得到预训练的视频特征提取模型，从而在获取第一视频样本和第一视频样本对应的描述文本数据后，将第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；并将描述文本数据输入待训练的文本特征提取模型，得到第一文本特征。进一步在第一视频特征和第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征。根据第二视频特征和第二文本特征，确定出至少一个第一损失值，以及根据第三视频特征和第三文本特征，确定出至少一个第二损失值。利用至少一个第一损失值和至少一个第二损失值对待训练的文本特征提取模型的模型参数进行调整，确定已训练的文本特征提取模型，将预训练的视频特征提取模型和已训练的文本特征提取模型作为视频文本检索模型，该视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。在本公开提供的技术方案中，对视频文本检索模型进行分步训练，即预训练出视频特征提取模型，在对视频特征提取模型进行训练时，需要调整的模型参数数量较少，因此可以保证预训练出的视频特征提取模型具有较高的性能；然后在进行文本特征提取模型的训练时，固定预训练的视频特征提取模型的模型参数，利用较为准确的至少一个第一损失值和至少一个第二损失值，对待训练的文本特征提取模型的模型参数进行梯度求解和更新，有效减低同时需要调整的模型参数数量，有效降低显存的消耗，从而使得在训练资源有限的情况下，允许使用更大的样本数训练文本特征提取模型，使得文本特征提取模型更容易收敛，保证已训练的文本提取模型具有较高的性能，基于该预训练的视频特征提取模型和已训练的文本提取模型，可以获取到性能较高的视频文本检索模型。

在一实施例中，在所述步骤S12将所述第一视频样本输入预训练的视频特征提取模型，得到第一视频特征的步骤前，所述方法还包括：

在步骤16中，获取第二视频样本分别对应的图像数据、内容文本数据和预设分类标签。

在本步骤中，第二视频样本为训练数据，用于对待训练的视频特征提取模型进行训练。图像数据为对第二视频样本进行分帧处理获取到的数据，图像数据携带有丰富的图像信息。内容文本数据为第二视频样本中的各种文本内容。预设分类标签为每一第二视频样本预先筛选出的视频分类文本，为标注数据。

在一实施例中，所述步骤16中获取第二视频样本分别对应内容文本数据，包括：

在步骤161中，获取每一第二视频样本的视频语音识别结果和视频图像文字识别结果。

在步骤162中，基于所述视频语音识别结果以及所述视频图像文字识别结果，得到所述第二视频样本的内容文本数据。

在本实施例中，对第二视频样本进行视频语音识别，得到视频语音识别结果，对第二视频样本分帧处理后得到的图像进行文字识别，得到视频图像文字识别结果。对视频语音识别结果和视频图像文字识别结果进行拼接，得到第二视频样本的内容文本数据，该内容文本数据内容丰富，充分考虑各种可能存在的文字信息，避免对重要文字信息的遗漏。

步骤17，将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征。

在本步骤中，对图像数据和内容文本数据进行充分考虑，获取到准确性较高的预训练中的视频特征。

在一实施例中，所述步骤17将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征，包括：

在步骤171中，将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到图像特征和预训练中的文本特征。

具体地，待训练的视频特征提取模型包括视频特征提取模块和文本特征提取模块，将图像数据输入视频特征提取模块，得到图像特征，内容文本数据输入文本特征提取模块，得到预训练中的文本特征。其中，视频特征提取模块可以为resnet-50(一种残差网络结构)，文本特征提取模块可以为bert网络。

在步骤172中，将所述图像特征和所述预训练中的文本特征进行特征融合，得到预训练中的视频特征。

在本步骤中，对图像特征和预训练中的文本特征进行特征融合，得到融合了多模态特征的预训练中的视频特征。具体地，利用多头注意力模块融合图像特征和预训练中的文本特征，得到预训练中的视频特征。

步骤18，基于由所述预训练中的视频特征和所述预设分类标签对应的第三损失值，对所述待训练的视频特征提取模型的模型参数进行调整，得到预训练的视频特征提取模型。

在本步骤中，预设分类标签为预先筛选出的视频分类文本，待训练的视频特征提取模型为预先搭建的神经网络模型，该神经网络模型用于进行视频特征的提取。利用预训练中的视频特征和预设分类标签确定第三损失值，具体地损失函数可以为交叉熵函数，该第三损失值可以准确地表示预训练中的视频特征和预设分类标签间的差异，基于第三损失值，对待训练的视频特征提取模型的模型参数进行调整，得到预训练的视频特征提取模型。在本实施例中，可以充分利用训练资源对视频特征提取模型进行训练，训练出性能较高的视频特征提取模型。

图2是根据一示例性实施例示出的一种视频文本检索方法的流程图，该方法包括如下步骤：

在步骤21中，获取待检索数据，所述待检索数据为视频检索数据或文本检索数据。

在步骤22中，将所述待检索数据输入视频文本检索模型，得到目标检索数据；在所述待检索数据为视频检索数据的情况下，所述目标检索数据为目标文本数据；在所述待检索数据为文本检索数据的情况下，所述目标检索数据为目标视频数据。

在本实施例中，待检索数据为用户的输入内容，该待检索数据存在两种可能的形式，即视频检索数据和文本检索数据，将该待检索数据输入到视频文本检索模型，即可以获取到与待检索数据模态不同的目标检索数据。也就是说在待检索数据为视频检索数据的情况下，目标检索数据为目标文本数据，在待检索数据为文本检索数据的情况下，目标检索数据为目标视频数据。

在一种可能的实现方式中，在待检索数据为视频检索数据的情况下，将待检索数据输入视频文本检索模型中的视频特征提取模型，得到第一视频特征。将候选文本数据输入视频文本检索模型中的文本特征提取模型，得到第一文本特征。基于所述第一视频特征和所述第一文本特征的相似度信息，在候选文本数据中确定出目标检索数据。例如，将相似度信息大于设定相似度阈值或相似度信息最大的候选文本数据作为目标检索数据，实现利用视频数据检索出文本数据。

在一种可能的实现方式中，在待检索数据为文本检索数据的情况下，将待检索数据输入视频文本检索模型中的文本特征提取模型，得到第二文本特征。将候选视频数据输入视频文本检索模型中的视频特征提取模型，得到第二视频特征。基于第二文本特征和所述第二视频特征的相似度信息，在候选视频数据中确定出目标检索数据。例如将相似度信息大于设定相似度阈值或相似度信息最大的候选视频数据作为目标检索数据，实现利用文本数据检索出视频数据。

图3是根据一示例性实施例示出的一种视频文本检索模型的训练装置的框图。该装置包括数据获取模块31、第一提取模块32、第二提取模块33、损失确定模块34、模型获取模块35。

数据获取模块31，被配置为获取第一视频样本，以及所述第一视频样本对应的描述文本数据；

第一提取模块32，被配置为将所述第一视频样本输入预训练的视频特征提取模型，得到第一视频特征；

第二提取模块33，被配置为将所述第一视频样本对应的描述文本数据输入待训练的文本特征提取模型，得到第一文本特征；

损失确定模块34，被配置为在所述第一视频特征和所述第一文本特征中，确定出来源于同一第一视频样本的第二视频特征和第二文本特征，以及来源于不同第一视频样本的第三视频特征和第三文本特征；根据所述第二视频特征和第二文本特征，确定出至少一个第一损失值，根据所述第三视频特征和第三文本特征，确定出至少一个第二损失值；基于所述至少一个第一损失值和所述至少一个第二损失值，对所述待训练的文本特征提取模型的模型参数进行调整，得到已训练的文本特征提取模型；

模型获取模块35，被配置为将所述预训练的视频特征提取模型和所述已训练的文本特征提取模型作为视频文本检索模型，所述视频文本检索模型用于基于视频检索数据检索出目标文本数据，基于文本检索数据检索出目标视频数据。

在本公开一示例性实施例中，所述损失确定模块，包括：

在本公开一示例性实施例中，所述第一相似度确定单元，包括：

相似度确定子单元，被配置为对所述正则化后的第二视频特征和所述正则化后的第二文本特征进行点乘，确定所述第二视频特征和所述第二文本特征的第一视频文本相似度；对所述正则化后的第二文本特征和所述正则化后的第二视频特征进行点乘，确定所述第二文本特征与所述第二视频特征的第一文本视频相似度。

在本公开一示例性实施例中，所述损失确定模块，包括：

在本公开一示例性实施例中，所述装置还包括：预训练模块，所述预训练模块，包括：

在本公开一示例性实施例中，所述特征提取单元，包括：

在本公开一示例性实施例中，所述数据获取单元，包括：

图4是根据一示例性实施例示出的一种视频文本检索装置的框图。该装置包括，数据获取模块和数据检索模块。

该数据获取模块41，被配置为获取待检索数据，所述待检索数据为视频检索数据或文本检索数据；

该数据检索模块42，被配置为将所述待检索数据输入视频文本检索模型，得到目标检索数据；在所述待检索数据为视频检索数据的情况下，所述目标检索数据为目标文本数据；在所述待检索数据为文本检索数据的情况下，所述目标检索数据为目标视频数据；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备的框图，该电子设备可以服务器或者类似的运算装置。参照图5，电子设备500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述视频文本检索模型的训练方法或视频文本检索方法。

电子设备500还可以包括一个电源组件526被配置为执行电子设备500的电源管理，一个有线或无线网络接口550被配置为将电子设备500连接到网络，和一个输入输出(I/O)接口558。电子设备500可以操作基于存储在存储器532的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器532，上述指令可由电子设备500的处理组件522执行以完成上述视频文本检索模型的训练方法或视频文本检索方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述的视频文本检索模型的训练方法或视频文本检索方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频文本检索模型的训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述至少一个第一损失值包括第一视频文本损失值和第一文本视频损失值，所述根据所述第二视频特征和第二文本特征，确定出至少一个第一损失值，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述第二视频特征与所述第二文本特征的第一视频文本相似度，和所述第二文本特征与所述第二视频特征的第一文本视频相似度，包括：

4.根据权利要求1所述的方法，其特征在于，所述至少一个第二损失值包括第二视频文本损失值和第二文本视频损失值，所述根据所述第三视频特征和所述第三文本特征，确定出至少一个第二损失值，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，在所述将第一视频样本输入预训练的视频特征提取模型，得到第一视频特征的步骤前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述图像数据和所述内容文本数据输入待训练的视频特征提取模型，得到预训练中的视频特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述获取第二视频样本分别对应内容文本数据，包括：

8.一种视频文本检索方法，其特征在于，包括：

其中，所述视频文本检索模型根据权利要求1-7中任一项所述的视频文本检索模型的训练方法得到。

9.一种视频文本检索模型的训练装置，其特征在于，包括如下模块：

10.一种视频文本检索装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的视频文本检索模型的训练方法，或如权利要求8所述的视频文本检索方法。

12.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的视频文本检索模型的训练方法，或如权利要求8项所述的视频文本检索方法。