CN114969439A

CN114969439A - 一种模型训练、信息检索方法及装置

Info

Publication number: CN114969439A
Application number: CN202210744762.7A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-08-30

Abstract

本发明实施例提供了一种模型训练、信息检索方法及装置，涉及数据处理技术领域。方案为：获得样本检索文本多个单元信息的样本文本特征、及样本视频数据多个单元信息的样本视觉特征；获得初始模型对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；获得待训练模型对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征；获得初始文本融合特征与调优文本融合特征间的文本特征映射误差、初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；基于文本特征映射误差、视觉特征映射误差及样本标注，调整模型参数。本方案能检索与文本模态不同的视频数据。

Description

一种模型训练、信息检索方法及装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种模型训练、信息检索方法及装置。

背景技术

用户在信息平台上进行检索获取视频数据时，通常会输入描述视频内容的检索文本，例如视频的主题关键字等，信息平台会将检索文本与各视频数据进行对比，将与检索文本内容相近的视频数据作为检索结果提供给用户。在此过程中，可以使用网络模型对检索文本与各视频数据进行对比。所使用的网络模型需要预先进行训练，以提高对比结果的准确性。

在上述网络模型的训练过程中，网络模型的模型参数会被调整，调整时模型参数不同的情况下，网络模型对比结果不稳定，部分情况下调整过的模型参数使得网络模型对比结果的准确性降低，影响了训练效果。

因此，需要一种模型训练方案，提高网络模型的稳定性。

发明内容

本发明实施例的目的在于提供一种模型训练、信息检索方法及装置，以检索与检索文本模态不同的视频数据。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种模型训练方法，所述方法包括：

获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征；

将各样本文本特征和各样本视觉特征输入初始模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；

将各样本文本特征和各样本视觉特征输入待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，所述待训练模型为：对所述初始模型进行预训练得到的模型；

获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差、所述初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；

基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，其中，所述样本标注表征所述样本视频数据是否为所述样本检索文本的检索结果的标注信息。

在本发明实施的第二方面，还提供了一种信息检索方法，所述方法包括：

获得检索文本中多个单元信息的文本特征、以及视频数据中多个单元信息的视觉特征；

将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据上述所述的模型训练方法训练得到的模型。

在本发明实施的第三方面，还提供了一种模型训练装置，所述装置包括：

样本特征获得模块，用于获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征；

初始融合特征获得模块，用于将各样本文本特征和各样本视觉特征输入初始模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；

调优融合特征获得模块，用于将各样本文本特征和各样本视觉特征输入待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，所述待训练模型为：对所述初始模型进行预训练得到的模型；

映射误差获得模块，用于获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差、所述初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；

模型参数调整模块，用于基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，其中，所述样本标注表征所述样本视频数据是否为所述样本检索文本的检索结果的标注信息。

在本发明实施的第四方面，还提供了一种信息检索装置，所述装置包括：

特征获得模块，用于获得检索文本中多个单元信息的文本特征、以及视频数据中多个单元信息的视觉特征；

检索结果检测模块，用于将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据上述所述的模型训练装置训练得到的模型。

在本发明实施的第五方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述所述的模型训练或信息检索方法步骤。

在本发明实施的第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的模型训练或信息检索方法。

在本发明实施的第七方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的模型训练或信息检索方法。

由上可见，应用本发明实施例提供的方案对待训练模型进行训练时，考虑了表征样本视频数据是否为样本检索文本的检索结果的样本标注，这样通过训练能够使得待训练模型学习到属于样本检索文本的检索结果的样本视频数据的特点，从而使得上述模型具有检测对象数据是否为检索请求的检索结果的能力。

另外，应用本发明实施例提供的方案对待训练模型进行训练时，还考虑了启动训练之前的待训练模型也就是初始模型在响应检索请求过程中对特征进行融合的情况。具体是通过初始模型以及待训练模型对相同特征进行融合后所得融合特征之间的映射误差，约束待训练模型的训练过程，使得待训练模型经过参数调整后，依然具有与初始模型相似的特征融合能力，这样可以有效减少模型训练过程引入的模型性能波动。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的第一种模型训练方法的流程示意图。

图2为本发明实施例提供的第二种模型训练方法的流程示意图。

图3为本发明实施例提供的第三种模型训练方法的流程示意图。

图4为本发明实施例提供的第四种模型训练方法的流程示意图。

图5为本发明实施例提供的信息检索方法的流程示意图。

图6为本发明实施例提供的一种模型训练装置的结构示意图。

图7为本发明实施例提供的一种信息检索装置的结构示意图。

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

在训练用于信息检索的网络模型的过程中，网络模型的模型参数受到调整会使得网络模型不稳定，为了提高网络模型的稳定性，本发明实施例提供了一种模型训练、信息检索方法及装置，下面分别进行介绍。

本发明的一个实施例中，提供了一种模型训练方法，该方法包括：

将各样本文本特征和各样本视觉特征输入初始模型检测样本视频数据是否为样本检索文本的检索结果，获得初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；

将各样本文本特征和各样本视觉特征输入待训练模型检测样本视频数据是否为样本检索文本的检索结果，获得待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，待训练模型为：对初始模型进行预训练得到的模型；

获得初始文本融合特征与调优文本融合特征间的文本特征映射误差、初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；

基于文本特征映射误差、视觉特征映射误差以及样本标注，调整待训练模型的模型参数，其中，样本标注表征样本视频数据是否为样本检索文本的检索结果的标注信息。

下面通过具体实施例对本发明实施例提供的模型训练方法进行详细说明。

参见图1，本发明的一个实施例中，提供了第一种模型训练方法的流程示意图，该方法包括以下步骤S101-S105。

步骤S101：获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征。

其中，样本检索文本与样本视频数据的模态不同。模态表示信息的存在形式。存在形式可以是文本、图像等。例如，样本检索文本的模态为文本，样本视频数据的模态为图像，此种情况下训练的模型可以根据用户输入的文本形式的检索请求检索包含图像信息的视频素材。

上述单元信息可以是样本检索文本或者样本视频数据的全部信息，也可以是样本检索文本或者样本视频数据的部分信息。例如，样本检索文本为描述待检索内容的语句，则单元信息可以整个语句，也可以是从语句中提取的关键词等。

在单元信息为样本检索文本或者样本视频数据的部分信息的情况下，对样本检索文本或者样本视频数据进行采样，可以得到单元信息。采样的方式可以是随机抽取样本检索文本或者样本视频数据中的部分信息，也可以是按照预设的规则抽取样本检索文本或者样本视频数据中的部分信息。例如，样本检索文本为一段字符串，预设的规则可以是在字符串中，按照固定的字符间隔抽取样本检索文本中的字符，例如每隔一个字符或者两个字符抽取样本检索文本中的一个字符等；又例如，样本视频数据为视频数据，预设的规则可以是按照固定的时域间隔从视频数据中抽取帧图像等。

上述样本文本特征可以由样本检索文本所包含的单元信息进行特征提取得到，具体地，可以根据样本检索文本的模态，确定所需的网络模型，并将样本检索文本的单元信息输入所确定的网络模型，得到样本文本特征。例如所需的网络模型为多语言BERT(Bidirectional Encoder Representation from Transformers)模型。

上述样本视觉特征可以由样本视频数据所包含的单元信息进行特征提取得到，具体地，可以根据样本视频数据的模态，确定所需的网络模型，并将样本视频数据的单元信息输入所确定的网络模型，得到样本视觉特征。例如，对样本视频数据进行特征提取时可以采用从视频数据中提取的关键帧图像，对应的，模态为图像，因此可以确定所需的网络模型为图像处理模型，具体的模型类型可以为卷积神经网络模型或者ViT(Vision Transformer)模型。

步骤S102：将各样本文本特征和各样本视觉特征输入初始模型检测样本视频数据是否为样本检索文本的检索结果，获得初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征。

具体的，初始模型检测样本视频数据是否为样本检索文本的检索结果，可以根据初始文本融合特征和初始视觉融合特征的相似度进行判断，例如，在初始文本融合特征和初始视觉融合特征的相似度达到预设的相似度阈值的情况下，将样本视频数据确定为样本检索文本的检索结果。

其中，上述初始模型为检测样本视频数据和样本检索文本描述内容是否相似的网络模型，且具有的模型参数的参数值为进行模型训练之前的参数值。

本发明的一个实施例中，初始模型在检测样本视频数据是否为样本检索文本的检索结果过程中，可以先对输入该模型的各个特征进行特征融合，然后基于融合后的特征进行检索。基于此，可以认为初始模型中包含用于进行特征融合的融合子模型，因此，可以将各样本文本特征输入上述融合子模型进行融合，得到初始文本融合特征，融合方式可以是将表示各样本文本特征的向量进行拼接、相加等。使用的融合子模型可以是双向LSTM(LongShort-Term Memory，长短期记忆)模型、双向GRU(Gate Recurrent Unit，门控循环单元)模型等网络模型。

初始视觉融合特征的获得方式类似上述初始文本融合特征的获得方式，区别仅在于初始视觉融合特征与初始文本融合特征、样本视觉特征与样本文本特征等名称概念上的替换，此处不再详述。

由于初始模型未经训练，其包括的融合子模型也未经训练，模型参数未通过训练过程进行调优，在此情况下，得到的初始文本融合特征为调优前文本特征，得到的初始视觉融合特征为调优前视觉特征。

步骤S103：将各样本文本特征和各样本视觉特征输入待训练模型检测样本视频数据是否为样本检索文本的检索结果，获得待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征。

其中，待训练模型为：对初始模型进行预训练得到的模型。因此，待训练模型和初始模型具有相同的模型结构，待训练模型由初始模型调整模型参数后得到。

在待训练模型中，检测样本视频数据是否为样本检索文本的检索结果，以及得到调优文本融合特征和调优视觉融合特征的方式类似步骤S102，区别仅在于调优文本融合特征与初始文本融合特征、调优视觉融合特征与初始视觉融合特征等名称概念上的替换，此处不再详述。

由于待训练模型经过训练，其包括的融合子模型也经过训练，模型参数通过训练过程进行调优，在此情况下，得到的调优文本融合特征为调优后文本特征，调优视觉融合特征为调优后视觉特征。

步骤S104：获得初始文本融合特征与调优文本融合特征间的文本特征映射误差、初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差。

本发明的一个实施例中，可以将初始文本融合特征和调优文本融合特征以低维向量空间中的向量表示，计算初始文本融合特征和初始视觉融合特征对应的向量表示之间的差异，作为上述文本特征映射误差。

视觉特征映射误差的获得方式与文本特征映射误差类似，区别仅在于初始视觉融合特征与初始文本融合特征、调优视觉融合特征与调优文本融合特征等名称概念上的替换，不再详述。

具体地计算映射误差的方式可以参考下述图3所示实施例的步骤，此处暂不详述。

步骤S105：基于文本特征映射误差、视觉特征映射误差以及样本标注，调整待训练模型的模型参数。

其中，样本标注表征样本视频数据是否为样本检索文本的检索结果的标注信息。本发明实施例提供的方案中，可以采用标注样本视频数据是样本检索文本的检索结果的正样本和标注样本视频数据不是样本检索文本的检索结果的负样本对待训练模型进行训练。

具体的，模型的输出信息表示样本视频数据是否为所述样本检索文本的检索结果，基于模型的输出信息与样本标注之间的误差、文本特征映射误差、视觉特征映射误差计算模型的总损失，通过最小化总损失的方式，调整待训练模型的模型参数，即将网络模型的各模型参数的取值设置为总损失最小化情况下的取值，从而实现对网络模型的训练。具体的，最小化总损失时，可以基于梯度下降法、随机梯度下降法等算法最小化总损失。

由上可见，应用本发明实施例提供的方案对待训练模型进行训练时，考虑了表征样本视频数据是否为样本检索文本的检索结果的样本标注，这样通过训练能够使得待训练模型学习到属于样本检索文本的检索结果的样本视频数据的特点，从而使得上述模型具有检测视频数据是否为检索文本的检索结果的能力。

下面结合图2所示的实施例介绍一种模型训练方法。其中，前述步骤S105，可以通过下述实施例中的步骤S205-S206实现。

参见图2，本发明的一个实施例中，提供了第二种模型训练方法，该方法包括以下步骤S201-S206。

步骤S201：获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征。

步骤S202：将各样本文本特征和各样本视觉特征输入初始模型检测样本视频数据是否为样本检索文本的检索结果，获得初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征。

步骤S203：将各样本文本特征和各样本视觉特征输入待训练模型检测样本视频数据是否为样本检索文本的检索结果，获得待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征。

其中，待训练模型为：对初始模型进行预训练得到的模型。

步骤S204：获得初始文本融合特征与调优文本融合特征间的文本特征映射误差、初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差。

上述步骤S201-S204分别与前述步骤S101-S104一致，此处不再详述。

步骤S205：根据调优文本融合特征和调优视觉融合特征，获得待训练模型检测样本视频数据是否为样本检索文本的检索结果的度量误差。

由于调优文本融合特征是根据样本检索文本中单元信息的样本文本特征得到的，调优视觉融合特征是根据样本视频数据中单元信息的样本视觉特征得到的，当样本视频数据是样本检索文本的检索结果的情况下，期望待训练模型得到的调优文本融合特征与调优视觉融合特征之间的误差较小；而当样本视频数据的情况下，期望待训练模型得到的调优文本融合特征与调优视觉融合特征之间的误差较大，为此，本步骤中根据调优文本融合特征和调优视觉融合特征获得度量误差，并通过度量误差与期待的调优文本融合特征与调优视觉融合特征之间的误差对比，调整模型参数，使得调优文本融合特征与调优视觉融合特征之间的误差符合期待值。

本发明的一个实施例中，可以将表示调优文本融合特征的特征向量与表示调优视觉融合特征的特征向量映射到同一向量空间中，在该向量空间中形成表示调优文本融合特征的映射向量和表示调优视觉融合特征的映射向量，再计算所得映射向量之间的差异，作为度量误差。

一种实现方式中，可以选择一个以上的向量空间，在所选的各向量空间中完成上述映射过程，得到各向量空间中的表示调优文本融合特征的映射向量以及表示调优视觉融合特征的映射向量，再基于每个向量空间中的各映射向量计算该向量空间下的子误差，基于所有子误差，生成度量误差。

计算度量误差的具体实现方式可以参见下述实施例中的步骤，此处暂不详述。

步骤S206：基于文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整待训练模型的模型参数。

调整待训练模型的模型参数的方式类似上述步骤S105，区别仅在于上述总损失中还包含本步骤中的度量误差，此处不再详述。

由上可见，本发明实施例提供的方案中，在调整模型参数时使用了根据调优文本融合特征和调优视觉融合特征得到的度量误差，使得调整模型参数后，调优文本融合特征和调优视觉融合特征得到的度量误差更为符合调优文本融合特征与调优视觉融合特征之间的预期误差，在此情况下使用调优文本融合特征和调优视觉融合特征判断样本检索文本和样本视频数据之间的关系更为准确。

下面对步骤S205中度量误差的具体获得方式进行说明。

本发明的一个实施例中，上述步骤S205，可以通过以下三种方式实现：

一种实现方式中，可以计算调优文本融合特征和调优视觉融合特征之间的差异，作为待训练模型检测样本视频数据是否为样本检索文本的检索结果的度量误差。

具体的，调优文本融合特征和调优视觉融合特征之间的差异，可以通过表示调优文本融合特征的映射向量与表示调优视觉融合特征的映射向量得到，例如，可以是计算上述映射向量的距离或者相似度系数等，本发明实施例并不对此进行限定。

另一种实现方式中，可以获得反映样本检索文本中单元信息出现频次分布的分布特征，根据分布特征、调优文本融合特征和调优视觉融合特征，获得待训练模型检测样本视频数据是否为样本检索文本的检索结果的度量误差。

上述分布特征表示单元信息在样本检索文本中出现的频次，可以通过统计样本检索文本中各分词的出现次数获得。

根据分布特征、调优文本融合特征和调优视觉融合特征获得度量误差的具体实现方式可以参见下述实施例中的步骤，此处暂不详述。

又一种实现方式中，可以同时使用上述两种实现方式中计算得到的度量误差作为子误差，并基于各子误差生成总的度量误差，例如，对各子误差进行线性加权计算，将线性加权和作为总的度量误差。

由上可见，本发明实施例提供的方案中，采用不同的实现方式计算度量误差。一种实现方式中，计算调优文本融合特征和调优视觉融合特征之间的差异作为度量误差，使得根据度量误差进行参数调整后，待训练模型得到的调优文本融合特征和调优视觉融合特征在表示样本视频数据是否为样本检索文本的检索结果时更为准确；另一种实现方式中，在计算度量误差时使用了分布特征。分布特征保留了样本检索文本中单元信息的频次分布，并不使用所有单元信息中的全部特征信息，使得分布特征具有的特征维度较低，在使用分布特征计算度量误差时计算复杂度较低；又一种实现方式中，同时使用上述两种方式计算的度量误差生成总的度量误差，使得生成度量误差所参考的信息更为充分，计算误差更为准确。

下面对根据分布特征、调优文本融合特征和调优视觉融合特征获得度量误差的具体实现方式进行说明。

本发明的一个实施例中，根据分布特征、调优文本融合特征和调优视觉融合特征，获得待训练模型检测样本视频数据是否为样本检索文本的检索结果的度量误差，包括：

基于分布特征与调优文本融合特征之间的差异、以及分布特征与调优视觉融合特征之间的差异，生成待训练模型检测样本视频数据是否为样本检索文本的检索结果的度量误差。

具体的，可以按照下述公式计算分布特征与调优文本融合特征之间的差异：

MSE(Y-MFC(V))

其中，MSE()表示均方误差函数，均方误差函数的计算结果即为度量误差，Y表示分布特征，V表示调优文本融合特征，MFC(V)表示基于至少一个全连接层对V进行级联的线性变换，MFC(V)中每个全连接层的线性变换的运算形式为W*V+b，W表示预设的线性变换矩阵，b表示偏置项。

计算分布特征与调优视觉融合特征之间的差异，其计算方式类似计算分布特征与调优文本融合特征之间的差异，区别仅在于调优视觉融合特征与调优文本融合特征等名称概念上的替换，此处不再详述。

一种实现方式中，可以通过计算分布特征与调优文本融合特征、调优视觉融合特征之间的差异的线性加权和，将所得线性加权和作为度量误差。

由上可见，本发明实施例提供的方案中，在生成度量误差的过程中使用了分布特征，因为分布特征的特征维度较低，通过线性变换计算分布特征与第三融合特征的差异时，第三融合特征具有的特征维度与分布特征的特征维度一致，同理第四融合特征具有的特征维度与分布特征的特征维度一致，计算度量误差的各特征均具有较低的特征维度，降低了计算复杂度。

下面结合图3所示的实施例介绍一种模型训练方法。其中，前述步骤S104，可以通过下述实施例中的步骤S304-S306实现。

参见图3，本发明的一个实施例中，提供了第三种模型训练方法的流程示意图，该方法包括以下步骤S301-S307：

步骤S301：获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征。

步骤S302：将各样本文本特征和各样本视觉特征输入初始模型检测样本视频数据是否为样本检索文本的检索结果，获得初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征。

步骤S303：将各样本文本特征和各样本视觉特征输入待训练模型检测样本视频数据是否为样本检索文本的检索结果，获得待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征。

上述步骤S301-S303分别与前述步骤S101-S103一致，此处不再详述。

步骤S304：将初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将调优文本融合特征映射至流形空间得到调优文本映射特征。

本发明的一个实施例中，可以对初始文本融合特征进行PCA(PrincipalComponent Analysis，主成分分析)变换，得到对应的初始降维向量，对调优文本融合特征进行PCA变换，得到对应的调优降维向量，再通过SVD(Singular Value Decomposition，奇异值分解)，得到初始文本映射特征和调优文本映射特征。

具体地，可以按照如下公式完成上述过程：

公式1：

公式2：

R^TP_t＝-U₂Σ(1)V^T

上述公式1中，P_t-1表示初始降维向量，P_t表示调优降维向量，U₁为

所得矩阵的特征向量组成的矩阵，V^T为

所得矩阵的特征向量组成的矩阵的转置矩阵。Γ(1)为对角矩阵，且包含

所得矩阵的奇异值。

上述公式2中，R^T为调优降维向量的正交补集的转置矩阵。U₂为R^TP_t所得矩阵的第一组特征向量组成的矩阵，V^T为R^TP_t所得矩阵的第二组特征向量组成的矩阵的转置矩阵，Σ(1)为对角矩阵，且包含R^TP_t所得矩阵的奇异值。

根据公式1和公式2中奇异值分解得到的V，可以对初始降维向量和调优降维向量进行投影，得到初始文本映射特征和调优文本映射特征。

步骤S305：基于初始文本映射特征与调优文本映射特征间的差异，获得初始文本融合特征与调优文本融合特征间的文本特征映射误差。

本发明的一个实施例中，可以根据初始文本映射特征与调优文本映射特征在流形空间中的相对关系，计算文本流形映射误差，即基于流形空间得到的文本特征映射误差。

文本特征映射误差的具体计算方式参见下述实施例中的步骤，此处暂不详述。

步骤S306：获得初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差。

视觉特征映射误差的计算方式与步骤S304-305中文本特征映射误差的计算方式类似，区别仅在于视觉特征映射误差与文本特征映射误差、初始视觉融合特征与初始文本融合特征、调优视觉融合特征与调优文本融合特征等名称概念上的替换。类似的，可以根据初始视觉映射特征与调优视觉映射特征在流形空间中的相对关系，计算视觉流形映射误差，即基于流形空间得到的视觉特征映射误差。

步骤S307：基于文本特征映射误差、视觉特征映射误差以及样本标注，调整待训练模型的模型参数。

上述步骤S307与前述步骤S105一致，此处不再详述。

由上可见，本发明实施例提供的方案中，计算文本特征映射误差使用了变换矩阵，变换矩阵用于将第三特征向量变换为文本特征向量，反映了调优文本融合特征和初始文本融合特征的变化程度，通过在训练中最小化文本特征映射误差，可以相应地减小变换矩阵表示的变化程度，保证了初始文本融合特征和调优文本融合特征的相似性，又因为初始文本融合特征表示初始模型的融合特征，调优文本融合特征表示待训练模型输出的融合特征，所以本方案能够保证初始模型的特征融合能力与待训练模型的特征融合能力相似，提高了模型训练的稳定性。

下面对步骤S305中文本特征映射误差的具体获得方式进行说明。

本发明的一个实施例中，上述步骤S305，具体可以按照如下方式实现：

确定从初始文本映射特征变换至调优文本映射特征的变换关系；根据初始文本融合特征、调优文本融合特征以及变换关系，生成初始文本融合特征与调优文本融合特征间的文本特征映射误差。

具体的，上述变换关系可以表示为上述公式1和公式2中所得奇异值计算的变换矩阵，具体地，可以参考下述公式进行计算：

Δ＝[P_t-1U₁ RU₂]

不失一般性地，假设得到奇异值n个，按照一定顺序形成序列，上述公式中的i表示对序列中第i个奇异值进行的计算，i可以是1,2……n中任一个整数。

上述公式中，ω_i表示第i个奇异值对应的角变量。P_t-1、U₁、R、U₂所表示含义与前述公式1和公式2中的同名参数表示含义相同。

Q为变化矩阵，λ₁的形成方式为：按照λ_1i的计算方法，对于所得的所有n个奇异值，计算第一个奇异值对应的λ₁₁、第二个奇异值对应的λ₁₁……计算第n各奇异值λ_1n，基于计算所得的所有值形成对角矩阵λ₁。

λ₂、λ₃与λ₁的形成方式类似，区别仅在于λ_2i、λ_3i与λ_1i等名称概念上的替换，此处不再详述。

所得变换矩阵Q可以用于计算文本特征映射误差，具体可以按照下述公式计算：

其中，L_GeoDL表示文本特征映射误差，z_t表示调优文本融合特征，z_t-1表示初始文本融合特征。

由上可见，本发明实施例提供的方案中，使用了调优文本融合特征、初始文本融合特征对应的映射特征间的变换关系，使得计算损失时能够参考映射特征间的差异，又因为在流形空间中得到的映射特征能够准确地保留原有的融合特征，所以，根据从初始文本映射特征变换至调优文本映射特征的变换关系所表示的映射特征间的差异，能够准确地反映调优文本融合特征和初始文本融合特征之间的误差，增加了计算误差的可靠性。

下面基于图4所示实施例对初始模型和待训练模型的完整训练过程进行说明。

本发明的一个实施例中，参见图4，提供了第四种模型训练方法的流程示意图。

其中，视频序列流程上的初始模型和文本序列流程上的初始模型为同一模型，即前述实施例中的初始模型，用于分别对视频序列和文本序列的不同特征进行处理；同理，视频序列流程上的待训练模型和文本序列流程上的待训练模型为同一模型；其中，上述初始模型可以未通过模型训练对模型参数进行调优的待训练模型；相应的，图中待训练模型由对上述待训练模型经过预训练得到。

初始模型可以是RNN(Recurrent Neural Network，循环神经网络)模型，相应地，预训练得到的待训练模型为与初始模型具有相同模型结构的RNN模型，区别在于模型参数的参数值不同。

图中文本序列为样本检索文本，视频序列为样本视频数据。

在文本序列流程中，获得文本序列中的多个单元信息，包括对文本序列进行分词得到的词语1、词语2，将文本序列中的整个语句、词语1、词语2输入多语言BERT模型，得到样本文本特征，为图中所示的文本整句特征、文本序列特征1、文本序列特征2。将文本整句特征、文本序列特征1、文本序列特征2输入初始模型，可以得到对输入的特征进行融合后的初始文本融合特征，将文本整句特征、文本序列特征1、文本序列特征2输入待训练模型，可以得到对输入的特征进行融合后的调优文本融合特征。获得调优文本特征和文本特征的文本特征映射误差。

在视频序列流程中，获得视频序列中的多个单元信息，即为图像1，图像2，将图像1和图像2输入CNN模型或者ViT模型，得到样本视觉特征，包括从图像1中提取得到的视觉特征1、从图像2中提取得到的视觉特征2。将视觉特征1、视觉特征2输入初始模型，可以得到对输入的特征进行融合后的初始视觉融合特征；将视觉特征1、视觉特征2输入待训练模型，可以得到对输入的特征进行融合后的调优视觉融合特征，获得调优前视觉特征和视觉特征的视觉特征映射误差。

在文本序列流程上，可以得到文本序列对应的分词序列，根据分词序列的出现频率得到分布特征，分布特征表示为图中的文本标签向量。

得到调优文本融合特征和调优视觉融合特征后，通过全连接层MFC_V1和全连接层MFC_T1，将表示调优文本融合特征和和调优视觉融合特征的特征向量映射到预设的隐含层的向量空间中，得到各特征向量在隐含层的向量空间中的映射向量，并计算映射向量间的误差，即图中特征误差度量模块所得的度量误差；并通过全连接层MFC_V2和全连接层MFC_T2将表示调优文本融合特征和和视觉特征的特征向量到文本标签向量所处的向量空间中，计算调优文本融合特征和、调优视觉融合特征、文本标签向量之间的误差，即图中标签误差度量模块所得的度量误差。

最后，根据所得视觉流形映射误差、文本流形映射误差、各度量误差，以及预设的样本标注，调整待训练模型的模型参数，实现模型训练。

参见图5，本发明的一个实施例中，提供了一种信息检索方法的流程示意图，该方法包括以下步骤S501-S502：

步骤S501：获得检索文本中多个单元信息的文本特征、以及视频数据中多个单元信息的视觉特征。

其中，检索文本与视频数据的模态不同。

获得文本特征、视觉特征的方式与前述步骤S101中获得样本文本特征、样本视觉特征类似，区别仅在于文本特征与样本文本特征、视觉特征与样本视觉特征、检索文本与样本检索文本、视频数据与样本视频数据等名称概念上的替换，此处不再详述。

步骤S502：将各文本特征和各视觉特征输入检索模型检测视频数据是否为检索文本的检索结果。

其中，检索模型为：根据上述实施例中任一项的模型训练方法训练得到的模型。

具体的，检索模型在进行关于检索结果的判断时，可以得到各文本特征的融合特征和各视觉特征的融合特征，计算表示所得融合特征的特征向量之间的相似度，作为检索文本与视频数据的相似度，并将相似度高于预设阈值的视频数据作为检索文本的检索结果。

其中，可以计算多个向量空间下表示各文本特征的融合特征和各视觉特征的融合特征的特征向量之间相似度系数，并为所得的所有相似度系数分配权重，进行线性加权计算，将结果作为检索文本与视频数据的相似度。

由上可见，本发明实施例提供的方案中，使用了根据上述实施例中的模型训练方法训练得到的检索模型，检索模型通过训练能够学习到属于样本检索文本的检索结果的样本数据的特点，并根据输入模型的文本特征和视觉特征判断视频数据是否具有属于检索文本的检索结果的特点，据此确定样本视频数据是否为检索文本的检索结果，提高了获得检索结果的准确性。

参见图6，本公开的一个实施例中，提供了一种模型训练装置的结构示意图，包括：

样本特征获得模块601，用于获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征；

初始融合特征获得模块602，用于将各样本文本特征和各样本视觉特征输入初始模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；

调优融合特征获得模块603，用于将各样本文本特征和各样本视觉特征输入待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，所述待训练模型为：对所述初始模型进行预训练得到的模型；

映射误差获得模块604，用于获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差、所述初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；

模型参数调整模块605，用于基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，其中，所述样本标注表征所述样本视频数据是否为所述样本检索文本的检索结果的标注信息。

本发明的一个实施例中，所述装置还包括：

度量误差获得模块，用于在所述模型参数调整模块基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数之前，根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；

所述模型参数调整模块605，具体用于基于所述文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整所述待训练模型的模型参数。

本发明的一个实施例中，所述度量误差获得模块，包括：

度量误差计算单元，用于计算所述调优文本融合特征和调优视觉融合特征之间的差异，作为所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；

和/或

度量误差获得单元，用于获得反映所述样本检索文本中单元信息出现频次分布的分布特征，根据所述分布特征、所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。

本发明的一个实施例中，所述度量误差获得单元，具体用于获得反映所述样本检索文本中单元信息出现频次分布的分布特征；基于分布特征与调优文本融合特征之间的差异、以及分布特征与调优视觉融合特征之间的差异，生成所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。

本发明的一个实施例中，所述映射误差获得模块604，包括：

文本特征映射误差获得单元，用于将所述初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将所述调优文本融合特征映射至所述流形空间得到调优文本映射特征；基于所述初始文本映射特征与所述调优文本映射特征间的差异，获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。

本发明的一个实施例中，所述文本特征映射误差获得单元，具体用于：将所述初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将所述调优文本融合特征映射至所述流形空间得到调优文本映射特征；确定从所述初始文本映射特征变换至所述调优文本映射特征的变换关系；根据所述初始文本映射特征、所述调优文本映射特征以及所述变换关系，生成所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。

参见图7，本发明的一个实施例中，提供了一种信息检索装置的结构示意图，包括：

特征获得模块701，用于获得检索文本中多个单元信息的文本特征、以及视频数据中多个单元信息的视觉特征；

检索结果检测模块702，用于将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据上述实施例任一项所述的装置训练得到的模型。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现前述模型训练方法的步骤，或者实现前述信息检索方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的模型训练、信息检索方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型训练、信息检索方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数之前，还包括：

根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；

所述基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，包括：

基于所述文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整所述待训练模型的模型参数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差，包括：

计算所述调优文本融合特征和调优视觉融合特征之间的差异，作为所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；

和/或

获得反映所述样本检索文本中单元信息出现频次分布的分布特征，根据所述分布特征、所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。

4.根据权利要求3所述的方法，其特征在于，所述根据所述分布特征、所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差，包括：

基于分布特征与调优文本融合特征之间的差异、以及分布特征与调优视觉融合特征之间的差异，生成所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。

5.根据权利要求1所述的方法，其特征在于，所述获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差，包括：

将所述初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将所述调优文本融合特征映射至所述流形空间得到调优文本映射特征；

基于所述初始文本映射特征与所述调优文本映射特征间的差异，获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。

6.根据权利要求5所述的方法，其特征在于，所述基于所述初始文本映射特征与所述调优文本映射特征间的差异，获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差，包括：

确定从所述初始文本映射特征变换至所述调优文本映射特征的变换关系；

根据所述初始文本融合特征、所述调优文本融合特征以及所述变换关系，生成所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。

7.一种信息检索方法，其特征在于，所述方法包括：

将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据权利要求1-6中任一项所述的方法训练得到的模型。

8.一种模型训练装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述模型参数调整模块，具体用于基于所述文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整所述待训练模型的模型参数。

10.根据权利要求9所述的装置，其特征在于，所述度量误差获得模块，包括：

和/或

11.根据权利要求10所述的装置，其特征在于，

所述度量误差获得单元，具体用于获得反映所述样本检索文本中单元信息出现频次分布的分布特征；基于分布特征与调优文本融合特征之间的差异、以及分布特征与调优视觉融合特征之间的差异，生成所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。

12.根据权利要求8所述的装置，其特征在于，所述映射误差获得模块，包括：

13.根据权利要求12所述的装置，其特征在于，

所述文本特征映射误差获得单元，具体用于将所述初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将所述调优文本融合特征映射至所述流形空间得到调优文本映射特征；确定从所述初始文本映射特征变换至所述调优文本映射特征的变换关系；根据所述初始文本映射特征、所述调优文本映射特征以及所述变换关系，生成所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。

14.一种信息检索装置，其特征在于，所述装置包括：

检索结果检测模块，用于将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据权利要求8-13中任一项所述的装置训练得到的模型。

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。