CN116503643A

CN116503643A - 一种多模态检索模型的训练方法、多模态检索方法及装置

Info

Publication number: CN116503643A
Application number: CN202310325723.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-07-28

Abstract

本公开涉及人工智能技术领域，提供了一种多模态检索模型的训练方法、多模态检索方法及装置。该方法包括：获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；使用新的训练数据集训练多模态检索模型，该多模态检索模型可应用于不同类目的分类任务，如可适用于图文互搜等任务，其适应性和通用性强。

Description

一种多模态检索模型的训练方法、多模态检索方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种多模态检索模型的训练方法、多模态检索方法及装置。

背景技术

目前主流的图像分类模型主要有ResNet(深度卷积神经网络)、Vit(深度学习注意力神经网络)。而现有的图像分类模型普遍存在如下局限性：一是模型在精调后无法对新类别进行分类，比如在模型完成1000个常见事物的分类训练后，模型只能在这1000个类别上进行分类，而对这之外的类别无法进行表示，具有较强的局限性；二是模型在下游任务上进行精调后，会损害模型对原有知识的掌握能力，比如模型在花卉数据集上进行精调后，对其他类别的事物(如动物等)的分类能力下降，出现灾难性遗忘现象。

因此，现有的图像分类模型无法适用于不同类目的分类任务，如无法适用于图文互搜等任务，其适应性和通用性差。

发明内容

有鉴于此，本公开实施例提供了一种多模态检索模型的训练方法、多模态检索方法及装置，以解决现有的图像分类模型无法适用于不同类目的分类任务，如无法适用于图文互搜等任务，其适应性和通用性差的问题。

本公开实施例的第一方面，提供了一种多模态检索模型的训练方法，包括：

获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；

对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；

使用新的训练数据集训练多模态检索模型。

本公开实施例的第二方面，提供了一种多模态检索方法，包括：

获取检索文本和/或检索图像；

将检索文本和/或检索图像输入多模态检索模型中，输出检索结果，多模态检索模型是由第一方面的多模态检索模型的训练方法训练得到的。

本公开实施例的第三方面，提供了一种多模态检索模型的训练装置，包括：

获取模块，被配置为获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；

处理模块，被配置为对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；

训练模块，被配置为使用新的训练数据集训练多模态检索模型。

本公开实施例的第四方面，提供了一种多模态检索装置，包括：

数据获取模块，被配置为获取检索文本和/或检索图像；

检索模块，被配置为将检索文本和/或检索图像输入多模态检索模型中，输出检索结果，多模态检索模型是由第一方面的多模态检索模型的训练方法训练得到的。

本公开实施例的第五方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述第一方面或第二方面的方法的步骤。

本公开实施例的第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面或第二方面的方法的步骤。

本公开实施例与现有技术相比，其有益效果至少包括：通过获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；使用新的训练数据集训练多模态检索模型，该多模态检索模型可应用于不同类目的分类任务，如可适用于图文互搜等任务，其适应性和通用性强。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例提供的一种多模态检索模型的训练方法的流程示意图；

图2是本公开实施例提供的多模态检索模型的训练方法中的一种图像裁剪方式的示意图；

图3是本公开实施例提供的多模态检索模型的训练方法中的一种多模态检索模型的结构示意图；

图4是本公开实施例提供的一种多模态检索方法的流程示意图；

图5是本公开实施例提供的一种多模态检索模型的训练装置的结构示意图；

图6是本公开实施例提供的一种多模态检索装置的结构示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种多模态检索模型的训练方法、多模态检索方法及装置。

图1是本公开实施例提供的一种多模态检索模型的训练方法的流程示意图。如图1所示，该多模态检索模型的训练方法包括：

步骤S101，获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本。

训练数据可以是采用现有的爬虫技术从网络上爬取到的携带有文本描述内容的图像。其中，一个训练数据是一个图像文本对，即包含一个图像样本和一个文本样本。这里的文本样本(文本标签)通常是指与之配对的图像的标签内容，如可以是一句话、一段话等。

传统的图像分类模型(如ResNet、Vit)的图像标签通常是一个名词，如“猫”、“狗”、“车”等。并且在标注的时候，不会进行更细的分类标注，例如，不管是“加菲猫”还是“布偶猫”，都会把所有猫标注为“猫”，这种标注方式不能对图像进行完整的样本描述，比较生硬，无法实现更细粒度的分类。这类模型在实际应用中容易出现将某些差异较大，明显不属于一个类别的图像“强行”分成同类的现象。如将“加菲猫”(动物)和“布偶猫”(玩偶)强行分成“猫”这一同类。此外，现有的图像分类模型在精调后无法对新类别进行分类，且模型在下游任务上进行精调后，会损害模型对原有知识的掌握能力，模型的泛化能力和识别精确度均较差，无法适用于不同类目的分类任务，如无法适用于图文互搜等任务，其适应性和通用性差。

然而，本公开的训练数据中的文本样本(文本标签)不再是一个名词，而是一个句子，甚至是一段话，可以更加丰富且完整地描述图像所包含的信息，有效地解决了传统的图像分类模型的强行分类现象，可实现“无限细粒度”的分类效果。本公开通过大量的图像文本对训练多模态检索模型，可以获得泛化能力好且识别精度较高，可适用于不同类目的分类任务，如图文互搜等任务的模型，大幅度提升了模型对不同分类任务的适应性和通用性。

步骤S102，对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集。

在一些实施例中，可以根据下述方式获得新的训练数据集：

将训练数据集划分为第一数据集和第二数据集，第一数据集中包括至少一个训练数据；

对第一数据集中的图像样本进行随机裁剪，得到第三数据集，第三数据集的数据数量与第一数据集的数据数量相同；其中，图像样本中被裁剪区域的面积占其整体面积的30％～60％，被裁剪区域用纯灰色填充，图像样本中的裁剪保留区域的形状为矩形或凸多边形；

根据第一数据集、第二数据集和第三数据集，确定新的训练数据集。

作为一示例，假设训练数据集包括8个训练数据(为模型进行一轮训练所需的一个批次样本)，分别为训练数据01、02、03、04、05、06、07、08，训练数据01包括图像样本01和文本样本01，训练数据02包括图像样本02和文本样本02......以此类推，训练数据08包括图像样本08和文本样本08。可以按照预设的比例将训练数据集划分为第一数据集和第二数据集。如从训练数据集中随机抽取其中的30％～100％的训练数据作为第一数据集，剩下的训练数据作为第二数据集。示例性的，可从上述训练数据集中随机抽取其中的50％的训练数据作为第一数据集(如抽取到的是训练数据01、03、07和08)，剩下的50％训练数据作为第二数据集(包括训练数据02、04、05和06)。

接着，对第一数据集中的训练数据01、03、07和08中的图像样本01、03、07和08分别进行随机裁剪，得到图像样本01'、03'、07'和08'。其中，图像样本中被裁剪区域的面积占其整体面积的30％～60％(如30％、40％、50％或60％等)，被裁剪区域用纯灰色填充，图像样本中的裁剪保留区域的形状为矩形或凸多边形。示例性的，以图像样本01为例，对图像样本01进行随机裁剪后得到图像样本01'。图像样本01'中的被裁剪区域采用纯灰色填充，如图2的填充部分201所示，裁剪保留区域如图2的非填充部分202所示。

经过上述处理后，可得到第三数据集，其中，第三数据集包括训练数据01'、03'、07'和08'，其中，训练数据01'包括图像样本01'和文本样本01，训练数据03'包括图像样本03'和文本样本03，训练数据07'包括图像样本07'和文本样本07，训练数据08'包括图像样本08'和文本样本08。

在一些实施例中，可以选择第二数据集(训练数据01、03、07和08)和第三数据集(训练数据01'、03'、07'和08')作为新的训练数据集。也可以选择第二数据集(训练数据02、04、05和06)、第一数据集中的训练数据01、03以及第三数据集中的训练数据07'和08'确定为新的训练数据集。还可以将第二数据集(训练数据02、04、05和06)、第一数据集中的训练数据07、08以及第三数据集中的训练数据01'和03'作为新的训练数据集。

也就是说，新的训练数据集中保留未对原始图像进行处理的训练数据，同时增加部分或全部对原始图像数据进行了处理的训练数据。这样不仅可以扩充训练数据量，还可以对训练数据进行增强或扰动，有利于提升模型整体的泛化能力和提升模型对数据的利用率。

在一些实施例中，可以对训练数据集中的所有图像样本均进行随机裁剪处理，由此可扩充一倍的训练数据量。此时，第一数据集的数据数量与训练数据集的数据数量相同，第二数据集的数据数量则为0。

在对图像样本进行随机裁剪，一般是对图像的边缘部分进行裁剪，裁剪的形状不做限定，优选裁剪保留区域的面积大于图像样本整体面积的50％以上。裁剪保留区域以矩形或凸多边形形状呈现。

在另一些实施例中，还可以根据下述方式获得新的训练数据集：

将训练数据集划分为第四数据集和第五数据集，第四数据集包括至少一个训练数据；

对第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，第六数据集的数据数量与第四数据集的数据数量相同；

根据第四数据集、第五数据集和第六数据集，确定新的训练数据。

作为一示例，假设训练数据集包括8个训练数据(为模型进行一轮训练所需的一个批次样本)，分别为训练数据01、02、03、04、05、06、07、08，训练数据01包括图像样本01和文本样本01，训练数据02包括图像样本02和文本样本02......以此类推，训练数据08包括图像样本08和文本样本08。如从训练数据集中随机抽取其中的30％～50％的训练数据作为第一数据集，剩下的训练数据作为第二数据集。示例性的，可从上述训练数据集中随机抽取其中的30％的训练数据作为第四数据集(如抽取到的是训练数据02和06)，剩下的70％训练数据作为第五数据集(包括训练数据01、03、04、05、07和08)。

在一实施例中，对第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，具体为：采用文本编码器对第四数据集中的每个文本样本进行编码，得到对应的文本向量；对文本向量的各个维度添加高斯噪声，得到第六数据集，高斯噪声的标准差不大于文本向量模长的10％，且均值为0。

结合上述示例，采用文本编码器对训练数据02和06中的文本样本02和06进行编码，得到与文本样本02对应的文本向量01以及与文本样本06对应的文本向量06；然后，分别对文本向量02、文本向量06的各个维度添加高斯噪声，得到文本向量02'、文本向量06'。其中，添加的高斯噪声的标准差不大于文本向量02、文本向量06的10％，且均值为0。第六数据集包括训练数据02'和06'，其中，训练数据02'包括图像样本02和文本向量02'；训练数据06'包括图像样本06和文本向量06'。

可以选择第五数据集(包括训练数据01、03、04、05、07和08)和第六数据集(训练数据02'和06')作为新的训练数据集。也可以选择第五数据集(包括训练数据01、03、04、05、07和08)、第四数据集中的训练数据06以及第六数据集中的训练数据02'作为新的训练数据集。还可以选择第五数据集(包括训练数据01、03、04、05、07和08)、第四数据集中的训练数据02以及第六数据集中的训练数据06'作为新的训练数据集。

也就是说，新的训练数据集中保留未对文本向量进行处理的训练数据，同时增加部分或全部对文本向量进行了处理的训练数据。这样不仅可以扩充训练数据量，还可以对训练数据进行增强或扰动，有利于提升模型整体的泛化能力和提升模型对数据的利用率。

在又一些实施例中，还可以根据下述方式获得新的训练数据集：

将训练数据集划分为第七数据集和第八数据集；

对第七数据集中的图像样本进行随机裁剪，得到第九数据集，第七数据集的数据数量与第九数据集的数据数量相同；

对第八数据集中的文本样本进行添加高斯噪声处理，得到第十数据集，第八数据集的数据数量与第十数据集的数据数量相同；

新的训练数据集包括第七数据集、第八数据集、第九数据集和第十数据集。

作为一示例，假设训练数据集包括8个训练数据(为模型进行一轮训练所需的一个批次样本)，分别为训练数据01、02、03、04、05、06、07、08，训练数据01包括图像样本01和文本样本01，训练数据02包括图像样本02和文本样本02......以此类推，训练数据08包括图像样本08和文本样本08。如从训练数据集中随机抽取出其中40％的训练数据作为第七数据集(如抽取到的是训练数据03、04和05)，剩下的训练数据则归到第八数据集中(包括训练数据01、02、06、07和08)。

可以参照上述对第一数据集中的图像样本进行随机裁剪的方式进行图像增强处理，获得第九数据集(包括训练数据03'、04'和05')，训练数据03'包括图像样本03'和文本样本03'，训练数据04'包括图像样本04'和文本样本04'，训练数据05'包括图像样本05'和文本样本05'。

可以参照上述对第四数据集中的文本样本进行添加高斯噪声的方式进行增强处理，获得第十数据集(包括训练数据01'、02'、06'、07'和08')，训练数据01'包括图像样本01和文本样本01'，训练数据02'包括图像样本02和文本样本02'，训练数据06'包括图像样本06和文本样本06'，训练数据07'包括图像样本07和文本样本07'，训练数据08'包括图像样本08和文本样本08'。

可以选择第九数据集(包括训练数据03'、04'和05')和第十数据集(包括训练数据01'、02'、06'、07'和08')作为新的训练数据集。也可以选择第七数据集(包括训练数据03、04和05)和第十数据集(包括训练数据01'、02'、06'、07'和08')作为新的训练数据集。还可以选择第八数据集(包括训练数据01、02、06、07和08)、第九数据集(包括训练数据03'、04'和05')作为新的训练数据集。还可以选择第七数据集中的训练数据03、04，第八数据集(包括训练数据01、02、06、07和08)，以及第九数据集中的训练数据05'作为新的训练数据集。

也就是说，新的训练数据集中保留未对原始图像或文本向量进行增强处理的训练数据，同时增加部分或全部对原始图像/文本向量进行了增强处理的训练数据。这样不仅可以扩充训练数据量，还可以对训练数据进行增强或扰动，有利于提升模型整体的泛化能力和提升模型对数据的利用率。

需要注意的是，在同时对训练数据集中的训练数据进行图像和文本增强处理的过程中，不会同时对对标号相同的文本向量和图像进行增强，也就是说，如果对训练数据03中的图像样本03进行了随机裁剪增强处理，那么就再不对训练数据03中的文本样本03加入高斯噪声；反之亦然，如果对训练数据03中的训练数据03中的文本样本03加入了高斯噪声，那么就不再对训练数据03中的图像样本03进行了随机裁剪增强处理。因为如果加入太多的噪声或者破坏会让模型难以学习到训练数据的真实表征，会起到数据增强的反效果。

步骤S103，使用新的训练数据集训练多模态检索模型。

在一些实施例中，该多模态检索模型包括图像编码器和文本编码器；

利用图像编码器对新的训练数据集中的每一个训练数据中的图像样本进行编码，得到图像向量矩阵；

利用文本编码器对新的训练数据集中的每一个训练数据中的文本样本进行编码，得到对应的文本向量矩阵；

使用图像向量矩阵和文本向量矩阵训练至满足迭代终止条件，停止训练。

其中，图像编码器(Image Encoder)可以采用传统的ResNet网络、CNN网络或者改进后的ResNet网络，还可以采用VIT等自注意力网络。该改进后的ResNet是基于现有的ResNet网络，将现有的ResNet网络中的全局池化层替换为基于注意力的池化层，保持其余的网络结构层不变。文本编码器(Text Encoder)可以采用现有的Transformer结构，也可以采用多层大型双向RNN结构(如elmo)替代transformer系类的BERT或RoBERTa(A RobustlyOptimized BERT Pretraining Approach)模型。优选的，文本编码器采用Transformer结构。

在一些实施例中，该多模态检索模型可以是CLIP(Contrastive Language-ImagePre-training)模型，该多模态检索模型可以利用训练数据的图像样本和文本样本进行对比学习预训练，以便于将该模型应用于解决多种分类任务(例如，图文互搜任务等)。

结合图3，在模型训练阶段，可以将训练数据集输入到多模态检索模型中，通过多模态检索模型的图像编码器分支和文本编码器分支分别对训练数据的图像样本和文本样本进行处理，得到图像向量矩阵和文本向量矩阵。

作为一示例，假设输入的训练数据集包括N个训练数据(N为大于等于1的正整数)，每个训练数据包括一个图像样本和一个文本样本。整个训练数据集有(I₁，T₁)...(I_N,T_N)个图像文本对。将N个训练数据输入如图3所示的多模态检索模型中，经该多模态检索模型中的图像编码器分支对N个训练数据的图像样本进行处理后，输出一个N*1的图像向量矩阵经该多模态检索模型中的文本编码器分支对N个训练数据的文本样本进行处理后，输出一个1*N的文本向量矩阵[T₁,T₂,T₃,...T_N]。

接着，使用图像向量矩阵和文本向量矩阵训练至满足迭代终止条件，停止训练。具体的，可根据图像向量矩阵和文本向量矩阵，构建标签矩阵；将图像向量矩阵和文本向量矩阵进行点乘计算，得到点积矩阵；计算标签矩阵与点积矩阵的平方差；当平方差满足预设阈值时，停止训练。

结合上述示例，根据上述输出的图像向量矩阵和文本向量矩阵[T₁,T₂,T₃,...T_N]构建一个如下表1所示的标签矩阵，即N*N的单位矩阵/>

表1标签矩阵

对上述输出的图像向量矩阵和文本向量矩阵[T₁,T₂,T₃,...T_N]进行点乘运算，得到N*N的点积矩阵/>然后，计算该标签矩阵和点积矩阵的平方差。当该平方差满足预设阈值(可根据实际情况设置)时，停止训练。一般地，当该标签矩阵和点积矩阵的平方差达到最小值时，停止训练，得到多模态检索模型。

通过上述方式进行大量的图像文本对完成对多模态检索模型的训练后，可以将该模型应用于零样本文本分类。

应用本公开实施例提供的方法训练得到的多模态检索模型不受分类标签体系的限制，可应用于各种类目的分类任务，如可适用于图文互搜等任务，具有很强的适应性和通用性。

本公开实施例提供的技术方案，通过获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；使用新的训练数据集训练多模态检索模型，该多模态检索模型可应用于不同类目的分类任务，如可适用于图文互搜等任务，其适应性和通用性强。

图4是本公开实施例提供的一种多模态检索方法的流程示意图。如图4所示，该多模态检索方法包括如下步骤：

步骤S401，获取检索文本和/或检索图像。

步骤S402，将检索文本和/或检索图像输入多模态检索模型中，输出检索结果，多模态检索模型是上述多模态检索模型的训练方法训练得到的。

作为一示例，首先，获取检索图像，如待分类的图像I₀，然后将待分类图像I₀，以及给定的类目文本，如T₁、T₂、T₃输入该多模态检索模型中，分别经过文本编码器分支和图像编码器分支处理后获得对应的向量T₁，T₂，T₃和I₀，接着，计算这三个文本向量和I₀的点积:其中点积最大的就是该待分类的图像所对应的类别。

作为另一示例，可以获取检索文本，如待分类(匹配)的文本T₁，然后，将待分类的文本T₁以及给定的图像，如图像I₀、I₁、I₂，输入该多模态检索模型中，分别经过文本编码器分支和图像编码器分支处理后获得对应的向量T₁、I₀、I₁、I₂，接着，计算这三个图像向量和文本向量T₁的点积:其中点积最大的就是与该待分类的文本所匹配的图像。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种多模态检索模型的训练装置的结构示意图。如图5所示，该多模态检索模型的训练装置包括：

获取模块501，被配置为获取训练数据集，训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；

处理模块502，被配置为对训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；

训练模块503，被配置为使用新的训练数据集训练多模态检索模型。

在一些实施例中，上述处理模块502包括：

第一数据划分单元，被配置为将训练数据集划分为第一数据集和第二数据集，第一数据集中包括至少一个训练数据；

第一图像裁剪单元，被配置为对第一数据集中的图像样本进行随机裁剪，得到第三数据集，第三数据集的数据数量与第一数据集的数据数量相同；其中，图像样本中被裁剪区域的面积占其整体面积的30％～60％，被裁剪区域用纯灰色填充，图像样本中的裁剪保留区域的形状为矩形或凸多边形；

第一确定单元，被配置为根据第一数据集、第二数据集和第三数据集，确定新的训练数据集。

在另一些实施例中，上述处理模块502包括：

第二数据划分单元，被配置为将训练数据集划分为第四数据集和第五数据集，第四数据集包括至少一个训练数据；

第一加噪处理单元，被配置为对第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，第六数据集的数据数量与第四数据集的数据数量相同；

第二确定单元，被配置为根据第四数据集、第五数据集和第六数据集，确定新的训练数据集。

在一些实施例中，上述加噪处理单元具有可被配置为：

采用文本编码器对第四数据集中的每个文本样本进行编码，得到对应的文本向量；

对文本向量的各个维度添加高斯噪声，得到第六数据集，高斯噪声的标准差不大于文本向量模长的10％，且均值为0。

在又一些实施例中，上述处理模块502包括：

第三数据划分单元，被配置为将训练数据集划分为第七数据集和第八数据集；

第二图像裁剪单元，被配置为对第七数据集中的图像样本进行随机裁剪，得到第九数据集，第七数据集的数据数量与第九数据集的数据数量相同；

第二加噪处理单元，被配置为对第八数据集中的文本样本进行添加高斯噪声处理，得到第十数据集，第八数据集的数据数量与第十数据集的数据数量相同；

第三确定单元，被配置为根据第七数据集、第八数据集、第九数据集和第十数据集，确定新的训练数据集。

在一些实施例中，多模态检索模型包括图像编码器和文本编码器。上述训练模块503包括：

图像编码单元，被配置为利用图像编码器对新的训练数据集中的每一个训练数据中的图像样本进行编码，得到图像向量矩阵；

文本编码单元，被配置为利用文本编码器对新的训练数据集中的每一个训练数据中的文本样本进行编码，得到对应的文本向量矩阵；

训练单元，被配置为使用图像向量矩阵和文本向量矩阵训练至满足迭代终止条件，停止训练。

在一些实施例中，上述训练单元可具体被配置为

根据图像向量矩阵和文本向量矩阵，构建标签矩阵；

将图像向量矩阵和文本向量矩阵进行点乘计算，得到点积矩阵；

计算标签矩阵与点积矩阵的平方差；

当平方差满足预设阈值时，停止训练。

图6是本公开实施例提供的一种多模态检索装置的结构示意图。如图6所示，该多模态检索装置包括：

数据获取模块601，被配置为获取检索文本和/或检索图像；

检索模块602，被配置为将检索文本和/或检索图像输入多模态检索模型中，输出检索结果，多模态检索模型是由上述的多模态检索模型的训练方法训练得到的。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图7是本公开实施例提供的电子设备7的示意图。如图7所示，该实施例的电子设备7包括：处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。

电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器702可以是电子设备7的内部存储单元，例如，电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备，例如，电子设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种多模态检索模型的训练方法，其特征在于，包括：

获取训练数据集，所述训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；

对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；

使用所述新的训练数据集训练多模态检索模型。

2.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：

将所述训练数据集划分为第一数据集和第二数据集，所述第一数据集中包括至少一个训练数据；

对所述第一数据集中的图像样本进行随机裁剪，得到第三数据集，所述第三数据集的数据数量与所述第一数据集的数据数量相同；其中，所述图像样本中被裁剪区域的面积占其整体面积的30％～60％，所述被裁剪区域用纯灰色填充，所述图像样本中的裁剪保留区域的形状为矩形或凸多边形；

根据所述第一数据集、第二数据集和第三数据集，确定新的训练数据集。

3.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：

将所述训练数据集划分为第四数据集和第五数据集，所述第四数据集包括至少一个训练数据；

对所述第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，所述第六数据集的数据数量与所述第四数据集的数据数量相同；

根据所述第四数据集、第五数据集和第六数据集，确定新的训练数据集。

4.根据权利要求3所述的方法，其特征在于，对所述第四数据集中的文本样本进行添加高斯噪声处理，得到第六数据集，包括：

采用文本编码器对所述第四数据集中的每个文本样本进行编码，得到对应的文本向量；

对所述文本向量的各个维度添加高斯噪声，得到第六数据集，所述高斯噪声的标准差不大于文本向量模长的10％，且均值为0。

5.根据权利要求1所述的方法，其特征在于，对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集，包括：

将所述训练数据集划分为第七数据集和第八数据集；

对所述第七数据集中的图像样本进行随机裁剪，得到第九数据集，所述第七数据集的数据数量与所述第九数据集的数据数量相同；

对所述第八数据集中的文本样本进行添加高斯噪声处理，得到第十数据集，所述第八数据集的数据数量与所述第十数据集的数据数量相同；

根据所述第七数据集、第八数据集、第九数据集和第十数据集，确定新的训练数据集。

6.根据权利要求1所述的方法，其特征在于，所述多模态检索模型包括图像编码器和文本编码器；

使用所述新的训练数据集训练多模态检索模型，包括：

利用所述图像编码器对所述新的训练数据集中的每一个训练数据中的图像样本进行编码，得到图像向量矩阵；

利用所述文本编码器对所述新的训练数据集中的每一个训练数据中的文本样本进行编码，得到对应的文本向量矩阵；

使用所述图像向量矩阵和所述文本向量矩阵训练至满足迭代终止条件，停止训练。

7.根据权利要求6所述的方法，其特征在于，使用所述图像向量矩阵和所述文本向量矩阵训练至满足迭代终止条件，停止训练，包括：

根据所述图像向量矩阵和文本向量矩阵，构建标签矩阵；

将所述图像向量矩阵和文本向量矩阵进行点乘计算，得到点积矩阵；

计算所述标签矩阵与所述点积矩阵的平方差；

当所述平方差满足预设阈值时，停止训练。

8.一种多模态检索方法，其特征在于，包括：

获取检索文本和/或检索图像；

将所述检索文本和/或检索图像输入多模态检索模型中，输出检索结果，所述多模态检索模型是由如权利要求1～7中任一项所述的多模态检索模型的训练方法训练得到的。

9.一种多模态检索模型的训练装置，其特征在于，包括：

获取模块，被配置为获取训练数据集，所述训练数据集包括多个训练数据，每一个训练数据均包括一个图像样本和一个文本样本；

处理模块，被配置为对所述训练数据集中的图像样本和/或文本样本进行增强处理，得到新的训练数据集；

训练模块，被配置为使用所述新的训练数据集训练多模态检索模型。

10.一种多模态检索装置，其特征在于，包括：

数据获取模块，被配置为获取检索文本和/或检索图像；

检索模块，被配置为将所述检索文本和/或检索图像输入多模态检索模型中，输出检索结果，所述多模态检索模型是由如权利要求1～7中任一项所述的多模态检索模型的训练方法训练得到的。

11.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤，或者实现如权利要求8所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤，或者实现如权利要求8所述的方法的步骤。