CN116796047A

CN116796047A - 一种基于预训练模型的跨模态信息检索方法

Info

Publication number: CN116796047A
Application number: CN202310277144.0A
Authority: CN
Inventors: 盛锦华; 曾静; 王俊美
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-09-22

Abstract

本发明公开了一种基于预训练模型的跨模态信息检索方法，克服现有技术中双塔式跨模态信息检索不能较好地将多模态的信息进行融合，信息检索正确率低的问题，包括以下步骤：S1：进行文本增强，并对图像增强技术对比选择实现图像增强，通过训练获取表示模型；S2：对文本和图像的表示进行模态交互，计算每个token和patch表示之间的余弦相似度，并加权相加，得到最终相似度；S3：表示模型进行信息检索，模态交互计算最终相似度，对最终相似度进行排序，得到检索结果。提高了信息检索的正确率。

Description

一种基于预训练模型的跨模态信息检索方法

技术领域

本发明涉及信息检索技术领域，特别涉及了一种基于预训练模型的跨模态信息检索方法。

背景技术

多模态数据的迅速增长使得用户很难有效地搜索到感兴趣的信息，因此衍生了跨模态的信息检索技术，跨模态检索的目的是以一种模态的数据作为查询来检索相关的其它模态数据，它的挑战在于如何度量不同模态数据之间的内容相似性。随着深度学习技术的推广以及预训练模型在自然语言处理、计算机视觉等领域的成果，大量关于图像和文本的基于预训练模型的跨模态检索技术被提出，并且取得了优异的跨模态检索性能。

目前，对于图文跨模态检索的预训练模型中主要有两种，一种是在每个模态都使用基于Transformer的嵌入器，然后在交互方面较简单，只是用点积等，如CLIP、ALIGN；另一种是在各个模态的嵌入层较简单，模型的计算大部分都集中在建模模态交互上，如ViLT。而双塔式跨模态信息检索的预训练模型在后期的交互部分大多都是采用简单的计算余弦相似度方法，并没有较好的将多模态的信息进行融合，从而影响到信息检索的结果。

发明内容

本发明的目的是克服现有技术中双塔式跨模态信息检索不能较好地将多模态的信息进行融合，信息检索正确率低的问题，提供了一种基于预训练模型的跨模态信息检索方法，提高了信息检索的正确率。

为了实现上述目的，本发明采用以下技术方案：

一种基于预训练模型的跨模态信息检索方法，包括下列步骤：

S1：进行文本增强，并对图像增强技术对比选择来实现图像增强，通过训练获取表示模型；

S2：对文本和图像的表示进行模态交互，计算每个token和patch表示之间的余弦相似度，并加权相加，得到最终相似度；

S3：表示模型进行信息检索，模态交互计算最终相似度，对最终相似度进行排序，得到检索结果。

token表示文本的分词，patch表示图像切分后的每一小片。通过数据增强，避免数据过拟合，消除训练集和测试集的尺度、位置和视角差异，提升后续模型的鲁棒性，提高模型泛化能力。

本发明在Transformer的嵌入器的基础上，增加一个模态交互来进行模态信息的融合，使得模型既对文本和图像有更好的编码表示，又能更有效的度量图文间的相似性。同时对得到的余弦相似度进行加权相加，加强有意义信息的比重，得到的相似度更加的准确，从而提高检索结果的正确性。

作为优选，所述步骤S1包括：

S1.1：对多种图像增强方法进行对比实验，选择对检索模型表现更好的其中一种或几种方法的叠加实现图像增强，并利用EDA实现文本增强；

S1.2：利用文本表示模型对文本数据进行编码表示；

S1.3：利用对比学习，将图像-文本对作为样本进行训练得到图像表示模型。

通过对多种图像增强方法进行对比试验，对数据集的图像进行数据增强；利用EDA对文本数据进行增强，包括随机替换，随机插入，随机交换以及随机删除。图像增强方面，目前图像增强的方法有RandAugment、Autoaugment、RangeAugment等，本发明选择最优的图像增强方法，I_A＝Aug_m(I)，I_A表示增强后的图像集。文本增强方面，T_A＝EDA(T)，进行数据增强有助于模型在下游任务的表现。

利用文本表示模型对文本数据进行编码表示一是用于图像模型的训练，因为图文对中的文本表示是这里得出的；二是用于后面的相似度计算，相似度计算是对文本编码表示和图像编码表示进行计算，其中的文本编码从这里得到。

作为优选，所述步骤S2中，计算余弦相似度包括：

检索时，检索模型得到n个tokens的表示T^′，被检索模型得到m个patches的表示I^′，计算每个token和所有patches的表示之间的余弦相似度，每个token都选取对应的最大相似度。

如文本对图像检索时，文本表示模型是检索模型，图像表示模型是被检索模型，图像对文本检索时，则反过来。

作为优选，所述步骤S2中，计算最终相似度时，根据每个token的重要性将最大相似度加权相加得到最终相似度：

其中W_t表示文本t中n个token的权值向量，SIM表示对应的最大相似度向量，finalsim_t表示最终相似度。

对查询的文本或图像对应的各个token或patch进行赋权值可以加强有意义信息的比重，得到的相似度更加地准确。

作为优选，所述步骤S1.3包括：

将ViT模型作为初始图像表示模型，对于N个图像-文本对数据，得到N个正样本和N^2-N个负样本，利用对比学习对ViT进行训练，一张图像被重塑为一系列patches的形式作为ViT模型的输入：

I^′＝ViT(patches(I_A))

其中，I^′表示图像表示模型得到的图像集。

将匹配的图文对表示作为正样本，不匹配的图文作为负样本来进行训练得到图像表示模型。

作为优选，所述步骤S1.3中，所述图像表示模型使用的对比损失为：

其中，sim表示余弦相似度，σ是超参数，N表示一批训练集中图文对的个数，k表示从1到N的自然数，i表示第i个文本，j表示第j个图像。

对比损失是一种困难样本感知的损失函数，当图像与文本中的正样本，与其他服样本不相似时这个对比损失应该低，而当图像与正样本不相似，或者与其他负样本相似时，这个loss就大，从而惩罚模型，促使模型进行参数更新。

作为优选，所述步骤S1.2包括：利用文本表示模型BERT对文本进行编码表示，编码时，以“[CLS][Text][SEP]”形式：

T^′＝BERT([CLS][T_A][SEP])

T^′表示BERT模型得到的文本编码，[CLS]是BERT模型中特殊的标志位，插在文本前，将该符号对应的输出向量作为整篇文本的语义表示，[Text]为一般形式，表示文本输入，[T_A]表示经过上一步文本增强后的文本输入，[SEP]是BERT模型中特殊的标志位，对两句话做分割。

BERT模型在自然语言处理中具有代表性的预训练模型，它刷新了信息检索任务的评价结果。BERT进行语义表示时的输入是一个文本。

作为优选，用训练好的模型进行跨模态的信息检索，检索时利用表示模型分别进行文本和图像表示，再通过模态交互得到最终相似度，并进行排序，将排序前k个作为检索结果。

信息检索有两种检索方式，一种是文本检索图像，一种是图像检索文本，文本检索图像时，文本表示模型进行文本表示，图像检索文本时，图像表示模型进行图像表示。再通过S2中的交互方式得到相似度，并进行排序，并将排序前k个作为检索结果。

因此，本发明具有如下有益效果：通过增加细粒度交互来进行模态信息的融合，使得预训练模型既对文本和图像有更好的编码表示，又能更有效的度量图文间的相似性，提高信息检索的正确率。

附图说明

图1为本发明方法的步骤流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

实施例：

如图1所示的实施例中，可以看到一种基于预训练模型的跨模态信息检索方法，包括：步骤一，进行文本增强，并对图像增强技术对比选择来实现图像增强，通过训练获取表示模型；步骤二，对文本和图像的表示进行模态交互，计算每个token和patch表示之间的余弦相似度，并加权相加，得到最终相似度；步骤三，表示模型进行信息检索，模态交互计算最终相似度，对最终相似度进行排序，得到检索结果。

首先通过数据增强，避免数据过拟合，消除训练集和测试集的尺度、位置和视角差异，提升后续模型的鲁棒性，提高模型泛化能力。本发明在Transformer的嵌入器的基础上，增加一个模态交互来进行模态信息的融合，使得模型既对文本和图像有更好的编码表示，又能更有效的度量图文间的相似性。同时对得到的余弦相似度进行加权相加，加强有意义信息的比重，得到的相似度更加的准确，从而提高检索结果的正确性。

下面对本实施例的方案进行进一步详细说明：

第一步：进行文本增强，并对图像增强技术对比选择来实现图像增强，通过训练获取表示模型。

1、对图像-文本对的数据集进行数据增强。

(1)图像增强

目前图像增强的方法有RandAugment、Autoaugment、RangeAugment等，而现有的跨模态模型研究中只是选用了其中一种方法，但并未对各个方法进行效果方面的对比。

本实施例在图像增强方面，对各个图像增强方法进行对比实验，最终选择对检索模型表现更好的其中一种或几种方法的叠加对数据集的图像进行数据增强。选择增强方法公式如下：

m表示最终检索任务评价中召回率Recall@10最高的增强方法序号，共有n种方法，Aug_i表示第i种增强方法，I表示输入的图像集。

选定一种方法后对图像进行增强：

I_A＝Aug_m(I)

I_A表示增强后的图像集。

(2)文本增强

文本增强方面，使用Easy Data Augmentation(EDA)，具体包括随机替换，随机插入，随机交换，随机删除等：

T_A＝EDA(T)

进行数据增强有助于模型在下游任务的表现。

2、利用文本表示模型BERT对文本部分进行编码表示。

BERT模型在自然语言处理中具有代表性的预训练模型，它刷新了信息检索任务的评价结果。BERT进行语义表示时的输入是一个文本，即以“[CLS][Text][SEP]”形式：

T^′＝BERT([CLS][T_A][SEP])，

通过对文本数据进行编码表示，一是可以用于图像模型的训练，因为图文对中的文本表示是这里得出的；二是可以用于后面的相似度计算，相似度计算是对文本编码表示和图像编码表示进行计算，其中的文本编码从这里得到。

3、利用对比学习，将匹配的图文对表示作为正样本，不匹配的作为负样本进行训练得到图像表示模型。

使用Vision Transformer(ViT)模型作为初始图像表示模型，对于N个图像-文本对数据，将会得到N个正样本和N^2-N个负样本，然后利用对比学习对ViT进行训练，一张图像被重塑为一系列patches的形式作为ViT模型的输入：

I^′＝ViT(patches(I_A))

使用的对比损失为：

VIT模型是将在NLP领域的基于自注意力机制transformer模型用于图像任务中，相比于图像任务中的传统的基于卷积神经网络模型，VIT模型在大数据集上有着比卷积网络更强的效果和更节约的成本。

第二步：对文本和图像的表示进行模态交互，计算每个token和patch表示之间的余弦相似度，并加权相加，得到最终相似度。

本实施例以文本对图像检索为例：

文本对图像检索时，文本表示模型得到有n个tokens的表示T^′，图像表示模型得到m个patches的表示I^′，计算每个token和所有patches的表示之间的相似度，并选择每个token都选取对应的最大相似度：

然后对于整个文本根据每个token的重要性将最大相似度加权相加得到最终的相似度：

其中W_t表示文本t中各个token的权值向量，SIM表示对应的最大相似度向量。

图像对文本检索时同上述过程一样。对检索的文本或图像对应的各个token或patch进行赋权值可以加强有意义信息的比重，得到的相似度更加的准确。

第三步：表示模型进行信息检索，模态交互计算最终相似度，对最终相似度进行排序，得到检索结果。

用训练好的模型进行跨模态的信息检索。有两种检索方式，一种是文本检索图像，一种是图像检索文本，文本检索图像时，文本表示模型进行文本表示，图像检索文本时，图像表示模型进行图像表示，再通过第二步中的交互方式得到相似度，并进行排序，并将排序前k个作为检索结果。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种基于预训练模型的跨模态信息检索方法，其特征在于，包括以下步骤：

S1：进行文本增强，并对图像增强技术对比选择实现图像增强，通过训练获取表示模型；

2.根据权利要求1所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S1包括：

S1.2：利用文本表示模型对文本数据进行编码表示；

3.根据权利要求1所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S2中，计算余弦相似度包括：

4.根据权利要求1或3所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S2中，计算最终相似度时，根据每个token的重要性将最大相似度加权相加得到最终相似度：

5.根据权利要求2所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S1.3包括：

I^′＝ViT(patches(I_A))

其中，I^′表示图像表示模型得到的图像集。

6.根据权利要求2或5所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S1.3中，所述图像表示模型使用的对比损失为：

其中，sim表示余弦相似度，σ是超参数，N表示一批训练集中图文对的个数，

k表示从1到N的自然数，i表示第i个文本，j表示第j个图像。

7.根据权利要求2或5所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S1.2包括：利用文本表示模型BERT对文本进行编码表示，编码时，以“[CLS][Text][SEP]”形式：

T^′＝BERT([CLS][T_A][SEP])

T^′表示BERT模型得到的文本编码，[CLS]是BERT模型中特殊的标志位，

[Text]表示文本输入，[T_A]表示经过上一步文本增强后的文本输入，[SEP]是BERT模型中特殊的标志位。

8.根据权利要求1或2或3或5所述的一种基于预训练模型的跨模态信息检索方法，其特征在于，所述步骤S3包括：用训练好的模型进行跨模态的信息检索，检索时利用表示模型分别进行文本和图像表示，再通过模态交互得到最终相似度，并进行排序，将排序前k个作为检索结果。