CN116796047A - 一种基于预训练模型的跨模态信息检索方法 - Google Patents

一种基于预训练模型的跨模态信息检索方法 Download PDF

Info

Publication number
CN116796047A
CN116796047A CN202310277144.0A CN202310277144A CN116796047A CN 116796047 A CN116796047 A CN 116796047A CN 202310277144 A CN202310277144 A CN 202310277144A CN 116796047 A CN116796047 A CN 116796047A
Authority
CN
China
Prior art keywords
text
model
image
representation
information retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310277144.0A
Other languages
English (en)
Inventor
盛锦华
曾静
王俊美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202310277144.0A priority Critical patent/CN116796047A/zh
Publication of CN116796047A publication Critical patent/CN116796047A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练模型的跨模态信息检索方法,克服现有技术中双塔式跨模态信息检索不能较好地将多模态的信息进行融合,信息检索正确率低的问题,包括以下步骤:S1:进行文本增强,并对图像增强技术对比选择实现图像增强,通过训练获取表示模型;S2:对文本和图像的表示进行模态交互,计算每个token和patch表示之间的余弦相似度,并加权相加,得到最终相似度;S3:表示模型进行信息检索,模态交互计算最终相似度,对最终相似度进行排序,得到检索结果。提高了信息检索的正确率。

Description

一种基于预训练模型的跨模态信息检索方法
技术领域
本发明涉及信息检索技术领域,特别涉及了一种基于预训练模型的跨模态信息检索方法。
背景技术
多模态数据的迅速增长使得用户很难有效地搜索到感兴趣的信息,因此衍生了跨模态的信息检索技术,跨模态检索的目的是以一种模态的数据作为查询来检索相关的其它模态数据,它的挑战在于如何度量不同模态数据之间的内容相似性。随着深度学习技术的推广以及预训练模型在自然语言处理、计算机视觉等领域的成果,大量关于图像和文本的基于预训练模型的跨模态检索技术被提出,并且取得了优异的跨模态检索性能。
目前,对于图文跨模态检索的预训练模型中主要有两种,一种是在每个模态都使用基于Transformer的嵌入器,然后在交互方面较简单,只是用点积等,如CLIP、ALIGN;另一种是在各个模态的嵌入层较简单,模型的计算大部分都集中在建模模态交互上,如ViLT。而双塔式跨模态信息检索的预训练模型在后期的交互部分大多都是采用简单的计算余弦相似度方法,并没有较好的将多模态的信息进行融合,从而影响到信息检索的结果。
发明内容
本发明的目的是克服现有技术中双塔式跨模态信息检索不能较好地将多模态的信息进行融合,信息检索正确率低的问题,提供了一种基于预训练模型的跨模态信息检索方法,提高了信息检索的正确率。
为了实现上述目的,本发明采用以下技术方案:
一种基于预训练模型的跨模态信息检索方法,包括下列步骤:
S1:进行文本增强,并对图像增强技术对比选择来实现图像增强,通过训练获取表示模型;
S2:对文本和图像的表示进行模态交互,计算每个token和patch表示之间的余弦相似度,并加权相加,得到最终相似度;
S3:表示模型进行信息检索,模态交互计算最终相似度,对最终相似度进行排序,得到检索结果。
token表示文本的分词,patch表示图像切分后的每一小片。通过数据增强,避免数据过拟合,消除训练集和测试集的尺度、位置和视角差异,提升后续模型的鲁棒性,提高模型泛化能力。
本发明在Transformer的嵌入器的基础上,增加一个模态交互来进行模态信息的融合,使得模型既对文本和图像有更好的编码表示,又能更有效的度量图文间的相似性。同时对得到的余弦相似度进行加权相加,加强有意义信息的比重,得到的相似度更加的准确,从而提高检索结果的正确性。
作为优选,所述步骤S1包括:
S1.1:对多种图像增强方法进行对比实验,选择对检索模型表现更好的其中一种或几种方法的叠加实现图像增强,并利用EDA实现文本增强;
S1.2:利用文本表示模型对文本数据进行编码表示;
S1.3:利用对比学习,将图像-文本对作为样本进行训练得到图像表示模型。
通过对多种图像增强方法进行对比试验,对数据集的图像进行数据增强;利用EDA对文本数据进行增强,包括随机替换,随机插入,随机交换以及随机删除。图像增强方面,目前图像增强的方法有RandAugment、Autoaugment、RangeAugment等,本发明选择最优的图像增强方法,IA=Augm(I),IA表示增强后的图像集。文本增强方面,TA=EDA(T),进行数据增强有助于模型在下游任务的表现。
利用文本表示模型对文本数据进行编码表示一是用于图像模型的训练,因为图文对中的文本表示是这里得出的;二是用于后面的相似度计算,相似度计算是对文本编码表示和图像编码表示进行计算,其中的文本编码从这里得到。
作为优选,所述步骤S2中,计算余弦相似度包括:
检索时,检索模型得到n个tokens的表示T,被检索模型得到m个patches的表示I,计算每个token和所有patches的表示之间的余弦相似度,每个token都选取对应的最大相似度。
如文本对图像检索时,文本表示模型是检索模型,图像表示模型是被检索模型,图像对文本检索时,则反过来。
作为优选,所述步骤S2中,计算最终相似度时,根据每个token的重要性将最大相似度加权相加得到最终相似度:
其中Wt表示文本t中n个token的权值向量,SIM表示对应的最大相似度向量,finalsimt表示最终相似度。
对查询的文本或图像对应的各个token或patch进行赋权值可以加强有意义信息的比重,得到的相似度更加地准确。
作为优选,所述步骤S1.3包括:
将ViT模型作为初始图像表示模型,对于N个图像-文本对数据,得到N个正样本和N^2-N个负样本,利用对比学习对ViT进行训练,一张图像被重塑为一系列patches的形式作为ViT模型的输入:
I=ViT(patches(IA))
其中,I表示图像表示模型得到的图像集。
将匹配的图文对表示作为正样本,不匹配的图文作为负样本来进行训练得到图像表示模型。
作为优选,所述步骤S1.3中,所述图像表示模型使用的对比损失为:
其中,sim表示余弦相似度,σ是超参数,N表示一批训练集中图文对的个数,k表示从1到N的自然数,i表示第i个文本,j表示第j个图像。
对比损失是一种困难样本感知的损失函数,当图像与文本中的正样本,与其他服样本不相似时这个对比损失应该低,而当图像与正样本不相似,或者与其他负样本相似时,这个loss就大,从而惩罚模型,促使模型进行参数更新。
作为优选,所述步骤S1.2包括:利用文本表示模型BERT对文本进行编码表示,编码时,以“[CLS][Text][SEP]”形式:
T=BERT([CLS][TA][SEP])
T表示BERT模型得到的文本编码,[CLS]是BERT模型中特殊的标志位,插在文本前,将该符号对应的输出向量作为整篇文本的语义表示,[Text]为一般形式,表示文本输入,[TA]表示经过上一步文本增强后的文本输入,[SEP]是BERT模型中特殊的标志位,对两句话做分割。
BERT模型在自然语言处理中具有代表性的预训练模型,它刷新了信息检索任务的评价结果。BERT进行语义表示时的输入是一个文本。
作为优选,用训练好的模型进行跨模态的信息检索,检索时利用表示模型分别进行文本和图像表示,再通过模态交互得到最终相似度,并进行排序,将排序前k个作为检索结果。
信息检索有两种检索方式,一种是文本检索图像,一种是图像检索文本,文本检索图像时,文本表示模型进行文本表示,图像检索文本时,图像表示模型进行图像表示。再通过S2中的交互方式得到相似度,并进行排序,并将排序前k个作为检索结果。
因此,本发明具有如下有益效果:通过增加细粒度交互来进行模态信息的融合,使得预训练模型既对文本和图像有更好的编码表示,又能更有效的度量图文间的相似性,提高信息检索的正确率。
附图说明
图1为本发明方法的步骤流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
实施例:
如图1所示的实施例中,可以看到一种基于预训练模型的跨模态信息检索方法,包括:步骤一,进行文本增强,并对图像增强技术对比选择来实现图像增强,通过训练获取表示模型;步骤二,对文本和图像的表示进行模态交互,计算每个token和patch表示之间的余弦相似度,并加权相加,得到最终相似度;步骤三,表示模型进行信息检索,模态交互计算最终相似度,对最终相似度进行排序,得到检索结果。
首先通过数据增强,避免数据过拟合,消除训练集和测试集的尺度、位置和视角差异,提升后续模型的鲁棒性,提高模型泛化能力。本发明在Transformer的嵌入器的基础上,增加一个模态交互来进行模态信息的融合,使得模型既对文本和图像有更好的编码表示,又能更有效的度量图文间的相似性。同时对得到的余弦相似度进行加权相加,加强有意义信息的比重,得到的相似度更加的准确,从而提高检索结果的正确性。
下面对本实施例的方案进行进一步详细说明:
第一步:进行文本增强,并对图像增强技术对比选择来实现图像增强,通过训练获取表示模型。
1、对图像-文本对的数据集进行数据增强。
(1)图像增强
目前图像增强的方法有RandAugment、Autoaugment、RangeAugment等,而现有的跨模态模型研究中只是选用了其中一种方法,但并未对各个方法进行效果方面的对比。
本实施例在图像增强方面,对各个图像增强方法进行对比实验,最终选择对检索模型表现更好的其中一种或几种方法的叠加对数据集的图像进行数据增强。选择增强方法公式如下:
m表示最终检索任务评价中召回率Recall@10最高的增强方法序号,共有n种方法,Augi表示第i种增强方法,I表示输入的图像集。
选定一种方法后对图像进行增强:
IA=Augm(I)
IA表示增强后的图像集。
(2)文本增强
文本增强方面,使用Easy Data Augmentation(EDA),具体包括随机替换,随机插入,随机交换,随机删除等:
TA=EDA(T)
进行数据增强有助于模型在下游任务的表现。
2、利用文本表示模型BERT对文本部分进行编码表示。
BERT模型在自然语言处理中具有代表性的预训练模型,它刷新了信息检索任务的评价结果。BERT进行语义表示时的输入是一个文本,即以“[CLS][Text][SEP]”形式:
T=BERT([CLS][TA][SEP]),
T表示BERT模型得到的文本编码,[CLS]是BERT模型中特殊的标志位,插在文本前,将该符号对应的输出向量作为整篇文本的语义表示,[Text]为一般形式,表示文本输入,[TA]表示经过上一步文本增强后的文本输入,[SEP]是BERT模型中特殊的标志位,对两句话做分割。
通过对文本数据进行编码表示,一是可以用于图像模型的训练,因为图文对中的文本表示是这里得出的;二是可以用于后面的相似度计算,相似度计算是对文本编码表示和图像编码表示进行计算,其中的文本编码从这里得到。
3、利用对比学习,将匹配的图文对表示作为正样本,不匹配的作为负样本进行训练得到图像表示模型。
使用Vision Transformer(ViT)模型作为初始图像表示模型,对于N个图像-文本对数据,将会得到N个正样本和N^2-N个负样本,然后利用对比学习对ViT进行训练,一张图像被重塑为一系列patches的形式作为ViT模型的输入:
I=ViT(patches(IA))
使用的对比损失为:
其中,sim表示余弦相似度,σ是超参数,N表示一批训练集中图文对的个数,k表示从1到N的自然数,i表示第i个文本,j表示第j个图像。
VIT模型是将在NLP领域的基于自注意力机制transformer模型用于图像任务中,相比于图像任务中的传统的基于卷积神经网络模型,VIT模型在大数据集上有着比卷积网络更强的效果和更节约的成本。
第二步:对文本和图像的表示进行模态交互,计算每个token和patch表示之间的余弦相似度,并加权相加,得到最终相似度。
本实施例以文本对图像检索为例:
文本对图像检索时,文本表示模型得到有n个tokens的表示T,图像表示模型得到m个patches的表示I,计算每个token和所有patches的表示之间的相似度,并选择每个token都选取对应的最大相似度:
然后对于整个文本根据每个token的重要性将最大相似度加权相加得到最终的相似度:
其中Wt表示文本t中各个token的权值向量,SIM表示对应的最大相似度向量。
图像对文本检索时同上述过程一样。对检索的文本或图像对应的各个token或patch进行赋权值可以加强有意义信息的比重,得到的相似度更加的准确。
第三步:表示模型进行信息检索,模态交互计算最终相似度,对最终相似度进行排序,得到检索结果。
用训练好的模型进行跨模态的信息检索。有两种检索方式,一种是文本检索图像,一种是图像检索文本,文本检索图像时,文本表示模型进行文本表示,图像检索文本时,图像表示模型进行图像表示,再通过第二步中的交互方式得到相似度,并进行排序,并将排序前k个作为检索结果。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (8)

1.一种基于预训练模型的跨模态信息检索方法,其特征在于,包括以下步骤:
S1:进行文本增强,并对图像增强技术对比选择实现图像增强,通过训练获取表示模型;
S2:对文本和图像的表示进行模态交互,计算每个token和patch表示之间的余弦相似度,并加权相加,得到最终相似度;
S3:表示模型进行信息检索,模态交互计算最终相似度,对最终相似度进行排序,得到检索结果。
2.根据权利要求1所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S1包括:
S1.1:对多种图像增强方法进行对比实验,选择对检索模型表现更好的其中一种或几种方法的叠加实现图像增强,并利用EDA实现文本增强;
S1.2:利用文本表示模型对文本数据进行编码表示;
S1.3:利用对比学习,将图像-文本对作为样本进行训练得到图像表示模型。
3.根据权利要求1所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S2中,计算余弦相似度包括:
检索时,检索模型得到n个tokens的表示T,被检索模型得到m个patches的表示I,计算每个token和所有patches的表示之间的余弦相似度,每个token都选取对应的最大相似度。
4.根据权利要求1或3所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S2中,计算最终相似度时,根据每个token的重要性将最大相似度加权相加得到最终相似度:
其中Wt表示文本t中n个token的权值向量,SIM表示对应的最大相似度向量,finalsimt表示最终相似度。
5.根据权利要求2所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S1.3包括:
将ViT模型作为初始图像表示模型,对于N个图像-文本对数据,得到N个正样本和N^2-N个负样本,利用对比学习对ViT进行训练,一张图像被重塑为一系列patches的形式作为ViT模型的输入:
I=ViT(patches(IA))
其中,I表示图像表示模型得到的图像集。
6.根据权利要求2或5所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S1.3中,所述图像表示模型使用的对比损失为:
其中,sim表示余弦相似度,σ是超参数,N表示一批训练集中图文对的个数,
k表示从1到N的自然数,i表示第i个文本,j表示第j个图像。
7.根据权利要求2或5所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S1.2包括:利用文本表示模型BERT对文本进行编码表示,编码时,以“[CLS][Text][SEP]”形式:
T=BERT([CLS][TA][SEP])
T表示BERT模型得到的文本编码,[CLS]是BERT模型中特殊的标志位,
[Text]表示文本输入,[TA]表示经过上一步文本增强后的文本输入,[SEP]是BERT模型中特殊的标志位。
8.根据权利要求1或2或3或5所述的一种基于预训练模型的跨模态信息检索方法,其特征在于,所述步骤S3包括:用训练好的模型进行跨模态的信息检索,检索时利用表示模型分别进行文本和图像表示,再通过模态交互得到最终相似度,并进行排序,将排序前k个作为检索结果。
CN202310277144.0A 2023-03-21 2023-03-21 一种基于预训练模型的跨模态信息检索方法 Pending CN116796047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310277144.0A CN116796047A (zh) 2023-03-21 2023-03-21 一种基于预训练模型的跨模态信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310277144.0A CN116796047A (zh) 2023-03-21 2023-03-21 一种基于预训练模型的跨模态信息检索方法

Publications (1)

Publication Number Publication Date
CN116796047A true CN116796047A (zh) 2023-09-22

Family

ID=88038748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310277144.0A Pending CN116796047A (zh) 2023-03-21 2023-03-21 一种基于预训练模型的跨模态信息检索方法

Country Status (1)

Country Link
CN (1) CN116796047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035427A (zh) * 2024-04-15 2024-05-14 之江实验室 一种通过3d对比学习增强多模态图文检索的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035427A (zh) * 2024-04-15 2024-05-14 之江实验室 一种通过3d对比学习增强多模态图文检索的方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
CN106295796B (zh) 基于深度学习的实体链接方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111062214B (zh) 基于深度学习的集成实体链接方法及系统
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN114791958B (zh) 一种基于变分自编码器的零样本跨模态检索方法
CN110826338A (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN113221530A (zh) 一种基于circle loss的文本相似度匹配方法、装置、计算机设备和储存介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Angelovska et al. Siamese neural networks for detecting complementary products
CN116796047A (zh) 一种基于预训练模型的跨模态信息检索方法
CN112580351A (zh) 一种基于自信息损失补偿的机器生成文本检测方法
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN114022687B (zh) 一种基于增强学习的图像描述对抗生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination