CN116775918A - 基于互补熵对比学习跨模态检索方法、系统、设备及介质 - Google Patents
基于互补熵对比学习跨模态检索方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116775918A CN116775918A CN202311055072.1A CN202311055072A CN116775918A CN 116775918 A CN116775918 A CN 116775918A CN 202311055072 A CN202311055072 A CN 202311055072A CN 116775918 A CN116775918 A CN 116775918A
- Authority
- CN
- China
- Prior art keywords
- cross
- data
- modal
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000295 complement effect Effects 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于互补熵对比学习跨模态检索方法、系统、设备及介质,涉及跨模态检索技术,其目的在于解决因训练样本数据中存在噪声(假阳性对)而致使跨模态检索的准确率偏低的技术问题。其构建对应文本数据的文本编码器、对应图像数据的图像编码器,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵。通过结合双向的互补熵来间接进行跨模态学习,通过计算样本之间的相似度,在训练时即使训练对存在噪声关联,也能使得模型收益于互补信息,将产生错误监督信息的风险分散从而产生鲁棒性,缓解噪声关联带来的负面影响,提高跨模态检索的准确率。
Description
技术领域
本发明属于人工智能技术领域,涉及一种跨模态检索技术,尤其涉及一种基于互补熵对比学习跨模态检索方法、系统、设备及介质。
背景技术
随着信息技术的不断发展,在越来越多的领域中可以应用人工智能技术,以提高对数据进行处理的效率和效果。其中,在文本数据和图像数据的识别领域中,可以采用对应的模型进行识别,得到回归结果或分类结果。
相关技术中,在多模态领域中需要对多模态数据进行多结构文本和图像序列的互检任务。其中,多模态指的是既包含文本,也包含图像序列的数据。而跨模态检索旨在从给定的查询样本来检索另一模态数据中最相关的样本,其核心在于度量跨模态样本间的相似度。随着深度学习的发展,大量的跨模态检索技术被提出,它们可分为表示学习方法和相似度学习方法。表示学习方法的目标是将不同模态数据投影到一个潜在的共同空间以便于直接计算跨模态相似度,例如欧氏距离,余弦相似度。相似度学习方法旨在挖掘细粒度的、潜在的跨模态样本间的相互作用,从而准确度量跨模态相关性,进而实现检索。
申请号为202310324164.9的发明专利申请就公开了一种跨模态互检索的方法、装置、服务器及存储介质,涉及数据处理技术领域,其中训练方法包括:构建文本信息特征编码器和图像序列特征编码器;基于文本信息特征编码器和图像序列特征编码器进行检索网络构建,得到初始图像文本检索网络;基于每个样本的正样本组和负样本组构造对齐损失函数;基于对齐损失函数和训练数据对初始图像文本检索网络进行训练,得到多模态图像文本检索网络。以提高对于多结构文本数据和图像数据进行图文互检的准确性。
申请号为202310149787.7的发明专利申请就公开了一种基于跨模态注意力保留的组合式查询图像检索方法,用于解决现有模型学习到的保留和修改的图像特征不够精细、模型学习到的保留和修改图像部分存在交叠、缺乏充分利用不同语义信息等的技术问题;其先使用图像特征提取器提取不同语义层级的图像特征,和通过文本特征提取器提取文本特征,并进一步通过跨层交互模块融合不同语义层级的图像特征,然后通过自对比学习获得相对准确的目标图像中的保留和修改区域,最后通过计算余弦相似度并从高到低排序完成组合式查询图像检索,通过这种方式可以更加充分地利用不同语义层级的图像和文本特征来进行组合式查询图像检索。
如上述专利技术一样,现有技术的跨模态检索方法中,其都依赖于具有良好对应关系的跨模态训练数据对,而现有技术在大规模跨模态数据收集时将不可避免的引入具有噪声关联的训练对,即假阳性对。因此,这些噪声(假阳性对)将会严重影响现有跨模态检索方法性能,使得现有跨模态检索的准确率降低。
发明内容
本发明的目的在于:为了解决现有技术中存在的因训练样本数据中存在噪声(假阳性对)而致使跨模态检索的准确率偏低的技术问题,本发明提供一种基于互补熵对比学习跨模态检索方法、系统、设备及介质。
本发明为了实现上述目的具体采用以下技术方案:
一种基于互补熵对比学习跨模态检索方法,步骤为:
步骤S1,获取样本数据
获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据;
步骤S2,构建跨模态检索网络模型
构建对应文本数据的文本编码器、对应图像数据的图像编码器;
步骤S3,训练跨模态检索网络模型
采用步骤S1获取的样本数据对步骤S2构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵;
步骤S4,跨模态实时检索
获取待检索的文本数据、图像数据,并输入步骤S3训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对;
步骤S2中,构建跨模态检索网络模型时,文本编码器为Bi-GRU文本编码器,Bi-GRU文本编码器包括依次连接的嵌入层、Bi-GRU模型以及聚合层;
图像编码器为ResNet18图像编码器,ResNet18图像编码器包括依次连接的ResNet18残差神经网络、全连接层和聚合层。
进一步地,步骤S3中,在计算跨模态相似度时,相似度的计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,/>表示第/>个图像数据,/>表示第/>个文本数据,/>表示图像数据/>的特征表示,/>表示文本数据/>的特征表示,/>表示为相似度函数/>的参数。
进一步地,根据相似度,计算跨模态相似性矩阵S,计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,K表示文本数据与图像数据的数据对个数;/>表示第K个图像数据/>与第k个文本数据的跨模态相似度。
进一步地,步骤S3中,根据跨模态相似度计算跨模态样本间的互补熵时,对于第对数据/>,文本模态A到图像模态B的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第/>列元素。
进一步地,步骤S3中,采用基于互补熵的鲁棒对比损失函数对跨模态检索网络模型进行训练时,基于互补熵的鲁棒对比损失函数为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第对数据,/>为前述文本模态A到图像模态B的互补熵计算通式。
进一步地,步骤S3中,利用基于互补熵的鲁棒对比损失函数,优化跨模态检索网络模型的参数,具体为:
其中,分别为模态A编码器、模态B编码器以及相似度函数对参数为优化器。
一种基于互补熵对比学习跨模态检索系统,包括:
样本数据获取模块,用于获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据;
跨模态检索网络模型构建模块,用于构建对应文本数据的文本编码器、对应图像数据的图像编码器;
跨模态检索网络模型训练模块,用于采用样本数据获取模块获取的样本数据对跨模态检索网络模型构建模块构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵;
跨模态实时检索模块,用于获取待检索的文本数据、图像数据,并输入跨模态检索网络模型训练模块训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
本发明的有益效果如下:
本发明中,在训练跨模态检索网络模型时,定义的互补熵为交叉熵的互补形式,均可衡量跨模态样本间匹配的程度,但互补熵来自所有负样本的匹配概率,避免了正样本对的匹配程度直接的衡量;此外,通过结合双向的互补熵来间接进行跨模态学习,通过计算样本之间的相似度,在训练时即使训练对存在噪声关联,也能使得模型收益于互补信息,有效解决因训练样本数据中存在噪声(假阳性对)而致使跨模态检索的准确率偏低的问题,将产生错误监督信息的风险分散从而产生鲁棒性,缓解噪声关联带来的负面影响,提高跨模态检索的准确率。
附图说明
图1是本发明的流程示意图;
图2是本发明中跨模态检索网络模型的示意图。
具体实施方式
实施例1
本实施例提供一种基于互补熵对比学习跨模态检索方法,用于对文本数据、图像数据进行跨模态检索,如图1所示,其步骤为:
步骤S1,获取样本数据
获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据。
为方便描述,本实施例中,跨模态样本数据集包括两个模态的样本数据,即名称为模态A的文本样本数据、名称为模态B的图像样本数据,模态A的样本集合表示为、模态B的样本集合表示为/>,其中,/>表示模态A的第/>个样本,/>表示模态B的第个样本,/>、/>分别表示模态A、模态B的样本数。
步骤S2,构建跨模态检索网络模型
构建对应文本数据的文本编码器、对应图像数据的图像编码器。
文本编码器为Bi-GRU文本编码器,Bi-GRU文本编码器包括依次连接的嵌入层、Bi-GRU模型以及聚合层;
图像编码器为ResNet18图像编码器,ResNet18图像编码器包括依次连接的ResNet18残差神经网络、全连接层和聚合层。
其中,文本编码器可表示为函数、图像编码器可表示为函数,/>和/>分别表示文本编码器、图像编码器的模型参数。
跨模态检索网络模型的网络结构,具体如图2所示。
步骤S3,训练跨模态检索网络模型
采用步骤S1获取的样本数据对步骤S2构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵。
训练时,先对样本数据集的训练集中成对的样本数据进行采样,获取跨模态样本对用于组成跨模态检索网络模型训练的小批次跨模态数据,其中K表示样本对个数,/>表示小批次中的第k对跨模态训练对且他们具有显式注释的一一对应的关联性。对于小批次中任意一对数据/>,利用编码器获得相应模态样本的深度特征表示并计算跨模态相似度。在计算跨模态相似度时,相似度/>的计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,/>表示第/>个图像数据,/>表示第/>个文本数据,/>表示图像数据/>的特征表示,/>表示文本数据/>的特征表示,/>表示为相似度函数/>的参数。
根据上述定义的相似度计算小批次数据的计算跨模态相似性矩阵S,计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,K表示文本数据与图像数据的数据对个数;/>表示第K个图像数据/>与第k个文本数据的跨模态相似度。
该跨模态相似性矩阵衡量了小批次样本中跨模态样本间的相关程度,且跨模态学习、训练时,目标在于使跨模态相似性矩阵S的对角的相似度最大化、跨模态相似性矩阵S的非对角的相似度最小化。
在根据跨模态相似度计算跨模态样本间的互补熵时,对于第对数据/>,文本模态A到图像模态B的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第/>列元素。
同理,对于第对数据/>,图像模态B到文本模态A的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第/>列元素。
对于小批次数据,利用基于互补熵的鲁棒对比损失函数对跨模态检索网络模型进行训练时,基于互补熵的鲁棒对比损失函数/>为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第对数据,/>为前述文本模态A到图像模态B的互补熵计算通式。
利用基于互补熵的鲁棒对比损失函数,优化跨模态检索网络模型的参数,具体为:
其中,分别为模态A编码器、模态B编码器以及相似度函数对参数为优化器。
步骤S4,跨模态实时检索
获取待检索的文本数据、图像数据,并输入步骤S3训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对。
实施例2
本实施例提供一种基于互补熵对比学习跨模态检索系统,用于对文本数据、图像数据进行跨模态检索,其步骤为:
样本数据获取模块,用于获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据。
为方便描述,本实施例中,跨模态样本数据集包括两个模态的样本数据,即名称为模态A的文本样本数据、名称为模态B的图像样本数据,模态A的样本集合表示为、模态B的样本集合表示为/>,其中,/>表示模态A的第/>个样本,/>表示模态B的第个样本,/>、/>分别表示模态A、模态B的样本数。
跨模态检索网络模型构建模块,用于构建对应文本数据的文本编码器、对应图像数据的图像编码器。
文本编码器为Bi-GRU文本编码器,Bi-GRU文本编码器包括依次连接的嵌入层、Bi-GRU模型以及聚合层;
图像编码器为ResNet18图像编码器,ResNet18图像编码器包括依次连接的ResNet18残差神经网络、全连接层和聚合层。
其中,文本编码器可表示为函数、图像编码器可表示为函数,/>和/>分别表示文本编码器、图像编码器的模型参数。
跨模态检索网络模型的网络结构,具体如图2所示。
跨模态检索网络模型训练模块,用于采用样本数据获取模块获取的样本数据对跨模态检索网络模型构建模块构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵。
训练时,先对样本数据集的训练集中成对的样本数据进行采样,获取跨模态样本对用于组成跨模态检索网络模型训练的小批次跨模态数据,其中K表示样本对个数,/>表示小批次中的第k对跨模态训练对且他们具有显式注释的一一对应的关联性。对于小批次中任意一对数据/>,利用编码器获得相应模态样本的深度特征表示并计算跨模态相似度。在计算跨模态相似度时,相似度/>的计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,表示第/>个图像数据,/>表示第/>个文本数据,/>表示图像数据/>的特征表示,/>表示文本数据/>的特征表示,/>表示为相似度函数/>的参数。
根据上述定义的相似度计算小批次数据的计算跨模态相似性矩阵S,计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,K表示文本数据与图像数据的数据对个数;/>表示第K个图像数据/>与第k个文本数据的跨模态相似度。
该跨模态相似性矩阵衡量了小批次样本中跨模态样本间的相关程度,且跨模态学习、训练时,目标在于使最大化跨模态相似性矩阵S的对角的相似度、最小化跨模态相似性矩阵S的非对角的相似度。
在根据跨模态相似度计算跨模态样本间的互补熵时,对于第对数据/>,文本模态A到图像模态B的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第/>列元素。
同理,对于第对数据/>,图像模态B到文本模态A的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第/>列元素。
对于小批次数据,利用基于互补熵的鲁棒对比损失函数对跨模态检索网络模型进行训练时,基于互补熵的鲁棒对比损失函数/>为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第对数据,/>为前述文本模态A到图像模态B的互补熵计算通式。
利用基于互补熵的鲁棒对比损失函数,优化跨模态检索网络模型的参数,具体为:
其中,分别为模态A编码器、模态B编码器以及相似度函数对参数为优化器。
跨模态实时检索模块,用于获取待检索的文本数据、图像数据,并输入跨模态检索网络模型训练模块训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对。
实施例3
本实施例提供一种计算机设备,其包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于互补熵对比学习跨模态检索方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如所述基于互补熵对比学习跨模态检索方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于互补熵对比学习跨模态检索方法的程序代码。
实施例4
本实施例提供一种计算机可读存储介质,该存储介质中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于互补熵对比学习跨模态检索方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于互补熵对比学习跨模态检索方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请实施例所述基于互补熵对比学习跨模态检索方法。
Claims (9)
1.一种基于互补熵对比学习跨模态检索方法,其特征在于,步骤为:
步骤S1,获取样本数据
获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据;
步骤S2,构建跨模态检索网络模型
构建对应文本数据的文本编码器、对应图像数据的图像编码器;
步骤S3,训练跨模态检索网络模型
采用步骤S1获取的样本数据对步骤S2构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵;
步骤S4,跨模态实时检索
获取待检索的文本数据、图像数据,并输入步骤S3训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对;
步骤S2中,构建跨模态检索网络模型时,文本编码器为Bi-GRU文本编码器,Bi-GRU文本编码器包括依次连接的嵌入层、Bi-GRU模型以及聚合层;
图像编码器为ResNet18图像编码器,ResNet18图像编码器包括依次连接的ResNet18残差神经网络、全连接层和聚合层。
2.如权利要求1所述的一种基于互补熵对比学习跨模态检索方法,其特征在于,步骤S3中,在计算跨模态相似度时,相似度的计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,/>表示第/>个图像数据,/>表示第/>个文本数据,/>表示图像数据/>的特征表示,表示文本数据/>的特征表示,/>表示为相似度函数/>的参数。
3.如权利要求2所述的一种基于互补熵对比学习跨模态检索方法,其特征在于,根据相似度,计算跨模态相似性矩阵S,计算公式为:
其中,表示第/>个图像数据/>与第/>个文本数据/>的跨模态相似度,K表示文本数据与图像数据的数据对个数;/>表示第K个图像数据/>与第k个文本数据/>的跨模态相似度。
4.如权利要求1所述的一种基于互补熵对比学习跨模态检索方法,其特征在于,步骤S3中,根据跨模态相似度计算跨模态样本间的互补熵时,对于第对数据/>,文本模态A到图像模态B的互补熵/>的计算公式为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,A表示文本模态A,B表示图像模态B,/>表示匹配概率;
匹配概率的计算公式为
其中,K表示文本数据与图像数据的数据对个数,A表示文本模态A,B表示图像模态B,为温度系数,/>表示相似度矩阵/>的第/>行第/>列元素,/>表示相似度矩阵/>的第/>行第列元素。
5.如权利要求1所述的一种基于互补熵对比学习跨模态检索方法,其特征在于,步骤S3中,采用基于互补熵的鲁棒对比损失函数对跨模态检索网络模型进行训练时,基于互补熵的鲁棒对比损失函数为:
其中,K表示文本数据与图像数据的数据对个数,表示第/>对数据,/>表示第/>对数据,/>为前述文本模态A到图像模态B的互补熵计算通式。
6.如权利要求5所述的一种基于互补熵对比学习跨模态检索方法,其特征在于,步骤S3中,利用基于互补熵的鲁棒对比损失函数,优化跨模态检索网络模型的参数,具体为:
其中,分别为模态A编码器、模态B编码器以及相似度函数对参数为优化器。
7.一种基于互补熵对比学习跨模态检索系统,其特征在于,包括:
样本数据获取模块,用于获取用于跨模态检索的样本数据,样本数据包括文本样本数据、图像样本数据;
跨模态检索网络模型构建模块,用于构建对应文本数据的文本编码器、对应图像数据的图像编码器;
跨模态检索网络模型训练模块,用于采用样本数据获取模块获取的样本数据对跨模态检索网络模型构建模块构建的跨模态检索网络模型进行训练,训练时,先利用跨模态检索网络模型获得相应样本数据的特征表示,并根据特征表示计算跨模态相似度,再根据跨模态相似度计算跨模态样本间的互补熵;
跨模态实时检索模块,用于获取待检索的文本数据、图像数据,并输入跨模态检索网络模型训练模块训练好的跨模态检索网络模型中,通过跨模态检索网络模型计算文本数据、图像数据之间的相似度,得到待检索的文本数据、图像数据的数据对。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311055072.1A CN116775918B (zh) | 2023-08-22 | 2023-08-22 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311055072.1A CN116775918B (zh) | 2023-08-22 | 2023-08-22 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116775918A true CN116775918A (zh) | 2023-09-19 |
CN116775918B CN116775918B (zh) | 2023-11-24 |
Family
ID=87991584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311055072.1A Active CN116775918B (zh) | 2023-08-22 | 2023-08-22 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775918B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370679A (zh) * | 2023-12-06 | 2024-01-09 | 之江实验室 | 一种多模态双向蕴含社交网络虚假消息验证的方法及装置 |
CN117992805A (zh) * | 2024-04-07 | 2024-05-07 | 武汉商学院 | 基于张量积图融合扩散的零样本跨模态检索方法、系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN112148916A (zh) * | 2020-09-28 | 2020-12-29 | 华中科技大学 | 一种基于监督的跨模态检索方法、装置、设备及介质 |
WO2021108783A1 (en) * | 2019-11-27 | 2021-06-03 | The Research Foundation For The State University Of New York | Methods and systems for assessing a vasculature |
CN113239214A (zh) * | 2021-05-19 | 2021-08-10 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
CN114969423A (zh) * | 2022-06-23 | 2022-08-30 | 天津理工大学 | 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备 |
US20220318621A1 (en) * | 2019-06-14 | 2022-10-06 | Vision Semantics Limited | Optimised Machine Learning |
CN115617945A (zh) * | 2022-10-12 | 2023-01-17 | 北京芯联心科技发展有限公司 | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 |
US20230034401A1 (en) * | 2021-07-16 | 2023-02-02 | Novoic Ltd. | Method of evaluating text similarity for diagnosis or monitoring of a health condition |
CN115827954A (zh) * | 2023-02-23 | 2023-03-21 | 中国传媒大学 | 动态加权的跨模态融合网络检索方法、系统、电子设备 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN116049459A (zh) * | 2023-03-30 | 2023-05-02 | 浪潮电子信息产业股份有限公司 | 跨模态互检索的方法、装置、服务器及存储介质 |
CN116610831A (zh) * | 2023-06-09 | 2023-08-18 | 中国电子科技集团公司第五十四研究所 | 语义细分及模态对齐推理学习跨模态检索方法及检索系统 |
-
2023
- 2023-08-22 CN CN202311055072.1A patent/CN116775918B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228686A (zh) * | 2017-06-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 用于实现图文匹配的方法、装置和电子设备 |
US20220318621A1 (en) * | 2019-06-14 | 2022-10-06 | Vision Semantics Limited | Optimised Machine Learning |
CN110909673A (zh) * | 2019-11-21 | 2020-03-24 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
WO2021108783A1 (en) * | 2019-11-27 | 2021-06-03 | The Research Foundation For The State University Of New York | Methods and systems for assessing a vasculature |
CN112148916A (zh) * | 2020-09-28 | 2020-12-29 | 华中科技大学 | 一种基于监督的跨模态检索方法、装置、设备及介质 |
CN113239214A (zh) * | 2021-05-19 | 2021-08-10 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
US20230034401A1 (en) * | 2021-07-16 | 2023-02-02 | Novoic Ltd. | Method of evaluating text similarity for diagnosis or monitoring of a health condition |
CN114969423A (zh) * | 2022-06-23 | 2022-08-30 | 天津理工大学 | 一种基于局部共享语义中心的图像文本跨模态检索模型、方法及计算机设备 |
CN115617945A (zh) * | 2022-10-12 | 2023-01-17 | 北京芯联心科技发展有限公司 | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 |
CN115858847A (zh) * | 2023-02-22 | 2023-03-28 | 成都考拉悠然科技有限公司 | 基于跨模态注意力保留的组合式查询图像检索方法 |
CN115827954A (zh) * | 2023-02-23 | 2023-03-21 | 中国传媒大学 | 动态加权的跨模态融合网络检索方法、系统、电子设备 |
CN116049459A (zh) * | 2023-03-30 | 2023-05-02 | 浪潮电子信息产业股份有限公司 | 跨模态互检索的方法、装置、服务器及存储介质 |
CN116610831A (zh) * | 2023-06-09 | 2023-08-18 | 中国电子科技集团公司第五十四研究所 | 语义细分及模态对齐推理学习跨模态检索方法及检索系统 |
Non-Patent Citations (2)
Title |
---|
DEYU LI等: "Determining the number of clusters using information entropy for mixed data", 《PATTERN RECOGNITION》, vol. 45, no. 6, pages 2251 - 2265 * |
张嘉诚等: "胸部X线影像和诊断报告的双塔跨模态检索", 《计算机应用研究 》, vol. 40, no. 8, pages 2543 - 2548 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370679A (zh) * | 2023-12-06 | 2024-01-09 | 之江实验室 | 一种多模态双向蕴含社交网络虚假消息验证的方法及装置 |
CN117370679B (zh) * | 2023-12-06 | 2024-03-26 | 之江实验室 | 一种多模态双向蕴含社交网络虚假消息验证的方法及装置 |
CN117992805A (zh) * | 2024-04-07 | 2024-05-07 | 武汉商学院 | 基于张量积图融合扩散的零样本跨模态检索方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116775918B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116775918B (zh) | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
WO2021056710A1 (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN103814351A (zh) | 基于协同姿势的输入语言 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN113707299B (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
US11520993B2 (en) | Word-overlap-based clustering cross-modal retrieval | |
CN112069319A (zh) | 文本抽取方法、装置、计算机设备和可读存储介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN114565807B (zh) | 训练目标图像检索模型的方法和装置 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN117407558B (zh) | 一种海洋遥感图文检索方法、装置、电子设备及存储介质 | |
CN111444802B (zh) | 一种人脸识别方法、装置及智能终端 | |
US20230215203A1 (en) | Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium | |
CN112733645A (zh) | 手写签名校验方法、装置、计算机设备及存储介质 | |
CN115408558A (zh) | 基于多尺度多示例相似度学习的长视频检索方法及装置 | |
CN113468421A (zh) | 基于向量匹配技术的产品推荐方法、装置、设备及介质 | |
CN116935449A (zh) | 指纹图像匹配模型训练方法、指纹匹配方法及相关介质 | |
CN112650877B (zh) | 一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法 | |
CN112417886B (zh) | 意图实体信息抽取方法、装置、计算机设备及存储介质 | |
CN116796840A (zh) | 医疗实体信息抽取方法、装置、计算机设备及存储介质 | |
CN113298265A (zh) | 一种基于深度学习的异构传感器潜在相关性学习方法 | |
Lulu et al. | TMNIO: Triplet merged network with involution operators for improved few‐shot image classification | |
CN117421386B (zh) | 基于gis的空间数据处理方法及系统 | |
CN116720517B (zh) | 搜索词成分识别模型构建方法以及搜索词成分识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Yizhi Inventor after: Hu Peng Inventor after: Wang Xu Inventor before: Hu Yizhi Inventor before: Hu Peng Inventor before: Wang Xu |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |