CN110457516A - 一种跨模态图文检索方法 - Google Patents
一种跨模态图文检索方法 Download PDFInfo
- Publication number
- CN110457516A CN110457516A CN201910741822.8A CN201910741822A CN110457516A CN 110457516 A CN110457516 A CN 110457516A CN 201910741822 A CN201910741822 A CN 201910741822A CN 110457516 A CN110457516 A CN 110457516A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- cross
- data
- module state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于栈式跨模态自编码器的跨模态图文检索方法,其主要目的是提高跨模态图文检索的精确度。首先,对图像和文本数据进行预处理,得到图像特征和文本特征,再通过两层受限玻尔兹曼机,提取单模态表示;其次,通过构建深层次的栈式跨模态自编码器,挖掘模态间的相关性;最终,训练模型并得到模型文件,在验证集上完成跨模态图文检索任务。本发明在实现了图文检索中常用的两种检索任务(以图检文和以文检图)的基础上,还能实现输入一种模态数据返回多种模态数据,在三个跨模态图文检索数据集上提升了模型检索精确度和泛化能力。
Description
技术领域
本发明涉及跨模态图文检索领域,具体涉及一种基于栈式跨模态自编码器的跨模态图文检索方法。
背景技术
在大数据时代,海量的多模态数据具有数据类型多样化、数据储量大以及大部分为无标签数据等特点,对于不同模态的数据其含有各自独有的信息,但同时不同模态信息间在某个语义层次上存在较强的关联。如何跨越不同模态数据之间的“异构鸿沟”,构建不同模态数据的共享表示,并提高检索的精确度,是跨模态检索领域的重要技术问题。
发明内容
本发明提供一种基于栈式跨模态自编码器的跨模态图文检索方法,其主要目的是提高跨模态图文检索的精确度。首先,对图像和文本数据进行预处理,得到图像特征和文本特征,再通过两层受限玻尔兹曼机,提取单模态表示;其次,通过构建深层次的栈式跨模态自编码器,挖掘模态间的相关性;最终,训练模型并得到模型文件,在验证集上完成跨模态图文检索任务。本发明在实现了图文检索中常用的两种检索任务(以图检文和以文检图)的基础上,还能实现输入一种模态数据返回多种模态数据,在三个跨模态图文检索数据集上提升了模型检索精确度和泛化能力。
本发明的技术方案主要包括以下步骤:
(1)给定原始跨模态图文检索数据集,其中包括图像和文本两种模态数据,分为训练集、验证集以及测试集。
(2)构建基于栈式跨模态自编码器的图文检索模型:模型第一层选用GaussianRBM和Replicated Softmax RBM提取输入的图像数据和文本数据的特征表示,并约减图像特征维度和文本特征维度,进行利用对比散度算法对第一层RBM进行训练,并更新权重参数;将模型第一层输出的单模态特征表示用于第二层输入,模型第二层选用两个原始RBM加深网络的深度,学习深层次的单模态表示,进一步约减不同模态的特征维度到512维;在所述图文检索模型的关联学习阶段,首先,构建包含图像文本对和单模态输入的扩增数据集,作为模型的输入;其次,在自编码器隐藏层之间引入关联误差函数学习模态间的关联信息,使得模型可以更好地建模不同模态间的语义相关性;最终,在训练过程中,采用layer-wise训练策略,通过分层逐步训练跨模态自编码器提升模型的学习能力,从而提升模型的表征能力。
(3)对图片数据和文本数据进行预处理,提取各自的单模态特征表示:利用跨模态数据集中训练集对深度卷积神经网络VGG-16模型进行微调,更新模型参数,并采用交叉验证的方式得到最优模型;利用微调后的所述深度卷积神经网络VGG-16模型提取图像数据的单模态特征表示,将fc7层作为网络的输出,得到4096维的图像特征表示向量。
(4)通过所述4096维的图像特征和文本数据的词袋特征作为所述图文检索模型关联学习阶段的输入,训练模型,并提取图像和文本的最终表示;通过相似性度量函数对图像数据和文本数据间的共享表示计算距离;对获得的结果依照距离从小到大排列,最终得到的排序结果即是跨模态检索结果。
附图说明
图1为本发明的图文检索流程图。
具体实施方式
下面着重详细地描述本发明的技术方案和技术效果。
一.基于栈式跨模态自编码器的图文检索方法主要包括如下步骤:
(1)给定原始跨模态图文检索数据集,其中包括图像和文本两种模态数据,分为训练集、验证集以及测试集。
(2)对图片数据和文本数据进行预处理,提取各自的单模态特征表示。
(3)利用深度学习工具包DeepNet构建基于栈式跨模态自编码器的图文检索模型(Stacked-CAE);在第一个学习阶段,分别使用两层RBM提取图像和文本特征;第二个学习阶段,采用栈式跨模态自编码器,学习不同模态间的共享表示。
(4)将图文检索数据集中训练集和验证集载入构建的Stacked-CAE模型中进行训练和验证,并生成相应的模型文件。
(5)调用训练好的模型文件提取测试集中图像和文本的共享表示,完成以图检文和以文检图两种图文检索任务,得到检索结果,评估该模型的泛化能力及检索精确度,并实现输入一种模态数据返回多种模态数据的检索结果。
其中上述步骤(2)中所述的提取单模态特征表示的主要步骤如下:
(1)采用在跨模态数据集上微调的深度卷积神经网络VGG-16模型,提取图片特征表示。
(2)采用词袋模型提取文本特征表示。
二.利用深度卷积神经网络VGG-16模型提取图片特征表示,包括如下步骤:
(1)构建VGG-16网络结构,使用VGG-16网络在ImageNet上的预训练权重,初始化模型权重。
(2)利用跨模态数据集中训练集对模型进行微调,并更新模型参数,并采用交叉验证的方式得到最优模型。
(3)利用微调后的模型提取图像数据的单模态特征表示,将fc7层作为网络的输出,得到4096维的图像特征表示向量。
(4)通过VGG-16网络得到4096维的图像特征和文本数据的词袋特征作为图文检索模型(Stacked-CAE)关联学习阶段的输入,训练模型,并提取图像和文本的最终表示。
(5)通过相似性度量函数对图像数据和文本数据间的共享表示计算距离。
(6)对获得的结果依照距离从小到大排列,图像和文本数据之间越相关,距离越接近,最终得到的排序结果,即是跨模态检索结果。
三.构建基于栈式跨模态自编码器的图文检索模型的结构具体包括以下步骤:
(1)模型的第一层选用Gaussian RBM和Replicated Softmax RBM提取输入的图像数据和文本数据的特征表示,并约减图像特征维度和文本特征维度,进行利用对比散度(CD)算法对第一层RBM进行训练,并更新权重参数;
(2)将第一层输出的单模态特征表示用于第二层输入,模型第二层选用两个原始RBM加深网络的深度,学习深层次的单模态表示,进一步约减不同模态的特征维度到512维;
(3)在模型的关联学习阶段,本发明提出栈式跨模态自编码器学习模态间的关联关系,首先,构建包含图像文本对和单模态输入的扩增数据集,作为模型的输入;其次,在自编码器隐藏层之间引入关联误差函数学习模态间的关联信息,使得模型可以更好地建模不同模态间的语义相关性;最终,在训练过程中,采用layer-wise训练策略,通过分层逐步训练跨模态自编码器提升了模型的学习能力,从而提升模型的表征能力。
四.本发明的最终检索维度为64维,在以文检图和以图检文两个检索任务上,本发明提供的Stacked-CAE模型与其他已公开的模型相比,在这三个数据集(训练集、验证集和测试集)上的准确率有显著提升,由于NUS-WIDE-10k数据集的量级最大,所以本发明提供的模型在此数据集上提升最为显著。在三个跨模态图文检索领域数据集上,本发明所提供的模型与已公开的效果最好的模型相比,两种检索任务上性能指标mAP的平均值分别从0.311、0.297和0.247增加到0.351、0.383和0.284。
以两阶段模型CCA为基准,在Wikipedia、Pascal和NUS-WIDE-10k数据集上,本发明所提供的模型在以图检文任务上的mAP值分别提高54.9%、87.4%和75.2%;同样在三个数据集上,本发明所提供的模型分别将以文检图任务的mAP值提高58.3%、46.2%和86.3%。模型在三个不同量级、分布和数据的跨模态检索数据集上检索精度都得到了提升,证明了本发明所提供的模型具有较好的泛化能力。
Claims (2)
1.一种跨模态图文检索方法,所述方法包括如下步骤:
(1)给定原始跨模态图文检索数据集,其中包括图像和文本两种模态数据,分为训练集、验证集以及测试集;
(2)构建基于栈式跨模态自编码器的图文检索模型:模型第一层选用Gaussian RBM和Replicated Softmax RBM提取输入的图像数据和文本数据的特征表示,并约减图像特征维度和文本特征维度,进行利用对比散度算法对第一层RBM进行训练,并更新权重参数;将模型第一层输出的单模态特征表示用于第二层输入,模型第二层选用两个原始RBM加深网络的深度,学习深层次的单模态表示,进一步约减不同模态的特征维度到512维;在所述图文检索模型的关联学习阶段,首先,构建包含图像文本对和单模态输入的扩增数据集,作为模型的输入;其次,在自编码器隐藏层之间引入关联误差函数学习模态间的关联信息,使得模型可以更好地建模不同模态间的语义相关性;最终,在训练过程中,采用layer-wise训练策略,通过分层逐步训练跨模态自编码器提升模型的学习能力,从而提升模型的表征能力;
(3)对图片数据和文本数据进行预处理,提取各自的单模态特征表示:利用跨模态数据集中训练集对深度卷积神经网络VGG-16模型进行微调,更新模型参数,并采用交叉验证的方式得到最优模型;利用微调后的所述深度卷积神经网络VGG-16模型提取图像数据的单模态特征表示,将fc7层作为网络的输出,得到4096维的图像特征表示向量;
(4)通过所述4096维的图像特征和文本数据的词袋特征作为所述图文检索模型关联学习阶段的输入,训练模型,并提取图像和文本的最终表示;通过相似性度量函数对图像数据和文本数据间的共享表示计算距离;对获得的结果依照距离从小到大排列,最终得到的排序结果即是跨模态检索结果。
2.根据权利要求1所述的方法,还包括如下步骤:
(1)将图文检索数据集中训练集和验证集载入构建的基于栈式跨模态自编码器的图文检索模型中进行训练和验证,并生成相应的模型文件;
(2)调用训练好的模型文件提取测试集中图像和文本的共享表示,完成以图检文和以文检图两种图文检索任务,得到检索结果,评估该模型的泛化能力及检索精确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741822.8A CN110457516A (zh) | 2019-08-12 | 2019-08-12 | 一种跨模态图文检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741822.8A CN110457516A (zh) | 2019-08-12 | 2019-08-12 | 一种跨模态图文检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457516A true CN110457516A (zh) | 2019-11-15 |
Family
ID=68486071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741822.8A Pending CN110457516A (zh) | 2019-08-12 | 2019-08-12 | 一种跨模态图文检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457516A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026935A (zh) * | 2019-12-05 | 2020-04-17 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111599438A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法 |
CN111598214A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于图卷积神经网络的跨模态检索方法 |
CN111651660A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种跨媒体检索困难样本的方法 |
CN112488131A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自监督对抗的图片文本跨模态检索方法 |
CN112632315A (zh) * | 2020-12-30 | 2021-04-09 | 珠海大横琴科技发展有限公司 | 一种遥感图像检索的方法和装置 |
WO2021104274A1 (zh) * | 2019-11-29 | 2021-06-03 | 智慧芽信息科技(苏州)有限公司 | 图文联合表征的搜索方法、系统、服务器和存储介质 |
CN113094534A (zh) * | 2021-04-09 | 2021-07-09 | 陕西师范大学 | 一种基于深度学习的多模态图文推荐方法及设备 |
CN116975318A (zh) * | 2023-08-03 | 2023-10-31 | 四川大学 | 一种基于互关联挖掘的半配对图文检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346328A (zh) * | 2017-05-25 | 2017-11-14 | 北京大学 | 一种基于多粒度层级网络的跨模态关联学习方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN109189968A (zh) * | 2018-08-31 | 2019-01-11 | 深圳大学 | 一种跨模态检索方法及系统 |
US20190130221A1 (en) * | 2017-11-02 | 2019-05-02 | Royal Bank Of Canada | Method and device for generative adversarial network training |
CN109783655A (zh) * | 2018-12-07 | 2019-05-21 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
-
2019
- 2019-08-12 CN CN201910741822.8A patent/CN110457516A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346328A (zh) * | 2017-05-25 | 2017-11-14 | 北京大学 | 一种基于多粒度层级网络的跨模态关联学习方法 |
CN107832351A (zh) * | 2017-10-21 | 2018-03-23 | 桂林电子科技大学 | 基于深度关联网络的跨模态检索方法 |
US20190130221A1 (en) * | 2017-11-02 | 2019-05-02 | Royal Bank Of Canada | Method and device for generative adversarial network training |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN109189968A (zh) * | 2018-08-31 | 2019-01-11 | 深圳大学 | 一种跨模态检索方法及系统 |
CN109783655A (zh) * | 2018-12-07 | 2019-05-21 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
BAOHUA QIANG: "Cross-modal Retrieval Based on Stacked Bimodal Auto-Encoder", 《2019 ELEVENTH INTERNATIONAL CONFERENCE ON ADVANCED COMPUTATIONAL INTELLIGENCE (ICACI)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021104274A1 (zh) * | 2019-11-29 | 2021-06-03 | 智慧芽信息科技(苏州)有限公司 | 图文联合表征的搜索方法、系统、服务器和存储介质 |
CN111026935B (zh) * | 2019-12-05 | 2023-03-21 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111026935A (zh) * | 2019-12-05 | 2020-04-17 | 中国科学院自动化研究所 | 基于自适应度量融合的跨模态检索重排序方法 |
CN111598214A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于图卷积神经网络的跨模态检索方法 |
CN111599438A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法 |
CN111598214B (zh) * | 2020-04-02 | 2023-04-18 | 浙江工业大学 | 一种基于图卷积神经网络的跨模态检索方法 |
CN111599438B (zh) * | 2020-04-02 | 2023-07-28 | 浙江工业大学 | 一种基于多模态数据的面向糖尿病患者的实时饮食健康监控方法 |
CN111651660A (zh) * | 2020-05-28 | 2020-09-11 | 拾音智能科技有限公司 | 一种跨媒体检索困难样本的方法 |
CN112488131A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于自监督对抗的图片文本跨模态检索方法 |
CN112488131B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于自监督对抗的图片文本跨模态检索方法 |
CN112632315A (zh) * | 2020-12-30 | 2021-04-09 | 珠海大横琴科技发展有限公司 | 一种遥感图像检索的方法和装置 |
CN113094534A (zh) * | 2021-04-09 | 2021-07-09 | 陕西师范大学 | 一种基于深度学习的多模态图文推荐方法及设备 |
CN116975318A (zh) * | 2023-08-03 | 2023-10-31 | 四川大学 | 一种基于互关联挖掘的半配对图文检索方法 |
CN116975318B (zh) * | 2023-08-03 | 2024-01-23 | 四川大学 | 一种基于互关联挖掘的半配对图文检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457516A (zh) | 一种跨模态图文检索方法 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN110020682B (zh) | 一种基于小样本学习的注意力机制关系对比网络模型方法 | |
Zhao et al. | Learning deep features to recognise speech emotion using merged deep CNN | |
CN105046277B (zh) | 特征显著性在图像质量评价中的鲁棒机理研究方法 | |
CN111582225B (zh) | 一种遥感图像场景分类方法及装置 | |
CN106649275A (zh) | 基于词性信息和卷积神经网络的关系抽取方法 | |
CN106855853A (zh) | 基于深度神经网络的实体关系抽取系统 | |
CN108090902A (zh) | 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法 | |
CN108717439A (zh) | 一种基于注意力机制和特征强化融合的中文文本分类方法 | |
CN110858269B (zh) | 事实描述文本预测方法及装置 | |
CN106845529A (zh) | 基于多视野卷积神经网络的影像特征识别方法 | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及系统 | |
CN106022273A (zh) | 基于动态样本选择策略的bp神经网络手写体识别系统 | |
CN113486981A (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
CN109408823A (zh) | 一种基于多通道模型的特定目标情感分析方法 | |
CN110874439A (zh) | 一种基于评论信息的推荐方法 | |
CN114038055A (zh) | 一种基于对比学习和生成对抗网络的图像生成方法 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN114937182B (zh) | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 | |
CN106682730B (zh) | 基于vgg16图像反卷积的网络性能评估方法 | |
CN108229505A (zh) | 基于fisher多级字典学习的图像分类方法 | |
Camacho et al. | Convolutional neural network initialization approaches for image manipulation detection | |
CN113420833B (zh) | 一种基于问题语义映射的视觉问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191115 |
|
WD01 | Invention patent application deemed withdrawn after publication |