CN114817596A - 融合语义相似性嵌入和度量学习的跨模态图文检索方法 - Google Patents
融合语义相似性嵌入和度量学习的跨模态图文检索方法 Download PDFInfo
- Publication number
- CN114817596A CN114817596A CN202210390000.1A CN202210390000A CN114817596A CN 114817596 A CN114817596 A CN 114817596A CN 202210390000 A CN202210390000 A CN 202210390000A CN 114817596 A CN114817596 A CN 114817596A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- cross
- similarity
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,具体包括:首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习。同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型。通过实验表明,本发明能够有效解决跨模态图文检索中精确度不高的问题。
Description
技术领域
本发明涉及计算机视觉和模式识别领域,特别是指融合语义相似性嵌入和度量学习的跨模态图文检索方法。
背景技术
随着多模态数据的爆炸式增长,如何有效挖掘海量数据背后丰富的有价值信息成为研究热点。跨模态检索旨在于在不同模态的数据间(图像、文本、语音、视频等)进行检索,如图像检索文本、文本检索音频、音频检索视频等等,具有非常重要的研究价值。其应用场景也非常广泛,例如视频网站的精彩片段检索、个性化语义短视频检索、智能搜索系统等。
然而不同模态的数据间往往呈现底层特征异构而高层语义相关的强异构特性。例如老虎这一语义,在图像特征的表示上有SIFT、LBP等,但是文本特征的表示是字典向量等,可以看出从特征的描述上同一语义在不同模态数据的表达类型完全不同。因此,跨模态检索的研究十分具有挑战性。
在跨模态图文检索中大多数方法采用固定的预先定义好的的距离度量(如欧氏距离或余弦距离)去优化特征嵌入学习或者针对固定特征维度学习传统的线性度量(如马氏距离),这种方法虽然简单易实施,但是此类方法将相似性计算限制在固定维度且无法对不等长维度的特征对的相似性进行有效度量,具有局限性。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
本发明采用如下技术方案:
融合语义相似性嵌入和度量学习的跨模态图文检索方法,步骤如下:
最后将图像深度特征表征向量文本的特征表征向量gφ(xj)、预测特征向量预测文本特征向量txtp=P(gφ(xj))和相似性分数矩阵Si,j在单模态表征空间、跨模态公共表征空间和相似性度量学习空间中进行训练学习,得到最后的检索网络模型。
具体地,所述的图像数据xi是图像的原始像素特征,文本数据xj是通过Word2Vec自然语言模型抽取的特征矢量。
具体地,所述的图像特征提取网络包括:Vgg19网络和若干层全连接神经网络组成,其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到,全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c;其中隐藏层采用RELU激活函数,c为数据集的总类别数;
所述的文本特征提取网络包括:TextCNN网络和若干层全连接层组成,其中全连接层隐含层单元数分别为300、1024、1024、256和c,其中隐含层采用RELU激活函数,c为数据集的总类别数。
具体地,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数分别为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid函数得到相似性分数矩阵Si,j。
具体地,其所述的单模态表征空间的标签域监督损失L1,定义为:
具体地,其所述的跨模态公共表征空间的损失L2,定义为:
其中||||F表示Frobenius范数。
具体地,其所述的度量学习空间的损失L3为:
这里令相似性得分回归逼近真实的样本对之间的语义一致性,1表示图像文本样本对之间的相似性矩阵,其元素{0,1}如果两个输入样本对属于同一类则为1,不是同一类则为0;
最终得目标函数为:L=L1+λL2+L3,其中λ=0.1。
具体地,所述训练采用ADAM优化器,设置学习率为10-4,迭代训练500次,得到最终的检索网络模型。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
(2)本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,该方法着重于充分嵌入学习和非线性度量函数学习有效性,充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性,进一步提高了跨模态检索的精度。
附图说明
图1为本发明融合语义相似性嵌入和度量学习的跨模态图文检索方法的框架示意图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
参见图1所示,本发明一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,步骤如下:
1)设计图像特征提取网络和文本特征提取网络接收图像文本对其中xi是输入图像数据,xj是输入的文本数据,其中n表示图像文本对数,每个图像文本对都有一个与之对应的标签向量c是数据集中的类别数,且定义若第i个实例属于第j类,则yji=1,否则yji=0;
进一步的,步骤1)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的xi是图像的原始像素特征,xj是通过Word2Vec自然语言模型抽取的特征矢量,且Word2Vec模型在Google News上进行预训练。
进一步的,步骤2)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的图像特征提取网络Vgg19网络和若干层全连接神经网络组成,其中Vgg19网络初始参数在Imagenet上进行预训练和微调得到,全连接神经网络的隐藏层单元数目分别为4096、1024、1024、256和c。其中所有层都采用RELU激活函数,c为数据集的总类别数;所述的文本特征提取网络为TextCNN网络和若干层全连接层组成,其中全连接层隐含层单元数分别为300、1024、1024、256和c,其中所有层都采用RELU激活函数,c为数据集的总类别数。
进一步的,步骤3)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid得到相似性得分Si,j。
进一步的,步骤4)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的单模态标签域监督损失L1,其定义为:
进一步的,步骤5)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的跨模态公共表征空间损失L2,其定义为:
其中||||F表示Frobenius范数。
进一步的,步骤6)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,其所述的相似性度量学习空间损失L3为:
这里令相似性得分回归逼近真实的样本对之间的语义一致性,1表示图像文本样本对之间的相似性矩阵,其元素{0,1}如果两个输入样本对属于同一类则为1,不是同一类则为0。
进一步的,步骤7)中,所述的最终得目标函数为:L=L1+λL2+L3,其中λ=0.1。
进一步的,步骤8)中,所述的一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的训练过程采用ADAM优化器,设置学习率为10-4,并迭代训练500次,得到最终的检索模型。
本发明提出一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,首先构建特征嵌入模块抽取每个模态的深度特征,然后在图像和文本的单模态表征空间和跨模态公共表征空间通过标签域监督信息和语义一致性监督信息分别进行表征学习,同时,设计一个深度相似性度量网络对融合后的图像文本对进行相似性比较,得到相似性得分,通过语义相似性矩阵监督相似性学习。通过损失函数将模型统一到一个整体的框架内,训练可得到端到端的跨模态图文检索模型,本发明能够有效解决跨模态图文检索中精确度不高的问题。
本发明提供了一种融合语义相似性嵌入和度量学习的跨模态图文检索方法,该方法着重于充分嵌入学习和非线性度量函数学习有效性,充分利用语义信息的相似性和深度卷积神经网络的非线性逼近特性更高的保留了跨模态数据之间的相似性,进一步提高了跨模态检索的精度。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (8)
1.融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,步骤如下:
2.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的图像数据xi是图像的原始像素特征,文本数据xj是通过Word2Vec自然语言模型抽取的特征矢量。
4.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述的相似性度度量网络由三层全连接神经网络构成,其中每一层隐藏神经元个数分别为512、1024、1,所有层都采用RELU激活函数,最后一层输出层采用Sigmoid函数得到相似性分数矩阵Si,j。
8.根据权利要求1所述的融合语义相似性嵌入和度量学习的跨模态图文检索方法,其特征在于,所述训练采用ADAM优化器,设置学习率为10-4,迭代训练500次,得到最终的检索网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390000.1A CN114817596A (zh) | 2022-04-14 | 2022-04-14 | 融合语义相似性嵌入和度量学习的跨模态图文检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390000.1A CN114817596A (zh) | 2022-04-14 | 2022-04-14 | 融合语义相似性嵌入和度量学习的跨模态图文检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817596A true CN114817596A (zh) | 2022-07-29 |
Family
ID=82536710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210390000.1A Withdrawn CN114817596A (zh) | 2022-04-14 | 2022-04-14 | 融合语义相似性嵌入和度量学习的跨模态图文检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817596A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
CN116431849A (zh) * | 2023-04-07 | 2023-07-14 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
-
2022
- 2022-04-14 CN CN202210390000.1A patent/CN114817596A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431849A (zh) * | 2023-04-07 | 2023-07-14 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
CN116431849B (zh) * | 2023-04-07 | 2024-01-02 | 四川大学 | 一种基于证据学习的鲁棒图文检索方法 |
CN116127123A (zh) * | 2023-04-17 | 2023-05-16 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
Lopez et al. | Deep Learning applied to NLP | |
CN106649715B (zh) | 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
Wang et al. | Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval | |
CN110210468B (zh) | 一种基于卷积神经网络特征融合迁移的文字识别方法 | |
CN114817596A (zh) | 融合语义相似性嵌入和度量学习的跨模态图文检索方法 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN114882521B (zh) | 基于多分支网络的无监督行人重识别方法及装置 | |
Yu et al. | Research on automatic music recommendation algorithm based on facial micro-expression recognition | |
CN114817673A (zh) | 一种基于模态关系学习的跨模态检索方法 | |
Yan et al. | Biomedical literature classification with a CNNs-based hybrid learning network | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN118113855B (zh) | 一种舰船试验训练场景问答方法、系统、设备和介质 | |
CN116450796A (zh) | 一种智能问答模型构建方法及设备 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
CN115982467A (zh) | 一种去偏化用户多兴趣推荐方法、装置及存储介质 | |
CN116956128A (zh) | 一种基于超图的多模态多标签分类方法及系统 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220729 |
|
WW01 | Invention patent application withdrawn after publication |