CN115599942A - 一种基于gcn的深度无监督跨模态检索方法 - Google Patents
一种基于gcn的深度无监督跨模态检索方法 Download PDFInfo
- Publication number
- CN115599942A CN115599942A CN202211389979.7A CN202211389979A CN115599942A CN 115599942 A CN115599942 A CN 115599942A CN 202211389979 A CN202211389979 A CN 202211389979A CN 115599942 A CN115599942 A CN 115599942A
- Authority
- CN
- China
- Prior art keywords
- text
- similarity
- gcn
- modal
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 28
- 238000002474 experimental method Methods 0.000 abstract description 9
- 238000012549 training Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 229940050561 matrix product Drugs 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于GCN的深度无监督跨模态检索方法,涉及跨模态检索技术领域,包括以下步骤:S1:利用GCN搭建文本编码器,将特征相近的文本实例联系起来,丰富文本特征,S2:使用Hadamard乘积对原始的模内相似度矩阵进行增强,提出增强注意力融合机制对不同模态的语义相似度矩阵进行融合,针对不同的实例的文本和图像相似度有不同注意力。本发明中,该机制能够随着数据集和样本的特征分布的改变而自适应地调整注意力;在三个公共数据集上的大量实验表明,所提出的DESAH方法可以学习更有效的哈希函数,以利于跨模态检索任务,并且基线方法相比,总体上显示了更高的检索精度。
Description
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于GCN的深度无监督跨模态检索方法。
背景技术
随着大数据的高速发展,文本、图像以及视频等不同模态的数据也呈现爆炸式增长,海量的数据不仅仅是单纯的数量大,它们所蕴含的信息也更加丰富。近年来,由于深度哈希方法在跨模态检索任务中展现了其存储成本低和检索效率高的特点而备受关注。跨模态哈希方法旨在发掘不同模态数据之间的相关性,以实现跨模态相似性搜索。它将不同模式的数据投射到一个共同的汉明空间中去进行快速检索。
无监督方法就是只分析原始特征以揭示它们的内在关系以指导哈希学习,避免使用成本高昂的人工标注标签。由于只能分析原始特征信息,所以所学习的哈希码和哈希函数的准确与否高度依赖于可以从原始数据集中挖掘出有效信息的多少。这样一来,特征提取过程在哈希码和哈希函数的学习过程中就比较重要了。
尽管现存的方法取得了巨大的成功,但现存的无监督跨模态哈希方法仍然存在普遍的问题。一是文本所提取的特征不够丰富,稀疏的文本特征导致所构建的文本模态相似度矩阵指导效果较差。二是多模态的相似度矩阵不能做到自适应融合,不同的特征分布的数据集其权衡参数各有差异。
为此,我们设计了一种基于GCN的深度无监督跨模态检索方法用来解决上述问题。
发明内容
本发明提供一种基于GCN的深度无监督跨模态检索方法。
为解决上述技术问题,本发明提供的一种基于GCN的深度无监督跨模态检索方法,包括以下步骤:S1:利用GCN搭建文本编码器,将特征相近的文本实例联系起来,丰富文本特征,通过这种方式,可以显著的缓解文本特征稀疏问题;
S2:使用Hadamard
乘积对原始的模内相似度矩阵进行增强,提出了增强注意力融合机制对不同模态的语义相似度矩阵进行融合,针对不同的实例的文本和图像相似度有不同注意力,且该机制会随着数据集分布的改变自适应地调整注意力;
S3:在三个公共基准的大量实验表明,DESAH可以比其他无监督跨模态哈希方法更有效地优化哈希函数,我们利用GCN搭建了一个文本编码器,用以挖掘更多的文本语义特征;一方面,我们对原有的相似度矩阵进行了增强操作;另一方面,我们设计了一个基于增强相似度的注意力融合机制,使得每个实例的模态内相似度相互补充融合,形成了统一的模态间相似度矩阵,用以更好地指导哈希码的学习;与此同时,该机制还能够随着数据集和样本的特征分布的改变而自适应地调整注意力;在三个公共数据集上的大量实验表明,所提出的DESAH方法可以学习更有效的哈希函数,以利于跨模态检索任务,并且基线方法相比,总体上显示了更高的检索精度。
优选的,所述S2中使用Hadamard乘积对原始相似度进行了重新加权优化,得到高阶非局部相似度矩阵,再通过加权不同模态的相似度矩阵得到统一的相似度矩阵。
优选的,利用图卷积网络搭建了一个文本编码器提取文本实例的特征,构建文本A与其他文本的语义联系图,采用增强语义相似度矩阵,增强相似度操作。
优选的,所述检索方法主要包含两个编码器:Ex和Ey,分别对图像和文本特征编码,Ex和Ey建立在不同的基础网络框架上。
优选的,所述S2中,通过邻接矩阵来将两个特征相近的文本实例联系起来,通过图卷积层后得到比一般全连接层更加丰富文本特征。
优选的,HNH使用Hadamard乘积对原始相似度进行了重新加权优化,从而得到高阶非局部相似度矩阵,然后通过加权不同模态的相似度矩阵得到统一的相似度矩阵。
优选的,为了进一步地丰富文本模态特征,我们试图利用图卷积网络搭建了一个文本编码器提取文本实例的特征,文本A与其他文本的语义联系图,在考虑各个文本之间语义联系后,文本A的特征显得更加丰富,与此同时,我们基于增强语义相似度矩阵的动机,提出了增强语义相似度矩阵用以替换原有的相似度矩阵指导哈希码的学习,增强相似度操作进一步的扩大相似样本之间的相似度,降低两不相似样本之间的相似度,依据此操作对原有的相似度矩阵进行更新,为了提高模型的泛化能力,我们设计了一种新颖的增强注意力融合机制,用于构建统一的跨模态相似度矩阵。
优选的,我们所提出的模型无监督跨模态哈希检索模型,主要包含两个编码器:Ex和Ey,分别对图像和文本特征编码。由于原始图像和文本具有特定的特征和分布,因此Ex和Ey建立在不同的基础网络框架上。具体而言,Ex是预训练(在ImageNet上)VGG19模型的变体,它由五个卷积层和三个全连接(fc)层组成。我们将原模型的最后一层替换成一个全连接(fc)层,作为哈希映射层,该层包含c个隐藏神经元,作用是将经过Ex图像编码器后的特征映射成为维度为c的哈希表征。Ey是一个三层的图卷积网络(GCN)。给定批量输入的图像-文本对,在每次开始迭代时,我们从预训练过的VGG19[49]的前七层提取4096维向量作为原始图像特征,并使用原始文本特征,例如,BoW特征,作为原始文本表示。然后分别使用这两个不同模态特征形成各自的相似度矩阵,再使用增强注意力融合模块将两种模态构建成一个统一的相似度矩阵,新设计的策略将在后面进行详细说明。我们将数据集中的原始图像和文本特征作为输入到我们的网络中,随后输出相对应的哈希表征。为了确保学习的表示可以有效地保留原始的相似关系,我们通过最小化损失函数来不断优化整个网络。
优选的,为了有效地从原始实例中提取判别特征生成紧凑的哈希码,使用两个编码器Ex和Ey。Ex将每个原始图像特征映射成4096维的高维图像特征Fx,并通过最后的哈希映射层成为c维的哈希表征Hx。Ey由三层图卷积层构成,其网络结构依次是Fy→4096→4096→c,同时每个图卷积层都伴随有两个输入,一是特征输入,二是由BoW特征构造的邻接矩阵。通过GCN的目的是使得模型能够更好地提取文本特征,得到更加丰富的文本特征信息,通过邻接矩阵来将两个特征相近的文本实例联系起来,通过图卷积层后便可以得到比一般全连接层更加丰富文本特征,因为图卷积不仅会获取当前单一文本的特征,而且还会联系与它相近(邻接矩阵显示二者可达)的文本特征。原始文本特征Y先经过BoW模型得到文本BoW特征Fy,Fy再经过文本编码器Ey后得到c维的哈希表征Hy。在模型训练阶段为了方便函数优化Hx,Hy经过tanh函数激活得到Bx,By,在验证阶段,经过符号函数的赋值后成为二进制表示Bx,By。
Hx=Ex(X)
Fy=BoW(Y) (1)
Hy=Ey(Fy)。
与相关技术相比较,本发明提供的一种基于GCN的深度无监督跨模态检索方法具有如下有益效果:
本发明中,我们利用GCN搭建了一个文本编码器,用以挖掘更多的文本语义特征;一方面,我们对原有的相似度矩阵进行了增强操作;另一方面,我们设计了一个基于增强相似度的注意力融合机制,使得每个实例的模态内相似度相互补充融合,形成了统一的模态间相似度矩阵,用以更好地指导哈希码的学习;与此同时,该机制还能够随着数据集和样本的特征分布的改变而自适应地调整注意力;在三个公共数据集上的大量实验表明,所提出的DESAH方法可以学习更有效的哈希函数,以利于跨模态检索任务,并且基线方法相比,总体上显示了更高的检索精度。
附图说明
图1为一种基于主题模型的跨模态检索方法的流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,如果有涉及到的术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
实施例一
由图1给出,一种基于GCN的深度无监督跨模态检索方法,包括以下步骤:S1:利用GCN搭建文本编码器,将特征相近的文本实例联系起来,丰富文本特征,通过这种方式,可以显著的缓解文本特征稀疏问题;
S2:使用Hadamard乘积对原始的模内相似度矩阵进行增强,提出了增强注意力融合机制对不同模态的语义相似度矩阵进行融合,针对不同的实例的文本和图像相似度有不同注意力,且该机制会随着数据集分布的改变自适应地调整注意力;
S3:在三个公共基准的大量实验表明,DESAH可以比其他无监督跨模态哈希方法更有效地优化哈希函数。
首先,我们利用GCN搭建了一个文本编码器,同时提取某一样本的特征和与其语义邻近的样本特征,用以丰富文本特征;其次,我们提出了增强注意力融合机制,该机制将原本的相似度矩阵进行增强,并利用注意力机制自适应融合不同模态内相似度矩阵,进而形成统一的模态间相似度矩阵用以指导哈希函数的学习;最后,我们设计了模态内和模态间的相似度保持损失函数,用以更好的学习哈希码;在三个跨模态检索数据集上的大量实验表明,所提出的DESAH达到了最先进的基线。
实施例二
在实施例一的基础上,S2中使用Hadamard乘积对原始相似度进行了重新加权优化,得到高阶非局部相似度矩阵,再通过加权不同模态的相似度矩阵得到统一的相似度矩阵,利用图卷积网络搭建了一个文本编码器提取文本实例的特征,构建文本A与其他文本的语义联系图,采用增强语义相似度矩阵,增强相似度操作,检索方法主要包含两个编码器:Ex和Ey,分别对图像和文本特征编码,Ex和Ey建立在不同的基础网络框架上,S2中,通过邻接矩阵来将两个特征相近的文本实例联系起来,通过图卷积层后得到比一般全连接层更加丰富文本特征。
为了更好的理解本文跨模态哈希任务,我们首先给出符号定义和相关问题的表述。假定有一个具有n对图像文本对的多模态数据集O=(X,Y),其中dx表示图像特征的维度,dy表示文本特征的维度,n代表模型训练样本个数。具体而言,在实验中,我们假设样本全部来自于以上的两个模态数据。
给定训练数据和特定的代码长度c,假定图像特征x和文本特征y分别通过映射函数f(x,θx)和g(y,θy)并获得相应的二进制表示By∈{-1,1}c×n和Bx∈{-1,1}c×n,其中n为训练样本个数,其中θx和θy是网络参数。我们方法的目的是学习这两个投影函数的参数,使得原始特征投影成紧凑的哈希码,且能够保持原始多模态空间中的模态间和模态内相似性。
在本文中,为了更加简洁地表示相关运算法则,我们定义了一些特殊符号。我们使用大写字母(例如M)来表示矩阵,使用粗体小写字母(例如m)来表示向量。Mi*和M*j分别代表M的第i行和第j列。Mij是矩阵M的(i,j)位置的元素。MT的转置表示为,M-1表示矩阵M的逆。另外,Ic表示一个单位矩阵,维数为c,||·||2表示向量或矩阵的2-Norm,||·||F表示向量或矩阵的Frobenius。
任意两个矩阵之间乘积⊙(即矩阵乘法),例如M⊙N定义为:
sign(·)是一个按元素的符号函数,定义如下:
如图1所示,我们所提出的模型无监督跨模态哈希检索模型,主要包含两个编码器:Ex和Ey,分别对图像和文本特征编码。由于原始图像和文本具有特定的特征和分布,因此Ex和Ey建立在不同的基础网络框架上。具体而言,Ex是预训练(在ImageNet上)VGG19模型的变体,它由五个卷积层和三个全连接(fc)层组成。我们将原模型的最后一层替换成一个全连接(fc)层,作为哈希映射层,该层包含c个隐藏神经元,作用是将经过Ex图像编码器后的特征映射成为维度为c的哈希表征。Ey是一个三层的图卷积网络(GCN)。给定批量输入的图像-文本对,在每次开始迭代时,我们从预训练过的VGG19[49]的前七层提取4096维向量作为原始图像特征,并使用原始文本特征,例如,BoW特征,作为原始文本表示。然后分别使用这两个不同模态特征形成各自的相似度矩阵,再使用增强注意力融合模块将两种模态构建成一个统一的相似度矩阵,新设计的策略将在后面进行详细说明。我们将数据集中的原始图像和文本特征作为输入到我们的网络中,随后输出相对应的哈希表征。为了确保学习的表示可以有效地保留原始的相似关系,我们通过最小化损失函数来不断优化整个网络。
为了有效地从原始实例中提取判别特征生成紧凑的哈希码,使用两个编码器Ex和Ey。Ex将每个原始图像特征映射成4096维的高维图像特征Fx,并通过最后的哈希映射层成为c维的哈希表征Hx。Ey由三层图卷积层构成,其网络结构依次是Fy→4096→4096→c,同时每个图卷积层都伴随有两个输入,一是特征输入,二是由BoW特征构造的邻接矩阵。通过GCN的目的是使得模型能够更好地提取文本特征,得到更加丰富的文本特征信息,通过邻接矩阵来将两个特征相近的文本实例联系起来,通过图卷积层后便可以得到比一般全连接层更加丰富文本特征,因为图卷积不仅会获取当前单一文本的特征,而且还会联系与它相近(邻接矩阵显示二者可达)的文本特征。原始文本特征Y先经过BoW模型得到文本BoW特征Fy,Fy再经过文本编码器Ey后得到c维的哈希表征Hy。在模型训练阶段为了方便函数优化Hx,Hy经过tanh函数激活得到Bx,By,在验证阶段,经过符号函数的赋值后成为二进制表示Bx,By。
Hx=Ex(X)
Fy=BoW(Y) (1)
Hy=Ey(Fy)。
在无监督跨模态哈希检索领域,利用深度网络结构提取的特征构建相似度矩阵来描述不同模态和同一模态不同实例亲和力进而指导网络学习,可见这一设计策略已经同行共识。
在训练的每个epoch,随机地输入m个实例,两个不同模态特征分别通过预训练过的VGG19网络和BoW模型,进而提取到dx维的图像特征和dy维的文本特征然后,我们利用实值特征Fx,Fy和二者之间的余弦距离构造相似度矩阵
以前的许多工作[32,33,34,35,36,37]都用各自的实验证明了采用语义相似度指导网络学习的可行性,但这些工作都是直接使用了相似度矩阵,只考虑了每个epoch中某个样本点本身,而忽略了其他样本点于本样本点之间的相似性,因此当某一样本与另外的两个样本点之间的距离相同时,这样的相似度矩阵不仅不能区分两者的相似性,反而会影响正确地判断。为了解决这一问题,我们增强了原有的语义相似度矩阵 其定义如下:
其中,表示Hadamard矩阵乘积(即元素乘积)。S*是一个对称阵,且每一行都表示该行号样本点与其他样本点的相似度。因此,S* TS*就能够将两样本之间的相似度进行放大或者缩小,使得两个相似度很小的样本变得更小,反之亦然。同时,S* TS*还可以根据两个样本点各自的邻居反映它们彼此的相似度。通常,如果两个样本点拥有的相同邻居越多,它们就越相似,二者之间的距离也就越近,反之亦然。
在跨模态哈希检索的任务中,我们很清楚的认识到,在一种模态内的信息量有限的情况下,仅基于单一模态建立的模态内相似度矩阵并不能够为网络学习提供丰富的模态间语义关联信息。更糟糕的是,通过两个不同模态的相似度矩阵各自独立训练学习二进制表示和哈希函数会使得不同模态差异的影响被放大,因为两模态的信息丰富度差距较大,图像的特征丰富度明显高于文本,进而得到糟糕的结果。于是,如何将两个模态的各自的相似度矩阵进行融合就显得尤为重要。此前的工作(DJSRH,HNH)都只是使用简单的权衡参数分别对两个不同模态的相似度矩阵加权求和,具体定义如下:
其中,η是一个人为设定的权衡参数,可能会随着数据集分布的变化而变化。
这样的做法存在一个较大的弊病,那就是针对于不同分布的数据集权衡参数会有所不同。在增强语义相似度矩阵的基础上,我们提出了增强注意力融合机制解决这一问题。增强注意力融合模块的输入是两个不同模态的增强语义相似度矩阵,输出是联合语义相似度矩阵S。attentionx,attentiony分别代表图像和文本模态相似性矩阵的注意力,用注意力矩阵来代替原有的权衡参数。在原有的方法中,同一批次的所有样本点的图像相似度权重都为η,文本相似度权重都为(1-η),但由于不同的样本点之间图像和文本特征分布不同,所以文本相似度和图像相似度的权重也不应该完全一样。我们构造不同模态相似度的注意力矩阵,再利用图像和文本模态的增强语义相似度矩阵与对应模态的注意力矩阵对应元素相乘再相加,就可以做到对每一个样本点的不同模态相似度做不同的权重赋值。增强注意力融合机制不仅解决了不同数据集上权衡参数不同的问题,而且解决了同一批次不同样本点权衡参数相同的问题。具体的增强注意力融合机器如下图所示,联合语义相似度矩阵S的定义如下:
在完了不同模态的增强相似度矩阵的融合过后,我们还将定义一系列与之对应的损失函数用以学习哈希映射函数f(x,θx),g(y,θy)。具体来说,首先,我们定义了Inter-Modal Similarity Preservation Loss用来维持模态间的语义相似度,用Bx TBy∈[-1,1]m×m来表示两模态哈希表征的相似度,同时采用(000)中的S与其做约束,具体定义如下:
s.t.Bx=tanh(Hx)∈[-1,1]c×m,By=tanh(Hy)∈[-1,1]c×m
此外,由于两模态的特征分布差异化很大,而且两模态的特征丰富度也存在很大差距,所以与大部分工作所采用的直接拉近两模态二进制表示的方法不同,我们引入了作为两模态的公共表示,使得Bx,By都逼近于B,从而缩小模态差距。CommonRepresentation Loss定义如下:
s.t.Bx=tanh(Hx)∈[-1,1]c×m,By=tanh(Hy)∈[-1,1]c×m
由公式(8)可知,图像和文本模态的二进制表示都在逼近B,换句话说,B就可以用来表示两模态的二进制表示。那么,我们就可以轻易的得到图像的模态内相似度BTBx和文本的模态内相似度BTBy,因此它们可以用来保持模态内的相似度。鉴于此,我们提出了Intra-Modal Similarity Preservation Loss,定义如下:
s.t.Bx=tanh(Hx)∈[-1,1]c×m,By=tanh(Hy)∈[-1,1]c×m
结合(7)(8)(9),我们将最后的目标函数定义如下:
s.t.Bx=tanh(Hx)∈[-1,1]c×m,By=tanh(Hy)∈[-1,1]c×m
其中,为了避免反向传播梯度消失问题,在网络训练时采用tanh函数激活两模态的哈希表征H,而不是用sign函数激活。超参数α,β,γ的设置将在第四节实验部分具体介绍。
为了学习优化的θx,θy和B,引入了交替优化策略来保持θx,θy和B中的两个固定更新另外一个参数。这种交替优化策略在算法1中给出,我们将详细阐述该算法。
第一步:固定θx,θy,更新B。
首先,将(10)详尽地重写一次:
为了更简洁地推导,我们展开每一项并删除无关项:
令公式(12)为零,可得:
第二步:固定B,θy,更新θx。
当我们保持B,θy不变时,参数θx可以通过随机梯度下降(SGD)和反向传播(BP)来学习,(11)可被写作是:
s.t.Bx=tanh(Hx)∈[-1,1]c×m
更新θx:
其中,λx是Ex网络中的学习率。
第三步:固定θx,B,更新θy。
当我们保持B,θx不变时,与更新θx相同,参数θy也通过随机梯度下降(SGD)和反向传播(BP)来学习,(11)可被写作是:
s.t.By=tanh(Hy)∈[-1,1]c×m
更新θx:
其中,λy是Ey网络中的学习率。
工作原理:
首先,我们利用GCN搭建了一个文本编码器,同时提取某一样本的特征和与其语义邻近的样本特征,用以丰富文本特征;其次,我们提出了增强注意力融合机制,该机制将原本的相似度矩阵进行增强,并利用注意力机制自适应融合不同模态内相似度矩阵,进而形成统一的模态间相似度矩阵用以指导哈希函数的学习;最后,我们设计了模态内和模态间的相似度保持损失函数,用以更好的学习哈希码;在三个跨模态检索数据集上的大量实验表明,所提出的DESAH达到了最先进的基线。
算法:
输出:哈希映射函数f(x,θx)=sign(Ex(X))和f(y,θy)=sign(Ey(BoW(Y)))。
1.初始化t=0;
2.repeat:;
3.t=t+1;
6.前向传播提取图像及文本的特征,并按照公式(4)(5)构建相似度矩阵S;
7.依据公式(7)(8)(9)(10)计算损失;
8.依据公式(13)更新S;
9.通过反向传播更新参数θx;
10.通过反向传播更新参数θy;
11.end for;
12.until t==max_epoch。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于GCN的深度无监督跨模态检索方法,其特征在于,包括以下步骤:
S1:利用GCN搭建文本编码器,将特征相近的文本实例联系起来,丰富文本特征;
S2:使用Hadamard乘积对原始的模内相似度矩阵进行增强后得到统一的相似度矩阵;
S3:采用增强注意力融合机制,对不同模态的语义相似度矩阵进行融合,针对不同的实例的文本和图像相似度有不同注意力,且该机制会随着数据集分布的改变自适应地调整注意力。
2.根据权利要求1所述的一种基于GCN的深度无监督跨模态检索方法,其特征在于,所述S2中使用Hadamard乘积对原始相似度进行了重新加权优化,得到高阶非局部相似度矩阵,再通过加权不同模态的相似度矩阵得到统一的相似度矩阵。
3.根据权利要求1所述的一种基于GCN的深度无监督跨模态检索方法,其特征在于,利用图卷积网络搭建了一个文本编码器提取文本实例的特征,构建文本A与其他文本的语义联系图,采用增强语义相似度矩阵,增强相似度操作。
4.根据权利要求1所述的一种基于GCN的深度无监督跨模态检索方法,其特征在于,所述检索方法主要包含两个编码器:Ex和Ey,分别对图像和文本特征编码,Ex和Ey建立在不同的基础网络框架上。
5.根据权利要求1所述的一种基于GCN的深度无监督跨模态检索方法,其特征在于,所述S2中,通过邻接矩阵来将两个特征相近的文本实例联系起来,通过图卷积层后得到比一般全连接层更加丰富文本特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211389979.7A CN115599942B (zh) | 2022-11-08 | 2022-11-08 | 一种基于gcn的深度无监督跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211389979.7A CN115599942B (zh) | 2022-11-08 | 2022-11-08 | 一种基于gcn的深度无监督跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115599942A true CN115599942A (zh) | 2023-01-13 |
CN115599942B CN115599942B (zh) | 2023-12-12 |
Family
ID=84853568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211389979.7A Active CN115599942B (zh) | 2022-11-08 | 2022-11-08 | 一种基于gcn的深度无监督跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599942B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226475A (zh) * | 2023-02-01 | 2023-06-06 | 重庆师范大学 | 一种添加非共现信息优化检索的方法 |
CN116796032A (zh) * | 2023-04-11 | 2023-09-22 | 重庆师范大学 | 一种基于自适应图注意力哈希的多模态数据检索模型 |
CN117453944A (zh) * | 2023-12-25 | 2024-01-26 | 厦门大学 | 一种多层级显著区域分解的无监督实例检索方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113064959A (zh) * | 2020-01-02 | 2021-07-02 | 南京邮电大学 | 一种基于深度自监督排序哈希的跨模态检索方法 |
CN113177132A (zh) * | 2021-06-30 | 2021-07-27 | 中国海洋大学 | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114612747A (zh) * | 2022-03-16 | 2022-06-10 | 东北林业大学 | 基于无监督加权哈希的遥感图像检索方法 |
WO2022155994A1 (zh) * | 2021-01-21 | 2022-07-28 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
CN115098620A (zh) * | 2022-07-26 | 2022-09-23 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115203442A (zh) * | 2022-09-15 | 2022-10-18 | 中国海洋大学 | 基于联合注意力的跨模态深度哈希检索方法、系统及介质 |
-
2022
- 2022-11-08 CN CN202211389979.7A patent/CN115599942B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN113064959A (zh) * | 2020-01-02 | 2021-07-02 | 南京邮电大学 | 一种基于深度自监督排序哈希的跨模态检索方法 |
WO2022155994A1 (zh) * | 2021-01-21 | 2022-07-28 | 深圳大学 | 基于注意力的深度跨模态哈希检索方法、装置及相关设备 |
CN112784092A (zh) * | 2021-01-28 | 2021-05-11 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
CN113177132A (zh) * | 2021-06-30 | 2021-07-27 | 中国海洋大学 | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114612747A (zh) * | 2022-03-16 | 2022-06-10 | 东北林业大学 | 基于无监督加权哈希的遥感图像检索方法 |
CN115098620A (zh) * | 2022-07-26 | 2022-09-23 | 北方民族大学 | 一种注意力相似度迁移的跨模态哈希检索方法 |
CN115203442A (zh) * | 2022-09-15 | 2022-10-18 | 中国海洋大学 | 基于联合注意力的跨模态深度哈希检索方法、系统及介质 |
Non-Patent Citations (3)
Title |
---|
XINFENG DONG等: "Adversarial Graph Convolutional Network for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 32, no. 3, pages 1634 - 1645, XP011902349, DOI: 10.1109/TCSVT.2021.3075242 * |
刘昊鑫;吴小俊;庾骏;: "联合哈希特征和分类器学习的跨模态检索算法", 模式识别与人工智能, no. 02 * |
樊花;陈华辉;: "基于哈希方法的跨模态检索研究进展", 数据通信, no. 03 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226475A (zh) * | 2023-02-01 | 2023-06-06 | 重庆师范大学 | 一种添加非共现信息优化检索的方法 |
CN116796032A (zh) * | 2023-04-11 | 2023-09-22 | 重庆师范大学 | 一种基于自适应图注意力哈希的多模态数据检索模型 |
CN117453944A (zh) * | 2023-12-25 | 2024-01-26 | 厦门大学 | 一种多层级显著区域分解的无监督实例检索方法及系统 |
CN117453944B (zh) * | 2023-12-25 | 2024-04-09 | 厦门大学 | 一种多层级显著区域分解的无监督实例检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115599942B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985369B (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN108984724B (zh) | 利用高维表示提高特定属性情感分类准确率方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN115599942A (zh) | 一种基于gcn的深度无监督跨模态检索方法 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN112100346B (zh) | 基于细粒度图像特征和外部知识相融合的视觉问答方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN110852273A (zh) | 一种基于强化学习注意力机制的行为识别方法 | |
CN106650813A (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN112100485B (zh) | 一种基于评论的评分预测物品推荐方法及系统 | |
CN109858015B (zh) | 一种基于ctw和km算法的语义相似度计算方法及装置 | |
CN112231577B (zh) | 一种融合文本语义向量和神经协同过滤的推荐方法 | |
Wang et al. | Attention augmentation with multi-residual in bidirectional LSTM | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN111079409A (zh) | 一种利用上下文和方面记忆信息的情感分类方法 | |
Li et al. | Multi-modal gated recurrent units for image description | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN113688878A (zh) | 一种基于记忆力机制和图神经网络的小样本图像分类方法 | |
Xu et al. | Tri-graph information propagation for polypharmacy side effect prediction | |
CN113641854A (zh) | 一种将文字转化为视频的方法及系统 | |
CN113742451A (zh) | 基于多类型问题和多片段答案抽取的机器阅读理解系统 | |
Xia | An overview of deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |