CN111753190A - 一种基于元学习的无监督跨模态哈希检索方法 - Google Patents

一种基于元学习的无监督跨模态哈希检索方法 Download PDF

Info

Publication number
CN111753190A
CN111753190A CN202010478822.6A CN202010478822A CN111753190A CN 111753190 A CN111753190 A CN 111753190A CN 202010478822 A CN202010478822 A CN 202010478822A CN 111753190 A CN111753190 A CN 111753190A
Authority
CN
China
Prior art keywords
hash
modal
meta
cross
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010478822.6A
Other languages
English (en)
Other versions
CN111753190B (zh
Inventor
庄瑜
赖韩江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010478822.6A priority Critical patent/CN111753190B/zh
Publication of CN111753190A publication Critical patent/CN111753190A/zh
Application granted granted Critical
Publication of CN111753190B publication Critical patent/CN111753190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于元学习的无监督跨模态哈希检索方法,该方法使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征,输入到哈希模型中,之后对辅助图像集和文本集进行聚类,再利用元学习训练方法(MAML),在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型。由于聚类,得到辅助数据集的弱监督标签,再通过这些弱监督信息,指导目标跨模态数据集的梯度更新方向,使检索准确率得到提高。

Description

一种基于元学习的无监督跨模态哈希检索方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于元学习的无监督跨模态哈希检索方法。
背景技术
随着信息化发展,多模态数据量的日益增多,跨模态检索的应用变得越来越重要,引起了人们的广泛关注,信息的存在方式并不是单一的,它是多种多样并且存在交叉。如何利用多种模态的信息互补帮助提高检索大规模数据库的效率变得尤为重要。
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。虽然有些数据的存在形式不同,但都是描述同一事物或事件的。现有的检索技术主要为单模态检索和多模态检索。单模态检索要求查询词和检索集属于同一种模态类型,例如:查询词是图片,检索集也为图片集。而在多模态检索中,查询集和检索集必须至少有一个模态是相同的。例如:查询词是图片,文本,检索集是文本集。多模态检索融合了不同模态进行检索,利用不同模态的信息互补达到提高检索准确率的目的。而在跨模态检索中,查询的模态和检索集的模态是不同的,利用其中一种模态的数据作为查询,检索另一种模态的相关数据。例如:用图像数据检索文本数据。而在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。
多模态数据映射成二进制哈希码来完成检索的方法已经得到了广泛的研究,这些方法可分为三类:1)无监督方法;2)基于成对信息的方法;3)有监督方法。只利用同时出现的成对信息,例如:Flicker数据集上的图像-标签对,是属于无监督方法。第二类方法利用了相似的成对信息和不相似的成对信息。有监督方法利用了标签信息。由于收集足够的相似性或标签信息,需要耗费大量的人力,因此本文研究的对象是无监督方法。
由于无监督方法缺乏大量标签信息,所以利用额外的无标签单模态数据集里预测梯度下降的方向,通过元学习的训练方法(MAML),更新网络参数。元学习(Meta Learning),又叫做“学会学习”(Learning to learn),是利用以往的知识经验来指导新任务的学习,使模型具有学会学习的能力,而本发明的目的不是传统的适应新任务学习的目的,而是利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
申请号为201911065035.2的专利说明书中公开了一种多语义深度监督跨模态哈希检索方法,该方法利用深度神经网络,结合训练数据的监督语义信息,分别学习多个模态的哈希映射模型:将给定特定模态的图像查询数据送入到对应模态的神经网络中,通过深度网络所学习的哈希映射将图像模态数据转换为哈希码,然后与数据库中另一模态的哈希码进行距离的计算,最终返回与查询最相似的数据。然而,该专利无法实现利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
发明内容
本发明提供一种基于元学习的无监督跨模态哈希检索方法,该方法实现利用元学习的方法达到迁移学习的目的,从而获得更多弱监督信息。
为了达到上述技术效果,本发明的技术方案如下:
一种基于元学习的无监督跨模态哈希检索方法,包括以下步骤:
S1:使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征;
S2:在特征提取模型后加上哈希检索表征转换层,即哈希模型;
S3:对辅助图像集和文本集进行聚类;
S4:利用元学习训练方法MAML,在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型;
S5:计算检索结果。
进一步地,所述步骤S1的具体过程是:
S11:利用预训练好的ResNet模型提取辅助图像集的特征向量;
S12:利用预训练好的Bert模型提取辅助文本集的特征向量。
进一步地,所述步骤S2的具体过程是:
S21:构建两个全连接层,分别将图像和文本从高维的特征向量映射成低维的实数向量,并且经过一个激活函数tanh,将向量上的实数元素的值映射到[-1,1]范围内,即图像哈希模型和文本哈希模型;
S22:在高维特征向量经过全连接层和激活函数后,通过将小于等于0的元素表示为0,将大于0的元素表示为1,把实数向量v转换为二进制码b,即哈希码,量化公式如下:
Figure BDA0002516652220000031
进一步地,所述步骤S3的具体过程是:
S31:随机选取K个聚类质心点{μ12,…,μk};
S32:对于每一个特征向量x(i),计算其与各聚类中心的距离dist(x(i)j),把该特征向量划入距离最近的一个类x(i)∈μnearest
S33:根据当前的划分情况,对于每个类重新计算聚类中心,假设对于类Ci,其聚类中心为
Figure BDA0002516652220000032
|Ci|表示类Ci里面的样本数量;
S34:重复步骤S32,S33,直到聚类中心的变化程度小于阈值或者达到最大运行次数,则停止运行;重复执行S31~S34步骤10次,选取一个最佳的聚类结果,并将辅助数据集中的特征向量及其对应的聚类结果标签保存下来。
进一步地,所述步骤S4的具体过程是:
S41:根据聚类过后的辅助单模态数据集,构建三元组<I,Ipos,Ineg>,<T,Tpos,Tneg>;
S42:将构建的单模态三元组输入到哈希网络中,计算三元组损失函数;
S43:通过三元组损失,计算网络参数的梯度,根据梯度值,计算网络权重,但是不更新网络参数;
S44:根据成对的目标跨模态数据集,构建三元组<Ti,Ii,Ij>,<Ii,Ti,Tj>,输入哈希网络,在S43步骤计算出来的网络参数的基础上,计算三元组损失函数,并更新网络参数。
进一步地,所述步骤S5中,计算检索准确性的过程如下:
S51:计算查询图像哈希码与所有文本哈希码之间汉明距离,汉明距离的计算方法是将对应位上的哈希码字做异或操作,并求和,即求不同取值的码元个数;
S52:按汉明距离从小到大排序,根据标签依次判断该图像是否与文本属于同类,同类即检索正确。
进一步地,步骤S52中,检索的平均正确率(AP)计算式为
Figure BDA0002516652220000041
Figure BDA0002516652220000042
其中n+表示同类样本的个数,n表示检索集的总样本数,这里指文本哈希码的总个数,Pk表示前k个样本的准确率,relk=1表示第k个样本与查询样本同类,反之,relk=0则为不同类。
进一步地,步骤S42中,三元组损失中的距离度量函数为欧式距离,以图像检索图像为例,根据聚类得到的标签,构建成了三元组<I,Ipos,Ineg>,其中I为目标样本,Ipos为I的正样本,即同类图像,Ineg为I的负样本,即不同类图像,它们输入到哈希网络得到的输出分别为HI(I),HI(Ipos),HI(Ineg),三元组损失如下:
Figure BDA0002516652220000043
m代表超参数margin,表示I和负样本Ineg的距离与I和正样本Ipos的距离的差最小为m。
进一步地,步骤S43,S44中,元学习训练方法MAML训练方法具体如下:
通过辅助数据集构建的单模态三元组,计算梯度和梯度更新后的网络参数,仅仅计算梯度更新的网络参数,但不真正更新网络,图像哈希模型在经过一次梯度更新后的网络参数为
Figure BDA0002516652220000044
其中,
Figure BDA0002516652220000045
表示梯度,α表示辅助数据集的学习率,θI为原网络参数,θI′表示梯度更新后的网络参数;之后,通过目标数据集构建的跨模态三元组,并在之前计算的网络参数的基础上,计算三元组损失,并进行梯度回传,在原有网络参数上进行参数更新,
Figure BDA0002516652220000046
θ={θIT},其中
Figure BDA0002516652220000047
为跨模态三元组损失,
Figure BDA0002516652220000048
代表在网络参数θ′的基础上计算的梯度,θ为原网络参数。
进一步地,步骤S42中,若构建跨模态三元组,以文本检索图像为例,默认成对的文本Ti与图片Ii的哈希码的相似度肯定要比不成对的Ti和Ij的哈希码的相似度要高,组成三元组<Ti,Ii,Ij>,输入到哈希网络得到的输出分别为HT(Ti),HI(Ii),HI(Ij),三元组损失如下:
Figure BDA0002516652220000051
与现有技术相比,本发明技术方案的有益效果是:
本发明使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征,并且经过哈希模型转换成二进制哈希码,从而减少存储空间;之后利用元学习训练方法(MAML),在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型,从而获得更多弱监督信息,使模型能够通过更多的信息进行训练,并提高检索的准确性。
附图说明
图1为本发明的算法流程图;
图2为本发明的MAML方法示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1-2所示,一种基于元学习的无监督跨模态哈希检索模型,包括以下步骤:
S1:使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征;
S2:在特征提取模型后加上哈希检索表征转换层,即哈希模型;
S3:对辅助图像集和文本集进行聚类;
S4:利用元学习训练方法(MAML),在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型。
S5:计算检索结果。
步骤S1的具体过程是:
S11:利用预训练好的ResNet模型提取辅助图像集的特征向量(1000维);
S12:利用预训练好的Bert模型提取辅助文本集的特征向量(768维)。
步骤S2的哈希模型的设计是:
S21:构建两个全连接层,分别将图像和文本从高维的特征向量映射成低维的实数向量,并且经过一个激活函数tanh,将向量上的实数元素的值映射到[-1,1]范围内,即图像哈希模型和文本哈希模型;
S22:在高维特征向量经过全连接层和激活函数后,通过将小于等于0的元素表示为0,将大于0的元素表示为1,把实数向量v转换为二进制码b,即哈希码。量化公式如下:
Figure BDA0002516652220000061
步骤S3的聚类(KMeans)具体步骤是:
S31:随机选取K个聚类质心点{μ12,…,μk};
S32:对于每一个特征向量x(i),计算其与各聚类中心的距离dist(x(i)j),把该特征向量划入距离最近的一个类x(i)∈μnearest
S33:根据当前的划分情况,对于每个类重新计算聚类中心,假设对于类Ci,其聚类中心为
Figure BDA0002516652220000062
|Ci|表示类Ci里面的样本数量;
S34:重复步骤S32,S33,直到聚类中心的变化程度小于阈值或者达到最大运行次数,则停止运行。重复执行S31~S34步骤10次,选取一个最佳的聚类结果,并将辅助数据集中的特征向量及其对应的聚类结果标签保存下来。
步骤S4的训练过程是:
S41:根据聚类过后的辅助单模态数据集,构建三元组<I,Ipos,Ineg>,<T,Tpos,Tneg>;
S42:将构建的单模态三元组输入到哈希网络中,计算三元组损失函数;
S43:通过三元组损失,计算网络参数的梯度,根据梯度值,计算网络权重,但是不更新网络参数;
S44:根据成对的目标跨模态数据集,构建三元组<Ti,Ii,Ij>,<Ii,Ti,Tj>,输入哈希网络,在S43步骤计算出来的网络参数的基础上,计算三元组损失函数,并更新网络参数。
步骤S5中,计算检索准确性(mAP)的过程如下(以图像检索文本为例):
S51:计算查询图像哈希码与所有文本哈希码之间汉明距离,汉明距离的计算方法是将对应位上的哈希码字做异或操作,并求和,即求不同取值的码元个数;
S52:按汉明距离从小到大排序,根据标签依次判断该图像是否与文本属于同类,同类即检索正确,平均准确率(AP)计算式为
Figure BDA0002516652220000071
其中n+表示同类样本的个数,n表示检索集的总样本数,这里指文本哈希码的总个数,Pk表示前k个样本的准确率,relk=1表示第k个样本与查询样本同类,反之,relk=0则为不同类。
步骤S42中,三元组损失中的距离度量函数为欧式距离,以图像检索图像为例,根据聚类得到的标签,构建成了三元组<I,Ipos,Ineg>,其中I为目标样本,Ipos为I的正样本,即同类图像,Ineg为I的负样本,即不同类图像,它们输入到哈希网络得到的输出分别为HI(I),HI(Ipos),HI(Ineg),三元组损失如下:
Figure BDA0002516652220000072
m代表超参数margin,表示I和负样本Ineg的距离与I和正样本Ipos的距离的差最小为m。
若构建跨模态三元组,以文本检索图像为例,默认成对的文本Ti与图片Ii的哈希码的相似度肯定要比不成对的Ti和Ij的哈希码的相似度要高,组成三元组<Ti,Ii,Ij>,输入到哈希网络得到的输出分别为HT(Ti),HI(Ii),HI(Ij),三元组损失如下:
Figure BDA0002516652220000073
步骤S43,S44中,MAML训练方法具体如下:
通过辅助数据集构建的单模态三元组,计算梯度和梯度更新后的网络参数,仅仅计算梯度更新的网络参数,但不真正更新网络,图像哈希模型在经过一次梯度更新后的网络参数为
Figure BDA0002516652220000081
其中,
Figure BDA0002516652220000082
表示梯度,α表示辅助数据集的学习率,θI为原网络参数,θI′表示梯度更新后的网络参数。之后,通过目标数据集构建的跨模态三元组,并在之前计算的网络参数的基础上,计算三元组损失,并进行梯度回传,在原有网络参数上进行参数更新,
Figure BDA0002516652220000083
θ={θIT},其中
Figure BDA0002516652220000084
为跨模态三元组损失,
Figure BDA0002516652220000085
代表在网络参数θ′的基础上计算的梯度,θ为原网络参数。
本发明使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征,并且经过哈希模型转换成二进制哈希码,从而减少存储空间;之后利用元学习训练方法(MAML),在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型,从而获得更多弱监督信息,使模型能够通过更多的信息进行训练,并提高检索的准确性。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于元学习的无监督跨模态哈希检索方法,其特征在于,包括以下步骤:
S1:使用预训练好的ResNet模型和Bert模型提取辅助图像集、辅助文本集和目标跨模态数据集的高维实数特征;
S2:在特征提取模型后加上哈希检索表征转换层,即哈希模型;
S3:对辅助图像集和文本集进行聚类;
S4:利用元学习训练方法MAML,在辅助数据集的帮助下对目标跨模态数据集进行训练,更新哈希模型;
S5:计算检索结果。
2.根据权利要求1所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S1的具体过程是:
S11:利用预训练好的ResNet模型提取辅助图像集的特征向量;
S12:利用预训练好的Bert模型提取辅助文本集的特征向量。
3.根据权利要求3所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S2的具体过程是:
S21:构建两个全连接层,分别将图像和文本从高维的特征向量映射成低维的实数向量,并且经过一个激活函数tanh,将向量上的实数元素的值映射到[-1,1]范围内,即图像哈希模型和文本哈希模型;
S22:在高维特征向量经过全连接层和激活函数后,通过将小于等于0的元素表示为0,将大于0的元素表示为1,把实数向量v转换为二进制码b,即哈希码,量化公式如下:
Figure FDA0002516652210000011
4.根据权利要求3所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S3的具体过程是:
S31:随机选取K个聚类质心点{μ12,…,μk};
S32:对于每一个特征向量x(i),计算其与各聚类中心的距离dist(x(i)j),把该特征向量划入距离最近的一个类x(i)∈μnearest
S33:根据当前的划分情况,对于每个类重新计算聚类中心,假设对于类Ci,其聚类中心为
Figure FDA0002516652210000021
|Ci|表示类Ci里面的样本数量;
S34:重复步骤S32,S33,直到聚类中心的变化程度小于阈值或者达到最大运行次数,则停止运行;重复执行S31~S34步骤10次,选取一个最佳的聚类结果,并将辅助数据集中的特征向量及其对应的聚类结果标签保存下来。
5.根据权利要求4所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S4的具体过程是:
S41:根据聚类过后的辅助单模态数据集,构建三元组<I,Ipos,Ineg>,<T,Tpos,Tneg>;
S42:将构建的单模态三元组输入到哈希网络中,计算三元组损失函数;
S43:通过三元组损失,计算网络参数的梯度,根据梯度值,计算网络权重,但是不更新网络参数;
S44:根据成对的目标跨模态数据集,构建三元组<Ti,Ii,Ij>,<Ii,Ti,Tj>,输入哈希网络,在S43步骤计算出来的网络参数的基础上,计算三元组损失函数,并更新网络参数。
6.根据权利要求5所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,所述步骤S5中,计算检索准确性的过程如下:
S51:计算查询图像哈希码与所有文本哈希码之间汉明距离,汉明距离的计算方法是将对应位上的哈希码字做异或操作,并求和,即求不同取值的码元个数;
S52:按汉明距离从小到大排序,根据标签依次判断该图像是否与文本属于同类,同类即检索正确。
7.根据权利要求6所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,步骤S52中,检索的平均正确率(AP)计算式为
Figure FDA0002516652210000022
其中n+表示同类样本的个数,n表示检索集的总样本数,这里指文本哈希码的总个数,Pk表示前k个样本的准确率,relk=1表示第k个样本与查询样本同类,反之,relk=0则为不同类。
8.根据权利要求7所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,步骤S42中,三元组损失中的距离度量函数为欧式距离,以图像检索图像为例,根据聚类得到的标签,构建成了三元组<I,Ipos,Ineg>,其中I为目标样本,Ipos为I的正样本,即同类图像,Ineg为I的负样本,即不同类图像,它们输入到哈希网络得到的输出分别为HI(I),HI(Ipos),HI(Ineg),三元组损失如下:
Figure FDA0002516652210000031
m代表超参数margin,表示I和负样本Ineg的距离与I和正样本Ipos的距离的差最小为m。
9.根据权利要求8所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,步骤S43,S44中,元学习训练方法MAML训练方法具体如下:
通过辅助数据集构建的单模态三元组,计算梯度和梯度更新后的网络参数,仅仅计算梯度更新的网络参数,但不真正更新网络,图像哈希模型在经过一次梯度更新后的网络参数为
Figure FDA0002516652210000032
其中,
Figure FDA0002516652210000033
表示梯度,α表示辅助数据集的学习率,θI为原网络参数,θI′表示梯度更新后的网络参数;之后,通过目标数据集构建的跨模态三元组,并在之前计算的网络参数的基础上,计算三元组损失,并进行梯度回传,在原有网络参数上进行参数更新,
Figure FDA0002516652210000034
θ={θIT},其中
Figure FDA0002516652210000035
为跨模态三元组损失,
Figure FDA0002516652210000036
代表在网络参数θ′的基础上计算的梯度,θ为原网络参数。
10.根据权利要求9所述的基于元学习的无监督跨模态哈希检索方法,其特征在于,步骤S42中,若构建跨模态三元组,以文本检索图像为例,默认成对的文本Ti与图片Ii的哈希码的相似度肯定要比不成对的Ti和Ij的哈希码的相似度要高,组成三元组<Ti,Ii,Ij>,输入到哈希网络得到的输出分别为HT(Ti),HI(Ii),HI(Ij),三元组损失如下:
Figure FDA0002516652210000037
Figure FDA0002516652210000041
CN202010478822.6A 2020-05-29 2020-05-29 一种基于元学习的无监督跨模态哈希检索方法 Active CN111753190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478822.6A CN111753190B (zh) 2020-05-29 2020-05-29 一种基于元学习的无监督跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478822.6A CN111753190B (zh) 2020-05-29 2020-05-29 一种基于元学习的无监督跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN111753190A true CN111753190A (zh) 2020-10-09
CN111753190B CN111753190B (zh) 2024-07-05

Family

ID=72674262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478822.6A Active CN111753190B (zh) 2020-05-29 2020-05-29 一种基于元学习的无监督跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN111753190B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法
CN112364192A (zh) * 2020-10-13 2021-02-12 中山大学 一种基于集成学习的零样本哈希检索方法
CN113360700A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113377990A (zh) * 2021-06-09 2021-09-10 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN114067385A (zh) * 2021-10-09 2022-02-18 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
CN116935329A (zh) * 2023-09-19 2023-10-24 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
US20190205393A1 (en) * 2016-07-11 2019-07-04 Peking University Shenzhen Graduate School A cross-media search method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276528A1 (en) * 2015-12-03 2018-09-27 Sun Yat-Sen University Image Retrieval Method Based on Variable-Length Deep Hash Learning
US20190205393A1 (en) * 2016-07-11 2019-07-04 Peking University Shenzhen Graduate School A cross-media search method
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN108170755A (zh) * 2017-12-22 2018-06-15 西安电子科技大学 基于三元组深度网络的跨模态哈希检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHEN XING 等: ""Adaptive Cross-Modal Few-shot Learning"", 《ARXIV:1902.07104V3 [CS.LG]》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364192A (zh) * 2020-10-13 2021-02-12 中山大学 一种基于集成学习的零样本哈希检索方法
CN112199533B (zh) * 2020-10-15 2024-02-06 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法
CN112199533A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法
CN113392196A (zh) * 2021-06-04 2021-09-14 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和系统
CN113377990A (zh) * 2021-06-09 2021-09-10 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113360700B (zh) * 2021-06-30 2023-09-29 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN113360700A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 图文检索模型的训练和图文检索方法、装置、设备和介质
CN114067385A (zh) * 2021-10-09 2022-02-18 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
CN114067385B (zh) * 2021-10-09 2024-05-31 华南理工大学 基于度量学习的跨模态人脸检索哈希方法
CN113822224A (zh) * 2021-10-12 2021-12-21 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN116935329A (zh) * 2023-09-19 2023-10-24 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统
CN116935329B (zh) * 2023-09-19 2023-12-01 山东大学 一种类级别对比学习的弱监督文本行人检索方法及系统

Also Published As

Publication number Publication date
CN111753190B (zh) 2024-07-05

Similar Documents

Publication Publication Date Title
CN111753190B (zh) 一种基于元学习的无监督跨模态哈希检索方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN111737552A (zh) 训练信息抽取模型和获取知识图谱的方法、装置和设备
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
CN112818676A (zh) 一种医学实体关系联合抽取方法
CN111597298A (zh) 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN114067385B (zh) 基于度量学习的跨模态人脸检索哈希方法
CN111274424B (zh) 一种零样本图像检索的语义增强哈希方法
CN112861976B (zh) 一种基于孪生图卷积哈希网络的敏感图像识别方法
CN109960732B (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
JP2022548187A (ja) 対象再識別方法および装置、端末並びに記憶媒体
CN116883723A (zh) 一种基于并联语义嵌入的组成式零样本图像分类方法
CN114817581A (zh) 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法
CN116935329B (zh) 一种类级别对比学习的弱监督文本行人检索方法及系统
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN116109834A (zh) 一种基于局部正交特征注意力融合的小样本图像分类方法
CN114155403A (zh) 一种基于深度学习的图像分段哈希排序方法
CN114863231A (zh) 基于渐进式融合的多视图跨模态匹配方法
CN113641790A (zh) 一种基于区分表示深度哈希的跨模态检索模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant