CN113177132B - 基于联合语义矩阵的深度跨模态哈希的图像检索方法 - Google Patents

基于联合语义矩阵的深度跨模态哈希的图像检索方法 Download PDF

Info

Publication number
CN113177132B
CN113177132B CN202110730743.4A CN202110730743A CN113177132B CN 113177132 B CN113177132 B CN 113177132B CN 202110730743 A CN202110730743 A CN 202110730743A CN 113177132 B CN113177132 B CN 113177132B
Authority
CN
China
Prior art keywords
matrix
image
text
modal
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110730743.4A
Other languages
English (en)
Other versions
CN113177132A (zh
Inventor
曹媛
陈娜
桂杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110730743.4A priority Critical patent/CN113177132B/zh
Publication of CN113177132A publication Critical patent/CN113177132A/zh
Application granted granted Critical
Publication of CN113177132B publication Critical patent/CN113177132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于联合语义矩阵的深度跨模态哈希的图像检索方法。该方法包括:随机获取一个批次数量的图像文本对数据,并构造标签矩阵;送入预训练模型VGG19层模型和Word2Vec模型分别得到图像特征和文本特征,并构造联合语义矩阵;利用标签矩阵和联合语义矩阵作为监督信息,构建深度跨模态有监督哈希框架,设置改进后的目标函数,监督网络参数的训练;重复上述,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;待检索图像数据经过处理后,输入至训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。经验证,本发明所提出的模型比其他现有基线方法具有更优的检索性能。

Description

基于联合语义矩阵的深度跨模态哈希的图像检索方法
技术领域
本发明属于深度学习和图像检索相结合的技术领域,具体涉及一种基于联合语义矩阵的深度跨模态哈希的图像检索方法。
背景技术
随着科学技术的发展和大数据时代的飞速发展,近似最近邻(ANN)方法在机器学习和图像检索应用中起着重要的作用。散列因其解决ANN搜索问题的高效率和低存储特性而被研究人员广泛研究。散列的主要原理是将数据从原始空间映射到汉明空间,并尽可能保留原始空间和汉明空间之间的相似性。二进制代码可以用于大规模检索或其他应用,不仅可以大大减少存储空间,而且可以提高搜索速度。
在当前的大多数应用领域中,数据往往是多模式的(图像,文本,音频等)。对于大规模的多模式检索问题,哈希算法也已被广泛使用。例如早期的跨视图哈希算法(CVH),基本思想是通过最小化不同模态的加权平均汉明距离来学习哈希函数,并使用广义特征值求解方法获得最小值。再到线性跨模态哈希算法(LCMH),该算法思想是使用可拓展的k-means算法(一种聚类算法),计算数据点和中心点之间的距离以保持数据内模态内部相似性,通过最小化公共空间中不同模态的同一物体之间的距离以保持模态之间的相似性。近几年,随着深度神经网络的发展,深度跨模态哈希算法也随之大力发展;例如深度跨模态哈希算法(DCMH),该方法是一个端到端的框架,通过相似度矩阵以及负对数似然函数对样本数据处理来训练网络参数,虽然DCMH是一种开创性的,具有出色的性能的深度哈希方法,但他并不能很好的处理数据模态内关联以及不同模态间哈希码的进一步关联。成对关系深度哈希算法(PRDH)是DCMH的改进方法,该方法主要是集成不同类型的成对语速,更好的反映来自多模态数据之间的相关性。尽管目前对深度跨模态哈希算法已经有较为深入的研究,但是最终的应用效果并不理想。
发明内容
本发明的目的是提供一种基于联合语义矩阵的深度跨模态哈希的图像检索方法,以弥补现有技术的不足。
本发明以标签信息以及数据特征获取到的联合语义矩阵两者作为监督信息一起监督网络参数的训练;两个监督信息以不同比例的权重监督网络的训练,以期达到更加准确的检索效果。本发明中的无监督信息是通过训练数据的特征表示来构造联合语义矩阵,以联合语义矩阵作为无监督部分的监督信息;有监督信息是通过训练数据生成标签矩阵,以标签矩阵作为有监督部分的监督信息。特别需要注意的是,在有监督信息部分,通过在网络特征层后再加了一层标签预测网络层,通过标签预测层与真实的标签矩阵之间的保距来监督网络的训练。
基于此,本发明采取的具体技术方案如下:
一种基于联合语义矩阵的深度跨模态哈希(DCSJM)的图像检索方法,该方法包括以下步骤:
S1:随机获取一个批次数量的图像文本对数据,并构造标签矩阵;
S2:图像和文本数据分别送入预训练模型VGG19层模型和Word2Vec模型分别得到图像特征和文本特征;
S3:利用S2中获取到的图像特征和文本特征构造联合语义矩阵;
S4:利用S1获得的标签矩阵和S3获得的联合语义矩阵作为监督信息,构建深度跨模态有监督哈希框架,设置改进后的目标函数,监督网络参数的训练;
S5:重复S1到S4的步骤,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;
S6:待检索图像数据经过S1、S2和S3处理后,输入至S5训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。
本发明用到的一些定义和符号表示如下:
使用表示实验中使用了n个图像文本对实例,表示为
Figure 389893DEST_PATH_IMAGE001
,其中
Figure 833644DEST_PATH_IMAGE002
代表图像实例中的第i个实例
Figure 987545DEST_PATH_IMAGE003
表示文本实例中的第i个实例。每个图像文本对
Figure 542154DEST_PATH_IMAGE004
分别对应一个类别向量
Figure 832321DEST_PATH_IMAGE005
,其中c表示类别数,如果第i个实例在第j个类别中,则
Figure 978131DEST_PATH_IMAGE006
,否则
Figure 353749DEST_PATH_IMAGE007
跨模态哈希是针对不同模态学习不同的函数,本发明仅使用图片和文本的两种模态训练来学习两个函数:
Figure 712049DEST_PATH_IMAGE008
表示图像模态,
Figure 856723DEST_PATH_IMAGE009
用于文本模态,其中n表示公共空间表示的维数,
Figure 907855DEST_PATH_IMAGE010
表示图像训练样本数据,而
Figure 770769DEST_PATH_IMAGE011
表示通过图像网络训练学习的网络参数。 类似地,
Figure 932760DEST_PATH_IMAGE012
表示文本训练样本数据,而
Figure 463099DEST_PATH_IMAGE013
表示通过文本网络训练学习到的网络参数。在本发明中,训练样本中的图像表示矩阵,文本表示矩阵和标签表示矩阵分别表示为
Figure 950712DEST_PATH_IMAGE014
Figure 300922DEST_PATH_IMAGE015
Figure 1024DEST_PATH_IMAGE016
,其中
Figure 120290DEST_PATH_IMAGE017
表示公共表示空间中第i个实例的图像,
Figure 513225DEST_PATH_IMAGE018
表示第j个实例的文本。
进一步的,所述S3中联合语义矩阵构建具体为:
首先解释构造联合语义矩阵的定义:用
Figure 350731DEST_PATH_IMAGE019
代表批次大小;具体描述如下,用
Figure 854525DEST_PATH_IMAGE020
表示每个批次的
Figure 828297DEST_PATH_IMAGE021
个实例,每个实例由一对图像和文本表示,例如
Figure 392134DEST_PATH_IMAGE022
;对于随机训练批次的样本
Figure 716936DEST_PATH_IMAGE023
,使用
Figure 758841DEST_PATH_IMAGE024
Figure 118278DEST_PATH_IMAGE025
分别表示图像数据和文本数据的原始数据特征,图像数据特征是从VGG19层fc7获得,文本数据特征是从Word2Vec模型获得;同样,
Figure 841298DEST_PATH_IMAGE026
Figure 653396DEST_PATH_IMAGE027
分别表示从图像网络和文本网络获得的二进制代码,其中d表示长度二进制代码。
S3-1:首先,将通过不同模态获得的原始特征
Figure 764571DEST_PATH_IMAGE028
(图像特征)和
Figure 712936DEST_PATH_IMAGE029
(文本特征)进行归一化,以获得
Figure 618575DEST_PATH_IMAGE030
(归一化后的图像特征)和
Figure 652390DEST_PATH_IMAGE031
(归一化后的文本特征),然后计算各自的余弦相似度,以获得图像模态相似度矩阵
Figure 301677DEST_PATH_IMAGE032
和文本相似度矩阵
Figure 370127DEST_PATH_IMAGE033
;使用上述余弦相似度矩阵来表示不同模态输入数据的原始域关系;类似地,对于汉明空间,也可以通过使用余弦相似度来获得深度网络生成的二进制代码之间的相似度矩阵;
S3-2:与分别保留不同模态原始域结构的哈希方法相比,联合语义矩阵不仅可以简单地以单独的方式保留两个相似度矩阵,而且可以充分利用两个相似度矩阵的互补信息,并集成更精确的字段。因此联合语义矩阵表示为
Figure 712247DEST_PATH_IMAGE034
,其中
Figure 171041DEST_PATH_IMAGE035
表示图像相似度矩阵,
Figure 624019DEST_PATH_IMAGE036
表示文本相似度矩阵,而
Figure 546976DEST_PATH_IMAGE037
表示融合关系两个矩阵中的一个,使用
Figure 794418DEST_PATH_IMAGE038
表示实例
Figure 802825DEST_PATH_IMAGE039
Figure 793915DEST_PATH_IMAGE040
之间的潜在语义相关性;为了更好地解释组合函数
Figure 836957DEST_PATH_IMAGE041
,首先采用加权求和方法将
Figure 255300DEST_PATH_IMAGE042
Figure 485424DEST_PATH_IMAGE043
融合在一起,如下所示:
Figure 545784DEST_PATH_IMAGE044
(1)
然后,将所得的
Figure 177754DEST_PATH_IMAGE045
矩阵中的每一行用作每个实例的新特征,表示该实例与其他实例之间的相似关系;然后,计算
Figure 32577DEST_PATH_IMAGE046
以获得实例之间的高级域特征表示;因此,最终表示如下:
Figure 15577DEST_PATH_IMAGE047
(2)
其中,
Figure 348469DEST_PATH_IMAGE048
是一个权衡参数,用于调整高阶邻域描述的重要性。与标签信息相比,等式(2)中的联合语义信息矩阵可以获得更多的潜在相关性信息,并且还可以获得更多标签之外的语义信息。
进一步的,所述S4中:所述深度跨模态哈希框架(DCSJM)包括三个部分:一是利用数据特征生成联合语义矩阵部分;二是图片子网,原始数据首先输入去掉最后一个全连接层的VGG19层模型得到深度特征表示,再将得到的深度表示特征输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层;三是文本子网,原始数据首先输入句子CNN网络得到深度文本的特征表示,再将得到的深度表示输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层。
进一步的,所述S4中,所述目标函数的改进具体如下:
本发明的目的是了解不同模态数据的语义相关性,即在一个公共空间中,即使数据来自不同的模态,来自相同语义类别的样本也应相似。因此,也有必要使用联合语义矩阵作为受监管网络参数的训练。为了了解多模式数据的判别特征,将最小化标签空间和公共表示空间中的判别损失;同时,还最小化每个图像-文本对的表示之间的距离,以减小跨模态之间的差异;此外,再将联合语义矩阵与线性分类器之间的距离最小化,以充分利用标签信息和联合矩阵获得的潜在相关性。
以下详细介绍DCSJM目标函数:
(1)首先将最小化两种形式的样本在公共表示空间中的损失:
Figure 834945DEST_PATH_IMAGE049
(3)
其中
Figure 126249DEST_PATH_IMAGE050
Figure 330966DEST_PATH_IMAGE051
Figure 467549DEST_PATH_IMAGE052
Figure 74111DEST_PATH_IMAGE053
Figure 270737DEST_PATH_IMAGE054
Figure 431591DEST_PATH_IMAGE055
Figure 371865DEST_PATH_IMAGE056
是用于计算两个向量之间相似度的余弦函数,1是指示符函数,当两个元素属于同一类时,其值为1,否则为0;上式(3)中使用的负对数似然函数为定义如下:
Figure 832933DEST_PATH_IMAGE057
(4)
为了消除跨模态差异,首先最小化网络学习的图像-文本对之间的特征表示之间的距离;更具体地说,将特征表示空间的模态不变损失函数表示如下:
Figure 934882DEST_PATH_IMAGE058
(5)
(2)然后要保留投影后不同类别的样本之间的区别;使用线性分类器来预测公共表示空间中投影样本的语义标签;因此使用以下目标函数来衡量标签空间中的歧视性损失:
Figure 125909DEST_PATH_IMAGE059
(6)
关于联合语义矩阵部分,计算了联合语义矩阵S,以探索输入示例的潜在语义关系;因此使用以下目标函数来最小化相似度矩阵S和哈希码余弦相似度之间的误差,这是学习语义相关的二进制码所需要损失函数:
Figure 869874DEST_PATH_IMAGE060
(7)
其中γ是超参数,它使我们的联合语义矩阵框架更灵活,而S是联合语义矩阵。
根据等式(3)、(5)、(6)和(7),最终得出DCSJM的目标函数,如下所示:
Figure 185449DEST_PATH_IMAGE061
(8)
其中
Figure 723878DEST_PATH_IMAGE062
Figure 124903DEST_PATH_IMAGE063
Figure 406980DEST_PATH_IMAGE064
是超参数。
本发明的优点和有益效果:
本发明提出了一种新颖而有效的跨模式哈希检索方法;该方法使用监督标签和无监督联合语义证明作为监督信息。标签可以有效地训练网络参数,以便不同的模态可以在相同的汉明空间中实现相同的标准评估操作;联合语义矩阵可以获得特征空间的潜在高级语义相关性。因此,本发明提供的DCSJM模型不仅使用标签的语义信息,而且还使用特征空间中存在的潜在语义信息。且根据实际实验结果表明,本发明所提出的模型比其他基线方法具有更优的检索性能。
附图说明
图1 为本发明的基于联合语义矩阵跨模态哈希的过程图。
图2 为实施例中DCSJM模型与其他基准方法mAP结果对比图。
图3 为实施例中图片搜索文本mAP结果对比图。
图4 为实施例中文本搜索图片mAP结果对比图。
具体实施方式
以下通过实施实例并结合附图对本发明进一步解释和说明。
实施例1:
一种基于联合语义矩阵的深度跨模态哈希(DCSJM)的图像检索方法,包括以下步骤(具体流程如图1所示):
S1:随机获取一个批次数量的图像文本对数据,并构造标签矩阵T;
S2:图像和文本数据分别送入预训练模型VGG19层模型和Word2Vec模型得到图像和文本特征(如图1的左上半部分,具体为图像数据通过ImgCNN(图片网络)得到图片特征,文本经过Text CNN(文本网络)获得文本特征的过程);
S3:利用S2中获取到的特征构造联合语义矩阵(如图1右边虚线框部分,其中为图片特征通过cos距离计算得到图片相似度矩阵,图中以I1、I2、I3为例。类似的文本以T1、T2、T3表示);
S4:利用S1获得的标签矩阵和S3获得的联合语义矩阵作为监督信息,设置改进后的目标函数,监督网络参数的训练(训练过程如图1左边整个部分所示,分别将ImgCNN和TextCNN获得的特征送入下面的两层全连接层和一层哈希层中训练,其中哈希层的得到的汉明空间的相似度矩阵以BI1、BI2、BI3、BT1、BT2、BT3为例与联合语义矩阵训练网络参数)。将标签预测层P所得数据与标签矩阵训练参数;
S5:重复S1到S4的步骤,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;
S6:待检索图像数据经过S1、S2和S3处理后,输入至S5训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。
实施例2(该实施例为实施例1的具体展开)
一种基于联合语义矩阵的深度跨模态哈希(DCSJM)的图像检索方法,包括以下步骤:
S1:使用n表示实验中使用了n个图像文本对实例,表示为
Figure 842640DEST_PATH_IMAGE065
,其中
Figure 551970DEST_PATH_IMAGE066
代表图像实例中的第i个实例
Figure 705871DEST_PATH_IMAGE067
表示文本实例中的第i个实例。每个图像文本对
Figure 791639DEST_PATH_IMAGE068
分别对应一个类别向量
Figure 81806DEST_PATH_IMAGE069
,其中c表示类别数,如果第i个实例在第j个类别中,则
Figure 962037DEST_PATH_IMAGE070
,否则
Figure 337655DEST_PATH_IMAGE071
。构造得到每个批次的数据的标签矩阵T。
S2:图像和文本数据分别送入预训练模型VGG19层模型和Word2Vec模型得到图像和文本特征。首先介绍一些用于构造联合语义矩阵的定义:用
Figure 961534DEST_PATH_IMAGE072
代表批次大小;具体描述如下,用
Figure 371787DEST_PATH_IMAGE073
表示每个批次的
Figure 422920DEST_PATH_IMAGE072
个实例,每个实例由一对图像和文本表示,例如
Figure 285833DEST_PATH_IMAGE074
。对于随机训练批次的样本
Figure 713404DEST_PATH_IMAGE075
,使用
Figure 978163DEST_PATH_IMAGE076
Figure 465776DEST_PATH_IMAGE077
分别表示图像数据和文本数据的原始数据特征,图像数据特征是从VGG19层fc7获得,文本数据特诊是从Word2Vec模型获得。同样,
Figure 550407DEST_PATH_IMAGE078
Figure 516089DEST_PATH_IMAGE079
分别表示从图像网络和文本网络获得的二进制代码,其中d表示长度二进制代码。
S3:利用S2中获取到的特征构造联合语义矩阵。具体的,首先,将通过不同模态获得的原始特征
Figure 900934DEST_PATH_IMAGE080
Figure 293869DEST_PATH_IMAGE081
进行归一化,以获得
Figure 131375DEST_PATH_IMAGE082
Figure 635169DEST_PATH_IMAGE083
,然后计算各自的余弦相似度,以获得图像模态相似度矩阵
Figure 608941DEST_PATH_IMAGE084
和文本相似度矩阵
Figure 438357DEST_PATH_IMAGE085
;使用上述余弦相似度矩阵来表示不同模态输入数据的原始域关系。类似地,对于汉明空间,也可以通过使用余弦相似度来获得深度网络生成的二进制代码之间的相似度矩阵。
与以前的保留原始域结构的哈希方法相比,联合语义矩阵不仅可以简单地以单独的方式保留两个亲和度矩阵,而且可以充分利用两个亲和度矩阵的互补信息,并集成更精确的字段。因此联合语义矩阵表示为
Figure 497579DEST_PATH_IMAGE086
,其中
Figure 805064DEST_PATH_IMAGE087
表示图像相似度矩阵,
Figure 164501DEST_PATH_IMAGE088
表示文本相似度矩阵,而
Figure 899239DEST_PATH_IMAGE089
表示融合关系 两个矩阵中的一个,使用
Figure 445758DEST_PATH_IMAGE090
表示实例
Figure 291354DEST_PATH_IMAGE091
Figure 505298DEST_PATH_IMAGE092
之间的潜在语义相关性。为了更好地解释组合函数
Figure 399218DEST_PATH_IMAGE093
,首先采用加权求和方法将
Figure 433033DEST_PATH_IMAGE094
Figure 347900DEST_PATH_IMAGE095
融合在一起,如下所示:
Figure 150771DEST_PATH_IMAGE096
(1)
然后,将所得的
Figure 492890DEST_PATH_IMAGE097
矩阵中的每一行用作每个实例的新特征,表示该实例与其他实例之间的相似关系。然后,我们计算
Figure 748422DEST_PATH_IMAGE098
以获得实例之间的高级域特征表示。因此,最终表示如下:
Figure 201400DEST_PATH_IMAGE099
(2)
其中,
Figure 389936DEST_PATH_IMAGE100
是一个权衡参数,用于调整高阶邻域描述的重要性。
S4:利用S1获得的标签矩阵和S3获得的联合语义矩阵作为监督信息,设置改进后的目标函数,监督网络参数的训练。训练网络参数的目标函数主要包括以下几个方面:来自相同语义类别的样本不管是不是同一种模态,他们的特征表示和哈希码也应相似;为了了解多模式数据的判别特征,将最小化标签空间和公共表示空间中的判别损失;还最小化每个图像-文本对的表示之间的距离,以减小跨模态之间的差异;将联合语义矩阵与线性分类器之间的距离最小化,以充分利用标签信息和联合矩阵获得的潜在相关性。
下面,将详细介绍DCSJM目标函数。
首先将最小化两种形式的样本在公共表示空间中的损失:
Figure 637378DEST_PATH_IMAGE101
(3)
其中
Figure 380206DEST_PATH_IMAGE102
Figure 636875DEST_PATH_IMAGE103
Figure 414338DEST_PATH_IMAGE104
Figure 832681DEST_PATH_IMAGE105
Figure 797226DEST_PATH_IMAGE106
Figure 326427DEST_PATH_IMAGE107
Figure 489556DEST_PATH_IMAGE108
是用于计算两个向量之间相似度的余弦函数,1是指示符函数,当两个元素属于同一类时,其值为1,否则为0。上式(3)中使用的负对数似然函数为定义如下:
Figure 78800DEST_PATH_IMAGE109
(4)
为了消除跨模态差异,首先最小化网络学习的图像-文本对之间的特征表示之间的距离。更具体地说,将特征表示空间的模态不变损失函数表示如下:
Figure 796220DEST_PATH_IMAGE110
(5)
然后要保留投影后不同类别的样本之间的区别。使用线性分类器来预测公共表示空间中投影样本的语义标签。因此,使用以下目标函数来衡量标签空间中的歧视性损失:
Figure 129112DEST_PATH_IMAGE111
(6)
关于联合语义矩阵部分,计算了联合语义矩阵S,以探索输入示例的潜在语义关系。因此,可以使用以下目标函数来最小化相似度矩阵S和哈希码余弦相似度之间的误差,这是学习语义相关的二进制码所需要损失函数:
Figure 146747DEST_PATH_IMAGE112
(7)
其中γ是超参数,它使我们的联合语义矩阵框架更灵活,而S是联合语义矩阵。
根据等式(3)、(5)、(6)和(7),我们可以得出DCSJM的目标函数,如下所示:
Figure 906893DEST_PATH_IMAGE113
(8)
其中
Figure 111609DEST_PATH_IMAGE114
Figure 513772DEST_PATH_IMAGE115
Figure 120333DEST_PATH_IMAGE116
是超参数。
通过以上改进目标函数训练网络参数,直至达到设定的训练次数。
S5:重复S1至S4,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;
S6:待检索图像数据经过S1、S2和S3处理后,输入至S5训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。
实施例3(该实施例通过具体实验数据进行验证)
该实施例的具体过程参考实施例2。
在广泛运用的数据集Pascal Sentence进行实验。该数据集是Pascal VOC的子集,包含来自20个类别的1000对图像和文本描述。在实验中,使用19层VGGNet学习图像数据表示,并使用fc7层学习的4096维特征作为图像表示向量。对于文本数据使用句子CNN来学习每个文本的300维表示向量。
在Pascal Sentence数据集上的结果:
多次验证超参数,最后将超参数设置为
Figure 316960DEST_PATH_IMAGE117
= 0.0001,
Figure 8972DEST_PATH_IMAGE118
= 0.1,
Figure 949246DEST_PATH_IMAGE119
= 0.0001。实验中会根据实际情况调整其他损失函数中的超参数。
图2展示了在Pascal Sentence数据集和其他7种基线方法不同位数的mAP值,包括有16位、32位、64位、128位。实验对比的目前流行的基准跨模态方法有语义相关性最大化的大规模多模态哈希算法(SCM_orth ,SCM_seq),用于跨模态相似性搜索的潜在语义稀疏哈希算法(LSSH),多模态数据的集中数据矩阵分解哈希方法(CMFH),用于跨模态检索的有监督矩阵分解哈希方法(SMFH),用于大规模跨模态相似性搜索的标签一致矩阵分解哈希(LCMFH),用于大规模检索的基于标签类别监督矩阵分解哈希(LCSMFH)。
实验结果对比从两个方面进行,一是来利用图片搜索文本所得mAP,二是利用文本搜索图片所得mAP。在搜索时也从不同搜索位长度来进行比较。实验结果如图2,图3和图4所示,其中图2是以表格展示的是本文所提方法与基线方法mAP对比结果。其中对比结果分为以文本检索图像和以图像检索文本,在以图像检索文本中各个检索长度均优于基线任务,以16位为例所提方法优于最好基线方法约3%。图3是以折线图表示图片搜索文本的mAP结果。图4是以折线图表示文本搜索图片mAP结果。在利用文本搜索图片的实验室中本方法在16位上的搜索结果也优于其他基准方法。实验结果表明,总体来说本发明所提供的方法性能表现在各个领域都优于其他基准方法。

Claims (3)

1.一种基于联合语义矩阵的深度跨模态哈希的图像检索方法,其特征在于,该方法包括以下步骤:
S1:随机获取一个批次数量的图像文本对数据,并构造标签矩阵;
S2:图像和文本数据分别送入预训练模型VGG19层模型和Word2Vec模型分别得到图像特征和文本特征;
S3:利用S2中获取到的图像特征和文本特征构造联合语义矩阵;
S4:利用S1获得的标签矩阵和S3获得的联合语义矩阵作为监督信息,构建深度跨模态有监督哈希框架,设置改进后的目标函数,监督网络参数的训练;所述目标函数的改进具体如下:
(1)将最小化两种形式的样本在公共表示空间中的损失:
Figure DEST_PATH_IMAGE001
(3)
其中
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
,是用于计算两个向量之间相似度的余弦函数,1是指示符函数,当两个元素属于同一类时,其值为1,否则为0;上式(3)中使用的负对数似然函数为定义如下:
Figure DEST_PATH_IMAGE009
(4)
为了消除跨模态差异,首先最小化网络学习的图像-文本对之间的特征表示之间的距离;更具体地说,将特征表示空间的模态不变损失函数表示如下:
Figure DEST_PATH_IMAGE010
(5)
(2)使用线性分类器来预测公共表示空间中投影样本的语义标签;因此使用以下目标函数来衡量标签空间中的歧视性损失:
Figure DEST_PATH_IMAGE011
(6)
关于联合语义矩阵部分,计算了联合语义矩阵S,以探索输入示例的潜在语义关系;因此使用以下目标函数来最小化相似度矩阵S和哈希码余弦相似度之间的误差,这是学习语义相关的二进制码所需要损失函数:
Figure DEST_PATH_IMAGE012
(7)
其中γ是超参数,它使我们的联合语义矩阵框架更灵活,而S是联合语义矩阵;根据等式(3)、(5)、(6)和(7),最终得出DCSJM的目标函数,如下所示:
Figure DEST_PATH_IMAGE013
(8)
其中,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
是超参数;
S5:重复S1到S4的步骤,直至训练次数到达设定次数,得到训练好的深度跨模态有监督哈希模型;
S6:待检索图像数据经过S1、S2和S3处理后,输入至S5训练好的深度跨模态有监督哈希模型进行检索,输出检索结果。
2.如权利要求1所述的图像检索方法,其特征在于,所述S3中联合语义矩阵构建具体为:
S3-1:首先,将通过不同模态获得的原始特征:图像特征
Figure DEST_PATH_IMAGE017
和文本特征
Figure DEST_PATH_IMAGE018
进行归一化,以获得归一化后的图像特征
Figure DEST_PATH_IMAGE019
和归一化后的文本特征
Figure DEST_PATH_IMAGE020
,然后计算各自的余弦相似度,以获得图像模态相似度矩阵
Figure DEST_PATH_IMAGE021
和文本相似度矩阵
Figure DEST_PATH_IMAGE022
;使用上述余弦相似度矩阵来表示不同模态输入数据的原始域关系;对于汉明空间,通过使用余弦相似度来获得深度网络生成的二进制代码之间的相似度矩阵;
S3-2:因此联合语义矩阵表示为
Figure DEST_PATH_IMAGE023
,其中
Figure DEST_PATH_IMAGE024
表示图像相似度矩阵,
Figure DEST_PATH_IMAGE025
表示文本相似度矩阵,而
Figure DEST_PATH_IMAGE026
表示融合关系两个矩阵中的一个,使用
Figure DEST_PATH_IMAGE027
表示实例
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
之间的潜在语义相关性;为解释组合函数
Figure DEST_PATH_IMAGE030
,首先采用加权求和方法将
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
融合在一起,如下所示:
Figure DEST_PATH_IMAGE033
(1)
然后,将所得的
Figure DEST_PATH_IMAGE034
矩阵中的每一行用作每个实例的新特征,表示该实例与其他实例之间的相似关系;然后,计算
Figure DEST_PATH_IMAGE035
以获得实例之间的高级域特征表示;因此,最终表示如下:
Figure DEST_PATH_IMAGE036
(2)
其中,
Figure DEST_PATH_IMAGE037
是一个权衡参数,用于调整高阶邻域描述的重要性。
3.如权利要求1所述的图像检索方法,其特征在于,所述S4中:所述深度跨模态有监督哈希框架包括三个部分:一是利用数据特征生成联合语义矩阵部分;二是图片子网,原始数据首先输入去掉最后一个全连接层的VGG19层模型得到深度特征表示,再将得到的深度表示特征输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层;三是文本子网,原始数据首先输入句子CNN网络得到深度文本的特征表示,再将得到的深度表示输入两层全连接层,然后再将两层全连接层得到的特征分别送入并行的哈希层和标签预测层。
CN202110730743.4A 2021-06-30 2021-06-30 基于联合语义矩阵的深度跨模态哈希的图像检索方法 Active CN113177132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730743.4A CN113177132B (zh) 2021-06-30 2021-06-30 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730743.4A CN113177132B (zh) 2021-06-30 2021-06-30 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Publications (2)

Publication Number Publication Date
CN113177132A CN113177132A (zh) 2021-07-27
CN113177132B true CN113177132B (zh) 2021-09-14

Family

ID=76927954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730743.4A Active CN113177132B (zh) 2021-06-30 2021-06-30 基于联合语义矩阵的深度跨模态哈希的图像检索方法

Country Status (1)

Country Link
CN (1) CN113177132B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326289B (zh) * 2021-08-02 2021-11-02 山东大学 面向携带新类别的增量数据的快速跨模态检索方法及系统
CN114298159B (zh) * 2021-12-06 2024-04-09 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
CN114419351A (zh) * 2022-01-28 2022-04-29 深圳市腾讯计算机系统有限公司 图文预训练模型训练、图文预测模型训练方法和装置
CN114780690B (zh) * 2022-06-20 2022-09-09 成都信息工程大学 基于多模态矩阵向量表示的专利文本检索方法及装置
CN115687571B (zh) * 2022-10-28 2024-01-26 重庆师范大学 一种基于模态融合重建哈希的深度无监督跨模态检索方法
CN115599942B (zh) * 2022-11-08 2023-12-12 重庆师范大学 一种基于gcn的深度无监督跨模态检索方法
CN116383342B (zh) * 2023-04-07 2023-11-14 四川大学 一种在噪声标签下鲁棒的跨域文本检索方法
CN117611601B (zh) * 2024-01-24 2024-04-23 中国海洋大学 基于文字辅助的半监督3d医学图像分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN112241475A (zh) * 2020-10-16 2021-01-19 中国海洋大学 基于维度分析量化器哈希学习的数据检索方法
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和系统
WO2021041342A1 (en) * 2019-08-23 2021-03-04 Memorial Sloan Kettering Cancer Center Semantic image retrieval for whole slide images
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、系统、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069173B (zh) * 2015-09-10 2019-04-19 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function
CN110674323B (zh) * 2019-09-02 2020-06-30 山东师范大学 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN110765281A (zh) * 2019-11-04 2020-02-07 山东浪潮人工智能研究院有限公司 一种多语义深度监督跨模态哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021041342A1 (en) * 2019-08-23 2021-03-04 Memorial Sloan Kettering Cancer Center Semantic image retrieval for whole slide images
CN110909181A (zh) * 2019-09-30 2020-03-24 中国海洋大学 一种面向多类型海洋数据的跨模态检索方法及系统
CN112241475A (zh) * 2020-10-16 2021-01-19 中国海洋大学 基于维度分析量化器哈希学习的数据检索方法
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和系统
CN112925962A (zh) * 2021-01-20 2021-06-08 同济大学 基于哈希编码的跨模态数据检索方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval;Chao Li,等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第4242-4249页 *
深度联合语义跨模态哈希算法;熊威,等;《小型微型计算机系统》;20210331;第1-10页 *

Also Published As

Publication number Publication date
CN113177132A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN107832663B (zh) 一种基于量子理论的多模态情感分析方法
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
Gu et al. Clustering-driven unsupervised deep hashing for image retrieval
WO2022068195A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN111127385A (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
CN111460077A (zh) 一种基于类语义引导的跨模态哈希检索方法
CN114329109B (zh) 基于弱监督哈希学习的多模态检索方法及系统
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN112434628B (zh) 基于主动学习和协同表示的小样本图像分类方法
CN109960732B (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111506773A (zh) 一种基于无监督深度孪生网络的视频去重方法
CN111753190A (zh) 一种基于元学习的无监督跨模态哈希检索方法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
CN117494051A (zh) 一种分类处理的方法、模型训练的方法以及相关装置
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Liu et al. Path ranking with attention to type hierarchies
CN114168782B (zh) 一种基于三元组网络的深度哈希图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant