CN109960732A - 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 - Google Patents

一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 Download PDF

Info

Publication number
CN109960732A
CN109960732A CN201910246991.4A CN201910246991A CN109960732A CN 109960732 A CN109960732 A CN 109960732A CN 201910246991 A CN201910246991 A CN 201910246991A CN 109960732 A CN109960732 A CN 109960732A
Authority
CN
China
Prior art keywords
depth
module state
feature
hash
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910246991.4A
Other languages
English (en)
Other versions
CN109960732B (zh
Inventor
荆晓远
董西伟
吴飞
黄鹤
姚永芳
李云鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Petrochemical Technology
Original Assignee
Guangdong University of Petrochemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Petrochemical Technology filed Critical Guangdong University of Petrochemical Technology
Priority to CN201910246991.4A priority Critical patent/CN109960732B/zh
Publication of CN109960732A publication Critical patent/CN109960732A/zh
Application granted granted Critical
Publication of CN109960732B publication Critical patent/CN109960732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于跨模态检索、模式识别技术领域,公开了一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统,基于鲁棒监督的深度离散哈希跨模态检索方法采用模态内和模态间一致性保持策略,同时进行非冗余特征选择;并选择具有最小冗余度的鲁棒性和鉴别性特征生成二进制哈希码;再基于奇异值分解进行离散哈希学习。本发明的RSDDH方法可以优于几种最先进的浅层跨模态哈希方法,且随着哈希码长度的增加,本发明所提出的方法的性能就越好。根据实验结果,验证了特征选择策略、离散哈希方案,模态间和模态内一致性保持策略的有效性,提高了跨模态哈希检索的性能。

Description

一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
技术领域
本发明属于跨模态检索、模式识别技术领域,尤其涉及一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统。
背景技术
目前,业内常用的现有技术有3种浅层跨模态哈希方法:CMFH、SCM和SMFH,以及3种深度跨模态哈希方法:CDQ、PRDH和DCMH。:集体矩阵因式分解哈希(CMFH)方法,通过从一个实例的不同模态用潜在因子模型建立集体矩阵来学习一种统一的哈希码;语义关联最大化(SCM)方法,将语义标签集成到大规模数据建模的哈希学习过程中,利用所有监督的信息进行线性时间复杂度的训练,避免显式计算相似矩阵;集体深度量化(CDQ)方法,尝试在端到端深度结构中引入量化用于跨模态检索;关系对引导深度哈希(PRDH)方法,分别从模态内视图和模态间视图集成不同类型的成对约束来促进哈希码的相似性学习。
数据往往以不同的方式表示。例如,在Flickr和Facebook网站等社交网络中,用户可以通过图片和相关文本记录事件。多模态数据迅速增加,同时在过去的几年里,技术的快速发展。跨模态检索的目的是将一种模态的数据作为查询,检索另一种模式的相关数据。考虑到跨模态检索的效率,哈希方法由于存储成本低和检索速度快,近年来受到了最近邻研究界的越来越多的关注。哈希的目的是将原始空间中的数据点映射到二进制哈希码的汉明空间中,在该空间中保留原始空间中的相似性。
在哈希技术的基础上,提出了许多跨模态检索任务的实现方法。但这些方法通常采用传统的手工特征表示来进行跨模态检索,缺点是特征提取过程独立于哈希码学习过程,这意味着手工构造的特征可能与哈希码学习过程不兼容。因此,这些现有的具有手工制作特征的方法在实际应用中可能无法获得令人满意的性能。例如,局部二进制模式,尺度不变特征变换和梯度直方图,通常用于描述图像特征,缺点有二,其一该特征对于非线性特征提取的效果并不理想;其二通用性不好,这些方法提取的特征在一个数据集上适用但是换一个数据集适用性很差。至于文字,文档主题生成模型、重复软最大化模型和词袋模型通常用于描述文本特征,有两个缺点:首先需要人工进行特征工程,成本很高;其次所生成的文本表示是高纬度高稀疏的,并且特征表达能力很弱。
综上所述,现有技术存在的问题是:
(1)在图像和文本之间的检索中,传统的手工特征对不同的跨模态检索任务缺乏适应性和通用性,可能在某些数据集上表现很好,在其他数据集上所取得的跨模态检索性能通常不能令人满意。导致检索性能不理想的另一个原因可能是这些方法大多是基于浅层架构,它不能彻底利用有用的信息来完成特定的跨模态检索任务。
(2)特征冗余问题。在各模态中,不同类型特征的判别能力是不同的,并且这些特征中存在冗余,一些现有技术尽管使用深度特征与特定的跨模态检索任务兼容,但是并没有采用特征选择策略,这样产生的哈希码所得到的跨模态检索性能存在一定的缺陷。
(3)离散哈希学习问题。由于哈希码学习问题本质上是一个离散的学习问题,无法轻易解决。许多现有的散列方法通过对离散约束进行放松并将问题转化为连续学习问题来解决离散学习问题。通过这种方式,尽管可以容易地解决离散学习问题,但是放松过程可能不利地影响所学习的二进制哈希码的准确性。
解决上述技术问题的意义:
本发明提出一种基于鲁棒监督的深度离散哈希跨模态检索方法,该方法是一种端到端的深度跨模态哈希方法,该方法同时采用了模态内,和模态间一致性保持策略,同时还进行了非冗余特征选择,可以选择具有最小冗余度的鲁棒性和鉴别性特征来生成更好的二进制哈希码,最后基于奇异值分解,解决离散哈希学习的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统。
本发明提出一种基于鲁棒监督的深度离散哈希跨模态检索方法,该方法是一种端到端的深度跨模态哈希方法,可以用在图像和文本,之间的检索领域,当输入一张图片检索时,可以搜索出对应的图片或是对应图片描述的文本。不需要通告硬件,需要通过搜索引型就可以完成该方法。同时采用了模态内,和模态间一致性保持策略,同时还进行了非冗余特征选择,可以选择具有最小冗余度的鲁棒性和鉴别性特征来生成更好的二进制哈希码,最后基于奇异值分解,解决离散哈希学习的问题。
本发明是这样实现的,一种基于鲁棒监督的深度离散哈希跨模态检索方法,其特点在于,包括以下步骤:
步骤1:获取训练特征数据集,其中每个样本都由文本和图像对组成;
步骤2:对数据集里图像和文本分别进行特征学习;
步骤3:基于非冗余特征选择的深度哈希码学习;
步骤4:模态内加入一致性保存策略;
步骤5:模态间加入一致性保存策略;
步骤6:得到总目标函数并进行算法优化。
进一步,步骤(2)所述的对数据集里图像和文本分别进行特征学习的具体方法是:
图像特征学习:利用一个7层的神经网络,其中前5层是卷积神经网络(CNN),分别是第一层用96个大小为11*11的卷积核,步长是4,0边距(padding size),然后用Relu激活函数。池化用传统的2*2大小的模板做max pooling,最后局部归一化。第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,2*2大小的max pooling,最后局部归一化。第三层、第四层和第五层相互连接,没有中间的池层或归一化层。第三和四层,用384个3*3的卷积核,步长是1,padding是1,第五层用256个3*3的卷积核,步长是1,padding是1。最大池层跟随第五层卷积的输出,得到了尺寸为6×6×256的输出特征。第6层全连接层有4096个神经元,为了防止过拟合,本发明设置dropout为0.5。激活函数用Relu。然后得到与输入图像对应的尺寸为4096×1的特征。最后连接第7层全连接层,激活函数用双曲正切(TanH)。
文本特征学习:由于文本特征通常比图像特征更有判断力,所以文本特征与语义之间的关系能够更容易地建立是一种本能。本发明采用多层感知器(MLP),由三个全连接层构成一个MLP DNN,用于将文本特征从原始特征空间映射到语义空间。利用relu作为前两个完全连通层的非线性激活函数。并以双曲正切(Tanh)作为最后一层的激活函数。文本的维数是d(t),换句话说,最后一层有d(t)神经元。
进一步,在步骤3中,基于非冗余特征选择的深度哈希码学习,对于第i个实例(vi,ti),让表示学习到的图像特征,它对应于图像模态的输出,其中θv网络参数。表示图像模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为f(vi;θv)。此外,表示学习到的文本特征,它对应于文本模式的输出,其中θt网络参数。表示文本模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为g(ti;θt)。假设图像和文本模态中的第i个训练实例的投影深度学习特征Pv Tf(vi;θv)和Pt Tg(ti;θt)分别在汉明空间中产生二值哈希码其中是将深度学习特征f(vi;θv)和g(ti;θt)映射到潜空间的线性投影矩阵,(·)T是矩阵转置。一般来说,对于图像和文本模式中的特征,都存在冗余特征。本发明提出了一种基于谱回归和2,1-范数正则化的非冗余特征选择策略,用于对图像模态和文本模式进行特征选择。然后,本发明提出了以下优化问题,以获得图像和文本模式中的实例的二进制哈希码:
其中γ123是权衡参数,1表示所有元素为1的向量,||·||F表示矩阵的F-范数,Z(v)和Z(t)分别是基于两个相似矩阵构造的两个矩阵。 是通过对相似矩阵进行奇异值分解(SVD)得到,如:同样的, 是通过对相似矩阵进行奇异值分解(SVD)得到。为了方便描述,本发明用一组向量表示Z(v)和Z(t),如:总的来说,分别从图像模式和文本模式中选择鉴别特征和非冗余特征,以生成更好的二进制哈希码。
进一步,在步骤4中,模态内加入一致性保存策略:模态内相似性可以反映每个模态中特征数据点之间的邻域关系,在图像模态中,两个特征数据点vi和vj的模态内相似性可以定义为
其中表示特征数据点vi的K近邻集合。同样,文本模态中两个特征数据点ti和tj的模态内相似度也可以定义如下:
其中表示特征数据点ti的K近邻的集合。为了确保每个特征数据点与其K近邻在汉明空间中仍然相似,本发明将最小化问题表述如下:
进一步,在步骤5中,模态间加入一致性保存策略,通过使用标签信息,本发明可以从图像模态数据点vi(i=1,2,…,n)和文本模态数据点tj(j=1,2,…,n),定义语义相关矩阵:
如果vi与tj共享至少一个标签,则认为vi和tj具有相同的语义,如:是满足的。为了在汉明空间中保持图像模态和文本模态之间的模态一致性,本发明将最小化问题表述如下:
进一步,在步骤6中,根据权利要求的3,4,5中,得到了总的目标函数
现有的工作表明,如果在不同的模态空间中描述的数据具有相同的语义,他们被期望有相同的共同的潜在空间。在本文中,本发明假设图像和文本模态中具有相同语义的实例最终在低维公共汉明空间中用相同的二进制哈希码表示,则:那么目标函数可以写为:
通过简单的推导,代数计算,即最后目标函数:
s.t.B∈{-1,+1}n×k
其中B=[b1,b2,…,bn]T∈{-1,+1}n×k
进一步,据本发明所知,目标函数中所有的变量B,Pv,Ptv和θt都不是凸的,本发明采用交替优化策略求解未知变量。换句话说,本发明每次更新一个变量时,其他变量都是固定的。由于存在离散约束,很难直接求解目标函数方程中的未知二进制哈希码矩阵B的解,这里本发明提出了基于奇异值分解的离散哈希算法,求解这个未知的离散变量B。
本发明的另一目的在于提供一种实施所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索控制系统。
本发明的另一目的在于提供一种实施所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索网络平台。
综上所述,本发明的优点及积极效果为:
本发明表3统计了Wiki数据集上跨模态检索的mAP值。
表4统计了NUS-WIDE数据集上跨模态检索的mAp值。
表5统计了MIRFlickr数据集上跨模态检索的mAp值。
表3.Wiki数据集上的mAP值
表4.NUS-WIDE数据集上mAP值
表5.MIRFlickr数据集上mAP值
通过观察表3,4,5本发明可以看出,与对比方法相比较本发明所提出的一种基于鲁棒监督的深度离散哈希跨模态检索方法在不同哈希代码长度下都具有较好的mAP值。实验结果还表明,本发明的RSDDH方法可以优于几种最先进的浅层跨模态哈希方法,且随着哈希码长度的增加,本发明所提出的方法的性能就越好。根据实验结果,验证了特征选择策略、离散哈希方案,模态间和模态内一致性保持策略的有效性,提高了跨模态哈希检索的性能。
附图说明
图1是本发明实施例提供的基于鲁棒监督的深度离散哈希跨模态检索方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中,尽管这些手工特征被广泛使用,对不同的跨模态检索任务缺乏适应性和通用性,结果,所取得的跨模态检索性能通常不能令人满意。导致检索性能不理想的另一个原因可能是这些方法大多是基于浅层架构,它不能彻底利用有用的信息来完成特定的跨模态检索任务。此外,在每一种模态中,不同类型特征的鉴别能力是不同的,这些特征中可能存在冗余。对于现有的不采用特征选择策略的跨模态哈希检索方法,可能会产生次优二进制哈希码。特别是对于现有的深度跨模态哈希检索方法,虽然学习到的深度特征和特定的跨模态检索任务是高度兼容的,但是可能也不会选择更合适和非冗余的特性而产生二进制哈希码。
为解决上述技术问题,下面结合具体方案对本发明作详细描述。
本发明实施例提供一种基于鲁棒监督的深度离散哈希跨模态检索方法,具体流程如图1所示。
步骤(1):获取训练特征数据集,其中每个样本都由文本和图像对组成,这里本发明用的是三个广泛使用的基准多模态数据集,分别是Wiki,MIRFlickrand NUS-WIDE。
步骤(2):对数据集里图像和文本分别进行特征学习,具体方法是:
图像特征学习模型参数设置(如表1所示):利用一个7层的神经网络,其中前5层是卷积神经网络(CNN),分别是第一层用96个大小为11*11的卷积核,步长是4,0边距(paddingsize),然后用Relu激活函数。池化用传统的2*2大小的模板做max pooling,最后局部归一化。第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,2*2大小的max pooling,最后局部归一化。第三层、第四层和第五层相互连接,没有中间的池层或归一化层。第三和四层,用384个3*3的卷积核,步长是1,padding是1,第五层用256个3*3的卷积核,步长是1,padding是1。最大池层跟随第五层卷积的输出,得到了尺寸为6×6×256的输出特征。第6层全连接层有4096个神经元,为了防止过拟合,本发明设置dropout为0.5。激活函数用Relu.然后得到与输入图像对应的尺寸为4096×1的特征。最后连接第7层全连接层,激活函数用双曲正切(TanH)。
表1
文本特征学习模型参数设置(如表2所示):由于文本特征通常比图像特征更有判别力,所以文本特征与语义之间的关系能够更容易地建立联系。本发明采用多层感知器(MLP),由三个全连接层构成一个MLP DNN,用于将文本特征从原始特征空间映射到语义空间。利用relu作为前两个完全连通层的非线性激活函数。并以双曲正切(Tanh)作为最后一层的激活函数。文本的维数是d(t),换句话说,最后一层有d(t)神经元。
表2
步骤(3):基于非冗余特征选择的深度哈希码学习,对于第i个实例(vi,ti),让表示学习到的图像特征,它对应于图像模态的输出,其中θv网络参数。表示图像模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为f(vi;θv)。此外,表示学习到的文本特征,它对应于文本模态的输出,其中θt网络参数。表示文本模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为g(ti;θt)。假设图像和文本模态中的第i个训练实例的投影深度学习特征和Pt Tg(ti;θt)分别在汉明空间中产生二值哈希码其中是将深度学习特征f(vi;θv)和g(ti;θt)映射到潜空间的线性投影矩阵,(·)T是矩阵转置。一般来说,对于图像和文本模态中的特征,都存在冗余特征。本发明提出了一种基于谱回归和2,1-范数正则化的非冗余特征选择策略,用于对图像模态和文本模态进行特征选择。然后,本发明提出了以下优化问题,以获得图像和文本模态中的实例的二进制哈希码:
其中γ123是权衡参数,1表示所有元素为1的向量,||·||F表示矩阵的F-范数,Z(v)和Z(t)分别是基于两个相似矩阵构造的两个矩阵。 是通过对相似矩阵进行奇异值分解(SVD)得到,如:同样的, 是通过对相似矩阵进行奇异值分解(SVD)得到。为了描述,本发明用一组向量表示Z(v)和Z(t),如:总的来说,分别从图像模态和文本模态中选择鉴别特征和非冗余特征,以生成更好的二进制哈希码。
步骤(4):模态内加入一致性保存策略:模态内相似性可以反映每个模态中特征数据点之间的邻域关系,在图像模态中,两个特征数据点vi和vj的模态内相似性可以定义为
其中表示特征数据点vi的K近邻集合。同样,文本模态中两个特征数据点ti和tj的模态内相似度也可以定义如下:
其中表示特征数据点ti的K近邻的集合。为了确保每个特征数据点与其K近邻在汉明空间中仍然相似,本发明将最小化问题表述如下:
步骤(5):模态间加入一致性保存策略,通过使用标签信息,本发明可以从图像模态数据点vi(i=1,2,…,n)和文本模态数据点tj(j=1,2,…,n),定义语义相关矩阵:
如果vi与tj共享至少一个标签,则考虑vi和tj具有相同的语义,如:是满足的。为了在汉明空间中保持图像模态和文本模态之间的模态一致性,本发明将最小化问题表述如下:
步骤(6):根据权利要求的3,4,5中,得到了总的目标函数
现有的工作表明,如果在不同的模态空间中描述的数据具有相同的语义,他们被期望有相同的共同的潜在空间。在本发明中,本发明假设图像和文本模态中具有相同语义的实例最终在低维公共汉明空间中用相同的二进制哈希码表示,则:那么目标函数可以写为:
通过简单的推导,代数计算,即最后目标函数:
s.t.B∈{-1,+1}n×k
其中B=[b1,b2,…,bn]T∈{-1,+1}n×k
在本发明实施例中,目标函数中所有的变量B,Pv,Ptv和θt都不是凸的,本发明采用交替优化策略求解未知变量。换句话说,本发明每次更新一个变量时,其他变量都是固定的。由于存在离散约束,很难直接求解目标函数方程中未知二进制哈希码矩阵B的解,这里本发明提出了基于奇异值分解的离散哈希方法,求解这个未知的离散变量B。
为验证本方法是否有很好的优越性,本发明将提出的RSDDH方法与最近出版的几种最先进的跨模态哈希方法进行了比较,包括3个浅层的跨模态哈希方法,CMFH,SCM,SMFH和3个深度的跨模态哈希方法CDQ,PRDH,DCMH。分别在Wiki,MIRFlickr和NUS-WIDE三个数据集上进行了实验。
下面结合实验结果对本发明作进一步描述。
本发明表3统计了Wiki数据集上跨模态检索的mAP值。
表4统计了NUS-WIDE数据集上跨模态检索的mAp值。
表5统计了MIRFlickr数据集上跨模态检索的mAp值。
表3.Wiki数据集上的mAP值
表4.NUS-WIDE数据集上mAP值
表5.MIRFlickr数据集上mAP值
通过观察表3,4,5本发明可以看出,与对比方法相比较本发明所提出的一种基于鲁棒监督的深度离散哈希跨模态检索方法在不同哈希代码长度下都具有较好的mAP值。实验结果还表明,本发明的RSDDH方法可以优于几种最先进的浅层跨模态哈希方法,且随着哈希码长度的增加,本发明所提出的方法的性能就越好。根据实验结果,验证了特征选择策略、离散哈希方案,模态间和模态内一致性保持策略的有效性,提高了跨模态哈希检索的性能。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于鲁棒监督的深度离散哈希跨模态检索方法,其特点在于,所述基于鲁棒监督的深度离散哈希跨模态检索方法包括:对输入的图片检索时,采用模态内和模态间一致性保持策略,同时进行非冗余特征选择;并选择具有最小冗余度的鲁棒性和鉴别性特征生成二进制哈希码;
再基于奇异值分解进行离散哈希学习;搜索出对应的图片或对应图片描述的文本。
2.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,所述基于鲁棒监督的深度离散哈希跨模态检索方法具体包括以下步骤:
步骤一:获取训练特征数据集,其中每个样本都由文本和图像对组成;
步骤二:对数据集里图像和文本分别进行特征学习;
步骤三:基于非冗余特征选择的深度哈希码学习;
步骤四:模态内加入一致性保存策略;
步骤五:模态间加入一致性保存策略;
步骤六:得到总目标函数并进行优化。
3.如权利要求2所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤二所述的对数据集里图像和文本分别进行特征学习的具体方法包括:
图像特征学习:利用一个7层的神经网络,前5层是卷积神经网络CNN,分别是第一层用96个大小为11*11的卷积核,步长是4,0边距,用Relu激活函数;池化用传统的2*2大小的模板做max pooling,最后局部归一化;第二层以第一层的输出作为输入,用256个5*5大小的卷积核,步长是1,padding是2,同样用Relu激活函数,2*2大小的max pooling,最后局部归一化;第三层、第四层和第五层相互连接,没有中间的池层或归一化层;第三和四层,用384个3*3的卷积核,步长是1,padding是1,第五层用256个3*3的卷积核,步长是1,padding是1;最大池层跟随第五层卷积的输出,得到尺寸为6×6×256的输出特征;第6层全连接层有4096个神经元,激活函数用Relu;得到与输入图像对应的尺寸为4096×1的特征;最后连接第7层全连接层,激活函数用双曲正切TanH;
文本特征学习:采用多层感知器MLP,由三个全连接层构成一个MLP DNN,用于将文本特征从原始特征空间映射到语义空间;利用relu作为前两个完全连通层的非线性激活函数。并以双曲正切Tanh作为最后一层的激活函数;文本的维数是d(t)
4.如权利要求2所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,在步骤三中,基于非冗余特征选择的深度哈希码学习包括:对于第i个实例(vi,ti),表示学习到的图像特征,对应于图像模态的输出,其中θv网络参数;
表示图像模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为f(vi;θv);
表示学习到的文本特征,对应于文本模式的输出,其中θt网络参数。表示文本模态中n个训练实例的深度学习特征矩阵,其中第i个列向量为g(ti;θt);
图像和文本模态中的第i个训练实例的投影深度学习特征和Pt Tg(ti;θt)分别在汉明空间中产生二值哈希码 将深度学习特征f(vi;θv)和g(ti;θt)映射到潜空间的线性投影矩阵,(·)T是矩阵转置。
5.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤三中,基于非冗余特征选择方法基于谱回归和2,1-范数正则化进行非冗余特征选择,对图像模态和文本模式进行特征选择,获得图像和文本模式中的实例的二进制哈希码:
其中γ123是权衡参数,1表示所有元素为1的向量,||·||F表示矩阵的F-范数,Z(v)和Z(t)分别是基于两个相似矩阵构造的两个矩阵; 是通过对相似矩阵进行奇异值分解SVD得到,其中 通过对相似矩阵进行奇异值分解(SVD)得到;用一组向量表示 分别从图像模式和文本模式中选择鉴别特征和非冗余特征,生成二进制哈希码。
6.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤四中,模态内加入一致性保存策略具体包括:在图像模态中,两个特征数据点vi和vj的模态内相似性
其中表示特征数据点vi的K近邻集合;文本模态中两个特征数据点ti和tj的模态内相似度为:
其中表示特征数据点ti的K近邻的集合;每个特征数据点与特征数据点的K近邻在汉明空间中,最小化问题为:
7.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤五中,从图像模态数据点vi(i=1,2,…,n)和文本模态数据点tj,其中j=1,2,…,n,定义语义相关矩阵:
vi与tj共享至少一个标签,vi和tj具有相同的语义,汉明空间中保持图像模态和文本模态之间的模态一致性中,最小化问题表述如下:
8.如权利要求1所述的基于鲁棒监督的深度离散哈希跨模态检索方法,其特征在于,步骤六中,得到总的目标函数
得到总目标函数并进行优化后,最后目标函数为:
s.t.B∈{-1,+1}n×k
其中B=[b1,b2,…,bn]T∈{-1,+1}n×k
9.一种实施权利要求1所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索控制系统。
10.一种实施权利要求1所述基于鲁棒监督的深度离散哈希跨模态检索方法的基于鲁棒监督的深度离散哈希跨模态检索网络平台。
CN201910246991.4A 2019-03-29 2019-03-29 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 Active CN109960732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910246991.4A CN109960732B (zh) 2019-03-29 2019-03-29 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910246991.4A CN109960732B (zh) 2019-03-29 2019-03-29 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN109960732A true CN109960732A (zh) 2019-07-02
CN109960732B CN109960732B (zh) 2023-04-18

Family

ID=67025317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910246991.4A Active CN109960732B (zh) 2019-03-29 2019-03-29 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN109960732B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003261A1 (en) * 2002-06-28 2004-01-01 Canon Kabushiki Kaisha Information processing method and information processing apparatus
CN103038750A (zh) * 2010-03-31 2013-04-10 安全第一公司 对移动中数据进行保护的系统和方法
US20150220684A1 (en) * 2014-02-06 2015-08-06 Reference Genomics, Inc. System and method for characterizing biological sequence data through a probabilistic data structure
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN107092918A (zh) * 2017-03-29 2017-08-25 太原理工大学 一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN108536780A (zh) * 2018-03-29 2018-09-14 清华大学 一种基于触觉纹理特征的跨模态物体材质检索方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003261A1 (en) * 2002-06-28 2004-01-01 Canon Kabushiki Kaisha Information processing method and information processing apparatus
CN103038750A (zh) * 2010-03-31 2013-04-10 安全第一公司 对移动中数据进行保护的系统和方法
US20150220684A1 (en) * 2014-02-06 2015-08-06 Reference Genomics, Inc. System and method for characterizing biological sequence data through a probabilistic data structure
WO2017092183A1 (zh) * 2015-12-03 2017-06-08 中山大学 一种基于可变长深度哈希学习的图像检索方法
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN107092918A (zh) * 2017-03-29 2017-08-25 太原理工大学 一种基于语义特征和有监督哈希的图像检索实现肺结节征象识别的方法
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN107871014A (zh) * 2017-11-23 2018-04-03 清华大学 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN108334574A (zh) * 2018-01-23 2018-07-27 南京邮电大学 一种基于协同矩阵分解的跨模态检索方法
CN108536780A (zh) * 2018-03-29 2018-09-14 清华大学 一种基于触觉纹理特征的跨模态物体材质检索方法
CN108595688A (zh) * 2018-05-08 2018-09-28 鲁东大学 基于在线学习的潜在语义跨媒体哈希检索方法
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109446347A (zh) * 2018-10-29 2019-03-08 山东师范大学 一种有监督的快速离散多模态哈希检索方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
王瑞霞等: ""拉普拉斯稀疏编码的图像检索算法"", 《计算机科学》 *
胡海峰;耿静静;冯巧遇;孙永;吴建盛;: "哈希快速多标记学习算法" *
许胜等: "面向Web图像检索的基于语义迁移的无监督深度哈希" *
黄华俊杰: ""面向大规模跨模态检索的哈希方法研究"", 《万方数据知识服务平台》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN113064959A (zh) * 2020-01-02 2021-07-02 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN113064959B (zh) * 2020-01-02 2022-09-23 南京邮电大学 一种基于深度自监督排序哈希的跨模态检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法

Also Published As

Publication number Publication date
CN109960732B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Wan et al. Deep learning for content-based image retrieval: A comprehensive study
CN109960732A (zh) 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN109299342A (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN103838836B (zh) 基于判别式多模态深度置信网多模态数据融合方法和系统
Li et al. Self-taught low-rank coding for visual learning
CN109977250A (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN114241273A (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN107491782A (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
Dong et al. A combined deep learning model for the scene classification of high-resolution remote sensing image
Lin et al. Scene recognition using multiple representation network
Shao et al. Two-stage deep learning for supervised cross-modal retrieval
Wu et al. A multi-level descriptor using ultra-deep feature for image retrieval
Xu et al. A novel image feature extraction algorithm based on the fusion AutoEncoder and CNN
Sood et al. Neunets: An automated synthesis engine for neural network design
Dong et al. Training inter-related classifiers for automatic image classification and annotation
Bai et al. Learning two-pathway convolutional neural networks for categorizing scene images
Fumanal-Idocin et al. Artxai: Explainable artificial intelligence curates deep representation learning for artistic images using fuzzy techniques
Gao et al. An interpretable deep architecture for similarity learning built upon hierarchical concepts
Lv et al. Retrieval oriented deep feature learning with complementary supervision mining
CN116720519B (zh) 一种苗医药命名实体识别方法
Mithun et al. Construction of diverse image datasets from web collections with limited labeling
Wang et al. Efficient deep convolutional model compression with an active stepwise pruning approach
CN111767825B (zh) 一种人脸属性不变鲁棒性人脸识别方法及系统
Jia et al. Lightweight CNN-Based Image Recognition with Ecological IoT Framework for Management of Marine Fishes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant