CN110516095B - 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 - Google Patents

基于语义迁移的弱监督深度哈希社交图像检索方法和系统 Download PDF

Info

Publication number
CN110516095B
CN110516095B CN201910741026.4A CN201910741026A CN110516095B CN 110516095 B CN110516095 B CN 110516095B CN 201910741026 A CN201910741026 A CN 201910741026A CN 110516095 B CN110516095 B CN 110516095B
Authority
CN
China
Prior art keywords
image
hash
network
semantic
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910741026.4A
Other languages
English (en)
Other versions
CN110516095A (zh
Inventor
朱磊
王菲
石丹
崔慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201910741026.4A priority Critical patent/CN110516095B/zh
Publication of CN110516095A publication Critical patent/CN110516095A/zh
Application granted granted Critical
Publication of CN110516095B publication Critical patent/CN110516095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于语义迁移的弱监督深度哈希社交图像检索方法和系统。本公开将特征学习和哈希函数学习整合到一个统一的深度框架中,首先,通过锚点图哈希实现图像视觉相似性保存,其次,利用社交图像所附有的用户标签,通过两个层次的语义迁移,学习语义增强的哈希码。在这个框架中,图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习,改进后的深度表示和哈希模型有利于视觉相似性保存和语义的迁移,两者相互促进。另外,本公开提出了基于增广拉格朗日乘数法的离散哈希优化方法,在没有量化损失的前提下,通过快速的哈希码求解操作直接求解哈希码。

Description

基于语义迁移的弱监督深度哈希社交图像检索方法和系统
技术领域
本公开涉及多媒体信息检索领域,具体涉及一种基于语义迁移的弱监督深度哈希社交图像检索方法和系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着互联网技术的快速发展,每天都有数以亿计的社交图像被上传到各种社交网站,社交图像呈现出爆炸式的增长趋势,如何对海量的社交图像进行快速高效的检索已成为信息检索领域中一个重要且亟需解决的问题,哈希方法检索速度快,存储开销小,在该问题上获得越来越广泛的关注和应用。
现有的哈希检索方法可以分为两大类:有监督哈希和无监督哈希。有监督哈希需要使用显式的语义标签获取哈希码,然而,在实际的社交图像检索环境下,获取高质量的图像语义标签将耗费巨大的人力、物力和财力,此外,过分依赖图像语义标签会影响检索系统的可扩展性。无监督哈希利用图像的视觉特征获取哈希码,不依赖于任何监督标签,具有更理想的可扩展性,但是,图像视觉特征仅包含有限的语义信息,由于汉明空间的嵌入,基于图像视觉特征生成的哈希码所包含的语义信息将变得更加有限,语义信息的不足将直接降低社交图像检索的精度。
社交图片通常附有用户提供的标签信息,这些用户标签在语义上与图像内容相关,可以作为一个重要的语义源来提高哈希码的识别能力。根据社交图像的这一特性,语义感知哈希(SAH)在学习哈希码的过程中考虑保存用户标签所包含的语义关联信息。弱监督多模态哈希(WMH)同时考虑用户标签所包含的语义关联信息和视觉图像的局部判别结构与几何结构。虽然这些研究工作对社交图像哈希进行了先行探索,但仍存在以下问题:特征表示和哈希函数学习被分成两个相互独立的过程,使得视觉特征与后续编码过程不能最佳兼容;使用线性哈希函数,学习到的哈希码表达能力有限;直接利用用户标签进行哈希学习,标签中的噪音会影响检索性能;另外,采用“松弛+量化”两步优化策略求解哈希码,求解过程存在信息损失,不能有效保存图像语义结构。基于用户标签的弱监督哈希提出了一种由弱监督训练阶段和监督微调阶段组成的深度哈希框架,在监督微调阶段,该方法使用有标签的数据来辅助哈希码的学习,所以它具有与有监督哈希相同的有限的可扩展性。
虽然已经有以上哈希社交图像检索方法被提出,但仍然存在前面提到的几个缺点,方法有待改进。提高方法性能的关键在于:将特征表示和哈希函数学习整合到一个统一的深度框架中,去除用户标签中存在的噪音,更好保存原始数据之间的语义相关性。同时,使用离散优化策略直接求解哈希码,降低信息损失,从而获取更具判别性的哈希码。
发明内容
为了解决现有技术的不足,本公开提出基于语义迁移的弱监督深度哈希社交图像检索方法和系统。通过锚点图哈希实现图像视觉相似性保存,利用社交图像所附有的用户标签,基于两个层次的语义迁移,学习语义增强的哈希码,将特征表示和哈希函数学习整合到一个统一的深度框架中,在这个框架中,图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习。
为了实现上述目的,本公开采用如下技术方案:
本公开第一目的是提供一种基于语义迁移的弱监督深度哈希社交图像检索方法,包括如下步骤:
获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
构建深度哈希模型并进行网络参数初始化;
将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure BDA0002163938510000031
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure BDA0002163938510000032
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本;
根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
进一步的,所述直接语义迁移的损失函数为:
引入语义迁移矩阵P=[p1,…,pr]∈Rc×r,用于将哈希码与图像标签进行关联,通过最小化哈希码与图像标签的映射向量之间的差异学习语义迁移矩阵P:
Figure BDA0002163938510000041
其中,Z=[z1,…,zn]∈Rr×n是哈希码,r是哈希码的长度,n是训练集样本点的个数,zi表示第i个样本xi的哈希码,Y=[y1,…,yn]∈Rc×n是标签矩阵,每个样本xi有c个图像标签,表示为yi∈Rc,如果xi与标签j关联,则yji=1,否则yji=0,pk∈Rc×1表示第k位哈希码的语义相关向量。
进一步的,所述图像视觉相似性保存的损失函数为:
Figure BDA0002163938510000042
其中,In为n×n的单位矩阵,V∈Rn×m是锚点图矩阵,表示训练集中的n个样本跟m个锚点之间的视觉相似性,Λ=diag(VT1)∈Rm×m,diag(·)用于构建对角矩阵,1表示元素全为1的矩阵。
进一步的,所述间接语义迁移的损失函数为:
构造图像-概念超图间接传递图像的语义关联,将图像标签中的语义迁移到哈希码中。合并特征矩阵X=[x1,…,xn]∈Rd×n和标签矩阵Y=[y1,…,yn]∈Rc×n,利用迭代求解的聚类分析算法对合并后的矩阵进行概念探测,将图像定义为顶点,将概念定义为超边,构建图像-概念超图,属于相同超边的图像对应哈希码之间的最小汉明距离为:
Figure BDA0002163938510000043
其中,LH表示图像-概念超图H对应的拉普拉斯矩阵,
Figure BDA0002163938510000051
其中,d是图像视觉特征的维度,H∈Rn×a是图像-概念超图矩阵,a表示探测到的概念的个数,Dv,Dw,De分别是超图H中顶点的度、超边的度和超边权重所对应的对角矩阵。
进一步的,所述深度哈希网络的量化损失函数为:
Figure BDA0002163938510000052
进一步的,所述整合得到的整体目标函数为:
Figure BDA0002163938510000053
其中,α,β和γ是各项的权重参数,用于调节各项在统一学习框架中的重要性。
进一步的,所述求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数,具体为:
基于增广拉格朗日乘数法的高效离散优化算法,引入辅助变量A=Z-PTY,B=Z,采用迭代优化方法进行求解,求得辅助变量A、B、语义迁移矩阵P和哈希码Z,将哈希码Z带入整体的目标函数中,利用反向传播和随机梯度下降算法更新网络参数。
本公开第二目的是提供一种基于语义迁移的弱监督深度哈希社交图像检索系统,包括:
图像预处理模块,获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
网络模型构建模块,构建深度哈希模型并进行网络参数初始化;
特征获取模块,将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure BDA0002163938510000061
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure BDA0002163938510000062
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本;
目标函数构建模块,根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
哈希函数学习模块,求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
检索模块,利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
与现有技术相比,本公开的有益效果为:
本公开将特征表示和哈希函数学习整合到一个统一的深度框架中,首先,通过锚点图哈希实现图像视觉相似性保存,其次,利用社交图像所附有的用户标签,通过两个层次的语义迁移,学习语义增强的哈希码。在这个框架中,图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习,改进后的深度表示和哈希模型有利于视觉相似性保存和语义的迁移,两者相互促进。
另外,本公开提出了基于增广拉格朗日乘数法的离散哈希优化方法,在没有量化损失的前提下,通过快速的哈希码求解操作直接求解哈希码。本公开提高了社交图像的检索性能,同时减少了检索的时间、空间消耗。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。图1为本公开的基于语义迁移的弱监督深度哈希社交图像检索的整体网络框架;图2为本公开的基于语义迁移的弱监督深度哈希社交图像检索的总流程图。
具体实施方式:
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于语义迁移的弱监督深度哈希社交图像检索方法;
基于语义迁移的弱监督深度哈希社交图像检索方法,包括:
S1:获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集。
作为一个或多个实施例,训练集有n个样本xi∈Rd,d是图像视觉特征的维度,每个样本有c个图像标签,表示为yi∈Rc,如果xi与标签j关联,则yji=1,否则yji=0。图像的视觉特征矩阵表示为X=[x1,…,xn]∈Rd×n,图像的标签矩阵表示为Y=[y1,…,yn]∈Rc×n,目标是学习哈希函数h(·),从而获得哈希码Z=[z1,…,zn]∈[-1,1]r×n,其中r是哈希码的长度,zi表示第i个样本xi对应的哈希码。
S2:构建深度哈希网络模型并进行网络参数初始化。
作为一个或多个实施例,采用VGG-16模型作为基本的深度哈希网络模型,并使用在大规模ImageNet数据集上预先训练的权值对其进行初始化。卷积层和前两个全连接层构成特征表示部分,用于获取图像特征,最后一个全连接层的神经元数目设置为哈希码长度,并选择tanh函数作为激活函数,整个网络作为哈希函数学习部分。
S3:将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure BDA0002163938510000081
Figure BDA0002163938510000082
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure BDA0002163938510000083
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本。
S4:根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数。
进一步优选地,S41:图像视觉相似性保存。视觉相似性保存主要是对图像间的视觉关联进行建模,并将其有效的保存到哈希码中。它的基本思路是通过构建相似度图保存图像间的视觉关联,然后通过优化模型将相似图像映射到汉明空间中距离接近的哈希码。具体地说,如果两个相似图像的哈希码之间汉明距离过大,将遭受严重的损失。为此,最小化哈希码的加权汉明距离:
Figure BDA0002163938510000091
其中,Z=[z1,…,zn]∈Rr×n是哈希码,r是哈希码的长度,n是训练集样本点的个数,zi表示第i个样本xi对应的哈希码,S∈Rn×n是相似度矩阵,LG=diag(S1)-S是相似度矩阵对应的拉普拉斯矩阵,其中diag(·)用于构建对角矩阵,1表示元素全为1的矩阵。由于公式(1)中S和LG的复杂性为O(n2),不适用于大数据集,因此本公开通过设置锚点来获得近似的相似度矩阵S=VΛ-1VT,其中,V∈Rn×m表示n个数据样本和m个锚点之间的相似度矩阵,Λ=diag(VT1)∈Rm×m,此时,LG=In-VΛ-1VT,In为n×n的单位矩阵,由此,公式(1)可以转化为:
Figure BDA0002163938510000092
S42:直接语义迁移。由于语义上的差异,视觉特征在表示高层语义上存在固有的局限性,因此,根据视觉特征构建的相似度图无法完全捕捉图像间潜在的语义关联。社交图像附有的用户标签相当于带有噪音的图像标注,它们通常包含非常明确的语义。将用户标签中的语义直接迁移到哈希码中,具体来说,引入一个直接将哈希码与标签关联起来的语义迁移矩阵P=[p1,…,pr]∈Rc×r,其中pk∈Rc×1表示第k位哈码的语义相关向量,通过最小化哈希码和图像标签的映射向量之间的差异来学习语义迁移矩阵P:
Figure BDA0002163938510000093
其中,L2,1范数用于过滤有噪音的标签,选择语义判别力强的标签进行语义迁移。
S43:间接语义迁移。社交图像之间的语义关联是高阶的,一张图片可能描述多个语义概念,同一个语义概念也可能被多张图片描述,有更多重合语义概念的社交图片更有可能拥有相似的视觉内容,受此启发,构造一个图像-概念超图来间接传递图像的语义关联。
首先将视觉特征矩阵与图像标签矩阵进行合并,然后利用k-means对合成矩阵进行概念探测,合并后的图像特征矩阵为
Figure BDA0002163938510000101
k-means探测到的a个概念表示为E=[e1,…,en]∈R(d+c)×a
为了对图像潜在的高阶语义关联进行建模,将图像定义为顶点,将概念定义为超边,它们共同组成图像-概念超图。超图可以表示为关联矩阵H∈Rn×a,其中顶点
Figure BDA0002163938510000102
和超边ej之间的关联值
Figure BDA0002163938510000103
σ是带宽参数。对于图像-概念超图H,超边ej的度数表示为
Figure BDA0002163938510000104
假设这些概念在数据库中是均匀分布的,所有超边的权值w(ej)=1,则顶点
Figure BDA0002163938510000105
的度数表示为
Figure BDA0002163938510000106
属于相同超边的图像包含相似语义的可能性更大,对应的哈希码之间的汉明距离应该更小,由此可得:
Figure BDA0002163938510000107
其中,LH表示图像-概念超图H对应的拉普拉斯矩阵,为了简化计算,避免显式地计算LH,将LH表示为如下形式:
Figure BDA0002163938510000108
其中,Dv,De和Dw分别是顶点的度、超边的度和超边的权重所对应的对角矩阵,这种转化可以有效地降低计算复杂度。
S44:特征学习和深度哈希模型。浅层哈希使用手工提取的视觉特征,特征提取和哈希学习被分成两个独立的过程,视觉特征与后续的编码过程不能最佳兼容,所以浅层哈希方法性能有限。本公开将特征表示和哈希函数学习整合到一个统一的深度框架中,采用VGG-16模型作为基本的深度哈希模型,使用在大规模ImageNet数据集上预先训练的权值对其进行初始化。卷积层和前两个全连接层构成特征表示模型,用于提取图像视觉特征
Figure BDA0002163938510000111
其中
Figure BDA0002163938510000112
表示特征表示部分的网络参数,最后一个全连接层的神经元数目设置为哈希码长度,选择tanh函数作为激活函数,得到深度网络的输出Φ(xi;Θ),其中Θ表示整个深度哈希网络的参数。
最小化深度哈希网络的输出Φ(xi;Θ)和学习到的哈希码zi之间的量化损失,可以得到:
Figure BDA0002163938510000113
S45:综合步骤S41到S44得到基于语义迁移的弱监督深度哈希的目标函数如下:
Figure BDA0002163938510000114
其中,α,β和γ是各项的权重参数,用于调节各项在统一学习框架中的重要性。
图像视觉相似性保存和两个层次的语义迁移可以指导特征表示和哈希函数的学习,改进后的深度表示和哈希模型有利于视觉相似性保存和语义的迁移,两者相互促进。
S5:求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数h(x)=sgn(Φ(X;Θ)),其中sgn(·)是符号函数,如果括号内元素为正,其值为1,否则其值为-1。
进一步优选的,公式(7)中,由于哈希码离散约束和L2,1范数的存在,现有的离散优化方法都无法直接用于该问题的求解。本公开提出了一种基于增广拉格朗日乘数法的高效离散优化算法,引入辅助变量来消除约束,并将目标函数转换为更容易计算的等价形式。具体来说,添加辅助变量A=Z-PTY,B=Z,将其带入目标函数中,公式(7)可以转化为
Figure BDA0002163938510000121
其中,EA和EB用于衡量原始变量和辅助变量之间的差异,μ是正则化系数。等价转换后,可以采用下面的迭代优化方法求解公式(8)。
S51:固定其他变量求解辅助变量A。目标函数变为:
Figure BDA0002163938510000122
Figure BDA0002163938510000123
公式(9)可以继续转化为:
Figure BDA0002163938510000124
由此,可以得到辅助变量A的解:
Figure BDA0002163938510000125
S52:固定其他变量求解语义迁移矩阵P。目标函数变为:
Figure BDA0002163938510000131
对P求偏导,并将其设为零,可以得到:
Figure BDA0002163938510000132
S53:固定其他变量求解辅助变量B。目标函数变为:
Figure BDA0002163938510000133
对B求偏导,并将其设为零,可以得到:
Figure BDA0002163938510000134
S54:固定其他变量求解哈希码Z,目标函数变为:
Figure BDA0002163938510000135
公式(16)可以转化为:
Figure BDA0002163938510000136
由此可以得到Z的封闭解:
Figure BDA0002163938510000137
至此,通过以上哈希码求解操作快速求解哈希码。
S55:将学习到的哈希码Z带入整体的目标函数中,利用反向传播算法和随机梯度下降方法来更新网络参数。
S56:更新增广拉格朗日方法中的参数EA,EB和μ:
Figure BDA0002163938510000141
其中,ρ是用来控制收敛速度的参数。
S6:利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为一个或多个实施例,所述检索方法还包括:根据标签数据衡量图像检索性能,如果两个图像共享至少一个公共标签,则认为它们在语义上是相似的。本公开采用精度-召回率(Precision-recall)曲线和平均精度(Mean AveragePrecision,MAP)作为评价指标,它们的值越大表示检索性能越好。具体定义分别为:
①Precision-recall曲线
precision-recall曲线反映了不同召回级别的召回精度,其中:
Figure BDA0002163938510000142
Figure BDA0002163938510000143
②MAP
给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
Figure BDA0002163938510000144
其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0。所有样本的AP值的平均值即MAP。
实施例二,本实施例还提供了基于语义迁移的弱监督深度哈希社交图像检索系统;
基于语义迁移的弱监督深度哈希社交图像检索系统,包括:
图像预处理模块,获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
网络模型构建模块,构建深度哈希模型并进行网络参数初始化;
特征获取模块,将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure BDA0002163938510000151
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure BDA0002163938510000152
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本;
目标函数构建模块,根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
哈希函数学习模块,求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
检索模块,利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
以上仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (8)

1.基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,包括:
获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
构建深度哈希网络并进行网络参数初始化;
将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure FDA0002482098180000011
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure FDA0002482098180000012
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本;
根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
所述构建深度哈希网络并进行网络参数初始化包括:将特征表示和哈希函数学习整合到深度哈希网络中,采用VGG-16模型作为深度哈希网络,并使用预先训练的权值对其进行初始化,在VGG-16模型中,卷积层和前两个全连接层构成特征表示部分,用于获取社交图像特征,最后一个全连接层的神经元数目设置为哈希码长度,并选择tanh函数作为激活函数,整个深度哈希网络作为哈希函数学习部分;
所述图像视觉相似性保存通过构建相似度图保存社交图像间的视觉关联,将相似图像映射到汉明空间的哈希码中,通过设置锚点获得相似度矩阵;
所述直接语义迁移引入语义迁移矩阵,用于将哈希码与图像标签进行关联,通过最小化哈希码与图像标签的映射向量之间的差异学习语义迁移矩阵,通过L2,1范数过滤有噪音的标签;
所述间接语义迁移构造图像-概念超图间接传递社交图像的语义关联,将图像标签中的语义迁移到哈希码中,合并特征矩阵和标签矩阵,利用迭代求解的聚类分析算法对合成后的矩阵进行概念探测,将图像定义为顶点,将概念定义为超边,构建图像-概念超图;
求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
2.如权利要求1所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述直接语义迁移的损失函数为:
引入语义迁移矩阵P=[p1,…,pr]∈Rc×r,用于将哈希码与图像标签进行关联,通过最小化哈希码与图像标签的映射向量之间的差异学习语义迁移矩阵P:
Figure FDA0002482098180000021
其中,Z=[z1,…,zn]∈Rr×n是哈希码,r是哈希码的长度,n是训练集样本点的个数,zi表示第i个样本xi的哈希码,Y=[y1,…,yn]∈Rc×n是标签矩阵,每个样本xi有c个图像标签,表示为yi∈Rc,如果xi与标签j关联,则yji=1,否则yji=0,pk∈Rc×1表示第k位哈希码的语义相关向量。
3.如权利要求2所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述图像视觉相似性保存的损失函数为:
Figure FDA0002482098180000031
其中,In为n×n的单位矩阵,V∈Rn×m是锚点图矩阵,表示训练集中的n个样本跟m个锚点之间的相似性,Λ=diag(VT1)∈Rm×m,diag(·)用于构建对角矩阵,1表示元素全为1的矩阵。
4.如权利要求3所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述间接语义迁移的损失函数:
构造图像-概念超图间接传递图像的语义关联,将图像标签中的语义迁移到哈希码中,合并特征矩阵X=[x1,…,xn]∈Rd×n和标签矩阵Y=[y1,…,yn]∈Rc×n,利用迭代求解的聚类分析算法对合成后的矩阵进行概念探测,将图像定义为顶点,将概念定义为超边,构建图像-概念超图,属于相同超边的图像对应哈希码之间的最小汉明距离为:
Figure FDA0002482098180000032
其中,LH表示图像-概念超图H对应的拉普拉斯矩阵,
Figure FDA0002482098180000033
其中,d是图像特征的维度,H∈Rn×a是图像-概念超图矩阵,a表示探测到的概念的个数,Dv,Dw,De分别是超图H中顶点的度、超边的度和超边权重所对应的对角矩阵。
5.如权利要求4所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述深度哈希网络的量化损失函数为:
Figure FDA0002482098180000041
6.如权利要求5所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述整合得到整体的目标函数为:
Figure FDA0002482098180000042
其中,α,β和γ是各项的权重参数,用于调节各项在统一学习框架中的重要性。
7.如权利要求1所述的基于语义迁移的弱监督深度哈希社交图像检索方法,其特征在于,
所述求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数具体为:
基于增广拉格朗日乘数法的高效离散优化算法,引入辅助变量A=Z-PTY,B=Z,采用迭代优化方法进行求解,求得辅助变量A、B、语义迁移矩阵P和哈希码Z,将哈希码Z带入整体的目标函数中,利用反向传播和随机梯度下降算法更新网络参数。
8.基于语义迁移的弱监督深度哈希社交图像检索系统,其特征在于,
图像预处理模块,获取待检索的社交图像,以及获取社交图像的图像标签,构造包含图像标签的图像数据库,并划分为训练集、测试集和数据库集;
网络模型构建模块,构建深度哈希网络并进行网络参数初始化;
特征获取模块,将训练集输入到所构建的深度哈希网络中,获取图像特征
Figure FDA0002482098180000051
沿着网络继续传输,得到Φ(xi;Θ),其中
Figure FDA0002482098180000052
表示特征表示部分的网络参数,Θ表示整个深度哈希网络的参数,xi表示训练集中第i个样本;
目标函数构建模块,根据训练集的图像特征、图像标签和深度哈希网络的输出Φ(xi;Θ),分别构建图像视觉相似性保存、直接语义迁移和间接语义迁移的损失函数,以及深度哈希网络的量化损失函数,整合得到整体的目标函数;
所述构建深度哈希网络并进行网络参数初始化包括:将特征表示和哈希函数学习整合到深度哈希网络中,采用VGG-16模型作为深度哈希网络,并使用预先训练的权值对其进行初始化,在VGG-16模型中,卷积层和前两个全连接层构成特征表示部分,用于获取社交图像特征,最后一个全连接层的神经元数目设置为哈希码长度,并选择tanh函数作为激活函数,整个深度哈希网络作为哈希函数学习部分;
所述图像视觉相似性保存通过构建相似度图保存社交图像间的视觉关联,将相似图像映射到汉明空间的哈希码中,通过设置锚点获得相似度矩阵;
所述直接语义迁移引入语义迁移矩阵,用于将哈希码与图像标签进行关联,通过最小化哈希码与图像标签的映射向量之间的差异学习语义迁移矩阵,通过L2,1范数过滤有噪音的标签;
所述间接语义迁移构造图像-概念超图间接传递社交图像的语义关联,将图像标签中的语义迁移到哈希码中,合并特征矩阵和标签矩阵,利用迭代求解的聚类分析算法对合成后的矩阵进行概念探测,将图像定义为顶点,将概念定义为超边,构建图像-概念超图;
哈希函数学习模块,求解目标函数,利用反向传播和随机梯度下降算法更新网络参数,直至达到迭代次数,从而得到哈希函数;
检索模块,利用哈希函数获取测试集和数据库集中社交图像的哈希码,计算每个测试集样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
CN201910741026.4A 2019-08-12 2019-08-12 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 Active CN110516095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910741026.4A CN110516095B (zh) 2019-08-12 2019-08-12 基于语义迁移的弱监督深度哈希社交图像检索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910741026.4A CN110516095B (zh) 2019-08-12 2019-08-12 基于语义迁移的弱监督深度哈希社交图像检索方法和系统

Publications (2)

Publication Number Publication Date
CN110516095A CN110516095A (zh) 2019-11-29
CN110516095B true CN110516095B (zh) 2020-06-26

Family

ID=68624975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910741026.4A Active CN110516095B (zh) 2019-08-12 2019-08-12 基于语义迁移的弱监督深度哈希社交图像检索方法和系统

Country Status (1)

Country Link
CN (1) CN110516095B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274424B (zh) * 2020-01-08 2021-01-19 大连理工大学 一种零样本图像检索的语义增强哈希方法
CN113139565A (zh) * 2020-01-20 2021-07-20 株式会社理光 图像处理方法、图像处理装置和计算机可读存储介质
CN111460200B (zh) * 2020-03-04 2023-07-04 西北大学 基于多任务深度学习的图像检索方法、模型及其构建方法
CN112528065B (zh) * 2020-12-17 2022-12-27 重庆邮电大学 一种流形相似度保持自编码器的医学超声图像检索方法
CN112668509B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 社交关系识别模型的训练方法、识别方法及相关设备
CN112948617B (zh) * 2021-02-07 2022-05-31 武汉工程大学 基于特定类原型的深度哈希网络图像检索方法及装置
CN112925940B (zh) * 2021-03-04 2022-07-01 浙江中设天合科技有限公司 一种相似图像检索方法、装置、计算机设备及存储介质
CN113191445B (zh) * 2021-05-16 2022-07-19 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN114359649B (zh) * 2021-11-22 2024-03-22 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及程序产品
CN114743041B (zh) * 2022-03-09 2023-01-03 中国科学院自动化研究所 一种预训练模型抽选框架的构建方法及装置
CN115761263B (zh) * 2022-12-09 2023-07-25 中南大学 深度哈希方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291936A (zh) * 2017-07-04 2017-10-24 太原理工大学 一种基于视觉特征和征象标签的超图哈希图像检索实现肺结节征象识别的方法
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291936A (zh) * 2017-07-04 2017-10-24 太原理工大学 一种基于视觉特征和征象标签的超图哈希图像检索实现肺结节征象识别的方法
CN108510559A (zh) * 2017-07-19 2018-09-07 哈尔滨工业大学深圳研究生院 一种基于有监督多视角离散化的多媒体二值编码方法
CN108932314A (zh) * 2018-06-21 2018-12-04 南京农业大学 一种基于深度哈希学习的菊花图像内容检索方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Exploring Auxiliary Context: Discrete Semantic Transfer Hashing for Scalable Image Retrieval;Zhu Lei 等;《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》;20181130;第5264-5276页 *
Unsupervised Topic Hypergraph Hashing for Efficient Mobile Image Retrieval;Lei Zhu 等;《IEEE Transactions on Cybernetics》;20171130;第47卷(第11期);第3941-3954页 *
Unsupervised Visual Hashing with Semantic Assistant for Content-Based Image Retrieval;Zhu Lei 等;《IEEE Transactions on Knowledge and Data Engineering》;20170731;第472-486页 *

Also Published As

Publication number Publication date
CN110516095A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN108960330B (zh) 基于快速区域卷积神经网络的遥感图像语义生成方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN114067160A (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN112132149B (zh) 一种遥感影像语义分割方法及装置
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN109284411B (zh) 一种基于有监督超图离散化图像二值编码方法
CN113158815B (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN115222998B (zh) 一种图像分类方法
Yang et al. Local label descriptor for example based semantic image labeling
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
Xu et al. Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning
CN115329120A (zh) 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构
CN111461067A (zh) 基于先验知识映射及修正的零样本遥感影像场景识别方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN116630694A (zh) 一种偏多标记图像的目标分类方法、系统及电子设备
CN114595741B (zh) 一种基于邻域关系的高维数据快速降维方法以及系统
CN110070018A (zh) 一种结合深度学习的地震灾害场景识别方法
CN116310407A (zh) 一种面向配用电多维业务的异构数据语义提取方法
CN115527064A (zh) 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
CN113887504A (zh) 强泛化性的遥感图像目标识别方法
Lguensat et al. Convolutional neural networks for the segmentation of oceanic eddies from altimetric maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant