CN111090765A - 一种基于缺失多模态哈希的社交图像检索方法及系统 - Google Patents

一种基于缺失多模态哈希的社交图像检索方法及系统 Download PDF

Info

Publication number
CN111090765A
CN111090765A CN201911167754.5A CN201911167754A CN111090765A CN 111090765 A CN111090765 A CN 111090765A CN 201911167754 A CN201911167754 A CN 201911167754A CN 111090765 A CN111090765 A CN 111090765A
Authority
CN
China
Prior art keywords
hash
missing
modal
social
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911167754.5A
Other languages
English (en)
Other versions
CN111090765B (zh
Inventor
朱磊
郑超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Center Information Technology Ltd By Share Ltd
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201911167754.5A priority Critical patent/CN111090765B/zh
Publication of CN111090765A publication Critical patent/CN111090765A/zh
Application granted granted Critical
Publication of CN111090765B publication Critical patent/CN111090765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于缺失多模态哈希的社交图像检索方法及系统,通过为完全成对数据学习一个共享潜在表示,为缺失数据学习一个独特潜在表示,探索图像与标签不同模态之间的关系,构造了一种同时适用于完全成对数据和缺失数据的在线哈希检索模式,通过设计新的离散优化策略,直接求解哈希码,有效地降低了现有技术中松弛策略的量化误差,提高了检索的性能;在无监督的缺失多模态哈希方法的基础上,将其扩展到监督学习模式,利用非对称哈希学习方法来指导投影学习过程,提高了哈希码的识别能力,通过直接求解二进制哈希码,速度快,操作简单,保证了学习效率。

Description

一种基于缺失多模态哈希的社交图像检索方法及系统
技术领域
本公开涉及多模态检索技术领域,特别涉及一种基于缺失多模态哈希的社交图像检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
随着移动互联网技术的快速发展,越来越多的人喜欢将自己的照片上传到社交网站。社交网站允许用户主动上传带有描述性标签的图片和注释,已经成为互联网时代最普及、用户参与度最高的互动平台。然而,社交图像的爆炸式增长也导致了一个巨大的挑战,如何从庞大的社交图像数据库中进行有效的图像检索。
多模态哈希能够将来自不同模态的多模态特征编码成紧凑的二进制码,有着检索速度快,存储开销小,能够有效的支持大规模的社交图像检索的优点,因此获得了越来越广泛的关注和应用。与单模态哈希和跨模态哈希不同,多模态哈希在训练阶段和查询阶段探索不同模态间的协同性,从而得到有效的哈希码。现存的多模态哈希方法可以分为两大类:无监督多模态哈希和监督多模态哈希。前者要么通过谱分析的方法将单模态哈希方法扩展到多模态设置,要么通过利用多模态矩阵分解获得潜在隐二进制编码,在此过程中不依赖任何监督信息。后者主要通过标签或成对语义指导提高哈希码的识别能力。
本公开发明人在研究中发现,尽管多模态哈希方法已经取得了很好的性能,但仍然存在一个重要的问题,即在多模态哈希方法的训练和查询阶段都需要提供多模态数据。现存的多模态哈希方法简单地假设所有的数据样本模态在整个训练和搜索阶段都是可用的。然而,这一限制性要求在社会图像检索中很难得到满足,因为社交图像和描述性标签很难保证是成对的。在现实社会网络中,缺乏标签描述的图像和缺乏相应图像的文本标签是非常常见的,这就导致了缺失模态数据的产生。在这样的情况下,现有的多模态哈希方法便不能很好的解决这一问题。
发明内容
为了解决现有技术的不足,本公开提供了一种基于缺失多模态哈希的社交图像检索方法及系统,通过为完全成对数据学习一个共享潜在表示,同时为缺失数据学习一个独特潜在表示,来分析图像与标签之间的关系,从而生成哈希码,解决了现有技术中进行社交图像检索时存在的缺乏标签描述的图像和缺乏相应图像的文本标签而导致的检索不准确问题。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种基于无监督缺失多模态哈希的社交图像检索方法。
一种基于无监督缺失多模态哈希的社交图像检索方法,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
根据非线性特征表示的训练集的多模态特征,构造训练集的基于无监督缺失多模态哈希的目标函数;
采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为可能的一些实现方式,对于社交图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征。
作为可能的一些实现方式,基于无监督缺失多模态哈希的目标函数,具体为:
Figure BDA0002287908100000031
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r
其中,
Figure BDA0002287908100000032
Figure BDA0002287908100000033
是nc个完全成对的图像-文本对,
Figure BDA0002287908100000034
是n1个缺失相应社交标签描述的社交图像,
Figure BDA0002287908100000035
是n2个缺失图像的标签,其中d1和d2分别是图像和文本特征的维度,
Figure BDA0002287908100000036
是单模态特征xi的高斯核函数,Hc是共享潜在表示,H(1)和H(2)分别是图像和文本特征的独特潜在表示,U1和U2分别是社交图像和文本的基矩阵,W是转换矩阵,B是学习到的共享哈希码,μ1和μ2是动态权重,θ是平衡参数,λ是正则化参数,r是哈希码的长度,n是训练集中全部文本数量。
作为进一步的限定,将图像-文本对数据进行投影,得到共享潜在表示Hc,将仅存在于图像模态或标签模态中的缺失数据投射到各自的潜在语义空间中,得到独特潜在表示H(1)和H(2)
作为可能的一些实现方式,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
本公开第二方面提供了一种基于监督缺失多模态哈希的社交图像检索方法。
一种基于监督缺失多模态哈希的社交图像检索方法,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
利用成对语义矩阵来指导投影学习过程,根据非线性特征表示的训练集的多模态特征,构造训练集上的基于监督缺失多模态哈希的目标函数;
采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
作为可能的一些实现方式,基于监督缺失多模态哈希的目标函数,具体为:
Figure BDA0002287908100000051
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r
其中,
Figure BDA0002287908100000052
Figure BDA0002287908100000053
是nc个完全成对的图像-文本对,
Figure BDA0002287908100000054
是n1个缺失相应社交标签描述的社交图像,
Figure BDA0002287908100000055
是n2个缺失图像的标签,其中d1和d2分别是图像和文本特征的维度,
Figure BDA0002287908100000056
是单模态特征xi的高斯核函数,Hc是共享潜在表示,H(1)和H(2)分别是图像和文本特征的独特潜在表示,U1和U2分别是社交图像和文本的基矩阵,W是转换矩阵,B是学习到的共享哈希码,μ1和μ2是动态权重,θ和ρ是平衡参数,λ是正则化参数,r是哈希码的长度,n是训练集中全部文本数量,S是语义相似矩阵。
作为可能的一些实现方式,对于社交图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用词袋模型提取1386维的文本特征。
作为可能的一些实现方式,基于增广拉格朗日乘子的哈希优化方法来求解二进制哈希码。
作为可能的一些实现方式,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
本公开第三方面提供了一种基于缺失多模态哈希的社交图像检索系统。
一种基于缺失多模态哈希的社交图像检索系统,包括:
数据预处理模块,被配置为:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
非线性特征表示模块,被配置为:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
目标函数构造模块,被配置为:根据非线性特征表示的训练集的多模态特征,构造训练集的基于无监督缺失多模态哈希的目标函数;
哈希函数学习模块,被配置为:采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
在线缺失模态哈希检索模块,被配置为:构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
本公开第四方面提供了一种基于缺失多模态哈希的社交图像检索系统。
一种基于缺失多模态哈希的社交图像检索系统,包括:
数据预处理模块,被配置为:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
非线性特征表示模块,被配置为:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
目标函数构造模块,被配置为:利用成对语义矩阵来指导投影学习过程,根据非线性特征表示的训练集的多模态特征,构造训练集的基于监督缺失多模态哈希的目标函数;
哈希函数学习模块,被配置为:采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
在线缺失模态哈希检索模块,被配置为:构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
本公开第五方面提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的基于无监督缺失多模态哈希的社交图像检索方法或者第二方面所述的基于监督缺失多模态哈希的社交图像检索方法中的步骤。
本公开第六方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的基于无监督缺失多模态哈希的社交图像检索方法或者第二方面所述的基于监督缺失多模态哈希的社交图像检索方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开通过为完全成对数据学习一个共享潜在表示,同时为缺失数据学习一个独特潜在表示,来分析图像与标签之间的关系,从而生成哈希码,解决了现有技术中进行社交图像检索时存在的缺乏标签描述的图像和缺乏相应图像的文本标签而导致的检索不准确问题,。
2、本公开通过直接学习二进制哈希码,有效地降低了现有方法中松弛策略的量化误差,通过直接求解二进制哈希码,速度快,操作简单,保证了学习效率。
3、本公开将无监督的缺失多模态哈希方法扩展到监督学习模式,提出了一种监督缺失多模态哈希方法,极大的提高了哈希码的识别能力。
附图说明
图1为本公开实施例1提供的基于无监督的缺失多模态哈希的社交图像检索方法的流程示意图。
图2为本公开实施例2提供的基于监督缺失多模态哈希的社交图像检索方法的流程示意图。
图3为本公开实施例3所述的基于缺失多模态哈希的社交图像检索系统的示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1所示,本公开实施例1提供了一种基于无监督缺失多模态哈希的社交图像检索方法,包括:
S1:获取多模态检索数据集,其中每个样本都包括成对的图像和文本两个模态的数据,并将它们划分为训练集、测试集和数据库集。对于训练集、测试集和数据库集分别构造缺失数据集;
本公开考虑一个社交图像数据集,包含社交图像特征
Figure BDA0002287908100000091
和被标记为标签的文本特征
Figure BDA0002287908100000092
其中图像特征和文本特征都包含两部分:完全成对的数据特征和缺失数据特征。
Figure BDA0002287908100000093
是n1个缺失相应标签的社交图像特征,
Figure BDA0002287908100000094
是n2个缺失图像的文本特征,其中d1和d2分别是图像和文本特征的维度。本实施例的目标是学习共享的哈希码B∈[-1,1]n×r,其中r表示哈希码的长度。
为了构造缺失数据集,设置缺失数据比例为α,随机选择N(1-α)个图像-文本对。然后随机选择Nα个图像-文本对,然后删除图像数据,形成缺失的文本数据。同理,可得出Nα个缺失图像数据。同样地,对测试集和数据库集分别构造缺失数据集。
S2:将两个模态的原始数据分别输入到所构建的深度特征提取模型中对训练数据集进行多模态提取,然后将提取后的多模态特征利用高斯核函数映射到低维空间;
对于社交图像模态,将其输入到VGG-16网络模型中,提取4096维的图像特征;对于文本模态,将标签利用Bag-of-words模型(词袋模型)提取1386维的文本特征。为了保持样本间的语义相关性,将经过深度特征提取模型提取后图像特征和文本特征分别转化为非线性嵌入。将单模态特征通过高斯核函数转化为非线性嵌入,计算公式为:
Figure BDA0002287908100000101
其中,
Figure BDA0002287908100000102
是从第l个模态随机选择的m个锚点,σl是高斯核参数。
S3:对于训练多模态数据集,构造该数据集上的基于无监督缺失多模态哈希的目标函数;
S31:潜在表示学习,具体方法为:为了建立图像和文本模态之间的关联,将图像-文本对数据进行投影,以获得一种共享潜在表示,同时,将仅存在于图像模态或标签模态中的缺失数据投射到各自的潜在语义空间中,得到独特潜在表示,该过程可以有效地减少模态间的特征冗余,降低哈希码学习的计算复杂度。
这一过程的目标函数如下:
Figure BDA0002287908100000103
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r (2)
其中,U1和U2分别是社交图像和文本的基矩阵。
S32:为了获得有效的哈希码,引入了转换矩阵W直接关联哈希码B和潜在表示H=[Hc;H(1);H(2)]。
具体目标函数为:
Figure BDA0002287908100000111
其中哈希码B由三部分组成:Bc是图像-文本对对应的哈希码,B(1)是缺失的图像数据对应的哈希码,B(2)是缺失的文本数据对应的哈希码。
S33:综合步骤S31和S32,得到基于无监督缺失多模态哈希的目标函数f1如下:
Figure BDA0002287908100000112
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r (4)
其中,上式第一项和第二项通过对完全成对数据学习共享潜在表示Hc,对缺失的社交图像和文本数据学习独特潜在表示Hl,来弥补异构的模态差异,避免模态间的冗余。第三项通过控制从潜在表示到二进制哈希码的回归。最后一项是正则化项,以避免过拟合。
S4:求解所述目标函数,得到社交图像和文本的基矩阵Ul,共享潜在表示Hc,社交图像和文本的独特潜在表示Hl,转换矩阵W,自适应参数μ和哈希码B;
由于目标函数中含有多个未知变量,无法直接求解,因此本实施例采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。
具体优化步骤如下:
S41:固定其他变量更新基矩阵
Figure BDA0002287908100000113
目标函数变为:
Figure BDA0002287908100000114
Figure BDA0002287908100000115
求偏导,并将其设为零,可以得到:
Figure BDA0002287908100000121
S42:固定其他变量更新独特表示
Figure BDA0002287908100000122
目标函数变为:
Figure BDA0002287908100000123
Figure BDA0002287908100000124
求偏导,并将其设为零,可以得到:
Figure BDA0002287908100000125
S43:固定其他变量更新独特表示Hc,目标函数变为:
Figure BDA0002287908100000126
对Hc求偏导,并将其设为零,可以得到:
Figure BDA0002287908100000127
S44:固定其他变量更新独特表示W,目标函数变为:
Figure BDA0002287908100000128
对W求偏导,并将其设为零,可以得到:
W=(θHTH+λIk×k)-1(θHTB) (12)
S45:固定其他变量,求自适应权重μ,多模态特征的互补性对哈希性能具有重要意义,因此,在目标函数中使用一个权重参数μ来度量每个模态对学习哈希码的贡献,在这种情况下,判别模态特征的权值较大,反之亦然。
具体的,目标函数变为:
Figure BDA0002287908100000129
结合Cauchy-Schwarz不等式,得到最优解:
Figure BDA0002287908100000131
S46:固定其他变量,求哈希码B。
目标函数变为:
Figure BDA0002287908100000132
现有的多模态哈希方法大多会带来显著的量化误差,导致次优解。为了克服这些局限性,本文采用了一种快速学习二进制码的方法。优化公式可改写为B=sgn(HW) (16)
其中sgn(·)是符号函数,如果括号内元素为正,其值为1,否则其值为-1。
S5:在线缺失模态哈希检索,构造并利用在线模态缺失哈希的目标函数,适用处理查询样本是完全成对数据和缺失数据的情况。根据步骤4求得的社交图像和文本的基矩阵Ul和转换矩阵W,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
Figure BDA0002287908100000133
Figure BDA0002287908100000137
其中μ1和μ2是每个模态的自适应权重,用来测量每个模态的贡献,
Figure BDA0002287908100000134
Figure BDA0002287908100000135
分别是完全成对的查询样本和缺失的查询样本的非线性投影,
Figure BDA0002287908100000136
是所求的查询样本的哈希码。
采用以下迭代步骤将新的查询样本映射到哈希码中。
S51:固定其他变量,求哈希码Bq,优化公式为:
Bq=sgn(HW) (18)
S52:固定其他变量更新独特表示Hc,可以得到:
Figure BDA0002287908100000141
S53:固定其他变量更新独特表示
Figure BDA0002287908100000142
可以得到:
Figure BDA0002287908100000143
S54:固定其他变量,求自适应权重μ,优化公式为:
Figure BDA0002287908100000144
另外,在线检索阶段的W和
Figure BDA0002287908100000145
来自离线学习过程。
本实施例采用TopK-精度(TopK-precision)和平均精度(Mean AveragePrecision,MAP)作为评价指标,它们的值越大表示检索性能越好。具体定义分别为:
1)TopK-precision
该标准反映了检索精度随着检索到的样本数量的变化而变化的情况。获取检索到前K个样本,TopK-precision表示K个样本中相关样本所占的比例。
2)MAP
给定一个检索样本集合,其中每个检索样本的平均准确率(AP)定义为:
Figure BDA0002287908100000146
其中,R是返回的检索样本总数,N是返回的与查询相关的样本总数,P(r)表示前r个检索结果的精度,如果第r个检索得到的样本与查询样本相关则δ(r)=1,否则δ(r)=0,所有样本的AP值的平均值即MAP。
实施例2:
如图2所示,本公开实施例2提供了一种基于监督缺失多模态哈希的社交图像检索方法,包括:
S1:获取多模态检索数据集并构造缺失数据集;
S2:将两个模态的原始数据分别输入到所构建的深度特征提取模型中对训练数据集进行多模态提取,然后将提取后的多模态特征利用高斯核函数映射到低维空间;
S3:利用成对语义矩阵来指导投影学习过程,构造该数据集上的基于监督缺失多模态哈希的目标函数;
现有的多模态哈希方法多侧重于无监督方法,而监督多模态哈希方法的发展严重滞后。由于监督哈希利用有区别的标签信息比无监督哈希更能保持原始数据的语义相似性,因此我们进一步在有监督语义标签的指导下进行哈希学习。为了保证更精确的哈希码,我们提出了一个非对称哈希学习方法来指导投影学习过程,目标函数f2表示为:
Figure BDA0002287908100000151
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r (23)
其中,θ和ρ是平衡参数,λ是正则化参数。
为了减少计算和存储成本,本文使用一个n×c大小的L来存储标签信息,其中n是训练样本的数量,c是语义类别的数量。
定义
Figure BDA0002287908100000161
Ii=[li,1,...,li,c],其中,如果第i个样本被标记为第k个类,则li,k=1,反之亦然。
Figure BDA0002287908100000162
表示矩阵
Figure BDA0002287908100000163
中的第i行和第k列的元素;然后我们可以得到相似矩阵
Figure BDA0002287908100000164
最后,语义相似矩阵S可以计算为
Figure BDA0002287908100000165
其中1n是长度为n的全一列向量,E是所有元素为1的矩阵。
S4:求解所述目标函数。
本发明采用迭代求解算法,固定其他变量,求解一个变量,从而获得最终的最优解。具体优化步骤如下:
S41:固定其他变量更新基矩阵
Figure BDA0002287908100000166
目标函数变为:
Figure BDA0002287908100000167
Figure BDA0002287908100000168
求偏导,并将其设为零,可以得到:
Figure BDA0002287908100000169
S42:固定其他变量更新独特表示
Figure BDA00022879081000001610
可以得到:
Figure BDA00022879081000001611
其中,
Figure BDA00022879081000001612
(l=1,2)是仅在图像或文本模态下的语义相似度矩阵。为了降低时间复杂度,我们将(S(l))TB(l)WT项转化为:
Figure BDA00022879081000001613
S43:固定其他变量更新独特表示Hc,可以得到:
Figure BDA00022879081000001614
为了降低时间复杂度,令
Figure BDA00022879081000001615
其中
Figure BDA00022879081000001616
是nc个图像-文本对的语义相似度矩阵。
S44:固定其他变量更新独特表示W,对W求偏导,并将其设为零,可以到:
Figure BDA0002287908100000171
其中
Figure BDA0002287908100000172
是所有输入样本点包括图像-文本对数据和缺失数据的语义相似度矩阵。
S45:固定其他变量,求哈希码B。目标函数可以转化为:
Figure BDA0002287908100000173
其中,tr(BTB)=const。由于存在离散约束,直接求解哈希码B比较困难。因此,我们提出了一种独特的基于增广拉格朗日乘子(ALM)的哈希优化方法来求解二进制哈希码,该离散优化策略不仅可以避免信息量化损失,而且具有较低的计算和存储成本。具体来说,对于BWTHTHWBT项,我们使用一个辅助的离散变量Z∈{-1,1}来代替第一个B,同时在优化过程中保持它们的等价性。
因此,我们得到如下优化公式
Figure BDA0002287908100000174
其中G表示B与Z的差值。上述目标函数的最后一项可以简化为:
Figure BDA0002287908100000175
通过变换,优化B的目标函数可以表示为:
Figure BDA0002287908100000176
因此,我们可以获得哈希码B的近似形式:
Figure BDA0002287908100000181
S46:固定其他变量,求哈希码Z。
目标函数可以转化为:
Figure BDA0002287908100000182
因此,可以得到如下的虚拟标签更新规则:
Z=sgn(-ρBTWT(HTH)W+ηB+G) (36)
S47:固定其他变量更新G。根据ALM理论,可以得到:
G=G+η(B-Z) (37)
S48:固定其他变量,求自适应权重μ,更新规则为:
Figure BDA0002287908100000183
S5:在线缺失模态哈希检索,构造并利用在线模态缺失哈希的目标函数,根据步骤4求得的社交图像和文本的基矩阵Ul和转换矩阵W,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
实施例3:
如图3所示,本公开实施例3提供了一种基于缺失多模态哈希的社交图像检索系统,包括:
图像预处理模块,被配置为:获取多模态检索数据集,其中每个样本都包括成对的图像和文本两个模态的数据,并将它们划分为训练集、测试集和数据库集。对于训练集、测试集和数据库集分别构造缺失数据集;
非线性特征表示模块,被配置为:将两个模态的原始数据分别输入到所构建的深度特征提取模型中对训练数据集进行多模态提取,然后将提取后的多模态特征利用高斯核函数映射到低维空间;
目标函数构造模块,被配置为:对于训练多模态数据集,构造该数据集上的基于无监督缺失多模态哈希的目标函数f1
哈希函数学习模块,被配置为:采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
在线缺失模态哈希检索模块,被配置为:构造并利用在线模态缺失哈希的目标函数,利用计算得到的社交图像和文本的基矩阵、转换矩阵和自适应参数,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
实施例4:
如图3所示,本公开实施例4提供了一种基于缺失多模态哈希的社交图像检索系统,包括:
图像预处理模块,被配置为:获取多模态检索数据集,其中每个样本都包括成对的图像和文本两个模态的数据,并将它们划分为训练集、测试集和数据库集,对于训练集、测试集和数据库集分别构造缺失数据集;
非线性特征表示模块,被配置为:将两个模态的原始数据分别输入到所构建的深度特征提取模型中对训练数据集进行多模态提取,然后将提取后的多模态特征利用高斯核函数映射到低维空间;
目标函数构造模块,被配置为:利用成对语义矩阵来指导投影学习过程,对于训练多模态数据集,构造该数据集上的基于无监督缺失多模态哈希的目标函数f1
哈希函数学习模块,被配置为:采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
在线缺失模态哈希检索模块,被配置为:构造并利用在线模态缺失哈希的目标函数,利用计算得到的社交图像和文本的基矩阵、转换矩阵和自适应参数,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
实施例5:
本公开实施例5提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1或实施例2所述的基于缺失多模态哈希的社交图像检索方法中的步骤。
实施例6:
本公开实施例6提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1或实施例2所述的基于缺失多模态哈希的社交图像检索方法中的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于无监督缺失多模态哈希的社交图像检索方法,其特征在于,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
根据非线性特征表示的训练集的多模态特征,构造训练集的基于无监督缺失多模态哈希的目标函数;
采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
2.如权利要求1所述的基于无监督缺失多模态哈希的社交图像检索方法,其特征在于,对于社交图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征。
3.如权利要求1所述的基于无监督缺失多模态哈希的社交图像检索方法,其特征在于,基于无监督缺失多模态哈希的目标函数,具体为:
Figure FDA0002287908090000021
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r
其中,
Figure FDA0002287908090000022
Figure FDA0002287908090000023
是nc个完全成对的图像-文本对,
Figure FDA0002287908090000024
是n1个缺失相应社交标签描述的社交图像,
Figure FDA0002287908090000025
是n2个缺失图像的标签,其中d1和d2分别是图像和文本特征的维度,
Figure FDA0002287908090000026
是单模态特征xi的高斯核函数,Hc是共享潜在表示,H(l)为独特潜在表示,H(1)和H(2)分别是图像和文本特征的独特潜在表示,U1和U2分别是社交图像和文本的基矩阵,W是转换矩阵,B是学习到的共享哈希码,μ1和μ2是动态权重,θ是平衡参数,λ是正则化参数,r是哈希码的长度,n是训练集中全部文本数量。
4.如权利要求3所述的基于无监督缺失多模态哈希的社交图像检索方法,其特征在于,将图像-文本对数据进行投影,得到共享潜在表示Hc,将仅存在于图像模态或标签模态中的缺失数据投射到各自的潜在语义空间中,得到独特潜在表示H(1)和H(2)
5.如权利要求1所述的基于无监督缺失多模态哈希的社交图像检索方法,其特征在于,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
6.一种基于监督缺失多模态哈希的社交图像检索方法,其特征在于,包括以下步骤:
获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
利用成对语义矩阵来指导投影学习过程,根据非线性特征表示的训练集的多模态特征,构造训练集上的基于监督缺失多模态哈希的目标函数;
采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
7.如权利要求6所述的基于监督缺失多模态哈希的社交图像检索方法,其特征在于,基于监督缺失多模态哈希的目标函数,具体为:
Figure FDA0002287908090000031
s.t.H=[Hc;H(1);H(2)],B=[Bc;B(1);B(2)]∈{-1,1}n×r
其中,
Figure FDA0002287908090000032
Figure FDA0002287908090000033
是nc个完全成对的图像-文本对,
Figure FDA0002287908090000034
是n1个缺失相应社交标签描述的社交图像,
Figure FDA0002287908090000035
是n2个缺失图像的标签,其中d1和d2分别是图像和文本特征的维度,
Figure FDA0002287908090000036
是单模态特征xi的高斯核函数,Hc是共享潜在表示,H(l)为独特潜在表示,H(1)和H(2)分别是图像和文本特征的独特潜在表示,U1和U2分别是社交图像和文本的基矩阵,W是转换矩阵,B是学习到的共享哈希码,μ1和μ2是动态权重,θ和ρ是平衡参数,λ是正则化参数,r是哈希码的长度,n是训练集中全部文本数量,S是语义相似矩阵;
或者,
对于社交图像模态,将其输入到VGG-16网络模型中,提取多维的图像特征;对于文本模态,将标签利用词袋模型提取多维的文本特征;
或者,
基于增广拉格朗日乘子的哈希优化方法来求解二进制哈希码;
或者,
计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,具体为:给定一个测试样本,计算该测试样本的哈希码跟数据库集中的所有样本的哈希码之间汉明距离,然后数据库集样本按照汉明距离排序,跟测试样本距离小的排在前面,距离大的排在后面,从而验证准确度。
8.一种基于缺失多模态哈希的社交图像检索系统,其特征在于,包括:
数据预处理模块,被配置为:获取多模态检索数据,构造训练集、测试集和数据库集,每个样本均包括成对的图像和文本两个模态的数据,并对训练集、测试集和数据库集分别构造缺失数据集;
非线性特征表示模块,被配置为:将训练集中的两个模态的原始数据分别输入到所构建的深度特征提取模型中进行多模态提取,将提取后的多模态特征利用高斯核函数映射到低维空间进行非线性特征表示;
目标函数构造模块,被配置为:根据非线性特征表示的训练集的多模态特征,构造训练集的基于无监督缺失多模态哈希的目标函数或基于监督缺失多模态哈希的目标函数;
哈希函数学习模块,被配置为:采用迭代求解算法求解上述目标函数,得到社交图像和文本的基矩阵与转换矩阵;
在线缺失模态哈希检索模块,被配置为:构造并利用在线模态缺失哈希的目标函数,根据计算得到的社交图像和文本的基矩阵与转换矩阵,获取测试集和数据库集中样本的哈希码,计算每个测试样本的哈希码与数据库集样本的哈希码之间的汉明距离,数据库集样本按其对应的汉明距离升序排序,得到检索结果。
9.一种介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的基于无监督缺失多模态哈希的社交图像检索方法中的步骤;
或,
该程序被处理器执行时实现如权利要求6-7任一项所述的基于监督缺失多模态哈希的社交图像检索方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于无监督缺失多模态哈希的社交图像检索方法中的步骤;
或,
包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求6-7任一项所述的基于监督缺失多模态哈希的社交图像检索方法中的步骤。
CN201911167754.5A 2019-11-25 2019-11-25 一种基于缺失多模态哈希的社交图像检索方法及系统 Active CN111090765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911167754.5A CN111090765B (zh) 2019-11-25 2019-11-25 一种基于缺失多模态哈希的社交图像检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911167754.5A CN111090765B (zh) 2019-11-25 2019-11-25 一种基于缺失多模态哈希的社交图像检索方法及系统

Publications (2)

Publication Number Publication Date
CN111090765A true CN111090765A (zh) 2020-05-01
CN111090765B CN111090765B (zh) 2020-09-29

Family

ID=70393178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911167754.5A Active CN111090765B (zh) 2019-11-25 2019-11-25 一种基于缺失多模态哈希的社交图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN111090765B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528048A (zh) * 2021-02-18 2021-03-19 腾讯科技(深圳)有限公司 一种跨模态检索方法、装置、设备及介质
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN115048539A (zh) * 2022-08-15 2022-09-13 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391619A (zh) * 2017-07-05 2017-11-24 清华大学 针对不完整异构数据的自适应哈希方法及装置
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391619A (zh) * 2017-07-05 2017-11-24 清华大学 针对不完整异构数据的自适应哈希方法及装置
US10248664B1 (en) * 2018-07-02 2019-04-02 Inception Institute Of Artificial Intelligence Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHAOQUN ZHENG 等: "Fast Discrete Collaborative Multi-modal Hashing for Large-scale Multimedia Retrieval", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
GENGSHEN WU 等: "Unsupervised Deep Hashing via Binary Latent Factor Models for Large-scale Cross-modal Retrieval", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE(IJCAI-18)》 *
LEI ZHU 等: "Exploring Auxiliary Context: Discrete Semantic Transfer Hashing for Scalable Image Retrieval", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
LEI ZHU 等: "Unsupervised Topic Hypergraph Hashing for Efficient Mobile Image Retrieval", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
袁勇: "基于哈希编码的大规模图像检索方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528048A (zh) * 2021-02-18 2021-03-19 腾讯科技(深圳)有限公司 一种跨模态检索方法、装置、设备及介质
CN113407661A (zh) * 2021-08-18 2021-09-17 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN113407661B (zh) * 2021-08-18 2021-11-26 鲁东大学 基于鲁棒矩阵分解的离散哈希检索方法
CN115048539A (zh) * 2022-08-15 2022-09-13 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统
CN115048539B (zh) * 2022-08-15 2022-11-15 山东大学 基于动态记忆力的社交媒体数据在线检索方法及系统

Also Published As

Publication number Publication date
CN111090765B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN109960810B (zh) 一种实体对齐方法及装置
CN111506714A (zh) 基于知识图嵌入的问题回答
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN112925962B (zh) 基于哈希编码的跨模态数据检索方法、系统、设备及介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN113128622B (zh) 基于语义-标签多粒度注意力的多标签分类方法及系统
CN114186084A (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN114547267A (zh) 智能问答模型的生成方法、装置、计算设备和存储介质
CN112860685A (zh) 对数据集的分析的自动推荐
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN114676315A (zh) 基于增强图卷积的属性融合交互推荐模型构建方法及系统
CN116720519B (zh) 一种苗医药命名实体识别方法
US10824811B2 (en) Machine learning data extraction algorithms
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210623

Address after: 250000 7th floor, building 7, Shuntai Plaza, high tech Zone, Jinan City, Shandong Province

Patentee after: Shandong center information technology Limited by Share Ltd.

Address before: 250014 No. 88, Wenhua East Road, Lixia District, Shandong, Ji'nan

Patentee before: SHANDONG NORMAL University

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Social Image Retrieval Method and System Based on Missing Multimodal Hashes

Effective date of registration: 20231221

Granted publication date: 20200929

Pledgee: China Everbright Bank Ji'nan branch

Pledgor: Shandong center information technology Limited by Share Ltd.

Registration number: Y2023980073318