CN111143625B - 一种基于半监督多模态哈希编码的跨模态检索方法 - Google Patents

一种基于半监督多模态哈希编码的跨模态检索方法 Download PDF

Info

Publication number
CN111143625B
CN111143625B CN201911295770.2A CN201911295770A CN111143625B CN 111143625 B CN111143625 B CN 111143625B CN 201911295770 A CN201911295770 A CN 201911295770A CN 111143625 B CN111143625 B CN 111143625B
Authority
CN
China
Prior art keywords
matrix
data
marking
original image
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911295770.2A
Other languages
English (en)
Other versions
CN111143625A (zh
Inventor
田大湧
周德云
魏仪文
侍佼
雷雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Publication of CN111143625A publication Critical patent/CN111143625A/zh
Application granted granted Critical
Publication of CN111143625B publication Critical patent/CN111143625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督多模态哈希编码的跨模态检索方法,包括:对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量;根据所述实数向量获取辅助变量;根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。该半监督多模态哈希编码方法调整了哈希编码过程中,原始图像数据中已有真实标记与估计标记的权重,并且采用了非线性模型,能够有效地利用有限的标记信息提高数据的检索精度。

Description

一种基于半监督多模态哈希编码的跨模态检索方法
技术领域
本发明属于跨模态检索技术领域,具体涉及一种基于半监督多模态哈希编码的跨模态检索方法。
背景技术
哈希编码是一种将实数向量表示为二进制数向量的方法,用二进制数向量的检索替代对实数向量的检索能够减少计算量。多模态数据是指不同类型的实数向量,例如用于表示图像的SIFT(Scale-invariant feature transform,尺度不变特征变换)特征的是一个128维的实数向量,用于表示文字的LDA(Latent Dirichlet Allocation,文档主题生成模型)特征是一个10维的实数向量,这两组实数向量就是两种不同模态的数据。
多模态哈希编码是将多组成对实数向量用同一组二进制数向量表示,从而实现跨模态的检索。例如从社交网络上抓取的图像及其文字标签信息就是成对的,通过多模态哈希编码,可以实现用文字标签检索图像,或者用图像检索文字标签。半监督,是指数据中只有一部分是有标记的。半监督多模态哈希编码,是指利用部分标记来提高多模态数据哈希编码效果的方法。
目前,具有代表性半监督多模态哈希编码方法包括S3FH方法(J.Wang,G.Li,P.Pan,and X.Zhao,“Semi-supervised semantic factor-ization hashing for fastcross-modal retrieval,”Multimedia Tools Appl.,vol.76,no.19,pp.20197–20215,Oct.2017)和SSMH方法(D.Tian,D.Zhou,M.Gong and Y.Wei,“Interval type-2fuzzylogic for semisupervisedmultimodal hashing”,IEEE Transactions on Cybernetics,in press)。S3FH方法采用的是一种基于图的哈希编码方法,它同时为有标记和无标记的数据生成新的标记,由于生成的新标记在准确度上不如真实的标记,因此S3FH方法效果有所限制。而SSMH采用二类模糊逻辑,表示不同模态新生成的标记之间的关系,但是它采用的是线性模型,因此无法处理非线性的数据结构。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于半监督多模态哈希编码的跨模态检索方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于半监督多模态哈希编码的跨模态检索方法,包括:
S1:对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量;
S2:根据所述实数向量获取辅助变量;
S3:根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;
S4:根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵;
S5:根据所述哈希编码矩阵进行数据检索,搜索检索数据库中与目标向量距离最近的向量。
在本发明的一个实施例中,所述S1包括:
对所述原始图像数据进行提取特征,获得所述原始图像数据的实数向量,所述实数向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵Xl、所述原始图像数据中无标记数据组成的无标记数据矩阵Xu以及所述原始图像数据中有标记数据的标记组成的标记矩阵Ll
在本发明的一个实施例中,所述S2包括:
S21:建立辅助变量Hl,Wi,O的最小化问题模型:
Figure GDA0004095189250000031
其中,
Figure GDA0004095189250000032
表示第i个模态中有标记数据组成的矩阵向量,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,α表示预设参数,K表示模态数量,f是sigmoid函数,f(x)=1/(1+e-x),F表示计算矩阵F范数;
S22:利用梯度下降法计算所述辅助变量Hl,Wi和O。
在本发明的一个实施例中,所述S22包括:
S221:对所述辅助变量Wi和O进行随机初始化;
S222:计算辅助变量Hl,计算公式为:
Figure GDA0004095189250000033
其中,round表示四舍五入取整函数,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,K≥i≥1;
S223:更新辅助变量O,更新公式为:
Figure GDA0004095189250000034
其中,Δt表示预设参数,°表示矩阵内积,T表示转置;
S224:更新辅助变量Wi,更新公式为:
Figure GDA0004095189250000035
S225:根据更新后的辅助变量Hl,Wi和O计算并更新所述最小化问题模型E1并与更新前的E1进行比较,判断更新前后E1的变化值是否小于预定值,若否,则返回S222继续进行迭代计算,若是,则执行S226;
S226:停止迭代,获取所述辅助变量Hl,Wi和O的最终值。
在本发明的一个实施例中,所述S3包括:
S31:建立所述原始图像数据中无标记数据的标记矩阵Li的估计模型:
Figure GDA0004095189250000041
其中,tr表示取矩阵的迹,Pi
Figure GDA0004095189250000042
为辅助变量,
Figure GDA0004095189250000043
表示第i个模态中无标记数据组成的矩阵向量;
S32:利用交替迭代法获取所述标记矩阵Lu
在本发明的一个实施例中,所述S32包括:
S321:对所述标记矩阵Lu和所述辅助变量Pi进行随机初始化,且令迭代次数q=1;
S322:计算所述辅助变量Pi,计算公式为:
Figure GDA0004095189250000044
其中,
Figure GDA0004095189250000045
Figure GDA0004095189250000047
表示转置,°表示矩阵内积,I表示单位矩阵,K≥i≥1,K≥k≥1,且i≠k;
S323:更新所述标记矩阵Lu,更新公式为:
Figure GDA0004095189250000046
S324:令所述迭代次数q加1;
S325:判断当前迭代计算次数q与预设的最大迭代次数Q的大小,若q<Q,则返回S322继续进行迭代计算,若q=Q,则执行步骤S326;
S326:停止迭代,获取所述标记矩阵Lu的最终值。
在本发明的一个实施例中,所述S4包括:
S41:建立所述哈希编码矩阵B的最小化问题模型:
Figure GDA0004095189250000051
其中,Ui和S为辅助变量,Bl表示所述原始图像数据中有标记数据
Figure GDA0004095189250000052
的哈希编码,Bu表示所述原始图像数据中无标记数据
Figure GDA0004095189250000053
的哈希编码,
βl和βu表示预设参数;
S42:利用梯度下降法获取所述哈希编码Bl和Bu
S43:根据所述哈希编码Bl和Bu生成哈希编码矩阵B。
在本发明的一个实施例中,所述S42包括:
S421:对所述辅助变量Ui和S进行随机初始化;
S422:更新所述哈希编码Bl和所述哈希编码Bu,更新公式为:
Figure GDA0004095189250000054
S423:更新所述辅助变量Ui,更新公式为:
Figure GDA0004095189250000055
S424:更新所述辅助变量S,更新公式为:
Figure GDA0004095189250000056
Figure GDA0004095189250000061
S425:根据更新后的哈希编码Bl、Bu和辅助变量Ui、S计算并更新所述最小化问题模型E3并与更新前的E3进行比较,判断更新前后E3的变化值是否小于预定值,若否,则返回S422继续进行迭代计算,若是,则执行S426;
S426:停止迭代,获取所述原始图像数据中有标记数据
Figure GDA0004095189250000062
的哈希编码Bl的最终值和所述原始图像数据中无标记数据
Figure GDA0004095189250000063
的哈希编码Bu的最终值。
本发明的另一方面提供了一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上述实施例中任一项所述基于半监督多模态哈希编码的跨模态检索方法。
本发明的又一方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中任一项所述基于半监督多模态哈希编码的跨模态检索方法。
与现有技术相比,本发明的有益效果在于:
本发明的半监督多模态哈希编码方法,调整了哈希编码过程中,原始图像数据中已有真实标记与估计标记的权重,并且采用了非线性模型,能够有效地利用有限的标记信息提高数据的检索精度。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于半监督多模态哈希编码的跨模态检索方法的流程图。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于半监督多模态哈希编码的跨模态检索方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
实施例一
多模态哈希编码是将多组成对实数向量用同一组二进制数向量表示,从而实现跨模态的检索。例如从社交网络上抓取的图像及其文字标签信息就是成对的,通过多模态哈希编码,可以实现用文字标签检索图像,或者用图像检索文字标签。半监督,是指数据中只有一部分是有标记的。标记是指数据的类别标识,一般是二进制向量。例如,一个生物数据集中,用标记(0,1)表示动物,用标记(1,0)表示植物。半监督多模态哈希编码,是指利用部分标记,提高多模态数据哈希编码效果的方法。
本实施例提供了一种基于半监督多模态哈希编码的跨模态检索方法,请参见图1,图1是本发明实施例提供的一种基于半监督多模态哈希编码的跨模态检索方法的流程图。该方法包括:
S1:对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量;
具体地,对待处理的原始图像数据进行提取特征,获得所述原始图像数据的实数向量,所述实数向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵Xl、所述原始图像数据中无标记数据组成的无标记数据矩阵Xu以及所述原始图像数据中有标记数据的标记组成的标记矩阵Ll
优选地,图像数据用SIFT特征表示,文字数据用LDA特征表示。
S2:根据所述实数向量获取辅助变量;
具体地,所述S2包括:
S21:建立辅助变量Hl,Wi,O的最小化问题模型:
Figure GDA0004095189250000081
其中,
Figure GDA0004095189250000082
表示第i个模态中有标记数据组成的矩阵向量,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,α表示预设参数,在本实施例中,取α=10,K表示模态数量,f是sigmoid函数,f(x)=1/(1+e-x),F表示计算矩阵F范数,具体为将矩阵中的每个元素平方后求和再开根号;
S22:利用梯度下降法计算所述辅助变量Hl,Wi和O。
S221:对所述辅助变量Wi和O进行随机初始化;
S222:计算辅助变量Hl,计算公式为:
Figure GDA0004095189250000091
其中,round表示四舍五入取整函数,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,K≥i≥1;
S223:更新辅助变量O,更新公式为:
Figure GDA0004095189250000092
其中,Δt表示预设参数,在本实施例中,取Δt=0.001,°表示矩阵内积,即对应位置元素相乘,
Figure GDA0004095189250000094
表示转置;
S224:更新辅助变量Wi,更新公式为:
Figure GDA0004095189250000093
在此公式中,取Δt=0.001;
S225:根据更新后的辅助变量Hl,Wi和O计算并更新所述最小化问题模型E1,并与更新前的E1进行比较,判断更新前后E1的变化值是否小于预定值,若否,则返回S222继续进行迭代计算,若是,则执行S226;
在本实施例中,所述预定值设定为1%,也就是说,当更新前的E1和更新后的E1的之间的变化范围(即,更新前的E1与更新后的E1的差的绝对值)大于1%,则返回S222继续进行迭代计算,当更新前的E1和更新后的E1的之间的变化范围小于1%,则执行S226;
S226:停止迭代,获取所述辅助变量Hl,Wi和O的最终值,也就是最后一次迭代计算中获得的Hl,Wi和O值。
进一步地,S3:根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;
具体地,所述S3包括:
S31:建立所述原始图像数据中无标记数据的标记矩阵Li的估计模型:
Figure GDA0004095189250000101
其中,tr表示取矩阵的迹,Pi
Figure GDA0004095189250000102
为辅助变量,
Figure GDA0004095189250000103
Figure GDA0004095189250000104
表示第i个模态中无标记数据组成的矩阵向量;
S32:利用交替迭代法获取所述标记矩阵Lu
进一步地,所述S32包括:
S321:对所述标记矩阵Lu和所述辅助变量Pi进行随机初始化,且令迭代次数q=1;
S322:计算所述辅助变量Pi,计算公式为:
Figure GDA0004095189250000105
其中,
Figure GDA0004095189250000106
Figure GDA0004095189250000108
表示转置,°表示矩阵内积,I表示单位矩阵,K≥i≥1,K≥k≥1,且i≠k;
S323:更新所述标记矩阵Lu,更新公式为:
Figure GDA0004095189250000107
S324:令所述迭代次数q加1;
在本实施例中,设定了迭代次数变量q,每进行依次迭代运算,则令q+1。
S325:判断当前迭代计算次数q与预设的最大迭代次数Q的大小,若q<Q,则返回S322继续进行迭代计算,若q=Q,则执行步骤S326;
在本实施例中,取Q=15,即,当前迭代计算次数q小于15次时,返回S322继续进行迭代计算,当q等于15次时,执行步骤S326。
S326:停止迭代,获取所述标记矩阵Lu的最终值,即最后一次迭代计算中获得的Lu值。
进一步地,S4:根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。
具体地,所述S4包括:
S41:建立所述哈希编码矩阵B的最小化问题模型:
Figure GDA0004095189250000111
其中,Ui和S为辅助变量,Bl表示所述原始图像数据中有标记数据
Figure GDA0004095189250000112
的哈希编码,Bu表示所述原始图像数据中无标记数据
Figure GDA0004095189250000113
的哈希编码,
βl和βu表示预设参数,在本实施例中,取βl=1,βu=0.1;
S42:利用梯度下降法获取所述哈希编码Bl和Bu
具体地,所述S42包括:
S421:对所述辅助变量Ui和S进行随机初始化;
S422:更新所述哈希编码Bl和所述哈希编码Bu,更新公式为:
Figure GDA0004095189250000114
S423:更新所述辅助变量Ui,更新公式为:
Figure GDA0004095189250000115
S424:更新所述辅助变量S,更新公式为:
Figure GDA0004095189250000121
S425:根据更新后的哈希编码Bl、Bu和辅助变量Ui、S计算并更新所述最小化问题模型E3,并与更新前的E3进行比较,判断更新前后E3的变化值是否小于预定值,若否,则返回S422继续进行迭代计算,若是,则执行S426;
在本实施例中,所述预定值设定为1%,也就是说,当更新前的E3和更新后的E3的之间的变化范围(即,更新前的E3与更新后的E3的差的绝对值)大于1%,则返回S422继续进行迭代计算,当更新前的E3和更新后的E3的之间的变化范围小于1%,则执行S426;
S426:停止迭代,获取所述原始图像数据中有标记数据
Figure GDA0004095189250000122
的哈希编码Bl的最终值和所述原始图像数据中无标记数据
Figure GDA0004095189250000123
的哈希编码Bu的最终值,即最后一次迭代计算中获得的Bl和Bu值。
接着,S43:根据所述哈希编码Bl和Bu生成哈希编码矩阵B。
具体地,将所述原始图像数据中有标记数据
Figure GDA0004095189250000124
的哈希编码Bl的最终结果和所述原始图像数据中无标记数据
Figure GDA0004095189250000125
的哈希编码Bu的最终结果叠加在一起,组成所述原始图像数据的哈希编码矩阵B。
哈希编码是二进制的编码,这个方法的目的就是把实数向量转换为二进制向量,并且可以用于检索。也就是说两个实数向量之间距离为d1,这两个实数向量的哈希编码之间的汉明距离为d1',另外两个实数向量之间的距离为d2,这两个实数向量的哈希编码之间的汉明距离为d2',如果d1>d2,那么d1'>d2'。具体地,根据所述哈希编码矩阵B进行数据检索,搜索检索数据库中与目标向量距离最近的向量。
接着,采用MAP(mean Average Precision,平均准确率)值来评估本发明实施例的半监督多模态哈希编码方法的检索正确率。
首先,给定一个检索样本集合,此处使用MIRFlickr数据集,MIRFlickr是一个包含25000对图像和文字标签的多模态数据集。对数据集中的图像提取GIST特征,将图像表示为一个512维的实数向量,所有图像的GIST特征可以组成一个25000×512的矩阵X1。将数据集中的文字标签先用一个1366维的二进制向量表示,向量中每个位置表示一个单词,如果该标签中包含某个单词,则二进制向量对应位置的值为1,否则为0;随后,对文字标签的二进制向量进行降维,用主成分分析法(PCA)将其降维成500维的实数向量。所有文字标签的实数向量可以组成一个25000×500的矩阵X2
接着,从该MIRFlickr数据集中随机取出5%的数据作为测试数据,其余数据为训练数据。在训练数据中只保留10%数据的标记,这10%的数据作为矩阵
Figure GDA0004095189250000131
它们的标记矩阵作为L,其余无标记数据作为矩阵
Figure GDA0004095189250000132
其中,
i={1,2},即模态数量设定为2。
在本实施例中,检索效果用前50个检索结果的MAP评价。MAP计算流程如下:
首先,计算每一个测试数据检索的准确率(AP):
Figure GDA0004095189250000133
其中,N表示检索样本集中的样本总数,P(r)表示前r个检索结果的准确度,若第r个检索得到的样本与查询样本相关,则δ(r)=1,否则
δ(r)=0。所有样本的AP值的平均值即MAP。
表1给出了本发明实施例的方法与现有技术的S3FH方法和SSMH方法的平均检索准确率的对比效果
表1本发明实施例的方法与S3FH和SSMH方法的平均检索准确率的对比效果
Figure GDA0004095189250000141
从表1中可以看出,相比于现有技术的S3FH方法和SSMH方法,本发明实施例的方法获得的MAP较高,说明本方法能够有效提高数据的检索精度。
本实施例的基于半监督多模态哈希编码的跨模态检索方法,调整了哈希编码过程中,原始图像数据中已有真实标记与估计标记的权重,并且采用了非线性模型,能够有效地利用有限的标记信息提高数据的检索精度。
实施例二
本实施例的目的是提供一种计算机系统。
一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现:
对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量;
根据所述实数向量获取辅助变量;
根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;
根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量;
根据所述实数向量获取辅助变量;
根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;
根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。
以上实施例二和实施例三中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。例如,本实施例的计算机可读存储介质包括U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于半监督多模态哈希编码的跨模态检索方法,其特征在于,包括:
S1:对原始图像数据进行预处理,获得所述原始图像数据的实数矩阵向量,具体地,所述实数矩阵向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵Xl、所述原始图像数据中无标记数据组成的无标记数据矩阵Xu以及所述原始图像数据中有标记数据的标记组成的标记矩阵Ll
S2:根据所述实数矩阵向量获取辅助变量;
S3:根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵;
S4:根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵;
S5:根据所述哈希编码矩阵进行数据检索,搜索检索数据库中与目标向量距离最近的向量,
所述S2包括:
S21:建立辅助变量Hl,i,的最小化问题模型:
其中,表示第i个模态中有标记数据组成的矩阵向量,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,α表示预设参数,K表示模态数量,f是sigmoid函数,f(x)=1/(1+e-x),F表示计算矩阵F范数;
S22:利用梯度下降法计算所述辅助变量Hl,i和O;
所述S3包括:
S31:建立所述原始图像数据中无标记数据的标记矩阵Lu的估计模型:
其中,tr表示取矩阵的迹,Pi为辅助变量, 表示第i个模态中无标记数据组成的矩阵向量;
S32:利用交替迭代法获取所述标记矩阵Lu
所述S4包括:
S41:建立所述哈希编码矩阵B的最小化问题模型:
其中,Ui和S为辅助变量,Bl表示所述原始图像数据中有标记数据的哈希编码,Bu表示所述原始图像数据中无标记数据的哈希编码,βl和βu表示预设参数;
S42:利用梯度下降法获取所述哈希编码Bl和Bu
S43:根据所述哈希编码Bl和Bu生成哈希编码矩阵B。
2.根据权利要求1所述的基于半监督多模态哈希编码的跨模态检索方法,其特征在于,所述S22包括:
S221:对所述辅助变量Wi和O进行随机初始化;
S222:计算辅助变量Hl,计算公式为:
其中,round表示四舍五入取整函数,Ll表示所述原始图像数据中有标记数据的标记组成的标记矩阵,K≥i≥1;
S223:更新辅助变量O,更新公式为:
其中,Δt表示预设参数,表示矩阵内积,T表示转置;
S224:更新辅助变量Wi,更新公式为:
S225:根据更新后的辅助变量Hl,i和O计算并更新所述最小化问题模型E1并与更新前的E1进行比较,判断更新前后E1的变化值是否小于预定值,若否,则返回S222继续进行迭代计算,若是,则执行S226;
S226:停止迭代,获取所述辅助变量Hl,i和O的最终值。
3.根据权利要求2所述的基于半监督多模态哈希编码的跨模态检索方法,其特征在于,所述S32包括:
S321:对所述标记矩阵Lu和所述辅助变量Pi进行随机初始化,且令迭代次数q=1;
S322:计算所述辅助变量Pi,计算公式为:
其中,T表示转置,表示矩阵内积,I表示单位矩阵,K≥i≥1,K≥k≥1,且i≠k;
S323:更新所述标记矩阵Lu,更新公式为:
S324:令所述迭代次数q加1;
S325:判断当前迭代计算次数q与预设的最大迭代次数Q的大小,若q<Q,则返回S322继续进行迭代计算,若q=Q,则执行步骤S326;
S326:停止迭代,获取所述标记矩阵Lu的最终值。
4.根据权利要求3所述的基于半监督多模态哈希编码的跨模态检索方法,其特征在于,所述S42包括:
S421:对所述辅助变量Ui和S进行随机初始化;
S422:更新所述哈希编码Bl和所述哈希编码Bu,更新公式为:
S423:更新所述辅助变量Ui,更新公式为:
S424:更新所述辅助变量S,更新公式为:
S425:根据更新后的哈希编码Bl、Bu和辅助变量Ui、S计算并更新所述最小化问题模型E3并与更新前的E3进行比较,判断更新前后E3的变化值是否小于预定值,若否,则返回S422继续进行迭代计算,若是,则执行S426;
S426:停止迭代,获取所述原始图像数据中有标记数据的哈希编码Bl的最终值和所述原始图像数据中无标记数据的哈希编码Bu的最终值。
5.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的基于半监督多模态哈希编码的跨模态检索方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一项所述的基于半监督多模态哈希编码的跨模态检索方法。
CN201911295770.2A 2019-09-03 2019-12-16 一种基于半监督多模态哈希编码的跨模态检索方法 Active CN111143625B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910828892 2019-09-03
CN2019108288927 2019-09-03

Publications (2)

Publication Number Publication Date
CN111143625A CN111143625A (zh) 2020-05-12
CN111143625B true CN111143625B (zh) 2023-04-25

Family

ID=70518455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911295770.2A Active CN111143625B (zh) 2019-09-03 2019-12-16 一种基于半监督多模态哈希编码的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN111143625B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220172106A1 (en) * 2020-12-01 2022-06-02 International Business Machines Corporation Cross-modal semi-supervised data labeling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182538A (zh) * 2014-09-01 2014-12-03 西安电子科技大学 基于半监督哈希的图像检索方法
CN105930440A (zh) * 2016-04-19 2016-09-07 中山大学 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法
CN109634953A (zh) * 2018-11-07 2019-04-16 宁波大学 一种面向高维大数据集的加权量化哈希检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
WO2014050952A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 バイナリデータ変換方法と装置及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182538A (zh) * 2014-09-01 2014-12-03 西安电子科技大学 基于半监督哈希的图像检索方法
CN105930440A (zh) * 2016-04-19 2016-09-07 中山大学 基于跨视域信息和量化误差编码的大规模行人图像快速检索方法
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN107766555A (zh) * 2017-11-02 2018-03-06 电子科技大学 基于软约束无监督型跨模态哈希的图像检索方法
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法
CN109634953A (zh) * 2018-11-07 2019-04-16 宁波大学 一种面向高维大数据集的加权量化哈希检索方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Dayong Tian et al. .Learning Decorrelated Hashing Codes for Multimodal Retrieval..《IEEE Transactions on Image Processing》.2019,第1-9页. *
Dayong Tian et al. .semi-supervised multimodal hashing.《arxiv》.2017,第1-6页. *
Dayong Tian et al..Global Hashing System for Fast Image Search.《IEEE Trans. Image Process》.2016,第79-89页. *
Masahiro Suzuki et al..Semi-Supervised Multimodal Learning with Deep Generative Models .《Advances in Neural Information Processing Systems》 .2018,第3581-3589页. *
樊花,陈华辉.基于哈希方法的跨模态检索研究进展.《数据通信》.2018,第39-45页. *
王家乐.基于哈希学习的跨模态检索与标注方法研究.《中国博士学位论文全文数据库信息科技辑》.2019,第I138-28页. *
苏毅娟 ; 余浩 ; 雷聪 ; 郑威 ; 李永钢 ; .基于PCA的哈希图像检索算法.计算机应用研究.2017,(10),第3147-3150页. *
陈飞 ; 吕绍和 ; 李军 ; 王晓东 ; 窦勇 ; .目标提取与哈希机制的多标签图像检索.中国图象图形学报.2017,(02),第232-240页. *

Also Published As

Publication number Publication date
CN111143625A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
US10331976B2 (en) Label-embedding view of attribute-based recognition
US20090060351A1 (en) Visual Language Modeling for Image Classification
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN105930873B (zh) 一种基于子空间的自步跨模态匹配方法
WO2019230666A1 (ja) 特徴量抽出装置、方法、及びプログラム
CN112800248B (zh) 相似病例检索方法、装置、计算机设备及存储介质
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
Chen et al. Extensible Cross-Modal Hashing.
CN111143625B (zh) 一种基于半监督多模态哈希编码的跨模态检索方法
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN111104481B (zh) 一种识别匹配字段的方法、装置及设备
CN112836008A (zh) 基于去中心化存储数据的索引建立方法
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
JP5197492B2 (ja) 半教師画像認識検索装置、半教師画像認識検索方法、及びプログラム
CN116630694A (zh) 一种偏多标记图像的目标分类方法、系统及电子设备
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN112307248B (zh) 一种图像检索方法及装置
Ha et al. Text-to-image retrieval based on incremental association via multimodal hypernetworks
Wei et al. Integrating visual word embeddings into translation language model for keyword spotting on historical Mongolian document images
CN111914108A (zh) 基于语义保持的离散监督跨模态哈希检索方法
CN113139382A (zh) 命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant