CN104268140B - 基于权重自学习超图和多元信息融合的图像检索方法 - Google Patents

基于权重自学习超图和多元信息融合的图像检索方法 Download PDF

Info

Publication number
CN104268140B
CN104268140B CN201410373081.XA CN201410373081A CN104268140B CN 104268140 B CN104268140 B CN 104268140B CN 201410373081 A CN201410373081 A CN 201410373081A CN 104268140 B CN104268140 B CN 104268140B
Authority
CN
China
Prior art keywords
matrix
image
hypergraph
super side
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410373081.XA
Other languages
English (en)
Other versions
CN104268140A (zh
Inventor
于慧敏
谢奕
郑伟伟
汪东旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410373081.XA priority Critical patent/CN104268140B/zh
Publication of CN104268140A publication Critical patent/CN104268140A/zh
Application granted granted Critical
Publication of CN104268140B publication Critical patent/CN104268140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于权重自学习超图和多元信息融合的图像检索方法,首先,提取图像库中图像的多元特征并构建不同特征空间的距离矩阵;之后利用图像间的距离关系将图像数据库用超图结构表示,并计算超图的各项参数;然后针对特定的检索示例图像,根据图像库中图像与示例图像间的语义空间距离计算初始标签向量,用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量的一致性,以及超图中超边权重的自学习性,并用归一化参数调节上述三项的影响;最后用一种交替优化算法求解归一化框架中的最优化问题,在完成对超边权重自学习更新的同时得到针对示例图像的最优化检索排序结果。

Description

基于权重自学习超图和多元信息融合的图像检索方法
技术领域
本发明涉及一种计算机技术领域的图像检索排序算法,具体为一种基于权重自学习超图和多元信息融合的图像检索方法。
背景技术
近年来,随着互联网技术和多媒体技术的迅速发展,网络多媒体数据在因特网中呈现爆炸式增长,社交网站和多媒体分享网站每天都有数以亿计的网络图片被上传和分享。海量规模的网络图像在提供大量信息的同时,也成为图像数据有效组织和管理的难点所在。因此如何对急速增长的网络图像数据进行高效而准确的检索以返回用户感兴趣的结果,成为多媒体领域众多实际应用的核心问题。
传统的图像检索方法,大都只基于图像的底层特征,对图像进行视觉特征提取后,用图像的视觉特征相似度进行检索排序。然而,一个严峻的问题是图像底层的视觉特征与高层语义之间存在着语义鸿沟,用户对图像的理解或检索意图无法用图像的底层视觉特征来完全表达。近几年出现的网络图片中的用户生成标签在一定程度上解决了这种问题,目前大多数社交媒体网站或者网络相册网站都允许用户为网站上的图片添加用户标注信息来从语义层面描述图片,例如Flickr网。图像检索技术也因此由仅基于底层视觉信息向同时基于底层视觉信息和高层语义信息的方向发展。Liu等人于2009年发表在《IEEEInternational Conference on Multimedia and Expo》(国际电子电气工程师协会多媒体展会)上的文章“Tag quality improvement for social images”中就根据图像和用户生成标签之间的相关性提出了一种相关性排序算法,该方法同时利用了图像的底层视觉信息和高层语义信息。
虽然同时利用图像视觉信息和语义信息为网络图像检索提供了重要手段,然而现有的方法普遍存在如下两个问题:首先网络图像的标签信息由各式各样的用户提供,其中存在很多与被标注图像完全不相干的“噪声”标签,而且用户生成标签中也经常会出现错误的拼写,这使得同时利用视觉和语义信息的图像检索算法在实际应用在并不能达到令人满意的效果。其次,现有算法大都只是将视觉信息和语义信息分开处理后再对结果进行融合,并没有同时利用两种信息去挖掘图像间的深层次联系。
随着以智能手机为主的移动设备的兴起,移动终端已经成为人们访问社交网站和多媒体网站的主要平台。移动终端拍摄和上传的图片被加上了地理标注信息,地理标注信息反映了图片被拍摄或上传的地理位置。同一地理位置拍摄的图片在语义上也存在着某种关联性,合理利用这种地理标注信息可以作为传统视觉信息或语义信息的有效补充。因此,本发明对视觉信息、语义信息以及地理标注信息这三种信息进行多元融合分析,在解决“语义鸿沟”问题的同时,为语义准确度存在不确定性的用户标签提供了有效的补充。
图模型因为能够有效利用图像数据间的结构化信息,综合考虑图像在不同特征空间内的关联性,逐渐成为图像检索领域的一个热点。Zhou等人于2006年发表在《NeuralInformation Processing Systems Conference》(神经信息处理系统会议)上的“Learningwith hypergraphs:Clustering,Classification,and Embedding”一文中提出了一种基于超图模型的数据分析方法,与简单图模型只能考虑数据对之间的成对关联性信息不同,超图模型能够结合多元信息对数据进行高层结构表示,从而对数据间的关联性进行深层次挖掘。但此方法在构建超图结构时,为超图中的每条超边分配的权重固定不变,因此超图结构无法根据具体的分析对象做出相应的调整。
为了深度挖掘图像数据在视觉空间、语义空间和地理空间内的多元关联性,并根据具体检索示例图像做出自适应调整,本发明利用权重自学习超图模型构建图像数据库中图像间的高层关联结构,在完成图像检索排序的同时,将超图结构内的超边权重自学习地更新为相对最优,从而提高图像检索方法的鲁棒性和准确性。
发明内容
本发明的目的为了解决现有技术中的问题,提供一种基于权重自学习超图和多元信息融合的图像检索方法,利用权重自学习超图结构对网络图像的视觉信息、语义信息和地理标注信息进行多元融合分析,从而提升现有图像检索方法的鲁棒性和准确性。
本发明采用以下技术方案:一种基于权重自学习超图和多元信息融合的图像检索方法,包括以下步骤:
步骤1:提取图像多元特征:对图像库中的每一幅网络图片,分别提取其视觉空间特征、语义空间特征、地理空间特征;
步骤2:构建距离矩阵:根据三种不同特征空间内的特征提取结果,应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵;
步骤3:构建超图超边:将图像库中每一幅图片作为超图的一个顶点,在三种不同特征空间内分别为每个顶点寻找其K近邻顶点,构成三个包含K+1顶点的集合,将每个顶点集合作为超图的一个超边,共生成3×|V|条超边,|V|为顶点个数;
步骤4:计算超图关联矩阵和超边初始权重:利用超图中超边与顶点的关系计算超图的关联矩阵H,再利用关联矩阵H和三种特征空间的距离矩阵计算得到超图中每条超边的初始权重,得到包含所有超边权重的对角矩阵W;
步骤5:计算超图的顶点度矩阵、超边度矩阵和拉普拉斯矩阵:
计算超图中每个顶点的度d(v)和每条超边的度δ(e):
d(v)=∑e∈Ew(e)h(v,e)
δ(e)=∑v∈Vh(v,e)
其中h(v,e)为关联矩阵H中顶点v和超边e对应的值,而w(e)为超边e的权重;本质上,顶点的度为关联矩阵H对应行的加权求和,超边的度为关联矩阵H对应列的求和;
之后定义包含超图中所有顶点度d(v)的对角矩阵Dv为顶点度矩阵,包含超图中所有超边度δ(e)的对角矩阵De为超边度矩阵;
最后利用超图的关联矩阵H、顶点度矩阵Dv、超边度矩阵De、超边权重矩阵W共同计算得到超图的拉普拉斯矩阵:
定义矩阵超图的拉普拉斯矩阵定义为:Δ=I-Θ,其中I为|V|×|V|的单位矩阵;
步骤6:同时进行超边权重自学习更新和相关性检索排序:
针对特定示例图像,根据图像库中每幅图像与示例图像之间的语义空间距离,得到图像库中每幅图像的初始标签,并构成整个图像库的|V|×1维初始标签向量y;
利用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量y的一致性,以及超图中超边权重的自学习性,该归一化框架定义为:
其中,
用矩阵形式来表示可以写为Ω(f)=fTΔf,f为需要学习得到的检索排序相似度向量,μ和ξ为两个正的归一化参数,ne为超图中超边的总数;
超边权重自学习更新和相关性检索排序可以视为同时寻找满足上述归一化框架的最优的超边权重矩阵W和检索排序相似度向量f,即解决归一化框架中提出的同时优化问题;
步骤7:返回检索结果:返回归一化框架中最优的检索相似度向量f*,按照f*中相似度大小对图像库中的图像进行排序,得到最终的检索结果。
进一步地,步骤1中所述的视觉空间特征、语义空间特征和地理空间特征,其具体提取过程如下:
步骤1.1:视觉空间特征提取方法如下:
采用Gist特征来描述图像的视觉特性,对图像用4尺度8方向的Gabor滤波器组进行滤波,提取图像不同频率和方向上的信息;
将滤波后的图像组划分成4×4规则网格,对每个网格内的滤波结果值取均值,并将不同尺度、不同方向的结果进行级联,得到一个512维的Gist特征向量作为图像的视觉空间特征;
步骤1.2:语义空间特征提取方法如下:
对每幅图像由用户生成的原始标签集Ti={t1,t2,…,tm}进行预处理,滤除存在拼写错误或者不具备语义信息的标签;
对图像库中所有出现过的标签进行出现频率统计,将在整个图像库中出现频率小于等于3次的标签删除,构成图像库的特异性标签字典;
对每幅图像的标签集与特异性标签字典求交集,得到每幅图像最终的标签集Ti′,用该标签集作为图像的语义空间特征;
步骤1.3:地理空间特征提取方法如下:
对每幅图像的地理标注信息进行解读,读取图像库中每幅图像的拍摄地点坐标,保留该地理坐标的经度和纬度作为图像的地理空间特征。
进一步地,步骤2中所述的应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵,其具体实现步骤如下:
步骤2.1:视觉空间距离矩阵计算:
设两幅图像的视觉特征向量分别为Gisti和Gistj,用欧式距离度量两视觉特征向量之间的距离:
设V表示图像库集合,|V|表示图像库中的图像数量,用|V|×|V|矩阵Dvisual存储图像库中任意两幅图像之间的视觉空间距离:
Dvisual(i,j)=d(Gisti,Gistj)
步骤2.2:语义空间距离矩阵计算:
设两幅图像的语义特征分别为标签集Ti′和Tj′,用Jaccard相似性系数度量两标签集之间的距离:
其中|Ti′∩Tj′|表示两标签集求交集后包含的标签个数,|Ti′∪Tj′|表示两标签集求并集后所包含的标签个数;
在完成图像库中所有图像间的语义空间距离计算后,用|V|×|V|矩阵Dtag存储图像库中任意两幅图像之间的语义空间距离:
Dtag(i,j)=d(Ti′,Tj′)
步骤2.3:地理空间距离矩阵计算:
设两幅图像的拍摄经度分别为longi和longj,拍摄纬度分别为lati和latj,由下面的公式近似计算两经纬度坐标geoi和geoj之间的地球距离:
其中Re≈6378.137km为地球半径,a为两坐标间的纬度差,b为两坐标间的经度差。
在完成图像库中所有图像间的地理空间距离计算后,用|V|×|V|矩阵Dgeo存储图像库中任意两幅图像之间的地理空间距离:
Dgeo(i,j)=d(geoi,geoj)
进一步地,步骤4中所述的计算超图的关联矩阵H,其具体实现过程为:定义一个|V|×|E|的矩阵H,其中|V|为超图中的顶点数,|E|为超图中的超边数,H中的每一行代表一个顶点,每一列代表一条超边,根据步骤3中的确定的顶点超边关系,按照如下公式确定H中元素的值:
当一个顶点属于一条超边时,H对应位置为1,否则对应位置为0;
步骤4中所述的计算得到超图中每条超边的初始权重,其具体实现包括以下子步骤:
步骤4.1:根据关联矩阵H和视觉空间的距离矩阵Dvisual,计算视觉特征空间的亲和力矩阵Avisual,按照如下公式确定Avisual中元素的值:
其中表示距离矩阵Dvisual中所有元素的平均值。
步骤4.2:利用与步骤4.1相同的方法,根据关联矩阵H和语义空间的距离矩阵Dtag,以及地理空间的距离矩阵Dgeo,计算得到语义特征空间的亲和力矩阵Atag和地理特征空间的亲和力矩阵Ageo
步骤4.3:对三个亲和力矩阵分别按列求和,得到不同特征空间内对应超边的超边权重:
其中Ak表示第k种特征空间的亲和力矩阵,wk表示对应特征空间内形成的超边的权重;
步骤4.4:将步骤4.3中计算得到的超边权重进行归一化处理,使所有超边的权重和为1,并按照与关联矩阵H中超边的对应关系,按序放入|E|×|E|对角矩阵W中对角线上的对应位置,得到初始的超边权重矩阵W。
进一步地,步骤6中所述的解决归一化框架中提出的同时优化问题,具体方法如下:
归一化框架中的目标函数对于向量f或矩阵W单独优化时为凸问题,因此利用交替优化方法解决该同时优化问题;
首先,固定超边权重矩阵W,求最优的f向量,目标函数变为:
对目标函数关于f求偏导可得:
之后,固定检索排序相似度向量f,求最优的矩阵W,目标函数变为:
定义因为W和为对角矩阵,目标函数中的第一项可以写为:
再定义f固定时的目标函数可以重写为:
利用坐标下降法解决上述优化问题:
每次迭代过程,从超边权重矩阵W中任意选择两个权重值wj和wk进行更新,其它权重值固定不变;
因为需要保证两权重值的和wj+wk在迭代更新后不应有变化,故采用下面的更新规则更新wj和wk
其中为更新后的权重值,利用上述更新规则迭代更新超边权重矩阵W中的任意两对超边权重值后,即可得到当f固定时,使目标函数最优的超边权重矩阵W。
进一步地,步骤6中所述的解决归一化框架中提出的同时优化问题,具体由以下子步骤来实现:
步骤6.1:根据初始的矩阵Θ,标签向量y和归一化参数μ,计算当初始超边权重矩阵W固定时,最优的向量f:
步骤6.2:利用步骤6.1中计算得到的f和坐标下降法迭代更新规则,更新矩阵W中所有超边权重的值,以得到当检索排序相似度向量f固定时,最优的超边权重矩阵W;
步骤6.3:利用新得到的超边权重矩阵W,更新矩阵Θ,重新计算当超边权重矩阵W固定时,最优的检索排序相似度向量f;
步骤6.4:交替重复步骤6.2和步骤6.3,直至目标函数收敛,得到超边权重自学习结果W*和图像库的最优化检索排序相似度f*
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1)本发明将移动多媒体时代越来越盛行的图像地理标注信息融合进网络图像检索排序框架,为传统技术提供了很好的信息补充;
2)本发明采用超图结构融合图像的多元信息,从视觉空间、语义空间和地理空间综合挖掘图像库中各图像间的高层次相关性,从而能够获得更加准确,更为有效的图像检索效果;
3)与现有技术相比,本发明针对特定示例图片,对超图结构中的超边权重进行自学习,使与示例图片关联性更强的超边获得更大的权重,大大提升了该方法的鲁棒性和自适应性。
附图说明
图1为本发明的整体流程示意图。
具体实施方式
下面结合具体实施例,对本发明的技术方案做进一步的详细说明。
以下实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
本实施例对某一带有用户生成标签和地理标注信息的网络图像库进行处理,在本发明的实施例中,该方法包括以下步骤:
步骤1:提取图像多元特征:对图像库中的每一幅网络图片,分别提取其视觉空间特征、语义空间特征、地理空间特征;
在本实施例中,步骤1中所述的视觉空间特征、语义空间特征和地理空间特征,其具体提取过程如下:
步骤1.1:视觉空间特征提取方法如下:
采用Gist特征来描述图像的视觉特性,对图像用4尺度8方向的Gabor滤波器组进行滤波,提取图像不同频率和方向上的信息;
将滤波后的图像组划分成4×4规则网格,对每个网格内的滤波结果值取均值,并将不同尺度、不同方向的结果进行级联,得到一个512维的Gist特征向量作为图像的视觉空间特征;
步骤1.2:语义空间特征提取方法如下:
对每幅图像由用户生成的原始标签集Ti={t1,t2,…,tm}进行预处理,滤除存在拼写错误或者不具备语义信息的标签;
对图像库中所有出现过的标签进行出现频率统计,将在整个图像库中出现频率小于等于3次的标签删除,构成图像库的特异性标签字典;
对每幅图像的标签集与特异性标签字典求交集,得到每幅图像最终的标签集Ti′,用该标签集作为图像的语义空间特征;
步骤1.3:地理空间特征提取方法如下:
对每幅图像的地理标注信息进行解读,读取图像库中每幅图像的拍摄地点坐标,保留该地理坐标的经度和纬度作为图像的地理空间特征。
步骤2:构建距离矩阵:根据三种不同特征空间内的特征提取结果,应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵;
在本实施例中,步骤2中所述的应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵,其具体实现步骤如下:
步骤2.1:视觉空间距离矩阵计算:
设两幅图像的视觉特征向量分别为Gisti和Gistj,用欧式距离度量两视觉特征向量之间的距离:
设V表示图像库集合,|V|表示图像库中的图像数量,用|V|×|V|矩阵Dvisual存储图像库中任意两幅图像之间的视觉空间距离:
Dvisual(i,j)=d(Gisti,Gistj)
步骤2.2:语义空间距离矩阵计算:
设两幅图像的语义特征分别为标签集Ti′和Tj′,用Jaccard相似性系数度量两标签集之间的距离:
其中|Ti′∩Tj′|表示两标签集求交集后包含的标签个数,|Ti′∪Tj′|表示两标签集求并集后所包含的标签个数;
在完成图像库中所有图像间的语义空间距离计算后,用|V|×|V|矩阵Dtag存储图像库中任意两幅图像之间的语义空间距离:
Dtag(i,j)=d(Ti′,Tj′)
步骤2.3:地理空间距离矩阵计算:
设两幅图像的拍摄经度分别为longi和longj,拍摄纬度分别为lati和latj,由下面的公式近似计算两经纬度坐标geoi和geoj之间的地球距离:
其中Re≈6378.137km为地球半径,a为两坐标间的纬度差,b为两坐标间的经度差。
在完成图像库中所有图像间的地理空间距离计算后,用|V|×|V|矩阵Dgeo存储图像库中任意两幅图像之间的地理空间距离:
Dgeo(i,j)=d(geoi,geoj)
步骤3:构建超图超边:将图像库中每一幅图片作为超图的一个顶点,在三种不同特征空间内分别为每个顶点寻找其K近邻顶点,构成三个包含K+1顶点的集合,将每个顶点集合作为超图的一个超边,共生成3×|V|条超边,|V|为顶点个数,在本实施例中取K=15;
步骤4:计算超图关联矩阵和超边初始权重:利用超图中超边与顶点的关系计算超图的关联矩阵H,再利用关联矩阵H和三种特征空间的距离矩阵计算得到超图中每条超边的初始权重,得到包含所有超边权重的对角矩阵W;
在本实施例中,步骤4中所述的计算超图的关联矩阵H,其具体实现过程为:定义一个|V|×|E|的矩阵H,其中|V|为超图中的顶点数,|E|为超图中的超边数,H中的每一行代表一个顶点,每一列代表一条超边,根据步骤3中的确定的顶点超边关系,按照如下公式确定H中元素的值:
当一个顶点属于一条超边时,H对应位置为1,否则对应位置为0;
步骤4中所述的计算得到超图中每条超边的初始权重,其具体实现包括以下子步骤:
步骤4.1:根据关联矩阵H和视觉空间的距离矩阵Dvisual,计算视觉特征空间的亲和力矩阵Avisual,按照如下公式确定Avisual中元素的值:
其中表示距离矩阵Dvisual中所有元素的平均值。
步骤4.2:利用与步骤4.1相同的方法,根据关联矩阵H和语义空间的距离矩阵Dtag,以及地理空间的距离矩阵Dgeo,计算得到语义特征空间的亲和力矩阵Atag和地理特征空间的亲和力矩阵Ageo
步骤4.3:对三个亲和力矩阵分别按列求和,得到不同特征空间内对应超边的超边权重:
其中Ak表示第k种特征空间的亲和力矩阵,wk表示对应特征空间内形成的超边的权重;
步骤4.4:将步骤4.3中计算得到的超边权重进行归一化处理,使所有超边的权重和为1,并按照与关联矩阵H中超边的对应关系,按序放入|E|×|E|对角矩阵W中对角线上的对应位置,得到初始的超边权重矩阵W。
步骤5:计算超图的顶点度矩阵、超边度矩阵和拉普拉斯矩阵:
计算超图中每个顶点的度d(v)和每条超边的度δ(e):
d(v)=∑e∈Ew(e)h(v,e)
δ(e)=∑v∈Vh(v,e)
其中h(v,e)为关联矩阵H中顶点v和超边e对应的值,而w(e)为超边e的权重;本质上,顶点的度为关联矩阵H对应行的加权求和,超边的度为关联矩阵H对应列的求和;
之后定义包含超图中所有顶点度d(v)的对角矩阵Dv为顶点度矩阵,包含超图中所有超边度δ(e)的对角矩阵De为超边度矩阵;
最后利用超图的关联矩阵H、顶点度矩阵Dv、超边度矩阵De、超边权重矩阵W共同计算得到超图的拉普拉斯矩阵:
定义矩阵超图的拉普拉斯矩阵定义为:Δ=I-Θ,其中I为|V|×|V|的单位矩阵;
步骤6:同时进行超边权重自学习更新和相关性检索排序:
针对特定示例图像,根据图像库中每幅图像与示例图像之间的语义空间距离,得到图像库中每幅图像的初始标签,并构成整个图像库的|V|×1维初始标签向量y;
利用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量y的一致性,以及超图中超边权重的自学习性,该归一化框架定义为:
其中,
用矩阵形式来表示可以写为Ω(f)=fTΔf,f为需要学习得到的检索排序相似度向量,μ和ξ为两个正的归一化参数,在本实例中取μ=10和ξ=1,ne为超图中超边的总数;
超边权重自学习更新和相关性检索排序可以视为同时寻找满足上述归一化框架的最优的超边权重矩阵W和检索排序相似度向量f,即解决归一化框架中提出的同时优化问题;
在本实施例中,步骤6中所述的解决归一化框架中提出的同时优化问题,具体方法如下:
归一化框架中的目标函数对于向量f或矩阵W单独优化时为凸问题,因此利用交替优化方法解决该同时优化问题;
首先,固定超边权重矩阵W,求最优的f向量,目标函数变为:
对目标函数关于f求偏导可得:
之后,固定检索排序相似度向量f,求最优的矩阵W,目标函数变为:
定义因为W和为对角矩阵,目标函数中的第一项可以写为:
再定义f固定时的目标函数可以重写为:
利用坐标下降法解决上述优化问题:
每次迭代过程,从超边权重矩阵W中任意选择两个权重值wj和wk进行更新,其它权重值固定不变;
因为需要保证两权重值的和wj+wk在迭代更新后不应有变化,故采用下面的更新规则更新wj和wk
其中为更新后的权重值,利用上述更新规则迭代更新超边权重矩阵W中的任意两对超边权重值后,即可得到当f固定时,使目标函数最优的超边权重矩阵W。
在本实施例中,步骤6中所述的解决归一化框架中提出的同时优化问题,具体由以下子步骤来实现:
步骤6.1:根据初始的矩阵Θ,标签向量y和归一化参数μ,计算当初始超边权重矩阵W固定时,最优的向量f:
步骤6.2:利用步骤6.1中计算得到的f和坐标下降法迭代更新规则,更新矩阵W中所有超边权重的值,以得到当检索排序相似度向量f固定时,最优的超边权重矩阵W;
步骤6.3:利用新得到的超边权重矩阵W,更新矩阵Θ,重新计算当超边权重矩阵W固定时,最优的检索排序相似度向量f;
步骤6.4:交替重复步骤6.2和步骤6.3,直至目标函数收敛,得到超边权重自学习结果W*和图像库的最优化检索排序相似度f*
步骤7:返回检索结果:返回归一化框架中最优的检索相似度向量f*,按照f*中相似度大小对图像库中的图像进行排序,得到最终的检索结果。

Claims (6)

1.一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于,包括以下步骤:
步骤1:提取图像多元特征:对图像库中的每一幅网络图片,分别提取其视觉空间特征、语义空间特征、地理空间特征;
步骤2:构建距离矩阵:根据三种不同特征空间内的特征提取结果,应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵;
步骤3:构建超图超边:将图像库中每一幅图片作为超图的一个顶点,在三种不同特征空间内分别为每个顶点寻找其K近邻顶点,构成三个包含K+1顶点的集合,将每个顶点集合作为超图的一个超边,共生成3×|V|条超边,|V|为顶点个数;
步骤4:计算超图关联矩阵和超边初始权重:利用超图中超边与顶点的关系计算超图的关联矩阵H,再利用关联矩阵H和三种特征空间的距离矩阵计算得到超图中每条超边的初始权重,得到包含所有超边权重的对角矩阵W;
步骤5:计算超图的顶点度矩阵、超边度矩阵和拉普拉斯矩阵:
计算超图中每个顶点的度d(v)和每条超边的度δ(e):
d(v)=Σe∈Ew(e)h(v,e)
δ(e)=Σv∈Vh(v,e)
其中h(v,e)为关联矩阵H中顶点v和超边e对应的值,而w(e)为超边e的权重;本质上,顶点的度为关联矩阵H对应行的加权求和,超边的度为关联矩阵H对应列的求和;
之后定义包含超图中所有顶点度d(v)的对角矩阵Dv为顶点度矩阵,包含超图中所有超边度δ(e)的对角矩阵De为超边度矩阵;
最后利用超图的关联矩阵H、顶点度矩阵Dv、超边度矩阵De、超边权重矩阵W共同计算得到超图的拉普拉斯矩阵:
定义矩阵超图的拉普拉斯矩阵定义为:Δ=I-Θ,其中I为|V|×|V|的单位矩阵;
步骤6:同时进行超边权重自学习更新和相关性检索排序:
针对特定示例图像,根据图像库中每幅图像与示例图像之间的语义空间距离,得到图像库中每幅图像的初始标签,并构成整个图像库的|V|×1维初始标签向量y;
利用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量y的一致性,以及超图中超边权重的自学习性,该归一化框架定义为:
arg m i n f , W { Ω ( f ) + μ | | f - y | | 2 + ξ | | W | | 2 }
s . t . Σ i = 1 n w i = 1 , 0 ≤ w i ≤ 1
其中,
用矩阵形式来表示可以写为Ω(f)=fTΔf,f为需要学习得到的检索排序相似度向量,μ和ξ为两个正的归一化参数,ne为超图中超边的总数;
超边权重自学习更新和相关性检索排序视为同时寻找满足上述归一化框架的最优的超边权重矩阵W和检索排序相似度向量f,即解决归一化框架中提出的同时优化问题;
步骤7:返回检索结果:返回归一化框架中最优的检索相似度向量f*,按照f*中相似度大小对图像库中的图像进行排序,得到最终的检索结果。
2.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于:步骤1中所述的视觉空间特征、语义空间特征和地理空间特征,其具体提取过程如下:
步骤1.1:视觉空间特征提取方法如下:
采用Gist特征来描述图像的视觉特性,对图像用4尺度8方向的Gabor滤波器组进行滤波,提取图像不同频率和方向上的信息;
将滤波后的图像组划分成4×4规则网格,对每个网格内的滤波结果值取均值,并将不同尺度、不同方向的结果进行级联,得到一个512维的Gist特征向量作为图像的视觉空间特征;
步骤1.2:语义空间特征提取方法如下:
对每幅图像由用户生成的原始标签集Ti={t1,t2,…,tm}进行预处理,滤除存在拼写错误或者不具备语义信息的标签;
对图像库中所有出现过的标签进行出现频率统计,将在整个图像库中出现频率小于等于3次的标签删除,构成图像库的特异性标签字典;
对每幅图像的标签集与特异性标签字典求交集,得到每幅图像最终的标签集Ti′,用该标签集作为图像的语义空间特征;
步骤1.3:地理空间特征提取方法如下:
对每幅图像的地理标注信息进行解读,读取图像库中每幅图像的拍摄地点坐标,保留该地理坐标的经度和纬度作为图像的地理空间特征。
3.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于:步骤2中所述的应用不同空间的距离度量方式,分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离,为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵,其具体实现步骤如下:
步骤2.1:视觉空间距离矩阵计算:
设两幅图像的视觉特征向量分别为Gisti和Gistj,用欧式距离度量两视觉特征向量之间的距离:
d ( Gist i , Gist j ) = Σ k = 1 512 ( Gist i ( k ) - Gist j ( k ) ) 2
设V表示图像库集合,|V|表示图像库中的图像数量,用|V|×|V|矩阵Dvisual存储图像库中任意两幅图像之间的视觉空间距离:
Dvisual(i,j)=d(Gisti,Gistj)
步骤2.2:语义空间距离矩阵计算:
设两幅图像的语义特征分别为标签集Ti′和Tj′,用Jaccard相似性系数度量两标签集之间的距离:
d ( T i ′ , T j ′ ) = | T i ′ ∩ T j ′ | | T i ′ ∪ T j ′ |
其中|Ti′∩Tj′|表示两标签集求交集后包含的标签个数,|Ti′∪Tj′|表示两标签集求并集后所包含的标签个数;
在完成图像库中所有图像间的语义空间距离计算后,用|V|×|V|矩阵Dtag存储图像库中任意两幅图像之间的语义空间距离:
Dtag(i,j)=d(Ti′,Tj′)
步骤2.3:地理空间距离矩阵计算:
设两幅图像的拍摄经度分别为longi和longj,拍摄纬度分别为lati和latj,由下面的公式近似计算两经纬度坐标geoi和geoj之间的地球距离:
d ( geo i , geo j ) = R e × 2 × arcsin sin 2 ( a 2 ) + cos ( lat i ) · cos ( lat j ) · sin 2 ( b 2 )
其中Re≈6378.137km为地球半径,a为两坐标间的纬度差,b为两坐标间的经度差,
在完成图像库中所有图像间的地理空间距离计算后,用|V|×|V|矩阵Dgeo存储图像库中任意两幅图像之间的地理空间距离:
Dgeo(i,j)=d(geoi,geoj)。
4.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于:步骤4中所述的计算超图的关联矩阵H,其具体实现过程为:定义一个|V|×|E|的矩阵H,其中|V|为超图中的顶点数,|E|为超图中的超边数,H中的每一行代表一个顶点,每一列代表一条超边,按照如下公式确定H中元素的值:
h ( i , j ) = 1 , i f v i ∈ e j 0 , o t h e r w i s e .
当一个顶点属于一条超边时,H对应位置为1,否则对应位置为0;
步骤4中所述的计算得到超图中每条超边的初始权重,其具体实现包括以下子步骤:
步骤4.1:根据关联矩阵H和视觉空间的距离矩阵Dvisual,计算视觉特征空间的亲和力矩阵Avisual,按照如下公式确定Avisual中元素的值:
A v i s u a l ( i , j ) = exp ( - D v i s u a l ( i , j ) D ‾ v i s u a l ) , i f h ( i , j ) = 1 0 , o t h e r w i s e .
其中表示距离矩阵Dvisual中所有元素的平均值;
步骤4.2:利用与步骤4.1相同的方法,根据关联矩阵H和语义空间的距离矩阵Dtag,以及地理空间的距离矩阵Dgeo,计算得到语义特征空间的亲和力矩阵Atag和地理特征空间的亲和力矩阵Ageo
步骤4.3:对三个亲和力矩阵分别按列求和,得到不同特征空间内对应超边的超边权重:
w k ( e j ) = Σ v i ∈ e j A k ( i , j )
其中Ak表示第k种特征空间的亲和力矩阵,wk表示对应特征空间内形成的超边的权重;
步骤4.4:将步骤4.3中计算得到的超边权重进行归一化处理,使所有超边的权重和为1,并按照与关联矩阵H中超边的对应关系,按序放入|E|×|E|对角矩阵W中对角线上的对应位置,得到初始的超边权重矩阵W。
5.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于:步骤6中所述的解决归一化框架中提出的同时优化问题,具体方法如下:
归一化框架中的目标函数对于向量f或矩阵W单独优化时为凸问题,因此利用交替优化方法解决该同时优化问题;
首先,固定超边权重矩阵W,求最优的f向量,目标函数变为:
arg min f { f T ( I - Θ ) f + μ ( f - y ) T ( f - y ) }
对目标函数关于f求偏导可得:
∂ ∂ f [ f T ( I - Θ ) f + μ ( f - y ) T ( f - y ) ] = 0
f = ( μ 1 + μ ) ( I - 1 1 + μ Θ ) - 1 y
之后,固定检索排序相似度向量f,求最优的矩阵W,目标函数变为:
arg min W { - f T ( D v - 1 / 2 HD e - 1 WH T D v - 1 / 2 ) f + ξ | | W | | 2 }
定义因为W和为对角矩阵,目标函数中的第一项可以写为:
- RD e - 1 WR T = - Σ i = 1 n e w i r i 2 D e - 1 ( i , i )
再定义f固定时的目标函数可以重写为:
m i n W w 1 g 1 + w 2 g 2 + ... + w n e g n e + ξ | | W | | 2
s . t . Σ i = 1 n w i = 1 , 0 ≤ w i ≤ 1
利用坐标下降法解决上述优化问题:
每次迭代过程,从超边权重矩阵W中任意选择两个权重值wj和wk进行更新,其它权重值固定不变;
采用下面的更新规则更新wj和wk
w j * = 0 , w k * = w j + w k , i f 2 ξ ( w j + w k ) + ( g k - g j ) ≤ 0 w j * = w j + w k , w k * = 0 , i f 2 ξ ( w j + w k ) + ( g j - g j ) ≤ 0 w j * = 2 ξ ( w j + w k ) + ( g k - g j ) 4 ξ , w k * = w j + w k - w j * o t h e r w i s e .
其中为更新后的权重值,利用上述更新规则迭代更新超边权重矩阵W中的任意两对超边权重值后,即可得到当f固定时,使目标函数最优的超边权重矩阵W。
6.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法,其特征在于:步骤6中所述的解决归一化框架中提出的同时优化问题,具体由以下子步骤来实现:
步骤6.1:根据初始的矩阵Θ,标签向量y和归一化参数μ,计算当初始超边权重矩阵W固定时,最优的向量f:
f = ( μ 1 + μ ) ( I - 1 1 + μ Θ ) - 1 y
步骤6.2:利用步骤6.1中计算得到的f和坐标下降法迭代更新规则,更新矩阵W中所有超边权重的值,以得到当检索排序相似度向量f固定时,最优的超边权重矩阵W;
步骤6.3:利用新得到的超边权重矩阵W,更新矩阵Θ,重新计算当超边权重矩阵W固定时,最优的检索排序相似度向量f;
步骤6.4:交替重复步骤6.2和步骤6.3,直至目标函数收敛,得到超边权重自学习结果W*和图像库的最优化检索排序相似度f*
CN201410373081.XA 2014-07-31 2014-07-31 基于权重自学习超图和多元信息融合的图像检索方法 Active CN104268140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410373081.XA CN104268140B (zh) 2014-07-31 2014-07-31 基于权重自学习超图和多元信息融合的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410373081.XA CN104268140B (zh) 2014-07-31 2014-07-31 基于权重自学习超图和多元信息融合的图像检索方法

Publications (2)

Publication Number Publication Date
CN104268140A CN104268140A (zh) 2015-01-07
CN104268140B true CN104268140B (zh) 2017-06-23

Family

ID=52159662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410373081.XA Active CN104268140B (zh) 2014-07-31 2014-07-31 基于权重自学习超图和多元信息融合的图像检索方法

Country Status (1)

Country Link
CN (1) CN104268140B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897378A (zh) * 2017-01-20 2017-06-27 浙江大学 一种面向三维cad模型的语义参数检索动态调节方法
CN107145826B (zh) * 2017-04-01 2020-05-08 浙江大学 基于双约束度量学习和样本重排序的行人再识别方法
CN108170729A (zh) * 2017-12-13 2018-06-15 西安电子科技大学 利用超图融合多模态信息的图像检索方法
CN108334953B (zh) * 2018-01-09 2021-08-03 浙江工业大学 一种基于权重更新的社交网络信任度学习方法
CN109272013B (zh) * 2018-08-03 2021-09-14 天津大学 基于学习的相似性度量方法
CN110895700A (zh) * 2018-09-12 2020-03-20 北京京东尚科信息技术有限公司 图像识别方法及系统
CN113313669B (zh) * 2021-04-23 2022-06-03 石家庄铁道大学 一种地铁隧道表面病害图像顶层语义特征增强方法
CN113723550B (zh) * 2021-09-06 2023-12-05 珠海横琴跨境说网络科技有限公司 基于超图的同时优化代价与误检率的异常检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN101799806A (zh) * 2009-02-06 2010-08-11 沈阳工大普日软件技术有限公司 基于多信息融合的胸部数字化x线图像检索系统
CN102080963A (zh) * 2009-11-27 2011-06-01 北京四维图新科技股份有限公司 建立兴趣点与对应兴趣点图像间的关联关系的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428969B2 (en) * 2005-01-19 2013-04-23 Atirix Medical Systems, Inc. System and method for tracking medical imaging quality

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920818A (zh) * 2006-09-14 2007-02-28 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101799806A (zh) * 2009-02-06 2010-08-11 沈阳工大普日软件技术有限公司 基于多信息融合的胸部数字化x线图像检索系统
CN101567051A (zh) * 2009-06-03 2009-10-28 复旦大学 一种基于特征点的图像配准方法
CN102080963A (zh) * 2009-11-27 2011-06-01 北京四维图新科技股份有限公司 建立兴趣点与对应兴趣点图像间的关联关系的方法和装置

Also Published As

Publication number Publication date
CN104268140A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN104268140B (zh) 基于权重自学习超图和多元信息融合的图像检索方法
CN106095893B (zh) 一种跨媒体检索方法
Van Horn et al. Building a bird recognition app and large scale dataset with citizen scientists: The fine print in fine-grained dataset collection
Torralba et al. Labelme: Online image annotation and applications
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN104200240B (zh) 一种基于内容自适应哈希编码的草图检索方法
CN106682697A (zh) 一种基于卷积神经网络的端到端物体检测方法
CN108288067A (zh) 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US20220222918A1 (en) Image retrieval method and apparatus, storage medium, and device
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN106446526A (zh) 电子病历实体关系抽取方法及装置
CN107562742A (zh) 一种图像数据处理方法及装置
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN106570141A (zh) 近似重复图像检测方法
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
Mohanty et al. A multi-modal approach towards mining social media data during natural disasters-A case study of Hurricane Irma
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
Yao et al. Sensing urban land-use patterns by integrating Google Tensorflow and scene-classification models
US8204889B2 (en) System, method, and computer-readable medium for seeking representative images in image set
CN106844518A (zh) 一种基于子空间学习的不完整跨模态检索方法
Ni et al. Toxic gas dispersion prediction for point source emission using deep learning method
Cui et al. Semantic annotation in earth observation based on active learning
Kordopatis-Zilos et al. Geotagging social media content with a refined language modelling approach
Chen et al. Engineering deep representations for modeling aesthetic perception
Xinhan Intelligent analysis of classroom student state based on neural network algorithm and emotional feature recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant