CN104268140B

CN104268140B - 基于权重自学习超图和多元信息融合的图像检索方法

Info

Publication number: CN104268140B
Application number: CN201410373081.XA
Authority: CN
Inventors: 于慧敏; 谢奕; 郑伟伟; 汪东旭
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2017-06-23
Anticipated expiration: 2034-07-31
Also published as: CN104268140A

Abstract

本发明公开了一种基于权重自学习超图和多元信息融合的图像检索方法，首先，提取图像库中图像的多元特征并构建不同特征空间的距离矩阵；之后利用图像间的距离关系将图像数据库用超图结构表示，并计算超图的各项参数；然后针对特定的检索示例图像，根据图像库中图像与示例图像间的语义空间距离计算初始标签向量，用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量的一致性，以及超图中超边权重的自学习性，并用归一化参数调节上述三项的影响；最后用一种交替优化算法求解归一化框架中的最优化问题，在完成对超边权重自学习更新的同时得到针对示例图像的最优化检索排序结果。

Description

基于权重自学习超图和多元信息融合的图像检索方法

技术领域

本发明涉及一种计算机技术领域的图像检索排序算法，具体为一种基于权重自学习超图和多元信息融合的图像检索方法。

背景技术

近年来，随着互联网技术和多媒体技术的迅速发展，网络多媒体数据在因特网中呈现爆炸式增长，社交网站和多媒体分享网站每天都有数以亿计的网络图片被上传和分享。海量规模的网络图像在提供大量信息的同时，也成为图像数据有效组织和管理的难点所在。因此如何对急速增长的网络图像数据进行高效而准确的检索以返回用户感兴趣的结果，成为多媒体领域众多实际应用的核心问题。

传统的图像检索方法，大都只基于图像的底层特征，对图像进行视觉特征提取后，用图像的视觉特征相似度进行检索排序。然而，一个严峻的问题是图像底层的视觉特征与高层语义之间存在着语义鸿沟，用户对图像的理解或检索意图无法用图像的底层视觉特征来完全表达。近几年出现的网络图片中的用户生成标签在一定程度上解决了这种问题，目前大多数社交媒体网站或者网络相册网站都允许用户为网站上的图片添加用户标注信息来从语义层面描述图片，例如Flickr网。图像检索技术也因此由仅基于底层视觉信息向同时基于底层视觉信息和高层语义信息的方向发展。Liu等人于2009年发表在《IEEEInternational Conference on Multimedia and Expo》(国际电子电气工程师协会多媒体展会)上的文章“Tag quality improvement for social images”中就根据图像和用户生成标签之间的相关性提出了一种相关性排序算法，该方法同时利用了图像的底层视觉信息和高层语义信息。

虽然同时利用图像视觉信息和语义信息为网络图像检索提供了重要手段，然而现有的方法普遍存在如下两个问题：首先网络图像的标签信息由各式各样的用户提供，其中存在很多与被标注图像完全不相干的“噪声”标签，而且用户生成标签中也经常会出现错误的拼写，这使得同时利用视觉和语义信息的图像检索算法在实际应用在并不能达到令人满意的效果。其次，现有算法大都只是将视觉信息和语义信息分开处理后再对结果进行融合，并没有同时利用两种信息去挖掘图像间的深层次联系。

随着以智能手机为主的移动设备的兴起，移动终端已经成为人们访问社交网站和多媒体网站的主要平台。移动终端拍摄和上传的图片被加上了地理标注信息，地理标注信息反映了图片被拍摄或上传的地理位置。同一地理位置拍摄的图片在语义上也存在着某种关联性，合理利用这种地理标注信息可以作为传统视觉信息或语义信息的有效补充。因此，本发明对视觉信息、语义信息以及地理标注信息这三种信息进行多元融合分析，在解决“语义鸿沟”问题的同时，为语义准确度存在不确定性的用户标签提供了有效的补充。

图模型因为能够有效利用图像数据间的结构化信息，综合考虑图像在不同特征空间内的关联性，逐渐成为图像检索领域的一个热点。Zhou等人于2006年发表在《NeuralInformation Processing Systems Conference》(神经信息处理系统会议)上的“Learningwith hypergraphs:Clustering,Classification,and Embedding”一文中提出了一种基于超图模型的数据分析方法，与简单图模型只能考虑数据对之间的成对关联性信息不同，超图模型能够结合多元信息对数据进行高层结构表示，从而对数据间的关联性进行深层次挖掘。但此方法在构建超图结构时，为超图中的每条超边分配的权重固定不变，因此超图结构无法根据具体的分析对象做出相应的调整。

为了深度挖掘图像数据在视觉空间、语义空间和地理空间内的多元关联性，并根据具体检索示例图像做出自适应调整，本发明利用权重自学习超图模型构建图像数据库中图像间的高层关联结构，在完成图像检索排序的同时，将超图结构内的超边权重自学习地更新为相对最优，从而提高图像检索方法的鲁棒性和准确性。

发明内容

本发明的目的为了解决现有技术中的问题，提供一种基于权重自学习超图和多元信息融合的图像检索方法，利用权重自学习超图结构对网络图像的视觉信息、语义信息和地理标注信息进行多元融合分析，从而提升现有图像检索方法的鲁棒性和准确性。

本发明采用以下技术方案：一种基于权重自学习超图和多元信息融合的图像检索方法，包括以下步骤：

步骤1：提取图像多元特征：对图像库中的每一幅网络图片，分别提取其视觉空间特征、语义空间特征、地理空间特征；

步骤2：构建距离矩阵：根据三种不同特征空间内的特征提取结果，应用不同空间的距离度量方式，分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离，为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵；

步骤3：构建超图超边：将图像库中每一幅图片作为超图的一个顶点，在三种不同特征空间内分别为每个顶点寻找其K近邻顶点，构成三个包含K+1顶点的集合，将每个顶点集合作为超图的一个超边，共生成3×|V|条超边，|V|为顶点个数；

步骤4：计算超图关联矩阵和超边初始权重：利用超图中超边与顶点的关系计算超图的关联矩阵H，再利用关联矩阵H和三种特征空间的距离矩阵计算得到超图中每条超边的初始权重，得到包含所有超边权重的对角矩阵W；

步骤5：计算超图的顶点度矩阵、超边度矩阵和拉普拉斯矩阵：

计算超图中每个顶点的度d(v)和每条超边的度δ(e)：

d(v)＝∑_e∈Ew(e)h(v,e)

δ(e)＝∑_v∈Vh(v,e)

其中h(v,e)为关联矩阵H中顶点v和超边e对应的值，而w(e)为超边e的权重；本质上，顶点的度为关联矩阵H对应行的加权求和，超边的度为关联矩阵H对应列的求和；

之后定义包含超图中所有顶点度d(v)的对角矩阵D_v为顶点度矩阵，包含超图中所有超边度δ(e)的对角矩阵D_e为超边度矩阵；

最后利用超图的关联矩阵H、顶点度矩阵D_v、超边度矩阵D_e、超边权重矩阵W共同计算得到超图的拉普拉斯矩阵：

定义矩阵超图的拉普拉斯矩阵定义为：Δ＝I-Θ，其中I为|V|×|V|的单位矩阵；

步骤6：同时进行超边权重自学习更新和相关性检索排序：

针对特定示例图像，根据图像库中每幅图像与示例图像之间的语义空间距离，得到图像库中每幅图像的初始标签，并构成整个图像库的|V|×1维初始标签向量y；

利用一个归一化框架融合超图结构中图像之间的关联性、图像排序结果与初始标签向量y的一致性，以及超图中超边权重的自学习性，该归一化框架定义为：

其中，

用矩阵形式来表示可以写为Ω(f)＝f^TΔf，f为需要学习得到的检索排序相似度向量，μ和ξ为两个正的归一化参数，n_e为超图中超边的总数；

超边权重自学习更新和相关性检索排序可以视为同时寻找满足上述归一化框架的最优的超边权重矩阵W和检索排序相似度向量f，即解决归一化框架中提出的同时优化问题；

步骤7：返回检索结果：返回归一化框架中最优的检索相似度向量f^*，按照f^*中相似度大小对图像库中的图像进行排序，得到最终的检索结果。

进一步地，步骤1中所述的视觉空间特征、语义空间特征和地理空间特征，其具体提取过程如下：

步骤1.1：视觉空间特征提取方法如下：

采用Gist特征来描述图像的视觉特性，对图像用4尺度8方向的Gabor滤波器组进行滤波，提取图像不同频率和方向上的信息；

将滤波后的图像组划分成4×4规则网格，对每个网格内的滤波结果值取均值，并将不同尺度、不同方向的结果进行级联，得到一个512维的Gist特征向量作为图像的视觉空间特征；

步骤1.2：语义空间特征提取方法如下：

对每幅图像由用户生成的原始标签集T_i＝{t₁,t₂,…,t_m}进行预处理，滤除存在拼写错误或者不具备语义信息的标签；

对图像库中所有出现过的标签进行出现频率统计，将在整个图像库中出现频率小于等于3次的标签删除，构成图像库的特异性标签字典；

对每幅图像的标签集与特异性标签字典求交集，得到每幅图像最终的标签集T_i′，用该标签集作为图像的语义空间特征；

步骤1.3：地理空间特征提取方法如下：

对每幅图像的地理标注信息进行解读，读取图像库中每幅图像的拍摄地点坐标，保留该地理坐标的经度和纬度作为图像的地理空间特征。

进一步地，步骤2中所述的应用不同空间的距离度量方式，分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离，为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵，其具体实现步骤如下：

步骤2.1：视觉空间距离矩阵计算：

设两幅图像的视觉特征向量分别为Gist_i和Gist_j，用欧式距离度量两视觉特征向量之间的距离：

设V表示图像库集合，|V|表示图像库中的图像数量，用|V|×|V|矩阵D_visual存储图像库中任意两幅图像之间的视觉空间距离：

D_visual(i,j)＝d(Gⁱst_i,Gist_j)

步骤2.2：语义空间距离矩阵计算：

设两幅图像的语义特征分别为标签集T_i′和T_j′，用Jaccard相似性系数度量两标签集之间的距离：

其中|T_i′∩T_j′|表示两标签集求交集后包含的标签个数，|T_i′∪T_j′|表示两标签集求并集后所包含的标签个数；

在完成图像库中所有图像间的语义空间距离计算后，用|V|×|V|矩阵D_tag存储图像库中任意两幅图像之间的语义空间距离：

D_tag(i,j)＝d(T_i′,T_j′)

步骤2.3：地理空间距离矩阵计算：

设两幅图像的拍摄经度分别为long_i和long_j，拍摄纬度分别为lat_i和lat_j，由下面的公式近似计算两经纬度坐标geo_i和geo_j之间的地球距离：

其中R_e≈6378.137km为地球半径，a为两坐标间的纬度差，b为两坐标间的经度差。

在完成图像库中所有图像间的地理空间距离计算后，用|V|×|V|矩阵D_geo存储图像库中任意两幅图像之间的地理空间距离：

D_geo(i,j)＝d(geo_i,geo_j)

进一步地，步骤4中所述的计算超图的关联矩阵H，其具体实现过程为：定义一个|V|×|E|的矩阵H，其中|V|为超图中的顶点数，|E|为超图中的超边数，H中的每一行代表一个顶点，每一列代表一条超边，根据步骤3中的确定的顶点超边关系，按照如下公式确定H中元素的值：

当一个顶点属于一条超边时，H对应位置为1，否则对应位置为0；

步骤4中所述的计算得到超图中每条超边的初始权重，其具体实现包括以下子步骤：

步骤4.1：根据关联矩阵H和视觉空间的距离矩阵D_visual，计算视觉特征空间的亲和力矩阵A_visual，按照如下公式确定A_visual中元素的值：

其中表示距离矩阵D_visual中所有元素的平均值。

步骤4.2：利用与步骤4.1相同的方法，根据关联矩阵H和语义空间的距离矩阵D_tag，以及地理空间的距离矩阵D_geo，计算得到语义特征空间的亲和力矩阵A_tag和地理特征空间的亲和力矩阵A_geo

步骤4.3：对三个亲和力矩阵分别按列求和，得到不同特征空间内对应超边的超边权重：

其中A_k表示第k种特征空间的亲和力矩阵，w_k表示对应特征空间内形成的超边的权重；

步骤4.4：将步骤4.3中计算得到的超边权重进行归一化处理，使所有超边的权重和为1，并按照与关联矩阵H中超边的对应关系，按序放入|E|×|E|对角矩阵W中对角线上的对应位置，得到初始的超边权重矩阵W。

进一步地，步骤6中所述的解决归一化框架中提出的同时优化问题，具体方法如下：

归一化框架中的目标函数对于向量f或矩阵W单独优化时为凸问题，因此利用交替优化方法解决该同时优化问题；

首先，固定超边权重矩阵W，求最优的f向量，目标函数变为：

对目标函数关于f求偏导可得：

之后，固定检索排序相似度向量f，求最优的矩阵W，目标函数变为：

定义因为W和为对角矩阵，目标函数中的第一项可以写为：

再定义f固定时的目标函数可以重写为：

利用坐标下降法解决上述优化问题：

每次迭代过程，从超边权重矩阵W中任意选择两个权重值w_j和w_k进行更新，其它权重值固定不变；

因为需要保证两权重值的和w_j+w_k在迭代更新后不应有变化，故采用下面的更新规则更新w_j和w_k：

其中和为更新后的权重值，利用上述更新规则迭代更新超边权重矩阵W中的任意两对超边权重值后，即可得到当f固定时，使目标函数最优的超边权重矩阵W。

进一步地，步骤6中所述的解决归一化框架中提出的同时优化问题，具体由以下子步骤来实现：

步骤6.1：根据初始的矩阵Θ，标签向量y和归一化参数μ，计算当初始超边权重矩阵W固定时，最优的向量f：

步骤6.2：利用步骤6.1中计算得到的f和坐标下降法迭代更新规则，更新矩阵W中所有超边权重的值，以得到当检索排序相似度向量f固定时，最优的超边权重矩阵W；

步骤6.3：利用新得到的超边权重矩阵W，更新矩阵Θ，重新计算当超边权重矩阵W固定时，最优的检索排序相似度向量f；

步骤6.4：交替重复步骤6.2和步骤6.3，直至目标函数收敛，得到超边权重自学习结果W^*和图像库的最优化检索排序相似度f^*。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明将移动多媒体时代越来越盛行的图像地理标注信息融合进网络图像检索排序框架，为传统技术提供了很好的信息补充；

2)本发明采用超图结构融合图像的多元信息，从视觉空间、语义空间和地理空间综合挖掘图像库中各图像间的高层次相关性，从而能够获得更加准确，更为有效的图像检索效果；

3)与现有技术相比，本发明针对特定示例图片，对超图结构中的超边权重进行自学习，使与示例图片关联性更强的超边获得更大的权重，大大提升了该方法的鲁棒性和自适应性。

附图说明

图1为本发明的整体流程示意图。

具体实施方式

下面结合具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例对某一带有用户生成标签和地理标注信息的网络图像库进行处理，在本发明的实施例中，该方法包括以下步骤：

在本实施例中，步骤1中所述的视觉空间特征、语义空间特征和地理空间特征，其具体提取过程如下：

步骤1.1：视觉空间特征提取方法如下：

步骤1.2：语义空间特征提取方法如下：

步骤1.3：地理空间特征提取方法如下：

在本实施例中，步骤2中所述的应用不同空间的距离度量方式，分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离，为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵，其具体实现步骤如下：

步骤2.1：视觉空间距离矩阵计算：

D_visual(i,j)＝d(Gist_i,Gist_j)

步骤2.2：语义空间距离矩阵计算：

D_tag(i,j)＝d(T_i′,T_j′)

步骤2.3：地理空间距离矩阵计算：

D_geo(i,j)＝d(geo_i,geo_j)

步骤3：构建超图超边：将图像库中每一幅图片作为超图的一个顶点，在三种不同特征空间内分别为每个顶点寻找其K近邻顶点，构成三个包含K+1顶点的集合，将每个顶点集合作为超图的一个超边，共生成3×|V|条超边，|V|为顶点个数，在本实施例中取K＝15；

在本实施例中，步骤4中所述的计算超图的关联矩阵H，其具体实现过程为：定义一个|V|×|E|的矩阵H，其中|V|为超图中的顶点数，|E|为超图中的超边数，H中的每一行代表一个顶点，每一列代表一条超边，根据步骤3中的确定的顶点超边关系，按照如下公式确定H中元素的值：

其中表示距离矩阵D_visual中所有元素的平均值。

计算超图中每个顶点的度d(v)和每条超边的度δ(e)：

d(v)＝∑_e∈Ew(e)h(v,e)

δ(e)＝∑_v∈Vh(v,e)

步骤6：同时进行超边权重自学习更新和相关性检索排序：

其中，

用矩阵形式来表示可以写为Ω(f)＝f^TΔf，f为需要学习得到的检索排序相似度向量，μ和ξ为两个正的归一化参数，在本实例中取μ＝10和ξ＝1，n_e为超图中超边的总数；

在本实施例中，步骤6中所述的解决归一化框架中提出的同时优化问题，具体方法如下：

对目标函数关于f求偏导可得：

定义因为W和为对角矩阵，目标函数中的第一项可以写为：

再定义f固定时的目标函数可以重写为：

利用坐标下降法解决上述优化问题：

在本实施例中，步骤6中所述的解决归一化框架中提出的同时优化问题，具体由以下子步骤来实现：

Claims

1.一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于，包括以下步骤：

计算超图中每个顶点的度d(v)和每条超边的度δ(e)：

d(v)＝Σ_e∈Ew(e)h(v,e)

δ(e)＝Σ_v∈Vh(v,e)

步骤6：同时进行超边权重自学习更新和相关性检索排序：

\arg \underset{f, W}{m i n} {Ω (f) + μ | | f - y | |^{2} + ξ | | W | |^{2}}

\begin{matrix} s . t . & Σ_{i = 1}^{n} w_{i} = 1, & 0 \leq w_{i} \leq 1 \end{matrix}

其中，

超边权重自学习更新和相关性检索排序视为同时寻找满足上述归一化框架的最优的超边权重矩阵W和检索排序相似度向量f，即解决归一化框架中提出的同时优化问题；

2.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于：步骤1中所述的视觉空间特征、语义空间特征和地理空间特征，其具体提取过程如下：

步骤1.1：视觉空间特征提取方法如下：

步骤1.2：语义空间特征提取方法如下：

步骤1.3：地理空间特征提取方法如下：

3.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于：步骤2中所述的应用不同空间的距离度量方式，分别计算图像库中任意两幅图像在视觉空间、语义空间、地理空间之间的距离，为整个图像库构建视觉空间距离矩阵、语义空间距离矩阵、地理空间距离矩阵，其具体实现步骤如下：

步骤2.1：视觉空间距离矩阵计算：

d ({Gist}_{i}, {Gist}_{j}) = \sqrt{Σ_{k = 1}^{512} {({Gist}_{i} (k) - {Gist}_{j} (k))}^{2}}

D_visual(i,j)＝d(Gist_i,Gist_j)

步骤2.2：语义空间距离矩阵计算：

d (T_{i}^{'}, T_{j}^{'}) = \frac{| T_{i}^{'} \cap T_{j}^{'} |}{| T_{i}^{'} \cup T_{j}^{'} |}

D_tag(i,j)＝d(T_i′,T_j′)

步骤2.3：地理空间距离矩阵计算：

d ({geo}_{i}, {geo}_{j}) = R_{e} \times 2 \times \arcsin \sqrt{\sin^{2} (\frac{a}{2}) + \cos ({lat}_{i}) \cdot \cos ({lat}_{j}) \cdot \sin^{2} (\frac{b}{2})}

其中R_e≈6378.137km为地球半径，a为两坐标间的纬度差，b为两坐标间的经度差，

D_geo(i,j)＝d(geo_i,geo_j)。

4.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于：步骤4中所述的计算超图的关联矩阵H，其具体实现过程为：定义一个|V|×|E|的矩阵H，其中|V|为超图中的顶点数，|E|为超图中的超边数，H中的每一行代表一个顶点，每一列代表一条超边，按照如下公式确定H中元素的值：

h (i, j) = \{\begin{matrix} 1, & \begin{matrix} i f & v_{i} &Element; e_{j} \end{matrix} \\ 0, & o t h e r w i s e \end{matrix} .

A_{v i s u a l} (i, j) = \{\begin{matrix} \exp (- \frac{D_{v i s u a l} (i, j)}{{\overset{&OverBar;}{D}}_{v i s u a l}}), & \begin{matrix} i f & h (i, j) = 1 \end{matrix} \\ 0, & o t h e r w i s e \end{matrix} .

其中表示距离矩阵D_visual中所有元素的平均值；

w_{k} (e_{j}) = \underset{v_{i} &Element; e_{j}}{Σ} A_{k} (i, j)

5.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于：步骤6中所述的解决归一化框架中提出的同时优化问题，具体方法如下：

\arg \min_{f} {f^{T} (I - Θ) f + μ {(f - y)}^{T} (f - y)}

对目标函数关于f求偏导可得：

\frac{\partial}{\partial f} [f^{T} (I - Θ) f + μ {(f - y)}^{T} (f - y)] = 0

f = (\frac{μ}{1 + μ}) {(I - \frac{1}{1 + μ} Θ)}^{- 1} y

\arg \min_{W} {- f^{T} (D_{v}^{- 1 / 2} {HD}_{e}^{- 1} {WH}^{T} D_{v}^{- 1 / 2}) f + ξ | | W | |^{2}}

定义因为W和为对角矩阵，目标函数中的第一项可以写为：

- {RD}_{e}^{- 1} {WR}^{T} = - Σ_{i = 1}^{n_{e}} w_{i} r_{i}^{2} D_{e}^{- 1} (i, i)

再定义f固定时的目标函数可以重写为：

\underset{W}{m i n} w_{1} g_{1} + w_{2} g_{2} + ... + w_{n_{e}} g_{n_{e}} + ξ | | W | |^{2}

\begin{matrix} s . t . & Σ_{i = 1}^{n} w_{i} = 1, & 0 \leq w_{i} \leq 1 \end{matrix}

利用坐标下降法解决上述优化问题：

采用下面的更新规则更新w_j和w_k：

\{\begin{matrix} w_{j}^{*} = 0, w_{k}^{*} = w_{j} + w_{k}, & \begin{matrix} i f & 2 ξ (w_{j} + w_{k}) + (g_{k} - g_{j}) \leq 0 \end{matrix} \\ w_{j}^{*} = w_{j} + w_{k}, w_{k}^{*} = 0, & \begin{matrix} i f & 2 ξ (w_{j} + w_{k}) + (g_{j} - g_{j}) \leq 0 \end{matrix} \\ w_{j}^{*} = \frac{2 ξ (w_{j} + w_{k}) + (g_{k} - g_{j})}{4 ξ}, w_{k}^{*} = w_{j} + w_{k} - w_{j}^{*} & o t h e r w i s e \end{matrix} .

6.根据权利要求1所述的一种基于权重自学习超图和多元信息融合的图像检索方法，其特征在于：步骤6中所述的解决归一化框架中提出的同时优化问题，具体由以下子步骤来实现：

f = (\frac{μ}{1 + μ}) {(I - \frac{1}{1 + μ} Θ)}^{- 1} y