CN104899253B

CN104899253B - 面向社会图像的跨模态图像-标签相关度学习方法

Info

Publication number: CN104899253B
Application number: CN201510243776.0A
Authority: CN
Inventors: 张玥杰; 程勇; 刘志鑫; 金城; 张滨
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2015-05-13
Filing date: 2015-05-13
Publication date: 2018-06-26
Anticipated expiration: 2035-05-13
Also published as: CN104899253A

Abstract

本发明属于跨媒体相关性学习技术领域，具体为面向社会图像的跨模态图像‑标签相关度学习方法。本发明包括三个主要算法：多模态特征融合、双向相关度度量、跨模态相关度融合；本发明以超图为基本模型对整个社会图像数据集来进行描述，并分别将图像和标签映射为超图节点来进行处理，得到针对图像的相关度和针对标签的相关度，进而通过跨模态融合方法来将两种不同的相关度进行融合得到一种更好的相关度。较之于传统方法，本方法准确性高，适应性强。这对于在大规模弱标注的社会图像基础上，考虑多模态语义信息而进行高效社会图像检索具有重要的意义，能够提高检索相关性，增强用户体验，在跨媒体信息检索领域具有广泛的应用价值。

Description

面向社会图像的跨模态图像-标签相关度学习方法

技术领域

本发明属于跨媒体相关性学习技术领域，具体涉及面向社会图像的跨模态图像-标签相关度学习方法。

技术背景

随着web 2.0技术的发展，特别是一些社交网站的流行，例如Flickr。普通用户更容易也更加愿意在互联网上分享图片资源。如何更好地处理这些海量的社会图像数据，对其复杂的结构进行有效地组织和管理，进而促进针对这些图像的跨媒体检索已经成为一个重要的研究热点[1,2,3,4,5,6]。通常来说，每一幅社会图像都会被标注为一系列的标签，而这些标签是由普通的用户所提供的，而这些标签通常会带有用户主观的观点和倾向[7]。然而，由于语义鸿沟的问题，在图像的视觉内容与相应的标签之间可能存在着巨大的不确定性，并且由于歧义，不完整以及过分主观性等等问题，标签的质量也不能令人满意，存在很多的噪音以及拼写错误，而且很多的标签是不相关的。根据现有的调查显示，大概只有50％左右的标签是与图像内容是相关的。因此，跨模态图像与标签的相关度学习已经成为支持跨媒体检索等应用的一项十分重要的研究问题。

为了实现跨模态图像与标签之间的相关度学习，应该同时解决三个相互关联的问题：

1、通过对社会标注图像的多模态分析来发现有价值的多模态特征从而对视觉图像和文本标注来进行更好的描述与刻画。

2、针对图像相关度与标签相关度分别进行多模态分析从而得到相应的相关度度量方法和客观标准。

3、通过多模态相关度融合来得到更好的跨模态相关度，衡量图像的视觉内容以及标注中的语义标签的关系。

为了解决第一个问题，充分挖掘和分析社会标注图像的视觉内容以及相关标注所蕴含的语义信息变得十分重要，通过这样的分析进而得到能够更好地对标注图像进行描述的多模态特征。针对第二个问题，通过开发健壮的算法，针对图像相关度与标签相关度分别进行考虑，从而使得得到的相关度准确率高而且有较低的计算成本。最后一个问题，关键在于开发新的算法来分析多模态的标签相关度与图像相关度之间的关联，进而对两种相关度进行融合以得到更好的相关度。

当前已有一些研究者针对图像和标签的相关度学习提出了不同的方法，从建模的角度来看，这些方法大致可以分为两类，第一类是图模型的方法，第二类是优化方法。

(1)图模型方法

所谓的图模型方法即是把整个标注图像数据集看成是一个图，图中的节点可以表示图像本身，也可以表示标签[8,9,10,11,12,13,14,15]。而图节点之间的连接表示图像之间的相似度或者标签之间的相似度，进而可以利用一些针对图模型的算法来计算图像与标签之间的相关度。

在此方法基础上，Li通过对目标图像做k近邻后，将近邻图像所包含的所有标签聚合起来为目标图像中所包含的标签来进行投票，通过投票的数量来计算目标图像与相应标签之间的相关度，对于一个标签来说，其所得到的票数越多，其与图像的相关性越大。其中图像与图像之间的相似度是通过计算底层视觉特征向量的相似度来得到的[9]。后来Li又拓展了他的工作，考虑了不同种类的底层视觉特征的影响[15]。在Liu的工作中，则把标签看作是图像中的节点，而边的权重则表示标签之间的相似度，通过谷歌距离以及示例距离来计算[8]。

(2)优化方法

现有的优化方法通常会把整个标注图像数据集映射为一个二维矩阵的形式，矩阵的行与列分别表示图像和标签，而矩阵中的值则表示对应的图像和标签的相关度，进而可以通过构造不同的代价函数来优化此矩阵进而得到最终的相关度[16,17,18,19,20]。

在此方法基础上，Zhu在其工作中把用户提供的矩阵D分解为一个低秩的矩阵A,和稀疏错误矩阵E[12],而优化的原则主要考虑几个方面，第一，视觉相似的图片对应的标签向量也比较相似，第二，内容连续性，即两个标签的共现频率需要在矩阵中有所体现，如果两个标签在图像集中经常共现，相应地在矩阵中的两个标签的共现频率也就比较高，另外两个约束是矩阵A是低秩而且矩阵E是稀疏的。而在zhuang的工作中，则从两个角度来约束矩阵的学习[20]，第一个是从图像的角度，两个图像越相似，对应矩阵中的两个行向量也就越相似。第二个是从标签的角度，两个标签也越相似，对应的矩阵中两个列向量也就越相似，其中图像与图像之间的相似度通过计算视觉向量的相似度来得到，而标签与标签之间的相似度则通过谷歌距离来计算。另外，在Gao的工作中把整个数据集看作一个超图，而利用不同的图像在超图上的关系作为一个正则项加入到了优化函数当中[18]。

通过以上分析可以看出，当前的方法在计算图像与标签的相关度时都取得了一些进展，然而，以上所有方法仍未充分考虑以下三个方面所带来的影响：

(1)多模态特征表示与多模态信息挖掘，大多数现有的图像-标签相关度学习方法通常只关注于传统的视觉特征表示方法或者只是很简单地融合了有限的标注信息。这些方法忽视了多模态特征中的丰富信息对计算图像与标签之间的相关度的价值，因此，找到合适的算法来充分挖掘构建多模态特征表示方法变得十分的必要[21,22,23]。

(2)多模态相关度评估，现有的方法在计算相关度的时候通常只考虑了单模态的信息，要么忽略了图像本身的视觉信息，要么忽略了图像所包含的语义信息。而没有充分利用多模态的信息来计算图像与标签之间的相关度，而丰富的多模态信息加以利用来计算图像与标签之间的相关度。

(3)跨模态相关度融合，现有的方法在计算相关度的时候通常只考虑单向的相关度，即要么只考虑了图像相对于标签的相关度，要么只考虑了标签相对于图像的相关度。而忽视了这两种相关度之间的关系，因此，找到合适的融合算法来对这两种相关度进行融合得到双向跨模态的相关度变得十分的重要。

因此，非常有必要借鉴当前已有的相关成熟技术，同时从各方面考虑以上问题，更加全面地分析与计算图像和标签之间的相关度。本发明就是由此激发，从局部到整体，设计了一种新颖的技术框架(包括三个主要算法)，使用相关的图像/文本特征抽取方法，多模态特征融合机制，结合具有问题针对性的图模型算法，建立有效的图像-标签学习计算方法，并且利用排序聚合的方法来进行跨模态的融合，最终为跨媒体图像检索性能进行改进。

发明内容

本发明的目的在于提出一种针对社会图像的跨模态图像-标签相关度学习方法，以提高跨媒体社会图像检索性能。

本发明提出的针对社会图像的跨模态图像-标签相关度学习方法，可在大规模的社会标注图像中，更加精确和有效地学习图像及其标注之间的相关度。本发明以超图为基本模型对整个标注数据集进行描述，并分别将图像和标签映射为超图节点进行处理，此得到针对图像的相关度和针对标签的相关度，进而通过跨模态融合的方法将两种不同的相关度进行融合，得到一种更好的相关度。本发明方法主要包括以下三方面：

(1)多模态特征融合(Multimodal Feature Fusion)——首先针对原始的社会图像及其标注，分别进行特征的提取。并且为了更好地进行多模态特征的融合，使用类似的方法来进行特征提取；然后针对图像和文本的原始特征，通过挖掘不同模态之间特征的相关性，将异构的特征映射到同构子空间中，进行融合，从而得到融合了多模态信息的特征；

(2)双向相关度度量(Bi-directional Relevance Measurement)——将标注图像数据集合用超图来进行表示，利用在超图上的随机游走算法来度量图像与标签之间的相关度，并且分别从图像作为节点和标签作为节点两个角度，对图像相关度和标签相关度分别进行计算。其中，图像相关度考虑的是给定标签，图像相对于标签的相关度；而标签相关度则是指给定图像，标签相对于图像的相关度；

(3)跨模态相关度融合(Cross-modal Relevance Fusion)——挖掘图像相关度与标签相关度之间的关系，通过构建恰当的融合机制将融合问题转换为优化问题，并对此优化问题求解，以得到更好的相关度，其融合了不同相关度的特点，可以适应不同的应用(图像检索，标签精炼)等等。

较之于当前已有的相关图像与标签相关度学习方法而言，本发明所提出的方法在应用中存在着两大优势，即准确性高，适应性强。第一，准确度高，主要体现在：本方法一方面对图像和文本的特征进行设计并利用算法进行合并从而得到融合了不同信息的多模态特征来进行处理，另外本方法也考虑了不同相关度之间的关系，通过融合不同的相关度能够得到效果更好的相关度。第二，适应性强，因为在本方法中对不同的相关度分别进行了考虑，即图像相关度与标签相关度，通常来说，一种相关度只适用于一种应用，而在本方法中对两种相关度进行融合，使得最终得到的相关度能够适用于不同的应用场合，比如图像检索，图像识别等等。

本发明提供的面向社会图像的跨模态图像-标签相关度学习方法，具体步骤如下：

(1)数据预处理。从多媒体数据集中采集不同模态的数据图像，得到图像和图像标注数据，整理图像标注数据集中不常出现或者无用的标注词；

(2)提取多模态主题特征。提取图像的底层视觉特征与图像标注的语义特征，并且利用主题模型分别对视觉特征与语义特征进行处理，得到背后隐藏的视觉主题特征与语义主题特征；

(3)多模态特征融合。采用典型相关性分析算法，分析得到图像视觉主题特征和语义主题特征的典型相关性，并将这两种主题特征向量映射到同纬度下的同构子空间中，构建跨模态融合特征，实现媒体数据不同模态信息的统一表示；

(4)双向相关度度量。利用在超图上的随机游走算法，分别计算图像相对于标签的相关度(图像相关度)和标签相对于图像的相关度(标签相关度)，从两个角度来度量图像与相关标签之间的关系；

(5)跨模态相关度融合。将得到的两种相关度用相应的置信度矩阵进行表示，并且通过跨模态融合优化算法，得到一种新的跨模态的图像-标签相关度；

(6)图像排序与标签排序。将新的跨模态图像-标签相关度应用到图像排序与标签排序中，其中，图像排序考虑的是给定标签，根据不同图像相对于该标签的相关度，对所有图像进行排序；标签排序考虑的是给定图像，根据不同标签相对于该图像的相关度，对所有标签进行排序。

下面对以上各步骤进行详细的描述。

(1)数据预处理

该步骤主要对采集不同模态的数据图像进行初步的预处理，具体来说，因为图像所包含的标注当中包含了一些噪音，这些噪音是因为用户标注的随意性造成的，因此可以通过词频过滤的方式，将词频低于某个阈值的词过滤掉从而得到新的词典。另外，对于图像来说，为了第二步的主题特征提取，需要将每一幅社会图像看作是一个由视觉词汇构建成的视觉文档，通常可以利用视觉词袋模型来进行提取。

(2)提取多模态主题特征

多模态信息对于社会图像内容来说是一种非常重要的表达方式，也就是说，把图像的视觉信息与语义描述结合起来，因此，为了更好地计算视觉图像与文本标注之间的跨模态相关度，更加准确地提取出有代表性的多模态特征变得十分的重要，而多模态特征表示能够更好的探索图像的视觉属性与语义表达特征之间的关联。

潜在狄利克雷分配(LDA)算法是一个针对离散数据的生成式概率模型，该算法在[Blei 2003]中首次提出[24]，并且后来受到了图像/文本研究领域的高度关注，LDA用一组概率分布来表示每篇文档，而文档中的每个词都是从一个单独的主题所生成的。LDA的优势在于其考虑了文档的内在统计结构比如不同词在整个文档集合中的共现信息等。LDA假设每篇文档中的每一个词汇都是从一个单独的主题所生成的，而该主题是由一个在所有主题上的狄利克雷分布所生成的。LDA将每一篇文档都表示成一组在主题集合上的概率分布向量，而这些向量将被用来表示社会图像的视觉特征以及文本特征。

(3)多模态特征融合

在分别得到图像的视觉特征与语义特征之后，利用典型相关性分析算法(即Canonical Correlation Analysis，CCA算法)来对以上的两种特征加以融合，CCA算法是一个经典的统计方法，主要被应用在对于不同数据资源进行多角度和多尺度分析融合[26]，其基本的原理是对不同类型的数据找到能够维持最大数据相关性的线性投射，因此CCA对于多模态特征融合来说是一个更好的解决方案。将步骤(2)中得到的图像主题特征向量拼成一个视觉主题特征矩阵将语义特征向量拼成一个语义特征矩阵其中数据集中共n个样本图像。令为视觉特征空间的基向量矩阵，为语义特征空间的基向量矩阵，通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵。空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性，并提供其映射到同构子空间的映射关系。进而将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征，实现媒体数据不同模态信息的统一表示。通过典型相关性分析得到两组空间基向量矩阵P和Q，然后通过线性加权方式来对视觉特征与语义特征组合并得到最终的跨模态融合特征矩阵。

(4)双向相关度度量

这里的双向相关度分别考虑的是标签相关度(tag relevance)与图像相关度(image relevance)，其中标签相关度考虑的是一幅图像中所包含的所有标签相对于此图像的相关度，而图像相关度则更加关注对于一个标签，不同的图像相对于此标签的相关度。在发明中，将整个图像-文本数据集从两个角度来进行建模，构建两个超图模型，分别以图像和文本作为超图上的节点，以这两个超图为基础，之后利用在超图上的随机游走算法来分别计算图像相对于标签的相关度即图像相关度和标签相对于图像的相关度即标签相关度，从不同的应用角度来度量图像与标签之间的关系。

具体说来，首先利用超图分别从两个不同的角度来对整个的数据集进行建模，之后这两个超图上利用随机游走算法来分别计算得到标签相关度与图像相关度。我们定义图像超图IHG＝{IH_V,IH_E},IH_V是节点集合,IH_V＝{ih_v|ih_v∈SS_I},SS_I表示的是社会图像集合的视觉部分；IH_E是超边集合,IH_E＝{ih_e|ih_e∈SS_T},SS_T表示的是社会图像集合的标注部分。每一个标签都对应了一条超边，而所有包含此标签的图像集合被看做是连接于此超边的节点集合，因此一条超边可以连接多个节点。相似地，对于标签超图THG＝{TH_V,TH_E},TH_V是节点集合,TH_V＝{th_v|th_v∈SS_T}；TH_E是超边集合,TH_E＝{th_e|th_e∈SS_I}。每一幅图像对应一条超边，而该图像所包含的相关标签可以看做是所有连接于此超边的所有节点。

对于这两种相关度的计算，首先对于图像超图IHG，假定给定一个标签，包含此标签的所有的图片集合构成了一个语义空间，而在这个语义空间的每一副图片都或多或少地表达了某种与该标签相关的语义。如果某一幅图片在该语义空间中的密度越大，即表示该图像在对应标签的语义空间中更加具有代表性，因此我们认为该图片与对应标签的相关度也就越高。同样地，对于标签超图THG,给定一幅图片，假定该图片所包含的所有标签集合也构成了一个语义空间，同样也可以认为在该语义空间密度越大，该标签与相应图像的相关度也就越高。因此在本文中首先分别利用在图像超图和标签超图的随机游走算法来计算相应的相关度。我们用RM_I与RM_T分别表示最终计算得到的图像相关度与标签相关度，其中RM_I∈R^{|SS_T|*|SS_I|},RM_I[t][i]表示的是图像SS_I[i]相对于标签SS_T[t]的相关度，而RM_T∈R^{|SS_I|*|SS_T|},RM_T[i,t]表示的是标签SS_T[t]相对于图像SS_I[i]的相关度。算法的流程如下所示：

算法一：在图像超图上的随机游走算法

步骤1：将图像相关度矩阵RM_I进行初始化，初始化值用RM_I(0)表示；

步骤2：对于标签集合中的每一个标签SS_T[t]所表示的超边：

步骤3：计算对于标签SS_T[t]所对应的图像节点之间的转移概率P^V∈R^{|SS_I|*|SS_I|}；

步骤4：重复直到收敛：

步骤5：计算图像相关度矩阵：RM_I[t]＝θ_IRM_I[t]·P^V+(1-θ_I)RM_I(0)[t]；

步骤6：返回RM_I；

算法二：在标签超图上的随机游走算法

步骤1：将标签相关度矩阵RM_T进行初始化，初始化值用RM_T(0)表示；

步骤2：对于图像集合中的每一个图像SS_I[i]所表示的超边：

步骤3：计算对于标签SS_I[i]所对应的标签节点之间的转移概率P^A∈R^{|SS_T|*|SS_T|}；

步骤4：重复直到收敛：

步骤5：计算图像相关度矩阵:RM_T[i]＝θ_TRM_T[i]·P^A+(1-θ_T)RM_T(0)[i]；

步骤6：返回RM_T。

(5)跨模态相关度融合

就是将步骤(4)中得到的两种不同的相关度加以融合。由于在步骤(4)中所得到的相关度主要是从不同的角度针对不同的应用，比如图像相关度更多地应用在图像检索中，即给定查询，将更加相关的图像排在前面从而检索出来，而相应地，标签相关度则主要应用在标签精炼或者图像描述中，即对于给定图像可以找到更加合适的标签来对该图像来进行描述。而不同的相关度都是抓取到了不同的信息，通过相关度融合的方法可以融合更多的信息来计算得到图像和标签之间的相关度。

下面介绍如何利用优化的方法，将之前得到的两个相关度来进行融合，主要原理是将之前得到的两个相关度基矩阵映射到一个共同的框架下，从而得到新的相关度矩阵,结合两种相关度各自的特点，最大化地挖掘在视觉图像与语义标签之间的关联。对于相关度基矩阵的融合，我们首先从不同基矩阵的特点来看，正如前面所提到的，图像相关度基矩阵RM_I更加侧重描述的是不同图像相对于一个确定标签的相关度，因此该相关度主要应用在图像排序(image ranking)上，也就是说给定一个标签，根据不同的图像相对于该标签的相关度来对这些图像进行排序，因此可以将基矩阵转化为另外一种形式，称其为置信度矩阵，如下所示：

其中CRM_I[t][i1][i2]∈[-1,+1]表示的是对于给定标签SS_T[t],图像SS_I[i1]比图像SS_[i2]更加相关的置信度，如果置信度为正而且越大的话，说明图像SS_I[i1]与标签SS_T[t]之间有着更高的相关度。同样地，基矩阵RM_T意味着对于标签相对于给定图像的相关度，通常来说，这样的相关度一般被用在标签排序(tag ranking)上，也就是说给定一幅图像，根据不同的标签相对于该图像的相关度来对这些标签进行排序，RM_T同样可以转换为相应的置信度矩阵CRM_T:

其中CRM_T[i][t1][t2]∈[-1,+1]表示的是对于给定图像SS_I[i],标签SS_T[t1]比标签SS_T[t2]更加相关的置信度，而且置信度越高，意味着SS_I[i]与SS_T[t1]之间的相关度越高。

为了将两种相关度来进行融合得到一种跨模态的图像-标签相关度，考虑重新构建一个合一的相关度矩阵SRM_IT∈R^{|SS_I|*|SS_T|}来集成CRM_I与CRM_T这两个相关度矩阵。此相关度矩阵尽量保持了两个基矩阵的特点，能够更好地表示不同模态数据之间的关系。构建SRM_IT的目标函数如下所示：

其中公式中之前两项是为了使得SRM_IT与CRM_I与CRM_T保持一致，后一项为正则项，而ρ是调节参数，介于[0,1]之间。因为此目标函数为凸函数，因此可以直接进行求偏导得到最优的SRM_IT，其结果如下所示，因此对于图像SS_I[i]和标签SS_T[t]来说，他们的跨模态相关度可以通过SRM_IT[i][t]最终得到。

(6)图像排序与标签排序(相关度的应用)

在步骤5所得到的融合后的相关度应用在图像排序与标签排序当中，图像排序考虑的是根据不同图像对相同标签的相关度来对所有图像进行排序，而标签排序则是根据不同标签对相同图像的相关度来对所有标签进行排序。具体来说，给定相应的图像与标注数据集，可以通过本文的相关度计算方法得到图像与标签之间的相关度。进而可以利用此量化后的相关度来进行相应的检索任务(即图像排序)或者图像标注(即标签排序)。

综上所述，本发明针对社会图像中存在的标签的随意性，主观性，以及与图像之间的弱相关性等等问题，提出了一种跨模态的相关度学习机制，进而可以将图像与相应标签的相关度进行量化，本发明方法可以有效运用于针对大规模社会图像的跨媒体检索中，提高检索相关性，增强用户体验。

附图说明

图1是本发明的流程图。

图2是针对多模态数据进行超图建模的示意图。

图3为跨模态图像-标签相关度用于标签排序后的效果图。

图4为跨模态图像-标签相关度用于图像排序后的效果图。

具体实施方式

下面结合附图，详细介绍本发明针对社会图像的跨模态相关度计算方法。

(一)采集数据对象

采集数据对象，得到图像和图像标注数据,整理图像标注数据中在整个数据集里不常出现或者无用的标注词。一般在取得的数据集中，其中带有很多的噪音数据，所以在使用这些数据进行特征提取之前就应该对其进行适当的处理和过滤。对于图像而言，得到的图像都是统一的JPG格式，不需要做任何变换。对于图像的文本标注而言，得到的图像标注含有很多的无意义单词，如单词加数字没有任何含义的单词。有些图像标注多至几十个，为了让图像标注很好地描述图像的主要信息，应舍弃那些无用的、无意义的标注。因此，所采取的处理方法步骤如下：

步骤1：统计数据集标注中所有单词在数据集中出现的频率；

步骤2：过滤掉那些单词中带有数字的无意义单词；

步骤3：对于每个图像标注中在整个数据集中出现频率较少的单词，将其认为是图像中比较次要的信息，并允以删除。

通过上述步骤，便可得到处理后的图像标注。对于步骤3中去除频率较少的单词，其理由在于图像聚类里同一类图像的标注还是存在很多相同、意义相近的单词。因此按照出现频率来对其进行过滤完全合理。另外，对于图像来说，为了第二步的主题特征提取，需要将每一幅社会图像看作是一个由视觉词汇构建成的视觉文档，而且这些视觉词汇是用Classeme来提取的[25]，相比较传统的视觉词汇(SIFT)，Classeme一个明显的优势是Classeme所提取的视觉词汇考虑了更多的语义信息而不单单是视觉信息，而这在一定程度上缓解了语义鸿沟问题。基于这样的视觉词汇和视觉文档，便可以利用第二步中的LDA来抽取图像的视觉特征。同样地，社会图像的文本描述同样可以看作是一个由普通词汇构成的语义文档，进而可以用LDA来提取相应的语义特征。

(二)多模态特征提取

本发明用SIMG表示社会图像集合，其中包含了N个样本，TS^V是对于视觉文档的隐含主题集合，而TS_A是相对于语义标注集的隐含主题集合。对于一幅社会图像simg_i来说，simg_i ^V是其对应的视觉文档，其中所包含的视觉词汇都曾经在simg_i出现过，simg_i ^A是其对应的文本文档。T_i ^V是相应的生成simg_i ^V的主题序列，T_i ^A是相应的生成simg_i ^A的主题序列,TP_i ^V是simg_i ^V在TS^V上的主题概率分布，TP_i ^A是simg_i ^A在TS^A上的主题概率分布，因此对于simg_i的图像和标注部分，相应的联合概率分布如公式(5)定义：

其中，(α1,β1),(α2,β2)是狄利克雷分布的参数，用MCMC方法进行参数估计，最终TP_i ^V和Tp_i ^A将最终用来表示simg_i的视觉特征F_i ^V和语义特征S_i ^V。我们用LDA方法来对第1步骤所得到的文本文档和视觉文档进行处理，从而抽取得到相应的主体特征。

(三)多模态特征融合

在本文中，对于包含N个样本的数据集合SIMG，V∈R^|FV|*N and S∈R^|FA|*N被分别用来表示此N个样本的视觉和语义特征矩阵，其中|F^V|和|F^A|是这两个矩阵的维度值，通常来说|F^V|≠|F^A|。公式(6)展示了投射的过程：

CCA_VV＝VV^T,CCA_SS＝SS^T,

CCA_VS＝VS^T,CCA_SV＝SV^T (6)

为了找到能够最大化视觉特征和语义特征相关性的投射关系，公式3被应用来达到此目标，其中p与q指的是投射方向来将强制将数据从V和S映射到公共空间，因此，将此问题转化为一个对称特征值问题，由此可以得到投射矩阵的集合P＝{p₁,p₂,…,p_R}和Q＝{q₁,q₂,…,q_R}，而其中第i个元素p_i和q_i可以通过公式(8)来进行相应的计算。

其中，λ² _i和表示第i个特征值。基于矩阵P∈R^|FV|*N和Q∈R^|FA|*N,我们可以把特征向量V和S投射到相同的子空间中。通过公式(9)，可以将图像的视觉特征和语义特征嵌入到一个子空间中并得到最终的多模态特征MF，其中γ是一个调和参数，介于[0,1]之间。

MF＝γV^T*P+(1-γ)S^T*Q (9)

(四)双向相关度度量与跨模态相关度融合

图2是针对多模态数据进行超图建模的示意图。其中，一种是以图像为节点，以标签为超边；另外一种是以标签为节点，以图像为超边。

在之前介绍的算法一和算法二中，初始值RM_I(0)与RM_T(0)设定为相同的值，通过公式10来计算：

其中KNN(SS_I[i],SS_T[t])表示的是对于图像SS_I[i]的k近邻幅图像中包含标签SS_T[t]的图像数目。IS(SS_T[t])表示的是所有包含标签SS_T[t]的图像集合，对于公式6的直觉解释是KNN(SS_I[i],SS_T[t])/k相对于IS(SS_T[t])/|SS|的提升比例，而且越高的比例意味着SS_I[i]与SS_T[t]之间更加紧密的关系，反之亦然。

在图像超图IHG中，转移概率P^V表示的是在相关的超边SS_T[t]中,从一个图像节点ih_v_i1跳到另外一个图像节点ih_v_i2的概率，此概率可以通过公式11计算得来。

其中Dist(MF(SS_I[i1]),MF(SS_I[i2]))表示的是图像SS_I[i1]的多模态特征向量与图像SS_I[i2]的多模态特征向量之间的欧式距离，而TS(SS_I[i1])与TS(SS_I[i2])则分别是SS_I[i1]与SS_I[i2]的标签集合。

相似地，在标签超图THG中，对于给定图像SS_I[i]所表示的超边,从标签节点th_v_t1(SS_T[t1])到th_v_t2(SS_T[t2])的转移概率可以通过聚合所有包含此标签的图像来计算得到，如公式12所示。

(五)应用示例

图3为跨模态图像-标签相关度用于标签排序后的效果图。主要是比较给定图像，其所包含的标签在未排序前和排序后的效果比较。

图4为跨模态图像-标签相关度用于图像排序后的效果图。主要是比较给定查询，未使用相关度排序前的top10图像列表与使用相关度排序后的top10图像列表相对比结果。

参考文献

[1]T.S.Chua,J.H.Tang,R.C.Hong,H.J.Li,Z.P.Luo,and Y.T.Zheng.NUS-WIDE:AReal-World Web Image Database from National University of Singapore.InProceedings of CIVR 2009.

[2]M.J.Huiskes,M.S.Lew.The MIR Flickr Retrieval Evaluation.InProceedings of MIR 2008,39-43.

[3]L.Wu,R.Jin,and A.K.Jain.Tag Completion for Image Retrieval.IEEETransactions on PAMI 35(3):716-727,2013.

[4]L.Chen,D.Xu,I.W.Tsang,and J.Luo.Tag-Based Image Retrieval Improvedby Augmented Features and Group-Based Refinement.IEEE Transactions on MM14(4):1057-1067,2012.

[5]A.Popescu,G.Grefenstette.Social Media Driven Image Retrieval.InProceedings of ICMR 2011.

[6]E.Horster,R.Lienhart,and M.Slaney.Image Retrieval on Large-ScaleImage Databases.In Proceedings of CIVR 2007.

[7]C.Wang,F.Jing,L.Zhang,and H.j.Zhang.Scalable Search-based imageannotation.Multimedia Systems 14(4):205-220.

[8]D.Liu,X.S.Hua,L.J.Yang,M.Wang and H.J.Zhang.Tag Ranking.InProceedings of WWW 2009,351-360.

[9]X.R.Li,C.G.M.Snoek,and M.Worring.Learning Social Tag Relevance byNeighbor Voting.IEEE Transactions on Multimedia 11(7):1310-1322.

[10]T.Lan,G.Mori.A Max-Margin Riffled Independence Model for ImageTag Ranking.In Proceedings of CVPR 2013,3103-3110.

[11]C.H.Wang,F.Jing,L.Zhang,and H.J.Zhang.Image Annotation Refinementusing Random Walk with Restarts.In Proceedings of MM 2006,647-650.

[12]X.F.Zhu,W.Nejdl,and M.Georgescu.An Adaptive Teleportation RandomWalk Model for Learning Social Tag Relevance.In Proceedings of SIGIR 2014,223-232.

[13]M.Li,J.Tang,H.Li,and C.Zhao.Tag Ranking by Propagating Relevanceover Tag and Image Graphs.In Proceedings of ICIMCS 2012,153-156.

[14]J.D.Wang,J.Z.Zhou,H.Xu,T.Mei,X.S.Hua,and S.P.Li.Image TagRefinement by Regularized Latent Dirichlet Allocation.Computer Vision andImage Understanding 124:61-70.

[15]X.R.Li,C.G.M.Snoek,and M.Worring.Unsupervised multi-feature tagrelevance for social image retrieval.In Proceedings of CIVR 2010,10-17.

[16]D.Liu,X.S.Hua,M.Wang,and H.J.Zhang.Image Retagging.In Proceedingsof MM 2010,491-500.

[17]Z.C.Li,J.Liu,and H.Q.Lu.Nonlinear matrix factorization withunified embedding for social tag relevance learning.Neurocomputing 105(1):38-44.

[18]Y.Gao,Z.J.Zha,J.L.Shen,X.L.Li,and X.D.Wu.Visual-Textual JointRelevance Learning for Tag-Based Social Image Retrieval.IEEE Transactions onImage Processing 22(1):363-376.

[19]G.Zhu,S.Yan,and Y.Ma.Image Tag Refinement Towards Low-Rank,Content-Tag Prior and Error Sparsity.In Proceedings of MM 2010.461-470.

[20]J.F.Zhuang,S.C.H.Hoi.A Two-View Learning Approach for Image TagRanking.In Proceedings of WSDM 2011,625-634.

[21]D.Putthividhy,J.La,H.T.Attias,and S.S.Nagarajan.Topic RegressionMulti-Modal Latent Dirichlet Allocation for Image Annotation.In Proceedingsof CVPR 2010,3408-3415.

[22]N.Rasiwasia,N.Vasconcelos.Latent Dirichlet Allocation Models forImage Classification.IEEE Transactions on Pattern Analysis and MachineIntelligence 35(11):2665-2679.

[23]L.L.Cao,J.Yu,J.B.Luo,and T.S.Huang.Enhancing Semantic andGeographic Annotation of Web Images via Logistic Canonical CorrelationRegression.In Proceedings of MM 2009,125-134.

[24]D.M.Blei,A.Y.Ng,and M.I.Jordan.Latent DirichletAllocation.Journal of Machine Learning Research,3(1):993-1022,2003.

[25]L.Torresani,M.Szummer,and A.Fitzgibbon.Efficient Object CategoryRecognition Using Classemes.In Proceedings of ECCV 2010,776-789,2010。

Claims

1.一种针对社会图像的跨模态相关度学习方法，其特征在于具体步骤如下：

(1)数据预处理：从多媒体数据集中采集不同模态的数据图像，得到图像和图像标注数据，整理图像标注数据集中不常出现或者无用的标注词；

(2)提取多模态主题特征：提取图像的底层视觉特征与图像标注的语义特征，并且利用主题模型分别对视觉特征与语义特征进行处理，得到背后隐藏的视觉主题特征与语义主题特征；

(3)多模态特征融合：采用典型相关性分析算法，分析得到图像视觉主题特征和语义主题特征的典型相关性，并将这两种主题特征向量映射到同纬度下的同构子空间中，构建跨模态融合特征，实现媒体数据不同模态信息的统一表示；

(4)双向相关度度量：利用在超图上的随机游走算法，分别计算图像相对于标签的相关度即图像相关度和标签相对于图像的相关度标签相关度，从两个角度来度量图像与相关标签之间的关系；

(5)跨模态相关度融合：将得到的两种相关度用相应的置信度矩阵进行表示，并且通过跨模态融合优化算法，得到一种新的跨模态的图像-标签相关度；

(6)图像排序与标签排序：将新的跨模态图像-标签相关度应用到图像排序与标签排序中，其中，图像排序考虑的是给定标签，根据不同图像相对于该标签的相关度，对所有图像进行排序；标签排序考虑的是给定图像，根据不同标签相对于该图像的相关度，对所有标签进行排序；

步骤(5)中，是将之前得到的两个相关度基矩阵映射到一个共同的框架下，从而得到新的相关度矩阵,结合两种相关度各自的特点，最大化地挖掘在视觉图像与语义标签之间的关联；图像相关度基矩阵RM_I侧重描述不同图像相对于一个确定标签的相关度，将该基矩阵转化为另外一种形式，称其为置信度矩阵CRM_I，如下所示：

1≤i₁,i₂≤|SS_I|,1≤i≤|SS_T| (1)

其中，CRM_I[t][i1][i2]∈[-1,+1]表示的是对于给定标签SS_T[t],图像SS_I[i 1]比图像SS_[i2]更加相关的置信度，如果置信度为正而且越大的话，说明图像SS_I[i1]与标签SS_T[t]之间有着更高的相关度；同样地，标签相关度基矩阵RM_T意味着对于标签相对于给定图像的相关度，RM_T同样可以转换为相应的置信度矩阵CRM_T:

1≤i≤|SS_I|,1≤t₁,t₂≤|SS_T| (2)

其中，CRM_T[i][t1][t2]∈[-1,+1]表示的是对于给定图像SS_I[i],标签SS_T[t1]比标签SS_T[t2]更加相关的置信度，而且置信度越高，意味着SS_I[i]与SS_T[t1]之间的相关度越高；

重新构建一个合一的相关度矩阵SRM_IT∈R^{|SS_I|*|SS_T|}来集成CRM_I与CRM_T这两个相关度矩阵；此相关度矩阵尽量保持了两个基矩阵的特点，能够更好地表示不同模态数据之间的关系；构建SRM_IT的目标函数如下所示：

1≤i₁,i₂≤|SS_I|,1≤t₁,t₂≤|SS_T| (3)

公式中之前两项是为了使得SRM_IT与CRM_I与CRM_T保持一致，后一项为正则项，而ρ是调节参数，介于[0,1]之间，此目标函数为凸函数，直接进行求偏导得到最优的SRM_IT，其结果如下所示，因此对于图像SS_I[i]和标签SS_T[t]来说，他们的跨模态相关度通过SRM_IT[i][t]最终得到；

2.根据权利要求1所述的方法，其特征在于：步骤(2)中，将图像表示成视觉词袋的形式，其中表示图像的视觉词汇利用Classeme来进行抽取，Classeme是一种图像描述符，该描述符由一组物体类别分类器的结果构成，用Classeme的离散形式来表示图像特征，其中图像特征中的每一维反映的是相应的物体类别是否出现在图像中，出现为1，不出现为0；在此视觉词袋基础上，利用主题模型LDA抽取得到用来表示图像的主题图像特征，对于图像标注部分，同样利用主题模型LDA抽取得到用来表示标注的语义主题特征。

3.根据权利要求1所述的方法，其特征在于：步骤(3)的具体操作过程为,将步骤(2)中得到的图像主题特征向量拼成一个视觉主题特征矩阵将语义特征向量拼成一个语义特征矩阵其中数据集中共n个样本图像；令为视觉特征空间的基向量矩阵，为语义特征空间的基向量矩阵，通过求取视觉特征矩阵和语义特征矩阵的最大相关性得到其相应的空间基向量矩阵；空间基向量矩阵最大化地保持图像视觉特征和语义特征的相关性，并提供其映射到同构子空间的映射关系；进而将图像的视觉特征向量和语义特征向量映射到同维度下的同构子空间中并构建跨模态融合特征，实现媒体数据不同模态信息的统一表示；通过典型相关性分析得到两组空间基向量矩阵P和Q，然后通过线性加权方式对视觉特征与语义特征组合，并得到最终的跨模态融合特征矩阵。

4.根据权利要求1所述的方法，其特征在于：在步骤(4)中，将整个图像-文本数据集从两个角度来进行建模，构建两个超图模型，分别以图像和文本作为超图上的节点，以这两个超图为基础，之后利用在超图上的随机游走算法来分别计算图像相对于标签的相关度即图像相关度和标签相对于图像的相关度即标签相关度，从不同的应用角度来度量图像与标签之间的关系。