CN101996191B

CN101996191B - 一种二维跨媒体元搜索方法和系统

Info

Publication number: CN101996191B
Application number: CN 200910090902
Authority: CN
Inventors: 田永鸿; 周志; 黄铁军; 高文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2009-08-14
Filing date: 2009-08-14
Publication date: 2013-08-07
Anticipated expiration: 2029-08-14
Also published as: CN101996191A

Abstract

一种二维跨媒体元搜索方法和系统，属于信息检索领域。本发明的元搜索方法基于查询聚类和结果集交叠分析，通过对不同的子检索模型提供的检索结果集进行合并、加权等融合操作，最终获得单一的检索结果集。该元搜索方法包括：预处理阶段；查询分类阶段；检索执行阶段；融合阶段；以及，更新阶段。本发明所提供的跨媒体元搜索方法能同时利用类似查询在特征上的相似性、在检索结果融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性等来有效改进检索性能，其检索性能优于单一维度的跨媒体搜索方法。

Description

一种二维跨媒体元搜索方法和系统

技术领域

本发明涉及一种跨媒体元搜索方法和系统，特别涉及一种基于查询聚类和结果集交叠分析的二维跨媒体元搜索方法和系统，属于信息检索领域，具体属于跨媒体检索领域。

背景技术

跨媒体检索的目的在于利用文本、内容等多种特征，从海量数据中检索出匹配的多媒体文档。

基于文本的检索主要是将用户提交的文本查询与数据集中的文本进行比对，然后使用特定模型返回文档相似度信息给用户。文本检索能够直接获取多媒体文档的高层语义，并达到较高的查准率(Precision)和查全率(Recall)，但其具有一些难以克服的缺陷：

(1)文本的二义性。词汇的二义性导致查准率降低。如Apple同时可以作为apple(fruit)和Apple Company。

(2)只有被标注或者具有文本描述的多媒体文档才能够被检索到。由于基于文本的检索方法需要使用文本关键词作为特征向量的维度，在没有文本描述的情况下，多媒体文档在特征空间中就不能被检索到，因而限制了文本检索方法的应用范围。

另一方面，基于内容的多媒体检索从视觉等多种底层特征出发，计算多媒体文档在底层特征上的相似度，避免了文本检索的大量人为因素和噪声。但是由于难以建立从底层特征到高层语义的联系，使得基于内容的检索准确率较低。

目前的多媒体检索还存在着许多不足，主要面向图像、MP3或视频等单一媒体，多种媒体源之间跨媒体语义分析和融合则通常被忽略。显然，若用户能以多种媒体的信息描述方式来输入查询请求，则可检索到更多符合意愿的查询结果。针对这一更具挑战性的需求，跨媒体搜索(Cross media retrieval)技术通过多种媒体源之间语义关联分析和融合，允许用多种媒体信息表达用户查询需求，并最终能输出多种媒体类型的查询结果。例如，当查询请求为某演员的照片时，查询结果可能包括该演员的个人情况网页、有关他的新闻网页、个人博客、影视剧照以及出演的不同电影视频片断等。与传统的多媒体检索相比，跨媒体检索的复杂性主要来自需要将多种信息源的异构多媒体信息进行融合与集成。

对跨媒体检索来说，关键在于跨媒体融合策略，而跨媒体融合策略可以分为2个层次：特征层融合和结果层融合。

特征层融合：跨媒体检索的特征层融合首先对跨媒体查询、多媒体文档的原始信息进行特征提取(特征可以是文本关键词、颜色、纹理、形状、时空特征、人脸等)，然后对特征信息进行综合分析和处理，最后由多媒体信息检索模型生成统一的检索结果集。

结果层融合：也称为决策层融合，其使用不同检索模型检索同一个多媒体查询，对各自处理的媒体类型和模态数据进行预处理、特征抽取、索引、识别或检索，并返回该多媒体查询的初步检索结果集。然后通过关联处理、加权模型等方法进行决策层融合判决，最终获得多个检索模型的联合检索结果集。

图1示出了现有技术中跨媒体融合的特征层融合和结果层融合的层次结构示意图。

现有的跨媒体元搜索研究大致可以分为两个部分：关于元搜索的研究和关于跨媒体检索的研究。元搜索关注对不同检索系统提供的检索结果集进行合并、加权等操作，获得单一的检索结果集，常见的方法包括Comb融合、Borda融合、逻辑回归融合、线性融合、Round-Robin等。

在跨媒体融合检索与分析方面，发表于2003年的国际多媒体会议ACMMM的论文“多模态关联的多媒体内容处理”(D.Li，N.Dimitrova，M.Li，and I.K.Sethi.，Multimedia content processing through cross-modal association，In Proceedings of the 7 th ACM International Conference on Multimedia，604-611，Oct.2003.)、发表于2006年的国际图像处理会议ICIP的论文“面向跨媒体检索的语义关联性学习”(F.Wu，H.Zhang，and Y.Zhuang，Learningsemantic correlation for cross-media retrieval，In Proceedings of the13th International Conference Image Processing，1465-1468，Sep.2006.)等采用特征子空间分析方法来发现视觉特征与文本特征之间的跨模态相关性。

Query-Class的方法近年来被一些学者研究，发表于2004年的国际多媒体会议ACM MM的论文“自动视频检索中的查询类别权重学习”(R.Yan，J.Yang，and A.G.Hauptmann，Learning query-class dependent weights in automaticvideo retrieval，In Proceedings of the 12th ACM International Conferenceon Muliimedia，548 555，0ct.2004.)将查询划分到预先定义好的类别，论文“多检索源结合的概率隐性查询分析”(R.Yan and A.Hauptmann，Probabilistic latent query analysis for combining muliiple retrievalsources，In Proceedings of the 29th Annual Internat ional ACM SIGIRConference on Research Development Information Retrieval，324 331，2006.)则将查询划分到隐性类别，然后对于不同类别的查询分别学习最优的融合参数，将跨媒体的查询转化为针对不同的query分类学习优化的融合参数，能够有效地在学习成本和融合效果间达到有利的权衡。对查询分类有如下假设：

(1)查询(Query)可以被划分为少数的有限类别，对于同一类别的查询，具有相同或者相似的跨媒体融合策略。例如，查询“HuJintao”和查询“GerogeW.Bush”都倾向于使用命名实体识别、人脸识别等方法，而查询“日出”和查询“日落”则倾向于给基于颜色直方图的查询方法更高的融合权重。

(2)查询(Query)的文本描述或样例可以被用来决定该查询的类别归属。

论文“视频搜索的动态多模态融合”(L.Xie，A.Natsev，and J.Tesic，Dynamic multimodal fusion in video search Int.Conf.Multimedia andExpo，2007)使用了动态分类的方法，通过将新的查询与已有分类进行比较，可以生成新的查询类别。在多模态的文本检索领域，论文“查询难度估计：应用到丢失内容检索和分布式信息检索”(E.Yom-Tov，S.Fine，D.Carmel，andA.Darlow，Learning to estimate query difficulty：Including applicationsto missing content detection and distributed information retrieval，SIGIR，2005)使用Difficulty Prediction的方法将查询分为若干个文本关键词的子查询，使用子查询之间返回结果的重叠数量以及文档频率来预测此子查询的重要性，从而预测每个子查询的检索效果，并进行加权。

在申请号为200610053390.4，名称为“基于内容相关性的跨媒体检索方法”的中国专利申请中，提出一种基于内容相关性的跨媒体检索方法。该方法采用典型相关性分析，同时分析不同模态媒体数据的内容特征；然后通过子空间映射算法，将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中。本发明与该方法的不同点：在本发明中，多媒体融合不仅仅是在特征层进行融合，还考虑到不同系统对查询响应的性能，特征层融合不是通过子空间映射，而是通过聚类方法。

在申请号为200610053392.3，名称为“基于多模态信息融合分析的跨媒体检索方法”的中国专利申请中，提出一种基于多模态信息融合分析的跨媒体检索方法。利用该方法可以对多模态信息融合分析进行多媒体语义理解，通过提交任意模态的检索例子去检索任意模态的媒体对象或者多媒体文档。本发明与该方法的不同点：在本发明中，不仅可以通过某一个模态查询检索到其他模态的文档，更侧重于利用不同模态的特征来改善检索的性能。

发明内容

面对大规模的多媒体文档，如何利用文本、视觉等多种特征，在特征层和决策层进行跨媒体融合，有效提高查询的准确性是跨媒体元搜索方法的新课题。为了克服现有技术的不足，本发明提供了一种基于查询聚类和结果集交叠分析的二维跨媒体元搜索方法，其中，簇是指对多媒体文档进行聚类(或分类)操作后的结果(Cluster，或类别)；交叠是指不同结果集之间的重叠；二维是指在本方法中从簇和交叠两个维度获取了融合权重。本发明解决其技术问题所采用的技术方案是：

一种二维跨媒体元搜索方法，该方法基于查询聚类和结果集交叠分析，其包括：

1)预处理阶段：对已有的部分查询数据进行标注，并将已标注的数据样本进行数据聚类，将相似的数据样本聚类到同一个簇中，学习每个簇中来自不同子检索模型的检索结果间的融合权重；

2)查询分类阶段：给定新的查询请求，首先确定该查询与每个簇的距离或相似度，再计算该查询与每个簇的相关概率；

3)检索执行阶段：对该查询请求，使用至少2个子检索模型分别进行检索，并分别获得相应的检索结果集；

4)融合阶段：首先对各子检索模型的结果集进行交叠分析，计算结果集交叠情况下的融合权重；然后结合簇的融合权重和结果集的融合权重，获得对应于该查询请求的最终融合策略，输出融合后的检索结果集。

所述预处理阶段包括以下步骤：

(1)查询标注：给定一个已有的部分查询数据集合，由用户对各子检索模型的检索结果集中的数据样本进行正负例标注；

(2)数据聚类：利用特征对用户标注的数据样本进行无监督聚类，将相似的样本聚类到同一个簇中，并记录每个样本对应的簇编号；

所述数据聚类依据以下步骤进行：

用户提交查询请求，并在检索后标注出结果中满足查询要求的样本；

选取全部或部分用户已标注的查询数据作为聚类的对象；

提取聚类对象的跨媒体特征，包括文本特征以及颜色、纹理、形状和关键点等视觉特征；以及，

用聚类方法将数据聚类为有限个簇。

优选地，所述数据聚类方法采用多种聚类方法，可采用k均值聚类算法(K-means)、均值漂移算法(Mean Shift)或概率潜在语义分析算法(pLSA)。

所述权重学习方法依据用户的标注数据进行优化学习得到；所述融合权重依据子检索模型的结果集交叠在全局或者局部特征的分布情况确定。

(3)簇权重计算：其使用统计学习方法为每个簇学习得到该簇中来自不同子检索模型的检索结果间的融合权重。假设有查询集合

其中N_Q为查询的数量，如果查询

的标注集合为

y^{&PartialD;} = {y^{&PartialD;} (q_{&PartialD;}, x_{i}), x_{i} &Element; x}

y^{&PartialD;} (q_{&PartialD;}, x_{i}) &Element; {0,1},

1为相关，0为不相关

其中，x_i∈x为针对查询各检索模型对文档i返回的值构成的m维向量，m为检索模型个数。例如对于图像1051，使用文本检索查询“blue flower”的得分是0.53，使用样例比较出来的得分是0.24，则该图像的得分向量可以表示为＜0.53，0.24＞。为根据输入查询和向量，文档被判定为相关或者不相关的结果。

所述查询分类阶段包括以下步骤：

(1)利用已有方法提取输入查询的文本特征和视觉特征；

(2)计算该查询与簇的相关概率，其计算方法包括但不限于计算该查询与簇中心的距离或相似度、计算该查询与簇边缘的距离。

所述检索执行阶段包括以下步骤：

(1)对输入查询进行分析，将查询分解为多个子查询并分别输入各子检索模型；

(2)使用各子检索模型分别进行检索。

所述融合阶段包括交叠权重计算和二维融合权重计算两个步骤：

(1)交叠权重计算：首先定义一个结果集交叠集合，利用结果集在前N个位置的结果集交叠情况，为每个子检索模型学习特定的权重；权重的确定方法包括但不限于利用交叠文档数量衡量系统性能，N为自然数；

(2)二维融合权重计算：二维融合模型对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重，即分别在两个维度进行融合：

其一，横向融合，针对每个簇进行融合，通过使用了跨媒体特征进行样本聚类和查询分类，横向融合被看作是特征层的融合；

其二，纵向融合，纵向融合被看作是结果层的融合，其利用结果集交叠进行融合，采用基于局部交叠密度的融合方法进行纵向融合，得到基于结果集局部交叠密度的融合权重。

所述二维权重的融合方式包括但不限于将横向和纵向的权重相乘；所述基于结果集局部交叠密度的融合权重是指：

定义一个结果集交叠集合，设定一个移动的局部窗口，利用成员检索引擎结果集在窗口内返回结果中交叠结果的比例确定成员检索引擎的权重。

优选地，所述二维跨媒体元搜索方法还包括更新阶段：当满足一定更新条件时，重新收集查询数据并进行标注，通过学习来更新簇及相应的融合权重；具体包括以下步骤：

(1)重新收集查询数据，用户对查询数据中的检索结果进行标注或反馈；

(2)依据目标优化函数，合并或增加簇的数量。

一种二维跨媒体元搜索系统，其包括：

(1)预处理模块：其收集已有的部分多媒体查询数据并进行标注，然后进行数据聚类并学习得到簇的融合权重，所述多媒体数据包含文本、图像、全景动画、在线视频多种数据；

(2)多媒体查询处理模块：其负责对用户输入的查询请求进行分类处理并分解到子检索引擎模块；

(3)子检索引擎模块：其使用至少2个检索模型对数据集进行检索，所述检索模型包括且不限于基于向量空间模型的文本检索模型、基于TF-IDF模型的文本检索模型、基于内容的图像检索模型、基于概念的图像检索模型、基于视音频特征的视频片段检索模型；

(4)跨媒体融合模块：对多个子检索引擎模块的检索结果进行融合，输出融合后的检索结果集；

(5)检索结果呈现模块：呈现所述融合后的检索结果集，或者以对比方式同时呈现各子检索引擎模块的检索结果和融合后的检索结果集；

所述二维跨媒体元搜索系统各模块之间的联系如下：

所述预处理模块在系统运行前或在满足更新条件时，将所述簇的融合权重结果输出到跨媒体融合模块中；多媒体查询处理模块对用户的查询请求进行处理并分发查询命令到子检索引擎模块；子检索引擎模块接到查询命令后执行相应的检索操作，并将检索结果发送到跨媒体融合模块；跨媒体融合模块依据预处理模块学习得到的各个簇的融合权重，对多个子检索引擎模块的检索结果进行融合，并将融合后的检索结果集发送到检索结果呈现模块；检索结果呈现模块对融合后的检索结果集进行呈现，或者以对比方式同时呈现各子检索引擎模块的检索结果和融合后的检索结果集。

本发明的有益效果：本发明所提供的跨媒体元搜索方法在面对多媒体文档的特征复杂和检索数据量巨大的问题时，能同时利用类似查询在特征上的相似性、在检索结果集融合模式上的相似性、以及不同子检索模型的检索结果集交叠特性来有效改进检索性能。表1是本发明的方法(表中用BiDimFusion来指代)与其他方法在WikipediaMM图像数据集上的实验结果对比。其中，Borda、CombSum和RoundRobin是与目前公认较好的元搜索融合方法，Cluster是基于聚类学习融合权重的方法，local-cbir-text是仅基于局部交叠密度的跨媒体融合方法，text和cbir是指仅基于文本或图像内容的检索方法。表1列出了本发明的方法与其他方法在WikipediaMM数据集上的实验结果对比，由表1可以看出：相对于其它方法，本发明所提供的方法可以在MAP、R-Prec，B-Pref上达到较好的结果；在排序靠后的结果中，本发明所提供的方法要优于其他系统；相对于单一维度的融合方法，本发明方法的性能优于仅基于聚类的方法或仅基于局部交叠密度的方法。

表1：本发明的方法与其他方法在WikipediaMM数据集上的实验结果对比

附图说明

图1为现有技术中跨媒体融合的特征层融合和结果层融合层次结构示意图；

图2为按照本发明的二维跨媒体元搜索方法工作流程图；

图3是按照本发明的二维跨媒体元搜索方法的一个实施例；

图4为按照本发明的检索结果集交叠文档示意图；

图5为按照本发明的二维跨媒体融合模型示意图；

图6是按照本发明的二维跨媒体元搜索方法设计的二维跨媒体元搜索系统结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

实施例1如图3所示出的是按照本发明的二维跨媒体元搜索方法的一个实施例，其中包括两个子搜索引擎：基于内容的图像检索和基于文本的图像检索。在本实施例中，利用本发明解决大规模多媒体文档检索问题，以WikipediaMM图像数据集为例，该数据集包含15万幅图像数据，其中每幅图像具有文本描述。在本实施例的实施过程中，选择75个查询中的32个为初始标注查询，余下的查询作为实验测试所用。如图2所示出的是按照本发明的二维跨媒体元搜索方法工作流程图，在所有图像样本进行颜色、纹理、形状等特征提取后，利用本发明实现图像检索的步骤如下：

步骤1、预处理阶段

选取用户标注过的图像作为聚类对象，采用K-Means方法对特征提取后的图像数据进行聚类，将相关的图像聚到同一个簇中，并记录每副图像对应的簇的编号，通过校正实验，选择最佳的K为7，保证了每个簇均有样本。在本实施例中，利用标注的数据，使用EM算法迭代求解每个簇的融合权重。

步骤2、查询分类阶段

按照本发明的一个实施方式，使用查询和簇中心集合，本阶段问题被转换为模糊分类问题。

查询q的类别归属的计算公式如下：

P(C_t|q)与dist(q，centroid(C_t))呈负相关

P (C_{t} | q) = λ \cdot (1 - \frac{dist (q, centroid (C_{t}))}{Σ_{t = 1}^{T} dist (q, centroid (C_{t}))})

其中，centroid(C_t)为聚类簇C_t的中心，dist(q，centroid(C_t))为查询q与聚类簇C_t的中心的距离，λ为归一化因子。

步骤3、检索执行阶段

按照本发明的一种实施方式，将查询中的文本关键词提交到本文检索引擎中进行检索，将查询中的图像样例提交到基于内容的检索引擎中进行检索，分别获得一个检索结果集。

步骤4、融合阶段

融合阶段包括利用结果集交叠学习纵向的融合权重和计算二维融合权重。

对于给定的查询，存在一个由多个子检索引擎检索出的结果集合，即交叠(Overlap)集合。图3示出了按照本发明的检索结果集交叠文档示意图。

按照本发明的一种实施方式，对检索引擎m，首先定义其累积交叠密度函数为当前位置N的函数，计算公式如下：

f^m(N)＝H^m(N)/N

随着排序位置N的增大，如果交叠文档所占的比例上升(出现新的交叠文档)，则给予当前位置更高的累积交叠密度，如果交叠文档所占的比例下降(新检出的文档中更多的是仅被单一检索引擎检出)，则累积交叠密度降低。定义一个大小为L的局部窗口W来对结果集进行采样。

在结果集较靠后的位置，局部交叠密度随着N的增大趋向于零，此时计算出的检索模型权重将趋向于相等，但是实际上不同检索模型返回的结果中存在一些属于相关文档集合但不属于交叠文档集合的文档，此时需要将对检索模型性能的整体评估引入。

如图4所示的按照本发明的二维跨媒体融合模型示意图。使用本发明的融合方法，用检索结果中前N′个的交叠文档数量来判定检索模型性能，权重计算公式更新如下：

w^{m} (d_{j}) = λ (g^{m} (N_{d_{j}}^{m}) \cdot ef (g^{m} (N_{d_{j}}^{m})) + ϵ \cdot f^{m} (N^{'}))

其中λ为归一化因子，ε反映了对检索模型全局性能和局部性能间的权衡。

本实施例中，文档的二维加权得分可转换为

其中，

为聚类簇C_t学习出的检索模型m的权重，S^m(q，d_j)是检索模型m对文档d_j赋予的与查询q的相关度，λ是一个归一化因子。

步骤5、更新阶段

按照本发明的一种实施方式，由用户对查询进行标注或反馈，累积有100个查询被标注时，将新的标注文档与初始化的标注文档一起进行聚类，获取新的聚类簇及相应的融合权重。

实施例2

图6是按照本发明的二维跨媒体元搜索方法设计的二维跨媒体元搜索系统结构示意图。在本实施例中，该二维跨媒体元搜索系统包括如下模块：

参见图6，本实施例的二维跨媒体元搜索系统各模块之间的联系如下：

预处理模块通过对已有的查询数据并进行标注和聚类，学习得到簇的融合权重，并将结果输出到跨媒体融合模块中，所述预处理操作可以在系统运行前执行，也可以在满足更新条件时执行；

当用户输入一查询请求时，多媒体查询处理模块对该查询请求进行处理并分发查询命令到子检索引擎模块；子检索引擎模块接到查询命令后执行相应的检索操作，并将检索结果发送到跨媒体融合模块；跨媒体融合模块依据预处理模块学习得到的各个簇的融合权重，对多个子检索引擎模块的检索结果进行融合，并将融合后的检索结果集发送到检索结果呈现模块；检索结果呈现模块对融合后的检索结果集进行呈现，或者以对比方式同时呈现各子检索引擎模块的检索结果和融合后的检索结果集。

上述仅为本发明的较佳实施例，并不用来限定本发明的实施范围。也就是说，任何依照本发明的权利要求范围所做的同等变化与修改，皆为本发明的权利要求范围所涵盖。

Claims

1.一种二维跨媒体元搜索方法，其特征在于，所述方法基于查询聚类和结果集交叠分析，包括：

1)预处理阶段：对已有的部分查询数据进行标注，并将已标注的数据样本进行数据聚类，将相似的数据样本聚类到同一个簇中，学习每个簇中来自不同子检索模型的检索结果间的融合权重，得到簇的融合权重；

4)融合阶段：包括交叠权重计算和二维融合权重计算，首先对各子检索模型的检索结果集进行交叠分析，计算所述检索结果集交叠情况下的交叠权重；然后进行二维融合权重计算，对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重，结合所述簇的融合权重和所述检索结果集不同区段文档的融合权重，分别在两个维度进行融合，获得对应于该查询请求的最终融合策略，输出融合后的检索结果集。

2.根据权利要求1所述的一种二维跨媒体元搜索方法，其特征在于，所述预处理阶段具体包括以下步骤：

1)查询标注：给定一个已有的部分查询数据集合，由用户对各子检索模型的检索结果集中的数据样本进行正负例标注；

2)数据聚类：利用特征对用户标注的数据样本进行无监督聚类，将相似的样本聚类到同一个簇中，并记录每个样本对应的簇编号；

3)簇权重学习：使用统计学习方法为每个簇学习得到该簇中来自不同子检索模型的检索结果间的融合权重，进而得到簇的融合权重。

3.根据权利要求2所述的一种二维跨媒体元搜索方法，其特征在于，所述数据聚类依据以下步骤进行：

选取全部或部分用户已标注的查询数据作为聚类的对象；

提取聚类对象的跨媒体特征，包括文本特征和视觉特征，所述视觉特征包

括颜色、纹理、形状和/或关键点；以及，

用聚类方法将数据聚类为有限个簇。

4.根据权利要求2所述的一种二维跨媒体元搜索方法，其特征在于，数据聚类步骤采用k均值聚类算法(K-means)、均值漂移算法(Mean Shift)或概率潜在语义分析算法(pLSA)；簇权重学习步骤依据用户的标注数据进行优化学习得到；所述融合权重依据子检索模型的结果集交叠在全局或者局部特征的分布情况确定。

5.根据权利要求1所述的一种二维跨媒体元搜索方法，其特征在于，所述查询分类阶段具体包括以下步骤：

1)利用已有方法提取输入查询的文本特征和视觉特征；

2)计算该查询与簇的相关概率，其计算方法包括但不限于计算该查询与簇中心的距离或相似度、计算该查询与簇边缘的距离。

6.根据权利要求1所述的一种二维跨媒体元搜索方法，其特征在于，所述检索执行阶段包括以下步骤：

1)对输入查询进行分析，将查询分解为多个子查询并分别输入各子检索模型；

2)使用各子检索模型分别进行检索。

7.根据权利要求1所述的一种二维跨媒体元搜索方法，其特征在于，所述融合阶段包括如下两个步骤：

1)交叠权重计算：首先定义一个结果集交叠集合，利用结果集在前N个位置的结果集交叠情况，为每个子检索模型学习特定的权重；权重的确定方法包括但不限于利用交叠文档数量衡量系统性能，N为自然数；

2)二维融合权重计算：二维融合模型对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重，即分别在两个维度进行融合：

其一，横向融合，针对每个簇进行融合，通过使用跨媒体特征进行样本聚类和查询分类，横向融合被看作是特征层的融合；

其二，纵向融合，纵向融合被看作是结果层的融合，其利用结果集交叠进行融合，采用基于局部交叠密度的融合方法进行纵向融合，得到基于结果集局部交叠密度的融合权重；

所述二维融合权重的融合方式包括但不限于将所述横向融合和所述纵向融合的融合权重相乘。

8.根据权利要求7所述的一种二维跨媒体元搜索方法，其特征在于，所述基于结果集局部交叠密度的融合权重是指：

定义一个结果集交叠集合，设定一个移动的局部窗口，利用所述子检索模型结果集在窗口内返回结果中交叠结果的比例确定子检索模型的权重。

9.根据权利要求1所述的一种二维跨媒体元搜索方法，其特征在于，还包括更新阶段：当满足一定更新条件时，重新收集查询数据并进行标注，通过学习来更新簇及相应的融合权重；具体包括以下步骤：

1)重新收集查询数据，用户对查询数据中的检索结果进行标注或反馈；

2)依据目标优化函数，合并或增加簇的数量。

10.一种二维跨媒体元搜索系统，其特征在于，包括：

1)预处理模块：其负责收集已有的部分多媒体查询数据并进行标注，然后进行数据聚类和学习得到簇的融合权重，所述多媒体数据包含文本、图像、全景动画、在线视频多种数据；

2)多媒体查询处理模块：其负责对用户输入的查询请求进行分类处理并分解到子检索引擎模块；

3)子检索引擎模块：其使用至少2个子检索模型对数据集进行检索，所述子检索模型包括且不限于基于向量空间模型的文本检索模型、基于TF-IDF模型的文本检索模型、基于内容的图像检索模型、基于概念的图像检索模型、基于视音频特征的视频片段检索模型；

4)跨媒体融合模块：对各子检索模型的检索结果集进行交叠分析，计算所述检索结果集交叠情况下的交叠权重；然后进行二维融合权重计算，对查询或样本的每一个簇以及结果集中不同区段的文档都赋予特定的融合权重，结合所述簇的融合权重和所述检索结果集不同区段文档的融合权重，分别在两个维度进行融合，获得对应于该查询请求的最终融合策略，输出融合后的检索结果集；

5)检索结果呈现模块：负责呈现所述融合后的检索结果集，或者以对比方式同时呈现各子检索引擎模块的检索结果和融合后的检索结果集；

所述二维跨媒体元搜索系统各模块之间的联系如下：