CN100422999C

CN100422999C - 基于内容相关性的跨媒体检索方法

Info

Publication number: CN100422999C
Application number: CNB2006100533904A
Authority: CN
Inventors: 潘云鹤; 庄越挺; 吴飞; 张鸿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2008-10-01
Anticipated expiration: 2026-09-14
Also published as: CN101021849A

Abstract

本发明公开了一种基于内容相关性的跨媒体检索方法。采用典型相关性分析，同时分析不同模态媒体数据的内容特征；并通过子空间映射算法，将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中；根据通用距离函数，度量不同模态媒体数据间的相关性大小；此外，结合相关反馈中的先验知识，修正多模态数据集在子空间中的拓扑结构，有效提高了系统的跨媒体检索效率。本发明突破了基于内容的多媒体检索技术对单模态的限制，解决了不同模态媒体数据在底层特征上的异构性问题，实现了相同模态之间和不同模态之间媒体对象的距离统一度量，并且能够借助用户交互过程，更准确、有效地进行跨媒体检索。

Description

基于内容相关性的跨媒体检索方法

技术领域

本发明涉及多媒体检索，尤其涉及一种基于内容相关性的跨媒体检索方法。

背景技术

基于内容的多媒体检索是计算机视觉和信息检索领域的研究热点，根据视觉、听觉或者几何等底层特征进行相似度匹配而实现检索。早在1976年，麦格克就已经揭示了人脑对外界信息的认知需要跨越和综合不同的感官信息，以形成整体性的理解。近期认知神经心理学方面的研究也进一步验证了人脑认知过程呈现出跨媒体的特性，来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生认知结果。因此，目前迫切需要研究一种支持不同模态的跨媒体检索方法，突破传统基于内容的多媒体检索只作用于单模态数据的限制。

基于内容的跨媒体检索技术是指通过对多媒体对象的底层特征进行分析，实现在检索过程中从一种模态到另一种模态的跨越，即用户提交一种模态的查询例子，系统返回与之相似的其他不同模态的多媒体对象，突破了单模态的图像检索、音频检索、三维图形检索等对单模态的限制。跨媒体检索是基于内容的多媒体分析与检索中一个新的研究领域，目前国际上还没有比较成熟的跨媒体检索算法和技术。

90年代初期人们提出了基于内容的图像检索技术，从图像中提取底层的视觉特征，比如颜色、纹理、形状等底层视觉特征作为图像的索引。这种技术后来也被运用到视频检索和音频检索，其中针对不同媒体内容所采用的底层特征也不同，视频检索可能用到运动矢量特征，而音频检索会用到时域、频域、压缩域特征等。基于内容的多媒体检索方法早期有以QBIC、VideoQ等为代表的原型系统，但是由于缺少高层语义的支持，在准确率和效率上不能满足用户的要求；之后例子学习、融合分析和流形学习等方法被用来实现多媒体语义理解，以填补底层特征和高层语义之间的鸿沟；接着为了克服训练样本的不足，相关反馈机制常被使用，以结合用户的感知先验知识，例如：利用反馈信息修改查询向量使其向相关检索对象的分布中心移动、调整距离度量公式中各分量的权值等，近来一些机器学习方法也与相关反馈方法相结合。这些方法的使用，一定程度上缩小了语义鸿沟，提高了单模态检索的性能。

然而，现有的多媒体检索系统都只能检索包含单一模态的多媒体数据库，或虽能处理多模态的媒体数据，却不支持跨媒体的检索，即根据一种模态的多媒体对象检索到其他模态的多媒体对象。由于图像的视觉特征与音频的听觉特征之间不但特征维数不同，而且表达不同的属性，无法直接度量相似性，这种异构性和不可比性同样存在于其他模态的多媒体数据之间。因此，上述单模态检索方法都不能直接用于跨媒体检索，因为与单模态检索不同，跨媒体检索的研究对象是不同模态、彼此异构的底层特征空间。

一些研究者先后提出了类似跨媒体思想的研究，例如通过挖掘多模态特征进行视频数据库的索引和检索，对视频新闻所包含的转录文本和互联网页面所包含的文本进行分析，实现视频对象和互联网页面在文本特征上的相似匹配。但是，这些研究是针对特定模态媒体对象中不同的底层特征，例如：视频片断中包含的转录文本、颜色、纹理等，不能实现不同模态媒体数据间的灵活跨越。

典型相关性分析(Canonical Correlation Analysis)是一种统计分析方法，最早应用于经济、医学、气象等方面的数据分析。但是在多媒体数据分析与检索方面，典型相关性分析却很少被使用到，因为这种统计分析方法是分析两种不同变量场之间存在的相关性信息，而传统的单模态检索技术研究的是一种模态的单一特征空间。

发明内容

本发明为克服上述现有方法在检索模态上的限制，提供了一种基于内容相关性的跨媒体检索方法。

基于内容相关性的跨媒体检索方法包括以下步骤：

(1)从多媒体数据库采集不同模态的对象：图像和音频数据；

(2)提取图像数据的视觉特征，以及音频数据的听觉特征，采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性；

(3)采用同构子空间映射算法，将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中，实现不同模态媒体数据的统一表达；

(4)采用极坐标的方式定义通用距离函数，度量不同模态媒体数据间的相关性大小，并以此为依据进行跨媒体检索；

(5)基于增量学习的相关反馈机制，用于提取用户交互中的先验知识，以修正多媒体数据集在同构子空间中的拓扑结构；

(6)根据子空间映射过程中求取的基向量，或者通过相关反馈机制，将训练集以外的其他媒体对象准确定位到同构子空间中。

所述的提取图像数据的视觉特征，以及音频数据的听觉特征，采用典型相关性分析提取得到的视觉和听觉特征之间的典型相关性：图像的底层视觉特征构成p维的图像特征矢量，音频的底层听觉特征构成q维音频特征矢量，采用典型相关性分析同时学习图像的视觉特征X_(n×p)和音频的听觉特征Y_(n×q)，异构的特征矩阵X_(n×p)和Y_(n×q)之间相关系数计算如下：

ρ = r (L, M) = \frac{A^{T} C_{xy} B}{\sqrt{A^{T} C_{xx} {AB}^{T} C_{yy} B}},

(C_{xy} = [\begin{matrix} C_{xx} & C_{xy} \\ C_{yx} & C_{yy} \end{matrix}] = C) - - - 1

X_{(n \times p)} \overset{A (p \times m)}{&RightArrow;} L_{(n \times m)}; - - - 2

其中A和B为线性变换，按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关，A和B的数值分布确定X与Y的空间相关分布形式，A和B的数值大小确定所对应变量的重要程度。

采用同构子空间映射算法，将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中，实现不同模态媒体数据的统一表达：同构子空间映射算法在典型相关性分析的基础上，学习得到一个最优的低维子空间，最大程度地保留了原始特征向量X_(n×p)和Y_(n×q)之间相关性，算法步骤如下：

输入：图像特征矩阵X_(n×p)，音频特征矩阵Y_(n×q)；

输出：所有图像数据和音频数据在低维子空间中的向量表示L_(n×m)和M_(n×m)；

步骤1：通过半监督学习的方式，用K平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别；

步骤2：在公式3的约束下，使相关系数ρ＝r(L，M)最优化，

v(L)＝L^TL＝A^TX^TXA＝1；v(M)＝M^TM＝B^TY^TYB＝1 3

采用拉格朗日乘子法得到形式为Ax＝λBx的方程C_xyC_yy ^-1C_yxA＝λ²C_xxA，求取该方程的特征根即得到矩阵A和B的解；

步骤3：线性方法构造同构子空间，即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标L_(n×m)和M_(n×m)。

采用极坐标的方式定义通用距离函数，度量不同模态媒体数据间的相关性大小，并以此为依据进行跨媒体检索：图像和音频数据在m维子空间中用极坐标的形式定义特征向量x_i′(x_i1′，...，x_ik′，...，x_im′)，(x_ik′＝a+b·i，(a，b∈R))，图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下：

{CCAdis}_{({x_{i}}^{'}, {x_{j}}^{'})} = sqrt Σ_{k = 1}^{m} ({| {x_{ik}}^{'} |}^{2} + {| {x_{jk}}^{'} |}^{2} - 2 \times | {x_{ik}}^{'} | \times | {x_{jk}}^{'} | \times {Cosθ}_{k}); - - - 4

β_{ik} = arctg (b / a), θ_{k} = | β_{ik} - β_{jk} |, | {x_{ik}}^{'} | = \sqrt{a^{2} + b^{2}}, k &Element; [1, m]

检索过程中用户通过人机接口提供查询例子图像，如果该例子在训练数据库中，则根据子空间映射结果找到查询例子在子空间中的m维坐标，用通用距离函数计算与其他音频和图像数据间的距离，与查询图像例子最近的k个图像和k个音频作为查询结果返回给用户；同样，如果查询例子是一段音频，则按照上述步骤检索出相似的音频和图像对象。

基于增量学习的相关反馈机制，用于提取用户交互中的先验知识，以修正多媒体数据集在同构子空间中的拓扑结构：系统可以在相关反馈过程中学习用户提供的感知先验知识，设Ω表示图像训练集，A表示音频训练集，定义“修正因子”γ_(i，j)＝Pos(a_i，b_j)(a_i∈Ω，b_j∈A)，用于修正不同模态媒体对象之间的相似度：Crodis_(i，j)＝CCAdis_(i，j)+γ_(i，j)，修下因子初始化为零；

当用户提交图像查询例子R，使用CCAdis(i，j)计算R在子空间中的k近邻图像集合C₁，使用Crodis(i，j)计算R在子空间中的k近邻音频集合C₂，跨媒体检索的返回结果即C₁和C₂；

在用户交互过程中，用户通过相关反馈在查询结果中标注正例P和负例N，

&ForAll; p_{i} &Element; P,

令

γ_{(R, p_{i})} = - τ, (τ > 0),

并根据CCAdis找到p_i在音频数据库A中的k-近邻T＝{t₁，...，t_j，...，t_k}，按距离的升序排列，然后以等差的方式，依次修改集合T中每个元素的γ值：

γ_{(R, t_{j})} = - τ + j \times d_{1}, (d_{1} = τ / k);

&ForAll; n_{i} &Element; N,

令

γ_{(R, n_{i})} = τ, (τ > 0),

并根据CCAdis找到n_i在音频数据库A中的k-近邻H＝{h₁，...，h_j，...，h_k}，按距离的升序排列，然后以等差的方式，依次修改集合H中每个元素的γ值：

γ_{(R, h_{i})} = τ - j \times d_{2}, (d_{2} = τ / k);

同样，当用户提交的是音频对象时，使用同样的方法更新修正因子γ_(i，j)，下一轮的检索过程按照新的相似度排列返回的结果。

根据子空间映射过程中求取的基向量，或者通过相关反馈机制，将训练集以外的其他媒体对象准确定位到同构子空间中：当用户提交的查询例子不属于训练数据集时，使用特征提取程序提取例子图像的视觉特征向量V，分下列两种情况进行新媒体对象到同构子空间的映射：

(1)如果已知新媒体对象表达的语义信息，则根据权利要求3所描述的训练得到的子窆间基向量，用线性变换的方法将向量V映射到m维的同构子空间，与训练集中的其他多媒体对象计算通用距离；

(2)如果新媒体对象表达的语义未知，采用基于内容的单模态检索，返回与查询例子相似的图像，用户标记反馈正例Z＝{z₁，...z_j}，跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)＝Pos(z₁)β₁+...+Pos(z_j)β_j，(β₁+...+β_j＝1)。

本发明的有益效果：

1)该方法突破了基于内容的多媒体检索只针对单模态的限制。提出一种全新的跨媒体检索方法。该方法同时分析两种不同模态的内容特征，挖掘特征之间在统计意义上的典型相关性；

2)子空间映射方法不但解决了不同模态间的异构性问题，而且最大程度地在子空间中保持了多模态特征之间的相关性信息，这种相关性信息实际上是一种语义关联信息，因此该方法在实现特征降维的同时融合了语义；

3)不同模态的媒体对象可以用同构的向量表示，在极坐标系下计算向量之间的相似度，即相同模态之间和不同模态之间的距离。

附图说明

图1是基于内容相关性的跨媒体检索方法的系统框架图；

图2(a)是本发明的同构子空间中在相关反馈之前的多媒体数据集分布示意图；

图2(b)是本发明的同构子空间中在相关反馈之后的多媒体数据集分布示意图；

图3(a)是本发明以“汽车”图像为检索例子采用同构子空间方法得到检索结果；

图3(b)是本发明以“汽车”图像为检索例子直接采用内容特征得到的检索结果；

图4(a)是本发明以“战争”图像为检索例子采用同构子空间方法得到的检索结果；

图4(b)是本发明以“战争”图像为检索例子直接采用内容特征得到的检索结果。

具体实施方式

不同模态媒体对象的底层内容特征，如图像的视觉特征(颜色、纹理、形状等)与音频的听觉特征(时域特征、频域特征、时频特征等)，不但特征维数异构，而且表达不同的属性，无法直接度量相似性。本发明可以同时分析异构的视觉特征与听觉特征，并以特征之间的典型相关性为依据，进行子空间映射，解决了跨媒体检索中的异构性与不可比性问题，而且子空间映射过程最大程度地保留了初始特征之间的相关性信息。本发明的基于内容相关性的跨媒体检索方法具体实施的技术方案及步骤如下：

1.训练数据的选取和标注

视觉特征和听觉特征之间的典型相关性学习，是建立在语义联系的基础上，用统计分析的方法，从底层特征中挖掘语义层次上的相互联系。训练数据的选取需要同时有图像数据和音频数据表达相似语义。例如，对于“狗”这个语义类别，选取表达“狗”外形特征的图片，以及表达“狗”叫声的音频片断作为训练数据。

在已知语义类别个数，图像数据和音频数据的语义标注未知的情况下，采用半监督式学习，结合K平均聚类的方法对数据库中所有的图像和音频数据进行标注，并聚类到不同的语义类别，具体步骤如下：

输入：未标注的图像数据集Ω和音频数据集Γ，语义类别个数Z；

输出：每个图像数据和每个音频数据所属的语义类别编号；

步骤1：对于语义类别Z_i，随机标注5个图像例子A_i，计算A_i的聚类质心ICtr_i；

步骤2：以ICtr_i为K平均聚类算法的初始输入，对整个图像数据集Ω进行聚类，在相同聚类区域的图像例子被赋予相同的语义类别编号；

步骤3：对音频数据集Γ也采用步骤1和步骤2进行训练数据的标注。

2.视觉和听觉特征的提取

对于每一个语义类别中的图像数据，提取底层视觉特征，包括：HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度，为每幅图像构造p维的图像特征矢量x_p，整个语义类别中的图像数据集构成图像特征矩阵X_(n×p)；对于每一个语义类别中的音频数据，提取底层听觉特征，包括：质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(Spectral Flux)和均方根(RMS)这四个Mpeg压缩域特征，为每一段音频例子构造q维的音频特征矢量y_q，整个语义类别中的音频数据集构成音频特征矩阵Y_(n×q)。如果音频数据的持续时间不同，提取的音频特征向量的维数也不同，本发明使用模糊聚类方法，在原始音频特征中提取相同数目的聚类质心作为音频索引。

3.容纳多语义不同模态媒体数据的同构子空间映射

在典型相关性分析的基础上，学习得到一个最优的低维子空间，最大程度地保留了原始特征向量X_(n×p)和Y_(n×q)之间相关性，算法步骤如下：

输入：图像特征矩阵X_(n×p)，音频特征矩阵Y_(n×q)；

步骤1：通过半监督学习的方式，用K-平均聚类将数据库中所有的图像数据和音频数据划分为不同的语义类别；

步骤2：在v(L)＝L^TL＝A^TX^TXA＝1；v(M)＝M^TM＝B^TY^TYB＝1的约束下，使相关系数ρ＝r(L，M)最优化，采用拉格朗日乘子法得到形式为Ax＝λBx的方程C_xyC_yy ^-1C_yxA＝λ²C_xxA，求取该方程的特征根即得到矩阵A和B的解；

4.采用通用距离函数计算相似度

当所有图像和音频数据的特征向量转换成低维子空间中的m维向量后，出现大量复数，为了计算各种模态媒体数据间的相似度，采用极坐标形式表达降维后的特征向量：x_i′＝(x_i1′，...，x_ik′，..，x_im′)，(x_ik′＝a+b·i，(a，b∈R))。因此，图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下：

{C CAdis}_{({x_{i}}^{'}, {x_{j}}^{'})} = sqrt Σ_{k = 1}^{m} ({| {x_{ik}}^{'} |}^{2} + {| {x_{jk}}^{'} |}^{2} - 2 \times | {x_{ik}}^{'} | \times | {x_{jk}}^{'} | \times {Cosθ}_{k});

β_{ik} = arctg (b / a), θ_{k} = | β_{ik} - β_{jk} |, | {x_{ik}}^{'} | = \sqrt{a^{2} + b^{2}}, k &Element; [1, m]

本发明支持单一模态的检索和跨媒体的检索，即用户提交一种模态的媒体对象作为查询，在检索结果中可以包含其他模态的媒体对象，并可以基于另一种模态对象引发新的查询。

5.相关反馈

通过基于内容的方法，学习视觉特征和听觉特征之间的典型相关性，从而在最大程度保持相关性不变的情况下实现子空间映射，解决特征异构性问题。但是由于底层内容与高层语义之间的鸿沟，使得学习结果与真实语义存在差异。通过用户相关反馈，在返回查询结果中标注正例和负例，从用户标注中学习语义信息，并修正学习得到的多媒体数据集在子空间中的拓扑结构。

设Ω表示图像训练集，A表示音频训练集，定义“修正因子”γ_(i,j)＝Pos(a_i，b_j)(a_i∈Ω，b_j∈A)，用于修正不同模态媒体对象之间的相似度：Crodis_(i，j)＝CCAdis_(i，j)+γ_(i，j)，修正因子初始化为零：当用户提交图像查询例子R，使用CCAdis(i，j)计算R在子空间中的k近邻图像集合C₁，使用Crodis(i，j)计算R在子空间中的k近邻音频集合C₂，跨媒体检索的返回结果即C₁和C₂：在用户交互过程中，用户通过相关反馈在查询结果中标注正例P和负例N，

&ForAll; p_{i} &Element; P,

令

γ_{(R, p_{i})} = - τ, (τ > 0),

γ_{(R, t_{j})} = - τ + j \times d_{1}, (d_{1} = τ / k);

&ForAll; n_{i} &Element; N,

令

γ_{(R, n_{i})} = τ, (τ > 0),

γ_{(R, h_{j})} = τ - j \times d_{2}, (d_{2} = τ / k);

同样，当用户提交的是音频对象时，使用同样的方法更新修距因子γ_(i，j)，下一轮的检索过程按照新的相似度排列返回的结果。

6.新媒体对象的定位

用户提交的单个多媒体对象，定义为新媒体对象。如果新媒体对象不在训练数据库中，也可以通过子空间基向量，用线性的方法直接定位到训练得到的子空间中，或者通过简单的用户交互，准确定位到子空间中，同时保持在子空间中与周围的多媒体对象在语义上相似。首先使用特征提取程序提取例子图像的视觉特征向量V，分下列两种情况进行新媒体对象到同构子空间的映射：

一方面，如果已知新媒体对象表达的语义信息，则根据训练得到的子空间基向量，用线性变换的方法将向量V映射到m维的同构子空间，与训练集中的其他多媒体对象计算通用距离。

另一方面，如果新媒体对象表达的语义未知，采用基于内容的单模态检索，返回与查询例子相似的图像，用户标记反馈正例Z＝{z₁，...，z_j}，跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)＝Pos(z₁)β₁+...+Pos(z_j)β_j，(β₁+...+β_j＝1)。

实施例1

如附图2所示，给出了一些训练数据集在低维同构子空间中拓扑结构的实例。下面结合本发明的方法详细说明该实例实施的具体步骤，如下：

(1)收集7个语义(鸟类、狗、汽车、战争、老虎、松鼠、猴子)的图像数据和音频数据，作为训练数据集：

(2)采用特征提取程序提取图像的HSV颜色直方图、颜色聚合矢量CCV和Tamura方向度特征，为每幅图像构造500维的视觉特征矢量，分别为7个语义类别构造70×500维的视觉特征矩阵：

(3)采用特征提取程序提取音频的质心(Centroid)、衰减截至频率(Rolloff)、频谱流量(Spectral Flux)和均方根(RMS)这四个Mpeg压缩域特征：

(4)音频例子的持续时间不同，提取出的特征向量长度也不同，采用模糊聚类方法，将不同维数的音频特征向量统一规格化成40维的向量，作为每段音频例子的索引，分别为7个语义类别构造70×40维的听觉特征矩阵；

(5)在Matlab7.0环境下，用典型相关分析函数，分别学习7个语义类别的训练数据所对应的视觉和听觉特征矩阵之间的相关性。并用线性方法进行子空间映射，将70×500和70×40的特征矩阵分别变换成70×40和70×40的新特征矩阵；

(6)根据

{CCAdis}_{({x_{i}}^{'}, {x_{j}}^{'})} = sqrt Σ_{k = 1}^{m} ({| {x_{ik}}^{'} |}^{2} + {| {x_{jk}}^{'} |}^{2} - 2 \times | {x_{ik}}^{'} | \times | {x_{jk}}^{'} | \times {Cosθ}_{k})

计算子空间中40维的图像特征向量和音频特征向量之间的距离，返回与查询例子距离最近的20幅图像和20段音频；

(7)在跨媒体检索过程中，用户可以通过人机界面进行交互，对跨媒体检索结果进行标注，系统自动学习用户提交的反馈正例和反馈负例，将提取的语义信息用来修正同构子空间中多媒体数据集的拓扑结构，即分别用

γ_{(R, t_{j})} = - τ + j \times d_{1}, (d_{1} = τ / k)

和

γ_{(R, h_{j})} = τ - j \times d_{2}, (d_{2} = τ / k)

修正正例周围和负例周围多媒体对象的拓扑结构。

图2以松鼠、鸟类和汽车为例，显示了在降维映射得到的同构子空间中，使用CCAdis度量出的媒体对象数据集的理论分布，以及经过相关反馈修正后，采用Crodis度量出的相应分布情况。在图2(a)中，与松鼠音频数据集之间CCAdis最小的图像数据集是鸟类的图像，经过相关反馈，“拉近”了松鼠音频与松鼠图像之间的Crodis距离，“推远"了松鼠音频与鸟类图像之间的Crodis距离，而松鼠图像内部的拓扑关系以及松鼠音频内部的拓扑关系基本保持不变，如图2(b)所示。

可以看到，通过本发明所述的方法，可以较好地学习到图像和音频数据间的相关性，解决了不同模态媒体数据之间的异构性问题，有效实现了跨媒体的距离度量：并且通过相关反馈，学习到了用户交互过程中的语义信息，多媒体数据集在子空间中的分布更加符合高层语义之间的关系。

实施例2

如图4所示，给出了一个“战争”语义的检索实例。下面结合本发明的方法详细说明本实例实施的具体步骤，如下：

(1)输入的是一幅“战争”语义的彩色图片作为查询例子，系统找到该幅图片对应的在同构子空间中的向量表示；

(2)采用已有的数据格式转换方法将查询例子对应的子空间向量用极坐标的方式表示出来；

(3)用通用距离函数计算这个查询例子与数据库中其他图像和音频之间的距离，返回前10个最近的图像和前10个最近的音频例子；

(4)另外直接使用查询例子的底层内容特征，而不进行子空间映射，与数据库中其他图像的内容特征进行匹配，即使用基于内容的单模态检索方法，返回前10个最相似的图像，与本发明中描述的方法得到的检索结果做比较。

本实例的运行结果在附图4中显示，其中查询例子是一个反映“战争”语义的彩色爆炸图片，用本发明描述的方法，在同构子空间中匹配并返回的结果如图(a)所示，与之对比的(b)是直接使用底层视觉特征进行匹配返回的相似图像。即使使用彩色图像作为检索例子，也可以在前10个检索结果中，返回与检索例子表达共同语义的黑白图片.

可以看到，本发明的方法可以很好地理解彩色图像和黑白图像的共同语义，实现黑白图像与彩色图像的相互检索，有效解决了内容特征上差异较大的多媒体数据在相似度上的准确度量；而采用基于内容的单模态检索方法，只能返回与查询例子在视觉特征上相似的图片。

Claims

1. 一种基于内容相关性的跨媒体检索方法，其特征在于包括以下步骤：

(1)从多媒体数据库采集不同模态的对象，即图像和音频数据；

(2)提取图像数据的视觉特征，以及音频数据的听觉特征，采用典型相关性分析提取得到视觉和听觉特征之间的典型相关性；

(6)根据子空间映射过程中求取的基向量，或者通过相关反馈机制，将训练集以外的其他媒体对象准确定位到同构子空间中；

所述的提取图像数据的视觉特征，以及音频数据的听觉特征，采用典型相关性分析提取得到视觉和听觉特征之间的典型相关性的方法为：图像的底层视觉特征构成p维的图像特征矢量，音频的底层听觉特征构成q维音频特征矢量，采用典型相关性分析同时学习图像的视觉特征X_(n×p)和音频的听觉特征Y_(n×q)，异构的特征矩阵X_(n×p)和Y_(n×q)之间相关系数计算如下：

ρ = r (L, M) = \frac{A^{T} C_{XY} B}{\sqrt{A^{T} C_{XX} B^{T} C_{YY} B}}, (C_{XY} = [\begin{matrix} C_{XX} & C_{XY} \\ C_{YX} & C_{YY} \end{matrix}] = C) - - - 1

X_{(n \times p)} \overset{A_{(p \times m)}}{&RightArrow;} L_{(n \times m)}; - - - 2

其中，ρ为相关系数，A和B为线性变换，A表示维数为p×m的矩阵A_(p×m)，B表示维数为q×m的矩阵B_(q×m)，L表示维数为n×m的矩阵L_(n×m)，M表示维数为n×m的矩阵M_(n×m)，r(L，M)表示矩阵L和M之间的相关系数，X表示维数为n×p的矩阵X_(n×p)，Y表示维数为n×q的矩阵Y_(n×q)，p和q分别表示图像和音频的特征维数，n为样本个数，m为子空间维数，C_XY、C_YX、C_XX、C_YY和C表示协方差矩阵，T表示矩阵的转置，按公式2把具有较多个变量的特征矩阵X和Y之间的相关化为较少组合变量L与M间的相关，A和B的数值分布确定X与Y的空间相关分布形式，A和B的数值大小确定所对应变量的重要程度；

所述的基于增量学习的相关反馈机制，用于提取用户交互中的先验知识，以修正多媒体数据集在同构子空间中的拓扑结构的方法为：系统可以在相关反馈过程中学习用户提供的感知先验知识，设Ω表示图像训练集，A表示音频训练集，定义“修正因子”γ_(i，j)＝Pos(a_i，b_j)(a_i∈Ω，b_j∈A)，用于修正不同模态媒体对象之间的相似度：Crodis_(i，j)＝CCAdis_(i，j)+γ_(i，j)，修正因子初始化为零；

&ForAll; p_{i} &Element; P,

令γ(R，p_i)＝-τ，(τ＞0)，并根据CCAdis找到p_i在音频数据库A中的k-近邻T＝{t₁，...，t_j，...，t_k}，按距离的升序排列，然后以等差的方式，依次修改集合T中每个元素的γ值：

γ (R, t_{j}) = - τ + j \times d_{1}, (d_{1} = τ / k);

&ForAll; n_{i} &Element; N,

令γ(R，n_i)＝τ，(τ＞0)，并根据CCAdis找到n_i在音频数据库A中的k-近邻H＝{h₁，...，h_j，...，h_k}，按距离的升序排列，然后以等差的方式，依次修改集合H中每个元素的γ值：γ(R，h_j)＝τ-j×d₂，(d₂＝τ/k)；

同样，当用户提交的是音频对象时，使用同样的方法更新修正因子γ_(i，j)，下一轮的检索过程按照新的相似度排列返回的结果；

所述的根据子空间映射过程中求取的基向量，或者通过相关反馈机制，将训练集以外的其他媒体对象准确定位到同构子空间中的方法为：当用户提交的查询例子不属于训练数据集时，使用特征提取程序提取例子图像的视觉特征向量V，分下列两种情况进行新媒体对象到同构子空间的映射：

(1)如果已知新媒体对象表达的语义信息，则根据子空间基向量，用线性变换的方法将向量V映射到m维的同构子空间，与训练集中的其他多媒体对象计算通用距离；

(2)如果新媒体对象表达的语义未知，采用基于内容的单模态检索，返回与查询例子相似的图像，用户标记反馈正例Z＝{z₁，...，z_j}，跨媒体检索系统用加权平均方法计算新媒体对象在m维同构子空间中的坐标Pos(V)＝Pos(z₁)β₁+...+Pos(z_j)β_j，(β₁+...+β_j＝1)，其中β₁，...，β_j表示权重参数，Pos(V)表示向量V对应的坐标，Pos(z₁)和Pos(z_j)分别表示z₁和z_j的坐标。

2. 根据权利要求1所述的基于内容相关性的跨媒体检索方法，其特征在于，所述的采用同构子空间映射算法，将图像数据的视觉特征向量和音频数据的听觉特征向量同时映射到一个低维的同构子空间中，实现不同模态媒体数据的统一表达的方法为：同构子空间映射算法在典型相关性分析的基础上，学习得到一个最优的低维子空间，最大程度地保留了原始特征向量X_(n×p)和Y_(n×q)之间相关性，其中n表示样本个数，p表示图像特征，q表示音频特征的维数，算法步骤如下：

输入：图像特征矩阵X_(n×p)，音频特征矩阵Y_(n×q)；

输出：所有图像数据和音频数据在低维子空间中的向量表示L_(n×m)和M_(n×m)，其中n表示样本个数，m表示子空间维数；

步骤2：在公式3的约束下，使相关系数ρ＝r(L，M)最优化，

v(L)＝L^TL＝A^TX^TXA＝1；v(M)＝M^TM＝B^TY^TYB＝1 3

其中，L表示图像特征矩阵X经过线性变换A后得到的低维矩阵，M表示音频特征矩阵Y经过线性变换B后得到的低维矩阵，v(L)和v(M)分别表示对矩阵L和M进行变换得到的值为1的等式，r(L，M)表示矩阵L和M之间的相关系数，T表示矩阵的转置运算，采用拉格朗日乘子法得到形式为Ax＝λBx的方程C_xyC_yy ^-1C_yxA＝λ²C_xxA，其中x，y分别表示图像特征向量和音频特征向量，C_xy，C_yy，C_yx，C_xx是x和y构成的协方差矩阵，λ是常系数，求取该方程的特征根即得到矩阵A和B的解；

步骤3：线性方法构造同构子空间，即分别用基向量A和B将图像特征向量和音频特征向量映射成m维坐标L_(n×m)和M_(n×m)，

其中A和B为线性变换，n为样本个数，m为子空间维数，C表示协方差矩阵，T表示矩阵的转置，X、Y为特征矩阵，L、M为组合变量。

3. 根据权利要求1所述的这种基于内容相关性的跨媒体检索方法，其特征在于，所述的采用极坐标的方式定义通用距离函数，度量不同模态媒体数据间的相关性大小，并以此为依据进行跨媒体检索的方法为：图像和音频数据在m维子空间中用极坐标的形式定义特征向量x_i′＝(x_i1′，...，x_ik′，...，x_im′)，其中x_ik′表示a+b·i，(a，b∈R)的复数，图像与图像之间、音频与音频之间、以及图像与音频数据之间的相似度用通用距离函数计算如下：

CCAdis ({x_{i}}^{'}, {x_{j}}^{'}) = sqrt Σ_{k = 1}^{m} ({| {x_{ik}}^{'} |}^{2} + {| {x_{jk}}^{'} |}^{2} - 2 \times | {x_{ik}}^{'} | \times | {x_{jk}}^{'} | {\times Cosθ}_{k});

β_ik＝arctg(b/a)，θ_k＝|β_ik-β_jk|,

| {x_{ik}}^{'} | = \sqrt{a^{2} + b^{2}}, k &Element; [1, m]

k∈[1,m]

其中，x_i′和x_j′表示任意两个多媒体对象，β_ik和β_jk分别表示x_i′和x_j′在极坐标系下第k维分量的极角，θ_k表示向量x_i′的第k维和向量x_j′的第k维之间的夹角，|x_ik′|表示对向量x_i′的第k维求模，|x_jk′|表示对向量x_j′的第k维求模，sqrt表示根号运算，a和b表示向量x_i′的两个坐标分量，m表示子空间维数，检索过程中用户通过人机接口提供查询例子图像，如果该例子在训练数据库中，则根据子空间映射结果找到查询例子在子空间中的m维坐标，用通用距离函数计算与其他音频和图像数据间的距离，与查询图像例子最近的k个图像和k个音频作为查询结果返回给用户；同样，如果查询例子是一段音频，则按照上述步骤检索出相似的音频和图像对象。