CN102521368B

CN102521368B - 基于相似度矩阵迭代的跨媒体语义理解和优化方法

Info

Publication number: CN102521368B
Application number: CN 201110424625
Authority: CN
Inventors: 张鸿; 胡威
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-08-21
Anticipated expiration: 2031-12-16
Also published as: CN102521368A

Abstract

本发明公开了一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。首先对图像数据库中提取的视觉特征向量进行主成分提取和去噪，对音频数据库中提取的听觉特征向量进行模糊聚类得到音频索引矩阵，进而根据核函数和典型相关性分析方法，构建低维子空间S；利用多模态样本在子空间中的多重数据关系进行相似度矩阵迭代，通过图像和音频之间的跨媒体相关性来优化图像相似度矩阵A和音频相似度矩阵B；根据跨媒体距离度量，计算跨媒体候选集，并根据用户的相关反馈，计算未标记样本成为正例或成为负例的条件概率，对跨媒体语义理解进行优化。该方法挖掘了多模态样本之间的多重数据关系，得到了较好的检索结果。

Description

基于相似度矩阵迭代的跨媒体语义理解和优化方法

技术领域

本发明属于多媒体内容分析与语义理解技术领域。特别是涉及一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。

背景技术

随着信息技术的高速发展，文字、图像、音频和视频等不同类型的多媒体数据已经在人们的日常生活中变得十分普遍，多媒体数据从音、形、意等不同方面绘声绘色地表达了丰富的语义信息，并通过Web页面、数字图书馆、多媒体百科全书等载体进行共享。此外，多媒体数据本身具有半结构化和非结构化的特点，并且底层内容特征彼此异构。这就使得对不同类型多媒体数据的有效检索变得十分困难。传统的多媒体检索技术大多是针对单一类型的多媒体数据，如：图像检索，这种传统的检索方式难以实现对图像、音频、视频等不同类型多媒体数据的综合检索和灵活跨越。故跨媒体检索技术应运而生，并迅速成为多媒体研究领域的前沿热点。

从认知神经心理学的角度来看，人脑对外界事物的认知需要跨越视觉、听觉等不同感官传递的信息，以做出综合判断。类似地，人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据，以形成对多媒体语义的整体理解。作为一种新兴的研究方向，跨媒体检索源于基于内容的多媒体检索研究，后者在九十年代初期被提出，并一直是计算机视觉领域一个非常活跃的研究方向，综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识，较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而，基于内容的多媒体检索技术仍难以解决新的问题，即不同类型多媒体数据的综合检索和灵活跨越，跨媒体检索技术主要是为了解决上述问题。更进一步来看，特征是语义的载体，为了更好地理解跨媒体语义，提高跨媒体检索的效率，需要重点关注对不同类型多媒体数据中提取的各种异构特征的综合分析与学习。

最近几年，越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索，取得了较好的研究成果，其中较有代表性的可归纳为以下几类：非线性流形学习、线性迭代和映射、统计概率模型、图模型。然而，目前的这些研究工作大多是借助文本标注、Pagelink等语义信息，建立图像、音频、视频等不同类型多媒体样本之间的语义关联，而不是从在特征层次上，挖掘多媒体特征所表达的潜在语义关系。因此，现有研究大都或多或少地存在一些缺陷和不足，尤其体现在如何从多模态数据的视觉特征和听觉特征来理解跨媒体语义，并融合多模态数据中的多种相似度关系，对跨媒体语义理解的结果进行优化这些问题的研究上。

发明内容

本发明旨在克服现有技术缺陷，目的在于提供一种基于相似度矩阵迭代的跨媒体语义理解和检索方法，该方法能够优化不同类型多媒体数据的相似度计算结果，进一步理解跨媒体语义，能获得较好的检索效率。

为实现上述目的，本发明采用的技术方案包括以下步骤：

第一步：基于多模态特征分析的子空间映射

(1)从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，构成视觉特征向量，采用主成分分析方法进行降维和去噪，得到视觉特征矩阵X。

从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征，构成听觉特征向量，采用模糊聚类的方法对听觉特征向量进行索引，得到听觉特征矩阵Y。

(2)通过非线性映射Φ(X)，Ψ(Y)将视觉特征矩阵X和听觉特征矩阵X映射到核空间，在核空间中采用典型相关性分析方法进行相关性保持映射，计算目标函数：

max[Φ(X)^TΦ(X)Ψ(Y)^TΨ(Y)μ] (1)

式(1)中：μ表示组合系数；

T表示转置运算；

max表示最大值。

通过拉格朗日乘子法求解式(1)中的目标函数，映射得到低维子空间S。

第二步、基于矩阵迭代的语义理解与相似度优化

根据低维子空间S中的欧氏距离，计算得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B，采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代：

\{\begin{matrix} A^{n} = αA + (1 - α) γ {CB}^{n} C^{T} \\ B^{n} = βB + (1 - β) γ C^{T} A^{n - 1} C \end{matrix}, α, β, γ &Element; (0,1) - - - (2)

式(2)中：α表示图像相似度矩阵A的权重参数；

β表示音频相似度矩阵B的权重参数；

γ表示衰减因子；

n表示迭代的次数，值域为正整数；

T表示转置运算。

若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中，变化量趋近于零时，则式(2)达到收敛状态，即完成对图像相似度矩阵A和音频相似度矩阵B的优化。

第三步、跨媒体距离度量

对用户提交的查询例子，根据低维子空间S中的跨媒体距离度量，计算与查询例子相关的跨媒体候选集，跨媒体距离度量如下：

D(r，k)＝min(C_rk，z)，且

z = \{\begin{matrix} \min (C_{rj} + A_{kj}), if    r &Element; Ω \\ \min (C_{rj} + B_{kj}), if  r &Element; I \end{matrix} - - - (3)

式(3)中：r表示查询例子；

k表示数据库中与查询例子不同模态的样本；

min表示取最小值；

Ω表示音频数据库；

I表示图像数据库；

C_rk表示跨媒体相关性矩阵C中第r行第k列的元素值；

C_rj表示跨媒体相关性矩阵C中第r行第j列的元素值；

B_kj表示音频相似度矩阵B中第k行第j列的元素值；

A_kj表示图像相似度矩阵A中第k行第j列的元素值。

(2)根据式(3)，找出与查询例子之间的跨媒体距离度量结果较小的样本，作为跨媒体候选集，返回给用户做相关反馈。

第四步、基于相关反馈的条件概率计算

(1)用P表示用户在相关反馈过程中标记的正例集合，N表示用户在相关反馈过程中标记的负例集合，定义正反馈向量f⁺和负反馈向量，f^-，维数均为样本数目，赋值如下：

正反馈向量f⁺：所有元素初值为0，将集合P中正样本在f⁺中对应位置的元素值置为1；

负反馈向量f^-：所有元素初值为0，将集合N中负样本在f^-中对应位置的元素值置为-1。

(2)计算未标注样本成为正例的条件概率f⁺(k)和未标注样本成为负例的条件概率f^-(k)：

f^{+} (k) = \{\begin{matrix} \max (A (k, :) \cdot f^{+}), if  r &Element; Ω \\ \max (B (k, :) \cdot f^{+}), if  r &Element; I \end{matrix} - - - (4)

f^{-} (k) = \{\begin{matrix} \min (A (k, :) \cdot f^{-}), if  r &Element; Ω \\ \min (B (k, :) \cdot f^{-}), if  r &Element; I \end{matrix} - - - (5)

式(4)和(5)中：A(k，：)表示图像相似度矩阵A中第k行的所有元素；

B(k，：)表示音频相似度矩阵B中第k行的所有元素；

r表示查询例子；

Ω表示音频数据库；

I表示图像数据库；

max表示取最大值；

min表示取最小值；

f⁺表示正反馈向量；

f^-表示负反馈向量。

第五步、跨媒体语义理解的优化

(1)根据条件概率的计算结果，按照下述规则，计算需要优化的四种样本集：

规则1：选择使f⁺(k)+f^-(k)取值较大的样本，构成第一集合V₁；

规则2：选择使|f^-(k)|-f⁺(k)取值较大的样本，构成第二集合V₂；

规则3：选择使f⁺(k)-|f⁺(k)+f^-(k)|取值较大的样本，构成第三集合V₃；

规则4：选择使|f^-(k)|-|f⁺(k)+f^-(k)|取值较大的样本，构成第四集合V₄。

(2)对于第一集合V₁和第三集合V₃中的样本，减小与正例集合P之间的距离：C_xy＝C_xy·ε，(x∈V₁∪V₃，y∈P，0＜ε＜1)。其中ε为常参数，即：跨媒体相关性矩阵C中第x行第y列的元素值C_xy乘以一个大于零且小于1的常数ε。

对于第二集合V₂和第四集合V₄中的样本，减小与负例集合N之间的距离，即：C_xy＝C_xy·ε，(x∈V₂∪V₄，y∈N)。

对于正例集合P中的样本，缩小与查询例子之间的距离，即：C_xr＝C_xr·ε，(x∈P)，其中，r表示查询例子。

对于负例集合N中的样本，增大与查询例子之间的距离，即：C_xr＝C_xr·λ，(x∈N，λ＞1)，其中，λ为常参数。

(3)按照式(3)再次计算出与查询例子最相关的不同模态的多媒体样本，作为优化后的跨媒体检索结果返回给用户。

由于采用上述技术方案，本发明与现有技术相比，具有的有益效果是：

(1)分析了多模态数据的视觉特征和听觉特征，通过对特征共生矩阵的奇异值分解，构建低维子空间；

(2)利用多模态数据中图像与图像、图像与音频，以及音频与音频之间的相似度矩阵，进行循环迭代，对相似度计算结果进行优化；

(3)对相关反馈中用户标注的正例和负例进行主动学习，计算出未标注样本成为正例或成为负例的条件概率，优化跨媒体语义理解的结果，获得了较好的检索效率。

附图说明

图1为本发明的一种方法的示意框图；

图2为图1方法的以“老虎”音频片段为查询样例进行跨媒体检索得到的相关图像结果。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述，并非对其保护范围的限制。

实施例1

一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。该方法如图1所示，其具体步骤如下：

第一步、基于多模态特征分析的子空间映射

提取多模态的底层特征，通过非线性映射在核空间进行典型相关性分析，得到低维子空间S。

max[Φ(X)^TΦ(X)Ψ(Y)^TΨ(Y)μ]

(1)

式(1)中：μ表示组合系数；

T表示转置运算；

max表示最大值。

第二步、基于矩阵迭代的语义理解与相似度优化

根据低维子空间S中的欧氏距离，以及距离与相似度之间的反比例关系，计算低维子空间中多模态数据间的相似度，进行跨媒体语义理解，得到图像与音频之间的跨媒体相关性矩阵C、图像相似度矩阵A和音频相似度矩阵B，采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代：

\{\begin{matrix} A^{n} = αA + (1 - α) γ {CB}^{n} C^{T} \\ B^{n} = βB + (1 - β) γ C^{T} A^{n - 1} C \end{matrix}, α, β, γ &Element; (0,1) - - - (2)

式(2)中：α表示图像相似度矩阵A的权重参数；

β表示音频相似度矩阵B的权重参数；

γ表示衰减因子；

n表示迭代的次数，值域为正整数；

T表示转置运算。

采用式(2)进行循环迭代的初始条件为n＝2，若图像相似度矩阵A和音频相似度矩阵B在式(2)的第n次迭代和第n-1次迭代过程中，变化量趋近于零时，则式(2)达到收敛状态，即完成对图像相似度矩阵A和音频相似度矩阵B的优化，使之更加准确地反映低维子空间中的语义关系，具体的迭代步骤为：

①将矩阵A和矩阵C中的数据关系传递到矩阵B中：

Bⁿ＝βB+(1-β)γC^TA^n-1C；

②将矩阵B和矩阵C中的数据关系传递到矩阵A中：Aⁿ＝αA+(1-α)γCBⁿC^T，若Bⁿ-B^n-1趋近于零，且Aⁿ-A^n-1也趋近于零，即达到收敛状态，否则继续③；

③设置n＝n+1，重复①和②。

第三步、跨媒体距离度量

在低维子空间S中设计跨媒体距离度量方法，计算与查询例子最相关的、不同类型的多媒体数据，作为跨媒体候选集，步骤如下：

(1)对用户提交的查询例子，根据低维子空间S中的跨媒体距离度量，计算与查询例子相关的跨媒体候选集，低维子空间中的跨媒体距离度量：

D(r，k)＝min(C_rk，z)，且

z = \{\begin{matrix} \min (C_{rj} + A_{kj}), if    r &Element; Ω \\ \min (C_{rj} + B_{kj}), if  r &Element; I \end{matrix} - - - (3)

式(3)中：r表示查询例子；

k表示数据库中与查询例子不同模态的样本；

min表示取最小值；

Ω表示音频数据库；

I表示图像数据库；

C_rk表示跨媒体相关性矩阵C中第r行第k列的元素值；

C_rj表示跨媒体相关性矩阵C中第r行第j列的元素值；

B_kj表示音频相似度矩阵B中第k行第j列的元素值；

A_kj表示图像相似度矩阵A中第k行第j列的元素值。

第四步、基于相关反馈的条件概率计算

根据用户对跨媒体候选集的相关反馈，计算数据库中未标记样本成为正例或成为负例的条件概率，步骤如下：

f^{+} (k) = \{\begin{matrix} \max (A (k, :) \cdot f^{+}), if  r &Element; Ω \\ \max (B (k, :) \cdot f^{+}), if  r &Element; I \end{matrix} - - - (4)

f^{-} (k) = \{\begin{matrix} \min (A (k, :) \cdot f^{-}), if  r &Element; Ω \\ \min (B (k, :) \cdot f^{-}), if  r &Element; I \end{matrix} - - - (5)

B(k，：)表示音频相似度矩阵B中第k行的所有元素；

r表示查询例子；

Ω表示音频数据库；

I表示图像数据库；

max表示取最大值；

min表示取最小值；

f⁺表示正反馈向量；

f^-表示负反馈向量。

第五步、跨媒体语义理解的优化

(2)对于第一集合V₁和第三集合V₃中的样本，减小与正例集合P之间的距离：C_xy＝C_xy·ε，(x∈V₁∪V₃，y∈P，0＜ε＜1)，其中ε为常参数，即：跨媒体相关性矩阵C中第x行第y列的元素值C_xy乘以一个大于零且小于1的常数ε。

实施例2

一种基于相似度矩阵迭代的跨媒体语义理解和检索方法。如附图2所示，

以“老虎”音频片段为查询例子进行跨媒体检索，其具体步骤如下：

第一步：基于多模态特征分析的子空间映射

(1)收集8个语义的图像和音频数据集，包括：爆炸、闪电、汽车、轮船、老虎、狗、鸟类、海豚，每个类别包括100幅图像和50段音频，作为训练数据集和测试数据集；从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，构成视觉特征向量，采用主成分分析方法进行降维和去噪，得到视觉特征矩阵X，其中，每个语义类别的图像训练数据对应一个100×50维的视觉特征矩阵。

从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征，构成听觉特征向量，采用模糊聚类的方法对听觉特征向量进行索引，得到听觉特征矩阵Y，其中，每个语义类别的音频训练数据构成50×40维的听觉特征矩阵。

第一步中第(2)同实施例1。

第二步、基于矩阵迭代的语义理解与相似度优化

根据低维子空间S中的欧氏距离，根据距离与相似度之间的反比例关系，计算得到800×400维的图像与音频之间的跨媒体相关性矩阵C、800×800维的图像相似度矩阵A和400×400维的音频相似度矩阵B，采用下列公式对图像相似度矩阵A和音频相似度矩阵B进行循环迭代：

\{\begin{matrix} A^{n} = αA + (1 - α) γ {CB}^{n} C^{T} \\ B^{n} = βB + (1 - β) γ C^{T} A^{n - 1} C \end{matrix}, α, β, γ &Element; (0,1) - - - (2)

式(2)中：α表示图像相似度矩阵A的权重参数；

β表示音频相似度矩阵B的权重参数；

γ表示衰减因子；

n表示迭代的次数，值域为正整数；

T表示转置运算。

第三步、跨媒体距离度量

(1)用r表示用户提交的“老虎”音频的查询例子，k表示数据库中的图像样本，根据低维子空间S中的跨媒体距离度量，计算与查询例子r最相关的图像候选集，当查询例子为音频时，低维子空间中图像候选集的跨媒体距离度量如下：

D(r，k)＝min(C_rk，min(C_rj+A_kj)) (3)

式(3)中：min表示取最小值；

C_rk表示跨媒体相关性矩阵C中第r行第k列的元素值；

C_rj表示跨媒体相关性矩阵C中第r行第j列的元素值；

A_kj表示图像相似度矩阵A中第k行第j列的元素值。

(2)根据式(3)，找出与查询例子之间的跨媒体距离度量结果较小的前16个图像，作为跨媒体候选集，给用户进行相关反馈。

第四步、基于相关反馈的条件概率计算

(1)用户标注3个正例和3个负例，P表示用户在相关反馈过程中标记的正例集合，N表示用户在相关反馈过程中标记的负例集合，定义正反馈向量f⁺和负反馈向量，f^-，维数均为样本数目，赋值如下：

正反馈向量f⁺：所有元素初值为0，将集合P中3个正样本图像在f⁺中对应位置的元素值置为1；

负反馈向量f^-：所有元素初值为0，将集合N中3个负样本图像在f^-中对应位置的元素值置为-1。

(2)对用户提交的“老虎”音频的查询例子，计算未标注的图像样本成为正例的条件概率f⁺(k)和未标注样本成为负例的条件概率

f^-(k)：

f⁺(k)＝max(A(k，：)·f⁺) (4)

f^-(k)＝min(A(k，：)·f^-) (5)

max表示取最大值；

min表示取最小值；

f⁺表示正反馈向量；

f^-表示负反馈向量。

第五步、跨媒体语义理解的优化

(1)同实施例1。

(2)同实施例1。

(3)按照式(3)再次计算出与音频查询例子最相关的前16个图像，作为优化后的查询结果返回给用户，如图2所示，在返回的图像中有12个是“老虎”图像，说明系统挖掘和利用了不同类型的数据关系，较好地理解了跨媒体语义，查准率较高。

本具体实施方式与现有技术相比，具有的有益效果是：

(3)对相关反馈中用户标注的正例和负例进行主动学习，计算出未标注样本成为正例或成为负例的条件概率，优化跨媒体语义理解的结果。

Claims

1.一种基于相似度矩阵迭代的跨媒体语义理解和检索方法，其特征在于包括如下步骤：

第一步：基于多模态特征分析的子空间映射

(1)从图像数据库中提取HSV颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，构成视觉特征向量，采用主成分分析方法进行降维和去噪，得到视觉特征矩阵X；

从音频数据库中提取质心、衰减截至频率、频谱流量和均方根四种音频特征，构成听觉特征向量，采用模糊聚类的方法对听觉特征向量进行索引，得到听觉特征矩阵Y；

（2）通过非线性映射Φ(X),Ψ(Y)将视觉特征矩阵X和听觉特征矩阵Y映射到核空间，在核空间中采用典型相关性分析方法进行相关性保持映射，计算目标函数：

max[Φ(X)^TΦ(X)Ψ(Y)^TΨ(Y)μ] （1）

式（1）中：μ表示组合系数，

T表示转置运算，

max表示最大值，

通过拉格朗日乘子法求解式（1）中的目标函数，映射得到低维子空间S；

第二步、基于矩阵迭代的语义理解与相似度优化

\{\begin{matrix} A^{n} = αA + (1 - α) γ {CB}^{n} C^{T} \\ B^{n} = βB + (1 - β) γ C^{T} A^{n - 1} C \end{matrix}, α, β, γ &Element; (0,1) - - - (2)

式（2）中：α表示图像相似度矩阵A的权重参数，

β表示音频相似度矩阵B的权重参数，

γ表示衰减因子，

n表示迭代的次数，值域为正整数，

T表示转置运算；

若图像相似度矩阵A和音频相似度矩阵B在式（2）的第n次迭代和第n-1次迭代过程中，变化量趋近于零时，则式（2）达到收敛状态，即完成对图像相似度矩阵A和音频相似度矩阵B的优化；

第三步、跨媒体距离度量

D(r,k)=min(C_rk,z),且

z = \{\begin{matrix} \min (C_{rj} + A_{kj}), ifr &Element; Ω \\ \min (C_{rj} + B_{kj}), ifr &Element; I \end{matrix} - - - (3)

式（3）中：r表示查询例子，

k表示数据库中与查询例子不同模态的样本，

min表示取最小值，

Ω表示音频数据库，

I表示图像数据库，

C_rk表示跨媒体相关性矩阵C中第r行第k列的元素值，

C_rj表示跨媒体相关性矩阵C中第r行第j列的元素值，

B_kj表示音频相似度矩阵B中第k行第j列的元素值，

A_kj表示图像相似度矩阵A中第k行第j列的元素值；

根据式（3），找出与查询例子之间的跨媒体距离度量结果较小的样本，作为跨媒体候选集，返回给用户做相关反馈；

第四步、基于相关反馈的条件概率计算

（1）用P表示用户在相关反馈过程中标记的正例集合，N表示用户在相关反馈过程中标记的负例集合，定义正反馈向量f⁺和负反馈向量,f^-，维数均为样本数目，赋值如下：

负反馈向量f^-：所有元素初值为0，将集合N中负样本在f^-中对应位置的元素值置为-1；

（2）计算未标注样本成为正例的条件概率f⁺(k)和未标注样本成为负例的条件概率f^-(k)：

f^{+} (k) = \{\begin{matrix} \max (A (k, :) \cdot f^{+}), ifr &Element; Ω \\ \max (B (k, :) \cdot f^{+}), ifr &Element; I \end{matrix} - - - (4)

f^{-} (k) = \{\begin{matrix} \min (A (k, :) \cdot f^{-}), ifr &Element; Ω \\ \min (B (k, :) \cdot f^{-}), ifr &Element; I \end{matrix} - - - (5)

式（4）和（5）中：A(k,:)表示图像相似度矩阵A中第k行的所有元素，

B(k,:)表示音频相似度矩阵B中第k行的所有元素，

r表示查询例子，

Ω表示音频数据库，

I表示图像数据库，

max表示取最大值，

min表示取最小值，

f⁺表示正反馈向量，

f^-表示负反馈向量；

第五步、跨媒体语义理解的优化

规则1：选择使f⁺(k)+f^-(k)取值较大的样本，构成第一集合V₁，

规则2：选择使|f^-(k)|-f⁺(k)取值较大的样本，构成第二集合V₂，

规则3：选择使f⁺(k)-|f⁺(k)+f^-(k)|取值较大的样本，构成第三集合V₃，

规则4：选择使|f^-(k)|-|f⁺(k)+f^-(k)|取值较大的样本，构成第四集合V₄；

(2)对于第一集合V₁和第三集合V₃中的样本，减小与正例集合P之间的距离:C_xy=C_xy·ε,(x∈V₁∪V₃,y∈P,0<ε<1)，其中ε为常参数，即：跨媒体相关性矩阵C中第x行第y列的元素值C_xy乘以一个大于零且小于1的常数ε；

对于第二集合V₂和第四集合V₄中的样本，减小与负例集合N之间的距离，即：C_xy=C_xy·ε,(x∈V₂∪V₄,y∈N)；

对于正例集合P中的样本，缩小与查询例子之间的距离，即：C_xr=C_xr·ε,(x∈P)，其中，r表示查询例子；

对于负例集合N中的样本，增大与查询例子之间的距离，即：C_xr=C_xr·λ,(x∈N,λ>1)，其中，λ为常参数；

(3)按照式（3）再次计算出与查询例子最相关的不同模态的多媒体样本，作为优化后的跨媒体检索结果返回给用户。