CN103995903B

CN103995903B - 基于同构子空间映射和优化的跨媒体检索方法

Info

Publication number: CN103995903B
Application number: CN201410260190.0A
Authority: CN
Inventors: 张鸿; 聂加梅; 张延鹏
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2014-06-12
Filing date: 2014-06-12
Publication date: 2017-04-12
Anticipated expiration: 2034-06-12
Also published as: CN103995903A

Abstract

本发明公开了一种基于同构子空间映射和优化的跨媒体检索方法。首先，从图像数据库和音频数据库中分别提取视觉特征和听觉特征，得到相应的视觉特征矩阵A和听觉特征矩阵B，在此基础上，采用基于高维核空间的典型相关性分析，映射得到同构子空间Z；然后，分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G(V,E)，得到相应的权重矩阵W和拉普拉斯矩阵L；对目标函数进行求解，得出优化后的同构子空间Y的值；最后，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回。该方法建立了能够同时容纳图像样本和音频样本的同构子空间，并且进行了优化，得到了较好的跨媒体检索结果。

Description

基于同构子空间映射和优化的跨媒体检索方法

技术领域

本发明涉及多媒体内容分析和语义理解技术领域，特别是涉及一种基于同构子空间映射和优化的跨媒体检索方法。

背景技术

随着多媒体技术和网络技术的高速发展，文字已不再是人们接触到的主要多媒体内容。图像、音频和视频等不同类型的多媒体数据已经遍布各种网络终端。这些丰富的多媒体数据表达了大量的语义信息，并且彼此之间存在错综复杂的关联，比如：底层内容特征上的统计关系、网页之间的链接关系等。如何有效的管理大量不同类型的多媒体数据，并且提供灵活、高效的跨媒体检索，是多媒体内容分析和语义理解领域所面临的新挑战。

多媒体数据在数据类型和数据量上的急速膨胀，使得传统的多媒体检索技术难以对灵活、高效的跨媒体检索方式提供支持。在跨媒体检索模式下，用户可以提交不同类型的多媒体数据作为查询样本，系统会从不同类型的多媒体数据库中，找到与查询样本在语义上相关的数据，作为跨媒体检索结果返回给用户。然而，传统的多媒体检索技术大多是针对单一类型的数据，如：图像检索，这种传统的检索方式难以实现对图像、音频等不同类型多媒体数据的综合检索和灵活跨越。跨媒体检索技术应运而生，并迅速成为多媒体研究领域的前沿热点。

实际上，人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据，以形成对多媒体语义的整体理解。作为一种新兴的研究方向，跨媒体检索源于基于内容的多媒体检索研究，后者在九十年代初期被提出，并一直是计算机视觉领域一个非常活跃的研究方向，综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识，较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而，面临当前环境下丰富的、类型各异的多媒体数据，传统基于内容的多媒体检索技术难以解决对不同类型多媒体数据的子空间学习、跨媒体相关性度量等新的问题。跨媒体检索技术主要是为了解决上述问题。

为了更好地理解跨媒体语义，提高跨媒体检索的效率，需要重点关注对不同类型的、异构的多媒体特征的同构子空间学习。最近几年，越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索，取得了较好的研究成果，其中较有代表性的可归纳为以下几类：深度学习、统计关系模型、非线性流形学习、稀疏特征分析等。然而，目前的这些研究工作大多是借助文本标注、网页链接等直接语义关联，以建立图像、音频、视频等不同类型多媒体样本之间的关联模型，很少从底层内容特征层面上，分析多媒体数据在同构子空间中的潜在语义关系。因此，现有研究大都或多或少地存在一些缺陷和不足，尤其体现在如何从底层的视觉特征和听觉特征来进行同构子空间分析和映射，通过挖掘不同类型多媒体数据在同构子空间中的几何拓扑和距离关系，对同构子空间进行优化这些问题的研究上。

发明内容

本发明旨在克服现有的技术缺陷，目的在于提供一种基于同构子空间映射和优化的跨媒体检索方法，该方法能够构建容纳图像样本和音频样本的同构子空间，并根据图像样本和音频样本之间的距离关系，优化同构子空间，进一步提高跨媒体检索效率。

为实现上述目的，本发明采用如下技术方案：

一种基于同构子空间映射和优化的跨媒体检索方法，包括以下步骤：

第一步、基于视听觉特征分析的同构子空间映射

从图像数据库和音频数据库中分别提取视觉特征和听觉特征，得到视觉特征矩阵A和听觉特征矩阵B；通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；在高维核空间中进行相关性保持映射，得到同构子空间Z；

第二步、构建跨媒体加权近邻图

分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G(V,E)，进行定量分析，得到相应的权重矩阵W和拉普拉斯矩阵L；

第三步、基于目标函数最小化的同构子空间优化

对目标函数进行求解，得出优化后的同构子空间Y的值；

第四步、跨媒体距离度量和检索

当用户提交查询样本进行跨媒体检索时，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回。

进一步的，第一步所述的基于视听觉特征分析的同构子空间映射包括：

(1)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，得到视觉特征矩阵A；

(2)从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征，采用模糊聚类的方法对听觉特征进行索引，将每个音频样本的听觉特征都统一到相同的维数，得到听觉特征矩阵B；

(3)通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；

(4)在高维核空间中，采用典型相关性分析方法进行相关性保持映射，计算目标函数：

max[Φ(A)^TΦ(A)Ψ(B)^TΨ(B)μ] (1)

式(1)中μ表示组合系数，

T表示转置运算，

max表示最大值，

Φ(A)表示视觉特征矩阵A的典型相关性因子，

Ψ(B)表示听觉特征矩阵B的典型相关性因子，

(5)通过拉格朗日乘子法求解式(1)中的目标函数，计算Φ(A)和Ψ(B)的值；

(6)通过矩阵变换Φ(A)^TA和Ψ(B)^TB，对视觉特征矩阵A和听觉特征矩阵B进行降维，将所有图像样本和音频样本映射到同构子空间Z。

所述第二步的构建跨媒体加权近邻图包括：

(1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合；

计算集合S中任意两个样本s_i和s_j之间的欧氏距离Dis(s_i,s_j)，其中，s_i表示集合S中的第i个样本，s_j表示集合S中的第j个样本，s_i和s_j可以是图像样本或音频样本，i，j均为大于等于1的自然数；

(2)构建跨媒体加权近邻图G(V,E)，其中V表示跨媒体加权近邻图中的顶点，由集合S中所有图像样本和音频样本构成，E表示顶点之间的边；

(3)如果Dis(s_i,s_j)的值小于预定的阈值，则在跨媒体加权近邻图G(V,E)中s_i和s_j对应的两个顶点之间连接生成一条边；

(4)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W＝[w_ij]，其中，i表示权重矩阵W的第i行，j表示权重矩阵W的第j列，w_ij表示权重矩阵W的第i行、第j列上的元素值，w_ij的计算如下式所示：

式(2)中：exp()表示以自然常数e为底的指数函数，且e＝2.71828，

t和ε均为实参数；i、j为大于等于1的自然数。

所述第三步的基于目标函数最小化的同构子空间优化，包括：

(1)根据跨媒体加权近邻图G(V,E)和权重矩阵W，计算拉普拉斯矩阵如下：

L＝I-D^-1/2WD^-1/2 (3)

式(3)中：I表示单位矩阵,

D表示对角矩阵，且对角线上的元素值为权重矩阵W相应行上的元素值之和；

(2)用Y表示优化后的同构子空间，建立如下的目标函数：

式(4)中：I表示单位矩阵,

T表示矩阵的转置运算,

min表示最小值；

(3)对式(4)进行特征根分解，得出优化后的同构子空间Y的值。

所述第四步的跨媒体距离度量和检索，包括：

(1)在优化后的同构子空间Y中，以余弦距离作为跨媒体距离度量标准，余弦距离与跨媒体相似度成反比关系；

(2)用r表示用户提交的查询样本，

如果查询样本r在集合S中，则按照(3)中的方法进行跨媒体检索，

如果查询样本r不在集合S中，且查询样本r是一幅图像，则按照(4)中的方法进行跨媒体检索，

如果查询样本r不在集合S中，且查询样本r是一个音频，则按照(5)中的方法进行跨媒体检索；

(3)根据优化后的同构子空间Y，计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离，按照余弦距离的升序，返回跨媒体检索结果；

(4)提取查询样本r的视觉特征，包括：颜色直方图、颜色聚合矢量和Tamura方向度特征，以视觉特征为依据，计算集合S中与查询样本r最相似的一个图像近邻m，以图像近邻m作为新查询样本，重复第四步(3)中的方法，进行跨媒体检索；

(5)提取查询样本r的听觉特征，包括：质心、衰减截止频率、频谱流量和均方根特征，以听觉特征为依据，计算集合S中与查询样本r最相似的一个音频近邻n，以音频近邻n作为新查询样本，重复第四步(3)中的方法，进行跨媒体检索。

由于采用上述技术方案，本发明与现有技术相比，具有的有益效果是：

(1)分析了图像和音频这两种不同类型的多媒体数据，通过对视觉特征矩阵和听觉特征矩阵做基于高维核空间的典型相关性分析，映射得到同构子空间；

(2)利用图像样本和音频样本在同构子空间中的拓扑关系，构建跨媒体加权近邻图，进而得到权重矩阵和拉普拉斯矩阵，对跨媒体数据关系进行量化分析；

(3)对同构子空间进行优化，使得在优化后的同构子空间中，余弦距离更好地反映了语义上的跨媒体相似度，获得了较好的检索效率。

附图说明

图1为本发明方法一种实施例的示意框图；

图2为图1方法的以“爆炸”音频片段为查询样例，进行跨媒体检索得到的相关图像结果；

具体实施方式

下面结合附图和具体实施方式，对本发明做进一步的描述，并非对其保护范围的限制。

实施例1

如图1所示，本实施例的基于同构子空间映射和优化的跨媒体检索方法，其具体步骤如下：

第一步、基于视听觉特征分析的同构子空间映射

提取不同类型多媒体数据的底层内容特征，在高维核空间中进行相关性保持映射，得到同构子空间Z。

从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征，采用模糊聚类的方法对听觉特征进行索引，将每个音频样本的听觉特征都统一到相同的维数，得到听觉特征矩阵B；

(2)通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；

(3)在高维核空间中，采用典型相关性分析方法进行相关性保持映射，计算目标函数：

max[Φ(A)^TΦ(A)Ψ(B)^TΨ(B)μ] (1)

式(1)中μ表示组合系数，

T表示转置运算，

max表示最大值，

Φ(A)表示视觉特征矩阵A的典型相关性因子，

Ψ(B)表示听觉特征矩阵B的典型相关性因子，

(4)通过拉格朗日乘子法求解式(1)中的目标函数，计算Φ(A)和Ψ(B)的值；

(5)通过矩阵变换Φ(A)^TA和Ψ(B)^TB，对视觉特征矩阵A和听觉特征矩阵B进行降维，将所有图像样本和音频样本映射到同构子空间Z；

第二步、构建跨媒体加权近邻图

所有的图像样本和音频样本被映射到同构子空间Z中，呈现出一定的距离关系，通过构建跨媒体加权近邻图G(V,E)，进行定量分析，得到相应的权重矩阵W和拉普拉斯矩阵L。

计算集合S中任意两个样本s_i和s_j之间的欧氏距离Dis(s_i,s_j)，其中，s_i表示集合S中的第i个样本，s_j表示集合S中的第j个样本，s_i和s_j可以是图像样本或音频样本，

t和ε均为实参数；

第三步、基于目标函数最小化的同构子空间优化

L＝I-D^-1/2WD^-1/2 (3)

式(3)中：I表示单位矩阵,

(2)用Y表示优化后的同构子空间，建立如下的目标函数：

式(4)中：I表示单位矩阵,

T表示矩阵的转置运算,

min表示最小值；

(3)对式(4)进行特征根分解，得出优化后的同构子空间Y的值；

第四步、跨媒体距离度量和检索

优化后的同构子空间Y更加符合多媒体数据在语义上的相似关系，当用户提交查询样本进行跨媒体检索时，根据优化后的同构子空间Y，计算查询样本与所有图像样本和音频样本之间的余弦距离，余弦距离越小则相似度越大，得到跨媒体检索结果返回给用户。

(2)用r表示用户提交的查询样本，

实施例2

一种基于同构子空间映射和优化的跨媒体检索方法。如附图2所示，以“爆炸”音频片段为查询例子，进行跨媒体检索，其具体步骤如下：

第一步、基于视听觉特征分析的同构子空间映射

(1)收集图像数据库和音频数据库，包括以下8个不同的语义类别：爆炸、飞机、闪电、昆虫、汽车、狗、猴子、大象，每个类别包括80幅图像和40段音频；从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，得到视觉特征矩阵A，其中，每个语义类别的图像样本对应一个维度为80×100的视觉特征矩阵；

从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种音频特征，采用模糊聚类的方法对听觉特征进行索引，将每个音频样本的听觉特征都统一到相同的维数，得到听觉特征矩阵B，其中，每个语义类别的音频样本对应一个维度为40×50的听觉特征矩阵；

第一步中第(2)同实施例1；

第一步中第(3)同实施例1；

第一步中第(4)同实施例1；

第一步中第(5)同实施例1；

第二步、构建跨媒体加权近邻图

所有的640个图像样本和320个音频样本被映射到同构子空间Z中，呈现出一定的拓扑结构，通过构建跨媒体加权近邻图，对图像样本和音频样本的距离关系进行定量分析，得到拉普拉斯矩阵L和对角矩阵D。

(1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合，集合S中共有960个样本，计算集合S中任意两个样本s_i和s_j之间的欧氏距离Dis(s_i,s_j)，其中，s_i表示集合S中的第i个样本，s_j表示集合S中的第j个样本，s_i和s_j可以是图像样本或音频样本，

(3)如果Dis(s_i,s_j)的值小于预定的阈值，在本实施例中，阈值为3.62，则在跨媒体加权近邻图G(V,E)中s_i和s_j对应的两个顶点之间连接生成一条边；

(4)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W＝[w_ij]，其中，i表示权重矩阵W的第i行，j表示权重矩阵W的第j列，在本实施例中i和j的取值范围为[0,959]范围内的整数，w_ij表示权重矩阵W的第i行、第j列上的元素值，w_ij的计算如下式所示：

t和ε均为实参数，

第三步、基于目标函数最小化的同构子空间优化

(1)同实施例1；

(2)同实施例1；

(3)同实施例1；

第四步、跨媒体距离度量和检索

优化后的同构子空间Y更加符合多媒体数据在语义上的相似关系，当用户提交一段“爆炸”音频作为查询样本进行跨媒体检索时，根据优化后的同构子空间Y，计算查询样本与所有图像样本和音频样本之间的余弦距离，余弦距离越小则相似度越大，得到跨媒体检索结果返回给用户。

(2)用r表示用户提交的查询样本，

在本实施例中，所提交的“爆炸”音频在集合S中，按照(3)中的方法进行跨媒体检索，

(3)根据优化后的同构子空间Y，计算用户提交的“爆炸”音频与集合S中图像样本和音频样本之间的余弦距离，按照余弦距离的升序，计算最相关的前9个图像，作为跨媒体检索结果返回给用户，如图2所示，在返回的图像中有8个是“爆炸”图像，说明系统较好地建立和优化了同构子空间，能够较为准确地度量跨媒体相似度，取得较好的检索效率。

Claims

1.一种基于同构子空间映射和优化的跨媒体检索方法，其特征在于包括以下步骤：

第一步、基于视听觉特征分析的同构子空间映射

第二步、构建跨媒体加权近邻图

分析图像样本和音频样本在同构子空间Z中的距离关系，进而构建跨媒体加权近邻图G(V,E)，进行定量分析，得到相应的权重矩阵W和拉普拉斯矩阵L；具体包括：

(21)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合；

(22)构建跨媒体加权近邻图G(V,E)，其中V表示跨媒体加权近邻图中的顶点，由集合S中所有图像样本和音频样本构成，E表示顶点之间的边；

(23)如果Dis(s_i,s_j)的值小于预定的阈值，则在跨媒体加权近邻图G(V,E)中s_i和s_j对应的两个顶点之间连接生成一条边；

(24)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W＝[w_ij]，其中，i表示权重矩阵W的第i行，j表示权重矩阵W的第j列，w_ij表示权重矩阵W的第i行、第j列上的元素值，w_ij的计算如下式所示：

w_{i j} = \{\begin{matrix} \exp (D i s (s_{i}, s_{j}) / t), i f D i s (s_{i}, s_{j}) \leq ϵ \\ 0, o t h e r w i s e \end{matrix} - - - (2)

t和ε均为实参数；i、j为大于等于1的自然数；

第三步、基于目标函数最小化的同构子空间优化

对目标函数进行求解，得出优化后的同构子空间Y的值；具体包括：

(31)根据跨媒体加权近邻图G(V,E)和权重矩阵W，计算拉普拉斯矩阵如下：

L＝I-D^-1/2WD^-1/2 (3)

式(3)中：I表示单位矩阵,

(32)用Y表示优化后的同构子空间，建立如下的目标函数：

\min_{Y^{T} Y = I} Y^{T} L Y - - - (4)

式(4)中：I表示单位矩阵,

T表示矩阵的转置运算,

min表示最小值；

(33)对式(4)进行特征根分解，得出优化后的同构子空间Y的值；

第四步、跨媒体距离度量和检索

当用户提交查询样本进行跨媒体检索时，根据优化后的同构子空间Y中的余弦距离，计算与查询样本最相近的图像样本和音频样本，作为跨媒体检索结果返回；具体包括：

(41)在优化后的同构子空间Y中，以余弦距离作为跨媒体距离度量标准，余弦距离与跨媒体相似度成反比关系；

(42)用r表示用户提交的查询样本，

如果查询样本r在集合S中，则按照(43)中的方法进行跨媒体检索，

如果查询样本r不在集合S中，且查询样本r是一幅图像，则按照(44)中的方法进行跨媒体检索，

如果查询样本r不在集合S中，且查询样本r是一个音频，则按照(45)中的方法进行跨媒体检索；

(43)根据优化后的同构子空间Y，计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离，按照余弦距离的升序，返回跨媒体检索结果；

(44)提取查询样本r的视觉特征，包括：颜色直方图、颜色聚合矢量和Tamura方向度特征，以视觉特征为依据，计算集合S中与查询样本r最相似的一个图像近邻m，以图像近邻m作为新查询样本，重复第四步(43)中的方法，进行跨媒体检索；

(45)提取查询样本r的听觉特征，包括：质心、衰减截止频率、频谱流量和均方根特征，以听觉特征为依据，计算集合S中与查询样本r最相似的一个音频近邻n，以音频近邻n作为新查询样本，重复第四步(43)中的方法，进行跨媒体检索。

2.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法，其特征在于，第一步所述的基于视听觉特征分析的同构子空间映射包括：

(11)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征，得到视觉特征矩阵A；

(12)通过非线性的核函数，将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间；

(13)在高维核空间中，采用典型相关性分析方法进行相关性保持映射，计算目标函数：

max[Φ(A)^TΦ(A)Ψ(B)^TΨ(B)μ] (1)

式(1)中μ表示组合系数，

T表示转置运算，

max表示最大值，

Φ(A)表示视觉特征矩阵A的典型相关性因子，

Ψ(B)表示听觉特征矩阵B的典型相关性因子，

(14)通过拉格朗日乘子法求解式(1)中的目标函数，计算Φ(A)和Ψ(B)的值；

(15)通过矩阵变换Φ(A)^TA和Ψ(B)^TB，对视觉特征矩阵A和听觉特征矩阵B进行降维，将所有图像样本和音频样本映射到同构子空间Z。