CN103995903B - 基于同构子空间映射和优化的跨媒体检索方法 - Google Patents

基于同构子空间映射和优化的跨媒体检索方法 Download PDF

Info

Publication number
CN103995903B
CN103995903B CN201410260190.0A CN201410260190A CN103995903B CN 103995903 B CN103995903 B CN 103995903B CN 201410260190 A CN201410260190 A CN 201410260190A CN 103995903 B CN103995903 B CN 103995903B
Authority
CN
China
Prior art keywords
sample
media
matrix
audio
subspace
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410260190.0A
Other languages
English (en)
Other versions
CN103995903A (zh
Inventor
张鸿
聂加梅
张延鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201410260190.0A priority Critical patent/CN103995903B/zh
Publication of CN103995903A publication Critical patent/CN103995903A/zh
Application granted granted Critical
Publication of CN103995903B publication Critical patent/CN103995903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于同构子空间映射和优化的跨媒体检索方法。首先,从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到相应的视觉特征矩阵A和听觉特征矩阵B,在此基础上,采用基于高维核空间的典型相关性分析,映射得到同构子空间Z;然后,分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),得到相应的权重矩阵W和拉普拉斯矩阵L;对目标函数进行求解,得出优化后的同构子空间Y的值;最后,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回。该方法建立了能够同时容纳图像样本和音频样本的同构子空间,并且进行了优化,得到了较好的跨媒体检索结果。

Description

基于同构子空间映射和优化的跨媒体检索方法
技术领域
本发明涉及多媒体内容分析和语义理解技术领域,特别是涉及一种基于同构子空间映射和优化的跨媒体检索方法。
背景技术
随着多媒体技术和网络技术的高速发展,文字已不再是人们接触到的主要多媒体内容。图像、音频和视频等不同类型的多媒体数据已经遍布各种网络终端。这些丰富的多媒体数据表达了大量的语义信息,并且彼此之间存在错综复杂的关联,比如:底层内容特征上的统计关系、网页之间的链接关系等。如何有效的管理大量不同类型的多媒体数据,并且提供灵活、高效的跨媒体检索,是多媒体内容分析和语义理解领域所面临的新挑战。
多媒体数据在数据类型和数据量上的急速膨胀,使得传统的多媒体检索技术难以对灵活、高效的跨媒体检索方式提供支持。在跨媒体检索模式下,用户可以提交不同类型的多媒体数据作为查询样本,系统会从不同类型的多媒体数据库中,找到与查询样本在语义上相关的数据,作为跨媒体检索结果返回给用户。然而,传统的多媒体检索技术大多是针对单一类型的数据,如:图像检索,这种传统的检索方式难以实现对图像、音频等不同类型多媒体数据的综合检索和灵活跨越。跨媒体检索技术应运而生,并迅速成为多媒体研究领域的前沿热点。
实际上,人们对多媒体数据的检索需求是要能够灵活跨越不同类型的多媒体数据,以形成对多媒体语义的整体理解。作为一种新兴的研究方向,跨媒体检索源于基于内容的多媒体检索研究,后者在九十年代初期被提出,并一直是计算机视觉领域一个非常活跃的研究方向,综合应用了统计分析、机器学习、模式识别、人机交互和多媒体数据库等多领域的知识,较好地解决了早期基于文本的多媒体检索中存在的标注费时费力、主观差异性大等缺陷。然而,面临当前环境下丰富的、类型各异的多媒体数据,传统基于内容的多媒体检索技术难以解决对不同类型多媒体数据的子空间学习、跨媒体相关性度量等新的问题。跨媒体检索技术主要是为了解决上述问题。
为了更好地理解跨媒体语义,提高跨媒体检索的效率,需要重点关注对不同类型的、异构的多媒体特征的同构子空间学习。最近几年,越来越多的国内外学者对跨媒体检索中的一系列关键技术问题进行了积极探索,取得了较好的研究成果,其中较有代表性的可归纳为以下几类:深度学习、统计关系模型、非线性流形学习、稀疏特征分析等。然而,目前的这些研究工作大多是借助文本标注、网页链接等直接语义关联,以建立图像、音频、视频等不同类型多媒体样本之间的关联模型,很少从底层内容特征层面上,分析多媒体数据在同构子空间中的潜在语义关系。因此,现有研究大都或多或少地存在一些缺陷和不足,尤其体现在如何从底层的视觉特征和听觉特征来进行同构子空间分析和映射,通过挖掘不同类型多媒体数据在同构子空间中的几何拓扑和距离关系,对同构子空间进行优化这些问题的研究上。
发明内容
本发明旨在克服现有的技术缺陷,目的在于提供一种基于同构子空间映射和优化的跨媒体检索方法,该方法能够构建容纳图像样本和音频样本的同构子空间,并根据图像样本和音频样本之间的距离关系,优化同构子空间,进一步提高跨媒体检索效率。
为实现上述目的,本发明采用如下技术方案:
一种基于同构子空间映射和优化的跨媒体检索方法,包括以下步骤:
第一步、基于视听觉特征分析的同构子空间映射
从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到视觉特征矩阵A和听觉特征矩阵B;通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;在高维核空间中进行相关性保持映射,得到同构子空间Z;
第二步、构建跨媒体加权近邻图
分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),进行定量分析,得到相应的权重矩阵W和拉普拉斯矩阵L;
第三步、基于目标函数最小化的同构子空间优化
对目标函数进行求解,得出优化后的同构子空间Y的值;
第四步、跨媒体距离度量和检索
当用户提交查询样本进行跨媒体检索时,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回。
进一步的,第一步所述的基于视听觉特征分析的同构子空间映射包括:
(1)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,得到视觉特征矩阵A;
(2)从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征,采用模糊聚类的方法对听觉特征进行索引,将每个音频样本的听觉特征都统一到相同的维数,得到听觉特征矩阵B;
(3)通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;
(4)在高维核空间中,采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(A)TΦ(A)Ψ(B)TΨ(B)μ] (1)
式(1)中μ表示组合系数,
T表示转置运算,
max表示最大值,
Φ(A)表示视觉特征矩阵A的典型相关性因子,
Ψ(B)表示听觉特征矩阵B的典型相关性因子,
(5)通过拉格朗日乘子法求解式(1)中的目标函数,计算Φ(A)和Ψ(B)的值;
(6)通过矩阵变换Φ(A)TA和Ψ(B)TB,对视觉特征矩阵A和听觉特征矩阵B进行降维,将所有图像样本和音频样本映射到同构子空间Z。
所述第二步的构建跨媒体加权近邻图包括:
(1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合;
计算集合S中任意两个样本si和sj之间的欧氏距离Dis(si,sj),其中,si表示集合S中的第i个样本,sj表示集合S中的第j个样本,si和sj可以是图像样本或音频样本,i,j均为大于等于1的自然数;
(2)构建跨媒体加权近邻图G(V,E),其中V表示跨媒体加权近邻图中的顶点,由集合S中所有图像样本和音频样本构成,E表示顶点之间的边;
(3)如果Dis(si,sj)的值小于预定的阈值,则在跨媒体加权近邻图G(V,E)中si和sj对应的两个顶点之间连接生成一条边;
(4)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W=[wij],其中,i表示权重矩阵W的第i行,j表示权重矩阵W的第j列,wij表示权重矩阵W的第i行、第j列上的元素值,wij的计算如下式所示:
式(2)中:exp()表示以自然常数e为底的指数函数,且e=2.71828,
t和ε均为实参数;i、j为大于等于1的自然数。
所述第三步的基于目标函数最小化的同构子空间优化,包括:
(1)根据跨媒体加权近邻图G(V,E)和权重矩阵W,计算拉普拉斯矩阵如下:
L=I-D-1/2WD-1/2 (3)
式(3)中:I表示单位矩阵,
D表示对角矩阵,且对角线上的元素值为权重矩阵W相应行上的元素值之和;
(2)用Y表示优化后的同构子空间,建立如下的目标函数:
式(4)中:I表示单位矩阵,
T表示矩阵的转置运算,
min表示最小值;
(3)对式(4)进行特征根分解,得出优化后的同构子空间Y的值。
所述第四步的跨媒体距离度量和检索,包括:
(1)在优化后的同构子空间Y中,以余弦距离作为跨媒体距离度量标准,余弦距离与跨媒体相似度成反比关系;
(2)用r表示用户提交的查询样本,
如果查询样本r在集合S中,则按照(3)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一幅图像,则按照(4)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一个音频,则按照(5)中的方法进行跨媒体检索;
(3)根据优化后的同构子空间Y,计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离,按照余弦距离的升序,返回跨媒体检索结果;
(4)提取查询样本r的视觉特征,包括:颜色直方图、颜色聚合矢量和Tamura方向度特征,以视觉特征为依据,计算集合S中与查询样本r最相似的一个图像近邻m,以图像近邻m作为新查询样本,重复第四步(3)中的方法,进行跨媒体检索;
(5)提取查询样本r的听觉特征,包括:质心、衰减截止频率、频谱流量和均方根特征,以听觉特征为依据,计算集合S中与查询样本r最相似的一个音频近邻n,以音频近邻n作为新查询样本,重复第四步(3)中的方法,进行跨媒体检索。
由于采用上述技术方案,本发明与现有技术相比,具有的有益效果是:
(1)分析了图像和音频这两种不同类型的多媒体数据,通过对视觉特征矩阵和听觉特征矩阵做基于高维核空间的典型相关性分析,映射得到同构子空间;
(2)利用图像样本和音频样本在同构子空间中的拓扑关系,构建跨媒体加权近邻图,进而得到权重矩阵和拉普拉斯矩阵,对跨媒体数据关系进行量化分析;
(3)对同构子空间进行优化,使得在优化后的同构子空间中,余弦距离更好地反映了语义上的跨媒体相似度,获得了较好的检索效率。
附图说明
图1为本发明方法一种实施例的示意框图;
图2为图1方法的以“爆炸”音频片段为查询样例,进行跨媒体检索得到的相关图像结果;
具体实施方式
下面结合附图和具体实施方式,对本发明做进一步的描述,并非对其保护范围的限制。
实施例1
如图1所示,本实施例的基于同构子空间映射和优化的跨媒体检索方法,其具体步骤如下:
第一步、基于视听觉特征分析的同构子空间映射
提取不同类型多媒体数据的底层内容特征,在高维核空间中进行相关性保持映射,得到同构子空间Z。
(1)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,得到视觉特征矩阵A;
从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征,采用模糊聚类的方法对听觉特征进行索引,将每个音频样本的听觉特征都统一到相同的维数,得到听觉特征矩阵B;
(2)通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;
(3)在高维核空间中,采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(A)TΦ(A)Ψ(B)TΨ(B)μ] (1)
式(1)中μ表示组合系数,
T表示转置运算,
max表示最大值,
Φ(A)表示视觉特征矩阵A的典型相关性因子,
Ψ(B)表示听觉特征矩阵B的典型相关性因子,
(4)通过拉格朗日乘子法求解式(1)中的目标函数,计算Φ(A)和Ψ(B)的值;
(5)通过矩阵变换Φ(A)TA和Ψ(B)TB,对视觉特征矩阵A和听觉特征矩阵B进行降维,将所有图像样本和音频样本映射到同构子空间Z;
第二步、构建跨媒体加权近邻图
所有的图像样本和音频样本被映射到同构子空间Z中,呈现出一定的距离关系,通过构建跨媒体加权近邻图G(V,E),进行定量分析,得到相应的权重矩阵W和拉普拉斯矩阵L。
(1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合;
计算集合S中任意两个样本si和sj之间的欧氏距离Dis(si,sj),其中,si表示集合S中的第i个样本,sj表示集合S中的第j个样本,si和sj可以是图像样本或音频样本,
(2)构建跨媒体加权近邻图G(V,E),其中V表示跨媒体加权近邻图中的顶点,由集合S中所有图像样本和音频样本构成,E表示顶点之间的边;
(3)如果Dis(si,sj)的值小于预定的阈值,则在跨媒体加权近邻图G(V,E)中si和sj对应的两个顶点之间连接生成一条边;
(4)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W=[wij],其中,i表示权重矩阵W的第i行,j表示权重矩阵W的第j列,wij表示权重矩阵W的第i行、第j列上的元素值,wij的计算如下式所示:
式(2)中:exp()表示以自然常数e为底的指数函数,且e=2.71828,
t和ε均为实参数;
第三步、基于目标函数最小化的同构子空间优化
(1)根据跨媒体加权近邻图G(V,E)和权重矩阵W,计算拉普拉斯矩阵如下:
L=I-D-1/2WD-1/2 (3)
式(3)中:I表示单位矩阵,
D表示对角矩阵,且对角线上的元素值为权重矩阵W相应行上的元素值之和;
(2)用Y表示优化后的同构子空间,建立如下的目标函数:
式(4)中:I表示单位矩阵,
T表示矩阵的转置运算,
min表示最小值;
(3)对式(4)进行特征根分解,得出优化后的同构子空间Y的值;
第四步、跨媒体距离度量和检索
优化后的同构子空间Y更加符合多媒体数据在语义上的相似关系,当用户提交查询样本进行跨媒体检索时,根据优化后的同构子空间Y,计算查询样本与所有图像样本和音频样本之间的余弦距离,余弦距离越小则相似度越大,得到跨媒体检索结果返回给用户。
(1)在优化后的同构子空间Y中,以余弦距离作为跨媒体距离度量标准,余弦距离与跨媒体相似度成反比关系;
(2)用r表示用户提交的查询样本,
如果查询样本r在集合S中,则按照(3)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一幅图像,则按照(4)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一个音频,则按照(5)中的方法进行跨媒体检索;
(3)根据优化后的同构子空间Y,计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离,按照余弦距离的升序,返回跨媒体检索结果;
(4)提取查询样本r的视觉特征,包括:颜色直方图、颜色聚合矢量和Tamura方向度特征,以视觉特征为依据,计算集合S中与查询样本r最相似的一个图像近邻m,以图像近邻m作为新查询样本,重复第四步(3)中的方法,进行跨媒体检索;
(5)提取查询样本r的听觉特征,包括:质心、衰减截止频率、频谱流量和均方根特征,以听觉特征为依据,计算集合S中与查询样本r最相似的一个音频近邻n,以音频近邻n作为新查询样本,重复第四步(3)中的方法,进行跨媒体检索。
实施例2
一种基于同构子空间映射和优化的跨媒体检索方法。如附图2所示,以“爆炸”音频片段为查询例子,进行跨媒体检索,其具体步骤如下:
第一步、基于视听觉特征分析的同构子空间映射
提取不同类型多媒体数据的底层内容特征,在高维核空间中进行相关性保持映射,得到同构子空间Z。
(1)收集图像数据库和音频数据库,包括以下8个不同的语义类别:爆炸、飞机、闪电、昆虫、汽车、狗、猴子、大象,每个类别包括80幅图像和40段音频;从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,得到视觉特征矩阵A,其中,每个语义类别的图像样本对应一个维度为80×100的视觉特征矩阵;
从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种音频特征,采用模糊聚类的方法对听觉特征进行索引,将每个音频样本的听觉特征都统一到相同的维数,得到听觉特征矩阵B,其中,每个语义类别的音频样本对应一个维度为40×50的听觉特征矩阵;
第一步中第(2)同实施例1;
第一步中第(3)同实施例1;
第一步中第(4)同实施例1;
第一步中第(5)同实施例1;
第二步、构建跨媒体加权近邻图
所有的640个图像样本和320个音频样本被映射到同构子空间Z中,呈现出一定的拓扑结构,通过构建跨媒体加权近邻图,对图像样本和音频样本的距离关系进行定量分析,得到拉普拉斯矩阵L和对角矩阵D。
(1)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合,集合S中共有960个样本,计算集合S中任意两个样本si和sj之间的欧氏距离Dis(si,sj),其中,si表示集合S中的第i个样本,sj表示集合S中的第j个样本,si和sj可以是图像样本或音频样本,
(2)构建跨媒体加权近邻图G(V,E),其中V表示跨媒体加权近邻图中的顶点,由集合S中所有图像样本和音频样本构成,E表示顶点之间的边;
(3)如果Dis(si,sj)的值小于预定的阈值,在本实施例中,阈值为3.62,则在跨媒体加权近邻图G(V,E)中si和sj对应的两个顶点之间连接生成一条边;
(4)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W=[wij],其中,i表示权重矩阵W的第i行,j表示权重矩阵W的第j列,在本实施例中i和j的取值范围为[0,959]范围内的整数,wij表示权重矩阵W的第i行、第j列上的元素值,wij的计算如下式所示:
式(2)中:exp()表示以自然常数e为底的指数函数,且e=2.71828,
t和ε均为实参数,
第三步、基于目标函数最小化的同构子空间优化
(1)同实施例1;
(2)同实施例1;
(3)同实施例1;
第四步、跨媒体距离度量和检索
优化后的同构子空间Y更加符合多媒体数据在语义上的相似关系,当用户提交一段“爆炸”音频作为查询样本进行跨媒体检索时,根据优化后的同构子空间Y,计算查询样本与所有图像样本和音频样本之间的余弦距离,余弦距离越小则相似度越大,得到跨媒体检索结果返回给用户。
(1)在优化后的同构子空间Y中,以余弦距离作为跨媒体距离度量标准,余弦距离与跨媒体相似度成反比关系;
(2)用r表示用户提交的查询样本,
在本实施例中,所提交的“爆炸”音频在集合S中,按照(3)中的方法进行跨媒体检索,
(3)根据优化后的同构子空间Y,计算用户提交的“爆炸”音频与集合S中图像样本和音频样本之间的余弦距离,按照余弦距离的升序,计算最相关的前9个图像,作为跨媒体检索结果返回给用户,如图2所示,在返回的图像中有8个是“爆炸”图像,说明系统较好地建立和优化了同构子空间,能够较为准确地度量跨媒体相似度,取得较好的检索效率。

Claims (2)

1.一种基于同构子空间映射和优化的跨媒体检索方法,其特征在于包括以下步骤:
第一步、基于视听觉特征分析的同构子空间映射
从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到视觉特征矩阵A和听觉特征矩阵B;通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;在高维核空间中进行相关性保持映射,得到同构子空间Z;
第二步、构建跨媒体加权近邻图
分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),进行定量分析,得到相应的权重矩阵W和拉普拉斯矩阵L;具体包括:
(21)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合;
计算集合S中任意两个样本si和sj之间的欧氏距离Dis(si,sj),其中,si表示集合S中的第i个样本,sj表示集合S中的第j个样本,si和sj可以是图像样本或音频样本,i,j均为大于等于1的自然数;
(22)构建跨媒体加权近邻图G(V,E),其中V表示跨媒体加权近邻图中的顶点,由集合S中所有图像样本和音频样本构成,E表示顶点之间的边;
(23)如果Dis(si,sj)的值小于预定的阈值,则在跨媒体加权近邻图G(V,E)中si和sj对应的两个顶点之间连接生成一条边;
(24)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W=[wij],其中,i表示权重矩阵W的第i行,j表示权重矩阵W的第j列,wij表示权重矩阵W的第i行、第j列上的元素值,wij的计算如下式所示:
w i j = exp ( D i s ( s i , s j ) / t ) , i f D i s ( s i , s j ) ≤ ϵ 0 , o t h e r w i s e - - - ( 2 )
式(2)中:exp()表示以自然常数e为底的指数函数,且e=2.71828,
t和ε均为实参数;i、j为大于等于1的自然数;
第三步、基于目标函数最小化的同构子空间优化
对目标函数进行求解,得出优化后的同构子空间Y的值;具体包括:
(31)根据跨媒体加权近邻图G(V,E)和权重矩阵W,计算拉普拉斯矩阵如下:
L=I-D-1/2WD-1/2 (3)
式(3)中:I表示单位矩阵,
D表示对角矩阵,且对角线上的元素值为权重矩阵W相应行上的元素值之和;
(32)用Y表示优化后的同构子空间,建立如下的目标函数:
min Y T Y = I Y T L Y - - - ( 4 )
式(4)中:I表示单位矩阵,
T表示矩阵的转置运算,
min表示最小值;
(33)对式(4)进行特征根分解,得出优化后的同构子空间Y的值;
第四步、跨媒体距离度量和检索
当用户提交查询样本进行跨媒体检索时,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回;具体包括:
(41)在优化后的同构子空间Y中,以余弦距离作为跨媒体距离度量标准,余弦距离与跨媒体相似度成反比关系;
(42)用r表示用户提交的查询样本,
如果查询样本r在集合S中,则按照(43)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一幅图像,则按照(44)中的方法进行跨媒体检索,
如果查询样本r不在集合S中,且查询样本r是一个音频,则按照(45)中的方法进行跨媒体检索;
(43)根据优化后的同构子空间Y,计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离,按照余弦距离的升序,返回跨媒体检索结果;
(44)提取查询样本r的视觉特征,包括:颜色直方图、颜色聚合矢量和Tamura方向度特征,以视觉特征为依据,计算集合S中与查询样本r最相似的一个图像近邻m,以图像近邻m作为新查询样本,重复第四步(43)中的方法,进行跨媒体检索;
(45)提取查询样本r的听觉特征,包括:质心、衰减截止频率、频谱流量和均方根特征,以听觉特征为依据,计算集合S中与查询样本r最相似的一个音频近邻n,以音频近邻n作为新查询样本,重复第四步(43)中的方法,进行跨媒体检索。
2.如权利要求1所述的基于同构子空间映射和优化的跨媒体检索方法,其特征在于,第一步所述的基于视听觉特征分析的同构子空间映射包括:
(11)从图像数据库中提取颜色直方图、颜色聚合矢量和Tamura方向度三种视觉特征,得到视觉特征矩阵A;
从音频数据库中提取质心、衰减截止频率、频谱流量和均方根四种听觉特征,采用模糊聚类的方法对听觉特征进行索引,将每个音频样本的听觉特征都统一到相同的维数,得到听觉特征矩阵B;
(12)通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;
(13)在高维核空间中,采用典型相关性分析方法进行相关性保持映射,计算目标函数:
max[Φ(A)TΦ(A)Ψ(B)TΨ(B)μ] (1)
式(1)中μ表示组合系数,
T表示转置运算,
max表示最大值,
Φ(A)表示视觉特征矩阵A的典型相关性因子,
Ψ(B)表示听觉特征矩阵B的典型相关性因子,
(14)通过拉格朗日乘子法求解式(1)中的目标函数,计算Φ(A)和Ψ(B)的值;
(15)通过矩阵变换Φ(A)TA和Ψ(B)TB,对视觉特征矩阵A和听觉特征矩阵B进行降维,将所有图像样本和音频样本映射到同构子空间Z。
CN201410260190.0A 2014-06-12 2014-06-12 基于同构子空间映射和优化的跨媒体检索方法 Active CN103995903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410260190.0A CN103995903B (zh) 2014-06-12 2014-06-12 基于同构子空间映射和优化的跨媒体检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410260190.0A CN103995903B (zh) 2014-06-12 2014-06-12 基于同构子空间映射和优化的跨媒体检索方法

Publications (2)

Publication Number Publication Date
CN103995903A CN103995903A (zh) 2014-08-20
CN103995903B true CN103995903B (zh) 2017-04-12

Family

ID=51310068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410260190.0A Active CN103995903B (zh) 2014-06-12 2014-06-12 基于同构子空间映射和优化的跨媒体检索方法

Country Status (1)

Country Link
CN (1) CN103995903B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102491597B1 (ko) * 2014-12-10 2023-01-25 킨디 인코포레이티드 조합 하이퍼맵 기반 데이터 표현 및 연산을 위한 장치 및 방법
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CN106127305B (zh) * 2016-06-17 2019-07-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法
CN106951509B (zh) * 2017-03-17 2019-08-09 中国人民解放军国防科学技术大学 多标签核化典型相关分析检索方法
CN109992676B (zh) * 2019-04-01 2020-12-25 中国传媒大学 一种跨媒体资源检索方法及检索系统
CN111061907B (zh) * 2019-12-10 2023-06-20 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN114781642B (zh) * 2022-06-17 2022-09-23 之江实验室 一种跨媒体对应知识的生成方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN102663447A (zh) * 2012-04-28 2012-09-12 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102521368A (zh) * 2011-12-16 2012-06-27 武汉科技大学 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN102663447A (zh) * 2012-04-28 2012-09-12 中国科学院自动化研究所 基于判别相关分析的跨媒体检索方法
CN103049526A (zh) * 2012-12-20 2013-04-17 中国科学院自动化研究所 基于双空间学习的跨媒体检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于内容相关性的跨媒体检索方法;张鸿等;《计算机学报》;20080531;第31卷(第5期);第820-826页 *
基于特征子空间学习的跨媒体检索方法;张鸿等;《模式识别与人工智能》;20081231;第21卷(第6期);第739-745页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN110442736B (zh) * 2019-08-16 2022-04-26 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Also Published As

Publication number Publication date
CN103995903A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN103995903B (zh) 基于同构子空间映射和优化的跨媒体检索方法
CN100422999C (zh) 基于内容相关性的跨媒体检索方法
CN102521368B (zh) 基于相似度矩阵迭代的跨媒体语义理解和优化方法
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN103049526B (zh) 基于双空间学习的跨媒体检索方法
CN103473283B (zh) 一种文本案例匹配方法
CA2886581C (en) Method and system for analysing sentiments
CN104156433B (zh) 一种基于语义映射空间构建的图像检索方法
US11989662B2 (en) Methods and systems for base map and inference mapping
CN101539930B (zh) 一种相关反馈图像检索方法
CN104346440A (zh) 一种基于神经网络的跨媒体哈希索引方法
CN104484666A (zh) 一种基于人机交互的图像高级语义解析的方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN104850633A (zh) 一种基于手绘草图部件分割的三维模型检索系统及方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
TW202001620A (zh) 自動化網站資料蒐集方法
CN103886072B (zh) 煤矿搜索引擎中检索结果聚类系统
CN103744838B (zh) 一种用于度量主流情感信息的中文情感文摘系统及方法
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
Wei et al. LDA-based word image representation for keyword spotting on historical Mongolian documents
Croce et al. Verb classification using distributional similarity in syntactic and semantic structures
Burdick et al. Table extraction and understanding for scientific and enterprise applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant