CN103324691A - 一种基于M-tree的音频检索方法 - Google Patents

一种基于M-tree的音频检索方法 Download PDF

Info

Publication number
CN103324691A
CN103324691A CN2013102194295A CN201310219429A CN103324691A CN 103324691 A CN103324691 A CN 103324691A CN 2013102194295 A CN2013102194295 A CN 2013102194295A CN 201310219429 A CN201310219429 A CN 201310219429A CN 103324691 A CN103324691 A CN 103324691A
Authority
CN
China
Prior art keywords
tree
data
voice data
semantic feature
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102194295A
Other languages
English (en)
Inventor
严勤
徐淮杰
陶秋雨
印晶晶
胡棚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN2013102194295A priority Critical patent/CN103324691A/zh
Publication of CN103324691A publication Critical patent/CN103324691A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于M-tree的音频检索方法,属于音频检索技术领域。该方法包括:步骤A、提取音频数据集中各音频数据的高层语义特征,并利用主成分分析法对所提取的高层语义特征进行降维,得到表征音频数据集中各音频数据的语义特征向量;步骤B、以步骤A中得到的音频数据集中所有音频数据的语义特征向量的集合作为数据集,构建M-tree数据索引结构;步骤C、按照步骤A中的方法获取查询对象的语义特征向量,利用最近邻检索算法从步骤B所构建的M-tree数据索引结构中找出与查询对象的语义特征向量最相近的前k个语义特征向量。相比现有技术,本发明能够大幅提高音频检索的准确率和效率。

Description

一种基于M-tree的音频检索方法
技术领域
本发明涉及一种音频检索方法,尤其涉及一种基于M-tree的音频检索方法,属于音频检索技术领域。
背景技术
面向音频的相似度检索方法,是基于内容的音乐检索以及音乐推荐领域的一个重要分支,具体是指通过使用音频的特征找出与其相似音频的方法。常见的音乐检索系统中,常用基于语义词汇的特征向量来表征音乐,进而使用相关算法计算两首歌曲的距离(相似度)。因此,找出音乐关联度很强的语义词汇以及合适的相似度算法成为研究的重点。
在音乐检索系统中,系统的响应速度与检索效率有非常密切地关系。目前的研究很多是基于降维的技术。如有的研究使用奇异值分解技术将特征矩阵映射到低维空间再进行推荐。该方法有效减少了在线计算所需要的时间,但是需要离线计算量非常大。也有的研究使用音乐指纹来表征音乐,存储在数据库中,方便音乐检索时进行比对。这两类方法都建立在压缩音乐信息的基础之上,因而会直接影响到音乐相似度检索的效果。多媒体系统中常使用高维数据索引解决检索效率问题。但是常见的高维索引结构如R-Tree等在维度高于20时性能会急剧下降。另外由于这些索引结构都将高维向量作为高维空间中的一个点,无法根据需要使用合适的距离度量函数,会对检索的效果构成影响。因此,寻找一款合适的索引结构也是音乐检索技术实现应用的关键。
发明内容
本发明所要解决的技术问题在于克服现有音频检索方法的不足,提供一种基于M-tree的音频检索方法,利用主成分分析方法对音频语义特征进行降维,并构建M-tree高维索引结构,能有效提高音频检索的效率和准确率。
本发明具体采用以下技术方案:
一种基于M-tree的音频检索方法,包括以下步骤:
步骤A、提取音频数据集中各音频数据的高层语义特征,并利用主成分分析法对所提取的高层语义特征进行降维,得到表征音频数据集中各音频数据的语义特征向量;
步骤B、以步骤A中得到的音频数据集中所有音频数据的语义特征向量的集合作为数据集,并根据语义特征向量之间的相似度构建M-tree数据索引结构,其中任意两个语义特征向量d1、d2之间的相似度sim(d1,d2)按照以下公式计算:
sim ( d 1 , d 2 ) = arccos ( d 1 · d 2 | d 1 | · | d 2 | ) ,
式中,d1·d2表示两个向量d1、d2的内积,|d1|、|d2|分别表示向量d1、d2的长度;
步骤C、按照步骤A中的方法获取查询对象的语义特征向量,利用最近邻检索算法从步骤B所构建的M-tree数据索引结构中找出与查询对象的语义特征向量最相近的前k个语义特征向量,k为自然数,这k个语义特征向量所对应的音频数据即为最终的音频检索结果。
相比现有技术,本发明具有以下有益效果:
(1)本发明将M-tree数据索引结构引入音频检索中,并采用余弦角度作为数据之间的距离(相似度)度量函数,大幅提高了音频检索的准确率和效率;
(2)本发明采用主成分分析方法对音频语义特征进行降维,进一步提高了音频检索的检索效率。
附图说明
图1为M-tree数据索引结构的构建流程示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细说明:
本发明的基于M-tree的音频检索方法,包括以下步骤:
步骤A、提取音频数据集中各音频数据的高层语义特征,并利用主成分分析法对所提取的高层语义特征进行降维,得到表征音频数据集中各音频数据的语义特征向量。
本具体实施方式进行高层语义特征提取所使用的语义关键词来自Computer AudioLab500数据库,这个音乐数据库集中的500首流行音乐,出自最近50年的500个不同国家的艺术家。这些音乐在全球不同的国家都相互流行,不同的国家的人都熟悉这些歌曲,这样CAL500就具有了全球代表性,解决了音乐的地域性带来的差异。CAL500对音乐的语义特征进行的描述包含多方面,例如包括音频理解、表现情感、表现形式等。这个数据库已经得到了广泛的应用,对于将来的特征研究包括音乐的语义标注以及检索工作,都可以作为一个常用的试验集。
采用CAL500的方法进行高层语义信息描述时,库里的每一首歌至少被3名听众试听并进行关键词标签的打分。最终数据库中与音乐相关的174个特定词组成了语义标签(semantic lables),即库里的每一首歌都有这174个标签,且每一个标签都有打分值,分值分布在0到1之间。这174各标签的分值即可构造出音频的174维高层语义特征向量,可以直接采用174维高层语义特征向量进行后续的索引构建及检索。
然而,正如背景技术中所描述的:通常的高维索引结构在维数较高时其性能会急剧下降,因此有必要对高层语义特征进行降维,即通过分析音频数据集,从语义词汇中找出最能够表征音乐的较少的关键语义词汇,并用这些关键语义词汇来描述音频,从而降低语义特征向量的维数,提高索引结构的性能。本发明采用主成分分析方法(PrincipalComponent Analysis,简称PCA)来进行高层语义特征的降维。主成分分析主要是将分散在一组变量上的信息集中到某几个主要变量上去,并尽可能多地反映原信息量的多元统计方法。实际问题中,经常需要研究拥有多个变量的问题。多数情况下,不同变量相互间会有一定的相关性。通过使用主成分分析,可以在这些变量中构造中几个综合变量,同时又能反映原数据集中大部分信息。通过分析各个变量在综合变量中的权重,可以找到原始数据集中重要的维以及这些维所包含的信息量。主成分分析方法的主要步骤如下:
设原始数据集的矩阵为:
X = x 11 · · · x 1 p · · · · · · · · · x nl · · · x np
其中,xij表示矩阵的第i行第j列的值。在CAL500数据集中,p值为174,n值为502。
(1)对原始数据进行标准化
为了避免由于不同变量拥有不同量纲,而可能带来的不合理影响,需要在主成分分析前将数据标准化。达到的效果是:每个变量的平均数为0,方差为1。数据标准化公式如下所示:
x ij * = x ij - x ‾ j var ( x j ) ( i = 1,2 , . . . , n ; j = 1,2 , . . . , p )
x ‾ j = 1 n Σ i = 1 n x ij , var ( x j ) = 1 n - 1 Σ i = 1 n ( x ij - x ‾ j ) 2 ( j = 1,2 , . . . , . p ) ;
(2)求出数据集的协方差矩阵;
(3)计算协方差矩阵的特征值及相应的标准特征向量;
(4)计算主成分贡献率,并计算不同k值下的累积贡献率;
(5)根据累积贡献率确定主成分个数。
主成分的k值选择标准一般有两种:
前k个主成分累积贡献率达到85%以上,或者取特征根值大于均值的特征向量作为主成分。
本实施例中,通过计算CAL500数据集及其权重,比对不同k值下的检索效果,选择了k=100情况下的主成分作为关键语义词汇,此时关键语义词汇的累计贡献率为90%。
利用关键语义词汇即可得到音频数据集中各音频的降维后的语义特征向量。
步骤B、以步骤A中得到的音频数据集中所有音频数据的语义特征向量的集合作为数据集,构建M-tree数据索引结构。
M-tree是一种高维索引结构,可以用来组织及检索大型数据集。它利用对象间的相对距离划分检索空间,使用“三角不等式”减少距离计算的次数,进而提高检索效率。M-tree和任何一个基于树的数据结构一样,由中间节点和叶子节点构成。任意一个节点都由一个称为路径对象的数据对象唯一标识它,路径对象是根据一定的路径规则以及一定算法从属于节点的对象集中挑选出来的,作为整个节点的标志。每个节点均有一定的覆盖半径。中间节点与叶子节点的结构对于M-tree最近邻查询模块的效率有很大的影响,而节点的结构是由构建流程动态决定的。图1中显示了M-tree构建的流程,其重点在于插入过程中节点溢出的管理,更详细的关于M-tree索引结构的内容可参见文献"M-tree An Efficient Access Method for Similarity Search in Metric Spaces"。
在M-tree索引结构中,需要确定满足自反性、非负性、对称性以及三角不等式的数据间距离的度量函数,在本发明中,使用余弦角度作为数据间距离的度量函数,余弦角度计算公式如下:
sim ( d 1 , d 2 ) = arccos ( d 1 · d 2 | d 1 | | d 2 | )
式中,d1·d2表示两个向量d1、d2的内积,|d1|、|d2|分别表示向量d1、d2的长度。
该距离函数满足自反性、非负性、对称性以及三角不等式,能够满足M-tree高维索引结构对于度量函数的要求。
由图1可以看出,分割函数(Split Function)主要功能是当节点溢出的情况下,使用某种策略将属于该节点的对象集分割为两份,并分别分配到两个新节点中。为了改善M-tree在构建及查询时的效率,本发明进一步对分割函数进行了改进,即在当前节点溢出的情况下,使用K-medoids聚类算法将属于该节点的对象集中的数据分为两类,并将这两类数据分别放入两个新节点中。具体步骤如下:
1)计算当前节点中对象集的距离矩阵D,距离矩阵D中位置为(i,j)的元素dij表示第i个数据对象与第j个数据对象的距离。
2)遍历矩阵D中的元素,在m≠n的条件下找到值最大的元素dmn,将对应的数据对象Om,On作为K-medoids聚类算法的种子点。
d ( O m , O n ) = max ij ( d ( O i , O j ) )
称m中心点所在的类为第一类,n中心点所在的类为第二类。
3)在距离矩阵D中,遍历每一列。设当前遍历至第i列,比较dmi与dni的大小。如果dmi<dni,则表明第i个对象与第m个对象距离较近,因此第i个对象归入第一类,否则归入第二类。
4)重新计算第一类与第二类的中心点,取与类中其他对象平均距离最小的对象为新的中心点。
5)计算分别计算每一类中所有对象相互距离之和,累加后作为准则函数值。
6)使用当前准则函数值减去上一轮的准则函数值,如果差值小于规定的阀值,则停止迭代。否则重复步骤3到6。
由于节点下的对象数目有限,因此使用K-medoids能够保证在数次迭代之后就找出合适的路径对象。步骤1)中通过一次性计算所有子节点之间两两距离,避免在K-medoids迭代过程中重复计算。步骤2)中使用距离最远的两个子节点作为初始节点,避免了随机初始中心点方式下,出现聚类结果异常的问题。
步骤C、按照步骤A中的方法获取查询对象的语义特征向量,利用最近邻检索算法从步骤B所构建的M-tree数据索引结构中找出与查询对象的语义特征向量最相近的前k个语义特征向量,k为自然数,这k个语义特征向量所对应的音频数据即为最终的音频检索结果。
对于用户给定的查询对象Q,M-tree中使用非常类似于R-tree的分支界限法来实现查询。分支界限法使用了两个全局结构,一个是优先队列(priority queue,PR),指向子树的指针队列,其指向的子树中可以找到与查询对象Q相似的对象。另外一个是长度为k的数组(NN),存储程序执行的当前步骤中,与查询对象Q最相似的前k个对象。在检索算法中,循环使用两个因素确定下一棵被访问的子树:
1.NN中存储的即是目前最相近的k个对象,可以同时将NN数组中第k个对象与查询对象Q的距离作为新的搜索半径,筛选PR中的子树。
2.指向子树根结点的指针为T(Or),子树覆盖半径为r(Or)。查询对象Q与T(Or)中所有对象的最小距离都不小于d(Or,Q)+r(Or)。如果最小距离大于查询对象Q的半径,将被舍弃。
随着对PR当前子树检索完成,新的对象将被插入到NN数组中,搜索半径再次被更新。而检索过程将不断重复1、2两个筛选步骤,直到PR数组为空。
在查询结束后,NN中包含的就是最终的结果。

Claims (3)

1.一种基于M-tree的音频检索方法,其特征在于,包括以下步骤:
步骤A、提取音频数据集中各音频数据的高层语义特征,并利用主成分分析法对所提取的高层语义特征进行降维,得到表征音频数据集中各音频数据的语义特征向量;
步骤B、以步骤A中得到的音频数据集中所有音频数据的语义特征向量的集合作为数据集,并根据语义特征向量之间的相似度构建M-tree数据索引结构,其中任意两个语义特征向量                                               
Figure 2013102194295100001DEST_PATH_IMAGE002
Figure 2013102194295100001DEST_PATH_IMAGE004
之间的相似度
Figure 2013102194295100001DEST_PATH_IMAGE006
按照以下公式计算:
Figure 2013102194295100001DEST_PATH_IMAGE008
 ,
式中,
Figure 2013102194295100001DEST_PATH_IMAGE010
表示两个向量
Figure 358410DEST_PATH_IMAGE002
Figure 337867DEST_PATH_IMAGE004
的内积, 
Figure 2013102194295100001DEST_PATH_IMAGE012
Figure 2013102194295100001DEST_PATH_IMAGE014
分别表示向量
Figure 575131DEST_PATH_IMAGE004
的长度;
步骤C、按照步骤A中的方法获取查询对象的语义特征向量,利用最近邻检索算法从步骤B所构建的M-tree数据索引结构中找出与查询对象的语义特征向量最相近的前k个语义特征向量,k为自然数,这k个语义特征向量所对应的音频数据即为最终的音频检索结果。
2.如权利要求1所述基于M-tree的音频检索方法,其特征在于,所述音频数据高层语义特征的提取按照Computer Audio Lab 500数据库中所采用的方法。
3.如权利要求1所述基于M-tree的音频检索方法,其特征在于,在构建M-tree数据索引结构过程中,在当前节点溢出的情况下,使用K-medoids聚类算法将属于该节点的数据对象分为两类,并将这两类数据对象分别放入两个新节点中。
CN2013102194295A 2013-06-03 2013-06-03 一种基于M-tree的音频检索方法 Pending CN103324691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102194295A CN103324691A (zh) 2013-06-03 2013-06-03 一种基于M-tree的音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102194295A CN103324691A (zh) 2013-06-03 2013-06-03 一种基于M-tree的音频检索方法

Publications (1)

Publication Number Publication Date
CN103324691A true CN103324691A (zh) 2013-09-25

Family

ID=49193434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102194295A Pending CN103324691A (zh) 2013-06-03 2013-06-03 一种基于M-tree的音频检索方法

Country Status (1)

Country Link
CN (1) CN103324691A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900239A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于沃尔什-哈达码变换的音频实时比对方法
CN108334617A (zh) * 2018-02-07 2018-07-27 大连大学 基于语义的音乐检索的方法
CN115567562A (zh) * 2022-10-28 2023-01-03 东北大学 一种矿山多元传感器数据采集、清洗及故障判别系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841932A (zh) * 2012-08-06 2012-12-26 河海大学 一种基于内容的音频语义特征相似度比较方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841932A (zh) * 2012-08-06 2012-12-26 河海大学 一种基于内容的音频语义特征相似度比较方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHU QIU等: "Parallel M-tree Based on Declustering Metric Objects using K-medoids Clustering", 《PROCEEDINGS OF THE NINTH INTERNATIONAL SYMPOSIUM ON DISTRIBUTED COMPUTING AND APPLICATIONS TO BUSINESS, ENGINEERING AND SCIENCE》 *
张二芬,徐淮杰: "基于内容的音乐语义特征描述方法", 《电子设计工程》 *
王新颖: "三维模型检索中基于语义方法的若干问题研究", 《中国博士学位论文全文数据库》 *
陈晓颖,高峰,陆汝占: "一种新型的音乐信息检索索引方法及其应用", 《计算机工程与应用》 *
陈红艳: "高维多媒体数据索引算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104900239A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于沃尔什-哈达码变换的音频实时比对方法
CN108334617A (zh) * 2018-02-07 2018-07-27 大连大学 基于语义的音乐检索的方法
CN115567562A (zh) * 2022-10-28 2023-01-03 东北大学 一种矿山多元传感器数据采集、清洗及故障判别系统

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN108563790B (zh) 一种语义理解方法及装置、设备、计算机可读介质
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
Popat et al. Hierarchical document clustering based on cosine similarity measure
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
CN112035598A (zh) 一种智能语义检索方法、系统和电子设备
CN103345496B (zh) 多媒体信息检索方法和系统
CN106294684A (zh) 词向量的文本分类方法及终端设备
CN103440313A (zh) 基于音频指纹特征的音乐检索系统
CN103268348A (zh) 一种用户查询意图识别方法
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
CN106372073A (zh) 一种数学公式检索方法与装置
CN107291895A (zh) 一种快速的层次化文档查询方法
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN105447119A (zh) 一种文本聚类方法
CN103324691A (zh) 一种基于M-tree的音频检索方法
CN105160046A (zh) 基于文本的数据检索方法
Song et al. A novel document clustering model based on latent semantic analysis
Zhen et al. Notice of Retraction: Multi-modal music genre classification approach
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN117494711A (zh) 一种基于语义的用电地址相似度匹配的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130925