CN103412908B - 一种基于相似性矩阵融合的音频数据检索方法 - Google Patents
一种基于相似性矩阵融合的音频数据检索方法 Download PDFInfo
- Publication number
- CN103412908B CN103412908B CN201310332611.1A CN201310332611A CN103412908B CN 103412908 B CN103412908 B CN 103412908B CN 201310332611 A CN201310332611 A CN 201310332611A CN 103412908 B CN103412908 B CN 103412908B
- Authority
- CN
- China
- Prior art keywords
- matrix
- voice data
- represent
- calculate
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于相似性矩阵融合的音频数据检索方法,其特征在于:首先,计算不同种类音频数据特征的拉普拉斯矩阵;其次,计算不同种类音频数据拉普拉斯矩阵的特征值和特征向量,分别找出这些拉普拉斯矩阵中前M个最大特征值所对应的特征向量;第三,分别计算不同种类音频数据特征向量的相似性矩阵,将特征向量的相似性矩阵的对应元素相乘得到融合后的相似性矩阵,第四,对每个查询目标音频数据,利用融合后的相似性矩阵得到每个音频数据的分数,将音频数据按照分数从高到低排序,在前若干个排好序的音频数据中,统计其中与目标音频数据属于同一类别的音频数据数量,计算检索准确率。利用本发明方法,可以实现多种音频数据特征的融合检索,融合后的检索准确率比融合前有了大幅提高。
Description
技术领域
本发明涉及一种基于相似性矩阵融合的音频数据检索方法,可以应用于不同种类音频数据的检索当中。
背景技术
互联网技术和音频技术的发展,使得音频数据的数量呈现几何式的增长,如何在海量的音频数据中检索出用户需要的音频数据成为多媒体技术中的热点和难点问题。国内外学者提出了多种特征来表示音频数据,使得音频数据检索更为准确。另外,许多用于音频数据检索的方法被提出来,这些方法也能提高音频数据检索的准确率。但是,这些方法大都基于单种特征进行检索,而且这些特征往往基于传统的音阶等特征,检索准确率难以得到进一步的提升。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于相似性矩阵融合的音频数据检索方法,融合多种音频特征的优势,提高音频数据检索技术的准确性。
技术方案
一种基于相似性矩阵融合的音频数据检索方法,其特征在于步骤如下:
步骤1:利用计算N个音频数据的特征X1,X2,...,XN的相似性矩阵W1;利用计算N个音频数据的特征Y1,Y2,...,YN的相似性矩阵W2;
其中,X1,X2,...,XN表示第1、2和N个音频数据的第一种特征;Y1,Y2,...,YN表示第1、2和N个音频数据的第二种特征;表示矩阵W1第i行和第j列的元素;i=1,2,...,N,j=1,2,...,N,N>0;σ>0为常数;Xi,Xj表示第i个和第j个音频数据的第一种特征;上标T表示向量转置;表示矩阵W2第i行和第j列的元素;Yi,Yj表示第i个和第j个音频数据的第二种特征;
步骤2:利用计算W1的拉普拉斯矩阵L1,利用计算W2的拉普拉斯矩阵L2;
其中,D1表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W1的第i行第t列的元素;D2表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W2的第i行第t列的元素;
步骤3:计算拉普拉斯矩阵L1和L2的特征值和特征向量,选取前M个最大特征值所对应的特征向量U1,U2,...,UM和V1,V2,...,VM;其中,M≥1表示常数;U1,U2,...,UM表示属于L1的大小为N×1的特征向量;V1,V2,...,VM表示属于L2的大小为N×1的特征向量;
步骤4:构造矩阵P=[U1 U2...UM]和Q=[V1 V2...VM];计算[K1 K2...KN]T和[L1L2...LN]T的相似性矩阵S1和S2,S1的元素计算公式为S2的元素计算公式为
其中,K1,K2,...,KN表示矩阵P的第1,2,...,N行元素;L1,L2,...,LN表示矩阵Q的第1,2,...,N行元素;表示矩阵S1第i行和第j列的元素;表示矩阵S2第i行和第j列的元素;
步骤5:将相似性矩阵S1和S2的对应元素相乘得到融合后的相似性矩阵S;
步骤6:利用公式r=β(I-λS)-1T计算N个音频数据检索的分数向量r,并将N个音频数据按照分数大小从高到低排列,得到排序后的N个音频数据;其中,r=(r1,r2,...,rN)表示N个音频数据利用融合后的相似性矩阵进行检索的得分向量,r1,r2,...,rN表示第1,2,...,N个音频数据的得分;β=1-λ表示常数;λ>0表示常数;T=[t1,...,tN]T表示检索时的查询向量,ti=1表示第i个音频数据为所要查找的目标音频数据,否则ti=0。
在步骤6完成后统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C,计算检索准确率A=C/Q。
有益效果
本发明提出的一种基于相似性矩阵融合的音频数据检索方法,首先,计算不同种类音频数据特征的拉普拉斯矩阵;其次,计算不同种类音频数据拉普拉斯矩阵的特征值和特征向量,分别找出这些拉普拉斯矩阵中前M个最大特征值所对应的特征向量;第三,分别计算不同种类音频数据特征向量的相似性矩阵,将特征向量的相似性矩阵的对应元素相乘得到融合后的相似性矩阵;第四,对每个查询目标音频数据,利用融合后的相似性矩阵得到每个音频数据的分数,将音频数据按照分数从高到低排序,在前若干个排好序的音频数据中,统计其中与目标音频数据属于同一类别的音频数据数量,计算检索准确率。利用本发明方法,可以实现多种音频数据特征的融合检索,融合后的检索准确率比融合前有了大幅提高。
本发明提出的检索方法,能够融合不同种类音频数据特征的优点,然后得到更好的检索准确率。与使用单一特征检索相比,大大提高了音频数据检索的准确率。
附图说明
图1:本发明方法的基本流程图
图2:本发明方法的检索准确率
具体实施方式
现结合实施例、附图对本发明作进一步描述:
用于实施的硬件环境是:AMD Athlon 64×2 5000+计算机、2GB内存、256M显卡,运行的软件环境是:Matlab2009a和Windows XP。我们用Matlab软件实现了本发明提出的方法。
本发明具体实施如下:
本发明流程图如附图1所示。用于检索的264个音频数据包含三类,分别为:100个古典音频数据、100个流行音频数据和64个演讲音频数据。两种特征分别为高层特征和底层特征,具体步骤如下:
1、计算N=264个音频数据的两种特征X1,X2,...,XN和Y1,Y2,...,YN的拉普拉斯矩阵L1和L2,X1,X2,...,XN表示第1、2和N个音频数据的高层特征;Y1,Y2,...,YN表示第1、2和N个音频数据的底层特征,具体方法如下:
(1)计算矩阵W1,其元素计算公式为同理计算矩阵W2,其元素计算公式为
其中,表示矩阵W1第i行和第j列的元素;i=1,2,...,N,j=1,2,...,N,N=264,σ=3;Xi,Xj表示第i个和第j个音频数据的第一种特征;上标T表示向量转置;表示矩阵W2第i行和第j列的元素;Yi,Yj表示第i个和第j个音频数据的第二种特征;
(2)利用公式计算W1的拉普拉斯矩阵L1,同理,计算W2的拉普拉斯矩阵
其中,D1表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W1的第i行第t列的元素;D2表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W2的第i行第t列的元素;
2、计算拉普拉斯矩阵L1和L2的特征值和特征向量,选取前M个最大特征值所对应的特征向量U1,U2,...,UM和V1,V2,...,VM;
其中,M=3;U1,U2,...,UM表示属于L1的大小为N×1的特征向量;V1,V2,...,VM表示属于L2的大小为N×1的特征向量,N=264;
3、构造矩阵P=[U1 U2...UM]和Q=[V1 V2...VM];计算[K1 K2...KN]T和[L1L2...LN]T的相似性矩阵S1和S2,S1的元素计算公式为S2的元素计算公式为
其中,K1,K2,...,KN表示矩阵P的第1,2,...,N行元素,N=264;L1,L2,...,LN表示矩阵Q的第1,2,...,N行元素;表示矩阵S1第i行和第j列的元素;表示矩阵S2第i行和第j列的元素;
4、将相似性矩阵S1和S2的对应元素相乘得到融合后的相似性矩阵S;
5、利用公式r=β(I-λS)-1T计算N=264个音频数据检索的分数向量r,并将N个音频数据按照分数大小从高到低排列,得到排序后的N个音频数据;
其中,r=(r1,r2,...,rN)表示N=264个音频数据的融合检索后的得分向量,r1,r2,...,rN表示第1,2,...,N个音频数据的得分,N=264;β=1-λ表示常数;λ=0.99;T=[t1,...,tN]T表示检索时的查询向量,ti=1表示第i个音频数据为所要查找的目标音频数据,否则ti=0;
6、统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C,计算检索准确率A=C/Q。
利用本算法对264个音频数据的两种特征进行融合检索,将264个音频数据中每个音频数据都作为所要查找的目标音频数据进行一次检索,将音频数据按照得分多少从高到低排列,在前5、10、15和20个音频数据内分别统计与目标音频数据属于同一类别的音频数据数量,计算检索准确率。对264个音频数据的检索准确率进行平均,得到264个音频数据的平均检索准确率。如附图2所示。作为对比,我们也使用高层特征和底层特征分别进行检索,将得到的检索准确率也显示在附图2中,从图中可以看出,融合后的高层特征和底层特征的检索准确率比融合前都有了大幅提高。其中,融合后的检索准确率比单独使用高层特征提高了12.6%,比单独使用底层特征提高了18.2%。
Claims (2)
1.一种基于相似性矩阵融合的音频数据检索方法,其特征在于步骤如下:
步骤1:利用计算N个音频数据的特征X1,X2,...,XN的相似性矩阵W1;利用计算N个音频数据的特征Y1,Y2,...,YN的相似性矩阵W2;
其中,X1,X2,...,XN表示第1、2和N个音频数据的第一种特征;Y1,Y2,...,YN表示第1、2和N个音频数据的第二种特征;表示矩阵W1第i行和第j列的元素;i=1,2,...,N,j=1,2,...,N,N>0;σ>0为常数;Xi,Xj表示第i个和第j个音频数据的第一种特征;上标T表示向量转置;表示矩阵W2第i行和第j列的元素;Yi,Yj表示第i个和第j个音频数据的第二种特征;
步骤2:利用计算W1的拉普拉斯矩阵L1,利用计算W2的拉普拉斯矩阵L2;
其中,D1表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W1的第i行第t列的元素;D2表示对角线矩阵,其元素 t=1,2,...,N;表示矩阵W2的第i行第t列的元素;
步骤3:计算拉普拉斯矩阵L1和L2的特征值和特征向量,选取前M个最大特征值所对应的特征向量U1,U2,...,UM和V1,V2,...,VM;其中,M≥1表示常数;U1,U2,...,UM表示属于L1的大小为N×1的特征向量;V1,V2,...,VM表示属于L2的大小为N×1的特征向量;
步骤4:构造矩阵P=[U1 U2...UM]和Q=[V1 V2...VM];计算[K1 K2...KN]T和[L1 L2...LN]T的相似性矩阵S1和S2,S1的元素计算公式为S2的元素计算公式为
其中,K1,K2,...,KN表示矩阵P的第1,2,...,N行元素;L1,L2,...,LN表示矩阵Q的第1,2,...,N行元素;表示矩阵S1第i行和第j列的元素;表示矩阵S2第i行和第j列的元素;
步骤5:将相似性矩阵S1和S2的对应元素相乘得到融合后的相似性矩阵S;
步骤6:利用公式r=β(I-λS)-1T计算N个音频数据检索的分数向量r,并将N个音频数据按照分数大小从高到低排列,得到排序后的N个音频数据;其中,r=(r1,r2,...,rN)表示N个音频数据利用融合后的相似性矩阵进行检索的得分向量,r1,r2,...,rN表示第1,2,...,N个音频数据的得分;β=1-λ表示常数;λ>0表示常数;T=[t1,...,tN]T表示检索时的查询向量,ti=1表示第i个音频数据为所要查找的目标音频数据,否则ti=0。
2.根据权利要求1所述基于相似性矩阵融合的音频数据检索方法,其特征在于:在步骤6完成后统计前Q个排序后的音频数据中与目标音频数据属于同一类别的音频数据数量C,计算检索准确率A=C/Q。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310332611.1A CN103412908B (zh) | 2013-08-01 | 2013-08-01 | 一种基于相似性矩阵融合的音频数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310332611.1A CN103412908B (zh) | 2013-08-01 | 2013-08-01 | 一种基于相似性矩阵融合的音频数据检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103412908A CN103412908A (zh) | 2013-11-27 |
CN103412908B true CN103412908B (zh) | 2016-08-10 |
Family
ID=49605920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310332611.1A Expired - Fee Related CN103412908B (zh) | 2013-08-01 | 2013-08-01 | 一种基于相似性矩阵融合的音频数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103412908B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111969B (zh) * | 2014-06-04 | 2017-06-20 | 百度移信网络技术(北京)有限公司 | 一种相似性度量的方法以及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142037A (zh) * | 2011-05-05 | 2011-08-03 | 西北工业大学 | 一种基于功能磁共振成像的视频数据检索方法 |
CN102521368A (zh) * | 2011-12-16 | 2012-06-27 | 武汉科技大学 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
CN102693321A (zh) * | 2012-06-04 | 2012-09-26 | 常州南京大学高新技术研究院 | 一种跨媒体间信息分析与检索的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8650198B2 (en) * | 2011-08-15 | 2014-02-11 | Lockheed Martin Corporation | Systems and methods for facilitating the gathering of open source intelligence |
-
2013
- 2013-08-01 CN CN201310332611.1A patent/CN103412908B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102142037A (zh) * | 2011-05-05 | 2011-08-03 | 西北工业大学 | 一种基于功能磁共振成像的视频数据检索方法 |
CN102521368A (zh) * | 2011-12-16 | 2012-06-27 | 武汉科技大学 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
CN102693321A (zh) * | 2012-06-04 | 2012-09-26 | 常州南京大学高新技术研究院 | 一种跨媒体间信息分析与检索的方法 |
Non-Patent Citations (1)
Title |
---|
基于关系矩阵融合的多媒体数据聚类;张鸿,等.;《计算机学报》;20110930;第34卷(第9期);1705-1710 * |
Also Published As
Publication number | Publication date |
---|---|
CN103412908A (zh) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778227B (zh) | 从检索图像中筛选有用图像的方法 | |
Khodaei et al. | Hybrid indexing and seamless ranking of spatial and textual features of web documents | |
CN104994424B (zh) | 一种构建音视频标准数据集的方法和装置 | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及系统 | |
CN105138672B (zh) | 一种多特征融合的图像检索方法 | |
CN103235812B (zh) | 查询多意图识别方法和系统 | |
CN1967536A (zh) | 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法 | |
CN110110844B (zh) | 基于OpenCL的卷积神经网络并行处理方法 | |
CN101493819A (zh) | 一种搜索引擎作弊检测的优化方法 | |
CN103123653A (zh) | 基于贝叶斯分类学习的搜索引擎检索排序方法 | |
CN104298715A (zh) | 一种基于tf-idf的多索引结果合并排序方法 | |
CN104778276A (zh) | 一种基于改进tf-idf的多索引合并排序算法 | |
CN102693316B (zh) | 基于线性泛化回归模型的跨媒体检索方法 | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN105373695B (zh) | 游戏服务器的数据互通方法与装置 | |
CN106971000A (zh) | 一种搜索方法及装置 | |
CN108984711A (zh) | 一种基于分层嵌入的个性化app推荐方法 | |
CN105956010A (zh) | 基于分布式表征和局部排序的分布式信息检索集合选择方法 | |
CN103455619A (zh) | 一种基于Lucene分片结构的打分处理方法及系统 | |
CN102033927A (zh) | 一种基于gpu实现的快速音频检索方法 | |
CN103324707A (zh) | 一种基于半监督聚类的查询扩展方法 | |
CN103412908B (zh) | 一种基于相似性矩阵融合的音频数据检索方法 | |
CN102682119B (zh) | 一种基于动态知识的深层网页数据获取方法 | |
CN103886072A (zh) | 煤矿搜索引擎中检索结果聚类系统 | |
CN104731818B (zh) | 关键词优化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160810 Termination date: 20190801 |
|
CF01 | Termination of patent right due to non-payment of annual fee |