CN101364222A - 一种两阶段的音频检索方法 - Google Patents
一种两阶段的音频检索方法 Download PDFInfo
- Publication number
- CN101364222A CN101364222A CNA2008101206839A CN200810120683A CN101364222A CN 101364222 A CN101364222 A CN 101364222A CN A2008101206839 A CNA2008101206839 A CN A2008101206839A CN 200810120683 A CN200810120683 A CN 200810120683A CN 101364222 A CN101364222 A CN 101364222A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio frequency
- centerdot
- frequency
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000005457 optimization Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000033764 rhythmic process Effects 0.000 claims description 13
- 230000006854 communication Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 3
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 27
- 241001269238 Data Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种两阶段的音频检索方法。包括以下步骤:1)提取数据库中音频文件的音频特征;2)对数据库中音频文件进行基于文本的检索;3)基于检索到的音频文件构成训练集合,用主成分分析方法寻找对于分类最可靠的特征集合;4)基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器;5)以步骤4)训练得到的强分类器进行检索。本发明适用于任何一种检索部分注释的音频集的基于内容的推荐系统,也适用于检索任意的非文本对象,例如图像和视频。
Description
技术领域
本发明涉及计算机互联网多媒体搜索领域,尤其涉及一种两阶段的音频检索方法。
背景技术
当今的信息检索技术在处理文本文档时取得了巨大的成功,这已经由搜索引擎公司例如谷歌(Google)和雅虎(Yahoo!)所获得的巨额商业利润所证明。相对的,多媒体检索技术仍然处于初期阶段,而且也不存在能够达到基于文本的搜索引擎所达到的用户满意度和流行度的产品或者工具。事实上,相比检索没有注释的音频这个问题的重要性和应用的广泛性,得到的关注度却较少。
现存的推荐系统在处理音频数据的时候高度依赖于文本注释[1]。这些注释中包含有结构化或者非结构化的元数据,例如,标题、艺术家以及歌词。基于文本注释检索音频的方法本质上和检索文本文档是一样的。不过与可以由算法自动提取关键词的网页文件不同,从音频文件中提取出文本注释是个巨大的挑战而且很容易出错。然而,现实中只有少部分的音频文件是由用户手动注释好的,并且这些注释可能会有偏差或者相对太简单了,所以基于文本的音频检索方法在适用性和可靠性上都有限制。Terveen和Hill指出了现在的基于内容的推荐系统要推荐像音乐或者图像一样的非文本对象“实际上是不可能的”。然而,不使用任何推荐系统,即使是在小音频集(比如200个音频)中搜索没有注释的音频,也需要用户有巨大的耐心和决心。
除了基于文本搜索的成果,人们还提出了用于基于内容的音频搜索的内容相似度的计算方法。现在这方面有许多积极的工作,例如,通过识别用户语音的声音音频来进行音乐查询[12,23],然后搜索引擎就可以通过音频相似度来实现基于内容的搜索。虽然这些工作也取得了一些值得瞩目的进展,但是总体来说,因为音频特征空间的高维度,依赖于用户和查询的内容相似度的主观性和模糊性,处理没有注释的音频的任务仍然是困难的。
本专利与推导用于音乐查询的语义描述研究相关[28]。[26]介绍了一类在多维向量空间中用于语音音频检索的方法。[31]提供了自动推导音乐语音描述的算法并将其用于音乐检索[32]。[17]描述了一种从音乐的语义空间中推导社会标签的算法。Sordo等[27]用音乐相似度传播音乐的文本注释。
查询检索音频片段这个一般性的问题已经研究了许多年[9],[21,30]介绍了许多音频索引和检索技术。其中的关键在于音频相似度的定义,其中流行的方法为使用Mel频率倒谱系数[19],[20]则应用了基于歌曲信号谱特征的聚类技术,可以用于比较不同的歌曲。[6]介绍了在大规模音乐检索中使用声学和主观音乐相似度的方法。Berenzweig等在锚空间中引入了高斯混合模型来表达如歌曲一类的对象,然后用KL-散度的估计来定义相似度以匹配标记好的数据[5]。Aucouturier以及Pachet则在[3]中使用倒谱系数的高斯模型定义音色相似度用于比较音乐标题。节奏[10]与序列[7]信息也被用于定义音乐相似度。在声学相似度中,Barrington等提出了用于检索音频数据的语义相似度[4]。
用于检索口述文档[33],演讲音频[24]和新闻[29]的特殊检索系统也已被开发出来。最近,Eck等[8]研究了如何自动生成未标记或者弱标记音乐的社会标签以减少推荐系统中的冷启动问题。本专利与音频分类问题相关联,许多标准的机器学习技术已经被用于解决这个问题,例如支撑向量机[13,22]与半监督学习[18]。
现在存在少量的音频检索系统[14],而其中基于用户语音的查询进行检索是一个热点研究的问题[12,23]。最近,Rice和Bailey提出了一个音频文件搜索系统同时支持基于描述文本和声音相似度的搜索[25]。
参考文献
[1]G.Adomavicius and A.Tuzhilin.面向下一代推荐系统:最新技术和可能扩展的调查(Toward the next generation of recommender systems:a survey of thestate-of-the-art and possible extensions).IEEE知识与数据工程会刊(IEEETransactions on Knowledge and Data Engineering),17(6):734-749,2005.
[2]C.C.Aggarwal and P.S.Yu.在高维空间中寻找普适的映射聚类(Findinggeneralized projected clusters in highdimensional spaces).In SIGMOD’00:ACMSIGMOD数据管理国际会议(Proc.ACM SIGMOD International Conference onManagement of Data),pages70-81,New York,NY,USA,2000.ACM.
[3]J.-J.Aucouturier and F.Pachet.音乐相似度度量:有什么用?(Music similaritymeasures:What’s the use?).音乐信息检索国际会议(In International Conferenceon Music Information Retrieval),2002.
[4]L.Barrington,A.Chan,D.Turnbull,and G.Lanckriet.用语义相似度检索音频信息(Audio information retrieval using semantic similarity).IEEE声学、演说与信号处理国际会议(In IEEE International Conference on Acoustics,Speech andSignal Processing),2007.
[5]A.Berenzweig,D.P.W.Ellis,and S.Lawrence.用于分类与音乐相似度度量的锚空间(Anchor space for classi?cation and similarity measurement of music).2003年多媒体国际会展(In Proceedings of the 2003 International Conference onMultimedia and Expo),2003.
[6]A.Berenzweig,B.Logan,D.P.W.Ellis,and B.Whitman.大规模声学和主观音乐相似度度量评估(A large-scale evaluation of acoustic and subjective musicsimilarity measures).第4届国际音乐信息检索讨论会(In Proceedings of the 4thInternational Symposium on Music Information Retrieval),2003.
[7]M.Casey and M.Slaney.音乐相似度中序列的重要性(The importance ofsequences in musical similarity).IEEE声学、演说与信号处理国际会议(In IEEEInternational Conference on Acoustics,Speech and Signal Processing),2006.
[8]D.Eck,P.Lamere,T.Bertin-Mahieux,and S.Green.自动生成用于音乐推荐的社会标签(Automatic generation of social tags for music recommendation).In J.Platt,D.Koller,Y.Singer,and S.Roweis,editors,MPS 08’:神经信息处理系统进展(Proc.Advances in Neural Information Processing Systems),pages 385-392.MITPress,Cambridge,MA,2008.
[9]J.Foote.音频信息检索综述(An overivew of audio information retrieval).多媒体系统(Multimedia Systems),7(1):2-10,1999.
[10]J.Foote,M.Cooper,and U.Nam.基于节奏相似度检索音频(Audio retrievalby rhythmic similarity).音乐信息检索国际会议(In International Conference onMusic Information Retrieval),2002.
[11]Y.Freund and R.E.Schapire.用于实时学习与提升应用的决定论综述(Adecision-theoretic generalization of on-line learning and anapplication to boosting).计算学习理论欧洲会议(In European Conference on Computational LearningTheory),pages 23-37,1995.
[12]A.Ghias,J.Logan,D.Chamberlin,and B.C.Smith.基于哼唱的查询:在音频数据库中检索音乐信息(Query by humming:Musical information retrieval in anaudio database).ACM多媒体(In ACM Multimedia),1995.
[13]G.Guo and S.Z.Li.用支撑向量机进行基于内容的音频分类和检索(Content-based audio classification and retrieval by support vector machines).IEEE神经网络会刊(IEEE Transactions on Neural Networks),14(1),2003.
[14]K.Hoashi,H.Ishizaki,K.Matsumoto,and F.Sugaya.使用面向用户不同配置的查询整合进行基于内容的音乐检索(Content-based music retrieval using queryintegration for users with diverse preferences).音乐信息检索国际会议(InInternational Conference on Music Information Retrieval),2007.
[15]R.A.Hornand C.R.Johnson.矩阵分析(Topics in Matrix Analysis).剑桥大学出版社(Cambridge University Press),1991.
[16]I.T.Jolliffe.主成分分析(Principal Component Analysis).Springer,2002.
[17]M.Levy and M.Sandler.由社会标签生成音乐的语义空间(A semantic spacefor music derived from social tags).第8届音乐信息检索国际会议(In 8thInternational Conference on Music Information Retrieval),2007.
[18]T.Li and M.Ogihara.从歌词和内容中使用半监督学习识别音乐艺术风格(Music artist style identification by semi-supervised learning from both lyrics andcontent).第12届CAN多媒体国际年会(In Proceedings of the 12th Annual ACMInternational Conference on Multimedia),2004.
[19]B.Logan.用于音乐建模的Mel频率倒谱系数(Mel frequency cepstralcoefficients for music modeling).第1届音乐信息检索国际讨论会(In Proceedingsof the First International Symposium on Music Informaiton Retrieval),2000.
[20]B.Logan and A.Salomon.一个基于信号分析的音乐相似度方程(A musicsimilarity function based on signal analysis).IEEE多媒体国际会展(In IEEEInternational Conference on Multimedia and Expo),2001.
[21]J.Makhoul,F.Kubala,T.Leek,D.Liu,L.Nguyen,R.Schwartz,and A.Srivastava.用于音频索引和检索的演讲与语言技术(Speech and languagetechnologies for audio indexing and retrieval).IEEE会刊(Proceedings of the IEEE),88:1338-1353,2000.
[22]M.Mandel and D.Ellis.用于音乐分类的歌曲级特征与支撑向量机方法(Song-level features and support vector machines for music classification).音乐信息检索国际会议(In International Conference on Music Information Retrieval),2005.
[23]B.Pardo and W.P.Birmingham.基于哼唱的查询:能有多好的性能?(Queryby humming:How good can it get?).音乐信息检索研讨会(In Workshop on MusicInformation Retrieval),2003.
[24]A.Park,T.J.Hazen,and J.R.Glass.自动处理用于信息检索的音频演讲(Automatic processing of audio lectures for information retrieval).IEEE声学、演说与信号处理国际会议(In IEEE International Conference on Acoustics,Speechand Signal Processing),2005.
[25]S.V.Rice and S.M.Bailey.搜索声音模式的系统(A system for searchingsound palettes).第11届艺术与技术隔年讨论会(In Eleventh Biennial Symposiumon Arts and Technology),2008.
[26]M.Slaney.语义音频检索(Semantic-audio retrieval).IEEE声学、演说与信号处理国际会议(In Acoustics,Speech,and Signal Processing,2002.Proceedings.(ICASSP’02).IEEE International Conference on),pages IV-4108-IV-4111 vol.4,2002.
[27]M.Sordo,C.Laurier,and O.Celma.标注音乐集:内容相似度如何帮助传播标签(Annotating music collections:how content-based similarity helps to propagatelabels).第8届音乐信息检索国际会议(In8th International Conference on MusicInformation Retrieval),2007.
[28]D.Turnbull,L.Barrington,D.Torres,and G.Lanckriet.使用cal500数据集进行面向音乐基于语义描述的查询(Towards musical query-by-semantic-descriptionusing the cal500 data set).第30届ACM SIGIR信息检索研究与发展国际会议(In30th annual international ACM SIGIR conference on Research and development ininformation retrieval),pages 439-446.ACM,2007.
[29]G.Tzanetakis and M.-Y.Chen.构造用于广播新闻检索的音频分类器(Building audio classifiers for broadcast news retrieval).用于多媒体交互服务的图像分析国际研讨会(In International Workshop on Image Analysis for MultimediaInteractive Services),2004.
[30]G.Tzanetakis and P.Cook.音频信息检索工具(Audio information retrieval(AIR)tools).第1届音乐信息检索国际讨论会(In Proceedings of the FirstInternational Symposium on Music Information Retrieval),2000.
[31]B.Whitman.学习音乐的意义(Learning the meaning of music).MIT博士学位论文(In PhDthesis.MIT),2005.
[32]B.Whitman and R.Rifkin.作为复类学习问题的音乐的基于描述的查询(Musical query-by-description as a multiclass learning problem).IEEE多媒体信号处理研讨会(In Multimedia Signal Processing,2002 IEEE Workshop onVolume),Issue,9-11Dec.2002,pages 153-156,2002.
[33]B.Zhou and J.H.L.Hansen.演讲查找:一个实时检索历史音频档案系统的实验(SpeechFind:An experimental on-line spoken document retrieval system forhistorical audio archives).口述语言处理国际会议(In International Conference onSpoken Language Processing),2002.
发明内容
本发明的目的是克服现有技术的不足,提供一种两阶段的音频检索方法。
两阶段的音频检索方法包括以下步骤:
1)提取数据库中音频文件的音频特征;
2)对数据库中音频文件进行基于文本的检索;
3)基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合;
4)基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器;
5)以步骤4)训练得到的强分类器进行检索。
所述的提取数据库中音频文件的音频特征步骤:令Ai表示所有用于检索的候选音频集合,其中i=1,…,n,在此集合中,有na个音频文件有文本注释,如这些音频文件为对于其中的每一个音频文件,用yi表示与Ai相关联的文本,剩余的nu=n-na个未注释音频为对于每一个音频文件Ai,提取如下音频特征(可扩展到任意数目、任意类型的音频特征):
1.节奏模式(Rhythm Patterns)
2.统计谱描述子(Statistical Spectrum Descriptor)
3.节奏直方图(Rhythm Histogram)
4.自相关(Auto-correlation)
5.对数冲击时间(Log Attack Time)
6.时间质心(Temporal Centroid)
7.音频功率(Audio Power)
8.基波频率(Fundamental Frequency)
9.总响度(Total Loudness)
10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)
11.频谱质心(Audio Spectrum Centroid)
12.频谱衰减(Audio Spectrum Rolloff)
13.频谱扩展(Audio Spectrum Spread)
14.响度波带(Sone/Bark Bands)
15.过零率(Zero-crossing Rate)
16.频谱平度(Audio Spectrum Flatness)。
所述的对数据库中音频文件进行基于文本的检索步骤:给定用户输入的由一个或者多个关键字组成的查询Q,对数据库中音频文件使用文本检索方法进行基于文本的查询,检索注释中包含查询关键字的音频,令表示查询的结果向量,其中如果Ai是上述文本查询过程中检索到的结果那么此向量的第i个分量ra(i)=1,否则ra(i)=0,对于没有注释的音频,它们的ra(i)被置为0,上述基于关键字匹配的方法也可以被替换成为任意基于文本检索方法,属于本权利要求的变形。
所述的基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合步骤:
对于两个已注释音频文件,计算检索到的音频特征之间的协方差:
其中μk和μl分别是在第k个和第l个特征维度上的均值, 以及 构造一个协方差矩阵C(k,l)=ρk,l,其中矩阵的第k列和第l行元素为ρk,l,定义特征vi的方差为vari,所有的特征vi根据方差vari的升序排序,选择方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截断阈值,这些选中的特征形成了一个新的特征集合V={vi},这一新的特征集V就是我们的方法对于该特定音频检索关键词所确定的最可靠的音频特征子集,记特征集V的维度为|V|,即该子音频特征集含有|V|个音频特征。
所述的基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器步骤:
(1)两个音频之间的相似度就在特征集合的投影子空间内被重新定义为:
其中vi∈V,即每个在上式中使用到的音频特征vi均是权利要求4中检测获得的对于该特定音频检索关键词所确定的最可靠的音频特征之一,对于权重数列{κi|i=1,…,|V|},我们引入以下m个数列作为数列{κi|i=1,…,|V|}的候选: 以及常数列{1|i=1,…,|V|}这里m是一个用户可调的参数,它的默认值为5,除此之外权利要求4中的截断阈值γ∈(0,1)也有x种取值候选,分别为 这里x是一个用户可调的整数型参数,它的默认值为5,由于γ和{κi|i=1,…}各有x和m种赋值的候选方案,故共有xm种组合;此处数列{κi|i=1,…,|V|}和γ赋值的候选方案可以被替换成别的形式,均将视为本权利的变形;
(2)基于文本检索中得到的结果集合两个音频的内容相似度构造一个n×n的音频相似度矩阵S,矩阵中第i列和第j行的元素表示Ai和Aj之间的相似度, 定义单步传播过程如下:
然后再对所有的音频按照它们对应的ru(i)值降序排序并且以此顺序推荐给用户,上述单步传播过程可也可以被实现成为以下的多步传播过程:
其中β是传播步骤中的衰减常数,并引入Adaboost方法,与查询相关的音频,就标记为+1,否则标记为-1,训练集合从第一阶段基于文本的查询中得到,步骤(1)中由于xm种对数列{κi|i=1,…,|V|}和γ的赋值候选方案将产生xm种音频相似度定义,根据(3)式或(4)式都可以计算出一个ru值,每一个ru(i)>τ的判定式都构成了一个弱分类器,对于xm个音频相似度定义对应的弱分类器,搜索使弱分类器分类错误达到最小的τ和β优化设置;
(3)在上述的优化设置搜索过程中使用k-folded交叉验证技术以防止过拟合现象,其中的k设为第一阶段基于文本的查询中检索得到的音频数量,阈值τ和β通过相似度定义成对的组成一个弱分类器:通过使用每一对音频相似度的定义,都能构造一个相似度矩阵S,然后应用(3)或(4)式于ra,就得到了ru,对于ru(i)的每一个分量,如果大于τ,就把Ai标记为+1,否则标记为-1;这样就得到了xm个弱分类器,再应用标准的Adaboost算法基于训练集合得到一个强分类器:对每一个弱分类器赋予一个对应的权重ω,应用Adaboost算法在每次的迭代中更新这个权重直到分类错误率小于给定阈值或者达到最大迭代次数,最后如果 就把Ai标记为+1,否则标记为-1,此判定式为得到的强分类器;
(4)在第一阶段基于文本的检索过程中如果只找到一个相关的音频,那么就不可能使用任何的交叉验证方法,此时在第二阶段的查询过程中就使用默认分类器,其脱机训练过程如下,对于数据库中有注释的训练集合部分的所有音频文件,使用k最近邻居基础聚类算法分成s个聚类组,对于每一个聚类组中的音频,假设他们都属于某一类特定的音频内容,然后使用上述的Adaboost方法通过增强xm个弱分类器来训练一个强分类器以分类一个音频是否属于这一聚类组,这样就产生了s个强分类器,每一个都是由上述的音频聚类组所产生的,作为该聚类组中所有音频的默认分类器。
所述的以步骤4)训练得到的强分类器进行检索步骤:由步骤4)中得到的强分类器对整个数据库的所有音频进行分类,其中被标记为+1的音频作为最后的查询结果返回给用户。
本发明提出了一种新的基于内容的两阶段音频检索方法,对于只有部分或者少量人工标注的多媒体数据库,先通过语义标签来自动寻找相关音频,然后基于语义标签的音频查询结果动态在线训练获得与之相应的最佳音乐内容特征及特征组合,从而用于第二阶段的基于音频内容的查询。通过对由此方法架构的系统原型性能进行评估,得到的结果证明了此方法的先进性,同时该方法也很容易的扩展到任意的非文本对象,例如图像和视频。
附图说明
图1(a)是基本方法在纯音乐音频集合中查精率箱式示意图;
图1(b)是基本方法在流行歌曲音频集合中查精率箱式示意图;
图1(c)是基本方法在公众演讲音频集合中查精率箱式示意图;
图1(d)是基本方法在电视节目音频集合中查精率箱式示意图;
图2(a)是基本方法在纯音乐音频集合中查全率箱式示意图;
图2(b)是基本方法在流行歌曲音频集合中查全率箱式示意图;
图2(c)是基本方法在公众演讲音频集合中查全率箱式示意图;
图2(d)是基本方法在电视节目音频集合中查全率箱式示意图;
图3(a)是基本方法在纯音乐音频集合中F-比率箱式示意图;
图3(b)是基本方法在流行歌曲音频集合中F-比率箱式示意图;
图3(c)是基本方法在公众演讲音频集合中F-比率箱式示意图;
图3(d)是基本方法在电视节目音频集合中F-比率箱式示意图;
图4(a)是性能优化方法在纯音乐音频集合中查精率箱式示意图;
图4(b)是性能优化方法在流行歌曲音频集合中查精率箱式示意图;
图4(c)是性能优化方法在公众演讲音频集合中查精率箱式示意图;
图4(d)是性能优化方法在电视节目音频集合中查精率箱式示意图;
图5(a)是性能优化方法在纯音乐音频集合中查全率箱式示意图;
图5(b)是性能优化方法在流行歌曲音频集合中查全率箱式示意图;
图5(c)是性能优化方法在公众演讲音频集合中查全率箱式示意图;
图5(d)是性能优化方法在电视节目音频集合中查全率箱式示意图;
图6(a)是性能优化方法在纯音乐音频集合中F-比率箱式示意图;
图6(b)是性能优化方法在流行歌曲音频集合中F-比率箱式示意图;
图6(c)是性能优化方法在公众演讲音频集合中F-比率箱式示意图;
图6(d)是性能优化方法在电视节目音频集合中F-比率箱式示意图;
图7是基本方法与性能优化方法之间的性能查精率比较示意图;
图8是基本方法与性能优化方法之间的性能查全率比较示意图;
图9是基本方法与性能优化方法之间的性能F-比率比较示意图。
具体实施方式
两阶段的音频检索方法包括以下步骤:
1)提取数据库中音频文件的音频特征;
2)对数据库中音频文件进行基于文本的检索;
3)基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合;
4)基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器;
5)以步骤4)训练得到的强分类器进行检索。
所述的提取数据库中音频文件的音频特征步骤:令Ai表示所有用于检索的候选音频集合,其中i=1,…,n,在此集合中,有na个音频文件有文本注释,如这些音频文件为对于其中的每一个音频文件,用yi表示与Ai相关联的文本,剩余的nu=n-na个未注释音频为对于每一个音频文件Ai,提取如下音频特征(可扩展到任意数目、任意类型的音频特征):
1.节奏模式(Rhythm Patterns)
2.统计谱描述子(Statistical Spectrum Descriptor)
3.节奏直方图(Rhythm Histogram)
4.自相关(Auto-correlation)
5.对数冲击时间(Log Attack Time)
6.时间质心(Temporal Centroid)
7.音频功率(Audio Power)
8.基波频率(Fundamental Frequency)
9.总响度(Total Loudness)
10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)
11.频谱质心(Audio Spectrum Centroid)
12.频谱衰减(Audio Spectrum Rolloff)
13.频谱扩展(Audio Spectrum Spread)
14.响度波带(Sone/Bark Bands)
15.过零率(Zero-crossing Rate)
16.频谱平度(Audio Spectrum Flatness)。
所述的对数据库中音频文件进行基于文本的检索步骤:给定用户输入的由一个或者多个关键字组成的查询Q,对数据库中音频文件使用文本检索方法进行基于文本的查询,检索注释中包含查询关键字的音频,令表示查询的结果向量,其中如果Ai是上述文本查询过程中检索到的结果那么此向量的第i个分量ra(i)=1,否则ra(i)=0,对于没有注释的音频,它们的ra(i)被置为0,上述基于关键字匹配的方法也可以被替换成为任意基于文本检索方法,属于本权利要求的变形。
所述的基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合步骤:
对于两个已注释音频文件,计算检索到的音频特征之间的协方差:
其中μk和μl分别是在第k个和第l个特征维度上的均值, 以及 构造一个协方差矩阵C(k,l)=ρk,l,其中矩阵的第k列和第l行元素为ρk,l,定义特征vi的方差为vari,所有的特征vi根据方差vari的升序排序,选择方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截断阈值,这些选中的特征形成了一个新的特征集合V={vi},这一新的特征集V就是我们的方法对于该特定音频检索关键词所确定的最可靠的音频特征子集,记特征集V的维度为|V|,即该子音频特征集含有|V|个音频特征。
所述的基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器步骤:
(1)两个音频之间的相似度就在特征集合的投影子空间内被重新定义为:
其中vi∈V,即每个在上式中使用到的音频特征vi均是权利要求4中检测获得的对于该特定音频检索关键词所确定的最可靠的音频特征之一,对于权重数列{κi|i=1,…,|V|},我们引入以下m个数列作为数列{κi|i=1,…,|V|}的候选: 以及常数列{1|i=1,…,|V|}.这里m是一个用户可调的参数,它的默认值为5,除此之外权利要求4中的截断阈值γ∈(0,1)也有x种取值候选,分别为 这里x是一个用户可调的整数型参数,它的默认值为5,由于γ和{κi|i=1,…}各有x和m种赋值的候选方案,故共有xm种组合;此处数列{κi|i=1,…,|V|}和γ赋值的候选方案可以被替换成别的形式,均将视为本权利的变形;
(2)基于文本检索中得到的结果集合两个音频的内容相似度构造一个n×n的音频相似度矩阵S,矩阵中第i列和第j行的元素表示Ai和Aj之间的相似度, 定义单步传播过程如下:
然后再对所有的音频按照它们对应的ru(i)值降序排序并且以此顺序推荐给用户,上述单步传播过程可也可以被实现成为以下的多步传播过程:
其中β是传播步骤中的衰减常数,并引入Adaboost方法,与查询相关的音频,就标记为+1,否则标记为-1,训练集合从第一阶段基于文本的查询中得到,步骤(1)中由于xm种对数列{κi|i=1,…,|V|}和γ的赋值候选方案将产生xm种音频相似度定义,根据(3)式或(4)式都可以计算出一个ru值,每一个ru(i)>τ的判定式都构成了一个弱分类器,对于xm个音频相似度定义对应的弱分类器,搜索使弱分类器分类错误达到最小的τ和β优化设置;
(3)在上述的优化设置搜索过程中使用k-folded交叉验证技术以防止过拟合现象,其中的k设为第一阶段基于文本的查询中检索得到的音频数量,阈值τ和β通过相似度定义成对的组成一个弱分类器:通过使用每一对音频相似度的定义,都能构造一个相似度矩阵S,然后应用(3)或(4)式于ra,就得到了ru,对于ru(i)的每一个分量,如果大于τ,就把Ai标记为+1,否则标记为-1;这样就得到了xm个弱分类器,再应用标准的Adaboost算法基于训练集合得到一个强分类器:对每一个弱分类器赋予一个对应的权重ω,应用Adaboost算法在每次的迭代中更新这个权重直到分类错误率小于给定阈值或者达到最大迭代次数,最后如果 就把Ai标记为+1,否则标记为-1,此判定式为得到的强分类器;
(4)在第一阶段基于文本的检索过程中如果只找到一个相关的音频,那么就不可能使用任何的交叉验证方法,此时在第二阶段的查询过程中就使用默认分类器,其脱机训练过程如下,对于数据库中有注释的训练集合部分的所有音频文件,使用k最近邻居基础聚类算法分成s个聚类组,对于每一个聚类组中的音频,假设他们都属于某一类特定的音频内容,然后使用上述的Adaboost方法通过增强xm个弱分类器来训练一个强分类器以分类一个音频是否属于这一聚类组,这样就产生了s个强分类器,每一个都是由上述的音频聚类组所产生的,作为该聚类组中所有音频的默认分类器。
所述的以步骤4)训练得到的强分类器进行检索步骤:由步骤4)中得到的强分类器对整个数据库的所有音频进行分类,其中被标记为+1的音频作为最后的查询结果返回给用户。
实施例
通过互联网收集了7335个音频数据,大致上分成四类:
1)纯音乐:从互联网上下载了2147个纯音乐的音频,每一个音频都用歌曲和乐器的名称作为注释。
2)流行音乐:从互联网上获得了3496个流行音乐的音频,每一个音频都用歌曲、歌手的名称和歌词作为注释。
3)公众演讲:这个数据库包含了234个公众演讲的音频,使用的是将英语作为第二外语的学习网站上提供的资源。
4)电视节目:这个数据库包含了来源于娱乐站点的1458个电视节目的音频,每一个音频都用表演者姓名、节目标题和某些内容脚本作为注释。
实施例中使用参数设置如下:
1)对于截断阈值γ∈(0,1),选择γ=0.2,0.4,…,1.0,对于权重数列{κi|i=1,…},选择候选数列 以及常数列{1|i=1,…,|V|},则γ和{κi|i=1,…}都有5个候选,产生25种组合,得到25个弱分类器;
2)对于数据库中有注释的训练集合部分的所有音频文件,使用k最近邻居基础聚类算法分成30个聚类组,得到30个强分类器。
使用一种全自动的方法来评估的两阶段音频检索方法的性能。为了生成测试查询,对于不同类型的音频随机的选取如下关键字作为输入:1)对于纯音乐,使用乐器名称作为关键字;2)对与流行音乐,使用歌手姓名;3)对于公众演讲,使用演讲者姓名;4)对于电视节目,使用表演者姓名。
为了估计的两阶段音频检索方法的性能,注意到在第一阶段中找到的音频的数量对于总体性能有显著的影响。把第一阶段中找到x个音频的情况表示为Kx,为了清楚展示方法的性能,分别报告了对于K1,…,K10数据的性能估计。在第一阶段中并不估计多于10个音频的情况是因为K10中所有例子的F-比率已经超过了0.4并且半数以上超过了0.5(使用了第二阶段基于内容的音频检索中的优化配置),对于一个信息检索系统来说这表示系统有很好的性能。当估计情况K10的时候,从数据库中随机寻找x个注释中包含查询关键字的音频。然后把这些音频作为第一阶段基于文本检索的结果,并且隐藏数据库中所有其他音频的注释,之后再应用本文介绍的方法于此数据库上进行音频检索。最后,通过简单的检查注释中是否包含查询关键字来决定检索到的结果是否与查询相关。为了得到每一种情况Kx的系统性能,重复上述过程五次然后得出查精率、查全率和F-比率的平均值。附图1、2、3、4、5、6分别表示了在数据库中的4类音频上的得到的性能数据。作为对比,在附图1、2、3中报告了在第二阶段基于内容的音频检索中没有使用优化方法的系统性能,在附图4、5、6中报告了通过元学习进行过优化之后的系统性能。这些数据表明了的两阶段音频检索方法在引入元学习方法优化第二阶段检索过程中的模型参数后性能有显著改进。在附图7、8、9中通过对整个数据库中音乐、流行歌曲、演讲和电视节目分别报告查精率、查全率和F-比率的平均值,统计了使用基本方法和优化方法系统的性能差异,表明了当有更多的样本音频在第一个基于文本查询的阶段被找到,则基本方法和优化方法的查精率基本不变,然而查全率却有明显的提升,同时导致了F-比率同样显著的改进。在基本方法和优化方法之间,优化方法比基本方法能达到更高的查精率,查全率和F-比率。对于的优化方法,平均的来说,达到较高F-比率(>0.4)所需要的样本音频数量为8,这个数量在大多数实际情况中都是可行的。
以上所述仅为本发明的两阶段音频检索方法及系统的较佳实验,并非用以限定本发明的实质技术内容的范围。本发明的两阶段音频检索方法及系统,其实质技术内容是广泛的定义于权利要求书中,任何他人所完成的技术实体或方法,若是与权利要求书中所定义者完全相同,或是同一等效的变更,均将被视为涵盖于此专利保护范围之内。
Claims (6)
1.一种两阶段的音频检索方法,其特征在于包括以下步骤:
1)提取数据库中音频文件的音频特征;
2)对数据库中音频文件进行基于文本的检索;
3)基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合;
4)基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器;
5)以步骤4)训练得到的强分类器进行检索。
2.根据权利要求1所述的一种两阶段的音频检索方法,其特征在于所述的提取数据库中音频文件的音频特征步骤:令Ai表示所有用于检索的候选音频集合,其中i=1,…,n,在此集合中,有na个音频文件有文本注释,如这些音频文件为对于其中的每一个音频文件,用yi表示与Ai相关联的文本,剩余的nu=n-na个未注释音频为对于每一个音频文件Ai,提取如下音频特征(可扩展到任意数目、任意类型的音频特征):
1.节奏模式(Rhythm Patterns)
2.统计谱描述子(Statistical Spectrum Descriptor)
3.节奏直方图(Rhythm Histogram)
4.自相关(Auto-correlation)
5.对数冲击时间(Log Attack Time)
6.时间质心(Temporal Centroid)
7.音频功率(Audio Power)
8.基波频率(Fundamental Frequency)
9.总响度(Total Loudness)
10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)
11.频谱质心(Audio Spectrum Centroid)
12.频谱衰减(Audio Spectrum Rolloff)
13.频谱扩展(Audio Spectrum Spread)
14.响度波带(Sone/Bark Bands)
15.过零率(Zero-crossing Rate)
16.频谱平度(Audio Spectrum Flatness)。
4.根据权利要求1所述的一种两阶段的音频检索方法,其特征在于所述的基于有文本注释的音频文件构成的训练集合,用主成分分析方法寻找对于分类最可靠的特征集合步骤:
对于两个已注释音频文件,计算检索到的音频特征之间的协方差:
其中μk和μl分别是在第k个和第l个特征维度上的均值, 以及 构造一个协方差矩阵C(k,l)=ρk,l,其中矩阵的第k列和第l行元素为ρk,l,定义特征vi的方差为vari,所有的特征vi根据方差vari的升序排序,选择方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截断阈值,这些选中的特征形成了一个新的特征集合V={vi},这一新的特征集V就是我们的方法对于该特定音频检索关键词所确定的最可靠的音频特征子集,记特征集V的维度为|V|,即该子音频特征集含有|V|个音频特征。
5.根据权利要求1所述的一种两阶段的音频检索方法,其特征在于所述的基于训练集合对特征集合所构成的弱分类器进行训练,构造出强分类器步骤:
(1)两个音频之间的相似度就在特征集合的投影子空间内被重新定义为:
其中vi∈V,即每个在上式中使用到的音频特征vi均是权利要求4中检测获得的对于该特定音频检索关键词所确定的最可靠的音频特征之一,对于权重数列{κi|i=1,…,|V|},我们引入以下m个数列作为数列{κi|i=1,…,|V|}的候选: 以及常数列{1|i=1,…,|V|}.这里m是一个用户可调的参数,它的默认值为5,除此之外权利要求4中的截断阈值γ∈(0,1)也有x种取值候选,分别为 这里x是一个用户可调的整数型参数,它的默认值为5,由于γ和{κi|i=1,…}各有x和m种赋值的候选方案,故共有xm种组合;此处数列{κi|i=1,…,|V|}和γ赋值的候选方案可以被替换成别的形式,均将视为本权利的变形;
(2)基于文本检索中得到的结果集合两个音频的内容相似度构造一个n×n的音频相似度矩阵S,矩阵中第i列和第j行的元素表示Ai和Aj之间的相似度, 定义单步传播过程如下:
然后再对所有的音频按照它们对应的ru(i)值降序排序并且以此顺序推荐给用户,上述单步传播过程可也可以被实现成为以下的多步传播过程:
其中β是传播步骤中的衰减常数,并引入Adaboost方法,与查询相关的音频,就标记为+1,否则标记为-1,训练集合从第一阶段基于文本的查询中得到,步骤(1)中由于xm种对数列{κi|i=1,…,|V|}和γ的赋值候选方案将产生xm种音频相似度定义,根据(3)或(4)式都可以计算出一个ru值,每一个ru(i)>τ的判定式都构成了一个弱分类器,对于xm个音频相似度定义对应的弱分类器,搜索使弱分类器分类错误达到最小的τ和β优化设置;
(3)在上述的优化设置搜索过程中使用k-folded交叉验证技术以防止过拟合现象,其中的k设为第一阶段基于文本的查询中检索得到的音频数量,阈值τ和β通过相似度定义成对的组成一个弱分类器:通过使用每一对音频相似度的定义,都能构造一个相似度矩阵S,然后应用(3)或(4)式于ra,就得到了ru,对于ru(i)的每一个分量,如果大于τ,就把Ai标记为+1,否则标记为-1;这样就得到了xm个弱分类器,再应用标准的Adaboost算法基于训练集合得到一个强分类器:对每一个弱分类器赋予一个对应的权重ω,应用Adaboost算法在每次的迭代中更新这个权重直到分类错误率小于给定阈值或者达到最大迭代次数,最后如果 就把Ai标记为+1,否则标记为-1,此判定式为得到的强分类器;
(4)在第一阶段基于文本的检索过程中如果只找到一个相关的音频,那么就不可能使用任何的交叉验证方法,此时在第二阶段的查询过程中就使用默认分类器,其脱机训练过程如下,对于数据库中有注释的训练集合部分的所有音频文件,使用k最近邻居基础聚类算法分成s个聚类组,对于每一个聚类组中的音频,假设他们都属于某一类特定的音频内容,然后使用上述的Adaboost方法通过增强xm个弱分类器来训练一个强分类器以分类一个音频是否属于这一聚类组,这样就产生了s个强分类器,每一个都是由上述的音频聚类组所产生的,作为该聚类组中所有音频的默认分类器。
6.根据权利要求1所述的一种两阶段的音频检索方法,其特征在于所述的以步骤4)训练得到的强分类器进行检索步骤:由步骤4)中得到的强分类器对整个数据库的所有音频进行分类,其中被标记为+1的音频作为最后的查询结果返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101206839A CN101364222B (zh) | 2008-09-02 | 2008-09-02 | 一种两阶段的音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101206839A CN101364222B (zh) | 2008-09-02 | 2008-09-02 | 一种两阶段的音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101364222A true CN101364222A (zh) | 2009-02-11 |
CN101364222B CN101364222B (zh) | 2010-07-28 |
Family
ID=40390592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101206839A Expired - Fee Related CN101364222B (zh) | 2008-09-02 | 2008-09-02 | 一种两阶段的音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101364222B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984437A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 音乐资源个性化推荐方法及系统 |
CN102508907A (zh) * | 2011-11-11 | 2012-06-20 | 北京航空航天大学 | 一种基于训练集优化的推荐系统的动态推荐方法 |
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN102023994B (zh) * | 2009-09-22 | 2013-05-22 | 株式会社理光 | 检索语音文件的设备和方法 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN103548015A (zh) * | 2011-03-28 | 2014-01-29 | 新加坡科技研究局 | 索引用于文件检索的文件的方法、装置及计算机可读媒介 |
CN103853749A (zh) * | 2012-11-30 | 2014-06-11 | 国际商业机器公司 | 基于模式的音频检索方法和系统 |
US9009054B2 (en) | 2009-10-30 | 2015-04-14 | Sony Corporation | Program endpoint time detection apparatus and method, and program information retrieval system |
CN104579521A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院信息工程研究所 | 基于谱质心的视频泄漏信号自动检测方法及系统 |
CN104637496A (zh) * | 2013-11-11 | 2015-05-20 | 财团法人资讯工业策进会 | 计算机系统及音频比对方法 |
CN102081634B (zh) * | 2009-11-27 | 2015-07-08 | 株式会社理光 | 语音检索装置和语音检索方法 |
CN106600039A (zh) * | 2016-11-25 | 2017-04-26 | 浙江工业大学 | 一种电商商品消息推送优化方法 |
CN107205016A (zh) * | 2017-04-18 | 2017-09-26 | 中国科学院计算技术研究所 | 物联网设备的检索方法 |
CN107704631A (zh) * | 2017-10-30 | 2018-02-16 | 西华大学 | 一种基于众包的音乐标注原子库的构建方法 |
CN107958088A (zh) * | 2017-12-15 | 2018-04-24 | 佛山市因诺威特科技有限公司 | 一种广告用语推荐方法、存储介质和服务器 |
CN108197282A (zh) * | 2018-01-10 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 文件数据的分类方法、装置及终端、服务器、存储介质 |
CN108320756A (zh) * | 2018-02-07 | 2018-07-24 | 广州酷狗计算机科技有限公司 | 一种检测音频是否是纯音乐音频的方法和装置 |
CN108345679A (zh) * | 2018-02-26 | 2018-07-31 | 科大讯飞股份有限公司 | 一种音视频检索方法、装置、设备及可读存储介质 |
CN103440313B (zh) * | 2013-08-27 | 2018-10-16 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
WO2019100953A1 (zh) * | 2017-11-22 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 音频文件检索方法、装置、服务器及计算机可读存储介质 |
CN110399522A (zh) * | 2019-07-03 | 2019-11-01 | 中国传媒大学 | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 |
US10671666B2 (en) | 2013-12-13 | 2020-06-02 | International Business Machines Corporation | Pattern based audio searching method and system |
CN114356852A (zh) * | 2022-03-21 | 2022-04-15 | 展讯通信(天津)有限公司 | 一种文件检索方法、电子设备及存储介质 |
-
2008
- 2008-09-02 CN CN2008101206839A patent/CN101364222B/zh not_active Expired - Fee Related
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023994B (zh) * | 2009-09-22 | 2013-05-22 | 株式会社理光 | 检索语音文件的设备和方法 |
US9009054B2 (en) | 2009-10-30 | 2015-04-14 | Sony Corporation | Program endpoint time detection apparatus and method, and program information retrieval system |
CN102081634B (zh) * | 2009-11-27 | 2015-07-08 | 株式会社理光 | 语音检索装置和语音检索方法 |
CN101984437B (zh) * | 2010-11-23 | 2012-08-08 | 亿览在线网络技术(北京)有限公司 | 音乐资源个性化推荐方法及系统 |
CN101984437A (zh) * | 2010-11-23 | 2011-03-09 | 亿览在线网络技术(北京)有限公司 | 音乐资源个性化推荐方法及系统 |
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN102654859B (zh) * | 2011-03-01 | 2014-04-23 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN103548015B (zh) * | 2011-03-28 | 2017-05-17 | 新加坡科技研究局 | 索引用于文件检索的文件的方法及装置 |
CN103548015A (zh) * | 2011-03-28 | 2014-01-29 | 新加坡科技研究局 | 索引用于文件检索的文件的方法、装置及计算机可读媒介 |
CN102508907A (zh) * | 2011-11-11 | 2012-06-20 | 北京航空航天大学 | 一种基于训练集优化的推荐系统的动态推荐方法 |
CN103853749A (zh) * | 2012-11-30 | 2014-06-11 | 国际商业机器公司 | 基于模式的音频检索方法和系统 |
CN103853749B (zh) * | 2012-11-30 | 2017-04-26 | 国际商业机器公司 | 基于模式的音频检索方法和系统 |
CN103399891B (zh) * | 2013-07-22 | 2016-12-28 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN103399891A (zh) * | 2013-07-22 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 网络内容自动推荐方法、装置和系统 |
CN103440313B (zh) * | 2013-08-27 | 2018-10-16 | 复旦大学 | 基于音频指纹特征的音乐检索系统 |
CN104637496B (zh) * | 2013-11-11 | 2018-04-06 | 财团法人资讯工业策进会 | 计算机系统及音频比对方法 |
CN104637496A (zh) * | 2013-11-11 | 2015-05-20 | 财团法人资讯工业策进会 | 计算机系统及音频比对方法 |
US10671666B2 (en) | 2013-12-13 | 2020-06-02 | International Business Machines Corporation | Pattern based audio searching method and system |
CN104579521A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院信息工程研究所 | 基于谱质心的视频泄漏信号自动检测方法及系统 |
CN106600039A (zh) * | 2016-11-25 | 2017-04-26 | 浙江工业大学 | 一种电商商品消息推送优化方法 |
CN107205016A (zh) * | 2017-04-18 | 2017-09-26 | 中国科学院计算技术研究所 | 物联网设备的检索方法 |
CN107205016B (zh) * | 2017-04-18 | 2020-01-21 | 中国科学院计算技术研究所 | 物联网设备的检索方法 |
CN107704631A (zh) * | 2017-10-30 | 2018-02-16 | 西华大学 | 一种基于众包的音乐标注原子库的构建方法 |
CN107704631B (zh) * | 2017-10-30 | 2020-12-01 | 西华大学 | 一种基于众包的音乐标注原子库的构建方法 |
US11314805B2 (en) | 2017-11-22 | 2022-04-26 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for retrieving audio file, server, and computer-readable storage medium |
WO2019100953A1 (zh) * | 2017-11-22 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 音频文件检索方法、装置、服务器及计算机可读存储介质 |
CN107958088A (zh) * | 2017-12-15 | 2018-04-24 | 佛山市因诺威特科技有限公司 | 一种广告用语推荐方法、存储介质和服务器 |
CN108197282A (zh) * | 2018-01-10 | 2018-06-22 | 腾讯科技(深圳)有限公司 | 文件数据的分类方法、装置及终端、服务器、存储介质 |
CN108320756A (zh) * | 2018-02-07 | 2018-07-24 | 广州酷狗计算机科技有限公司 | 一种检测音频是否是纯音乐音频的方法和装置 |
CN108345679A (zh) * | 2018-02-26 | 2018-07-31 | 科大讯飞股份有限公司 | 一种音视频检索方法、装置、设备及可读存储介质 |
CN110399522A (zh) * | 2019-07-03 | 2019-11-01 | 中国传媒大学 | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 |
CN114356852A (zh) * | 2022-03-21 | 2022-04-15 | 展讯通信(天津)有限公司 | 一种文件检索方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101364222B (zh) | 2010-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101364222B (zh) | 一种两阶段的音频检索方法 | |
Levy et al. | Music information retrieval using social tags and audio | |
Typke et al. | A survey of music information retrieval systems | |
Li et al. | Music data mining | |
CN100397387C (zh) | 数字声音数据的摘要制作方法和设备 | |
Burred et al. | Hierarchical automatic audio signal classification | |
US8112418B2 (en) | Generating audio annotations for search and retrieval | |
US20060161560A1 (en) | Method and system to compare data objects | |
Hedges et al. | Predicting the composer and style of jazz chord progressions | |
Li et al. | Music artist style identification by semi-supervised learning from both lyrics and content | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
Dang et al. | Machine learning approaches for mood classification of songs toward music search engine | |
KR20100023630A (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Knees et al. | Towards semantic music information extraction from the web using rule patterns and supervised learning | |
Zanoni et al. | Searching for dominant high-level features for music information retrieval | |
Kaitila | A content-based music recommender system | |
US20200293574A1 (en) | Audio Search User Interface | |
Bodó et al. | Connecting the last. fm dataset to lyricwiki and musicbrainz. lyrics-based experiments in genre classification | |
Li et al. | [Retracted] Matching Subsequence Music Retrieval in a Software Integration Environment | |
Dziczkowski et al. | Social network-an autonomous system designed for radio recommendation | |
Zhen et al. | Solely tag-based music genre classification | |
Parra et al. | Unsupervised tagging of spanish lyrics dataset using clustering | |
Lathar | Knowledge Discovery of Tones In Songs Using Bi-Lstm. | |
Kostek | Content-based approach to automatic recommendation of music |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100728 Termination date: 20150902 |
|
EXPY | Termination of patent right or utility model |