CN101364222A

CN101364222A - 一种两阶段的音频检索方法

Info

Publication number: CN101364222A
Application number: CNA2008101206839A
Authority: CN
Inventors: 徐颂华; 陈苏超; 秦学英; 刘智满; 潘云鹤
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-09-02
Filing date: 2008-09-02
Publication date: 2009-02-11
Anticipated expiration: 2028-09-02
Also published as: CN101364222B

Abstract

本发明公开了一种两阶段的音频检索方法。包括以下步骤：1)提取数据库中音频文件的音频特征；2)对数据库中音频文件进行基于文本的检索；3)基于检索到的音频文件构成训练集合，用主成分分析方法寻找对于分类最可靠的特征集合；4)基于训练集合对特征集合所构成的弱分类器进行训练，构造出强分类器；5)以步骤4)训练得到的强分类器进行检索。本发明适用于任何一种检索部分注释的音频集的基于内容的推荐系统，也适用于检索任意的非文本对象，例如图像和视频。

Description

一种两阶段的音频检索方法

技术领域

本发明涉及计算机互联网多媒体搜索领域，尤其涉及一种两阶段的音频检索方法。

背景技术

当今的信息检索技术在处理文本文档时取得了巨大的成功，这已经由搜索引擎公司例如谷歌(Google)和雅虎(Yahoo！)所获得的巨额商业利润所证明。相对的，多媒体检索技术仍然处于初期阶段，而且也不存在能够达到基于文本的搜索引擎所达到的用户满意度和流行度的产品或者工具。事实上，相比检索没有注释的音频这个问题的重要性和应用的广泛性，得到的关注度却较少。

现存的推荐系统在处理音频数据的时候高度依赖于文本注释[1]。这些注释中包含有结构化或者非结构化的元数据，例如，标题、艺术家以及歌词。基于文本注释检索音频的方法本质上和检索文本文档是一样的。不过与可以由算法自动提取关键词的网页文件不同，从音频文件中提取出文本注释是个巨大的挑战而且很容易出错。然而，现实中只有少部分的音频文件是由用户手动注释好的，并且这些注释可能会有偏差或者相对太简单了，所以基于文本的音频检索方法在适用性和可靠性上都有限制。Terveen和Hill指出了现在的基于内容的推荐系统要推荐像音乐或者图像一样的非文本对象“实际上是不可能的”。然而，不使用任何推荐系统，即使是在小音频集(比如200个音频)中搜索没有注释的音频，也需要用户有巨大的耐心和决心。

除了基于文本搜索的成果，人们还提出了用于基于内容的音频搜索的内容相似度的计算方法。现在这方面有许多积极的工作，例如，通过识别用户语音的声音音频来进行音乐查询[12，23]，然后搜索引擎就可以通过音频相似度来实现基于内容的搜索。虽然这些工作也取得了一些值得瞩目的进展，但是总体来说，因为音频特征空间的高维度，依赖于用户和查询的内容相似度的主观性和模糊性，处理没有注释的音频的任务仍然是困难的。

本专利与推导用于音乐查询的语义描述研究相关[28]。[26]介绍了一类在多维向量空间中用于语音音频检索的方法。[31]提供了自动推导音乐语音描述的算法并将其用于音乐检索[32]。[17]描述了一种从音乐的语义空间中推导社会标签的算法。Sordo等[27]用音乐相似度传播音乐的文本注释。

查询检索音频片段这个一般性的问题已经研究了许多年[9]，[21，30]介绍了许多音频索引和检索技术。其中的关键在于音频相似度的定义，其中流行的方法为使用Mel频率倒谱系数[19]，[20]则应用了基于歌曲信号谱特征的聚类技术，可以用于比较不同的歌曲。[6]介绍了在大规模音乐检索中使用声学和主观音乐相似度的方法。Berenzweig等在锚空间中引入了高斯混合模型来表达如歌曲一类的对象，然后用KL-散度的估计来定义相似度以匹配标记好的数据[5]。Aucouturier以及Pachet则在[3]中使用倒谱系数的高斯模型定义音色相似度用于比较音乐标题。节奏[10]与序列[7]信息也被用于定义音乐相似度。在声学相似度中，Barrington等提出了用于检索音频数据的语义相似度[4]。

用于检索口述文档[33]，演讲音频[24]和新闻[29]的特殊检索系统也已被开发出来。最近，Eck等[8]研究了如何自动生成未标记或者弱标记音乐的社会标签以减少推荐系统中的冷启动问题。本专利与音频分类问题相关联，许多标准的机器学习技术已经被用于解决这个问题，例如支撑向量机[13，22]与半监督学习[18]。

现在存在少量的音频检索系统[14]，而其中基于用户语音的查询进行检索是一个热点研究的问题[12，23]。最近，Rice和Bailey提出了一个音频文件搜索系统同时支持基于描述文本和声音相似度的搜索[25]。

参考文献

[1]G.Adomavicius and A.Tuzhilin.面向下一代推荐系统：最新技术和可能扩展的调查(Toward the next generation of recommender systems：a survey of thestate-of-the-art and possible extensions).IEEE知识与数据工程会刊(IEEETransactions on Knowledge and Data Engineering)，17(6)：734-749，2005.

[2]C.C.Aggarwal and P.S.Yu.在高维空间中寻找普适的映射聚类(Findinggeneralized projected clusters in highdimensional spaces).In SIGMOD’00：ACMSIGMOD数据管理国际会议(Proc.ACM SIGMOD International Conference onManagement of Data)，pages70-81，New York，NY，USA，2000.ACM.

[3]J.-J.Aucouturier and F.Pachet.音乐相似度度量：有什么用？(Music similaritymeasures：What’s the use？).音乐信息检索国际会议(In International Conferenceon Music Information Retrieval)，2002.

[4]L.Barrington，A.Chan，D.Turnbull，and G.Lanckriet.用语义相似度检索音频信息(Audio information retrieval using semantic similarity).IEEE声学、演说与信号处理国际会议(In IEEE International Conference on Acoustics，Speech andSignal Processing)，2007.

[5]A.Berenzweig，D.P.W.Ellis，and S.Lawrence.用于分类与音乐相似度度量的锚空间(Anchor space for classi？cation and similarity measurement of music).2003年多媒体国际会展(In Proceedings of the 2003 International Conference onMultimedia and Expo)，2003.

[6]A.Berenzweig，B.Logan，D.P.W.Ellis，and B.Whitman.大规模声学和主观音乐相似度度量评估(A large-scale evaluation of acoustic and subjective musicsimilarity measures).第4届国际音乐信息检索讨论会(In Proceedings of the 4thInternational Symposium on Music Information Retrieval)，2003.

[7]M.Casey and M.Slaney.音乐相似度中序列的重要性(The importance ofsequences in musical similarity).IEEE声学、演说与信号处理国际会议(In IEEEInternational Conference on Acoustics，Speech and Signal Processing)，2006.

[8]D.Eck，P.Lamere，T.Bertin-Mahieux，and S.Green.自动生成用于音乐推荐的社会标签(Automatic generation of social tags for music recommendation).In J.Platt，D.Koller，Y.Singer，and S.Roweis，editors，MPS 08’：神经信息处理系统进展(Proc.Advances in Neural Information Processing Systems)，pages 385-392.MITPress，Cambridge，MA，2008.

[9]J.Foote.音频信息检索综述(An overivew of audio information retrieval).多媒体系统(Multimedia Systems)，7(1)：2-10，1999.

[10]J.Foote，M.Cooper，and U.Nam.基于节奏相似度检索音频(Audio retrievalby rhythmic similarity).音乐信息检索国际会议(In International Conference onMusic Information Retrieval)，2002.

[11]Y.Freund and R.E.Schapire.用于实时学习与提升应用的决定论综述(Adecision-theoretic generalization of on-line learning and anapplication to boosting).计算学习理论欧洲会议(In European Conference on Computational LearningTheory)，pages 23-37，1995.

[12]A.Ghias，J.Logan，D.Chamberlin，and B.C.Smith.基于哼唱的查询：在音频数据库中检索音乐信息(Query by humming：Musical information retrieval in anaudio database).ACM多媒体(In ACM Multimedia)，1995.

[13]G.Guo and S.Z.Li.用支撑向量机进行基于内容的音频分类和检索(Content-based audio classification and retrieval by support vector machines).IEEE神经网络会刊(IEEE Transactions on Neural Networks)，14(1)，2003.

[14]K.Hoashi，H.Ishizaki，K.Matsumoto，and F.Sugaya.使用面向用户不同配置的查询整合进行基于内容的音乐检索(Content-based music retrieval using queryintegration for users with diverse preferences).音乐信息检索国际会议(InInternational Conference on Music Information Retrieval)，2007.

[15]R.A.Hornand C.R.Johnson.矩阵分析(Topics in Matrix Analysis).剑桥大学出版社(Cambridge University Press)，1991.

[16]I.T.Jolliffe.主成分分析(Principal Component Analysis).Springer，2002.

[17]M.Levy and M.Sandler.由社会标签生成音乐的语义空间(A semantic spacefor music derived from social tags).第8届音乐信息检索国际会议(In 8thInternational Conference on Music Information Retrieval)，2007.

[18]T.Li and M.Ogihara.从歌词和内容中使用半监督学习识别音乐艺术风格(Music artist style identification by semi-supervised learning from both lyrics andcontent).第12届CAN多媒体国际年会(In Proceedings of the 12th Annual ACMInternational Conference on Multimedia)，2004.

[19]B.Logan.用于音乐建模的Mel频率倒谱系数(Mel frequency cepstralcoefficients for music modeling).第1届音乐信息检索国际讨论会(In Proceedingsof the First International Symposium on Music Informaiton Retrieval)，2000.

[20]B.Logan and A.Salomon.一个基于信号分析的音乐相似度方程(A musicsimilarity function based on signal analysis).IEEE多媒体国际会展(In IEEEInternational Conference on Multimedia and Expo)，2001.

[21]J.Makhoul，F.Kubala，T.Leek，D.Liu，L.Nguyen，R.Schwartz，and A.Srivastava.用于音频索引和检索的演讲与语言技术(Speech and languagetechnologies for audio indexing and retrieval).IEEE会刊(Proceedings of the IEEE)，88：1338-1353，2000.

[22]M.Mandel and D.Ellis.用于音乐分类的歌曲级特征与支撑向量机方法(Song-level features and support vector machines for music classification).音乐信息检索国际会议(In International Conference on Music Information Retrieval)，2005.

[23]B.Pardo and W.P.Birmingham.基于哼唱的查询：能有多好的性能？(Queryby humming：How good can it get？).音乐信息检索研讨会(In Workshop on MusicInformation Retrieval)，2003.

[24]A.Park，T.J.Hazen，and J.R.Glass.自动处理用于信息检索的音频演讲(Automatic processing of audio lectures for information retrieval).IEEE声学、演说与信号处理国际会议(In IEEE International Conference on Acoustics，Speechand Signal Processing)，2005.

[25]S.V.Rice and S.M.Bailey.搜索声音模式的系统(A system for searchingsound palettes).第11届艺术与技术隔年讨论会(In Eleventh Biennial Symposiumon Arts and Technology)，2008.

[26]M.Slaney.语义音频检索(Semantic-audio retrieval).IEEE声学、演说与信号处理国际会议(In Acoustics，Speech，and Signal Processing，2002.Proceedings.(ICASSP’02).IEEE International Conference on)，pages IV-4108-IV-4111 vol.4，2002.

[27]M.Sordo，C.Laurier，and O.Celma.标注音乐集：内容相似度如何帮助传播标签(Annotating music collections：how content-based similarity helps to propagatelabels).第8届音乐信息检索国际会议(In8th International Conference on MusicInformation Retrieval)，2007.

[28]D.Turnbull，L.Barrington，D.Torres，and G.Lanckriet.使用cal500数据集进行面向音乐基于语义描述的查询(Towards musical query-by-semantic-descriptionusing the cal500 data set).第30届ACM SIGIR信息检索研究与发展国际会议(In30th annual international ACM SIGIR conference on Research and development ininformation retrieval)，pages 439-446.ACM，2007.

[29]G.Tzanetakis and M.-Y.Chen.构造用于广播新闻检索的音频分类器(Building audio classifiers for broadcast news retrieval).用于多媒体交互服务的图像分析国际研讨会(In International Workshop on Image Analysis for MultimediaInteractive Services)，2004.

[30]G.Tzanetakis and P.Cook.音频信息检索工具(Audio information retrieval(AIR)tools).第1届音乐信息检索国际讨论会(In Proceedings of the FirstInternational Symposium on Music Information Retrieval)，2000.

[31]B.Whitman.学习音乐的意义(Learning the meaning of music).MIT博士学位论文(In PhDthesis.MIT)，2005.

[32]B.Whitman and R.Rifkin.作为复类学习问题的音乐的基于描述的查询(Musical query-by-description as a multiclass learning problem).IEEE多媒体信号处理研讨会(In Multimedia Signal Processing，2002 IEEE Workshop onVolume)，Issue，9-11Dec.2002，pages 153-156，2002.

[33]B.Zhou and J.H.L.Hansen.演讲查找：一个实时检索历史音频档案系统的实验(SpeechFind：An experimental on-line spoken document retrieval system forhistorical audio archives).口述语言处理国际会议(In International Conference onSpoken Language Processing)，2002.

发明内容

本发明的目的是克服现有技术的不足，提供一种两阶段的音频检索方法。

两阶段的音频检索方法包括以下步骤：

1)提取数据库中音频文件的音频特征；

2)对数据库中音频文件进行基于文本的检索；

3)基于有文本注释的音频文件构成的训练集合，用主成分分析方法寻找对于分类最可靠的特征集合；

4)基于训练集合对特征集合所构成的弱分类器进行训练，构造出强分类器；

5)以步骤4)训练得到的强分类器进行检索。

所述的提取数据库中音频文件的音频特征步骤：令A_i表示所有用于检索的候选音频集合，其中i＝1，…，n，在此集合中，有n_a个音频文件有文本注释，如这些音频文件为

对于其中的每一个音频文件，用y_i表示与A_i相关联的文本，剩余的n_u＝n-n_a个未注释音频为

对于每一个音频文件A_i，提取如下音频特征(可扩展到任意数目、任意类型的音频特征)：

1.节奏模式(Rhythm Patterns)

2.统计谱描述子(Statistical Spectrum Descriptor)

3.节奏直方图(Rhythm Histogram)

4.自相关(Auto-correlation)

5.对数冲击时间(Log Attack Time)

6.时间质心(Temporal Centroid)

7.音频功率(Audio Power)

8.基波频率(Fundamental Frequency)

9.总响度(Total Loudness)

10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)

11.频谱质心(Audio Spectrum Centroid)

12.频谱衰减(Audio Spectrum Rolloff)

13.频谱扩展(Audio Spectrum Spread)

14.响度波带(Sone/Bark Bands)

15.过零率(Zero-crossing Rate)

16.频谱平度(Audio Spectrum Flatness)。

所述的对数据库中音频文件进行基于文本的检索步骤：给定用户输入的由一个或者多个关键字组成的查询Q，对数据库中音频文件使用文本检索方法进行基于文本的查询，检索注释中包含查询关键字的音频，令表示查询的结果向量，其中如果A_i是上述文本查询过程中检索到的结果那么此向量的第i个分量r^a(i)＝1，否则r^a(i)＝0，对于没有注释的音频，它们的r^a(i)被置为0，上述基于关键字匹配的方法也可以被替换成为任意基于文本检索方法，属于本权利要求的变形。

所述的基于有文本注释的音频文件构成的训练集合，用主成分分析方法寻找对于分类最可靠的特征集合步骤：

对于两个已注释音频文件，计算检索到的音频特征之间的协方差：

ρ_{k, l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} (x_{i, k} - μ_{k}) (x_{i, l} - μ_{l})}{Σ_{i : r^{a} (i) = 1}} - - - (1)

其中μ_k和μ_l分别是在第k个和第l个特征维度上的均值，

μ_{k} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, k}}{Σ_{i : r^{a} (i) = 1}}

以及

μ_{l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, l}}{Σ_{i : r^{a} (i) = 1}},

构造一个协方差矩阵C(k，l)＝ρ_k，l，其中矩阵的第k列和第l行元素为ρ_k，l，定义特征v_i的方差为var_i，所有的特征v_i根据方差var_i的升序排序，选择方差小于所有特征方差均值γ倍的特征v_i，其中γ∈(0，1)是截断阈值，这些选中的特征形成了一个新的特征集合V＝{v_i}，这一新的特征集V就是我们的方法对于该特定音频检索关键词所确定的最可靠的音频特征子集，记特征集V的维度为|V|，即该子音频特征集含有|V|个音频特征。

所述的基于训练集合对特征集合所构成的弱分类器进行训练，构造出强分类器步骤：

(1)两个音频之间的相似度就在特征集合的投影子空间内被重新定义为：

s (A_{i} {, A}_{j}) \overset{Δ}{=} \frac{Σ_{v_{i} &Element; V} κ_{i} (1 - {&lang; x_{i} - x_{j}, v_{i} &rang;}^{2})}{Σ_{v_{i} &Element; V} κ_{i}} - - - (2)

其中v_i∈V，即每个在上式中使用到的音频特征v_i均是权利要求4中检测获得的对于该特定音频检索关键词所确定的最可靠的音频特征之一，对于权重数列{κ_i|i＝1，…，|V|}，我们引入以下m个数列作为数列{κ_i|i＝1，…，|V|}的候选：

{\frac{1}{\sqrt{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[3]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[4]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |}, . . ., {\frac{1}{\sqrt[m]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

以及常数列{1|i＝1，…，|V|}这里m是一个用户可调的参数，它的默认值为5，除此之外权利要求4中的截断阈值γ∈(0，1)也有x种取值候选，分别为

γ = \frac{1}{x}, \frac{2}{x}, . . ., \frac{x - 1}{x}, \frac{x}{x},

这里x是一个用户可调的整数型参数，它的默认值为5，由于γ和{κ_i|i＝1，…}各有x和m种赋值的候选方案，故共有xm种组合；此处数列{κ_i|i＝1，…，|V|}和γ赋值的候选方案可以被替换成别的形式，均将视为本权利的变形；

(2)基于文本检索中得到的结果集合两个音频的内容相似度构造一个n×n的音频相似度矩阵S，矩阵中第i列和第j行的元素表示A_i和A_j之间的相似度，

S (i, j) \overset{Δ}{=} s (A_{i}, A_{j}),

定义单步传播过程如下：

r^{u} (i) = \max_{r^{a} (j) = 1} s (i, j) - - - (3)

然后再对所有的音频按照它们对应的r^u(i)值降序排序并且以此顺序推荐给用户，上述单步传播过程可也可以被实现成为以下的多步传播过程：

r^{u} \overset{Δ}{=} e^{βS} r^{a} = (I_{n \times n} + βS + \frac{β^{2} S^{2}}{2!} + \frac{β^{3} S^{3}}{3!} + . . .) r^{a} - - - (4)

其中β是传播步骤中的衰减常数，并引入Adaboost方法，与查询相关的音频，就标记为+1，否则标记为-1，训练集合从第一阶段基于文本的查询中得到，步骤(1)中由于xm种对数列{κ_i|i＝1，…，|V|}和γ的赋值候选方案将产生xm种音频相似度定义，根据(3)式或(4)式都可以计算出一个r^u值，每一个r^u(i)>τ的判定式都构成了一个弱分类器，对于xm个音频相似度定义对应的弱分类器，搜索使弱分类器分类错误达到最小的τ和β优化设置；

(3)在上述的优化设置搜索过程中使用k-folded交叉验证技术以防止过拟合现象，其中的k设为第一阶段基于文本的查询中检索得到的音频数量，阈值τ和β通过相似度定义成对的组成一个弱分类器：通过使用每一对音频相似度的定义，都能构造一个相似度矩阵S，然后应用(3)或(4)式于r^a，就得到了r^u，对于r^u(i)的每一个分量，如果大于τ，就把Ai标记为+1，否则标记为-1；这样就得到了xm个弱分类器，再应用标准的Adaboost算法基于训练集合得到一个强分类器：对每一个弱分类器赋予一个对应的权重ω，应用Adaboost算法在每次的迭代中更新这个权重直到分类错误率小于给定阈值或者达到最大迭代次数，最后如果

\underset{j}{Σ} ω_{j} r_{j}^{u} > \frac{1}{2} \underset{j}{Σ} ω_{j},

就把A_i标记为+1，否则标记为-1，此判定式为得到的强分类器；

(4)在第一阶段基于文本的检索过程中如果只找到一个相关的音频，那么就不可能使用任何的交叉验证方法，此时在第二阶段的查询过程中就使用默认分类器，其脱机训练过程如下，对于数据库中有注释的训练集合部分的所有音频文件，使用k最近邻居基础聚类算法分成s个聚类组，对于每一个聚类组中的音频，假设他们都属于某一类特定的音频内容，然后使用上述的Adaboost方法通过增强xm个弱分类器来训练一个强分类器以分类一个音频是否属于这一聚类组，这样就产生了s个强分类器，每一个都是由上述的音频聚类组所产生的，作为该聚类组中所有音频的默认分类器。

所述的以步骤4)训练得到的强分类器进行检索步骤：由步骤4)中得到的强分类器对整个数据库的所有音频进行分类，其中被标记为+1的音频作为最后的查询结果返回给用户。

本发明提出了一种新的基于内容的两阶段音频检索方法，对于只有部分或者少量人工标注的多媒体数据库，先通过语义标签来自动寻找相关音频，然后基于语义标签的音频查询结果动态在线训练获得与之相应的最佳音乐内容特征及特征组合，从而用于第二阶段的基于音频内容的查询。通过对由此方法架构的系统原型性能进行评估，得到的结果证明了此方法的先进性，同时该方法也很容易的扩展到任意的非文本对象，例如图像和视频。

附图说明

图1(a)是基本方法在纯音乐音频集合中查精率箱式示意图；

图1(b)是基本方法在流行歌曲音频集合中查精率箱式示意图；

图1(c)是基本方法在公众演讲音频集合中查精率箱式示意图；

图1(d)是基本方法在电视节目音频集合中查精率箱式示意图；

图2(a)是基本方法在纯音乐音频集合中查全率箱式示意图；

图2(b)是基本方法在流行歌曲音频集合中查全率箱式示意图；

图2(c)是基本方法在公众演讲音频集合中查全率箱式示意图；

图2(d)是基本方法在电视节目音频集合中查全率箱式示意图；

图3(a)是基本方法在纯音乐音频集合中F-比率箱式示意图；

图3(b)是基本方法在流行歌曲音频集合中F-比率箱式示意图；

图3(c)是基本方法在公众演讲音频集合中F-比率箱式示意图；

图3(d)是基本方法在电视节目音频集合中F-比率箱式示意图；

图4(a)是性能优化方法在纯音乐音频集合中查精率箱式示意图；

图4(b)是性能优化方法在流行歌曲音频集合中查精率箱式示意图；

图4(c)是性能优化方法在公众演讲音频集合中查精率箱式示意图；

图4(d)是性能优化方法在电视节目音频集合中查精率箱式示意图；

图5(a)是性能优化方法在纯音乐音频集合中查全率箱式示意图；

图5(b)是性能优化方法在流行歌曲音频集合中查全率箱式示意图；

图5(c)是性能优化方法在公众演讲音频集合中查全率箱式示意图；

图5(d)是性能优化方法在电视节目音频集合中查全率箱式示意图；

图6(a)是性能优化方法在纯音乐音频集合中F-比率箱式示意图；

图6(b)是性能优化方法在流行歌曲音频集合中F-比率箱式示意图；

图6(c)是性能优化方法在公众演讲音频集合中F-比率箱式示意图；

图6(d)是性能优化方法在电视节目音频集合中F-比率箱式示意图；

图7是基本方法与性能优化方法之间的性能查精率比较示意图；

图8是基本方法与性能优化方法之间的性能查全率比较示意图；

图9是基本方法与性能优化方法之间的性能F-比率比较示意图。

具体实施方式

两阶段的音频检索方法包括以下步骤：

1)提取数据库中音频文件的音频特征；

2)对数据库中音频文件进行基于文本的检索；

5)以步骤4)训练得到的强分类器进行检索。

1.节奏模式(Rhythm Patterns)

2.统计谱描述子(Statistical Spectrum Descriptor)

3.节奏直方图(Rhythm Histogram)

4.自相关(Auto-correlation)

5.对数冲击时间(Log Attack Time)

6.时间质心(Temporal Centroid)

7.音频功率(Audio Power)

8.基波频率(Fundamental Frequency)

9.总响度(Total Loudness)

10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)

11.频谱质心(Audio Spectrum Centroid)

12.频谱衰减(Audio Spectrum Rolloff)

13.频谱扩展(Audio Spectrum Spread)

14.响度波带(Sone/Bark Bands)

15.过零率(Zero-crossing Rate)

16.频谱平度(Audio Spectrum Flatness)。

所述的对数据库中音频文件进行基于文本的检索步骤：给定用户输入的由一个或者多个关键字组成的查询Q，对数据库中音频文件使用文本检索方法进行基于文本的查询，检索注释中包含查询关键字的音频，令

表示查询的结果向量，其中如果A_i是上述文本查询过程中检索到的结果那么此向量的第i个分量r^a(i)＝1，否则r^a(i)＝0，对于没有注释的音频，它们的r^a(i)被置为0，上述基于关键字匹配的方法也可以被替换成为任意基于文本检索方法，属于本权利要求的变形。

ρ_{k, l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} (x_{i, k} - μ_{k}) (x_{i, l} - μ_{l})}{Σ_{i : r^{a} (i) = 1}} - - - (1)

其中μ_k和μ_l分别是在第k个和第l个特征维度上的均值，

μ_{k} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, k}}{Σ_{i : r^{a} (i) = 1}}

以及

μ_{l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, l}}{Σ_{i : r^{a} (i) = 1}},

s (A_{i} {, A}_{j}) \overset{Δ}{=} \frac{Σ_{v_{i} &Element; V} κ_{i} (1 - {&lang; x_{i} - x_{j}, v_{i} &rang;}^{2})}{Σ_{v_{i} &Element; V} κ_{i}} - - - (2)

{\frac{1}{\sqrt{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[3]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[4]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |}, . . ., {\frac{1}{\sqrt[m]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

以及常数列{1|i＝1，…，|V|}.这里m是一个用户可调的参数，它的默认值为5，除此之外权利要求4中的截断阈值γ∈(0，1)也有x种取值候选，分别为

γ = \frac{1}{x}, \frac{2}{x}, . . ., \frac{x - 1}{x}, \frac{x}{x},

S (i, j) \overset{Δ}{=} s (A_{i}, A_{j}),

定义单步传播过程如下：

r^{u} (i) = \max_{r^{a} (j) = 1} s (i, j) - - - (3)

r^{u} \overset{Δ}{=} e^{βS} r^{a} = (I_{n \times n} + βS + \frac{β^{2} S^{2}}{2!} + \frac{β^{3} S^{3}}{3!} + . . .) r^{a} - - - (4)

(3)在上述的优化设置搜索过程中使用k-folded交叉验证技术以防止过拟合现象，其中的k设为第一阶段基于文本的查询中检索得到的音频数量，阈值τ和β通过相似度定义成对的组成一个弱分类器：通过使用每一对音频相似度的定义，都能构造一个相似度矩阵S，然后应用(3)或(4)式于r^a，就得到了r^u，对于r^u(i)的每一个分量，如果大于τ，就把A_i标记为+1，否则标记为-1；这样就得到了xm个弱分类器，再应用标准的Adaboost算法基于训练集合得到一个强分类器：对每一个弱分类器赋予一个对应的权重ω，应用Adaboost算法在每次的迭代中更新这个权重直到分类错误率小于给定阈值或者达到最大迭代次数，最后如果

\underset{j}{Σ} ω_{j} r_{j}^{u} > \frac{1}{2} \underset{j}{Σ} ω_{j},

实施例

通过互联网收集了7335个音频数据，大致上分成四类：

1)纯音乐：从互联网上下载了2147个纯音乐的音频，每一个音频都用歌曲和乐器的名称作为注释。

2)流行音乐：从互联网上获得了3496个流行音乐的音频，每一个音频都用歌曲、歌手的名称和歌词作为注释。

3)公众演讲：这个数据库包含了234个公众演讲的音频，使用的是将英语作为第二外语的学习网站上提供的资源。

4)电视节目：这个数据库包含了来源于娱乐站点的1458个电视节目的音频，每一个音频都用表演者姓名、节目标题和某些内容脚本作为注释。

实施例中使用参数设置如下：

1)对于截断阈值γ∈(0，1)，选择γ＝0.2，0.4，…，1.0，对于权重数列{κ_i|i＝1，…}，选择候选数列

{\frac{1}{\sqrt{{var}_{i}}} | i = 1, \cdot \cdot \cdot},

{\frac{1}{\sqrt[3]{{var}_{i}}} | i = 1, \cdot \cdot \cdot},

{\frac{1}{\sqrt[4]{{var}_{i}}} | i = 1, \cdot \cdot \cdot},

{\frac{1}{\sqrt[5]{{var}_{i}}} | i = 1, \cdot \cdot \cdot},

以及常数列{1|i＝1，…，|V|}，则γ和{κ_i|i＝1，…}都有5个候选，产生25种组合，得到25个弱分类器；

2)对于数据库中有注释的训练集合部分的所有音频文件，使用k最近邻居基础聚类算法分成30个聚类组，得到30个强分类器。

使用一种全自动的方法来评估的两阶段音频检索方法的性能。为了生成测试查询，对于不同类型的音频随机的选取如下关键字作为输入：1)对于纯音乐，使用乐器名称作为关键字；2)对与流行音乐，使用歌手姓名；3)对于公众演讲，使用演讲者姓名；4)对于电视节目，使用表演者姓名。

为了估计的两阶段音频检索方法的性能，注意到在第一阶段中找到的音频的数量对于总体性能有显著的影响。把第一阶段中找到x个音频的情况表示为K_x，为了清楚展示方法的性能，分别报告了对于K₁，…，K₁₀数据的性能估计。在第一阶段中并不估计多于10个音频的情况是因为K₁₀中所有例子的F-比率已经超过了0.4并且半数以上超过了0.5(使用了第二阶段基于内容的音频检索中的优化配置)，对于一个信息检索系统来说这表示系统有很好的性能。当估计情况K10的时候，从数据库中随机寻找x个注释中包含查询关键字的音频。然后把这些音频作为第一阶段基于文本检索的结果，并且隐藏数据库中所有其他音频的注释，之后再应用本文介绍的方法于此数据库上进行音频检索。最后，通过简单的检查注释中是否包含查询关键字来决定检索到的结果是否与查询相关。为了得到每一种情况K_x的系统性能，重复上述过程五次然后得出查精率、查全率和F-比率的平均值。附图1、2、3、4、5、6分别表示了在数据库中的4类音频上的得到的性能数据。作为对比，在附图1、2、3中报告了在第二阶段基于内容的音频检索中没有使用优化方法的系统性能，在附图4、5、6中报告了通过元学习进行过优化之后的系统性能。这些数据表明了的两阶段音频检索方法在引入元学习方法优化第二阶段检索过程中的模型参数后性能有显著改进。在附图7、8、9中通过对整个数据库中音乐、流行歌曲、演讲和电视节目分别报告查精率、查全率和F-比率的平均值，统计了使用基本方法和优化方法系统的性能差异，表明了当有更多的样本音频在第一个基于文本查询的阶段被找到，则基本方法和优化方法的查精率基本不变，然而查全率却有明显的提升，同时导致了F-比率同样显著的改进。在基本方法和优化方法之间，优化方法比基本方法能达到更高的查精率，查全率和F-比率。对于的优化方法，平均的来说，达到较高F-比率(>0.4)所需要的样本音频数量为8，这个数量在大多数实际情况中都是可行的。

以上所述仅为本发明的两阶段音频检索方法及系统的较佳实验，并非用以限定本发明的实质技术内容的范围。本发明的两阶段音频检索方法及系统，其实质技术内容是广泛的定义于权利要求书中，任何他人所完成的技术实体或方法，若是与权利要求书中所定义者完全相同，或是同一等效的变更，均将被视为涵盖于此专利保护范围之内。

Claims

1.一种两阶段的音频检索方法，其特征在于包括以下步骤：

1)提取数据库中音频文件的音频特征；

2)对数据库中音频文件进行基于文本的检索；

5)以步骤4)训练得到的强分类器进行检索。

2.根据权利要求1所述的一种两阶段的音频检索方法，其特征在于所述的提取数据库中音频文件的音频特征步骤：令A_i表示所有用于检索的候选音频集合，其中i＝1，…，n，在此集合中，有n_a个音频文件有文本注释，如这些音频文件为

1.节奏模式(Rhythm Patterns)

2.统计谱描述子(Statistical Spectrum Descriptor)

3.节奏直方图(Rhythm Histogram)

4.自相关(Auto-correlation)

5.对数冲击时间(Log Attack Time)

6.时间质心(Temporal Centroid)

7.音频功率(Audio Power)

8.基波频率(Fundamental Frequency)

9.总响度(Total Loudness)

10.Mel频率倒谱系数(Mel Frequency Cepstrum Coeffcient)

11.频谱质心(Audio Spectrum Centroid)

12.频谱衰减(Audio Spectrum Rolloff)

13.频谱扩展(Audio Spectrum Spread)

14.响度波带(Sone/Bark Bands)

15.过零率(Zero-crossing Rate)

16.频谱平度(Audio Spectrum Flatness)。

3.根据权利要求1所述的一种两阶段的音频检索方法，其特征在于所述的对数据库中音频文件进行基于文本的检索步骤：给定用户输入的由一个或者多个关键字组成的查询Q，对数据库中音频文件使用文本检索方法进行基于文本的查询，检索注释中包含查询关键字的音频，令

4.根据权利要求1所述的一种两阶段的音频检索方法，其特征在于所述的基于有文本注释的音频文件构成的训练集合，用主成分分析方法寻找对于分类最可靠的特征集合步骤：

ρ_{k, l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} (x_{i, k} - μ_{k}) (x_{i, l} - μ_{l})}{Σ_{i : r^{a} (i) = 1}} - - - (1)

其中μ_k和μ_l分别是在第k个和第l个特征维度上的均值，

μ_{k} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, k}}{Σ_{i : r^{a} (i) = 1}}

以及

μ_{l} \overset{Δ}{=} \frac{Σ_{i : r^{a} (i) = 1} x_{i, l}}{Σ_{i : r^{a} (i) = 1}},

5.根据权利要求1所述的一种两阶段的音频检索方法，其特征在于所述的基于训练集合对特征集合所构成的弱分类器进行训练，构造出强分类器步骤：

s (A_{i}, A_{j}) \overset{Δ}{=} \frac{Σ_{v_{i} &Element; V} κ_{i} (1 - {&lang; x_{i} - x_{j}, v_{i} &rang;}^{2})}{Σ_{v_{i} &Element; V} κ_{i}} - - - (2)

{\frac{1}{\sqrt{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[3]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

{\frac{1}{\sqrt[4]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |}, . . ., {\frac{1}{\sqrt[m]{{var}_{i}}} | i = 1, \cdot \cdot \cdot, | V |},

γ = \frac{1}{x}, \frac{2}{x}, \cdot \cdot \cdot, \frac{x - 1}{x}, \frac{x}{x},

S (i, j) \overset{Δ}{=} s (A_{i}, A_{j}),

定义单步传播过程如下：

r^{u} (i) = \max_{r^{a} (j) = 1} s (i, j) - - - (3)

r^{u} \overset{Δ}{=} e^{βS} r^{a} = (I_{n \times n} + βS + \frac{β^{2} S^{2}}{2!} + \frac{β^{3} S^{3}}{3!} + . . .) r^{a} - - - (4)

其中β是传播步骤中的衰减常数，并引入Adaboost方法，与查询相关的音频，就标记为+1，否则标记为-1，训练集合从第一阶段基于文本的查询中得到，步骤(1)中由于xm种对数列{κ_i|i＝1，…，|V|}和γ的赋值候选方案将产生xm种音频相似度定义，根据(3)或(4)式都可以计算出一个r^u值，每一个r^u(i)>τ的判定式都构成了一个弱分类器，对于xm个音频相似度定义对应的弱分类器，搜索使弱分类器分类错误达到最小的τ和β优化设置；

\underset{j}{Σ} ω_{j} r_{j}^{u} > \frac{1}{2} \underset{j}{Σ} ω_{j},

6.根据权利要求1所述的一种两阶段的音频检索方法，其特征在于所述的以步骤4)训练得到的强分类器进行检索步骤：由步骤4)中得到的强分类器对整个数据库的所有音频进行分类，其中被标记为+1的音频作为最后的查询结果返回给用户。