CN102053998A

CN102053998A - 一种利用声音方式检索歌曲的方法及系统装置

Info

Publication number: CN102053998A
Application number: CN2009102359906A
Authority: CN
Inventors: 周明全; 李鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-11-04
Filing date: 2009-11-04
Publication date: 2011-05-11

Abstract

本发明提供一种利用声音方式检索音乐的方法及系统装置，本发明目的在于设计一种通过声音与计算机进行交互，实现计算机主动识别声音音调变化信息，进行音乐歌曲检索的方法，同时将该技术在计算机上实现，生成一种可用于KTV点歌、娱乐网站构建和移动终端的音乐检索系统。音乐检索系统主要包括交互界面、后台处理流程、音乐特征库创建和传输通道四个模块，用户可以在单击按钮之后现场唱歌，系统实时记录人声输入，并在录音结束之后保存录音文件，并进行处理，最终按相似度排序歌曲名称，单击歌曲即可实现播放，并显示该歌曲相关信息。如果第一次检索未成功，可以追加检索，在上次检索的基础之上哼唱/歌唱歌曲的另外一段旋律，进行累积检索。

Description

一种利用声音方式检索歌曲的方法及系统装置

技术领域

本发明涉及文件搜索领域，尤其涉及一种歌曲搜索的方法及系统装置。

背景技术

搜索引擎是常用的资源获取方式，在数字多媒体领域，目前要获得特定资源采用的是与该资源相关的关键字符进行检索。随着近几年对基于内容检索方法的研究，在音频识别检索领域内的应用才初步展开，基于内容音频识别与检索技术是处理音频海量数据的一项重要技术，与图像检索、视频检索已并列成为当今基于内容检索研究的热点。将音频的识别和检索技术与传统的文本检索相结合可以大大提高音频数据检索的效率和准确度，降低检索成本。基于内容的音乐检索也成为一个新兴的研究领域，随着大规模数字音乐文件的出现，实现基于内容的音乐检索的需求得到凸显。

数字音乐的急剧增加以及用户期望采用多种音乐检索手段的需求，使得人们在处理音乐作品时遇到了瓶颈：首先，互联网上海量的音乐数据通过人工方式实现分类和标注变得艰难；其次由于人工信息的介入，使得歌曲的某些标注加入了主观偏见，不具有普遍性；人们无法通过部分歌曲的旋律实现对未知歌曲信息的检索；歌曲的大量增加也对歌曲的版权保护提出要求；音乐爱好者的增加对于音乐类娱乐工具也有迫切需求。基于内容的音乐检索方式不依赖于标注信息，从乐曲内容本身出发来认定乐曲，根据音乐中的旋律、音高、节奏等信息来实现检索、分类，进而管理音乐信息。它在音乐数据库管理、Internet音乐检索以及生活娱乐方面都具有非常重要的意义。在娱乐方面一个典型应用就是KTV点歌系统、音乐娱乐网站及移动终端等的歌唱搜索。通常人们在KTV唱歌时都是通过输入字符信息查找歌手名称或者歌曲名称，以此获得所需歌曲，然而一个常见的情况是用户对某首歌的某几句的旋律比较熟悉，歌词记忆不准确，歌手和歌名信息并不掌握，这时传统的歌曲检索方法就无法帮助用户找到其希望的歌曲，在网页上检索歌曲也同样面临这个问题，网上歌曲的检索也同样以歌曲元数据作为关键字开展，少有的几个网站也仅以歌曲的节奏、声调和音色的宏观特征检索某一类歌曲，在这种状况下，通过歌曲自身旋律变化的特征实现检索成为必要。同时随着3G技术的上市，越来越多基于移动终端的娱乐型业务需求也在增加，这也对快速、便捷、多渠道查找目标音乐提出新需求。

1995年，Ghias(人名)对单音轨的MIDI音乐的哼唱检索进行了开创性研究，采用时域自相关算法提取音高信息，然后使用字符串近似匹配的方式实现对单声部音乐的检索。新西兰Waikato(大学名称)大学的RodgerJ.McNab(人名)和新西兰数字音乐图书馆合作开发了一套名为MT(Melody Transcript)和MELDEX系统，但是MELDEX系统无法正确切割音符，用户在哼唱时，必须在音符与音符之间自行留下短暂的停顿或插入特定断句声音，用户使用起来不方便，也不自然。Tomonari(人名)等提出同时使用音长和音高作为旋律特征，然后采用基于“动态闭值调整”的匹配方法，采用了先粗选后细选的匹配策略。Kosugi(人名)提出同时使用音高变化和音高分布来提高系统的性能。他们开发出了一套名为SoundComPass(系统名称)的系统，在使用时需配合乐器的节拍哼唱。韩国Seungmin(人名)等改进基音提取算法，在传统检索算法的基础上增加了访问频度索引功能，采用基于遗传算法的相关反馈机制，使得算法的检索正确率有了一定提升。

台湾清华大学的张智星等在哼唱式音乐检索方面起步较早，他们在提取基音值之后，采用分级过滤算法对音高进行处理，首先排除掉一部分候选音乐，然后采用DTW算法进行精确匹配，并开发出了一套名为“Super MBox”的点歌系统。

纵观上述内容，音乐检索虽已经历多年发展，但还存在许多重要问题：

1).目前虽然有多个试验系统，但都有一定的限制，如用户需要哼唱固定符号，或加入辅助手段，对用户来说难以使用；

2).特征选取方面仍有很多完善空间，基音的提取缺乏后处理，无法使基音序列能直接参与匹配；

3).在搜索算法上音乐检索多使用基于传统的字符串近似匹配算法，没有考虑到音乐特征之特性，用户哼唱的旋律曲线与库存标准曲线只能在外形轮廓上相似，不能保证每一小部分都相似；

4).将检索过程中的匹配没有调整为按照小短句进行，人们一般是以短句为单位进行哼唱的，而一般的检索方法没有考虑音乐的这种特性；

5).缺乏一种标准音乐数据库或者创建标准音乐特征库的方法。目前还没有一个普适的以句为单位保存音乐歌谱特征和歌词的数据库。

发明内容

为解决以上问题，本发明目的在于设计一种通过声音与计算机进行交互，实现计算机主动识别声音音调变化信息，进行音乐歌曲检索的方法，同时将该技术在计算机上实现，生成一种可用于KTV点歌、娱乐网站构建和移动终端的音乐检索系统。

为了实现本发明的目的之一，提供一种利用声音方式检索歌曲的方法，包括以下步骤：

(a)搭建交互界面；

(b)搭建传输通道；

(c)搭建后台处理流程模块；

(d)音乐特征数据库的创建。

进一步地，上述方法还可具有以下特点：在所述步骤(a)交互界面由输入、输出两部分构成，完成用户与系统之间的数据交流，交互界面--输入为用户提供了多种数据类型、多种形式的输入方式，通过音频采集设备，可以接收用户歌唱、哼唱、口哨声、演奏声音、音乐播放等声音信号。通过键盘、屏幕触控装置等可以实现字符输入。这两种输入方式满足了检索歌曲时歌曲旋律的实时输入和歌曲元数据的采集。在该系统中采用的音频格式是wave文件，所用参数为：采样率22.05K，8位，单声道。

进一步地，上述方法还可具有以下特点：在所述步骤(b)中，传输通道因具体应用环境的不同而有所变化，如果是实现单机音乐检索，则输入的声音、字符和输出的音频信号均可直接传输，如果应用于KTV环境，可通过电脑式或嵌入式两种方法实现，电脑式相当于单机应用，嵌入式采用单片机技术由主服务器完成歌曲库的维护，实现与各终端的数据交流。网站是使用互联网发送和传输数据。移动终端采用无线通讯方式实现。

进一步地，上述方法还可具有以下特点：在所述步骤(c)中后台处理流程模块是整个系统的核心处理部分，音频采集部件得到的音频文件通过传输通道在该模块会经过一系列的处理形成可与数据库内容相匹配的序列，检索之后返回曲目相似度列表。输入的字符信息也会被送至数据库检索，返回相应结果。

进一步地，上述方法还可具有以下特点：在所述步骤(c)中进一步分为以下步骤：

(c1)旋律特征提取；

(c2)音频特征搜索引擎构建；

(c3)后台媒体库构建。

进一步地，上述方法还可具有以下特点：在所述步骤(c1)中旋律特征提取通过以下过程完成：基音检测是音频信号处理的常用技术，基音值描述了音频时域信号在频域内音调的变化特征，现采用时域的自相关法，对一查询片段进行加窗分帧，重叠移动形成多帧，然后对每帧数据作自相关基音提取操作。

自相关函数是对信号进行短时相关分析时常用到的特征函数。人声哼唱信号s(m)经窗口长度为N的窗口截取为加窗帧信号S_n(m)，定义每帧的自相关函数R_n(k)为：

R_{n} (k) = Σ_{m = 0}^{N - k - 1} S_{n} (m) S_{n} (m + k) - - - (1)

其中k＝(-N+1)～(N-1)。

由于信号的自相关函数在基音周期的整数倍位置上会出现峰值，因此可通过检测峰值的位置来提取基音周期值，最终得到代表音调变化的基音序列。完成基音提取后，获得了较好的基音曲线。该曲线的轮廓真实展示了哼唱片断中的音高变化状况，然而因为人的声门发音毕竟不像钢琴，在固定的音符表现上，音调并不能够保持稳定，小幅跳变仍比较明显，这是人在哼唱/歌唱时的真实信息，但要实现与标准音乐旋律变化的比对就需要对基音序列进行后处理。

进行基音序列后处理的另一个原因是，除了人声存在的不规则跳变外，人声采集过程中也不可避免的加入了环境噪声、电流噪声、气流噪声等的干扰，使得基音序列中存在若干个基音周期估计值远远偏离了正常轨迹的点(被称作“野点”)，所以需要对基音曲线进行平滑处理。

有多种平滑算法可以用来去除这些野点，其中被使用频率最多的是均值或中值滤波平滑算法，中值平滑虽能有效地去除少量的野点，但因其无法分辨滤波区间中基音值大小分布状况，容易在特定情况下产生较大误差。均值平滑在纠正输入信号中野点的同时，也对各邻近样点的值做了修改，虽加大窗长可以增强平滑的效果，但极易使两个平滑段之间应该保留的跳变的模糊程度加重。

实现哼唱式的音乐检索需要匹配的是由哼唱得到的特征序列和由MIDI得到的特征序列，采用MIDI文件的方式创建音乐特征数据库时，其特征序列是非常规整的，每个音阶在短时发音区间是完全水平的，音阶之间的跳变是突变，没有过渡过程；而人声哼唱/歌唱无法达到这样的效果，因此有必要在去除基音序列中野点的同时，还要加强音阶之间的突变。为此，提出一种“小阁”后处理技术，既能够有效去除“野点”干扰，又能完成保持同一音阶的平稳和音阶之间显著跳变的阶跃。

进一步地，上述方法还可具有以下特点：在所述步骤(c1)中，将基音序列表示为X(m)，滤波宽度定义为L，基音值波动范围是Range，定义一个二维数组A[Range，L]，并定义Y(m)保存滤波之后的数据，具体实施步骤如下：

Step1：创建一个二维数组A[Range，L]，以滤波宽度作为其横坐标，基音值波动范围作为其纵坐标；

Step2：申请一个和基音序列数组等大的数组空间，作为滤波之后数值的保存空间；

Step3：截取基音序列的前L个基音值，并将其按照值的大小，分别放入到数组A中，A中的每一列代表一个小阁；

Step4：统计数组A中每个小阁中存入数据的个数，找到数据数目最多的那一列，并计算其均值；

Step5：将该均值作为滤波之后的基音值写入到新的基音序列空间对应位置；

Step6：清空二维数组A；

Step7：将滤波指针向后移动一个位置；

Step8：对基音次序在

之间的数据反复执行3～7操作，直到数组数据取完；

以上的方法是完成一次滤波的情形，实验证明，一次滤波可能无法达到预期的滤波效果，随着滤波次数的增加，波形愈加规整，一般滤波3-5次以上，该波形即保持稳定。

进一步地，上述方法还可具有以下特点：在所述步骤(c2)中，音频特征搜索引擎构建首先须明确实施匹配的两组数据的格式，查询序列是经过旋律特征提取的规整数值变化序列，为提高检索速率，在匹配之前，需要把该序列转化一个二维标准的形式，以(音高，音长)的形式描述其变化规律；音乐特征数据库中的数据是对MIDI文件进行分析得到的描述音高变化和持续时间的数据，同样也以(音高，音长)的形式表示，需注意的是，二者的生成过程必须保证每秒钟生成约100个基音值，这样同样的歌曲，通过wave和midi两种文件格式的分析，均可得到相似的音高变化曲线。

确定了待匹配的二组数据之后，提出了一种基于几何相似性的弹性匹配方法。用这种方法找到查询序列在每首歌曲中最可能出现的位置及与该位置的相似程度，之后比较每首歌曲所得到的相似度，并排序，即可得到检索结果。

进一步地，上述方法还可具有以下特点：在所述步骤(c2)中，检索过程包括以下步骤：

Step1：按顺序从音乐特征数据库中获取一首事先已经实现短句划分的歌曲；

Step2：将待匹配指针指向该歌曲句首位置；

Step3：参照查询序列的长度，以短句为最小单位从库中该歌曲上指针位置裁取与查询序列长度相当的序列，满足所裁取得片断长度介于0.7-1.3倍于查询序列长度；

Step4：将所裁片断与查询片断进行拉伸使之等长、等幅；

Step5：采用线性对齐算法，将二者相近的音高转折点拉伸对齐；

Step6：对二者进行差运算，计算差序列的均方差，保存；

Step7：将指向该歌曲的指针向后移动一个短句；

Step8：重复执行3-7操作，直至该歌曲结束；

Step9：重复执行1-8操作，直至该库歌曲取尽。

查询片段与每首歌曲的每个裁剪片断都有一个均方差，每首歌取最小者作为描述该歌曲与查询片段相似程度的标准，按照库中均方差由小到大排序，即可得到相似度由高到低的歌曲排序，同时也能确定最相似的片断在歌曲中出现的位置。

进一步地，上述方法还可具有以下特点：在所述步骤(c3)中，后台媒体库是检索成功之后向用户返回的媒体资源的集合，库中包括了音乐特征数据库中的所有曲目的数字资源文件和该曲目的元数据，数字资源文件包括歌曲的声音文件、视频文件、伴奏文件等。曲目元数据包括歌曲名称、演唱者、词作者、曲作者、发行年代、专辑名称、音乐风格、歌词信息等。

文本特征搜索引擎类似于常规KTV中字符输入查找，但本发明对此做了改进。常规使用的字符查找，需要用户严格输入正确的歌手姓名或者歌曲名称，无歌词找歌功能。用户在使用中可能会有别字输入，或者用户可能只记得歌词中的某个短句，在短句的输入中也可能会产生别字，在这种状况下，使用精确匹配或者歌词检索均无法实现，本发明在音乐特征库中收录了歌曲的歌词信息，检索时，采用字符的模糊匹配方法，用户只需输入歌名或演唱者，或歌词中的任意部分都可以得到相似度由高到低的歌曲排名，能帮助用户很快找到目标歌曲。该过程能容忍用户的输入存在少量的别字。模糊匹配方法采用动态规划算法，将查询字符串与库中歌曲名称、歌手名称、歌词信息同时做等长度最长公共子串的匹配，该匹配算法目前已经发展成熟，不再赘述，经过上述匹配过程，能够得到每首歌各种信息与该查询字串的相似度。

进一步地，上述方法还可具有以下特点：在所述步骤(d)中，音乐特征数据库是音乐检索的基础，合理准确的音乐特征库对于提高检索速度和检索的准确度有重要的作用。音乐特征库的构建有多种方式，本发明采用准确度高，速度快的MIDI分析方法建立数据库，并提出一种新的自动断句的旋律切分方法。

MIDI即乐器数字化接口，可以把MIDI理解成是一种协议、一种标准、或是一种技术。MIDI也是一种数字音乐文件的格式，文件由很多信息和命令构成，用来实现使用不同的乐器演奏不同的音调，用不同方法调整音色参数等。

MIDI就是一组命令，像音乐盒里拨动簧片的滚轮，MIDI本身并不存储声音信号本身，而是告诉声卡在什么时间，什么位置(音高)，什么强度下发一个什么音，发多长时间，是否颤音，是否力度变化等等。通过网络可以容易获取到大量歌曲的MIDI格式文件，MIDI键盘也是一个快速生成MIDI文件的设备，但需要专业人员操作。

进一步地，上述方法还可具有以下特点：在所述步骤(d)中，所述MIDI分析方法包括以下步骤：

(d1)MIDI预处理；

(d2)MIDI文件分析；

(d3)旋律切分。

MIDI文件格式有多种，首先要将其转换为标准MIDI格式。MIDI文件中通常包含多个音轨，每个音轨代表一个特定的乐器，主旋律归属某个音轨，该音轨还存在着丰富的附加信息，但在建库时，这些附加信息及非主旋律音轨都成了干扰，它们会给建库和实现检索带来严重影响。根据不同情况有三种不同的处理方案。

1)如果MIDI文件只有一个主旋律音轨，那直接进行MIDI文件分析，如果MIDI文件的作者用类似“MELODIES”，“VOCAL”，“SING”，“SOLO”，“LEAD”，“VOICE”等关键词标识了主旋律所在音轨，则保留该音轨，删掉所有的其它音轨。

2)如果文件有多个音轨，并且主旋律音轨未知，这时需要考察每个音轨的左右声道平衡度、主音量、发音时间等因素识别主旋律音轨，主旋律所在音轨的声道发音比较平衡，音量较大，而且贯穿整个文件始末。发音时间较短的音轨可以直接删除。

3)对于主旋律出现在两个及以上音轨的MIDI文件则需要人工干预，将两个音轨合并，删除多余音轨。对与无法准确判断主旋律的MIDI文件也应该用Akoff music composer等软件辅助鉴别。

确定了MIDI文件主旋律所在音轨之后，读取文件的二进制内容，按照MIDI编码规则获取音高和时长。读取MIDI头文件后，可以获得调号、节拍、每分钟节拍数、音轨个数等信息。调号表示音乐基准音的定位，占用一个字符，必须为A、B、C、D、E、F、G，通常为C调；节拍取值如2/4，3/4，4/4，3/8，6/8等；每分钟节拍数表示每分钟演奏的节拍总数，取值在40-200之间。音轨个数表示此歌曲声部数。

按照主旋律音轨号码，读取数据块中该音轨的信息。MIDI以事件和消息的方式控制乐器的演奏方式。包括MIDI事件，Sysex事件Meta事件。MIDI消息的种类很丰富，而且没有统一的格式，这意味着只能把每一种消息单独处理。但需要获取的音高时长信息通过对MIDI信息的分析即可获得。消息中最常用的是音符打开消息(Note-On)和音符关闭消息(Note-Off)。MIDI中没有音符的概念，因此要通过将对应的音符开启和关闭事件配对形成一个音符，称之为原始音符，之后还需要将音符开始时间戳和结束时间戳转换成音符开始时间和音符持续长度。

为了完成上述两个任务，使用一个大数组缓存16个通道里的128个音的状态。在接收到音符打开与关闭消息时进行记录，并同时计算开始时间与持续时间。最终得到音高、音长序列。

按照时长的分布状况，设定合适的阈值对音高序列进行自动切分，一般的方法是绘制时长信息直方图，将第一个波谷所在的值作为断句阈值。

完成上述步骤之后可将数据按照基音提取后处理之后的格式进行存储，完成音乐特征数据库构建。

为了实现本发明的另外一个目的，提供一种利用声音方式检索歌曲的系统装置，本发明采用了以下技术方案：所述一种利用声音方式检索歌曲的系统装置包括用户端、交互界面、后台处理流程、音乐特征库创建和传输通道五个模块。

其中，交互界面由输入、输出两部分构成，完成用户与系统之间的数据交流，交互界面--输入为用户提供了多种数据类型、多种形式的输入方式，通过音频采集设备，可以接收用户歌唱、哼唱、口哨声、演奏声音、音乐播放等声音信号。通过键盘屏幕触控装置等可以实现输入。这两种输入方式满足了检索歌曲时歌曲旋律的实时输入和歌曲元数据的采集。所述交互界面-输出部分主要采用视听广播的方式。

其中，传输通道因具体应用环境的不同而有所变化，如果是实现单机音乐检索，则输入的声音、字符和输出的音频信号均可直接传输，如果应用于KTV环境，可通过电脑式或嵌入式两种方法实现，电脑式相当于单机应用，嵌入式采用单片机技术由主服务器完成歌曲库的维护，实现与各终端的数据交流。网站的应用是使用互联网发送和传输数据。移动终端采用无线通讯方式实现。

其中，后台处理流程模块是整个系统的核心处理部分，音频采集部件得到的音频文件通过传输通道在该模块会经过一系列的处理形成可与数据库内容相匹配的序列，检索之后返回曲目相似度列表。通过触控设备输入的字符信息也会被送至数据库检索，返回相应结果。

其中，音乐特征数据库是音乐检索的基础，合理准确的音乐特征库对于提高检索速度和检索的准确度有重要的作用。

与现有技术相比，本发明的优势在于：遵照上述基旋律特征提取、特征库创建及匹配检索方法，参照交互方式的定义，设计实现了一个可以通过哼唱/歌唱实现歌曲检索的系统及装置，用户可以在单击按钮之后现场哼唱/歌唱，系统实时记录人声输入，并在录音结束之后保存录音文件，对该文件做预处理、基音提取、后处理、匹配检索等已述操作，最终按相似度返回歌曲名称，单击歌曲即可实现播放，并显示该歌曲相关信息。如果第一次检索未成功，可以追加检索，在上次检索的基础之上哼唱/歌唱歌曲的另外一段旋律，进行累积检索。

附图说明

图1是本发明所述一种利用声音方式检索音乐系统装置的整体结构图；

图2是应用本发明于一个卡拉OK厅的歌曲点唱系统。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述，但不作为对本发明技术方案的限制。

实施例1：

按照上述技术及实施方案，可以将该技术及装置在一个系统上实现，系统主要硬件包括用户端10(计算机主机)、交互界面输入端20、交互界面输出端60、后台处理流程模块40、音乐特征库创建模块50和传输通道30模块。

其中，交互界面输入端20和交互界面输出端60两部分完成用户与系统之间的数据交流，交互界面--输入20为用户提供了多种数据类型、多种形式的输入方式，通过音频采集设备，可以接收用户人声信号21、演奏声音信号22和文本信息输入信号23。其中，用户端10可以是屏幕触控装置，可以实现像计算机键盘一样的字符输入方式。这两种输入方式满足了检索歌曲时歌曲旋律的实时输入和歌曲元数据的采集。所述交互界面-输出端60部分主要采用视听播放61的方式。

其中，传输通道30因具体应用环境的不同而有所变化，如果是实现单机音乐检索，则输入的声音、字符和输出的音频信号均可直接传输，如果应用于KTV环境，可通过电脑式或嵌入式两种方法实现，电脑式相当于单机应用，嵌入式采用单片机技术由主服务器完成歌曲库的维护，实现与各终端的数据交流。网站使用互联网发送何传输数据。移动终端采用无线通讯方式实现。

其中，后台处理流程模块40是整个系统的核心处理部分，音频采集部件得到的音频文件通过传输通道30后，经过声音信号经WAVE滤波41后进行旋律特征提取42，根据提取的特征在音乐信息及音频特征库46中进行音频特征搜索引擎43，文本信息44也在音乐信息及音频特征库46中进行文本特征搜索引擎45，在该模块会经过一系列的处理形成可与数据库内容相匹配的序列，检索之后返回检索结果48，并形成曲目相似度列表。通过触控设备输入的字符信息被送至交互界面-输出端60，并视听播放61的方式输出。

其中，音乐特征数据库50是音乐检索包括两部分，即MIDI文件库51和音高分析52，这两部分为音乐信息及音频特征库46提供数据源。

上述方案是搭建一个一种利用声音方式检索歌曲的硬件系统装置，利用这个装置按照下述方法，可实现本发明的另外一个目的，即利用声音方式检索歌曲的方法：

(e)搭建交互界面；

(f)搭建传输通道；

(g)搭建后台处理流程模块；

(h)音乐特征数据库的创建。

进一步地，在所述步骤(a)中，搭建交互界面在上述方案中介绍。

进一步地，在所述步骤(b)中，传输通道的构建在上述方案中介绍。

进一步地，在所述步骤(c)中后台处理流程模块的是整个系统的核心处理部分，音频采集部件得到的音频文件通过传输通道在该模块会经过一系列的处理形成可与数据库内容相匹配的序列，检索之后返回曲目相似度列表。通过触控设备输入的字符信息也会被送至数据库检索，返回相应结果。

进一步地，在所述步骤(c)中进一步分为以下步骤：

(c1)旋律特征提取；

(c2)音频特征搜索引擎构建；

(c3)后台媒体库构建。

进一步地，在所述步骤(c1)中旋律特征提取通过以下过程完成：，现采用时域的自相关法，对一查询片段进行加窗分帧，重叠移动形成多帧，然后对每帧数据作自相关基音提取操作。

R_{n} (k) = Σ_{m = 0}^{N - k - 1} S_{n} (m) S_{n} (m + k) - - - (1)

其中k＝(-N+1)～(N-1)。

进一步地，在所述步骤(c1)中，将基音序列表示为X(m)，滤波宽度定义为L，基音值波动范围是Range，定义一个二维数组A[Range，L]，并定义Y(m)保存率波之后的数据，具体实施步骤如下：

Step2：申请一个和基音序列数组等大的数组空间，作为滤波之后数值得保存空间；

Step6：清空二维数组A；

Step7：将滤波指针向后移动一个位置；

Step8：对基音次序在

之间的数据反复执行3～7操作，直到数组数据取完；

进一步地，在所述步骤(c2)中，音频特征搜索引擎构建首先须明确实施匹配的两组数据的格式，查询序列是经过旋律特征提取的规整数值变化序列，为提高检索速率，在匹配之前，需要把该序列转化一个2维标的形式，以(音高，音长)的形式描述其变化规律；音乐特征数据库中的数据是对MIDI文件进行分析得到的描述音高变化和持续时间的数据，同样也以(音高，音长)的形式表示，需注意的是，二者的生成过程必须保证每秒钟生成约100个基音值，这样同样的歌曲，通过wave和midi两种文件格式的分析，均可得到相似的音高变化曲线。

确定了待匹配的二组数据之后，提出了一种具有动态时间规划思想的基于几何相似性的弹性匹配方法。用这种方法找到查询序列在每首歌曲中最可能出现的位置及与该位置的相似程度，之后比较每首歌曲所得到的相似度，并排序，即可得到检索结果。

进一步地，在所述步骤(c2)中，检索过程包括以下步骤：

Step2：将待匹配指针指向该歌曲句首位置；

Step4：将所裁片断与查询片断进行拉伸使之等长、等幅；

Step5：采用动态时间规划算法，将二者相近的音高转折点拉伸对齐；

Step6：对二者进行差运算，计算查序列的均方差，保存；

Step7：将指向该歌曲的指针向后移动一个短句；

Step8：重复执行3-7操作，直至该歌曲结束；

Step9：重复执行1-8操作，直至该库歌曲取尽。

查询片段与每首歌曲的每个裁剪片断都有一个均方差，每首歌取最小者作为描述该歌曲与查询片段相似程度的标准，按照库中均方差大小排序，即可得到相似度由高到低的歌曲排序，同时也能确定最相似的片断在歌曲中出现的位置。

进一步地，在所述步骤(c3)中，后台媒体库是检索成功之后向用户返回的媒体资源的集合，库中包括了音乐特征数据库中的所有曲目的数字资源文件和该曲目的元数据，数字资源文件包括歌曲的声音文件、视频文件、伴奏文件等。曲目元数据包括歌曲名称、演唱者、词作者、曲作者、发行年代、专辑名称、音乐风格、歌词信息等。

文本特征搜索引擎类似于常规KTV中字符输入查找，但本发明对此做了改进。常规使用的字符查找，需要用户严格输入正确的歌手姓名或者歌曲名称，无歌词找歌功能。用户在使用中可能会有别字输入，或者用户可能只记得歌词中的某个短句，在短句的输入中也可能会产生别字，在这种状况下，使用精确匹配或者歌词检索均无法实现，本发明在音乐特征库中收录了歌曲的歌词信息，检索时，采用字符的模糊匹配方法，用户只需输入歌名或演唱者，或歌词中的任意部分都可以得到相似度由高到低的歌曲排名，能帮助用户很快找到目标歌曲。模糊匹配方法采用动态规划算法，将查询字符串与库中歌曲名称、歌手名称、歌词信息同时做等长度最长公共子串的匹配，该匹配算法目前已经发展成熟，不再赘述，经过上述匹配过程，能够得到每首歌各种信息与该查询字串的相似度。

进一步地，在所述步骤(d)中，音乐特征数据库是音乐检索的基础，合理准确的音乐特征库对于提高检索速度和检索的准确度有重要的作用。音乐特征库的构建有多种方式，本发明采用准确度高，速度快的MIDI分析方法建立数据库，并提出一种新的自动断句的旋律切分方法。

MIDI即乐器数字化接口，可以把MIDI理解成是一种协议、一种标准、或是一种技术。MIDI也是一种数字音乐文件的格式，文件由很多信息和命令构成，用来实现使用不同的乐器演奏不同的音调，用不同方法调整的音色参数等。

进一步地，在所述步骤(d)中，所述MIDI分析方法包括以下步骤：

(d1)MIDI预处理；

(d2)MIDI文件分析；

(d3)旋律切分。

4)如果MIDI文件只有一个主旋律音轨，那直接进行MIDI文件分析，如果MIDI文件的作者用类似“MELODIES”，“VOCAL”，“SING”，“SOLO”，“LEAD”，“VOICE”等关键词标识了主旋律所在音轨，则保留该音轨，删掉所有的其它音轨。

5)如果文件有多个音轨，并且主旋律音轨未知，这时需要考察每个音轨的左右声道平衡度、主音量、发音时间等因素识别主旋律音轨，主旋律所在音轨的声道发音比较平衡，音量较大，而且贯穿整个文件始末。发音时间较短的音轨可以直接删除。

6)对于主旋律出现在两个及以上音轨的MIDI文件则需要人工干预，将两个音轨合并，删除多余音轨。对与无法准确判断主旋律的MIDI文件也应该用Akoff music composer等软件辅助鉴别。

按照主旋律音轨号码，读取数据块中该音轨的信息。MIDI以事件和消息的方式控制乐器的演奏方式。包括MIDI事件，Sysex事件Meta事件。MIDI消息的种类很丰富，而且没有统一的格式，这意味着只能把每一种消息单独处理。但需要获取的音高时长信息通过对MIDI信息的分析即可获得。消息中最常用的是音符打开消息(Note-On)和音符关闭消息(Note-Off)。MIDI中没有音符的概念，因此要通过将对应的音符开启和关闭事件配对形成一个音符，称之为原始音符，之后还需要将音符开始时间戳和结束时间戳转换成音符开始时间戳和音符持续长度。

实施例2：

参见图3，按照上述技术及实施方案，可以实现一个应用于卡拉OK厅的智能歌曲检索系统，该系统主要硬件包括计算机主机3、音频采集设备7、遥控设备6、显示器和触控屏幕2、遥控接收设备4，展示机柜1和音箱5，展示机柜1内装配有电源，计算机主机3包含开关按钮，音频输入输出接口，网线接口，计算机主机3上安装音频采集卡、音频文件处理模块、音乐检索搜索引擎及音乐特征库与媒体库，它是该系统的核心部件，安装有触控装置的显示器2通过触控设备，用户可以用手指直接实现与系统的交互，包括录音按键的开启和结束，歌曲点唱，参数修改等，同时也具备使用关键字检索时字符的输入功能。遥控接收设备4接收遥控设备6的信号，将信号转换为主机可识别的命令，实现通过触控设备交互的所有功能，音频采集设备7一般采用唱歌话筒。

用户使用时，首先开机，使用遥控器或者触控交互发送录音命令，用户歌唱一句或者两句歌词(约8s左右)后发送结束录音命令，开始检索，返回若干具有较高相似性的歌曲，选择相应的歌曲，即可播放或者开始卡拉OK唱歌。按停止键即结束播放。

本发明不限于上述实施例，对于本领域技术人员来说，对本发明的上述实施例所做出的任何显而易见的改进或变更都不会超出仅以举例的方式示出的本发明的实施例和所附权利要求的保护范围。

Claims

1.一种利用声音方式检索歌曲的方法，包括以下步骤：

(a)搭建交互界面；

(b)搭建传输通道；

(c)搭建后台处理流程模块；

(d)创建音乐特征数据库；

其特征在于：在所述步骤(c)中，搭建后台处理流程模块进一步分为以下步骤：

(c1)旋律特征提取；

(c2)音频特征搜索引擎构建；

(c3)后台媒体库构建；

进一步的，在所述步骤(d)中音乐特征库的构建采用MIDI分析方法建立数据库，并提出一种新的自动断句的旋律切分方法，所述方法进一步分为以下步骤：

(d1)MIDI预处理；

(d2)MIDI文件分析；

(d3)旋律切分。

2.根据权利要求1所述的一种利用声音方式检索歌曲的方法，其特征在于：在所述步骤(c2)中，音频特征搜索引擎构建进一步分为以下步骤：

(c21)首先须明确实施匹配的两组数据的格式，查询序列是经过旋律特征提取的规整数值变化序列，在匹配之前，需要把该序列转化一个二维标准的形式，以(音高，音长)的形式描述其变化规律；音乐特征数据库中的数据是对MIDI文件进行分析得到的描述音高变化和持续时间的数据，同样也以(音高，音长)的形式表示，二者的生成过程必须保证每秒钟生成约100个基音值，这样，同样的歌曲，通过wave和midi两种文件格式的分析，均可得到相似的音高变化曲线。

(c22)确定了待匹配的二组数据之后，提出了一种具有动态时间规划思想的基于几何相似性的弹性匹配方法，用这种方法检索到序列在每首歌曲中最可能出现的位置及与该位置的相似程度，之后比较每首歌曲所得到的相似度，并排序，即可得到检索结果。

3.根据权利要求2所述一种利用声音方式检索歌曲的方法，其特征在于：所述步骤(c22)中的检索方法，进一步包括以下步骤：

Step1：按顺序从音乐特征数据库中获取一首事先已经实现断句划分的歌曲；

Step2：将待匹配指针指向该歌曲句首位置；

Step4：将所裁片断与查询片断进行拉伸使之等长、等幅；

Step6：对二者进行差运算，计算差序列的均方差，保存；

Step7：将指向该歌曲的指针向后移动一个短句；

Step8：重复执行3-7操作，直至该歌曲结束；

Step9：重复执行1-8操作，直至该库歌曲取尽。

4.根据权利要求1所述一种利用声音方式检索歌曲的方法，其特征在于：在所述步骤(c3)中，后台媒体库是检索成功之后向用户返回的媒体资源的集合，库中包括了音乐特征数据库中的所有曲目的数字资源文件和该曲目的元数据，数字资源文件包括歌曲的声音文件、视频文件、伴奏文件等，曲目元数据包括歌曲名称、演唱者、词作者、曲作者、发行年代、专辑名称、音乐风格、歌词信息等。

5.根据权利要求1所述一种利用声音方式检索歌曲的方法，其特征在于：在所述步骤(c3)中，所述后台媒体库还包括文本特征搜索引擎，文本特征搜索引擎采用字符的模糊匹配方法，用户只需输入歌名或演唱者，或歌词中的任意部分都可以得到相似度由高到低的歌曲排名，能帮助用户很快找到目标歌曲。

6.根据权利要求5所述一种利用声音方式检索歌曲的方法，其特征在于：所述模糊匹配方法采用动态规划算法，将查询字符串与库中歌曲名称、歌手名称、歌词信息同时做等长度最长公共子串的匹配，该匹配算法目前已经发展成熟，不再赘述，经过上述匹配过程，能够得到每首歌各种信息与该查询字串的相似度。

7.一种利用声音方式检索歌曲的系统装置，包括用户端、交互界面、后台处理流程、音乐特征库创建和传输通道五个模块，其中用户端、交互界面、传输通道和后台处理流程依次相连，其特征在于：所述交互界面包括交互界面--输入端和交互界面--输出端，其中，交互界面--输入端采用歌唱、哼唱、口哨声、演奏声音、音乐播放的输入方式，通过音频采集设备接收用户声音信号，通过文本信息录入可采集字符，音符信息。

8.根据权利要求7所述的一种利用声音方式检索歌曲的系统装置，其特征在于：所述后台处理流程模块包含WAVE滤波模块、旋律特征提取模块，音乐信息及音频特征库模块、音频特征搜索引擎模块，文本信息模块、文本特征搜索引擎模块，检索结果模块和后台媒体库模块，其中，WAVE滤波模块连接旋律特征提取模块，所述旋律特征提取模块连接音频特征搜索引擎模块，所述音频特征搜索引擎模块与音乐信息及音频特征库模块相连，另外文本信息模块连接文本特征搜索引擎模块，且也与音乐信息及音频特征库模块相连。

9.根据权利要求7所述的一种利用声音方式检索歌曲的系统装置，其特征在于：所述音乐特征库创建模块包括两部分，即MIDI文件库模块和音高分析模块，其中，MIDI文件库模块连接音高分析模块，音高分析模块与音乐信息及音频特征库模块相连。