CN104484426A

CN104484426A - 一种多模式音乐搜索方法及系统

Info

Publication number: CN104484426A
Application number: CN201410794887.6A
Authority: CN
Inventors: 袁静; 顿双保; 马胜涛; 张海; 郭正欧
Original assignee: TIANJIN XUNFEI INFORMATION TECHNOLOGY Co Ltd
Current assignee: TIANJIN XUNFEI INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2015-04-01

Abstract

本发明公开了一种多模式音乐搜索方法及系统，该方法包括：录制用户输入的音频数据；利用音乐搜索引擎获得与音频数据相匹配的最优音乐搜索结果，及对应最优音乐搜索结果的匹配度得分；利用语音识别系统获得音频数据的语音识别结果；利用语义搜索引擎获得与语音识别结果相匹配的最优语义搜索结果，及对应最优语义搜索结果的匹配度得分；判断对应最优音乐搜索结果的匹配度得分是否高于或者等于对应最优语义搜索结果的匹配度得分，如是，则输出对应最优音乐搜索结果的音乐信息，如否，则输出对应最优语义搜索结果的音乐信息。本发明的多模式音乐搜索方法及系统支持至少两种音乐搜索技术，可以适应用户多元化的需求。

Description

一种多模式音乐搜索方法及系统

技术领域

本发明涉及语音技术，尤其涉及一种多模式音乐搜索方法及系统。

背景技术

目前，人类最频繁应用的沟通方式就是语音，所以语音技术在手机等移动终端上的应用将非常广泛。伴随着手机软硬件的不断发展，可以预计在不久将来语音交流会成为人机交互的主要方式。

现在市场上支持语音技术的移动终端可谓五花八门，譬如许多语音助手都可以为用户提供帮助，当用户对着移动终端说出“我想听XX歌曲”时，该歌曲很快就会被识别并播放。但当用户听到电台播放的音乐，想立即搜索该音乐又不知道该音乐的歌曲名称时，语音助手就无能为力了。虽然现有的一些音乐搜索技术，例如微信摇一摇等，可以解决这一问题，但其又不具备以上语音助手所具备的功能。

目前市场上针对音乐搜索技术的实现方案的音乐搜索功能都比较单一，仅支持特定方式的语音输入，比如，只有在用户哼唱某歌曲时才可能搜索到对应曲目，但当用户只说出歌曲名称或歌手名称时，将无法搜索到对应曲目；或者只有在用户说出歌曲名称或歌手名称时，才能搜索到对应曲目，但当用户哼唱某歌曲或者播放某歌曲时，将无法搜索到对应曲目。

随着消费者的需求越来越高，越来越多元化，现在市场上单一的语音技术已经遭遇到了发展瓶颈，在这种情况下，就迫切需要一种兼备两种以上功能的语音技术来适应这种多元化的需求。

发明内容

本发明的实施例针对现有音乐搜索实现方案存在的功能单一的技术问题，提供一种多模式音乐搜索方法及系统。

为实现上述目的，本发明采用的技术方案为：一种多模式音乐搜索方法，包括：

录制用户输入的音频数据；

利用音乐搜索引擎获得与所述音频数据相匹配的最优音乐搜索结果，及对应所述最优音乐搜索结果的匹配度得分；

利用语音识别系统获得所述音频数据的语音识别结果；

利用语义搜索引擎获得与所述语音识别结果相匹配的最优语义搜索结果，及对应所述最优语义搜索结果的匹配度得分；

判断对应最优音乐搜索结果的匹配度得分是否高于或者等于对应所述最优语义搜索结果的匹配度得分，如是，则输出对应所述最优音乐搜索结果的音乐信息，如否，则输出对应所述最优语义搜索结果的音乐信息。

优选的是，所述音乐搜索引擎包括原声搜索引擎及/或哼唱搜索引擎。

优选的是，所述音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎；所述利用音乐搜索引擎获得与所述音频数据相匹配的最优音乐搜索结果包括：

利用所述原声搜索引擎和所述哼唱搜索引擎，获得与所述音频数据相匹配的音乐搜索结果，及对应音乐搜索结果的匹配度得分；

判断对应音乐搜索结果的最高匹配度得分是否高于或者等于设定阈值，如是，则将匹配度得分最高的音乐搜索结果作为所述最优音乐搜索结果；如否，则：

判断所述音乐搜索结果中是否存在由所述原声搜索引擎输出的原声搜索结果，如存在，则将匹配度得分最高的原声搜索结果作为所述最优音乐搜索结果，如不存在，则将匹配度得分最高的音乐搜索结果作为所述最优搜索结果。

优选的是，所述利用语义搜索引擎获得与所述语音识别结果相匹配的最优语义搜索结果包括：

利用语义搜索引擎获得与所述语音识别结果相匹配的语义搜索结果，及对应语义搜索结果的匹配度得分；

选取匹配度得分最高的语义搜索结果作为所述最优语义搜索结果。

优选的是，所述方法还包括：

在将所述音频数据输入至所述音乐搜索引擎与所述语音识别系统之前，对所述音频数据进行降噪处理。

为了实现上述方案，本发明采用的技术方案为：一种多模式音乐搜索系统，包括：

录音模块，用于录制用户输入的音频数据；

音乐搜索模块，用于利用音乐搜索引擎获得与所述音频数据相匹配的最优音乐搜索结果，及对应所述最优音乐搜索结果的匹配度得分；

语音转写模块，用于利用语音识别系统获得所述音频数据的语音识别结果；

语义搜索模块，用于利用语义搜索引擎获得与所述语音识别结果相匹配的最优语义搜索结果，及对应所述最优语义搜索结果的匹配度得分；以及，

比较输出模块，用于判断对应最优音乐搜索结果的匹配度得分是否高于或者等于对应所述最优语义搜索结果的匹配度得分，如是，则输出对应所述最优音乐搜索结果的音乐信息，如否，则输出对应所述最优语义搜索结果的音乐信息。

优选的是，所述音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎；所述音乐搜索模块包括：

音乐搜索单元，用于利用所述原声搜索引擎和所述哼唱搜索引擎，获得与所述音频数据相匹配的音乐搜索结果，及对应音乐搜索结果的匹配度得分；以及，

结果选定单元，用于判断对应音乐搜索结果的最高匹配度得分是否高于或者等于设定阈值，如是，则将匹配度得分最高的音乐搜索结果作为所述最优音乐搜索结果；如否，则：

优选的是，所述语义搜索模块具体用于利用语义搜索引擎获得与所述语音识别结果相匹配的语义搜索结果，及对应语义搜索结果的匹配度得分，并选取匹配度得分最高的语义搜索结果作为所述最优语义搜索结果。

优选的是，所述系统还包括：

降噪模块，分别与所述录音模块、所述音乐搜索模块和语音转写模块连接，用于对所述录音模块录制的音频数据进行降噪处理，并将降噪处理后的音频数据传送给所述音乐搜索模块和所述语音转写模块。

本发明的有益效果在于，由于本发明的多模式音乐搜索方法及系统支持至少两种音乐搜索技术，因此，无论用户输入的音频数据是音乐片段，还是例如是表示用户意图的语音段，通过本发明的多模式音乐搜索方法及系统都可以搜索出满足用户要求的音乐信息，使得其可以适应用户多元化的需求。

附图说明

图1示出了根据本发明所述多模式音乐搜索方法的一种实施方式的流程图；

图2示出了利用音乐搜索引擎获取最优音乐搜索结果的一种实施方式的流程图；

图3示出了根据本发明所述多模式音乐搜索系统的一种实施结构的方框原理图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明为了解决现有音乐搜索实现方案存在的功能单一的技术问题，提供一种多模式音乐搜索方法，如图1所示，该方法具体包括如下步骤：

步骤S1：录制用户输入的音频数据。

在此，可将录制的音频数据存储在固定长度的循环缓冲区中，并记录存储地址，以供后续步骤获取该音频数据。

步骤S2：利用音乐搜索引擎获得与该音频数据相匹配的最优音乐搜索结果，及对应所述最优音乐搜索结果的匹配度得分。

该音乐搜索引擎可以为原声搜索引擎，原声搜索引擎具体是根据传入的原声音乐片段搜索音乐结果。

该原声搜索引擎可以采用通过功率谱搜索音乐信息的方法，该方法例如包括：通过快速傅立叶变换(FFT)将音频数据转换到频域信号而产生功率谱，并通过该功率谱提取用于搜索音乐的特征；再将该特征与预先建立的原声特征曲库中的原声特征相比对，例如利用高斯混合模型(GMM)和隐马尔可夫模型(HMM)进行比对，得到反映该特征与不同原声特征间相似度的匹配度得分；最终可将匹配度得分最高的原声特征对应的音乐作为最优音乐搜索结果。

该原声搜索引擎还可以采用通过音频指纹搜索音乐信息的方法，该方法例如包括：通过快速傅立叶变换(FFT)将音频数据转换到频域信号，并从该频域信号中提取调制频谱；使用与预设峰值点相关的位置信息，从调制频谱生成调制频谱峰值点音频指纹；将该音频指纹与按照上述步骤建立的原声特征曲库中的各原声音频指纹相比对，得到反映该音频指纹与不同原声音频指纹间相似度的匹配度得分；最终可将匹配度得分最高的原声音频指纹对应的音乐作为最优音乐搜索结果。

该音乐搜索引擎也可以为哼唱搜索引擎，哼唱搜索引擎具体是根据传入的哼唱音乐片段搜索音乐结果。

该哼唱搜索引擎可以采用通过基频搜索音乐信息的方法，该方法例如包括：从音频数据中提取基频，得到基频序列；对该基频序列进行分段提取音符；获得所提取音符在模板库中各模板中的出现次数；根据所提取的音符在模板中的出现次数，获取多个初步候选模板和音符在初步候选模板中的出现位置；根据所提取音符或所提取音符在初步候选模板中出现的位置，应用动态规划算法获取按不同路径匹配得到的音乐搜索结果及不同路径的匹配度得分；将对应匹配度得分最高的最优路径的音乐搜索结果作为最优音乐搜索结果。

为了进一步增加本发明音乐搜索方法的适应范围，该音乐搜索引擎可以包括原声搜索引擎和哼唱搜索引擎，这样，无论该音频数据是用户输入的原声音乐片段还是哼唱音乐片段，该音频搜索引擎都可以按照一定的筛选条件给出较为准确的最优音乐搜索结果。

在此，本领域技术人员应当清楚的是，上述原声搜索引擎、哼唱搜索引擎同样适于采用其他已知手段根据音频数据搜索音乐信息并获得该音频数据对应音乐搜索结果的匹配度得分。

步骤S3：利用语音识别系统获得音频数据的语音识别结果，即进行语音至文字的转写。

步骤S4：利用语义搜索引擎获得与语音识别结果相匹配的最优语义搜索结果，及对应最优语义搜索结果的匹配度得分。

如果用户录入的音频数据为语音段，则该语音段通常包含例如是“我想听××歌曲”等的表明用户意图的语句，但也可以是用户说出的一句歌词。

该语义搜索引擎可通过预先建立的文法网络，将步骤S3获得的语音识别结果按照不同路径匹配出不同的语义搜索结果，并给出语音识别结果对应不同语义搜索结果的匹配路径的匹配度得分；最后，可选取匹配度得分最高的最优路径对应的语义搜索结果作为该最优语义搜索结果。

步骤S5：判断对应最优音乐搜索结果的匹配度得分是否高于或者等于对应最优语义搜索结果的匹配度得分，如是，则输出对应最优音乐搜索结果的音乐信息，如否，则输出所述最优语义搜索结果的音乐信息。

本发明的方法通过该步骤S5可以提供与音频数据最匹配的音乐信息，在该音频数据为音乐片段时，输出的音乐信息基本会来自于音乐搜索引擎，而在该音频数据为语音段时，输出的音乐信息基本会来自语义搜索引擎。

在此，可将该输出的音乐信息直接送入后端业务服务器中，业务服务器可根据接收到的音乐信息，调用移动音乐资源数据库，获得相应歌曲的链接信息，该链接信息通常包括歌曲名称、歌手、链接地址等，并将获得的链接信息返回至客户端；客户端可以直接根据该链接信息下载并播放相应歌曲，也可以弹出对话框询问用户是否直接播放该歌曲，如果客户端接收到用户的确认指示，则下载并播放相应歌曲，而如果客户端接收到用户的否定指示，则下载并保存相应歌曲至本地文件夹下。

由此可见，本发明的多模式音乐搜索方法支持至少两种音乐搜索技术，因此，无论用户输入的音频数据是音乐片段，还是表示用户意图的语音段，通过本发明的多模式音乐搜索方法及系统都可以搜索出满足用户要求的音乐信息，使得其可以适应用户多元化的需求。

在音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎的实施例中，如图2所示，上述步骤S2中利用音乐搜索引擎获得与音频数据相匹配的最优音乐搜索结果可进一步包括如下步骤：

步骤S21：利用原声搜索引擎和哼唱搜索引擎，获得与音频数据相匹配的音乐搜索结果，及对应音乐搜索结果的匹配度得分。

步骤S22：判断对应音乐搜索结果的最高匹配度得分是否高于或者等于设定阈值，如是，则将匹配度得分最高的音乐搜索结果作为最优音乐搜索结果；如否，则执行步骤S23。

在匹配度得分高于或者等于设定阈值时，无论是原声搜索结果还是哼唱搜索结果，其准确度均是相对较高的，因此，可直接将匹配度得分最高的音乐搜索结果作为最优音乐搜索结果。该设定阈值通常大于或者等于50分(百分制)。

步骤S23：判断音乐搜索结果中是否存在由原声搜索引擎输出的原声搜索结果，如存在，则将匹配度得分最高的原声搜索结果作为最优音乐搜索结果，如不存在，则将匹配度得分最高的音乐搜索结果作为最优搜索结果。

由于原声搜索引擎根据原声音乐片段获得的原声搜索结果的准确度通常要高于哼唱搜索引擎根据原声音乐片段和哼唱音乐片段获得的哼唱搜索结果，因此，在最高匹配度得分低于该设定阈值的情况下，可优先将匹配度得分最高的原声搜索结果作为最优搜索结果，特别是在限定原声搜索引擎仅输出匹配度得分高于或者等于最低阈值(在百分制下例如为20分至30分)的搜索结果的情况下，如果没有原声搜索结果则再将匹配度得分最高的哼唱搜索结果作为最优搜索结果。

另外，在音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎的实施例中，还可以简单地以匹配度得分最高的音乐搜索结果作为最优搜索结果。

为了提高根据音频数据获取搜索结构的准确性，本发明方法还可进一步在将音频数据输入至音乐搜索引擎与语音识别系统之前，对音频数据进行降噪处理。

与上述多模式音乐搜索方法相对应，如图3所示，本发明的多模式音乐搜索系统包括录音模块1、音乐搜索模块2、语音转写模块3、语义搜索模块4和比较输出模块5，该录音模块1用于录制用户输入的音频数据；该音乐搜索模块2用于利用音乐搜索引擎获得与所述音频数据相匹配的最优音乐搜索结果，及对应所述最优音乐搜索结果的匹配度得分；该语音转写模块3用于利用语音识别系统获得所述音频数据的语音识别结果；该语义搜索模块4用于利用语义搜索引擎获得与所述语音识别结果相匹配的最优语义搜索结果，及对应所述最优语义搜索结果的匹配度得分；该比较输出模块5用于判断对应最优音乐搜索结果的匹配度得分是否高于或者等于对应所述最优语义搜索结果的匹配度得分，如是，则输出对应所述最优音乐搜索结果的音乐信息，如否，则输出对应所述最优语义搜索结果的音乐信息。

进一步地，上述音乐搜索引擎可包括原声搜索引擎及/或哼唱搜索引擎。

在音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎的实施例中，上述音乐搜索模块2可进一步包括音乐搜索单元和结果选定单元(图中未示出)，该音乐搜索单元用于利用所述原声搜索引擎和所述哼唱搜索引擎，获得与所述音频数据相匹配的音乐搜索结果，及对应音乐搜索结果的匹配度得分；该结果选定单元用于判断对应音乐搜索结果的最高匹配度得分是否高于或者等于设定阈值，如是，则将匹配度得分最高的音乐搜索结果作为所述最优音乐搜索结果；如否，则：判断所述音乐搜索结果中是否存在由所述原声搜索引擎输出的原声搜索结果，如存在，则将匹配度得分最高的原声搜索结果作为所述最优音乐搜索结果，如不存在，则将匹配度得分最高的音乐搜索结果作为所述最优搜索结果。

上述语义搜索模块4可进一步用于利用语义搜索引擎获得与所述语音识别结果相匹配的语义搜索结果，及对应语义搜索结果的匹配度得分，并选取匹配度得分最高的语义搜索结果作为所述最优语义搜索结果。

本发明的系统可进一步包括降噪模块(图中未示出)，该降噪模块分别与录音模块1、音乐搜索模块2和语音转写模块3连接，用于对录音模块1录制的音频数据进行降噪处理，并将降噪处理后的音频数据传送给音乐搜索模块2和语音转写模块3。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，以上所述仅为本发明的较佳实施例，但本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种多模式音乐搜索方法，其特征在于，包括：

录制用户输入的音频数据；

利用语音识别系统获得所述音频数据的语音识别结果；

2.根据权利要求1所述的方法，其特征在于，所述音乐搜索引擎包括原声搜索引擎及/或哼唱搜索引擎。

3.根据权利要求1所述的方法，其特征在于，所述音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎；所述利用音乐搜索引擎获得与所述音频数据相匹配的最优音乐搜索结果包括：

4.根据权利要求1所述的方法，其特征在于，所述利用语义搜索引擎获得与所述语音识别结果相匹配的最优语义搜索结果包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种多模式音乐搜索系统，其特征在于，包括：

录音模块，用于录制用户输入的音频数据；

7.根据权利要求6所述的系统，其特征在于，所述音乐搜索引擎包括原声搜索引擎及/或哼唱搜索引擎。

8.根据权利要求6所述的系统，其特征在于，所述音乐搜索引擎包括原声搜索引擎和哼唱搜索引擎；所述音乐搜索模块包括：

9.根据权利要求6所述的系统，其特征在于，所述语义搜索模块具体用于利用语义搜索引擎获得与所述语音识别结果相匹配的语义搜索结果，及对应语义搜索结果的匹配度得分，并选取匹配度得分最高的语义搜索结果作为所述最优语义搜索结果。

10.根据权利要求6至9中任一项所述的系统，其特征在于，所述系统还包括：