CN109189975A

CN109189975A - 一种音乐播放方法、装置、计算机设备及可读存储介质

Info

Publication number: CN109189975A
Application number: CN201811036541.4A
Authority: CN
Inventors: 侯玲霞
Original assignee: Shenzhen Sanbao Innovation And Intelligence Co Ltd
Current assignee: Shenzhen Sanbao Innovation And Intelligence Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-01-11
Anticipated expiration: 2038-09-06
Also published as: CN109189975B

Abstract

本发明适用于计算机领域，提供了一种音乐播放方法，所述方法包括：判断接收的音频信息是否为语音信号；当判断所述音频信息为语音信号时，提取所述语音信号中的关键词信息，获取与所述关键词匹配的歌曲，并进行播放；当判断所述音频信息不是语音信号时，提取所述音频信息的音频指纹信息，获取与所述音频指纹匹配的歌曲，并进行播放。本发明通过将时域音频信息转化为频域音频信息，并根据音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信息，并相应的通过关键词或者音频指纹技术匹配相应的歌曲，实现了用户既能通过歌手、歌曲名搜索相应的歌曲，还能够在忘记歌手、歌曲名的情况下，通过哼唱旋律来搜索相应的歌曲，此外，本发明还支持通过风格、语种能关键词搜索相应的歌曲。

Description

一种音乐播放方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及计算机领域，特别是涉及一种音乐播放方法、装置、计算机设备及可读存储介质。

背景技术

音乐是一门赏心悦目的艺术，人们的日常生活中，也离不开音乐，从最初的演唱厅到CD唱机，从收音机到现在的MP3，智能手机，音乐也越来越大众化。

当前，用户对音乐播放的功能需求越来越多，从仅仅支持点击相应的歌曲进行播放，到支持说出相应的歌曲名字自动搜索并播放再到支持说出歌手或者专辑的名字自动搜索相关歌曲并播放，音乐播放的功能也越来越强大。

然而，现有技术中，如果用户只记得一首歌曲中的部分旋律，而不记得该歌曲的名字、歌手或者专辑时，往往用户无法点播到相应的歌曲。可见现有技术中，存在着用户在忘记歌曲的歌手、曲名信息时，无法搜索相应的歌曲的技术缺陷。

发明内容

本发明实施例提供一种音乐播放方法，旨在解决现有技术中用户在忘记歌曲的歌手、曲名信息的情况下，无法搜索到相应的歌曲的技术缺陷，提供了一种还能够通过哼唱歌曲旋律搜索相关歌曲的音乐播放方法。

本发明实施例提供一种音乐播放方法，所述方法包括以下步骤：

当检测到用户的音频信息时，根据所述音频信息中的音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信号；

当判断所述音频信息为语音信号时，提取所述语音信号中的关键词信息，获取与所述关键词匹配的歌曲，并进行播放；

当判断所述音频信息不是语音信号时，提取所述音频信息的音频指纹信息，获取与所述音频指纹匹配的歌曲，并进行播放。

本发明实施例还提供一种音乐播放装置，所述装置包括：

音频信息判断单元，用于当检测到用户的音频信息时，根据所述音频信息中的音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信号；

语音信号处理播放单元，用于当判断所述音频信息为语音信号时，提取所述语音信号中的关键词信息，获取与所述关键词匹配的歌曲，并进行播放；以及

非语音信号处理播放单元，用于当判断所述音频信息不是语音信号时，提取所述音频信息的音频指纹信息，获取与所述音频指纹匹配的歌曲，并进行播放。

本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述音乐播放方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述音乐播放方法的步骤。

本发明实施例提供的音乐播放的方法，能够利用接收到的音频信息中的音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信息，并根据判断的结果自动通过关键词或者音频指纹相应的进行歌曲搜索、匹配，实现了用户在记得歌曲歌手、曲名的情况下能够通过歌手、曲名等关键词进行搜索，在忘记歌曲歌手、曲名的情况下仍能够通过哼唱的旋律进行匹配搜索，满足了不同情况下用户的需求，此外，本发明还支持歌曲的语种、风格进行相关的搜索。

附图说明

图1为本发明实施例提供的一种音乐播放方法的整体流程图；

图2为本发明实施例提供的判断音频信息是否为语音信号的流程图；

图3为本发明实施例提供的提取语音信号中的关键词信息的流程图；

图4为本发明实施例提供的一种音乐播放装置的整体结构图；

图5为本发明实施例提供的一种音频信号判断单元的结构图；

图6为本发明实施例提供的一种语音信号处理单元的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，音乐播放方法可以应用于终端中；计算机设备，计算机设备可以是独立的物理服务器或终端，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、机器人等，但并不局限于此。

图1示出了本发明实施例提供的一种音乐播放方法的整体流程图，详述如下。

步骤S101，判断是否检测到用户的音频信息。

在本发明实施例中，当判断检测到用户的音频信息时，执行步骤S102。

步骤S102，当检测到用户的音频信息时，根据所述音频信息中的音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信号。

在本发明的一个实施例中，所述音调分布特征信息以及时域特征参数是用于辨别语音信号以及其他音频信号的主要区别点之一，进一步的，所述其他音频信号一般指音乐信号。

在本发明的一个实施例中，当判断所述音频信号是语音信号时，执行步骤S103；当判断所述音频信号不是语音信号时，执行步骤S104。

步骤S103，提取所述语音信号中的关键词信息，获取与所述关键词匹配的歌曲，并进行播放。

在本发明的一个实施例中，所述关键词信息可以是歌手、曲名、专辑，还可以是语种、风格等，也可以是上述关键词的任意组合，比如想听某一首歌曲的原唱或者翻唱版本时，所述关键词同时包括曲名以及演唱的歌手。

在本发明的一个实施例中，所述获取与所述歌手、曲名、专辑、语种等关键词匹配的歌曲的方法可以直接依赖于现有的歌曲索引库。

作为本发明的又一个实施例，所述获取与所述风格等关键词匹配的歌曲的方法依赖于通过隐马尔科夫链分类而建立的歌曲风格索引库。

步骤S104，提取所述音频信息的音频指纹信息，获取与所述音频指纹匹配的歌曲，并进行播放。

在本发明的一个实施例中，所述音频指纹是通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来的用于特征表示所述音频的标识信息。

在本发明的一个实施例中，所述获取与所述音频指纹匹配的歌曲需要将所述音频指纹以及对应的音频指纹数据库进行对比。

图2示出了本发明实施例提供的判断音频信息是否为语音信号的流程图，详述如下。

步骤S201，对所述音频信息进行分帧加窗生成加窗信号。

步骤S202，对所述加窗信号进行快速傅里叶变换生成频域信息，并计算其频谱系数。

在本发明实施例中，加窗后进行快速傅里叶变换是将时域音频信号处理为频域音频信号的一种常见的技术手段。

在本发明实施例中，音调分布特征信息以及频域特征参数均为频域音频信号的特征信息。

步骤S203，将所述频域分为四个子带，所述四个子带依次记为SB0[0，N/16]，SB1[N/16，N/8]，SB2[N/8，N/4]，SB3[N/4，N/2]。

在本发明实施例中，由于经过快速傅里叶变换处理得到的频域音频信号具有对称性，因此，只需要使用前N/2的频谱信息，所述N为帧长。

步骤S204，当所述频谱系数X_(k)满足X_(k-1)＜X_(k)＜X_(k+1)，且X_(k)-X_(k+j)≥7dB时，将所述频谱系数记为一个音调。

在本发明实施例中，所述j为随子带变化的参数，进一步的，有

步骤S205，计算各子带中的音调个数以及频域的总音调个数，并计算子带SB0的音调个数占所述频域的总音调个数的比例R0以及子带SB2的音调个数占所述频域的总音调个数的比例R2。

在本发明实施例中，由于语音信号以及非语音信号(主要是音乐信号)之间的主要区别点在于两种信号中子带SB0以及子带SB2的音调个数占所述频域的总音调个数的比例存在明显不同，因此可以通过计算SB0的音调个数占所述频域的总音调个数的比例以及子带SB2的音调个数占所述频域的总音调个数的比例来区分语音信号以及非语音信号。

在本发明实施例中，所述子带SB0的音调个数占所述频域的总音调个数的比例以及子带SB2的音调个数占所述频域的总音调个数的比例即为音调分布特征信息。

步骤S206，计算频域倾斜度ST。

本发明实施例中，所述频域倾斜度即为频域特征参数之一。

在本发明实施例中，对于某些敲打式的非语音信号，其SB0的音调个数占所述频域的总音调个数的比例以及子带SB2的音调个数占所述频域的总音调个数的比例与正常的语音信号相似，不易区分，但是其频域倾斜度ST与正常语音信号存在明显差异。

在本发明实施例中，通过音调分布特征信息以及频域特征参数协同判断所述音频信息是否为语音信号能够具有更准确的分辨率。

步骤S207，判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995是否同时成立。

在本发明实施例中，所述R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995即为正常语音信号所具有的音调分布特征信息以及频域特征参数。

在本发明的实施例中，当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995同时成立时，执行步骤S208；当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995没有同时成立时，执行步骤S209。

步骤S208，确认所述音频信号是语音信号。

步骤S209，确认所述音频信号不是语音信号。

本发明实施例提供了一种通过音调分布特征信息以及频域特征参数区别语音信号以及非语音信号的方法，能够准确有效地辨认出接收到的音频信息是否为语音信号。

图3示出了本发明实施例提供的提取语音信号中的关键词信息的流程图，详述如下。

步骤S301，提取所述语音信号中的语音信息。

在本发明实施例中，将所述语音信号进行除噪处理即得语音信息。

步骤S302，将所述语音信息转化为文本。

步骤S303，对所述文本利用正则表达式提取关键词信息。

在本发明实施例中，对文本的语句与预设的正则表达式对比，即可得到关键词信息。

在本发明实施例中，所述的正则表达式是用于检索符合某个模式的文本，需要预设对应语句的正则表达式，以下述为例。

比如预设有“我想听***”、“我想听***的歌曲”以及“我想听***的***歌曲”三种文本模式，当判断得到的文本信息为“我想听A”时，则确认关键词为歌曲名，歌曲名为A，当判断得到的文本信息为“我想听B的歌曲”时，则确认关键词为歌手、专辑、语种、风格等，歌手、专辑、语种、风格为B，当判断得到的文本信息为“我想听C的D歌曲”时，则确认关键词为歌曲名以及歌手、专辑、语种、风格等，其中，歌手、专辑、语种、风格为C，歌曲名为D。

上述实施例仅作为一种可行的实施例举例说明，并不能用于限制此发明。

图4示出了本发明实施例提供的一种音乐播放装置的整体结构图，详述如下。

所述音乐播放装置包括音频信息判断单元、语音信号处理播放单元以及非语音信号处理播放单元。

音频信息判断单元401，用于当检测到用户的音频信息时，根据所述音频信息中的音调分布特征信息以及时域特征参数判断所述音频信息是否为语音信号。

在本发明的一个实施例中，当判断所述音频信号是语音信号时，向单元402发送所述音频信号；当判断所述音频信号不是语音信号时，向单元403发送所述音频信号。

语音信号处理播放单元402，用于当判断所述音频信息为语音信号时，提取所述语音信号中的关键词信息，获取与所述关键词匹配的歌曲，并进行播放。

非语音信号处理播放单元403，用于当判断所述音频信息不是语音信号时，提取所述音频信息的音频指纹信息，获取与所述音频指纹匹配的歌曲，并进行播放。

在本发明的一个实施例中，所述获取与所述音频指纹匹配的歌曲需要将所述音频指纹以及对应的音频指纹数据库进行对比

图5为本发明实施例提供的一种音频信号判断单元的结构图，为了便于说明，仅示出了于本发明实施例相关的部分。

所述音频信号判断单元包括：

加窗模块501，用于对所述音频信息进行分帧加窗生成加窗信号。

快速傅里叶变换模块502，用于对所述加窗信号进行快速傅里叶变换生成频域信息，并计算其频谱系数。

分频模块503，用于将所述频域分为四个子带，所述四个子带依次为SB0[0，N/16]，SB1[N/16，N/8]，SB2[N/8，N/4]，SB3[N/4，N/2]。

音调判断模块504，用于当所述频谱系数X_(k)满足X_(k-1)＜X_(k)＜X_(k+1)，且X_(k)-X_(k+j)≥7dB时，将所述频谱系数记为一个音调，其中所述j为随子带变化的参数。

音调分布特征信息计算模块505，用于计算各子带中的音调个数以及频域的总音调个数，并计算子带SB0的音调个数占所述频域的总音调个数的比例R0以及子带SB2的音调个数占所述频域的总音调个数的比例R2。

时域特征参数计算模块506，用于计算频域倾斜度ST。

本发明实施例中，所述频域倾斜度即为频域特征参数之一。

语音信号判断模块507，用于判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995是否同时成立。

在本发明的实施例中，当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995同时成立时，单元508启动；当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995没有同时成立时，单元509启动。

语音信号确定模块508，确认所述音频信号是语音信号。

非语音信号确定模块509，确认所述音频信号不是语音信号。

图6为本发明实施例提供的一种语音信号处理单元的结构图，为便于说明，仅示出了于本发明实施例相关的部分。

所述语音信号处理单元包括语音信息提取模块、文本信息转化模块以及关键词信息提取模块。

语音信息提取模块601，用于提取所述语音信号中的语音信息。

文本信息转化模块602，用于将所述语音信息转化为文本。

关键词信息提取模块603，用于对所述文本利用正则表达式提取关键词信息。

本发明实施例提供一种计算机装置，该计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述图1至图3所示出的实施例所提供的音乐播放方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的音乐播放方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音乐播放方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频信息中的音调分布特征信息以及频域特征参数判断所述音频信息是否为语音信号的步骤具体包括：

对所述音频信息进行分帧加窗生成加窗信号；

对所述加窗信号进行快速傅里叶变换生成频域信息，并计算其频谱系数；

将所述频域分为四个子带，所述四个子带依次记为SB0[0，N/16]，SB1[N/16，N/8]，SB2[N/8，N/4]，SB3[N/4，N/2]；

当所述频谱系数X_(k)满足X_(k-1)＜X_(k)＜X_(k+1)，且X_(k)-X_(k+j)≥7dB时，将所述频谱系数记为一个音调，其中所述j为随子带变化的参数；

计算各子带中的音调个数以及频域的总音调个数，并计算子带SB0的音调个数占所述频域的总音调个数的比例R0以及子带SB2的音调个数占所述频域的总音调个数的比例R2；

计算频域倾斜度ST；

判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995是否同时成立；

当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995同时成立时，确认所述音频信号是语音信号；

当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995没有同时成立时，确认所述音频信号不是语音信号。

3.根据权利要求2所述的方法，其特征在于，所述参数j与子带的关系具体如下：

。

4.根据权利要求1所述的方法，其特征在于，所述提取所述语音信号中的关键词信息的步骤，具体包括：

提取所述语音信号中的语音信息；

将所述语音信息转化为文本；

对所述文本利用正则表达式提取关键词信息。

5.根据权利要求1所述的方法，其特征在于，所述关键词信息包括曲名、歌手、专辑、风格、语种的一个或者任意组合。

6.一种音乐播放装置，其特征在于，所述音乐播放装置包括：

7.根据权利要求5所述的装置，其特征在于，所述音频信号判断单元包括：

加窗模块，用于对所述音频信息进行分帧加窗生成加窗信号；

快速傅里叶变换模块，用于对所述加窗信号进行快速傅里叶变换生成频域信息，并计算其频谱系数；

分频模块，用于将所述频域分为四个子带，所述四个子带依次为SB0[0，N/16]，SB1[N/16，N/8]，SB2[N/8，N/4]，SB3[N/4，N/2]；

音调判断模块，用于当所述频谱系数X_(k)满足X_(k-1)＜X_(k)＜X_(k+1)，且X_(k)-X_(k+j)≥7dB时，将所述频谱系数记为一个音调，其中所述j为随子带变化的参数；

音调分布特征信息计算模块，用于计算各子带中的音调个数以及频域的总音调个数，并计算子带SB0的音调个数占所述频域的总音调个数的比例R0以及子带SB2的音调个数占所述频域的总音调个数的比例R2；

时域特征参数计算模块，用于计算频域倾斜度ST；

语音信号判断模块，用于判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995是否同时成立；

语音信号确定模块，用于当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995同时成立时，确认所述音频信号是语音信号；以及

非语音信号确定模块，用于当判断R0＞0.62，R2＜0.08，ST＞0.65，ST＜0.995没有同时成立时，确认所述音频信号不是语音信号。

8.根据权利要求5所述的装置，其特征在于，所述语音信号处理单元包括：

语音信息提取模块，用于提取所述语音信号中的语音信息；

文本信息转化模块，用于将所述语音信息转化为文本；以及

关键词信息提取模块，用于对所述文本利用正则表达式提取关键词信息。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至4中任一项权利要求所述音乐播放方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至4中任一项权利要求所述音乐播放方法的步骤。