CN107833581A

CN107833581A - 一种提取声音的基音频率的方法、装置及可读存储介质

Info

Publication number: CN107833581A
Application number: CN201710989739.3A
Authority: CN
Inventors: 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2018-03-23
Anticipated expiration: 2037-10-20
Also published as: CN107833581B

Abstract

本发明公开了一种提取声音的基音频率方法、装置及可读存储介质。本发明首先获取待检测声音信号，通过短时傅里叶变换将待检测声音信号从时域转化到频域；然后从所述频域中确定待检测声音信号的频带范围，根据所述频带范围确定所述待检测声音信号的最大谐波次数；再对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a；最后根据所述频点a和所述最大谐波次数判断是否存在极大值点的待测频点，若存在，则该待测频点可能是所述待检测声音信号的基音频率或者是基音频率的谐波分量，最后从所述待检测声音信号中提取基音频率。本发明所提供的提取声音的基音频率方法能够用较低的算法复杂度实现较高的准确率。

Description

一种提取声音的基音频率的方法、装置及可读存储介质

技术领域

本发明涉及音频信号技术领域，尤其涉及一种提取声音的基音频率方法、装置及可读存储介质。

背景技术

基音频率简称基频，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，所有的自然声音基本都是有许多频率不同的正弦波组成的，其中频率最低的正弦波即为基音，而其他的频率较高的正弦波则为谐波。比如基音频率是可以反映人声音高的基本特征，一般判断一个人唱歌音准是否正确，需要提取人声的基音频率得到音高来进行判断。

目前基音频率检测的方法有时域自相关法、频域倒谱计算法、频域离散小波变换法等等，但是这些检测基音频率的方法要么算法比较复杂，要么存在检测的准确率不高等缺点。本发明的基频检测方法用较低的算法复杂度，实现了较高的准确率。

发明内容

本发明的主要目的在于提供了一种提取声音的基音频率方法、装置，及可读存储介质，旨在解决目前基音频率检测方法算法复杂度较高及检测精度较低的问题。

为实现上述目的，本发明提供了一种提取声音的基音频率方法，所述方法包括以下步骤:

获取待检测声音信号，通过短时傅里叶变换将所述待检测声音信号从时域转化到频域；

从所述频域中确定待检测声音信号的频带范围，根据所述频带范围确定所述待检测声音信号的最大谐波次数；

对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a；

根据所述频点a和所述最大谐波次数从所述待检测声音信号中提取基音频率。

优选地，所述根据所述频点a和所述最大谐波次数从所述待检测声音信号中提取基音频率，具体包括：

将变量n设置为所述最大谐波次数；

根据所述变量n计算与所述频点a对应的待测频点；

判断各待测频点是否满足第一预设条件；

当各待测频点不满足所述第一预设条件时，将所述变量n进行自减1，并返回所述根据所述变量n计算与所述频点a对应的待测频点的步骤，直至各待测频点满足所述第一预设条件时，将所述频点a与所述变量n的商作为所述待检测声音信号的基音频率。

优选地，所述根据变量n计算与所述频点a对应的待测频点，具体包括：

将变量m设置为1；

根据公式(1)计算与所述频点a对应的待测频点f；

将所述变量m自增1，并重新根据所述公式(1)计算与所述频点a对应的待测频点，直至m＝n-1时，将计算的各待测频点作为所述频点a对应的待测频点；

其中，所述公式(1)为

优选地，所述根据变量n计算与所述频点a对应的待测频点之后，所述方法还包括：

对所述待测频点进行四舍五入取整。

优选地，所述将所述变量n进行自减1之后，所述方法还包括：

在所述变量n为2、且各待测频点不满足所述第一预设条件时，将所述频点a的绝对频率值作为所述待检测声音信号的基音频率。

优选地，所述判断各待测频点是否满足第一预设条件，具体包括：

将各待测频点的绝对频率值进行比较，当比较结果满足第一预设状态时，获取与各待测频点对应的频域能量；

判断各待测频点对应的频域能量是否为极大值点；

在各待测频点对应的频域能量为极大值点时，从各待测频点中选取绝对频率值最小的频点f_min；

判断与所述频点f_min对应的频域能量是否大于预设能量阈值，若是，则判定各待测频点满足所述第一预设条件，若否，则判定各待测频点不满足所述第一预设条件。

优选地，所述第一预设状态为：

各待测频点的绝对频率值随m的递增呈递增状态，其中，各待测频点的绝对频率值分别小于所述频点a的绝对频率值，且各待测频点的绝对频率值均大于1。

此外，为实现上述目的，本发明还提出一种提取声音的基音频率的装置，所述装置包括：声音传感器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提取声音的基音频率程序，所述声音传感器用于获取待检测声音信号，所述提取声音的基音频率程序配置为实现如上文所述提取声音的基音频率方法的步骤。

此外，为实现上述目的，本发明还提出一种可读存储介质，所述可读存储介质上存储有提取声音的基音频率程序，所述提取声音的基音频率程序被处理器执行时实现如上文所述提取声音的基音频率方法的步骤。

本发明首先通过获取待检测声音信号，通过短时傅里叶变换将所述待检测声音信号从时域转化到频域；然后从所述频域中确定待检测声音信号的频带范围，根据所述频带范围确定所述待检测声音信号的最大谐波次数；再对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a；最后根据所述频点a和所述最大谐波次数从所述待检测声音信号中提取基音频率，进而达到了用较低的算法复杂度实现了较高基音频率提取的准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置的结构示意图；

图2为本发明一种提取声音的基音频率方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的装置结构示意图。

如图1所示，该装置可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，声音传感器1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。声音传感器1004用于获取待检测声音信号。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的装置结构并不构成对本发明所述的装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、声音信号获取模块、用户接口模块以及提取声音的基音频率程序。

本发明所述装置通过处理器1001调用存储器1005中存储的提取声音的基音频率程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的提取声音的基音频率程序，还执行以下操作：

将变量n设置为所述最大谐波次数；

根据所述变量n计算与所述频点a对应的待测频点；

判断各待测频点是否满足第一预设条件；

当各待测频点不满足第一预设条件时，将所述变量n进行自减1，并返回所述根据所述变量n计算与所述频点a对应的待测频点的步骤，直至各待测频点满足第一预设条件时，将所述频点a与所述变量n的商作为所述待检测声音信号的基音频率。

将变量m设置为1；

根据公式(1)计算与所述频点a对应的待测频点f；

其中，所述公式(1)为

对所述待测频点进行四舍五入取整。

在所述变量n为＝2、且各待测频点不满足第一预设条件时，将所述频点a与的绝对频率值作为所述待检测声音信号的基音频率。

判断各待测频点的频域能量是否为极大值点；

判断与所述频点f_min对应的频域能量是否大于预设能量阈值，若是，则判定各待测频点满足第一预设条件，若否，则判定各待测频点不满足第一预设条件。

本实施例首先通过获取待检测声音信号，通过短时傅里叶变换将所述待检测声音信号从时域转化到频域；然后从所述频域中确定待检测声音信号的频带范围，根据所述频带范围确定所述待检测声音信号的最大谐波次数；再对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a；最后根据所述频点a和所述最大谐波次数判断是否存在极大值点的待测频点，若存在，则该待测频点可能是所述待检测声音信号的基音频率或者是基音频率的谐波分量，最后从所述待检测声音信号中提取基音频率，本实施例所提供的提取声音的基音频率方法能够用较低的算法复杂度实现较高的准确率。

基于上述硬件结构，提出本发明一种提取声音的基音频率方法实施例。

参照图2，图2为本发明一种提取声音的基音频率方法第一实施例的流程示意图。

本实施例中，所述方法包括以下步骤：

步骤S10：获取待检测声音信号，通过短时傅里叶变换将所述待检测声音信号从时域转化到频域；

需要说明的是，本实施例以上述装置的处理器作为执行主体进行说明；

在具体实现中，本实施例中上述待检测声音信号为以512为步进取1024个点的数字音频信号为例进行说明，即首先将获取到的人的声信号通过1024点的短时傅里叶变换，可以得到512个点的有效频率值，每个点的索引对应着一个频率值。人声频段一般为80-1200Hz，例如当音频信号的采样率为44100Hz，那么对应频点索引范围为2-27。在本实施例中，优选为通过短时傅里叶变换将所述待检测声音信号从时域转化到频域，这样使得待检测声音信号的每帧信号比较稳定。

步骤S20：从所述频域中确定待检测声音信号的频带范围，根据所述频带范围确定所述待检测声音信号的最大谐波次数；

可理解的是，确定所述待检测声音信号的频带范围(即频段)，根据所述频带范围确定所述待检测声音信号的最大谐波次数；比如人声频段一般为80-1200HZ，根据音频信号的采样率确定与所述频段对应的索引范围，根据所述索引范围能够确定该声音信号的谐波最大允许值(即最大谐波次数)。由于在人声索引范围内一般最多只会有4次谐波，即本实施例中最大谐波次数是4。

步骤S30：对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a；

在具体实现中，在上述人声索引范围内找到能量最大值对应的频点a，则该频点至少是基频或基频的其中一个谐波分量。可理解的是，所有的自然声音基本都是有许多频率不同的正弦波组成的，其中频率最低的正弦波即为基音，而其他的频率较高的正弦波则为谐波；对所述频带范围内的各频点分别进行能量强度检测，根据强度检测结果确定能量强度最大的频点a，可缩小到一个比较接近最终提取基音真实值的查找范围，即该频点至少是基频或基频的其中一个谐波分量。

步骤S40：根据所述频点a和所述最大谐波次数从所述待检测声音信号中提取基音频率。

可理解的是，在所述待检测声音频段区域找到最大能量值对应的频点a，假设频点a是基因频率的n次谐波分量(即先假设频点a是基音频率的4次谐波分量，n＝4)，然后找在该频点a的n分之1、n分之2、…、n分之(n-1)这段区域是否存在极大值点(即波形的波峰或波谷)并满足第一预设条件，需要说明的是，这里我们把该频点a的n分之1、该频点a的n分之2以及该频点a的n分之(n-1)统称为所述频点a的待测频点；若存在，则当所述待测频点为所述频点a的n分之1的频点时，该待测频点是真正的基频(即基音频率)，该频点a是基频的n次谐波；否则，再假所述该频点a是基频的n-1次谐波，同理再进行判断是否可以找出基音点，若直至n为2，仍未找出基频点，则判定该频点a即为真正的基音频率。

在具体实现中，本实施例优选采用双循环的计算方式从所述待检测声音信号中提取基音频率。变量为n的循环是外循环计算方式。及所述步骤S40可分为三个子步骤

步骤一：将变量n设置为所述最大谐波次数；

步骤二：根据所述变量n计算与所述频点a对应的待测频点，判断各待测频点是否满足第一预设条件；

在具体实现中，假设所述频点a是基音频率的n次谐波分量，其中n为变量，将变量n的循环初始值设置为所述最大谐波次数；在人声索引范围内一般最多只会有4次谐波，即本实施例中最大谐波次数是4，先假设频点a是基音频率的4次谐波分量。

需要说明的是，所述判断各待测频点是否满足第一预设条件是以m为变量值的一个内循环方法。

在具体实现中，先假设频点a是基音频率的4次谐波分量(因为本实施例中最大谐波次数是4)，则m的取值为m＝1、m＝2和m＝3；然后找出频点a对应的待测频点anm，其中当m＝1、n＝4时，待测频点anm表示为a41；当m＝2、n＝4时，待测频点anm表示为a42；当m＝3、n＝4时，待测频点anm表示为a43；根据下列公式(1)计算待测频点的绝对频率值f：

优选地，为了是测量结果更加精确，所述公式(1)进一步用公式(2)进行优化；所述公式(2)为：

其中为对进行四舍五入取整，本实施例中n＝4，则m取值依次为m＝1、m＝2和m＝3。

根据公式(2)计算获得的待测频点分别为a41＝round(a/4)、a42＝round(2*a/4)、a42＝round(3*a/4)，将各待测频点的绝对频率值进行比较，当比较结果满足第一预设状态时(所述第一预设状态为所述频点a的多个待测频点的绝对频率值随m的递增呈递增状态，其中，各待测频点的绝对频率值分别小于所述频点a的绝对频率值，且各待测频点的绝对频率值均大于1)，获取与各待测频点对应的频域能量s(a41)、s(a42)、s(a43)；也就是说，此时比较结果需满足a>a43>a42>a41，且a41>1，a42>1，a43>1(基频点需处于人声频段区域)。然后判断a41、a42、a43是否都是极大值点，即判断它们对应的频域能量s(a41)、s(a42)、s(a43)是否满足以下模型：

若频域能量s(a41)、s(a42)和s(a43)满足上述模型，则证明a41、a42、a43都是极大值点，进而可以预测所述频点a有可能是基频的一个谐波；从各待测频点中选取绝对频率值最小的频点f_min＝a41，然后判断与所述频点a41对应的频域能量s(a41)是否大于预设能量阈值，如此可以去除杂乱噪声的干扰，若s(a41)大于预设能量阈值，则可以确定所述待测频点a41就是基频点。

子步骤三：当各待测频点不满足第一预设条件时，将所述变量n进行自减1，并返回所述根据所述变量n计算与所述频点a对应的待测频点的步骤，直至各待测频点满足第一预设条件时，将所述频点a与所述n的商作为所述待检测声音信号的真实基音频率。

可理解的是，上述子步骤三中，若判断出s(a41)小于预设能量阈值，则进行外循环(变量为n)的步骤，即继续假设a是3次谐波(n＝3)，同理再判断是否可以找出真实基频点。若直至假设a是2次谐波时(n＝2)，仍未找出基频点，则直接判定a就是真实的基频点。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台装置(可以是手机，，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种提取声音的基音频率的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述频点a和所述最大谐波次数从所述待检测声音信号中提取基音频率，具体包括：

将变量n设置为所述最大谐波次数；

根据所述变量n计算与所述频点a对应的待测频点；

判断各待测频点是否满足第一预设条件；

3.如权利要求2所述的方法，其特征在于，所述根据变量n计算与所述频点a对应的待测频点，具体包括：

将变量m设置为1；

根据公式(1)计算与所述频点a对应的待测频点f；

其中，所述公式(1)为

4.如权利要求3所述的方法，其特征在于，所述根据变量n计算与所述频点a对应的待测频点之后，所述方法还包括：

对所述待测频点进行四舍五入取整。

5.如权利要求2所述的方法，其特征在于，所述将所述变量n进行自减1之后，所述方法还包括：

6.如权利要求1-5任一项所述的方法，其特征在于，所述判断各待测频点是否满足第一预设条件，具体包括：

判断各待测频点对应的频域能量是否为极大值点；

7.如权利要求5所述的方法，其特征在于，所述第一预设状态为：

8.一种提取声音的基音频率的装置，其特征在于，所述装置包括：声音传感器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的提取声音的基音频率的程序，所述声音传感器用于获取待检测声音信号，所述提取声音的基音频率的程序配置为实现如权利要求1至8中任一项所述的提取声音的基音频率的方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有基于提取声音的基音频率程序，所述提取声音的基音频率程序被处理器执行时实现如权利要求1至8中任一项所述的提取声音的基音频率方法的步骤。