CN110379438A

CN110379438A - 一种语音信号基频检测与提取方法及系统

Info

Publication number: CN110379438A
Application number: CN201910670840.1A
Authority: CN
Inventors: 章森; 郝秋赟; 吴晓明
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-25
Anticipated expiration: 2039-07-24
Also published as: CN110379438B

Abstract

本发明公开了一种数字语音信号基频检测与提取方法及系统，所述方法包括：获取一帧待检测的语音序列数据；基于短时傅里叶变换将所述语音信号数据从时域转化到频域，得到频谱序列；将所述频域划分为两个频带范围；分别提取所述两个频带范围中的峰值点，以及所述频域中的最大值点；根据所述峰值点和最大值点对基频进行粗估计；根据频域与时域的对应关系，计算基频的粗估计在时域语音序列中对应的下标；基于所述下标所对应的频率，对基频进行精确估计。本发明能够解决现有的语音信号基频检测与提取方法中存在的稳定性、精准性和实时性不能兼顾的问题。

Description

一种语音信号基频检测与提取方法及系统

技术领域

本发明涉及数字语音信号处理领域，尤其涉及一种语音信号基频检测与提取方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

从言语的发音模型看，基音周期是声带每开启和关闭一次的时长，基音频率(简称基频,用F0或f0表示)则是基音周期的倒数。基音频率是语音信号的最重要的特征参数之一，在旋律辨识、声调辨识、语音合成和语音编码等研究领域起着非常关键的作用。然而，基频与语音信号本身一样，也是复杂多变的，不同的人发出的语音基频可能不同，同一个人说不同的字词时基频可能不同，同一个人在不同的时间说相同的字词时基频也可能不同。通常，基频与发音人声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上代表了个人的特征。此外，基频还随着人的性别、年龄不同而有所不同。一般来说，男性说话者的基音频率较低，而女性说话者和小孩的基音频率相对较高。可见，基频是随发音人、发音内容、发音时间等因素动态变化的。在汉语语音中，基频的变化主要表现在声调的变化，声调具有辅助辨义的作用。另外，汉语中存在着多音字现象，同一个字在不同的语境下具有不同的声调。因此准确可靠地进行基频检测对汉语语音信号的处理显得尤为重要。

目前基音频率检测的方法有时域自相关法、频域倒谱计算法、频域离散小波变换法、基于统计与模式识别的方法、基于神经网络和机器学习的方法等。时域的基频检测方法会因为噪声太多、复音、泛音等因素，导致判断错误，稳定性较差，而频域的基频检测方法受限于频域分析的频率分辨率，可能产生较大的误差，精准性较差。融合时域和频域信息进行基频检测的方法可以改善稳定性和精准性，但可能会使实施的复杂性大幅增加，从而造成实时性较差。

发明内容

为克服上述现有技术的不足，本发明提供了一种数字语音信号基频检测与提取方法及系统，相较于现有的基频检测方法，能够兼顾稳定性、精准性和实时性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种数字语音信号基频检测与提取方法，包括以下步骤：

获取一帧待检测的语音序列数据；

基于短时傅里叶变换将所述语音信号数据从时域转化到频域，得到频谱序列；

将所述频域划分为两个频带范围；

分别提取所述两个频带范围中的峰值点，以及所述频域中的最大值点；

根据所述峰值点和最大值点对基频进行粗估计；

根据频域与时域的对应关系，计算基频的粗估计在时域语音序列中对应的下标；

基于所述下标所对应的频率，对基频进行精确估计。

一个或多个实施例提供了一种数字语音信号基频检测与提取系统，包括：

语音信号获取模块，获取一帧待检测的语音序列数据；

短时傅里叶变换模块，基于短时傅里叶变换将所述语音信号数据从时域转化到频域，得到频谱序列；

频域划分模块，将所述频域划分为两个频带范围；

基频粗估计模块，分别提取所述两个频带范围中的峰值点，以及所述频域中的最大值点；根据所述峰值点和最大值点对基频进行粗估计；

基频精确估计模块，根据频域与时域的对应关系，计算基频的粗估计在时域语音序列中对应的下标；基于所述下标所对应的频率，对基频进行精确估计。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的数字语音信号基频检测与提取方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的数字语音信号基频检测与提取方法。

以上一个或多个技术方案存在以下有益效果：

本发明融合了时域和频域信息进行基频检测，且计算方法简单，检测效率高，能够解决现有的语音信号基频检测与提取方法中存在的稳定性、精准性和实时性不能兼顾的问题。对比本发明所提供的提取语音基频检测与提取方法与常用的专业语音分析与处理软件(Adobe Audition、praat)，对不同信噪比的语音数据进行了大量实验，结果表明，本发明在稳定性、精准性和实时性等方面更优。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中数字语音信号基频检测与提取的方法流程图；

图2为语音段S的原始语音波形(上)以及Praat对其进行基频检测与提取的结果(下)；

图3为信噪比0dB的语音段S_0dB语音波形(上)及Praat对其进行基频检测与提取的结果(下)；

图4为信噪比10dB的语音段S_10dB语音波形(上)及Praat对其进行基频检测与提取的结果(下)；

图5为信噪比20dB的语音段S_20dB语音波形(上)及Praat对其进行基频检测与提取的结果(下)；

图6语音段S的原始语音波形(上)以及Adobe Audition对其进行基频检测与提取的结果(下)；

图7为信噪比0dB的语音段S_0dB语音波形(上)及Adobe Audition对其进行基频检测与提取的结果(下)；

图8为信噪比10dB的语音段S_10dB语音波形(上)及Adobe Audition对其进行基频检测与提取的结果(下)；

图9为信噪比20dB的语音段S_20dB语音波形(上)及Adobe Audition对其进行基频检测与提取的结果(下)；

图10为语音段S的原始语音波形(上)以及采用本发明方法对其进行基频检测与提取的结果(下)；

图11为信噪比0dB的语音段S_0dB语音波形(上)及采用本发明方法对其进行基频检测与提取的结果(下)；

图12为信噪比10dB的语音段S_10dB语音波形(上)及采用本发明方法对其进行基频检测与提取的结果(下)；

图13为信噪比20dB的语音段S_20dB语音波形(上)及采用本发明方法对其进行基频检测与提取的结果(下)。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种稳定、精准的数字语音信号基频检测与提取的方法，本实施例中对语音信号基频的检测范围为93-375Hz，所述方法包括以下步骤：

步骤1、获取一帧待检测的语音信号数据F，对语音帧F通过短时快速傅里叶变换(FFT)将语音信号从时域变换到频域，得到频谱序列P，即频域上的能量分布。如果采样频率是16KHz，FFT的长度是512，那么FFT的频率分辨率是31.25Hz；

步骤2、将所述频域划分为两个频带范围，分别提取所述两个频带范围中的峰值点，以及所述频域中的最大值点；

在上述步骤2中，本实施例中，在所述频域中确定两个频带范围Band1:93-218Hz以及Band2：218-375Hz；根据采样频率及FFT的长度，可以计算出这两个频带范围在频谱序列P中对应下标的范围，例如，采样频率是16KHz，FFT的长度是512，频带Band1:93-218Hz在频谱序列P中对应下标的范围为3-7。在频谱序列P上提取两个峰值点PV1和PV2以及一个最大值点PK，其中PV1是93-218Hz之间的峰值点，PV2是218-375Hz之间的峰值点，PK是93-375Hz之间的最大值点。

在频带Band1中提取峰值点PV1时，可能出现的情况是：Band1中没有峰值点，或者Band1中有多个峰值点；对于第一种Band1中没有峰值点的情况，PV1为空；对于第二种Band1中有多个峰值点的情况，PV1为最大的峰值点；在频带Band2中提取峰值点PV2的方法与此类似。在频带范围93-375Hz中提取最大值点PK时，PK存在且唯一。在频谱序列P中的峰值点定义是：对于连续的三个点P[j-1]、P[j]、P[j+1]，如果它们满足：

P[j-1]<P[j]且P[j+1]<P[j]

则称P[j]为一个峰值点。

步骤3、基频F0粗估计。

如果PV1存在，则用PV1估计F0；否则，如果PV2存在，则用PV2估计F0；如果PV1和PV2都不存在，则用PK估计F0，得到基频F0的粗估计CF0；

步骤4、对上述步骤3中得到的基频的粗估计CF0进行优化调整。针对粗估计CF0是基于峰值点PV1给出的，分为两种情况进行处理：

第一种是PV2与PK重合，且PV1不是PV2的半频，则用PV2估计F0。

第二种是如果PV2存在，且PV2的峰值比PV1的峰值大，则用PV2估计F0。

上述步骤4主要是处理男声与女声的基频差异。

步骤5、对于基频的粗估计CF0，在时域进一步精准估计。首先建立频域与时域的下标之间的对应关系，这种关系是非线性的，本实施例用分段线性函数进行了简化，共分为三段，即100-200Hz，200-300Hz,300-400Hz，分段函数关系式如下：

Y＝-0.80X+240 (1.1)

Y＝-0.27X+134 (1.2)

Y＝-0.13X+92 (1.3)

其中，输入X为基频在频域的粗估计CF0，输出Y为CF0在时域中对应的下标。

如果CF0位于区间100-200Hz，则用函数式(1.1)计算；

如果CF0位于区间200-300Hz，则用函数式(1.2)计算；

如果CF0位于区间300-400Hz，则用函数式(1.3)计算。

步骤6、根据基频在频域中的粗估计CF0以及上述分段函数关系式，得到CF0在时域语音序列S中对应的下标SI。在语音序列S中的下标SI附近搜索峰值点SV1，且在下标2*SI附近搜索峰值点SV2。本实施例中，SI“附近”是指区间[SI-2,SI+2]。如果SV1和SV2都存在，则根据SV1和SV2的下标之间的距离计算出基音周期的长度，进而计算出CF0的精确估计F0。

上述步骤6根据基频的粗估计计算出其在时域中对应的下标SI和样本点，然后在时域中搜索下标SI与2倍的SI附近的峰值点SV1和SV2；如果SV1和SV2都存在，则根据SV1和SV2之间的样本点的个数以及采样频率计算出基频的精确估计值，如果SV1或SV2不存在，则用最大值代替。

步骤7、检查步骤6计算出的基频的精确估计值是否合理；如果不合理，则舍弃步骤6计算出的基频的精确估计值，用基频的粗估计代替精确估计。具体地，如果粗估计CF0与上述步骤6中给出的精确估计F0相差15％以上，直接以粗估计CF0代替精确估计F0。

步骤8、返回精确估计的结果F0作为本帧语音的基频。

上述步骤1-4是对基频在频域的粗估计，步骤5-8是在基频粗估计的基础上，对基频在时域的精确估计。

实施例二

本实施例的目的是提供一种数字语音信号基频检测与提取系统。

为了实现上述目的，本实施例提供了一种数字语音信号基频检测与提取系统，包括：

语音信号获取模块，获取一帧待检测的语音序列数据；

频域划分模块，将所述频域划分为两个频带范围；

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取一帧待检测的语音序列数据；

将所述频域划分为两个频带范围；

根据所述峰值点和最大值点对基频进行粗估计；

基于所述下标所对应的频率，对基频进行精确估计。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

获取一帧待检测的语音序列数据；

将所述频域划分为两个频带范围；

根据所述峰值点和最大值点对基频进行粗估计；

基于所述下标所对应的频率，对基频进行精确估计。

以上实施例二、三和四中涉及的各步骤与实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

以上一个或多个实施例具有以下技术效果：

本发明能够解决现有的语音信号基频检测与提取方法中存在的稳定性、精准性和实时性不能兼顾的问题。

实验结果：

为了评估本文提出的基频检测与提取算法的性能，我们在大量的不同语音数据上进行了实验，这些实验语音数据包括各种信噪比的男声、女声，原始语音是16kHz采样、16bit量化，基频检测范围为93-375Hz。不同的信噪比语音是通过将原始语音归一化后加入不同噪声而产生的。下面的实例是一段大约2秒的汉语语音(女声)，其中包含5个汉字。对这段语音S通过添加噪声生成三个不同信噪比的语音：S_0dB,S_10dB,S_20dB，对这些实例分别用Praat,Adobe Audition及本发明所提供的提取语音基频检测与提取方法进行基频检测。从图2-13可以比较直观的看出三种算法在不同信噪比下检测与提取基频的性能。图2-5是用Praat对语音段S,S_0dB,S_10dB,S_20dB进行基频检测与提取的结果，其中语谱图区域中的曲线(多段)表示Praat计算出的基频曲线。

从图2可以大致看出，Praat对原始语音S做的基频分析基本正确，仅在基频曲线的端点附近误差较大。当信噪比较大时(图3-4)，Praat基频分析的性能下降不多，在信噪比等于10dB时(图3)端点的基频数据存在部分丢失问题。但在信噪比较小时(图2SNR＝0dB)时，基频数据丢失严重。

图6-9是用语音分析与处理专用软件Adobe Audition对语音段S,S_0dB,S_10dB,S_20dB进行基频检测与提取的结果，其中语谱图显示区域中的曲线表示Adobe Audition计算出的基频曲线。从图5-8可以看出，总体上基频数据丢失问题严重(丢失50％以上)，误差很大。因此，在基频的检测与提取性能方面，Adobe Audition比Praat差。

图10-13是用本发明所提供的提取语音基频检测与提取方法对语音段S,S_0dB,S_10dB,S_20dB进行基频检测与提取的结果，其中黑色曲线中加灰色框的部分表示计算出的基频曲线。从图中可以看出，总体上基频曲线与Praat得到的几乎一致。在信噪比较小时(图10SNR＝0dB)时，本发明算法得到的基频数据除个别点外，仍然非常接近真实值。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种数字语音信号基频检测与提取方法，其特征在于，包括以下步骤：

获取一帧待检测的语音序列数据；

将所述频域划分为两个频带范围；

根据所述峰值点和最大值点对基频进行粗估计；

基于所述下标所对应的频率，对基频进行精确估计。

2.如权利要求1所述的一种数字语音信号基频检测与提取方法，其特征在于，对语音信号基频的检测范围为93-375Hz，所述两个频带范围分别为93-218Hz和218-375Hz。

3.如权利要求1所述的一种数字语音信号基频检测与提取方法，其特征在于，根据所述峰值点和最大值点对基频进行粗估计包括：

若所述两个频带范围中的峰值点其中之一存在，则用该峰值点作为基频的粗估计；若所述两个频带范围中的峰值点都不存在，则用该最大值点作为基频的粗估计。

4.如权利要求3所述的一种数字语音信号基频检测与提取方法，其特征在于，若所述粗估计是基于较小的频带范围的峰值点PV1进行的，还执行粗估计的调整：

若另一频带范围的峰值点PV2与最大值点重合，且PV1不是PV2的半频，则用PV2作为基频的粗估计；

若PV2存在，且PV2的峰值比PV1的峰值大，则用PV2作为基频的粗估计。

5.如权利要求1所述的一种数字语音信号基频检测与提取方法，其特征在于，所述频域与时域的对应关系如下：

其中，Y为粗估计CF0在时域中对应的下标。

6.如权利要求1所述的一种数字语音信号基频检测与提取方法，其特征在于，基于下标SI所对应的频率，对基频进行精确估计包括：

分别在语音序列中下标SI附近和2*SI附近搜索峰值点，如果都搜索到，根据两个峰值点之间的样本点的个数以及采样频率对基频进行精确估计。

7.如权利要求1所述的一种数字语音信号基频检测与提取方法，其特征在于，所述方法还包括：判断基频的精确估计值是否合理，如果不合理，则舍弃该基频的精确估计值，用基频的粗估计代替精确估计。

8.一种数字语音信号基频检测与提取系统，其特征在于，包括：

语音信号获取模块，获取一帧待检测的语音序列数据；

频域划分模块，将所述频域划分为两个频带范围；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的数字语音信号基频检测与提取方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的数字语音信号基频检测与提取方法。