CN113113052B

CN113113052B - 一种离散点的语音基音识别装置及计算机存储介质

Info

Publication number: CN113113052B
Application number: CN202110375951.7A
Authority: CN
Inventors: 陈夏盛; 林荔珊
Original assignee: Shenzhen Peasun Technology Co ltd
Current assignee: Shenzhen Peasun Technology Co ltd
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2024-04-05
Anticipated expiration: 2041-04-08
Also published as: CN113113052A

Abstract

本发明提供了一种离散点的语音基音识别装置，包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块，所述语音接收模块接收外部的语音并转换成离散点信号，所述去噪模块对所述离散点信号进行去噪处理，所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围，所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值，所述基音提取模块根据所述频率值从语音中提取出基音。本发明先通过所述基音粗算模块对基音的频率范围进行缩小限定，再通过所述基音精算模块计算出准确的基音频率值，大大地减小了计算的复杂程度，提高识别效率。

Description

一种离散点的语音基音识别装置及计算机存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种离散点的语音基音识别装置。

背景技术

基音是指发浊音时声带振动的周期，基音周期的估计称为基音检测，其目的是提取出与声带振动频率一致或尽可能相吻合的基音周期变化的轨迹曲线，是语音信号处理中最重要的特征参数之一，在旋律辨识、声调辨识、语音合成和语音编码等研究领域起着非常关键的作用。基音检测算法用于检测基音信号的方法。由于语音信号可视为一个动态非平稳随机过程，语音波形和声带振动的频率变化范围大且十分复杂。

现在已经开发出了很多基音识别系统，经过我们大量的检索与参考，发现现有的识别系统有如公开号为KR100538987B1，KR1019970050104A和KR100538985B1所公开的系统，包括以下步骤：语音信号的采集输入、语音信号预处理、语音信号组合特征参数提取：即提取基音周期、LPCC、ΔLPCC、能量、能量的一阶差分、GFCC特征参数共同组合成多维特征向量、采用离散二进制粒子群优化算法对多维特征参数进行筛选、引入通用背景模型UBM训练得到说话人的声音模型、最后利用GMM-UBM模型对测试语音进行识别。但该系统计算量大，过程较复杂，效率较低，不能快速地识别出基音。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种离散点的语音基音识别装置，

为了克服现有技术的不足，本发明采用如下技术方案：

一种离散点的语音基音识别装置，包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块，所述语音接收模块接收外部的语音并转换成离散点信号，所述去噪模块对所述离散点信号进行去噪处理，所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围，所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值，所述基音提取模块根据所述频率值从语音中提取出基音；

进一步的，所述语音接收模块内设有语音接收电路和模数转换单元，所述语音接收电路将语音振动转换成连续的电信号，所述模数转换单元将连续的电信号转换成离散的数字信号S(m)；

进一步的，所述去噪模块利用如下去噪公式进行去噪处理：

其中，k₀为去噪点；

进一步的，所述去噪点k₀通过去噪指数公式P(k)来确定：

对于任意自然数k，P(k₀)满足P(k₀)＜P(k)；

进一步的，所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧，所述分析帧与分析窗函数计算得到若干分析窗数列：

第i分析窗数列：

其中，分析窗函数为：

进一步的，将所述分析窗数列重新组合后获取峰值和谷值，相邻峰值与谷值之间的距离的最大值L_max和最小值L_min对应的时间为基音周期范围[Δt_min，Δt_max]；

进一步的，所述基音精算模块对处于区间[L_min，L_max]内的每个整数值j计算得到基音指数Q_j，Q_j中最小值对应的周期T为基音周期，对应的频率f为基音频率，

进一步的，所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k)，根据所述频谱系数X(k)计算得到能量函数E(k)，所述基音指数Q_j为：

其中，j为傅里叶变换时的点数；

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序，所述离散点的语音基音识别装置程序被处理器执行时，实现一种离散点的语音基音识别装置的步骤。

本发明所取得的有益效果是：

本发明通过去噪模块先去除原始信号中的噪音，未后续的基音识别排除了干扰，保证了语音的纯度，提高了基音识别的准确性，利用基音粗算模块快速地缩小基音频率所处的范围，是提高效率的关键，基音精算模块在所求的的范围内进行高精度计算，最终准确地确认基音频率，整个过程大大地减少了计算量。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为整体结构框架示意图。

图2为基音频率计算流程示意图。

图3为二分法寻找去噪点示意图。

图4为分析窗数列示意图。

图5为本发明计算量效果对比示意图。

具体实施方式

为了使得本发明的目的.技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统.方法.特征和优点都包括在本说明书内.包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位，以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一。

所述语音接收模块内设有语音接收电路和模数转换单元，所述语音接收电路将语音振动转换成连续的电信号，所述模数转换单元将连续的电信号转换成离散的数字信号S(m)；

所述去噪模块利用如下去噪公式进行去噪处理：

其中，k₀为去噪点；

所述去噪点k₀通过去噪指数公式P(k)来确定：

对于任意自然数k，P(k₀)满足P(k₀)＜P(k)；

所述基音粗算模块从数字信号中以所述去噪点为长度提取出若干分析帧，所述分析帧与分析窗函数计算得到若干分析窗数列：

第i分析窗数列：

其中，分析窗函数为：

将所述分析窗数列重新组合后获取峰值和谷值，相邻峰值与谷值之间的距离的最大值L_max和最小值L_min对应的时间为基音周期范围[Δt_min，Δt_max]；

所述基音精算模块对处于区间[L_min，L_max]内的每个整数值j计算得到基音指数Q_j，Q_j中最小值对应的周期T为基音周期，对应的频率f为基音频率，

所述基音精算模块对数字信号进行傅里叶变换得到频谱系数X(k)，根据所述频谱系数X(k)计算得到能量函数E(k)，所述基音指数Q_j为：

其中，j为傅里叶变换时的点数；

实施例二。

所述去噪模块利用如下去噪公式进行去噪处理：

其中，k₀为去噪点；

所述去噪点k₀通过去噪指数公式P(k)来确定：

对于任意自然数k，P(k₀)满足P(k₀)＜P(k)；

第i分析窗数列：

其中，分析窗函数为：

其中，j为傅里叶变换时的点数；

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序，所述离散点的语音基音识别装置程序被处理器执行时，实现一种离散点的语音基音识别装置的步骤；

基于此设计了一种离散点的语音基音识别装置，包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块，所述语音接收模块接收外部的语音并转换成离散点信号，所述去噪模块对所述离散点信号进行去噪处理，所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围，所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值，所述基音提取模块根据所述频率值从语音中提取出基音；

所述语音接收模块内设有语音接收电路和模数转换单元，所述语音接收电路将语音振动转换成连续的电信号，所述模数转换单元将连续的电信号转换成离散的数字信号S(m)，所述模数转换单元的采样频率为48KHz；

所述去噪模块利用去噪函数对所述数字信号进行去噪处理，所述去噪函数表达式R(k)为：

选取区间[k₁，k′₁]，计算中间轴值并将所述数字信号S(m)与所述去噪函数R(k)按照如下的去噪指数公式对三个点k₁、k′₁和k′₁′进行计算：

得到三个值P(k₁)、P(k′₁)和P(k′₁′)；

取对k₂和k′₂利用去噪指数公式计算得到P(k₂)和P(k′₂)，若P(k₂)<＝P(k′₂),则对区间[k₁，k′₁′]按照上述过程进行同样的处理，若P(k₂)>＝P(k′₂),则对区间[k′₁′，k′₁]按照上述过程进行同样的处理；

重复操作n次直至区间[k_n+1，k′_n+1]的区间长度小于2，选择P(k_n+1)和P(k′_n+1)中的较小值，其对应的k值向上取偶并得到去噪点k₀：

所述k₀以及去噪数列参与到去噪计算中，所述去噪公式为：

实施例三。

所述去噪模块利用如下去噪公式进行去噪处理：

其中，k₀为去噪点；

所述去噪点k₀通过去噪指数公式P(k)来确定：

对于任意自然数k，P(k₀)满足P(k₀)＜P(k)；

第i分析窗数列：

其中，分析窗函数为：

其中，j为傅里叶变换时的点数；

得到三个值P(k₁)、P(k′₁)和P(k′₁′)；

所述k₀以及去噪数列参与到去噪计算中，所述去噪公式为：

所述基音粗算模块对所述去噪后的数字信号S(m)添加分析窗进行分析，所述分析窗函数为：

n的取值范围为1～k₀，k₀作为分析窗的窗长度；

将所述数字信号提取出多个分析帧，每个分析帧的长度为k₀，相邻两个分析帧有长度的离散点处于重叠状态，所述分析帧与所述分析窗函数相乘，得到多个分析窗数列：

第一分析窗数列：S₁(n)＝S(n)·W(n)，n＝1，2，…，k₀；

第二分析窗数列：

……

第i分析窗数列：

将所述第一分析窗数列至第i分析窗数列整合为一组信号F(n)：

将所述信号F(n)中提取出峰值点和谷值点，并分别计算出相邻的峰值点与谷值点之间的距离L，所述距离L为两个点之间包含的其余离散点个数加1，选择其中最大距离L_max和最小距离L_min，根据采样频率转换为周期Δt_max和Δt_min，其倒数为所述基音粗算模块的基音的频率范围[f_min，f_max]：

实施例四。

所述去噪模块利用如下去噪公式进行去噪处理：

其中，k₀为去噪点；

所述去噪点k₀通过去噪指数公式P(k)来确定：

对于任意自然数k，P(k₀)满足P(k₀)＜P(k)；

第i分析窗数列：

其中，分析窗函数为：

其中，j为傅里叶变换时的点数；

得到三个值P(k₁)、P(k′₁)和P(k′₁′)；

所述k₀以及去噪数列参与到去噪计算中，所述去噪公式为：

n的取值范围为1～k₀，k₀作为分析窗的窗长度；

第一分析窗数列：S₁(n)＝S(n)·W(n)，n＝1，2，…，k₀；

第二分析窗数列：

……

第i分析窗数列：

所述基音精算模块从所述去噪模块中获取完成去噪后的数字信号S(m)，将所述数字信号进行L_max点的傅里叶变化，得到频谱系数X_max(k)：

所述频谱系数为复数，包括实部X_R(k)与虚部X_I(k)；

根据所述实部X_R(k)与虚部X_I(k)计算出能量函数E_max(k)：

对所述能量函数作平滑处理：

其中V(n)满足/>

具体的，V(n)的表达式为：

将所述数字信号进行L_min点的傅里叶变化，得到频谱系数X_min(K)：

再计算出能量函数E_min(k)：

同样对能量函数作平滑处理：

对于处于L_max和L_min之间的每一个整数点j，都对数字信号进行j点的傅里叶变化，按照与上述相同的方法，得到平滑处理后的能量函数

对所有的能量函数进行基量转换得到基音指数Q_j：

其中，L_min＜＝j＜＝L_max；

从所述Q_j中选择出最小值，其j值对应的周期T为基音周期，对应的频率f为基音频率，

确定基音周期以及基音频率后，所述基音提取模块根据所述基音周期从原始语音信号中提取出基音信号。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种离散点的语音基音识别装置，包括语音接收模块、去噪模块、基音粗算模块、基音精算模块和基音提取模块，所述语音接收模块接收外部的语音并转换成离散点信号，所述去噪模块对所述离散点信号进行去噪处理，所述基音粗算模块用于对离散点进行计算处理得到一个基音的频率范围，所述基音精算模块在所述频率范围内进行计算处理得到基音的频率值，所述基音提取模块根据所述频率值从语音中提取出基音；

所述语音接收模块内设有语音接收电路和模数转换单元，所述语音接收电路将语音振动转换成连续的电信号，所述模数转换单元将连续的电信号转换成离散的数字信号；

所述去噪模块利用如下去噪公式进行去噪处理：

，其中，/>为去噪点；所述去噪点/>通过去噪指数公式/>来确定：

；

对于任意自然数k，满足/>；

第i分析窗数列：；

其中，分析窗函数为：

；

将所述分析窗数列重新组合后获取峰值和谷值，相邻峰值与谷值之间的距离的最大值和最小值/>对应的时间为基音周期范围/>；

所述基音精算模块对处于区间内的每个整数值j计算得到基音指数/>，/>中最小值对应的周期/>为基音周期，对应的频率f为基音频率，/>；

所述基音精算模块对数字信号进行傅里叶变换得到频谱系数，根据所述频谱系数计算得到能量函数/>，所述基音指数/>为：

，其中，j为傅里叶变换时的点数。

2.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种离散点的语音基音识别装置程序，所述离散点的语音基音识别装置程序被处理器执行时，实现如权利要求1所述的一种离散点的语音基音识别装置的步骤。