CN116825142A

CN116825142A - 自适应参数投票机制的语音端点检测方法及系统

Info

Publication number: CN116825142A
Application number: CN202310112852.9A
Authority: CN
Inventors: 雷静; 贺子宸; 刘小平; 陶晶; 张倩
Original assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Current assignee: Industrial Bank Co Ltd; CIB Fintech Services Shanghai Co Ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-09-29

Abstract

本发明提供了一种自适应参数投票机制的语音端点检测方法及系统，包括：采集语音信号，并对语音信号进行预处理得到语音帧信号；对语音帧信号进行相邻帧平滑和去除野点处理，得到平滑后的特征参数；计算语音帧信号的各个特征参数对应的初始判决阈值；根据初始判决阈值，选择投票判决机制，进而判断当前语音帧信号是否为噪声帧，若是，则通过实时跟踪噪声变化，实现自适应更新判决阈值，并最终判定语音端点；若否，则忽略该帧，进入下一帧。本发明同时提取四种语音信号不同维度的特征参数，可以有效弥补特征阈值端点检测算法在低信噪比多种噪声环境下表现的不稳定性，由此更好的适应办公环境下噪声的多样性，提高语音端点检测的正确率。

Description

自适应参数投票机制的语音端点检测方法及系统

技术领域

本发明涉及语音信号处理技术领域，具体地，涉及一种自适应参数投票机制的语音端点检测方法及系统。

背景技术

实际生活工作中，存在着无所不在的噪声，如空调风扇声，人们的交谈声，街道上汽车的噪声，这些都难免会影响我们的目标语音信号；此外，录音设备和传输信道也会产生干扰，从而形成带噪语音信号，使原信号质量降低。而语音处理系统往往在强噪声存在情况下处理性能会急剧下降，影响其本身处理结果和语音质量。

专利文献CN115472152A一种语音端点检测方法、装置、计算机设备及可读存储介质，该方法包括：采集音频数据，并对音频数据进行音频预处理，得到目标音频数据；将目标音频数据输入至预先构建的音频场景分类模型，确定目标音频数据对应的场景类别；将目标音频数据输入至预先构建的语音端点检测模型，并基于场景类别确定目标音频数据对应的语音状态。

但是专利文献CN115472152A主要依托于构建的音频分类及语音端点检测模型，不仅需要事先收集大量不同场景语音数据，还需花费较长的时间去训练模型，且运算量大不易实时实现。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种自适应参数投票机制的语音端点检测方法及系统。

根据本发明提供的一种自适应参数投票机制的语音端点检测方法，包括：

步骤S1：采集语音信号，并对所述语音信号进行预处理得到语音帧信号；

步骤S2：对所述语音帧信号进行相邻帧平滑和去除野点处理，得到平滑后的特征参数；

步骤S3：计算语音帧信号的各个特征参数对应的初始判决阈值；

步骤S4：根据所述初始判决阈值，选择投票判决机制，进而判断当前语音帧信号是否为噪声帧，若是，则触发步骤S5；若否，则忽略该帧，进入下一帧；

步骤S5：通过实时跟踪噪声变化，实现自适应更新判决阈值，并最终判定语音端点。

优选地，对所述语音信号进行预处理包括对输入语音信号进行加窗分帧的处理，并去除直流分量；

所述特征参数包括均匀子带谱方差、能熵比、MFCC距离和似然比。

优选地，所述初始判决阈值的计算公式如下：

式中，T₁、T₂、T₃和T₄分别表示多窗谱子带谱方差阈值、能熵比阈值、MFCC距离阈值和似然比阈值，D_th、EH_th、d_th和r_th分别表示初始多窗谱子带谱方差阈值、初始能熵比阈值、初始MFCC距离阈值和初始似然比阈值，NIS表示语音信号初始无声段帧数，D(i)、EH(i)、d(i)和r(i)分别表示均匀子带谱方差、能熵比、MFCC距离和似然比。

优选地，所述投票判决机制包括第一投票判决机制和第二投票判决机制；

当EH_th≤β时，选择第一投票判决机制；当EH_th＞β时，选择第二投票判决机制，其中β表示系数；

所述第一投票判决机制包括任意两种及以上的特征参数小于各自对应的参数阈值，则判定为进入噪声段；

所述第二投票判决机制包括至少三种特征参数小于各自对应的参数阈值则判定为进入噪声段。

优选地，所述更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01；

所述判定语音端点包括延迟处理，所述延迟处理包括当噪声段帧数大于8时，判定为是噪声段，否则仍判定为语音段，从而完成对语音的端点检测。

根据本发明提供的一种自适应参数投票机制的语音端点检测系统，包括：

模块M1：采集语音信号，并对所述语音信号进行预处理得到语音帧信号；

模块M2：对所述语音帧信号进行相邻帧平滑和去除野点处理，得到平滑后的特征参数；

模块M3：计算语音帧信号的各个特征参数对应的初始判决阈值；

模块M4：根据所述初始判决阈值，选择投票判决机制，进而判断当前语音帧信号是否为噪声帧，若是，则触发模块M5；若否，则忽略该帧，进入下一帧；

模块M5：通过实时跟踪噪声变化，实现自适应更新判决阈值，并最终判定语音端点。

优选地，所述初始判决阈值的计算公式如下：

优选地，所述更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01；

与现有技术相比，本发明具有如下的有益效果：

1、本发明同时提取四种语音信号不同维度的特征参数，可以有效弥补特征阈值端点检测算法在低信噪比多种噪声环境下表现的不稳定性，由此更好的适应办公环境下噪声的多样性，提高语音端点检测的正确率。

2、本发明通过提取多种参数并利用一种自适应的投票机制进行语音端点检测的方法，更好的分割出低信噪比环境下的语音段和噪声段。

3、本发明利用可以反映当前信号能量大小以及平稳程度的实时噪声段能熵比参数来确定采用的投票判决机制，提高了检测的精准性和鲁棒性，同时提升了语音增强或语音识别的效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的工作流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明将均匀子带谱方差、能熵比、梅尔倒谱距离、似然比四种不同类型的参数相融合并自适应更新各自判决阈值。具体地，通过提取语音信号具有较好性能且类型不同的四种特征参数，分别为基于频域的均匀子带谱方差参数，基于熵信息论的能熵比参数，基于距离测度的MFCC距离参数，基于统计模型的似然比参数；再对语音信号采用以上参数的阈值判定方法，同时采用一种可根据实时噪声段能熵比参数确定投票规则的判决机制，从而进行输入语音信号的端点判定。

实施例一

根据本发明提供的一种自适应参数投票机制的语音端点检测方法，如图1所示，包括：

步骤S1：采集语音信号，并对所述语音信号进行预处理得到语音帧信号。对所述语音信号进行预处理包括对输入语音信号进行加窗分帧的处理，并去除直流分量。

步骤S2：对所述语音帧信号进行相邻帧平滑和去除野点处理，得到平滑后的特征参数。特征参数包括均匀子带谱方差、能熵比、MFCC距离和似然比。

步骤S3：计算语音帧信号的各个特征参数对应的初始判决阈值。其中，初始判决阈值的计算公式如下：

式中，T₁、T₂、T₃和T₄分别表示多窗谱子带谱方差阈值、能熵比阈值、MFCC距离阈值和似然比阈值，D_th、EH_th、d_th和r_th分别表示初始多窗谱子带谱方差阈值、初始能熵比阈值、初始MFCC距离阈值和初始似然比阈值，NIS表示语音信号初始无声段帧数，D(i)、EH(i)、d(i)和r(i)分别表示均匀子带谱方差、能熵比、MFCC距离和似然比，a、b、c和d均表示系数，该系数可以根据试验及经验选取值，比如a＝2，b＝1.014，c＝1.22，d＝0.125。当语音帧信号的各特征参数小于各自阈值时，各参数认为当前帧信号为噪声帧。

步骤S4：根据所述初始判决阈值，选择投票判决机制，进而判断当前语音帧信号是否为噪声帧，若是，则触发步骤S5；若否，则忽略该帧，进入下一帧。所述投票判决机制包括第一投票判决机制和第二投票判决机制。当EH_th≤β时，选择第一投票判决机制；当EH_th＞β时，选择第二投票判决机制，其中β表示系数，该系数可以根据试验及经验选取值，例如1.15。

具体地，在高信噪比或噪声平稳情况下，噪声段能量较低，信息熵值高，则二者结合提取的噪声能熵比特征参数EH_th值就低。当检测噪声段能熵比值EH_th≤β时，提取的四种参数特征都能较好地分离出噪声段与语音段。此时选择第一投票判决机制包括任意两种及以上的特征参数小于各自对应的参数阈值，则判定为进入噪声段。能够避免出现较多的扩展错误，即将噪声段误认为是语音段的错误。

在低信噪比或非平稳噪声情况下，噪声段能量较高，信息熵值低，则二者结合提取的能熵比值就呈现高值。当检测噪声段能熵比值EH_th＞β时，为减少判决出现截断错误，即将语音段认为是噪声段，此时选择第二投票判决机制包括至少三种特征参数小于各自对应的参数阈值则判定为进入噪声段。

步骤S5：通过实时跟踪噪声变化，实现自适应更新判决阈值，并最终判定语音端点。具体地，首先通过跟踪实时噪声段的前三帧参数的最小值来减少突发噪声被认为是语音的误判，并对判决阈值进行更新，具体更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01。其中a，b，c，d值可以和步骤S3中的取值相同。

另外，为避免清音被判定为噪声，判定语音端点包括延迟处理，所述延迟处理包括当噪声段帧数大于8时，判定为是噪声段，否则仍判定为语音段，从而完成对语音的端点检测。

实施例二

本发明还提供了一种自适应参数投票机制的语音端点检测系统系统，本领域技术人员可以通过执行所述自适应参数投票机制的语音端点检测系统方法的步骤流程实现所述自适应参数投票机制的语音端点检测系统系统，即可以将所述自适应参数投票机制的语音端点检测系统方法理解为所述自适应参数投票机制的语音端点检测系统系统的优选实施方式。

模块M1：采集语音信号，并对所述语音信号进行预处理得到语音帧信号。具体地，对所述语音信号进行预处理包括对输入语音信号进行加窗分帧的处理，并去除直流分量。

模块M2：对所述语音帧信号进行相邻帧平滑和去除野点处理，得到平滑后的特征参数。特征参数包括均匀子带谱方差、能熵比、MFCC距离和似然比。

模块M3：计算语音帧信号的各个特征参数对应的初始判决阈值。初始判决阈值的计算公式如下：

式中，T₁、T₂、T₃和T₄分别表示多窗谱子带谱方差阈值、能熵比阈值、MFCC距离阈值和似然比阈值，D_th、EH_th、d_th和r_th分别表示初始多窗谱子带谱方差阈值、初始能熵比阈值、初始MFCC距离阈值和初始似然比阈值，NIS表示语音信号初始无声段帧数，D(i)、EH(i)、d(i)和r(i)分别表示均匀子带谱方差、能熵比、MFCC距离和似然比，a、b、c和d均表示系数，该系数可以根据试验及经验选取值，比如a＝2，b＝1.014，c＝1.22，d＝0.125。

模块M4：根据所述初始判决阈值，选择投票判决机制，进而判断当前语音帧信号是否为噪声帧，若是，则触发模块M5；若否，则忽略该帧，进入下一帧。该投票判决机制包括第一投票判决机制和第二投票判决机制。

当EH_th≤β时，选择第一投票判决机制；当EH_th＞β时，选择第二投票判决机制，其中β表示系数，该系数可以根据试验及经验选取值，例如1.15。所述第一投票判决机制包括任意两种及以上的特征参数小于各自对应的参数阈值，则判定为进入噪声段。所述第二投票判决机制包括至少三种特征参数小于各自对应的参数阈值则判定为进入噪声段。

模块M5：通过实时跟踪噪声变化，实现自适应更新判决阈值，并最终判定语音端点。其中，更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01；

进一步地，在语音增强处理场景下对本发明具体描述如下：首先通过语音采集设备获得语音信号，然后利用本发明算法提取语音信号的四种特征参数进行阈值判定，再通过自适应投票判决机制实时判定获得语音噪声段，以获得更准确的噪声估计值，从而在后续语音增强中使语音段更好的进行语音增强，对噪音段进行抑制，提升信噪比改善语音质量。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种自适应参数投票机制的语音端点检测方法，其特征在于，包括：

2.根据权利要求1所述的自适应参数投票机制的语音端点检测方法，其特征在于，对所述语音信号进行预处理包括对输入语音信号进行加窗分帧的处理，并去除直流分量；

3.根据权利要求2所述的自适应参数投票机制的语音端点检测方法，其特征在于，所述初始判决阈值的计算公式如下：

4.根据权利要求3所述的自适应参数投票机制的语音端点检测方法，其特征在于，所述投票判决机制包括第一投票判决机制和第二投票判决机制；

当EH_th≤β时，选择第一投票判决机制；当EH_th>时，选择第二投票判决机制，其中β表示系数；

5.根据权利要求3所述的自适应参数投票机制的语音端点检测方法，其特征在于，所述更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01；

6.一种自适应参数投票机制的语音端点检测系统，其特征在于，包括：

7.根据权利要求6所述的自适应参数投票机制的语音端点检测系统，其特征在于，对所述语音信号进行预处理包括对输入语音信号进行加窗分帧的处理，并去除直流分量；

8.根据权利要求7所述的自适应参数投票机制的语音端点检测系统，其特征在于，所述初始判决阈值的计算公式如下：

9.根据权利要求8所述的自适应参数投票机制的语音端点检测系统，其特征在于，所述投票判决机制包括第一投票判决机制和第二投票判决机制；

当EH_th≤β时，选择第一投票判决机制；当EH_th>β时，选择第二投票判决机制，其中β表示系数；

10.根据权利要求8所述的自适应参数投票机制的语音端点检测系统，其特征在于，所述更新判决阈值公式如下：

式中，α＝0.99，μ＝0.01；