CN107910017A

CN107910017A - 一种带噪语音端点检测中阈值设定的方法

Info

Publication number: CN107910017A
Application number: CN201711372176.XA
Authority: CN
Inventors: 王亦红
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-04-13

Abstract

本发明公开一种带噪语音端点检测中阈值设定的方法，涉及语音处理技术领域。该方法根据短时幅熵比F_n，设定判断阈值T₁、T₂。在低信噪比和多噪声类型的环境下，根据阈值T₁、T₂，可从输入信号中找出带噪语音部分的起止点，准确地将带噪语音与纯噪声部分区分开来，从而降低语音增强算法中的数据处理量，并提高复杂噪声环境下语音增强算法的鲁棒性。

Description

一种带噪语音端点检测中阈值设定的方法

技术领域

本发明涉及一种带噪语音端点检测中阈值设定的方法，属于语音信号处理领域。

背景技术

单通道语音增强方法无法直接获取噪声源而需要对带噪语音功率谱进行估计。最简单、直接的方法是从无声段提取噪声。因为此时为纯噪声环境，不需要对噪声进行估计。为此需要对带噪语音进行端点检测判断出噪声段和语音段。其中，阈值的设定直接影响判断的准确性。

发明内容

发明目的：本发明提供一种带噪语音端点检测中阈值设定的方法，在低信噪比和多噪声类型的环境下，如果阈值设定合理，可以从输入信号中找出带噪语音部分的起止点，准确地将带噪语音与纯噪声部分区分开来，从而降低语音增强算法中的数据处理量，并提高复杂噪声环境下语音增强算法的鲁棒性。

技术方案：一种带噪语音端点检测中阈值设定的方法，包括如下步骤：

第一步，采集带噪语音信号，并进行预处理；

第二步，计算幅熵比F_n：

第n帧带噪语音信号为y_n(i)，在FFT变换后第k条谱线频率分量的能量谱为Y_n(k)，则第n帧第k个频率分量的归一化谱概率密度函数为：

式中——N表示FFT长度。

短时谱熵为：

短时幅值M_n为：

式中——L为帧长。

短时幅熵比F_n为：

第三步，对幅熵比进行中值滤波，达到平滑滤波的效果；

第四步，取10帧作为固定窗长，选择前10帧作为初始固定窗长，计算F_n在固定窗长内的均值E和最大值M，计算最大值和均值的差值D，经过大量实验验证，本发明设定阈值T₁＝0.1D+E，T₂＝0.05D+E，其波动范围可以在0.05区间内，并始终保持T₁>T₂；

第五步，对当前帧的判定：

若当前帧为首帧，判断首帧的F_n是否大于T₁，如果大于，则可判断此帧为带噪语音帧的起始点；如果小于，则可判断此帧为纯噪声帧；

若当前帧的前一帧已经判定为带噪语音帧，则判断当前帧的F_n是否大于T₂。如果大于，则可判定当前帧仍然为带噪语音帧，如果小于，则可判定当前帧的前一帧为语音段的终点，噪声段从当前帧开始；

若当前帧的前一帧已被判定为纯噪声帧，则判断当前帧的F_n是否大于T₁，如果大于T₁，则认为当前帧为语音段的起始点，否则，需进一步判断当前帧的F_n是否大于T₂，如果当前帧的F_n大于T₂，则判定当前帧为语音的潜在帧，并将该帧序号i保存，如果小于T₂，则认为当前帧仍为纯噪声帧，并且以此帧的F_n更新E和M，具体的方式如下：

首先，将该帧替换固定窗长内的首帧，并将其作为固定窗长内的尾帧；

然后，重新计算F_n在固定窗长内的均值E和最大值M，以及M与E差值D；

最后，阈值更新为：T₁＝0.1D+E，T₂＝0.05D+E；

若当前帧的前一帧为语音的潜在帧，则判断当前帧的F_n是否大于T₁。如果大于，则判定当前帧为带噪语音帧，并且序号为i的帧为带噪语音的起始帧；否则，需进一步判断当前帧的F_n是否大于T₂；如果大于T₂，则认为此帧依然是潜在语音帧，如果小于T₂，则认为当前帧为纯噪声帧，并且以此帧的F_n更新E和M，具体的方式同前述。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，带噪语音端点检测中阈值设定的方法，包括如下步骤：

第一步，采集输入的语音信号，并进行预加重和加窗分帧。帧长为L，帧数为S(S>10)。

第二步，计算每一帧的短时幅熵比F_n并保存

具体实现过程如下：

首先，根据式(1)计算第n帧信号在频域中第k个频率分量的归一化谱概率密度函数p_n(k)：

式中，y_n(i)——第n帧的带噪语音信号；Y_n(k)——第n帧y_n(i)FFT变换后在频域第k个频率分量的能量谱；N——FFT变换的长度。

其次，根据式(2)计算第n帧信号的短时谱熵：

再次，计算第n帧信号的短时幅值M：

式中——L为帧长。

然后，计算一帧信号的短时幅熵比F_n为：

最后，保存F_n

第三步，判断S帧信号的短时幅熵比是否都计算保存完毕。如果没有，则进入第二步；否则进入第四步

第四步，对幅熵比中值滤波；

第五步，初始阈值T₁、T₂的设定

初始阈值的设定分以下几步实现：

首先，计算前10帧信号短时幅熵比F₀，...，F₉的均值E及其最大值M；

其次，计算最大值M和均值E的差值D；

然后，设定阈值T₁＝0.1D+E，T₂＝0.05D+E。

第六步，对首帧的识别

判断首帧的短时幅熵比F₀是否大于T₁。如果大于T₁，可判断此帧为语音段的起始帧，进入第八步；如果小于T₁，则可判断此帧为噪声帧，增加读取帧的序号n＝n+1，读取下一帧的短时幅熵比，进入第十步。

第七步，前一帧是语音帧时，对当前帧的识别

若当前帧的F_n大于T₂：F_n>T₂，则可判定当前帧仍然为语音帧，进入第八步。如果F_n<T₂，则可判定当前帧的前一帧为语音段的终止帧，当前帧为噪声帧的起始帧，进入第九步。

第八步，如果帧的序号n等于分帧数S：n＝S，识别结束；如果n≠S，则下一帧的序号n为：n＝n+1，读取该帧的短时幅熵F_n，并进入第七步。

第九步，如果帧的序号n等于分帧数S：n＝S，识别结束；如果n≠S，则下一帧的序号n为：n＝n+1，读取该帧的短时幅熵Fn，并进入第十步。

第十步，前一帧是纯噪声帧时，对当前帧的识别

若当前帧的F_n大于T₁：F_n>T₁，则判定当前帧为语音段的起始帧，进入第八步；否则，判断当前帧的F_n是否大于T₂。如果大于T₂，则判定当前帧为语音的潜在帧，并记录该帧的序号i＝n，进入第十一步。如果小于T₂，则认为当前帧仍为噪声帧。进入第十三步。

第十一步，如果帧的序号n等于分帧数S：n＝S，识别结束；如果n≠S，则下一帧的序号n为：n＝n+1，读取该帧的短时幅熵F_n，并进入第十二步。

第十二步，前一帧是潜在帧时，对当前帧的判断

若当前帧的F_n大于T₁，则可判定序号为i的语音潜在帧为语音段的起帧；否则，判断当前帧的F_n是否小于T₂。如果不小于T₂，则可认为当前帧还是潜在语音帧，进入第十一步。如果小于T₂，则认为当前帧是纯噪声帧，进入第十三步。

第十三步，根据帧的序号n是否等于分帧数S，判断对帧的识别否结束。如果n＝S，识别结束；如果n≠S，识别没有结束，则进入第十四步

第十四步，阈值更新

首先，将当前帧替换10帧窗长中的首帧，并列于10帧之尾，同时当前帧的F_n替换10帧窗长中首帧的短时幅熵。分别计算调整以后的10帧均值E，及其最大值M；

其次，计算调整以后最大值M和均值E的差值D；

然后，阈值更新：T₁＝0.1D+E，T₂＝0.05D+E。

下一帧的序号n为：n＝n+1，读取该帧的短时幅熵F_n，并进入第十一步。

Claims

1.一种带噪语音端点检测中阈值设定的方法，其特征在于，包括如下步骤：

第一步，采集带噪语音信号，并进行预处理；

第二步，计算幅熵比F_n；

第三步，对幅熵比进行中值滤波，达到平滑滤波的效果；

第四步，设定阈值T₁和T₂；

第五步，对当前帧的判定，根据阈值T₁、T₂从输入信号中找出带噪语音部分的起止点。

2.如权利要求1所述的带噪语音端点检测中阈值设定的方法，其特征在于，计算幅熵比

3.如权利要求1所述的带噪语音端点检测中阈值设定的方法，其特征在于，取10帧作为固定窗长，选择前10帧作为初始固定窗长，计算窗长中每一帧的幅熵比F_n，计算F_n在固定窗长内的均值E和最大值M，计算最大值M和均值E的差值D，设定阈值T₁＝0.1D+E，T₂＝0.05D+E。

4.如权利要求1所述的带噪语音端点检测中阈值设定的方法，其特征在于，对当前帧的判定，根据阈值T₁、T₂从输入信号中找出带噪语音部分的起止点，具体过程如下：

若当前帧为首帧，判断首帧的F_n是否大于T₁，如果大于，则判断此帧为带噪语音帧的起始点；如果小于，则判断此帧为纯噪声帧；

若当前帧的前一帧已经判定为带噪语音帧，则判断当前帧的F_n是否大于T₂。如果大于，则判定当前帧仍然为带噪语音帧，如果小于，则判定当前帧的前一帧为语音段的终点，噪声段从当前帧开始；

若当前帧的前一帧已被判定为纯噪声帧，则判断当前帧的F_n是否大于T₁，如果大于T₁，则认为当前帧为语音段的起始点，否则，需进一步判断当前帧的F_n是否大于T₂，如果当前帧的F_n大于T₂，则判定当前帧为语音的潜在帧，并将该帧序号i保存，如果小于T₂，则认为当前帧仍为纯噪声帧，并且以此帧的F_n更新E和M；

若当前帧的前一帧为语音的潜在帧，则判断当前帧的F_n是否大于T₁，如果大于，则判定当前帧为带噪语音帧，并且序号为i的帧为带噪语音的起始帧；否则，需进一步判断当前帧的F_n是否大于T₂；如果大于T₂，则认为此帧依然是潜在语音帧，如果小于T₂，则认为当前帧为纯噪声帧，并且以此帧的F_n更新E和M。

5.如权利要求2所述的带噪语音端点检测中阈值设定的方法，其特征在于，计算幅熵比F_n时，首先，根据式(1)计算第n帧信号在频域中第k个频率分量的归一化谱概率密度函数p_n(k)：

<mrow> <msub> <mi>p</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>Y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mfrac> <mi>N</mi> <mn>2</mn> </mfrac> </msubsup> <msub> <mi>y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式中，y_n(i)——第n帧的带噪语音信号；Y_n(k)——第n帧y_n(i)FFT变换后在频域第k个频率分量的能量谱；N——FFT变换的长度；

其次，根据式(2)计算第n帧信号的短时谱熵：

<mrow> <msub> <mi>H</mi> <mi>n</mi> </msub> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>/</mo> <mn>2</mn> </mrow> </munderover> <msub> <mi>p</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <msub> <mi>logp</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

再次，计算第n帧信号的短时幅值M：

<mrow> <msub> <mi>M</mi> <mi>n</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>L</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>|</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式中——L为帧长；

然后，计算一帧信号的短时幅熵比F_n。

6.如权利要求4所述的带噪语音端点检测中阈值设定的方法，其特征在于，阈值T₁，T₂的更新过程为：

最后，阈值更新为：T₁＝0.1D+E，T₂＝0.05D+E。