CN112837704A

CN112837704A - 一种基于端点检测的语音背景噪声识别方法

Info

Publication number: CN112837704A
Application number: CN202110025325.5A
Authority: CN
Inventors: 龙华; 罗思洋; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-25

Abstract

本发明涉及一种基于端点检测的语音背景噪声识别方法，属于语音信号处理技术领域。首先对带有背景噪声的语音信号进行预处理，预处理包括预加重、分帧和加窗等步骤；其次，提取每一帧语音信号的GFCC₀特征，通过模糊C均值聚类法计算该段语音信号GFCC₀特征的聚类中心，利用GFCC₀特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段；然后，截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征；最后，通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率，判定所提噪声段的种类，实现语音信号背景噪声的识别。本发明解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。

Description

一种基于端点检测的语音背景噪声识别方法

技术领域

本发明涉及一种基于端点检测的语音背景噪声识别方法，属于语音信号处理技术领域。

背景技术

随着语音信号处理技术的不断发展，语音端点检测已经广泛应用到了语音识别、语音增强和音频分类技术的前端。语音端点检测方法分为基于特征的方法和基于模式识别的方法，其中基于模式识别的方法在训练过程中需要大量的数据，导致计算量较大，难以达到端点检测的实时性要求，所以基于特征的方法是实时性语音端点检测的主流。在基于特征的语音端点检测方法中只有选用噪声环境下对语音段追踪能力较强的特征才能取得较好的端点检测结果。由于语音信号的GFCC特征具有较好的抗噪性能，因此将GFCC特征的第一维系数GFCC₀特征运用到语音端点检测任务中。

日常生活中，语音信号的传递总是带有这样或那样的噪声，对带噪语音信号的背景噪声进行识别，可以为说话人所处场景的识别提供帮助。但是现有的语音信号背景识别方法是通过前导无话段进行识别的，这样就出现了两个问题：(1)前导无话段帧数过短导致背景噪声的识别效果不佳；(2)前导无话段除包含噪声帧外可能还包含语音帧，语音帧同样会对背景噪声的识别效果产生影响。

发明内容

本发明要解决的技术问题是提供一种基于端点检测的语音背景噪声识别方法，将语音信号的GFCC₀特征运用到语音端点检测任务中，并基于端点检测技术截取语音信号的噪声段进行识别，解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题。

本发明的技术方案是：一种基于端点检测的语音背景噪声识别方法，将语音信号的GFCC₀特征运用到语音端点检测任务中，并基于端点检测技术截取语音信号的噪声段进行识别，解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题，具体步骤为：

Step1：对带有背景噪声的语音信号进行预处理。

Step2：利用Gammatone滤波器提取每一帧的语音信号的GFCC特征，取信号GFCC特征的第一维得到语音信号的GFCC₀特征。

Step3：通过模糊C均值聚类法计算该段语音信号GFCC₀特征的聚类中心。

Step4：利用GFCC₀特征的聚类中心和双门限法对语音进行端点检测，将语音信号分为若干个语音段和噪声段。

Step5：根据端点检测的结果截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征。

Step6：通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率，实现语音信号背景噪声的识别。

所述Step1中，预处理包括预加重处理、分帧处理和加窗处理，具体的说：

预加重处理：就是将语音信号通过一个高通滤波器，提升语音信号的高频部分。

分帧处理：语音信号在10-30ms内具有短时平稳性，分帧处理就是在短时平稳性的基础上将语音信号分为若干个小段，每个小段为一帧，帧与帧之间有一定的重叠，重叠部分一般为帧长的1/2，帧与帧之间的重叠部分使帧信号之间能够平滑过渡。

加窗处理：加窗的目的在于减少语音信号的频谱泄漏，常用的窗有矩形窗、汉宁窗和海明窗等。

所述Step2中，Gammatone滤波器的时域脉冲响为：

h(t)＝gt^a-1e^-2πbtcos(2πft)，t＞0 (1)

式(1)中，g为Gammatone滤波器的增益，a为个数，f为中心频率，t为时间，b为带宽，b是以中心频率f为基础计算得到的。

所述Step2中，提取GFCC特征的具体步骤为：

Step2.1：对分帧后的信号进行FFT变换，然后计算该帧语音信号的谱线能量E_i(k)：

E_i(k)＝[X_i(k)]² (2)

式(2)中，i表示语音信号的帧序号，k表示谱线的序号。

Step2.2：谱线能量E_i(k)通过Gammatone滤波器后进行指数压缩：

式(3)中，H_m(k)为Gammatone滤波器频率响应，M为滤波器个数，m为滤波器的序号，e为指数压缩值。

Step2.3：对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征：

式(4)中，n为GFCC特征的维数，M为滤波器个数，m为滤波器的序号，S′_i(m)为指数压缩后的能量。

Step2.4：取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC₀特征G_i。

所述Step3中，GFCC₀特征聚类中心的计算是通过模糊C均值聚类法计算得到的，在计算时选取的聚类中心个数为2。

所述Step4中，端点检测的具体步骤为：

Step4.1：使用模糊C均值聚类法计算语音信号GFCC₀特征的聚类中心{m₁₁,m₁₂}，其中：

式(5)中，m_vioce表示语音段GFCC₀特征G_i的聚类中心，m_noise表示噪声段GFCC₀特征G_i的聚类中心。

Step4.2：根据语音信号GFCC₀特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值：

式(6)中，T_h为双门限的高门限值，T_l为双门限的低门限值。

Step4.3：将高门限值T_h和低门限值T_l分别作为双门限法的高低门限，通过双门限法得到语音端点检测的结果。

Step4.4：带噪语音信号是由语音段和噪声段共同构成的，通过端点检测语音信号被分为若干个语音段和噪声段。

所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。

所述Step5中，短时过零率表示为：

式(7)中，y(n)表示所提噪声段信号在该采样点下的幅值，L表示帧长，sgn[·]表示符号函数。

短时能量表示为：

式(8)中，y(n)表示所提噪声段信号在该采样点下的幅值，L表示帧长，n＝1,2,...,L。

所述Step6中，需要设定噪声段短时能量E和短时过零率Z的分布范围，根据噪声段中满足分布范围的最大帧数占噪声段总帧数的概率，对噪声所属的种类进行判定，最终实现语音信号背景噪声的识别。

本发明的有益效果是：本发明与现有技术相比，将抗噪性能较好的GFCC₀特征运用到语音端点检测任务中，并基于端点检测技术截取语音信号的噪声段，解决了由于前导无话段长度不足导致背景噪声识别效果不佳的问题，同时所使用的端点检测方法和噪声识别方法均能达到实时性的要求。

附图说明

图1是本发明的步骤流程图；

图2是本发明提取GFCC₀特征的流程图；

图3是本发明端点检测的流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-3所示，一种基于端点检测的语音背景噪声识别方法，首先对带有背景噪声的语音信号进行预处理，预处理包括预加重、分帧和加窗等步骤；其次，提取每一帧语音信号的GFCC₀特征，通过模糊C均值聚类法计算该段语音信号GFCC₀特征的聚类中心，利用GFCC₀特征的聚类中心和双门限法将语音信号分为若干个语音段和噪声段；然后，截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征；最后，通过统计噪声段满足短时能量和短时过零率分布范围的最大帧数占噪声段总帧数的概率，判定所提噪声段的种类，实现语音信号背景噪声的识别。

具体步骤为：

Step1：对带有背景噪声的语音信号进行预处理。预处理包括预加重处理、分帧处理和加窗处理，具体的说：

待测语音信号均为带有背景噪声的信号，将待测语音信号统一为8kHZ采样率,16bit量化精度的单声道音频文件，分帧时取帧长128个采样点(16ms)，重叠部分64个采样点(8ms)，加窗处理时使用海明窗。

所述Step2中，Gammatone滤波器的时域脉冲响为：

h(t)＝gt^a-1e^-2πbtcos(2πft)，t＞0 (1)

所述Step2中，提取GFCC特征的具体步骤为：

E_i(k)＝[X_i(k)]² (2)

式(2)中，i表示语音信号的帧序号，k表示谱线的序号。

Step2.2：谱线能量E_i(k)通过Gammatone滤波器后进行指数压缩：

所述Step4中，端点检测的具体步骤为：

式(6)中，T_h为双门限的高门限值，T_l为双门限的低门限值。

所述Step5中，短时过零率表示为：

短时能量表示为：

举例为：

(1)假定所有待测语音信号的背景噪声包含volvo、factory1、hfchannel、white和m109五种噪声，且一段待测语音仅包含一种噪声环境。

(2)通过对五种噪声的短时能量进行统计发现：white噪声的短时能量是最小的，其每一帧的短时能量都小于0.065，而其余四种噪声的短时能量都大于该值，其中hfchannel噪声大部分帧的短时能量大于2。

factory1噪声的短时能量主要位于(0.065,1.5)区间内，volvo噪声的短时能量主要位于(0.065,2)区间内，m109噪声的短时能量主要位于(0.065,4)区间内。

(3)通过对五种噪声的短时过零率进行统计发现：volvo噪声的短时过零率最小，大部分帧的短时过零率小于10，而hfchannel噪声和white噪声的短时过零率大部分大于100，m109噪声的短时过零率主要位于(10,30)区间内，factory1噪声的短时过零率主要位于(40,60)区间内。

(4)根据统计结果的主要分布范围计算满足如下条件的帧数：

(a)计算整个音频段中满足0＜E＜0.065的帧数a₁。

(b)计算整个音频段中满足0.065＜E＜2且Z＜10的帧数a₂。

(c)计算整个音频段中满足0.065＜E＜4且10＜Z＜30的帧数a₃。

(d)计算整个音频段中满足0.065＜E＜1.5且40＜Z＜60的帧数a₄。

(e)计算整个音频段中满足2＜E且100＜Z的帧数a₅。

(5)所提噪声段的总帧数为fn，根据满足分布范围的帧数占噪声段总帧数的概率实现语音信号背景噪声的识别：

(a)当a₁＞n₁*fn时，判断该音频段为white噪声。

(b)当a₂＞n₂*fn时，判断该音频段为volvo噪声。

(c)当a₃＞n₃*fn时，判断该音频段为m109噪声。

(d)当a₄＞n₄*fn时，判断该音频段为factory1噪声。

(e)当a₅＞n₅*fn时，判断该音频段为hfchannel噪声。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于端点检测的语音背景噪声识别方法，其特征在于：

Step1：对带有背景噪声的语音信号进行预处理,

Step2：利用Gammatone滤波器提取每一帧的语音信号的GFCC特征，取信号GFCC特征的第一维得到语音信号的GFCC₀特征；

Step3：通过模糊C均值聚类法计算该段语音信号GFCC₀特征的聚类中心；

Step4：利用GFCC₀特征的聚类中心和双门限法对语音进行端点检测，将语音信号分为若干个语音段和噪声段；

Step5：根据端点检测的结果截取出语音信号的噪声段，并提取语音信号噪声段的短时过零率和短时能量两类特征；

2.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step1中，预处理包括预加重处理、分帧处理和加窗处理。

3.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step2中，Gammatone滤波器的时域脉冲响为：

h(t)＝gt^a-1e^-2πbtcos(2πft)，t＞0

式中，g为Gammatone滤波器的增益，a为个数，f为中心频率，t为时间，b为带宽，b是以中心频率f为基础计算得到的。

4.根据权利要求1或2所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step2中，提取GFCC特征的具体步骤为：

Step2.1：对分帧后的信号进行FFT变换，然后计算该帧语音信号的谱线能量E_i(k)；

Step2.2：谱线能量E_i(k)通过Gammatone滤波器后进行指数压缩；

Step2.3：对指数压缩后的能量进行离散余弦变换得到每一帧信号的GFCC特征；

Step2.4：取每一帧信号GFCC特征的第一维系数得到语音信号的GFCC₀特征。

5.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step3中，GFCC₀特征聚类中心的计算是通过模糊C均值聚类法计算得到的，在计算时选取的聚类中心个数为2。

6.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step4中，端点检测的具体步骤为：

Step4.1：使用模糊C均值聚类法计算语音信号GFCC₀特征的聚类中心；

Step4.2：根据语音信号GFCC₀特征的聚类中心和经验常数自适应计算该段语音信号的高门限值和低门限值；

Step4.3：将高门限值和低门限值分别作为双门限法的高低门限，通过双门限法得到语音端点检测的结果；

7.根据权利要求1所述的基于端点检测的语音背景噪声识别方法，其特征在于：所述Step5中的噪声段截取是指将带噪语音信号中的所有噪声段截取出来。