CN109785865A

CN109785865A - 基于短时能零比的广播语音与噪声检测的方法

Info

Publication number: CN109785865A
Application number: CN201910171499.5A
Authority: CN
Inventors: 袁三男; 刘虹
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power; University of Shanghai for Science and Technology
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2019-05-21

Abstract

本发明涉及一种基于短时能零比的广播语音与噪声检测的方法，对输入的语音信号进行分帧；计算每帧语音信号的短时能量；计算每帧语音信号的短时平均过零率；计算每帧信号的短时能量与短时平均过零率的比值，即能零比；对一秒内所有帧能零比进行方差计算，得到的方差与设置阈值进行比较，当方差大于设定阈值时，判断为语音，方差小于设定阈值时，判定为噪声。将语音中噪声识别区分出，便于提升广播或其他声音处理中的声音的清晰度。

Description

基于短时能零比的广播语音与噪声检测的方法

技术领域

本发明涉及一种语音识别技术，特别涉及一种基于短时能零比的广播语音与噪声检测的方法。

背景技术

调频广播中经常听到“呲呲”的声音，是一种叫做似高斯噪声中高幅值部分的失真引起的。这种典型的现象就是听众没有将收音机准确的调到某个台。在现实生活中，一些人的声音和这些噪声极为相似，因此，使用傅里叶变换就很难将这些噪声和语音区分开来，在背景噪声较小的情况下，短时能量比较准确，但是当背景噪声比较大的时候，短时平均过零率可以获得较好的检测结果。

发明内容

本发明是针对调频广播中嘈杂声难识别区分的问题，提出了一种基于短时能零比的广播语音与噪声检测的方法，正确将噪声识别区分出。

本发明的技术方案为：一种基于短时能零比的广播语音与噪声检测的方法，具体包括如下步骤：

1)对输入的语音信号进行分帧：设定帧长大小，帧长范围为10～30ms，根据设定对输入的语音信号进行分帧；

2)计算每帧语音信号的短时能量：语音信号x(n)分帧后第i帧的语音信号为y_i(n)，y_i(n)的短时能量为E(i)；

其中L为帧长；

3)计算每帧语音信号的短时平均过零率，即每帧内信号通过零值的次数：第i帧的语音信号y_i(n)的短时平均过零率为Z(i)；

其中sgn[·]是符号函数；

4)计算每帧信号的短时能量与短时平均过零率的比值，即能零比；

5)对一秒内所有帧能零比进行方差计算，得到的方差与设置阈值Th进行比较，当方差大于设定阈值Th时，判定为语音，方差小于设定阈值Th时，判定为噪声；

6)进行下一秒内所有帧能零比的方差计算，同步骤5)进行同样判断方法判定噪声，直到步骤1)分帧后的输入的语音信号全部判定完毕。

本发明的有益效果在于：本发明基于短时能零比的广播语音与噪声检测的方法，将语音中噪声识别区分出，便于提升广播或其他声音处理中的声音的清晰度。

附图说明

图1为本发明基于短时能零比的广播语音和噪声检测流程图。

具体实施方式

如图1所示基于短时能零比的广播语音和噪声检测流程图，方法具体步骤如下：

1)对输入的语音信号进行分帧。由于语音信号是一个非稳态、时变的信号，但是可以在“短时间”范围内认为语音信号是稳态的，时不变的。这个短时间一般指10～30ms，本发明采用的帧长为20ms；

2)计算每帧语音信号的短时能量。一般语音信号的能量随时间变化比较明显，并且噪声的能量比语音的能量小很多，语音信号x(n)分帧后第i帧的语音信号为y_i(n)，y_i(n)的短时能量E(i)为；

其中L为帧长；n为语音信号中第n个数据。

3)计算每帧语音信号的短时平均过零率，即每帧内信号通过零值的次数。对于离散信号，实质上就是信号采样点符号变化的次数。在语音段，一般具有较低的过零率，而在噪声段具有较高的过零率。但是这种高低仅是相对而言的，没有精确的数值关系，第i帧的语音信号y_i(n)的短时平均过零率Z(i)为(2)；

其中sgn[·]是符号函数。

4)计算每帧信号的短时能量与短时平均过零率的比值，即能零比，因为噪声信号的平均过零率高，短时能量小，而语音信号的短时平均过零率低，而短时能量比较高，因此语音信号的能零比就更高，而噪声信号的能零比就更低。

5)由于噪声的能零比的波动程度比语音信号小，计算每帧音频的能零比，用以判定每秒的音频是噪声还是语音，每帧长20ms，因此1s内有50帧。

6)对一秒内50帧能零比进行方差计算，得到的方差可以反映信号的波动程度，因此根据噪声的情况，设置一个阈值Th。方差大于设定阈值Th时，判定为语音，方差小于设定阈值Th时，判定为噪声。

7)进行下一秒内50帧能零比的方差计算，同步骤6)进行同样判断方法判定噪声，直到步骤1)分帧后的输入的语音信号全部判定完毕，输出无噪声语音。

Claims

1.一种基于短时能零比的广播语音与噪声检测的方法，其特征在于，具体包括如下步骤：

其中L为帧长；

其中sgn[·]是符号函数；