CN1622193A

CN1622193A - 一种语音信号检测方法

Info

Publication number: CN1622193A
Application number: CNA2004101025375A
Authority: CN
Inventors: 施健标; 杨劲松; 傅群; 焉勇
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2004-12-24
Filing date: 2004-12-24
Publication date: 2005-06-01
Anticipated expiration: 2024-12-24
Also published as: CN1271593C

Abstract

本发明公开了一种语音信号检测方法，用以解决现有技术中作为语音信号帧和静音帧判断标准的语音能量阀值不能根据实际情况动态修改，导致语音信号的判断不够准确的问题。本发明方法先获取一检测周期内的音频流数据，并按时间等分成若干帧，计算出每一帧的能量值，并与语音能量阀值比较，确定语音帧；再将所述检测周期内的每一帧的能量值分别与语音能量阀值相比较，若大于等于当前语音能量阀值的帧数多，则取该检测周期内各帧的最大能量值与当前语音能量阀值的平均值作为下一检测周期的语音能量阀值，否则取该检测周期内各帧的最小能量值与当前语音能量阀值的平均值；不断循环，直至所述音频流处理完毕。

Description

一种语音信号检测方法

技术领域

本发明涉及音频传输领域，特别是涉及一种语音信号检测方法。

背景技术

通常人们互相交谈过程中，语音信号只占整个音频流的50％，而在视频会议或者视频聊天等VOIP(Voice Over IP，以IP网络为载体的语音传输技术)业务中，甚至会更低。因此把语音信号从音频流中提取出来，对于节约系统资源是十分必要的。将语音信号从音频流中提取出来后，则只需要保存、处理所述语音信号的数据，其他部分的数据则可以忽略掉，从而降低了存储空间。对于VOIP业务，还可以减少数据传输量，节约网络带宽，减少网络堵塞，提高语音质量。

为了达到这一目的，目前本领域(例如：应用十分广泛的语音编码器GSM、G273)应用一种语音信号判断方法VAD(Voice Active Detection，语音活动检测)。它是根据语音信号的特性，将音频流按25毫秒等分成若干帧，并对每帧的平均能量、平均过零率等参数进行分析计算，将计算结果与事先设定的阀值比较，如果高于已设定的阀值，则认为是语音信号帧，否则认为是静音帧。采用VAD技术，编解码器可以对语音信号帧进行正常的编码，对静音帧则只需标记为静音帧，这样使数据量大为降低，使编码效率大为提高。然而，在多数情况下，VAD技术并不能够准确有效地判断语音信号，这是由于音频信号的来源错综复杂，而作为语音信号帧和静音帧判断标准的语音能量阀值是事先设定好的，不能根据实际情况动态修改，所以导致语音信号的判断不够准确，无法有效的屏蔽噪音，使得音频流回放时仍然伴有连续的噪声。

在实际获取、处理音频流时，首先，说话人的环境不同，会有各种各样的噪音。如公路的汽车轰鸣声、机房里的机器噪音、雨天时的下雨声等等。这些可能是有规律的连续噪音，也可能是无规律的突发噪音，这些背景音会不同程度的影响语音质量。其次，音频采集设备也可能产出噪音。例如：50Hz或60Hz电源就是主要的噪音源，组成采集设备的电子器件也能产生噪音，这就是为什么有些计算机在没有插麦克风的情况下，仍然可以录出噪音的原因。另外，音频采集设备的做工、选材以及类型不同所产生的噪音影响也不同。常见计算机音频采集设备有声卡、采集卡以及内嵌在摄像头的采集设备。其中声卡应用最为广泛，已成为计算机的标准配置，而采集卡采集声音质量最好，内嵌在摄像头中的采集设备采集声音质量较差。最后，声音在数模转换时也会引入噪音。声音在空气中以波的形式传播，是一种模拟信号，经过采集设备采集后转换成数字信号，这就需要采样和量化。人耳的听觉范围在20-20KHz，根据NYQUIST(奈奎斯特)抽样定律要保证声音不失真，就必须用44KHz左右采样频率，由于人的语音频率范围在300-3400Hz，所以对人声的采样大多数情况下采用8KHz的采样频率。采样后需要对每个采样点进行量化，常用的量化方式有两种，一种8位量化，另一种16位量化。采用的位数越少，失真越大，引入越大的噪音，目前，绝大多数采用的是16位量化方式。

图1所示为日常生活中录制的语音的音频流波形图，录制的环境是办公室，伴有机器轰鸣声，采集设备是内嵌式的，噪音信号比较强，采用VAD技术无法有效的识别其中的语音信号和噪音信号，因此在回放时伴有大量连续的噪音。

基于VAD技术，为了达到更好的语音效果，有些VOIP系统对其做了一些改进，其提供了一种自动控制麦克风音量技术，也就是判断噪音值，当噪音较大时，则自动降低麦克风的采集音量。这种技术可以使得噪音降低，听觉上相对较好，但也同时降低了语音信号的能量而导致语音音量下降，无法听清语音信息。

发明内容

本发明提供一种语音信号检测方法，用以解决现有技术中作为语音信号帧和静音帧判断标准的语音能量阀值不能根据实际情况动态修改，导致语音信号的判断不够准确，无法有效屏蔽噪音的问题。

本发明提供的语音信号检测方法，包括下列步骤：

A、获取一检测周期内的音频流数据，并按时间等分成若干帧，计算出每一帧音频流数据的能量值，并与语音能量阀值比较；若大于等于所述语音能量阀值，则标识为语音帧，否则标识为静音帧；

B、统计当前周期内大于等于所述语音能量阀值的帧数和小于所述语音能量阀值的帧数；若大于等于所述语音能量阀值的帧数多，则取该周期内各帧的最大能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值；否则，取该周期内内各帧的最小能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值；

C、转至步骤A，重复以上检测过程，直至全部音频流数据处理完毕。

所述语音能量阀值的初始值为一预设值。

所述步骤B中统计当前周期内大于等于所述语音能量阀值的帧数和小于所述语音能量阀值的帧数，具体方法为：

设置一个第一计数器，预设初始值为0，若当前帧的能量值大于等于当前语音能量阀值，则使该计数器加1；当前周期内的全部帧比较完毕后，该第一计数器的值即为当前周期内大于等于所述语音能量阀值的帧数；

设置一个第二计数器，预设初始值为0，若当前帧的能量值小于当前语音能量阀值，则使该计数器加1；当前周期内的全部帧比较完毕后，该第二计数器的值即为当前周期内小于所述语音能量阀值的帧数。

所述计算出每一帧音频流数据的能量值，具体方法为：对该帧中的每一个采样点的幅值平方后，再加权平均得到。

所述计算出每一帧音频流数据的能量值，具体方法为：对该帧中的每一个采样点的幅值取绝对值后，再加权平均得到。

所述一帧数据为连续2毫秒的音频流数据。

所述检测周期为500毫秒。

本发明将一检测周期内的各帧的能量值分别与当前语音能量阀值进行比较，得出能量值大于及小于当前语音能量阀值的帧数，再将二者进行比较，若能量值大于当前语音能量阀值的帧数多，则取该检测周期内各帧的最大能量值与当前语音能量阀值的平均值作为新的语音能量阀值，否则取该检测周期内各帧的最小能量值与当前语音能量阀值的平均值作为新的语音能量阀值；利用这种方法在处理音频流的过程中不断循环，可以每隔一个规定时间(检测周期)更改一次语音能量阀值，使得作为语音信号帧和静音帧判断标准的语音能量阀值不再是一个事先设定好的固定值，而是随着实际情况的变化，相应实时动态地改变，从而达到更加准确的辨别语音信号的效果，进而达到有效屏蔽噪音信号，提高语音质量的目的。

附图说明

图1所示为日常生活中音频流波形图；

图2所示为本发明方法步骤流程图；

图3所示为本发明方法中新阀值计算流程图。

具体实施方式

本发明涉及一种语音信号检测方法，图2为本发明方法的步骤流程图，图3为本发明方法中新阀值计算流程图。下面结合附图2和附图3，描述本发明方法的具体实施方法。

S1、获取一检测周期内的音频流数据，并按时间等分成若干帧，计算出每一帧音频流数据的能量值，并与语音能量阀值比较；若大于等于所述语音能量阀值，则标识为语音帧，否则标识为静音帧。

由于语音信号的复杂性，通常情况下无规律可寻，但在短时情况下是具有规律性的，所以为了便于分析处理，需要对音频流进行分割。例如：将音频流按时间为2ms/帧进行分割，这样在采样率为8KHz时，每帧可以采集到16个样本，而在采样率为16KHz时，则每帧可以采集到32个样本。由于本发明是按时间片进行数据帧分割，所以可以适应于各种采样频率下的语音检测。

本发明预定义一个检测周期，并预设一个语音能量阀值初始值。所述检测周期，例如可以是500毫秒，该检测周期不宜设置太短，因为设定的时间太短会导致频繁的修改语音能量阀值，丢失语音信号的相关性，造成误将大量语音信号判为静音信号；也不宜设置太长，因为设定的时间过长，则在音频流进程时间内语音能量阀值的变更次数太少，造成误将大量静音信号误判为语音信号，这样就失去了动态修改语音能量阀值的意义。

以音频流按2ms/帧进行分割为例，先取第一个2ms的音频流数据，即第一帧音频流数据，计算出该帧音频流数据的能量值，具体计算方法有如下两种：

方法之一：对这一帧中的每一个采样点的幅值平方后，再加权平均；

其计算公式为：

W = \frac{1}{N} Σ_{i = 1}^{N} S^{2}

方法之二：对这一帧中的每一个采样点的幅值取绝对值后，再加权平均；

其计算公式为：

W = \frac{1}{N} Σ_{i = 1}^{N} | S |

式中N表示在所述一帧中采样的个数；S表示采样点的幅值；得到该帧音频流数据的能量值W。

采用第一种计算方法得到的结果比较精确，后续步骤达到的效果较好，但其运算较复杂，对系统资源的消耗较大；采用第二种计算方法得到的结果精确度相对较差，但运算过程简单，对系统要求不高。用户可根据自身条件及要求选择一种计算方法。

计算得出当前帧音频流数据的能量值后，若该帧的能量值大于等于当前语音能量阀值，则标识该帧为语音帧；同时，设置一个大于等于当前语音能量阀值的帧计数器，预设初始值为0，若当前帧的能量值大于等于当前语音能量阀值，则使该计数器加1。若当前帧的能量值小于当前语音能量阀值，则标识该帧为静音帧；同时设置一个小于当前语音能量阀值的帧计数器，预设初始值为0，若当前帧的能量值小于当前语音能量阀值，则使该计数器加1。如此循环，判断该检测周期内的每一帧是语音帧或是静音帧。

S2、根据当前检测周期内统计的数据，计算并变更语音能量阀值。

结合上一步骤判断是语音帧或是静音帧的过程，在计算得到第一帧音频流数据的能量值后，将其置为当前最大能量值及最小能量值。

处理完第一帧音频流数据后，取第二帧音频流数据，通过上述公式计算得出第二帧音频流数据的能量值。将其与当前最大能量值及最小能量值分别比较，若大于当前最大能量值，则将其置为新的最大能量值，若小于当前最小能量值，则将其置为新的最小能量值；与此同时将该能量值与当前语音能量阀值相比较，若大于等于当前语音能量阀值，则将大于等于当前语音能量阀值的帧计数器加1，若小于当前语音能量阀值，则将小于当前语音能量阀值的帧计数器加1。

如此循环，直到设定的500ms时间到达，即处理了250个音频帧后，对所述的两个计数器的计数值进行比较，若大于等于当前语音能量阀值的计数器统计的帧数比小于当前语音能量阀值的计数器统计的帧数要多，则取该500ms内各帧的最大能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值，否则取该500ms内各帧的最小能量值与当前语音能量阀值的平均值作为下一个检测周期的语音能量阀值。这样在第一个500ms到达时，原预设的语音能量阀值被更新为通过对实时采集到的语音信号量化后，计算、统计得到的新的能量值。

S3、转至步骤S1，重复以上检测过程，直至全部音频流数据处理完毕。

在对第一个500ms内的数据进行统计、计算并变更了语音能量阀值后，将进入第二个500ms，在进入第二个500ms之前需要对所述两个计数器及当前最大能量值和当前最小能量值清零，确保第二个500ms内的数据统计准确。在这个500ms的时间内，则以上一500ms更新后的语音能量阀值为比较对象，以此类推，不断根更新语音能量阀值，直至所述音频流处理完毕。

采用本方法可以每隔500ms对语音能量阀值进行一次更新，这样可以适应各种复杂的语音环境，输出更好的语音效果。

Claims

1、一种语音信号检测方法，其特征在于包括下列步骤：

2、如权利要求1所述的方法，其特征在于，所述语音能量阀值的初始值为一预设值。

3、如权利要求2所述的方法，其特征在于，所述步骤B中统计当前周期内大于等于所述语音能量阀值的帧数和小于所述语音能量阀值的帧数，具体方法为：

4、如权利要求1所述的方法，其特征在于，所述计算出每一帧音频流数据的能量值，具体方法为：对该帧中的每一个采样点的幅值平方后，再加权平均得到。

5、如权利要求1所述的方法，其特征在于，所述计算出每一帧音频流数据的能量值，具体方法为：对该帧中的每一个采样点的幅值取绝对值后，再加权平均得到。

6、如权利要求1所述的方法，其特征在于，所述一帧数据为连续2毫秒的音频流数据。

7、如权利要求1所述的方法，其特征在于，所述检测周期为500毫秒。