CN106992003A

CN106992003A - 语音信号自动增益控制方法

Info

Publication number: CN106992003A
Application number: CN201710181857.1A
Authority: CN
Inventors: 李云飞
Original assignee: Shenzhen Beidou Satellite Mdt Infotech Ltd
Current assignee: Shenzhen Beidou Satellite Mdt Infotech Ltd
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-07-28

Abstract

一种语音信号自动增益控制方法，包括获得来自麦克风的语音信号；将语音信号进行时域预处理，以得到第一信号；将第一信号从时域向频域变换，以得到第二信号；从第二信号中提取出描述人声特征的基音、共振峰频点；将前256个频点划分为16个语音频段；根据频点的有效性判断是语音帧还是静音帧，如果有效则认为当前是有人说话的语音帧，如果无效则视为无人说话的静音帧；对于语音帧执行增益的自动调整算法，对于静音帧执行非人声噪声幅度计算算法，以得到第三信号；将第三信号通过快速傅立叶逆变换转回时域以得到第四信号；根据第四信号通过DAC电路输出语音。本发明避免了在增强人声信号的同时，放大了背景噪声的问题。

Description

语音信号自动增益控制方法

技术领域

本发明涉及语音信号处理领域，特别涉及一种语音信号自动增益控制方法。

背景技术

传统的语音自动增益控制(AGC)电路通过识别麦克风采集到的语音信号的强度，自动调整功率放大电路的增益，即当人说话时离麦克风近、人声信号强度大，则降低功放电路增益，而当人说话时离麦克风远、语音强度低，则调高功放增益。这一调整方法存在的弊端是在增强人声信号的同时，也放大了背景噪声，对于需要较高语音品质的网络语音通信类产品、语音识别类产品，强的噪声会造成较大的干扰。

发明内容

本发明提供了一种语音信号自动增益控制方法，以解决现有技术在增强人声信号的同时，也放大了背景噪声，对于需要较高语音品质的网络语音通信类产品、语音识别类产品，强的噪声会造成较大的干扰的问题。

为解决上述问题，作为本发明的一个方面，提供了一种语音信号自动增益控制方法，包括：获得来自麦克风的语音信号；将所述语音信号进行时域预处理，以得到第一信号；将所述第一信号从时域向频域变换，以得到第二信号；从所述第二信号中提取出描述人声特征的基音、共振峰频点；将前256个所述频点划分为16个语音频段；根据所述频点的有效性判断是语音帧还是静音帧，如果有效则认为当前是有人说话的语音帧，如果无效则视为无人说话的静音帧；对于语音帧执行增益的自动调整算法，对于静音帧执行非人声噪声幅度计算算法，以得到第三信号；将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号；根据所述第四信号通过DAC电路输出语音。

优选地，所述方法还包括：如果在当前语音帧中未找到人声特征信息，则当前语音帧被视为静音帧，此时对非人声噪声幅度进行估算，并依次计算16个语音频段的噪声幅度值并记录。

优选地，对非人声噪声幅度进行估算，并依次计算16个语音频段的噪声幅度值并记录包括：

步骤1，采用下式计算每个语音段的噪声幅度：

其中，A_f为噪声幅度；

μ为前一语音帧所有频段噪声幅度值的均值；

σ为当前频段前一帧的、幅度值的、与μ的标准差；

A_测量为当前频段处的实测各频点噪声幅度的累加值；

A_估计为使用最小二乘算法、拟合当前语音频段噪声参数队列中前16个当前频段处的噪声幅度值，得到的一个当前频点最新噪声估计值；

步骤2，将步骤1计算出的当前语音频段的Af加入语音频段噪声参数队列末尾，队列采用先进先出模式，一直维持最新的16个计算值；

步骤3，当前静音帧所有语音频段的噪声幅度值均计算完后，计算μ、σ值，加入到语音频段噪声参数队列，这一队列中保存的数据将在下一个静音帧到来时运用到步骤1中的计算公式中。

优选地，在语音帧中通过对256个语音频点逐点调整语音的频域幅度值，从而完成语音增益的自动调整。

优选地，所述自动调整算法具体包括：步骤a，设置语音帧噪声比例因子初始值Kn＝1；步骤b，依次计算16个语音频段中各频点实测幅度的累加值，并除以该频段语音频段噪声参数队列中最后一个Af值，得到每个语音频段的噪声比例因子Knf；步骤c，遍历16个语音频段的Knf，找出Knf<1.5的值中最大的一个，并将其赋值给Kn，如找不到符合条件的Knf，则保持Kn＝1不变；步骤d，执行增益自动调整操作，使用下式逐频点计算调整后的幅度值：

Ag＝G(Ar-Kn*Af)

其中，G为增益比例调节因子，由用户通过旋钮进行调整；Ar为当前频点实测的幅度值。

优选地，Af是出现语音帧前，最后一个静音帧的噪声幅度值，从语音频段噪声参数队列末尾取出。

由于采用了上述技术方案，本发明中的方法可依据人的听觉模型，仅对语音信号中包含的有效人声进行信号强度的自动调整，因此避免了在增强人声信号的同时，放大了背景噪声的问题，解决了对于需要较高语音品质的网络语音通信类产品、语音识别类产品，强的噪声会造成较大的干扰的问题。

具体实施方式

以下对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明提供了一种语音信号自动增益控制方法，包括以下步骤：

步骤A，获得来自麦克风的语音信号；其中，该语音信号由麦克风电路接收，经过4000Hz的低通滤波器电路、100Hz的高通滤波器电路、14Bits ADC转换电路，将语音信号送入主控DSP；

步骤B，将所述语音信号进行时域预处理，以得到第一信号；例如，由主控DSP完成语音信号的时域预处理，包括语音信号的8KHz 16bits采样、加海明窗处理；

步骤C，通过DSP将所述第一信号从时域向频域变换，以得到第二信号；例如，使用512点快速傅立叶变换(FFT)算法，获得语音信号的频域512个频点的幅度谱；

步骤D，使用MEL倒谱算法，从所述第二信号中提取出描述人声特征的基音、共振峰频点；

步骤E，将前256个所述频点划分为16个语音频段；

步骤F，根据所述频点的有效性判断是语音帧还是静音帧，如果有效则认为当前是有人说话的语音帧，如果无效则视为无人说话的静音帧；

步骤G，对于语音帧执行增益的自动调整算法，对于静音帧执行非人声噪声幅度计算算法，以得到第三信号；

步骤H，将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号；

步骤I，根据所述第四信号通过DAC电路输出语音。

由于流畅的网络语音(VOIP)核心在于以较小的带宽传输尽可能高质量的语音，则语音压缩的核心是只将有效人声进行压缩，而背景或噪声信号尽可能的抛弃，因此尽可能的放大人声、压制背景声、噪声能够明显的降低语音数据流对带宽的要求；语音识别类应用产品，为了提高语音的识别成功率，也需要尽可能纯净的人声信号作为输入，即需要同时放大人声并压制噪声，因此本发明能最大程度的提升前述两类已经广泛应用的技术的品质及效果。

优选地，所述方法还包括：如果在当前语音帧中未找到人声特征信息，则当前语音帧被视为静音帧，此时对非人声噪声幅度进行估算，并依次计算16个语音频段的噪声幅度值并记录。具体地说，通过下述步骤1-3计算静音帧噪声幅度：

步骤1，采用下式计算每个语音段的噪声幅度：

其中，A_f为噪声幅度；

μ为前一语音帧所有频段噪声幅度值的均值；

σ为当前频段前一帧的、幅度值的、与μ的标准差；

A_测量为当前频段处的实测各频点噪声幅度的累加值；

静音帧噪声估计算法的核心思想是：由于背景噪声在微小(小于1秒)的时间区间内，是不会发生骤变的，因此通过历史(滚动记录的前16帧)信号幅度的拟合曲线能够可靠的估计出当前帧的噪声幅度，但不会发生骤变不代表不会有变化，因此使用当前帧实测噪声幅度与历史帧拟合出的估计噪声幅度进行加权平均(σ/μ即为加权系数)，可以有效的虑除估计噪声幅度、实测噪声幅度中包含的计算与测量误差，从而使算法得出的结果始终以5％的浮动率跟随真实噪声水平。

优选地，所述自动调整算法具体包括以下步骤a-d：

步骤a，设置语音帧噪声比例因子初始值Kn＝1；

步骤b，依次计算16个语音频段中各频点实测幅度的累加值，并除以该频段语音频段噪声参数队列中最后一个Af值，得到每个语音频段的噪声比例因子Knf；

步骤c，遍历16个语音频段的Knf，找出Knf<1.5的值中最大的一个，并将其赋值给Kn，如找不到符合条件的Knf，则保持Kn＝1不变；

步骤d，执行增益自动调整操作，使用下式逐频点计算调整后的幅度值：

Ag＝G(Ar-Kn*Af)

语音帧语音增益自动调整算法的核心思想是：统计上，尽管有可能长时间说话，但在毫秒级的时间分辨率上测量，人声将被切分成持续时间短(1-2秒)的单句模式，而背景噪声在长时间(3-5秒)内维持稳定是客观可靠的，因此语音段中我们使用最后一帧静音段得到的噪声幅度值做为基本的噪音阀值，并通过噪声比例因子来描述在多个语音帧中噪声变化的程度，从而使算法能够始终在语音帧中以5％的浮动率跟随真实噪声水平，从而得到真实的语音幅度水平。

优选地，Af是出现语音帧前，最后一个静音帧的噪声幅度值，从语音频段噪声参数队列末尾取出。之所以直接使用静音帧中的数据，是因为在短时间(一句话的时间)内，环境噪音并不会出现突变，前一帧的噪声阀值依然有效。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信号自动增益控制方法，其特征在于，包括：

获得来自麦克风的语音信号；

将所述语音信号进行时域预处理，以得到第一信号；

将所述第一信号从时域向频域变换，以得到第二信号；

从所述第二信号中提取出描述人声特征的基音、共振峰频点；

将前256个所述频点划分为16个语音频段；

根据所述频点的有效性判断是语音帧还是静音帧，如果有效则认为当前是有人说话的语音帧，如果无效则视为无人说话的静音帧；

对于语音帧执行增益的自动调整算法，对于静音帧执行非人声噪声幅度计算算法，以得到第三信号；

将所述第三信号通过快速傅立叶逆变换转回时域以得到第四信号；

根据所述第四信号通过DAC电路输出语音。

2.根据权利要求1所述的语音信号自动增益控制方法，其特征在于，所述方法还包括：如果在当前语音帧中未找到人声特征信息，则当前语音帧被视为静音帧，此时对非人声噪声幅度进行估算，并依次计算16个语音频段的噪声幅度值并记录。

3.根据权利要求1和2所述的语音信号自动增益控制方法，其特征在于，对非人声噪声幅度进行估算，并依次计算16个语音频段的噪声幅度值并记录包括：

步骤1，采用下式计算每个语音段的噪声幅度：

其中，A_f为噪声幅度；

μ为前一语音帧所有频段噪声幅度值的均值；

σ为当前频段前一帧的、幅度值的、与μ的标准差；

A_测量为当前频段处的实测各频点噪声幅度的累加值；

4.根据权利要求1所述的语音信号自动增益控制方法，其特征在于，在语音帧中通过对256个语音频点逐点调整语音的频域幅度值，从而完成语音增益的自动调整。

5.根据权利要求3所述的语音信号自动增益控制方法，其特征在于，所述自动调整算法具体包括：

步骤a，设置语音帧噪声比例因子初始值Kn＝1；

Ag＝G(Ar-Kn*Af)

6.根据权利要求5所述的语音信号自动增益控制方法，其特征在于，Af是出现语音帧前，最后一个静音帧的噪声幅度值，从语音频段噪声参数队列末尾取出。