CN109308904A

CN109308904A - 一种阵列语音增强算法

Info

Publication number: CN109308904A
Application number: CN201811227423.1A
Authority: CN
Inventors: 蔡洪滨; 何昕; 陈学超; 顾樑
Original assignee: Voice Of Shanghai Mdt Infotech Ltd
Current assignee: Voice Of Shanghai Mdt Infotech Ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-02-05

Abstract

本发明公开了一种阵列语音增强算法，包括额步骤有S10噪声估计：通过定义接收到的音频信号，利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计；S20时频掩蔽估计：通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数，用于估计噪声和语音在语谱图上存在的概率；S30阵列MVDR权系数向量估计：通过定义多路输入信号每帧的频域向量，用于估计目标声源的具体方位，本发明在最小畸变的条件下最大程度的提升有效语音，使经多路增强后的语音信号识别率得到明显提升，增强语音信号的信噪比，大大增强了语音的可懂度。

Description

一种阵列语音增强算法

技术领域

本发明涉及语音处理技术领域，具体为一种阵列语音增强算法。

背景技术

语音作为最基本的交流媒介在日常生活中扮演重要角色，随着科技飞速发展，作为人机交互的一个重要入口，高准确度，低误识的语音识别日益受到业界的广泛关注，其中输入语音的清晰度对识别性能的提升至关重要。然而在现实环境中，语音不可避免的会受到周围复杂噪声环境的影响，语音内容的可懂度降低，导致语音识别的性能急剧恶化。

发明内容

针对背景技术中存在的问题，本发明提供了一种阵列语音增强算法。

为实现上述目的，本发明提供如下技术方案：一种阵列语音增强算法，包括以下步骤：

S10噪声估计：通过定义接收到的音频信号，利用对每个频带跟踪带噪语音功率的最小值来实现对该频带的噪声的粗略估计；

S20时频掩蔽估计：通过定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数，用于估计噪声和语音在语谱图上存在的概率；

S30阵列MVDR权系数向量估计：通过定义多路输入信号每帧的频域向量，用于估计目标声源的具体方位。

作为本发明一种优选的技术方案，于步骤S10中定义接收到的音频信号表示为：Y(k,l)＝X(k,l)+D(k,l),其中X(k,l)表示语音信号，D(k,l)表示噪声信号频谱，然后定义语音功率谱为λ_x(k,l)，噪声功率谱为λ_d(k,l)，通过递归平均方法估计λ_d。

作为本发明一种优选的技术方案，利用递归平均方法估计λ_d的具体执行如下：

a、不考虑噪声不存在概率时，可以通过递归平均估算噪声功率谱：

λ_d＝α_dλ_d+(1-α_d)||Y(k,l)||²，为简化表示，此处λ_d＝λ_d(k,l)表示第l帧第k个频点上的噪声功率；

b、考虑噪声不存在的情况下：

(1)、估计时频点功率：S_f＝|Y|²

(2)、功率谱沿时间平滑：S＝λ_sS+(1-λ_s)S_f

(3)、累积实时记录最小功率值S_min，通过当前帧功率与加权后S_min值比较估计当前时频点为语音的概率I_f(0,1分布)，该概率实时平均结果P_S作为当前点的语音mask，其中：

S_min＝min(S_min,S)

I_f＝S＞S_min·δ_s

P_S＝λ_pP_S+(1-λ_p)I_f

(4)、P_S＝1即当前时频点很可能是语音信号时，不更新噪声谱；只有在当前帧有可能是噪声信号时才会利用当前功率跟新噪声谱，由此以软判决方式估计当前时频点的功率值：λ_d＝P_Sλ_d+(1-P_S)(α_dλ_d+(1-α_d)|Y|²)；

c、噪声跟踪实时处理：

在累积记录最小功率值时，为保证最小功率跟踪的实时性，每跨越若干帧，及时修正最小功率，具体实现如下：

(1)、定义矩阵SW用于存储N_WIN(＝8)次累积的NFFT_BINS个频点的最小功率值；

(2)、累积记录跨越的帧数，当计数到V_WIN(＝15)帧时，存入当前V_WIN帧的功率最小值S_tmp＝min(S_tmp,S)，同时将S_tmp重新初始化：S_tmp＝S；当存满N_WIN帧时，每次存入新数据的同时剔除最早存储的那个最小功率；

(3)、修正后的最小功率值为：S_min＝min(SW)。

作为本发明一种优选的技术方案，于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数，为此做如下相关参数定义：

a、H₁表示语音存在、H₀表示语音不存在；

b、输入信号的各个时频点上语音存在的后验概率p＝P(H₁|Y)；

c、语音不存在的先验概率可表示为q＝P(H₀)，

假定语音与噪声幅度谱均服从均值为0的高斯分布，即：X(k,l)～N(0,λ_x)，D(k,l)～N(0,λ_d)，且语音与噪声相互独立，由此可以得到噪声以及语音的条件概率分布函数；

d、定义先验信噪比：后验信噪比：

可以通过贝叶斯公式以及高斯分布函数得到语音存在的后验概率表示如下：

其中表示实时计算得到的先验信噪比，由决策导向估计得到：

其中

估算的得到当前帧先验信噪比后，通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号，从而估算出当前帧噪声存在的先验概率为进一步提升噪声概率估计灵活性，添加调节参数k，修正公式得到：k越大，噪声出现的可能性越小，即被抑制的越严重；

为简化计算量，可直接利用P_S＝λ_pP_S+(1-λ_p)I_f得到的结果作为语音存在概率p(k,l)的粗略估计。

作为本发明一种优选的技术方案，于步骤S30中定义多路输入信号每帧的频域向量如下：

即有M路输入录音，利用信号的时频掩蔽系数以及M路输入的自相关矩阵，估计信号中语音相关矩阵R_S以及噪声自相关矩阵R_N；当导向向量未知时，利用R_S归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量：对每帧信号时频点滤波后得到增强后的信号：由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度，其中涉及到的关键步骤如下：

(1)相关矩阵估计

对相关矩阵的估计，单一帧的相关矩阵无法满足满秩且不具有统计特性。为此我们取8～10帧相关帧的平均作为最终的输入信号相关矩阵其中L表示统计的帧数(L＝8)。在已知当前帧数据噪声出现概率的基础上，估计噪声以及语音相关阵：

与

(2)导向向量的估计

当前假定仅存在一个有效目标方向语音，不存在相干噪声的情况下，基于理想情况下，导向向量与语音自相关矩阵R_S的导向向量方向一致的基础(rank(R_S)＝1)，对R_S进行特征值分解，取模最大的特征值对应的特征向量为导向向量。

作为本发明一种优选的技术方案，还包括后滤波处理步骤，该步骤使用基于ML的谱增益系数递归计算，即定义后验SNR：其中||Y||²表示接收信号的功率谱，λ_d表示估计的噪声功率谱，递归平均后：由此得到的增益系数可表示为：

作为本发明一种优选的技术方案，基于谱减给出后滤波权系数为：

作为本发明一种优选的技术方案，通过添加调节系数，更新权增益系数为：

与现有技术相比，本发明的有益效果是：本发明在最小畸变的条件下最大程度的提升有效语音，使经多路增强后的语音信号识别率得到明显提升，增强语音信号的信噪比，大大增强了语音的可懂度。

附图说明

图1为本发明提供的一种阵列语音增强算法流程示意图；

图2为本发明提供的一种阵列语音增强算法中权系数评估框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种阵列语音增强算法，包括以下步骤：

在对于音频信号处理方式中，我们一般视为短时平稳(约30ms以内视为平稳信号)，为了提升处理的效果与速度，一般会经过短时傅里叶变换将其转换至频域处理，在处理完成得到最终的增强后的频域信号后，在经过短时傅里叶反变换，将处理后的信号重新拼接回时域，在本发明中通过对频域信号频谱信息的分析，以及阵列信号空间特征信息的处理得到经过频域加权后的系统输出。

对于信号的时频相互转换，常用的即为分帧，加窗的短时处理后，执行傅里叶变换进入频域，为了高效快速的拼接，以及简化处理过程，本发明采用最为常用的帧移为帧长一半的处理方案，这样拼接得到的时域信号更接近原始信号的幅度分布，该本发明种未经特殊说明，均是对分帧后的信号频谱(语谱图)做的处理，帧长为10毫秒。

本发明中假定目标语音为单个声源，噪声与语音信号均服从高斯分布，且相互不相关，对多路输入信号，通过噪声跟踪以及信号高斯分布的假定估计出语音以及噪声在每个时频点上出现的概率；估计噪声相关矩阵；基于阵列拓扑结构以及声源方位计算导向向量或通过语音相关矩阵估算导向向量(通过计算EVD后的主特征向量模拟导向向量)；在此基础上，利用MVDR的阵列语音增强架构估计增益系数向量。

在具体实施过程中，于步骤S10中定义接收到的音频信号表示为：Y(k,l)＝X(k,l)+D(k,l),其中X(k,l)表示语音信号，D(k,l)表示噪声信号频谱，然后定义语音功率谱为λ_x(k,l)，噪声功率谱为λ_d(k,l)，通过递归平均方法估计λ_d，利用递归平均方法估计λ_d的具体执行如下：

b、考虑噪声不存在的情况下：

(1)、估计时频点功率：S_f＝|Y|²

(2)、功率谱沿时间平滑：S＝λ_sS+(1-λ_s)S_f

S_min＝min(S_min,S)

I_f＝S＞S_min·δ_s

P_S＝λ_pP_S+(1-λ_p)I_f

c、噪声跟踪实时处理：

(3)、修正后的最小功率值为：S_min＝min(SW)。

在具体实施过程中，于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数，为此做如下相关参数定义：

a、H₁表示语音存在、H₀表示语音不存在；

c、语音不存在的先验概率可表示为q＝P(H₀)，

d、定义先验信噪比：后验信噪比：

其中

估算的得到当前帧先验信噪比后，通过对当前帧信噪比与固定阈值的对比判断当前帧信号是否为噪声信号，从而估算出当前帧噪声存在的先验概率

为进一步提升噪声概率估计灵活性，添加调节参数k，修正公式得到：k越大，噪声出现的可能性越小，即被抑制的越严重；

在具体实施过程中，于步骤S30中定义多路输入信号每帧的频域向量如下：

即有M路输入录音，利用信号的时频掩蔽系数以及M路输入的自相关矩阵，估计信号中语音相关矩阵R_S以及噪声自相关矩阵R_N；当导向向量未知时，利用R_S归一化后的主特征向量作为向向量通过MVDR经典参数估计得到增益向量：对每帧信号时频点滤波后得到增强后的信号：(如图2所示)，由此求解得到的增强信号性能的优劣取决于噪声频域相关矩阵以及导向向量估计的准确度，其中涉及到的关键步骤如下：

(1)相关矩阵估计

与

(2)导向向量的估计

在具体实施过程中，还包括后滤波处理步骤，该步骤使用基于ML的谱增益系数递归计算，即定义后验SNR：其中||Y||²表示接收信号的功率谱，λ_d表示估计的噪声功率谱，递归平均后：由此得到的增益系数可表示为：进一步的，为了最大程度上抑制畸变，基于谱减给出后滤波权系数为：进一步的，考虑到波谱谱减本身带来的音乐噪声问题，可以通过添加调节系数，更新权增益系数为：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种阵列语音增强算法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种阵列语音增强算法，其特征在于，于步骤S10中定义接收到的音频信号表示为：Y(k,l)＝X(k,l)+D(k,l),其中X(k,l)表示语音信号，D(k,l)表示噪声信号频谱，然后定义语音功率谱为λ_x(k,l)，噪声功率谱为λ_d(k,l)，通过递归平均方法估计λ_d。

3.根据权利要求2所述的一种阵列语音增强算法，其特征在于，利用递归平均方法估计λ_d的具体执行如下：

b、考虑噪声不存在的情况下：

(1)、估计时频点功率：S_f＝|Y|²

(2)、功率谱沿时间平滑：S＝λ_sS+(1-λ_s)S_f

S_min＝min(S_min,S)

I_f＝S＞S_min·δ_s

P_S＝λ_pP_S+(1-λ_p)I_f

c、噪声跟踪实时处理：

(3)、修正后的最小功率值为：S_min＝min(SW)。

4.根据权利要求3所述的一种阵列语音增强算法，其特征在于，于步骤S20中定义某个时频点上语音出现的后验概率为当前时频点的掩蔽系数，为此做如下相关参数定义：

a、H₁表示语音存在、H₀表示语音不存在；

c、语音不存在的先验概率可表示为q＝P(H₀)，

d、定义先验信噪比：后验信噪比：

其中

5.根据权利要求3所述的一种阵列语音增强算法，其特征在于，于步骤S30中定义多路输入信号每帧的频域向量如下：

(1)相关矩阵估计

与

(2)导向向量的估计

6.根据权利要求5所述的一种阵列语音增强算法，其特征在于：还包括后滤波处理步骤，该步骤使用基于ML的谱增益系数递归计算，即定义后验SNR：其中||Y||²表示接收信号的功率谱，λ_d表示估计的噪声功率谱，递归平均后：由此得到的增益系数可表示为：

7.根据权利要求6所述的一种阵列语音增强算法，其特征在于：基于谱减给出后滤波权系数为：

8.根据权利要求6所述的一种阵列语音增强算法，其特征在于：通过添加调节系数，更新权增益系数为：