CN108831499B

CN108831499B - 利用语音存在概率的语音增强方法

Info

Publication number: CN108831499B
Application number: CN201810516685.3A
Authority: CN
Inventors: 管海清
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2020-07-21
Anticipated expiration: 2038-05-25
Also published as: CN108831499A

Abstract

本发明公开了一种利用语音存在概率的语音增强方法，利用本发明处理后语音质量更高，降噪量更大。本发明通过下述技术方案予以实现：在MIS测度语音增强方法的基础上，利用语音存在概率，对输入带噪语音进行采样、分帧、加窗，再通过快速傅里叶变换FFT获得带噪语音频谱；然后对得到的语音频谱进行噪声估计，基于统计信息的非平稳噪声最小值搜索算法，利用帧间相关性进行前后帧噪声估计值之间的平滑，估计出噪声功率谱；同时平滑前后几帧求得的语音先验信噪比估计值；然后将语音存在概率和MIS测度增益因子结合起来，将求得的带噪语音频谱乘以新增益因子，得到增强过后的语音的频谱；再做快速傅里叶反变换IFFT，得到增强过后时域语音信号。

Description

利用语音存在概率的语音增强方法

技术领域

本发明涉及一种无线通信领域的语音增强方法，特别是语音处理系统中利用语音存在概率的语音增强方法。

背景技术

语言是人类交流的主要媒介之一，而语音则是其重要的表现形式。在日常社会生活中，语音交流的场景随处可见，如电话通信、人工耳蜗和人机交互系统，各种各样的噪声会不可避免地掺杂在语音信号当中，导致语音信号的可懂度降低。语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段，平均能量最低；浊音段为声带振动发出对应的语音信号段，平均能量最高；清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段，平均能量居于前两者之间。由于噪声与语音信号在频域中的重叠特性，在消除噪声，提高语音信号的信噪比的同时必然会或多或少地引起原始语音信号的失真。在实际的语音采集设备和语音采集环境下，由于不能得到纯净的语音，语音会被各种背景噪声污染，被污染的语音信号的信噪比和听觉舒适度会有所下降，影响语音在其应用场景中的使用效果，比如语音调制、语音解调、说话人辨识或者语音识别等应用场景。

在实际应用的语音通信系统中，待分析的语音信号通常是被噪声污染的带噪语音，正是由于环境噪声的存在，严重影响了语音通信系统的性能。

语音增强是解决噪声污染、提高语音质量的一种非常有效的方法。语音增强的目的是尽可能地从被污染的语音信号中提取出纯净的语音信号，改善语音质量。语音增强技术广泛应用于各种实际的通信系统中。

语音增强方法众多，已知的语音增强算法从算法理论上可以分为谱减法，基于统计模型和基于信号子空间的语音增强算法。谱减算法是一种传统的语音增强算法，其计算简单、实时性好。谱减法由于其简单有效性已为许多实际数字语音处理系统所采用。传统的谱减法及改进型谱减法虽然实现起来简单，运算量小，确实能在一定程度上抑制噪声，但是当信噪比较低时候，很容易造成语音失真，并可能带来新的噪声，影响听感；由于噪声与语音信号在频域中的重叠特性，在消除噪声，提高语音信号的信噪比的同时必然会引起原始语音信号的失真。常规谱减法还会产生较强的残留音乐噪声。低信噪比下，谱减语音增强法中一直存在的去噪度、残留的音乐噪声和语音畸变度三者间均衡这一关键问题，如何兼顾去噪度，噪声残留和减少语音失真是不少学者致力研究的课题。基于信号子空间的语音增强算法虽然可以显著改善语音增强效果，但是对噪声突然上升时或者噪声突然下降时的估计，存在较大的延时性，且往往需要进行矩阵分解，运算量巨大，不利于工程实现。

国外学者Itakura-satio提出了一种MIS(modified Itakura-satio)测度语音增强方法。该种方法运算量相对较小，可以保证语音增强后的失真度较小，便于工程实现，相比传统的方法，对降噪量也有一定的提升。但是这种方法，对无话段的残留噪声抑制效果不足，往往无话段仍然有较大的噪声残留，对人的听觉体验依旧有一定的影响。

本发明是针对MIS测度语音增强方法的改进。

发明内容

本发明是针对现有技术的不足之处,尤其是针对MIS测度语音增强方法的不足之处，提出一种处理后语音质量更高，降噪量更大的方法。

上述目的可以通过以下措施来达到。本发明提供了一种利用语音存在概率的语音增强方法，其特征在于包括如下步骤：在MIS测度语音增强方法的基础上，利用语音存在概率，对输入带噪语音进行采样、分帧、加窗，再通过快速傅里叶变换FFT获得带噪语音频谱；然后对得到的语音频谱进行噪声估计，基于统计信息的非平稳噪声最小值搜索算法，利用帧间相关性进行前后帧噪声估计值之间的平滑，估计出噪声功率谱，平滑参数由频带语音存在概率自适应调整；得到噪声估计后，根据带噪语音幅度谱与估计的噪声谱求得后验信噪比估计值，再根据语音帧之间的相关性，利用前一帧估计的先验信噪比值平滑和当前帧的后验信噪比值得到当前帧的估计先验信噪比值；根据求得的先验信噪比和先验语音不存在概率，利用MIS的增益因子计算公式得到MIS增益因子G₁(k,l)；同时平滑前后几帧求得的语音先验信噪比估计值，并利用频带间和帧间相关性求得每帧每个频点的先验语音不存在概率；根据后验信噪比、先验信噪比和先验语音不存在概率求得每帧每个频带的语音存在概率，然后将语音存在概率和MIS测度增益因子结合起来，得到新的增益因子G_new(k,l)；并将求得的带噪语音频谱乘以新增益因子，得到增强过后的语音的频谱；再对求得的频谱做快速傅里叶反变换IFFT，得到增强过后时域语音信号，通过合成窗，采用重叠相加法最终输出语音。

本发明相比于现有技术具有如下有益效果：

本发明采用快速傅里叶变换FTT获的傅里叶变换点数的语音频谱；然后对得到的语音频谱进行噪声估计，从带噪语音中提取出纯净语音，基于统计信息的非平稳噪声自适应算法, 利用帧间相关性估计纯净语音存在概率,控制搜索窗长度，在基于语音存在概率来计算时频平滑参数，估计纯净语音的功率谱；得到噪声估计后，根据带噪语音幅度谱与估计的噪声谱，计算每帧每个频率点的语音存在概率，将语音存在概率引入MIS测度增益函数，通过MIS测度增益函数求得先验信噪比及先验语音信噪比不存在概率，取幅度平方，运算量不大，比较适中。

本发明在MIS测度语音增强方法的基础上，利用语音存在概率即对每一个频带估计一个语音存在概率，可以较好的区分语音频带和噪声频带，能更好的区分有声与无声段，并进行增益因子的求解，能够准确跟踪噪声功率谱、快速跟踪噪声功率谱变化,可以在一定程度上提高增强后语音信号的质量，从而对噪声有更好的抑制，有效地改善了增强后语音的质量，不仅能够进一步提高增强语音的信噪比，而且可以有效减小增强语音的失真度，提高增强语音的主观感知质量。

增强后语音质量更高。本发明在MIS测度语音增强方法的基础上，利用语音存在概率即对每一个频带估计一个语音存在概率，可以较好的区分语音频带和噪声频带，并进行增益因子的求解，可以在一定程度上提高增强后语音信号的质量，从而对噪声有更好的抑制，不仅能够进一步提高增强语音的信噪比，而且可以有效减小增强语音的失真度，提高增强语音的主观感知质量。

降噪量更大。本发明针对强噪声环境下，MIS语音增强算法噪声抑制能力不足做了改进。MIS测度语音增强方法本身可以降低一些噪声，但是残留噪声依然很大。针对噪声波动较大的语音增强场景，残留噪声会更大。利用语音存在概率p(k,l)结合修正MIS测度语音增强算法的增益因子G₁(k,l)求得新的增益因子G_new(k.l)，这一过程很好的利用了语音存在概率值的大小调节对频带的衰减程度，这样做能保证在无话段有更大的降噪量。

附图说明

图1是本发明是利用语音存在概率语音增强处理流程示意图。

图2是本发明求解帧语音存在概率P_frame计算框图。

图3是图1的新增益因子求解框图。

下面结合附图及具体实施例，对本发明进行详细说明。

具体实施方式

参阅图1。根据本发明，采用如下步骤:

(1)对输入带噪语音进行采样、分帧、加窗；

(2)通过快速傅里叶变换FFT获得带噪语音频谱Y(k,l)，k表示频点数，l表示帧数(后面k和l表示相同含义)；

(3)根据MIS测度语音增强方法计算增益因子G₁(k,l)及噪声估计谱λ_d(k,l)；

(4)利用噪声估计谱求得先验信噪比，并通过该先验信噪比求得语音存在概率p(k,l)；

(5)利用增益因子G₁(k,l)和p(k,l)，求得新的增益因子G_new(k,l)；

(6)将带噪语音的频谱Y(k,l)与新的增益因子G_new(k,l)相乘得到增强过后的语音的频谱

(7)对频谱

做快速傅里叶反变换IFFT，得到增强过后的时域语音信号，采用重叠相加法输出最终增强后的语音。

在上述骤(4)中，根据带噪语音谱Y(k,l)与估计的噪声谱λ_d(k,l)的比值求得后验信噪比γ(k,l)，并通过先验信噪比迭代公式

求得先验信噪比

其中，α为0.7，max(·)表示取最大值，γ(k,l)是求取的后验信噪比。先验语音不存在概率根据公式

计算得到，其中P_local(k,l)代表局部语音存在概率，P_global(k,l)代表全局语音存在概率，P_frame(l)代表帧语音存在概率，最后根据语音存在概率计算公式

求得最终的语音存在概率。

所述步骤(5)中，利用的语音存在概率p(k,l)，以及最小经验值常数G_min(0.03)和增益因子G₁(k,l)，求得新的增益因子G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))。

在所例示的框图中，在语音输入后，将带噪语音采样、分帧、加窗，采样率8000Hz，量化位数为16位，分帧长度256点，分帧重叠128点；16位量化后的一帧输入带噪语音数据y(l)；然后采用快速傅里叶变换FFT求语音频谱Y(k,l)，k表示第k个频带，l表示帧数，傅里叶变换点数为256点；根据求得的语音频谱取幅度平方得|Y(k,l)|²，利用MIS的增益因子计算公式得到MIS增益因子G₁(k,l)以及噪声估计λ_d(k,l)后；将语音存在概率和MIS测度增益因子结合起来，利用概率二元模型得到增强后语音的新增益因子 G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))，其中，G_min为最小衰减限制，取值0.03；并将上述求取得到的带噪语音频谱Y(k,l)乘以新增益因子G_new(k,l)，得到增强过后的语音频谱

再对求得的频谱做快速傅里叶反变换IFFT，得到增强过后时域语音信号，通过合成窗并利用重叠相加法，输出增强后语音

其中傅里叶反变换点数为256点，重叠128点。

参阅图2。图2为求语音存在概率步骤中比较重要的一个参数的求解过程，即计算求解一个当前帧语音存在概率参数P_frame(l)，语音帧间的当前帧语音存在概率参数P_frame(l)可以根据先验信噪比的递归平均的频带均值来求取。根据先验信噪比

的递归平均公式

求得先验信噪比

的递归平均ζ(k,l)，根据公式

对ζ(k,l)在频域上做平均求得ζ_frame(l)，其中，k是第k个频点， l表示第l帧，β为一时间常数，M为帧重叠长度。

若分帧加窗的当前帧ζ_frame(l)≤ζ_min，则概率参数P_frame(l)＝0，若ζ_frame(l)＞ζ_min，则进行当前帧ζ_frame(l)与上一帧ζ_frame(l-1)的大小判断，若ζ_frame(l)大于ζ_frame(l-1)，则计算先验信噪比的递归平均ζ_frame(l)的极大值ζ_peak(l)，计算公式为ζ_peak(l)＝min{max[ζ_frame(l),ζ_pmin],ζ_pmax}，其中ζ_peak(l)为某一范围内ζ_frame(l)的峰值， min(·)表示取最小值，max(·)表示取最大值，ζ_pmin和ζ_pmax为经验常数。概率参数P_frame(l)＝1，若峰值ζ_frame(l)小于或等于ζ_frame(l-1)，则概率参数P_frame(l)＝μ(l)，

其中ζ_peak(l)为某一范围内ζ_frame(l) 的峰值，ζ_pmin和ζ_pmax为经验常数，log(·)表示取对数，μ(k,l)为保存语音帧存在概率的临时值。

参阅图3。得到噪声估计后，根据带噪语音谱Y(k,l)与估计的噪声谱λ_d(k,l)的比值求得后验信噪比γ(k,l)，并通过先验信噪比迭代公式

求得先验信噪比

其中，α是经验常数，max(·)表示取最大值。根据图2中求得的先验信噪比的递归平均ζ(k,l)，并在频域上使用局部和全局平均窗，利用局部以及全局平均加窗公式

便可以得到先验信噪比的局部以及全局平均，并根据局部和全局语音频带之间的关系以及语音帧间关系联合求取先验语音不存在概率，其中，h_λ为一个长度为2w_λ+1的标准窗，λ为状态选择符号，下标λ可以指定为局部或者全局，w_λ表示数据长度，k是第k个频点，l表示第l帧，ζ(k,l)表示先验信噪比的递归平均。

为了求得语音存在概率，需要定义两个分别代表第l帧第k个频点上的先验信噪比的局部或者全局平均与语音存在可能性的关系的局部概率参数P_local(k,l)和全局概率参数P_global(k,l)，二者的计算方式如下

式中，log(·)表示取对数，λ表示状态选择符号，下标λ可以指定为局部或者全局，当参数λ指定为局部时，则P_λ(k,l)＝P_local(k,l)，λ指定为全局时，则P_λ(k,l)＝P_global(k,l)；ζ_λ(k,l) 表示先验信噪比的递归平均，当参数λ指定为局部时，ζ_λ(k,l)＝ζ_local(k,l)，当λ指定为全局时，ζ_λ(k,l)＝ζ_global(k,l)。合理地设置最小值经验常数ζ_min和最大值经验常数ζ_max有利于最大化地减弱噪声并保留微弱的语音分量。为了防止语音的开端或者微弱的语音分量被去除，可通过先验语音不存在概率计算公式

求得先验语音不存在概率

再根据语音存在概率计算公式

求得最终的语音存在概率p(k,l)，其中

是先验语音不存在概率，

表示求得的先验信噪比，k是第k个频点，l表示第l帧，{·}^-1表示求倒数。然后利用求得的语音存在概率p(k,l)，结合最小经验值常数G_min和增益因子G₁(k,l)求解新的增益因子 G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))。

以上是向熟悉本发明领域的工程技术人员提供的对本发明及其实施方案的描述，这些描述应被视为是说明性的，而非限定性的。工程技术人员可据此发明权利要求书中的思想做具体的操作实施，在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。上述这些都应被视为本发明的涉及范围。

Claims

1.一种利用语音存在概率的语音增强方法，其特征在于包括如下步骤：

(1)对输入带噪语音进行采样、分帧、加窗；

(2)通过快速傅里叶变换FFT获得带噪语音频谱Y(k,l)，k表示频点数，l表示帧数；

(5)利用增益因子G₁(k,l)和p(k,l)，求得新的增益因子G_new(k,l)；

(6)将带噪语音频谱Y(k,l)与新的增益因子G_new(k,l)相乘得到增强过后的语音的频谱

然后对频谱

做快速傅里叶反变换IFFT，得到增强过后的时域语音信号，采用重叠相加法输出最终增强后的语音；

在上述步骤(4)中，根据语音存在概率计算公式

求得最终的语音存在概率；

所述步骤(5)中，利用的语音存在概率p(k,l)，以及最小经验值常数G_min和增益因子G₁(k,l)，求得新的增益因子G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))；

其中，在语音输入后，将带噪语音采样、分帧、加窗，采样率8000Hz，量化位数为16位，分帧长度256点，分帧重叠128点；16位量化后的一帧输入带噪语音数据y(l)；然后采用快速傅里叶变换FFT求带噪语音频谱Y(k,l)，傅里叶变换点数为256点；根据求得的带噪语音频谱取幅度平方得|Y(k,l)|²，利用MIS的增益因子计算公式得到MIS增益因子G₁(k,l)以及噪声估计谱λ_d(k,l)后；将语音存在概率和MIS增益因子结合起来，利用概率二元模型得到增强后语音的新的增益因子G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))，其中，G_min取值0.03；其中傅里叶反变换点数为256点，重叠128点；其中，λ为状态选择符号，λ_d(k,l)中的λ_d代表噪声估计，p(k,l)表示语音存在概率。

2.如权利要求1所述的利用语音存在概率的语音增强方法，其特征在于：获得带噪语音频谱Y(k,l)后，根据带噪语音频谱Y(k,l)与噪声谱估计λ_d(k,l)的比值求得后验信噪比γ(k,l)，并通过先验信噪比迭代公式

求得先验信噪比

其中，α为经验常数，max(·)表示取最大值，l为语音帧数，γ(k,l)是求取的后验信噪比。

3.如权利要求1所述的利用语音存在概率的语音增强方法，其特征在于：根据先验语音不存在概率公式

计算得到先验语音不存在概率，语音存在概率由语音存在概率计算公式求得语音存在概率

其中，

是先验语音不存在概率，P_local(k,l)为局部语音存在概率，P_global(k,l)为全局语音存在概率，P_frame(l)为帧语音存在概率。

4.如权利要求1所述的利用语音存在概率的语音增强方法，其特征在于：若分帧加窗的当前帧的先验信噪比的递归平均ζ_frame(l)≤ζ_min，则概率参数P_frame(l)＝0，若ζ_frame(l)＞ζ_min，则进行当前帧ζ_frame(l)与上一帧ζ_frame(l-1)的大小判断，若ζ_frame(l)大于ζ_frame(l-1)，则计算先验信噪比的递归平均ζ_frame(l)的极大值ζ_peak(l)，计算公式为ζ_peak(l)＝min{max[ζ_frame(l),ζ_pmin],ζ_pmax}，其中，ζ_peak(l)为某一范围内ζ_frame(l)的峰值，min(·)表示取最小值，max(·)表示取最大值，ζ_pmin和ζ_pmax为经验常数。

5.如权利要求1所述的利用语音存在概率的语音增强方法，其特征在于：根据求得的先验信噪比的递归平均ζ(k,l)，并在频域上使用局部和全局平均窗，利用局部以及全局平均加窗公式

得到表示先验信噪比的递归平均ζ(k,l)和先验信噪比的局部以及全局平均值ζ_λ(k,l)，并根据局部和全局语音频带之间的关系以及语音帧间关系联合求取先验语音不存在概率，其中，λ为状态选择符号，w_λ为数据长度，h_λ为一个长度2w_λ+1的标准窗。

6.如权利要求5所述的利用语音存在概率的语音增强方法，其特征在于：为了防止语音的开端或者微弱的语音分量被去除，通过先验语音不存在概率计算公式

求得先验语音不存在概率

再根据语音存在概率计算公式

求得最终的语音存在概率p(k,l)，然后利用求得的语音存在概率p(k,l)，结合最小经验值常数G_min和增益因子G₁(k,l)求解新的增益因子G_new(k,l)＝G₁(k,l)*p(k,l)+G_min*(1-p(k,l))，其中，

表示求得的先验信噪比，k是频点，l为语音帧数，{·}^-1表示求倒数。