CN112750451A

CN112750451A - 一种提升语音听感的降噪方法

Info

Publication number: CN112750451A
Application number: CN202011497927.2A
Authority: CN
Inventors: 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-05-04

Abstract

本发明涉及一种提升语音听感的降噪方法，通过对语音流信号进行分帧、加窗处理后，经傅里叶变换转换到频域X(n,k)，n、k分别为时、频坐标；然后通过提取该语音帧特征，通过深度学习网络计算获得该帧各频点增益GainNN(n,k)，估计的干净语音谱Snn；进而通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark，并通过扩展函数扩展到整个频谱T；再通过频谱T计算最终增益的参数，及最终的估计谱S；最终经过傅里叶反变换及重叠相加法恢复出语音音频信号，以提升听感。

Description

一种提升语音听感的降噪方法

技术领域

本发明涉及语音识别领域，具体涉及一种提升语音听感的降噪方法。

背景技术

音流中可分为噪声阶段与语音加噪声阶段，深度神经网络降噪方法对于纯噪声阶段与语音加噪声阶段处理特性并不一致，表现为噪声阶段处理很干净，但语音阶段出于保护语音包络机制，对噪声抑制偏弱，频谱中可见峰谷值之间差异并不显著，听感上语音阶段噪声突起顿挫，严重影响主官感受。

发明内容

本发明提供一种提升语音听感的降噪方法，能够解决如上所述的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明提供一种提升语音听感的降噪方法，包括：

S100获取带噪语音信号，对带噪语音信号进行预处理得到所述带噪语音信号频域X(n,k)特征；

S200通过提取所述带噪语音信号频域X(n,k)特征，结合深度学习网络得到预估的干净语音谱Snn；

S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark得到扩展频谱T；

S400通过扩展频谱T计算最终的估计谱S；

S500将所述估计谱S恢复出语音输出信号。

进一步地，所述预处理包括对所述带噪语音信号进行分帧加窗处理得到训练语音数据。

进一步地，所述预处理还包括对所述训练语音数据进行傅里叶变换转换到语音帧频域X(n,k)，其中n、k分别为时、频坐标。

进一步地，所述分帧加窗处理采用汉明窗。

进一步地，所述干净语音谱Snn通过提取所述语音帧频域X(n,k)特征，以及深度学习网络计算获得该帧各频点增益GainNN(n,k)，进而获得。

进一步地，所述扩展频谱T基于预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark，并通过扩展函数扩展得到。

进一步地，通过扩展频谱T计算最终增益的参数α和参数β，从而得到最终的估计谱S。

进一步地，所述语音输出信号基于估计谱S进行傅里叶反变换及重叠相加法将得出。

据本发明实施例的另一个方面，提供一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行前述提升语音听感的降噪方法。

从而，基于上述方案，不仅使听感有比较明显提升，而且经测试客观指标PESQ、SNR均普遍提升。

附图说明

图1为本发明实施例提供的一种提升语音听感的降噪方法示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

S100获取带噪语音信号，进行预处理。

对带噪语音信号进行分帧、加窗处理后，经傅里叶变换转换到频域X(n,k)，n、k分别为时、频坐标。

在一些实施例中，计算设备(例如降噪芯片)，由数字麦克风采集带噪语音信号。带噪语音信号是指，带有背景噪声的语音信号，是一种混合由讲话者语音信号与噪声的混合语音信号。本发明的语音增强目的是就是增强带噪语音信号中的讲话者的语音信号。

分帧是指将整段的语音信号切分成若干段的语音处理技术。对训练语音数据进行分帧处理能够将训练语音数据分成若干段的语音数据，可以细分训练语音数据，便于训练语音特征的提取。

S110对分帧处理后的训练语音数据进行加窗处理。

语音信号是非平稳信号，采集的带噪语音信号进行加窗处理和快速傅里叶变换(FFT)。

在一些实施例中，采用汉明窗做分帧加窗处理。

在对训练语音数据进行分帧处理后，每一帧的起始段和末尾端都会出现不连续的地方，所以分帧越多与原始信号的误差也就越大。采用加窗能够解决这个问题，可以使分帧处理后的训练语音数据变得连续，并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理，窗函数可以选择汉明窗。服务端通过对训练语音数据进行加窗处理，能够使得分帧处理后的训练语音数据在时域上的信号变得连续，有助于提取训练语音数据的训练语音特征。

S120对预处理后的训练语音数据作快速傅里叶变换，获取训练语音数据的初始频谱，并根据初始频谱获取训练语音数据的功率谱。即，经傅里叶变换转换到语音帧频域X(n,k)，n、k分别为时、频坐标。

其中，快速傅里叶变换(Fast Fourier Transformation，简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种计算方法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数越多，FFT算法计算量的节省就越显著。

对预处理后的训练语音数据作快速傅里叶变换具体包括如下过程：首先，采用计算初始频谱的公式对预处理后的训练语音数据进行计算，获取训练语音数据的初始频谱。该计算初始频谱的公式为

1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度，s(n)为时域上的信号幅度，n为时间，i为复数单位。然后，采用计算功率谱的公式对获取到的训练语音数据的初始频谱进行计算，求得训练语音数据的功率谱。该计算功率谱的公式为

1≤k≤N，N为帧的大小，s(k)为频域上的信号幅度。通过将训练语音数据从时域上的信号幅度转换为频域上的信号幅度，再根据该频域上的信号幅度获取训练语音数据的功率谱，为从训练语音数据的功率谱中提取训练语音特征提供重要的技术前提。

S200通过提取该语音帧频域X(n,k)特征，以及既有的深度学习网络计算即可获得该帧各频点增益GainNN(n,k)，进而得到预估的干净语音谱Snn。

根据本发明的实施例，经过预处理，采集带噪语音信号，通过深度学习网络计算获得该帧各频点增益GainNN(n,k)。并基于该帧各频点增益GainNN(n,k)得到预估的干净语音谱Snn。

S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark，并通过扩展函数扩展到整个扩展频谱T。

实施例中，采用bark刻度来实现将线性频率映射到人的听觉感知域，在这种映射中，频率f和线性bark刻度z的函数关系为：

z＝13arctan(0.76×10-3f)+3.5arctan(f/7500)。

根据上式对频率划分，求得每个bark带在一帧信号中的能量分布，得到临界能量：

其中，n表示语音信号的帧号，bli和bhi分别表示临界带宽i的下限和上限。

bli和bhi通过频率划分和采样率求出：

N表示傅里叶变换的点数，i表示临界带宽号，取值与采样频率有关。

掩蔽音的中心频率在某个临界带内,对其他相近临界带内的被掩蔽音的掩蔽阈值有一定的影响。扩展函数就是临界带之间Bark谱对扩展谱定量的描述，扩展函数的定义：

Δ＝i-j表示两个临界带频带号的差值，且Δ≤imax。

扩展Bark域的能量表述为：

Cj表示第j个临界带的扩展功率谱。

根据本发明的实施例，由于噪声和纯音的掩蔽特性的不同，需要对经过处理后的带噪语音信号进行噪声特性判断：

其中，SFM(i)dB为谱平坦度，

和

分别为功率谱的几何平均值和算术平均值，i为临界带宽号，取值与采样频率有关，

在确定了相对掩蔽阈值的偏移量之后，对扩展掩蔽阈值进行估计：

计算绝对听阈：

其中，f为带噪语音信号频率。

计算掩蔽阈值：T＝max(T′i,Ta)。

S400通过扩展频谱T计算最终增益的参数α和参数β，从而得到最终的估计谱S。

计算得到掩蔽阈值后，并通过掩蔽阈值确定谱减参数。根据本发明的实施例，通过掩蔽阈值自使用对谱减系数进行调整。在一些实施例中，按照如下方法确定谱减参数。

其中，参数α的计算过程为：

参数β的计算过程为：

根据本发明的实施例，利用所噪声功率谱的估计值，以及所确定的谱减参数对纯净语音信号进行增强。

在一些实施例中，通过如下方法计算纯净语音信号增强后的功率谱。由此得到的估计谱S的计算过程为：

其中，S(m,k)为增强后纯净语音信号的功率谱，Y(m,k)和D(m,k)分别表示带噪语音信号的功率谱和估计的噪声信号功率谱，m为信号帧数，k为采样点序号，参数α和参数β为谱减参数。

上述对纯净语音信号进行增强过程中，增加谱减参数可以增大背景噪声的消除，同时也加大了增强后语音失真的程度。谱减参数β的作用是为了掩蔽残余的噪声而加的背景噪声。增加β会起到减少噪声的目的，但同时也加大了增强语音信号中的背景噪声水平。

随着噪声强度的增加，在不增加语音失真的前提下，掩蔽阈值不能完全掩蔽残留噪声，影响了增强语音的清晰度。

S500再经过傅里叶反变换及重叠相加法将估计谱S恢复出语音输出信号。

对估计谱S做快速傅里叶反变换IFFT，得到增强过后的时域语音信号，采用重叠相加法输出最终增强后的语音。从而不仅使听感有比较明显提升，而且经测试客观指标PESQ、SNR均普遍提升。

本发明实施例提供的一种提升语音听感的降噪方法可以软件功能模块的形式实现并作为独立的产品销售或使用，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种提升语音听感的降噪方法，其特征在于，包括：

S400通过扩展频谱T计算最终的估计谱S；

S500将所述估计谱S恢复出语音输出信号。

2.根据权利要求1所述的降噪方法，其特征在于，

所述预处理包括对所述带噪语音信号进行分帧加窗处理得到训练语音数据。

3.根据权利要求2所述的降噪方法，其特征在于，

所述预处理还包括对所述训练语音数据进行傅里叶变换转换到语音帧频域X(n,k)，其中n、k分别为时、频坐标。

4.根据权利要求2所述的降噪方法，其特征在于，

所述分帧加窗处理采用汉明窗。

5.根据权利要求1所述的降噪方法，其特征在于，

所述干净语音谱Snn通过提取所述语音帧频域X(n,k)特征，以及深度学习网络计算获得该帧各频点增益GainNN(n,k)，进而获得。

6.根据权利要求1所述的降噪方法，其特征在于，

所述扩展频谱T基于预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark，并通过扩展函数扩展得到。

7.根据权利要求1所述的降噪方法，其特征在于，

通过扩展频谱T计算最终增益的参数α和参数β，从而得到最终的估计谱S。

8.根据权利要求1-7任一项所述的降噪方法，其特征在于，

所述语音输出信号基于估计谱S进行傅里叶反变换及重叠相加法将得出。

9.一种存储介质，其特征在于，

所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-8任一项所述的提升语音听感的降噪方法。