CN114242095A

CN114242095A - 基于采用谐波结构的omlsa框架的神经网络降噪系统和方法

Info

Publication number: CN114242095A
Application number: CN202111508223.5A
Authority: CN
Inventors: 许云峰
Original assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Current assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-25
Anticipated expiration: 2041-12-10
Also published as: CN114242095B

Abstract

本发明提供一种基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法，保留了神经网络的降噪性能，而且对一般神经网络在语音中间噪声残留大的问题有很大的改善。基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法包括离线模型训练部分和在线实时降噪部分；离线模型训练部分包括语音数据集、噪声数据集、神经元网络和基于对数谱幅度损失函数；在线实时降噪部分包括短时傅里叶变化(STFT)分析和综合、基于NN‑LAS的模型增益估计模块、基于谐波结构条件的语音存在概率估计模块、基于OM‑LSA框架的增益估计模块。

Description

基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法

技术领域

本发明涉及声学信号降噪技术领域，具体涉及一种基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法。

背景技术

现有的业界采用的主流传统降噪的技术主要是基于MMSE-LSA(Minimum Mean-Square Error Log-Spectral Amplitude Estimator)技术以及其变种的降噪算法。该算法相比于其他增益算法，在有效抑制噪声的同时能够改善了音乐噪声(Music Tone)。

LSA(Log-Spectral Amplitude Estimator)算法其核心，在于其采用了基于对数谱的最小均方作为代价函数，使其最小化来获得最优参数估计：

根据代价函数，获得其增益最优衰减增益，如下

由于MMSE-LSA是基于语音存在的假设的条件获得的，事实上，语音是否存在是不确定的。

因此在LSA的基础上又有人提出MM-LSA(multiplicatively modified LSA)的算法：

该算法在LSA基础上又乘以条件语音存在概率

G_MM-LSA(k，l)＝P(H₁(k，l)|Y(k，l))G_LSA(k，l)

其中：

语音不存在假设表示为：

H₀(k，l)：Y(k，l)＝D(k，l)

语音存在假设表示为：

H₁(k，l)：Y(k，l)＝X(k，l)+D(k，l)

由于MM-LSA不是最优的，且其在只有噪声情况下会造成不自然的残留噪声，所以在其基础上，又有提出基于OM-LSA(Optimize Modified LSA)的算法，其主要思想采用基于假设增益的几何加权平均方式获得估计增益：

其中，条件语音存在概率，如下：

P(H₀(k，l)|Y(k，l))＝1-p(k，l)

先验信噪比

后验信噪比

v(k，l)为

附图1是OM-LSA的降噪算法流程框图。

基于神经网络的噪声抑制及其变种

随着深度学习的发展，基于深度学习的神经网络降噪现在越来成为主流技术，通过深度学习采用数据驱动监督训练的方式，可以有效的对抗传统降噪算法无法有效处理的非稳态噪声，如：餐馆、地铁、会展等噪声；基于深度学习的降噪方案不仅降噪效果好并且能语音失真也相对较小。

附图2为一般基于深度学习的降噪方案，上半部分图为离线训练阶段流程，下半部分图为实时降噪流程。

在训练阶段：

使用干净的语音数据和噪声数据进行混音作为网络输入，把干净语音亦或者理想比值掩码IRM等作为训练的目标，根据选取特定的损失函数对网络进行训练。

在降噪阶段：

把带噪语音作为网络输入，输入到训练过的网络进行前向推理，网络获得噪声的衰减增益G(k，l)该增益最后与带噪语谱相乘最后得到降噪后语音。

发明内容

本发明提供一种基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法，保留了神经网络的降噪性能，而且对一般神经网络在语音中间噪声残留大的问题有很大的改善。

本发明所要解决的技术问题是通过如下技术方案实现的：

本发明提供一种基于采用谐波结构的OMLSA框架的神经网络降噪系统，包括离线模型训练部分和在线实时降噪部分；离线模型训练部分包括语音数据集、噪声数据集、神经元网络和基于对数谱幅度损失函数；在线实时降噪部分包括短时傅里叶变化(STFT)分析和综合、基于NN-LSA的模型增益估计模块、基于谐波结构条件的语音存在概率估计模块、基于OM-LSA框架的增益估计模块。

优选的，所述基于NN-LSA的模型增益估计模块采用基于对数谱最小均方误差为代价函数来进行参数估计，即

优选的，所述基于NN-LSA是基于语谱图的结构化特征作为输入通过监督学习的方式获得最优参数，根据监督学习获得最优的模型来进行前向推理，获得噪声衰减增益G_nnLSA(k，l)。

优选的，所述基于谐波结构条件的语音存在概率估计模块采用局部归一化的NN-LSA噪声衰减增益作为语音存在概率，即：

优选的，所述基于谐波结构条件的语音存在概率估计模块利用G_nnLSA(k，l)在谐振点要比其临近的非谐振点要大的特点，对G_nnLSA(k，l)做局部归一化处理，来估计语音存在概率。

优选的，所述基于OM-LSA框架的增益估计模块根据基于OM-LSA的增益计算框架，使用G_nnLSA(k，l)替换G_LSA(k，l)，同时使用p_harm(k，l)来替换p(k，l)最终得到如下增益计算公式

一种基于采用谐波结构的OMLSA框架的神经网络降噪方法，整个处理流程如下：

首先由通过短时傅里叶变化模块获得带噪语音的语谱Y(k，l)＝stft(y(n))；

然后通过NN-LSA模型增益估计模块估计出噪声衰减增益G_nnLSA(k，l)＝CRNN(abs(Y(k，l)))；

估计出来的G_nnLSA(k，l)经过基于谐波条件语音存在概率估计模块估计出语音存在概率p(k，l)；

由OM-LSA框架增益估计模块，根据输入的G_min(k，l)，G_nnLSA(k，l)和G_min(k，l)估计出最终噪声衰减增益G_omLSA(k，l)；

最后通过对原始语谱做乘性衰减以后，进行STFT的综合恢复为降噪后的时域信号。

本发明的有益效果在于，在保留神经网络的降噪性能条件下对一般神经网络在语音中间噪声残留大的问题有很大的改善。

附图说明

图1是现有技术的OM-LSA流程图；

图2是现有技术的一般神经网络流程图；

图3是现有技术的OM-LSA噪声抑制语谱对照图；

图4是现有技术的基于深度学习噪声抑制语谱对照图；

图5是本发明的基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法；

图6是本发明的NN-LSA推理示意图；

图7是不同降噪算法的语谱图对比(Public噪声)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图5是本实施例的基于采用谐波结构的OMLSA框架的神经网络降噪系统和方法。本发明对基于OMLSA的基本降噪框架进行了改进，采用了基于NN-LSA的深度学习网络模型来替换基于LSA的基于信噪比的增益计算函数，并采用基于谐波结构的语音存在概率来替换基于似然比的语音存在概率的方案。

基于采用谐波结构的OMLSA框架的神经网络降噪系统方案主要分成离线模型训练部分和在线实时降噪两个部分。

离线模型训练：

训练部分本发明采用CRNN网络(也可以通过其他网络来替换)，通过对干净语音和噪声信号进行混音得到人工合成的带噪语音，对该语音进行特征抽取(一般采用幅度谱或者对数谱)输入到网络对降噪的衰减增益G_nnLSA(k，l)进行预测，根据OM-LSA框架的特点本网络采用对数谱均方误差作为损失函数(LSA loss function)使其最小化来使模型凸优化获得最优模型参数：

在线实时降噪部分：

该部分除了短时傅里叶变化(STFT)分析和综合以外，有三个重要的模块组成，分别为：基于NN-LAS的模型增益估计模块；基于谐波结构条件的语音存在概率估计模块；以及基于OM-LSA框架的增益估计模块。

整个基于采用谐波结构的OMLSA框架的神经网络降噪处理方法流程如下：

首先由通过STFT模块获得带噪语音的语谱Y(k，l)＝stft(y(n))；

然后通过NN-LSA增益估计模块估计出噪声衰减增益G_nnLSA(k，l)＝CRNN(abs(Y(k，l)))；

由OM-LSA增益估计模块，根据输入的G_min(k，l)，G_nnLSA(k，l)和G_min(k，l)估计出最终噪声衰减增益G_omLSA(k，l)；

基于谐波结构条件的语音存在概率估计模块

该模块用来计算语音的存在概率，由于NN-LSA以及其他NN降噪在信噪比低的情况下语音中间噪声容易有残留特别是语音谐波之间的噪声，这会给人在听感上造成底噪不连续的感觉，本发明在OM-LSA的基础上替换了语音存在概率的计算方式，采用基于谐波结构特征的语音存在概率计算方式。

本发明采用局部归一化的NN-LSA噪声衰减增益作为语音存在概率，即：

该语音存在概率利用了，G_nnLSA(k，l)在谐振点要比其临近的非谐振点要大的特点，对G_nnLSA(k，l)做局部归一化处理，来估计语音存在概率。

NN-LSA框架的增益估计模块单元

该模块根据基于OM-LSA的增益计算框架，使用G_nnLSA(k，l)替换G_LSA(k，l)，同时使用p_harm(k，l)来替换p(k，l)最终得到如下增益计算公式：

NN-LSA的模型增益估计单元

附图6是本实施例的基于LSA的NN增益估计单元。根据OM-LSA的基本框架原理需要采用基于对数谱最小均方误差为代价函数来进行参数估计，即：

不同的是，MMSE-LSA算法是假定语音和噪声都是高斯分布的模型，根据信噪比信息来求取最优的模型降噪参数获得最优衰减增益。而基于NN-LSA是基于语谱图的结构化特征作为输入通过监督学习的方式获得最优参数，根据监督学习获得最优的模型来进行前向推理，获得噪声衰减增益G_nnLSA(k，l)。

附图7是不同降噪算法的语谱图对比(Public噪声)。本发明对基于OM-LSA的基本降噪框架进行了改进，采用基于NN-LSA的深度学习网络模型作为噪声衰减增益估计器，同时结合语谱图特征以基于局部归一化的降噪增益对基于似然比的语音存在概率进行替换，作为本发明核心降噪架构。

通过实验对比，本发明不仅很好的保留了神经网络的降噪性能而且对一般神经网络在语音中间噪声残留大的问题有很大的改善。如附图7所示，从上到下分别为：原始带噪语音语谱图(Public噪声)，基于OM-LSA噪声抑制效果图、基于NN-LSA噪声抑制效果图和基于NN-OM-LSA噪声抑制的效果图。

NN-OM-LSA噪声抑制算法的效果相比基于NN-LSA的噪声抑制算法效果残留回声明显变小，特别是谐波中间的噪声残留显著降低。

Claims

1.一种基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：包括离线模型训练部分和在线实时降噪部分；离线模型训练部分包括语音数据集、噪声数据集、神经元网络和基于对数谱幅度损失函数；在线实时降噪部分包括短时傅里叶变化分析和综合、基于NN-LSA的模型增益估计模块、基于谐波结构条件的语音存在概率估计模块、基于OM-LSA框架的增益估计模块。

2.根据权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：所述基于NN-LSA的模型增益估计模块采用基于对数谱最小均方误差为代价函数来进行参数估计，即

3.根据权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：所述基于NN-LSA是基于语谱图的结构化特征作为输入通过监督学习的方式获得最优参数，根据监督学习获得最优的模型来进行前向推理，获得噪声衰减增益G_nnLSA(k，l)。

4.根据权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：所述基于谐波结构条件的语音存在概率估计模块采用局部归一化的NN-LSA噪声衰减增益作为语音存在概率，即：

5.根据权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：所述基于谐波结构条件的语音存在概率估计模块利用G_nnLSA(k，l)在谐振点要比其临近的非谐振点要大的特点，对G_nnLSA(k，l)做局部归一化处理，来估计语音存在概率。

6.根据权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统，其特征在于：所述基于OM-LSA框架的增益估计模块根据基于OM-LSA的增益计算框架，使用G_nnLSA(k，l)替换G_LSA(k，l)，同时使用p_harm(k，l)来替换p(k，l)最终得到如下增益计算公式

7.一种建立在如权利要求1所述的基于采用谐波结构的OMLSA框架的神经网络降噪系统基础上的基于采用谐波结构的OMLSA框架的神经网络降噪方法，其特征在于，整个处理流程如下：