CN111128214A

CN111128214A - 音频降噪方法、装置、电子设备及介质

Info

Publication number: CN111128214A
Application number: CN201911315761.5A
Authority: CN
Inventors: 黄振胜
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111128214B

Abstract

本发明实施例提供一种音频降噪方法、装置、电子设备及介质。本发明提供的音频降噪方法，包括：从待降噪音频信号中分离出第一伴奏信号和第一语音信号；对第一伴奏信号进行过滤得到第二伴奏信号；对第一语音信号进行过滤得到第二语音信号；根据第二伴奏信号和第二语音信号合成降噪音频信号。本发明提供的音频降噪方法，通过针对分离后的伴奏信号和语音信号分别进行降噪，最后将降噪完的伴奏信号和人声部分信号再合成的方式，有效地去除噪声，实现更好的语音音质，尤其是可以有效地避免音乐伴奏上的一些高频部分被语音降噪算法抑制掉，导致处理后的音频信号失真严重的情况，为游戏或者直播用户提供更好的语音体验。

Description

音频降噪方法、装置、电子设备及介质

技术领域

本发明涉及音频降噪技术领域，尤其涉及一种音频降噪方法、装置、电子设备及介质。

背景技术

随着网络游戏和网络直播的快速发展，很多主播或者游戏玩家会一边说话一边播放背景音乐。在这种情况下，麦克风采集到的是人说话的语音、游戏中的音乐以及房间或者户外的背景噪声。

而目前降噪算法主要是针对语音设计的，并没有专门针对音乐的降噪算法。而对于语音降噪的算法，其原理基本包括三大部分：谱减法、维纳滤波器法以及统计方法滤波器法。同时，在构建降噪算法还必须引入噪声估计算法，因此，对噪声的估计的准确性以及降噪算法的选用决定了最终算法的优劣，并且体验在用户的体感上。

但是，由于音乐伴奏和语音在带宽上和其他信号特征上的差异比较大，如果直接将针对语音的降噪算法应用在音乐伴奏上，会导致音乐伴奏上的一些高频部分被降噪算法抑制掉，导致处理后的音频信号失真严重。

发明内容

本发明提供一种音频降噪方法、装置、电子设备及介质，以避免在对音频进行降噪处理时，出现处理后的音频信号失真严重的技术问题。

第一方面，本发明提供一种音频降噪方法，包括：

从待降噪音频信号中分离出第一伴奏信号和第一语音信号；

对所述第一伴奏信号进行过滤得到第二伴奏信号；

对所述第一语音信号进行过滤得到第二语音信号；

根据所述第二伴奏信号和所述第二语音信号合成降噪音频信号。

在一种可能的设计中，所述从待降噪音频信号中分离出第一伴奏信号和第一语音信号，包括：

根据第一预设深度循环神经网络模型从所述待降噪音频信号中分离出所述第一伴奏信号以及所述第一语音信号，其中，所述待降噪音频信号包括伴奏信号以及语音信号，所述第一预设深度循环神经网络模型的训练采用第一混合音频作为训练样本，采用所述第一混合音频在混合前的伴奏信号以及语音信号作为监督数据。

在一种可能的设计中，在所述对所述第一伴奏信号进行过滤得到第二伴奏信号之前，还包括：

根据第二预设深度循环神经网络模型从所述待降噪音频信号中分离出主体信号和第一噪声信号，其中，所述第二预设深度循环神经网络模型的训练采用第二混合音频作为训练样本，采用所述第二混合音频在混合前的主体信号以及噪声信号作为监督数据，所述第一噪声信号用于对所述第一伴奏信号进行降噪。

在一种可能的设计中，所述对所述第一伴奏信号进行过滤得到第二伴奏信号，包括：

根据第一预设广义权重滤波器过滤所述第一伴奏信号中的所述第一噪声信号，其中，所述第一预设广义权重滤波器根据所述待降噪音频信号的第一先验信噪比与第一后验信噪比进行构造，所述第一先验信噪比为所述主体信号的功率与所述第一噪声信号的功率之间的比值，所述第一后验信噪比为所述待降噪音频信号的功率与所述第一噪声信号的功率之间的比值。

在一种可能的设计中，在所述对所述第一语音信号进行过滤得到第二语音信号之前，还包括：

根据最小值跟踪法分离出所述第一语音信号中的人声信号以及第二噪声信号，所述第二噪声信号用于对所述第一语音信号进行降噪。

在一种可能的设计中，所述对所述第一语音信号进行过滤得到第二语音信号，包括：

根据第二预设广义权重滤波器过滤所述第一语音信号中的所述第二噪声信号，其中，所述第二预设广义权重滤波器根据所述第一语音信号的第二先验信噪比与第二后验信噪比进行构造，所述第二先验信噪比为所述人声信号的功率与所述第二噪声信号的功率之间的比值，所述第二后验信噪比为所述第一语音信号的功率与所述第二噪声信号的功率之间的比值。

在一种可能的设计中，所述的音频降噪方法，还包括：

构建第一训练数据集，所述第一训练数据集包括多个所述第一混合音频，所述第一混合音频为歌曲音频；

构建第一监督数据集，所述第一监督数据集包括所述第一训练数据集中每一个所述第一混合音频对应的伴奏信号以及语音信号；

采用所述第一训练数据集作为预设深度循环神经网络模型的训练样本，采用所述第一监督数据集中的伴奏信号以及语音信号存放至不同的通道进行监督学习，以构建所述第一预设深度循环神经网络模型。

第二方面，本发明还提供一种音频降噪装置，包括：

音频分离模块，用于从待降噪音频信号中分离出第一伴奏信号和第一语音信号；

伴奏过滤模块，用于对所述第一伴奏信号进行过滤得到第二伴奏信号；

语音过滤模块，用于对所述第一语音信号进行过滤得到第二语音信号；

音频合成模块，用于根据所述第二伴奏信号和所述第二语音信号合成降噪音频信号。

在一种可能的设计中，所述音频分离模块，具体用于：

在一种可能的设计中，所述音频降噪装置，还包括：

噪音分离模块，用于根据第二预设深度循环神经网络模型从所述待降噪音频信号中分离出主体信号和第一噪声信号，其中，所述第二预设深度循环神经网络模型的训练采用第二混合音频作为训练样本，采用所述第二混合音频在混合前的主体信号以及噪声信号作为监督数据，所述第一噪声信号用于对所述第一伴奏信号进行降噪。

在一种可能的设计中，所述伴奏过滤模块，具体用于：

在一种可能的设计中，所述噪音分离模块，还用于根据最小值跟踪法分离出所述第一语音信号中的人声信号以及第二噪声信号，所述第二噪声信号用于对所述第一语音信号进行降噪。

在一种可能的设计中，所述语音过滤模块，具体用于：

在一种可能的设计中，所述音频降噪装置，还包括训练模块，具体用于：

第三方面，本发明还提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器被配置为通过执行所述计算机程序来实现第一方面中任意一种所述的音频降噪方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任意一种所述的音频降噪方法。

本发明实施例提供的音频降噪方法、装置、电子设备及介质，通过从待降噪音频信号中分离出第一伴奏信号以及第一语音信号，然后对第一伴奏信号和第一语音信号分别进行过滤，并将过滤后的第二伴奏信号和第二语音信号合成为降噪音频信号，从而通过针对分离后的伴奏信号和语音信号分别进行降噪，最后将降噪完的伴奏信号和人声部分信号再合成的方式，有效地去除噪声，实现更好的语音音质，尤其是可以有效地避免音乐伴奏上的一些高频部分被语音降噪算法抑制掉，导致处理后的音频信号失真严重的情况，为游戏或者直播用户提供更好的语音体验。

附图说明

图1为本发明根据一实施例提供的音频降噪方法的应用场景图；

图2为本发明根据一实施例提供的音频降噪方法的流程示意图；

图3为图2所示实施例中音频信号分离流程示意图；

图4为图3中的深度循环神经网络模型的结构示意图；

图5为本发明根据一实施例提供的音频降噪装置的结构示意图；

图6为本发明根据另一实施例提供的音频降噪装置的结构示意图；

图7为本发明根据再一实施例提供的音频降噪装置的结构示意图；

图8为本发明根据一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着网络游戏和网络直播的快速发展，很多主播或者游戏玩家会一边说话一边播放背景音乐。在这种情况下，麦克风采集到的是人说话的语音、游戏中的音乐以及房间或者户外的背景噪声。而目前降噪算法主要是针对语音设计的，并没有专门针对音乐的降噪算法。对于语音降噪的算法，其原理基本包括三大部分：谱减法、维纳滤波器法以及统计方法滤波器法。同时，在构建降噪算法还必须引入噪声估计算法，因此，对噪声的估计的准确性以及降噪算法的选用决定了最终算法的优劣，并且体验在用户的体感上。但是，由于音乐伴奏和语音在带宽上和其他信号特征上的差异比较大，如果直接将针对语音的降噪算法应用在音乐伴奏上，会导致音乐伴奏上的一些高频部分被降噪算法抑制掉，导致处理后的音频信号失真严重。

针对上述存在的各个问题，本发明实施例提供一种音频降噪方法，通过从待降噪音频信号中分离出第一伴奏信号以及第一语音信号，然后对第一伴奏信号和第一语音信号分别进行过滤，并将过滤后的第二伴奏信号和第二语音信号合成为降噪音频信号，从而通过针对分离后的伴奏信号和语音信号分别进行降噪，最后将降噪完的伴奏信号和人声部分信号再合成的方式，有效地去除噪声，实现更好的语音音质，尤其是可以有效地避免音乐伴奏上的一些高频部分被语音降噪算法抑制掉，导致处理后的音频信号失真严重的情况，为游戏或者直播用户提供更好的语音体验。

图1为本发明根据一实施例提供的音频降噪方法的应用场景图。如图1所示，本实施例提供的音频降噪方法可以应用于多声源场景，例如：包括语音声源、伴奏声源以及噪音声源。

具体的，可以是应用于直播场景，在该场景中主播110会通过麦克风130进行收音直播。同时，在游戏直播解说或者直播互动的过程中，为了营造气氛，还会通过音乐播放设备120来播放背景音乐。并且，在直播环境中，尤其是针对非封闭式的直播环境，经常会存在其他的噪声源140，例如，可以是屋外的汽车鸣笛声音、飞机轰鸣声音以及动物叫唤声音等。

在这种直播环境中，麦克风130采集到的是人说话的语音、游戏中的音乐以及房间或者户外的背景噪声。由于音乐伴奏和语音在带宽上和其他信号特征上的差异比较大，如果直接将针对语音的降噪算法应用在音乐伴奏上，会导致音乐伴奏上的一些高频部分被降噪算法抑制掉，导致处理后的音频信号失真严重，进而影响直播过程中听众的感受。

因此，在本实施例中，可以先利用深度循环神经网络模型对麦克风130采集的声音进行分离处理，然后对分离后的伴奏信号进行单独降噪，或者是对分离后的伴奏信号以及语音信号进行分别降噪，从而有效地避免了音乐伴奏上的一些高频部分被降噪算法抑制掉，所导致的处理后的音频信号失真严重问题。

图2为本发明根据一实施例提供的音频降噪方法的流程示意图。如图1所示，本实施例提供的音频降噪方法，包括：

步骤201、从待降噪音频信号中分离出第一伴奏信号和第一语音信号。

具体的，可以是通过收音设备，例如麦克风，进行待降噪音频信号的采集，其中，待降噪音频信号包括伴奏信号以及语音信号。值得说明的，在待降噪音频信号在对伴奏信号以及语音信号进行收音时，通常还伴随着采集到房间或者户外的背景噪声。

在采集到待降噪音频信号之后，可以从待降噪音频信号中分离出第一伴奏信号和第一语音信号。例如，可以是根据第一预设深度循环神经网络模型从待降噪音频信号中分离出第一伴奏信号以及第一语音信号，其中，上述的第一预设深度循环神经网络模型的训练采用第一混合音频作为训练样本，采用第一混合音频在混合前的伴奏信号以及语音信号作为监督数据。

对于上述的第一预设深度循环神经网络模型的训练过程，可以是先构建第一训练数据集，其中，第一训练数据集包括多个第一混合音频，第一混合音频为歌曲音频，此外，还需构建第一监督数据集，第一监督数据集包括第一训练数据集中每一个第一混合音频对应的伴奏信号以及语音信号。然后，采用第一训练数据集作为预设深度循环神经网络模型的训练样本，采用第一监督数据集中的伴奏信号以及语音信号存放至不同的通道进行监督学习，以构建第一预设深度循环神经网络模型。

其中，图3为图2所示实施例中音频信号分离流程示意图。参照图3，深度循环神经网络模型(diagonal recurrent neural network简，称DRNN)是一个深度学习领域的网络，在语音识别领域广泛应用，本案例在DRNN原有网络的整体架构上，将其引入用来做音乐伴奏和人声语音的分离。

可选的，上述模型的具体的训练过程可以如下：

由N个歌曲片段(例如：可以为1000个歌曲片段)构建数据集，人声和伴奏声分别存放在不同的通道，采用16Khz的采样率，以及wav格式。

给定一首混合歌曲混合音频信号，通过短时傅里叶变换得到混合音频信号的振幅谱和相位谱。混合音频信号的振幅谱通过分离模型(虚线框的内容)，能分离出人声和伴奏声的振幅谱(Esitmated Magnitude Spectra)。分离出来的人声和伴奏声的振幅谱与混合歌曲的相位谱(Phase Spectra)，经过短时逆傅里叶变换，分别得到分离后的人声和伴奏声波形谱。DNN/DRNN在音乐人声分离中的主要内容是虚线框里部：DRNN网络通过鉴别性训练(Discriminative Training)后结合时域掩蔽技术分离人声和音乐。

在利用DNN/DRNN进行人声分离的时候，模型的输入是短时傅里叶变换后的一帧振幅谱，而输出两帧振幅谱并列成一个向量。如输入的帧的大小为512，则输出的大小为1024，前512个点是分离后的一帧人声振幅谱，后512个点是分离后的一帧伴奏声振幅谱。训练模型的时候，因为已经有纯净的人声和伴奏声作为监督数据，所以与其他利用神经网络解决有监督问题都是同一个原理的。只是我们的人声分离问题中，纯净的人声和伴奏声也需要进行短时傅里叶变换得到振幅谱。

图4为图3中的深度循环神经网络模型的结构示意图。如图4所示，DRNN网络在对伴奏信号与语音信号的分离中应用时，其具体结构为：

所采用的DRNN结构图中，输入为(混合歌曲的一帧或者多帧振幅普)；输出有两层，(通道1(source1)和通道2(source2)分别为人声和伴奏声)，带尖号的是模型的真正输出，带波浪号的是经过时频掩蔽后的输出。在神经网络参数更新中尖号到波浪号之间是没有参数更新的。该神经网络有三层隐藏层(图中的h1 h2 h3为隐藏层参数)，其中在第二层是有加入前一时刻的隐藏层信息的。

时频掩蔽技术由下面的公式给出：

其中，z_t(f)为混合音频信号，

以及

为分离出来的两个信号分量，

为：纯净的人声，

为：纯净的伴奏声，m_t(f)为：时频掩蔽参数。

由上面的公式，可以获知，时频掩蔽的过程其实就是求每一个时频点中人声和伴奏声占混合歌曲的百分比，然后人声和伴奏声的占的百分比分别乘以混合信号，从而得到最后的分离振幅谱。DNN/RNN之所以能够有效分离出人声和伴奏声的一个关键点是，将时频掩蔽作为模型的层叠加到模型的原始输出层，并进行训练即，其实并没有权值参数参与训练。这样就限制了模型的每个输出点的值只能在模型的输入值之间。掩蔽技术可以说是对模型的一个约束。

接下来简要分析一下DNN/RNN的损失函数。以简单的平方误差损失函数作为分析，该损失函数与上表中的损失函数的功能是一样的。鉴别性训练(DiscriminativeTraining)的损失函数如下：

其中，上式中，

和

表示模型在时刻t(第t帧)的输出频谱分量，y_1t和y_2t则分别为纯净的人声和伴奏声。假设下标1代表人声，下标2代表音乐。那么上式中的第一个平方误差的目的是让分离后的人声与纯净的人声越来与接近，第二个平方误差的目的是分离后的人声包含更少的伴奏声，第三个平方误差的目的是分离出来的伴奏声与纯净的伴奏声越来越接近，第四个平方误差则是使分离出来的伴奏声包含更少的人声。其中是γ一个常数项。

步骤202、对第一伴奏信号进行过滤得到第二伴奏信号。

在本步骤中，可以是对第一伴奏信号的噪音进行过滤，以得到第二伴奏信号，值得说明的，可以是采用适合用于对伴奏信号进行降噪的算法对第一伴奏信号的噪音进行过滤。

具体的，可以是根据第二预设深度循环神经网络模型从待降噪音频信号中分离出主体信号和第一噪声信号，其中，第二预设深度循环神经网络模型的训练采用第二混合音频作为训练样本，采用第二混合音频在混合前的主体信号以及噪声信号作为监督数据，而第一噪声信号用于对第一伴奏信号进行降噪。

值得说明的，上述步骤中，可以是把带待降噪音频信号看做是纯净信号加上噪声信号，因此，可以也通过利用深度循环神经网络模型(diagonal recurrent neuralnetwork简，称DRNN)来分离出噪声分量作为后续降噪的噪声估计。

其中，可以根据构造的第一预设广义权重滤波器过滤第一伴奏信号中的第一噪声信号。

具体的，上述的第一预设广义权重滤波器根据待降噪音频信号的第一先验信噪比与第一后验信噪比进行构造，第一先验信噪比为主体信号的功率与第一噪声信号的功率之间的比值，第一后验信噪比为待降噪音频信号的功率与第一噪声信号的功率之间的比值。

而对于广义权重滤波器，即广义权重幅度谱滤波器的实现原理如下：

人耳听觉模型不容易分辨频谱高能量区域的量化噪声，因此可以掩蔽效应通过修正损失函数，使得共振峰附近少一些加重，而在任何一点噪声都可听出来的谱谷多一些加重，参数为β。同时，对损失函数的权重p也根据掩蔽效应进行相应的自适应。因此损失函数定义为：

其中，上式中，

是实际信号第k个子带的频谱值，p可以理解为p次方，

为第k个子频带频谱的估算值，β，p为未知变量，后面可以根据听阈掩蔽效应来求解。

对损失函数求导，使得损失函数最小话的情况下，推导出最终语音估计值X′_k与带噪语音Y_k的关系为：

其中，γ_k为后验信噪比，Γ(x)为gamma函数，φ(a,b；z)为超流体函数，v_k为：一个通过先验信噪比ε_k和后验信噪比γ_k计算来的一个参数，用于简略下面公式表达。

其中，ε_k为先验信噪比。

因此，滤波器H_k为：

其中，对于β，p的求解根据听阈掩蔽效应，具体如下：

对于参数p：

根据听阈曲线，求得不同频率的掩蔽阈值(frequency masking threshold)，然后把全频分成21个bark域，则听觉感知参数(auditory perceptual parameter)为：

其中，T(1,k)为不同频率的掩蔽阈值，这个可以根据现有的听阈曲线来获得每个频率的阈值，arg[minT(1,k)]、arg[maxT(1,k)]分别代表第l帧k个频带掩蔽阈值中的最小值和最大值。

另外，子带信噪比(sub-band SNR)：

其中，B_low(b)为子带频率下限，B_up(b)为子带频率上限，Y(b,k)为原始输出的信号，λ_d(b,k)为噪声估计信号。

综上，以上两个参数，可得参数p近似为：

其中，

为常量参数，θ_Th(1,k)，E(b,k)分别为掩蔽阈值和子带信噪比。

而对于参数β：

计算频率位置函数:

其中，f(k)为频率，A是一个常量。

而Bark域是较早提出来的一种声音的心理声学尺度，本文介绍Bark域相关知识以及线性频率域转换到Bark域的方法。最后给出线性频域和Bark域的直观例子。

临界频带是听觉学和心理声学的专业名词，耳蜗是内耳中听觉的传感器官，临界频带指的是由于耳蜗构造产生的听觉滤波器的频率带宽。概况地说，临界频带是声音频率带，在临界频带中第一个单音感知性会被第二单音的听觉掩蔽所干扰。声学研究中，人们使用听觉滤波器来模拟不同的临界频带。后来研究者发现人耳结构大致会对24个频率点产生共振，根据这个结论Eberhard Zwicker在1961年针对人耳特殊结构提出：信号在频带上也呈现出24个临界频带，分别从1到24，即Bark域。

Eberhanrd Zwicker提出使用以下方式可以粗略地使用听觉滤波器来模拟出听觉的24个临界频带，也即是用Bark域描述信号方法。

根据相关的心理声学的研究，由于人耳的特殊结构，在同一个临界频带里头信号容易发生掩蔽效应，即：主要信号容易被能量大并且频率接近的掩蔽信号所掩蔽。因此我们可以认为Bark域约近的信号越容易产生掩蔽效应。

然而，Bark域可以通过查表获得，在上个世纪80年代左右到90年代左右学者们提出了各种近似函数来近似表示Bark域。

规整到bark域，bark域的分频数与计算参数p时一样，共21个，因此有：

其中，B_low(b)为bark域下限值，B_up(b)为bark域上限值，d(k)为频率位置函数，参见上述公式。

则压缩率为：

其中，β_max、β_min为常数值，代表β的上下限值，F_s为频率值，A为一个常量，默认可以取值0.45。

然后根据子带信噪比E(b,k)推导信噪比相关的压缩率：

其中，μ，η为常量参数。

最终，整合β(b,k)和

得到最终的压缩率：

ε(b,k)＝aθ_Th(l,k)

其中，a为常数因子。

由此可见，整个滤波器的重点在于通过子带信噪比E(b,k)和bark域的听阈阈值θ_Th(l,k)求解β，p两个参数，然后带入统计模型中，求解滤波器。

整个滤波器由于是基于掩蔽效应，因此对于人耳的听觉效果而言，能最大的把残留噪声掩盖，同时由于是统计模型推导，不存在额外的音乐噪声产生。总而言之，通过增加计算的复杂度，能主观上减少噪声。

步骤203、对第一语音信号进行过滤得到第二语音信号。

在本步骤中，可以是对第一语音信号的噪音进行过滤，以得到第二语音信号，值得说明的，可以是采用适合用于对语音信号进行降噪的算法对第一语音信号的噪音进行过滤。

可选的，在根据第一预设深度循环神经网络模型从待降噪音频信号中分离出第一伴奏信号以及第一语音信号之后，还可以根据最小值跟踪法分离出第一语音信号中的人声信号以及第二噪声信号，然后，根据第二预设广义权重滤波器过滤第一语音信号中的第二噪声信号，其中，第二预设广义滤波器根据第一语音信号的第二先验信噪比与第二后验信噪比进行构造，第二先验信噪比为人声信号的功率与第二噪声信号的功率之间的比值，第二后验信噪比为第一语音信号的功率与第二噪声信号的功率之间的比值。

步骤204、根据第二伴奏信号和第二语音信号合成降噪音频信号。

在本实施例中，通过从待降噪音频信号中分离出第一伴奏信号以及第一语音信号，然后对第一伴奏信号和第一语音信号分别进行过滤，并将过滤后的第二伴奏信号和第二语音信号合成为降噪音频信号，从而通过针对分离后的伴奏信号和语音信号分别进行降噪，最后将降噪完的伴奏信号和人声部分信号再合成的方式，有效地去除噪声，实现更好的语音音质，尤其是可以有效地避免音乐伴奏上的一些高频部分被语音降噪算法抑制掉，导致处理后的音频信号失真严重的情况，为游戏或者直播用户提供更好的语音体验。

值得说明的，伴奏信号降噪和语音信号降噪分开处理，对于伴奏信号的高频部分，滤波时的抑制系数可以偏小一点，防止导致音乐高频丢失或者失真。而对于语音信号部分，可以增大抑制系数，尽可能大的抑制噪声。此外，利用深度学习网络不但分离音乐和人声，还负责估算音乐噪声。当训练样本足够的话，估算的噪声会比用传统方法更加准确。并且，先比目前直接用语音的降噪算法对含有音乐的语音进行降噪，效果比较好，伴奏信号不会因为降噪而导致失真。

图5为本发明根据一实施例提供的音频降噪装置的结构示意图。如图5所示，本实施例提供的音频降噪装置300，包括：

音频分离模块301，用于从待降噪音频信号中分离出第一伴奏信号和第一语音信号；

伴奏过滤模块302，用于对所述第一伴奏信号进行过滤得到第二伴奏信号；

语音过滤模块303，用于对所述第一语音信号进行过滤得到第二语音信号；

音频合成模块304，用于根据所述第二伴奏信号和所述第二语音信号合成降噪音频信号。

在一种可能的设计中，所述音频分离模块301，具体用于：

在图5所示实施例的基础上，图6为本发明根据另一实施例提供的音频降噪装置的结构示意图。如图6所示，本实施例提供的音频降噪装置300，还包括：

噪音分离模块305，用于根据第二预设深度循环神经网络模型从所述待降噪音频信号中分离出主体信号和第一噪声信号，其中，所述第二预设深度循环神经网络模型的训练采用第二混合音频作为训练样本，采用所述第二混合音频在混合前的主体信号以及噪声信号作为监督数据，所述第一噪声信号用于对所述第一伴奏信号进行降噪。

在一种可能的设计中，所述伴奏过滤模块302，具体用于：

在一种可能的设计中，所述噪音分离模块305，还用于根据最小值跟踪法分离出所述第一语音信号中的人声信号以及第二噪声信号，所述第二噪声信号用于对所述第一语音信号进行降噪。

在一种可能的设计中，所述语音过滤模块303，具体用于：

在图6所示实施例的基础，图7为本发明根据再一实施例提供的音频降噪装置的结构示意图。如图7所示，本实施例提供的音频降噪装置，还包括训练模块306，具体用于：

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

值得说明的，图5-图7所示实施例提供的音频降噪装置，可用于执行上述任一方法实施例提供的音频降噪方法中的步骤，具体实现方式和技术效果类似，这里不再赘述。

图8为本发明根据一实施例提供的电子设备的结构示意图。如图8所示，本实施例提供的电子设备400，包括：

处理器401；以及，

存储器402，用于存储所述处理器的可执行指令，该存储器还可以是flash(闪存)；

其中，所述处理器401配置为经由执行所述可执行指令来执行上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器402既可以是独立的，也可以跟处理器401集成在一起。

当所述存储器402是独立于处理器401之外的器件时，所述电子设备400，还可以包括：

总线403，用于连接所述处理器401以及所述存储器402。

本实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当电子设备的至少一个处理器执行该计算机程序时，电子设备执行上述的各种实施方式提供的方法。

本实施例还提供一种程序产品，该程序产品包括计算机程序，该计算机程序存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得电子设备实施上述的各种实施方式提供的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频降噪方法，其特征在于，包括：

从待降噪音频信号中分离出第一伴奏信号和第一语音信号；

对所述第一伴奏信号进行过滤得到第二伴奏信号；

对所述第一语音信号进行过滤得到第二语音信号；

2.根据权利要求1所述的音频降噪方法，其特征在于，所述从待降噪音频信号中分离出第一伴奏信号和第一语音信号，包括：

3.根据权利要求2所述的音频降噪方法，其特征在于，在所述对所述第一伴奏信号进行过滤得到第二伴奏信号之前，还包括：

4.根据权利要求3所述的音频降噪方法，其特征在于，所述对所述第一伴奏信号进行过滤得到第二伴奏信号，包括：

5.根据权利要求2所述的音频降噪方法，其特征在于，在所述对所述第一语音信号进行过滤得到第二语音信号之前，包括：

6.根据权利要求5所述的音频降噪方法，其特征在于，所述对所述第一语音信号进行过滤得到第二语音信号，包括：

7.根据权利要求2-6中任意一项所述的音频降噪方法，其特征在于，还包括：

8.一种音频降噪装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的计算机程序；

其中，所述处理器被配置为通过执行所述计算机程序来实现权利要求1至7任一项所述的音频降噪方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的音频降噪方法。