CN117854528A - 音频降噪方法、降噪模型的训练方法及装置 - Google Patents

音频降噪方法、降噪模型的训练方法及装置 Download PDF

Info

Publication number
CN117854528A
CN117854528A CN202311702835.7A CN202311702835A CN117854528A CN 117854528 A CN117854528 A CN 117854528A CN 202311702835 A CN202311702835 A CN 202311702835A CN 117854528 A CN117854528 A CN 117854528A
Authority
CN
China
Prior art keywords
audio
noise reduction
frequency
voiceprint
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311702835.7A
Other languages
English (en)
Inventor
陈洲旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202311702835.7A priority Critical patent/CN117854528A/zh
Publication of CN117854528A publication Critical patent/CN117854528A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本申请涉及一种音频降噪方法、降噪模型的训练方法及装置,所述方法包括:获取用户的带噪音频;通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述带噪音频在时域上和频域上的信息;将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征;将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频。采用本方法能够实现对包含非稳态噪声的带噪音频的有效降噪。

Description

音频降噪方法、降噪模型的训练方法及装置
技术领域
本申请涉及音频处理技术领域,特别是涉及一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
音频降噪一般是指当音频信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的音频信号,抑制、降低噪声干扰的技术。目前的音频降噪方法,多是采用传统数字信号处理,使用各种有效的频域转换和时域变换估计原始带噪音频中的噪声频谱,然后通过估计的噪声频谱从录制的信号中预测降噪后的音频信号。
然而,这种基于频域转换和时域变换的降噪方法通常假设噪声是稳态的,即噪声的统计特性在整个信号中是不变的,在该假设下,该降噪方法才有一定的降噪作用。在唱歌状态下,会出现伴奏外放的情况,周边的环境也比较复杂(比如在路边,有路人的声音;在家里k歌,也有家人朋友的交流声等。甚至,k歌场景下的伴奏,可能还有和声等人声存在),收音时会将伴奏,和环境声音全部收集,从而使后期处理人声变得更困难。
发明内容
基于此,有必要针对上述方法对后期人声的处理较为困难的技术问题,提供一种音频降噪方法、降噪模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种音频降噪方法。所述方法包括:
获取用户的带噪音频;
通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述带噪音频在时域上和频域上的信息;
将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征;
将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频。
在其中一个实施例中,所述将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征,包括:
通过所述自适应声纹模块,对所述带噪音频的所述时频信息进行声纹提取,得到所述用户的当前声纹特征,以及确定所述时频信息的干净程度值;
在预存有所述用户的历史声纹特征的情况下,基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征,确定所述用户的声纹特征。
在其中一个实施例中,所述基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征,确定所述用户的声纹特征,包括:
在所述干净程度值大于或等于阈值的情况下,基于所述当前声纹特征,对所述用户的历史声纹特征进行更新,得到所述用户的声纹特征;
在所述干净程度值小于所述阈值的情况下,将所述用户的历史声纹特征,确定为所述用户的声纹特征。
在其中一个实施例中,所述基于所述当前声纹特征,对所述用户的历史声纹特征进行更新,得到所述用户的声纹特征,包括:
获取针对所述用户的历史声纹特征预设的第一权重;
基于所述第一权重,确定所述当前声纹特征的第二权重;
根据所述第一权重和所述第二权重,对所述当前声纹特征和所述历史声纹特征进行融合处理,得到所述用户的声纹特征。
在其中一个实施例中,所述通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息之前,还包括:
对所述带噪音频进行子带分解处理,得到所述带噪音频的多个子带;
分别对各个子带进行时频变换处理,得到所述各个子带的音频特征;
所述通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息,包括:
通过所述降噪模型中的第一空洞卷积模块,分别对所述带噪音频的各个子带的音频特征进行信息提取处理,得到所述各个子带的时频信息。
在其中一个实施例中,所述用户的声纹特征包括所述各个子带对应的所述用户的声纹特征;
所述将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频,包括:
分别将每个子带对应的声纹特征及所述每个子带的时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述每个子带对应的降噪音频频谱;
对所述每个子带对应的降噪音频频谱进行时频变换的逆变换,得到所述每个子带的降噪音频片段;
对所述每个子带对应的降噪音频片段进行合成处理,得到所述带噪音频对应的降噪音频。
第二方面,本申请提供了一种降噪模型的训练方法。所述方法包括:
生成样本用户的样本带噪音频集,所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频,其中,所述样本带噪音频通过在干净音频的基础上,叠加不同信噪比的噪声音频和/或伴奏音频得到;
通过待训练降噪模型中的第一空洞卷积模块,对所述样本带噪音频进行信息提取处理,得到所述样本带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述样本带噪音频在时域上和频域上的信息;
将所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的自适应声纹模块,得到所述样本用户的声纹特征;
将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的第二空洞卷积模块,得到所述样本带噪音频对应的预测降噪音频;
基于所述预测降噪音频与所述干净音频之间的差异信息,对所述待训练降噪模型进行训练,得到训练完成的降噪模型。
在其中一个实施例中,所述样本带噪音频集包括第一带噪音频集和第二带噪音频集;所述第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声;所述第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声;所述目标干净音频为所述样本用户的人声;
所述方法还包括:
基于所述第一带噪音频集,对所述待训练降噪模型中的第一空洞卷积模块进行训练,得到第一训练后降噪模型;
保持所述第一空洞卷积模块的参数不变,基于所述第二带噪音频集,对所述待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练,得到第二训练后降噪模型,作为训练完成的降噪模型。
第三方面,本申请还提供了一种音频降噪装置。所述装置包括:
音频获取模块,用于获取用户的带噪音频;
信息提取模块,用于通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述带噪音频在时域上和频域上的信息;
声纹提取模块,用于将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征;
音频降噪模块,用于将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频。
第四方面,本申请提供了一种降噪模型的训练装置。所述装置包括:
样本获取模块,用于生成样本用户的样本带噪音频集,所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频,其中,所述样本带噪音频通过在干净音频的基础上,叠加不同信噪比的噪声音频和/或伴奏音频得到;
信息提取模块,用于通过待训练降噪模型中的第一空洞卷积模块,对所述样本带噪音频进行信息提取处理,得到所述样本带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述样本带噪音频在时域上和频域上的信息;
声纹提取模块,用于将所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的自适应声纹模块,得到所述样本用户的声纹特征;
音频预测模块,用于将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的第二空洞卷积模块,得到所述样本带噪音频对应的预测降噪音频;
模型训练模块,用于基于所述预测降噪音频与所述干净音频之间的差异信息,对所述待训练降噪模型进行训练,得到训练完成的降噪模型。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上任一项所述的音频降噪方法或降噪模型的训练方法。
上述音频降噪方法、降噪模型的训练方法、装置、计算机设备、存储介质和计算机程序产品,通过构建频域轴的空洞卷积网络和时域轴的空洞卷积网络,作为第一空洞卷积模块,以提取带噪音频在时域上和频域上的时频信息,进一步通过自适应声纹模块,基于时频信息提取到用户的声纹特征,最后利用第二空洞卷积模块,根据用户的声纹特征,对带噪音频进行降噪,从而得到降噪音频。该方法通过先提取用户的声纹特征,以用户的声纹特征为依据进行降噪,相对于传统的以带噪音频中的噪声频谱进行去噪,可以无需考虑噪声是否为稳态噪声,从而可以实现对含有非稳态噪声的带噪音频的有效降噪。
附图说明
图1为一个实施例中音频降噪方法的流程示意图;
图2为一个实施例中音频分帧的示意图;
图3为一个实施例中降噪模型的结构示意图;
图4为一个实施例中用户的声纹特征的提取步骤的流程示意图;
图5为一个实施例中降噪模型的训练方法的流程示意图;
图6为另一个实施例中降噪模型的训练方法的流程示意图;
图7为又一个实施例中降噪模型的训练方法的流程示意图;
图8为一个实施例中K歌作品歌声增强与混音流程示意图;
图9为另一个实施例中音频降噪方法的流程示意图;
图10为一个实施例中音频降噪装置的结构框图;
图11为一个实施例中降噪模型的训练装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在一个实施例中,如图1所示,提供了一种音频降噪方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
步骤S110,获取用户的带噪音频。
其中,带噪音频表示含有噪声的音频。噪声可以为稳态噪声,也可以为非稳态噪声,且噪声的类型也多种多样,例如,噪声可以为K歌场景下的伴奏声、环境声和其他人的人声等;噪声也可以为马路场景下的车声、喇叭声和街道播放的音乐声等。
可以理解,人们生活的环境处处充满着噪声,因此,音频信号一般都混有不同程度的噪声。比如在马路上、公园、广场等场所进行音频通话,录制的音频会携带如车辆行驶声音、喇叭声音等,会对通话产生不同程度的干扰。又例如,在K歌场景下,一般是通过麦克风拾取用户的歌声音频,受限于非专业设备和环境,通过麦克风拾取的歌声音频中很容易混入麦克风摩擦音、环境背景杂音,以及伴奏等噪声。类似地,在这种非专业设备非静音环境下录制的含有噪声的音频可视为带噪音频。
步骤S120,通过降噪模型中的第一空洞卷积模块,对带噪音频进行信息提取处理,得到带噪音频的时频信息;第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,时频信息包含带噪音频在时域上和频域上的信息。
其中,频域轴的空洞卷积网络可用于学习带噪音频的各个音频帧的帧内信息,作为频域信息。因为音频是一个时间序列,在时域轴的空洞卷积网络上,其主要用于学习带噪音频的各个音频帧的帧间信息,作为时域信息。
可以理解,每个音频都可分为多个音频帧,例如,参考图2,为音频分帧的示意图,用于分帧的帧移为10ms,帧长为20ms,可从音频起始时刻提取20ms帧长的帧作为第1帧,从音频起始时刻移动10ms的帧移,再提取20ms帧长的帧,作为第2帧,以此类推,可得到多个音频帧。因此,频域轴的空洞卷积网络和时域轴的空洞卷积网络可分别学习到带噪音频的各个音频帧的帧内信息和帧间信息。
具体实现中,参考图3,为一实施例示出的降噪模型的模型结构示意图,如图3所示,降噪模型包括第一空洞卷积模块31、自适应声纹模块32和第二空洞卷积模块33。其中,第一空洞卷积模块31中包含频域轴的空洞卷积网络310和时域轴的空洞卷积网络320。在获取用户的带噪音频后,可将带噪音频输入第一空洞卷积模块31进行处理,以提取带噪音频在时域和频域上的时频信息。具体而言,可先将带噪音频输入频域轴的空洞卷积网络310提取频域信息,再将提取的频域信息输入时域轴的空洞卷积网络320,提取到包含频域信息和时域信息的时频信息。
可以理解,由于音频存在各种谐波分量或者泛音等,因此,频域轴更大的视野对于捕获相关性有更大的帮助。因此,本申请在频域轴使用了空洞卷积(DilationConvolution,也可称为膨胀卷积),并且如图3所示,可以使用6层的空洞卷积网络,各层的膨胀尺度依次为1,2,4,8,16,32,即2的指数倍。此外,在频域轴还使用了正则化层(BatchNorm)进行归一化,以PReLu作为激活层。而且通过频域轴的空洞卷积,对歌声的较多泛音谐波有较好的保真效果,说明其对谐波进行了更好的建模。同时,空洞卷积对瞬态噪声/非稳态噪声(如开门声、键盘声、口水声)的抑制能力也较强,即在进行时频信息的提取时,便可对带噪音频进行初步的降噪处理。
另外,由于音频存在比较强的上下文关系,比如唱歌会把元音拉长,唱的更有韵律。因此,本申请在时间轴也建立了更大的视野,以捕获时间上的相关性。具体而言,本申请在时间轴的建模采用了与频域轴一样的空洞卷积网络,参数也与频域轴的空洞卷积网络的参数相一致。可以理解,在歌唱中,将一个字拉长,持续保留较长时间时,有助于更好的保留完整性,避免吞音。
在一种实施方式中,本申请的各个空洞卷积模块的空洞卷积网络可采用残差网络(Resnet)结构,以提高模型训练时的收敛效率。同时,整个空洞卷积网络可采用卷积神经网络(Convolutional Neural Networks,CNN)结构,可以并行化,也可以用分离卷积进行实现,因此是一个轻量化的网络,可进行实时处理。
在一种实施方式中,在通过降噪模型对带噪音频处理前,为了更好地处理和分析带噪音频,还可对带噪音频进行时频变换处理,即将带噪音频从时域转换至频域,以提取带噪音频的音频特征。最后将带噪音频的音频特征输入降噪模型进行时频信息的提取。
步骤S130,将带噪音频的时频信息,输入降噪模型中的自适应声纹模块,得到用户的声纹特征。
其中,自适应声纹模块用于进行声纹特征的提取。
具体实现中,自适应声纹模块可通过对带噪音频的时频信息进行识别分析,确定其干净程度值,以及可通过对带噪音频的时频信息进行声纹提取,得到用户的当前声纹特征。基于该干净程度值和当前声纹特征,确定提取用户的声纹特征的方式。
可以理解,由于同一用户的声纹特征为表征该用户声音特色的特征,一般不会变化较大,因此,在每次对用户的带噪音频进行降噪处理时,可以保留所提取的用户的声纹特征,以便于下一次使用。因此,在确定用户的声纹特征时,可先确定是否预存有该用户的历史声纹特征。若没有,即第一次对该用户进行声纹特征的提取时,则可直接将提取的用户的当前声纹特征,作为自适应声纹模块的输出。反之,若预存有用户的历史声纹特征,则可结合干净程度值、用户的当前声纹特征和历史声纹特征,共同确定用户的声纹特征。
步骤S140,将用户的声纹特征以及带噪音频的时频信息,输入降噪模型中的第二空洞卷积模块,得到带噪音频对应的降噪音频。
其中,第二空洞卷积模块包含一个空洞卷积网络,该空洞卷积网络与第一空洞卷积模块中频域轴的空洞卷积网络和时域轴的空洞卷积网络类似,除了层数为4之外,其余参数可设为一致。
具体实现中,可将用户的声纹特征与带噪音频的时频信息,输入第二空洞卷积模块后,第二空洞卷积模块可根据用户的声纹特征,从带噪音频的时频信息中去除与用户的声纹特征差异较大的信息,基于留下的时频信息,确定为降噪音频。
需要说明,若在将带噪音频输入降噪模型前,对带噪音频进行了时频变换,则降噪模型输出的为带噪音频对应的降噪音频在频域上的频谱,故还需对降噪音频的频谱进行逆变换,以将降噪音频频谱从频域变换回时域,由此得到降噪音频。
上述音频降噪方法中,通过构建频域轴的空洞卷积网络和时域轴的空洞卷积网络,作为第一空洞卷积模块,以提取带噪音频在时域上和频域上的时频信息,进一步通过自适应声纹模块,基于时频信息提取到用户的声纹特征,最后利用第二空洞卷积模块,根据用户的声纹特征,对带噪音频进行降噪,从而得到降噪音频。该方法通过先提取用户的声纹特征,以用户的声纹特征为依据进行降噪,相对于传统的以带噪音频中的噪声频谱进行去噪,可以无需考虑噪声是否为稳态噪声,从而可以实现对含有非稳态噪声的带噪音频的有效降噪。
在一示例性实施例中,如图4所示,上述步骤S130将带噪音频的时频信息,输入降噪模型中的自适应声纹模块,得到用户的声纹特征,具体包括:
步骤S410,通过自适应声纹模块,对带噪音频的时频信息进行声纹提取,得到用户的当前声纹特征,以及确定时频信息的干净程度值;
步骤S420,在预存有用户的历史声纹特征的情况下,基于干净程度值、用户的当前声纹特征和历史声纹特征,确定用户的声纹特征。
其中,干净程度值可表示时频信息含有噪声的情况。干净程度值可以采用多种计算方式表征,例如,干净程度值可以为信号能量与噪声能量的比值,干净程度值越高,表明时频信息含有的噪声越少,越纯净。
参考图3所示的降噪模型的结构示意图,自适应声纹模块可包括声纹提取模块、信噪比模块(SNR module)和声纹更新模块。其中,声纹提取模块,用于对带噪音频的时频信息进行声纹提取,以得到用户的当前声纹特征。信噪比模块用于对带噪音频的时频信息进行信噪比识别,以表征用户的时频信息的干净程度。声纹更新模块,用于对预存的用户的历史声纹特征进行更新。自适应声纹模块会根据信噪比模块提取的干净程度值,控制声纹更新模块的更新。其中,信噪比模块采用的为一个2层的双向长短期记忆(Long Short TermMemory,LSTM)模块,然后对接一个1维的卷积网络(CNN),并以sigmoid作为激活函数,它可以将一个实数映射到(0,1)的区间,来反应音频信号的干净程度,即值越高,其信噪比越高,代表音频信号越干净。假设信噪比模块的输出值为β,则β的取值位于(0,1)区间。
具体实现中,在将带噪音频的时频信息输入自适应声纹模块时,具体是将带噪音频的时频信息输入自适应声纹模块中的声纹提取模块和信噪比模块,由声纹提取模块提取用户的当前声纹特征,由信噪比模块提取用户的时频信息的干净程度值。之后,自适应声纹模块可根据干净程度值与预设阈值之间的大小关系,控制执行声纹更新模块的更新。
进一步地,在一示例性实施例中,步骤S420基于干净程度值、用户的当前声纹特征和历史声纹特征,确定用户的声纹特征,具体包括:
步骤S420a,在干净程度值大于或等于阈值的情况下,基于当前声纹特征,对用户的历史声纹特征进行更新,得到用户的声纹特征;
步骤S420b,在干净程度值小于阈值的情况下,将用户的历史声纹特征,确定为用户的声纹特征。
其中,阈值为经验值,可以根据实际情况设定,例如,阈值可以设为0.5。
具体地,当带噪音频的时频信息的干净程度值大于或等于阈值时,表明带噪音频的时频信息较为干净,含有的噪声较少,可以提取出较为准确的声纹。因此,可以采用声纹提取模块提取的用户的当前声纹特征,对用户的历史声纹特征进行更新。反之,当带噪音频的时频信息的干净程度值小于阈值时,表明带噪音频的时频信息含有的噪声较多,难以提取出较为准确的声纹,此种情况下则可以不对用户的历史声纹特征进行更新,而直接将用户的历史声纹特征,作为用户的声纹特征进行输出。
上述实施例,通过降噪模型的自适应声纹模块,先提取用户的当前声纹特征和带噪音频的时频信息的干净程度值,根据干净程度值与阈值之间的大小关系,确定是否采用用户的当前声纹特征对历史声纹特征进行更新后再输出。具体为在干净程度值大于或等于阈值时,才执行更新,从而可保证自适应声纹模块输出的用户的声纹特征的干净程度,继而保证后续的第二空洞卷积模块基于输出的声纹特征进行降噪的降噪效果,提高降噪音频的质量。
在一示例性实施例中,上述步骤S420a中,基于当前声纹特征,对用户的历史声纹特征进行更新,得到用户的声纹特征,包括:获取针对用户的历史声纹特征预设的第一权重;基于第一权重,确定当前声纹特征的第二权重;根据第一权重和第二权重,对当前声纹特征和历史声纹特征进行融合处理,得到用户的声纹特征。
具体地,第一权重可以根据经验进行设定,在确定针对历史声纹特征的第一权重后,可用1减去第一权重,得到针对当前声纹特征的第二权重,即第一权重与第二权重的和为1。在确定第一权重和第二权重后,可按照第一权重和第二权重对当前声纹特征和历史声纹特征进行加权求和处理,实现对当前声纹特征和历史声纹特征的融合,将加权求和得到的声纹特征,作为待输出的用户的声纹特征。
例如,若记第一权重为α,则第二权重可表示为1-α,对当前声纹特征E1与历史声纹特征E2进行融合的过程可用关系式表示为:
E2←α×E2+(1-α)×E1
其中,该关系式可以理解为通过当前时间点的声纹特征E1对上一时间点的历史声纹特征E2进行了更新,更新后的声纹特征,一方面作为待输出的用户的声纹特征进行输出,另一方面用于替换上一时间点的历史声纹特征,作为新的历史声纹特征,以用于下一次确定该用户的声纹特征。
其中,第一权重α的取值可以为0.95,也可以为0.9,0.98等。
其中,第一权重需要大于第二权重,以对历史声纹特征E2进行滑动平衡,使其缓慢更新,不发生突变。
可以理解,一般情况下,用户的历史声纹特征的获取方式有两种。一种为通过对用户在安静环境下录制的音频进行提取得到;另一种为通过从用户历史的音频(如历史歌唱作品)中,提取出相对干净的音频,然后对该音频进行声纹提取,得到声纹特征,这种场景下则不需要用户重新录制一段新的音频片段。但是,在用户没有作品时,则无法获取用户的声纹特征,而需要用户进行录入一段人声时,又有一系列要求,如在安静环境下,一定的录音时长(类似几分钟),以保证用户录入质量。同时,用户的声纹也会有变化,不同的硬件采集,不同的录音环境,造成的通信信道的差异,也会造成声纹特征略有区别。特别的,在用户演绎不同的歌曲时,其声纹也会根据其演绎不同的风格而有较大的区别。而本实施例中,基于历史声纹特征的第一权重与当前声纹特征的第二权重,对当前声纹特征和历史声纹特征进行融合处理,实现对历史声纹特征的更新,使得输出的用户的声纹特征可逐渐与用户的实时音频的声纹特征相贴近,在保证可以更好的针对该用户的带噪音频进行降噪,达到使降噪音频更加清晰干净的效果的基础上,可以避免直接用当前声纹特征替换历史声纹特征造成的声纹突变。
在一示例性实施例中,上述步骤S120通过降噪模型中的第一空洞卷积模块,对带噪音频进行信息提取处理,得到带噪音频的时频信息之前,还包括:对带噪音频进行子带分解处理,得到带噪音频的多个子带;分别对各个子带进行时频变换处理,得到各个子带的音频特征。
对应地,步骤S120通过降噪模型中的第一空洞卷积模块,对带噪音频进行信息提取处理,得到带噪音频的时频信息的实现方式包括:通过降噪模型中的第一空洞卷积模块,分别对带噪音频的各个子带的音频特征进行信息提取处理,得到各个子带的时频信息。
其中,时频变换可以为傅里叶变换,具体可以为短时傅里叶变换。
具体实现中,可以采用子带分解滤波器(Pruned-Tree-Structured QuadratureMirror Filter,PQMF)对带噪音频进行子带分解,也可以采用其他类似的方法,本申请对此不作具体限制。其中,对带噪音频进行子带分解的目的包括:(1)通过伪正交镜像滤波器组,将带噪音频分为多个子带信号,实现信号分频,从而可以降低计算复杂度。(2)由于人声中,更多的能量集中在低频段。而且在伴奏里,不同的乐器,其所分布的频段也不相同,通过将带噪音频分到不同的子带,可以更好的进行伴奏、噪声消除,使得性能得到提升。
为了便于降噪模型对带噪音频的分析处理,在对带噪音频进行子带分解处理,得到带噪音频的多个子带后,可进一步对各个子带分别进行如傅里叶变换的时频变换处理,以将各个子带的音频信号从时域转换至频域,得到各个自带的音频特征。对应地,在进行子带的情况下,通过降噪模型中的第一空洞卷积模块,对带噪音频进行信息提取处理,具体为对带噪音频的各个子带的音频特征进行信息提取处理,得到的为各个子带的时频信息。
实际应用中,本申请经过试验发现将带噪音频分成4个子带效果更佳,以C=4为例,在图3所示的降噪模型的结构示意图中,输入变量进入的第一个Conv是二维卷积,输入通道为4,输出通道为8,kernel_size:(1,1), stride(1,1)。第一空洞卷积模块的两个空洞卷积网络,其输入通道为8,输出通道为8,kernel_size:(3,3), stride(1,1)。第二个Conv也是二维卷积,输入通道为8,输出通道为4,kernel_size:(1,1), stride(1,1)。
本实施例中,通过先对带噪音频进行子带分解处理,可以降低直接对带噪音频进行处理的复杂度,并且可以更好地对不同类型的噪声进行消除,提高后续的降噪效果,再对分解得到的各个子带进行时频转换处理,使降噪模型处理的为各个子带的音频特征,可以更便于不同频率地降噪需求,提高降噪效果。
如上所述的实施例,通过降噪模型中的第一空洞卷积模块输出的为带噪音频的各个子带的时频信息,对应地,输入自适应声纹模块的即为各个子带的时频信息,则自适应声纹模块输出的用户的声纹特征,具体为各个子带对应的用户的声纹特征。
相应地,在一示例性实施例中,在得到各个子带对应的用户的声纹特征之后,步骤S140将用户的声纹特征以及带噪音频的时频信息,输入降噪模型中的第二空洞卷积模块,得到带噪音频对应的降噪音频,还包括:
步骤S141,分别将每个子带对应的声纹特征及每个子带的时频信息,输入降噪模型中的第二空洞卷积模块,得到每个子带对应的降噪音频频谱;
步骤S142,对每个子带对应的降噪音频频谱进行时频变换的逆变换,得到每个子带的降噪音频片段;
步骤S143,对每个子带对应的降噪音频片段进行合成处理,得到带噪音频对应的降噪音频。
具体实现中,如图3所示的模型结构示意图,由于自适应声纹模块输出的声纹特征E2的尺度与第一空洞卷积模块输出的时频信息Y的尺度不一致。因此,还需要对声纹特征E2进行尺度转换处理,具体可以在自适应声纹模块之后设置有一个卷积层(Conv)B,通过卷积层B将E2的尺度转换为与时频信息Y相一致的尺度。之后,将转换的声纹特征与时频信息Y输入第二空洞卷积模块。
由于降噪模型是针对每个子带分别进行处理,因此,每个子带均需执行上述的声纹特征的尺度转换处理后,再输入第二空洞卷积模块,得到每个子带对应的降噪音频频谱。由于为了便于音频信号处理,在将各个子带输入降噪模型前,对各个子带进行了时频变换处理,因此,在降噪模型输出各个自带的降噪音频频谱后,需要进行逆变换处理,即将各个子带的降噪音频频谱从频域转换为时域,得到每个子带的降噪音频片段。最后,需要对各个子带的降噪音频片段进行合成处理,具体可采用并行重建的方法进行合成,得到带噪音频对应的降噪音频。
本实施例中,通过第二空洞卷积网络分别对每个自带进行降噪处理,然后对各个降噪音频频谱进行时频变换的逆变换,得到每个子带的降噪音频片段,对各个子带的降噪音频片段进行合成处理,得到带噪音频对应的降噪音频。该方法以单个子带为处理对象,在降噪模型中分别针对每个子带进行降噪,在降噪完成后,再将各个子带的降噪音频片段进行合成,可以极大地降低降噪模型对带噪音频进行降噪处理的难度。
在一示例性实施例中,上述分别对各个子带进行时频变换处理,得到所述各个子带的音频特征,包括:针对每个子带,对所述子带进行时频变换处理,得到所述子带的幅值特征和相位特征;将所述幅值特征和所述相位特征,确定为所述子带的音频特征。
具体地,时频变换可以为傅里叶变换,下面以傅里叶变换为例,对本实施例进行详细说明。
首先,对子带进行时频变换前,需先对子带的波形信号进行分帧。其中,分帧的帧长可记为L,帧移可记为P。其中,L一般为2的指数倍,例如L为1024。帧移可以为0.5L。在分帧后,可对每个音频帧进行加窗操作,具体为将每个帧的信号乘以一个窗函数,以减少音频帧之间的不连续性引起的频谱泄漏问题,之后可进行傅里叶变换。假设帧长为L,则进行傅里叶变换后,一共有L个频点,由于频点的对称共轭性,一般取L/2+1个频点即可。
假设子带进行傅里叶变换后,其结果是一个复数域:,其对应的幅度为:/>,其对应的相位为:/>,其中,arctan是反正切函数。
对子带的时域波形进行短时傅里叶变换,可得到变换后的初始频谱。其中,|X|即为提取到的初始频谱的幅值特征,α为初始频谱的相位特征。该幅值特征和相位特征,可视为该子带的音频特征。
本实施例中,通过对每个子带进行时频变换处理,得到每个子带的幅值特征和相位特征,作为每个子带的音频特征,可以更好地理解和处理带噪音频,便于之后进行时频信息的提取。
在一个实施例中,如图5所示,提供了一种降噪模型的训练方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S510,生成样本用户的样本带噪音频集,所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频,其中,所述样本带噪音频通过在干净音频的基础上,叠加不同信噪比的噪声音频和/或伴奏音频得到。
具体实现中,样本带噪音频集的获取过程可包括:
(1)收集大量的用户的干净音频以及各种类型的噪声音频,其中,噪声可以为广场、马路、会议室、餐厅、咖啡厅和键盘敲击声等场景类型的噪声。
(2)收集大量的伴奏音频,例如,钢琴、吉他、鼓等乐器和原始歌曲伴奏等类型的伴奏。这里可以广义的将伴奏认为是噪声,因为需要对他们进行消除。
(3)将干净音频和各种类型的噪声、伴奏进行混合得到带噪音频。混合方式可以按照不同的信噪比进行合成,以满足不同噪声程度的场景。例如,带噪音频的混合方式可以为:a)干净音频+噪声音频;b)干净音频+伴奏音频;c)干净音频+噪声音频+伴奏音频。其中,噪声、伴奏需要叠加的信噪比,可根据应用场景进行混合叠加。例如信噪比可选-15~20 dB的范围,本申请对此不作进一步限定,可以根据实际需求场景进行选择。
通过上述步骤(1)-(3),则可得到具有不同噪声程度或不同噪声类型的多个样本带噪音频,以及每个样本带噪音频对应的用户的干净音频,将各个样本带噪音频及其对应的干净音频,构成样本带噪音频集。
步骤S520,通过待训练降噪模型中的第一空洞卷积模块,对样本带噪音频进行信息提取处理,得到样本带噪音频的时频信息;第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,时频信息包含样本带噪音频在时域上和频域上的信息。
步骤S530,将样本带噪音频的时频信息,输入待训练降噪模型中的自适应声纹模块,得到样本用户的声纹特征。
步骤S540,将样本用户的声纹特征以及样本带噪音频的时频信息,输入待训练降噪模型中的第二空洞卷积模块,得到样本带噪音频对应的预测降噪音频。
具体地,和前述实施例中通过降噪模型对带噪音频进行降噪的过程类似,在对待训练降噪模型进行训练时,也是将样本带噪音频先输入待训练降噪模型的第一空洞卷积网络,通过第一空洞卷积网络中的频域轴的空洞卷积网络和时域轴的空洞卷积网络提取到样本带噪音频的时频信息,之后时频信息将输入降噪模型中的自适应声纹模块,由自适应声纹模块处理得到样本用户的声纹特征,最后通过降噪模型中的第二空洞卷积模块对声纹特征进行处理,得到样本带噪音频对应的预测降噪音频。
步骤S550,基于预测降噪音频与干净音频之间的差异信息,对待训练降噪模型进行训练,得到训练完成的降噪模型。
具体地,样本带噪音频有多个,在针对待训练降噪模型进行训练时,每次采用一个带噪音频组合(包含一个样本带噪音频及该样本带噪音频的干净音频),对待训练降噪模型进行训练。更具体地,每次训练过程中,将一个样本带噪音频输入待训练降噪模型中,得到预测降噪音频,然后计算该预测降噪音频与输入的样本带噪音频对应的干净音频之间的损失值,作为差异信息,对待训练降噪模型进行训练,直至得到的损失值收敛,或者达到预设训练次数,结束训练,得到训练完成的降噪模型。
其中,在通过样本带噪音频训练降噪模型前,可先对样本带噪音频进行特征提取,得到其音频特征。具体地,特征提取方法为傅里叶变换,用于将样本带噪音频从时域转换至频域,获取样本带噪音频的幅值特征和相位特征,作为其音频特征。之后以样本带噪音频的音频特征为输入变量,以样本带噪音频的干净音频为监督信息,通过损失函数进行约束,进行降噪模型的训练。
例如,设样本带噪音频为x,其对应的干净音频为s,待训练降噪模型的预测降噪音频为z,对三个音频分别进行傅里叶变换得到的频谱分别为Xf,Sf,Zf。则可计算Sf和Zf之间的误差,根据该误差调整降噪模型中的超参数,使得降噪模型中的权重(weight)得到充分的训练和学习。通过不断的迭代,训练至上述误差小于预设值时完成训练,得到训练完成的降噪模型。
上述降噪模型的训练方法所构建的降噪模型中,以频域轴的空洞卷积网络和时域轴的空洞卷积网络,作为第一空洞卷积模块,从而提取带噪音频在时域上和频域上的时频信息,进一步通过自适应声纹模块,基于时频信息提取到用户的声纹特征,最后利用第二空洞卷积模块,根据用户的声纹特征,对带噪音频进行降噪,从而得到降噪音频。该方法通过先提取用户的声纹特征,以用户的声纹特征为依据进行降噪,相对于传统的以带噪音频中的噪声频谱进行去噪,可以无需考虑噪声是否为稳态噪声,从而可以实现对含有非稳态噪声的带噪音频的有效降噪。
在一个实施例中,样本带噪音频集包括第一带噪音频集和第二带噪音频集;第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声;第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声;目标干净音频为样本用户的人声。
如图6所示,所述方法还包括:
步骤S610,基于第一带噪音频集,对待训练降噪模型中的第一空洞卷积模块进行训练,得到第一训练后降噪模型。
步骤S620,保持第一空洞卷积模块的参数不变,基于第二带噪音频集,对待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练,得到第二训练后降噪模型,作为训练完成的降噪模型。
具体地,本申请对降噪模型的训练包括两个阶段。第一阶段:采用第一带噪音频集训练第一空洞卷积模块,第二阶段:冻结第一空洞卷积模块的参数,采用第二带噪音频集训练自适应声纹模块和第二空洞卷积模块。以下结合图3对两个阶段分别进行说明。
第一阶段:
构建第一带噪音频集。通过将预先收集的干净音频和噪声、伴奏混合得到带噪音频。混合方式与步骤S510中的方式相同,如第一样本带噪音频A可以为:a)目标干净音频 +噪声音频;b)目标干净音频 + 伴奏音频;c)目标干净音频 + 噪声音频 + 伴奏音频。需要指出的是,每个第一样本带噪音频中只包含一个人声的干净音频,可称为目标干净音频。
通过第一带噪音频集训练第一空洞卷积模块。如图3所示,第一阶段的训练,以第一带噪音频集中的第一样本带噪音频X1为输入变量,以第一空洞卷积模块的输出Y为预测结果,以第一样本带噪音频X1对应的目标干净音频为监督信息,对第一空洞卷积模块进行训练。具体地,将第一样本带噪音频X1输入降噪模型,获取第一空洞卷积模块的输出变量Y,将该输出变量Y与X1对应的目标干净音频代入损失函数,得到损失值,基于该损失值调整第一空洞卷积模块的超参数,直至损失值收敛或达到预设训练次数,结束训练,得到第一训练后降噪模型。其中,损失函数可以为第一空洞卷积模块的输出变量与目标干净音频之间的均方误差函数。
第二阶段:
构建第二带噪音频集。通过将预先收集的干净音频和噪声、伴奏混合得到带噪音频。混合方式与步骤S510中的方式相同。需要指出的是,第二阶段与第一阶段的区别在于,第一阶段的干净音频只包含一个人声,而在第二阶段加入了干扰人声,使得训练得到的降噪模型可以抑制干扰人声,只保留目标人声。例如,第二带噪音频集中的第二样本带噪音频B可以为:a)目标干净音频 + 干扰干净音频 + 噪声音频;b)目标干净音频 + 干扰干净音频 + 伴奏音频;c)目标干净音频 + 干扰干净音频 + 噪声音频 + 伴奏音频。
通过第二带噪音频集训练自适应声纹模块和第二空洞卷积模块。如图3所示,第二阶段的训练,以第二带噪音频集中的第二样本带噪音频X2为输入变量,以整个降噪模型的输出,即第二空洞卷积模块的输出Z为预测结果,以第二样本带噪音频X2对应的目标干净音频为监督信息,对自适应声纹模块和第二空洞卷积模块进行训练。具体地,将第二带噪音频集中的第二样本带噪音频X2输入降噪模型,得到预测降噪音频,将该预测降噪音频与目标干净音频代入损失函数,得到损失值,基于该损失值调整自适应声纹模块和第二空洞卷积模块的超参数,直至损失值收敛或达到预设训练次数,结束训练,得到第二训练后降噪模型。其中,损失函数可以为降噪模型的输出变量与目标干净音频之间的均方误差函数。
可以理解,在进行第二阶段的训练时,由于已经完成了第一阶段的训练,因此可以将第一阶段的参数进行冻结,只更新第二阶段的模型。
本实施例中,考虑到对自适应声纹模块的期望主要为能够区分出干扰人声,而对第一空洞卷积模块的期望为能够区分出不包含人声的其他噪声,因此,考虑到两个模块的任务的区别,本申请采用了分阶段训练的方法,通过不同的带噪音频集,分两个阶段对降噪模型进行训练,一方面可以在保证降噪模型能够去除伴奏音频和噪声音频的基础上,能够有效地去除干扰人声,另一方面可以降低训练的复杂性,节省计算资源,提高训练速率。
需要说明的是,本申请提供的降噪模型的训练方法,与前述实施例中所涉及的音频降噪方法中各个实施例的实现方案相同,如图7所示,在降噪模型的训练方法中,也可以进一步包括对样本带噪音频先进行子带分解,得到多个子带,针对每个子带分别进行时频转换,将得到的每个子带的音频特征输入降噪模型,得到每个子带的降噪音频频谱,通过逆变换得到每个子带的降噪音频片段,最后通过对每个子带对应的降噪音频片段进行合成处理,得到降噪音频等方案,在此不再赘述。
在一个实施例中,为了便于本领域技术人员理解本申请实施例,以下将以K歌场景下,对通过麦克风采集的用户的歌声作为带噪音频为例,对本申请提供的音频降噪方法进行详细说明。
需要说明,音频具有较广泛的强度变化。同样,歌唱发生具有更广泛的频率范围。发音与说话不同,唱歌时,有时会延长元音,唱歌有特定的节奏和旋律。持续的音符和颤音将其与语音区分开来。另一方面,虽然说话和唱歌都起源于相同的人类发声系统,但它们在音素使用、音调、呼吸和音量等方面有本质的不同。比如,唱歌的平均强度水平高于语音方面,与歌声相关的背景音乐也有独特之处。进行外放唱歌时也会将伴奏收音,从而使得后期处理人声变的困难,因此从混有伴奏、噪声的人声中,去除伴奏和人声就变的比较重要。
特别的,唱歌时的周边环境中,除了用户自己的歌声外,可能还有其他人声,比如在路边,有路人的声音;在家中k歌,也有家人朋友的交流声等。甚至,k歌场景下的伴奏,可能还有和声等人声存在。一般的降噪场景,能消除掉噪声、甚至伴奏,但是对于人声还是有保留。本申请的目的在于除了能消除掉噪声、伴奏外,还能消除用户外的其他人声,尽量只保留用户的声音,从而更好的对用户的歌声进行增强。
因此,将用户k歌时的声音视为目标歌声/人声,对于不是该用户的声音的其他人声进行消除,其流程图如图8所示,需要对用户的人声进行各种均衡(Equaliser,EQ)、混响等效果的处理,然后再与伴奏进行响度均衡,进行混音处理,最后形成一个完整的音乐作品。如果通过麦克风拾取时,除了用户的歌声外,也同时拾取了伴奏、环境噪声,以及干扰人声等,在进行EQ、混响等效果处理时,因为受到伴奏、噪声等的影响,很难调出理想效果,特别是伴奏场景下,被拾取到的伴奏是通过扬声器播出来的,经过不同的扬声器、麦克风等路径,其与原始制作良好的伴奏也有所不同。另外,最终作品还要与伴奏进行混音,则叠加了2次伴奏,因为人声中有伴奏,伴奏比例有多少也不能准确计算,最终进行人声、伴奏响度均衡时,也形成了困难,很难保证效果。因此,通过对人声进行噪声、伴奏和干扰人声的去除,使得各种流程更加的可控,合成的音频的质量得到提升。
具体地,如图9所示,本申请提供的能够对噪声、伴奏和干扰人声进行去除的音频降噪方法的具体流程图如下:
步骤S910,获取用户的带噪音频,对带噪音频进行子带分解处理,得到带噪音频的多个子带;
步骤S920,分别对各个子带进行傅里叶变换处理,得到各个子带的幅值特征和相位特征,作为音频特征;
步骤S930,分别将各个子带的音频特征输入降噪模型,得到各个子带的降噪音频片段;
其中,降噪模型对每个子带的处理过程包括:
步骤S9301,通过降噪模型中的第一空洞卷积模块,对单个子带的音频特征进行信息提取处理,得到子带的时频信息;
步骤S9302,通过自适应声纹模块,对子带的时频信息进行声纹提取,得到子带对应的当前声纹特征,以及确定时频信息的干净程度值;
步骤S9303,在预存有用户的历史声纹特征的情况下,判断干净程度值是否大于或等于阈值;
步骤S9304,若否,则将用户的历史声纹特征,确定为子带的声纹特征;
步骤S9305,若是,则基于针对用户的历史声纹特征预设的第一权重,确定当前声纹特征的第二权重;
步骤S9306,根据第一权重和第二权重,对当前声纹特征和历史声纹特征进行融合处理,得到子带对应的声纹特征;
步骤S9307,将子带对应的声纹特征及时频信息,输入降噪模型中的第二空洞卷积模块,得到子带对应的降噪音频频谱;
步骤S9308,对子带对应的降噪音频频谱进行时频变换的逆变换,得到子带的降噪音频片段;
步骤S940,对每个子带对应的降噪音频片段进行合成处理,得到带噪音频对应的降噪音频。
本实施例提供的音频降噪方法,通过先提取用户的声纹特征,以用户的声纹特征为依据进行降噪,相对于传统的以带噪音频中的噪声频谱进行去噪,可以无需考虑噪声是否为稳态噪声,从而可以实现对含有非稳态噪声的带噪音频的有效降噪。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的音频降噪方法的音频降噪装置,以及用于实现上述所涉及的降噪模型的训练方法的降噪模型的训练装置。这两个装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对于对应方法的限定,在此不再赘述。
在一个实施例中,如图10所示,提供了一种音频降噪装置,包括:音频获取模块1001、信息提取模块1002、声纹提取模块1003和音频降噪模块1004,其中:
音频获取模块1001,用于获取用户的带噪音频;
信息提取模块1002,用于通过降噪模型中的第一空洞卷积模块,对带噪音频进行信息提取处理,得到带噪音频的时频信息;第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,时频信息包含带噪音频在时域上和频域上的信息;
声纹提取模块1003,用于将带噪音频的时频信息,输入降噪模型中的自适应声纹模块,得到用户的声纹特征;
音频降噪模块1004,用于将用户的声纹特征以及带噪音频的时频信息,输入降噪模型中的第二空洞卷积模块,得到带噪音频对应的降噪音频。
在其中一个实施例中,声纹提取模块1003,还用于通过自适应声纹模块,对带噪音频的时频信息进行声纹提取,得到用户的当前声纹特征,以及确定时频信息的干净程度值;在预存有用户的历史声纹特征的情况下,基于干净程度值、用户的当前声纹特征和历史声纹特征,确定用户的声纹特征。
在其中一个实施例中,声纹提取模块1003,还用于在干净程度值大于或等于阈值的情况下,基于当前声纹特征,对用户的历史声纹特征进行更新,得到用户的声纹特征;在干净程度值小于阈值的情况下,将用户的历史声纹特征,确定为用户的声纹特征。
在其中一个实施例中,声纹提取模块1003,还用于获取针对用户的历史声纹特征预设的第一权重;基于第一权重,确定当前声纹特征的第二权重;根据第一权重和第二权重,对当前声纹特征和历史声纹特征进行融合处理,得到用户的声纹特征。
在其中一个实施例中,上述装置还包括音频处理模块,用于对带噪音频进行子带分解处理,得到带噪音频的多个子带;分别对各个子带进行时频变换处理,得到各个子带的音频特征;
对应地,信息提取模块1002,还用于通过降噪模型中的第一空洞卷积模块,分别对带噪音频的各个子带的音频特征进行信息提取处理,得到各个子带的时频信息。
在其中一个实施例中,用户的声纹特征包括各个子带对应的用户的声纹特征;音频降噪模块1004,还用于分别将每个子带对应的声纹特征及每个子带的时频信息,输入降噪模型中的第二空洞卷积模块,得到每个子带对应的降噪音频频谱;对每个子带对应的降噪音频频谱进行时频变换的逆变换,得到每个子带的降噪音频片段;对每个子带对应的降噪音频片段进行合成处理,得到带噪音频对应的降噪音频。
在一个实施例中,如图11所示,提供了一种降噪模型的训练装置,包括:样本获取模块1101、信息提取模块1102、声纹提取模块1103、音频预测模块1104和模型训练模块1105,其中:
样本获取模块1101,用于生成样本用户的样本带噪音频集,所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频,其中,所述样本带噪音频通过在干净音频的基础上,叠加不同信噪比的噪声音频和/或伴奏音频得到;
信息提取模块1102,用于通过待训练降噪模型中的第一空洞卷积模块,对样本带噪音频进行信息提取处理,得到样本带噪音频的时频信息;第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,时频信息包含样本带噪音频在时域上和频域上的信息;
声纹提取模块1103,用于将样本带噪音频的时频信息,输入待训练降噪模型中的自适应声纹模块,得到样本用户的声纹特征;
音频预测模块1104,用于将样本用户的声纹特征以及样本带噪音频的时频信息,输入待训练降噪模型中的第二空洞卷积模块,得到样本带噪音频对应的预测降噪音频;
模型训练模块1105,用于基于预测降噪音频与干净音频之间的差异信息,对待训练降噪模型进行训练,得到训练完成的降噪模型。
在其中一个实施例中,样本带噪音频集包括第一带噪音频集和第二带噪音频集;第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声;第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声;目标干净音频为样本用户的人声;模型训练模块1105,还用于基于第一带噪音频集,对待训练降噪模型中的第一空洞卷积模块进行训练,得到第一训练后降噪模型;保持第一空洞卷积模块的参数不变,基于第二带噪音频集,对待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练,得到第二训练后降噪模型,作为训练完成的降噪模型。
上述音频降噪装置和降噪模型的训练装置中的各个模块均可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频降噪过程中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频降噪方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种音频降噪方法,其特征在于,所述方法包括:
获取用户的带噪音频;
通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述带噪音频在时域上和频域上的信息;
将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征;
将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频。
2.根据权利要求1所述的方法,其特征在于,所述将所述带噪音频的所述时频信息,输入所述降噪模型中的自适应声纹模块,得到所述用户的声纹特征,包括:
通过所述自适应声纹模块,对所述带噪音频的所述时频信息进行声纹提取,得到所述用户的当前声纹特征,以及确定所述时频信息的干净程度值;
在预存有所述用户的历史声纹特征的情况下,基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征,确定所述用户的声纹特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述干净程度值、所述用户的所述当前声纹特征和所述历史声纹特征,确定所述用户的声纹特征,包括:
在所述干净程度值大于或等于阈值的情况下,基于所述当前声纹特征,对所述用户的历史声纹特征进行更新,得到所述用户的声纹特征;
在所述干净程度值小于所述阈值的情况下,将所述用户的历史声纹特征,确定为所述用户的声纹特征。
4.根据权利要求3所述的方法,其特征在于,所述基于所述当前声纹特征,对所述用户的历史声纹特征进行更新,得到所述用户的声纹特征,包括:
获取针对所述用户的历史声纹特征预设的第一权重;
基于所述第一权重,确定所述当前声纹特征的第二权重;
根据所述第一权重和所述第二权重,对所述当前声纹特征和所述历史声纹特征进行融合处理,得到所述用户的声纹特征。
5.根据权利要求1所述的方法,其特征在于,所述通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息之前,还包括:
对所述带噪音频进行子带分解处理,得到所述带噪音频的多个子带;
分别对各个子带进行时频变换处理,得到所述各个子带的音频特征;
所述通过降噪模型中的第一空洞卷积模块,对所述带噪音频进行信息提取处理,得到所述带噪音频的时频信息,包括:
通过所述降噪模型中的第一空洞卷积模块,分别对所述带噪音频的各个子带的音频特征进行信息提取处理,得到所述各个子带的时频信息。
6.根据权利要求5所述的方法,其特征在于,所述用户的声纹特征包括所述各个子带对应的所述用户的声纹特征;
所述将所述用户的声纹特征以及所述带噪音频的所述时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述带噪音频对应的降噪音频,包括:
分别将每个子带对应的声纹特征及所述每个子带的时频信息,输入所述降噪模型中的第二空洞卷积模块,得到所述每个子带对应的降噪音频频谱;
对所述每个子带对应的降噪音频频谱进行时频变换的逆变换,得到所述每个子带的降噪音频片段;
对所述每个子带对应的降噪音频片段进行合成处理,得到所述带噪音频对应的降噪音频。
7.一种降噪模型的训练方法,其特征在于,所述方法包括:
生成样本用户的样本带噪音频集,所述样本带噪音频集包括样本带噪音频和所述样本带噪音频对应的干净音频,其中,所述样本带噪音频通过在干净音频的基础上,叠加不同信噪比的噪声音频和/或伴奏音频得到;
通过待训练降噪模型中的第一空洞卷积模块,对所述样本带噪音频进行信息提取处理,得到所述样本带噪音频的时频信息;所述第一空洞卷积模块包括频域轴的空洞卷积网络和时域轴的空洞卷积网络,所述时频信息包含所述样本带噪音频在时域上和频域上的信息;
将所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的自适应声纹模块,得到所述样本用户的声纹特征;
将所述样本用户的声纹特征以及所述样本带噪音频的所述时频信息,输入所述待训练降噪模型中的第二空洞卷积模块,得到所述样本带噪音频对应的预测降噪音频;
基于所述预测降噪音频与所述干净音频之间的差异信息,对所述待训练降噪模型进行训练,得到训练完成的降噪模型。
8.根据权利要求7所述的方法,其特征在于,所述样本带噪音频集包括第一带噪音频集和第二带噪音频集;所述第一带噪音频集中的每个第一样本带噪音频包含目标干净音频和至少一种噪声;所述第二带噪音频集中的每个第二样本带噪音频包含目标干净音频、干扰干净音频和至少一种噪声;所述目标干净音频为所述样本用户的人声;
所述方法还包括:
基于所述第一带噪音频集,对所述待训练降噪模型中的第一空洞卷积模块进行训练,得到第一训练后降噪模型;
保持所述第一空洞卷积模块的参数不变,基于所述第二带噪音频集,对所述待训练降噪模型中的自适应声纹模块和第二空洞卷积网络进行训练,得到第二训练后降噪模型,作为训练完成的降噪模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的音频降噪方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的音频降噪方法的步骤。
CN202311702835.7A 2023-12-12 2023-12-12 音频降噪方法、降噪模型的训练方法及装置 Pending CN117854528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311702835.7A CN117854528A (zh) 2023-12-12 2023-12-12 音频降噪方法、降噪模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311702835.7A CN117854528A (zh) 2023-12-12 2023-12-12 音频降噪方法、降噪模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN117854528A true CN117854528A (zh) 2024-04-09

Family

ID=90546651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311702835.7A Pending CN117854528A (zh) 2023-12-12 2023-12-12 音频降噪方法、降噪模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN117854528A (zh)

Similar Documents

Publication Publication Date Title
CN112289333B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Xu et al. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement
Wu et al. A reverberation-time-aware approach to speech dereverberation based on deep neural networks
Xu et al. An experimental study on speech enhancement based on deep neural networks
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
Xiang et al. A parallel-data-free speech enhancement method using multi-objective learning cycle-consistent generative adversarial network
Pandey et al. Self-attending RNN for speech enhancement to improve cross-corpus generalization
Wang et al. A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures
KR20130112898A (ko) 시간 변화 정보를 갖는 기저 함수를 사용한 음악 신호의 분해
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Li et al. Real-time monaural speech enhancement with short-time discrete cosine transform
Yuan A time–frequency smoothing neural network for speech enhancement
Yuliani et al. Speech enhancement using deep learning methods: A review
Ebner et al. Audio inpainting with generative adversarial network
Krishnamoorthy et al. Speaker recognition under limited data condition by noise addition
Marafioti et al. Audio inpainting of music by means of neural networks
Moliner et al. Behm-gan: Bandwidth extension of historical music using generative adversarial networks
Li et al. μ-law SGAN for generating spectra with more details in speech enhancement
Liu et al. A robust acoustic feature extraction approach based on stacked denoising autoencoder
Zhang et al. Multi-task audio source separation
Wu et al. Self-supervised speech denoising using only noisy audio signals
CN117854528A (zh) 音频降噪方法、降噪模型的训练方法及装置
Kashani et al. Speech Enhancement via Deep Spectrum Image Translation Network
Wang et al. Multi-target ensemble learning based speech enhancement with temporal-spectral structured target
Sarfjoo et al. Transformation of low-quality device-recorded speech to high-quality speech using improved SEGAN model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination