CN109410974B - 语音增强方法、装置、设备及存储介质 - Google Patents

语音增强方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109410974B
CN109410974B CN201811237113.8A CN201811237113A CN109410974B CN 109410974 B CN109410974 B CN 109410974B CN 201811237113 A CN201811237113 A CN 201811237113A CN 109410974 B CN109410974 B CN 109410974B
Authority
CN
China
Prior art keywords
voice
irm
enhanced
speech
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811237113.8A
Other languages
English (en)
Other versions
CN109410974A (zh
Inventor
成学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201811237113.8A priority Critical patent/CN109410974B/zh
Publication of CN109410974A publication Critical patent/CN109410974A/zh
Application granted granted Critical
Publication of CN109410974B publication Critical patent/CN109410974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音增强方法、装置、设备及存储介质。该方法包括:获得待增强语音的语音特征;将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。本发明提高了语音增强的效果。

Description

语音增强方法、装置、设备及存储介质
技术领域
本发明涉及语音领域,尤其涉及一种语音增强方法、装置、设备及存储介质。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。
现有技术中,主要通过深层神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN)或循环神经网络(Recurrent neural Network,RNN)实现基于深度学习的语音增强。并且,DNN、CNN和RNN主要针对已知分布的噪声进行建模。
然而,由于语音噪声的分布通常复杂且未知,因此通过DNN、CNN或RNN实现基于深度学习的语音增强,存在语音增强效果较差的问题。
发明内容
本发明实施例提供一种语音增强方法、装置、设备及存储介质,用以解决现有技术中语音增强效果较差的问题。
第一方面,本发明实施例提供一种语音增强方法,包括:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
第二方面,本发明实施例提供一种语音增强装置,包括:
获得模块,用于获得待增强语音的语音特征;
理想比值膜IRM得到模块,用于将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
增强结果得到模块,用于根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述装置还包括:增强模型得到模块,用于:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
将样本语音的语音特征输入至所述GAN的生成器,得到第二IRM;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述增强模块得到模块,用于根据所述第一IRM以及所述第二IRM,得到所述增强模型,具体包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述装置还包括:识别模块,用于根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
第三方面,本发明实施例提供一种语音增强设备,包括:
处理器以及用于存储计算机指令的存储器;所述处理器运行所述计算机指令执行以下方法:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
将样本语音的语音特征输入至所述GAN的生成器,得到第二IRM;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
第四方面,本发明实施例提供一种计算机可读存储介质,当所述存储介质中的指令由语音增强设备的处理器执行时,使得语音增强设备能够执行以下方法:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
将样本语音的语音特征输入至所述GAN的生成器,得到第二IRM;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
本发明实施例提供的语音增强方法、装置、设备及存储介质,通过将待增强语音的语音特征输入至增强模型,得到待增强语音的IRM,增强模型为基于GAN实现的,用于根据语音特征得到IRM的模型,并根据待增强语音的语音特征以及待增强语音的IRM,得到待增强语音的语音增强结果,实现了基于GAN的语音增强,由于GAN网络能够对分布复杂且未知的语音噪声更好的学习,因此,通过可以提高语音增强的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的语音增强方法实施例一的流程图;
图2为本发明提供的语音增强方法实施例二的流程图。
图3为本发明提供的基于GRU的生成对抗网络的示意图;
图4为本发明提供的语音识别的示意图;
图5为本发明实施例提供的语音增强装置实施例的结构示意图一;
图6为本发明实施例提供的语音增强装置实施例的结构示意图二;
图7为本发明实施例提供的语音增强装置实施例的结构示意图三;
图8为本发明实施例提供的语音增强设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供给的语音增强方法可以应用于任何需要进行语音增强的设备,即语音增强设备中。该语音增强设备例如可以为智能音箱、车载导航、搭载DuerOS的设备、智能电视、智能冰箱等。其中,DuerOS是一种对话式人工智能操作系统。目前,由于环境的复杂性与噪声的多样性对语音增强提出了更高的要求。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1为本发明提供的语音增强方法实施例一的流程图。本实施例的方法的执行主体可以为语音增强设备,例如可以为智能音箱、车载导航、搭载DuerOS的设备、智能电视、智能冰箱等。如图1所示,本实施例的方法可以包括:
步骤101,获得待增强语音的语音特征。
本步骤中,该待增强语音具体可以为一段或多段待增强的语音片段,当包括多段待增强的语音片段时,多段待增强语音片段的帧数可以完全相同,部分相同,也可以完全不同。当不同时,可以通过补零的方式,使得多段待增强语音片段的帧数相同。例如,假设待增强语音包括5个语音片段,5个语音片段的帧数可以分别为1、2、3、4和5帧且每帧语音特征的维度为80,则5个语音片段的语音特征可以分别为1×80、2×80、3×80、4×80和5×80,可以通过补零的方式,使得5个语音片段的语音特征均为5×80。
语音特征具体可以为能够表征语音的特征的任意类型特征,例如可以为滤波器组(Filter Bank,fbank)特征。
需要说明的是,对于获得待增强的语音特征的具体方式,本发明不作限定。可选的,可以通过对待增强的语音进行特征提取,获得待增强语音的语音特征,或者,也可以接收其他设备发送的待增强语音的语音特征。其中,待增强语音可以为通过麦克风采集到的语音,或者也可以为从其他设备接收到的语音。
步骤102,将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜(Ideal Ratio Mask,IRM);所述增强模型为基于生成对抗网络(GenerativeAdversarial Networks,GAN)实现的,用于根据语音特征得到IRM的模型。
本步骤中,所述增强模型的输入为待增强语音的语音特征,所述增强模型的输出为待增强语音的IRM。并且,所述增强模型为基于GAN实现的模型,GAN是一种深度学习网络,至少可以包括生成器和对抗器两部分,通过生成器和对抗器的互相博弈学习产生相当好的输出。其中,生成器用于利用输入的语音特征生成IRM,对抗器用于确定输入对抗器的IRM是否是生成器输出的IRM。这里,通过增强模型为基于GAN实现的模型,而GAN网络能够对分布复杂且未知的语音噪声更好的学习,因此,通过增强模型可以得到更好的语音增强效果。
可选的,在获得待增强语音的语音特征之后,可以对获得的待增强语音的语音特征进行倒谱均值方差归一化(Cepstrum Mean Normalization,CMVN)处理,从而将语音特征的特征值限制在一定范围内,便于后续处理。
需要说明的是,当待增强语音包括多个语音片段时,多个语音片段可以作为一个批量(batch),一个批量的语音片段分别的语音特征可以一次输入至增强模型,通过增强模型得到该批量中各语音片段的IRM。
步骤103,根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
需要说明的是,这里,待增强语音的强语音的语音增强结果。语音增强结果可以理解为对待增强语音进行语音增强处理后得到的语音。关于根据待增强语音的语音特征以及待增强语音的IRM,得到待增强语音的语音增强结果的具体方式,可以参见现有技术中的相关描述,在此不再赘述。
本实施例提供的语音增强方法,通过将待增强语音的语音特征输入至增强模型,得到待增强语音的IRM,增强模型为基于GAN实现的,用于根据语音特征得到IRM的模型,并根据待增强语音的语音特征以及待增强语音的IRM,得到待增强语音的语音增强结果,实现了基于GAN的语音增强,由于GAN网络能够对分布复杂且未知的语音噪声更好的学习,因此,通过可以提高语音增强的效果。
图2为本发明提供的语音增强方法实施例二的流程图。本实施例在图1所示实施例的基础上,主要描述了得到所述增强模型的一种可选的实现方式。如图2所示,本实施例的方法可以包括:
步骤201,将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM。
本步骤中,与待增强语音类似,该加噪语音具体可以为一段或多段加噪的语音片段,当包括多段加噪的语音片段时,多段加噪语音片段的帧数可以完全相同,部分相同,也可以完全不同。当不同时,可以通过补零的方式,使得多段加噪语音片段的帧数相同。需要说明的是,当加噪语音包括多个语音片段时,多个语音片段可以作为一个批量,一个批量的语音片段分别的语音特征可以一次输入至生成器,通过生成器得到该批量中各语音片段的IRM。
所述加噪语音为对样本语音加噪后获得的一个或多个语音片段。其中,样本语音可以为清晰的语音,具体可以为噪声值小于或等于噪声阈值的语音。对样本加噪具体可以是指对样本语音加噪声。这里的噪声可以为通过噪声生成器生成的分布已知的生成噪声,或者也可以为通过麦克风采集到的分布未知的环境噪声。
需要说明的是,生成器的输入和输出与GAN相同,具体的,生成器的输入可以为语音特征,生成器的输出可以为IRM。可以理解的是,第一IRM为生成器根据加噪语音的语音特征,输出的加噪语音的语音特征对应的IRM。
步骤202,根据所述第一IRM以及第二IRM,得到所述增强模型。
本步骤中,所述第二IRM为所述加噪语音的真实的IRM。第一IRM可以理解为所述加噪语音的生成的IRM,与所述第二IRM相对。需要说明的是,对于获得第二IRM的具体方式,本发明不作限定。例如,可以通过所述样本语音,得到所述第二IRM。
这里,由于第一IRM为生成器输出的加噪语音的语音特征对应的IRM,第二IRM为加噪语音的真实的IRM,因此可以基于生成器输出的加噪语音对应的第一IRM与第二IRM不断逼近的策略,训练得到所述增强模型。
可选的,可以如下方式实现根据第一IRM以及第二IRM,得到增强模型:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,以得到所述增强模型。
其中,对抗器的目的是区分真实数据和生成数据,从而最大化判决准确率,生成器则是尽可能逼近真实数据的潜在分布。为了在博弈中胜出,对抗器需要不断的提高自己的判别能力,即对抗器损失尽可能小,生成器需要不断的提高自己的生成能力,即生成器损失尽可能小,优化的目标就是寻找两者之间的纳什均衡。
其中,对抗器可以输出0至1之间的数,用于表示输入的数据为真实数据的概率。当对抗器的输出为0时,可以表示对抗器将输入数据区分生成数据。当对抗器的输出为1时,可以表示对抗器将输入数据区分为真实数据。当对抗器的输出为0.5时,可以表示对抗器区分不出输入数据是真实数据还是生成数据,这也是对GAN的目标。
需要说明的是,上述第一IRM可以理解为生成数据,上述第二IRM可以理解为真实数据。其中,第一IRM对应的第一标签(label)可以为0,第二IRM对应的第二标签可以为1。
可以理解的是,可以通过基于很多个加噪语音进行上述步骤201-步骤203的处理,最终可以训练获得对抗器区分不出输入数据是真实数据还是生成数据的GAN,此时的GAN可以认为是上述增强模型。
可选的,对抗器和生成器的损失函数可以采用绝对差分公式(也称为L1损失)。当一个批量包括多个语音片段,且多个语音片段的帧数不完全相同时,考虑到补零得到的帧的语音特征在经过生成器处理后,其对应的IRM可能不为0,因此,为了避免由此导致的生成器损失不准确的问题,进一步可选的,可以根据语音片段补零前的实际帧数以及实际帧数对应的生成器损失,确定一个批量的生成器损失。例如,假设一个批量的待增强语音包括3个语音片段,分别为语音片段1至语音片段3,且补零前,语音片段1的帧数为1,语音片段2的帧数为2,语音片段3的帧数为3,且每帧语音特征的维度为80,则该批量的生成器损失可以等于补零前,1帧语音片段1、2帧语音片段2以及3帧语音片段各维度语音特征的损失之和除以(1+2+3+4+5)。
可选的,可以按照生成器:对抗器等于2:1的方式更新模型。即,对于一个批量的语音片段,可以先固定生成器的网络参数,并更新一次对抗器的网络参数参数,再可以固定生成器的网络参数,并更新两次生成器的网络参数。
基于GRU的生成对抗网络的整体结构例如可以如图3所示。其中,对于生成器,加噪语音的语音特征经过CMVN处理后,可以输入至生成器。进一步的,分别由生成器两级DNN以及GRU处理后,输入至下一级GRU,下一级GRU的输出可以作为生成器的输出,生成器的输出即为第一IRM。对于对抗器,生成器输出的IRM与标签0作为一对(pair),加噪语音的真实的IRM与标签1作为另一对,两对分别输入对抗器后,经过对抗器的两级GRU处理,可以得到对抗器对于两对各自的输出,即0至1之间的数。进一步的,根据对抗器的输出以及对抗器和生成器的损失函数可以得到对抗器损失和生成器损失。
需要说明的是,对于图3,在训练完成后,进行语音增强时,CMVN处理输入的可以是待增强语音的语音特征,生成器输出的则可以是待增强语音的IRM。
可选的,图3中DNN和GRU中的激活函数(activation function)可以为线性整流函数(Rectified Linear Unit,ReLU)。其中,ReLU,又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
本实施例提供的语音增强方法,通过将加噪语音的语音特征输入至GAN的生成器,得到第一IRM,根据第一IRM以及第二IRM,所述第二IRM为加噪语音的真实的IRM,得到增强模型,实现了对GAN的生成器和对抗器进行训练,并将训练后的GAN作为增强模型。
可选的,上述GAN可以为基于门控循环单元(Gated Recurrent Unit,GRU)生成的网络。由于GRU可以实现变长片段的建模,因此基于GRU生成的网络的增强模型,可以实现不同批量的语音片段的最大帧数不同的待增强语音的处理。
可选的,上述GAN的生成器采用残差连接。
进一步可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
进一步可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。这里,通过DNN与GRU并行连接,可以通过DNN保存原始输入的信息,避免GRU学习过程中的信息损失。
可选的,所述GAN的对抗器包括多级GRU。
可选的,在得到待增强语音的语音增强结果的基础上,进一步的,可以基于得到待增强语音的语音增强结果进行语音识别。可选的,根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。例如,如图4所示,待增强语音在通过基于GAN实现的增强模型处理获得待增强语音的语音增强结果之后,与待增强语音一起可以输入至识别模型进行语音识别。从而,进一步可以得到语音增强结果。
需要说明的是,对于根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别的具体方式,本发明不作限定。
图5为本发明实施例提供的语音增强装置实施例的结构示意图一,本实施例提供的装置可以应用于上述方法实施例中,实现其语音增强设备的功能。如图5所示,本实施例的装置可以包括:获得模块501、IRM得到模块502和增强结果得到模块503。其中,
获得模块501,用于获得待增强语音的语音特征;
IRM得到模块502,用于将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
增强结果得到模块503,用于根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
本实施例提供的语音增强装置,通过IRM得到模块将待增强语音的语音特征输入至增强模型,得到待增强语音的IRM,增强模型为基于GAN实现的,用于根据语音特征得到IRM的模型,增强结果得到模块根据待增强语音的语音特征以及待增强语音的IRM,得到待增强语音的语音增强结果,实现了基于GAN的语音增强,由于GAN网络能够对分布复杂且未知的语音噪声更好的学习,因此,通过可以提高语音增强的效果。
图6为本发明实施例提供的语音增强装置实施例的结构示意图二,本实施例提供的装置在图5所示实施例的基础上,可选的,还可以包括:增强模型得到模块504,用于:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,增强模块得到模块404,用于根据所述第一IRM以及所述第二IRM,得到所述增强模型,具体包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
本实施例提供的语音增强装置,通过增强模型得到模块将加噪语音的语音特征输入至GAN的生成器,得到第一IRM,根据第一IRM以及第二IRM,所述第二IRM为加噪语音的真实的IRM,得到增强模型,实现了对GAN的生成器和对抗器进行训练,并将训练后的GAN作为增强模型。
图7为本发明实施例提供的语音增强装置实施例的结构示意图三,本实施例提供的装置在图5所示实施例的基础上,可选的,还可以包括:识别模块505,用于根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
本实施例的装置,可以用于执行上述方法所示实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明实施例提供的语音增强设备的结构示意图,如图8所示,该语音增强设备可以包括:处理器801以及用于存储计算机指令的存储器802。
其中,处理器801运行该计算机指令执行以下方法:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
本发明实施例还提供一种存储介质,当该存储介质中的指令由语音增强设备的处理器执行时,使得语音增强设备能够执行一种语音增强方法,该方法包括:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为基于生成对抗网络GAN实现的,用于根据语音特征得到IRM的模型;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
可选的,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型,所述第二IRM为所述加噪语音的真实的IRM。
可选的,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
可选的,所述GAN为基于门控循环单元GRU生成的网络。
可选的,所述GAN的生成器采用残差连接。
可选的,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
可选的,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
可选的,所述GAN的对抗器包括多级GRU。
可选的,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (20)

1.一种语音增强方法,其特征在于,包括:
获得待增强语音的语音特征;
将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的理想比值膜IRM;所述增强模型为将第一IRM以及与所述第一IRM对应的第一标签、第二IRM以及与所述第二IRM对应的第二标签,分别输入至生成对抗网络GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失,并根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化得到的模型,所述第一IRM是将加噪语音的语音特征输入至所述生成对抗网络GAN的生成器得到的,所述第二IRM为所述加噪语音的真实的IRM;
根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM之前,还包括:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一IRM以及所述第二IRM,得到所述增强模型,包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
4.根据权利要求1所述的方法,其特征在于,所述GAN为基于门控循环单元GRU生成的网络。
5.根据权利要求4所述的方法,其特征在于,所述GAN的生成器采用残差连接。
6.根据权利要求5所述的方法,其特征在于,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
7.根据权利要求6所述的方法,其特征在于,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
8.根据权利要求1所述的方法,其特征在于,所述GAN的对抗器包括多级GRU。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述根据待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果之后,还包括:
根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
10.一种语音增强装置,其特征在于,包括:
获得模块,用于获得待增强语音的语音特征;
理想比值膜IRM得到模块,用于将所述待增强语音的语音特征输入至增强模型,得到所述待增强语音的IRM;所述增强模型为将第一IRM以及与所述第一IRM对应的第一标签、第二IRM以及与所述第二IRM对应的第二标签,分别输入至生成对抗网络GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失,并根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化得到的模型,所述第一IRM是将加噪语音的语音特征输入至所述生成对抗网络GAN的生成器得到的,所述第二IRM为所述加噪语音的真实的IRM;
增强结果得到模块,用于根据所述待增强语音的语音特征以及所述待增强语音的IRM,得到所述待增强语音的语音增强结果。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:增强模型得到模块,用于:
将加噪语音的语音特征输入至所述GAN的生成器,得到第一IRM,所述加噪语音为对样本语音加噪后获得的语音;
根据所述第一IRM以及第二IRM,得到所述增强模型。
12.根据权利要求11所述的装置,其特征在于,所述增强模型得到模块,用于根据所述第一IRM以及所述第二IRM,得到所述增强模型,具体包括:
将所述第一IRM以及与所述第一IRM对应的第一标签作为第一对输入,将所述第二IRM以及与所述第二IRM对应的第二标签作为第二对输入,分别输入至所述GAN的对抗器,并根据所述对抗器的输出得到对抗器损失和生成器损失;
根据所述对抗器损失对所述对抗器的网络参数进行优化,并根据所述生成器损失对所述生成器的网络参数进行优化,得到所述增强模型。
13.根据权利要求10所述的装置,其特征在于,所述GAN为基于门控循环单元GRU生成的网络。
14.根据权利要求13所述的装置,其特征在于,所述GAN的生成器采用残差连接。
15.根据权利要求14所述的装置,其特征在于,所述生成器包括至少N级网络单元,所述N级网络单元中的至少一级网络单元为目标网络单元,所述目标网络单元采用残差连接,N为大于1的整数。
16.根据权利要求15所述的装置,其特征在于,所述目标网络连接为深层神经网络DNN与GRU并行连接形成的网络单元。
17.根据权利要求10所述的装置,其特征在于,所述GAN的对抗器包括多级GRU。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述装置还包括:识别模块,用于根据所述待增强语音的语音增强结果以及所述待增强语音,进行语音识别。
19.一种语音增强设备,其特征在于,包括:
处理器以及用于存储计算机指令的存储器;所述处理器运行所述计算机指令执行权利要求1-9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由语音增强设备的处理器执行时,使得语音增强设备能够执行权利要求1-9任一项所述的方法。
CN201811237113.8A 2018-10-23 2018-10-23 语音增强方法、装置、设备及存储介质 Active CN109410974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811237113.8A CN109410974B (zh) 2018-10-23 2018-10-23 语音增强方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811237113.8A CN109410974B (zh) 2018-10-23 2018-10-23 语音增强方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109410974A CN109410974A (zh) 2019-03-01
CN109410974B true CN109410974B (zh) 2021-09-28

Family

ID=65468316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811237113.8A Active CN109410974B (zh) 2018-10-23 2018-10-23 语音增强方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109410974B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI759591B (zh) 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN110610715B (zh) * 2019-07-29 2022-02-22 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN111128197B (zh) * 2019-12-25 2022-05-13 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
US11678120B2 (en) * 2020-05-14 2023-06-13 Nvidia Corporation Audio noise determination using one or more neural networks
CN111862413A (zh) * 2020-07-28 2020-10-30 公安部第三研究所 实现抗疫情非接触多维身份快速识别的方法及其系统
CN113077812A (zh) * 2021-03-19 2021-07-06 北京声智科技有限公司 语音信号生成模型训练方法、回声消除方法和装置及设备
CN113539293B (zh) * 2021-08-10 2023-12-26 南京邮电大学 基于卷积神经网络和联合优化的单通道语音分离方法
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103531204B (zh) * 2013-10-11 2017-06-20 深港产学研基地 语音增强方法
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network
CN107871496B (zh) * 2016-09-23 2021-02-12 北京眼神科技有限公司 语音识别方法和装置
CN107944546A (zh) * 2017-11-14 2018-04-20 华南理工大学 一种基于原始生成对抗网络模型的残差网络方法
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法

Also Published As

Publication number Publication date
CN109410974A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109410974B (zh) 语音增强方法、装置、设备及存储介质
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN112599122B (zh) 基于自注意力机制和记忆网络的语音识别方法及装置
CN109326299A (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
US9886948B1 (en) Neural network processing of multiple feature streams using max pooling and restricted connectivity
CN111326168B (zh) 语音分离方法、装置、电子设备和存储介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113488060A (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
Harliman et al. Data-and algorithm-hybrid approach for imbalanced data problems in deep neural network
CN111357051A (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN110633735B (zh) 基于小波变换的渐进式深度卷积网络图像识别方法及装置
CN109101858B (zh) 动作识别方法及装置
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN111144347B (zh) 一种数据处理方法、装置、平台及存储介质
CN113657466B (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN115859048A (zh) 一种局放信号的噪声处理方法及装置
CN112488238B (zh) 一种基于对抗自编码器的混合异常检测方法
CN114764593A (zh) 一种模型训练方法、模型训练装置及电子设备
CN109409226B (zh) 一种基于级联优化cnn的手指静脉图质量评估方法及其装置
CN112201270B (zh) 语音噪声的处理方法、装置、计算机设备及存储介质
CN113971806B (zh) 一种模型训练、字符识别方法、装置、设备及存储介质
CN115294396B (zh) 骨干网络的训练方法以及图像分类方法
CN115908962B (zh) 神经网络的训练方法、脉冲信号重构图像生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant