CN117789744A

CN117789744A - 基于模型融合的语音降噪方法、装置及存储介质

Info

Publication number: CN117789744A
Application number: CN202410206087.1A
Authority: CN
Inventors: 邓邱伟; 田云龙; 赵乾; 栾天祥; 刘学承
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-03-29
Anticipated expiration: 2044-02-26
Also published as: CN117789744B

Abstract

本申请公开了一种基于模型融合的语音降噪方法、装置及存储介质，涉及语音处理技术领域，其中，上述方法包括：将与待降噪语音信号对应的待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，判别降噪结果包括第一降噪语音特征，参考噪声信息为估计出的待降噪语音特征中的噪声信息；将待降噪语音特征和参考噪声信息输入到目标生成模型，得到第二降噪语音特征，第二降噪语音特征为目标生成模型基于述参考噪声信息对待降噪语音特征进行降噪处理得到的语音特征；对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号。

Description

基于模型融合的语音降噪方法、装置及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种基于模型融合的语音降噪方法、装置及存储介质。

背景技术

目前，可以为智能设备配置语音交互功能，以提高智能家居设备控制的便捷性。例如，在智能家居场景中，可以通过为智能家居设备配置语音交互功能，以提高智能家居设备控制的便捷性。在进行语音交互时，可以通过智能设备上的语音采集部件（例如，麦克风等）进行语音信号采集，并对采集到的语音信号进行识别，基于识别结果对智能设备或者关联设备进行控制。

然而，由于智能设备所在的环境中存在的各种环境噪声（例如，电器工作声、人声交谈声、电视背景音）、混响和回声，导致语音失真，从而降低语音清晰度。对此，可以为在对语音信号进行识别之前，对语音信号进行处理，例如，进行语音降噪，以降低环境噪声对智能设备的影响。

相关技术中，可以采用基于深度神经网络的生成模型进行语音降噪，所使用的生成模型可以为大模型，以提高语音降噪的效果和速度。然而，生成模型常常存在生成伪影问题（例如，发声和呼吸效果）或过度抑制造成的失真问题，存在语音降噪性能低的问题。由此可见，相关技术中的语音降噪方法，存在语音降噪性能低的问题。

发明内容

本申请实施例提供了一种基于模型融合的语音降噪方法、装置及存储介质，以至少解决相关技术中的语音降噪方法存在语音降噪性能低的问题。

根据本申请实施例的一个方面，提供了一种基于模型融合的语音降噪方法，包括：将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，所述待降噪语音特征是与待降噪语音信号对应的语音特征，所述判别降噪结果包括第一降噪语音特征，所述第一降噪语音特征为所述目标判别模型对所述待降噪语音特征进行降噪处理得到的语音特征，所述参考噪声信息为估计出的所述待降噪语音特征中的噪声信息；将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，所述生成降噪结果包括第二降噪语音特征，所述第二降噪语音特征为所述目标生成模型基于所述参考噪声信息对所述待降噪语音特征进行降噪处理得到的语音特征；对所述第一降噪语音特征和所述第二降噪语音特征进行融合，得到融合降噪语音特征，并将所述融合降噪语音特征转换为与所述融合降噪语音特征对应的已降噪语音信号。

根据本申请实施例的另一个方面，还提供了一种基于模型融合的语音降噪装置，包括：第一输入单元，用于将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，所述待降噪语音特征是与待降噪语音信号对应的语音特征，所述判别降噪结果包括第一降噪语音特征，所述第一降噪语音特征为所述目标判别模型对所述待降噪语音特征进行降噪处理得到的语音特征，所述参考噪声信息为估计出的所述待降噪语音特征中的噪声信息；第二输入单元，用于将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，所述生成降噪结果包括第二降噪语音特征，所述第二降噪语音特征为所述目标生成模型基于所述参考噪声信息对所述待降噪语音特征进行降噪处理得到的语音特征；执行单元，用于对所述第一降噪语音特征和所述第二降噪语音特征进行融合，得到融合降噪语音特征，并将所述融合降噪语音特征转换为与所述融合降噪语音特征对应的已降噪语音信号。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述基于模型融合的语音降噪方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的基于模型融合的语音降噪方法。

在本申请实施例中，采用将判别模型的降噪结果以多种方式融合到生成模型中的方式，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，待降噪语音特征是与待降噪语音信号对应的语音特征，判别降噪结果包括第一降噪语音特征，第一降噪语音特征为目标判别模型对待降噪语音特征进行降噪处理得到的语音特征，参考噪声信息为估计出的待降噪语音特征中的噪声信息；将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，生成降噪结果包括第二降噪语音特征，第二降噪语音特征为目标生成模型基于述参考噪声信息对待降噪语音特征进行降噪处理得到的语音特征；对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号，由于采用基于模型融合的语音降噪方式，采用判别模型对待降噪语音特征进行降噪处理，将估计出的噪声信息应用到生成模型的降噪过程，并将判别降噪结果融合到生成降噪结果中，通过将判别模型的降噪结果以多种方式融合到生成模型中，从而抑制语音降噪过程中引入的失真和伪影问题，实现提高生成的干净语音质量的目的，达到提高语音降噪性能的技术效果，进而解决了相关技术中的语音降噪方法存在语音降噪性能低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的基于模型融合的语音降噪方法的硬件环境的示意图。

图2是根据本申请实施例的一种可选的基于模型融合的语音降噪方法的流程示意图。

图3是根据本申请实施例的一种可选的基于模型融合的语音降噪方法的示意图。

图4是根据本申请实施例的另一种可选的基于模型融合的语音降噪方法的示意图。

图5是根据本申请实施例的一种可选的卷积递归网络的示意图。

图6是根据本申请实施例的一种可选的条件去噪扩散概率模型的示意图。

图7是根据本申请实施例的另一种可选的条件去噪扩散概率模型的示意图。

图8是根据本申请实施例的一种可选的基于模型融合的语音降噪装置的结构框图。

图9是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种基于模型融合的语音降噪方法。该基于模型融合的语音降噪方法可以应用于语音处理技术领域，语音处理可以但不限于应用到全屋智能数字化控制应用场景，全屋智能数字化控制应用场景可以包括但不限于以下至少之一：智慧家庭（Smart Home），智能家居，智能家用设备生态，智慧住宅（IntelligenceHouse）生态等。可选地，在本实施例中，上述基于模型融合的语音降噪方法可以应用于如图1所示的由智能设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与智能设备102进行连接，可用于为智能设备或智能设备上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。智能设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等等。

本申请实施例的基于模型融合的语音降噪方法可以由服务器104来执行，也可以由智能设备102来执行，还可以是由服务器104和智能设备102共同执行。其中，智能设备102执行本申请实施例的基于模型融合的语音降噪方法也可以是由安装在其上的客户端来执行。

以由智能设备102来执行本实施例中的基于模型融合的语音降噪方法为例，图2是根据本申请实施例的一种可选的基于模型融合的语音降噪方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤S202至步骤S206。

步骤S202，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息。

本实施例中的基于模型融合的语音降噪方法可以用于到对智能设备获取到的语音信号进行降噪处理的场景，例如，对需要进行语音识别的语音信号进行降噪处理的场景。智能设备可以是语音设备或者其他具备语音降噪功能的设备。对于智能家居场景，智能设备可以是智能家居设备，对于其他场景，智能设备也可以是非智能家居设备，本实施例中对此不做限定。这里，语音降噪技术旨在消除语音信号（例如，录音）中的噪声干扰成分，恢复出干净的目标语音信号，其是智能语音交互功能的重要组成部分，语音降噪可以是由语音降噪系统执行的，该语音降噪系统可以布设在智能设备上。

示例性地，当需要识别的语音信号时，智能设备可以首先对语音信号进行降噪处理，然后再对降噪得到的语音信号进行语音识别。这里，语音降噪处理可以是由采集到语音信号的智能设备执行的，也可以是由其他智能设备或者服务器执行的；语音识别可以是由采集到语音信号的智能设备执行的，也可以是由其他智能设备或者服务器执行的。

在本申请示例的部分示例中，以智能家居设备对采集到的语音信号进行语音降噪处理为例进行说明，可以理解的，对于由其他智能设备或者服务器执行的方式，只需要智能家居设备将待降噪语音信号传输给其他智能设备或者服务器即可。

由于家居空间复杂多样，环境噪声种类繁多，导致语音失真严重，同时语音交互质量直接影响用户体验。上述语音失真不仅影响用户体验，还对语音交互下游任务（例如，自动语音识别和说话人识别）的性能产生负面影响，因此对家居智能设备的语音降噪功能的要求越来越高。

相关技术中的语音降噪方案主要是基于深度神经网络的，通常采用的是生成模型。生成模型的目标是学习干净语音的先验概率分布，即，学习语音的固有属性，例如，频谱和时间结构，常见的生成方法包括GAN（Generative Adversarial Network，生成对抗网络）、VAE（Variational Autoencoder，变分自动编码器）、基于流（Flow）的模型和基于扩散概率的模型。生成模型对任意加性和卷积失真具有鲁棒性，但生成式模型虽然试图学习干净语音的先验概率分布，但往往容易引入不自然的伪影（例如，发声和呼吸效果），存在生成伪影问题或过度抑制造成的失真问题，影响用户体验。因此，在对语音质量要求较高的智能家居场景下，生成模型的可接受性有待提高，限制了其广泛应用的可能性。

为了提高语音降噪性能，可以采用其他基于深度神经网络的模型进行语音降噪，例如，可以考虑使用判别模型进行语音降噪。然而由于训练数据的有限性，无法覆盖真实家居场景中的多种声学条件，导致判别模型在复杂家居环境中判别模型始终存在泛化性差的问题（泛化性受到限制），难以适应各种不同类型的家居噪声，容易出现降噪效果不稳定的问题。因此，判别模型虽然可以应用于语音降噪，但无法满足用户对高质量语音的需求。

此外，生成模型可能因为过度抑制而引入语音失真，而判别模型本身可能引入不同程度的语音失真，特别是在复杂的家居环境中。这种失真不仅降低了语音质量，还对下游ASR（Automatic Speech Recognition，自动语音识别）等任务产生负面影响，限制了语音降噪方法在实际应用中的可靠性。

因此，单独使用判别模型或者生成模型会存在泛化性差（对于判别模型）、引入语音失真（对于判别模型和生成模型）、易引入伪影（对于生成模型）等问题。一种可行的语音降噪方式是将判别模型和生成模型进行结合，结合的方式可以是：将生成模型作为后处理器，级联在判别模型之后，通过生成模型对判别降噪结果进行优化，或者，使用判别模型对输入语音中的噪声进行分类，并将判别模型的结果作为噪声调节器来优化生成模型，从而生成更干净的语音。然而，上述两种方式采用了相对单一的方法来结合判别模型和生成模型，没有充分融合两个模型的优势，对于语音降噪性能的提高有限。

为了至少部分解决上述问题，提供更可靠、更高质量的语音降噪解决方案，在本实施例中，采用基于模型融合的语音降噪方式，将判别模型的降噪结果以多种方式融合到生成模型中，从而抑制语音降噪过程中引入的失真和伪影问题，提高生成的干净语音的质量，提升整体降噪性能，使用户能够更清晰地感知语音信息，此外，还可以适应复杂家居环境，对家居噪声具有高鲁棒性和泛化性。

对于目标设备（例如，智能家居设备）采集到的语音信号，在需要对语音信号进行降噪处理时，可以将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息。待降噪语音特征是与待降噪语音信号对应的语音特征，其可以是对待降噪语音信号进行语音特征提取得到的，执行语音特征提取的设备与执行语音降噪的设备可以是同一设备，例如，均为目标设备，也可以为不同设备，例如，由一个设备进行语音特征提取之后，将得到的待降噪语音信号传输给另一设备进行语音降噪，本实施例中对此不做限定。在本实施例的部分示例中，以由目标设备执行语音特征提取和语音降噪为例进行说明。

目标判别模型对待降噪语音特征进行降噪处理得到的判别降噪结果可以包括第一降噪语音特征。除了第一降噪语音特征以外，判别降噪结果还可以包含其他类型的信息，例如，掩蔽信息（可以是掩蔽矩阵）或者其他信息，按照需要配置目标判别模型的模型结构即可。

除了判别降噪结果以外，还可以确定参考噪声信息，参考噪声信息可以是估计出的待降噪语音特征中的噪声信息，即，其可以用于表示估计出的待降噪语音信号中的噪声。该参考噪声信息可以为后续生成模型提供关键的噪声信息。这里，参考噪声信息可以是由目标判别模型直接提供的，也可以是由其他网络层或者模型结构基于判别降噪结果生成的，本实施例中对此不做限定。

步骤S204，将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果。

除了输入到目标判别模型以外，待降噪语音特征可以和参考噪声信息一起输入到目标生成模型，以由目标生成模型基于参考噪声信息对待降噪语音特征降噪处理，得到生成降噪结果，生成降噪结果可以包括降噪得到的语音特征，即，第二降噪语音特征，还可以包含其他可用于后续处理的信息。

这里，利用判别模型估计噪声信息，并将估计的噪声作为条件信息注入到生成模型中，可以提高生成模型逆向降噪过程（或者说，语音降噪系统）对复杂家居噪声的泛化性，以便在各种家庭噪声条件下实现更为稳定、准确的降噪效果，从而提高用户体验。此外，对于由云服务器等算力充足的设备执行上述语音降噪方法的情况，所使用的目标判别模型和目标生成模型中的至少部分可以为大模型，以提高语音降噪的速度，进而降低与用户交互的时延，提高用户的使用体验。

步骤S206，对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号。

对于得到的第一降噪语音特征，可以将第一降噪语音特征融合到第二降噪语音特征中，从而可以保留判别降噪结果中的重要特征，以改善生成降噪结果，从而优化生成伪影和过度抑制部分，进一步提高语音清晰度。将第一降噪语音特征融合到第二降噪语音特征的方式可以是加权融合，即，对第一降噪语音特征和第二降噪语音特征进行加权融合。融合后所得到的语音特征为融合降噪语音特征，为了得到干净的语音信号，可以将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号。

这里，将判别降噪结果和生成降噪结果进行融合（例如，加权融合），进一步抑制生成降噪结果中可能存在的语音失真和伪影部分，获得更自然清晰的用户语音，提升生成语音质量，提高整体降噪性能。

可选地，可以将语音降噪过程划分为三个阶段，即，采用判别模型的预处理阶段、采用生成模型的生成阶段和二次融合阶段，如图3所示，在预处理阶段，执行使用判别模型进行语音降噪的过程，判别模型的输入为带噪语音特征，输出为判别降噪结果和估计的噪声信息；在生成阶段，执行使用生成模型进行语音降噪的过程，生成模型的输入为带噪语音特征和估计的噪声信息，输出为生成降噪结果；在二次融合阶段，执行判别降噪结果和生成降噪结果的融合（例如，降噪得到的两个语音特征），输出融合后的语音特征。

这里，通过从判别模型中估计噪声信息，并将其注入到生成模型（例如，条件注入噪声信息）中。这种注入噪声信息的方式有效地提高了生成降噪结果的质量，减少了生成模型可能引入的伪影，并能增强生成模型对复杂家庭环境中各种声学条件的泛化性。另外，这种条件注入噪声信息的方式还可以减少生成模型的逆向过程的步数而不会损失性能，从而减少扩散模型的计算开销。

将判别模型估计的噪声信息条件注入到生成模型中，可以视为判别模型和生成模型的首次信息融合，将判别降噪结果和生成降噪结果进行加权求和则为二次融合。这种多种形式的多次融合策略能够充分利用判别模型和生成模型两者各自的降噪优势，有效克服伪影问题和失真问题。并且，即使预处理阶段的判别模型没有通过使用涵盖各种家居噪声类型的足够数据集进行训练，多次融合策略也能有效提高降噪性能，具有较高的鲁棒性。这种融合策略使得整个降噪系统在各种家庭噪声类型下更为稳定，可以为用户提供更佳的语音体验。

通过上述步骤S202至步骤S206，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，待降噪语音特征是与待降噪语音信号对应的语音特征，判别降噪结果包括第一降噪语音特征，第一降噪语音特征为目标判别模型对待降噪语音特征进行降噪处理得到的语音特征，参考噪声信息为估计出的待降噪语音特征中的噪声信息；将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，生成降噪结果包括第二降噪语音特征，第二降噪语音特征为目标生成模型基于述参考噪声信息对待降噪语音特征进行降噪处理得到的语音特征；对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号，解决了相关技术中的语音降噪方法存在语音降噪性能低的问题，提高了语音降噪性能。

在一些示例性实施例中，在智能设备获取到待降噪语音信号之后，可以直接对待降噪语音信号进行待降噪语音信号，得到前述的待降噪语音特征。考虑到前述实施例中的语音降噪方式所需要消耗的计算资源较大，在本实施例中，可以考虑仅对满足预设条件的语音信号采用前述的语音降噪方式进行降噪处理，对于不满于预设条件的语音信号，可以考虑仅采用目标判别模型、目标生成模型或者其他方式进行降噪处理。

作为一种可选的实施例方式，预设条件可以包括：语音信号的发声对象为指定对象。对应地，在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，在基于待降噪语音信号的声纹特征确定出待降噪语音信号的发声对象为目标对象（可以是某一指定对象）的情况下，对待降噪语音信号进行语音特征提取，得到待降噪语音特征。

这里，针对指定对象，例如，老人，其所发出的语音信号中的噪声比较大（例如，声带功能衰退导致说话时杂音较重）。为了提高语音识别的效果，可以采用前述实施例中的语音降噪方式对指定对象所发出的语音信号进行降噪处理。

作为一种可选的实施例方式，预设条件可以包括：语音信号的发声对象处于指定场景中，这里的指定场景可以是特定场所，例如，商场、街道、沙滩等，也可以是特定时间段内的特定场所，也可以是包含某些指定环境因素的场景（例如，包含电视背景音、电器工作声等），本实施例中对此不做限定。对应地，在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，在待降噪语音信号的发声对象处于目标场景的情况下，对待降噪语音信号进行语音特征提取，得到待降噪语音特征。

这里，针对指定场景，其可以是环境噪音较大的场景，而较大的环境噪音会极大的影响语音识别的效果。为了提高语音识别的效果，可以采用前述实施例中的语音降噪方式对指定对象所发出的语音信号进行降噪处理。

需要说明的是，本实施例中所提供的语音降噪方法不仅适用于智能家居技术领域，对于除了智能家居设备以外的其他智能设备，如果其具有语音降噪的需求，同样可以采用本实施例中所提供的语音降噪方法进行语音降噪处理，达到提高语音识别性能的效果。

通过本实施例，针对特定的发声对象、特定场景进行基于模型融合的语音降噪处理，可以减少计算资源的消耗，提供计算资源的利用率。

在一些示例性实施例中，对待降噪语音信号进行语音特征提取可以是基于域变换的方式得到的。对应地，在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，可以首先对待降噪语音信号进行短时傅里叶变换，得到与待降噪语音信号对应的第一幅度谱；然后，对第一幅度谱进行梅尔滤波处理，得到待降噪语音特征。这里，待降噪语音特征是梅尔滤波后得到的梅尔谱。

例如，参见图4，输入信号为带噪声的语音信号，即，带噪信号（待降噪语音信号），经过短时傅里叶变换，可以得到时频域的幅度谱，再经过梅尔滤波器后获得相应的梅尔谱，得到的梅尔谱可以作为输入到后续预处理阶段、生成阶段和二次融合阶段这三个阶段的信号特征（待降噪语音特征）。

这里，幅度谱是指信号在频域上的幅度分布情况，可以反映出信号在不同频率上的能量分布情况，而梅尔谱是一种音频信号的频谱表示方式，它是通过梅尔标度将频谱上的频率转换为梅尔频率，然后再将梅尔频率映射到梅尔刻度上的一种谱分析方式，梅尔谱可以更好地模拟人类听觉系统对声音的感知方式。

对应地，由融合降噪语音特征转换为已降噪语音信号的过程是前述语音特征提取过程的反过程：将融合降噪语音特征由梅尔谱恢复到幅度谱，得到第二幅度谱；对第二幅度谱进行逆傅里叶变换，得到已降噪语音信号。

例如，参见图4，经过前述三个阶段的处理后，再从梅尔谱恢复到幅度谱，接着由逆傅里叶变换得到降噪后的干净语音信号。

通过本实施例，通过短时傅里叶变换将时域的语音信号转换为频域的幅度谱，再通过梅尔滤波将幅度谱转换为梅尔谱，从而可以基于梅尔谱进行语音特征处理，可以提高语音降噪的准确性和有效性。

在一些示例性实施例中，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，包括：将待降噪语音特征输入到目标判别模型，以由目标判别模型基于学习到的带噪语音特征到干净语音特征的转换关系，对待降噪语音特征进行降噪处理，得到判别降噪结果；基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息。

在本实施例中，目标判别模型的目标是学习带噪语音输入（即，带噪语音特征）到干净语音输出（即，干净语音特征）的转换关系（可以是一种语音特征之间的映射关系），其可以是通过监督学习从训练数据中学习上述映射关系，可以采用的方法包括但不限于：时频掩蔽、复频谱映射或直接在时域中操作。为了保证泛化性，这些方法可以使用各种包含多个说话者、不同噪声类型和大范围信噪比的干净-带噪语音对进行训练。这里，带噪语音特征是与含有噪声的语音信号对应的语音特征，干净语音特征是与含有噪声的语音信号匹配的干净语音信号对应的语音特征。

在得到判别降噪结果之后，可以基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息。估计的噪声信息可以用于表征待降噪语音信号用的噪声，其可以是噪声的一种或多种噪声参数，所采用的可以是与噪声参数的参数类型匹配的噪声估计方式。

例如，判别模型通过学习带噪语音到干净语音的映射关系，对含有噪声的输入语音进行降噪处理，得到判别降噪结果。

通过本实施例，通过判别模型基于学习到的带噪语音特征到干净语音特征的转换关系对待降噪语音特征进行降噪处理，可以保证语音降噪的便捷性。

在一些示例性实施例中，目标判别模型可包括CRN（Convolutional RecurrentNetwork，卷积递归网络），卷积递归网络的输出可以包括目标掩蔽信息，目标掩蔽信息用于表示待降噪语音特征中的干净语音特征，第一降噪语音特征是使用目标掩蔽信息从待降噪语音特征中提取出的语音特征。

例如，CRN网络输出的掩蔽信息为，判别降噪结果/>（其中的语音特征）的计算公式如公式(1)所示。

(1)

其中，y为带噪语音特征，例如，待降噪语音特征。

在本实施例中，参考噪声信息可以是时频噪声方差。对应地，基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息，包括：基于待降噪语音特征和目标掩蔽信息对待降噪语音信号进行时频噪声方差估计，得到参考噪声信息。

由于目标掩蔽信息用于表示待降噪语音特征中的干净语音特征，可以理解为待降噪语音信号中的干净语音信号（目标判别模型预估出的干净语音信号），因此，基于待降噪语音特征和目标掩蔽信息，可以对待降噪语音信号进行时频噪声方差估计。

例如，在预处理阶段，通过判别模型对含有噪声的输入语音进行降噪处理，得到判别降噪结果。此外，该预处理阶段根据判别降噪结果估计输入语音特征的时频噪声方差，为后续条件生成模型提供关键的噪声信息。

通过本实施例，采用时频噪声方差作为参考噪声信息，可以提高噪声估计的准确性和便捷性。

在一些示例性实施例中，基于待降噪语音特征和目标掩蔽信息对待降噪语音信号进行时频噪声方差估计，得到参考噪声信息，包括：基于目标掩蔽信息估计待降噪语音特征中的噪声特征，得到估计噪声特征；按照估计噪声特征对待降噪语音信号进行时频噪声方差估计，得到参考噪声信息。

在本实施例中，为了方便进行时频噪声方差估计，可以基于目标掩蔽信息估计待降噪语音特征中的噪声特征，得到估计噪声特征。这里，由于目标掩蔽信息用于表示待降噪语音特征中的干净语音特征，其也可以间接表示出待降噪语音特征中的噪声特征，因此，可以基于目标掩蔽信息估计出待降噪语音特征中的噪声特征。而在得到估计噪声特征，可以直接使用估计噪声特征，计算时频噪声方差，即，估计出待降噪语音信号的时频噪声方差，从而得到参考噪声信息。

例如，噪声方差（即，时频噪声方差）可以是基于CRN网络输出的掩蔽信息/>采用公式(2)估计出的。

(2)

通过本实施例，通过估计出待降噪语音特征中的噪声特征，并基于估计出的噪声特征计算时频噪声方差，可以提高时频噪声方差估计的准确性。

在一些示例性实施例中，目标判别模型包括卷积递归网络，卷积递归网络可以与前述实施例中类似，在此不作赘述。可选地，卷积递归网络可以包括：编码器、解码器和长短期记忆网络，编码器用于从输入编码器的语音特征中提取多维特征，解码器用于将编码器提取的多维特征还原为语音特征，长短期记忆网络用于利用输入编码器的语音特征中的长时依赖关系进行跳跃连接，以将编码器中的每一层组连接到解码器中的对应层组。

编码器的输出可以分别输入到长短期记忆网络和编码器，长短期记忆网络的输出可以输入到解码器。编码器可以包含多个卷积层，例如，五个卷积层；解码器可以包含多个反卷积层，例如，五个反卷积层。可选地，卷积层和反卷积层的层数也可以为其他值，而相对于其他值，五个卷积层和五个反卷积层即满足了语音降噪需求，同时也可降低对于判别模型的模型规模的要求。

对应地，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息可以包括：将待降噪语音特征输入到编码器，得到解码器输出的判别降噪结果；基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息。

待降噪语音特征输入到的是卷积递归网络的编码器，而解码器输出的是判别降噪结果，输出的判别降噪结果可以是前述的目标掩蔽信息，而基于目标掩蔽信息，可以确定出第一降噪语音特征，得到的第一降噪语音特征可以作为判别降噪结果的一部分。在得到判别降噪结果之后，可以基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息，基于判别降噪结果对待降噪语音信号进行噪声信息估计的方式可以与前述实施例中类似，在此不做赘述。

例如，卷积递归网络由编码器、解码器和 LSTM（Long Short-Term Memory，长短期记忆网络）组成，网络结构如图5所示。其中，包含5个卷积层的编码器用于从输入数据中提取抽象的、不同维度的关键特征，而包含5个反卷积层的解码器则将这些特征映射还原为目标数据。编码-解码器结构使得CRN能够处理时频关系较为复杂的语音时频域数据。LSTM用来捕捉和利用语音数据中的长时依赖关系跳跃连接（Skip Connection）将编码器中的每一层连接到解码器中的相应层，旨在促进数据的重要特征和细节信息的流动，使其更容易传递到网络的后续层，有助于学习更复杂的特征表示，更灵活地适用复杂的数据分布，同时还能有效缓解梯度消失问题，并提高网络收敛速度和训练效果。

通过本实施例，采用包含编码器、解码器以及长短期记忆网络的卷积递归网络作为判别模型所使用的深度神经网络，可以更灵活地适用复杂的数据分布，同时还能有效缓解梯度消失问题，并提高网络收敛速度和训练效果。

在一些示例性实施例中，编码器的每一层组包括卷积层、批量归一化层和激活层，解码器的每一层组包括反卷积层、批量归一化层和激活层，其中，除了解码器的输出层所使用的激活函数为非单调神经激活函数（例如，Mish激活函数），解码器的输出层所使用的激活函数为非线性激活函数（例如，Softplus激活函数）。

示例性地，在编码-解码器结构中，除最后的输出层外，所有卷积层和反卷积层都使用Mish激活函数，以增强模型的表达能力和泛化能力。输出层使用Softplus作为激活函数，以约束网络输出始终为正。为了提高训练稳定性并加速收敛，在卷积或反卷积后和激活前采用批量归一化。因此，编码-解码器的每一个层组包括有卷积层（或反卷积层）、批量归一化层和激活层。

通过本实施例，编码-解码器的每一个层组包括有卷积层（或反卷积层）、批量归一化层和激活层，同时，除最后的输出层外的其他层的激活函数与最后的输出层的激活函数分别设置，可以在增强模型的表达能力和泛化能力的同时，约束网络输出始终为正，还可以提高模型训练的稳定性和收敛速度。

在一些示例性实施例中，目标生成模型所采用的生成模型框架可以是变分自编码器（VAE）或生成对抗网络（GAN）等。这些生成模型框架可能对去噪效果和计算复杂度产生不同的影响，需要根据具体需求进行选择。在本实施例中，所采用的目标生成模型为用于语音去噪的条件扩散模型，条件扩散模型的条件信息是与输入的语音特征对应的噪声信息。

条件扩散模型可以为C-DDPM（Conditional Diffusion Probability Model，条件去噪扩散概率模型）。去噪扩散概率模型是一类基于扩散的生成模型，对干净语音和噪声语音之间的渐进变化进行建模，即，通过逐步向干净语音添加高斯噪声来模拟扩散过程，直到它可以近似为纯高斯噪声；然后训练神经网络来反转这个过程，从而恢复出干净语音。对应地，本实施例中提供的语音降噪方法可以是基于模型融合的条件生成式语音降噪方法。

例如，生成阶段可以采用条件去噪扩散概率模型作为生成模型，并以估计的噪声方差为条件信息。在逆向过程中，该生成模型根据含有噪声的输入语音直接生成干净的语音作为生成降噪结果。通过条件注入噪声信息，生成模型能够更有效地去除噪声，优化降噪效果。

对应地，将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果，包括：将参考噪声信息作为待降噪语音特征的条件信息与待降噪语音特征一起输入到条件扩散模型，以由条件扩散模型生成上述的生成降噪结果。

对于待降噪语音特征，可以将参考噪声信息作为待降噪语音特征的条件信息与待降噪语音特征一起输入到条件扩散模型中。条件扩散模型可以包含扩散过程和逆向过程，扩散过程是对干净语音特征进行加噪的过程，而逆向过程是将带噪语音特征还原成干净语音特征的过程。在模型训练阶段，使用的是条件扩散模型的扩散过程和逆向过程，而在模型推理阶段（应用阶段），使用的是条件扩散模型的逆向过程。

例如，条件去噪扩散概率模型可以分为扩散过程和逆向过程，如图6所示。扩散过程为T 步马尔科夫链（T为大于或者等于0的正整数，从第0步到第T步），用于训练条件去噪扩散概率模型根据输入的干净语音特征和条件注入的噪声信息（例如，噪声方差）逐步学习干净语音概率分布，而逆向过程（从第T步到第0步）则是根据输入的带噪语音特征和条件注入的噪声信息生成干净的去噪语音，在图6中，为估计的噪声方差，/>为扩散过程中由第t-1步计算的第t步的高斯分布，/> 则为逆向过程中由第t步计算的第t-1步的高斯分布，/>为可学习参数，/>为第t步的潜变量。

其中，对于噪声方差，在模型训练阶段，噪声方差可以直接由噪声数据获得，推理时（即，生成阶段）噪声方差由卷积递归网络输出的掩蔽信息/>进行估计。/>作为条件信息直接输入到扩散过程或逆向过程的分布中，即，在计算当前扩散步骤或生成步骤的分布时，不仅要考虑前一个状态和目标状态，还要考虑估计的噪声方差。

通过本实施例，通过使用条件扩散模型作为生成模型，并将噪声信息条件注入条件扩散模型（例如，C-DDPM），对待降噪语音特征进行降噪处理，可以提高语音降噪的准确性。

在一些示例性实施例中，目标生成模型可以是用于语音去噪的条件扩散模型，例如，前述的C-DDPM，条件扩散模型包含扩散过程和逆向过程，扩散过程包含从第0步到第T步的T步马尔科夫链，T为大于或者等于1的正整数。扩散过程和逆向过程与前述实施例中类似，已经进行过说明的，在此不做赘述。

对应地，在将待降噪语音特征和参考噪声信息输入到目标生成模型之前，使用训练语音特征和训练噪声信息（例如，训练噪声方差）对待训练的条件扩散模型进行模型训练，得到已训练的条件扩散模型。

其中，对于扩散过程，T步马尔科夫链的第t步的潜变量是基于扩散过程的目标语音特征，使用第一高斯噪声对T步马尔科夫链的第(t-1)步的潜变量进行加噪处理得到的，目标语音特征是基于训练语音特征和训练噪声信息确定的，第一高斯噪声是基于训练噪声信息确定的，0≤t＜T。T步马尔科夫链的每一步均执行基于训练噪声信息确定第一高斯噪声的步骤，因此，T步马尔科夫链的不同步所使用的第一高斯噪声可以是不同的，也可以是相同的。

为了提高语音加噪（添加高斯噪声，如图6中的高斯噪声ε）的效果，可以在得到T步马尔科夫链的第t步的潜变量之后，对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行混合，以更新第t步的潜变量。

这里，对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行混合得到的可以是混合语音特征/>，其中，干净分量可以为/>，噪声分量可以为，其中，/>，其为用于条件扩散模型中从/>到/>的线性插值的动态权重，受噪声方差/>的影响。

通过本实施例，通过对第t步的潜变量的干净分量和噪声分量进行混合，可以提高扩散过程中语音加噪的效果，从而提升模型训练的速度。

在一些示例性实施例中，混合语音特征可以是采用多尺度混合方法对干净分量和噪声分量的信息进行混合得到的，上述混合可以包括线性混合和非线性混合，混合语音特征/>应用到条件去噪扩散概率模型的扩散过程和逆向过程的示例可以如图7所示。

对应地，对第t步的潜变量中的干净分量和噪声分量进行混合，以更新第t步的潜变量可以包括：对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行线性混合，得到第一混合语音特征；通过对第一混合语音特征进行非线性变换，将第一混合语音特征转换为第二混合语音特征；将第一混合语音特征和第二混合语音特征融合为目标混合语音特征；将目标混合语音特征和第二高斯噪声，确定为更新后的第t步的潜变量。

其中，对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行线性混合可以是将干净分量和噪声分量的直接混合。第一混合语音特征可以表示为线性混合，其计算公式可以如公式(3)所示。

(3)

对于得到的第一混合语音特征，可以对其进行非线性变换，得到第二混合语音特征，第二混合语音特征可以表示为非线性混合，对第一混合语音特征进行非线性变换可以是使用非线性激活函数（例如，softplus激活函数）执行的，对应地，非线性混合/>的计算公式可以如公式(4)所示。

(4)

在得到第一混合语音特征和第二混合语音特征之后，可以将第一混合语音特征和第二混合语音特征融合为目标混合语音特征，融合的方式可以是将两者进行加权求和，例如，可以采用公式(5)计算混合语音特征。

(5)

其中，参数λ为平衡不同混合形式的权重，其值可以根据需要预先设定。这里，多尺度混合方法同时考虑多个尺度的信息，更适应复杂多变的信号特性，其完整式如公式(6)所示。

(6)

这里，除了混合语音特征以外，第t步的潜变量还可以包括高斯噪声，即，第二高斯噪声，该第二高斯噪声是基于训练噪声信息确定的，T步马尔科夫链的每一步均执行基于训练噪声信息确定第二高斯噪声的步骤，因此，T步马尔科夫链的不同步所使用的第二高斯噪声可以是不同的，也可以是相同的。

通过本实施例，采用多尺度混合方法对干净分量和噪声分量的信息进行混合，可以适应复杂多变的信号特性，提高条件扩散模型的适应能力。

在一些示例性实施例中，对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，包括：基于与待降噪语音特征匹配的预设参数的参数值，确定非线性激活函数的函数值；使用非线性激活函数的函数值为第一降噪语音特征和第二降噪语音特征分别进行权重赋值；按照第一降噪语音特征和第二降噪语音特征的赋值结果将第一降噪语音特征融合到第二降噪语音特征中，得到融合降噪语音特征。

在二次融合阶段，可以以生成降噪结果为基础，将判别降噪结果融合到生成降噪结果中，优化生成伪影和过度抑制部分，进一步提高语音清晰度，而融合后的语音信号成为最终的输出结果，具有更高的语音清晰度。例如，二次融合阶段也采用类似跳跃连接（SkipConnection）的形式将CRN和C-DDPM的去噪结果进行融合，目的是保留CRN判别降噪结果中的重要特征，以改善C-DDPM生成降噪结果。

在本实施例中，判别降噪结果可以是加权融合到生成降噪结果中的。对此，可以分别为第一降噪语音特征和第二降噪语音特征进行权重赋值，并按照第一降噪语音特征和第二降噪语音特征的赋值结果将第一降噪语音特征融合到第二降噪语音特征中，得到融合降噪语音特征。上述赋值过程可以是使用非线性激活函数（例如，非线性的Sigmoid函数）执行的，即，可以使用非线性激活函数的函数值为第一降噪语音特征和第二降噪语音特征分别进行权重赋值，这种非线性权重的加权融合方法能够更平滑地融合预处理阶段和生成阶段的增强结果。非线性激活函数的函数值可以是该非线性激活函数与预设参数的参数值对应的函数值，该预设参数的参数值（）可以与待降噪语音特征匹配。这里，上述赋值过程可以是预先执行的，即，第一降噪语音特征和第二降噪语音特征的赋值结果预置，在语音降噪的过程中可以直接使用预置的赋值结果执行将第一降噪语音特征融合到第二降噪语音特征中的步骤。

例如，将判别降噪结果加权融合到生成降噪结果/>中，如公式(7)所示。

(7)

其中，是非线性的Sigmoid函数，/>是一个可调节的参数，用于控制权重分配的非线性程度。

通过本实施例，通过使用非线性权重对判别降噪结果和生成降噪结果进行加权融合，可以更平滑地融合预处理阶段和生成阶段的降噪结果，提高语音降噪的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM（Read-Only Memory，只读存储器）/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种基于模型融合的语音降噪方法的基于模型融合的语音降噪装置。图8是根据本申请实施例的一种可选的基于模型融合的语音降噪装置的结构框图，如图8所示，该装置可以包括：第一输入单元802，用于将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，待降噪语音特征是与待降噪语音信号对应的语音特征，判别降噪结果包括第一降噪语音特征，第一降噪语音特征为目标判别模型对待降噪语音特征进行降噪处理得到的语音特征，参考噪声信息为估计出的待降噪语音特征中的噪声信息；第二输入单元804，用于将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，生成降噪结果包括第二降噪语音特征，第二降噪语音特征为目标生成模型基于述参考噪声信息对待降噪语音特征进行降噪处理得到的语音特征；执行单元806，用于对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号。

需要说明的是，该实施例中的第一输入单元802可以用于执行上述步骤S202，该实施例中的第二输入单元804可以用于执行上述步骤S204，该实施例中的执行单元806可以用于执行上述步骤S206。

通过上述模块，将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，待降噪语音特征是与待降噪语音信号对应的语音特征，判别降噪结果包括第一降噪语音特征，第一降噪语音特征为目标判别模型对待降噪语音特征进行降噪处理得到的语音特征，参考噪声信息为估计出的待降噪语音特征中的噪声信息；将待降噪语音特征和参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，生成降噪结果包括第二降噪语音特征，第二降噪语音特征为目标生成模型基于述参考噪声信息对待降噪语音特征进行降噪处理得到的语音特征；对第一降噪语音特征和第二降噪语音特征进行融合，得到融合降噪语音特征，并将融合降噪语音特征转换为与融合降噪语音特征对应的已降噪语音信号，解决了相关技术中的语音降噪方法存在语音降噪性能低的问题，提高了语音降噪性能。

在一些示例性实施例中，第一输入单元包括：第一输入模块，用于将待降噪语音特征输入到目标判别模型，以由目标判别模型基于学习到的带噪语音特征到干净语音特征的转换关系，对待降噪语音特征进行降噪处理，得到判别降噪结果，其中，带噪语音特征是与含有噪声的语音信号对应的语音特征，干净语音特征是与含有噪声的语音信号匹配的干净语音信号对应的语音特征；第一估计模块，用于基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息。

在一些示例性实施例中，目标判别模型包括卷积递归网络，卷积递归网络的输出包括目标掩蔽信息，目标掩蔽信息用于表示待降噪语音特征中的干净语音特征，第一降噪语音特征是使用目标掩蔽信息从待降噪语音特征中提取出的语音特征。第一估计模块包括：估计子模块，用于基于待降噪语音特征和目标掩蔽信息对待降噪语音信号进行时频噪声方差估计，得到参考噪声信息。

在一些示例性实施例中，估计子模块包括：第一估计子单元，用于基于目标掩蔽信息估计待降噪语音特征中的噪声特征，得到估计噪声特征；第二估计子单元，用于按照估计噪声特征对待降噪语音信号进行时频噪声方差估计，得到参考噪声信息。

在一些示例性实施例中，目标判别模型包括卷积递归网络，卷积递归网络包括：包含五个卷积层的编码器、包含五个反卷积层的解码器和长短期记忆网络，其中，编码器的输出分别输入到长短期记忆网络和编码器，长短期记忆网络的输出输入到解码器，编码器用于从输入编码器的语音特征中提取多维特征，解码器用于将编码器提取的多维特征还原为语音特征，长短期记忆网络用于利用输入编码器的语音特征中的长时依赖关系进行跳跃连接，以将编码器中的每一层组连接到解码器中的对应层组。第一输入单元包括：第二输入模块，用于将待降噪语音特征输入到编码器，得到解码器输出的判别降噪结果；第二估计模块，用于基于判别降噪结果对待降噪语音信号进行噪声信息估计，得到参考噪声信息。

在一些示例性实施例中，编码器的每一层组包括卷积层、批量归一化层和激活层，解码器的每一层组包括反卷积层、批量归一化层和激活层，其中，除了解码器的输出层所使用的激活函数为非单调神经激活函数，解码器的输出层所使用的激活函数为非线性激活函数。

在一些示例性实施例中，目标生成模型为用于语音去噪的条件扩散模型，条件扩散模型的条件信息是与输入的语音特征对应的噪声信息。第二输入单元包括：第二输入模块，用于将参考噪声信息作为待降噪语音特征的条件信息与待降噪语音特征一起输入到条件扩散模型，以由条件扩散模型生成上述的生成降噪结果。

在一些示例性实施例中，目标生成模型为用于语音去噪的条件扩散模型，条件扩散模型包含扩散过程和逆向过程，扩散过程包含从第0步到第T步的T步马尔科夫链，T为大于或者等于1的正整数。上述装置还包括：训练单元，用于在将待降噪语音特征和参考噪声信息输入到目标生成模型之前，使用训练语音特征和训练噪声信息对待训练的条件扩散模型进行模型训练，得到已训练的条件扩散模型，其中，对于扩散过程，T步马尔科夫链的第t步的潜变量是基于扩散过程的目标语音特征，使用第一高斯噪声对T步马尔科夫链的第(t-1)步的潜变量进行加噪处理得到的，目标语音特征是基于训练语音特征和训练噪声信息确定的，第一高斯噪声是基于训练噪声信息确定的，0≤t＜T；混合单元，用于在得到T步马尔科夫链的第t步的潜变量之后，对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行混合，以更新第t步的潜变量。

在一些示例性实施例中，混合单元包括：混合模块，用于对第t步的潜变量中的干净分量和第t步的潜变量中的噪声分量进行线性混合，得到第一混合语音特征；第一变换模块，用于通过对第一混合语音特征进行非线性变换，将第一混合语音特征转换为第二混合语音特征；第一融合模块，用于将第一混合语音特征和第二混合语音特征融合为目标混合语音特征；第一确定模块，用于将目标混合语音特征和第二高斯噪声，确定为更新后的第t步的潜变量，其中，第二高斯噪声是基于训练噪声信息确定的。

在一些示例性实施例中，执行单元包括：第二确定模块，用于基于与待降噪语音特征匹配的预设参数的参数值，确定非线性激活函数的函数值；赋值模块，用于使用非线性激活函数的函数值为第一降噪语音特征和第二降噪语音特征分别进行权重赋值；第二融合模块，用于按照第一降噪语音特征和第二降噪语音特征的赋值结果将第一降噪语音特征融合到第二降噪语音特征中，得到融合降噪语音特征。

在一些示例性实施例中，上述装置还包括：第一提取单元，用于在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，在基于待降噪语音信号的声纹特征确定出待降噪语音信号的发声对象为目标对象的情况下，对待降噪语音信号进行语音特征提取，得到待降噪语音特征。

在一些示例性实施例中，上述装置还包括：第二提取单元，用于在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，在待降噪语音信号的发声对象处于目标场景的情况下，对待降噪语音信号进行语音特征提取，得到待降噪语音特征。

在一些示例性实施例中，上述装置还包括变换单元和处理单元，执行单元包括恢复模块和第二变换模块，其中，变换单元，用于在将待降噪语音特征输入到目标判别模型之前，响应于获取到的待降噪语音信号，对待降噪语音信号进行短时傅里叶变换，得到与待降噪语音信号对应的第一幅度谱；处理单元，用于对第一幅度谱进行梅尔滤波处理，得到待降噪语音特征，其中，待降噪语音特征是梅尔滤波后得到的梅尔谱；恢复模块，用于将融合降噪语音特征由梅尔谱恢复到幅度谱，得到第二幅度谱；第二变换模块，用于对第二幅度谱进行逆傅里叶变换，得到已降噪语音信号。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项基于模型融合的语音降噪方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于模型融合的语音降噪方法的电子设备，该电子设备可以是服务器、终端、或者其组合。

图9是根据本申请实施例的一种可选的电子设备的结构框图，如图9所示，包括处理器902、通信接口904、存储器906和通信总线908，其中，处理器902、通信接口904和存储器906通过通信总线908完成相互间的通信，其中，存储器906，用于存储计算机程序；处理器902，用于执行存储器906上所存放的计算机程序时，实现上述任一项基于模型融合的语音降噪方法。

可选地，通信总线可以是PCI (Peripheral Component Interconnect，外设部件互连标准)总线、或EISA (Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器906中可以但不限于包括上述基于模型融合的语音降噪装置中的第一输入单元802、第二输入单元804以及执行单元806。此外，还可以包括但不限于上述基于模型融合的语音降噪装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU (Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP (DigitalSignal Processing，数字信号处理器)、ASIC (Application Specific IntegratedCircuit，专用集成电路)、FPGA (Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，实施上述基于模型融合的语音降噪方法的设备可以是终端设备，该终端设备可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图9中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图9所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于模型融合的语音降噪方法，其特征在于，包括：

将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，所述待降噪语音特征是与待降噪语音信号对应的语音特征，所述判别降噪结果包括第一降噪语音特征，所述第一降噪语音特征为所述目标判别模型对所述待降噪语音特征进行降噪处理得到的语音特征，所述参考噪声信息为估计出的所述待降噪语音特征中的噪声信息；

将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，所述生成降噪结果包括第二降噪语音特征，所述第二降噪语音特征为所述目标生成模型基于所述参考噪声信息对所述待降噪语音特征进行降噪处理得到的语音特征；

对所述第一降噪语音特征和所述第二降噪语音特征进行融合，得到融合降噪语音特征，并将所述融合降噪语音特征转换为与所述融合降噪语音特征对应的已降噪语音信号。

2.根据权利要求1所述的方法，其特征在于，所述将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，包括：

将所述待降噪语音特征输入到所述目标判别模型，以由所述目标判别模型基于学习到的带噪语音特征到干净语音特征的转换关系，对所述待降噪语音特征进行降噪处理，得到所述判别降噪结果，其中，所述带噪语音特征是与含有噪声的语音信号对应的语音特征，所述干净语音特征是与所述含有噪声的语音信号匹配的干净语音信号对应的语音特征；

基于所述判别降噪结果对所述待降噪语音信号进行噪声信息估计，得到所述参考噪声信息。

3.根据权利要求2所述的方法，其特征在于，所述目标判别模型包括卷积递归网络，所述卷积递归网络的输出包括目标掩蔽信息，所述目标掩蔽信息用于表示所述待降噪语音特征中的干净语音特征，所述第一降噪语音特征是使用所述目标掩蔽信息从所述待降噪语音特征中提取出的语音特征；

所述基于所述判别降噪结果对所述待降噪语音信号进行噪声信息估计，得到所述参考噪声信息，包括：

基于所述待降噪语音特征和所述目标掩蔽信息对所述待降噪语音信号进行时频噪声方差估计，得到所述参考噪声信息。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待降噪语音特征和所述目标掩蔽信息对所述待降噪语音信号进行时频噪声方差估计，得到所述参考噪声信息，包括：

基于所述目标掩蔽信息估计所述待降噪语音特征中的噪声特征，得到估计噪声特征；

按照所述估计噪声特征对所述待降噪语音信号进行时频噪声方差估计，得到所述参考噪声信息。

5.根据权利要求1所述的方法，其特征在于，所述目标判别模型包括卷积递归网络，所述卷积递归网络包括：包含五个卷积层的编码器、包含五个反卷积层的解码器和长短期记忆网络，其中，所述编码器的输出分别输入到所述长短期记忆网络和所述编码器，所述长短期记忆网络的输出输入到所述解码器，所述编码器用于从输入所述编码器的语音特征中提取多维特征，所述解码器用于将所述编码器提取的多维特征还原为语音特征，所述长短期记忆网络用于利用输入所述编码器的语音特征中的长时依赖关系进行跳跃连接，以将所述编码器中的每一层组连接到所述解码器中的对应层组；

所述将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，包括：

将所述待降噪语音特征输入到所述编码器，得到所述解码器输出的所述判别降噪结果；

6.根据权利要求5所述的方法，其特征在于，所述编码器的每一层组包括卷积层、批量归一化层和激活层，所述解码器的每一层组包括反卷积层、批量归一化层和激活层，其中，除了所述解码器的输出层所使用的激活函数为非单调神经激活函数，所述解码器的输出层所使用的激活函数为非线性激活函数。

7.根据权利要求1所述的方法，其特征在于，所述目标生成模型为用于语音去噪的条件扩散模型，所述条件扩散模型的条件信息是与输入的语音特征对应的噪声信息；

所述将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型，得到生成降噪结果，包括：

将所述参考噪声信息作为所述待降噪语音特征的条件信息与所述待降噪语音特征一起输入到所述条件扩散模型，以由所述条件扩散模型生成所述生成降噪结果。

8.根据权利要求1所述的方法，其特征在于，所述目标生成模型为用于语音去噪的条件扩散模型，所述条件扩散模型包含扩散过程和逆向过程，所述扩散过程包含从第0步到第T步的T步马尔科夫链，T为大于或者等于1的正整数；

在所述将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型之前，所述方法还包括：

使用训练语音特征和训练噪声信息对待训练的所述条件扩散模型进行模型训练，得到已训练的所述条件扩散模型，其中，对于所述扩散过程，所述T步马尔科夫链的第t步的潜变量是基于所述扩散过程的目标语音特征，使用第一高斯噪声对所述T步马尔科夫链的第(t-1)步的潜变量进行加噪处理得到的，所述目标语音特征是基于所述训练语音特征和所述训练噪声信息确定的，所述第一高斯噪声是基于所述训练噪声信息确定的，0≤t＜T；

其中，在得到所述T步马尔科夫链的第t步的潜变量之后，所述方法还包括：对所述第t步的潜变量中的干净分量和所述第t步的潜变量中的噪声分量进行混合，以更新所述第t步的潜变量。

9.根据权利要求8所述的方法，其特征在于，所述对所述第t步的潜变量中的干净分量和噪声分量进行混合，以更新所述第t步的潜变量，包括：

对所述第t步的潜变量中的干净分量和所述第t步的潜变量中的噪声分量进行线性混合，得到第一混合语音特征；

通过对所述第一混合语音特征进行非线性变换，将所述第一混合语音特征转换为第二混合语音特征；

将所述第一混合语音特征和所述第二混合语音特征融合为目标混合语音特征；

将所述目标混合语音特征和第二高斯噪声，确定为更新后的所述第t步的潜变量，其中，所述第二高斯噪声是基于所述训练噪声信息确定的。

10.根据权利要求1所述的方法，其特征在于，所述对所述第一降噪语音特征和所述第二降噪语音特征进行融合，得到融合降噪语音特征，包括：

基于与所述待降噪语音特征匹配的预设参数的参数值，确定非线性激活函数的函数值；

使用所述非线性激活函数的函数值为所述第一降噪语音特征和所述第二降噪语音特征分别进行权重赋值；

按照所述第一降噪语音特征和所述第二降噪语音特征的赋值结果将所述第一降噪语音特征融合到所述第二降噪语音特征中，得到所述融合降噪语音特征。

11.根据权利要求1至10中任一项所述的方法，其特征在于，在所述将待降噪语音特征输入到目标判别模型之前，所述方法还包括：

响应于获取到的所述待降噪语音信号，在基于所述待降噪语音信号的声纹特征确定出所述待降噪语音信号的发声对象为目标对象的情况下，对所述待降噪语音信号进行语音特征提取，得到所述待降噪语音特征。

12.根据权利要求1至10中任一项所述的方法，其特征在于，在所述将待降噪语音特征输入到目标判别模型之前，所述方法还包括：

响应于获取到的所述待降噪语音信号，在所述待降噪语音信号的发声对象处于目标场景的情况下，对所述待降噪语音信号进行语音特征提取，得到所述待降噪语音特征。

13.根据权利要求1至10中任一项所述的方法，其特征在于，

在所述将待降噪语音特征输入到目标判别模型之前，所述方法还包括：响应于获取到的所述待降噪语音信号，对所述待降噪语音信号进行短时傅里叶变换，得到与所述待降噪语音信号对应的第一幅度谱；对所述第一幅度谱进行梅尔滤波处理，得到所述待降噪语音特征，其中，所述待降噪语音特征是梅尔滤波后得到的梅尔谱；

所述将所述融合降噪语音特征转换为与所述融合降噪语音特征对应的已降噪语音信号，包括：将所述融合降噪语音特征由梅尔谱恢复到幅度谱，得到第二幅度谱；对所述第二幅度谱进行逆傅里叶变换，得到所述已降噪语音信号。

14.一种基于模型融合的语音降噪装置，其特征在于，包括：

第一输入单元，用于将待降噪语音特征输入到目标判别模型，得到判别降噪结果和参考噪声信息，其中，所述待降噪语音特征是与待降噪语音信号对应的语音特征，所述判别降噪结果包括第一降噪语音特征，所述第一降噪语音特征为所述目标判别模型对所述待降噪语音特征进行降噪处理得到的语音特征，所述参考噪声信息为估计出的所述待降噪语音特征中的噪声信息；

第二输入单元，用于将所述待降噪语音特征和所述参考噪声信息输入到目标生成模型，得到生成降噪结果，其中，所述生成降噪结果包括第二降噪语音特征，所述第二降噪语音特征为所述目标生成模型基于所述参考噪声信息对所述待降噪语音特征进行降噪处理得到的语音特征；

执行单元，用于对所述第一降噪语音特征和所述第二降噪语音特征进行融合，得到融合降噪语音特征，并将所述融合降噪语音特征转换为与所述融合降噪语音特征对应的已降噪语音信号。

15.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至13中任一项所述的方法。

16.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至13中任一项所述的方法。