CN117457015A

CN117457015A - 一种基于异构多专家的单通道语音增强方法及系统

Info

Publication number: CN117457015A
Application number: CN202311406866.8A
Authority: CN
Inventors: 王俊松; 丁淳; 靳小鹏
Original assignee: Shenzhen Technology University
Current assignee: Shenzhen Technology University
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-26
Anticipated expiration: 2043-10-27
Also published as: CN117457015B

Abstract

本发明公开了一种基于异构多专家的单通道语音增强方法及系统，包括一个输入模块，用于接收和预处理带噪语音；一个门控网络；若干个专家模型，每个模型都具有不同的深度神经网络结构，并针对特定类型的噪声或信噪比范围进行优化；一个自适应增强模块；一个输出模块。本发明通过利用多种深度神经网络结构为每种噪声环境或信噪比条件提供专门的处理，从而实现更高效、更多样的语音增强效果。这不仅提高了对不同噪声类型的处理能力，还通过自适应增强模块克服了传统门控网络中的潜在分类错误，确保了更高的增强性能和系统稳定性。

Description

一种基于异构多专家的单通道语音增强方法及系统

技术领域

本发明属于语音信号降噪领域，具体是一种基于异构多专家的单通道语音增强方法及系统。

背景技术

随着信息技术和通讯领域的快速发展，语音成为人们日常交流和机器交互的主要方式。在此背景下，语音增强技术逐渐显露出其在语音研究领域中的至关重要地位。语音，作为人类最重要的交流工具，其清晰度和质量对于保障交流的效果至关重要。不幸的是，实际应用中的语音经常受到各种环境噪声的干扰，这大大降低了语音的质量和可懂度。

在不同的实际应用场景中，如自动语音识别(ASR)、远程会议、助听器以及其他与语音相关的应用，噪声都成为了一个棘手的问题。为了解决这一问题，研究者们开发了多种语音增强技术，其核心目标都是在保留语音信息的同时，最大限度地抑制背景噪声。

早期的语音增强方法多基于数字信号处理技术，例如频谱减法和各种滤波技术。在频谱减法中，靠着静态加性噪声模型从噪声语音频谱中减去估计的噪声部分，期望得到清晰的语音信号。滤波技术，如维纳滤波，也被广泛应用于语音降噪中。

随着深度学习技术的崛起，基于深度学习的语音增强方法逐渐赢得了研究者的关注，并逐步取代传统方法，成为当前的研究热点。这些基于深度学习的方法旨在模拟复杂的语音和噪声关系，并优化模型来实现更好的降噪效果。

然而，尽管已有的深度学习方法取得了不错的效果，但它们仍然面临着一些挑战。传统的语音增强方法，无论是基于传统数字信号处理技术还是基于深度学习的技术，都往往采取一种“一刀切”的策略，即使用单一的模型来处理各种噪声。显然，这种方法在处理多种噪声场景时可能会遭遇瓶颈。已有的混合专家网络虽然试图解决这一问题，但由于多数专家网络结构和处理策略过于相似，模型间缺乏多样性，使得其在某些特定噪声环境下的效果并不理想。

综上所述，随着语音增强技术的持续发展和深入研究，针对多种噪声环境，寻找一种更为灵活、更具多样性的语音增强方法显得尤为迫切。

发明内容

针对现有技术存在的不足，本发明目的是提供一种基于异构多专家的单通道语音增强方法及系统。

作为本公开实施例的一个方面，本公开实施例提供一种基于异构多专家的单通道语音增强方法，包括以下步骤：

a.接收带噪语音输入；

b.对所述带噪语音进行归一化处理；

c.使用门控网络对归一化后的所述带噪语音进行分类，确定最适合的专家模型；

d.根据所述门控网络的分类结果，将所述带噪语音的复谱传递给所确定的所述专家模型进行语音增强；

e.将所述带噪语音复谱和所述专家模型语音增强的结果一同传入自适应增强模块中；

f.使用所述自适应增强模块对所述专家模型增强后的语音进行二次处理，以补充由于所述专家模型选择错误而遗失的增强信息；

g.在所述自适应增强模块中，所述带噪语音的复谱传递给多面手模型进行语音增强，将所述多面手模型得到的增强结果和所述专家模型得到的增强结果分别乘以增强平衡矩阵，然后相加得到最终增强结果；

h.输出所述最终增强结果后的语音。

进一步地，所述门控网络的结构包括注意力层、长短记忆时网络和概率分布转化层，能够根据输入所述带噪语音的复杂频谱特征进行分类，并输出不同类别的概率向量，以指导选择所述专家模型。

进一步地，所述专家模型包括至少两种不同的深度神经网络结构，每种所述深度神经网络结构都经过优化，以处理特定类型的噪声或信噪比范围。

进一步地，包括两种结构的专家模型，即基于卷积注意力的生成对抗网络的CMGAN网络结构和双路注意力机制网络的DBAIAT网络结构；其中，使用男性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN男性专家模型，用于处理高信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN女性专家模型，用于处理高信噪比的女性带噪语音；使用男性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT男性专家模型，用于处理低信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT女性专家模型，用于处理低信噪比的女性带噪语音。

进一步地，所述自适应增强模块至少包括一个多面手模型，所述多面手模型使用完整的训练数据集，包括男性与女性说话语音去训练单个模型，并使用所述增强平衡矩阵对增强的语音通过权重来调整在最后的结果中所占比例，以实现更高的增强效果。

进一步地，所述增强平衡矩阵是一个可学习可训练且可以利用反向传播算法更新参数的权重矩阵，用于动态调整所述多面手模型和所述专家模型之间的输出权重，当所述门控网络分类错误的时候，则需要调大所述多面手模型的输出所占的比重。

进一步地，所述步骤进一步还包括将所述带噪语音分段并随机选取所述带噪语音中连续的一秒作为最小训练单位，并对每个片段进行归一化处理。

一种基于异构多专家的单通道语音增强系统，包括：

一个输入模块，用于接收和预处理带噪语音；

一个门控网络，包含注意力层、长短记忆时网络和概率分布转化层，用于对预处理后的所述带噪语音进行分类；

若干个专家模型，每个所述专家模型都具有不同的深度神经网络结构，并针对特定类型的噪声或信噪比范围进行优化；

一个自适应增强模块，包括多面手模型和增强平衡矩阵，用于对由所述专家模型增强后的语音进行二次处理；

一个输出模块，用于输出所述最终增强结果后的语音。

进一步地，还包括数据预处理模块，所述数据预处理模块进一步包括分段器和归一化器，用于将所述带噪语音通过随机选取其中连续的1秒将其进行分段，并对每个片段进行归一化限定在0到1范围内的处理。

进一步地，每个所述专家模型进一步包括编码以及解码器，并且所述编码器和所述解码器都由密集连接扩张卷积块构成，所述编码器用于通过卷积操作对所述带噪语音进行特征提取，所述解码器用于通过上采样卷积对提取的特征还原成增强后的语音。

与现有技术相比，本申请实施例提供的一种基于异构多专家的单通道语音增强方法及系统，通过利用多种深度神经网络结构为每种噪声环境或信噪比条件提供专门的处理，从而实现更高效、更多样的语音增强效果。这不仅提高了对不同噪声类型的处理能力，还通过自适应增强模块克服了传统门控网络中的潜在分类错误，确保了更高的增强性能和系统稳定性。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本申请实施例所述方法的流程示意图；

图2为本申请实施例所述系统的结构示意图；

图3为本申请实施例所述方法与其他基线方法的测试对比结果示意图；

图4为本申请实施例所述方法的专家组合策略和模块性能贡献分析示意图。

图5为本申请实施例所述方法的不同类别带噪语音与不同专家对应示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1至5所示，一种基于异构多专家的单通道语音增强方法，该方法如图1包括以下步骤：

a.接收带噪语音输入；

b.对所述带噪语音进行归一化处理；

h.输出所述最终增强结果后的语音。

如图3至图5所示，所述专家模型包括至少两种不同的深度神经网络结构，每种所述深度神经网络结构都经过优化，以处理特定类型的噪声或信噪比范围。所述专家模型在本发明中被定义为：将完整数据集去噪进行语音增强的问题分解成多个子问题，把说话人的声音分解成男性说话人和女性说话人两个部分。由男性说话人构成的带噪语音进行训练的模型为男性专家模型，由女性说话人构成的带噪语音训练而成的模型为女性专家模型，这些模型统称为专家模型。它们在各自擅长的数据领域能够发挥更好的增强性能，例如男性专家模型在处理男性说话人带噪语音时能够发挥更好的性能，女性专家模型同理。异构多专家系统中需要包括至少两种不同的深度神经网络结构作为专家模型的结构，每种所述深度神经网络结构都经过优化，以处理特定类型的噪声或信噪比范围。

包括两种结构的专家模型，即基于卷积注意力的生成对抗网络的CMGAN网络结构和双路注意力机制网络的DBAIAT网络结构；其中，使用男性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN男性专家模型，用于处理高信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN女性专家模型，用于处理高信噪比的女性带噪语音；使用男性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT男性专家模型，用于处理低信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT女性专家模型，用于处理低信噪比的女性带噪语音。

所述自适应增强模块至少包括一个多面手模型，所述多面手模型使用完整的训练数据集，包括男性与女性说话语音去训练单个模型，并使用所述增强平衡矩阵对增强的语音通过权重来调整在最后的结果中所占比例，以实现更高的增强效果。所述多面手模型在本发明中被定义为：基于深度学习的语音增强中，使用完整的训练数据集，同时包括男性与女性说话语音去训练单个模型，该模型被要求具有强大的泛化性，并且需要应对不同信噪比的带噪语音，不同噪声环境的带噪语音，被要求在多种信噪比情况，多种噪声环境情况下都需要展现出良好稳定的增强性能。也就是对多种环境噪声去噪看成是一个完整的问题，用单个模型去解决这个问题，并使用增强平衡矩阵对增强的所述语音进行权重调整，以实现更高的增强效果。

所述增强平衡矩阵是一个可学习可训练且可以利用反向传播算法更新参数的权重矩阵，它由tensor张量构成，可以利用gpu进行计算，并且可以通过反向传播算法进行梯度更新训练，学习与改变自身的值，达到最优解。用于动态调整所述多面手模型和所述专家模型之间的输出权重，由于所述门控网络可能存在分类的错误问题，需要在所述门控网络分类正确时增大专家输出所占的比重，而当所述门控网络分类错误的时候，则需要调大所述多面手模型的输出所占的比重。

所述步骤进一步还包括将所述带噪语音分段并随机选取所述带噪语音中连续的一秒作为最小训练单位，并对每个片段进行归一化处理。

一种基于异构多专家的单通道语音增强系统，如图2所示，包括：

一个输入模块，用于接收和预处理带噪语音；

一个输出模块，用于输出所述最终增强结果后的语音。

还包括数据预处理模块，所述数据预处理模块进一步包括分段器和归一化器，用于将所述带噪语音通过随机选取其中连续的1秒将其进行分段，并对每个片段进行归一化限定在0到1范围内的处理。

每个所述专家模型进一步包括编码以及解码器，并且所述编码器和所述解码器都由密集连接扩张卷积块构成，所述编码器用于通过卷积操作对所述带噪语音进行特征提取，所述解码器用于通过上采样卷积对提取的特征还原成增强后的语音。

优选实施方案参考：

1.数据集构建

首先，我们需要构建一个数据集来训练和测试我们的模型。为此，我们采用了干净语音数据以及噪声数据集，并对其进行了如下操作：

将干净语音与噪声以不同信噪比(例如-5dB,0dB,5dB)的噪声混合，生成带噪语音。

当训练多面手模型时，使用男性与女性的说话人声音，在-5至5db中随机选取一个信噪比进行，再随机选取一段噪声数据集中的噪声和说话人声进行结合作为训练的带噪语音。在训练专家模型时，选择对应性别的说话人声音，在-5至5db中随机选择一个信噪比进行，再随机选取一段噪声数据集中的噪声和说话人声进行结合作为训练的带噪语音。而训练门控网络时，噪声语音进一步被区分为四个子类：基于说话者的性别和信噪比。

使用男性与女性说话人声音，并且从噪声数据库中随机选择一条噪声，再从-5至5db中随机选取一个信噪比进行合成带噪语音。当合成的带噪语音为男性说话人,信噪比<0db时则归类为“第一类别”，当带噪语音为男性说话人，信噪比>＝0db时则归类为“第二类别”，当带噪语音为女性说话人，信噪比<0db时归类为“第三类别”，当带噪语音为女性说话人，信噪比>＝0db时归类为“第四类别”。训练自适应增强模块时，则是使用完整的数据集，男性说话人以及女性说话人的语音。

在测试阶段分为“噪声独立”与“噪声不独立”两种情况，使用男性与女性说话人的声音测试集，在“噪声独立”情况下随机选取噪声测试集中的一条，在-5,0,5db三个信噪比中随机选取一个信噪比进行合成带噪语音。在“噪声不独立”的情况下随机选取噪声训练集中的一条，在-5,0,5db中随机选取一个信噪比进行合成带噪语音。

例如，一段女性发言者的带噪语音，如果其信噪比小于0dB，则归类为“女性发言者,信噪比<0dB”。

举例：假设我们有一个干净的女性发言者的语音片段，并将其与-3dB的噪声混合，那么这个片段将被归类为“女性发言者,信噪比<0dB即为第三类别”。当有一个干净的男性发言者语音片段，并将其与噪声以5db的信噪比混合后，这个片段被归类为“第二类别”。举例：假设我们有一个干净的女性发言者的语音片段，并将其与-3dB的噪声混合，那么这个片段将被归类为“女性发言者,信噪比<0dB即为第三类别”。当有一个干净的男性发言者语音片段，并将其与噪声以5db的信噪比混合后，这个片段被归类为“第二类别”。

2.异构专家混合训练

2.1专家模型

我们设计了多种专家模型，以处理不同类型的噪声或信噪比范围。这些模型包括：

CMGAN女性模型

DBAIAT女性模型

CMGAN男性模型

DBAIAT男性模型

每个模型都包括一个编码器和一个解码器。编码器负责提取带噪语音的特征，而解码器则利用这些特征增强语音。

举例：假设我们有一个“女性发言者,信噪比<0dB”的带噪语音片段，那么它可能首先被传递给DBAIAT女性专家模型进行处理。如果带噪语音片段为“女性发言者，信噪比＝0db”则会被送入CMGAN女性专家模型进行处理。如果带噪语音片段为“男性发言者，信噪比<0dB”则会被送入DBAIAT男性专家模型进行处理。假如带噪语音片段为“男性发言者，信噪比＝5db”则会被送入CMGAN男性专家进行处理。这些模型是针对性别、噪音类型或信噪比条件进行优化的。

2.2通用模型

除了专家模型外，我们还设计了两种通用模型：

CMGAN通用模型

DBAIAT通用模型

这些模型也包括编码器和解码器，但它们被训练为在各种不同的噪声和信噪比条件下都表现良好。训练通用模型的训练集为男性和女性带噪语音。

举例：假设一条带噪语音为男性说话人带噪语音。当利用通用模型和专家模型对其进行增强预测时，男性专家模型的增强效果最好，其次为通用模型，效果最差的为女性专家模型。

2.3门控网络

门控网络负责对预处理后的带噪语音进行分类，确定最适合的专家模型。它包含长短时记忆网络、注意力层和概率分布转化层。基于输入的带噪语音特征，门控网络输出一个概率向量，指导选择专家模型。这个门控网络可以根据输入数据的特点，如说话者的性别、噪音类型或信噪比条件，迅速判断出应当使用哪一个模型进行处理。

3.语音增强预测阶段

在预测阶段，系统首先接收一个噪声语谱图输入。然后，系统利用门控网络选择合适的专家模型，并将输入传递给所选的模型进行初步增强。接下来，系统将专家的增强结果和带噪语谱图一同传入自适应增强模型中使用自适应增强模块对增强后的语音进行二次处理，以补充任何可能遗失的增强信息。最后，系统输出增强后的语音。

举例：考虑一个带噪的男性语音片段，其信噪比为4dB。首先，门控网络可能会选择CMGAN男性模型来处理这个片段。在获得初步增强的结果后，把初步结果和带噪语音复谱传入自适应增强模块中，内部的多面手模型对带噪语音进行增强预测得到结果，之后将专家的增强结果和多面手的增强结果分别乘以增强平衡矩阵，两者相加。由于增强平衡矩阵进行过训练，所以当门控网络分类正确时，能够调大专家结果的占比，当分类错误时，能够调大多面手增强结果的占比。自适应增强模块进一步优化这个结果，然后输出。

4.系统的优化与适应性提升：

4.1数据增强策略的引入：

为了进一步提高模型的泛化能力，我们采用了数据增强策略，如随机速度变化、随机音高变化等技术，来增加训练数据的多样性。

4.2多模型的融合策略：

为了增强系统的稳定性，我们还引入了模型融合策略，即将多个模型的输出结果进行融合，以获得更稳定、更高质量的语音增强效果。

4.3在线学习与自适应调整：

为了使系统在未知的噪音环境中也能够表现出色，我们为模型加入了在线学习功能。当模型在实际使用中遇到新的噪音环境时，它可以通过在线学习技术迅速地进行自适应调整，以确保始终能够提供高质量的语音增强效果。

5.实验验证与效果展示：

5.1实验设定：

我们在多个真实场景的带噪音语音数据上进行了实验，这些数据包括了不同的说话者、不同的噪音类型和不同的信噪比条件。

5.2评价指标的选择：

为了客观地评估系统的效果，我们选取了多个评价指标，如信噪比改善值、语音质量评分等。

5.3实验结果与分析：

经过大量的实验，我们发现无论在哪种噪音条件下，无论是哪个说话者，系统都能够提供令人满意的语音增强效果。同时，与其他已有技术相比，我们的方法在多数评价指标上都有显著的优势。

5.4效果展示：

为了让用户更直观地了解我们系统的效果，我们还为用户提供了多个增强前后的对比音频，这些音频充分展示了我们系统的优越性。本发明提供的语音增强方法结合了若干个专家模型，能够在各种不同的噪声和信噪比条件下实现高质量的语音增强效果。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于异构多专家的单通道语音增强方法，其特征在于，该方法包括以下步骤：

a.接收带噪语音输入；

b.对所述带噪语音进行归一化处理；

h.输出所述最终增强结果后的语音。

2.根据权利要求1所述的方法，其特征在于，所述门控网络的结构包括注意力层、长短记忆时网络和概率分布转化层，能够根据输入所述带噪语音的复杂频谱特征进行分类，并输出不同类别的概率向量，以指导选择所述专家模型。

3.根据权利要求1所述的方法，其特征在于，所述专家模型包括至少两种不同的深度神经网络结构，每种所述深度神经网络结构都经过优化，以处理特定类型的噪声或信噪比范围。

4.根据权利要求3所述的方法，其特征在于，包括两种结构的专家模型，即基于卷积注意力的生成对抗网络的CMGAN网络结构和双路注意力机制网络的DBAIAT网络结构；其中，使用男性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN男性专家模型，用于处理高信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述CMGAN网络结构得到CMGAN女性专家模型，用于处理高信噪比的女性带噪语音；使用男性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT男性专家模型，用于处理低信噪比的男性带噪语音，使用女性说话人带噪语音训练的所述DBAIAT网络结构得到DBAIAT女性专家模型，用于处理低信噪比的女性带噪语音。

5.根据权利要求1所述的方法，其特征在于，所述自适应增强模块至少包括一个多面手模型，所述多面手模型使用完整的训练数据集，包括男性与女性说话语音去训练单个模型，并使用所述增强平衡矩阵对增强的语音通过权重来调整在最后的结果中所占比例，以实现更高的增强效果。

6.根据权利要求5所述的方法，其特征在于，所述增强平衡矩阵是一个可学习可训练且可以利用反向传播算法更新参数的权重矩阵，用于动态调整所述多面手模型和所述专家模型之间的输出权重，当所述门控网络分类错误的时候，则需要调大所述多面手模型的输出所占的比重。

7.根据权利要求1所述的方法，其特征在于，所述步骤进一步还包括将所述带噪语音分段并随机选取所述带噪语音中连续的一秒作为最小训练单位，并对每个片段进行归一化处理。

8.一种基于异构多专家的单通道语音增强系统，其实现如权利要求1至7任意一项所述的基于异构多专家的单通道语音增强方法，其特征在于，包括：

一个输入模块，用于接收和预处理带噪语音；

一个输出模块，用于输出所述最终增强结果后的语音。

9.根据权利要求8所述的系统，其特征在于，还包括数据预处理模块，所述数据预处理模块进一步包括分段器和归一化器，用于将所述带噪语音通过随机选取其中连续的1秒将其进行分段，并对每个片段进行归一化限定在0到1范围内的处理。

10.根据权利要求9所述的系统，其特征在于，每个所述专家模型进一步包括编码以及解码器，并且所述编码器和所述解码器都由密集连接扩张卷积块构成，所述编码器用于通过卷积操作对所述带噪语音进行特征提取，所述解码器用于通过上采样卷积对提取的特征还原成增强后的语音。