CN111261148B

CN111261148B - 语音模型的训练方法、语音增强处理方法及相关设备

Info

Publication number: CN111261148B
Application number: CN202010180587.4A
Authority: CN
Inventors: 鲍枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2022-03-25
Anticipated expiration: 2040-03-13
Also published as: CN111261148A

Abstract

本申请的实施例提供了一种语音模型的训练方法，该方法包括：获取样本语音对应的第一增益和第二增益；根据第一增益和第二增益，计算得到第一均方误差、第二均方误差和第一增益与第二增益之间的交叉熵，第一均方误差是第一增益与第二增益之间的均方误差，第二均方误差是第一增益的平方根与第二增益的平方根之间的均方误差；计算第一均方误差与第二均方误差的和，得到第一目标参数；以及，计算第一目标参数与交叉熵的和，得到第二目标参数；将第一目标参数和第二目标参数进行加权，得到目标损失；根据目标损失调整语音模型的参数，以进行语音模型的训练。通过上述的训练方法，有效提高了语音模型进行增强处理的效果。

Description

语音模型的训练方法、语音增强处理方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种语音模型的训练方法、语音增强处理方法及相关设备。

背景技术

语音增强是指从含噪语音信号中尽可能提取纯净语音，该纯净语音是指不含有干扰信号的信号。

随着人工智能技术的发展和对语音质量的要求提高，人工智能技术逐渐被应用到语音增强处理中。具体来说，在对通过神经网络模型构建的语音模型进行训练后，由训练之后的语音模型对待处理的语音信号进行增强处理，得到增强处理后的语音信号。

训练后语音模型的增强处理效果与语音模型的训练直接相关。其中一个重要影响因素是语音模型的损失函数。现有技术中，通常以交叉熵或者均方误差作为语音模型的损失函数，以此为基础来进行语音模型的训练。

但是，在实践中发现：以均方误差作为损失函数的语音模型，在训练后该语音模型进行的语音增强处理中，去噪能力较强，但是对语音中的纯净语音的损伤较大；以交叉熵作为损失函数的语音模型，在训练后该语音模型进行的语音增强处理中，对语音中的纯净语音的损伤较小，因此语音保留能力较强，但是去噪能力较弱。

因此，不管是以交叉熵还是以均方误差作为损失函数的语音模型，在训练后语音模型进行增强处理所得到语音信号的质量还有待提高。

综上所述，如何提高语音模型的语音增强处理效果，以提高增强处理所得到语音信号的质量是现有技术中亟待解决的技术问题。

发明内容

本申请的实施例提供了一种语音模型的训练方法、语音增强处理方法及相关设备，进而至少在一定程度上提高语音模型的语音增强处理效果。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种语音模型的训练方法，所述语音模型用于对语音信号进行增强处理，所述方法包括：

获取样本语音对应的第一增益和第二增益，所述第一增益是所述语音模型为所述样本语音所预估得到的，所述第二增益是所述样本语音中的纯净语音相较于所述样本语音的增益；

根据所述第一增益和所述第二增益，计算得到第一均方误差、第二均方误差和所述第一增益与所述第二增益之间的交叉熵，所述第一均方误差是所述第一增益与所述第二增益之间的均方误差，所述第二均方误差是所述第一增益的平方根与所述第二增益的平方根之间的均方误差；

计算所述第一均方误差与所述第二均方误差的和，得到第一目标参数；以及，计算所述第一目标参数与所述交叉熵的和，得到第二目标参数；

将所述第一目标参数和所述第二目标参数进行加权，得到目标损失；

根据所述目标损失调整所述语音模型的参数，以进行所述语音模型的训练。

根据本申请实施例的一个方面，提供了一种语音增强处理方法，通过如上语音模型的训练方法所训练得到的语音模型对待处理语音信号进行增强处理。

根据本申请实施例的一个方面，提供了一种语音模型的训练装置，所述语音模型用于对语音信号进行增强处理，所述装置包括：

获取模块，用于获取样本语音对应的第一增益和第二增益，所述第一增益是所述语音模型为所述样本语音所预估得到的，所述第二增益是所述样本语音中的纯净语音相较于所述样本语音的增益；

第一计算模块，用于根据所述第一增益和所述第二增益，计算得到第一均方误差、第二均方误差和所述第一增益与所述第二增益之间的交叉熵，所述第一均方误差是所述第一增益与所述第二增益之间的均方误差，所述第二均方误差是所述第一增益的平方根与所述第二增益的平方根之间的均方误差；

第二计算模块，用于计算所述第一均方误差与所述第二均方误差的和，得到第一目标参数；以及，计算所述第一目标参数与所述交叉熵的和，得到第二目标参数；

目标损失计算模块，用于将所述第一目标参数和所述第二目标参数进行加权，得到目标损失；

调整模块，用于根据所述目标损失调整所述语音模型的参数，以进行所述语音模型的训练。

根据本申请实施例的一个方面，提供了一种电子设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述的方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时，实现如上的方法。

在本申请的一些实施例所提供的技术方案中，样本语音的目标损失由第一均方误差、第二均方误差和交叉熵确定，相当于语音模型的损失函数融合了均方误差、交叉熵以及以第一增益的平方根和第二增益的平方根为变量的均方误差，因此，使得所训练得到的语音模型融合了交叉熵作为损失函数和均方误差作为损失函数的优点，即同时兼顾了去噪能力和对纯净语音的保留，而且通过第一增益的平方根和第二增益的平方根为自变量的均方误差函数，可以缓解降噪量和进一步弥补纯净语音误消的情况。从而，在通过所训练得到的语音模型对待处理的语音进行处理过程中，不仅可以有效除去语音中的干扰信号，而且可以同时减少对语音中纯净语音的损伤，提高了训练后的语音模型对语音进行增强处理的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是根据一实施例示出的语音模型的训练方法的流程图；

图2是图1对应实施例中步骤140在一实施例中的流程图；

图3是图1对应实施例的步骤110之前步骤在一实施例中的流程图；

图4是图3对应实施例的步骤310之前步骤在一实施例中的流程图；

图5是图3对应实施例的步骤320在一实施例中的流程图；

图6是根据一具体实施例示出的含噪语音信号的示意图；

图7是以交叉熵函数作为损失函数的语音模型对图6所示含噪语音信号进行增强处理后所得到信号的示意图；

图8是以公式9所示函数式为损失函数的语音模型对图6所示含噪语音信号进行增强处理后所得到信号的示意图；

图9是以公式7所示函数式为损失函数的语音模型对图6所示含噪语音信号进行增强处理后所得到信号的示意图；

图10是根据一实施例示出的语音模型的训练装置的框图；

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图1是根据一实施例示出的语音模型的训练方法的流程图，该语音模型用于对语音信号进行增强处理。参照图1所示，该方法至少包括步骤110至步骤150，详细介绍如下：

步骤110，获取样本语音对应的第一增益和第二增益，第一增益是语音模型为样本语音所预估得到的，第二增益是样本语音中的纯净语音相较于样本语音的增益。

增强处理是指从混有干扰信号的语音信号中提取尽可能纯净的原始语音，干扰信号例如噪声、以及其他干扰原始语音的信号。

语音模型是通过神经网络构建的模型，神经网络例如循环神经网络(RecurrentNeural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)、递归神经网络、长短时记忆神经网络等。值的一提的是，该语音模型可以是通过一种神经网络构建，也可以是通过多种神经网络构建，在此不进行具体限定。

该语音模型通过为输入的语音信号确定进行增强处理的增益，然后按照所确定的增益对所输入的语音信号进行处理，得到从所输入的语音信号中提取出的原始语音。

其中，在将该语音模型正式用于对语音信号进行增强处理之前，需要对该语音模型进行训练，在训练过程中对语音模型的参数进行调整，从而，使得训练之后，语音模型对语音信号进行增强处理所得到的信号更接近纯净语音，其中，纯净语音是指不包含干扰信号的语音信号。

样本语音是指所采集用于对语音模型进行训练的语音信号。值得一提的是，为语音模型对语音信号进行增强处理的效果，通过大量的样本语音对该语音模型进行训练，则对于每一样本语音，均按照本公开的方法对语音模型进行训练。

用于对语音模型进行训练的样本语音可以是包括干扰信号的语音信号，也可以是不包括干扰信号的语音信号，从而，在通过大量语音信号对语音模型后，该语义语音模型可以针对不同的语音进行针对性地处理。如上所描述，语音模型通过为所输入的语音信号确定进行增强处理的增益，然后按照所确定的增益对输入的语音信号进行处理。在语音模型的训练过程中，该语音模型对应为所输入的样本语音确定进行增强处理的增益，在本公开的方案中，将语音模型为所输入的样本语音所确定进行增强处理的增益称为样本语音对应的第一增益。

也就是说，在将样本语音输入至语音模型后，语音模型基于自身当前的参数为样本语音进行增强处理所需增益的预估或者预测，从而，基于所预测得到的第一增益来反向进行语音模型的参数的调整。

在本公开的方案中，样本语音中所包含的纯净语音或者所包含的干扰信号中的至少一项是已知的，从而，基于样本语音和所包含的纯净语音或者所包含的干扰信号，来对应确定所包含的纯净语音相较于样本语音的增益，将样本语音所包含的纯净语音相较于样本语音的增益称为样本语音对应的第二增益。

具体来说，当样本语音和样本语音所包含的干扰信号已知时，根据样本语音和干扰信号来对应确定所包含的纯净语音，进而确定样本语音对应的第二增益。

在具体实施例中，该样本语音可以构建得到，也就是说，基于已知的干扰信号来构建样本语音，例如，在干扰信号已知的环境中，进行语音信号的收集，所收集得到的语音中必然包含该已知的干扰信号和未知的纯净语音，从而，将该所收集得到的语音信号作为样本语音。还可以是基于已知的纯净语音来构建样本语音，例如将已知的纯净语音和已知的干扰信号进行混合，将混合后的信号作为样本语音。

步骤120，根据第一增益和第二增益，计算得到第一均方误差、第二均方误差和第一增益与第二增益之间的交叉熵，第一均方误差是第一增益与第二增益之间的均方误差，第二均方误差是第一增益的平方根与第二增益的平方根之间的均方误差。

均方误差(mean-square error，MSE)是指各测量值偏离真实值差值的平方和的平均数。当然，若在一次测量中，仅有一个测量值，则均方误差又等于该测量值偏离真实值的差值的平方。

均方误差函数的计算公式为：

其中，p_i为第i个测量值，n为测量值的总数，q为真实值，T表示均方误差。

具体在本实施例中，对于第一均方误差，为样本语音所确定的第二增益是真实值，而由语音模型为样本语音所测量得到的第一增益是测量值。若在计算过程中，语音模型为一频点的样本语音进行一次第一增益的预估，则第一均方误差又等于第一增益与第二增益的差值的平方。

设第一增益为m，第二增益为n，第一均方误差为T₁，按照上述均方误差的计算公式，在语音模型为一频点的样本语音进行一次第一增益的预估时，第一均方误差的计算公式为：

T₁＝(m-n)² (公式2)

同理，对于第二均方误差，第二增益的平方根是真实值，第一增益的平方根是测量值。若在计算过程中，语音模型为每一样本进行一次第一增益的预估，则第二均方误差又等于第一增益的平方根与第二增益的平方根的差值的平方。

设第二均方误差为T₂，在语音模型为一频点的样本语音进行一次第一增益的预估时，第二均方误差的计算公式为：

第一增益与第二增益之间的交叉熵是按照交叉熵损失函数来计算的，计算公式为：

T₃＝-(m·log n+(1+m)·log(1-n)) (公式4)

其中，T₃为第一增益与第二增益的交叉熵。

步骤130，计算第一均方误差与第二均方误差的和，得到第一目标参数，以及，计算第一目标参数与交叉熵的和，得到第二目标参数。

步骤140，将第一目标参数和第二目标参数进行加权，得到目标损失。

步骤150，根据目标损失调整语音模型的参数，以进行语音模型的训练。

对于语音模型的训练而言，若该目标损失收敛，则继续用下一样本语音按照上述步骤110-150的过程继续进行训练；反之，若该目标损失不收敛，则调整该语音模型的参数，直至根据调整参数后的语音模型为该样本语音所预估的第一增益使得所计算得到的目标损失收敛。

在本公开的方案中，为每一样本语音所计算得到的目标损失由第一目标参数和第二目标参数加权得到，第一目标参数与第一均方误差和第二均方误差相关，第二目标参数与第一均方误差、第二均方误差和交叉熵相关，从而，相当于该语音模型的损失函数融合了第一增益与第二增益之间交叉熵和均方误差、以及第一增益的平方根与第二增益的平方根之间的均方误差，以此为基础来进行语音模型的训练。

对用于对语音进行增强处理的语音模型，在现有技术中，一般将交叉熵或者均方误差作为语音模型的损失函数。具体来说，若将交叉熵作为语音模型的损失函数，则在语音模型的训练过程中，对每一样本语音对应计算上述第一增益与第二增益之间的交叉熵。若将均方误差作为语音模型的损失函数，则在语音模型的训练过程中，对每一样本语音对应计算上述第一增益与第二增益之间的均方误差，即上述的第一均方误差。

实践中，以交叉熵作为损失函数所训练得到的语音模型，在增强处理过程中，去噪能力较强，但是对语音中的纯净语音损伤较大。若以均方误差作为损失函数所训练得到的语音模型，在增强处理过程中，对纯净语音的损伤小，因此，语音保留能力强，但是去噪能力相对弱一点。

对于第一均方误差和第二均方误差，由于第一增益和第二增益的取值范围均为0-1，显然，对于第一增益的平方根大于第一增益，第二增益的平方根大于第二增益，因此，整体上来说，相较于将第一均方误差作为损失值(此时也可以理解为语音模型的损失函数为均方误差)，以第二均方误差作为损失值训练语音模型时，训练所得到的语音模型对纯净语音的损伤更小，去噪能力也相应降低，因此，当该第二均方误差与第一均方误差或交叉熵结合时，可以缓解降噪量和进一步弥补纯净语音误消的情况。

在本公开的方案中，样本语音的目标损失由第一均方误差、第二均方误差和交叉熵确定，相当于语音模型的损失函数融合了均方误差、交叉熵以及以第一增益的平方根和第二增益的平方根之间的均方误差，因此，使得所训练得到的语音模型融合了交叉熵作为损失函数和均方误差作为损失函数的优点且实现了互补，即兼顾了去噪能力和对纯净语音的保留，而且通过第一增益的平方根和第二增益的平方根之间的均方误差，可以缓解降噪量和进一步弥补纯净语音误消的情况。从而，在通过所训练得到的语音模型对待处理的语音进行处理过程中，不仅可以有效除去语音中的干扰信号，而且可以同时减少对语音中纯净语音的损伤，保证了训练后的语音模型对语音进行增强处理的效果。

在一实施例中，如图2所示，步骤140包括：

步骤210，根据第一增益或第二增益，分别确定第一目标参数的第一加权系数和第二目标参数的第二加权系数。

在本实施例中，第一目标参数的第一加权系数，以及第二目标参数的第二加权系数均与第一增益或者第二增益相关。

步骤230，按照第一加权系数和第二加权系数进行第一目标参数和第二目标参数的加权，得到目标损失。

第一增益或者第二增益在一定程度上可以反映出样本语音中干扰信号的情况。具体来说，第一增益、第二增益的取值范围均是0-1，若第一增益或者第二增益越靠近0，则表明样本语音中干扰信号能量较大；反之，若第一增益或者第二增益越靠近1，则表明样本语音中干扰信号的能量较小。

在本实施例中，根据第一增益或者第二增益来确定第一目标参数的权重和第二目标参数的权重，从而，实现了根据样本语音自适应地确定目标语音的目标损失中第一目标参数和第二目标参数所占的权重，实现了自适应平衡对纯净语音的损伤和去噪能力，从而，训练之后语音模型在对语音进行增强处理过程中，在减少对纯净语音的损伤的同时，保证了语音中干扰信号的有效去除。

在一实施例中，步骤210包括：

以第一增益作为第二加权系数，以1与第一增益的差作为第一加权系数。

继续上述的设定，第一增益为m，第二增益为n，设第一加权系数为k₁，第二加权系数为k₂，第一目标参数为d₁，第二目标参数为d₂，则第一目标参数为：

d₁＝T₁+T₂ (公式5)

第二目标参数为：

d₂＝T₁+T₂+T₃ (公式6)

在本实施例中，样本语音的目标损失L为：

L＝k₁d₁+k₂d₂

＝(1-m)(T₁+T₂)+m(T₁+T₂+T₃) (公式7)

其中，由第一均方误差与第二均方误差的和所得到的第一目标参数具有较好的去噪能力，而由第一均方误差、第二均方误差和交叉熵的和所得到的第二目标参数对语音中纯净语音的保持能力较好。

如上所描述，第一增益的取值范围为0-1，当第一增益m越靠近1，表明样本语音中的干扰信号较少，此时，1-m越靠近0，那么第二加权系数(m)大于与第一加权系数(1-m)，因此，第二目标参数在目标损失中占的权重更大，也就是说，在语音中的干扰信号较少时，融合交叉熵和均方误差的优点的同时，更侧重于较少对纯净语音的损伤。

反之，当第一增益越靠近0时，表明样本语音中的干扰信号较多，此时，1-第一增益越靠近1，此时，第二加权系数(m)小于第一加权系数(1-m)，因此，第一目标参数在目标损失中占的权重更大，也就是说，在语音中干扰信号较多时，融合交叉熵和均方误差的同时，更侧重于减少样本语音中的干扰信号。

通过上述实施例，以第一增益作为第二加权系数，以1与第一增益的差作为第一加权系数，实现了在语音模型的训练过程中自适应进行纯净语音的损伤和干扰信号的去除之间的平衡，从而可以保证训练后语音模型在对语音进行增强处理中可以兼顾干扰信号的有效去除和较少对纯净语音的损伤。

在另一实施例中，步骤210包括：

以第二增益作为第二加权系数，以1与第二增益的差作为第一加权系数。

在本实施例中，样本语音的目标损失L为：

L＝k₁d₁+k₂d₂

＝(1-n)(T₁+T₂)+n(T₁+T₂+T₃) (公式8)

同理，第二增益的取值范围为0-1，当第二增益n越靠近1，表明样本语音中的干扰信号较少，此时，1-n越靠近0，那么第二加权系数(n)大于与第一加权系数(1-n)，因此，第二目标参数在目标损失中占的权重更大，也就是说，在语音中的干扰信号较少时，融合交叉熵和均方误差的优点的同时，更侧重于较少对纯净语音的损伤。

反之，当第二增益n越靠近0时，表明样本语音中的干扰信号较多，此时，1-n越靠近1，此时，第二加权系数(n)小于第一加权系数(1-n)，因此，第一目标参数在目标损失中占的权重更大，也就是说，在语音中干扰信号较多时，融合交叉熵和均方误差的同时，更侧重于减少样本语音中的干扰信号。

通过上述实施例，以第二增益作为第二加权系数，以1与第二增益的差作为第一加权系数，实现了在语音模型的训练过程中自适应进行纯净语音的损伤和干扰信号的去除之间的平衡，从而可以保证训练后语音模型在对语音进行增强处理中可以兼顾干扰信号的有效去除和较少对纯净语音的损伤。

在一实施例中，如图3所示，步骤110之前，该方法还包括：

步骤310，获取样本语音所对应音频帧的频域表达。

以及，步骤320，获取样本语音所包含纯净语音所对应音频帧的频域表达，频域表达为功率谱或幅度谱。

音频帧的功率谱和幅度谱均可以反映音频帧在频域上的能量分布。具体来说，幅度谱反映了音频帧中幅值随频率的变化，功率谱反映了音频帧中功率随频率的变化。

值得一提的是，样本语音的音频帧与所包含纯净语音的音频帧是相对齐的，具体而言，纯净语音中的任一音频帧与样本语音的音频帧在时间序列上的时间点位置和音频帧的时间长度是相同的。

步骤330，根据样本语音所对应音频帧的频域表达和纯净语音所对应音频帧的频域表达，计算得到样本语音中各音频帧对应的第二增益。

如果是按照音频帧的功率谱来确定第二增益，则对应按照样本语音的音频帧的功率谱和样本语音所包含纯净语音的音频帧的功率谱来计算第二增益。如果是按照音频帧的幅度谱来确定第二增益，则对应按照样本语音的音频帧的幅度谱和样本语音所包含纯净语音的音频帧的幅度谱来计算第二增益。

在计算每一音频帧对应的第二增益时，由于每一音频帧中可能包括多个频率的音频，一频率的音频又可以称为一频点音频。在计算过程中，对于样本语音每一音频帧，按照频点来计算对应频点音频的第二增益。因此，第二增益实际上是指为样本语音的各音频帧中各频点音频所对应确定的增益。同样的，在语音模型为样本语音预测第二增益实质上包括了样本语音中各音频帧中每一频点音频对应的增益。

具体来说，在计算音频帧中每一频点音频的第二增益等于纯净语音的幅值与样本语音的幅值的比值，或者等于纯净语音的幅值与样本语音的幅值的比值。

通过如上的过程，实现了为样本语音中各音频帧中每一频点音频确定第二增益。

在一实施例中，如图4所示，步骤310之前，该方法还包括：

步骤410，获取样本语音的时域信号。

步骤430，对样本语音的时域信号进行分帧，得到样本语音的各音频帧。

鉴于语音信号具有短时平稳性，因此，为了将样本语音从时域转换到频域，先将样本语音的时域信号进行分帧，然后按帧进行时频转换。

在具体实施例中，通过加窗来实现样本语音的时域信号的分帧，具体而言，通过窗口的移动来进行分针，窗口通过窗函数来描述，窗口的移动通过步长来描述。

步骤450，分别对样本语音的各音频帧进行时频变换，得到样本语音中各音频帧的频域表达。

时频变换是指将音频帧的时域表达转换为频域表达。所进行的时频变换可以是快速傅里叶变换(Fast Fourier Transform，FTT)、短时傅里叶变换(Short-time FourierTransform，STFT)，在此不进行具体限定。

通过进行时频变换，对应得到各音频帧的幅度谱或者功率谱。

在一实施例中，如图5所示，步骤320之前，该方法还包括：

步骤510，获取样本语音所包含干扰信号的时域信号。

步骤520，根据样本语音的时域信号和样本语音所包含干扰信号的时域信号，确定样本语音所包含纯净语音的时域信号。

在本实施例中，样本语音中的干扰信号已知，因此，对应获取干扰信号的时域信号。然后基于样本语音的时域信号和干扰信号的时域信号，将样本语音的时域信号和干扰信号的时域信号相减，即得到样本语音所包含纯净语音的时域信号。

在其他实施例中，样本语音还可以是通过已知的干扰信号和已知的纯净语音来进行构建的，在此情况下，直接获取所已知纯净语音的时域信号，并根据纯净语音的时域信号和样本语音的时域信号进行第二增益的计算。

步骤530，按照对样本语音的时域信号所进行的分帧，对纯净语音的时域信号进行分帧，得到纯净语音的各音频帧。

如上所描述，样本语音的音频帧与纯净语音的音频帧是相对齐的，从而，按照对样本语音的时域信号所进行的分帧来进行纯净语音的时域信号的分帧。在具体实施例中，可以按照相同的窗函数、步长、和窗函数类型进行样本语音的时域信号和纯净语音的时域信号的分帧，以此保证样本语音的音频帧与纯净语音的音频帧之间的对齐关系。

值得一提的是，在此并未限定对样本语音的时域信号进行分帧与对样本语音中所包含纯净语音的时域信号进行分帧的先后顺序，仅需要保证分帧后，两者的音频帧相对齐即可。

步骤540，对纯净语音的各音频帧进行时频变换，得到纯净语音中各音频帧的频域表达。

同理，此处通过时频变换，对应得到纯净语音中各音频帧的幅度谱或者功率谱。

本公开还提供了一种语音增强处理方法，通过如上任一实施例中语音模型的训练方法所训练得到的语音模型对待处理语音信号进行增强处理。

在按照上述任一实施例中语音模型的训练方法对语音模型完成训练后，语音模型的参数确定，而且，语义模型对语音信号的增强处理效果可以得到保证，从而，通过训练后的语音模型对待处理语音信号进行增强处理，可以保证有效除去待处理语音信号中的干扰信号，而且减少对待处理信号中的纯净语音信号的损伤，有效提高了增强处理的效果，提高了增强处理所得到语音信号的质量。

以下结合一具体实施例对本公开方法的有益效果进行说明。

图6示出了含噪语音信号的示意图。在按照现有技术中以交叉熵函数为损失函数的语音模型对图6所示的含噪信号进行增强处理后，得到图7所示的语音信号。如图7所示，虽然通过该语音模型去除含噪语音信号中的大多数噪声信号，但是仍然存在较多未被除去的噪声信号，而且，部分纯净语音在增强处理过程中被损伤。

在实验中，以如下的函数式作为语音函数的损失函数，并对应进行了语音模型的训练。其中，该损失函数为：

L＝(1-n)T₁+n(T₁+T₃) (公式9)

并通过公式9中的函数式作为损失函数的语音模型，在进行该模型的训练后，对图6所示的含噪语音信号进行了增强处理，增强处理后的信号如图8所示。与图7所示信号的对比可知，经过上述语音模型处理后，信号中的噪声去除得较为彻底，但是，同时造成了纯净语音的较大损伤。

在实验中，进一步以公式7所示的函数式作为语音模型的损失函数，并对应进行了语音模型的训练。通过该训练后的语音模型对图6所示的含噪语音信号进行了增强处理，所得到增强处理后的语音信号如图9所示。

相较于图8所示的语音信号，图9所示的语音信号中纯净语音的保留性更好，由此可知，在增强处理中，对纯净语音的损伤较小。因此，可以证明，按照本公开的方法，所训练得到的语音模型在对含噪语音信号的处理过程中，不仅可以有效去除其中的噪声，而且，可以减少对纯净语音的损伤，有效提高增强处理所得到语音信号的质量。

相较于公式9中的函数式，在公式7的函数式中，在加号的前后两项增加了，以第一增益的平方根和第二增益的平方根为变量的所得到的第二均方误差T₂：

如上所描述，第二均方误差相较于第一均方误差，可以达到弥补纯净语音误消的目的，从而减少增强处理过程中对纯净语音的损伤。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的方法实施例。

本公开提供了一种语音模型的训练装置1000，该语音模型用于对语音信号进行增强处理，如图10所示，该装置包括：

获取模块1010，用于获取样本语音对应的第一增益和第二增益，第一增益是语音模型为样本语音所预估得到的，第二增益是样本语音中的纯净语音相较于样本语音的增益。

第一计算模块1020，用于根据第一增益和第二增益，计算得到第一均方误差、第二均方误差和第一增益与第二增益之间的交叉熵，第一均方误差是第一增益与第二增益之间的均方误差，第二均方误差是第一增益的平方根与第二增益的平方根之间的均方误差。

第二计算模块1030，用于计算第一均方误差与第二均方误差的和，得到第一目标参数；以及，计算第一目标参数与交叉熵的和，得到第二目标参数。

目标损失计算模块1040，用于将第一目标参数和第二目标参数进行加权，得到目标损失；

调整模块1050，用于根据目标损失调整语音模型的参数，以进行语音模型的训练。

在一实施例中，目标损失计算模块1040，包括：

加权系数计算单元，用于根据第一增益或第二增益，分别确定第一目标参数的第一加权系数和第二目标参数的第二加权系数。

目标损失计算单元，用于按照第一加权系数和第二加权系数进行第一目标参数和第二目标参数的加权，得到目标损失。

在一实施例中，加权系数计算单元被配置为：

以第一增益作为第二加权系数，以1与第一增益的差作为第一加权系数；或者

在一实施例中，该装置还包括：

第一获取模块，用于获取样本语音所对应音频帧的频域表达。

以及第二获取模块，用于获取样本语音所包含纯净语音所对应音频帧的频域表达，频域表达为功率谱或幅度谱。

第二增益计算模块，用于根据样本语音所对应音频帧的频域表达和纯净语音所对应音频帧的频域表达，计算得到样本语音中各音频帧对应的第二增益。

在一实施例中，该装置还包括：

第一时域信号获取模块，用于获取样本语音的时域信号。

第一分帧模块，用于对样本语音的时域信号进行分帧，得到样本语音的各音频帧。

第一时频变换模块，用于分别对样本语音的各音频帧进行时频变换，得到样本语音中各音频帧的频域表达。

在一实施例中，该装置还包括：

第二时域信号获取模块，用于获取样本语音所包含干扰信号的时域信号。

纯净语音确定模块，用于根据样本语音的时域信号和样本语音所包含干扰信号的时域信号，确定样本语音所包含纯净语音的时域信号。

第二分帧模块，用于按照对样本语音的时域信号所进行的分帧，对纯净语音的时域信号进行分帧，得到纯净语音的各音频帧。

第二时频变换模块，用于对纯净语音的各音频帧进行时频变换，得到纯净语音中各音频帧的频域表达。

本公开还提供了一种语音增强处理装置，该装置通过如上任一语音模型的训练方法实施例中的方法所训练得到的语音模型对待处理语音信号进行增强处理。

上述装置中各个模块/单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序。

需要说明的是，图11示出的电子设备的计算机系统1200仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质存储有计算机可读指令，当上述计算机可读指令被处理器执行时，例如上述电子设备中的处理器执行时，实现上述任一方法实施例中的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种语音模型的训练方法，其特征在于，所述语音模型用于对语音信号进行增强处理，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一目标参数和所述第二目标参数进行加权，得到目标损失，包括：

根据所述第一增益或所述第二增益，分别确定所述第一目标参数的第一加权系数和所述第二目标参数的第二加权系数；

按照所述第一加权系数和所述第二加权系数进行所述第一目标参数和所述第二目标参数的加权，得到所述目标损失。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一增益或所述第二增益，分别确定所述第一目标参数的第一加权系数和所述第二目标参数的第二加权系数，包括：

以所述第一增益作为所述第二加权系数，以1与所述第一增益的差作为所述第一加权系数；或者

以所述第二增益作为所述第二加权系数，以1与所述第二增益的差作为所述第一加权系数。

4.根据权利要求1所述的方法，其特征在于，所述获取样本语音对应的第一增益和第二增益之前，所述方法还包括：

获取所述样本语音所对应音频帧的频域表达；以及

获取所述样本语音所包含纯净语音所对应音频帧的频域表达，所述频域表达为功率谱或幅度谱；

根据样本语音所对应音频帧的频域表达和所述纯净语音所对应音频帧的频域表达，计算得到所述样本语音中各音频帧对应的所述第二增益。

5.根据权利要求4所述的方法，其特征在于，所述获取所述样本语音所对应音频帧的频域表达之前，所述方法还包括：

获取所述样本语音的时域信号；

对所述样本语音的时域信号进行分帧，得到所述样本语音的各音频帧；

分别对所述样本语音的各音频帧进行时频变换，得到所述样本语音中各音频帧的频域表达。

6.根据权利要求5所述的方法，其特征在于，所述获取所述样本语音所包含纯净语音所对应音频帧的频域表达之前，所述方法还包括：

获取所述样本语音所包含干扰信号的时域信号；

根据所述样本语音的时域信号和所述样本语音所包含干扰信号的时域信号，确定所述样本语音所包含纯净语音的时域信号；

按照对样本语音的时域信号所进行的分帧，对所述纯净语音的时域信号进行分帧，得到所述纯净语音的各音频帧；

对所述纯净语音的各音频帧进行时频变换，得到所述纯净语音中各音频帧的频域表达。

7.一种语音增强处理方法，其特征在于，通过如权利1-6中任一项的方法所训练得到的语音模型对待处理语音信号进行增强处理。

8.一种语音模型的训练装置，其特征在于，所述语音模型用于对语音信号进行增强处理，所述装置包括：

9.一种电子设备，其特征在于，包括:

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，实现如权利要求1-7中任一项所述的方法。