CN115410594A

CN115410594A - 语音增强方法和装置

Info

Publication number: CN115410594A
Application number: CN202211073000.5A
Authority: CN
Inventors: 许成林; 陈联武; 张旭; 任新蕾; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-29
Anticipated expiration: 2042-09-02
Also published as: CN115410594B

Abstract

本公开关于一种语音增强方法和装置。该语音增强方法包括：获取待处理的含噪声的语音信号；将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱；对宽带增强幅度谱和高频幅度谱进行高频增强处理，得到高频增强幅度谱；对宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。本公开解决了全频带语音增强处理不能兼容宽带语音增强处理的问题。

Description

语音增强方法和装置

技术领域

本公开涉及计算机技术领域，特别涉及一种语音增强方法和装置。

背景技术

随着5G网络的发展，网络的传输速率和带宽得到了大大的提高，这也让高质量的实时音视频通讯成为了可能。为了满足用户对高音质的追求，音频的采样率已经从16kHz(宽带)扩展到了32kHz(超宽带)，甚至48kHz(全频带)。因此，相关技术中针对全频带语音部署了全频带语音增强系统。

然而，相关技术中针对全频带语音部署了全频带语音增强系统，部署的全频带语音增强系统与部署的宽带语音增强系统是相对独立的，这样的部署方式存在全频带语音增强处理不能兼容宽带语音增强处理的问题。

发明内容

本公开提供一种语音增强方法和装置，以至少解决了全频带语音增强处理不能兼容宽带语音增强处理的问题。

根据本公开实施例的一方面，提供一种语音增强方法，所述语音增强方法包括：

获取待处理的含噪声的语音信号；

将所述含噪声的所述语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；

对所述宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱；

对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理，得到高频增强幅度谱；

对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号。

在一种可能实施方式中，

所述对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理，包括：

利用高频增强模型对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理；

其中，所述高频增强模型的训练方法包括：

获取多个说话对象的第一训练样本，以及对应的样本参考高频幅度谱，其中，所述第一训练样本包括每个所述说话对象的样本宽带增强幅度谱和样本高频幅度谱；所述样本宽带增强幅度谱和所述样本高频幅度谱是基于对应的所述说话对象的含噪声语音信号的全频带语音幅度谱确定的，所述样本参考高频幅度谱根据每个所述说话对象对应的纯净语音信号确定的；

利用所述高频增强模型对每个所述说话对象的所述样本高频幅度谱和所述样本宽带增强幅度谱进行高频增强处理，得到每个所述说话对象的样本高频增强幅度谱；

基于每个所述说话对象的所述样本高频增强幅度谱和所述样本参考高频幅度谱之间的差异，实现对所述高频增强模型的训练。

在一种可能实施方式中，

所述对所述宽带幅度谱进行宽带增强处理，包括：

利用宽带增强模型对所述宽带幅度谱进行宽带增强处理；

其中，所述宽带增强模型的训练方法包括：

获取多个说话对象的第二训练样本，以及对应的样本参考宽带幅度谱，其中，所述第二训练样本包括每个所述说话对象的样本宽带幅度谱；

利用所述宽带增强模型对所述样本宽带幅度谱进行宽带增强处理，得到每个所述说话对象的样本宽带增强幅度谱；

基于每个所述说话对象的所述样本参考宽带幅度谱和所述样本宽带增强幅度谱之间的差异，实现对所述宽带增强模型的训练。

在一种可能实施方式中，

所述宽带增强模型包括：第一频域增强模型、第二频域增强模型和融合模型，其中，所述第一频域增强模型和第二频域增强模型为已完成训练的模型；所述第一频域增强模型基于时序卷积网络建立；所述第二频域增强模型基于卷积循环网络建立；

所述利用所述宽带增强模型对所述样本宽带幅度谱进行宽带增强处理，得到每个所述说话对象的样本宽带增强幅度谱，包括：

利用所述第一频域增强模型和所述第二频域增强模型对所述样本宽带幅度谱分别进行频域增强处理，得到每个所述说话对象的样本第一频域增强幅度谱和样本第二频域增强幅度谱；

利用所述融合模型对所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱进行融合处理，得到所述样本宽带增强幅度谱。

在一种可能实施方式中，

所述第一频域增强模型基于第一频域增强损失函数进行训练；

所述第一频域增强损失函数是基于每个所述说话对象的所述样本第一频域增强幅度谱，以及对应的所述样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定的，其中，所述样本第一增强时域信号是基于所述样本第一频域增强幅度谱确定的，所述样本参考时域信号是基于对应的纯净语音信号确定的；

所述第二频域增强模型基于第二频域增强损失函数进行训练；

所述第二频域增强损失函数是基于每个所述说话对象的所述样本第二频域增强幅度谱，以及对应的所述样本参考宽带幅度谱、所述样本参考时域信号和样本第二增强时域信号确定的；其中，所述样本第二增强时域信号是基于所述样本第二频域增强幅度谱确定的。

在一种可能实施方式中，

所述基于每个所述说话对象的所述样本参考宽带幅度谱和所述样本宽带增强幅度谱之间的差异，实现对所述宽带增强模型的训练，包括：

确定用于表征每个所述说话对象的所述样本参考宽带幅度谱和所述样本宽带增强幅度谱之间的差异的融合增强损失函数；

基于所述融合增强损失函数训练所述融合模型；

其中，所述融合增强损失函数是基于每个所述说话对象的所述样本宽带增强幅度谱，以及对应的所述样本参考宽带幅度谱、所述样本参考时域信号和样本第三增强时域信号确定的；其中，所述样本第三增强时域信号是基于所述样本宽带增强幅度谱确定的，所述样本参考时域信号是基于对应的纯净语音信号确定的。

在一种可能实施方式中，

所述利用所述融合模型对所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱进行融合处理，得到所述样本宽带增强幅度谱，包括：

将所述样本宽带幅度谱、所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱划分为多个子带；

基于所述样本宽带幅度谱、所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱，确定每个所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱分别对应的所述子带的子带权重；其中，所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱对应的同一所述子带的子带权重的和为1；

在时间维度上对每个所述子带权重进行平滑处理；

基于每个平滑处理后的所述子带的所述子带权重，以及多个所述子带分别对应的所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱，确定所述样本宽带增强幅度谱。

在一种可能实施方式中，

所述对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号，包括：

基于所述宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱；

对所述目标说话对象的所述潜在语音宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号。

在一种可能实施方式中，

所述基于所述宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱获取多个标定说话对象的标定语音信号；

在多个所述标定说话对象中确定所述目标说话对象；

根据被确定为所述目标说话对象的所述标定说话对象的所述标定语音信号确定所述目标说话对象的所述标定语音信号；

对所述目标说话对象的所述标定语音信号和所述宽带增强幅度谱进行幅度谱提取处理，得到所述目标说话对象的样本潜在语音宽带增强幅度谱。

在一种可能实施方式中，

所述对所述目标说话对象的所述标定语音信号和所述宽带增强幅度谱进行幅度谱提取处理，包括：

利用说话对象幅度谱提取模型对所述目标说话对象的所述标定语音信号和所述宽带增强幅度谱进行幅度谱提取处理；

其中，所述说话对象幅度谱提取模型的训练方法包括：

获取多个所述标定说话对象的第三训练样本，以及样本参考宽带幅度谱；其中，所述第三训练样本包括每个所述标定说话对象的样本宽带增强幅度谱和样本语音信号；

利用所述说话对象幅度谱提取模型对每个所述标定说话对象的样本语音信号和样本宽带增强幅度谱进行幅度谱提取处理，得到每个所述标定说话对象的样本潜在语音宽带增强幅度谱；

根据每个所述标定说话对象的所述样本潜在语音宽带增强幅度谱，以及对应的所述样本参考宽带幅度谱之间的差异，实现对所述说话对象幅度谱提取模型的训练。

在一种可能实施方式中，

所述说话对象幅度谱提取模型包括：说话对象声纹提取模型和标定说话对象提取模型；所述说话对象声纹提取模型为初步完成训练的模型；

所述利用所述说话对象幅度谱提取模型对每个所述标定说话对象的样本语音信号和样本宽带增强幅度谱进行幅度谱提取处理，得到每个所述标定说话对象的样本潜在语音宽带增强幅度谱，包括：

利用所述说话对象声纹提取模型对每个所述标定说话对象的样本语音信号进行编码处理，得到每个所述标定说话对象的说话对象声纹；

利用所述标定说话对象提取模型对每个所述标定说话对象的说话对象声纹和所述宽带增强幅度谱进行幅度谱提取处理，得到每个所述标定说话对象的所述样本潜在语音宽带增强幅度谱。

在一种可能实施方式中，

所述说话对象声纹提取模型基于第一交叉熵损失函数进行训练；

其中，所述第一交叉熵损失函数是基于每条所述说话对象声纹对应的身份预测概率以及所述每条说话对象声纹对应的说话对象的真实身份的标签确定的，所述身份预测概率是利用分类器对每个所述标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的；所述分类器基于所述第一交叉熵损失函数进行训练。

在一种可能实施方式中，

所述每个所述标定说话对象的所述样本潜在语音宽带增强幅度谱，以及对应的所述样本参考宽带幅度谱之间的差异通过第二交叉熵损失函数和标定说话对象提取损失函数表征；

其中，所述标定说话对象提取损失函数是基于样本增强时域信号、样本参考时域信号、所述样本潜在语音宽带增强幅度谱和对应的所述样本参考宽带幅度谱、样本宽带幅度谱，以及训练完成的分类器确定的；其中，所述样本增强时域信号是根据所述样本潜在语音宽带增强幅度谱确定的；

所述第二交叉熵损失函数是基于每条所述说话对象声纹对应的身份预测概率以及所述每条说话对象声纹对应的说话对象的真实身份的标签确定的，所述身份预测概率是利用分类器对每个所述标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的。

根据本公开实施例的另一方面，提供一种语音增强装置，所述语音增强装置包括：

获取单元，被配置为执行获取待处理的含噪声的语音信号；

划分单元，被配置为执行将所述待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；

第一处理单元，被配置为执行对所述宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱；

第二处理单元，被配置为执行对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理，得到高频增强幅度谱；

第三处理单元，被配置为执行对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号。

根据本公开实施例的另一方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现上述任一实施方式所述的语音增强方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现上述任一实施方式所述的语音增强方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施方式所述的语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过将含噪声的语音信号的语音幅度谱划分为高频幅度谱和宽带幅度谱；对宽带幅度谱进行宽带增强处理，获得宽带增强幅度谱；对获取的宽带增强幅度谱和高频幅度谱进行高频增强处理，获得高频增强幅度谱，再将高频增强幅度谱和宽带增强幅度谱融合，获得含噪声的语音信号的全频带增强语音信号。本公开实施例中在全频带增强语音信号的获取过程中包括宽带增强语音信号的获取，即兼容了宽带语音增强的处理。该语音增强方法解决了全频带语音增强处理不能兼容宽带语音增强处理的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音增强方法的实施环境示意图；

图2是根据一示意性实施例示出的一种语音增强方法示意图；

图3是根据一示意性实施例示出的一种基于模型的语音增强方法的示意图；

图4是根据一示意性实施例示出的一种语音增强模型训练结构示意图；

图5是根据一示意性实施例示出的一种语音增强模型结构示意图；

图6是根据一示意性实施例示出的一种宽带增强训练模型结构示意图；

图7是根据一示意性实施例示出的一种宽带增强模型结构示意图；

图8是根据一示意性实施例示出的一种个性化的语音增强方法的示意图；

图9是根据一示意性实施例示出的一种基于标定说话对象的个性化的语音增强方法示意图；

图10是根据一示意性实施例示出的一种基于模型的个性化的语音增强方法示意图；

图11是根据一示意性实施例示出的一种个性化语音增强模型训练结构示意图；

图12是根据一示意性实施例示出的一种个性化语音增强模型结构示意图；

图13是根据一示意性实施例示出的一种说话对象幅度谱提取模型训练结构示意图；

图14是根据一示意性实施例示出的一种说话对象幅度谱提取模型结构示意图；

图15是根据一示意性实施例示出的一种个性化的多模型语音增强模型训练结构示意图；

图16是根据一示意性实施例示出的一种个性化的多模型语音增强模型结构示意图；

图17是根据一示意性实施例示出的一种语音增强装置的逻辑结构框图；

图18是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术的全频带语音增强系统多采用深度神经网络的方法，在训练阶段，通过加噪和加混响的数据模拟方法，能够得到带噪语音和它对应的干净语音。通过采用有监督的训练方式，我们能够得到训练好的深度神经网络模型。在推理阶段，训练好的模型以实时采集的语音数据为输入，并过滤掉混响和环境噪声。

基于上述的全频带语音增强系统的实现方式，全频带语音增强系统与宽带语音增强系统是相对独立的，存在全频带语音增强技术不能兼容宽带语音后端的相关处理，如宽带语音识别系统，而且全频带的语音增强系统也不能处理宽带的音频输入的问题。这样导致维护多个系统的成本和代价都会十分庞大。

有鉴于此，本公开实施例中提出一种语音增强方法。基于分频带处理技术，将待处理的含噪声的语音信号划分为高频部分和宽带部分，通过两部分的增强处理结果融合获得全频带的语音信号，全频带语音增强处理兼容了宽带语音增强处理，即对宽带部分的处理；解决了全频带语音增强系统与宽带语音增强系统是相对独立的，存在全频带语音增强技术不能兼容宽带语音后端的相关处理的问题。

并且给出了利用模型进行语音增强处理的实现方式，将宽带部分通过宽带增强模型处理获得宽带增强结果，将宽带增强结果和高频部分输入高频增强模型，获得高频增强结果，将宽带增强结果和高频增强结果融合，最终实现全频带语音增强，能够使全频带语音增强系统在兼容宽带语音增强系统的基础上建立，进而解决了全频带语音增强技术不能兼容宽带语音后端的相关处理的问题。

图1是根据一示例性实施例示出的一种语音增强方法的实施环境示意图，参见图1，在该实施环境中可以包括服务器101和终端102，下面进行详述。

在一个可选实施例中，服务器101可以是独立的物理服务器，也可以是多个物理服务器组成的服务器集群或者分布式系统。终端102可以是一个也可以是多个，终端102不限于手机、个人计算机等设备。

终端102可以用于向服务器101发送待处理的含噪声的语音信号。

服务器101响应于终端102发送的待处理的含噪声的语音信号，开始对语音信号进行语音增强处理；处理时先将含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱；对宽带增强幅度谱和高频幅度谱进行高频增强处理，得到高频增强幅度谱；对宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

服务器101在进行语音增强处理获取全频带语音增强信号的同时，也可以获取宽带增强幅度谱，在向客户端102响应全频带语音增强信号时，可以根据客户端的需求确定是否响应宽带增强幅度谱，具体使用时，可以根据实际应用场景设置。

本地服务器101可以通过有线或无线通信方式与服务器102进行直接或间接地连接，本公开实施例对此不进行限定。

服务器101在处理待处理的含噪声的语音信号之前，还可以训练宽带增强模型、高频增强模型和说话对象幅度谱提取模型来进行语音增强处理。

图2是根据一示意性实施例示出的一种语音增强方法示意图。参见图2所示，该语音增强方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤201中，获取待处理的含噪声的语音信号。

在步骤202中，将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在步骤203中，对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱。

在步骤204中，对宽带增强幅度谱和高频幅度谱进行高频增强处理，得到高频增强幅度谱。

在步骤205中，对宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

其中，对宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号，包括：

对宽带增强幅度谱和高频增强幅度谱进行合并、后处理和逆傅里叶变换处理，得到待处理的含噪声的语音信号的全频带增强语音信号。

其中对宽带增强幅度谱和高频增强幅度谱的合并、后处理和逆傅里叶变换处理，可以通过下式表示，但不限于下式实现方式：

其中，iSTFT表示逆傅立叶变换(invert short time Fourier transform)，post(·)表示后处理，concat(·)表示频谱合并操作，

为宽带增强幅度谱，

为高频增强幅度谱。

该实施例中通过将含噪声的语音信号的语音幅度谱划分为高频幅度谱和宽带幅度谱；对宽带幅度谱进行宽带增强处理，获得宽带增强幅度谱；对获取的宽带增强幅度谱和高频幅度谱进行高频增强处理，获得高频增强幅度谱，再将高频增强幅度谱和宽带增强幅度谱融合，获得含噪声的语音信号的全频带增强语音信号。本公开实施例中在全频带增强语音信号的获取过程中包括宽带增强语音信号的获取，即兼容了宽带语音增强的处理。该语音增强方法解决了全频带语音增强处理不能兼容宽带语音增强处理的问题。

图3是根据一示意性实施例示出的一种基于模型的语音增强方法的示意图。参见图3所示，该语音增强方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤301中，获取待处理的含噪声的语音信号。

在步骤302中，将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在步骤303中，利用宽带增强模型对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱。

在步骤304中，利用高频增强模型对宽带增强幅度谱和高频幅度谱进行高频增强处理。

在步骤305中，对宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

为宽带增强幅度谱，

为高频增强幅度谱。

该实施例中通过将含噪声的语音信号的语音幅度谱划分为高频幅度谱和宽带幅度谱；利用宽带增强模型对宽带幅度谱进行宽带增强处理，获得宽带增强幅度谱；利用高频增强模型对获取的宽带增强幅度谱和高频幅度谱进行高频增强处理，获得高频增强幅度谱，再将高频增强幅度谱和宽带增强幅度谱融合，获得含噪声的语音信号的全频带增强语音信号。本公开实施例中在全频带增强语音信号的获取过程中包括利用宽带增强模型获取宽带增强语音信号，即兼容了宽带语音增强的处理。把宽带增强模型的输出和高频部分作为高频增强模型的输入，最终实现全频带语音增强，解决了全频带语音增强系统与宽带语音增强系统是相对独立的，存在全频带语音增强技术不能兼容宽带语音后端的相关处理的问题。

其中，使用的高频增强模型的训练方法包括：

获取多个说话对象的第一训练样本，以及对应的样本参考高频幅度谱，其中，第一训练样本包括每个说话对象的样本宽带增强幅度谱和样本高频幅度谱；样本宽带增强幅度谱和样本高频幅度谱是基于对应的说话对象的含噪声语音信号的全频带语音幅度谱确定的，样本参考高频幅度谱根据每个说话对象对应的纯净语音信号确定的；

利用高频增强模型对每个说话对象的样本高频幅度谱和样本宽带增强幅度谱进行高频增强处理，得到每个说话对象的样本高频增强幅度谱；

基于每个说话对象的样本高频增强幅度谱和样本参考高频幅度谱之间的差异，实现对高频增强模型的训练。

在一些示例中，

基于每个说话对象的样本高频增强幅度谱和样本参考高频幅度谱之间的差异，通过高频增强损失函数表征；

其中，高频增强损失函数的具体计算方式可以为：

确定样本高频增强幅度谱和样本参考高频幅度谱之间的第四幅度谱损失；

根据样本参考高频幅度谱和对应的样本高频幅度谱，确定第四幅度谱损失对应的第四损失权重；

根据第四幅度谱损失和第四损失权重，确定高频增强损失函数的值。

其中使用的宽带增强模型的训练方法包括：

获取多个说话对象的第二训练样本，以及对应的样本参考宽带幅度谱，其中，第二训练样本包括每个说话对象的样本宽带幅度谱；

利用宽带增强模型对样本宽带幅度谱进行宽带增强处理，得到每个说话对象的样本宽带增强幅度谱；

基于每个说话对象的样本参考宽带幅度谱和样本宽带增强幅度谱之间的差异，实现对宽带增强模型的训练。

图4是根据一示意性实施例示出的一种语音增强模型训练结构示意图。图4中示出了高频增强模型和宽带增强模型，在宽带增强模型训练完成后，再对高频增强模型进行训练。

在训练宽带增强模型时使用的第一训练样本和训练高频增强模型时使用的第二训练样本可以是相同的训练样本，也可以是不同的训练样本，图4中以相同的训练样本为例，统称为训练样本。

具体训练过程如下：

第一步、获取多个说话对象的训练样本，其中，训练样本包括每个说话对象的样本宽带幅度谱和样本高频幅度谱。

其中，样本宽带幅度谱和样本高频幅度谱是基于对应的说话对象的含噪声语音信号的全频带语音幅度谱确定的。

第二步、利用宽带增强模型对样本宽带幅度谱进行宽带语音增强处理，得到每个说话对象的样本宽带增强幅度谱。

第三步、基于每个说话对象的样本参考宽带幅度谱和样本宽带增强幅度谱，确定宽带增强损失函数的值，其中，每个说话对象的样本参考宽带幅度谱是基于对应的说话对象的纯净语音信号确定的。

第四步、基于宽带增强损失函数的值调整宽带增强模型的参数，以实现对宽带增强模型的训练。

第五步、利用高频增强模型对每个说话对象的样本高频幅度谱和在样本宽带语音增强模型训练完成之后得到的样本宽带增强幅度谱进行高频语音增强处理，得到每个说话对象的样本高频增强幅度谱。

第六步、基于每个说话对象的样本高频增强幅度谱和样本参考高频幅度谱，确定高频增强损失函数的值，其中，每个说话对象的样本参考高频幅度谱是基于对应的说话对象的纯净语音信号确定的。

第七步、基于高频增强损失函数的值调整高频增强模型的参数，以实现对高频增强模型的训练。

至此，完成了宽带增强模型和高频增强模型的训练，训练完成的语音增强模型可以输出高频增强幅度谱和宽频增强幅度谱。

图5是根据一示意性实施例示出的一种语音增强模型结构示意图。图5是基于图4训练后的模型，基于图5所示的模型可以进行如下语音增强处理：

将待处理的含噪声的语音信号的宽带幅度谱输入宽带增强模型，获得宽带增强幅度谱；

将待处理的含噪声的语音信号的高频幅度谱和获得的宽带增强幅度谱输入高频增强模型，获得高频增强幅度谱；

获得的高频增强幅度谱和宽带增强幅度谱可以用于进行融合处理获得全频带语音增强信号。

本公开实施例中的语音增强模型可以同时获得宽带增强幅度谱和高频增强幅度谱，进而兼容了宽带增强模型，在输入的时候，也可以只输入宽带幅度谱，通过该语音增强模型同样可以得到宽带增强幅度谱。

在一些示例中，

可以采用分频带技术将语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在一些示例中，

宽带增强模型包括：第一频域增强模型、第二频域增强模型和融合模型，其中，第一频域增强模型和第二频域增强模型为已完成训练的模型；第一频域增强模型基于时序卷积网络建立；第二频域增强模型基于卷积循环网络建立；

利用宽带增强模型对样本宽带幅度谱进行宽带增强处理，得到每个说话对象的样本宽带增强幅度谱，包括：

利用第一频域增强模型和第二频域增强模型对样本宽带幅度谱分别进行频域增强处理，得到每个说话对象的样本第一频域增强幅度谱和样本第二频域增强幅度谱；

利用融合模型对样本第一频域增强幅度谱和样本第二频域增强幅度谱进行融合处理，得到样本宽带增强幅度谱。

在一些示例中，

第一频域增强模型基于第一频域增强损失函数进行训练；

第一频域增强损失函数是基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定的，其中，样本第一增强时域信号是基于样本第一频域增强幅度谱确定的，样本参考时域信号是基于对应的纯净语音信号确定的；

第二频域增强模型基于第二频域增强损失函数进行训练；

第二频域增强损失函数是基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定的；其中，样本第二增强时域信号是基于样本第二频域增强幅度谱确定的。

在一些示例中，

基于每个说话对象的样本参考宽带幅度谱和样本宽带增强幅度谱之间的差异，实现对宽带增强模型的训练，包括：

确定用于表征每个说话对象的样本参考宽带幅度谱和样本宽带增强幅度谱之间的差异的融合增强损失函数；

基于融合增强损失函数训练融合模型；

其中，融合增强损失函数是基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定的；其中，样本第三增强时域信号是基于样本宽带增强幅度谱确定的，样本参考时域信号是基于对应的纯净语音信号确定的。

图6是根据一示意性实施例示出的一种宽带增强训练模型结构示意图。

图6中基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定第一频域增强损失函数训练，通过第一频域增强损失函数对第一频域增强模型进行训练；

其中，第一频域增强损失函数的具体计算方式为：

确定样本第一增强时域信号和样本参考时域信号之间的尺度不变的第一信失比；

确定样本第一频域增强幅度谱和样本参考宽带幅度谱之间的第一幅度谱损失；

根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第一幅度谱损失对应的第一损失权重；

根据第一信失比、第一幅度谱损失和第一损失权重，确定第一频域增强损失函数的值。

图6中，基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定第二频域增强损失函数，通过第二频域增强损失函数对第二频域增强模型进行训练；

其中，第二频域增强损失函数的具体计算方式为：

确定样本第二增强时域信号和样本参考时域信号之间的尺度不变的第二信失比；

确定样本第二频域增强幅度谱和样本参考宽带幅度谱之间的第二幅度谱损失；

根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第二幅度谱损失对应的第二损失权重；

根据第二信失比、第二幅度谱损失和第二损失权重，确定第二频域增强损失函数的值。

图6中，基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定融合增强损失函数，通过融合增强损失函数对融合模型进行训练；

其中，融合增强损失函数的具体计算方式为：

确定样本第三增强时域信号和样本参考时域信号之间的尺度不变的第三信失比；

确定样本宽带增强幅度谱和样本参考宽带幅度谱之间的第三幅度谱损失；

根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第三幅度谱损失对应的第三损失权重；

根据第三信失比、第三幅度谱损失和第三损失权重，确定融合增强损失函数的值。

在一些示例中，

利用融合模型对样本第一频域增强幅度谱和样本第二频域增强幅度谱进行融合处理，得到样本宽带增强幅度谱，包括：

将样本宽带幅度谱、样本第一频域增强幅度谱和样本第二频域增强幅度谱划分为多个子带；

基于样本宽带幅度谱、样本第一频域增强幅度谱和样本第二频域增强幅度谱，确定每个样本第一频域增强幅度谱和样本第二频域增强幅度谱分别对应的子带的子带权重；其中，样本第一频域增强幅度谱和样本第二频域增强幅度谱对应的同一子带的子带权重的和为1；

在时间维度上对每个子带权重进行平滑处理；

基于每个平滑处理后的子带的子带权重，以及多个子带分别对应的样本第一频域增强幅度谱和样本第二频域增强幅度谱，确定样本宽带增强幅度谱。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图7是根据一示意性实施例示出的一种宽带增强模型结构示意图。图7是图6在模型训练完成后，进行语音增强时的一种宽带增强模型。具体语音增强过程如下：

将待处理的含噪声的语音信号的语音幅度谱对应的宽带幅度谱分别输入到第一频域增强模型和第二频域增强模型，分别获得第一频域增强幅度谱和第二频域增强幅度谱；

将第一频域增强幅度谱和第二频域增强幅度谱输入到融合模型，获得宽带增强幅度谱。

由于音频采集过程中往往会采集到环境噪声和干扰人声，音视频通讯系统往往使用非个性化的语音增强技术去除掉采集到的环境噪声等，保留了所有的语音部分，包括干扰人声。然而，干扰人声的存在，导致了比较差的实时音视频通讯体验。

为了去除干扰人声的影响，个性化语音增强技术首先从预先注册的标定说话对象语音中学习到描述标定说话对象特性的特征向量，随后在该特征向量的帮助下从多说话对象带噪语音中提取出标定说话对象的声音，从而去除掉干扰人声。当用户能够配合预先录制一段语音作为标定说话对象语音，实时音视频系统可以使用个性化语音增强系统同时去掉环境噪声和干扰人声。如果用户无法预先录制一段语音，实时音视频系统只能采用非个性化的语音增强系统。

其中的标定说话对象，即针对说话对象录制了信噪比较高的单个人说话的语音。

为了满足以上需求，实时音视频系统需要同时维护非个性化和个性化语音增强系统，并且高采样率的语音增强系统也需要兼容使用低采样率的下游语音处理系统，比如，语音识别。然而，现有的个性化全频带语音增强系统与个性化全频带语音增强系统是相对独立的，而且全频带的语音增强系统无法兼容宽带的语音识别系统，维护多个独立系统的成本和代价将会十分庞大。

基于此，本公开实施例还提供一种模块化可扩展的全频带的语音增强模型训练方法和可扩展的语音增强方法，该方法能够满足非个性化和个性化语音增强的需求，同时能够兼容相关技术的宽带语音的相关处理，如语音识别等。

图8是根据一示意性实施例示出的一种个性化的语音增强方法的示意图。参见图8所示，该语音增强方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤801中，获取待处理的含噪声的语音信号。

在步骤802中，将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在步骤803中，对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱。

在步骤804中，对宽带增强幅度谱和高频幅度谱进行高频增强处理，得到高频增强幅度谱。执行步骤806。

在步骤805中，基于宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱。

在步骤806中，对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

其中，对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号，包括：

对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行合并、后处理和逆傅里叶变换处理，得到待处理的含噪声的语音信号的全频带增强语音信号。

其中，对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行合并、后处理和逆傅里叶变换处理可以通过下式实现，但不限于下式：

为目标说话对象的样本潜在语音宽带增强幅度谱，

为高频增强幅度谱。

该实施例中通过将含噪声的语音信号的语音幅度谱划分为高频幅度谱和宽带幅度谱；对宽带幅度谱进行宽带增强处理，获得宽带增强幅度谱；对获取的宽带增强幅度谱和高频幅度谱进行高频增强处理，获得高频增强幅度谱，再基于宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱；最后，将目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，获得目标说话对象的含噪声的语音信号的全频带增强语音信号。本公开实施例中在全频带增强语音信号的获取过程中包括宽带增强语音信号的获取，即兼容了宽带语音增强的处理。该语音增强方法解决了全频带语音增强处理不能兼容宽带语音增强处理的问题；并且通过增加目标说话对象的语音信号对宽带增强幅度谱进一步提取，获取潜在语音宽带增强幅度谱再进行融合处理，能够将个性化和非个性化语音增强相兼容。

图9是根据一示意性实施例示出的一种基于标定说话对象的个性化的语音增强方法示意图。参见图9所示，该语音增强方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤901中，获取待处理的含噪声的语音信号。

在步骤902中，将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在步骤903中，对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱。

在步骤904中，对宽带增强幅度谱和高频幅度谱进行高频增强处理，得到高频增强幅度谱。执行步骤908。

在步骤905中，获取多个标定说话对象的标定语音信号，并在多个标定说话对象中确定目标说话对象。

在步骤906中，根据被确定为目标说话对象的标定说话对象的标定语音信号确定目标说话对象的标定语音信号。

在步骤907中，对目标说话对象的标定语音信号和宽带增强幅度谱进行幅度谱提取处理，得到目标说话对象的样本潜在语音宽带增强幅度谱。

在步骤908中，对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

在一些示例中，

步骤908中对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号，包括：

在一些示例中，

步骤904中对宽带增强幅度谱和高频幅度谱进行高频增强处理，包括：

利用高频增强模型对宽带增强幅度谱和高频幅度谱进行高频增强处理；

其中，高频增强模型的训练方法包括：

在一些示例中，

步骤903中，对宽带幅度谱进行宽带增强处理，包括：

利用宽带增强模型对宽带幅度谱进行宽带增强处理；

其中，宽带增强模型的训练方法包括：

在一些示例中，

第一频域增强模型基于第一频域增强损失函数进行训练；

第二频域增强模型基于第二频域增强损失函数进行训练；

在一些示例中，

基于融合增强损失函数训练融合模型；

在一些示例中，

在时间维度上对每个子带权重进行平滑处理；

在一些示例中，

步骤907中对目标说话对象的标定语音信号和宽带增强幅度谱进行幅度谱提取处理，包括：

利用说话对象幅度谱提取模型对目标说话对象的标定语音信号和宽带增强幅度谱进行幅度谱提取处理；

其中，说话对象幅度谱提取模型的训练方法包括：

获取多个标定说话对象的第三训练样本，以及样本参考宽带幅度谱；其中，第三训练样本包括每个标定说话对象的样本宽带增强幅度谱和样本语音信号；

利用说话对象幅度谱提取模型对每个标定说话对象的样本语音信号和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱；

根据每个标定说话对象的样本潜在语音宽带增强幅度谱，以及对应的样本参考宽带幅度谱之间的差异，实现对说话对象幅度谱提取模型的训练。

在一些示例中，

说话对象幅度谱提取模型包括：说话对象声纹提取模型和标定说话对象提取模型；说话对象声纹提取模型为初步完成训练的模型；

利用说话对象幅度谱提取模型对每个标定说话对象的样本语音信号和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱，包括：

利用说话对象声纹提取模型对每个标定说话对象的样本语音信号进行编码处理，得到每个标定说话对象的说话对象声纹；

利用标定说话对象提取模型对每个标定说话对象的说话对象声纹和宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

在一些示例中，

说话对象声纹提取模型基于第一交叉熵损失函数进行训练；

其中，第一交叉熵损失函数是基于每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签确定的，身份预测概率是利用分类器对每个标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的；分类器基于第一交叉熵损失函数进行训练。

在一些示例中，

每个标定说话对象的样本潜在语音宽带增强幅度谱，以及对应的样本参考宽带幅度谱之间的差异通过第二交叉熵损失函数和标定说话对象提取损失函数表征；

其中，标定说话对象提取损失函数是基于样本增强时域信号、样本参考时域信号、样本潜在语音宽带增强幅度谱和对应的样本参考宽带幅度谱、样本宽带幅度谱，以及训练完成的分类器确定的；其中，样本增强时域信号是根据样本潜在语音宽带增强幅度谱确定的；

第二交叉熵损失函数是基于每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签确定的，身份预测概率是利用分类器对每个标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的。

图10是根据一示意性实施例示出的一种基于模型的个性化的语音增强方法示意图。参见图10所示，该语音增强方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤1001中，获取待处理的含噪声的语音信号。

在步骤1002中，将待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱。

在步骤1003中，利用宽带增强模型对宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱。

在步骤1004中，利用高频增强模型对宽带增强幅度谱和高频幅度谱进行高频增强处理。执行步骤1008。

在步骤1005中，获取多个标定说话对象的标定语音信号，并在多个标定说话对象中确定目标说话对象。

在步骤1006中，根据被确定为目标说话对象的标定说话对象的标定语音信号确定目标说话对象的标定语音信号；

在步骤1007中，利用说话对象幅度谱提取模型对目标说话对象的标定语音信号和宽带增强幅度谱进行幅度谱提取处理，得到目标说话对象的样本潜在语音宽带增强幅度谱。

在步骤1008中，对目标说话对象的样本潜在语音宽带增强幅度谱和高频增强幅度谱进行融合，根据融合结果得到待处理的含噪声的语音信号的全频带增强语音信号。

在一些示例中，

高频增强模型的训练方法包括：

在一些示例中，

其中，高频增强损失函数的具体计算方式可以为：

在一些示例中，

宽带增强模型的训练方法包括：

在一些示例中，

说话对象幅度谱提取模型的训练方法包括：

图11是根据一示意性实施例示出的一种个性化语音增强模型训练结构示意图。图11示出了高频增强模型、宽带增强模型和说话对象幅度谱提取模型，在宽带增强模型训练完成后，再对高频增强模型和说话对象幅度谱提取模型进行训练，其中，对高频增强模型和说话对象幅度谱提取模型的训练不分前后顺序。

在训练宽带增强模型时使用的第一训练样本和训练高频增强模型时使用的第二训练样本可以是相同的训练样本，也可以是不同的训练样本，图11中以相同的训练样本为例，统称为训练样本。

具体训练过程如下：

为了计算损失函数还需获取标定说话对象的含噪声语音信号对应的纯净语音信号。每个说话对象的含噪声语音信号和对应的纯净语音信号组成一个信号对。

至此，完成了包括宽带增强模型和高频增强模型的全频带的语音增强模型的训练，训练完成的语音增强模型可以输出高频增强幅度谱和宽频增强幅度谱，若仅输入样本宽频幅度谱，则只输出宽频增强幅度谱。

第八步，获取多个标定说话对象的样本语音信号。

标定说话对象的样本语音信号为信噪比较高的标定说话对象的单个人说话语音。

纯净语音信号是标定说话对象的样本语音信号对应的标定说话对象在含噪声语音信号中的标定说话对象的干净语音。

第九步、利用说话对象幅度谱提取模型对每个标定说话对象的样本语音信号、标定说话对象的标签和宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

第十步、根据每个标定说话对象的样本潜在语音宽带增强幅度谱，以及对应的参考宽带幅度谱确定说话对象幅度谱提取损失函数的值。

第十一步、根据说话对象幅度谱提取损失函数的值调整说话对象幅度谱提取模型的参数，以实现对说话对象幅度谱提取模型的训练。

第八步和第五步的实现部分先后顺序。

当说话对象幅度谱提取模型和高频增强模型训练完成时，兼容非个性化的个性化语音增强模型的训练完成。

在一些示例中，宽带增强模型包括：第一频域增强模型、第二频域增强模型和融合模型。

第二步中利用宽带增强模型对样本宽带幅度谱进行宽带语音增强处理，得到每个说话对象的样本宽带增强幅度谱，包括：

利用第一频域增强模型和第二频域增强模型对样本宽带幅度谱分别进行频域语音增强处理，得到每个说话对象的样本第一频域增强幅度谱和样本第二频域增强幅度谱；

利用融合模型对通过已完成训练的第一频域增强模型获取的样本第一频域增强幅度谱和通过已完成训练的第二频域增强模型获取的样本第二频域增强幅度谱进行融合处理，得到每个说话对象的样本宽带增强幅度谱；

利用高频增强模型对每个说话对象的样本高频幅度谱和在宽带语音增强模型训练完成之后得到的样本宽带增强幅度谱进行高频语音增强处理，得到每个说话对象的样本高频增强幅度谱，包括：

利用高频增强模型对每个说话对象的样本高频幅度谱和在融合模型训练完成之后得到的样本宽带增强幅度谱进行高频语音增强处理，得到每个说话对象的样本高频增强幅度谱。

在一些示例中，宽带增强损失函数包括：第一频域增强损失函数、第二频域增强损失函数和融合增强损失函数；

第三步中、基于每个说话对象的样本参考宽带幅度谱和样本宽带增强幅度谱，确定宽带增强损失函数的值，包括：

基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定第一频域增强损失函数的值；其中，样本第一增强时域信号是基于样本第一频域增强幅度谱确定的，样本参考时域信号是基于对应的纯净语音信号确定的；

基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定第二频域增强损失函数的值；其中，样本第二增强时域信号是基于样本第二频域增强幅度谱确定的；

基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定融合增强损失函数的值；其中，样本第三增强时域信号是基于宽带增强幅度谱确定的。

在一些示例中，

基于宽带增强损失函数的值调整宽带增强模型的参数，以实现对宽带增强模型的训练，包括：

基于第一频域增强损失函数的值调整第一频域增强模型的参数，以实现对第一频域增强模型的训练；

基于第二频域增强损失函数的值调整第二频域增强模型的参数，以实现对第二频域增强模型的训练；

基于融合增强损失函数的值调整融合增强模型的参数，以实现对融合增强模型的训练。

其中，基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定第一频域增强损失函数的值，包括：

根据第一信失比、第一幅度谱损失和第一损失权重，确定第一频域增强损失函数的值；

基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定第二频域增强损失函数的值，包括：

根据第二信失比、第二幅度谱损失和第二损失权重，确定第二频域增强损失函数的值；

基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定融合增强损失函数的值，包括：

在一些示例中，

第四步中，利用融合模型对样本第一频域增强幅度谱和样本第二频域增强幅度谱进行融合处理，得到样本宽带增强幅度谱，包括：

基于样本宽带幅度谱、样本第一频域增强幅度谱和样本第二频域增强幅度谱，确定每个样本第一频域增强幅度谱和样本第二频域增强幅度谱对应的子带的子带权重；其中，每个子带的样本第一频域增强幅度谱和样本第二频域增强幅度谱的子带权重的和为1；

使用指数滑动平均法在时间维度上对子带权重进行平滑；

基于每个平滑后的子带的子带权重，以及多个子带对应的样本第一频域增强幅度谱和样本第二频域增强幅度谱，确定样本宽带增强幅度谱。

在一些示例中，

第六步中、基于每个说话对象的样本高频增强幅度谱和样本参考高频幅度谱，确定高频增强损失函数的值，包括：

在一些示例中，说话对象幅度谱提取模型包括：说话对象声纹提取模型和标定说话对象提取模型；

第九步中，利用说话对象幅度谱提取模型对每个标定说话对象的样本语音信号、标定说话对象的标签和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱，包括：

利用标定说话对象提取模型对每个标定说话对象的说话对象声纹、标定说话对象的标签和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

在一些示例中，说话对象幅度谱提取模型还包括：分类器；

说话对象幅度谱提取损失函数包括：第一交叉熵损失函数和标定说话对象提取损失函数；

第十步中根据每个标定说话对象的样本潜在语音宽带增强幅度谱，以及对应的样本参考宽带幅度谱确定说话对象幅度谱提取损失函数的值，包括：

利用分类器对每个标定说话对象的多条说话对象声纹进行说话对象身份判别处理，得到估计的每条说话对象声纹对应的身份预测概率；根据每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签，确定第一交叉熵损失函数的值；

确定样本第四增强时域信号和样本参考时域信号之间的尺度不变的第四信失比；其中，第四增强时域信号是根据潜在语音宽带增强幅度谱确定的；

确定潜在语音宽带增强幅度谱和对应的样本参考宽带幅度谱之间的第五幅度谱损失；

根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第五幅度谱损失对应的第五损失权重；

根据初步训练完成的说话对象声纹提取模型和训练完成的分类器确定第二交叉熵损失函数的值；

根据第四信失比、第五幅度谱损失、第五损失权重和第二交叉熵损失函数的值确定标定说话对象提取损失函数的值；

根据说话对象幅度谱提取损失函数的值调整说话对象幅度谱提取模型的参数，以实现对说话对象幅度谱提取模型的训练，包括：

根据第一交叉熵损失函数的值调整分类器和说话对象声纹提取模型的参数，以实现对说话对象声纹提取模型的初步训练，以及对分类器的训练；

根据标定说话对象提取损失函数的值调整说话对象声纹提取模型和标定说话对象提取模型的参数，以实现对说话对象声纹提取模型和标定说话对象提取模型的训练。

在一些示例中，

利用标定说话对象提取模型对每个标定说话对象的说话对象声纹和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

在一些示例中，

说话对象声纹提取模型基于第一交叉熵损失函数进行训练；

在一些示例中，

图12是根据一示意性实施例示出的一种个性化语音增强模型结构示意图。图12是图11训练完成后的个性化语音增强模型，可以用于个性化语音增强模型，以及非个性化语音增强模型。

参见图12所示，将待处理的含噪声的语音信号的语音幅度谱对应的宽带幅度谱输入宽带增强模型，得到宽带增强幅度谱；

将待处理的含噪声的语音信号的语音幅度谱对应的高频增强幅度谱和得到的宽带增强幅度谱输入高频增强模型，得到高频增强幅度谱；

将宽带增强幅度谱，以及目标说话对象的语音信号输入说话对象幅度谱提取模型，得到目标说话对象的样本潜在语音宽带增强幅度谱。

图12所示的个性化语音增强模型可以获取宽带增强幅度谱、高频增强幅度谱，以及目标说话对象的样本潜在语音宽带增强幅度谱，可以根据需要获取需要的幅度谱，用于进行语音增强。

本公开实施例中通过将含噪声语音信号的全频带语音幅度谱划分为样本高频幅度谱和样本宽带幅度谱；基于利用宽带增强模型获取的样本宽带幅度谱对应的宽带增强幅度谱，以及参考宽带幅度谱训练宽带增强模型；待宽带增强模型训练完成后，使用训练完成的宽带增强模型获取的宽带增强幅度谱，以及样本高频增强幅度谱和参考高频增强幅度谱训练高频增强模型；并基于每个标定说话对象的样本语音信号和宽带增强幅度谱训练说话对象幅度谱提取模型。本公开实施例中的全频带的语音增强模型中兼容了宽带语音增强处理，以及个性化和非个性的全频带的语音增强模型，也可以输入宽带语音对应的宽带幅度谱获得宽带增强幅度谱。该语音增强模型训练方法能够解决全频带语音增强处理不能兼容宽带语音增强处理，而且全频带的语音增强模型不能处理宽带语音输入的问题，还解决了个性化语音增强模型和非个性化语音增强模型不能兼容的问题。

图13是根据一示意性实施例示出的一种说话对象幅度谱提取模型训练结构示意图。参见图13所示，对说话对象幅度谱提取模型的中的各模型训练过程如下：

第一步、获取多个标定说话对象的样本语音信号。

第二步、利用说话对象声纹提取模型对每个标定说话对象的样本语音信号进行编码处理，得到每个标定说话对象的说话对象声纹。

第三步、利用分类器对每个标定说话对象的说话对象声纹进行说话对象身份判别处理，得到估计的每条说话对象声纹对应的身份预测概率；根据每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签，确定第一交叉熵损失函数的值。

即第一交叉熵损失函数是基于每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签确定的，身份预测概率是利用分类器对每个标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的；分类器基于第一交叉熵损失函数进行训练。

第四步、根据第一交叉熵损失函数的值调整分类器和说话对象声纹提取模型的参数，以实现对说话对象声纹提取模型的初步训练，以及对分类器的训练。

第五步、利用标定说话对象提取模型对每个标定说话对象的说话对象声纹和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

第六步、确定每个标定说话对象的样本潜在语音宽带增强幅度谱，以及对应的样本参考宽带幅度谱之间的差异，该差异通过第二交叉熵损失函数和标定说话对象提取损失函数表征。

第二交叉熵损失函数的值，以及标定说话对象提取损失函数的值的具体计算方式如下：

确定样本第四增强时域信号和样本参考时域信号之间的尺度不变的第四信失比；其中，样本第四增强时域信号是根据潜在语音宽带增强幅度谱确定的；

确定样本潜在语音宽带增强幅度谱和对应的样本参考宽带幅度谱之间的第五幅度谱损失；

根据第四信失比、第五幅度谱损失、第五损失权重和第二交叉熵损失函数的值确定标定说话对象提取损失函数的值。

第七步、根据标定说话对象提取损失函数的值调整说话对象声纹提取模型和标定说话对象提取模型的参数，以实现对说话对象声纹提取模型和标定说话对象提取模型的训练。

图14是根据一示意性实施例示出的一种说话对象幅度谱提取模型结构示意图。图14是图13训练完成的说话对象幅度谱提取模型，用于进行潜在语音宽带增强幅度谱的提取，具体实现过程如下：

将目标说话对象的语音信号输入说话对象声纹提取模型，获得目标说话对象的说话对象声纹；

将获得的目标说话对象的说话对象声纹和宽带增强幅度谱输入标定说话对象提取模型获得目标说话对象的样本潜在语音宽带增强幅度谱。

图15是根据一示意性实施例示出的一种个性化的多模型语音增强模型训练结构示意图。图15中，针对宽带增强模型通过第二频域增强模型、第一频域增强模型和融合模型三个模型联合实现宽带增强，针对说话对象幅度谱提取模型通过说话对象声纹提取模型、标定说话对象提取模型和分类器三个模型联合实现标定说话对象幅度谱的提取。

下面结合图15给出兼容非个性化和个性化一体的多模型语音增强模型训练流程：

第一步、获取多个说话对象的训练样本，以及多个标定说话对象的样本语音信号。

其中，训练样本包括每个说话对象的样本宽带幅度谱和样本高频幅度谱；

样本宽带幅度谱和样本高频幅度谱是基于对应的说话对象的含噪声语音信号的全频带语音幅度谱确定的。

在训练过程中还会用到说话对象的含噪声语音信号对应的纯净语音信号，进行一些损失函数的值的计算；标定说话对象的样本语音信号为信噪比较高的标定说话对象的单个人说话语音；

以具体实例给出训练样本的获取过程：

使用成千上万个人的多条语音进行数据模拟，每个说话对象都构建了数百个数据对(y(t),s(t))，在兼容个性化语音增强的情况下，还需要增加标定说话对象预注册的一段语音和说话对象的标签，建立的多个数据对为说话对象预注册的一段语音和说话对象的标签；因此，针对兼容个性化和非个性化的语音增强训练模型获取的样本对应的数据对为(x(t),y(t),s(t),label)，其中，x(t)是信噪比(signal-to-noise ratio,SNR)较高的单个说话对象的语音信号，每个说话对象对应的y(t)既包括单个说话对象语音也包括多个说话对象重叠的不同SNR和不同RIR的含噪声的语音信号，s(t)是x(t)对应的说话对象在y(t)中的干净语音信号。label是该说话对象对应的标签。

针对数据对中的y(t)需要进行短时傅里叶变换：以单条语音y(t)的处理过程为例，将原始音频信号通过短时傅里叶变换转到时频域。若长度为T的原始音频信号在时域上分别为y(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，y(t)在时频域可表示为：

Y(n,k)＝STFT(y(t)) (1)

其中n为帧序列，0＜n≤N，(N为总帧数)；k为中心频率序列0＜k≤K；(K为总频点数)，为了方便，下文中省略n,k下标。

时频域的幅度谱|Y|被用作输入特征，相位值∠Y被用于逆短时傅里叶变换中作为预测语音的相位。在本公开实施例中，我们为了保持后端宽带语音识别等系统的兼容性，采用了分频带的处理方法，把全频带语音幅度谱分成宽带幅度谱|Y|₁₆和高频幅度谱|Y|_16-48。

第二步、利用第一频域增强模型和第二频域增强模型对样本宽带幅度谱分别进行频域语音增强处理，得到每个说话对象的样本第一频域增强幅度谱和样本第二频域增强幅度谱。

以样本宽带幅度谱|Y|₁₆作为输入，基于第一频域增强模型和第二频域增强模型进行相关处理，分别获得每个说话对象的样本第一频域增强幅度谱和样本第二频域增强幅度谱。

其中，第一频域增强模型基于时序卷积网络(Temporal Convolutional Network，TCN)的宽带语音增强函数f_TCN(·)，然后得到宽带幅度谱对应的掩码

最后得到并输出增强后的样本第一频域增强幅度谱

第二频域增强模型基于卷积循环网络(Convolutional Recurrent Network，CRN)的宽带语音增强函数f_CRN(·)，然后得到宽带幅度谱对应的掩码

最终得到并输出增强后的样本第二频域增强幅度谱

其中，

和

可通过如下公式表示：

其中，

表示点乘。

本公开实施例中的两个频域增强模型以采用卷积循环网络和时序卷积网络实现为例，但是并不限于这两个网络的实现，两个频域增强模型使用不同的网络实现即可。

第三步、基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定第一频域增强损失函数的值，其中，样本第一增强时域信号是基于样本第一频域增强幅度谱确定的，样本参考时域信号是基于对应的纯净语音信号确定的。

第三步中的基于每个说话对象的样本第一频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第一增强时域信号确定第一频域增强损失函数的值，具体包括：

步骤A、确定样本第一增强时域信号和样本参考时域信号之间的尺度不变的第一信失比。

步骤B、确定样本第一频域增强幅度谱和样本参考宽带幅度谱之间的第一幅度谱损失。

步骤C、根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第一幅度谱损失对应的第一损失权重。

步骤D、根据第一信失比、第一幅度谱损失和第一损失权重，确定第一频域增强损失函数的值。

本公开实施例我们使用了频域损失函数J_IAM-MALE和时域损失函数J_SI-SDR来训练f_TCN(·)网络的参数，第一频域增强损失函数的具体计算公式可以为：J_IAM-MALE+J_SI-SDR；

其中，

则，

公式(5)中M＝(|S|/|Y|)^γ，M是理想的振幅掩码(IAM，ideal amplitude mask)，在该第一频域增强损失函数中，M用来平衡语音和噪声的重要性，M的值越小，其对应的损失的权重e^(a/(b+M))越大。a，b和γ分别是可调的权重，如可以对应分别设置为2，1和1，但对此不进行限制。

其中，

样本参考宽带幅度谱|S|＝|S|₁₆，样本参考时域信号s是基于对应的纯净语音信号确定的，即数据对中的s(t)，iSTFT表示逆傅里叶变换。

J_IAM-MALE计算了样本第一频域增强幅度谱

和对应样本参考宽带幅度谱|S|之间的第一幅度谱损失与第一损失权重的点乘，样本第一频域增强幅度谱

和对应样本参考宽带幅度谱|S|之间的差值越小，说明增强后的语音幅度谱越接近于参考语音。为了减小幅度谱取值的范围，我们对幅度谱进行了对数域的压缩，即ln(·)。

J_SI-SDR计算了样本第一时域增强信号

和样本参考时域信号s之间的尺度不变的第一信失比(SI-SDR，scale-invariant signal to distortion ratio)。

当尺度不变的信失比越大，说明增强后的信号越接近于参考时域信号。由于本公开实施例中是最小化损失函数，因此J_SI-SDR取尺度不变的第一信失比的负数作为损失。

第四步、基于第一频域增强损失函数的值调整第一频域增强模型的参数，以实现对第一频域增强模型的训练。执行第七步。

在对第一频域增强模型进行训练时，直到第一频域增强损失函数的值在样本集中连续两个迭代不再减少，或者第一频域增强损失函数的值小于第一预设阈值，结束对第一频域增强模型的训练。

本公开实施例中对基于第一频域增强损失函数的值调整第一频域增强模型的参数的具体实现过程不进行限制。

第五步，基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定第二频域增强损失函数的值。

第五步中，基于每个说话对象的样本第二频域增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第二增强时域信号确定第二频域增强损失函数的值，包括：

其中第二损失函数的表达式同公式(5)，但是，其中用于计算的每个字符对应的内容不同，其中，

参考宽带幅度谱|S|＝|S|₁₆，

第六步，基于第二频域增强损失函数的值调整第二频域增强模型的参数，以实现对第二频域增强模型的训练。

在对第二频域增强模型进行训练时，直到第二频域增强损失函数的值在样本集中连续两个迭代不再减少，或者第二频域增强损失函数的值小于第二预设阈值，结束对第二频域增强模型的训练。

在具体实现时，可以同时执行第一频域增强模型(第三步和第四步)和第二频域增强模型(第五步和第六步)的训练，也可以分为先后顺序执行，本公开实施例中对此不进行限制。

第七步、利用融合模型对通过已完成训练的第一频域增强模型获取的样本第一频域增强幅度谱和通过已完成训练的第二频域增强模型获取的样本第二频域增强幅度谱进行融合处理，得到每个说话对象的样本宽带增强幅度谱。

第七步中，利用融合模型对样本第一频域增强幅度谱和样本第二频域增强幅度谱进行融合处理，得到样本宽带增强幅度谱，包括：

将样本宽带幅度谱、样本第一频域增强幅度谱和样本第二频域增强幅度谱均划分为多个个数相同的子带；

使用指数滑动平均法在时间维度上对子带权重进行平滑；

在具体实现时，可以划分16个子带来实现，且不限于16个子带的实现方式。以划分16个子带为例：

为了利用第一频域增强模型和第二频域增强模型获取的样本第一频域宽带增强幅度谱和样本第二频域宽带增强幅度谱这两个频谱之间的互补信息，利用融合模型中的神经网络估计权重的方式来融合预测的样本第一频域增强幅度谱

和样本第二频域增强幅度谱

将样本宽带幅度谱、样本第一频域增强幅度谱和样本第二频域增强幅度谱分成16个子带，每个子带估计一个权重，对于

和

每个相同子带(如16个子带中各自的第1个子带，第16个子带等是相同的子带)对应的权重相加等于1。该融合模型以样本宽带幅度谱|Y|₁₆、

和

为输入，并预测16个权重系数。

因此，图15中样本宽带幅度谱|Y|₁₆输入融合增强模型仅是为了估算权重的，并不是用于融合的。

同时，为了避免权重的跳变，在时域上对权重还进行了如下处理，具体为：

使用了指数滑动平均法对权重在时间维度上进行平滑，衰退系数可以为0.95，但并不限于此。

分成16个子带，是在频域上进行权重的处理，在时间维度上进行平滑是指在时域上对权重的处理。

通过把

和

对应的子带乘以对应的权重并相加，得到融合后的样本宽带增强幅度谱

第八步、基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定融合增强损失函数的值。

第八步中，基于每个说话对象的样本宽带增强幅度谱，以及对应的样本参考宽带幅度谱、样本参考时域信号和样本第三增强时域信号确定融合增强损失函数的值，包括：

其中融合增强损失函数的表达式同公式(5)，但是，其中用于计算的每个字符对应的内容不同，其中，

样本参考宽带幅度谱|S|＝|S|₁₆，样本参考时域信号s是基于对应的纯净语音信号确定的，即数据对中的s(t)。

其中，

为样本宽带增强幅度谱，|S|₁₆为样本参考宽带幅度谱，s为样本参考时域信号，

为样本第三增强时域信号。

第九步、基于融合增强损失函数的值调整融合增强模型的参数，以实现对融合增强模型的训练。

在对融合增强模型进行训练时，直到融合损失函数的值在样本集中连续两个迭代不再减少，或者融合增强损失函数的值小于第三预设阈值，结束对融合增强模型的训练。

本公开实施例中对基于融合增强损失函数的值调整融合增强模型的参数的具体实现过程不进行限制。

融合增强模型训练完成后，可以开始同时进行高频增强模型和说话对象幅度谱提取模型的训练，也可以先训练其一，再训练另一个，本公开实施例中对此不进行限制。

下面分别给出两个模型的训练过程，其中，第十步到第十二步是对高频增强模型的训练，第十三步到第十八步是对说话对象幅度谱提取模型的训练过程。

第十步、利用高频增强模型对每个说话对象的样本高频幅度谱和在融合模型训练完成之后得到的样本宽带增强幅度谱进行高频语音增强处理，得到每个说话对象的样本高频增强幅度谱。

高频增强模型利用两个卷积神经网络并行分支，分别从输入样本宽带增强幅度谱

和样本高频幅度谱|Y|_16-48学习得到宽带语音特征和高频语音特征，随后使用循环神经网络和前向神经网络把宽带和高频语音特征进行合并并预测得到高频语音频谱对应

第十一步、基于每个说话对象的样本高频增强幅度谱和样本参考高频幅度谱，确定高频增强损失函数的值，其中，每个说话对象的样本参考高频幅度谱是基于对应的说话对象的纯净语音信号确定的。

我们使用公式(4)作为损失函数来训练该高频增强模型，公式(4)中的

并且

|S|_16-48为样本参考高频幅度谱。

第十二步、基于高频增强损失函数的值调整高频增强模型的参数，以实现对高频增强模型的训练。结束本流程。

在对高频增强模型进行训练时，直到高频增强损失函数的值在样本集中连续两个迭代不再减少，或者高频增强损失函数的值小于第四预设阈值，结束对高频增强模型的训练。

本公开实施例中对基于高频增强损失函数的值调整高频增强模型的参数的具体实现过程不进行限制。

第十三步、利用说话对象声纹提取模型对每个标定说话对象的样本语音信号进行编码处理，得到每个标定说话对象的说话对象声纹。

利用说话对象声纹提取模型对x(t)进行编码处理，获得能够描述该说话对象的声纹向量的说话对象声纹e。具体实现过程如下：

使用梅尔域的梅尔倒谱特征作为输入，经过多层网络g(·)来处理基于帧的梅尔倒谱特征，学习到了帧级别的特征R(n,i),i为该层神经网络的节点数。

R(n,i)＝g(Mel(|STFT(x(t))|)) (7)

在得到了帧级别的特征之后，使用了基于注意力的统计特性池化(attentivestatistic pooling)，得到句子级别的该句话说话对象的说话对象声纹(一个向量)。

e＝statisticpooing(R(n,i)) (8)

第十四步、利用分类器对每个标定说话对象的多条说话对象声纹进行说话对象身份判别处理，得到估计的每条说话对象声纹对应的身份预测概率；根据每条说话对象声纹对应的身份预测概率以及每条说话对象声纹对应的说话对象的真实身份的标签，确定第一交叉熵损失函数的值。

第一交叉熵损失函数的具体表示如下：

其中，C是训练数据总的说话对象个数，当说话对象声纹e是说话对象c时，P等于1，否则等于0；p(c|e)是该条语音预测为说话对象c的概率。

第十五步、根据第一交叉熵损失函数的值调整分类器和说话对象声纹提取模型的参数，以实现对说话对象声纹提取模型的初步训练，以及对分类器的训练。

在对说话对象声纹提取模型和分类器进行训练时，直到第一交叉熵损失函数的值在样本集中连续两个迭代不再减少，或者第一交叉熵损失函数的值小于第五预设阈值，结束对说话对象声纹提取模型和分类器的训练。

第十六步、利用标定说话对象提取模型对每个标定说话对象的说话对象声纹、标定说话对象的标签和样本宽带增强幅度谱进行幅度谱提取处理，得到每个标定说话对象的样本潜在语音宽带增强幅度谱。

在具体实现时，使用了前向神经网络、GRU和空洞卷积网络h(·)以标定说话对象的说话对象声纹信息e作为参考信息，宽带增强幅度谱

中提取标定说话对象的样本潜在语音宽带增强幅度谱

具体计算公式为：

第十七步、确定样本第四增强时域信号和样本参考时域信号之间的尺度不变的第四信失比；其中，样本第四增强时域信号是根据样本潜在语音宽带增强幅度谱确定的；确定样本潜在语音宽带增强幅度谱和对应的样本参考宽带幅度谱之间的第五幅度谱损失；根据样本参考宽带幅度谱和对应的样本宽带幅度谱确定第五幅度谱损失对应的第五损失权重；根据初步训练完成的说话对象声纹提取模型和训练完成的分类器确定第二交叉熵损失函数的值；根据第四信失比、第五幅度谱损失、第五损失权重和第二交叉熵损失函数的值确定标定说话对象提取损失函数的值。

其中，标定说话对象提取损失函数表示为如下：

公式(11)中M＝(|S|/|Y|)^γ，M是理想的振幅掩码(IAM，ideal amplitude mask)，在该第一频域增强损失函数中，M用来平衡语音和噪声的重要性，M的值越小，其对应的损失的权重e^(a/(b+M))越大。a，b和γ分别是可调的权重，如可以对应分别设置为2，1和1，但对此不进行限制。

其中，

是样本潜在语音宽带增强幅度谱；|S|＝|S|₁₆；样本第四增强时域信号

iSTFT表示逆傅里叶变换；样本参考时域信号s是根据对应的纯净语音信号确定的，即数据对中的，p(c|e)是根据训练完成的分类器确定的

计算了样本潜在语音宽带增强幅度谱

和对应样本参考宽带幅度谱|S|之间的第五幅度谱损失与第五损失权重的点乘，样本潜在语音宽带增强幅度谱

计算了第四时域增强信号

和参考时域信号s之间的尺度不变的第四信失比。

当尺度不变的信失比越大，说明增强后的信号越接近于参考时域信号。由于本公开实施例中是最小化损失函数，因此取尺度不变的第四信失比的负数作为损失。

第十八步、根据标定说话对象提取损失函数的值调整说话对象声纹提取模型和标定说话对象提取模型的参数，以实现对说话对象声纹提取模型和标定说话对象提取模型的训练。

在对说话对象声纹提取模型和标定说话对象提取模型进行训练时，直到说话对象幅度谱提取损失函数的值在样本集中连续两个迭代不再减少，或者标定说话对象提取损失函数的值小于第六预设阈值，结束对说话对象声纹提取模型和标定说话对象提取模型的训练。

本公开实施例中对基于说话对象幅度谱提取损失函数的值调整说话对象声纹提取模型和标定说话对象提取模型的参数的具体实现过程不进行限制。

至此完成图15所示的语音增强模型的训练。

模型训练完成之后，可以进行实际场景中的语音增强处理。

在个性化语音训练模型训练完成后，可以根据具体应用场景设置是否使用语音对象幅度谱提取模型的使用，该设置可以由用户自行配置；也可以预先将模型配置为有标定说话对象的语音信号输入时，将宽带增强幅度谱输入到说话对象幅度谱提取模型中输出标定说话对象的潜在语音宽带增强幅度谱；否则，直接输出宽带增强幅度谱。

图16是根据一示意性实施例示出的一种个性化的多模型语音增强模型结构示意图。图16为图15训练完成后的语音增强模型，基于图16所示的模型结构，涉及到的语音增强处理如下：

将第一频域增强幅度谱和第二频域增强幅度谱输入到融合模型，获得宽带增强幅度谱；

将宽带增强幅度谱和待处理的含噪声的语音信号的语音幅度谱对应的高频幅度谱输入到高频增强模型中，获得高频增强幅度谱；

将目标说话对象的语音信号输入到说话对象声纹提取模型，获得目标说话对象的说话对象声纹；

将获得的目标说话对象的说话对象声纹和获得的宽带增强幅度谱输入标定说话对象提取模型获得目标说话对象的样本潜在语音宽带增强幅度谱。

至此，获得了待处理的含噪声的语音信号的高频增强幅度谱和目标说话对象的样本潜在语音宽带增强幅度谱，可以用于进行融合处理，以获得待处理的含噪声的语音信号对应的全频带增强语音信号。

在具体实现时，可以通过用户的配置信息，对语音增强模型进行设置，是否进行全频带语音增强，是否进行个性化语音增强，判断结束后，关闭或打开对应模型的功能，即可实现满足用户需要的语音增强模型。也可以在模型内部增加判断，以根据输入的内容确定输出的内容，本申请实施例中对此不进行限制。

在具体实现时，可以将语音增强处理的所有功能封装为一个语音增强处理模型，只要输入待处理的含噪声的语音信号，即可输出全频带的语音增强信号，也可以根据实际需要设置是否输出宽带增强幅度谱，这样的语音增强处理模型可以兼容宽带增强模型直接建立；

并且还可以封装一个个性化和非个性化兼容的语音增强处理模型，在该语音增强处理模型中输入待处理的含噪声的语音信号和对应的目标说话对象的语音信号即可获得目标对象的全频带语音增强信号；仅输入待处理的含噪声的语音信号时，输出非个性化的全频带的语音增强信号。

在具体实现时，还可以针对模型提供设置页面，通过页面设置来实现各种功能模块的组合使用，以便满足各种实际需求。

如用户配置执行全频带且个性化的语音增强处理时，设置语音增强模型执行说话对象幅度谱提取模型和高频增强模型；

用户配置执行全频带且非个性化的语音增强处理时，设置语音增强模型执行高频增强模型，且不执行说话对象幅度谱提取模型；

用户配置执行宽带增强处理且个性化的语音增强处理时，设置语音增强模型执行说话对象幅度谱提取模型，且不执行高频增强模型；

用户配置执行宽带且非个性化的语音增强处理时，设置语音增强模型不执行说话对象幅度谱提取模型，且不执行高频增强模型。

本公开实施例中的语音增强模型可以同时获得宽带增强幅度谱和高频增强幅度谱，进而兼容了宽带增强网络，在输入的时候，也可以只输入宽带幅度谱，通过该语音增强模型同样可以得到宽带增强幅度谱；同样在输入标定说话对象的语音信号时即可获得个性化的宽带增强幅度谱，因此，本公开实施例中的语音增强模型将全频带与宽带处理像兼容，将个性化和非个性化相兼容，通过一个语音增强处理模型即可解决各种不兼容问题。

图17是根据一示意性实施例示出的一种语音增强装置的逻辑结构框图。如图17所示，该语音增强装置，包括：

获取单元1701，被配置为执行获取待处理的含噪声的语音信号；

划分单元1702，被配置为执行将所述待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；

第一处理单元1703，被配置为执行对所述宽带幅度谱进行宽带增强处理，得到宽带增强幅度谱；

第二处理单元1704，被配置为执行对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理，得到高频增强幅度谱；

第三处理单元1705，被配置为执行对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号。

在一种可能实施方式中，

第一处理单元1703，被配置为执行对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理时，利用高频增强模型对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理；

其中，所述高频增强模型的训练方法包括：

在一种可能实施方式中，

第二处理单元1704，被配置为执行对所述宽带幅度谱进行宽带增强处理时，利用宽带增强模型对所述宽带幅度谱进行宽带增强处理；

其中，所述宽带增强模型的训练方法包括：

在一种可能实施方式中，

基于所述融合增强损失函数训练所述融合模型；

在一种可能实施方式中，

在时间维度上对每个所述子带权重进行平滑处理；

在一种可能实施方式中，

第三处理单元1705，被配置为执行对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号时，基于所述宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱；对所述目标说话对象的所述潜在语音宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号。

在一种可能实施方式中，

第三处理单元1705，被配置为执行基于所述宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱时，获取多个标定说话对象的标定语音信号；在多个所述标定说话对象中确定所述目标说话对象；根据被确定为所述目标说话对象的所述标定说话对象的所述标定语音信号确定所述目标说话对象的所述标定语音信号；

第三处理单元1705，被配置为执行对所述目标说话对象的所述标定语音信号和所述宽带增强幅度谱进行幅度谱提取处理时，包括：

其中，所述说话对象幅度谱提取模型的训练方法包括：

在一种可能实施方式中，

其中，所述第一交叉熵损失函数是基于每条所述说话对象声纹对应的所述身份预测概率以及所述每条说话对象声纹对应的说话对象的真实身份的标签确定的，所述身份预测概率是利用分类器对每个所述标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的；所述分类器基于所述第一交叉熵损失函数进行训练。

在一种可能实施方式中，

所述第二交叉熵损失函数是基于每条所述说话对象声纹对应的所述身份预测概率以及所述每条说话对象声纹对应的说话对象的真实身份的标签确定的，所述身份预测概率是利用分类器对每个所述标定说话对象的多条说话对象声纹进行说话对象身份判别处理获得的。

关于上述实施例中的语音增强训练装置，其中各个模块执行操作的具体方式已经在有关语音增强模型训练方法的实施例中进行了详细描述，此处将不作详细阐述说明。

需要说明的是：上述实施例仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图18是本公开实施例提供的一种电子设备的结构示意图。在一些实施例中，该电子设备为本地服务器。该电子设备1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1801和一个或一个以上的存储器1802，其中，该存储器1802中存储有至少一条程序代码，该至少一条程序代码由该处理器1801加载并执行以实现上述各个实施例提供的语音增强模型训练方法或语音增强方法。当然，该电子设备1800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备1800还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中的语音增强方法。

可选地，上述计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行，以完成上述各个实施例提供的语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强方法，其特征在于，所述语音增强方法包括：

获取待处理的含噪声的语音信号；

将所述待处理的含噪声的语音信号的语音幅度谱划分为宽带幅度谱和高频幅度谱；

2.根据权利要求1所述的语音增强方法，其特征在于，所述对所述宽带增强幅度谱和所述高频幅度谱进行高频增强处理，包括：

其中，所述高频增强模型的训练方法包括：

3.根据权利要求1所述的语音增强方法，其特征在于，所述对所述宽带幅度谱进行宽带增强处理，包括：

利用宽带增强模型对所述宽带幅度谱进行宽带增强处理；

其中，所述宽带增强模型的训练方法包括：

4.根据权利要求3所述的语音增强方法，其特征在于，所述宽带增强模型包括：第一频域增强模型、第二频域增强模型和融合模型，其中，所述第一频域增强模型和第二频域增强模型为已完成训练的模型；所述第一频域增强模型基于时序卷积网络建立；所述第二频域增强模型基于卷积循环网络建立；

5.根据权利要求4所述的语音增强方法，其特征在于，

6.根据权利要求4所述的语音增强方法，其特征在于，所述基于每个所述说话对象的所述样本参考宽带幅度谱和所述样本宽带增强幅度谱之间的差异，实现对所述宽带增强模型的训练，包括：

基于所述融合增强损失函数训练所述融合模型；

其中，所述融合增强损失函数是基于每个所述说话对象的所述样本宽带增强幅度谱、对应的所述样本参考宽带幅度谱、所述样本参考时域信号和样本第三增强时域信号确定的；其中，所述样本第三增强时域信号是基于所述样本宽带增强幅度谱确定的，所述样本参考时域信号是基于对应的纯净语音信号确定的。

7.根据权利要求4所述的语音增强方法，其特征在于，所述利用所述融合模型对所述样本第一频域增强幅度谱和所述样本第二频域增强幅度谱进行融合处理，得到所述样本宽带增强幅度谱，包括：

在时间维度上对每个所述子带权重进行平滑处理；

8.根据权利要求1-7任一项所述的语音增强方法，其特征在于，所述对所述宽带增强幅度谱和所述高频增强幅度谱进行融合，根据融合结果得到所述待处理的含噪声的语音信号的全频带增强语音信号，包括：

基于所述宽带增强幅度谱获取目标说话对象的潜在语音宽带增强幅度谱；

9.根据权利要求8所述的语音增强方法，其特征在于，所述基于所述宽带增强幅度谱获取目标说话对象的样本潜在语音宽带增强幅度谱，包括：

获取多个标定说话对象的标定语音信号；

在多个所述标定说话对象中确定所述目标说话对象；

10.根据权利要求9所述的语音增强方法，其特征在于，所述对所述目标说话对象的所述标定语音信号和所述宽带增强幅度谱进行幅度谱提取处理，包括：

其中，所述说话对象幅度谱提取模型的训练方法包括：

11.根据权利要求10所述的语音增强方法，其特征在于，所述说话对象幅度谱提取模型包括：说话对象声纹提取模型和标定说话对象提取模型；所述说话对象声纹提取模型为初步完成训练的模型；

12.根据权利要求11所述的语音增强方法，其特征在于，

13.根据权利要求11所述的语音增强方法，其特征在于，

14.一种语音增强装置，其特征在于，所述语音增强装置包括：

获取单元，被配置为执行获取待处理的含噪声的语音信号；

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1-13任一项所述的语音增强方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的至少一条指令被电子设备的处理器执行时，使得所述电子设备能够实现如权利要求1-13任一项所述的语音增强方法。

17.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-13任一项所述的语音增强方法。