CN117059068A

CN117059068A - 语音处理方法、装置、存储介质及计算机设备

Info

Publication number: CN117059068A
Application number: CN202210495197.5A
Authority: CN
Inventors: 黄�俊; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2023-11-14
Also published as: WO2023216760A1

Abstract

本申请公开了一种语音处理方法，其特征在于，该方法包括：获取通话语音的初始语音特征；将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；根据所述目标语音特征，计算出去除噪声和混响的目标语音。如此，通过深度聚类损失函数和掩码推断损失函数训练得到语音增强模型，可以更加准确地对初始语音特征中的噪声和混响进行去除，从而输出干净的目标语音特征以获取去除噪声和混响的目标语音，本申请实施例应用人工智能技术在降低模型计算资源的同时，有效地提升了语音增强的性能。

Description

语音处理方法、装置、存储介质及计算机设备

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种语音处理方法、装置、存储介质及计算机设备。

背景技术

语音增强(Speech Enhancement)其本质就是语音降噪，日常生活中，麦克风采集的语音通常是带有不同噪声的“污染”语音，语音增强的主要目的就是从这些被“污染”的带噪语音中恢复出我们想要的干净语音，从而有效抑制各种干扰信号，增强目标语音信号，这样不仅可以提高语音话音质量，还有助于提高语音识别的性能。

语音增强的应用领域包括视频会议和语音识别等，是许多语音编码和识别系统的预处理模块，通常可以分为近场语音增强和远场语音增强。在复杂的语音采集环境下，由于噪声和混响会同时存在，现有的语音增强采用基于两级网络的降噪去混响方案，然而，该两级网络较大的计算量使得语音增强无法满足实际应用的性能需求。

发明内容

本申请实施例提供一种语音处理方法、装置、存储介质以及计算机设备。旨在提升语音增强的性能。

一方面，本申请实施例提供一种语音处理方法，该方法包括：获取通话语音的初始语音特征；将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；根据目标语音特征，计算出去除噪声和混响的目标语音。

另一方面，本申请实施例还提供一种语音处理装置，该装置包括：获取模块，用于获取通话语音的初始语音特征；增强模块，用于将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；计算模型，用于根据目标语音特征，计算出去除噪声和混响的目标语音。

另一方面，本申请实施例还提供一种计算机设备，该计算机设备包括处理器以及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述的语音处理方法。

另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的语音处理方法。

另一方面，本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行上述语音处理方法中的步骤。

本申请提供的一种语音处理方法，可以获取通话语音的初始语音特征，并将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，该语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到，进一步地，根据目标语音特征，计算出去除噪声和混响的目标语音。如此，通过两种不同的损失函数对预先设置的语音增强模型进行模型训练，引导模型高效地对语音特征中的噪声和混响进行去除，在降低模型计算资源的同时，提高语音增强的性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种常用降噪和去混响的方法示意图。

图2示出了本申请实施例提供的一种语音处理系统的架构示意图。

图3示出了本申请实施例提供的一种语音处理方法的流程示意图。

图4示出了本申请实施例提供的一种语音处理方法的应用场景示意图。

图5示出了本申请实施例提供的一种语音增强模型的架构示意图。

图6示出了本申请实施例提供的另一种语音处理方法的流程示意图。

图7示出了本申请实施例提供的一种语音特征提取的流程示意图。

图8示出了本申请实施例提供的一种预设增强网络的架构示意图。

图9示出了本申请实施例提供的一种语音处理装置的模块框图。

图10是本申请实施例提供的一种计算机设备的模块框图。

图11是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

日常生活中，经常会遇到在噪声干扰下进行语音通信的问题。例如在汽车、火车上使用移动电话，环境的喧闹声，以及多人视频会议时麦克风采集的带有噪声的远端语音等，因此需要借助语音增强技术从带噪语音信号中提取尽可能纯净的原始语音。根据通话场景的不同，用户利用客户端进行的通话类型可以包括近端通话和远端通话，但客户端的近端通话只适合单人或者人数较少的近距离通话，且音视频体验一般。

为了提升用户体验，工业上侧重于研究大屏通信设备下的远端通话。然而，远端通话由于通话距离更远，信噪比更低，且通话语音通常伴有噪声和混响，所以需要利用性能更好的远场语音增强来对通话语音进行降噪去混响。目前，业内主流的语音增强方案通常采用两个模型分别进行降噪和去混响，请参阅图1，图1示出了常用的降噪和去混响的两种方案，包括先降噪后去混响和先去混响后降噪。

例如，将麦克风阵列分为不同子集，每个子集通过第一级的语音增强网络，得到每个麦克风增强后的语音，将增强后的语音整合到一起再通过第二级的语音增强网络，得到最终输出。然而，这种基于两级网络的语音增强方案，训练过程需要消耗较大的计算量，并不适合产品实际应用的性能需求，若通过减小网络参数的数量以降低计算量，则会导致网络进行语音增强时的效果变差。

为了解决上述问题，发明人经过研究，提出了本申请实施例提供的语音处理方法，该方法可以获取通话语音的初始语音特征，并将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，该语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到，从而将两个模型(两级网络)融合为同一个模型，以减少模型训练过程的计算成本。进一步地，根据目标语音特征，计算出去除噪声和混响的目标语音。如此，通过不同损失函数对预先设置的语音增强模型进行模型训练，引导模型高效地对初始语音特征中的噪声和混响进行去除，在降低模型计算资源的同时，提高语音增强的性能。

下面先对本申请所涉及到的语音处理方法的一种应用场景进行介绍。图2示出了一种语音处理系统的架构示意图。在一些实施例中，语音处理系统300应用于远程视频会议的场景中，该语音处理系统300可以包括近端客户端310、远端客户端330以及服务器端350。其中，近端客户端310、远端客户端330以及服务器端350通过网络进行通信连接，作为一种实施方式，近端客户端310和远端客户端330可以是用于视频的大屏终端，服务器端350可以为云服务器。

示例性地，远端客户端330可以采集参会人员发出的带有噪声和混响的初始语音，并将初始语音传送至服务器端350，服务器端350接受到初始语音后，可以利用预先训练好的语音增强模型对该初始语音进行降噪和去混响，得到增强后的干净语音(目标语音)，并将干净语音传送至近端客户端310。可选地，语音增强模型也可以根据实际应用场景的需要，配置于近端客户端310或远端客户端330。

需要说明的是，上述语音处理系统300仅仅是一个示例，本发明实施例描述的语音处理系统的架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着语音处理系统架构的演变和新的应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

请参阅图3，图3示出了本申请一个实施例提供的语音处理方法的流程示意图。在具体的实施例中，所述语音处理方法应用于如图9所示的语音处理装置500以及配置有语音处理装置500的计算机设备600(图10)。

下面将以计算机设备为例，说明本实施例的具体流程，当然，可以理解的是，本实施例所应用的计算机设备可以为服务器或者终端等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

下面将针对图3所示的流程结合图4所示的应用场景进行详细的阐述，图4示出了本申请实施例提供的一种语音处理方法的应用场景示意图，该应用场景中，语音处理方法可以应用在具体的语音增强系统，该语音增强系统可以将语音增强模型411部署在云端服务器410中，云端服务器410可以分别于两个会场的会议终端(第一会议终端430和第二会议终端450)通信连接，其中，第一会议终端430和第二会议终端450可以采集各自所在会场的参会人员的说话声，并将采集的说话声上传至云端服务器410，由云端服务器410完成对说话声的语音增强得到干净语音，最后，云端服务器410将干净语音传至对应的会议终端进行播放。所述语音处理方法具体可以包括以下步骤：

步骤S110：获取通话语音的初始语音特征。

在本申请实施例中，计算机设备可以获取需要进行语音增强的通话语音的初始语音特征。其中，初始语音特征为基于通话语音转化得到的声学特征，例如，对数功率谱(Logarithmic Power Spectrum，LPS)和梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients，MFCC)等，在此不做限定。

由于语音数据往往不能像图像数据那样直接输入到模型中训练，其在长时域上没有明显的特征变化，所以很难学习到语音数据的特征，加之语音的时域数据通常由16K采样率构成，即1秒16000个采样点，直接输入时域采样点会导致训练数据量过大且很难训练出具有实际意义的效果。因此，在语音处理相关任务中，通常是将语音数据转化为声学特征作为模型的输入或者输出。

作为一种实施方式，在获取通话语音后，可以对通话语音进行分帧处理和加窗处理，得到初始语音特征。例如，依次对所有麦克风采集的通话语音进行分帧处理和加窗处理，得到通话语音的语音信号帧，并对语音信号帧进行快速傅里叶变换(Fast FourierTransformation，FFT)并求取FFT之后的离散功率谱，进而对获得的离散功率谱进行对数计算，得到对数功率谱作为初始语音特征。通过对通话语音进行分帧处理和加窗处理可将通话语音由时域空间的非平稳时变信号转化为频域空间的平稳信号，便于模型的训练。

在图4所示的视频会议场景中，由于参会人员与会议终端之间具有一定的距离，进而导致会议终端采集的参会人员说话声中带有噪声和混响。为此可以利用本申请实施例提供的语音处理方法对参会人员的说话声进行语音增强处理，以便去除声音中的噪声和混响。

示例性地，第二会议终端450通过麦克风在会场中采集到参会人员420的说话声，也即通话语音，并将该通话语音通过网络发送至云端服务器410，进而云端服务器410接收到通话语音后，对通话语音进行分帧处理、加窗处理以及傅里叶变换，得到初始语音特征。

步骤S120：将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征。

实际的应用场景中，麦克风阵列采集的通话语音会同时包含有噪声和混响，考虑到用于对通话语音进行降噪和去混响的两级网络，由于在训练时两个网络的参数量较大，因此需要消耗大量的计算资源，并且，若将每个网络的参数量减小也会降低模型进行降噪和去混响的性能。为此，可以将两级网络融合为同一个网络，相对于两个网络的参数量，融合后的模型的参数量会减少，可以大大减少训练过程的计算量，也能提高模型进行语音增强的性能。

在本申请实施例中，语音增强模型可以基于输入的初始语音特征生成通话语音对应的目标语音特征，也即经过语音增强后，除去噪声和混响的干净的语音特征。请参阅图5，图5示出了一种语音增强模型的架构示意图。该语音增强模型可以包括隐藏层、深度聚类层、语音掩码推断层以及噪声掩码推断层。

其中，深度聚类层、语音掩码推断层以及噪声掩码推断层可以为线性层，三者的输入统一来自隐藏层的输出。隐藏层可以基于输入的初始语音特征计算得到中间特征，该中间特征为语音增强过程的中间值。

语音掩码推断层可以基于中间特征进行掩码推断(Mask Inference,MI)，得到去除噪声和混响的目标语音特征，噪声掩码推断层可以基于中间特征进行掩码推断，得到带有噪声的语音特征，深度聚类层通过对获取的中间特征进行深度聚类(Deep Clustering，DC)可以辅助语音掩码推断层和噪声掩码推断层降噪和去混响。优选地，隐藏层可以为长短期记忆网络(LSTM，Long Short-Term Memory)，这是因为语音特征具有短时平稳性的时序序列，这与LSTM的长短期记忆能力相吻合。

作为一种实施方式，在模型训练过程中可以通过深度聚类层对应的深度聚类损失函数以及语音掩码推断层和噪声掩码推断层各自对应的掩码推断损失函数对模型进行分步训练。示例性地，第一步，可以基于深度聚类损失函数和掩码推断损失函数训练降噪模型，当降噪模型收敛之后，停止训练，其中，语音掩码推断层对应的掩码推断损失函数使用是不带噪声带混响的干净语音标签。第二步，训练去混响模型，将第一步训练好的降噪模型作为去混响模型，基于深度聚类损失函数和掩码推断损失函数训练去混响模型，当去混响模型收敛后，停止训练，其中，语音掩码推断层对应的掩码推断损失函数使用的是不带噪声不带混响的干净语音标签，从而，最终得到的去混响模型，也即语音增强模型具备同时进行降噪和去混响的能力。

需要说明的是，语音增强模型的深度聚类层为一个基于时频点聚类的二值损失，由于深度聚类损失的正则化特性可以更好地引导语音掩码推断层以及噪声掩码推断层在训练过程对语音中的噪声和混响进行去除，进而有效提升模型进行语音增强的性能。分步训练可以让降噪任务和去混响任务，在独自的训练过程都能达到最优的训练效果，有助于提高语音增强模型进行降噪和去混响的能力。

以此，通过上述训练得到的语音增强模型，可以通过多层LSTM得到中间特征，进一步地，语音掩码推断层可以基于中间特征进行掩码推断，计算出语音的掩码，也即目标语音特征。示例性地，如图4所示的视频会议场景中，云端服务器410得到初始语音特征之后，可以将该初始语音特征输入至语音增强模型411，该语音增强模型411的语音掩码推断层可以基于通过多层LSTM得到的中间特征进行掩码推断计算出语音的掩码，也即目标语音特征。在实际语音增强的应用场景中，由于仅仅需要利用语音掩码推断层输出的目标语音特征恢复语音，从而有效减少语音增强过程的计算量。

步骤S130：根据目标语音特征，计算出去除噪声和混响的目标语音。

作为一种实施方式，可以对获取的目标语音特征进行特征逆变换，计算出去除噪声和混响的目标语音。例如，可以对目标语音特征进行傅里叶逆变换(Inverse FourierTransform)将目标语音特征从频域转换到时域，从而获得语音增强后的时域语音，也即目标语音。示例性地，如图4所示的视频会议场景中，云端服务器410在获取语音增强模型411输出的目标语音特征之后，可以通过傅里叶逆变换将目标语音特征，也即干净的语音特征转换成目标语音，从而得到去除噪声和混响的干净语音，进一步地，云端服务器410可以将干净语音发送至第一会议终端430，由第一会议终端430的扬声器播放出参会人员420的不带噪声和混响的说话声。

本申请实施例中，可以获取通话语音的初始语音特征，并将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，该语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到，进一步地，根据目标语音特征，计算出去除噪声和混响的目标语音。由此，通过不同损失函数对预先设置的语音增强模型进行模型训练，引导模型高效地对初始语音特征中的噪声和混响进行去除，从而在降低模型计算资源的同时，提高语音增强的性能。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该语音处理装置具体集成在计算机设备中为例进行说明。

请参阅图6，图6示出了本申请实施例提供的另一种语音处理方法，在具体的实施例中，该视频处理语音处理方法运用到如图8所示的预设增强网络。下面将针对图5所示的流程进行详细的阐述。

本申请实施例结合人工智能(Artificial Intelligence,AI)技术，人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的语音技术(Speech Technology)等技术，语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术(Voiceprint Recognition，VPR)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

下面将结合图6所示的流程和图8所示的网络架构图进行详细的阐述，该语音处理方法具体可以包括以下步骤：

步骤S210：计算机设备获取训练样本集合。

本申请实施例中提供的语音处理方法包括对预设增强网络的训练，值得说明的是，对预设增强网络的训练可以是根据获取的训练样本数据集合预先进行的，后续在每次需要对通话语音的初始语音特征进行语音增强时，可以利用训练得到的语音增强模型计算出去除噪声和混响的目标语音特征，而无需每次进行语音增强时，再次对预设增强网络进行训练。

可选地，利用wsj0-2mix(Wall Street Journal)数据集来确定训练样本集合，该wsj0-2mix数据集包含有30个小时的语音训练集和10个小时的语音训练集，通过从相应的集合中随机选择不同的说话者语音，并以0dB和10dB之间的随机相对信噪比(Signal toNoise Ratio，SNR)进行混合，可以生成用于网络训练所使用的带噪声和混响的语音。

作为一种实施方式，该计算机设备获取训练样本集合的步骤可以包括：

(1)计算机设备获取第一样本语音。

(2)计算机设备对第一样本语音进行语音特征提取，得到噪声语音特征。

(3)计算机设备获取第二样本语音。

(4)计算机设备对第二样本语音进行语音特征提取，得到第一干净语音标签以及第二干净语音标签。

(5)计算机设备根据第一样本语音以及第二样本语音，确定深度聚类标注。

其中，第一样本语音为基于麦克风采集的含有噪声和混响的语音。第二样本语音为不带噪声带混响的干净语音以及不带噪声不带混响的干净语音。深度聚类标注为第一样本语音以及第二样本语音在每一个时频点上特征大小的比值。

示例性地，计算机设备可以直接通过麦克风采集含有噪声和混响的通话语音，例如，视频会议中，通过大屏会议终端的麦克风采集的参会人员的发言作为第一样本语音，实际的训练过程，技术人员可以直接从已经构建好的降噪训练语料中获取第一样本语音。

进一步地，计算机设备可以对获取的第一样本语音进行语音特征提取，请参阅图7，图7示出了一种语音特征提取的流程示意图，将麦克风采集含有噪声和混响的通话语音，也即第一样本语音分别通过分帧处理和加窗处理得到多帧语音信号/> n为总帧数，t表征时域空间，进而计算机设备可以对每一帧语音信号进行FFT，将每一帧语音信号由时域空间转换到频域空间，得到对应的离散功率谱，并对获得的离散功率谱求对数，得到对数功率谱/>f表征频域空间，将所有麦克风的特征拼接在一起即可得到最终的噪声语音特征xnoisy，可选地，可以根据噪声语音特征标记出噪声语音标签，也即/>

计算机设备也可以从降噪训练语料中获取作为参考的干净语音作为第二样本语音，为了便于对预设增强网络进行分步训练，可以获取不带噪声带混响的干净语音以及不带噪声不带混响的干净语音，进而对不带噪声带混响的干净语音进行语音特征提取，得到第一干净语音标签，对不带噪声不带混响的干净语音进行语音特征提取，得到第二干净语音标签。在实际的计算过程中，噪声语音标签第一干净语音标签/>以及第二干净语音标签/>的数学表达为特征向量(Embedding)，其中，特征向量的长度为特征的维度。

作为一种实施方式，计算机设备可以通过比较第一样本语音以及第二样本语音在每个时频点上的语音能量的大小来确定出深度聚类标注由于语音信号是随时间变化的，所以其能量也是随时间变化的，所以在计算数字化的语音信号的能量时，并不是计算整体的能量，而是按帧来计算每个时频点上的能量。示例性地，计算机设备可以将不带噪声带混响的语音和噪声语音的能量比作为深度聚类标注，也可以将不带噪声不带混响的语音和噪声语音的能量比作为深度聚类标注，该深度聚类标注用于深度聚类损失函数的计算。

步骤S220：计算机设备获取预设增强网络。

考虑到语音增强技术的相关产品在工业化落地时，对延时也即实时性要求非常严格，因此需要将语音增强模型的参数量尽可能的减小，但是这样会导致模型进行语音增强的效果大幅下降。为此，在本申请实施例中，提出将两级网络融合为同一个网络，使得语音增强模型可以同时进行降噪和去混响，从而在未减少模型的参数量的情况下，仍然能够提高语音增强的效果。

请参阅图8，图8示出了一种预设增强网络的架构示意图。该预设增强网络包括隐藏层、深度聚类层以及掩码推断层。预设增强网络是一个底层权重共享、多头输出的网络，其中，深度聚类层的引入可以辅助语音掩码推断层以及噪声掩码推断层进行掩码推断，使得语音掩码推断层以及噪声掩码推断层在网络训练的过程中可以有效地区分语音中的噪声和混响，隐藏层可以利用LSTM或者双向长短期记忆网络(Bi-directional Long-ShortTerm Memory，Bi-LSTM)，图8所示的隐藏层为LSTM，掩码推断层包括语音掩码层(Clean-MI)和噪声掩码层(Noise-MI)。

语音掩码推断层可以计算出语音的掩码，也即干净语音标签，噪声掩码推断层可以计算出噪声和混响的掩码，也即噪声语音标签。需要说明的是，在实际的应用过程中，仅仅需要利用语音掩码推断层输出的掩码来恢复语音，因此，没有增加语音增强过程的计算量，从而提高了语音增强效率。

步骤S230：计算机设备通过训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件，得到训练后的目标增强网络作为语音增强模型。

完成训练后得到的目标增强网络，也即语音增强模型需要同时进行降噪和去混响的两个增强任务，如果同时对这两个增强任务进行训练，预设增强网络的训练无法达到最优的训练效果。为此，可以采取分步训练的方式，将两个任务的训练过程单独进行。

具体地，本申请实施例提供两种分步训练的方式，例如，可以先进行噪声去除训练，再进行混响去除训练，也可以先进行混响去除训练，再进行噪声去除训练。其中，噪声去除训练的目的是让网络具备降噪的能力，混响去除训练的目的是让网络具备去混响的能力，这样做，可以让两个增强任务，在独自的训练过程都能达到最优的训练效果，从而提高语音增强模型进行语音增强的性能。

在一些实施例中，该计算机设备通过训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件的步骤可以包括：

(1)计算机设备将噪声语音特征输入隐藏层，通过隐藏层生成中间训练特征。

(2)计算机设备将中间训练特征输入深度聚类层，通过深度聚类层生成聚类训练标注。

(3)计算机设备将中间训练特征输入语音掩码推断层，通过语音掩码推断层生成干净语音训练特征。

(4)计算机设备将中间训练特征输入噪声掩码推断层，通过噪声掩码推断层生成噪声语音训练特征。

(5)计算机设备根据干净语音标签、噪声语音标签、深度聚类标注、干净语音训练特征、噪声语音训练特征以及聚类训练标注构建目标损失函数，并根据目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件。

其中，中间训练特征为预设增强网络的隐藏层生成的中间值，可以作为一个共享值分别输入至深度聚类层、语音掩码推断层以及噪声掩码推断层，从而达到底层权重共享以减小网络的参数量。语音掩码推断层和噪声掩码推断层可以基于中间训练特征分别对应生成干净语音训练特征y_clean和噪声语音训练特征y_noise。深度聚类层可以基于中间训练特征生成聚类训练标注y_dc。

作为一种实施方式，该计算机设备根据干净语音标签、噪声语音标签、深度聚类标注、干净语音训练特征、噪声语音训练特征以及聚类训练标注构建目标损失函数，并根据目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件的步骤可以包括：

(5.1)计算机设备根据聚类训练标注和深度聚类标注，确定第一损失函数。

其中，第一损失函数即为深度聚类损失函数，示例性地，第一损失函数y_dc为聚类训练标注，/>为深度聚类标注。

(5.2)计算机设备根据干净语音训练特征和干净语音标签，确定第二损失函数。

针对两种分步训练的方式，可以根据不同的干净语音标签确定两种不同的第二损失函数。

可选地地，计算机设备可以根据干净语音训练特征y_clean和第一干净语音标签确定噪声去除损失函数/>并将噪声去除损失函数作为第二损失函数/>

可选地地，计算机设备可以根据干净语音训练特征y_clean和第二干净语音标签确定噪声去除损失函数/>并将噪声去除损失函数作为第二损失函数/>

(5.3)计算机设备根据噪声语音训练特征和噪声语音标签，确定第三损失函数。

示例性地，第三损失函数其中，y_noise为噪声语音训练特征，/>为噪声语音标签。

其中，第二损失函数Loss_clean和第三损失函数即为掩码推断损失函数。

(5.4)计算机设备根据第一损失函数，第二损失函数和第三损失函数，构建预设增强网络的目标损失函数，并根据目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件。

示例性地，计算机设备可以根据第一损失函数Loss_dc，第二损失函数Loss_clean和第三损失函数Loss_noise，构建预设增强网络的目标损失函数Loss，如下述公式：

其中，α，β和γ为权重参数。进一步地，目标损失函数Loss对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件，可选地，可以基于多任务学习(Multi-Task Learning)对预设增强网络进行训练，从而联合深度聚类损失函数和掩码推断损失函数同时进行降噪和去混响的两个增强任务的学习，两个任务之间通过共享参数可以在学习过程中可以共享它们所学到的信息，使得训练得到的目标增强网络取得更好的泛化(Generalization)效果。

通常噪声指的是在某些场合“不需要的声音”，例如，人的嘈杂声及各种突发的声响等。混响指的是室内声源停止发声后仍然存在的声延续现象。考虑到不同应用场景对语音增强的需求方向有所不同，例如，在多人会场中主要除去会议终端采集的声音中的噪声，在专业录音场地主要除去录音设备采集的声音中的混响，为此，可以根据最终语音增强模型所使用的实际场景进行不同方式的分步训练。

在一些实施例中，可以根据最终语音增强模型所使用的实际场景，获取应用场景属性，并根据应用场景属性确定对应的分布训练策略。进一步地，基于分布训练策略，根据第一损失函数，第二损失函数和第三损失函数，构建预设增强网络的目标损失函数，并根据该目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件。

其中，应用场景属性用于表征语音增强模型所应用的实际场景，例如，侧重降噪场景属性或者侧重去混响场景属性。分布训练策略包括第一分布训练策略和第二分布训练策略，第一分布训练策略用于针对侧重降噪场景，先进行噪声去除训练，再进行混响去除训练。第二分布训练策略用于针对侧重去混响场景，先进行混响去除训练，再进行噪声去除训练。

作为一种实施方式，在以去除噪声为目的的应用场景中，例如，多人参与的视频会议中，会议终端采集的除了发言人发出的声音，还包括其他说话人的声音，需要针对会议终端采集的通货语音进行降噪处理，为此可以先进行噪声去除训练，再进行混响去除训练。计算机设备可以基于第一分布训练策略，根据第一损失函数、第二损失函数以及第三损失函数，确定预设增强网络的目标损失函数，该第二损失函数为噪声去除损失函数确定的，进而根据目标损失函数对预设增强网络迭代进行噪声去除训练，直至预设增强网络满足预设条件，得到噪声去除网络，该噪声去除网络仅起到降噪作用。

进一步地，计算机设备可以根据第一损失函数、第二损失函数以及第三损失函数，确定噪声去除网络的目标损失函数，该第二损失函数为混响去除损失函数确定的，进而根据目标损失函数对噪声去除网络迭代进行混响去除训练，直至噪声去除网络满足预设条件。如此，先进行单独的噪声去除训练，可以避免训练过程受到混响因素的干扰，从而使得生成的目标增强网络具备更好的降噪性能。

作为另一种实施方式，在以去除混响为目的的应用场景中，例如，录音棚中对音质要求相对较高，去除不必要的混响尤其重要，为此可以先进行混响去除训练，再进行噪声去除训练。计算机设备可以基于第二分布训练策略，根据第一损失函数、第二损失函数以及第三损失函数，确定预设增强网络的目标损失函数，该第二损失函数为混响去除损失函数确定的，进而根据目标损失函数对预设增强网络迭代进行混响去除训练，直至预设增强网络满足预设条件，得到混响去除网络，该混响去除网络仅起到去混响作用。

进一步地，计算机设备可以根据第一损失函数、第二损失函数以及第三损失函数，确定混响去除网络的目标损失函数，该第二损失函数为噪声去除损失函数确定的，进而根据目标损失函数对混响去除网络迭代进行噪声去除训练，直至混响去除网络满足预设条件。如此，先进行单独的混响去除训练，可以避免训练过程受到噪声因素的干扰，从而使得生成的目标增强网络具备更好的去混响性能。

优选地，在对噪声进行精确定义的情况下，噪声概念中实质包含混响，为此，在对语音增强模型的应用场景没有特殊需求时，可以对预设增强网络先进行噪声去除训练，再进行混响去除训练，从而在一个优秀的降噪网络的基础上再学习去混响的能力，如此，在两个训练过程都能达到最优的训练效果，从而提高语音增强模型进行语音增强的性能。

需要说明的是，预设条件可以为：目标损失函数的总损失值小于预设值、目标损失函数的总损失值不再变化、或者训练次数达到预设次数等。可选的，可以采用优化器去优化目标损失函数，基于实验经验设置学习率、训练时的batch size(批量大小)训练的epoch(时期)。

可以理解的是，在根据训练样本数据集合对待训练网络(预设增强网络/噪声去除网络/混响去除网络)进行多个训练周期的迭代训练后，其中，每个训练周期包括多次的迭代训练，不断对待训练网络的参数进行优化，则以上总损失值越来越小，最后变小为一个固定值，或者小于以上预设值，此时，则表示待训练网络已收敛；当然也可以是在训练次数达到预设次数后，确定预设增强网络/噪声去除网络/混响去除网络已经收敛。

通过多任务学习对预设增强网络进行的训练，虽然使用深度聚类损失和掩码推断损失的组合进行训练，但只在目标增强网络也即语音增强模型选择的验证过程中使用掩码推断损失，在语音增强模型运行时，使用掩码推断分支的输出作为语音增强后的掩码，也即目标语音特征。

步骤S240：计算机设备获取通话语音的初始语音特征。

步骤S250：计算机设备将初始语音特征输入隐藏层，通过隐藏层生成中间特征。

步骤S260：计算机设备将中间特征输入语音掩码推断层，通过语音掩码推断层生成干净语音特征，并将干净语音特征作为目标语音特征。

作为一种实施方式，计算机设备在采集到通话语音后，可以对该通话语音进行语音特征提取，包括对通话语音进行分帧处理、加窗处理以及傅里叶变换，得到初始语音特征，进一步地，计算机设备可以将初始语音特征输入到语音增强网络的隐藏层，通过隐藏层生成中间特征，进一步地，计算机设备可以将中间特征输入语音掩码推断层，通过语音掩码推断层生成干净语音特征，并将干净语音特征作为目标语音特征。

步骤S270：计算机设备对目标语音特征进行特征逆变换，计算出去除噪声和混响的目标语音。

作为一种实施方式，计算机设备在获取目标语音特征之后，可以对目标语音特征进行特征逆变换，将频域空间的目标语音特征(掩码)转换到时域空间的目标语音。可选地，特征逆变换可以为傅里叶逆变换。本申请实施例中，可以获取训练样本集合以及获取预设增强网络，并通过训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件，得到训练后的目标增强网络作为语音增强模型，进一步地，将初始语音特征输入隐藏层，通过隐藏层生成中间特征，并将中间特征输入语音掩码推断层，通过语音掩码推断层生成干净语音特征，并将干净语音特征作为目标语音特征，进而对目标语音特征进行特征逆变换，计算出去除噪声和混响的目标语音。由此，仅需要利用语音增强模型的语音掩码推断层输出的目标语音特征来恢复语音，避免增加语音增强过程的计算量，从而提高了语音增强效率。

请参阅图9，其示出了本申请实施例提供的一种语音处理装置500的结构框图。该语音处理装置500包括：获取模块510，用于获取通话语音的初始语音特征；增强模块520，用于将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；计算模型530，用于根据目标语音特征，计算出去除噪声和混响的目标语音。

在一些实施例中，语音处理装置500还可以包括：样本获取模块、网络获取模块以及模型训练模块。样本获取模块，用于获取训练样本集合，训练样本集合包括噪声语音特征、干净语音标签、噪声语音标签以及深度聚类标注；网络获取模块，用于获取预设增强网络，预设增强网络包括隐藏层、深度聚类层以及掩码推断层；网络训练模块，用于通过训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件，得到训练后的目标增强网络作为语音增强模型。

在一些实施例中，掩码推断层包括语音掩码推断层以及噪声掩码推断层，网络训练模块可以包括：隐藏单元，用于将噪声语音特征输入隐藏层，通过隐藏层生成中间训练特征；深度聚类单元，用于将中间训练特征输入深度聚类层，通过深度聚类层生成聚类训练标注；语音推断单元，用于将中间训练特征输入语音掩码推断层，通过语音掩码推断层生成干净语音训练特征；噪声推断单元，用于将中间训练特征输入噪声掩码推断层，通过噪声掩码推断层生成噪声语音训练特征；网络训练单元，用于根据干净语音标签、噪声语音标签、深度聚类标注、干净语音训练特征、噪声语音训练特征以及聚类训练标注构建目标损失函数，并根据目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件。

在一些实施例中，网络训练单元包括：第一子单元，用于根据聚类训练标注和深度聚类标注，确定第一损失函数；第二子单元，用于根据干净语音训练特征和干净语音标签，确定第二损失函数；第三子单元，用于根据噪声语音训练特征和噪声语音标签，确定第三损失函数；训练子单元，用于根据第一损失函数，第二损失函数和第三损失函数，构建预设增强网络的目标损失函数，并根据目标损失函数对预设增强网络分步进行噪声去除训练以及混响去除训练，直至预设增强网络满足预设条件。

在一些实施例中，第二子单元可以具体用于：根据干净语音训练特征和第一干净语音标签，确定噪声去除损失函数；将噪声去除损失函数作为第二损失函数，第一干净语音标签为基于不带噪声带混响的语音获取的语音标签。

在一些实施例中，第二子单元还可以具体用于：根据干净语音训练特征和第二干净语音标签，确定混响去除损失函数；将混响去除损失函数作为第二损失函数，第二干净语音标签为基于不带噪声不带混响的语音获取的语音标签。

在一些实施例中，训练子单元可以具体用于：根据第一损失函数、第二损失函数以及第三损失函数，确定预设增强网络的目标损失函数，并根据目标损失函数对预设增强网络迭代进行噪声去除训练，直至预设增强网络满足预设条件，得到噪声去除网络，其中，第二损失函数为噪声去除损失函数确定的；根据第一损失函数、混响去除损失函数以及第三损失函数，确定噪声去除网络的目标损失函数，并根据目标损失函数对噪声去除网络迭代进行混响去除训练，直至噪声去除网络满足预设条件，其中，第二损失函数为混响去除损失函数确定的。

在一些实施例中，训练子单元可以具体用于：根据第一损失函数、第二损失函数以及第三损失函数，确定预设增强网络的目标损失函数，并根据目标损失函数对预设增强网络迭代进行混响去除训练，直至预设增强网络满足预设条件，得到混响去除网络，其中，第二损失函数为混响去除损失函数确定的；根据第一损失函数、第二损失函数以及第三损失函数，确定混响去除网络的目标损失函数，并根据目标损失函数对混响去除网络迭代进行噪声去除训练，直至混响去除网络满足预设条件，其中，第二损失函数为噪声去除损失函数确定的。

在一些实施例中，样本获取模块可以具体用于：获取第一样本语音，第一样本语音为基于麦克风采集的含有噪声的语音；对第一样本语音进行语音特征提取，得到噪声语音特征；获取第二样本语音，第二样本语音包括不带噪声带混响的干净语音以及不带噪声不带混响的干净语音；对第二样本语音进行语音特征提取，得到第一干净语音标签以及第二干净语音标签；根据第一样本语音以及第二样本语音，确定深度聚类标注。

在一些实施例中，语音增强模型包括隐藏层、深度聚类层、语音掩码推断层以及噪声掩码推断层，增强模块520可以具体用于：将初始语音特征输入隐藏层，通过隐藏层生成中间特征；将中间特征输入语音掩码推断层，通过语音掩码推断层生成干净语音特征，并将干净语音特征作为目标语音特征；

计算模型530可以具体用于对目标语音特征进行特征逆变换，计算出去除噪声和混响的目标语音。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供的方案，可以获取通话语音的初始语音特征，并将初始语音特征输入至预先训练的语音增强模型，得到语音增强模型输出的目标语音特征，该语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到，进一步地，根据目标语音特征，计算出去除噪声和混响的目标语音。由此，通过不同损失函数对预先设置的语音增强模型进行模型训练，引导模型高效地对语音中的噪声和混响进行去除，在降低模型计算资源的同时，提高语音增强的性能。

如图10所示，本申请实施例还提供一种计算机设备600，该计算机设备600包括处理器610、存储器620、电源630和输入单元640，存储器620存储有计算机程序指令，计算机程序指令被处理器610调用时，可实执行上述的实施例提供的各种方法步骤。本领域技术人员可以理解，图中示出的计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器610可以包括一个或多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，调用存储在存储器620内的数据，执行电池管理系统的各种功能和处理数据，以及执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(CentralProcessing Unit，CPU)、图像处理器610(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器620(Random Access Memory，RAM)，也可以包括只读存储器620(Read-Only Memory)。存储器620图可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地，存储器620还可以包括存储器控制器，以提供处理器610对存储器620的访问。

电源630可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源630还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

输入单元640，该输入单元640可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备600还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器610会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器620中，并由处理器610来运行存储在存储器620中的应用程序，从而实现前述实施例提供的各种方法步骤。

如图11所示，本申请实施例还提供一种计算机可读存储介质700，该计算机可读存储介质700中存储有计算机程序指令710，计算机程序指令710可被处理器调用以执行上述实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

获取通话语音的初始语音特征；

将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；

根据所述目标语音特征，计算出去除噪声和混响的目标语音。

2.根据权利要求1所述的方法，其特征在于，所述语音增强模型通过如下步骤训练得到：

获取训练样本集合，所述训练样本集合包括噪声语音特征、干净语音标签、噪声语音标签以及深度聚类标注；

获取预设增强网络，所述预设增强网络包括隐藏层、深度聚类层以及掩码推断层；

通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，得到训练后的目标增强网络作为所述语音增强模型。

3.根据权利要求2所述的方法，其特征在于，所述掩码推断层包括语音掩码推断层以及噪声掩码推断层，所述通过所述训练样本集合对预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：

将所述噪声语音特征输入所述隐藏层，通过所述隐藏层生成中间训练特征；

将所述中间训练特征输入所述深度聚类层，通过所述深度聚类层生成聚类训练标注；

将所述中间训练特征输入所述语音掩码推断层，通过所述语音掩码推断层生成干净语音训练特征；

将所述中间训练特征输入所述噪声掩码推断层，通过所述噪声掩码推断层生成噪声语音训练特征；

根据所述干净语音标签、所述噪声语音标签、所述深度聚类标注、所述干净语音训练特征、所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件。

4.根据权利要求3所述的方法，其特征在于，所述根据所述干净语音标签、所述噪声语音标签、所述深度聚类标注、所述干净语音训练特征、所述噪声语音训练特征以及所述聚类训练标注构建目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：

根据所述聚类训练标注和所述深度聚类标注，确定第一损失函数；

根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数；

根据所述噪声语音训练特征和所述噪声语音标签，确定第三损失函数；

根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件。

5.根据权利要求4所述的方法，其特征在于，所述干净语音标签包括第一干净语音标签，所述根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数，包括：

根据所述干净语音训练特征和所述第一干净语音标签，确定噪声去除损失函数；

将所述噪声去除损失函数作为第二损失函数，所述第一干净语音标签为基于不带噪声带混响的语音获取的语音标签。

6.根据权利要求4所述的方法，其特征在于，所述干净语音标签包括第二干净语音标签，所述根据所述干净语音训练特征和所述干净语音标签，确定第二损失函数，包括：

根据所述干净语音训练特征和所述第二干净语音标签，确定混响去除损失函数；

将所述混响去除损失函数作为第二损失函数，所述第二干净语音标签为基于不带噪声不带混响的语音获取的语音标签。

7.根据权利要求5或6所述的方法，其特征在于，所述根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：

获取应用场景属性；

根据所述应用场景属性确定对应的分布训练策略；

基于所述分布训练策略，根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件。

8.根据权利要求7所述的方法，其特征在于，所述分布训练策略包括第一分布训练策略，所述基于所述分布训练策略，根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：

在所述分布训练策略为第一分布训练策略时，根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络迭代进行噪声去除训练，直至所述预设增强网络满足预设条件，得到噪声去除网络，其中，所述第二损失函数为噪声去除损失函数确定的；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述噪声去除网络的目标损失函数，并根据所述目标损失函数对所述噪声去除网络迭代进行混响去除训练，直至所述噪声去除网络满足预设条件，其中，所述第二损失函数为混响去除损失函数确定的。

9.根据权利要求7所述的方法，其特征在于，所述分布训练策略包括第二分布训练策略，所述基于所述分布训练策略，根据所述第一损失函数，所述第二损失函数和所述第三损失函数，构建所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络分步进行噪声去除训练以及混响去除训练，直至所述预设增强网络满足预设条件，包括：

在所述分布训练策略为第二分布训练策略时，根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述预设增强网络的目标损失函数，并根据所述目标损失函数对所述预设增强网络迭代进行混响去除训练，直至所述预设增强网络满足预设条件，得到混响去除网络，其中，所述第二损失函数为混响去除损失函数确定的；

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数，确定所述混响去除网络的目标损失函数，并根据所述目标损失函数对所述混响去除网络迭代进行噪声去除训练，直至所述混响去除网络满足预设条件，其中，所述第二损失函数为噪声去除损失函数确定的。

10.根据权利要求2所述的方法，其特征在于，所述获取训练样本集合，包括：

获取第一样本语音，所述第一样本语音为基于麦克风采集的含有噪声和混响的语音；

对所述第一样本语音进行语音特征提取，得到噪声语音特征；

获取第二样本语音，所述第二样本语音包括不带噪声带混响的干净语音以及不带噪声不带混响的干净语音；

对所述第二样本语音进行语音特征提取，得到第一干净语音标签以及第二干净语音标签；

根据所述第一样本语音以及所述第二样本语音，确定深度聚类标注。

11.根据权利要求1所述的方法，其特征在于，所述语音增强模型包括隐藏层、深度聚类层、语音掩码推断层以及噪声掩码推断层，所述将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，包括：

将所述初始语音特征输入所述隐藏层，通过所述隐藏层生成中间特征；

将所述中间特征输入所述语音掩码推断层，通过所述语音掩码推断层生成干净语音特征，并将所述干净语音特征作为目标语音特征；

所述根据所述目标语音特征，计算出去除噪声和混响的目标语音，包括：

对所述目标语音特征进行特征逆变换，计算出去除噪声和混响的目标语音。

12.一种语音处理装置，其特征在于，所述装置包括：

获取模块，用于获取通话语音的初始语音特征；

增强模块，用于将所述初始语音特征输入至预先训练的语音增强模型，得到所述语音增强模型输出的目标语音特征，所述语音增强模型为基于深度聚类损失函数和掩码推断损失函数进行的分步训练得到；

计算模型，用于根据所述目标语音特征，计算出去除噪声和混响的目标语音。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1～11任一项所述的方法。

14.一种计算机设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1～11任一项所述的方法。

15.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机执行如权利要求1～11任一项所述的方法。