CN113035176B

CN113035176B - 语音数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113035176B
Application number: CN202110255908.7A
Authority: CN
Inventors: 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-03-10
Anticipated expiration: 2041-03-09
Also published as: CN113035176A

Abstract

本公开揭示了一种语音数据处理方法、装置、计算机设备及存储介质，属于声音处理技术领域。该方法包括：通过在语音数据样本中添加噪声数据和混响数据得到的加噪语音数据样本对该语音处理模型进行训练的过程中，分别基于语音增强模型部分的输出结果，以及任务处理模型部分的输出结果计算两个损失函数值，再基于两个损失函数值获得一个总损失函数值，并通过这个总损失函数值分别对语音增强模型部分和任务处理模型部分进行参数更新，使得语音增强模型部分能够向着语音处理能力提升的方向进行优化，从而提高了整个语音处理模型对于语音任务处理的准确性。

Description

语音数据处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及声音处理技术领域，特别涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术

在语音处理技术中，对待处理的语音数据进行噪声消除，是提高语音处理效果的终端技术手段。

在相关技术中，可以通过机器学习模型实现对语音数据的去噪和语音处理。例如，对语音中添加噪声，得到带噪声的语音，然后通过带噪声的语音来训练语音增强模型；在语音增强模型训练完成后，通过语音增强模型对带噪声的语音进行处理，得到去噪的语音，然后通过去噪的语音训练语音处理模型。在应用时，将待处理的语音数据输入语音增强模型，并将语音增强模型的输出结果再输入到语音处理模型，得到语音处理结果。

然而，上述方案训练得到的语音增强模型对输入的语音数据进行处理时，会降低语音质量，导致后续语音处理模型进行语音处理的准确性较低。

发明内容

本公开提供一种语音数据处理方法、装置、计算机设备及存储介质。所述技术方案包括以下内容。

根据本公开实施例的一个方面，提供了一种语音数据处理方法，所述方法包括：

获取第一训练数据；所述第一训练数据包括第一语音数据样本、第一噪声数据和第一混响数据；

根据所述第一语音数据样本、所述第一噪声数据和所述第一混响数据，生成第一加噪语音数据样本；

通过语音处理模型中的语音增强模型部分，对所述第一加噪语音数据样本进行去噪处理，获得第一去噪结果，所述第一去噪结果中包含第一去噪语音数据样本；

通过所述语音处理模型中的任务处理模型部分，对所述第一去噪语音数据样本执行指定的语音处理任务，获得预测处理结果；

根据所述第一去噪结果，获取第一损失函数值；所述第一损失函数值用于指示所述语音增强模型部分对所述第一加噪语音数据样本进行去噪处理时产生的损失；

根据所述预测处理结果，获取第二损失函数值；所述第二损失函数值用于指示所述语音处理模型对所述第一加噪语音数据样本进行去噪处理和执行所述指定的语音处理任务时产生的损失；

根据所述第一损失函数值和所述第二损失函数值获取总损失函数值；

通过所述总损失函数值，分别对所述语音增强模型部分和所述任务处理模型部分进行参数更新，获得训练后的所述语音处理模型。

在一种可能的实现方式中，所述第一去噪结果中还包含预测变换矩阵；所述第一去噪语音数据样本是所述第一加噪语音数据样本与所述预测变换矩阵相乘得到的；

所述根据所述第一去噪结果，获取第一损失函数值，包括：

根据所述第一语音数据样本、所述第一噪声数据和所述第一混响数据，获取实际变换矩阵；

将所述实际变换矩阵与所述预测变换矩阵输入第一损失函数，获得所述第一损失函数值。

在一种可能的实现方式中，所述第一损失函数为均方误差损失函数。

在一种可能的实现方式中，所述根据所述第一去噪结果，获取第一损失函数值，包括：

将所述第一去噪语音数据样本以及所述第一语音数据样本输入第一损失函数，获得所述第一损失函数值。

在一种可能的实现方式中，所述第一训练数据对应有任务标签；所述任务标签是所述第一语音数据样本对应所述指定的语音处理任务的实际结果；

所述根据所述预测处理结果，获取第二损失函数值，包括：

将所述预测处理结果，以及所述任务标签输入第二损失函数，获得所述第二损失函数输出的所述第二损失函数值。

在一种可能的实现方式中，所述根据所述第一损失函数值和所述第二损失函数值获取总损失函数值，包括：

对所述第一损失函数值和所述第二损失函数值取和，获得所述总损失函数值；

或者，对所述第一损失函数值和所述第二损失函数值进行加权取和，获得所述总损失函数值；

或者，对所述第一损失函数值和所述第二损失函数值取平均值，获得所述总损失函数值；

或者，对所述第一损失函数值和所述第二损失函数值进行加权平均，获得所述总损失函数值。

在一种可能的实现方式中，所述获取第一训练数据之前，还包括：

获取第二训练数据；所述第二训练数据包括第二语音数据样本、第二噪声数据和第二混响数据；

通过所述语音增强模型部分，对第二加噪语音数据样本进行去噪处理，获得第二去噪结果，所述第二去噪结果中包含第二去噪语音数据样本；所述第二加噪语音数据样本是根据所述第二语音数据样本、所述第二噪声数据和所述第二混响数据生成的；

根据所述第二去噪结果，获取第三损失函数值；所述第三损失函数值用于指示所述语音增强模型部分对所述第二加噪语音数据样本进行去噪处理时产生的损失；

根据所述第三损失函数值对所述语音增强模型部分进行参数更新。

在一种可能的实现方式中，所述方法还包括：

通过所述语音增强模型部分，对目标语音数据进行去噪处理，获得去噪语音数据；

通过所述任务处理模型部分，对所述去噪语音数据执行所述指定的语音处理任务，获得所述目标语音数据对应所述指定的语音处理任务的处理结果。

在一种可能的实现方式中，所述指定的语音处理任务包括：声纹识别任务、语音识别任务以及情感识别任务中的至少一种。

根据本公开实施例的一个方面，提供了一种语音数据处理装置，所述装置包括：

训练数据获取模块，用于获取第一训练数据；所述第一训练数据包括第一语音数据样本、第一噪声数据和第一混响数据；

生成模块，用于根据所述第一语音数据样本、所述第一噪声数据和所述第一混响数据，生成第一加噪语音数据样本；

语音增强模块，用于通过语音处理模型中的语音增强模型部分，对所述第一加噪语音数据样本进行去噪处理，获得第一去噪结果，所述第一去噪结果中包含第一去噪语音数据样本；

任务处理模块，用于通过所述语音处理模型中的任务处理模型部分，对所述第一去噪语音数据样本执行指定的语音处理任务，获得预测处理结果；

第一损失获取模块，用于根据所述第一去噪结果，获取第一损失函数值；所述第一损失函数值用于指示所述语音增强模型部分对所述第一加噪语音数据样本进行去噪处理时产生的损失；

第二损失获取模块，用于根据所述预测处理结果，获取第二损失函数值；所述第二损失函数值用于指示所述语音处理模型对所述第一加噪语音数据样本进行去噪处理和执行所述指定的语音处理任务时产生的损失；

总损失获取模块，用于根据所述第一损失函数值和所述第二损失函数值获取总损失函数值；

参数更新模块，用于通过所述总损失函数值，分别对所述语音增强模型部分和所述任务处理模型部分进行参数更新，获得训练后的所述语音处理模型。

所述第一损失获取模块，用于，

在一种可能的实现方式中，所述第一损失获取模块，用于将所述第一去噪语音数据样本以及所述第一语音数据样本输入第一损失函数，获得所述第一损失函数值。

所述第二损失获取模块，用于将所述预测处理结果，以及所述任务标签输入第二损失函数，获得所述第二损失函数输出的所述第二损失函数值。

在一种可能的实现方式中，所述总损失获取模块，用于，

在一种可能的实现方式中，所述训练数据获取模块，还用于在获取第一训练数据之前，获取第二训练数据；所述第二训练数据包括第二语音数据样本、第二噪声数据和第二混响数据；

所述语音增强模块，还用于通过所述语音增强模型部分，对第二加噪语音数据样本进行去噪处理，获得第二去噪结果，所述第二去噪结果中包含第二去噪语音数据样本；所述第二加噪语音数据样本是根据所述第二语音数据样本、所述第二噪声数据和所述第二混响数据叠生成的；

所述第一损失获取模块，还用于根据所述第二去噪结果，获取第三损失函数值；所述第三损失函数值用于指示所述语音增强模型部分对所述第二加噪语音数据样本进行去噪处理时产生的损失；

所述参数更新模块，还用于根据所述第三损失函数值对所述语音增强模型部分进行参数更新。

在一种可能的实现方式中，所述装置还包括：

所述语音增强模块，还用于通过所述语音增强模型部分，对目标语音数据进行去噪处理，获得去噪语音数据；

所述任务处理模块，还用于通过所述任务处理模型部分，对所述去噪语音数据执行所述指定的语音处理任务，获得所述目标语音数据对应所述指定的语音处理任务的处理结果。

根据本公开实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现上述的语音数据处理方法。

根据本公开实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中包含处理器的可执行指令，处理器调用所述可执行指令以实现上述的语音数据处理方法。

根据本公开实施例的一个方面，提供了一种计算机程序或计算机程序产品。所述计算机程序产品或计算机程序中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现上述的语音数据处理方法。

本公开的实施例提供的技术方案至少可以包括以下有益效果：

通过设置一个包含语音增强模型部分和任务处理模型部分的语音处理模型，通过在语音数据样本中添加噪声数据和混响数据得到的加噪语音数据样本对该语音处理模型进行训练的过程中，分别基于语音增强模型部分的输出结果，以及任务处理模型部分的输出结果计算两个损失函数值，再基于两个损失函数值获得一个总损失函数值，并通过这个总损失函数值分别对语音增强模型部分和任务处理模型部分进行参数更新，在上述模型训练过程中，由于同时考虑了语音增强模型部分的损失以及任务处理模型部分的损失，能够使得语音增强模型部分的参数更新能够与语音处理任务更加匹配，使得语音增强模型部分能够向着语音处理能力提升的方向进行优化，从而提高了整个语音处理模型对于语音任务处理的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的语音数据处理系统的系统构成图；

图2是根据一示例性实施例示出的一种语音数据处理方法的流程图；

图3是根据一示例性实施例示出的一种语音数据处理方法的流程图；

图4是图3所示实施例涉及的一种语音处理模型训练框架图；

图5是根据一示例性实施例示出的一种语音数据处理装置的框图；

图6是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“若干个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1是本公开一示例性实施例示出的一种语音数据处理系统的系统构成图。如图1所示，该系统包括语音采集设备110、模型训练设备120以及语音处理设备130。

其中，语音采集设备110包括用于采集语音数据样本的语音采集设备110a，比如，该语音采集设备110a可以是设置在专业的录音棚中的录音设备，该录音棚中可以形成低噪声/无噪声、以及低混响/无混响的环境。

语音采集设备110还包括用于采集待处理的语音数据的语音采集设备110b，例如，该语音采集设备110b可以是正常环境中的录音设备，比如正常环境中的录音笔、录音机、具有录音功能的移动终端、以及监听设备等等。

模型训练设备120可以是开发人员所使用的个人电脑、个人工作站或者服务器。

语音处理设备130可以是智能手机、平板电脑等智能移动终端；或者，语音处理设备130也可以是笔记本电脑、个人电脑、个人工作站或者服务器等固定式计算机设备。

在一种可能的实现方式中，上述模型训练设备120和语音处理设备130可以是同一个实体设备，比如，模型训练设备120和语音处理设备130可以实现为同一台服务器。或者，上述模型训练设备120和语音处理设备130可以是不同的实体设备，比如，模型训练设备120可以实现为服务器，语音处理设备130可以实现为个人电脑或者个人工作站。

在本申请实施例中，在模型训练阶段，语音采集设备110a采集低噪声/无噪声、低混响/无混响的语音数据样本；开发人员针对语音数据样本设置相应的标签后，将语音数据样本输入模型训练设备120；模型训练设备120对语音数据样本添加预先设定的噪声数据和混响数据，得到加噪语音数据样本，并通过加噪语音数据样本和预先设置好的标签，训练得到包含语音增强模型部分和任务处理模型部分的语音处理模型。

在模型应用阶段，语音采集设备110b采集到待处理的语音数据后，将待处理的语音数据输入到语音处理模型中，依次通过语音增强模型部分和任务处理模型部分的处理后，输出任务处理结果。

图2是根据一示例性实施例示出的一种语音数据处理方法的流程图，该语音数据处理方法可以由计算机设备执行，其中，该计算机设备可以是图1所示系统中的模型训练设备120。如图2所示，该语音数据处理方法可以包括以下步骤。

在步骤201中，获取第一训练数据；该第一训练数据包括第一语音数据样本、第一噪声数据和第一混响数据。

在步骤202中，根据第一语音数据样本、第一噪声数据和第一混响数据，生成第一加噪语音数据样本。

在步骤203中，通过语音处理模型中的语音增强模型部分，对第一加噪语音数据样本进行去噪处理，获得第一去噪结果，该第一去噪结果中包含第一去噪语音数据样本。

在步骤204中，通过该语音处理模型中的任务处理模型部分，对该第一去噪语音数据样本执行指定的语音处理任务，获得预测处理结果。

在步骤205中，根据该第一去噪结果，获取第一损失函数值；该第一损失函数值用于指示该语音增强模型部分对该第一加噪语音数据样本进行去噪处理时产生的损失。

在步骤206中，根据该预测处理结果，获取第二损失函数值；该第二损失函数值用于指示该语音处理模型对该第一加噪语音数据样本进行去噪处理和执行该指定的语音处理任务时产生的损失。

在步骤207中，根据该第一损失函数值和该第二损失函数值获取总损失函数值。

在步骤208中，通过该总损失函数值，分别对该语音增强模型部分和该任务处理模型部分进行参数更新，获得训练后的该语音处理模型。

在一种可能的实现方式中，该第一去噪结果中还包含预测变换矩阵；该第一去噪语音数据样本是该第一加噪语音数据样本与该预测变换矩阵相乘得到的；

该根据该第一去噪结果，获取第一损失函数值，包括：

根据该第一语音数据样本、该第一噪声数据和该第一混响数据，获取实际变换矩阵；

将该实际变换矩阵与该预测变换矩阵输入第一损失函数，获得该第一损失函数值。

在一种可能的实现方式中，该第一损失函数为均方误差损失函数。

在一种可能的实现方式中，该根据该第一去噪结果，获取第一损失函数值，包括：

将该第一去噪语音数据样本以及该第一语音数据样本输入第一损失函数，获得该第一损失函数值。

在一种可能的实现方式中，该第一训练数据对应有任务标签；该任务标签是该第一语音数据样本对应该指定的语音处理任务的实际结果；

该根据该预测处理结果，获取第二损失函数值，包括：

将该预测处理结果，以及该任务标签输入第二损失函数，获得该第二损失函数输出的该第二损失函数值。

在一种可能的实现方式中，该根据该第一损失函数值和该第二损失函数值获取总损失函数值，包括：

对该第一损失函数值和该第二损失函数值取和，获得该总损失函数值；

或者，对该第一损失函数值和该第二损失函数值进行加权取和，获得该总损失函数值；

或者，对该第一损失函数值和该第二损失函数值取平均值，获得该总损失函数值；

或者，对该第一损失函数值和该第二损失函数值进行加权平均，获得该总损失函数值。

在一种可能的实现方式中，获取第一训练数据之前，还包括：

获取第二训练数据；该第二训练数据包括第二语音数据样本、第二噪声数据和第二混响数据；

通过该语音增强模型部分，对第二加噪语音数据样本进行去噪处理，获得第二去噪结果，该第二去噪结果中包含第二去噪语音数据样本；该第二加噪语音数据样本是根据该第二语音数据样本、该第二噪声数据和该第二混响数据生成的；

根据该第二去噪结果，获取第三损失函数值；该第三损失函数值用于指示该语音增强模型部分对该第二加噪语音数据样本进行去噪处理时产生的损失；

根据该第三损失函数值对该语音增强模型部分进行参数更新。

在一种可能的实现方式中，该方法还包括：

通过该语音增强模型部分，对目标语音数据进行去噪处理，获得去噪语音数据；

通过该任务处理模型部分，对该去噪语音数据执行该指定的语音处理任务，获得该目标语音数据对应该指定的语音处理任务的处理结果。

在一种可能的实现方式中，该指定的语音处理任务包括：声纹识别任务、语音识别任务以及情感识别任务中的至少一种。

综上所述，本公开实施例所示的方案，设置一个包含语音增强模型部分和任务处理模型部分的语音处理模型，通过在语音数据样本中添加噪声数据和混响数据得到的加噪语音数据样本对该语音处理模型进行训练的过程中，分别基于语音增强模型部分的输出结果，以及任务处理模型部分的输出结果计算两个损失函数值，再基于两个损失函数值获得一个总损失函数值，并通过这个总损失函数值分别对语音增强模型部分和任务处理模型部分进行参数更新，在上述模型训练过程中，由于同时考虑了语音增强模型部分的损失以及任务处理模型部分的损失，能够使得语音增强模型部分的参数更新能够与语音处理任务更加匹配，使得语音增强模型部分能够向着语音处理能力提升的方向进行优化，从而提高了整个语音处理模型对于语音任务处理的准确性。

语音通信是人类传播信息，进行交流时使用最多、最自然、最基本的一种手段。而这种通信中的信息载体—语音信号却是一种时变的、非平稳的信号，只有在很短的一段时间内(通常为10～30ms)才被认为是平稳的。在语音的产生、处理和传输过程中，不可避免地会受到环境噪声的干扰，使得语音信号处理系统，如语音编码和语音识别系统的性能大大降低。为了改善语音质量，提高语音的可懂度，人们根据语音和噪声的特点，采取各种语音增强方法抑制背景噪声。但是语音信号去噪是一个很复杂的问题，必须考虑语音本身的特点、千变万化的噪声的特点、人耳对语音的感知特性以及大脑如何处理信号等问题，所以，语音去噪或去除信道的技术的研究是语音信号处理中永恒的课题。

本申请上述所示的方案，可以应用在多种语音处理任务的模型训练中，包括且不限于声纹识别(例如识别语音中的说话人身份)、语音识别(例如，识别语音对应的文本等)以及情感识别(例如，识别语音中的说话人的情绪)等等。训练得到的模型可以在执行语音处理任务之前，对输入的语音数据进行语音增强处理。

以声纹识别(Voice Print Recognition，VPR)为例，声纹识别也称为说话人识别(Speaker Recognition)，主要可以分为两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。其中，说话人辨认是指判断某段语音是若干人中的哪一个所说的，可以视为“多选一”问题；而说话人确认是指确认某段语音是否是指定的某个人所说的，可以视为“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要说话人辨认技术，而银行交易时则需要说话人确认技术。不管是说话人辨认还是说话人确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。

在噪音或者远场的条件下，声纹识别的性能会很大程度上降低，因此，通过本申请上述实施例所示的方案，能够将降噪和声纹识别两者结合，以声纹识别为目标，联合训练语音增强部分和任务处理部分，使得训练得到的模型可以适应多种不同的环境条件。

图3是根据一示例性实施例示出的一种语音数据处理方法的流程图，该语音数据处理方法可以由上述图1所示系统中的各个计算机设备执行。如图3所示，该语音数据处理方法可以包括以下步骤。

在步骤301中，获取第一训练数据；该第一训练数据包括第一语音数据样本、第一噪声数据和第一混响数据。

在本申请实施例中，开发人员可以预先准备若干个第一训练数据，并将第一训练数据输入至模型训练设备中。

其中，第一训练数据中的第一语音数据样本可以通过在低噪声/无噪声，以及低混响/无混响的环境中录制得到，第一噪声数据和第一混响数据可以按照其它方式生成，比如，通过声音生成软件自动生成。

在步骤302中，通过语音处理模型中的语音增强模型部分，对第一加噪语音数据样本进行去噪处理，获得第一去噪结果，该第一去噪结果中包含第一去噪语音数据样本；该第一加噪语音数据样本是根据该第一语音数据样本、该第一噪声数据和该第一混响数据生成的。

在本申请实施例中，模型训练设备可以对第一训练数据中的第一语音数据样本、第一噪声数据和第一混响数据进行叠加，得到第一加噪语音数据样本。

在一种可能的实现方式中，第一语音数据样本中包含若干条语音数据样本，相应的，第一噪声数据中也包含若干条噪声数据，第一混响数据中包含若干条混响数据，相应的，第一加噪语音数据样本中也包含若干条加噪语音数据样本；模型训练设备可以对第一语音数据样本中的一条语音样本数据，叠加第一噪声数据中的一条噪声数据和第一混响数据中的一条混响数据，得到第一加噪语音数据样本中的一条加噪语音数据样本；其中上述语音样本数据、噪声数据和混响数据的组合不同，得到的加噪语音数据样本也不同；通过上述方式，模型训练设备可以组合得到若干条加噪语音数据样本。

比如，请参考图4，其示出了本申请实施例涉及的一种语音处理模型训练框架图。如图4所示，第一语音数据样本401与第一噪声数据402以及第一混响数据403叠加，得到第一加噪语音数据样本404，该第一加噪语音数据样本404输入语音处理模型中的语音增强模型部分，得到第一去噪结果405，该第一去噪结果405中包含第一去噪语音数据样本。

在本申请实施例中，模型训练设备除了对第一训练数据中的第一语音数据样本、第一噪声数据和第一混响数据直接进行叠加得到第一加噪语音数据样本之外，也可以通过其它方式生成第一加噪语音数据样本，例如，模型训练设备可以对第一噪声数据或者第一混响数据进行预处理，比如音量增强、音量抑制处理、频率调整处理，之后，再将第一语音数据样本与处理后的第一噪声数据和第一混响数据进行叠加，得到第一加噪语音数据样本。

在本申请实施例中，模型训练设备在通过语音增强模型部分对第一加噪语音数据样本进行去噪处理时，可以将第一加噪语音数据样本的语谱图输入至语音增强模型部分，得到语音增强模型部分输出的去噪语谱图(对应上述第一去噪语音数据样本)。

在步骤303中，通过该语音处理模型中的任务处理模型部分，对该第一去噪语音数据样本执行指定的语音处理任务，获得预测处理结果。

在本申请实施例中，模型训练设备在一轮训练过程中，将语音增强模型部分输出的第一去噪语音数据样本(例如上述去噪语谱图)直接输入至任务处理模型部分，获得任务处理模型部分输出的预测处理结果，其中，该预测处理结果可以是语音处理任务对应的声纹识别结果、语音识别结果或者情绪识别结果等等。

例如，请参考图4，第一去噪语音数据样本被输入至语音处理模型中的任务处理模型部分，得到预测处理结果406。

在步骤304中，根据该第一去噪结果，获取第一损失函数值；该第一损失函数值用于指示该语音增强模型部分对该第一加噪语音数据样本进行去噪处理时产生的损失。

该根据该第一去噪结果，获取第一损失函数值，包括：

在上述可能的实现方式中，语音增强模型部分可以是一个5层卷积网络，输入为语音数据的语谱图特征，输出为语谱图的变换矩阵，该变换矩阵用于将加噪的语谱图还原成原始的语谱图，例如，该变换矩阵定义如下：

其中，S表示原始信号(比如上述第一语音数据样本)，N表示噪声(比如上述第一噪声数据)，R表示混响信号(比如上述第一混响数据)。网络训练的目标为该变换矩阵T，网络训练的损失函数可以为均方误差损失函数。

例如，在图4中，第一去噪结果405中还包含预测变换矩阵，模型训练设备还通过第一语音数据样本401与第一噪声数据402以及第一混响数据403，计算得到实际变换矩阵407，然后将预测变换矩阵和实际变换矩阵407输入均方误差损失函数，即可以得到上述第一损失函数值408。

本申请实施例中，通过变换矩阵对语谱图进行去噪的方法，可以保证变换之后的语谱图的有效性。

在另一种可能的实现方式中，该根据该第一去噪结果，获取第一损失函数值，包括：

在本申请实施例中，模型训练设备也可以通过第一去噪结果中的第一去噪语音数据样本，以及未添加噪声和混响的第一语音数据样本，直接计算得到上述第一损失函数值。

在这种可能的实现方案中，由于不需要语音增强模型部分输出变换矩阵，因此，对于语音增强模型部分的算法原理和模型架构不做限制，能够适用于不同类型的语音增强模型。

在步骤305中，根据该预测处理结果，获取第二损失函数值；该第二损失函数值用于指示该语音处理模型对该第一加噪语音数据样本进行去噪处理和执行该指定的语音处理任务时产生的损失。

在另一种可能的实现方式中，该第一训练数据对应有任务标签；该任务标签是该第一语音数据样本对应该指定的语音处理任务的实际结果；

根据该预测处理结果，获取第二损失函数值，包括：

其中，上述任务标签可以是开发人员预先根据第一语音数据样本进行设置的，该第一语音数据样本对应指定的语音处理任务的实际结果，比如，该任务标签可以是第一语音数据样本的声纹信息、语音内容文本或者说话人的实际情绪等等。

在一种可能的实现方式中，上述第二损失函数可以是三元组损失(Triplet)函数。

例如，在图4中，模型训练设备将预测处理结果406和任务标签409输入至三元组损失函数，得到第二损失函数值410。

在步骤306中，根据该第一损失函数值和该第二损失函数值获取总损失函数值。

在一种可能的实现方式中，根据该第一损失函数值和该第二损失函数值获取总损失函数值，包括：

以对该第一损失函数值和该第二损失函数值取和，获得该总损失函数值为例，在图4中，模型训练设备将第一损失函数值408和第二损失函数值410相加，即可以得到总损失函数值411。

在步骤307中，通过该总损失函数值，分别对该语音增强模型部分和该任务处理模型部分进行参数更新，获得训练后的该语音处理模型。

在本申请实施例中，模型训练设备可以通过总损失函数值对语音处理模型中的语音增强模型部分和该任务处理模型部分分别进行参数更新。

例如，在图4中，模型训练设备通过总损失函数411更新语音增强模型部分，并且，还通过总损失函数411更新任务处理模型部分。

在上述图4所示的网络结构中，干净的语音通过加噪和加混响得到噪声数据，提取语谱图特征后送入语音增强模型部分，通过均方误差损失可以训练目标T’，即上述预测变换矩阵；将得到的T’与噪声数据的语谱图相乘，达到去噪的目的，然后将其送入任务处理模型部分(比如声纹识别模型部分)，根据Triplet的损失函数可以训练任务处理模型部分。而通过将上述两个损失函数相加，可以同时训练整体的语音处理模型。

在一种可能的实现方式中，在获取第一训练数据之前，还包括：

其中，上述通过该语音增强模型部分，对第二加噪语音数据样本进行去噪处理，获得第二去噪结果，以及根据该第二去噪结果，获取第三损失函数值的过程，与上述步骤302和步骤304的执行过程类似，此处不再赘述。

在本申请实施例中，通过第二训练数据训练语音增强模型部分时，可以只通过根据该第二去噪结果获取到的第三损失函数来更新语音增强模型部分的参数。

在本申请实施例中，为使得模型更好收敛，可以先训练语音增强网络，然后再整体训练，通过微调语音增强网络，使得模型的训练更稳定。

在本申请实施例中，上述第一训练数据和第二训练数据可以是相同的训练数据，或者，上述第一训练数据和第二训练数据业可以是不同的训练数据。

在步骤308中，通过该语音增强模型部分，对目标语音数据进行去噪处理，获得去噪语音数据。

其中，上述目标语音数据可以是待进行语音任务处理的数据，例如，目标语音数据可以是用户终端/监听设备录制的一段录音数据。

在步骤309中，通过该任务处理模型部分，对该去噪语音数据执行该指定的语音处理任务，获得该目标语音数据对应该指定的语音处理任务的处理结果。

例如，在图4中，上述语音处理模型训练完成后，语音处理设备将目标语音数据输入语音增强模型部分，得到去噪语音数据，然后，语音处理设备将去噪语音数据再输入任务处理模型部分，得到语音处理任务的处理结果，比如声纹识别结果、语音识别结果或者情绪识别结果等。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种语音数据处理装置的框图，该语音数据处理装置可以用于计算机设备中。如图5所示，该语音数据处理装置可以包括：

训练数据获取模块501，用于获取第一训练数据；所述第一训练数据包括第一语音数据样本、第一噪声数据和第一混响数据；

生成模块502，用于根据第一语音数据样本、第一噪声数据和第一混响数据，生成第一加噪语音数据样本；

语音增强模块503，用于通过语音处理模型中的语音增强模型部分，对所述第一加噪语音数据样本进行去噪处理，获得第一去噪结果，所述第一去噪结果中包含第一去噪语音数据样本；

任务处理模块504，用于通过所述语音处理模型中的任务处理模型部分，对所述第一去噪语音数据样本执行指定的语音处理任务，获得预测处理结果；

第一损失获取模块505，用于根据所述第一去噪结果，获取第一损失函数值；所述第一损失函数值用于指示所述语音增强模型部分对所述第一加噪语音数据样本进行去噪处理时产生的损失；

第二损失获取模块506，用于根据所述预测处理结果，获取第二损失函数值；所述第二损失函数值用于指示所述语音处理模型对所述第一加噪语音数据样本进行去噪处理和执行所述指定的语音处理任务时产生的损失；

总损失获取模块507，用于根据所述第一损失函数值和所述第二损失函数值获取总损失函数值；

参数更新模块508，用于通过所述总损失函数值，分别对所述语音增强模型部分和所述任务处理模型部分进行参数更新，获得训练后的所述语音处理模型。

所述第一损失获取模块505，用于，

在一种可能的实现方式中，所述第一损失获取模块505，用于将所述第一去噪语音数据样本以及所述第一语音数据样本输入第一损失函数，获得所述第一损失函数值。

所述第二损失获取模块506，用于将所述预测处理结果，以及所述任务标签输入第二损失函数，获得所述第二损失函数输出的所述第二损失函数值。

在一种可能的实现方式中，所述总损失获取模块507，用于，

在一种可能的实现方式中，所述训练数据获取模块501，还用于在获取第一训练数据之前，获取第二训练数据；所述第二训练数据包括第二语音数据样本、第二噪声数据和第二混响数据；

所述语音增强模块503，还用于通过所述语音增强模型部分，对第二加噪语音数据样本进行去噪处理，获得第二去噪结果，所述第二去噪结果中包含第二去噪语音数据样本；所述第二加噪语音数据样本是根据所述第二语音数据样本、所述第二噪声数据和所述第二混响数据叠生成的；

所述第一损失获取模块505，还用于根据所述第二去噪结果，获取第三损失函数值；所述第三损失函数值用于指示所述语音增强模型部分对所述第二加噪语音数据样本进行去噪处理时产生的损失；

所述参数更新模块508，还用于根据所述第三损失函数值对所述语音增强模型部分进行参数更新。

在一种可能的实现方式中，所述装置还包括：

所述语音增强模块503，还用于通过所述语音增强模型部分，对目标语音数据进行去噪处理，获得去噪语音数据；

所述任务处理模块504，还用于通过所述任务处理模型部分，对所述去噪语音数据执行所述指定的语音处理任务，获得所述目标语音数据对应所述指定的语音处理任务的处理结果。

需要说明的一点是，上述实施例提供的装置在实现其功能时，仅以上述各个功能模块的划分进行举例说明，实际应用中，可以根据实际需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述主要以语音数据处理装置为例，对本公开实施例提供的方案进行了介绍。可以理解的是，上述语音数据处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开中所公开的实施例描述的各示例的模块及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图6是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备600包括中央处理单元601、包括随机存取存储器602和只读存储器603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本公开的各种实施例，所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器601通过执行该一个或一个以上程序来实现图2或图3所示的方法的全部或者部分步骤。

在一示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中包含处理器的可执行指令，例如，该可执行指令可以是单条指令、一段程序、一个或一个以上代码集或者指令集等，处理器可以通过调用上述可执行指令来实现图2或图3所示的方法的全部或者部分步骤。

在一示例性实施例中，还提供了一种计算机程序或计算机程序产品。该计算机程序产品或计算机程序中存储有至少一段程序，该至少一段程序由处理器加载并执行以实现图2或图3所示的方法的全部或者部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

通过语音处理模型中的语音增强模型部分，对所述第一加噪语音数据样本进行去噪处理，获得第一去噪结果，所述第一去噪结果中包含第一去噪语音数据样本以及预测变换矩阵；所述第一去噪语音数据样本是所述第一加噪语音数据样本与所述预测变换矩阵相乘得到的；

根据所述第一语音数据样本、所述第一噪声数据和所述第一混响数据，获取实际变换矩阵；将所述实际变换矩阵与所述预测变换矩阵输入第一损失函数，获得第一损失函数值；所述第一损失函数值用于指示所述语音增强模型部分对所述第一加噪语音数据样本进行去噪处理时产生的损失；

2.根据权利要求1所述的方法，其特征在于，所述第一训练数据对应有任务标签；所述任务标签是所述第一语音数据样本对应所述指定的语音处理任务的实际结果；

所述根据所述预测处理结果，获取第二损失函数值，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失函数值和所述第二损失函数值获取总损失函数值，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取第一训练数据之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种语音数据处理装置，其特征在于，所述装置包括：

语音增强模块，用于通过语音处理模型中的语音增强模型部分，对所述第一加噪语音数据样本进行去噪处理，获得第一去噪结果，所述第一去噪结果中包含第一去噪语音数据样本以及预测变换矩阵；所述第一去噪语音数据样本是所述第一加噪语音数据样本与所述预测变换矩阵相乘得到的；

第一损失获取模块，用于根据所述第一语音数据样本、所述第一噪声数据和所述第一混响数据，获取实际变换矩阵；将所述实际变换矩阵与所述预测变换矩阵输入第一损失函数，获得第一损失函数值；所述第一损失函数值用于指示所述语音增强模型部分对所述第一加噪语音数据样本进行去噪处理时产生的损失；

7.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至5任一所述的语音数据处理方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含处理器的可执行指令，处理器调用所述可执行指令以实现上述权利要求1至5任一所述的语音数据处理方法。