CN110648681B

CN110648681B - 语音增强的方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110648681B
Application number: CN201910918414.5A
Authority: CN
Inventors: 黄�俊; 王燕南
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2024-02-09
Anticipated expiration: 2039-09-26
Also published as: CN110648681A

Abstract

本申请实施例提供了一种语音增强的方法、装置、电子设备及计算机可读存储介质，涉及音频处理技术领域。该方法包括：获取语音增强处理后的语音信号，语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层。本申请实施例实现了减少自适应更新所需要的自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。

Description

语音增强的方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，具体而言，本申请涉及一种语音增强的方法、装置、电子设备及计算机可读存储介质。

背景技术

语音增强(Speech Enhancement)的本质是语音降噪，麦克风采集的语音通常是带有噪声的语音，语音增强的主要目的就是从带噪声的语音中恢复出不带噪声的语音，即干净语音。通过语音增强可以有效抑制各种干扰信号，增强目标语音信号，不仅可以提高语音的可懂度和话音质量，还有助于进行语音识别。

现有技术中语音增强的方式为通过语音增强网络模型对带有噪声的语音进行语音增强处理，但是为了对带有噪声的语音进行语音增强处理后得到更为干净的语音信号，需要对语音增强网络模型进行自适应更新。但是现有技术中在对语音增强网络模型进行自适应更新时是对整个语音增强模型进行自适应更新，从而导致需要的自适应更新数据较多，自适应更新过程较为复杂，进而导致用户体验较差。

发明内容

本申请提供了一种语音增强的方法、装置、电子设备及计算机可读存储介质，可以解决以上至少一项技术问题。技术方案如下：

第一方面，提供了一种语音增强的方法，该方法包括：

获取语音增强处理后的语音信号，语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的；

保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层。

在一种可能的实现方式中，获取语音增强处理后的语音信号，之前还包括：

获取待处理语音信号；

对待处理语音信号进行分帧处理，得到至少两个语音帧；

对各个语音帧进行加窗处理，得到各个加窗处理后的语音帧；

从各个加窗处理后的语音帧中分别提取语音特征，得到待处理语音信号对应的语音特征；

其中，获取语音增强处理后的语音信号，包括：

将待处理语音信号对应的语音特征通过语音增强网络模型进行语音增强处理，得到语音增强处理后的频域信号；

将语音增强处理后的频域信号进行频域转换时域处理，得到语音增强处理后的时域信号。

在另一种可能的实现方式中，基于语音增强后的语音信号对预设网络层进行自适应更新，之前还包括：

确定语音增强处理后的语音信号中信噪比大于预设阈值的语音信号；

对信噪比大于预设阈值的语音信号进行加噪处理，得到加噪处理后的语音信号；

其中，基于语音增强后的语音信号对预设网络层进行自适应更新，包括：

基于加噪处理后的语音信号以及信噪比大于预设阈值的语音信号对预设网络层进行自适应更新。

在另一种可能的实现方式中，语音增强处理后的语音信号为特定类型的语音信号；

基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，包括：

基于特定类型的语音信号对预设网络层进行自适应更新，得到特定的语音信号对应的语音增强模型，以基于更新后的语音增强网络模型对下一次接收到的待处理的特定类型的语音信号进行语音增强处理。

在另一种可能的实现方式中，语音增强处理后的语音信号为各个类型的语音信号；

基于各个类型的语音信号依次对预设网络层进行自适应更新，针对每个类型的语音信号得到预设网络层更新后的网络参数，并针对每个类型的语音信号存储更新后的网络参数，以基于预设更新后的网络参数对下一次接收到待处理语音信号进行语音增强处理，预设更新后的网络参数是下一次接收到的待处理语音信号所属类型对应的网络参数。

在另一种可能的实现方式中，语音增强网络模型为上一次自适应更新后的语音增强网络模型或者为训练后的语音增强网络模型；

确定训练后的语音增强网络模型，包括：

获取训练样本，训练样本包括多个带噪语音信号和各个带噪语音信号对应的干净语音信号；

基于训练样本对原始网络模型进行训练，得到训练后的语音增强网络模型。

在另一种可能的实现方式中，基于语音增强后的语音信号对预设网络层进行自适应更新，包括：

当满足自适应更新条件时，基于语音增强后的语音信号对预设网络层进行自适应更新；

其中，自适应更新条件包括以下至少一项：

达到更新时间；

自适应更新数据达到预设阈值；

待处理信号不满足预设条件。

第二方面，提供了一种语音增强的装置，该装置包括：

第一获取模块，用于获取语音增强处理后的语音信号，语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的；

自适应更新模块，用于保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层。

在一种可能的实现方式中，装置还包括：第二获取模块、分帧处理模块、加窗处理模块、特征提取模块，其中，

第二获取模块，用于获取待处理语音信号；

分帧处理模块，用于对待处理语音信号进行分帧处理，得到至少两个语音帧；

加窗处理模块，用于对各个语音帧进行加窗处理，得到各个加窗处理后的语音帧；

特征提取模块，用于从各个加窗处理后的语音帧中分别提取语音特征，得到待处理语音信号对应的语音特征；

其中，第一获取模块在获取语音增强处理后的语音信号时，具体用于：

在另一种可能的实现方式中，装置还包括：第一确定模块、加噪处理模块，其中，

第一确定模块，用于确定语音增强处理后的语音信号中信噪比大于预设阈值的语音信号；

加噪处理模块，用于对信噪比大于预设阈值的语音信号进行加噪处理，得到加噪处理后的语音信号；

其中，自适应更新模块在基于语音增强后的语音信号对预设网络层进行自适应更新时，具体用于：

自适应更新模块在基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理时，具体用于：

装置还包括：第二确定模块，其中，

第二确定模块在确定训练后的语音增强网络模型时，具体用于：

在另一种可能的实现方式中，自适应更新模块，具体用于当满足自适应更新条件时，基于语音增强后的语音信号对预设网络层进行自适应更新；

其中，自适应更新条件包括以下至少一项：

达到更新时间；

自适应更新数据达到预设阈值；

待处理信号不满足预设条件。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第一方面的任一可能的实现方式所示的语音增强的方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面或者第一方面的任一可能的实现方式所示的语音增强的方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种语音增强的方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请获取通过语音增强网络模型对待处理语音信号进行语音增强处理后的语音信号，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层，即本申请中仅需要对语音增强网络模型的所有批处理层中的至少一层进行自适应更新，并不需要对整个网络进行自适应更新，从而可以减少自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音增强的方法的流程示意图；

图2为本申请实施例提供的一种语音增强的装置结构示意图；

图3为本申请实施例提供的一种语音增强的电子设备的结构示意图；

图4为本申请实施例中基于语音信号得到对应语音特征对数功率谱的方法示意图；

图5为长短期记忆网络(LSTM，Long Short-Term Memory)模型的网络架构示意图；

图6为本申请实施例中提供的一种语音增强方法的具体场景流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

首先，现有技术中通过语音增强网络模型对待处理的语音信号进行语音增强处理，以得到语音增强处理后的语音信号。

其中，针对语音增强网络模型的训练阶段包括：获取多个带噪声的语音信号和各个带噪声的语音信号分别对应的干净语音信号，然后基于多个带噪声的语音信号和各个带噪声的语音信号分别对应的干净语音信号训练并得到一个通用的语音增强网络模型；

其中，针对语音增强网络模型的自适应更新阶段包括：针对不同说话人，利用各自的自适应数据分别对通用的语音增强网络模型的整个网络模型进行自适应更新，得到不同说话人对应的语音增强网络模型。

但是，上述方式中在针对语音增强网络模型的自适应更新阶段中，需要对整个网络模型进行更新，需要的自适应更新数据较多且更新过程复杂；再者为每个说话人存储其对应自适应数据所需要的存储空间较大。

本申请实施例提供的语音增强的方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种语音增强的方法，该方法可以由终端设备执行，也可以由服务器执行，如图1所示，该方法包括：

步骤S101、获取语音增强处理后的语音信号。

其中，语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的。

本申请实施例中的语音增强网络模型可以包括所有具有批处理层(BatchNormalization)的网络模型，例如，LSTM是一种时间循环神经网络，是为了解决一般的循环神经网络(Recurrent Neural Network,RNN)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

对于本申请实施例，批处理层就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消息问题产生，而且梯度变大意味着收敛速度快，能大大加快训练速度。

步骤S102、保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理。

其中，预设网络层为语音增强网络模型的所有批处理层中的至少一层。

对于本申请实施例，基于语音增强后的语音信号对预设网络层进行自适应更新，即为基于语音增强后的语音信号对预设网络层的网络参数进行自适应更新。其中，预设网络层的网络参数包括：比例系数(scale)以及偏差系数(shift)。

对于本申请实施例，批处理层作为网络的标配，它在一个批处理层(minibatch)内的计算公式如下所示：

其中，公式(1)以及(2)计算分别对应计算该minibatch中的特征的均值和方差，公式(3)为对输入数据进行归一化处理，公式(4)通过批处理层的比例系数(scale)以及偏差系数(shift)计算批处理层的输出结果，因此由此可知对批处理层进行自适应更新即为对比例系数(scale)以及偏差系数(shift)进行调整。

其中，μ_B表征该minibatch中的特征的均值；σ_B表征该minibatch中的特征的方差；x_i表征该minibatch中的特征；i表征该minibatch中特征的排序；m表征该minibatch中特征的总量；表征输入特征x_i对应的归一化结果；y_i表征该x_i对应的批处理层的输出结果

本申请实施例中仅对语音增强网络模型的所有批处理层中的至少一层批处理层进行自适应更新，即仅对至少一层批处理层对应的比例系数和偏差系数进行自适应更新，所需更新的网络参数较少，从而可以降低自适应更新的复杂度，再者由于批处理层中的网络参数比例参数和偏差系数均为向量，因此在存储更新后的比例系数和偏差系数仅需要两个向量的空间，所需的存储空间较小。

本申请实施例提供了一种语音增强的方法，与现有技术相比，本申请实施例获取通过语音增强网络模型对待处理语音信号进行语音增强处理后的语音信号，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层，即本申请实施例中仅需要对语音增强网络模型的所有批处理层中的至少一层进行自适应更新，并不需要对整个网络进行自适应更新，从而可以减少自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。

本申请实施例的另一种可能的实现方式，步骤S101之前还可以包括：获取待处理语音信号；对待处理语音信号进行分帧处理，得到至少两个语音帧；对各个语音帧进行加窗处理，得到各个加窗处理后的语音帧；从各个加窗处理后的语音帧中分别提取语音特征，得到待处理语音信号对应的语音特征。

基于此，具体地，步骤S101具体可以包括：将待处理语音信号对应的语音特征通过语音增强网络模型进行语音增强处理，得到语音增强处理后的频域信号；将语音增强处理后的频域信号进行频域转换时域处理，得到语音增强处理后的时域信号。

对于本申请实施例，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10-30ms内可以认为语音信号近似不变)，这个就可以把语音信号分为一些短段来进行处理，每一个短段称为一帧(CHUNK)。

对于本申请实施例，加窗处理即与一个窗函数相乘，加窗之后是为了进行傅里叶展开，使全局更加连续，避免出现吉布斯效应，并且加窗时候，原本没有周期性的语音信号呈现出周期函数的部分特征。加窗的代价是一帧信号的两端部分被削弱了，所以在分帧的时候，帧与帧之间需要有重叠。

对于本申请实施例，在待处理的语音信号进行分帧处理和加窗处理之后，从处理后的语音信号中提取语音特征。在本申请实施例中，提取的语音特征可以包括：梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)以及对数功率谱。

本申请实施例中以提取对数功率谱为例，介绍语音特征提取方式，具体如图4所示，对每语音帧分别进行快速傅里叶变换(Fast Fourier Transformation，FFT)，然后对每帧求取FFT之后的离散功率谱求对数，得到对数功率谱，即得到语音特征。

对于本申请实施例，对待处理语音信号通过分帧处理、加窗处理以及特征提取处理，得到提取的语音特征，并将提取的语音特征通过语音增强网络模型进行语音增强处理，得到语音增强处理后的频域信号，并将语音增强处理后的频域信号进行频域转换时域处理，得到语音增强处理后的时域信号，即得到输出的增强处理后输出的语音信号。

本申请实施例的另一种可能的实现方式，基于语音增强后的语音信号对预设网络层进行自适应更新，之前还包括：确定语音增强处理后的语音信号中信噪比大于预设阈值的语音信号；对信噪比大于预设阈值的语音信号进行加噪处理，得到加噪处理后的语音信号。

具体地，基于语音增强后的语音信号对预设网络层进行自适应更新，具体可以包括：基于加噪处理后的语音信号以及信噪比大于预设阈值的语音信号对预设网络层进行自适应更新。

对于本申请实施例，将待处理的语音信号通过当前语音增强网络模型进行语音增强处理之后，得到语音增强处理后的语音信号并存储，当需要对当前语音增强网络模型进行自适应更新时，将存储的语音增强处理后的语音信号中信噪比大于预设阈值的语音信号进行加噪处理，得到加噪处理后的语音信号。其中将信噪比大于预设阈值的语音信号和加噪处理后的语音信号作为自适应更新数据。在本申请实施例中，基于该自适应更新数据对当前语音增强网络模型进行自适应更新。

具体地，基于自适应更新数据对当前语音增强网络模型进行自适应更新的方式，包括：基于加噪处理得到的信号，对当前语音增强网络模型进行自适应更新，直至损失函数收敛。

其中，函数的值是基于模型输出得到相应的增强处理后的信号与其对应的自适应更新数据中的信噪比大于预设阈值的语音信号得到的。

本申请实施例中的当前语音增强网络模型可以为线下训练后得到的通用语音增强网络模型，还可以为上次自适应更新后的语音增强网络模型。在本申请实施例中并不限定。

本申请实施例的另一种可能的实现方式，当语音增强处理后的语音信号为特定类型的语音信号，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，包括：基于特定类型的语音信号对预设网络层进行自适应更新，得到特定的语音信号对应的语音增强模型，以基于更新后的语音增强网络模型对下一次接收到的待处理的特定类型的语音信号进行语音增强处理。

对于本申请实施例，特定类型的语音信号可以为某一说话人的语音信号，还可以为某一场景中接收到的语音信号，例如会议场景下接收到语音信号。

对于本申请实施例，在线下训练通用的语音增强模型的基础上，可以获取某一说话人对应的自适应更新数据或者某一场景下的自适应更新数据，并基于获取的某一说话人对应的自适应更新数据或者某一场景下的自适应更新数据对线下训练的通用的语音增强网络模型进行自适应更新，得到某一说话人对应的语音增强网络模型或者针对某一场景下的语音信号进行语音增强处理的语音增强网络模型。

对于本申请实施例，获取某一说话人对应的自适应更新数据的方式包括：对某一说话人对应的待处理语音信号通过当前语音增强网络模型进行语音增强处理，得到某一说话人对应的增强处理后语音信号，基于该增强处理后的语音信号获得某一说话人对应的自适应更新数据。其中，基于该增强处理后的语音信号获得某一说话人对应的自适应更新数据的具体方式详见上述实施例，在此不再赘述。

对于本申请实施例，获取某一场景下的自适应更新数据的方式包括：对某一场景下接收到的待处理语音信号通过当前语音增强网络模型进行语音增强处理，得到某一场景对应的增强处理后语音信号，基于某一场景对应的增强处理后语音信号获得某一场景对应的自适应更新数据的方式详见上述实施例，在此不在赘述。

对于本申请实施例，基于上述通过特定类型的语音信号对预设网络层进行自适应更新，可以得到更新的语音增强网络模型。其中，更新后的语音增强网络模型可以更好的对特定类型的语音信号进行语音增强处理。

本申请实施例的另一种可能的实现方式，当语音增强处理后的语音信号为各个类型的语音信号，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，包括：基于各个类型的语音信号依次对预设网络层进行自适应更新，针对每个类型的语音信号得到预设网络层更新后的网络参数，并针对每个类型的语音信号存储更新后的网络参数，以基于预设更新后的网络参数对下一次接收到待处理语音信号进行语音增强处理。

其中，预设更新后的网络参数是下一次接收到的待处理语音信号所属类型对应的网络参数。

对于本申请实施例，语音增强处理后的语音信号还可以为各个类型的语音信号。其中，各个类型的语音信号可以为各个说话人分别对应的语音信号，还可以为在各个场景下接收到的语音信号。

例如，在各个场景下接收到的语音信号可以包括：在会议场景下接收到的语音信号，在嘈杂环境下接收到的语音信号。

对于本申请实施例，当自适应更新数据为各个类型的语音信号，基于各个类型的语音信号依次对当前语音增强网络模型中的预设网络层进行自适应更新，针对各个类型的语音信号得到对应的自适应更新后的网络参数，并存储。当下一次接收到待处理语音信号时，基于接收到的语音信号所属类型确定对应的网络参数，并基于网络参数对接收到的语音信号进行语音增强处理。

例如，通过说话人A对应的语音信号对当前语音增强网络模型中的预设网络层进行自适应更新，得到说话人A对应的网络参数；通过说话人B对应的语音信号对当前语音增强网络模型中的预设网络层进行自适应更新，得到说话人B对应的网络参数；当下一次接收到待处理的语音信号且确定该待处理的语音信号为说话人A对应的语音信号，则确定说话人A对应的网络参数，并根据说话人A对应的网络参数对该待处理的语音信号进行语音增强处理，得到语音增强处理后的语音信号。

本申请实施例中存储的各个类型的语音信号分别对应的自适应更新后的网络参数，由于该自适应更新后的网络参数同样为批处理层的网络参数，因此每个类型的语音信号对应的自适应更新后的网络数据的存储仅需要两个向量的空间，占用的存储空间较少。

本申请实施例的另一种可能的实现方式，语音增强网络模型为上一次自适应更新后的语音增强网络模型或者为训练后的语音增强网络模型；确定训练后的语音增强网络模型的方式，包括：获取训练样本；基于训练样本对原始网络模型进行训练，得到训练后的语音增强网络模型。

其中，训练样本包括多个带噪语音信号和各个带噪语音信号对应的干净语音信号。

对于本申请实施例，由于进行自适应更新的语音增强网络模型可以为通过线下训练后的通用语音增强网络模型，也可以为上一次进行自适应更新后的语音增强网络模型。其中针对语音增强网络模型进行自适应更新对应的具体更新方式详见上述实施例，此处主要介绍通过线下训练得到通用语音增强网络模型的方式。

其中，通过线下训练得到语音增强网络模型的方式如下所示：

1、获取多个带噪语音信号以及各个带噪语音信号分别对应的干净语音信号；

2、对多个带噪语音信号分别进行分帧处理、加窗处理以及特征提取处理，以及对各个带噪语音信号分别对应的干净语音信号同样进行分帧处理、加窗处理以及特征提取处理；

其中，对带噪语音信号以及干净语音信号进行分帧处理、加窗处理以及特征提取处理的具体处理方式，详见上述实施例，在此不再赘述。

3、将各个带噪语音信号分别对应的语音特征以及对应的干净语音信号分别对应的语音特征作为训练样本训练初始网络模型，得到通用的语音增强网络模型。

本申请实施例的另一种可能的实现方式，基于语音增强后的语音信号对预设网络层进行自适应更新，包括：当满足自适应更新条件时，基于语音增强后的语音信号对预设网络层进行自适应更新。

其中，自适应更新条件包括以下至少一项：

达到更新时间；

自适应更新数据达到预设阈值；

待处理信号不满足预设条件。

本申请实施例中，当前可以实时对语音增强网络模型中的预设网络层进行自适应更新，当然也可以设置自适应更新时间，在检测到达到自适应更新时间时，对语音增强网络模型中的预设网络层进行自适应更新，当然还可以设置自适应更新所需要的自适应更新数据量，即当检测到自适应更新数据达到预设阈值，对语音增强网络模型中的预设网络层进行自适应更新，当然还可以在接收到待处理的语音信号但是检测该待处理的语音信号不满足预设条件，其中，该预设条件为该待处理语音信号所属类型不属于当前语音增强网络模型所进行语音增强的信号类型。例如，接收到待处理的语音信号为说话人C的语音信号，而当前语音增强网络模型的网络参数的类型仅包含说话人A对应的网络参数以及说话人B对应的网络参数，则基于说话人C的语音信号对当前语音增强网络模型中的预设网络层进行自适应更新，得到说话人C对应的网络参数。

对于本申请实施例，当检测到满足自适应更新条件时对语音增强网络模型中预设网络层的网络参数进行自适应更新，而不是实时对语音增强网络模型中预设网络层的网络参数进行自适应更新，降低频繁对语音增强网络模型中的预设网络层的网络参数进行自适应更新的资源消耗。

下述实施例中通过一个更为具体的应用场景介绍语音增强的方法，具体如下所示：

本申请实施例中的语音增强网络模型可以为LSTM模型，具体可以如图5所示，具体地，对LSTM模型进行线下训练和线上自适应更新的方式可以如图6所示，包括：获取包含噪声的语音信号以及其对应的干净语音信号，然后对包含噪声的语音信号进行分帧、加窗以及特征提取，基于提取到的包含噪声的语音信号对应的语音特征以及其对应的干净的语音信号的语音特征对初始单向LSTM模型进行训练，得到通用语音增强网络模型，然后获取不同说话人分别对应的自适应数据，基于每个说话人对应的自适应数据，对初始单向LSTM模型中的至少一批处理层进行自适应更新且保持其它网络层的网络参数不变，得到更新后的网络参数，并进行迭代直至损失函数收敛，得到不同说话人分别对应的网络参数；或者获取不同说话人分别对应的自适应数据，然后基于不同说话人分别对应的自适应数据对各自的通用语音增强网络模型中至少一批处理层进行自适应更新，并进行迭代直至损失函数收敛，得到不同说话人分别对应的语音增强网络模型。

上述实施例从方法流程的角度介绍了语音增强的方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种语音增强的装置，具体详见下述实施例。

本申请实施例提供了一种语音增强的装置，如图2所示，该语音增强的装置20可以包括：第一获取模块21、自适应更新模块22，其中，

第一获取模块21，用于获取语音增强处理后的语音信号,。

自适应更新模块22，用于保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理。

本申请实施例的一种可能的实现方式，装置20还包括：第二获取模块、分帧处理模块、加窗处理模块、特征提取模块，其中，

第二获取模块，用于获取待处理语音信号；

其中，第一获取模块21在获取语音增强处理后的语音信号时，具体用于：

本申请实施例的另一种可能的实现方式，装置20还包括：第一确定模块、加噪处理模块，其中，

其中，自适应更新模块22在基于语音增强后的语音信号对预设网络层进行自适应更新时，具体用于：

本申请实施例的另一种可能的实现方式，当语音增强处理后的语音信号为特定类型的语音信号，自适应更新模块22在基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理时，具体用于：

本申请实施例的另一种可能的实现方式，当语音增强处理后的语音信号为各个类型的语音信号，自适应更新模块22在基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理时，具体用于：

基于各个类型的语音信号依次对预设网络层进行自适应更新，针对每个类型的语音信号得到预设网络层更新后的网络参数，并针对每个类型的语音信号存储更新后的网络参数，以基于预设更新后的网络参数对下一次接收到待处理语音信号进行语音增强处理。

本申请实施例的另一种可能的实现方式，语音增强网络模型为上一次自适应更新后的语音增强网络模型或者为训练后的语音增强网络模型；

装置20还包括：第二确定模块，其中，

本申请实施例的另一种可能的实现方式，自适应更新模块22，具体用于当满足自适应更新条件时，基于语音增强后的语音信号对预设网络层进行自适应更新。

其中，自适应更新条件包括以下至少一项：

达到更新时间；

自适应更新数据达到预设阈值；

待处理信号不满足预设条件。

本申请实施例中的第一获取模块21和第二获取模块可以为同一获取模块，也可以为不同的获取模块。在本申请实施例中不做限定。

本申请实施例中的第一确定模块和第二确定模块可以为同一确定模块，也可以为不同的确定模块。在本申请实施例中不做限定。

本申请实施例提供了一种语音增强的装置，与现有技术相比，本申请实施例获取通过语音增强网络模型对待处理语音信号进行语音增强处理后的语音信号，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层，即本申请实施例中仅需要对语音增强网络模型的所有批处理层中的至少一层进行自适应更新，并不需要对整个网络进行自适应更新，从而可以减少自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。

上述实施例介绍的一种语音增强的装置对应的实施例同样适用于上述方法实施例，在本申请实施例中不在赘述。

进一步地，上述实施例从方法流程的角度介绍一种语音增强的方法，以及从虚拟模块或者虚拟单元的角度介绍了一种语音增强的装置，下述实施例中介绍了一种电子设备，可以用于执行上述方法实施例。在本申请实施例中，电子设备可以为终端设备或者服务器。

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：本申请实施例获取通过语音增强网络模型对待处理语音信号进行语音增强处理后的语音信号，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层，即本申请实施例中仅需要对语音增强网络模型的所有批处理层中的至少一层进行自适应更新，并不需要对整个网络进行自适应更新，从而可以减少自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例获取通过语音增强网络模型对待处理语音信号进行语音增强处理后的语音信号，然后保持语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于语音增强后的语音信号对预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，预设网络层为语音增强网络模型的所有批处理层中的至少一层，即本申请实施例中仅需要对语音增强网络模型的所有批处理层中的至少一层进行自适应更新，并不需要对整个网络进行自适应更新，从而可以减少自适应更新数据，并且可以降低自适应更新过程的复杂度，提升用户体验。。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音增强的方法，其特征在于，包括：

获取语音增强处理后的语音信号，所述语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的；

保持所述语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于所述语音增强后的语音信号对所述预设网络层对应的比例系数和偏差系数进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，所述预设网络层为所述语音增强网络模型的所有批处理层中的至少一层；

其中，所述获取语音增强处理后的语音信号，包括：

将所述待处理语音信号对应的语音特征通过所述语音增强网络模型进行语音增强处理，得到语音增强处理后的频域信号；

将所述语音增强处理后的频域信号进行频域转换时域处理，得到语音增强处理后的时域信号。

2.根据权利要求1所述的方法，其特征在于，所述获取语音增强处理后的语音信号，之前还包括：

获取待处理语音信号；

对所述待处理语音信号进行分帧处理，得到至少两个语音帧；

从各个加窗处理后的语音帧中分别提取语音特征，得到待处理语音信号对应的语音特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述语音增强后的语音信号对所述预设网络层进行自适应更新，之前还包括：

确定所述语音增强处理后的语音信号中信噪比大于预设阈值的语音信号；

其中，所述基于所述语音增强后的语音信号对所述预设网络层进行自适应更新，包括：

基于所述加噪处理后的语音信号以及所述信噪比大于预设阈值的语音信号对所述预设网络层进行自适应更新。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述语音增强处理后的语音信号为特定类型的语音信号；

所述基于所述语音增强后的语音信号对所述预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，包括：

基于所述特定类型的语音信号对所述预设网络层进行自适应更新，得到所述特定的语音信号对应的语音增强模型，以基于更新后的语音增强网络模型对下一次接收到的待处理的特定类型的语音信号进行语音增强处理。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述语音增强处理后的语音信号为各个类型的语音信号；

基于所述语音增强后的语音信号对所述预设网络层进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，包括：

基于所述各个类型的语音信号依次对所述预设网络层进行自适应更新，针对每个类型的语音信号得到所述预设网络层更新后的网络参数，并针对每个类型的语音信号存储更新后的网络参数，以基于预设更新后的网络参数对下一次接收到待处理语音信号进行语音增强处理，所述预设更新后的网络参数是所述下一次接收到的待处理语音信号所属类型对应的网络参数。

6.根据权利要求1所述的方法，其特征在于，所述语音增强网络模型为上一次自适应更新后的语音增强网络模型或者为训练后的语音增强网络模型；

确定训练后的语音增强网络模型的方式，包括：

获取训练样本，所述训练样本包括多个带噪语音信号和各个带噪语音信号对应的干净语音信号；

基于所述训练样本对原始网络模型进行训练，得到训练后的语音增强网络模型。

7.根据权利要求1所述的方法，其特征在于，基于所述语音增强后的语音信号对所述预设网络层进行自适应更新，包括：

当满足自适应更新条件时，基于所述语音增强后的语音信号对所述预设网络层进行自适应更新；

其中，自适应更新条件包括以下至少一项：

达到更新时间；

自适应更新数据达到预设阈值；

待处理信号不满足预设条件。

8.一种语音增强的装置，其特征在于，包括：

第一获取模块，用于获取语音增强处理后的语音信号，所述语音增强后的语音信号是由语音增强网络模型对待处理语音信号进行语音增强处理后得到的；

自适应更新模块，用于保持所述语音增强网络模型中除预设网络层之外的其它网络层的网络参数不变，基于所述语音增强后的语音信号对所述预设网络层对应的比例系数和偏差系数进行自适应更新，以基于更新后的语音增强网络模型对下一次接收到待处理语音信号进行语音增强处理，所述预设网络层为所述语音增强网络模型的所有批处理层中的至少一层；

其中，第一获取模块在获取语音增强处理后的语音信号时，具体用于：将待处理语音信号对应的语音特征通过语音增强网络模型进行语音增强处理，得到语音增强处理后的频域信号；将语音增强处理后的频域信号进行频域转换时域处理，得到语音增强处理后的时域信号。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～7任一项所述的语音增强的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1～7任一所述的语音增强的方法。