CN115171714A

CN115171714A - 一种语音增强方法、装置、电子设备及存储介质

Info

Publication number: CN115171714A
Application number: CN202210706406.6A
Authority: CN
Inventors: 黄石磊; 陈诚; 曾航; 廖晨; 王政程
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-10-11

Abstract

本申请提供了一种语音增强方法、装置、电子设备及存储介质，属于语音处理技术领域。本申请通过，获取带噪语音信号对应的第一带噪语音幅度谱，并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱；将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型，以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值；基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱。相对于传统的语音增强算法，本申请中利用深度神经网络模型实现语音增强，可以提高对非平稳噪声的处理能力，从而保证对非平稳噪声的处理效果。

Description

一种语音增强方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音增强方法、装置、电子设备及存储介质。

背景技术

随着语音识别技术的高速发展，语音识别技术已被应用于智能硬件、智能电话客服等多种场景，因为其识别结果准确性与工作效率和用户交互体验息息相关，人们对语音识别的效果的要求也越来越高。目前，由于语音识别的应用场景基本都与用户日常生活需求和工作需求有关，无法保证输入语音信号是纯净、无噪音的语音，导致在识别一些背景环境有噪音的语音时，噪音干扰了语音信号的质量，导致识别结果不准确，影响了用户在人机交互、音频文字转写的过程中的效率。因此，针对解决复杂噪声环境中的音频噪音干扰的语音增强技术成为了语音识别技术中的关键部分。

传统语音增强方案主要包括：谱减法、基于统计模型的增强算法和子空间增强算法。谱减法假设噪声为加性噪声，然后从带噪语音的语音谱中减去对噪声谱的估计，最后得到干净语音。维纳滤波算法和最小均方误差算法是基于统计模型增强算法的代表，相对于谱减法，维纳滤波法算法处理后的语音信号中的残留噪声类似白噪声，听觉上让人更加舒适。最小均方误差算法利用语音信号的短时频谱振幅在感知中的重要作用，并利用最小均方误差的短时频谱振幅估计器来增强带噪语音。子空间增强算法主要源自于线性代数理论，其原理是将带噪信号的向量空间分解到两个子空间以完成语音增强的任务。

然而，传统的语音增强算法大多假设语音信号是平稳的，对非平稳噪声的处理能力较弱，无法保证对非平稳噪声的处理效果。

发明内容

本申请实施例的目的在于提供一种语音增强方法、装置、电子设备及存储介质，以解决传统的语音增强算法对非平稳噪声的处理能力较弱的问题。具体技术方案如下：

第一方面，提供了一种语音增强方法，所述方法包括：

获取带噪语音信号对应的第一带噪语音幅度谱，并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱；

将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型，以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；

基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值；

基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱。

在一个可能的实施方式中，所述方法还包括：

获取带噪语音信号对应的相位，并利用所述相位对所述增强语音幅度谱进行波形重构，得到对应的语音文件。

在一个可能的实施方式中，所述基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值，包括：

将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中，得到所述时频掩蔽值，其中，所述预设第一公式如下：

其中，m为时频掩蔽值，

为语音幅度谱，

为噪声的幅度谱。

在一个可能的实施方式中，所述基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱，包括：

将所述时频掩蔽值和所述第二带噪语音幅度谱代入预设第二公式中，得到所述增强语音幅度谱，其中，所述预设第二公式如下：

其中，

为增强语音幅度谱，m为时频掩蔽值，y为第二带噪语音幅度谱。

在一个可能的实施方式中，所述方法还包括：

在语音离散傅里叶变换系数服从卡方分布假设的条件下，推导出基于听觉感知特性广义加权的贝叶斯估计器，将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。

在一个可能的实施方式中，所述方法还包括：

获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征；

利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理，得到目标带噪语音幅度谱；

将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入，采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练，直到代价函数收敛，得到训练好的深度神经网络模型。

第二方面，提供了一种语音增强装置，所述装置包括：

信号获取模块，用于获取带噪语音信号对应的第一带噪语音幅度谱，并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱；

幅度谱输入模块，用于将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型，以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；

第一确定模块，用于基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值；

第二确定模块，用于基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱。

在一个可能的实施方式中，所述装置还包括：

重构模块，用于获取带噪语音信号对应的相位，并利用所述相位对所述增强语音幅度谱进行波形重构，得到对应的语音文件。

在一个可能的实施方式中，所述第一确定模块，具体用于：

将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中，得到所述时频掩蔽值其中所述预设第一公式如下：

其中，m为时频掩蔽值，

为语音幅度谱，

为噪声的幅度谱。

在一个可能的实施方式中，第二确定模块，具体用于：

其中，

在一个可能的实施方式中，所述装置还包括：

推导模块，用于在语音离散傅里叶变换系数服从卡方分布假设的条件下，推导出基于听觉感知特性广义加权的贝叶斯估计器，将所述基于听觉感知特性广义加权的贝叶斯估计器作为所述预设贝叶斯估计器。

在一个可能的实施方式中，所述所述装置还包括：

样本获取模块，用于获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征；

预处理模块，用于利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理，得到目标带噪语音幅度谱；

模型训练模块，用于将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入，采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练，直到代价函数收敛，得到训练好的深度神经网络模型。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的语音增强方法。

本申请实施例有益效果：

本申请实施例提供了一种语音增强方法、装置、电子设备及存储介质，本申请通过，首先，利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理，从而使带噪语音信号残留的噪声类型相对统一，在一定程度上减少后续网络网络模型的处理时间和数据量；然后，将经过预处理的带噪语音幅度谱输入至深度神经网络模型，以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；最后，基于语音幅度谱和噪声幅度谱，确定时频掩蔽值；并基于时频掩蔽值和经过预处理的带噪语音幅度谱，确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力，因此，相对于传统的语音增强算法，本申请中利用深度神经网络模型实现语音增强，可以提高对非平稳噪声的处理能力，从而保证对非平稳噪声的处理效果。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音增强方法的流程图；

图2为本申请另一实施例提供的一种语音增强方法的流程图；

图3为本申请实施例提供的一种语音增强方法处理流程；

图4为本申请实施例提供的一种语音增强装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于，传统的语音增强算法大多假设语音信号是平稳的，对非平稳噪声的处理能力较弱，无法保证对非平稳噪声的处理效果。为此，本申请实施例提供了一种语音增强方法。

下面将结合具体实施方式，对本申请实施例提供的一种语音增强方法进行详细的说明，如图1所示，具体步骤如下：

S101，获取带噪语音信号对应的第一带噪语音幅度谱，并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱。

在本申请实施例中，带噪语音信号可以理解为原始语音信号。由于原始语音信号中噪声类型较多，因此，本申请实施例中，可以利用利用预设贝叶斯估计器对带噪语音信号对应的第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱，从而使带噪语音信号残留的噪声类型也相对统一。进而，将第二带噪语音幅度谱作为深度神经网络模型的输入，可以在一定程度上减少深度神经网络模型的处理时间和数据处理量。

S102，将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型，以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱。

在本申请实施例中，深度神经网络可以是DRNN(recurrent neural network，深度循环神经网络)。具体的，将第二带噪语音幅度谱输入至预先训练好的深度神经网络模型中，由深度神经网络模型输出对应的语音幅度谱和噪声幅度谱。

S103，基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值。

在本申请实施例中，可以基于语音幅度谱和噪声幅度谱计算时频掩蔽值，具体为：将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中，得到所述时频掩蔽值，其中，所述预设第一公式如下：

其中，m为时频掩蔽值，

为语音幅度谱，

为噪声的幅度谱。

S104，基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱。

在本申请实施例中，可以基于时频掩蔽值和第二带噪语音幅度谱确定增强语音幅度谱，具体为：

其中，

本申请实施例中，首先，利用预设的贝叶斯估计器对带噪语音信号对应的带噪语音幅度谱进行预处理，从而使带噪语音信号残留的噪声类型相对统一，在一定程度上减少后续网络网络模型的处理时间和数据量；然后，将经过预处理的带噪语音幅度谱输入至深度神经网络模型，以使深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；最后，基于语音幅度谱和噪声幅度谱，确定时频掩蔽值；并基于时频掩蔽值和经过预处理的带噪语音幅度谱，确定增强语音幅度谱。由于深度神经网络对语音和噪声的非线性关系具有良好的描述能力，因此，相对于传统的语音增强算法，本申请中利用深度神经网络模型实现语音增强，可以提高对非平稳噪声的处理能力，从而保证对非平稳噪声的处理效果。

为了寻求语音失真度和噪声抑制程度之间的平衡，在本申请又一实施例中，所述方法还可以包括以下步骤：

在本申请实施例中，通过在语音DFT(Discrete Fourier Transform，离散傅里叶变换)系数服从Chi(chi-square distribution，卡方分布)分布假设的条件下推导出一个基于听觉感知特性广义加权的贝叶斯估计器，从而保证对第一带噪语音幅度谱的预处理效果。

在本申请又一实施例中，所述方法还可以包括以下步骤：

S201，获取样本语音信号对应的样本带噪语音幅度谱和纯净语音特征。

S202，利用所述预设贝叶斯估计器对所述样本带噪语音幅度谱进行预处理，得到目标带噪语音幅度谱。

S203，将所述纯净语音特征作为训练标签、所述目标带噪语音幅度谱作为模型输入，采用误差逆传播算法和最小均方误差的代价函数对所述深度神经网络模型进行训练，直到代价函数收敛，得到训练好的深度神经网络模型。

在本申请实施例中，误差逆传播算法即反向传播算法，全称是误差反向传播算法，其本质是通过总的误差函数对每一个权重和偏置求偏导数，再通过偏导数更新权值和偏置，多次重复此步骤以找到最佳偏置和权重值。代价函数具体如下：

其中，w为权值；b为偏置；S为纯净语音特征；

为增强语音幅度谱。

在本申请实施例中，由于基于深度神经网络的语音增强算法需要长时间的大数据训练，经过贝叶斯估计器增强过的带噪语音信号残留的噪声类型相对统一，在一定程度上可以减少网络训练时间和数据量。

在本申请又一实施例中，所述方法还可以包括以下步骤：

在本申请实施例中，得到增强语音幅度谱后，可以利用带噪语音信号对应的相位对增强语音幅度谱进行波形重构，合成可测听的语音文件。从而将语音文件输出给用户，方便用户了解语音增强效果。

基于相同的技术构思，本申请实施例还提供了一种语音增强处理流程，如图3所示，具体步骤如下：

步骤一，获取带躁语音(即原始语音)；

步骤二，使用Chi分布下基于听觉感知广义加权的贝叶斯估计器提取带噪语音幅度谱(如图3中y1-yn)作为深度神经网络的输入特征。

步骤三，通过该深度神经网络对输入的增强幅度谱进行训练分别得到对纯净语音(如图3中

)和噪声的幅度谱估计(如图3中

)；

步骤四，基于纯净语音和噪声的幅度谱计算时频掩蔽，进而估计出增强后的语音幅度谱(如图3中

)作为网络的输出。

步骤五，利用带噪语音的相位对增强后的语音幅度谱进行波形重构，合成可测听的语音文件。

基于相同的技术构思，本申请实施例还提供了一种语音增强装置，如图4所示，该装置包括：

信号获取模块301，用于获取带噪语音信号对应的第一带噪语音幅度谱，并利用预设贝叶斯估计器对所述第一带噪语音幅度谱进行预处理，得到第二带噪语音幅度谱；

幅度谱输入模块302，用于将所述第二带噪语音幅度谱输入至预先训练好的深度神经网络模型，以使所述深度神经网络模型输出对应的语音幅度谱和噪声幅度谱；

第一确定模块303，用于基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值；

第二确定模块304，用于基于所述时频掩蔽值和所述第二带噪语音幅度谱，确定增强语音幅度谱。

在一个可能的实施方式中，所述装置还包括：

在一个可能的实施方式中，所述第一确定模块，具体用于：

将所述语音幅度谱和所述噪声幅度谱代入预设第一公式中，得到所述时频掩蔽值其中，所述预设第一公式如下：

其中，m为时频掩蔽值，

为语音幅度谱，

为噪声的幅度谱。

在一个可能的实施方式中，第二确定模块，具体用于：

其中，

在一个可能的实施方式中，所述装置还包括：

在一个可能的实施方式中，所述所述装置还包括：

基于相同的技术构思，本申请实施例还提供了一种电子设备，如图5所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

处理器111，用于执行存储器113上所存放的程序时，实现如下步骤：

基于所述语音幅度谱和所述噪声幅度谱，确定时频掩蔽值；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一语音增强方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一语音增强方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。