CN114267372A

CN114267372A - 语音降噪方法、系统、电子设备和存储介质

Info

Publication number: CN114267372A
Application number: CN202111664729.5A
Authority: CN
Inventors: 徐学淼; 俞凯; 张辉
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-01

Abstract

本发明公开语音降噪方法、系统、电子设备和存储介质，其中，一种语音降噪方法，包括：将获取的语音信号输入至预处理模块，其中，所述预处理模块包括对所述语音信号进行分帧和信号变换；将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征；将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。降噪系统包括数字音频输入模块，音频处理模块和数字音频输出3个模块构成，并且3个模块通过数字链路相互连接，从而可以实现提高降噪性能、减小语音失真和降低算法的复杂度。

Description

语音降噪方法、系统、电子设备和存储介质

技术领域

本发明属于语音降噪技术领域，尤其涉及语音降噪方法、系统、电子设备和存储介质。

背景技术

语音降噪技术是一种从音频中去除环境噪音的同时保留目标人声的语音处理技术。该技术能够改善听觉体验，提高语音的可懂度以及提高语音识别、音色复刻等后端语音技术的性能。语音降噪技术在移动通话、人工耳蜗、无线耳机、智能音箱、多媒体APP、语音助手等众多产品中有广泛的应用价值。

按照出现的先后顺序，语音降噪技术方法大致可以分为两大类：基于统计学和信号处理技术的传统降噪方法，基于神经网络机器学习方法的智能降噪方法。传统降噪方法本质上是利用语音、噪声在时频(Time-Frequency，TF)统计特性上的差异，利用信号处理、统计分析等技术实现语音和噪声的分离。基于神经网络机器学习的智能降噪方法是随着神经网络技术的快速发展而新出现的一种数据驱动的方法。

传统的基于信号处理的降噪方法的大致步骤：首先根据语音和噪声在时频域上的一些特性差异来估计噪声的能量谱，然后利用声学和语音学理论得到频谱掩码，根据掩码和原始语音的频谱得到处理后的频谱，最后利用傅里叶逆变换得到处理后语音的波形。

基于神经网络的智能降噪方法在流程上一般包括训练和推理两个阶段。训练阶段的主要目标是通过使用语音、噪声数据集和最优化算法对计算过程进行迭代优化，得到最优的模型参数。推理阶段则是利用确定的运算规则和最优参数进行计算，从而从带噪语音数据中得到处理后的相对干净的语音。

对于语音降噪方法，主要从残余噪声，语音失真，计算复杂度、适用的场景等角度进行评价。传统语音降噪方法的主要缺点是：存在残余噪声和语音失真；在非平稳噪声下性能很差。基于神经网络的语音降噪方法能提高非平稳噪声场景下的性能，但存在降噪性能不足、复杂度太高等方面的问题。

发明内容

本发明实施例提供一种语音降噪方法和系统和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音降噪方法，包括：将获取的语音信号输入至预处理模块，其中，所述预处理模块包括对所述语音信号进行分帧和信号变换；将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征；将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。

第二方面，本发明实施例提供一种语音降噪系统，包括：数字音频输入模块，配置为向数字音频处理模块提供数字音频流；所述数字音频处理模块，配置为使用权利要求1-7中任一项所述降噪方法进行语音降噪；数字音频输出模块，配置为将所述数字音频处理模块输出的音频保存、播放或者传输给其他设备或软件使用。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音降噪方法和系统的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音降噪方法和系统的步骤。

本申请的方法、系统、电子设备和存储介质通过将获取的语音信号输入至预处理模块，然后将预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征，最后将干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形，从而可以实现提高降噪性能、减小语音失真和降低算法的复杂度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音降噪方法的流程图；

图2为本发明一实施例提供的另一种语音降噪方法的流程图；

图3为本发明一实施例提供的又一种语音降噪方法的流程图；

图4为本发明一实施例提供的一种语音降噪系统的框图；

图5为本发明一实施例提供的语音降噪方法和系统的一个具体示例的结构框图；

图6为本发明一实施例提供的语音降噪方法和系统的一个具体示例的数字语音降噪系统图；

图7为本发明一实施例提供的语音降噪方法和系统的一个具体示例的声学特征预测模型图；

图8为本发明一实施例提供的语音降噪方法和系统的一个具体示例的神经同态声码器结构图；

图9是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音降噪方法和系统一实施例的流程图，本实施例的语音降噪方法和系统可以适用于具备语音功能的终端、如智能手机、无线耳机、人工耳蜗、智能音箱、多媒体APP、语音助手、平板、电脑等。

如图1所示，在步骤101中，将获取的语音信号输入至预处理模块，其中，所述预处理模块包括对所述语音信号进行分帧和信号变换；

在步骤102中，将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征；

在步骤103中，将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。

在本实施例中，对于步骤101，语音降噪装置将获取的语音信号输入至预处理模块，其中，预处理模块包括对语音信号进行分帧和信号变换，例如，将获取的语音信号分成若干帧，并对语音信号进行一些信号变换，进行信号变换能够使用更有效的音频表示。

对于步骤102，语音降噪装置将预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征，例如，以相临的5帧对数幅度和归一化相位信息作为输入，输出对应时刻干净语音的梅尔倒谱系数和基频信息F0，其中，声学特征包括对数梅尔谱，线性预测系数(Linear Prediction Coefficients，LPC)、滤波器组系数(Filter banks，FBank)，基频(Fundamental Frequency，标记为F0)或者动态信息，例如一阶差，二阶差等。

对于步骤103，语音降噪装置将干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形，例如，经过若干张量运算、滤波器运算，以对应帧的干净语音的波形作为输出，其中，声码器(Vocoder)是一种从声学参数中恢复语音波形的技术。声码器最早使用在语音参数编解码领域，在人机交互技术发展兴起后，声码器也广泛使用于文本语音转换系统。早期的声码器通过对人类发声过程的声学建模来重建语音波形，具体的有通道声码器、共振峰声码器、同态声码器、线性预测声码器等。基于神经网络技术的声码器不需要特别的声学假设，可以直接从数据中学习语音不同表示之间的转换过程。相对于传统声码器，新的声码器重建的语音波形可以达到更好的质量，所以在最近获得了更广泛的应用。业界常用的神经网络声码器包括WaveNet，WaveRNN等。

本实施例的方法通过将获取的语音信号输入至预处理模块，然后将预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征，最后将干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形，从而可以实现提高降噪性能、减小语音失真和降低算法的复杂度。

进一步参考图2，其示出了本申请一实施例提供的另一种语音降噪方法和系统的流程图。该流程图主要是对声学特征预测网络的训练方法进一步限定的步骤的流程图。

如图2所示，在步骤201中，将带噪语音的幅度相位信息输入所述声学特征预测网络，经过张量运算得到输出；

在步骤202中，以所述输出和与所述带噪语音对应的干净语音的声学特征的差异，通过反向传播算法优化所述张量运算的权重；

在步骤203中，通过反复迭代所述优化的过程来减少所述输出和所述带噪语音对应的干净语音声学特征的差异，直到达到规定的迭代次数或所述差异小于预设值。

在本实施例中，对于步骤201，语音降噪装置将带噪语音的幅度相位信息输入声学特征预测网络，经过张量运算得到输出。

对于步骤202，语音降噪装置以声学特征预测网络经过张量运算得到输出和与带噪语音对应的干净语音的声学特征的差异，通过反向传播算法优化张量运算的权重。

对于步骤203，语音降噪装置通过反复迭代优化的过程来减少输出和带噪语音对应的干净语音声学特征的差异，直到达到规定的迭代次数或差异小于预设值。

本实施例的方法通过将带噪语音的幅度相位信息输入声学特征预测网络，经过张量运算得到输出，之后以输出和与带噪语音对应的干净语音的声学特征的差异，通过反向传播算法优化张量运算的权重，最后通过反复迭代优化的过程来减少输出和带噪语音对应的干净语音声学特征的差异，直到达到规定的迭代次数或差异小于预设值，从而可以完成声学特征预测网络的训练。

在上述实施例法的方法中，在训练完所述声学特征预测网络之后，所述方法还包括：

语音降噪装置对训练好的声学特征预测网络联合训练好的声码器模型进行联合，对联合后的网络模型进行训练和微调。

本实施例的方法通过对训练好的声学特征预测网络联合训练好的声码器模型进行联合，之后对联合后的网络模型进行训练和微调，从而可以实现完成声学特征预测网络的训练以及完成对声码器的微调。

在上述实施例的方法中，所述对训练好的声学特征预测网络联合训练好的声码器模型进行联合，对联合后的网络模型进行训练和微调包括：

以带噪语音的幅度相位特征作为所述联合后的网络模型的输入，以与带噪语音对应的干净语音的波形作为目标输出，固定联合后的网络模型的某一部分参数，对另一部分张量运算参数进行微调。

本实施例的方法通过以带噪语音的幅度相位特征作为所述联合后的网络模型的输入，以与带噪语音对应的干净语音的波形作为目标输出，固定联合后的网络模型的某一部分参数，对另一部分张量运算参数进行微调，从而可以实现完成声学特征预测网络的训练以及完成对声码器的微调。

进一步参考图3，其示出了本申请一实施例提供的又一种语音降噪方法和系统的流程图。该流程图主要是对流程图1“将获取的语音信号输入至预处理模块”的流程进一步限定的步骤的流程图。

如图3所示，在步骤301中，对获取的语音信号进行预加重并划分为若干短时音频帧；

在步骤302中，对所述若干短时音频帧进行短时傅里叶变换提取每一帧语音信号对应的时频信息，其中，所述时频信息包括对数幅度信息和归一化相位信息；

在步骤303中，根据所述短时傅里叶变换的对称性保留所述时频信息中的一半。

在本实施例中，对于步骤301，语音降噪装置对获取的语音信号进行预加重并划分为若干短时音频帧，例如，对输入的16kHz采样的PCM数据进行预加重。按照帧移256、帧长512划分成若干短时音频帧。

对于步骤302，语音降噪装置对若干短时音频帧进行短时傅里叶变换提取每一帧语音信号对应的时频信息，其中，时频信息包括对数幅度信息和归一化相位信息；

对于步骤303，语音降噪装置根据短时傅里叶变换的对称性保留时频信息中的一半，例如，根据短时傅里叶变换的对称性，只保留短时傅里叶变换后0频点以后的前256点的视频信息，故每一帧由512个值组成(256个对数幅度值+256个相位值)。

本实施例的方法通过对获取的语音信号进行预加重并划分为若干短时音频帧，然后对若干短时音频帧进行短时傅里叶变换提取每一帧语音信号对应的时频信息，最后根据短时傅里叶变换的对称性保留时频信息中的一半，从而可以实现在同等性能条件下能够显著降低网络的复杂度。

在一些可选的实施例中，所述声学特征预测网络包括二维卷积层、循环门控单元和输出层。

在一些可选的实施例中，所述声码器为神经同态声码器，包括谐波滤波器估计器和噪声滤波器估计器，其中，谐波滤波器估计器和噪声滤波器估计器均由多层卷积层和全连接输出层构成，例如，声码器中的谐波滤波器估计器和噪声滤波器估计器都由4层的一维卷积层加一层全连接输出层构成，卷积核的大小可以分别是2、4、2、4，滤波器个数分别可以为2、8、16、64,步长可以均为1。

请参考图4，其示出了本发明一实施例提供的一种语音降噪系统的框图。

如图4所示，语音降噪系统400包括数字音频输入模块410、数字音频处理模块420和数字音频输出模块430。

其中，数字音频输入模块410，配置为向数字音频处理模块提供数字音频流；数字音频处理模块420，配置为使用权利要求1-7中任一项所述降噪方法进行语音降噪；数字音频输出模块430，配置为将所述数字音频处理模块输出的音频保存、播放或者传输给其他设备或软件使用。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：

传统降噪方法主要包括噪声估计和语音能量谱的计算两大步骤。但由于噪音的多样性，以及语音中的某些成分(比如清音)在统计特征上非常类似于噪音，传统降噪方法实际上总是无法准确的估计噪声的能量谱。若对于噪声能量谱过估计，则会损伤语音，导致语音失真。若对于噪声能量欠估计，则会导致残余噪声。另外，由于非平稳噪声不具有统计平稳性，大多数统计方法对非平稳过程的参数都倾向于欠估计，导致在非平稳噪声环境下噪声能量估计过小，残余噪声多。

对于完全基于数据驱动的智能降噪方法，当模型较小时，其描述能力有限，对真实场景数据表现为欠拟合，模型降噪能力不够。当模型较大时，则由于程序运算过于复杂，限制了特定方法的应用场景，并且在训练过程中出现过拟合，导致在实际应用时性能变差。

寻找一个复杂度不高，但降噪性能好，语音失真小的算法一直是语音增强领域不断追求的目标。

发明人还发现，由于基于神经网络的降噪方法在非平稳噪声处理上的巨大优势，所以基于神经网络的降噪方法是当前研究的主流。

业内人员主要通过改进神经网络模型的结构和训练方法来提高降噪性能。对于运算复杂度问题，业内主要的解决方法是一方面结合信号处理和神经网络两种技术各自的优点，另外一方面也在利用减枝、量化等方法来降低模型的运算复杂度。但是当前还没有出现一种完美的模型，能够实现完全的无残余噪声、无语音失真的降噪方法。

语音合成和语音降噪是语音处理的两个不同的子领域。随着神经网络技术的发展进步，这两个领域在这几年都获得了长足的技术进步。最近的相关研究启发了我们利用声码器来进行语音降噪。由于从声学特征中合成的语音是没有任何噪音的，所以理论上通过这种方法可以实现无噪音的语音降噪效果。现有技术中已经对声码器用于语音降噪进行了实验验证。但现有技术只是选择了领域内比较基础的一种声码器WORLD，其实验中得到的处理语音质量一般。我公司在多年的业务实践中，积累了丰富的语音降噪和神经网络声码器的技术。

本申请的方案主要从以下几个方面入手进行设计和优化：

本申请提出了一种语音降噪方法，其通过串联一个预测模型和一个声码器来实现语音降噪功能。

请参考图5，其示出了本发明一实施例提供的语音降噪方法和系统的一个具体示例的结构框图。

如图5所示，一个预处理模块，该模块用于将语音分成若干帧，并对语音进行一些信号变换。进行信号变换的目的是使用更有效的音频表示，在同等性能条件下能够显著降低网络的复杂度。

一个声学特征预测网络，该网络有若干张量运算构成，以预处理模块的输出作为输入，经过若干相互连接的含参数的张量运算，最后得到输出张量，输出张量的内容代表预测的干净语音的声学特征。这里的声学特征包括对数梅尔谱，线性预测系数(LinearPrediction Coefficients，LPC)、滤波器组系数(Filter banks，FBank)，基频(Fundamental Frequency，标记为F0)或者动态信息，如一阶差，二阶差等。

一个神经网络声码器模型，该模型以声学特征预测模块输出的干净语音声学特征作为输入，经过若干张量运算、滤波器运算，以对应帧的干净语音的波形作为输出。

在流程上，本专利提出的降噪方法包括3个步骤：

数据预处理阶段：收集噪声和语音数据库，将噪声和语音数据按照不同的信噪比混合得到带噪语音。将整体的数据集分成两部分，数据集中的大部分带噪语音和对应的干净语音作为训练数据集，剩下的小部分数据集作为测试数据集。对数据集中的数据进行分帧，短时傅里叶变换，提出声学特征(基频和对数梅尔谱)；

模型训练阶段：包括对声学特征预测网络的完整训练和对声码器的微调。首先以带噪语音的幅度相位信息输入声学特征预测网络，经过张量运算得到输出。以输出和对应干净语音声学特征的差异，通过反向传播算法优化张量运算的权重。通过反复迭代以上优化过程来减少张量运算和干净语音声学特征的差异，直到达到规定的迭代次数或者差异小于某个特定值。声学特征预测网络训练完成后。加入在文本转换任务过程中已经训练好的声码器模型，以带噪语音的幅度相位作为整个网络模型的输入，以干净语音的波形作为目标输出，固定某一部分(如声学特征预测网络或声码器)的参数，对另一部分的张量运算参数进行微调；

推理阶段：将训练好的模型参数和模型推理过程部署到具体设备、芯片或服务上。当有语音流进入时，按照图1中箭头指定的流向进行处理，最后输出的就是没有噪音的干净声音。

请参考图6，其示出了本发明一实施例提供的语音降噪方法和系统的一个具体示例的数字语音降噪系统图。

如图6所示，本申请还设计了一种数字语音降噪系统，该系统包括数字音频输入模块，音频处理模块和数字音频输出3个模块构成，并且3个模块通过数字链路相互链接。

数字音频输入模块用于向该语音增强系统提供规定格式的数字音频流。该数字音频输入模块的存在形式包括麦克风，网络输入，外部提供的音频文件等。

音频处理模块是该语音降噪系统的核心单元，硬件上由可以执行指令的处理器，存储模型参数的长期存储设备(如硬盘，Flash芯片等)和存储运行时数据和指令的内存设备等构成。在硬件上存储用能够实现之前介绍的降噪算法功能的指令和数据，该指令和数据的存在方式可以为软件代码，固化在硬件上的可执行逻辑等。当系统运行时，该模块将从输入模块读取音频数据，并执行专利中介绍的算法逻辑对音频数据进行处理，从而得到相对于输入噪声成分更小的纯净语音数据。

数字音频输出模块用于将数字音频处理模块输出的音频保存、播放或者传输给其他设备或软件使用。其具体形式包括但不限于以下形式：喇叭，音频文件，网络输出，广播输出口等。

发明人在实现本发明的过程中形成的最佳方案：

基于神经网络声码器的语音降噪方法在运行时主要包括音频预处理、声学特征预测、语音波形合成三个步骤。每个步骤可以用多种具体的技术方案来实现，其中一种最佳实现方案是：

预处理：具体来说，首先对输入的16kHz采样的PCM数据进行预加重。按照帧移256、帧长512划分成若干短时音频帧。然后通过短时傅里叶变换(Short-time Fouriertransform，STFT)提取每一帧语音对应的时频信息：对数幅度和归一化相位信息。根据STFT变换的对称性，只保留STFT变换后0频点以后的前256点的视频信息，故每一帧由512个值组成(256个对数幅度值+256个相位值)；

声学特征预测模块以相临的5帧对数幅度和归一化相位信息作为输入，输出对应时刻干净语音的梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和基频信息F0。声学特征预测网络的结构由2维卷积层(Convolution Layer,conv2d)、循环门控单元(Gated Recurrent Unit，GRU)、输出层等构成，网络结构如图7所示。在该网络中一次输入5帧时频信息，对数幅度和相位信息交替，并额外扩展一个维度，输入形状是(5,512,1)。第一层conv2d的filters＝4,卷积核大小是(2,2),tanh函数激活，padding＝same。第2层卷积层的filters＝8，卷积核大小是(3,3)，activation＝tanh，padding＝same,dilation_rate＝(2,2)。在卷积层和GRU层之间加入squeeze操作将时间轴调整最后一个维度。GRU的units都是512。FCN是两个输出层，其中F0的输出是[0，1]的实数，表示采样频率归一化后的基频信息。MFCC是40维的梅尔倒谱系数。

声码器采用神经同态声码器，该声码器的结构如图8所示。声码器中的谐波滤波器估计器和噪声滤波器估计器都由4层的一维卷积层加一层全连接输出层构成。卷积核的大小分别是2、4、2、4，滤波器个数分别为2、8、16、64,步长均为1，使用same-padding。时变谐波滤波器和时变噪声滤波器的冲击响应h_k[m，n]和h_n[m，n]的长度都是64。在图7中，m是帧的序号，n是时间序号，s_h[n]是对应帧的谐波成分，p[n]是以F0为周期的正弦波，h_p[m,n]是第m帧时的时变谢波滤波器的冲击响应，s_h[n]＝p[n]*h_p[m,n],其中*代表卷积操作。u[n]是白噪声信号,h_n[m,n]代表时变噪声滤波器的冲击响应，s_n[n]是语音帧中的非周期成分,s_n[n]＝u[n]*h_n[m,n]。环境滤波器用于对合成声音进行微调，从而适应不同的场景，如教室，客厅，空旷道路等，作为一种特殊情况，环境滤波器可以用一个n＝0时值为1，其他时刻值为0的特殊冲击响应表示。

发明人在实现本发明的过程中除最佳方案中指定的相关参数，其他配置参数也能获得类似的效果。

例如，预处理时音频分帧时的帧移和重叠时长可以有不同配置，比如(256，256)，(320，192)，(512，512)，(640，384)等；

声学特征预测网络输入特征可以是短时傅里叶变换的幅度相位信息，或者直接输入时域波形；

声学特征预测网络的组成中卷积层conv2d和GRU的顺序可以交换，层数根据效果和复杂度的要求也可以进行调整，比如说1至5层；

声码器使用神经同态滤波器时，为了复杂度和性能的平衡，其谐波响应估计器和噪声响应估计器的层数可以调整，比如2层或者6层等；

声码器除了使用神经同态声码器，还可以使用其他类型的声码器，如LPC-Net，ARNet等。

本申请实施例公开了组合声学特征预测网络和声码器的语音处理流程。其中声学特征预测网络的输入可以但不限于是带噪语音的幅度相位谱，输出是干净语音的声学特征(包括但不限于基频、对数梅尔谱等)。声码器的输入是声学特征预测网络的输出，输出可以是但不限于是干净语音的波形或其他可以转换为波形的表达方式(如完整的相位幅度谱)。

本申请实施例采用的神经网络预测模型的网络结构，包括但不限于是卷积层、递归循环层，全连接层的组合叠加；本申请实施例采用了神经同态声码器(具体请参照CN111833843A)，该类型的声码器以基频和对数梅尔谱作为输入，内部模块包括但不限于脉冲生成器、谐波滤波器估计器、时变谐波滤波器、白噪声发生器、噪声滤波器估计器、时变噪声滤波器、加法信号混合器、环境滤波器等。

本申请实施例还公开了一种语音降噪系统。其核心单元是一种数字语音处理模块，该模块的核心功能是执行上述方法中所述的语音处理流程，该模块的具体存在形式可以是但不限于某种特定的数字芯片、某种独立以执行程序或者是以代码库的方式存在的某种软件代码。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音降噪方法和系统；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将获取的语音信号输入至预处理模块，其中，所述预处理模块包括对所述语音信号进行分帧和信号变换；

将所述预处理模块的输出输入至声学特征预测网络得到预测的干净语音的声学特征；

将所述干净语音的声学特征输入至神经网络声码器模型中得到干净语音的波形。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音降噪方法和系统的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音降噪方法和系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音降噪方法和系统。

图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。语音降噪方法和系统的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音降噪方法和系统。输入装置730可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音降噪方法和系统中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音降噪方法，包括：

将获取的语音信号输入至预处理模块，所述预处理模块对所述语音信号进行分帧和信号变换；

2.根据权利要求1所述的方法，所述声学特征预测网络通过以下方式训练：

将带噪语音经过短时傅里叶变换后得到的幅度、相位信息输入所述声学特征预测网络，经过张量运算得到输出；

以所述输出和与所述带噪语音对应的干净语音的声学特征的差异，通过反向传播算法优化所述张量运算的权重；

通过反复迭代所述优化的过程来减少所述输出和所述带噪语音对应的干净语音声学特征的差异，直到达到规定的迭代次数或所述差异小于预设值。

3.根据权利要求2所述的方法，在训练完所述声学特征预测网络之后，所述方法还包括：

对训练好的声学特征预测网络联合训练好的声码器模型进行联合，对联合后的网络模型进行训练和微调。

4.根据权利要求3所述的方法，其中，所述对训练好的声学特征预测网络联合训练好的声码器模型进行联合，对联合后的网络模型进行训练和微调包括：

以所述带噪语音的幅度、相位信息作为所述联合后的网络模型的输入，以与所述带噪语音对应的干净语音的波形作为目标输出，固定所述联合后的网络模型的某一部分参数，对另一部分张量运算参数进行微调。

5.根据权利要求1所述的方法，其中，所述将获取的语音信号输入至预处理模块包括：

对获取的语音信号进行预加重并划分为若干短时音频帧；

对所述若干短时音频帧进行短时傅里叶变换提取每一帧语音信号对应的时频信息，其中，所述时频信息包括对数幅度信息和归一化相位信息；

根据所述短时傅里叶变换的对称性保留所述时频信息中的一半。

6.根据权利要求1所述的方法，其中，所述声学特征预测网络包括二维卷积层、循环门控单元和输出层。

7.根据权利要求1所述的方法，其中，所述声码器为神经同态声码器，包括谐波滤波器估计器和噪声滤波器估计器，其中，所述谐波滤波器估计器和噪声滤波器估计器均由多层卷积层和全连接输出层构成。

8.一种语音降噪系统，包括：

数字音频输入模块，配置为向数字音频处理模块提供数字音频流；

所述数字音频处理模块，配置为使用权利要求1-7中任一项所述降噪方法进行语音降噪；

数字音频输出模块，配置为将所述数字音频处理模块输出的音频保存、播放或者传输给其他设备或软件使用。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。