CN114360566A

CN114360566A - 一种语音信号的降噪处理方法、装置以及存储介质

Info

Publication number: CN114360566A
Application number: CN202210088712.8A
Authority: CN
Inventors: 赵明宇; 徐存树
Original assignee: Hangzhou Tuya Information Technology Co Ltd
Current assignee: Hangzhou Tuya Information Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-15

Abstract

本申请涉及语音降噪技术领域，公开了一种语音信号的降噪处理方法、装置以及计算机可读存储介质。该方法包括：对待处理语音信号进行预处理，以得到第一特征数据；采用预设降噪算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据；将第一特征数据和第二特征数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第三特征数据；根据第一特征数据、第二特征数据和第三特征数据，确定降噪处理后的语音信号。通过上述方法，利用预设降噪算法过滤待处理语音信号中的平稳噪声，利用预设降噪网络过滤待处理语音信号中的瞬态噪声，能够结合传统降噪和深度学习降噪的优势，取得良好的降噪效果。

Description

一种语音信号的降噪处理方法、装置以及存储介质

技术领域

本申请涉及语音降噪技术领域，特别涉及一种语音信号的降噪处理方法、装置以及计算机可读存储介质。

背景技术

语音降噪是指当语音信号被各种各样的背景噪声干扰、甚至淹没后，尽可能地从带噪语音信号中提取有用语音信号(或纯净语音信号)，抑制或降低噪声干扰的技术。为了提高手机、耳机等设备的通话质量，通常会对麦克风采集的原始数据进行降噪处理。

按研究思路的不同划分，目前的降噪方法主要包括传统信号处理算法和深度学习算法。其中，传统信号处理算法大多基于物理和数学原理推导，这类算法无法消除非稳态的噪声，低信噪比时语音损伤大；而深度学习算法更多是利用大量的语音数据或噪声数据，训练网络学习相关的特征从而实现降噪，这类算法存在着网络结构参数大，计算量大、延时大和泛化性差的缺点，不能很好的在小资源下取得好的效果。

发明内容

本申请主要解决的技术问题是提供一种语音信号的降噪处理方法、装置以及计算机可读存储介质，能够解决现有降噪方法中的传统信号处理算法、深度学习算法分别单独使用时降噪效果不佳的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音信号的降噪处理方法，该方法包括：

对待处理语音信号进行预处理，以得到第一特征数据；采用预设降噪算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据；将第一特征数据和第二特征数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第三特征数据；根据第一特征数据、第二特征数据和第三特征数据，确定降噪处理后的语音信号。

可选地，在上述方法中，对待处理语音信号进行预处理，以得到第一特征数据，包括：

对待处理语音信号进行预处理，以得到第一幅度数据和相位数据。

可选地，在上述方法中，采用预设降噪算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据，包括：

采用预设降噪算法对第一幅度数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二幅度数据和语音存在概率。

可选地，在上述方法中，将第一特征数据和第二特征数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第三特征数据，包括：

将第一幅度数据和第二幅度数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第一时频掩码。

可选地，在上述方法中，根据第一特征数据、第二特征数据和第三特征数据，确定降噪处理后的语音信号，包括：

根据第一幅度数据、相位数据、语音存在概率、第一时频掩码，确定降噪处理后的语音信号。

可选地，在上述方法中，根据第一幅度数据、相位数据、语音存在概率、第一时频掩码，确定降噪处理后的语音信号，包括：

根据语音存在概率对第一时频掩码进行处理，以得到第二时频掩码；根据第二时频掩码对第一幅度数据进行处理，以得到第三幅度数据；根据第三幅度数据和相位数据，确定降噪处理后的语音信号。

可选地，在上述方法中，根据语音存在概率对第一时频掩码进行处理，以得到第二时频掩码，包括：

获取目标频带对应的语音存在概率和有效频带对应的语音存在概率；在目标频带对应的语音存在概率小于第一下限阈值且有效频带对应的语音存在概率小于第二下限阈值时，减小目标频带对应的第一时频掩码，以得到第二时频掩码；或在目标频带对应的语音存在概率大于第一上限阈值或有效频带对应的语音存在概率大于第二上限阈值时，增大目标频带对应的第一时频掩码，以得到第二时频掩码。

基于公式(1)，利用语音存在概率对第一时频掩码进行加权修正，以得到第二时频掩码；

其中，β₁、β₂、α₁、α₂、α₃和α₄为预先设定好的超参，α1、α2、α3、α4都是0-1范围内的浮点数，β1、β2都是大于1的浮点数，

其中，N是傅里叶变换后的有效频带数，

可选地，在上述方法中，根据第二时频掩码对第一幅度数据进行处理，以得到第三幅度数据，包括：

将第二时频掩码与第一幅度数据相乘，以得到第三幅度数据。

可选地，在上述方法中，根据第三幅度数据和相位数据，确定降噪处理后的语音信号，包括：

根据第三幅度数据和相位数据，确定降噪处理后的语音频谱数据；对语音频谱数据进行逆傅里叶变换、重叠相加，以得到降噪处理后的语音信号。

可选地，在上述方法中，将第一特征数据和第二特征数据输入至预设降噪网络之前，还包括：

对第一特征数据和第二特征数据进行取对数，以压缩第一特征数据和第二特征数据的动态范围。

可选地，在上述方法中，预设降噪网络是采用训练语音集对语音降噪网络进行训练得到的；其中，采用训练语音集对语音降噪网络进行训练，包括：

获取只包含瞬态噪声的训练语音集及训练语音集对应的干净语音集；将训练语音集输入至语音降噪网络，以输出对应的降噪语音集；利用干净语音集和降噪语音集的差异，对语音降噪网络的参数进行修正。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音信号的降噪处理装置，该装置包括处理器和存储器。

具体地，存储器用于存储程序指令，处理器用于执行该程序指令以实现上述语音信号的降噪处理方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有程序指令，该程序指令能够被执行以实现上述语音信号的降噪处理方法。

区别于现有技术，本申请提供了一种语音信号的降噪处理方法、装置以及计算机可读存储介质，该方法包括：对待处理语音信号进行预处理，以得到第一特征数据；采用预设降噪算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据；将第一特征数据和第二特征数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第三特征数据；根据第一特征数据、第二特征数据和第三特征数据，确定降噪处理后的语音信号。通过上述方法，利用预设降噪算法过滤待处理语音信号中的平稳噪声，利用预设降噪网络过滤待处理语音信号中的瞬态噪声，能够充分结合传统降噪和深度学习降噪的优势，在资源受限的嵌入式设备上取得良好的降噪效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的语音信号的降噪处理方法第一实施例的流程示意图；

图2是本申请提供的语音信号的降噪处理方法第二实施例的流程示意图；

图3是图2中S24的流程示意图；

图4是图3中S241的流程示意图；

图5是图3中S243的流程示意图；

图6是本申请提供的语音信号的降噪处理方法一实施例中对语音降噪网络进行训练的流程示意图；

图7是本申请提供的语音信号的降噪处理装置一实施例的结构示意图；

图8是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例中的步骤并不一定是按照所描述的步骤顺序进行处理，可以按照需求有选择的将步骤打乱重排，或者删除实施例中的步骤，或者增加实施例中的步骤，本申请实施例中的步骤描述只是可选的顺序组合，并不代表本申请实施例的所有步骤顺序组合，实施例中的步骤顺序不能认为是对本申请的限制。

本申请实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是：当用在本说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在语音降噪方法中，传统的基于物理模型的降噪方法无法消除非稳态的噪声，低信噪比时语音损伤大，而基于深度学习的降噪方法存在着网络结构参数大，计算量大、延时大和泛化性差的缺点，不能很好的在小资源下取得好的效果。

基于此，本申请提出了一种语音信号的降噪处理方法，该方法利用预设降噪算法过滤待处理语音信号中的平稳噪声，利用预设降噪网络过滤待处理语音信号中的瞬态噪声，能够充分结合传统降噪和深度学习降噪的优势，在资源受限的嵌入式设备上取得良好的降噪效果。

参阅图1，图1是本申请提供的语音信号的降噪处理方法第一实施例的流程示意图，该方法包括：

S11：对待处理语音信号进行预处理，以得到第一特征数据。

可选地，待处理语音信号包含语音及对应的噪声干扰，可以由手机、耳机等嵌入式设备的麦克风采集得到，在此不作具体限定。

可选地，对待处理语音信号进行预处理的方法可以包括分帧、加窗、傅里叶变换、取绝对值等操作，在此也不作具体限定，在本实施例中，预处理的目的是得到第一特征数据。

S12：采用预设降噪算法对所述第一特征数据进行处理，以过滤所述待处理语音信号中的平稳噪声，并得到第二特征数据。

可选地，传统的单通道降噪方法包括普减法、维纳滤波、基于统计模型的降噪方法等，其中的典型代表是OMLSA算法和Webrtc中的降噪算法。

在本实施例中，主要采用OMLSA算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据。

S13：将所述第一特征数据和所述第二特征数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第三特征数据。

可选地，通过大规模数据集的学习获得预设降噪网络，典型的降噪网络模型包括Tasnet、Phasen、Dccrn和DeepXi等模型。基于深度学习的降噪方法大致可以分为基于频谱映射的方法、基于时频掩码的方法、端到端的方法这三类。

在本实施例中，将第一特征数据和第二特征数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第三特征数据。

可选地，在其他一些实施例中，将第一特征数据和第二特征数据输入至预设降噪网络之前，还包括：对第一特征数据和第二特征数据进行取对数，以压缩第一特征数据和第二特征数据的动态范围。

S14：根据所述第一特征数据、所述第二特征数据和所述第三特征数据，确定降噪处理后的语音信号。

相比于现有技术，本实施例提供了一种语音信号的降噪处理方法，该方法包括：对待处理语音信号进行预处理，以得到第一特征数据；采用预设降噪算法对第一特征数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二特征数据；将第一特征数据和第二特征数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第三特征数据；根据第一特征数据、第二特征数据和第三特征数据，确定降噪处理后的语音信号。通过上述方法，利用预设降噪算法过滤待处理语音信号中的平稳噪声，利用预设降噪网络过滤待处理语音信号中的瞬态噪声，能够充分结合传统降噪和深度学习降噪的优势，在资源受限的嵌入式设备上取得良好的降噪效果。

参阅图2，图2是本申请提供的语音信号的降噪处理方法第二实施例的流程示意图，该方法包括：

S21：对待处理语音信号进行预处理，以得到第一幅度数据和相位数据。

可选地，对待处理语音信号进行分帧、加窗、傅立叶变换、取绝对值等操作，以得到第一幅度数据和相位数据。

S22：采用预设降噪算法对所述第一幅度数据进行处理，以过滤所述待处理语音信号中的平稳噪声，并得到第二幅度数据和语音存在概率。

可选地，采用OMLSA算法对第一幅度数据进行处理，以过滤待处理语音信号中的平稳噪声，并得到第二幅度数据和语音存在概率。

可选地，OMLSA算法的流程为：首先使用MCRA方法估计出噪声，接着估计出后验信噪比和先验信噪比(DD准则)，利用先验信噪比的软决策估计出先验语音缺失概率，之后利用贝叶斯准则求出条件语音存在概率，将前面求出的值带入增益函数表达式得到增益值。

S23：将所述第一幅度数据和所述第二幅度数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第一时频掩码。

可选地，本实施例中的预设降噪网络采用的是基于时频掩码的方法，其核心思想是通过训练深度神经网络预测时频掩码，它反映了各个时频单元上对噪声的抑制程度，然后将预测的时频掩码应用于输入带噪语音的频谱来重构纯净语音信号。常见的时频掩码有理想二值掩码、理想比例掩码、相敏掩码、复比例掩码等。

可选地，将第一幅度数据和第二幅度数据输入至预设降噪网络，以过滤待处理语音信号中的瞬态噪声，并得到第一时频掩码。

可选地，在其他一些实施例中，将第一幅度数据和第二幅度数据输入至预设降噪网络之前，还包括：对第一幅度数据和第二幅度数据进行取对数，以压缩第一幅度数据和第二幅度数据的动态范围。

S24：根据所述第一幅度数据、所述相位数据、所述语音存在概率、所述第一时频掩码，确定降噪处理后的语音信号。

参阅图3，图3是图2中S24的流程示意图，S24还可以包括：

S241：根据所述语音存在概率对所述第一时频掩码进行处理，以得到第二时频掩码。

可选地，根据预设降噪算法处理第一幅度数据得到的语音存在概率，对第一时频掩码进行处理，以得到第二时频掩码。

S242：根据所述第二时频掩码对所述第一幅度数据进行处理，以得到第三幅度数据。

可选地，将第二时频掩码与第一幅度数据相乘，可以得到第三幅度数据。

S243：根据所述第三幅度数据和所述相位数据，确定降噪处理后的语音信号。

可选地，结合第三幅度数据和相位数据，可以确定降噪处理后的语音信号。

参阅图4，图4是图3中S241的流程示意图，S241还可以包括：

S2411：获取目标频带对应的语音存在概率和有效频带对应的语音存在概率。

可选地，根据预设降噪算法处理第一幅度数据得到的语音存在概率，可以获取目标频带对应的语音存在概率和有效频带对应的语音存在概率。

S2412：在所述目标频带对应的语音存在概率小于第一下限阈值且所述有效频带对应的语音存在概率小于第二下限阈值时，减小所述目标频带对应的第一时频掩码，以得到第二时频掩码。

可选地，在目标频带对应的语音存在概率小于第一下限阈值且有效频带对应的语音存在概率小于第二下限阈值时，说明目标频带为噪声的概率大，则应对目标频带对应的第一时频掩码进行减少，从而得到第二时频掩码。

可选地，在目标频带对应的语音存在概率大于第一上限阈值或有效频带对应的语音存在概率大于第二上限阈值时，执行S2413。

S2413：在所述目标频带对应的语音存在概率大于第一上限阈值或所述有效频带对应的语音存在概率大于第二上限阈值时，增大所述目标频带对应的第一时频掩码，以得到第二时频掩码。

可选地，在目标频带对应的语音存在概率大于第一上限阈值或有效频带对应的语音存在概率大于第二上限阈值时，说明目标频带为语音的概率大，则应对目标频带对应的第一时频掩码进行增大，以得到第二时频掩码。

在一可选的实施例中，基于公式(1)，利用语音存在概率对第一时频掩码进行加权修正，以得到第二时频掩码；

其中，N是傅里叶变换后的有效频带数，

可以理解地，公式(1)只是实现根据语音存在概率对第一时频掩码进行处理，以得到第二时频掩码的一种方式，其他符合这个特性的函数也可以达到此目的，在此不做具体限定。

参阅图5，图5是图3中S243的流程示意图，S243还可以包括：

S2431：根据所述第三幅度数据和所述相位数据，确定降噪处理后的语音频谱数据。

可选地，将第三幅度数据和相位数据结合，可以确定降噪处理后的语音频谱数据。

S2432：对所述语音频谱数据进行逆傅里叶变换、重叠相加，以得到降噪处理后的语音信号。

可选地，对语音频谱数据进行逆傅里叶变换和重叠相加，可以得到降噪处理后的语音信号。

参阅图6，图6是本申请提供的语音信号的降噪处理方法一实施例中对语音降噪网络进行训练的流程示意图，该方法包括：

S31：获取只包含瞬态噪声的训练语音集及所述训练语音集对应的干净语音集。

可选地，为了使语音降噪网络小型化，取得更好的训练效果，获取的训练语音集只包含瞬态噪声，并且获取训练语音集对应的不包含噪声的干净语音集。

S32：将所述训练语音集输入至所述语音降噪网络，以输出对应的降噪语音集。

可选地，将训练语音集输入至语音降噪网络，经过语音降噪网络的处理，可以输出对应的降噪语音集。

可选地，在将训练语音集输入至语音降噪网络之前，也可以压缩训练语音集的动态范围，比如采用取对数的方式压缩动态范围，以得到较好的收敛结果。

S33：利用所述干净语音集和所述降噪语音集的差异，对所述语音降噪网络的参数进行修正。

可选地，干净语音集与语音降噪网络输出的降噪语音集之间存在差异，可以根据该差异调整语音降噪网络的参数，再重复训练的过程，以使干净语音集与降噪语音集之间的差异最小，此时得到的语音降噪网络即为本申请提供的语音信号的降噪处理方法所需要的预设降噪网络。

参阅图7，图7是本申请提供的语音信号的降噪处理装置一实施例的结构示意图，该装置400包括处理器401和存储器402。

具体地，存储器402用于存储程序指令，处理器401用于执行该程序指令以实现上述实施例中任一个或任一不冲突的组合所提供的方法。

可选地，处理器401为中央处理器(CPU)，是电子计算机的主要设备之一，电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令，对指令译码并执行指令的核心部件。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。在计算机体系结构中，CPU是对计算机的所有硬件资源(如存储器、输入输出单元)进行控制调配、执行通用运算的核心硬件单元。CPU是计算机的运算和控制核心。计算机系统中所有软件层的操作，最终都将通过指令集映射为CPU的操作。

可选地，存储器402为只读存储器(ROM)或随机存取存储器(RAM)，是计算机系统中的记忆设备，主要用来存放程序和数据。计算机中的全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果，都保存在存储器中。它是根据控制器指定的位置存入和取出信息。

在一可选的实施例中，降噪处理装置400为一手机，在用户进行语音通话时，通过麦克风获取语音信号，并根据上述实施例中任一个或任一不冲突的组合所提供的方法对该语音信号进行降噪处理，使得用户的通话质量更加清晰，给用户带来良好体验。

参阅图8，图8是本申请提供的计算机可读存储介质一实施例的结构示意图，该计算机可读存储介质500包括程序指令501，程序指令501能够被执行以实现上述实施例中任一个或任一不冲突的组合所提供的方法。其中，计算机可读存储介质500的容量大小能够满足存储程序指令501的要求。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质500(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可读存储介质500实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可读存储介质500到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令501产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机可读存储介质500也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储介质500中的程序指令501产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机可读存储介质500也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的程序指令501提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音信号的降噪处理方法，其特征在于，所述方法包括：

对待处理语音信号进行预处理，以得到第一特征数据；

采用预设降噪算法对所述第一特征数据进行处理，以过滤所述待处理语音信号中的平稳噪声，并得到第二特征数据；

将所述第一特征数据和所述第二特征数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第三特征数据；

根据所述第一特征数据、所述第二特征数据和所述第三特征数据，确定降噪处理后的语音信号。

2.根据权利要求1所述的方法，其特征在于，

所述对待处理语音信号进行预处理，以得到第一特征数据，包括：

对待处理语音信号进行预处理，以得到第一幅度数据和相位数据；

所述采用预设降噪算法对所述第一特征数据进行处理，以过滤所述待处理语音信号中的平稳噪声，并得到第二特征数据，包括：

采用预设降噪算法对所述第一幅度数据进行处理，以过滤所述待处理语音信号中的平稳噪声，并得到第二幅度数据和语音存在概率；

所述将所述第一特征数据和所述第二特征数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第三特征数据，包括：

将所述第一幅度数据和所述第二幅度数据输入至预设降噪网络，以过滤所述待处理语音信号中的瞬态噪声，并得到第一时频掩码；

所述根据所述第一特征数据、所述第二特征数据和所述第三特征数据，确定降噪处理后的语音信号，包括：

根据所述第一幅度数据、所述相位数据、所述语音存在概率、所述第一时频掩码，确定降噪处理后的语音信号。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第一幅度数据、所述相位数据、所述语音存在概率、所述第一时频掩码，确定降噪处理后的语音信号，包括：

根据所述语音存在概率对所述第一时频掩码进行处理，以得到第二时频掩码；

根据所述第二时频掩码对所述第一幅度数据进行处理，以得到第三幅度数据；

根据所述第三幅度数据和所述相位数据，确定降噪处理后的语音信号。

4.根据权利要求3所述的方法，其特征在于，

所述根据所述语音存在概率对所述第一时频掩码进行处理，以得到第二时频掩码，包括：

获取目标频带对应的语音存在概率和有效频带对应的语音存在概率；

在所述目标频带对应的语音存在概率小于第一下限阈值且所述有效频带对应的语音存在概率小于第二下限阈值时，减小所述目标频带对应的第一时频掩码，以得到第二时频掩码；或

在所述目标频带对应的语音存在概率大于第一上限阈值或所述有效频带对应的语音存在概率大于第二上限阈值时，增大所述目标频带对应的第一时频掩码，以得到第二时频掩码。

5.根据权利要求3所述的方法，其特征在于，

基于公式(1)，利用所述语音存在概率对所述第一时频掩码进行加权修正，以得到第二时频掩码；

其中，N是傅里叶变换后的有效频带数，

6.根据权利要求3所述的方法，其特征在于，

所述根据所述第二时频掩码对所述第一幅度数据进行处理，以得到第三幅度数据，包括：

将所述第二时频掩码与所述第一幅度数据相乘，以得到第三幅度数据。

7.根据权利要求3所述的方法，其特征在于，

所述根据所述第三幅度数据和所述相位数据，确定降噪处理后的语音信号，包括：

根据所述第三幅度数据和所述相位数据，确定降噪处理后的语音频谱数据；

对所述语音频谱数据进行逆傅里叶变换、重叠相加，以得到降噪处理后的语音信号。

8.根据权利要求1所述的方法，其特征在于，

所述将所述第一特征数据和所述第二特征数据输入至预设降噪网络之前，还包括：

对所述第一特征数据和所述第二特征数据进行取对数，以压缩所述第一特征数据和所述第二特征数据的动态范围。

9.根据权利要求1所述的方法，其特征在于，

所述预设降噪网络是采用训练语音集对语音降噪网络进行训练得到的；

所述采用训练语音集对语音降噪网络进行训练，包括：

获取只包含瞬态噪声的训练语音集及所述训练语音集对应的干净语音集；

将所述训练语音集输入至所述语音降噪网络，以输出对应的降噪语音集；

利用所述干净语音集和所述降噪语音集的差异，对所述语音降噪网络的参数进行修正。

10.一种语音信号的降噪处理装置，其特征在于，所述降噪处理装置包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于执行所述程序指令以实现如权利要求1至9任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，存储有程序指令，所述程序指令能够被执行以实现如权利要求1至9任一项所述的方法。