CN116913307A

CN116913307A - 语音处理方法、装置、通信设备及可读存储介质

Info

Publication number: CN116913307A
Application number: CN202211562088.7A
Authority: CN
Inventors: 陈亚楠; 张世磊; 高莹莹
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-10-20

Abstract

本申请公开了一种语音处理方法、装置、通信设备及可读存储介质，属于数据处理技术领域。该语音处理方法包括：获取待处理的带噪语音信号；根据带噪语音信号的幅度谱，确定带噪语音信号的理想比例掩膜值，并确定带噪语音信号中的语音信号的幅度谱；利用基音滤波器对带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用基音滤波器对带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；根据第一谐波特征、第二谐波特征以及带噪语音信号对应的目标说话人的声纹特征，确定复数理想比例掩膜值；利用所述复数理想比例掩膜值，获得带噪语音信号中的降噪后的语音信号。由此，可以准确获得降噪后的语音信号。

Description

语音处理方法、装置、通信设备及可读存储介质

技术领域

本申请属于数据处理技术领域，具体涉及一种语音处理方法、装置、通信设备及可读存储介质。

背景技术

随着科技的发展，通信设备的出现极大的改变了人们之间语音通信的方式。语音通信的环境中往往充斥着各种噪声，噪声的存在严重影响语音质量，降低语音可懂度。因此，语音降噪相关技术显得尤为重要。语音降噪是指通过抑制噪声信号，从带噪语音信号中恢复出干净的语音信号。

目前，通常通过信号处理相关技术和数学建模的方式实现降噪，主要有谱减法、维纳滤波、子空间法等。然而，这些方法往往对非平稳噪声处理能力十分有限，无法准确获得降噪后的语音信号。

发明内容

本申请实施例的目的是提供一种语音处理方法、装置、通信设备及可读存储介质，以解决目前无法准确获得降噪后的语音信号的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，提供了一种语音处理方法，应用于通信设备，包括：

获取待处理的带噪语音信号；

根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，并根据所述带噪语音信号的幅度谱和所述理想比例掩膜值，确定所述带噪语音信号中的语音信号的幅度谱；

利用基音滤波器对所述带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用所述基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；

根据所述第一谐波特征、所述第二谐波特征以及所述带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值；

利用所述复数理想比例掩膜值，获得所述带噪语音信号中的降噪后的语音信号。

第二方面，提供了一种语音处理装置，应用于通信设备，包括：

获取模块，用于获取待处理的带噪语音信号；

第一确定模块，用于根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，并根据所述带噪语音信号的幅度谱和所述理想比例掩膜值，确定所述带噪语音信号中的语音信号的幅度谱；

筛选模块，用于利用基音滤波器对所述带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用所述基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；

第二确定模块，用于根据所述第一谐波特征、所述第二谐波特征以及所述带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值；

处理模块，用于利用所述复数理想比例掩膜值，获得所述带噪语音信号中的降噪后的语音信号。

第三方面，提供了一种通信设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

本申请实施例中，在获取待处理的带噪语音信号后，可以根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，并根据所述带噪语音信号的幅度谱和所述理想比例掩膜值，确定所述带噪语音信号中的语音信号的幅度谱；利用基音滤波器对所述带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用所述基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；根据所述第一谐波特征、所述第二谐波特征以及所述带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值；利用所述复数理想比例掩膜值，获得所述带噪语音信号中的降噪后的语音信号。这样，借助复数理想比例掩膜值，既可以恢复信号幅度又可以恢复信号相位，从而准确获得降噪后的语音信号。

附图说明

图1是本申请实施例提供的一种语音处理方法的流程图；

图2是本申请实施例中的CRN模型的示意图；

图3是本申请具体实例中的语音降噪过程的示意图；

图4是本申请实施例提供的一种语音处理装置的结构示意图；

图5是本申请实施例提供的一种通信设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

为了解决目前无法准确获得降噪后的语音信号的问题，本申请实施例在卷积循环神经(Convolutional Recurrent Neural，CRN)网络的基础上，重新设计了增强网络系统，利用CNR网络模型的对非稳态噪声的优势，并利用基音检测相关技术对CNR模型估计语音信号幅度谱进行筛选，并结合主说话人语音提取相关技术的优势，提升降噪性能，从而准确获得降噪后的语音信号。此过程利用语音信号的特性，不完全受数据驱动训练的影响，可以拓展使用场景，提升降噪性能。进一步可以使用混合(complex)长短期记忆(Long Short-TermMemory，LSTM)网络结构恢复语音信号，进行幅度估计的同时也进行了相位估计。

本申请中方案受人的处理噪声信号原理启发：人处于嘈杂的环境中，通过采用自下而上和自上而下两种处理模式实现快速跟踪感兴趣语音内容，其中，自下而上模式实现注意敏感信息，自上而下模式则从该敏感信息中快速捕捉跟踪的特征，比如方向、音色、语音内容预测等，从而实现快速跟踪、筛选出声源信息的目的。因为单通道不具有方向信息，语音内容连续性预测在语音增强方向实施性较难，所以，单通道增强说话人语音的技术，通常更关注音色，比如采用基音技术。

基于以上分析，本申请中方案结合了单通道语音增强(Single Channel EnhanceSpeech，SCES)技术和说话人提取(Speaker Extraction，SE)技术，提取语音特征信息部分和恢复语音部分。比如，提取语音特征信息部分是以主说话人语音信息特征为目的网络结构，恢复语音部分是以利用混合信号和提取特征信息恢复语音信号的复数谱。

需指出的，本申请实施例适用的使用场景包括但不限于对讲场景下的单通道语音增强、多通道语音增强等，即可被用于对讲场景下，以提升听觉感知。语音增强可理解为语音降噪。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法、装置、通信设备及可读存储介质进行详细地说明。

请参见图1，图1是本申请实施例提供的一种语音处理方法的流程图，该方法应用于通信设备，该通信设备包括但不限于手机、平板电脑等可用于对讲的设备。如图1所示，该方法包括如下步骤：

步骤11：获取待处理的带噪语音信号；

步骤12：根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，并根据所述带噪语音信号的幅度谱和所述理想比例掩膜值，确定所述带噪语音信号中的语音信号的幅度谱；

步骤13：利用基音滤波器对所述带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；

步骤14：根据第一谐波特征、第二谐波特征以及带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值；

步骤15：利用所述复数理想比例掩膜值，获得所述带噪语音信号中的降噪后的语音信号。

这里，带噪语音信号的数学模型可以表示为x(t)＝s(t)+n(t)，其中，s(t)为带噪语音信号中的语音信号，n(t)为带噪语音信号中的噪声，t表示信号帧。

为了进行语音信号降噪，可以对带噪语音信号进行短时傅里叶变换(stft)，并对短时傅里叶变换(stft)后的复数谱进行处理。例如，对带噪语音信号x(t)进行2*N点短时傅里叶变换，可以得到带噪语音信号的复数谱X(t,f)，且X(t,f)＝S(t,f)+N(t,f)，t表示信号帧，f表示信号频率，每个具体的t和f被称为时频单元。带噪语音信号的幅度谱为相应复数谱取模，比如为|X(t,f)|。

可选的，上述理想比例掩膜值的取值为0至1，具体为纯语音信号的幅度谱占相应带噪语音信号的幅度谱的比值。上述复数理想比例掩膜值包括实部掩膜值mask_real和虚部掩膜值mask_img，分别对应信号复数谱的实部和虚部，不仅可以用于恢复语音信号的幅度，还可以用于恢复语音信号的相位。

上述基音滤波器主要用于筛选出相应信号的基音频率及其谐波的区域。由于噪声的结构不具有语音谐波的特征，因此利用基音滤波器能够精准的框定出语音信号的谐波区域，其他区域数值置0，还尽量保留了原始语音信号的信息，有利于后续的语音降噪。

一些实施例中，可以采用说话人提取技术提取目标说话人(或称为主说话人)的声纹特征，且由目标说话人提前注册的其他内容的语音获取。

一些实施例中，若带噪语音信号的复数谱为X(t,f)，复数谱X(t,f)的实部为X_real，虚部为X_img，估计得到的复数理想比例掩膜值包括实部掩膜值mask_real和虚部掩膜值mask_img，则对[X_real*mask_real，X_img*mask_img]进行反傅里叶变换，可获得降噪后的时域音频数据，即获取降噪后的语音信号。

这样，本实施例在进行语音降噪时，借助确定的复数理想比例掩膜值，既可以恢复信号幅度又可以恢复信号相位，从而准确获得降噪后的语音信号。

本申请实施例中，可以使用基音检测算法获取基音频率，然后根据基音映射矩阵获取基音滤波器。对于基音检测算法，可以采用频域估计基音检测算法Swipe。Swipe函数为计算一组表达式列表的值，然后返回与表达式列表中最先为True的表达式所相关的Variant数值或表达式。Swipe函数可以有效的避免倍频和半频的基音检测的影响，能够有效提取语音的基音。Swipe函数F具有谐波分布特点，在倍频处权重高，在半频处权重低，且呈现指数衰减的趋势。根据Swipe基音检测算法，可简单描述如下：Y(t)＝∑_fF(f0)*X(t,f)，基音频率f0的取值范围为[50-500hz]，F为Swipe函数，t表示信号帧；最大Y值对应的f0即为t帧估计的基音频率。同时，只保留Y(t)具有高峰均比帧，峰均比＝max(max(Y(t))/mean(Y(t)),0)，可去除非谐波区域的影响。

对于基音映射矩阵，假设基音频率为f0，设置精度为1，将基音频率转换到傅里叶变换维度的系数Z＝f0/(fs/2N)，即Z为基于傅里叶变换将带噪语音信号转换为复数谱时的基音频率的转换系数，则基音映射矩阵U为：

其中，s＝1,2,3……S，S＝fs/(2*f0)，fs表示信号采样率。若基音频率f0的取值范围为[50-500hz]，则基音映射矩阵U(f0,f)的维度为450*N。基音映射矩阵U的每一行的物理意义表示对应基音频率f0及其谐波的滤波器，可定义为梳状滤波器filter。

也就是说，在确定基音频率f0的情况下，所述基音频率f0对应的基音滤波器filter(f)为：

其中，f0表示语音信号的基音频率；f表示信号频率；s为正整数，且s＝1,2,3……S，S＝fs/(2*f0)，fs表示信号采样率；Z表示将带噪语音信号转换为复数谱时的基音频率的转换系数，比如Z为将基音频率转换到傅里叶变换维度的系数，Z等于f0/(fs/2N)。

可选的，可以采用卷积循环神经网络CRN模型确定带噪语音信号的理想比例掩膜值，可以将带噪语音信号的幅度谱输入到预先训练的CRN模型中，估计得到所述带噪语音信号的理想比例掩膜值，以利用所述理想比例掩膜值估计得到带噪语音信号中的语音信号的幅度谱。所述CRN模型表征带噪语音信号的幅度谱与理想比例掩膜值之间的对应关系。

例如，若带噪语音信号的幅度谱为|X(t,f)|，估计的理想比例掩膜值为mask，则所述带噪语音信号中的语音信号的幅度谱est_source＝mask*|X(t,f)|。

例如，如图2所示，上述CRN模型可以融合卷积和循环神经网络结构，属于一种编码网络结构，该网络结构利用卷积(Convolutional)的网络特点，能够学习语音信号局部信息，并利用堆叠的卷积网络结构，可以实现增大卷积视野，并通过LSTM实现长时统计信息。该网络结构包括编码器(encoder)和解码器(decoder)，decoder的输出尺寸与encoder的输出尺寸镜像对称，且decoder的输入是由上级decoder输出和encoder相同尺寸输出拼接而成。比如，encoder的输出尺寸为[4,8,16,32,64]。

可选的，上述CRN模型利用预先收集的训练样本训练得到，上述CRN模型的损失函数为：

loss1＝|label-mask*|X(t,f)||

其中，label表示训练样本中的纯语音信号的幅度谱，|X(t,f)|表示训练样本中的带噪语音信号的幅度谱，mask表示模型估计得到的理想比例掩膜值，t表示信号帧，f表示信号频率。

可选的，上述利用基音滤波器对带噪语音信号中的语音信号的幅度谱进行谐波筛选的过程可包括：首先，对带噪语音信号中的语音信号的幅度谱进行语音边界检测(VoiceActivity Detection，VAD)处理，获得目标幅度谱；然后，利用基音滤波器对所述目标幅度谱进行谐波筛选，获得所述第二谐波特征。这样可以去除非语音段对后续谐波筛选的影响。其中，此基音滤波器为先进行基音检测处理，获得基音频率后，根据该基音频率从基音映射矩阵中选择出的对应的梳妆滤波器。

本申请实施例中，为了获得复数理想比例掩膜值，可以使用注意力机制网络作为主体网络结构，目的为更加注重对语音基音及谐波的学习，并加载了主说话人的声纹特征有利于主说话人语音提取。

可选的，上述根据第一谐波特征、第二谐波特征以及带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值的过程可包括：首先，对第一谐波特征、第二谐波特征以及带噪语音信号对应的目标说话人的声纹特征进行组合，获得目标输入特征；比如，可以采用拼接的方式进行特征组合；然后，将所述目标输入特征和所述带噪语音信号的复数谱输入到预先训练的语音提取模型中，估计得到所述带噪语音信号的复数理想比例掩膜值。

比如，上述预先训练的语音提取模型可使用注意力机制网络作为主体网络结构，可以采用多层Complex-LSTM网络。根据复数乘法规则：(x_real+j*x_imag)*(b_real+j*b_imag)＝x_real*b_real-x_imag*b_imag+j*(x_real*b_imag+x_imag*b_real)，所以一层Complex-LSTM网络需要训练两个LSTM网络，其权重分别为W_real和W_imag，分别对应语音信号的实部和虚部。

可选的，上述语音提取模型利用预先收集的训练样本训练得到，上述语音提取模型的损失函数为：

loss2＝|X_real*mask_real-S_real|+|X_img*mask_img-S_img|

其中，X_real和X_img分别表示训练样本中的带噪语音信号的复数谱的实部和虚部，S_real和S_img分别表示所述带噪语音信号中的语音信号的复数谱的实部和虚部，mask_real和mask_img分别表示模型估计得到的复数理想比例掩膜值的实部和虚部。

一些实施例中，当利用CRN模型估计理想比例掩膜值，同时利用预先训练的语音提取模型估计复数理想比例掩膜值时，即同时训练CRN模型和语音提取模型时，联合训练的损失函数可表示为：loss＝αloss1+(1-α)loss2，α为预设的加权系数，可以基于实际需求设置。

例如参见图3所示，本申请一具体实例的语音降噪过程包括：1)获取带噪语音信号x(t)，并对带噪语音信号x(t)进行短时傅里叶变换，获得相应的复数谱X(t,f)；2)将带噪语音信号的幅度谱|X(t,f)|输入到预先训练的CRN模型中，获得理想比例掩膜值mask，并采用est_source＝mask*|X(t,f)|，估计得到此带噪语音信号中的语音信号的幅度谱est_source，之后进行vad处理，获得est_source_vad；3)利用基音滤波器filter(t)对|X(t,f)|进行谐波筛选，获得谐波特征filter_Amplitude1(t,f)，同时利用基音滤波器filter(t)对est_source_vad进行谐波筛选，选择出与filter_Amplitude1(t,f)区域相同的谐波特征，并提取主说话人的声纹特征embedding，之后组合est_source_vad_filter(t,f)、filter_Amplitude1(t,f)和embedding，获得新的特征Est_mag，作为恢复语音信号的一部分输入；4)将获得的特征Est_mag和复数谱X(t,f)输入Complex-LSTM网络，获得复数理想比例掩膜值，其中包括实部mask_real和虚部mask_img；5)对[X_real*mask_real，X_img*mask_img]进行反傅里叶变换，获得降噪后的语音信号s(t)。

需要说明的是，本申请实施例提供的语音处理方法，执行主体可以为语音处理装置，或者该语音处理装置中的用于执行语音处理方法的控制模块。本申请实施例中以语音处理装置执行语音处理方法为例，说明本申请实施例提供的语音处理装置。

请参见图4，图4是本申请实施例提供的一种语音处理装置的结构示意图，该装置应用于通信设备，如图4所示，语音处理装置40包括：

获取模块41，用于获取待处理的带噪语音信号；

第一确定模块42，用于根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，并根据所述带噪语音信号的幅度谱和所述理想比例掩膜值，确定所述带噪语音信号中的语音信号的幅度谱；

筛选模块43，用于利用基音滤波器对所述带噪语音信号的幅度谱进行谐波筛选，获得第一谐波特征，以及利用所述基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征；

第二确定模块44，用于根据所述第一谐波特征、所述第二谐波特征以及所述带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值；

处理模块45，用于利用所述复数理想比例掩膜值，获得所述带噪语音信号中的降噪后的语音信号。

可选的，所述基音滤波器filter(f)为：

其中，f0表示语音信号的基音频率；f表示信号频率；s为正整数，且s＝1,2,3……S，S＝fs/(2*f0)，fs表示信号采样率；Z表示将带噪语音信号转换为复数谱时的基音频率的转换系数。

可选的，所述第一确定模块42具体用于：将所述带噪语音信号的幅度谱输入到预先训练的CRN模型中，估计得到所述理想比例掩膜值。

可选的，所述CRN模型的损失函数为：

loss1＝|label-mask*|X(t,f)||

可选的，所述第二确定模块44具体用于：对所述第一谐波特征、所述第二谐波特征和所述声纹特征进行组合，获得目标输入特征；将所述目标输入特征和所述带噪语音信号的复数谱输入到预先训练的语音提取模型中，估计得到所述带噪语音信号的复数理想比例掩膜值。

可选的，所述语音提取模型的损失函数为：

loss2＝|X_real*mask_real-S_real|+|X_img*mask_img-S_img|

可选的，所述筛选模块43具体用于：对所述带噪语音信号中的语音信号的幅度谱进行语音边界检测处理，获得目标幅度谱；利用所述基音滤波器对所述目标幅度谱进行谐波筛选，获得所述第二谐波特征。

本申请实施例的语音处理装置40，可以实现上述图1所示的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选的，如图5所示，本申请实施例还提供一种通信设备50，包括处理器51，存储器52，存储在存储器52上并可在所述处理器51上运行的程序或指令，该程序或指令被处理器51执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时可实现上述语音处理方法实施例的各个过程且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台服务分类设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待处理的带噪语音信号；

2.根据权利要求1所述的方法，其特征在于，所述基音滤波器filter(f)为：

其中，f表示信号频率；s为正整数，且s＝1,2,3……S，S＝fs/(2*f0)，fs表示信号采样率，f0表示语音信号的基音频率；Z表示将带噪语音信号转换为复数谱时的基音频率的转换系数。

3.根据权利要求1所述的方法，其特征在于，所述根据所述带噪语音信号的幅度谱，确定所述带噪语音信号的理想比例掩膜值，包括：

将所述带噪语音信号的幅度谱输入到预先训练的卷积循环神经网络CRN模型中，估计得到所述理想比例掩膜值。

4.根据权利要求3所述的方法，其特征在于，所述CRN模型的损失函数为：

loss1＝|label-mask*|X(t,f)||

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一谐波特征、所述第二谐波特征以及所述带噪语音信号对应的目标说话人的声纹特征，确定所述带噪语音信号的复数理想比例掩膜值，包括：

对所述第一谐波特征、所述第二谐波特征和所述声纹特征进行组合，获得目标输入特征；

将所述目标输入特征和所述带噪语音信号的复数谱输入到预先训练的语音提取模型中，估计得到所述带噪语音信号的复数理想比例掩膜值。

6.根据权利要求5所述的方法，其特征在于，所述语音提取模型的损失函数为：

loss2＝|X_real*mask_real-S_real|+|X_img*mask_img-S_img|

7.根据权利要求1所述的方法，其特征在于，所述利用所述基音滤波器对所述带噪语音信号中的语音信号的幅度谱进行谐波筛选，获得第二谐波特征，包括：

对所述带噪语音信号中的语音信号的幅度谱进行语音边界检测处理，获得目标幅度谱；

利用所述基音滤波器对所述目标幅度谱进行谐波筛选，获得所述第二谐波特征。

8.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待处理的带噪语音信号；

9.一种通信设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的语音处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的语音处理方法的步骤。