CN114495968B

CN114495968B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN114495968B
Application number: CN202210322956.8A
Authority: CN
Inventors: 陈帅婷; 陈昌滨; 周到
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-14
Anticipated expiration: 2042-03-30
Also published as: CN114495968A

Abstract

本公开涉及一种语音处理方法、装置、电子设备及存储介质，其中，该方法通过获取待处理语音对应的频谱特征，将待处理语音对应的频谱特征输入至语音增强模型，语音增强模型的编码器对待处理语音对应的频谱特征进行编码，获得语音编码特征，由第一编码器对语音编码特征进行处理，得到共享频谱特征，第二编码器和第三编码器分别根据共享频谱特征，获得用于降噪的第一掩码和用于混响抑制的第二掩码；通过第一掩码、第二掩码及待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征，进而根据目标频谱合成获得进行了降噪以及混响抑制的目标语音。本方案能够降低语音增强模型的参数量，从而减小计算资源消耗，提高语音增强处理效率。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

语音增强技术是指当语音信号被噪声干扰、甚至淹没的情况下，提取有用的语音信号，以抑制、降低噪声干扰的技术。语音增强技术是提高语音质量的关键技术之一，在语音识别、语音通话、电话会议以及听力辅助等众多领域具有广泛应用前景和重要研究价值。

语音增强主要包括：语音降噪以及语音混响抑制，在多声道场景中，还包括语音分离处理过程。目前，用于进行语音降噪以及语音混响抑制的语音增强模型参数量较大，需要较大的计算资源，进而导致语音增强处理效率较低。

发明内容

为了解决上述技术问题，本公开提供了一种语音处理方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种语音处理方法，包括：

对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征；

将所述待处理语音对应的频谱特征输入至语音增强模型，获取所述语音增强模型输出的用于语音降噪的第一掩码和用于语音混响抑制的第二掩码；所述语音增强模型包括：编码器和解码器，所述编码器用于对输入的所述待处理语音对应的频谱特征进行编码，获得语音编码特征；所述解码器包括：第一解码器、第二解码器和第三解码器，所述第一解码器用于根据所述语音编码特征输出共享频谱特征，所述第二解码器用于根据所述共享频谱特征输出所述第一掩码，所述第三解码器用于根据所述共享频谱特征输出所述第二掩码；

根据所述第一掩码、所述第二掩码以及所述待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征；

根据所述目标频谱特征进行语音合成，获取目标语音，所述目标语音为所述待处理语音进行了语音降噪以及语音混响抑制后得到的语音。

作为一种可能的实施方式，所述编码器包括多层第一卷积网络；所述第一解码器包括多层第二卷积网络，所述第二解码器包括多层第三卷积网络，所述第三解码器包括多层第四卷积网络；

所述第一解码器包括的第二卷积网络的层数与所述第二解码器包括的第三卷积网络的层数之和，与所述编码器包括的第一卷积网络的层数相同，所述第二解码器包括的所述第三卷积网络的层数与所述第三解码器包括的所述第四卷积网络的层数相同；

所述编码器中的多层第一卷积网络分别沿反向顺序，依次与所述第一解码器中的多层第二卷积网络和所述第二解码器中的多层第三卷积网络一一连接；且与所述第二解码器相连接的多层第一卷积网络分别沿反向顺序与所述第三解码器中的多层第四卷积网络一一连接。

作为一种可能的实施方式，所述根据所述第一掩码、所述第二掩码以及所述待处理语音对应的频谱特征进行掩码计算，获得所述目标频谱特征，包括：

将所述第一掩码与所述待处理语音对应的频谱特征相乘，获得第一频谱特征，再将所述第一频谱特征与所述第二掩码相乘，获得所述目标频谱特征；或者，

将所述第二掩码与所述待处理语音对应的频谱特征相乘，获得第二频谱特征，再将所述第二频谱特征与所述第一掩码相乘，获得所述目标频谱特征。

作为一种可能的实施方式，所述语音增强模型还包括：设置在所述编码器与所述解码器之间的深层特征提取网络，所述深层特征提取网络用于从所述编码器接收语音特征作为输入，并输出深层语音特征；

所述解码器用于根据所述深层语音特征，获得所述第一掩码和所述第二掩码。

作为一种可能的实施方式，所述深层特征提取网络为复数长短时记忆神经网络。

作为一种可能的实施方式，所述语音增强模型还包括：多个特征融合模块，其中，所述特征融合模块的数量与所述编码器包括的多个第一卷积网络的数量相同；

所述多个特征融合模块采用间隔的方式设置在依次相连的深层特征提取网络、第一解码器包括的多个第一卷积网络、第二解码器包括的多个第三卷积网络之间；与第三卷积网络的输入端连接的所述特征融合模块还与相同层的第四卷积网络的输入端连接，与第三卷积网络的输出端连接的所述特征融合模块还与相同层的第四卷积网络的输出端连接；且所述多个第一卷积网络分别沿反向顺序与所述多个特征融合模块一一连接；

所述特征融合模块用于接收相连接的第一卷积网络输出的语音特征以及解码器中相连接的卷积网络输出的频谱特征作为输入进行特征融合处理，获得融合特征，并将所述融合特征输出至相连接的下一级卷积网络。

作为一种可能的实施方式，所述对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征，包括：对所述待处理语音进行短时傅里叶变换，获得所述待处理语音对应的频谱特征；

所述根据所述目标频谱特征进行语音合成，获取目标语音，包括：对所述目标频谱特征进行短时傅里叶逆变换，获得所述目标语音。

第二方面，本公开提供了一种语音处理装置，包括：

第一处理模块，用于对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征；

第二处理模块，用于将所述待处理语音对应的频谱特征输入至语音增强模型，获取所述语音增强模型输出的用于语音降噪的第一掩码和用于语音混响抑制的第二掩码；所述语音增强模型包括：编码器和解码器，所述编码器用于对输入的所述待处理语音对应的频谱特征进行编码，获得语音编码特征；所述解码器包括：第一解码器、第二解码器和第三解码器，所述第一解码器用于根据所述语音编码特征输出共享频谱特征，所述第二解码器用于根据所述共享频谱特征输出所述第一掩码，所述第三解码器用于根据所述共享频谱特征输出所述第二掩码；

掩码计算模块，用于根据所述第一掩码、所述第二掩码以及所述待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征；

合成模块，用于根据所述目标频谱特征进行语音合成，获取目标语音，所述目标语音为所述待处理语音进行了语音降噪以及语音混响抑制后得到的语音。

第三方面，本公开提供一种电子设备，包括：存储器和处理器；

所述存储器被配置为存储计算机程序指令；

所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如第一方面以及第一方面任一项所述的语音处理方法。

第四方面，本公开提供一种可读存储介质，包括：计算机程序指令；

电子设备的至少一个处理器执行所述计算机程序指令，使得所述电子设备实现如第一方面以及第一方面任一项所述的语音处理方法。

第五方面，本公开提供一种计算机程序产品，包括：计算机程序；所述计算机程序在被处理器执行时，实现如第一方面以及第一方面任一项所述的语音处理方法。

本公开实施例提供一种语音处理方法、装置、电子设备及存储介质，其中，该方法通过对待处理语音进行频谱分析，获得待处理语音对应的频谱特征，将待处理语音对应的频谱特征输入至预先训练好的语音增强模型，通过语音增强模型的编码器对待处理语音对应的频谱特征进行编码，获得语音编码特征，再由第一解码器对语音编码特征进行处理，得到共享频谱特征，将共享频谱特征分别作为第二解码器和第三解码器的输入，获得用于降噪的第一掩码和用于混响抑制的第二掩码；通过第一掩码、第二掩码以及待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征，再利用目标频谱特征进行语音合成，获得进行了降噪以及混响抑制的目标语音。本方案所采用的语音增强模型的参数量较小，从而大大减小计算资源消耗，有效提升了语音增强处理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一实施例提供的语音处理方法的流程图；

图2为本公开一实施例提供的语音增强模型的结构示意图；

图3为本公开另一实施例提供的语音增强模型的结构示意图；

图4为本公开另一实施例提供的语音增强模型的结构示意图；

图5为本公开另一实施例提供的语音增强模型的结构示意图；

图6为本公开另一实施例提供的语音增强模型的结构示意图；

图7为本公开一实施例提供的特征融合模块的结构示意图；

图8为本公开一实施例提供的模型训练方法的流程图；

图9为本公开一实施例提供的语音处理装置的结构示意图；

图10为本公开一实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

语音降噪旨在从受噪声干扰的语音信号中有效地分离出目标信号。语音混响抑制的目标是将混响语音转化为无混响语音，其中，混响是声信号从声源通过多条路径传播到人耳或麦克风（接收器）的过程。接收器接收到的信号中，包括未经过任何障碍物反射而直接到达的语音成分，以及随后到达的混响成分。

通常进行语音降噪的模型以及用于语音混响抑制的模型相互独立，而现实场景中往往噪声伴随混响，需要联合优化，如采用独立的模型实现，整个模型的参数量较大，需要较大的计算资源，进而导致语音增强处理效率较低。此外，采用独立的语音降噪模型和语音混响抑制模型进行语音增强，这种独立训练下的模型其泛化能力较差。

基于此，本公开通过基于深度复数卷积递归神经网络的基础上，引入双掩蔽（two-mask）方法构建能够同时进行语音降噪以及混响抑制的语音增强模型，具体地，通过将语音降噪对应的解码器中的部分网络结构和语音混响抑制对应的解码器中的部分网络结构进行融合，获得针对上述两者共享的解码器，用于输出语音降噪的掩码的解码器和用于输出语音混响抑制的掩码的解码器可以从共享的解码器中获得共享频谱特征作为各自的输入，通过将部分网络结构进行融合，从而有效减小模型的参数量，降低计算资源消耗，提高语音增强处理效率。且该语音增强模型在训练过程中，用于输出语音降噪的掩码的解码器和用于输出语音混响抑制的掩码的解码器能够充分学习不同类型的语音样本，从而获得泛化能力较强的语音增强模型。

示例性地，本公开提供的语音处理方法可以由本公开提供的语音处理装置执行，该语音处理装置可以通过任意的软件和/或硬件的方式实现。示例性地，语音处理装置可以为：平板电脑、手机（如折叠屏手机、大屏手机等）、可穿戴设备、车载设备、增强现实（augmented reality，AR）/虚拟现实（virtual reality，VR）设备、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personaldigital assistant，PDA）、智能电视、智慧屏、高清电视、4K电视、智能音箱、智能投影仪等物联网（the internet of things，IOT）设备，本公开对电子设备的具体类型不作任何限制。

图1为本公开一实施例提供的语音处理方法的流程示意图。参照图1所示，本实施例提供的方法包括：

S101、对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征。

电子设备可以通过对待处理语音进行卷积短时傅里叶变换（Conv-STFT），将原始的语音信号转换为复数（spec），得到实部（real）和虚部（imag），再基于实部和虚部进行计算获得待处理语音的幅值（spec_mags）谱和相位（spec_phase)）谱。其中，此处提及的待处理语音对应的频谱特征即待处理语音对应的幅值谱。

其中，短时傅里叶变换（STFT）是傅里叶变换的一种变形，也称作windowedFourier transform或time-dependent Fourier transform，用于决定随时间变化的信号局部部分的正弦频率和相位。实际上，计算短时距傅里叶变换（STFT）的过程是将长时间信号分成数个较短的等长信号，然后再分别计算每个较短段的傅里叶变换。可以用于描述信号在频域与时域上的变化，为时频分析中其中一个重要的工具。卷积短时傅里叶变换是指使用一维卷积实现短时傅里叶变换的方式，通过一维卷积实现，能够将待处理语音转换为由正弦信号叠加或者复指数的形式。

S102、将待处理语音对应的频谱特征输入至语音增强模型，获取语音增强模型输出的用于语音降噪的第一掩码和用于语音混响抑制的第二掩码。

语音增强模型为预先训练好的能够同时实现语音降噪以及语音混响抑制的模型。电子设备中可以预先存储语音增强模型的参数，在接收到语音增强任务时，加载语音增强模型的参数。

其中，语音增强模型可以采用“编码器-解码器”的网络结构实现，图2为本公开一实施例提供的语音增强模型的结构示意图，请参阅图2所示，语音增强模型包括：编码器202和解码器203，其中，编码器202的输入端与频谱分析模块201的输出端连接，解码器203的输出端依次连接掩码计算模块204和语音合成模块205。

频谱分析模块201主要用于对待处理语音进行频谱分析，获取待处理语音对应的频谱特征，频谱分析模块201进行频谱分析的具体实现方式可以参照图1所示实施例步骤S101的详细描述。在一些情况下，频谱分析模块201可以采用独立的模块实现，也可以作为语音增强模型的一部分，与模型封装为一个整体结构。

编码器202可以从相连接的前一级模块（即频谱分析模块201）中获取待处理语音的频谱特征，并对待处理语音对应的频谱特征进行卷积、批量归一化等处理，提取待处理语音的语音特征。

解码器203从编码器202获取待处理语音的语音特征，根据待处理语音的语音特征进行卷积等等处理，输出语音降噪对应的第一掩码和语音混响抑制对应的第二掩码。

其中，用于语音降噪的第一掩码可以理解为待处理语音包括的各语音分量在语音降噪维度分别对应于0或者1形成的编码矩阵。第一掩码中的0表示相对应的语音分量为需要去除的噪音部分，第一掩码中的1表示相对应的语音分量为需要保留的有效部分。

类似地，用于语音混响抑制的第二掩码可以理解为待处理语音包括的各语音分量在语音混响抑制维度分别对应于0或者1形成的编码矩阵。第二掩码中的0表示相对应的语音分量为需要去除的混响部分，第二掩码中的1表示相对应的语音分量为需要保留的有效部分。

请继续参阅图2所示，解码器203包括：第一解码器203a、第二解码器203b以及第三解码器203c，其中，第一解码器203a和第二解码器203b整体可以理解为语音降噪解码器，第一解码器203a和第三解码器203c整体可以理解为语音混响抑制解码器，第一解码器203a作为语音降噪解码器和语音混响抑制解码器的共享网络结构，能够有效减小解码器的参数量，从而减小了语音增强模型的参数量。

请继续参阅图2所示，第一解码器203主要用于对输入的待处理语音对应的语音特征进行多次上采样，得到相对于第二解码器203b和第三解码器203c的共享频谱特征。将共享频谱特征分别作为第二解码器203b和第三解码器203c的输入，以获取第二解码器203b输出的第一掩码和第三解码器203c输出的第二掩码。

S103、根据第一掩码、第二掩码以及待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征。

作为一种可能的实施方式，通过将第一掩码与待处理语音对应的频谱特征进行相乘，获得第一频谱特征，第一频谱特征相当于是去除了待处理语音中的噪声分量后的语音对应的频谱特征，之后，将第二掩码与第一频谱特征进行相乘，获得目标频谱特征。

作为另一种可能的实施方式，通过将第二掩码与待处理语音对应的频谱特征进行相乘，获得第二频谱特征，第二频谱特征相当于是去除了待处理语音中的混响音频信号后的语音对应的频谱特征，之后，将第一掩码与第二频谱特征进行相乘，获得目标频谱特征。

结合上述两种实施方式，两个掩码与待处理语音对应的频谱特征相乘的顺序不同，影响语音降噪以及语音混响抑制的先后顺序，本方案对于通过两个掩码进行语音降噪和语音混响抑制的先后顺序不做限定，可以先进行语音降噪，也可以先进行语音混响抑制。

通过语音增强模型实现语音增强时，参照图2所示，可以在第二编码器和第三编码器之后设置掩码计算模块204，用于实现上述掩码计算，其中，掩码计算模块204可以与频谱分析模块201、第二解码器203b以及第三解码器203c连接，掩码计算模块204可以从频谱分析模块201接收待处理语音的频谱特征，可以从第二解码器203b以及第三解码器203c分别获取第一掩码和第二掩码，之后通过上述任一方式进行掩码计算，获得目标频谱特征。在一些情况下，掩码计算模块204可以采用独立的模块实现，也可以作为语音增强模型的一部分，与模型封装为一个整体结构。

S104、根据目标频谱特征进行语音合成，获取目标语音，目标语音为处理语音进行了语音降噪以及语音混响抑制后得到的语音。

电子设备可以根据前述在进行频谱分析时获得的待处理语音对应的相位谱以及目标频谱特征进行短时傅里叶逆变换进行合成获得目标语音，该目标语音即为去除了待处理语音中的噪声干扰以及混响信号的干净语音。

通过语音增强模型实现语音增强时，参照图2所示，语音合成模块205可以与掩码计算模块204以及频谱分析模块201连接，语音合成模块205从掩码计算模块204获取目标频谱特征，从频谱分析模块201获取待处理语音对应的频谱特征，之后，语音合成模块205通过对两个输入短时傅里叶逆变换，合成目标语音。在一些情况下，语音合成模块205可以通过独立的模块实现，也可以作为语音增强模型的一部分，与模型封装为一个整体结构。

本实施例提供的方法所采用的语音增强模型的参数量较小，从而大大减小计算资源消耗，有效提升了语音增强处理效率；此外，该语音增强模型具有较强的泛化能力，有效地保证了语音降噪以及语音混响抑制效果能够满足预期。

图3为本公开另一实施例提供的语音增强模型的结构示意图。其中，本实施例提供的语音增强模型采用深度复数卷积递归网络(DCCRN)实现。请参阅图3所示，语音增强模型的编码器202包括：多层第一卷积网络，多层第一卷积网络依次连接，本公开对于第一卷积网络的层数不做限定。

第一解码器203a包括：多层第二卷积网络，多层第二卷积网络依次连接，且最后一层的第二卷积网络的输出端与第二解码器203b的输入端和第三解码器203c的输入端连接，本公开对于第二卷积网络的层数不做限定。

第二解码器203b包括：多层第三卷积网络，第三解码器203c包括多层第四卷积网络。类似地，第二解码器203b包括的多层第三卷积网络依次连接，第三解码器203c包括的多层第四卷积网络依次连接。

本实施例中，通过DCCRN实现语音增强模型时，编码器所包括的网络结构的层数与解码器包括的网络结构的层数之间可以保持一致，且编码器包括的各层网络结构沿反向顺序与解码器包括的各层网络结构一一连接。

因此，本实施例提供的语音增强模型中，第二卷积网络的总层数和第三卷积网络的总层数之和与第一卷积网络的总层数相同，且第三卷积网络的总层数与第四卷积网络的总层数相同；且编码器包括的多层第一卷积网络分别沿反向顺序依次与第一解码器包括的多层第二卷积网络和第二解码器包括的多层第三卷积网络一一连接，与第二解码器相连接的多层第一卷积网络分别沿反向顺序与第四解码器包括的多层第四卷积网络一一连接。

图3所示实施例中，以编码器包括7层卷积网络、第一解码器203a包括4层卷积网络、第二解码器203b和第三解码器203c分别包括3层卷积网络为例进行举例说明。其中，编码器的第7层卷积网络与第一解码器203a的第1层卷积网络连接，编码器的第6层卷积网络与第一解码器203a的第2层卷积网络连接，编码器的第5层卷积网络与第一解码器203a的第3层卷积网络连接，编码器的第4层卷积网络与第一解码器203a的第4层卷积网络连接；编码器的第3层卷积网络与第二解码器203b的第1层卷积网络和第三解码器203c的第1层卷积网络连接，编码器的第2层卷积网络与第二解码器203b的第2层卷积网络和第三解码器203c的第2层卷积网络连接，编码器的第1层卷积网络与第二解码器203b的第3层卷积网络和第三解码器203c的第3层卷积网络连接。

其中，第一至第三编码器分别包括的各层卷积网络可以包括：二维卷积（Conv2d）层和批量归一化（BatchNorm）层。其中，二维卷积层可以对输入的特征沿横向和纵向两个方向均进行卷积；批量归一化，也可以称为批量标准化，在卷积网络中设置批量归一化层，能够改善语音增强模型的性能和稳定性。编码器所包括的7层卷积网络的卷积核大小可以沿正向顺序逐渐变大，例如，编码器7层卷积网络的卷积核大小分别为[2，16，32，64，128，256，256]。编码器包括的各层卷积网络可以分别对输入的特征进行卷积、批量归一化等处理，获得相应的处理结果，并将处理结果输入至下一卷积网络中进行相应处理，从而获得编码器包括的各层卷积网络分别输出的处理结果，且编码器包括的每一层卷积网络输出的处理结果可以存储至一特定的数组中，该特定的数组例如表示为out数组。

各解码器分别包括的卷积网络可以包括：二维卷积（Conv2d）层和批量归一化（BatchNorm）层。解码器分别包括的各卷积网络的卷积核大小可以沿正向顺序依次减小；示例性地，第一解码器203a包括的各层第二卷积网络的卷积核大小沿正向顺序分别为[256，256，128，64]；第二解码器203b包括的各层第三卷积网络的卷积核大小沿正向顺序分别为[32，16，2]；第三解码器203c包括的各层第四卷积网络的卷积核大小沿正向顺序分别为[32，16，2]。

参阅图3所示，本公开提供的实施例中编码器中包括的各层卷积网络分别与解码器中相应的卷积网络连接，从而将编码器相应层的卷积网络的输出结果作为编码器中相应层的卷积网络的输入之一，如此设置能够有效解决训练过程中梯度爆炸和梯度消失的问题。在实际应用中，各解码器分别包括的卷积网络可以从out数组中获取相应数据作为输入。

具体地，针对第一至第三解码器分别包括的卷积网络来说，将相连接的前一级网络结构的输出以及编码器中与其相连接的卷积网络的输出进行拼接，作为该卷积网络的输入。例如，以第二解码器203b的第1层卷积网络为例，将第一解码器203a的最后一层卷积网络的输出与编码器中第3层卷积网络的输出进行拼接，作为第二解码器203b的第1层卷积网络的输入。

解码器所包括的各层卷积网络可以对输入进行二维卷积、批量归一化等处理，获得输出结果，其中，第二解码器203b的最后一层卷积网络的输出即为第一掩码，第三解码器203c的最后一层卷积网络的输出即为第二掩码。

应理解，在实际应用中，编码器和各解码器分别包括的卷积网络的层数可以根据需求灵活设置，并不限于图3示例，例如，编码器可以包括9层卷积网络，第一解码器203a可以包括5层卷积网络，第二解码器203b和第三解码器203c可以分别包括4层卷积网络，实现语音降噪以及语音混响抑制的处理方式类似，可参照关于图3所示实施例的详细描述。

接着，将第一掩码、第二掩码与待处理语音对应的频谱特征进行掩码计算，从而获得目标频谱特征。

结合前文所述，掩码计算模块204与频谱分析模块201、第二解码器203b和第三解码器203c的连接顺序不同，会影响语音降噪以及语音混响抑制的顺序。作为一种可能的实施方式，掩码计算模块204可以包括第一掩码计算子模块204a和第二掩码计算子模块204b，第一掩码计算子模块204a用于执行语音降噪对应的掩码计算处理，第二掩码计算子模块204b用于执行语音混响抑制对应的掩码计算处理。

其中，图3所示实施例示出了先进行语音降噪再进行语音混响抑制的情况。具体地，第一掩码计算子模块204a与频谱分析模块201、第二解码器203b连接，用于从频谱分析模块201接收待处理语音对应的频谱特征作为一输入，以及用于从第二解码器203b接收第一掩码作为另一输入进行掩码计算，获得进行语音降噪的语音对应的频谱特征，且将进行了语音降噪的语音对应的频谱特征输入至第二掩码计算子模块204b；第二掩码计算子模块204b还与第三解码器203c连接，用于从第三解码器203c接收第二掩码作为输入，与进行了语音降噪的语音对应的频谱特征进行掩码计算，获得目标频谱特征。

若先进行语音混响抑制，再进行语音降噪，语音增强模型的结构可以参照图4所示实施例，具体的，第二掩码计算子模块204b与频谱分析模块201和第三解码器203c连接，从频谱分析模块201接收待处理语音对应的频谱特征作为一输入，以及用于从第三解码器203c接收第二掩码作为另一输入进行掩码计算，获得进行了语音混响抑制的语音对应的频谱特征，且将进行了语音混响抑制的语音对应的频谱特征输入至第一掩码计算子模块204a；第一掩码计算子模块204a还与第二解码器203b连接，从第二解码器203b接收第一掩码作为输入，与进行了语音混响抑制的语音对应的频谱特征进行掩码计算，获得目标频谱特征。

图5为本公开另一实施例提供的语音增强模型的结构示意图。请参阅图5所示，本实施例提供的语音增强模型在图2所示实施例的基础上，还包括：深层特征提取网络206。

其中，深层特征提取网络206设置在编码器202的最后一层卷积网络的输出端与第一解码器203a的第一层卷积网络的输入端之间。深层特征提取网络206主要用于从编码器202的最后一层卷积网络接收语音特征作为输入，提取时序相关的特征。

深层特征提取网络206可通过复数长短时记忆神经网络（Complex- LSTM）实现，其中，复数长短时记忆神经网络通过对LSTM的输出结果按照复数相乘的计算法则计算输出。

在编码器202和解码器203之间设置深层特征提取网络206，第一解码器203a的第1层卷积网络的输入可以通过将深层特征提取网络206的输出与编码器202的最后一层卷积网络的输出进行拼接获得。

在图5所示实施例中，各解码器的实现方式与图3、图4所示实施例类似，可参照图3、图4所示实施例的详细描述，简明起见，此处不再赘述。

结合前文所示的语音增强模块的结构，编码器以及解码器主要是通过卷积网络以及反卷积网络实现，能够较好地实现局部特征的表征，为了进一步提高语音增强的效果，本公开通过在语音增强模型中设置特征融合模块用于实现全局特征和局部特征进行融合。下面通过图6和图7所示实施例详细介绍如何实现局部特征和全局特征的融合。

其中，图6为本公开一实施例提供的语音增强模型的结构示意图。参照图6所示，本实施例提供的语音增强模块在图3所示实施例的基础上，还包括：多个特征融合模块207。

多个特征融合模块207采用间隔的方式设置在依次相连接的深层特征提取网络、第一解码器203a包括的多个第一卷积网络、第二解码器203b包括的多个第三卷积网络之间；且与第三卷积网络的输入端连接的特征融合模块207还与相同层的第四卷积网络的输入端连接，与第三卷积网络的输出端连接的特征融合模块207还与相同层的第四卷积网络的输出端连接；且多个第一卷积网络分别沿反向顺序与多个特征融合模块207一一连接。

图6实施例中以编码器包括7层第一卷积网络，第一解码器203a包括4层第二卷积网络，第二解码器203b包括3层第三卷积网络、第三解码器203b包括3层第四卷积网络为例进行举例说明。相应地，语音增强模块包括7个特征融合模块207。

其中，第1个特征融合模块207与第7层第一卷积网络的输出端、深层特征提取网络206的输出端以及第一解码器203a包括的第1层卷积网络连接，第1个特征融合模块207从第7层第一卷积网络接收语音特征以及从深层特征提取网络206接收深层语音特征作为输入进行特征融合，将融合特征输入至第一解码器203a包括的第1层卷积网络。

第2个特征融合模块207与第6层第一卷积网络的输出端、第一解码器203a包括的第1层卷积网络的输出端连接，第2个特征融合模块207从第6层第一卷积网络接收语音特征以及从第一解码器203a包括的第1层卷积网络接收频谱特征作为输入进行特征融合，将融合特征输入至第一解码器203a包括的第2层卷积网络。

第3个特征融合模块以及第4个特征融合模块的连接方式与第2个特征融合模块的连接方式类似，简明起见，此处不再赘述。

第5个特征融合模块207与第3层第一卷积网络的输出端、第一解码器203a包括的第4层卷积网络的输出端连接，第5个特征融合模块207从第3层第一卷积网络接收语音特征以及从第一解码器203a包括的第4层卷积网络接收频谱特征作为输入进行特征融合，将融合特征输入至第二解码器203b包括的第1层卷积网络以及第三解码器203c包括的第1层卷积网络。

第6个特征融合模块与第2层第一卷积网络的输出端、第二解码器203b包括的第1层卷积网络的输出端、第三解码器203c包括的第1层卷积网络的输出端连接，第6个特征融合模块207从第1层第一卷积网络接收语音特征、以及从第二解码器203b包括的第1层卷积网络、第三解码器203c包括的第1层卷积网络分别接收频谱特征作为输入进行特征融合，将融合特征输入至第二解码器203b包括的第2层卷积网络以及第三解码器203c包括的第2层卷积网络。

第7个特征融合模块207的连接方式与第6个特征融合模块207的连接方式类似，简明起见，此处不再赘述。

参照上述第5至第7个特征融合模块207的连接方式，第二解码器203b包括的第1层卷积网络以及第三解码器203c包括的第1层卷积网络、第二解码器203b包括的第2层卷积网络以及第三解码器203c包括的第2层卷积网络、第二解码器203b包括的第3层卷积网络以及第三解码器203c包括的第3层卷积网络可以分别理解为属于同一层的两个卷积网络，属于同一层的两个卷积网络的输入端连接至同一特征融合模块，且属于同一层的两个卷积网络的输出端连接至另一特征融合模块。

在图6所示实施例中，深层特征提取网络206输出的深层语音特征可以理解为全局特征，编码器202中各层第一卷积网络输出的语音特征可以理解为局部特征，通过特征融合模块实现逐级的局部特征以及全局特征的融合，使得第二解码器以及第三解码器各自输出的掩码更加准确。

图7示例性地示出了一种特征融合模块的实现方式，请参阅图7所示，特征融合模块可以包括：依次相连的局部卷积块网络207a、注意力机制模块207b以及多层感知器（MLP）207c。

输入的语音特征以及频谱特征通过局部卷积块207a进行特征提取，之后再通过注意力机制模块207b模块进行注意力机制处理，得到增强的特征，将增强的特征输入至多层感知器207c，经过多层感知器207c的处理之后，得到融合特征。

其中，本公开对于特征融合模块207的具体实现方式不做限定，并不限于图7所示的实施方式；此外，特征融合模块采用图7所示方式实现时，注意力机制模块207b可以但不限于通过自我注意力机制实现。

示例性地，本公开实施例还提供一种模型训练方法。

图8为本公开一实施例提供的模型训练方法的流程图。本实施例中，以电子设备实现模型训练为例进行举例说明。请参与图8所示，本实施例的方法包括：

S801、获取样本语音。

样本语音可以包括：带噪音成分的语音（noisy）、带混响成分的语音（reverb）以及同时带有噪音成分和混响成分的语音（noisy-rirsy）中的一种或多种类型的语音。

其中，带有噪音成分的语音可以通过噪音（noise）和纯净语音（clean）相加生成，带有噪音成分的语音的信噪比SNR可以在[-5，20]之间随机生成。带有噪音成分的语音的生成过程可以表示为：noisy=SNR（clean+noise）。

带有混响成分的语音（reverb）可以通过纯净语音和混响数据采用卷积的方式生成，其中，混响数据（rir）可以是根据预设空间的尺寸、音源位置等等信息生成的模拟混响数据，预设空间例如可以为房间，相应地，预设空间的尺寸可以包括房间的高、宽、长等等。带有混响成分的语音的生成过程可以表示为：reverb =clean◎rir，“◎”表示卷积运算。

同时带有噪音成分和混响成分的语音可以通过纯净语音和噪音分别卷积混响数据，再通过加法运算获得。同时带有噪音成分和混响成分的语音的生成过程通过公式可以表示为noisy-rirsy=（clean◎rir noisy）+（noise◎rir）。

语音样本中上述三种类型的语音可以满足预设比例，例如：1:1:3，应理解，预设比例还可以为其他取值，本公开对预设比例的取值大小不做限定。

应理解，样本语音还可以通过其他方式获得，例如从数据库中获得满足要求的语音作为样本语音，或者，还可以是通过在不同环境中实时录制的真实语音作为样本语音等等。

此外，样本语音携带语音标注结果，其中，语音标注结果用于指示样本语音进行了语音降噪和语音混响抑制后的标准语音结果。若样本语音采用如上方式生成，则可以根据生成时所使用的纯净语音生成语音标注结果；若样本语音通过其他方式获得，也可以通过其他方式对样本语音进行语音降噪以及语音混响抑制处理，之后经过反复的人工标注、校正的方式获得语音标注结果。

S802、对样本语音进行频谱分析，获取样本语音对应的频谱特征。

本步骤与图1所示实施例中步骤S101类似，可参照图1所示实施例的详细描述，简明起见，此处不再赘述。

S803、将所述样本语音对应的频谱特征输入至初始语音增强模型中，获取初始语音增强模型输出的用于语音降噪的第一掩码和用于语音混响抑制的第二掩码。

初始语音增强模型为需要进行训练的对象，初始语音增强模型中各参数的初始值可以通过随机的方式生成，或者，也可以是由用户预先设定的。

初始语音增强模型的结构可以采用前述图2至图7任一实施例所示的结构。将上述样本语音输入至初始语音增强模型，获得模型输出的两个掩码。其中，模型对样本语音对应的频谱特征进行处理的实现方式与前述图1至图7所示实施例中，模型对待处理语音对应的频谱特征进行处理的过程类似，可参照前述图1至图7所示实施例的详细描述，简明起见，此处不再赘述。

S804、根据第一掩码、第二掩码以及样本语音对应的频谱特征进行掩码计算，获得预测频谱特征，且根据预测频谱特征进行语音合成，获取预测语音。

本步骤与图1所示实施例中步骤S103类似，可参照图1所示实施例的详细描述，简明起见，此处不再赘述。

预测语音即为语音增强模型的输出，预测语音为样本语音进行了语音降噪以及语音混响抑制后得到的语音。训练中输入和输出的对应关系可以如下表1所示：

表1

输入	输出
		带噪音成分的语音（noisy）	纯净语音（clean）
带混响成分的语音（reverb）	纯净语音卷积早期混响（early-reverb-clean）
		带噪音成分和混响成分的语音（noisy-reverb）	纯净语音卷积早期混响（early-reverb-clean）

其中，一般从直达语音到达后算起，预设时长（如50ms）内到达的混响，称为早期混响(early-reverb)，超过预设时长到达的称为晚期混响，相比于晚期混响，早期混响反射次数较少，信号强度较高，与说话人和接收器的位置高度相关；晚期混响在经过多次反射后，强度大致呈指数衰减，与位置无关，并且会改变语音的时间包络，对语音质量的影响较大，因此，带混响成分的样本语音经过语音增强模型处理后的输出（即预测语音）可以理解为是纯净语音卷积早期混响所得。

当然，在训练的过程中，语音增强模型的参数不断调整，语音增强模型输出的预测语音也可能为不包含早期混响成分以及噪音成分的纯净语音。因此，上述表1所示的输出为一种可能的示例，并不是对预测语音的限制。

S805、根据样本语音对应的语音标注结果以及预测语音，对初始语音增强模型进行训练，直至满足收敛条件，获取训练好的语音增强模型。

电子设备可以通过样本语音对应的语音标注结果以及预测语音，通过预先设定的损失函数进行计算，获得损失信息，根据损失信息指导调整语音增强模型的模型参数，通过反复的上述训练过程，直至根据损失信息确定满足收敛条件，则获得训练好的语音增强模型。

样本语音对应的语音标注结果可以包括用于合成样本语音所使用的纯净语音的相关信息，如，频谱信息、幅值信息等等。相应地，电子设备可以根据用于合成样本语音所使用的纯净语音的相关信息以及预测语音的相关信息通过预先设定的损失函数计算损失信息。

本公开对于损失函数的计算方式以及损失函数的类型不做限定，用户可以根据需要设定。

本实施例中，通过将语音降噪对应的解码器和语音混响抑制对应的解码器中的部分网络结构进行融合，获得针对上述两者共享的解码器，语音降噪对应的解码器和语音混响抑制的解码器可以从共享的解码器中获得共享频谱特征作为各自的输入，通过采用共享解码器（即第一解码器），有效减小语音增强模型的参数量，降低计算资源消耗，提高语音增强处理效率。此外，该语音增强模型在训练过程中，用于语音降噪的解码器和用于语音混响抑制的解码器能够充分学习不同类型的样本语音，保证语音增强模型具有较强的泛化能力。

示例性地，本公开实施例还提供一种语音处理装置。

图9为本公开一实施例提供的语音处理装置的结构示意图。请参阅图9所示，本实施例提供的语音处理装置900包括：

第一处理模块901，用于对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征。

第二处理模块902，用于将所述待处理语音对应的频谱特征输入至语音增强模型，获取所述语音增强模型输出的用于语音降噪的第一掩码和用于语音混响抑制的第二掩码；所述语音增强模型包括：编码器和解码器，所述编码器用于对输入的所述待处理语音对应的频谱特征进行编码，获得语音编码特征；所述解码器包括：第一解码器、第二解码器和第三解码器，所述第一解码器用于根据所述语音编码特征输出共享频谱特征，所述第二解码器用于根据所述共享频谱特征输出所述第一掩码，所述第三解码器用于根据所述共享频谱特征输出所述第二掩码。

掩码计算模块903，用于根据所述第一掩码、所述第二掩码以及所述待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征。

语音合成模块904，用于根据所述目标频谱特征进行语音合成，获取目标语音，所述目标语音为所述待处理语音进行了语音降噪以及语音混响抑制后得到的语音。

作为一种可能的实施方式，掩码计算模块903，具体用于将所述第一掩码与所述待处理语音对应的频谱特征相乘，获得第一频谱特征，再将所述第一频谱特征与所述第二掩码相乘，获得所述目标频谱特征；或者，将所述第二掩码与所述待处理语音对应的频谱特征相乘，获得第二频谱特征，再将所述第二频谱特征与所述第一掩码相乘，获得所述目标频谱特征。

所述多个特征融合模块采用间隔的方式设置在依次相连的所述深层特征提取网络、所述第一解码器包括的多个第一卷积网络、所述第二解码器包括的多个第三卷积网络之间；与所述第三卷积网络的输入端连接的所述特征融合模块还与相同层的第四卷积网络的输入端连接，与所述第三卷积网络的输出端连接的所述特征融合模块还与相同层的第四卷积网络的输出端连接；且所述多个第一卷积网络分别沿反向顺序与所述多个特征融合模块一一连接；

所述特征融合模块用于接收相连接的第一卷积网络输出的语音特征以及解码器中相连接的卷积网络输出的频谱特征作为输入进行特征融合处理，获得融合特征，并将融合特征输出至相连接的下一级卷积网络。

作为一种可能的实施方式，所述第一处理模块901，具体用于对所述待处理语音进行短时傅里叶变换，获得所述待处理语音对应的频谱特征。

相应地，所述语音合成模块904，具体用于对所述目标频谱特征进行短时傅里叶逆变换，获得所述目标语音。

本实施例提供的语音处理装置可以执行前述任一实施例的方案，其实现原理以及技术效果类似，可参照前述方法实施例的详细描述，简明起见，此处不再赘述。

示例性地，本公开实施例还提供一种电子设备。

图10为本公开一实施例提供的电子设备的结构示意图。请参阅图10所示，本实施例提供的电子设备1000，包括：存储器1001和处理器1002。

其中，存储器1001可以是独立的物理单元，与处理器1002可以通过总线1003连接。存储器1001、处理器1002也可以集成在一起，通过硬件实现等。

存储器1001用于存储程序指令，处理器1002调用该程序指令，执行以上任一方法实施例所示的语音处理方法或者模型训练方法。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述电子设备1000也可以只包括处理器1002。用于存储程序的存储器1001位于电子设备1000之外，处理器1002通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器1002可以是中央处理器（central processing unit，CPU），网络处理器（network processor，NP）或者CPU和NP的组合。

处理器1002还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（application-specific integrated circuit，ASIC），可编程逻辑器件（programmablelogic device，PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（complexprogrammable logic device，CPLD），现场可编程逻辑门阵列（field-programmable gatearray，FPGA），通用阵列逻辑（generic array logic，GAL）或其任意组合。

存储器1001可以包括易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器也可以包括非易失性存储器（non-volatilememory），例如快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；存储器还可以包括上述种类的存储器的组合。

本公开还提供一种可读存储介质，包括：计算机程序指令；计算机程序指令被电子设备的至少一个处理器执行时，实现上述任一方法实施例所示的语音处理方法或者模型训练方法。

本公开还提供一种计算机程序产品，所述计算机程序产品被计算机执行时，使得所述计算机实现上述任一方法实施例所示的语音处理方法或者模型训练方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述编码器包括多层第一卷积网络；所述第一解码器包括多层第二卷积网络，所述第二解码器包括多层第三卷积网络，所述第三解码器包括多层第四卷积网络；

所述第一解码器包括的第二卷积网络的层数与所述第二解码器包括的第三卷积网络的层数之和，与所述编码器包括的第一卷积网络的层数相同；所述第二解码器包括的所述第三卷积网络的层数与所述第三解码器包括的所述第四卷积网络的层数相同；

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一掩码、所述第二掩码以及所述待处理语音对应的频谱特征进行掩码计算，获得所述目标频谱特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述语音增强模型还包括：设置在所述编码器与所述解码器之间的深层特征提取网络，所述深层特征提取网络用于从所述编码器接收语音特征作为输入，并输出深层语音特征；

5.根据权利要求4所述的方法，其特征在于，所述深层特征提取网络为复数长短时记忆神经网络。

6.根据权利要求4所述的方法，其特征在于，所述语音增强模型还包括：多个特征融合模块，其中，所述特征融合模块的数量与所述编码器包括的多个第一卷积网络的数量相同；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对待处理语音进行频谱分析，获得所述待处理语音对应的频谱特征，包括：对所述待处理语音进行短时傅里叶变换，获得所述待处理语音对应的频谱特征；

所述根据所述目标频谱特征进行语音合成，获取目标语音，包括：对所述目标频谱特征进行短时傅里叶逆变换，获取所述目标语音。

8.一种语音处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器被配置为存储计算机程序指令；

所述处理器被配置为执行所述计算机程序指令，使得所述电子设备实现如权利要求1至7任一项所述的语音处理方法。

10.一种可读存储介质，其特征在于，包括：计算机程序指令；

电子设备的至少一个处理器执行所述计算机程序指令，使得所述电子设备实现如权利要求1至7任一项所述的语音处理方法。