CN113035221B

CN113035221B - 语音处理模型的训练方法和装置以及语音处理方法和装置

Info

Publication number: CN113035221B
Application number: CN202110218953.5A
Authority: CN
Inventors: 任新蕾; 郑羲光; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-12-19
Anticipated expiration: 2041-02-26
Also published as: CN113035221A

Abstract

本公开关于一种语音处理模型的训练方法和装置以及语音处理方法和装置，语音处理模型包括语音增强网络和掩膜比预测网络，训练方法包括：获取音频样本数据，包括干净语音信号和含噪语音信号；对含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列；将第一语音帧序列输入语音增强网络，得到与第一语音帧序列对应的掩膜比；将所述掩膜比输入掩膜比预测网络，得到与第二语音帧序列对应的掩膜比，第二语音帧序列包括未被抽取的帧；将与第一/第二语音帧序列对应的掩膜比融合，得到完整掩膜比；根据完整掩膜比和含噪语音信号的幅度谱，确定增强语音信号的幅度谱，根据由增强语音信号的幅度谱与干净语音信号的幅度谱确定的损失函数执行训练。

Description

语音处理模型的训练方法和装置以及语音处理方法和装置

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音处理模型的训练方法和装置以及语音处理方法和装置。

背景技术

近几年，基于深度神经网络的语音增强方法已经取得了非凡的发展，它的增强能力要大大超出传统的基于信号处理的语音增强方法，但所带来的代价是计算量的增加。尤其是将其部署到手机等移动端上时，由于部分手机的计算能力有限，不能承载如此大的计算量，无法应用于对语音信号的实时处理的场景，这成为阻碍其落地的一个重要因素。

发明内容

本公开提供一种语音处理模型的训练方法和装置以及语音处理方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音处理模型的训练方法，所述语音处理模型包括语音增强网络和掩膜比预测网络，所述训练方法包括：获取音频样本数据，其中，所述每个音频样本数据包括干净语音信号和含噪语音信号，所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的；对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列；将第一语音帧序列输入所述语音增强网络，得到估计的与第一语音帧序列对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧；将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比；根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱，确定估计的增强语音信号的幅度谱，并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数；通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数，对所述语音处理模型进行训练。

可选地，所述对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列，可包括：每预定帧数从所述含噪语音信号的幅度谱抽取一帧；根据帧索引顺序，将抽取的帧重新组合成为第一语音帧序列。

可选地，所述每预定帧数从所述含噪语音信号的幅度谱抽取一帧，可包括：根据帧索引顺序，将所述含噪语音信号的幅度谱划分为多个帧组，其中，每个帧组包括所述预定帧数的帧；抽取所述多个帧组中的每个帧组的第一帧。

可选地，所述预定帧数可为2，第一语音帧序列可包括奇数帧，第二语音帧序列可包括偶数帧。

可选地，所述将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比，可包括：根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合所述估计的与第一语音帧序列对应的掩膜比和所述估计的与第一语音帧序列对应的掩膜比中的每一帧掩膜比。

可选地，所述根据所述估计的完整掩膜比和所述含噪语音信号的幅度谱，确定估计的增强语音信号的幅度谱，可包括：将所述估计的完整掩膜比与所述含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱。

可选地，所述根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数，可包括：计算所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱之间的均方误差，作为所述损失函数。

根据本公开实施例的第二方面，提供一种语音处理方法，所述语音处理方法基于包括语音增强网络和掩膜比预测网络的语音处理模型执行，所述语音处理方法包括：获取待处理语音信号的当前语音帧；在所述待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧，第二语音帧包括所述待处理语音信号中非第一语音帧的帧；输出处理后的当前语音帧；其中，所述在第一模式下对当前语音帧执行处理，包括：将当前语音帧的幅度谱输入所述语音增强网络，得到估计的与当前语音帧对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧；其中，所述在第二模式下对当前语音帧执行处理，包括：将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络，得到估计的与当前语音帧相应的掩膜比；将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。

可选地，可每预定帧数从所述待处理语音信号确定一帧作为第一语音帧。

可选地，所述语音处理方法还可包括：根据帧索引，确定所述待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。

可选地，所述预定帧数可为2，第一语音帧可包括奇数帧，第二语音帧可包括偶数帧。

可选地，所述语音处理模型可使用根据本公开的语音处理模型的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音处理模型的训练装置，所述语音处理模型包括语音增强网络和掩膜比预测网络，所述训练装置包括：获取单元，被配置为：获取音频样本数据，其中，所述每个音频样本数据包括干净语音信号和含噪语音信号，所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的；抽帧单元，被配置为：对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列；第一估计单元，被配置为：将第一语音帧序列输入所述语音增强网络，得到估计的与第一语音帧序列对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；第二估计单元，被配置为：将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧；融合单元，被配置为：将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的掩膜比；计算单元，被配置为：根据所述估计的掩膜比和所述含噪语音信号的幅度谱，确定估计的增强语音信号的幅度谱，并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数；训练单元，被配置为：通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数，对所述语音处理模型进行训练。

可选地，抽帧单元可被配置为：每预定帧数从所述含噪语音信号的幅度谱抽取一帧。

可选地，抽帧单元可被配置为：根据帧索引顺序，将所述含噪语音信号的幅度谱划分为多个帧组，其中，每个帧组包括所述预定帧数的帧；抽取所述多个帧组中的每个帧组的第一帧。

可选地，第二估计单元可被配置为：根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合所述估计的与第一语音帧序列对应的掩膜比和所述估计的与第二语音帧序列对应的掩膜比中的每一帧掩膜比。

可选地，计算单元可被配置为：将所述估计的完整掩膜比与所述含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱。

可选地，计算单元可被配置为：计算所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱之间的均方误差，作为所述损失函数。

根据本公开实施例的第四方面，提供一种语音处理装置，所述语音处理装置基于包括语音增强网络和掩膜比预测网络的语音处理模型执行处理，所述语音处理装置包括：获取单元，被配置为：获取待处理语音信号的当前语音帧；处理单元，被配置为：在所述待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧，第二语音帧包括所述待处理语音信号中非第一语音帧的帧；输出单元，被配置为：输出处理后的当前语音帧；其中，处理单元被配置为：在第一模式下执行以下操作：：将当前语音帧的幅度谱输入所述语音增强网络，得到估计的与当前语音帧对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧；其中，处理单元被配置为：在第二模式下执行以下操作：将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络，得到估计的与当前语音帧相应的掩膜比；将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。

可选地，处理单元还可被配置为：根据帧索引，确定所述待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音处理模型的训练方法或语音处理方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音处理模型的训练方法或语音处理方法。

根据本公开实施例的第八方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的语音处理模型的训练方法或语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

据本公开的语音处理模型的训练方法和训练装置以及语音处理方法和语音处理装置，可利用语音信号的帧间相关性，将跳帧获得的语音非连续帧的幅度谱作为语音增强网络的输入特征来估计这些语音帧的增强语音信号，并将语音增强网络的输出输入另一复杂度更低的预测网络来预测其他语音帧的增强语音信号，从而可使用不同复杂度的网络结构来对语音信号的不同帧进行处理，使得在保证增强能力维持不变的前提下，能够有效降低语音增强的计算复杂度，能够应用于语音信号的实时处理的场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音处理模型的训练阶段的示意图。

图2是示出根据本公开的示例性实施例的语音处理模型的推理阶段的示意图。

图3是示出根据本公开的示例性实施例的语音处理模型的训练方法的流程图。

图4是示出根据本公开的示例性实施例的语音处理方法的流程图。

图5是示出根据本公开的示例性实施例的语音处理模型的训练装置的框图。

图6是示出根据本公开的示例性实施例的语音处理装置的框图。

图7是根据本公开的示例性实施例的电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

现有的语音增强网络最常用的输入特征是语音的幅度谱，并且是语音分帧后所有帧的幅度谱。这种方法没有充分挖掘语音帧间的相关性，导致在模型推理阶段不能有效降低其计算复杂度。针对语音增强网络计算复杂度高，计算量大，难以用于语音信号的实时处理的场景，本公开提出了一种新颖的语音处理模型的训练方法和语音处理方法，具体地说，可利用语音信号的帧间相关性，将跳帧获得的语音非连续帧的幅度谱作为语音增强网络的输入特征来估计这些语音帧的增强语音信号，并将语音增强网络的输出输入另一复杂度更低的预测网络来预测其他语音帧的增强语音信号，从而可使用不同复杂度的网络结构来对语音信号的不同帧进行处理，使得在保证增强能力维持不变的前提下，能够有效降低语音增强的计算复杂度，能够应用于语音信号的实时处理的场景。下面，将参照图1至图7具体描述根据本公开的语音处理模型的训练方法和训练装置以及语音处理方法和语音处理装置。

图1是示出根据本公开的示例性实施例的语音处理模型的训练阶段的示意图。这里，根据本公开的示例性实施例的语音处理模型可包括参数量和复杂度不同的两个网络，即，语音增强网络和掩膜比预测网络。语音增强网络用于对语音信号的部分语音帧进行语音增强，其输入可以是对语音信号的幅度谱进行跳帧抽取的帧，其输出可以是估计的掩膜比，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值，其是基于神经网络的语音增强领域最常用的一种网络输出。掩膜比预测网络用于根据语音帧的帧间相关性，基于语音信号的部分语音帧的语音增强结果来预测语音信号的其它语音帧的语音增强结果，其输入可以是语音增强网络的输出，即，与部分语音帧相应的估计的掩膜比，其输出可以是与其它语音帧相应的估计的掩膜比。

参照图1，可利用干净语音数据集中的干净语音和噪声数据集中的噪声进行加性混合，生成训练数据。这里，训练数据包括作为训练目标的干净语音和作为训练样本的混合后的含噪语音。干净语音数据集可通过录制干净语音获得，和/或通过互联网获取，还可通过其它任何可能的方式获得。这里，干净语音是指基本不含任何噪声的语音。此外，噪声数据集可通过录制噪声获得，和/或通过互联网获取，还可通过其它任何可能的方式获得。这里，噪声信号可包括环境噪声等。此外，可将干净语音数据集中的干净语音作为训练目标，并将干净语音数据集中的干净语音和噪声数据集中的噪声进行加性混合可获得作为训练样本的含噪语音。

在获得训练数据后，可将训练数据中的干净语音信号(clean(t))和含噪语音信号(noisy(t))进行时频变换(例如，短时傅立叶变换(Short-Time Fourier Transform,STFT))，再从时频域中的干净语音信号和含噪语音信号提取幅度谱(abs())，随后，可对含噪语音信号的幅度谱进行跳帧抽取(例如，每两帧抽取一帧)，将抽取出的幅度谱重新组合为新的含噪语音幅度谱，随后可将干净语音信号的幅度谱作为训练目标，并将新的含噪语音幅度谱作为训练特征送入语音处理模型进行训练，以获得训练好的语音处理模型。具体地说，可将新的含噪语音幅度谱作为语音增强网络的输入，语音增强网络可输出估计的与抽取的帧对应的第一掩膜比(mask part 1)，随后可将语音增强网络的输出作为掩膜比预测网络的输入，掩膜比预测网络可输出估计的与未抽取的帧对应的第二掩膜比(mask part2)，随后可以根据帧顺序以互相交叉的方式融合第一掩膜比和第二掩膜比获得最终的完整掩膜比(mask)，随后可将含噪语音信号的幅度谱与完整掩膜比点乘(*，这里，*表示实数与复数或实数与实数的乘法)以获得估计的增强语音信号(也可称为估计的干净语音信号)的幅度谱，根据估计的增强语音信号的幅度谱和干净语音信号的幅度谱计算损失函数(loss)，并根据计算的损失函数对语音处理模型中的语音增强网络和掩膜比预测网络的参数进行调整。

这里，训练数据中可包括多条训练数据，可分别对每条训练数据执行上述训练或执行批量训练，从而使得语音处理模型中的语音增强网络和掩膜比预测网络的参数能够迭代更新。

图2是示出根据本公开的示例性实施例的语音处理模型的推理阶段的示意图。其中，图2(a)是示出根据语音处理模型中的语音增强网络的推理流程的示意图，图2(b)是示出根据语音处理模型中的掩膜比预测网络的推理流程的示意图。

参照图2(a)和图2(b)，在语音处理模型训练完成后，可将语音处理模型应用于实时语音增强的场景。可对待增强的语音信号的每一帧输入语音处理模型，并实时输出每一帧增强后的语音信号。可针对待增强的语音信号的每一帧执行以下操作：判断当前帧是通过语音处理模型中的语音增强网络来执行增强还是语音处理模型中的掩膜比预测网络来执行增强。例如，可根据当前帧的帧索引来执行判断，当当前帧的帧索引属于预先确定的通过语音处理模型中的语音增强网络来执行增强的语音帧的帧索引时，确定当前帧是通过语音处理模型中的语音增强网络来执行增强，当当前帧的帧索引属于预先确定的通过语音处理模型中的掩膜比预测网络来执行增强的语音帧的帧索引时，确定当前帧是通过语音处理模型中的掩膜比预测网络来执行增强。

当确定当前帧通过语音处理模型中的语音增强网络来执行增强时，可对当前帧进行时频变换(例如，短时傅立叶变换(Short-Time Fourier Transform,STFT))，从时频域中的当前帧提取幅度谱(abs())和相位谱(phase())，将当前帧的幅度谱输入语音增强网络得到估计的第一掩膜比(mask part 1)，将估计的第一掩膜比与当前帧的幅度谱相乘(*)得到当前帧的估计的幅度谱，将当前帧的估计的幅度谱与相位谱结合再经过逆时频变换(例如，短时傅立叶变换(Inverse Short-Time Fourier Transform,ISTFT))，获得并输出当前帧的估计的干净语音信号(clean_est(t))(也可称为语音增强信号)。

此外，当确定当前帧通过语音处理模型中的掩膜比预测网络来执行增强时，可对当前帧进行时频变换(例如，短时傅立叶变换(Short-Time Fourier Transform,STFT))，可将与当前帧相应的第一掩膜比(mask part 1)输入到掩膜比预测网络，得到当前帧的估计的第二掩膜比(mask part 2)，将估计的第二掩膜比与当前帧的频谱(即，包括幅度谱和相位谱)相乘(*)得到当前帧的估计的频谱，再将估计的频谱经过逆时频变换(例如，短时傅立叶变换(Inverse Short-Time Fourier Transform,ISTFT))，获得并输出当前帧的估计的干净语音信号(clean_est(t))(也可称为语音增强信号)。这里，与当前帧相应的第一掩膜比是指与当前帧对应的语音帧的第一掩膜比，与当前帧对应的语音帧可以是在当前帧之前的通过语音增强网络来执行增强的语音帧。

根据上述方案，待增强的语音信号不是每一帧都需要经过语音增强网络来执行增强(传统方案是每一帧需要经过语音增强网络来执行增强)，而是一部分语音帧经过语音增强网络来执行增强，另一部分语音帧经过掩膜比预测网络来执行增强。语音增强网络可包括多层网络结构，例如，可由卷积神经网络(CNN)/循环神经网络(RNN)/深度神经网络(DNN)等网络层组合而成。掩膜比预测网络可仅包括CNN或DNN的一层网络层。因此，掩膜比预测网络可比语音增强网络的参数量和计算复杂度小很多。因此，根据本公开的语音处理方法，利用掩膜比预测网络处理的一部分语音帧所耗费的时间比利用语音增强网络处理的另一部分语音帧所耗费的时间少很多，可达到降低网络计算复杂度，提高处理速度，能够适用于语音信号的实时处理的场景的效果。

参照图3，在步骤301，可获取音频样本数据，其中，每个音频样本数据可包括干净语音信号和含噪语音信号。这里，干净语音信号可以是干净语音数据集中的干净语音信号。干净语音数据集可通过录制干净语音获得，和/或通过互联网获取，还可通过其它任何可能的方式获得。这里，干净语音是指基本不含任何噪声的语音，可通过获取很多不同说话人(例如，男人、女人、儿童、老人等)的干净语音来生成干净语音数据集。

此外，含噪语音信号可通过将干净语音信号与噪声信号进行加性混合而获得。这里，噪声信号可以是噪声数据集中的噪声信号。噪声数据集通过录制噪声获得，和/或通过互联网获取，还可通过其它任何可能的方式获得。这里，噪声信号可包括环境噪声等。

根据本公开的示例性实施例，可按照一定的信噪比将干净语音信号与噪声信号进行加性混合来获得含噪语音信号。例如，可按照预定信噪比将干净语音信号与噪声信号进行加性混合来获得含噪语音信号。这里，信噪比(SNR)(单位为dB)可被表示为如下公式：

SNR＝10×log₁₀(x(t)/y(t)) (1)

其中，x(t)表示干净语音信号的能量，y(t)表示噪声信号的能量。

例如，在语音处理模型的训练过程中信噪比覆盖范围可为0dB、5dB、10dB、15dB这四种。因此，针对每组干净语音信号与噪声信号，可从这四种信噪比中随机选择一种信噪比对干净语音信号与噪声信号进行加性混合，从而可保证能生成多条包括这四种信噪比的含噪语音信号。当然，本公开的信噪比不限于上述四种，还可设置任何可行的信噪比进行加性混合。

在步骤302，可对含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列。

根据本公开的示例性实施例，可通过对含噪语音信号进行时频变换(例如，短时傅里叶变换(STFT))，并从获得的频谱中提取幅度谱，获得含噪语音信号的幅度谱。

根据本公开的示例性实施例，可利用语音帧间的相关性，跳帧抽取一部分含噪语音信号的幅度谱的帧通过语音增强网络来增强，另一部分含噪语音信号的幅度谱的帧通过掩膜比预测网络来增强，由于掩膜比预测网络比语音增强网络的复杂度小很多，因此，可达到在保证增强能力的同时，比将所有帧通过语音增强网络来增强的传统方案的计算复杂度更低，处理速度更快，更适用于实时语音处理的场景。例如，可每预定帧数N从所述含噪语音信号的幅度谱抽取一帧，并根据帧索引顺序，将抽取的帧重新组合成为第一语音帧序列，其中，N可以是等于或大于2的整数。N越大，计算复杂度越低，但帧相关性也越低，增强效果可能越差，因此，可根据需求来选择预定帧数N。

例如，可每两帧抽取一帧并重新组合成为第一语音帧序列。因此，每一语音帧序列可包括帧索引为奇数的帧(帧索引从1开始)，例如，可包括第一帧、第三帧、第五帧…，以此类推。也就是说，通过语音增强网络来执行增强的第一语音帧序列包括奇数帧，其余通过掩膜比预测网络来执行增强的第二语音帧序列可包括偶数帧。

例如，可根据帧索引顺序，将含噪语音信号的幅度谱划分为多个帧组，其中，每个帧组包括预定帧数的帧；抽取多个帧组中的每个帧组的第一帧。假设N＝2，含噪语音信号的幅度谱共M＝100帧，则可根据帧索引顺序将含噪语音信号的幅度谱划分为50个帧组，例如，第一帧组包括第一帧和第二帧，第二帧组包括第三帧和第四帧…，以此类推。可抽取50个帧组中的每个帧组的第一帧，例如，从第一帧组抽取位于首位的第一帧，从第二帧组抽取位于首位的第三帧…，以此类推。

在步骤303，可将第一语音帧序列输入语音增强网络，得到估计的与第一语音帧序列对应的掩膜比。其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值。

根据本公开的示例性实施例，语音增强网络可包括多层网络结构，例如，可由卷积神经网络(CNN)/循环神经网络(RNN)/深度神经网络(DNN)等网络层组合而成。本公开对语音增强网络的网络结构不作限制。

根据本公开的示例性实施例，第一语音帧序列中的每个语音幅度谱的帧都可通过语音增强网络产生一个相应的掩膜比。例如，当N＝2，即，第一语音帧序列包括含噪语音信号的幅度谱的所有奇数帧时，可通过语音增强网络产生与每个奇数帧对应的掩膜比，即，第一帧的掩膜比、第三帧的掩膜比、第五帧的掩膜比…，以此类推。因此，通过语音增强网络输出的估计的与第一语音帧序列对应的掩膜比可包括分别与第一语音帧序列的多个帧对应的多个掩膜比，也可以称为第一掩膜比序列。

在步骤304，可将估计的与第一语音帧序列对应的掩膜比输入掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括含噪语音信号的幅度谱中未被抽取的帧。

根据本公开的示例性实施例，掩膜比预测网络可仅包括例如CNN或DNN的一层网络层，因此，其参数量和复杂度比语音增强网络小得多。本公开对掩膜比预测网络的网络结构不作限制，例如，也可包括其他类型的网络和/或超过一层的网络层。

根据本公开的示例性实施例，第二语音帧序列中的每个语音幅度谱的帧都可根据相应的第一语音帧序列中的相应帧的掩膜比通过掩膜比预测网络产生一个相应的掩膜比。例如，对于一个帧组，该帧组的第一帧可通过语音增强网络产生一个相应的掩膜比，该帧组的其它帧则可根据第一帧的掩膜比输入通过掩膜比预测网络产生相应的掩膜比。例如，当N＝2，即，第一语音帧序列包括含噪语音信号的幅度谱的所有奇数帧，第二语音帧序列包括含噪语音信号的幅度谱的所有偶数帧时，与偶数帧相应的掩膜比可通过将与对应的奇数帧的掩膜比输入掩膜比预测网络来产生，例如，索引为2的偶数帧，其对应的奇数帧索引可为1；索引为4的偶数帧，其对应的奇数帧索引可为3；…依次类推。因此，通过掩膜比预测网络输出的估计的与第二语音帧序列对应的掩膜比可包括分别与第二语音帧序列的多个帧对应的多个掩膜比，也可以称为第二掩膜比序列。

在步骤305，可将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比。

根据本公开的示例性实施例，可根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比中的每一帧掩膜比。例如，假设N＝2，帧索引从1开始，则估计的与第一语音帧序列对应的掩膜比是所有奇数帧的掩膜比，估计的与第二语音帧序列对应的掩膜比是所有偶数帧的掩膜比，可将通过以下方式融合，将第一帧幅度谱的掩膜比(即，第一掩膜比序列的第一帧)作为融合后的完整掩膜比的第一帧，将第二帧幅度谱的掩膜比(即，第二掩膜比序列的第一帧)作为融合后的完整掩膜比的第二帧，将第三帧幅度谱的掩膜比(即，第一掩膜比序列的第二帧)作为融合后的完整掩膜比的第三帧，将第四帧幅度谱的掩膜比(即，第二掩膜比序列的第二帧)作为融合后的完整掩膜比的第四帧，…以此类推，最终得到估计的完整掩膜比。

在步骤306，可根据估计的完整掩膜比和含噪语音信号的幅度谱，确定估计的增强语音信号的幅度谱，并根据估计的增强语音信号的幅度谱与干净语音信号的幅度谱确定语音处理模型的损失函数。

根据本公开的示例性实施例，可将估计的完整掩膜比与含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱。也就是说，可分别将含噪语音信号的幅度谱的每一帧与相应的估计掩膜比相乘，从而得到估计的增强语音信号(也可称为估计的干净语音信号)的幅度谱。

根据本公开的示例性实施例，可通过对干净语音信号进行时频变换(例如，短时傅里叶变换(STFT))，并从获得的频谱中提取幅度谱，获得干净语音信号的幅度谱。

根据本公开的示例性实施例，可计算估计的增强语音信号的幅度谱与干净语音信号的幅度谱之间的均方误差(MSE)，作为损失函数。本公开对损失函数不作限制，还可以计算其它损失函数。

在步骤307，可通过根据损失函数调整语音增强网络和掩膜比预测网络的参数，对语音处理模型进行训练。

图4是示出根据本公开的示例性实施例的语音处理方法的流程图。根据本公开的示例性实施例的语音处理方法可基于包括语音增强网络和掩膜比预测网络的语音处理模型执行，这里的语音处理模型可以是通过图3描述的训练方法训练好的语音处理模型。

参照图4，在步骤401，可获取待处理语音信号的当前语音帧。由于根据本公开的示例性实施例的语音处理方法可应用于语音信号实时处理的场景，因此根据本公开的示例性实施例的语音处理方法可针对实时接收的语音帧逐帧处理并逐帧输出处理后的结果。也就是说，图4所示的语音处理方法适用于待处理语音信号的每一帧，因此，可将正在处理的语音帧称为当前语音帧。

在步骤402，在待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从待处理语音信号进行跳帧确定的帧，第二语音帧包括待处理语音信号中非第一语音帧的帧。也就是说，第一语音帧是可通过语音增强网络来执行增强的语音帧(即，通过图2(a)的推理流程)，第二语音帧是可通过掩膜比预测网络来执行增强的语音帧(即，通过图2(b)的推理流程)。

具体地说，在第一模式下，可将当前语音帧的幅度谱输入语音增强网络，得到估计的与当前语音帧对应的掩膜比，将估计的与当前语音帧对应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。在第二模式下，将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入掩膜比预测网络，得到估计的与当前语音帧相应的掩膜比，这里，当前语音帧的前一个第一语音帧是指位置在当前语音帧之前的最近的一个第一语音帧；将估计的与当前语音帧对应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。这里，当前语音帧的幅度谱和相位谱可通过对时域的当前语音帧进行时频变换(例如，短时傅立叶变换(STFT))到时频域的当前语音帧而获得。

根据本公开的示例性实施例，可每预定帧数N从待处理语音信号确定一帧作为第一语音帧，待处理语音信号的其余帧则可作为第二语音帧，其中，N可以是等于或大于2的整数。在推理阶段，可将N设置为与训练阶段的N一致。例如，可根据帧索引顺序，确定待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。例如，假设N＝2，帧索引从1开始，则第一语音帧可包括奇数帧，第二语音帧可包括偶数帧。当获取的待处理语音信号的当前语音帧的帧索引为1时，可确定当前语音帧为第一语音帧并在第一模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为2时，可确定当前语音帧为第二语音帧并在第二模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为3时，可确定当前语音帧为第一语音帧并在第一模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为4时，可确定当前语音帧为第二语音帧并在第二模式下执行处理；…以此类推。

根据本公开的示例性实施例，在第二模式下对当前语音帧执行处理的情况下，可通过与当前语音帧对应的第一语音帧的掩膜比输入掩膜比预测网络，得到估计的当前语音帧的掩膜比。例如，与当前语音帧对应的第一语音帧可以是在当前语音帧的前一个第一语音帧。例如，假设N＝2，则第一语音帧可包括奇数帧，第二语音帧可包括偶数帧。如果当前语音帧的索引为2，则其对应的第一语音帧索引为1；如果当前语音帧的索引为4，则其对应的第一语音帧索引为3；…依次类推。又例如，假设N＝3，帧索引从1开始，则第一语音帧可包括索引为1、4、7…的语音帧，第二语音帧可包括索引为2、3、5、6、8、9…的语音帧。如果当前语音帧的索引为2或3，则其对应的第一语音帧索引为1；如果当前语音帧的索引为5或6，则其对应的第一语音帧索引为4；如果当前语音帧的索引为8或9，则其对应的第一语音帧索引为7；…依次类推。

在步骤403，可输出处理后的当前语音帧。在语音信号实时处理的场景下，每处理完一帧，可输出一帧处理后的语音帧，因此用户听到的每一帧语音信号是逐帧处理并输出的语音信号。

参照图5，根据本公开的示例性实施例的语音处理模型的训练装置500可包括获取单元501、抽帧单元502、第一估计单元503、第二估计单元504、融合单元505、计算单元506和训练单元507。

获取单元501可获取音频样本数据，其中，每个音频样本数据可包括干净语音信号和含噪语音信号。这里，干净语音信号可以是干净语音数据集中的干净语音信号。干净语音数据集可通过录制干净语音获得，和/或通过互联网获取，还可通过其它任何可能的方式获得。这里，干净语音是指基本不含任何噪声的语音，可通过获取很多不同说话人(例如，男人、女人、儿童、老人等)的干净语音来生成干净语音数据集。

根据本公开的示例性实施例，可按照一定的信噪比将干净语音信号与噪声信号进行加性混合来获得含噪语音信号。例如，在语音处理模型的训练过程中信噪比覆盖范围可为0dB、5dB、10dB、15dB这四种。因此，针对每组干净语音信号与噪声信号，可从这四种信噪比中随机选择一种信噪比对干净语音信号与噪声信号进行加性混合，从而可保证能生成多条包括这四种信噪比的含噪语音信号。当然，本公开的信噪比不限于上述四种，还可设置任何可行的信噪比进行加性混合。

抽帧单元502可对含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列。

根据本公开的示例性实施例，可利用语音帧间的相关性，跳帧抽取一部分含噪语音信号的幅度谱的帧通过语音增强网络来增强，另一部分含噪语音信号的幅度谱的帧通过掩膜比预测网络来增强，由于掩膜比预测网络比语音增强网络的复杂度小很多，因此，可达到在保证增强能力的同时，比将所有帧通过语音增强网络来增强的传统方案的计算复杂度更低，处理速度更快，更适用于实时语音处理的场景。例如，抽帧单元502可每预定帧数N从所述含噪语音信号的幅度谱抽取一帧，并根据帧索引顺序，将抽取的帧重新组合成为第一语音帧序列，其中，N可以是等于或大于2的整数。N越大，计算复杂度越低，但帧相关性也越低，增强效果可能越差，因此，可根据需求来选择预定帧数N。

例如，抽帧单元502可每两帧抽取一帧并重新组合成为第一语音帧序列。因此，每一语音帧序列可包括帧索引为奇数的帧(帧索引从1开始)，例如，可包括第一帧、第三帧、第五帧…，以此类推。也就是说，通过语音增强网络来执行增强的第一语音帧序列包括奇数帧，其余通过掩膜比预测网络来执行增强的第二语音帧序列可包括偶数帧。

例如，抽帧单元502可根据帧索引顺序，将含噪语音信号的幅度谱划分为多个帧组，其中，每个帧组包括预定帧数的帧；抽取多个帧组中的每个帧组的第一帧。假设N＝2，含噪语音信号的幅度谱共M＝100帧，则可根据帧索引顺序将含噪语音信号的幅度谱划分为50个帧组，例如，第一帧组包括第一帧和第二帧，第二帧组包括第三帧和第四帧…，以此类推。可抽取50个帧组中的每个帧组的第一帧，例如，从第一帧组抽取位于首位的第一帧，从第二帧组抽取位于首位的第三帧…，以此类推。

第一估计单元503可将第一语音帧序列输入语音增强网络，得到估计的与第一语音帧序列对应的掩膜比。其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值。

第二估计单元504可将估计的与第一语音帧序列对应的掩膜比输入掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括含噪语音信号的幅度谱中未被抽取的帧。

融合单元505可将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比。

根据本公开的示例性实施例，融合单元505可根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比中的每一帧掩膜比。例如，假设N＝2，帧索引从1开始，则估计的与第一语音帧序列对应的掩膜比是所有奇数帧的掩膜比，估计的与第二语音帧序列对应的掩膜比是所有偶数帧的掩膜比，融合单元505可将通过以下方式融合，将第一帧幅度谱的掩膜比(即，第一掩膜比序列的第一帧)作为融合后的完整掩膜比的第一帧，将第二帧幅度谱的掩膜比(即，第二掩膜比序列的第一帧)作为融合后的完整掩膜比的第二帧，将第三帧幅度谱的掩膜比(即，第一掩膜比序列的第二帧)作为融合后的完整掩膜比的第三帧，将第四帧幅度谱的掩膜比(即，第二掩膜比序列的第二帧)作为融合后的完整掩膜比的第四帧，…以此类推，最终得到估计的完整掩膜比。

计算单元506可根据估计的完整掩膜比和含噪语音信号的幅度谱，确定估计的增强语音信号的幅度谱，并根据估计的增强语音信号的幅度谱与干净语音信号的幅度谱确定语音处理模型的损失函数。

根据本公开的示例性实施例，计算单元506可将估计的完整掩膜比与含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱。也就是说，可分别将含噪语音信号的幅度谱的每一帧与相应的估计掩膜比相乘，计算单元506从而得到估计的增强语音信号(也可称为估计的干净语音信号)的幅度谱。

根据本公开的示例性实施例，计算单元506可计算估计的增强语音信号的幅度谱与干净语音信号的幅度谱之间的均方误差(MSE)，作为损失函数。本公开对损失函数不作限制，还可以计算其它损失函数。

训练单元507可通过根据损失函数调整语音增强网络和掩膜比预测网络的参数，对语音处理模型进行训练。

图6是示出根据本公开的示例性实施例的语音处理装置的框图。根据本公开的示例性实施例的语音处理装置600可基于包括语音增强网络和掩膜比预测网络的语音处理模型执行处理，这里的语音处理模型可以是通过图3描述的训练方法训练好的语音处理模型。

参照图6，根据本公开的示例性实施例的语音处理装置600可包括获取单元601、处理单元602和输出单元603。

获取单元601可获取待处理语音信号的当前语音帧。由于根据本公开的示例性实施例的语音处理装置可应用于语音信号实时处理的场景，因此根据本公开的示例性实施例的语音处理装置可针对实时接收的语音帧逐帧处理并逐帧输出处理后的结果。也就是说，图6所示的语音处理装置适用于待处理语音信号的每一帧，因此，可将正在处理的语音帧称为当前语音帧。

处理单元602可在待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从待处理语音信号进行跳帧确定的帧，第二语音帧包括待处理语音信号中非第一语音帧的帧。也就是说，第一语音帧是可通过语音增强网络来执行增强的语音帧(即，通过图2(a)的推理流程)，第二语音帧是可通过掩膜比预测网络来执行增强的语音帧(即，通过图2(b)的推理流程)。

具体地说，在第一模式下，处理单元602可将当前语音帧的幅度谱输入语音增强网络，得到估计的与当前语音帧对应的掩膜比，将估计的与当前语音帧对应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。在第二模式下，处理单元602可将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入掩膜比预测网络，得到估计的与当前语音帧相应的掩膜比，这里，当前语音帧的前一个第一语音帧是指位置在当前语音帧之前的最近的一个第一语音帧；将估计的与当前语音帧对应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。这里，当前语音帧的幅度谱和相位谱可通过对时域的当前语音帧进行时频变换(例如，短时傅立叶变换(STFT))到时频域的当前语音帧而获得。

根据本公开的示例性实施例，处理单元602可每预定帧数N从待处理语音信号确定一帧作为第一语音帧，待处理语音信号的其余帧则可作为第二语音帧，其中，N可以是等于或大于2的整数。在推理阶段，可将N设置为与训练阶段的N一致。例如，处理单元602可根据帧索引顺序，确定待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。例如，假设N＝2，帧索引从1开始，则第一语音帧可包括奇数帧，第二语音帧可包括偶数帧。当获取的待处理语音信号的当前语音帧的帧索引为1时，处理单元602可确定当前语音帧为第一语音帧并在第一模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为2时，处理单元602可确定当前语音帧为第二语音帧并在第二模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为3时，处理单元602可确定当前语音帧为第一语音帧并在第一模式下执行处理；当获取的待处理语音信号的当前语音帧的帧索引为4时，处理单元602可确定当前语音帧为第二语音帧并在第二模式下执行处理；…以此类推。此外，确定当前语音帧是属于第一语音帧还是属于第二语音帧的操作也可不由处理单元602执行而由其它单元或装置，且处理单元602可获取此确定结果。

根据本公开的示例性实施例，在第二模式下对当前语音帧执行处理的情况下，处理单元602可通过与当前语音帧对应的第一语音帧的掩膜比输入掩膜比预测网络，得到估计的当前语音帧的掩膜比。例如，与当前语音帧对应的第一语音帧可以是在当前语音帧的前一个第一语音帧。例如，假设N＝2，则第一语音帧可包括奇数帧，第二语音帧可包括偶数帧。如果当前语音帧的索引为2，则其对应的第一语音帧索引为1；如果当前语音帧的索引为4，则其对应的第一语音帧索引为3；…依次类推。又例如，假设N＝3，帧索引从1开始，则第一语音帧可包括索引为1、4、7…的语音帧，第二语音帧可包括索引为2、3、5、6、8、9…的语音帧。如果当前语音帧的索引为2或3，则其对应的第一语音帧索引为1；如果当前语音帧的索引为5或6，则其对应的第一语音帧索引为4；如果当前语音帧的索引为8或9，则其对应的第一语音帧索引为7；…依次类推。

输出单元603可输出处理后的当前语音帧。在语音信号实时处理的场景下，每处理完一帧，可输出一帧处理后的语音帧，因此用户听到的每一帧语音信号是逐帧处理并输出的语音信号。

图7是根据本公开的示例性实施例的电子设备700的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器702执行时，执行根据本公开的示例性实施例的语音处理模型的训练方法和语音处理方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音处理模型的训练方法或语音处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的语音处理模型的训练方法或语音处理方法。

根据本公开的语音处理模型的训练方法和训练装置以及语音处理方法和语音处理装置，可利用语音信号的帧间相关性，将跳帧获得的语音非连续帧的幅度谱作为语音增强网络的输入特征来估计这些语音帧的增强语音信号，并将语音增强网络的输出输入另一复杂度更低的预测网络来预测其他语音帧的增强语音信号，从而可使用不同复杂度的网络结构来对语音信号的不同帧进行处理，使得在保证增强能力维持不变的前提下，能够有效降低语音增强的计算复杂度，能够应用于语音信号的实时处理的场景。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理模型的训练方法，其特征在于，所述语音处理模型包括语音增强网络和掩膜比预测网络，所述训练方法包括：

获取音频样本数据，其中，每个音频样本数据包括干净语音信号和含噪语音信号，所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的；

对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列；

将第一语音帧序列输入所述语音增强网络，得到估计的与第一语音帧序列对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；

将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧；

将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比；

将所述估计的完整掩膜比与所述含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱，并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数；

通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数，对所述语音处理模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列，包括：

每预定帧数从所述含噪语音信号的幅度谱抽取一帧；

根据帧索引顺序，将抽取的帧重新组合成为第一语音帧序列。

3.如权利要求2所述的训练方法，其特征在于，所述每预定帧数从所述含噪语音信号的幅度谱抽取一帧，包括：

根据帧索引顺序，将所述含噪语音信号的幅度谱划分为多个帧组，其中，每个帧组包括所述预定帧数的帧；

抽取所述多个帧组中的每个帧组的第一帧。

4.如权利要求2所述的训练方法，其特征在于，所述预定帧数为2，第一语音帧序列包括奇数帧，第二语音帧序列包括偶数帧。

5.如权利要求1所述的训练方法，其特征在于，所述将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的完整掩膜比，包括：

根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合所述估计的与第一语音帧序列对应的掩膜比和所述估计的与第一语音帧序列对应的掩膜比中的每一帧掩膜比。

6.如权利要求1所述的训练方法，其特征在于，所述根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数，包括：

计算所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱之间的均方误差，作为所述损失函数。

7.一种语音处理方法，其特征在于，所述语音处理方法基于包括语音增强网络和掩膜比预测网络的语音处理模型执行，所述语音处理模型是使用如权利要求1至6中任意一项权利要求所述的训练方法训练得到的，所述语音处理方法包括：

获取待处理语音信号的当前语音帧；

在所述待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧，第二语音帧包括所述待处理语音信号中非第一语音帧的帧；

输出处理后的当前语音帧；

其中，所述在第一模式下对当前语音帧执行处理，包括：

将当前语音帧的幅度谱输入所述语音增强网络，得到估计的与当前语音帧对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；

将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧；

其中，所述在第二模式下对当前语音帧执行处理，包括：

将当前语音帧的前一个第一语音帧在第一模式下得到的估计的掩膜比输入所述掩膜比预测网络，得到估计的与当前语音帧相应的掩膜比；

将估计的与当前语音帧相应的掩膜比与当前语音帧的幅度谱相乘，再与当前语音帧的相位谱结合，得到处理后的当前语音帧。

8.如权利要求7所述的语音处理方法，其特征在于，每预定帧数从所述待处理语音信号确定一帧作为第一语音帧。

9.如权利要求8所述的语音处理方法，其特征在于，还包括：

根据帧索引，确定所述待处理语音信号的当前语音帧属于第一语音帧还是属于第二语音帧。

10.如权利要求8所述的语音处理方法，其特征在于，所述预定帧数为2，第一语音帧包括奇数帧，第二语音帧包括偶数帧。

11.一种语音处理模型的训练装置，其特征在于，所述语音处理模型包括语音增强网络和掩膜比预测网络，所述训练装置包括：

获取单元，被配置为：获取音频样本数据，其中，每个音频样本数据包括干净语音信号和含噪语音信号，所述含噪语音信号是通过将所述干净语音信号与噪声信号进行加性混合而获得的；

抽帧单元，被配置为：对所述含噪语音信号的幅度谱执行跳帧抽取，得到第一语音帧序列；

第一估计单元，被配置为：将第一语音帧序列输入所述语音增强网络，得到估计的与第一语音帧序列对应的掩膜比，其中，掩膜比表示干净语音信号幅度谱与含噪语音信号幅度谱的比值；

第二估计单元，被配置为：将估计的与第一语音帧序列对应的掩膜比输入所述掩膜比预测网络，得到估计的与第二语音帧序列对应的掩膜比，其中，第二语音帧序列包括所述含噪语音信号的幅度谱中未被抽取的帧；

融合单元，被配置为：将估计的与第一语音帧序列对应的掩膜比和估计的与第二语音帧序列对应的掩膜比融合，得到估计的掩膜比；

计算单元，被配置为：将所述估计的完整掩膜比与所述含噪语音信号的幅度谱执行点乘，获得估计的增强语音信号的幅度谱，并根据所述估计的增强语音信号的幅度谱与所述干净语音信号的幅度谱确定所述语音处理模型的损失函数；

训练单元，被配置为：通过根据所述损失函数调整所述语音增强网络和所述掩膜比预测网络的参数，对所述语音处理模型进行训练。

12.如权利要求11所述的训练装置，其特征在于，抽帧单元被配置为：

每预定帧数从所述含噪语音信号的幅度谱抽取一帧。

13.如权利要求12所述的训练装置，其特征在于，抽帧单元被配置为：

抽取所述多个帧组中的每个帧组的第一帧。

14.如权利要求12所述的训练装置，其特征在于，所述预定帧数为2，第一语音帧序列包括奇数帧，第二语音帧序列包括偶数帧。

15.如权利要求11所述的训练装置，其特征在于，第二估计单元被配置为：

根据第一语音帧序列和第二语音帧序列中的每一帧的帧索引顺序，交叉融合所述估计的与第一语音帧序列对应的掩膜比和所述估计的与第二语音帧序列对应的掩膜比中的每一帧掩膜比。

16.如权利要求11所述的训练装置，其特征在于，计算单元被配置为：

17.一种语音处理装置，其特征在于，所述语音处理装置基于包括语音增强网络和掩膜比预测网络的语音处理模型执行处理，所述语音处理模型是使用如权利要求1至6中任意一项权利要求所述的训练方法训练得到的，所述语音处理装置包括：

获取单元，被配置为：获取待处理语音信号的当前语音帧；

处理单元，被配置为：在所述待处理语音信号的当前语音帧属于第一语音帧的情况下，在第一模式下对当前语音帧执行处理，或者在所述待处理语音信号的当前语音帧属于第二语音帧的情况下，在第二模式下对当前语音帧执行处理，其中，第一语音帧包括通过对从所述待处理语音信号进行跳帧确定的帧，第二语音帧包括所述待处理语音信号中非第一语音帧的帧；

输出单元，被配置为：输出处理后的当前语音帧；

其中，处理单元被配置为：在第一模式下执行以下操作：

其中，处理单元被配置为：在第二模式下执行以下操作：

18.如权利要求17所述的语音处理装置，其特征在于，每预定帧数从所述待处理语音信号确定一帧作为第一语音帧。

19.如权利要求18所述的语音处理装置，其特征在于，处理单元还被配置为：

20.如权利要求18所述的语音处理装置，其特征在于，所述预定帧数为2，第一语音帧包括奇数帧，第二语音帧包括偶数帧。

21.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的语音处理模型的训练方法或如权利要求7到10中的任一权利要求所述的语音处理方法。

22.一种计算机可读存储介质，其特征在于，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的语音处理模型的训练方法或如权利要求7到10中的任一权利要求所述的语音处理方法。