CN112652290A

CN112652290A - 产生混响音频信号的方法及音频处理模型的训练方法

Info

Publication number: CN112652290A
Application number: CN202011474368.3A
Authority: CN
Inventors: 张旭; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-13
Anticipated expiration: 2040-12-14
Also published as: CN112652290B

Abstract

本公开关于一种产生混响音频信号的方法及音频处理模型的训练方法。所述产生混响音频信号的方法包括：将纯净音频信号与房间冲击响应进行卷积，产生混合后的第一混响音频信号；在卷积时降低预定分贝的混响时间小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号；在卷积时降低预定分贝的混响时间大于所述预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与所述纯净音频信号进行叠加，产生最终的混响音频信号。

Description

产生混响音频信号的方法及音频处理模型的训练方法

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种产生混响音频信号的方法和装置、音频处理模型的训练方法和装置、音频处理方法和装置。

背景技术

随着神经网络的推广，神经网络越来越多的被运用到音频领域，例如音频去噪、音频去混响、语音分离等等，相比较于传统算法，神经网络往往能获得更好的效果。在单通道语音增强领域，通常都是将语音去噪声及语音去混响进行单独处理，或者将语音去噪声和语音去混响结合起来进行统一处理，但去噪声和去混响的效果还需进一步提高。

发明内容

本公开提供一种产生混响音频信号的方法和装置、音频处理模型的训练方法和装置、音频处理方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种产生混响音频信号的方法，包括：将纯净音频信号与房间冲击响应进行卷积，产生混合后的第一混响音频信号；在卷积时降低预定分贝的混响时间小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号；

在卷积时降低预定分贝的混响时间大于所述预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与所述纯净音频信号进行叠加，产生最终的混响音频信号。

可选地，所述降低预定分贝的混响时间可为降低60dB的混响时间(RT60)。

可选地，所述预定阈值可为50毫秒。

可选地，n可为50。

根据本公开实施例的第二方面，提供一种音频处理模型的训练方法，所述训练方法包括：获取音频样本数据集合，其中，每个音频样本数据包括混响音频信号和带噪音频信号，其中，所述混响音频信号是通过将纯净音频信号与房间冲击响应进行卷积而获得的，所述带噪音频信号是通过将所述混响音频信号与噪声信号混合而获得的；根据每个音频样本数据中的所述混响音频信号和所述带噪音频信号，确定所述混响音频信号和所述带噪音频信号的信噪比和掩膜比，其中，所述掩膜比是基于所述混响音频信号产生的目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值；根据所述信噪比调整所述掩膜比以获得目标掩膜比；将所述带噪音频信号的幅度谱信号输入所述音频处理模型，得到估计的掩膜比；根据所述估计的掩膜比和所述目标掩膜比确定损失函数；根据确定的损失函数对所述音频处理模型进行训练。

可选地，所述目标音频信号可通过以下操作获得：在卷积时降低预定分贝的混响时间小于或等于第一预定阈值的情况下，将所述混响音频信号确定为所述目标音频信号，在卷积时降低预定分贝的混响时间大于第一预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与所述纯净音频信号进行叠加，产生所述目标音频信号。

可选地，所述降低预定分贝的混响时间可为降低60dB的混响时间(RT60)，所述预定阈值可为50亳秒，n可为50。

可选地，所述确定所述混响音频信号和所述带噪音频信号的掩膜比，可包括：在所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值小于或等于1的情况下，将所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值作为所述掩膜比；在所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值大于1的情况下，将所述掩膜比确定为1。

可选地，所述根据所述信噪比调整所述掩膜比以获得目标掩膜比，可包括：基于所述信噪比产生第二预定阈值；在所述掩膜比小于或等于第二预定阈值的情况下，将所述目标掩膜比设置为0；在所述掩膜比大于第二预定阈值的情况下，将所述掩膜比确定为所述目标掩膜比。

可选地，所述基于所述信噪比产生第二预定阈值，可包括：根据所述信噪比的大小，产生第二预定阈值，其中，所述信噪比越大，第二预定阈值越小。

可选地，所述根据所述信噪比的大小，产生第二预定阈值，可包括：

根据下面的公式产生第二预定阈值：

其中，β表示第二预定阈值，x表示所述信噪比，func(x)表示基于所述信噪比产生第二预定阈值的函数。

根据本公开实施例的第三方面，提供一种音频处理方法，包括：获取待测音频信号；基于所述待测音频信号，利用使用根据本公开的训练方法训练好的音频处理模型，获得期望音频信号。

可选地，所述获得期望音频信号，可包括：对所述待测音频信号进行时频变换，获得所述待测音频信号的幅度谱信号和相位谱信号；将所述待测音频信号的幅度谱信号输入所述音频处理模型，获得估计的掩膜比；将所述待测音频信号的幅度谱信号与所述估计的掩膜比相乘，获得估计的幅度谱信号；将所述估计的幅度谱信号与所述待测音频信号的相位谱信号结合，再经过时频逆变换，获得所述期望音频信号。

根据本公开实施例的第四方面，提供一种产生混响音频信号的装置，包括：第一混响单元，被配置为：将纯净音频信号与房间冲击响应进行卷积，产生混合后的第一混响音频信号；第二混响单元，被配置为：在卷积时降低预定分贝的混响时间小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号，在卷积时降低预定分贝的混响时间大于所述预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与所述纯净音频信号进行叠加，产生最终的混响音频信号。

可选地，所述降低预定分贝的混响时间为降低60dB的混响时间(RT60)。

可选地，所述预定阈值可为50毫秒。

可选地，n可为50。

根据本公开实施例的第五方面，提供一种音频处理模型的训练装置，所述训练装置包括：获取单元，被配置为：获取音频样本数据集合，其中，每个音频样本数据包括混响音频信号和带噪音频信号，其中，所述混响音频信号是通过将纯净音频信号与房间冲击响应进行卷积而获得的，所述带噪音频信号是通过将所述混响音频信号与噪声信号混合而获得的；确定单元，被配置为：根据每个音频样本数据中的所述混响音频信号和所述带噪音频信号，确定所述混响音频信号和所述带噪音频信号的信噪比和掩膜比，其中，所述掩膜比是基于所述混响音频信号产生的目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值；调整单元，被配置为：根据所述信噪比调整所述掩膜比以获得目标掩膜比；估计单元，被配置为：将所述带噪音频信号的幅度谱信号输入所述音频处理模型，得到估计的掩膜比；训练单元，被配置为：根据所述估计的掩膜比和所述目标掩膜比确定损失函数，并根据确定的损失函数对所述音频处理模型进行训练。

可选地，确定单元可被配置为：在卷积时降低预定分贝的混响时间小于或等于第一预定阈值的情况下，将所述混响音频信号确定为所述目标音频信号，在卷积时降低预定分贝的混响时间大于第一预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与所述纯净音频信号进行叠加，产生所述目标音频信号。

可选地，确定单元可被配置为：在所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值小于或等于1的情况下，将所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值作为所述掩膜比；在所述目标音频信号的幅度谱信号与所述带噪音频信号的幅度谱信号的比值大于1的情况下，将所述掩膜比确定为1。

可选地，调整单元可被配置为：基于所述信噪比产生第二预定阈值；在所述掩膜比小于或等于第二预定阈值的情况下，将所述目标掩膜比设置为0；在所述掩膜比大于第二预定阈值的情况下，将所述掩膜比确定为所述目标掩膜比。

可选地，调整单元可被配置为：根据所述信噪比的大小，产生第二预定阈值，其中，所述信噪比越大，第二预定阈值越小。

可选地，调整单元可被配置为：

根据下面的公式产生第二预定阈值：

根据本公开实施例的第六方面，提供一种音频处理装置，包括：获取单元，被配置为：获取待测音频信号的幅度谱信号和相位谱信号；处理单元，被配置为：基于所述待测音频信号，利用使用根据本公开的训练方法训练好的音频处理模型，获得期望音频信号。

可选地，处理单元可被配置为：对所述待测音频信号进行时频变换，获得所述待测音频信号的幅度谱信号和相位谱信号；将所述待测音频信号的幅度谱信号输入所述音频处理模型，获得预测掩膜比值；将所述待测音频信号的幅度谱信号与所述预测掩膜比值相乘，获得估计的幅度谱信号；将所述估计的幅度谱信号与所述待测音频信号的相位谱信号结合，再经过时频逆变换，获得所述期望音频信号。

根据本公开实施例的第七方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。

根据本公开实施例的第八方面，提供一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。

根据本公开实施例的第九方面，提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的产生混响音频信号的方法和装置或音频处理模型的训练方法和装置或音频处理方法和装置，可根据不同的混响大小设置不同的目标音频信号，使得训练好的音频处理模型在小混响时更多的保留语音，在大混响时，去除掉更多的混响，从而达到更好地消除混响并保留语音的效果。

根据本公开的产生混响音频信号的方法和装置或音频处理模型的训练方法和装置或音频处理方法和装置，可根据带噪音频信号和目标音频信号的信噪比的大小来不同地设置目标Mask值，使得训练好的音频处理模型能够在低信噪比区域噪声消除效果更狠，高信噪比区域噪声消除效果不狠，趋向于保留语音，达到良好的音频去噪声和去混响、及保留语音的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的音频处理模型的训练和应用的整体系统示意图。

图2是示出根据本公开的示例性实施例的产生混响音频信号的方法的流程图。

图3是示出根据本公开的示例性实施例的音频处理模型的训练方法的流程图。

图4是示出根据本公开的示例性实施例的预定阈值β的示意图。

图5是示出根据本公开的示例性实施例的音频处理方法的流程图。

图6是示出根据本公开的示例性实施例的产生混响音频信号的装置的框图。

图7是示出根据本公开的示例性实施例的音频处理模型的训练装置的框图。

图8是示出根据本公开的示例性实施例的音频处理装置的框图。

图9是根据本公开的示例性实施例的电子设备900的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

通常情况下，利用神经网络技术做音频降噪往往在时频域上做处理的效果会更好，时频域是指将原始时域波形信号短时傅里叶变换(STFT：Short-Time FourierTransform)到时频域，经过一系列处理，再将时频域信号短时反傅里叶变换(ISTFT：Inverse Short-Time Fourier Transform)到时域，得到处理后波形的方式。利用神经网络进行音频去噪声和音频去混响时，一般在时频域进行处理，且选用Mask值(掩膜比值，原始目标值与带噪值的比值)作为网络学习的目标网络往往能获得良好的收敛性能和效果，Mask值是介于0到1之间的数值。在某一时频点上，当信噪比越低时，Mask值越接近于0；反之越接近于1。利用Mask值作为网络的学习目标，理想情况下，网络学习得到的Mask值就是信号与带噪信号的幅度比值；但是由于网络性能等原因，Mask估计往往估计不太准确。

为了提高神经网络进行音频去噪声和音频去混响的效果，本公开提出一种新颖的混响数据混合方式来产生用于神经网络训练的目标音频信号，具体地说，可根据不同的混响大小设置不同的目标音频信号，使得训练好的神经网络在小混响时更多的保留语音，在大混响时，去除掉更多的混响，从而达到更好地消除混响并保留语音的效果；此外，本公开还提出一种新颖的网络训练处理方法，具体地说，可根据作为网络输入的带噪音频信号和作为训练目标的目标音频信号的信噪比(混响可认为噪声的一种，亦可计算信噪比)的大小来不同地设置目标Mask值，使得训练好的神经网络能够在低信噪比区域噪声消除效果更狠，高信噪比区域噪声消除效果不狠，趋向于保留语音，达到良好的音频去噪声和去混响、及保留语音的效果。下面将参照图1至图9来具体地描述根据本公开的示例性实施例的产生混响音频信号的方法和装置、音频处理模型的训练方法和装置、音频处理方法和装置。

参照图1，音频处理模型可由人工神经网络(例如，深度神经网络(DNN)，人工神经网络(CNN)，循环神经网络(RNN)等)实现。音频处理模型的输入可以是带噪混响音频信号的幅度谱信号，输出可以是预测掩膜比值。

音频处理模型在应用前需要进行训练。根据本公开的示例性实施例，可对音频处理模型的训练数据(例如，训练样本、目标数据)进行训练前处理。

例如，可对纯净音频信号进行混响数据模拟处理，即，将纯净音频信号与房间冲击响应(例如，模拟房间冲击响应或实际房间冲击响应)进行卷积(例如，使用混响滤波器RevFilter实现)，得到混合后的第一混响音频信号。

在卷积时降低预定分贝的混响时间(Reverberation Time NdB)(例如，降低60dB的混响时间(Reverberation Time 60dB，RT60))小于或等于预定阈值(α)的情况下，将第一混响音频信号确定为目标音频信号；在卷积时降低预定分贝的混响时间大于预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与原始音频信号叠加(例如，使用前期混响滤波器Early RevFiler实现)作为目标音频信号。

将第一混响音频信号与噪声信号按照一定的信噪比进行混合处理以产生带噪音频信号，作为音频处理模型的训练样本。

将目标音频信号和带噪音频信号分别进行时频变换(例如，短时傅里叶变换(Short-Time Fourier Transform，STFT))，从时域转换至时频域，获得目标音频信号和带噪音频信号的幅度谱信号和相位谱信号。可将带噪音频信号的幅度谱信号作为音频处理模型训练的特征(feature)。

可基于目标音频信号和带噪音频信号的幅度谱信号和相位谱信号获得目标掩膜比值(Mask)，并且可基于目标音频信号和带噪音频信号计算其信噪比(SNR)，并通过计算的信噪比对目标掩膜比值进行不同的预处理，以获得最终的目标掩膜比值，作为音频处理模型训练的目标(label)。

在获得feature和label之后，可将feature和label送入音频处理模型进行神经网络训练，通过训练后获得音频处理模型。可以使用多个不同的纯净音频信号进行上述操作，以获得足够多的音频处理模型的训练样本，从而进行音频处理模型的训练。

在获得训练后的音频处理模型后，可输入待测音频信号的幅度谱信号，运行音频处理模型，可输出预测的掩膜比值。可将预测的掩膜比值与待测音频信号的幅度谱信号相乘，再与待测音频信号的相位谱信号结合，再经过时频逆变换(例如，短时反傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT))，获得期望音频信号。

如上所述，在根据第一混响音频信号产生目标音频信号时，根据不同的混响大小而设定不同的目标音频信号，再利用目标音频信号参与音频处理模型的训练，有利于使音频处理模型达到更好地消除混响并保留语音的效果。

此外，在设计用于音频处理模型训练的目标的目标掩膜比值时，根据不同的信噪比设置不同的目标掩膜比值，有利于使音频处理模型达到在低信噪比区域噪声消除效果更狠，在高信噪比区域噪声消除效果不狠，趋向于保留语音的效果。

参照图2，在步骤201，可将纯净音频信号与房间冲击响应(例如，模拟房间冲击响应或实际房间冲击响应)进行卷积，产生混合后的第一混响音频信号。

在步骤202，在卷积时降低预定分贝的混响时间(RTN)小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号。

在步骤203，在卷积时降低预定分贝的混响时间大于预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与纯净音频信号进行叠加，产生最终的混响音频信号。例如，降低预定分贝的混响时间可设置为，但不限于，降低60dB的混响时间(RT60)。此外，预定阈值可设置为，但不限于，50毫秒。此外，n可设置为，但不限于，50。

例如，产生最终的混响音频信号的操作可如下面的公式(1)至公式(3)所示。

其中，x(t)＝CONV(x0(t)，h(t)) (2)

x_ear(t)＝CONV(x0(t)，h_ear(t)) (3)

其中，x_tar(t)表示最终的混响音频信号，x(t)表示混合后的第一混响音频信号，x_ear(t)表示第一混响音频信号的前n毫秒的前期反射信号与纯净音频信号的叠加信号，x0(t)表示纯净音频信号，h(t)为混响滤波器，CONV为卷机操作，h_ear(t)表示前期混响滤波器，t表示时间。

根据上述方案，考虑不同的混响时间，产生不同的混响音频信号，将这样产生的混响音频信号用于音频处理模型的训练，有利于使音频处理模型在小混响时更多的保留语音，在大混响时，去除掉更多的混响，达到更好地去混响且保留语音的效果。

图3是示出根据本公开的示例性实施例的音频处理模型的训练方法的流程图。这里，音频处理模型可以是神经网络(例如，DNN、CNN、RNN等)模型，其在训练时输入可以是带噪音频信号(训练样本)的幅度谱信号，输出可以是估计的掩膜比，其在应用时输入可以是待测音频信号的幅度谱信号，输出可以是估计的掩膜比。

参照图3，在步骤301，可获取音频样本数据集合，其中，每个音频样本数据可包括混响音频信号和带噪音频信号。。这里，混响音频信号可通过将纯净音频信号与房间冲击响应(例如，模拟房间冲击响应或实际房间冲击响应)进行卷积而产生。例如，可如上述公式(2)所示来获得混响音频信号。

另外，带噪音频信号可通过将混响音频信号与噪声信号混合而产生。这里，噪声信号可以是通过从网上下载、实际录制等方式获取到的噪声信号。具体地说，可按照一定的信号比在时域将混响音频信号与噪声信号相加来产生带噪音频信号。

在步骤302，根据每个音频样本数据中的混响音频信号和带噪音频信号，确定混响音频信号和带噪音频信号的信噪比和掩膜比。

根据本公开的示例性实施例，掩膜比(mask)可以指目标音频信号(例如，目标纯净音频信号)与带噪音频信号之间的比。这里，可基于混响音频信号产生目标音频信号。例如，在产生混响音频信号时进行的卷积处理过程中降低预定分贝的混响时间(RTN)小于或等于第一预定阈值的情况下，将混响音频信号确定为目标音频信号。在卷积时降低预定分贝的混响时间大于第一预定阈值的情况下，将混响音频信号的前n毫秒的前期反射信号与纯净音频信号进行叠加，产生目标音频信号。例如，降低预定分贝的混响时间可设置为，但不限于，降低60dB的混响时间(RT60)。此外，预定阈值可设置为，但不限于，50毫秒。此外，n可设置为，但不限于，50。如上面的公式(1)至(3)所示，可将如图2所示的最终的混合音频信号用作目标音频信号。

在获得目标音频信号后，可计算目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值，获得掩膜比。

例如，若长度为T的目标音频信号x和带噪音频信号y在时域上分别为x(t)和y(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)和y(t)在时频域可表示为下面的公式(4)和(5)：

X(n，k)＝STFT(x(t)) (4)

Y(n，k)＝STFT(y(t)) (5)

其中，X(n，k)表示目标音频信号的时频域信号，Y(n，k)表示带噪音频信号的时频域信号，x(t)表示目标音频信号的时域信号，y(t)表示带噪音频信号的时域信号，n为帧序列，0＜n≤N，N为总帧数，k为中心频率序列，0＜k≤K，K为总频点数。

可分别从目标音频信号的时频域信号X(n，k)和带噪音频信号的时频域信号Y(n，k)提取幅度谱信号，如下面的公式(6)和(7)所示。

MagX(n，k)＝abs(X(n，k)) (6)

MagY(n，k)＝abs(Y(n，k)) (7)

其中，MagX(n，k)表示目标音频信号的幅度谱信号，MagY(n，k)表示带噪音频信号的幅度谱信号。如上所述，可将带噪音频信号的幅度谱信号MagY(n，k)输入音频处理模型，获得估计的掩膜比。

根据本公开的示例性实施例，可基于目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值，产生掩膜比Mask。例如，如下面的公式(8)所示。

根据本公开的示例性实施例，可将由于信号混合特性造成的大于1的Mask值置1。在这里由于信号相位抵消等原因，混响音频信号叠加噪声信号在某些特殊时频点上可能导致混合信号幅度小于原始信号幅度，故可限定Mask值小于等于1。也就是说，在目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值小于或等于1的情况下，将目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值作为掩膜比；在目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值大于1的情况下，将掩膜比确定为1，例如，可如下面的公式(9)所示。

根据本公开的示例性实施例，可统计目标音频信和带噪音频信号的能量来计算信噪比SNR。例如，根据下面的公式(10)来计算信噪比SNR：

在步骤303，在获得信噪比和掩膜比后，可根据信噪比调整掩膜比以获得目标掩膜比。也即，可考虑目标音频信号和带噪音频信号的信噪(SNR)比来对处理时频点Mask(n，k)，从而产生目标掩膜比值Mask_tar(n，k)。

根据本公开的示例性实施例，可将低信噪比的时频点去掉，将高信噪比的时频点保留。可将小于某一预定阈值β的Mask(n，k)进行置零操作。可基于信噪比SNR产生预定阈值β。这里，SNR和β就是起到该时频点的去留作用。可对高信噪比的频点，完全保留，并对低信噪的频点，丢弃，这样神经网络(即，音频处理模型)就不用在低信噪比的频点纠结去多少的问题，而是直接去掉。这样就可以更多的网络算力去算更多的中高频点，从而达到更好的效果。也就是说，在掩膜比小于或等于预定阈值β的情况下，可将目标掩膜比设置为0；在掩膜比大于预定阈值β的情况下，可将掩膜比确定为目标掩膜比，如下面的公式(11)所示。

Mask_tar(n，k)＝func(Mask(n，k)) (11)

其中，

根据本公开的示例性实施例，可根据信噪比SNR的大小，产生预定阈值β，即，根据不同的SNR值设计不同的β值。例如，信噪比SNR越大，设置越小的预定阈值β，从而保留更多的语音；信噪比SNR越小，设置越大的预定阈值β，从而去除更多的噪声。

例如，图4是示出根据本公开的示例性实施例的预定阈值β的示意图。如图4所示，可根据下面的公式(11)产生预定阈值β。当然，预定阈值β不限于此，可根据需要设计任何可能的预定阈值β。

β＝func(SNR) (11)

其中，

返回参照图3，在步骤304，可将带噪音频信号的幅度谱信号输入音频处理模型，得到估计的掩膜比。

根据本公开的示例性实施例，音频处理模型的输入可以是带噪音频信号的幅度谱信号，输出可以是估计的掩膜比。因此，可对带噪音频信号进行时频变换(例如，短时傅立叶变换)，获得带噪音频信号的幅度谱信号，并将带噪音频信号的幅度谱信号输入音频处理模型以获得估计的掩膜比。

在步骤305，可根据估计的掩膜比和目标掩膜比确定损失函数。在步骤306，可根据确定的损失函数对音频处理模型进行训练。可将目标掩膜比作为地面真值，在通过音频处理模型获得到估计的掩膜比后，基于估计的掩膜比和目标掩膜比这两个变量确定预先设计的损失函数，并根据确定的损失函数对音频处理模型(神经网络)的参数进行反向传播迭代更新。可针对音频样本数据集合中的每个音频样本数据或批量音频样本数据，分别执行上述步骤302-步骤306，对音频处理模型进行训练。

根据上述方案，训练好的音频处理模型可同时进行音频去噪声和音频去混响处理，使得训练好的音频处理模型可同时达到去噪和去混响的效果。并且利用根据混响的大小进行不同混响数据的混合而产生的目标音频数据进行训练的音频处理模型可达到良好的去混响和保留语音的效果。

此外，根据上述方案，可利用音频信噪比对用于训练的目标Mask进行预处理，使得训练好的音频处理模型更好的保留高信噪比语音的同时，在低信噪比区域具有更好的降噪效果。

参照图5，在步骤501，可获取待测音频信号。在音频处理模型训练完成后，可将音频处理模型投入实际的应用场景进行使用。可通过运行音频处理模型，从待测音频信号，获得最终的期望信号。

在步骤502，基于待测音频信号，利用使用根据本公开的训练方法(如参照图3所描述的训练方法)训练好的音频处理模型，获得期望音频信号。

根据本公开的示例性实施例，可对待测音频信号进行时频变换(例如，短时傅立叶变换(STFT))，获得待测音频信号的幅度谱信号和相位谱信号；将待测音频信号的幅度谱信号输入音频处理模型，获得估计的掩膜比；将待测音频信号的幅度谱信号与估计的掩膜比相乘，获得估计的幅度谱信号；将估计的幅度谱信号与待测音频信号的相位谱信号结合，再经过时频逆变换(例如，短时傅立叶逆变换(ISTFT))，获得期望音频信号。

例如，上述过程可如下面的公式(12)所示。

X_est(t)＝ISTFT((Mask_p(n，k)*MagY(n，k))，PhaY(n，k)) (12)

其中，X_est(t)表示期望音频信号，Mask_p(n，k)为待测音频信号在时频点(n，k)通过音频处理模型估计得到的Mask值，MagY(n，k)为待测音频信号在时频点(n，k)的幅度谱信号；PhaY(n，k)为待测音频信号在时频点(n，k)的相位谱信号。

参照图6，根据本公开的示例性实施例的产生混响音频信号的装置600可包括第一混响单元601和第二混响单元602。

第一混响单元601可将纯净音频信号与房间冲击响应(例如，模拟房间冲击响应或实际房间冲击响应)进行卷积，产生混合后的第一混响音频信号。

第二混响单元602可在卷积时降低预定分贝的混响时间(RTN)小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号。此外，第二混响单元602可在卷积时降低预定分贝的混响时间大于预定阈值的情况下，将第一混响音频信号的前n毫秒的前期反射信号与纯净音频信号进行叠加，产生最终的混响音频信号。例如，降低预定分贝的混响时间可设置为，但不限于，降低60dB的混响时间(RT60)。此外，预定阈值可设置为，但不限于，50毫秒。此外，n可设置为，但不限于，50。

图7是示出根据本公开的示例性实施例的音频处理模型的训练装置的框图。这里，音频处理模型可以是神经网络(例如，DNN、CNN、RNN等)模型，其在训练时输入可以是带噪音频信号(训练样本)的幅度谱信号，输出可以是估计的掩膜比，其在应用时输入可以是待测音频信号的幅度谱信号，输出可以是估计的掩膜比。这里，掩膜比可表示目标音频信号(例如，纯净音频信号)与带噪音频信号的比值，这将在下面会进行解释。

参照图7，根据本公开的示例性实施例的音频处理模型的训练装置700可包括获取单元701、确定单元702、调整单元703、估计单元704和训练单元705。

参照图7，获取单元701可获取音频样本数据集合，其中，每个音频样本数据可包括混响音频信号和带噪音频信号。这里，混响音频信号可通过将纯净音频信号与房间冲击响应(例如，模拟房间冲击响应或实际房间冲击响应)进行卷积而产生。例如，获取单元701可如上述公式(2)所示来获取混响音频信号，或者获取单元701可获取如上述公式(2)所示而产生的混响音频信号。

另外，带噪音频信号可通过将混响音频信号与噪声信号混合而产生。这里，噪声信号可以是通过从网上下载、实际录制等方式获取到的噪声信号。具体地说，获取单元701可按照一定的信号比在时域将混响音频信号与噪声信号相加来产生带噪音频信号，或者获取单元701可获取按照一定的信号比在时域将混响音频信号与噪声信号相加而产生的带噪音频信号。

确定单元702可根据每个音频样本数据中的混响音频信号和带噪音频信号，确定混响音频信号和带噪音频信号的信噪比和掩膜比。

根据本公开的示例性实施例，掩膜比(mask)可以指目标音频信号(例如，目标纯净音频信号)与带噪音频信号之间的比。这里，确定单元702可基于混响音频信号产生目标音频信号。例如，确定单元702在产生混响音频信号时进行的卷积处理过程中降低预定分贝的混响时间(RTN)小于或等于第一预定阈值的情况下，将混响音频信号确定为目标音频信号。确定单元702在卷积时降低预定分贝的混响时间大于第一预定阈值的情况下，将混响音频信号的前n毫秒的前期反射信号与纯净音频信号进行叠加，产生目标音频信号。例如，降低预定分贝的混响时间可设置为，但不限于，降低60dB的混响时间(RT60)。此外，预定阈值可设置为，但不限于，50毫秒。此外，n可设置为，但不限于，50。确定单元702可如上面的公式(1)至(3)所示来产生目标音频信号，也就是说，可将如图2所示的最终的混合音频信号用作目标音频信号。

在获得目标音频信号后，确定单元702可计算目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值来获得掩膜比。

根据本公开的示例性实施例，确定单元702可将由于信号混合特性造成的大于1的Mask值置1。在这里由于信号相位抵消等原因，混响音频信号叠加噪声信号在某些特殊时频点上可能导致混合信号幅度小于原始信号幅度，故可限定Mask值小于等于1。也就是说，确定单元702在目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值小于或等于1的情况下，将目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值作为掩膜比；在目标音频信号的幅度谱信号与带噪音频信号的幅度谱信号的比值大于1的情况下，将掩膜比确定为1。

根据本公开的示例性实施例，确定单元702可统计目标音频信和带噪音频信号的能量来计算信噪比SNR。例如，确定单元702可根据上面的公式(10)来计算信噪比SNR。

在获得信噪比和掩膜比后，调整单元703可根据信噪比调整掩膜比以获得目标掩膜比。也即，调整单元703可考虑目标音频信号和带噪音频信号的信噪(SNR)比来对处理时频点Mask(n，k)，从而产生目标掩膜比值Mask_tar(n，k)。

根据本公开的示例性实施例，调整单元703可将低信噪比的时频点去掉，将高信噪比的时频点保留，即，可将小于某一预定阈值β的Mask(n，k)进行置零操作。调整单元703可基于信噪比SNR产生预定阈值β。这里，SNR和β就是起到该时频点的去留作用。可对高信噪比的频点，完全保留，并对低信噪的频点，丢弃，这样神经网络(即，音频处理模型)就不用在低信噪比的频点纠结去多少的问题，而是直接去掉。这样就可以更多的网络算力去算更多的中高频点，从而达到更好的效果。也就是说，调整单元703在产生的目标掩膜比值小于或等于预定阈值β的情况下，可将最终的目标掩膜比值设置为0；在产生的目标掩膜比值大于预定阈值β的情况下，可将产生的目标掩膜比值作为最终的目标掩膜比值。

根据本公开的示例性实施例，调整单元703可根据信噪比SNR的大小，产生预定阈值β，即，根据不同的SNR值设计不同的β值。例如，信噪比SNR越大，设置越小的预定阈值β，从而保留更多的语音；信噪比SNR越小，设置越大的预定阈值β，从而去除更多的噪声。

例如，调整单元703可根据上面的公式(11)产生预定阈值β。当然，预定阈值β不限于此，可根据需要设计任何可能的预定阈值β。

估计单元704可将带噪音频信号的幅度谱信号输入音频处理模型，得到估计的掩膜比。

根据本公开的示例性实施例，音频处理模型的输入可以是带噪音频信号的幅度谱信号，输出可以是估计的掩膜比。因此，估计单元704可对带噪音频信号进行时频变换(例如，短时傅立叶变换)，获得带噪音频信号的幅度谱信号，并将带噪音频信号的幅度谱信号输入音频处理模型以获得估计的掩膜比。

训练单元705可根据估计的掩膜比和目标掩膜比确定损失函数，并根据确定的损失函数对音频处理模型进行训练。训练单元705可将目标掩膜比值作为地面真值，在通过音频处理模型获得到估计的掩膜比后，基于估计的掩膜比和目标掩膜比这两个变量确定预先设计的损失函数，并根据确定的损失函数对音频处理模型(神经网络)的参数进行反向传播迭代更新。可针对音频样本数据集合中的每个音频样本数据或批量音频样本数据，分别经过确定单元702、调整单元703、估计单元704和训练单元705的处理，对音频处理模型进行训练。

参照图8，根据本公开的示例性实施例的音频处理装置800可包括获取单元801和处理单元802。

获取单元801可获取待测音频信号。在音频处理模型训练完成后，可将音频处理模型投入实际的应用场景进行使用。可通过运行音频处理模型，从待测音频信号，获得最终的期望信号。

处理单元802可基于待测音频信号，利用使用根据本公开的训练方法(如参照图3所描述的训练方法)训练好的音频处理模型，获得最终的期望信号。

根据本公开的示例性实施例，处理单元802可对待测音频信号进行时频变换(例如，短时傅立叶变换(STFT))，获得待测音频信号的幅度谱信号和相位谱信号；将待测音频信号的幅度谱信号输入音频处理模型，获得估计的掩膜比；将待测音频信号的幅度谱信号与估计的掩膜比相乘，获得估计的幅度谱信号；将估计的幅度谱信号与待测音频信号的相位谱信号结合，再经过时频逆变换(例如，短时傅立叶逆变换(ISTFT))，获得期望音频信号。

图9是根据本公开的示例性实施例的电子设备900的框图。

参照图9，电子设备900包括至少一个存储器901和至少一个处理器902，所述至少一个存储器901中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器902执行时，执行根据本公开的示例性实施例的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。

作为示例，电子设备900可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备900并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备900还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备900中，处理器902可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器902可运行存储在存储器901中的指令或代码，其中，存储器901还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器901可与处理器902集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器901可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器901和处理器902可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器902能够读取存储在存储器中的文件。

此外，电子设备900还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备900的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的产生混响音频信号的方法或音频处理模型的训练方法或音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种产生混响音频信号的方法，其特征在于，包括：

将纯净音频信号与房间冲击响应进行卷积，产生混合后的第一混响音频信号；

在卷积时降低预定分贝的混响时间小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号；

2.如权利要求1所述的方法，其特征在于，所述降低预定分贝的混响时间为降低60dB的混响时间(RT60)。

3.如权利要求1所述的方法，其特征在于，所述预定阈值为50毫秒。

4.一种音频处理模型的训练方法，其特征在于，所述训练方法包括：

获取音频样本数据集合，其中，每个音频样本数据包括混响音频信号和带噪音频信号，其中，所述混响音频信号是通过将纯净音频信号与房间冲击响应进行卷积而获得的，所述带噪音频信号是通过将所述混响音频信号与噪声信号混合而获得的；

根据每个音频样本数据中的所述混响音频信号和所述带噪音频信号，确定所述混响音频信号和所述带噪音频信号的信噪比和掩膜比，其中，所述掩膜比是基于所述混响音频信号产生的目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值；

根据所述信噪比调整所述掩膜比以获得目标掩膜比；

将所述带噪音频信号的幅度谱信号输入所述音频处理模型，得到估计的掩膜比；

根据所述估计的掩膜比和所述目标掩膜比确定损失函数；

根据确定的损失函数对所述音频处理模型进行训练。

5.一种音频处理方法，其特征在于，包括：

获取待测音频信号；

基于所述待测音频信号，利用使用如权利要求4所述的训练方法训练好的音频处理模型，获得期望音频信号。

6.一种产生混响音频信号的装置，其特征在于，包括：

第一混响单元，被配置为：将纯净音频信号与房间冲击响应进行卷积，产生混合后的第一混响音频信号；

第二混响单元，被配置为：在卷积时降低预定分贝的混响时间小于或等于预定阈值的情况下，将第一混响音频信号确定为最终的混响音频信号，

7.一种音频处理模型的训练装置，其特征在于，所述训练装置包括：

获取单元，被配置为：获取音频样本数据集合，其中，每个音频样本数据包括混响音频信号和带噪音频信号，其中，所述混响音频信号是通过将纯净音频信号与房间冲击响应进行卷积而获得的，所述带噪音频信号是通过将所述混响音频信号与噪声信号混合而获得的；

确定单元，被配置为：根据每个音频样本数据中的所述混响音频信号和所述带噪音频信号，确定所述混响音频信号和所述带噪音频信号的信噪比和掩膜比，其中，所述掩膜比是基于所述混响音频信号产生的目标音频信号的幅度谱信号和所述带噪音频信号的幅度谱信号的比值；

调整单元，被配置为：根据所述信噪比调整所述掩膜比以获得目标掩膜比；

估计单元，被配置为：将所述带噪音频信号的幅度谱信号输入所述音频处理模型，得到估计的掩膜比；

训练单元，被配置为：根据所述估计的掩膜比和所述目标掩膜比确定损失函数，并根据确定的损失函数对所述音频处理模型进行训练。

8.一种音频处理装置，其特征在于，包括：

获取单元，被配置为：获取待测音频信号；

处理单元，被配置为：基于所述待测音频信号，利用使用如权利要求4所述的训练方法训练好的音频处理模型，获得期望音频信号。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的产生混响音频信号的方法或如权利要求4所述的音频处理模型的训练方法或如权利要求5所述的音频处理方法。

10.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的产生混响音频信号的方法或如权利要求4所述的音频处理模型的训练方法或如权利要求5所述的音频处理方法。