CN114299977A

CN114299977A - 混响语音的处理方法、装置、电子设备及存储介质

Info

Publication number: CN114299977A
Application number: CN202111443983.2A
Authority: CN
Inventors: 卿睿; 张国昌; 于利标; 魏建强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-08
Anticipated expiration: 2041-11-30
Also published as: CN114299977B

Abstract

本公开提供一种混响语音的处理方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及语音技术、深度学习等人工智能技术领域。包括：获取原语音数据；将原语音数据进行延时，生成第一参考语音数据；将原语音数据及第一参考语音数据进行子带分解，获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，第一参考语音数据对应的第二复数信号；根据第一复数信号及第二复数信号，确定原语音数据对应的第一幅度掩摸；将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，获取去混响后的语音数据。由此，根据第一幅度掩膜，增强第一幅度谱中语音的幅度，减弱混响的幅度，从而有效地去除了语音数据中包含的混响，使语音数据更加清晰。

Description

混响语音的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音技术、深度学习等人工智能技术领域，具体涉及一种混响语音的处理方法、装置、电子设备及存储介质。

背景技术

在实际应用中，声源往往是向四面八方辐射声音的，因此，声波在室内传播时，可能会经过墙壁、地板、天花板等的反射。声音在空间内经过无数次反射后形成的一种无序的状态，被称之为混响。过多的混响会导致语音数据不清晰。因此，如何有效地去除语音数据的混响成为重点的研究方向。

发明内容

本公开提供了一种混响语音的处理方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种混响语音的处理方法，包括：

获取麦克风阵列采集的原语音数据；

将所述原语音数据进行延时处理，以生成第一参考语音数据；

将所述原语音数据及所述第一参考语音数据分别进行子带分解，以获取所述原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及所述第一参考语音数据对应的第二复数信号；

根据所述第一复数信号及所述第二复数信号，确定所述原语音数据对应的第一幅度掩摸；

将所述第一幅度掩摸、所述第一幅度谱及所述第一相位谱进行子带合成，以获取去混响后的语音数据。

根据本公开的第二方面，提供了一种混响语音的处理装置，包括：

第一获取模块，用于获取麦克风阵列采集的原语音数据；

处理模块，用于将所述原语音数据进行延时处理，以生成第一参考语音数据；

第二获取模块，用于将所述原语音数据及所述第一参考语音数据分别进行子带分解，以获取所述原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及所述第一参考语音数据对应的第二复数信号；

第一确定单元，用于根据所述第一复数信号及所述第二复数信号，确定所述原语音数据对应的第一幅度掩摸；

第三获取模块，用于将所述第一幅度掩摸、所述第一幅度谱及所述第一相位谱进行子带合成，以获取去混响后的语音数据。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的混响语音的处理方法。

根据本公开第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的混响语音的处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实现如第一方面所述的混响语音的处理方法的步骤。

本公开提供的混响语音的处理方法、装置、电子设备及存储介质，存在如下有益效果：

本公开实施例中，先获取麦克风阵列采集的原语音数据，之后将原语音数据进行延时处理，以生成第一参考语音数据，再将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号，最后根据第一复数信号及第二复数信号，确定原语音数据对应的第一幅度掩摸，将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。由此，通过原语音数据及第一参考语音数据之间的相关性，获取原语音数据对应的第一幅度掩摸，进而根据第一幅度掩摸，增强第一幅度谱中语音的幅度，减弱混响的幅度，从而有效地去除了语音数据中包含的混响，使语音数据更加清晰。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例提供的一种混响语音的处理方法的流程示意图；

图2是根据本公开又一实施例提供的一种混响语音的处理方法的流程示意图；

图3是根据本公开一实施例提供的去混响后的语音数据的效果图；

图4是根据本公开又一实施例提供的一种混响语音的处理方法的流程示意图；

图5是根据本公开又一实施例提供的一种混响语音的处理方法的流程示意图；

图6是根据本公开一实施例提供的一种混响语音的处理装置的结构示意图；

图7是用来实现本公开实施例的混响语音的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例涉及计算机视觉、深度学习等人工智能技术领域。

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

语音技术在计算机领域中的关键技术有自动语音识别技术(Automatic SpeechRecognition，ASR)和语音合成技术(Text To Speech，TTS)。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

其中，需要说明的是，本实施例的混响语音的处理方法的执行主体为混响语音的处理装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

如图1所示，该混响语音的处理方法包括：

S101：获取麦克风阵列采集的原语音数据。

其中，麦克风陈列可以由一定数目的声学传感器组成，用来对声场的空间特性进行采样并处理的系统。麦克风陈列可以实时采集语音数据。

可以理解的是，声源往往是向四面八方辐射声音的。因此，麦克风陈列采集的原语音数据可能包含经过墙壁、地板或天花板反射后的混响语音，此外，原语音数据中可能还包含环境中的噪声、回声等，本公开对此不做限定。

其中，原语音数据可以表示为：

y(t)＝s(t)+r(t)+n(t)+e(t)

其中，y(t)为原语音数据，s(t)为纯净语音，r(t)为混响语音，n(t)为噪声，e(t)为回声。

S102：将原语音数据进行延时处理，以生成第一参考语音数据。

可以理解的是，当前时刻语音数据中包含的混响可能是之前的直达声产生的，因此，本公开中，可以对原语音数据进行延时处理，以生成第一参考语音数据，作为参考混响，进而对第一参考语音信号及原语音信号进行处理，以获取原语音数据对应的第一幅度掩摸，从而使获取的去混响后的语音数据更加清晰。

其中，直达声可以为麦克风阵列采集的不经过反射的语音数据。

举例来说，可以将原语音数据延时300毫秒(ms)、500ms等等，本公开对此不作限定。

S103：将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号。

需要说明的是，本公开实施例中可以采取任何可取的方式对原语音数据及第一参考语音数据进行子带分解。比如，可以通过短时傅里叶变换对原语音数据进行子带分解，得到原语音数据对应频域的第一复数信号；通过短时傅里叶变换对第一参考语音数据进行子带分解，得到第二复数信号。本公开对此不做限定。

可以理解的是，对原语音数据进行子带分解后，可以得到原语音数据对应的频域的第一复数信号。频域的第一复数信号可以用幅度和相位的形式进行表示，因此可以进一步获取原语音数据在频域对应的第一幅度谱、及第一相位谱。

S104：根据第一复数信号及第二复数信号，确定原语音数据对应的第一幅度掩摸。

其中，第一幅度掩膜可以反映原语音音频在任一频点为语音的概率。因此，第一幅度掩膜也可以理解为原语音音频对应的第一幅度谱在任一频点对应的权重，本公开对此不做限定。

可选的，将第一复数信号及第二复数信号输入预设的幅度掩摸生成模型，以获取原语音数据对应的第一幅度掩摸。

可以理解的是，通过将第一复数信号及第二复数信号输入预先训练好的幅度掩摸生成模型，获取原语音数据对应的第一幅度掩摸，从而不仅可以简化第一幅度掩膜的获取逻辑，有效地提升获取第一幅度掩膜的效率，而且可以提高获取的第一幅度掩摸的准确性。

或者，也可以对大量样本语音数据对应的样本第一复数信号及对应的样本第二复数信号进行统计分析，以确定每个样本语音数据对应的参考幅度掩膜，之后获取与第一复数信号及第二复数相似度最高的样本第一复数信号及样本第二复数信号，并将其对应的参考幅度掩膜作为原语音数据对应的第一幅度掩摸。

S105：将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。

可选的，在确定原语音数据对应的第一幅度掩膜之后，可以将第一幅度掩膜与第一幅度谱相乘，以获取增强后的幅度谱，进而将增强后的幅度谱与第一相位谱进行子带合成，获取去混响后的语音数据。

可以理解的是，第一幅度掩膜的值越大，则原语音数据为语音的概率越大，第一幅度掩膜的值越小，则原语音数据为混响的概率越大，从而将第一幅度掩摸与第一幅度谱相乘，以增强第一幅度谱中语音的幅度，减弱混响的幅度，进而实现去除原语音数据中的混响的效果，使语音数据更加清晰。

图2是根据本公开一实施例提供的一种混响语音的处理方法的流程示意图。如图2所示，该混响语音的处理方法包括：

S201：获取麦克风阵列采集的原语音数据。

其中，步骤201的具体实现形式，可参照本公开其他各实施例中的详细描述，此处不再详细赘述。

S202：基于训练生成的延时参数，将原语音数据进行延时处理，以生成第一参考语音数据。

其中，延时参数可以是在训练幅度掩摸生成模型时，同时训练获取的。也可以是单独训练获取的，本公开对此不做限定。

可以理解的是，通过训练生成的延时参数，将原语音数据进行延时处理，可以提高获取的第一参考语音数据的准确度。

S203：将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号。

其中，步骤203的具体实现形式，可参照本公开其他各实施例中的详细描述，此处不再详细赘述。

S204：将第一复数信号及第二复数信号分别输入幅度掩摸生成模型中的第一复数卷积网络及第二复数卷积网络，以获取第一复数信号对应的第二幅度谱及第二复数信号对应的第三幅度谱。

可选的，幅度掩摸生成模型中可以包括第一复数卷积网络、第二复数卷积网络、实数卷积网络、及循环神经网络等。因此，在获取原语音数据对应的第一复数信号、及第一参考语音数据对应的第二复数信号之后，可以先分别将第一复数信号输入第一复数卷积网络中，得到第一复数信号对应的第二幅度谱；将第二复数信号输入第二复数卷积网络，得到第二复数信号对应的第三幅度谱。

需要说明的是，第一复数卷积网络及第二复数卷积网络的网络参数可以相同，也可以不同，本公开对此不做限定。

可以理解的是，将第一复数信号及第二复数信号分别输入第一复数卷积网络及第二复数卷积网络中，可以引入相位信息。

可选的，在获取第二幅度谱及第三幅度谱之后，可以对第二幅度谱及第三幅度谱取对数log，以压缩第二幅度谱及第三幅度谱的动态范围；之后可以对压缩后的第二幅度谱及第三幅度谱进行归一化处理，以提高幅度掩摸生成模型的收敛性。

S205：将第二幅度谱及第三幅度谱输入幅度掩摸生成模型中的实数卷积网络，以获取原语音数据与第一参考语音数据在至少一个频段的幅度特征。

其中，实数卷积网络可以包含多个卷积层，本公开对卷积网络的层数不做限定。

可选的，将第二幅度谱及第三幅度谱输入实数卷积网络之后，实数卷积网络会对第二幅度谱及第三幅度谱进行特征压缩，进而可以根据语音数据中高频、中频、低频之间的特征差异，将压缩后的幅度特征分为高频、中频、低频三组，最后输出原语音数据与第一参考语音数据在高频、中频、低频的幅度特征。

S206：将至少一个频段的幅度特征，输入幅度掩摸生成模型中的循环神经网络，以获取至少一个频段对应的第一幅度掩摸。

可选的，在获取原语音数据与第一参考语音数据在至少一个频段的幅度特征之后，也可以将至少一个频段中每个频段的幅度特征，分别输入对应的循环神经网络，以获取每个频段对应的第一幅度掩摸。

可选的，循环神经网络中可以包含GRU网络(Gated Recurrent Unit)、多层门控网络。

需要说明的是，若将压缩后的幅度特征分为高频、中频、低频三组，则高频频段对应的循环神经网络中的GRU网络中的各个频点共享参数，中频频段对应的循环神经网络中的GRU网络中的各个频点共享参数，低频频段对应的循环神经网络中的GRU网络中的各个频点共享参数。且高频频段、中频频段、低频频段分别对应的GRU网络之间的参数相互独立。由此，可以降低计算量，提高获取每个频段对应的第一幅度掩摸的效率。

本公开实施例中，可以先将至少一个频段中每个频段的幅度特征输入对应的GRU网络中，之后将每个GRU网络输出的每个频段对应的压缩特征输入多层门组网络中，由多层门组网络对压缩后的特征进行还原恢复，之后将还原后的特征输入全连接层，由全连接层对还原后的特征进行特征映射，并通过激活函数(比如，S型函数(Sigmoid函数))输出(0,1)区间内的至少一个频段中每个频段对应的第一幅度掩摸。

S207：将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。

其中，步骤207的具体实现形式，可参照本公开其他各实施例中的详细描述，此处不再详细赘述。

图3是根据本公开一实施例提供的去混响后的语音数据的效果图，如图3所示，(1)是采用现有技术对包含混响的语音数据去混响后的语音数据，(2)是使用本公开提供的混响语音的处理方法得到的去混响后语音数据。(1)与(2)相比，(2)中的混响得到了明显的抑制，语音频谱也更清晰。

本公开实施例中，首先获取麦克风阵列采集的原语音数据，之后基于训练生成的延时参数，将原语音数据进行延时处理，以生成第一参考语音数据，将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号，再将第一复数信号及第二复数信号输入幅度掩摸生成模型中，以获取至少一个频段对应的第一幅度掩摸，最后将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。由此，通过将原语音数据对应的第一复数信号及第二复数信号对应的第一参考语音数据输入幅度掩摸生成模型中，以获取第一幅度掩摸，从而使获取的第一幅度掩摸更加准确，进而根据第一幅度掩摸，更好地去除了语音数据中包含的混响，进一步提高了语音数据的清晰度。

通过上述分析可知，本公开可以将第一复数信号及第二复数信号输入预设的幅度掩摸生成模型，以获取原语音数据对应的第一幅度掩摸。下面结合图4对幅度掩摸生成模型的训练过程进行详细说明。

图4是根据本公开又一实施例提供的一种混响语音的处理方法的流程示意图。如图4所示，该混响语音的处理方法包括：

S401：获取训练数据集，其中，训练数据集中包括训练语音数据及对应的标注的去混响后的语音数据。

其中，训练数据集中包含大量的训练语音数据，及对应的标注的去混响后的语音数据。其中，大量的训练语音数据可以通过为从网络上获取的语音数据，也可以为语音采集设备采集的语音数据。本公开对此不做限定。

其中，训练语音数据中可以包括混响、噪声、回声等等，本公开对此不做限定。

可以理解的是，由于一定的混响可以对声音进行修饰，使声音听起来更舒适、自然，但是过大的混响会导致语音数据中直达声的内容不清晰。因此，本公开在训练幅度掩摸生成模型的过程中，训练语音数据对应的标注的去混响后的语音数据中可以包含训练语音数据中包含的直达声及预设时间段内的早期反射语音数据。

其中，预设的时间段可以为50ms、49ms等等，本公开对此不做限定。

S402：基于初始延时参数，将训练语音数据进行延时处理，以生成第二参考语音数据。

其中，初始延时参数可以为在对初始幅度掩摸生成模型训练之前，预设延时参数。

可以理解的是，对训练语音数据进行延时处理，可以模拟混响，从而提高幅度掩摸生成模型的鲁棒性，进而提高了使用幅度掩摸生成模型获取第一幅度掩摸的准确性。

S403：将训练语音数据及第二参考语音数据分别进行子带分解，以获取训练语音数据对应的第三复数信号、第四幅度谱、第二相位谱，及第二参考语音数据对应的第四复数信号。

需要说明的是，本公开实施例中可以采取任何可取的方式对训练语音数据及第二参考语音数据进行子带分解。比如，可以通过短时傅里叶变换对训练语音数据进行子带分解，得到训练语音数据对应频域的第三复数信号；通过短时傅里叶变换对第二参考语音数据进行子带分解，得到第四复数信号。本公开对此不做限定。

可以理解的是，对训练语音数据进行子带分解后，可以得到训练语音数据对应的频域的第三复数信号。频域的第三复数信号可以用幅度和相位的形式进行表示，因此可以进一步获取训练语音数据在频域对应的第四幅度谱、及第二相位谱。

S404：将第三复数信号及第四复数信号输入初始幅度掩摸生成模型，以获取训练语音数据对应的第二幅度掩摸。

S405：将第二幅度掩摸、第四幅度谱及第二相位谱进行子带合成，以获取预测的去混响后的语音数据。

可以理解的是，在通过初始幅度掩摸生成模型获取训练语音数据对应的第二幅度掩摸之后，可以将第二幅度掩摸与第四幅度谱相乘，以增强语音的幅度，减弱混响的幅度，进而实现去除训练语音数据中的混响的效果，使得到的预测的去混响后的语音数据更加清晰。

S406：根据预测的去混响后的语音数据与标注的去混响后的语音数据间的差异，对初始时延参数及初始幅度掩摸生成模型进行修正，以生成时延参数及幅度掩摸生成模型。

可选的，初始幅度掩摸生成模型中可以包括初始第一复数卷积网络、初始第二复数卷积网络、初始实数卷积网络、及初始循环神经网络等。因此，对初始幅度掩摸生成模型进行修正，可以包括对初始第一复数卷积网络、初始第二复数卷积网络、初始实数卷积网络、及初始循环神经网络分别对应的网络参数进行修正。

可以理解的是，根据预测的去混响后的语音数据与标注的去混响后的语音数据间的差异，对初始时延参数及初始幅度掩摸生成模型进行修正，可以提高幅度掩摸生成模型的鲁棒性，进而提高了使用幅度掩摸生成模型获取第一幅度掩摸的准确性。

可以理解的是，训练数据集中包含大量的训练语音数据，及对应的标注的去混响后的语音数据，因此，通过大量的训练数据对幅度掩摸生成模型进行训练，可以提高幅度掩摸生成模型的收敛性及鲁棒性。

本公开实施例中，首先获取训练数据集，之后基于初始延时参数，将训练语音数据进行延时处理，以生成第二参考语音数据，将训练语音数据及第二参考语音数据分别进行子带分解，以获取训练语音数据对应的第三复数信号、第四幅度谱、第二相位谱，及第二参考语音数据对应的第四复数信号，再将第三复数信号及第四复数信号输入初始幅度掩摸生成模型，以获取训练语音数据对应的第二幅度掩摸，将第二幅度掩摸、第四幅度谱及第二相位谱进行子带合成，以获取预测的去混响后的语音数据，最后根据预测的去混响后的语音数据与标注的去混响后的语音数据间的差异，对初始时延参数及初始幅度掩摸生成模型进行修正，以生成时延参数及幅度掩摸生成模型。由此，根据训练数据集，训练幅度掩摸生成模型，从而为根据幅度掩摸生成模型，获取原语音数据对应的第一幅度掩摸提供了条件。

本公开实施例中，如图5所示，图5是根据本公开又一实施例提供的一种混响语音的处理方法的流程示意图。在获取麦克风阵列采集的原语音数据之后，可以将原语音数据进行延时，以得到第一参考语音数据；将原语音数据及第一参考语音数据分别进行子带分解，得到原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号；之后将第一复数信号输入第一复数卷积网络，以得到第一复数信号对应的第二幅度谱，将第二复数信号输入第二复数卷积网络，以得到第二复数信号对应的第三幅度谱；之后将第二幅度谱及第三幅度谱输入实数卷积网络，由实数卷积网络对第二幅度谱及第三幅度谱进行特征压缩，并将压缩后的特征，划分为低频特征、中频特征、高频特征，将低频特征、中频特征、高频特征分别输入第一GRU、第二GRU及第三GRU进行训练，之后将第一GRU、第二GRU及第三GRU输出的压缩特征输入多层门组网络中，由多层门组网络对压缩后的特征进行还原恢复，之后将还原后的特征输入全连接层，由全连接层对还原后的特征进行特征映射，输出对应的第一幅度掩摸，最后将第一幅度掩膜与第一幅度谱相乘，得到增强后的幅度谱，将增强后的幅度谱与第一相位谱进行子带合成，得到去混响后的语音数据。

图6是根据本公开一实施例提供的一种混响语音的处理装置的结构示意图。如图6所示，该混响语音的处理装置600，包括：

第一获取模块610，用于获取麦克风阵列采集的原语音数据；

处理模块620，用于将原语音数据进行延时处理，以生成第一参考语音数据；

第二获取模块630，用于将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号；

第一确定单元640，用于根据第一复数信号及第二复数信号，确定原语音数据对应的第一幅度掩摸；

第三获取模块650，用于将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。

可选的，处理模块620，具体用于：

基于训练生成的延时参数，将原语音数据进行延时处理，以生成第一参考语音数据。

可选的，第二获取模块630，包括：

第一获取单元，用于将第一复数信号及第二复数信号输入预设的幅度掩摸生成模型，以获取原语音数据对应的第一幅度掩摸。

可选的，第一获取单元，具体用于：

将第一复数信号及第二复数信号分别输入幅度掩摸生成模型中的第一复数卷积网络及第二复数卷积网络，以获取第一复数信号对应的第二幅度谱及第二复数信号对应的第三幅度谱；

将第二幅度谱及第三幅度谱输入幅度掩摸生成模型中的实数卷积网络，以获取原语音数据与第一参考语音数据在至少一个频段的幅度特征；

将至少一个频段的幅度特征，输入幅度掩摸生成模型中的循环神经网络，以获取至少一个频段对应的第一幅度掩摸。

可选的，第一获取单元，还用于：

将至少一个频段中每个频段的幅度特征，分别输入对应的循环神经网络，以获取每个频段对应的第一幅度掩摸。

可选的，还包括生成模块，具体用于：

获取训练数据集，其中，训练数据集中包括训练语音数据及对应的标注的去混响后的语音数据；

基于初始延时参数，将训练语音数据进行延时处理，以生成第二参考语音数据；

将训练语音数据及第二参考语音数据分别进行子带分解，以获取训练语音数据对应的第三复数信号、第四幅度谱、第二相位谱，及第二参考语音数据对应的第四复数信号；

将第三复数信号及第四复数信号输入初始幅度掩摸生成模型，以获取训练语音数据对应的第二幅度掩摸；

将第二幅度掩摸、第四幅度谱及第二相位谱进行子带合成，以获取预测的去混响后的语音数据；

根据预测的去混响后的语音数据与标注的去混响后的语音数据间的差异，对初始时延参数及初始幅度掩摸生成模型进行修正，以生成时延参数及幅度掩摸生成模型。

需要说明的是，前述对混响语音的处理方法的解释说明也适用于本实施例的混响语音的处理装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如混响语音的处理方法。例如，在一些实施例中，混响语音的处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的混响语音的处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行混响语音的处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

本实施例中，先获取麦克风阵列采集的原语音数据，之后将原语音数据进行延时处理，以生成第一参考语音数据，再将原语音数据及第一参考语音数据分别进行子带分解，以获取原语音数据对应的第一复数信号、第一幅度谱、第一相位谱，及第一参考语音数据对应的第二复数信号，最后根据第一复数信号及第二复数信号，确定原语音数据对应的第一幅度掩摸，将第一幅度掩摸、第一幅度谱及第一相位谱进行子带合成，以获取去混响后的语音数据。由此，通过原语音数据及第一参考语音数据之间的相关性，获取原语音数据对应的第一幅度掩摸，进而根据第一幅度掩摸，增强第一幅度谱中语音的幅度，减弱混响的幅度，从而有效地去除了语音数据中包含的混响，使语音数据更加清晰。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。在本公开的描述中，所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“在……情况下”。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种混响语音的处理方法，包括：

获取麦克风阵列采集的原语音数据；

2.如权利要求1所述的方法，其中，所述将所述原语音数据进行延时处理，以生成第一参考语音数据，包括：

基于训练生成的延时参数，将所述原语音数据进行延时处理，以生成第一参考语音数据。

3.如权利要求1或2所述的方法，其中，所述根据所述第一复数信号及所述第二复数信号，确定所述原语音数据对应的第一幅度掩摸，包括：

将所述第一复数信号及所述第二复数信号输入预设的幅度掩摸生成模型，以获取所述原语音数据对应的第一幅度掩摸。

4.如权利要求3所述的方法，其中，所述将所述第一复数信号及所述第二复数信号输入预设的幅度掩摸生成模型，以获取所述原语音数据对应的第一幅度掩摸，包括：

将所述第一复数信号及所述第二复数信号分别输入所述幅度掩摸生成模型中的第一复数卷积网络及第二复数卷积网络，以获取第一复数信号对应的第二幅度谱及第二复数信号对应的第三幅度谱；

将所述第二幅度谱及第三幅度谱输入所述幅度掩摸生成模型中的实数卷积网络，以获取所述原语音数据与所述第一参考语音数据在至少一个频段的幅度特征；

将所述至少一个频段的幅度特征，输入所述幅度掩摸生成模型中的循环神经网络，以获取所述至少一个频段对应的第一幅度掩摸。

5.如权利要求4所述的方法，其中，所述将所述至少一个频段的幅度特征，输入所述幅度掩摸生成模型中的循环神经网络，以获取所述至少一个频段对应的第一幅度掩摸，包括：

将所述至少一个频段中每个频段的幅度特征，分别输入对应的循环神经网络，以获取所述每个频段对应的第一幅度掩摸。

6.如权利要求3所述的方法，其中，在所述将所述第一复数信号及所述第二复数信号输入预设的幅度掩摸生成模型，以获取所述原语音数据对应的第一幅度掩摸之前，还包括：

获取训练数据集，其中，所述训练数据集中包括训练语音数据及对应的标注的去混响后的语音数据；

基于初始延时参数，将所述训练语音数据进行延时处理，以生成第二参考语音数据；

将所述训练语音数据及所述第二参考语音数据分别进行子带分解，以获取所述训练语音数据对应的第三复数信号、第四幅度谱、第二相位谱，及所述第二参考语音数据对应的第四复数信号；

将所述第三复数信号及所述第四复数信号输入初始幅度掩摸生成模型，以获取所述训练语音数据对应的第二幅度掩摸；

将所述第二幅度掩摸、所述第四幅度谱及所述第二相位谱进行子带合成，以获取预测的去混响后的语音数据；

根据所述预测的去混响后的语音数据与标注的去混响后的语音数据间的差异，对所述初始时延参数及所述初始幅度掩摸生成模型进行修正，以生成所述时延参数及所述幅度掩摸生成模型。

7.一种混响语音的处理装置，包括：

第一获取模块，用于获取麦克风阵列采集的原语音数据；

确定单元，用于根据所述第一复数信号及所述第二复数信号，确定所述原语音数据对应的第一幅度掩摸；

8.如权利要求7所述的装置，其中，所述处理模块，具体用于：

9.如权利要求7或8所述的装置，其中，所述第二获取模块，包括：

第一获取单元，用于将所述第一复数信号及所述第二复数信号输入预设的幅度掩摸生成模型，以获取所述原语音数据对应的第一幅度掩摸。

10.如权利要求9所述的装置，其中，所述第一获取单元，具体用于：

11.如权利要求10所述的装置，其中，所述第一获取单元，还用于：

12.如权利要求9所述的装置，其中，还包括生成模块，具体用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。