CN113903355B

CN113903355B - 语音获取方法、装置、电子设备及存储介质

Info

Publication number: CN113903355B
Application number: CN202111496026.6A
Authority: CN
Inventors: 智鹏鹏; 陈昌滨
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-01
Anticipated expiration: 2041-12-09
Also published as: CN113903355A

Abstract

本公开提供一种语音获取方法、装置、电子设备及存储介质，该语音获取方法包括：根据混合信号的幅度信息执行分离处理，获得语音分离掩膜；根据所述语音分离掩膜、所述混合信号的所述幅度信息和相位信息，获得语音耦合数据；针对所述语音耦合数据执行增强处理，获得语音增强掩膜；以及根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。据此，可以提高语音获取效果。

Description

语音获取方法、装置、电子设备及存储介质

技术领域

本公开涉及音频数据处理技术领域，尤其涉及一种语音获取方法、装置、电子设备和存储介质。

背景技术

语音增强是指利用音频信号处理技术及各种算法提高失真语音信号的可懂度或整体感知质量，从而进一步在语音识别、语音通话、听力辅助以及声纹识别等场景中改善应用效果。

以教学应用场景为例，在很多情况下，由于无法保证录音环境的绝对安静，导致所获取的教学音频不可避免地会受到一些环境噪声和背景音的干扰，并导致了教学质量的降低，因此，需要针对教学音频进行增强处理，以去除背景音和噪音。

然而，由于音频数据中的背景音通常是非平稳的信号，并且具有谐波结构，因此，会给语音分离和增强处理作业带来较大困难。

有鉴于此，亟需一种可提供更佳语音分离效果的语音获取技术方案。

发明内容

有鉴于此，本公开实施例所解决的技术问题之一在于提供一种可提高语音获取质量的语音获取方法、装置、电子设备及存储介质，以至少部分的解决上述问题。

根据本公开的第一方面，提供了一种语音获取方法，其包括：根据混合信号的幅度信息执行分离处理，获得语音分离掩膜；根据所述语音分离掩膜、所述混合信号的所述幅度信息和相位信息，获得语音耦合数据；针对所述语音耦合数据执行增强处理，获得语音增强掩膜；以及根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。

根据本公开的第二方面，提供了一种语音获取装置，其包括：语音分离模块，用于根据混合信号的幅度信息执行分离处理，获得语音分离掩膜；耦合模块，用于根据所述语音分离掩膜、所述混合信号的所述幅度信息和相位信息，获得语音耦合数据；语音增强模块，用于针对所述语音耦合数据执行增强处理，获得语音增强掩膜；转换模块，用于根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。

根据本公开的第三方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行如第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如第一方面所述的方法。

综上所述，本公开各实施例提供的语音获取方法、装置、电子设备及存储介质，针对混合信号执行分离处理，以分离出混合信号中的语音部分，再执行语音增强处理，以针对所分离出的语音部分进行降噪处理，借以提高语音信号的获取效果。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本公开实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比值绘制的。附图中：

图1示出了本公开第一实施例的语音获取方法的流程示意图。

图2示出了本公开第二实施例的语音获取方法的流程示意图。

图3示出了本公开第二实施例的语音分离模型的结构示意图。

图4示出了本公开第三实施例的语音获取方法的流程示意图。

图5示出了本公开第四实施例的语音获取方法的流程示意图。

图6示出了本公开第四实施例的复数语音增强模型的结构示意图。

图7示出了本公开第四实施例的复数语音增强模型中的实部信息和虚部信息的信息交换示意图。

图8示出了本公开第五实施例的语音获取方法的流程示意图。

图9示出了本公开第六实施例的语音获取方法的流程示意图。

图10示出了本公开第八实施例的语音获取装置的架构示意图。

图11示出了本公开第九实施例的电子设备的架构示意图。

具体实施方式

为了使本领域的人员更好地理解本公开实施例中的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本公开实施例一部分实施例，而不是全部的实施例。基于本公开实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本公开实施例保护的范围。

有鉴于前述背景技术部分所述的技术问题，本公开提出一种语音获取方法、装置及计算机存储介质，可以获得较佳的语音增强技术效果。下面将结合本公开各实施例附图进一步说明本公开各实施例的具体实现。

第一实施例

图1示出了本公开第一实施例的语音获取方法的流程示意图。如图所示，本实施例的语音获取方法主要包括以下步骤：

步骤S102，根据混合信号的幅度信息执行分离处理，获得语音分离掩膜。

可选地，混合信号可通过针对混合音源执行分帧处理后所获取。

可选地，混合音源可包括在嘈杂教育场景下录制的教学音频，各混合信号中可包括有语音信号和非语音信号（例如环境噪音、背景音等）。

需说明的是，混合音源亦可包括在公共场所等各类嘈杂环境下获取的音源数据，本公开对此不作限制。

可选地，可针对混合信号执行傅里叶变换，以获取混合信号的幅度信息。

可选地，可利用预建的语音分离模型根据混合信号的幅度信息，针对混合信号中的语音部分和非语音部分执行分离处理，以获取混合信号中对应于语音部分的语音掩膜和对应于非语音部分的非语音掩膜。

可选地，语音分离模型可包括循环神经网络（Recurrent Neural Network, RNN）。

可选地，语音分离模型可包括依序连接的三层长短时记忆层以及连接最后一层长短时记忆层的全连接层（关于语音分离模型的具体结构，请容后在第二实施例中予以详述）。

步骤S104，根据语音分离掩膜、混合信号的幅度信息和相位信息，获得语音耦合数据。

可选地，可针对混合信号执行傅里叶变换，以获取混合信号的相位信息。

可选地，语音耦合数据包括具有幅度信息和相位信息的语音复数谱。

步骤S106，针对语音耦合数据执行增强处理，获得语音增强掩膜。

可选地，可利用复数语音增强模型针对语音耦合数据执行增强预测，以去除语音耦合数据中残留的背景音和噪声，获取降噪的语音增强掩膜。

可选地，复数语音增强模型可包括有编码器、解码器，介于编码器和解码器之间的瓶颈层。

其中，语音增强模型中的编码器与解码器为对称结构设计，编码器用于针对语音耦合数据执行编码处理，解码器则针对编码器的编码结果执行解码处理，瓶颈层用于在编码器和解码器之间建立上下文信息，以提高语音增强模型输出结果的准确性（关于语音增强模型的具体结构，请容后在第四实施例中予以详述）。

步骤S108，根据语音增强掩膜和语音分离掩膜，获得语音信号。

可选地，可根据语音增强模型输出的语音增强掩膜和由语音分离模型输出的语音分离掩膜进行点乘处理和傅里叶逆变换处理，以获得语音信号。

综上所述，本公开实施例的语音获取方法，首先针对混合信号执行分离处理，以准确地分离出混合信号中的语音与背景音，并通过在语音分离模型的后端引入语音增强模型，以针对分离出的语音部分中残留的背景音和噪音进行进一步的降噪处理，并通过融合语音分离模型输出的语音分离掩膜与语音增强模型输出的语音增强掩膜，以获取具有较佳质量的语音信号。

第二实施例

图2为本公开第二实施例的语音获取方法的流程示意图。本实施例示出了上述步骤S102的具体实施方案。如图所示，本实施例主要包括以下步骤：

步骤S202，针对混合信号执行傅里叶变换，获得混合信号的幅度信息。

可选地，可针对混合信号执行短时傅里叶变换（STFT），以获得混合信号的幅度信息。

可选地，还可基于所述短时傅里叶变换，同时获得混合信号的相位信息，以供后续生成语音耦合数据时使用（即步骤S404）。

步骤S204，利用语音分离模型根据混合信号的幅度信息执行语音分离预测，获得语音分离掩膜和非语音分离掩膜。

于本实施例中，可利用语音分离模型根据混合信号的幅度信息，针对混合信号中的语音部分和非语音部分（例如噪音、背景音部分）执行分离预测，获得对应于语音部分的语音分离掩膜和对应于非语音部分的非语音分离掩膜。

可选地，语音分离模型可采用循环神经网络。

于本实施例中，语音分离模型可包括三层长短时记忆层以及一层全连接层，其中，各长短时记忆层各自包括有256个长短时记忆神经元。

具体地，请配合参考图3，本实施例的语音分离模型可包括依次连接的三层长短时记忆层（即长短时记忆层1、长短时记忆层2、长短时记忆层3），以及连接最后一层长短时记忆层（即长短时记忆层3）的全连接层。

其中，每一层长短时记忆层（LSTM层）中分别包含有256个神经元。

可选地，可在各长短时记忆层各自的隐藏层中设置256个长短时记忆（LSTM）神经元，各长短时记忆神经元可按行以及按列进行排列，以形成3*256的阵列。

再者，如图3所示，混合信号的幅度信号将依次输入至各长短时记忆层中的每一个神经元中进行预测，其中，在长短时记忆层2和长短时记忆层3中，位于首位的各神经元各自包括有一个输入，亦即，上一层长短时记忆层中位于首位的神经元的输出，而长短时记忆层2和长短时记忆层3中位于非首位的各神经元则各自包括有两个输入，亦即，同一层长短时记忆层中前一个神经元的输出（即阵列中同一行的前一个神经元的输出）和上一层长短时记忆层中对应位置的神经元的输出（即阵列中上一行的同一列的神经元的输出），借以形成循环神经网络，此设计可有利于提高语音分离处理效果。

综上所述，本公开实施例采用由循环神经网络所构成的语音分离模型，可以准确地分离出混合信号中的语音部分和非语音部分，以有效解决嘈杂背景环境下的语音分离困难问题，从而提高语音分离处理效果。

第三实施例

图4示出了本公开第三实施例的语音获取方法的流程示意图。本实施例为上述步骤S104的具体实施方法。如图所示，本实施例的语音获取方法主要包括以下步骤：

步骤S402，根据语音分离掩膜和混合信号的幅度信息，获得语音频谱图。

可选地，可将语音分离掩膜与混合信号的幅度信息相乘，获得包含幅度信息的语音频谱图。

步骤S404，耦合语音频谱图与混合信号的相位信息，获得语音复数谱。

可选地，可将语音频谱图中的幅度信息和针对混合信号执行傅里叶变换所获取的相位信息进行耦合，获得包含幅度信息和相位信息的语音复数谱。

综上所述，本公开实施例的语音获取方法，通过将分离出的语音分离掩膜与混合信号的幅度信息和相位信息进行耦合，生成可供执行语音增强处理的耦合数据，有利于提高语音获取效果。

第四实施例

图5示出了本公开第四实施例的语音获取方法的流程示意图。本实施例为上述步骤S106的具体实施方案。

于本实施例中，所采用的复数语音增强模型例如为DCCRN模型（Deep ComplexConvolution Recurrent Network）。

请配合参考图6，本实施例的复数语音增强模型主要包括有编码器、解码器和位于编码器与解码器之间的瓶颈层。

于本实施例中，编码器中包括有多个卷积块，解码器中包括有多个反卷积块，其中，各反卷积块与各卷积块为对称设置，各卷积块用于针对语音耦合数据执行卷积处理（即编码处理），各反卷积块用于针对与之对应的卷积块的编码结果执行反卷积处理（即解码处理）。

例如，在图6所示的复数语音增强模型中，编码器中包含有6个卷积块，相应的，解码器中包含有对称的6个反卷积块，其中，反卷积块1用于针对卷积块1的卷积结果执行反卷积处理，反卷积块2用于针对卷积块2的卷积结果执行反卷积处理，并以此类推。

于本实施例中，各卷积块可分别包括卷积层、标准化层（BN层）、激活层（即激活函数）；各反卷积块可分别包括反卷积层、标准化层（BN层）、激活层（即激活函数）。

再者，瓶颈层用于在编码器和解码器之间为建立上下文信息。具体地，编码器可用于将输入序列（即语音耦合数据）编码到瓶颈层的上下文信息中，再由解码器将上下文信息解码成输出序列（即语音增强掩膜），借由此设计机制，可以提高复数语音增强模型的预测结果的准确性。

于本实施例中，瓶颈层可由双向的LSTM层和全连接层（dense层）所组成。

如图所示，本实施例的语音获取方法主要包括以下步骤：

步骤S502，将语音复数谱分别输入每一个卷积块的实部卷积单元和虚部卷积单元中执行卷积处理，获得实部卷积信息和虚部卷积信息。

可选地，可针对各卷积块预先构造一个实部卷积单元和一个虚部卷积单元，以针对语音复数谱中的实部信息和虚部信息执行卷积处理，获得实部卷积信息和虚部卷积信息。

于本实施例中，在各卷积块执行卷积处理的过程中，语音复数谱中的实部信息和虚部信息之间存在有信息交换处理。

具体地，请配合参考图7，可根据语音复数谱的实部信息（例如实部X1），确定第一实部信息（例如AX1）和第二实部信息（例如BX1）。于本实施例中，语音复数谱的实部信息X1、第一实部信息AX1、第二实部信息BX1三者等同。同理，可根据语音复数谱的虚部信息（例如虚部Y1），确定第一虚部信息（例如AY1）和第二虚部信息（例如BY1）。于本实施例中，语音复数谱的虚部信息Y1、第一虚部信息AY1、第二虚部信息BY1三者亦等同。

接着，可根据第一实部信息（例如AX1）和第一虚部信息（例如AY1），生成实部卷积输入，并根据语音复数谱的第二实部信息（例如BX1）和第二虚部信息（例如BY1），生成虚部卷积输入。而后，可提供实部卷积单元（例如实部单元A）针对实部卷积输入（例如AX1+AY1）执行卷积处理，获得第一实部卷积输出（例如AX2）和第二实部卷积输出（例如AY2），并提供虚部卷积单元（例如虚部单元B）针对虚部卷积输入（例如BX1+BY1）执行卷积处理，获得第一虚部卷积输出（例如BX2）和第二虚部卷积输出（例如BY2），再根据第一实部卷积输出（例如AX2）和第一虚部卷积输出（例如BX2），获得实部卷积信息（例如实部X2），并根据第二实部卷积输出（例如AY2）和第二虚部卷积输出（例如BY2），获得虚部卷积信息（例如虚部Y2）。

步骤S504，将卷积块输出的实部卷积信息和虚部卷积信息输入瓶颈层中，以建立上下文信息。

于本实施例中，可借由瓶颈层在各卷积块与各反卷积块之间建立语音的上下文信息，以供各反卷积块可基于瓶颈层所建立的上下文信息，执行更好的增强预测。

步骤S506，将实部卷积信息和虚部卷积信息分别输入每一个反卷积块的实部反卷积单元和虚部反卷积单元中执行反卷积处理，获得实部预测信息和虚部预测信息。

具体地，可将建立有上下文信息的实部卷积信息和虚部卷积信息输入反卷积块的实部反卷积单元和虚部反卷积单元中执行反卷积处理，获得实部预测信息和虚部预测信息。

可选地，各反卷积块中亦预先构造有一个实部反卷积单元和一个虚部反卷积单元，以针对实部卷积信息和虚部卷积信息执行反卷积处理，获得实部预测信息和虚部预测信息。

于本实施例中，在各反卷积块执行反卷积处理的过程中，实部卷积信息和虚部卷积信息之间同样存在有信息交换处理。

具体地，配合参考图7，可首先根据实部卷积信息的第一实部信息（例如AX1）和第一虚部信息（例如AY1），生成实部反卷积输入，并根据实部卷积信息的第二实部信息（例如BX1）和第二虚部信息（例如BY1），生成虚部反卷积输入。而后，可提供实部反卷积单元（例如实部单元A）针对实部反卷积输入（例如AX1+AY1）执行反卷积处理，获得第一实部反卷积输出（例如AX2）和第二实部反卷积输出（例如AY2），并提供虚部反卷积单元（例如虚部单元B）针对虚部反卷积输入（例如BX1+BY1）执行反卷积处理，获得第一虚部反卷积输出（例如BX2）和第二虚部反卷积输出（例如BY2），再根据第一实部反卷积输出（例如AX2）和第一虚部反卷积输出（例如BX2），获得实部预测信息（例如实部X2），并根据第二实部反卷积输出（例如AY2）和第二虚部反卷积输出（例如BY2），获得虚部预测信息（例如虚部Y2）。

步骤S508，根据实部预测信息和虚部预测信息，获得语音增强掩膜。

具体地，可根据实部预测信息和虚部预测信息，获得降噪的语音增强掩膜。

需说明的是，于本实施例中，上述步骤S504为可选性执行步骤，亦即，可跳过步骤S504而由步骤S502直接进入步骤S506。

再者，于本实施例中，瓶颈层的长短时记忆层中亦构建有实部单元和虚部单元，以针对卷积块的实部卷积单元和虚部卷积单元的输出分别建立上下文信息，再输入至反卷积块的实部反卷积单元和虚部反卷积单元中进行预测。

其中，瓶颈层针对实部信息和虚部信息的具体处理手段可参考上述步骤S502中的卷积块的相关描述或参考步骤S506中的反卷积块的相关描述，在此不予赘述。

综上所述，本公开实施例的语音获取方法，利用复数语音增强模型针对语音复数谱执行增强预测，以进一步针对语音数据中残留的背景音和噪声进行消除处理，从而获得较佳的降噪处理效果。

再者，通过在复数语音增强模型的各卷积块、各反卷积块之间增加瓶颈层，以在各卷积块与各反卷积块之间建立语音的上下文信息，从而有利于提高复数语音增强模型的输出结果的准确性。

另外，本实施例的复数语音增强模型采用的是复数卷积块（卷积层）、复数反卷积块（反卷积层）和复数的LSTM（长短时记忆层），且在每一层均针对待处理数据的实部部分和虚部部分执行信息交换操作，相较于传统复数模型没有信息交换的处理手段而言，本实施例所提供的复数语音增强模型，借由各层之间的实虚部信息交换，可以更好地去除语音数据中残留的噪音或背景音。

具体地，假设针对复数语音增强模型中的各复数卷积块、各复数反卷积块和复数的LSTM分别构造一个实部单元和一个虚部单元，其表示为

，其中，

表示复数，

表示构建的实部单元，

表示构建的虚部单元，并假设将输入的语音复数谱（即复数向量）表示为

，其中，

表示语音复数谱（即复数向量），

表示复数向量中的实部信息，

表示复数向量中的虚部信息，则在经过复数语音增强模型之后的语音复数谱可表示为：

。

因此，借由本实施例的复数语音增强模型设计，可实现实部信息和虚部信息之间的多次信息交换处理，可以进一步提高语音增强处理效果，从而有效解决嘈杂环境下的语音数据的去噪问题。

第五实施例

图8为本公开第五实施例的语音获取方法的流程示意图。如图所示，本实施例为上述步骤S108的具体实施方案。如图所示，本实施例的语音获取方法主要包括以下步骤：

步骤S802，将语音增强掩膜和语音分离掩膜进行点乘处理，获得待转换信号。

于本实施例中，可将由复数语音增强模型输出的语音增强掩膜和由语音分离模型所输出的语音分离掩膜进行点乘处理，以获得包含幅度信息和相位信息的待转换信号。

步骤S804，针对待转换信号执行傅里叶逆变换，获得语音信号。

具体地，可针对待转换信号执行短时傅里叶逆变换，以获得语音信号。

综上所述，本实施例的语音获取方法通过将降噪后的语音增强掩膜与语音分离掩膜进行点乘，并执行傅里叶逆变换，使得所获取的语音信号具有较佳的降噪效果。

第六实施例

图9示出了本公开第六实施例的语音获取方法的流程示意图。如图所示，本实施例除包括有上述第一实施例的各步骤之外，还包括以下步骤：

步骤S902，获取混合音频数据。

可选地，混合音频数据可包括在嘈杂教育场景下录制的教学音频，但并不以此为限，亦可为公共场所环境下所获取的混合音频数据，抑或各种会议场景下所获取的混合音频数据，本公开对此不作限制。

步骤S904，基于预设帧长参数和预设帧移参数，对混合音频数据执行分帧处理，获得音频数据帧。

于本实施例中，预设帧长参数可设置为25ms，预设帧移参数可设置为6.25ms，亦即，各帧未加窗信号的帧长为25ms，相邻两帧未加窗信号之间的重叠部分为6.25ms。

步骤S906，基于预设窗函数，对音频数据帧执行加窗处理，以获得混合信号。

于本实施例中，预设窗函数可设置为长度（N）为1024的汉宁窗。

步骤S908，合并各混合信号对应的各语音信号，获得混合音频数据的目标语音。

于本实施例中，可通过执行上述步骤S102至步骤S108，以获取各混合信号对应的各语音信号。

于本实施例中，可通过循环方式依序处理各帧混合信号，也可通过并行处理方式（多线程处理）同时处理多帧混合信号，视依实际硬件配置以及处理需求而定，本公开对此不作限制。

综上所述，利用本公开各实施例提供的语音获取方法，首先针对混合音频数据进行分帧，以获取各帧音频信号对应的各语音信号，而后再进行合并以获取混合音频数据的目标语音。借由此技术手段，可使所获取的目标语音具有较佳的语音分离效果和语音降噪效果。

第七实施例

图10示出了本公开第七实施例的语音获取装置的架构示意图。如图所示，本实施例的语音获取装置1000包括语音分离模块1002、耦合模块1004、语音增强模块1006、转换模块1008。

语音分离模块1002用于根据混合信号的幅度信息执行分离处理，获得语音分离掩膜。

耦合模块1004用于根据所述语音分离掩膜、所述混合信号的所述幅度信息和相位信息，获得语音耦合数据。

语音增强模块1006用于针对所述语音耦合数据执行增强处理，获得语音增强掩膜。

转换模块1008用于根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。

可选地，耦合模块1004还可以用于：根据所述语音分离掩膜和所述混合信号的所述幅度信息，获得语音频谱图；耦合所述语音频谱图与所述混合信号的所述相位信息，获得语音复数谱。

可选地，语音增强模块1006还可以用于：利用复数语音增强模型，针对所述语音复数谱执行增强预测，获得所述语音增强掩膜。示例性地，复数语音增强模型包括对称设置的多个卷积块和多个反卷积块。

可选地，语音增强模块1006包括卷积信息获取单元、预测信息获取单元以及掩码获取单元。

示例性地，卷积信息获取单元用于：将所述语音复数谱分别输入每个卷积块的实部卷积单元和虚部卷积单元中执行卷积处理，获得实部卷积信息和虚部卷积信息。预测信息获取单元用于：将所述实部卷积信息和所述虚部卷积信息分别输入每个反卷积块的实部反卷积单元和虚部反卷积单元中执行反卷积处理，获得实部预测信息和虚部预测信息。掩码获取单元用于：根据所述实部预测信息和所述虚部预测信息，获得所述语音增强掩膜。

可选地，卷积信息获取单元还可以用于：根据所述语音复数谱的第一实部信息和第一虚部信息，生成实部卷积输入，并根据所述语音复数谱的第二实部信息和第二虚部信息，生成虚部卷积输入；提供所述实部卷积单元针对所述实部卷积输入执行卷积处理，获得第一实部卷积输出和第二实部卷积输出，并提供所述虚部卷积单元针对所述虚部卷积输入执行卷积处理，获得第一虚部卷积输出和第二虚部卷积输出；根据所述第一实部卷积输出和所述第一虚部卷积输出，获得所述实部卷积信息，并根据所述第二实部卷积输出和所述第二虚部卷积输出，获得所述虚部卷积信息。

可选地，预测信息获取单元还可以用于：根据所述实部卷积信息的第一实部信息和第一虚部信息，生成所述实部反卷积输入，并根据所述虚部卷积信息的第二实部信息和第二虚部信息，生成虚部反卷积输入；提供所述实部反卷积单元针对所述实部反卷积输入执行反卷积处理，获得第一实部反卷积输出和第二实部反卷积输出，并提供所述虚部反卷积单元针对所述虚部反卷积输入执行反卷积处理，获得第一虚部反卷积输出和第二虚部反卷积输出；根据所述第一实部反卷积输出和所述第一虚部反卷积输出，获得所述实部预测信息，并根据所述第二实部反卷积输出和所述第二虚部反卷积输出，获得所述虚部预测信息。

可选地，所述复数语音增强模型还包括瓶颈层，语音获取装置1000还包括第一获取模块，用于：将所述卷积块输出的所述实部卷积信息和所述虚部卷积信息输入所述瓶颈层中，以建立上下文信息，并将建立有上下文信息的所述实部卷积信息和所述虚部卷积信息输入所述反卷积块的所述实部反卷积单元和所述虚部反卷积单元中执行反卷积处理，获得所述实部预测信息和所述虚部预测信息。

可选地，转换模块1008还用于：将所述语音增强掩膜和所述语音分离掩膜进行点乘处理，获得待转换信号；以及针对所述待转换信号执行傅里叶逆变换，获得所述语音信号。

可选地，语音获取装置1000还包括：第二获取模块、处理模块，以及合成模块。第二获取模块用于获取混合音频数据。处理模块用于：基于预设帧长参数和预设帧移参数，对所述混合音频数据执行分帧处理，获得音频数据帧；以及基于预设窗函数，对所述音频数据帧执行加窗处理，以获得所述混合信号。合成模块用于：合成所述混合信号对应的语音信号，以获得所述混合音频数据的目标语音。

此外，本公开实施例的语音获取装置1000还可用于实现前述各语音获取方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

第八实施例

本公开第八实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第一至第六实施例中任一实施例所述的方法。

第九实施例

图11示出了本公开第九实施例的电子设备的架构示意图。如图所示，本实施例的电子设备1100包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

请参考图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，如上述的语音获取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行上述的语音获取方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

综上所述，本公开各实施例提供的语音获取方法、装置及计算机存储介质，首先针对混合信号执行分离处理，以获取混合信号中的语音分离掩膜，再针对由语音分离掩膜所生成的语音耦合数据执行增强处理，以去除语音中残留的噪音和背景音。据此，本公开尤其适用于嘈杂环境下的混合音频的语音分离及降噪处理，可以提高语音获取处理效果。

再者，本公开采用由循环神经网络构成的语音分离模型，可以准确地分离出混合信号中的语音部分和非语音部分，以有效解决嘈杂环境下的混合信号的分离困难问题。

此外，本公开采用复数语音增强模型，通过在增强模型的各卷积块（卷积层）、各反卷积块（反卷积层）以及瓶颈层中分别构建实部单元和虚部单元，以针对语音复数谱的实部部分和虚部部分分别进行预测，且在各层之间实现了实部部分和虚部部分的多次信息交换处理，以克服传统技术手段中，复数模型的实部部分和虚部部分之间没有信息交流的缺点。因此，本公开可有效提高语音降噪处理效果。

需要指出，根据实施的需要，可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本公开实施例的目的。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。

以上实施方式仅用于说明本公开实施例，而并非对本公开实施例的限制，有关技术领域的普通技术人员，在不脱离本公开实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本公开实施例的范畴，本公开实施例的专利保护范围应由权利要求限定。

Claims

1.一种语音获取方法，其特征在于，包括：

根据混合信号的幅度信息执行分离处理，获得语音分离掩膜；

根据所述语音分离掩膜和所述混合信号的所述幅度信息，获得语音频谱图，并耦合所述语音频谱图与所述混合信号的相位信息，获得语音复数谱；

针对所述语音复数谱执行增强处理，获得语音增强掩膜；以及

根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。

2.根据权利要求1所述的语音获取方法，其特征在于，所述针对所述语音复数谱执行增强处理，获得语音增强掩膜包括：

利用复数语音增强模型，针对所述语音复数谱执行增强预测，获得所述语音增强掩膜；

其中，所述复数语音增强模型包括对称设置的多个卷积块和多个反卷积块。

3.根据权利要求2所述的语音获取方法，其特征在于，所述利用复数语音增强模型针对所述语音复数谱执行增强预测，获得所述语音增强掩膜包括：

将所述语音复数谱分别输入每个卷积块的实部卷积单元和虚部卷积单元中执行卷积处理，获得实部卷积信息和虚部卷积信息；

将所述实部卷积信息和所述虚部卷积信息分别输入每个反卷积块的实部反卷积单元和虚部反卷积单元中执行反卷积处理，获得实部预测信息和虚部预测信息；

根据所述实部预测信息和所述虚部预测信息，获得所述语音增强掩膜。

4.根据权利要求3所述的语音获取方法，其特征在于，所述将所述语音复数谱分别输入每个卷积块的实部卷积单元和虚部卷积单元中执行卷积处理，获得实部卷积信息和虚部卷积信息包括：

根据所述语音复数谱的第一实部信息和第一虚部信息，生成实部卷积输入，并根据所述语音复数谱的第二实部信息和第二虚部信息，生成虚部卷积输入；

提供所述实部卷积单元针对所述实部卷积输入执行卷积处理，获得第一实部卷积输出和第二实部卷积输出，并提供所述虚部卷积单元针对所述虚部卷积输入执行卷积处理，获得第一虚部卷积输出和第二虚部卷积输出；

根据所述第一实部卷积输出和所述第一虚部卷积输出，获得所述实部卷积信息，并根据所述第二实部卷积输出和所述第二虚部卷积输出，获得所述虚部卷积信息。

5.根据权利要求3所述的语音获取方法，其特征在于，所述将所述实部卷积信息和所述虚部卷积信息分别输入每个反卷积块的实部反卷积单元和虚部反卷积单元中执行反卷积处理，获得实部预测信息和虚部预测信息包括：

根据所述实部卷积信息的第一实部信息和第一虚部信息，生成实部反卷积输入，并根据所述虚部卷积信息的第二实部信息和第二虚部信息，生成虚部反卷积输入；

提供所述实部反卷积单元针对所述实部反卷积输入执行反卷积处理，获得第一实部反卷积输出和第二实部反卷积输出，并提供所述虚部反卷积单元针对所述虚部反卷积输入执行反卷积处理，获得第一虚部反卷积输出和第二虚部反卷积输出；

根据所述第一实部反卷积输出和所述第一虚部反卷积输出，获得所述实部预测信息，并根据所述第二实部反卷积输出和所述第二虚部反卷积输出，获得所述虚部预测信息。

6.根据权利要求3所述的语音获取方法，其特征在于，所述复数语音增强模型还包括瓶颈层，所述方法还包括：

将所述卷积块输出的所述实部卷积信息和所述虚部卷积信息输入所述瓶颈层中，以建立上下文信息，并将建立有上下文信息的所述实部卷积信息和所述虚部卷积信息输入所述反卷积块的所述实部反卷积单元和所述虚部反卷积单元中执行反卷积处理，获得所述实部预测信息和所述虚部预测信息。

7.根据权利要求1所述的语音获取方法，其特征在于，所述根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号包括：

将所述语音增强掩膜和所述语音分离掩膜进行点乘处理，获得待转换信号；

针对所述待转换信号执行傅里叶逆变换，获得所述语音信号。

8.根据权利要求1所述的语音获取方法，其特征在于，所述方法还包括：

获取混合音频数据；

基于预设帧长参数和预设帧移参数，对所述混合音频数据执行分帧处理，获得各音频数据帧；

基于预设窗函数，对各音频数据帧执行加窗处理，以获得各混合信号；

合成各混合信号对应的各语音信号，以获得所述混合音频数据的目标语音。

9.一种语音获取装置，其特征在于，包括：

语音分离模块，用于根据混合信号的幅度信息执行分离处理，获得语音分离掩膜；

耦合模块，用于根据所述语音分离掩膜和所述混合信号的所述幅度信息，获得语音频谱图，并耦合所述语音频谱图与所述混合信号的相位信息，获得语音复数谱；

语音增强模块，用于针对所述语音复数谱执行增强处理，获得语音增强掩膜；

转换模块，用于根据所述语音增强掩膜和所述语音分离掩膜，获得语音信号。

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。