CN111429938B

CN111429938B - 一种单通道语音分离方法、装置及电子设备

Info

Publication number: CN111429938B
Application number: CN202010388103.5A
Authority: CN
Inventors: 毛启容; 陈静静; 钱双庆; 高利剑
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-03-06
Filing date: 2020-05-09
Publication date: 2022-09-13
Anticipated expiration: 2040-05-09
Also published as: CN111429938A

Abstract

本发明提供了一种单通道语音分离方法、装置及电子设备，使用编码器提取混合语音信号特征，分割提取到的语音信号特征并将其重新拼接成3‑D的张量；利用融合了自注意力机制的双路循环神经网络对拼接好的3‑D张量进行建模，学习语音信号之间的长时间依赖关系；将建模后的3‑D张量进行交叠相加，还原为序列语音信号特征；使用解码器将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。本发明以提升语音分离性能为目的对长时间的语音信号进行建模，充分挖掘了语音信号之间的长时间依赖关系，分离效果较好，有效地降低了语音的失真率，同时提高了分离语音的可懂性。

Description

一种单通道语音分离方法、装置及电子设备

技术领域

本发明涉及语音信号处理、模式识别等领域，特别涉及一种单通道语音分离方法、装置及电子设备。

背景技术

单通道语音分离是指从一个多人说话的混合语音中，分离出每一个人的纯净语音，是信号处理领域的一个重要分支。其在现实世界中有许多实际应用，例如：从混合噪声语音中分离出纯净语音信号来提升语音识别和说话人识别的准确性。在视频会议转录、听力辅助、移动通信等领域，单通道语音分离都有着广阔的应用前景和实际意义。

传统的单通道语音分离主要是采用非负矩阵分解法和听觉场景分析法。非负矩阵分解法通过非负词典将混合语音信号的频谱特征解耦为与说话人相关的特定表示，然后从这些特定表示中得到每一个人的纯净语音。听觉场景分析法则是先将频谱特征分解为时间-频率分块，再通过将分块归组的方式提取特定说话人的语音信号。然而，这些传统方法只能处理已知说话人的语音分离任务，无法泛化到未知说话人混合语音的分离上，应用场景大大受限。进入深度学习时代以后，基于频谱特征的神经网络解决了泛化问题，并且在一定程度上提升了分离性能。但是基于频谱特征的神经网络仍然使用频谱特征作为神经网络的输入，大多数情况下只对幅度特征进行了分离，并没有处理相位信息；导致神经网络分离出的语音中存在伪像，使得其存在性能上限，无法最大化地提升分离性能。为了克服这一问题，时域分离法通过卷积-反卷积的方式提取语音信号特征和恢复语音信号，从原理上避免了伪像的产生，大大提升了语音分离的性能。然而，时域分离系统通常需要对极长的输入序列进行建模，需要挖掘输入序列中帧与帧之间关系，这对于时域分离法来说是一个巨大的挑战。

发明内容

针对现有技术中存在不足，本发明提供了一种单通道语音分离方法、装置及电子设备，与现有方法相比，充分挖掘了语音信号之间的长时间依赖关系，分离效果更好，有效地降低了语音的失真率，同时提高了分离语音的可懂性。

本发明是通过以下技术手段实现上述技术目的的。

一种单通道语音分离方法，分割提取的语音信号特征并将其重新拼接成3-D张量，利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。

进一步，所述自注意力机制融合循环神经网络，把由多个查询query组成的Q、多个键值对(keys，values)组成的(K，V)映射到一个指定的输出。

更进一步，所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。

更进一步，所述循环神经网络模块采用双向循环神经网络。

更进一步，所述融合循环神经网络的自注意力机制再融合到双路网络中。

更进一步，所述双路网络包括块内模块和块际模块。

更进一步，所述双路网络的计算方式为：

IntraD＝LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s＝1,...,H])

Intrablock(D)＝[BiLSTM(IntraD[:,:,s]),s＝1,...,H]

其中，IntraD指块内模块中经多头注意力模块、残差归一化模块处理后的输出，

指块际模块中经多头注意力模块、残差归一化模块处理后的输出，Intrablock(D)、

分别为块内模块、块际模块的输出，BiLSTM为双向长短期记忆单元，MultiHead为多头注意力模块，D为张量，P为单位对长度，H为语音信号特征的块数。

一种单通道分离语音分离装置，包括依次连接的语音采集模块、语音分离模块和语音播放模块；

所述语音采集模块采集单通道混合语音信号；

所述语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离，得到分离的语音信号；

所述语音播放模块播放从语音分离模块得到的语音信号。

上述技术方案中，所述基于自注意力机制和双路循环神经网络对混合语音信号进行分离，具体为：

分割提取的语音信号特征并将其重新拼接成3-D张量，利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。

一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：分割提取的语音信号特征并将其重新拼接成3-D张量，利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。

本发明具有有益效果为：本发明利用基于自注意力机制的双路循环神经网络对长时间的语音信号进行建模，充分挖掘了语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号；有效地降低了语音的失真率，同时提高了分离语音的可懂性。

附图说明

图1为本发明单通道语音分离方法流程图；

图2为本发明融合循环神经网络的自注意力机制说明示意图；

图3为本发明融合自注意力机制的双路循环神经网络说明示意图；

图4为本发明单通道分离语音分离装置的结构示意图；

图5为本发明电子设备结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

参见图1，一种基于自注意力机制和双路循环神经网络的单通道语音分离方法，该方法包括如下步骤：

步骤一，编码器接收多人说话的混合语音信号，并提取混合语音信号特征：

使用一维卷积神经网络作为编码器，从多人说话的混合语音信号当中提取特征X∈R^N×L，该特征是一个2-D的张量，其中，R表示实数集，L为提取到的语音信号特征的时间步数目，N为提取到的语音信号特征的维度。

步骤二，分割提取的语音信号特征并将其重新拼接成3-D的张量：

以P为单位对长度对L的语音信号特征进行分块，得到H个分块；其中块与块之间有重叠部分，即存在块内重叠；然后再将所有的块拼接在一起，形成一个3-D的张量D∈R^N×P×H。

步骤三，利用融合了自注意力机制的双路循环神经网络对拼接好的3-D张量进行建模，学习语音信号之间的长时间依赖关系：

如图2所示，自注意力机制融合循环神经网络，把由多个查询query组成的Q、多个键值对(keys，values)组成的(K，V)映射到一个指定的输出。

自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块。

点乘注意力模块首先通过Q和对应的K来计算权重，然后根据该权重对V进行加权求和，以此来得到输出。其计算公式如下：

其中，d_model为输入序列的维度，在本发明中等于语音信号特征的维度N；K^T表示矩阵K的转置，SoftMax为激活函数；在SoftMax之前设有归一化层。

多头注意力模块由多个点乘注意力模块组合而成。多头注意力模块首先对Q、K、V进行线性映射，然后再将映射之后的结果送入多个点乘注意力模块进行运算，最后将多个点乘注意力模块的运算结果进行拼接，得到多头注意力模块的输出。其计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (3)

其中，

都为全连接层的参数；h为并行的点乘注意力模块的个数；且h、d_model、d_k、d_V之间存在如下关系：d_k＝d_V＝d_model/h，d_k为

的维度，d_V为

的维度。多头注意力模块参数较少，且能够有效学习语音信号之间的长时间依赖关系，有利于提升最终的语音分离性能。

残差归一化模块则是将多头注意力模块的输出与起始的输入(Q、K、V)进行相加，然后再对其进行层归一化操作。设需要进行归一化的对象为U∈R^N×P×H，则此处归一化的计算方式为：

其中：μ(U)、σ(U)分别为U的均值和方差；LN表示层归一化；z、r是归一化因子，ε是一个防止分母为0的极小正数。残差归一化有利于神经网络参数的收敛，防止神经网络在训练过程中出现梯度爆炸或梯度消失现象。

循环神经网络模块是一个双向长短期记忆单元BiLSTM。其计算方式如下：

Γ_u＝σ(W_u[a^＜t-1＞；x^＜t＞]+b_u) (7)

Γ_f＝σ(W_f[a^＜t-1＞；x^＜t＞]+b_f) (8)

Γ_o＝σ(W_o[a^＜t-1＞；x^＜t＞]+b_o) (9)

～c^＜t＞＝tanh(W_c[a^＜t-1＞；x^＜t＞]+b_c) (10)

c^＜t＞＝Γ_u*～c^＜t＞+Γ_f*c^＜t-1＞ (11)

a^＜t＞＝Γ_o*tanh(c^＜t＞) (12)

其中，Γ_u、Γ_f、Γ_o分别为更新门、遗忘门、输出门；W_u、b_u为更新门的参数，W_f、b_f为遗忘门的参数，W_o、b_o为输出门的参数，W_c、b_c为记忆单元的参数；x^＜t＞为当前时刻的输入，a^＜t＞为当前时刻的输出，c^＜t＞和～c^＜t＞为模块中的记忆单元。双向循环神经网络可以进一步学习语音信号中帧与帧之间的长时间依赖关系，促进最终语音分离性能的提升。此外，双向循环神经网络还可以为自注意力机制提供位置信息。

如图3所示，将融合循环神经网络的自注意力机制融合到一个双路网络中去。双路网络分为两个模块：块内模块和块际模块。双路网络需要处理的对象为3-D张量D∈R^N×P×H，根据融合循环神经网络的自注意力机制过程，得到双路网络的计算方式为：

IntraD＝LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s＝1,...,H]) (13)

Intrablock(D)＝[BiLSTM(IntraD[:,:,s]),s＝1,...,H] (14)

其中，IntraD指块内模块中，经多头注意力模块、残差归一化模块处理后的输出；

指块际模块中，经多头注意力模块、残差归一化模块处理后的输出；Intrablock(D)、

分别为块内模块、块际模块的输出。

使用块内、块际两个模块可以指数倍地减少所需要处理的语音信号特征的时间步数目，解决了对极长的时间序列信号建模难的问题，使得神经网络可以充分挖掘语音信号之间的长时间依赖关系，极大地提升语音分离的性能。

此步骤用融合了自注意力机制的双路循环神经网络对步骤二中拼接好的3-D张量D∈R^N×P×H进行建模，使用块内模块学习语音信号的局部信息、块际模块学习语音信号的全局信息，从而学习语音信号之间的长时间依赖关系；然后使用一个二维卷积神经网络将建模后的语音信号映射为多个人纯净语音的掩码D'∈R^(S×N)×P×H，再将此掩码与原始的3-D张量D∈R^N×P×H进行点乘，得到多个人的纯净语音信号特征D”∈R^(S×N)×P×H；其中，S为混合语音中说话人的数目。

步骤四，将建模后的3-D张量进行交叠相加，还原为序列语音信号特征：

对多个人的纯净语音信号特征D”∈R^(S×N)×P×H进行交叠相加操作，将其还原为多个人的纯净语音信号特征X'∈R^(S×N)×L。

步骤五，使用解码器将序列语音信号特征重构为纯净语音信号，得到分离的语音信号：

使用一维反卷积神经网络作为解码器，将每个人的纯净语音信号特征恢复为各自的纯净语音信号，得到分离结果。

如图4所示，一种单通道分离语音分离装置，包括依次连接的语音采集模块、语音分离模块和语音播放模块；语音采集模块采集单通道混合语音信号；语音分离模块基于自注意力机制和双路循环神经网络对混合语音信号进行分离，得到分离的语音信号；语音播放模块播放从语音分离模块得到的语音信号。

基于自注意力机制和双路循环神经网络对混合语音信号进行分离，具体为：分割提取的语音信号特征并将其重新拼接成3-D张量，利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。

如图5所示，一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行。

其中，存储器可以是高速随机存取存储器(Random-Access Memory，RAM)或者是非易失性存储器(non-vloatile memory)，例如三星860EVO磁盘存储器等。存储器用于存放程序，包括本发明单通道语音分离方法的程序代码。存储器还包含内存，用来向处理器提供指令和数据。

处理器可为英特尔酷睿i5-4200U处理器。处理器从存储器中读取对应的程序代码到内存中运行，形成本发明的单通道语音分离方法。处理器执行存储器所存放的程序，并具体用于执行以下操作：分割提取的语音信号特征并将其重新拼接成3-D张量，利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系，将建模后的3-D张量还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号。

存储器和处理器可以通过内部总线相互连接，该内部总线可以是ISA(IdustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等；图5中用双向箭头表示总线。

上述双路循环神经网络在训练过程中以归一化信噪比(SI-SNR)为损失函数进行训练，其公式为：

其中，

为步骤五得到的分离语音，x为原始纯净语音。

实施例选用广泛使用的单通道语音分离基准数据集TIMIT来进行实验评估。为比较实施例方法与其他方法的性能，在TIMIT数据集上，将实施例方法与当下最先进的几个方法(语音级置换不变方法uPIT、时序卷积网络Conv-Tasnet、双路循环神经网络DPRNN)进行对比，从而证明实施例所提方法的有效性和优越性。在所有实验当中，实施例采用信号失真比(SDR)作为评价指标，该指标数值越大，则代表语音的失真率越低。

TIMIT数据集总共包含了6300条语音，来自630个人，每个人10条语音。TIMIT数据集中的每一条语音都只源自一个说话人，因此需要将这些纯净语音进行混合来得到混合语音。从TIMIT数据集当中随机抽取两条纯净语音，然后以0dB～5dB之间的一个随机数作为信噪比将这两条语音进行混合，得到混合语音，并将此作为训练集中的一个样本；重复上述操作以得到整个训练集。验证集和测试集也按照上述操作获得，获取验证集和测试集的过程中保证所抽取的语音都为未知说话人的语音。最终，训练集、验证集、测试集各包含样本约10000、1000、1000个。实施例使用混合而成的训练集、验证集、测试集来评估提出的方法的性能。

表1不同方法在TIMIT数据集上的SDR指标

方法	SDR(dB)
		uPIT	7.9
Conv-Tasnet	12.4
		DPRNN	15.1
本发明方法	18.0

从表1的实验结果中，可以明显地看出，在单通道语音分离任务上，在TIMIT数据集上本发明SDR指标达到18.0，远高于其他现有方法，本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法优于所有的现有先进方法。

由此，本发明基于自注意力机制和双路循环神经网络的单通道语音分离方法，可以充分挖掘语音信号之间的长时间依赖关系，提升语音分离性能，有效降低语音的失真率，同时提高分离语音的可懂性，在理论研究和实际应用领域都具有很好的借鉴意义。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种单通道语音分离方法，其特征在于，包括以下步骤：编码器接收多人说话的混合语音信号，并提取混合语音信号特征；分割提取的混合语音信号特征，并将其重新拼接成3-D张量；利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系；将建模后的3-D张量进行交替叠加还原为序列语音信号特征；使用编码器将序列语音信号特征重构为纯净语音信号，得到分离的语音信号；其中，所述自注意力机制包括点乘注意力模块、多头注意力模块、残差归一化模块和循环神经网络模块；且所述循环神经网络模块采用双向循环神经网络；

其中，所述利用融合了自注意力机制的双路循环神经网络，是指将采用双向循环网络的自制力机制融合到双路网络中；

所述双路网络包括块内模块和块际模块；

所述双路网络的计算方式为：

IntraD＝LN([MultiHead(D[:,:,s],D[:,:,s],D[:,:,s]),s＝1,...,H])

Intrablock(D)＝[BiLSTM(IntraD[:,:,s]),s＝1,...,H]

2.一种单通道语音分离装置，其特征在于，包括依次连接的语音采集模块、语音分离模块和语音播放模块；

所述语音采集模块采集单通道混合语音信号；

所述语音分离模块基于自注意力机制和双路网络对混合语音信号进行分离，得到分离的语音信号；所述基于自注意力机制和双路网络对混合语音信号进行分离，具体为：分割提取的语音信号特征，并将其重新拼接成3-D张量；利用融合了自注意力机制的双路循环神经网络对拼接的3-D张量进行建模，学习语音信号之间的长时间依赖关系；将建模后的3-D张量进行交替叠加还原为序列语音信号特征，将序列语音信号特征重构为纯净语音信号，得到分离的语音信号；

所述语音播放模块播放从语音分离模块得到的语音信号。

3.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行，使所述处理器执行如权利要求1所述的方法。