CN110675891A

CN110675891A - 一种基于多层注意力机制的语音分离方法、模块

Info

Publication number: CN110675891A
Application number: CN201910913626.4A
Authority: CN
Inventors: 蓝天; 李萌; 彭川; 刘峤; 钱宇欣; 叶文政; 李森; 惠国强; 吕忆蓝
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-10
Anticipated expiration: 2039-09-25
Also published as: CN110675891B

Abstract

本发明公开一种基于多层注意力机制的语音分离方法，包括以下步骤：S1：获取混合语音中特定讲话人的干净语音，并提取所述特定讲话人的声纹信息，所述混合语音包括多个讲话者；S2：通过多层注意结构和特定讲话人的声纹信息，连续净化所述混合语音，以获取分离语音。本发明在每一层中引入说话人信息以添加辅助信息以帮助提取语音，引入计算注意机制以处理每一层的输出，并通过多层结构提取语音信号。

Description

一种基于多层注意力机制的语音分离方法、模块

技术领域

本发明属于语音处理应用技术领域，尤其涉及一种基于多层注意力机制的语音分离方法及模块。

背景技术

鸡尾酒会问题自1953年由Cheery提出以来一直是研究的热门话题。几十年来，学术界一直在研究如何使机器在像人类这样复杂的环境中区分说话者的语音。到目前为止，还没有完美的解决方案。

单麦克风中的语音分离是一个欠定问题，这比多麦克风阵列问题更难。因为在分离语音的过程中，存在无限的可能性组合，并且需要通过规则或约束来获得分离的语音的最终解决方案。非负矩阵分解(NMF)和计算听觉场景分析(CASA)促进了语音分离任务的发展，但这些方法中假设的一些限制限制了该技术在日常环境中的使用。

为了避免假设所施加的限制，数据驱动的方法可能是更好的选择，并且将成为解决语音问题的一个可能途径。

目前，语音分离问题存在两个主要困难。一个是排列问题，另一个是输出维度不匹配问题。对于前者，提出了置换不变训练(PIT)来缓解网络中目标标签不匹配造成的梯度冲突，但是这种方法仍然需要确定固定数量的输出，无法分离任意数量的源。深度聚类(DC)方法通过构造嵌入表示和聚类时频点解决了这两个问题。在高维结构中，DC方法为不同说话人的不同时频点构造一个嵌入表示，并采用自相关矩阵，使得训练模型可以容易地扩展到三个说话人而无需再训练。提出了深度吸引网络(DANet)模型，通过首先计算聚类的吸引矢量来分离相应的语音。然后将训练过的吸引子视为测试阶段的空间特征表示。

目前的大多数方法都侧重于说话者独立的框架而忽略了说话者信息的使用。

发明内容

本发明提供一种基于多层注意力机制的语音分离方法，旨在解决上述存在的问题。

本发明还提供一种基于多层注意力机制的语音分离模块，旨在解决上述存在的问题。

本发明是这样实现的，一种基于多层注意力机制的语音分离方法，包括以下步骤：

S1：获取混合语音中特定讲话人的干净语音，并提取所述特定讲话人的声纹信息，所述混合语音包括多个讲话者；

S2：通过多层注意结构和特定讲话人的声纹信息，连续净化所述混合语音，以获取分离语音。

进一步的，步骤S1具体包括：

1)定义s为特定讲话人的干净语音，并通过短时傅里叶变换(STFT)将其转换为时频域S_t，将S_t作为双向-长期短期记忆(Bi-LSTM)层的输入，每一帧输入可以对应获得一个时间步的隐状态输出h_t；

h_t＝Bi-LSTM(S_t) (1)；

2)将每个时间步的输出h_t求和后取平均值，得到特定讲话人声纹向量表达p_i，T为最大时间步：

3、根据权利要求2所述的语音分离方法，其特征在于，步骤S2具体包括：

1)定义x为原始多讲话者混合语音，然后通过STFT将其转换为时频域X_t,使用X_t作为Bi-LSTM层的输入，得到隐状态输出h_i为：

h_i＝Bi-LSTM(X_t) (3)；

2)将特定讲话人的声纹信息p_i与h_i进行拼接，然后送入多层感知机(MLP)计算得到注意力权重e_j，并将其标准化，得到标准化后的注意力得分α_t：

e_j＝MLP(h_t，p_i) (4)；

3)将注意力得分α_t与上一层Bi-LSTM的输出h_t直接相乘，获得过滤后的特征f_t，过滤后的特征f_t被视为对前一层输出过滤后的结果，然后作为下一个Bi-LSTM层的输入；：

f_t＝α_t*h_t (6)；

4)在输出层，使用MLP对最后一层f_t进行的特征映射，得到预测的分离语音量幅度谱

MLP层计算与损失函数定义如下：

其中y_t表示对应的干净语音幅度谱。

本发明还提供一种基于多层注意力机制的语音分离模块，包括：

语音编码子模块，用于提取特定讲话人的语音信息；

语音分离子模块，通过多层注意结构和语音信息连续净化混合语音，以获得包含完整信息的分离语音。

与现有技术相比，本发明的有益效果是：(1)在每一层中引入说话人信息，通过添加辅助信息的方式帮助模型更好的学习到对混合语音中特定说话人信息的提取(2)引入计算注意机制对每一层的输出进行定向过滤，使得模型能够保留更多与特定说话人语音成分有关的信息(3)通过多层结构提取语音信号，保证了模型复杂度，在一定层数内的增加，能够提升模型效果。

附图说明

图1为本发明中基于多层关注的语音分离结构示意图；

图2为本发明中语音分离结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

本发明提供一种技术方案：一种基于多层注意力机制的语音分离方法，包括以下步骤：

为了将指定的说话者语音与多说话者混合语音分开，在该模型中应用说话者信息，该方法允许模型关注在多讲者环境中的一个说话人语音；本发明将模型分为两部分来解释，说话人编码器模块用于提取特定说话人信息，语音分离模块通过多层注意结构连续净化混合语音，以获得包含更完整信息的分离语音；所提出的基于多层关注的语音分离模型如图1所示。

本发明定义s为原始干净的说话人语音，并通过短时傅里叶变换(STFT)将其转换为时频域S_t，然后本发明用S_t作双向-长期短期记忆(Bi-LSTM)层的输入，可以获得每个时间步的隐藏层向量h_i。

h_t＝Bi-LSTM(S_t)

本发明对每个时间步的输出h_t求平均值，得到特定的说话人生成声纹向量p_i。最大时间步长定义为T。每个向量p_i都可以看作是具有d维的说话者i的声纹。

每次执行语音分离时，模型需要首先获得相应说话者的干净语音，并提取该特征以获得说话者的声纹信息。将Bi-LSTM的输出的取平均，得到固定长度矢量p_i，并与语音分离模块进行联合训练。

语音分离模块是所提出模型的主要部分，本发明定义x为原始多讲话者混合语音，然后通过STFT将其转换为时频域X_t。在这个模块中，本发明使用X_t作为输入，第一个Bi-LSTM层定义为：

h₁＝Bi-LSTM(X_t)

这里的Bi-LSTM具有与先前模型中的Bi-LSTM相同数量的隐藏层单元，但不共享权重。在多层结构中，Bi-LSTM每层都整合了说话人信息。受注意力机制的启发，本发明使用说话者信息来计算每个图层输出的注意力得分，然后将注意力权重应用于前一层的输出以过滤不相关的信息。在这里，本发明使用MLP计算注意力得分e_i，并将其标准化，细节如图2所示。

e_ti＝MLP(S_t，p_i)

获得注意力得分α_i后，本发明将其乘以Bi-LSTM的输出以获得过滤后的特征f_i。

fi＝α_t*h_i-1

过滤后的特征f_i被视为来自前一层输出的方向过滤器，然后被发送到Bi-LSTM的下一层。

在输出层，本发明使用多层感知机将隐藏层特征映射到原始帧的维度大小。

通过多层结构，本发明可以在每层的说话人声纹特征上获得对混合语音的滤波结果。这种建模方法是引入了说话人信息，可以帮助模型获得更好的语音分离结果。最后一层获得预测的分离语音量幅度

损失函数定义为：

其中y_t表示对应的干净语音幅度谱。

试验例

本实验在TSP语音语料库和THCHS-30语料库上进行了训练和测试。TSP数据集共包含24个说话人，THCHS-30数据集包含60个说话人。本发明将这些说话人分成训练集、验证集和测试集。从数据集中随机选择两个语音进行混合，设置的混合SNR范围为0-10dB。测试集说话人在训练集中不可见。在实验中，通过交叉验证评估模型。所有语音数据都重新采样到8kHz，以降低计算复杂度。本发明使用幅度谱作为语音的输入特征，采用帧长为32ms，帧移为8ms的Hanning窗口短时傅里叶变换，获得每帧的129维频域表示。在恢复时域信号时，利用混合语音相位与预测的分离语音进行合成，得到最终的时域表达。

评价指标采用PESQ、SDR、STOI。

与本发明的模型(PROPOSED)对比的有：非负矩阵分解(NMF)，深度聚类算法(DC)，以及声学选择框架下的注意力和记忆模型(ASAM)。

实验对比结果如下，本发明设计的模型在两个说话人混合和三个说话人混合的场景下，各项指标显著总体上优于其他模型。

表1.

表2.

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。