CN111179959A

CN111179959A - 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统

Info

Publication number: CN111179959A
Application number: CN202010009945.5A
Authority: CN
Inventors: 曲天书; 吴玺宏; 彭超
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-19
Anticipated expiration: 2040-01-06
Also published as: CN111179959B

Abstract

本发明公开了一种基于说话人嵌入空间的竞争说话人数量估计方法及系统。本方法为：1)利用麦克风阵列采集多说话人的混合多通道信号；2)提取所述混合多通道信号的多通道幅度信息和多通道相位信息；3)利用深度神经网络分别估计所述多通道幅度信息的嵌入空间和多通道相位信息的嵌入空间；4)利用全连接层将两所述嵌入空间映射到说话人嵌入空间；其中，所述多通道幅度信息的嵌入空间、多通道相位信息的嵌入空间和说话人嵌入空间均为相同维度的嵌入空间；5)估计所述说话人嵌入空间中的嵌入向量的平均协方差矩阵；6)对所述平均协方差矩阵做特征值分解，将得到的秩的个数判定为说话人的数量。本发明能够实现更精确的竞争说话人数量估计。

Description

一种基于说话人嵌入空间的竞争说话人数量估计方法及系统

技术领域

本发明属于竞争说话人计数领域，涉及深度神经网络、嵌入空间和特征值分解，具体涉及一种基于嵌入空间(Embedding Space)的竞争说话人数量估计方法。

背景技术

在多个说话者同时讲话同时有其他干扰源的环境中，拾音目标说话者的声音一直是一个难题。

最近，许多基于深度学习的方法在这方面都进行了尝试，例如，置换不变训练(Permutation Invariant Training)，深度聚类(Deep Clustering)和深度吸引子网络(Deep Attractor Network)。但是，这些语音分离方法都具有一个主要问题，即必须知道说话人的个数。同时，存在于复杂声学场景中的说话人数量不仅对于语音分离而且对于声音定位、音频监控和多说话人语音识别都是至关重要的信息。

然而，现有方法并不能直接获得真实环境中的竞争说话人的数量。幸运的是，在最近的说话人数量估计工作中，存在三种使用深度学习解决此问题的策略。第一个是通过说话人分割(Speaker Diarization)进行计数，它通过检测一个说话人在一段时间内何时开始讲话和何时结束讲话来进行计数；但这似乎是一个非常复杂的问题，并且当同时有多个源一起说话时(如在实际的鸡尾酒会环境中)，现有的切割策略将失败。第二个是利用波达方向(DOA)计数，该方法通过手动确定阈值或检测峰的数量来确定；然而，在有语音重叠的多个说话人的情况下，它的效果非常不佳。最后一种策略是直接使用深度神经网络进行计数，它基于强大的机器学习技术，可将输入表示直接映射到说话者人数；尽管该策略可行，但缺乏数学上的可解释性。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于深度联合嵌入学习的竞争说话人数量估计方法及系统。本发明首先引入了一种多通道方法，将单通道的混合语音幅度谱扩展到多通道特征；由于空间幅度信息和相位信息训练的嵌入矢量是互补的，因此本发明会首先训练空间幅度谱和相位谱的两个嵌入空间，然后再将其映射到相同的嵌入空间中。这种方法能够很好地估计竞争说话人的人数。

本发明的基本思想是使用神经网络将混合语音投影到说话人嵌入空间中，其中不同说话人的嵌入向量之间是正交的，而对于同一说话人是平行的。因此，可以通过计算嵌入矢量的平均协方差矩阵的秩来对说话者数量进行估计。这是一种新颖的在说话人嵌入空间中的一种特征拼接方法，而不是简单地在神经网络的输入层进行特征拼接。实验结果表明，在无混响和有混响的数据集上，本发明所提出的基于联合学习的方法比单通道和多通道说话者计数估计方法能够实现更精确的竞争说话人数量估计。

本发明的重要创新之处在于在已有的单通道方法基础上，利用联合学习分别学习幅度信息和相位信息的嵌入空间，接着再将其映射到同一个嵌入空间，最后利用这个嵌入空间中的嵌入向量的平均协方差矩阵的特征值分解估计说话人数量。

本发明的技术方案为：

一种基于说话人嵌入空间的的竞争说话人数量估计方法，其步骤包括：

1)首先，利用麦克风阵列采集多说话人的混合多通道信号；

2)在得到多通道信号后，分别提取多通道信号的多通道幅度信息和多通道相位信息；

3)利用深度神经网络分别估计幅度信息和相位信息的嵌入空间；

4)利用一个全连接层将两个嵌入空间映射到一个新的嵌入空间；

5)估计新嵌入空间中的所有嵌入向量的平均协方差矩阵；

6)对平均协方差矩阵做特征值分解，秩的个数就是说话人的数量。

进一步的，其他麦克风与参考麦克风之间的幅度差定义为参考麦克风的对数幅度谱加

其他麦克风与参考麦克风之间的相位差定义为参考麦克风的相位谱加F_IPD＝cos(∠X_t,f,p-∠X_t,f,q)；其中，X_t,f,p为麦克风p在时间t和频率f的信号的短时傅里叶系数，X_t,f,q是麦克风q在时间t和频率f的信号的短时傅里叶系数。

进一步的，在所述嵌入空间中，对于由同一说话者主导的时频点，嵌入矢量在同一方向上平行，而对于由不同说话者主导的时频点则为正交。

进一步的，所述深度神经网络为BLSTM，其中，所述深度神经网络的损失函数为

其中，V为所述深度神经网络输出的D维深度嵌入特征，矩阵

矩阵A＝YY^T，Y∈R^N×C是时频点的one-hot表示形式，代表标签信息，C是源的数量，N是时频点的个数。

进一步的，V＝f_θ(X)∈R^N×D；X为输入所述深度神经网络的语音信号特征，f_θ(*)是一个映射函数；当X为多通道幅度信息时，V为多通道幅度信息的嵌入空间；当X为多通道相位信息时，V为多通道相位信息的嵌入空间。

进一步的，估计的说话人数量

其中n(*)是计算说话人数量的运算，t为设定阈值，λ_i为所述平均协方差矩阵R_e的第i个特征值，D为所述说话人嵌入空间的维度。

本发明提出的基于深度联合嵌入学习的竞争说话人数量估计方法的基本框架如图1所示，是一种基于联合学习的多通道方法，本系统主要包括以下几个部分：

多通道数据获取利用麦克风阵列获取多说话人的混合多通道音频数据。

多通道信号特征提取对于获取的多通道信号，分别提取信号的多通道幅度信息和多通道相位信息。其中多通道幅度信息包括麦克风阵列中参考麦克风的幅度谱和麦克风阵列中其他麦克风与参考麦克风间的幅度差，多通道相位信息包括参考麦克风的相位谱和其他麦克风与参考麦克风间的相位差。

幅度和相位嵌入空间估计利用深度神经网络强大的非线性建模能力，将输入的幅度信息和相位信息分别映射到各自的嵌入空间，也就是幅度嵌入空间和相位嵌入空间。其中神经网络在本发明中采用的是两层双向长短时记忆网络(BLSTM)，输入是混合语音的特征，输出是估计的与特征对应的嵌入空间。

说话人嵌入空间映射由于幅度和相位的嵌入空间存在一定的互补性，故需要将两个嵌入空间重新映射到一个新的嵌入空间。这里映射使用的网络结构是一个全连接层，全连接层接在BLSTM的输出，也就是将两个D维的嵌入向量映射到一个D维的向量。

说话人数量估计计算新嵌入空间中的所有嵌入向量的平均协方差矩阵，接着对协方差矩阵做特征值分解。理论上来说，协方差矩阵的秩的个数就是竞争说话人的数量。

与现有技术相比，本发明的积极效果为：

本发明充分利用了幅度和相位信息的互补性，将现有的单通道计数方法扩展到多通道上，利用联合学习方法学习两者之间的互补性。此方法克服了现有的多说话人语音分离方法依赖说话人数量这一先验知识的不足，为未知说话人数量情况下的多说话人语音分离提供了可靠的解决方案。

附图说明

图1为本发明提出的提出的多说话人语音分离框架图；

图2为本发明中多通道数据采集所用的麦克风阵列图；

图3为无混响数据集上三种方法的平均说话人数量估计准确率对比图；

图4为有混响数据集上三种方法的平均说话人数量估计准确率对比图。

具体实施方式

下面参照本发明的附图，更详细地描述本发明的最佳实施例。图1所示为本发明提出的基于多通道联合学习的竞争说话人数量估计系统，本发明方法的具体实现步骤包括多通道数据获取、多通道信号特征提取、幅度和相位嵌入空间估计、新嵌入空间映射、说话人数量估计。各步骤的具体实现过程如下：

1.多通道数据获取

设计麦克风阵列，可以是线阵等一维麦克风阵列，可以是等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形/矩形面阵等二维麦克风阵列，也可以是四面体阵、正方体阵、长方体阵、球型阵等三维麦克风阵列。而本发明在后面验证的时候采用的是8麦克风均匀线阵。利用这些麦克风阵列采集多说话人的混合语音数据。

2.多通道信号特征提取

为了训练网络，通常在许多工作中使用了诸如通道间幅度差(ILD)和通道间相位差(IPD)之类的空间信息。以第一个麦克风为参考，本发明采用以下F_IPD和F_ILD作为模型训练的附加特征：

F_IPD＝cos(∠X_t,f,p-∠X_t,f,q), (1)

其中X_t,f,p为麦克风p在时间t和频率f的信号的短时傅里叶系数，X_t,f,q是麦克风q在时间t和频率f的信号的短时傅里叶系数。

在本发明中，单通道竞争说话者计数估计系统(EBSC)被定义为BLSTM的输入仅仅只有参考麦克风通道的对数幅度谱，使用的网络结构依然是两层BLSTM，输出是嵌入向量。类似地，将图1所示的多通道幅度信息(Magnitute Information)中的其他麦克风与参考麦克风之间的幅度差定义为参考麦克风的对数幅度谱加F_ILD，而将多通道相位信息(PhaseInformation)中的其他麦克风与参考麦克风之间的相位差定义为参考麦克风的相位谱加F_IPD。用于多通道竞争说话者计数估计系统(EBMC)的BLSTM输入是幅度信息和相位信息。

3.幅度和相位嵌入空间估计

在这一步骤中，本发明使用深度神经网络分别将多通道幅度信息和多通道相位信息映射到各自的嵌入空间。在嵌入空间中，对于由同一说话者主导的时频点，嵌入矢量在同一方向上平行，而对于由不同说话者主导的时频点则为正交。正是嵌入向量的这种性质使本发明可以通过对嵌入向量的协方差矩阵进行特征值分解来获取说话人的数量。BLSTM的输入是语音信号X的特征(可以泛指为多通道幅度信息、多通道相位信息或者多通道幅度信息和相位信息的拼接)，输出是D维深度嵌入特征V。

V＝f_θ(X)∈R^N×D, (3)

其中N是所有时频点的个数，R^N×D表示V是一个(N,D)的实数矩阵，f_θ(*)是一个映射函数，也就是BLSTM。

映射到高维空间中的表示V仍应描述时频点的相似性，也就是说，矩阵

应该等于A＝YY^T，其中Y∈R^N×C是时频点的one-hot表示形式，代表标签信息，而C是源的数量。因此，损失函数可以通过以下方式进行计算：

其中V表示说话人嵌入矢量，如图1所示。在矩阵

或A中如果时频点n和n′由不同的说话者主导，则时频点(n,n′)的元素为0，否则(n,n′)的元素为1。换句话说，如果时频点n和n′由不同说话人主导，第n个时频点的嵌入矢量v_n＝(v₁,v₂,…,v_n,D)^T将与v_n′正交，否则v_n′v_n为1。

4.说话人嵌入空间映射

在估计了幅度信息和相位信息的嵌入空间后，由于两个嵌入空间存在一定的互补性，故需要一个全连接层将两个嵌入空间映射到同一个嵌入空间。具体操作就是使用一个全连接层将两个D维的嵌入向量映射到一个D维的向量。

5.说话人数量估计

可以通过嵌入向量的协方差矩阵的特征值分解来获得竞争说话人的数量，因为嵌入向量在理想情况下是彼此正交的。假设嵌入向量的协方差矩阵为R_e，v_n是上一步得到的嵌入中间中的第n个D维向量。

协方差矩阵R_e的特征分解如下：

R_e＝UΛU^H, (6)

其中U表示特征向量矩阵，而Λ是特征值矩阵，表示为Λ＝diag(λ₁,λ₂…,λ_D)。

协方差矩阵的秩在理论上等于竞争发言者的人数，因此本发明假定大于矩阵R_e阈值t的特征值λ是说话人的数量。

其中n(*)是计算说话人数量的运算，而

是估计的说话人数量。

仿真数据与结果

仿真的实验数据来自《华尔街日报》(WSJ0)语料库。本发明创建了1-5个说话人的混合语音数据集。数据集被分为训练集(20,000个发音，约30小时)，验证集(5000个发音，约10小时)和测试集(3000个发音，约5小时)，其中1-5个说话者的音频数是平均的。训练集和验证集都是从文件夹"si_tr_s"中的源音频文件中随机混合而来的，而测试集是从其余两个文件夹中的源音频文件中随机混合的。所有音频数据都下采样到8kHz，以减少存储和计算成本。然后将数据以0至5dB的信噪比(SNR)随机混合。

1.深度神经网络训练设置

在本文中，深度嵌入网络具有两个BLSTM层，每层有600个单元。使用的Adam学习算法的初始学习率为0.0005，而所有模型均包含dropout，dropout率为0.5。嵌入维$D$设置为20。tanh激活函数后面是嵌入层。本发明的模型是使用PyTorch深度学习框架实现的。STFT的窗口长度和窗口偏移分别为256ms和64ms。

此外，在训练过程中的成本计算中忽略了时频点的静音区域。静音区域被定义为幅度小于最大混合幅度的-40dB的时频点。

2.麦克风阵列及多通道仿真数据生成

为了模拟多通道混合，本发明将脉冲响应与语音信号进行卷积，如图2所示。本发明使用房间脉冲响应(RIR)生成器来空间化数据集。如图2所示，本文考虑了线性阵列设置，它使用8麦克风"2-2-2-2-2-2-2"cm的线性阵列。说话人被随机放置在从0°到180°步长为15°的角度中，并且距阵列中心1m和2m。房间的长度和宽度均从5.0m至10.0m中随机选择，而高度则从3.0m至4.0m中随机选择。此外，对于混响数据集，每种混合物的T60值均在[0.2，0.7]s范围内随机选取，而无混响数据集的T60值为0。

3.对比方法

本发明将目前已有的单通道竞争发言人计数估计系统(EBSC)这一方法作为基线模型，然后将其扩展到多通道系统(EBMC)，与之区别在于网络的输入特征多了信号的多通道的特征，在“多通道信号特征提取”有具体阐述。本发明还连接了一个全连接层(EBMCJL)，然后将幅度嵌入和相位嵌入空间中的两个D维嵌入向量映射为一个D维嵌入向量。

4.实验结果

为了找到等式(7)中的最佳参数t，本发明在无回声和混响测试集上以0.01的步长从0.00到0.15调整了t，并评估了本文中使用的所有方法的说话人计数性能。图3和图4分别显示了在无混响和有混响数据集上1-5个说话人的平均计数准确率。可以看出，在任何阈值$t$下，EBSC的计数精度始终表现最差，而在t＝0.05的情况下，所有方法均获得了最佳性能。因为嵌入向量长度为20维，因此理论上最优的阈值应该是

此外，表1显示了1-5个说话人的在最佳参数t＝0.05上的平均计数精度。与[16]中的基线方法EBSC相比，多通道方法EBMC的平均准确度更高，在无混响和有混响数据集上分别提高了14.6％和5.6％。在多通道方法的基础上，提出的EBMCJL的计数比EBMC更为准确，除了这两个数据集上的1个说话人混合语音数据和混响数据集上的5个说话人混合语音。此外，无混响数据集的EBSC，EBMC和EBMCJL的平均准确度分别为70.8％，85.4％和90.6％，而混响数据集的平均准确度分别为60.0％，65.6％和70.4％。结果表明，由于目标说话人的直达声被用在混响数据集上进行网络训练的监督，因此在混响数据集上的计数准确性较差，这使得神经网络不仅需要学习说话者的嵌入空间，而且还具有去混响的能力。

EBMC和EBMCJL是两种多通道的方法，EBMC可以看作是特征在网络输入层的拼接，而EBMCJL可以看作是特征在嵌入空间中的拼接。从表1可以看出在嵌入空间的特征拼接比在网络输入层的特征拼接具有更好的计数精度。原因在于幅度嵌入空间代表了语音内容的信息，而相位嵌入空间包含了空间方向的信息，并且它们可以彼此互补。

表1为1-5个说话人在测试集上的计数准确性[％](t＝0.05)

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于说话人嵌入空间的竞争说话人数量估计方法，其步骤包括：

1)利用麦克风阵列采集多说话人的混合多通道信号；

2)提取所述混合多通道信号的多通道幅度信息和多通道相位信息；其中，多通道幅度信息包括麦克风阵列中参考麦克风的幅度谱和麦克风阵列中其他麦克风与该参考麦克风间的幅度差，多通道相位信息包括该参考麦克风的相位谱和其他麦克风与该参考麦克风间的相位差；

3)利用深度神经网络分别估计所述多通道幅度信息的嵌入空间和多通道相位信息的嵌入空间；

4)利用全连接层将两所述嵌入空间映射到说话人嵌入空间；其中，所述多通道幅度信息的嵌入空间、多通道相位信息的嵌入空间和说话人嵌入空间均为相同维度的嵌入空间；

5)估计所述说话人嵌入空间中的嵌入向量的平均协方差矩阵；

6)对所述平均协方差矩阵做特征值分解，将得到的秩的个数判定为说话人的数量。

2.如权利要求1所述的方法，其特征在于，其他麦克风与参考麦克风之间的幅度差定义为参考麦克风的对数幅度谱加

其他麦克风与参考麦克风之间的相位差定义为参考麦克风的相位谱加F_IPD＝cos(∠X_t，f，p-∠X_t，f，q)；其中，X_t，f，p为麦克风p在时间t和频率f的信号的短时傅里叶系数，X_t，f，q是麦克风q在时间t和频率f的信号的短时傅里叶系数。

3.如权利要求1所述的方法，其特征在于，在所述嵌入空间中，对于由同一说话者主导的时频点，嵌入矢量在同一方向上平行，而对于由不同说话者主导的时频点则为正交。

4.如权利要求1或3所述的方法，其特征在于，所述深度神经网络为BLSTM，其中，所述深度神经网络的损失函数为

其中，V为所述深度神经网络输出的D维深度嵌入特征，矩阵

5.如权利要求4所述的方法，其特征在于，V＝f_θ(X)∈R^N×D；X为输入所述深度神经网络的语音信号特征，f_θ(*)是一个映射函数；当X为多通道幅度信息时，V为多通道幅度信息的嵌入空间；当X为多通道相位信息时，V为多通道相位信息的嵌入空间。

6.如权利要求1所述的方法，其特征在于，估计的说话人数量

7.一种基于说话人嵌入空间的竞争说话人数量估计系统，其步骤在于，包括多通道数据获取模块、多通道信号特征提取模块、幅度和相位嵌入空间估计模块、说话人嵌入空间映射模块和说话人数量估计模块；其中，

多通道数据获取模块，用于利用麦克风阵列采集多说话人的混合多通道信号；

多通道信号特征提取模块，用于提取所述混合多通道信号的多通道幅度信息和多通道相位信息；其中，多通道幅度信息包括麦克风阵列中参考麦克风的幅度谱和麦克风阵列中其他麦克风与该参考麦克风间的幅度差，多通道相位信息包括该参考麦克风的相位谱和其他麦克风与该参考麦克风间的相位差；

幅度和相位嵌入空间估计模块，用于利用深度神经网络分别估计所述多通道幅度信息的嵌入空间和多通道相位信息的嵌入空间；

说话人嵌入空间映射模块，用于利用全连接层将两所述嵌入空间映射到说话人嵌入空间；其中，所述多通道幅度信息的嵌入空间、多通道相位信息的嵌入空间和说话人嵌入空间均为相同维度的嵌入空间；

说话人数量估计模块，用于估计所述说话人嵌入空间中的嵌入向量的平均协方差矩阵；然后对所述平均协方差矩阵做特征值分解，将得到的秩的个数判定为说话人的数量。

8.如权利要求7所述的竞争说话人数量估计系统，其步骤在于，所述多通道幅度信息定义为参考麦克风的对数幅度谱加

所述多通道相位信息定义为参考麦克风的相位谱加F_IPD＝cos(∠X_t，f，p-∠X_t，f，q)；其中，X_t，f，p为麦克风p在时间t和频率f的信号的短时傅里叶系数，X_t，f，q是麦克风q在时间t和频率f的信号的短时傅里叶系数。

9.如权利要求7所述的竞争说话人数量估计系统，其步骤在于，在所述嵌入空间中，对于由同一说话者主导的时频点，嵌入矢量在同一方向上平行，而对于由不同说话者主导的时频点则为正交。

10.如权利要求7所述的竞争说话人数量估计系统，其步骤在于，所述深度神经网络为BLSTM，其中，所述深度神经网络的损失函数为

其中，V为所述深度神经网络输出的D维深度嵌入特征，矩阵