CN111461173A

CN111461173A - 一种基于注意力机制的多说话人聚类系统及方法

Info

Publication number: CN111461173A
Application number: CN202010151406.5A
Authority: CN
Inventors: 林伟伟; 胡康立
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-28
Anticipated expiration: 2040-03-06
Also published as: CN111461173B

Abstract

本发明公开了一种基于注意力机制的多说话人聚类系统及方法，系统包括：噪声去除模块，用于去除音频中噪声；语音活动检测模块，用于检测声音的起始结束位置，分离语音部分和非语音部分；基于自注意力机制的深层次特征向量生成网络，用于提取音频片段的深层次特征向量；基于双向长短期记忆网络Bi‑LSTM以及自注意力机制的全监督聚类网络，用于聚类深层次特征向量并输出聚类结果。本发明的基于注意力机制的多说话人聚类方法，去除了噪声对聚类结果的影响，而且基于自注意力机制的特征向量生成模块能够学习音频的全局结构特征，生成具有判别特性的特征向量。基于Bi‑LSTM及自注意力机制的全监督聚类网络能更好地学习时序以及判别特征，让聚类效果更好。

Description

一种基于注意力机制的多说话人聚类系统及方法

技术领域

本发明涉及语音处理及聚类技术领域，特别涉及一种基于注意力机制的多说话人聚类系统方法。

背景技术

随着科技和互联网的发展，现代社会中的数据大幅度增长，人类时代已进入到一个大数据时代，人们所接受的信息庞大而复杂，在这些信息数据中语音数据占据着重要的地位。而如何从这些语音数据中提取有效的信息，是目前不断在研究和寻求突破的难点热点。说话人聚类(speaker diarization)是语音处理的一个重要分支，其主要思想是将一段音频中是不同说话人的部分分离出来，然后进行聚类，解决一个“谁在什么时候说话”的问题。但是说话人聚类与说话人辨识不同，说话人聚类着重点在于将一些同质音频片段(homogenous segments) 归为某一个人，而不是将这些音频段辨识为一个特定的人。对于说话人聚类的结果，可以用于多种应用场景，如分析客服与客户之间对话录音中客户的需求，为满足客户需求提供更好的服务：音频转录、推荐业务、辅助信息检索等。而传统的说话人聚类系统主要包括4个部分：(1)音频分割。主要是将输入音频分割成只包含一个说话人信息的音频片段；(2)音频特征提取。主要是从分割后的音频片段提取一些重要的特征作为该帧的特征表示；(3)聚类。主要是对音频片段的特征表示进行聚类，划分不同说话人。(4)重分割。利用聚类结果去进行第二次精炼，进而获得更好的结果。

但是目前的说话人聚类系统还存在很多的缺点和不足。当语音中含有噪声时，在进行特征提取之前没有进行去噪处理，会让提取出来的语音特征受到噪声干扰，进而影响系统的聚类效果。此外，传统的特征提取方法提取出来的特征较为简单，难以突出不同说话人的音频之间的差异性。同时，说话人聚类系统中的聚类方法大多数是一些传统的聚类方法，如层次化聚类(Hierarchical Cluster) 以及谱聚类(Spectral Clustering)。但是层次化聚类常常需要设定系统阈值来进行聚类，受阈值影响较大；而效果较好的谱聚类，其聚类效果主要由相似度矩阵决定，但是相似度矩阵的构建会受到参数k(邻域范围)、核函数的参数等超参数的影响，不恰当的参数选择会导致聚类效果低下。而随着神经网络不断被人们深入研究，深度学习模型逐渐被应用到说话人聚类系统上，特别是在提取音频特征和说话人特征聚类这两个方面。

在特征提取方法的改进上，有利用深度神经网络(DNN)训练提取的特征向量d-vector，也有利用延时深度神经网络(TDNN)训练生成的特征向量x-vector。这些方法生成的特征表示都能较为有效地突出不同说话人特征之间的差异性，但是深度神经网络(DNN)生成的特征向量d-vector没有很好学习帧之间的时序关系，而延时深度神经网络(TDNN)生成的特征向量x-vector学习音频全局特性的能力不足。

在聚类方法的改进上，有利用LSTM网络来学习不同帧的相似性，生成一个相似矩阵作为谱聚类的相似性矩阵，避免了相似性矩阵超参数的不巧当选择造成的性能下降，但是该方法只能描述帧之间的局部关系，容易造成说话人聚类具有时间上的聚集性，即一段音频前面一部分都是一个人，后面一部分都是另外一个人，这种聚类效果对于对话类音频是很不理想的；也有直接利用LSTM网络或者GRU网络来训练一个全监督聚类网络，针对特定的数据集训练对应的全监督聚类模型，但是这种模型学习帧特征的判别特性能力不足，而且泛化能力不够。此外，目前一些结合深度学习的聚类方法，没有使用排列无关的损失函数，只是利用一些较为简单的损失函数，容易导致聚类效果受到排列顺序影响，模型不容易收敛。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于注意力机制的多说话人聚类方法，通过利用基于自注意力机制的深层次特征向量生成网络来生成具有判别特性的特征向量，利用基于双向长短期记忆网络Bi-LSTM 以及自注意力机制的全监督聚类网络以及排列无关的损失函数来进行聚类，并且联合优化特征提取以及聚类两个步骤，使得说话人聚类系统的效果得到更好的提升。

为了达到上述目的，本发明采用以下技术方案：

本发明提供的一种基于注意力机制的多说话人聚类系统，包括噪声去除模块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量聚类模块；

所述噪声去除模块，用于去除音频中噪声；

所述语音活动检测模块，用于检测声音的起始以及结束位置，分离语音部分和非语音部分；

所述深层次特征向量生成模块，基于自注意力机制的深层次特征向量生成网络，用于提取音频片段的深层次特征向量；

所述深层次特征向量聚类模块，基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络，用于聚类深层次的特征向量并输出结果。

作为优选的技术方案，所述基于自注意力机制的深层次特征向量生成网络，包括P个串联的自注意力机制编码模块，得到的结果经过一个全连接层，最后输入到一个softmax输出层，其中生成的深层次特征向量是从最后一块自注意力机制编码模块的输出结果经过标准化得到的，而不是经过全连接层或者softmax层得到的结果。

作为优选的技术方案，所述深层次特征向量生成网络是一个分类模型，其损失函数是一个多类交叉熵目标函数，假设在N个音频段中有C个说话人，

为第i个含t个帧的音频段

是第j说话人speak_j的概率，损失函数表达式如下：

其中d_ij是一个权重参数，其具体表达式如下所示：

作为优选的技术方案，所述深层次特征向量生成网络的训练步骤如下：

将音频段分帧并进行语音活动检测处理，得到音频段对应的活动语音帧F_t；

对音频段对应的活动语音帧F_t进行特征提取，输入P个串联的自注意力机制编码模块，得到编码后的特征向量V_t；

将特征向量V_t传入全连接层以及softmax层，输出该音频段的说话人概率

根据说话人概率

计算每一次训练完成后的损失函数值Loss_v，并且利用该损失函数值Loss_v进行反向传播，更新基于自注意力机制的深层次特征向量生成网络的权重；

不断重复上述步骤，直至基于自注意力机制的深层次特征向量生成网络收敛。

作为优选的技术方案，所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络包括N个串联的Bi-LSTM模块，得到的结果传入一个自注意力机制模块，最后输入到一个softmax输出层。

作为优选的技术方案，该基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的损失函数为一个排列无关的损失函数，所述的排列无关的损失函数中，对于一段由C个说话人的说话音频组成的语音，其中每一个说话人分配对应的排列序号[1,···,C]，共有排列次序情况

种，而排列无关的损失函数值Loss_c，则是在所有排列次序情况下给聚类结果选择一种排序使得损失函数Loss_c值最小。

作为优选的技术方案，所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的训练方法为：

将基于自注意力机制的深层次特征向量生成网络生成的特征向量V_t传入N 个Bi-LSTM模块；

将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块；

将经过自注意力机制模块处理的结果输入到softmax输出层，得出聚类结果；

利用聚类结果计算排列无关的损失函数值Loss_c，并且利用该损失函数值 Loss_c进行反向传播，更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的权重；

不断重复上述步骤，直至基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络收敛。

本发明还提供了一种基于注意力机制的多说话人聚类系统的聚类方法，包括下述步骤：

采集多人对话语音并对其进行标记，并存储于存储器中，构造一个多说话人语音数据库；

将数据库中的音频数据沿数据流传入到噪声去除模块和语音活动检测模块进行预处理；

联合训练基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络，进行特征提取以及特征聚类；

所述特征提取的具体步骤为：

将预处理完成的结果活动语音的MFCC特征传入特征提取模块；

将活动语音帧F_t对应的MFCC特征输入P个自注意力机制编码模块，得到深层次特征向量V_t；

将深层次特征向量V_t传入到全连接层以及softmax层，输出该音频段的概率

根据概率

以及数据库中获取的标签信息，计算损失函数值Loss_v，并且利用该损失函数值Loss_v进行反向传播，更新网络的权值；

所述特征聚类具体步骤为：

将生成的深层次特征向量V_t传入N个Bi-LSTM模块；

将Bi-LSTM模块的输出结果传入到一个自注意力机制模块；

将自注意力机制模块的输出结果传入到softmax层，得出聚类结果；

根据聚类结果以及数据库中获得标签信息计算排列无关的损失函数值Loss_c，并且利用该损失函数值Loss_c进行反向传播，更新网络的权值；

联合优化两个模块，即通过极小化下列目标函数来优化两个网络：

min L＝α·Loss_v+(1-α)·Loss_c α∈(0,1)

重复以上步骤，直至基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络达到收敛状态。

作为优选的技术方案，所述预处理为：

去噪处理，所使用的方法包括以下方法及其变体：小波变换、维纳滤波、 LogMMSE、神经网络DNN、CNN；

语音活动检测，所使用的方法以下方法及其变体：短时能量、短时过零率、神经网络DNN、CNN、LSTM。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在提取音频特征前，增加了对音频特征的去噪处理步骤，减少噪声对说话人聚类系统的聚类效果的影响。

(2)本发明中的基于自注意力机制的深层次特征向量生成网络生成的深层次特征向量具有更好的判别特征，在空间分布上，会使得同一类的特征向量相距更加接近，不同类的特征向量相距更加远。使用自注意力机制可以学习音频的全局特征，更好地捕捉帧之间的关系，以便于生成具有判别特性的特征向量。

(3)本发明采用基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络，有助于提高说话人的聚类效果。双向长短期记忆网络Bi-LSTM 可以学习具有时序特性的特征向量之间的关系，更加清晰地描述其全局特征以及局部特征；而自注意力机制可调整对不同帧之间的关注程度(权重)，突出特征向量的判别特征，以便于提高对说话人的聚类效果；此外，利用了排序无关的损失函数可降低说话人聚类效果因排序问题导致的性能下降的影响。

(4)本发明联合优化基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络，避免了多步骤优化过程中不同优化方法带来的误差以及误差传递，提高了说话人聚类系统的效果。

附图说明

图1为本发明基于注意力机制的多说话人聚类方法的流程图示意图。

图2为本发明的一种具体实施方式的流程图示意图。

图3为本发明预处理模块M02实施流程图示意图。

图4为本发明特征提取模块M03实施流程图示意图。

图5为本发明聚类模块M04实施流程图示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例一种基于注意力机制的多说话人聚类系统，包括噪声去除模块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量聚类模块；

所述噪声去除模块，用于去除音频中噪声；所述的噪声去除模块用于去除音频背景噪声的方法，包括但不限于以下方法及其变体：小波变换、维纳滤波 (Wienerfiltering)、LogMMSE、神经网络DNN、CNN等。

所述语音活动检测模块，用于检测声音的起始以及结束位置，分离语音部分和非语音部分；所述的语音活动检测模块用于检测声音的起始以及结束位置，分离语音部分和非语音部分的方法，包括但不限于以下方法及其组合或者变体：短时能量(short timeenergy)、短时过零率(short time zero cross rate)、神经网络 DNN、CNN、LSTM等。

所述基于自注意力机制的深层次特征向量生成网络，包括P个串联的自注意力机制编码模块，得到的结果经过一个全连接层，最后输入到一个softmax输出层，其中生成的深层次特征向量是从最后一块自注意力机制编码模块的输出结果经过标准化得到的，而不是经过全连接层或者softmax层得到的结果。

所述深层次特征向量生成网络是一个分类模型，其损失函数是一个多类交叉熵目标函数，假设在N个音频段中有C个说话人，

为某个含t个帧的音频段是某个说话人j的概率，损失函数表达式如下：

所述深层次特征向量生成网络的训练步骤如下：

根据说话人概率

所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络包括N个串联的Bi-LSTM模块，得到的结果传入一个自注意力机制模块，最后输入到一个softmax输出层。

该基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的损失函数为一个排列无关的损失函数，所述的排列无关的损失函数中，对于一段由C个说话人的说话音频组成的语音，其中每一个说话人分配对应的排列序号[1,···,C]，共有排列次序情况

所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的训练方法为：

将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块；

将经过自注意力机制模块处理的结果输入到softmax输出层，得出聚类结果。

利用聚类结果计算排列无关的损失函数值Loss_c，并且利用该损失函数值 Loss_c进行反向传播，更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的权重。

本发明基于注意力机制的多说话人聚类系统的聚类方法的具体实施流程如图2所示，但是本发明在训练模型与使用模型预测所需要的步骤不完全类似。在训练的过程中，图2中标签数据流是必需的，即从数据库传输标签数据流D03、 D04到特征提取模块M03和聚类模块M04是必要的，这些标签信息是用于训练基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi- LSTM以及自注意力机制的全监督聚类网络。而在使用模型的过程中，标签数据流D03、D04是不需要传递到特征提取模块M03和聚类模块M04，模型的数据流向只需要按照图2所示，从数据库中传递音频数据到预处理模块M02，然后预处理模块M02的结果传递到特征提取模块M03，再将特征提取模块M03的结果传递到聚类模块M04，最后输出聚类结果。

本实施例一种基于注意力机制的多说话人聚类方法，包括以下步骤：

(1)采集多人对话语音并对其进行标记，并存储于存储器中，构造一个多说话人语音数据库。

(2)将数据库中的音频数据沿数据流D02传入到预处理模块M02，对音频进行预处理，如图3所示，预处理模块M02具体步骤如下：

(2.1)去噪处理。对原始音频进行小波分解，得到各细节分量和近似分量，并设置一个阈值对细节分量进行阈值处理，对大于阈值的细节分量进行置零处理，然后对处理完成后的分量进行小波重构，得到去噪后音频数据。

(2.2)语音活动检测。首先利用一个大小为25ms，重叠区域为10ms的滑动窗口对音频进行采样分帧，然后对每一帧提取39维的MFCC特征，以便后续使用。而检测声音的起始以及结束位置，主要是利用了短时能量(short time energy)以及短时过零率(shorttime zero cross rate)两种检测方法结合的方法。

进一步的，短时能量计算公式：

其中w(k)为窗口函数，N为窗口函数的长度，n为帧的采样率。在此实施例中w(k)所使用的窗口函数是汉明窗口函数：

进一步的，短时过零率计算公式：

其中sign(x)为符号函数，具体公式如下所示：

更进一步的，语音活动检测的具体实现为：

(a)设定系统的能量阈值E_th、E_tl以及过零率阈值Z_t，其中E_th＞E_tl。

(b)依次计算每一帧短时能量E(n)，当存在某一帧F_t的短时能量E(n)大于系统设定的能量阈值E_th时，则以该帧F_t为起点，分别向前向后搜索短时能量E(n)小于能量阈值E_tl对应帧的位置L_s、L_e。

(c)从位置L_s向前搜索短时过零率ZCR(n)小于系统设定的过零率阈值Z_t对应帧的位置Voice_s，作为活动语音段的起始位置；从位置L_e向后搜索短时过零率ZCR(n)小于系统设定的过零率阈值Z_t对应帧的位置 Voice_e，作为活动语音段的结束位置；

(d)根据上述步骤分离语音部分和非语音部分，丢弃非语音部分，保留语音部分，并提取语音部分的MFCC特征，作为特征提取模块的输入。

(3)联合训练基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络。该部分主要涉及特征提取模块M03以及聚类模块M04。

如图4所示，特征提取模块M03具体实现步骤如下：

M03-1.将预处理模块M02处理完成的结果活动语音的MFCC特征传入特征提取模块；

M03-2.将活动语音帧F_t对应的MFCC特征输入P个自注意力机制编码模块，得到深层次特征向量V_t；

M03-3.将M03-2的结果深层次特征向量V_t传入到全连接层以及softmax层，输出该音频段的概率

M03-4.根据M03-3结果概率

以及数据库中经数据流D03获取的标签信息，计算损失函数值Loss_v，并且利用该损失函数值Loss_v进行反向传播，更新网络的权值。

如图5所示，聚类模块M04具体实现步骤如下：

M04-1.将特征提取模块M03生成的深层次特征向量V_t传入N个Bi-LSTM模块；

M04-2.将M04-1的输出结果传入到一个自注意力机制模块；

M04-3.将M04-2的输出结果传入到softmax层，得出聚类结果；

M04-4.根据M04-3的聚类结果以及数据库中经数据流D04获得标签信息计算排列无关的损失函数值Loss_c，并且利用该损失函数值Loss_c进行反向传播，更新网络的权值。

min L＝α·Loss_v+(1-α)·Loss_c α∈(0,1)

不过重复以上步骤，直至基于自注意力机制的深层次特征向量生成网络和基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络达到收敛状态。

(4)网络训练完成，从数据库选取未聚类的音频，如图2所示，将音频数据传递到预处理模块M02，然后预处理模块M02的结果传递到特征提取模块 M03，再将特征提取模块M03的结果传递到聚类模块M04，最后输出聚类结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的多说话人聚类系统，其特征在于，包括噪声去除模块、语音活动检测模块、深层次特征向量生成模块以及深层次特征向量聚类模块；

所述噪声去除模块，用于去除音频中噪声；

2.根据权利要求1所述基于注意力机制的多说话人聚类系统，其特征在于，所述基于自注意力机制的深层次特征向量生成网络，包括P个串联的自注意力机制编码模块，得到的结果经过一个全连接层，最后输入到一个softmax输出层，其中生成的深层次特征向量是从最后一块自注意力机制编码模块的输出结果经过标准化得到的，而不是经过全连接层或者softmax层得到的结果。

3.根据权利要求2所述基于注意力机制的多说话人聚类系统，其特征在于，所述深层次特征向量生成网络是一个分类模型，其损失函数是一个多类交叉熵目标函数，假设在N个音频段中有C个说话人，

为第i个含t个帧的音频段

是第j说话人speak_j的概率，损失函数表达式如下：

其中d_ij是一个权重参数，其具体表达式如下所示：

4.根据权利要求2所述基于注意力机制的多说话人聚类系统，其特征在于，所述深层次特征向量生成网络的训练步骤如下：

根据说话人概率

5.根据权利要求1所述基于注意力机制的多说话人聚类系统，其特征在于，所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络包括N个串联的Bi-LSTM模块，得到的结果传入一个自注意力机制模块，最后输入到一个softmax输出层。

6.根据权利要求5所述基于注意力机制的多说话人聚类系统，其特征在于，该基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的损失函数为一个排列无关的损失函数，所述的排列无关的损失函数中，对于一段由C个说话人的说话音频组成的语音，其中每一个说话人分配对应的排列序号[1,···,C]，共有排列次序情况

7.根据权利要求6所述基于注意力机制的多说话人聚类系统，其特征在于，所述基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的训练方法为：

将基于自注意力机制的深层次特征向量生成网络生成的特征向量V_t传入N个Bi-LSTM模块；

将经过Bi-LSTM模块处理的结果输入到一个自注意力机制模块；

利用聚类结果计算排列无关的损失函数值Loss_c，并且利用该损失函数值Loss_c进行反向传播，更新基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络的权重；

8.根据权利要求1-7中任一项所述基于注意力机制的多说话人聚类系统的聚类方法，其特征在于，包括下述步骤：

所述特征提取的具体步骤为：

将预处理完成的结果活动语音的MFCC特征传入特征提取模块；

根据概率

所述特征聚类具体步骤为：

将生成的深层次特征向量V_t传入N个Bi-LSTM模块；

将Bi-LSTM模块的输出结果传入到一个自注意力机制模块；

min L＝α·Loss_v+(1-α)·Loss_c α∈(0,1)

9.根据权利要求8所述基于注意力机制的多说话人聚类系统的聚类方法，其特征在于，所述预处理为：

去噪处理，所使用的方法包括以下方法及其变体：小波变换、维纳滤波、LogMMSE、神经网络DNN、CNN；