CN113963718A

CN113963718A - 一种基于深度学习的语音会话分割方法

Info

Publication number: CN113963718A
Application number: CN202111245978.0A
Authority: CN
Inventors: 姜元春; 葛鸿飞; 钱洋; 刘业政; 孙见山; 柴一栋; 袁昆; 周凡; 李�浩
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-21
Anticipated expiration: 2041-10-26
Also published as: CN113963718B

Abstract

本发明公开了一种基于深度学习的语音会话分割方法，包括：1获取会话语音集合并进行分帧和短时加窗处理；2筛除静音段；3提取语音信号的显式特征；4提取语音信号的隐式特征5κ‑means聚类。本发明方法在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。

Description

一种基于深度学习的语音会话分割方法

技术领域

本发明属于语音数据处理分析领域，具体的说是一种基于深度学习的语音会话分割方法。

背景技术

在当今互联网大数据背景下，对特定数据进行处理分析，变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”，即从数据中抽取有用信息，机器学习尤其是深度学习的算法很大程度上依赖于数据表征，因而如何利用互联网上海量数据，自监督式挖掘其自身潜在有效信息，受到研究者们的广泛关。说话人分割聚类技术作为一项重要的前端处理技术，它可以获取一段多人对话语音中的说话人身份变动的信息，并确定哪些语音段是由同一个人发出来的。说话人分割聚类技术在多种领域中都有重要作用，如在会议语音中，说话人分割聚类可以将每个人的语音分割出来方便提取目标人语音；在声纹鉴定工作中，送检的检材通常是多人对话，但需要鉴定的往往是其中一人的语音。因此鉴定人员需要将整段音频预检后再选取目标语音进行检验。当音频时间较长时，这一步骤会花费鉴定人员大量精力。说话人分割聚类技术可以帮助鉴定人员解决这一问题。最初说话人分割方法是基于短时能量，这种方法的适用前提是在说话人身份转变时有一段寂静期。当有抢话现象或者有背景噪声时，这种方法性能就会急剧下降。目前说话人分割主流的方法是基于距离尺度和基于模型。基于距离尺度常用的方法有贝叶斯信息准则(BIC)、归一化似然比(GLR)和KL2距离等。基于距离尺度方法不需要先验知识，计算量小，但是需要划定门限，鲁棒性较差。基于深度神经网络模型的说话人分割的方法漏检率低，但是计算量较大。说话人聚类方法有自下而上和自上而下两种。目前大多数的说话人聚类系统都采用自下而上的聚类方法，但是这种方法鲁棒性较差；自上而下聚类最开始只有一个类别，每次增加一个类别然后重新计算更新类别，这种方法的类别区分性较差。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于深度学习的语音会话分割方法，以期在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于深度学习的语音会话分割方法的特点按如下步骤进行：

步骤1、获取会话语音集合W＝{(w₁,y₁),(w₂,y₂),…,(w_m′,y_m′),…,(w_M′,y_M′)}，其中，w_m′表示第m′条会话语音，并有：w_m′＝(w_m′,T,w_m′,2T,…,w_m′,nT,…,w_m′,tT)^T，w_m′,nT表示第m′条会话语音w_m′中在n×T时刻的信号强度，t表示第m′条语音会话w_m′的时间长度，T表示采样周期；y_m′表示第m′条语音会话的会话者的唯一身份标签，并对y_m′进行one-hot向量表示，得到向量化后的第m′个身份标签向量，记为

其中，

表示第m′个样本对应身份标签向量的第i维的值，k为会话语音集合W中会话者的人数；M′表示会话语音的数量；

步骤2、分帧和短时加窗处理：

将帧长度设置为T₁，从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w₁,w₂,...,w_M′}进行分帧处理，得到M个语音帧，再以汉明窗作为窗函数对M个语音帧进行滑动处理，得到加窗处理后的语音帧集合F＝{(f₁,y₁),(f₂,y₂),…,(f_m,y_m),…,(f_M,y_M)}，f_m表示第m个加窗后的语音帧，并有：

其中，f_m,iT表示第m个加窗后的语音帧f_m在i×T时刻的信号强度；y_m表示第m个加窗后的语音帧f_m所对应的会话者标签；

步骤3、筛除静音段：

利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧f_m的能量E(f_m)：

设E_M为静音帧的阈值，将能量E(f_m)与阈值E_M进行比较，并筛除能量E(f_m)小于E_M的语音帧，从而得筛选后的语音帧集合F_voice＝{(f₁′,y′₁),(f′₂,y′₂),…,(f′_n,y′_n),…,(f′_N,y′_N)}，其中，f′_n表示筛选后的第n条语音帧，y′_n为筛选后的第n条语音帧f′_n所对应的会话者标签；N为语音帧集合F_voice中的语音帧条数；

步骤4、语音信号的显式特征提取：

步骤4.1、对所述语音帧集合F_voice中的语音帧进行快速傅立叶变换，得到各帧的频谱；再对各帧的频谱取模的平方得到N个功率谱，由每个功率谱所对应的灰度图构成灰度图集合，记为G＝{(g₁,y′₁),(g₂,y′₂),…,(g_n,y′_n),…,(g_N,y′_N)}，其中，g_n表示第n个功率谱所对应的灰度图，并以二维矩阵来表示；

步骤4.2、将灰度图集合G划分为包含N₁个样本的训练集G_train和N₂个样本的测试集G_test，且G_test和G_test中的会话者人数均为k；

步骤4.3、提取MFCC特征：

将测试集G_test中N₂个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后，得到B个三角滤波器的频率响应值{H(c)|c＝1,2,...,B}，其中，H(c)表示第c个三角滤波器的频率响应，再计算B个三角滤波器组输出的对数能量{s(c)|c＝1,2,...,B}；其中，s(c)表示第c个三角滤波器输出的对数能量；将对数能量{s(c)|c＝1,2,...,B}进行离散余弦变换，得到N₂个U维MFCC特征向量，记为

其中，

表示第n₂个样本MFCC特征向量；

步骤5、语音信号的隐式特征提取：

步骤5.1、构建隐式特征提取模型；

所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络，记作AFNet；其中，三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支；

步骤5.1.1、所述特征提取分支为ResNet-18模型；所述ResNet-18模型包括：一个卷积核大小为k₁×k₁的卷积层，一个尺度为k₂×k₂的最大池化层，四组残差模块和一个全连接层，每组残差模块内有两个标准残差块结构；其中，所述全连接层的神经元个数为I；记特征提取分支输出的预测向量是e_pred；

步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层，一个全连接层组成；并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入；

所述空洞空间金字塔池化模块由五个分支所组成的，其中，第一个分支包含三个卷积核大小分别为3k₃×3k₃、2k₃×2k₃、k₃×k₃的卷积层，并输出第一向量e_conv1；第二个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₁、2s₁、s₁，并输出第二向量e_conv2；第三个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₂、2s₂、s₂，并输出第三向量e_conv3；第四个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₃、2s₃、s₃，并输出第四向量e_conv4；第五个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，扩张率分别是s₄、2s₄、s₄，并输出第五向量e_conv5；将输出的五个向量e_conv1，e_conv2，e_conv3，e_conv4，e_conv5进行通道上的串联操作得到第六向量e_conv6，所述第六向量e_conv6经过平均池化层的全局平均池化操作后得到池化向量e_pool，所述池化向量e_pool经过一层全连接层的处理后输出注意力分支的预测向量e_att；

步骤5.1.3、所述金字塔池化分支由五层构成，每层池化尺度为s₅×s₅、s₆×s₆、s₇×s₇、s₈×s₈、s₉×s₉；将所述特征提取分支中第一组残差模块输出的特征图e_p0分别作为金字塔池化分支的五层输入，其中，特征向量e_p0经过的第v层池化层后输出向量e_v，再对向量e_v进行卷积核为1×1卷积操作得到卷积向量e_{con_v}，再对卷积向量e_{con_v}进行双线性插值上采样得到特征向量e_{branch_v}，由五层得到的特征向量分别为e_{branch_1}，e_{branch_2}，e_{branch_3}，e_{branch_4}，e_{branch_5}；将特征向量e_p0和五层分别输出的特征向量e_{branch_1}，e_{branch_2}，e_{branch_3}，e_{branch_4}，e_{branch_5}按通道数维度进行concat操作，得到金字塔池化分支的预测向量e_ppm，最后将三个预测向量e_pred，e_att，e_ppm按通道数维度进行concat操作后，得到k维预测向量e_predict，并作为所述隐式特征提取模型的输出；

步骤5.2、网络训练：

基于所述测试集G_test，使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数

以优化所述隐式特征提取模型的权重，从而训练所述隐式特征提取模型直到收敛为止；

式(2)中，

表示测试集G_test中第n₂个样本，

表示第n₂个样本

对应身份标签向量的第d维的值，

表示第n₂个样本

经过隐式特征提取模型处理得到的k维预测向量的第d维的值；

步骤5.3、隐式特征提取；

将测试集G_test中N₂个样本输入训练好的隐式特征提取模型中，并经过特征提取分支的全连接层后输出I维隐式特征向量集合

其中，

表示第n₂个样本

经过特征提取分支的全连接层后得到的k维隐式特征向量；

步骤6.κ-means聚类：

步骤6.1、构造特征向量：

由k维隐式特征向量集合Feature_AFNet和MFCC特征向量Feature_MFCC构成N₂个U+I维的特征向量集合

其中，

表示第n₂个样本

的特征向量，且

步骤6.2、初始化d＝1；从特征向量集合Feature中随机选择k个样本m₁,m₂,...,m_r,...,m_k作为第d次迭代的聚类中心；

步骤6.2.1、初始化k个聚类S＝{S₁,S₂,...,S_r,...,S_k}并作为第d次迭代的k个聚类

步骤6.2.2、利用式(3)将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类

中，S_r表示第r个聚类：

式(3)中，

表示在第d次迭代中第r个聚类，

表示在第d次迭代中第r个聚类中心；

步骤6.2.3、利用式(4)对第d次迭代中第r个聚类中心进行更新，得到在第d+1次迭代中第r个聚类中心，从而得到第d+1次迭代的聚类中心

步骤6.2.4、将d+1赋值给d后，返回步骤6.2.2顺执行，直到收敛，从而得到k个聚类，用于对会话语音集合W进行分割。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过对会话语音进行分帧预测，利用语音帧的能量特征等信筛除语音帧中的静音帧，避免了一些无用性冗余特征信息的生成，减轻了显式特征提取过程和网络运算过程的负担，通过同时提取语音帧的显式特征以及隐式特征，确保了模型能够获取对于语音帧的更加全面的认识，提升了机器对视频的理解能力，进一步提高了机器智能化。

2、本发明提出一种用以提取语音帧的隐式特征的深度学习网络模型AFNet，通过引入大量不同说话人不同时刻和不同状态的会话语音帧样本，优化深度学习网络模型AFNet的网络参数，实现了语音帧隐式特征提取，提取了语音帧共性信息并且可以泛化到训练集以外的说话人会话语音的语音帧隐式特征的提取任务，综合提取到的语音帧显式特征，利用语音帧显式特征和语音帧隐式特征信息互补，加深了对于各自模态信息的理解，有利于下游任务性能的提升。

附图说明

图1为本发明方法的整体流程示意图；

图2为本发明方法的整体网络结构图；

图3为本发明的网络注意力机制分支结构图；

图4为本发明的金字塔池化分支分支结构图。

具体实施方式

本实施例中，如图1所示，一种基于深度学习的语音会话分割方法，是按如下步骤进行：

步骤1、获取会话语音集合W＝{(w₁,y₁),(w₂,y₂),…,(w_m′,y_m′),…,(w_M′,y_M′)}，其中，w_m′表示第m′条会话语音，并有：w_m′＝(w_m′,T,w_m′,2T,…,w_m′,nT,…,w_m′,t/T)^T，w_m′,nT表示第m′条会话语音w_m′中在n×T时刻的信号强度，t表示第m′条语音会话w_m′的时间长度，T表示采样周期；y_m′表示第m′条语音会话的会话者的唯一身份标签，并对y_m′进行one-hot向量表示，得到向量化后的第m′个身份标签向量，记为

其中，

步骤2、分帧和短时加窗处理：

将帧长度设置为T₁，从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w₁,w₂,...,w_M′}进行分帧处理，得到M个语音帧，再以汉明窗作为窗函数对M个语音帧进行滑动处理，得到加窗处理后的语音帧集合F＝{(f₁,y₁),(f₂,y₂),…,(f_m,y_m),…,(f_M,y_M)}，f_m表示第m个加窗后的语音帧，并有：f_m＝(f_m,T,f_m,2T,…,f_m,iT,…,f_m,T1/T)^T，其中，f_m,iT表示第m个加窗后的语音帧f_m在i×T时刻的信号强度；y_m表示第m个加窗后的语音帧f_m所对应的会话者标签；具体实施中，例如利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对一段会话语音分别分帧和短时加窗处理，帧长可取25毫秒，帧间隔可取20毫秒，窗函数选择汉明窗，构建语音帧集合F。

步骤3、筛除静音段：

利用式(1)计算语音帧集合F中第m个加窗后的语音帧f_m的能量E(f_m)：

设E_M为静音帧的阈值，将能量E(f_m)与阈值E_M进行比较，并筛除能量E(f_m)小于E_M的语音帧，从而得筛选后的语音帧集合F_voice＝{(f₁′,y′₁),(f′₂,y′₂),…,(f′_n,y′_n),…,(f′_N,y′_N)}，其中，f′_n表示筛选后的第n条语音帧，y′_n为筛选后的第n条语音帧f′_n所对应的会话者标签；N为语音帧集合F_voice中的语音帧条数；具体实施中，要计算每一帧的能量，设定一个合适的能量阈值，这个能量阈值的值不是固定的，需要根据实际应用环境去确定，一般来说，当应用环境比较安静的时候可以设定一个比较小的阈值。

步骤4、语音信号的显式特征提取：

步骤4.1、对语音帧集合F_voice中的语音帧进行快速傅立叶变换，得到各帧的频谱；再对各帧的频谱取模的平方得到N个功率谱，由每个功率谱所对应的灰度图构成灰度图集合，记为G＝{(g₁,y′₁),(g₂,y′₂),…,(g_n,y′_n),…,(g_N,y′_N)}，其中，g_n表示第n个功率谱所对应的灰度图，并以二维矩阵来表示；具体实施中，利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对提取的语音帧进行快速傅立叶变换，以得到各帧的频谱和功率谱。

步骤4.3、提取MFCC特征：

其中，

表示第n₂个样本MFCC特征向量；具体实施中，利用opensmile工具提取语音帧的MFCC特征向量。

步骤5、语音信号的隐式特征提取：

步骤5.1、构建隐式特征提取模型；

隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络，记作AFNet；其中，三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支；如图2所示，具体实施中，网络训练好后，将用特征提取分支的输出特征将用于实际下游任务；

步骤5.1.1、特征提取分支为ResNet-18模型；ResNet-18模型包括：一个卷积核大小为k₁×k₁的卷积层，一个尺度为k₂×k₂的最大池化层，四组残差模块和一个全连接层，每组残差模块内有两个标准残差块结构；其中，全连接层的神经元个数为I；记特征提取分支输出的预测向量是e_pred；具体实施中，两个卷积核尺度大小可分别取7×7和3×3，全连接层的神经元个数为可以取128个，那么之后提取的语音帧的隐式特征就是128维。

步骤5.1.2、注意力机制分支由空洞空间金字塔池化模块、一个平均池化层，一个全连接层组成；并将特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入；

空洞空间金字塔池化模块由五个分支所组成的，其中，第一个分支包含三个卷积核大小分别为3k₃×3k₃、2k₃×2k₃、k₃×k₃的卷积层，并输出第一向量e_conv1；第二个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₁、2s₁、s₁，并输出第二向量e_conv2；第三个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₂、2s₂、s₂，并输出第三向量e_conv3；第四个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，其扩张率分别是s₃、2s₃、s₃，并输出第四向量e_conv4；第五个分支包含3个级联的卷积核为k₃×k₃的空洞卷积层，扩张率分别是s₄、2s₄、s₄，并输出第五向量e_conv5；将输出的五个向量e_conv1，e_conv2，e_conv3，e_conv4，e_conv5进行通道上的串联操作得到第六向量e_conv6，第六向量e_conv6经过平均池化层的全局平均池化操作后得到池化向量e_pool，池化向量e_pool经过一层全连接层的处理后输出注意力分支的预测向量e_att；具体实施中，如图3所示，空洞空间金字塔池化模块分为五个子分支：第一个分支包含三个3×3的卷积层，该分支对输入的特征进行卷积运算；第二个分支包含3个级联的3×3空洞卷积层，扩张率分别是1，2，1；第三个分支包含3个级联的3×3空洞卷积层，扩张率分别是2，4，2；第四个分支包含3个级联的3×3空洞卷积层，扩张率分别是3，6，3；第五个分支包含3个级联的3×3空洞卷积层，扩张率分别是4，8，4。

步骤5.1.3、金字塔池化分支由五层构成，每层池化尺度为s₅×s₅、s₆×s₆、s₇×s₇、s₈×s₈、s₉×s₉；将特征提取分支中第一组残差模块输出的特征图e_p0分别作为金字塔池化分支的五层输入，其中，特征向量e_p0经过的第v层池化层后输出向量e_v，再对向量e_v进行卷积核为1×1卷积操作得到卷积向量e_{con_v}，再对卷积向量e_{con_v}进行双线性插值上采样得到特征向量e_{branch_v}，由五层得到的特征向量分别为e_{branch_1}，e_{branch_2}，e_{branch_3}，e_{branch_4}，e_{branch_5}；将特征向量e_p0和五层分别输出的特征向量e_{branch_1}，e_{branch_2}，e_{branch_3}，e_{branch_4}，e_{branch_5}按通道数维度进行concat操作，得到金字塔池化分支的预测向量e_ppm，最后将三个预测向量e_pred，e_att，e_ppm按通道数维度进行concat操作后，得到k维预测向量e_predict，并作为隐式特征提取模型的输出；具体实施中，如图4所示，金字塔池化模块由5层构成，每层的size分别是1×1,2×2,3×3,6×6,8×8。首先，对特征图分别池化到目标尺度，然后对池化后的结果进行1×1卷积将通道数减少到原来的1/5。

步骤5.2、网络训练：

基于测试集G_test，使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数

以优化隐式特征提取模型的权重，从而训练隐式特征提取模型直到收敛为止；

式(2)中，

表示测试集G_test中第n₂个样本，

表示第n₂个样本

对应身份标签向量的第d维的值，

表示第n₂个样本

经过隐式特征提取模型处理得到的k维预测向量的第d维的值；具体实施中，可采用k-折交叉验证、L2正则化、提早停止训练等手段提高模型的鲁棒性。模型的注意力机制分支、金字塔池化分支只起到辅助训练模型的作用，模型训练完成以后，只保留模型的特征提取分支，并用该分支作为后续提取语音帧隐式特征的模型。

步骤5.3、隐式特征提取；

将测试集G_test中N₂个样本输入训练好的隐式特征提取模型中，并经过特征提取分支的全连接层后输出k维隐式特征向量集合

其中，

表示第n₂个样本

经过特征提取分支的全连接层后得到的k维隐式特征向量；

步骤6.κ-means聚类：

步骤6.1、构造特征向量：

其中，

表示第n₂个样本

的特征向量，且

步骤6.2、初始化d＝1；从特征向量集合Feature中随机选择k个样本m₁,m₂,...,m_r,...,m_k作为第d次迭代的聚类中心；具体实施中，采用的初始化方法为Forgy，Forgy方法随机地从数据集中选择k个观测作为初始的均值点，然后运行“更新”步骤,即计算随机分配的各聚类的图心，作为初始的均值点。

中，S_r表示第r个聚类：

式(3)中，

表示在第d次迭代中第r个聚类，

表示在第d次迭代中第r个聚类中心；

步骤6.2.4、将d+1赋值给d后，返回步骤6.2.2顺执行，直到收敛，从而得到k个聚类，用于对会话语音集合W进行分割。具体实施中，由于聚类的结果会在一定程度上依赖于初始的聚类且该聚类算法的运行速度通常很快，所以在对算法实时性比较低且对精度要求比较高的应用场景下可以以不同的起始状态运行多次来得到更好的结果。

综上所述，本方法是利用基于混合特征的语音分割聚类算法来弥补普通语音分割聚类算法鲁棒性差的缺点，在保证算法计算量小、运行速度快的同时，在具有背景噪声情况下仍然能保证分割聚类的准确性，并针对叠加不同信噪比粉红噪声、工厂噪声的语音，本发明方法的分割聚类准确率均比单一特征分割聚类算法的准确率高。