CN113963718A - 一种基于深度学习的语音会话分割方法 - Google Patents

一种基于深度学习的语音会话分割方法 Download PDF

Info

Publication number
CN113963718A
CN113963718A CN202111245978.0A CN202111245978A CN113963718A CN 113963718 A CN113963718 A CN 113963718A CN 202111245978 A CN202111245978 A CN 202111245978A CN 113963718 A CN113963718 A CN 113963718A
Authority
CN
China
Prior art keywords
vector
branch
voice
feature
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111245978.0A
Other languages
English (en)
Other versions
CN113963718B (zh
Inventor
姜元春
葛鸿飞
钱洋
刘业政
孙见山
柴一栋
袁昆
周凡
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111245978.0A priority Critical patent/CN113963718B/zh
Publication of CN113963718A publication Critical patent/CN113963718A/zh
Application granted granted Critical
Publication of CN113963718B publication Critical patent/CN113963718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的语音会话分割方法,包括:1获取会话语音集合并进行分帧和短时加窗处理;2筛除静音段;3提取语音信号的显式特征;4提取语音信号的隐式特征5κ‑means聚类。本发明方法在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。

Description

一种基于深度学习的语音会话分割方法
技术领域
本发明属于语音数据处理分析领域,具体的说是一种基于深度学习的语音会话分割方法。
背景技术
在当今互联网大数据背景下,对特定数据进行处理分析,变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”,即从数据中抽取有用信息,机器学习尤其是深度学习的算法很大程度上依赖于数据表征,因而如何利用互联网上海量数据,自监督式挖掘其自身潜在有效信息,受到研究者们的广泛关。说话人分割聚类技术作为一项重要的前端处理技术,它可以获取一段多人对话语音中的说话人身份变动的信息,并确定哪些语音段是由同一个人发出来的。说话人分割聚类技术在多种领域中都有重要作用,如在会议语音中,说话人分割聚类可以将每个人的语音分割出来方便提取目标人语音;在声纹鉴定工作中,送检的检材通常是多人对话,但需要鉴定的往往是其中一人的语音。因此鉴定人员需要将整段音频预检后再选取目标语音进行检验。当音频时间较长时,这一步骤会花费鉴定人员大量精力。说话人分割聚类技术可以帮助鉴定人员解决这一问题。最初说话人分割方法是基于短时能量,这种方法的适用前提是在说话人身份转变时有一段寂静期。当有抢话现象或者有背景噪声时,这种方法性能就会急剧下降。目前说话人分割主流的方法是基于距离尺度和基于模型。基于距离尺度常用的方法有贝叶斯信息准则(BIC)、归一化似然比(GLR)和KL2距离等。基于距离尺度方法不需要先验知识,计算量小,但是需要划定门限,鲁棒性较差。基于深度神经网络模型的说话人分割的方法漏检率低,但是计算量较大。说话人聚类方法有自下而上和自上而下两种。目前大多数的说话人聚类系统都采用自下而上的聚类方法,但是这种方法鲁棒性较差;自上而下聚类最开始只有一个类别,每次增加一个类别然后重新计算更新类别,这种方法的类别区分性较差。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音会话分割方法,以期在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音会话分割方法的特点按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,tT)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为
Figure BDA0003320980920000021
其中,
Figure BDA0003320980920000022
表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:
Figure BDA0003320980920000023
其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;
步骤3、筛除静音段:
利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
Figure BDA0003320980920000024
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;
步骤4、语音信号的显式特征提取:
步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为
Figure BDA0003320980920000031
其中,
Figure BDA0003320980920000032
表示第n2个样本MFCC特征向量;
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;
步骤5.1.1、所述特征提取分支为ResNet-18模型;所述ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,所述全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred
步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
所述空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt
步骤5.1.3、所述金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为所述隐式特征提取模型的输出;
步骤5.2、网络训练:
基于所述测试集Gtest,使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数
Figure BDA00033209809200000410
以优化所述隐式特征提取模型的权重,从而训练所述隐式特征提取模型直到收敛为止;
Figure BDA0003320980920000041
式(2)中,
Figure BDA0003320980920000042
表示测试集Gtest中第n2个样本,
Figure BDA0003320980920000043
表示第n2个样本
Figure BDA0003320980920000044
对应身份标签向量的第d维的值,
Figure BDA0003320980920000045
表示第n2个样本
Figure BDA0003320980920000046
经过隐式特征提取模型处理得到的k维预测向量的第d维的值;
步骤5.3、隐式特征提取;
将测试集Gtest中N2个样本输入训练好的隐式特征提取模型中,并经过特征提取分支的全连接层后输出I维隐式特征向量集合
Figure BDA0003320980920000047
其中,
Figure BDA0003320980920000048
表示第n2个样本
Figure BDA0003320980920000049
经过特征提取分支的全连接层后得到的k维隐式特征向量;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
由k维隐式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC构成N2个U+I维的特征向量集合
Figure BDA0003320980920000051
其中,
Figure BDA0003320980920000052
表示第n2个样本
Figure BDA0003320980920000053
的特征向量,且
Figure BDA0003320980920000054
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;
步骤6.2.1、初始化k个聚类S={S1,S2,...,Sr,...,Sk}并作为第d次迭代的k个聚类
Figure BDA0003320980920000055
步骤6.2.2、利用式(3)将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类
Figure BDA0003320980920000056
中,Sr表示第r个聚类:
Figure BDA0003320980920000057
式(3)中,
Figure BDA0003320980920000058
表示在第d次迭代中第r个聚类,
Figure BDA0003320980920000059
表示在第d次迭代中第r个聚类中心;
步骤6.2.3、利用式(4)对第d次迭代中第r个聚类中心进行更新,得到在第d+1次迭代中第r个聚类中心,从而得到第d+1次迭代的聚类中心
Figure BDA00033209809200000510
Figure BDA00033209809200000511
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过对会话语音进行分帧预测,利用语音帧的能量特征等信筛除语音帧中的静音帧,避免了一些无用性冗余特征信息的生成,减轻了显式特征提取过程和网络运算过程的负担,通过同时提取语音帧的显式特征以及隐式特征,确保了模型能够获取对于语音帧的更加全面的认识,提升了机器对视频的理解能力,进一步提高了机器智能化。
2、本发明提出一种用以提取语音帧的隐式特征的深度学习网络模型AFNet,通过引入大量不同说话人不同时刻和不同状态的会话语音帧样本,优化深度学习网络模型AFNet的网络参数,实现了语音帧隐式特征提取,提取了语音帧共性信息并且可以泛化到训练集以外的说话人会话语音的语音帧隐式特征的提取任务,综合提取到的语音帧显式特征,利用语音帧显式特征和语音帧隐式特征信息互补,加深了对于各自模态信息的理解,有利于下游任务性能的提升。
附图说明
图1为本发明方法的整体流程示意图;
图2为本发明方法的整体网络结构图;
图3为本发明的网络注意力机制分支结构图;
图4为本发明的金字塔池化分支分支结构图。
具体实施方式
本实施例中,如图1所示,一种基于深度学习的语音会话分割方法,是按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为
Figure BDA0003320980920000061
其中,
Figure BDA0003320980920000062
表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:fm=(fm,T,fm,2T,…,fm,iT,…,fm,T1/T)T,其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;具体实施中,例如利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对一段会话语音分别分帧和短时加窗处理,帧长可取25毫秒,帧间隔可取20毫秒,窗函数选择汉明窗,构建语音帧集合F。
步骤3、筛除静音段:
利用式(1)计算语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
Figure BDA0003320980920000071
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;具体实施中,要计算每一帧的能量,设定一个合适的能量阈值,这个能量阈值的值不是固定的,需要根据实际应用环境去确定,一般来说,当应用环境比较安静的时候可以设定一个比较小的阈值。
步骤4、语音信号的显式特征提取:
步骤4.1、对语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;具体实施中,利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对提取的语音帧进行快速傅立叶变换,以得到各帧的频谱和功率谱。
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为
Figure BDA0003320980920000072
其中,
Figure BDA0003320980920000073
表示第n2个样本MFCC特征向量;具体实施中,利用opensmile工具提取语音帧的MFCC特征向量。
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;如图2所示,具体实施中,网络训练好后,将用特征提取分支的输出特征将用于实际下游任务;
步骤5.1.1、特征提取分支为ResNet-18模型;ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred;具体实施中,两个卷积核尺度大小可分别取7×7和3×3,全连接层的神经元个数为可以取128个,那么之后提取的语音帧的隐式特征就是128维。
步骤5.1.2、注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt;具体实施中,如图3所示,空洞空间金字塔池化模块分为五个子分支:第一个分支包含三个3×3的卷积层,该分支对输入的特征进行卷积运算;第二个分支包含3个级联的3×3空洞卷积层,扩张率分别是1,2,1;第三个分支包含3个级联的3×3空洞卷积层,扩张率分别是2,4,2;第四个分支包含3个级联的3×3空洞卷积层,扩张率分别是3,6,3;第五个分支包含3个级联的3×3空洞卷积层,扩张率分别是4,8,4。
步骤5.1.3、金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为隐式特征提取模型的输出;具体实施中,如图4所示,金字塔池化模块由5层构成,每层的size分别是1×1,2×2,3×3,6×6,8×8。首先,对特征图分别池化到目标尺度,然后对池化后的结果进行1×1卷积将通道数减少到原来的1/5。
步骤5.2、网络训练:
基于测试集Gtest,使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数
Figure BDA0003320980920000091
以优化隐式特征提取模型的权重,从而训练隐式特征提取模型直到收敛为止;
Figure BDA0003320980920000092
式(2)中,
Figure BDA0003320980920000093
表示测试集Gtest中第n2个样本,
Figure BDA0003320980920000094
表示第n2个样本
Figure BDA0003320980920000095
对应身份标签向量的第d维的值,
Figure BDA0003320980920000096
表示第n2个样本
Figure BDA0003320980920000097
经过隐式特征提取模型处理得到的k维预测向量的第d维的值;具体实施中,可采用k-折交叉验证、L2正则化、提早停止训练等手段提高模型的鲁棒性。模型的注意力机制分支、金字塔池化分支只起到辅助训练模型的作用,模型训练完成以后,只保留模型的特征提取分支,并用该分支作为后续提取语音帧隐式特征的模型。
步骤5.3、隐式特征提取;
将测试集Gtest中N2个样本输入训练好的隐式特征提取模型中,并经过特征提取分支的全连接层后输出k维隐式特征向量集合
Figure BDA0003320980920000098
其中,
Figure BDA0003320980920000099
表示第n2个样本
Figure BDA00033209809200000910
经过特征提取分支的全连接层后得到的k维隐式特征向量;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
由k维隐式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC构成N2个U+I维的特征向量集合
Figure BDA0003320980920000101
其中,
Figure BDA0003320980920000102
表示第n2个样本
Figure BDA0003320980920000103
的特征向量,且
Figure BDA0003320980920000104
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;具体实施中,采用的初始化方法为Forgy,Forgy方法随机地从数据集中选择k个观测作为初始的均值点,然后运行“更新”步骤,即计算随机分配的各聚类的图心,作为初始的均值点。
步骤6.2.1、初始化k个聚类S={S1,S2,...,Sr,...,Sk}并作为第d次迭代的k个聚类
Figure BDA0003320980920000105
步骤6.2.2、利用式(3)将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类
Figure BDA0003320980920000106
中,Sr表示第r个聚类:
Figure BDA0003320980920000107
式(3)中,
Figure BDA0003320980920000108
表示在第d次迭代中第r个聚类,
Figure BDA0003320980920000109
表示在第d次迭代中第r个聚类中心;
步骤6.2.3、利用式(4)对第d次迭代中第r个聚类中心进行更新,得到在第d+1次迭代中第r个聚类中心,从而得到第d+1次迭代的聚类中心
Figure BDA00033209809200001010
Figure BDA00033209809200001011
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。具体实施中,由于聚类的结果会在一定程度上依赖于初始的聚类且该聚类算法的运行速度通常很快,所以在对算法实时性比较低且对精度要求比较高的应用场景下可以以不同的起始状态运行多次来得到更好的结果。
综上所述,本方法是利用基于混合特征的语音分割聚类算法来弥补普通语音分割聚类算法鲁棒性差的缺点,在保证算法计算量小、运行速度快的同时,在具有背景噪声情况下仍然能保证分割聚类的准确性,并针对叠加不同信噪比粉红噪声、工厂噪声的语音,本发明方法的分割聚类准确率均比单一特征分割聚类算法的准确率高。

Claims (1)

1.一种基于深度学习的语音会话分割方法,其特征是按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为
Figure FDA0003320980910000011
其中,
Figure FDA0003320980910000012
表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:
Figure FDA0003320980910000013
其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;
步骤3、筛除静音段:
利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
Figure FDA0003320980910000014
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;
步骤4、语音信号的显式特征提取:
步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为
Figure FDA0003320980910000021
其中,
Figure FDA0003320980910000022
表示第n2个样本MFCC特征向量;
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;
步骤5.1.1、所述特征提取分支为ResNet-18模型;所述ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,所述全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred
步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
所述空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt
步骤5.1.3、所述金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为所述隐式特征提取模型的输出;
步骤5.2、网络训练:
基于所述测试集Gtest,使用随机梯度下降法最小化如式(2)所示的交叉熵损失函数
Figure FDA0003320980910000037
以优化所述隐式特征提取模型的权重,从而训练所述隐式特征提取模型直到收敛为止;
Figure FDA0003320980910000031
式(2)中,
Figure FDA0003320980910000032
表示测试集Gtest中第n2个样本,
Figure FDA0003320980910000033
表示第n2个样本
Figure FDA0003320980910000034
对应身份标签向量的第d维的值,
Figure FDA0003320980910000035
表示第n2个样本
Figure FDA0003320980910000036
经过隐式特征提取模型处理得到的k维预测向量的第d维的值;
步骤5.3、隐式特征提取;
将测试集Gtest中N2个样本输入训练好的隐式特征提取模型中,并经过特征提取分支的全连接层后输出I维隐式特征向量集合
Figure FDA0003320980910000041
其中,
Figure FDA0003320980910000042
表示第n2个样本
Figure FDA0003320980910000043
经过特征提取分支的全连接层后得到的k维隐式特征向量;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
由k维隐式特征向量集合FeatureAFNet和MFCC特征向量FeatureMFCC构成N2个U+I维的特征向量集合
Figure FDA0003320980910000044
其中,
Figure FDA0003320980910000045
表示第n2个样本
Figure FDA0003320980910000046
的特征向量,且
Figure FDA0003320980910000047
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;
步骤6.2.1、初始化k个聚类S={S1,S2,...,Sr,...,Sk}并作为第d次迭代的k个聚类
Figure FDA0003320980910000048
步骤6.2.2、利用式(3)将特征向量集合Feature中的特征向量分配到第d次迭代的k个聚类
Figure FDA0003320980910000049
中,Sr表示第r个聚类:
Figure FDA00033209809100000410
式(3)中,
Figure FDA00033209809100000411
表示在第d次迭代中第r个聚类,
Figure FDA00033209809100000412
表示在第d次迭代中第r个聚类中心;
步骤6.2.3、利用式(4)对第d次迭代中第r个聚类中心进行更新,得到在第d+1次迭代中第r个聚类中心,从而得到第d+1次迭代的聚类中心
Figure FDA00033209809100000413
Figure FDA00033209809100000414
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。
CN202111245978.0A 2021-10-26 2021-10-26 一种基于深度学习的语音会话分割方法 Active CN113963718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111245978.0A CN113963718B (zh) 2021-10-26 2021-10-26 一种基于深度学习的语音会话分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111245978.0A CN113963718B (zh) 2021-10-26 2021-10-26 一种基于深度学习的语音会话分割方法

Publications (2)

Publication Number Publication Date
CN113963718A true CN113963718A (zh) 2022-01-21
CN113963718B CN113963718B (zh) 2024-04-16

Family

ID=79466906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111245978.0A Active CN113963718B (zh) 2021-10-26 2021-10-26 一种基于深度学习的语音会话分割方法

Country Status (1)

Country Link
CN (1) CN113963718B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180182377A1 (en) * 2016-12-28 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and device for extracting speech feature based on artificial intelligence
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110600053A (zh) * 2019-07-30 2019-12-20 广东工业大学 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113129900A (zh) * 2021-04-29 2021-07-16 科大讯飞股份有限公司 一种声纹提取模型构建方法、声纹识别方法及其相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180182377A1 (en) * 2016-12-28 2018-06-28 Baidu Online Network Technology (Beijing) Co., Ltd Method and device for extracting speech feature based on artificial intelligence
CN110600053A (zh) * 2019-07-30 2019-12-20 广东工业大学 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113129900A (zh) * 2021-04-29 2021-07-16 科大讯飞股份有限公司 一种声纹提取模型构建方法、声纹识别方法及其相关设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ERKANG JING 等: "A deep interpretable representation learning method for speech emotion recognition", INFORMATION PROCESSING AND MANAGEMENT, vol. 60, 6 September 2023 (2023-09-06), XP087422717, DOI: 10.1016/j.ipm.2023.103501 *
YEZHENG LIU等: "Distributed representation learning via node2vec for implicit feedback recommendation", NEURAL COMPUTING AND APPLICATIONS, 7 January 2019 (2019-01-07) *
王昕;蒋志翔;张杨;寇金桥;常新旭;徐冬冬;: "基于时间卷积网络的深度聚类说话人语音分离", 计算机工程与设计, no. 09, 16 September 2020 (2020-09-16) *
王锦坤 等: "考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法", 计算机科学, vol. 43, no. 12, 31 December 2016 (2016-12-31) *
花明;李冬冬;王喆;高大启;: "基于帧级特征的端到端说话人识别", 计算机科学, no. 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662441A (zh) * 2022-12-29 2023-01-31 北京远鉴信息技术有限公司 一种基于自监督学习的语音鉴伪方法、装置及存储介质

Also Published As

Publication number Publication date
CN113963718B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN108766419A (zh) 一种基于深度学习的非常态语音区别方法
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN109147774B (zh) 一种改进的延时神经网络声学模型
Yu et al. Adversarial network bottleneck features for noise robust speaker verification
CN111048097B (zh) 一种基于3d卷积的孪生网络声纹识别方法
CN111640456A (zh) 叠音检测方法、装置和设备
CN109300470B (zh) 混音分离方法和混音分离装置
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
EP1431959A2 (en) Gaussian model-based dynamic time warping system and method for speech processing
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
Ceolini et al. Event-driven pipeline for low-latency low-compute keyword spotting and speaker verification system
López-Espejo et al. Improved external speaker-robust keyword spotting for hearing assistive devices
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN113963718B (zh) 一种基于深度学习的语音会话分割方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Gangonda et al. Speech processing for marathi numeral recognition using MFCC and DTW features
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant