CN113963718A - 一种基于深度学习的语音会话分割方法 - Google Patents
一种基于深度学习的语音会话分割方法 Download PDFInfo
- Publication number
- CN113963718A CN113963718A CN202111245978.0A CN202111245978A CN113963718A CN 113963718 A CN113963718 A CN 113963718A CN 202111245978 A CN202111245978 A CN 202111245978A CN 113963718 A CN113963718 A CN 113963718A
- Authority
- CN
- China
- Prior art keywords
- vector
- branch
- voice
- feature
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 121
- 238000000605 extraction Methods 0.000 claims description 56
- 238000011176 pooling Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 239000011800 void material Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 239000011541 reaction mixture Substances 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的语音会话分割方法,包括:1获取会话语音集合并进行分帧和短时加窗处理;2筛除静音段;3提取语音信号的显式特征;4提取语音信号的隐式特征5κ‑means聚类。本发明方法在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。
Description
技术领域
本发明属于语音数据处理分析领域,具体的说是一种基于深度学习的语音会话分割方法。
背景技术
在当今互联网大数据背景下,对特定数据进行处理分析,变得越来越重要。这种数据分析在人工智能某些领域又可被称作“表征学习”,即从数据中抽取有用信息,机器学习尤其是深度学习的算法很大程度上依赖于数据表征,因而如何利用互联网上海量数据,自监督式挖掘其自身潜在有效信息,受到研究者们的广泛关。说话人分割聚类技术作为一项重要的前端处理技术,它可以获取一段多人对话语音中的说话人身份变动的信息,并确定哪些语音段是由同一个人发出来的。说话人分割聚类技术在多种领域中都有重要作用,如在会议语音中,说话人分割聚类可以将每个人的语音分割出来方便提取目标人语音;在声纹鉴定工作中,送检的检材通常是多人对话,但需要鉴定的往往是其中一人的语音。因此鉴定人员需要将整段音频预检后再选取目标语音进行检验。当音频时间较长时,这一步骤会花费鉴定人员大量精力。说话人分割聚类技术可以帮助鉴定人员解决这一问题。最初说话人分割方法是基于短时能量,这种方法的适用前提是在说话人身份转变时有一段寂静期。当有抢话现象或者有背景噪声时,这种方法性能就会急剧下降。目前说话人分割主流的方法是基于距离尺度和基于模型。基于距离尺度常用的方法有贝叶斯信息准则(BIC)、归一化似然比(GLR)和KL2距离等。基于距离尺度方法不需要先验知识,计算量小,但是需要划定门限,鲁棒性较差。基于深度神经网络模型的说话人分割的方法漏检率低,但是计算量较大。说话人聚类方法有自下而上和自上而下两种。目前大多数的说话人聚类系统都采用自下而上的聚类方法,但是这种方法鲁棒性较差;自上而下聚类最开始只有一个类别,每次增加一个类别然后重新计算更新类别,这种方法的类别区分性较差。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音会话分割方法,以期在有背景噪声情况下仍然能保证分割聚类的准确性和时效性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音会话分割方法的特点按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,tT)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为其中,表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;
步骤3、筛除静音段:
利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;
步骤4、语音信号的显式特征提取:
步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为其中,表示第n2个样本MFCC特征向量;
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;
步骤5.1.1、所述特征提取分支为ResNet-18模型;所述ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,所述全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred;
步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
所述空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt;
步骤5.1.3、所述金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为所述隐式特征提取模型的输出;
步骤5.2、网络训练:
步骤5.3、隐式特征提取;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过对会话语音进行分帧预测,利用语音帧的能量特征等信筛除语音帧中的静音帧,避免了一些无用性冗余特征信息的生成,减轻了显式特征提取过程和网络运算过程的负担,通过同时提取语音帧的显式特征以及隐式特征,确保了模型能够获取对于语音帧的更加全面的认识,提升了机器对视频的理解能力,进一步提高了机器智能化。
2、本发明提出一种用以提取语音帧的隐式特征的深度学习网络模型AFNet,通过引入大量不同说话人不同时刻和不同状态的会话语音帧样本,优化深度学习网络模型AFNet的网络参数,实现了语音帧隐式特征提取,提取了语音帧共性信息并且可以泛化到训练集以外的说话人会话语音的语音帧隐式特征的提取任务,综合提取到的语音帧显式特征,利用语音帧显式特征和语音帧隐式特征信息互补,加深了对于各自模态信息的理解,有利于下游任务性能的提升。
附图说明
图1为本发明方法的整体流程示意图;
图2为本发明方法的整体网络结构图;
图3为本发明的网络注意力机制分支结构图;
图4为本发明的金字塔池化分支分支结构图。
具体实施方式
本实施例中,如图1所示,一种基于深度学习的语音会话分割方法,是按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为其中,表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:fm=(fm,T,fm,2T,…,fm,iT,…,fm,T1/T)T,其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;具体实施中,例如利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对一段会话语音分别分帧和短时加窗处理,帧长可取25毫秒,帧间隔可取20毫秒,窗函数选择汉明窗,构建语音帧集合F。
步骤3、筛除静音段:
利用式(1)计算语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;具体实施中,要计算每一帧的能量,设定一个合适的能量阈值,这个能量阈值的值不是固定的,需要根据实际应用环境去确定,一般来说,当应用环境比较安静的时候可以设定一个比较小的阈值。
步骤4、语音信号的显式特征提取:
步骤4.1、对语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;具体实施中,利用python扩展包的librosa工具(实际操作时也可以利用其他方式)对提取的语音帧进行快速傅立叶变换,以得到各帧的频谱和功率谱。
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为其中,表示第n2个样本MFCC特征向量;具体实施中,利用opensmile工具提取语音帧的MFCC特征向量。
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;如图2所示,具体实施中,网络训练好后,将用特征提取分支的输出特征将用于实际下游任务;
步骤5.1.1、特征提取分支为ResNet-18模型;ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred;具体实施中,两个卷积核尺度大小可分别取7×7和3×3,全连接层的神经元个数为可以取128个,那么之后提取的语音帧的隐式特征就是128维。
步骤5.1.2、注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt;具体实施中,如图3所示,空洞空间金字塔池化模块分为五个子分支:第一个分支包含三个3×3的卷积层,该分支对输入的特征进行卷积运算;第二个分支包含3个级联的3×3空洞卷积层,扩张率分别是1,2,1;第三个分支包含3个级联的3×3空洞卷积层,扩张率分别是2,4,2;第四个分支包含3个级联的3×3空洞卷积层,扩张率分别是3,6,3;第五个分支包含3个级联的3×3空洞卷积层,扩张率分别是4,8,4。
步骤5.1.3、金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为隐式特征提取模型的输出;具体实施中,如图4所示,金字塔池化模块由5层构成,每层的size分别是1×1,2×2,3×3,6×6,8×8。首先,对特征图分别池化到目标尺度,然后对池化后的结果进行1×1卷积将通道数减少到原来的1/5。
步骤5.2、网络训练:
式(2)中,表示测试集Gtest中第n2个样本,表示第n2个样本对应身份标签向量的第d维的值,表示第n2个样本经过隐式特征提取模型处理得到的k维预测向量的第d维的值;具体实施中,可采用k-折交叉验证、L2正则化、提早停止训练等手段提高模型的鲁棒性。模型的注意力机制分支、金字塔池化分支只起到辅助训练模型的作用,模型训练完成以后,只保留模型的特征提取分支,并用该分支作为后续提取语音帧隐式特征的模型。
步骤5.3、隐式特征提取;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;具体实施中,采用的初始化方法为Forgy,Forgy方法随机地从数据集中选择k个观测作为初始的均值点,然后运行“更新”步骤,即计算随机分配的各聚类的图心,作为初始的均值点。
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。具体实施中,由于聚类的结果会在一定程度上依赖于初始的聚类且该聚类算法的运行速度通常很快,所以在对算法实时性比较低且对精度要求比较高的应用场景下可以以不同的起始状态运行多次来得到更好的结果。
综上所述,本方法是利用基于混合特征的语音分割聚类算法来弥补普通语音分割聚类算法鲁棒性差的缺点,在保证算法计算量小、运行速度快的同时,在具有背景噪声情况下仍然能保证分割聚类的准确性,并针对叠加不同信噪比粉红噪声、工厂噪声的语音,本发明方法的分割聚类准确率均比单一特征分割聚类算法的准确率高。
Claims (1)
1.一种基于深度学习的语音会话分割方法,其特征是按如下步骤进行:
步骤1、获取会话语音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′条会话语音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,t/T)T,wm′,nT表示第m′条会话语音wm′中在n×T时刻的信号强度,t表示第m′条语音会话wm′的时间长度,T表示采样周期;ym′表示第m′条语音会话的会话者的唯一身份标签,并对ym′进行one-hot向量表示,得到向量化后的第m′个身份标签向量,记为其中,表示第m′个样本对应身份标签向量的第i维的值,k为会话语音集合W中会话者的人数;M′表示会话语音的数量;
步骤2、分帧和短时加窗处理:
将帧长度设置为T1,从而采用交叠分段的方法对会话语音集合W中的M′条会话语音{w1,w2,...,wM′}进行分帧处理,得到M个语音帧,再以汉明窗作为窗函数对M个语音帧进行滑动处理,得到加窗处理后的语音帧集合F={(f1,y1),(f2,y2),…,(fm,ym),…,(fM,yM)},fm表示第m个加窗后的语音帧,并有:其中,fm,iT表示第m个加窗后的语音帧fm在i×T时刻的信号强度;ym表示第m个加窗后的语音帧fm所对应的会话者标签;
步骤3、筛除静音段:
利用式(1)计算所述语音帧集合F中第m个加窗后的语音帧fm的能量E(fm):
设EM为静音帧的阈值,将能量E(fm)与阈值EM进行比较,并筛除能量E(fm)小于EM的语音帧,从而得筛选后的语音帧集合Fvoice={(f1′,y′1),(f′2,y′2),…,(f′n,y′n),…,(f′N,y′N)},其中,f′n表示筛选后的第n条语音帧,y′n为筛选后的第n条语音帧f′n所对应的会话者标签;N为语音帧集合Fvoice中的语音帧条数;
步骤4、语音信号的显式特征提取:
步骤4.1、对所述语音帧集合Fvoice中的语音帧进行快速傅立叶变换,得到各帧的频谱;再对各帧的频谱取模的平方得到N个功率谱,由每个功率谱所对应的灰度图构成灰度图集合,记为G={(g1,y′1),(g2,y′2),…,(gn,y′n),…,(gN,y′N)},其中,gn表示第n个功率谱所对应的灰度图,并以二维矩阵来表示;
步骤4.2、将灰度图集合G划分为包含N1个样本的训练集Gtrain和N2个样本的测试集Gtest,且Gtest和Gtest中的会话者人数均为k;
步骤4.3、提取MFCC特征:
将测试集Gtest中N2个样本对应的功率谱通过一组包含B个梅尔尺度的三角滤波器组后,得到B个三角滤波器的频率响应值{H(c)|c=1,2,...,B},其中,H(c)表示第c个三角滤波器的频率响应,再计算B个三角滤波器组输出的对数能量{s(c)|c=1,2,...,B};其中,s(c)表示第c个三角滤波器输出的对数能量;将对数能量{s(c)|c=1,2,...,B}进行离散余弦变换,得到N2个U维MFCC特征向量,记为其中,表示第n2个样本MFCC特征向量;
步骤5、语音信号的隐式特征提取:
步骤5.1、构建隐式特征提取模型;
所述隐式特征提取模型是由三个分支所组成的基于注意力机制的语音特征提取网络,记作AFNet;其中,三个分支分别为特征提取分支、注意力机制分支、金字塔池化分支;
步骤5.1.1、所述特征提取分支为ResNet-18模型;所述ResNet-18模型包括:一个卷积核大小为k1×k1的卷积层,一个尺度为k2×k2的最大池化层,四组残差模块和一个全连接层,每组残差模块内有两个标准残差块结构;其中,所述全连接层的神经元个数为I;记特征提取分支输出的预测向量是epred;
步骤5.1.2、所述注意力机制分支由空洞空间金字塔池化模块、一个平均池化层,一个全连接层组成;并将所述特征提取分支中第三组残差模块输出的特征图作为注意力机制分支中的空洞空间金字塔池化模块的输入;
所述空洞空间金字塔池化模块由五个分支所组成的,其中,第一个分支包含三个卷积核大小分别为3k3×3k3、2k3×2k3、k3×k3的卷积层,并输出第一向量econv1;第二个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s1、2s1、s1,并输出第二向量econv2;第三个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s2、2s2、s2,并输出第三向量econv3;第四个分支包含3个级联的卷积核为k3×k3的空洞卷积层,其扩张率分别是s3、2s3、s3,并输出第四向量econv4;第五个分支包含3个级联的卷积核为k3×k3的空洞卷积层,扩张率分别是s4、2s4、s4,并输出第五向量econv5;将输出的五个向量econv1,econv2,econv3,econv4,econv5进行通道上的串联操作得到第六向量econv6,所述第六向量econv6经过平均池化层的全局平均池化操作后得到池化向量epool,所述池化向量epool经过一层全连接层的处理后输出注意力分支的预测向量eatt;
步骤5.1.3、所述金字塔池化分支由五层构成,每层池化尺度为s5×s5、s6×s6、s7×s7、s8×s8、s9×s9;将所述特征提取分支中第一组残差模块输出的特征图ep0分别作为金字塔池化分支的五层输入,其中,特征向量ep0经过的第v层池化层后输出向量ev,再对向量ev进行卷积核为1×1卷积操作得到卷积向量econ_v,再对卷积向量econ_v进行双线性插值上采样得到特征向量ebranch_v,由五层得到的特征向量分别为ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5;将特征向量ep0和五层分别输出的特征向量ebranch_1,ebranch_2,ebranch_3,ebranch_4,ebranch_5按通道数维度进行concat操作,得到金字塔池化分支的预测向量eppm,最后将三个预测向量epred,eatt,eppm按通道数维度进行concat操作后,得到k维预测向量epredict,并作为所述隐式特征提取模型的输出;
步骤5.2、网络训练:
步骤5.3、隐式特征提取;
步骤6.κ-means聚类:
步骤6.1、构造特征向量:
步骤6.2、初始化d=1;从特征向量集合Feature中随机选择k个样本m1,m2,...,mr,...,mk作为第d次迭代的聚类中心;
步骤6.2.4、将d+1赋值给d后,返回步骤6.2.2顺执行,直到收敛,从而得到k个聚类,用于对会话语音集合W进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245978.0A CN113963718B (zh) | 2021-10-26 | 2021-10-26 | 一种基于深度学习的语音会话分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111245978.0A CN113963718B (zh) | 2021-10-26 | 2021-10-26 | 一种基于深度学习的语音会话分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963718A true CN113963718A (zh) | 2022-01-21 |
CN113963718B CN113963718B (zh) | 2024-04-16 |
Family
ID=79466906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111245978.0A Active CN113963718B (zh) | 2021-10-26 | 2021-10-26 | 一种基于深度学习的语音会话分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963718B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662441A (zh) * | 2022-12-29 | 2023-01-31 | 北京远鉴信息技术有限公司 | 一种基于自监督学习的语音鉴伪方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180182377A1 (en) * | 2016-12-28 | 2018-06-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and device for extracting speech feature based on artificial intelligence |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN110600053A (zh) * | 2019-07-30 | 2019-12-20 | 广东工业大学 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113129900A (zh) * | 2021-04-29 | 2021-07-16 | 科大讯飞股份有限公司 | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 |
-
2021
- 2021-10-26 CN CN202111245978.0A patent/CN113963718B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180182377A1 (en) * | 2016-12-28 | 2018-06-28 | Baidu Online Network Technology (Beijing) Co., Ltd | Method and device for extracting speech feature based on artificial intelligence |
CN110600053A (zh) * | 2019-07-30 | 2019-12-20 | 广东工业大学 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN112151040A (zh) * | 2020-09-27 | 2020-12-29 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113129900A (zh) * | 2021-04-29 | 2021-07-16 | 科大讯飞股份有限公司 | 一种声纹提取模型构建方法、声纹识别方法及其相关设备 |
Non-Patent Citations (5)
Title |
---|
ERKANG JING 等: "A deep interpretable representation learning method for speech emotion recognition", INFORMATION PROCESSING AND MANAGEMENT, vol. 60, 6 September 2023 (2023-09-06), XP087422717, DOI: 10.1016/j.ipm.2023.103501 * |
YEZHENG LIU等: "Distributed representation learning via node2vec for implicit feedback recommendation", NEURAL COMPUTING AND APPLICATIONS, 7 January 2019 (2019-01-07) * |
王昕;蒋志翔;张杨;寇金桥;常新旭;徐冬冬;: "基于时间卷积网络的深度聚类说话人语音分离", 计算机工程与设计, no. 09, 16 September 2020 (2020-09-16) * |
王锦坤 等: "考虑用户活跃度和项目流行度的基于项目最近邻的协同过滤算法", 计算机科学, vol. 43, no. 12, 31 December 2016 (2016-12-31) * |
花明;李冬冬;王喆;高大启;: "基于帧级特征的端到端说话人识别", 计算机科学, no. 10 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662441A (zh) * | 2022-12-29 | 2023-01-31 | 北京远鉴信息技术有限公司 | 一种基于自监督学习的语音鉴伪方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113963718B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN105321525B (zh) | 一种降低voip通信资源开销的系统和方法 | |
CN108766419A (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
Yu et al. | Adversarial network bottleneck features for noise robust speaker verification | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN108877812B (zh) | 一种声纹识别方法、装置及存储介质 | |
EP1431959A2 (en) | Gaussian model-based dynamic time warping system and method for speech processing | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Ceolini et al. | Event-driven pipeline for low-latency low-compute keyword spotting and speaker verification system | |
López-Espejo et al. | Improved external speaker-robust keyword spotting for hearing assistive devices | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
CN113963718B (zh) | 一种基于深度学习的语音会话分割方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Gangonda et al. | Speech processing for marathi numeral recognition using MFCC and DTW features | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
CN114898773A (zh) | 基于深度自注意力神经网络分类器的合成语音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |