CN109461447B - 一种基于深度学习的端到端说话人分割方法及系统 - Google Patents
一种基于深度学习的端到端说话人分割方法及系统 Download PDFInfo
- Publication number
- CN109461447B CN109461447B CN201811158674.9A CN201811158674A CN109461447B CN 109461447 B CN109461447 B CN 109461447B CN 201811158674 A CN201811158674 A CN 201811158674A CN 109461447 B CN109461447 B CN 109461447B
- Authority
- CN
- China
- Prior art keywords
- voice
- mixed
- stft
- segmented
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 6
- 238000009825 accumulation Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的端到端说话人分割方法及系统,其通过采集第一单人语音和第二单人语音进行真实STFT特征提取、语音混合处理、混合STFT特征的提取、分割STFT特征的计算、真实STFT特征与分割STFT特征的比较、模型的优化,从而训练得到所需的模型;使用时,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
Description
技术领域
本发明涉及语音信号处理技术领域,特别是一种基于深度学习的端到端说话人分割方法及其应用该方法的系统。
背景技术
随着音频获取途径和数量的快速增加,音频管理变得越来越复杂,近几年说话人分割聚类在国际上逐渐成为热点研究问题,国外许多大学和研究机构都开展了相关研究工作,美国国家标准技术局(National Institute of Standards and Technology,NIST)在1999年组织的说话人识别评测任务中就增加了两人之间的电话语音的分割聚类项目,2002年NIST提出的富信息转写(Rich Transcription,RT)评测正式开展对说话人分割聚类的研究。
传统的说话人分割方法分为两个步骤:
1.分割步骤,将一段混合语音分割成多段短语音。目前主流的语音分割算法有距离度量法和模型法,其中,距离度量法需根据相邻语音段之间距离,确定两个音段之间是否存在说话人变换点;模型法常见使用GMM高斯混合模型和SVM支持向量机模型,通过计算相邻模型之间的相似度距离,根据经验阈值判别说话人变换点是否存在;根据说话人变换点对混合语音进行分段处理得到多个短语音。
2.聚类步骤,通过聚类算法将属于同一个人的多个短语音进行聚类处理,得到同一个人的长语音。
采用上述的传统说话人分割方法,需要先分割再重新聚合来得到属于同一个人的长语音,不仅算法较复杂,计算效率低,而且其纯度受分割和聚类两个步骤精度的影响。
发明内容
本发明为解决上述问题,提供了一种基于深度学习的端到端说话人分割方法及系统,只需将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高。
为实现上述目的,本发明采用的技术方案为:
一种基于深度学习的端到端说话人分割方法,其包括以下步骤:
a.模型训练步骤:
a1.采集第一单人语音和第二单人语音,并计算所述第一单人语音对应的第一真实STFT特征和所述第二单人语音对应的第二真实STFT特征;
a2.将所述第一单人语音和所述第二单人语音进行混合处理,得到训练用混合语音,并计算所述训练用混合语音的混合STFT特征;
a3.根据步骤a2中所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
a4.对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数;
a5.根据所述损失函数进行优化模型参数,完成模型训练;
b.说话人分割步骤:
将待分割的混合语音输入所述模型中,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音。
优选的,所述的步骤a2中,将所述第一单人语音和所述第二单人语音进行混合处理,是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音,并将所有短语音进行混合,并合成长语音,得到训练用混合语音;所述的步骤b中,所述待分割的混合语音,是指两个以上说话人之间的对话语音。
优选的,进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割STFT特征、第二分割STFT特征,以及所述待分割的混合语音的混合STFT特征、分割STFT特征,将其实数和虚数在通道维度上进行拼接处理。
优选的,所述的步骤a3对所述混合语音进行分割处理,进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征输入三层全连接网络,分别生成第一单人语音的掩膜和第二单人语音的掩膜;
a34.将所述第一单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第二单人语音对应的第二分割STFT特征;将所述第二单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第一单人语音对应的第一分割STFT特征;
a35.将所述第一分割STFT特征通过ISTFT变换得到第一分割语音,将所述第二分割STFT特征通过ISTFT变换得到第二分割语音。
优选的,所述的步骤a4中,使用均方误差作为损失函数,即,计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差。
优选的,所述的步骤a5中,根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值。
对应的,本发明还提供一种基于深度学习的端到端说话人分割系统,其包括:
a.模型训练模块,其进一步包括:
语音采集单元,用于采集第一单人语音和第二单人语音;
语音混合单元,将所述第一单人语音和所述第二单人语音进行混合处理,得到训练用混合语音;
STFT特征提取单元,用于计算所述第一单人语音对应的第一真实STFT特征、所述第二单人语音对应的第二真实STFT特征、所述训练用混合语音的混合STFT特征;
语音分割单元,用于根据所述STFT特征提取单元中提取的所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
损失函数构造单元,其通过对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数;
模型优化单元,其根据所述损失函数进行优化模型参数,完成模型训练;
b.说话人分割模块:
用于将待分割的混合语音输入所述模型中,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音。
本发明的有益效果是:
(1)本发明的说话人分割方法,无需先将混合语音分割成多段短语音,再通过聚类算法将属于同一个说话人的多个短语音进行聚类处理得到同一个说话人的长语音;而是直接将待分割的混合语音输入训练好的模型即可输出每一个说话人的分割语音,这种端到端的方法可以避免中间过程的误差积累,分割精度更高;
(2)本发明通过采集大量的单人语音,并将任意两个单人语音进行混合处理和重新分割的训练,得到训练好的模型,使得模型的性能更好,特别适用于两个以上说话人的对话录音的分割处理;
(3)本发明通过将单人语音的真实STFT特征与分割训练的分割STFT特征进行比较和构造损失函数,从而对模型参数进行优化,使得模型更加准确;
(4)本发明通过CNN网络、LSTM网络、三层全连接网络进行特征的提取和分割,使得训练得到的模型具有更高的性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种基于深度学习的端到端说话人分割方法的流程简图;
图2为本发明一种基于深度学习的端到端说话人分割系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种基于深度学习的端到端说话人分割方法,其包括以下步骤:
a.模型训练步骤:
a1.采集第一单人语音和第二单人语音,并计算所述第一单人语音对应的第一真实STFT特征和所述第二单人语音对应的第二真实STFT特征;
a2.将所述第一单人语音和所述第二单人语音进行混合处理,得到训练用混合语音,并计算所述训练用混合语音的混合STFT特征;
a3.根据步骤a2中所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
a4.对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数;
a5.根据所述损失函数进行优化模型参数,完成模型训练;
b.说话人分割步骤:
将待分割的混合语音输入所述模型中,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音。
所述的步骤a1中,采集第一单人语音和第二单人语音,是指通过采集大量的单人语音,并对任意两个单人语音进行混合处理和重新分割的训练;例如,首先采集几千人的单人语音,然后任意取两个人的单人语音进行混合,通过构建语音训练集、语音开发集、语音测试集,对模型进行训练和优化。
所述的步骤a2中,将所述第一单人语音和所述第二单人语音进行混合处理,是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音,并将所有短语音进行混合,并合成长语音,得到训练用混合语音;所述的步骤b中,所述待分割的混合语音,是指两个以上说话人之间的对话语音。
所述的步骤a3对所述混合语音进行分割处理,进一步包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;其中,所述卷积神经网络(Convolutional Neural Network,CNN)是由卷积层、池化层、全连接层构成的具有局部感知和权值共享能力的深层神经网络;卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象程度更高的特征,经过卷积层之后的节点矩阵深度增加;池化层神经网络不会改变三维矩阵的深度,但是可以缩小矩阵的大小;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;其中,所述LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件;
a33.将所述时序信息特征输入三层全连接网络,分别生成第一单人语音的掩膜和第二单人语音的掩膜(masks);其中,所述三层全连接网络(fully connected layers,FC)包括输入层、隐含层、输出层;所述掩膜为所述三层全连接网络中提取的特征,并用于在提取第一单人语音对应的第一分割STFT特征时进行屏蔽第二单人语音对应的第二分割STFT特征,以及在提取第二单人语音对应的第二分割STFT特征时进行屏蔽第一单人语音对应的第一分割STFT特征;
a34.将所述第一单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第二单人语音对应的第二分割STFT特征;将所述第二单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第一单人语音对应的第一分割STFT特征;
a35.将所述第一分割STFT特征通过ISTFT变换得到第一分割语音,将所述第二分割STFT特征通过ISTFT变换得到第二分割语音。
所述的步骤a31中,所述CNN神经网络采用15层的神经网络架构,其架构参数如下:
第1层:使用1*7的卷积核,通道数为96,膨胀数为1*1
第2层:使用7*1的卷积核,通道数为96,膨胀数为1*1;
第3层:使用5*5的卷积核,通道数为96,膨胀数为1*1;
第4层,使用5*5的卷积核,通道数为96,膨胀数为2*1;
第5层:使用5*5的卷积核,通道数为96,膨胀数为4*1;
第6层:使用5*5的卷积核,通道数为96,膨胀数为8*1;
第7层:使用5*5的卷积核,通道数为96,膨胀数为16*1;
第8层:使用5*5的卷积核,通道数为96,膨胀数为32*1;
第9层:使用5*5的卷积核,通道数为96,膨胀数为1*1;
第10层:使用5*5的卷积核,通道数为96,膨胀数为2*2;
第11层:使用5*5的卷积核,通道数为96,膨胀数为4*4;
第12层:使用5*5的卷积核,通道数为96,膨胀数为8*8;
第13层:使用5*5的卷积核,通道数为96,膨胀数为16*16;
第14层:使用5*5的卷积核,通道数为96,膨胀数为32*32;
第15层:使用1*1的卷积核,通道数为8,膨胀数为1*1。
所述的步骤a4中,使用均方误差作为损失函数,即,计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差(mean square error,MSE)。
所述的步骤a5中,根据所述损失函数进行优化模型参数,是通过随机梯度下降算法(SGD)进行优化模型参数,使得所述均方误差(损失函数)越来越小,从而使得均方误差的值下降到预设阈值。
循环往复执行上述步骤a1至a5,直到均方误差的值下降到预设阈值,即损失函数达到最小化,则完成模型训练。
短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fouriertransform)),又称加窗傅里叶变换,是一种时频分析方法,它通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中,窗的长度决定频谱图的时间分辨率和频率分辨率,窗长越长,截取的信号越长,信号越长,傅里叶变换后频率分辨率越高,时间分辨率越差;相反,窗长越短,截取的信号就越短,频率分辨率越差,时间分辨率越好。时间窗口使得信号只在某一小区间内有效,这就避免了传统的傅里叶变换在时频局部表达能力上的不足,使得傅里叶变换有了局部定位的能力。
并且,由于STFT特征是一个复数,即a+bj,其中,a为实数部分,b为虚数部分;本实施例中,为了避免复数的运算,还进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割STFT特征、第二分割STFT特征,以及所述待分割的混合语音的混合STFT特征、分割STFT特征,将其实数和虚数在通道维度上进行拼接处理,从而使得运算更简单高效。
如图2所示,本发明还提供一种基于深度学习的端到端说话人分割系统,其包括:
a.模型训练模块,其进一步包括:
语音采集单元,用于采集第一单人语音和第二单人语音;
语音混合单元,将所述第一单人语音和所述第二单人语音进行混合处理,得到训练用混合语音;
STFT特征提取单元,用于计算所述第一单人语音对应的第一真实STFT特征、所述第二单人语音对应的第二真实STFT特征、所述训练用混合语音的混合STFT特征;
语音分割单元,用于根据所述STFT特征提取单元中提取的所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
损失函数构造单元,其通过对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数;
模型优化单元,其根据所述损失函数进行优化模型参数,完成模型训练;
b.说话人分割模块:
用于将待分割的混合语音输入所述模型中,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (3)
1.一种基于深度学习的端到端说话人分割方法,其特征在于,包括以下步骤:
a.模型训练步骤:
a1.采集第一单人语音和第二单人语音,通过采集大量的单人语音,并对任意两个单人语音进行混合处理和重新分割的训练,并计算所述第一单人语音对应的第一真实STFT特征和所述第二单人语音对应的第二真实STFT特征;
a2.将所述第一单人语音和所述第二单人语音进行混合处理,分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音,并将所有短语音进行混合,并合成长语音,得到训练用混合语音,并计算所述训练用混合语音的混合STFT特征,其中,将所述第一单人语音和所述第二单人语音进行混合处理,是指分别将所述第一单人语音和所述第二单人语音分割为两个以上的短语音,并将所有短语音进行混合,并合成长语音,得到训练用混合语音;
a3.根据步骤a2中所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
其中,对所述混合语音进行分割处理,包括:
a31.将所述训练用混合语音的混合STFT特征输入CNN神经网络,以提取深层次特征;
a32.将所述深层次特征输入LSTM网络,以提取时序信息特征;
a33.将所述时序信息特征输入三层全连接网络,分别生成第一单人语音的掩膜和第二单人语音的掩膜;
a34.将所述第一单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第二单人语音对应的第二分割STFT特征;将所述第二单人语音的掩膜与所述训练用混合语音的混合STFT特征相乘得到第一单人语音对应的第一分割STFT特征;
a35.将所述第一分割STFT特征通过ISTFT变换得到第一分割语音,将所述第二分割STFT特征通过ISTFT变换得到第二分割语音;
a4.对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数,其中,使用均方误差作为损失函数,即,计算所述第一真实STFT特征和所述第一分割STFT特征之间、所述第二真实STFT特征和所述第二分割STFT特征之间的均方误差;
a5.根据所述损失函数进行优化模型参数,完成模型训练,其中,根据所述损失函数进行优化模型参数,是通过随机梯度下降算法进行优化模型参数,使得均方误差的值下降到预设阈值;
b.说话人分割步骤:
将待分割的混合语音输入所述模型中,其中,待分割的混合语音是指两个以上说话人之间的对话语音,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音,其中,待分割的混合语音,是指两个以上说话人之间的对话语音。
2.根据权利要求1所述的一种基于深度学习的端到端说话人分割方法,其特征在于:进一步将所述训练用混合语音的混合STFT特征、第一真实STFT特征、第二真实STFT特征、第一分割STFT特征、第二分割STFT特征,以及所述待分割的混合语音的混合STFT特征、分割STFT特征,将其实数和虚数在通道维度上进行拼接处理。
3.一种基于深度学习的端到端说话人分割系统,其特征在于,包括:
a.模型训练模块,其进一步包括:
语音采集单元,用于采集第一单人语音和第二单人语音;
语音混合单元,将所述第一单人语音和所述第二单人语音进行混合处理,得到训练用混合语音;
STFT特征提取单元,用于计算所述第一单人语音对应的第一真实STFT特征、所述第二单人语音对应的第二真实STFT特征、所述训练用混合语音的混合STFT特征;
语音分割单元,用于根据所述STFT特征提取单元中提取的所述混合STFT特征对所述混合语音进行分割处理,得到与所述第一单人语音对应的第一分割语音、第一分割STFT特征,以及与所述第二单人语音对应的第二分割语音、第二分割STFT特征;
损失函数构造单元,其通过对比所述第一真实STFT特征和所述第一分割STFT特征、所述第二真实STFT特征和所述第二分割STFT特征,构造损失函数;
模型优化单元,其根据所述损失函数进行优化模型参数,完成模型训练;
b.说话人分割模块:
用于将待分割的混合语音输入所述模型中,输出分割后的不同说话人的分割语音;或者,对待分割的混合语音提取混合STFT特征,并将所述待分割的混合语音的混合STFT特征输入所述模型中,输出所述待分割的混合语音分割后的不同说话人的分割STFT特征,并进一步通过ISTFT变换得到不同说话人对应的分割语音。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811158674.9A CN109461447B (zh) | 2018-09-30 | 2018-09-30 | 一种基于深度学习的端到端说话人分割方法及系统 |
PCT/CN2018/124431 WO2020062679A1 (zh) | 2018-09-30 | 2018-12-27 | 一种基于深度学习的端到端说话人分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811158674.9A CN109461447B (zh) | 2018-09-30 | 2018-09-30 | 一种基于深度学习的端到端说话人分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109461447A CN109461447A (zh) | 2019-03-12 |
CN109461447B true CN109461447B (zh) | 2023-08-18 |
Family
ID=65607277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811158674.9A Active CN109461447B (zh) | 2018-09-30 | 2018-09-30 | 一种基于深度学习的端到端说话人分割方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109461447B (zh) |
WO (1) | WO2020062679A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110289002B (zh) * | 2019-06-28 | 2021-04-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
CN110544482B (zh) * | 2019-09-09 | 2021-11-12 | 北京中科智极科技有限公司 | 一种单通道语音分离系统 |
CN110970053B (zh) * | 2019-12-04 | 2022-03-15 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131819A (zh) * | 2006-08-25 | 2008-02-27 | 冲电气工业株式会社 | 噪声除去装置、方法以及程序 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN108376215A (zh) * | 2018-01-12 | 2018-08-07 | 上海大学 | 一种身份认证方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
CN108510979B (zh) * | 2017-02-27 | 2020-12-15 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN108228915B (zh) * | 2018-03-29 | 2021-10-26 | 华南理工大学 | 一种基于深度学习的视频检索方法 |
-
2018
- 2018-09-30 CN CN201811158674.9A patent/CN109461447B/zh active Active
- 2018-12-27 WO PCT/CN2018/124431 patent/WO2020062679A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131819A (zh) * | 2006-08-25 | 2008-02-27 | 冲电气工业株式会社 | 噪声除去装置、方法以及程序 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN108376215A (zh) * | 2018-01-12 | 2018-08-07 | 上海大学 | 一种身份认证方法 |
Non-Patent Citations (1)
Title |
---|
VoiceFilter Targeted Voice Separation by Speaker Conditioned Spectrogram Masking;Quan Wang等;《简书》;20181031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109461447A (zh) | 2019-03-12 |
WO2020062679A1 (zh) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106611604B (zh) | 一种基于深度神经网络的自动语音叠音检测方法 | |
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN108899051B (zh) | 一种基于联合特征表示的语音情感识别模型及识别方法 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN101710490B (zh) | 语音评测的噪声补偿方法及装置 | |
CN107393554B (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 | |
CN108831445A (zh) | 四川方言识别方法、声学模型训练方法、装置及设备 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN109545228A (zh) | 一种端到端说话人分割方法及系统 | |
CN109346056B (zh) | 基于深度度量网络的语音合成方法及装置 | |
CN109272988A (zh) | 基于多路卷积神经网络的语音识别方法 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN107945791B (zh) | 一种基于深度学习目标检测的语音识别方法 | |
CN110910891B (zh) | 基于长短时记忆深度神经网络的说话人分段标注方法 | |
CN103065620A (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN106328123B (zh) | 小数据库条件下正常语音流中耳语音的识别方法 | |
CN103559879A (zh) | 语种识别系统中声学特征提取方法及装置 | |
CN110853630B (zh) | 面向边缘计算的轻量级语音识别方法 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN108198561A (zh) | 一种基于卷积神经网络的翻录语音检测方法 | |
CN110047478A (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |