CN109300470B - 混音分离方法和混音分离装置 - Google Patents
混音分离方法和混音分离装置 Download PDFInfo
- Publication number
- CN109300470B CN109300470B CN201811079834.0A CN201811079834A CN109300470B CN 109300470 B CN109300470 B CN 109300470B CN 201811079834 A CN201811079834 A CN 201811079834A CN 109300470 B CN109300470 B CN 109300470B
- Authority
- CN
- China
- Prior art keywords
- data
- cosine distance
- determining
- audio
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002156 mixing Methods 0.000 title claims abstract description 80
- 238000000926 separation method Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000012634 fragment Substances 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 126
- 238000012549 training Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 238000001514 detection method Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 24
- 230000004044 response Effects 0.000 description 20
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000005284 excitation Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006403 short-term memory Effects 0.000 description 8
- 230000001131 transforming effect Effects 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000000593 degrading effect Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 4
- 230000003449 preventive effect Effects 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 210000000225 synapse Anatomy 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
Abstract
本方案涉及人工智能领域,提供了一种采用深度学习的混音分离方法和装置,其中,方法包括:采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据。通过本发明的技术方案,能够明显地提升对多个用户的语音数据进行分离的准确性。
Description
技术领域
本发明涉及人工智能领域,尤其涉及语音处理技术领域,具体而言,涉及一种混音分离方法和一种混音分离装置。
背景技术
两说话人分离(speaker diarization)是生物识别技术的一种,它用来将录制在同一段音轨上的两个说话人轮流讲话的录音分离,成为两段音轨,每段音轨只包含其中一个说话人的讲话录音。两说话人广泛应用于诸多领域,在广播,电视,媒体,客服中心等行业和领域有着广泛的需求。
相关技术中,两说话人分离主要采用贝叶斯信息准则(Bayesian informationcriterion,BIC)作为相似性度量的方法,但是其准确性不尽如人意。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种混音分离方法和混音分离装置。
为了实现上述目的,本发明的技术方案提供了一种混音分离方法,包括:采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
本方案中,相对于贝叶斯信息准则而言,通过采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,并且在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据,能够提高混音分离方案的准确性和可靠性。
具体地,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。CRF算法,中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。通过word2Vec,也即词向量获取算法,将句子中的字符或词转成向量、通过预防过拟合方式(Dropout)将输入传入LSTM,双向LSTM(Bi-LSTM)可以捕捉字符在前后方向的依赖关系。
优选地,本方案中预设的LSTM包括以下结构层:
(1)首先是数层堆叠的有相同结构的神经网络层(Deep architecture)。这里每层神经网络采用并列的一个前向LSTM(forward LSTM)和一个后向LSTM(backward LSTM),层数一般为1~3层。
(2)然后进入一个平均层(Average sentence),此层的作用是作为一个temporalpool(沿时间轴向池化),它将上层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量。
(3)然后进入一个DNN全连接层(Affine)。
(4)然后进入归一化层(Length Normalization),此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的矢量。
(5)最后进入损失层,损失层对应的损失函数用于检验LSTM模型预测的准确度。
优选地,滑窗的长度取值范围为0.7秒~2秒,两个滑窗沿时间轴方向每次移动100毫秒。
优选地,采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,具体包括:建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点;在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量;确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离;根据全部余弦距离确定参考分割点中的时间分割点。
本方案中,通过建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点,进而在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量,由此确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离,最后根据全部余弦距离确定参考分割点中的时间分割点,也即基于音频矢量的相似度来确定时间分割点,能够进一步地提高混音分离方案的准确性和可靠性。
其中,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,譬如,当两条音频矢量夹角余弦等于1时,这两条音频矢量完全重复,当夹角的余弦值接近于1时,两条音频矢量相似,夹角的余弦越小,两条音频矢量越不相关。
上述时间分割点理论上是不同用户语音之间切换的时间点。
优选地,根据全部余弦距离确定参考分割点中的时间分割点,具体包括:按照预设时间间隔将混音数据划分为多个局部音频数据;确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点;将余弦距离最大值对应的参考分割点确定为时间分割点。
本方案中,通过按照预设时间间隔将混音数据划分为多个局部音频数据,确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点,将余弦距离最大值对应的参考分割点确定为时间分割点,由局部的最大余弦距离来确定参考分割点中哪些为时间分割点,进而为下一步的聚类处理提供更准确的分类语音数据。
优选地,在采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点前,还包括:采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注;对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号;在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征;根据语音数据特征对LSTM模型进行模型训练。
本方案中,通过采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注,进而对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号,并且在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征,最后,根据语音数据特征对LSTM模型进行模型训练,能够有效地提高用户样本数据的准确性和可靠性,进而提高LSTM模型的可靠性和准确性。
其中,活动端点检测(Voice Activity Detection,VAD)的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
另外,上述语音数据的声学特征即为MFCC(Mel-Frequency CepstralCoefficients)特征,其主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,根据语音数据特征对LSTM模型进行模型训练,具体包括:将语音数据特征输入LSTM模型,以得到长度为1的一维矢量;选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数;以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型。
本方案中,通过根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数,并且以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型,上述方案的实质为LSTM模型的训练方案,以不断提高LSTM模型对混音分离处理的准确性和可靠性。
具体地,损失函数的计算方法可以参考以下步骤:
(1)从上一节得到的所有长度为1的矢量中随机选取一个矢量x1,然后再随机选取另一个长度为1的矢量x2,x1和x2应该属于同一个说话人。
(3)再随机选取另一个长度为1的矢量x3,x1和x3应该属于不同的说话人。
(5)损失函数L由下面的公式计算:
其中,α是常量,一般取值范围在0.05~0.15之间。N是我们选取的(x1,x2,x3)这样的三元组的个数。
优选地,上述混音分离方法还包括:采用反向传播算法计算LSTM模型的梯度;采用小批量随机梯度下降算法更新LSTM模型中的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新,不仅训练速度快,而且能够得到全局最优解。
本发明的技术方案还提出了一种混音分离装置,包括存储器和处理器。
所述存储器中包括混音分离程序,所述混音分离程序被所述处理器执行时实现如下步骤:
采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;
在所述时间分割点将所述混音数据切分为若干个音频数据片段后,对全部所述音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
还包括:确定单元,用于采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;
聚类单元,用于在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
本方案中,相对于贝叶斯信息准则而言,通过采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,并且在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据,能够提高混音分离方案的准确性和可靠性。
具体地,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。CRF算法,中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。通过word2Vec,也即词向量获取算法,将句子中的字符或词转成向量、通过预防过拟合方式(Dropout)将输入传入LSTM,双向LSTM(Bi-LSTM)可以捕捉字符在前后方向的依赖关系。
优选地,本方案中预设的LSTM包括以下结构层:
(1)首先是数层堆叠的有相同结构的神经网络层(Deep architecture)。这里每层神经网络采用并列的一个前向LSTM(forward LSTM)和一个后向LSTM(backward LSTM),层数一般为1~3层。
(2)然后进入一个平均层(Average sentence),此层的作用是作为一个temporalpool(沿时间轴向池化),它将上层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量。
(3)然后进入一个DNN全连接层(Affine)。
(4)然后进入归一化层(Length Normalization),此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的矢量。
(5)最后进入损失层,损失层对应的损失函数用于检验LSTM模型预测的准确度。
优选地,滑窗的长度取值范围为0.7秒~2秒,两个滑窗沿时间轴方向每次移动100毫秒。
优选地,上述混音分离装置还包括:创建单元,用于建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点;输入单元,用于在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量;确定单元还用于:确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离;确定单元还用于:根据全部余弦距离确定参考分割点中的时间分割点。
本方案中,通过建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点,进而在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量,由此确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离,最后根据全部余弦距离确定参考分割点中的时间分割点,也即基于音频矢量的相似度来确定时间分割点,能够进一步地提高混音分离方案的准确性和可靠性。
其中,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,譬如,当两条音频矢量夹角余弦等于1时,这两条音频矢量完全重复,当夹角的余弦值接近于1时,两条音频矢量相似,夹角的余弦越小,两条音频矢量越不相关。
上述时间分割点理论上是不同用户语音之间切换的时间点。
优选地,混音分离装置还包括:划分单元,用于按照预设时间间隔将混音数据划分为多个局部音频数据;确定单元还用于:确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点;确定单元还用于:将余弦距离最大值对应的参考分割点确定为时间分割点。
本方案中,通过按照预设时间间隔将混音数据划分为多个局部音频数据,确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点,将余弦距离最大值对应的参考分割点确定为时间分割点,由局部的最大余弦距离来确定参考分割点中哪些为时间分割点,进而为下一步的聚类处理提供更准确的分类语音数据。
优选地,混音分离装置还包括:采集单元,用于采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注;滤除单元,用于对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号;提取单元,用于在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征;训练单元,用于根据语音数据特征对LSTM模型进行模型训练。
本方案中,通过采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注,进而对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号,并且在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征,最后,根据语音数据特征对LSTM模型进行模型训练,能够有效地提高用户样本数据的准确性和可靠性,进而提高LSTM模型的可靠性和准确性。
其中,活动端点检测(Voice Activity Detection,VAD)的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
另外,上述语音数据的声学特征即为MFCC(Mel-Frequency CepstralCoefficients)特征,其主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,训练单元还用于:将语音数据特征输入LSTM模型,以得到长度为1的一维矢量;混音分离装置还包括:选择单元,用于选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;选择单元还用于:选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;确定单元还用于:根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数;确定单元还用于:以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型。
本方案中,通过根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数,并且以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型,上述方案的实质为LSTM模型的训练方案,以不断提高LSTM模型对混音分离处理的准确性和可靠性。
具体地,损失函数的计算方法可以参考以下步骤:
(1)从上一节得到的所有长度为1的矢量中随机选取一个矢量x1,然后再随机选取另一个长度为1的矢量x2,x1和x2应该属于同一个说话人。
(3)再随机选取另一个长度为1的矢量x3,x1和x3应该属于不同的说话人。
(5)损失函数L由下面的公式计算:
其中,α是常量,一般取值范围在0.05~0.15之间。N是我们选取的(x1,x2,x3)这样的三元组的个数。
优选地,上述混音分离装置还包括:计算单元,用于采用反向传播算法计算LSTM模型的梯度;更新单元,用于采用小批量随机梯度下降算法更新LSTM模型中的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新,不仅训练速度快,而且能够得到全局最优解。
本发明的技术方案还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述本发明的技术方案提出的任一项的混音分离方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的混音分离方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为一实施例中混音分离方法的示意流程图;
图2为一实施例中混音分离装置的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为一实施例中混音分离方法的示意流程图。
如图1所示,该实施例中的混音分离方法包括以下步骤:步骤S102,采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;步骤S104,在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
本方案中,相对于贝叶斯信息准则而言,通过采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,并且在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据,能够提高混音分离方案的准确性和可靠性。
具体地,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。CRF算法,中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。通过word2Vec,也即词向量获取算法,将句子中的字符或词转成向量、通过预防过拟合方式(Dropout)将输入传入LSTM,双向LSTM(Bi-LSTM)可以捕捉字符在前后方向的依赖关系。
优选地,本方案中预设的LSTM包括以下结构层:
(1)首先是数层堆叠的有相同结构的神经网络层(Deep architecture)。这里每层神经网络采用并列的一个前向LSTM(forward LSTM)和一个后向LSTM(backward LSTM),层数一般为1~3层。
(2)然后进入一个平均层(Average sentence),此层的作用是作为一个temporalpool(沿时间轴向池化),它将上层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量。
(3)然后进入一个DNN全连接层(Affine)。
(4)然后进入归一化层(Length Normalization),此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的矢量。
(5)最后进入损失层,损失层对应的损失函数用于检验LSTM模型预测的准确度。
优选地,滑窗的长度取值范围为0.7秒~2秒,两个滑窗沿时间轴方向每次移动100毫秒。
优选地,采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,具体包括:建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点;在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量;确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离;根据全部余弦距离确定参考分割点中的时间分割点。
本方案中,通过建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点,进而在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量,由此确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离,最后根据全部余弦距离确定参考分割点中的时间分割点,也即基于音频矢量的相似度来确定时间分割点,能够进一步地提高混音分离方案的准确性和可靠性。
其中,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,譬如,当两条音频矢量夹角余弦等于1时,这两条音频矢量完全重复,当夹角的余弦值接近于1时,两条音频矢量相似,夹角的余弦越小,两条音频矢量越不相关。
上述时间分割点理论上是不同用户语音之间切换的时间点。
优选地,根据全部余弦距离确定参考分割点中的时间分割点,具体包括:按照预设时间间隔将混音数据划分为多个局部音频数据;确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点;将余弦距离最大值对应的参考分割点确定为时间分割点。
本方案中,通过按照预设时间间隔将混音数据划分为多个局部音频数据,确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点,将余弦距离最大值对应的参考分割点确定为时间分割点,由局部的最大余弦距离来确定参考分割点中哪些为时间分割点,进而为下一步的聚类处理提供更准确的分类语音数据。
优选地,在采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点前,还包括:采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注;对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号;在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征;根据语音数据特征对LSTM模型进行模型训练。
本方案中,通过采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注,进而对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号,并且在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征,最后,根据语音数据特征对LSTM模型进行模型训练,能够有效地提高用户样本数据的准确性和可靠性,进而提高LSTM模型的可靠性和准确性。
其中,活动端点检测(Voice Activity Detection,VAD)的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
另外,上述语音数据的声学特征即为MFCC(Mel-Frequency CepstralCoefficients)特征,其主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,根据语音数据特征对LSTM模型进行模型训练,具体包括:将语音数据特征输入LSTM模型,以得到长度为1的一维矢量;选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数;以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型。
本方案中,通过根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数,并且以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型,上述方案的实质为LSTM模型的训练方案,以不断提高LSTM模型对混音分离处理的准确性和可靠性。
具体地,损失函数的计算方法可以参考以下步骤:
(1)从上一节得到的所有长度为1的矢量中随机选取一个矢量x1,然后再随机选取另一个长度为1的矢量x2,x1和x2应该属于同一个说话人。
(3)再随机选取另一个长度为1的矢量x3,x1和x3应该属于不同的说话人。
(5)损失函数L由下面的公式计算:
其中,α是常量,一般取值范围在0.05~0.15之间。N是我们选取的(x1,x2,x3)这样的三元组的个数。
优选地,上述混音分离方法还包括:采用反向传播算法计算LSTM模型的梯度;采用小批量随机梯度下降算法更新LSTM模型中的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新,不仅训练速度快,而且能够得到全局最优解。
图2为一实施例中混音分离装置的示意框图。
本发明的技术方案还提出了一种混音分离装置,包括存储器和处理器。
所述存储器中包括混音分离程序,所述混音分离程序被所述处理器执行时实现如下步骤:
采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;
在所述时间分割点将所述混音数据切分为若干个音频数据片段后,对全部所述音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
如图2所示,该实施例中混音分离装置200包括:确定单元202,用于采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;聚类单元204,用于在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据。
本方案中,相对于贝叶斯信息准则而言,通过采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,并且在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据,能够提高混音分离方案的准确性和可靠性。
具体地,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。CRF算法,中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。通过word2Vec,也即词向量获取算法,将句子中的字符或词转成向量、通过预防过拟合方式(Dropout)将输入传入LSTM,双向LSTM(Bi-LSTM)可以捕捉字符在前后方向的依赖关系。
优选地,本方案中预设的LSTM包括以下结构层:
(1)首先是数层堆叠的有相同结构的神经网络层(Deep architecture)。这里每层神经网络采用并列的一个前向LSTM(forward LSTM)和一个后向LSTM(backward LSTM),层数一般为1~3层。
(2)然后进入一个平均层(Average sentence),此层的作用是作为一个temporalpool(沿时间轴向池化),它将上层前向LSTM和后向LSTM输出的矢量序列都进行平均化,得到一个前向平均矢量和一个后向平均矢量,并将这两个平均矢量前后串联成一个矢量。
(3)然后进入一个DNN全连接层(Affine)。
(4)然后进入归一化层(Length Normalization),此层将上一层的输入按照L2范数进行归一化,得到长度为1的归一化后的矢量。
(5)最后进入损失层,损失层对应的损失函数用于检验LSTM模型预测的准确度。
优选地,滑窗的长度取值范围为0.7秒~2秒,两个滑窗沿时间轴方向每次移动100毫秒。
优选地,上述混音分离装置200还包括:创建单元206,用于建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点;输入单元208,用于在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量;确定单元202还用于:确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离;确定单元202还用于:根据全部余弦距离确定参考分割点中的时间分割点。
本方案中,通过建立两个相邻的滑窗自混音数据的起始时刻向终止时刻滑动,两个滑窗之间的时间点为参考分割点,进而在任一参考分割点位置下,将两个滑窗对应的特征点输入LSTM模型,以同时得到两个一维音频矢量,由此确定任一参考分割点位置对应的两个一维音频矢量之间的余弦距离,最后根据全部余弦距离确定参考分割点中的时间分割点,也即基于音频矢量的相似度来确定时间分割点,能够进一步地提高混音分离方案的准确性和可靠性。
其中,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,譬如,当两条音频矢量夹角余弦等于1时,这两条音频矢量完全重复,当夹角的余弦值接近于1时,两条音频矢量相似,夹角的余弦越小,两条音频矢量越不相关。
上述时间分割点理论上是不同用户语音之间切换的时间点。
优选地,混音分离装置200还包括:划分单元210,用于按照预设时间间隔将混音数据划分为多个局部音频数据;确定单元202还用于:确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点;确定单元202还用于:将余弦距离最大值对应的参考分割点确定为时间分割点。
本方案中,通过按照预设时间间隔将混音数据划分为多个局部音频数据,确定任一多个局部音频数据内的余弦距离最大值对应的参考分割点,将余弦距离最大值对应的参考分割点确定为时间分割点,由局部的最大余弦距离来确定参考分割点中哪些为时间分割点,进而为下一步的聚类处理提供更准确的分类语音数据。
优选地,混音分离装置200还包括:采集单元212,用于采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注;滤除单元214,用于对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号;提取单元216,用于在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征;训练单元218,用于根据语音数据特征对LSTM模型进行模型训练。
本方案中,通过采集每个用户的语音数据,并以用户为区别特征对语音数据进行标注,进而对语音数据进行活动端点检测,以滤除语音数据中包含的静音信号和/或噪声信号,并且在完成活动端点检测后,将语音数据转化到梅尔频率并进行倒谱分析,以获得语音数据的声学特征,最后,根据语音数据特征对LSTM模型进行模型训练,能够有效地提高用户样本数据的准确性和可靠性,进而提高LSTM模型的可靠性和准确性。
其中,活动端点检测(Voice Activity Detection,VAD)的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
另外,上述语音数据的声学特征即为MFCC(Mel-Frequency CepstralCoefficients)特征,其主要包括两个关键步骤:转化到梅尔频率,然后进行倒谱分析。
首先,梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度。所以当在梅尔刻度上面上是均匀分度的话,对于的赫兹之间的距离将会越来越大。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
这一步的含义是:首先对时域信号进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对应频域信号进行切分,最后每个频率段对应一个数值。
其次,倒谱的含义是:对时域信号做傅里叶变换,然后取log,然后再进行反傅里叶变换。可以分为复倒谱、实倒谱和功率倒谱,我们用的是功率倒谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。对应上图的频域信号,可以拆分成两部分的乘积:频谱的包络和频谱的细节。频谱的峰值即为共振峰,它决定了信号频域的包络,是辨别声音的重要信息,所以进行倒谱分析目的就是获得频谱的包络信息。包络部分对应的是频谱的低频信息,而细节部分对应的是频谱的高频信息。倒谱分析已经将两部分对应的时域信号的卷积关系转化为了线性加关系,所以只需要将倒谱通过一个低通滤波器即可获得包络部分对应的时域信号。
优选地,训练单元218还用于:将语音数据特征输入LSTM模型,以得到长度为1的一维矢量;混音分离装置200还包括:选择单元220,用于选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;选择单元220还用于:选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;确定单元202还用于:根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数;确定单元202还用于:以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型。
本方案中,通过根据第一余弦距离和第二余弦距离确定LSTM模型的损失函数,并且以输出最小值的损失函数对应的LSTM模型确定为对混音数据进行解析的模型,上述方案的实质为LSTM模型的训练方案,以不断提高LSTM模型对混音分离处理的准确性和可靠性。
具体地,损失函数的计算方法可以参考以下步骤:
(1)从上一节得到的所有长度为1的矢量中随机选取一个矢量x1,然后再随机选取另一个长度为1的矢量x2,x1和x2应该属于同一个说话人。
(3)再随机选取另一个长度为1的矢量x3,x1和x3应该属于不同的说话人。
(5)损失函数L由下面的公式计算:
其中,α是常量,一般取值范围在0.05~0.15之间。N是我们选取的(x1,x2,x3)这样的三元组的个数。
优选地,上述混音分离装置200还包括:计算单元222,用于采用反向传播算法计算LSTM模型的梯度;更新单元224,用于采用小批量随机梯度下降算法更新LSTM模型中的参数。
本方案中,反向传播算法主要由两个环节(激励传播和权重更新)反复循环迭代,直到网络的对输入的响应达到预定的目标范围为止。
每次迭代中的传播环节包含两步:
(1)前向传播阶段:训练输入送入网络以获得激励响应。
(2)反向传播阶段:将激励响应同训练输入对应的目标输出求差,从而获得隐层和输出层的响应误差。
对于每个突触上的权重,按照以下步骤进行更新:
(1)将输入激励和响应误差相乘,从而获得权重的梯度;
(2)将这个梯度乘上一个比例并取反后加到权重上。
(3)这个比例将会影响到训练过程的速度和效果,因此称为“训练因子”。梯度的方向指明了误差扩大的方向,因此在更新权重的时候需要对其取反,从而减小权重引起的误差。
另外,小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD):它的具体思路是在更新每一参数时都使用一部分样本来进行更新,不仅训练速度快,而且能够得到全局最优解。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种混音分离方法和一种混音分离装置,相对于贝叶斯信息准则而言,通过采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,并且在时间分割点将混音数据切分为若干个音频数据片段后,对全部音频数据片段进行聚类处理,以得到每个用户对应的音频数据,能够提高混音分离方案的准确性和可靠性。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种混音分离方法,应用于混音分离装置,其特征在于,包括:
采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;
在所述时间分割点将所述混音数据切分为若干个音频数据片段后,对全部所述音频数据片段进行聚类处理,以得到每个用户对应的音频数据;
其中,所述采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点,具体包括:
建立两个相邻的滑窗自所述混音数据的起始时刻向终止时刻滑动,两个所述滑窗之间的时间点为参考分割点;
在任一所述参考分割点位置下,将两个所述滑窗对应的特征点输入所述LSTM模型,以同时得到两个一维音频矢量;
确定任一所述参考分割点位置对应的两个所述一维音频矢量之间的余弦距离;
根据全部所述余弦距离确定所述参考分割点中的时间分割点。
2.根据权利要求1所述的混音分离方法,其特征在于,所述根据全部所述余弦距离确定所述参考分割点中的时间分割点,具体包括:
按照预设时间间隔将所述混音数据划分为多个局部音频数据;
确定任一所述多个局部音频数据内的余弦距离最大值对应的参考分割点;
将所述余弦距离最大值对应的参考分割点确定为所述时间分割点。
3.根据权利要求1所述的混音分离方法,其特征在于,在采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点前,还包括:
采集每个用户的语音数据,并以所述用户为区别特征对所述语音数据进行标注;
对所述语音数据进行活动端点检测,以滤除所述语音数据中包含的静音信号和/或噪声信号;
在完成所述活动端点检测后,将所述语音数据转化到梅尔频率并进行倒谱分析,以获得所述语音数据的声学特征;
根据所述语音数据特征对所述LSTM模型进行模型训练;
将所述语音数据特征输入所述LSTM模型,以得到长度为1的一维矢量;
选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;
选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;
根据所述第一余弦距离和所述第二余弦距离确定所述LSTM模型的损失函数;
以输出最小值的损失函数对应的LSTM模型确定为对所述混音数据进行解析的模型。
4.根据权利要求1至3中任一项所述的混音分离方法,其特征在于,还包括:
采用反向传播算法计算所述LSTM模型的梯度;
采用小批量随机梯度下降算法更新所述LSTM模型中的参数。
5.一种混音分离装置,其特征在于,包括存储器和处理器:
所述存储器中包括混音分离程序,所述混音分离程序被所述处理器执行时实现如下步骤:
采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点;
在所述时间分割点将所述混音数据切分为若干个音频数据片段后,对全部所述音频数据片段进行聚类处理,以得到每个用户对应的音频数据;
其中,所述采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点包括如下步骤:
建立两个相邻的滑窗自所述混音数据的起始时刻向终止时刻滑动,两个所述滑窗之间的时间点为参考分割点;
在任一所述参考分割点位置下,将两个所述滑窗对应的特征点输入所述LSTM模型,以同时得到两个一维音频矢量;
确定任一所述参考分割点位置对应的两个所述一维音频矢量之间的余弦距离;
根据全部所述余弦距离确定所述参考分割点中的时间分割点。
6.根据权利要求5所述的混音分离装置,其特征在于,所述根据全部所述余弦距离确定所述参考分割点中的时间分割点,包括如下步骤:
按照预设时间间隔将所述混音数据划分为多个局部音频数据;
确定任一所述多个局部音频数据内的余弦距离最大值对应的参考分割点;
将所述余弦距离最大值对应的参考分割点确定为所述时间分割点。
7.根据权利要求5所述的混音分离装置,其特征在于,在采用预设的LSTM模型确定混音数据中的任两个音频数据之间的时间分割点前还包括如下步骤:
采集每个用户的语音数据,并以所述用户为区别特征对所述语音数据进行标注;
对所述语音数据进行活动端点检测,以滤除所述语音数据中包含的静音信号和/或噪声信号;
在完成所述活动端点检测后,将所述语音数据转化到梅尔频率并进行倒谱分析,以获得所述语音数据的声学特征;
根据所述语音数据特征对所述LSTM模型进行模型训练;
将所述语音数据特征输入所述LSTM模型,以得到长度为1的一维矢量;
选择属于同一用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第一余弦距离;
选择属于两个用户的两个长度为1的一维矢量,并计算两个一维矢量之间的余弦距离,记作第二余弦距离;
根据所述第一余弦距离和所述第二余弦距离确定所述LSTM模型的损失函数;
以输出最小值的损失函数对应的LSTM模型确定为对所述混音数据进行解析的模型。
8.一种计算机可读存储介质,其上存储有混音分离程序,当混音分离程序被处理器执行时,实现如权利要求1至4中任一项所述的混音分离方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811079834.0A CN109300470B (zh) | 2018-09-17 | 2018-09-17 | 混音分离方法和混音分离装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811079834.0A CN109300470B (zh) | 2018-09-17 | 2018-09-17 | 混音分离方法和混音分离装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300470A CN109300470A (zh) | 2019-02-01 |
CN109300470B true CN109300470B (zh) | 2023-05-02 |
Family
ID=65163216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811079834.0A Active CN109300470B (zh) | 2018-09-17 | 2018-09-17 | 混音分离方法和混音分离装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300470B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335621A (zh) * | 2019-05-28 | 2019-10-15 | 深圳追一科技有限公司 | 音频处理的方法、系统及相关设备 |
CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
CN110853666B (zh) * | 2019-12-17 | 2022-10-04 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN111899755A (zh) * | 2020-08-11 | 2020-11-06 | 华院数据技术(上海)有限公司 | 一种说话人语音分离方法及相关设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3311626B1 (en) * | 2015-06-22 | 2021-05-05 | Loose Cannon Systems, Inc. | Portable group communication device |
US9741360B1 (en) * | 2016-10-09 | 2017-08-22 | Spectimbre Inc. | Speech enhancement for target speakers |
CN106782507B (zh) * | 2016-12-19 | 2018-03-06 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN108257592A (zh) * | 2018-01-11 | 2018-07-06 | 广州势必可赢网络科技有限公司 | 一种基于长短期记忆模型的人声分割方法及系统 |
-
2018
- 2018-09-17 CN CN201811079834.0A patent/CN109300470B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109300470A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
Muda et al. | Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques | |
US5509103A (en) | Method of training neural networks used for speech recognition | |
US7177808B2 (en) | Method for improving speaker identification by determining usable speech | |
CN106847267B (zh) | 一种连续语音流中的叠音检测方法 | |
Heittola et al. | The machine learning approach for analysis of sound scenes and events | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
CN112541533A (zh) | 一种基于神经网络与特征融合的改装车识别方法 | |
Kong et al. | Speech enhancement with weakly labelled data from audioset | |
CN113488063A (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
US5832181A (en) | Speech-recognition system utilizing neural networks and method of using same | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
CN116778910A (zh) | 一种语音检测方法 | |
CN113963718B (zh) | 一种基于深度学习的语音会话分割方法 | |
CN115346514A (zh) | 一种面向智能驾驶测评的音频预警智能识别方法 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
Slívová et al. | Isolated word automatic speech recognition system | |
CN115116469A (zh) | 特征表示的提取方法、装置、设备、介质及程序产品 | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system | |
Konduru et al. | Multidimensional feature diversity based speech signal acquisition | |
Benhammoud et al. | Automatic classification of disordered voices with hidden Markov models | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Dutta et al. | Robust language identification using power normalized cepstral coefficients | |
Prasanna Kumar et al. | Unsupervised speech separation by detecting speaker changeover points under single channel condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |