CN111179914B - 一种基于改进动态时间规整算法的语音样本筛选方法 - Google Patents
一种基于改进动态时间规整算法的语音样本筛选方法 Download PDFInfo
- Publication number
- CN111179914B CN111179914B CN201911227134.6A CN201911227134A CN111179914B CN 111179914 B CN111179914 B CN 111179914B CN 201911227134 A CN201911227134 A CN 201911227134A CN 111179914 B CN111179914 B CN 111179914B
- Authority
- CN
- China
- Prior art keywords
- samples
- voice
- distance
- segment
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012216 screening Methods 0.000 title claims abstract description 23
- 230000007704 transition Effects 0.000 claims abstract description 36
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001575999 Hakka Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于改进动态时间规整算法的语音样本筛选方法,包括步骤:使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号最大幅值的变化信息来确定过渡音,并对过渡音进行标注;分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;根据距离矩阵对语音样本进行筛选。本发明解决了在样本数据量大、不能保证样本质量的情况下,对同一文本的语音样本的筛选问题,降低筛选成本,并为后续处理(如语料库的构建、深度神经网络的学习等)提供了更为可靠的样本数据。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于改进动态时间规整算法的语音样本筛选方法。
背景技术
随着移动便携设备和互联网的快速发展,可多渠道获取语音样本,其数据量也与日俱增。庞大的语音数据给各类语种语料库的构建提供了基础,同时随着人工智能的发展,深度神经网络(Deep Neural Network,DNN)在语音处理领域取得显著效果。2012年Hinton利用深度神经网络在语音识别中取得新的突破,随后研究中又出现更多符合语音序列时序特点的网络结构,比如循环神经网络(Recurrent Neural Network,RNN)、长短期记忆循环神经网络(Long Short-Term Memory,LSTM)等。深度神经网络在语音样本数据量大、样本质量好的情况下,网络学习的准确性高、泛化能力强。当训练过程需要利用同一文本的多语音样本时,由于录制过程和录制者的不确定性,导致某些样本的实际语音文本与目标文本差异较大,甚至完全不同的情况。这种不正确的样本可能会严重影响网络的学习效果,因此需要对语音样本进行筛选,筛选出合格的样本用于不同任务的网络训练。
同一文本语音样本筛选的主要依据是:大多数样本是好的,客观度量的相似性较高。因此利用样本之间的相似性可以将离群的样本剔除,提高样本集质量。所以如何合理度量语音样本的相似性成为筛选的关键,客观相似性度量与主观感知相似性的关联性越高,使得在样本比较时更合理、更具有感知一致意义。
动态时间规整算法(Dynamic Time Warp,DTW)基于动态规划的思想,通过时间轴的扭曲或弯折将两个不同时长的语音进行时间上的对齐,进而得到两者之间较为合理的相似性度量。DTW算法实现简单,在中小词汇量、孤立词的识别上具有优势。但由于该算法主要针对孤立词样本的比较,在应用到短语或者句子的相似性度量时存在一定的缺陷,在算法基本的局部连续性约束和整体路径约束下仍旧存在许多无意义的匹配。语音短时帧根据发音特点可以分为元音、辅音和过渡音三种类型。在度量短语或者句子语音样本的相似性时,结合语音短时帧的类型信息可以使得匹配更加的合理,距离的度量也更有意义。
无论是语料库的构建还是深度神经网络的学习都需要合理、正确的语音样本,如果通过人工试听判断语音样本是否属于同一文本,会造成巨大的工作量,效率低下。尤其是低资源的语种,比如汉语各种方言,对于此类语音样本依靠人工筛选存在一定的难度,耗费巨大。因此需要一种低成本、有效的方法对语音样本进行筛选。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进动态时间规整算法的语音样本筛选方法。本发明利用短时帧元音、辅音、过渡音类型的标注、时序位置的差异和样本时长的差异,对动态时间规整算法中的局部距离和整体距离进行加权,使得针对短语或句子的匹配过程更有意义,并且样本间相似性的度量也更加合理,从而筛选出合格的语音样本。
本发明的目的能够通过以下技术方案实现:
一种基于改进动态时间规整算法的语音样本筛选方法,包括步骤:
使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;
根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
根据距离矩阵对语音样本进行筛选。
具体地,所述基于同一文本录制的多个语音样本要求为同一语种或者方言,如汉语中的粤语、客家话等,对说话人、录制环境等因素则没有任何约束。
具体地,语音样本进行预处理后,用语音端点检测(VAD)方法去除背景音并标注语音样本的元音和辅音,提取样本短时帧语音特征,构建的样本集的语音特征序列表示为F={fh,h=1,2,…,H},其中fh为第h个样本的语音特征序列。
具体地,所述对过渡音进行标注的步骤中,过渡音的标注方法为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值ai,i=1,2,…,k;若存在s≥k满足as>aj,j=1,2,…,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,变化呈下降趋势,所以斜率为负值,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。
具体地,所述构建所有样本的距离矩阵的步骤中,根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算,根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,Y)
其中,μ(Tx,Ty)为样本时长差异的加权,和为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,为语音短时帧时序位置差异的加权。
当X=Y时DXY=0,即相同样本之间的距离为0。
两个样本从(1,1)开始到(Tx,Ty)结束,其中,Tx,Ty分别代表X和Y样本的去除静音后的时长信息,两样本最小累积距离计算步骤如下:
δ(1)=1
ρ(1)=1
对于能够到达的点1≤xi≤Tx,1≤yj≤Ty,距离D(xi,yj)按下式计算:
其中,ζ为点(x′i,y′j)到点(xi,yj)的加权累积失真距离(局部距离),且1≤x′i≤xi,1≤y′j≤yj,计算公式为:
其中,Ls为两样本点之间经过的帧数,T′为点(1,1)到点(xi,yj)经过总的帧数,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α,且一般设为1;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
否则进行段内时序匹配加权,具体为:
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α。
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;所述加权参数以实际效果最佳为准,η与ε大致相近,简单处理可以相同。
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大,因此基于时长差异增加整体距离的权重,
因此,构造的H×H规模的样本距离矩阵表示为:
[Dij]i=1,2,...,H,j=1,2,...,H
具体地,所述根据距离矩阵对语音样本进行筛选的步骤中,样本筛选方法为:
计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
其中,N为总样本数;
本发明是依据样本之间的距离是一个随机变量,其分布大概率遵循高斯分布,根据高斯分布的性质,可筛选出原始样本中约68%—84%的样本。
本发明相较于现有技术,具有以下的有益效果:
本发明能够对语音样本进行简易、高效以及低成本的筛选,在保证了筛选出的样本其主观感知合理的情况下,大大降低了人工试听筛选的工作量,减少了低资源语种语料库构建的难度,同时也为深度学习网络提供了质量较好的训练样本,从而推动低资源语种尤其是汉语方言的语音识别、关键词检索等研究的发展。
附图说明
图1是本发明中一种基于改进动态时间规整算法的语音样本筛选方法的流程图;
图2是本发明中构建样本语音特征序列的流程图;
图3是本发明中对过渡音进行标注的流程图;
图4是本发明中基于改进DTW算法构建所有样本的距离矩阵的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于改进动态时间规整算法的语音样本筛选方法的流程图,所述方法包括步骤:
(1)使用基于同一文本录制的多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本语音特征序列表达。
在本实施例中,使用录制的江西客家话的语音样本作为数据集,数据集一共包含115个说话人,每人录制根据关键词构造的672句话,每句话每人录制一次,选取10个关键词作为检测目标,并选取出包含10个关键词的句子所对应的语音样本构造出基于同类文本的语音样本集,根据3:7的比例划分测试集和训练集。对于训练集中每类样本集的样本进行预处理后,用语音端点检测(VAD)方法去除背景音并标注语音样本的元音、辅音,然后提取样本短时帧语音特征,样本集的语音特征表达为F={fh,h=1,2,…,H},其中fh为第h个样本的特征序列。
如图2所示为构建样本语音特征序列的流程图。每类样本集样本利用带通滤波器进行滤波处理,再利用短时能量和过零率的双门限法对样本端点检测,随后分帧提取12维的MFCC特征,最后构建样本语音特征序列表达。
(2)根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
如图3所示为本发明中对过渡音进行标注的流程图,过渡音的标注方法具体为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值aii=1,2,…,k;若存在s≤k满足as>ajj=1,2,…,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;在本实施例中,向后往元音段搜索帧数k=3。
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,变化呈下降趋势,所以斜率为负值,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。在本实施例中,斜率阈值取-0.95。
(3)分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
如图4所示为本发明中基于改进的DTW算法构建所有样本的距离矩阵的流程图。具体地,所述构建所有样本的距离矩阵的步骤中,根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算,根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,Y)
其中,μ(Tx,Ty)为样本时长差异的加权,和为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,为语音短时帧时序位置差异的加权。
当X=Y时DXY=0,即相同样本之间的距离为0。
两个样本从(1,1)开始到(Tx,Ty)结束,其中,Tx,Ty分别代表X和Y样本的去除静音后的时长信息,两样本最小累积距离计算步骤如下:
δ(1)=1
ρ(1)=1
对于能够到达的点1≤xi≤Tx,1≤yj≤Ty,距离D(xi,yj)按下式计算:
其中,ζ为点(x′i,y′j)到点(xi,yj)的加权累积失真距离(局部距离),且1≤x′i≤xi,1≤y′j≤yj,计算公式为:
其中,Ls为两样本点之间经过的帧数,T′为点(1,1)到点(xi,yj)经过总的帧数,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。在本实施例中,α=1,β=3,γ=2。
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
否则进行段内时序匹配加权,具体为:
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α。
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;所述加权参数以实际效果最佳为准,η与ε大致相近,简单处理可以相同。在本实施例中,加权系数a=2,b=1,ε=1/2,η=1/2。
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
两样本的时长相差越大,加权系数值越大,但由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大,因此基于时长差异增加整体距离的权重,
因此,构造的H×H规模的样本距离矩阵表示为:
[Dij]i=1,2,…,H,j=1,2,...,H
针对训练集利用改进DTW算法筛选数据,再将筛选出的样本作为最终的训练样本,结果表明10个关键词的检出率和准确率较未筛选前有所提升,同时网络训练过程更加稳定。
(4)根据距离矩阵对语音样本进行筛选。
计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
其中,N为总样本数;
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于改进动态时间规整算法的语音样本筛选方法,其特征在于,包括步骤:
使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;
根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
所述构建所有样本的距离矩阵的步骤中,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,γ)
其中,μ(Tx,Ty)为样本时长差异的加权,和为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,为语音短时帧时序位置差异的加权,Tx,Ty分别代表X和Y样本的去除静音后的时长信息;
当X=Y时DXY=0,即相同样本之间的距离为0;
根据距离矩阵对语音样本进行筛选,计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
其中,N为总样本数;
2.根据权利要求1所述的方法,其特征在于,语音样本进行基本的预处理后,用语音端点检测方法去除背景音并标注语音样本的元音和辅音,提取样本短时帧语音特征,构建的样本集的语音特征序列表示为F={fh,h=1,2,...,H},其中fh为第h个样本的语音特征序列。
3.根据权利要求1所述的方法,其特征在于,所述对过渡音进行标注的步骤中,过渡音的标注方法为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值ai,i=1,2,...,k;若存在s≤k满足as>aj,j=1,2,...,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。
6.根据权利要求5所述的方法,其特征在于,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α,且一般设为1;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
否则进行段内时序匹配加权,具体为:
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α;
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911227134.6A CN111179914B (zh) | 2019-12-04 | 2019-12-04 | 一种基于改进动态时间规整算法的语音样本筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911227134.6A CN111179914B (zh) | 2019-12-04 | 2019-12-04 | 一种基于改进动态时间规整算法的语音样本筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179914A CN111179914A (zh) | 2020-05-19 |
CN111179914B true CN111179914B (zh) | 2022-12-16 |
Family
ID=70652006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911227134.6A Active CN111179914B (zh) | 2019-12-04 | 2019-12-04 | 一种基于改进动态时间规整算法的语音样本筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179914B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903340A (zh) * | 2020-06-18 | 2022-01-07 | 北京声智科技有限公司 | 样本筛选方法及电子设备 |
CN112530409B (zh) * | 2020-12-01 | 2024-01-23 | 平安科技(深圳)有限公司 | 基于几何学的语音样本筛选方法、装置及计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1369847A1 (en) * | 2002-06-04 | 2003-12-10 | Cortologic AG | Speech recognition method and system |
WO2009097738A1 (zh) * | 2008-01-30 | 2009-08-13 | Institute Of Computing Technology, Chinese Academy Of Sciences | 一种音频匹配方法及系统 |
CN104103280A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 基于动态时间归整算法的离线语音端点检测的方法和装置 |
CN105931646A (zh) * | 2016-04-29 | 2016-09-07 | 江西师范大学 | 一种基于简单直接度量学习算法的说话人识别方法 |
CN108665903A (zh) * | 2018-05-11 | 2018-10-16 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其系统 |
CN109840466A (zh) * | 2018-12-05 | 2019-06-04 | 华南理工大学 | 基于聚类及全局/局部距离综合的多重度量学习方法 |
CN110147843A (zh) * | 2019-05-22 | 2019-08-20 | 哈尔滨工程大学 | 基于度量学习的语音时序数据相似性度量方法 |
-
2019
- 2019-12-04 CN CN201911227134.6A patent/CN111179914B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1369847A1 (en) * | 2002-06-04 | 2003-12-10 | Cortologic AG | Speech recognition method and system |
WO2009097738A1 (zh) * | 2008-01-30 | 2009-08-13 | Institute Of Computing Technology, Chinese Academy Of Sciences | 一种音频匹配方法及系统 |
CN104103280A (zh) * | 2014-07-15 | 2014-10-15 | 无锡中星微电子有限公司 | 基于动态时间归整算法的离线语音端点检测的方法和装置 |
CN105931646A (zh) * | 2016-04-29 | 2016-09-07 | 江西师范大学 | 一种基于简单直接度量学习算法的说话人识别方法 |
CN108665903A (zh) * | 2018-05-11 | 2018-10-16 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其系统 |
CN109840466A (zh) * | 2018-12-05 | 2019-06-04 | 华南理工大学 | 基于聚类及全局/局部距离综合的多重度量学习方法 |
CN110147843A (zh) * | 2019-05-22 | 2019-08-20 | 哈尔滨工程大学 | 基于度量学习的语音时序数据相似性度量方法 |
Non-Patent Citations (2)
Title |
---|
"Slope Finder-A distance measure for DTW based isolated word speech recognition";Chandra A;《International journal of engineering and computer science》;20131231;全文 * |
"基于度量学习的多变量时序数据分类方法研究";张海彬;《中国优秀硕士学位论文全文数据库基础科学辑》;20190915;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111179914A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ng et al. | Subword-based approaches for spoken document retrieval | |
Islam et al. | A speech recognition system for bengali language using recurrent neural network | |
JP2003521721A (ja) | ピッチ追跡方法および装置 | |
Enarvi et al. | Automatic speech recognition with very large conversational finnish and estonian vocabularies | |
Bluche et al. | Predicting detection filters for small footprint open-vocabulary keyword spotting | |
CN111179914B (zh) | 一种基于改进动态时间规整算法的语音样本筛选方法 | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Yusuf et al. | Low resource keyword search with synthesized crosslingual exemplars | |
Lee et al. | Korean dialect identification based on intonation modeling | |
Xu et al. | Re-ranking spoken term detection with acoustic exemplars of keywords | |
Stadtschnitzer | Robust speech recognition for german and dialectal broadcast programmes | |
Tabibian | A survey on structured discriminative spoken keyword spotting | |
Laleye et al. | Fuzzy-based algorithm for Fongbe continuous speech segmentation | |
Byrne et al. | Automatic generation of pronunciation lexicons for Mandarin spontaneous speech | |
Panaite et al. | Towards a Deep Speech model for Romanian language | |
Vazirnezhad et al. | Hybrid statistical pronunciation models designed to be trained by a medium-size corpus | |
Sun | Language Identification with Unsupervised Phoneme-like Sequence and TDNN-LSTM-RNN | |
Hlaing et al. | Word Representations for Neural Network Based Myanmar Text-to-Speech S. | |
Chen et al. | Improving mandarin prosodic structure prediction with multi-level contextual information | |
Phuong et al. | Development of high-performance and large-scale vietnamese automatic speech recognition systems | |
Dong et al. | Pitch contour model for Chinese text-to-speech using CART and statistical model | |
Vyas et al. | Study of Speech Recognition Technology and its Significance in Human-Machine Interface | |
Sun | Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition | |
He | Segmental models with an exploration of acoustic and lexical grouping in automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |