CN111179914B - 一种基于改进动态时间规整算法的语音样本筛选方法 - Google Patents

一种基于改进动态时间规整算法的语音样本筛选方法 Download PDF

Info

Publication number
CN111179914B
CN111179914B CN201911227134.6A CN201911227134A CN111179914B CN 111179914 B CN111179914 B CN 111179914B CN 201911227134 A CN201911227134 A CN 201911227134A CN 111179914 B CN111179914 B CN 111179914B
Authority
CN
China
Prior art keywords
samples
voice
distance
segment
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911227134.6A
Other languages
English (en)
Other versions
CN111179914A (zh
Inventor
贺前华
詹俊瑶
严海康
苏健彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911227134.6A priority Critical patent/CN111179914B/zh
Publication of CN111179914A publication Critical patent/CN111179914A/zh
Application granted granted Critical
Publication of CN111179914B publication Critical patent/CN111179914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于改进动态时间规整算法的语音样本筛选方法,包括步骤:使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号最大幅值的变化信息来确定过渡音,并对过渡音进行标注;分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;根据距离矩阵对语音样本进行筛选。本发明解决了在样本数据量大、不能保证样本质量的情况下,对同一文本的语音样本的筛选问题,降低筛选成本,并为后续处理(如语料库的构建、深度神经网络的学习等)提供了更为可靠的样本数据。

Description

一种基于改进动态时间规整算法的语音样本筛选方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于改进动态时间规整算法的语音样本筛选方法。
背景技术
随着移动便携设备和互联网的快速发展,可多渠道获取语音样本,其数据量也与日俱增。庞大的语音数据给各类语种语料库的构建提供了基础,同时随着人工智能的发展,深度神经网络(Deep Neural Network,DNN)在语音处理领域取得显著效果。2012年Hinton利用深度神经网络在语音识别中取得新的突破,随后研究中又出现更多符合语音序列时序特点的网络结构,比如循环神经网络(Recurrent Neural Network,RNN)、长短期记忆循环神经网络(Long Short-Term Memory,LSTM)等。深度神经网络在语音样本数据量大、样本质量好的情况下,网络学习的准确性高、泛化能力强。当训练过程需要利用同一文本的多语音样本时,由于录制过程和录制者的不确定性,导致某些样本的实际语音文本与目标文本差异较大,甚至完全不同的情况。这种不正确的样本可能会严重影响网络的学习效果,因此需要对语音样本进行筛选,筛选出合格的样本用于不同任务的网络训练。
同一文本语音样本筛选的主要依据是:大多数样本是好的,客观度量的相似性较高。因此利用样本之间的相似性可以将离群的样本剔除,提高样本集质量。所以如何合理度量语音样本的相似性成为筛选的关键,客观相似性度量与主观感知相似性的关联性越高,使得在样本比较时更合理、更具有感知一致意义。
动态时间规整算法(Dynamic Time Warp,DTW)基于动态规划的思想,通过时间轴的扭曲或弯折将两个不同时长的语音进行时间上的对齐,进而得到两者之间较为合理的相似性度量。DTW算法实现简单,在中小词汇量、孤立词的识别上具有优势。但由于该算法主要针对孤立词样本的比较,在应用到短语或者句子的相似性度量时存在一定的缺陷,在算法基本的局部连续性约束和整体路径约束下仍旧存在许多无意义的匹配。语音短时帧根据发音特点可以分为元音、辅音和过渡音三种类型。在度量短语或者句子语音样本的相似性时,结合语音短时帧的类型信息可以使得匹配更加的合理,距离的度量也更有意义。
无论是语料库的构建还是深度神经网络的学习都需要合理、正确的语音样本,如果通过人工试听判断语音样本是否属于同一文本,会造成巨大的工作量,效率低下。尤其是低资源的语种,比如汉语各种方言,对于此类语音样本依靠人工筛选存在一定的难度,耗费巨大。因此需要一种低成本、有效的方法对语音样本进行筛选。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进动态时间规整算法的语音样本筛选方法。本发明利用短时帧元音、辅音、过渡音类型的标注、时序位置的差异和样本时长的差异,对动态时间规整算法中的局部距离和整体距离进行加权,使得针对短语或句子的匹配过程更有意义,并且样本间相似性的度量也更加合理,从而筛选出合格的语音样本。
本发明的目的能够通过以下技术方案实现:
一种基于改进动态时间规整算法的语音样本筛选方法,包括步骤:
使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;
根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
根据距离矩阵对语音样本进行筛选。
具体地,所述基于同一文本录制的多个语音样本要求为同一语种或者方言,如汉语中的粤语、客家话等,对说话人、录制环境等因素则没有任何约束。
具体地,语音样本进行预处理后,用语音端点检测(VAD)方法去除背景音并标注语音样本的元音和辅音,提取样本短时帧语音特征,构建的样本集的语音特征序列表示为F={fh,h=1,2,…,H},其中fh为第h个样本的语音特征序列。
具体地,所述对过渡音进行标注的步骤中,过渡音的标注方法为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值ai,i=1,2,…,k;若存在s≥k满足as>aj,j=1,2,…,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,变化呈下降趋势,所以斜率为负值,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。
具体地,所述构建所有样本的距离矩阵的步骤中,根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算,根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,Y)
Figure BDA0002302548730000041
其中,μ(Tx,Ty)为样本时长差异的加权,
Figure BDA0002302548730000042
Figure BDA0002302548730000043
为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,
Figure BDA0002302548730000044
为语音短时帧时序位置差异的加权。
当X=Y时DXY=0,即相同样本之间的距离为0。
两个样本从(1,1)开始到(Tx,Ty)结束,其中,Tx,Ty分别代表X和Y样本的去除静音后的时长信息,两样本最小累积距离计算步骤如下:
Figure BDA0002302548730000045
δ(1)=1
ρ(1)=1
Figure BDA0002302548730000046
对于能够到达的点1≤xi≤Tx,1≤yj≤Ty,距离D(xi,yj)按下式计算:
Figure BDA0002302548730000047
其中,ζ为点(x′i,y′j)到点(xi,yj)的加权累积失真距离(局部距离),且1≤x′i≤xi,1≤y′j≤yj,计算公式为:
Figure BDA0002302548730000051
其中,Ls为两样本点之间经过的帧数,T′为点(1,1)到点(xi,yj)经过总的帧数,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α,且一般设为1;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。
语音短时帧时序位置差异的加权系数
Figure BDA0002302548730000052
只考虑元音帧与元音帧的匹配情形,对于匹配的语音短时帧不同时为元音类型时
Figure BDA0002302548730000053
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
i0,j0分别为xi,yj在样本X,Y中所属元音段的中点,如果
Figure BDA0002302548730000054
则进行段时序匹配加权,即对所匹配段内所有短时帧距离进行加权,加权系数为aet
否则进行段内时序匹配加权,具体为:
设xi,yj所处的元音段长分别为lx,ly,而xi,yj在所处的元音段内的时序位置分别为ix,iy,如果
Figure BDA0002302548730000055
对短时帧距离加权,加权系数为bet′
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α。
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;所述加权参数以实际效果最佳为准,η与ε大致相近,简单处理可以相同。
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大,因此基于时长差异增加整体距离的权重,
Figure BDA0002302548730000061
因此,构造的H×H规模的样本距离矩阵表示为:
[Dij]i=1,2,...,H,j=1,2,...,H
具体地,所述根据距离矩阵对语音样本进行筛选的步骤中,样本筛选方法为:
计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
Figure BDA0002302548730000062
其中,N为总样本数;
选择平均距离最小的样本
Figure BDA0002302548730000063
计算样本
Figure BDA0002302548730000064
与其他样本Xj(j≠ic)的距离
Figure BDA0002302548730000065
的方差δc
如果
Figure BDA0002302548730000066
将样本Xj移出样本数据集。其中k为经验常数,且1<k<1.4。
本发明是依据样本之间的距离是一个随机变量,其分布大概率遵循高斯分布,根据高斯分布的性质,可筛选出原始样本中约68%—84%的样本。
本发明相较于现有技术,具有以下的有益效果:
本发明能够对语音样本进行简易、高效以及低成本的筛选,在保证了筛选出的样本其主观感知合理的情况下,大大降低了人工试听筛选的工作量,减少了低资源语种语料库构建的难度,同时也为深度学习网络提供了质量较好的训练样本,从而推动低资源语种尤其是汉语方言的语音识别、关键词检索等研究的发展。
附图说明
图1是本发明中一种基于改进动态时间规整算法的语音样本筛选方法的流程图;
图2是本发明中构建样本语音特征序列的流程图;
图3是本发明中对过渡音进行标注的流程图;
图4是本发明中基于改进DTW算法构建所有样本的距离矩阵的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于改进动态时间规整算法的语音样本筛选方法的流程图,所述方法包括步骤:
(1)使用基于同一文本录制的多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本语音特征序列表达。
在本实施例中,使用录制的江西客家话的语音样本作为数据集,数据集一共包含115个说话人,每人录制根据关键词构造的672句话,每句话每人录制一次,选取10个关键词作为检测目标,并选取出包含10个关键词的句子所对应的语音样本构造出基于同类文本的语音样本集,根据3:7的比例划分测试集和训练集。对于训练集中每类样本集的样本进行预处理后,用语音端点检测(VAD)方法去除背景音并标注语音样本的元音、辅音,然后提取样本短时帧语音特征,样本集的语音特征表达为F={fh,h=1,2,…,H},其中fh为第h个样本的特征序列。
如图2所示为构建样本语音特征序列的流程图。每类样本集样本利用带通滤波器进行滤波处理,再利用短时能量和过零率的双门限法对样本端点检测,随后分帧提取12维的MFCC特征,最后构建样本语音特征序列表达。
(2)根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
如图3所示为本发明中对过渡音进行标注的流程图,过渡音的标注方法具体为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值aii=1,2,…,k;若存在s≤k满足as>ajj=1,2,…,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;在本实施例中,向后往元音段搜索帧数k=3。
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,变化呈下降趋势,所以斜率为负值,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。在本实施例中,斜率阈值取-0.95。
(3)分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
如图4所示为本发明中基于改进的DTW算法构建所有样本的距离矩阵的流程图。具体地,所述构建所有样本的距离矩阵的步骤中,根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算,根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,Y)
Figure BDA0002302548730000091
其中,μ(Tx,Ty)为样本时长差异的加权,
Figure BDA0002302548730000092
Figure BDA0002302548730000093
为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,
Figure BDA0002302548730000094
为语音短时帧时序位置差异的加权。
当X=Y时DXY=0,即相同样本之间的距离为0。
两个样本从(1,1)开始到(Tx,Ty)结束,其中,Tx,Ty分别代表X和Y样本的去除静音后的时长信息,两样本最小累积距离计算步骤如下:
Figure BDA0002302548730000095
δ(1)=1
ρ(1)=1
Figure BDA0002302548730000096
对于能够到达的点1≤xi≤Tx,1≤yj≤Ty,距离D(xi,yj)按下式计算:
Figure BDA0002302548730000097
其中,ζ为点(x′i,y′j)到点(xi,yj)的加权累积失真距离(局部距离),且1≤x′i≤xi,1≤y′j≤yj,计算公式为:
Figure BDA0002302548730000101
其中,Ls为两样本点之间经过的帧数,T′为点(1,1)到点(xi,yj)经过总的帧数,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。在本实施例中,α=1,β=3,γ=2。
语音短时帧时序位置差异的加权系数
Figure BDA0002302548730000102
只考虑元音帧与元音帧的匹配情形,对于匹配的语音短时帧不同时为元音类型时
Figure BDA0002302548730000103
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
i0,j0分别为xi,yj在样本X,Y中所属元音段的中点,如果
Figure BDA0002302548730000104
则进行段时序匹配加权,即对所匹配段内所有短时帧距离进行加权,加权系数为aet
否则进行段内时序匹配加权,具体为:
设xi,yj所处的元音段长分别为lx,ly,而xi,yj在所处的元音段内的时序位置分别为ix,iy,如果
Figure BDA0002302548730000105
对短时帧距离加权,加权系数为bet′
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α。
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;所述加权参数以实际效果最佳为准,η与ε大致相近,简单处理可以相同。在本实施例中,加权系数a=2,b=1,ε=1/2,η=1/2。
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
两样本的时长相差越大,加权系数值越大,但由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大,因此基于时长差异增加整体距离的权重,
Figure BDA0002302548730000111
因此,构造的H×H规模的样本距离矩阵表示为:
[Dij]i=1,2,…,H,j=1,2,...,H
针对训练集利用改进DTW算法筛选数据,再将筛选出的样本作为最终的训练样本,结果表明10个关键词的检出率和准确率较未筛选前有所提升,同时网络训练过程更加稳定。
(4)根据距离矩阵对语音样本进行筛选。
计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
Figure BDA0002302548730000112
其中,N为总样本数;
选择平均距离最小的样本
Figure BDA0002302548730000113
计算样本
Figure BDA0002302548730000114
与其他样本Xj(j≠ic)的距离
Figure BDA0002302548730000115
的方差δc
如果
Figure BDA0002302548730000116
将样本Xj移出样本数据集。其中k为经验常数,且1<k<1.4。
在本实施例中,k=1.2,最终保留样本集中距离靠近中心样本
Figure BDA0002302548730000117
的前77%的语音样本。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于改进动态时间规整算法的语音样本筛选方法,其特征在于,包括步骤:
使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;
根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号幅值的变化信息来确定过渡音,并对过渡音进行标注;
分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;
所述构建所有样本的距离矩阵的步骤中,改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X,Y的距离的计算公式为:
DXY=DTW(X,γ)
Figure FDA0003885932040000011
其中,μ(Tx,Ty)为样本时长差异的加权,
Figure FDA0003885932040000012
Figure FDA0003885932040000013
为规整函数,满足边界条件、连续性和单调性,δ(w)为局部连续性约束下的加权,ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权,
Figure FDA0003885932040000014
为语音短时帧时序位置差异的加权,Tx,Ty分别代表X和Y样本的去除静音后的时长信息;
当X=Y时DXY=0,即相同样本之间的距离为0;
根据距离矩阵对语音样本进行筛选,计算样本Xi与其他样本Xj(j≠ic)的平均距离,计算公式为:
Figure FDA0003885932040000015
其中,N为总样本数;
选择平均距离最小的样本
Figure FDA0003885932040000016
计算样本
Figure FDA0003885932040000017
与其他样本Xj(j≠ic)的距离
Figure FDA0003885932040000018
的方差δc
如果
Figure FDA0003885932040000019
将样本Xj移出样本数据集,其中k为经验常数,且1<k<1.4。
2.根据权利要求1所述的方法,其特征在于,语音样本进行基本的预处理后,用语音端点检测方法去除背景音并标注语音样本的元音和辅音,提取样本短时帧语音特征,构建的样本集的语音特征序列表示为F={fh,h=1,2,...,H},其中fh为第h个样本的语音特征序列。
3.根据权利要求1所述的方法,其特征在于,所述对过渡音进行标注的步骤中,过渡音的标注方法为:
确定辅音段与元音段的交界点;
交界点向后往元音段搜索k帧,求每帧内信号幅值的最大值ai,i=1,2,...,k;若存在s≤k满足as>aj,j=1,2,...,k且j≠s,则交界点往后的s帧都标注为过渡音,否则搜索的k帧都标注为过渡音;
交界点向前往辅音段搜索,得到辅音段信号幅度的最大值的点和辅音段末尾的样本点,计算两点连线的斜率,设置一个阈值:斜率大于阈值时,即变化更平缓,则选取交界点往前的两帧标注为过渡音;斜率小于阈值时,即变化更剧烈,则选取交界点向前的一帧标注为过渡音。
4.根据权利要求1所述的方法,其特征在于,两个样本从(1,1)开始到(Tx,Ty)结束,其中,Tx,Ty分别代表X和Y样本的去除静音后的时长信息,两样本最小累积距离计算步骤如下:
Figure FDA0003885932040000021
δ(1)=1
ρ(1)=1
Figure FDA0003885932040000022
对于能够到达的点1≤xi≤Tx,1≤yj≤Ty,距离D(xi,yj)按下式计算:
Figure FDA0003885932040000023
其中,ζ为点(x′i,y′j)到点(xi,yj)的加权累积失真距离,且1≤x′i≤xi,1≤y′j≤yj
5.根据权利要求4所述的方法,其特征在于,局部距离的计算公式为:
Figure FDA0003885932040000031
其中,Ls为两样本点之间经过的帧数,T′为点(1,1)到点(xi,yj)经过总的帧数。
6.根据权利要求5所述的方法,其特征在于,加权系数ρ(T′-m)依据短时帧xi,yj类型加权,具体为:
如果xi,yj为相同的类型,加权系数为α,且一般设为1;
如果xi,yj中一方为元音,另一方为辅音,加权系数为β;
如果xi,yj中一方为过渡音,另一方为元音或者辅音,加权系数为γ;
上述加权系数满足α<γ<β约束。
7.根据权利要求5所述的方法,其特征在于,语音短时帧时序位置差异的加权系数
Figure FDA0003885932040000032
只考虑元音帧与元音帧的匹配情形,对于匹配的语音短时帧不同时为元音类型时
Figure FDA0003885932040000033
元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况,具体为:
i0,j0分别为xi,yj在样本X,Y中所属元音段的中点,如果
Figure FDA0003885932040000034
则进行段时序匹配加权,即对所匹配段内所有短时帧距离进行加权,加权系数为aet
否则进行段内时序匹配加权,具体为:
设xi,yj所处的元音段长分别为lx,ly,而xi,yj在所处的元音段内的时序位置分别为ix,iy,如果
Figure FDA0003885932040000035
对短时帧距离加权,加权系数为bet′
若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时,仅做类型加权,加权系数为α;
上述加权系数均为经验参数,且满足a>b≥1,0<η<1,0<ε<1;
如果进行了段时序匹配加权,就不再进行段内时序匹配加权。
8.根据权利要求1所述的方法,其特征在于,基于时长差异增加整体距离的权重,具体为:
Figure FDA0003885932040000041
因此,构造的H×H规模的样本距离矩阵表示为:
[Dij]i=1,2,...,H,j=1,2,...,H。
CN201911227134.6A 2019-12-04 2019-12-04 一种基于改进动态时间规整算法的语音样本筛选方法 Active CN111179914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911227134.6A CN111179914B (zh) 2019-12-04 2019-12-04 一种基于改进动态时间规整算法的语音样本筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911227134.6A CN111179914B (zh) 2019-12-04 2019-12-04 一种基于改进动态时间规整算法的语音样本筛选方法

Publications (2)

Publication Number Publication Date
CN111179914A CN111179914A (zh) 2020-05-19
CN111179914B true CN111179914B (zh) 2022-12-16

Family

ID=70652006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911227134.6A Active CN111179914B (zh) 2019-12-04 2019-12-04 一种基于改进动态时间规整算法的语音样本筛选方法

Country Status (1)

Country Link
CN (1) CN111179914B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903340A (zh) * 2020-06-18 2022-01-07 北京声智科技有限公司 样本筛选方法及电子设备
CN112530409B (zh) * 2020-12-01 2024-01-23 平安科技(深圳)有限公司 基于几何学的语音样本筛选方法、装置及计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1369847A1 (en) * 2002-06-04 2003-12-10 Cortologic AG Speech recognition method and system
WO2009097738A1 (zh) * 2008-01-30 2009-08-13 Institute Of Computing Technology, Chinese Academy Of Sciences 一种音频匹配方法及系统
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN105931646A (zh) * 2016-04-29 2016-09-07 江西师范大学 一种基于简单直接度量学习算法的说话人识别方法
CN108665903A (zh) * 2018-05-11 2018-10-16 复旦大学 一种音频信号相似程度的自动检测方法及其系统
CN109840466A (zh) * 2018-12-05 2019-06-04 华南理工大学 基于聚类及全局/局部距离综合的多重度量学习方法
CN110147843A (zh) * 2019-05-22 2019-08-20 哈尔滨工程大学 基于度量学习的语音时序数据相似性度量方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1369847A1 (en) * 2002-06-04 2003-12-10 Cortologic AG Speech recognition method and system
WO2009097738A1 (zh) * 2008-01-30 2009-08-13 Institute Of Computing Technology, Chinese Academy Of Sciences 一种音频匹配方法及系统
CN104103280A (zh) * 2014-07-15 2014-10-15 无锡中星微电子有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN105931646A (zh) * 2016-04-29 2016-09-07 江西师范大学 一种基于简单直接度量学习算法的说话人识别方法
CN108665903A (zh) * 2018-05-11 2018-10-16 复旦大学 一种音频信号相似程度的自动检测方法及其系统
CN109840466A (zh) * 2018-12-05 2019-06-04 华南理工大学 基于聚类及全局/局部距离综合的多重度量学习方法
CN110147843A (zh) * 2019-05-22 2019-08-20 哈尔滨工程大学 基于度量学习的语音时序数据相似性度量方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Slope Finder-A distance measure for DTW based isolated word speech recognition";Chandra A;《International journal of engineering and computer science》;20131231;全文 *
"基于度量学习的多变量时序数据分类方法研究";张海彬;《中国优秀硕士学位论文全文数据库基础科学辑》;20190915;全文 *

Also Published As

Publication number Publication date
CN111179914A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Ng et al. Subword-based approaches for spoken document retrieval
Islam et al. A speech recognition system for bengali language using recurrent neural network
JP2003521721A (ja) ピッチ追跡方法および装置
Enarvi et al. Automatic speech recognition with very large conversational finnish and estonian vocabularies
Bluche et al. Predicting detection filters for small footprint open-vocabulary keyword spotting
CN111179914B (zh) 一种基于改进动态时间规整算法的语音样本筛选方法
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Mary et al. Searching speech databases: features, techniques and evaluation measures
Yusuf et al. Low resource keyword search with synthesized crosslingual exemplars
Lee et al. Korean dialect identification based on intonation modeling
Xu et al. Re-ranking spoken term detection with acoustic exemplars of keywords
Stadtschnitzer Robust speech recognition for german and dialectal broadcast programmes
Tabibian A survey on structured discriminative spoken keyword spotting
Laleye et al. Fuzzy-based algorithm for Fongbe continuous speech segmentation
Byrne et al. Automatic generation of pronunciation lexicons for Mandarin spontaneous speech
Panaite et al. Towards a Deep Speech model for Romanian language
Vazirnezhad et al. Hybrid statistical pronunciation models designed to be trained by a medium-size corpus
Sun Language Identification with Unsupervised Phoneme-like Sequence and TDNN-LSTM-RNN
Hlaing et al. Word Representations for Neural Network Based Myanmar Text-to-Speech S.
Chen et al. Improving mandarin prosodic structure prediction with multi-level contextual information
Phuong et al. Development of high-performance and large-scale vietnamese automatic speech recognition systems
Dong et al. Pitch contour model for Chinese text-to-speech using CART and statistical model
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface
Sun Using End-to-end Multitask Model for Simultaneous Language Identification and Phoneme Recognition
He Segmental models with an exploration of acoustic and lexical grouping in automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant