CN111063371B - 一种基于语谱图时间差分的语音音节数估计方法 - Google Patents
一种基于语谱图时间差分的语音音节数估计方法 Download PDFInfo
- Publication number
- CN111063371B CN111063371B CN201911331869.3A CN201911331869A CN111063371B CN 111063371 B CN111063371 B CN 111063371B CN 201911331869 A CN201911331869 A CN 201911331869A CN 111063371 B CN111063371 B CN 111063371B
- Authority
- CN
- China
- Prior art keywords
- boundary
- voiced
- spectrogram
- pattern
- onset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000009499 grossing Methods 0.000 claims abstract description 20
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 208000027765 speech disease Diseases 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000000153 supplemental effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008909 emotion recognition Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种基于语谱图时间差分的语音音节数估计方法,所述方法步骤包括:将语音信号的语谱图X,通过一个M阶图像后向平滑滤波器得到模糊形式语谱图X*,对其进行N阶时间差分以及M阶图像后向平滑,计算出N阶差分图S;对N阶差分图的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过该特征以及边界时间间隔限制G1得到初步浊音起始边界;使N阶差分图的低频部分与图案P进行局部图案匹配得到其图案特征图S*,通过图案特征图计算出匹配浊音起始边界;结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界,最后计算出音节数K。本发明具有可解释性,成本低,有着广阔的应用前景。
Description
技术领域
本发明涉及音频处理技术领域,具体涉及一种基于语谱图时间差分的语音音节数估计方法。
背景技术
音节数估计作为语速估计的基础,在情感识别、医学中评估失语症语言流利性等领域有着广阔的应用前景。语速作为情感表达的一种重要的韵律手段,是情感识别中的重要特征。若能精确地估计出单位时间内的音节数,则能提高语速估计的准确度,从而提高情感识别的性能。同时,在基于匹配模型的语音识别中,音节数估计不但可提升匹配速度,而且可以提高识别精度。目前的音节数估计方法可分为两大类,一类是基于人工神经网络(Artificial neural network,ANN)的方法,另一类是基于音节检测的方法。
其中,采用人工神经网络方法(专利:语速估计模型的训练、语速估计方法、装置、设备及介质)需要大量的人工标记数据,会耗费极大的成本,且在训练数据不足时会表现出准确率低、鲁棒性差、识别与说话人相关等缺点。而且人工神经网络缺乏解释性,相当于一个黑匣子,无法在实际应用过程中出现问题时或需要及时调整时做出灵活性变动。因此需要一种具有解释性的、低成本的音节数估计方法。
另一类基于音节检测的方法中,又分为包络检测方法与传统统计模型方法。其中,包络检测方法(双门限算法在藏语语音音节分割中的应用分析卓嘎,2015)通过提取语音信号的幅度包络,利用检测包络的谷点来进行音节边界的检测。这种方法的问题在于:在实际的连续语音信号中,信号的幅度包络中存在非常多的谷点,但并不是所有的谷点都对应音节边界,而目前又缺乏一种准确度高、鲁棒性强的算法来判断某一谷点是否是音节的边界,因此在实际应用过程中仅采取幅度包络这一特征来检测音节很容易出现误差。传统统计模型方法则一般采用GMM或HMM模型(Robust Syllable Segmentation and its Applicationto Syllable centric Continuous Speech Recognition.2010),与ANN方法相同,此类方法也需要大量人工标注的数据,同时有研究表明GMM或HMM模型在一般问题上的性能要比ANN方法差。
对于上述的方法中,虽然基于ANN的算法一般能取得比较好的音节数估计结果,但其高昂的成本使实际应用变得十分困难。而基于音节检测的方法虽然实现了低成本,但其效果还没有达到能实际应用的水平。基于上述缺点可知现有技术难以满足实际需求的问题。
发明内容
为了克服现有技术的不足,本发明提出了一种基于语谱图时间差分的语音音节数估计方法。利用语谱图中浊音起始边界比较明显的特征,通过图像后向平滑以及时间差分得出语谱图在时间上的动态信息,从而得到浊音起始边界,进而得到语音音节数的估计值。
本发明的目的至少通过如下技术方案之一实现。
一种基于语谱图时间差分的语音音节数估计方法,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X={xt,t=1,2,…T},通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。
进一步地,步骤S1中,根据语谱图中浊音起始边界比较明显这一特征,首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波,用于减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。
定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:
M阶图像后向平滑滤波的计算方法如下:
其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0(相当于补零)。
进一步地,步骤S1中,定义N阶时间差分为:
其中sf,t表示模糊形式语谱图在时间t,频率f处的值;N的取值可为1、2或3,具体的取值根据本发明在应用中的实际性能来确定。
在N阶时间差分后再次进行M阶图像后向平滑滤波的目的是:减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。由于音节与音节之间的连续性弱于单个音节内的连续性,所以进行N阶时间差分可以判断某一时间段[t1,t1+N]内语音信号连续性的强弱,从而判断[t1,t1+N]中是否存在音节与音节间的边界。
进一步地,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征其中pt为第二频带统计特征的第t个值,为第三频带统计特征的第t个值;特征序列{pt,t=1,2,…T-N}中包含的是N阶差分图中的低频信息,而特征序列中包含的是N阶差分图中的中高频信息。
由于语音信号的能量大多集中于低频部分,因此在连续语音信号中,在无声与语音的边界处或相邻音节的边界处的低频部分的能量在时间上存在较大变化。因此在特征序列{pt,t=1,2,…T-N}中,pt的值越大,说明信号低频部分的能量在时间上的变化越大,则t越有可能是浊音的起始边界。
由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节,这种现象在语谱图中表现为相邻的音节在低频处相似,而在中高频处相异。即在相邻音节的边界处的低频部分的能量随时间变化不大,而在中高频部分的能量随时间变化较大。在上述情况中,利用特征序列能有效地检出相邻音节的边界,从而降低音节数估计的误差。
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中yu+1>yu,u=1,2,…U-1,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界,门限A1为经验值,其取值区间为[0.1,0.3]。
S2.3、对特征序列进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到未确定浊音起始边界由于过零率较大的地方应是清音而不是浊音,因此经过过零率特征筛选得到补充的浊音起始边界其中L为得到的待确认的浊音起始边界的个数,为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,为第r个补充的浊音起始边界。
进一步地,步骤S2.1中,浊音起始边界统计特征按以下方式获得:
根据N阶差分图的第t列的第一频带F0=[0,f0]内的和是否超过门限E,确定需要求和的频率区域;若超过门限E,则这一列求和的频率区域为第二频带F1=[0,f1],计算若没超过,则这一列求和的频率区域为第三频带F2=[f2,f3],计算其中Sf,t为N阶差分图在时间t,频率f处的值,f0、f1、f2、f3应满足的条件为:
1)f3>f2≥f1≥f0,其中f0、f1、f2、f3表示频率,单位是赫兹;
2)使第二频带处于信号带宽的低频处,第三频带处于信号带宽的中高频处;
如:在采样率为16KHz的情况下,f0、f1、f2、f3的取值为1000Hz、2000Hz、2000Hz、5000Hz。
门限E的计算方法为:
进一步地,步骤S2.4中,基于在某一时间段的正常连续语音中语速不会出现剧烈变化,即音节与音节之间的时间间隔不会出现剧烈变化这一常识,定义边界时间间隔限制G1为:假定部分浊音起始边界{yu,u=1,2,…U}中的边界全都是合理边界,设B为补充的浊音起始边界中的某个边界,当且仅当存在1≤u≤U-1,使得B-yu>λ1且yu+1-B>λ2时,认为B是一个合理的边界,λ1和λ2的取值区间均为[100ms,150ms]。
进一步地,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F0=[0,f0]处的图案特征图S*,其图案P应为:
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-N},对特征序列{qt,t=1,2,…T-N}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},匹配浊音起始边界{bj,j=1,2,…J}可作为初步浊音起始边界{ai,i=1,2,…I}的一个补充,其中,门限A2的取值区间为[0.1,0.3],bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值。
进一步地,步骤S4中,基于在某一时间段的正常连续语音中语速不会出现剧烈变化,即音节与音节之间的时间间隔不会出现剧烈变化这一常识,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>λ3且ai+1-D>λ4时,认为D是一个合理的边界,λ3和λ4的取值区间均为[100ms,150ms]。
进一步地,步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
本发明与现有技术相比,具有如下优点和有益效果:
本发明直接利用语音信号的语谱图来进行音节数估计,具有计算复杂度低、实现简单、成本较低的优点,克服了人工神经网络方法中,需要大量标注语音的问题,降低了语音信号音节数估计问题的复杂度以及实现成本;克服了包络检测方法和传统统计模型方法效果不佳的问题,使语音音节数估计更加准确。
本发明直接利用语音信号的语谱图来进行音节数估计,具有可解释性、可根据不同具体目标灵活变动等优点。语谱图作为语音信号可视化的一种重要手段,对于语谱图的一些处理具有一定的现实意义,相比于人工神经网络这种不具备一定解释性的“黑匣子”,本发明方法更具有可解释性,因此可根据不同具体目标进行灵活的变动。
附图说明
图1是本发明实施例中一种基于语谱图时间差分的语音音节数估计方法的概略流程图;
图2是本发明实施例中计算N阶差分图的步骤流程图;
图3是本发明实施例中计算初步浊音起始边界的步骤流程图;
图4是本发明实施例中计算匹配浊音起始边界的步骤流程图;
图5是本发明实施例中边界时间间隔限制G1的实现方式示意图;
图6是本发明实施例中边界时间间隔限制G2的实现方式示意图;
图7是本发明实施例中语句“在工作时间陷入熟睡状态”的语谱图;
图8是本发明实施例中由图7求出的1阶差分图;
图9是本发明实施例中由图7求出的图案特征图。
具体实施方式
下面结合实例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
一种基于语谱图时间差分的语音音节数估计方法,如图1所示,包括以下步骤:
S1、本实施例中,使用aishell中文语料库中的数据作为测试数据。从aishell数据库中随机抽取一个语音样本,将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X={xt,t=1,2,…T}通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
如图7所示,语谱图中浊音起始边界(图中箭头处)比较明显,根据这一特征,首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波,用于减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。
如图2所示,本实施例中,使用快速傅里叶变换计算出语谱图,通过一个7阶图像后向平滑滤波器得到模糊形式语谱图,对模糊形式语谱图进行1阶时间差分以及7阶图像后向平滑,计算出1阶差分图。其中,在计算语谱图时,对信号进行加窗分帧。窗函数为汉明窗,帧长为20ms,帧移为10ms。
S2、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达,对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
如图3所示,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征{pt,t=1,2,…T-1},其中pt为第二频带统计特征的第t个值,为第三频带统计特征的第t个值;特征序列{pt,t=1,2,…T-1}中包含的是1阶差分图中的低频信息,而特征序列中包含的是1阶差分图中的中高频信息。
如图8所示,由于语音信号的能量大多集中于低频部分,因此在连续语音信号中,在无声与语音的边界处或相邻音节的边界处(图中黑色箭头处)的低频部分的能量在时间上存在较大变化。因此在特征序列{pt,t=1,2,…T-1}中,pt的值越大,说明信号低频部分的能量在时间上的变化越大,则t越有可能是浊音的起始边界。
由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节,这种现象在语谱图中表现为相邻的音节在低频处相似,而在中高频处相异(图中白色填充箭头处)。即在相邻音节的边界处的低频部分的能量随时间变化不大,而在中高频部分的能量随时间变化较大。在上述情况中,利用特征序列能有效地检出相邻音节的边界,从而降低音节数估计的误差。
根据N阶差分图的第t列的第一频带F0=[0,1000Hz]处的值之和是否超过门限E,确定需要求和的频率区域。若超过门限E,则这一列求和的频率区域为第二频带F1=[0,2000Hz],计算若没超过,则这一列求和的频率区域为第三频带F2=[2000Hz,5000Hz],计算其中Sf,t为1阶差分图在时间t,频率f处的值。门限E的计算方法为
S2.2、对特征序列{pt,t=1,2,…T-1}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中yu+1>yu,u=1,2,…U-1,yu为第u个部分浊音起始边界,门限A1设为0.1。
S2.3、对特征序列进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到未确定浊音起始边界由于过零率较大的地方应是清音而不是浊音,因此经过过零率特征筛选得到补充的浊音起始边界其中为第l个待确认的浊音起始边界,为第r个补充的浊音起始边界,门限A1设为0.1;对未确定浊音起始边界进行过零率特征筛选的方法为:
若边界所对应的短时帧的过零率小于过零率阈值Z,则认为是一个合理的边界,否则认为不是一个合理的边界;其中,过零率特征为短时帧过零率,且短时帧的长度与步骤S1中FFT的长度一致。本实施例中,过零率阈值Z设为90。
边界时间间隔限制G1的实现方式如图5所示,定义边界时间间隔限制G1为:假定部分浊音起始边界{yu,u=1,2,…U}中的边界全都是合理边界,设B为补充的浊音起始边界中的某个边界,当且仅当存在1≤u≤U-1,使得B-yu>100ms且yu+1-B>120ms时,认为B是一个合理的边界。
S3、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达,将N阶差分图的第一频带F0=[0,f0Hz]部分与图案P进行局部图案匹配得到其图案特征图通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
如图4所示,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F0=[0,1000Hz]处的图案特征图S*,如图9所示,其图案P应为:
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-1},对特征序列{qt,t=1,2,…T-1}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},其中bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值,门限A2设为0.1。
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界。
边界时间间隔限制G2的实现方式如图6所示,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>100ms且ai+1-D>100ms时,认为D是一个合理的边界。
步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标;本实施例中,包括以下步骤:
S5.1、给出一个长文本,让言语障碍患者在规定时间内尽可能多的读出来,使用本方法估计出音节数;
S5.2、评价言语流畅性:若估计出的音节数较多,则说明患者说话较流畅;若估计出的音节数较少,则说明患者说话不流畅。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X={xt,t=1,2,…T},通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。
4.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S2包括以下步骤:
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中,门限A1的取值区间为[0.1,0.3],yu+1>yu,u=1,2,…U-1,其中,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界;
S2.3、对特征序列进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到待确认的浊音起始边界然后经过过零率特征筛选得到补充的浊音起始边界其中r=1,2,…R-1,L为得到的待确认的浊音起始边界的个数,为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,为第r个补充的浊音起始边界;
5.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S2.1中,浊音起始边界统计特征按以下方式获得:
根据N阶差分图的第t列的第一频带F0=[0,f0]内的和是否超过门限E,确定需要求和的频率区域;若超过门限E,则这一列求和的频率区域为第二频带F1=[0,f1],计算若没超过,则这一列求和的频率区域为第三频带F2=[f2,f3],计算其中Sf,t为N阶差分图在时间t,频率f处的值,f0、f1、f2、f3应满足的条件为:
1)f3>f2≥f1≥f0,其中f0、f1、f2、f3表示频率,单位是赫兹;
2)使第二频带处于信号带宽的低频处,第三频带处于信号带宽的中高频处;
门限E的计算方法为:
8.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图S的第一频带F0=[0,f0]处的图案特征图S*,其图案P应为:
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-N},对特征序列{qt,t=1,2,…T-N}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},其中,门限A2的取值区间为[0.1,0.3],bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值。
9.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S4中,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>λ3且ai+1-D>λ4时,认为D是一个合理的边界,λ3和λ4的取值区间均为[100ms,150ms]。
10.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911331869.3A CN111063371B (zh) | 2019-12-21 | 2019-12-21 | 一种基于语谱图时间差分的语音音节数估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911331869.3A CN111063371B (zh) | 2019-12-21 | 2019-12-21 | 一种基于语谱图时间差分的语音音节数估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111063371A CN111063371A (zh) | 2020-04-24 |
CN111063371B true CN111063371B (zh) | 2023-04-21 |
Family
ID=70302620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911331869.3A Active CN111063371B (zh) | 2019-12-21 | 2019-12-21 | 一种基于语谱图时间差分的语音音节数估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111063371B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
CN107507610A (zh) * | 2017-09-28 | 2017-12-22 | 河南理工大学 | 一种基于元音基频信息的汉语声调识别方法 |
CN107564543A (zh) * | 2017-09-13 | 2018-01-09 | 苏州大学 | 一种高情感区分度的语音特征提取方法 |
-
2019
- 2019-12-21 CN CN201911331869.3A patent/CN111063371B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991976A (zh) * | 2005-12-31 | 2007-07-04 | 潘建强 | 基于音素的语音识别方法与系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
CN107564543A (zh) * | 2017-09-13 | 2018-01-09 | 苏州大学 | 一种高情感区分度的语音特征提取方法 |
CN107507610A (zh) * | 2017-09-28 | 2017-12-22 | 河南理工大学 | 一种基于元音基频信息的汉语声调识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111063371A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhingra et al. | Isolated speech recognition using MFCC and DTW | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
Deshwal et al. | Feature extraction methods in language identification: a survey | |
Kumar et al. | Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm | |
Rahman et al. | Continuous bangla speech segmentation using short-term speech features extraction approaches | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
Ghitza | Robustness against noise: The role of timing-synchrony measurement | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
CN111063371B (zh) | 一种基于语谱图时间差分的语音音节数估计方法 | |
Zheng et al. | Integrating the energy information into MFCC. | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
Thirumuru et al. | Application of non-negative frequency-weighted energy operator for vowel region detection | |
Park et al. | Improving pitch detection through emphasized harmonics in time-domain | |
Adam et al. | Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
CN110634473A (zh) | 一种基于mfcc的语音数字识别方法 | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Seman et al. | Evaluating endpoint detection algorithms for isolated word from Malay parliamentary speech | |
Nosan et al. | Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech | |
Shah et al. | Phone Aware Nearest Neighbor Technique Using Spectral Transition Measure for Non-Parallel Voice Conversion. | |
KR930010398B1 (ko) | 음성신호 파형에서 비대칭율을 이용한 전이구간 검출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |