CN111063371A - 一种基于语谱图时间差分的语音音节数估计方法 - Google Patents

一种基于语谱图时间差分的语音音节数估计方法 Download PDF

Info

Publication number
CN111063371A
CN111063371A CN201911331869.3A CN201911331869A CN111063371A CN 111063371 A CN111063371 A CN 111063371A CN 201911331869 A CN201911331869 A CN 201911331869A CN 111063371 A CN111063371 A CN 111063371A
Authority
CN
China
Prior art keywords
boundary
voiced
voiced onset
order
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911331869.3A
Other languages
English (en)
Other versions
CN111063371B (zh
Inventor
贺前华
苏健彬
严海康
詹俊瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911331869.3A priority Critical patent/CN111063371B/zh
Publication of CN111063371A publication Critical patent/CN111063371A/zh
Application granted granted Critical
Publication of CN111063371B publication Critical patent/CN111063371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种基于语谱图时间差分的语音音节数估计方法,所述方法步骤包括:将语音信号的语谱图X,通过一个M阶图像后向平滑滤波器得到模糊形式语谱图X*,对其进行N阶时间差分以及M阶图像后向平滑,计算出N阶差分图S;对N阶差分图的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过该特征以及边界时间间隔限制G1得到初步浊音起始边界;使N阶差分图的低频部分与图案P进行局部图案匹配得到其图案特征图S*,通过图案特征图计算出匹配浊音起始边界;结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界,最后计算出音节数K。本发明具有可解释性,成本低,有着广阔的应用前景。

Description

一种基于语谱图时间差分的语音音节数估计方法
技术领域
本发明涉及音频处理技术领域,具体涉及一种基于语谱图时间差分的语音音节数估计方法。
背景技术
音节数估计作为语速估计的基础,在情感识别、医学中评估失语症语言流利性等领域有着广阔的应用前景。语速作为情感表达的一种重要的韵律手段,是情感识别中的重要特征。若能精确地估计出单位时间内的音节数,则能提高语速估计的准确度,从而提高情感识别的性能。同时,在基于匹配模型的语音识别中,音节数估计不但可提升匹配速度,而且可以提高识别精度。目前的音节数估计方法可分为两大类,一类是基于人工神经网络(Artificial neural network,ANN)的方法,另一类是基于音节检测的方法。
其中,采用人工神经网络方法(专利:语速估计模型的训练、语速估计方法、装置、设备及介质)需要大量的人工标记数据,会耗费极大的成本,且在训练数据不足时会表现出准确率低、鲁棒性差、识别与说话人相关等缺点。而且人工神经网络缺乏解释性,相当于一个黑匣子,无法在实际应用过程中出现问题时或需要及时调整时做出灵活性变动。因此需要一种具有解释性的、低成本的音节数估计方法。
另一类基于音节检测的方法中,又分为包络检测方法与传统统计模型方法。其中,包络检测方法(双门限算法在藏语语音音节分割中的应用分析卓嘎,2015)通过提取语音信号的幅度包络,利用检测包络的谷点来进行音节边界的检测。这种方法的问题在于:在实际的连续语音信号中,信号的幅度包络中存在非常多的谷点,但并不是所有的谷点都对应音节边界,而目前又缺乏一种准确度高、鲁棒性强的算法来判断某一谷点是否是音节的边界,因此在实际应用过程中仅采取幅度包络这一特征来检测音节很容易出现误差。传统统计模型方法则一般采用GMM或HMM模型(Robust Syllable Segmentation and its Applicationto Syllable centric Continuous Speech Recognition.2010),与ANN方法相同,此类方法也需要大量人工标注的数据,同时有研究表明GMM或HMM模型在一般问题上的性能要比ANN方法差。
对于上述的方法中,虽然基于ANN的算法一般能取得比较好的音节数估计结果,但其高昂的成本使实际应用变得十分困难。而基于音节检测的方法虽然实现了低成本,但其效果还没有达到能实际应用的水平。基于上述缺点可知现有技术难以满足实际需求的问题。
发明内容
为了克服现有技术的不足,本发明提出了一种基于语谱图时间差分的语音音节数估计方法。利用语谱图中浊音起始边界比较明显的特征,通过图像后向平滑以及时间差分得出语谱图在时间上的动态信息,从而得到浊音起始边界,进而得到语音音节数的估计值。
本发明的目的至少通过如下技术方案之一实现。
一种基于语谱图时间差分的语音音节数估计方法,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X={xt,t=1,2,…T},通过一个M阶图像后向平滑滤波器得到模糊形式语谱图
Figure BDA0002329834790000021
对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,
Figure BDA0002329834790000022
为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图
Figure BDA0002329834790000023
f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,
Figure BDA0002329834790000024
为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。
进一步地,步骤S1中,根据语谱图中浊音起始边界比较明显这一特征,首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波,用于减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。
定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:
Figure BDA0002329834790000031
M阶图像后向平滑滤波的计算方法如下:
Figure BDA0002329834790000032
其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;
Figure BDA0002329834790000033
表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0(相当于补零)。
进一步地,步骤S1中,定义N阶时间差分为:
Figure BDA0002329834790000034
其中sf,t表示模糊形式语谱图在时间t,频率f处的值;N的取值可为1、2或3,具体的取值根据本发明在应用中的实际性能来确定。
在N阶时间差分后再次进行M阶图像后向平滑滤波的目的是:减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。由于音节与音节之间的连续性弱于单个音节内的连续性,所以进行N阶时间差分可以判断某一时间段[t1,t1+N]内语音信号连续性的强弱,从而判断[t1,t1+N]中是否存在音节与音节间的边界。
进一步地,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征
Figure BDA0002329834790000035
其中pt为第二频带统计特征的第t个值,
Figure BDA0002329834790000036
为第三频带统计特征的第t个值;特征序列{pt,t=1,2,…T-N}中包含的是N阶差分图中的低频信息,而特征序列
Figure BDA0002329834790000037
中包含的是N阶差分图中的中高频信息。
由于语音信号的能量大多集中于低频部分,因此在连续语音信号中,在无声与语音的边界处或相邻音节的边界处的低频部分的能量在时间上存在较大变化。因此在特征序列{pt,t=1,2,…T-N}中,pt的值越大,说明信号低频部分的能量在时间上的变化越大,则t越有可能是浊音的起始边界。
由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节,这种现象在语谱图中表现为相邻的音节在低频处相似,而在中高频处相异。即在相邻音节的边界处的低频部分的能量随时间变化不大,而在中高频部分的能量随时间变化较大。在上述情况中,利用特征序列
Figure BDA0002329834790000041
能有效地检出相邻音节的边界,从而降低音节数估计的误差。
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中yu+1>yu,u=1,2,…U-1,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界,门限A1为经验值,其取值区间为[0.1,0.3]。
S2.3、对特征序列
Figure BDA0002329834790000042
进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到未确定浊音起始边界
Figure BDA0002329834790000043
由于过零率较大的地方应是清音而不是浊音,因此经过过零率特征筛选得到补充的浊音起始边界
Figure BDA0002329834790000044
其中
Figure BDA0002329834790000045
L为得到的待确认的浊音起始边界的个数,
Figure BDA0002329834790000046
为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,
Figure BDA0002329834790000047
为第r个补充的浊音起始边界。
将特征序列{pt,t=1,2,…T-N}以及特征序列
Figure BDA0002329834790000048
中低于门限A1的值置零是为了减少检出的错误浊音起始边界,其中,门限A1的取值区间为[0.1,0.3]。
S2.4、使用部分浊音起始边界{yu,u=1,2,…U}与补充的浊音起始边界
Figure BDA0002329834790000049
根据边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中ai+1>ai,i=1,2,…I-1。
进一步地,步骤S2.1中,浊音起始边界统计特征按以下方式获得:
根据N阶差分图的第t列的第一频带F0=[0,f0]内的和
Figure BDA00023298347900000410
是否超过门限E,确定需要求和的频率区域;若超过门限E,则这一列求和的频率区域为第二频带F1=[0,f1],计算
Figure BDA00023298347900000411
若没超过,则这一列求和的频率区域为第三频带F2=[f2,f3],计算
Figure BDA0002329834790000051
其中Sf,t为N阶差分图在时间t,频率f处的值,f0、f1、f2、f3应满足的条件为:
1)f3>f2≥f1≥f0,其中f0、f1、f2、f3表示频率,单位是赫兹;
2)使第二频带处于信号带宽的低频处,第三频带处于信号带宽的中高频处;
如:在采样率为16KHz的情况下,f0、f1、f2、f3的取值为1000Hz、2000Hz、2000Hz、5000Hz。
门限E的计算方法为:
Figure BDA0002329834790000052
进一步地,步骤S2.3中,对未确定浊音起始边界
Figure BDA0002329834790000053
进行过零率特征筛选的方法为:
若边界
Figure BDA0002329834790000054
所对应的短时帧的过零率小于过零率阈值Z,则认为
Figure BDA0002329834790000055
是一个合理的边界,否则认为
Figure BDA0002329834790000056
不是一个合理的边界;其中,过零率特征为短时帧过零率,且短时帧的长度与步骤S1中FFT的长度一致。
进一步地,步骤S2.4中,基于在某一时间段的正常连续语音中语速不会出现剧烈变化,即音节与音节之间的时间间隔不会出现剧烈变化这一常识,定义边界时间间隔限制G1为:假定部分浊音起始边界{yu,u=1,2,…U}中的边界全都是合理边界,设B为补充的浊音起始边界
Figure BDA0002329834790000057
中的某个边界,当且仅当存在1≤u≤U-1,使得B-yu>λ1且yu+1-B>λ2时,认为B是一个合理的边界,λ1和λ2的取值区间均为[100ms,150ms]。
进一步地,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F0=[0,f0]处的图案特征图S*,其图案P应为:
Figure BDA0002329834790000058
其中,x1,x2,x3代表在图案匹配时需要大于0的位置,
Figure BDA0002329834790000059
代表在图案匹配时需要等于0的位置,图案x2处对应匹配点Sf,t,若匹配成功则令
Figure BDA00023298347900000510
否则令
Figure BDA00023298347900000511
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-N},对特征序列{qt,t=1,2,…T-N}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},匹配浊音起始边界{bj,j=1,2,…J}可作为初步浊音起始边界{ai,i=1,2,…I}的一个补充,其中,门限A2的取值区间为[0.1,0.3],bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值。
进一步地,步骤S4中,基于在某一时间段的正常连续语音中语速不会出现剧烈变化,即音节与音节之间的时间间隔不会出现剧烈变化这一常识,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>λ3且ai+1-D>λ4时,认为D是一个合理的边界,λ3和λ4的取值区间均为[100ms,150ms]。
进一步地,步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
本发明与现有技术相比,具有如下优点和有益效果:
本发明直接利用语音信号的语谱图来进行音节数估计,具有计算复杂度低、实现简单、成本较低的优点,克服了人工神经网络方法中,需要大量标注语音的问题,降低了语音信号音节数估计问题的复杂度以及实现成本;克服了包络检测方法和传统统计模型方法效果不佳的问题,使语音音节数估计更加准确。
本发明直接利用语音信号的语谱图来进行音节数估计,具有可解释性、可根据不同具体目标灵活变动等优点。语谱图作为语音信号可视化的一种重要手段,对于语谱图的一些处理具有一定的现实意义,相比于人工神经网络这种不具备一定解释性的“黑匣子”,本发明方法更具有可解释性,因此可根据不同具体目标进行灵活的变动。
附图说明
图1是本发明实施例中一种基于语谱图时间差分的语音音节数估计方法的概略流程图;
图2是本发明实施例中计算N阶差分图的步骤流程图;
图3是本发明实施例中计算初步浊音起始边界的步骤流程图;
图4是本发明实施例中计算匹配浊音起始边界的步骤流程图;
图5是本发明实施例中边界时间间隔限制G1的实现方式示意图;
图6是本发明实施例中边界时间间隔限制G2的实现方式示意图;
图7是本发明实施例中语句“在工作时间陷入熟睡状态”的语谱图;
图8是本发明实施例中由图7求出的1阶差分图;
图9是本发明实施例中由图7求出的图案特征图。
具体实施方式
下面结合实例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
一种基于语谱图时间差分的语音音节数估计方法,如图1所示,包括以下步骤:
S1、本实施例中,使用aishell中文语料库中的数据作为测试数据。从aishell数据库中随机抽取一个语音样本,将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X={xt,t=1,2,…T}通过一个M阶图像后向平滑滤波器得到模糊形式语谱图
Figure BDA0002329834790000071
对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,
Figure BDA0002329834790000072
为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
如图7所示,语谱图中浊音起始边界(图中箭头处)比较明显,根据这一特征,首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波,用于减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。
如图2所示,本实施例中,使用快速傅里叶变换计算出语谱图,通过一个7阶图像后向平滑滤波器得到模糊形式语谱图,对模糊形式语谱图进行1阶时间差分以及7阶图像后向平滑,计算出1阶差分图。其中,在计算语谱图时,对信号进行加窗分帧。窗函数为汉明窗,帧长为20ms,帧移为10ms。
S2、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达,对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
如图3所示,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征{pt,t=1,2,…T-1},
Figure BDA0002329834790000081
其中pt为第二频带统计特征的第t个值,
Figure BDA0002329834790000082
为第三频带统计特征的第t个值;特征序列{pt,t=1,2,…T-1}中包含的是1阶差分图中的低频信息,而特征序列
Figure BDA0002329834790000083
中包含的是1阶差分图中的中高频信息。
如图8所示,由于语音信号的能量大多集中于低频部分,因此在连续语音信号中,在无声与语音的边界处或相邻音节的边界处(图中黑色箭头处)的低频部分的能量在时间上存在较大变化。因此在特征序列{pt,t=1,2,…T-1}中,pt的值越大,说明信号低频部分的能量在时间上的变化越大,则t越有可能是浊音的起始边界。
由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节,这种现象在语谱图中表现为相邻的音节在低频处相似,而在中高频处相异(图中白色填充箭头处)。即在相邻音节的边界处的低频部分的能量随时间变化不大,而在中高频部分的能量随时间变化较大。在上述情况中,利用特征序列
Figure BDA0002329834790000084
能有效地检出相邻音节的边界,从而降低音节数估计的误差。
浊音起始边界统计特征{pt,t=1,2,…T-1},
Figure BDA0002329834790000085
按以下方式获得:
根据N阶差分图的第t列的第一频带F0=[0,1000Hz]处的值之和
Figure BDA0002329834790000086
是否超过门限E,确定需要求和的频率区域。若超过门限E,则这一列求和的频率区域为第二频带F1=[0,2000Hz],计算
Figure BDA0002329834790000087
若没超过,则这一列求和的频率区域为第三频带F2=[2000Hz,5000Hz],计算
Figure BDA0002329834790000088
其中Sf,t为1阶差分图在时间t,频率f处的值。门限E的计算方法为
Figure BDA0002329834790000089
S2.2、对特征序列{pt,t=1,2,…T-1}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中yu+1>yu,u=1,2,…U-1,yu为第u个部分浊音起始边界,门限A1设为0.1。
S2.3、对特征序列
Figure BDA00023298347900000810
进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到未确定浊音起始边界
Figure BDA00023298347900000811
由于过零率较大的地方应是清音而不是浊音,因此经过过零率特征筛选得到补充的浊音起始边界
Figure BDA0002329834790000091
其中
Figure BDA0002329834790000092
为第l个待确认的浊音起始边界,
Figure BDA0002329834790000093
为第r个补充的浊音起始边界,门限A1设为0.1;对未确定浊音起始边界
Figure BDA0002329834790000094
进行过零率特征筛选的方法为:
若边界
Figure BDA0002329834790000095
所对应的短时帧的过零率小于过零率阈值Z,则认为
Figure BDA0002329834790000096
是一个合理的边界,否则认为
Figure BDA0002329834790000097
不是一个合理的边界;其中,过零率特征为短时帧过零率,且短时帧的长度与步骤S1中FFT的长度一致。本实施例中,过零率阈值Z设为90。
S2.4、使用部分浊音起始边界{yu,u=1,2,…U}与补充的浊音起始边界
Figure BDA0002329834790000098
根据边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I}。
边界时间间隔限制G1的实现方式如图5所示,定义边界时间间隔限制G1为:假定部分浊音起始边界{yu,u=1,2,…U}中的边界全都是合理边界,设B为补充的浊音起始边界
Figure BDA0002329834790000099
中的某个边界,当且仅当存在1≤u≤U-1,使得B-yu>100ms且yu+1-B>120ms时,认为B是一个合理的边界。
S3、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达,将N阶差分图的第一频带F0=[0,f0Hz]部分与图案P进行局部图案匹配得到其图案特征图
Figure BDA00023298347900000910
通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,
Figure BDA00023298347900000915
为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
如图4所示,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F0=[0,1000Hz]处的图案特征图S*,如图9所示,其图案P应为:
Figure BDA00023298347900000911
其中,x1,x2,x3代表在图案匹配时需要大于0的位置,
Figure BDA00023298347900000912
代表在图案匹配时需要等于0的位置,图案x2处对应匹配点Sf,t,若匹配成功则令
Figure BDA00023298347900000913
否则令
Figure BDA00023298347900000914
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-1},对特征序列{qt,t=1,2,…T-1}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},其中bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值,门限A2设为0.1。
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界。
边界时间间隔限制G2的实现方式如图6所示,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>100ms且ai+1-D>100ms时,认为D是一个合理的边界。
步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标;本实施例中,包括以下步骤:
S5.1、给出一个长文本,让言语障碍患者在规定时间内尽可能多的读出来,使用本方法估计出音节数;
S5.2、评价言语流畅性:若估计出的音节数较多,则说明患者说话较流畅;若估计出的音节数较少,则说明患者说话不流畅。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图
Figure FDA0002329834780000017
通过一个M阶图像后向平滑滤波器得到模糊形式语谱图
Figure FDA0002329834780000011
对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,
Figure FDA0002329834780000012
为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图
Figure FDA0002329834780000013
f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,
Figure FDA0002329834780000014
为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。
2.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:
Figure FDA0002329834780000015
M阶图像后向平滑滤波的计算方法如下:
Figure FDA0002329834780000016
Figure FDA0002329834780000021
Figure FDA0002329834780000022
其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;
Figure FDA0002329834780000023
表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0。
3.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义N阶时间差分
Figure FDA0002329834780000024
为:
Figure FDA0002329834780000025
其中sf,t表示模糊形式语谱图在时间t,频率f处的值。
4.根据权利要求1所述的一种基于语谱图时间差分的语音音节估计方法,其特征在于,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征{pt,t=1,2,…T-N},
Figure FDA0002329834780000026
其中pt为第二频带统计特征的第t个值,
Figure FDA0002329834780000027
为第三频带统计特征的第t个值;
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中,门限A1的取值区间为[0.1,0.3],yu+1>yu,u=1,2,…U-1,其中,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界;
S2.3、对特征序列
Figure FDA0002329834780000028
进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到待确认的浊音起始边界
Figure FDA0002329834780000029
然后经过过零率特征筛选得到补充的浊音起始边界
Figure FDA00023298347800000210
其中
Figure FDA00023298347800000211
L为得到的待确认的浊音起始边界的个数,
Figure FDA00023298347800000212
为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,
Figure FDA00023298347800000213
为第r个补充的浊音起始边界;
S2.4、使用部分浊音起始边界{yu,u=1,2,…U}与补充的浊音起始边界
Figure FDA00023298347800000214
根据边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中ai+1>ai,i=1,2,…I-1。
5.根据权利要求4所述的一种基于语谱图时间差分的语音音节估计方法,其特征在于,步骤S2.1中,浊音起始边界统计特征按以下方式获得:
根据N阶差分图的第t列的第一频带F0=[0,f0]内的和
Figure FDA0002329834780000031
是否超过门限E,确定需要求和的频率区域;若超过门限E,则这一列求和的频率区域为第二频带F1=[0,f1],计算
Figure FDA0002329834780000032
若没超过,则这一列求和的频率区域为第三频带F2=[f2,f3],计算pt=0,
Figure FDA0002329834780000033
其中Sf,t为N阶差分图在时间t,频率f处的值,f0、f1、f2、f3应满足的条件为:
1)f3>f2≥f1≥f0,其中f0、f1、f2、f3表示频率,单位是赫兹;
2)使第二频带处于信号带宽的低频处,第三频带处于信号带宽的中高频处;
门限E的计算方法为:
Figure FDA0002329834780000034
6.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S2.3中,对未确定浊音起始边界
Figure FDA0002329834780000035
进行过零率特征筛选的方法为:
若边界
Figure FDA0002329834780000036
所对应的短时帧的过零率小于过零率阈值Z,则认为
Figure FDA0002329834780000037
是一个合理的边界,否则认为
Figure FDA0002329834780000038
不是一个合理的边界;其中,过零率特征为短时帧过零率,且短时帧的长度与步骤S1中FFT的长度一致。
7.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S2.4中,定义边界时间间隔限制G1为:假定部分浊音起始边界{yu,u=1,2,…U}中的边界全都是合理边界,设B为补充的浊音起始边界
Figure FDA0002329834780000039
中的某个边界,当且仅当存在1≤u≤U-1,使得B-yu>λ1且yu+1-B>λ2时,认为B是一个合理的边界,λ1和λ2的取值区间均为[100ms,150ms]。
8.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S3包括以下步骤:
S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图S的第一频带F0=[0,f0]处的图案特征图S*,其图案P应为:
Figure FDA00023298347800000310
其中,x1,x2,x3代表在图案匹配时需要大于0的位置,
Figure FDA0002329834780000041
代表在图案匹配时需要等于0的位置,图案x2处对应匹配点Sf,t,若匹配成功则令
Figure FDA0002329834780000042
否则令
Figure FDA0002329834780000043
S3.2、对图案特征图S*的每一列分别求和,得到图案匹配特征{qt,t=1,2,…T-N},对特征序列{qt,t=1,2,…T-N}进行归一化,将低于门限A2的值置零后找出它的所有峰值点,得到匹配浊音起始边界{bj,j=1,2,…J},其中,门限A2的取值区间为
Figure FDA0002329834780000044
bj+1>bj,j=1,2,…J-1,qt为图案特征图S*的第t列求和得到的值。
9.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S4中,定义边界时间间隔限制G2为:假定初步浊音起始边界{ai,i=1,2,…I}中的边界全都是合理边界,设D为匹配浊音起始边界{bj,j=1,2,…J}中的某个边界,当且仅当存在1≤i≤I-1,使得D-ai>λ3且ai+1-D>λ4时,认为D是一个合理的边界,λ3和λ4的取值区间均为[100ms,150ms]。
10.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S4包括以下步骤:
S4.1、对匹配浊音起始边界{bj,j=1,2,…J}中的每一个边界,根据边界时间间隔限制G2判断其合理性,若合理,则将其加入到最终的浊音起始边界集合中,若不合理,则继续对下一个边界进行判断;
S4.2、将初步浊音起始边界{ai,i=1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中,得到{ck,k=1,2,…K}。
CN201911331869.3A 2019-12-21 2019-12-21 一种基于语谱图时间差分的语音音节数估计方法 Active CN111063371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911331869.3A CN111063371B (zh) 2019-12-21 2019-12-21 一种基于语谱图时间差分的语音音节数估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911331869.3A CN111063371B (zh) 2019-12-21 2019-12-21 一种基于语谱图时间差分的语音音节数估计方法

Publications (2)

Publication Number Publication Date
CN111063371A true CN111063371A (zh) 2020-04-24
CN111063371B CN111063371B (zh) 2023-04-21

Family

ID=70302620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911331869.3A Active CN111063371B (zh) 2019-12-21 2019-12-21 一种基于语谱图时间差分的语音音节数估计方法

Country Status (1)

Country Link
CN (1) CN111063371B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN107507610A (zh) * 2017-09-28 2017-12-22 河南理工大学 一种基于元音基频信息的汉语声调识别方法
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与系统
CN102394062A (zh) * 2011-10-26 2012-03-28 华南理工大学 一种自动录音设备源识别的方法和系统
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN107507610A (zh) * 2017-09-28 2017-12-22 河南理工大学 一种基于元音基频信息的汉语声调识别方法

Also Published As

Publication number Publication date
CN111063371B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
Dhingra et al. Isolated speech recognition using MFCC and DTW
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN104900235A (zh) 基于基音周期混合特征参数的声纹识别方法
EP1850328A1 (en) Enhancement and extraction of formants of voice signals
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN104123934A (zh) 一种构音识别方法及其系统
Jiao et al. Convex weighting criteria for speaking rate estimation
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN108682432B (zh) 语音情感识别装置
KR20060047451A (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
CN111063371A (zh) 一种基于语谱图时间差分的语音音节数估计方法
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Park et al. Improving pitch detection through emphasized harmonics in time-domain
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
Camarena-Ibarrola et al. Speaker identification using entropygrams and convolutional neural networks
Srinivas LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
Nosan et al. Speech recognition approach using descend-delta-mean and MFCC algorithm
Jiao et al. Estimating speaking rate in spontaneous discourse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant