CN111063371B

CN111063371B - 一种基于语谱图时间差分的语音音节数估计方法

Info

Publication number: CN111063371B
Application number: CN201911331869.3A
Authority: CN
Inventors: 贺前华; 苏健彬; 严海康; 詹俊瑶
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-21
Filing date: 2019-12-21
Publication date: 2023-04-21
Anticipated expiration: 2039-12-21
Also published as: CN111063371A

Abstract

本发明提供了一种基于语谱图时间差分的语音音节数估计方法，所述方法步骤包括：将语音信号的语谱图X，通过一个M阶图像后向平滑滤波器得到模糊形式语谱图X^*，对其进行N阶时间差分以及M阶图像后向平滑，计算出N阶差分图S；对N阶差分图的每一列进行频率区域选择性求和，以获得初步浊音起始边界统计特征，然后通过该特征以及边界时间间隔限制G₁得到初步浊音起始边界；使N阶差分图的低频部分与图案P进行局部图案匹配得到其图案特征图S^*，通过图案特征图计算出匹配浊音起始边界；结合初步浊音起始边界和匹配浊音起始边界，通过一个边界时间间隔限制G₂，得到最终的浊音起始边界，最后计算出音节数K。本发明具有可解释性，成本低，有着广阔的应用前景。

Description

一种基于语谱图时间差分的语音音节数估计方法

技术领域

本发明涉及音频处理技术领域，具体涉及一种基于语谱图时间差分的语音音节数估计方法。

背景技术

音节数估计作为语速估计的基础，在情感识别、医学中评估失语症语言流利性等领域有着广阔的应用前景。语速作为情感表达的一种重要的韵律手段，是情感识别中的重要特征。若能精确地估计出单位时间内的音节数，则能提高语速估计的准确度，从而提高情感识别的性能。同时，在基于匹配模型的语音识别中，音节数估计不但可提升匹配速度，而且可以提高识别精度。目前的音节数估计方法可分为两大类，一类是基于人工神经网络(Artificial neural network,ANN)的方法，另一类是基于音节检测的方法。

其中，采用人工神经网络方法(专利：语速估计模型的训练、语速估计方法、装置、设备及介质)需要大量的人工标记数据，会耗费极大的成本，且在训练数据不足时会表现出准确率低、鲁棒性差、识别与说话人相关等缺点。而且人工神经网络缺乏解释性，相当于一个黑匣子，无法在实际应用过程中出现问题时或需要及时调整时做出灵活性变动。因此需要一种具有解释性的、低成本的音节数估计方法。

另一类基于音节检测的方法中，又分为包络检测方法与传统统计模型方法。其中，包络检测方法(双门限算法在藏语语音音节分割中的应用分析卓嘎，2015)通过提取语音信号的幅度包络，利用检测包络的谷点来进行音节边界的检测。这种方法的问题在于：在实际的连续语音信号中，信号的幅度包络中存在非常多的谷点，但并不是所有的谷点都对应音节边界，而目前又缺乏一种准确度高、鲁棒性强的算法来判断某一谷点是否是音节的边界，因此在实际应用过程中仅采取幅度包络这一特征来检测音节很容易出现误差。传统统计模型方法则一般采用GMM或HMM模型(Robust Syllable Segmentation and its Applicationto Syllable centric Continuous Speech Recognition.2010)，与ANN方法相同，此类方法也需要大量人工标注的数据，同时有研究表明GMM或HMM模型在一般问题上的性能要比ANN方法差。

对于上述的方法中，虽然基于ANN的算法一般能取得比较好的音节数估计结果，但其高昂的成本使实际应用变得十分困难。而基于音节检测的方法虽然实现了低成本，但其效果还没有达到能实际应用的水平。基于上述缺点可知现有技术难以满足实际需求的问题。

发明内容

为了克服现有技术的不足，本发明提出了一种基于语谱图时间差分的语音音节数估计方法。利用语谱图中浊音起始边界比较明显的特征，通过图像后向平滑以及时间差分得出语谱图在时间上的动态信息，从而得到浊音起始边界，进而得到语音音节数的估计值。

本发明的目的至少通过如下技术方案之一实现。

一种基于语谱图时间差分的语音音节数估计方法，包括以下步骤：

S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X＝{x_t,t＝1,2,…T}，通过一个M阶图像后向平滑滤波器得到模糊形式语谱图

对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑，得到N阶差分图S＝{s_t,t＝1,2…T-N}，其中，T为语音信号的短时帧数，x_t为语谱图X第t列的特征向量，

为模糊形式语谱图X^*第t列的特征向量，s_t为N阶差分图S第t列的特征向量；

S2、对N阶差分图S的每一列进行频率区域选择性求和，以获得初步浊音起始边界统计特征，然后通过语谱图的动态特征以及边界时间间隔限制G₁得到初步浊音起始边界{a_i,i＝1,2,…I}，其中，I为得到的初步浊音起始边界的个数，a_i为第i个初步浊音起始边界；

S3、将N阶差分图的第一频带F₀＝[0,f₀]部分与图案P进行局部图案匹配得到其图案特征图

f₀为第一频带的最大频率，通过图案特征图计算出匹配浊音起始边界{b_j,j＝1,2,…J}，其中，

为图案特征图S^*第t列的特征向量，J为得到的匹配浊音起始边界的个数，b_j为第j个匹配浊音起始边界；

S4、结合初步浊音起始边界和匹配浊音起始边界，通过一个边界时间间隔限制G₂，得到最终的浊音起始边界{c_k,k＝1,2,…K}，最后计算出音节数K，其中，c_k为第k个最终的浊音起始边界；

S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。

进一步地，步骤S1中，根据语谱图中浊音起始边界比较明显这一特征，首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波，用于减少N阶差分图中的虚假浊音起始边界，且此项操作对正确的浊音起始边界影响不大，从而达到降低音节数估计误差的效果。

定义M阶图像后向平滑滤波器为形状M*M，取值如下的矩阵，M取大于等于3的奇数，使得取1值的列数比取0值的列数多一列，M越大，所得的模糊形式语谱图越模糊：

M阶图像后向平滑滤波的计算方法如下：

其中w_x,y表示M阶图像后向平滑滤波器在(x,y)处的值；

表示滤波后的图像在时间t，频率f处的值；W_f-i,t-j表示滤波前的图像在时间t-j，频率f-i处的值，若t-j＜0或f-i＜0，则令W_f-i,t-j＝0(相当于补零)。

进一步地，步骤S1中，定义N阶时间差分为：

其中s_f,t表示模糊形式语谱图在时间t，频率f处的值；N的取值可为1、2或3，具体的取值根据本发明在应用中的实际性能来确定。

在N阶时间差分后再次进行M阶图像后向平滑滤波的目的是：减少N阶差分图中的虚假浊音起始边界，且此项操作对正确的浊音起始边界影响不大，从而达到降低音节数估计误差的效果。由于音节与音节之间的连续性弱于单个音节内的连续性，所以进行N阶时间差分可以判断某一时间段[t₁,t_1+N]内语音信号连续性的强弱，从而判断[t₁,t_1+N]中是否存在音节与音节间的边界。

进一步地，步骤S2包括以下步骤：

S2.1、计算浊音起始边界统计特征

其中p_t为第二频带统计特征的第t个值，

为第三频带统计特征的第t个值；特征序列{p_t,t＝1,2,…T-N}中包含的是N阶差分图中的低频信息，而特征序列

中包含的是N阶差分图中的中高频信息。

由于语音信号的能量大多集中于低频部分，因此在连续语音信号中，在无声与语音的边界处或相邻音节的边界处的低频部分的能量在时间上存在较大变化。因此在特征序列{p_t,t＝1,2,…T-N}中，p_t的值越大，说明信号低频部分的能量在时间上的变化越大，则t越有可能是浊音的起始边界。

由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节，这种现象在语谱图中表现为相邻的音节在低频处相似，而在中高频处相异。即在相邻音节的边界处的低频部分的能量随时间变化不大，而在中高频部分的能量随时间变化较大。在上述情况中，利用特征序列

能有效地检出相邻音节的边界，从而降低音节数估计的误差。

S2.2、对特征序列{p_t,t＝1,2,…T-N}进行归一化，将低于门限A₁的值置零后找出它的所有峰值点，得到部分浊音起始边界{y_u,u＝1,2,…U}，其中y_u+1＞y_u,u＝1,2,…U-1，U为得到的部分浊音起始边界的个数，y_u为第u个部分浊音起始边界，门限A₁为经验值，其取值区间为[0.1，0.3]。

S2.3、对特征序列

进行归一化，将低于门限A₁的值置零后找出它的所有峰值点，得到未确定浊音起始边界

由于过零率较大的地方应是清音而不是浊音，因此经过过零率特征筛选得到补充的浊音起始边界

其中

L为得到的待确认的浊音起始边界的个数，

为第l个待确认的浊音起始边界，R为得到的补充的浊音起始边界的个数，

为第r个补充的浊音起始边界。

将特征序列{p_t,t＝1,2,…T-N}以及特征序列

中低于门限A₁的值置零是为了减少检出的错误浊音起始边界，其中，门限A₁的取值区间为[0.1，0.3]。

S2.4、使用部分浊音起始边界{y_u,u＝1,2,…U}与补充的浊音起始边界

根据边界时间间隔限制G₁得到初步浊音起始边界{a_i,i＝1,2,…I}，其中a_i+1＞a_i,i＝1,2,…I-1。

进一步地，步骤S2.1中，浊音起始边界统计特征按以下方式获得：

根据N阶差分图的第t列的第一频带F₀＝[0,f₀]内的和

是否超过门限E，确定需要求和的频率区域；若超过门限E，则这一列求和的频率区域为第二频带F₁＝[0,f₁]，计算

若没超过，则这一列求和的频率区域为第三频带F₂＝[f₂,f₃]，计算

其中S_f,t为N阶差分图在时间t，频率f处的值，f₀、f₁、f₂、f₃应满足的条件为：

1)f₃＞f₂≥f₁≥f₀，其中f₀、f₁、f₂、f₃表示频率，单位是赫兹；

2)使第二频带处于信号带宽的低频处，第三频带处于信号带宽的中高频处；

如：在采样率为16KHz的情况下，f₀、f₁、f₂、f₃的取值为1000Hz、2000Hz、2000Hz、5000Hz。

门限E的计算方法为：

进一步地，步骤S2.3中，对未确定浊音起始边界

进行过零率特征筛选的方法为：

若边界

所对应的短时帧的过零率小于过零率阈值Z，则认为

是一个合理的边界，否则认为

不是一个合理的边界；其中，过零率特征为短时帧过零率，且短时帧的长度与步骤S1中FFT的长度一致。

进一步地，步骤S2.4中，基于在某一时间段的正常连续语音中语速不会出现剧烈变化，即音节与音节之间的时间间隔不会出现剧烈变化这一常识，定义边界时间间隔限制G₁为：假定部分浊音起始边界{y_u,u＝1,2,…U}中的边界全都是合理边界，设B为补充的浊音起始边界

中的某个边界，当且仅当存在1≤u≤U-1，使得B-y_u＞λ₁且y_u+1-B＞λ₂时，认为B是一个合理的边界，λ₁和λ₂的取值区间均为[100ms,150ms]。

进一步地，步骤S3包括以下步骤：

S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F₀＝[0,f₀]处的图案特征图S^*，其图案P应为：

其中，x₁，x₂，x₃代表在图案匹配时需要大于0的位置，

代表在图案匹配时需要等于0的位置，图案x₂处对应匹配点S_f,t，若匹配成功则令

否则令

S3.2、对图案特征图S^*的每一列分别求和，得到图案匹配特征{q_t,t＝1,2,…T-N}，对特征序列{q_t,t＝1,2,…T-N}进行归一化，将低于门限A₂的值置零后找出它的所有峰值点，得到匹配浊音起始边界{b_j,j＝1,2,…J}，匹配浊音起始边界{b_j,j＝1,2,…J}可作为初步浊音起始边界{a_i,i＝1,2,…I}的一个补充，其中，门限A₂的取值区间为[0.1，0.3]，b_j+1＞b_j,j＝1,2,…J-1，q_t为图案特征图S^*的第t列求和得到的值。

进一步地，步骤S4中，基于在某一时间段的正常连续语音中语速不会出现剧烈变化，即音节与音节之间的时间间隔不会出现剧烈变化这一常识，定义边界时间间隔限制G₂为：假定初步浊音起始边界{a_i,i＝1,2,…I}中的边界全都是合理边界，设D为匹配浊音起始边界{b_j,j＝1,2,…J}中的某个边界，当且仅当存在1≤i≤I-1，使得D-a_i＞λ₃且a_i+1-D＞λ₄时，认为D是一个合理的边界，λ₃和λ₄的取值区间均为[100ms,150ms]。

进一步地，步骤S4包括以下步骤：

S4.1、对匹配浊音起始边界{b_j,j＝1,2,…J}中的每一个边界，根据边界时间间隔限制G₂判断其合理性，若合理，则将其加入到最终的浊音起始边界集合中，若不合理，则继续对下一个边界进行判断；

S4.2、将初步浊音起始边界{a_i,i＝1,2,…I}中的所有边界都加入到最终的浊音起始边界集合中，得到{c_k,k＝1,2,…K}。

本发明与现有技术相比，具有如下优点和有益效果：

本发明直接利用语音信号的语谱图来进行音节数估计，具有计算复杂度低、实现简单、成本较低的优点，克服了人工神经网络方法中，需要大量标注语音的问题，降低了语音信号音节数估计问题的复杂度以及实现成本；克服了包络检测方法和传统统计模型方法效果不佳的问题，使语音音节数估计更加准确。

本发明直接利用语音信号的语谱图来进行音节数估计，具有可解释性、可根据不同具体目标灵活变动等优点。语谱图作为语音信号可视化的一种重要手段，对于语谱图的一些处理具有一定的现实意义，相比于人工神经网络这种不具备一定解释性的“黑匣子”，本发明方法更具有可解释性，因此可根据不同具体目标进行灵活的变动。

附图说明

图1是本发明实施例中一种基于语谱图时间差分的语音音节数估计方法的概略流程图；

图2是本发明实施例中计算N阶差分图的步骤流程图；

图3是本发明实施例中计算初步浊音起始边界的步骤流程图；

图4是本发明实施例中计算匹配浊音起始边界的步骤流程图；

图5是本发明实施例中边界时间间隔限制G₁的实现方式示意图；

图6是本发明实施例中边界时间间隔限制G₂的实现方式示意图；

图7是本发明实施例中语句“在工作时间陷入熟睡状态”的语谱图；

图8是本发明实施例中由图7求出的1阶差分图；

图9是本发明实施例中由图7求出的图案特征图。

具体实施方式

下面结合实例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例：

一种基于语谱图时间差分的语音音节数估计方法，如图1所示，包括以下步骤：

S1、本实施例中，使用aishell中文语料库中的数据作为测试数据。从aishell数据库中随机抽取一个语音样本，将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图X＝{x_t,t＝1,2,…T}通过一个M阶图像后向平滑滤波器得到模糊形式语谱图

如图7所示，语谱图中浊音起始边界(图中箭头处)比较明显，根据这一特征，首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波，用于减少N阶差分图中的虚假浊音起始边界，且此项操作对正确的浊音起始边界影响不大，从而达到降低音节数估计误差的效果。

如图2所示，本实施例中，使用快速傅里叶变换计算出语谱图，通过一个7阶图像后向平滑滤波器得到模糊形式语谱图，对模糊形式语谱图进行1阶时间差分以及7阶图像后向平滑，计算出1阶差分图。其中，在计算语谱图时，对信号进行加窗分帧。窗函数为汉明窗，帧长为20ms，帧移为10ms。

S2、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达，对N阶差分图S的每一列进行频率区域选择性求和，以获得初步浊音起始边界统计特征，然后通过语谱图的动态特征以及边界时间间隔限制G₁得到初步浊音起始边界{a_i,i＝1,2,…I}，其中，I为得到的初步浊音起始边界的个数，a_i为第i个初步浊音起始边界；

如图3所示，步骤S2包括以下步骤：

S2.1、计算浊音起始边界统计特征{p_t,t＝1,2,…T-1},

其中p_t为第二频带统计特征的第t个值，

为第三频带统计特征的第t个值；特征序列{p_t,t＝1,2,…T-1}中包含的是1阶差分图中的低频信息，而特征序列

中包含的是1阶差分图中的中高频信息。

如图8所示，由于语音信号的能量大多集中于低频部分，因此在连续语音信号中，在无声与语音的边界处或相邻音节的边界处(图中黑色箭头处)的低频部分的能量在时间上存在较大变化。因此在特征序列{p_t,t＝1,2,…T-1}中，p_t的值越大，说明信号低频部分的能量在时间上的变化越大，则t越有可能是浊音的起始边界。

由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节，这种现象在语谱图中表现为相邻的音节在低频处相似，而在中高频处相异(图中白色填充箭头处)。即在相邻音节的边界处的低频部分的能量随时间变化不大，而在中高频部分的能量随时间变化较大。在上述情况中，利用特征序列

浊音起始边界统计特征{p_t,t＝1,2,…T-1},

按以下方式获得：

根据N阶差分图的第t列的第一频带F₀＝[0,1000Hz]处的值之和

是否超过门限E，确定需要求和的频率区域。若超过门限E，则这一列求和的频率区域为第二频带F₁＝[0,2000Hz]，计算

若没超过，则这一列求和的频率区域为第三频带F₂＝[2000Hz,5000Hz]，计算

其中S_f,t为1阶差分图在时间t，频率f处的值。门限E的计算方法为

S2.2、对特征序列{p_t,t＝1,2,…T-1}进行归一化，将低于门限A₁的值置零后找出它的所有峰值点，得到部分浊音起始边界{y_u,u＝1,2,…U}，其中y_u+1＞y_u,u＝1,2,…U-1，y_u为第u个部分浊音起始边界，门限A₁设为0.1。

S2.3、对特征序列

其中

为第l个待确认的浊音起始边界，

为第r个补充的浊音起始边界，门限A₁设为0.1；对未确定浊音起始边界

进行过零率特征筛选的方法为：

若边界

所对应的短时帧的过零率小于过零率阈值Z，则认为

是一个合理的边界，否则认为

不是一个合理的边界；其中，过零率特征为短时帧过零率，且短时帧的长度与步骤S1中FFT的长度一致。本实施例中，过零率阈值Z设为90。

根据边界时间间隔限制G₁得到初步浊音起始边界{a_i,i＝1,2,…I}。

边界时间间隔限制G₁的实现方式如图5所示，定义边界时间间隔限制G₁为：假定部分浊音起始边界{y_u,u＝1,2,…U}中的边界全都是合理边界，设B为补充的浊音起始边界

中的某个边界，当且仅当存在1≤u≤U-1，使得B-y_u＞100ms且y_u+1-B＞120ms时，认为B是一个合理的边界。

S3、根据语谱图的动态特征在N阶差分图S中可得到更清晰的表达，将N阶差分图的第一频带F₀＝[0,f₀Hz]部分与图案P进行局部图案匹配得到其图案特征图

通过图案特征图计算出匹配浊音起始边界{b_j,j＝1,2,…J}，其中，

如图4所示，步骤S3包括以下步骤：

S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图的第一频带F₀＝[0,1000Hz]处的图案特征图S^*，如图9所示，其图案P应为：

其中，x₁，x₂，x₃代表在图案匹配时需要大于0的位置，

否则令

S3.2、对图案特征图S^*的每一列分别求和，得到图案匹配特征{q_t,t＝1,2,…T-1}，对特征序列{q_t,t＝1,2,…T-1}进行归一化，将低于门限A₂的值置零后找出它的所有峰值点，得到匹配浊音起始边界{b_j,j＝1,2,…J}，其中b_j+1＞b_j,j＝1,2,…J-1，q_t为图案特征图S^*的第t列求和得到的值，门限A₂设为0.1。

S4、结合初步浊音起始边界和匹配浊音起始边界，通过一个边界时间间隔限制G₂，得到最终的浊音起始边界{c_k,k＝1,2,…K}，最后计算出音节数K，其中，c_k为第k个最终的浊音起始边界。

边界时间间隔限制G₂的实现方式如图6所示，定义边界时间间隔限制G₂为：假定初步浊音起始边界{a_i,i＝1,2,…I}中的边界全都是合理边界，设D为匹配浊音起始边界{b_j,j＝1,2,…J}中的某个边界，当且仅当存在1≤i≤I-1，使得D-a_i＞100ms且a_i+1-D＞100ms时，认为D是一个合理的边界。

步骤S4包括以下步骤：

S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标；本实施例中，包括以下步骤：

S5.1、给出一个长文本，让言语障碍患者在规定时间内尽可能多的读出来，使用本方法估计出音节数；

S5.2、评价言语流畅性：若估计出的音节数较多，则说明患者说话较流畅；若估计出的音节数较少，则说明患者说话不流畅。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语谱图时间差分的语音音节数估计方法，其特征在于，包括以下步骤：

S1、将语音信号通过快速傅里叶变换(Fast Fourier Transform，FFT)转换成语谱图X＝{x_t，t＝1，2，…T}，通过一个M阶图像后向平滑滤波器得到模糊形式语谱图

对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑，得到N阶差分图S＝{s_t，t＝1，2…T-N}，其中，T为语音信号的短时帧数，x_t为语谱图X第t列的特征向量，

S2、对N阶差分图S的每一列进行频率区域选择性求和，以获得初步浊音起始边界统计特征，然后通过语谱图的动态特征以及边界时间间隔限制G₁得到初步浊音起始边界{a_i，i＝1，2，…I}，其中，I为得到的初步浊音起始边界的个数，a_i为第i个初步浊音起始边界；

S3、将N阶差分图的第一频带F₀＝[0，f₀]部分与图案P进行局部图案匹配得到其图案特征图

f₀为第一频带的最大频率，通过图案特征图计算出匹配浊音起始边界{b_j，j＝1，2，…J}，其中，

S4、结合初步浊音起始边界和匹配浊音起始边界，通过一个边界时间间隔限制G₂，得到最终的浊音起始边界{c_k，k＝1，2，…K}，最后计算出音节数K，其中，c_k为第k个最终的浊音起始边界；

2.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S1中，定义M阶图像后向平滑滤波器为形状M*M，取值如下的矩阵，M取大于等于3的奇数，使得取1值的列数比取0值的列数多一列，M越大，所得的模糊形式语谱图越模糊：

M阶图像后向平滑滤波的计算方法如下：

其中w_x，y表示M阶图像后向平滑滤波器在(x，y)处的值；

表示滤波后的图像在时间t，频率f处的值；W_f-i，t-j表示滤波前的图像在时间t-j，频率f-i处的值，若t-j＜0或f-i＜0，则令W_f-i，t-j＝0。

3.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S1中，定义N阶时间差分

为：

其中s_f，t表示模糊形式语谱图在时间t，频率f处的值。

4.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S2包括以下步骤：

S2.1、计算浊音起始边界统计特征{p_t，t＝1，2，…T-N}，

其中p_t为第二频带统计特征的第t个值，

为第三频带统计特征的第t个值；

S2.2、对特征序列{p_t，t＝1，2，…T-N}进行归一化，将低于门限A₁的值置零后找出它的所有峰值点，得到部分浊音起始边界{y_u，u＝1，2，…U}，其中，门限A₁的取值区间为[0.1，0.3]，y_u+1＞y_u，u＝1，2，…U-1，其中，U为得到的部分浊音起始边界的个数，y_u为第u个部分浊音起始边界；

S2.3、对特征序列

进行归一化，将低于门限A₁的值置零后找出它的所有峰值点，得到待确认的浊音起始边界

然后经过过零率特征筛选得到补充的浊音起始边界

其中

r＝1，2，…R-1，L为得到的待确认的浊音起始边界的个数，

为第r个补充的浊音起始边界；

S2.4、使用部分浊音起始边界{y_u，u＝1，2，…U}与补充的浊音起始边界

根据边界时间间隔限制G₁得到初步浊音起始边界{a_i，i＝1，2，…I}，其中a_i+1＞a_i，i＝1，2，…I-1。

5.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S2.1中，浊音起始边界统计特征按以下方式获得：

根据N阶差分图的第t列的第一频带F₀＝[0，f₀]内的和

是否超过门限E，确定需要求和的频率区域；若超过门限E，则这一列求和的频率区域为第二频带F₁＝[0，f₁]，计算

若没超过，则这一列求和的频率区域为第三频带F₂＝[f₂，f₃]，计算

其中S_f，t为N阶差分图在时间t，频率f处的值，f₀、f₁、f₂、f₃应满足的条件为：

门限E的计算方法为：

6.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S2.3中，对未确定浊音起始边界

进行过零率特征筛选的方法为：

若边界

所对应的短时帧的过零率小于过零率阈值Z，则认为

是一个合理的边界，否则认为

7.根据权利要求4所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S2.4中，定义边界时间间隔限制G₁为：假定部分浊音起始边界{y_u，u＝1，2，…U}中的边界全都是合理边界，设B为补充的浊音起始边界

中的某个边界，当且仅当存在1≤u≤U-1，使得B-y_u＞λ₁且y_u+1-B＞λ₂时，认为B是一个合理的边界，λ₁和λ₂的取值区间均为[100ms，150ms]。

8.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S3包括以下步骤：

S3.1、应用形态学图像处理技术中的图案匹配技术求出N阶差分图S的第一频带F₀＝[0，f₀]处的图案特征图S^*，其图案P应为：

其中，x₁，x₂，x₃代表在图案匹配时需要大于0的位置，

代表在图案匹配时需要等于0的位置，图案x₂处对应匹配点S_f，t，若匹配成功则令

否则令

S3.2、对图案特征图S^*的每一列分别求和，得到图案匹配特征{q_t，t＝1，2，…T-N}，对特征序列{q_t，t＝1，2，…T-N}进行归一化，将低于门限A₂的值置零后找出它的所有峰值点，得到匹配浊音起始边界{b_j，j＝1，2，…J}，其中，门限A₂的取值区间为[0.1，0.3]，b_j+1＞b_j，j＝1，2，…J-1，q_t为图案特征图S^*的第t列求和得到的值。

9.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S4中，定义边界时间间隔限制G₂为：假定初步浊音起始边界{a_i，i＝1，2，…I}中的边界全都是合理边界，设D为匹配浊音起始边界{b_j，j＝1，2，…J}中的某个边界，当且仅当存在1≤i≤I-1，使得D-a_i＞λ₃且a_i+1-D＞λ₄时，认为D是一个合理的边界，λ₃和λ₄的取值区间均为[100ms，150ms]。

10.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法，其特征在于，步骤S4包括以下步骤：

S4.1、对匹配浊音起始边界{b_j，j＝1，2，…J}中的每一个边界，根据边界时间间隔限制G₂判断其合理性，若合理，则将其加入到最终的浊音起始边界集合中，若不合理，则继续对下一个边界进行判断；

S4.2、将初步浊音起始边界{a_i，i＝1，2，…I}中的所有边界都加入到最终的浊音起始边界集合中，得到{c_k，k＝1，2，…K}。