CN109300486A

CN109300486A - 基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法

Info

Publication number: CN109300486A
Application number: CN201810852508.2A
Authority: CN
Inventors: 尹恒; 付佳; 何凌; 郭春丽
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2019-02-01
Anticipated expiration: 2038-07-30
Also published as: CN109300486B

Abstract

本发明公开了一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，涉及语音信号处理领域。所述方法利用分段指数压缩Gammatone滤波器组PICGTFs对语音进行滤波处理，分别基于多通道的Softsign模型SSMC(Softsign‑based Multi‑Channel)和高斯差分DoG(Difference of Gaussian)模型对各个通道的语音信号语谱图进行增强处理，将增强后的语谱图分别提取特征向量，并分别放入KNN分类器中进行模式识别，判断是否属于咽擦音，并取相同的分类结果作为算法最终的识别结果。该方法充分利用了咽擦音与正常语音在谱能量的频域分布上的差异，相比于现有技术，检测结果客观准确，实现较高程度的自动测量，在临床上对咽擦音的数字化评估提供可靠的参考数据，符合精准医疗的发展需求，进行更加准确有效的信号分类识别。

Description

基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法

技术领域

本发明涉及语音信号处理领域，尤其是一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法。

背景技术

咽擦作为常见的代偿性构音错误之一，发生率仅次于声门塞音。它是由于发音人舌位后缩至后咽壁所导致咽部变窄而产生的一种擦音。该异常构音主要发生在普通话音节中的辅音部分，因为辅音是通过气流在口腔或咽头受到阻碍而形成的音。咽擦音在汉语方言中很常见，但是在正常的普通话发音中不会出现。咽擦音又分为清咽擦音和浊咽擦音。清咽擦音发音时声带不振动，而浊咽擦音在发音时声带振动，其气流特点是从肺部直接流出，而不是从口腔或声门流出。目前国内外主要通过以下两种方法对咽擦音进行诊断： (1)基于各种频谱分析仪观察语音频谱、鼻音分数检测仪测试的鼻音分数进行判断(2)基于临床特性，分析咽擦音与正常音在发音上的区别，其相应的方法都存在一定的缺陷或创伤性。

近年来，国内外学者致力于研究无创且更为客观的数字化处理方法，将其用于咽擦音的诊断与评估，以减轻病人治疗时的痛苦。目前，咽擦音的研究主要分为两类：1)基于数字化检测仪器的咽擦音特征分析，现有的相应研究利用数字化的医用检测仪测量鼻音分数、观察语音频谱变化，根据这些参数变化给出评估结果。但各个参数的变化仍为主观评估，依然存在不够客观和准确的问题。2)基于数字信号处理技术的咽擦音时频特征分析，对应的研究探讨了能量分布与咽擦音的关系，但并没有实现咽擦音与正常擦音的自动分类检测。

发明内容

本发明针对现有技术存在的上述技术问题，为避免噪声对信号识别产生干扰，利用分段指数压缩 Gammatone滤波器组PICGTFs对语音进行滤波处理，分别基于多通道的Softsign模型SSMC(Softsign-based Multi-Channel)和高斯差分DoG(Difference ofGaussian)模型对各个通道的语音信号语谱图进行增强处理，将增强后的语谱图分别提取特征向量，并分别放入KNN分类器中进行模式识别，判断是否属于咽擦音，并取相同的分类结果作为算法最终的识别结果。该方法充分利用了咽擦音与正常语音在谱能量在频域分布上的差异，对咽擦音的自动识别具有重要的意义。

本发明采用以下技术方案：

一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，包括以下步骤：

(1)信号预处理，对输入的语音信号进行幅值归一化、预加重、分帧和短时傅里叶变换；

(2)对预处理后的信号进行基于分段指数压缩Gammatone滤波器组PICGTFs的滤波处理，得到滤波后的L个子带通道；

(3)对滤波后的多子带通道语谱做基于多通道的Softsign模型SSMC对各个通道的语音信号语谱图进行增强处理，提取增强后各通道的谱均值作为特征向量F1；对滤波后的各通道的语谱图进行高斯差分 DoG增强和规整化处理，利用分段三次Hermite插值多项式法PCHIP提取谱包络AP，并计算谱熵S，将二者作为特征向量F2；对滤波后的各通道的语谱图进行高斯差分DoG增强和规整化处理，利用Hilbert变换提取谱包络AH，并计算谱熵S，将二者作为特征向量提取的特征向量F3；

(4)在提取语音信号特征F1、F2和F3后，将各信号特征用于分类器中进行自动识别分类。

步骤(1)具体包括以下步骤：

(1.1)归一化处理，将输入语音除以语音中的幅值最大值X_max，即：

X_max＝max(abs(x_n)) (1)

其中，N为语音信号x[n]总的采样点数，x_n为第n个采样点处的幅值；

(1.2)预加重：采用预加重传递函数为下式所示的一阶有限脉冲高通滤波器：

H(z)＝1-az^-1 (3)

其中，a为预加重系数，通常0.9＜a＜1.0；

(1.3)分帧加窗：选取帧长为200，帧移为80，加窗选取汉明窗，汉明窗的计算公式如下：

加窗后的语音信号为：

s(n)＝x(n)*w(n) (6)；

(1.4)短时傅里叶变换：在分帧加窗的基础上，对信号进行傅立叶变换，定义如下：

当n取不同的值时，窗w(n-m)沿着时间轴滑到不同的位置，取出不同的语音帧进行傅立叶变换。

所述预加重系数选取15/16，即预加重函数为：

所述PICGTFs引入了参数因子k：

得到

h1(t)为分段指数压缩Gammatone滤波器的时域波形表达式，得到对应的分段指数压缩Gamma tone滤波器组PICGTFs。

步骤(3)包括：

(3.1)基于多通道的Softsign模型SSMC的语谱增强和特征提取；

(3.2)基于高斯差分DoG(Difference of Gaussian，DoG)和规整化的语谱图增强，以及相应的特征提取；

步骤(3.1)包括：

(3.1.1)为了增强语谱图中的峰值,抑制峰值之间的成分，在对信号进行PICGTFs滤波后，沿着频率轴平滑地对语谱图进行SSMC增强处理：

SSMC的函数表达式如下：

αα(l)＝1/log(fc_l) (13)

其中，M为傅里叶变换长度，f_n为语音信号的帧数，S_l，m为PICGTFs第l个通道滤波后第n帧语音信号第m个采样点处的谱值，r(l，n，m)是第l个通道第n帧第m个采样点处映射后的值，θ(l)为第l个通道信号谱的中值，α(l)为第l个通道的映射调制因子，L为通道总数；

(3.1.2)对SSMC增强后的语谱图做谱值特征提取，计算每一个通道内所有帧的均值，将其作为特征向量放入后续的分类器中，用于进行模式识别；

特征值的具体计算公式如下：

SM_l，m表示第l个通道第m个采样点处所有帧谱值的均值。对滤波后的各子带通道分别求取各子带特征值 SM_l(1≤l≤L)如下：

SM_l＝[SM_l，1，SM_l，2，……，SM_l，M]。

将各子带特征值SMl按照向量的格式进行拼接得到信号的特征值F1＝[SM1，SM2，...，SML]。

步骤(3.2)包括：

(3.2.1)为了增强语谱图的峰值，抑制两峰之间的成分，对PICGTFs滤波后信号的语谱图在频率上做了高斯差分DoG处理；

一维高斯差分如下：

其中，σ₁和σ₂分别为高斯核的半径，μ为均值，则每一个高斯差分算子的计算公式如下：

其中，σ_n为标准偏差70Hz，随着子带中心频率fc_n从5kHz增长到8kHz，σ_n线性增长到400Hz；

(3.2.2)在增强语谱图对比度的同时，对语谱图进行规整化处理，规整化公式为：

其中，A_l，n，m为第l个通道第n帧第m个采样点的谱值，V_l，n为第l个通道第n帧的谱值方差，A_l和V_l为第l个通道整段语音的谱均值和谱值方差；

(3.2.3)对规整化处理后的语音信号语谱图进行基于谱包络和谱熵的特征提取；

(3.2.3.1)基于PCHIP法谱包络的特征提取：在对语音信号语谱图进行规整化处理后，利用分段三次Hermite插值多项式法PCHIP求取每一个通道的每一帧信号的谱包络，具体计算过程如下：

Ⅰ.寻找第l帧信号的谱峰值A_l，n，k；

A_l，n，k中的k值范围取决于当前帧语音信号中峰值点的个数；

Ⅱ.利用分段三次Hermite插值多项式法PCHIP，对谱峰值之间的值进行插值处理；

Ⅲ.连接插值点以及各个峰值点，以获取第l个通道信号的PCHIP谱包络： AP_l,n＝[AP_l,n,1,AP_l,n,2,……,AP_l,n,M](30)，

其中，AP_l,n代表第l个通道第n帧的包络；

包络APl(1≤l≤L)满足：

(3.2.3.2)基于Hilbert变换法求包络及其特征提取：

对于窄带信号S_l，n，其包络为

式中AH_l，n为第l个通道第n帧信号的Hilbert谱包络；

则对于每一个子带通道相应的谱包络AHl(1≤l≤L)为：

(3.2.4)对于规整化后的语音信号的语谱图提取谱熵，设第l个通道第m条谱线f_l，m的能量谱为 Y_l(m，n)，则每个频率分量归一化概率密度函数为：

式中，p_l(m，n)为第l个通道、第n帧、第m个频率分量f_l，m对应的概率密度，M为FFT长度；

则第l个通道第n帧语音的短时谱熵定义为：

则各子带的谱熵Sl(1≤l≤L)为：

(3.2.5)将利用分段三次Hermite插值多项式法PCHIP提取的谱包络APl，以及计算的谱熵Sl，将二者合并后作为特征向量F2＝[AP1，AP2，…，APl，S1，S2，…，Sl]；

将利用Hilbert变换提取的谱包络AHl，以及计算的谱熵Sl，将二者合并后作为特征向量F3＝[AH1， AH2，…，AHl，S1，S2，…，Sl]；

步骤(4)包括：

将步骤(3)中计算得到的特征向量F1、F2、F3分别放入KNN分类器中进行分类，分类结果为I类(存在咽擦音)和II类(正常语音)，进而利用判别器对三类结果进行判别并输出最终分类结果。

所述利用判别器对三类结果进行判别并输出最终分类结果具体为：

(1)若三种方法提取的特征分类结果一致(即均为I类或均为II类)，则确定其为最终的分类结果；

(2)若其中有两种方法提取的特征分类结果一致(即其中两种分类结果为I类，另一种分类结果为II 类，或者其中两种分类结果为I类，另一种分类结果为II类，另一种分类结果为I类)，则将该结果作为最终的分类结果。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明提供的基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，可以基于获取的咽擦音语音信号进行全自动检测，利用语音信号处理的方法提取信号特征，相比于现有技术中，本发明的检测方法检测结果客观准确，实现较高程度的自动测量；

2、本发明提供的基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，提出了基于分段指数压缩Gamma tone滤波器组(PICGTFs)，PICGTFs相比较现有技术的GTFs来说滤波效果有了明显的增强，提高了滤波精确度。

3、本发明提供的基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，基于在指数压缩的Ga mmatone滤波器组滤波提取频谱特性的同时，还提出了基于多通道的Softsign模型SSMC (Softsign-based Multi-Channel)的语谱增强和特征提取，能更好地体现突出语音辅音并有效用于信号特征的提取。

4、本发明提供的基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，进一步提出了基于分类器和判决器的自动分类识别方法，为针对分别提取的信号特征分别利用不同的分类识别器针对不同的信号特征进行判决式分类识别，按照相应的判决方法进行更加准确有效的信号分类识别。

附图说明

图1是本发明提供的腭裂咽擦音自动识别方法框图。

图2是归一化语音信号时域波形。

图3是预加重后语音信号时域波形。

图4是原始语音信号语谱图。

图5是Gammatone滤波器的时域波形。

图6是128通道Gammatone滤波器组各通道中心频率。

图7是不同中心频率的Gammatone滤波器对应的幅频响应曲线。

图8是本发明实施例提供的Gammatone滤波器组滤波后的语谱图。

图9是本发明实施例提供的分段指数压缩的Gammatone滤波器组幅频响应曲线。

图10是本发明实施例提供的PICGTFs滤波后信号的语谱图。

具体实施方式

为了使本领域的人员更好地理解本发明的技术方案，下面结合本发明的附图，对本发明的技术方案进行清楚、完整的描述，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它类同实施例，都应当属于本申请保护的范围。

需要说明的是，在本实施例中采用的语音数据是按照普通话构音测量表进行录制得到，该表包括普通话音节里面的所有辅音，根据咽擦音的辅音发声的特点，选取含辅音/s/、/sh/、/c/、/x/的词语，例如，“鲨鱼”的“鲨”、“西瓜”的“西”等字。语音数据前期由专业的语音师进行判听，由人工判定咽擦的有无。

进一步需要说明的是，本发明以及相应实施例提出的信号特征处理方法、特征提取方法、信号识别与分类方法都仅仅是对信号的处理和识别方法本身进行研究和改进，虽然针对的为咽擦音信号，实现的自动分类识别结果可以作为评估参考，但在临床或医疗领域其评估结果也仅仅是一个辅助性的评估，对于具体的治疗方法仍需要并主要依赖于医生的临床经验和医生提供的治疗方法。

如图1所示，本实施例提供的基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法如下：

(1)信号预处理，对输入的语音信号x[n]进行幅值归一化、预加重、分帧和短时傅里叶变换：

(1.1)为了避免由于不同语音的幅值不同而对结果产生影响，需要对语音信号进行归一化处理。归一化处理，是指将输入语音除以语音中的幅值最大值X_max，即：

X_max＝max(abs(x_n)) (1)

其中，N为语音信号x[n]总的采样点数，x_n为第n个采样点处的幅值。如图1所示为归一化处理后的语音信号时域波形图。

(1.2)预加重：由于咽擦音发生在辅音部分，即高频成分，因此对语音信号进行预加重处理，加强高频分量，使信号的频谱变得平坦，增加高频成分的分辨率。

采用预加重传递函数为下式所示的一阶有限脉冲高通滤波器：

H(z)＝1-az^-1 (3)

其中，a为预加重系数，通常0.9＜a＜1.0。

经过反复选取，发现当预加重系数为15/16时，预加重效果较明显，故本实施例中预加重系数选取 15/16，即预加重函数为：

如图3所示为预加重后的语音信号时域波形图。

(1.3)分帧加窗：由于语音信号是随机信号，具有不平稳性。研究表明，在10～30ms范围内，语音频谱特征和一些物理特征参数保持不变。因此，可以将语音信号分成很多个语音段，每个短时的语音段称为一帧。为了避免相邻两帧之间变化过大，会在两帧之间出现一定的重叠区域，又称为帧移。为了避免帧与帧之间出现不连续的问题，对语音信号进行加窗处理。本实施例中选取帧长为200，帧移为80，加窗选取汉明窗，汉明窗的计算公式如下：

加窗后的语音信号为：

s(n)＝x(n)*w(n) (6)

短时傅里叶变换是时间n和角频率w的函数，反映了语音信号的频谱随时间变化的特性，为后续观察语音信号的语谱图，以及对语音信号的能量在频域上的分布的研究分析奠定了基础。

如图4为原始语音信号傅立叶变换后的语谱图，可以看出存在一定的干扰信号。

(2)对预处理后的信号进行基于分段指数压缩Gammatone滤波器组(PICGTFs)的滤波处理，得到滤波后的L个子带通道。

为了模拟人耳对低频成分的分辨率高于高频成分的分辨率，现有技术中有选取听觉滤波器Gamma tone 滤波器组(Gammatone Filters,GTFs)对信号进行滤波处理。

人耳的听音频率范围在20Hz到20kHz，因此GTFs的中心频率范围为20Hz～20kHz。本实施例采用的语音的采样率为8kHz，则信号最高频率为4kHz，并选取128通道的GTFs对语音信号进行听觉滤波处理。

Gammatone是一种常用的听觉滤波器，其时域脉冲响应如下：

其中，a是滤波器的阶数，b是滤波器的系数，与脉冲响应长度成反比，f0是滤波器的中心频率，Φ是相位，人耳对其不敏感，一般可以省略。当n取4时，Gammatone滤波器组就可以很好的模拟人耳蜗的频率特性。如图5所示，为Gammatone滤波器的时域波形。

当t<0时，g(t)＝0；参数b为GTF的等效矩形带宽(简称ERB)，ERB是一种矩形带通滤波器的带宽，这种带通滤波器的高度和给定滤波器的功率谱最大值相同，且二者的功率谱总和相同，它与滤波器的中心频率f0之间的关系是：

b＝ERB(f₀)＝24.7+0.108f₀ (9)

128通道的4阶Gamma tone滤波器组的中心频率(80～4kHz)(每6个写一个)如下表1所示：

表1 128通道4阶Gammatone滤波器组的中心频率值

序号l	中心频率fc<sub>l</sub>(Hz)	序号l	中心频率fc<sub>l</sub>(Hz)	序号l	中心频率fc<sub>l</sub>(Hz)
						1	80.0	49	595.1	97	1969.5
7	120.3	55	702.7	103	2256.4
						13	165.9	61	824.2	109	2580.8
19	217.4	67	961.7	115	2947.4
						25	275.6	73	1117.0	121	3362.0
31	341.4	79	1292.7	127	3830.6
						37	415.9	85	1491.3
43	500.0	91	1715.7

而Gammatone滤波器各通道的中心频率满足对数形式分布，如下图6-7所示，图6为通道Gammatone 滤波器组各通道中心频率，图7为不同中心频率的Gammatone滤波器对应的幅频响应曲线,从中可以看出虽然Gammatone滤波器组能够很好的模拟人耳的频率选择特性，但是它并不能体现基底膜滤波器的强度依赖性。利用Gammatone滤波器组对语音信号进行滤波处理，滤波后的信号语谱图如下8所示。

而针对Gammatone滤波器的这一不足，本实施例提出的方法在Gammatone滤波器上引入了幅值调制因子。语音听觉特性研究表明，人耳具有非线性特性，即满足指数压缩形式的，由低频向高频非线性逐渐增强。目前，通常被认为频率在1kHz以上的信号，非线性压缩行为较强，且压缩幅度相对接近；频率在1kHz 以下的信号，非线性会逐渐降低。本实施例为了更好的模拟人耳幅值响应特性，在Gammatone滤波器的基础上，引入了参数因子，经过多次模拟仿真，确定参数因子的计算公式如下：

因此得到

h1(t)为分段指数压缩Gammatone滤波器的时域波形表达式，

得到对应的分段指数压缩Gamma tone滤波器组(PICGTFs)，PICGTFs的幅频响应如下图9所示，PICGTFs 滤波后的信号语谱图如下图10所示，与图8对比，可以看出在两能量集中分布区域间的过渡区域，明显被减弱,即PICGTFs相比较GTFs来说,滤波效果有了明显的增强。

(3)对滤波后的多子带通道语谱做语谱增强处理，并提取相关特征。

(3.1)基于多通道的Softsign模型SSMC(Softsign-based Multi-Channel)的语谱增强和特征提取，包括：

(3.1.1)为了增强语谱图中的峰值,抑制峰值之间的成分，在对信号进行PICGTFs滤波后，沿着频率轴平滑地对语谱图进行SSMC增强处理。

SSMC是中心频率依赖的Softsign函数，实际上是将每一个通道的信号谱值按照一定的映射关系映射到[0，1]的范围内，SSMC的函数表达式如下：

α(l)＝1/log(fc_l) (13)

其中，M为傅里叶变换长度，f_n为语音信号的帧数，S_l，m为PICGTFs第l个通道滤波后第n帧语音信号第m个采样点处的谱值，r(l，n，m)是第l个通道第n帧第m个采样点处映射后的值，θ(l)为第l个通道信号谱的中值，α(l)为第l个通道的映射调制因子。

(3.1.2)对SSMC增强后的语谱图做谱值特征提取，计算每一个通道内所有帧的均值，将其作为特征向量放入后续的分类器中，用于进行模式识别。

特征值的具体计算公式如下：

SM_l＝[SM_l，1，SM_l，2，……，SM_l，M]

(3.2)基于高斯差分DoG(Difference of Gaussian，DoG)和规整化的语谱图增强，以及相应的特征提取，包括：

(3.2.1)为了增强语谱图的峰值，抑制两峰之间的成分，对PICGTFs滤波后信号的语谱图在频率上做了高斯差分处理。

DoG是一个空总额的小波母函数，他从一个窄高斯减去一个宽高斯，一维高斯差分如下：

其中，σ₁和σ₂分别为高斯核的半径，μ为均值。本文中选取σ₁：σ₂＝1：2，μ为子带的中心频率 fc_n，则每一个高斯差分算子的计算公式如下：

其中，σ_n为标准偏差70Hz，随着子带中心频率fc_n从5kHz增长到8kHz，σ_n线性增长到400Hz。

(3.2.2)在增强语谱图对比度的同时，为了避免语谱图中的峰值和谷值发生变化，对语谱图进行规整化处理，规整化公式为：

其中，A_l，n，m为第l个通道第n帧第m个采样点的谱值，V_l，n为第l个通道第n帧的谱值方差，A_l和V_l为第l个通道整段语音的谱均值和谱值方差。

(3.2.3)对规整化处理后的语音信号语谱图进行基于谱包络和谱熵的特征提取，在本实施例中分别采用PCHIP法谱包络特征提取和Hilbert变换法包络特征提取。

(3.2.3.1)基于PCHIP法谱包络的特征提取

在对语音信号语谱图进行规整化处理后，利用分段三次Hermite插值多项式法(Piecewise cubic Hermite interpolation polynomial，PCHIP)求取每一个通道的每一帧信号的谱包络。

则相应谱包络的具体计算过程如下：

Ⅰ.寻找第l帧信号的谱峰值A_l，n，k；

Ⅱ.利用分段三次Hermite插值多项式法(PCHIP)，对谱峰值之间的值进行插值处理；

假设已知函数f(x)在节点a＝x₀＜x₁＜…＜x_n＝b处的函数的值和导数值：

y_i＝f(x_i) (18)

y′_i＝f′(x)，i＝0，1，2，......，n (19)

则在小区间[x_i-1，x_i]上有4个插值条件：

y_i-1＝f(x_i-1) (20)

y_i＝f(x_i) (21)

y′_i-1＝f′(x_i-1) (22)

y′_i＝f′(x_i) (23)

故能构造一个三次多项式H_i(x)，并成为三次Hermite插值多项式。此时，在整个[a，b]上可以用分段三次Hermite插值多项式来逼近f(x)。

其中，H_i(x)，x∈[x_i-1，x_i]满足条件：

H_i(x_i-1)＝f(x_i-1)＝y_i-1 (25)

H_i(x_i)＝f(x_i)＝y_i (26)

H_i′(x_i-1)＝f′(x_i-1)＝y′_i-1 (27)

H_i′(x_i)＝f′(x_i)＝y′_i (28)；

因此对相邻两峰值A_l，n，k和A_l，n，k+1之间利用PCHIP插值，在区间[A_l，n，k，A_l，n，k+1]插值函数值为：

其中，A_l,n,k、A_l,n,k+1和A_l,n,kk分别代表第l个通道第n帧第k个峰值、k+1个峰值以及位置第kk 个采样点处的谱值，loc(k)、loc(k+1)、loc(kk)分别代表第k个峰值、第k+1个峰值、第kk个采样点的位置，A'_l,n,k和A'_l,n,k+1分别代表第l个通道第n帧第k个峰值、k+1个峰值处谱值的倒数。

其中，AP_l,n代表第l个通道第n帧的包络。

包络APl(1≤l≤L)满足：

(3.2.3.2)基于Hilbert变换法求包络及其特征提取

对于一个实信号x(t)，其希尔伯特变换为：

其中，*表示卷积运算。

可以被看成是一个滤波器的输出，该滤波器的冲激响应为：

在频域内，希尔伯特变换关系可表示为：

式中，是函数的傅里叶变换，X(f)是函数x(t)的傅里叶变换。

本实施例中，对于窄带信号S_l，n，其包络为：

式中AH_l，n为第l个通道第n帧信号的Hilbert谱包络。

则对于每一个子带通道相应的谱包络AHl(1≤l≤L)为：

式中，p_l(m，n)为第l个通道第n帧第m个频率分量f_l，m对应的概率密度，M为FFT长度。

则第l个通道第n帧语音的短时谱熵定义为：

则各子带的谱熵Sl(1≤l≤L)为：

利用对咽擦音与正常语音的的能量与归一化谱概率密度函数分布的特征的提取，实现对二者的区分。

(3.2.5)将利用分段三次Hermite插值多项式法(Piecewise cubic Hermiteinterpolation polynomial， PCHIP)提取的谱包络APl，以及计算的谱熵Sl，将二者合并后作为特征向量F2＝[AP1，AP2，…，APl， S1，S2，…，Sl]；

(4)在提取语音信号特征F1、F2和F3后，将各信号特征用于KNN分类器中进行识别分类。

由于KNN算法简单，且易于实现，无需参数估计，无需训练。故本实施例中选取KNN分类器作为模式识别分类器。

KNN算法又称为K近邻分类(k-nearest neighbor classification)算法。KNN算法则是从训练集中找到和新数据最接近的k条记录，然后根据他们的主要分类来决定新数据的类别。该算法涉及3个主要因素：训练集、距离或相似的衡量、k的大小。

计算步骤如下：

1)算距离：给定测试对象，计算它与训练集中的每个对象的距离

2)找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻

3)做分类：根据这k个近邻归属的主要类别，来对测试对象分类

距离的计算一般使用欧氏距离或曼哈顿距离：

欧氏距离：

曼哈顿距离：

将前述步骤中三种特征提取方法提取的相应信号特征：(1)利用分段指数压缩Gammatone滤波器组 (PICGTFs)对语音进行滤波处理，利用基于多通道的Softsign模型(Softsign-based Multi-Channel)SSMC对各个通道的语音信号语谱图进行增强处理，提取增强后各通道的谱均值作为特征向量F1；(2)利用分段指数压缩Gammatone滤波器组(PICGTFs)对语音进行滤波处理，对各通道的语谱图进行DoG增强和规整化处理，利用分段三次Hermite插值多项式法(Piecewise cubic Hermite interpolation polynomial，PCHIP)提取谱包络AP，并计算谱熵S，将二者作为特征向量F2；(3)利用分段指数压缩Gammatone滤波器组(PICGTFs)对语音进行滤波处理，对各通道的语谱图进行DoG增强和规整化处理，利用Hilbert变换提取谱包络AH，并计算谱熵S，将二者作为特征向量提取的特征向量F3，将特征向量F1、F2、F3分别放入KNN分类器中进行分类，分类结果为I类(存在咽擦音)和II类(正常语音)，进而利用判别器对三类结果进行判别并输出最终分类结果：

为验证本实施例所提出的上述自动识别方法的有效性，选取306个四川大学华西口腔医院唇腭裂外科腭裂语音中心的语音样本，其中包含209个咽擦音样本，97个正常语音样本。实验样本包含普通话音节中所有的辅音，根据咽擦音发生在辅音部分这一特点，选取包含辅音/s/、/sh/、/c/、/x/等音节的词或字，如下表2所示。将专业语音师的判听结果作为标准，对算法的准确性进行测试。实验表明，使用本发明提出的将三种方法(①利用PICGTFs滤波，结合SSMC增强的算法；②利用PICGTFs滤波，结合DoG和规整化增强，利用分段三次Hermite插值多项式法(PCHIP)提取包络AP、计算谱熵S的算法；③利用PICGTFs 滤波，结合DoG和规整化增强的算法，利用Hilbert变换提取包络AH、计算谱熵S的算法)所提取的特征结合起来，通过判别器的识别结果正确性为90.52％。

表2实验样本包含普通话音节中所有可能出现咽擦音的辅音

音	音	音
			ca	ke	shou
ci	pi	shu
			cu	qi	shui
cha	qiao	xi
			che	qiu	xia
chi	sa	xiao
			chu	se	xiang
fa	su	xie
			ha	sha	xu
ka	she	zi
			kan	shi	zhi

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，包括以下步骤：

(3)对滤波后的多子带通道语谱做基于多通道的Softsign模型SSMC对各个通道的语音信号语谱图进行增强处理，提取增强后各通道的谱均值作为特征向量F1；对滤波后的各通道的语谱图进行高斯差分DoG增强和规整化处理，利用分段三次Hermite插值多项式法PCHIP提取谱包络AP，并计算谱熵S，将二者作为特征向量F2；对滤波后的各通道的语谱图进行高斯差分DoG增强和规整化处理，利用Hilbert变换提取谱包络AH，并计算谱熵S，将二者作为特征向量F3；

2.如权利要求1所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，步骤(1)具体包括以下步骤：

X_max＝max(abs(x_n)) (1)

H(z)＝1-az^-1 (3)

其中，a为预加重系数，通常0.9＜a＜1.0；

加窗后的语音信号为：

s(n)＝x(n)*w(n) (6)；

3.如权利要求2所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，所述预加重系数选取15/16，即预加重函数为：

4.如权利要求1所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，所述PICGTFs引入了参数因子k：

得到

5.如权利要求1所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，步骤(3)包括：

(3.1)基于多通道的Softsign模型SSMC的语谱增强和特征提取；

(3.2)基于高斯差分DoG(Difference of Gaussian，DoG)和规整化的语谱图增强，以及相应的特征提取。

6.如权利要求5所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，步骤(3.1)包括：

SSMC的函数表达式如下：

α(l)＝1/log(fc_l) (13)

特征值的具体计算公式如下：

SM_l，m表示第l个通道第m个采样点处所有帧谱值的均值。对滤波后的各子带通道分别求取各子带特征值SM_l(1≤l≤L)如下：

SM_l＝[SM_1，1SM_1，2，……，SM_l，M]。

将各子带特征值SMl按照向量的格式进行拼接得到信号的特征值Fl＝[SM1，SM2，...，SML]。

7.如权利要求5所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，步骤(3.2)包括：

一维高斯差分如下：

Ⅰ.寻找第l帧信号的谱峰值A_l，n，k；

Ⅲ.连接插值点以及各个峰值点，以获取第l个通道信号的PCHIP谱包络：

AP_l,n＝[AP_l,n,1,AP_l,n,2,……,AP_l,n,M] (30)，

其中，AP_l,n代表第l个通道第n帧的包络；

包络APl(1≤l≤L)满足：

(3.2.3.2)基于Hilbert变换法求包络及其特征提取：

对于窄带信号S_l，n，其包络为

式中AH_l，n为第l个通道第n帧信号的Hilbert谱包络；

则对于每一个子带通道相应的谱包络AHl(1≤l≤L)为：

(3.2.4)对于规整化后的语音信号的语谱图提取谱熵，设第l个通道第m条谱线f_l，m的能量谱为Y_l(m，n)，则每个频率分量归一化概率密度函数为：

则第l个通道第n帧语音的短时谱熵定义为：

则各子带的谱熵Sl(1≤l≤L)为：

将利用Hilbert变换提取的谱包络AHl，以及计算的谱熵Sl，将二者合并后作为特征向量F3＝[AH1，AH2，…，AHl，S1，S2，…，Sl] 。

8.如权利要求1所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，步骤(4)包括：

9.如权利要求8所述的一种基于PICGTFs和SSMC增强的腭裂语音咽擦音自动识别方法，其特征在于，所述利用判别器对三类结果进行判别并输出最终分类结果具体为：

(2)若其中有两种方法提取的特征分类结果一致(即其中两种分类结果为I类，另一种分类结果为II类，或者其中两种分类结果为I类，另一种分类结果为II类，另一种分类结果为I类)，则将该结果作为最终的分类结果。