CN108922565B

CN108922565B - 基于ftsl谱线的腭裂语音咽擦音自动检测方法

Info

Publication number: CN108922565B
Application number: CN201810852095.8A
Authority: CN
Inventors: 何凌; 何飞; 王熙月; 尹恒
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-07-30
Filing date: 2018-07-30
Publication date: 2021-07-13
Anticipated expiration: 2038-07-30
Also published as: CN108922565A

Abstract

本发明公开了一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，涉及语音信号处理领域。该检测方法包括（1）信号预处理，对输入辅音信号进行分帧、预加重及幅值归一化；（2）提取语音信号特征，包括在每帧语音的多延迟四阶累积量的频域中提取FTSL谱线特征，以及在在时域中做等比均值包络阵列提取；（3）在提取语音信号的时域和FTSL谱线信号特征后，利用组合分类器识别算法结合时域等比包络均值阵列和FTSL谱线特征对语音信号进行自动分类，并输出分类结果。相比于现有技术，检测结果客观准确，实现较高程度的自动测量，在临床上对咽擦音的数字化评估提供可靠的参考数据，符合精准医疗的发展需求，进行更加准确有效的信号分类识别。

Description

基于FTSL谱线的腭裂语音咽擦音自动检测方法

技术领域

本发明涉及语音信号处理领域，尤其是一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法。

背景技术

咽擦作为常见的代偿性构音错误之一，发生率仅次于声门塞音。咽擦患者在发音时舌位后缩至后咽壁导致咽部变窄，来自肺部的气流通过该狭窄通道，经摩擦产生的语音即为咽擦音。该异常构音主要发生在普通话音节中的辅音部分，因为辅音是通过气流在口腔或咽头受到阻碍而形成的音。咽擦音在汉语方言中很常见，但是在正常的普通话发音中不会出现。咽擦音又分为清咽擦音和浊咽擦音。清咽擦音发音时声带不振动，而浊咽擦音在发音时声带振动，其气流特点是从肺部直接流出，而不是从口腔或声门流出。目前国内外主要通过以下两种方法对咽擦音进行诊断：(1)基于各种频谱分析仪观察语音频谱、鼻音分数检测仪测试的鼻音分数进行判断(2)基于临床特性，分析咽擦音与正常音在发音上的区别，其相应的方法都存在一定的缺陷或创伤性。

近年来，国内外学者致力于研究无创且更为客观的数字化处理方法，将其用于咽擦音的诊断与评估，以减轻病人治疗时的痛苦。目前，咽擦音的研究主要分为两类：1)基于数字化检测仪器的咽擦音特征分析，现有的相应研究利用数字化的医用检测仪测量鼻音分数、观察语音频谱变化，根据这些参数变化给出评估结果。但各个参数的变化仍为主观评估，依然存在不够客观和准确的问题。2)基于数字信号处理技术的咽擦音时频特征分析，对应的研究探讨了能量分布与咽擦音的关系，但并没有实现咽擦音与正常擦音的自动分类检测。

发明内容

本发明针对现有技术存在的上述技术问题，提供一种基于语音信号处理的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，结合了语音信号多延迟四阶累积量的频域的FTSL谱线以及时域的等比包络均值阵列，充分利用了咽擦音与正常音在时频域上的差别特性，实现咽擦音与正常音的自动分类检测。

本发明采用以下技术方案：

一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，包括以下步骤：

(1)信号预处理，对输入辅音信号进行分帧、预加重及幅值归一化；

(2)提取语音信号特征，包括在多延迟四阶累积量的频域中对每帧语音提取FTSL谱线特征，以及在在时域中做等比均值包络阵列提取，包括：

(2.1)计算每帧语音信号的FTSL谱线，并提取语音信号的FTSL特征矩阵；所述FTSL谱线为计算每一帧辅音信号的多延迟四阶累积量，并计算该多延迟四阶累积量的频谱，利用1/3倍频程提取四阶累积量的频谱谱线FTSL；

(2.2)在提取FTSL谱线特征的同时，在时域中提取等比包络均值阵列作为时域信号特征；

(3)在提取语音信号的时域和FTSL谱线特征后，利用组合分类器识别算法结合时域等比包络均值阵列和多延迟四阶累积量频域FTSL谱线特征对语音信号进行自动分类，并输出分类结果。

进一步的，所述步骤1包括：

(1.1)语音信号分帧，实现将长语音信号转换为短时平稳信号，可用线性方法进行处理；

(1.2)预加重：强调语音信号中的高频成分，由于本实施例研究对象是语音中的辅音，其属于频率较高部分，因此需要做预加重；

(1.3)幅值归一：为了规避采集系统及患者声音大小等因素的影响，对输入的每一个语音求取绝对值最大的幅值Xmax，然后将语音信号中的每一个值分别除以该最大值，进行归一化。

进一步的，所述步骤2.1包括：

(2.1.1)首先分别求出语音信号一、二、三阶累积量及其对应的矩；

设每一帧信号为x(n)，且每一帧语音信号x(n)为k阶平稳随机过程，则该过程的k阶累积量定义为随机变量{x(n),x(n+τ₁),...,x(n+τ_k-1)}的K阶联合累积量如下：

式(1)中C_k,x(τ₁,τ₂,...,τ_k-1)为计算得到的K阶累积量，τ₁，,τ₂,...,τ_k-1分别为各阶对应的延迟，cum(·)为K阶联合累积量；

该零均值k阶平稳随机过程的K阶矩如下：

式中m_k,x(τ₁,τ₂,...,τ_k-1)为K阶矩。mom(·)表示为K阶联合矩；

四阶累积量的计算是基于其低阶累积量的，在计算四阶累积量时，需要先计算出其低阶累积量及其低阶矩，一随机过程x(n)的一到四阶矩和累积量分别定义如下，其中

和

分别代表该随机过程的一到四阶矩及一到四阶累积量，τ为信号的延迟：

①、一阶矩和一阶累积量为：

m_1x＝C_1x＝E{x(n)} (3)

信号一阶累积量及其一阶矩均为该随机过程的期望值。

②、二阶矩和二阶累积量为：

m_2x(τ₁)＝E{x(n)x(n+τ₁)}＝r_x(τ₁) (4)

③、三阶矩和三阶累积量为：

m_3x(τ₁,τ₂)＝E{x(n)x(n+τ₁)x(n+τ₂)} (6)

(2.1.2)基于前三阶累积量及其对应的矩求取信号四阶累积量，四阶矩和四阶累积量如下：

m_4x(τ₁,τ₂,τ₃)＝E{x(n)x(n+τ₁)x(n+τ₂)x(n+τ₃)} (8)

C_4x(τ₁,τ₂,τ₃)＝cum{x(n),x(n+τ₁),x(n+τ₂),x(n+τ₃)}

＝m_4x(τ₁,τ₂,τ₃)-m_2x(τ₁)m_2x(τ₃-τ₂)-m_2x(τ₂)m_2x(τ₃-τ₁)-m_2x(τ₃)m_2x(τ₂-τ₁)-m_1x[m_3x(τ₂-τ₁,τ₃-τ₁)+m_3x(τ₂,τ₃)+m_3x(τ₁,τ₃)+m_3x(τ₁,τ₂)]-((m_1x)²[m_2x(τ₁)+m_2x(τ₂)+m_2x(τ₃)+m_2x(τ₃-τ₁)+m_2x(τ₃-τ₂)+m_2x(τ₂-τ₁)]-6(m_1x)⁴ (9)

公式(9)为四阶累积量计算的最终表达式，根据分帧后的语音信号具有短时平稳性，即每一帧语音信号的均值可视为0，即该过程的随机均值m_1x＝0，将m_1x＝0代入式(9)，则式(9)可改写为式(10)：

C_4x(τ₁,τ₂,τ₃)＝m_4x(τ₁,τ₂,τ₃)-m_2x(τ₁)m_2x(τ₃-τ₂)-m_2x(τ₂)m_2x(τ₃-τ₁)-m_2x(τ₃)m_2x(τ₂-τ₁) (10)；

(2.1.3)将每帧语音信号的四阶累积量进行变换并转换到频域，得到频率由低到高的频谱，将得到的频谱值按一定规则划分为各个频带，计算每个频带内的频谱均值，将各个频带计算的能量谱均值作为该频带的FTSL值，将每帧信号各个频带的FTSL值按中心频率由低频到高频的顺序进行排列，就得到了每帧语音信号的FTSL谱线；

进一步将同一段语音的各帧FTSL谱线按帧顺序拼接为一个一维的矩阵，得到该段语音信号的FTSL特征矩阵。

进一步的，所述步骤2.2包括：

(2.2.1)首先计算输入辅音的时域波形，并提取输入语音信号的上包络线：

将语音信号进行一阶微分处理，即将语音数据点从后往前依次两两相减得到的值，将这些值存储为一个矩阵M，长度为m。假设d1＝M(1:m-1)，即M矩阵中的前(m-1)个值；假设d2＝(2:m),即M矩阵中的后(m-1)个值。则对于存储在矩阵M中同一位置的两个数，d1中差分值为d2中的差分值的前一个，当d1(i)*d2(i)<0，且d1(i)>0时，则认为该点为上包络的一个包络连接点，依次找出所有的连接点，在原始语音信号上将这些连接点连接起来，就得到了语音信号的上包络。

(2.2.2)将包络线分区，并对分区均值求取：

基于信号长度，以包络线中心点为界向包络两端基于信号长度进行等比分区，信号长度为L，左右端长各为L/2，选择等比尺度n，则包络分区满足如下条件：

其中n为等比尺度，i表示第i个等比分区，

为左端等比分区系数之和，不超过1/2，即分区长度之和不超过信号本身长度的一半，且右端等比分区参照左端等比分区系数；

(2.2.3)完成左右两端等比分区后，计算从左到右每个分区的包络均值Ai，Ai-1，…，A1，B1，B2，…，Bi，通过将计算得到的包络均值从左到右进行作为一位矩阵得到等比包络均值阵列[Ai，Ai-1，…，A1，B1，B2，…，Bi]。

5.如权利要求4所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤2.2.1具体为：

进一步的，所述步骤3具体为：

在进行分类识别时，首先输入的正常音辅音与咽擦音辅音样本，并对样本分别提取FTSL谱线特征和包络线等比均值阵列作为特征值，对包络线等比均值阵列特征使用KNN识别器提取预测标签1，对FTSL谱线特征使用SVM识别器提取预测标签2，将预测标签1和预测标签2进行对比，若预测标签1和预测标签2一致则输出预测标签，若不一致，则进一步将预测分数进行对比；

在使用预测分数进行对比时，K_score和S_score分别为KNN识别和SVM识别对应的预测分数，若K_score>S_score则将KNN预测标签1作为预测标签输出，若K_score<S_score则将SVM预测标签2作为预测标签输出。

所述S_score表示利用SVM进行样本分类时每个样本的隶属度分数，K_score代表KNN分类中11折交叉验证将样本判为正确分类的分数。

所述τ₁＝1,τ₂＝3,τ₃＝m，m为四阶累积量计算的最大延迟，计算信号的四阶累积量时将遍历每一个绝对值小于m的整数延迟量。

所述步骤2.1.3是利用快速傅里叶变换FFT变换将每帧语音信号的四阶累积量进行变换并转换到频域。

所述步骤2.1.3中将得到的频谱值按一定规则划分为各个频带，是基于1/3倍频程谱规则进行划分，所述1/3倍频程谱是以第一个频带中心频率为起点，每隔两个频带，中心频率的值变为原来的两倍，因此三分之一倍频程谱中每个带通滤波器的中心频率与上、下限频率之间的关系为：

f₂/f₁＝2^1/3,f₂/f_c＝2^1/6,f_c/f₁＝2^1/6。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明提供的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，可以基于获取的咽擦音语音信号进行全自动检测，利用语音信号处理的方法提取信号特征，相比于现有技术中，本发明的检测方法检测结果客观准确，实现较高程度的自动测量；

2、本发明提供的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，提出了基于通过计算每帧语音信号的多延迟四阶累积量组合序列，该序列信号反映了语音信号由于发声机理的改变而导致的高阶统计特性差异，又将该差异转换到频域做进一步处理，利用倍频程谱计算得到FTSL谱线。该谱线的提取基于人类听觉特性，在突出咽擦音辅音及正常擦音辅音高阶统计差异的同时降低了信号特征维度，提高了运算速度。

3、本发明提供的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，基于在多延迟四阶累积量的频域中提取FTSL谱线特征的同时，还提出了在时域中提取等比包络均值阵列作为时域信号特征，能更好地体现语音包络线之间的差别。

4、本发明提供的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，进一步提出了组合分类器，为针对分别提取的信号特征分别利用不同的分类识别器针对不同的信号特征进行组合式分类识别。将两种各有优点的不同的分类器进行结合作为组合式分类器，并按照相应的分类识别方法进行更加准确有效的信号分类识别。

附图说明

图1是本发明实施例提供的腭裂咽擦音自动检测方法框图。

图2是本发明实施例提供的提取FTSL谱线流程示意图。

图3是咽擦音/si/一帧语音的多延迟四阶累积量示意图。

图4是正常音/si/一帧语音的多延迟四阶累积量示意图。

图5是本发明实施例提供的FTSL谱线提取示意图。

图6是本发明实施例提供的几个辅音时域波形及轮廓线示意图。

图7是本发明实施例提供的组合分类器识别流程图。

具体实施方式

为了使本领域的人员更好地理解本发明的技术方案，下面结合本发明的附图，对本发明的技术方案进行清楚、完整的描述，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它类同实施例，都应当属于本申请保护的范围。

需要说明的是，在本实施例中采用的语音数据是按照普通话构音测量表进行录制得到，该表包括普通话音节里面的所有辅音，根据咽擦音的辅音发声的特点，选取含辅音/s/、/sh/、/c/、/x/的词语，例如，“鲨鱼”的“鲨”、“西瓜”的“西”等字。语音数据前期由专业的语音师进行判听，由人工判定咽擦的有无。

进一步需要说明的是，本发明以及相应实施例提出的信号特征处理方法、特征提取方法、信号识别与分类方法都仅仅是对信号的处理和识别方法本身进行研究和改进，虽然针对的为咽擦音信号，实现的自动分类识别结果可以作为评估参考，但在临床或医疗领域其评估结果也仅仅是一个辅助性的评估，对于具体的治疗方法仍需要并主要依赖于医生的临床经验和医生提供的治疗方法。

如图1所示，本实施例提供的基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法如下：

(1)信号预处理，对输入辅音信号进行分帧、预加重及幅值归一化：

(2)提取语音信号特征，在本实施例中所述信号特征包括在多延迟四阶累积量的频域中对每帧语音提取FTSL谱线特征，以及在在时域中做等比均值包络阵列提取，并在后续的方法中将时域信号和频域信号共同用于特征信号识别。

(2.1)如图2框图所示，需要计算每帧语音信号的FTSL谱线，并提取语音信号的FTSL特征矩阵。所述FTSL(Four-Order-Cumulants-Third-Octave-Spectra-Line)谱线为计算每一帧辅音信号的多延迟四阶累积量，并计算该多延迟四阶累积量的傅里叶空间谱，利用1/3倍频程提取四阶累积量的频谱谱线FTSL，FTSL谱线基于人类听觉特性，低频部分分布较密集，高频部分较稀疏，能反映语音听觉能量的分布。

在进行四阶累积量的计算之前，我们首先需要了解四阶累计量的相关定义。对于分帧后的辅音信号具有短时平稳性，设每一帧信号为x(n)，且每一帧语音信号x(n)为k阶平稳随机过程，因为语音信号具有短时平稳性，则可将x(n)作零均值k阶平稳随机过程处理，则该过程的k阶累积量定义为随机变量{x(n),x(n+τ₁),...,x(n+τ_k-1)}的K阶联合累积量如下：

式(1)中C_k,x(τ₁,τ₂,...,τ_k-1)为计算得到的K阶累积量，τ₁，,τ₂,...,τ_k-1分别为各阶对应的延迟，cum(·)为K阶联合累积量。

该零均值k阶平稳随机过程的K阶矩如下：

式中m_k,x(τ₁,τ₂,...,τ_k-1)为K阶矩。mom(·)表示为K阶联合矩。

由于x(n)是K阶平稳的，随机过程的k阶累积量只有k-1个独立的变元，它们仅仅是滞后τ₁,τ₂,...,τ_k-1的函数，而与时间n无关。

根据以上定义，四阶累积量的计算是基于其低阶累积量的，在计算四阶累积量时，需要先计算出其低阶累积量及其低阶矩。一随机过程x(n)的一到四阶矩和累积量分别定义如下，其中

和

①、一阶矩和一阶累积量为：

m_1x＝C_1x＝E{x(n)} (3)

信号一阶累积量及其一阶矩均为该随机过程的期望值。

②、二阶矩和二阶累积量为：

m_2x(τ₁)＝E{x(n)x(n+τ₁)}＝r_x(τ₁) (4)

③、三阶矩和三阶累积量为：

m_3x(τ₁,τ₂)＝E{x(n)x(n+τ₁)x(n+τ₂)} (6)

(2.1.2)基于前三阶累积量及其对应的矩求取信号四阶累积量，则四阶矩和四阶累积量如下：

m_4x(τ₁,τ₂,τ₃)＝E{x(n)x(n+τ₁)x(n+τ₂)x(n+τ₃)} (8)

C_4x(τ₁,τ₂,τ₃)＝cum{x(n),x(n+τ₁),x(n+τ₂),x(n+τ₃)}

公式(9)为四阶累积量计算的最终表达式，根据分帧后的语音信号具有短时平稳性，即每一帧语音信号的均值可视为0，即该过程的随机均值m_1x＝0，将m_1x＝0代入式(9)，则式(9)可以改写为式(10)：

C_4x(τ₁,τ₂,τ₃)＝m_4x(τ₁,τ₂,τ₃)-m_2x(τ₁)m_2x(τ₃-τ₂)-m_2x(τ₂)m_2x(τ₃-τ₁)-m_2x(τ₃)m_2x(τ₂-τ₁) (10)

式(10)与式(11)相比降低了运算难度和增加了式子的可读性，利用上述公式，通过设置合适的延迟τ₁,τ₂,τ₃，计算每一帧信号的四阶累积量，本实施例中取τ₁＝1,τ₂＝3,τ₃＝m，m为四阶累积量计算的最大延迟，计算信号的四阶累积量时将遍历每一个绝对值小于m的整数延迟量。例如：m＝100时，将分别计算语音信号延迟量τ₃为100,99,...,0,-1,-2,...,-99,-100时对应的四阶累积量，共201个。

在计算四阶累积量时不同的延迟m可以计算出维数不同的累积量矩阵。本次实验中的延迟均为整数，累积量从滞后0计算到滞后最大延迟量m,得到m+1个结果。因此m越大，输入每帧信号得到的累积量输出维度也会更大。在计算语音的累计量时不同的延迟对应着不同的累积量输出，因此通过设置最大延迟量m，计算m内的所有延迟量对应的累积量，这些累积量能够反映时频域内人眼难以观察到的特征。当m较小时，计算得到的累积量长度也较短，利用较少的数据进行频谱分析再提取谱线，可能使重要信息遗漏，当m较大时，语音延迟过大，超过数据本身长度时，计算得到的累积量无法凸显语音特性。因此，m的选择必须在一个合适的值，才能很好的体现语音之间的差别。在一个实施例中m＝100时效果最好。

研究上述计算过程，四阶累积量的计算与其前三阶矩及累积量密切关联，综合了各阶统计特性，可以很好地反映出咽擦音及正常擦音的区别。如图3和图4所示，分别为咽擦音/si/和正常语音/si/的一帧语音通过上述计算公式计算得到的对应的多延迟四阶累积量示意图。

(2.1.3)将每帧语音信号的四阶累积量转换到频域进行分析，做快速傅里叶变换FFT变换，得到频率由低到高的频谱。将得到的频谱值按下表1划分为各个频带，计算每个频带内的频谱均值，将各个频带计算的能量谱均值作为该频带的FTSL值，将每帧信号各个频带的FTSL值按中心频率由低频到高频的顺序进行排列，就得到了每帧语音信号的FTSL谱线。该谱线的提取基于人类听觉特性，在突出咽擦音辅音及正常擦音辅音高阶统计差异的同时降低了信号特征维度，提高了运算速度。如图5所示分别为咽擦音/si/和正常语音/si/的一帧语音通过上述计算公式计算得到的对应的FTSL谱线序列示意图。

人耳听音的频率范围为20Hz到20kHz，对整个频域范围内的所有频率成分进行分析运算量大且数据冗余。因此将整个听觉频率范围划分为多个频带，每一个频带成为一个频程。频程的划分通常采用的划分规律是恒定带宽比，即保持频带的上限和下限的频率比率为常数。设定每一频带的上限频率都是下限频率两倍，即频率之比为2，据此划分得到的每一个频带称1倍频程，简称倍频程。在一个倍频程的上限和下限频率之间再插入两个频率点，得到包括上、下限频率在内的四个频率点，并使这4个频率之间的比值相同(即，

)，这样就将一个倍频程划分成了3个频程，据此划分得到的频程称1/3倍频程。1/3倍频程谱是由一系列的频率点以及这些频率点附近频带内信号的平均幅值来组成，构成三分之一倍频程谱的这些频率点称为中心频率f_c，每一频带具有上限频率f₂和下限频率f₁,带宽为(f₂-f₁)。中心频率f_c附近的频带处于f₂和f₁之间，中心频率：

一般“n”倍频程带滤波器中，n的定义由以下公式确定：

当n＝1时，f₂/f₁＝2，这样的频率比值所确定的频程称为1/1倍频程，通常简称为倍频程，类此，当n＝1/3时，f₂/f₁＝2^1/3，这样的频率比值所确定的频程称为1/3倍频程，在此频带(f₂-f₁)的频谱，称为1/3倍频程谱。

表1列出了20kHz以内，三分之一倍频程滤波带的中心频率以及带宽。从表1中可以得到，以第一个频带中心频率为起点，每隔两个频带，中心频率的值变为原来的两倍，因此，三分之一倍频程谱中每个带通滤波器的中心频率与上、下限频率之间的关系为：

f₂/f₁＝2^1/3,f₂/f_c＝2^1/6,f_c/f₁＝2^1/6

进一步的，如图2所示，把输入的语音信号进行分帧，得到各分帧a1，a2，…，an，将同一段语音的各语音帧的FTSL谱线矩阵Fa1，Fa2，…，Fan按帧顺序拼接为一个一维的矩阵，就得到了该段语音信号的FTSL特征矩阵[Fa1，Fa2，…，Fan]。

表1：中心频率和带宽

(2.2)在多延迟四阶累积量频域中提取FTSL谱线特征的同时，在时域中提取等比包络均值阵列作为时域信号特征：

基于咽擦音与正常音的发音机制，正常人在发音时主要是通过口鼻共鸣，咽擦音发音时舌尾后缩导致咽口导致腭咽口变窄，使得来自肺部的气流的通道变窄，根据气流动力学，在分析咽擦音时有两种情形：

第一种情形：发音者虽然患有咽擦，但是并无其他并发症，在发音时能保证足够的压力将气流从变窄的咽口输出；第二种情形：发音者患有咽擦且在发音时由于口腔压力不足，使得来自肺部的气流在还没全部通过变窄的腭咽口时就已经弱化了。

这两种情况的存在都导致了语音包络线的变化，辅音是通过气流在口腔或咽头受到阻碍而形成的音，因此主要影响辅音部分。信号的包络线不仅可以直观的表示信号的轮廓，进一步的是因为咽擦音发声机制的改变导致了咽擦音辅音与正常音辅音轮廓线的差异，为了更好地体现语音包络线之间的差别，提取了能够体现语音信号的波动的包络线，本实施例提出了计算包络线等比均值阵列的方法，首先列举几个辅音的时域波形及其轮廓线如图6所示，而本实施例提出的方法也包括提取辅音时域波形上轮廓线所在的包络线。

将语音信号进行一阶微分处理，即将语音数据点从后往前依次两两相减得到的值，将这些值存储为一个矩阵M，长度为m。假设d1＝M(1:m-1)，即M矩阵中的前(m-1)个值；假设d2＝(2:m),即M矩阵中的后(m-1)个值。则对于存储在矩阵M中同一位置的两个数，d1中差分值为d2中的差分值的前一个，当d1(i)*d2(i)<0，且d1(i)>0时，则认为该点为上包络的一个包络连接点。依次找出所有的连接点，在原始语音信号上将这些连接点连接起来，就得到了语音信号的上包络。

(2.2.2)将包络线分区，并对分区均值求取：

其中n为等比尺度，i表示第i个等比分区，

为左端等比分区系数之和，不超过1/2，即分区长度之和不超过信号本身长度的一半，且右端等比分区参照左端等比分区系数；例如等比尺度n＝2，则左端第一个长度最大为L/4，第二个分区长度为L/8，依此类推距离中界越近，区域长度越短。

(2.2.3)完成左右两端等比分区后，计算从左到右每个分区的包络均值Ai，Ai-1，…，A1，B1，B2，…，Bi，所述计算包络均值是指计算所在分区包含的包络段上所有点之和的均值。通过将计算得到的包络均值从左到右进行作为一位矩阵得到等比包络均值阵列[Ai，Ai-1，…，A1，B1，B2，…，Bi]。

该等比均值阵列，自中界向两端分区越来越宽，得到包络线越来越稀疏。通过观察语音信号在时域的包络可以发现，包络整体呈现为波峰波谷的传递，中间段波峰与波谷幅度落差较大，越往两端，则该落差越小，且咽擦音由于其发音时气流的阻碍，波峰波谷之间的落差值整体分布较均匀，正常音中部及两端的差别则更加明显。正是为了体现该特征，采用不均匀分区，越近中部分区越窄，从而突出中部波峰，更好的体现咽擦音辅音与正常音辅音的包络的区别。

(3)在提取语音信号的时域和FTSL信号特征后，利用组合分类器识别算法对语音信号进行分类。

如图7所示，为利用组合分类器进行识别的流程图，所述组合分类器为针对分别提取的信号特征分别利用不同的分类识别器针对不同的信号特征进行组合式分类识别。

KNN通过测量不同特征变量之间的距离进行分类。若一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别；SVM(Support Vector Machine)是典型的适用于两类识别的分类器，基于其分类特性，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。将两种各有优点的不同的分类器进行结合作为组合式分类器，并按照本实施例提出的分类识别方法进行更加准确有效的信号分类识别。

在进行分类识别时，首先对输入的正常音辅音与咽擦音辅音样本，分别采用前述步骤中的信号特征提取方法对样本分别提取FTSL谱线特征和包络线等比均值阵列作为特征值，然后对包络线等比均值阵列特征使用KNN识别器提取预测标签1，对FTSL谱线特征使用SVM识别器提取预测标签2，将预测标签1和预测标签2进行对比，若预测标签1和预测标签2一致则输出预测标签，若不一致，则进一步将预测分数进行对比。在使用预测分数进行对比时，K_score和S_score分别为KNN识别和SVM识别对应的预测分数，其中，S_score表示的是利用SVM进行样本分类时每个样本的隶属度分数，K_score代表KNN分类中11折交叉验证将样本判为正确分类的分数，例如11折中8个判为正确分类，3个判为错误分类，即分数为72.7％。若K_score>S_score则将KNN预测标签1作为预测标签输出，若K_score<S_score则将SVM预测标签2作为预测标签输出。

本实施例通过提取咽擦音辅音和正常音辅音分别提取FTSL谱线特征和包络线等比均值阵列作为特征值作为特征值，利用KNN分类器和SVM分类器作为组合分类进行咽擦音辅音与正常辅音的自动识别分类，其分类识别结果如下表2所示，当m＝100时，选择第20～43条谱线，腭裂语音咽擦音自动分类检测的准确率最高为92.7％，尤其是从第20条谱线开始选取时，每一谱线对应较宽的频带，避免了同一谱线代表多个频带的现象，且包括了大部分低频谱线及所有高频谱线，更能够突出辅音信号多延迟四阶累积量能量分布差异的特点，使得咽擦音辅音与正常擦音辅音的自动识别检测分类效果更好，充分说明了本实施例提出的基于FTSL谱线对咽擦音与正常擦音的自动分类检测具有很好的鲁棒性，且具有一定的应用价值。

表2谱线数目对应的识别正确率

FTSL谱线数目	识别正确率(％)
		24(后24条)	92.7
25(前25条)	80.7
		43(整合频谱谱线)	90.4

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，包括以下步骤：

(2)提取语音信号特征，包括对每帧语音的多延迟四阶累积量的频域中提取FTSL谱线特征，以及在在时域中做等比均值包络阵列提取，包括：

(3)在提取语音信号的时域和FTSL谱线特征后，利用组合分类器识别算法结合时域等比包络均值阵列和FTSL谱线特征对语音信号进行自动分类，并输出分类结果。

2.如权利要求1所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤1包括：

(1.1)语音信号分帧，实现将长语音信号转换为短时平稳信号，用线性方法进行处理；

(1.2)预加重：强调语音信号中的高频成分，由于研究对象是语音中的辅音，其属于频率较高部分，因此需要做预加重；

(1.3)幅值归一：为了规避采集系统及患者声音大小因素的影响，对输入的每一个语音求取绝对值最大的幅值Xmax，然后将语音信号中的每一个值分别除以该最大值，进行归一化。

3.如权利要求1所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤2.1包括：

式(1)中C_k,x(τ₁,τ₂,...,τ_k-1)为计算得到的K阶累积量，τ₁，τ₂，...，τ_k-1分别为各阶对应的延迟，cum(·)为K阶联合累积量；

零均值k阶平稳随机过程的K阶矩如下：

式中m_k,x(τ₁,τ₂,...,τ_k-1)为K阶矩，mom(·)表示为K阶联合矩；

四阶累积量的计算是基于其低阶累积量的，在计算四阶累积量时，需要先计算出其低阶累积量及其低阶矩，一随机过程x(n)的一到四阶矩和累积量分别定义如下，其中m_1x，m_2x，m_3x，m_4x和c_1x，c_2x，c_3x，c_4x分别代表该随机过程的一到四阶矩及一到四阶累积量，τ为信号的延迟：

①、一阶矩和一阶累积量为：

m_1x＝c_1x＝E{x(n)} (3)

信号一阶累积量及其一阶矩均为该随机过程的期望值，

②、二阶矩和二阶累积量为：

m_2x(τ₁)＝E{x(n)x(n+τ₁)}＝r_x(τ₁) (4)

③、三阶矩和三阶累积量为：

m_3x(τ₁，τ₂)＝E{x(n)x(n+τ₁)x(n+τ₂)} (6)

m_4x(τ₁，τ₂，τ₃)＝E{x(n)x(n+τ₁)x(n+τ₂)x(n+τ₃)} (8)

C_4x(τ₁，τ₂，τ₃)＝m_4x(τ₁，τ₂，τ₃)-m_2x(τ₁)m_2x(τ₃-τ₂)-m_2x(τ₂)m_2x(τ₃-τ₁)-m_2x(τ₃)m_2x(τ₂-τ₁)(10)；

(2.1.3)将每帧语音信号的多延迟四阶累积量转换到频域，得到频率由低到高的频谱，将得到的频谱值按一定规则划分为各个频带，计算每个频带内的频谱均值，将各个频带计算的能量谱均值作为该频带的FTSL值，将每帧信号各个频带的FTSL值按中心频率由低频到高频的顺序进行排列，就得到了每帧语音信号的FTSL谱线；

4.如权利要求1所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤2.2包括：

(2.2.1)首先读取输入辅音的时域波形，并提取输入语音信号的上包络线：

将语音信号进行一阶微分处理，即将语音数据点从后往前依次两两相减得到的值，将这些值存储为一个矩阵M，长度为m，假设d1＝M(1：m-1)，即M矩阵中的前(m-1)个值；假设d2＝(2：m)，即M矩阵中的后(m-1)个值，则对于存储在矩阵M中同一位置的两个数，d1中差分值为d2中的差分值的前一个，当d1(i)*d2(i)<0，且d1(i)>0时，则认为该点为上包络的一个包络连接点，依次找出所有的连接点，在原始语音信号上将这些连接点连接起来，就得到了语音信号的上包络；

(2.2.2)将包络线分区，并对分区均值求取：

其中n为等比尺度，i表示第i个等比分区，

5.如权利要求4所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤3具体为：

6.如权利要求5所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述S_score表示利用SVM进行样本分类时每个样本的隶属度分数，K_score代表KNN分类中11折交叉验证将样本判为正确分类的分数。

7.如权利要求3所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述τ₁＝1,τ₂＝3,τ₃＝m，m为四阶累积量计算的最大延迟，计算信号的四阶累积量时将遍历每一个绝对值小于m的整数延迟量。

8.如权利要求3所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤2.1.3是利用快速傅里叶变换FFT变换将每帧语音信号的多延迟四阶累积量进行变换并转换到频域。

9.如权利要求3所述的一种基于多延迟四阶累积量倍频程FTSL谱线的腭裂语音咽擦音自动检测方法，其特征在于，所述步骤2.1.3中将得到的频谱值按一定规则划分为各个频带，是基于1/3倍频程谱规则进行划分，所述1/3倍频程谱是以第一个频带中心频率为起点，每隔两个频带，中心频率的值变为原来的两倍，因此三分之一倍频程谱中每个带通滤波器的中心频率与上、下限频率之间的关系为：

f₂/f₁＝2^1/3,f₂/f_c＝2^1/6,f_c/f₁＝2^1/6。