CN105679332B

CN105679332B - 一种腭裂语音声韵母自动切分方法及系统

Info

Publication number: CN105679332B
Application number: CN201610131764.3A
Authority: CN
Inventors: 何凌; 柳银; 尹恒; 郭春丽
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2016-03-09
Filing date: 2016-03-09
Publication date: 2019-06-11
Anticipated expiration: 2036-03-09
Also published as: CN105679332A

Abstract

本发明公开了一种腭裂语音声韵母自动切分方法及系统，涉及语音信号处理技术领域，尤其是一种腭裂语音声韵母自动切分技术。本发明所要解决的技术问题是针对现有技术中尚无针对腭裂语音的声韵母切分方法这一缺陷，提供一种针对腭裂语音的声韵母自动切分算法。本发明技术要点包括：对包含声母的音节进行以下处理步骤：准浊音声母及准清音声母判别步骤，用于判别所述音节为包含准浊音声母的音节还是包含准清音声母的音节；对包含准浊音声母的音节进行声韵母切分步骤；以及对包含准清音声母的音节进行声韵母切分步骤。

Description

一种腭裂语音声韵母自动切分方法及系统

技术领域

本发明涉及语音信号处理技术领域，尤其是一种腭裂语音声韵母自动切分技术。

背景技术

唇腭裂是最常见的先天性颅颌面畸形。其中，语音语言功能障碍是腭裂最大的影响。语音评估是腭裂序列治疗中的重要环节。对腭裂语音计算机自动评估算法的实现具有重要临床意义。

构音障碍为腭裂语音特有的表现形式构音障碍是由于患者发音方法不正确而产生，其表现形式包括辅音省略(音节中辅音被省去，只剩下元音的现象)、辅音替代(某一音节的辅音部分被另外一个辅音所替换，从而变成不同的音节)和代偿性发音(即在口腔后部位置-咽部、喉部声门等位置进行的构音行为)。腭裂构音障碍发生于普通话音节中的声母部分。对腭裂语音的声韵母切分，是腭裂语音构音障碍研究的重要环节。

当前的研究中，有实现对普通话声韵母的自动切分，但是这些研究是针对正常人群的普通话声韵母切分算法。目前，针对病理性语音的声韵母切分算法研究较少。腭裂语音具有独特的表现形式，其共鸣障碍与构音障碍的存在改变了其部分声学特性。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种针对腭裂语音的声韵母自动切分算法。

本发明采用的技术方案如下：一种腭裂语音声韵母自动切分算法，对包含声母的音节进行以下处理步骤：

准清音声母及准浊音声母判别步骤，用于判别所述音节为包含准清音声母的音节还是包含准浊音声母的音节；

对包含准清音声母的音节进行声韵母切分步骤；

以及对包含准浊音声母的音节进行声韵母切分步骤。

进一步，所述准清音声母及准浊音声母判别步骤进一步包括：

对音节语音信号进行分帧，帧长为20ms，帧移为三分之一帧长；

计算前5帧语音信号的短时过零率；

若所述5帧语音信号中有任一帧的短时过零率超过50，则将该音节判别为包含准清音声母的音节；否则判断为包含准浊音声母的音节。

对包含准清音声母的音节进行声韵母切分步骤进一步包括：

步骤Z1：对于所述音节语音信号进行小波变换与短时能量幅值计算得到声韵母切分粗定位点；

步骤Z2：在所述音节语音信号中截取包含声韵母切分粗定位点的一段语音信号，对截取的语音信号进行短时过零率计算，得到声韵母切分精确定位点。

对包含准浊音声母的音节进行声韵母切分步骤进一步包括：

步骤Q1：对所述音节语音信号进行带通滤波；

步骤Q2：对滤波后的音节语音信号进行短时自相关函数计算，得到声韵母切分粗定位点；

步骤Q3：在所述滤波后的音节语音信号中截取包含声韵母切分粗定位点的一段语音信号，进行语音信号时域波形的差异分析，得到声韵母切分精确定位点。

所述步骤Z1进步一包括：

步骤Z11：对所述音节语音信号进行一维小波分解得到低频系数向量与高频系数向量，分解深度为一层；然后将低频系数向量与高频系数向量按位对应相乘并进行归一化，得到小波变换系数向量C；

步骤Z12：将小波变换系数向量C进行分帧，帧间无重叠也无间隔；对于每帧信号x_i(k),k＝1,2,…,N，计算其短时幅值绝对值和M_i，其计算公式为：i表示为第i帧信号，N为每帧信号的长度；

取短时幅值绝对值和大于阈值T的第一帧信号的起点作为该音节的声韵母切分粗定位点。

所述步骤Z2进一步包括：

步骤Z21：设置一窗口W1，使用该窗口W1在所述音节语音信号中截取语音信号S1，其窗口中心为所述声韵母切分粗定位点，窗口宽度为wth1，如果声韵母切分粗定位点距离音节语音信号的起始点的长度小于wth1×1/2，则取音节语音信号的起始点为窗口W1的起始点；

步骤Z22：将语音信号S1进行分帧，帧间有重叠；对每帧信号计算短时过零率，得到语音信号S1的短时过零率向量Z；

步骤Z23：对向量Z进行中值滤波，滤波长度为向量Z长度的一半；中值滤波后得到向量L1；

步骤Z24：对向量L1计算一阶微分，得到微分向量D1，微分向量D1中的最小值即对应声韵母切分精确定位帧，该帧的起始点即为声韵母切分精确定位点。

所述步骤Q2进一步包括：

步骤Q21：对带通滤波后的音节语音信号分帧，帧间有重叠；求出每一帧信号的短时自相关函数；

步骤Q22：对于每一帧的短时自相关函数计算出波峰个数，所有帧的波峰个数组成短时自相关函数波形峰数向量R2；

步骤Q23：对向量R2进行中值滤波，滤波长度为向量R2长度的一半；中值滤波后得到向量L2；

步骤Q24：对向量L2计算一阶微分，得到微分向量D2，微分向量D2中的最大值即对应声韵母切分粗定位帧，该帧的起点为声韵母切分粗定位点；

步骤Q3进一步包括：

步骤Q31：设置一窗口W2，使用窗口W2在所述滤波后的音节语音信号中截取语音信号S2，其窗口中心为所述声韵母切分粗定位点，窗口宽度为wth2；如果声韵母切分粗定位点距离所述滤波后的音节语音信号的起始点的长度小于wth2×1/2，则取音节语音信号的起始点为窗口W2的起始点；

步骤Q32：将语音信号S2进行分帧，帧间无重叠也无间隔；对每帧信号求取波峰个数，得到语音信号S2的峰数向量R3，对向量R3计算一阶微分得到微分向量D3，微分向量D3中的最大值对应的帧即为声韵母切分精确定位帧，该帧的起始点即为声韵母切分精确定位点。

本发明还提供了一种腭裂语音声韵母自动切分系统，包括：

准清音声母及准浊音声母判别模块，用于判别所述音节为包含准清音声母的音节还是包含准浊音声母的音节；

准清音声母切分模块，用于对包含准清音声母的音节进行声韵母切分；

以及准浊音声母切分模块，用于对包含准浊音声母的音节进行声韵母切分。

所述准清音声母及准浊音声母判别模块进一步包括：

分帧单元，用于对音节语音信号进行分帧，帧长为20ms，帧移为三分之一帧长；

短时过零率计算单元，用于计算前5帧语音信号的短时过零率；

短时过零率判断单元，用于若所述5帧语音信号中有任一帧的短时过零率超过50，则将该音节判别为包含准清音声母的音节；否则判断为包含准浊音声母的音节。

准清音声母切分模块进一步包括：

声韵母切分粗定位点计算单元，用于对于所述音节语音信号进行小波变换与短时能量幅值计算得到声韵母切分粗定位点；

声韵母切分精确定位点计算单元，用于在所述音节语音信号中截取包含声韵母切分粗定位点的一段语音信号，对截取的语音信号进行短时过零率计算，得到声韵母切分精确定位点。

准浊音声母切分模块进一步包括：

带通滤波单元，用于对所述音节语音信号进行带通滤波；

声韵母切分粗定位点计算单元，用于对滤波后的音节语音信号进行短时自相关函数计算，得到声韵母切分粗定位点；

声韵母切分精确定位点计算单元，用于在所述滤波后的音节语音信号中截取包含声韵母切分粗定位点的一段语音信号，进行语音信号时域波形的差异分析，得到声韵母切分精确定位点。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明针对腭裂语音的病变特点提出了准清音声母及准浊音声母的识别方法，填补了现有技术空白。

2.本发明在切分声韵母时先进行粗定位，然后再截取粗定位点附近一端语音信号进行进一步处理、分析得到精确定位点。使声韵母切分点更加精准。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为腭裂语音声韵母切分算法流程图。

图2为原始的包含准清音声母的音节语音时域波形。

图3(a)为小波变换低频系数向量。

图3(b)为小波变换高频系数向量。

图3(c)为小波变换系数向量C。

图4(a)为短时幅值绝对值和向量M。

图4(b)为准清音声母音节声韵母切分粗定位点。

图5(a)为语音信号S1波形图。

图5(b)为短时过零向量Z。

图5(c)为中值滤波后的向量L1。

图5(d)为微分向量D1。

图5(e)为准清音声母音节声韵母切分点精确定位结果。

图6(a)为原始的包含准浊音声母的音节语音时域波形。

图6(b)为带通滤波后的包含准浊音声母的音节语音时域波形。

图7(a)为短时自相关波形峰数向量R2。

图7(b)为中值滤波后的向量L2。

图7(c)为微分向量D2。

图7(d)为准浊音声母音节声韵母切分粗定位点。

图8(a)为语音信号S2。

图8(b)为峰数向量R3。

图8(c)为微分向量D3。

图8(d)为准浊音声母音节声韵母切分点精确定位结果。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

普通话中，一个汉字的发音为一个音节。通常，一个音节由声母和韵母两部分组成，普通话中也存在零声母现象，即音节中只有韵母部分。本腭裂语音数据库包含的语音样本中，没有零声母和辅音省略的音节。

普通话中共包含21个声母，其中m,n,l,r四个声母为浊音，剩下的的17个声母为清音。根据发音位置和发音方式的不同，声母又可以分为：塞音(b,p,d,t,g,k)、塞擦音(z,c,zh,ch,j,q)、擦音(f,s,sh,r,x,h)、鼻音(m,n)和边音(l)。普通中包含三十九个韵母，韵母由元音和复合元音组成。

通常韵母的发音时长比声母长。声母可以分为浊音和清音声母，其中，浊音声母的时长区间大致为0～124ms。在清音声母中，时长最短的是不送气塞音，其时长区间大致为0～32.8ms；时长最长的是送气塞擦音，其时长区间为0～220.3ms。在本文算法中，将考虑到韵母和声母时长范围。

图1所示为腭裂语音声韵母切分算法总流程图。首先对语音信号进行准清音与准浊音声母判别，针对准清音与准浊音声母音节，提出不同的声韵母切分算法。

1.1准清音与准浊音声母的判别

正常语音中，除m,n,l,r为浊音声母外，其他的16个声母为清音声母。但是在腭裂语音中，由于腭裂患者存在不同程度的上腭部骨组织和软组织的缺损和畸形，其独特的发音过程导致腭裂语音声学特性发生改变。部分腭裂语音音节中的清音声母会存在浊音声母的特性。基于正常语音的声韵母切分算法不适用于腭裂语音的声韵母切分。

本发明首先实现准清音与准浊音声母的判别。通常认为，发浊音时具有较低的过零率；发清音时有较高的过零率。我们将语音信号进行分帧，帧长为20ms，帧移为三分之一帧长。计算前五帧语音信号的短时过零率。前五帧语音信号的总时长为46.7ms，考虑到声韵母时长，该时长范围内基本为声母部分。如果在这五帧语音信号中，有任一语音帧的短时过零率超过50，则将该语音信号判别为准清音声母；否则判断为准浊音声母。

1.2准清音声母的声韵母切分算法

准清音声母的声韵母切分算法流程为：(1)对于原始的音节语音信号，如图2所示，进行基于小波变换与短时能量幅值的声韵母切分点粗定位；(2)针对第一步得到的声韵母切分粗定位点，基于短时过零率，实现声韵母切分点的精确定位。

1.2.1基于小波变换与短时能量幅值的声韵母切分点粗定位

在一个具体实施例中，该步骤进一步包括：对音节语音信号，如图2所示，进行一维小波分解，分解深度为一层，母小波为Daubechies2小波。小波分解后，得到低频与高频系数向量。将低频系数向量与高频系数向量按位对应相乘并进行归一化，得到小波变换系数向量C。图3所示为语音信号(音节“jia”)进行一层离散小波变换后，小波低频系数向量(图3(a))、小波高频系数向量(图3(b))和小波变换系数向量C(图3(c))。

将向量C进行分帧，本实施例中选择帧长为4.5ms，帧间无重叠也无间隔，即一帧最后一个元素后便是下一帧的第一个元素。对于每帧信号x_i(k)，k＝1，2，…，N，计算其短时幅值绝对值和，N为每帧信号的长度。其计算公式为：

i表示为第i帧信号，N为每帧信号的长度。

取短时幅值绝对值和大于阈值T的第一帧信号的起点作为准清音声母的声韵母切分粗定位点。本实施例中T取值为1.1。图4(a)所示为向量C的短时幅值绝对值和向量M。图4(b)中的竖线为声韵母切分粗定位点。

1.2.2基于短时过零率的声韵母切分点精确定位

设置一窗口W1，在音节语音信号中截取一段信号S1进行声韵母切分点的精确定位，如图5(a)，其窗口中心为上一步骤得到的声韵母切分粗定位点，本实施例中窗口宽度为40ms，本领域技术人员不难料想窗口宽度还可以取50ms、60ms等。如果声韵母切分粗定位点距离音节语音信号的起始点的长度小于二分之一窗口宽度，则取语音信号的起始点为窗口W1的起始点。

将信号S1进行分帧，本实施例中帧长为5ms，帧移为2.5ms。对每帧信号计算短时过零率，得到信号S1的短时过零率向量Z，如图5(b)，向量Z中的元素为每一帧的短时过零率。对向量Z进行中值滤波，滤波长度为向量Z长度的一半。中值滤波后的向量为L1，如图5(c)。对向量L1计算一阶微分得到微分向量D1，如图5(d)，微分向量D1的最小值即对应声韵母切分精确定位帧，该帧的起始点即为声韵母切分精确定位点，如图5(e)。

1.3准浊音声母的声韵母切分算法

对于准浊音声母，其发音特性与韵母相似。发音过程中，声带振动而发音。如图6(a)，在语谱图中，可以看到准浊音声母较为明显的共振峰和基音周期。

对于准浊音声母音节的声韵母切分，可由声韵母波形的差异性结合声韵母时长进行确定。自相关函数能较好的反映语音信号的时域波形特性。

准浊音声母的声韵母切分算法流程为：(1)对语音信号进行带通滤波；(2)滤波后的信号，进行基于短时自相关函数的声韵母切分点粗定位；(3)针对第二步得到的声韵母切分粗定位点，基于语音信号时域波形的差异，实现声韵母切分点的精确定位。

1.3.1带通滤波

将判别为准浊音声母的音节语音信号通过一个带通滤波器，本实施例中，该带通滤波器的截止频率为50Hz～800Hz。

人类的基音频率范围约为60～450Hz，该范围随说话人的性别、年龄而定。儿童的基音频率偏高，约在400Hz～500Hz。本实施例选定50Hz～800Hz的带通滤波器，滤波后的带通信号将包含基音频率信息。图6(b)为带通滤波器后的包含准浊音声母的音节语音信号时域波形图(音节“na”)。

1.3.2基于短时自相关的声韵母切分点粗定位

对带通滤波后的语音信号，分帧并求出每一帧信号的短时自相关函数，帧长为20ms,帧移为三分之一帧长。对于每一帧信号的短时自相关函数，求出它的波形峰数，组成短时自相关函数波形峰数向量R2，如图7(a)所示。对向量R2进行中值滤波，滤波长度为向量R2长度的一半；中值滤波后得到向量L2，如图7(b)。对向量L2计算一阶微分，得到微分向量D2，如图7(c)。对微分向量D2求取最大值，该最大值即对应声韵母切分粗定位帧，该帧的起点为声韵母切分粗定位点，如图7(d)。

1.3.3基于声韵母波形差异的声韵母切分点精确定位

设置一窗口W2，用窗口W2在带通滤波后的音节语音信号中截取语音信号S2进行声韵母切分点的精确定位，其窗口中心为上一步骤得到的声韵母切分粗定位点，本实施中窗口宽度为18ms。如果声韵母切分粗定位点距离音节语音信号的起始点的长度小于二分之一窗口宽度，则取音节语音信号的起始点为窗口W2的起始点。语音信号S2如图8(a)所示。

将信号S2进行分帧，本实施例中帧长为9ms，帧间无重叠也无间隔。对每帧信号求取波峰个数，得到信号S2的峰数向量R3，如图8(b)所示。对向量R3计算一阶微分得到微分向量D3，如图8(c)所示，其微分向量D3的最大值对应声韵母切分精确定位帧，该帧的起始点即为声韵母切分精确定位点，如图8(d)所示。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种腭裂语音声韵母自动切分算法，其特征在于，对包含声母的音节进行以下处理步骤：

对包含准清音声母的音节进行声韵母切分步骤；

以及对包含准浊音声母的音节进行声韵母切分步骤；

对包含准清音声母的音节进行声韵母切分步骤进一步包括：

步骤Z1：对于所述包含准清音声母的音节的语音信号进行小波变换与短时能量幅值计算得到声韵母切分粗定位点；

步骤Z2：在所述包含准清音声母的音节的语音信号中截取包含声韵母切分粗定位点的一段语音信号，对截取的语音信号进行短时过零率计算，得到声韵母切分精确定位点；

对包含准浊音声母的音节进行声韵母切分步骤进一步包括：

步骤Q1：对所述包含准浊音声母的音节的语音信号进行带通滤波；

步骤Q2：对滤波后的包含准浊音声母的音节的语音信号进行短时自相关函数计算，得到声韵母切分粗定位点；

步骤Q3：在所述滤波后的包含准浊音声母的音节的语音信号中截取包含声韵母切分粗定位点的一段语音信号，进行语音信号时域波形的差异分析，得到声韵母切分精确定位点。

2.根据权利要求1所述的一种腭裂语音声韵母自动切分算法，其特征在于，所述准清音声母及准浊音声母判别步骤进一步包括：

计算前5帧语音信号的短时过零率；

3.根据权利要求1所述的一种腭裂语音声韵母自动切分算法，其特征在于，

所述步骤Z1进步一包括：

步骤Z11：对所述包含准清音声母的音节的语音信号进行一维小波分解得到低频系数向量与高频系数向量，分解深度为一层；然后将低频系数向量与高频系数向量按位对应相乘并进行归一化，得到小波变换系数向量C；

取短时幅值绝对值和大于阈值T的第一帧信号的起点作为该包含准清音声母的音节的声韵母切分粗定位点；

所述步骤Z2进一步包括：

步骤Z21：设置一窗口W1，使用该窗口W1在所述包含准清音声母的音节的语音信号中截取语音信号S1，其窗口中心为所述声韵母切分粗定位点，窗口宽度为wth1，如果声韵母切分粗定位点距离音节的语音信号的起始点的长度小于wth1×1/2，则取音节的语音信号的起始点为窗口W1的起始点；

4.根据权利要求3所述的一种腭裂语音声韵母自动切分算法，其特征在于，

所述步骤Q2进一步包括：

步骤Q21：对带通滤波后的包含准浊音声母的音节的语音信号分帧，帧间有重叠；求出每一帧信号的短时自相关函数；

步骤Q3进一步包括：

步骤Q31：设置一窗口W2，使用窗口W2在所述滤波后的包含准浊音声母的音节的语音信号中截取语音信号S2，其窗口中心为所述声韵母切分粗定位点，窗口宽度为wth2；如果声韵母切分粗定位点距离所述滤波后的包含准浊音声母的音节的语音信号的起始点的长度小于wth2×1/2，则取音节的语音信号的起始点为窗口W2的起始点；

5.一种腭裂语音声韵母自动切分系统，其特征在于，对包含声母的音节进行处理包括以下模块：

以及准浊音声母切分模块，用于对包含准浊音声母的音节进行声韵母切分；

准清音声母切分模块进一步包括：

声韵母切分粗定位点计算单元，用于对于所述包含准清音声母的音节的语音信号进行小波变换与短时能量幅值计算得到声韵母切分粗定位点；

声韵母切分精确定位点计算单元，用于在所述包含准清音声母的音节的语音信号中截取包含声韵母切分粗定位点的一段语音信号，对截取的语音信号进行短时过零率计算，得到声韵母切分精确定位点；

准浊音声母切分模块进一步包括：

带通滤波单元，用于对所述包含准浊音声母的音节的语音信号进行带通滤波；

声韵母切分粗定位点计算单元，用于对滤波后的包含准浊音声母的音节的语音信号进行短时自相关函数计算，得到声韵母切分粗定位点；

声韵母切分精确定位点计算单元，用于在所述滤波后的包含准浊音声母的音节的语音信号中截取包含声韵母切分粗定位点的一段语音信号，进行语音信号时域波形的差异分析，得到声韵母切分精确定位点。

6.根据权利要求5所述的一种腭裂语音声韵母自动切分系统，其特征在于，所述准清音声母及准浊音声母判别模块进一步包括：