CN105976811B

CN105976811B - 一种包含声母的音节切分方法及装置

Info

Publication number: CN105976811B
Application number: CN201610270526.0A
Authority: CN
Inventors: 尹恒; 何凌; 柳银; 李精韬
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2019-07-12
Anticipated expiration: 2036-04-27
Also published as: CN105976811A

Abstract

本发明公开了一种包含声母的音节切分方法及装置，涉及语音信号处理技术领域。本发明技术要点包括：步骤1：获取一段语音信号；该语音信号包括至少一个音节，且该语音信号包含的音节都是带有声母的音节；步骤2：识别所述语音信号中的各个连续词组的起点及终点；步骤3：确定各个连续词组中的各个音节间的粗切分点；步骤4：根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。

Description

一种包含声母的音节切分方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其是一种音节自动切分技术。

背景技术

腭裂语音计算机自动评估算法的实现具有重要临床意义，将为语音师和腭裂患者提供有效的客观辅助诊断，有助于腭裂语音评估与语音治疗的广泛普及。

腭裂语音会出现特有的表现形式，包括共鸣障碍和构音障碍。其中，高鼻音是共鸣障碍的主要表现形式，主要发生于普通话韵母及浊音声母部分。构音障碍是由于患者发音方法不正确而产生，其表现形式包括辅音替代、代偿性发音等。腭裂构音障碍主要发生于普通话音节中的韵母部分。在对腭裂语音共鸣与构音障碍的研究中，需要首先实现对腭裂语音中各个音节信号的自动识别，该步骤为普通话腭裂语音信号处理的重要预处理过程。

普通话中，一个汉字的发音为一个音节。通常，一个音节由声母和韵母两部分组成，普通话中也存在零声母现象，即音节中只有韵母部分。在研究腭裂语音时，腭裂语音数据库包含的语音样本中，没有零声母和辅音省略的音节。也即是本发明的处理对象是包含声母与韵母的音节，由于音节中必然包含韵母，因此又简称为包含声母的音节。

发明内容

本发明的目的在于提供一种包含声母音节的识别、切分算法。

本发明首先提供了一种包含声母的音节切分方法，包括：

步骤1：获取一段语音信号；该语音信号包括至少一个音节，且该语音信号包含的音节都是带有声母的音节；

步骤2：识别所述语音信号中的各个连续词组的起点及终点；

步骤3：确定各个连续词组中的各个音节间的粗切分点；

步骤4：根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。

所述步骤2进一步包括：

步骤21：提取反映该语音信号幅值变化趋势的准包络曲线；

步骤22：对准包络曲线进行平滑及归一化处理；

步骤23：对步骤22的结果进行连续词组的端点检测，从而得到各连续词组的起点及终点。

所述步骤23进一步包括：

步骤231：在步骤22的结果中取信号幅值大于阈值D1的信号段；

步骤232：在每一段信号幅值大于阈值D1的信号段中，判断是否有信号的幅值大于阈值D2；如果该段语音信号中有信号的幅值大于阈值D2，则这段语音信号的时域波形与幅值为D1的直线的两个交点，为连续词组的起点与终点。

所述步骤3进一步包括：

步骤31：对步骤23得到的连续词组计算时长，如不超过单音节时间阈值，则认为该连续词组为一个音节；否则对步骤23得到的连续词组进行后续的处理步骤；

步骤32：去掉峰值小于第一阈值的波峰，查找连续词组的剩余波峰；

步骤33：确定两个相邻波峰之间的波谷，确定并将第一个波谷作为音节的粗切分点。

所述步骤4进一步包括：

步骤41：将步骤1得到的原始语音信号中幅值小于第二阈值的信号幅值设为0；

步骤42：在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

步骤43：计算步骤42得到的各个语音帧的短时过零率，将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点；

步骤44：在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

步骤45：计算步骤44得到的各个语音帧的短时过零率，将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点；将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点；

步骤46：在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

步骤47：计算步骤46得到的各个语音帧的短时过零率，将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。

本发明还提供了一种包含声母的音节切分装置，包括：

原始语音信号获取单元，用于读取一段语音信号；该语音信号包括至少一个音节，且该语音信号包含的音节都是带有声母的音节；

连续词组识别单元，用于识别所述语音信号中的各个连续词组的起点及终点；

音节粗切分单元，用于确定各个连续词组中的各个音节间的粗切分点；

音节精确切分单元，根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。

所述连续词组识别单元进一步包括：

准包络线提取子单元，用于提取反映该语音信号幅值变化趋势的准包络曲线；

预处理子单元，用于对准包络曲线进行平滑及归一化处理；

端点检测子单元，用于对预处理子单元输出的结果进行连续词组的端点检测，从而得到各连续词组的起点及终点。

所述端点检测子单元进一步用于：

在对预处理子单元输出的结果中取信号幅值大于阈值D1的信号段；

以及在每一段信号幅值大于阈值D1的信号段中，判断是否有信号的幅值大于阈值D2；如果该段语音信号中有信号的幅值大于阈值D2，则这段语音信号的时域波形与幅值为D1的直线的两个交点，为连续词组的起点与终点。

所述音节粗切分单元进一步包括：

单音节判别子单元，用于对端点检测子单元得到的连续词组计算时长，如不超过单音节时间阈值，则认为该连续词组为一个音节；否则对端点检测子单元得到的连续词组输出到后续的子单元；

波峰检测子单元，用于去掉峰值小于第一阈值的波峰，查找连续词组的剩余波峰；

波谷检测子单元，用于确定两个相邻波峰之间的波谷，确定并将第一个波谷作为音节的粗切分点。

所述音节精确切分子单元进一步包括：

幅值置零子单元，用于将原始语音信号获取单元得到的原始语音信号中小于第二阈值的幅值设为0；

连续词组起点加窗子单元，用于在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

连续词组首音节起点精确切分子单元，用于计算加窗子单元得到的各个语音帧的短时过零率，将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点；

粗切分点加窗子单元，用于在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

连续词组内音节精确切分子单元，用于计算音节粗切分点加窗子单元得到的各个语音帧的短时过零率，将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点；将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点；

连续词组终点加窗子单元，用于在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

连续词组末音节终点精确切分子单元，用于计算连续词组终点加窗子单元得到的各个语音帧的短时过零率，将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明提供了计算机自动识别含声母音节的方法，填补了现有技术空白，为腭裂语音的计算机自动评估奠定了基础。

2.本发明在切分音节时先进行粗切分，然后在粗切分点的基础上进一步寻找精确切分点，即提高了处理速度，又使得音节切分更加精准。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明流程图。

图2为一段原始语音信号的时域波形。

图3为经过中值滤波后的原始语音信号的准包络曲线。

图4为对平滑后的准包络曲线进行归一化后的波形。

图5为连续词组提取后的结果。

图6为音节粗切分结果。

图7为对原始语音信号进行幅值置零后的结果。

图8为一段语音信号中选取其中一个连续词组进行音节精确切分的结果。

图9为对一段语音信号进行音节精确切分的结果。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

普通话中，一个汉字的发音为一个音节。本发明处理的对象是由声母和韵母两部分组成的音节，不考虑零声母和辅音省略的音节。

普通话中共包含21个声母，其中m,n,l,r四个声母为浊音，剩下的的17个声母为清音。根据发音位置和发音方式的不同，声母又可以分为：塞音(b,p,d,t,g,k)、塞擦音(z,c,zh,ch,j,q)、擦音(f,s,sh,r,x,h)、鼻音(m,n)和边音(l)。普通中包含三十九个韵母，韵母由元音和复合元音组成。

本实施例中的腭裂语音数据由四川大学华西口腔医院唇腭裂外科“腭裂语音治疗中心”进行采集。该中心为国内最大的唇腭裂治疗中心。受试者在安静的录音室中，朗读“四川大学华西口腔医院语音矫治室普通话构音测量表”。该测量表充分考虑普通话构音结构和腭裂语音特性，包含了完整的腭裂语音单元，共包含84个词语和10个数字，覆盖了普通话中的全部声母和各语种中最为常用的元音。

如图1，该发明首先获取一段语音信号，然后对语音信号中的连续词组进行自动检测。通过该检测步骤，得到的一个普通话词组中可能包含多个普通话音节。算法的第三步实现对词组中单个音节信号的自动粗切分。算法的第四步实现对腭裂语音普通话音节的精确切分。

下面详细介绍本发明步骤：

1.获取一段语音信号；其采样频率为22050Hz，语音信号时长8～10秒。

步骤3：确定各个连续词组中的各个音节间的粗切分点；

每位受试者录制一段语音信号，采集到的语音信号如图2所示。

2.识别所述语音信号中的各个连续词组的起点及终点

2.1提取反映该语音信号幅值变化趋势的准包络曲线。准包络曲线可以是信号的包络线，也可以是信号正数部分的包络线，或者是信号取绝对值后的包络线。

本实施例通过计算信号的短时对数能量矩阵获得其准包络曲线。

对语音信号进行分帧处理，如语音帧长度为21.8ms，帧移为10.9ms，计算每帧语音信号的对数能量，得到该段语音信号的短时对数能量向量LE。在其他实施例中还可以使用短时线性能量特征计算信号的准包络曲线。

与短时线性能量特征相比，短时对数能量对小的线性能量值压缩小，而不致将幅度较小的辅音信号误认为静音切掉。同时，短时对数能量特征能较好地反映语音段、噪声段、无声段的区别。

以语音信号的第i帧x_i(n)为例，其短时对数能量值LE_i的计算表达式为：

LE_i＝lg(E_i+a)-lga；(1)

其中：N为第i帧信号的信号长度，a为一个固定的常数。经过试验证明，当a＝5×10⁵时，取得了较好的检测结果。

如此计算各帧的短时对数能量值，便得到一个该语音信号的短时对数能量向量LE。

2.2对准包络曲线进行平滑及归一化处理

首先对准包络曲线，即短时对数能量向量LE，进行中值滤波，得到平滑后的对数能量向量。本实施例的滤波长度为3，图3为平滑后的结果。

然后对平滑后的对数能量向量进行归一化，得到向量E，如图4所示，本实施例使平滑后的准包络曲线的幅值位于0～1之间。

2.3对连续词组进行端点检测，从而得到各连续词组的起点及终点。求取平滑和归一化后的准包络曲线E中，其幅值大于阈值D1的信号段(D1的取值为0.05)。在每一段信号幅值大于阈值D1的信号段中，判断是否有信号的幅值大于阈值D2(D2的取值为0.1)。如果该段语音信号中有信号的幅值大于阈值D2，则这段语音信号的时域波形与幅值为D1的直线的两个交点，为连续词组的起点与终点。

对词组的起始点检测结果如图5所示。图5上半部分为原始语音信号的时域波形，下半部分为准包络曲线，实线为连续词组的起点，虚线为连续词组的终点。

3.确定各个连续词组中的各个音节间的粗切分点

3.1由2.3节提出的腭裂语音连续词组自动检测结果中，其每个词组可能包含一个或多个普通话音节。有些词组包含一个汉字，如“塔”、“拿”等；有些词组包含两个或三个汉字，如“爸爸”、“爬楼梯”等。根据普通话音节的时长，对2.3节得到的连续词组计算时长，即计算连续词组起点与终点的时间间隔，如不超过单音节时间阈值，如270ms，则认为该连续词组为一个音节，则无需进行进一步处理，该词组的起点及终点即为该音节的起点与终点；否则对2.3节得到的连续词组进行后续的处理步骤。

3.2去掉峰值小于第一阈值的波峰，本实施例中第一阈值取0.12，查找连续词组的剩余波峰。

3.3确定两个相邻波峰之间的波谷，如果波谷的个数大于1，则取第一个波谷，作为该词组中音节的粗切分点。切分结果如图6所示，上半部分为原始语音信号，下半部分为准包络曲线，实线为音节粗切分点。

4根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分。

4.1将步骤1得到的原始语音信号中幅值小于第二阈值，如0.005，的信号幅值设为0。处理结果如图7。然后对连续词组的起点、终点及内部的音节粗切分点分别处理。

4.2对连续词组的起点进行精确定位

在连续词组的起点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧。本实施例中取帧的长度为130ms，帧移为帧长的一半，共取了10帧信号。以连续词组的起点为起始点分别向右、向左截取语音帧。

计算各个语音帧的短时过零率，将其中第一个短时过零率不为0的语音帧的起点作为一个音节的精确切分起点。

4.3对连续词组中的音节粗切分点进行校正

在连续词组的音节粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧。加窗过程参见4.2节。

计算各个语音帧的短时过零率，将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点；将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点。

依次方法对连续词组中的音节粗切分点一一处理。

4.4对连续词组的终点进行精确定位

在连续词组的终点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧。加窗过程参见4.2节。

计算各个语音帧的短时过零率，将其中最后一个短时过零率不为0的语音帧的起点作为音节的精确切分终点。

图8为一段语音信号中，选取其中一个连续词组，进行音节精确切分的结果。上半部分为一段语音信号的时域波形图。下半部分为该语音信号中，选取其中的一个连续词组，该词组的时域波形图，其中实线为词组的起始端点以及词组间音节的粗切分点，虚线为音节的精确切分点。

图9所示为对一段语音信号精确切分的结果，上半部分为原始语音信号的时域波形，下半部分为准包络曲线，其中实线为音节的起始点，虚线为音节的结束点。对某些词组，上一个音节的结束点可能会和下一个音节的起始点重合。

本发明还提供了一种与上述方法步骤一一对应的功能模块组成的软系统。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种包含声母的音节切分方法，其特征在于，包括：

步骤2：识别所述语音信号中的各个连续词组的起点及终点；

步骤3：确定各个连续词组中的各个音节间的粗切分点；

步骤4：根据连续词组的起点、终点及音节粗切分点对各个连续词组中的各个音节进行精确切分；

所述步骤2进一步包括：

步骤21：提取反映该语音信号幅值变化趋势的准包络曲线；

步骤22：对准包络曲线进行平滑及归一化处理；

步骤23：对步骤22的结果进行连续词组的端点检测，从而得到各连续词组的起点及终点；

所述步骤23进一步包括：

步骤231：在步骤22的结果中取信号幅值大于阈值D1的信号段；

2.根据权利要求1所述的一种包含声母的音节切分方法，其特征在于，

所述步骤3进一步包括：

3.根据权利要求1所述的一种包含声母的音节切分方法，其特征在于，所述步骤4进一步包括：

4.一种包含声母的音节切分装置，其特征在于，包括：

音节精确切分单元，根据连续词组的起点、终点及粗切分点对各个连续词组中的各个音节进行精确切分；

所述连续词组识别单元进一步包括：

预处理子单元，用于对准包络曲线进行平滑及归一化处理；

端点检测子单元，用于对预处理子单元输出的结果进行连续词组的端点检测，从而得到各连续词组的起点及终点；

5.根据权利要求4所述的一种包含声母的音节切分装置，其特征在于，

所述音节粗切分单元进一步包括：

6.根据权利要求4所述的一种包含声母的音节切分装置，其特征在于，所述音节精确切分子单元进一步包括：

幅值置零子单元，用于将原始语音信号获取单元得到的原始语音信号中幅值小于第二阈值的信号幅值设为0；

粗切分点加窗子单元，用于在连续词组的粗切分点左侧及右侧的原始语音信号中分别截取若干个帧的语音信号，得到若干语音帧；

连续词组内音节精确切分子单元，用于计算粗切分点加窗子单元得到的各个语音帧的短时过零率，将左侧语音帧中最后一个短时过零率不为0的语音帧的起点作为前一个音节的精确切分终点；将右侧语音帧中第一个短时过零率不为0的语音帧的起点作为后一个音节的精确切分起点；