CN101281747A

CN101281747A - 基于声道参数的汉语耳语音声调识别方法

Info

Publication number: CN101281747A
Application number: CNA2008101237131A
Authority: CN
Inventors: 赵鹤鸣; 龚呈卉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2008-10-08

Abstract

本发明公开了一种基于声道参数的汉语耳语音声调识别方法，对录制的耳语音进行数字化采样，对采样数据进行分析，识别出耳语音的声调，其特征在于：所述的对采样数据进行分析是，对耳语音采样数据进行分帧加窗，窗长不大于20毫秒，求取每一帧语音的线性预测模型参数，据此计算每一帧语音信号的增益参数，由此获得语音信号增益轨迹曲线，与标准语音声调曲线进行对比，确定耳语音的声调。本发明基于声道参数，采用声道增益参数分析方法，实现了汉语耳语音的声调识别，应用于汉语的语音识别系统，识别率高，具有显著的优越性。

Description

基于声道参数的汉语耳语音声调识别方法

技术领域

本发明涉及一种语音识别的方法，具体涉及一种汉语耳语音的声调的识别方法。

背景技术

耳语音是一种有别于正常语音的发音模式，其主要特点是发音时音量低且声带完全不振动。耳语，作为一种特殊的语言交流方式，有着广泛的应用领域。

在医学方面，语音临床医学专家研究耳语音模式以期帮助失音患者，并致力于观察耳语发音是否有利于喉部手术病人噪音的恢复和治疗。从通信的角度来看，在公众场合如会议环境中，为了避免对他人的干扰或为了通话的保密性，人们有时需要利用耳语进行电话交流。此外，耳语音课题的研究也能够为公安司法部门的语音识别、话者识别提供依据。在国外，有些用于低比特率语音编码和语音识别的数据库中也包括了对耳语音的要求。

目前，对于耳语音的研究，主要从语音学的角度集中在耳语音发音特征分析、耳语音与正常语音的比较等方面。已有研究的一些主要结论有：①耳语音与正常语音相比有很大差异，这种差异在浊音段更加突出。②耳语音的激励源为噪声，发音时声带不振动，因而没有基音频率信息。③耳语音是气声发音，其能量比正常语音低约20dB，信噪比更低。④耳语音虽然没有基音，但从听觉上仍能感知声调和音高。⑤耳语音仍存在共振峰，但第一共振峰的振幅较小，频率向高端偏移，带宽大于正常语音，第二、第三共振峰也有类似的情形。目前对耳语音的研究中，由于语言语系的差异，基本上不涉及耳语音声调的提取和识别。

作为声调语言的汉语，拥有世界上人数最多的使用者。与英语等其它语调语言相比，声调语言所携带的语义量是无调语言的约四倍。声调的提取是声调语言研究中不可或缺的一部分，耳语音声调的研究在耳语增加、耳语识别、耳语转换等方面都有着举足轻重的意义。在正常语音中，人们通常采用韵母段基音频率的轨迹曲线，来表征语音的声调。而在耳语音中，由于发音时声带不振动，不存在基音频率，因此无法利用该参数进行四声识别。

加拿大维多利亚大学语言学系的Man Gao在2002年发表的硕士学位论文“Tones in Whispered Chinese：Articulatory Features and Perceptual Cues”中，从三个步骤对汉语耳语音的声调进行了分析：首先，通过喉部内腔镜观测正常音与耳语发音时的咽喉动作差异；其次，采集孤立字与语句环境下两男两女四声语音；最后进行听觉感知实验。该文从听觉感知的角度对耳语音的声调进行了研究，但并不能直接应用于计算机语音识别系统中去。《电声技术》2003年第11期上，沙丹青等在《耳语音声调特征的研究》一文中，介绍了耳语音的声学特性，通过人耳听觉实验验证了孤立的耳语音节是携有声调信息的，并进一步得出幅值包络和音长都是耳语音声调识别的重要因素。但是，采用幅值包络方式进行耳语音声调识别难度较大，识别率低。

发明内容

本发明目的是提供一种汉语耳语音的声调识别方法，通过基于声道参数的识别，提高耳语音声调的识别率。

为达到上述目的，本发明采用的技术方案是：一种基于声道参数的汉语耳语音声调识别方法，对录制的耳语音进行数字化采样，对采样数据进行分析，识别出耳语音的声调，所述的对采样数据进行分析是，对耳语音采样数据进行分帧加窗，窗长不大于20毫秒，求取每一帧语音的线性预测模型参数，据此计算每一帧语音信号的增益参数，由此获得语音信号增益轨迹曲线，与标准语音声调曲线进行对比，确定耳语音的声调。

上述技术方案中，所述对采样数据进行分析中，在进行所述分帧加窗之前，先对语音进行预加重，即提升高频部分。由此，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

所述预加重采用一阶数字滤波器：H(z)＝1-μz^-1，其中，H是传递函数，z为z变换，μ为预加重系数，μ＜1。

鉴于语音信号的短时性，分帧时，窗长不大于20毫秒。所述分帧加窗采用汉明(Hamming)窗：

式中，n为加窗点，N为窗长。

求取每一帧语音的线性预测模型参数时，在最小均方根误差准则下，利用格型法实现。用过去p个样点值来预测现在或未来的样点值

\hat{s} (n) = Σ_{i = 1}^{p} a_{i} s (n - i),

预测误差e(n)为

e (n) = s (n) - \hat{s} (n) = s (n) Σ_{i = 1}^{p} a_{i} s (n - i),

通过最小均方误差准则使预测误差e(n)达到最小值的方法来决定唯一的一组线性预测系数a_i(i＝1，2，…，0)。

所述增益参数为，

G^{2} = R_{n} (0) - Σ_{k = 1}^{p} a_{k} R_{n} (k),

式中，R为自相关函数，p为样点数。

在求得完整的语音信号增益轨迹曲线后，进行平滑、插值及时间归一化。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明基于声道参数，采用声道增益参数分析方法，实现了汉语耳语音的声调识别，可以进一步应用于汉语的语音识别系统。

2.本发明比幅值包络方式更能体现语音固有的信息，因而识别率高，实验表明，本发明的识别率既高于幅值包络方式的识别率，也高于人耳辨听实验的识别率，应用于语音识别系统时具有显著的优越性。

附图说明

图1是汉语语音四声标准曲线；

图2是实施例一中采用增益参数与语音幅值包络曲线对汉语耳语音声调信息提取的对比图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参考杨顺安提出的汉语普通话对一化字调模型，做出汉语语音四声曲线，如附图1所示，图中实线为一声，短虚线为二声，点划线为三声，长虚线为四声。

采用自行录制的耳语音，进行数字化采样，采样频率为8000Hz。先对语音进行预加重，即提升高频部分。由此，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。

对耳语音采样数据进行分帧加窗，取128点分帧，窗长为16毫秒，帧移为1/4，所述分帧加窗采用汉明(Hamming)窗：

式中，n为加窗点，N为窗长。

求取每一帧语音的线性预测模型参数，在最小均方根误差准则下，利用格型法实现。用过去p个样点值来预测现在或未来的样点值

\hat{s} (n) = Σ_{i = 1}^{p} a_{i} s (n - i),

预测误差e(n)为

e (n) = s (n) - \hat{s} (n) = s (n) Σ_{i = 1}^{p} a_{i} s (n - i),

通过最小均方误差准则使预测误差e(n)达到最小值的方法来决定唯一的一组线性预测系数a_i(i＝1，2，…，0)。据此计算每一帧语音信号的增益参数，

G^{2} = R_{n} (0) - Σ_{k = 1}^{p} a_{k} R_{n} (k),

式中，R为自相关函数，p为样点数。

由此获得语音信号增益轨迹曲线。

在求得完整的语音信号增益轨迹曲线后，进行平滑、插值及时间归一化，计算其与字调模型的均方误差，比较函数斜率、拐点值，进行判决，输出最后结果。

附图2为采用时域参数——语音幅值包络曲线及频域参数——声道增益对四声汉语耳语声调信息提取的比较，图中实线为增益参数曲线，虚线为语音幅值包络曲线。由此可以看出，尽管幅值包络在一定程度上能够反映语音声调，但相较于声道增益参数，其识别率低。

实验的统计结果如下：

由统计结果可知，通过声道增益参数对汉语耳语进行识别，其识别率均大于人耳辨听及采用时域参量进行判决。其平均识别率大于80，能有效用于耳语声调识别。

Claims

1.一种基于声道参数的汉语耳语音声调识别方法，对录制的耳语音进行数字化采样，对采样数据进行分析，识别出耳语音的声调，其特征在于：所述的对采样数据进行分析是，对耳语音采样数据进行分帧加窗，窗长不大于20毫秒，求取每一帧语音的线性预测模型参数，据此计算每一帧语音信号的增益参数，由此获得语音信号增益轨迹曲线，与标准语音声调曲线进行对比，确定耳语音的声调。

2.根据权利要求1所述的基于声道参数的汉语耳语音声调识别方法，其特征在于：所述对采样数据进行分析中，在进行所述分帧加窗之前，先对语音进行预加重，即提升高频部分。

3.根据权利要求2所述的基于声道参数的汉语耳语音声调识别方法，其特征在于：所述预加重采用一阶数字滤波器：H(z)＝1-μz^-1，其中，H是传递函数，z为z变换，μ为预加重系数，μ＜1。

4.根据权利要求1所述的基于声道参数的汉语耳语音声调识别方法，其特征在于：所述分帧加窗采用汉明窗。

5.根据权利要求1所述的基于声道参数的汉语耳语音声调识别方法，其特征在于：求取每一帧语音的线性预测模型参数时，在最小均方根误差准则下，利用格型法实现。

6.根据权利要求1所述的基于声道参数的汉语耳语音声调识别方法，其特征在于：所述增益参数为，

G^{2} = R_{n} (0) - Σ_{k = 1}^{p} a_{k} R_{n} (k),

式中，R为自相关函数，p为样点数。