CN102231281B

CN102231281B - 基于集成特征和神经网络的语音可视化方法

Info

Publication number: CN102231281B
Application number: CN2011102006352A
Authority: CN
Inventors: 韩志艳; 伦淑娴; 王健; 王东; 于忠党; 王巍; 邰治新
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2011-07-18
Filing date: 2011-07-18
Publication date: 2012-07-18
Anticipated expiration: 2031-07-18
Also published as: CN102231281A

Abstract

本发明涉及一种基于集成特征和神经网络的语音可视化方法，其特殊之处是：包括语音信号预处理、特征提取、特征优化、神经网络设计、位置信息映射、主颜色编码、图案信息编码和图像合成八个步骤。本发明通过集成不同的语音特征进入一幅图像中为聋哑人创造了语音信号的可读模式，而且不同位置上的图像颜色不同，这就更好地利用了聋哑人对色彩刺激的视觉记忆能力较强的优点；为减少屏幕容纳负荷和观察者记忆负担，提出采用声调特征来对图案信息进行编码，这样由相同声韵母不同声调构成的语音会显就示在同一个位置上。与现有方法相比，本发明具有很好的鲁棒性和分类定位能力，在聋哑人辅助学习方面，收到了良好的效果。

Description

基于集成特征和神经网络的语音可视化方法

技术领域

本发明涉及一种汉语普通话的可视化方法，特别涉及一种基于集成特征和神经网络的语音可视化方法。

背景技术

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，也是人类思维的一种依托。而对聋哑人来说，语言交流变成一件很难实现的事情，一部分聋哑人不能说话是因为他们的听觉器官遭到破坏，不能将语音信息采集到大脑。研究表明，人类听觉系统和视觉系统是两个性质不同的并具有互补性的信息系统，视觉系统是一个高度并行的信息接收和处理系统，人类眼球中视网膜上的数百万个锥状细胞通过纤维状神经组织与大脑相连，形成一个高度并行的信道，视觉信道接受信息的速率是很高的，据测量和估算，看电视时的信息接收速率大致可达到2×10⁴ b/s，这比听觉系统听语音时的信息接收速度高出上千倍，因此人们相信人类所获得的信息有70%是通过视觉获得的说法。所以对于聋哑人人来说，这无疑就是一个很大的助手，听觉的缺陷由视觉来补偿，语音不仅能听见，还可以通过多种其他形式使聋哑人“看”见。

1947年R.K.Potter和G.A.Kopp等人就提出了一种可视化方法—语谱图，随后有不同的语音研究专家开始研究改进这种语音可视化方法，比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对聋人进行训练的实时的语谱图系统，以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法，但是显示的语谱图的专业性很强，而且很难辨别记忆。尤其是对于同一个语音不同的人来说，甚至是同一个语音同一个人来说都有可能造成语谱图的变化，对于不同环境下录制的语音信号其鲁棒性能更为不好。

此外，还有一些学者对人的发音器官的运动变化以及面部表情的变化来实现语音可视化，有效地剖析了人的发音过程，但就其语音可懂度而言，还难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。

发明内容

本发明所要解决的技术问题是提供一种简单易懂且高鲁棒性的基于集成特征和神经网络的语音可视化方法，通过该方法可帮助听力障碍者进行语言训练，建立、完善听觉认知，形成正确的言语反射，重建听觉言语链，可以最大可能的恢复自身的语音功能。

一种基于集成特征和神经网络的语音可视化方法，包括以下步骤：

1、语音信号预处理

通过麦克风输入语音信号，由处理单元采样量化后获得相应语音数据，然后进行预加重、分帧加窗和端点检测；

2、特征提取

(2.1) 采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率；

(2.2) 计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数；

（2.3）计算出基于MUSIC和感知特性的鲁棒特征参数（PMUSIC-MFCC）：PMUSIC-MFCC1～PMUSIC-MFCC 12；

（2.4）计算出基于小波包变换的语音信号鲁棒特征参数（WPTC）：WPTC1～WPTC20；

3、特征优化

采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSIC-MFCC1～PMUSIC-MFCC 12和WPTC1～WPTC20进行优化，得到优化特征参数组合；

4、神经网络设计

所述的神经网络是由神经网络Ⅰ和神经网络Ⅱ组成，其中神经网络Ⅰ的输入层有4个神经元，输出层有2个神经元，神经网络Ⅱ的输入层的数量与优化特征参数组合的数量相同，输出层有n个神经元，n为7、8或9；

5、位置信息映射

将优化特征参数组合作为神经网络Ⅱ的输入，将特征编成具有m个码的方阵，2^n-1≤m≤2ⁿ，按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1”组合进行编码，每个位置对应一个无调单语音；

6、主颜色编码

采用共振峰特征来对主颜色信息进行编码，把所有的共振峰特征值F1、F2、F3分别求平均值，然后通过R=5F1/F3、G=3F3/5F2、B=F2/3F1，将其转换成主颜色信息；

7、图案信息编码

采用声调特征来对图案信息进行编码，四个声调特征参数作为神经网络Ⅰ的输入，神经网络Ⅰ的输出即为相应的图案信息，用00、01、10、11分别表示阴平、阳平、上声和去声；

8、图像合成

按照单语音产生的先后顺序，把位置信息、主颜色信息与图案信息融合在一幅图像中在显示屏上显示，每幅图像显示2～5秒后消失。

上述的神经网络Ⅱ的输出层有7个神经元，并将特征编成100个码，以对应不同的位置。

上述的优化特征参数组合为PMUSIC-MFCC1，PMUSIC-MFCC3，PMUSIC-MFCC4，PMUSIC-MFCC7，PMUSIC-MFCC8，PMUSIC-MFCC11，WPTC1，WPTC2，WPTC4，WPTC5，WPTC7，WPTC9，WPTC10，WPTC12，WPTC15，WPTC16。

上述的图像合成时，先获得位置信息，然后在相应位置添加主颜色信息，最后用声调信息置换相应位置的主颜色信息，获得相应的语音图像。

本发明的有益效果如下：

（1）本发明通过集成不同的语音特征进入一幅图像中，为聋哑人创造语音信号的可读模式，与现有技术相比，具有良好的可读性、易懂性及鲁棒性，弥补了用语谱图来进行可视化很难辨别和记忆的缺点。无论是听力受损人群还是普通人，经过一段时间的专门训练，都可以直观地辨识出该可视化图像所对应的发音，并和健全人进行交流；

（2）本发明充分的利用了聋哑人视觉鉴别能力和对色彩刺激的视觉记忆能力较强的优点，不同位置上的图像颜色不同，大大增加了聋哑人学习的兴趣；

（3）本发明采用人工神经网络来对特征进行提取编码，有效地提高了语音的识别率，缩短了识别时间，实现了效率与时间的双赢。而且用两个神经网络来进行编码，分工明确，避免了反复进行训练的困扰；

（4）本发明提出采用声调特征来对图案信息进行编码，由相同声母韵母不同声调构成的语音就会显示在同一个位置上，这样就减少了屏幕的容纳负荷和观察者的记忆负担。

附图说明

图1为本发明的系统结构框图；

图2是图1中神经网络的结构示意图；

图3为语音位置信息映射示意图；

图4为主颜色编码框图；

图5为图案信息编码示意图；

图6为“我”的语音可视化效果示例图；

图7为相同声韵母组成的音的四声调“zhan”的语音可视化效果示例图；

图8为三字词“展览馆”的语音可视化效果示例图。

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作详细说明：

如图1所示，本发明的系统结构分为8大块：语音信号预处理模块、特征提取模块、特征优化模块、神经网络设计模块、位置信息映射模块、主颜色编码模块、图案信息编码模块及图像合成模块，具体过程如下：

一、语音信号预处理

通过麦克风输入语音信号，由处理单元采样量化后获得相应语音数据，然后进行预加重、分帧加窗和端点检测；所述的处理单元可采用计算机、单片机或DSP芯片等，本实例以计算机为例。

二、特征提取

1、共振峰特征

采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率。

由快速傅里叶变换（FFT）初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数，并用该参数对语音信号作滤波处理，对滤波后的信号进行经验模态分解（EMD）得到一族固有模态函数(IMF)，按能量最大原则确定出含有共振峰频率IMF，计算出该IMF的瞬时频率和Hilbert 谱即得到语音信号的共振峰频率参数。

2、声调特征

计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度四个参数。

普通话单音节的声调变化共有四种模式，不同的声调反映在语音参数上是基音频率轨迹的变化不同，按照以下方法定义四个参数做为基音频率曲线的描述：首先用一个二次曲线在最小均方误差的意义下逼近基音轨迹，然后计算该曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度四个参数作为声调特征参数，这些声调特征参数对于四种声调具有很强的区别特性。

3、计算PMUSIC-MFCC参数

为改善语音可视化的鲁棒性，采用多信号分类法（Multiple Signal Classification, MUSIC）的谱估计技术并在其中引入感知特性，计算出基于MUSIC和感知特性的鲁棒特征参数（PMUSIC-MFCC）：PMUSIC-MFCC1～PMUSIC-MFCC 12。

4、计算WPTC参数

根据小波包变换在各分析频段的恒Q（品质因数）特性与人耳听觉对信号的加工特点相一致的特点，结合小波包对频带的多层次划分，并根据人耳感知频带的特点，自适应地选择相应频带，计算出基于小波包变换的语音信号鲁棒特征参数（WPTC）：WPTC1～WPTC20。

三、特征优化

采用基于正交实验设计的语音识别特征参数优化方法对所述的PMUSIC-MFCC1～PMUSIC-MFCC12和WPTC1～WPTC20进行优化，得到优化特征参数组合，特征参数优化组合数量为10～20，本例中优化特征参数组合为：PMUSIC-MFCC1，PMUSIC-MFCC3，PMUSIC-MFCC4，PMUSIC-MFCC7，PMUSIC-MFCC8，PMUSIC-MFCC11，WPTC1，WPTC2，WPTC4，WPTC5，WPTC7，WPTC9，WPTC10，WPTC12，WPTC15，WPTC16，即共16个特征参数。

鉴于语音可视化性能与所选用的语音特征参数密切相关，本发明采用一种系统性的实用的特征参数优化方法—基于方差的正交实验设计法。首先进行因素（语音特征参数）和水平的选择，再根据数理统计与正交性原理，从大量的实验点中挑选适量的具有代表性、典型性的点构造正交表进行正交实验，最后通过计算对正交实验结果进行分析，找出最优的特征参数组合。

四、神经网络设计

如图2所示，所述的神经网络是由神经网络Ⅰ和神经网络Ⅱ组成，其中神经网络Ⅰ的输入层有4个神经元，输出层有2个神经元，神经网络Ⅱ的输入层的数量与优化特征参数组合的数量相同，输出层有n个神经元，n为7、8或9。

五、位置信息映射

神经网络Ⅱ的输出将特征编成具有m个码的方阵，2^n-1≤m≤2ⁿ，n=7、8或9。本实例以n=7为例，即神经网络Ⅱ的输出层有7个神经元，共有128个不同的码。如图3所示，由于本例只选择了普通话中最常用字的音节（100个无调音节即400个有调音节），所以采用100个位置。按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用“0”、“1”组合进行编码，每个位置对应一个无调单语音。如0000000代表第一行第一列的那个位置，0000001代表第一行第二列的那个位置，以此类推。

六、主颜色编码

如图4所示，采用共振峰特征来映射主颜色信息，把所有的共振峰特征值F1、F2、F3分别求平均值，然后通过公式：R=5F1/F3、G=3F3/5F2、B=F2/3F1，将其转换成主颜色信息，其中系数5，3/5和1/3是经过实验验证具有较好的颜色分辨力，选择目标是使大部分音节的颜色各异，这样有助于聋哑人辨识记忆，x、y为该语音信号的位置向量。通过给屏幕相应位置的RGB赋值，获得主颜色信息，红绿蓝三基色幅度全为1得到白色，红绿蓝三基色幅度全是0得到黑色，各个基色对颜色的贡献是加色法则。

如汉语“我”的三个共振峰平均值分别为F1=593.15Hz、F2=1104.47Hz、F3=2814.70Hz，所以计算出的R=1.0537、G=1.5291、B=0.6207，所以产生的图像主颜色为浅黄色。

七、图案信息编码

如图5所示，采用声调特征来映射图案信息，四个声调特征参数作为神经网络Ⅰ的输入，神经网络Ⅰ的输出即为相应的图案信息，用00、01、10、11分别表示阴平、阳平、上声和去声，通过改变不同位置的三基色RGB的饱和度来显示不同的黑色质地图案。本例以“00表示阴平、01表示阳平、10表示上声和、11表示去声”为例。

本发明采用声调特征来映射图案信息，第一声调的基音频率轨迹一般很平坦，而其它三声调则具有不同程度的弯曲和倾斜，因此，曲线的平坦度对于第一声调和其它三声调具有明显不同的数值分布区域。第三声调的基音频率轨迹一般是凹的，而第二声调明显上倾，第四声调明显下倾。因此，对这三种轨迹，曲线的谷点分布在不同的区域。

八、图像合成

按照单语音产生的前后顺序，把位置信息、主颜色信息与图案信息融合在一幅图像中并在显示屏上显示，每幅图像显示2～5秒后消失。

图像合成时，先获得位置信息，然后在相应位置添加主颜色信息，最后用声调信息置换相应位置的主颜色信息，获得相应的语音图像，每幅图像显示2～5秒后消失。图像消失过程中可采用逐渐消失的方法，以避免因观察者长时间观看而造成的疲劳晕眩的感觉。

上述整个过程均由计算机处理。

图像合成举例如下：

1、如图6所示，“我”的图像主颜色是浅黄色的，而且上面有黑色质地的图案，表明这是个声调为上声的语音，而且再根据显示位置就可以很容易的辨识出该语音是什么。

2、如图7所示，相同声韵母组成的音的四声调“zhan”的上声“展”的三个共振峰值为F1=936.42Hz、F2=1860.84Hz、F3=2605.40Hz，颜色值为R=1.7971、G=0.8401、B=0.6624，显示浅杏黄色；把“展”读成阳平时，共振峰值为F1=916.16Hz、F2=1541.05Hz、F3=1922.56Hz，颜色值为R=2.3827、G=0.7485、B=0.5607，显示的颜色是深杏黄色，比上声的“展”的颜色略微深一些，所以经常在读两个上声时容易把第一个读成阳平，但图像颜色和位置几乎不变，正好符合经常把上声读成阳平的原理。把“展”读成阴平时，三个共振峰值为F1=806.44Hz、F2=1856.77Hz、F3=2015.98Hz，颜色值为R=2.0001、G=0.6514、B=0.7675，显示深粉色；把“展”读成去声时，共振峰值为F1=709.74Hz、F2=1849.45Hz、F3=2510.56Hz，颜色值为R=1.4121、G=0.8145、B=0.8695，显示的颜色是浅粉色，正好符合经常把一声读成四声的原理。

3、如图8所示，“展览馆”三个上声遇到一起，前两个音变成了阳平调，这是符合声调的动态变化规律的，虽然把上声读成阳平后可视化图像可能不一样，但是显示位置是一样的，这时可以根据词或者句子的前后来判断纠正意义，因为当语言用语音来表达时，具有比较大的冗余。

Claims

1.一种基于集成特征和神经网络的语音可视化方法，其特征是：包括以下步骤：

（1）语音信号预处理

（2）特征提取

（2.1）采用基于Hilbert-Huang变换的方法来估算预处理后的语音信号共振峰频率；

（2.2）计算出预处理后语音信号的基音频率曲线的一次斜率、二次斜率、曲线的谷点和曲线的平坦度作为声调特征参数；

（2.3）计算出基于MUSIC和感知特性的鲁棒特征参数（PMUSIC-MFCC）：PMUSIC-MFCC1～PMUSIC-MFCC12；

（3）特征优化

采用基于正交实验设计的语音识别特征参数优化的方法对所述的PMUSIC-MFCC1～PMUSIC-MFCC12和WPTC1～WPTC20进行优化，得到优化特征参数组合；

（4）神经网络设计

（5）位置信息映射

将优化特征参数组合作为神经网络Ⅱ的输入，将特征编成具有m个码的方阵，2^n-1≤m≤2ⁿ，按着由左到右、由上到下的顺序依次对应着图像中的一个位置并用n位“0”、“1”组合进行编码，每个位置对应一个无调单语音；

（6）主颜色编码

（7）图案信息编码

（8）图像合成

2.根据权利要求1所述的基于集成特征和神经网络的语音可视化方法，其特征是：神经网络Ⅱ的输出层有7个神经元，并将特征编成100个码，以对应不同的位置。

3.根据权利要求1所述的基于集成特征和神经网络的语音可视化方法，其特征是：优化特征参数组合为PMUSIC-MFCC1，PMUSIC-MFCC3，PMUSIC-MFCC4，PMUSIC-MFCC7，PMUSIC-MFCC8，PMUSIC-MFCC11，WPTC1，WPTC2，WPTC4，WPTC5，WPTC7，WPTC9，WPTC10，WPTC12，WPTC15，WPTC16。

4.根据权利要求1所述的基于集成特征和神经网络的语音可视化方法，其特征是：上述的图像合成时，先获得位置信息，然后在相应位置添加主颜色信息，最后用声调信息置换相应位置的主颜色信息，获得相应的语音图像。