CN105788608A

CN105788608A - 基于神经网络的汉语声韵母可视化方法

Info

Publication number: CN105788608A
Application number: CN201610121430.8A
Authority: CN
Inventors: 韩志艳; 王健
Original assignee: Bohai University
Current assignee: Bohai University
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2016-07-20
Anticipated expiration: 2036-03-03
Also published as: CN105788608B

Abstract

基于神经网络的汉语声韵母可视化方法，步骤为：获取语音信号；对语音信号进行预处理；提取语音信号特征参数，进行PCA降维；设计并训练小波神经网络；小波神经网络输出的64个二进制编码依次对应显示屏上8×8个方格，其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的47个声韵母，当某个声韵母的语音信号综合特征向量输入小波神经网络时，小波神经网络的输出即为该声韵母的位置信息；将47个声韵母划分为12组，并分别将12组声韵母对应的方格的RGB赋不同的值，来获取颜色信息；合成上述位置信息和颜色信息，实现声韵母的可视化。该方法便于聋哑人记忆，具有良好的鲁棒性和易懂性，聋哑人可以准确辨识出可视化图像所对应的发音。

Description

基于神经网络的汉语声韵母可视化方法

技术领域

本发明涉及一种汉语音声母和韵母的可视化方法，特别涉及一种基于神经网络的汉语声韵母可视化方法。

背景技术

语音是语言的声学表现，是人类交流信息最自然、最有效、最方便的手段，在人们的日常生活中是不可或缺的。但对于聋哑人来说，语言交流是一件无法实现的事情。研究表明，人类在感知外界的过程中，接收信息速率最快、获取信息最多的是视觉，如果可以从视觉上感知语音，这对聋哑人进行语言训练，建立、完善听觉认知都有巨大的帮助。

1947年R.K.Potter和G.A.Kopp等人提出了一种语音可视化方法—语谱图，随后有不同的语音研究专家开始研究改进这种语音可视化方法，比如在1976年L.C.Stewart等人提出了有色谱图和1984年G.M.Kuhn等人提出了对听力障碍者进行训练的实时的语谱图系统，以及1986年P.E.Stern、1998年F.Plante和2008年R.Steinberg等人也提出了许多语谱图的改进方法，但是显示的语谱图的专业性很强，而且很难辨别记忆。尤其是对于同一个语音不同的人来说，甚至是同一个语音同一个人来说都有可能造成语谱图的变化，对于不同环境下录制的语音信号其鲁棒性能更为不好。

此外，还有一些学者基于发音器官的运动变化以及面部表情的变化来实现语音可视化，有效剖析人的发音过程，但就其语音可懂度而言，难以达到理想效果，除极少数专家以外，人们很难直接通过观察发音器官的运动和面部表情的变化而准确地感知语音。

发明内容

针对现有技术的不足，本发明提出基于神经网络的汉语声韵母可视化方法。该方法的具体步骤如下：

步骤1、语音信号获取：利用麦克风输入语音数据，并由处理单元采样量化后获得相应的语音信号。

步骤2、语音信号预处理：对获取的语音信号进行预加重、分帧加窗和端点检测。

步骤3、语音信号特征参数提取。

步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征，得到每帧信号的共振峰特征值F1，F2，F3，F4；

步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC：WPTC1～WPTC20。

步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC：PMUSIC-MFCC1～PMUSIC-MFCC12。

步骤3.4、计算Mel频率倒谱系数MFCC：MFCC1～MFCC12。

步骤4、PCA降维：利用主成分分析法PCA对上述语音信号特征参数进行降维处理，获得语音信号综合特征向量。

步骤5、神经网络设计：采用三层小波神经网络，其中输入层有12个神经元，隐含层有8个神经元，输出层有6个神经元，利用M个语音信号综合特征向量训练该小波神经网络，期望误差为P，最大迭代次数为Q，若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数，则停止训练小波神经网络，完成神经网络设计。

步骤6、位置信息映射：小波神经网络的输出层有6个神经元，均采用二进制编码，共有64个不同的二进制编码，显示屏上设置64个方格，64个方格排成8行8列，64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格，其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer，当某一个声韵母的语音信号综合特征向量输入小波神经网络时，小波神经网络的输出为该声韵母对应的方格的二进制编码，该二进制编码即为该声韵母的位置信息，该声韵母对应的方格被选中。

步骤7、颜色信息获取：根据发音特点或发音部位将47个声韵母划分为12组，并分别将12组声韵母对应的方格的RGB赋不同的值，使12组声韵母对应的方格显示不同的颜色。

步骤8、信息合成：合成位置信息和颜色信息，当输入某一个声韵母的语音信号综合特征向量时，该声韵母对应的方格显示某种颜色，其余方格显示黑色，实现声韵母的可视化。

所述步骤1中语音信号获取时，其中采样量化的采样频率为11.025KHz、量化精度为16bit。

所述步骤2中语音信号预处理时，其中预加重是利用一阶数字预加重滤波器实现，预加重滤波器的系数取值范围在0.93-0.97之间，分帧是以帧长256点的标准进行，并对分帧后的语音信号加汉明窗处理，端点检测是利用短时能零积法进行。

所述步骤8中信息合成时，合成位置信息和颜色信息为首先获取输入的声韵母的位置信息，再将相应的方格添加颜色信息，使该声韵母对应的方格显示某种颜色。

有益效果：

1)本发明结合声韵母的发音特点来设计每个声韵母的位置信息，便于聋哑人记忆；

2)本发明根据发音特点或发音部位将47个方格图像划分为12组不同颜色的区域，充分发挥了聋哑人对色彩刺激的视觉记忆能力较强的优势；

3)本发明将位置信息和颜色信息合成在一幅图像中，实现了语音信号可视化，与现有技术相比，具有良好的鲁棒性和易懂性，弥补了语谱图难以辨别和记忆的缺点，经过一段时间的专门训练，聋哑人可以准确辨识出可视化图像所对应的发音，与健全人进行交流；

4)本发明利用小波神经网络来实现位置信息映射，小波神经网络具有结构可设计性、收敛精度可控性和收敛速度快的优点，有效地提高了汉语声韵母的正确编码率。

附图说明

图1为本发明一种实施例的流程图；

图2为本发明一种实施例的小波神经网络的结构示意图；

图3为本发明一种实施例的位置信息映射示意图；

图4为本发明一种实施例的声母p的语音可视化效果示例图；

图5为本发明一种实施例的韵母o的语音可视化效果示例图；

图6为本发明一种实施例的声母y,w与韵母i,u的语音可视化效果示例图。

具体实施方式

下面结合附图对本发明具体实施方式做详细说明。基于神经网络的汉语声韵母可视化方法，具体步骤如下，如图1所示：

步骤1、语音信号获取：利用麦克风输入语音数据，并由计算机、单片机或DSP芯片等处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化，获得相应的语音信号。本实施例采用计算机作为处理单元。

步骤2、语音信号预处理：对获取的语音信号进行预加重、分帧加窗和端点检测。利用一阶数字预加重滤波器对获取的语音信号进行预加重处理，其中预加重滤波器的系数取值范围在0.93-0.97之间，本实施例中取0.9375。然后以帧长256点的标准进行分帧处理，并对分帧后的语音信号加汉明窗处理，再利用短时能零积法进行端点检测。

步骤3、语音信号特征参数提取。

步骤3.1、采用基于Hibert-Huang变换的方法来估算预处理后的语音信号共振峰频率特征，得到每帧信号的共振峰特征值F1，F2，F3，F4。

由快速傅里叶变换(FFT)初步估计出的语音信号的各阶共振峰频率确定相应带通滤波器的参数，并用该参数对语音信号作滤波处理，对滤波后的语音信号进行经验模态分解(EMD)得到一族固有模态函数(IMF)，按能量最大原则确定出含有共振峰频率IMF，计算出该IMF的瞬时频率和Hilbert谱即得到语音信号的共振峰频率参数。

根据小波包变换在各分析频段的恒Q(品质因数)特性与人耳听觉对语音信号的加工特点相一致的特点，结合小波包对频带的多层次划分，并根据人耳感知频带的特点，自适应地选择相应频带，计算出基于小波包变换的语音信号鲁棒特征参数WPTC：WPTC1～WPTC20。

为改善语音可视化的鲁棒性，采用多信号分类法(MultipleSignalClassification,MUSIC)的谱估计技术并在其中引入感知特性，计算出基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC：PMUSIC-MFCC1～PMUSIC-MFCC12。

步骤3.4、计算Mel频率倒谱系数MFCC：MFCC1～MFCC12。

将经过预处理后的每帧语音信号进行离散傅里叶变换得到线性频谱，并通过Mel频率滤波器组得到Mel频率，然后取对数并进行离散余弦变换得到Mel频率倒谱系数。

步骤4、PCA降维：利用主成分分析法PCA对上述语音信号特征参数进行降维处理，由48维语音信号特征向量降为12维语音信号综合特征向量。

步骤5、神经网络设计：采用三层小波神经网络，如图2所示，其中输入层有12个神经元，隐含层有8个神经元，输出层有6个神经元，利用1000个语音信号综合特征向量训练该小波神经网络，期望误差为0.001，最大迭代次数为200，若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数，则停止训练小波神经网络，完成神经网络设计。

步骤6、位置信息映射：小波神经网络的输出层有6个神经元，均采用二进制编码，共有64个不同的二进制编码，显示屏上设置64个方格，64个方格排成8行8列，64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格，其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer，如图3所示，当某一个声韵母的语音信号综合特征向量输入小波神经网络时，小波神经网络的输出为该声韵母对应的方格的二进制编码，该二进制编码即为该声韵母的位置信息，该声韵母对应的方格被选中，如000000代表第一行第一列的方格，对应着韵母a，000001代表第一行第二列的方格，对应着韵母o，以此类推。

步骤7、颜色信息获取：根据发音特点或发音部位将47个声韵母划分为12组，并分别将12组声韵母对应的方格的RGB赋不同的值，使12组声韵母对应的方格显示不同的颜色，如二进制编码000000，000001，000010，000011，000100，000101为1区，即单韵母区，设定R＝0.95,G＝0.75,B＝0.68,颜色为桃红色；二进制编码000110，000111为2区，即yw区，设定R＝0,G＝0.95,B＝0,颜色为绿色；二进制编码001000，001001，001010，001011，001100为3区，即前鼻韵母区，设定R＝0.52,G＝0.38,B＝0.76,颜色为蓝紫色；二进制编码001101，001110，001111为4区，即舌面前音区，设定R＝0.25,G＝0.52,B＝0.18,颜色为深绿色；二进制编码010000，010001，010010为5区，即双唇音区，设定R＝0.12,G＝0.98,B＝0.76,颜色为蓝绿色；二进制编码010011为6区，即唇齿音区，设定R＝0,G＝0,B＝0.55,颜色为蓝色；二进制编码010100，010101，010110，010111为7区，即舌尖中音区，设定R＝0.75,G＝0,B＝0.55,颜色为紫色；二进制编码011000，011001，011010，011011为8区，即后鼻韵母区，设定R＝0.75,G＝0,B＝0,颜色为红色；二进制编码011100，011101，011110，011111为9区，即舌尖后音区，设定R＝0.98,G＝0.96,B＝0,颜色为黄色；二进制编码100000，100001，100010为10区，即舌根音区，设定R＝0.87,G＝0.87,B＝0.79,颜色为灰白色；二进制编码100011，100100，100101为11区，即舌尖前音区，设定R＝0.74,G＝0.42,B＝0,颜色为褐色；二进制编码100110，100111，101000，101001，101010，101011，101100，101101，101110为12区，即复韵母区，设定R＝1,G＝1,B＝1,颜色为白色。

步骤8、信息合成：合成位置信息和颜色信息，当输入某一个声韵母的语音信号综合特征向量时，该声韵母对应的方格显示某种颜色，其余方格显示黑色，实现声韵母的可视化，所述合成位置信息和颜色信息为首先获取输入的声韵母的位置信息，再将相应的方格添加颜色信息，使该声韵母对应的方格显示某种颜色。如图4所示，声母p对应的方格位置在第三行第二列，二进制编码为010001，颜色为蓝绿色。如图5所示，韵母o对应的方格位置在第一行第二列，二进制编码为000001，颜色为桃红色。如图6所示，y与i，w与u两者发音很相似，语谱图也十分类似，很难辨识，而本发明却很容易区分开。

Claims

1.一种基于神经网络的汉语声韵母可视化方法，其特征在于：包括如下步骤：

步骤1、语音信号获取：利用麦克风输入语音数据，并由处理单元采样量化后获得相应的语音信号；

步骤2、语音信号预处理：对获取的语音信号进行预加重、分帧加窗和端点检测；

步骤3、语音信号特征参数提取；

步骤4、PCA降维：利用主成分分析法PCA对上述语音信号特征参数进行降维处理，获得语音信号综合特征向量；

步骤5、神经网络设计：采用三层小波神经网络，其中输入层有12个神经元，隐含层有8个神经元，输出层有6个神经元，利用M个语音信号综合特征向量训练该小波神经网络，期望误差为P，最大迭代次数为Q，若该小波神经网络输出误差小于期望误差或者训练次数达到最大迭代次数，则停止训练小波神经网络，完成神经网络设计；

步骤6、位置信息映射：小波神经网络的输出层有6个神经元，均采用二进制编码，共有64个不同的二进制编码，显示屏上设置64个方格，64个方格排成8行8列，64个二进制编码按照由左到右、由上到下的顺序依次对应8×8个方格，其中前47个二进制编码及前47个二进制编码对应的方格依次对应按照发音特点排序的声韵母aoeiuüywaneninunünjqxbpmfdtnlangengingongzhchshrgkhzcsaieiuiaoouiuieüeer，当某一个声韵母的语音信号综合特征向量输入小波神经网络时，小波神经网络的输出为该声韵母对应的方格的二进制编码，该二进制编码即为该声韵母的位置信息，该声韵母对应的方格被选中；

步骤7、颜色信息获取：根据发音特点或发音部位将47个声韵母划分为12组，并分别将12组声韵母对应的方格的RGB赋不同的值，使12组声韵母对应的方格显示不同的颜色；

2.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法，其特征在于：所述步骤3具体步骤如下：

步骤3.2、计算基于小波包变换的语音信号鲁棒特征参数WPTC：WPTC1～WPTC20；

步骤3.3、计算基于MUSIC和感知特性的鲁棒特征参数PMUSIC-MFCC：PMUSIC-MFCC1～PMUSIC-MFCC12；

步骤3.4、计算Mel频率倒谱系数MFCC：MFCC1～MFCC12。

3.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法，其特征在于：所述步骤1中，处理单元以11.025KHz的采样频率、16bit的量化精度进行采样量化。

4.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法，其特征在于：所述步骤2具体方法如下：预加重是利用一阶数字预加重滤波器实现，预加重滤波器的系数取值范围在0.93-0.97之间，分帧是以帧长256点的标准进行，并对分帧后的语音信号加汉明窗处理，端点检测是利用短时能零积法进行。

5.根据权利要求1所述的基于神经网络的汉语声韵母可视化方法，其特征在于：所述步骤8中信息合成时，合成位置信息和颜色信息为首先获取输入的声韵母的位置信息，再将相应的方格添加颜色信息，使该声韵母对应的方格显示某种颜色。