CN201741384U

CN201741384U - 一种可将汉语语音转换成口型图像的口吃矫正装置

Info

Publication number: CN201741384U
Application number: CN2010202765823U
Authority: CN
Inventors: 蒋一宁; 付晓毅; 蒋涛; 张�成; 蔺君刚; 赵旭
Original assignee: SICHUAN WEIDI DIGITAL TECHNOLOGY Co Ltd
Current assignee: SICHUAN WEIDI DIGITAL TECHNOLOGY Co Ltd
Priority date: 2010-07-30
Filing date: 2010-07-30
Publication date: 2011-02-09
Anticipated expiration: 2020-07-30

Abstract

本实用新型公开了一种可将汉语语音转换成口型图像的口吃矫正装置，包括依次信号连接的麦克风、数字信号处理器和扬声器，其特征在于：还设置有与数字信号处理器连接的用于识别元音和辅音的语音识别单元，语音识别单元还与口型图像生成单元相连，口型图像生成单元再连接显示单元；本实用新型可以将语音识别为音位(元音和辅音)，还能将语音信号转化为频域信号的共振峰频率参数，根据识别出的音位和共振峰的频率参数，则可以根据预先建立的模型，可以将各独立的静态图像组合成完整的口型动作展示给使用者，以此激活使用者的镜像神经元系统，从而可以实现口吃矫正的目的。

Description

一种可将汉语语音转换成口型图像的口吃矫正装置

技术领域

本实用新型涉及口吃矫正技术，特别是一种可将汉语语音转换成口型图像的口吃矫正装置。

背景技术

口吃定义为：言语节律异常，多发生于儿童言语发育时期。病因不明，可能与大脑对言语器官的支配不协调、不正确的模仿、遗传等因素有关。常表现为首字难发、语句中断或语调重复，致说话不流畅。病情较重者，说话时伴有皱眉、面肌抽搐、摆动手臂等现象、讲话时情绪常较紧张。

口吃包含了三大紧密相联的层面：

1.口吃的核心行为(Core Behaviors)：也叫做口吃的核心症状(Core Features)。

2.口吃的附加行为(Accessory Behaviors)：也叫口吃的第二行为(Secondary Behaviors)，或口吃的第二症状(Secondary Symptoms)。

3.口吃心理(Affective Reactions)：口吃最为神秘而巨大的部分，包含了情感和认知两个方面。

口吃患者某种生理上的缺陷或异常被认为是客观存在的，并不是人为的意识所能控制的。口吃心理是由口吃的核心症状所带来的。对口吃核心症状的成因研究也主要集中到人的大脑和神经系统。

2003年，Kalinowski在《医学假说》发表文章《镜像一起说话》(Speaking with a mirror：engagement of mirror neurons via choral speech and its derivatives induces stuttering inhibition)认为同声说话即时抑制口吃的原因在于它结合了镜像神经元系统(mirror systems of neurons)。镜像神经元系统生而有之，远远领先于口吃病的发生时间。通过重新结合镜像神经元系统，比如通过“合唱说话”，或它的派生物(如数字信号处理技术)来提供动作的镜像，口吃可以得到最大程度的缓解，这是解决口吃的核心——阻塞的自然方式。

镜像神经元组储存了特定行为模式的编码。这种特性不单让我们可以想都不用想，就能执行基本的动作。在言语形成过程中，也有相应的神经元网络，同样的起着“存储”行为模式编码的作用。当镜像元系统被激活后，因为优先级较高的缘故，能替代言语系统中这些神经元网络的作用，从而使因为这些神经元系统的异常导致的口吃行为得到最大程度的缓解。

以数字技术模拟“合唱说话”效应的关在于激活镜像元系统。一旦当镜像神经元系统被激活，并接管异常的神经元网络后，口吃的核心症状和第二行为特征能被最大程度的缓解。

镜像神经元是由观察所激活。比如，当一个人看见别人去拿杯子时，部分镜像神经元就会被激活。而放下杯子时又会激活另一些镜像神经元。“合唱说话”、“模仿说话”时，口吃者在聆听被称为“第二言语信号”的他人说话时，则是激活那些和形成语言相关的镜像神经元的“观察”行为。被激活的镜像神经元中“存储”了言语动作的行为编码。在语言习得过程中，同样的编码被“复制”了一份“存储”在与言语相关的神经元中。由于Kalinowski所论述的镜像神经元优先于言语相关的神经元，当镜像神经元被激活后，对口吃者来说，相当于在言语的形成过程中提取了备份的，而不再是因病变而可能有错误的动作编码。备份的编码是正确的，所以言语也就回归流畅，第二行为特征得以消除。

2002年西谷信行和哈里报道了他们的实验结果：当他们让自愿者们观看画有各种口型的图片时，这些自愿者的镜像神经元系统中的各部位会按照一定先后顺序被激活。也就是说，除了聆听“第二言语信号”外，观察与“第二言语信号”相对应的口型图像也有利于激活镜像神经元系统，可以大大提高口吃矫正器的效果。

以数字技术模拟“合唱说话”效应，即对语音信号进行实时采集、分析和处理，来实现对语音的改变反馈(主要是DAF和FAF，当然也可以包括MAF)。

主要有如下几种方式：

是A/D(模/数转换)+DSP(数字信号处理器)+D/A(数/模转换)

是A/D(模/数转换)+MCU(微控制器)+D/A(数/模转换)

是A/D(模/数转换)+MPU(微处理器)+D/A(数/模转换)

是A/D(模/数转换)+CPU(中央处理器)+D/A(数/模转换)

A/D(模/数转换)+FPGA+D/A(数/模转换)的形式

DSP、MCU、MPU、单片机和CPU是运行软件完成信号处理算法运算；而FPGA则是直接以硬件方式执行算法，当对特定的运算进行分解、执行流水操作和并行运算时，FPGA运算速度大大超过DSP和CPU。在灵活性上CPU、MPU和最好，DSP次之，FPGA欠佳。从信号路径的角度来看，这几种方式没有什么不同，都包括：

1.输入部分：

a)传感器接口(如麦克风或直接音频接口)将声音信号转换成电平信号

b)模/数转换(A/D)将电平信号转换成数字信号

c)输入阶段的信号优化

2.信号分析与处理

a)信号识别与优化

b)信号重构(实现信号的延迟和频率改变)

c)生成掩蔽信号(实现掩蔽听觉反馈)

d)信号合成

3.输出部分

a)输出阶段的信号优化

b)数/模转换(DA)将数字信号转换成电平信号

c)传感器接口(如扬声器、耳机接口)

在上述信号通路方式上，输入部分和信号分析与处理的前半部分都恰好是语音转换到口型图像这一功能模块所必须的。

现有的数字口吃矫正器中，包含麦克风、数字信号处理器和扬声器，数字口吃矫正器使用者的语音，通过麦克风(输入部分)采集语音转换为电平信号，数字信号处理器(信号分析部分)中的AD将该电平信号转换为数字信号并传送到扬声器。但是目前的数字口吃矫正器都不能显示出正确口型的口型图像，也不能配合音位的持续时间来展示独立的静态图像组合成完整的口型动作展示给使用者，除了聆听“第二言语信号”外，没有与“第二言语信号”相对应的口型图像供使用者观察。也就不能充分激活其镜像神经元系统的功能，从而进行口吃矫正的方式。

实用新型内容

本实用新型为解决上述技术问题，提供了一种可将汉语语音转换成口型图像的口吃矫正装置，可以将语音识别为音位(元音和辅音)，还能识别共振峰的频率参数，根据识别出的音位和共振峰的频率参数，就可以根据预先建立的模型，显示出正确口型的口型图像，再配合音位的持续时间，则可以将各独立的静态图像组合成完整的口型动作展示给使用者，从而达到激活其镜像神经元系统的目的。

一种可将汉语语音转换成口型图像的口吃矫正装置，包括依次信号连接的麦克风、数字信号处理器和扬声器，其特征在于：还设置有与数字信号处理器连接的用于识别元音和辅音的语音识别单元，语音识别单元还与口型图像生成单元相连，口型图像生成单元再连接显示单元。

该口吃矫正装置的原理是：麦克风将采集的语音信号转换为电平信号，再由数字信号处理器中的AD将电平信号转换为数字信号传送给扬声器，同时数字信号处理器还可以将数字信号进一步转换为频域信号。因为频域信号是实现FAF的必要条件，现在还被用来输入到语音识别单元，来进行音位的识别。通过选择合适的滤波器带宽，可以提取出频域信号的共振峰，并得到第一、二、三共振峰的频率，称为F1、F2、F3，再结合共振峰持续的时长，就可以识别出元音(如F1在300-400Hz，F2在1000Hz左右，时长小于200ms就可以识别为元音u)和辅音(如F1＝200，F2＝720，F3＝2100识别为辅音/b，p/)。识别出的音位，以及共振峰频率和音量等数据再被送到口型图像生成单元就可以得到基本口型(如半圆形，圆形)和口唇张开大小的参数(如音量越大，口唇张开得也越大)。生成的口型图像被连续显示在显示单元上，并且根据音位的持续时间来调整每张图像的持续时间，就构成了连续的口型动作。

本实用新型的有益效果如下：

本实用新型可以将语音识别为音位(元音和辅音)，还能将语音信号转化为频域信号的共振峰频率参数，根据识别出的音位和共振峰的频率参数，则可以根据预先建立的模型，可以将各独立的静态图像组合成完整的口型动作展示给使用者，以此激活使用者的镜像神经元系统，从而可以实现口吃矫正的目的。

附图说明

图1为本实用新型的结构示意图

具体实施方式

如图1所示，一种可将汉语语音转换成口型图像的口吃矫正装置，包括依次信号连接的麦克风1、数字信号处理器2和扬声器3，还设置有与数字信号处理器2连接的用于识别元音和辅音的语音识别单元4，语音识别单元4还与口型图像生成单元5相连，口型图像生成单元5再连接显示单元6。

该口吃矫正装置的原理是：麦克风1将采集的语音信号转换为电平信号，再由数字信号处理器2中的AD将电平信号转换为数字信号传送给扬声器3，同时数字信号处理器2还可以将数字信号进一步转换为频域信号。因为频域信号是实现FAF的必要条件，现在还被用来输入到语音识别单元4来进行音位的识别。通过选择合适的滤波器带宽，可以提取出频域信号的共振峰，并得到第一、二、三共振峰的频率，称为F1、F2、F3，再结合共振峰持续的时长，就可以识别出元音(如F1在300-400Hz，F2在1000Hz左右，时长小于200ms就可以识别为元音u)和辅音(如F1＝200，F2＝720，F3＝2100识别为辅音/b，p/)。识别出的音位，以及共振峰频率和音量等数据再被送到口型图像生成单元就可以得到基本口型(如半圆形，圆形)和口唇张开大小的参数(如音量越大，口唇张开得也越大)。生成的口型图像被连续显示在显示单元上，并且根据音位的持续时间来调整每张图像的持续时间，就构成了连续的口型动作。

Claims

1.一种可将汉语语音转换成口型图像的口吃矫正装置，包括依次信号连接的麦克风(1)、数字信号处理器(2)和扬声器(3)，其特征在于：还设置有与数字信号处理器(2)连接的用于识别元音和辅音的语音识别单元(4)，语音识别单元(4)还与口型图像生成单元(5)相连，口型图像生成单元(5)再连接显示单元(6)。