CN101916566B

CN101916566B - 一种电子喉语音重建方法及其系统

Info

Publication number: CN101916566B
Application number: CN2010102228781A
Authority: CN
Inventors: 万明习; 吴亮; 王素品; 牛志峰; 万聪颖
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2010-07-09
Filing date: 2010-07-09
Publication date: 2012-07-04
Anticipated expiration: 2030-07-09
Also published as: CN101916566A

Abstract

本发明提供了一种电子喉语音重建方法及其系统，首先从采集的语音中提取模型参数作为参数库，接着，采集发声者的面部图像后传输给图像分析与处理模块，得到发声起止时刻与发声元音类别，接着，通过嗓音源合成模块合成嗓音源波形，最后，通过电子喉振动输出模块将上述嗓音源波形输出，其中，嗓音源合成模块首先设置声门嗓音源模型参数，从而合成声门嗓音源波形，再用波导模型模拟声音在声道中传播并根据发声元音类别选择声道的形状参数，从而合成电子喉嗓音源波形。通过本发明方法及其系统，其重建的语音更接近发声者本身的声音。

Description

一种电子喉语音重建方法及其系统

【技术领域】

本发明属于病变语音重建领域，特别涉及一种电子喉语音重建方法及其系统。

【背景技术】

语音或者语言是人类表达感情和相互交流的主要手段，然而，据统计每年全世界有成千上万的人因为各种喉部外科手术而暂时或永久丧失发声能力。鉴于此，各种嗓音康复技术应运而生，其中，以食管语音、气管食管语音，以及人工电子喉语音最为常见，而人工电子喉因为使用简单、适用范围广、可长时间发声而被广泛应用。

中国发明专利申请第200910020897.3号公开了一种自动调节的咽腔电子喉语音通讯的方法，其去除了其他的噪音，从而提高了重建语音的质量。电子喉的工作原理是提供缺失的嗓音振动源，并通过换能器将振动传递进入声道进行语音调制，最后通过唇端辐射产生语音。由此可见，提供缺失的嗓音振动源是电子喉最根本的任务，然而，目前市面上所见的电子喉所提供的振动嗓音源多为方波或脉冲信号，改进的线性换能器虽然能输出声门嗓音源，但是这些都不符合实际使用过程中缺失的嗓音振动源。无论是颈外式还是口腔式电子喉，振动传递进入声道的位置都不是声门，而且对于不同病人的不同手术情况，不仅是声带缺失，而且包括部分声道的缺失，这些都需要在电子喉振动源中得到补偿，因此从电子喉本质方面改进以提高电子喉语音质量是十分必要的。

鉴于以上问题，实有必要提供一种可以解决上述技术问题的电子喉语音重建方法及其系统。

【发明内容】

本发明所要解决的技术问题是提供一种电子喉语音重建方法及其系统，通过本方法重建的语音不仅补偿了缺失声道的声学特性，而且保留了使用者的个性特点，更接近使用者本身的声音特点，语音质量更好。

为实现上述目的，本发明提供了一种电子喉语音重建方法，首先从采集的语音中提取模型参数作为参数库，接着采集发声者的面部图像，将该图像传输给图像分析与处理模块，图像分析与处理模块分析处理完之后，得到发声起止时刻与发声元音类别，再接着，以发声起止时刻和发声元音类别控制嗓音源合成模块并合成嗓音源波形，最后，通过电子喉振动输出模块将上述嗓音源波形输出，电子喉振动输出模块包括前置电路和电子喉振动器，所述嗓音源合成模块的合成步骤如下：

1)合成声门嗓音源波形，即根据使用者发声的个性特征在参数库内选择声门嗓音源模型参数，其中，发声起止时刻控制嗓音源合成的开始和结束，所述声门嗓音源合成采用LF模型，具体数学表示如下：

\{\begin{matrix} {u^{'}}_{g} (t) = E_{0} e^{αt} \sin (ω_{g} t) & (0 \leq t \leq t_{e}) \\ {u^{'}}_{g} (t) = - (\frac{E_{e}}{ϵ t_{a}}) [e^{- ϵ (t - t_{e})} - e^{- ϵ (t_{c} - t_{e})}] & (t_{e} \leq t \leq t_{c}) \end{matrix}

上式中，Ee为幅度参数，t_p、t_e、t_a、t_c均为时间参数，分别代表气流最大峰值时刻、最大负峰值时刻、指数回复段时间常数和基频周期，其余参数可由以上五个参数按照以下公式联合求得：

\{\begin{matrix} ϵ t_{a} = 1 - e^{- ϵ (t_{c} - t_{s})} \\ ω_{g} = \frac{π}{t_{p}} \\ U_{e} = E_{0} [e^{ω t_{e}} (α \sin ω_{g} t_{e} - ω_{g} \cos ω_{g} t_{e}) + ω_{g}] / (α^{2} + ω_{g}^{2}) \\ E_{e} = - E_{0} e^{α t_{e}} \sin ω_{g} t_{e} \\ U_{e} = \frac{E_{e} t_{α}}{2} K_{α} \\ K_{α} = \{\begin{matrix} 2.0 & R_{α} < 0.1 \\ 2 - 2.34 R_{α}^{2} + 1.34 R_{α}^{4} & 0.1 \leq R_{α} \leq 0.5 \\ 2.16 - 1.32 R_{α} + 0.64 {(R_{α} - 0.5)}^{2} & R_{α} > 0.5 \end{matrix} \\ R_{α} = \frac{t_{α}}{t_{c} - t_{e}}; \end{matrix}

2)根据发声元音类别选择声道的形状参数，利用波导模型模拟声音在声道中传播，按照以下公式计算出嗓音源波形：

\{\begin{matrix} u_{i + 1}^{+} = (1 - r_{i}) u_{i}^{+} - r_{i} u_{i + 1}^{-} = u_{i}^{+} - r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \\ u_{i}^{-} = (1 + r_{i}) u_{i + 1}^{-} + r_{i} u_{i}^{+} = u_{i + 1}^{-} + r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \end{matrix}, r_{i} = \frac{A_{i} - A_{i + 1}}{A_{i} + A_{i + 1}}

\{\begin{matrix} glottis : u_{1}^{+} = \frac{1 - r_{g}}{2} u_{g} - r_{g} u_{1}^{-} = \frac{1}{2} u_{g} - r_{g} (\frac{1}{2} u_{g} + u_{1}^{-}) & r_{g} \approx - 1 \\ lips : u_{out} = (1 - r_{N}) u_{N}^{+} = u_{N}^{+} - u_{N}^{-} & r_{N} \approx - 1 \end{matrix}

声道由多个均匀截面积的声管级联表示，上式中，A_i和A_i+1为第i个和第i+1个声管的面积函数，

和

分别为第i个声管中的正向声压和反向声压，r_i是第i个和第i+1个声管相邻界面的反射系数。

作为本发明的优选实施例，所述图像分析与处理模块包括如下步骤：

步骤一：初始化参数，即预设分析矩形框范围、面积阈值和神经网络权系数，然后采集一帧视频图像，其中面积阈值为分析矩形框面积的百分之一；

步骤二：利用基于肤色的检测方法对嘴唇区域进行检测，即在YUV色彩空间按照下述公式计算矩形框范围的唇色特征值，并归一化为0-255灰度级：

Z＝0.493R-0.589G+0.026B

步骤三：利用改进的最大类间方差法计算唇色特征值灰度图像的最佳分割阈值，然后，以此阈值对图像进行二值化分割，从而，得到嘴唇的初步分割图像；

步骤四：采用面积阈值的方法，将初步分割图像中面积小于阈值的区域作为噪声消去，得到最终的嘴唇分割图像；

步骤五：对嘴唇区域进行外轮廓和中心点提取：设定椭圆长轴与X轴成零度角，利用椭圆模型对嘴唇外轮廓进行匹配，通过一维哈夫变换检测得到椭圆长短轴的大小；

步骤六：以归一化半长轴、归一化半短轴、长短轴之比和嘴唇归一化面积值作为一组参数，计算发声起止时刻和发声元音类别，其中，所述归一化半长轴、归一化半短轴，以及嘴唇归一化面积均是指以不发声时静态半长轴、半短轴、嘴唇面积为标准的归一化值。

作为本发明的另一优选实施例，所述图像分析与处理模块的步骤六中，采用人工神经网络算法计算发声起止时刻和发声元音类别。

作为本发明的另一优选实施例，所述人工神经网络算法为三层网络，包括输入层、隐含层，以及输出层，其中，输入层包含四个输入，即归一化半长轴、归一化半短轴、长短轴之比和嘴唇归一化面积值，输出层包括六个输出，即不发声、/a/、/i/、/e/、

以及/u/五个元音。

作为本发明的另一优选实施例，所述嗓音源合成过程中，以声道咽腔下部声压波形作为颈部施加的嗓音源波形。

作为本发明的另一优选实施例，所述嗓音源合成过程中，以口腔位置声压波形作为口腔内施加的嗓音源波形。

为了实现上述目的，本发明还提供了一种电子喉语音系统，包括CMOS图像传感器、与CMOS图像传感器的输出端相连的FPGA芯片、与FPGA芯片的输出端相连的语音芯片，以及与语音芯片的输出端相连的电子喉振动器。

本发明电子喉语音重建方法及其系统至少具有以下优点：首先，在嗓音源合成模块的声门嗓音源LF模型中，声门波形由幅度参数Ee以及t_p、t_e、t_a、t_c四个时间参数共同表征，而这五个参数可以从语音中提取出来，因此对于不同的使用者来说，可以从其失声前保留的语音中提取出来作为合成参数，故重建语音具有使用者的个性特点；另外，在嗓音源合成模块的声道波导模型中，根据视频信号判断的发声元音类别选择声道形状参数，依据使用者咽喉部手术切除情况，选择合适的振动器施加位置，因此，针对施加部位合成对应声道空间位置的声压波形作为电子喉嗓音源波形，如此，不仅符合使用者的实际情况，而且极大的保留了使用者的个性特征，使重建语音更接近使用者本人的原始语音，改善重建语音质量。

【附图说明】

图1是本发明电子喉语音重建方法的流程示意图；

图2是本发明嘴唇运动图像处理和控制参数提取程序流程图；

图3是本发明嗓音源合成流程图；

图4是本发明不同发声和使用情况下合成的电子喉嗓音源波形图；

图5是本发明电子喉振动输出模块示意图；

图6是本发明电子喉语音系统的一个结构框图。

【具体实施方式】

下面结合附图对本发明电子喉语音重建方法及其系统进行详细描述：

本发明以计算机系统为平台，根据使用者失声的具体情况及个人发声特点调整嗓音源波形的合成，同时利用视频信号对嗓音源合成进行实时控制，最终通过并口连接的电子喉振动输出模块将上述嗓音源波形输出。

本发明电子喉语音重建方法的系统包括图像采集设备、与图像采集设备的输出端相连的图像处理及分析模块、与图像处理及分析模块的输出端相连的嗓音源合成模块，以及与嗓音源合成模块的输出端相连的电子喉振动输出模块。

请参阅图1所述，当系统启动后，图像采集设备，即摄像头采集使用者发声过程中的面部图像，并将该面部图像传输给图像处理及分析模块，图像处理及分析模块接收到该数据后进行处理与分析，即通过嘴唇检测、分割、边缘提取和拟合，从而得到嘴唇边缘的椭圆模型形状参数，之后，再通过人工神经网络算法计算判断发声的起止时刻和发声元音类别并作为嗓音源合成的控制信号；嗓音源合成模块采用发声合成法原理，根据不同使用者的情况，包括手术情况、发声个性特点，以及提取的发声起止和发声元音类别，合成具有使用者个性特征和符合实际发声需要的嗓音源波形；最后通过电子喉振动输出模块将上述合成的嗓音源波形输出。

由上述可知，本发明电子喉语音重建方法主要包括三个部分，一、图像采集及处理；二、电子喉嗓音源的合成；三、电子喉的振动输出。下面详细描述：

本发明的第一部分为图像采集及处理，主要利用图像处理的方法对嘴唇的运动实现实时分析，并利用人工神经网络判断发声起止时刻与发声元音类别，作为控制信号用以控制电子喉嗓音源的动态合成。

下面结合图2所示详细介绍第一部分的具体实现步骤：

1)初始化参数，即预设分析矩形框范围、面积阈值和神经网络权系数，然后采集一帧视频图像，其中面积阈值为分析矩形框面积的百分之一；

2)利用基于肤色的检测方法对嘴唇区域进行检测，即在YUV色彩空间按照下述公式(一)计算矩形框范围的唇色特征值以增强嘴唇区域的区分度，并归一化为0-255灰度级，从而，得到唇色特征值灰度图像，公式(一)如下：

Z＝0.493R-0.589G+0.026B 公式(一)

在上述公式(一)中，R、G、B分别代表红色、绿色和蓝色分量。

3)利用改进的最大类间方差(Otsu)法计算唇色特征值灰度图像的最佳分割阈值，然后，以此阈值对图像进行二值化分割，从而，得到嘴唇的初步分割图像；

4)采用面积阈值的方法，将初步分割图像中面积小于阈值的区域作为噪声消去，得到最终的嘴唇分割图像；

5)对嘴唇区域进行外轮廓和中心点提取：假设椭圆长轴与X轴成零度角，利用椭圆模型对嘴唇外轮廓进行拟合，通过一维哈夫(Hough)变换检测得到椭圆长短轴的大小；

6)以归一化半长轴、归一化半短轴、长短轴之比和嘴唇归一化面积值四个值作为一组参数，经过人工神经网络的计算得到发声起止时刻和发声元音类别，用以指导嗓音源合成控制。

需要说明：在本发明中，归一化半长轴、归一化半短轴，以及嘴唇归一化面积均是指以不发声时静态的半长轴、半短轴、嘴唇面积为标准的归一化值。

在本实施方式中，以长短轴的比值和归一化参数作为神经网络的输入，因为它们不但能够准确反映嘴型的变化情况，而且可以判断发声起止时刻与元音类别，具有很好的距离不变性，可以克服由于使用者与摄像头距离变化造成图像中嘴唇面积大小改变而产生的判断错误，因此，得到的判断信号与语音波形具有很好的吻合度，判断准确率较高。

另外，为了满足实时性的要求，本发明的图像处理在嘴唇分割和椭圆模型参数匹配中都采用了时空域联合的跟踪控制方法，即基于说话时面部变化缓慢连续的假设，通过前一帧图像分割的区域信息和椭圆匹配的参数信息指导本帧图像的分割的矩形范围和匹配的参数范围，很好的利用了帧内和帧间信息，不仅提高了处理的速度，还提高了计算精度。

本发明中的人工神经网络为三层前向神经网络，包括输入层(即归一化半长轴、归一化半短轴、长短轴之比和嘴唇归一化面积值)、隐含层(三十个节点)、输出层(即不发声、/a/、/i/、/e/、

以及/u/五个元音)，其中，神经网络的节点权系数预先经过样本训练得到，训练采用误差反向传播(BP)算法，样本为不发声静止状态和发各个元音时的嘴唇形状参数。

请继续参阅图3所示，本发明的第二个部分为嗓音源的合成，利用发声合成法原理，通过源-滤波器两步合成电子喉嗓音源，具体步骤如下：

第一步：合成声门嗓音源波形：根据使用者发声的个性特征在参数库中选择并设置声门嗓音源模型参数，图像采集及处理模块内得到的发声起止时刻控制嗓音源合成的开始和结束，按照LF模型合成声门嗓音源；

所述声门嗓音源合成采用LF模型，具体数学表示如下：

\{\begin{matrix} {u^{'}}_{g} (t) = E_{0} e^{αt} \sin (ω_{g} t) & (0 \leq t \leq t_{e}) \\ {u^{'}}_{g} (t) = - (\frac{E_{e}}{ϵ t_{a}}) [e^{- ϵ (t - t_{e})} - e^{- ϵ (t_{c} - t_{e})}] & (t_{e} \leq t \leq t_{c}) \end{matrix}

\{\begin{matrix} ϵ t_{a} = 1 - e^{- ϵ (t_{c} - t_{s})} \\ ω_{g} = \frac{π}{t_{p}} \\ U_{e} = E_{0} [e^{ω t_{e}} (α \sin ω_{g} t_{e} - ω_{g} \cos ω_{g} t_{e}) + ω_{g}] / (α^{2} + ω_{g}^{2}) \\ E_{e} = - E_{0} e^{α t_{e}} \sin ω_{g} t_{e} \\ U_{e} = \frac{E_{e} t_{α}}{2} K_{α} \\ K_{α} = \{\begin{matrix} 2.0 & R_{α} < 0.1 \\ 2 - 2.34 R_{α}^{2} + 1.34 R_{α}^{4} & 0.1 \leq R_{α} \leq 0.5 \\ 2.16 - 1.32 R_{α} + 0.64 {(R_{α} - 0.5)}^{2} & R_{α} > 0.5 \end{matrix} \\ R_{α} = \frac{t_{α}}{t_{c} - t_{e}}; \end{matrix}

第二步：根据判断的发声元音类别选择声道的形状参数，利用波导模型模拟声音在声道中传播，根据以下公式计算出使用者实际使用时，振动传递进入声道处的声压波形，即为合成的电子喉嗓音源：

所述模拟声音在声道中传播的波导模型的具体数学表示如下：

\{\begin{matrix} u_{i + 1}^{+} = (1 - r_{i}) u_{i}^{+} - r_{i} u_{i + 1}^{-} = u_{i}^{+} - r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \\ u_{i}^{-} = (1 + r_{i}) u_{i + 1}^{-} + r_{i} u_{i}^{+} = u_{i + 1}^{-} + r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \end{matrix}, r_{i} = \frac{A_{i} - A_{i + 1}}{A_{i} + A_{i + 1}}

\{\begin{matrix} glottis : u_{1}^{+} = \frac{1 - r_{g}}{2} u_{g} - r_{g} u_{1}^{-} = \frac{1}{2} u_{g} - r_{g} (\frac{1}{2} u_{g} + u_{1}^{-}) & r_{g} \approx - 1 \\ lips : u_{out} = (1 - r_{N}) u_{N}^{+} = u_{N}^{+} - u_{N}^{-} & r_{N} \approx - 1 \end{matrix}

其中，声道由多个均匀截面积的声管级联而成，表示为面积函数A_i，和

分别为第i个声管中的正向声压和反向声压，r_i是第i个和第i+1个声管相邻界面的反射系数，由相邻声管的截面积A_i和A_i+1确定，波导模型通过迭代可以计算出声道任意位置的声压。

需要说明的是：第一、在上述嗓音源合成模块的LF模型中，声门嗓音源波形由幅度参数Ee及t_p、t_e、t_a、t_c四个时间参数共同确定，对于不同的人而言，由于其解剖结构和发声特点不同，因此，声门嗓音源波形具有个性差异，这些都可以体现在LF模型的五个参数中，而这几个参数都是可以从语音中提取出来的。例如，女性发声时基频普遍高于男性，因此，女性的t_c要比男性小等等。在本发明中，为了充分保留使用者的声音特点，重建出与患者失声前相同的语音，需要从患者失声前采集的语音中提取上述五个参数，存在参数库内，使用电子喉时，只需要在参数库中提取上述参数，即可重建出具有使用者发声特点的语音，而对于没有采集到失声前语音的患者来说，其可以选择自己喜欢的语音特点的参数，从而重建出自己喜欢的语音。

第二、在上述嗓音源合成模块的波导模型中，唯一的参数就是声道的面积函数Ai，不同的人发声或者同一人发声不同，其对应的声道形状都不相同，故，本发明中采用元音类别的控制方法，根据不同的发声元音，选取不同的声道面积函数用于合成；而对于不同的使用者，我们首先建立一个元音-声道面积函数对应模板库，合成时只需要根据判断元音类别查找相应的声道函数即可，这个模板库的建立是利用反求的方法从使用者录制的语音中获得声道响应函数，再从声道响应函数求取最佳匹配的声道面积函数，这样可以使得使用者的发声个性特征得到保留。

由以上可知，通过两步合成，可以计算出声道中任意位置的声压信号，然而选取声道中哪一个位置的声压信号作为电子喉嗓音源，需要根据使用者具体的手术情况和使用方式来决定。

下面请参阅图4所示，为不同情况下合成的嗓音源的波形图，例如，由于喉癌而进行喉切除手术但声道保留较完整的使用者，可以采用颈部施加振动的方式从而充分利用保留的声道作用，因此，选取声道咽腔下部的声压波形作为电子喉嗓音源波形，图4(a)和图4(c)即分别为该情况下发元音为/a/和/i/时合成的嗓音源波形；对于咽部癌症的患者，需要进行咽切除术，如此，病人不仅丧失了声带，而且很大部分的声道也被破坏，此时必须选取口腔处的声压波形作为嗓音源波形，图4(b)和图4(d)即分别为该情况下发元音为/a/和/i/时合成的嗓音源波形。

如此，从图4可以看出本发明针对不同的手术情况、使用情况和发声类别，从而，合成不同的电子喉嗓音源波形，不仅符合实际使用的需要，而且保留了使用者的个性特点，很大程度上改善了电子喉重建语音的质量。

请参阅图5所示，本发明的第三个模块为电子喉的振动输出模块，包括电子喉振动器以及电子喉振动器前置电路，计算机通过LPT并口将合成的电子喉嗓音源波形信号输入前置电路，经过数模转换和功率放大后，由音频接口输出模拟电压信号，最后电子喉振动器振动，从而输出嗓音源。

所述电子喉振动器为线性换能器，即将电压信号线性转换成机械振动，因此，其可以按照合成的嗓音源输出振动，同时为了满足口腔内施加的需要，使用导音管将振动导入口腔内部。

请继续参阅图5所示，电子喉振动器前置电路由输入输出接口、D/A数模转换、功率放大和电源控制组成。输入输出接口分别为25针数字输入并口和3.5mm模拟输出音频接口，其中数字输入并口与计算机并口输出端相连，传输速度为44100Byte/s，模拟输出音频接口与电子喉振动器相连接；D/A数模转换器采用DAC0832，数据精度8位，可以直接与LPT并口的数据位相连；功率放大器使用Ti公司的TPA701音频功率放大器，+3.5～+5.5V供电，输出功率可达700mW；电源控制为5V电池，提供+5V直流电压给各芯片。

在以上实施方式中，该电子喉的语音系统是以视频采集设备、计算机和电子喉振动输出模块为基础实现的，然而，为了便于实现，还可以采用另外一种实施方式，如图6所示，在该实施方式中，电子喉语音系统包括用于采集图像的CMOS图像传感器、与CMOS图像传感器的输出端相连并用于对采集到的图像进行分析处理和嗓音源合成的FPGA芯片、与FPGA芯片的输出端相连并用于对合成的电子喉嗓音源波形进行D/A转换和功率放大的语音芯片，以及与语音芯片的输出端相连的电子喉振动器。

所述CMOS图像传感器采用MICRON公司的MT9M011，最大分辨率为640×480，在该分辨率下的帧率为60帧/s，用于采集使用者发声过程中的面部图像。

FPGA芯片支持SOPC技术，实现以视频数据为输入，经过视频数据处理分析和电子喉嗓音源合成，最终输出电子喉嗓音源波形数据的功能；该FPGA芯片除了包含与CMOS图像传感器及语音芯片相连的接口外，还包括LCD、FLASH，以及SDRAM，其中，LCD为液晶显示屏，用于显示相关数据，FLASH为闪存，SDRAM为同步动态随机存储器。

语音芯片采用AIC23，包括D/A转换器和功率放大功能，经过D/A转换和功率放大后，由音频接口输出到电子喉振动器。

以上所述仅为本发明的一种实施方式，不是全部或唯一的实施方式，本领域普通技术人员通过阅读本发明说明书而对本发明技术方案采取的任何等效的变换，均为本发明的权利要求所涵盖。

Claims

1.一种电子喉语音重建方法，首先从采集的语音中提取模型参数作为参数库，接着采集发声者的面部图像，将该图像传输给图像分析与处理模块，图像分析与处理模块分析处理完之后，得到发声起止时刻与发声元音类别，再接着，以发声起止时刻和发声元音类别控制嗓音源合成模块并合成嗓音源波形，最后，通过电子喉振动输出模块将上述嗓音源波形输出，电子喉振动输出模块包括前置电路和电子喉振动器，其特征在于：所述嗓音源合成模块的合成步骤如下：

1)合成声门嗓音源波形：根据使用者发声的个性特征在参数库内选择声门嗓音源模型参数，其中，发声起止时刻控制嗓音源合成的开始和结束，所述声门嗓音源合成采用LF模型，具体数学表示如下：

\{\begin{matrix} {u^{'}}_{g} (t) = E_{0} e^{αt} \sin (ω_{g} t) & (0 \leq t \leq t_{e}) \\ {u^{'}}_{g} (t) = - (\frac{E_{e}}{ϵ t_{a}}) [e^{- ϵ (t - t_{e})} - e^{- ϵ (t_{c} - t_{e})}] & (t_{e} \leq t \leq t_{c}) \end{matrix}

\{\begin{matrix} ϵ t_{a} = 1 - e^{- ϵ (t_{c} - t_{s})} \\ ω_{g} = \frac{π}{t_{p}} \\ U_{e} = E_{0} [e^{ω t_{e}} (α \sin ω_{g} t_{e} - ω_{g} \cos ω_{g} t_{e}) + ω_{g}] / (α^{2} + ω_{g}^{2}) \\ E_{e} = - E_{0} e^{α t_{e}} \sin ω_{g} t_{e} \\ U_{e} = \frac{E_{e} t_{α}}{2} K_{α} \\ K_{α} = \{\begin{matrix} 2.0 & R_{α} < 0.1 \\ 2 - 2.34 R_{α}^{2} + 1.34 R_{α}^{4} & 0.1 \leq R_{α} \leq 0.5 \\ 2.16 - 1.32 R_{α} + 0.64 {(R_{α} - 0.5)}^{2} & R_{α} > 0.5 \end{matrix} \\ R_{α} = \frac{t_{α}}{t_{c} - t_{e}}; \end{matrix}

\{\begin{matrix} u_{i + 1}^{+} = (1 - r_{i}) u_{i}^{+} - r_{i} u_{i + 1}^{-} = u_{i}^{+} - r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \\ u_{i}^{-} = (1 + r_{i}) u_{i + 1}^{-} + r_{i} u_{i}^{+} = u_{i + 1}^{-} + r_{i} (u_{i}^{+} + u_{i + 1}^{-}) \end{matrix}, r_{i} = \frac{A_{i} - A_{i + 1}}{A_{i} + A_{i + 1}}

\{\begin{matrix} glottis : u_{1}^{+} = \frac{1 - r_{g}}{2} u_{g} - r_{g} u_{1}^{-} = \frac{1}{2} u_{g} - r_{g} (\frac{1}{2} u_{g} + u_{1}^{-}) & r_{g} \approx - 1 \\ lips : u_{out} = (1 - r_{N}) u_{N}^{+} = u_{N}^{+} - u_{N}^{-} & r_{N} \approx - 1 \end{matrix}

和分别为第i个声管中的正向声压和反向声压，r_i是第i个和第i+1个声管相邻界面的反射系数。

2.如权利要求1所述的电子喉语音重建方法，其特征在于：所述图像分析与处理模块包括如下步骤：

步骤一：初始化参数：预设分析矩形框范围、面积阈值和神经网络权系数，然后采集一帧视频图像，其中面积阈值为分析矩形框面积的百分之一；

Z＝0.493R-0.589G+0.026B

3.如权利要求2所述的电子喉语音重建方法，其特征在于：所述图像分析与处理模块的步骤六中，采用人工神经网络算法计算发声起止时刻和发声元音类别。

4.如权利要求3所述的电子喉语音重建方法，其特征在于：所述人工神经网络算法为三层网络，包括输入层、隐含层，以及输出层，其中，输入层包含四个输入，即归一化半长轴、归一化半短轴、长短轴之比和嘴唇归一化面积值，输出层包括六个输出，即不发声、/a/、/i/、/e/、

以及/u/五个元音。

5.如权利要求1或4所述的电子喉语音重建方法，其特征在于：所述嗓音源合成过程中，以声道咽腔下部声压波形作为颈部施加的嗓音源波形。

6.如权利要求1或4所述的电子喉语音重建方法，其特征在于：所述嗓音源合成过程中，以口腔位置声压波形作为口腔内施加的嗓音源波形。

7.一种应用权利要求1所述的方法的电子喉语音系统，其特征在于：包括CMOS图像传感器、与CMOS图像传感器的输出端相连的FPGA芯片、与FPGA芯片的输出端相连的语音芯片，以及与语音芯片的输出端相连的电子喉振动器。