CN101474104B

CN101474104B - 一种自动调节的咽腔电子喉语音通讯系统

Info

Publication number: CN101474104B
Application number: CN2009100208973A
Authority: CN
Inventors: 万明习; 吴亮; 王素品; 吴辉雄; 刘菲; 翟健东
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2009-01-14
Filing date: 2009-01-14
Publication date: 2011-02-09
Anticipated expiration: 2029-01-14
Also published as: CN101474104A

Abstract

本发明涉及一种可自动调节的咽腔电子喉语音合成与通讯系统与方法，基于计算机软件平台和外部硬件设备，包括摄像头、麦克风和电子喉振荡器，通过提取使用者面部和颈部运动图像的视觉语音特征信息，实现了对电子喉工作状态及咽腔嗓音源合成的自动控制，不仅使电子喉的使用无需手持，更加简单便捷，而且解决了合成嗓音源与电子喉施加部位不一致和电子喉语音机械不自然的问题，同时对咽腔电子喉重建语音进行动态去噪增强处理，提高了重建语音的质量与可懂度，并通过网络传输技术实现了电子喉语音的远程实时通讯，进一步拓展了电子喉的应用范围，改善了喉切除患者的生活质量。

Description

一种自动调节的咽腔电子喉语音通讯系统

技术领域

本发明属于病变语音重建及语音通讯技术领域，特别涉及一种可以自动调节的咽腔电子喉语音通讯系统。

背景技术

我国每年都有大量患者因喉切除而失去发声能力，而现有技术中的电子喉以其适用范围广、操作简单、可长时间发声且易于理解而被广泛使用。但是目前的电子喉语音不自然，使用起来不方便，而且带有很大成分的辐射背景噪声和环境噪声，严重影响了语音的理解和悦耳程度。

目前国内外使用的电子喉主要是颈外式，工作原理是波形发生器提供声门嗓音源波形，用以驱动换能器振动，但是使用时电子喉的施加位置并非在声门处，而是颈部两侧咽腔部位，这使得声门与咽腔之间的声道作用被忽略而造成重建语音的失真，影响了电子喉语音的使用。

如何改善电子喉语音，满足嗓音源频率和按语音和语言需要自动调节的要求，是近些年国内外学者研究的热点。目前有运用指头施加在压阻组件上的压力来实现对电子喉的振荡频率的调节，也有通过控制呼气量和声带紧张程度来调节语音的频率和强度的电子喉，还有美国哈佛大学的E.A.Goldstein等于2004年研究提出用颈前肌电信号特征来控制电子喉开关的方法，取得了较好的结果。然而这几种方法都存在使用困难、训练方法复杂、成本高的缺点。

随着计算机和网络技术的发展与普及，电子喉的发展也需要满足网络化的需求，而目前专门适合于网络通讯的电子喉还没有相关报导。

发明内容

针对上述现有技术电子喉的应用中存在的使用困难、训练方法复杂、成本高的缺点，本发明提供一种可自动调节的咽腔电子喉语音通讯系统及方法，该系统以计算机硬件系统为主，通过软件开发实现了基于面部和颈部运动特征自动调节的咽腔嗓音源合成，电子喉无需手持，使用便捷，同时集成了咽腔电子喉重建语音的增强处理功能，并通过互联网技术实现了电子喉语音的网络实时通讯，进一步拓展了电子喉的功能。

一种自动调节的咽腔电子喉语音通讯系统，包括电子喉振荡器，音视频采集模块与计算机软硬件系统，音视频采集模块包括麦克风、摄像头，摄像头和麦克风固定于麦克风支架上，耳机下方设置有固定带，电子喉施加装置设置于固定带上，该系统还包括下述三个主要模块：

1)发声过程中面部和颈部运动图像采集与处理模块，实现从运动图像的分析到视觉语音特征参数的提取；

2)咽腔嗓音源动态合成模块，将提取的视觉语音特征参数转换为嗓音源合成模型参数，并按照咽腔嗓音源数学模型合成波形；

3)咽腔电子喉重建语音实时增强与网络通讯模块，对采集的咽腔电子喉重建语音进行实时增强处理，并将处理后的语音进行远程网络传输，实现网络通讯功能；

摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取；运动图像处理后输出的视觉语音特征参数，又作为输入信号进入咽腔嗓音源动态合成模块控制波形的合成；合成的咽腔嗓音源波形再次通过数据线输出给电子喉施加装置，施加于颈部咽腔处；重建的咽腔电子喉语音经麦克风设备采集后，通过数据线输入语音实时增强模块，同时语音实时增强模块也接收咽腔嗓音源动态合成模块的输入信号；通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分，最终经过网络输出到另一个客户端，同时另一个客户端发出的音视频信号也是在通讯模块接收并播放。

由电子喉施加装置向计算机软硬件系统传输音视频信号进行处理，计算机软硬件系统提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置，电子喉施加装置工作所需的电能由计算机软硬件系统提供。

该自动调节的咽腔电子喉语音通讯系统中的音视频采集模块同时开始工作，利用摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入，图像处理模块对输入图像进行预处理，去除干扰信号，再通过目标区域定位、分割、特征参数提取，以及特征区域运动的跟踪，得到与发声特征相关的视觉语音特征参数，再经自动控制合成系统通过关系转换由视觉语音特征参数推导出咽腔嗓音源合成所需的模型参数和图像采集与处理模块产生的开关信号，控制咽腔嗓音源波形合成以及电子喉施加装置的振动；与此同时，麦克风记录下咽腔电子喉重建语音信号，结合开关控制信号和咽腔嗓音源合成波形，指导泄露周期噪声和环境噪声的估计，以及谱减参数的调整，并对音频采集模块采集的信号进行谱减语音增强处理，最终将得到的视频图像和增强的音频信号整合后，由网络通讯模块完成发送、接受和本地播放，实现远程通讯。

本发明的系统通过提取使用者面部和颈部运动图像的视觉语音特征信息，实现了对电子喉工作状态及咽腔嗓音源合成的自动控制，使用时无需手持，更加简单便捷，解决了合成嗓音源与电子喉施加部位不一致和电子喉语音不自然的问题，同时对咽腔电子喉重建语音进行动态去噪增强处理，提高了重建语音的质量与可懂度，并通过网络传输技术实现了电子喉语音的远程实时通讯，拓展了电子喉的应用范围，改善了喉切除患者的生活质量。

附图说明

图1为本发明咽腔电子喉语音合成与通讯系统的结构示意图。

图2为本发明运动图像处理程序流程图。

图3为本发明连续语音波形图。

图4为与图3连续语音对应的嘴唇特征曲线(实线)、阈值(点线)和开关信号(虚线)的对比图。

图5为本发明咽腔嗓音源合成流程图。

图6为本发明电子喉施加装置外观图，其中标号分别表示：耳机1；电子喉振荡器2；摄像机和麦克风3；连接线4，固定带5。

图7为本发明咽腔电子喉语音增强过程流程图。

具体实施方式

以下结合附图对本发明做进一步的详细描述。

本发明以计算机硬件系统为主，利用麦克风、摄像头等音视频采集模块对发声过程中使用者面部和颈部的运动图像和咽腔电子喉重建语音进行实时采集，通过计算机程序设计实现视觉语音特征参数提取、咽腔嗓音源合成等各种功能的系统软件，完成对咽腔电子喉嗓音源波形的自动控制合成，再由电子喉施加装置施加于颈部咽腔处输出振动，重建语音采集后经过语音增强处理，最终由网络通讯模块实现远程通讯的功能。

整个系统实现的结构图可参看图1，图像采集模块通过图像处理模块与自动控制模块相连接，同时图像采集模块通过通讯模块与外部网络双相连通；语音采集模块，语音实时增强模块通过通讯模块与外部网络相双向相连接；自动控制模块通过嗓音源合成模块与电子喉施加装置相连接。系统启动后，音视频采集模块同时开始工作，利用视频采集模块摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入，图像处理模块对输入图像进行预处理，去除干扰信号，再通过目标区域定位、分割、特征参数提取，以及特征区域运动的跟踪，得到与发声特征相关的视觉语音特征参数，再经自动控制合成系统通过关系转换由视觉语音特征参数推导出咽腔嗓音源合成所需的模型参数和图像采集与处理模块产生的开关信号，控制咽腔嗓音源波形合成以及电子喉施加装置的振动；与此同时，麦克风记录下咽腔电子喉重建语音信号，结合图像采集与处理模块产生的开关信号和咽腔嗓音源合成波形，指导泄露周期噪声和环境噪声的估计，以及谱减参数的调整，并对音频采集模块采集的信号进行谱减语音增强处理，最终将得到的视频图像和增强的音频信号整合后，由网络通讯模块完成发送、接受和本地播放，实现远程通讯。

本发明的第一模块由面部和颈部运动图像采集与处理模块组成。该模块从视觉语音特征出发，利用摄像头采集发声过程中面部和颈部的运动图像，并以视频信号作为系统输入，通过预处理、目标区域检测与定位、特征区域分割与跟踪，提取得到反映发声特点的唇部和颈部视觉语音特征参数，包括嘴唇张开闭合程度、颈部运动信号，并以此作为输出用于指导咽腔嗓音源的合成，实现对电子喉语音的实时自动调节。

本发明的第二模块由自动控制模块与可动态调节的咽腔嗓音源动态合成模块及电子喉施加装置组成。该模块以提取到的唇部和颈部视觉语音特征参数作为输入，通过视觉特征与发声特征之间的对应关系，变换得到相应的咽腔嗓音源模型参数，其中包括控制电子喉合成的开关信号，嗓音源基频变化参数，以及声门上声道形状参数，这些参数将根据源-滤波器模型动态合成咽腔嗓音源波形，最终通过咽腔电子喉外设振荡器输出，并施加于颈部咽腔部位。针对施加部位与合成嗓音源不一致的问题，该模块在合成嗓音源时考虑了声门上至咽腔段声道的调制作用，提供了与施加部位相符合的咽腔嗓音源波形。

本发明的第三模块由语音采集模块，咽腔电子喉重建语音的实时增强与通讯模块组成。语音增强以可调参数谱减法为基础，利用嗓音源合成信息作为参考指导电子喉辐射背景噪声的估计，根据咽腔电子喉语音的背景噪声特点，动态选择合适的谱减系数，再结合电子喉开关控制信号，针对性的选择发声语音进行增强处理，而无音帧则静音输出，同时对背景噪声更新估计；网络通讯基于传输控制协议(TCP)，客户端计算器具有发送音视频信号、接收音视频信号以及本地播放音视频信号三个工作单元，最终实现了电子喉语音的视频通讯。

本发明系统软件部分采用流媒体开发技术，整个软件设计分为用户接口、控制逻辑、数据分离的三层结构；模块化设计，使各功能模块相互独立，耦合性小。

图像处理部分的实现流程可见图2，对于输入的每一帧视频图像，首先要经过预处理，以消除背景噪声、缓慢运动(包括呼吸、吞咽等动作)和光照等各种干扰噪声的影响。经过处理的图像采用基于肤色的人脸检测方法，选取不同色彩空间的肤色滤波器，得到唇部、面部和颈部的肤色空间图像。在不同肤色空间，利用改进的最大类间方差(Otsu)法求取最佳阈值，得到唇部、面部和颈部的预分割图像。预分割的图像中会由于光照、肤色等影响参杂有较小且分散的干扰块，采用阈值面积消去法，消除较小的干扰块而保留较大的目标区域。对于不同的特征部位，分别提取不同的特征参数，得到不同的控制信号。

对于面部图像的处理主要是利用嘴唇形状特征反应发声起止的变化提取电子喉开关信号。具体步骤如下：

1)初始化参数，采集一帧视频图像；

2)利用唇色滤波器计算规定矩形范围的唇色特征值，并归一化为0-255灰度级，得到唇色特征值图像。如果存在前一帧，利用前一帧唇部区域范围和肤色平均特征值，指导这一帧计算；

3)利用改进的最大类间方差(Otsu)法计算最佳分割阈值，以此进行图像二值化分割，得到唇部预分割图像。如果存在前一帧，利用前一帧分割阈值指导这一帧分割阈值的计算；

4)对嘴唇预分割图像进行阈值面积消去处理，消除较小的图像噪声和背景干扰块；

5)对嘴唇区域进行轮廓和中心点提取，利用改进的一维哈夫(Hough)变换检测得到匹配嘴唇的椭圆模型长短轴参数，同时得到嘴唇区域范围，用于指导下一帧唇色特征值计算。如果存在前一帧，利用前一帧的长短轴指导这一帧的椭圆匹配；

6)以长短轴之比作为嘴形判别，通过与阈值比较，得到开关电平信号，输出作为电子喉开关控制信号。

对于颈部图像的处理主要是利用喉上颈部区域的运动信号来提取嗓音源基频、幅度变化控制信号。具体步骤如下：

1)初始化参数，采集一帧视频图像；

2)利用肤色滤波器计算规定矩形范围的肤色特征值，并归一化为0-255灰度级，得到唇色特征值图像。如果存在前一帧，利用前一帧喉上颈部区域范围，指导这一帧计算范围；

3)利用最大类间方差(Otsu)法计算最佳分割阈值，并进行图像二值化分割，得到面部和颈部肤色区域图像。如果存在前一帧，利用前一帧分割阈值指导这一帧分割阈值的计算；

4)对分割图像进行阈值面积消去处理，消除较小的图像噪声和背景干扰块；

5)参考嘴唇下边缘信息，分割得到从嘴唇下开始到图像中肤色区域的最下端之间的喉颈部目标区域，保存范围用于指导下一帧肤色特征值计算；

6)利用Lucas-Kanada微分法计算喉下颈部区域的光流场，得到反应运动特征的速度分量信息；

7)对光流场进行聚类分析，计算其与平均得到的各聚类中心距离，以此判断频率、幅度变化，得到频率、幅度变化系数，并输入作为咽腔嗓音源合成参数。

本系统采用了基于肤色的人脸检测方法，利用肤色的聚类性，在YUV色彩空间计算唇色特征值和肤色特征值来增强目标区域与背景的区分度。

目标得到增强后进入分割环节，本系统采用改进的最大类间方差(Otsu)法选取最佳分割阈值。为了使其适合唇色和肤色分割，并且提高执行效率，该系统中做了如下改进：

1)最大类间方差(Otsu)法的求解并不依靠灰度值或RGB彩色图像的某一色彩分量，而是对每个像素的唇色和肤色特征值归一化到灰度级0～255，并在此灰度图上利用最大类间方差(Otsu)法求最佳阈值T；

2)基于时间的连贯性和阈值变化的连续性，以此借助前一帧图像的最佳分割阈值，并在其邻域内搜索采集的一帧图像的最佳分割阈值，不仅满足分割要求，而且提高执行速度。

采用面积阈值消去法进行降噪，去除噪声和干扰块，保留目标区域。面积阈值的大小，设置为跟踪面积矩形框大小的五十分之一。

图像去噪后即为准确的唇部和颈部目标区域，已经满足特征参数提取算法的要求。参数的提取针对不同的部位特征采用不同的方法：唇部区域主要利用嘴形特征，故采用椭圆检测的方法；颈部区域主要利用运动特征，故采用光流法提取速度信息。

对于一般的椭圆，需要5个参数来确定：中心坐标、长短轴、长轴与X轴夹角，本发明只利用嘴唇的外轮廓形状信息，同时出于实时性要求的考虑，假设椭圆长轴与X轴成0度角，而且椭圆中心坐标可由嘴唇外轮廓点计算平均近似得到，剩下长半轴a和短半轴b两个参数，利用一维哈夫(Hough)变换获得最佳参数，在满足要求的前提下大大提高了效率。

根据提取的椭圆形状参数，本发明选择短半轴与长半轴的比值b/a作为判断指标，如图3为本发明连续语音波形图、图4为与图3连续语音对应的嘴唇特征曲线(实线)、阈值(点线)和开关信号(虚线)的对比图，可见利用b/a值具有很好的形状不变性，可以克服由于采集距离造成图像中嘴唇面积大小改变而产生的判断错误，准确反映嘴形的变化情况，用它得到的判断信号与语音波形具有很好的吻合度，判断准确率较高。对于连续发音时，采用延时方式，去掉字词间隔带来的关信号，使得过程中保持开信号，当出现长时间停顿时，就会出现关信号，符合电子喉使用习惯。

本发明采用微分法中的Lucas-Kanada法提取颈部的微小运动信息。以目标像素为中心选取合适邻域，在整个邻域内利用Lucas-Kanada方程计算得到该像素点的光流，并以同样的方法计算整个图像就能得到整个图像的光流场。

颈部图像的运动中包含有频率变化的信息，通过实验统计，将光流变化按照频率变化进行聚类分析，得到两个典型聚类，即频率升高聚类和频率降低聚类。将每一帧图像提取的光流场信息与聚类模板进行距离判断，当距离小于一定范围时，认定为升高或降低，否则认为频率不变，以此作为频率变化参数输出。

对于一个完整的视频信号包括空域和时域两部分信息，分别对应帧内和帧间信息。基于说话时面部和颈部变化是缓慢连续的假设，本发明的图像处理中采用了时空域联合的实时跟踪控制方法，即通过上一帧图像分割区域信息指导本帧目标区域的分割，很好的利用了帧内和帧间信息，不仅弥补了静态图像分割不精确的问题，而且提高了分割速度。

本发明的系统中跟踪控制方法主要体现在以下几方面：

1)特征区域检测时，利用前一帧得到的唇部、颈部目标区域范围，指导设定本帧检测的范围，这样缩小了处理的图片大小，同时去除部分背景干扰，使后续处理的效果更好。

2)最大类间方差(Otsu)法求解分割阈值时，利用前一帧的最佳阈值，缩小本帧图像阈值搜索范围，可以减少计算量，而且能避免得到局部最优的分割阈值，以及出现两帧间阈值突变的错误，保证阈值曲线的平稳性。

3)一维哈夫(Hough)变换椭圆检测时，利用上一帧的短半轴b值缩小本帧b值的搜索范围，保证跟踪的连贯性，防止哈夫(Hough)变换本身出现跃变的情况，同时，设置校正判断机制，如果b/a值不符合嘴形的正常比例范围，则舍弃这一次的结果，保持上一帧的结果。

本发明图像处理部分，在满足实时性的前提下，从视频信号中成功的提取了各种语音合成参数控制信号，并作为控制信号自动调节咽腔嗓音源的合成，以及辅助重建语音的增强处理。

咽腔嗓音源的自动控制合成，以咽腔嗓音源模型为指导，利用从运动图像中提取的视觉语音特征参数自动调节咽腔嗓音源模型的合成参数，从而达到自动控制合成咽腔嗓音源波形的目的，最终通过电子喉施加装置按合成波形输出振动。

本发明中咽腔嗓音源波形合成采用源-滤波器模型。如图5所示，首先利用声门嗓音源的参数模型，根据采集系统参数、提取的开关信号和模型参数信号、以及用户参数，调整并设定各模型参数值，按照数学模型合成声门嗓音源波形。其次，利用均匀面积的单管模型，根据控制信号调整声道模型参数，合成声门上声道的频率响应函数，并对声门嗓音源波形进行调制，最终合成咽腔嗓音源模型。

声门嗓音源的合成采用分段参数模型，具体数学表示如下：

u_{g} = \{\begin{matrix} A \sin (\frac{i}{n_{1}} π) \frac{n_{2}}{n_{1}} & i \leq n_{1} \\ - A \sin (\frac{i - n_{1}}{2 n_{2}} π) & n_{1} < i \leq (n_{1} + n_{2}) \\ - {Aα}^{τ_{\sup} (i - n_{1} - n_{2})} \cos (\frac{i - n_{1} - n_{2}}{N} 2 πλ) & (n_{1} + n_{2}) < i \leq (N = n_{1} + n_{2} + n_{3}) \end{matrix}

其中，τ_sup为声门上阻尼振荡系数，α为闭合相幅度衰减系数，均根据实验设定；n₁、n₂、n₃、为嗓音源单周期波形的形状参数，分别表示开放相上升段、开放相下降段和闭合相长度，其比例根据发声模式设定，N为周期长度，即N＝n₁+n₂+n₃；A为幅度控制，λ为声门上声道第一共振峰频率F₁与基频f₀的比值，这三个值都根据提取的控制信号动态调整。

由于声门到咽部的声门上声道长度较短，故可近似为均匀面积的单管模型，其频率响应函数和共振峰频率为：

H (f) = \frac{1}{\cos (2 πfl / c)}

F_{n} = (2 n - 1) \frac{c}{4 l} = (2 n - 1) F_{1}, (n = 1,2,3 . . .)

其中，l为声道长度，可由控制参数在较小范围内动态调整，其变化会根据上式影响声门上第一共振峰，同时调整嗓音源合成参数λ的值。

本发明中基频f₀、幅度A和声道长度l等模型参数的动态调整，都是根据前一帧的值作为基准，根据控制信号做出适当调整。对于第一帧则由初值设定，其中基频f₀初值根据使用者性别按照平均基频进行设定，幅度A也可由使用者根据效果设定，声道长度l则根据实验结果平均值设定。最终，咽腔嗓音源波形由声门嗓音源波形经声门上声道调制后得到。

合成的咽腔嗓音源波形通过电子喉施加装置振动输出，并施加于颈下咽腔部位，其外观设计如图6所示。整个结构设计与耳机形状相似，摄像头和麦克风固定于麦克风支架上，耳机下方设置有固定带，将电子喉振荡器置于其上，全部设备通过框架整合在一起，使用时可固定于需要位置，无须手持。其中，电子喉振荡器的位置可在连接带上进行调整，以满足不同使用者的需要。

整个电子喉施加装置须通过标准通用串行总线(USB)接口与计算机硬件系统连接进行信号传输，主要包括以下三方面：第一，由电子喉施加装置向计算机传输音视频信号进行处理；第二，计算机软件系统提取的电子喉开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置；第三，电子喉施加装置工作所需的电能由计算机软硬件系统提供。

本发明对于咽腔电子喉重建语音增强的具体流程可参看图7，该方法以可调参数的谱减法为基础，利用开关信号判断有无电子喉语音，若为无音帧则静音输出，同时更新环境噪声，若为有音帧则利用可调参数功率谱减进行增强处理，以消除语音中所带有的泄露周期噪声和环境噪声，提高语音信噪比和主观可懂度、悦耳度。

咽腔电子喉语音增强方法基于周期性背景噪声、环境噪声和重建语音都保持短时平稳且不相关的假设，在频域进行参数能量谱减，具体公式如下：

其中，Y(ω)、S(ω)、N(ω)分别为带噪语音、纯净语音和噪声的频谱，thread为阈值系数，其值由实验统计设定，α为可调谱减参数，β为谱平滑系数，其值可根据带噪语音能量和估计噪声能量的比例动态调整，即假设

则谱减系数可根据下式调整：

\{\begin{matrix} α = 1 + γ / k_{1} \\ β = γ / k_{2} \end{matrix}

其中k₁、k₂两个系数通过统计实验设定。

则纯净语音估值为：

\hat{s} (t) = IFFT [| \hat{S} (ω) | \cdot e^{j \arg Y (ω)}]

谱减法进行语音增强最关键的部分就是噪声估计，本系统利用开关控制信号和嗓音源合成参数等，分别从电子喉泄露周期噪声和环境噪声两方面进行噪声估计。

电子喉泄露噪声为周期噪声，它的周期性与电子喉振动周期相一致，可以利用合成咽腔嗓音源波形的基频f₀、幅值A等参数信息，估计电子喉泄露周期噪声，而且根据嗓音源合成的动态调节，电子喉泄露噪声的估计也会随之调整，保证了噪声的随时更新。

环境噪声的估计分为初始噪声估计和噪声更新两部分：

初始噪声的估计是在系统开始工作，使用者发声之前，连续采集L帧噪声并计算平均功率谱，作为初始噪声功率谱：

{| {\hat{N}}_{0} (ω) |}^{2} = \frac{1}{L} Σ_{l = 1}^{L} {| N_{l} (ω) |}^{2}

继续采集M帧噪声，用此M帧噪声的功率谱验证

是否满足以下条件：

(1 - χ) {| {\hat{N}}_{0} (ω) |}^{2} < {| N_{m} (ω) |}^{2} < (1 + χ) {| {\hat{N}}_{0} (ω) |}^{2}

若满足，则

合格，初始噪声估计结束；若不满足，则重新采集噪声估计。上式中χ为宽松系数，不宜过大也不宜过小，本系统取为0.4。

噪声更新是环境噪声估计中很重要的一步，在整个电子喉工作过程中环境噪声无法保证稳态，本系统采用权重平均来自适应的更新噪声。用公式表述如下：

其中

是当前噪声功率谱估计，

是前一帧功率谱估计，λ和ε为固定系数。考虑到算法的稳定性以及对非平稳噪声的跟踪性能，λ一般取值为0.9～0.98，ε一般取值为1.5～2.5。

网络通讯部分主要在本地实现音视频数据的Socket传输模块，在远程端则实现音视频数据的Socket接受模块，然后在本地播放。模块采用音视频数据相分离的传输方法，为它们分别创建一个Socket连接，而在每一个Socket上，可以同时进行资料的发送和接收。由于音视频同步发送与接收，可以解决同步问题。因为音视频数据是大量的、连续的、需要可靠传输的，因此这些数据的传输选用传输控制协议(TCP)。

本发明的音视频采集模块对不同硬件系统具有通用性和适用性，对于音视频采集模块没有特殊限制，系统中采用USB摄像头作为视频采集模块，麦克风作为默认音频采集模块。

视频信号采用帕尔制(PAL)，图像采集参数可以通过摄像头自带属性页进行调整，为了保证视频的流畅性和分割跟踪效果，采集图像的大小定为640×480，彩色图像元数据格式为24位图，视频帧率默认为20帧/秒，视频延时为50ms。

音频信号采用双声道，量化精度为16位。音频缓存的设置很重要，设得过小会影响音频采集效率，过大则产生较大延迟，而且其与视频采集帧率关系到音视频的同步问题，经过实验测定，本系统中默认为70ms。

本发明的系统对实时性的要求很高，一般来说，音视频输入和输出之间的时间间隔不应超过0.5s。本发明系统的外部设备较少，执行速度主要受计算机信号处理方法速度的影响。由于各种算法的复杂度都不是很高，而且利用音视频跟踪等技术手段简化了处理过程，使得总的系统延迟得到严格的控制，保证了实时性要求。

Claims

1.一种自动调节的咽腔电子喉语音通讯系统，包括电子喉振荡器(2)，音视频采集模块与计算机软硬件系统，音视频采集模块包括麦克风、摄像头，摄像头和麦克风(3)固定于麦克风支架上，耳机(1)下方设置有固定带，电子喉施加装置设置于固定带(5)上，其特征在于：

该系统包括下述三个主要模块：

摄像头通过数据连接线将采集到的运动图像作为输入信号传输给运动图像处理模块进行视觉语音特征参数提取；运动图像处理后输出的视觉语音特征参数，又作为输入信号进入咽腔嗓音源动态合成模块控制波形的合成；合成的咽腔嗓音源波形再次通过数据线输出给电子喉施加装置，施加于颈部咽腔处；重建的咽腔电子喉语音经麦克风设备采集后，通过数据线输入语音实时增强模块，同时语音实时增强模块也接收咽腔嗓音源动态合成模块的输入信号；通讯模块的输入则包括摄像头采集的视频信号与增强后输出的语音信号两部分，最终经过网络输出到另一个客户端，同时另一个客户端发出的音视频信号也是在通讯模块接收并播放；

由电子喉施加装置向计算机软硬件系统传输音视频信号进行处理，计算机软硬件系统提取的图像采集与处理模块产生的开关信号与合成的咽腔嗓音源信号传输给电子喉施加装置，电子喉施加装置工作所需的电能由计算机软硬件系统提供。

2.根据权利要求1所述的一种自动调节的咽腔电子喉语音通讯系统，其特征在于：音视频采集模块同时开始工作，利用摄像头获取发声过程中使用者面部和颈部的运动图像作为系统输入，图像处理模块对输入图像进行预处理，去除干扰信号，再利用人脸肤色特征目标区域定位、分割、特征参数提取，以及特征区域运动的跟踪，得到与发声特征相关的视觉语音特征参数，再经自动控制合成系统通过关系转换由视觉语音特征参数推导出咽腔嗓音源合成所需的模型参数和图像采集与处理模块产生的开关信号，控制咽腔嗓音源波形合成以及电子喉施加装置的振动；与此同时，麦克风记录下咽腔电子喉重建语音信号，结合图像采集与处理模块产生的开关信号和咽腔嗓音源合成波形，指导泄露周期噪声和环境噪声的估计，以及谱减参数的调整，并对音频采集模块采集的信号进行谱减语音增强处理，最终将得到的视频图像和增强的音频信号整合后，由网络通讯模块完成发送、接收和本地播放，实现远程通讯。

3.根据权利要求2所述的自动调节的咽腔电子喉语音通讯系统，其特征在于：所述的面部运动图像处理主要是利用嘴唇形状特征反应发声起止的变化提取电子喉开关信号，具体步骤如下：

1)初始化参数，采集一帧视频图像；

2)利用唇色滤波器计算规定矩形范围的唇色特征值，并归一化为0-255灰度级，得到唇色特征值图像，如果存在前一帧，利用前一帧唇部区域范围和肤色平均特征值，指导这一帧计算；

3)利用改进的最大类间方差Otsu法计算最佳分割阈值，以此进行图像二值化分割，得到唇部预分割图像，如果存在前一帧，利用前一帧分割阈值指导这一帧分割阈值的计算；

5)对嘴唇区域进行轮廓和中心点提取，利用改进的一维哈夫Hough变换检测得到匹配嘴唇的椭圆模型长短轴参数，同时得到嘴唇区域范围，用于指导下一帧唇色特征值计算，如果存在前一帧，利用前一帧的长短轴指导这一帧的椭圆匹配；

4.根据权利要求2或3所述的自动调节的咽腔电子喉语音通讯系统，其特征在于：所述的颈部图像处理是利用喉上颈部区域的运动信号来提取嗓音源基频、幅度变化控制信号，具体步骤如下：

1)初始化参数，采集一帧视频图像；

2)利用肤色滤波器计算规定矩形范围的肤色特征值，并归一化为0-255灰度级，得到唇色特征值图像，如果存在前一帧，利用前一帧喉上颈部区域范围，指导这一帧计算范围；

3)利用最大类间方差Otsu法计算最佳分割阈值，并进行图像二值化分割，得到面部和颈部肤色区域图像，如果存在前一帧，利用前一帧分割阈值指导这一帧分割阈值的计算；

5.根据权利要求4所述的自动调节的咽腔电子喉语音通讯系统，其特征在于：采用基于肤色的人脸检测方法，利用肤色的聚类性，在YUV色彩空间计算唇色特征值和肤色特征值来增强目标区域与背景的区分度，目标得到增强后进入分割环节，采用最大类间方差Otsu法选取最佳分割阈值，为了使其适合唇色和肤色分割，提高执行效率，做了如下改进：

1)最大类间方差Otsu法的求解并不依靠灰度值或RGB彩色图像的某一色彩分量，而是对每个像素的唇色和肤色特征值归一化到灰度级0～255，并在此灰度图上利用最大类间方差Otsu法求最佳阈值T；

2)基于时间的连贯性和阈值变化的连续性，借助前一帧图像的最佳分割阈值，并在其邻域内搜索采集的一帧图像的最佳分割阈值，满足分割要求，而且提高执行速度。

6.根据权利要求2所述的自动调节的咽腔电子喉语音通讯系统，其特征在于：所述特征参数的提取针对不同的部位特征采用不同的方法：利用一维哈夫Hough变换检测得到匹配嘴唇的椭圆模型参数，提取唇部区域的嘴形特征参数，作为咽腔电子喉开关的控制信号；采用光流法提取颈部区域的运动信息特征参数，通过聚类分析作为咽腔电子喉嗓音源频率和幅度的控制信号，咽腔嗓音源的自动控制合成，以咽腔嗓音源模型为基础，利用从运动图像中提取的视觉语音特征参数自动调节咽腔嗓音源模型的合成参数，合成咽腔嗓音源波形，通过电子喉施加装置按合成波形输出振动。