CN100563608C

CN100563608C - 电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置

Info

Publication number: CN100563608C
Application number: CNB2008100673152A
Authority: CN
Inventors: 关添; 徐涛; 朱子俨; 叶大田
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2008-05-21
Filing date: 2008-05-21
Publication date: 2009-12-02
Anticipated expiration: 2028-05-21
Also published as: CN101301240A

Abstract

一种电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置，包括音频放大采样模块、存储模块、数字信号处理器及信号传输模块，其语音信号处理程序包括预处理单元、端点检测单元、语音识别单元以及特征编码单元，特征编码单元具有固定电刺激幅度变化模式库和刺激模式选择调整模块，它根据对语音段的识别结果，从固定电刺激模式库中选出对应的电刺激幅度变化模式，并对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，最终生成对应各个刺激电极的完整电刺激参数。本发明采用以汉语标准音节为识别单元的语音识别技术，利用固定电刺激幅度变化模式对识别结果进行电刺激编码与调整，能更加有效的恢复电子耳蜗佩戴者的汉语言语识别能力。

Description

电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置

技术领域

本发明涉及电子耳蜗恢复耳聋患者听觉领域，特别是一种适应汉语特征、结合汉语语音识别技术的电子耳蜗固定电刺激幅度变化模式体外语音处理装置及方法。

背景技术

电子耳蜗(也被称为耳蜗埋植、电子耳、仿生耳或人工耳蜗)，是目前唯一能使全聋患者恢复听觉的装置。它依靠直接用微弱电流兴奋听神经纤维模仿外周听觉系统的生理功能，产生与正常人耳相似的神经发放模式，从而恢复患者的听觉。电子耳蜗可以帮助全聋患者恢复语言交流能力，增加他们接受教育、就业和社会交往的机会。尤其是聋儿，无论是语前聋还是语后聋，当借助于助听器仍然无法听到声音时，将导致他们终生失去获得正常教育的机会，给家庭和社会增加沉重的负担。电子耳蜗可以帮助他们重新获得音感，获取外界的信息和知识，成为对社会有益的人。

目前电子耳蜗产品中，大多数体外语音处理装置采用了摩托罗拉公司的DSP56000系列DSP。该系列DSP计算速度较慢，功耗较大，片内RAM过小，其自带外设接口扩展时结构复杂，并不十分适合要求高性能、低功耗的电子耳蜗体外语音处理装置。同时，现有产品所采用的语音信号处理方法都是基于英语特点开发的算法，主要符合了印欧语系的特点，而汉语作为汉藏语系之一，并不属于印欧语系的亲属语系，两者差异较大，这也是造成现有语音处理方法对于汉语的言语识别效果难以让我国患者满意的原因之一。因此，高性能、低功耗的电子耳蜗体外语音处理装置，以及充分利用汉语特性的、利用固定电刺激幅度变化模式编码传递汉语声调等丰富信息的电子耳蜗语音处理方法的开发就显得格外重要。

现有电子耳蜗产品体外语音处理采用的语音处理方法可分为两大类，一类是基于特征提取，即提取语音信号的基频和共振峰等特征，然后产生相应电极的刺激信号。一类是基于滤波器组的语音信号处理方法，即对语音信号进行分频段滤波处理。

汉语是单音节结构的语言，而英语是多音节结构。以《新华字典》第10版所收汉字为统计对象，汉语共有416个基础音节(不含音调)，若考虑音调信息，则汉语共有标准音节(包含声调)1345个。因此，以标准音节作为语音识别单元对汉语语音进行识别，然后利用较高的语音识别率来提高电子耳蜗佩带者的言语识别能力是可行的；另一方面，汉语是一种声、韵、调语言，其中声调对于汉语的正确理解具有重要的意义。因此，利用加入声调作为识别特征进行汉语语音识别，进而利用刺激速率对声调特征进行编码，同样对于提高电子耳蜗佩带者的言语识别能力具有帮助。

发明内容

本发明的目的在于针对目前电子耳蜗存在的上述问题，提供一种电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置及方法，以更加有效地恢复我国耳聋患者的听力状况。

本发明电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置包括：

音频放大采样模块，用于将采集的语音信号转换为数字音频信号；

存储模块，它内部存储有语音信号处理程序；

数字信号处理器，它与音频放大采样模块和存储模块连接，通过运行存储模块内的语音信号处理程序对音频放大采样模块转换后的数字音频信号处理，输出相应的电刺激参数；以及，

信号传输模块，它与数字信号处理器连接，用于将所述电刺激参数传输给配套的电子耳蜗体内部分；

所述语音信号处理程序包括：

预处理单元，用于对音频放大采样模块转换后的数字音频信号进行采样、分帧；

端点检测单元，用于从预处理后的每帧信号中获取语音段；

语音识别单元，用于对语音段识别；以及，

特征编码单元，用于对语音识别的结果进行电刺激编码，它具有：

固定电刺激幅度变化模式库，它内部存储有与包含声调信息的所有汉语标准音节一一对应的固定电刺激幅度变化模式；以及，

刺激模式选择调整模块，它根据语音识别单元对语音段的识别结果，从固定电刺激模式库中选出对应的电刺激幅度变化模式，并分别根据语音识别结果的声母发声频率、声调信息、音长信息对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，最终生成对应各个刺激电极的完整电刺激参数。

进一步，语音识别单元采用基于隐马尔可夫模型(HMM)的非特定人、中等词汇量的连续语音识别算法。该语音识别单元包含：

语音特征提取模块，该模块用于从语音段中提取MFCC(Mel频率倒谱系数)和一阶差分MFCC作为该语音段的特征向量；

矢量量化模块，该模块根据由语音库训练得出的码本将从语音段提取的特征向量做一次矢量量化；

匹配计算模块，该模块根据由语音库训练得出的词条模型对量化后的特征向量进行匹配计算，得出初步的语音识别结果；以及，

语音理解及调整模块，该模块根据语义对识别结果进行调整，得出最终识别结果。

上述固定电刺激幅度变化模式库中的电刺激幅度变化模式与《新华字典》第10版的1345个标准音节一一对应；刺激模式选择调整模块首先根据语音识别结果从固定电刺激模式库中选出对应的电刺激幅度变化模式，然后分别根据语音识别结果的声母发声频率、声调信息、音长信息等对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，最终生成各个刺激电极的完整电刺激参数。电刺激参数包括：根据音节声母发声频率或第一个元音发声频率编码的微电极通道选择参数；根据声调信息编码的刺激速率参数；根据音节编码的固定电刺激幅度变化参数；以及，根据音长信息编码的刺激时间参数。

上述数字信号处理器采用TI公司的TMS320VC5509A数字信号处理器，音频放大采样模块采用美国楼氏电子公司的微机电式硅微型麦克风SP0103NC3-3以及WM8950音频放大采样滤波芯片，存储模块采用可高速读写的铁电存储器FM25L512，信号传输模块采用AD9833芯片和ADL5530芯片。还可包括有机发光显示器(OLED)，用于显示各功能模块的状态。

本发明采用基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的电源管理模块控制三节纽扣电池提供+5V、+3.3V和+12V工作电压。

本发明电子耳蜗汉语固定电刺激幅度变化模式语音处理方法是在对汉语特征进行深入分析的基础上，利用以音节为识别单元的语音识别方法以及固定电刺激幅度变化模式产生与调整等方法综合研究的结果。该语音处理方法分为语音信号预处理、端点检测、语音识别和特征编码四个部分，具体包括以下步骤：

对输入的语音信号进行采样、分帧的预处理步骤；

通过端点检测单元从预处理后的每帧信号中获取语音段的步骤；

通过语音识别单元对获取的语音段进行识别的步骤；和，

根据语音识别结果从固定电刺激幅度变化模式库选出对应的电刺激幅度变化模式，并分别根据语音识别结果的声母发声频率、声调信息、音长信息对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，生成对应各个刺激电极的完整电刺激参数的步骤，该电刺激参数用于控制电子耳蜗体内部分使配带者感知该语音信号。

本发明采用以汉语标准音节为识别单元的语音识别技术，利用固定电刺激幅度变化模式对识别结果进行电刺激编码与调整，并基于TMS320VC5509A实现高性能、低功耗的电子耳蜗体外语音处理装置，从而更加有效的恢复电子耳蜗佩戴者的汉语言语识别能力。其主要效果有：

a)采用了比较成熟的非特定人、中等词汇量的连续语音识别技术，该技术结合了Mel参数特征提取、矢量量化、隐马尔可夫模型模式匹配计算以及语义理解调整等模块，语音识别的正确率可以达到95％左右，从而为提高佩带者的言语识别率提供了保障。

b)在准确语音识别的基础上，本发明采用了和1345个汉语标准音节一一对应的固定电刺激幅度变化模式，保证了电刺激模式下佩带者的言语识别率和语音识别结果正确率的相关性，从而能更好的恢复使用汉语的电子耳蜗佩带者的言语恢复能力。

c)本发明最终生成的电刺激参数结合了电刺激的微电极通道选择模式、固定电刺激幅度变化模式、刺激速率变化模式和刺激时间四大特征，根据耳蜗的频率分析特性和汉语语音的音节频率分布特性，对上述四个主要参数进行排列组合，最大限度的保留了汉语语音的音色特性，从而能更好的恢复使用汉语的电子耳蜗佩带者的言语恢复能力。

d)采用TMS320VC5509A数字信号处理器为核心处理器，提高了系统运算能力，降低了系统功耗。同时由于该芯片片内RAM空间大，可以节省扩展外部RAM的模块，简化系统设计。

e)采用美国楼氏电子公司出品的微机电式(MEMS)硅微型麦克风SP0103NC3-3，提高了对语音信号的采集质量。该种硅微型麦克风是一种低成本、高性能以取代传统驻极体电容式麦克风(EMC)的新技术，通过利用集成电路技术将微型机械系统与电子组件集成于硅晶面板的表面，集生产高度重复性、优异的声音性能和将来灵活的扩展性能于一身，从语音信号的采集开始就提升音频信号的质量。

f)采用基于WM8950芯片的音频放大采样模块，简化了电路。WM8950集成了差分或单端麦克风，具备麦克风前置放大器(可编程前置放大器增益)，无需要外接麦克风放大器，外围器件简单，工作电压灵活(2.5V-3.6V)，信噪比为95dB，谐波失真为-85dB。该模块具备可编程高通滤波器以及IIR滤波器，去除高频噪声干扰。

g)采用可高速读写的铁电存储器FM25L512，提高了性能，降低了成本。该芯片为带有工业兼容SPI接口的512Kb非易失性FRAM，可以直接替代相应的EEPROM、FLASH等存储设备，而且性能更佳，并能以高达20MHz的总线速度执行无延时的读写操作，同时提供10年的数据保存能力，以及几乎无限的读写次数和极低的工作电流，能够提高数据采集和存储能力，灵活配置存储和RAM空间，并且削减应用成本和PCB空间。

h)采用有机发光显示器(OLED)，提高了性能，降低了能耗。有机发光显示器与传统的液晶显示方式不同，无需背光灯，而且OLED显示屏幕可以做得更轻更薄，可视角度更大，并且能够显著节省电能。

附图说明

图1是本实施例电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置的结构框图；

图2是其语音处理方法的结构框图；

图3是汉语音节“ā，á，ǎ，à”的固定电刺激幅度变化模式刺激幅度分布示意图。

具体实施方式

下面结合附图说明本发明的具体实施方式。

如图1所示，本电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置由电源管理模块3、扩展存储模块5、数字信号处理器(DSP)1、音频放大采样模块4、信号传输模块6、显示模块2以及数据接口7等构成。语音信号经过硅麦克风采集后接入基于WM8950芯片的音频放大采样模块4，处理后的数字音频信号接入TMS320VC5509A数字信号处理器1，处理器1从基于FM25L512的扩展存储模块5中读取语音信号处理程序，并对数字音频信号进行处理，处理结果输出到基于AD9833和ADL5530的信号传输模块6，经过天线传输给体内处理部分。所有体外语音处理装置功能模块的供电由基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的电源管理模块3控制。各功能模块的状态由基于SSD1332的1.04寸OLED显示模块2显示。

下面分别介绍各部分模块的具体实施方式：

数字信号处理器1采用TI公司的TMS320VC5509A低功耗处理器，提高了系统运算能力，降低了系统功耗。该处理器最高主频200MHz，运算功能非常强大，非常适合便携式设备的应用要求。同时由于该芯片片内RAM空间大，无需重新设计扩展电路。芯片还集成了丰富的外设接口，可以和很多外设设备实现无缝连接，从而节省外围元件设计，简化系统结构。

音频放大采样模块4采用了美国楼氏电子公司(Knowles Electronics LLC)出品的微机电式(MEMS)硅微型麦克风SP0103NC3-3以及WM8950音频放大采样滤波芯片。其中的硅微型麦克风SP0103NC3-3是一种低成本、高性能以取代传统驻极体电容式麦克风(EMC)的新技术。该麦克风采用了低成本的封装方式，将MEMS传感器、CMOS LSI、被动元件的底板和顶板、以及配置于底板与顶板之间的柱利用环氧树脂材料FR-4封装在一起，通过利用集成电路技术将微型机械系统与电子组件集成于硅晶面板的表面，集生产高度重复性、优异的声音性能和将来灵活的扩展性能于一身，使得本发明从语音信号的采集开始就提升了音频信号的质量。硅麦克风采集音频信号利用基于WM8950芯片的音频放大采样模块进行进一步的处理和数字化。WM8950作为一款低功耗、高质量的单声道ADC芯片，采用Sigma-Delta转换技术，采样率从8kHz到48kHz灵活可调。芯片还集成了差分或单端麦克风，具备麦克风前置放大器(可编程前置放大器增益)，无需要外接麦克风放大器，外围器件简单，工作电压灵活(2.5V-3.6V)，数字电压可低到1.71V，片内的PLL用来从外接参考时钟提供所需的主时钟。芯片信噪比为95dB，谐波失真为-85dB。该模块具备可编程高通滤波器以及IIR滤波器，去除高频噪声干扰，性能优异。该芯片采用4x4mm 24引脚QFN封装，节省了硬件空间。WM8950利用I2C接口和McBSP0接口与DSP连接进行控制信号和数据的传输。

扩展存储模块5采用可高速读写的铁电存储器FM25L512。该芯片为带有工业兼容SPI接口的512Kb非易失性FRAM，可以直接替代相应的EEPROM、FLASH等存储设备，而且性能更佳，并能以高达20MHz的总线速度执行无延时的读写操作，同时提供10年的数据保存能力，以及几乎无限的读写次数和极低的工作电流，能够提高数据采集和存储能力，灵活配置存储和RAM空间，并且削减应用成本和PCB空间。FM25L512芯片通过数据、地址线和片选等控制信号线和数字信号处理器1进行连接。

信号传输模块6采用AD9833和ADL5530芯片。AD9833是ADI公司生产的一款低功耗，可编程波形发生器，能够产生正弦波、三角波、方波输出。AD9833无需外接元件，输出频率和相位都可通过软件编程，易于调节，频率寄存器是28位的，主频时钟为25MHz时，精度为0.1Hz，主频时钟为1MHz时，精度可以达到0.004Hz。本发明中AD9833产生10MHz的正弦波，作为无线传输的载波信号，载波信号经过ASK编码调制后由ADL5530放大。ADL5530是ADI公司出品的中频放大器之一，为支持70MHz、140MHz、190MHz、240MHz与380MHz等最常见的中频应用而专门设计。该款中频放大器提供41dBm高线性度，对于最佳信号动态范围其噪声系数保持在2.5dB，此外还内置片上偏置电路、支持1KV Class 1C ESD。

显示模块2采用基于有机发光显示器(OLED)的显示模块。OLED选用了韩国Kolon公司生产的NVK-064SC001F-S有机发光显示器，分辨率为96×64，65K色彩。有机发光显示器与传统的液晶显示方式不同，无需背光灯，而且OLED显示屏幕可以做得更轻更薄，可视角度更大，并且能够显著节省电能。OLED屏幕由驱动芯片SSD1332控制。SSD1332显示驱动芯片是CMOS型OLED被动式电流驱动器，具有可编程的刷新率，16级的驱动主电流调制，256阶对比度以及65K色的色彩控制。内置容量为96×64×16位的图像数据存储器(GDDRAM)，支持显示屏的分辨率为96×64。驱动芯片与DSP之间利用外部存储器接口EMIF进行连接。8位数据线上的数据将作为图像显示数据，根据WR和RD的选通方式写入或读出数据缓存GDDRAM；当D/C为低时，P3口输出作为命令，经命令译码器译码，并写入到相应的命令寄存器，控制显示时序发生器和行列驱动模块，从而控制显示屏的显示状态。内置晶振为显示时序发生器产生时钟，确定扫描信号、驱动信号、行同步信号和场同步信号产生的时间。灰阶译码器根据图像数据确定每个像素点R、G、B三基色各自的驱动电流值，发送给列驱动器，使之产生相应大小的驱动电流。行扫描器的功能主要是产生显示屏行上的电压扫描信号，列驱动器则是提供96×3(RGB)路电流驱动OLED显示屏，驱动电流从0～200uA可256阶调制。

电源管理模块3采用基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的电源管理模块。电力由三节锌空纽扣电池提供，TPS63000通过升压/降压电路将输出电压固定在5V，该芯片可在全电池放电电压范围内高效工作，大大延长了电池寿命。+5V的电压通过低压降稳压器TPS71733转换成低纹波的+3.3V电压。TPS65120则提供OLED显示模块需要的+12V和+3.3V电压。TPS3103K33DBV则负责整个电源管理模块的监测和控制。

数据接口7采用了DSP自带的USB接口和JTAG接口和PC机进行通讯。

参照图2，本发明采用的语音处理程序包括：

预处理单元S1，用于对音频放大采样模块转换后的数字音频信号进行采样、分帧；

端点检测单元S2，用于从预处理后的每帧信号中获取语音段；

语音识别单元S3，用于对语音段识别；以及，

特征编码单元S4，用于对语音识别的结果进行电刺激编码，它具有：

固定电刺激幅度变化模式库S42，它内部存储有与包含声调信息的所有汉语标准音节一一对应的固定电刺激幅度变化模式；以及，

刺激模式选择调整模块S41，它根据语音识别单元对语音段的识别结果，从固定电刺激模式库中选出对应的电刺激幅度变化模式，并根据语音识别结果的声母发声频率、声调信息、音长信息等对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，最终生成各个刺激电极的完整电刺激参数。

语音识别单元S3采用基于隐马尔可夫模型(HMM)的非特定人、中等词汇量的连续语音识别算法。包含：

语音特征提取模块S31，该模块用于从语音段中提取MFCC(Mel频率倒谱系数)和一阶差分MFCC作为该语音段的特征向量；

矢量量化模块S32，该模块根据由语音库训练得出的码本S35将从语音段提取的特征向量做一次矢量量化；

匹配计算模块S33，该模块根据由语音库训练得出的词条模型S36对量化后的特征向量进行匹配计算，得出初步的语音识别结果；以及，

语音理解及调整模块S34，该模块根据语义对识别结果进行调整，得出最终识别结果。

下面进一步详细说明。

预处理单元S1主要是对语音信号进行采样、A/D转换、分帧等。采样利用AD转换器，采样率为16kHz。分帧是用来实现分割语音处理单元，从而使语音信号在分割后的单帧处理单元中近似平稳。为了体现相邻两帧的相关性，本发明采用了帧移为帧长1/2的重叠帧。分帧时，为了方便计算，本发明采用了512点的帧长(32ms)，256点的帧移，16位量化。

语音信号的端点检测是指应用数字处理技术对输入的语音信号进行判断，准确找出语音段的起始点和终止点。在语音识别中正确地决定所要识别语音的起点、终点对于提高识别率是非常重要的。在电子耳蜗语音处理方法中，一方面利用准确的端点检测技术能使系统的运算时间减少(处理帧数减少)，提高系统的效率；另一方面能够排除无声段的噪声干扰，从而使后续处理的性能有所提高。本发明中端点检测单元S2采用基于倒谱距离门限的端点检测技术。倒谱距离测量法根据每个信号帧与噪声帧的倒谱距离的轨迹进行检测，它也采用门限判决的方法，只是同能量方法相比，门限值是倒谱距离门限而不是短时能量门限。计算方法如下：1)首先计算背景噪声的倒谱系数，平均后作为背景噪声倒谱系数的估计值用向量C表示。2)计算每帧信号的倒谱系数，然后计算每帧信号的倒谱系数与噪声倒谱系数估计值的倒谱距离。公式如下：

d_{cep}^{'} = 4.3429 \sqrt{{(c_{0} - c_{0}^{'})}^{2} + 2 Σ_{n = 1}^{p} {(c_{n} - c_{n}^{'})}^{2}} .

式中：c′_n对应于C的倒谱系数；p为倒谱系数的阶数。3)由步骤2)计算的各帧倒谱距离得到倒谱距离轨迹，然后利用近似能量方法中门限判决的方法检测语音段和噪声段，从而得到语音信号的端点。

语音识别技术是本发明的关键技术之一。语音识别以语音为研究对象，它是多媒体音频技术的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域。本发明采用的是非特定人、中等词汇量的连续语音识别技术，主要包括语音特征提取、矢量量化、匹配计算和语义理解及调整模块。特征的提取和选择要综合考虑到存储量的限制和识别性能的要求，本发明采用了在一定程度上模拟了人耳对语音处理特点的Mel参数-Mel频率倒谱系数(Mel-Frequency Ceptral Coefficients，MFCC)及其一阶差分作为提取的语音特征，并利用隐马尔可夫模型(HMM)进行模式匹配计算，最后通过汉语语义的理解及调整得出最终的语音识别结果。其中，语音特征提取方法如下：1)对语音帧进行512点的离散傅立叶变换(DFT)，该帧语音的频谱为：

S (k, m) = Σ_{n = 0}^{511} s (n, m) \exp (- j \frac{2 πnk}{512}) .

对语音的频谱取模平方就会得到离散功率谱。2)将得到的离散功率谱用三角滤波器组进行滤波，得到一组系数。该组滤波器在频域上为简单的三角形，在Mel频率轴上是均匀分布的。所有滤波器总体上覆盖了从0Hz到二分之一的采样频率。3)利用离散余弦变换(DCT)求得倒谱系数：

C_{i} = \sqrt{\frac{2}{p}} Σ_{j = 1}^{p} m_{j} \cos [\frac{πi}{p} (j - 0.5)] .

4)根据标准MFCC就得一阶差分如下：

d (n) = \frac{1}{\sqrt{Σ_{i = - 2}^{2} i^{2}}} Σ_{i = - 2}^{2} i \times c (n + i) .

本发明采用了12维MFCC以及12维的一阶差分MFCC作为特征向量。

本发明采用的码本大小为128，根据码本将提取的特征向量做一次矢量量化(VQ)。这样特征矢量的概率分布就简化为一个离散的概率分布矩阵。然后根据数据库训练得出的词条模型进行模型匹配计算，得出初步的语音识别结果，再根据语义对结果进行调整，从而得出语音识别的最终结果。

语音识别结果确定后，从固定电刺激幅度变化模式库S42中选取与识别结果对应的幅度变化模式，固定电刺激幅度变化模式库中的刺激模式是固定对应于1345个汉语标准音节(包含声调)的刺激幅度变化模式。汉语标准音节的统计数据是以《新华字典》第10版的基础音节为标准，共计1345个标准音节(包含声调)，该1345个标准音节的固定电刺激幅度变化模式由电听觉实验得到。

然后根据语音识别结果的声母发声频率、声调信息、音长信息等对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，最终生成各个刺激电极的完整电刺激参数。其中，

电子耳蜗微电极通道选择模式是根据语音识别结果的音节声母发声频率进行编码。根据人耳电听觉的位置-音调原理，参考汉语语音的音节频率表，对1345个标准音节(包含声调)根据其声母发声频率分为8组，没有声母的音节，例如an，ou等则根据第一个元音的发声频率分组，分出的8组分别对应8种电子耳蜗电极通道选择模式，如表1所示。每种模式同时刺激8个通道，提高了植入者的感知率和识别率，减少了由于个体差异带来的漏听和误听现象。

刺激速率变化模式是根据语音识别结果的声调信息进行编码。具体方法是：根据人耳电听觉的速率-音调原理和测试得到的患者可感知的电刺激速率变化范围，在该范围内确定五个不同的电刺激速率，分别用“快”、“较快”、“中”、“较慢”、“慢”表示；将每个音节的刺激持续时间分为五个时间段，由五个时间段的刺激速率快慢变化描述该音节的音调信息，汉语音节的四声调对应的四种不同的电刺激速率变化模式见表2；根据语音识别结果的声调信息按表2设置各个音节的电刺激速率变化模式，即：如果音节的声调为“一声”，则其电刺激速率变化模式为“快、快、快、快、快”，如果音节的声调为“二声”，则其电刺激速率变化模式为“中、中、较快、快、快”，如果音节的声调为“三声”，则其电刺激速率变化模式为“较慢、慢、较慢、中、较快”，如果音节的声调为“四声”，则其电刺激速率变化模式为“快、较快、中、较慢、慢”。

本发明采用四种不同的电刺激速率的变化模式定义汉语的四声调，辅助刺激幅度等特征构成电刺激模式，可以提高植入者对声调信息的感知和识别，从而提高对汉语信息的识别能力。

刺激时间是根据语音识别结果的音长信息进行编码。固定电刺激幅度变化模式持续时间是可变化的，且持续的时间长短与语音识别结果音节的实际音长信息一致，为植入者传递了音长信息。一个音节的电刺激结束后，都会有一个固定时间段的静止时间，便于植入者分隔区别前后两个音节的刺激模式，提高语音识别率。

图3是汉语音节“ā，á，ǎ，à”的固定电刺激幅度变化模式刺激幅度分布示意图。图中纵坐标代表不同被选中通道，横坐标代表四个音节固定刺激模式的时间分布，图中灰度代表固定刺激模式的刺激幅度。

本发明结合以标准音节为识别单元的语音识别技术，利用固定电刺激幅度变化模式对识别结果进行电刺激编码与调整，完善了适合汉语特征的电子耳蜗语音处理方法，生成了符合方法的刺激电流参数，从而为更好的恢复我国患者的听力奠定了基础。

Claims

1、一种电子耳蜗汉语固定电刺激幅度变化模式体外语音处理装置，其特征在于包括：

存储模块，它内部存储有语音信号处理程序；

所述语音信号处理程序包括：

端点检测单元，用于从预处理后的每帧信号中获取语音段；

语音识别单元，用于对语音段识别；以及，

2、根据权利要求1所述的体外语音处理装置，其特征在于：所述端点检测单元采用基于倒谱距离门限的端点检测算法。

3、根据权利要求1所述的体外语音处理装置，其特征在于：所述语音识别单元采用基于隐马尔可夫模型的非特定人、中等词汇量的连续语音识别算法。

4、根据权利要求3所述的体外语音处理装置，其特征在于所述语音识别单元包含：

语音特征提取模块，该模块用于从语音段中提取MFCC和一阶差分MFCC作为该语音段的特征向量；

5、根据权利要求1-4任一项所述的体外语音处理装置，其特征在于：所述数字信号处理器采用TI公司TMS320VC5509A数字信号处理器，音频放大采样模块采用美国楼氏电子公司的微机电式硅微型麦克风SP0103NC3-3以及WM8950音频放大采样滤波芯片，存储模块采用可高速读写的铁电存储器FM25L512，信号传输模块采用AD9833芯片和ADL5530芯片。

6、根据权利要求5所述的体外语音处理装置，其特征在于：还包括有机发光显示器，用于显示各功能模块的状态。

7、根据权利要求5所述的体外语音处理装置，其特征在于：采用基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的电源管理模块控制三节纽扣电池提供+5V、+3.3V和+12V工作电压。

8、一种电子耳蜗汉语固定电刺激幅度变化模式体外语音处理方法，其特征在于包括以下步骤：

对输入的语音信号进行采样、分帧的预处理步骤；

通过语音识别单元对获取的语音段进行识别的步骤；和，

根据语音识别结果，从固定电刺激幅度变化模式库选出对应的电刺激幅度变化模式，并分别根据语音识别结果的声母发声频率、声调信息、音长信息对电极通道选择模式、刺激速率变化模式、刺激时间进行调整，生成对应各个刺激电极的完整电刺激参数的步骤，该电刺激参数用于控制电子耳蜗体内部分使配带者感知该语音信号。

9、根据权利要求8所述的语音处理方法，其特征在于，根据语音识别结果的声调信息调整电刺激速率变化模式的方法为：

根据人耳电听觉的速率-音调原理和测试得到的患者可感知的电刺激速率变化范围，在该范围内确定五个不同的电刺激速率，分别用“快”、“较快”、“中”、“较慢”、“慢”表示；

将每个音节的刺激持续时间分为五个时间段，由五个时间段的刺激速率快慢变化描述该音节的声调信息，汉语音节的四声调对应的四种不同的电刺激速率变化模式为：按照从时间段一到时间段五的顺序，“一声”对应的电刺激速率变化模式为“快、快、快、快、快”，“二声”对应的电刺激速率变化模式为“中、中、较快、快、快”，“三声”对应的电刺激速率变化模式为“较慢、慢、较慢、中、较快”，“四声”对应的电刺激速率变化模式为“快、较快、中、较慢、慢”；

根据语音识别结果的声调信息按所述汉语音节的四声调对应的四种不同的电刺激速率变化模式设置各个音节的电刺激速率变化模式。

10、根据权利要求8所述的语音处理方法，其特征在于：所述固定电刺激幅度变化模式库中的电刺激幅度变化模式与《新华字典》第10版的1345个标准音节一一对应。