CN102318371B

CN102318371B - 高级包络编码音调声音处理方法和系统

Info

Publication number: CN102318371B
Application number: CN201080006987.8A
Authority: CN
Inventors: A·E·范达利; R·J·M·范赫塞尔
Original assignee: Hearworks Pty Ltd
Current assignee: Cochlear Ltd
Priority date: 2009-02-03
Filing date: 2010-02-03
Publication date: 2017-03-15
Anticipated expiration: 2030-02-03
Also published as: EP2394443A4; CN102318371A; EP3975587A1; JP5901971B2; EP2394443A1; US9084893B2; JP2012517124A; AU2010210292A1; WO2010088722A1; US20110286618A1; EP2394443B1

Abstract

本发明公开了一种用于听力假体内处理声音信号的系统(20)，该系统包括一个传感器(1)用于将声音信号转换成电信号(30)。第一个处理器(4)用于将语言电信号(30)处理成多个频道信号，每个信道信号具有一个振幅包络，可明确至少一组通道输出(40、41)。第二个处理器(5)用于获取与电信号(30)基频相关的信息。第三个处理器(6)用于获取与电信号(30)谐波性质相关的信息。一个调制器(7)用于根据与电信号基频和谐波性质相关的信息，调制从第一个处理器处接收到的至少一组信道输出(40、41)，产生至少一组改进的信道输出(70、71)。一个选择器(8)用于从至少一组被改进的信道输出(70、71)中选择一个或多个信道以明确至少一个或多个信道与语言电刺激的幅度一起用于电刺激，并据此产生刺激信号(80、81)。一个发送器用于发送语言刺激信号为听力假体(11)所用。

Description

高级包络编码音调声音处理方法和系统

相关申请的交叉参考

本申请要求2009年2月3日提交的澳大利亚临时专利申请号2009900365的优先权的权益，其内容通过参考并入本文。

发明领域

本发明涉及一种用于处理从声音信号中提取出的信号的系统和方法，具体来说，是涉及一种系统和方法用于处理从声音信号中提取出的信号，以在听觉假体中产生刺激，包括人工耳蜗植入和其他需要以声码器为基础的声音处理或编码系统。

发明背景

人工耳蜗植入在临床上已被证明能够有效地向患有严重听力损失的患者提供听觉。这些设备通常包含一系列被置于患者耳蜗内的可植入电极，这些电极可直接将电刺激作用于尚未坏死的听觉神经元，被大脑感知后辨别为声音。作用于患者听觉通路的电刺激来源于一种声波信号，而声音处理器则负责根据各种声音处理方案对此声波信号进行处理。

传统上，大多数早期的声音处理方案主要是处理声信号，使接受者能够获得某种程度的开集言语识别。就这一点而论，现有的声音处理方案已经成功地使接受者能够在安静的环境中并且无唇读辅助的情况下理解对话言语。然而，在对比了正常听力和耳蜗植入听力后，研究者发现耳蜗植入使用者几乎感知不到音调以及形成音乐旋律基础的音高信息。

音调信息在言语感知中发挥着重要作用。音调信息能够提供重要的言语语言特征的线索，如能够帮助听者辨别说话人提问和陈述之间区别的语调以及说话人加在某个词语或某句话的重音。音调信息也能够提供重要的言语副语言特征的线索以辅助辨识说话人、确定说话人的情绪状态以及帮助听者隔除其他同时说话人的声音。

最重要的是，音调信息对感知如普通话和广东话这样的声调语言至关重要，这一点早已被确定。在这两种语言中，相同音素段内声音基频发生的变化会导致词义发生变化。

目前已经研发出多种处理声音信号的声音处理方案为刺激听觉假体所用，如人工耳蜗植入。有一种“多峰方案”主要集中于对言语的信号方式进行编码，如共振峰和声音基频(F0)。在这一方案中，音调信息主要通过电刺激速率的方式进行编码。但是，尽管这一方案的结果显示音高可以被感知到，但是在现实情况下性能会迅速衰退，这一点在有噪音的情况下尤甚。其他方案已经提出，通过幅度调制的方式、以一个等于或与音频相关的频率、在电刺激信号的包络中对音调信息(音频高达约300赫兹的)进行编码。这些方案包括“最大谱峰声音处理法”(Spectral Maxima Sound Processor，简称SMSP)(在McDermott和Vandali，1991年澳大利亚专利号657959和美国专利号5597380中有更所详细信息)，最近实现的被称为“谱峰法”(Spectral Peak，简称为SPEAK)(Skinner等人，1994；Whitford等人，1995)，及高级组合编码方案(Advanced Combinational Encoder，简称为ACE)(Vandali等人，2000；Skinner等人，2002)。但是，对以上方案的音高感知度进行检验的研究表明，对某些信号以及在现实状况下，音高线索的显著性和准确性很低，并且在噪音中其性能会迅速衰退。

一系列对现有声音编码方案的修改浮现出来，试图对声音和(或)音乐音高的编码进行改良。这其中包括由“增强调制深度法”(Modulation Depth Enhancement，简称为MDE)和“多渠道包络调制”(Multi-channel Envelope Modulation，简称为MEM)(Vandali等人，2005，公开于美国专利公开号20060080087)；Vandali,A.E.和van Hoesel,R.J.的“增强调制深度用于音调感知”(Modulation depth enhancement for tone perception)，美国专利号7561709；以及Vandali,A.E.、van Hoesel,R.J.和Seligman,P.M.的“听觉假体中的音高感知”(Pitch perception in an auditory prosthesis)，美国专利申请US 2006/0080087的部分接续专利申请。此外，MeDermott和McKay提出了一种改进人工耳蜗植入系统中音高编码的设备(McDermott,H.,和McKay,C.，“人工耳蜗植入声音处理方法和系统”，美国专利申请号US 2005/0107843)。以上所有文件都通过参考并入本文。

尽管在改进声音和(或)音乐音高的编码方面，尤其用于刺激听觉假体的编码方面做了上述努力，但是在一系列听力情况下还存在提高此感知度的需求。基于此，本发明通过在人工耳蜗植入系统内创建一套完整的声音和(或)音乐音调信息编码系统满足了这种需求，并且此方法能有效地抵御噪音及(或)干扰信号的影响。

以上对于先前提案或产品的引用和描述并不欲作为或设计为对该领域的一般常识性知识的陈述或坦白。尤其是，以下先前的工艺论述不涉及领域技术人员常用或熟知的内容，但有助于理解本发明的发明步骤，而对先前相关工艺建议的确定只是本发明的一部分。

发明内容

在第一方面，本发明提供了一种用于听力假体内的声音信号处理方法，包括：

将所述声音信号转换成电信号；

将所述电信号处理成多个频道的信号，每个频道的信号含有一个振幅包络可明确至少一组频道输出；

获取与电信号基频有关的信息；

获取与电信号的谐波性质有关的信息；

根据与电信号基频和谐波性质有关的信息调制至少一组频道输出，以产生至少一组改进的频道输出；

选择从至少一组改进的频道输出中选择一个或多个频道来明确至少一个或多个频道，以通过听力假体中一个对应的电极进行电刺激以及确定电刺激的幅度。

在一个实施方案中，将所述声音信号转换成一个电信号的步骤包括使用一个麦克风来检测并将声音信号转换成一个电信号。电信号可能会被进一步放大，然后电信号会穿过一个模拟数字转换器从而产生一个采样信号。

在另一个实施方案中，将电信号转换成多个频道信号的步骤包括使电信号穿过第一组带通滤波器。之后，每个频道信号可能会穿过一个包络检波器，产生一组对应的频道包络信号作为第一组信道输出。

第一组信道输出的每个频道包络信号可能会及时被一个信道包络跟踪器变得平缓，而派生出缓慢移动的频道包络信号，作为第二组信道输出。该频道包络跟踪器可能会以一种低通滤波器的形式工作，可使每个频道包络信号中的频率分量平缓至大约70赫兹以上。

将电信号处理成多个频道信号的步骤还可能包括使电信号穿过第二组带通滤波器。第二组带通滤波器可能与第一组带通滤波器有大致相同的中心频率，并且每个滤波器可能有足够宽的宽度，可以允许至少两个确定与电频率有关的最高基频谐波通过，以产生多个宽带信道信号。每个宽带信道信号可能会穿过一个包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。

在另一个实施方案中，获取与电信号基频有关的信息的步骤包括是电信号穿过一个基频估值器。该估值器可能是一个相位声码器快速傅里叶变换(FFT)滤波器，可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。基频估值器可能会确定在电信号中检测到的最主要谐波信号的基频，并且可能会产生一个表示最主要基频预估的信号。基频估值器可能会进一步产生一个表示在频率高达约2千赫兹的电信号中最主要基频和总信号功率之功率比的信号。

在另一个实施方案中，获取与电信号谐波性质有关的信息的步骤包括，将表示电信号中最主要基频和总信号功率之功率比的信号传送到一个周期概率估值器。该周期概率估值器可能会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳，而推导出一个输入信号(高达2千赫兹)的周期概率值。

在另一个实施方案中，获取与电信号谐波性质有关的信息的步骤包括，将电信号中和第三组信道输出中的任何正弦频率分量的频率和功率传送到周期概率估值器中。周期频率估值器可能会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率，并且可能为每个信道产生一个信道周期概率信号。

在另一个实施方案中，一个信道调制器负责根据有关电信号基频和谐波性质的信息，调制至少一组信道输出以产生至少一组改进的信道输出。该信道调制器可能接收到第二组信道输出并且可能通过一个周期调制函数来调制信号，该函数实质上等于由基频估值器得出的预估的电信号最主要基频。经过调制的第二组信道输出的大小可能会被由周期概率估值器得出的信道周期概率信号改变，从而产生一组大小变化了的并且经过调制的第二组信道输出。

信道调制器可能进一步接收第一组信道输出，并且可能通过每个信道的非周期概率信号(如一个负的信道周期概率)来改变每个第一信道输出的大小，从而得出改变大小的第一组信道输出。该组信道输出可能会被信道调制器进一步削弱，尤其是当输入信号周期概率值显示出输入信号为周期性的，从而得出改变大小的并且被削弱的第一组信道输出。

在一个实施方案中，被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合，以得出改进了的第四组信道输出。在另一个实施方案中，被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合，以得出一组还原信道包络信号。

在另一个实施方案中，从至少一组改进的信道输出中选择一个或多个信道的步骤包括，从具有一个最大频谱幅度的、改进的第四组信道输出中选择信道。选择具有最大频谱幅度的信道可能至少有一部分通过全部帧被多路传输，以增加选定信道的频谱范围并在选定的最大值信道中引发更大的传播。具有最大频谱幅度的选定信道的幅度可能会从那一组还原频道包络信号的幅度还原。

根据第二个方面，本发明提供了一种用于听力假体内的声音信号处理方法，包括：

将所述声音信号转换成电信号；

确定电信号是否包含谐波及(或)非谐波信号；

对于部分包含谐波信号的电信号，通过一个与谐波信号基频相等的频率周期函数来调制缓慢变化的信道输出包络，以得出一个或多个被调制的信道包络信号；

对于部分包含非谐波信号的电信号，得出一个或多个为被调制的信道包络信号；

对每个信道，根据事先确定的混合比例将被调制的信道包络信号与未被调制的信道包络信号相混合，以得出每个频道的经混合的信道刺激信号；以及

根据经过混合的信道刺激信号，选择一个或多个信道以确定至少一个或多个信道用于电刺激并将刺激作用于对应的听力假体电极上。

在本发明这一方面的一个实施案例中，事先确定的混合比例是从频道信号与电信号中最主要基频的相关度而得出的。频道信号和电信号中最主要基频的关系越强，则混合比例越大；反之，频道信号和电信号中最主要基频的关系越弱，则混合比例越小。

根据本发明的第三个方面，本发明提供了一种用于听力假体内的声音信号处理系统，该系统包括：用于听力假体内的声音信号处理系统，该系统包括：

一个转换器，用于将声音信号转换成电信号；

第一个处理器，负责将所述电信号处理成多个频道信号，每个信道信号含有一个振幅包络以确定至少一组信道输出；

第二个处理器，负责获取与电信号的基频相关的信息；

第三个处理器，负责获取与电信号的谐波性质相关的信息；

一个调制器，负责根据与电信号的基频和谐波性质相关的信息，调制至少一组从第一个处理器接收的信道输出，以产生至少一组改进的信道输出；

一个选择器，负责从至少一组改进的信道输出选择一个或多个信道，以确定至少一个或多个信道用于电刺激及所述电信号的幅度并据此产生刺激信号：以及

一个发送器，负责发送所述听力假体所用的所述刺激信号。

根据本发明的第三个方面的一个实施方案，传感器配置有一个麦克风用以检测声音信号并将其转换成电信号。该传感器可能还会包含一个用于放大电信号的放大器和一个用于产生采样信号的模拟数字转换器。

第一个处理器可能包含第一组带通滤波器，可以将电信号处理成多个频道信号。该处理器可能还会包含一个包络检波器，经过配置可能会使每个信道信号进一步穿过该包络检波器，从而产生一组相应的信道包络信号，作为第一组信道输出。该处理器还可能包含一个信道包络跟踪器，经过配置可能会接受第一组信道输出所发出的所有信道包络信号，从而产生缓慢移动的信道包络信号，作为第二组信道输出。

第一个处理器还可能包含第二组带通滤波器。第二组带通滤波器可能与第一组带通滤波器有大致相同的中心频率，并且每个滤波器可能有足够宽的宽度，可以允许至少两个确定与电频率有关的最高基频谐波通过，以产生多个宽带信道信号。该处理器还可能包含第二个包络检波器，每个宽带信道信号可能会穿过该包络检波器而产生多个合成宽带信道包络信号作为第三组信道输出。

第二个处理器可能包含一个基频估值器。该估值器可能是一个相位声码器FFT滤波器，可将电信号进行处理后提供存在于频率高达2千赫兹的电信号中的任何正弦频率分量的频率和功率预估值。基频估值器可能会确定在高达2千赫兹的电信号中检测到的最主要谐波信号的基频，并且可能会产生一个表示最主要基频预估的信号。基频估值器可能会进一步产生一个表示在频率高达约2千赫兹的电信号中最主要基频和总信号功率之功率比的信号。

第三个处理器可能包含一个周期概率估值器，该估值器至少会接收表示电信号中最主要基频和总信号功率之功率比的信号。该周期概率估值器可能会通过压缩限制和使表示电信号中最主要基频和总信号功率之功率比的信号变得平稳，而推导出一个输入信号的周期概率值。该周期概率估值器可能会接收到电信号中和第三组信道输出中的任何正弦频率分量的频率和功率。周期频率估值器可能会估计出任何频道的信号与被估计的电信号的最主要基频相关的概率，并且可能为每个在从基频估值器确定的电信号中和从第二组带通滤波器确定的第三组信道输出中使用任何正弦频率分量的频率和功率的信道产生一个信道周期概率信号。

调制器可能是一个信道调制器，可能接收到第二组信道输出并且可能通过一个周期调制函数来调制信号，该函数实质上等于由基频估值器得出的预估的电信号最主要基频。经过调制的第二组信道输出的大小可能会被由周期概率估值器得出的信道周期概率信号所改变，从而产生一组大小变化了的并且经过调制的第二组信道输出。信道调制器可能进一步接收第一组信道输出，并且可能通过一个负的信道周期概率来改变每个第一信道输出的大小，从而得出改变大小的第一组信道输出。第一组信道输出可能会被信道调制器进一步削弱，尤其是当输入信号周期概率值显示出输入信号为周期性的，从而得出改变大小的并且被削弱的第一组信道输出。被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被削弱的第一组信道输出相混合，以得出改进了的第四组信道输出。被改变大小并且被调制的第二组信道输出可能会与被改变大小并且被调制的第一组信道输出相混合，以得出一组还原信道包络信号。

选择器可能是一个极大值选择器，可根据具有最大频谱幅度的输出，从至少一组改进的信道输出中选择一个或多个信道。极大值选择器还可能包含一个多路复用器，以便对具有最大频谱幅度的信道的选择至少有一部分通过全部帧被多路传输，以增加选定信道的数量。

发送器可能包含一个编码器，可对要发送到一个植入刺激器的刺激信号进行编码。该发送器还可能包含一个射频转换器，经过设置后可将经过编码的刺激信号以射频信号的形式发送。

附图说明

现在，将特别根据附图对本发明的首选功能进行说明。但是，需要明确的是，本发明的功能并不限于图中所说明及描述的功能范围。

附图包括：

图1是一个传统声音处理系统的简单框图；

图2是根据本发明的一个实施案例，一个声音处理系统的各个组成部分的示意图；

图3是根据本发明的系统，一个带通滤波器组和包络跟踪器各个组成部分的一种实施案例的示意图；

图4是图3中的包络跟踪器各个组成部分的一种实施案例的示意图；

图5是根据本发明的系统，一个F0估值器各个组成部分的一种实施案例的示意图；

图6是图5中的F0估值器的FFT相位声码器各个组成部分的一种实施案例的示意图；

图7是图5中的F0估值器产生与输入声音信号的基频相关数值的过程的一种实施案例的流程图；

图8是根据本发明的系统，一个周期概率估值器的各个组成部分的一种实施案例的示意图；

图9是图8中的周期概率估值器对系统所接收的输入信号是谐波的(或周期的)概率进行估计过程的一种实施方案的流程图；

图10是图8中的周期概率估值器的又一张流程图，显示的是其对每个中心频率小于等于2千赫兹的信道的信道周期概率进行估计过程的一种实施方案；

图11是图8中的周期概率估值器的又一张流程图，显示的是其对每个中心频率大于2千赫兹的信道的信道周期概率进行估计过程的一种实施方案；

图12是根据本发明的系统，一个信道调制器各个组成部分的一种实施方案的示意图；

图13是极大值选择器确定刺激器的刺激信道和刺激幅度过程的一种实施方案的流程图；

图14a和14b分别显示了标准CI处理方案和本发明处理方案的电极图。

附图详细说明

以下将对有关本发明用于如人工耳蜗植入等可植入听力假体的申请进行具体说明。但是，也应注意到本发明可能还应用到其他以声码器为基础的声音处理系统，并且仍然落入本发明的精神。

图1显示的是一个用于传统人工耳蜗植入系统的传统声音处理系统20的简化框图。传统人工耳蜗植入系统通常包括一个外部的语音处理器，采用声音处理系统20来检测声音并将声音转换成信号，之后将信号传送到一个植入刺激单元。随后，该植入刺激单元会将接收到的信号转换成电刺激脉冲直接应用到植入患者的听觉通路来复制检测到的声音。

目前已有各种声音处理系统20问世并应用到人工耳蜗植入系统中，取得了不同程度的成效。不同类型的系统或方案包括“高级组合编码器”(ACE)、连续交替取样(CIS)及谱峰法(SPEAK)。

一般来说，每个系统或方案20都采用麦克风21探测和接收声音并产生对应的电信号。然后，电信号通常穿过一个前置处理器22，在此信号经过一定的预放大，并且如有需求，信号在穿过一个模拟数字转换器后会被转换成数字信号。

然后，经过预处理的信号通常会被一组23带通滤波器分成数个频道，信道的数量可能会因使用的具体方案而有所不同，并且通常每个信道中信号的包络能够估计出来。微处理器或数字信号处理器24通常选择最大信道振幅(在CIS刺激方案中，选择的是所有信道)，之后，选定振幅通常被转换成刺激电流水平。刺激电流水平通常会被映射到与选定频道对应的每个电极的听阈和最大舒适水平之间。在这一方面，植入刺激器的电极会以与耳蜗的音质性质相一致的方式被分配到各个频道。刺激电流水平通常会被发送到一个编码器25，检测到的声音信号中的频谱线索通常会在该编码器中通过电极进行编码，并且时间包络线索会通过刺激信号包络中的幅度波动进行编码。然后，经过编码的信号被发送到发送器26后通常会以射频信号的形式被发送到植入刺激器单元27。

虽然上文所述系统20已经能够有效地使患者获得高水平的言语感知，但是通常系统20所能提供的频谱和时间信息是非常有限的，一般无法满足人工耳蜗植入患者对音乐和音调的感知。

为解决这方面的不足，提出了本发明的声音处理系统15，如图2所示。如上所述，本发明的声音处理系统15采用了上述传统声音处理系统的一些基本原则。

在这方面，声音处理系统15包括一个麦克风1，可将输入的声音信号转换成电信号。随后，由此产生的电信号会被前置放大器2放大，并使用一个8千赫兹反走样低通滤波器和一个16位模拟数字转换器3以16千赫兹的速率对其进行采样。随后，采样(宽带)信号30通过滤波器组4。

滤波器组4包括一组带通滤波器43，可将信号30处理成多个间隔排列的频道(通常数量为20个)。滤波器组4包括多个包络估值器或检测器44用于估计每个间隔频道中的信号包络。还有一个最大值选择器8用于根据具有最大振幅的频道随机选择频道子集，进行进一步处理以产生电刺激信号。另外还配有一个映射编码器9，用于根据人工耳蜗植入用户的频率到电极和输入强度到电刺激水平映射要求，将最大值选择器8所选定的包络信号转换成电刺激信号。另外还配有一个射频发送器，可将电刺激信号传送到一个植入的人工耳蜗植入接收——刺激装置11。

但是，与上述系统20不同，本发明的系统15针对的是辅助感知声音信号中的声调和音乐的音调。出于此原因，系统15还包括一个F0估值器5，可接收采样(宽带)信号30并实时估计信号的最主要基频(F0)以及F0信号和总信号之功率比。另外还配有一个周期概率估值器(PPE)6，用于确定每个频道的信号与预估F0频率之间的相关程度。为达到这一目的，PPE6能够确定每个频道的信号是否包含是预估F0频率整数倍的频率分量或谐音，以及(或)是否包含与预估F0频率相等的包络周期。另外还配有一个信道调制器7，可通过一个与预估F0频率有相同频率的周期函数对每个信道信号的低频包络进行适应性调制。如下文即将说明，本发明的系统15还提供了一种用于将未经调制的(原始的)信道包络信号与经过信道调制器7调制的信道信号进行适应性结合(混合)的方法，而用于混合信号的增益比是由信道信号与预估F0相关性大小而决定的。

如下文即将具体说明，在一个优选实施方案中，本发明系统所提供的额外功能主要通过三个处理阶段来实现，但是某些标准处理阶段还需要一系列细微的改进。

图3对滤波器组4做了进一步详述。滤波器组4采用了第一组带通滤波器43(通过运用一个重叠相加过程和128点带通滤波器BPF1来实现)，在此进行复杂的FFT单元矢量加法运算来构建信道信号，从而将采样信号30过滤成多个信道信号。然后，信道信号穿过第一组包络检测器44(通过将复杂的信道信号进行正交整流，计算开平方的实数值和虚数值总数的平方根来实现)，以产生第一组信道输出，简称为信道包络信号40(ChanMag)。信道包络信号40会及时被信道包络跟踪器47进一步抚平顺，本文简称为缓慢变化的信道包络信号41(ChanEnv)。

图4更详细地展示了包络跟踪器47。包络跟踪器47可经配置对包络信号的峰值水平进行跟踪并将高于大约70赫兹(每20个样本1455赫兹)以上的调制删除。这一点是通过包络跟踪器47接收全部信道包络信号40并跟踪每个信号的幅度来实现的。包络跟踪器具有一个瞬时启动时间474，以便能够跟踪信道包络信号40(ChanMag)中的所有峰值水平。当检测到一个峰值475时，它会将该峰值水平(或者使用一个非常满得释放时间0.02赫兹，第一阶低通滤波器LPF)476保持一个在步骤479中确定的高达20个样本的周期(大约13.75毫秒)(或者比预估F0周期51稍长的一段时间)，以便将包络频率分量抚平至大约70赫兹以上(或大于F0频率)。如果在维持时间内遇到更大的信号，则维持时间被重置，否则当维持时间截止时，要迅速释放时间477(300赫兹LPF)以便低于大约70赫兹(或预估F0频率)的包络分量能够被追踪。注意，包络跟踪器在信号路径中引入了13.75毫秒的额外处理延迟。

再一次参考图3，滤波器组4还被用于通过第二组带通滤波器45(还可通过使用相同的用于生成信道包络信号的重叠相加128点FFT)过滤采样信号30，以确定宽带宽信道包络信号(Wide Bandwidth ChanMag)42。这些信号将会被周期概率估值器(PPE)用于确定信道信号与预估F0之间相关概率。第二组带通滤波器45与第一组带通滤波器43平行，只能用于大于MaxF(大约为2千赫兹)的信道频率。它们与用于得出信道包络信号40和41的原始组带通滤波器43拥有相同的中心频率，并且其最小带宽足够至少两个最高F0频率的F0谐波通过以备系统进行分析(即至少大约660赫兹宽，可允许最大F0为大约300赫兹)。第二组包络估值器46用于得出第三组信道输出，本文称为宽带宽信道包络信号42(Wide BandwidthChanMag)。因此，对于复杂的谐音，这些信道将对与音调基频相关的包络进行调幅。

滤波器分析速度(或FFT窗口重叠)是视要求电刺激速率可在大约1毫秒到0.5毫秒(或87.5％到93.75％)之间进行调节的。通常采用0.6873毫秒(即每11个样本为16000赫兹，相除后等于1455赫兹)的速度，这足以对高达约360赫兹的F0频率进行采样。

如上所述，F0估值器5是用于对与输入的声音信号30中最主要谐波有关的基频50进行实时估计的，另外，其还对谐波信号与总信号之功率比，或另称为F0信号与噪音信号之功率比53(F0SNSR)进行估计。为实现这一目的，F0估值器5结合了多个处理阶段。第一阶段用于估计输入信号中分量的功率和频率；在第二阶段，采用了一系列谐波筛，每个谐波筛会通过带有给定F0的谐波，用于确定存在于(或匹配的)与给定(候选)F0有关的信号中的功率。检测到有一个F0频率范围由一个半音分隔，并发现候补F0经过最高功率。在第三阶段，对于含有最高匹配功率的候补F0，采用了具有更佳频率分辨率的第二组谐波筛。第四阶段用于减少F0倍频程错误。对最高候补F0的匹配功率采用加权函数，以将其在安静和嘈杂环境中的倍频程错误降到最低。具有最高加权匹配功率的候补F0被选为F0估值器目前时间帧的F0估计。最后一个阶段用于通过从持续数个连续时间帧中获得的估计中选择最佳F0估计的方式来减少在嘈杂环境中的寄生F0估计错误。下面将对每个阶段进行具体描述。

,图5至图7显示的是F0估值器5的第一阶段。这一阶段采用了快速傅里叶变换(FFT)相位声码器56来对存在于输入信号30中的正弦分量(或谐音)的频率或功率进行估计。

图6详细显示了FFT相位声码器56的工作方式。在步骤561中，在下降抽样(及时抽取2倍)之前，通常从人工耳蜗植入患者所佩戴的麦克风中接收到的采样信号最初是通过一个低通抗混叠滤波器(截止频率为2200赫兹的4阶无限脉冲响应(IIR)巴特沃斯滤波器)进行低通滤波，在步骤562中被滤为8千赫兹的速率。在步骤563中，下降采样信号的最近的2毫秒，即256个样本随后会在步骤564中被汉宁窗(在频域中提供一个31.25赫兹的3分贝带宽)窗口化。在随后的步骤565中，使用一种“堆叠和添加“技术，用于通过在频域抽取2倍的数量将样本数量减少至128个(于步骤566)。

在步骤567中，这些样本以-(k×t)样本适时旋转，在这里，t是分析帧的数量(t＝0,1,2……)，k＝分析帧频＝11个样本(所提供的分析频率＝8000赫兹/11＝727赫兹)，N＝128个样本。之所以要进行旋转，是要保持连续FFT帧之间一个零相对相移，以备后续的相位声码器进行处理。在步骤568中，采用128点FFT以获得对输入信号复杂频谱的估计，在这里FFT单元b＝1到32，代表频带被62.5赫兹所分隔，在62.5到2000赫兹范围内有中心频率。

在步骤569中，使用相位声码器估计在FFT单元b＝1到32范围内信号分量的单元功率值570和单元频率值571。单元功率值是从开平方的FFT实值和虚值总数得出的，而单元频率值则是从连续FFT帧之间的相位差估算出的。计算方法为，从每个FFT单元中的实数项和虚数项计算相位(Ph)(在这里，Ph＝反正切(虚/实)，并运用连续FFT帧之间的相位差(dPh)来计算单元频率(在这里，单元频率＝b×Fs/N+dPh[b]×Fs/(k×2π),b＝FFT单元数，k＝分析跃点＝11个样本，Fs＝8000赫兹，N＝128个样本)。注意，在计算单元频率之前，计算出的相位差要进行“去包裹”。然后，在步骤572中求得单元功率和单元频率在4个FFT帧的平均值，产生FFT单元1到32范围内单元功率平均值57(AvBinPower[b]或p_b)和单元频率平均值59(AvBinFreq[b]或f_b)。通过取4个连续帧的单元功率和单元频率的平均值，每5.5毫秒(182赫兹)会产生平均项。每个单元的平均单元功率的计算公式为AvBinPower＝(P1+P2+P3+P4)×0.25,在这里P1到P4为4个连续FFT帧的FFT单元功率。每个单元的平均单元频率的计算公式为AvBinFreq＝(F1×P1+F2×P2+F3×P3+F4×P4)/(P1+P2+P3+P4),在这里，F1到F4为4个连续FFT帧的FFT单元频率。因为单元功率和单元频率取的是4个连续FFT帧的平均值(FFT帧频＝8000赫兹/11个样本＝727赫兹)，所以在F0估值器内的后续处理速率为727、4＝182赫兹。平均单元频率的允许上限值为MaxF＝(32+0.5)FFT单元×62.5赫兹(单元宽度)＝2.031赫兹。频率超过此限值的平均单元功率会被归零。

可选择性地对平均单元功率57值进行修改，以说明在步骤565中被256点汉宁窗窗口化并被抽取2倍频率的信号566在复谱幅度响应中的过度波动。频率抽取过程向偏离FFT单元中心频率的频率分量有效地引入了比在没有进行频率抽取步骤的正常情况下更大的衰减效果。因此，在步骤573中，可通过将窗口(从单元的中心频率开始，正负半个单元宽度之内的单元频率)的逆振幅响应运用到基于平均单元频率的平均单元功率上，将系统的复合振幅响应变平。

在步骤574中，对于从麦克风1获得的输入信号，其在0到2000赫兹频率范围内的平均单元功率57也通过一个麦克风频谱振幅响应的反比例函数被均衡。该函数在62赫兹到2000赫兹内有一个-4分贝/倍频程响应。对于直接送入系统的信号(即绕过麦克风)，平均单元功率的均衡过程也被绕过。

再一次参考图5，得出的平均单元功率57和平均单元频率59随后被用于F0估值处理58的第二个阶段.

图7对详细介绍了F0估计过程。首先，确定了与候选F0频率有谐波关系的、低于2000赫兹的采样输入信号30中的功率量。一个半音的步骤中，候选F0频率范围为约82赫兹到约329赫兹(或更高，如根据系统参数的不同可达到523赫兹)，或约等于5.94％(即82,87,93,98,101,110，……311,329赫兹)，所对应的是西方音阶的E2到E4音符。每个候补F0频率的总功率或匹配功率是在步骤582中确定的，方法如下：如果其平均单元频率59落在一系列集中在候补F0频率的倍数的矩形谐波筛(即理想带通滤波器)之内，则合计平均单元功率57：

Fr[T]＝{f：f≥2^-0.5/12nC_F0F_offset and f ≤2^+0.5/12nC_F0＋F_offset}

for T＝1to28andn-1，2，3...

这里，T为候选F0模板数量；C_F0为候选F0频率＝82×2^T/12；F_r[T]为筛频率范围，跨度为+/-0.5个半音，C_F0的所有整数倍(n)可达到最大谐波频率MaxF；F_offset＝2赫兹，用于向相邻候选F0筛之间提供少量重叠。

那么，在步骤582中，每个候补F0频率的匹配功率的计算公式为以下等式：

在步骤582中，在合计所有候补F0的平均单元功率之前，可以适当采用另外一种方法。对于每个候补F0，首先确定的是落在即将合计的频率范围之内的最大平均单元功率值，这一数值用于建立平均单元功率值综合的一个阈值。通常，“安静环境”的阈值设置为0.001×最大平均单元功率，而“嘈杂环境”的阈值设置为0.01×最大平均单元功率。在步骤582中，低于该阈值的平均单元功率不在合计范围之内。“安静环境”和“嘈杂环境”之间的大致界限是通过信噪比(SNR)来界定的，若信噪比大于+6分贝的为前者，小于+6分贝的为后者。在本实施方案中，“安静环境”和“嘈杂环境”参数是由用户选择的。未来的实施方案会以对信噪比的估计作为基础对参数的选择进行适应性控制。

在第三阶段，在理想条件下，具有最带匹配功率的候补F0会被用于推导F0估计值。但是，为了确定能够更好地抑制噪音的F0估计值，此处应用了第二个谐波筛过程，使用的是更窄的、集中在由上述阶段二中合计谐波所得到的平均F0频率整数倍的谐波筛。此外，为降低处理要求，余下的处理阶段3到5只针对匹配功率在3分贝功率以内(即0.5倍于步骤586得出的最大匹配功率587)的候补F0以及合计至少有两个平均单元功率值(或谐波)能够提供匹配功率的候补F0。

在步骤588中，平均F0频率589(AverageF0)的计算是先计算落入候补F0合计频率范围内的单元频率f_b的加权均值，之后除以相同单元组的平均单元功率的总和，如下列等式：

第二组谐波筛使用的是高斯函数，在步骤590中使用用以推导加权匹配功率591。该加权匹配功率的计算方法为，改变每个频率分量的功率大小，用与分量频率f_b与其最近的给定候补F0的平均F0频率的整数倍的相匹配程度成正比例的高斯函数G合计所有频率分量。高斯筛具有定位在AverageF0谐波倍数的平均中心频率，并且标准偏差等于k_G的倍数，如以下等式所示：这里，h是谐波次数，或者最接近单元频率f_b的AverageF0的最近整数倍。标准偏差k_G用于确定高斯筛的带宽。设定k_G＝0.02×C_F0，将G定位约等于0.5(即半功率)，此时单元频率除以谐波次数f_b/h大约为离AverageF0的+/-2.4％(或约等于+/-0.4半音)。

这里，h是f_b相对于平均F0的谐波次数，如以下等式所示：

对于低候补F0，如果k_G设定过高，较高阶谐波筛会过度重叠。此外，在嘈杂环境中，较高阶宽筛会吸收大量噪音功率。因此，以上等式中高斯筛的标准偏差是有限的，以便k_G不超过以下等式确定的最大值k_GMax(h)，这里，限制带宽BW_Max被设定为60赫兹。

穿过第二组谐波筛590并在此后取代在步骤584中所得到的匹配功率的功率量591是通过合计由高斯筛加权的单元功率而确定的，如下列等式所示，这里AVF0_r(T)为高斯筛频率范围，跨度为大约AverageF0所有整数倍的±2个半音。

在安静的环境下，匹配功率完全由信号功率(Sp)构成，但是在嘈杂的环境中，匹配功率既包括信号功率也包括一部分的噪音功率(Np)。因此，可以应用另一种处理阶段来对信号功率进行更准确地估计，方法为从匹配功率中除去在谐波筛内对噪音功率的估计。那么现在假设输入信号包括一个单声道复杂谐波信号和均匀分布于2000赫兹频率范围内的噪音，可以表明，对于与F0信号相对应的候补F0，在匹配带宽内的噪音功率(Np)等于总功率(Tp)减去匹配功率乘以匹配带宽与总带宽之比，即Np＝(Tp－Mp)×K_BW×M_BW/T_BW，这里总带宽T_BW＝MaxF－60赫兹，总功率585(Tp)是从所有单元频率在总带宽583以内的单元功率之和推导出来的，匹配带宽是通过将所有高斯筛的带宽相加而得出的，如下列等式所示，其中，假设每个高斯筛的功率带宽为-3分贝(0.5)。

接下来，假设匹配功率既包括信号功率也包括匹配带宽内的噪音功率，即Mp＝Sp+Np，则在步骤592中通过对上述等式进行移项而得出信号功率(Sp)593并得出以下等式：

由于通常情况下信号和噪音在频率范围内不是均匀分布，所以常数K_BW是用于抵消这一点的。通过对K_BW的试验，我们发现0.5这个值为对不同信号、噪音种类和信噪比的噪音功率估计提供了一个良好的折中。

第四阶段包括将倍频错误降到最低。对于谐波筛基估值，之所以会产生倍频错误，是因为F0的谐波是与F0的约数的偶数谐波(即比F0低一个音阶)对齐的。因此，在本实施方案中，对于与信号F0对应的候补F0和所有低于F0的音阶得出相等信号功率(或者如果绕过步骤592，则为相等的匹配功率)，从而引入了F0错误，导致比F0低一个音阶(分倍频错误)。通过向较高候补F0的信号功率(或匹配功率)应用少量的正加权可抵消这一问题。但是过多的正加权可能会引入错误，导致估计倍频F0偏高，F0奇数谐波中的能量低于偶数谐波。因此，需要谨慎选择加权函数以便尽量降低分倍频和偏高倍频错误。对于更加复杂的情况，加权函数的选择将取决于信噪比。由于引入了噪音，较低候选F0所计算在内的噪音比较高候选F0多(因为其具有更多的谐波筛)，因此较高候补F0需要更多的正加权来抵消分倍频F0错误。

在本实施方案中，对较高候补F0使用正加权方法。加权函数会弥补所有谐波筛混合带宽的差别，其与升K_W次幂的匹配带宽M_BW(即所有合计谐波筛的带宽)成反比，如下列等式所示：其中常数K_W用于调节正加权的程度。

在步骤595中，从WSp[T]－Sp[T]×W[T](或者如果跳过步骤592，可从WMp[T]－Mp[T]×W[T]得出加权匹配功率)得出加权信号功率596。通过使用一系列安静环境中的语言信号和F0进行实验，当K_W＝0.02到0.1时确定F0估计准确度最高。但是当向信号加入噪音时，需要更高的K_W值(0.20到0.34)以弥补由低候补F0合计入内的噪音功率。对于中高度信噪比(即大于约6分贝)，需要采用“安静环境”处理参数(即K_W＝0.08)，而对于低信噪比，需要采用“嘈杂环境”处理参数(即K_W＝0.3)。同时对K_W自适应调节的算法进行了研究。在步骤594中对最大加权功率的信号与总信号之功率比STR进行了计算，公式为STR＝Sp/Tp(或者STR＝Mp/Tp)。STR值范围从1.0开始，对应的是高信噪比，到0.5或以下，对应的是0分贝以及以下的信噪比。自适应算法对1.0到0.55范围内STR值的、范围在0.02到0.34之间的K_W值进行线性调节，具体等式如下：K_W＝(0.02—0.34)×(STR-0.55)/(1.0—0.55)+0.34。对于小于0.55的STR值，K_W被限制为0.34。

在步骤597中，确定了最高加权信号功率598(或最高加权匹配功率)的候补F0，其平均F0被视为F0估值器当前帧的F0估计。

在步骤597中，还有一种方法用于减少倍频错误，即将当前F0估计与之前的F0估值帧53作比较，如果两个F0频率之间的比例是整数或接近整数，则可运用滞后(比如，如果之前的F0估计＝110赫兹，而当前F0估计＝326赫兹，高出之前的2.96倍，那么可运用滞后)。注意，实际上这种方法使用的是F0模板数(T)而不是F0频率，可允许±1个模板的公差。像12,19,24,28和30这样不同的模板数存在频率的整数比(即分别×2，×3，×4，×5，×6)。如果模板呈谐波关系，并且当前加权信号功率×临界滞后值小于之前的加权信号功率，则保留之前的F0估计(即它覆盖了当前F0估计)，此时“安静环境”的临界滞后值通常为0.98，而“嘈杂环境”的临界滞后值为0.9。

在第五阶段，发现在嘈杂环境中，加权信号功率(或加权匹配功率)的假波动会引入估计错误，因此，需要进行最后一个处理阶段，即从数个连续F0估值帧中选择最佳F0估计(即与在间隔处聆听的过程相似)。在步骤599中，具有最高加权信号功率(或加权匹配功率)的候补F0的参数(即T,WSp,AverageF0,AvBinPower和AvBinFreq)进入F0帧缓冲区。此外，在步骤600中，最大加权信号功率(或加权匹配功率)被总功率585归一化，以得出加权信号功率与总功率之比601的估计值WSTR＝WSp/Tp(或WSTR＝WMp/Tp)。进入最大WSTR的F0帧缓冲区的目的是在步骤602中从连续帧中选择最佳F0估计。结果发现，在“安静环境”中用于选择最佳F0估计的连续帧的数量大约为4(覆盖的时间范围约为20毫秒)，而对于“嘈杂环境”，通过使用更多数量的帧来获得最佳效果，如12帧(即60毫秒)。在确定好最佳F0估计的帧后，其平均F0由F0估计作为F0Freq50输出。样本单元内的F0周期51(F0Period)(采样率为8000/11＝1455赫兹)及其候补F0模板数T52(F0TemplateNum)也被输出。此外，“未加权”信号与总功率之比的估值，F0SNSR＝Sp/Tp(或F0SNSR＝Wp/Tp)被F0估计53输出。在本发明的后续阶段中，该值为F0估计强度或信号(0-2000范围内)为谐波的可能性的一种测量。最后，最佳F0估计帧的FFT单元功率54(F0BinPower[b])和功率55(F0BinFreq[b])值被输出用于周期概率估计阶段。

图8-11详细展示了周期概率估值器(PPE)6。采用PPE6的一个分量63对输入信号30包括2个或更多呈谐波相关的正弦分量(或谐音)的概率进行估计，即其为“周期的”概率(排除纯音)。PPE产生一个输入信号的周期概率值60(PerProb)，而该值是从由F0估计5得出的F0SNSR值53(即谐波信号与总信号功率之比)而推导出的。

参照图9，采用一个压缩限制函数630最初将F0SNSR值53转化为一个适宜将信号分类的范围，即周期的(谐波的)＝1.0，非周期的＝0.0。当输入信号完全由复杂谐波信号组成时，最大F0SNSR值为1.0，当输入信号不包含任何周期性时，该值接近0.0。非线性压缩限制函数630(如下列等式中的S型函数，其中a为拐点，b为函数宽度5％-95％)用于将F0SNSR值转换成适宜将信号分成“周期的”或“非周期的”的范围。

对于“安静环境”，S型函数的拐点a＝0.65，宽度b＝0.4；对于“嘈杂环境”，函数的拐点a＝0.575，宽度b＝0.35。经过转换的F0SNSR值随后会经过一个低通滤波器631，使用一阶30赫兹低通滤波器来平滑输出周期概率值60(PerProb)中的任何假波动。

周期概率估计器6还用于估计任何频道信号与被估计F0频率相关的可能性(即包含的频率分量或谐音是被估计F0频率的整数倍，以及(或)包含具有周期性的包络等于被估计F0频率)。主要用两种方法可以实施。第一种方法64用于一般范围为0-2000赫兹的低频道，；而第二种方法65用于超过2000赫兹的高频道。

图10显示了PPE6的方法64是如何做到这一点的。对于在F0估计所分析的F0范围内的频道(通常0-2000赫兹)，确定信道周期概率61(ChPerProb)或信道信号包含是被估计F0整数倍的正弦分量或谐音的概率的方法是，使用一个函数，用在与被估计F0有关的BPF信道以内的信号功率除以信道内的总信号功率。这个比例即信道功率与总功率之比F0SNSR_ch，估计方法如下列等式所示，n＝1-11，通常用于N_ch＝20的信道滤波器组。

每个BPF信道内F0信号功率和总功率是通过由与当前F0估计所对应的F0估计得到的单元功率(AvBinPower[b])和频率(AvBinFreq[b])而推导出来的。对于频率范围由F_ch表示的每个BPF信道(按照-60分贝的BPF功率带宽)，信道内的信号功率的估计方法是，首先根据其频率与被估计F0谐波频率的匹配程度，加权范围F_ch内的所有单元功率。加权因子是从上文描述的F0估计第三阶段中的高斯函数得到的，其中k_G＝F0Freq，BW_Max＝30赫兹，由此导致多有谐波和F0的高斯滤波器宽为30赫兹。(注意，k_G可降低为0.1×F0Freq以减少低阶谐波的高斯滤波器宽度，从而提高信道周期(谐波)概率估计的准确性)。接着，用所有单元频率的BPF信道P_ch(f)的功率响应改变加权单元功率的大小，并且合计后得出对信道内F0信号功率的估计，如上述步骤641中等式的分子。

通过每个单元频率信道的功率响应改变单元功率的总和，得到BPF信道额总功率，如上述等式中的分母所示。在步骤643中，信道F0SNSR_ch被0-2000赫兹的信号功率与总功率之比F0SNSR归一化(即乘以0-2000赫兹的信号功率与总功率之比F0SNSR)(反应出整体信号与被估计F0呈谐波相关的概率)。所得值的范围大约从1到0，当为1时，信道信号包含与被估计F0相关的频率分量并且F0SNSR较高；当为0时，信道信号与被估计F0不相关并且F0SNSR较低。随后，通过使用一个S型函数转换改变大小的F0SNSR_ch从而确定一个信道周期概率，如下列等式所示，其中a＝0.5设为拐点，b＝0.5设为S型函数约5％-95％的宽度。对于改变的F0SNSR_ch值在0.75及以上的，该函数返回信道周期概率接近1；对于改变的F0SNSR_ch值在0.25及以下的，返回信道周期概率为0；对于改变的F0SNSR_ch值在0.75到0.25之间的，返回信道周期概率值在1到0之间。

另外需要进行额外的调节来减小信道周期概率值，从而实现当信道信号电平低时，减少在后续信道调制阶段所应用到的F0调制深度。这样做的目的是为了尽量降低由于低强度信道信号引起的响度。为做到这一点，在步骤645中，当缓慢变化的信道包络信号ChanEnv在40分贝的信道输入动态范围低于16分贝以内时，衰减信道周期概率。衰减范围为1.0到0.25，当ChanEnv等于16分贝时为1.0；当ChanEnv等于最低信道电平时为0.25。在这最后一个阶段646，使用了一个30赫兹的一阶低通滤波器过滤信道周期概率值以去除假波动。

参照图11，对于频率在F0估计分析的频率范围以上的频道(一般大于2000赫兹)，信道周期概率是通过PPE6的方法65来估计的，具体方式是确定信道包络信号的周期是否与被估计F0频率的周期相等(或接近)。因此，在步骤650中采用一个一阶100赫兹的高通滤波器对从滤波器组4获得的宽带信道包络信号42(宽带ChanMag)进行高通滤波，并在一个大约持续28毫秒(40个样本)的缓冲区651中保留历史记录。

在步骤652中，对于每个信道，缓冲内容的最近20个样本(大约14毫秒)是自我相关的，使用零点时间漂移以及从F0估计5得到的被估计F0周期51。在步骤655中，使用下列等式来确定F0周期时间迁移自我相关值654与零时间迁移自我相关值653之比，通常n＝12到N_ch，其中HPF是高通滤波器函数，ACF(f，l)是滞后l的f的自我相关函数。

的那个自我相关比接近1.0时，估计的信道功率和总功率之比较高，而当自我相关比值为0.5或以下时，得到的信道功率和总功率之比较低。在步骤656中，这个结果被归一化(即乘以F0SNSR值)。在步骤657中，使用了非线性压缩限制(或S型)函数来转换该结果，如步骤644中的等式所示，其中S型函数含有一个拐点a＝0.35和一个宽度b＝0.5。在步骤658中，当信道信号41缓慢变化的包络较低时，使用了一个定标函数来减小信道周期概率值(与步骤645中所描述的过程相同)。最后，在步骤659中，使用了一个一阶30赫兹的低通滤波器对信道周期概率值进行低通过滤，以得出每个信道(通常小于2000赫兹)的信道周期概率61(ChPerProb)。

如图2所示，PPE6向信道调制器7提供了周期概率60(PerProb)和信道周期概率61(ChPerProb)，而信道调制器7将被用于向每个频道41缓慢变化的包络信号(ChanEnv)提供F0调制并将这些信号与非调制信道包络信号结合或混合。

参照图12，每个频道缓慢变化的包络信号(ChanEnv)41由一个频率等于被估计F0频率50的调制函数11(M)进行调制，并且之后与信道包络信号40(ChanMag)相混合，以得出改进的信道包络信号70(Modified ChanMag)。这两种信号的混合比例是从每个频道的周期概率61(ChPerProb)推导出来的，如果概率高，则F0调制与未调制信号以高比例混合；如果概率低，则两种信号以低比例混合。在一般情况下，具有高信道周期概率61的信道得到的调制与未调制混合比例接近1.0。相比之下，具有低信道周期概率的信道得到的调制与未调制混合比例接近0。这是在步骤78中实现的，运用了F0调制函数M调制缓慢变化的信道包络信号4(ChanEnv)乘以信道周期概率61(ChPerProb)。在这方面，每个频道中经调制的缓慢变化的包络信号被信道周期概率定标。未经调制的信道包络信号40(ChanMag)被信道非周期概率乘以NonPerGain 75定标并与经调制的F0信道信号混合，如下列等式所示：

非周期增益75(NonPerGain)和还原增益76(RestoreGain)值用于控制被改进和还原信道包络信号中的非周期分量电平，尤其是信道周期概率较低的信道。在步骤73中，通过输入信号周期概率60(PerProb)确定了这些值。通常，RestoreGain＝0.8(即-2分贝)。对于“安静环境”，NonPerGain＝PerProb×0.5+(1－PerProb)×RestoreGain，而对于“嘈杂环境”，NonPerGain＝PerProb×0.1+(1－PerProb)×RestoreGain。这些值的范围从0.0到1.0不等，因此实际上衰减了被改进和还原信道包络信号的非周期分量，当输入信号周期概率值(PerProb)较高时尤甚(即为周期的)。

在步骤74中确定的F0调制函数77(M)采用了一个低工作周期，以便编码刺激包络接近于未调制的、F0率的和脉冲序列的。之所以选择该函数是因为有点脉冲序列引起的音高是受脉冲间最长的一阶间隔函数所控，而不是调制周期。该调制函数包含一个窄脉冲，其具有瞬时启动时间和指数式衰变，并且是作为一个含有128个样本的单独周期而储存。对其进行控制的目的是为了调节调制函数的深度和其指数衰减率。默认情况下，调制深度MD(定义为临床电流单位中最高/最低刺激水平)被调节到一个客观电DR的一半，假设每个信道内的DR为40分贝，该DR会翻译至20分贝的声音等效深度。此外，指数衰减函数的峰值会下降至10％，落到调制周期的第一个四分之一以内。该调制函数的被取样间隔为F0×128个样本除以系统的刺激率(1455赫兹)。但是，由于刺激率可能不是F0的整数倍，所以在取样输出中会出现振幅拍频。为避免这种情况，在每个F0周期开始，重置调制函数的采样以便使周期的第一个样本总是与调制函数的第一个样本(即峰值脉冲电平)相一致。通过对所需F0调制相位保持持续准确的记录来确定每个F0周期的起点。

再次参照图2，由信道调制器产生的被改进的信道包络信号70(ModifiedChanMag)天和还原信道包络信号71(Restore ChanMag)被发送至极大值选择器8。极大值选择器8采用了可选处理来改善包含F0谐波的信道的选择，特别是在噪音环境中，这样可以尽量缩小本发明与典型CI系统之间选定用于刺激的频道差距。从被改进的信道幅度值70(Modified ChanMag)中选定极大值(即频谱幅度最大的信道)，而被改进的信道幅度值70是通过上述对缓慢变化的信道包络信号41(ChanEnv)的调制而得出的。与传统CI系统不同的是，这里的极大值是直接从含有比缓慢变化的信道包络信号的时间变化更大的(即更高的包络频率)信道包络信号40(ChanMag)中选定的。被本发明的极大值选择器处理过的缓慢变化的包络信号具有较低的时间变化，意味着随着时间的推移，频谱幅度的变化减小，从而在被选定为极大值的信道中产生较低的变化。为了弥补这一点，本发明包含一个可选方案，对极大值的选择一部分是多路复用的，以增加选定极大值的频谱范围，从而在选定极大值的信道引入更大范围的传播。

此外，因为极大值选择器8是从被改进的信道幅度值70(Modified ChanMag)中选择极大值，而被改进的“非周期”信道信号会被衰减(如使用NonPerGain参数)，所以需要进行处理，以便衰减的非周期信道信号的幅度在选定极大值后能够通过使用还原信道幅度值71(Restore ChanMag)被还原。

参照图13，极大值选择器8采用三通路极大值选择(即在任一时间帧选择具有最高包络值的频道)。如步骤82所示，第一通路是以与现有CI系统相同的方式从被改进的信道包络信号70(Modified ChanMag)中选择极大值。但是，相比选择多达NumMaxima(速率为1455赫兹的通常是10个)极大值，选定极大值的数量被NumMUXMaxima降低可(通常为2)，这样极大值的选择即可在帧之间多路进行，从而增加了选定极大值的频谱范围。比如，如果NumMaxima＝10，而NumMUXMaxima＝2，那么在第一通路选定了8个极大值，这样可以在第二通路多选2个极大值。

如步骤83所示，在第二通路中，选定了NumMUXMaxima，但是只是在任一通路的偶数或奇数频道中选择的。从偶数或奇数信道选择是在帧之间相互交替的。通过运用NumMUXMaxima，这一过程增加了两个连续帧的可供选择作为极大值的信道的范围(如从10到12)。

如步骤84所示，在第三和最后一个通路中，如果实际选定的极大值小于NumMaxima(注意，这种情况会发生在，如果许多信道包络信道都在刺激阈电平以下，原因是这些信道通常是不能被选定为极大值的)，那么余下的极大值从还原信道包络信号71(RestoreChanMag)中选择。

最后，在步骤68中，选定的极大值信道的数量是用于明确进行后续电极刺激的信道的数量81(StimulusCh)。刺激幅度80(StimulusMag)是随意从与每个选定极大值信道相对应的选定的信道幅度值85或者还原信道包络信号71(Restore ChanMag)得出的。从还原信道包络信号得出刺激幅度可以使低周期概率信道信号中的非周期分量的幅度在被选定为极大值之后还原到其正常水平(或者如果RestoreGain＝8时，通常还原到2分贝)。在选择极大值之前将其衰减的目的(如步骤78)是为了降低其优先于含有周期分量的频道而被选为极大值的概率。

再次参考图2，映射编码器9接收到每个选定刺激信道81(StimulusCh)的声音刺激程度80(StimulusMag)并分别根据CI接受者的电阈值和刺激的舒适水平并结合传统方法将这一信息转换成每个选定电极的电流水平。之后，刺激数据被编码成射频(RF)数据包，再通过射频发送器10发送至人工耳蜗植入的刺激器11，从而根据编码刺激数据流激活(刺激)耳蜗电极。

希望本发明的系统能够致力于有效地提供一个应用于人工耳蜗植入系统的完整的声音及(或)音乐音高信息编码系统，并且该系统能够有效抵御噪音及(或)干扰信号的干扰。要达到这一点需要对不同的听觉环境应用不同的处理方案，这里的所指的环境包括复杂的谐波输入信号、非谐波输入信号以及非谐波和谐波输入信号的各种组合。

在这一方面，本发明的系统通过使用一个频率等于输入声音的最主要基频(F0)的周期函数来调制每个频道中低频(或缓慢变化的)电刺激信号包络，能够满足包含复杂谐波输入信号(即包括共享一个基频的两个或两个以上谐波(或谐音)的信号，如言语中的发音元音或一个音调乐器所演奏出的音乐声)的环境的要求。

本发明的系统也满足包含非谐波输入信号(如言语中的清辅音或由打击乐器发出的声音)的环境的要求，通过识别这种情境并使用与传统CI声音处理方案相一致的方法得出每个信道内的电刺激信号(即从每个频道内的未被调制的包络信号)。

本发明的系统是专门为许多现实世界的听觉情境所设计的，即当输入声音包含一组时时变化的分布在整个频谱的谐波和非谐波信号。当检测到这种情境后，本发明的系统会根据信道信号与输入声音中最主要基频的相关程度(即包含一个等于基频整数倍的频率分量)，动态地将每个频道内的F0经调制信号和未经调制信号结合(混合)在一起。之后确定每个频道的谐波(或周期)概率，用于控制产生每个信道信号的F0经调制和未经调制的增益比。

参照图14a和14b，为电刺激输出模式，被称为电极图，用于证明本发明的功能，其与声信号的谱图相似，但是绘制了刺激强度(记录了当前水平)，每个电极(信道)作为一个时间函数。

图14a表示的是现有CI声音处理方案的电极图，即高级组合编码(ACE)方案，而图14b表示的是本发明声音处理方案的电极图。这两个电极图所记录的语言是一位F0频率大约为118赫兹的男性说话人说出的单词“choice”。

由此可以看出，发音元音被确认为B处，代表一个复杂谐波输入信号，图14b中的刺激包络已被一个频率等于说话人F0的周期函数所调制。因此，其与图14a中的刺激包络有很大不同，因为图14a中的刺激包络没有活很少有调制作用发生。

下面对比一下清辅音，被确认为A和C处，代表非谐波输入信号，图14a和14b的刺激信号大致相同。

希望本发明的处理方法和系统能够更有效地处理现实情境中的声音，即那些同时包含谐波和非谐波分量的环境。对于谐波声音信号，如纯复杂谐波信号、如包含两个或两个以上F0谐波的信号、如包含一个发音元音或一个音调乐器所演奏出的音乐声音，每个信道内刺激信号的慢变包络会通过一个频率与F0频率相等的周期函数来进行调制。对于非谐波信号，如清辅音或震音，每个信道的电刺激信号是基本上是通过传统方法得到的，因而包含了一个窄带/噪音包络信号。因此，在既含有声音信号的谐波分量又有非谐波分量的听觉情境中，对于每个信道信号，F0经过调制及未经过调制的包络信号的混合得到了编码。这两种信号的混合比是根据信道信号与声音中最主要F0的相关程度而决定的，若关系强，则混合比高；若关系弱，则混合比低。

因此，希望本发明的声音处理系统能够在检测并处理声音信号的同时，充分考虑到日常能够经历的不同听觉环境，以改善系统用户对音调和乐音的感知，同时以有效地方式抵御噪音和(或)干扰信号的干扰。

在整个说明书和权利要求书中，“包括”一词及其派生词所具有的是包含意而不是排斥意，除非有明确陈述相反情况或上下文另有要求。也就是说，“包括”一词及其派生词将被认为是表明不仅包含其直接引用的所列成分、步骤或特点，还包含其他未特别列出的成分、步骤或特点，除非有明确陈述相反情况或上下文另有要求。

本领域技术人员应该理解，对本文所述的发明方法的修改和改变不要脱离本发明的精神和范围。

Claims

1.一种供听力假体内使用的声音信号处理方法，包括：

将所述声音信号转换成电信号；

将所述电信号处理成多个频道信号，每个频道信号具有一个振幅包络以定义至少一组信道输出；

获取与所述电信号中的最主要谐波信号的基频有关的信息，所述基频通过使所述电信号经过基频估值器来估计，所述基频估值器产生表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号；

获取与电信号的谐波性质有关的信息；

根据与所述电信号的基频和谐波性质有关的信息调制所述至少一组信道输出，以产生至少一组改进的信道输出；以及

从所述至少一组改进的信道输出中选择一个或多个信道来定义至少一个或多个信道，以用于通过听力假体中的一个对应的电极进行的电刺激以及所述电刺激的幅度。

2.根据权利要求1的方法，其中将所述声音信号转换成电信号的步骤包括使用一个麦克风来检测所述声音信号并将所述声音信号转换成电信号。

3.根据权利要求2的方法，其中通过使所述电信号经过模拟数字转换器来对所述电信号进行放大和采样，从而产生采样信号。

4.根据权利要求1的方法，其中将电信号处理成多个频道信号的步骤包括使所述电信号经过第一组带通滤波器。

5.根据权利要求4的方法，其中使每个信道信号进一步经过一个包络检测器，从而产生一组对应的信道包络信号作为第一信道输出组。

6.根据权利要求5的方法，其中第一信道输出组的每个信道包络信号被一个信道包络跟踪器及时平稳，从而得到缓慢移动的信道包络信号作为第二信道输出组。

7.根据权利要求4-6中任意一个的方法，其中将电信号处理成多个频道信号的步骤包括使所述电信号经过第二组带通滤波器。

8.根据权利要求7的方法，其中所述第二组带通滤波器与所述第一组带通滤波器有相同的中心频率，并且所述第二组带通滤波器足够宽，以便传送至少两个关于电信号确定的最高基频的基频谐波，从而产生多个宽带宽信道信号。

9.根据权利要求8的方法，其中使每个宽带宽信道信号经过一个包络检测器以得到多个合成宽带宽信道包络信号作为第三信道输出组。

10.根据权利要求1的方法，其中该基频估值器是一个相位声码器FFT滤波器组，其处理电信号从而对存在于频率高达约2千赫兹的电信号中的任何正弦频率分量的频率和功率提供估计。

11.根据权利要求10的方法，其中所述基频估值器确定在频率高达约2千赫兹的电信号中检测到的最主要谐波信号的基频并产生一个表示所述最主要基频估计的信号。

12.根据权利要求1的方法，其中所述基频估值器产生一个表示与所述最主要基频有关的功率和存在于频率高达约2千赫兹的电信号中的总信号功率的比的信号。

13.根据权利要求1的方法，其中获取与电信号谐波性质有关的信息的步骤包括至少将表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号传送到一个周期概率估值器。

14.根据权利要求13的方法，其中该周期概率估值器通过压缩限制表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号和使其变得平稳来得到输入信号周期概率值。

15.根据权利要求14的方法，其中获取与电信号谐波性质有关的信息的步骤还包括将表示存在于电信号中和第三信道输出组中的任何正弦频率分量的频率和功率的所述信号传送到所述周期概率估值器。

16.根据权利要求15的方法，其中周期概率估值器还估计出任何频道的信号与被估计的电信号的最主要基频有关的概率，并且通过使用从基频估值器确定的电信号中和由第二组带通滤波器确定的第三信道输出组中存在的任何正弦频率分量的频率和功率为每个信道产生一个信道周期概率信号。

17.根据权利要求6的方法，其中根据与所述电信号的基频和谐波性质有关的信息调制所述至少一组信道输出以产生至少一组改进的信道输出的步骤是由信道调制器进行的。

18.根据权利要求17的方法，其中该信道调制器接收第二信道输出组并且通过一个频率实质上等于如由基频估值器提供的被估计的电信号的最主要基频的周期调制函数来调制所述第二信道输出组。

19.根据权利要求18的方法，其中经调制的第二信道输出组的大小被由周期概率估值器为每个信道确定的信道周期概率信号改变，从而产生被改变大小的并且经调制的第二信道输出组。

20.根据权利要求19的方法，其中所述信道调制器进一步接收第一信道输出组，并且通过1减去为每个信道确定的信道周期概率信号来改变每个第一信道输出的大小，从而产生被改变大小的第一信道输出组。

21.根据权利要求20的方法，其中当输入信号周期概率值显示出输入信号为周期性的时，被改变大小的第一信道输出组被信道调制器进一步削弱，从而产生被改变大小的并且被削弱的第一信道输出组。

22.根据权利要求21的方法，其中被改变大小的并且经调制的第二信道输出组与被改变大小的并且被削弱的第一信道输出组相混合，以对于每个信道产生改进的第四信道输出组。

23.根据权利要求21的方法，其中被改变大小的并且经调制的第二信道输出组与被改变大小的第一信道输出组相混合，以产生一组还原信道包络信号。

24.根据权利要求22的方法，其中从所述至少一组改进的信道输出中选择一个或多个信道的步骤包括从具有最大频谱幅度的、改进的第四信道输出组中选择信道。

25.根据权利要求24的方法，其中对具有最大频谱幅度的信道的选择至少部分地横跨帧而被多路传输，以增加选定信道的数量。

26.根据权利要求25的方法，其中具有最大频谱幅度的一组选定信道的幅度从那一组还原信道包络信号的幅度还原。

27.一种供听力假体内使用的声音信号处理方法，包括：

将所述声音信号转换成电信号；

确定电信号是否包括谐波和/或非谐波信号；

对于部分包括谐波信号的电信号，通过等于谐波信号基频的频率的周期函数调制所述信道输出的慢变包络，以产生一个或多个经调制的信道包络信号；

对于部分包括非谐波信号的电信号，产生一个或多个未经调制的信道包络信号；

对于每个信道，根据一个事先确定的混合比将经调制的信道包络信号和未经调制的信道包络信号混合，以为每个信道产生混合信道刺激信号；以及

根据经混合的信道刺激信号，选择一个或多个信道以定义至少一个或多个信道用于电刺激并将刺激作用于对应的听力假体电极，

其中事先确定的混合比是从频道信号与电信号中的最主要基频有关的程度得到的。

28.根据权利要求27的方法，其中在频道信号和电信号中的最主要基频之间存在强关系的情况下，存在高的混合比。

29.根据权利要求27的方法，其中在频道信号和电信号中的最主要基频之间存在弱关系的情况下，存在低的混合比。

30.一种供听力假体内使用的声音信号处理系统，该系统包括：

一个转换器，用于将声音信号转换成电信号；

第一个处理器，用于将所述电信号处理成多个频道信号，每个信道信号具有一个振幅包络以定义至少一组信道输出；

第二个处理器，用于获取与电信号中的最主要谐波信号的基频有关的信息，所述基频通过使所述电信号经过基频估值器来估计，所述基频估值器产生表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号；

第三个处理器，用于获取与电信号的谐波性质有关的信息；

一个调制器，用于根据与电信号的基频和谐波性质有关的信息，调制至少一组从第一个处理器接收的信道输出，以产生至少一组改进的信道输出；

一个选择器，用于从至少一组改进的信道输出选择一个或多个信道来定义至少一个或多个信道，以用于电刺激及所述电刺激的幅度并据此产生刺激信号；以及

一个发送器，用于发送所述听力假体所用的所述刺激信号。

31.根据权利要求30的系统，其中转换器包括配置成检测声音信号并将其转换成电信号的麦克风。

32.根据权利要求31的系统，其中该转换器还包括一个用于放大电信号的放大器和一个用于产生采样信号的模拟数字转换器。

33.根据权利要求30的系统，其中第一个处理器包括第一组带通滤波器，以将电信号处理成多个频道信号。

34.根据权利要求33的系统，其中该第一个处理器还包括一个包络检测器，使得使每个信道信号进一步经过该包络检测器，从而产生一组对应的信道包络信号作为第一信道输出组。

35.根据权利要求34的系统，其中该第一个处理器还包括一个信道包络跟踪器以接收第一信道输出组中的每个信道包络信号，从而得到缓慢移动的信道包络信号作为第二信道输出组。

36.根据权利要求33-35中任意一个的系统，其中该第一个处理器还包括第二组带通滤波器。

37.根据权利要求36的系统，其中第二组带通滤波器与第一组带通滤波器有相同的中心频率，并且第二组带通滤波器足够宽，以便传送至少两个关于电信号确定的最高基频的基频谐波，从而产生多个宽带宽信道信号。

38.根据权利要求37的系统，其中使每个宽带宽信道信号经过该包络检测器以得到多个合成宽带宽信道包络信号作为第三信道输出组。

39.根据权利要求30的系统，其中第二个处理器包括一个基频估值器。

40.根据权利要求39的系统，其中该基频估值器是一个相位声码器FFT滤波器组，其处理电信号从而对存在于频率高达约2千赫兹的电信号中的任何正弦频率分量的频率和功率提供估计。

41.根据权利要求40的系统，其中基频估值器确定在频率高达约2千赫兹的电信号中检测到的最主要谐波信号的基频并产生一个表示最主要基频估计的信号。

42.根据权利要求30的系统，其中基频估值器进一步产生一个表示与所述最主要基频有关的功率和存在于频率高达约2千赫兹的电信号中的总信号功率的比的信号。

43.根据权利要求38的系统，其中第三个处理器包括一个周期概率估值器，该周期概率估值器至少接收表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号。

44.根据权利要求43的系统，其中周期概率估值器还估计出任何频道的信号与被估计的电信号的最主要基频有关的概率，并且通过使用从基频估值器确定的电信号中和由第二组带通滤波器确定的第三信道输出组中存在的任何正弦频率分量的频率和功率为每个信道产生一个信道周期概率信号。

45.根据权利要求43的系统，其中该周期概率估值器通过压缩限制表示与所述最主要基频有关的功率和存在于所述电信号中的总信号功率的比的信号和使其变得平稳来得到输入信号周期概率值。

46.根据权利要求45的系统，其中该周期概率估值器接收表示存在于电信号中和第三信道输出组中的任何正弦频率分量的频率和功率的信号。

47.根据权利要求35的系统，其中调制器是一个接收第二信道输出组并且通过一个周期调制函数来调制所述第二信道输出组的信道调制器，该周期调制函数实质上等于如由基频估值器提供的被估计的电信号的最主要基频。

48.根据权利要求47的系统，其中经调制的第二信道输出组的大小被由周期概率估值器为每个信道确定的信道周期概率信号改变，从而产生被改变大小的并且经调制的第二信道输出组。

49.根据权利要求48的系统，其中信道调制器进一步接收第一信道输出组，并且通过1减去为每个信道确定的信道周期概率信号来改变每个第一信道输出的大小，从而产生被改变大小的第一信道输出组。

50.根据权利要求49的系统，其中当输入信号周期概率值显示出输入信号为周期性的时，被改变大小的第一信道输出组被信道调制器进一步削弱，从而产生被改变大小的并且被削弱的第一信道输出组。

51.根据权利要求50的系统，其中被改变大小的并且经调制的第二信道输出组与被改变大小的并且被削弱的第一信道输出组相混合，以产生针对每个信道的第四信道输出组。

52.根据权利要求50的系统，其中被改变大小的并且经调制的第二信道输出组与被改变大小的第一信道输出组相混合，以产生一组还原信道包络信号。

53.根据权利要求30的系统，其中选择器是一个极大值选择器，其根据具有最大频谱幅度的输出从至少一组改进的信道输出中选择一个或多个信道。

54.根据权利要求53的系统，其中极大值选择器还包括一个多路复用器，以便对具有最大频谱幅度的信道的选择被至少部分地横跨帧而多路传输，以增加选定信道的数量。

55.根据权利要求30的系统，其中发送器包括一个编码器，其对要发送到一个植入刺激器的刺激信号进行编码。

56.根据权利要求55的系统，其中该发送器包括一个射频发送器，其被配置成将经编码的刺激信号以射频信号的形式发送。