CN101529929A

CN101529929A - 具有基于直方图的声环境分类的助听器

Info

Publication number: CN101529929A
Application number: CNA2007800384550A
Authority: CN
Inventors: 詹姆斯·米切尔·卡特斯
Original assignee: GN Resound AS
Current assignee: GN Hearing AS
Priority date: 2006-09-05
Filing date: 2007-09-04
Publication date: 2009-09-09
Anticipated expiration: 2027-09-04
Also published as: CN101529929B; DK2064918T3

Abstract

本发明涉及一种根据在许多频带中的信号水平直方图值将声环境分类为许多环境类别的可选择方法，所述环境类别诸如语音、含糊不清的语音、餐馆嘈杂、音乐、交通噪声等。

Description

具有基于直方图的声环境分类的助听器

技术领域

本发明涉及一种具有声音分类性能的助听器。

背景技术

现有的传统助听器典型地包括数字信号处理器(DSP)，用于处理利用助听器接收的声音以对用户的听力损失进行补偿。本领域中公知，利用具有多个参数的信号处理算法来控制DSP的处理，以调节执行的实际信号处理。

经常使用DSP的灵活性来提供多个不同算法和/或特定算法的多个参数组。例如，可以为噪声抑制提供多种算法，噪声抑制也就是衰减不期望的信号以及放大期望的信号。期望的信号通常是语音或音乐，而不期望的信号能够是背景语音、餐馆嘈杂、音乐(当语音是期望的信号时)、交通噪声等。

在不同的声环境中，例如语音、含糊语音(babble speech)、餐馆嘈杂、音乐、交通噪声等中，典型地包括不同的算法和参数组来提供舒适且清晰的再生声音质量。从不同声环境中获取的音频信号可以具有非常不同的特性，例如平均和最大声压水平(SPL)和/或频率分量。因此，在具有DSP的助听器中，可以将每种类型的声环境与特定程序相关联，在该特定程序中，信号处理算法的算法参数的特定设置提供在特定声环境中的最佳声音质量的处理后声音。一组这样的参数可以典型地包括频率选择性滤波算法的关于宽带增益、拐角频率或斜率的参数，以及典型地包括自动增益控制(AGC)算法的控制例如拐点(knee-point)和压缩比的参数。

由此，现有的基于DSP的助听器经常设有许多不同的程序，每个程序适于特定的声环境类型和/或特定的用户属性。典型地在分配者的办公室(dispenser’s office)中在初始适配期间确定这些程序的每一个的信号处理特性，以及通过在助听器的非易失性存储区域中激活对应的算法和算法参数和/或传输对应的算法和算法参数到所述非易失性存储区域中，来将这些程序的每一个的信号处理特性编程到助听器中。

一些已知的助听器能够将用户的声环境自动地划分为许多相关或典型的日常声环境类别中的一种类型，所述相关或典型的日常声环境类别诸如语音、含糊语音、餐馆嘈杂、音乐、交通噪声等。

可以在助听器中使用获得的分类结果以自动地选择助听器的信号处理特性，例如从而自动地切换到对于讨论的(in question)环境来说最合适的算法。这样的助听器将能够为不同声环境中的各个助听器用户维持最佳声音质量和/或语音清晰度。

US5687241公开了一种基于多信道DSP的助听器，其使用输入信号幅值分布的一个或数个百分点值的连续确定或计算，从而在语音和噪声输入信号之间进行区分。响应于检测到的语音和噪声的水平，来调节在许多频率信道的每一个频率信道中的增益值。

然而，经常需要提供较仅仅区分语音和噪声更精细的对声环境的特性表征。例如，可能需要根据不仅仅背景噪声的水平还根据该背景噪声的进一步信号特性来在全向(omni-directional)和取向(directional)麦克风预置程序之间切换。当助听器用户在存在背景噪声的情况下与另一个体进行交流时，能够对背景噪声的类型进行识别和分类是有益的。如果噪声是交通噪声时能够选择全向操作，从而允许用户清楚地听到正在接近的交通而不管从何方向而来。另一方面，如果背景噪声被分类为含糊噪声，则能够选择取向听程序，从而允许用户在交谈期间听取具有改善的信噪比(SNR)的目标语音信号。

应用隐马尔可夫模型来对麦克风信号进行分析和分类可以获得例如麦克风信号的详细特性。隐马尔可夫模型能够在短时间和长时间时变方面对随机和非稳定信号进行建模。已经将隐马尔可夫模型作为用于对语音信号的统计属性进行建模的工具，应用于语音识别中。在文章“A Tutorial on Hidden Markov Models and Selected Applications inSpeech Recognition”，published in Proceeding of the IEEE，Vol 77，No.2，February 1989(1989年2月在Proceedings of the IEEE第77卷No.2中发表的文章“语音识别中隐马尔可夫模型和选择应用的指南”)中包含了将隐马尔可夫模型用于语音识别中的问题的综合说明。

WO0176321公开了一种助听器，所述助听器通过应用一个或数个预定的隐马尔可夫模型来处理从倾听环境中获取的声信号，来提供声环境的自动识别或分类。该助听器可以使用确定的分类结果来控制信号处理算法的参数值或控制在不同算法之间的切换，以便使得助听器的信号处理最佳地适于给出的声环境。

US20040175008公开了由指示在助听器处接收的信号的到达方向(DOA)的信号来形成直方图，从而控制助听器的信号处理参数。

对形成的直方图进行分类，并且根据所述分类的结果来生成不同的控制信号。

根据以下方面中的至少一个方面来对直方图函数进行分类：

1)声源相对于助听器和/或相对于其他源的角度位置和/或其变换(evolution)如何；

2)声源相对于设备和/或相对于其他声源的距离和/或其变换(evolution)如何；

3)声源相对于其他声源的显著性(significance)；以及

4)设备自身以及由此个体相对于声环境以及由此相对于声源的角度运动。

在US20040175008中没有提到将声环境分类为许多环境类别，诸如语音、含糊语音、餐馆嘈杂、音乐、交通噪声等。

发明内容

本发明的目的是提供一种在助听器中将声环境分类为许多环境类别的可选方法，所述许多环境类别诸如语音、含糊语音、餐馆嘈杂、音乐、交通噪声等。

根据本发明，通过提供一种助听器来获得这个和其他目的，所述助听器包括：麦克风和模数转换器，用于响应于在声环境中的相应麦克风处接收的声信号来提供数字输入信号；处理器，适于根据预定的信号处理算法来处理数字输入信号，以生成处理后的输出信号；以及声环境检测器，用于基于数字输入信号来确定助听器的声环境，以及提供用于选择生成处理后的输出信号的信号处理算法的输出，所述声环境检测器包括：特征提取器，用于确定多个频带中的数字输入信号的直方图值；环境分类器，适于基于来自至少两个频带的确定的直方图值来将声环境分类为许多环境类别；以及参数映射，用于提供用于选择信号处理算法的输出；以及数模转换器和输出换能器，用于将相应的处理后的声信号转换为声输出信号。

直方图是计算落在多个分离的种类-i-被称为bin中的观察结果的数量n_i的函数。因此，如果观察结果的总数为N且bin的总数为B，则观察结果的数量n_i满足以下等式：

N = Σ_{i = 1}^{B} n_{i},

例如，信号的动态范围可以被划分为许多通常尺寸相同的bin，以及由此可以计算落在每个bin内的信号取样的数量从而形成直方图。也可以在对数标度上将动态范围划分为许多具有相同尺寸的bin。特定bin中的取样数量也称为bin值或直方图值或直方图bin值。进一步地，可以将信号划分为许多频带，以及可以为每个频带确定直方图。可以利用频带指数对每个频带进行编号，所述频带指数也称为频率bin指数。例如，dB信号水平直方图的直方图bin值可以给出为h(j，k)，其中，j是直方图dB水平bin指数，而k是频带指数或频率bin指数。频率bin可以处于0Hz-20KHz的范围，并且频率bin尺寸可以是不均匀的且可以被选择使得其近似Bark标度。

特征提取器可能不确定直方图的所有直方图bin值h(j，k)，但是确定一些直方图bin值可能也足够了。例如，对于特征提取器确定每隔一个的信号水平bin值也够了。

可以将信号水平值存储在适合的数据存储器件上，诸如助听器中的半导体存储器。可以从数据存储器件中读取存储的信号水平值，在所选择的bin中组织所述存储的信号水平值，并将其输入到分类器。

附图说明

为了更好理解本发明，现在将利用示例参考附图，在附图中：

图1示意性示出具有声环境分类的现有技术的助听器；

图2是语音的取样的对数水平直方图的图示；

图3是古典音乐的取样的对数水平直方图的图示；

图4是交通噪声的取样的对数水平直方图的图示；

图5是基于传统信号特征的用于对声环境分类的神经网络分类器的框图；

图6示出用作图5的神经网络的输入的传统特征的表1；

图7是根据本发明的神经网络分类器的框图；

图8示出最强信号的正确识别百分比的表2；

图9示出最弱信号的正确识别百分比的表3；

图10示出不存在信号的正确识别百分比的表4；

图11是也用于图1的语音的取样的标准化对数水平直方图的图示；

图12是也用于图1的古典音乐的取样的标准化对数水平直方图的图示；

图13是也用于图1的交通噪声的取样的标准化对数水平直方图的图示；

图14是也用于图1的语音的取样的包络调制检测的图示；

图15是也用于图1的古典音乐的取样的包络调制检测的图示；

图16是也用于图1的交通噪声的取样的包络调制检测的图示；

图17示出在两信号的混合中具有较大增益的信号类别的正确识别百分比的表5；

图18示出在两信号的混合中具有较小增益的信号类别的正确识别百分比的表6；

图19示出在两信号的混合中不包括的信号类别的正确识别百分比的表7。

具体实施方式

图1示意性示出根据本发明的具有声环境分类的助听器10。

助听器10包括：第一个麦克风12和第一个模数转换器(未示出)，用于响应于在声环境中的麦克风12处接收的声信号来提供数字输入信号14；以及第二个麦克风16和第二个模数转换器(未示出)，用于响应于在麦克风16处接收的声信号来提供数字输入信号18；处理器20，适于根据预定的信号处理算法来处理数字输入信号14、18，从而生成处理后的输出信号22；以及数模转换器(未示出)和输出换能器24，用于将相应处理后的声信号22转换为声输出信号。

助听器10还包括声环境检测器26，用于确定围绕助听器10的用户的声环境。所述确定基于麦克风12、16的输出信号的信号水平。基于所述确定，声环境检测器26提供输出28到助听器处理器20，用于选择在所确定的声环境中适合的信号处理算法。由此，助听器处理器20自动地切换到对于所确定环境最适合的算法，以便在多个声环境中保持最佳声质量和/或语音清晰度。

处理器20的信号处理算法可以执行多个减噪形式和动态范围压缩以及其他信号处理任务的范围。

在传统的助听器中，声环境检测器26包括特征提取器30，用于确定所接收声信号的特性参数。特征提取器30将未经处理的声输入14、18映射到声特征，也就是特性参数。这些特征能够是信号功率、频谱数据和其他公知的特征。

然而，根据本发明，特征提取器30适于确定在多个频带中的信号水平的直方图，优选确定在多个频带中的对数信号水平。

优选对数信号水平，以便将输入信号的大动态范围划分为适合数量的直方图bin。非线性的对数函数压缩了高信号水平，且扩展了低信号水平，从而得到低功率信号的优异特性描述。也可以使用压缩高水平信号且扩展低水平信号的输入信号水平的其他非线性函数，诸如双曲线函数、信号水平的平方根或另一n阶幂，其中n＜1，等。

声环境检测器26还包括环境分类器32，用于根据确定的信号水平直方图值来对声环境进行分类。环境分类器将声音分类为许多环境类别，诸如语音、含糊语音、餐馆嘈杂、音乐、交通噪声等。分类过程可以包括简单最近相邻搜索、神经网络、隐马尔可夫模型系统、支持向量机(SVM)、相关向量机(RVM)、或能够进行模式识别的另一系统的单独一个或任何组合。环境分类的输出能够是包含单个环境类别的“硬”分类，或者指示声音属于各个类别的概率的一组概率。也能够应用其他输出。

声环境检测器26还包括参数映射34，用于提供用于选择信号处理算法和/或选择运行信号处理算法的适合参数值的输出28。

大多数声分类系统基于这样的假设：被分类的信号仅仅表示一个类别。例如，如果期望将声分类为语音或音乐，则通常假设在任何给出时间存在的信号不是语音就是音乐，而不是两者的组合。然而，在大多数实际情况中，信号是来自不同类别的信号的组合。例如，背景噪声中的语音是经常发生的，而要分类的信号是来自语音和噪声的两个类别的信号的组合。一次识别单个类别是理想化情况，而组合表示真实的世界。助听器中的声分类器的目的是确定组合中存在哪些类别以及这些类别的比例是多少。

用于助听器的主要声类别可以是例如语音、音乐和噪声。噪声可以进一步被细分为稳定或非稳定的噪声。在不同倾听条件下可能需要不同的处理参数设置。例如，当在较差信噪比下倾听多个交谈者含糊不清谈话时，使用动态范围压缩的受治疗者(subject)意图优选更长的释放时间常数和更低的压缩比率。

用于分类单独信号类别的信号特征不一定对于分类声音组合来说就最佳。当分类组合时，需要关于较弱和较强信号分量的信息，而对于单独类别来说，所有信息被假设涉及较强的分量。根据本发明的优选实施例，提供基于使用，优选在非交迭频带中的，对数水平信号直方图的新分类方法。

直方图包括关于组合中存在的较强和较弱信号分量的信息。代替从直方图提取特征的子集，它们被直接用作分类器的输入，所述分类器优选是神经网络分离器。

可以使用数字频率卷绕(warping)来形成频带。频率卷绕使用共形映射来给出在复数z平面内围绕单位圆的频率取样的非均匀间隔(参见：Oppenheim A.V.，Johnson D.H.，and Steiglitz K.(1971)，“Computationof spectra with unequal resolution using the fast Fourier transform”(“使用快速傅立叶变换的具有不均匀分解度的频谱的计算”)，Proc.IEEE.Vol.59，pp 299-300；Smith J.O.，and Abel，J.S.(1999)，“Bark and ERBbilinear transforms”(“Bark和ERB双线性变换”)，IEEE Trans.Speechand Audio Proc.，Vol.7，pp 697-708；

A.，Karjalainen，M.，SaviojaL.，

V.，Laine，U.K.，Huopaniemi，J.(2000)，“Frequency-warpedsignal processing for audio applications”(“用于音频应用的频率卷绕信号处理”)，J.Audio Eng.Soc.，Vol.48，pp.1011-1031)。通过将数字滤波器中的单位延迟替换为一阶全通滤波器来获得数字频率卷绕。所述全通滤波器给出为：

A (z) = \frac{z^{- 1} - a}{1 - {az}^{- 1}} - - - (1)

其中a是卷绕参数。通过适当选择操纵共形映射的参数(Smith，J.O.，and Abel，J.S.(1999)，“Bark and ERB bilinear transforms”(“Bark和ERB双线性变换”)，IEEE Trans.Speech and Audio Proc.，Vol.7，pp697-708)，频率取样的再分配变得非常接近用于描述听觉频率表示的Bark(Zwicker，E.，and Terhardt，E.(1980)，“Analytical expressions forcritical-band rate and critical bandwidth as a function of frequency”(“对于临界频带率和临界带宽的作为频率函数的解析表达”)，J.Acoust.Soc.Am.，Vol.68，pp 1523-1525)或ERB(Moore，B.C.J.，and Glasberg，B.R.(1983)，“Suggested formulae for calculating auditory-filterbandwidths and excitation patterns”(“用于计算听力滤波器带宽和激励图案的建议公式”)，J.Acoust.Soc.Am.，Vol.74，pp 750-753)频率标度。由此，频率卷绕允许设计具有均匀时间取样但是具有类似于人体听力系统的频率表示的助听器处理(Kates，J.M.(2003)，“Dynamic-range compression using digital frequency warping”(“使用数字频率卷绕的动态范围压缩”)，Proc.37^th Asilomar Conf.OnSignals，Systems，and Computers，Nov.9-12，2003，Asilomar Conf.Ctr.，Pacific Grove，CA；Kates，J.M.，and Arehart，K.H.(2005)，“Multi-channeldynamic-range compression using digital frequency warping”(“使用数字频率卷绕的多信道动态范围压缩”)，to appear in EURASIP J.Appl.Sig.Proc.)以及数字音频系统(

A.，Karjalainen，M.，Savioja，L.，V.，Laine，U.K.，Huopaniemi，J.(2000)，“Frequency-warpedsignal processing for audio applications”(“用于音频应用的频率卷绕信号处理”)，J.Audio Eng.Soc.，Vol.48，pp.1011-1031)。

频率卷绕的另一优点为获得较低频率上的较高分辨率。另外，因为在FFT中仅仅使用听相关频率，所以可以使用较短的FFT，从而需要更少的计算。这意味着，因为相较非卷绕的频带可以使用更短的时间取样块，所以将缩短在助听器的信号处理中的时间延迟。

在本发明一个实施例中，通过31个使用a＝0.5的全通滤波器的级联来实现频率卷绕。然后，通过对级联的输入和31个输出应用32点FFT来实现频率分析。该分析给出从0到p的17个正频带，且在低频处带间隔大约170Hz而在高频处带间隔增加到1300Hz。对于每个24个取样的块，计算一次FFT输出。

传统说来，已经使用直方图来给出分类器特征的概率分布的估计。利用不同特征得到的值的直方图经常被用作贝叶斯分类器的输入(MacKay，D.J.C.(2003)，Information Theory，Inference，and LearningAlgorithms，New York：Cambridge U.Press)，以及也能够用于其他分类器策略。对于使用隐马尔可夫模型(HMM)的声分类来说，例如AllegroS.，Büchler，M.，and Launer，S.(2001)，“Automatic sound classificationinspired by auditory scene analysis”(“利用听力场景分析激发的自动声分类”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark，其中提出，使用从以dB计的信号水平取样的直方图提取的两个特征。平均信号水平被估计为累积直方图的50％点，而信号动态范围被估计为从10％点到90％点的距离。在Ludvigsen，C于1997年6月26日公告的名称为“Schaltungsanordnung f ür die automatische regelung von

”的专利DE 59402853D中，还提出了使用总体信号水平直方图来区分连续声音和脉冲性的声音。

根据本发明，将多个频带中的直方图值用作环境分类器的输入，以及在优选实施例中，监督训练程序提取并组织在直方图中包含的信息。

在一个实施例中，分类器的输入的数量等于每个频带的直方图bin的数量乘以频带数量。数字化助听器信号的动态范围大约是60dB；噪声基底(noise floor)是大约25dB SPL，以及模数转换器趋向于在大约85dB SPL处饱和(Kates，J.M.(1998)，“Signal processing for hearingaids”(“用于助听器的信号处理”)，in Applications of Signal Processingto Audio and Acoustics，Ed.By M.Kahrs and K.Brandenberg，Boston：Kluwer Academic Pub.，pp 235-277)。使用3dB的幅值bin宽度，从而得到21个对数水平直方图bin。卷绕-31压缩器(Kates，J.M.(2003)，“Dynamic-range compression using digital frequency warping”(“使用数字频率卷绕的动态范围压缩”)，Proc.37^th Asilomar Conf.OnSignals，Systems，and Computers，Nov.9-12，2003，Asilomar Conf.Ctr.，Pacific Grove，CA；Kates，J.M.，and Arehart，K.H.(2005)，“Multi-channeldynamic-range compression using digital frequency warping”(“使用数字频率卷绕的多信道动态范围压缩”)，to appear in EURASIP J.Appl.Sig.Proc.)产生覆盖从0到p的范围的17个频带。由此，完整的一组直方图将需要21×17＝357个值。

在本发明的可选择实施例中，直方图值表示在某个时间帧中确定的期间信号水平驻留在对应的信号水平范围中的时间，诸如取样期，也就是一个信号取样的时间。可以通过将来自新近时间帧的最新结果添加到先前总和，来确定直方图值。在将新时间帧的结果添加到先前总和之前，可以将先前总和乘以存储因子，所述存储因子小于1，以防止结果向着无限增长，从而，每个值的影响随着时间而减少，以便直方图反应信号水平的新近历史。或者，可以通过将最近N个时间帧的结果相加来确定直方图值。

在该实施例中，直方图是信号水平分布的概率密度函数的表示。

例如，对于具有3dB宽的水平bin的直方图来说，第一个bin的范围为25-27dB SPL(噪声基底被选择为25dB)；第二个bin的范围为28-30dB SPL；等等。具有29.7dB SPL的信号水平的输入取样导致第二个直方图bin的增量。该程序的连续最后将导致无限的直方图值，并由此，在添加新取样计数之前，将先前直方图值乘以小于1的存储因子。

在另一实施例中，计算直方图以反应信号水平的新近历史。根据该程序，直方图被标准化，也就是每个bin的内容(content)被相对于所有bin的总内容标准化。当更新直方图时，每个bin的内容被乘以稍微小于1的数b。该数b用作遗忘因子，以便对于直方图的先前贡献缓慢衰减，且最近的输入具有最大的权重。然后，对应于当前信号水平的bin例如bin 2的内容，被乘以(1-b)，从而直方图中的所有bin的内容的总和(也就是bin 1内容+bin 2内容+…)为1，以及标准化的直方图能够被认为是信号水平分布的概率密度函数。

在本发明的优选实施例中，利用总信号功率来对每个频带中的信号水平进行标准化。这在分类中消除了将绝对信号水平作为因子，从而确保分类器对于任何输入信号水平都精确，以及把要在每个带中记录的动态范围减少到40dB。使用3dB的幅值bin宽度，从而得到14个对数水平直方图bin。

在一个实施例中，仅将每隔一个的频带用于直方图。频带中的窗可以降低频率分辨率，并由此窗平滑了频谱，以及能够利用2的因子来二次取样而不丢失任何重要信息。由此，在上述实施例中，完整的一组直方图需要14×8＝112个值，所述值是原始数量的31％。

在图2-4中示出了对数水平直方图的示例。图2示出了语音片段的直方图。频带指数从1(0Hz)到17(8kHz)，以及仅仅图示了偶数频带。直方图bin指数从1到14，其中，bin 14对应于0dB(在一个频带中的所有信号功率)，以及bin宽度为3dB。语音直方图示出在低频处的峰，在高频处具有降低的相对水平结合宽广的水平分布。图3示出古典音乐片段的直方图。所述音乐直方图示出向着中频的峰值以及在所有频率处的相对较窄的水平分布。图4示出交通噪声片段的直方图。如同语音示例，所述噪声具有低频处的峰。然而，噪声具有高频处的狭窄水平分布，而语音具有该频率区域中的宽广分布。

在图5中示出了基于传统信号特征的用于声环境分类的神经网络分类器的框图。所述神经网络使用MATLAB神经网络工具箱来实现(Demuth，H.，and Beale，M.(2000)，Neutral Network Toolbox for Usewith MATLAB：Users’Guide Version 4，Natick，MA：The MathWorks，Inc.(作者为Demuth，H和Beale，M(2000)由马萨诸塞州Natick的The MathWorks公司开发的与MATLAB一起使用的神经网络工具箱))。

隐含层由16个神经元组成。隐含层中的神经元连接到输出层中的三个神经元。在输入层与隐含层之间使用对数S型(log-sigmoid)转换函数，还在隐含层和输出层之间使用对数S型转换函数。训练使用弹性反传(resilient back propagation)算法，以及使用150次的训练迭代(epoch)。

在图7所示的实施例中，环境分类器包括神经网络。所述神经网络使用连续的输入和监督的(supervised)学习，以调节在输入特征与输出声类别之间的连接。神经网络具有另外的优点，也就是能够训练神经网络来对连续函数建模。在声分类系统中，能够训练神经网络来表示属于不同类别的输入信号功率的分数(fraction)，从而给出能够描述信号的组合的系统。

分类基于对数水平直方图。隐含层由8个神经元组成。在隐含层中的神经元连接到输出层中的三个神经元。在输入层与隐含层之间使用对数S型转换函数，还在隐含层与输出层之间使用对数S型转换函数。训练使用弹性反传算法，并且使用150次训练迭代。

下面，将经由利用图5所示的神经网络处理的传统特征获得的分类结果与利用图7所示本发明实施例执行的分类进行比较。

传统说来，提出了很多信号特征用于分类声音。典型地将特征的组合用作分类算法的输入。在该研究中，将使用分离的频带中的以dB计的信号幅值的直方图得到的分类正确度与使用一组传统特征得到的结果进行比较。选择用于该研究的传统特征在图6的表1中列出。在附件A中详细描述用于提取每个传统特征的信号处理。稍后在该部分中描述对数水平直方图，以及在附件B中描述用于直方图的信号处理。对于所有特征，信号取样率为16kHz。信号处理使用24个取样的块尺寸，其给出667Hz的块取样率。对于所有特征，将块输出组合成为8个块的组，从而得到12ms的特征取样周期以及83Hz的相应取样率。

最先的两个传统特征基于信号的时域特性。均方信号功率(Pfeiffer，S.，Fischer，S.，and Effelsberg，W.(1996)，“Automatic audio contentanalysis”(“自动音频内容分析”)，Tech.Report TR-96-008，Dept.Math.And Comp.Sci.，U.Mannheim，Germay；Liu，Z.，Huang，J.，Wang，Y.，and Chen，T.(1997)，“Audio feature extraction and analysis forscene classification”(“用于场景分类的音频特征提取和分析”)，Proc.IEEE 1^st Multimedia Workshop；Srinivasan，S.，Petkovic，D.，andPonceleon，D.(1999)，“Towards robust features for classifying audio inthe CueVideo system”(“用于在CueVideo系统中分类音频的偏鲁棒的特征”)，Proc.7^th ACM Conf.On Multimedia，pp 393-400；Allamanche，E.，Herre，J.，Hellmuth，O.，

B.，Kastner，T.，and Cremer，M.(2001)，“Content-based identification of audio material using MPEG-7 low leveldescription”(“使用MPEG-7低水平描述的音频材料的基于内容的识别”)，In Proceedings of the Second Annual International Symposium onMusic Information Retrieval，Ed.By J.S.Downie and D.Bainbridge，Ismir，2001，pp 197-204；Zhang，T.，and Kuo，C.-C.(2001)，“Audio contentanalysis for online audiovisual data segmentation and classification”(“用于在线音频视觉数据分割和分类的音频内容分析”)，IEEE Trans.Speech and Audio Proc.，Vol.9，pp 441-457；Peltonen，V.，Tuomi，J.，Klapuri，A.，Huopaniemi，J.，and Sorsa，T.(2002)，“Computational auditoryscene recognition”(“计算听场景识别”)，Proc.ICASSP 2002，Orlando，FL.，Vol.II，pp 1941-1944)测量每组块中的能量。不同组之间的能量波动由信号包络的标准偏差来表示，所述信号包络的标准偏差涉及数个研究者使用的块能量的方差(Pfeiffer，S.，Fischer，S.，and Effelsberg，W.(1996)，“Automatic audio content analysis”(“自动音频内容分析”)，Tech.Report TR-96-008，Dept.Math.And Comp.Sci.，U.Mannheim，Germay；Liu，Z.，Huang，J.，Wang，Y.，and Chen，T.(1997)，“Audio featureextraction and analysis for scene classification”(“用于场景分类的音频特征提取和分析”)，Proc.IEEE 1^st Multimedia Workshop；Srinivasan，S.，Petkovic，D.，and Ponceleon，D.(1999)，“Towards robust features forclassifying audio in the CueVideo system”(“用于在CueVideo系统中分类音频的偏鲁棒的特征”)，Proc.7^th ACM Conf.On Multimedia，pp393-400)。另一相关特征是位于阈值水平以下的信号块的分数(Saunders，J.(1996)，“Real-time discrimination of broadcast speech/music”(“广播语音/音乐的实时区分”)，Proc.ICASSP 1996，Atlanta，GA，pp993-996；Liu，Z.，Huang，J.，Wang，Y.，and Chen，T.(1997)，“Audio featureextraction and analysis for scene classification”(“用于场景分类的音频特征提取和分析”)，Proc.IEEE 1^st Multimedia Workshop；Scheirer，E.，and Slaney，M.(1997)，“Construction and evaluation of a robustmultifeature speech/music discriminator”(“鲁棒多特征语音/音乐区分器的构建和评估”)，Proc.ICASSP 1997，Munich，pp 1331-1334；Aarts，R.M.，and Dekkers，R.T.(1999)，“A real-time speech-music discriminator”(“实时语音-音乐区分器”)，J.Audio Eng.Soc.，Vol.47，pp 720-725；Tzanetakis，G.，and Cook，P.(2000)，“Sound analysis using MPEGcompressed audio”(“使用MPEG压缩音频的声分析”)，Proc.ICASSP2000，Istanbul，Vol.II，pp 761-764；Lu，L.，Jiang，H.，and Zhang，H.(2001)，“A robust audio classification and segmentation method”(“鲁棒音频分类和分割方法”)，Proc.9^th ACM Int.Conf.on Multimedia，Ottawa，pp203-211；Zhang，T.，and Kuo，C.-C.(2001)，“Audio content analysis foronline audiovisual data segmentation and classification”(“用于在线音频视觉数据分割和分类的音频内容分析”)，IEEE Trans.Speech and AudioProc.，Vol.9，pp 441-457；Rizvi，S.J.，Chen，L.，and

T.(2002)，“MADClassifier：Content-based continuous classification of mixed audiodata”(“MAD分类器：混合音频数据的基于内容的连续分类”)，Tech.Report CS-2002-34，School of Comp.Sci.，U.Waterloo，Ontario，Canada)。

利用梅尔倒谱系数来描述频谱的形状(Carey，M.J.，Parris，E.S.andLloyd-Thomas，H.(1999)，“A comparison of features for speech，musicdiscrimination”(“用于语音、音乐区分的特征的比较”)，Proc.ICASSP1999，Phoenix，AZ，paper 1432；Chou，W.，and Gu，L.(2001)，“Robustsinging detection in speech/music discriminator design”(“语音/音乐区分器设计中的鲁棒歌声检测”)，Proc.ICASSP 2001，Salt Lake City，Utah，paper Speech-P9.4；Peltonen，V.，Tuomi，J.，Klapuri，A.，Huopaniemi，J.，and Sorsa，T.(2002)，“Computational auditory scene recognition”(“计算听场景识别”)，Proc.ICASSP 2002，Orlando，FL.，Vol.II，pp1941-1944)。倒谱是功率谱的对数的傅立叶反变换。第一系数给出对数功率谱的平均，第二系数给出对数功率谱的斜率的指示，以及第三系数指示对数功率谱向着谱中心集中的程度。梅尔倒谱是在听力频率标度(frequency scale)上计算的倒谱。频率卷绕分析固有地产生听力频率标度，以便通过使用卷绕FFT功率谱计算倒谱分析，自然得到梅尔倒谱。利用差量倒谱系数(delta cepstral coefficients)给出不同群之间的短时间功率谱的波动(Carey，M.J.，Parris，E.S.，and Lloyd-Thomas，H.(1999)，“A comparison of features for speech，music discrimination”(“用于语音、音乐区分的特征的比较”)，Proc.ICASSP 1999，Phoenix，AZ，paper 1432；Chou，W.，and Gu，L.(2001)，“Robust singing detectionin speech/music discriminator design”(“语音/音乐区分器设计中的鲁棒歌声检测”)，Proc.ICASSP 2001，Salt Lake City，Utah，paperSpeech-P9.4；Takeuchi，S.，Yamashita，M.，Uchida，T.，and Sugiyama，M.(2001)，“Optimization of voice/music detection in sound data”(“声数据中语音/音乐检测的优化”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark；Nordqvist，P.，and Leijon，A.(2004)，“An efficient robust soundclassification algorithm for hearing aids”(“用于助听器的高效鲁棒声分类算法”)，J.Acoust.Soc.Am.，Vol.115，pp 3033-3041)。计算差量倒谱系数作为梅尔倒谱系数的一阶差分。

功率谱的形状的另一指示是功率谱矩心(Kates，J.M.(1995)，“Classification of background noises for hearing-aid applications”(“用于助听器应用的背景噪声的分类”)，J.Acoust.Soc.Am.，Vol.97，pp461-470；Liu，Z.，Huang，J.，Wang，Y.，and Chen，T.(1997)，“Audio featureextraction and analysis for scene classification”(“用于场景分类的音频特征提取和分析”)，Proc.IEEE 1^st Multimedia Workshop；Scheirer，E.，and Slaney，M.(1997)，“Construction and evaluation of a robustmultifeature speech/music discriminator”(“鲁棒多特征语音/音乐区分器的构建和评估”)，Proc.ICASSP 1997，Munich，pp 1331-1334；Tzanetakis，G.，and Cook，P.(2000)，“Sound analysis using MPEGcompressed audio”(“使用MPEG压缩音频的声分析”)，Proc.ICASSP2000，Istanbul，Vol.II，pp 761-764；Allegro S.，Büchler，M.，and Launer，S.(2001)，“Automatic sound classification inspired by auditory sceneanalysis”(“利用听力场景分析激发的自动声分类”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark；Peltonen，V.，Tuomi，J.，Klapuri，A.，Huopaniemi，J.，and Sorsa，T.(2002)，“Computational auditory scenerecognition”(“计算听场景识别”)，Proc.ICASSP 2002，Orlando，FL.，Vol.II，pp 1941-1944)。矩心是功率谱的一阶矩，并且指示功率在频率上集中于何处。功率谱的形状的改变导致矩心的波动。这些波动利用矩心的标准偏差(Tzanetakis，G.，and Cook，P.(2000)，“Sound analysisusing MPEG compressed audio”(“使用MPEG压缩音频的声分析”)，Proc.ICASSP 2000，Istanbul，Vol.II，pp 761-764)以及矩心的一阶差分(Allegro S.，Büchler，M.，and Launer，S.(2001)，“Automatic soundclassification inspired by auditory scene analysis”(“利用听力场景分析激发的自动声分类”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark)来指示。

过零率(ZCR)意图反应在频谱中的最强分量的频率。并且噪声的ZCR比诸如语音中的第一共振峰的低频音调的ZCR更高(Saunders，J.(1996)，“Real-time discrimination of broadcast speech/music”(“广播语音/音乐的实时区分”)，Proc.ICASSP 1996，Atlanta，GA，pp993-996；Scheirer，E.，and Slaney，M.(1997)，“Construction andevaluation of a robust multifeature speech/music discriminator”(“鲁棒多特征语音/音乐区分器的构建和评估”)，Proc.ICASSP 1997，Munich，pp 1331-1334；Carey，M.J.，Parris，E.S.and Lloyd-Thomas，H.(1999)，“Acomparison of features for speech，music discrimination”(“用于语音、音乐区分的特征的比较”)，Proc.ICASSP 1999，Phoenix，AZ，paper1432；Srinivasan，S.，Petkovic，D.，and Ponceleon，D.(1999)，“Towardsrobust features for classifying audio in the CueVideo system”(“用于在CueVideo系统中分类音频的偏鲁棒的特征”)，Proc.7^th ACM Conf.OnMultimedia，pp 393-400；El-Maleh，K.，Klein，M.，Petrucci，G.，and Kabal，P.(2000)，“Speech/music discrimination for multimedia applications”，Proc.ICASSP 2000，Istanbul，Vol.IV，pp 2445-2448；Zhang，T.，and Kuo，C.-C.(2001)，“Audio content analysis for online audiovisual datasegmentation and classification”(“用于在线音频视觉数据分割和分类的音频内容分析”)，IEEE Trans.Speech and Audio Proc.，Vol.9，pp441-457；Peltonen，V.，Tuomi，J.，Klapuri，A.，Huopaniemi，J.，and Sorsa，T.(2002)，“Computational auditory scene recognition”(“计算听场景识别”)，Proc.ICASSP 2002，Orlando，FL.，Vol.II，pp 1941-1944)。频谱的改变以及从音调声音到噪声的移动(shift)将导致ZCR的改变，以及这些波动反应在ZCR的标准偏差中(Saunders，J.(1996)，“Real-timediscrimination of broadcast speech/music”(“广播语音/音乐的实时区分”)，Proc.ICASSP 1996，Atlanta，GA，pp 993-996；Srinivasan，S.，Petkovic，D.，and Ponceleon，D.(1999)，“Towards robust features forclassifying audio in the CueVideo system”(“用于在CueVideo系统中分类音频的偏鲁棒的特征”)，Proc.7^th ACM Conf.On Multimedia，pp393-400；Lu，L.，Jiang，H.，and Zhang，H.(2001)，“A robust audioclassification and segmentation method”(“鲁棒音频分类和分割方法”)，Proc.9^th ACM Int.Conf.on Multimedia，Ottawa，pp 203-211)。因为大部分语音信号的功率集中于第一共振峰中，新的特征，也就是信号第一差分的ZCR，被引入以跟踪信号的高频部分的音调(tonal)特性。

另一潜在有用的提示是，频谱是平坦的还是具有峰。频谱平坦度(Allamanche，E.，Herre，J.，Hellmuth，O.，

B.，Kastner，T.，andCremer，M.(2001)，“Content-based identification of audio material usingMPEG-7 low level description”(“使用MPEG-7低水平描述的音频材料的基于内容的识别”)，In Proceedings of the Second Annual InternationalSymposium on Music Information Retrieval，Ed.By J.S.Downie and D.Bainbridge，Ismir，2001，pp 197-204)、谱波峰因子(Allamanche et al.，2001，上面报道的；Rizvi，S.J.，Chen，L.，andT.(2002)，“MADClassifier：Content-based continuous classification of mixed audiodata”(“MAD分类器：混合音频数据的基于内容的连续分类”)，Tech.Report CS-2002-34，School of Comp.Sci.，U.Waterloo，Ontario，Canada)以及音调指示器(Allegro S.，B üchler，M.，and Launer，S.(2001)，“Automatic sound classification inspired by auditory scene analysis”(“利用听力场景分析激发的自动声分类”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark)都尝试用来将整体频谱形状表述为是平坦的或具有峰值。在该研究中使用的频谱形状指示器是功率谱熵，所述功率谱熵对于平坦的频谱来说是高的，而对于具有一个或多个主峰的频谱来说则是低的。

用于从音乐分离语音的另外一类特征基于检测在很多音乐选择中存在的节律脉冲(Scheirer，E.，and Slaney，M.(1997)，“Construction andevaluation of a robust multifeature speech/music discriminator”(“鲁棒多特征语音/音乐区分器的构建和评估”)，Proc.ICASSP 1997，Munich，pp 1331-1334；Lu，L.，Jiang，H.，and Zhang，H.(2001)，“A robust audioclassification and segmentation method”(“鲁棒音频分类和分割方法”)，Proc.9^th ACM Int.Conf.on Multimedia，Ottawa，pp 203-211；Takeuchi，S.，Yamashita，M.，Uchida，T.，and Sugiyama，M.(2001)，“Optimization ofvoice/music detection in sound data”(“声数据中语音/音乐检测的优化”)，Proc.CRAC，Sept.2，2001，Aalborg，Denmark)。如果存在节律脉冲，则认为在信号包络中将有周期性的峰，其将导致在包络的标准化自相关函数中的稳定峰。该峰的位置由宽带包络相关时滞(lag)给出，而峰的幅值则由宽带包络相关峰给出。节律脉冲应该在所有频率上存在，从而多频带过程(procedure)也实现为将功率谱划分为四个频率区(针对卷绕全通滤波器参数a＝0.5来说为340-700、900-1360、1640-2360以及2840-4240Hz)。在每个频率区中分开地计算包络自相关函数，跨四个频带对标准化自相关函数求和，然后，对求和函数找到峰的位置和幅值。

对于三类信号计算21个传统特征及对数水平直方图，所述三类信号为语音、古典音乐和噪声。具有来自将瑞典语作为本族语的10名说话者(6个男人和4个女人)的13个语音文件，其中所述语音文件持续时间为12到40秒。具有从商业灌制的古典音乐唱片得到的9个音乐文件，所述每个音乐文件持续时间为15秒。噪声数据由四种类型的文件组成。具有3段持续111到227秒的多谈话者含糊不清语音，14个从人行道记录且持续3到45秒的交通噪声的文件，2个在运动的汽车内记录的文件，以及6个混杂噪声文件，所述混杂噪声文件包括键盘打字、弄皱一卷纸、从水龙头流出水、路过的火车、吹风器以及工厂噪声。

通过组合语音、音乐和噪声段来创建复合声音文件。随机选择第一个语音文件，并且还随机选择一个音乐文件。通过对四种类型(含糊不清语音、交通、运动汽车以及混杂)之一进行随机选择来选择噪声类型，然后随机选择来自所选择类型的文件。然后，随机选择到三个所选择文件的入口点，以及这三个序列的每一个被标准化以具有单位方差(unit variance)。对于单单由一个信号类别组成的目标矢量来说，随机选择三个类别中的一个类别并给予1的增益，并将其他两个类别的增益设置为0。对于由两个信号类别的组合组成的目标矢量来说，随机选择一个类别并给予1的增益。从剩余的两个类别中选择第二个类别并给予在0与-30dB之间的随机增益，并将剩余类别的增益设置为0。然后将两个非零增益标准化以给出总和信号的单位方差。然后，将复合输入信号计算为使用对应增益的三个类别的加权和。

对于每组由8个24-取样块组成的组计算一次特征矢量，其给出12ms的取样周期(以16kHz为取样率则是192个取样)。在每个文件的前500ms的数据上初始化用来计算信号特征的处理。在这段时间期间，计算但是不保存特征。在500ms的初始化时段之后，将信号特征保存以供分类算法使用。提取总共100000个特征矢量(20分钟的数据)用于训练神经网络，其中，在形成新组合、重新初始化处理以及获得250个新特征矢量之前，由信号类别的每个随机组合来计算250个矢量。由此，对于声音类别的总共4000个不同随机组合计算特征。使用文件的分离随机选择来产生测试特征。

为了训练神经网络，将所选择特征的每个矢量应用于网络输入，并将对应增益(分离的类别或两信号组合)应用于输出作为目标矢量。训练特征和目标矢量对的次序被随机化，并且在100000个矢量上训练神经网络。然后，使用从声音文件提取的不同的一随机组的100000个矢量来测试分类器。利用随机数序列来操纵神经网络初始化和训练输入的次序，以便神经网络每次将产生稍微不同的结果，因此计算结果作为10次运行的平均。

声音分类器的一个重要测试是用于正确识别信号类别或具有最大增益的信号组合的分量的性能。该任务对应于当事先假设信号表示单个类别时确定该类别的标准问题。所述标准问题包括：每次使用从一个类别取得的信号的特征来训练分类器；然后，每次使用也对应于从一个类别取得的信号的数据来测试所述网络。在分别用于传统特征和直方图系统的图8的表2的第一行和第五行中示出标准问题的结果。使用传统特征则神经网络具有95.4％的平均正确度，而使用对数水平直方图输入则神经网络具有99.3％的平均正确度。对于两种类型的输入来说，都对于语音分类最正确，而使用传统特征的分类器则对于音乐分类最困难，使用直方图系统的分类器则对于分类噪声最困难。

使用两信号组合来训练神经网络以及然后使用分离类别进行测试，产生图8的表2的第二行和第六行。因为测试数据不对应于训练数据，所以相较训练和测试都利用分离类别来说，降低了区分能力。然而，区分能力依然很好，对于传统特征来说具有91.9％的平均正确度，而对于对数水平直方图输入来说具有97.7％的平均正确度。再一次，对于语音的区分能力是三个类别中最佳的，而对于两个系统来说噪声识别都是最差的。

更难的测试是识别两信号组合的主要分量。该任务的测试特征矢量都利用来自同时存在的两个类别的信号来计算，以便测试特征反应信号组合。当在分离类别上训练神经网络却使用两信号组合来测试该神经网络时，区分能力显著降低。对于传统特征来说平均识别正确度降低到83.6％正确，而对于对数水平直方图输入来说平均识别正确度降低到84.0％正确。相较使用分离信号类别来训练和测试的标准过程来说分类正确度已经降低了大约15％，该区分能力的损失指示当将在理想数据上训练的系统应用于真实世界中时将会发生什么。

当在组合而非分类类别上训练神经网络时，对于对数水平直方图输入来说用于分类两信号组合的识别能力提高。训练数据现在与测试数据匹配。对于传统特征来说平均正确度为82.7％，其与在分离类别上训练使用传统特征且然后用于分类两信号组合的系统仅仅有少许不同。然而，使用对数水平直方图输入的系统提高到88.3％正确，相较使用分离类别训练的系统来说提高了4.3％。由此，直方图区分能力反应了组合分类任务的困难，但是也示出当针对测试条件训练系统并且分类器输入也包含关于信号组合的信息时提高了分类器能力。

剩下一个问题，也就是将对数水平直方图与附加特征组合是否会提高分类器能力。直方图包含关于信号频谱分布的信息，但是不直接包括关于信号周期性的任何信息。由此，针对对数水平直方图结合关于过零率的特征(图6的表1中的特征11-13)以及关于节律的特征(图6的表1中的特征18-21)，测试神经网络正确度。在隐含层中使用12个神经元。图8的表2中的结果示出，当对对数水平直方图添加时域信息时，在能力上没有提高。

理想分类器应该能够正确地识别两信号组合中的较弱和较强的分量。识别较弱分量的正确度在图9的表3中示出。对于传统特征和对数水平直方图输入来说，神经网络分类器就识别较弱分量仅仅大约50％正确。对于使用传统输入的神经网络来说，在分离类别上训练与在两信号组合上训练之间，在能力上仅有很少差异。然而，对于对数水平直方图系统来说，当训练方案与两信号组合测试条件匹配时，有7.7％的提高。对于直方图输入使用两信号组合训练，获得的最佳正确度是54.1％正确。在图10的表4中呈现识别两信号组合中不包括的分量的结果，以及这些结果符合对组合中存在的两个信号分量中较弱的一个进行分类的能力。再一次，组合直方图与时域信息特征在能力上相较单独使用对数水平直方图没有提高。这些数据再次指示，当使用组合测试时利用两信号组合训练是有利的。

本发明的一个重要优点是，直方图表示在组合中的较强和较弱信号的频谱。对数水平直方图对于分类语音和环境声音是非常有效的特征。此外，直方图计算相对高效，以及直方图被直接输入到分类器，从而避免提取附加特征以及它们相关联的计算负荷的需要。提出的对数水平直方图方法也比使用传统特征更准确，同时在神经网络的隐含层中需要更少的非线性元素(element)。

在本发明的一个实施例中，直方图在被输入到环境分类器之前被标准化。利用信号的长期平均频谱来对直方图标准化。例如，在一个实施例中，利用每个频带中的平均功率来划分直方图值。用于计算标准化直方图的一个过程在附件C中示出。

直方图的标准化提供到环境分类器的输入，其独立于麦克风响应，当时依然将包括针对不同类别信号的幅值分布的差异。

例如，对数水平直方图将随着麦克风频率响应的改变而改变，所述麦克风频率响应的改变由从全向切换到取向特性所导致，或者由适应性麦克风阵列中的取向响应的改变所导致。对于取向麦克风，从声源到助听器的麦克风转换功能依赖于到达方向。在允许用户选择麦克风取向响应模式(pattern)的系统中，对于全向和取向模式(mode)来说转换功能不同。在提供适应性的取向性的系统中，因为系统适于周围噪声场，转换功能将稳定地改变。麦克风转换功能的这些改变可能导致根据麦克风和/或麦克风阵列特性的相同环境声信号的时变频谱。

对数水平直方图包含关于长期平均频谱和频谱分布的信息。然而，在具有时变麦克风响应的系统中，平均频谱将随着时间改变，但是关于长期平均的频谱取样的分布不会受影响。

标准化直方图值有利地不受信号幅值和麦克风频率响应的影响，并因此，与麦克风和助听器中阵列的类型无关。

标准化直方图的示例在用于图1-3的对数水平直方图的信号段的图11-13中示出。图11示出用于图1的直方图的语音段的标准化直方图。直方图bin指数范围从1到14，其中，bin 9对应于0dB(信号功率等于长期平均)，以及bin宽度为3dB。语音直方图示出由音节幅值波动所导致的广泛水平分布。图12示出用于图2的直方图的古典音乐段的标准化直方图。相较图11的语音标准化直方图，音乐的标准化直方图示出更紧密的分布。图13示出用于图3的直方图的噪声段的标准化直方图。相较图4的语音标准化直方图，噪声的标准化直方图示出更紧密的分布，但是噪声的标准化直方图非常类似于音乐的标准化直方图。

在本发明的一个实施例中，进一步确定输入信号包络调制并将其用作环境分类器的输入。通过如下步骤来提取包络调制：计算每个信号块的卷绕FFT；在8个块的组上对幅值谱求平均；以及然后将每个频带中的平均幅值通过一组(bank)调制检测滤波器。一个调制检测过程的细节在附件D中示出。给出16kHz的输入取样率，24个取样的块尺寸，以及8个块的组尺寸，以83.3Hz的率对信号包络进行二次取样。实现三个调制滤波器：覆盖2-6Hz和6-20Hz的调制范围的带通滤波器，以及20-Hz的高通滤波器。该大体方法类似于用于对听觉皮层中发生的幅值调制检测建模的调制滤波器组(Dau，T.，Kollmeier，B.，and Kohlrausch，A.(1997)，“Modeling auditory processing of amplitudemodulation.I.Detection and masking with narrow-band carriers”，J.Acoust.Soc.Am.，Vol.102，pp 2892-2905；Derleth，R.P.，Dau，T.，andKollmeier，B.(2001)，“Modeling temporal and compressive properties ofthe normal and impaired auditory system”(“对正常和受损听力系统的时域和压缩特性的建模”)，Hearing Res.，Vol.159，pp 132-149)，以及其也能够作为信号清晰度和质量度量的基础(Holube，I.，andKollmeier，B.(1996)，“Speech intelligibility predictions in hearing-impairedlisteners based on a psychoacoustically motivated perception model”(“基于心理声学促动的感知模型的听力受损倾听者中的语音清晰度预测”)，J.Acoust.Soc.Am.，Vol.100，pp 1703-1716；Hüber(2003)，“Objectiveassessment of audio quality using an auditory processing model”(“使用听力处理模型的音频质量的客观评估”)，Phd thesis，U.Oldenburg)。对于语音来说2-20Hz的调制频率范围很重要(Houtgast，T.，andSteeneken，H.J.M.(1973)，“The modulation transfer function in roomacoustics as a predictor of speech intelligibility”(“作为语音清晰度的预测器的室内声学的调制转换函数”)，Acoustica 28，66-73；Plomp，(1986)，“A signal-to-noise ratio model for the speech-receptionthreshold of the hearing impaired”(“用于受损听力的语音接收阈的信噪比模型”)，J.Speech Hear.Res.29，149-154)，以及在超出20Hz的范围内的包络调制导致粗糙度的听力知觉(Zwicker，E.，and Fastl，H.(1999)，Psychoacoustics：Facts and Models(2^nd Ed.)，New York：Springer。

然后，可以将每个包络调制检测滤波器的输出除以频带中的总包络幅值，以实现在三个调制频率区域的每一个中的标准化调制。标准化调制检测由此反应在每个频带内的包络波动的相对幅值，以及不依赖于总信号强度或长期频谱。调制检测在17个卷绕FFT频带的每一个中给出三个滤波器输出。诸如对于直方图来说，可以通过仅仅使用偶数频带(将FFT bin从1到17编号)中的输出，来减少信息量。这给出一个调制特征矢量，所述调制特征矢量具有8个频带×3个滤波器/每个频带＝24个值。

在图14-16中示出用于图1-3的对数水平直方图的信号段的标准化包络调制检测的示例。图14示出用于图1的直方图的语音段的调制检测。低表示在2-6Hz范围内的包络调制，中表示6-20Hz范围内的包络调制，而高表示超出20Hz的包络调制。语音的特征在于如预期的在覆盖2-20Hz的中和低范围中的大量调制，以及还有在高范围内的大量调制。图15示出用于图2的相同音乐段的包络调制检测。所述音乐示出在所有三个范围内的适中量的包络调制，以及调制的量基本上小于语音的调制量。图16示出用于图3的相同的噪声段的包络调制检测。针对所有三个调制频率区域考虑，噪声具有最少量的信号包络调制。所述三个信号的包络调制的不同量示出，调制检测可以提供用于信号分类的一组有用特征。

标准化包络调制值有利地不受信号幅值以及麦克风频率响应的影响，并由此与助听器中的麦克风和阵列的类型无关。

如下所示，将标准化直方图与标准化包络调制检测组合提高了分类器正确度。特征的该组合在产生通用分类器方面是有吸引力的，所述通用分类器能够在任何助听器中操作，而不管在该助听器设备中实施的是什么麦克风或阵列算法。

标准化直方图将降低分类器对于麦克风频率响应改变的敏感度，但是水平标准化也会降低与一些信号类别相关的信息量。直方图包含关于幅值分布和信号水平波动范围的信息，但是它不包含关于波动率(fluctuation rate)的信息。由此，来自包络调制检测的关于信号包络波动率的附加信息对直方图进行补充，并提高了分类器的正确度，尤其当使用标准化直方图时。

对于语音、古典音乐和噪声三类信号计算对数水平直方图、标准化直方图以及包络调制特征。这里还使用上面与图7所示的对数水平直方图实施例和神经网络相关地描述的刺激文件(stimulation file)。

在表1-3中示出分类器结果。在图6的表1中示出在两信号组合中识别出较强信号的系统正确度。对数水平直方图给出最高的正确度，其中，平均88.3％正确，以及对于语音、音乐和噪声，分类器正确度近乎相同。标准化直方图示出相较原始对数水平直方图的分类器正确度的实质下降，平均分类器正确度降低到76.7％正确。识别语音的正确度示出4.2％的小降低，而识别音乐的正确度示出21.9％的降低，以及识别噪声的正确度示出8.7％的降低。

该组24个包络调制特征示出79.8％的平均分类器正确度，其类似于标准化直方图的平均分类器正确度。识别语音的正确度比标准化直方图差2％，且比对数水平直方图差6.6％。音乐的包络调制正确度比标准化直方图好11.3％，以及识别噪声的正确度则是相同的。由此，由包络调制提供的信息量看起来总体上与由标准化直方图提供的相当，但是充分低于由对数水平直方图提供的信息量。

将包络调制与标准化直方图组合相较单独基于标准化直方图的分类器示出分类器正确度的提高。组合系统的平均正确度比单独标准化直方图好3.9％。识别语音的正确度提高了6.3％，而86.9％的正确度则与使用对数水平直方图的系统得到的86.8％的正确度相当。将包络调制与标准化直方图组合没有示出相较单独标准化直方图在分类音乐方面的改善，却示出在分类噪声方面的5.5％的提高。

在用于识别两信号组合中较弱信号的图8的表2中以及用于识别组合中剩余信号的图9的表3中示出类似性能图案。

标准化直方图与包络调制检测的组合不受信号水平或长期频谱的改变的影响。这样的系统还能够提供诸如通用声音分类算法的优点，所述通用声音分类算法能够用于所有助听器中，而不管实施什么类型的麦克风或麦克风阵列处理。

附件A传统信号特征

从引入信号中提取总共21个特征。这些特征在图6的表1中按数字排序列出，并且在本附件中进行描述。还描述了用于矢量量化(quantization)的安静阈。信号取样率是16kHz。卷绕信号处理使用24个取样的块尺寸，其给出667Hz的块取样率。对于所有特征，将块输出组合为8个块的组，其导致12ms的特征采样周期以及相应的83Hz的取样率。

特征1：均方信号功率

输入信号序列为x(n)。定义N为一个块中的取样的数量(N＝24)，并定义L为一个组中的块的数量(L＝8)。组m的均方信号功率是跨构成该组的所有块对输入信号的平方求和的均值：

p (m) = \frac{1}{NL} Σ_{j = 0}^{NL - 1} x^{2} (n - j) - - - (A . 1)

特征2：信号包络的标准偏差

信号包络是均方信号功率的平方根，并由下式给出：

s(m)＝[p(m)]^1/2 (A.2)

使用具有200ms的时间常数的单极点低通滤波器来估计长期信号功率和长期信号包络，分别给出为：

\hat{p} (m) = α \hat{p} (m - 1) + (1 - α) p (m)

\hat{s} (m) = α \hat{s} (m - 1) + (1 - α) s (m) - - - (A . 3)

然后，信号包络的标准偏差给出为：

σ (m) = {[\hat{p} (m) - {\hat{s}}^{2} (m)]}^{1 / 2} - - - (A . 4)

特征3-6：梅尔倒谱系数1到4

根据卷绕FFT的输出来计算信号的功率谱。令X(k，l)为bin k块l的卷绕FFT输出，其中1≤k≤K。然后，组m的信号功率利用对组中的块求和而给出：

P (k, m) = \frac{1}{L} Σ_{l = 0}^{L - 1} {| X (k, l) |}^{2} - - - (A . 5)

卷绕频谱在听力频标上均匀地隔开(spaced)。梅尔倒谱是在听力频标上计算的倒谱，以便使用卷绕FFT输出计算倒谱自动地产生梅尔倒谱。使用具有200ms的时间常数的单极点低通滤波器，对梅尔倒谱系数进行低通滤波。组m的第j个梅尔倒谱系数由此给出为：

{cep}_{j} (m) = {αcep}_{j} (m - 1) + (1 - α) Σ_{k = 0}^{K - 1} \log [P (k, m)] c_{j} (k) - - - (A . 6)

其中，c_j(k)是第j个权重函数，1≤j≤4，给出为：

c_j(k)＝cos[(j-1)kπ/(K-1)] (A.7)

特征7-10：差量倒谱系数1到4

差量倒谱系数是使用等式(A.6)计算的梅尔倒谱系数的一阶差分。由此，给出差量倒谱系数为：

Δcep_j(m)＝cep_j(m)-cep_j(m-1) (A.8)

特征11-13：过零率(ZCR)，信号一阶差分的ZCR，以及ZCR的标准偏差

第m组的块的过零率(ZCR)被定义为：

ZCR (m) = Σ_{n = 0}^{NL - 1} | sign [x (n)] - sign [x (n - 1)] | - - - (A . 9)

其中，NL是组中的取样的总数。使用具有200ms的时间常数的单极点滤波器对ZCR进行低通滤波，给出特征：

z(m)＝αz(m-1)+(1-α)ZCR(m) (A.10)

使用等式(A.9)和(A.10)来计算一阶差分的ZCR，但是利用信号的一阶差分y(n)＝x(n)-x(n-1)来代替信号x(n)。

使用与信号包络所用相同的过程来计算ZCR的标准偏差。ZCR的平方的平均给出为：

v(m)＝αv(m-1)+(1-α)ZCR²(m) (A.11)

然后，使用下式来估计ZCR的标准偏差：

ζ (m) = {[v (m) - z^{2} (m)]}^{1 / 2} - - - (A . 12)

特征14-16：功率谱矩心、差量矩心以及矩心的标准偏差功率谱矩心是功率谱的一阶矩，给出为：

centroid (m) = Σ_{k = 0}^{K - 1} kP (k, m) / Σ_{k = 0}^{K - 1} P (k, m) - - - (A . 13)

矩心特征是使用具有200ms的时间常数的单极点低通滤波器进行低通滤波后的矩心，给出为：

f(m)＝αf(m-1)+(1-α)centroid(m) (A.14)

然后，利用矩心的一阶差分给出差量矩心特征：

Δf(m)＝f(m)-f(m-1) (A.15)

矩心的标准偏差使用矩心的平方的均值，由下式给出：

u(m)＝αu(m-1)+(1-α)centroid²(m) (A.16)

其中，然后给出标准偏差为：

υ(m)＝[u(m)-f²(m)]^1/2 (A.17)

特征17功率谱熵

功率谱熵是频谱的平坦度的指示。首先计算每个卷绕FFT bin中的总功率的分数：

ρ (k, m) = P (k, m) / Σ_{k = 0}^{K - 1} P (k, m) - - - (A . 18)

然后，对块的组计算以比特计的熵，并对其进行低通滤波(200ms的时间常数)，从而给出信号特征：

e (m) = αe (m - 1) + (1 - α) Σ_{k = 0}^{K - 1} ρ (k, m) \log_{2} [ρ (k, m)] - - - (A . 19)

特征18-19：宽带包络相关延迟和峰水平

宽带信号包络使用频谱的中部，并计算为：

b (m) = Σ_{k = 2}^{13} {[P (k, m)]}^{1 / 2} - - - (A . 20)

其中，卷绕FFT具有序数从0到16的17个bin，覆盖从0到π的频率。使用500ms的时间常数来对信号包络进行低通滤波，以估计信号平均：

μ(m)＝βμ(m-1)+(1-β)b(m) (A.21)

然后，将信号包络转换为零平均信号：

a(m)＝b(m)-μ(m) (A.22)

将零平均信号的中部截掉：

\hat{a} (m) = \{\begin{matrix} a (m), | a (m) | &GreaterEqual; 0.25 μ (m) \\ 0, | a (m) | < 0.25 μ (m) \end{matrix} - - - (A . 23)

然后，在所期望数量的延迟(每个延迟表示一组块或者12ms)上计算包络自相关，并使用1.5秒的时间常数来进行低通滤波：

R (j, m) = γR (j, m - 1) + (1 - γ) \hat{a} (m) \hat{a} (m - j) - - - (A . 24)

其中j是延迟。

然后，通过如下形成r(j，m)将包络自相关函数进行标准化以具有1的最大值：

r(j，m)＝R(j，m)/R(0，m) (A.25)

然后，在8到48个延迟(96到576ms)的范围上找到标准化自相关的最大值。延迟中最大值的位置是宽带延迟特征，以及最大值的幅值是宽带峰水平特征。

特征20-21：四带包络相关延迟和峰水平

四带包络相关将功率谱划分为四个非交迭的频率区域。每个区域中的信号包络给出为：

b_{1} (m) = Σ_{k = 2}^{4} {[P (k, m)]}^{1 / 2}

b_{2} (m) = Σ_{k = 5}^{7} {[P (k, m)]}^{1 / 2} - - - (A . 26)

b_{3} (m) = Σ_{k = 8}^{10} {[P (k, m)]}^{1 / 2}

b_{4} (m) = Σ_{k = 11}^{13} {[P (k, m)]}^{1 / 2}

使用由等式(A.21)到(A.25)给出的过程，对每个带计算标准化自相关函数。然后，对标准化自相关函数求平均以产生四带自相关函数：

\hat{r} (j, m) = \frac{1}{4} [r_{1} (j, m) + r_{2} (j, m) + r_{3} (j, m) + r_{4} (j, m)] - - - (A . 27)

然后，在8到48个延迟的范围上找到四带自相关的最大值。延迟中最大值的位置是四带延迟特征，而最大值的幅值则是四带峰水平特征。

附件B：对数水平直方图

组m的dB水平直方图给出为h_m(j，k)，其中j是直方图dB水平bin指数，以及k是频带指数。直方图bin宽度是3dB，且1≤j≤14。bin 14对应于0 dB。更新直方图的第一步骤是衰减整个直方图的内容：

{\hat{h}}_{m + 1} (j, k) = {βh}_{m} (j, k), &ForAll; j, k - - - (B . 1)

其中，β对应于500ms的低通滤波器时间常数。

每个带中的信号功率给出为：

P (k, m) = \frac{1}{L} Σ_{l = 0}^{L - 1} {| X (k, l) |}^{2}, - - - (B . 2)

其中，X(k，l)是频率bin k块l的卷绕FFT的输出。然后，给出每个频带中的相对功率为：

ρ (k, m) = P (k, m) / Σ_{k = 0}^{K - 1} P (k, m), - - - (B . 3)

根据等式(A.18)利用ρ(k，m+1)给出每个频带中的相对功率。将每个频带中的相对功率转换为dB水平bin指数：

i(k，m+1)＝1+{40+10log₁₀[ρ(k，m+1)]}/3 (B.4)

然后，将其四舍五入到最接近的整数并限制为在1与14之间的值。然后，累加对应于每个频带中的指数的直方图dB水平bin：

h_{m + 1} [i (k, m + 1), k] = {\hat{h}}_{m + 1} [i (k, m + 1), k] + (1 - β) - - - (B . 5)

在稳定状态中，每个频带中的直方图bin的内容之和为1。

附件C：标准化直方图

为了计算标准化对数水平直方图，将每个频带中的频谱除以带中的平均水平，以及对距离平均水平的偏差计算直方图。组m的dB水平直方图给出为g_m(j，k)，其中，j是直方图dB水平bin指数，以及k是频带指数。直方图bin宽度是3dB，且1≤j≤14。更新直方图的第一步骤是衰减整个直方图的内容：

{\hat{g}}_{m} (j, k) = {βg}_{m - 1} (j, k), &ForAll; j, k - - - (C . 1)

其中，β对应于500ms的低通滤波器时间常数。

每个频带中的平均功率给出为：

Q(m，k)＝αQ(m-1，k)+(1-α)P(m，k)， (C.2)

其中，α对应于200ms的时间常数。然后，给出标准化功率为：

\hat{P} (m, k) = P (m, k) / Q (m, k), - - - (C . 3)

将每个频带中的标准化功率转换为dB水平bin指数：

j (k, m) = 1 + {25 + 10 lo g_{10} [\hat{P} (k, m)]} / 3, - - - (C . 4)

g_{m} [j (k, m), k] = {\hat{g}}_{m} [j (k, m), k] + (1 - β), - - - (C . 5)

在稳定状态中，每个频带中的直方图bin的内容之和为1。

附件D：包络调制检测

包络调制检测始于每组块中的功率P(k，m)。取样参数是对于引入信号的16kHz的取样率、24个取样的块尺寸以及8个块的组尺寸；每个组中的功率因此以83.3Hz进行二次取样。然后，使用低通滤波器对每个带中的包络求平均，得到：

U(k，m)＝αU(k，m-1)+(1-α)[P(m，k)]^1/2， (D.1)

其中，α对应于200ms的时间常数。

利用覆盖2-6Hz以及6-10Hz的两个带通滤波器以及20Hz处的高通滤波器，来对每个带中的包络取样U(k，m)进行滤波。滤波器都是使用双线性变换实现的IIR 3极点巴特沃斯设计。令2-6Hz带通滤波器的输出为E₁(k，m)，令6-10Hz带通滤波器的输出为E₂(k，m)，以及令高通滤波器的输出为E₃(k，m)。然后，对每个滤波器的输出进行全波整流和低通滤波，以给出三个调制检测区域的每一个区域中的平均包络调制功率：

{\hat{E}}_{j} (k, m) = α {\hat{E}}_{j} (k, m - 1) + (1 - α) | E_{j} (k, m) |, - - - (D . 2)

其中，α对应于200ms的时间常数。

然后，利用频带中的总包络，将每个频带的每个调制频率区域中的平均调制进行标准化：

A_{j} (k, m) = \frac{{\hat{E}}_{j} (k, m)}{U (k, m)} (D . 3)

Claims

1.一种助听器，包括：

麦克风和模数转换器，用于响应于在声环境中的相应麦克风处接收的声信号而提供数字输入信号；

处理器，适于根据预定信号处理算法来处理所述数字输入信号，以产生处理后的输出信号；以及

声环境检测器，用于根据所述数字输入信号确定所述助听器的声环境，并提供输出，所述输出用于选择产生所述处理后的输出信号的信号处理算法，所述声环境检测器包括：

特征提取器，用于确定在多个频带中的数字输入信号的直方图值，

环境分类器，适于根据来自至少两个频带的确定的直方图值，来将声环境分类为许多环境类别，以及

参数映射，用于提供输出，所述输出用于选择所述信号处理算法；以及

数模转换器以及输出换能器，用于将相应的处理后的声信号转换为听力输出信号。

2.根据权利要求1所述的助听器，其中，所述特征提取器适于确定在多个频率卷绕频带中的直方图。

3.根据权利要求1或2所述的助听器，其中，所述特征提取器适于确定所述数字输入信号水平的直方图。

4.根据权利要求1或2所述的助听器，其中，所述特征提取器适于确定对数数字输入信号水平的直方图。

5.根据之前权利要求中任何一项所述的助听器，其中，将处理后的直方图值输入到所述环境分类器。

6.根据之前权利要求中任何一项所述的助听器，其中，将标准化直方图值输入到所述环境分类器。

7.根据之前权利要求中任何一项所述的助听器，其中，输入到所述环境分类器的所述直方图值表示信号水平驻留于对应的信号水平范围内的期间的时间。

8.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器包括从由下述元件组成的组中选择的至少一个元件：神经网络、隐马尔可夫模型、贝叶斯分类器、最近邻居分类器、支持矢量机器以及相关矢量机器。

9.根据权利要求7或8所述的助听器，其中，利用来自不同信号类别的信号的组合来训练所述环境分类器。

10.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器根据作为频率的函数的直方图值，来对声环境进行分类。

11.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器根据在所选择的频带内的直方图值，来对声环境进行分类。

12.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器根据直方图值结合至少一个其他信号参数，来对声环境进行分类。

13.根据权利要求12所述的助听器，其中，从由下述参数组成的组中选择所述至少一个其他信号参数：过零率、差量过零率、过零率的高阶矩、梅尔倒谱系数、差量倒谱系数、谐波含量、平坦度、波峰因子、调性(tonality)、频谱包络、块能量、on-offset次数、静音比率、幅值直方图、自相关、音质、差量音质以及偏差(variance)。

14.根据之前权利要求中任何一项所述的助听器，其中，所述特征提取器还适于包络调制检测，以及将包络调制特征输入到所述环境分类器。

15.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器适于根据来自至少两个频带的至少四个直方图bin值来分类。

16.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器适于确定声信号的最强部分。

17.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器适于确定声信号的较弱部分而非最强部分。

18.根据之前权利要求中任何一项所述的助听器，其中，所述环境分类器根据由所述确定的直方图值得到的至少一个参数来对所述声环境进行分类。

19.根据权利要求18所述的助听器，其中，从由以下参数组成的组中选择所述至少一个参数：所述确定的直方图值的中值、均值以及标准偏差。