CN1158642C

CN1158642C - 检测和产生听觉信号中的瞬态条件的方法和系统

Info

Publication number: CN1158642C
Application number: CNB941923568A
Authority: CN
Inventors: ��ˡ��ڴ��; 弗兰克·乌达尔·莱昂哈德
Original assignee: Individual
Current assignee: Individual
Priority date: 1993-04-22
Filing date: 1994-04-22
Publication date: 2004-07-21
Anticipated expiration: 2014-04-22
Also published as: WO1994025958A2; FI955025A0; KR960702145A; EP0737351B1; FI955025A; DK46493D0; JPH08509556A; DE69417445D1; CN1125010A; ATE178155T1; US5884260A; DE69417445T2; WO1994025958A3; EP0737351A1; AU6535994A; JP3636460B2

Abstract

本发明涉及通过将可被表示为瞬态脉冲的形状的信号的能量变化的形状与代表独特的声描述的预定能量变化形状进行比较来识别听觉信号中的能量变化的方法。本发明还涉及产生一系列相应于待合成的音素序列的瞬态脉冲的语音合成的方法。还涉及对听觉信号进行处理以便在基本保持信号信息的情况下减小该信号带宽的系统，该系统包括提取听觉信号的瞬态分量的装置，以及检波该瞬态分量的包络的装置。这种系统可用作用于语音或声音分析的电子系统中的预处理系统。本发明的方法和系统可应用于语音识别、语音合成、窄带无线电通信、助听器和音响产品质量监测的领域。

Description

检测和产生听觉信号中的瞬态条件的方法和系统

技术领域

本发明涉及信号处理的方法和系统，利用该方法和系统从听觉信号的瞬态现象中提取表示这些听觉信号的独特声描述(audiopicture)的特征。处理的结果可用于声音或语音信号的识别，或者可用于音响产品或系统、例如扬声器、助听器和远程通信系统的质量测定，或者可用于声学条件的质量测定。还可以在窄带无线电通信的语音压缩和解压缩方面采用本发明的方法。

背景技术

在已有技术的听觉信号分析方法中，信号在短的时间间隔内被看作处于稳态，在这一假定的条件下采用某种形式的快速频谱分析。

人耳具有同时捕捉快速的声音信号、极精确地检测声频和在复杂的声音环境中区别声信号的能力。例如能够理解歌唱者在乐器的伴奏下正在唱些什么。

在已有技术的信号分析方法和在本发明的方法中均假定可将人耳中的耳蜗(cochlea)看作是在人耳的频率范围内的有限个数的带通滤波器IBP。

由于激励一个带通滤波器而得的时间响应f(t)可以分成两部分，瞬态响应ft(t)和稳态响应fs(t)，

(1) f(t)＝ft(t)+fs(t)。

传统的信号分析以稳态响应fs(t)为基础，假定瞬态响应ft(t)消失非常快，对于感知不具有重要性，例如参看McGraw-Hill出版社1959年出版的Ernest S.Huh和Donald O.Pederson所著的“电路综合原理(Principles of circuit Synthesis)”第12页的9至15行，书中这样说：“在忽略由网络的初始状态产生的响应的情况下只考虑受迫响应”。

因此，当学生们被领进信号分析的领域时，在最初的阶段他们认识到因为网络的初始状态在非常短的时间间隔内消失，所以应当忽略瞬态响应，即网络的初始状态产生的响应。此外，利用传统的线性分析方法来分析这些瞬态信号是相当困难的。

人耳听见非常短的时间和与此同时极精确地检测频率的能力是与传统的基于滤波器的频谱分析相矛盾的。带通滤波器的时间窗口(两倍于上升时间)与带宽成反比，

(2) tw＝2/(fu-fl)

其中fl是频率下限而fu是频率上限。

因此，如果要求5毫秒的上升时间，结果就是频率分辨率不优于400Hz。

由于这些瞬态现象的检测与高的频率分辨率相矛盾，所以人耳必须用另外的方式对这些瞬态现象进行检测。尚未考虑过人耳如何能够检测这些信号，但可以假定耳蜗在不接收声音时处于静止的位置，耳蜗在这一位置将是非常宽带的。当耳蜗接收声音信号时，它可以开始将自己锁定到该信号内的某一频率分量或某些频率分量。因此，耳蜗在其开始位置处可以是宽带的，但如果接收了一个或多个稳定的频率，耳蜗就可以极精确地将自己锁定到这一频率或这些频率。

现在已知如果一个音调频率低于约1.4KHz，则从耳蜗发出的神经脉冲就被音调频率同步。如果该频率高于1.4KHz，脉冲就随机地发出并小于该频率的每周期。

在描述音素识别系统的GB2213623中公开了以滤波器组频谱分析为基础的信号分析。该系统包括检测语音信号的瞬态部分的检测装置，瞬态检测的主要目的是检测语音频谱变化最剧烈的时刻，即峰值点。峰值点的检测用来对音素进行更准确的分割。GB213623的瞬态分析以频谱分析和频谱的变化为基础，这与本发明的以时域的直接瞬态检测为基础的瞬态分析的区别是非常大的。

发明内容

本发明以在原理上与所有已知的分析听觉信号的方法不同的方案为基础。根据本发明，已发现与听觉信号的识别有关的信号信息存在于信号的瞬态分量之中。因此，本发明的方法涉及到听觉信号的瞬态分量或响应的分离、相应于该瞬态分量的瞬态脉冲的产生以及该脉冲开关的分析。在听觉信号中，相应的瞬态脉冲可以有时间间隔地重复，通常还分析或确定这些周期瞬态脉冲的时间间隔。

在实际生活中，人耳以很高的频率对能量变化作出反应，以便识别音素或声描述。在本方法中，按照这些很高的频率来提取相应于被人耳觉察的能量变化的瞬态脉冲，然后最好将瞬态脉冲变换到仍然保留声描述或音素的独特特征的低频范围。因此，根据本发明的原理，通过分析被变换的低频信号就能够获得听觉信号的独特特征。

如将从本发明的方法的以下描述中所了解的那样，提取脉冲的瞬态波形或形状的思想使得能够采用比当前所用最好的设计简单得多的预处理方法，同时相对于听觉输入信号获得了多得多的有价值的信息。

本发明在其最广泛的方面涉及到用听觉信号的能量变化的形状来识别或表示可被例如人耳这样的动物耳朵觉察为表示独特的声描述的特征。

在对本发明的方法的特点进行更详细的描述之前将给出一些定义：

在快速分析方面，信号的瞬态分量是要加以定义的事情。其目的是获得给出相应于在耳蜗中对于信号能量的突然变化的响应的响应的表达式。因此，在这里，术语“瞬态分量”表示相应于听觉信号中的突然的能量变化的任何信号。瞬态分量含有要被分析的信号信息，为了分析这一信息，可将这瞬态分量变换成为具有独特形状的相应瞬态脉冲。因此，在这里术语“瞬态脉冲”指的是具有独特形状的脉冲，该脉冲基本上包含了听觉信号瞬态分量的信息，因此与该听觉信号能量的突然变化相对应。如上所述，音频信号的瞬态部分可以带有时间间隔地重复，因此，在这里当术语“周期的”与瞬态分量、响应或脉冲合起来使用时，就表示按时间间隔重复的任何瞬态分量、响应或脉冲。

术语“形状”表示任意的时变函数(时限的或非时限的)，在给定的时间间隔Tp内，与在该间隔外的幅值电平相比，它具有明显不同的幅值电平。因此，当形状函数为时限的时候，Tp是该形状函数的持续时间，或者与在该间隔外的幅值电平相比时，是具有明显不同的幅值电平的函数部分的持续时间。如将看到的那样，通过沿脉冲的时间轴观测脉冲的振幅就适当地识别了脉冲的形状。

为了从能量变化的形状中提取信息，本发明一广泛的方面涉及到用信号的瞬态脉冲的形状来表示能量变化的形状。虽然，可以采用若干种方法来获得相应于能量变化的瞬态脉冲，但最好采用包络检波的方法，在该方法中，最好应根据听觉信号能量变化的瞬态响应来检测包络。

表示独特声描述的能量变化可以是在听觉信号中产生突现的能量变化的音素、元音或任何其它声音。

本发明的另一个方面是提供识别听觉信号中的能量变化的方法，该能量变化可被例如人耳这样的动物耳朵觉察为表示独特的声描述，该方法将信号的能量变化形状与表示独特声描述的预定的能量变化形状进行比较。为了进行这一识别，最好用信号的瞬态脉冲的形状来表示能量变化的形状，另外最好用对听觉信号能量变化的瞬态响应的包络检波来获得该瞬态脉冲的形状。

本发明还涉及在基本上保留信号信息的条件下对听觉信号进行处理以便减小信号带宽的方法，该方法提取听觉信号的瞬态分量并对该瞬态分量的包络进行检波。最好可对被例如人耳这样的动物耳朵觉察为表示独特声描述的信号的瞬态脉冲形状进行识别。

应当指出，脉冲上升时间或前沿的形状、脉冲宽度和下降时间或后沿的形状对于脉冲识别都是重要的特征。在本发明的最佳实施例中，对脉冲的前沿的形状进行识别，通过确定至少部分前沿的上升时间、斜率和/或斜率变化来确定该前沿的形状也是优选的。

由于脉冲的上部应当包含必不可少的信息，所以在本发明的最佳实施例中，确定至少前沿顶部部分的上升时间、斜率和/或斜率变化。顶部部分可被定义为大体上的斜率为最大的时刻开始的部分。顶部部分还可以是相应于脉冲振幅上部的50％。

可以采用若干种方法来确定脉冲的形状，但在最佳实施例中，在至少5次取样的基础上确定前沿的上升时间、斜率和/或斜率变化。但是，可以采用任何合适的取样次数。可以利用与基准库的比较来实现前沿形状识别的另一最佳方法。可以根据前沿的上升时间来选择进行比较的基准。

对脉冲宽度进行识别也是优选的，可以将脉冲宽度确定为在预定振幅处从前沿至后沿的间距。

应当理解，对瞬态脉冲后沿形状进行识别也是优选的。

本发明的方法为听觉信号的瞬态条件提供了一种表示。该方法包括在人耳的频率范围内对听觉信号进行带通滤波并对低通滤波的包络进行检波，然后用已知的信号分析方法对该包络进行分析。该包络就是信号瞬态部分的表示。

在分析包络时应采用的已知的信号分析方法和应选择的带通滤波器的特性将取决于分析的目的。该目的可以是语音识别、音响产品或声学条件的质量监测以及窄带无线电通信。

本发明还涉及在基本上保留信号信息的情况下对听觉信号进行处理以便减少信号带宽的系统，该系统包括提取听觉信号的瞬态分量的装置，以及对该瞬态分量的包络进行检波的装置。

根据本发明的一个方面，提供了一种处理音频信号的方法，该方法包括：

-在音频信号中检测相应于具有至多2毫秒的上升时间的突然的能量变化的瞬态分量，并且

-检测该瞬态分量的包络。

根据本发明的另一方面，提供了一种用于处理音频信号的系统，该系统包括：

-用于在音频信号中检测相应于具有至多2毫秒的上升时间的突然的能量变化的瞬态分量的装置，以及

-用于检测该瞬态分量的包络的装置。

权利要求与系统的一实施例以及图示和数学描述一起给出的系统实施例的详细讨论揭露了系统的实施例和细节。

现在根据本发明的数学描述和附图更详细的描述本发明。

附图说明

图1表示带通滤波器F(ω)和低通滤波器H(ω)的频谱；

图2表示具有相同带宽的有限个数带通滤波器IBP在S平面上的零点和极点；

图3表示具有相同Q值的有限个数带通滤波器IBP在S平面上的零点和极点；

图4表示在S平面上不同的根定位(root locations)的脉冲响应；

图5表示短语“linear prediction”(“线性预测”)的频谱图；

图6说明如何用一次带通滤波来实现有限个数带通滤波器IBP的总和；

图7说明本发明的瞬态检波系统的原理；

图8表示本发明的瞬态检波系统的方框图；

图9表示在图8的系统中使用的优选高通滤波器的特性；

图10表示在图8的系统中使用的优选低通滤波器的特性；

图11说明人耳的灵敏度；

图12表示美国元音/i(：)/、/(：)、/a(：)/和/u(：)/的平均共振峰频率；

图13表示图12元音的第一次瞬态分析的实验结果；

图14表示在“heat”中的元音“i”的被处理曲线；

图15表示在“hop”中的元音“o”的类似于图14的曲线；

图16表示在“heat”中的元音“i”的被处理曲线的归一化时间窗口；

图17表示在“hop”中的元音“o”的归一化时间窗口；

图18表示在“have”中的元音“a”的归一化时间窗口；

图19表示本发明的语音识别系统的方框图；

图20-25分别表示在“heat”中的音素“i”、“hop”中的“o”、“ongaonga”中的“o”、丹麦字“hus”中的“u”、丹麦字“Φse”中的“Φ”和丹麦字“lys”中的“y”的语音合成的瞬态脉冲。

具体实施方式

首先给出本发明原理的数学说明。

可以在时域中用脉冲响应将带通滤波器表示如下：

(3) f(t)＝h(t)cos(ω_ct)

其中h(t)是低通滤波器的脉冲响应而ω_c是带通滤波器f(t)的中心频率。项cos(ω_ct)可被看作表示低通滤波器向中心频率在ω_c处的带通滤波器的频移。图1说明了这一点，其中的F(ω)和H(ω)是f(t)和h(t)的相应频率特性。

该IBP滤波器由简单带通滤波器BP组成，其中，一零点位于原点而两复极点(互补的)在复S平面的左半平面中，并且IBP滤波器的极点在一直线上排列，则：

1)如果全部IBP滤波器的带宽都相同，则全部滤波器的上升时间和延伸时间将都相同，但Q＝fc/(fu-f1)将与中心频率fc成反比。零点和极点如图2所示。

2)如果全部滤波器的Q值都相同，则上升时间和延伸时间将与中心频率成反比，而带宽将与中心频率成正比。零点和极点如图3所示。

假定在瞬态条件分析感兴趣的频率范围内IBP滤波器的上升时间和延迟时间相同。如果情况不是这样，就假设大脑将对其进行补偿。如果只是由于下降频率的上升时间将较慢而延迟时间将较长(如果Q值相同)。瞬态现象的节奏和形状将是一样的。

在快速分析方面，信号的瞬态分量是要加以定义的事情。其目的是获得给出相应于在耳蜗中对于信号能量的突现变化的响应的响应的表达式。信号能量的突现变化相应于听觉信号中的瞬态分量。

信号的瞬态和稳态分量的组成可由包络检波来识别，其中稳态分量是被检波的包络的直流分量，而瞬态分量则被识别成包络的电平变化。

瞬态响应可利用包络检波来识别。

脉冲响应的包络可表示为：

(4) ft(t)＝[f(t)²+f(t)²]^1/2

其中f(t)是f(t)的希尔伯特变换。

将(3)代入(4)，得到

(5) ft(t)]＝{[h(t)cos(ω_ct)]2+[h(t)cos(ω_ct)²}1/2

对于希尔伯特变换，如果u(t)和v(t)的频谱不重叠，就有

(6) u(t)v(t)＝u(t)v(t)＝u(t)v(t)

因此得到

(7) ft(t)＝{[h(t)cos(ω_ct)]²+[h(t)sin(ω_ct)]²}^1/2

以及

(8) ft(t)＝|h(t)|

假定h(t)的频谱不与中心频率ω_c重叠。在这一条件下，脉冲响应的包络与中心频率无关。图4说明了这一点，该图表示不同的脉冲响应如何产生相同的包路。

(8)所得的结果使IBP滤波器的总包络是各个带通滤波器的包络的和。

因此通过求和ft(t)，就可以表示累加瞬态响应ftt(t)。这一总和可表示为

(9) - - - ftt (t) = {&Integral;}_{ωcl}^{ωcu} ft (t, ω_{c}) d (ω_{c})

以及

(10) ftt(t)＝|h(t)|(ω_cu-ω_cl)

其中ω_cl是下IBP滤波器的中心频率而ω_cu是上IBP滤波器的中心频率。

图5表示当人发短语“linear prediction”的音时的频谱图。该频谱图是用带宽为300Hz、中心频率在从约150Hz到约4KHz范围内的带通滤波器来记录的。纵坐标是频率，横坐标是时间，黑的印色是信号能量的等级。水平取向的黑带是话音中的主频带，称为共振峰。垂直细线相应于突然的能量变化，因此相应于该信号的瞬态分量。频谱图通常被用于共振峰的分析，300Hz的带宽对于瞬态分析是不够的，但细线的形状证实了瞬态信号与带通滤波器的中心频率无关。

如上所述，可将耳蜗看作具有有限个数的带通滤波器，但如果不使用大量的带通滤波器就能够检测瞬态信号将是更好不过的。

图6说明如何用具有覆盖了上和下IBP滤波器IBP_l和IBP_u的截止频率的带宽的一带通滤波器BP来实现有限个数带通滤波器IBP的总和。带通滤波器BP最好应当是最大平坦延迟型的，这种类型的滤波器特别适合于保持瞬态条件的形状。

实现上检测包络的最简单的方法是使用整流器和低通滤波器，例如参看McGraw-Hill Kogakusha出版社1968出版的A.Bruce Carlson所著的《通信系统，电通信中的信号和噪声介绍》。由公式(10)可见，可以通过执行覆盖在包络检波前需要被累加的IBP的范围的高通滤波BP来对累加瞬态分量进行检测。包络检波相应于带通滤波器的中心频率ω_c至具有该带通滤波器一半带宽的低通滤波器的频移。这意味着低通滤波器的截止频率确定了被BP覆盖的全部IBP的带宽。这一原理示于图7。

图7中，数字化声音信号S(t)进入带通或高通滤波器BP，10，该带通滤波器的输出是整流单元11的输入，该整流单元11的输出是低通滤波器LP，12的输入。该低通滤波器12的输出就是所称的ftt(t)，代表了对包络的检波，因此代表了对声音信号S(t)瞬态响应的检测。

根据信号的瞬态部分的数学定义可以得出这样的结论，即h(t)的极点将位于s平面的负实轴上。这意味着脉冲响应将不在零附近振荡(瞬态响应是非振荡信号)。由公式(10)可见，IBP滤波器的界限ω_cu和ω_cl只是ftt(t)数量的问题。

带通滤波器BP设定了IBP滤波器瞬态响应总和的界限，振幅特性对各IBP滤波器的贡献进行加权。如果使用了低通滤波器而不是BP，则h(t)的频谱和下IBP滤波器的中心频率就有重叠。带通滤波器BP应具有至少等于低通滤波器LP截止频率的两倍的带宽。当采用本发明的方法时，该带宽和振幅特性可用来最佳化不同信号的分析。

对于数学上的瞬态检测系统，低通滤波器LP的极点应当位于负实轴上。但是，当处理听觉信号时，它是决定性的耳蜗的特性；而在脉冲响应内最好应当没有明显的振荡，因为振荡会使听觉信号的瞬态条件更加模糊。

低通滤波器LP的截止频率是信号的瞬态条件的表述，这一频率应当与听觉信号一起产生出相应于耳蜗的上升时间的上升时间。该截止频率可被看作是瞬态现象的指标，即低的截止频率将只对那些具有慢上升时间的信号成分导致瞬态检测，而高的截止频率也将对具有快上升时间的信号成分导致检测。

耳朵的神经脉冲与低于约1.4KHz而不与高于1.4KHz的频率同步的事实说明了耳朵在低于1.4KHz时是与音调有关的，高于1.4KHz是与瞬态现象有关的。在与瞬态现象有关的区域中，神经脉冲与相应于信号中的突现的能量变化的瞬态现象同步。

BP的截止频率应相应于耳蜗的瞬态灵敏范围(理论上它应具有相应于耳朵的灵敏曲线的振幅特性)。人耳的灵敏度曲线指出下截止频率必须约为2KHz而上截止频率必须约为5KHz。BP滤波器的振幅特性将对各单个IBP滤波器的贡献进行加权。

根据以上的讨论，可以如图8的方框图所示地构成本发明的瞬态检测和分析系统。在图8中，声音信号输入麦克风13，麦克风13的输出在被A/D转换器15数字化之前通过低通滤波器14。A/D转换器的输出S(t)输入高通或带通滤波器BP，10，该带通滤波器的输出输入整流单元11，该整流单元11的输出被输入低通滤波器LP，12，见图7。低通滤波器12的输出就是所述的ftt(t)，代表了输入信号的瞬态分量。为了分析该瞬态分量，低通滤波器12的输出信号最好应输入用于信号分析或识别的设备16。

图9和图10表示将要在图7或图8的系统中使用的优选高通滤波器和低通滤波器的特性。要被用作图7或图8中的高通滤波器10的带通滤波器BP应具有至少2000Hz、最好约为3000Hz的下截止频率。上截止频率应当在45000和7000Hz之间的范围内，最好约为6000Hz。图9所示特性的下截止频率为3014Hz。要在图7或图8中使用的低通滤波器LP应当具有在400-1200Hz范围内的、最好约为700Hz的上截止频率。图10所示特性的上截止频率为732Hz。还能够用全波整流器来构成根据图7或图8的瞬态检测系统。但是，最好使用如图7和图8所示的单向整流器。

图11说明了人耳的灵敏度被表示成为耳蜗对音调的听觉信号的响应。如上所述，感觉作用在直到约1.4KHz之前是与音调有关的，在约1.4KHz以上是与瞬态现象有关的。

如上所述并如图6所示，利用各单个带通滤波器的包络的总和获得了IBP滤波器的总包络，并且可以用一个带通滤波器BP来实现有限个数或大量带通滤波器IBP的总和。图7说明了这一原理。但是，还可以用滤波器组的方法来实现若干带通滤波器的总和，在该方法中，对若干单个带通滤波器的包络进行检波和求和。因此，该滤波器组内的每一分支由具有特定中心频率的带通滤波器、整流单元和低通滤波器组成，低通滤波器的输出被求和以便获得总包络。

现在讨论图12和图13所示的一些介绍性的实验。

进行了两个实验，以便测定BP和LP滤波器的截止频率和估算语音识别方法的适用性。

1.监听调幅信号的实验

为了首先测定在受控条件下LP滤波器的截止频率，在对耳朵灵敏的频率范围内利用调幅信号进行监听试验。因为在该范围内信号通常没有那么集中和因为非常刺耳而不能够建议对该实验进行验证，所以该实验多少是模拟的。

载频选为3.5KHz，从几赫兹开始向上调谐调制音频。包络信号在350-400Hz之前发出嗡嗡声。此后包络信号首次发出不真实的/u(：)/的声音，在800Hz时发出尖锐的/i(：)/的声音。高于800Hz就听不到包络信号了。如果在给定的测试点，处进一步增高音频，就将听到不同的混合音频。

声音当然受到载频的支配，但已指出了LP滤波器的截止频率很可能必须小于1-1.2KHz。

调制度约为0.75。当其大于1时，就可以感觉到泛音的出现。

2.四个元音的瞬态信号的分析

元音的选择：

图12表示男人、女人和儿童发音的在heed、had、hod和who中的美国元音/i(：)/、/(：)/、/a(：)/和/u(：)/的平均共振峰频率。这些元音代表了元音之间良好的分散性，所以选它们来做实验。

用普通的盒式录音机记录男人、女人和儿童(有丹麦口音)发音的这些元音。

实验的配置：

按照图7设计模拟TSD(瞬态信号检测器)。该设计以运算放大器LM833为基础。

滤波器的指标是：

BP滤波器是4阶切比雪夫(chebyshev)滤波器，有1d的滤纹。上截止频率约为6.5KHz，下截止频率可调，从约550Hz至2.6KHz。

整流器是全波整流器，对负信号进行变换并将其与正信号相加。

LP滤波器是2阶巴特活斯(Butterworth)滤波器，截止频率定1.5Hz(3db截止频率被测定为1.2KHz)。

记录元音和检测瞬态信号：

用普通的无线电盒式录音机记录男人、女人和儿童发音的4个元音。瞬态信号用TSD进行检测、用8位A/D转换器进行转换并存储在PC中。记录时的取样速率是10KHz，但当对记录信号进行分析时，只考虑每一第二组值，取样速率成为5KHz。8位A/D转换器的动态范围不宽，因此必须记录孤立的元音(指不在字中的元音)，这就使发音更加模糊。

图13a-13p表示图12的元音的第一次瞬态分析的实验结果。

可以通过监听瞬态信号来区分元音。尽管发现基音有不同，但用眼睛观察结果的时间变化就会发现分别由男人、女人和儿童发音的同一元音具有几乎相同的特性。当记录丹麦字“OP”中的元音/a(：)/时，从瞬态信号的时间变化清楚地看出也记录了P声音。

瞬态信号的分析：

瞬态信号中的功率在各元音之间变化很大。元音/a(：)/和/u(：)/的信号的功率非常低(特别对于男声)，因而需要提高无线电盒式录音机的音量，这就产生了许多噪声。

首先在元音的不同的开始时刻进行若干20毫秒持续时间和5KHz取样速率的FFT分析。频谱显得非常突出并对整个元音都是相同的。这就强烈地指出在信号中有重要信息。

为了分析共同的特征，对每一元音随机地选取20毫秒(101个样值)。用Hamming(汉明)窗口来平滑时间信号并计算FFT。图13a-13d表示功率谱，同一幅图中表示了每一元音的3种声音，当由女人发音时相应的瞬态信号分别示于图13e-13h，当由男人发音时示于图13i-13l，由儿童发音时示于图13m-13p。

预期频谱具有以下特性：

由三种不同声音发音的同一元音的频谱将具有与该元音相关的某些共同特征和与声音有关的某些特征。

由同一声音发音的不同元音的频谱将具有与该不同声音相关的某些特征和来自该声音的某些共同特征。

此外，必须预期到频谱的形状比绝对频率所起的作用大。

由功率谱可见：

/i(：)/(图13a)

最显著的特征是全部三种声音的频谱在300-400Hz的频率范围内都具有明显的尖顶，它们宽50Hz，在200-250Hz处有明显的裂缝。此外，在50Hz处具有影响。男声在150Hz处有必然由低音造成的影响。

/a(：)/(图13b)

女声和男声在350Hz处有明显的裂缝(深过50db)。男声在这一情形中在150Hz处也有影响。儿童音声不是很好地符合模式，这也许是由于不确定的发音的缘故。

/a(：)/(图13c)

所有三种声音在250-300Hz处有尖顶。频率范围稍低一些并且不如/i(：)/的那么明显。另外，对于所有三种声音，在50Hz处都有主要影响。

/u(：)/(图13d)

音声和女声实在相象，它们在300和350Hz处有尖峰，在100Hz处有深宽的凹部。男声也有尖峰，凹部与女声和音声的凹部一样宽，但没有那么深。之所以如此的理由可能是低的声音和在由无线电盒式录音机产生的信号中有许多噪声。

可以将产生图13a-p的结果的实验看作是介绍性的，但特别是当考虑到存在许多噪声和仅用8位A/D转换器进行的简单实验时，结果是非常有意义的。尽管如此，结果是引人注意的。不需要选择特定的数据来改进结果，因此瞬态条件对于语音识别具有决定性的重要性是毫无疑问的。

全部信息看起来可以处在低于500Hz的频率范围内。如果情况如此，则对取样频率的要求将低于1.5KHz，并且将能够利用更多的并行过程来非常广泛地对语音信号进行分析。能够有更多的例如5、20和40毫秒的时间窗口并利用频谱分析(FFT、LPC、CEPSTRUM或其它)来检测某些音素和利用时间分析(相关法或其他法)来检测其它音素。

一种将AGC放大器作为前置放大器和将对数或AGC放大器在BP放大器之后以便补偿带通滤波的音素的能量变化的更加复杂的TSD设计，将很可能能够获得非常好的结果并导致非常强有力的与发音者无关的语音识别。如果使用12或16位A/D转换器而不是8位A/D转换器就可以获得更好的结果。

以下将讨论图14-18所示的其它实验结果：

本发明的提取瞬态信号分量的方法还可被看作是听觉输入信号的预处理。为了能够更好地理解和/或确定该预处理的参数，开发了软件程序，利用软件程序能够表示输出信号并在预处理的每一处理步骤后监听结果。

已利用在Compaq Deskpro 4/66i PC上运行的这一软件程序进行了图14和图15所示的语音信号的分析。这种PC配备了MicrosoftWindows sound System(微软视窗声音系统)，麦克风和AnalogDevices的编码译码器芯片(AD1848)。编码译码器芯片执行取样、抗混淆滤波和A/D转换。

图14a和图15a所示语音信号用这一“声音系统”进行记录。用11025KHz和16位线性PCM取样语音信号。通带大于4.9KHz。

前瞬态信号如图14b和图15b所示。这些信号是被截止频率为3.0KHz的3阶IIR数字高通滤波器滤波的语音信号。该滤波器是3阶巴特沃斯滤波器的双线性变换。

选择了3.0KHz的截止频率来获得在耳蜗的最灵敏区域范围内的带通。在这一情况下它意味着从3.0KHz至4.9KHz，4.9KHz由编码译码器芯片来给出。如果高通或带通滤波器具有符合公式(10)的最大平坦延迟特性，则将是最佳的。

图14c和图15c所示瞬态信号是被截止频率约为700Hz的二阶IIR数字低通滤波器整流和滤波的前瞬态信号。该滤波器是二阶巴特沃斯滤波器的双线性变换。

低通滤波器应当保留相应于耳蜗中的瞬态响应的瞬态脉冲的形状，因此能够这样做的滤波器将是最佳的滤波器。耳蜗中的神经能够发出频率高达约1.4KHz的神经脉冲。在与瞬态有关的区域中1.4KHz的IBP滤波器的带宽被包络检波变换成为700Hz的低通滤波器的截止频率，这就是为什么选取了约700Hz的截止频率的缘故。

瞬态信号可被看作是信号能量变化的表示。

图14和图15表示的全部信号被归一化成为最大信号电平，这意味着最大的绝对信号值等于32766。图14和图15中的横坐标代表50毫秒的时间间隔，图14a、15a和图14b、15b的纵坐标代表相应语音信号的声压，图14c、15c的纵坐标代表相应瞬态语音信号的能量。

能够监听分别相应于图14a、15a、14b、15b和14c、15c的语音、前瞬态和瞬态信号。对滤波器特性选择的主要要求之一是当监听上述信号时，各信号必须保持接近原始语音信号的声音。

参看图7所示系统，图14表示当由男人发音时“heat”中的元音“i”的曲线，其中(a)表示相应于图7中数字化输入信号S(t)的滤波前的语音信号，(b)表示相应于图7中的带通滤波器10的输出信号的高通滤波后的信号，(c)表示相应于图7中的低通滤波器12的输出信号的整流和低通滤波后的信号。

图15表示类似图14的“hop”中的元音“o”的曲线。

注意到瞬态脉冲的上升和下降时间以及宽度或持续时间对于元音的声音很重要。图16-18给出被测瞬态脉冲的例子。图16a所示的当由男人发音时“heat”中的元音“i”的时间窗口相当于图14c所示的被处理信号。当“heat”中的元音“i”由儿童发音时相应的时间窗口如图16b所示。由图16a和图16b可见，最占优脉冲的上升沿和下降沿很陡，上升和下降时间约为0.4毫秒或更短，当在约50％的电平处测量时最占优脉冲的宽度约为0.8毫秒。

图17a所示的当由男人发音时“hop”中的元音“o”的时间窗口相当于图15c所示的被处理信号。当“hop”中的元音“o”由儿童发音时相应的时间窗口如图17b所示。由图17a和图17b可见，最占优脉冲的上升沿和下降沿很陡，上升和下降时间约为0.5毫秒，但当在约50％的电平处测量时最占优脉冲的宽度约为1.5毫秒。图17b的最占优脉冲中的凹陷的深度尚未能影响感知。应当指出，“hop”中的元音“o”是尖锐的元音，较圆滑的元音的下降沿将较平缓。

图18表示当由男人发音时“have”中的元音“a”的被处理信号的时间窗口。应注意到该瞬态脉冲的形状具有比图16-17所示脉冲平缓的上升和下降沿。

因此，根据以上的结果，可以得出元音的感知是由瞬态脉冲的形状来给出的结论。还可以得出这样的结论，即通过利用上述信号处理方法分析已从听觉信号提取的瞬态分量或脉冲，就可以通过区分瞬态脉冲或一些瞬态脉冲的形状来识别语音信号的元音或音素。

在元音或音素中，瞬态脉冲被重复，重复频率给出对音调的感知。在图16a中，两个接连的脉冲之间的时间间隔约是相应于170Hz的男人音调的6毫秒，在图16b中，两个接连的脉冲之间的时间间隔约是相应于280Hz的儿童音调的3.5毫秒。

因此，还可以得出这样的结论，即通过利用上述信号处理方法分析已从听觉信号提取的瞬态分量或脉冲，就可以通过确定瞬态脉冲之间的时间间隔来确定语音信号的音调。

因此，当按照本发明的最佳实施例对听觉信号进行分析时，就考虑了在包括高通滤波和随后是输入信号的整流和低通滤波的信号处理期间保持声信号的被识别为一致。

由以上计论应当认识到本发明提供了非常适合于语音识别的方法。

图19表示本发明的语音识别系统的方框图。在该系统中设置了包括图7的带通滤波器10、整流电路11和低通滤波器12的预处理单元20。因此，可以最方便地集成在一块集成电路或芯片内的该预处理单元就是与本发明的方法相适应的瞬态检测单元。该系统还包括通常在语音识别系统中使用的单元，例如与基准库22连接的模式识别单元21、音素确定单元23和单词/句子确定单元24。图19所示系统采用了模型匹配(template matching)，但在识别系统中还可以采用其它方法。

图19的基准库22应存储相应于可由预处理单元20产生的形状的库。

应当认识到单片预处理单元还可以包括如图8所示的低通滤波器14和/或A/D转换器15。

应当认识到本发明的预处理可以在需要语音或声音分析、识别、编码和/或译码的许多其它电子系统中应用，例如象扬声器、助听器和远程通信系统这样的音响产品或系统的质量测定，或用于声学条件的质量测定。还可以在窄带无线电通信的语音压缩和解压缩方面采用该预处理。

如图10所示，在预处理单元中使用的低通滤波器12的最佳截止频率应低于1KHz。因此，听觉信号的全部必要信号信息被表示在1KHz的相当窄的频率范围内。应当将这一频率范围与在语音信号传送的GSM移动无线电通信系统中使用的每秒约9000位的频带相比。通过采用本发明的预处理方法或单元，能够将无线电通信用的频率减少到每秒约1000位，这样的频带将在这一通信领域内节省了许多频率资源。

因此，应当认识到本方法非常适合于最佳化窄带无线电通信内的带宽，当在无线电通信系统内传送听觉信号时，应当在信号被传送以及在被接收机接收之前用在此描述的预处理对信号进行处理，而这是落在本发明的范围内的。最好是在被处理信号的传送之前将信号编码成为数字表示并在接收机中译码该编码信号，以便将被例如人耳这样的动物耳朵感知的瞬态脉冲形状恢复为表示听觉信号的独特的声描述。

在上述数字传输期间，可以选择带宽来满足对被接收、被译码和被恢复的瞬态脉冲的质量的不同要求。因此，可以选择最宽为每秒4000倍的带宽，但应当能够利用每秒约2000位的带宽来获得被恢复脉冲的良好质量。然而，带宽最好是在每秒800-2000位的范围内。应当指出，与考虑重建信号的高质量相反，对于优先考虑高的系统性能的无线电通信系统、例如军用系统而言，可以选择每秒约400倍的带宽。

在传送数字信号时，数字信息最好包括有关代表了被处理听觉信号的瞬态脉冲的上升沿、下降沿和持续时间的信息。在一系列相同脉冲中的第二个和其它的脉冲最好用表示被传送时的重复的数字符号来表示。

提供用于语音合成的方法也是本发明的目的。

从图14-18的实验结果的讨论应当认识到，每一元音或音素的声音可以由特定地与该音素相应的占优瞬态脉冲的形状来给出。由实验已得出这样的结论，即与图16-18的被处理脉冲类似的瞬态脉冲包含了产生音素的声音的必要信息。

利用为图14-18所示瞬态分析而开发的软件，就能够通过在纵坐标是振幅和横坐标是以毫秒为单位的时间的坐标系统中对点进行排列来产生简单的瞬态信号。通过排列一个或若干个点、用直线或正弦曲线在各点之间内插线段并确定时间间隔就可以产生一个瞬态脉冲。该信号重复300毫秒，当该信号在编码译码器芯片的D/A转换器中被转换时就能够对其进行监听。

应当指出，脉冲上升时间或上升沿的形状、脉冲的持续时间和下降时间或下降沿的形状都是对在语音识别和/或合成中使用的瞬态脉冲进行区分、表示和/或产生的重要特征。这些特征还可以应用在语音压缩方面。

这方面的应用如图20-25所示，图20-25分别表示了对于“heat”中的元音“i”、“hop”中的“o”、“ongaonga”或丹麦字“Ole”中的“o”、字“who”中的“u”、丹麦字“Φse”中的“Φ”以及丹麦字“lys”中的“y”，应如何形成用于语音合成或识别的瞬态脉冲。这些脉冲以5毫秒的周期重复。

由图20可见，“heat”中的音素“i“可以由持续时间在0.3-1.1毫秒时间内、上升沿的上升时间在0.3-0.5毫秒范围内的非常窄的脉冲来形成。下降沿的下降时间也应在0.3-0.5毫秒范围内。

同样地由图21可见，“hop”中的音素“o”可以由持续时间在1.3-1.8毫秒范围内、上升沿的上升时间在0.3-0.5毫秒范围内的脉冲来形成。下降沿的下降时间也应在0.3-0.5毫秒范围内。

由图22可见，丹麦字“Ole”中的音素“o”可以由脉冲上部的持续时间在1.3-1.8毫秒范围内、上升沿的上升时间在0.3-0.5毫秒范围内的脉冲来形成。这一音素的下降沿的下降时间可以变化，但应在1.0-2.0毫秒的范围内。

由图23可见，字“who”中的音素“u”可以通过产生具有正弦曲线内插和在1.0-2.0毫秒范围内的持续时间的瞬态脉冲来形成。最佳持续时间应为约1.5毫秒。

图24表示在丹麦字“Φse”中的音素“Φ”的脉冲。该脉冲的上升沿可以具有在0.4-0.6毫秒范围内的上升时间。下降沿的下降时间应在1.0-2.0毫秒范围内。

图25表示在丹麦字“lys”中的音素“y”的脉冲。该脉冲的上升沿可以具有在1.0-2.0毫秒范围内的上升时间。下降沿的下降时间也应在1.0-2.0毫秒范围内。

当根据本发明的上述原理合成人的语音时，最好产生一系列瞬态脉冲，这一系列瞬态脉冲相应于组成要被合成的语音的音素序列。另外最好利用基于规则的变换从一系列字母恢复该音素序列。

应当认识到本发明的原理还应可应用于音响产品的质量测定。在进行这种测定时，应当将明确定义的瞬态信号传送给音响产品，然后测定响应的失真。可以采用与图7所示原理一致的预处理来测定该失真。

本发明的原理还可应用于助听器，以便改善语音信号的噪音抑制。

表示瞬态脉冲的特征形状的特征库可用来识别语音信号并使语音信号与噪声背景分离。

提供的实验已首次描述了可以被非常简单地识别和产生的音素的某些共同特征，但这些特征在语音或听觉信号的识别和产生的整个领域内可以具有极大的意义。

在时域内描述了本发明的方法和系统的性能。但应认识到也可以对在时域内描述的瞬态信号、分量和/或脉冲给出在频域内相应的描述，这自然将在本发明的范围之内。

还应当指出，上述信号处理方法可以按照数字方式、采用模拟部件的电子方式、机械的方式或者它们之间的任何组合的方式来实现，这种处理方法也将来本发明的范围之内。

Claims

1.一种处理音频信号的方法，该方法包括：

-检测该瞬态分量的包络。

2.权利要求1的方法，其中对可被动物耳朵或人耳感知为代表音素的信号的瞬态脉冲形状进行识别。

3.权利要求2的方法，其中对瞬态脉冲的上升沿的形状进行识别。

4.权利要求3的方法，其中上升沿的形状通过上升沿的上升时间或斜率和/或斜率变化来确定。

5.权利要求4的方法，其中使用上升沿的顶部来确定上升时间或斜率和/或斜率变化。

6.权利要求5的方法，其中顶部是在斜率最大点开始的部分。

7.权利要求4的方法，其中上升沿的上升时间或斜率和/或斜率变化在至少5次取样的基础上来确定。

8.根据权利要求3-7中任一权利要求的方法，其中利用与基准库的比较来实现上升沿的形状识别。

9.权利要求2的方法，其中对瞬态脉冲的持续时间进行识别。

10.权利要求9的方法，其中脉冲的持续时间被确定为从与预定水平相交的上升沿至与预定水平相交的下降沿的时间间隔。

11.权利要求10的方法，其中预定振幅是瞬态脉冲最大振幅的至多50％的振幅。

12.权利要求3的方法，其中还对瞬态脉冲的下降沿的形状进行识别。

13.权利要求1的方法，还包含传输被处理的信号并在接收机中接收所传输的信号。

14.权利要求13的方法，其中在传输被处理信号之前，将该信号编码成为数字数据，并在接收机中译码所接收的信号，以便恢复被动物耳朵或人耳感知为代表音频信号的音素的瞬态脉冲形状。

15.权利要求14的方法，其中数据传输是以每秒至多4000位的带宽来进行的。

16.权利要求15的方法，其中带宽至多为每秒2000位。

17.权利要求16的方法，其中带宽在每秒800-2000位的区间之内。

18.根据权利要求14-17中任一权利要求的方法，其中数字数据包括瞬态脉冲的上升沿、下降沿和持续时间的信息。

19.权利要求14的方法，其中在一系列相同瞬态脉冲中的第二个和其后的瞬态脉冲用指示重复的数字符号来表示。

20.权利要求1的方法，其中瞬态分量的检测包括对音频信号进行带通滤波或高通滤波。

21.权利要求1的方法，其中包络检测包括整流和低通滤波。

22.权利要求20的方法，其中带通或高通滤波的下截止频率至少为2KHz。

23.权利要求20或22的方法，其中该滤波具有在4.5至7KHz之间的上截止频率。

24.权利要求21的方法，其中整流是单向整流。

25.权利要求21的方法，其中低通滤波的截止频率在400-1200Hz的范围内。

26.权利要求1的方法，其中包络检测包括利用带通滤波器组的带通滤波。

27.权利要求1的方法，该方法包括：如果该音频信号包含其上升沿的上升时间小于0.5毫秒且持续时间小于1.1毫秒的瞬态脉冲，则确定该瞬态脉冲表示如“heat”中的音素“i”。

28.权利要求27的方法，其中上升沿的上升时间小于0.4毫秒。

29.权利要求1的方法，该方法包括：如果该音频信号包含其上升沿的上升时间小于0.5毫秒且持续时间为1.3-1.8毫秒的瞬态脉冲，则确定该瞬态脉冲表示如“hop”中的音素“o”。

30.权利要求27或28的方法，其中下降沿的下降时间小于0.5毫秒。

31.权利要求1的方法，该方法包括：如果该音频信号包含其上升沿的上升时间小于0.5毫秒且持续时间为1.3-1.8毫秒的瞬态脉冲，则确定该瞬态脉冲表示如英文字“ongaonga”或丹麦字“Ole”中的音素“o”。

32.权利要求1的方法，该方法包括：如果该音频信号包含具有正弦曲线内插且持续时间为1.0-2.0毫秒的瞬态脉冲，则确定该瞬态脉冲表示如英文字“who”中的音素“u”。

33.权利要求1的方法，该方法用于语音压缩。

34.权利要求1的方法，该方法用于音频产品的质量测定。

35.权利要求1的方法，该方法用于室内或室外声学条件的质量测定。

36.一种用于处理音频信号的系统，该系统包括：

-用于检测该瞬态分量的包络的装置。

37.权利要求36的系统，还包括用于根据瞬态脉冲的形状识别或表示能量变化的装置。

38.权利要求36或37的系统，其中用于瞬态分量提取的装置包括带通滤波器或高通滤波器。

39.权利要求36的系统，其中包络检测装置包括整流器和低通滤波器。

40.权利要求38的系统，其中带通或高通滤波器的下截止频率至少是2KHz。

41.权利要求38的系统，其中带通滤波器的上截止频率在4.5至7KHz之间。

42.根据权利要求39-41中任一权利要求的系统，其中整流器是单向整流器。

43.权利要求39的系统，其中低通滤波器的截止频率在400-1200Hz范围内。

44.权利要求36或37的系统，其中包络检测装置包括滤波器组。