CN1298534A

CN1298534A - 无线通信系统中语音的可靠转换及其方法

Info

Publication number: CN1298534A
Application number: CN99805540.9A
Authority: CN
Inventors: 陈燕鸣; 张路; 肯尼思·D·芬伦; 阿瑟·G·赫科特
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1998-04-27
Filing date: 1999-03-25
Publication date: 2001-06-06
Anticipated expiration: 2019-03-25
Also published as: WO1999056275A1; CN1158644C; US6151572A

Abstract

一个无线通信系统,包括一个语音识别系统(218),一个发送器(202),和一个处理系统(210)。这个语音识别系统用于接收被主叫所发起的消息,这个发送器用于将消息发送到这个无线通信系统的多个SCR(选择性呼叫无线电装置)(122)。这个处理系统,连接到这个语音识别系统,和发送器,被调节成促使这个语音识别系统将从这个无线通信系统的一个主叫发起的、表示一个语音消息的语音信号转换为一个文本消息(401,417),其中这个文本消息是需要被发送到一个SCR的,并且促使这个发送器将本消息发送到这个SCR(432)。

Description

无线通信系统中语音的可靠转换及其方法

本发明涉及下述发明，下述发明的受让人与本发明的受让人相同：

Andric等等发明的、在1998年3月30日申请的美国申请No.09/050,184，题为“一个无线通信系统中的语音识别系统及其方法”。

本发明一般涉及无线通信系统，特别地，涉及一个无线通信系统中语音的可靠转换。

目前，因为可以获得连续语音识别系统，语音识别系统对传统计算机的用户来说已经很熟悉了。这些应用一般被设计成为与说话者相关的语音识别。即，为了高度准确地将语音转换为文本消息，连续语音识别系统必须针对一个特定说话者进行语音训练。通常的做法是，让这个说话者阅读几段预先录制号的消息，然后这个语音识别系统进行录音并且进行分析，以获得这个说话者的统计语音模型集合。在后面，连续语音识别系统将利用这些模型把说话者的语音转换为一个文本消息。

尽管上述方法在将语音转换为文本消息的处理过程中，提供了一相对较高的准确性，但是，人们仍然希望有更高程度的准确性以便实现无缺陷的转换。在实现一个无缺陷的转换标准中，目前的连续语音识别系统仍然存在几个缺点。例如，在产生一个等效的文本消息时，目前的算法极大地依赖于被分析语音信号的频谱包络特征。这是不利的，因为这样一个方法没有考虑语音中的其它特征，例如语音频谱的形状，而语音频谱形状可能会对改善语音转换的准确性有帮助。另外，目前的算法可能不能够很好地以一高准确性来识别还没有用其特定语音特征来训练这个系统的特定说话者的语音。因为现有语音识别系统具有前述的限制，无线通信系统的业务提供者不得不选择利用人工操作员来将希望向一个或者多个SCR(选择性呼叫无线装置)发送消息的呼叫者的语音消息转录为文本消息。在使用一个完全自动化的语音识别系统的问题上，业务提供者一般是比较犹豫的，因为目前的语音识别系统不能够保证无错误地将语音消息转换为文本消息。但是，使用人工操作员是昂贵的，特别是对一天工作24个小时，一年中的每一天均进行工作的无线通信系统来说。所以，在一个无线通信系统中，就需要将语音消息转换为文本消息的过程自动到可以取消或者降低人工操作员执行这个转换的程度。

所以，所需要的是一个装置和方法，它能够在一个无线通信系统中进行可靠的语音转换，并且这个装置和方法能够满足目前的需求，并且克服了现有技术中的前述缺点。

本发明的特征在后附权利要求书中被提出。但是，通过参考下面联系附图的详细描述，可以更好地理解本发明的其它特征，并且也会对本发明的其它特征更清楚，其中：

图1是根据本发明的一个无线通信系统的一个电气框图；

图2和3是根据本发明的无线通信系统的固定和便携式部分的电气框图；

图4描述了根据本发明，在无线通信系统中使用人工操作员的情形；

图5-6显示了总结根据本发明的无线通信系统的存在的流图；和

图7-10显示了表示根据本发明，对被一个呼叫者所产生的语音信号所进行的变化的图。

图1是一个无线通信系统的电气框图，它包括一个固定部分102和一个便携式部分104。这个固定部分102包括一个控制器112，这个控制器112通过传统的通信链路，例如微波链路来控制多个基站116的操作。便携式部分104包括多个SCR(选择性呼叫无线电装置)122，选择性SCR用于在控制器112的控制下，从基站116接收消息。应理解，替代地，这个无线通信系统可以被修改成在SCR122和基站116之间能够支持双向通信。可以通过在SCR122和基站116中均使用无线收发器来实现这个修改。

现在转到控制器112的操作上，我们发现控制器112从利用与一个传统的PSTN(公众交换电话网)110进行通信的一个传统的电话124的呼叫者接收消息。然后，PSTN110通过连接到控制器112的一个传统电话线路101将这些消息转发到控制器112。在从PSTN 110接收到这些消息后，控制器112处理这些消息，并且将这些消息发送到基站116，以发送到指定的SCR122。应理解，替代地，电话124可以通过一个传统的电话线路103直接连接到控制器112。

图2和3是根据本发明的这个无线通信系统的固定部分和便携式部分102，104的电气框图。固定部分102的电气框图包括控制器112的部件和基站116的部件。控制器112包括用于控制基站116的操作的一个传统处理系统210，一个语音识别系统218，和用于将消息发送到基站116的一个发送器接口204。语音识别系统218从PSTN 110，和/或者从一个直接电话连接103接收语音消息，并且将这些语音消息转换为等价的文本消息。处理系统210包括传统的硬件，例如一个计算机系统212(带内含的随机访问存储器(RAM)--图2中没有显示)和大容量保存媒质(例如，一个传统的硬盘)214，以执行控制器112的被编程操作。基站116包括连接到一个天线201的一个传统RF发送器202，以发送从控制器112所接收的消息。

现在不详细讨论SCR122，在已经讨论完固定部分102后，再开始详细讨论SCR 122。开始这个讨论时，读者必须参考图5-6，图5-6显示了总结根据本发明的无线通信系统的操作的流图400，417。流图400描述了控制器112的被编程指令，这个被编程指令开始被保存在大容量保存媒质214中，然后从被包括在计算机系统212中的RAM中被操作。

流图400从步骤401开始，其中希望向一个被选择SCR 122发送一个消息的一个主叫开始与无线通信系统进行通信。如前面所提到的，这个与控制器112进行的通信可以从PSTN 110发起，也可以从一个直接的电话连接103发起。在步骤417中，主叫的语音信号被转换为与语音等价的一个文本。在转换步骤417后，在一第一实施方式中，这个文本消息在步骤432中被直接发送到被选择SCR 122。处理系统210不需要进行进一步的处理。在一个替代的实施方式中，在转换步骤417后，处理系统210进行到步骤418，其中语音识别系统218产生这个语音信号被无误地转换为一个文本消息的成功概率(例如，在0％到100％之间)。在步骤422中，处理系统210将这个成功概率与一个预定的阈值进行比较。

预定的阈值可以是，例如，无线通信系统的业务提供者根据从转换步骤417中所希望的、可以接受的最小准确性(例如，低于90％的可信度是不能够接受的)而选择的一个值。在步骤418中所产生的成功概率比所选择预定的阈值低的情形下，然后，处理系统210进行到步骤424；否则，处理系统210进行到步骤432，其中文本消息被发送到目的SCR 122。现在转到步骤424，处理系统210提示无线通信系统的一个人工操作员听在步骤401中主叫所产生的语音信号的一个可听的表示，并且在步骤426中产生一个纠正的文本消息。

例如，可以这样来完成步骤426：让这个人工操作员坐在连接到这个无线通信系统的一个计算机终端(见图4)前，听语音信号的一个可听的表示，并且完全地在这个计算机终端上转写出主叫的语音消息。一旦完成了这个步骤，人工操作员通过提示无线通信系统接受这个纠正的文本消息来将这个纠正的文本消息提供给这个无线通信系统。可以通过在这个计算机终端上按下一个或者多个预定键(例如，CTRL T表示将这个文本消息发送到SCR 122的一个命令)来完成这个纠正消息的表示。应理解，可以有替代的方法来实现将这个纠正的文本消息发送到无线通信系统，并且该领域内的任何一个普通技术人员将认为这些方法中的任何一个在本发明的范围内。

应进一步理解，替代地，人工操作员可以听这个主叫的语音消息，同时在这个人工操作员进行操作的计算机终端监视器上观看语音识别系统218在步骤417中所产生的文本消息。在这样做的过程中，人工操作员可以发现，文本被无误地转换了，并且不需要进行任何纠正。应注意的是，在预定阈值(例如，90％)下的一个成功概率并不是一定意味着主叫语音消息的转换是有错误的。因为这个原因，人工操作员可能会发现，在听到语音信号的一个可听的表示后，不需要进行任何纠正。类似地，人工操作员将发现，语音识别系统218在步骤417中所产生的文本消息仅有少数几个错误。在这个情形下，人工操作员将纠正这些错误，而不是转录整个消息。

最后，在人工操作员在步骤426中不能够理解主叫的语音消息的情形下，这样来修改描述步骤426的上述实施方式，以使控制器112不挂断与主叫的通话，而继续通过PSTN 110或者直接电路线路103与这个无线通信系统进行通信。一旦人工操作员发现，在步骤426中语音信号的可以听的表示是不可理解时，人工操作员在步骤428中继续与主叫进行通信，并且在步骤430中请求重复语音消息。然后，人工操作员将被重复的语音消息转录为一个正确的文本消息。

在完成了步骤417-430所描述的任何一个前述实施方式时，处理系统210进行到步骤432，由此它促使一个被选择的基站116向SCR 122发送正确的文本消息。

语音识别系统218包括了本发明的一个显著特征，如图5的步骤424-430所描述的，它基本上减少了一个人工操作员的使用。尽管本发明不局限于这一特定类型的语音识别系统，图6的流图显示了语音识别系统218的一个优选实施方式。这个实施方式在将一个主叫的语音消息无误地转换为一个文本消息时，所提供的第一次成功的程度高，由此限制了激发步骤424-430的频率。

将语音转换为一个文本消息的过程从步骤402开始，其中在步骤401中从一个主叫发出的一个语音信号被采样。图7显示了一个语音信号。在步骤403中，处理系统210被编程为对被采样语音信号的多个帧间隔(例如，10-25毫秒)应用傅立叶变换，以产生具有每一个帧间隔的一个频谱包络的频谱数据。在这个步骤中被应用的傅立叶变换优选是一个快速傅立叶变换。图8显示了一个帧间隔内的频谱信号。假设输入语音信号用x_n表示，下述的方程就描述了步骤403的结果：

P_{k} = Σ_{n = 0}^{N - 1} x_{n} e^{- j 2 πnk / N}

其中0≤k≤N-1。

在步骤404中，对每一个帧间隔，频谱数据被分成多个带，每一个带具有一个预定带宽(例如，400Hz)。应理解，替代地，每一个带的带宽可以是不同的。在步骤406中，处理系统210判断每一个带中频谱数据的一个平均幅度。然后，在步骤407中，对平均幅度应用一个对数函数来产生一个被转换的平均幅度。在步骤408中，然后去除被转换平均幅度的相关(优选使用一个离散余弦变换)，以产生频谱包络特征。

然后，控制器112进行到步骤409，从每一个帧间隔的频谱数据滤波出频谱包络，以产生每一个帧间隔的被滤波频谱数据。这个步骤优选地包括对每一个帧间隔的频谱数据进行平均以产生一个频谱包络估计的步骤，从频谱数据中减去频谱包络估计的步骤。这些步骤基本上可以用函数表示：P′_k=f(i)^*P_k’其中

函数f(ⅰ)是该领域内众所周知的一个1-D Haar函数，P′_k是Haar函数与原始频谱数据P_k的卷积。图9显示了对频谱数据进行滤波的结果。

下面，在步骤410中，对每一个带的被滤波频谱数据应用一个快速傅立叶变换来产生每一个带的自相关函数。如果在原始频谱数据中有一个强的谐振结构，每一个带的自相关函数将在其基调周期值的附近有一个高的峰值。因为这个原因，优选地，每一个子带的每一个自相关函数将被其相应的频带内能量所归一化。在步骤412中，控制器112进行到测量每一个带的自相关函数的幅度值。自相关函数的幅度值被定义为每一个带的一个语音度(degree of voiceness)的度量。

有两个实施方式来测量自相关函数的幅度值。在一第一实施方式中，自相关函数的幅度值与自相关函数的一个峰值幅度相应。替代地，在一第二实施方式中，对每一个帧间隔，每一个带的自相关函数的幅度值由下述决定：(1)将每一个带内的自相关函数进行相加，以产生一个复合自相关函数，(2)决定复合自相关函数的一个峰值幅度，(3)从峰值幅度决定出一个相应的频率标记，和(4)利用相应的频率标记来决定每一个带的一个相应幅度值。

图10显示了第二实施方式。图(a)-(d)表示带1-4的自相关函数。图(e)是将带1-4的自相关函数进行相加而获得的复合自相关函数的结果。从这个复合自相关函数，可以决定一个峰值幅度和一个相应的频率标记。然后，这个相应的频率标记被用于决定如在图(a)-(d)内所显示的每一个带的一个相应幅度值。

如前面所提到的，自相关函数的幅度值是每一个带的一个语音度的度量。在通过前面所描述的任何一个实施方式，决定了每一个带的一个语音度后，在步骤414中，在步骤408中被决定的频谱包络特征和刚才所讨论的语音度被应用到相应的多个音素模型。音素模型作为从人类语音的统计模型而决定出的语音模型在该领域内是众所周知的。在该领域内，音素模型也一般被称作Hidden Markov模型。一个音素表示被一个说话者使用的、用于构造一个词的声音的最小量。例如，词“is”可以被分解为两个音素声音：“ih”和“z”。因为不同文化背景的个人可能会使用不同的方言来说话，所以词“is”可能会有多个音素模型集合来表示不同的人群。例如，有的个人将使用一个“s”的声音来结束词“is”，即“ih”和“s”。

作为一个优选的实施方式，音素模型是建立在大部分人群人类语音的基础上的，这能够解决根据不同的语音方言而变化发音的问题。从一个大的人群推断出音素模型允许本发明可以用作一个与说话者无关的语音识别系统。即，音素模型是与一特定说话者的语音无关的。通过将与说话者无关的描述构造在一个音素模型库中，这个无线通信系统的控制器112可以将一个国家内的任何说话者的语音转换为一个文本消息，而不需要预先训练主叫的语音。但是，应理解，本发明可以被改变，以使可以从一个或者多个特定说话者所提供的训练来构造一个音素库，由此形成与一个说话者相关的音素库。虽然可以有这个替代的实施方式，但是随后的讨论将集中在一个与说话者无关的音素库上。

根据一个与说话者无关的音素库，如步骤416所表示的，语音到一个文本消息的转换可以通过将每一个带的频谱数据的频谱包络特征和每一个带的语音度与一个与说话者无关的音素库进行比较来完成。从这个比较中，识别出一个可能的音素列表，然后，这些可能的音素被与一个词典(从，例如，英语中)和它们需要的音素进行比较，以从主叫的被处理语音信号中推断出一个与语音等价的文本。作为决定一个或者多个可能的音素的比较过程的一部分，优选使用下述概率函数：

b_{j} (O_{k}) = \prod_{s = 1}^{s} [Σ_{m = 1}^{M_{1}} c_{jsm} N (O_{st}; μ_{jst}, Σ_{jsm})]^{r_{s}}

其中M_s是在流s中的混合分量的数目。本发明的变量S为2，这表示两个可能性的乘积。即，一个乘积表示根据每一个带的频谱数据的频谱包络特征的一个匹配的音素模型集合的可能性，另一个乘积表示根据每一个带的语音度的一个匹配的音素模型集合的可能性。变量C_jsm是权重因子，而函数N是一个多变量的高斯函数，其中变量O_st是表示每一个带的频谱包络特征和语音度的输入数据矢量，其中U_jsm和∑_jsm是音素库中每一个音素的平均和协方差矢量。最后，变量s被用于向频谱包络特征可能性结果和语音度可能性结果提供不同的权重。例如，频谱包络特征可能性结果的权重可以是1.00，而语音度可能性结果的权重可以是1.20。所以，从使用语音度数据所推断出的输出被给予了更多的重要性，而不是从频谱包络特征数据推断出的结果。应理解，可以给予任何的权重，这与使用本发明的应用相关。

每一个概率结果(bj)然后被与多个帧的流进行比较，以决定与主叫的语音消息等价的一个文本版消息。在这个比较过程导致一个或者多个可能的文本流的情形下，根据每一个分支的一个复合概率结果来选择具有最大成功可能性的一个文本流。一旦已经选择了具有最大成功可能性的文本结果，控制器112就进行到图5的步骤418-426，如前面所讨论的。

这篇论文有助于对进一步理解使用前述方程(用bj表示的)来预测从一个语音信号推断出一个音素流的概率。

关于前述预测一个音素流的概率的前述方程的一个详细描述见Steve Young,England,Cambridge CB3 OAX的Entropic CambridgeResearch Laboratory的“HTK Book”，在这里，这本书被用作参考。另外，读者也可以参考下述与语音识别系统相关的介绍材料，这见Joseph Picone在1990年7月IEEE ASP Magazine的第26-40页上发表的“Continuous Speech Recognition Using Hidder MarkovModels”，和Yves Normandin在1994年4月V0l.2 No.2 IEEETransactions on Speech and Audio Processing上发表的“High-Performance Connected Digit Recognition Using Maximum MutualInformation Estimation”，在这里它们分别被用作参考。

前述方法和装置基本上比现有该领域内的系统是有利的。首先，使用将一个语音消息转换为文本消息的一个语音识别系统基本上减少了人工操作员转录消息的需求，由此降低了成本。第二，尽管对本发明来说不是非常必要的，但是采用如图5的一个流图所描述的、用于语音识别系统218的操作的一个优选的实施方式可以进一步改善本发明对现有领域内技术的优点。特别地，读者从本发明的背景中可以回想起，因为是将重点放在根据被分析语音信号的频谱包络特征来推断文本消息上，所以现有技术的系统在将语音消息转换为文本消息时的成功率会比较低。

相反，本发明利用了语音频谱的纹理(在上面被描述为语音度)和语音信号的频谱包络特征的分析。通过利用频谱信号的幅度数据和语音数据度来与一个音素库进行比较，本发明在将与说话者相关和说话者无关的语音信号无误地转换为文本消息时具有更高的准确性。

已经总结了无线通信系统的固定部分102，现在读者的注意力转移到图3，图3显示了根据本发明的SCR 122的电气框图。如在图5的步骤432所提到的，SCR 122接收被这个无线通信系统处理后的、一个主叫所产生的文本消息(采用字母数字形式的消息)，如图5-6的流图所显示的。SCR 122包括连接到一个天线302的一个接收器304，一个电源开关306，一个处理器308，一个提示装置316，一个显示装置318，和用户控制314。接收器304和天线302是传统的、用于接收被基站116所发送消息的RF部件。电源开关306是一个传统的开关，例如一个MOS(金属氧化物半导体)开关，用于在处理器308的指令下控制到接收器304的电源，由此提供一个节省电池的功能。

处理器308被用于控制SCR 122的操作。一般，其基本功能是解码和处理接收器304所提供的被解调的消息，将这些消息保存起来，并且向一个用户提示已经接收到消息。为了执行这个功能，处理器308包括连接到一个传统的存储器310的一个传统的微处理器312，传统的存储器310包括非挥发性部分和挥发性存储器部分，例如一ROM(只读存储器)和RAM(随机访问存储器)。存储器310的用途之一是用于保存从基站116接收到的消息。存储器310的另一个用途是保存一个或者多个选择性呼叫地址，以用于识别属于这个SCR 122的输入消息。

一旦一个消息已经被解码并且被保存在存储器310中，处理器308激活提示装置316，这个提示装置316产生一个可感觉的和/或者可听的提示信号给一个用户。通过显示器318，这个显示器318可以是一个传统的LCD(液晶显示器)和传统的用户控制314，用户可以处理所接收的消息。用户控制314提供选项，例如读取，删除和锁定消息。

尽管已经就优选实施方式描述了本发明，但是该领域内的技术人员很清楚，可以进行很多改变和变化而不会偏离本发明的范围。所以，应注意，所有这样的改变和变化均在后附权利要求书所定义的本发明的精神和范围内。

Claims

1．在一个无线通信系统中的一个方法，包括步骤：

将一个主叫发起的、表示一个语音消息的语音信号转换为一个文本消息，其中这个文本消息是需要发送到一个SCR(选择性呼叫无线电装置)的；

产生这个语音信号被无误地转换到一个文本消息的成功概率；

将这个成功概率与一个预定阈值进行比较；

如果这个成功概率比预定阈值低，提示这个无线通信系统的一个人工操作员进行：

听表示这个语音信号的一个可听的表示，和

产生一个纠正的文本消息；

将纠正的文本消息发送到这个SCR。

2．如权利要求1的方法，其中纠正步骤包括步骤：

当人工操作员听这个语音信号的可听表示时让主叫不挂机；

如果人工操作员不能够理解这个语音信号的可听表示，提示人工操作员进行：

与主叫进行联络，让主叫重复语音消息，和

将被重复的语音消息转录为纠正的文本消息；和

将纠正的文本消息发送到这个SCR。

3．如权利要求1的方法，其中转换步骤包括步骤：

采样一个语音信号；

将一个傅立叶变换应用到被采样语音信号的多个帧间隔，以产生具有每一个帧间隔的频谱包络的频谱数据；

将每一个帧间隔的频谱数据分为多个带；

从每一个帧间隔的频谱数据滤波出频谱包络，以产生每一个帧间隔的被滤波频谱数据；

将一个傅立叶变换应用到每一个帧间隔的被滤波频谱数据，以产生每一个带的自相关函数；

测量每一个带的自相关函数的幅度值，由此这个值是每一个带的语音的度量；

将每一个带的语音度应用到多个相应的音素模型；和

通过根据相应多个音素模型所进行的预测，搜寻一个音素库来从这个语音信号中推断出与语音等价的一个文本消息。

4．如权利要求3的方法，进一步包括步骤：

决定每一个带的一个平均幅度；

对这个平均幅度应用一个对数函数，以产生一个被转换的平均幅度；

去除被转换平均幅度的相关，以产生频谱包络特征；和

将每一个带的频谱包络特征应用到相应的多个音素模型。

5．如权利要求3的方法，其中自相关函数的幅度值是一个峰值幅度。

6．如权利要求3的方法，其中对每一个帧间隔，从下面来决定每一个带的自相关函数的幅度值：

将每一个带内的自相关函数进行相加，以产生一个复合自相关函数；

决定复合自相关函数的一个峰值幅度；

从峰值幅度决定出一个相应的频率标记；和

利用相应的频率标记来决定每一个带的一个相应幅度值。

7．如权利要求3的方法，进一步包括步骤：每一个子带的每一个自相关函数将被其相应的频带内能量所归一化。

8．如权利要求3的方法，其中傅立叶变换包括一个快速傅立叶变换。

9．如权利要求3的方法，其中滤波出频谱包络的步骤包括：

对每一个帧间隔的频谱数据进行平均以产生一个频谱包络估计；和

从每一个帧间隔的频谱数据中减去频谱包络估计。

10．在一个无线通信系统中的一个方法，包括步骤：

将一个主叫发起的、表示一个语音消息的语音信号转换为一个文本消息，其中这个文本消息是需要发送到一个SCR(选择性呼叫无线电装置)的；和

将文本消息发送到这个SCR。

11．如权利要求10的方法，其中转换步骤包括步骤：

采样一个语音信号；

将每一个帧间隔的频谱数据分为多个带；

测量每一个带的自相关函数的幅度值，由此这个值是每一个带的语音度的度量；

将每一个带的语音度应用到多个相应的音素模型；和

12．如权利要求11的方法，进一步包括步骤：

决定每一个带的一个平均幅度；

去除被转换平均幅度的相关，以产生频谱包络特征；和

将每一个带的频谱包络特征应用到相应的多个音素模型。

13．如权利要求11的方法，其中自相关函数的幅度值是一个峰值幅度。

14．如权利要求11的方法，其中对每一个帧间隔，从下面来决定每一个带的自相关函数的幅度值：

决定复合自相关函数的一个峰值幅度；

从峰值幅度决定出一个相应的频率标记；和

利用相应的频率标记来决定每一个带的一个相应幅度值。

15．如权利要求11的方法，进一步包括步骤：每一个子带的每一个自相关函数将被其相应的频带内能量所归一化。

16．如权利要求11的方法，其中傅立叶变换包括一个快速傅立叶变换。

17．如权利要求11的方法，其中滤波出频谱包络的步骤包括：

从每一个帧间隔的频谱数据中减去频谱包络估计。

18．一个无线通信系统，包括：

一个语音识别系统，用于接收被主叫所发起的消息；

一个发送器，用于将消息发送到这个无线通信系统的多个SCR(选择性呼叫无线电装置)；和

一个处理系统，连接到这个语音识别系统，和发送器，其中处理系统被调节成：

促使这个语音识别系统将从这个无线通信系统的一个主叫发起的、表示一个语音消息的语音信号转换为一个文本消息，其中这个文本消息是需要被发送到一个SCR的；

促使这个语音识别系统产生语音信号被无误地转换为文本消息的一个成功概率；

将这个成功概率与一个预定阈值相比；

如果成功概率比预定阈值低，提示这个无线通信系统的一个人工操作员进行：

听表示这个语音信号的一个可听的表示，和

产生一个纠正的文本消息；和

促使这个发送器将纠正的文本消息发送到这个SCR。

19．如权利要求18的无线通信系统，其中在纠正步骤中，这个处理系统被进一步调节成：

当人工操作员听这个语音信号的可听表示时让主叫不挂机；

与这个主叫进行联络，让主叫重复语音消息，和

将被重复的语音消息转录为正确的文本消息；和

促使这个发送器将纠正的文本消息发送到这个SCR。

20．如权利要求18的无线通信系统，其中语音识别系统被调节成：

在多个帧间隔期间，采样被一个主叫所产生的一个语音信号，其中这个语音信号表示需要被发送到一个选择性呼叫无线电装置的一个消息；

将每一个帧间隔的频谱数据分为多个带；

将每一个带的语音度应用到多个相应的音素模型；

通过根据相应多个音素模型所进行的预测，搜寻一个音素库来从这个语音信号中推断出与语音等价的一个文本消息；

促使这个发送器将这个等价的文本消息发送到选择性呼叫无线电装置，其中这个与语音等价的文本消息是表示被主叫发起的消息。

21．一个无线通信系统，包括：

一个语音识别系统，用于接收被主叫所发起的消息；

促使这个语音识别系统将从这个无线通信系统的一个主叫发起的、表示一个语音消息的语音信号转换为一个文本消息，其中这个文本消息是需要被发送到一个SCR的；和

促使这个发送器将本消息发送到这个SCR。

22．如权利要求21的无线通信系统，其中语音识别系统被调节成：

将每一个帧间隔的频谱数据分为多个带；

将每一个带的语音度应用到多个相应的音素模型；

促使这个发送器将这个与语音等价的文本消息发送到选择性呼叫无线电装置，其中这个与语音等价的文本消息是表示被主叫发起的消息。