CN1315721A

CN1315721A - 客户服务器语音信息传送系统与方法

Info

Publication number: CN1315721A
Application number: CN00109844A
Authority: CN
Inventors: 詹姆斯·帕恩
Original assignee: WEARBOTAICK CO Ltd
Current assignee: WEARBOTAICK CO Ltd
Priority date: 2000-03-23
Filing date: 2000-07-07
Publication date: 2001-10-03
Also published as: JP2001306093A; KR20010092645A; EP1136983A1

Abstract

一种用在诸如因特网的通信网络系统上的语音通信系统和方法,包括内置在移动电子通信装置中的用于识别语音信息和产生第一组相关的语言信息的大量声音识别器;和内置在诸如服务器的数据处理装置中的用于识别所述第一组相关的语言信息并产生第二组相关的语言信息的大量语言识别器,从而更准确地识别以分布式语音识别处理方式的语音信息。

Description

客户服务器语音信息传送系统与方法

本发明一般涉及语音识别信息传送，尤其涉及远程移动电子设备与计算机之间的通过因特网的语音识别通信。

传统上已经通过人工操作的键盘实现了从人类向机器的信息传送，其预先假设了具有至少与人类的两只手的手指所能舒适自如地跨过的宽度一样大的尺寸的机器。随着需求信息输入的但比传统的个人计算机更小的电子设备的发展，信息输入开始采用其它形式，如笔指示(pen pointing)、触摸板(touchpads)和声音命令。能够被笔指示和触摸板传送的信息受到设备(如个人数字助理(PDAs)和蜂窝电话)的显示性能的限制。因此重点的研究努力都致力于用于电子设备的语音识别系统。对于机器而言，机器语音识别方法是基于信号的观察到的声学特征和声学特征与话音之间的已知的关系而试图来解码语音信号波形的。这种声学一语音方法是几乎50年来的研究主题，但是还没有在实践上取得大的成功(参考：Fundamentalsof Speeh Recognition(语音识别基础)，L.Rabiner&B.Hjuang,Prentice-Hall)。存在的大量问题是，例如，在语音识别技术中公知甚至在语音波形图中“通常难以区分微弱的清音(象“f”或“th”)与默声，或者微弱的浊音(象“v”或“m”)与清音或者甚至是默声”，并且依据非常邻近的语音单元的同一性，所谓的声音的共同清晰度(同前所述)有大量的声音的变体存在。在解码后，试图通过应用代表可能与口头输入匹配的一系列组的音素的所谓的音素网格来确定声学一语音方法中的字。网格中的音素的垂直位置是声学与语音单元的匹配品质的量度(“词典的访问”)。但是“对于语音识别的声学一语音方法的真正问题是对于词典的访问阶段难以得到可靠的音素网格”(同前所述)；即，由于任何语音中固有的大量的变体几乎不可能准确地标示出发音。

在模式识别方法中，给出的语音模式的版本的知识库被集中起来(“训练”)，并且通过输入语音模式与知识库中的语音模式相比来确定最佳的匹配而实现识别。该模式有4个步骤：(1)应用频谱分析的特征抽取，(2)模式训练以产生对于发音类别的参考模式，(3)模式分类来通过测量两个充分限定的频谱矢量之间的频谱“差距”并校准时间以补偿说出两种模式(动态时间偏差DTW)的速率不同来比较未知的测试模式与类别参考模式，及(4)确定逻辑从而使用相似性得分来选择最佳的匹配。尤其对于步骤(2)和(3)模式识别需要大量的计算，并且用于大量声音类别的模式识别通常是禁止的。因此，由于语音的固有的难以预测的变化(包括同音字、字相似性、口音、音级、重音节、语音模式、背底噪音等)，依靠人类话音的信息输入的系统要求相当可观的信号处理能力和查找表数据库，以达到最低限度的语音识别。主计算机和高级工作站开始接近声音识别的可接受的水平，但是即便带有在当前的个人计算机(PC)中可利用的存储器和计算能力，对于这些机器而言语音识别目前被相当地限制于给出的特定语音命令组。对于带有比PC小得多的存储器和处理能力的设备，如PDA、移动电话、玩具、娱乐设备，准确地通常的语音识别目前为止是不可能的。例如，一般的声音起动蜂窝电话通过读出一个名字然后输入相关的号码而允许预先设计程序。当用户随后读出这个名字时，蜂窝电话中的微处理器将试图匹配读出的名字的声音模式和存储的号码。如已经使用当今的声音起动的蜂窝电话的人所知道的那样，有时匹配不准确(由于不一致的发音、背底噪音和缺少处理能力而引发的固有的限制)，并且可能仅存储大约25个号码。在PDA设备中，对于设备制造者而言，需要进行广泛的再次设计以实现更限定的声音识别(例如，当前的PDA不能响应于声音输入来搜索数据库)。

对于声音输入拼写单词，存在易混淆地设置的问题：{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}和{F,S,X}。通常仅基于发音的微小的关键部分而把这些区分出来。由于传统的识别依赖于在整个发音期间的简单积累的失真得分(二进制的“是”或“否”)，它没有把重点放在导致差的识别准确度的关键部分。显然，应有一种对该关键部分进行加权的方法，但是这种方法没有得到高的识别准确度，并且还承担有大量的计算负担。

总之，准确快速的声音识别必须的存储器和计算还要求增加的耗电量和复杂的操作系统；所有这些都会增加成本。从而，当前的声音识别技术由于其重量、耗电量要求、复杂性和成本而对于手持信息装置并不是切实可行的。

当今尤其感兴趣的是移动因特网访问，即经移动电话、PDA和其它手持电子设备对因特网的通信。无线应用协议(WAP)规范意在对无线因特网访问限定一个开放的标准结构和一套无线因特网接入的协议。无线标记语言(WML)被WAP限定为用于移动因特网应用的表示标准。WML是Web(万维网)标记语言超文本标记语言(HTML)的修正的子集，适当地定标来满足当今的移动装置的物理限制和数据性能，例如全球移动系统(GSM)电话。通常万维网站点服务的HTML通过WML网关而相对于手持装置被定标和格式化。第一阶段的WAP服务把现有的Web内容传递到移动装置，但是将来将对于移动用户特殊生成Web内容，传送诸如天气预报、股票报价、银行服务、电子贸易/商务、导航援助等的信息。已经有一些在商业上可用的产品，如诺基亚(Nokia)7110，爱立信(Ericsson)MC218和摩托罗拉(Motorola)Timeport。移动无线因特网访问的需求可望更大增长。爱立信(Ericsson)移动通信公司预测到2004年，将有十亿移动因特网用户。但是有效的移动因特网访问要求新的技术。有提高地面数据速率，诸如通用分组无线服务(GPRS)、用于GSM进展的增强数据速率(EDGE)和第三代通用移动电信系统(3G-UMTS)。尤其UMTS许诺(在2002年)带宽数据速率将达到2MGb/秒(超过当前的GSM电话的9.6Kb速率的200倍)。但是无论传送速率和带宽如何提高，内容被减少和压缩，为有效显示信息而改进显示特征，在移动装置末端的信息输入和传送中的令人苦恼的问题还没有解决。传统的因特网语音通信要求至少是目前的个人计算机(PC)的计算能力和存储器规格，从而利用所谓的互联网语音协议(VoIP)执行将语音数据包传送到因特网服务提供商的服务器。即使在具备这种计算能力和存储器的时候，VoIP也仅允许有限的识别和准确度。而且，传统的基于服务器的语音识别系统(例如Nuance和SpeechWorks公司制造的)仅提供少于每个服务器10个用户的服务。从而对于100000个假定的用户(考虑目前的移动电话用户不是一个特别大的数目)，需要10000个服务器，使这种语音识别经济上不切实际。因此问题是需要进行量测。对于PC向服务器因特网的语音通信，通常数据库从服务器下载到PC客户(例如由Conversa公司)，但是数据库的大小使这种方法对于移动装置是不可用的。

本发明是在诸如因特网的通信网络系统上应用的语音识别系统和方法，包括内置在移动电子通信装置中的用于识别语音信息并产生第一组相关的语言信息的大量声音识别器，和内置在诸如服务器的数据处理装置中的用于识别所述第一组相关的语言信息的并产生第二组相关的语言信息从而更准确地以分布式语音识别处理方式识别语音信息的大量语言识别器。

图1是根据本发明的个人化的数据库的框图；

图2是根据本发明的语音识别系统的框图；

图3是根据本发明的LPC前端处理器的框图；

图4是根据本发明的字母语音识别系统的框图；

图5是根据本发明的由麦克风产生的字母波形示例；

图6是根据本发明的用于计算总的失真倒频谱的动态时间偏差初始化流程过程；

图7是根据本发明的用于计算总的失真倒频谱的动态时间偏差迭代过程流程；

图8是根据本发明的用于计算总的失真倒频谱的相关值的动态时间偏差流程；

图9是具有把本发明的一个实施例内置其中的蜂窝电话的系统结构框图；

图10图示与已有技术系统ART和Sensory相比的本发明的一个实施例的字识别性能结果。

图11是在移动装置末端处利用声音识别器并在服务器末端处应用语言识别器的本发明的优选实施例的图；

图12是在移动装置末端处利用语音识别器并在服务器末端处应用字数据库的本发明的优选实施例的图。

图1是本发明的个人化的数据库100的框图。麦克风101接收音频声音串(在一个实施例中，是一系列的字母或字符)并把声音串转换为电子波形信号。前端信号处理器102处理波形来产生适合于识别和比较的波形的参数表示。在优选的实施例中，声音串被线性预测编码(LPC)处理，产生对于各个字母或字符的参数表示(所谓的“特征抽取”)，其把冗余信息从波形数据中抽取出来以更清晰地描述各个音频信号。结果，例如对于英文字母表中的字母是26X26矩阵，其中列中容纳各个字母的参数表示，行容纳输入的语音字母。在本发明中，矩阵是由存储在发音数据库103中各个用户对字母的发音构成的“校准模板”。由于声音输入由校准模板来校准，在聚集起来的发音(例如，字)比较中可避免一般的语音识别不准确。附有一个样本校准表来作为参考。

图2是本发明的优选实施例的框图。麦克风101接收被传送到前端信号处理器102以形成参数化的声音串波形组的一系列的输入的发音，接着将应用发音比较器201使声音串波形组与发音数据库103相比来选择对各个发音(例如字母或字符)的最佳匹配。作为一个示例，假设名字“Michael”没有被正确地发音而成为“n-y-d-h-a-b-1”(假设是由于可混淆的字母发音而引起的一些错误)。在一个实施例中，字母比较器201接受声音串并通过相对于发音数据库103中的所有字母测试示例中的6个字母来确定声音串发音与发音数据库103中的校准模板之间的“差距”。在另一个实施例中，类似发音的字母(或一些声音)基于相似性来分组，从而比较更有效。聚集的发音相似性比较器202比较校准的字母系列波形与预先记录的词汇数据库203中的项。在该示例中，即使字没能被正确地用声音拼写出来，由于这里仅有有限数目的可感知(sensical)的字，如“Michael”，准确的字匹配的机会被相当程度地提高。在本发明的优选实施例中，词汇数据库203是来自本发明的受让人VerbalTek,Inc.的可利用的字典数据库。本发明的另一个实施例有利地利用从摩拖罗拉(Motorola)进入词汇数据库201的字典数据库。本发明还有一个实施例利用用户的地址簿项。本发明期望有由用户对词汇数据库203所要求的任何项所构成的字典。例如，用于希望的专用领域(金融、商业、服务业、工艺、学院或诸如法律、医药、会计等的所有专业)的专用字可被有利地引入词汇数据库203。而且，本发明期望能有利地用于诸如中文的单音节字语言，其中当聚集一起成为字符串时各自的发音(汉字字符)变得更清楚。通过把在词汇数据库203中预先记录的波形与输入的波形相比，可产生一系列的音素组，这些音素可能与口头输入的相匹配，并且产生音素网格。通过基于各个输入的组合体与词汇数据库203中的字之间的接近性对各个输入的波形指定“得分”来构造网格。“接近性”指数是基于输入波形与存储的词汇波形之间的计算的失真的，从而产生“失真得分”。由于得分是基于字母或字符的相对准确的(与传统的语音识别声学-语音方法相比)匹配的，音素网格产生95％或更高的字匹配准确度。然后在显示器204上显示字的最佳匹配。

在本发明的优选实施例中，把语音波形(其示例在图5中表示)转换为参数表示的前端信号处理利用线性预测编码(LPC)。LPC尤其适合于本发明，因为(1)LPC对于语音频谱包络线的浊音区比对清音区更有效，并且本发明有利地利用了强调字母有区别的字符或字母或字符发音的并具有自然的中顿的各个字母或字符发音(从而清音区是较为不重要的)，和(2)LPC提供简化的计算和经济的表示，其考虑了声道特性(从而允许个人化的发音用小的处理和存储量来实现)。本发明中LPC的特殊功用例如在LPC自相关方法中图示出来，其中假设语音分段在给出的间隔之外全部是0(等于用有限的长度的窗口乘以语音信号)，从而清音区没有很好地表示。在LPC传送函数中，H(z)=S(z)/GU(z)，其中源的增益G从语音信号估测出来，并且定标的源被用作对数字滤波器H(z)的输入，该滤波器被正被产生的语音的声道参数特性控制。

图3是根据本发明的优选实施例的LPC前端处理器102的框图。优选是固定的低级数字系统(通常是一级FIR滤波器)的预加重器301在频谱上把信号s(n)展平，并且由下面来描述：

H(z)=1-az^-1 (等式1)

这里0.9≤a≤1.0。

在本发明的另一实施例中，预加重器301是具有下面的传送函数的一级自适应系统：

H(z)=1-anz^-1 (等式2)

这里a_n根据预定的自适应准则随时间(n)而改变，例如a_n=r_n(1)/r_n(0)，

帧分块器302用把语音信号帧分块成为带有被M个采样分隔开的相邻的帧的N个采样的帧。在本发明的此实施例中，当语音的采样速率是8kHz时N=M=160，相当于它们之间没有分开的20毫秒的帧。每帧有一个特征，从而对于一个第二种发音(50帧长)，12个参数代表帧数据，并且产生50X12的矩阵(模板特征组)。

开窗器303对每一独立的帧开一个窗口以在各帧的开始和末尾处最小化信号的不连续。自相关器304执行下面给出的自相关：

这里m=0,1,…,p，并且p是最高的自相关值(LPC分析的级)。本发明的优选实施例使用p=10但是可有利地使用从8到16的p值。零自相关是给出的帧的帧能量。倒频系数产生器305应用已有技术中已知的Durbin方法把各帧转换为倒频系数(对数幅度频谱的傅立叶变换表示的系数，参考下面)。锥形的开窗器306加权倒频系数以最小化噪音的效果。选择锥形的开窗器306来降低低级倒频系数对整个频谱倾斜的敏感度以及高级倒频系数对噪音的敏感度(或其它不希望的易变性)。时间差分器307优选使用近似地正交多项式拟合(在本实施例中，对有限长度的窗口的导数的最小平方估测)产生倒频系数的一次导数，从而产生处理的信号S’(n)。在另一实施例中，可通过时间差分器307应用在已有技术中已知的近似方法来产生二次导数，以提供进一步的语音信号信息，从而改善语音信号的频谱性能的表示。还有一个实施例跳过时间差分器来产生S”(n)。应理解使用LPC和上述技术的前端信号处理器102的上述描述是为了揭示最佳实施例，前端信号处理的其它的技术和方法可被有利地使用在本发明中。若是单独的字符或字，用于匹配发音串的比较技术和方法基本上是类似的，所以下面的描述包括比较器201和202。

在本发明的优选实施例中，参数表示利用倒频系数，输入的语音与预先记录的数据库中的字母和字串项通过比较倒频差距进行对比。输入的字母(或字组合中的字母)产生根据相似性分等级的若干候选字符(或字母)匹配。在把预先记录的波形与输入的波形比较时，产生可能与口头输入相匹配的一系列的音素组，其在矩阵中排序时产生音素的网格。该网格通过基于各个输入的组合与词汇数据库中的字的接近性来对各个输入的波形指定“得分”值而排序。“接近性”指数是基于输入波形与存储的词汇波形之间的倒频差距的，从而产生“失真得分”。由于得分是基于字符的相对准确的(与传统的语音识别声学-语音方法相比)匹配的，本发明的音素网格产生95％或更准确的字匹配。

图4表示输入到字母校准器401的波形参数表示，其中与发音数据库103相联系，产生校准矩阵(后附示例)。在优选实施例中失真计算器402基于计算的倒频差距(下面描述)计算输入的语音与发音数据库103中的项之间的失真。然后得分计算器403基于预定的准则(如倒频差距)分配得分并且选择器404选择候选字母(字)。

在对数幅度与频率刻度关系的两个语音频谱之间的差距是：

V(ω)=logS(ω)-logS’(ω) (等式4)

为表示两个语音特征矢量的不相似性，优选的实施例使用幅度的对数(对于频率)的平均绝对值，即利用该组平均值，使用频谱失真(或差距)的对数的均方根值(rms)测量：

其中当p=1时，这是频谱失真的对数的平均绝对值，当p=2时，是频谱失真对数的rms。

在优选实施例中，失真或失真测量以信号的复数倒频谱表示，其被定义为信号频谱的对数的傅立叶变换。对于相对于ω=0对称的并且对于采样的数据序列是周期性的能谱，logS(ω)的傅立叶级数表示为：

这里cn=c-n是倒频系数。

其中c_n和c_n’分别是S(ω)和S’(ω)的倒频系数。通过有限的加和，例如在优选的实施例中是10-30项的加和，本发明利用截取的倒频差距。这有效地(意思是相对小的计算负担)估算了频谱差距的对数的rms值。由于语音信号的可感觉到的响度大约是对数计算的，对频谱差距取对数的选择很适合于鉴别主体的声音的不同。而且，低的倒频系数的易变性主要是由于语音和传送失真的难以预测的变化引起的，从而倒频谱(倒频差距组)被有利地选择来用于失真测量。

相同发音的不同的声学再现通常是以不同时间速率说出的，从而说出速率变化和持续时间变化不应促进语言的不相似性得分。动态时间偏差(DTV)408执行频谱的动态行为分析以更准确的确定输入的发音与匹配的数据库值之间的不相似性。DTW 408通过经把两个要进行比较的模式的声学特征作栅格映射找到“最佳”路径而对说出速率波动进行时间校准和规范化。在优选的实施例中，DTW 408通过动态设计最小化不相似性而找到最佳路径。两个偏差函数φ_x,φ_y分别把语音模式的两个时间波动指数i_x,i_y与公共时间轴k关联起来，从而

i_x=φ_x(k) k=1,2,…T

i_y=φ_y(k) k=1,2,…T (等式9)

基于偏差函数对将全球模式不相似性定义为经整个发音的累加的失真：

这里d(φ_x(k),φ_y(k))是对于x_φx(k)y_φy(k)定义的短时频谱失真，m(k)是非负的加权函数，M_φ是规反化因子，T是正常时序表上两种语音模式的“正常”持续时间。路径φ=(φ_x,φ_y)被选择来用一致性测量整个路径的不相似性。在本发明的优选的实施例中，不相似性d(X,Y)被定义为在整个路径上的d_φ(X,Y)的最小值，即：

在X和Y是同一字的发音时上述定义是准确的，因为沿校准路径最小化累加的失真意味着不相似性是基于最好的可能的校准来补偿说出速率不同而被测量的。已有技术中公知动态设计可通过找到最佳路径来解决如在紧靠上面描述的时序确定问题，意思是这样使从一个点向另一个点移动的“成本”最低。在本发明的一个实施例中，由于包括在移动中的步骤数目被“if-then”语句确定，时序确定是非同步的。该确定利用递归关系，该递归关系允许最佳路径搜索被递增地实施并被下面所述的本发明的优选实施例中的算法所执行。用于确定最佳路径中的下一个点和目的地点的确定规则(“策略”)完全限定了寻求被最小化的成本。引起成本ζ(j,i)的从开始点1向中间点j移动的最佳策略由下式给出：

因此得到从点i到点j的最佳顺序的移动和相关的最小成本，

在另一实施例中，顺序确定是同步的(对于固定移动数目M确定过程是规律性的)，相关的最小成本φ_m(i,1)为

其是用在本发明的一个实施例中的递归关系。

在上述的两个实施例中，方法有步骤(1)初始化，(2)递归，(3)结束，和(4)后跟踪，并且分别如下：

初始化：φ₁(i,n)=ζ(i,n)

ζ₁(n)=i,n=1,2,…N递归：

φ_{m + 1} (i, n) = \min_{1 \leq 1 \leq N} [φ_{m} (i, 1) + ζ (1, n)]

ζ_{m + 1} (n) = \arg \min_{1 \leq 1 \leq N} [φ_{m} (i, 1) + ζ (1, n)] n = 1, 2, . . . N,

m=1,2,…M-2

结束：

φ_{M} (i, j) = \min_{1 \leq 1 \leq N} [φ_{M - 1} (i, 1) + ζ (1, j)]

ζ_{M} (j) = \arg \min_{1 \leq 1 \leq N} [φ_{M - 1} (i, 1) + ζ (1, j)]

路径后跟踪：最佳路径=(i,i₁,i₂,…,i_M-1,j)，这里i_m=ζ_m+1(i_m+1)i_M=j,m=M-1,M-2,…,1

上述算法计算节省，从而适合在本发明期望的手持装置中实施。

图6,7和8构成用于计算要被比较的模板之间的总的失真的DTW408的优选实施例的流程图。“差距”d(i,j)(上面等式11)是模板X的第i个特征与模板Y的第j个特征之间的失真。图6描述初始化过程601，其中前面的差距在602处是d(0,0)。指数j在603处被增加并且现在前面的差距是在j处的差距pre dist[j]，其等于prevdist[j-1]+d(0,j)。在605处，如果j小于模板Y中的特征数目(j＜numY)，那么在606处j被增加并被反馈给604，用于prev dist[j]的新的计算。如果j不大于numY，那么初始化完成，对于总的差距的迭代步骤611如图7所示开始进行。在612处，指数i被设置为1并且当前的差距(curr dist[0])被计算为prev dist[0]+d(i,0)。在614处，j被设置为1并且导致相关差距d1,d2或d3的可能的路径被计算为：

curr dist[j-1]+d(i,j)=d₁

prev dist[j]+d(i,j)=d₂

prev dist[j-1]+d(i,j)=d₃

相关的差距的相对值然后在图8的621和622处被测试。如果d₃不大于d₁且不大于d₂，那么d₃是最小值并且curr dist[j]在623处是d₃。在对第j个特征测试为小于Y模板中的特征数目后，在617处j被增加并被反馈给可能路径的差距计算，再发生最小化处理。如果d₂大于d₁并且d₃大于d₁，那么d₁是最小值并且被设置为currdist[j]。然后相对于Y模板中的特征数目再次在626处测试j，在617处j被增加并被反馈来用于递归。如果d₃大于d₂并且d₁大于d₂，那么d₂是最小值并且被设置为curr dist[j]，并重复同样的处理使j被增加并被反馈。以这种方式，找到最小差距。如果在626处j大于或等于模板Y中的特征数目，那么测试i来看它是否等于模板X中的特征数目减1。如果i不等于模板X中的特征数目减1，在618处先前的差距被设置为用于j指数(直到numY-1)的当前差距，在616处i被增加并被反馈给613，用于把当前差距设置为先前差距加上新的第i个差距，对每个i重复这种处理直到次数j等于模板X中的特征数目减1。如果i等于模板X中的特征数目减1，总的失真在628处计算为：

从而完成找到总的失真的算法。

为实现最佳的识别准确度，限制偏差函数。已有技术中公知甚至小的语音端点错误将导致语音检测准确度上的明显恶化。在被控制的环境中清晰发出的语音中，可达到高的检测准确度，但是对于一般的应用(如在蜂窝电话中)，说话者声音的难以预测的变化(包括咂嘴、呼吸、清嗓子等)、背底噪音和传送失真(串扰、中间调制失真和音调接口)使得难以产生准确的端点检测。如果发音有完好限定的端点(标记模式的开始和结束的帧)，相似性比较将导致更准确的识别。利用用于输入发音的各个字符(例如字母)，本发明作为各个字符(字母)的通常更准确的发音和在说出字符串或拼写字时各个字符(字母)之间的通常的中顿而实现了准确度。从而暂时的变化一般被限定于端点区。从而对于偏差函数的限制仅把开始和结束点处的值设置为第一个和最后一个时间函数指数i_x=1和i_y=T。这些端点限制通过等式(11)根据项T_x和T_y结合到本发明中：

这里X和Y分别结束于T_x和T_y。

本发明的优选实施例提供一种最适合本发明的各个字符(例如拼写)输入发音语音识别系统的动态时间偏差方式。DTW 408利用等式15沿连接(1,1)和(i_x,i_y)的路径产生最小的部分积累的失真：

这里φ_x(T’)=i_x,φ_y(T’)=i_y，带限制条件动态设计递归变成：

这里ζ是点(i_x’,i_y’)与(i_x,i_y)之间加权积累失真(局部差距)，

Ls是根据φ_x到φ_y的从(i_x’,i_y’)与(i_x,i_y)的路径中的移动数目。递增的失真ζ仅沿由各种限制条件限定的路径被评估，从而最小化过程可有效地在限制条件内解决。但是，不相似的直接推断的特性也可有利地包括在该方法中。例如，在本发明中，把一帧切分成多个分段来区分易混淆的字母发音，如字母“a”和“f”。可以理解许多不同的限制条件和限制条件的组合在本发明的范围内。在不同字母的发音中，例如，用于最准确的比较的时间校准不是定义清晰的语言概念，从而在本发明中应用直观的限制条件。

由于它的小的形成因素，本发明的一个实施例允许它集中到用户的电子设备的现有的操作系统中(例如用于PDA的微软WindowCE^和用于蜂窝电话的ARM7TDMI)，从而不需要大范围的再设计和再改编。本发明的语音识别程序的一个实施例还可以被装载到诸如移动电话或PDA的装置的闪存中，从而允许把本发明与现有电子设备进行的简单快速低廉组合，使主机装置的DSP的再设计和再改编不必要。而且语音识别程序可被终端用户经耦合于闪存的数据端口装载到存储器中。这也可通过从因特网下载完成。因此本发明可容易地被安装在移动装置中用于与因特网经因特网自身进行通信。

图9表示带有带有内置其中的本发明的实施例的蜂窝电话的系统结构。闪存901被耦合于还耦合于DSP处理器903的微处理器902，其联系闪存901和微处理器902执行上述语音识别。只读存储器(ROM)装置904和随机访问存储器(RAM)装置905通过提供对于发音数据库104和词汇数据库203的存储器存储和访问而服务于DSP处理器903。经麦克风907的语音输入被编码器/解码器(CODEC)906编码。在DSP处理器903进行语音识别后，语音信号被CODEC 906解码并被传送到扬声器908用于音频确认(在本发明的一个实施例中)。另一种情况是，扬声器908可以是可视的显示器。作为本发明的应用协议接口(API)的一个实施例的示例，应用ARM77TDMI作为基础的说明如下：

存储器应用要求10KB的编码容量，4KB的缓冲存储器大小，存储量(每一模板)是0.5KB。计算的要求是1.9MIPS的语音特征抽取和每模板0.5MPIS的语音识别。本发明的一个实施例的语音识别错误性能结果和计算能力估测(VerbalTek^TM)在图10中表示，其中来自ART、Sensory和Parrot公司的语音识别系统进行了比较，本发明得到的错误百分比，明显低于那些仅需于“小量”计算能力(MIPS)的公司(ART和Sensory)的产品，其精确度可与需要“大量”计算能力的Parrot的产品相媲美。

从而本发明可有利地被用于进行因特网通信、电子邮件消息和对大量数目的电话簿项进行声音访问的WAP语音命令。

分布式数据处理根据客户服务器系统来描述，其中每个系统执行一些处理，带有大块处理和存储的存储器存储在服务器上进行。本发明是用于声音信息通信的客户服务器系统，其具有分离的在客户端处的与语言相关的处理器和数据库，在服务器端的与语言无关的处理器和数据库。其中一个例子是作为客户的PDA、移动电话或其它的电子设备和作为服务器的因特网服务提供商(ISP)服务器。由于降低了计算能力要求，本发明克服了已有技术的需要进行量测性问题。

图11表示根据本发明的分布式处理方案中的基于客户语言决定的语音识别部分与服务器语言无关的语音识别部分的优选的实施例。合在一起，这两部分形成用于与例如ISP服务器这样的服务器进行通信的移动电子设备的准确的语音识别。移动装置1101,1102,1103,….,每一个分别包括声音识别器1110,1111,1112,…，其可被定制为用户的语音模式并进行各种变化(例如通过利用发音数据库103和发音比较器201，如上所述)。服务器1104,1105,1106,….每一个分别包括语言识别器1107,1108,1109,…,其执行大快的语音识别(例如通过利用词汇数据库203和聚集在一起的发音相似性比较器202，如上所述)。服务器1104可以一个互联网站点为基础，服务器1105可以另一个互联网站点为基础等。由于降低了计算能力要求，一个服务器可服务多个客户。在每个网站服务器1104,1105,1106,…上的语言识别器1107,1108,1109,…以它们的性能被逐一来根据网站的特性来识别语音；例如特殊化的金融、技术、医药术语等可被准确地被词汇数据库203中的特殊化(或更全面的发音变化)的项识别出来。

图12表示在移动电子设备与因特网服务提供者服务器系统中的本发明的另一实施例。移动装置1201,1202,1203,….，每一个分别包括语音识别系统1210,1211,1212,…。服务器1220,1221,1222,…分别包括字串数据库1231,1232,1233,….，其识别来自移动装置1201,…的字输入。在本实施例中，大块的语音识别在移动装置上执行并且是一个完整的系统(例如，包括发音数据库103，发音比较器201和聚集一起的发音相似性比较器202，如上所述)。在语音识别器1201,1211,1212,…的优选实施例中，经麦克风输入语音，其把声音信号转换为电信号，电信号被参数化并与发音数据库103进行对比。基于预定准则的(如倒频差距)最好匹配被选择，把选择集中起来，并且经因特网传送。Web服务器1220,1221,1222,…接收传送来的集中的发音并把它们与数据库1231,1232,1233,…中的项比较。利用预定准则(如倒频差距)选择最好匹配并且从而识别语音输入。上述的一般语音识别中的上述所有性能和特征可被组合到图11和12所示的分布式语音识别系统中。但是任何语音识别系统和/或方法可有利地被用于本发明中。

在操作中，用户可使用与说话者无关的输入设定模式，从而使用用于语音识别的预先分组的字符(字母)数据库。为生成(“训练”)个人化的数据库100，用户通过向系统以在各个声音之间带有至少0.2秒的中顿的自然的声音口述从“a”到“z”(对于英文示例)以及从“0”到“9”的记录字母和数字声音，从而产生“声音串”。在本发明的一个实施例中，如果字母继续向前进，上述的端点检测方案将检测不能区分的发音，用户经显示器被指令来停止复述并且从开始重复口述。应用对各个字母产生波形的前端信号处理器102来转换声音串的各个字母(如图5所示)。然后波形被分段、分配存储器中的地址，接着被存储在存储器中，从而各个发音被映射到发音数据库104(把这一处理称为“贴标签”)。与发音相似性比较器201联系的发音数据库103对于英文字母表中的字母形成26X26矩阵，其中列装有对发音数据库104中的各个字母的存储的波形，行装有用于识别分析的输入的语音字母(附加有样本矩阵)。发音相似性比较器201比较输入的发音与列(发音数据库103)中的所有字母以找到最好的匹配。例如，输入的字“seat”由用户拼写为“s-e-a-t”。由于发音的难以预测的变化、背底噪音和其他因素，字母可被识别为“x-e-k-d”(这些字母的每一个的发音类似于需要的字母，因此被错误地“识别”)。在本发明的优选实施例中，在与数据库中的字母作比较之前，相似的发音的字母被分组在一起，从而搜索更有效(搜索矩阵尺寸小于对于英文字母表的26X26矩阵)。例如，在本发明的优选实施例中的分组重点放在音节的元音声音上并且被发现明显降低相似性计算，从而产生对手持装置理想化的分组。分组把“a”、“j”和“k”分为同一组，“x”、“s”和“f”分为另一组，“b”、“c”、“d”、“e”和“g”分为又一组。作为失真得分技术的图示，在“s-e-a-t”示例中，第一字母“s”初始被识别为“x”，从而这里有一个基于倒频差距被指定的非零失真得分(例如2.0)；下一个字母“e”被正确地识别，从而得分为0；下一个字母“a”被识别为“k”，其被指定得分1.5；最后一个字母“t”被被识别为“d”，其被指定得分1.0。对于这个字的总的失真得分是4.5。然后失真得分组合起来与词汇数据库203中的字相比。但是选择的候选字母组合起来更清晰(并且“xekd”不作为一个字存在)。字相似性比较器202应用上述方法计算失真得分，从而输入的“x-e-k-d”将如下所示用该字产生失真得分：输入字候选字字母得分失真得分相似性％xekd seat S1+S2+S3+S4=S 1200 89％

feat T1+T2+T3+T4=T 2380 75％

heat U1+U2+U3+U4=U 4530 68％

beat V1+V2+V3+V4=V 8820 42％

字比较器202对各次比较的失真得分进行排序以确定最低的失真得分，其是与词汇数据库203中的字的最接近的匹配(最大的相似性)。显示器204显示由用户确认的选择的字(或各个字母)。可有利地使用任何字母数字显示装置，例如液晶显示器(LCD)。对于在移动电话或PDA中的应用，那么字母的组合构成字，然后字可与电话号码匹配或与用于传送的其他传送指数匹配。

尽管描述的许多示例是基于英语字母表的，应理解它们只是例示，本发明的范围还包括其它语言，唯一的限制是这种语言是基于可区分的发音的。实际上，由于任何语言的语音识别因其基本上依赖于发音和词汇数据库的内容而可通过本发明实现，本发明的一个实施例提供多种语言性能，该发明可对于任何语言来改变。与说出的声音和词汇数据库的相似性比较可通过上述的本发明完成，经用户口述的声音来构造发音数据库104而实现了准确度。

在通常应用中，本发明允许声音识别在1-2秒中实现，从而提供与用户的平滑接口。准确度测试结果一致地为95％水平。

尤其这里应注意本发明对于输入汉语的单音节以字符为基础的字母(或字)是理想的。例如，对于“行动电话”一词，被作为字符串“xing-dong-dian-hua”直译出来。各个字是单音节的并且具有它自己的意思(或几个意思)，但是组合起来包含“行动电话”这个唯一的术语。本发明提供各个单音节字母的高准确度的识别(部分由于直接推断校准)，其在组合一起形成一个字词时由于有限数目的可检测的选择而产生更准确的识别。

尽管上面是特定实施例的完全的描述，可使用各种变形、可替换的结构和等同替代体。例如，本发明适合于被分开发音的任何口语语言、把字母表的字母组合起来发音的字母语言(象英语和俄语)以及发音与字符相关的符号语言(如汉语和日语)。而且，可有利地利用任何语音识别系统或方法。因此，上面的描述和图示不应被看作对本发明的范围的限制，而发明范围在后附的权利要求中限定。

Claims

1．在具有与大量数据处理装置进行相互通信的大量移动电子通信装置的通信网络系统中，一种声音信息识别系统，包括：

一个以电学方式设置在各个移动通信装置上的用于识别语音信息并产生第一组相关的语言信息的声音识别器；和

一个以电学方式设置在各个数据处理装置中的用于识别所述第一组相关的语言信息的并产生第二组相关的语言信息的语言识别器。

2．根据权利要求1的声音信息传送系统，其特征在于所述声音识别器包括：

一个用于参数化声音信息的前端信号处理器；

用于存储发出语音的大量参数表示的发出语音数据库存储装置；和

耦合于所述前端信号处理器和所述发出语音数据库存储装置的用于响应于预定准则比较声音信息的参数表示与发出语音的所述大量参数表示的并选择声音信息的所述参数表示与发出语音的所述大量参数表示中的至少一个的发音相似性比较器装置。

3．根据权利要求2的声音信息传送系统，其特征在于所述所述语言识别器包括：

一个用于存储字串发音的大量参数表示的词汇数据库存储装置；

一个耦合于所述声音识别器和所述词汇数据库存储装置的用于比较所述第一序列的关联与存储在所述词汇数据库存储装置中的聚集的发出语音的所述大量参数表示的并响应于预定准则在聚集的发出语音的所述选择的参数表示与字串发音的所述大量参数表示中至少一个之间选择第二序列的关联的聚集的发音相似性比较器。

4．一种与因特网通信的分布式语音信息通信系统，包括：

与因特网通信的大量移动电子通信装置，每一个包括用于把声音信号转换为电信号的麦克风；

一对一耦合于所述麦克风的大量声音识别器，所述大量声音识别器每一个具有由发出语音构成的存储的数据库，用于把电信号转换为发音信息并比较所述发音信息与所述发出语音，选择所述发出语音中的至少一个，聚集所述选择的发出语音，并经因特网传送所述选择的聚集的发出语音；

与因特网进行通信的大量数据处理装置，用于经因特网接收所述选择的聚集的发出语音；

一对一耦合于所述大量数据处理装置的大量语言识别器，所述大量语言识别器每一个具有由字串发音构成的存储的数据库，用于比较所述聚集的发出语音与所述的字串发音，并选择所述字串发音中的至少一个，从而识别语言信息。

5．在具有大量移动电子通信装置的通信网络系统中，每个通信装置具有设置在其中的发出语音数据库，移动电子通信装置与各自具有设置其中的字串发音数据库的大量数据处理装置进行相互通信，用于识别声音信息的方法包括步骤：

(a)参数化声音信息；

(b)比较参数化的声音信息与发出语音数据库中的发出语音；

(c)响应于预定准则选择发出语音的至少一个；

(d)聚集选择的至少一个发出语音；

(e)比较选择的至少一个发出语音与字串发音数据库中的字串发音；

(f)响应于预定准则选择至少一个字串发音，从而识别声音信息。

6．根据权利要求5的方法，其特征在于声音信息、发出语音和字串发音是汉语语言。

7．根据权利要求5的方法，其特征在于声音信息、发出语音和字串发音是日语语言。

8．根据权利要求5的方法，其特征在于步骤(a)包括利用倒频系数参数化声音信息。

9．根据权利要求5的方法，其特征在于步骤(c)的预定准则是倒频差距计算。

10．根据权利要求5的方法，其特征在于步骤(f)的预定准则是倒频差距计算。

11．在具有大量移动电子通信装置的通信网络系统中，移动电子通信装置与大量数据处理装置进行相互通信，用于识别声音信息的方法包括步骤：

(a)在各个移动电子通信装置中参数化和存储发音以包括发出语音数据库；

(b)在各个数据处理装置中参数化和存储字串发音数据库以包括字串发音数据库；

(c)在至少一个移动电子通信装置中参数化和存储声音信息；

(d)比较参数化声音信息与移动通信装置的发出语音数据库中的发出语音；

(g)响应于预定准则选择至少一个发出语音；

(h)聚集选择的至少一个发出语音；

(i)比较选择的至少一个发出语音与数据处理装置的字串发音数据库中的字串发音；

(j)响应于预定准则选择至少一个字串发音，从而识别声音信息。

12．根据权利要求11的方法，其特征在于声音信息、发出语音和字串发音是汉语语言。

13．根据权利要求11的方法，其特征在于声音信息、发出语音和字串发音是日语语言。

14．根据权利要求11的方法，其特征在于步骤(a),(b)和(c)的参数化包括利用倒频系数。

15．根据权利要求11的方法，其特征在于步骤(g)和(j)的预定准则是倒频差距计算。