CN1454380A

CN1454380A - 具有多个话音识别引擎的话音识别系统和方法

Info

Publication number: CN1454380A
Application number: CN01814592.2A
Authority: CN
Inventors: H·加鲁达德里; D·P·欧瑟斯; 毕宁; Y·Y·齐
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-07-18
Filing date: 2001-07-17
Publication date: 2003-11-05
Anticipated expiration: 2021-07-17
Also published as: EP1301922B1; EP1301922A1; CN1188831C; ATE349751T1; ES2278763T3; TWI253056B; WO2002007148A1; AU2001275991A1; DE60125542T2; US6671669B1; DE60125542D1; HK1057816A1

Abstract

一种组合话音识别引擎并分析个体话音识别引擎所得结果之差别的方法和系统。组合说话者独立(SI)型隐型马尔可夫模型(HMM)引擎、说话者独立型动态时间偏差(DTW－SI)引擎和说话者依赖型动态时间偏差(DTW－SD)引擎。对这些引擎所得结果的组合和分析带来一种比仅用一个引擎所得结果时识别准确性高且拒收率低的系统。

Description

具有多个话音识别引擎的话音识别系统和方法

发明背景

1.发明领域

本发明一般涉及通信领域，尤其涉及一种新颖改进的话音识别系统和方法。

2.相关技术

话音识别(VR)是赋与设备识别用户或用户话音命令并且为人机接口提供方便的仿真智能的一种最重要技术。VR还是理解人类语言的关键技术。利用从语言声信号恢复语言消息的技术的系统称为话音识别器。这里所用术语“话音识别器”的含义一般为任何启用口语用户接口的装置。话音识别器通常包含声处理器、特征提取器和词译码器。声处理器提取达到输入原语言语音识别所需的信息承载特征或矢量序列。词译码器对特征或矢量序列进行译码，以得到与输入发音对应的所期望含义清楚的输出格式，诸如语言词汇序列。

声处理器相当于话音识别器的前端话音分析子系统。声处理器对输入话音信号作出响应，提供反映时变话音信号特征的适当表示。该处理器丢弃无关信息，诸如背景噪声、信道失真、说话者特征和谈吐方式。有效的声处理给话音识别器提供强化的声鉴别能力。结果，这时要分析的有用特征是短时间频谱包络。表征短时间频谱包络常用的两种频谱分析技术是线性预测编码(LPC)和基于滤波器组的频谱模拟。美国专利号5414796的专利和L.B.Rabiner与R.W.Schafer的著作中阐述了示范的LPC技术，前者的题目为“VARIABLE RATEVOCODER”，后者的标题为《话音信号数字处理》(396～453页，1978)，前者转让给本发明受让人，两者均经参考充分编入本说明中。

由于为了安全，VR(还常称为语言识别)越来越重要。例如，VR可用于代替人工按压无线电话键盘按钮的工作。用户一面驾驶汽车一面始发电话呼叫时，此功能尤为重要。使用无VR的话机，则按压按钮进行拨号呼叫时，驾驶者必须从驾驶盘腾出一只手并查看话机键盘。这些动作增加车祸的可能性。启用话音的话机(即设计成话音识别的话机)会使驾驶者可在进行电话呼叫的同时，继续监视路面。免提汽车套件系统还会使驾驶者可在起始呼叫时两手撑握驾驶盘。

话音识别装置分为说话者依赖(SD)型装置和说话者独立(SI)型装置。前者较普通，训练成识别来自特定用户的命令。反之，后者能受理任何用户的话音命令。为了提高给定VR系统的性能，说话者依赖型和说话者独立型都需要训练，使系统配备有效参数。换句话说，系统在其能最佳作用前，需要学习。

说话者依赖型VR装置通常按两阶段工作：训练阶段和识别阶段。训练阶段中，VR系统提示用户说1次或2次(通常2次)系统词汇中的各词，以便系统能学习用户说这些特定词和短语的特征。免提汽车套件示范词汇可包含：键盘数字；关键词“呼叫”、“发送”、“拨号”、“取消”、“清除”、“增加”、“删去”、“历史”、“程序”、 “是”和“否”；常来往同事、朋友或家庭成员的预定电话号码的名字。一旦完成训练，用户就能通过说出训练的关键词在识别阶段始起呼叫，该阶段VR装置通过比较所说的发音与先前训练的发音(作为模板存储)进行最佳匹配，而加以识别。例如，名“约翰”是一个训练名，则用户通过说短语“呼叫约翰”发出呼叫。VR系统会识别“呼叫”和“约翰”这些词，并拨出用户已预先作为约翰的电话号码输入的号码。训练的系统和方法

说话者独立型VR装置也采用训练模板，其中包含预定规模的预先记录词汇库(例如某些控制词、0至9的号码、是和否)。必须使说话者说出词汇中的各词，并对大量说话者(例如100个)进行记录。说话者独立型VR的一个例子是动态时间偏差(DTW)引擎，代理人档案号PA000017的美国专利申请中阐述该引擎，该申请在2000年6月13日提出，题目为“METHOD AND APPARATUS FORCONSTRUCTING VOICE TEMPLATES FOR A SPEAKER-INDEPENDENT VOICERECOGNITION SYSTEM”，转让给本发明受让人，经参考充分编入本说明中。

不同的说话者独立型VR可给出不同的结果。例如，说话者独立(SI)型隐型马尔可夫模型(HMM)引擎可给出与说话者独立型动态时间偏差(DTW)引擎不同的结果。组合这两种引擎的结果能得到优于仅用一种引擎的结果的高识别准确性和低拒收率系统。

说话者依赖型VR和说话者独立型VR可给出不同的结果。说话者依赖型引擎用属于特定用户的模板进行识别。说话者独立型引擎用借助来自用户群体的范例产生的模板进行识别。由于说话者专用模板较接近给定用户说话风格，SD引擎提供比SI引擎高的准确性。然而，SI引擎具有使用系统前用户不必经历“训练过程”的优点。

期望一种组合不同类引擎的系统和方法。组合说话者依赖型VR与说话者独立型VR，会提供强化的准确性，并且利用输入话音信号中数量较多的信息。因此，希望一种分析来自说话者依赖型VR和说话者独立型VR的不同结果的系统和方法。

发明概述

所述实施例针对一种利用组合话音识别引擎的话音识别系统和方法。其一个方面中，将声处理器配置成从发音的数字化话音取样提取话音参数；使多个话音识别引擎连接声处理器，每一话音识别引擎产生一假设；判决逻辑将这些话音识别引擎产生一假设；判决逻辑将这些话音识别引擎的假设作为输入，并且选择一种假设。

另一方面中，提供一种组合多个话音识别引擎来改善话音识别的方法。该方法有利的是包含：由声处理器从发音的数字化话音取样提取话音参数；使多个话音识别引擎连接该声处理器；从各话音识别引擎产生假设；从由多个话音识别引擎产生的假设中选择一个假设。

一实施例中，组合一些说话者独立型话音识别引擎。另一实施形态中，组合一些说话者依赖型话音识别引擎。又一实施例中，将说话者依赖型话音识别引擎与说话者独立型话音识别引擎组合。

一实施例中，说话者独立型话音识别引擎是动态时间偏差话音识别引擎。一实施例中说话者独立型话音识别引擎是隐藏马尔可夫模型。一实施例中，说话者依赖型话音识别引擎是动态时间偏差话音识别引擎。一实施例中，说话者依赖型话音识别引擎是隐藏马尔可夫模型。

附图说明

从以下结合附图的详细说明会进一步明白本发明的特征、目的和优点。各附图的相同的参考字符均作相同标识，其中：

图1示出一种话音识别系统；

图2示出声处理器的组成单元；

图3示出DTW-SD特征提取器、DTW-SD匹配模块和DTW-SD模板模块；

图4示出DTW-SI特征提取器、DTW-SI匹配模块和DTW-SI模板模块；

图5示出HMM特征提取器、HMM-SI匹配模块和HMM-SI模板模块；

图6示出一实施例中判决逻辑模块的组件；

图7示出一实施例中无说话者适配的命令词组合引擎逻辑的流程图；

图8示出有说话者适配的命令词组合引擎逻辑的流程图；

图9示出有说话者适配的命令词和名标的组合引擎逻辑的流程图。

详细说明

一实施例中，话音识别系统100具有3种能完成弧立词识别任务的话音识别引擎：动态时间偏差说话者独立(DTW-SI)型引擎、动态时间偏差说话者依赖(DTW-SD)型引擎和隐型马尔可夫模型(HMM)引擎。这些引擎用于识别命令词和数字，为诸如移动电话等手持装置完成的常见任务提供丰富的口语用户接口。另一实施例中，话音识别系统100包含DTW-SI引擎和DTW-SD引擎。又一实施例中，话音识别系统100包含DTW-SI引擎和HMM引擎。一实施例中，HMM引擎是说话者独立型的。另一实施例中，HMM引擎是说话者依赖型的。

根据一实施例，如图1所示，话音识别系统100包含模/数变换器(A/D)102、前端声处理器104、特征提取器106、108和110、话音模板数据库112、114和116、匹配逻辑118、120和122以及判决逻辑124。一具体实施例中，将声处理器104以及特征提取器106、108和110做成一个装置，例如参数提取器。

A/D 102连接声处理器104。声处理器104连接特征提取器106、108和110。DTW-SD特征提取器106连接DTW-SD匹配逻辑118。DTW-SI特征提取器108连接DTW-SI匹配逻辑120。HMM特征提取器110连接HMM匹配逻辑122。DTW-SD话音模板数据库112连接DTW-SD匹配逻辑118。DTW-SI话音模板数据库114连接DTW-SI匹配逻辑120。HMM话音模板数据库116连接HMM匹配逻辑122。DTW-SD匹配逻辑118、DTW-SI匹配逻辑120和HMM匹配逻辑122都连接判决逻辑124。

另一实施例中，话音识别系统100包含DTW-SD特征提取器106和DTW-SI特征提取器，但不包含HMM-SI特征提取器110。又一实施例中，该系统100包含DTW-SI特征提取器108和HMM-SI特征提取器110，但不包含DTW-SD特征提取器106。再一实施例中，该系统100包含DTW-SD特征提取器106和HMM-SI特征提取器110，但不包含DTW-SI特征提取器108。

话音识别子系统100可驻留于无线电话或免提汽车套件。用户(未示出)说一词或一个短语，以产生话音信号，该话音信号用常规换能器(未示出)变换成电话音信号S(t)，供给A/D 102，它根据诸如A律或μ律脉冲码编调制(PCM)等公知取样方法将该话音信号变换成数字话音取样S[n]。一实施例中，通常每一秒有N个16位话音取样。因此，对8000Hz和16000Hz的取样频率，N分别等于8000和16000。

话音取样S[n]供给声处理器104，以判定参数。声处理器104产生模拟输入话音信号S(t)的一组参数。可按照多种公知话音参数判定技术中的任一种判定这些参数，该方法包含例如上述美国专利号5414796和Lawrence Rabiner与Biing-Hwang Juang著《话音识别基础》(1993)所说明的话音编码器编码、基于离散傅里叶变换(DFT)的对数倒谱系数(例如基于快速傅里叶变换(FFT)的倒谱系数)、线性预测系数(LPC)或巴克标度分析。该组参数有利地是基于帧(分段成周期性的帧)的。声处理器104可实现成数字信号处理器(DSP)。该DSP可包含话音编码器。或者，声处理器104可实现成话音编码器。

图2示出本发明一实施例的声处理器104中各组成单元。声处理器104包含成帧模块130、预加重模块132、开窗模块134、快速傅里叶变换(FFT)模块136、幅度频谱模块138和巴克标度模块140。一实施例中，成帧模块130对来自A/D变换器的话音取样编帧。该模块130将话音取样编成每10毫秒一个的重叠分组，每分组具有128至256个PCM取样。

预加重模块132是处理来自成帧模块130的帧的滤波器。一实施例中，通过诸如y(n)＝x(n)-ax(n-1)的预加重滤波器处理这些帧。一实施例中，“a”的值等于0.95至0.99。

预加重后的信号通过开窗模块134。该模块134是提供滤波所得帧的窗取样的开窗功能件。一实施例中，该开窗功能建立汉明窗。另一实施例中，该开窗功能建立梯形窗。本领域的技术人员会理解，可用本领域公知的任何开窗功能。例如，可用L.B.Rabiner与L.Y.Juang著《话音识别基础》(1993)所述的汉明窗，该著作经参考充分编入本说明中。开窗功能防止成帧所造成附加寄生频率分量的负面影响。

FFT模块136将来自开窗模块134的各窗取样分组变换到频域。FFT模块136进行快速傅里叶变换。一实施例中，按照A＝SQRT(X*2+Y*2)计算各分组的幅度频谱，其中A是幅度频谱，X和Y分别是FFT的实数部分和虚数部分。

幅度频谱模块138按线性频率标度产生信号的频谱特性。巴克标度模块140将线性频率标度变换成称为巴克标度的近似对数频率标度。128取样分组有64个频箱，从而256取样分组有128个频箱。幅度频谱模块138在与各幅度频谱对应的16个巴克标度箱中产生结果。即，幅度频谱模块138产生话音信号的16个巴克幅度，每10毫秒一个。

一实施例中，DTW-SI特征取样器和DTW-SD特征提取器相同。图3根据一实施例示出DTW-SD特征提取器106、DTW-SD匹配模块156和DTW-SD模板模块158。图4示出DTW-SI特征提取器108、DTW-SI匹配模块166和DTW-SI模板模块168。

DTW-SD和DTW-SI的特征提取器分别包含终点检测器150和160、时间群集话音分段模块152和162以及幅度量化器154和164。另一实施例中，DTW-SD特征提取器106还包含DTW-SD匹配模块156和DTW-SD模板158。另一实施例中，DTW-SI特征提取器108还包含DTW-SI匹配模块166和DTW-SI模板168。

一实施例中，在DTW-SD特征提取器106内，终点检测器150连接时间群集话音分段模块152，而该模块152连接幅度量化器154。该量化模块154连接DTW-SD匹配模块156，而该模块156连接DTW-SD模板模块158。另一实施例中，幅度量化器154连接DTW-SD模板模块158。该模块158包含DTW-SD模板。另一实施例中，在训练阶段建立DTW-SD模板，在该阶段对输入话音信号训练DTW-SD部分，并提供DTW-SD模板。另一实施例中，在系统典型使用期间，用DTW-SI引擎(即DTW-SI特征提取器108)“隐含”地产生DTW-SD模板。这些实施例中，只要适当组合来自DTW-SI引擎和DTW-SD引擎的结果，系统就具有DTW-SD引擎和DTW-SI引擎两者的优点。美国专利申请09/248513、09/255891和QCPA000017中说明示范的训练系统和方法，这些申请分别在1999年2月8日、1999年1月4日和2000年7月13日提出，题目分别为“VOICE RECOGNITIONREJECTION SCHEME”、“SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITIONOF SPEECH SIGNALS”和“METHOD AND APPARATUS FOR CONSTRUCTING VOICETEMPLATES FOR A SPEAKER-INDEPENDENT VOICE RECOGNITION SYSTEM”，均转让给本发明受让人，经参考均充分编入本说明中。

一实施例中，在DTW-SI特征提取器108内，终点检测器160连接时间群集话音分段模块162，而该模块162连接幅度量化器164。该量化模块164连接DTW-SI匹配模块166，而该模块166连接DTW-SI模板模块168。DTW-SI模板模块158包含在训练阶段建立的DTW-SI模板，该阶段对输入话音信号训练系统的DTW-SI部分。

图5中示出另一实施例，其中示出HMM特征提取器110、HMM-SI匹配模块176和HMM-SI模板模块178。HMM特征提取器110包含对数模块170、RASTA处理模块172和倒谱变换模块174。对数模块170连接RASTA处理模块172，而该模块172连接倒谱变换模块174。SI隐型马尔可夫模型(HMM)引擎。该SI-HMM引擎工作在倒谱域。对数模块170将马克幅度变换成对数标度。用RASTA处理模块172内的带通滤波器对巴克对数信号进行滤波。本领域的技术人员会理解，可用本领域公知的任何RASTA处理。美国专利号5450522的专利中阐述示范的RASTA处理，该专利题目为“AUDITORY MODEL FOR PARAMETRIZATION OF SPEECH”，授予Hermansky等人。

一旦将巴克算法加以滤波，就在倒谱变换模块174内进行余弦变换。一实施例中，用维特比译码器将得到的特征矢量与目标词的HMM模型(即HMM-SI模板)对比，求最佳匹配。在训练处理期间产生目标词的HMM模型，该期间还产生男女说话者独立的模型。

参数的各帧供给特征提取器106和108，其中终点检测器150和160用提取的参数检测发音(即词)的终点。一实施例中，有利地按照美国专利申请号09/246414的申请中所述的方法进行终点检测，该申请在1999年2月8日提出，题目为“METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THEPRESENCE OF NOISE”，转让给本发明受让人，经参考充分编入本说明中。根据此方法，将发音与诸如信噪比(SNR)门限值之类的第1门限值比较，以判定该发音的第1起点和第1终点。第1起点前面的发音部分则与第2 SNR门限值比较，以判定该发音的第2起点。然后，第1终点后面的发音部分与第2 SNR门限值比较，以判定该发音的第2终点。周期性重复计算第1和第2 SNR门限值有利，并且第1 SNR门限值有利地应大于第2 SNR门限值。

将检测发音用的频域参数帧供给时间群集话音分段模块152、162。根据一实施例，该模块实现美国申请序列号09/255891的专利申请中说明的压缩方法，该申请在1999年1月4日提出，题目为“SYSTEM AND METHOD FOR SEGMENTATIONAND RECOGNITION OF SPEECH SIGNALS”，转让给本发明受让人，经参考充分编入本说明中。根据该方法，用话音帧关联的至少一个频谱值表示频域参数中的各话音帧。然后，对每对相邻帧判定频谱差值。该差值代表2个成对帧所关联频谱值之间的差。在每对相邻帧之间建立初始群集边界，形成参数群集，并且给各群集分配方差值。该方差值有利地等于所定频谱差值中的一个。然后，计算多个群集归并参数，各群集归并参数与一对相邻群集关联。从多个群集归并参数选择一个最小群集归并参数。然后，通过取消该最小群集归并参数所关联群集之间的群集边界并且给归并群集分配归并方差值，而形成归并群集。该归并方差值代表与最小群集归并参数关联的群集分配到的方差值。重复此处理过程有利，以便形成多个归并群集。根据该多个归并群集形成分段话音信号有利。

本领域的技术人员会理解。可用诸如时间归一化模块的其他装置代替时间群集话音分段模块152、162。然而，熟练技术人员也会理解，由于时间群集话音分段模块152、162将与前帧相比差值最小的帧归并成群集，并且采用均值而不是个体帧，所以时间群集话音分段模块118利用了所处理发音中较多的信息。还会理解，结构判决逻辑124中的模式比较逻辑最好和时间群集话音分段模块152、162一起使用。

本发明一实施例中，判决逻辑模块124利用本领域公知的动态时间偏差(DTW)模型。本发明另一实施例中，该模块124利用HMM模型。再一实施例中，该模块124利用DTW模型和HMM模型。

将群集均值供给话音电平归一化器，即幅度量化器154、164。一实施例中，幅度量化器154、164通过给各群集均值分配每信道2位(即每频率2位)，对话音幅度进行量化。在提取倒谱系数的另一实施例中，技术人员会理解，不用幅度量化器154、164量化群集均值。特征提取器106、108将幅度量化器154、164产生的输出供给判决逻辑124。

在模板数据库158、168、178中存储语音识别子系统100中全部词汇内的词的模板集。一实施例中，借助说话者独立型模板建立子系统构建该模板集。模板数据库158、168、178有利地实现成常规形式的非易失性存储媒体(诸如闪存)，这样使模板可在话音识别子系统100断电时保留在模板数据库158、168、178中。

一实施例中，判决逻辑124包含DTW-SD判决逻辑188、DTW-SI判决逻辑190和HMM判决逻辑192，其中DTW-SD判决逻辑188连接DTW-SD匹配模块118，DTW-SI判决逻辑190和HMM判决逻辑192分别连接DTW-SI匹配模块120和HMM匹配模块122，如图6所示。另一实施例中，使DTW-SD判决逻辑188、DTW-SI判决逻辑和HMM-SI判决逻辑统一。本领域的技术人员会理解，能按任何组合配置判决逻辑188、190、192。

各引擎的匹配模块118、120、122将来自其特征提取器106、108、110的矢量与各模板数据库112、114、116存储的全部模板分别比较。将矢量与模板数据库112、114、116所存储全部模板之间的比较结果或距离分别供给各自的判决逻辑188、190、192。该判决逻辑188、190、192从各自的模板数据库112、114、116选择与矢量最接近匹配的模板。或者，判决逻辑188、190、192可用常规“N个最佳”选择算法，在预定匹配门限内选择N个最接近的匹配。然后，寻问用户想要哪个选择。判决逻辑188、190、192的输出是关于说出的是词汇中哪个词的判决。

一实施例中，DTW匹配模块118、120和判决逻辑188、190用DTW法进行收敛测试。DTW法在本领域已公知，Lawrence Rabiner与Biing-Hwang Huang的著作中也阐述，该著作名为《话音识别基础》(200～238页，1993)，经参考充分编入本说明中。根据DTW法，通过标画测试的发音时间序列与模板数据库108所存储各发音的时间序列，形成格网。然后，每次一个发音，逐点(例如每10ms)比较受测试的发音与模板数据库108中的每一发音。对模板数据库108中的每一发音，及时调整受测试的发音，或使其产生“偏差”，在特定点进行压缩或扩展，直到取得与模板数据库108中的发音最接近的匹配。在每一时间点比较2个发音，并且在该点申明匹配(零代价)，或者申明失配。如果在某一点失配，对受测试的发音进行压缩、扩展，或需要时使其失配。继续此处理过程，直到两种发音相互比较完。可能有大量不同调整的发音(通常有成千上万种)。选择最低代价功能(即要求数量最少的压缩和/或扩展和/或失配)的调整发音。在类似于维持比译码算法的方式中，通过从模板数据库108中，发音的各点后向查看，以判定最低总代价通路，进行选择有利。这使得可判定最低代价(即接近匹配)的调整发音，不必采取产生每一不同调整发音的“强力”方法。然后，比较模板数据库108中全部发音的最低代价调整发音，并选择一个最低代价的发音，作为最接近地匹配所测试发音的存储发音。

尽管HMM系统中DTW匹配方案118、120和维特比译码等效，DTW引擎和HMM引擎利用不同的前端方案(即特征提取器)给匹配级提供特征矢量。因此，DTW引擎和HMM引擎的错误模式很不同。具有组合引擎的话音识别系统100利用误差模式中的差别。通过适当组合来自两种引擎的结果，可达到较高的总识别准确性。更重要的是，可达到所期望识别准确性的较低拒收率。

在独立的话音识别系统中，可将发音与目标词匹配的概率写为：

P(W_i，X)＝max(∏exp((ij-xj)/σj)²)

Wi是用一组平均矢量Λi和方差σj模拟的目标词i。除Wi外，还有无用单元模型Wg。如果发音X不对应于词汇中的任何词Wi，预计Wg给出很低的代价，这意味着发音X是无用单元，不是词汇中的任何词。在训练处理期间建立Wg。本领域的技术人员会理解。可用本领域公知的任何无用单元建模方案。

发音X是特征矢量Xj的系列。一实施例中，DTW方案内，方差σj为1，最小化常在20帧上进行(即j＝1…20)。最小化是选择具有最小代价的词假设的处理过程。一个假设是一个词、标记或者词串或标记串。标记是与短语、词或子词对应的话音段。

一实施例的HMM方案中，j＝1…N，其中N为发音长度。此外，建模中不是采用单位矢量，而是采用对角协方差矢量。

DTW与HMM之间除上述两点不同外，DTW引擎和HMM引擎都产生各目标词的概率度量。这意味着DTW概率(PDTW(W_i、X))与HMM概率(PHMM(W_i、X)相乘的容量使两种引擎上的概率最大。实际上，不是使该概率最大，而是对计算效率使发音X与词W_i匹配的代价最小。该代价定义为：

C(W_l，X)＝-Log(P(W_i，X))＝min(∑((ij-xj)/σj)²)

因此，发音X与词Wi匹配的组合代价为：

C(W_l，X)＝CDTW(W_i，X)+γ*CHMM(W_i，X)

其中γ是变换因数。这类似于大型词汇口授系统中用的语言建模代价，该系统用适当的变换因数组合声模代价和语言模型代价。

一实施例中，组合操作相同词汇集的说话者独立型话音识别引擎。另一实施例中，组合一些说话者依赖型话音识别引擎。又一实施例中，将说话者独立型话音识别引擎与说话者依赖型话音识别引擎组合，这两种引擎都用相同的词汇集工作。再一实施例中，说话者独立型话音识别引擎与说话者依赖型话音识别引擎组合，这两种引擎用不同的词汇集工作。

图7示出一实施例中无说话者适配的引擎逻辑组合流程图。说话者适配是模板的显性或隐性训练。

γ＝20/N，N为帧中发音持续时间。

D(i)＝DTW假设i的代价

H(i)＝HMM假设i的代价

C(i)＝组合假设i的代价

Δ(D)＝DTW增量代价＝D(2)-D(1)

Δ(H)＝HMM增量代价＝H(2)-H(1)

Δ(C)＝组合增量代价＝C(无用单元)-C(1)

计算Δ(C)时采用无用单元代价。

第1级200中，算法进行校验，查看DTW和HMM是否首位候选相同。对门限T1的总增量代价用作边界校验202。如果DTW首位候选与HMM首位候选一致，DTW假设和HMM假设都得到受理。不一致，则控制流程至第2级204。

第2级204中，算法恢复DTW正确且HMM为第2佳的发音。第2级204中，进行校验，查看DTW首位候选是否与第2HMM候选一致。如果一致，受理DTW假设。不一致，则控制流程进至第3级208。用DTW增量代价门限T2作为边界校验206。

第3级208中，算法恢复HMM正确且DTW为第2最佳的发音。第3级208中，算法进行校验，查看HMM候选是否与第2DTW候选一致。如果一致，受理HMM假设。不一致，则控制流程进至第4级212。用HMM增量代价门限T3作为边界校验210。

第4级212中，按适当地比例变换组合DTW和HMM的评分。第4级212中，进行校验，查看Δ(C)是否大于门限T4以及首位组合假设是否与DTW首位假设或HMM首位假设相同。如果相同，受理组合假设。不同，则进至第5级216。为了计算组合增量代价，由于两种引擎建议的词不必相同，算法采用无用单元代价。作为边界校验，算法证实首位候选与DTW或HMM的首位候选匹配。

第5级216中，算法校验仅基于DTW的拒收，该拒收基于DTW代价、增量代价和无用单元代价。平台中仅加载DTW模板时，此级还按照单拒收方案进行工作。如果DTW拒收方案的条件成立，受理首位DTW假设。该条件不成立，则控制流程进至第6级220。首位候选的代价小于门限T5且增量DTW代价Δ(C)大于门限T6时，DTW拒收方案的条件成立。

第6级220中，算法校验仅基于HMM的拒收，该拒收基于HMM代价、增量代价和无用单元代价。平台中仅加载HMM模板时，此级还按照单拒收方案进行工作。如果HMM拒收方案的条件成立，受理首位HMM假设。该条件不成立，则控制流程进至第7级226。首位候选的代价小于门限T7且增量HMM代价Δ(H)大于门限T8时，HMM拒收方案的条件成立。

美国专利申请09/248513中说明示范的拒收方案，该申请在1999年2月8日提出，题目为“VOICE RECOGNITION REJECTION SCHEME”，转让给本发明受让人，经参考充分编入本说明中。

一实施例中，组合引擎逻辑用于命令词，并且具有说话者适配。图8根据一实施例示出具有说话者适配的命令词组引擎组合逻辑的流程图。S(.)相当于来自说话者依赖型引擎的说话者适配结果。C(.)相当于来自无适配组合引擎的说话者独立型结果。A(.)相当于归并SI和SA的结果以及重新排序假设。

第1级230中，算法进行校验，查看C(1)和S(1)是否首位候选相同。对门限T9的总增量代价用作边界校验。如果C(1)首位候选与S(1)首位候选一致，C(1)假设和S(1)假设都得到受理232。不一致，则控制流程至第2级234。

第2级234中，算法校验是否说话者适配模板少于2个。如果该模板少于2个，控制流程受理说话者独立型假设236。否则，控制流程进至第3级238。

第3级238中，应用DTW拒收方案。如果DTW拒收方案的条件成立，算法受理说话者适配假设240。该条件不成立，则控制流程进至第4级242。

第4级242中，将Δ(A)与门限T10比较。如果Δ(A)大于门限T10且A(1)＝D(1)、H(1)或S(1)，受理组合假设244。否则，拒收组合假设246。

说话者适配模板少于2个时，对组合SI引擎提供较大的加重。该模板多于2个时，对SD引擎提供较大的加重。

另一实施例中，组合引擎逻辑用于命令词和名标，并且具有说话者适配。名标是用户收录的词汇词。图9根据一实施例示出具有说话者适配的命令词和名标的组合引擎逻辑流程图。

SD(.)相当于说话者依赖型引擎。C(.)相当于来自无适配组合引擎的说话者独立型结果。T(.)相当于归并SI和SD的结果以及重新排序假设。

第1级250中，算法进行校验，查看C(1)和SD(1)是否首位候选相同。对门限T11的总增量代价用作边界校验。如果C(1)与SD(1)一致，受理命令252。不一致，则控制流程进至第2级254。

第2级254中，将Δ(C)与门限T12比较。如果Δ(C)小于门限T12，受理名标256。否则，控制流程进至第3级258。

第3级258中，应用DTW拒收方案。如果DTW拒收方案的条件成立，算法受理说话者独立型命令260。该条件不成立，则控制流程进至第4级262。

第4级262中，将Δ(T)与门限T13比较。如果Δ(T)大于门限T13且T1等于D(1)、H(1)或SD(1)，受理组合假设264。否则，拒收组合假设266。

混合方案中，说话者依赖型引擎产生名标假设。说话者独立型引擎产生命令词假设。此外，如果存在说话者适配模板，说话者依赖型引擎还产生命令词假设。

通常存在几十个名称和几个命令词(诸如电话薄、重拨、话音存储和电子邮件)。

用户可以第1级说出名称或命令词。

无混合引擎时，用户要说出“命令”并后续任务(例如呼叫—约翰·琼斯，命令—电话薄)。有混合引擎，则用户可说“约翰·琼斯”或“电话薄”。这导致形成用户接口。

用从说话者群体开发的发音组优化组合SI逻辑、组合SA逻辑和组合混合逻辑用的门限Ti。一实施例中，人工完成该优化。

另一实施例中，用诸如最小二乘极小化(LMS)处理之类的自动过程优化门限Ti。一实施例中，自动过程把来自各引擎的头N个假设都作为正确应答，并构建各假设的参数矢量。一实施例中，该矢量的例子是[Δ(D)Δ(Dg)Δ(H)Δ(Hg)]，其中Δ(？)是所考虑假设和该引擎下一最佳假设之间的代价差。Δ(Dg)Δ(Hg)分别相当于所考虑假设与DTW引擎和HMM引擎的无用单元代价之间的代价差。

作为一个例子，考虑来自各引擎的头2个假设。应答的候选最多有4个，其中仅一个是正确应答。训练处理过程产生一组4个的加权a、b、c和d，这些加权使正确假设的加权和(a*Δ(D)+b*Δ(Dg)+C*Δ(H)+d*Δ(Hg))最大，使不正确假设的该加权和最小。

这样，说明了一种组合话音识别引擎的新颖改进方法和设备。本领域的技术人员会理解，结合所揭示实施例阐述的各说明性逻辑块、模块和算法步骤可实现成电子硬件、计算机软件或两者的组合。根据各自的功能总地说明了各说明性部件、块、模块、电路和步骤。该功能实现成硬件还是软件，取决于具体应用和对整个系统的设计约束条件。熟练技术人员懂得这些环境下软硬件的互换性以及为各具体应用实现所述功能的最佳方法。作为例子，结合这里所揭示实施例阐述的各说明性逻辑块、模块和算法步骤可以用执行固件指令集的处理器、专用集成电路(ASIC)、现场可编程门阵(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬部件(诸如寄存器)、任何常规可编程软件模块和处理器，或者设计成完成这里所述功能的以上各项的组合来实现或完成。在微处理器中执行特征提取器106、108和1110、匹配模块118、120和122以及判决逻辑124有利，但替换方案中，可在任何常规处理器、控制器、微控制器或状态机中执行特征提取器106、108和110，匹配模块118、120和122以及判决逻辑124模板可驻留于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘片、CD-ROM或者本领域公知的任何其他形式的存储媒体。如图1所示，匹配模块118、120、122有利地分别连接模板模块112、114、116，以便分别从模板模块112、114、116读取信息。存储器(未示出)可集成到任何上述处理器中。处理器和存储器(未示出)可驻留于一ASIC(未示出)。该ASIC可驻留于电话。

提供以上本发明实施例的说明，使本领域的任何技术人员能制作或使用本发明。本领域的技术人员不难明白这些实施例的各种修改，并且这里规定的一般原理可用于其他实施例，而不需利用创造才干。因此，本发明不要受这里所示实施例的限制，但要符合与这里所揭示的原理和新颖特征一致的最大范围。

Claims

1.一种话音识别系统，其特征在于包含

配置成从发音的数字化话音取样提取话音参数的声处理器；

连接该声处理器的多个话音识别引擎，各话音识别引擎配置成产生一个假设；以及

配置成将来自该话音识别引擎的假设作为输入并且选择一个假设的判决逻辑。

2.如权利要求1所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者独立型话音识别引擎。

3.如权利要求1所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者依赖型话音识别引擎。

4.如权利要求2所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者依赖型话音识别引擎。

5.如权利要求4所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者独立型动态时间偏差话音识别引擎。

6.如权利要求4所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者独立型隐型马尔可夫模型话音识别引擎。

7.如权利要求4所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者依赖型动态时间偏差话音识别引擎。

8.如权利要求4所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者依赖型隐型马尔可夫模型话音识别引擎。

9.如权利要求4所述的话音识别系统，其特征在于，多个话音识别引擎包含说话者依赖型动态时间偏差话音识别引擎和说话者独立型动态时间偏差引擎。

10.一种话音识别方法，其特征在于包含：

用声处理器从发音的数字化话音取样提取话音参数；

使多个话音识别引擎连接该声处理器；

从每一话音识别引擎产生一假设；

从多个话音识别引擎产生的假设选择一个假设。

11.如权利要求10所述的方法，其特征在于，还包含：从多个话音识别引擎产生的假设选择一个假设。

12.如权利要求10所述的方法，其特征在于，还包含：从多个话音识别引擎产生的假设拒收一个假设。