CN1454381A

CN1454381A - 在话音识别的说话者独立型和依赖型模式中组合dtw和hmm

Info

Publication number: CN1454381A
Application number: CN01815363A
Authority: CN
Inventors: Y·Y·齐; 毕宁; H·加鲁达德里
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-09-08
Filing date: 2001-09-05
Publication date: 2003-11-05
Anticipated expiration: 2021-09-05
Also published as: DE60124408T2; KR20030061797A; EP1316086A1; EP1316086B1; ES2273885T3; BR0113725A; AU2001288808A1; US6754629B1; HK1058428A1; KR100901092B1; ATE344959T1; CN1238836C; TW548630B; JP2004518155A; WO2002021513A8; WO2002021513A1; DE60124408D1

Abstract

一种组合语音识别引擎(104，108，112，114)并用映射函数求解单个语音识别引擎(104，106，112，114)间差异的方法和系统。将说话者独立型语音识别引擎104和说话者依赖型语音识别引擎106组合在一起。将隐马尔可夫模型(HMM)引擎(108，114)和动态时间偏差(DTW)引擎(104，106，112)组合在一起。

Description

在话音识别的说话者独立型和依赖型模式中组合DTW和HMM

I、领域

本发明一般属于通信领域，更特别地属于用于语音识别的新颖和改进的系统和方法。

II、背景

语音识别(VR)表示将仿真智能赋予机器，以能识别用户或用户语音命令并易于简化人-机接口的最重要技术之一。VR也表示一种人类话音理解的关键技术。应用这种技术从声学话音信号中恢复语言消息的系统称为语音识别器。这里所用的术语“语音识别器”一般是指任何用户话音允许接口装置。

为了安全的原因，VR(一般也称作为语音识别)的使用变得越来越重要。例如，VR可以用来替代无线电话键盘上人工按键的操作。当用户在驾驶汽车的同时要打电话时，就显得特别重要。当使用不具有VR的电话时，驾驶员的一只手必需离开方向盘，看着电话机键盘，同时按键拨打电话。这些动作增加了出车祸的概率。一种可用话音电话(即，设计具有语音识别功能的电话)将允许驾驶员打电话时继续观察道路。另外，免提车载系统将允许驾驶员打拨电话时，双手继续握在方向盘上。

语音识别装置分类为说话者依赖型(SD)和说话者独立型(SI)装置。较普遍地将说话者依赖型装置训练成能识别特定用户的命令。相反，说话者独立型装置能接受任何用户的语音命令。为了增加特定的VR系统性能，不管是说话者独立型，还是说话者依赖型，都需要训练，以给该系统配置有效参数。换言之，在该系统功能最佳化之前，该系统必须学习。

说话者依赖型VR装置一般工作在两阶段：训练阶段和识别阶段。在训练阶段，VR系统允许用户将系统词汇表中的单词念一遍或两遍(通常为两遍)，以让该系统学习用户对这些特殊单词或字组的话音特征。免提车载装置的示范性词汇表包括键盘上的数字；关键词“呼叫”，“发送”，“拨号”，“取消”，“清除”，“添加”，“删除”，“历史”，“编程”，“是”和“不是”；以及预定义数量的一些常用姓名，例如同事，朋友或家庭成员。一旦完成了训练，用户能在识别阶段，通过对念所训练的关键词来开始拨打，VR装置通过将所说的发音与先前训练的发音(储存为模板)进行比较来识别关键词，并取出最佳的匹配。例如，如果姓名“约翰”是训练过的姓名之一，通过对说出“呼叫约翰”的词组，用户能给约翰打电话。VR系统能识别单词“呼叫”和“约翰”，并将拨出用户先前已经键入作为约翰的电话号码的数字。

训练的系统和方法

说话者独立型语音识别VR装置还使用训练模板，该模板含有预定大小的预记录的词汇表(例如，某些控制字，零到九的数字，和“是”及“不是”)。必需记录念词汇表中的每个单词的大量的人(例如100个人)。

不同的说话者独立型VR装置可以产生不同结果。例如，说话者独立型(SI)的隐马尔可夫模型(HMM)引擎可以与说话者独立型动态时间偏差(DTW)引擎产生不同的结果。将这两种引擎的结果组合在一起成为一种新的系统，该系统比只使用一种引擎结果具有更好的识别精确度和较低的拒绝率。

说话者依赖型VR和说话者独立型VR可以产生不同的结果。说话者依赖型引擎使用适合于特定用户的模板进行识别。说话者独立型引擎使用采集自众多用户范例的模板进行识别。因为特定说话者模板较接近给定用户的说话风格，SD引擎能比SI引擎提供更高的精确度。然而，SI引擎也有其优点：在使用该系统前，用户不需要经过“训练过程”。

需要一种将两种不同类型的引擎组合在一起的系统和方法。组合的多种引擎将增强精确度，并可在输入话音信号中使用更大量的信息。在美国专利申请号09/618177的专利申请中描述了一种组合多种VR引擎的系统和方法，其题为“Combined Engine System and Method for Voice Recognition”，2000年7月18日提交，它已转让给本发明受让人，通过引用完全在这里合并。

判决逻辑VR系统能使用试探逻辑来设计判决规则。判决逻辑一般以测试发音和每个引擎的顶端候选(单词)模板间的测量距离开始。例如，假定使用两种引擎(引擎D和H)。让d₁和d₂表示测试发音和引擎D的顶端两个候选词之间的距离，而h₁和h₂表示测试发音和引擎H的顶端两个候选词之间的距离。让d_g和h_g分别表示测试发音和引擎D及H中的“无用信息”模板之间的距离，无用信息模板用于表示不在词汇内的所有单词。判决逻辑包括这些所测距离的比较序列和一组预定义的阈值。然而，因为不可能系统地进行优化，这些比较规则和阈值需要在误差试探基础上，部分地进行综合和调整。这是一种耗时的和困难的处理过程。另外，试探规则可以随应用而定。例如，如果每个引擎使用顶端的三个单词而不是顶端的两个单词，就需要综合一组新的规则。这组用于识别无噪声话音的规则可能是不同于识别噪声话音的规则。

这样，需要一种能解决来自多种不同VR引擎的不同结果的系统和方法。

概述

所描述的实施例针对一种语音识别的系统和方法。在一个实施例中，提供能组合多个语音识别引擎以改善语音识别性能的一种方法。该方法有利地包括将多个语音识别引擎连接到映射模块。每个VR引擎产生一种假设，即候选词，然后，映射模块应用映射函数，从由多个VR引擎产生的几种假设中选择一种假设。

在一个实施例中，组合了说话者独立型语音识别引擎。在另一个实施例中，组合了说话者依赖型语音识别引擎。还在另一个实施例中，将说话者独立型语音识别引擎和说话者依赖型语音识别引擎组合在一起。

在一个实施例中，说话者独立型语音识别引擎是动态时间偏差语音识别引擎。在一个实施例中，说话者独立型语音识别引擎是隐马尔可夫模型。在一个实施例中，说话者依赖型语音识别引擎是动态时间偏差语音识别引擎。在一个实施例中，说话者依赖型语音识别引擎是隐马尔可夫模型。

附图简述

从以下将要进行的详细描述，并结合附图，本发明的特征和优点将会更清楚，附图中相同参考符标识相应的部分，其中：

图1示出具有三种类型语音识别引擎的一种语音识别系统的实施例；

图2示出含有DTW引擎和HMM引擎的一种语音识别系统；及

图3示出具有两个语音识别引擎的语音识别系统的实施例。

详细描述

在一个实施例中，如图1所示的语音识别系统100有三种类型的能执行分离的单词识别任务的语音识别引擎：动态时间偏差说话者独立型(DTW-SI)引擎104，动态时间偏差说话者依赖型(DTW-SD)引擎106，和隐马尔可夫模型(HWM)引擎108。这些引擎用于命令词的识别和数字识别，以给手提装置(例如，移动电话，个人数据助理(PDA)等)执行一般任务提供丰富的语音用户接口。在另一个实施例中，语音识别系统100包括DTW-SI 104和DTW-SD引擎106。还在另一个实施例中，语音识别系统100包括DTW-SI引擎104和HMM引擎108。还在另一个实施例中，语音识别系统100包括DTW-SD引擎106和HMM引擎108。在一个实施例中，HMM引擎108是说话者独立型。在另一个实施例中，HMM引擎108是说话者依赖型。本领域技术人员应当明白，可以使用本领域已知的任何VR引擎。还在另一个实施例中，可把许多其他类型的VR引擎组合在一起。本领域技术人员应当明白，可在任一个组合中配置这些引擎。

按照如图1所示的本发明的一个实施例，语音识别系统100包括模/数变换器(A/D)102，DTW-SI引擎104，DTW-SD引擎106，和HMM引擎108。在一个实施例中，A/D 102是硬件A/D。在另一个实施例中，A/D 102是用软件实现。在一个实施例中，将A/D 102和引擎104，106，108实现成一个装置。本领域技术人员应当明白，可在任何数量的装置中实现和配置A/D 102和引擎104，106，108。

把A/D 102耦合到DTW-SI引擎104，DTW-SD引擎106和HMM引擎108。DTW-SI引擎104，DTW-SD引擎106和HMM引擎108耦合到映射模块110。映射模块将引擎104，106，108的输出取作为输入，并产生相应于话音信号s(t)的单词。

语音识别系统100可驻留在例如无线电话或免提车载系统中。用户(未示出)说单词或词组，产生话音信号。用传统的传感器(未示出)，将话音信号转换成电话音信号s(t)。该话音信号s(t)提供给A/D 102，按照已知的采样方法，例如，脉冲编码调制(PCM)，A-律，或μ-律，它将话音信号转换成数字化话音采样信号。在一个实施例中，典型地，每秒有N次16比特话音采样。这样，N＝8000就是8000Hz的采样频率，而N＝16000就是16000Hz的采样频率。

话音采样信号提供给DTW-SI引擎104，DTW-SD引擎106和HMM引擎108。每个引擎处理话音采样信号，并产生假设，即，话音信号s(t)的候选词。然后，映射模块将候选词映射到判决空间，它进行评价，以选择能最佳地反映话音信号s(t)的候选词。

在一个实施例中，语音识别系统包括两个如图2所示的VR引擎。语音识别系统100包括DTW引擎112和HMM引擎114。在一个实施例中，DTW引擎是说话者独立型VR引擎。在另一个实施例中，DTW引擎是说话者依赖型VR引擎。在一个实施例中，HMM引擎是说话者独立型VR引擎。在另一个实施例中，HMM引擎是说话者依赖型VR引擎。

在这些实施例中，系统具有两种DTW和HMM引擎的优点。在一个实施例中，在训练阶段中明确建立DTW和HMM模板，在该阶段中，训练语音识别系统，以能够识别输入的话音信号。在另一个实施例中，在语音识别系统的一般使用期间隐含地建立DTW和HMM模板。在美国专利申请号09/248513和美国专利申请号09/225891的专利申请中描述了示范的训练系统和方法，其分别题为“VOICERECOGNITION REJECTION SCHEME”(1999年2月8日提交，它已转让给本发明的受让人，通过引用完全合并在这里)“SYSTEM AND METHOD FOR SEGMENTATION ANDRECOGNITION OF SPEECH SIGNALS”(1999年1月4日提交，它已转让给本发明的受让人，通过引用完全合并在这里)。

语音识别系统所有词汇表单词的一组模板都以任何非易失存储介质的传统格式储存，例如，快闪存储器。当语音识别系统的电源关闭时，这能让模板储存在存储介质中。在一个实施例中，用说话者独立型模板建立系统构成这组模板。在一个实施例中，在VR引擎词汇表中含有命令词。

DTW技术在本领域是已知的，并在Lawrence Rabiner和Biing-Hwang Juang编著的，语音识别的基本原理，(1993年)200-238页中作了描述，它通过引用完全合并在这里。按照DTW技术，通过绘制相对于储存在模板数据库中的每一发音时序的待测试发音时序形成一种格子结构。然后将待测试发音与模板数据库中的每一发音逐点(例如每10毫秒)进行比较，每次一个发音。对于模板数据库内的每一发音，及时地对待测试的发音进行调整或“变形”，在特定点进行压缩或扩展，直到与模板数据库中的发音达到最接近的可能匹配为止。及时地在每个点进行两个发音的比较，并在那个点(零开销)宣布匹配，或宣布未匹配。在特定点没有匹配的情况下，对待测试的发音进行压缩，扩展，或必需时，进行错配。该处理一直进行到这两个发音互相比较完成为止。可能要对大量的发音(一般为数千个)进行不同地调整。选择具有最低开销函数(即所需的最小压缩和/或扩展和/或错配的次数)的调整发音。在与Viterbi解码算法相似方式中，有利地是通过模板数据库发音中的每点开始向后搜索，进行选择，以确定具有最低总开销的路径。这允许以最低的开销(即，最接近的匹配)调整待确定的发音，而不需要采用“强制”方法，产生不同调整的发音的每个可能的发音。然后对模板数据库中所有发音的最低开销调整的发音进行比较，并选择具有最低开销的一个作为与测试发音最匹配的储存发音。

虽然，DTW引擎104中的DTW匹配方案与HMM引擎108中的Viterbi解码相似，但DTW和HMM引擎应用不同的前端方案，即，特征提取器，以给匹配阶段提供特征向量。因此，DTW和HMM引擎的误差模式完全不同。具有组合引擎的语音识别系统利用了误差模式中的差别。通过适当地将两个引擎的结果相组合，可以达到更高的总体识别精度。更重要地，可以为所希望精度达到更低的拒绝率。

在一个实施例中，可以将工作于相同词汇表集的说话者独立型语音识别引擎组合在一起。在另一个实施例中，可以将说话者依赖型语音识别引擎组合在一起。还在另一个实施例中，说话者独立型语音识别引擎可与说话者依赖型语音识别引擎组合，这两个引擎都工作于相同的词汇表集。还在另一个实施例中，说话者独立型语音识别引擎可与说话者依赖型语音识别引擎组合，这两个引擎工作于不同的词汇表集。

每个引擎产生有关词汇表中所说单词的输出。每个输出包括所输入信号的候选词。拒绝与所输入信号不相对应的词。在美国专利申请号09/248513中描述了示范性拒绝方案，通过引用完全在这里合并。

对于嵌入式系统，难以进行精确的语音识别，部分地因为有限的计算资源。为了增加系统的精度，要用多个识别引擎实现语音识别。然而，不同的VR引擎，可以产生不同的结果。例如，一个引擎可能选择“简”和“乔”作为顶端的两个候选词，而另一个VR引擎可能选择“朱莉”和“乔”作为顶端的两个候选词。需要解决这些不同的结果。必须给出一个答案，即需要选择一个候选词。VR系统必须依据待函数化的多个引擎的这些候选词做出判决。

在一个实施例中，有X(X＝2，3，…)个引擎组合在一起，每个引擎产生Y(Y＝1，2，…)个候选词。因此，有X*Y个候选词输出，这些候选词中，只有一个是正确的答案。在另一个实施例中，每个引擎可以产生不同数目的候选词。

在具有两个引擎D和H的实施例中，d₁和d₂表示测试发音和引擎D的顶端两个候选词之间的距离，而h₁和h₂表示测试发音和引擎H的顶端两个候选词之间的距离。变量d_g和h_g分别表示测试发音和引擎D及H中的“无用信息”模板间的距离。无用信息模板用于表示不在词汇表内的所有单词。

在一个实施例中，依据从测量空间(d₁，d₂，…d_g和h₁，h₂，…h_g)到判决空间(接受/拒绝测试发音作为列表中的一个单词)的映射，从VR引擎产生的候选中做出选择候选的判决。在一个实施例中，映射是线性映射。在另一个实施例中，映射是非线性映射。

按照一个实施例，图3示出由具有基于DTW的VR引擎和基于HMM的VR引擎的装置执行的方法步骤的流程图。在步骤200，获得测试发音T_u。一旦获得测试发音T_u，在步骤202，对测试发音T_u进行DTW语音识别分析，并在步骤204对测试发音T_u进行HMM语音识别分析。在步骤206，获得一组DTW候选词D_i。在步骤208获得一组HMM的候选词H_i。在步骤210，将线性映射函数施加到每个DTW的候选词D_i和每个HMM的候选词H_i。在步骤212，基于线性映射结果识别候选词。在步骤212，选择具有最小映射函数值的候选词作为识别词W(T_u)。在步骤214，将该识别词W(T_u)的映射函数值与阈值进行比较。如果该识别词W(T_u)的映射函数值小于阈值，在步骤216中拒绝该识别词。如果该识别词W(T_u)的映射函数值大于阈值，在步骤218中接受该识别词。

是测试发音T_u200和词汇表内单词W_j之间的距离，j＝1，2，…，N。W_j是一组候选词，其中，下标j是组号，而N是组数。每组有许多个候选词，编号为正整数。下标i是VR引擎号。

每个VR引擎也可产生测试发音T_u和词汇表外单词模板W_g之间的距离D_g。词汇表内单词在VR引擎词汇表内。词汇表外的单词不在VR引擎词汇表内。

如果映射函数的结果大于阈值，该评价的候选词有效，并接受该输入。否则，拒绝该输入。

表1示出在具有DTW引擎和HMM引擎的实施例中的距离矩阵，其中，每个引擎顶端两个词选作为候选组。D₁和D₂是来自DTW VR引擎的顶端两个词的距离，而H₁和H₂是来自HMM VR引擎的顶端两个词的距离。

在具有两个VR引擎的实施例中，一个VR引擎产生X个距离，另一个引擎产生Y个距离，就产生总共X*Y个候选词。

只可在候选组中识别一个单词，并做出一个判决，确定是否接受/拒绝该识别。在一个实施例中，线性映射函数用于从候选组中选择单词，又用于做出接受或拒绝的判决。

每组候选词，W_i，i＝1，2，3，4，具有它相应的测量向量，如表1所示。

表1

W₁： D_g H_g

W₂： D_g

H_g

W₃： D_g H_g

W₄： D_g H_g

D表示DTW引擎。H表示HMM引擎。是T_u和W_i之间的距离。

是除W_i外的第二个最佳候选词的距离。D_g表示T_u和无用信息模板间的距离。

Hg分别表示有关DTW引擎的相同数量。

线性映射函数的格式如下：

M_{i} (D, H) = C_{0} + c_{1} D_{1}^{W_{i}} + c_{2} D_{2}^{W_{i}} + c_{3} D_{g} + c_{4} H_{1}^{W_{i}} + c_{5} H_{2}^{W_{i}} + c_{n} H_{g}

其中c_i(i＝0，1，…，n)在一个实施例中是实常数，并在另一个实施例中是话音参数。下标i的上限是n。上限n等于语音识别系统中的VR引擎个数加上每个VR引擎候选词数目的和。在具有两个VR引擎和每个VR引擎有两个候选词的实施例中，n＝6。n的计算如下所示：

两个VR引擎 2

第一个引擎的两个候选词 +2

第二个引擎的两个候选词 +2

——

n＝6

单词识别和判决和接受的判决规则如下：

1.使Mi(D，H)达到最大的单词选作为待识别的单词；及

2.当Mi(D，H)＞0时，接受该识别，而当Mi(D，H)≤0时，拒绝该识别。

能客观地构成映射函数或将该映射函数训练成使误接受/拒绝误差达到最小。在一个实施例中，常数c_i(i＝0，1，…，n)是从训练中获得。在训练过程中，已知每个测试样本的标识。将一个词的测量向量(在W₁，W₂，W₃，和W₄中)标为正确(+1)，并将其余的标为不正确(-1)。为了使误分类数达到最小，由训练确定系数向量c＝c_i(i＝0，1，…，n)的值。

向量b是表明每个训练向量正确/不正确性质的向量，而W是测量矩阵，其中，每一行是一个测量向量

D_{1}^{W_{i}}, D_{2}^{W_{i}}, D_{g}, H_{1}^{W_{i}}, H_{2}^{W_{i}},

H_g，(i＝1，…，4)。在一个实施例中，通过计算W的伪逆获得系数向量c：

c＝(W^TW)^-1W^Tb

该过程使均方误差(MSE)达到最小。在另一个实施例中，使用高级误差最小化过程，例如最小化总误差计数，以求解系数向量c。本领域技术人员也应当明白，可使用本领域已知的其他误差最小化过程来求解系数向量c。

映射函数方法同样地应用于多个(＞2)引擎和多个(＞2)候选词。当有L个VR引擎及每个引擎产生N个候选词时，所产生的映射函数具有下列形式：

Mi (c, V) = C_{0} + Σ_{l = 1}^{L} Σ_{k = 1}^{N} c_{k}^{l} V {(l)}_{k}^{w_{i}}

C₀是阈值常数。c_k ^l是VR引擎l的第k个映射常数。

是来自VR引擎l的候选词W_i的第k个距离。

在一个实施例中，映射函数是非线性的。在映射函数而不是系数中使用一个或多个变量/参数。在一个实施例中，用在映射函数中的一个或多个变量/参数是来自VR引擎的话音参数。本领域技术人员应当明白：一个或多外变量/参数可以是取自话音信号s(t)的测量或处理过程中的话音参数。

这样，已经描述了组合语音识别引擎的新颖和改进的方法和装置。本领域技术人员应当理解：可以将联系这里揭示的实施例描述的各种说明性逻辑块，模块，和映射实现成电子硬件，计算机软件，或两者的组合。一般按照它们的功能描述了各种说明性元件，块，模块，电路和步骤。不管将功能实现成硬件，还是实现成软件，都取决于特定的应用和施加于整个系统的设计约束。熟练的技术人员认识到在这些情况下硬件和软件的互换性，并知道怎样最好地为每个特定应用实现的所描述的功能。作为例子，联系这里所揭示的实施例描述的各种说明性逻辑块，模块和映射可以用下列的器件来实行或执行：能执行一组硬件指令的处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其他可编程逻辑器件，离散门电路或晶体管逻辑，离散硬件元件，例如寄存器，任何传统可编程软件模块和处理器，或设计成能执行这里所述功能的任何组合装置。可以有利地在微处理器内执行A/D 102，VR引擎，和映射模块110，但在替代中，可以在任何传统的处理器，控制器，微控制器或状态机中执行A/D 102，VR引擎，和映射模块110。模板可以驻留在RAM存储器，快闪存储器，ROM存储器，EPROM存储器，EEPROM存储器，寄存器，硬盘，可卸磁盘，CD-ROM，或本领域已知的任何其他格式的存储介质。存储器(未示出)可集成到任何上述的处理器(未示出)。处理器(未示出)和存储器(未示出)可驻留于ASIC(未示出)中。ASIC可以驻留在电话机内。

以上提供本发明实施例的描述，使任何本领域技术人员能采用和使用本发明。对于本领域技术人员极易明白对这些实施例的各种修改，并且不需要使用创造才能就将这里描述的原理应用到其他实施例中。因而，不希望本发明受这里所示实施例的限制，而是应符合与这里揭示的原理和新颖特点相一致的最广泛的范围、。

Claims

1.一种语音识别系统，包括：

多个语音识别(VR)引擎，每个语音识别引擎配置成能产生候选词；及

映射模块，配置成能从多个VR引擎取得候选词作为输入，并依据映射函数选择候选词。

2、按权利要求1所述的语音识别系统，其特征在于，所述多个语音识别引擎包括说话者独立型语音识别引擎。

3、按权利要求1所述的语音识别系统，其特征在于，所述多个语音识别引擎包括说话者依赖型语音识别引擎。

4、按权利要求2所述的语音识别系统，其特征在于，所述多个语音识别引擎包括说话者依赖型语音识别引擎。

5、按权利要求4所述的语音识别系统，其特征在于，至少一个说话者独立型语音识别引擎是动态时间偏差语音识别引擎。

6、按权利要求4所述的语音识别系统，其特征在于，至少一个说话者独立型语音识别引擎是隐马尔可夫模型语音识别引擎。

7、按权利要求4所述的语音识别系统，其特征在于，至少一个说话者依赖型语音识别引擎是动态时间偏差语音识别引擎。

8、按权利要求4所述的语音识别系统，其特征在于，至少一个说话者依赖型语音识别引擎是隐马尔可夫模型语音识别引擎。

9、按权利要求1所述的语音识别系统，其特征在于，所述映射函数将候选词从测量空间线性映射到判决空间。

10、按权利要求1所述的语音识别系统，其特征在于，所述映射函数将候选词从测量空间非线性映射到判决空间。

11、按权利要求1所述的语音识别系统，其特征在于，所述候选词由候选词模板和发音的距离表示。

12、按权利要求11所述的语音识别系统，其特征在于，所述映射模块将来自每个VR引擎的每个距离乘以一系数，并将乘积与另一系数C₀相加，由此求得一和。

13、按权利要求12所述的语音识别系统，其特征在于，依据和选择候选词。

14、按权利要求1所述的语音识别系统，其特征在于，所述映射函数是：

M_{i} (F, S) = C_{0} + c_{1} F_{1}^{W_{i}} + c_{2} F_{2}^{W_{i}} + c_{3} F_{g} + c_{4} S_{1}^{W_{i}} + c_{5} S_{2}^{W_{i}} + c_{n} S_{g}

其中F是第一个语音识别引擎，S是第二个语音识别引擎，

是发音T_u和候选词W_i间的差异，是除W_i之外的第二最佳候选词的距离，D_g表示T_u和无用信息模板间的距离，是发音T_u和W_i间的距离，是除W_i之外的第二最佳候选词的距离，S_g表示T_u和无用信息模板间的距离，而c_i(i＝0，1，…，n)是一系数，并且上限n等于VR引擎个数加上每个VR引擎的候选词和的总和。

15、按权利要求14所述的语音识别系统，其特征在于，所述系数是一实常数。

16、按权利要求14所述的语音识别系统，其特征在于，所述系数是一话音参数。

17、按权利要求1所述的语音识别系统，其特征在于，所述映射函数是：

Mi (c, V) = C_{0} + Σ_{l = 1}^{L} Σ_{k = 1}^{N} c_{k}^{l} {V (l)}_{k}^{w_{i}}

其中C₀是阈值常数，c_k ^l是VR引擎l的第k个映射常数，而

是来自VR引擎l的候选词W_i的第k个距离。

18、一种语音识别的方法，包括：

获得至少一个测试发音的候选词；及

依据映射函数，从所述至少一个候选词中选择识别的词。

19、按权利要求18所述的方法，其特征在于，所述映射函数将所述至少一个候选词从测试空间线性映射到判决空间。

20、按权利要求18所述的方法，其特征在于，所述映射函数将所述至少一个候选词从测试空间非线性映射到判决空间。

21、按权利要求18所述的方法，其特征在于，所述候选词由候选词模板和测试发音间的距离表示。

22、按权利要求21所述的方法，其特征在于，所述映射函数将每个距离乘以一系数，并再将该乘积与另一系数C₀相加，由此求得一和。

23、按权利要求22所述的方法，其特征在于，依据和选择一识别词。

24、按权利要求18所述的方法，其特征在于，所述映射函数是：

M_{i} (F, S) = C_{0} + c_{1} F_{1}^{W_{i}} + c_{2} F_{2}^{W_{i}} + c_{3} F_{g} + c_{4} S_{1}^{W_{i}} + c_{5} S_{2}^{W_{i}} + c_{n} S_{g}

其中F是第一个语音识别引擎，S是第二个语音识别引擎，是发音T_u和候选词W_i间的差异，

是除W_i之外的第二最佳候选词的距离，D_g表示T_u和无用信息模板间的距离，是发音T_u和W_i间的距离，是除W_i之外的第二最佳候选词的距离，S_g表示T_u和无用信息模板间的距离，而c_i(i＝0，1，…，n)是一系数，并且上限n等于VR引擎个数加上每个VR引擎的候选词和的总和。

25、按权利要求24所述的方法，其特征在于，所述系数是一实常数。

26、按权利要求24所述的方法，其特征在于，所述系数是一话音参数。

27、按权利要求18所述的方法，其特征在于，所述映射函数是：

Mi (c, V) = C_{0} + Σ_{l = 1}^{L} Σ_{k = 1}^{N} c_{k}^{l} V {(l)}_{k}^{w_{i}}

其中C₀是阈值常数，c_k ^l是VR引擎l的第k个映射常数，而

是来自VR引擎l的候选词W_i的第k个距离。

28、一种语音识别的方法，包括：

获得测试发音；

分析测试发音；

依据所述测试发音的分析，为测试发音选择至少一个候选词；

将映射函数应用到所述至少一个候选词；

依据所述至少一个候选词的映射函数值，从所述至少一个候选词中选择候选词；及

将所选择候选词的映射函数值与阈值进行比较。

29、按权利要求28所述的方法，进一步包括依据所述比较，接受所选择候选词。

30、按权利要求28所述的方法，进一步包括依据所述比较，拒绝所选择候选词。

31、一种语音识别的方法，其特征在于，包括：

依据数字化发音产生多个候选词，所述产生是利用多种不同的语音识别技术；及

将映射函数应用到所述多个候选词，以选择一识别词。

32、按权利要求32所述的方法，进一步包括依据阈值和所识别词的映射函数值的比较结果，拒绝所识别词。

33、按权利要求32所述的方法，进一步包括依据阈值和所识别词的映射函数值的比较结果，接受所识别词。