CN1441947A

CN1441947A - 用于与说话者无关的话音识别系统的构造话音模板的方法和设备

Info

Publication number: CN1441947A
Application number: CN01812771A
Authority: CN
Inventors: 毕宁
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-07-13
Filing date: 2001-07-11
Publication date: 2003-09-10
Anticipated expiration: 2021-07-11
Also published as: DE60124551T2; EP1301919A2; KR20030014332A; WO2002007145A2; ES2275700T3; HK1056427A1; US6735563B1; CN1205601C; ATE345562T1; EP1301919B1; TW514867B; WO2002007145A3; AU2001273410A1; DE60124551D1; JP4202124B2; BR0112405A; KR100766761B1; JP2004504641A

Abstract

一种用于构造与说话者无关的话音识别系统的话音模板的方法和设备，包括对一训练话语进行分段，以产生时间群集的分段，各分段由一均值表示。对一给定单词的所有话语的均值进行量化，以产生模板矢量。把各模板矢量与测试话语相比较，以产生比较结果。所述比较一般是动态时间翘曲计算。如果比较结果超过至少一个预定阈值，则将训练话语与模板矢量相匹配，以产生最优路径结果，并且根据所述最优路径结果划分所述训练话语。所述划分一般是K均值分段计算。然后可对经划分的话语进行再量化，并与测试话语进行再比较，直到不超过至少一个预定阈值为止。

Description

用于与说话者无关的话音识别系统的构造话音模板的方法和设备

发明背景

一、发明领域

本发明一般涉及通信领域，尤其涉及用于与说话者无关的话音识别系统的话音模板。

二、背景

话音识别(VR)是使机器具有模拟智能以识别用户或用户话音命令并便于人类与机器接口的最重要的技术之一。VR还是用于人类语音理解的关键技术。使用从声音语音信号中恢复语言消息的技术的系统被称为话音识别器。这里使用的术语“话音识别器”一般指任何口头用户接口使能设备。话音识别器一般包括声处理器和单词解码器。声处理器析取一序列信息承载特征或矢量，它们对于实现进入的原始语音的VR是必要的。单词解码器解码特征序列或矢量，以产生诸如对应于输入话语的一序列语言文字之类的有意思的和所希望的输出格式。

声处理器是话音识别器中的前端语音分析子系统。响应于输入语音信号，声处理器提供适当的表示，以表征时变语音信号。声处理器应删除诸如背景噪声、信道失真、说话者特性以及说话方式之类的无关信息。有效的声处理向话音识别器提供增强的声识别能力。为此，要分析的有用的特征是短时谱包络。通常用于表征短时谱包络的两种谱分析技术是线性预测编码(LPC)和基于滤波器组的谱建模。在美国专利号5,414,796中(该专利转让给本发明的受让人，并通过引用而充分结合于此)以及同样通过引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital processing of Speech Signals”(第396页至第453页)(1978年)中描述了示例性LPC技术。

出于安全原因，对于VR(通常也称为话音识别)的使用正变得日益重要。例如，VR可用于替代在无线电话机键盘上按压按钮的手动作业。当用户在驾驶小汽车的同时始发一电话呼叫时，这是尤其重要的。当使用一不带有VR的电话机时，驾驶员必须从方向盘移开一只手，并在按压按钮以拨打呼叫的同时看电话机键盘。这些行为增加了小汽车事故的可能性。语音使能的电话机(即为语音识别而设计的电话机)将允许驾驶员在发出电话呼叫的同时继续观察道路。并且一种免提小汽车套件系统将额外地允许驾驶员能够在呼叫始发期间将双手保持在方向盘上。

语音识别设备被分类成与说话者有关的或与说话者无关的设备。把与说话者有关的设备(这是较普通的)训练成识别某些特定用户的命令。相反，与说话者无关的设备能够接受任何用户的话音命令。为了增加给定的VR系统的性能，不管是与说话者有关还是与说话者无关，都要求训练以使系统配备有效的参数。换句话说，在最优地起作用之前，系统需要学习。

与说话者有关的VR设备一般工作于两个阶段中，一训练阶段和一识别阶段。在训练阶段中，VR系统提示用户一次或两次地(一般两次)说出系统词汇表中的各个单词，使得系统能够从这些特定单词或短语中获悉用户的语音的特征。一示例性的免提小汽车套件的单词表可包括键盘上的数字；关键词“呼叫”、“发送”、“拨打”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”以及“否”；以及预定数量的通常称为同事、朋友或家人的名字。一旦完成了训练，用户就能够通过说受训的关键词来在识别阶段中始发呼叫，VR设备通过把口头话语与先前训练的话语(存储为模板)相比较并采用最佳的匹配来识别所述关键词。例如，如果姓名“约翰”是受训姓名之一，则用户可通过说出短语“呼叫约翰”来始发对约翰的呼叫。VR系统将识别单词“呼叫”和“约翰”，并将拨打用户早已输入作为约翰的电话号码的号码。

与说话者无关的VR设备也使用训练模板，它包括预定大小的预先记录的单词表(如某些控制词、数0至9以及是和否)。必须对大量用户(如100个)说出该单词表中的各个单词进行记录。

通常，通过将包含由第1组说话者(如100个说话者)说的单词的测试数据库与包含由第2组说话者(与第1组一样多)说的相同的单词的训练数据库相比较，来构造与说话者无关的VR模板。一般把由一个用户说出的一个单词称为一个话语。在对与测试数据库的话语的收敛进行测试之前，首先把训练数据库的各话语时间归一化并然后量化(一般根据已知技术量化的矢量)。然而，时间归一化技术依赖于仅从具有与先前帧最大差异的个别帧(话语的周期性片段)中获得的信息。提供一种用于建立与说话者无关的VR模板的方法，所述VR模板使用一给定话语中的更多的信息，这将是有利的。还将进一步希望增加常规技术的精确性或收敛，用于根据话语的类型建立与说话者无关的VR模板。从而，存在对于一种构造与说话者无关的语音识别模板的方法的需要，该方法提供增强的精确性并使用话语中的更多量的信息。

发明概述

本发明针对一种构造与说话者无关的语音识别模板的方法，该方法提供增强的精确性并使用话语中的更多量的信息。因此，在本发明的一个方面中，提供了一种建立语音模板，以用于与说话者无关的语音识别系统的方法。该方法有利地包括对第1组多个话语的各话语进行分段，以对各话语生成多个时间群集段，各时间群集段由一谱均值表示；对所有的所述第1组多个话语的多个谱均值进行量化，以生成多个模板矢量；把所述多个模板矢量的每一个与第2组多个话语相比较，以产生至少一个比较结果；如果所述至少一个比较结果超过至少一个预定阈值，则将所述第1组多个话语与所述多个模板矢量相匹配，以产生最优匹配路径结果；根据所述最优匹配路径结果，在时间上划分所述第1组多个话语；以及重复所述量化、比较、匹配和划分，直到至少一个比较结果不超过任一至少一个预定阈值为止。

附图简述

图1是用于构造和实现与说话者无关的话音识别的话音模板的系统框图。

图2是可用于图1的系统中的话音识别子系统的框图。

图3是说明由诸如图2的子系统之类的话音识别子系统执行的用于识别输入语音采样的方法步骤的流程图。

图4是可用于图1的系统中的模板构建子系统的框图。

图5是可用于图1的系统中的模板构建子系统的框图。

图6是说明由诸如图4的子系统或图5的子系统之类的模板构建子系统执行的用于构造话音模板的方法步骤的流程图。

较佳实施例的详细描述

根据一个实施例，如图1所示，用于构造和实现与说话者无关的话音识别的话音模板的系统10包括与说话者无关的模板构建子系统12以及语音识别子系统14。与说话者无关的模板构建子系统12耦合至语音识别子系统14。

如下参考图4-6所述，使用与说话者无关的模板构建子系统12构造与说话者无关的话音模板。把模板提供给语音识别子系统14，用于如下参考图2-3所述的那样识别来自用户的输入语音。

根据一个实施例，如图2所示，语音识别子系统100包括模数转换器(A/D)102、前端声处理器104、特征提取器106、语音模板数据库108、模型比较逻辑110以及判决逻辑112。在某一实施例中，声处理器104和特征提取器106由一个设备实现，如参数提取器。在一个实施例中，声处理器104包括频率分析模块114。在一个实施例中，特征提取器106包括端点检测器116、时间群集语音分段模块118以及语音电平规范器。

A/D102耦合至声处理器104。声处理器104耦合至特征提取器106。在一个实施例中，在特征提取器106之内，端点检测器116耦合至时间群集语音分段模块118，后者耦合至幅度量化器120。特征提取器106耦合至模型比较逻辑110。模型比较逻辑110耦合至模板数据库108和判决逻辑112。

语音识别子系统100可驻留于例如无线电话机或免提小汽车套件之中。用户(未示出)说出一个单词或短语，生成一语音信号。用常规变换器(未示出)把该语音信号转换成电语音信号s(t)。把该语音信号s(t)提供至A/D102，后者按照已知的采样方法将该语音信号转换成数字化的语音信号s(n)，所述已知采样方法诸如脉冲编码调制(PCM)、A律或μ律。

把语音采样s(n)提供给声处理器104，用于参数确定。声处理器104产生一组参数，该组参数对所述输入语音信号s(t)的特征进行建模。可按照若干已知语音参数确定技术中的任一种来确定参数，所述已知语音参数确定技术例如上述美国专利号5,414,796以及Lawrence Rabiner和Biing-HwangJuang的“Fundamentals of Speech Recognition”(1993)中所述的语音编码器编码、基于离散傅里叶变换(DFT)的倒谱系数(如基于快速傅里叶变换(FFT)的倒谱系数)、线性预测系数(LPC)或Bark比例分析。参数组最好是基于帧的(分段成周期性的帧)。可把声处理器104实现为数字信号处理(DSP)。DSP可包括语音编码器。作为替代，可把声处理器104实现为语音编码器。

把参数的各个帧提供给特征提取器106。在特征提取器106中，端点检测器116使用提取的参数来检测话语(即一个单词)的端点。在一个实施例中，有利地按照转让给本发明的受让人并通过引用而充分结合于此的1999年2月8日提交的题为“METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECHIN THE PRESENCE OF NOISE”的美国专利申请序列号09/246,414中描述的技术来进行所述端点检测。按照该技术，把所述话语与诸如信噪比(SNR)阈值之类的第1阈值相比较，以确定该话语的第1起始点和第1结束点。然后把在所述第1起始点之前的话语部分与第2SNR阈值相比较，以确定该话语的第2起始点。然后把在所述第1结束点之后的话语部分与第2SNR阈值相比较，以确定该话语的第2结束点。最好周期性地重新计算所述第1和第2SNR阈值，并且第1SNR阈值最好超过第2SNR阈值。

把所检测的话语的频域参数帧提供给时间群集语音分段模块118，根据一个实施例，后者实现了转让给本发明的受让人并通过引用而充分结合于此1999年1月4日提交的题为“SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITIONOF SPEECH SIGNALS”的美国申请序列号09/225,891中描述的一种压缩技术。按照该技术，频域参数中的各个语音帧由与该语音帧相关联的至少一个谱值表示。然后对各对相邻的帧确定谱差值。谱差值表示与一对中的两个帧相关联的谱值之间的差。在各对相邻帧之间设置初始群集边界，在参数中建立群集，并向各群集分配一方差值。该方差值最好等于所确定的谱差值之一。然后计算多个群集合并参数，各群集合并参数与一对相邻群集相关联。从所述多个群集合并参数中选择最小的群集合并参数。然后通过取消与所述最小群集合并参数相关联的群集之间的边界，来形成合并的群集，并向合并的群集分配一合并的方差值。所述合并的方差值表示分配给与最小群集合并参数相关联的方差值。最好重复该过程，以便形成多个合并的群集，并且最好根据多个合并的群集形成分段的语音信号。

本领域的技术人员将理解到可用诸如时间归一化模块之类的其它设备来代替时间群集分段模块118。然而，将本领域的技术人员也将理解，由于时间群集语音分段模块118把与前一帧相比具有最小差值的帧合并成群集，并使用中平均来代替个别帧，时间群集语音分段模块118使用经处理的话语中的更多的信息。还将理解，时间群集语音分段模块118最好连同模型比较逻辑110一起使用，后者采用本领域中已知的以及下述的动态时间翘曲(DTW)模型。

把群集均值提供到语音电平规范器120。在一个实施例中，语音电平规范器120通过向各群集均值分配每信道两比特(即每频率两比特)来量化语音幅度。在提取倒谱系数的另一实施例中，如技术人员所理解的那样，不使用语音电平规范器120来量化群集均值。特征提取器106把由语音电平规范器120生成的输出提供给模型比较逻辑110。

语音识别子系统100的所有词汇表单词的一组模板永久地存储于模板数据库108之中。该组模板最好是一组与说话者无关的模板，由下述的与说话者无关的模板构建子系统构造。最好把模板数据库108实现为任何常规形式的非易失性存储媒体，如闪存存储器。这允许当关断对语音识别子系统100的供电时使模板保留于模板数据库108中。

模型比较逻辑110把来自特征提取器106的矢量与存储于模板数据库108中的所有模板相比较。所述矢量与存储于模板数据库108之中的所有模板之间的比较结果或间距提供给判决逻辑112。判决逻辑112从模板数据库112中选择最接近地匹配所述矢量的模板。作为替代，判决逻辑112可使用常规“N最佳”选择算法，该算法在预定匹配阈值之内选择N个最接近的匹配。然后，向用户询问关于哪个选择是所想要的。判决逻辑112的输出是关于说出了词汇表中的哪个单词的判决。

在一个实施例中，模型比较逻辑110和判决逻辑112使用DTW技术进行收敛测试。DTW技术是已知的，并且描述于通过引用而充分结合于此的LawrenceRabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)的第200至238页中。按照DTW技术，通过标绘要对存储于模板数据库108中的各话语的时间序列测试的话语的时间序列来形成格子结构。然后把正被测试的话语与模板数据库108中的各话语逐点比较(如每10ms)，一次一个话语。对于模板数据库108中的各话语，在时间上调节或“翘曲”正被测试的话语，在某些点压缩或扩展，直到达到与模板数据库108中的话语最接近的匹配为止。在时间上的每一点上，比较两个话语，并且在该点声明匹配(零代价)或声明不匹配。在某一点处不匹配的情况中，压缩、扩展或如有必要则失配正被测试的话语。继续该过程，直到两个话语彼此已完全比较完为止。大量的(一般几千个)经不同调节的话语是可能的。选择具有最低代价函数(即要求最少数量的压缩和/或扩展和/或失配)的经调节的话语。以类似于Viterbi解码算法类似的方式，有利地通过从模板数据库108中的话语中的各个点向后看，以确定具有最低总代价的路径来进行所述选择。这允许确定最低代价的(即最接近匹配的)经调节的话语，而不用借助产生每一个可能的经不同调节的话语的“强制力”方法。然后比较模板数据库108中的所有话语的最低代价的经调节的话语，并且选择具有最低代价的一个作为与所测试的话语最接近匹配的所存储的话语。

有利地把模型比较逻辑110和判决逻辑112实现为微处理器。语音识别子系统100可以是例如ASIC。语音识别子系统100的识别精确度是关于语音识别子系统100能有多好地正确识别说出词汇表中的单词或短语的一个量度。例如，95％的识别精确度指示出语音识别子系统100在100次当中能95次正确识别单词表中的单词。

根据一个实施例，语音识别子系统(未示出)执行如图3的流程图中所示的算法步骤，来识别输入到语音识别子系统的语音。在步骤200中，把输入语音提供给语音识别子系统。控制流然后进行到步骤202。在步骤202中，检测话语的端点。在某一特定实施例中，如上述参考图2所述的那样，按照美国申请序列号09/246,414中描述的技术来检测话语的端点。然后控制流进行到步骤204。

在步骤204中，在经提取的话语上进行时间群集语音分段。在某一特定实施例中，如上述参考图2所述的那样，所使用的时间群集语音分段技术是描述于上述美国申请序列号09/225,891中的技术。然后控制流进行到步骤208。在步骤206中，提供与说话者无关的模板，用于与步骤204中生成的语音群集均值相匹配。最好按照下述参考图4-6所述的技术来构造所述与说话者无关的模板。然后控制流进行到步骤208。在步骤208中，在某一话语的群集与所有与说话者无关的模板之间进行DTW匹配，并选择最接近匹配的模板作为识别出的话语。在某一实施例中，按照上述参考图2的Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中第200-238页中描述的技术来执行所述DTW匹配。本领域的技术人员将理解可在步骤204中执行除了时间群集语音分段之外的技术。这样的技术包括例如时间归一化。

按照一个实施例，如图4所示，与说话者无关的模板构建子系统300包括处理器302和存储媒体304。处理器100最好是微处理器，但可以是任何常规形式的处理器、专用处理器、数字信号处理器(DSP)、控制器或状态机。处理器302耦合至存储媒体304，有利地把后者实现为闪存存储器、EEPROM存储器、RAM存储器、配置成保持固件指令的ROM存储器、要运行于处理器302之上的软件模块或任何其它常规形式的存储器。最好把与说话者无关的模板构建子系统实现为运行于UNIX系统操作系统之上的计算机。在另一些实施例中，存储媒体304可以是板载RAM存储器，或者处理器302和存储媒体304可驻留于ASIC中。在一个实施例中，处理器302配置成执行由存储媒体304包含的一组指令，以执行如下参考图6所述的步骤之类的算法步骤。

根据另一实施例，如图5所示，与说话者无关的模板构建子系统400包括端点检测器402、时间群集语音分段逻辑404、矢量量化器406、收敛测试器408以及K均值语音分段逻辑410。最好采用控制处理器(未示出)来控制与说话者无关的模板构建子系统进行的迭代的次数。

端点检测器402耦合至时间群集语音分段逻辑404。时间群集语音分段逻辑404耦合至矢量量化器406。矢量量化器406耦合至收敛测试器408以及K均值语音分段逻辑410。控制处理器最好通过控制总线(未示出)耦合至端点检测器402、时间群集语音分段逻辑404、矢量量化器406、收敛测试器408以及K均值语音分段逻辑410。

要被训练的话语的训练采样Sx(n)以帧的形式提供给端点检测402。训练采样最好从训练数据库(未示出)中提供，在后者中存储要被训练的话语。在一个实施例中，训练数据库包括100个单词，各个单词由100个不同的说话者说出，总共有10000条存储的话语。端点检测器402检测话语的起始点和结束点。在一个实施例中，端点检测器402按照上述美国申请序列号09/246,414以及上述参考图2所述的技术来操作。

端点检测器402向时间群集语音分段；逻辑404提供经检测的话语。时间群集语音分段逻辑404对经检测的话语执行压缩算法。在一个实施例中，时间群集语音分段逻辑404按照上述美国申请序列号09/225,891以及上述参考图2所述的技术来操作。在一个实施例中，时间群集语音分段逻辑404把经检测的话语压缩成20个分段，各段包括一群集均值。

时间群集语音分段逻辑404把一给定单词的所有训练话语的群集均值提供给矢量量化器406。矢量量化器406对话语(即所有说话者的相同的单词)的群集均值进行矢量量化，并把所产生的矢量作为话语的可能的与说话者无关的(SI)模板提供给收敛测试器408。矢量量化器406最好按照各种已知的矢量量化(VQ)技术中的任一种来进行操作。在例如A.Gersho和R.M.Gray的“Vector Quantization and Signal Compression”(1992)中描述了各种VQ技术。在某一特定实施例中，矢量量化器406产生4群集矢量。从而，例如逐次把各分段提供给矢量量化器406，后者把各分段表示为4个群集。各群集表示某一单词的每一个说话者，从而每个单词有多个群集。根据一个实施例，每个模板有80个矢量(4个群集乘以20个分段)。

收敛测试器408把可能的SI模板与要被测试的话语的测试采样S_y(n)相比较。测试采样以帧的形式提供给收敛测试器408。测试采样最好从测试数据库(未示出)中提供，后者中存储要被测试的话语。在一个实施例中，测试数据库包括100个单词，各个单词由100个不同的说话者说出，总共有10000条存储的话语。所述单词最好是包含于所述训练数据库中的相同的单词，但由100个不同的说话者说出。收敛测试器408把被训练的话语的可能的SI模板与被测试的话语的采样相比较。在一个实施例中，收敛测试器408配置成采用DTW算法来进行收敛测试。所采用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的第200至238页中以及上述参考图2描述的技术。

在一个实施例中，收敛测试器408配置成分析数据库中的所有单词的结果的精确度以及数据库与可能的SI模板的方差。首先检查所述方差，如果该方差落于一预定阈值之下，那么检查精确度。最好每段计算方差，并然后相加以产生总体方差值。在某一特定实施例中，通过对4个群集的最佳匹配计算均方误差来获得所述方差。所述均方误差技术在本领域中是众所周知的。如果来自测试数据库的话语与由训练数据库产生的可能的SI模板相匹配(即，如果对于数据库中所有的单词来说，识别是正确的)，则把收敛测试定义为是精确的。

还从矢量量化器406把可能的SI模板提供给K均值语音分段逻辑410。K均值语音分段逻辑410也接收训练采样，所述训练采样最好划分成帧。在收敛测试器408执行了对收敛的第1测试之后，方差或精确度的结果可能落于方差和精确度的预定阈值之下。在一个实施例中，如果方差或精确度的结果落于方差和精确度的预定阈值之下，则执行另一次迭代。因此，控制处理器指示K均值语音分段逻辑410对训练采样执行K均值分段，从而产生如下所述的分段的语音帧。按照K均值语音分段，最好利用DTW技术，使训练采样与可能的SI模板相匹配，从而产生如参考图2所述的最优路径。然后按照该最优路径对训练采样进行分段。例如，训练采样的最初5个帧可与可能的SI模板的第1帧相匹配，训练采样的接着的3帧可与可能的SI模板的第2帧相匹配，而训练采样的接着的10帧可与可能的SI模板的第3帧相匹配。在该情况下，将把训练采样的最初5帧分段成一个帧，将把接着的3帧分段成第2帧，并把接着的10帧分段成第3帧。在一个实施例中，K均值语音分段逻辑410按照通过引用而充分结合于此的Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的382-384页中描述的示例性K均值分段技术进行K均值分段。然后K均值语音分段逻辑410把群集均值的更新帧提供给矢量量化器406，后者对群集均值进行矢量量化，并把产生的矢量(包括新的可能的SI模板)提供给收敛检测器408，以进行另一次收敛测试。本领域的一个技术人员将理解只要对于实现超过上述预定阈值的方差和精确度是必要的，就继续进行该迭代过程。

一旦通过了收敛测试，可能的(现在是最终的)SI模板可有利地用于诸如图2的话音识别子系统之类的话音识别子系统中。最终的SI模板将存储于图2的模板数据库108中，或用于图3的流程图的步骤206之中。

在一个实施例中，与说话者无关的模板构建子系统(未示出)执行图6中所说明的方法步骤。在步骤500中，从训练数据库(未示出)获得话语的训练采样。训练数据库最好包含大量的单词(如100个)，各单词由大量的说话者说出(如每个单词100个说话者)。然后控制流进行到步骤502。

在步骤502中，对训练采样进行端点检测，以检测话语。在一个实施例中，按照上述美国申请序列号09/246,414以及上述参考图2所述的技术来执行所述端点检测。然后，控制流进行到步骤504。

在步骤504中，对经检测的话语执行时间群集语音分段，从而把该话语压缩成多个分段，各分段由一个均值表示。在某一特定实施例中，把话语压缩成20个分段，各分段包括一群集均值。在一个实施例中，根据上述美国申请序列号09/225,891以及上述参考图2所述的技术来进行所述时间群集语音分段。然后控制流进行到步骤506。

在步骤506中，对同一单词的所有说话者的训练采样的群集均值进行矢量量化。在某些实施例中，根据A.Gersho和R.M.Gray的“Vector Quantizationand Signal Compression”(1992)中描述的各种已知VQ技术的任一种来对群集均值进行矢量量化。在某一实施例中，产生4群集矢量。从而例如把各分段表示为4个群集。各个群集表示某一单词的每个说话者，并且每个单词有多个群集。按照一个实施例，每模板产生80个矢量(4个群集乘以20个分段)。然后，控制流前进到步骤510。

在步骤508中，从测试数据库(未示出)获得测试采样，以用于进行收敛测试。测试数据库最好包含与训练数据库中包含的相同的单词，各个单词由大量的说话者说出(如每个话语100个说话者)。然后控制流进行到步骤510。

在步骤510中，把经量化的矢量作为可能的SI模板与测试采样进行比较，以进行收敛测试。在一个实施例中，收敛测试是DTW算法。所采用的DTW算法最好是Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of SpeechRecognition”(1993)中的第200至238页中以及上述参考图2描述的技术。

在一个实施例中，步骤510的收敛测试分析数据库中的所有单词的结果的精确度以及数据库与可能的SI模板间的方差。首先检查方差，如果该方法落于预定阈值之下，则检查精确度。最好每段计算方差，并然后相加以产生总体方差值。在某一特定实施例中，通过对4个群集的最佳匹配计算均方误差来获得所述方差。所述均方误差技术在本领域中是众所周知的。如果由测试数据库产生的可能的SI模板与来自训练数据库的话语相匹配(即，如果对于数据库中所有的单词来说，识别是正确的)，则把收敛测试定义为是精确的。然后控制流进行到步骤512。

在步骤512中，如果步骤510的收敛测试的方差或精确度的结果落于方差和精确度的预定阈值之下，则执行另一次迭代。因此，对训练采样执行K均值分段。最好利用DTW技术，K均值语音分段使训练采样与可能的SI模板相匹配，从而产生如参考图2所述的最优路径。然后按照该最优路径对训练采样进行分段。在一个实施例中，按照Lawrence Rabiner和Biing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)中的382-384页中描述的技术进行K均值语音分段。然后控制流进行到步骤506，在其中对群集均值的更新帧进行矢量量化，并在步骤510中(作为新的可能的SI模板)用来自测试数据库的采样进行收敛测试。本领域的一个技术人员将理解只要对于实现超过上述预定阈值的方差和精确度是必要的，就可继续进行该迭代过程。

一旦通过了收敛测试(即，一旦达到了所述阈值)，可能的(现在是最终的)SI模板可有利地用于诸如图2的话音识别子系统之类的话音识别子系统中。最终的SI模板将存储于图2的模板数据库108中，或用于图3的流程图的步骤206之中。

从而，已描述了一种用于构造与说话者无关的话音识别系统的话音模板的新颖的和改进的方法和设备。本领域的技术人员将理解贯穿于上述描述中的可能引用的数据、指令、命令、信息、信号、比特、码元以及码片可有利地用电压、电流、电磁波、磁场或磁粒子、光场或光粒子或它们的任何组合来表示。本领域的技术人员还将理解连同这里所揭示的实施例一起描述的各种说明性的逻辑块、模块、电路和算法步骤可实现为电子硬件、计算机软件或两者的组合。已一般按照它们的功能性描述了各种说明性的元部件、块、模块、电路和步骤。是把功能实现为硬件还是软件，这取决于某一特定应用以及强加于整个系统上的设计限制。技术人员认识到在这些情况下的硬件和软件的互换性，以及怎样最佳地实现所述的各特定应用的功能。作为例子，可用数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑、诸如寄存器和FIFO之类的离散硬件部件、执行一组固件指令的处理器、任何常规可编程软件模块以及处理器、或设计成执行这里所述的功能的上述元部件的组合，来实现或执行连同这里所揭示的实施例一起描述的各种说明性的逻辑块、模块、电路和算法步骤。处理器可最好是微处理器，但是作为替代，处理器可以是任何常规的处理器、控制器或状态机。软件模块可驻留于RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸式磁盘、CD-ROM或本领域中已知的任何其它形式的存储媒体之中。示例性的处理器最好耦合至存储媒体，以便从中读取信息，并把信息写入存储媒体中。作为替代，存储媒体可集成于处理器。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于电话机中。作为替代，处理器和存储媒体可驻留于电话机中。可把处理器实现为DSP和微处理的组合，或两个微处理器与一个DSP核芯等等。

从而已示出和描述了本发明的较佳实施例。然而，本领域的技术人员将理解可对这里所揭示的实施例作出许多替换，而不背离本发明的要旨和范围。因此，要按照下面的权利要求书来限制本发明。

Claims

1.一种建立用于与说话者无关的语音识别系统的语音模板的方法，其特征在于该方法包括：

对第1组多个话语中的各话语进行分段，以对各话语产生多个时间群集的分段，各时间群集的分段由一谱均值表示；

对所述所有第1组多个话语的多个谱均值进行量化，以产生多个模板矢量；

把所述多个模板矢量的每一个与第2组多个话语相比较，以产生至少一个比较结果；

如果所述至少一个比较结果超过至少一个预定阈值，则将所述第1组多个话语与所述多个模板矢量相匹配，以产生最优匹配路径结果；

根据所述最优匹配路径结果在时间上划分所述第1组多个话语；

重复所述量化、比较、匹配和划分，直到所述至少一个比较结果不超过任一至少一个预定阈值为止。

2.如权利要求1所述的方法，其特征在于所述比较包括计算方差量度。

3.如权利要求1所述的方法，其特征在于所述比较包括计算精确度量度。

4.如权利要求1所述的方法，其特征在于所述比较包括首先计算方差量度，并且如果所述方差量度不超过第1预定阈值，则其次计算精确度量度。

5.如权利要求4所述的方法，其特征在于所述匹配包括如果所述方差量度超过所述第1预定阈值或者所述精确度量度超过第2预定阈值，则使第1话语与所述多个模板矢量相匹配。

6.如权利要求1所述的方法，其特征在于所述比较包括执行动态时间翘曲计算。

7.如权利要求1所述的方法，其特征在于所述匹配包括执行动态时间翘曲计算。

8.如权利要求1所述的方法，其特征在于所述匹配和所述划分包括执行K均值分段计算。

9.如权利要求1所述的方法，其特征在于进一步包括检测第1话语的端点。

10.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备，其特征在于该设备包括：

用于对第1组多个话语中的各话语进行分段，以对各话语产生多个时间群集的分段的装置，各时间群集的分段由一谱均值表示；

用于对所述所有第1组多个话语的多个谱均值进行量化，以产生多个模板矢量的装置；

用于把所述多个模板矢量的每一个与第2组多个话语相比较，以产生至少一个比较结果的装置；

用于如果所述至少一个比较结果超过至少一个预定阈值，则将所述第1组多个话语与所述多个模板矢量相匹配，以产生最优匹配路径结果的装置；

用于根据所述最优匹配路径结果在时间上划分所述第1组多个话语的装置；

用于重复所述量化、比较、匹配和划分，直到所述至少一个比较结果不超过任一至少一个预定阈值为止的装置。

11.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备，其特征在于该设备包括：

分段逻辑，配置成对第1组多个话语中的各话语进行分段，以对各话语产生多个时间群集的分段，各时间群集的分段由一谱均值表示；

耦合至所述分段逻辑的量化器，配置成对所述所有第1组多个话语的多个谱均值进行量化，以产生多个模板矢量；

耦合至所述量化器的收敛测试器，配置成把所述多个模板矢量的每一个与第2组多个话语相比较，以产生至少一个比较结果；

耦合至所述量化器和所述收敛测试器的划分逻辑，配置成如果所述至少一个比较结果超过至少一个预定阈值，则将所述第1组多个话语与所述多个模板矢量相匹配，以产生最优匹配路径结果，以及根据所述最优匹配路径结果在时间上划分所述第1组多个话语，

其中所述量化器、所述收敛测试器以及所述划分逻辑进一步配置成重复量化、比较、匹配和划分，直到所述至少一个比较结果不超过任一至少一个预定阈值为止。

12.如权利要求11所述设备，其特征在于所述至少一个比较结果是方差量度。

13.如权利要求11所述设备，其特征在于所述至少一个比较结果是精确度量度。

14.如权利要求11所述设备，其特征在于所述至少一个比较结果是方差量度和精确度量度，其中所述收敛测试器配置成首先计算方差量度，并且如果所述方差量度不超过第1预定阈值，则其次计算精确度量度。

15.如权利要求14所述设备，其特征在于所述匹配包括如果所述方差量度超过所述第1预定阈值或者所述精确度量度超过第2预定阈值，则使第1话语与所述多个模板矢量相匹配。

16.如权利要求11所述的方法，其特征在于所述收敛测试器配置成执行动态时间翘曲计算。

17.如权利要求11所述的方法，其特征在于所述划分逻辑配置成执行动态时间翘曲计算。

18.如权利要求11所述的方法，其特征在于所述划分逻辑包括K均值语音分段逻辑。

19.如权利要求11所述的方法，其特征在于进一步包括耦合至所述划分逻辑并配置成检测第1话语的端点的端点检测器。

20.一种配置成建立用于与说话者无关的语音识别系统的语音模板的设备，其特征在于该设备包括：

处理器，以及

耦合至所述处理器的存储媒体，该存储媒体包含一组由处理器可执行的指令，用于对第1组多个话语中的各话语进行分段，以对各话语产生多个时间群集的分段，各时间群集的分段由一谱均值表示，对所述所有第1组多个话语的多个谱均值进行量化，以产生多个模板矢量，把所述多个模板矢量的每一个与第2组多个话语相比较，以产生至少一个比较结果，如果所述至少一个比较结果超过至少一个预定阈值，则将所述第1组多个话语与所述多个模板矢量相匹配，以产生最优匹配路径结果，根据所述最优匹配路径结果在时间上划分所述第1组多个话语，以及重复量化、比较、匹配和划分，直到所述至少一个比较结果不超过任一至少一个预定阈值为止。

21.如权利要求20所述的设备，其特征在于所述至少一个比较结果是方差量度。

22.如权利要求20所述设备，其特征在于所述至少一个比较结果是精确度量度。

23.如权利要求20所述设备，其特征在于所述至少一个比较结果是方差量度和精确度量度，其中所述指令组可由所述处理器执行，来首先计算方差量度，并且如果所述方差量度不超过第1预定阈值，则其次计算精确度量度。

24.如权利要求23所述设备，其特征在于所述指令组可由所述处理器进一步执行，如果任一个所述方差量度超过所述第1预定阈值或者所述精确度量度超过第2预定阈值，则使第1话语与所述多个模板矢量相匹配。

25.如权利要求20所述的方法，其特征在于所述指令组可由所述处理器执行，以通过执行动态时间翘曲计算来把所述多个矢量模板的每一个与所述多个话语相比较。

26.如权利要求20所述的方法，其特征在于所述指令组可由所述处理器执行以匹配划分逻辑，后者配置成通过执行动态时间翘曲计算使第1话语与所述多个矢量模板相匹配。

27.如权利要求20所述的方法，其特征在于所述指令组可由所述处理器执行，以通过执行K均值语音分段计算来划分第1话语。

28.如权利要求20所述的方法，其特征在于所述指令组可由所述处理器进一步执行，以检测第1话语的端点。

29.一种处理器可读媒体，包含一组可由处理器执行的指令，其特征在于处理器执行该组指令用来：