CN1150852A

CN1150852A - 采用神经网络的语音识别系统和方法

Info

Publication number: CN1150852A
Application number: CN95193473A
Authority: CN
Inventors: 沙-平·托马斯·王
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1994-06-06
Filing date: 1995-04-25
Publication date: 1997-05-28
Also published as: GB2304507B; AU2362495A; AU685626B2; CA2190619A1; US5832181A; WO1995034064A1; GB2304507A; DE19581667T1; JPH09507921A; GB9625251D0; DE19581667C2

Abstract

用于识别孤立语词的语音识别系统包括用于进行模数转换和倒频谱分析的预处理电路(3)，和计算基于多项式展开的判别函数的一组神经网络(12)-(14)。该系统可使用硬件、软件或两者的结合的方式加以实现。所讲出的语词的语音波形得到分析并转换成数据帧序列。帧序列被划分为数据块，这些数据块广播给多个神经网络。神经网络使用这些数据块计算多项式的展开。神经网络的输出用于确定所说出的语词的标识。神经网络使用一种训练算法，这种算法不需要进行重复训练并对每一给定的训练样例集产生一个全局最小值。

Description

采用神经网络的语音识别系统和方法

本发明一般涉及语音识别装置，具体说来涉及用于可以识别与讲话人无关的孤立语词的语音识别系统。

多年来科学家一直试图找到一种可以简化人机界面的办法。诸如键盘、鼠标、触摸屏及笔这些输入设备是用来实现人/机界面最为常用的工具。但是人机间更为简单和自然的界面可能是人的语音。一种能够自动识别语音的装置可以提供这样一种界面。

自动语音识别装置的潜在应用包括利用话音命令的数据库查询技术、在制造过程中利用话音输入进行质量控制、使驾驶员在拨号时可集中精神于路面情况的话音拨号式蜂窝电话以及伤残人使用的话音操纵的假肢装置。

令人遗憾的是自动语音识别不是一项可以轻易完成的课题。一个原因是各个人的语音之间的变化很大。比如同一个语词由几个人讲出时其声音会由于口音、语速、姓别或年龄的差异而相差甚远。除了讲话人的变化，协同发音效应、讲话的模式(喊叫/低语)及背景噪声都会给语音识别装置造成巨大的问题。

自60年代末到现在，在自动语音识别方面已引进了各种各样的方法。一些方法立足于相应的试探策略的扩展知识，另一些方法则基于语音数据库和训练方法。后面这一类方法包括动态时间偏差法(DTＷ)和隐藏马尔可夫模型法(HMM)。对两种方法，以及时间延迟神经网络(TDNN)，将在下面讨论。

动态时间偏差法是一种利用优化原理减小一个未知的发音语词与一个所存储的已知模板语词之间的误差的技术。已报告的数据表明这项DTW技术很有效并能进行良好的识别。然而，DTＷ技术的计算强度很大。所以要把这种DTW技术应用于现实世界中是不实际的。

隐藏马尔可夫模型法不是直接将一个未知的发音语词与一已知语词的模板进行比较，而是利用各已知语词的随机模型并对各模型产生该未知语词的概率进行比较。当一个未知语词讲出时，HMM技术将检查该词的序列(或状态)并找出能提供最佳匹配的模型。HMM技术在很多商业应用中运用顺利；但是，此项技术有很多缺点。这些缺点包括不能区分声音类似的语词、对噪声敏感和计算强度大。

最近，神经网络被用来解决一些高度非结构性并且不然就无法解决的问题，如语音识别。时间延迟神经网络是一种采用有限的神经元连系处理语言时间效应的神经网络。就有限的语词识别而言，TDNN的表现略优于HMM方法。但TDNN却受困于某些严重的缺点。

首先，TDNN的训练时间很长，大约为数星期之久。其次，TDNN的训练算法经常收敛为局部极小，非最优解。最优解应是全局极小。

总之，已知的现有自动语音识别方法的缺点(如算法所需计算工作量不实际，对讲话人的改变和背景噪声的容许度有限，训练时间过长等等)严重地限制了语音识别装置在很多有可能应用的领域中的接纳和推广。因此急需一种高度精确、对背景噪声免疫、无需反复训练或复杂计算、可产生全局极小并且对讲话人的差异不敏感的自动语音识别系统。

因此，本发明的一个优点就是可提供一种用于对讲话人的差异不敏感的语音识别系统。

本发明的再一优点提供一个不受背景噪声影响的语音识别系统。

本发明的另一个优点是提供一种不需要重复训练的语音识别系统。

本发明的另一个优点是提供一种包括对一系列输入向量能够产生全局最小的神经网络的语音识别系统。

本发明的又一优点是提供一种在操作上大大减少计算复杂性的语音识别系统。

根据本发明的一个优选实施例，通过提供语音识别系统可以取得这些和其他优点，该系统响应音频输入，从中识别出人类语音的发音，其中该系统包括：用于分析音频输入的预处理电路，该电路产生表示分析结果的输出；响应预处理电路输出的计算机，该计算机执行一种算法将预处理电路的输出划分成数据块，这些数据块即为计算机的输出；多个用于计算多项式展开的神经网络，每一个神经网络都响应于多个数据块并生成至少一个输出；以及一个选择器，响应每一神经网络的至少一个输出并生成表达语音的标记作为输出。

另一方面，本发明还提供了操作语音识别系统的一种方法，这种方法包括下述步骤：(a)接收一个讲出的语词；(b)对该语词进行模数转换，生成数字化语词；(c)对数字化语词进行倒频谱(cepstralanalysis)分析，生成数据帧序列；(d)由数据频序列生成多个数据块；(e)向多个神经网络广播多个数据块中的一个，其中多个神经网络中的每一个已事先受过训练能够识别一个特定的语词；(f)每一神经网络生成一个输出作为接收数据块的结果；(g)累加每一神经网络的输出以生成各个神经网络和；(h)确定多个数据块中是否还有另一数据块需要向多个神经网络广播，如果有，则返回到步骤(e)，如果没有，则执行步骤(j)；和(j)生成相应于神经网络和的最大值的系统输出，这个系统输出表示了所讲出的语词。

在所附的权利要求书中对本发明已有详细叙述。但是，结合附图并参考下面的详细介绍本发明的其他一些特点将更加清楚并可对之有一个更好的了解，其中

图1是根据本发明的一个语音识别系统的上下文框图；

图2是根据本发明优选实施例的语音识别系统的概念图；

图3是图2所示的语音识别系统的操作法的流程图；

图4所示为本发明优选实施例的分而治之(divide-and-conquer)算法的数据输入和输出。

图5是本发明优选实施例的分而治之算法的执行法的流程图。

图6是根据本发明的一个优选实施例训练神经网络进行语音识别的方法的流程图。

图1是根据本发明的一个语音识别系统的上下文框图。该系统的组成包括一支用于接受语音形式的音频输入并将声音转换为电能的话筒1或等效装置，接受由话筒1送出的电信号并完成各种任务，如波形取样、模数(A/D)转换、倒频谱分析等等的预处理电路3，以及一台执行语音识别程序并相应地产生一个确认所识别的语音的输出的计算机5。

当使用者对话筒1讲话时此系统开始工作。在一优选实施例中，由图1所描述的系统用于孤立语词识别。当对着话筒讲话的人在各语词之间做由一个清晰的停顿时就发生孤立语词识别。

当讲话者讲出一个语词时，话筒1产生一个代表该语词的声音波形的信号。之后此信号被送到预处理电路3由模数转换器(未示出)数字化。对这一数字化信号然后进行倒频谱分析(一种特征抽取方法)处理，这种分析处理也是由预处理电路3完成。计算机5接受倒频谱分析的结果并利用该结果来确定讲出的语词的身份。

下面是对预处理电路3和计算机5的更详细的介绍。为完成其所承担的任务预处理电路3可能包括一组硬件和软件。例如，A/D转换可由一专用集成电路完成，而倒频谱分析可由一套由微处理器执行的软件来完成。

预处理电路3包括适于进行A/D转换的手段。话筒1发出的信号通常是模拟信号。由一A/D转换器(未示出)对话筒1发出的信号每秒钟进行数4千次取样(例如在一优选实施例中为每秒8000～14,000次)。然后将每个取样转换为一个数字字，各字的长度为12至32比特。数字信号一般包括一个或多个这种数字字。本领域的一般技术人员都可以理解A/D转换器的取样率和字长可以变化并且上面所给出的数字并不对本发明所包括的A/D转换器的取样率及字长构成任何限制。

对数字信号进行的倒频谱分析(或称为特征抽取)的结果产生一个表征该讲出的语词的相关特征的一个信号表示。这可以看作是一个可以保持语音重要特征并从数字信号的非相关特征中去掉不需要的干扰的数据简化步骤，结果可使计算机5的决策过程简单。

倒频谱分析过程如下。首先，将构成数字信号数字化取样划分成一个集序列。每个集中包含在一个固定长度时间段中所得到的取样。比如在本发明的一个优选实施例中此时间段为15毫秒。如果一个讲出的语词的长度，比如，是150毫秒，则电路3将会产生一个包括10个数字取样集的序列。

其次，对每一个取样集应用一个P阶(一般P＝12～14)线性预测分析以生成P个预测系数。然后将预测系统转换为倒频谱系数，为此使用如下递归公式：

c (n) = a (n) + Σ_{k = 1}^{n - 1} (1 - k / n) a (k) c (n - k) - - - (1)

其中c(n)表示倒频谱系数矢量，a(n)表示预测系数，1≤n≤p，p等于倒频谱系数的数目，n表示一个整数指标，k表示整数指标，a(k)表示第k个预测系数，而c(n-k)第(n-k)个倒频谱系数。

倒频谱系数矢量通常由如下形式的正弦窗加权：

α(n)＝1＋(L/2)sin(πn/L) (2)其中1≤n≤p，而L为一给出加权倒频谱矢量C(n)的整数常数，其中

C(n)＝c(n)α(n) (3)

这种加权通常称作倒频谱升降(liftering)。这一升降过程的效用是使语音取样中频谱的谱峰平滑。另外还发现倒频谱升降可抑制高低倒频谱系数间现存的差异，从而可以大大改善语音识别系统的性能。

于是倒频谱分析的结果就产生一个平滑对数频谱的序列，其中每个频谱对应于讲出的语词那一段时间中的一个离散时间段。

这样一来语音信号中的重要特征就保存在频谱中。对于每一个频谱，预处理电路3都生成一个由频谱中数据点构成的数据帧。对每个频谱生成一个数据帧的，结果是形成一个时间序的数据帧序列、这一序列送往计算机5。

在一优选实施例中，每个数据帧包含12个数据点，其中每个数据点代表倒频谱平滑谱在某个具体频率处的值。数据点是32比特的数字字。本领域的专业人员可以理解本发明并未对每帧数据点的数目或数据点的位长进行限制；每一数据帧中所包含的数据点数可以是12或任何其他合适的数值，而数据点的位长可以是32比特，16比特或任何其他数值。

计算机5的主要功用是确定所讲出的语词的身份。在本发明的一个优选实施例中，计算机5可包含一个用于处理数据帧序列的分段程序、用于计算多项式扩展的多个神经网络以及一个利用神经网络的输出将讲出的语词分类为已知语词的选择器。计算机5的工作的更为详细的情况见后。

图2是利用本发明的一个语音识别系统的概念图。

在一个优选实施例中，语音识别系统可以识别讲出的孤立语词。话筒1接受讲话人的语音输入并将之转换为电信号。这些电信号被送入预处理电路3。

预处理电路3完成上面就图1所描述的功能。电路3完成A/D转换和倒频谱分析，并且电路3可能包括一组硬件和软件以完成其所承担的任务。预处理电路3的输出形式为代表所讲的语词的数据帧序列。每个数据帧包括一个数据点集(32比特字)，与讲出该语词的时间的一个离散时间段相对应。电路3的输出传送到计算机5。

计算机5可以是通用数字计算机或专用计算机。计算机5包括适合执行分而治之算法11的硬件和/或软件。计算机5还包括由第1神经网络12、第2神经网络13以及第n神经网络14代表的多个神经网络。各种神经网络12、13和14的输出送入相应的各累加器15、16和17。累加器15～17的输出送入选择器18，选择器18的输出代表所识别的语音语词。

分而治之算法11接受由预处理电路3发出的数据帧序列并由之而生成多个数据块。大体上算法11将数据帧序列划分成数据块集，每个数据块则包括来自输入序列的数据帧的一个子集。分而治之算法11的详细情况在后面的标题为“分而治之算法”一节中给出。第1个数据决包含数据帧序列中的第1个数据帧及其后每隔3个的各个数据帧。而第2个数据块包含数据帧序列中的第2数据帧及其后每隔3个的各个数据帧。依此类推，顺次排列的各数据帧都顺次分配给四个数据块的每一个，直到每个数据块包含同样数目的数据帧为止。如果数据帧的数目不足以使各数据块获得相同数目的数据帧，则将序列中最后一个数据帧复制到其余数据块以使各数据块包含同样数目的数据帧。

一个数据块分配装置被用来将数据块从算法11传送到神经网络12、13及14的输入端。每个数据块依次同时传送到神经网络12、13及14。虽然在图2中在语音识别系统中只示出3个神经网络，但一个普通的专业人员都可理解，如果一个具体应用要求多于或少于3个神经网络，可以使用任何数目的神经网络。

一个普通的专业人员也会了解每个神经网络包括多个神经元。

在本发明的一个优选实施例中，各神经网络可能事前已受过训练来识别某一组语音音素。一般讲，一个讲出的语词包括一个或多个语音音素。

神经网络12，13和14的作用如同分类装置，根据数据块确定所讲出的是什么语词。一般而言，一个分类装置决定一个输入模式属于哪一类别。在本发明的一个优选实施例中，每个类别都用一已知语词标记，并且由一个预先确定的讲出的语词集(训练集)取得数据块和用于确定各类别的边界，可使各类别识别性能最佳的边界。

在一个优选实施例中，使用参数决策法来确定所讲出的语词是否属于某一类别。使用这种方法时，每个神经网络计算出一个不同的判别函数Yj(X)，其中X＝{X1，X2，…，Xi}是一个数据块中所包含的数据点集，i是一整数指数，而j是一个与该神经网络相对应的整数指数。在接收到一个数据块时，各该神经网络计算其相应的判别函数。如果由某一神经网络计算出的判别函数大于其他每一网络的判别函数，则此数据块属于与该神经网络相对应的特定类别。

换言之，每一神经网络决定一不同类别；于是每一神经网络识别一个不同的语词。例如，神经网络12可通过训练来识别语词“one”，神经网络13可通过训练来识别语词“two”，依此类推。训练神经网络的方法将在下面标题为“神经网络的训练”一节中介绍。

本发明的神经网络计算的判别函数系根据对多项式扩展的利用以及，在不严格的意义上，利用一个正交函数，如正弦、余弦、指数/对数、傅里叶变换、勒让德多项式、非线性基本函数如维尔特拉函数或一径向基本函数，或其他，或多项式扩展及正交函数的一种组合。

一种优选实施例应用一多项式扩展，其一般形式由下面的等式4代表：

y = Σ_{i = 1}^{\infty} w_{i - 1} x_{1} g_{1 i} x_{2} g_{2 i} . . . {x_{n} g}_{ni} - - - (4)

其中的X_i代表协处理器输入并且可以是如X_i＝f_i(Z_j)这样的函数，其中Zj是一任意变量，并且其中的指标i和j可为任意正整数；其中Y代表神经网络协处理器的输出；其中的W_i-1代表第i个神经元的权；其中g_1i，…，g_ni代表第i个神经元的选通函数，为整数，在一优选实施例中为零或大于零；而n为协处理器输入的数目。

等式4的各项代表一神经元输出和与这种神经元相关的权重及选通函数。在神经网络中应用的多项式扩展的项数是基于一些因子的，包括可用神经元数、训练示例数等等。应当了解，多项式扩展的较高阶项通常比较低阶项重要性更小。因此，在一优选实施例中，只要有可能，应根据上面所提到的变化因子选择较低阶的项。还有，因为与各种输入有关的测量单位可能改变，输入在使用之前可能需要归一化。

等式5为等式4的另一表现形式，所示各项达到3阶各项。

y = wO + Σ_{i = 1}^{n} w_{i} x_{i}

+ Σ_{i = 1}^{n} w_{f 1} (i) x_{i}^{2}

+ Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} w_{f 2} (i, j) x_{i} x_{j}

+ Σ_{i = 1}^{n} w_{f 3} (i) x_{i}^{3}

+ Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} w_{f 4} (i, j) x_{i}^{2} x_{j}

+ Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} w_{f 5} (i, j) x_{i} x_{j}^{2}

+ Σ_{i = 1}^{n} Σ_{j = i + 1}^{n} Σ_{k = i + j + 1}^{n} w_{f 6} (i, j, k) x_{i} x_{j} x_{k}

＋... (5)其中的变量的意义与等式4中的相同，并且其中的f_i(i)是一个在范围n＋1到2n中的指标函数；f₂(i，j)是一个范围在2n＋1到2n＋(n)(n－1)/2的指标函数；并且f₃(i，j)是一个范围在2n＋1(n)(n－1)/2到3n＋(n)(n－1)/2。而且f₄至f₆用类似的方式表示。

本专业的技术人员会看出选通函数嵌入在由等式5表示的各项中。例如，等式5可表示如下：

y＝w₀＋w₁x₁＋w₂x₂＋...w_ix_i＋...＋w_nx_n

＋w_n＋1x₁ ²＋...＋w_2nx_n ²

＋w_2n＋1x₁x₂＋w_2n＋2x₁x₃＋...

＋w_3n－1x₁x_n＋w_3nx₂x₃＋w_3n＋1x₂x₄＋

...w_{2n＋(n)(n－1)/2}x_n－1x_n＋...

＋w_N－1x₁ ^g1Nx₂ ^g2N...x_n ^gnN＋...

(6)其中的变量的意义与等式4中的相同。

应当注意，虽然选通函数项g_in只在等式6的最后示出的项中以显式出现，可以理解，其他各项中的每一项都具有显式示出的g_iN项(例如对W₁X₁项g₁₂＝1并且g_i2＝0，i＝2，3，…，n)。N为任意正整数并代表网络中的第N个神经元。

在本发明中，一个神经网络将对它所接收到的每一个数据块生成一个输出。因为一个讲出的语词可由一个数据块序列表示，所以每一个神经网络可生成一个输出序列。为了提高语音识别系统的分类性能，每一个输出序列都由一累加器求和。

于是在每个神经网络的输出端都连接一个累加器。如前面就图2所讲过的，累加器15对来自神经网络12的输出起作用，累加器16对来自神经网络13的输出起作用，而累加器17对来自神经网络14的输出起作用。累加器的功能是对来自神经网络的输出序列求和。这可产生与该神经网络相对应的和并且此和就与由一已知语词标记的类别相对应。累加器15将来自神经网络12的顺序输出加到一累积和之上，而且累加器16和17对神经网络13和14分别实现同样的功能。每个累加器将其和作为输出。

选择器18接受来自累加器的和，或顺序接受或同时接受。在前一种情况下，选择器18依次轮流接受来自各累加器的和，比如首先接受来自累加器15的和，其次为来自累加器16的和，依此类推；或者在后一种情况下，选择器18同时接受来自累加器15、16和17的和。在接受和之后，选择器18就确定哪一个和最大并分配相应的已知语词标记，也即识别的语音语词，给语音识别系统的输出。

图3示出图2中的语音识别系统的操作方法。在方框20中使用者通过话筒1接收到一个讲出语词并将之转换为一电信号。

在方框22中对语音信号进行A/D转换。在一优选实施例中，A/D转换由图2中的预处理电路3完成。

之后，在方框24中对由A/D转换所产生的数字化信号进行倒频谱分析。在一个优选实施例中，倒频谱分析也由图2中的预处理电路3完成。倒频谱分析产生一个数据帧序列，这些数据帧包含所讲的语词的相关特征。

在方框26中利用一个分而治之算法(其步骤示于图5)用来从数据帧序列生成多个数据块。分而治之算法是一种将帧序列划分为较小的更便于操作的数据块集的方法。

在方框28中将数据块之一广播给神经网络。从方框28出来后处理过程在方框30中继续进行。

在方框30每个神经网络利用数据块来计算以多项式扩展为根据的判别函数。各个神经网络计算出的判别函数各不相同，生成的判别函数为其输出。由神经网络计算出的判别函数在操作语音识别系统之前通过如图6所示之神经网络训练法来确定。

在方框32对每个神经网络的输出进行相加求和，对每个神经网络都生成一个和。这一步骤生成多个神经网络和，其中每个和对应于一个神经网络。

在决策方框34中，检查是否有另一个数据块要向神经网络广播。如果是，则处理返回到方框28。如果不是，则处理进入方框36。

接着在方框36中选择器确定哪一个神经网络的和最大并将与该和相对应的已知语词标记分配给语音识别系统的输出。

分而治之算法

图4示出本发明优选实施例的分而治之算法的数据输入和输出。分而治之算法是一种将数据帧序列划分为较小的数据块集的方法。算法的输入是数据帧序列38，在本示例中该序列包含数据帧51-70。数据帧序列38包含代表语音取样相关特征的数据。

在一优选实施例中，每一数据帧包含12个数据点，其中的每个数据点代表一个倒频谱系数值或一个基于倒频谱系数的函数。

数据点是32比特的数字字。每个数据帧对应于讲出语音样例的时间间隔中的一个离散时间段。

本专业的技术人员将会理解本发明对于每帧的数据点数目或数据点位长并未加有任何限制；在每个数据帧中所包含的数据点数可以是12或任何其他值，而数据点的位长可以是32比特、16比特或任何其他值。

此外，数据点可用来表示倒频谱平滑谱包络线的数据以外的数据。例如，在各种应用中，每个数据点可以表示某一频率处的谱线幅值。

分而治之算法11顺序接受语音样例的每一帧并将该帧分配给几个数据块中的一个。每个数据块由输入帧序列的数据帧的子集构成。数据块42、44、46和48是分而治之算法11的输出。虽然图4示出的算法只生成4个数据块，但是分而治之算法11并不限于只生成4个数据块，可以生成多于或少于4个数据块。

图5示出执行本发明优选实施例的分而治之算法的方法的框图。分而治之算法按照框图步骤将数据序列划分为数据块集。

如方框75中所示，首先计算出本算法要生成的数据块的数目。要生成的数据块的数目用下面的方式计算。首先，接受每个数据块中的帧数及序列中的帧数。块数和帧数均为整数。其次，将帧数除以每块中的帧数。之后，将除得之结果四舍五入得出最接近的整数，而得出应由分而治上算法生成的数据块数目。在退出方框75时处理过程由方框77继续。

在方框77中使帧序列中的首帧等于一称为当前帧的变量。一般人员都可了解当前帧既可以由软件变量代表，也可由硬件，如寄存器或存储装置代表。

接着在方框79，使当前块变量等于第一块。在软件中该当前块可以是代表一个数据块的软件变量。在采用硬件时此当前块可以是一个或多个寄存器或存储装置。在当前块等于第1块之后，当前帧被分配给当前块。然后处理过程转入决策方框81。

之后，如决策方框81所示，检查确定帧序列中是否还有更多的帧要处理。如是，处理过程由方框83继续。如不是，处理过程跳转到方框91。

在方框83中帧序列中的下一帧被接受并使之等于当前帧变量。

在方框85中使当前块变量等于下一块，然后将当前帧变量分配给当前块变量。在退出方框85时，处理过程转入决策方框87。

如决策方框87中所示，如果当前块变量等于末块，则处理过程由方框89继续，否则处理过程返回方框81。

在方框89使下一块等于首块，并且在退出方框89时处理过程返回决策方框81。

由决策方框81进入方框91。在方框91中检查确定当前块变量是否等于末块。如是，处理过程结束。如不是，将当前帧分配给当前块之后的各剩余数据块，直到并包括末块，如前面在介绍图2时所解释的那样。

训练算法

本发明的语音识别系统主要有两种运行模式：(1)训练模式，利用讲出的语词样例来训练神经网络；(2)识别模式，用来辨认所讲的未知语词。参考图2。一般讲，使用者必须对着话筒1将要求系统识别的语词全部讲出以训练神经网络12、13和14。在某些情况下，训练可能局限于几个使用者每个语词进一次。但是，本专业的技术人员会理解训练也可能要求任何数目的不同讲话人将每个语词读出不止一遍。

为了使一个神经网络有用，必须确定每个神经元电路权重。这一点可以通过使用适当的训练算法完成。

在实现本发明的神经网络时，一般将神经元或神经元电路的数目选为等于或少于提供给网络的训练示例的数目。

训练示例的定义为一组给定的输入和产生的输出。在本发明的一个优选实施例中，对图2中的话筒1所讲的每一个语词都至少会生成一个训练示例。

就本发明的一个优选实施例而言，用于神经网络的训练算法示于图6。

图6示出根据本发明的一个优选实施例训练神经网络识别语音的方法的框图。首先，在方框93，作为示例将一个已知语词对着本语音识别系统的话筒讲出。

在方框95，对语音信号进行A/D转换。对由A/D转换输出的数字化信号进行倒频谱分析。倒频谱分析产生包含所讲语词的相关特征的数据帧序列。每个数据帧包括代表对所讲的语词的时间片的倒频谱分析结果的12个32位字。在一个优选实施例中，时间片的持续长度为15毫秒。

本专业的技术人员可以理解本发明对数据帧中的字的位长并无限制；位长可以是32比特、16比特或任何其他值。此外，每个数据帧中的字数和时间片的持续长度可能不同，这取决于本发明应用具体情况。

其次，在方框97中，利用分而治之算法(其步骤示于图5)由数据帧序列产生多个数据块。

在方框99中，从分而治之算法生成的块中选择一个。将调练示例的输入部分设定为等于所选块。

在方框101中，如果神经网络正在接受训练来识别所选定的块，则将块的输出部分设定为1，否则设定为0。在退出方框101时处理过程由103继续。

其次，在方框103中，将训练示例存储于计算机5的存储器中(图1及2)。这样就可以生成和存储多个训练示例。

在决策方框105中检查确定是否有由当前数据帧序列产生的另一个数据块要用来训练此神经网络。如是，处理过程返回方框99。如不是，处理过程前进到决策方框107。

在决策方框107中，确定在训练期间是否有另一个要利用讲出的语词。如是，处理过程返回93，如果不是，处理过程由方框109继续。

在方框109中比较所提供的训练示例数和神经网络中神经元的数目。如果神经元的数目等于训练示例的数目，可以采用矩阵求逆的方法来求出每一个权重的值。如果神经元的数目不等于训练示例的数目，可以采用最小二乘估算法来求出每一个权重的值。适合的最小二乘估算法包括，比如，最小二乘法、扩充最小二乘法、伪逆法、卡尔曼滤波法、极大似然算法、贝斯估算法以及其他。

这里已经阐述了使用一组神经网络计算基于多项式展开的判别函数的语音识别系统的概念，以及包括一优选实施例的多种实施例。

由于这里阐述的语音识别系的各种实施例使用分而治之算法划分语音取样，所以它们对说话者的差异不敏感，也不受背景噪音的影响。

这里阐述的语音识别系统的各种实施方案包括的神经网络不需要重复的训练，并且对每一给定的输入向量组能够产生全局最小；这样，本发明的实施方案比已知的语音识别系统需要少得多的训练时间并且准确的程度要高得多。

此外，这里揭示的发明可以用多种方式加以修改，并且可以有多种不是上面特别提出和阐述的特定形式的具体实施方案，这一点对本领域的技术人员而言是显而易见的。

应当理解本发明的概念可在许多方面有所变化。例如，像神经网络的个数，对选择器输入的个数，或累加器的实现这些系统组件都是设计选择问题。预处理电路、分而治之算法、神经网络、累加器和选择器的功能是通过软件还是通过硬件实现的也都是设计选择问题。这些设计选择在很大程度上依赖于集成电路技术，实现的类别(模拟，数字，软件，等等)，模具的尺寸，管脚的引出，等等。

因此，所附的权利要求涵盖属于本发明精神实质和范畴的所有的本发明的修改。

Claims

1.一种响应音频输入，从中识别人类语言发音的语音识别系统包括：

用于分析所述音频输入的预处理电路，该电路生成表示分析结果的输出；

响应所述预处理电路的输出的计算机，所述计算机执行一种算法将预处理电路的输出划分成数据块，该计算机产生多个数据块作为输出；

多个用于计算多项式展开的神经网络，其中每一个神经网络都响应于多个数据块并生成至少一个输出；和

响应于每一个所述神经网络的甚少一个输出并把表示语音的标记作为输出的选择器。

2.权利要求1中的语音识别系统，其中所述音频输入是孤立词语形式。

3.权利要求1中的语音识别系统，其中所述的预处理电路包括将模拟信号转换成数字信号的装置。

4.权利要求1中的语音识别系统，其中所述的预处理电路包括进行倒频谱分析和生成帧序列的装置。

5.权利要求4中的语音识别系统，其中所述的算法响应于所述帧序列，所述算法生成多个块，每个块包括多个帧。

6.权利要求4中的语音识别系统，其中所述的算法响应于帧序列，所述算法生成多个块，每个块包括相同数目的帧。

7.权利要求5中的语音识别系统，其中每一个块包括所述帧序列中的一个顺序帧，第一个块包括第一个帧，第二个块包括第二个帧，以此类推第N个块也包括帧序列的一个帧，第一个块还包括第(N＋1)个帧，第二个块还包括第(N＋2)个帧，以此类推第N个块还包括所述帧序列的一个帧。

8.权利要求1中的语音识别系统，其中所述的算法，神经网络和选择器包含在至少一个集成电路中。

9.权利要求1中的语音识别系统，其中所述的算法，神经网络和选择器包含在计算机程序中。

10.一种响应包含多个语音音素的音频输入，以从中识别人类语言发音的语音识别系统，包括：

响应所述音频输入，用于对所述音频输入进行频谱分析的预处理电路，该电路生成帧序列作为输出；

执行分而治之算法的计算机，该计算机响应于预处理电路生成的帧序列，该计算机生成多个数据块作为输出，其中每一个数据块包括多个帧；

多个神经网络，每一个神经网络都响应于计算机的输出并且对所述多个块中的每一个块进行分类，每一个所述神经网络事先经过训练以识别所述多个语音音素中一个指定音素，每个所述神经网络接收一个块并生成一个输出；

多个累加器，每一个累加器都响应于多个神经网络中各自的一个网络的所述输出，每一个累加器生成一个输出；和

一个选择器，响应于累加器的输出，用于选择最大的累加器输出，所述选择器生成一个表示所述语音取样的标识的输出。