CN1391211A

CN1391211A - 对识别系统中的参数进行训练的方法和系统

Info

Publication number: CN1391211A
Application number: CN02121854.4A
Authority: CN
Inventors: H·施拉姆; P·贝耶莱恩
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-04-20
Filing date: 2002-04-17
Publication date: 2003-01-15
Also published as: EP1251489A2; US20030023438A1; EP1251489A3; JP2002358096A; DE10119284A1

Abstract

本发明涉及一种对图形识别系统中的参数进行训练的方法，其中每个参数都仅同目录中图形的一个实际变量相关，该方法包括以下步骤：－生成可用的图形训练组，以及－通过区别对待目标函数的最优化来确定参数，以及实现上述方法的装置。

Description

对识别系统中的参数进行训练的方法和系统

本发明涉及一种对图形识别系统中的参数进行训练的方法和系统，其中每个参数都仅与目录中图形的一个实际变量相关，尤其涉及一种对语音识别系统中的参数进行训练的方法和系统，其中每个参数都仅与词汇表中单词的一个发音变量相关。

图形识别系统，尤其是语音识别系统可以应用到很多方面。举例来说，有自动电话信息系统例如德国汉莎航空公司的飞行信息服务、自动语音系统例如飞利浦公司的FreeSpeech、手写识别系统例如德国邮政服务公司的自动地址识别系统以及经常用于个人识别的生物系统例如指纹、虹膜或者容貌识别。这些图形识别系统尤其还可以用作其它一般图形识别系统的组成部分，例如上面所述的个人识别系统。

很多已知的系统采用统计的方法通过将对于系统来说为已知的参考图形同未知的测试图形相比较来识别测试图形。该参考图形通过合适的参数来对其进行描述，并且这些参数存储在该图形识别系统中。这样，例如，很多图形识别系统就可以使用一个单个词的词汇表来作为识别单元，该单元还被进一步的分成所谓的“子-词单元”来同未知的已被读出话语进行声音上的比较。这些“单词”可以为语言学上的单词，但是在语音识别系统中来说明的“单词”概念使用的更为广泛。在一个拼写应用中，例如，一个字母就可以构成一个单词，但是其它的系统可以使用音节或者用统计方法确定的语言学上的单词片断来作为单词来构成识别词汇表。

自动语音识别系统的问题还特别在于单词可以有不同的发音。一方面，这种不同说话者间的差别是由于说话者的思想状态或者是受说话者所使用的方言的单词发音的影响。另一方面，经常使用的单词可以在一个自然的发音和认真的大声朗读之间存在很大的不同。这样，例如，经常会缩短单词的发音：“would”可以变为“’d”以及“can”可以变成“c’n”。

很多系统都使用的发音变量来模拟相同单词之间的不同发音。例如，如果词汇表V的第l^th个单词w₁有不同的发音方式，则该单词的第1^th种发音方式可以通过引进发音变量v_1j来模拟。该发音变量v_1j由符合单词w₁的第j^th种发音方式的子词单元构成。这种模拟语言基本发音的因素可以用作构成发音变量的子词单元。但是，使用统计的方法得到的字词单元也可以使用。隐含马尔科夫模型经常被用作最低级别的声音模拟。

用于语音识别的单词发音变量的概念如上所述，但是这一概念也可以类似地被应用于图形识别系统目录中的图形实际变量。语音识别系统词汇表中的单词相应于图形识别系统目录也就是识别单元中的图形。同单词可以有不同的发音一样，目录中的图形也可以有不同的方式来实现。这样，单词的手写和打印之间就有很大的不同，同时一个给定的面部表情例如微笑就可以根据个人和环境的不同有不同的构成。虽然由于经济上的原因在本申请的文本中只是参照语音识别系统进行描述的，但本发明所考虑的就是对图形识别系统中的每一个都仅与目录中图形的一个实际变量相关的参数进行训练的方法和系统。

正如上面所指出的，很多图形识别系统都是通过将一个未知的测试图形同存储在其目录中的参考图形相比较来确定该测试图形是否同某一个参考图形相对应，如果是的话再确定同哪个参考图形相对应。为这一目的的参考图形有合适的参数，并且该参数被存储在图形识别系统中。基于统计方法的图形识别系统接着就会计算表示参考图形和测试图形匹配程度的数值，并接着找出具有最高值的参考图形，该参考图形将作为该测试图形的识别结果而被输出。按照这样的一般过程就可以根据使用的发音变量来获得该数值，该数值表示已被读出话语与发音变量的的匹配程度以及发音变量与单词的匹配程度，也就是在后一种情况下说话者是否根据该发音变量来对该单词进行发音。

很多语音识别系统使用同概率模型最接近的量作为它们的数值。这可以由以下构成：例如，该语音识别系统的任务就是为已被读出话语x找出N个单词的单词序列

{\hat{w}}_{1}^{N} = ({\hat{w}}_{1}, {\hat{w}}_{2}, . . ., {\hat{w}}_{N})

，其中N为未知，其中所有可能长度为N’的所有可能的单词序列w₁ ^N’与已被读出话语x最匹配，也就是在条件x的前提下具有最高的条件概率：

{\hat{w}}_{1}^{N} = \arg \max_{w_{1}^{N^{'}}} p (w_{1}^{N^{'}} | x) . . . . . (1)

使用Bayes′定理来生成一个已知的模型部分：

{\hat{w}}_{1}^{N} = \underset{w_{1}^{N^{'}}}{\max \arg} p (x | w_{1}^{N^{'}}) \cdot p (w_{1}^{N^{'}}) . . . . . (2)

同单词序列w₁ ^N’相关的可能的发音变量v₁ ^N’可以通过求和得出：

p (x | w_{1}^{N^{'}}) = \underset{v_{1}^{N^{'}}}{Σ} p (x | v_{1}^{N^{'}}) \cdot p (v_{1}^{N^{'}} | w_{1}^{N^{'}}), . . . . . . . (3)

因为可以假设用发音变量v₁ ^N’发音的已读出话语x同单词序列w₁ ^N’之间的相关性是由发音变量序列v₁ ^N’唯一确定的。

为了进一步模拟该相关性p(v₁ ^N’|w₁ ^N’)，可以进行这种不考虑上下文影响假设：

p (v_{1}^{N^{'}} | w_{1}^{N^{'}}) = Π_{i = 1}^{N^{'}} p (v_{i} | w_{i}) . . . . . . . . (4)

如果该语音识别系统的词汇表V的第l^th个单词为w₁，则该单词的第l^th个发音变量为v_1j，并且发音变量v_1j在发音变量序列v₁ ^N’中出现的频率为h_1j(v₁ ^N’)(例如，发音变量“cuppa”在话语“give me a cuppa coffee”中出现的频率为1，但是在“cup of”中出现的频率为0，后面的表达式也可以写成：

p (v_{1}^{N^{'}} | w_{1}^{N^{'}}) = Π_{i = 1}^{D} {[p (v_{1 j} | w_{1})]}^{h_{ij} (v_{1}^{N^{'}})}, . . . . . (5)

其中的结果是对词汇表V的所有单词D进行的。

该量值p(v_1j|w₁)即单词w₁用发音变量v_1j发音的条件概率也就是该语音识别系统的的参数，其中在这种情况下每个参数都仅同词汇表中单词的一个发音变量相关。通过以声学语音信号的形式存在的已读出话语训练组来在语音识别系统训练期间以一种合适的方式对该量值进行估算，并且该估算值根据上述的公式在识别未知测试图形过程中被传给识别方案的数值。

对于上述的图形识别中常用的求解概率的过程，采用实际上没能满足该概率的条件的计算函数对于本领域内的技术人员来说是显而易见的。这样，例如，通常不把标准化条件作为必要条件或者代替概率p，相反却经常使用将参数λ作为指数的概率p^λ。很多系统还使用该概率的负对数：-λlogp来表示“数值”。在本申请提及概率时，对于本领域内的技术人员来说常见的更一般的计算函数也包含在其中。

对其中每个参数都仅同词汇表中单词w₁的一个发音变量v_1j相关的语音识别系统中的参数p(v_1j|w₁)进行训练包括在多个语音识别系统中使用“最大概似法”的方法。例如可以这样确定训练组中单词w₁的各个变量v_1j多长时间被读一次。从该训练组中获得的相关频率f_rel(v_1j|w₁)直接被用作参数p(v_1j|w₁)的估算值或者首先进行统计修匀操作例如折扣。

与之相比美国专利文献US6076053公开了一种将词汇表中单词的发音变量合并到一个发音网络结构中的方法。这种发声网络结构的弧度由子词单元构成，例如发声变量中以HMMs(“指定给特定弧度的子词(音素)HMMs”)形式存在的音素。为确定词汇表中单词w₁的某一个发声变量v_1j是否被读出，在发声网络弧度的级别或者弧度HHM状态的子级别生成了加权乘法、加权加法以及电话宽度相关加权参数。

在美国专利文献US6076053中并没有使用数值p(v_1j|w₁)。相反，在使用加权参数例如弧度级别的过程中，数值ρ_j ^(k)被指定给用于第k^th个单词的发声网络中的弧度j，其中ρ_j ^(k)例如为概率的(负)对数。在弧度级别加权中，弧度j被指定为数值ρ_j ^(k)。在一个优选实施例中，该数值为可能性的对数。该数值接着通过加权参数进行修改。(“使用弧度级别加权来得到修改后的述值g_j ^(k)∶g_j ^(k)＝u_j ^(k)·ρ_j ^(k)+c_j ^(k)”)。这些加权参数本身是由不同的训练来确定的，例如在训练组中最小化分类错误率(通过使用使得不同发声网络间的区别最大化的最小分类错误标准使得该参数最优化)。

为达到这一目的，本发明提供了一种对图形识别系统中的参数进行训练的方法和系统，其中每个图形都仅与目录中图形的一个实际变量相关，尤其涉及一种对语音识别系统中的参数进行训练的方法和系统，其中每个参数都仅与词汇表中单词的一个发音变量相关，并且该图形识别系统在识别未知测试图像方面具有较高的精确度。

这一目的是通过对图形识别系统中的参数进行练的方法来实现的，其中每个参数都仅与目录中图形的一个实际变量相关，该方法包括以下步骤：-生成图形训练组，以及-通过区别对待目标函数的最优化以及用于对图形识别系统的参数进行训练的系统来确定参数，其中每个参数都仅同目录中图形的一个实际变量相关，该系统被指定为：-生成图形训练组，以及-通过区别对待目标函数的最优化以及尤其通过用于对语音识别系统的参数进行训练的方法来确定参数，其中每个参数都仅同词汇表中单词的一个发音变量相关，该方法包括以下步骤：-生成声学语音信号的训练组，以及-通过区别对待目标函数的最优化以及尤其通过用于对语音识别系统的参数进行训练的系统来确定参数，其中每个参数都仅同词汇表中单词的一个发音变量相关，该系统被指定为：-生成声学语音信号的训练组，以及-通过区别对待目标函数的最优化来确定参数。

独立权利要求2-5进一步涉及本发明实施例的优点。它们涉及参数被指定给数值p(v_1j|w₁)的形式、目标函数的细节、各种数值的类型以及对目标函数进行最优化的方法。

但是在权利要求9和10中，本发明涉及用权利要求7所述方法获得的参数，还涉及存储该参数的数据载体。

下面将参照实施例和附图对本发明上述这些以及其它的方面进行更详细的描述，其中：

图1为根据本发明的对语音识别系统中的仅同词汇表中单词的一个发音变量相关的参数进行训练的系统的一个实施例。

图2为根据本发明的对语音识别系统中的仅同词汇表中单词的一个发音变量相关的参数进行训练的方法的一个实施例的流程图。

语音识别系统的仅同词汇表中单词w₁的一个发音变量v_1j相关的参数p(v_1j|w₁)被直接提供给目标函数的不同优化过程。合适的目标函数包括语句错误率，也就是已被读出话语识别错误的比例(最小分类错误)和单词错误率，也就是单词识别错误的比例。由于这些都是离散函数，本领域内的技术人员通常会采用平滑结构来代替实际错误率。可用的优化过程例如用于最小化平滑错误率的过程为梯度过程，特别是“广义概率下降(GPD)”，还有用于非线性最优化的其它过程例如单工方法。

但是在本发明的一个优选实施例中，该优化问题以提供可能使用的不同模型组合的形式被提出。从用于各个模型逻辑线性组合信息和不同加权因素优化的WO99/31654中可知，该不同模型组合为一般的常用方法。因此，WO99/31654包括在本实施例中从而避免了对不同模型组合方法的重复叙述。

数值p(v_1j|w₁)本身并没有被直接用作实现不同模型组合方法的参数，但它们用含有新参数λ_1j的指数形式表示：

p(v_1j|w₁)＝e^λ1j (6)

其中参数λ_1j在已知的非线性最优化方法中可以直接用来对目标函数进行最优化。该不同模型组合的目的就是实现模型数值p(W₁ ⁿ|x)的逻辑线性形式。为了这一目的，等式(3)的和被限定为它的主要部分，近似为：

p (x | w_{1}^{N^{'}}) = p (x | {\tilde{v}}_{1}^{N^{'}}) \cdot p ({\tilde{v}}_{1}^{N^{'}} | w_{1}^{N^{'}}), . . . . . . (7)

和

{\tilde{v}}_{1}^{N^{'}} = \arg \max_{v_{1}^{N^{'}}} p (x | v_{1}^{N^{'}}) \cdot p (v_{1}^{N^{'}} | w_{1}^{N^{'}}) . . . . (8)

考虑到上面所述的Bayes＇定理(等式2)以及等式(5)和(7)，预期的逻辑线性表达式为：

\log p_{Λ} (w_{1}^{N} | x) = - \log Z_{Λ} (x) + λ_{1} \log p (w_{1}^{N}) + λ_{2} \log p (x | {\tilde{v}}_{1}^{N}) + Σ_{i = 1}^{D} λ_{1 j} h_{1 j} ({\tilde{v}}_{1}^{N}) . . . (9)

为了阐明将要被优化的参数Λ＝(λ₁，λ₂，…，λ_1j，…)之间的相关性，在相关位置引入Λ作为索引。更进一步的说，通常在不同模型组合中，其它的两个被加数log p(w₁ ^N)和logp(x|

)也分别具有合适的参数λ₁和λ₂。但是这并不一定得进行最优化，却可以使得：λ₁＝λ₂＝1。然而，这些最优化并没有使得语音识别系统的量值得到改进。该量值Z_λ(x)只取决于已被读出话语x(和参数Λ)并且仅用作标准化，直到它用来将数值p_Λ(w₁ ^N|x)作为概率模型来进行说明；也就是只有当标准化条件

\underset{w_{1}^{N}}{Σ} p_{Λ} (w_{1}^{N} | x) (w_{1}^{N} | x) = 1

时才来确定Z_λ(x)。

该不同模型组合利用在训练过程中确定的多种形式的平滑单词错误率来作为目标函数。为了这一目的，该训练组应该由H个已被读出话语x_n构成，n＝1，...，H。每个话语x_n都有一个长度为L_n的已被读出单词序列⁽ⁿ⁾w₁ ^Ln，为方便起见这里采用了单词序列k_n。k_n并非一定是实际上的已被读出的单词序列；在非监视适应中，k_n例如可以通过一个初步识别步骤来确定。进一步说，K_n个单词序列的量值⁽ⁿ⁾k_i，i＝1，...，K_n可以通过例如对每个话语x_n计算称为单词表或N最佳列表的步骤来确定，其中含有K_n个单词的单词序列同已被读出单词序列k_n在识别过程中竞争最高数值。为简便起见这些竞争单词序列被指定为k≠k_n，其中符号k为用于k_n和k≠k_n的一般符号。

该语音识别系统确定单词序列k_n和k(≠k_n)的数值p_Λ(k_n|x_n)和p_Λ(k|x_n)，该数值表示它们与已被读出话语x_n的匹配程度。由于语音识别系统选择具有最高数值的单词序列k_n或k作为识别结果，所以通过计算已被读出(或者假定已被读出)单词序列k_n和选中的单词序列之间的李文施坦(Levenshitein)距离Γ来得到单词错误率E(Λ)：

E (Λ) = \frac{1}{Σ_{n = 1}^{H} L_{n}} Σ_{n = 1}^{H} Γ (k_{n}, \arg \max_{k} (\log \frac{p_{Λ} (k | x_{n})}{p_{Λ} (k_{n} | x_{n})})) . . . (10)

该单词错误率可以通过“指示函数”S(k，n，Λ)被平滑处理后而成为一个能够求导的连续函数E_s(Λ)：

E_{S} (Λ) = \frac{1}{Σ_{n = 1}^{H} L_{n}} Σ_{n = 1}^{H} \underset{k &NotEqual; k_{n}}{Σ} Γ (k_{n}, k) S (k, n, Λ) . . . . (11)

该指示函数S(k，n，Λ)对于由语音识别系统选出的具有最高数值的单词序列来说应该趋于1，而对于所有的其它单词序列来说趋于0。一个可能的选择就是：

S (k, n, Λ) = \frac{p_{Λ} {(k | x_{n})}^{η}}{Σ_{k^{'}} p_{Λ} {(k^{'} | x_{n})}^{η}} . . . . . (12)

η为一个合适的常数，在最简单的情况下为1。

等式11的目标函数可以通过例如迭代梯度的方法进行优化，使得在完成各个部分导出式之后，本领域内的技术人员就可以获得下面的用于发声变量λ_1j的迭代等式：

λ_{1 j}^{(I + 1)} = λ_{1 j}^{(I)} - \frac{ϵ \cdot η}{Σ_{n = 1}^{H} L_{n}} Σ_{n = 1}^{H} \underset{k &NotEqual; k_{n}}{Σ} S (k, n, Λ^{(I)}) \cdot \tilde{Γ} (k, n, Λ^{(I)}) \cdot [h_{1 j} (\tilde{v} (k) n) - h_{1 j} (\tilde{v} (k_{n}))] .

步骤宽度为ε的迭代步骤将从第I^th个迭代步骤的参数λ_1j ⁽¹⁾中生成第(I+1)^th个步骤的模参数λ_1j ^(I+1)，

(k)和

(kn)对于单词序列k和k_n来说具有最高数值(根据等式8)的发声变量，并且

(k，n，Λ)简写为：

\tilde{Γ} (k, n, Λ) = Γ (k, k_{n}) - \underset{k^{'} &NotEqual; k_{n}}{Σ} S (k^{'}, n, Λ) Γ (k^{'}, k_{n}) . . . . (14)

既然量值

(k，n，Λ)与错误率Γ(k，k_n)之间的差大约为所有单词序列用S(k’，n，Λ)加权后的错误率之和，所以可以用单词序列k在满足 (k，n，Λ)＜0时来作为正确的单词序列，这是因为它们示出了一个比用S(k’，n，Λ)加权后还要低的错误率。等式13的迭代规则确保参数λ_1j，以及用于已被读出单词序列k_n的发声变量v_1j中将被放大的数值p(v_1j|w₁)频繁的出现在正确的单词序列中，也就是保证在正确的单词序列中h_1j( (k))-h_1j(

(k_n))＞0。对于不常出现在错误单词序列中的变量也可以采用类似的规则。另一方面，对于不常出现在正确单词序列中而经常出现在错误单词序列中的变量则要降低其数值。以上的说明就是本发明有益效果的一个很好的实例。

图1为根据本发明的对语音识别系统中的仅与单词的一个发音变量相关的参数进行训练的系统的一个实施例。根据本发明的对语音识别系统中的仅与一个发音变量相关的参数进行训练的方法是通过存储在程序存储器2中的程序控制计算机1实现的。麦克风3用来记录已读出的话语并被存储在语音存储器4中。除了通过麦克风3进行记录以外，这些已读出话语可以通过数据载体或者网络传送给语音存储器。

参数存储器5和6用来存储参数。可以设想在该实施例中上面讨论的迭代最优化进程是可以实现的。参数存储器5中则含有例如第(I+1)^th迭代步骤进行计算所必需的第I^th步骤中在当时情况下已经是已知的参数，同时参数存储器5接收该第(I+1)^th迭代步骤的新参数。接下来，也就是该实例的的第(I+2)^th迭代步骤中，参数存储器5和6则互换任务。

根据本发明的方法可以在该实施中的通用计算机1中实现。其中包括一般设置的存储器2、5和6，而语音存储器4则位于可以通过网络进行存取的中央服务器中。但是，也可以使用特定的硬件来实现该方法，这样可以使得该方法或其中的一部分可以更快的实现。

图2为根据本发明的对语音识别系统中的仅与词汇表中单词的一个发音变量相关的参数进行训练的方法的一个实施例的流程图。在开始块101中进行一般的准备步骤，在这之后，在块102中选择参数的开始值Λ⁽⁰⁾，并且迭代计数变量I被设为0：I＝0。上面所述的“最大概似法”可以用来估算数值p(v_1j|w₁)，这就可以通过对数函数的信息获得开始值λ_1j ⁽⁰⁾。

块103通过已读出话语训练组来开始程序，将迭代计数变量I被设为1：I＝1。在块104中选择与已读出话语x_n相匹配的单词序列k≠k_n。如果与已读出话语x_n相匹配的已读出单词序列k_n并不是训练数据，则可以通过更新块104中语音识别系统的参数信息来进行估算。但是也可以在这之前例如块102中进行这种估算。进一步讲，分散的语音识别系统也可以用来估算已被读出的单词序列k_n。

在块105中，开始竞争单词序列的量值k≠k_n的程序，为这一目的，迭代计数变量I被设为1：k＝1。在块106中按照等式13随着计数变量n和k的增加进行计算。在要求竞争单词序列的量值k≠k_n的判断块107中测试是否存在任何其它的竞争单词序列k≠k_n。如果判断结果为是，则转向块108，迭代计数变量k加1：k＝k+1，接着再回到块106。如果判断结果为否，则转向块109，在通过已读出话语训练组来限制程序的判断块109中测试是否还有任何训练话语是可用的。如果判断结果为是，则转向块110，迭代计数变量n加1：n＝n+1，接着再回到块104。如果判断结果为否，则已读出话语的训练量值的程序将被结束并转向块111。

在块111中，计算参数Λ的新值，也就是在第一迭代步骤I＝1中的值Λ⁽¹⁾。在接下来的块112中采用停止标准来判断最优化是否已经收敛。这可以通过很多种已知的方法来实现。例如，可以要求参数或者目标函数的相关变化降到一个给定的阈值之下。但在任何情况下，该迭代可以在一个给定的最多迭代次数之后终止。

如果该迭代没有收敛，则在块113中迭代计数变量I加1：I＝I+1，于是在块103再次进入迭代循环。相反，在块114中采取一般的调整措施来终止迭代。

为确定参数λ_1j上面详细叙述了一种特别的迭代最优化处理过程，但是对于本领域内的技术人员来说还可以采用多种其它的最优化方法。尤其是，可以采用所有的同不同模型组合相关的方法。这里需再次提及的就是WO99/31654中公开的方法。该方法可以以封闭的形式来确定非迭代参数。可以通过求解线性方程Λ＝Q^-1P来得到参数向量，其中矩阵Q和向量P由数值变换和目标函数得到。读者可以参照WO99/31654进行更深入的了解。

在确定参数λ_1j之后，该参数可以用来对包含在发声词典中的发声变量v_1j进行选择。这样，例如，具有在一个给定的阈值之下的数值p(v_1j|w₁)的变量v_1j就可以从发声词典中移除。进一步，还可以生成一个具有给定数量变量v_1j的发声词典，其中适当个具有最低数值p(v_1j|w₁)的变量v_1j被删掉。

Claims

1.一种对语音识别系统中的参数进行训练的方法，其中每个参数都仅与词汇表中单词的一个发音变量相关，该方法包括以下步骤：-生成声学语音信号可用的训练组，以及-通过区别对待目标函数的最优化来确定参数。

2.如权利要求1所述的方法，其特征在于，与词汇表中第l^th个单词w₁的第j^th个发声变量v_1j相关的参数λ_1j和数值p(v_1j|w₁)之间具有以下的关系，使得单词w₁和发声变量v_1j一样发音：

p(v_1j|w₁)＝e^λ1j。

3.如权利要求1或2所述的方法，其特征在于，目标函数是一个能够求导数的连续函数，具有如下量：-在与训练组中相应的声学语音信号x_n相关的已被读出单词序列k_n和与语音信号相关、同k_n竞争的单词序列k≠k_n之间的各个李文施坦距离Γ(k_n，k)，以及-分别表示单词序列k≠k_n和已被读出单词序列k_n同语音信号匹配程度的数值p_Λ(k|x_n)和p_Λ(k_n|x_n)。

4.如权利要求1至3之一所述的方法，其特征在于：-概率模型用作所述的各个数值p_Λ(v_1j|w₁)，并表示单词w₁和发声变量v_1j一样发音的概率，以及-概率模型用作所述的各个数值p_Λ(k_n|x_n)，并表示同训练组中相应的声学语音信号x_n相关的已读出单词序列k_n和语音信号x_n一样发音的概率，和/或-概率模型用作所述的各个数值p_Λ(k|x_n)，并表示相关竞争单词序列k≠k_n和语音信号x_n一样发音的概率。

5.如权利要求1或4之一所述的方法，其特征在于，功能函数的区别对待最优化是通过不同模型组合中的一种方法实现的。

6.一种对语音识别系统中的参数进行训练的系统，其中每个参数都仅同词汇表中单词的一个发音变量相关，该系统被指定为：-生成可用的声学语音信号训练组，以及-通过区别对待目标函数的最优化来确定参数。

7.一种对图形识别系统中的参数进行训练的方法，其中每个参数都仅同目录中图形的一个实际变量相关，该方法包括以下步骤：-生成可用的图形训练组，以及-通过区别对待目标函数的最优化来确定参数。

8.一种对图形识别系统中的参数进行训练的系统，其中每个参数都仅同目录中图形的一个实际变量相关，该系统被指定为：-生成可用的图形训练组，以及-通过区别对待目标函数的最优化来确定参数。

9.仅各与目录中图形的一个实际变量相关的图形识别系统的各参数，其中该参数通过权利要求7所述的方法生成。

10.一种载有如权利要求9所述的图形识别系统的参数的数据载体。