CN1270687A

CN1270687A - 在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法

Info

Publication number: CN1270687A
Application number: CN98809243A
Authority: CN
Inventors: P·维特舍尔; H·赫格
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1997-09-17
Filing date: 1998-09-07
Publication date: 2000-10-18
Anticipated expiration: 2018-09-07
Also published as: DE59800737D1; JP4243017B2; EP1016077B1; EP1016077A1; CN1111841C; WO1999014740A1; ES2158702T3; JP2001516903A

Abstract

为了改善自动语言识别系统的识别率,采用了统计的语言模型。利用所说的方法利用小文本数量或完全不用文本来构造语言模型是可行的。语言类别被构造并且该语言模型,也就是单词序列的α－优先的概率,是以文本的语法结构为基础并且依赖于文本的词汇表来计算得出。于是单词和语言学类别的概率被确定。除了上述应用范围的语言模型的重新构造以外本方法同样包含了一个可能性用于使已经存在的语言模型适应于新的应用范围。

Description

在语言识别中通过计算机来确定至少两个单词的序列出现概率的方法

本发明涉及了一个在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法。

用于语言识别的方法由[1]被熟知。在这里所描述的由至少一个单词组成的序列的适用性通常是作为单词识别的组成部分。该适用性的大小就是概率。

一个统计上的语言模型由[2]被熟知。单词序列W的概率P(W)在语言识别的范围内具有如下特征，首先是较大的词汇量，一般是一个(统计上的)语言模型。该概率P(W)(也就是说，单词序列概率)通过N-Gramm-语言模型P_N(W)被近似得出：

p_{N} (w) = Σ_{i = 0}^{n} p (w_{i} | w_{i - 1}, w_{i - 2}, . . ., w_{i - N + 1}), - - - (0 - 1)

这里

Wi 是序列W的第i个单词(i＝1...n)

n 是序列W的单词Wi的数目

对于N＝2由等式(0-1)得出所说的双语法(Bigramme)。

此外下面是熟知的，对于语言识别，首先在商业环境中，采用了一个在词汇上有所限制的应用领域(范围)。不同范围的文本不是仅仅由于其各自的词汇表，而是由于其各自的句子构造而有不同。对于一个特殊领域的语言模型练习必须有相应大的文本数量(文本材料，文本文献)，然而在实践中只有很少的几个或只有利用巨大的费用才能获得。

语言学的专业词典由[4]被了解。这里涉及了一个用于借助查找程序来查阅语言学特性的由计算机控制的一种语言的尽可能多的单词编排。对于这种单词记录来说(所谓的单词完整形式)一个对于这种单词完整形式非常重要的语言学特征以及合适的分布，也就是说这种语言学的值，可以被得出。

由[3]可以知道，采用了语言学的分类。一个句子的单词可以根据不同的方式被分配语言学的标志以及语言学的值。在表1中举例来说不同的语言学标志和附属的值被描述(其他例子在[3]中被给出)。

表1：对于语言学特征和语言学单词的例子。

语言学标志	语言学数值
语言学标志	语言学数值	分类	名词，动词，形容词，冠词，代词，副词，连词，介词，等等
名词的类型	抽象，动物，作为物体的一部分，具体，人类，地点，材料，作为计量，植物，时间，等等	分类	名词，动词，形容词，冠词，代词，副词，连词，介词，等等
名词的类型	抽象，动物，作为物体的一部分，具体，人类，地点，材料，作为计量，植物，时间，等等	代词的形式	指示性，非限定的，疑问的，所有关系的，等等

根据语言学特征

(f1，...fm) (0-2)

以及根据语言学的值

(V11...V1j)...(Vm1...Vmj) (0-3)

每个单词被分配至少一个语言学类别，这里存在如下的映射准则F的应用：

(C1，...Ck)＝F((f1，v11，...，v1j)...(fm，vm1，...vmj)) (0-4)

这里

fm 语言学标志

m 语言学标志的数目

Vm1...Vmj 语言学标志fm的语言学数值

j 语言学数值的数目

Ci 语言学的类别i＝1...k

k 语言学类别的数目

f 语言学标志以及语言学数值在语言学分类上的映射准

则(分类器)

为了说明语言学的类别，语言学标志(英语：feature)，语言学值(英语：value)以及分类-双语法-概率一个例子被如下解释。

从这个德语句子开始：“der Bundestag setzt seine Debatte fort”

该冠词“der“(也就是说第一个单词)在德语中被划分为六个语言学的类别(下面仅称为：类别)，这里这个类别根据单复数，属性以及格而不同。下表2阐明了这种关系：表2：单词“der“的类别Ci

Ci	类别	数量	性	格
Ci	类别	数量	性	格	C1	冠词	单数	阳性	第一格
C2	冠词	单数	阴性	第二格	C1	冠词	单数	阳性	第一格
C2	冠词	单数	阴性	第二格	C3	冠词	单数	阴性	第三格
C4	冠词	复数	阴性	第二格	C3	冠词	单数	阴性	第三格
C4	冠词	复数	阴性	第二格	C5	冠词	复数	阳性	第二格
C6	冠词	复数	中性	第二格	C5	冠词	复数	阳性	第二格

对于德语的名词“Bundestag“(上面例句中的第二个单词)产生类似的表3：

表3：单词“Bundestag“的类别Ci

Ci	类别	数量	性	格
Ci	类别	数量	性	格	C7	名词	单数	阳性	第一格
C8	名词	单数	阳性	第四格	C7	名词	单数	阳性	第一格
C8	名词	单数	阳性	第四格	C9	名词	单数	阳性	第三格

在这个例子中仅仅根据类别-双语法，也就是用于语言学类别的双语法，产生类别C1，由类别C7描述了相关例句的类型，单复数，格以及属性的正确组合。如果实际发生的类别-双语法的频率利用上面给出的文本被确定，则C1-C7对于上面提到的类别-双语法有多次出现，因为这种组合在德语语言中经常出现，而其他类别-双语法，例如组合C2-C8在德语语言中由于不同的Geni而不被允许。利用由这种方式获得的频率来求取得到的类别-双语法概率相应较高(当多次出现时)或者较低(如果不允许)。

本发明的任务是，给出一个在语言识别中确定至少一个单词的序列出现概率的方法，这里确定了一个由很少的文本材料构成的领域的语言模型。

这里需要说明，语言模型的确定明确包含了改编当前语言模型而产生的模型。

该任务依照权利要求1的特征被解决。

依照本发明给出了在语言识别中通过计算机来确定至少两个单词的序列出现频率的方法。一种语言给出了语言学的类别

(C1，...，Ck) (1)

按照公式得出

(C1，...，Ck)＝F((f1，v11，...，v1j)...(fm，vm1，...，vmj)) (2)

在这里

fm 表示语言学的标志

m 表示语言学标志的数目

Vm1...Vmj 表示语言学标志fm的语言学数值

j 表示语言学数值的数目

Ci 表示语言学类别i＝1...K

k 表示语言学类别的数目

F 表示根据语言学类别由语言学标志和语言学数值构成

的映射准则。

这里一个单词至少被分配了一个语言类别。至少两个单词的序列出现的概率P(W)由双语法的应用来获得

p (w) \approx Π_{i = 1}^{n} \underset{C_{i}}{Σ} \underset{C_{i - 1}}{Σ} p (w_{i} | C_{i}) \times p (C_{i} | C_{i - 1}) \times p (C_{i - 1} | w_{i - 1}) - - - (3)

这里

W 至少两个单词的序列

wi 序列W的第i个单词(i＝1...n)

n 序列W的单词wi的数目

Ci 语言类别，该类别属于单词wi

Ci-1 语言类别，该类别属于单词wi-1

∑_Ci 所有语言类别的总和，该总和属于单词wi

p(wi|ci)相应的单词概率

p(ci|ci-1)双语法的概率(也就是：类别-双语法-概率)

p(ci-1|wi-1)相应的类别概率

这里要说明的是，数据项Ci被联系到至少一个语言类别，该语言类别被分配给来自于单词序列W的单词wi。这相应的同样适用于数据项Ci-1。举例来说对于类别-双语法-概率涉及了在一定条件下属于第一语言学类别的单词wi的这个概率，该概率，属于第二语言学类别的前述单词wi-1(见这里引入的例子和解释)。

概率P(wi|ci)和P(ci|ci-1)，可以由文本汇编，也就是由带有预设范围的预先给定的文本来确定，这种由等式(3)引入的概率得出了一个所谓的基本语言模型。

语言模型，这种模型以语言学类别为基础，特别对于一个改编来说提供了明确的优点。预先给定的方法采用了包含在该语言模型中的语言学特性。

其他的构造在于，对于一个新的文本借助于预先确定的基本语言模型该概率p(Ci|Ci-1)被引入到该新文本的基本语言模型中。

基本语言模型的类别-双语法的概率(见[3]以及引论中的解释)一方面描述了一个练习文本的语法结构同时另一方面依赖于词汇表。如果由下面开始，相似文本结构(语法的结构)的新领域就象基本语言模型的最初练习文本，则根据目标来说，类别-双语法的概率P(Ci|Ci-1)利用基本语言模型被没有改变的引用。

新领域的词汇表，针对这个领域确定了一个语言模型，借助于预先给定的语言学词典并且采用一个分类器F被按照等式(2)处理。对于每一个来自该文本的新单词自动的被确定至少一个语言学类别。语言学类别，语言学标志和语言学数值的详细解释的描述见[3]，语言学词典见[4]和/或序言。

其他的另外构造在于，根据至少一个下述的可能性确定概率P(wi|ci)：

a)借助于文本确定概率P(wi|ci)；

b)借助前述的概率来确定单词wi的概率P(wi|ci)；

c)采用单词列表确定概略P(wi|ci)。

附加的其他构造是，借助算出的概率P(wi|ci)来适应基本语言模型。该模型如下优先实现，这个已经算出的概率P(wi|ci)被引入基本语言模型。

本发明的其他构造也就是，借助于概率P(wi|ci)如下确定概率P(Ci-1|Wi-1)：

P(Ci-1|wi)＝K×P(wi|ci)×P(Ci) (4)

这里说明一个比例因子

K = {(\underset{C_{i}}{Σ} p (w_{i} | C_{i}) \times p (C_{i}))}^{- 1} - - - (5)

本发明其他的另外构造用于识别一个由至少一个单词构成的相应序列，如果该概率P(W)位于上述范围之外的话。如果不是该情况，则执行上述的措施。该上述的措施是例如输出一个错误信息或者中断该方法。

在其他另外构造的范围里文本来自于预先确定的应用范围，一个所谓的领域。

在本发明的范围中有一个特别的优点是，对于新领域的语言模型的确定来说前面介绍的方法适用于只有小范围的新文本。

还有一个优点是，新单词的列表(有或没有概率P(Wi)的说明)可以被采用。相关领域的语言识别在实践中扮演着很重要的角色。所以本方法满足一个实际要求并且在实验中证实是适当的并且是非常有用的。如果采用基本语言模型，则新估计的概率(仅仅由P(wi|ci)做必要的估计)的数目有显著的减少。

本发明的另一个构造由相应的权利要求给出。

借助如下的示图详细描述了本发明的一个实例。

图示如下

图1方框图，该图包含了在语言识别时通过计算机来确定由至少一个单词组成的序列出现概率的方法步骤，

图2第一个用于确定概率P(wi|ci)的适用方法，

图3第二个用于确定概率P(wi|ci)的适用方法。

图1描述了在语言识别时通过计算机来确定至少两个单词的序列出现概率的方法的单个步骤。在步骤101中语言被划分为如下语言分类

(C1，...，Ck) (1)

被划分为：

(C1，...，Ck)＝F((f1，v11，...v1j)...(fm，vm1，...vmj)) (2)

这里表示为

fm 语言学的标志

m 语言学标志的数目

Vm1...Vmj 语言学标志fm的语言学数值

j 语言学数值的数目

Ci 语言学类别i＝1...K

k 语言学类别的数目

F 根据语言学类别由语言学标志和语言学数值构成的映

射准则(分类器)

语言标志和语言值的详细解释存在于[3]中，例如1201页上在表4中给出了由语言标志举例组成的编制，该语言标志带有根据不同种类确定的所属语言值。

在步骤102中一个单词至少被分配了一个语言类别。就象[3]中所描述的，一个或多个语言类别可以被分配给一个单词。

最后在步骤103中通过如下公式确定至少一个单词组成的序列出现的概率P(W)：

p (w) \approx Π_{i = 1}^{n} \underset{C_{i}}{Σ} \underset{C_{i - 1}}{Σ} p (w_{i} | C_{i}) \times p (C_{i} | C_{i - 1}) \times p (C_{i - 1} | w_{i - 1}) - - - (3)

这里

W 至少两个单词的序列

wi 序列W的第i个单词(i＝1...n)

n 序列W的单词wi的数目

Ci 语言类别，该类别属于单词wi

Ci-1 语言类别，该类别属于单词wi-1

∑_Ci 所有语言类别的总和，该总和属于单词wi

p(wi|ci) 相应的单词概率

p(ci|ci-1) 双语法的概率(也就是：类别-双语法-概率)

p(ci-1|wi-1) 相应的类别概率

等式(3)由三个部分串联相乘组成，三个部分是

P(Ci|Ci-1)、P(wi|ci)和P(Ci-1|Wi-1)

这几个部分如下被逐个确定。

确定概率P(Ci|Ci-1)：

新领域文本的词汇表通过语言词典利用分级器F，就象在等式(2)中表示的一样，被分配了语言类别。这里每个新的单词自动被分配了至少一个语言类别。一个基本语言模型包含类别-双语法[3]的概率，这里这个概率一方面体现了语法结构，另一方面独立于单个的单词。这个范围，也就是说特别采用的主题领域，如果仅仅以一个近似的文本结构就象以基本语言模型为基础的练习文本为出发点，则类别-双语法的概率P(Ci|Ci-1)由基本语言模型被没有改变的引用。这种自动的分配是可能的，因为这种分配很大程度上不依赖于文本的内容，可以由此出发，即语言学标志和语言值，也就是一个在语言类别(见等式(2))中的映射，对于语言是特有的并且有利的是可以从一个主题领域(范围)被传送到其他的主题领域上。多个练习文本的语法结构是近似的或者相同的，不依赖于以每个练习文本为基础的主题领域(范围)。这个概率P(Ci|Ci-1)可以被采纳，基本语言模型的这个概率根据预先进行的练习过程被确定，描述了新文本词汇表的类别分配的基本知识，该知识不是必须被确定更新，而是基本语言模型详细的给出了大量的等级。

确定概率P(Wi|Ci)：

所有相关基本语言模型的新单词Wi的概率P(Wi|Ci)是被重新计算的并且以优先的方式相应的适应于在基本语言模型中存在的词汇表的概率P(Wi|Ci)(单词概率)。为了确定概率P(Wi|Ci)三个不同的方法被如下解释：

方法1：

新领域中所有新单词Wi的概率P(Wi|Ci)是以新领域的文本为基础被估计出来。以一个以语言类别为基础的基本语言模型为出发点，这里这个新的被估计的概率P(Wi|Ci)优先被引入到基本语言模型中并且由此借助新的文本得到基本语言模型的改编。首先这个优选方式被采用，如果新领域的新文本给出足够的范围。在上下文中得出的至少一个语言分类被分配给该新文本的每个单词。借助在[3]中描述的“标志工具”(Tagging-Tools)该语言学分类被实现。每个新单词Wi的概率P(Wi|Ci)借助于新文本被估计。

在图2中描述了用于确定单词概率P(Wi|Ci)的第一个改编方法。借助于分类器F211和语言词典206采用标志工具202(见[3]中对标志工具的详细解释)不仅利用由大文本201组成的数据库来确定一个较大的”被标志的”文本203而且也利用一个由新领域的小文本207(也就是说新文本)组成的数据库确定一个较小的“被标志的”文本208。利用较大的”被标志的”文本203借助语言模型发生器204一个基本语言模型205被确定，该基本语言模型是以语言类别为基础的。就象上面被详尽描述的那样，该概率P(Ci|Ci-1)被没有改变的用于新领域的语言模型中。利用“被标志的”的小文本208借助改编工具209确定了一个新的被优选改编的语言模型210，该改编工具是借助”被标志的”的小文本实现概率P(Wi|Ci)的估计。除了这个描述的改编以外并没有限制产生一个其他的语言模型。

方法2：

一个其他的方法减少了这个通过基本语言模型所获得的个别的单词概率P(Wi|Ci)并且传送这个被减少的文章到每个语言类别Ci中所补充的词汇表上(单词)。这是借助新单词的每个值P(Wi)被实现的。

在图3中描述了第二个用于确定概率P(Wi|Ci)的改编方法。利用分类器F311和语言词典306借助标志工具302利用由较大文本301组成的数据库确定一个“被标志的”的较大文本303。通过语言模型发生器304由”被标志的”的大文本303建立一个基本语言模型305，该模型以语言类别为基础。利用基本语言模型305该概率P(Ci|Ci-1)没有改变的被引入。借助新领域307的单词列表利用改编工具308确定一个改编的语言模型309。这里改编也可以包含语言模型的改变或产生。该改编工具308利用概率P(Wi)计算新单词的概率P(Wi|Ci)并且实现基本语言模型概率P(Wi|Ci)的改编。下面该方法被详细描述。

下面的值通过基本语言模型被给出：

Wi 基本语言模型的词汇表i＝1，...，N，

N 基本语言模型的词汇表数目，

N_C 基本语言模型的每个类别C中单词的数目

K 基本语言模型的类别数目，

P(Cj) j＝0，...k，基本语言模型类别的单语法(Unigramm)

概率

P(Cj|Cj-1) j＝1，…k，基本语言模型类别的双语法概率

P(Wi|Cj(Wi))和P(Cj(Wi)|Wi)

所有单词wi的基本语言模型的单词概率，i＝1，...N，和

所有类别Cj(Wj) j＝0，...k，

该类别适用于：单词Wi存在于语言类别Cj中

新领域的语言模型的语言类别构造相当于基本语言模型的语言类型构造。基本语言模型的分类器F(见等式(2))被引用。也就是说语言类别k的数目没有改变。对于新的领域是以结构近似的文本类似于以基本语言模型为基础的练习文本为出发点的。类别-双语法的概率P(Ci|Ci-1)和基本语言模型的类别单语法的概率P(Cj)保持不变。

概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被研究，这种概率总是与各个单词有关联。对于新领域中不包含在基本语言模型里的单词来说概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被重新计算。对于基本语言模型的单词已有的概率是不变的。

对于新领域来说给出了如下的值：

Wh 新领域的词汇表h＝1，...，L，该词汇表不包含在基本语

言模型中。

L 在该新领域的语言模型(目标语言模型)中的词汇表数

目，

Lc 在每个(语言)类别C中的基本语言模型的新单词Wh和

单词Wi数目

P(Wh) 新领域中依赖类别的单词概率。

概率P(Wh)利用带有单词频率的单词列表和基本文本的大小被给出。

概率P(Cj(Wh)|Wh)的估计：

为了估计概率P(Cj(Wh)|Wh)，对于新词汇表Wh来说总是以如下为出发点，即针对在这种类别Cj中的单词的P(Cj(Wh)|Wh)是近似相等的。因此下面的近似值是合适的：

p (C_{j} | w_{h}) \approx \frac{1}{N_{C}} \times Σ_{i = 1}^{N_{C}} p (C_{j} | w_{i}) - - - (6)

这里Wi表示基本语言模型的所有单词，这些单词属于类别Cj。

对于如下的实现示范性的研究了一个类别Cj。为了简化描述该类别Cj在下面被描述为类别C。

当前的概率值被重新标准化。然后这个“旧的”值利用一个代字符号被标明。

等式(6)的另一个近似答案是这些单词Wi的和，对于这些单词来说所有的语言类别和新单词的类别是相一致的。

为了计算新概率P(Wh|C(Wh))或者为了重新标准化已得到的概率P(Wi|C(Wi))采用了如下的方法：

1)确定词库中新单词的份额α

2)重新标定

\tilde{p} (w) - - - (7)

利用：

p (w_{i}) = (1 - α) \times \tilde{p} (w_{i}) - - - (8)

依照等式(11)确定份额α

3)确定类别C中新单词的份额1-γc

4)依照等式(17)确定

5)根据等式(16)确定γc，

6)确定概率P(Wh|C(Wh))是通过

p (w_{h} | C) = \frac{γ_{C}}{1 - α} \tilde{p} (w_{h} | C) - - - (9)

见等式(16)。该因子可以被说明为语言类别C中的旧单词

份额和所有词库中旧词库的份额的商。下面利用等式(8)确定份额α：

1 = Σ_{i = 1}^{N_{C}} \tilde{p} (w_{i}) = Σ_{i = 1}^{N_{C}} p (w_{i}) + Σ_{h = N_{C} + 1}^{L_{C}} p (w_{h}) =

= (1 - α) \times Σ_{i = 1}^{N_{C}} \tilde{p} (w_{i}) + Σ_{h = N_{C} + 1}^{L_{C}} p (w_{h}) - - - (10),

由此导致：

α = Σ_{h = N_{C} + 1}^{L_{C}} p (w_{h}) - - - (11) .

为了确定份额γC在等式(6)上采用了Bayes的句子(见[5])。下面是：

p (w_{h} | C) = \frac{p (w_{h})}{N_{C}} \times Σ_{i = 1}^{N_{C}} \frac{p (w_{i} | C)}{p (w_{i})} - - - (12) .

借助等式(12)并且采用概率值的标准化特性(见[6])可以指明：

Σ_{i = 1}^{N_{C}} P (w_{i} | C) + Σ_{h = N_{C} + 1}^{L_{C}} \frac{p (w_{h})}{N_{C}} \times Σ_{i = 1}^{N_{C}} \frac{p (w_{i} | C)}{p (w_{i})} = 1 - - - (13) .

对于

p (w_{i} | C) = γ_{C} \times \tilde{p} (w_{i} | C) - - - (14)

其中γC≤1并且作为旧的分配(没有重新标准化的)，适用于：

(1 + Σ_{h = N_{C} + 1}^{L_{C}} \frac{p (w_{h})}{N_{C}} \times Σ_{i = 1}^{N_{C}} \frac{\tilde{p} (w_{i} | C)}{p (w_{i})}) \times γ_{C} = 1 - - - (15) .

由此由等式(8)导致了：

γ_{C} = {(1 + \frac{1}{1 - α} \times Σ_{h = N_{C} + 1}^{L_{C}} \tilde{p} (w_{h} | C))}^{- 1} - - - (16)

其中

\tilde{p} (w_{h} | C) = \frac{p (w_{h})}{N_{C}} \times Σ_{i = 1}^{N_{C}} \frac{\tilde{p} (w_{i} | C)}{\tilde{p} (w_{i})} - - - (17)

方法3：

这个相关于基本语言模型的新单词Wi的概率P(Wi|Ci)在采用相应的单词列表时是相近似的。在优先方式下“方法2”所描述方法的解决策略被引入。这里新单词Wh的非现有概率P(Wh)是近似的。这得到了从属于所有单词Wh的主要种类HC。近似的得出：

这里利用了基本语言模型的单词Wi的特性。N_HC是基本语言模型的词汇数目，该词汇表处于主要种类HC里。这个总和是通过基本语言模型的所有类型Cj实现的，每个单词Wi都属于该类型。

确定概率P(Ci-1|Wi-1)：

最后这个概率P(Ci-1|Wi-1)被如下描述。说明如下，在等式(3)中概率P(Ci-1|Wi-1)指出了指数‘i-1’，该指数接下来被简化设置为指数i。

概率P(Ci|Wi)总是利用概率P(Wi|Ci)被确定得出，该概率P(Wi|Ci)就如上面所描述的那样：

P(C_i|W_i)＝K×P(W_i|C_i)×P(C_i) (4)

其中比例因子

K = {(\underset{C_{i}}{Σ} p (w_{i} | C_{i}) \times p (C_{i}))}^{- 1} - - - (5)

语言类别Ci这里包含对单词Wi来说有可能的所有语言类别。概率P(Ci)由基本语言模型被引用(基本语言模型所有语言类别的单语法-概率)。

在这个文本范围里引用了下面的出版物：

[1]G.Ruske著：“自动的语言识别-分类和标示的方法”，Oldenbourg出版社，慕尼黑1988，ISBN 3-486-20887-2，1-10页。

[2]L.Rabiner，B.-H.Juang著：“语言识别基础”，Prentice Hall1993，447-450页。

[3]P.Witschel著：“用于大词汇量的语言识别的构成语言学导向的语言模块”，第3届EUROSPEECH 1993，1199-1202页。

[4]F.Guethner，P.Maier著：“CISLEX-字典系统”，CIS-Bericht94-76-CIS，慕尼黑大学，1994。

[5]W.Feller：“概率原理的介绍及其应用”，John Wiley &Sons，1976，第124、125页。

[6]W.Feller：“概率原理的介绍及其应用”，John Wiley &Sons，1976，第22页。

Claims

1.在语言识别中通过计算机来确定至少两个单词的序列出现的概率的方法，

a)其中一语言含有语言学类别：

(C1，...Ck)＝F((f1，v11，...v1j)...(fm，vm1，...vmj))，

这里表示为

fm 语言学的标志

m 语言学标志的数目

Vm1...Vmj 语言学标志fm的语言学数值

j 语言学数值的数目

C1...Ck 语言学类别i＝1...K

k 语言学类别的数目

F 根据语言学类别由语言学标志和语言学数值构

成的映射准则

b)其中一个单词至少被分配了一个语言学类别；

c)其中至少两个单词的序列出现的概率通过如下公式被确定：

p (w) \approx Π_{i = 1}^{n} \underset{C_{i}}{Σ} \underset{C_{i - 1}}{Σ} p (w_{i} | C_{i}) \times p (C_{i} | C_{i - 1}) \times p (C_{i - 1} | w_{i - 1})

这里

P(w) 至少两个单词的序列出现的概率

W 至少两个单词的序列

wi 序列W的第i个单词(i＝1...n)

n 序列W的单词wi的数目

Ci 语言类别，该类别属于单词wi

Ci-1 语言类别，该类别属于单词wi-1

∑_Ci 所有语言类别的总和，该总和属于单词wi

p(wi|ci) 相应的单词概率

p(ci|ci-1) 双语法的概率(也就是：类别-双语法，双语法-概

率)

p(ci-1|wi-1)相应的类别概率

2.根据权利要求1的方法，其中，对于一个文本借助于预先确定的基本语言模型，该文本的概率P(Ci|Ci-1)被确定，其中概率P(Ci|Ci-1)从基本语言模型被接受。

3.根据权利要求2的方法，其中，概率P(Wi|Ci)根据至少一个如下的可能性被确定：

a)借助于文本确定概率P(Wi|Ci)，

b)对于单词Wi借助于预先给定的概率P(Wi)确定概率P(Wi|Ci)，

c)采用单词列表确定概率P(Wi|Ci)。

4.根据权利要求3的方法，其中，借助求出的概率P(Wi|Ci)该基本语言模型匹配。

5.根据权利要求3或4的方法，其中，借助于概率P(Wi|Ci)如下确定了概率P(Ci|Wi)：

P(C_i|w_i)＝K×P(w_i|C_i)×P(C_i)，

其中比例因子为

K = {(\underset{C_{i}}{Σ} p (w_{i} | C_{i}) \times p (C_{i}))}^{- 1}

6.根据上述权利要求之一的方法，其中，如果至少一个单词的序列出现的概率P(W)在预先确定的限制之上，至少一个单词的相应序列被识别，否则预先确定的措施被执行。

7.根据权利要求6的方法，其中，预先确定的措施是一个错误信息的输出或者是促使该方法的中断。

8.根据权利要求2到7之一的方法，其中，该文本被联系到预先确定的应用范围上。