CN1227657A

CN1227657A - 采用基于字典的词类概率的自然语言语法分析程序

Info

Publication number: CN1227657A
Application number: CN97195968A
Authority: CN
Inventors: 德博拉·A·库格林
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-06-28
Filing date: 1997-06-25
Publication date: 1999-09-01
Also published as: JP4024861B2; EP0953192B1; DE69725883T2; WO1998000833A1; US5878386A; DE69725883D1; EP0953192A1; JP2000513843A

Abstract

一自然语言语法分析程序通过利用一字典或其他词典作为词类概率的源来确定词类概率。对机器可读字典逐个单词地进行扫描。对每一单词计数对此单词列举的并与一词类相关的意义。然后根据所被计数的意义数计算对各词类的词类概率。此词类概率指明此单词要被认为其在一正文中是一特定词类的可能性程度。然后最大可能的词类由一语法分析程序在一正文输入字符串的第一分析期间备使用以改善此语法分析程序的正确性和效率。

Description

采用基于字典的词类概率的自然语言语法分析程序

本发明是关于进行自然语言正文语法分析的系统和方法。

自然语言处理系统是由自然语言正文的输入字符串智能地推导意义和上下文的计算实现软件。“自然语言”是人类讲的语言(如，英语、法语、日语)。计算不能没有辅助手段来区分自然语言正文的语言特性。例如，读取的自然语言正文中的一句子如下所示：

I saw a bird。

英语学生了解，在此句的上下文内，单词“I”为一代名词，单词“saw”是一动词，单词“a”为一形容词，和单词“bird”为一名词。但在其他句子的上下文中，同样的单词可能表现不同的词类。考虑下句：

Use a saw。

英语学生知道单词“Use”为一动词，单词“a”为一形容词，而单词“saw”为一名词。应看到，单词“saw”在此二句中被用作为不同的词类，讲英语都明白一个是动词而一个是名词。但对于一计算机，单词“saw”以相同的位串表示因此可能对二句子是同样的。在此二句子中，当单词“saw”为一动词时，计算机可能会等同地认为单词“saw”为一名词。自然语言处理系统协助计算区分不同的上下文中单词如何被使用和采用规则来构成可理解的正文。

图1表示一通常以软件实现而在一计算机上执行的自然语言处理系统20的通用组成部分。此自然语言处理系统20包括有一词法分析程序22，其将输入正文字符串变换成含有来自词典和系统的词态学组成部分的信息的记号流。此词法分析程序22确定可能的词类、人员、数量和各记号(单词)的其他语法特征。在此例中，假定输入字符串是短语“school finishes”。词法分析程序22可能分析单词school如下：

单词：school

词类：

名词

特征：第三人称，单数

动词

特征：复数，不定式，现在时态

形容词

特征：前修饰名词

词法分析程序22利用这些组分构成用于输入字符串正文中各单词的通常称之为词法记录的数据结构。一语法分析程序通过使用由词法分析程序22所产生的词法记录生成用于输入字符串的一语法分析，将词法记录成为成分以形成更大的成分直至产生一或多个完全树。语法分析程序24的产物被传送到一逻辑规格化器26，它将语言学上等同的局子(例如，“John ate an apple”基本上等同于“an apple was eaten byJohn”)作成一规格化形式。最后，一意义消除多义性程序28分析在语法分析、语法和逻辑处理之后在句中可能留下的多义性。例如，意义消除多义性程序28可处理单词school是一建筑或者是finishes(结束)的活动。

本发明特别具体涉及有关自然语言语法分析的问题。普通的自然语言语法分析一般是两种类型：“统计“和”基于规则”之一。当前较流行的统计语法分析通过对语言资料库的一小采样部分中所用单词的统计数进行计算来确定语法分析参数。一旦计算出统计数后，当在分析改大的语言资料库时该统计语法分析依据于这些统计数。这在下面更详细说明。

基于规则的语法分析以语言规则的形式存储有关语言的结构的知识。语法分析利用关于在字典或“词典”中找到的或通过形态处理(词法分析阶段所建立的)推导得的个别单词的语法和形态信息。成功的语法分析要求语法分析程序(文法)具有必须的规则且词法分析程序提供语法分析程序分析在该阶段可能发生那样多的多义性所需的所有细节。

自然语言语法分析程序在能够对许多不同类型的通用自然语言正文作语法分析时被说成具有“很宽的覆盖范围”。为达到宽的覆盖范围，一自然语言语法分析程序需要一包括有经常和很少使用的单词的完全的词典。在要实现宽覆盖范围时即使最稀罕的词类也应提供。

宽覆盖范围，基于规则的自然语言语法分析程序有一缺点，即它们为生成、加强和维护此语法分析程序需要由高度熟练的语言学家进行大量的字典数据和规则编写的劳动。对所需信息作人工编码既费时又易出错。一标准的联机字典表示由熟练字典编辑人员所作的数百年的手工编码。

机器可读字典(MRD)被适配来应用于自然语言分析程序。MRD提供一为宽覆盖范围所需的大而完全的词典。虽然字典证明可用于作为用于自然语言语法分析程序的广泛的词汇的来源，但它们的完全性导致了很难解决的多义性。解决词类方面的多义性呈现一特别困难的问题。American Heritage Dictionary(1992版)具有近18500个具有多重词类的单词，它表明占条目总数(包括字尾变化的)的接近12％。而且这些单词常常是普通的常用词。一个研究人员研究Brown Corpus(一由来自许多不同主题的自然语言正文组成的公知的很大的一百万单词集合体)发现此Corpus中各独特单词仅11％是词类多义的。但是，这些同样单词在Brown Corpus中占据48％的生疏正文，证明词类多义的单词趋向于普通常用的单词。见A.W.Mackie,T.K.McAuley和C.Simmons编的For Henry Kucera中的“Probability andGrammatical Category:Collocational Analyses of English andGreek”(DeRose,S.J.,1992),Michigan Slavic Publications,Universityof Michigan,pp125～152。

在计算上可希望语法分析程序能从潜在的很大数量的可能语法分析中选择最可能的语法分析。如果要考虑多于一个的语法分析，对输入的处理即很快变成为复杂而效率低下的。为减少可能的分析的数量，有必要开发协助语法分析程序有效地解决词类多义性的方法。

一种现在技术语法分析采用一增扩的转移网络(ATN)。一ATN类似于一递归转换网络，其中它是一带有标明的状态和弧线的定向图，所不同的是ATN允许加入要被满足的条件和要对弧线执行的结构建立操作。ATN常常生成多重的和不大可能的语法分析，因为它们不能成功地分析词类的多义性。见A.W.Mackie,T.K.McAuley和C.Simmons编辑的For Henry Kucera中的“Current Practice in Part of SpeechTagging and Suggestions for the Future”(Church,K.W.1992),Michigan Slavic Publications,University of Michigan,pp13～48。这对所有宽覆盖范围的基于规则的途径多半是如此。为实现宽覆盖范围，一语法分析程序必须能分析在实际正文中发现的各种不同结构。当在一单个句子中存在有相对于其词类方面是多义的多个单词时，确定最可能的语法分析成为一困难任务。在当要实现真正的宽覆盖语法分析时这一问题成为极端。

过去25年发展的另一现有技术是采用用于词类确定的统计模型。此统计模型利用统计语法分析程序被实现。采用统计方法，统计语法分析程序最初运行在训练模式中，其中它接收已被语言学者以指明词类的标记注解的输入字符串和其他字符。统计语法分析程序记录反映这些标记对输入字符串的部分的应用的统计数。在相当数量的使用加标记的输入字符串的训练之后，统计语法分析程序进入语法分析模式，其中它接收原始的未加标记的输入字符串。在此语法分析模式中，统计语法分析程序应用在此学习模式期间汇集的训练统计数来建立用于未加标记输入字符串的语法分析树。

早先的统计语法分析程序版本要求一很大的规则数据库和一很大的训练语言资料库来为稍后用于确定词类提供足够的统计。从那时起在标记算法的效率、简便化、和准确性及在降低规则数据库方向已取得长足进展。尽管规则数据库被缩小了，而仍然需要很大的训练语言资料库。统计方法常常需要一已以词类信息备手工加以标记的训练语言资料库。

在为避免使用很大的训练语言资料库的努力中，一开发者提议采用基于规则的语法分析程序来由未加标记的语言资料库推导词类和规则概率。通过将词类和规则概率结合进同一语法分析程序，而使此语法分析程序的速度和准确性得到改善。这一方法被介绍在文献Richardson,S.D.1994“Bootstrapping statistical Processing into a Rule-basedNatural Language Parser”,Proceeding of the ACL Workshop“Combining symbolic and statistical approaches to Language”,pp96～103。它也是美国专利申请No.08/265,845(1994年6月24日递交)和PCT申请No.PCT/US95/08245(1995年6月26日递交)的主题，它们的标题为“Method and System for Bootstrapping StatisticalProcessing into a Rule-based Natural Language Parser”。

但统计del基于规则的语法分析程序是假定一大的语言资料库和一相当综合的语法分析器的可用性。在英语中，大的各方面较好协调的语言资料库象Brown Corpus(Kucera和Francis,1967)和LancasterOslo/Bergen(LOB)Corpus(Johansson等，1978)是适用。但不幸这样的语言资料库在其他语言中不总是可用的。

因而，本发明者开发了一种用于推导词类概率而无需依赖大的较好协调的训练语言资料库的改进。

本发明涉及一种通过使用字典或其他词典作为词类概率来源确定词类概率的自然语言分析程序和方法。按照一个方面，一种方法要求一次一条地检验一词典(例如字典)中的单词。对一单词所列举的与词类相关的意义数加以计数。例如单词school可具有13个名词意义和2个动词意义。然后根据被计数的意义数推导词类概率。词类概率提供该单词是一与其它词类有别的特定词类的可能性的指示。根据此意义计数值，单词school在自然语言正文中与动词相反被用作名词的可能性较高，因为名词与用于动词的2个意义相比较具有13个意义。具有各种为计算词类概率的方法。例如，可通过将可归因于一词类的意义的数量除以字典中对此单词所列意义的总数来推导绝对概率。对于单词school，用于名词的词类概率为87％(13÷15=0.87)而用于动词的词类概率为13％(2÷15=0.13)。也可根据对不同词类的相对意义计数来确定相对概率。例如，单词school具有名词对动词的比例-13∶2，指明单词school更可能是一名词而不是动词。也可利用其他的数学关系。

确定意义计数值和词类概率最好采用计算机实现的自动化过程来完成。计算机被编程来一次一条地读一机器可读的字典。如果此字典包含原先以它们的语义或词根形式被例举的单词，计算机即可任选地生成这些单词的词尾变化的形式并产生字典中的附加词条由此扩展原始词典15。一单词的“词尾变化的”形式是一种从词根形式被改变来标明格、性、数、时态、人称、语气、语态、或比较的区别的形式。对每一词条(语义或词尾变化的形式)，计算机计数所列举的意义。如果此单词为一词尾变化的形式，计算机即将对此词尾变化的形式条目所列举的意义数和对语义条目列举的意义数相加。然后计算机从意义计数值计算词类概率。

一实施例中，词类概率与单词相应地被永久存储在机器可读字典中。以这一方式，可从存储器检索用于各单词的概率，而不必每次重新计算概率。另一方面，词类概率可在单词在字典中被应用和备引用时在进行中被计算。

当语法分析程序开始分析输入正文中一句子时，对该输入正文的各记号(单词)，具有最高概率的词类最初被装载进语法分析程序。当在要构成其第一语法分析时，语法分析程序利用此最有可能的词类。如果它成功地产生良好形成的语法分析，它即无需再试其他词类或再构成其他语法分析。此第一个成功的语法分析常常是采用这种方法的最可能的语法分析。结果，语法分析程序的正确性得到改善并生成较少的多重分析。由于推导概率无需一个成熟的语法分析程序(即一个已经过一定时间自正文学习的程序)或相互加以标记的语言资料库，它们即可被用在开发一语法分析程序的早先阶段，协助在开发一语法分析程序时的文法规则编写者。

所列附图为：

图1为一通常自然语言处理系统中功能组成部分的方框图；

图2为说明其上实现有一自然语言处理系统的计算机的示意图；

图3为该计算机和自然语言处理系统的方框图；

图4为一用于从计算机可读字典确定词类概率的计算机实现设备的方框图；

图5为按照本发明的一方面的用于分析自然语言正文的计算机实现语法分析程序的方框图；和

图6为分析自然语言正文的方法中的步骤流程图。

图2表示一通常的台式IBM兼容计算机形式的计算机。计算机30具有中央处理单元(CPU)32，显示监视器34，键盘36，鼠标器38，和声音或音频输入麦克风40。计算机除键盘36、鼠标器38、和声音输入装置40还可有、或者代之以其他输入装置，包括跟踪球，指示笔等。

计算机30还具有用于与兼容软存储磁盘44(如3.5”盘)接口的软盘驱动器42和与兼容CD-ROM48接口的光盘驱动器46。在所述实现中，存储装置可被用来存放综合性机器可读字典，例如电子版的American Heritage Dictionary。在这里所用例子中，电子版AmericanHeritage Dictionary是从发行的磁带推导出并被变换到自然语言系统中所用的结构。示出的软盘和CD-ROM是供讨论用，也可以采用其他形式的存储器。

图3表明计算机30的功能方框图。计算机30具有处理器50，易失性存储器52(如RAM)，和非易失性存储器54，相互以内部总线56连接。非易失性存储器54代表许多不同形式的存储器，包括集成电路芯片(如ROM、EEPROM)，一或多个盘驱动器(如软盘、光盘、硬盘)，或者这些存储器形式的组合。显示器34被通过适当的硬件接口驱动器(未图示)被连接到总线56。另外，输入装置(键盘36、鼠标器38、和声音麦克风40)被连接以经由适当的I/O端口例如串行RS232端口提供数据到总线56。

计算机10运行支持多重应用程序的操作系统58。此操作系统58被存放在非易失性存储器54(如计算机硬盘驱动器)上并在处理器50上执行。操作系统最好是一能同时执行多个应用程序的多任务操作系统，虽然本发明的方面可利用一单任务操作系统来实现。此操作系统来用一图形用户接口的窗口环境，它表示在专门勾划出的被称为“窗口”的显示屏幕的区域中的应用程序或文件。各窗口具有可使用户相对于显示屏幕放大或缩小应用程序或文件的其自己的可调边界。各窗口可独立地操作，包括其自己的菜单，工具条，指针，和其他控制，就好象它是一虚拟显示装置。一种优选操作系统是Microsoft Corp提供的Windows^品牌操作系统，如Windows^95或Windows NT ^TM或Windows^的其他派生版本。但另外一些提供窗口环境的操作系统也可采用，例如Apple Corp.的Macintosh OS和IBM的OS/2 PresentationManager。

自然语言处理(NLP)系统60被存放在非易失性存储器54中。NLP系统60包括有一语法分析程序62和一综合的、宽覆盖范围的词典或字典64。在所述实现中，此语法分析程序是一宽覆盖范围的基于规则的自然语言语法分析程析，它以软件实现、存储在存储器54(如硬盘或CD-ROM)中，并在处理器50中执行。

应指出，本发明是在一熟悉的台式计算机的角度范围内加以说明的，如图2所示。一示例计算机包括带有一4兆字节或更大的RAM的386或更好的微处理器。但本发明的方面也可被应用于其他形式的计算装置，包括膝上机，手持式计算机，和主要被配置用于自然语言处理的专用计算机设备。

本发明主要涉及NLP系统60的语法分析组成部分。一为结合本发明结合应用的优选语法分析程序是一下列参数文献中所介绍的一基于规则的自然语言语法分析程序：美国专利申请No.08/265845(Richardson等人在1994年6月24日递交)和PCT申请No.PCT/US95/08245(1995年6月26日递交)，标题为“Method and Systemfor Bootstrapping Statistical Processing into a Rule-based NationalLanuage Parser”。这些申请被转让给Microsoft Corp.，在此结合作为参考。

按照本发明一方面，以上所引用申请中所述的语法分析程序被修正来利用一综合字典作为词类数据源。更具体说，此语法分析程序利用字典中对个别单词所列举的意义数作为推导被用来确定一单词在一自然语言正文中将多半是的词类的词类概率的基础。

现参照图4～6说明本发明的一实现。图4和5表明其操作被参照图6的流程图的步骤说明的功能组成部分。

图4表示用于利用机器可读字典64确定词类概率的计算机实现的处理设备70。处理设备70可与NLP系统06无关地被实现，由此来预先确定词类概率并同该字典被存贮供将来由NLP系统应用。另外，可将设备70结合进NLP系统60(如实现作为语法分析程序的部分)。后者的实现可允许NLP系统60灵活地预计算用于许多字典条目的词类概率，或在其引用字典中各单词进行中计算它们。

此综合性字典65具有用于相应单词的多个字典条目。在各词输入后一或多个意义被列出。其意义反映一或多个词类。作为举例，AmericanHeritage Dictionary将单词划分成8个词类：名词，动词，形容词，副词，代名词，介系词，连接词和感叹词。大多数单词仅有一个词类，剩下的少量单词具有二或多个词类。American Heritage Dictionary(1992版)具有约18500个带多重词类的单词，这表明接近条目总数(包括词尾变化的形式)的12％。

最初，字典64可能包含基本上为它们词根或“语义”形式的单词，而不是它们的“词尾变化的”形式。一单词的“词尾变化的”形式是一种从词根形式被改变来标明格、性、数、时态、人称、语气、语态或比较式的区别的形式。下表列出单词的语义和词尾变化的形式的二个示例。

语义词尾变化的形式

School Schools,Schooled,Schooling

Finish Finishes,Finished,Finishing

处理单元70读字典，一次一条目(图6中步骤110)。如果字典没有用于一单词的词尾变化的形式的条目，处理单元70即产生一个。较具体说，处理单元70具有一词尾变化的形式发生器72，其接收一单记号的词义形式并生成词尾变化的形式(图6中步骤112)。词尾变化的形式通过由字典64所提供的词尾变化范例和信息的基于规则的生成来自动地确定。词尾变化的形式作为用于初始计算的词汇化的条目被处理。在此说明性示例中，finish的语义形式和来自字典64的其他信息被传送到词尾变化的形式发生器72，其生成对词尾变化的形式finishes,finished和finishing的单词记录。对词尾变化的形式的这些单词记录被存放在字典中以产生计及单词的语义和词尾变化的形式双方的扩展字典版本。

在此同一或随后的通过字典期间，处理单元70确定各条目的词类概率。处理单元70具有一意义计数器74，其对为此字典条目列举的与一词类相关的意义数进行计数(图6中步骤114)。此意义计数器74产生每一个词类概率的一词类(POS)计数Cpos。单词School具有列举在American Heritage Dictionary中的13个名词意义和二个动词意义。因而，意义计数器74产生一名词计数C_NOUN=13和一动词计数C_VERB=2。意义计数器74也可结算一总的计数C_TOT，在此例中C_TOT=15。

如果字典条目是一单词的词尾变化的形式(即图6中步骤116的分支“yes”)，意义计数器额外地对单词的语义形式所列举的意义加以计数(图6中步骤118)。对语义和词尾变化的形式的计数随后被加以组合来产生词类计数C_POS(图6中步骤120)。例如，单词fell是一字典条目(在其自己方面的语义，即he felled the trees)和单词fall的一词尾变化的形式(fall的过去式)。对单词fell的字典条目/语义条目具有2个动词意义，6个名词意义，和4个形容词意义。语义fall具有24个动词意义。因为fell是一语义和fall的词尾变化的形式两者，意义计数器74即将用于fell的来自字典条目/词义条目的2个动词意义加到对语义形式fall所列举的24个动词意义来产生一动词计数C_VERB=26。

带有由词尾变化的形式发生器72所产生的词尾变化的形式的条目可能没有任何与此相关的条目所列举的意义，而仅仅是词类的表示。例如，词尾变化单词finishes的条目包含识别此单词为一动词和一名词的信息。单词finishes的语义形式具有9个动词意义和7个名词意义。在考虑单词finishes时，意义计数器将增加对于词尾变化的形式条目的动词意义数(这种情况下为零)到对于语义条目的动词意义数(它是9)。意义计数器74还将增加对于词尾变化的形式条目的名词意义数(在此情况下为零)到对于语义条目的名词意义数(它为7)。这样得到动词计数C_vERB=9和名词计数C_NOUN=7。

察看此法的另一种方式是对于词根形式中适当词类的意义数被分派到对于词尾变化的形式的字典条目。例如单词cats既可以是一复数名词又可以是一现在时代的第三人称的单数动词。因此自cat的名词和动词意义双方得到的意义计数即被分派给cats的词点条目。结果对单词cats具有12个名词意义和二个动词意义。另一方面，词尾变化的形式catting仅被用作为一动词，因此仅有cat的二动词意义被分派给catting的字典条目。

对于一些单词，意义计数器调谐意义计数以提供它们之间更好的伸展可能是有用的。这就是说，具有接近均匀分配的词类意义的单词可被控制来扩展此分配，而明显偏向于超过另一个的一词类的单词被单独留下。例如，单词finish具有相当均匀的分配，其中9个动词计数和7个名词计数。这些值可通过增加最高数和减少最小数来加以调整以此增加它们间之差。通过这样的调节，语法分析程序将更倾向于保持最可能的词类一较长的时间周期因为它实际上显现为更为可能。

处理单元70具有计算单元76，它自意义计数器74接收词类计数C_pos和总计数C_TOT。计算单元76对各单词计算一或多个表明此单记号为特定词类的可能性程度的词类概率(图6中步骤122)。如果该单词仅有一个词类，可容易地计算该词类概率为100％，指明此单记号将总被用作为该词类。但对于具有多重词类的单词，计算单元76对各词类产生词类概率P_POS。

计算单元76可被配置来计算不同的概率的量度。例如，此计算单元可按照意义计数C_POS和总的意义计数C_TOT的函数来推导对各词类的绝对概率。更具体说，词类概率P_POS被作如下定义：

P_POS=C_POS÷C_TOT

对于单词school，计算单元76推导对一名词的词类概率，等于13个名词意义被15个总意义除得到的87％(即0.87=13÷157)。一动词的词类概率等于2个动词意义被15个总意义除得到的13％(0.13=2÷15)。

计算单元76还可根据对不同词类的相对意义计数来计算相对概率。例如，单词school具有名词对动词的比例13∶2，表明单词school在正文中与作为一动词相比具有更大可能作为一名词。确定相对概率具有免除需要总意义计数C_TOT这一优点。

更简单地，此原始计数可被用作为伪词类概率。具有最高意义计数的词类被看作是相应单词的最有可能的词类。计算单元76可被配置以对不同词类的不同词类计数进行比较，并指出哪一词类具有最高计数。或者，处理单元70也可存贮作为由意义计数器74输出的对各词类的原始计数，完全避开计算单元76。在最简化的状态中，处理单元70可在字典中存贮一单个标记，表示具有最高计数的词类。

处理单元70通过所有字典条目进行。所计算的词类概率与单词相关连地存放在字典64中，或在一独立的数据记录中(图6中的步骤124)。这些词类概率然后被用来在语法分析一正文时协助选择要被用于自然语言分析程序中的起始词类。

图5表示一利用字典64作为其词类数据源的基于规则的自然语言分析程序62。语法分析程序62和字典63通过词汇分析程序63相连接。字典64基本上与上面对照图4所述的相同，但被说明为备组织成为易于传送到语法分析程序62的记录。另外，也可采用由字典64推导的另一个词典。各字典条目指定用于一相应单词的一或多个词类记录，如记录80～88所表明的。词类记录在词类外还包括其他信息，例如人称，数，和时态。对一给定单词各词类均有一记录。作为示例，字典64包含单词school它具有覆盖二不同词类的名词记录86和动词记录88。

在此被说明的实现中，词类记录80～88包含早先由处理单元推导得的词类概率，如上面参照图4所说明的。以这种方式，词类概率被与相应单词相关连地列举。对于单词school，名词记录85包含名词概率87％，而动词记录88包含动词概率13％。

输入正文字符串90通过词汇分析程序63馈送到语法分析程序62。在此说明例中，输入正文90由-2单词语句“school finishes”组成。语法分析程序62运行来分析这一输入字符串。此语法分析程序62包括一组增扩的短语结构文法规则92。此语法分析程序62还包含一语法分析程序控制器94，它应用词汇记录(亦即由字典和形态分析取得信息由词汇分析程序所生成的条目)和规则以在工作区或图表96中产生新的记录。字典可能不具有在正文中发现的每一个单词。例如，单词finishes在正规字典中是没有的，虽然它存在于扩展的字典64的概率文件中。词汇分析程序63生成包括有概率信息和形态信息的记录(即识别finishes为一复数名词和一单数动词)。图表96中的记录然后被用于编制用于此输入字符的一语法树，以便最后生成此图表中的一或多个句子记录。

在对输入字符中90作语法分析的开始，图表96不含任何记录。语法分析程序控制器94通过按照规则92选择对应于输入字符中90中的单词的一或多个词汇记录开始并在图表96中生成一记录。语法分析程序控制器94根据其对应词类概率选择一词类记录，且最好是一表示最可能的词类的词类记录(图6中的步骤126)。对于输入正文Schoolfinishes。语法分析程序控制器96选择对单词school的名词记录86，因为它具有最高的词类概率(名词为0.8，而动词为0.13)。这一词类概率指明单词school较之作为动词更可能被用作为一名词。因此，最开始试用单词school作为一名词是该语法分析程序的最佳起始点。名词记录86被复制进图表96如条目98表示。同样地，语法分析程序控制器94通过词典规则备指引以包括单词finishes的动词图表条目100，它包含来自字典64的动词记录84。

在一实现中，一被排序的队列被用来存放输入字符串90中所有单词的所有词类记录。对于输入文本school finishes，例如，连同对单词finishes的名词和动词记录84、85一齐将对单词school的名词和动词记录86、88加载进此队列。对此输入字符串中的各个单词，被认为最可能的词类记录被置于队列的顶部。因而school名词记录86和finishes动词记录在此队列中被置于school动词记录88和finishes名词记录85的上部。这就保证了对此输入正文中各单词，最可能的词类记录最先可能用于语法分析程序。队列的其余包含以相对词类概率的递减顺序由最高到最低地分类的规则和词类记录两者。

一旦被初始化，语法分析程序62即根据词典规则92开始分析正文(图6的步骤128)。在词类记录被输入进图表96时，所有可应用规则(根据组成序列的检测)也被置入相同或不同的队列。这组被图表语法分析程序所用的增扩的短语结构文法规则被优化来仅产生对各句的一个分析，虽然多个分析和拟合的分析也是可能的。利用被输入进图表96的词类记录来应用规则。如果需要的话，随后的辞类记录以它们在队列中所处的次序被输入图表96。当发现对整个输入字符串的一语法分析树，此过程即结束。

一可适用的基于规则的语法分析技术更详细的解释在先前所引用的、在此被结合作为参考的Ricnardson等的美国专利申请No.81/265,845和PCT申请No.PCT/US95/08245中有说明。

上述的语法分析程序和方法具有数个优点。通过计算一综合性机器可读字典中的每词类的意义数来确定最可能的词类并然后将该信息提供到基于规则的语法分析程序，生成得到改善的语法分析和较少的多重语法分析。而且，这种计算词类概率的方法的实现无需利用成熟的语法分析程序、或被加以标记的语言资料库。另一好处是，词类概率源，一机器可读字典，是一可被进一步用于所有其他等级的自然语言处理的极有用的工具。

与规则相一致地，本发明已被以或多或少对结构和方法特征专用的语言进行了说明。但应当理解，本发明并不局限于所述的专有特征，因为这里所揭示措施是实现本发明的优选形式因此，本发明被要求以在所附权利要求的正当范围之内它的任何形式或变型能按照等效原则加以恰当的解释。

Claims

1、一自然语言处理系统的语法分析程序中的方法，包括步骤：

对一字典中的相应单词检验个别的字典条目；

对一个别字典条目，计数在此字典条目中列举的与一词类相关的多个意义；和

根据与一特定词类相关的意义数推导一指明一字典条目是一特定词类的可能性程度的词类概率。

2、权利要求1中所述方法，其中此检验步骤包括使用一计算装置读取一计算机可读字典的步骤。

3、权利要求1中所述方法，还包括下列步骤：

计数此字典条目的意义的总数；和

计算作为对此词类计数得的意义数和总意义数的函数的词类概率。

4、权利要求1中所述方法，还包括以下步骤：

计数列举在此字典条目中的与每一词类相关的意义数；和

根据与不同词类相关的各不同意义数确定哪一词类是最大可能的。

5、权利要求4中所述方法，还包括将此最大可能的词类输入进此语法分析程序的步骤。

6、权利要求1中所述方法，还包括下列步骤：

确定此字典条目是否是由另一字典条目所构成的一语义的一词尾变化的形式；

在该字典条目是一词尾变化的形式的情况下，对可归因于语义字典条目的各词类的意义数和对可归因于词尾变化的形式字典条目的各词类的意义数进行计数；和

将可归因于语义字典条目与词尾变化的形式字典条目的意义数相加以推导对此词尾变化的形式字典条目的词类概率。

7、权利要求1中所述方法，还包括以下步骤：

计数列举在此字典条目中的与每一个词类相关的意义数；和

根据与该词类相关的语义数推导对所有词类的词类概率。

8、权利要求1中所述方法，其中此字典条目具有第一和第二词类，还包括以下步骤：

计数对第一词类的第一意义数和对第二词类的第二意义数；和

修正此第一和第二数中至少一个来增大此第一与第二数间之差；和

根据被修正的第一和第二数推导对第一和第二词类的词类概率。

9、权利要求1中所述方法，还包括以下步骤：

对字典中许多字典条目推导词类概率；和

作为字典的部分保存与字典条目相关连的词类。

10、存贮在计算机可读存储器中的计算机可读字典，结合有作为权利要求9中所述方法的结果所生成的词类概率。

11、一种被编程来执行权利要求1中所述方法的步骤的计算机。

12、一存贮在存贮媒体中的且可在被编程来执行权利要求1中所述方法的步骤的过程上执行的计算机实现的基于规则的语法分析程序。

13、一计算机可读存贮器，其指引一计算机执行权利要求1中所述方法的步骤。

14、在用于确定一单词在一自然语言正文中可能为哪一词类的自然语言处理系统中，该单词带有归因于它的多个意义地被列举在一字典中，这些意义反映此单词在不同上下文中可能呈现的多个不同词类，一方法包括步骤：

计数对此单词可能呈现的各词类在此字典中列举的意义数；和

根据结合一特定词类被计数的意义数推导一表明此单词是该特定词类的可能程度的词类概率。

15、权利要求14中所述方法，还包括以下步骤：

计数该字典中所列举的意义的总数；和

计算作为对该特定词类计数的意义数和意义总数的函数的词类概率。

16、权利要求14中所述方法，还包括以下步骤：

推导对该单词可能呈现的各词类的一词类概率；和

从这些词类概率确定最可能的词类。

17、权利要求14中的所述方法，还包括以下步骤：

推导对字典中多个单词的词类概率；和

作为该字典的部分存储与这些单词相关的词类概率。

18、存贮在一计算机可读存贮器中的计算机可读字典，其结合作为权利17中所述方法的结果生成的词类概率。

19、一被编程来执行权利要求14中所述方法的步骤的计算机。

20、被存贮在存贮媒体中并可在被编程来执行权利14中所述方法的步骤的过程上执行的计算机实现的基于规则的语法分析程序。

21、一计算机可读存贮器，其指引一计算机执行权利要求14中所述方法的步骤。

22、在用于确定一单词在一自然语言正文中可能是哪一词类的自然语言处理系统中，该单词带有归因于它的多重意义地列举在一字典中，这些意义反映此单词在不同上下文中可呈现的多个不同词类，一方法包括步骤：

计数对此单词可能呈现的各词类在字典中所列举的意义数；和

使用对各词类计数的意义数作为一该单词是一特定词类的可能性程度的指示。

23、权利要求22中所述方法，还包括初始化此语法分析程序来以具有最大意义数的词类起始分析。

24、一被编程来执行权利要求22中所述方法的步骤的计算机。

25、一被存贮在存贮媒体中并可在被编程来执行权利要求22中所述方法的步骤的过程上执行的计算机实现的基于规则的语法分析程序。

26、一计算机可读存贮器，其指引一计算机执行权利要求22中所述方法的步骤。

27、在一自然语言处理系统中，一方法包括以下步骤：

对在一字典中作为字典条目列举的语义，生成此些语义的词尾变化的形式；

对各语义，计数此字典中可归因于此语义的各词类的意义数；

对各词尾变化的形式，计数可归因于此词尾变化的形式的各词类的意义数且对各词类，将可归因于词尾变化的形式的意义数与可归因于由其生成此词尾变化的形式的语义的意义数相加；和

根据在所述计数步骤中计数的意义，对各语义和词尾变化的形式，推导一指明此语义或词尾变化的形式是一特定词类的可能性程度的词类概率。

28、权利要求27中所述方法，还包括使用一计算装置读取一计算机可读字典的步骤。

29、权利要求27中所述方法，还包括以下步骤：

使用一计算装置读一计算机可读字典，此计算机可读字典具有基本为语义的字典条目；和

扩展此计算机可读字典以包括有用于语义的词尾变化的形式的字典条目；和

在所述计数步骤中使用该扩展字典作为计数这些意义的源。

30、权利要求27中所述方法，还包括以下步骤：

对可归因于一语义或一词尾变化的形式的每一词类重复计数步骤；和

推导对每一词类的多个词类概率。

31、权利要求30中所述方法，还包括以下步骤：

确定最可能的词类；和

输入此最可能的词类进语法分析程序。

32、权利要求30中所述方法，还包括保存与此语义或词尾变化的形式相关连的多个词类概率的步骤。

33、存贮在一计算机可读存贮器中的计算机可读字典，其具有作为权利要求32中所述方法的结果的产生的词类概率。

34、一被编程来执行权利要求27中所述方法的步骤的计算机。

35、一存贮在一存贮媒体中且可在一被编程来执行权利要求27中所述方法的步骤的过程上执行的计算机实现的基于规则的语法分析程序。

36、一计算机可读存贮器，其指引一计算机执行权利要求27中所述方法的步骤。

37、一种用于对一自然语言正文进行语法分析的方法，包括根据被推导的作为与词类相关的被列举在一字典中的意义的数量的函数的词类概率，选择用于该正文中一单词的一词类的步骤。

38、权利要求37中所述方法，还包括对此单词初始选择一带有如由具有字典中所列举的意义最大数量的词类确定的最高词类概率的一词类的步骤。

39、权利要求37中所述方法，还包括对此单词以如由字典中对可归因于此单词的各词类所给出的意义数所确定的词类概率的递减次序顺序选择词类的步骤。

40、一被编程来执行权利要求37中所述方法的步骤的计算机。

41、一存贮在一存贮媒体中且可在被编程来执行权利要求37中所述方法的步骤的过程上执行的计算机实现的基于规则的语法分析程序。

42、一计算机可读存贮器，其指引一计算机执行权利要求37中所述方法的步骤。

43、一用于对自然语言正文进行语法分析以确定一单词在此正文中所呈现的词类的方法，包括为一起始语法分析选择该单词的与字典中所列举的最大意义数相关的一词类的步骤。

44、一用于确定一单词在一自然语言正文中可能为哪一词类的设备，其包括：

一意义计数器，从一机器可读字典扫描单词并对各单词计数与可归因于此单词的各词类相关的意义数；和

一计算单元，根据由该意义计数器计数得的意义数，为各单词计算指明该单词是一特定词类的可能性程度的词类概率。

45、权利要求44中所述设备，其中：

该意义计数器计数可归因于所有词类的意义总数；和

该计算单元计算作为为各相关词类计数的意义数和意义总数的函数的词类概率。

46、权利要求44中所述设备，其中：

此机器可读字典包含语义形式的和此语义形式的词尾变化的形式的单词；

在该单词为词尾变化的形式的情况下，此意义计数器计数与可归因于此单词的语义形式的各词类相关的意义数和与可归因于此单词的词尾变化的形式的各词类相关的意义数；和

此计数单元将来自意义计数器的对语义和词尾变化的形式双方的计数相加用于推导对此单词的词尾变化的形式的词类概率。

47、权利要求44中所述设备，其中：

此单词具有第一和第二词类；

此意义计数器计数用于第一词类的第一意义数和用于第二词类的第二意义数；和

此计算单元修正第一和第二数中至少一个来增大此第一与第二数间之差并根据被修正的第一和第二数计算词类概率。

48、一计算机化的基于规则的语法分析程序处理系统，包括权利要求44中所述设备。

49、一用于对自然语言正文进行语法分析以确定单词在此正文内呈现哪一词类的语法分析程序，此语法分析程序被配置以根据一对应于在此正文中一单词的一词类的词类概率，选择起初地试用的该单词的一词类，此词类概率作为一字典中所列举的与此词类相关的意义数的函数被推导出。

50、权利要求49中所述语法分析程序，其中此语法分析程序选择具有如由具有此字典中所列举的相对于对其他词类所列举的意义为最大数量意义的词类所确定的一最高词类概率的词类。

51、权利要求49中所述语法分析程序，其中此语法分析程序以如由字典中列举的与各词类相关的意义数所确定的相对词类概率的递减顺序逐次地试用词类。