CN1180204A

CN1180204A - 大写和无重音文本的词典处理的方法和系统

Info

Publication number: CN1180204A
Application number: CN 97114969
Authority: CN
Inventors: 约瑟夫·E·蓬瑟若达基斯; 斯蒂夫·理查德森
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1996-05-02
Filing date: 1997-04-30
Publication date: 1998-04-29

Abstract

一种由电子词典检索信息的方法和系统。此系统将关于具有相同规格化形式的单词的所有信息存贮进电子词典。单词的规格化形式具有全部小写的字母和没有区别标记。当欲对一单词由词曲检索信息时,首先将单词规格化,然后由词典搜索对应于该规格化单词的词条。所找到的词条即含有该单词的信息。

Description

大写和无重音文本的词典处理的方法和系统

本发明是关于自然语言处理(“NLP”)领域，较具体说，是关于编排电子词典和从中检索信息的方法和系统。

自动自然自然语言处理的计算机系统采用各种大致对应于为分析输入文本以达到机器理解自然语言的水平的词法、句法、和语义分析的语言学领域的子系统。在某种水平上理解输入文本之后，计算机系统就能，例如，对输入文本提供字面和风格上的改变，回答输入文本中提出的问题，或者有效地存贮输入文本所表示的信息。

词法分析识别输入字，并对每一个字提供自然语言对话的人类能利用词典确定的信息。这种信息可能包括一个字可起的语法作用(例如，名词或动词)和该字能以附加前缀或后缀来生成不同的相关的字的方式。例如，除开字“fish(鱼)”外，词典还可能列举与字“fish”相关的和由其推演得的各种单字，包括“fishes”，“fished”，“fishing”，“fisher”，“fisherman”，“fishable”，“fishabiity”，“fishbowl”，“fisherwoman”，“fishery”，“fishhook”，“fishnet”，和“fishy”。

句语法分析作为起点利用由对输入字作词法分析所得的信息和定义书写输入的句子的语言的文法的语法规则组对各个输入句子进行分析。下面是句法规则实例：

句子＝名词短语+动词短语

名词短语＝形容词+名词

动词短语＝副词+动词句法分析是要取得一句法规则的有序子集，这在当应用到输入的句子的字时，将多组字组合成短语，而后将这些短语组成完整的句子。例如考虑输入的句子“Big dogs fiercely bite。(大狗拼命地咬。)。利用上面列举的三个简单规则，句法分析将识别字“Big”和“dogs”分别为一形容词和名词，并应用第二规则以生成名词短语“Big dogs”。句法分析将识别字“fiercely”和“bite”分别为副词和动词，并应用第三规则生成动词短语“fiereely bite”。最后，句法分析利用第一规则由先前生成的名词短语和动词短语形成一完整的句子。一组有序的规则和由应用它们得到的短语，包括最后的完整的句子，被称为一种语法分析(Parse)。

但某些句子可具有几种不同的语法分析。对于这种多语法分析的一典型的示例句子是“Time flies like an arrow(光阴似箭)”。至少有对应于这一句子的三种可能的意思的三种可能的分析。第一分析中，“time”是句子的主语，“flies”是动词，和“Like an arrow”修饰动词“flies”的介词短语。但，还至少有二个意料不到的分析。在第二种分析中，“time”是修饰“flies”的形容词，“like”是动词，而“an arrow”是动词的宾语。这一分析相应的意思是，某种类型的蝇，“time flies(时间性的蝇)”，喜欢亦即为箭所吸引。在第三种分析中，“time”为命令式动词，“flies”是宾语，而“Like an arrow”为修饰“time”的介词短语。这一分析相当于一个命令：象对箭那样计时来测量飞行器的时间，例如采用一秒表。

句法分析常常由建立一或多个被称为句法分析树的层次树形结构。此句法分析树的各个叶节点表示输入句子的一个字。应用句法规则产生自下连接到一个、二个、或偶然地更多已有节点的中间层节点。这些已有节点最初仅包括叶节点，但当句法分析应用句法规则时，这些已有节点将包含叶节点以及中间层节点两者。一完整句法分析树的单一根节点代表一整个句子。

语义分析生成一逻辑形式图，以较之句法分析树单独地所能说明的更深方式来说明输入文本的意思。语义分析首先在如前由句法分析生成了多于一个的句法分析树时要选择由一句法分析树所表示的正确分析。对应于以正确分析的逻辑形式图是以类似于由人类语言表述者所达到的水平来理解输入文本的第一个尝试。

逻辑形式图具有节点和连接，但与上述的句法分析树不同，是非层次排序的。逻辑形式图的连接被加以标号来指明一对节点间的关系。例如，语义分析可识别句子中某一名词为一动词的深层主语或深层宾语。动词深层主语是由动词所指定的动作的执行者而动词的深层宾语则是此动作的对象。主动语态动词的深层主语可以是句子的语法主语，由主动语态动词的深层宾语可以是动词的语法宾语。但被动语态动词的深层主语可能被表明在一辅助子句中，而被动语态动词的深层宾语可能是句子的语法主语。例如，考虑这样两个句子：(1)“Dogs bite people。(狗咬人)”和(2)“Peopleare bitten by dogs.(人被狗咬)”。第一句具有一主动语态动词，第二句具有被动态动词。第一句的语法主语是“Dogs”，动词“bite”的语法宾语是“people”。相反，第二句的语法主语是“people”而动词定语“arebitten”由辅助子句“by dogs”修饰。此二句中，“dogs”均为深层主语，而“people”是句子的动词或动词定语的深层宾语。虽然上述对句1和2作句法分析所生成的句法分析树将会不同，而由语义分析产生的逻辑形式图则将是一样的，因为此二句的基本意思相同。

生成逻辑形式图之后的进一步的语义处理可凭借知识数据库将所分析的文本关联到现实的观点以便能实现更深一层的理解。知识库的一例可以是一联机百科全书，由其可以获取对特定字的更完善的解说和上下文的结构信息。

下面以处理样值输入文本“The person whom I met wasmy friend.(我遇到此人是我的朋友)”的情况来说明此三个自然语言处理子系统：词法、句法和语义。图1为说明自然语言处理的子系统间信息流通的方框图。词法子系统101接收输入文本和输出字的标识，并检测各单词可被用于的各种词类的每一种的意义。语法子系统102接收这一信息，应用句法规则生成语法分析树。语义子系统103接收句法分析树和生成逻辑形式图。

图2～5显示存放在一电子存贮媒体上的词典信息，在词法分析期间对样值输入文本的输入词进行检索。图2显示对输入词“the”201和“person”202的词典词条。词条201由关键字“the”203和属性/值对的表组成。第一属性“Adj”204作为它的值具有包含在大括号205与206中的符号。这些符号包括二个更深一层的属性/值对：(1)“Lemma”/“the”和(2)“Bits”/“Sing Plur wa6 Det Art Bo Def.”。主题(lemma)是一单词的基本的不变化的形式。因此，属性“Lemma”指明“the”是词典中这一词条所代表的单词的基本的不变化的形式。属性“Bits”包括一组表示关于一单词的某些词法和句法信息的略语。这一信息指明“the”为：(1)单数；(2)复数；(3)不可变化的；(4)限定词；(5)冠词；(6)普通形容词；和(7)限定的。属性204指明单词“the”可用作为形容词。属性212指明单词“the”可用作为副词。属性“Senses”207表示作为各别的定义和举例的此单词的各种不同的意思，其一部分包含大括号208-209内和大括号210-211内的属性/值对的表中。“the”词条中实际上所含的附加意义在图2中已被省略掉，由被加以括号的措词词“(moresense records更多意义的记录)”213指明。

自然语言处理的第一步，词法子系统将输入文本的每一单字和标点符号判明为一各自的记号并利用词典信息对各记号构成一属性/值记录。这些属性包括有记号类型(例如单词、标点)和一单词能在自然语言句子中代表的不同的词类。

句法子系统输入样值输入文本的最初组的属性/值记录，由每一个生成一句法分析树节点，并将句法规则加到这些初始节点以构成代表样值输入文本的一可能的句法分析树的更高层的节点。一完全的语法分析树包括有一根节点，中间层节点，和叶节点。根节点表示样植输入文本的句法结构(例如说明性句子)。中间层节点表示中间句法结构(例如动词、名词、或介词定语)。叶节点表示初始组的属性/值记录。

在某些NLP系统中，以由顶向下方式应用句法规则。这里所描述的NLP系统的句法子系统则以自底向上方式将句法规则应用到叶节点。即就是，句法子系统力图将句法规则一次一个地应用于到成对叶节点、和不时地到更大组叶片节点的单个叶片节点。如果句法规则要求对之操作的二个叶节点，和一对叶节点双方均含在符合该规则所指明的需求的属性，那么就将此规则应用到它们以生成更高层的句法结构。例如，词“myfriend”表示分别为一形容词和一名词，它们可组合成一名词定语的更高层句法结构。对应于语法规则“名词短语＝形容词+名词”的句法规则生成一中间层名词定语节点并连接二代表“my”和“friend”的叶节点到新生成的中间层节点。在生成每一新的中间层节点时，它即被连接到已存在的叶节点和中间层节点，并成为被应用语法规则的整个节点组的部分。将句法规则应用到成长中的节点组的过程一直继续直到产生一完全的句法分析树或者直到再没有语法规则可以应用。一完全的句法分析树包括有作为叶节点的输入句子的所有单词，并代表句子的一可能的分析。

这种句法分析的自底向上的方法生成许多中间层节点和可能不再会包含在最后的完全的句法分析树中的子树。

句法子系统可借助连续地应用规则直到再没有另外的规则可利用为止来进行详尽的寻求所有可能的句法分析树。句法子系统还能试行各种直接推断措施来首先生成最可能的节点。在生成一个或少量的完全的句法分析树之后，句法子系统一般可结束搜寻，因为最可能要被选择为最好地代表输入句子的句法分析树多半是最先生成的句法分析树之一。如果在适当的搜索之后未生成完全的句法分析树，则可以由将最有希望的子树组合进采用在应用一特定的聚集规则所产生的根节点的单个树中来实现一拼装的分析。

图6表明由句法子系统对原先显示在图2～5中的词典词条所生成的初始叶节点。此叶节点包含有二个特殊节点601和614，分别表示句子的起始和句子的全句结束。节点602～613的每个代表句中一输入单词能表示的言语中的一种词类。这些词类存在作为词典词目中的属性/值对之中。例如叶节点602和603代表单词“The”的二种可能的词类，如作为图2中的属性204和212。

图7～22表示句法子系统所得的最后的句法分析树的规则到规则的结构。每一个图形说明应用一单个句法规则来产生一句法结构的中间层节点。仅仅只说明了产生组成最终的句法树的中间层节点的规则。句法子系统生成许多包含在最终的句法分析树中的不结束的中间层节点。

在图7～14中，句法子系统应用生成代表简单的动词、名词、和形容词定语的中间层节点的一元句法规则。由图15起，句法子系统开始应用将简单动词、名词、和形容词短语组合成多字句法结构的二元句法规则。句法子系统按它们成功应用的相似性对规则进行排序，然后逐个地试着应用它们直到找到一能成功地应用到现有节点的规则。例如，如图15中所示，句法子系统成功地应用了一规则由形容词短语和名词短语生成一代表一名词短语的节点。此规则指定形容词和名词短语所需的特征。在此例中，形容词短语必须是一确定的量词。随着指针由节点1501到节点1503，和然后访问节点1503中所包含的词法信息，句法子系统确定，节点1501是表示一确定的量词。在定位符合规则所要求的特征的此二节点1501和1502后，句法子系统即应用此规则由二简单的短语1501和1502来生成表示名词短语“my friend”的中间层节点。图22中，句法子系统应用一三元规则生成代表输入的句子的最终的完全的句法分析树，该三元规则将专用的Begin(开始)叶节点2201、动词短语“The person whom I metwas my friend”2202、和代表最终的结束句点的叶节点2203相组合来形成代表说明性句子的节点2204。

语义子系统利用一完全的语法分析树产生逻辑形式图。一般，逻辑形式图由句法分析树的节点，加以它们的属性和新的双向连接来构成。逻辑形式图为加以标号的定向图。它是输入句子的语义表现。由词法子系统对每一个单词得到的信息通过由逻辑形式图的字节内部引用到语法分析树的叶节点仍然是可行的。逻辑形式图的连接的标号和方向均代表语义信息，包括用于逻辑形式图的节点的功能作用。在其分析期间，语义子系统加入连接和节点以表示(1)被省略掉但隐含着的单词；(2)缺少的或不清楚的动词短语的自变量和附加部分；(3)介词短语所指的宾语。

图23说明语义子系统对样值输入句子所产生的完全的逻辑形式图。语义子系统作为成功的应用语义规则的结果给连接2301～2306指定了有意义的标记·六个节点2307～2312连同它们间的连接表示句子的语义意思的主要组成部分。通常，逻辑形式图大体上相当于输入单词，但其些词对传递语义意思是不必要的，例如“The”和“Whom”，在逻辑形式图中就不出现，而输入的动词“met”和“was”则表现为它们的不定式“meet”和“be”。节点在计算机系统中被表示作为记录，含有图23中未表明的附加信息。动词以单数过去时态形式输入的情况由对应于动词的意义的逻辑形式节点2307和2310中的附加信息指明。

句法分析树与逻辑形式图间的区别由图23与图22的比较能容易地了解。图22中显示的句法分析树包括有以严格的层次结构连接一起的10个叶节点和16个中间层节点，而图23中所显示的逻辑形式图仅含有6个节点。与句法分析树不同，逻辑形式图不作层次结构排序，这由节点2307与2308之间的具有相反方向二个连接是很显见的。此外，如以上指出的，节点不再代表输入词的确切形式，而是代表它们的意义。

在语义分析之后再进行自然语言处理步骤。它们涉及到将逻辑形式图与由知识库取得的附加信息相组合，分析多个句子组，和概括地力图围绕每一逻辑形式图装配一接近于人类处理自然语言那样的丰富的文体结构环境。

在以上大写和无重音文本的词典处理，是将词法子系统描述为对各输入单词提供词典信息。词法子系统利用词典查寻该信息。对于每一输入单词，词法子系统必须找到词典中由之得到信息的对应词条。这种在词典中查找输入单词的处理存在有数个有关的问题，它们的解决对整个NLP的精确性和效率有很大影响。

普通应用的词典的线索含有区别符号和在专用名词时的大写字母两者。例如，在英语词典中，动词“resume”具有一分开的词条，无重音符号，和名词“resum é”，带有重音符号。另一个例子是，英语词典一般具有两个基本的“polish”代表名词“polish(光泽)”和动词“polish(抛光)”的词条，以及两个带有基本的“Polish”代表专有名词“Polish(波兰语)”和专有形容词“Polish(波兰人的)”的词条。

不幸的是，输入文本中字母的大、小写和区分标记可能与对应于它们的词典关键词的大、小写和区分标记不一致，这使得词法分析期间查找词点词条的任务大为复杂。例如，在带有全部大写字母的输入文本中，以及在来自电子邮件消息的输入文本中，区分标记通常均被去除。一没有区分标记的大写单词有可能表示许多小写的正常形式中的任一个。例如法语单词“é l ève”意思是“student(学生)”，和“é leve”意思是“raised(被抬高)”，二者均具有大写形式“ELEVE”。如果要处理写作大写的文本，而法语词典具有小写词条，就会不清楚应选择哪一个小写词条来说明输入的单词“ELEVE”。

因为词条在普通词典中通常为小写形式，和因为输入单词的字母的大、小写常常取决于单词的出现作为一句的第一个单词或单词出现在标题中，所以不从单词的词法功用，语法子系统可能在试图将单词与词典中的关键字相匹配之前首先将输入单词的字母变成全部为小写。将所有字母改变为小写的处理是一种特定类型的大小写规格化。由输入单词去除所有的区分标记是另一类型规格化的举例。规格化处理以某些字母置换输入单词中的其他字母，以便消除单词间所不希望的区别。将全部规格化成小写，输入的单词“Polish”和“polish”二者均成为规格化的单词“polish”。

虽然大小写规格化使得词法子系统易于查找到词典关键词与一仅因为它存在作为一句的第一个单词而使其第一字母作大写的单词相符后，但大小写规格化可能造成基于大写上的词法区别的丧失。例如，一本书中的一句可能是“I told him to polish his shoes.(我叫他把他的皮鞋擦亮)”。换句话说，也可以是：“Polish your shoes，’told him.”。也许此书的标题是“POLISH YOUR SHOES！”。在此三句中的“polish”、“Polish”、和“POLISH”的规格化单词为“polish”。但是，考虑句子“The Polish government announced newelections today.”如果在接着的分析之前将单词“Polish”规格化成“polish”，就会丧失“Polish”与“polish”之间的词法区别。在此最后一种情况下，单词“Polish”以大写字母开头指明它与单词“polish”的词法上的不同，而不是它在句子或标题中的位置。

区分标记的丢失和大小写区别的丢失双方的基本问题在于欠缺对各个输入单词需要在电子词典中搜索多个词条的词典查找中的实际能力。对上面给出的法语示例中，对应于输入单词“ELEVE”有相当大数量的可能的词典词条，包括在单词的第一、第三和第五位置中不加标记和加标记字母“e”的每一种可能的组合。对应于大写字母“E”有四个小写字母。它们是“e”、“è”、“ê”、和“é”。因此在输入单词“ELEVE”内就有这四个小写字母的4³即64种不同的可能的组合。即使利用各种正交和声学规则来删除某些在法语文字中不可能发生的组合，仍然余留下有36种有效的组合。词典查找是巨大的化费。每一查找均可能涉及到一或多次磁盘访问。在上面给出的英语文字举例中，输入单词“Polish”总要求四次查找，二次查找用于具有关键字“polish”的二独立的词条，和两次用于具有关键字“Polish”的二独立的词条。自然，如果词法子系统未能详尽地以改变大小写或以附加可能被省略的区分标记来搜索所有与一输入单词有关词条，就可能给句法和语义子系统提供错误的结果，导致一不正确的分析和逻辑形式图。

现有技术电子词典和词法分析子系统无法处理大写输入单词的规格化的问题。自然语言处理技术领域已经认识到需要有一种有效的方法，来找到电子词典中对应于一因为通过电子邮件传输而被由其除去区分标记的输入单词的，或对应于一大写输入单词的所有词条。

本发明是针对一种定位电子词典中的信息的方法和系统。系统以首先由欲被贮存进词典的单词的典型形式生成规格化形式来生成电子词典。一单词的典型的、即通常的形式利用适当的大写和小写字母和适当的区分标记。一单词的典型形式是此单词在通常的印刷词典中作为一词条的关键字出现所取的形式。一单词的规格化形式具有全部小写字母和没有区分标记。例如，“Polish”是有关Poland(波兰)的单词的典型形式，和“polish”是有关“wax(蜡)”的单词的典型形式。但是，此二单词的规格化形式均为“polish”。然后系统为单词的每一独特的规格化形式(例如“polish”)在电子词典中存贮一词条。每一词条具有一关键字和一记录。关键字被设定到单词的规格化形式。对于一其规格化形式等于此独特的规格化形式的单词的每个典型形式，系统在记录中存放一子记录。子记录含有有关此单词的典型形式的信息，例如该单词的定义和该单词的词类。以此同一例继续说明，一词条的关键词将为“polish”和该词目将含有“polish”和“polish”的子记录。为了定位信息，系统接收输入单词(例如“POLISH”)和产生此输入单词的规格化形式。然后系统对电子词典检索带有符合输入单词的规格化形式的关键字的词条。被找到的词条含有带有有关单词的典型形式的信息的子记录。按照规格化形式组织电子词典，就可以仅搜索一词条来找到有关一输入单词的信息而不管是否存在有大写和区分标记。

所列附图的简单说明如下：

图1为说明自然语言处理系统的各子系统之间的信息流的方框图；

图2～5显示为样值输入句子“The person Whom I met wasmy friend。(我遇到的此人是我的朋友。)”的每个单词检索的存贮在一电子存贮媒体上的词典信息；

图6显示由作为分析输入句子的第一步由句法子系统产生的叶节点；

图7～22显示由句法子系统逐个地应用句法规则以分析输入的句子和生成句法分析树；

图23说明由语义子系统生成的逻辑形式图以表示输入句子的意思；

图24表示一说明用于自然语言处理的优选的计算机系统的方框图；

图25表示对关键字“interpret”的电子词典词条；

图26表示对关键字“polish”的电子词典词条；

图27表示对关键字“eleve”和“ou”的电子词典词条；

图28表示在一未指定的词典中对关键字“buildling”的电子词典词条；

图29表示在一完全相对于对应形式被指定的词典中对关键字“building”的电子词典词条；

图30为用于子程序Normalize(规格化)的流程图；

图31为用于简单的词典构成例行程序的流程图；

图32为子程序Lexical(词法)的流程图；和

图33为子程序Lookup(查找)的流程图。

本发明是针对在一电子词典中存贮和定位信息的方法和系统。在一优选实施例中，系统以首先由欲被存贮在词典中每一个单词的典型形式生成规格化形式来产生电子词典。一单词的规格化形式具有全为小写的字母且无区分标记。然后系统对一单词的各个独特的规格化形式在电子词典中存入词条。各词条具有一关键字和记录。关键字被设定到单词的规格化形式。对其规格化形式等于此独特规格化形式的单词的各个典型形式，系统在此记录中存贮一子记录。此子记录含有有关单词的典型形式的信息。为了利用电子词典定位信息，系统接收输入单词和产生此输入词的规格化形式。然后系统在电子词典中寻索带有与输入词的规格化形式相符合的关键字的词条。被找到的词条含有一带有与单词的典型形式有关的信息的子记录。

图24为说明用于自然语言处理系统的优选的计算机系统的方框图。计算机系统2401包含一中央处理单元，一存贮器，和一存贮装置。自然语言处理系统的词法子系统2406，其他子系统通常由可由计算机读取的存贮器装置如磁盘装载进存贮器2404。利用由此自然语言处理系统2401提供的服务的应用程序一般也被装载进存贮器。电子词典2409被存放在一存贮装置，例如磁盘2408上，词条放读进存贮器供词法子系统利用。在一实施例中，用户一般以在输入装置2404上输入一或多个自然语言句子来响应输出装置2403上显示的提示。自然语言句子由应用程序接收，通过词法子系统处理，然后传送到自然语言处理系统。词法子系统由电子词典提取信息，利用该信息处理被送到它的输入文本，然后将处理过的输入文本和词典信息传送给自然语言处理系统的其他子系统。而后应用程序即可以向自然语言子系统发送信息和从中接收信息，以便利用由自然语言处理系统实现的机器对输入文本的理解，而最后在输出装置2403上输出对用户的应答。

本发明一优选实施例提供为组织一电子词典的内容和为搜索此电子词典的新的词典方法和系统。此新的词典系统设置有一词典生成部件(“DCC”)和一词典查找部件(“DLC”)。

DCC生成类似于普通印刷词典中查到的词条的一种语言单词的词条。图25显示对单词“interpret”的电子词典词条的形式。此词条具有其后跟随一含有属性/值对的记录的关键字2501。第一属性2502为这一单词能在语言中表示的词类。属性2502的值是子记录2503，含有一系列属性/值对。子记录2503中的第一属性是“Lemma”2504。“Lemma”的值为由属性/值对2504-2505所表示的单词的未变化形式，在这一情况下与关键字2501同。属性“Bits”2506具有值“T1 Hsubj”2507，它是指动词“interpret(解释)”是及物动词和要求人类作主语。属性“Infl”2508具有值“Verbdefault”，指明此动词在将被指定为“Lemma”属性2505的值的动词形式上附加以词尾-ed、-s和-ing缺省式中的活用形式。这一词条的主记录的第二属性“Senses”2510，具有一包含单词“interpret”的定义和举例的子记录值2511。子记录属性“Defin”2512具有解释此词的意义的值2513，而子记录属性“EXS”2514具有提供单词应用的简便示例的值2515。

DCC对一语言中每一大小写规格化的和区别符规格化的单词、或者对一子集的大小写规格化和区别符规格化的单词在电子词典中生成一词条。大小写规格化单词只有小写字母，而区别符规格化单词不含有区别符。在大小写和区别符上的规格化在一些情况中具有将不同的单词映射到一单个关键字的效果。在下面的讨论中，“规格化词”将是指一大小写和区分符规格化的单词。

图26显示对大小写规格化关键字“Polish”2601的电子词典词条。此词条的主记录中有4个主属性，2602～2605，对应于带有大小写规格化形式的“polish”可代表的三个词类“Noun(名词)”、“Verb(动词)”、和“Adverb(副词)”，和表示带有大小写规格化形式“polish”的单词的各种意义。在表示属性“Noun”的值的子记录中为具有作为其值的含有二个“Lemma(词目)”属性2608和2609的子记录2607的属性“Lexemes”。这二个“Lemma”属性，“polish”2610和“polish”2611的值为二个不同单词的未规格化形式，也即已知的单词的典型形式。由“Lemma”2610表示的单词是名词“polish”，它的一个意思是“awaxy substance that one smears on a car to protect itssurface.(一种人们涂抹在汽车上来保护其表面的蜡制材料)”。由“Lemma”2611所表示的单词是一名词，其一个意思是“the SlavicLanguage of the Poles.(波兰人的斯拉夫语)”。这样，属性“Lexemes”即指明，作为一特定的词类可能存在有不只一个具有规格化形式“polish”的单词。在此词条的整个其余部分，属于单词“polish”的信息由属性/值对“Lemma”/“polish”导入，例如象定义2612，而属于单词“Polish”的信息则由属性/值对“Lemma”/“Polish”导入，例如象定义2613。

图27显示来自法语词典的二个词条2701和2702，说明含有区别标记的单词的规格化。经规格化的关键字“eleve”2702代表二个不同的典型形式“é lève”2703和“é levé”。经规格化的关键字“ou”2705代表二个不同的典型形式“ou”和“où”。

一电子词典可能部分地或者完全地在词法推演得的单词形式上被指定的。在词法单词形式上完全被指定的词典(“FSM词典”)含有用于“hike”，“hiked”、“hiking”，和“hikes”的各个分开的词条，而一在词法单词形式方面未被指定的词典(“USM词典”)则含有一单个词条“hike”，它代表形式“bike”以及可由单词“hike”推演得的形式：“hiked”、“hiking”和“hikes”。FSM词典显然含有多得多的词条。因为它们含有对紧密相关的单词的分开的词条，如在单词“hike(徒步旅行)”的和/与其相关的形式举例中那样，一FSM词典可能含有大量的冗余的定义和其他信息。“hike”、“hikes”、和“hiked”的词目可能都含有为消遣或锻炼而作的步行动作的基本定义。另一方面，仅有一个词条可含有此定义，象例如“hike”的词条那样，而其他词条可含有对这些定义的指针。

一般说USM词典受到偏好，因为它们较小，而使它们能较容易被置入确定大小的存贮媒体上，并使它们能在存贮器中作更有效的快速存贮。此外，为应用词法规则来生成一单词的相关的形式，象例如为由单词“hike”生成“hikes”和“hiked”的总开销也十分小。不规则形式被包括在词典中作为分开的词条以避免要将词法规则组扩大到包括大量非常专门的规则，象例如一由现在时态形式“Keep”推演过去时态形式“Kept”的规则。DCC正常生成在词法推演的形式方面部分地被指定的词条。

一词典可被结构成使得，如果一输入单词一开始就符合词典中一关键字，就保证无需对输入单词加以词法规则来找到可对应于输入单词的其他可能的形式。例如，考虑由输入句子“I am building a bridge.(我在建一座桥)”中查找输入单词“building”。在这一情况下，“building”是未变化形式“build”的活用形式。有可能的情况是，在对应于关键字“building”的词条中，仅找到表示未变化形式“building”的记录，或者换句话说，表示名词“building”的记录。为了查找到对应于现在时态的单数动词“building”的记录，DLC在这一情况下将词法规则应用到“building”以产生动词“to build”而后查找“build”。这种类型的词典被称之为在对应的字形式方面未被指定的词典(“USH词典”)。图28中显示对名词“building”的USH词典词条。在带有关键字“building”2802的词条中仅属性/值对2801对应于名词“building”。在对应单词形式方向完全指定的词典(“FSH词典”)保证带有关键字“building”的词条包含有对应于动词“to build”的属性/值对。对于关键字“building”的FSH词条如图29中所示。如果一规格化的输入单词符合FSH词典中一个关键字，就无需时输入单词应用语法规则来寻找所有相关的记录。

FSH词典与FSM词典不同。在FSH词典中无需应用任何词法规则。在FSH词典中，当未找到输入单词的符合关键字时应用词法规则。例如，在一FSM词典中将有一符合输入单词“buildings”的关键字。相反，一FSH词典不含有关键字“buildings”。为了在FSH词典中查找适当的词目，必须应用指明“buildings”是“building”的复数的词法规则来生成形式“building”。FSH词典通常是在词法形式方面被部分指定的。

在DCC构成电子词典时，它将一采用语言专用查找表的规格化功能应用到由前先编纂的自然语言词典得到的每个自然语言单词或某些其他类似的单词来源。此语言专用查找表是该语言的各个ASCII字符与其规格化形式之间的简单映射。一映射的一部分的举例可以是：

Z  A B C D E F

z a a b c d e e f在一优选实施例中，查找表只不过是替换字符的阵列。对应于一输入字符的ASCII码的小整数值被用作进入阵列的索引来找到输入字符的替换字符。

图30中显示规格化的功能的流程图。步骤3001-3004表示一通过构成输入单词的所有字母的循环，在此DCC在每一重复中选择下一字母。DCC在一语言专用查找表中查找所选择的字母(步骤3002)，并以查找表中对应于被选择字母的字母取代输入单词内的被选择字母(步骤3003)。如果所选择的字母为大写形式，或者被一区别标记所修饰，则查找表词条就将含有对应于所选择字母的小写字母或未加标记的字母。此例行程序的结果是在大小写和区别标记方向作完全规格化的单词。

图31中显示一简单电子词典构成例行程序的流程图。这一例行程序由现有的不带规则化关键字的源词典生成带规格化关键字的电子词典。步骤3101～3113表示一循环，在其每一重复期间DCC由源词典选择一词条并将由被选择词条得的信息装入电子词典。在步骤3101，DCC选择下一源词条，由第一词条开始。在步骤3102，DCC利用上述的规格化例行程序对所选择词条的关键字进行规格化。在步骤3103，DCC确定电子词典中是否已存在一对应于所选择的源词条的规格化关键字的关键字。如果电子词典中没有这样的关键字，DCC即在步骤3104在电子词典中生成具有规格化关键字作为其关键字的新词条。如果已经存在有这样一个关键字，则由步骤3105至3111所表示的循环即经由所选择的源词条中的各个词类重复进行。所选择的词条可含有例如动词的定义和名词的定义。DCC由第一词类开始选择下一词类(步骤3105)。在步骤3106DCC确定该词类的属性是否已存在于电子词典词条中，象例如图26中的名词属性2602。如果不是，DCC即为该词类加以一新的属性(步骤3107)。如果已存在这样的属性，DCC即确定现有的属性的值中是否有新Lexeme属性，象例如图26中的Lexemes属性2606。如果没有，DCC将Lexeme属性加到现有的词类属性，并将现有词类属性和所选择词类的新属性作为Lexeme属性中的值(步骤3110)，象例如属性2608和2609(图26)。如已存在有Lexeme属性，则DCC只是将所选择的词类加到Lexeme属性(步骤3109)。一旦被选择词条中的所有词类均被选择，DCC即将所选词条的定义加到新的或现有的电子词类词条(步骤3112)。

DCC可生成FSM、FSH、或USH词典。分析期间所用的全局变量指明词典是类型FSM、FSH还是USH。不同的全局变量表明一电子词典是否具有规格化关键字。

如上面讨论词典查阅表头可以有数种不同的组织，它可以是一FSM词典，在这种情况下无需应用词法规则到输入单词来寻找词典中对应的关键字。它可能是一FSH词典，在此情况下仅在没有找到符合关键字时需要应用词法规则。而且，如上面讨论的，为了产生关键字“building”需要将词法规则应用到输入单词“buildings”，因为FSH词典不包含带有关键字“buildings”的词条。如果词典是USH型，则就必须总要将词法规则应用到输入单词来生成所有可能的形式。例如，在这样的词典中，只可能以应用由“building”生成“build”的词法规别来从输入单词“building”找到动词“build”的词条，因为USH词典仅只在带有关键字“building”的词条中含有名词“building”的定义。

以所有三种类型词典，DLC首先如图29中所说明的将规格化功能应用到输入单词。如果是FSM型词典，则DLC由词典搜索符合规格化输入单词的关键字。如找到关键字，DLC返回包含在具有该关键字的词条中的子记录，以指明它们所代表的典型形式是否严格地符合未经规格化的输入单词。如未找到符合的关键字，则该单词不存在在此词典中。

如果是FSH型词典，DLC由词典搜寻符合规格化的输入单词的关键字。如找到一关键字，即返回它们包含的子记录，以指明它们所代表的典型单词是否严格符合输入单词。如未找到符合的关键字，DLC应用任何适用的词法规则到输入单词以产生该单词的一个或多个词目，然后由词典搜索任何符合所产生词目的关键字。如DCL找到符合的关键字，即检索包含在对应于符合的关键字的词条中的子记录，并返回各个带有表明未经规格化的输入单词是否严格符合子记录所代表的典型形式的指示的每个子记录。如未找到符合的关键字，则此词典中不存在此单词。

如果词典是在对应形式方面未完全指定的，DLC即对输入单词应用任何适用的词法规则，这种规则产生单元可做一个或多个主题，然后搜索词典中的与输入字或产生的主题的任一个符合的任何关键字。如果DLC找到符合关键字，它就检索被包括在相应于符合关键字的词条内的子记录，并返回每一子记录，以指明非规格化的输入单词是否严格与子记录所表示的典型形式一致。如果找不到关键字，单词就在词典中不存在。

DLC返回词条中的所有子记录，而不仅仅是其典型形式严格地符合此未规格化的输入单词的子记录。一般说符合可以在某种程度上表明所含定义的正确性，但却不是决定性的。再来看二个样值句子：(1)I told him topolish his shose。”和(2)“Polish your shoes。’I told him。”对第一句，DLC将单词“polish”规格化到“polish”，并返回代表典型形式“polish”的子记录，带有表明严格符合输入单词的对于“toshine”的同义词，和带有表明其不严格地符合输入单词的代表典型形式“Polish”的子记录。在这种情况下，带有严格符合典型形式的记录是所要求的记录。对第二局得到同样的查找结果，但在这种情况下，子记录并不具有作为所希望子记录的严格符合的典型形式。

由于关键字的大小写和区别符的规格化和一单个词条中含有多个代表典型形式的子记录，所有三种类型词典中每次词典查找所得结果均为较多的子记录。由一次查找，DLC就直接得到全部大小写和区分标记的组合。在FSH词典的情况下，总是只需要一次查找。在FSH词典的情况下，经常只要求一次查找，不过如果未找到词条，则在依靠对之应用词法规则能由输入单词生成成词条的情况下可能要求附加的查找。在USH词典的情况下，所需的查找的数量等于一加可由对输入单词应用词法规则产生的词目数。

由返回各个循环的多个记录，为对一单词作详尽搜索所需的查找数就会减少。这种查找的减少相应地减少磁盘存取次数，而加速词典查找过程。

图32显示为查找含有代表作为自变量“ilemma”通过例行程序的输入单词的可能的词类和定义的记录的电子词典中所有词条的词法子程序的流程图。在步骤3201，词法子程序将变量“record-list”的初始化为空，并将ilemma中的值指定为变量“next-lemma”。在步骤3202，词法子程序调用显示在图33中的查找例行程序以便由电子词典找到带有对应于ilemma的关键字。如果在步骤3203未找到词条，词法子程序即确定词典是否为FSM型。如果是，则词法子程序返回一层的record-list(步骤3205)。如果词典不是FSM型，词法子程序即对ilemma应用语法规则以生成另一词目(步骤3206)。如果在步骤3706中产生一新的命题，而后控制循环回到例行程序的起头；否则词法子程序在步骤3205返回record-list。

如果词法子程序在步骤3203找到一记录，词法子程序就在步骤3208将该记录加到record-list。而后，如果词典是FSM或FSH型，如步骤3209和3210中所确定的，词法子程序就在步骤3211返回record-list。否则，控制传至步骤3206，在这里子程序词法将力图产生新的词目。

图23显示查找子程序的流程图。这一子程序搜录作为自变量“ilemma”的带有符合一单词输入的关键字的记录。在步骤3301，查找子程序确定词典是否具有在大小区和区别标记上被规格化的关键字。如果词典没有规格化的关键字，查找例行程序即搜索词典的词条以找到带有符合ilemma的关键字的词条(步骤3302)。如果词典没有规格化的关键字，那么就调用图30中所示的子程序规格化以产生对应于ilemma的规格化单词(步骤3303)，而查找例行程序搜索词典的词条以找到带有符合对应于ilemma的规格化单词的关键字的词条(步骤3304)。如果在步骤3302或3304中未找到词条，查找子程序失败而返回NULL(步骤3306)。

如果找到一词条，查找子程序即执行包括步骤3307～3315的循环，在词条主记录中所含的每一词类子记录加以反复。如果由词典检索到图29中显示的记录，例如，这一循环的第一反复将选择对应于“Noun”属性的子记录2901，而循环的第二反复则将选择对应于“Verb”属性2904的子记录2903。在步骤3308中查找子程序确定所选择的子记录是否含有一“Lexemes”属性，例如象图26中的属性2606。如果不是这样，则查找子程序只有在所选择的子记录严格符合ilemma时才在步骤3310中将所选择的子记录标作为严格符合，而由步骤3307～3315所代表的循环则以下一反复而继续。

如果在被选择的子记录中存在“Lexemes”属性，则由步骤3311～3314代表的一由循环即对每一循环反复由“Lexemes”属性的值中选择各个语义。图26中，属性/值对2608～2610导入第一语义，而属性/值对2609～2611导入第二语义。如果所选择语义的“Lemma”属性的值严格符合ilemma查找子程序即标明该语义子记录为严格符合(步骤3313)。因此，调用查找子程序的结果在未找到词条时是一NULL值，或者是一带有具有严格符合输入单词的“Lemma”属性的子记录的被标明为严格符合的词典词条。

虽然本发明已按一优选实施例进行了说明，但并不是企图将发明局限于这一实施例。对于本技术领域熟悉人士来说在本发明的精神领域之内的修改是显而易见的。本发明的范围由所附权利要求加以限定。

Claims

1、在计算机系统中用于电子词典的信息定位方法，其特征是所述方法包括：

生成电子词典，方法是由多个单词各自的典型形式生成一规格化形式，此规格化形式具有全为小写的字母和没有区别标号，和

对一单词的各独特的规格化形式，在电子词典中存贮一词条，各词条具有一关键字和一记录，关键字被设定为单词的规格化形式，而对其规格化形式等于此独特的规格化形式的单词的各典型形式在记录中存贮子记录，此子记录包含有有关单词的典型形式的信息；

接收一输入单词；

由输入单词生成规格化形式；和

由生成的电子词典搜寻带有符合输入单词的规格化形式的关键字的词条，此词条含有带有有关单词的典型形式的信息的子记录。

2、权利要求1所述方法，其特征是此多个单词包含对单词的每一个可能的词法形式均使得所生成的电子词典对于词法形式为完全指定的单词。

3、权利要求2所述方法，其特征是在未找到符合输入单词的规格化形式的关键字时，指明所生成的电子词典不包有输入单词。

4、权利要求2所述方法，其特征是在找到符合输入单词的规格化形式的关键字时，指明所找到的词条含有此信息。

5、权利要求1所述方法，其特征是该多个单词包含对每一可能的对应单词所生成的电子词典关于对应单词是被完全指定的单词。

6、权利要求5所述方法，其特征是在未找到符合输入单词的规格化形式的关键字时，对输入单词应用词法规则生成输入单词的所有词目，将所生成的词目规格化，并由所构成的电子词典检索具有符合规格化词目的关键字的词条。

7、权利要求5所述方法，其特征是在找到符合输入单词的规格化形式的关键字时，指明所找到的词条含有此信息。

8、权利要求1所述方法，其特征是在找到符合输入单词规格化形式的关键字时，应用词法规则到输入单词生成输入单词的所有词目，将产生的词目规格化，和由所构成的电子词典搜索带有符合规格化词目的关键字的词条。

9、在计算机系统中生成单词的电子词典的方法，每一单词具有一典型的形式，其特征是所述方法包括：

由多个单词的每一个的典型形式生成一规则化形式；和

对一单词的各独特的规格化形式，在电子词典中存放一词条，各词条具有一关键字和一记录，此关键字被设定到单词的规格化形式；和

对一其规格化形式等于此独特的规格化形式的单词的各个典型形式，在记录中存贮有关此单词的典型形式的信息。

10、权利要求9所述方法，其特征是规格化形式的产生包括将单词的每一字母设置为小写。

11、权利要求9所述方法，其特征是规格化形式的产生包括去除区别标记。

12、在计算机系统中生成电子词典的方法，其特征是包括：

对繁多单词的多个规格化形式的每一个生成一词条；和

在各词条中存贮有关具有相同规格化形式的每一单词的信息，以便能由检索一单个词条即可检索具有相同规格化形式的各个单词的信息。

13、权利要求12所述方法，其特征是各词条含有具有规格化形式连同有关典型形式信息的各个单词的规格化形式和一典型形式。

14、权利要求12所述方法，其特征是规格化形式的产生包括将单词的每一字母设定为小写。

15、权利要求12所述方法，其特征是规格化形式的产生包括去除区别标记。

16、含有促使计算机系统生成单词的电子词典的计算机指令的计算机可读媒体，各单词具有一典型形式，其特点是：

由多个单词的每一个的典型形式产生规格化形式；和

对一单词的各个独特的规格化形式在电子词典存贮一词条，每一词条具有一关键字和一记录，此关键字被设置为单词的规格化形式；和

对其规格化形式等于此独特的规格化形式的单词的各个典型形式，在记录中存贮有关此单词的典型形式的信息。

17、权利要求16所述计算机可读媒体，其特征是规格化形式的产生包括将单词的每一字母设置为小写。

18、权利要求16所述计算机可读媒体，其特征是规格化形式的产生包括去除区别标记。

19、生成电子词典的计算机系统，其特征是包括：

为繁多单词的多个规格化形式的每一个产生一词条的设备；和

为在各词条中存贮有关具有相同的规格化形式的每个单词的信息的设备，使得由检索一单个词条就能检索到具有相同规格化形式的各单词的信息。

20、权利要求19所述计算机系统，其特征是每一词条含有具有该规格化形式连同有关典型形式的信息的各个单词的规格化形式和典型形式。

21、权利要求20所述方法，其特征是规格化型式的产生包括将单词的各个字母设置为小写。

22、权利要求20所述方法，其特征是规格化形式的产生包括去除区别标记。

23、在计算机系统中从电子词典检索信息的方法，所述电子词典具有含有有关规格化形式相同的单词的典型形式的信息的词条，其特征是所述方法包括：

接收一输入单词；

产生输入单词的规格化形式；和

由电子词典搜索对应于输入单词的规格化形式的词条，其中词条含有关于输入单词的信息。

24、权利要求23所述方法，其特征是电子词典含有对单词的每一种可能的词法形式的词条，以使得所生成的电子词典在词法形式上被完全指明。

25、权利要求24所述方法，其特征是在未找到对应于输入单词的规格化形式的词条时，表明电子词典不含有此输入单词。

26、权利要求24所述方法，其特征是在找到对应于输入单词的规格化形式的词条时，表明所找到的词条含有此信息。

27、权利要求23所述方法，其特征是电子词典含有对每一可能的对应单词的词条，而使所生成的电子词典在对应词上被完全指定。

28、权利要求27所述方法，其特征是在未找到对应于输入单词的规格化形式的词条时，由对输入单词应用词法规则来产生输入单词的所有词目，将所产生词目加以规格化，和由所生成的电子词典搜寻对应于规格化词目的词条。

29、权利要求27所述方法，其特征是在找到对应于输入单词的规格化形式的词条时，表明所找到的词条含有此信息。

30、权利要求23所述方法，其特征是在未找到对应于输入单词的规格化形式的词条时，由对输入单词在用词法规则来产生输入单词的所有词目，将所产生词目进行规格化，和由所生成的电子词典搜寻对应于规格化词目的词条。

31、包含带有关于一自然语言的单词的词法和语法信息的电子词典的计算机可读媒体，此电子词典包括有一组词条，每一词条包括一关键字和一记录，此记录含有关于至少一个由关键字所代表的单词的信息，其特征是：

词典的各关键字被规格化；和

在至少二个不同单词具有相同的规格化形式时，具有符合规格化形式的关键字的电子词典词条含有至少一个对应于各个具有相同规格化形式的不同单词的子记录。

32、权利要求31所述计算机可读媒体，其特征是电子词典的各关键字在大小写方面被加以规格化。

33、权利要求31所述计算机可读媒体，其特征是电子词典的各个关键字在区别标记方面被作规格化。

34、为寻找关于电子词典中一单词的信息的计算机系统，此电子词典含有关于一自然语言的单词的词法和语法信息，此电子词典包含一组词条，各词条包括一关键字和一记录，此记录含有关于至少一个由关键字所代表的单词的信息，其中词典的各关键字均为单词的规格化形式，其特征是所述系统包括：

为产生输入单词的规格化形式的设备；和

为在电子词典中搜寻具有符合输入单词的规格化形式的关键字的词条的设备。

35、权利要求34所述计算机系统，其特征是包含有用于在未找到词条而此电子词典是在词法形式方面被完全指定的时返回一电子词典不含有关于输入单词的信息的指示。

36、权利要求34所述计算机系统，其特征是各记录含有对单词的每一典型形式的子记录，和包括用于在找到词条和词典在词法方面被完全指定的时，返回带有指明其子记录具有符合输入单词的典型形式的指示的所找到的词条。

37、权利要求34所述计算机系统，其特征是包含有设备，用于在搜索时未找到词条而此电子词典在词法形式方面不是完全指定时，

产生输入单词的不同的词目；

产生输入单词的不同词目的规格化形式，和

在电子词典中搜索具有符合输入单词的不同词目的规格化形式的关键字的词条。

38、权利要求34所述计算机系统，其特征是包含有设备，用于在找到一词条而此电子词典在对应形式方面未被完全指定时，

产生输入单词的不同的词目；

产生输入单词的不同词目的规格化形式；和

在电子词典中搜寻一具有符合输入单词的不同词目的规格化形式的关键字的词条。

39、权利要求34所述计算机系统，其特征是包含有设备，用于在找到一词条而电子词典在对应形式方面被完全指定时，返回所找到的词条和一表明词条的子记录具有符合词目值的指示。

40、权利要求34所述计算机系统，其特征是输入单词的规格化形式的产生在大小写方面对输入单词规格化。

41、权利要求34所述方法，其特征是输入单词的规格化形式的产生在区别标记方面对输入单词作规格化。

42、计算机可读媒体，含有为促使计算机系统从具有包含关于具有相同规格化形式的单词的典型形式的信息的词条的电子词典中检索信息的指令，其特征是：

接收输入单词；

产生输入单词的规格化形式；和

由所生成的电子词典搜寻对应于输入单词的规格化形式的词条，其中此词条含有关于此输入单词的信息。

43、权利要求42所述计算机可读媒体，其特征是此规格化形式包含全部的小写字母。

44、权利要求42所述计算机可读媒体，其特征是规格化形式包含无任何区别标记。