CN1545665A

CN1545665A - 用于多分析器架构的预测串联算法

Info

Publication number: CN1545665A
Application number: CNA018235743A
Authority: CN
Inventors: 魁许; 许魁; 翁福亮
Original assignee: Intel China Ltd; Intel Corp
Current assignee: Intel China Ltd; Intel Corp
Priority date: 2001-06-29
Filing date: 2001-06-29
Publication date: 2004-11-10
Also published as: WO2003003241A1

Abstract

描述了用于分析输入句子的系统。系统包括一组子语法分析器，每个子语法分析器包含一组语法规则以分析一部分自然语言语法。系统还包括子系统，以便识别可应用于一部分正被分析的输入文本的至少一个所述子语法分析器，并且使用被识别为可应用的所述至少一个所述子语法分析器分析所述部分。在一个实施例中，使用表以帮助子语法搜索处理。表包含若干子语法类别，每个子语法类别与一组左角条件相关联。通过将正被分析的当前词与和单个子语法类别相关的左角条件相比较，能识别可应用于正被分析的当前词的一个或多个子语法类别。

Description

用于多分析器架构的预测串联算法

技术领域

本发明通常涉及语言处理，尤其涉及用于语言处理的多分析器架构。

背景技术

为了处理自然语言句子，可以使用语言分析器以获得显示例如句子的输入文本数据中词和短语之间的句法(syntatic)关系的句法树。在各种自然语言应用中，语言分析器是重要的部分。由于自然语言本身的复杂性，描述自然语言的语法规则也很复杂。使用单一的语言分析器(包括自然语言的整个语法)的传统方法会导致低效率的，不准确的，并且常常很巨大的语言处理系统。

随着因特网用户数量的快速增长，在因特网上使用自然语言应用的需求已经在最近得到增长，并将继续增长。随着对于因特网上自然语言应用的需求的不断增长，与使用单一语言分析器分析特定语言的整个语法相关的问题已经变得更加明显。通常，在某些环境，例如因特网中，已有的分析技术对于自然语言应用而言不够快。

附图说明

图1是根据本发明的一个实施例，用于分析自然语言句子的多分析器系统的模块图。

图2A到图2C是根据本发明的一个实施例，分析输入句子的流程图。

图3根据本发明的一个实施例示出了子语法。

图4是根据本发明的一个实施例构建的表，其示出了左角条件表的内容。

图5是示出样本符号表内容的表。

图6是示出了部分样本哈希表的表。

图7示出了根据本发明的另一个实施例构建的样本左角条件表。

图8的网格表根据本发明的一个实施例图解了示例性句子的分析。

图9是根据本发明的一个实施例的网格表。

具体实施方式

在以下描述中，阐明了具体细节以供对本发明的全面理解。然而，对于本领域的技术人员，显然可以在不具备这些具体细节的情况下实施本发明。在其他的实例中，为了避免模糊本发明，没有详细地示出熟知的电路，结构和技术。

图1根据本发明的一个实施例描绘了用于分析自然语言句子的多分析器系统100。多分析器系统100包括预测串联(cascading)单元102，概率分值分配单元110，Viterbi单元112，左角条件表108和哈希(hash)表120。多分析器系统100中还包括若干子语法分析器114-118。应注意到，自然语言(例如，英语，汉语，等等)的语法通常包括大量的规则。结果，对于编程语言而言，处理整个语法的单一分析器的规模太大。为了避免与单一分析器包含整个语法相关的问题，语法被分割成许多子语法类别。在这点上，不同的子语法分析器114-118被构造成处理语法的不同子语法类别，例如句子(S)，名词短语(NP)，动词短语(VP)以及介词短语(PP)，等等。每个子语法分析器包含一组与对应语法类别相关的语法规则。

在一个实施例中，预测串联单元102被构造成当满足某个被称为左角条件的标准时，在输入句子中的每个位置上只调用那些子语法分析器。如果满足与子语法分析器相关的左角条件中的一个，其在该特定位置上调用此特定子语法分析器。否则，将不调用此子语法分析器。当子语法分析器在输入句子中的某个位置上被调用时，子语法分析器检查正被分析的当前词和随后词或者短语的顺序的有效性。如果子语法分析器确定此序列是有效的，其将返回一个或多个结果边(edge)以指示此序列已满足其中指定的一个或多个规则。一旦子语法分析器已经回送了结果边，更新由预测串联单元102维护的网格表104以及栈106。重复此分析过程，直到已经检查完句子中的全部词和短语。一旦已经完成了分析过程，概率分值分配单元110检查网格表104并分配概率分值给网格表104中所列出的各个结果边。然后，通过根据分配给结果边的概率分值选择最佳路径，Viterbi单元112可以确定输入句子的句法结构。

图2A到图2C根据本发明的一个实施例描述了多分析器系统的操作。分析操作可以被分解为三个阶段，即预处理阶段，主处理阶段和后处理阶段。如图2A所示，在预处理阶段期间，在块200中，预测串联单元102从外部源接收输入句子。然后在块205中，预测串联单元102构造包含边的列表的网格表，最初通过为输入句子的每个词分配输入边来得到所述的边的列表。另外，在预处理阶段期间，在块210中，以反向拓扑顺序排序输入边并将其放入栈中。

一旦已经完成了预处理阶段，多分析器系统前进到主处理阶段，如图2B所示。主处理阶段由循环(块215到块245)组成，以便识别一个或多个可应用于栈中所包含的每个边的子语法分析器，并且使用被识别为可应用的子语法分析器分析相应的边。循环(块215到块245)从最高项开始分别处理栈中所装载的每个项。如果栈非空(块215，否)，预测串联单元前进到块220，其中从栈顶弹出边。最近刚被弹出栈的边将被称为当前边。

如上所述，自然语言的语法通常由大量的规则组成。本发明提供了减少识别可应用于当前边的语法规则所需的时间量的方法。在一个实施例中，使用左角条件表识别那些可应用于当前词的子语法类别，但不必搜索完整个语法规则组。

因此，一旦已经从栈顶得到当前边，在块225中，根据左角条件表，预测串联单元识别一个或多个可应用于当前边的子语法类别。然后在块230中，多分析器系统通过调用与被识别为可应用的子语法类别相关的子语法分析器来分析当前边。如果子语法分析器生成了结果边(块235，是)，则在块240中，多分析器系统取得结果边，并通过将结果边压入栈而更新栈。在块245中，除更新栈之外，多分析器系统还从各自子语法分析器取得所得到的结果边，并将其添加到网格表中。继续此循环(块215至块245)，直到栈中全部项都已被弹出并被处理。

当已经完成主处理阶段时，多分析器系统前进到后处理阶段，如图2C所示。后处理阶段起始于块250，在块250中分配概率分值给网格表中的每个边。然后在块255中，根据此概率分值信息，可根据Viterbi算法选择出最佳路径。最后在块260中，根据Viterbi单元选择的最佳路径得到句法树。

图4的表示出了样本左角条件(LLC)表的内容，可以使用样本左角条件(LLC)表来快速识别哪些子语法类别可应用于正被分析的当前词。在分析输入句子之前，LLC表被构建和存储在数据存储器中，例如硬盘或其他存储器设备。LLC表具有如下的列：包含子语法类别名称的子语法名列404和包含若干与子语法类别相关的词，符号和短语(也被称为“左角条件”)的左角条件列406。LLC表还包含子语法标识符(GID)列，其包含唯一标识表中的每一行、可以被用于快速调用与相应行(即子语法类别)相关的子语法分析器的数值。在使用中，通过将正被分析的当前词与LLC表中每一行所列的那些词(即左角条件)相匹配，可以确定可应用于当前词的子语法分析器。应该理解，这里大大缩减了LLC表的规模以提供易于理解的例子。实际的LLC表可以包含任意数量的子语法类别(例如，数十个或者甚至数百个)，并且每个子语法类别可以包含任意数量的左角条件(例如，数百个或者甚至数千个)。

例如，名词短语(NP)子语法类别包括与名词短语相关的词。如果当前正被分析的词或短语是“the”，通过将其与左角条件列中所列的词相比较，在LLC表中查找词“the”。因为词“the”与名词短语(NP)子语法类别有关联，将选择与名词短语(NP)相关的子语法分析器以分析以“the”为起始的词或短语。应当理解，有某些词位于多于一个的子语法类别中。例如，词“copies”在某个句子的上下文中可以是名词，在其他上下文中也可以是动词。在当前词与多于一个的子语法类别相关联的情况下，将调用所有对应的子语法分析器以分析当前词。因此，在分析特定词或短语期间可能产生多于一个的结果边。

在一个实施例中，为简化识别可应用于正被分析的当前词的子语法类别的过程，为可被多分析器系统识别的每个词，短语或符号分配唯一的符号标识编号(SID)。图5的表示出了符号表。符号表包含符号列502和符号标识(SID)，SID包含唯一标识与SID表中每一行相关的每个词，短语或符号，可以用来从图7所示的查询表中快速定位和得到信息的数值。例如，在图5所示的样本符号表中，词“man”被任意地赋予SID编号“8”。

如上所述，实际的LLC表中所列的至少一些子语法类别将与大数量的词，短语和符号相关联。例如，名词短语(NP)子语法类别可以关联于词典中发现的全部词，其以某些方式与名词短语相关。因此，为了确定特定的词是否与特定子语法类别相关，当前正被分析的词必须与和每个单个子语法类别相关的词的整个列表相比较。在这点上，本发明结合了搜索技术以减少识别LLC表中所列的、可与当前词相关的子语法类别所需的时间和处理量。在一个实施例中，使用哈希表以加速搜索整个左角条件表的过程。

图6示出了样本哈希表的一部分，样本哈希表可以被用于确定与特定词，符号或短语相关的SID。所图解的哈希表具有索引列602和符号列604。哈希表中的每个项(即，行)包括根据哈希值索引的符号(例如，符号，词或短语)。通过对相应符号应用哈希函数，可取得与每个符号相关的哈希值。例如，根据符号的美国信息交换码标准代码(ASCII)，可以计算该符号的哈希值。在这点上，因为词“man”的ASCII代码是“109 97 110”，词“man”的哈希值或索引是1866[即，索引＝((109*31+97)*31+110)mod 2000＝1866]。哈希表还包含符号标识(SID)列，其包含唯一标识表中的每个符号，以便快速定位和检查图7的查询表中的相应行的数值。在一个实施例中，哈希表中指定的SID与分配给符号表中每个符号的SID相对应。在这点上，可以使用哈希表查询与特定词相关的SID，其中首先计算特定词的哈希值，然后为了得到正确的SID，使用哈希值索引整个哈希表。

图7示出了根据本发明的一个实施例构建的查询表。通过使用从哈希表获得的SID索引整个查询表，预测串联单元102能够快速识别一个或多个可应用于当前正被分析的词，短语或符号的子语法类别。在分析输入句子之前，构建查询表并将其存储到数据存储器中。所图解的查询表具有符号列702，其包含可被多分析器系统识别的符号(例如，符号，词或短语)，符号标识(SID)列704以及若干子语法分析器列706-712。查询表中的每个行与通过相应SID值索引的特定词相关联。应当理解，这里大大缩减了查询表的规模以提供易于理解的例子。实际的查询表可以包含任意数量的符号(例如，数千个)和任意数量的子语法分析器列(例如，数十个或者数百个)。

子语法分析器列710对应于名词短语(NP)子语法分析器，并且包含有关与各个查询表相关的符号是否可应用于子语法分析器(NP)的指示。类似地，列706，708和710对应于句子(S)子语法分析器，动词短语(VP)子语法分析器和介词短语(PP)子语法分析器。例如，查询表中列710的第八行有“man”在符号列中，以及“1”在子语法(NP)列中，指明子语法分析器(NP)可应用于符号“man”。相反，列710的第八行有“0”在子语法(VP)列708中，指明子语法分析器(VP)不能应用于符号“man”。在使用中，通过使用哈希表或任何其他适合的索引方法，可以得到与特定词相关的索引值(例如，SID)。例如，根据图6中提供的样本哈希表，词“man”有索引值“8”。然后，通过使用索引值“8”索引整个索引表，能轻易地定位词“man”。一旦已经通过使用适当的索引值在查询表中定位了特定的词，通过从一列穿越到另一列，预测串联单元询问整个行以识别一个或多个包含“1”的子语法分析器字段。

在此图解实施例中，子语法搜索过程由两个主要阶段组成。第一阶段涉及识别与当前正被分析的词相关的索引值。然后，通过使用所得到的索引值索引整个查询表，可以快速识别可应用于当前词的子语法类别。一旦已经识别出子语法类别，多分析器系统仅调用对应于被识别为可应用的子语法类别的那些子语法分析器。

在可选实施例中，通过使用哈希值或任何其他适当的索引方法直接索引查询表，可以进一步加速可应用的子语法分析器的确定。因此，在此可选实施例中，将重新安排图7所示查询表的符号列702中指定的符号，使得可以根据哈希值或其他适当的索引值对其检索。

有利的是，通过使用图4所示的左角条件表或者图7所示的查询表，本发明的多分析器系统能够显著加速确定哪些语法规则可应用于特定词或短语的过程。根据本发明的一个实施例，多分析器系统能够快速地消除大部分不能应用于当前正被分析的词的子语法类别，而不必遍历各个子语法类别内所列出的整个规则集合。这表示多分析器系统能够将其分析只集中于那些已经被识别为与当前词的分析相关的子语法类别，而不用浪费时间搜索完所有子语法类别。

将结合图8所示的网格图描述本发明的分析操作。在图8所示的示例中，提供了输入句子“I saw a man in the house”。网格图包括节点(N1到N8)和节点之间的边(L1到L17)。每条边代表一部分输入句子。输入边L1到L7对应于输入句子中的每个单独的词。边L8到L17对应于子语法分析器生成的结果边。每条边对应于词或输入句子的一部分，并且被用于指示其对应部分的语音，语法结构或者短语结构部分。

在图解实施例中，使用了串联构成算法，其中自底向上地确定句子的基础句法结构。在此实施例中，最初从右向左地分析句子的各个单词，随后分析中间短语，直到完成句子的分析。

最初，在已经接收了输入句子后，每条单独的边L1到L7将以相反的拓扑顺序被放入栈中，使得词“house”将位于栈顶。因此，词“house”将从栈中弹出并被指定为正被处理的当前词。然后，预测串联单元102识别哪些子语法类别与当前词相关联。首先计算与当前词“house”相关的哈希值。然后通过使用哈希值索引图6所示的整个哈希表，预测串联单元102能够确定与当前词“house”相关的SID。然后通过使用所得到的SID索引整个查询表(图7)，预测串联单元102能够通过遍历第九行来识别哪些子语法类别可以应用；零“0”表示此特定子语法类别不能应用，而一“1”表示此特定子语法类别可以应用。根据查询表，词“house”与子语法分析器(NP)相关联。一旦调用子语法分析器(NP)以分析词“house”，得到结果边L8。因为词“house”满足子语法分析器(NP)中提出的一个规则的要求，从节点N7延伸到节点N8的边L8被标记为名词短语(NP)。

预测串联单元102继续分析句子中的下一个词。在此示例中，将在输入句子中的下一个位置(输入边L6)调用名词短语(NP)子语法分析器。一旦调用了子语法分析器(NP)，子语法分析器(NP)将确定词序列“thehouse”是否是有效的名词短语。因为短语“the house”是图3所示的子语法名词短语(NP)中所列的有效名词短语之一，其回送被标记为名词短语的结果边L9以指示：名词“house”跟随在“the”后的确定满足子语法(NP)中指定的规则之一。一旦子语法分析器(NP)回送了从节点6延伸到节点8并被标记为名词短语(NP)的结果边L9，则用新的结果边更新由预测串联单元102维护的网格表104(如图9所示)以及栈105。重复此分析过程，直到处理完栈中全部项。最后，得到覆盖整个句子的单个边。在此示例中，子语法分析器(S)最终得到覆盖整个句子的从节点N1到节点N8的边L17，并且因为后跟介词短语(PP)(结果边L10)的句子(S)(结果边L16)满足图3所示的子语法(S)中提出的规则之一的要求，L17被标记为句子(S)。

图9描述了包含边的列表的网格表，其对应于图8网格图中所示的边。在图解的网格表中，每个边与边名称(例如，NP，PP)以及定义边的边界的一组节点(例如，起始节点和终止节点)相关联。

图3示出了子语法的示例。每个子语法包含一组语法规则。包含在子语法中的规则使预测串联单元能够确定当前词和后续词或短语是否可以组合成短语，例如，名词短语，介词短语，动词短语，以及句子。应该理解，这里大大缩减了与图3所示的每个子语法相关的规则的数量以提供易于理解的示例，而实际的子语法会包含任意数量的规则。

英语的语法可以被分解成任意数量的子语法(例如，数十个或者甚至数百个)。每个与相应子语法相关的子语法分析器被构造成提取某种语言特征。例如，一个子语法分析器可以被构造成提取输入句子中描述时间的部分，另一个子语法分析器可以被构造成提取输入句子中描述日期的部分。例如，“I went to California last year”，针对时间的子语法分析器将提取“last year”并识别句子的这个部分为时间。其他子语法分析器的示例包括位置，年龄，金额，等等。

如图3所示，子语法句子(S)包含两个规则。子语法(S)中的第一规则指出，动词短语(VP)跟随在名词短语(NP)之后，可以组成句子。另外，子语法(S)中的第二规则指出，句子(S)与介词短语(PP)组合也同样能形成句子(S)。接着，子语法动词短语(VP)规定，可以由名词短语(NP)或介词短语(PP)跟随在动词，例如，“saw”或者“ran”之后，而组成动词短语。类似地，子语法名词短语(NP)规定，可以由单词，例如，“I”，“he”，“man”，“house”，等等组成名词短语，或者可以由名词，例如，“man”，“house”，“telescope”，跟随在例如限定词“a”或“the”的词之后的组合，构成名词短语。最后，子语法介词短语(PP)规定，可以由名词短语(NP)跟随在介词，例如“in”或者“with”之后，组成介词短语(PP)。

可以以存储在机器可读取介质上的软件程序的形式实施本发明执行的操作，例如但不限于任何类型的盘，包括软盘、硬盘、光盘、CD-ROM和磁光盘，只读存储器(ROM)，随机存取存储器(RAM)，EPROM，EEPROM，磁卡或光卡，或任何类型的适于存储电子指令的介质，并且所述介质均连接到计算机总线上。此外，没有参考任何特定的编程语言描述本发明。可以理解，如其中所描述的，可以使用各种编程语言实施本发明的教导。

根据本发明构建的多分析器系统可提供优于常规分析器的显著优点。至少某些常规分析器将正被分析的一部分句子与定义整个语法的所有各个规则相比较，以便确定哪些规则可用。因此，常规的分析过程会是耗费时间的，因为语法通常由很大数量的规则组成，并且每当常规分析器分析句子的不同部分时，必须搜索整个规则列表，直到分析完整个句子。根据本发明的一个实施例，通过在分析输入句子之前构建规定了各个子语法分析器的左角条件的左角条件表，并且使用这样的左角条件表在输入句子的每个位置调用可应用的子语法分析器，显著地减少了执行分析操作所需要的时间量。结果，本发明改善了多分析器架构的性能，多分析器架构是各种自然语言理解应用的重要部件，包括提取和总结，健壮理解系统。通过本发明获得的另一个优点涉及轻易地合并大量新的子语法分析器进入多分析器架构系统。

虽然已经描述和示出了本发明的上述实施例，然而本领域的技术人员可以理解适合于本发明的变化和修改，例如那些所建议的以及其他在本发明的精神和范围内的。例如，应当注意，本发明教导的子语法类别搜索技术可应用于对任何自然语言的分析，并且不限于英语。因此，在附加权利要求中阐明了本发明要定义的范围。

Claims

1.一种系统，包括：

一组子语法分析器，其中每个子语法分析器包含一组语法规则以分析一部分自然语言语法；以及

子系统，用于识别可应用于一部分正被分析的输入文本的至少一个所述子语法分析器，并且使用被识别为可应用的所述至少一个所述子语法分析器分析所述输入文本的所述部分。

2.如权利要求1所述的系统，还包括包含多个子语法类别的左角条件表，其中每个子语法类别与一组左角条件相关联，通过将正被分析的当前词，以及与所述子语法类别相关的所述左角条件组进行比较，能够确定可应用于正被分析的当前词的子语法类别。

3.如权利要求2所述的系统，其中所述左角条件表包括含有子语法类别的名称的子语法名列，以及含有与各个子语法类别相关的词，符号和短语的左角条件列。

4.如权利要求1所述的系统，其中通过计算与正被分析的部分的第一个词相关的索引值，并且使用与当前词相关的索引值查找指示哪些子语法分析器可应用于正被分析的部分的第一个词的数据，所述子系统识别可应用于正被分析的部分输入文本的所述至少一个子语法分析器。

5.如权利要求1所述的系统，其中通过计算与正被分析的当前词相关的索引值，并且使用所计算的索引值索引整个查询表以确定可应用于正被分析的部分输入文本的所述至少一个子语法分析器，所述子系统识别所述至少一个子语法分析器。

6.如权利要求5所述的系统，其中所述查询表包括多个行，每个行均与根据一种索引模式而索引的符号相关联，以及多个列，每个列均与子语法分析器相关联。

7.如权利要求5所述的系统，其中所述子系统使用哈希表计算与当前词相关的索引值，所述哈希表具有根据哈希值分别索引的词，哈希表中所包含的每个词与相应的索引值相关联。

8.如权利要求1所述的系统，还包括：

为所述子语法分析器得到的各个结果边分配概率分值的第一模块；以及

根据结果边和为结果边分配的概率分值，确定所述输入文本的句法结构的第二模块。

9.一种方法，包括：

分析输入句子的一部分；

识别可以应用于正被分析的所述部分的子语法类别；以及

使用对应于被识别为可应用的所述子语法类别的子语法分析器，分析所述部分。

10.如权利要求9所述的方法，其中所述识别子语法类别的步骤包括：

访问含有多个子语法类别的表，其中每个子语法类别与一组词相关联；以及

将正被分析的当前词，以及与子语法类别相关的该组词进行比较，以确定哪个子语法类别可应用于正被分析的当前词，其中所述当前词是正被分析的部分输入句子的第一个词。

11.如权利要求9所述的方法，其中所述识别子语法类别的步骤包括：

计算与正被分析的当前词相关的索引值，其中所述当前词是正被分析的部分输入句子的第一个词；以及

使用与当前词相关的索引值查找指示哪个子语法分析器可应用于正被分析的当前词的数据。

12.如权利要求9所述的方法，其中所述识别子语法类别的步骤包括：

使用所计算的索引值索引整个查询表，以确定所述子语法类别中的哪个可应用于正被分析的当前词。

13.如权利要求12所述的方法，其中通过使用具有词的哈希表得到与当前词相关的所述索引值，其中根据哈希值索引每个单独的词，并且该词与唯一索引值相关联。

14.如权利要求9所述的方法，还包括：

为通过分析得到的各个结果边分配概率分值；以及

根据结果边和为结果边分配的概率分值，确定所述输入句子的句法结构。

15.一种方法，包括：

为输入句子中的每个词分配输入边；

通过以指定顺序放置各个边来构建栈；

分别分析栈中的每条边；

识别可应用于正被分析的当前边的子语法类别；以及

使用对应于被识别为可应用的所述子语法类别的子语法分析器，分析当前边。

16.如权利要求15所述的方法，还包括：

用通过分析得到的结果边更新栈；

为通过分析得到的结果边分配概率分值；以及

17.如权利要求15所述的方法，其中所述识别子语法类别的步骤包括：

将正被分析的当前词，以及与子语法类别相关的该组词进行比较，以确定哪个子语法类别可应用于正被分析的当前词。

18.如权利要求15所述的方法，其中所述识别子语法类别的步骤包括：

计算与正被分析的当前词相关的索引值；以及

19.如权利要求18所述的方法，其中通过使用具有词的哈希表得到与当前词相关的所述索引值，其中根据哈希值索引每个单独的词，并且该词与唯一索引值相关联。

20.一种提供指令的机器可读取介质，所述指令当由处理器执行时，使得所述处理器执行操作，所述操作包括：

分析输入句子的一部分；

识别可以应用于正被分析的所述部分的子语法类别；以及

21.如权利要求20所述的机器可读取介质，其中识别子语法类别的所述操作包括：

22.如权利要求20所述的机器可读取介质，其中识别子语法类别的所述操作包括：

计算与正被分析的当前词相关的索引值；以及

23.如权利要求22所述的机器可读取介质，其中通过使用具有词的哈希表得到与当前词相关的所述索引值，其中根据哈希值索引每个单独的词，并且该词与唯一索引值相关联。

24.如权利要求20所述的机器可读取介质，其中所述操作还包括：

为通过分析得到的各个结果边分配概率分值；以及