CN101595474B

CN101595474B - 语言分析

Info

Publication number: CN101595474B
Application number: CN2007800491618A
Authority: CN
Inventors: 约翰·鲍尔
Original assignee: Thinking Solutions Pty Ltd
Current assignee: Thinking Solutions Pty Ltd
Priority date: 2007-01-04
Filing date: 2007-12-21
Publication date: 2012-07-11
Anticipated expiration: 2027-12-21
Also published as: US8600736B2; CN101595474A; EP2115630A1; EP2115630A4; JP2010515178A; AU2007339735A1; WO2008080190A1; JP5538898B2; US20100030553A1

Abstract

本发明涉及语言分析。具体地，本发明包括操作计算机以执行语言分析的方法。在另一方面，本发明为执行该方法的计算机系统，并且在进一步方面，本发明为用于对计算机编程以执行该方法的软件。该方法包括以下步骤：将输入文本划分为词和句子。对于每个句子，将在句子中的短语与存储在数据库中的已知短语进行比较，如下：对于句子中的每个词，将词的涵义和跟随词的词的涵义与存储短语的词的涵义进行比较，以该词开始的最长存储短语开始，并且从最长至最短运行。如果找到对于两个或者多个连续词匹配，并且考虑在短语周围的词，则通过描述匹配短语的语法结构的代短语来标记匹配短语。在已经比较了倒数第二词之后，通过由其各代短语代替匹配短语来改写句子。然后，通过改写句子重复比较过程直到不存在进一步改写。

Description

语言分析

技术领域

本发明涉及语言分析。具体地，本发明包括操作计算机来执行语言分析的方法。在另一方面，本发明为实现该方法的计算机系统，并且在进一步的方面，本发明为用于对计算机进行编程以执行该方法的软件。

背景技术

当今，全世界讲述的语言大约在6,500种和10,000种之间。由于首先构筑了计算机，所以尝试对计算机进行编成以理解人类语言并且提供人类语言之间的翻译。已经提出了许多计算机方法来理解并且翻译语言。这些方法通常依靠基于从语言样本的分析所计算的语序可能性利用标记词或者统计方法所创造的具体语言规则的集合的使用。对于基于规则的系统，程序师通常写出具体解释规则的代码——一个冗长且复杂的任务。此外，这些方法通常不能有效地满足惯用词和短语的使用。

发明内容

本发明为操作计算机来执行语言分析的方法，包括以下步骤：

将输入文本划分为词和句子。

对于每个句子，将句子中的短语与存储在数据库中的已知短语进行比较，如下：

对于句中的每个词，将该词的涵义和跟随该词的词的涵义与存储短语的词的涵义进行比较，从以该词开始的最长存储的短语开始，并且从最长至最短来进行比较。

在两个或者多个连续词的涵义和存储短语的涵义之间找到匹配的事件中，利用描述匹配的涵义的代短语(overphrase)来标记匹配的两个或者多个连续词。

在已经比较倒数第二个词之后，通过由各个代短语代替匹配的部分来改写该句子。

然后，利用改写的子句来重复比较过程直到不存在进一步的改写。

用在比较处理中的涵义可以包括词的文字拼写、词义意义、词的语法结构(grammatical use，另一译法“语法应用”)或者词的其他属性。通过这些涵义的任何一个的使用，或者通过添加包括一个或者多个其他涵义的第二或者第三等级比较来满足本发明。通过这种方式匹配词顺序，可以同时处理语法内容和语义内容两者。

比较过程可以不仅包括词的涵义的比较，例如，其可以包括取决于短语周围的词的条件要求。例如，可以通过为否定或者形容词的短语之前的词来影响比较结果。

可以根据预定顺序来执行比较过程。类似地，在输入文本中的短语或者词可以根据与短语和词相关联的预定转换顺序被转化为它们的代短语。该顺序可向前运行，从句子的开始与短语匹配；或者向后，通过首先与句子匹配并随后与分句和短语匹配。

本发明通过对读取文本时人类所使用的心理过程进行仿真来执行语言分析。其使用等级模式存储、顺序分析层和双向模式匹配的结合以将基于文本的人类语言转换为其成分语法部分。这些技术模仿主要在生物大脑中所见到的功能。本发明将文本转换为文本的等级模式，或者通过将词与短语匹配，然而将短语与分句匹配，然后将分句与句子匹配，或者相反，通过将句子与分句匹配，然后将分句与短语匹配。在维持用于当需要时首先匹配较短的短语的灵活性的同时，设计该转换以确保在较短的模式之前匹配最长的模式。这也满足了在基于语法的短语之前匹配惯用短语或名称。

比较过程可以进一步包括错误校正步骤，当遇到拼写错误时，错误校正步骤校正输入句子中拼错的词并且利用校正的词来重复比较过程。

本发明可以包括建立阶段，其中词和其与文字短语、语法短语、以及其他属性的关系存储在本发明可到达的数据库中。一旦在操作中将这些模式添加至数据库，就可以通过本发明来学习新的词和短语。

在语言分析中，词义消歧为确定其中具有多个不同意义的词在给定句子中用作哪种意义的问题。换句话说，有时短语独立于词甚至包括词的字母来确定意义。本发明通过在开始为每个词加载所有的词义来满足词义消歧，并且然后取消选定在所提供的文本中不正确的那些词义。这留下了在利用文本考虑邻近词的存储的属性模式的所有情况下一致的词义。与在方形中的9点通过在盒子外部绘制利用4条直线连续地连接的难题一样，通过在词义本身和邻近的词义模式之间匹配的词义来影响词义消歧。

本发明可以经由语言生成进一步满足词义消歧。本发明可以在其输出(词义、短语、语法结构和属性)上操作以使用词或者短语的属性和语法结构来确定用于词或者短语的一致选择。等价的短语和词可以为相同的或者不同的语言。可以将词和短语与在建立阶段期间与其他语言中的其等价词义的意义链接。

为了根据文本的词和短语的属性以及语法结构来生成文本，本发明进一步包括以下步骤：

对于输入文本中的每个代短语，以所确定的最后的代短语开始，执行语言生成以找到用于由代短语所表示的短语或者词的等价，如下：

从数据库中获得代短语的所有等价短语；以及

如果在目标语言中找到等价短语，则利用代短语的等价属性来确定词或短语。

在已经考虑了最后的代短语之后，通过其相应的等价物代替代短语来改写句子，其相应的等价可以为较低水平的代短语。

然后，重复生成过程直到所有的代短语均与目标语言中的词或者其等同物匹配。

可以使用面向对象(OO)的程序语言来实现本发明，以使词及其语法结构词，即，描述所述词的语法和语义应用的词；短语；词义；以及属性通过链接被封装在词对象中。

可以在诸如服务器、个人计算机、笔记本、移动电话和个人数词助理(PDA)的基于计算机的装置中实现本发明。

本发明能够在以多种语言所写的文本上执行语言分析。不需要在语言符号(词母、数词、标点)、词、短语以及分句的意义之间的区别。有利地，本发明可以在习惯用语、隐喻、谚语、文字以及标题之间；以及在不同词义之间进行精确地区分。

本发明还平等地处理不同水平的语言。尽管确定意思的语法模式可以不同，但是用于完成与短语、分句以及句子匹配目的的原则保持不变。在一种语言中为不能划分为更小意义部分的词或者词元素的词素可以包括存储在另一语言中的独立词的信息。通过被包括在短语模式中来在翻译过程期间包含在某些语言中省略的词。

另外，本发明已经被设计为以新的方式利用现有的计算机技术。今天，写大部分计算机程序，以使该程序控制操作流并且利用帮助确定词义消歧的邻近词趋向于使用作为基本来源意义的词。在本发明中，在程序任务主要有助于数据流并且主要与用作屏幕显示和外部界面格式化的输入或输出(I/O)交互的同时，系统中的数据控制操作。

在另一方面，本发明为实现该方法的计算机系统。在另一方面，本发明为用于对计算机进行编成以执行该方法的软件。

附图说明

现在，将参照附图描述本发明的实例。

图1为本发明的流程图。

图2示出了在分析循环j中通过本发明所执行的步骤的顺序。

图3示出了在分析循环j中通过本发明的短语匹配程序所执行的步骤的顺序。

图4A示出了在本发明中词和短语之间的关系。

图4B示出了一串词、属性、词义、以及词义元素之间的关系。

图4C示出了短语模式结构的细节。

图4D示出了短语模式抑制在一种情况下的匹配，然后允许该匹配的实例。

图5示出了由用于语言生成的本发明所执行的步骤的顺序。

图6示出了本发明如何将输入句子中的未知文字短语与数据库中的已知文字短语进行匹配。

图7A和图7B示出了分析程序的循环1。

图8示出了如何使用本发明来对一个句子进行分析的实例。

图9A和图9B示出了如图5详述的本发明的语言生成特征的实例。

图10示出了在较高水平处模型的扩充。

具体实施方式

现在，将参照图1说明本发明100。首先，在步骤110中，检查长度L₁的输入文本以识别一系列的词，利用空格或标点的帮助来确定词边界。输入文本可以为字母、数字、标点符号或者其他语言符号的集合。

例如，直到“文件结束”字符的一系列词形成第一输入句子(步骤120)，在第一分析循环中为文本分析130提供该第一输入句子。通常，我们在分析循环j中将文本分析130的输入句子表示为：

Wj(1)Wj(2)...Wj(L_j)，

其中，Wj(1)表示句子的第一个词并且L_j为在当前循环中输入句子的长度。

文本分析130的功能为识别输入句子中的短语。具体地，将输入句子中的未知短语与数据库中的已知短语进行匹配。在找到两个或者多个连续词的匹配的事件中，利用描述匹配短语的语法结构的代短语来标记匹配短语。重复通过文本分析130所执行的匹配过程直到没有新的短语被识别。文本分析130的每个循环作为如j所表示的分析循环，并且在图2中示出在循环j中所执行的步骤的顺序。

假设Wj(1)Wj(2)...Wj(L_j)的输入句子，在步骤205中，文本分析130首先确定在输入句子中的第一未知词的位置。例如，在第一反复中，第一未知词为Wj(i)，其中i＝1。然后，在步骤210中，经由诸如哈希表的查询工具将未知词Wj(i)与在数据库中的已知词进行匹配。未知词可以是诸如“cat”的文字词；或者是诸如“[Noun：cat]”的短语词。仅在第一分析循环之后可以在句子中出现后者。

如果步骤210中在数据库中没有找到当前未知词Wj(i)，则在步骤245中文本分析130向前运载未知词作为其代短语；并且在步骤250中，确定句子中的下一个未知词。在这种情况下，未知词计数器i将增加1。如果在句子中仍存在更多未匹配的词(步骤255)，则将利用下一个未知词来重复步骤210中的查询程序。因为词可以被拼错或者被错误地使用，所以块235执行学习和错误校正并且不存储新词。如果确定了拼写错误，则步骤215遵循正确的词。

反之，如果在步骤210中，在数据库中找到未知词Wj(i)，则执行短语匹配程序215以在数据库中寻找与以Wj(i)开始的输入句子中的短语相匹配的已知短语。数据库中的每个已知词具有语法结构、属性、含义以及短语的相关联的集合，该集合经由诸如基于软件的排列列表的机制直接链接至该词。利用关联的集合同样地对短语、分句和句子初始化。在图4(a)中示出了数据库中的词和短语的关系。在建立阶段期间可以将使系统可操作的必要的词、短语以及其他关系数据的初始集合加载到数据库中，并且一旦本发明运行，可以通过存储新词来学习新词，并且然后，将这些新词与环境适当地链接。

例如，文字词“the”可以链接至：

诸如“the black sleeping cat”和“The Sound of Music”的以“the”开始的短语列表；

描述诸如“[冠词]”和“[限定词]”的“the”的语法结构的语法结构词列表；以及

其他属性的列表。

属性描述了诸如否定、第三人称的其他词特性和诸如为不及物、条件和被动的动词特性。类似地，可以将语法结构词“[冠词]”链接至诸如“[冠词][名词]”和“[冠词][形容词][名词]”的短语列表来描述以“[冠词]”开始的可能有效的短语元素。

将参照图3说明通过短语匹配程序215所执行的步骤的顺序。假设Wj(i)Wj(i+1)...Wj(L_j)的输入句子，在步骤300中，从数据库获得以第一个词Wj(i)开始的已知短语列表。如果在步骤220中找到一个或者多个短语，则在步骤310中，根据短语长度从最长至最短来检索所获得的短语以确保首先找到最长匹配的短语。

假设找到K个短语并且将所分类的短语表示为：

短语l：Pl(1)Pl(2)...Pl(N_l)

短语k：Pk(1)Pk(2)...Pk(N_k)

短语K：PK(1)PK(2)...PK(N_K)，

其中，N_k为短语k的长度并且k＝1...K。仅需要考虑具有小于等于输入句子长度的长度的短语，即，L_j-i+1。由于列表被排序，所以很明显N₁≥N₂≥...≥N_K。注意，所有的短语以相同的词开始，即，对于所有的k，Pk(1)＝Wj(i)。

然后，短语匹配程序215将在列表中的每个已知短语与输入句子Wj(i)Wj(i+1)...Wj(L_j)进行匹配。具体地，在步骤320～340中，对短语k的第m个词Pk(m)进行配对并且与在输入句子中的相应词Wj(m+i-1)(m＝2...N_k)进行比较。如果Pk(m)和Wj(m+i-1)都为文字或者语法结构词，则可以进行直接比较。

然而，如果Pk(m)为语法结构词，而Wj(m+i-1)为文字词，则不能直接进行比较。将链接至Wj(m+i-1)的语法结构词用于进行比较。例如，如果主动分析短语为“[冠词]man”并且找到链接至语法结构词“[冠词]”的已知短语：

“[冠词][名词]”

则将与第二词“man”相关联的语法结构词与“[名词]”进行比较。我们将词Wj(i)的语法结构词表示为Gr[Wj(i)]。

将利用短语和输入句子中的其他对的词来重复图3的步骤330中词匹配的处理，直到发现无匹配对或者所有对词均已经被匹配。以前，将利用列表中的下一个短语来重复步骤320和330。然而，如果所有短语均已经与输入句子进行了比较，则短语匹配程序215的结果为在步骤220中没有找到匹配短语。

如果已经匹配了所有的词对，即，当找到匹配短语时，在步骤370中检验数据库中的存储短语的属性、或者词义、或者属性和词义两者与输入句子中的匹配词具有一致性。如果找到属性、或者词义、或者属性和词义两者是一致的，则短语匹配程序215的结果为匹配短语。否则，模式不匹配并且利用列表中的下一个短语重复步骤320和330。类似地，如果已经将所有的短语与输入句子进行了比较，则短语匹配程序215的结果为在步骤220中没有找到匹配短语。

结果1-找到匹配短语

当找到匹配短语时，选择匹配的最长短语。当存在平局的情况下，选择根据元素数量的最复杂的模式。每当短语匹配程序215将在输入句子中的短语与在数据库中的已知短语成功地进行匹配时，将代短语分配给在图2的步骤225中的短语，以表示下一个分析循环中的短语。在分配代短语之前，首先检查匹配短语词义的一致性。根据剩余的一致词义，参见图4B，选择总结匹配短语的意义和语法特性并且表示下一个分析循环中短语的代短语。

例如，考虑以下匹配短语：

Wj(i)Wj(i+1)...Wj(M)，

其中，M为匹配短语的长度并且M在当前分析循环j中小于等于输入句子的长度。将确定并存储匹配短语的代短语

Over[Wj(i)Wj(i+1)...Wj(M)]，

可以基于短语的特性来确定代短语。通过缺省值，每个短语具有可以没有改变地使用的链接的代短语。另外，可以分析在匹配短语中的词以找到更合适、具体的代短语。

在步骤225之后，未知词计数器i将增加至M+1，即，紧跟在匹配短语之后的词。如果在句子中存在更多的未知词，则将重复步骤210。换句话说，一旦找到匹配短语，分析程序跳过匹配的、或者现在已知的词，以与在句子中的下一个未知词顺序进行匹配。

结果2-没有找到匹配短语

如果短语匹配程序215没有找到以数据库中的当前未知词Wj(i)开始的任何匹配短语，则文本分析130将执行以下步骤之一：

如果Wj(i)为文字词240，则获得与Wj(i)相关联的已知语法结构词Gr[Wj(i)]的列表，并且利用每个语法结构词中作为输入句子的第一词重复短语匹配程序215直到找到匹配或者已经考虑了用于文字词的所有语法结构词；或者

如果Wj(i)不是文字词，则在图2的步骤245中将Wj(i)设置为其代短语，并且如果在句子中存在更多不匹配的词，则通过跳过的Wj(i)来重复步骤210以在以Wj(i+1)开始的句子中找到下一个未知短语。

通过Wj(i)的每个语法结构重复短语匹配程序的目的是在数据库中找到与Wj(i)和其随后词的语法结构相匹配的已知语法短语。例如，在数据库中没有找到输入句子“the old man”，但是可以与“[冠词][形容词][名词]”相匹配。文本分析的输出是表示其各自短语的代短语的句子。

当已经考虑输入句子中的所有词时，文本分析130停止。因为在当前循环中不匹配，所以文本分析130的每个分析循环j的输出是表示输入句子中的匹配短语和向前运送的任何词的代短语的句子。换句话说，用于不匹配词的代短语为词本身。因此，在每个分析循环j中输入句子的长度，即，L_j可以不同。

在图1中的文本分析130之后，在步骤140中，将文本分析130的输出与输入句子进行比较。如果句子不同，则将当前分析循环的输出句子用作下一个分析循环的输入句子。重复比较处理直到没有进展，或者更具体地，输出句子与输入相同。

对所有可能短语进行分析来确保文本分析130找到以包括惯用短语的词开始的最长的匹配短语。为了根据在所有语言中所找到的歧义而正确地聚集短语，存储短语的设计预先确定了短语匹配的顺序和将词转换为词的代短语的顺序。

可以进一步通过更具体地参照图4C来说明分句和句子匹配。在图的下部中，将主-谓-宾(SVO)分句定义为名词，跟随必须为及物动词而不是现在分词的动词，并且然后跟随不为代名词的名词。将输入文本与该具体模式匹配将导致本发明为进一步的分析循环提供SVO代短语。

为了识别在匹配的SVO短语中使用的词需要附加的分析，其有助于短语的可选短语映射的使用。短语映射识别匹配SVO短语的否则有歧义的元素。在该实例中，第一名词为编号短语0并且为名词。第二短语为编号短语1并且为动词加上其直接宾语(动词的部分)。

短语0为名词，所以可以立即排除其他语法词义并且因此减少了词的歧义。在剩余代短语的选项中，从名词义中进行选择。此外，词义消歧在分句水平上是可能的。

通过(a)因为已经识别了短语本身，在独立于文本的情况下再次搜索该模式，以去除考虑之前和随后抑制词检查的正规短语，或者作为选择通过(b)访问详细描述短语1的嵌入短语，来使包括两个词的短语1匹配。尽管在图中没有示出，但是短语1应该包括具有2个元素(动词和名词)的短语。名词将识别语法直接宾语或者可选地识别主题关系。

实例4示出了短语的不同水平的使用来确定导致有效句子匹配的一个匹配。由于不能理解句子，不存在不正确地聚集在句子中短语上的模式匹配系统中的涵义。通过以相反顺序工作的分句和句子匹配来解决某些类型的歧义，首先聚集名词短语，接着聚集动词短语的策略是有效的。通过存储在短语本身中的4个附加模式加强词至短语和分句的顺序转换(参照图4C顶部)。

每个短语结合丢失瞬象(Miss snapshot)模式。如其名称所表示的，当在短语之后在词中与该模式匹配时，短语丢失且不匹配，如在“the boy and”中将不匹配短语‘the boy’同时保留“and”。第二短语匹配限制物为之前的丢失瞬象模式。如果短语之前的词被匹配导致没有匹配全部短语，即使其元素匹配，如在“red and whiteboys”中没有匹配“white boys”作为名词短语同时保留之前的词“and”则该模型匹配。在短语匹配中的第三限制工具为双丢失瞬象。这些仅指定必须两者匹配以使短语匹配失败的之前的丢失和丢失瞬象对。如果其为独立句子元素并且能够代替地使SV分句匹配，则这停止识别名词短语“the wrist watches”。四个短语限制控制的结尾为所有的丢失设置。当其检查是否存在诸如换行字符的开始的任意前字符时，该短语与文本内的模式不匹配。当其为自上而下匹配的另一模式的次短语时，这能够具有主动有助于匹配模式的该设置的短语。语言的含糊种类表现为通过这些四个附加控制和自上而下的方向来控制。

自上而下方法补充上述独立短语模式控制。在自上而下的方法中，首先匹配分句或者句子，并且然后，作为通过较高模式所识别的边界的结果识别其短语。当本发明允许要存储的任何数量的类似短语模式时，可以存储语法和语义类似模式并且根据输入文本的分析来影响有效消歧。

参照实例4a和4b，其为在使用自上而下方法的一个步骤(4a)和在使用自下而上的方法、首先与短语匹配的两个步骤中(4b)与分句匹配的必要的各种类型的元素的进一步的实例。

每个实例示出了使用几个存储短语和具有在这种情况下仅包含标记的词的各个词义的存储词怎样与分句匹配。4a示出了两个存储短语并且包括直接与输入文本匹配的短语映射。主语变成代短语，np：canis并且通过嵌入短语匹配，识别包括动词的谓语vp：eat4和直接宾语np：food1。这发生在如在实例中所示的分析循环1并且当然，代短语可以为任何匹配词义。

4b示出了包括分句短语的三个存储短语的使用。在该实例中，第一分析循环导致代短语np：man3变成在所示的第二循环中的第一词。有利的是第二循环与SVO模式匹配，在这种情况下，SVO模式为与在实例4a中的分句匹配的相同模式。然而，在这种情况下，当其已经在那里时，短语映射的应用不需要以进一步的代短语代替词义。在与分句匹配之后，进一步的词义消歧将通过链接至初始词的选择而减少有效词义的数量。

短语模式抑制

匹配一个短语包括如所述的与其存储的模式匹配。为了确保在更高水平模式之前没有不正确地与低水平模式匹配，需要以短语抑制形式控制。短语抑制定义了附加模式匹配确认。实际上，抑制导致了确定匹配本身有效性的短语的出现。

某些必要的短语抑制包括丢失匹配：当(a)定义模式跟随诸如在‘the cat and dog are sleeping’中跟随短语‘the cat’的词‘and’的短语；(b)在短语以前的定义模式，与在与短语‘white and red’匹配的同时，在短语‘the white and red dogs eat’中的形容词‘red’第一次抑制了匹配分句‘dogs eat’，也参见图4D，因为找到了引导形容词“white”所以在第一次通过时丢失了词分句“car rocks”；(c)当从另一短语中没有被识别的短语；以及(d)遇见先决条件和后置条件这两者时，使用模糊动词‘are’停止为名词短语的句子‘People are.’。

关于短语匹配的其他必要抑制确保与词意义的一致性。可以将否定属性或者含义添加至短语。如果当模式包括否定元素时该元素不在短语中，则短语不匹配。

词义消歧

本发明通过在程序开始阶段期间将词义与词连接来满足词义消歧。词义为代短语词并且包括唯一标记。每个词义包括一系列语法结构、属性和在包括上位词和下位词的等级词义之间的链接。词义可与如用在与普林斯顿词一样的词典中的同义词集合比较。在短语匹配期间可以将来自词义的属性和语法结构传递至词。

当模式被匹配时开始消歧过程，可以在图2的步骤225之后执行该过程。然后，检测用于与匹配模式的一致性的词义并且从下一个循环中去除所有不一致的含义。例如，在与动词匹配之后，去除所有的名词和形容词义。类似地，如果与不及物动词形式匹配，则去除所有的及物动词义。这导致相对于更少数量的潜在词义进行的附加匹配循环。

当前，本发明利用在每个含义内的三种模式，以进一步地识别在所提供的文本中的含义的适用性。这三种模式包括以前、当前和下一个模式。在短语本身中确定用于这些模式比较的定时并且将改变，然而，跟随多个实例以阐明含义内容的目的。分句将每个含义与其实际匹配模式(当前)进行比较，跟随在主语的下一个模式和动词以前模式之间的比较。另外，在与其宾语的谓语匹配期间，进行适当的比较。名词短语去除没有应用于名词(以前)的形容词词义(接下来)。在SVC的分句匹配中，在主语和补语之间比较形容词和名词。这种过程基于执行可以是反复的。

本发明通过将词的属性和其临近词与存储模式进行匹配来确定词的更适当的意义。例如，假设“water”、“IBM”和“Robert”分别具有属性[属性：液体]、[属性：商业]和[属性：人]。考虑以下句子：

“the water ran down the road”；以及

“Robert ran IBM”。

在前者中，短语“the water ran”与“[冠词][属性：液体][动词：run]”匹配。在这种情况下，图2的步骤225可以选择性地以“[动词：flow]”代替“[动词：run]”，将其他短语元素向前运载至下一个分析循环。类似地，在后者的情况下，句子与“[属性：人][动词：run][属性：商业]”相匹配。这里，可以选择性地以“[动词：operate]”代替“[动词：run]”。

作为包括具体属性的可选词，本发明使用词义和词包含的上位词和下位词以与所寻找的属性进行比较。例如，通过水使用用于以上所述的ran的词义，短语可以与用于具有为液体的上位词的属性“液体”的水的任何置换物。类似地，水具有液体的上位词。用于存储模式的右侧词义为将由匹配所产生的所有有效词义的一个。

通过体验可以学习产生与词义匹配的存储短语的过程，通过将当前词义存储在匹配短语中，所提供的输入文本仅包括语言词的有效使用。例如，当进行附加匹配时，下级上位词可能在程序上潜在地替换以前一个以扩展短语范围。

经由生成语言的词义消歧

现在，将参照图5详细描述语言生成，即，从步骤100的输出生成句子。本发明可以以相反的顺序运行以生成语法语言。一旦已经分析了句子，一系列语法结构和属性对于在文本中所提供的句子、分句、短语和词是已知的。类似地，词和短语在其他语言中与其等价意义链接。

步骤910通过获取最高水平的对象，Wj(l)，通常是由分析产生的句子，来开始生成过程。为句子、分句、短语或者词的这些对象变成用于第一生成循环的输入。本发明获取Wj(l)并且在步骤930中搜索用于所有等价物的其数据库。例如，具有主语、谓语、以及直接宾语的主-谓-宾(SVO)分句通常具有与该分句匹配的多个短语。最好的匹配将包括与分析句子匹配的短语和属性。为了在语言之间进行翻译，独立附加需求为生成的宾语也与指出目标语言的属性匹配。步骤940校验目标语言细节可用于生成目标文本。选自目标语言的词为在步骤950中与同义词的源语言词集合链接的一个。从步骤960重复处理直到已经生成所有词。

反之，通过与分句、短语和词的当前集合匹配来生成在相同语言中的句子。在分析与物理词匹配以识别语法结构和属性的同时，生成使用已知语法结构、属性和词或者短语的潜在应用来确定一致选择。例如，以在分析期间第一人称动词“am watching”的匹配开始导致在生成期间相同的输出。然而，通过将属性改变至第二人称，因为链接至动词“watch”的最匹配动词短语包括具有这些属性的词短语，所以生成产物“is watching”。

类似地，为了翻译成诸如法语的其他语言，短语的每个元素必须确保其属性对于法语是有效的并且通过在数据库中寻找有效匹配来找到适当等价短语。该方法使在语言之间的偏差最小化，适当处理了不用语言水平。实例5示出了分析英语句子并且生成等价的法语句子的全部过程。

关于用于翻译目的的词义消歧，适当外来词的选择依靠已知属性、语法结构和分句应用。

执行

本发明可以在包括服务器、个人计算机、笔记本、移动电话、以及PDA的任何基于计算机的装置上运行并且使用面向对象的程序语言来最有效地执行本发明。OO语言为将词和短语定义为封装其有关数据和连接的对象提供了便利。短语可以为具体词的结合，或者作为选择，与语法结构和属性相关联的词顺序。

在OO语言中，应该将寻找最好匹配短语的任务委托给词对象，词对象又委托给存储的短语并且然后委托给存储模式，委托给其存储的每个瞬象模式并且然后委托给具体词。在建立阶段期间，本发明可以通过将它们直接链接至包括在词对象中的数组列表并且根据长度排列它们来存储短语。可以维持词的分类列表以避免访问数据库或者在图3的步骤300和310中的分类的需要。可以通过专用硬件平台来支持本发明。

运行本发明所需要的计算机虚拟内存的大小为词数量的因数以及较小长度的存储的短语数量，其仅为到词的链接的顺序，以及它们之间的其他关系。存在有利于语言识别的词之间的许多有用关系，其可以包括上位词/下位词、反义词、整体名词/转喻词等。不使用基于计算机的链接的其他执行可能进一步使需要的存储最小化。

实例1

在图6中示出了句子中的未知文字短语怎样与数据库中的已知文字短语匹配的实例。假设文本分析130的输入句子为“John is ajack of all trades”并且在分析期间，短语匹配程序215的输入句子为“jack of all trades”。首先，程序将当前未知词设置为“jack”并且找到以“jack”开始的文字短语列表。在该实例中，存在找到的两个已知文字短语：“jack of all trades”和“jack and beanstalk”。然后，程序使用在图3中的步骤320和330将在已知短语中的词与输入句子中的相应词进行反复匹配，直到找到一对不匹配的词或者找到匹配短语。在这种情况下，第一短语是到输入句子的精确匹配。

注意，在数据库中不存在到已知短语的单一索引。机制用以匹配以在图2的步骤210中的查询表中所找到的词开始的短语。一旦与词匹配，本发明使用以该词开始的存储短语列表寻找匹配。由于不具有具体索引，不管在短语之前和短语之后的输入句子的破坏，将成功运行寻找匹配短语。例如，“Blah blah jack of all trades blah”将仍与在数据库中的短语“jack of all trades”匹配。类似地，因为仅考虑潜在匹配，所以找到潜在匹配的速度是很快的。

实例2

现在，将参照在图7A和7B中的实例证明通过在图1、2以及3中所执行的步骤。假设输入句子，首先使用在图1中的步骤110将输入文本划分为词。在第一分析循环中，文本分析130的输入句子为“The old Australian man wants a drink”。参照图2，步骤210将第一未知词“The”与在数据库中的已知词匹配。当找到该词时，使用图3的步骤300获得在数据库中链接至“The”的短语列表。在该实例中，仅存在链接至词“The”的一个存储短语并且短语匹配程序215未能找到匹配短语。其通常很少有文字短语模式。这些短语通常用于诸如电影标题、惯用短语、陈词、以及专有名词的文字短语。

由于“The”为文字词，所以在图2中的步骤240之后，从数据库中获得与该词相关联的语法结构词。例如，找到链接至数据库中“The”的“[冠词]”和“[限定词]”。然后，利用替换作为程序215的输入句子的第一词的“The”的每个已知语法结构词中来重复步骤210。在第一文字中，“[冠词]”替换“The”并且输入句子变成“[冠词]old Australian...”。然后，获得以“[冠词]”开始的已知短语列表并且在步骤300和310中对其进行分类。

在该实例中，找到三个匹配短语：“[冠词][形容词][形容词][名词]”、“[冠词][形容词][名词]”和“[冠词][名词]”。考虑第一个短语“[冠词][形容词][形容词][名词]”。从已知短语的第二词开始，对短语中的每个词进行配对并且与输入句子中的相应词进行比较。考虑配对，“[形容词]”和“old”。由于“old”为文字，但是“[形容词]”为语法结构词，所以图3的步骤330将“old”的语法结构之一与“[形容词]”匹配。在该实例中，语法结构词“[形容词]”与“old”相关联并且因此，找到匹配对。然后，重复词匹配程序330直到找到非匹配对或者到达短语结尾。注意，在自然语言中，许多词具有多个语法结构。还可以将词向后链接至词的相关短语以在文本破坏的情况下能够进行错误校正。

在找到匹配短语之后，确定用于匹配短语的代短语并且将其存储以表示下一个循环中的短语。接下来，将在句子中的下一个未知词设置为在图2的步骤230中的“wants”。重复短语匹配程序215直到已经匹配了所有短语。第一分析循环的结果可能为“名词[man]动词短语[to want]名词[drink]”。将该输出句子用作用于与实例1类似的下一个分析循环的输入句子。

实例3

现在，将参照在图8中的实例描述示出在每个分析循环中的文本分析130的结果的实例。目的是重复与在输入句子中的未知短语匹配直到获得最后句子。在第一分析循环中，文本分析130的输入句子为“The cat ate the mouse.”文本分析130在输入句子中找到四个短语“The cat”、“ate”、“the mouse”以及“.”。在第二分析循环(j＝2)中，通过它们各自的代短语来表示这些短语，“[名词：cat]”、“ate”、“[名词：mouse]”以及“.”。代短语为接下来的分析循环提供匹配短语的语法结构和诸如a cat is[属性：第三人称]、[属性：单数]以及[属性：动物]的其他基于语义的存储属性。

当在分析循环3中对句子没有进行改变时，即，短语已经聚集，在句子中的词将转换为其各自代短语。在该实例中，将“[名词：cat]”转换成为“[名词短语]”，将“ate”转换成为“[动词短语]”并且将“[名词：mouse]”转换成为“[名词短语]”。然后，通过该新句子重复步骤120直到没有产生进一步进展。在分析循环编号4中，将句子“[名词短语][动词短语][名词短语]”与在数据库中的已知语法短语进行匹配，即，主-谓-宾分句或者“[SVO分句]”。当句子聚集时，过程结束。

实例4

存在在需要选择分析控制的自然语言中的多个模糊特征以自动确定适当处理。本发明通过允许短语模式包括原级和否定语法(举例来说：名词，动词)以及语义(举例来说：human，第三人称，非限定词)内容的结合并且，跟随短语或者分句的匹配、使短语匹配指定在匹配内的嵌入存储模式来满足该控制。另外，对每个短语提供了以匹配导前或者跟随内容的形式指定在短语本身之外的丢失条件。

例如，考虑下列文本：

“the barking dog was barking”。

当其短语为找到的最长的时候，短语[名词：dog]和[动词：bark]不需要控制，考虑接下来的实例；

“the boys and girls ate and talked”。

在短语“the boys”和“girls ate”之前，需要与短语“boys and girls”和“ate and talked”匹配。否则，结果的文本，

“[名词：boy]and[主语/谓语：girls/ate]and talked”，将不会聚集到英文分句。

在这种情况下，存在使用高水平模式的两种直接方法。第一种简单通过每个代短语为语法类型的适当属性将模式定义为[名词和名词][动词和动词]。这导致在下一个分析短语上分句类型主语谓语的匹配。可选方法为通过相同元素定义SV分句模式，但是代替使用2个分析循环，定义指出名词短语为第一4个词和动词短语为接下来的3个词的短语映射。任一方法导致分句的匹配。

在分析循环以后，文本分析130的输出为：

“[名词：boy/girl][动词：ate/talked]”。

然后，通过与由(不及物)动词短语跟随的名词短语匹配来找到主/谓分句。

作为另一实例，“Cats who are hungry run”首先对于[名词：cats][run]分析其短语。分句短语[名词who动词形容词]+[动词/不及物动词]识别在第二分析循环中的分句。

实例4a

该实例示出了分句匹配的两个实例。在一种情况下，匹配直接发生并且短语来自匹配并且在后一种情况下，首先与短语匹配，接着分句识别。

在该实例中，考虑文本“Dogs eat food”。

存储的短语是

1.名词-动词-名词(SVO分句)-短语映射具有第一词＝名词，接下来的2个词＝谓词，并且

2.动词/及物动词-名词(谓词及物动词)

存储的词/含义(来自原型/WorNet的取样含义ID)

1.词dog/dogs->含义名词/短语np：canis

2.词eat/eats/eating/ate/ate->含义动词/短语vp：eat4

3.词food/food->含义名词/短语np：food1

4.匹配顺序(循环1-原始文本)

如下示出了匹配顺序：

1.Dog eat food：匹配短语1。代短语为语法结构词-SVO分句。

2.在与短语2匹配的嵌入短语(谓词短语)上寻找进一步的匹配。其代短语为含义vp：eat4。短语映射示出了使用哪个词义-在这种情况下名词或者动词。

实例4b

在该实例中，考虑文本“The very tall Italian work man had beendestroying the race competitors.”

存储的短语

1.限定词-副词/how-形容词/height-形容词/origin-名词-名词(NOUN)

2.had-been-动词/现在分词(VERB)

3.名词-动词-名词(SVO分句)

存储的词/含义

1.词man/men->含义名词/短语np：man3

2.词destroy/destroys/destroying/.../destroyed->含义动词/短语vp：demolish

3.词competitor/competitors->含义名词/短语np：rival

匹配顺序(循环1-原始文本)

1.The very tall Italian work man：匹配短语1。代短语为含义np：man3。

2.had been destroying：匹配短语2。代短语为含义vp：demolish。

3.the race competitors匹配短语1(注意，可以将短语定义为密度、意义，其接受在模式之间的间距)。代短语为含义np：rival。

(循环2改写为np：man3，vp：demolish，np：rival)

1.匹配的短语3。代短语为语法结构词-SVO分句。

实例5

现在将参照图9A和图9B示出语言生成。图9A示出了通过从句对英文句子进行分析的步骤。然后，每个词和短语可用于支持在该实例中为法语的外国语言句子的生成。

图9B示出了产生法语词的生成过程，以句子到SVOO分句及标点的转换开始循环1。在这种情况下，法语SVOO分句与循环2中所见的使用与英语不同的词顺序的句子匹配。为了在循环3中扩展分句，找到匹配必须定位词“that”的法语等价物。另外，“when-phrase”涉及星期的持续时间，其需要法语等价物。这通过跟随从英语词的链接找到——在类推中跟随与词相关联的短语。在启动期间执行链接阶段以对准语言和适当等价物之间的动词时态。

循环3需要法语动词短语“dire”与适当时态的匹配。在这种情况下，将英语简单的过去时态设置为法语passécomposé的等价物并且还具有第三人称单数形式，导致短语匹配“a dit”。循环4需要另一种动词生成，在这种情况下，从法语短语“suivre”到过去完成时，作为与英语动词短语“had followed”等价的选择包括属性[第三人称单数]和[过去完成时]。通过前导直接对象“1a”来确定用于过去分词的阴性形式的使用。这些生成步骤刚好是与分析过程相反的过程，与词的属性匹配而不是短语的词和语法结构。

在如上所述的本发明覆盖语法分析程序的操作的同时，本原理涉及在较高和较低的水平上等效地将词分析为其一致性的语法操作。图10示出了使用图4的输出的模型扩展，该输出当执行为等级时可以进一步较高和较低地重复。该方法需要识别词中字母的顺序并且可以使用所描述的本发明来实现分句之间的关系。

本领域的技术人员将意识到，在不脱离如广泛描述的本发明的精神和范围内，可以对于如在具体实施例中所述的本发明进行多种改进和/或修改。因此，在所有方面考虑的本实施例是作为示例性的而不是限制性的。

Claims

1.一种操作计算机来执行语言分析的方法，包括以下步骤：

将输入文本划分为词和句子；

对于每个句子，将所述句子中的短语与存储在数据库中的已知短语进行比较，如下：

对于所述句子中的每个词，将所述词的涵义和跟随所述词的词的涵义与存储短语的词的涵义进行比较，从以所述词开始的最长的存储短语开始所述比较，并且从最长的存储短语至最短的存储短语进行所述比较；

在两个或多个连续词的涵义和所述存储短语的涵义之间找到匹配的事件中，利用描述所述匹配涵义的代短语来标记所述匹配的两个或多个连续词；

在已经比较了倒数第二个词之后，通过由匹配的短语的各代短语代替所述匹配的短语来改写所述句子；

然后，用所述改写的句子重复所述比较过程，直到没有进一步的改写。

2.根据权利要求1所述的方法，其中，在所述比较过程中使用的所述涵义为所述词的字面意义。

3.根据权利要求1所述的方法，其中，在所述比较过程中使用的所述涵义为所述词的语法结构。

4.根据权利要求1所述的方法，其中，在所述比较处理中使用的所述涵义为所述词的属性。

5.根据权利要求1所述的方法，其中，在第一次比较中，所述涵义为所述字面意义、语法结构或者属性中的一个，并且在第二次比较中，所述涵义为剩余的两个所述涵义中的任一个。

6.根据权利要求5所述的方法，其中，在第三次比较中，所述涵义为剩余的所述涵义。

7.根据上述权利要求中的任何一项所述的方法，其中，所述比较过程不只包括所述词的涵义的比较。

8.根据权利要求7所述的方法，其中，所述比较过程包括依赖于所述短语周围的词的条件要求。

9.根据上述权利要求1至6中的任一项所述的方法，其中，根据预定的顺序来执行所述比较过程。

10.根据上述权利要求1至6中的任一项所述的方法，其中，根据与所述短语和词相关联的预定的转换顺序，将所述输入文本中的短语和词转换为其代短语。

11.根据上述权利要求1至6中的任一项所述的方法，其中，所述比较过程还包括错误校正步骤，当遇到拼写错误时，所述错误校正步骤校正所述输入句子中的拼错的词并且利用所校正的词来重复所述比较过程。

12.根据上述权利要求1至6中的任一项所述的方法，还包括建立阶段，其中，将词和词与文字短语、语法短语、以及其他属性的关系存储在数据库中。

13.根据上述权利要求1至6中的任一项所述的方法，还包括在操作期间学习新词的步骤。

14.根据上述权利要求1至6中的任一项所述的方法，其中，通过加载每个词的所有词义并且取消对在所提供的文本中无效的那些含义的选定，来进行词义消歧。

15.根据权利要求1至6中的任一项所述的方法，其中，通过使用所述词或短语的语法结构和属性确定用于所述词或短语的一致性选择，来进行词义消歧。

16.根据权利要求15所述的方法，其中，匹配的短语和词为不同的语言。

17.根据权利要求16所述的方法，其中，根据词和短语的所述语法结构和属性来生成文本，所述方法还包括以下步骤：

对于所述输入文本中的每个代短语，从所确定的最后一个代短语开始，执行语言生成以找到由所述代短语表示的所述短语或词的等价物，如下：

从所述数据库获得所述代短语的所有等价短语；以及

如果在目标语言中找到等价短语，则利用所述代短语的等价属性来确定词或短语；

在已经考虑了最后一个所述代短语之后，通过用所述代短语的各等价物替换所述代短语来改写所述句子，其中所述代短语的各等价物是较低水平处的代短语；

然后，重复所述生成过程直到所有的代短语均与所述目标语言中的词或其等价物相匹配。

18.根据上述权利要求1至6中的任一项所述的方法，通过使用面向对象(OO)的程序语言来实现所述方法，以使词及其语法结构词，即，描述所述词的语法和语义应用的词；词及短语；词及词义；以及词及属性之间的关系被封装在词对象中。

19.根据上述权利要求1至6中任一项所述的方法，在包括服务器、个人计算机、笔记本、移动电话以及个人数词助理(PDA)的基于计算机的装置中执行所述方法。