CN1172992A - 在自然语言解析器中识别和解析常混词的方法和系统 - Google Patents

在自然语言解析器中识别和解析常混词的方法和系统 Download PDF

Info

Publication number
CN1172992A
CN1172992A CN97113939A CN97113939A CN1172992A CN 1172992 A CN1172992 A CN 1172992A CN 97113939 A CN97113939 A CN 97113939A CN 97113939 A CN97113939 A CN 97113939A CN 1172992 A CN1172992 A CN 1172992A
Authority
CN
China
Prior art keywords
speech
record
input text
word
text section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN97113939A
Other languages
English (en)
Inventor
斯蒂芬·达罗·理查德森
乔治·E·海多恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1172992A publication Critical patent/CN1172992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种用于在自然语言解析器中识别和解常混词方法和系统。在一个最佳实施例中,计算机系统使用从潜在混淆词(包括输入文本中各词当中的一个)到可能欲用词的映射关系来解析由二个或多个词构成的输入文体。计算机系统首先对包括潜在混淆词的输入文本的每个词识别出可能的词类。然后计算机系统对于可能的欲用词识别出可能的词类。最后,计算机系统对于识别出的词在应用语法规则,从而产生出一个完全的语法树,它包含可能欲用词的可能词类。

Description

在自然语言解析器中识别和解析常混词的方法和系统
一般地说,本发明涉及自然语言解析领域,更具体地说,是涉及改正自然语言文本中的差错。
在写作文本中,作者偶尔不正确地使用了一个词,而那里本应为另一个词。例如,作者可能写出下面的句子:
The add convinced people.
而这里在应为“ad”的地方使用了词“add”。
象“add”和“ad”这类人们常弄错的一对词称作常混词。常混词往往有相似的发音(例如“advise”和“advice”)或只是几个字母的位置不同(例如“from”和“form”)。在上例中,词“ad”被称作“欲用词”,即作者打算写的词,而词“add”被称作“混淆词”,即作者错误地用来替代欲用词的词。
当一个句子中包含混淆词时,自然语言解析器便难于解析这个句子。  自然语言解析器分析自然语言句子以辨别句子的词汇的和句法的内容。例如,以图表为基础的自然语言解析器对输入句子的每个词从词典中提取一个词条。每个词典条目含有词汇记录,其中含有该词的一般信息,还有参考词类记录,其中每个记录含有该词可以表示的具体词类的信息。解析器把一个或多个词类记录放到一个称作解析图的工作区中,在那里这些词类记录被解释,按规则把词类记录组合成较大的句法单元,并最终组合成句子。
当使用自然语言解析器解析一个句子时,如果该句子含有混淆词,它的词类不是作者给欲用词的欲用词类,那么自然语言解析器便不能产生对该句子的完全解析。由于自然语言解析器要产生完全的解析,这种解析应能准确表示输入句子的欲用词汇和句法内容,所以希望有一种自然语言解析器,它能够对含有混淆词的句子产生完全的解析。
本发明提供一种自然语言解析器,它能在解析一个输入文本段(例如一个句子)过程中识别和解释常混词。识别和解释常混词的能力在语法检查器中特别有价值,它可以和文字处理器结合使用,用以评估由作者准备的报告中所含句子的语法正确性。然而,本技术领域内的熟练人员将会理解,本发明会有益处地应用于自然语言解析器的任何应用中。
本发明利用常混词集的一个清单。每个词集包含二个或多个常混词。根据本发明,解析器适于处理输入句子中遇到的在常混词集之一中出现的词,就好象它们能表示可能由该集中其他词表示的词类。例如,如果词“add”和“ad”组成一个可混词集,而词“add”出现在一个输入句子中,则解析器处理词“add”时犹如它能表示一个动词或一个名词,因为词“add”可以表示一个动词,而词“ad”可以表示一个名词。这涉及到在解析图中增加来自该常混词集的其他词的词典条目,对于这些词,在所遇到的词的词典条目中没有相应的词类,或者对这些词相同词类有不同的数或时态。这些附加的词类记录是在解析过程的后期加上去的,是在解析器已有机会把原始词类记录使用规则之后加上去的。本发明的最佳实施例还为语法检查器提供了一个用户界面,用以显示识别和解释一个常混词的结果。在某些实施例中,本发明还对所遇到的词的词汇记录所添加的这些词类记录增加参考,从而使那些使用词的词汇记录来确定这个词可能会表示什么其他词类的规则考虑的遇到的词可能表示这些附加词类的可能性。
图1是该设施最好在其上面运行的通用计算机系统的高层方框图。
图2是一图表,显示出解析器向输入文本中出现的词的解析图增加词类记录。
图3是一图表,显示出解析器应用受解析图内容影响的规则。
图4是一个表,给出用于识别输入文本中潜在混淆词的样本可混词表。
图5是一图表,显示解析器为对应于输入文本中识别出的潜在混淆词的可能欲用词向解析图增加词类记录。
图6是一图表,显示解析器在向解析图增加可能欲用词的词类记录后应用受解析图内容影响的规则。
图7是一显示屏图,显示应用解析器的语法检查器的可视用户界面。
图8是一流程图,显示出最好由适当的解析器完成的高层次步骤,以便解析输入文本并同时识别和解释常混词。
图9显示出包括来自词典的词汇记录的图2的另一种表现形式,它显示出在完成步骤801之后和应用规则之前解析图的内容。
图10显示出一个替换词的词类数据结构与它的潜在混淆词的词汇记录数据结构之间的链接。
图11显示在增加了可能欲用词的词类记录后的解析图内容。
图12显示一个实施例,其中的词类记录是从二个不同清单中增加到图表中的。
图13显示另一实施例,其中的词类记录是从单个按概率分级的清单中增加到图表中的。
图14显示一个简化的可混词文件。
本发明提供了一种方法和系统,用于在自然语言解析器中识别和解释常混词。在一个最佳实施例中,本发明采用可能由用者修改的常混词集清单。根据本发明,解析器适用于处理在输入句子中遇到的这样一些词,它们出现在一个常混词集中,就好象它们也能表示该集中其他词可以表示的词类。例如,如果词“add”和“ad”组成一个可混淆词集,并且词“add”出现在一个输入句子中,则解析器把词“add”看作是既能表示一动词也能表示一名词。因为“add”可以表示一动词,而词“ad”可以表示一个名词。这涉及向解析图增加来自常混词集中其他词的词典条目,对于这些词,在所遇到的词中没有对应的词类。这些增加的词类记录一般是在处理过程的后期增加,是在解析器已有机会对原始词类记录应用规则之后。在某些实施例中,本发明还对所遇到的词的词汇记录所添加的这些词类记录增加参考,从而使那些使用词的词汇记录来确定这个词可能会表示什么其他词类的规则考虑所遇到的词可能表示这些附加词类的可能性。
图1是解析器最好在其上面运行的通用计算机系统的高层方框图。计算机系统100包含一个中央处理单元(CPU)110,输入/输出设备120,及计算机存储器(存储器)130。输入/输出设备中有一存储设备121,例如一硬盘驱动器。输入/输出设备还包括一个可装卸介质驱动器122,它能用于安装软件产品,包括适当的解析器,它是在计算机可读介质(如CD-ROM)上提供的。输入/输出设备还包括键盘123,用者可以用它直接输入自然语言文本。输入/输出设备还可以任选地包括语音输入装置124和手写输入装置125,用者可以使用它们间接地输入自然语言文本。由用者使用语音输入装置输入的自然语言文本最好由语音识别器(未画)把语音数据进行转换。类似地,任何由使用者用手写输入装置输入的自然语言文本最好由手写识别器(未画)把手写数据进行转换。存储器130中含有适于识别和解释常混词的解析器131。该解析器包括解析图132用于容纳表示输入段的解析树(parse tree)和立即的解析结构。解析器还包括一个可混词表133,它把常混词映射到它们常与之相淆的词(即可能的欲用词)。例如,词“add”将被映射到词“ad”以指出作者可能不正确地使用“add”代替“ad”。可混淆词表也可以存在存储设备上,或存在使用可装卸介质驱动器的可装卸介质上。尽管解析器最好在按上述构成的计算机系统上实现,但本技术领域内的熟练人员会理解,它也可以在有不同配置的计算机系统上实现。
这里结合图2-7讨论一个例子,以说明应用适当的解析器来解析输入文本并识别和解释常混词。图2是一图表,显示出对输入文本中出现的词向解析图增加词类记录,所说这些出现的词包括输入文本中出现的任何潜在混淆词。图2显示样本输入字串201“Theadd convinced people”。图2还显示出解析器向解析图增加了输入文本中出现词的词类记录之后解析器的解析图200的内容。解析图包括词类记录211-215,它的一个或几个表示在输入文本中出现的每个词。词类记录211表示词“the”,词类记录212表示词“add”,词类记录213表示词“convinced”,词类记录214和215表示词“people”。每个词类记录包含该词能表示的一个可能词类的指示,以及附加的相关词汇信息,如动词词类的动词时态。可能的词类及其他词汇信息最好从对应于输入串中出现词的词典条目中提取。
图3显示解析器应用受解析图内容影响的规则。就是说,解析器应用可能把解析图中已存在的类型记录组合起来的那些规则。图3显示一个规则的应用,这个规则把一个动词和一个名词变换成一个动词词组,或称作“VP(动词词组)”。应用这一规则创造了一个动词词组记录32,它把词“convinced”的动词词类记录313与“people”的名词词类记录314组合起来。词类记录和由规则创造的记录都可以影响附加的规则。这些附加规则是反复应用的。在本例的情况中,没有其他规则可以成功地把解析图中的记录组合起来。
如果应用这些规则已产生了完全的解析(就是说,如果对输入串中的所有词已建立了一个句子记录),则解析结束并返回完全的解析结果,否则解析器继续运行。如果输入文本包含潜在的混淆词,则解析器继续运行,否则解析器不能产生完全的解析结果并返回失败信息。图4是一表,显示一个用于识别输入文本中潜在混淆词的样本可混词表。可混词表400包含潜在的混淆词列和可能的欲用词列。在每一行,潜在混淆词列包含的词可能是一个或多个其他词的混淆词。在那一行中,可能欲用词列包含该潜在混淆词可能与之混淆的一个或多个可能欲用词的清单。例如,行402显示出词“add”可能与词“ad”混淆。行401显示出相反情况也存在:词“ ad”可能与词“add”混淆。某些词之间的潜在混淆是单向的:即一对词中的一个可能潜在地与这一对中另一个词混淆(例如行403指出“cant”可能与“can’t”混淆,但相反情况是不存在的(例如,“can’t”不在潜在混淆词列中出现)。行409-411表明一个潜在混淆词可能与一个或多个可能欲用词混淆。解析器将输入文本中出现的词与混淆词表的潜在混淆词列中的词进行比较。如果输入串中有任何词与潜在混淆词列中的词匹配,则表明输入文本中含有潜在混淆词。
图5是一图表,显示解析器为对应于输入文本中识别出的潜在混淆词的可能欲用词向解析图增加词类记录。解析器最好向解析图增加那些与潜在混淆词有不同词类的那些可能欲用字的词类记录。例如,解析器最好为可能的欲用词“ad”增加一个名词词类记录,因为它的词类不同于它的潜在混淆词“add”的可能词类。解析器最好还向解析图增加那些与其潜在混淆词有不同时态的可能欲用词的词类记录。例如,解析器最好为可能欲用词“mind”增加一个现在时动词词类记录,因为它不同于潜在混淆词“ minded”的动词过去时时态。解析器最好还向解析图增加那些与其潜在混淆词有不同数的可能欲用词的词类记录。例如,解析器最好为可能欲用词“laps”增加一个复数名词词类记录,因为它的数不同于潜在混淆词“lapse”的单数名词形式。再有,对于一个具体的混淆词集,用者可能希望定为混淆词集中的即使有相同词类、数和时态的词向解析图增加词类记录。图5显示解析器已为词“ad”516向解析图增加了一个名词类记录,因为行402表明,在输入串中出现的词“add”可能与词“ad”混淆,对于这个词,词典指定名词作为其可能词类。
图6是一图表,显示解析器在向解析图增加可能欲用词的词类记录后应用受解析图内容影响的规则。图6显示,解析器已应用规则在解析图中建立了记录622和623。记录622把“the”的冠词词类记录611与可能欲用词“ad”的名词词类记录616组合成一个名词词组(“NP”)。记录623把名词词组记录622和动词词组记录621组合成一个句子。记录623进一步“复盖”了输入串中的每个词,就是说它构成了一个“树”的头节点,有“叶”代表输入文本中的每个词。
如果在为替换词增加词汇记录后通过应用受解析图影响的规则从而产生了完整的解析结果,那么解析器返回有意义的成功指示,否则解析器返回失败指示。如图6可以看出,在该例中,解析器已产生了完全的解析结果,其中句子记录623复盖了输入文本中的全部词,所以返回有意义的成功指示。
图7是一显示屏图,显示出利用该解析器的词法检查器的可视用户界面。语法检查器用户界面最好显示窗口710。该窗口最好还包含一个指示,指出在当前句子中的一个特定词可能与另一词混淆。该窗口最好还包含建议710,建议应替换潜在混淆词。最后,窗口最好包含按钮450使用户能选择接受建议和替换潜在混淆词,以及按钮750使用户选择拒绝该建议并放弃对潜在混淆词的替换。
图8是一流程图,显示出最好由解析器完成的高层次步骤,以便解析输入文本并同时识别和解释常混词。在步骤801,解析器为输入文本中出现的词(包括输入文本中出现的任何潜在混淆词)向解析图增加词类记录。在步骤802,解析器应用受解析图内容影响的规则之一。在步骤803,如果由于已经在步骤802应用了规则从而产生了完全的解析结果(即如果已经建立了一个复盖输入串中所有词的句子记录),则结束这些步骤并返回一个完全的解析结果,否则在步骤804继续运行解析器。然而,如果在步骤804,解析已经结束,即所有受影响的规则都已应用过,或者已经应用的规则总数超过了上限,则解析器在步骤805继续,否则解析器在步骤802继续应用另一个受影响的规则。在步骤805,如果输入文本包含潜在混淆词,则解析器在步骤806继续,否则解析器不能产生完全的解析结果并失败返回。为确定输入文本是否包含潜在的混淆词,解析器将输入文本中的词与可混淆词表的潜在混淆词列中的词进行比较。如果输入串中有任何词与潜在混淆词列中的词匹配,则表明输入文本含有潜在混淆词。在步骤806,解析器为对应于输入文本中识别出的潜在混淆词的那些可能欲用词向解析图增加词类记录。在步骤806中已为替换词增加了词类记录之后,在步骤807解析器应用受解析图内容影响的规则之一。在步骤808,如果已产生了完全的解析结果,那么解析器有意义地成功返回,否则解析器在步骤809继续。在步骤809,如果解析已然结束,即如果所有受影响的规则都已应用或者已用规则总数超过上限,则解析器以失败返回,否则解析器在步骤807继续应用另一个受影响的规则。
一些语法规则,尽管它们应用于每个词的特定词类,但它们考虑每个词可能表示的所有可能词类。这类语法规则能减少为应用那些对产生完全的解析结果贡献不大的规则所需资源的处理量。为支持这些规则,可以把词类记录链接在一起从而能容易地推定一个词的所有可能词类。根据本发明的一个实施例,最好将可能欲用词的词类记录与解析过程开始时它们的潜在混淆词的词类记录链接起来。图9-11显示出本发明的这一特征。图9显示图2的另一种表现形式,它显示了完成步骤801而在应用规则之前解析图的内容。词类记录911-915中不再是包含关于词所表示的潜在词类数据,而是包含指向含有这一信息的数据结构的指针。例如,词类记录914含有指向词类数据结构971的指针,该数据结构971中含有潜在词类名词以及其他相关的词汇信处。根据另一个最佳实施例(未画),数据从词类数据结构拷贝到词类记录中,以消除从指针到访问词类数据结构的时间消耗。词类数据结构971含有表示词“people”的词汇记录970的一个双向链路。另一数据结构972含有词“people”的可能词类动词,还包含到词汇记录970的一个双向链路。词类数据结构971和972二者与词汇记录数据结构970之间的链路使规则能让这些规则的处理以具体词的所有可能词类集为基础。在词“people”的名词词类记录914的情况中,应用于这一记录的规则可能认为词“people”也可以表示一个动词。
图10显示根据本发明的特点对解析图所作的进一步修改。图10显示一可能欲用词的词类数据结构与它的潜在混淆词的词汇记录数据结构之间的链接。图10显示出词“ad”的名词形式的词类数据结构1052加到“add”的词汇记录1050上。因为对于词“add”,词类数据结构1051和1052二者都双向链接于词汇数据结构1050,应用于“add”动词词类记录1012的规则能认为名词是该词的可能词类。如前面讨论过的那样,根据本发明,对可能欲用词的可能词类的词类数据结构最好与每个可能混淆词的词汇数据结构链接,以利于这样一些规则的应用,这些规则的行为是基于要被该规则组合的词的其他可能词类。图11表明,根据本发明的这一特征,当在步骤806把名词词类记录1116增加到解析图时,该记录包含一个指针指向词类数据结构1152,该数据1152含有可能欲用词“ad”的潜在词类名词。
为了通过防止应用对产生完全解析结果贡献不大的规则来增强解析效率,使用那些指向可能欲用词的被链接词类记录的规则能防止解析器在潜在混淆词实际上与可能欲用词混淆的情况中使用潜在混淆词来产生一个看起来似乎正确的对输入文本的完全解析。对下面的样本句子就是如此,在这个句子中用混淆词“ form”代替了欲用词“from”:
Angela departed form Seattle。
使用不考虑可能欲用词的可能词类的规则,使一些解析器产生这个句子的完全解析,其中由动词词组“ departed”和名词词组“form Seatle”产生一动词词组。这种完全解析实际上是不正确的,因为“form Seattle”不是动词“departed”的有效宾语。然而,如果使用考虑可能欲用词可能词类的规则,则解析器能避免这一不正确的完全解析。在这种情况下,每当名词词组的“前修饰词(premodifier)”(即在名词词组的主语“Seattle”前面出现的词“form”)或它的可能欲用词能表示一个前置词时,如果给以相当大的概率认为在一个动词的宾语之前欲用的词类是前置词,那么把一动词词组和一个作为动词词组宾语的名词词组组合成另一动词词组的规则便被锁定。因为可能欲用词“from”能有前置词词类,而该前置词词类又与可能混淆词“form”的词类记录链接,于是这一规则的使用被锁定,防止了解析器造成前述不正确的完全解析,从而改善了解析器输出的准确性。
图12和13显示了二个最佳实施例,这二个实施例中,在潜在混淆词的词类记录加到解析图上并根据步骤805把受影响规则应用于它们之后,使替代词的词类记录加到解析图上。图12显示的实施例中,词类记录从两个不同的清单或称“队列”中加到解析图1200,这二个清单是:主清单1280和辅清单1290。输入文本中所含词的词类记录存于主清单1280。可以看到,主清单1280中含有输入文本中出现的词“the”,“add”,“convinced”,及“people”。辅清单1290中含有可能欲用词的词类记录。可以看到,辅清单1290中含有替代词“ad”的名词词类记录。在这一实施例中,首先从主清单中向解析图增加词。在已经应用了受影响规则后,解析器从辅清单中向解析图增加词类记录。在一个最佳实施例中,从辅清单向解析图增加词类记录涉及:先把它们从辅清单移到主清单,然后把它们从主清单增加到解析图,同时把主清单中出现的新的受影响的规则加以应用。这一作法使能在输入文本中的词的那些可能与其常常混淆的可能欲用词被加入解析图之前,由输入文本中包括的词的词类记录构成解析树。
图13显示另一实施例,其中的词类记录从单个清单1370加到解析图1300中。清单1370是一个概率清单,它根据每个词类记录最终构成完全解析树的“树叶”的概率排队。对于指向概率的解析器的更完全的讨论,请参见美国专利申请08/265,845号,“把统计过程引入基于规则的自然语言解析器的方法和系统”,这里引入作为参考。各词类记录按照它们构成成功的解析树“树叶”的概率下降顺序从概率清单中取出加到解析图上。这些概率,也称作“应用优先值”,最好是对于输入文本做的有代表性集合对完全的解析树中每个词类记录的出现进行统计分析来产生。例如,与词类记录1374和1375相联系的统计表明,在含有词“people”的输入文本段中,在输入段的完全解析中有78%的时间词“people”表示一个名词,而13%的情况它表示一个动词。在这个实施例中,可能欲用词的词类记录最好设计成有较小概率,使它们能在处理的接近结束时再加入解析图。这可以用几种方式实现:词“ad”的名词形式构成当“ ad”出现在输入文本中时的完全解析树的“树叶”的概率可以减小。因为词“ ad”实际上并未出现在输入文本中。另一种作法是,可以保持几种统计方法来计算当词“add”而不是词“ad”出现在输入文本中时词“ ad”的名词形式构成完全解析树“树叶”的概率。不论哪种方式,都是在潜在混淆词“add”的词类记录之后向解析图加入替代词“ ad”的词类记录。最后,可能欲用词的词类记录的概率可以设成等于或小于概率清单中的最小概率。
在又一个最佳实施例中,使替代词的词类记录后于潜在混淆词的词类记录加到解析图的两种途径可以结合起来,从而使潜在欲用词的词类记录存储于辅清单,而所有止于主清单的规则和词类记录都按它们的概率排序。
用户可能宁愿配置解析器以修改潜在混淆词清单或可能被用于替代潜在混淆词的可能欲用词清单。用户可以通过修改图4所示混淆词汇表来实现这一点。然而,一些用户可能宁愿修改可混词清单的更简单的表示。图14显示一个简化的可混词文件1400。行1401-1406每个对应一个潜在混淆词集。除非专门指出,在一行中一起出现的词可能都是彼此混淆的词。例如,行1401表明词“ad”可能与“add”混淆,而且反之亦然。可混词文件也最好是使用户能指定单向混淆关系,作法是在不应认为可能被与其混淆的词之前加一短划(“-”)。例如在1401行上词“can’t”前加一短划,表明词“cant”可能会与词“can’t”混淆,但词“can’t”不可能与词“cant”混淆。可混词文件最好是也能使用户能用星号(“*”)指定潜在混淆集中的词可以彼此替换,即使它们有相同的词类、数和时态。例如,在可混集1402前面的星号表明可以用“can’t”代替“cant”,即使这两个词都有动词词类。解析器最好允许用户修改可混词文件1400以配置一个解析器的操作,并允许把可混词文件翻译成易于由解析器应用的形式,例如图4所示可混词表。
尽管已经参考最佳实施例显示和描述了本发明,但本行专家会理解,在形式和细节上可以做各种改变或修改而不离开本发明的范围。例如,除上文描述的以外的其他机制可用于在解析图中引入常混词的词类记录。再有,所描述的本发明实施例可以直接把适用于解析人工语言文本,例如计算机程序语言或文本置标语言。

Claims (10)

1.在计算机中使用语法规则和含有多个条目的词典解析含有一个或多个词的自然语言输入文本段的方法,每个词典条目对应于自然语言中的一个词并对该词指定一个或多个可能的词类,该方法包括以下步骤:
(a)建立一个解析图,用于包含代表输入文本段及其直接解析结果的解析树;
(b)对出现在输入文本段中的每个词,在解析图中为该词创立词类记录,指定由词典为该词指定的词类;
(c)识别出在输入文本段中出现的常与其他词混淆的词;
(d)在解析图中为识别出的词建立词类记录,为与识别出的词常混淆的词指定由词典条目指定的词类;
(e)对步骤(b)和(d)中建立的词类记录应用语法规则。
2.如权利要求1所述的方法,其中该方法还使用一个常混词清单,对每个常混词它包含一个与其常混淆的词,而且这里步骤(c)包括使输入文本段中的一个词与清单中一个词匹配的步骤。
3.如权利要求1所述的方法,其中步骤(b)为每个出现在输入文本段中的词在解析图中建立词类记录,用以指定该词在词典条目中指定的每个可能词类;而且该方法还包拓一个步骤,对输入文本段中的每个词把解析图中该词的各词类记录链接在一起;而且这里对词类记录应用一个或多个语法规则涉及:通过检验该词类记录所链接的其他词类记录来确定该词的其他可能词类;以及这里的方法还包拓一个步骤把步骤(d)中建立的词类记录与在步骤(b)中为所识别词建立的词类记录链接起来。
4.如权利要求1所述的方法,其中步骤(d)是在开始完成步骤(e)之后再完成的。
5.如权利要求1所述的方法,其中步骤(d)是在把语法规则应用于步骤(b)中所建立的词类记录之后再完成的。
6.如权利要求1所述的方法,其中每个语法规则及词及词类记录有一与其伴随的应用优先值,而且这里的步骤(e)按其应用优先值减小的顺序应用清单中的语法规则和词类记录,而且这里对于被识别出的词与其常混淆的词而言,其词类记录所伴随的应用优先值小于被识别出的词的词类记录所伴随的应用优先值。
7.如权利要求1所述的方法,还包括步骤:
当在步骤(e)中应用语法规则对于含有被识别出的词的输入文本不产生完全的解析结果,但产生含有常混词的输入文本的复杂解析时,指明所识别的词可能与常混词混淆了。
8.如权利要求1所示的方法,还包括步骤:当在步骤(e)中应用语法规则不产生含有被识别词的输入文本的完全解析时,或者如果它对含有常混词的输入文本产生一个完全解析时:
输出一个指示,说明这个自然语言句在语法上是不正确的;而且
输出一个指示,说明如果在自然语言句子中识别出的词由该识别出的词与其常混淆的词替换,则该自然语言句子就会是语法正确的。
9.一种使用语法规则和含有多个条目的词典解析含有一个或多个词的自然语言输入文本段的装置,每个词典条目对应于自然语言中的一个词并对该词指定一个或多个可能的词类,该装置包括:
一个数据结构,用于包含代表输入文本段及其直接解析结果的解析树;
主词类记录产生器,它为输入文本段中出现的每个词在该数据结构中建立词类记录,每个词类记录指定由词典为该词指定的词类;
识别器,识别在输入文本段中出现的常与其他词混淆的词;
辅助词类记录产生器,它在解析图存储器中为识别器识别出的词建立词类记录,所建立的词类记录为与识别出的词常混淆的词指定由词典指定的词类记录;以及
语法规则应用子系统,它把语法规则应用于由主词类记录产生器建立的词类记录及由辅助词类记录产生器建立的词类记录。
10.如权利要求9所述的装置,还包括:
显示装置;以及
反馈子系统,用于使显示装置显示一个指示,指明输入文本段语法上不正确,还用于使显示装置显示一个指示,指明如果在输入文本段中的被识别出的词由该识别出的词与其常混淆的词替换,则该输入文本段就会是语法正确的。
CN97113939A 1996-06-25 1997-06-24 在自然语言解析器中识别和解析常混词的方法和系统 Pending CN1172992A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/671,203 US5999896A (en) 1996-06-25 1996-06-25 Method and system for identifying and resolving commonly confused words in a natural language parser
US671,203 1996-06-25

Publications (1)

Publication Number Publication Date
CN1172992A true CN1172992A (zh) 1998-02-11

Family

ID=24693543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97113939A Pending CN1172992A (zh) 1996-06-25 1997-06-24 在自然语言解析器中识别和解析常混词的方法和系统

Country Status (4)

Country Link
US (1) US5999896A (zh)
EP (1) EP0836144A3 (zh)
JP (2) JPH1078964A (zh)
CN (1) CN1172992A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和系统
CN1517904B (zh) * 2003-01-21 2012-07-04 微软公司 墨水划分器及关联的应用编程接口
CN101685438B (zh) * 2008-09-22 2012-09-12 财团法人资讯工业策进会 中文文章侦错装置以及中文文章侦错方法
CN102687197A (zh) * 2010-01-22 2012-09-19 三菱电机株式会社 识别词典制作装置、声音识别装置及声音合成装置

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1100300C (zh) * 1996-10-16 2003-01-29 夏普公司 字符输入装置
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
DE69939151D1 (de) * 1999-01-20 2008-09-04 Sony Deutschland Gmbh Sprecheradaption für verwechselbare Wörter
US6275791B1 (en) * 1999-02-26 2001-08-14 David N. Weise Natural language parser
US6510431B1 (en) 1999-06-28 2003-01-21 International Business Machines Corporation Method and system for the routing of requests using an automated classification and profile matching in a networked environment
EP1079387A3 (en) * 1999-08-26 2003-07-09 Matsushita Electric Industrial Co., Ltd. Mechanism for storing information about recorded television broadcasts
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
WO2002033582A2 (en) * 2000-10-16 2002-04-25 Text Analysis International, Inc. Method for analyzing text and method for builing text analyzers
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US20030105622A1 (en) * 2001-12-03 2003-06-05 Netbytel, Inc. Retrieval of records using phrase chunking
US7225121B2 (en) * 2002-02-20 2007-05-29 Palo Alto Research Center Incorporated Generating with Lexical Functional Grammars
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7308648B1 (en) * 2002-11-27 2007-12-11 Microsoft Corporation Method, system, and computer-readable medium for filtering harmful HTML in an electronic document
US8447602B2 (en) 2003-03-26 2013-05-21 Nuance Communications Austria Gmbh System for speech recognition and correction, correction device and method for creating a lexicon of alternatives
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
US20050091036A1 (en) * 2003-10-23 2005-04-28 Hazel Shackleton Method and apparatus for a hierarchical object model-based constrained language interpreter-parser
US7584092B2 (en) 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US8190419B1 (en) 2006-09-11 2012-05-29 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
US7505906B2 (en) * 2004-02-26 2009-03-17 At&T Intellectual Property, Ii System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
JP2008515078A (ja) * 2004-09-30 2008-05-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 自動テキスト訂正
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
EP1963995A2 (en) 2005-12-22 2008-09-03 International Business Machines Corporation A method and system for editing text with a find and replace function leveraging derivations of the find and replace input
JP2008083165A (ja) * 2006-09-26 2008-04-10 Xanavi Informatics Corp 音声認識処理プログラム及び音声認識処理方法
US20090234638A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Use of a Speech Grammar to Recognize Instant Message Input
US9201955B1 (en) 2010-04-15 2015-12-01 Google Inc. Unambiguous noun identification
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US10504622B2 (en) 2013-03-01 2019-12-10 Nuance Communications, Inc. Virtual medical assistant methods and apparatus
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
CN103246640B (zh) * 2013-04-23 2016-08-03 北京酷云互动科技有限公司 一种检测重复文本的方法及装置
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US10366424B2 (en) 2014-06-04 2019-07-30 Nuance Communications, Inc. Medical coding system with integrated codebook interface
US10319004B2 (en) 2014-06-04 2019-06-11 Nuance Communications, Inc. User and engine code handling in medical coding system
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10331763B2 (en) 2014-06-04 2019-06-25 Nuance Communications, Inc. NLU training with merged engine and user annotations
US10528645B2 (en) * 2015-09-16 2020-01-07 Amazon Technologies, Inc. Content search using visual styles
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105573979B (zh) * 2015-12-10 2018-05-22 江苏科技大学 一种基于汉字混淆集的错字词知识生成方法
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
US10949602B2 (en) 2016-09-20 2021-03-16 Nuance Communications, Inc. Sequencing medical codes methods and apparatus
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
CN107729318B (zh) * 2017-10-17 2021-04-20 语联网(武汉)信息技术有限公司 一种自动更正部分文字的方法-由中文词性判断
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPS61234461A (ja) * 1985-04-10 1986-10-18 Nec Corp 文字列訂正方式
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
US5060154A (en) * 1989-01-06 1991-10-22 Smith Corona Corporation Electronic typewriter or word processor with detection and/or correction of selected phrases
US5146406A (en) * 1989-08-16 1992-09-08 International Business Machines Corporation Computer method for identifying predicate-argument structures in natural language text
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
FR2679039B1 (fr) * 1991-07-09 1993-11-26 Merlin Gerin Dispositif de distribution d'energie electrique avec controle d'isolement.
US5521816A (en) * 1994-06-01 1996-05-28 Mitsubishi Electric Research Laboratories, Inc. Word inflection correction system
US5537317A (en) * 1994-06-01 1996-07-16 Mitsubishi Electric Research Laboratories Inc. System for correcting grammer based parts on speech probability
US5721938A (en) * 1995-06-07 1998-02-24 Stuckey; Barbara K. Method and device for parsing and analyzing natural language sentences and text

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1517904B (zh) * 2003-01-21 2012-07-04 微软公司 墨水划分器及关联的应用编程接口
CN101685438B (zh) * 2008-09-22 2012-09-12 财团法人资讯工业策进会 中文文章侦错装置以及中文文章侦错方法
CN102687197A (zh) * 2010-01-22 2012-09-19 三菱电机株式会社 识别词典制作装置、声音识别装置及声音合成装置
CN102687197B (zh) * 2010-01-22 2014-07-23 三菱电机株式会社 声音识别用词典制作装置、声音识别装置及声音合成装置
CN102243871A (zh) * 2010-05-14 2011-11-16 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和系统
CN102243871B (zh) * 2010-05-14 2013-06-05 索尼计算机娱乐公司 作为语音识别错误预测器的用于语法适合度评估的方法和系统

Also Published As

Publication number Publication date
JPH1078964A (ja) 1998-03-24
EP0836144A3 (en) 2004-11-10
US5999896A (en) 1999-12-07
EP0836144A2 (en) 1998-04-15
JP2007172657A (ja) 2007-07-05

Similar Documents

Publication Publication Date Title
CN1172992A (zh) 在自然语言解析器中识别和解析常混词的方法和系统
Black et al. Statistically-driven computer grammars of English: The IBM/Lancaster approach
Christiansen et al. Toward a connectionist model of recursion in human linguistic performance
Wong et al. Structural redocumentation: A case study
US6292771B1 (en) Probabilistic method for natural language processing and for encoding free-text data into a medical database by utilizing a Bayesian network to perform spell checking of words
Grishman Computational linguistics: an introduction
Young et al. VARBRUL analysis for second language acquisition research
Hermans Hedy: a gradual language for programming education
Einspruch An Introductory Guide to SPSS? for Windows?
US20030149692A1 (en) Assessment methods and systems
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
JP2011518352A (ja) ユーザーの過去のライティングに基づいて、ライティングを指導するためのシステム
JPS61221873A (ja) 自然言語による質問応答方式
CN110321556A (zh) 一种医生诊疗医保控费智能推荐方案的方法及其系统
Hayase et al. Building domain specific dictionaries of verb-object relation from source code
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
JP2011503730A (ja) 自然言語の定式化
Stede The search for robustness in natural language understanding
Fisher Protocol analyst's workbench: Design and evaluation of computer-aided protocol analysis
KR102496958B1 (ko) 독서 평가를 위한 스토리 데이터 베이스 생성 방법
Devillers et al. The PEACE SLDS understanding evaluation paradigm of the French MEDIA campaign
CN1122932C (zh) 拼字检查的衍生词处理方法
Poplack 16 Data Management at the uOttawa Sociolinguistics Laboratory
Lutsky Using a document parser to automate software testing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication