CN104462057B - 用于产生语言分析的词汇资源的方法和系统 - Google Patents
用于产生语言分析的词汇资源的方法和系统 Download PDFInfo
- Publication number
- CN104462057B CN104462057B CN201410474563.4A CN201410474563A CN104462057B CN 104462057 B CN104462057 B CN 104462057B CN 201410474563 A CN201410474563 A CN 201410474563A CN 104462057 B CN104462057 B CN 104462057B
- Authority
- CN
- China
- Prior art keywords
- lexicon
- renamed instructions
- document
- data structure
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及用于产生语言分析的词汇资源的方法和系统。接收包含重命名指令的文档数据结构,并且向文档数据结构应用过滤逻辑以识别文档数据结构内的重命名指令。分析重命名指令以识别由重命名指令代表的语义概念之间的关系,这些语义概念被用于基于重命名指令更新词汇资源。基于分析重命名指令的结果更新词汇资源。向语言分析系统输出更新的词汇资源,该语言分析系统基于更新的词汇资源执行文本内容的一部分的语言分析。
Description
技术领域
本申请一般涉及改进的数据处理装置和方法,具体而言,涉及用于使用重命名指令以引导行业特定知识和词汇资源的机制。
背景技术
文档包括许多形式的信息。例如,布置为句子和段落的文本信息以叙事形式传达信息。一些类型的信息是以指称的形式呈现的。例如,文档可包含在文档中重复出现的名字、词语、短语或文本片段。许多文档指定替代的短语或文本以代表名字、词语、短语或文本片段,并且在名字、词语和短语或文本片段第一次出现(全名表达)之后的每次随后的出现使用替代文本(绰号)。
自然语言处理(NLP)是有利于在人与数据处理系统之间交换信息的技术。例如,NLP的一个分支属于将人可用语言或形式的给定内容转换成计算机可用形式。例如,NLP可接收内容为人可读形式的文档,并且产生相应的内容是计算机特定语言或形式的文档。
NLP以许多不同的方式被使用,包括最近用于问题与答案(QA)系统中。也就是说,伴随更多的诸如因特网的计算网络的使用,当前人们淹没在可从各种结构化和非结构化来源得到的大量信息中。但是,当用户在关于各种主题的信息的搜索中尝试拼凑他们可找到的他们认为相关的内容时,信息间隙大量存在。为了帮助这种搜索,最近的研究指向产生问题和答案(QA)系统,该QA系统可取得输入问题、通过使用包括NLP技术的各种技术分析它并且返回指示输入问题的最可能的答案的结果。QA系统提供用于在例如为电子文档的大型内容来源集合上搜索的自动机制,并且关于输入问题分析它们以确定问题的答案和答案多么精确地回答输入问题的置信度量。
一种这种QA系统是可从International Business Machines(IBM)Corporationof Armonk,New York得到的WatsonTM系统。WatsonTM系统是先进自然语言处理、信息检索、知识表达和推理以及机器学习技术向开放域问题回答领域的应用。WatsonTM系统在用于假说产生、大量证据收集、分析和评分的IBM的DeepQATM技术上被构建。DeepQATM取得输入问题,分析它,将问题分解成构成部分,基于分解的问题和答案来源的一次搜索的结果产生一个或更多个假说,基于来自证据来源的证据检索执行假说和证据评分,执行一个或更多个假说的合成,并且,基于训练的模型来执行最终的合并和排序以输出输入问题的答案连同置信度量。
各种美国专利申请公开描述了各种类型的问题和答案系统。美国专利申请公开No.2011/0125734公开了用于基于数据的语料库产生问题和答案对的机制。系统从一组问题开始,并然后分析一组内容以提取这些问题的答案。美国专利申请公开No.2011/0066587公开了用于将分析的信息的报告转换成问题的集合并且从信息集确定问题的集合的答案是得到回答还是被反驳。结果数据被加入到更新的信息模型中。
在应用结构/语法分析以发现较大的短语或句子内的记号之间的附加的关系之前,利用词汇资源以标注/分类/解释文本中的单个记号或记号系列。词汇资源的例子为:
字典:包含语言中的常用词的诸如性别、词类、语义类别/类型的特征。字典在语言处理技术中也被称为“词汇”。
地名词典:适当的名称的特殊类型的字典;地名词典指示名称是什么语义类别的实例,例如,人、城市、地理区域等,并且可能指示性别和其它的特征。
本体:语义类别/类型的清单,一般组织为下位词/上位词树(例如,“Basenji是一种类型的猎犬”)
选择限制:诸如介词和动词的词语在关系元组中变为谓语,并且这些谓语中的论元位置有时可能仅被特定语义类别的实体填充。例如,植物可凋谢,但汽车不能。凋谢的字典条目可扩充,以反映这种与植物的语义关联。
这些资源的一个关键的目的是记录在基本实例水平上规定个体(适当的名称“Petey”或诸如“Dog”的常见名词)的词语之间的关联并且还记录类型/类别符号。许多语言处理任务要求系统进行实例与类别之间的推论。特别是在问题回答系统中,该任务是非常高的优先级,原因是该问题常常表达类别限制,例如,“What Eastern Europen artistwrapped the Reighstag in 1995”,并且必须判断候选答案是否属于该类别(在本例子中,每个候选回答会关于其适合类别“Eastern Europen artist”的可能性被评分)。
来自专业领域的文档利用不在标准字典/地名词典中的术语以及不在标准本体中的新颖的语义类型。例如,公司内部文档描述业务部门、产品、流程等。法律或医学文档包括非从业人员不熟悉的行话。需要处理具有这样的专业词汇的文档的NLP应用将遇到不存在于系统的给定词汇资源中的词语。
发明内容
在一个示例性的实施例中,提供一种在包括处理器和存储器的数据处理系统中的用于产生语言分析的词汇资源的方法。该方法包括:通过数据处理系统接收包含重命名指令的文档数据结构,并且向文档数据结构应用过滤逻辑以识别文档数据结构内的重命名指令。该方法还包括分析重命名指令以识别由重命名指令代表的语义概念之间的关系,这些语义概念被用于基于重命名指令更新词汇资源。此外,该方法包括基于分析重命名指令的结果更新词汇资源。另外,该方法包括向语言分析系统输出更新的词汇资源。语言分析系统基于更新的词汇资源执行文本内容的一部分的语言分析。
在其它的示例性的实施例中,提供包含具有计算机可读程序的计算机可用或可读介质的计算机程序产品。计算机可读程序当在计算装置上被执行时使得计算装置执行以上关于示例性的方法实施例概括的操作中的各个操作和组合。
在又一示例性的实施例中,提供一种系统/装置。该系统/装置可包括一个或更多个处理器和与一个或更多个处理器耦合的存储器。存储器包含当被一个或更多个处理器被执行时使得一个或更多个处理器执行以上关于示例性的方法实施例概括的操作中的各个操作和组合的指令。
在本发明的示例性实施例的以下的详细描述中描述本发明的这些和其它特征和优点,或者,本领域技术人员在考虑这些描述时将很容易理解这些和其它特征和优点。
附图说明
当结合附图阅读时,参照示例性的实施例的以下的详细的描述,可以最好地理解本发明、优选的使用模式及其其它的目的和优点,其中,
图1示出可实现示例性的实施例的数据处理系统的网络的图示;
图2是示出可实现示例性的实施例的方面的计算装置的示例框图;
图3是示出根据示例性的实施例的可解析的依赖指称表达的几个例子的示例示图;
图4是根据示例性的实施例的用于自然语言处理中的识别文档内的重命名指令并在随后基于识别的重命名指令产生词汇资源的示例配置的示例框图;以及
图5是绘出根据一个示例性的实施例的重命名指令识别和词汇资源产生/更新的示例处理的流程图。
具体实施方式
处理自然语言的计算机系统利用各种语言知识源作为输入。支持语言分析和推理所需要的关键资源中的一些是用于限定语义概念的清单的本体(作为域内的一组概念的知识的形式代表和概念对之间的关系)、限定这些概念之间的下位词/上位词关系的层次、由适当的名称占据的命名的实体列表和限定域中的动作或事实以及可参与这些关系的实体的关系清单。在诸如可从International Business Machines(IBM)Corporation ofArmonk,New York得到的WatsonTM问题和答案(QA)系统的QA系统中,这些资源被用于代表问题的意思并且还用于代表来自源文档的可包含问题答案的段落的意思。构建必要的数据资产以诸如对于包含法律或医疗术语的文档在新的域中执行语言分析和推理在历史上是耗时的任务。虽然构建这些资产是耗时的,但得到的QA系统的质量依赖于这些资源的精度和完整性,并因此不能以草率的方式完成它们的构建。使用自动手段或半自动手段以创建这些资源是能够在新的域中防守(field)QA系统中的重要步骤。
创建这些知识资源的一个关键步骤是尝试从不太频繁或辅助的术语/概念识别重要的术语/概念。也就是说,给定文档的集合,关键步骤是确定需要向QA系统的资源添加哪些字词/关系以最好地帮助文档处理。为了使得耗费于资源构建中的人力时间更有成效,被设计为帮助域开发的工具不仅识别在域中使用的术语而且强调对建模的活动更重要或者更核心且可被用于构建由NLP和QA系统操作使用这些数据结构的术语/概念是有帮助的。对于这些术语/概念,开发人员可更仔细地将语言资源建模,并且还更仔细地确证语言处理模块如希望的那样工作。此外,术语/概念的这种识别可被用于关注可帮助构建这种本体、下位词/上位词关系的层次、命名的实体列表和关系清单的自动工具。
诸如通过自然语言处理机制等,示例性的实施例利用用于识别内容的多个部分内的重命名指令并且使用这些重命名指令的识别以构建帮助进一步处理内容的这些部分的数据结构的机制。为了帮助理解当前详细的描述,在本说明书的上下文中,使用术语的以下定义:
文档数据结构(或“文档”)——存储于一个或更多个存储设备装置中并且代表包含文本、图形、图像、超链接或多媒体内容等中的一个或更多个的内容的一部分的数据和/或元数据的集合,诸如在文件或文件的集合中等;
词汇资源——用作执行自然语言处理的参照基础的支撑数据结构,例如,字典、词库、将一个实体映射到另一实体(例如,将一个术语映射到另一个术语、将一个术语映射到词类等)的映射数据结构;
重命名指令——规定长名串(“完整表达”)和短名串(“绰号”)之间的对应关系的文档数据结构的元数据或文档数据结构的内容内的陈述;
完整表达——代表用于识别概念或实体的完整非缩写串的、作为长名串(相对于重命名指令的相应短名串)的重命名指令的一部分;
绰号——代表长名串的替代文本或相应长名串的缩短形式的、作为短名串(相对于重命名指令的相应长名串)的重命名指令的一部分,例如,缩写、外号等;
指涉——指称表达指示的实体,例如,可分别在不同的环境中使用表达方式“Dr.Johnson”、“Samuel Johnson”、“他”、“The Buyer”以指示特定的指涉(在这种情况下,为人)。
依赖指称表达——行文中的在不访问文本别处的信息的情况下不能消除歧义的指称表达。比如他的代词、比如Sam的简化表达,并且,比如The Buyer的绰号是依赖性的。为了恢复对于这些依赖指称表达中的每一个的指涉,文档处理系统将依赖性的表达与将指涉引入到文档中的先行完整表达链接起来。
过滤逻辑——以硬件、软件或硬件和软件两者实现的逻辑,该逻辑应用规则、条件或其它的准则,以识别内容的满足或者不满足应用的规则、条件或其它准则的部分。
如上所述,示例性的实施例识别内容的多个部分内(例如,文档数据结构)内的重命名指令,并且使用这些重命名指令的识别以构建、修改或另外增强由自然语言处理(NLP)机制使用的数据结构,例如,词汇资源。记住以上术语的定义,由示例性的实施例识别的重命名指令包含规定特定的实体(指涉)的长名串(或完整表达)和在该文档以及可能在其它的文档中使用的短串(或绰号)(绰号的实例被称为“依赖指称表达”)以指示信息的语料库的文档内的指涉。重命名指令的识别被用于构建可被自然语言处理(NLP)机制使用的数据结构,当执行NLP处理以分析内容的多个部分或其它文本输入时,该NLP机制可进一步被用于QA系统中。例如,示例性的实施例可使用重命名指令的识别以产生列出具有完整表达及其相关的绰号的实例/类别对的命名实体类型的占据的列表数据结构。另外,示例性的实施例可被用于找到特定域的关键谓语/关系词语,并然后产生相应的映射数据结构。此外,示例性的实施例可利用重命名指令的识别以识别用于引起本体或者增强现有本体的关键实体类型。可在信息的语料库的文档内作为重命名指令的识别的结果产生可由NLP机制使用的其它数据结构。
在共同所有且共同未决的美国专利申请系列No.13/768136中描述可被用于识别文档中的重命名指令的一种示例性机制,在这里加入该专利申请作为参考。虽然在本发明的以下的示例性的实施例的描述中作为用于识别文档中的重命名指令的机制的例子使用共同未决的申请的机制,但应理解,这仅是一个例子,并且,在不背离示例性的实施例的精神和范围的情况下,可以使用已知或者以后开发的用于识别重命名指令的其它机制。
应当理解,通过使用共同所有且共同未决的美国专利申请系列No.13/768136的用于执行重命名指令的识别的机制,示例性的实施例的重命名指令识别方面利用基于重命名指令的特性的识别的规则、模式和逻辑。例如,示例性的实施例认识到,经受NLP的文档一般包括特定形式的表达的重命名指令,该表达将规定的“绰号”表达限定为代表规定的全名表达,也就是说,绰号在整个文档或者文档的集合中被使用,作为由完整表达命名的特定实体的较短的指称形式。文档或文档的集合内的以绰号的形式表达的照应依赖指称表达可明确与全名表达指涉链接,这与经由搜索/排名/选择处理来恢复指涉值以识别各依赖指称表达的先行表达的其它依赖指称表达不同。在文献中存在许多执行先行选择的方法。
示例性的实施例认识到,在一些情况下,重命名指令的完整表达可向着文档的开始出现,而与绰号对应的依赖指称表达的实例在整个文档中散布。示例性的实施例的重命名指令识别方面认识到,在一些其它的情况下,完整表达可向着文档的结尾出现,而相应的依赖指称表达的实例在整个文档中散布。
示例性的实施例的重命名指令识别方面还认识到,完整表达和依赖指称表达可能不会出现在同一文档内,例如,后指(cataphoric)表达。后指表达是重新提到由随后表达参照的实体的表达。后指表达和随后表达均指作为指涉的文档外面的事项。例如,在一个或更多个文档的集合中,诸如与一个或更多个附录文档相关的协议文档,协议文档可包含完整表达,而协议文档和附录文档可包含相应的依赖指称表达的实例。
示例性的实施例的重命名指令识别方面认识到,给定文档中的任意量的内容(词语距离)和给定的文档的集合中的任意数量的文档(文档距离)可使依赖指称表达的实例与相应的完整表达分离。在解析依赖指称表达的实例的意思时,除非相应的完整表达也出现于依赖指称表达的实例的附近,否则当前可用的NLP技术是无效或者易于出错的。作为例子,一些当前可用的NLP技术与要在内部解析依赖指称表达的意思的少数句子或段落结合。如果依赖指称表达和完整表达分开例如多于6行或6段,诸如当它们的出现位置在文档中分开几页时,一些当前可用的NLP技术简单地使用依赖指称表达,而不将依赖指称表达解析为相应的完整表达。
其它当前可用的NLP技术可尝试通过链接依赖指称表达的实例与该依赖指称表达的前面的实例来解析依赖指称表达,以诸如形成共同参照链。从示例性的实施例认识到,即使一些现有的NLP技术可解析出现位置明显远离同一指涉的另一次提及的依赖指称表达,这种解析也易于出错或者无效,原因是它们依赖于常规上使用不可靠的暗示的组合的文本搜索以猜测依赖指称表达的正确的在先的实例。
示例性的实施例的重命名指令识别方面认识到,解析依赖指称表达时的这些和其它的当前的限制导致有问题的自然语言处理。考虑文档中的以下的示例性句子-“The2009Series C Bonds will be issued under and subject to the terms andconditions contained in a resolution adopted by the County”。依赖指称表达“2009Series C Bonds”指的是特定的债券,并且,依赖指称表达“the County”指的是特定的郡。没有附加的参照,诸如通过确定这些短语与在文档的另一部分或给定的文档的集合中的另一文档中提供的其它信息之间的等同关系,该句子的主题债券和主题郡是不可辨的。
假定在文档中的别处出现下面的句子-“The$60,000,000General ObligationPublic Improvement and School Bonds,2009Series B(the“2009Series B Bonds”)andthe$60,000,000General Obligation Public Improvement and School Bonds,2009Series C(Federally Taxable-Build America Bonds–Direct Payment)(the“2009Series C Bonds”)(collectively,the“Bonds”)of Shelby County,Tennessee(the“County”)...”。适当地解析处于文档的上下文内的前面的句子的依赖指称表达需要计算依赖指称表达与后面的句子中的完整表达的关系。
示例性的实施例认识到,出于组合的原因,当前可用的NLP技术无法在文档的适当的上下文内分析依赖指称表达。例如,一些NLP技术由于依赖指称表达实例与相应的完整表达之间的词语距离或文档距离而失败。即使配有照应解疑工具的NLP技术也受词语或文档距离限制。
一些其它的NLP技术甚至无法将某些文本识别为依赖指称表达实例。例如,在一些NLP技术依赖于依赖指称表达的诸如单数形式的一些语言特性的情况下,多数形式的依赖指称表达将不会被识别用于解析。作为另一例子,照应解疑会错失后指依赖指称表达,该后指依赖指称表达比照应参照不常见。其它的NLP技术可遭受这些和其它缺点的组合,从而导致解析依赖指称表达的一些实例但不解析其它的。
被用于描述本发明的示例性的实施例的重命名指令识别方面一般针对并且解决上述的问题和与当前可用NLP技术的限制有关的其它问题。示例性的实施例提供用于自然语言处理中的依赖指称表达的歧义消除的方法、系统和计算机程序产品。示例性的实施例的重命名指令识别方面通过过滤处理发现文档中的依赖指称表达的实例。示例性的实施例跨着给定的文档的集合中的无限的词语距离或文档距离定位相应的完整表达。此外,示例性的实施例还可使用重命名指令的识别,包含完整表达、依赖指称表达和指涉,以产生可被用于分析文本内容的一个或更多个数据结构,以提取特征、确定上下文、确定域或者另外识别文本内容的多个部分并且推导关于文本内容的内容的信息。换句话说,示例性的实施例还可提供用于通过使用这些文档中的识别的重命名指令直接从输入文档引导在自然语言处理(NLP)、问题和答案(QA)系统处理等中使用的语言资源的机制。
也就是说,被NLP机制利用的信息的语料库的文档可被分析,以识别依赖指称表达或重命名指令,并且利用识别的重命名指令以产生关联完整表达和它们的相关的绰号并且潜在地关联它们的有关的指涉实体的一个或更多个数据结构,以提供可在随后的NLP操作中使用的这些实体之间的映射,诸如出于问题回答等的目的执行分析。这种数据结构可包含用于限定语义概念的清单的本体、限定这些概念之间的下位词/上位词关系的层次、由适当的名称占据的命名的实体列表和限定域中的动作或事实以及可参与这些关系的实体的关系清单。
仅作为例子参照某些类型的文档、完整表达和依赖指称表达描述示例性的实施例。这些类型的文档、完整表达和依赖指称表达或它们的示例性属性不是要限制本发明。
此外,可关于任意类型的数据、数据源或在数据网络上对数据源的访问实现示例性的实施例。在本发明的范围内,在数据处理系统本地或者在数据网络上,任意类型的数据存储装置可向本发明的实施例提供数据。
通过使用特定的代码、设计、架构、协议、布局、方案和工具描述示例性的实施例,并且不限于示例性的实施例。此外,为了阐明说明书,仅作为例子通过使用特定的软件、工具和数据处理环境在一些实例中描述示例性的实施例。示例性的实施例可与其它的可比或意图类似的结构、系统、应用或构架结合使用。可在硬件、软件或它们的组合中使用示例性的实施例。
本公开中的例子仅用于阐明说明书,并且不限于示例性的实施例。从本公开可设想附加的数据、操作、动作、任务、活动和操作,并且,在示例性的实施例的范围内设想它们。这里列出的任意的优点仅是例子,并且不是要限于示例性的实施例。可通过特定的示例性的实施例实现附加或不同的优点。此外,特定的示例性的实施例可具有以上列出的优点中的一些或全部或不具有这些优点中的任一个。
参照附图、特别是参照图1和图2,这些附图是可实现示例性的实施例的数据处理环境的示例示图。图1和图2仅是例子,并且不是要关于可实现不同实施例的环境断言或意味着任何限制。特定的实现可基于以下的描述对示出的环境采取任何修改。
图1示出可实现示例性的实施例的数据处理系统的网络的图示。数据处理环境100是可实现示例性的实施例的计算机的网络。数据处理环境100包含网络102。网络102是用于在数据处理环境100内的连接在一起的各种装置和计算机之间提供通信链接的介质。网络102可包含诸如导线、无线通信链接或光纤电缆的连接。服务器104和服务器106与网络102连同存储装置单元108耦合。软件应用可在数据处理环境100中的任何计算机上执行。
另外,客户机110、112和114与网络102耦合。诸如服务器104或106或客户机110、112或114的数据处理系统可包含数据,并且可具有在其上面执行的软件应用或软件工具。
仅作为例子而不意味着这种构架的任何限制,图1示出可在实施例的示例性实现中使用的某些部件。例如,服务器104中的应用105是这里描述的实施例的实现。应用105结合NLP引擎103操作。例如,NLP引擎103可以是能够在文档上执行自然语言处理的现有应用,并且可被修改或配置为结合应用105操作以根据这里描述的实施例执行操作。客户机112包含具有根据实施例处理的依赖指称表达113的文档的集合。
服务器104和106、存储装置单元108和客户机110、112和114可通过使用有线连接、无线通信协议或其它适当的数据连接与网络102耦合。例如,客户机110、112和114可以是个人计算机或网络计算机。
在示出的例子中,服务器104可向客户机110、112和114提供诸如引导文件、操作系统图像和应用的数据。在本例子中,客户机110、112和114可以是服务器4的客户机。客户机110、112、114或它们的一些组合可包含它们自身的数据、引导文件、操作系统图像和应用。数据处理环境100可包含未示出的附加的服务器、客户机和其它的装置。
在示出的例子中,数据处理环境100可以是因特网。网络102可代表使用传送控制协议/因特网协议(TCP/IP)和其它协议以相互通信的网络和网关的集合。在因特网的中心,是包含路由数据和消息的数以千计的商业、行政、教育和其它计算机系统的主节点或主机计算机之间的数据通信链接的骨干。当然,数据处理环境100还可实现为大量的不同类型的网络,诸如,例如,内联网、局域网络(LAN)或广域网络(WAN)。图1是例子,而不是不同的示例性的实施例的构架限制。
在其它用途中,数据处理环境100可被用于实现可实现示例性的实施例的客户机-服务器环境。客户机-服务器环境使得能够跨着网络分布软件应用和数据,使得应用通过使用客户机数据处理系统与服务器数据处理系统之间的相互作用起作用。数据处理环境100也可使用跨着网络分布的可共同操作的软件部件可一起封装为相干商业应用的面向服务的结构。
参照图2,该示图示出可实现示例性的实施例的数据处理系统的框图。数据处理系统200是诸如图1中的服务器104或客户机112的计算机的例子或者实现处理的计算机可用程序代码或指令可位于其中的另一类型的装置。
在示出的例子中,数据处理系统200使用包含北桥和存储器控制器集线器(NB/MCH)202和南桥和输入/输出(I/O)控制器集线器(SB/ICH)204的集线器构架。处理单元206、主存储器208和图形处理器210与北桥和存储器控制器集线器(NB/MCH)202耦合。处理单元206可包含一个或多个处理器,并且可通过使用一个或多个异型处理器系统被实现。处理单元206可以是多芯处理器。在某些实现中,图形处理器210可通过加速图形端口(AGP)与NB/MCH 202耦合。
在示出的例子中,局域网络(LAN)适配器212与南桥和I/O控制器集线器(SB/ICH)204耦合。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、通用串行总线(USB)和其它端口232以及PCI/PCIe装置234通过总线238与南桥和I/O控制器集线器204耦合。硬盘驱动(HDD)226和CD-ROM 230通过总线240与南桥和I/O控制器集线器204耦合。例如,PCI/PCIe装置234可包含以太网适配器、插入卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器,而PCIe不使用。ROM 224可以是快擦写二进制输入/输出系统(BIOS)。例如,硬盘驱动226和CD-ROM 230可使用集成驱动电子(IDE)或串行先进技术附加(SATA)接口。超I/O(SIO)器件236可通过总线238与南桥和I/O控制器集线器(SB/ICH)204耦合。
诸如主存储器208、ROM 224或快擦写存储器(未示出)的存储器是计算机可用存储装置的一些例子。硬盘驱动226、CD-ROM 230和其它类似可用器件是包含计算机可用存储介质的计算机可用存储器件的一些例子。
操作系统在处理单元206上操作。操作系统相互协作,并提供对图2中的数据处理系统200内的各种部件的控制。操作系统可以是商业可用操作系统,诸如(AIX是International Business Machines Corporation在美国和其它国家的商标)、(Microsoft和Windows是Microsoft Corporation在美国和其它国家的商标)或(Linux是Linus Torvalds在美国和其它国家的商标)。面向对象的编程系统,诸如JavaTM编程系统,可结合操作系统运行,并且从在数据处理系统200上执行的JavaTM程序或应用向操作系统提供调用(Java和所有的基于Java的商标和标志是Oracle Corporation和/或其附属的商标或注册商标)。
用于操作系统、面向对象的编程系统和诸如图1中的应用105的应用或程序的指令位于诸如硬盘驱动226的一个或多个存储装置中的至少一个上,并且可被加载到诸如主存储器208的一个或多个存储器中的至少一个上,以供处理单元206执行。可通过使用可位于诸如例如主存储器208、只读存储器224的存储器或一个或多个外设装置中的计算机实现指令由处理单元206执行示例性的实施例的处理。
图1~2中的硬件可根据实现改变。除了图1~2所示的硬件或者作为其替代,可使用诸如快擦写存储器、等同的非易失性存储器或光盘驱动等的其它内部硬件或外设装置。另外,示例性的实施例的处理可被施加到多处理器数据处理系统。
在一些示例性的示例中,数据处理系统200可以是个人数字助理(PDA),该个人数字助理一般配有快擦写存储器以提供用于存储操作系统文件和/或用户产生数据的非易失性存储器。总线系统可包含一个或多个总线,诸如系统总线、I/O总线和PCI总线。当然,可通过使用在固定于构造或构架上的不同的部件或装置之间提供数据传送的任何类型的通信构造或构架实现总线系统。
通信单元可包含诸如调制解调器或网络适配器的用于传送和接收数据的一个或多个装置。例如,存储器可以是主存储器208或高速缓存器,诸如在北桥和存储器控制器集线器202中发现的高速缓存器。处理单元可包含一个或多个处理器或CPU。
在图1~2中示出的例子和上述的例子不意味着构架限制。例如,除了采取PDA的形式以外,数据处理系统200也可以是平板计算机、膝上型计算机或电话装置。
参照图3,该示图示出可根据示例性的实施例解析的依赖指称表达的几个例子。文档302是示例性单个文档,其中,完整表达304在出现依赖指称表达实例306和308之前出现。文档302是可以是图1中的文档的集合113中的全部或一部分的示例性文档。
当前可用的NLP技术,诸如图1中的NLP引擎103,能够仅当依赖指称表达实例出现在相应的完整表达附近时解析依赖指称表达实例。例如,当前可用的NLP技术会观察依赖指称表达306的范围310内的内容,以确定是否可解析依赖指称表达306。如果完整表达304出现于范围310内(未示出),那么当前可用的NLP引擎会在其它条件和限制下解析依赖指称表达306。在文档302的示出的例子中,当前可用的NLP引擎不会通过使用完整表达304解析依赖指称表达306。
也就是说,现存的共同参照解析算法通常从依赖短语开始通过使用句法线索按逆向线性顺序搜索文本。由于匹配依赖词组与其发起方(sponsor)是不精确的过程,因此,随着依赖短语与其发起方之间的距离增大,更可能变得得到不正确的匹配,尤其是对未规范的依赖短语,诸如“the County”。因此,许多算法限制了它们对文本的固定窗口的搜索。虽然该固定窗口的范围可以增加,但错误随着范围的增加被引入,因此,距离限制是常见的实现细节。本发明的示例性的实施例通过应用使用重命名指令的直接替代而不是线性搜索的重命名指令利用专用的依赖/发起方匹配能力。因此,不需要这种固定窗/距离限制,并且避免关于这种固定窗口/距离限制的相应的问题。
文档312是另一示例性单个文档,其中,完整表达314在出现依赖指称表达实例316和318之后出现。由于前面描述的限制的组合,当前可用的NLP技术不会解析依赖指称表达306。
文档322和323是文档的集合中的示例性文档,诸如具有图1中的依赖指称表达的文档的集合113。文档322包含完整表达324和依赖指称表达326。文档323包含可通过使用文档322中的完整表达324解析的依赖指称表达328和330。由于前面描述的限制的组合,当前可用的NLP引擎不会解析依赖指称表达306。这里描述的各实施例可用于将依赖指称表达306和308解析为完整表达304、将依赖指称表达316和318解析为完整表达314,并将依赖指称表达326、328和330解析为完整表达324。
参照图4,该示图示出根据示例性的实施例的用于自然语言处理中的识别文档内的重命名指令并且随后基于识别的重命名指令产生词汇资源的示例配置的框图。应当理解,应用402是图1中的应用105的示例性实施例。图3中的文档302、文档304或文档322和323中的任一个可被用作文档的集合404,该文档的集合404包含一个或更多个完整表达的集合和与该集合中的各完整表达对应的一个或更多个依赖指称表达的集合,完整表达和它们的相应的依赖指称表达均指示指涉实体。
应用402接收文档的集合404作为自然语言处理的输入。部件406选择文档404的一部分。部件406通过使用过滤模式、规则或逻辑410过滤该部分以识别重命名指令的实例。如在后面详细地描述的那样,过滤模式、规则和逻辑410在许多不同的方式上与在现有的NLP系统中使用的逻辑不同,包括能够基于在部件406对文档的先前应用中在文档中识别的模式以及学习模式被限定、实现被过滤的文档的特定域和关于重命名指令在该域内的语言的使用的知识、和实现作者的一般倾向和他们对重命名指令的使用的知识等。
因此,应用402的部件406可利用在为识别重命名指令而限定的这些过滤模式、规则或逻辑410中规定的预定过滤准则,并且,具体而言,利用包含完整表达及其指定的绰号的重命名指令的各个部分。这些预定的过滤准则可基于重命名指令的识别的性能,包含重命名指令中的完整表达(长名)趋于是非常明显且完全的全名串而不是含糊的参照。
另外,可以使用一旦重命名指令在文档中被断言(assert)就促使作者注意不使用绰号来规定其分配的指涉以外的任何实体的认识可以用来断定包含文档中的绰号的句子提供关于由完整表达指示的指涉的可靠信息,并且可被挖掘(mine)以获得关于该指涉的关系和事实。此外,在诸如例如法律文本的某些域中,利用重命名指令以识别诸如法律协议的关系的关键方。这允许文档编制人使用标准文档模板并且在文档的开始将关系方的名称填写到重命名指令中。由于它们是关系的关键方,因此,包含绰号术语的句子将包含应对该域模型化的关系。
可以使用重命名指令的这些一般性能和重命名指令的其它识别性能,以产生可被定位部件408和过滤部件406作为用于识别文档中的重命名指令的多个部分的过滤准则来使用的一个或更多个正字和句法过滤模式、规则或其它逻辑410。例如,可以在一个示例性的实施例中使用以下类型的模式:
首字母大写文本+左括号+“该(the)”+左引号+首字母大写串+右引号+右括号
首字母大写文本+逗号+“从此被称为(henceforth referred to as”+首字母大写串
在一些示例性的实施例中,这种模式、规则或其它逻辑410可要求提出的依赖指称表达或绰号的首词在词汇上匹配完整表达,例如,“Shelby County”和“the County”,这里,“County”在完整表达“Shelby County”和依赖指称表达或绰号“the County”中均在词汇上匹配。在其它的示例性的实施例中,模式、规则或其它逻辑410可允许依赖指称表达或绰号代表完整表达的一些其它的语义关系,诸如作为上位词等。
在一个实施例中,过滤部件406使用通过识别词语、短语或文本段的某些语言特性来识别用作依赖指称表达的限定绰号表达的使用的实例的规则或模式410。例如,在一个实施例中,部件406过滤文档的选择部分的大写词语,并且将大写词语识别为来自在该文档段上保持范围的重命名指令的绰号的实例。在另一实施例中,部件406过滤某个字符串,并将它们识别为来自用作依赖指称表达的重命名指令的绰号的实例。在另一实施例中,部件406进一步对于诸如单数或多数形式、不同的性别形式、不同的时态形式、所有格、形容词、副词或识别的依赖指称表达的其它语法形式的识别的依赖指称表达的其它形式来过滤文档404的选择部分。作为例子,如果部件406由于大写将“County”识别为依赖指称表达的实例,那么部件406还将“County’s”识别为同一依赖指称表达的另一实例。
在由过滤部件406通过应用模式、规则和/或其它逻辑识别重命名指令和依赖指称表达之后,定位部件408在文档的集合404的整个范围内定位绰号部分匹配识别的依赖指称表达的重命名指令实例。例如,在将大写词语“County”识别为依赖指称表达的实例之后,部件408定位重命名指令,其中,大写词语“County”被声明为代表在重命名指令中规定的完整表达。此外,可通过使用由过滤部件406或定位部件408或这些要素的组合应用的预定的模式、规则或逻辑410完成这一点。结果是产生被定位和确定为确切匹配绰号串的依赖指称表达与完整表达之间的共同参照链。
候选重命名指令通过定位部件408被评分,以确定指示特定的候选重命名指令实际上是否是真实的重命名指令的置信度的置信度度量。置信度度量或分数可与一个或更多个阈值相比较,以识别要在产生/更新词汇资源420时考虑的候选重命名指令。可通过使用包括自然语言处理评分处理、机器学习评分处理、分数的线性组合、决策树、语法和/或其它的统计技术或人工智能技术的多种技术中的一种或更多种完成评分。具有足够高的置信度度量的那些候选重命名指令被保持以经由词汇资源产生/更新部件412用于产生/更新词汇资源420。不具有足够高的置信度度量(例如等于或超过最小阈值置信度度量)的那些候选重命名指令可被舍弃以不再考虑。
作为例子,考虑可以是输入到应用402的文档404的一部分的文本的以下部分:
The$60,000,000General Obligation Public Improvement and School Bonds,2009Series B(the“2009Series B Bonds”)and the$60,0000,000General ObligationPublic Improvement and School Bonds,2009Series C(Federally Taxable–BuildAmerica Bonds–Direct Payment)(the“2009Series C Bonds”)(collectively,the“Bonds”)of Shelby County,Tennessee(the“County”)…
在本示例性的文本中,可通过应用上述的模式找到的候选重命名指令包含以下(作为完整表达/绰号呈现):
(1)General Obligation Public Improvement and School Bonds,2009SeriesB/2009Series B Bonds;
(2)General Obligation Public Improvement and School Bonds,2009SeriesC/2009Series C Bonds;
(3)General Obligation Public Improvement and School Bonds,2009SeriesB/Bonds;
(4)General Obligation Public Improvement and School Bonds,2009SeriesC/Bonds;和
(5)Shelby County,Tennessee/County。
用于确定候选重命名指令是否是实际的重命名指令的决策过程可作为规则实现,或者通过使用与任选的特征值必然区分的机器学习方法实现。一些示例性特征如下:
候选全名应当:
1)在语法上作为名词短语出现;
2)用首字母大写
候选人绰号应当:
1)被诸如逗号的停顿标点或括号(开闭分隔符匹配)包围;
2)包含任选的指示短语,诸如“此后称为(henceforth referred to as)”、“所谓的(the so-called)”或者只是“该(the)”;
3)包含用引号括起来的词汇名词,例如,“County”或“Seller”;
4)是词汇名词与来自候选全名的一个或更多个词语之间的匹配。
评分可基于候选重命名指令匹配各种特征中的多少特征以及候选重命名指令的匹配程度。各种特征可进一步被加权,以提供各种特征的各种重要性水平,并且这些加权可被应用于评分函数以产生可与阈值相比的候选重命名指令的最终分数,以确定候选重命名指令是否被视为实际的重命名指令(例如,分数是否等于或高于阈值)。作为替代方案,可以使用简单的基于Boolean的评分函数,以确定候选重命名指令是否满足重命名指令的所有特征。
在以上的例子中,识别的候选重命名指令具有需要的性能,并因此被确定为实际的重命名指令。在其它的情况下,必要的特征可能缺失,并且候选重命名指令可被确定为不是实际的重命名指令。
例如,考虑用于识别重命名指令的模式或规则包含候选全名在语法上作为名词短语出现并且使用首字母大写的模式的情况。还考虑模式限定被一组诸如逗号的标点(开闭分隔符匹配)包围的候选绰号或者依赖指称表达、候选绰号包含诸如“此后称为”、“所谓的”或者只是“该”的任选的指示短语、候选绰号包含诸如“County”或“Seller”的用引号括起来的词汇名词、以及词汇名词匹配来自候选全名的一个或更多个词语。
通过遵照该组模式或规则,假定被分析的文本包含声明“if and when theCounty no longer remains an obligated person with respect to the Bonds(withinthe meaning of the Rule)…”。在这种情况下,候选全名可以是“Bonds”,使得候选绰号是“Rule”,原因是术语“Rule”被一组标点包围并且是词汇名词,但是,它缺少引号,并且术语“Rule”不匹配“Bonds”并且括号内的多余的词语不是匹配模式或规则的指示词语。因此,尽管术语“Rule”可能是候选绰号,但术语“Rule”仅部分地匹配用于识别实际绰号的模式/规则的事实使得候选绰号的分数相对较低。
作为另一例子,考虑被分析的声明为“its Direct Participants:(i)by lot inthe case of the 2009Series B Bonds;and(ii)…”。在本例子中,候选全名会是DirectParticipants,而第一候选绰号会是“i”。但是,“i”不是词汇名词,在其周围不存在引号,不存在指示词语,并且分隔符“:”不与相同的结束分隔符配对。因此,候选绰号“i”会具有相对较低的分数,并且会被确定为不是全名的实际绰号。这对于绰号“ii”同样成立,原因是它也不是词汇名词,不存在引号,不存在指示词语,并且分隔符“;”不与匹配的结束分隔符配对。
重新参照图4,定位部件408可转到词汇资源产生/更新部件412以分析保持的重命名指令,以确定需要产生/更新哪些词汇资源420以及如何执行这种产生/更新。词汇资源产生/更新部件412可根据配置的逻辑、规则和模式等分析重命名指令和重命名指令存在于文档404中的上下文,以基于分析的结果确定可产生/更新哪些词汇资源。例如,从重命名指令,词汇资源产生/更新部件412可识别指示特定的类别实体、命名实体、概念、关键方实体、缩写或可在用于在分析文本上下文时帮助NLP、QA系统等的词汇资源中使用的任何其它实体之间的关系的完整表达/依赖指称表达。
作为例子,采用以上关于series B和series Cbonds的文本的部分。从本例子,即使不提供被处理的文档的特定域的现有知识,也可通过使用词汇资源产生/更新部件412的逻辑通过重命名指令的处理学习以下事实。首先,依赖指称表达“County”是实体的类别,并且“Shelby County”是类别的“County”的实例(或子类别)。类似地,“Bonds”是实体的类别,而“Series B Bonds”和“Series C Bonds”是“Bonds”的实例。此外,“General ObligationPublic Improvement and School Bonds,2009Series B”是“Series B Bonds”的实例,并且“General Obligation Public Improvement and School Bonds,2009Series C”是“Series C Bonds”的实例。因此,可从重命名指令的识别产生包含上位词/下位词的类别的层次,这里,实例可以是层次的叶节点或类别的本体。
另外,可以确定“Shelby County,Tennessee”是特定的郡(county),并因此应包含于例如为NLP或QA系统的系统已知的命名实体的列表中。但是,它也可被用作找到在类似的上下文中作为“Shelby County,Tennessee”出现的其它串的开始点,以由此发现郡的其它名称。也就是说,通过分析出现对于“Shelby County,Tennessee”的参照的上下文,词汇资源产生/更新部件412可针对类似的上下文分析相同或不同文档404的其它上下文,并由此识别可存在其它的郡参照的文本的部分。注意,通过应用绰号启用该发现过程,原因是实际参照Shelby County,Tennessee的许多句子通过使用仅包含词语“the County”的绰号表达这样做。如果系统依赖于找到包含串“Shelby County,Tennessee”的句子以发现关于Shelby County的事实,那么许多事实不会被发现。
从以上的重命名指令的识别,可进一步通过词汇资源产生/更新部件412导出包含串“the County”的该文档或有关文档中的文本的任何部分参照Shelby County,Tennessee。另外,可以确定,作为命名的实体的Shelby County,Tennessee是在文档中描述的关系的关键方。
重命名指令的识别进一步允许可用于帮助占据命名实体类型的列表并在输入文档中产生标注命名实体实例的实例/类别的整齐封装对。例如,“County”是类别,而“ShelbyCounty”是“County”的实例,使得可以识别实例/类别对Shelby County/County。词汇资源产生/更新部件412可识别这种实例/类别对,并且使用它们以更新命名实体类型的列表。
重命名指令的识别可进一步利用识别的重命名指令以找到域的关键谓语/关系词。也就是说,一般在文档内为文档中的关键实体的限定绰号。实体可以是关键的,原因是它们是由文档描述的关系中的重要方,例如,合同或其它协议方,原因是它们是文档的关注点,等等。这种绰号常常在整个文档中重复许多次。在整个文档中,绰号术语是争论(argument)的关系可被视为文档的中心,并且可被识别或标记,以供例如为NLP或QA系统的系统进一步处理。
由词汇资源产生/更新部件412执行的分析的结果可被用于产生和/或更新词汇资源420,该词汇资源420然后可被输入到语言分析/推理系统430,该语言分析/推理系统430可以是NLP系统、QA系统或利用词汇信息以帮助执行一个或更多个动作的任何其它系统。词汇资源420可包含用于存储文档404的词汇信息的一种或多种不同的数据结构,以由此产生文档404的模型。可产生/更新的词汇资源420的类型包括但不限于用于限定语义概念的本体、限定这些概念之间的下位词/上位词关系的层次、由适当的名称占据的命名的实体列表、以及限定域中的动作或事实和可参与这些关系的实体的关系清单。
例如,在一个示例性的实施例中,词汇资源产生/更新部件412可基于候选重命名指令的识别和用于识别用于在产生/更新词汇资源时考虑的重命名指令的这些候选重命名指令的置信度度量的评价来导出文档404的命名实体列表的产生。也就是说,跨着文档的集合,可以合并具有相同的类别的实体的列表,该类别由绰号规定。例如,类别中的每一个的实体的列表可在被添加到词汇资源420的集合之前作为可通过用户产生的命名实体列表被输出。
在另一示例性的实施例中,词汇资源产生/更新部件412可导出概念层次(本体)的产生或更新。例如,多词语依赖指称表达或绰号一般限定规定的类别。例如,如果“bankruptcy court”被用作绰号,那么“bankruptcy court”可被识别为子类别,或者在下位词“court”下被识别为实例。从绰号获得的概念的集合可被用于增强或更新现有层次(如果存在的话),或者可被用于通过基于识别的重命名指令产生新的层次从草稿引导本体。
在又一些示例性的实施例中,实体之间的关键关系可被识别和标记,以供进一步的处理,或者被用于产生词汇资源。例如,给定绰号,包含该绰号的文档或文档的集合中的所有句子可被识别和隔离。这些句子可然后在通过诸如NLP系统、QA系统等的语言处理部件评价时被瞄准/优先化。将这些句子识别为具有较高优先级的相应的元数据或其它的信息可被添加到文档,以帮助引导这种语言处理部件的关注点。此外,可从文档上下文提取绰号是争论的关系。这些关系可类似地被瞄准/优先化,以供语言分析/推理系统430的语言处理部件的进一步的处理。
词汇资源产生/更新部件412可实现用于产生/更新词汇资源420的这些处理中的一个或更多个。此外,词汇资源产生/更新部件412可提供用户界面、通知等以与用户交互作用,以提供关于可产生的词汇资源的类型、可更新的词汇资源的类型、推荐执行的特定更新、任何新的词汇资源的任何这种更新/产生的结果等的建议。例如,在一个示例性的实施例中,如果在用于增强或更新概念层次的过程中,词汇资源产生/更新部件412确定可通过添加元数据或另外基于关键关系在文档404中标记句子的优先化获得某些益处,那么词汇资源产生/更新部件412可向用户产生建议执行这些操作的通知,并且证求指示用户是否希望执行这些操作的用户输入。如果用户选择执行这些操作,那么词汇资源产生/更新部件412可响应用户的输入自动这样做。
因此,通过示例性的实施例的机制,实现了使用重命名指令直接从输入文档引导语言资源。示例性的实施例的机制可自动产生词汇资源,这些词汇资源可在以后被诸如可以是NLP系统、QA系统等的一部分的语言处理部件使用。此外,在对于由随后的语言处理要素的处理中,出于特定的考虑,示例性的实施例的机制可以强调对文档的集合中的文档的内容更重要或更核心的术语/概念。由此,示例性的实施例的机制向用于执行语言分析和推理的数据资产的产生/更新提供明显的帮助。
应当理解,以上描述的机制可被应用于多个文档404以及跨着一个或更多个域的一个或更多个文档404。此外,用于帮助过滤来定位重命名指令的模式、规则和/或逻辑410以及当在识别的重命名指令它们的相关的上下文上执行分析时被词汇资源产生/更新部件412使用的模式、规则和/或逻辑可以是一般性和/或域特定的。也就是说,可存在对不同的域建立的单独的模式、规则和/或逻辑,并且可响应被处理的文档404的特定域的识别利用这些单独的模式、规则和/或逻辑。域可在与文档404相关的元数据中被规定、由用户输入、由上游系统自动地识别等,该上游系统诸如为已在一定程度上分析文档404以识别文档的域的NLP或QA系统。域可被传送给应用402,该应用402然后可使用域的识别以配置过滤部件406、定位部件408和词汇资源产生/更新部件412,以对识别的域使用适当的模式、规则和/或逻辑410。
可按完全自动的方式或者半自动的方式实现上述的机制。在完全自动的方式中,应用402可在没有用户介入的情况下自动地在文档404上操作并且自动地产生/更新词汇资源420。在半自动方式中,结果的通知可被发送到用户以使得它们与应用402和相关的系统交互作用,以由此帮助用户利用用户的输入产生/更新词汇资源420。例如,用户可被呈现通过重命名指令的识别和由词汇资源产生/更新部件412执行的分析产生的信息,以由此将用户的注意力引向词汇资源420可被产生/更新的潜在区域。用户可然后提供规定哪些词汇资源420将产生/更新的输入和其它输入以控制/协调这些词汇资源420的产生和/或更新。在不背离示例性的实施例的精神和范围的情况下,也可使用人类用户与自动机制之间的其它水平的交互作用。
参照图5,该图示出根据一个示例性的实施例的重命名指令识别和词汇资源产生/更新的示例性过程的流程图。可例如通过图4中的应用402实现图5绘出的操作,以识别输入文档404中的重命名指令,以产生/更新一个或更多个词汇资源420,以供以后被诸如NLP系统、QA系统等的语言分析/推理系统430使用。
如图5所示,操作从接收包含一个或更多个依赖指称表达和相应的完整表达的文档的集合(步骤502)开始。处理500选择接收的集合的文档的一部分(步骤504)。处理500过滤该部分以识别与在步骤406中识别的绰号在词汇上相同的依赖指称表达实例(步骤506)。处理500在文档的集合内定位作为识别的依赖指称表达实例(绰号短语)参照完整表达的识别的重命名指令的一部分的完整表达(步骤508)。处理500基于依赖指称表达及其相应的完整表达的识别产生完整表达和依赖指称表达的配对(步骤510)。
处理500确定是否在选择的部分中存在依赖指称表达的更多的实例(步骤512)。如果存在同一或不同的依赖指称表达的更多的实例(步骤512的“是”路径),那么处理500返回到步骤506并识别另一实例。如果在该部分中不存在依赖指称表达的更多的实例(步骤512的“否”路径),那么处理500确定是否有更多的部分或文档要以类似的方式被处理(步骤514)。
如果有更多的部分或文档(步骤514的“是”路径),那么处理500返回到步骤504并在接收的集合中的同一或不同文档中选择另一部分。如果没有更多的部分或文档要被分析(步骤514的“否”路径),那么处理500分析配对(重命名指令)和它们的上下文,以基于该配对的识别确定要产生/更新的一个或更多个词汇资源(步骤516)。处理500产生词汇资源(步骤518)并且将它们提供到用于处理文档中的语言分析/推理系统(步骤520)。处理500然后结束。
应当理解,这里的示图仅是要解释本发明的示例性实施例。本发明可包括没有在示图中示出但本领域技术人员在考虑示例性的实施例的本说明书时可很容易想到的方面、实施例和示出的示例性实施例的修改。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以采用这里可以统称为“电路”、“模块”或“系统”的完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合硬件和软件方面的实施例。此外,本发明的各个方面可采取在一个或多个计算机可读介质中体现的计算机程序产品的形式,该计算机可读介质具有在其上面体现的计算机可用程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是电子、磁、光、电磁或半导体性质的系统、装置或器件、以上的任意合适的组合或它们的等同。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下:具有存储能力的电气器件、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、基于光纤的器件、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者以上的任意合适的组合。在本文档的上下文中,计算机可读存储介质可以是可包含或存储程序的任何有形介质,该程序被指令执行系统、装置或者器件使用或者与其结合使用。
在一些示例性的实施例中,计算机可读介质是非暂时性计算机可读介质。非暂时性计算机可读介质是不是无形信号或传播波即纯信号或传播波本身的任何介质。非暂时性计算机可读介质可利用信号和传播波,但不是信号或传播波本身。因此,例如,各种形式的存储器器件和以任何方式利用信号以诸如例如保持它们的状态的其它类型的系统、器件或装置可被视为本说明书的范围内的非暂时性计算机可读介质。
另一方面,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读程序代码。这种传播的数据信号可以采用各种形式中的任一种,包括—但不限于—电磁信号、光信号或它们的任意合适的组合。计算机可读信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以传送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。类似地,计算机可读存储介质是计算机可读信号介质以外的任何计算机可读介质。
在计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光纤电缆、射频(RF)等或者它们的任意合适的组合。
可以以一种或多种编程语言的任意组合来编写用于执行本发明的各方面的操作的计算机程序代码,所述编程语言包括面向对象的编程语言——诸如JavaTM、SmalltalkTM或C++等,还包括常规的过程式编程语言——诸如“C”编程语言或类似的编程语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为独立的软件包执行、部分在用户计算机上且部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种方案中,远程计算机可以通过任意类型的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如,利用因特网服务提供商来通过因特网连接)。
这里,参照根据本发明的示例性的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中的各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生用于实现在流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令可指示计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机程序指令也可被加载到计算机、其它可编程数据处理装置或其它设备上,以使得在计算机、其它可编程数据处理装置或其它设备上执行的一系列的操作步骤产生计算机实现的过程,使得在计算机或其它可编程装置上执行的指令提供用于实现在流程图和/或框图中的一个或多个方框中规定的功能/动作的处理。
图中的流程图和框图示出根据本发明的各种实施例的系统、方法和计算机程序产品的可能的实现的架构、功能和操作。关于这一点,流程图或框图中的各方框可代表包含用于实现规定的逻辑功能的一个或更多个可执行指令的代码的模块、段或部分。还应注意,在一些替代性的实现中,在方框中注明的功能可以按图示的次序以外的次序出现。例如,连续表示的两个方框事实上可基本上被同时执行,或者,根据包括的功能,有时可以按相反的次序执行方框。还应注意,可通过执行特定功能或动作的基于特殊用途硬件的系统或者特殊用途硬件和计算机指令的组合,实现框图和/或流程图的各方框和框图和/或流程图的方框的组合。
在这里使用的术语仅出于描述特定的实施例目的,并且不意在限制本发明。如这里使用的那样,除非在上下文中另外明显指出,否则单数形式“一种”、“一个”和“该”意在也包括多数形式。还应理解,在本说明书中使用的术语“包括”和/或“包含”规定阐述的特征、整数、步骤、操作、要素和/或部件的存在,但不排除存在或添加一个或更多个其它的特征、整数、步骤、操作、要素、部件和/或它们的组。
所有手段的相应的结构、材料、作用和等同或以下的权利要求中的步骤加功能要素是要包括用于与特别要求权利的其它要求要素组合执行功能的任何结构、材料或作用。给出本发明的描述是出于解释和描述的目的给出的,但它不是详尽的或者将本发明限于公开的形式。在不背离本发明的范围和精神的情况下,许多修改和变更对本领域技术人员来说是十分明显的。为了最好地解释本发明的原理和实际应用并使得其它的本领域技术人员能够理解本发明的具有适于设想的特定用途的各种实施例,选择和描述了实施例。
如上所述,应当理解,解释的实施例可采取完全硬件实施例、完全软件实施例或包含硬件要素和软件要素的实施例的形式。在一个示例性实施例中,在包括但不限于固件、驻留软件、微代码等的软件或程序代码中实现示例性的实施例的机制。
适于存储和/或执行程序代码的数据处理系统包括直接或者通过系统总线间接地与存储器元件耦合的至少一个处理器。存储器元件可包含在程序代码的实际执行中使用的本地存储器、大容量存储器和为了减少必须在执行中从大容量存储器检索代码的次数提供至少一些程序代码的暂时存储的高速缓存存储器。
输入/输出或I/O设备(包括但不限于键盘、显示器、指点装置等)可直接或者通过介入的I/O控制器与系统耦合。网络适配器也可与系统耦合以使得数据处理系统能够变得通过介入的私人或公共网络与其它的数据处理系统或远程打印机或存储器设备耦合。调制解调器、电缆调制解调器和以太网卡仅是当前可用类型的网络适配器中的几个。
已出于解释和描述的目的给出了本发明的说明,该说明不是详尽的,或者将本发明限于公开的形式。对于本领域技术人员来说,许多修改和变更是十分明显的。为了最佳地解释本发明的原理、实际应用并使得本领域其它技术人员能够理解本发明的具有适于设想的特定用途的各种修改的各种实施例,选择和描述了实施例。
Claims (11)
1.一种在包括处理器和存储器的数据处理系统中的用于产生语言分析的词汇资源的方法,该方法包括:
通过数据处理系统接收包含重命名指令的文档数据结构;
通过数据处理系统向文档数据结构应用过滤逻辑以识别文档数据结构内的重命名指令,所述重命名指令规定完整表达和绰号之间的对应关系的文档数据结构的元数据或文档数据结构的内容内的陈述;
通过数据处理系统分析重命名指令以识别由重命名指令代表的语义概念之间的关系,这些语义概念被用于基于重命名指令更新词汇资源;
通过数据处理系统基于分析重命名指令的结果更新词汇资源;和
通过数据处理系统向语言分析系统输出更新的词汇资源,其中,语言分析系统基于更新的词汇资源执行文本内容的一部分的语言分析。
2.根据权利要求1所述的方法,其中,更新词汇资源包含基于分析重命名指令的结果产生新词汇资源。
3.根据权利要求1所述的方法,其中,词汇资源是以下各项之一:语义概念的本体、语义概念之间的下位词/上位词关系的层次、命名的实体列表、或限定域中的动作或事实的关系和可参与这些关系的实体的关系清单。
4.根据权利要求1所述的方法,其中,重命名指令包含与一个或更多个依赖指称表达配对的完整表达,其中,完整表达与一个或更多个依赖指称表达的配对代表语义概念的关系。
5.根据权利要求1所述的方法,其中,过滤逻辑包含用于识别完整表达和参照完整表达的绰号的模式或规则。
6.根据权利要求5所述的方法,其中,分析重命名指令包含基于重命名指令的绰号和完整表达识别域的关键谓语/关系词语。
7.根据权利要求5所述的方法,其中,分析重命名指令包含识别实例/类别对,其中,绰号代表由完整表达代表的类别的实例。
8.根据权利要求5所述的方法,其中,基于分析重命名指令的结果更新词汇资源包含用实例/类别对更新与文档数据结构相关的命名实体列表,这里,绰号代表由完整表达代表的类别的实例。
9.根据权利要求5所述的方法,其中,基于分析重命名指令的结果更新词汇资源包含创建新的本体或者更新现有的本体,以在新的本体或现有本体中包含用于完整表达的类别和用于绰号的子类别。
10.根据权利要求5所述的方法,其中,基于分析重命名指令的结果更新词汇资源包含:
在文档数据结构中识别文档数据结构内的重命名指令的实例,以由此识别优先的处理的文档数据结构的一个或更多个部分;和
基于文档数据结构的一个或更多个部分的识别,以比文档数据结构的其它部分高的优先级处理文档数据结构的一个或更多个部分。
11.一种在包括处理器和存储器的数据处理系统中的用于产生语言分析的词汇资源的装置,包括:
处理器;和
与处理器耦合的存储器,其中,存储器包含当被处理器被执行时使得处理器完成以下操作的指令:
接收包含重命名指令的文档数据结构;
向文档数据结构应用过滤逻辑以识别文档数据结构内的重命名指令,所述重命名指令规定完整表达和绰号之间的对应关系的文档数据结构的元数据或文档数据结构的内容内的陈述;
分析重命名指令以识别由重命名指令代表的语义概念之间的关系,这些语义概念被用于基于重命名指令更新词汇资源;
基于分析重命名指令的结果更新词汇资源;和
向语言分析系统输出更新的词汇资源,其中,语言分析系统基于更新的词汇资源执行文本内容的一部分的语言分析。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/030,688 US9361293B2 (en) | 2013-09-18 | 2013-09-18 | Using renaming directives to bootstrap industry-specific knowledge and lexical resources |
US14/030,688 | 2013-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462057A CN104462057A (zh) | 2015-03-25 |
CN104462057B true CN104462057B (zh) | 2017-09-05 |
Family
ID=52668740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410474563.4A Expired - Fee Related CN104462057B (zh) | 2013-09-18 | 2014-09-17 | 用于产生语言分析的词汇资源的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9361293B2 (zh) |
CN (1) | CN104462057B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898455B2 (en) * | 2014-12-01 | 2018-02-20 | Nuance Communications, Inc. | Natural language understanding cache |
US10209867B1 (en) * | 2015-05-15 | 2019-02-19 | Jordan M. Becker | Electronic documentation integration and viewing system |
US10083161B2 (en) | 2015-10-15 | 2018-09-25 | International Business Machines Corporation | Criteria modification to improve analysis |
US10304444B2 (en) * | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
US10223639B2 (en) | 2017-06-22 | 2019-03-05 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
US10229195B2 (en) | 2017-06-22 | 2019-03-12 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
US10652592B2 (en) | 2017-07-02 | 2020-05-12 | Comigo Ltd. | Named entity disambiguation for providing TV content enrichment |
CN111339773A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 信息处理方法、自然语言处理方法以及信息处理设备 |
US11651159B2 (en) | 2019-03-01 | 2023-05-16 | International Business Machines Corporation | Semi-supervised system to mine document corpus on industry specific taxonomies |
CN110417860A (zh) * | 2019-06-21 | 2019-11-05 | 深圳壹账通智能科技有限公司 | 文件传输管理方法、装置、设备及存储介质 |
US11176158B2 (en) * | 2019-07-31 | 2021-11-16 | International Business Machines Corporation | Intelligent use of extraction techniques |
US20210057064A1 (en) * | 2019-08-24 | 2021-02-25 | Medicom Technologies Inc. | Systems and methods for federated searching and retrieval of medical records across disparate databases |
CN112528665A (zh) * | 2019-08-30 | 2021-03-19 | 广州市安固信息科技有限公司 | 一种基于语义理解的信息提取方法 |
CN111026714A (zh) * | 2019-11-07 | 2020-04-17 | 维沃移动通信有限公司 | 一种重命名方法及电子设备 |
US11562137B2 (en) * | 2020-04-14 | 2023-01-24 | Bank Of America Corporation | System to correct model drift for natural language understanding |
CN112597307A (zh) * | 2020-12-23 | 2021-04-02 | 深圳壹账通智能科技有限公司 | 人物动作相关数据的提取方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346716A (zh) * | 2005-12-22 | 2009-01-14 | 国际商业机器公司 | 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5799268A (en) | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US20020173946A1 (en) | 2001-03-28 | 2002-11-21 | Christy Samuel T. | Translation and communication of a digital message using a pivot language |
JP3773426B2 (ja) * | 2001-07-18 | 2006-05-10 | 株式会社日立製作所 | データマイニングにおける前処理方法及び前処理システム |
US7860873B2 (en) | 2004-07-30 | 2010-12-28 | International Business Machines Corporation | System and method for automatic terminology discovery |
US7617232B2 (en) | 2004-09-02 | 2009-11-10 | Microsoft Corporation | Centralized terminology and glossary development |
WO2007101973A2 (en) | 2006-03-08 | 2007-09-13 | True Knowledge Limited | Knowledge repository |
US8271411B2 (en) | 2007-01-05 | 2012-09-18 | Boris Kaplan | Working method for treatment of abstract objects (the thought-substances) of the system of artificial intelligence of a cyborg or an android for the pointer-oriented object acquisition method for abstract treatment of information of this system based on a natural language |
US20080300855A1 (en) | 2007-05-31 | 2008-12-04 | Alibaig Mohammad Munwar | Method for realtime spoken natural language translation and apparatus therefor |
US20100185700A1 (en) * | 2007-09-17 | 2010-07-22 | Yan Bodain | Method and system for aligning ontologies using annotation exchange |
US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
US8280838B2 (en) | 2009-09-17 | 2012-10-02 | International Business Machines Corporation | Evidence evaluation system and method based on question answering |
US20110125734A1 (en) | 2009-11-23 | 2011-05-26 | International Business Machines Corporation | Questions and answers generation |
US20110271179A1 (en) | 2010-04-28 | 2011-11-03 | Peter Jasko | Methods and systems for graphically visualizing text documents |
CN103229168B (zh) | 2010-09-28 | 2016-10-19 | 国际商业机器公司 | 在问答期间在多个候选答案之间证据扩散的方法和系统 |
CN103229223A (zh) | 2010-09-28 | 2013-07-31 | 国际商业机器公司 | 使用多个候选答案评分模型提供问题答案 |
US8701087B2 (en) * | 2010-10-26 | 2014-04-15 | Sap Ag | System and method of annotating class models |
US8601030B2 (en) | 2011-09-09 | 2013-12-03 | International Business Machines Corporation | Method for a natural language question-answering system to complement decision-support in a real-time command center |
-
2013
- 2013-09-18 US US14/030,688 patent/US9361293B2/en not_active Expired - Fee Related
-
2014
- 2014-09-17 CN CN201410474563.4A patent/CN104462057B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346716A (zh) * | 2005-12-22 | 2009-01-14 | 国际商业机器公司 | 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US9361293B2 (en) | 2016-06-07 |
US20150081281A1 (en) | 2015-03-19 |
CN104462057A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462057B (zh) | 用于产生语言分析的词汇资源的方法和系统 | |
Kumar | Natural language processing | |
CN103995806B (zh) | 用于自然语言处理中的依赖指称表达的解疑的方法和系统 | |
US9606990B2 (en) | Cognitive system with ingestion of natural language documents with embedded code | |
US9361587B2 (en) | Authoring system for bayesian networks automatically extracted from text | |
US9292490B2 (en) | Unsupervised learning of deep patterns for semantic parsing | |
US9740685B2 (en) | Generation of natural language processing model for an information domain | |
RU2686000C1 (ru) | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки | |
US10496756B2 (en) | Sentence creation system | |
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
US20150081277A1 (en) | System and Method for Automatically Classifying Text using Discourse Analysis | |
CN107656921B (zh) | 一种基于深度学习的短文本依存分析方法 | |
KR20120001053A (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
CN113064985A (zh) | 人机对话方法、电子设备及存储介质 | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
van Cranenburgh | Rich statistical parsing and literary language | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
O’Donnell | Interactions between natural–language processing and systemic functional linguistics | |
Orešković | An Online Syntactic and Semantic Framework for Lexical Relations Extraction Using Natural Language Deterministic Model | |
Dellert | Exploring Probabilistic Soft Logic as a framework for integrating top-down and bottom-up processing of language in a task context | |
Zhen et al. | Frequent words and syntactic context integrated biomedical discontinuous named entity recognition method | |
Goh et al. | Automatic ontology construction in fiction-based domain | |
Carichon et al. | An history of relevance in unsupervised summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170905 |