CN104657345B - 提供同义词的上下文验证的方法和系统 - Google Patents
提供同义词的上下文验证的方法和系统 Download PDFInfo
- Publication number
- CN104657345B CN104657345B CN201410662608.0A CN201410662608A CN104657345B CN 104657345 B CN104657345 B CN 104657345B CN 201410662608 A CN201410662608 A CN 201410662608A CN 104657345 B CN104657345 B CN 104657345B
- Authority
- CN
- China
- Prior art keywords
- token
- linear range
- synonym
- user
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及提供同义词的上下文验证的方法和系统。在此描述的实施例提供用于在本体驱动的自然语言处理中验证同义词的方法。具体地,提供方法用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合中的类的集合、将令牌指定为相关置换集合中的一个置换中的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。
Description
技术领域
此发明一般涉及本体驱动的自然语言处理(NLP),以及更具体地涉及在本体驱动的NLP中提供同义词的上下文验证。
背景技术
自然语言文本中的常见问题是欠规范(under-specification)。例如,当人们同另一个人说话时,存在一个允许理解特定语境单词和短语的共享语境。当用户与专家系统交互时,也期望有共享语境。但是,因为欠规范和缺乏共享语境,对计算机来说理解语言有时候很困难。
目前,NLP可以被用于实现先进的在线问题应答服务。NLP提供尝试理解和识别语言的句法结构的技术。例如,NLP已经被用于识别提交的句子中一个或多个术语的词类(theparts of speech),以支持将句子用作对数据的自然语言查询。但是,即使数据是高度组织的,使用NLP对数据进行解析和处理查询可能由于关键词中的歧义而遭受性能问题。
本体驱动的NLP解析自然语言文本并且将其变换为它的意思表示,所述表示是围绕事件和它的参与者来组织的。查询可以接着被匹配到在文本中生成(surface)的预期的任何置换的意思表示。但是,这些变换也可能遭受欠规范,其中必须假定恰当语境以理解声明或者查询。关于假定语境的这种歧义有时导致不准确和不期望的结果。
发明内容
通常,在此描述的实施例提供用于在本体驱动的NLP中验证同义词的方案。具体地,提供方案用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。
本发明的一个方面包括一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的方法,所述方法包括计算机实现的以下步骤:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。
本发明的另一个方面包括一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的系统,所述系统包括:包含指令的存储器介质;耦接到存储器介质的总线;以及通过总线耦接到NLP引擎的处理器,当处理器执行指令时使得系统:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。
本发明的再一个方面提供一种存储有计算机指令的计算机可读存储设备,当指令被执行时使得计算机系统能够在本体驱动的自然语言处理中提供同义词的上下文验证,所述计算机指令包括:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。
附图说明
图1示出了根据说明性实施例的示例性计算环境的原理图;
图2示出了根据说明性实施例的示例性NLP引擎以及其实现的原理图;
图3示出了根据说明性实施例的包含一个或多个令牌的示例性用户输入的集合;
图4示出了根据说明性实施例的语义模型;
图5示出了根据说明性实施例的重新组织的语义模型;以及
图6示出了根据说明性实施例的用于在本体驱动的自然语言处理中提供同义词的上下文验证的处理流程。
所述附图不必是按比例的。所述附图仅仅是代表,并不旨在描绘本发明的具体参数。所述附图旨在仅描述本发明的典型实施例,并且因此不应当被认为限制于范围。在所述附图中,相似的附图标记代表相似的元件。
具体实施方式
参考其中示出示例性实施例的附图,本发明在此会被更详细地描述。本公开可以以多种不同形式实现并且不应该被解释为限制到在这里提出的示例性实施例。相反,提供这些示例性实施例以便本公开会变得彻底和完整并且会完全将本公开内容传达给本领域技术人员。在说明书,可以省略公知的特征和技术的细节,以避免不必要地模糊所提出的实施例。贯穿本说明书提及的“一个实施例”“某一实施例”或者类似语言意指结合所述实施例描述的特定特征、结构或者特性被包括在本发明的至少一个实施例中。因此,贯穿此说明书出现的短语“在一个实施例中”“在某一实施例中”以及类似语言可以但不是必须全部参考同样的实施例。
此外,在此使用的术语仅用作描述特定实施例的目的并且不旨在被限制于此公开。如在此使用的,单数形式“一”“一个”以及“这个”旨在也包括复数形式,除非上下文另外清晰指出。此外,术语“一”“一个”等的使用不表示数量的限制,而是指示存在至少一个所述的参考项目。将要进一步理解,当在本说明书中使用时,术语“包含”或者“包括”详细说明了所述特征、区域、完整部分(interger)、步骤、操作、元件、和/或组件的存在,但是不排除存在或者添加一个或多个其他特征、区域、完整部分、步骤、操作、元件、组件、和/或其的聚合。
除非另外明确声明,可以认识到诸如“处理”、“计算”、“确定”、“评价”、或类似的术语涉及计算机或计算系统、或类似电子数据中心设备的动作和/或过程,此动作把表示为计算系统的寄存器和/或存储器内的物理量(例如电子)的数据操纵和/或转换为其他类似的表示为计算系统的存储器、寄存器或其他此类信息存储、传递或预览设备内的物理量。所述实施例不限于此上下文。
如在本申请中使用的,在此使用的单词“示例性”意指充当例子、实例、或说明。在此描述为“示例性”的任何方面或设计不必被解释为优选于或者优于其他方面或设计。相反,使用单词“示例性”旨在以简要方式表达概念。
如以上提及的,在此描述的实施例提供一种用于在本体驱动的NLP中验证同义词的方案。具体地,提供方案用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合中的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。作为结果,恰当的语义本体术语可以被识别用于丰富搜索查询,其使用语义注释形式来辅助解决本体术语歧义并且增加本体关键术语中的置信程度。
现在参考图1,本发明的计算机化的实现100会以更多细节被描述。如所描绘的,实现100包括具有部署于其中的计算机系统104的计算机基础结构102。除了别的方面,这旨在展示本发明可以在网络环境(例如,互联网、广域网(WAN)、局域网(LAN)、虚拟专用网络(VPN)等)、云计算环境、或者孤立计算系统内实现。贯穿网络的通信可以经由各种类型的通信链路的任意组合来发生。例如,通信链路可以包括可以利用有线和/或无线传输方法的任何组合的可寻址连接。当通信经由互联网发生时,连接性可以由传统基于TCP/IP套接字的协议来提供,并且使用互联网服务提供商来建立到互联网的连接性。而且,计算机基础结构102旨在展示可以通过服务提供商来对实现100的一些或全部组件进行部署、管理、服务等,所述服务提供商为其余的提供实现、部署、和/或执行本发明的功能。
计算机系统104旨在表示可以在部署/实现在此详述的教导中实现的任何类型的计算机系统。在此特定示例中,计算机系统104代表用于在本体驱动的自然语言处理中提供同义词的上下文验证的示例性系统。应该理解,在本发明下实现的任何其他计算机可以具有不同的组件/软件,但是会执行类似的功能。如所示,计算机系统104包括能够与存储在存储器108中的NLP引擎118通信的处理单元106、总线110、以及设备接口112。
处理单元106一般指执行逻辑操作、与计算有关的任务、控制功能等的任何装置。处理器可以包括一个或多个子系统、组件、和/或其他处理器。处理器典型地会包括各种逻辑组件,所述逻辑组件使用时钟信号操作以锁存数据、预测(advance)逻辑状态、同步计算和逻辑操作、和/或提供其他计时功能。在操作期间,处理单元106收集并且路由代表外部设备115和NLP引擎118之间的输入和输出的信号。所述信号可以通过LAN和/或WAN(例如T1、T3、56kb、X.25)、宽带连接(ISDN、Frame Relay、ATM)、无线链路(802.11、蓝牙等)等等来传输。在某些实施例中,所述信号可以使用例如信任的密钥对加密(trusted key-pairencryption)来加密。不同系统可以使用诸如以太网或无线网络、直接串行或并行连接、USB、 或其他专用接口的不同通信路径传输信息。(Firewire是苹果计算机公司的注册商标。Bluetooth是蓝牙特别兴趣小组(SIG)的注册商标)。
通常,处理单元106执行诸如存储在存储器108和/或存储系统106中的用于操作NLP引擎118的程序代码的计算机程序代码。当执行计算机程序代码时,处理单元106可以将数据从存储器108、存储系统116、以及NLP引擎118读取和/或写入其中。存储系统116可以包括VCR、DVR、RAID阵列、USB硬盘驱动器、光盘记录器、闪存设备、和/或任何其他用于存储和/或处理数据的数据处理和存储元件。虽然未示出,计算机系统104也可以包括与一个或多个外部设备115(例如键盘、指点设备、显示器等)通信的I/O接口,该接口使能用户与计算机系统104的交互。
现在参考图2,NLP引擎218的操作会被更详细地描述。如所示,图2是说明能够被用于实现NLP引擎218的系统200的框图。系统200提供必需组件以在本体驱动的NLP中提供同义词的上下文验证。如在此使用的,本体驱动的NLP涉及使用语义模型来理解未组织的数据中存在着什么。在使用期间,本体驱动的NLP解析来自用户224的输入222的自然语言文本并且将之转换为它的意思表示,所述表示是围绕在文本中提及的并且语义模型228(例如本体模型)已知的事件和它的参与者来组织的。
在示例性实施例中,输入222包括被组织成线性符号(例如字符、单词或短语)序列的电子文本。在对输入222的任何处理完成以前,需要把文本分段成一个或多个令牌230,所述令牌是诸如单词、标点、数字、字母数字(alpha-numerics)等的语言单元。产生令牌230是用于识别待处理的基本单元的预处理类型。在一种实施例中,令牌230可以由空格和/或标点在两边划界的字符串或单词来定义,而在另一种实施例中,令牌230可以被定义成语言上重要的和/或方法上有用的事物。
一旦含有令牌230的输入222在NLP引擎218处被接收,它就被组织成语义模型228,其包括类232和234(例如数据集合)的集合,所述集合中的每一个都含有令牌230(在图4中更清晰示出并且以下更详细地描述)的相关置换238A-N和240A-N(例如作为实例数据的类的成员)集合。令牌230接着被指定作为相关置换238A-N或者240A-N集合中的一个置换的同义词,以及用对应于与令牌230同义的相关置换的包含类232或234的注释244(例如提供文本的语义标签)来注释令牌230。例如,如果令牌230被设置为相关置换238A-N中的一个置换的同义词,则返回类232作为注释244。相反,如果令牌230被设置为相关置换240A-N中的一个置换的同义词,则返回类233作为注释244。如以下更详细描述的,接着通过确定将令牌230指定244作为从相关置换238A-N和240A-N中所选出的置换的同义词的精确性来验证注释244。
现在参考图3,示出一组示例性输入和令牌。在第一示例中,输入322A是文本声明“For receivers,I want 4 of the 1000 line”。其中,输入322A以及尤其是数字1000可以是有点歧义的,因此期望添加对此数字的语境和理解。因此,如在输入322B和322C分别显示的,对应于令牌330的数字1000与注释344相结合。
注释344由被图4中示出的语义模型428驱动的NLP引擎218(图2)添加到令牌330。在一种实施例中,语义模型428是包含类(例如,实体)和断言(predicate)(例如,关系)的本体模型。本体类是数据集合,并且可以包含成员(例如,对应于所述令牌的置换的实例数据)。语义模型428允许用户以更自然的方式询问关于模型系统中正在发生什么的问题。语义模型428可以被充分利用(leveraged)作为应用的功能核心以提供数据的导航模型以及代表目标域中的知识的相关关系。
语义模型428的关键价值是以一致性方式提供对现实世界环境中信息的访问。在此实施例中,在语义模型428中示出的注释344“Product”和“Number”分别代表本体类432和434。令牌430的第一置换集合438A-N(例如,“Digital Receiver 1000,Digital Reciver,Receiver,1000”)以及第二置换集合440代表实例数据(即,每个本体类432和434的成员)。如所示,语义模型428使用关系460(即,“hasSynonym”)作为“Digital Receiver 1000”的同义词。在使用期间,NLP引擎使用包含在语义模型428中的实例数据,并且当在用户输入中发现所述实例数据时,包含所述实例数据的类会被用作语义注释。
一旦注释被执行,通过确定将令牌指定为所选的相关置换的同义词的准确性来验证所述注释。如图5中所示,考虑另一个关系562(即,“requiresContext”),并且所述本体被重组织以包括知识结构564。通常,知识结构564是实体、关系类型、三元组(triples)、元素类型以及知识对象的组合体。在知识结构564中,概念、关系类型、元素类型、知识对象、以及三元组它们本身都是被考虑的实体并且可以经由三元组与另一个实体联系。在三元组是考虑的实体并且参与到三元组,这通常被称为三元组的“具体化”(“reification”)。
在示出的示例性实施例中,知识结构564包含上下文令牌566(即,“Receiver”)、表示为用户输入522内的令牌530与上下文令牌566之间的关系570的线性距离、以及将令牌530指定为所选的相关置换“Digital Receiver 1000”的同义词。在此情况中,关系570是预定的线性距离限制,其可以是用户定义的,并且在此由“hasKlimit5”表示。这说明仅当令牌“Receiver”出现在用户输入中即5个单词以内的别处时,使用“1000”作为“DigitalReceiver 1000”的同义词。
将要理解,知识结构564的格式被组织成具体化三元组以提供与现存的关系相对的表达语境的方式。基于由上下文令牌566引入的线性距离关系570和关系562,知识结构的所述具体化三元组格式为作为相关置换“Digital Receiver 1000”的同义词的令牌530的关系560(即,“hasSynonym”)提供上下文验证。即,知识结构564将上下文令牌566与令牌530之间的线性距离与所述线性距离限制进行比较。同样地,用户能够表达用于验证的恰当线性距离,并且利用用户定义的恰当距离以影响语义注释中的置信度。
在一种实施例中,线性距离对应于用户输入522中的两个目标令牌,即上下文令牌556和令牌530,之间的令牌(即,单词)数量。如所示,输入522中的“Receiver”与“1000”之间的线性距离是3。因此K-limit为5意指“Digital Receiver 1000”的语义注释是有效的。语义注释会在最高置信度(100%)下应用。但是,如果用户打字:“For receivers,I’ve beenlooking at a few,but primarily the 1000 line”,“Receiver”与“1000”的线性距离是9。因此K-limit为5意指“Digital Receiver 1000”的语义注释不被认为有效,并且至少具有低的置信度,其可以用多种方式量化。
将要理解在此描述的方法可以由计算机系统104(图1)执行,所述方法可以用计算机执行的诸如程序模块的计算机可执行指令的通用语境描述。通常,程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、成员、组件、逻辑、数据结构等。示例计算机系统104可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机存储介质中。
如图6所示,程序模块执行在此公开的方法。过程600被描绘用于在本体驱动的自然语言处理中提供同义词的上下文验证,其中,在602接收含有一个或多个令牌的用户输入。在604,用户输入被组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合。接着,在606,将令牌指定为相关置换集合中的一个置换的同义词,并且在608用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌。在610通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。最后,在612,语义模型被重组织以包括知识结构,所述知识结构包含上下文令牌、令牌与上下文令牌之间的线性距离、以及将令牌指定为相关置换集合中的一个置换的同义词。
图6的流程图根据本发明的各种实施例,说明了系统、方法和计算机程序产品的可能实现的结构、功能和操作。在这方面,流程图中的每个框可以代表包括用于实现特定逻辑功能的一个或多个可执行指令的模块、段、或者代码部分。还应注意到,在一些替代实施中,框中指出的功能可以以不同于图中指定的顺序执行。例如,所示连续的两个框可以实际上大体并行执行。还要注意到,流程图的每个框可以由执行特定功能或动作的专用目的的基于硬件的系统实现,或者由专用目的的硬件与计算机指令的组合实现。
本说明书中描述的许多功能单元已经被顺序标号为模块,以更具体强调它们实现的独立性。例如,模块可以由包括定制VLSI电路或门阵列、成品半导体的硬件电路实现,其中成品半导体是诸如逻辑芯片、晶体管、或其他分立元件。模块也可以由诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件或类似的可编程硬件设备来实现。模块也可以通过各种类型处理器执行软件来实现。一个可执行代码的可识别的模块或组件可以包括例如一个或多个计算机指令的物理或逻辑块,这些块可以例如被组织为对象、步骤、或功能。然而,可识别的模块的执行不需要被物理放置在一起,但是其可以包括存储在不同位置的不同指令,当这些不同位置在逻辑上结合起来时,其包括所述模块并且实现用于所述模块的所述目的。
进一步,可执行代码的模块可以是单独指令、或多个指令,并且甚至可以分布于若干不同代码段中、不同程序中、以及横跨若干存储器设备。类似的,操作数据可以在模块内被识别和说明于此,并且可以用任何合适形式实现并且在任何合适数据结构类型内组织。操作数据可以被收集为单独数据集合,或者可以分布于包括不同存储设备、不同存储器设备的不同位置,并且可以至少是部分地仅仅作为电子信号存在于系统或网络上。
而且,如此处将要描述的,模块也可以被实现为软件与一个或多个硬件设备的组合。例如,模块可以在存储在存储器设备上的软件可执行代码的组合中实现。在进一步的实施例中,模块可以是对操作数据集合进行操作的处理器的组合。进一步,模块可以在经由传输电路通信的电子信号的组合中实现。
如上所示,某些实施例可以在硬件中实现。硬件可以被称为硬件元件。通常,硬件元件可以指被安排以执行特定操作的任何硬件结构。在一种实施例中,例如,硬件元件可以包括在衬底上制备的任何模拟或数字电气或电子元件。所述制备可以使用诸如互补金属氧化物半导体(CMOS)、双极型、以及双极CMOS(BiCMOS)技术的硅基集成电路(IC)技术来执行。硬件元件的例子可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻、电容、电导等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。实施例不限于此上下文。
如上所示,某些实施例可以在软件中实现。软件可以被称为软件元件。通常,软件元件可以涉及被安排以执行特定操作的任何软件结构。在一种实施例中,例如,软件元件可以包括适于由诸如处理器的硬件元件执行的程序指令和/或数据。程序指令可以包括组织好的命令列表,所述列表包括被安排成预定语法的单词、值或符号,以便当其执行时可以使得处理器执行相应的操作集合。
例如,示例性计算机系统104(图1)的实现可以存储在某些形式的计算机可读介质上或者被传输穿过某些形式的计算机可读介质。计算机可读介质可以是能被计算机访问的任何可用介质。举例但不作为限制,计算机可读介质可以包括“计算机存储介质”和“通信介质”。
“计算机可读存储设备”包括易失性和非易失性、可移除和不可移除的计算机存储介质,它们以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现。计算机存储设备包括但不限于,RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光学存储、卡式磁带、磁带、磁盘存储或其他磁存储设备、或任意其他可以用于存储期望信息并且可以被计算机访问的介质。
“通信介质”通常实现为计算机可读指令、数据结构、程序模块、或诸如载波或其他传输机构的模块化数据信号的其他数据。通信介质还包括任何信息传递介质。
术语“模块化数据信号”意指具有一个或多个它的特性集或者被改变以在信号中编码信息的信号。举例但不是限制,通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声、RF、红外的无线介质和其他无线介质。任何上面的组合也包括在计算机可读介质的范围内。
很明显已经提供了方法用于在本体驱动的自然语言处理中提供同义词的上下文验证。尽管本发明已被具体示出并且结合它的优选实施例描述,将要意识到本领域技术人员将会想到变种和修改。因此,将要明白所附权利要求旨在覆盖所有落入本发明真正精神内的此类修改和改变。
Claims (10)
1.一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的方法,所述方法包括计算机实现的以下步骤:
接收包含识别自然语言文本单元的令牌的自然语言文本的用户输入;
把用户输入组织成语义模型,所述语义模型包含类的集合,其中每个类都含有所述令牌的相关置换集合;
将令牌指定为相关置换集合中的一个置换的同义词;
用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌;
将用户输入内的线性距离量化为所述令牌和上下文令牌之间的单词数量;
将量化的线性距离与预定单词数量的线性距离限制比较;
如果基于所述比较,所述量化的线性距离位于所述预定单词数量的线性距离内,为所述令牌的注释分配高置信度并基于所述高置信度验证所述令牌的注释;
如果基于所述比较,所述量化的线性距离不位于所述预定单词数量的线性距离内,为所述令牌的注释分配低置信度。
2.根据权利要求1所述的方法,其中预定的线性距离限制是用户定义的。
3.根据权利要求1所述的方法,验证所述令牌的注释还包括重组织语义模型以包括知识结构,所述知识结构包含上下文令牌、线性距离、预定的线性距离限制、以及将令牌指定为相关置换集合中的一个置换的同义词。
4.根据权利要求1所述的方法,其中所述线性距离对应于令牌量。
5.根据权利要求1所述的方法,还包括解析用户输入的计算机实现的步骤。
6.一种用于在本体驱动的自然语言处理(NLP)中提供同义词的上下文验证的系统,所述系统包括:
包含指令的存储器介质;
耦接到存储器介质的总线;以及
通过总线耦接到NLP引擎的处理器,当处理器执行指令时使得系统:
接收包含识别自然语言文本单元的令牌的自然语言文本的用户输入;
把用户输入组织成语义模型,所述语义模型包含类的集合,其中每个类都含有所述令牌的相关置换集合;
将令牌指定为相关置换集合中的一个置换的同义词;
用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌;
将用户输入内的线性距离量化为所述令牌和上下文令牌之间的单词数量;
将量化的线性距离与预定单词数量的线性距离限制比较;
如果基于所述比较,所述量化的线性距离位于所述预定单词数量的线性距离内,为所述令牌的注释分配高置信度并基于所述高置信度验证所述令牌的注释;
如果基于所述比较,所述量化的线性距离不位于所述预定单词数量的线性距离内,为所述令牌的注释分配低置信度。
7.根据权利要求6所述的系统,其中预定的线性距离限制是用户定义的。
8.根据权利要求6所述的系统,用于验证所述令牌的注释的指令还包括使得系统重组织语义模型以包括知识结构的指令,所述知识结构包含上下文令牌、线性距离、预定的线性距离限制、以及将令牌指定为相关置换集合中的一个置换的同义词。
9.根据权利要求6所述的系统,所述线性距离对应于令牌量。
10.根据权利要求6所述的系统,还包括解析用户输入的指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/084,827 | 2013-11-20 | ||
US14/084,827 US9342502B2 (en) | 2013-11-20 | 2013-11-20 | Contextual validation of synonyms in otology driven natural language processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104657345A CN104657345A (zh) | 2015-05-27 |
CN104657345B true CN104657345B (zh) | 2018-06-12 |
Family
ID=53174179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410662608.0A Active CN104657345B (zh) | 2013-11-20 | 2014-11-19 | 提供同义词的上下文验证的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (4) | US9342502B2 (zh) |
CN (1) | CN104657345B (zh) |
DE (1) | DE102014116092A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9372924B2 (en) | 2012-06-12 | 2016-06-21 | International Business Machines Corporation | Ontology driven dictionary generation and ambiguity resolution for natural language processing |
US9342502B2 (en) | 2013-11-20 | 2016-05-17 | International Business Machines Corporation | Contextual validation of synonyms in otology driven natural language processing |
US9870351B2 (en) * | 2015-09-24 | 2018-01-16 | International Business Machines Corporation | Annotating embedded tables |
US10146758B1 (en) * | 2016-09-30 | 2018-12-04 | Amazon Technologies, Inc. | Distributed moderation and dynamic display of content annotations |
US11250212B2 (en) * | 2019-03-29 | 2022-02-15 | Innoplexus Ag | System and method for interpreting contextual meaning of data |
US11416686B2 (en) * | 2020-08-05 | 2022-08-16 | International Business Machines Corporation | Natural language processing based on user context |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
US7689410B2 (en) * | 2004-04-23 | 2010-03-30 | Microsoft Corporation | Lexical semantic structure |
US8515731B1 (en) * | 2009-09-28 | 2013-08-20 | Google Inc. | Synonym verification |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3025724B2 (ja) | 1992-11-24 | 2000-03-27 | 富士通株式会社 | 類義語生成処理方法 |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7526425B2 (en) | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7058652B2 (en) * | 2002-08-15 | 2006-06-06 | General Electric Capital Corporation | Method and system for event phrase identification |
US8306807B2 (en) * | 2009-08-17 | 2012-11-06 | N T repid Corporation | Structured data translation apparatus, system and method |
US8332434B2 (en) | 2009-09-30 | 2012-12-11 | Business Objects Software Limited | Method and system for finding appropriate semantic web ontology terms from words |
US8700652B2 (en) * | 2009-12-15 | 2014-04-15 | Ebay, Inc. | Systems and methods to generate and utilize a synonym dictionary |
US9542647B1 (en) | 2009-12-16 | 2017-01-10 | Board Of Regents, The University Of Texas System | Method and system for an ontology, including a representation of unified medical language system (UMLS) using simple knowledge organization system (SKOS) |
US8719770B2 (en) | 2010-09-09 | 2014-05-06 | International Business Machines Corporation | Verifying programming artifacts generated from ontology artifacts or models |
US20130096947A1 (en) | 2011-10-13 | 2013-04-18 | The Board of Trustees of the Leland Stanford Junior, University | Method and System for Ontology Based Analytics |
US20140188456A1 (en) * | 2012-12-27 | 2014-07-03 | Abbyy Development Llc | Dictionary Markup System and Method |
US9342502B2 (en) | 2013-11-20 | 2016-05-17 | International Business Machines Corporation | Contextual validation of synonyms in otology driven natural language processing |
US9378204B2 (en) | 2014-05-22 | 2016-06-28 | International Business Machines Corporation | Context based synonym filtering for natural language processing systems |
US10095784B2 (en) | 2015-05-29 | 2018-10-09 | BloomReach, Inc. | Synonym generation |
CN105868236A (zh) | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
-
2013
- 2013-11-20 US US14/084,827 patent/US9342502B2/en active Active
-
2014
- 2014-11-05 DE DE102014116092.4A patent/DE102014116092A1/de not_active Ceased
- 2014-11-19 CN CN201410662608.0A patent/CN104657345B/zh active Active
-
2016
- 2016-04-05 US US15/090,699 patent/US10169335B2/en not_active Expired - Fee Related
-
2018
- 2018-10-29 US US16/173,186 patent/US10546068B2/en not_active Expired - Fee Related
-
2019
- 2019-08-28 US US16/553,796 patent/US10769373B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689410B2 (en) * | 2004-04-23 | 2010-03-30 | Microsoft Corporation | Lexical semantic structure |
CN101388026A (zh) * | 2008-10-09 | 2009-03-18 | 浙江大学 | 一种基于领域本体的语义索引方法 |
US8515731B1 (en) * | 2009-09-28 | 2013-08-20 | Google Inc. | Synonym verification |
Also Published As
Publication number | Publication date |
---|---|
US10546068B2 (en) | 2020-01-28 |
US20160217131A1 (en) | 2016-07-28 |
US20190065475A1 (en) | 2019-02-28 |
DE102014116092A1 (de) | 2015-05-21 |
US20150142419A1 (en) | 2015-05-21 |
US10169335B2 (en) | 2019-01-01 |
US20190384818A1 (en) | 2019-12-19 |
CN104657345A (zh) | 2015-05-27 |
US9342502B2 (en) | 2016-05-17 |
US10769373B2 (en) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104657345B (zh) | 提供同义词的上下文验证的方法和系统 | |
US11244011B2 (en) | Ingestion planning for complex tables | |
CN105446966B (zh) | 生成关系数据转换为rdf格式数据的映射规则的方法和装置 | |
CN107683481A (zh) | 使用延迟求值计算加密数据 | |
US11456871B2 (en) | System and method for autonomous mapping of enterprise identity | |
CN104750771A (zh) | 利用域信息进行上下文数据分析的方法和系统 | |
US20230281604A1 (en) | Technologies for creating and transferring non-fungible token based identities | |
US20140215301A1 (en) | Document template auto discovery | |
CN107820614A (zh) | 隐私增强的个人搜索索引 | |
Kovalnogov et al. | Ninth‐order, explicit, two‐step methods for second‐order inhomogeneous linear IVPs | |
CN107015794B (zh) | 软件即服务参考流程扩展验证框架 | |
US11614991B2 (en) | Recommendation engine for application programming interface (API) in a multi-cloud environment | |
CN111488742A (zh) | 用于翻译的方法和装置 | |
Cox et al. | SISSVoc: A Linked Data API for access to SKOS vocabularies | |
US20210056101A1 (en) | Domain-specific labeled question generation for training syntactic parsers | |
US20170124219A1 (en) | Determining data field offsets using a document object model representation | |
US20160154785A1 (en) | Optimizing generation of a regular expression | |
CN109284452A (zh) | 电子协议在线展示方法、装置、电子设备、存储介质 | |
US9449056B1 (en) | Method and system for creating and updating an entity name alias table | |
Bozkurt et al. | Bounds on the distance energy and the distance Estrada index of strongly quotient graphs | |
CN110362688A (zh) | 试题标注方法、装置、设备及计算机可读存储介质 | |
US20210377240A1 (en) | System and methods for tokenized hierarchical secured asset distribution | |
US20140344548A1 (en) | Stored Data Analysis | |
US10169316B2 (en) | Method and system to convert document source data to XML via annotation | |
Fu et al. | Remarks on pressure blow-up criterion of the 3D zero-diffusion Boussinesq equations in margin Besov spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |