CN101702944A - 用于识别自然语言文件中的整体-部分关系的语义处理器 - Google Patents
用于识别自然语言文件中的整体-部分关系的语义处理器 Download PDFInfo
- Publication number
- CN101702944A CN101702944A CN200880014918A CN200880014918A CN101702944A CN 101702944 A CN101702944 A CN 101702944A CN 200880014918 A CN200880014918 A CN 200880014918A CN 200880014918 A CN200880014918 A CN 200880014918A CN 101702944 A CN101702944 A CN 101702944A
- Authority
- CN
- China
- Prior art keywords
- esao
- whole
- text
- relations
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
一种用于自动识别至少一个自然语言的电子或数字文件中的整体-部分关系的语义处理器和方法执行以下操作:识别文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
Description
技术领域
本申请涉及用于从电子或数字形式的文件中进行自动知识识别和提取的系统和方法,所识别和提取的知识反映出宾语/概念之间和外部世界事实/主语域之间的整体-部分(Whole-Part)语义关系。
背景技术
下列美国专利文件对本申请所涉及的领域进行了描述:1995年5月向Ito颁发的美国专利No.5,418,889(下文中用Ito表示);1997年12月向Hitachi颁发的美国专利No.5,696,916(下文中用Hitachi表示);2000年2月向Liddy等颁发的美国专利No.6,026,388(下文中用Liddy表示);2001年2月向Boguraev等颁发的美国专利No.6,185,592(下文中用Boguraev 1表示);2001年4月向Boguraev颁发的美国专利No.6,212,494(下文中用Boguraev 2表示);2001年7月向Paik等颁发的美国专利No.6,263,335(下文中用Paik表示);2004年6月向Kim等颁发的美国专利No.6,754,654(下文中用Kim表示);2004年11月向Davies等颁发的美国专利No.6,823,325(下文中用Davies表示);以及2005年3月向Binnig等颁发的美国专利No.6,871,199(下文中用Binnig表示)。
知识库和知识工程是现代信息系统和相应技术的关键组成部分。知识工程通常基于从不同知识领域中的专家获得的信息的归纳。然而,分析表明,该方法无法用来创建足够的实际生活(工业)应用。存在两个问题:第一,这种知识的最可靠且最有效的来源是什么;以及第二,如何对这些知识进行识别、提取并随后进行形式化(formalize)。分析表明,在如今这个全球计算机化的时代,最可靠的知识来源是广义文字的文本,也就是作为一组自然语言文件(书籍、文章、专利、报告等)的文本。因此,考虑到第二个问题,知识工程的基本前提如下:
1.文本是知识表示的理想的自然和智能模型;
2.可以在文本中找到一切
第二个前提可能看起来过于绝对,但随着对文本范围进行扩大的趋势,这越来越符合实际。
从文本中能够获得什么类型的知识?通过什么自动方法来实现?一些现有的方法将目标放在具有严格的结构且是人工编译的数据库和具有严格定义的字段的文本上。通常会对文本进行浅显的语言分析。Kim对处理具有严格结构的文本(主要是电子邮件)进行了描述。Kim的处理从源文件的预先已知的字段中提取相应的信息并将这些信息置于反映组织结构的数据库(DB)(例如,具有组织内的个人的名字和头衔的字段的DB)的预先定义的字段中。Kim中描述的语言处理只用于根据所谓的过滤器从文件中提取关键项。
Davies描述了对文本进行词法和语法分析,以便区分名词与动词,并以这种方式根据“how”、“why”、“what”和“what is”的关系在预先定义和构造的数据库中进行非常明确的搜索。
Binnig还描述了分形层次网络形式的预先构造的数据库(即,知识数据库)的使用,其反映了外部世界(知识领域)的知识,以便自动扩展来自输入串的信息。首先,使用语义处理器对输入串(例如,语句的部分或整个语句等等)进行处理,该语义处理器执行句法和语法的解析和变换,以构建输入网络。该网络随后被“浸入”到知识数据库中,以通过关于宾语及其关系和定语的外部世界的模型,对作为某种记录的输入信息和输入信息随后的扩展进行扩展。
Boguraev 1描述了深入的文本分析的执行,其中,对于文本段,基于它们的使用频率以加权语义角色对最重要的名词组进行标记。
所有上述情况都关注于概念相关的特定知识。这是可以从文本中提取的入门级知识。
Boguraev 2描述了以计算机为媒介的语言分析的使用,其用于创建技术领域中的关键术语的分类,并且还确定技术功能(动词-宾语)的实行者(处理者)。
Hitachi描述了使用预先定义的概念字典的系统,该概念字典具有高-低关系,也就是概念之间的泛化(is-a)关系和部分-整体关系。
Liddy将类似的技术用于信息搜索系统中的用户询问扩展。
Ito描述了包括因果模型库和设备模型(device model)库的知识库的使用。设备模型库具有多组设备知识,这些设备知识描述目标机器的设备的分层。因果模型库是在设备模型库的基础上形成的,且具有多组目标机器中的故障事件的因果关系。因此,设备的每个部件中发生故障的可能原因是根据关于该部件与设备中的其它部件的结构连接的信息来猜测的。通常,最紧密“连接”的部件被确定为所述原因。
Paik描述了不依赖于域(domain-independent)且自动建立其自己的主语知识库的系统。该系统识别概念(任何命名的实体或想法,比如人、地点、事物或组织)以及它们之间的关系。这些关系允许创建“概念-关系-概念”三元组。因此,Paik中识别的知识接近于下一重要的知识等级——事实(主语-动作-宾语),尽管它们还不是适于识别像整体-部分关系这样的重要语义关系的事实。
事实上,以上方法都没有教导或提出对电子文件或数字信息中的文本进行处理,以确定宾语/概念之间和外部世界事实/主语域之间的整体-部分语义关系。
发明内容
根据本发明的方案,提供了一种用于自动识别自然语言文件中的整体-部分关系的方法。所述方法包括:提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
所述一个或更多eSAO成分可以是来自于包括下列元素的组的一个或更多元素:主语、宾语、动作、形容词、介词、间接宾语和副词。
所述整体eSAO可以包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且所述部分eSAO可以包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。
所述eSAO整体-部分关系可以包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。
所述方法还可以包括:对所述文本的至少部分应用词性标签,以生成所述文本的标签部分;以及对所述文本的标签部分进行解析,以生成所述文本的解析标签部分,其中,识别所述文本中的eSAO集是对所述文本的解析标签部分执行。
应用词性标签可以是对所述文本的预格式化部分执行,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。
将所述一个或更多eSAO集与整体-部分关系模式进行匹配可以包括对单个eSAO集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括生成单个eSAO整体-部分关系。
将所述一个或更多eSAO集与整体-部分关系模式进行匹配可以包括对一对eSAO集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。
将所述一个或更多eSAO集与整体-部分关系模式进行匹配可以包括访问整体-部分模式数据库,所述整体-部分模式数据库是通过包括以下步骤的方法生成:识别文本文件的语料库中的eSAO集;生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;识别所述语句中的整体-部分关系的特定情况;将整体-部分关系的所述特定情况归纳成eSAO整体-部分模式;以及将所述eSAO整体-部分模式存储在所述整体-部分模式数据库中。
识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集可以包括访问语言知识库,所述语言知识库具有识别语言模型形式的数据库,其对eSAO成分的定义进行定义。
识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集可以包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。
根据本发明的另一方案,提供了一种用于通过自动识别自然语言文件中的整体-部分关系来生成整体-部分知识库的方法。所述方法包括:提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO;以及将所述一个或更多eSAO整体-部分关系存储在所述整体-部分知识库中。
根据本发明的另一方案,提供了一种包括具有计算机可执行指令的计算机可读介质的计算机程序产品,用于执行识别自然语言文件中的整体-部分关系的方法。所述方法包括:提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
所述方法还可以包括将所述一个或更多eSAO整体-部分关系存储在整体-部分知识库中。
根据本发明的另一方案,提供了一种用于自动识别电子或数字形式文本中的整体-部分关系的语义处理器,所述语义处理器包括语言知识库和语义分析器。所述语义分析器包括:扩展主语-动作-宾语(eSAO)识别器,用于产生基于所述文本的一个或更多eSAO集,其中,所述eSAO集是基于存储在识别语言模型形式的所述语言知识库中的eSAO定义;以及整体-部分识别器,被配置为将所述一个或更多eSAO集与存储在所述语言知识库中的已知整体-部分关系模式进行匹配,并基于所述匹配来产生一个或更多eSAO整体-部分关系。
所述语义处理器可以包括包含所述语义分析器的语言分析器。所述语言分析器还可以包括:词性标签器,被配置为对所述文本的至少部分应用词性标签;以及解析器,被配置为对由所述词性标签器应用标签的文本进行解析,并将所解析且应用标签的文本提供给所述扩展主语-动作-宾语(eSAO)识别器。
所述语义处理器还可以包括:预格式化器,被配置为接收所述电子或数字形式的文本,并基于存储在所述语言知识库中的数据来产生预格式化文本,以输入到所述词性标签器;以及知识库生成器,被配置为从所述语言分析器生成的一个或更多eSAO整体-部分关系产生整体-部分知识库。
所述预格式化器可以被配置为执行以下功能中的至少一个:移除所述文本的数字或电子表示中不形成自然语言文本的一部分的符号;检测并纠正所述文本中的误匹配或错误;以及将所述文本分割成语句和单词结构。
所述语义处理器还可以包括整体-部分关系生成器,被配置为生成并存储所述已知整体-部分关系模式。所述整体-部分关系生成器可以包括:语料库语言分析器,被配置为识别文本文件的语料库中的eSAO集;语料库eSAO生成器,被配置为生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;关系识别器,被配置为识别所述语句中的整体-部分关系的特定情况;模式生成器,被配置为将整体-部分关系的所述特定情况归纳成eSAO整体-部分模式;以及模式测试器,被配置为将所述eSAO整体-部分模式存储在整体-部分模式数据库中。
所述一个或更多eSAO整体-部分关系的每个都可以包括整体eSAO、部分eSAO以及至少一个将所述整体eSAO关联到所述部分eSAO的顺序运算符。
基于所述文本的每个eSAO集可以包括eSAO成分,所述整体eSAO可以包括所述eSAO成分的一个或更多,并且所述部分eSAO可以包括一个或更多不同于所述整体eSAO的一个或更多eSAO成分的eSAO成分。
所述eSAO成分可以包括来自于包含以下元素的组的一个或更多元素:主语、宾语、动作、形容词、介词、间接宾语和副词。
所述整体-部分识别器还可以被配置为将单个eSAO集与已知整体-部分关系模式进行匹配,以生成单个eSAO整体-部分关系。
所述整体-部分识别器还可以被配置为将一对eSAO集与已知整体-部分关系模式进行匹配,以生成单个eSAO整体-部分关系。
附图说明
附图通过实例而非限制的方式描绘了优选实施例。在附图中,相同的标号指代相同或相似的部件。
图1是根据本发明的方案的语义处理器的结构与功能方案的实施例。
图2是根据本发明的方案的语言分析器的结构与功能方案的实施例。
图3是根据本发明的方案的语义分析器的结构与功能方案的实施例。
图4是根据本发明的方案的建立整体-部分模式的数据库的原理方案的实施例。
具体实施方式
将理解,尽管术语第一、第二等可以在本文中用来描述各种部件,但这些部件并不受这些术语的限制。这些术语用来在部件间进行区分,并不意味着部件需要有顺序。例如,在不偏离本发明的范围的情况下,第一部件可以被称为第二部件,类似的,第二部件可以被称为第一部件。如本文所使用的,术语“和/或”包括一个或更多相关列出项的任何以及全部组合。
将理解,当提及一部件“在另一部件上”或“连接到”或“耦合到”另一部件时,该部件可以是直接在该另一部件上或者连接或耦合到该另一部件,或者是可以存在中间部件。相反,当提及一部件“直接在另一部件上”或“直接连接到”或“直接耦合到”另一部件时,不存在中间部件。其它用来描述部件之间的关系的词语应该以类似方式进行解释(例如,“在...之间”相对于“直接在...之间”、“相邻”相对于“直接相邻”等)。
本文所使用的术语仅用来描述特定实施例,而不是为了限制本发明。如本文所使用的,除非上下文明确指出,否则单数形式“一个(a,an)”和“这个”也包括复数形式。还将理解,当在本文中使用时,术语“包括(comprise、comprising、includes和/或including)”指定存在所阐述的特征、步骤、操作、部件和/或组件,但并不排除存在或附加一个或更多其他特征、步骤、操作、部件、组件和/或其组合。
在各种实施例中,提供了一种用来从电子或数字形式的文件中自动识别并提取非常重要的知识的系统和方法,所识别和提取的知识反映宾语/概念之间和事实之间的“整体-部分”语义关系。例如,宾语/概念之间的整体-部分语义关系示出特定技术设备包括什么组件。而事实之间的整体-部分语义关系例如示出特定技术过程包括的操作以及这些操作的顺序。
根据本公开的方案,与仅检测SAO之间的语义关系的现有方法不同,扩展SAO(eSAO)被使用。在优选实施例中,eSAO包括7种成分,其中,至少一种eSAO成分被定义。附加成分提供更深入和更高质量的分析。在其它实施例中,eSAO可以被扩展以包括附加成分。在本文中,术语“eSAO”和“eSAO集”可交换使用,这两种术语指是指多个eSAO成分的集合。
在优选实施例中,eSAO成分包括:
1.主语(S),对宾语(O)执行动作(A);
2.动作(A),由主语(S)对宾语(O)执行;
3.宾语(O),主语(S)在其上执行动作(A);
4.形容词(Adj),修饰主语(S)或动作(A),动作(A)在eSAO中跟在主语之后,且没有宾语(O)(例如“The invention is efficient.”或“Thewater becomes hot.”);
5.介词(Prep),支配间接宾语(IO)(例如“The lamp is placed on the table.”或“The device reduces friction by ultrasound.”);
6.间接宾语(IO),通常表现为名词短语,其与介词一起修饰动作(A),以作为状语(例如“The lamp is placed on the table.”或“The device reducesfriction by ultrasound.”);以及
7.副词(Adv),通常修饰执行动作(A)的条件(例如“The process isslowly modified.”或“The driver must not turn wheel in such a manner.”)。
eSAO格式的应用实例在下面的表1和表2中示出:
表1
表2
事实之间(即eSAO之间)的语义关系的一种类型是因果关系,如在标题为“Computer Based Summarization of Natural Language Documents.”的美国专利申请公开No.20030130837中所讨论。在该公开中还描述了因果关系的识别。例如,输入语句“Today the user can download 10,000 papers from theweb by typing the word‘screen’.”将得出如表3中所示的eSAO之间的因果关系。
表3
语义处理被用于建立来自自然语言文件中的eSAO的知识内存在的整体-部分关系。假定宾语是事实(完整或不完整)的组成部分,则eSAO格式在这里被认为是文件内容的正式知识表示的格式。
在说明性实施例中,用于识别电子或数字形式的文本中的整体-部分关系的语义处理包括:对该文本进行预格式化;执行语言分析;以及生成整体-部分知识库。
根据本发明的方案的整体-部分语义处理器(下文中用语义处理器(SP)表示)的实施例可以参照图1来理解。语义处理器100对原始文本10进行处理以生成整体-部分知识库50。在该实施例中,语义处理器100包括预格式化器20(用于对原始文本进行预格式化)、语言分析器30(用于执行语言分析)以及知识库生成器40(用于生成整体-部分知识库50)。语义处理器100的所有模块的功能可以在语言知识库60中进行维护,该语言知识库60包括各种数据库(比如字典、分类器、统计数据等)和用于识别语言模型(用于文本到单词的分离,名词和动词短语、主语、宾语、动作及其定语的识别,因果关系识别等)的数据库。语言分析器30和知识库生成器40在下文中另外详细描述。由预格式化器20执行的文本预格式化优选地根据美国专利申请公开No.20030130837中描述的技术来执行。优选地,对文本进行预格式化包括从文本中移除非自然语言符号,例如标点。
图2说明了包括语言分析器30的模块的实施例。语言分析器30对来自预格式化器20的预格式化文本进行处理,以产生语义分析文本16。预格式化文本12由词性标签器32(用于确定词性标签并将其应用于预格式化文本12)来接收。解析器34随后对应用了POS标签的文本进行解析,以供语义分析器300进行处理。由所述POS标签器和解析器34执行的功能优选地根据美国专利申请公开No.20030130837中描述的技术来执行。
图3说明了包括语义分析器300的模块的实施例。语义分析器300接收解析文本14,并产生语义分析文本16。语义分析器300具有执行eSAO识别的eSAO识别器310。ESAO识别优选地根据美国专利申请公开No.20020010574和美国专利申请公开No.20020116176中描述的技术来执行。对所有eSAO元素的识别是通过相应的识别语言模型来实现的,所述识别语言模型是知识库100的部分。这些模型描述了使用词性标签、词法和句法分类的规则,所述规则随后被用于从解析文本提取具有限定动作、非限定动作、动名词的eSAO。动作提取规则的一个实例为:
<HVZ><BEN><VBN>=>(<A>=<VBN>)
该规则意思是“如果输入语句包含在应用词性标签步骤中分别获得HVZ、BEN、VBN标签的单词w1、w2、w3的序列,则该序列中具有VBN标签的单词是动作”。例如,has HVZ been BENproduced_VBN=>(A=produce)。此外,在提取主语和宾语的规则中还要考虑动作的语态(主动或被动语态)。
整体-部分(W-P)识别器320执行eSAO内和/或eSAO之间的整体-部分关系的识别,然后产生语义分析文本16。在下文中根据本发明的方案对该过程的实施例进行更详细的描述。
整体-部分识别器320使用算法来检测单个eSAO中以及不同eSAO之间的文本语句内的整体-部分关系。这些算法可被归类为生成语言模型或模式。首先,这些模式描述使用环境,即,语句中存在整体-部分关系的指示符,然后,描述这样的信息,所述信息关于单个eSAO中的哪些成分充当所述关系中的整体元素以及单个eSAO或eSAO集中的哪些成分充当所述关系中的部分元素。整体-部分指示符是指单独的eSAO成分并描述语言单元、它们的词法和语法标签、语义类别等。
整体-部分识别器320优选地对所有eSAO,以及与公共列表中的一种模式相符的eSAO集进行分析。如果eSAO或eSAO集与一模式相符,则整体-部分识别器320根据该模式对整体-部分关系的存在进行登记,并对eSAO或eSAO集中的那些成分是整体类型的语义单元以及那些成分是部分类型的语义单元进行标记。以这种方式标记的eSAO和eSAO集随后被指引到知识库生成器40(参见图1),该知识库生成器40形成宾语/概念列表和事实列表,并将这些列表存储在整体-部分知识库50中,所述宾语/概念之间以及所述事实之间具有整体-部分关系。
下面是根据该实施例的用于识别文本中的整体-部分关系的优选模式。然而,根据其它实施例也可以使用其它模式。
部分I.用于识别单个eSAO中的整体-部分关系的模式
模式1:“主语/宾语+动作”类型
如果在文本中识别出eSAO且该eSAO具有至少三个非空字段用于主语、动作和宾语,则该模式形成。在该实施例中,对于这种模式存在两种可能情况。在第一种情况中,主语具有“PART-OF(……的部分)”意义,宾语非空,并且联系主语和宾语的动作具有系动词的意义。在第二种情况中,动作具有相同意义,主语非空,并且宾语具有“PART-OF”意义。在任何一种情况中,eSAO成分(主语或宾语)的具有“PART-OF”意义的特定部分被识别为输出关系的整体成分,所指示的一对成分中的另一成分被识别为部分成分。
在这种模式中,“PART-OF”主语/宾语的意思是一非终结符之后为单词“of”,再之后为任意单词或短语,所述非终结符表示任何其中没有单词“of”的单词或短语,并且以与如下列表中的至少一个单词匹配的单词或短语结束:“part|component|constituent|element|unit|construct|ingredient|interior|inside”。所述主语/宾语的跟在单词“of”后面的部分被识别为输出关系的“整体”部分。在优选实施例中,“系动词”的意义至少与单词或短语“be|present|represent”相匹配。表4示出了第一情况下模式1的一般形式。
主语 | PART-OF | 整体 |
动作 | 系动词 | |
宾语 | 非空 | 部分 |
介词 | - | |
间接宾语 | - | |
形容词 | - | |
副词 | - |
表4
例如,考虑输入语句为“The principal part of the car is the driver’s wheel.”表5示出了从该语句提取的eSAO:
主语 | principal part of the car |
动作 | be |
宾语 | driver’s wheel |
介词 | - |
间接宾语 | - |
形容词 | - |
副词 | - |
表5
因为该eSAO满足模式1的条件,所以获得以下整体-部分关系:
整体=car
部分=driver’s wheel
表6示出了第二种情况下模式1的一般形式。
主语 | 非空 | 部分 |
动作 | 系动词 | |
宾语 | PART-OF | 整体 |
介词 | - | |
间接宾语 | - | |
形容词 | - | |
副词 | - |
表6
例如,输入语句“The driver’s wheel represents the principal part ofthe car”将产生表7中示出的eSAO:
主语 | driver’s wheel |
动作 | represent |
宾语 | principal part of the car |
介词 | - |
间接宾语 | - |
形容词 | - |
副词 | - |
表7
根据优选实施例,从该输入语句得到的整体-部分关系为:
整体=car
部分=driver’s wheel
模式2:“动作”类型
如果动作字段具有“COMPRISE(包括)”意义或用动词“have”或“include”来表示,则模式2形成。在这种模式中,“COMPRISE”动作意思是至少表示下列单词或短语的非终结符:“comprise|contain|incorporate|consist of”。表8示出了模式2的一般形式。
主语 | 非空 | 整体 |
动作 | COMPRISE|have|include | |
宾语 | 非空 | 部分 |
介词 | - | |
间接宾语 | - | |
形容词 | - | |
副词 | - |
表8
在用动词“have”表示动作的情况中,该动作在原句中必须是用“having”形式来表示。用动词“include”来表示以及在原句中用“including”形式来表示的动作所涉及的eSAO必须具有单数主语。
例如,输入语句“The internal combustion engine 15b contains the camshaft17a”,“The internal combustion engine 15b having the camshaft 17a”,“Theinternal combustion engine 15b includes the camshaft 17a”,“The internalcombustion engine 15b including the camshaft 17a”的每一个都将产生表9中示出的相应eSAO。
主语 | internal combustion engine 15b |
动作 | contain|have|include|include |
宾语 | camshaft 17a |
介词 | - |
间接宾语 | - |
形容词 | - |
主语 | internal combustion engine 15b |
副词 | - |
表9
因为所有这些eSAO都满足模式2的条件,所以获得下列整体-部分关系:
整体=internal combustion engine 15b
部分=camshaft 17a
模式3:“动作+介词”类型
这种模式存在两种类型。在第一种情况中,如果动作字段具有“EQUIP(装备)”意义且介词字段具有“WITH(具有)”意义,则该模式形成。在这种情况中,“EQUIP”动作意思是至少表示单词或短语“equip|provide|supply|instrument”的非终结符。“WITH”介词意思是至少表示单词“with”的非终结符。表10示出了这种情况下模式3的一般形式。
主语 | - | |
动作 | EQUIP | |
宾语 | 非空 | 整体 |
介词 | WITH | |
间接宾语 | 非空 | 部分 |
形容词 | - | |
副词 | - |
表10
例如,输入语句“The car is equipped with the engine”将产生表11中示出的eSAO:
主语 | - |
动作 | equip |
宾语 | car |
介词 | with |
主语 | - |
间接宾语 | engine |
形容词 | - |
副词 | - |
表11
根据优选实施例,从该输入语句产生的整体-部分关系为:
整体=car
部分=engine
在第二种情况中,如果动作字段具有“POSITION(位于)”意义并在原句中用动词的被动形式来表示,并且介词字段具有“INSIDE(内)”意义,则模式3形成。在这种模式中,“POSITION”动作意思是至少匹配单词或短语“equip|provide|supply|instrument”的非终结符。“INSIDE”介词意思是至少匹配单词或短语“inside|within”的非终结符。表12示出了这种情况下模式3的一般形式。
主语 | - | |
动作 | POSITION | |
宾语 | 非空 | 部分 |
介词 | INSIDE | |
间接宾语 | 非空 | 整体 |
形容词 | ||
副词 |
表12
例如,输入语句“The engine is located inside the car”将产生表13中示出的eSAO:
主语 | - |
动作 | locate |
宾语 | engine |
主语 | - |
介词 | inside |
间接宾语 | car |
形容词 | - |
副词 | - |
表13
根据优选实施例,从该输入语句产生的整体-部分关系为:
整体=car
部分=engine
模式4:“名词短语”类型
如果表示eSAO的主语成分或宾语成分的名词短语包含下列结构,则模式4形成:
NG1-CONTAINING|RICH NG2
在这种模式中,NG1和NG2是表示名词组的非终结符;“CONTAINING”是至少匹配单词或短语“containing|comprising|incorporating”的非终结符;“RICH”是至少表示单词“rich|based|laden|enriched|reduced|fortified”的非终结符。在这种情况中,NG2被识别为整体-部分关系的整体成分,而NG1被识别为部分成分。
例如,输入语句(该实例仅包含模式说明所需的语句部分)“Gold-containing card is...”和“Oxygen-rich water is...”满足模式4的条件,并相应的得到下列整体-部分关系:
整体=cord 整体=water
部分=gold 部分=oxygen
部分II.用于从eSAO集识别整体-部分关系的模式
模式5:“动名词短语”类型
模式5旨在提取多个eSAO之间的整体-部分关系,其中,一个eSAO表示所述关系的整体成分,而其它eSAO表示部分成分。如果具有在原句中用动名词(VBG)短语表示的动作字段的eSAO后面跟有动作字段具有“COMPRISE(包括)”意义的eSAO,并且再后面跟有一个或更多用动名词短语表示并用“;”或“,”或其它标点或连词分离的eSAO,则模式5形成。第一个eSAO被标记为整体eSAO,而从第三个eSAO开始的其它eSAO被标记为部分eSAO。在以上提到的至少三个eSAO之间,如果需要的话,可以存在其它所谓的定语eSAO的eSAO,它们可以被标记为eSAO-定语。在这种模式中,“COMPRISE”动作意思是至少匹配单词或短语“comprise|include|contain|incorporate|consist of”的非终结符。表14示出了模式5的一般形式,其中不包括定语eSAO。
eSAO-1 | eSAO-2 | {eSAO-i},i≥3 | |
主语 | - | - | - |
动作 | VBG(-ing形式) | COMPRISE | VBG(-ing形式) |
宾语 | - | - | - |
介词 | - | - | - |
间接宾语 | - | - | - |
形容词 | - | - | - |
副词 | - | - | - |
表14
例如,从输入语句“Creating a data flow includes the following steps:adding one or more sources to extract data from files and databases;adding thetransformations that meet the business requirements”中提取的eSAO集在表15中示出。
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | eSAO-5 | eSAO-6 | |
主语 | ||||||
动作 | create | include | add | extract | add | meet |
宾语 | data flow | followingsteps | One or moresources | data | transformation | businessrequirements |
介词 | - | - | - | from | - | - |
间接宾语 | - | - | - | files anddatabases | - | - |
形容词 | - | - | - | - | - | - |
副词 | - | - | - | - | - | - |
表15
由于所有这些eSAO都满足模式5的条件,所以获得下列整体-部分关系:
整体=eSAO-1
部分={eSAO-3/定语eSAO-4,eSAO-5/定语eSAO-6}
模式6:“IF从句”类型
如果具有在原句中用通过连词(至少为“if|when”)引出的条件从句(IF从句)表达的动作字段的eSAO后面跟有具有“PERFORM(执行)”意义的动作字段的eSAO,并且再后面跟有一个或更多用“;”或“,”或其它标点或连词分离的eSAO,则模式6形成。第一个eSAO被标记为整体eSAO,而从第三个eSAO开始的其它eSAO被标记为部分eSAO。在这种模式中,“PERFORM”动作意思是至少匹配单词或短语“follow|complete|do|perform|take”的非终结符。表16示出了模式6的一般形式。
eSAO-1 | eSAO-2 | {eSAO-i},i≥3 | |
主语 | - | - | - |
动作 | IF从句 | PERFORM | 非空 |
宾语 | - | - | - |
介词 | - | - | - |
间接宾语 | - | - | - |
形容词 | - | - | - |
副词 | - | - | - |
表16
例如,从输入语句“When initially creating an extension,take the followingsteps:coordinate the use of extension with the vendor;write an extensionspecification”提取的eSAO集在表17中示出。
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | |
主语 | - | - | - | - |
动作 | create | take | coordinate | write |
宾语 | extension | followingsteps | use of extension | extension specification |
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | |
介词 | - | - | with | - |
间接宾语 | - | - | vendor | - |
形容词 | - | - | - | - |
副词 | initially | - | - | - |
表17
由于所有这些eSAO都满足模式6的条件,所以获得下列整体-部分关系:
整体=eSAO-1
部分={eSAO-3,eSAO-4}
模式7:“不定式短语”类型
如果具有在原句中用通过小品词“to”或至少短语“in order to”引出的不定式短语表达的动作字段的eSAO后面跟有其中动作字段具有“PERFORM”意义的eSAO,并且再后面跟有一个或更多用“;”或“,”或其它标点或连词分离的eSAO,则模式7形成。第一个eSAO被标记为整体eSAO,而从第三个eSAO开始的其它eSAO被标记为部分eSAO。在这种模式中,“PERFORM”动作意思是至少匹配单词或短语“follow|complete|do|perform|take”的非终结符。表18示出了模式7的一般形式。
eSAO-1 | eSAO-2 | {eSAO-i},i≥3 | |
主语 | - | - | - |
动作 | 不定式短语(TO VB) | PERFORM | 非空 |
宾语 | - | - | - |
介词 | - | - | - |
间接宾语 | - | - | - |
形容词 | - | - | - |
副词 | - | - | - |
表18
例如,从输入语句“To change your margins in Microsoft Internet Explorerfollow these steps:Click on the File menu;Select Page Setup”提取的eSAO集在表19中示出。
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | |
主语 | - | - | - | - |
动作 | change | follow | click | select |
宾语 | your margins | steps | - | Page Setup |
介词 | - | - | on | - |
间接宾语 | - | - | File menu | - |
形容词 | in | - | - | - |
副词 | Microsoft Internet Explorer | - | - | - |
表19
由于所有这些eSAO都满足模式7的条件,所以获得下列整体-部分关系:
整体=eSAO-1
部分={eSAO-3,eSAO-4}
图4示出了可以用来生成能够用在本文公开的实施例中的关系模型的模块。如图4中所示,足够大的文本文件的语料库170被优选地用来建立和形成模型或模式。语料库语言分析器180对语料库170执行语言分析以识别eSAO。语料库eSAO生成器190生成包含至少一个eSAO(完整或不完整)的语句的语料库。关系识别器200对包含至少一个eSAO的语句中的整体-部分关系的一些特定情况进行识别处理。模式生成器210将特定情况归纳成更一般的模式。模式测试器220检查整体-部分关系的存在并将批准的模式放置到用于整体-部分关系识别的数据库230中。
优选地,关系识别器200的功能由专家手动实行。例如,专家对来自eSAO文本语料库的语句“The engine is located inside the car”进行分析,其中,语言分析器执行词性标签应用、解析和语义分析并识别eSAO(参见表13),并且专家设置指示该eSAO的宾语和间接宾语形成整体-部分关系的特殊标签,其中,间接宾语是所述关系的整体成分,宾语是部分成分。这种角色分配可以是基于介词“inside”的意义。随后该语句进入到模式生成器210。
模式生成器210对整体-部分关系进行分析并将其归纳到模式的级别。模式生成器的功能同样优选地由专家手动实行。以这种方式,专家既考虑了他或她自己的经验和知识,又考虑了包含在语言知识库中的知识。回到前面的实例,专家应该得出结论:介词“within”具有与介词“inside”相似的意思,并且至少动词“situate|contain|position|dispose|fix|install|mount|house”具有与动词“locate”相似的意思。因此,专家以表12中表示的方式登记模式的原型。
模式测试器220使用原型模式来在eSAO文本语料库中寻找整体-部分关系的实例。专家对所获得的实例进行分析并批准模式(可以有一些纠正)。模式测试器220随后将该批准的模式放入用于整体-部分识别的模式数据库230中。
如上所述,语义分析器180和模式生成器210都可以访问语言知识库,以执行它们的功能。此外,在一些实施例中,模式数据库230可以被合并到语言知识库60中以支持上面参照图1-3所描述的整体-部分语义处理。
根据本发明的方案的实施例可以由驻留在一个或更多计算机、微处理器、微控制器或其它处理设备上的计算机可执行指令来提供。用于执行系统和方法的计算机可执行指令可以驻留在处理设备中的存储器内,或者可以通过软盘、硬盘、致密盘(CD)、数字通用盘(DVD)、只读存储器(ROM)或任何其它存储介质来提供给处理设备。
前面对示例性的优选实施例的详细描述只是为了说明的目的而阐述。并不意图穷举或将本发明限制为所描述的精确形式,而仅仅是想要使本领域技术人员能够理解本发明可以如何用于特定使用或实现。理解了本文的公开内容后,可以进行的修改和变化对于本领域技术人员将是显而易见的。对示例性实施例的描述并不意图是限制性的,其可以包括容限、特征大小、特定工作条件、工程规范等,并且其可以在实现之间变化,或者随着现有技术的状态变化而变化,并且这些示例性实施例的描述不应该暗含限制。
已经参照现有技术的当前状态给出了本公开,而且本公开设想了改进,并且设想了在将来的修改可以考虑这些改进,即根据现有技术的到那时的当前状态。本发明的范围意在由所写出的权利要求和可适用的等价物所限定。而且,本公开中的任何要素、组件、方法或过程步骤都不是意在可为公众所用,不管在权利要求中是否明确记载了该要素、组件或步骤。除非要素使用“用于……的模块”的短语来明确记载,否则,本文中的权利要求要素都不得按照美国法典第35条第112款第六段来进行解释,并且,除非步骤或多个步骤使用“用于……的步骤”的短语来明确记载,否则,本文中的方法或过程步骤都不得按照美国法典第35条第112款第六段来进行解释。
Claims (24)
1.一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括:
提供来自至少一个自然语言文件的文本;
识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;
将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及
基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
2.根据权利要求1所述的方法,其中,所述一个或更多eSAO成分是来自于包括下列元素的组的一个或更多元素:主语、宾语、动作、形容词、介词、间接宾语和副词。
3.根据权利要求1所述的方法,其中:
所述整体eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且
所述部分eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。
4.根据权利要求2所述的方法,其中,所述eSAO整体-部分关系包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。
5.根据权利要求1所述的方法,还包括:
对所述文本的至少部分应用词性标签,以生成所述文本的应用标签的部分;以及
对所述文本的所应用标签的部分进行解析,以生成所述文本的解析且应用标签的部分,其中,识别所述文本中的eSAO集是对所述文本的所解析且应用标签的部分执行的。
6.根据权利要求5所述的方法,其中,应用词性标签是对所述文本的预格式化部分执行的,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。
7.根据权利要求1所述的方法,其中:
将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括对单个eSAO集进行匹配;并且
基于所述匹配来生成一个或更多eSAO整体-部分关系包括生成单个eSAO整体-部分关系。
8.根据权利要求1所述的方法,其中:
将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括对一对eSAO集进行匹配;并且
基于所述匹配来生成一个或更多eSAO整体-部分关系包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。
9.根据权利要求1所述的方法,其中,将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括访问整体-部分模式数据库,所述整体-部分模式数据库是通过包括以下步骤的方法生成的:
识别文本文件的语料库中的eSAO集;
生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;
识别所述语句中的整体-部分关系的特定情况;
将整体-部分关系的所述特定情况归纳成eSAO整体-部分模式;以及
将所述eSAO整体-部分模式存储在所述整体-部分模式数据库中。
10.根据权利要求1所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集包括访问语言知识库,所述语言知识库具有对eSAO成分进行定义的数据库。
11.根据权利要求1所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。
12.一种用于通过自动识别自然语言文件中的整体-部分关系来生成整体-部分知识库的方法,所述方法包括:
提供来自至少一个自然语言文件的文本;
识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;
将所述一个或更多eSAO集与整体-部分关系模式进行匹配;
基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO;以及
将所述一个或更多eSAO整体-部分关系存储在所述整体-部分知识库中。
13.一种包括具有计算机可执行指令的计算机可读介质的计算机程序产品,用于执行识别自然语言文件中的整体-部分关系的方法,所述方法包括:
提供来自至少一个自然语言文件的文本;
识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;
将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及
基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
14.根据权利要求13所述的计算机程序产品,其中,所述方法还包括将所述一个或更多eSAO整体-部分关系存储在整体-部分知识库中。
15.一种用于自动识别电子或数字形式的文本中的整体-部分关系的语义处理器,所述语义处理器包括:
语言知识库;以及
语义分析器,包括:
扩展主语-动作-宾语(eSAO)识别器,用于产生基于所述文本的一个或更多eSAO集,其中,所述eSAO集是基于存储在所述语言知识库中的eSAO定义;以及
整体-部分识别器,被配置为将所述一个或更多eSAO集与存储在所述语言知识库中的已知整体-部分关系模式进行匹配,并基于所述匹配来产生一个或更多eSAO整体-部分关系。
16.根据权利要求15所述的语义处理器,其中,所述语义处理器包括包含所述语义分析器的语言分析器,所述语言分析器还包括:
词性标签器,被配置为对所述文本的至少部分应用词性标签;以及
解析器,被配置为对由所述词性标签器应用标签的文本进行解析,并将所解析且应用标签的文本提供给所述扩展主语-动作-宾语(eSAO)识别器。
17.根据权利要求16所述的语义处理器,还包括:
预格式化器,被配置为接收所述电子或数字形式的文本,并基于存储在所述语言知识库中的数据来产生预格式化文本,以输入到所述词性标签器;以及
知识库生成器,被配置为根据所述语言分析器生成的一个或更多eSAO整体-部分关系产生整体-部分知识库。
18.根据权利要求17所述的语义处理器,其中,所述预格式化器被配置为执行以下功能中的至少一个:
移除所述文本的数字或电子表示中不形成自然语言文本的一部分的符号;
检测并纠正所述文本中的误匹配或错误;以及
将所述文本分割成语句和单词结构。
19.根据权利要求15所述的语义处理器,还包括整体-部分关系生成器,被配置为生成并存储所述已知整体-部分关系模式,所述整体-部分关系生成器包括:
语料库语言分析器,被配置为识别文本文件的语料库中的eSAO集;
语料库eSAO生成器,被配置为生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;
关系识别器,被配置为识别所述语句中的整体-部分关系的特定情况;
模式生成器,被配置为将整体-部分关系的所述特定情况归纳成eSAO整体-部分模式;以及
模式测试器,被配置为将所述eSAO整体-部分模式存储在整体-部分模式数据库中。
20.根据权利要求15所述的语义处理器,其中,所述一个或更多eSAO整体-部分关系中的每一个都包括整体eSAO、部分eSAO以及至少一个将所述整体eSAO关联到所述部分eSAO的顺序运算符。
21.根据权利要求20所述的语义处理器,其中,基于所述文本的每个eSAO集包括eSAO成分,所述整体eSAO包括所述eSAO成分的一个或更多,并且所述部分eSAO包括一个或更多不同于所述整体eSAO的一个或更多eSAO成分的eSAO成分。
22.根据权利要求21所述的语义处理器,其中,所述eSAO成分是来自于包括以下元素的组的一个或更多元素:主语、宾语、动作、形容词、介词、间接宾语和副词。
23.根据权利要求15所述的语义处理器,其中,所述整体-部分识别器还被配置为将单个eSAO集与已知整体-部分关系模式进行匹配,以生成单个eSAO整体-部分关系。
24.根据权利要求15所述的语义处理器,其中,所述整体-部分识别器还被配置为将一对eSAO集与已知整体-部分关系模式进行匹配,以生成单个eSAO整体-部分关系。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/686,660 | 2007-03-15 | ||
US11/686,660 US8799776B2 (en) | 2001-07-31 | 2007-03-15 | Semantic processor for recognition of whole-part relations in natural language documents |
PCT/US2008/057183 WO2008113065A1 (en) | 2007-03-15 | 2008-03-17 | Semantic processor for recognition of whole-part relations in natural language documents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101702944A true CN101702944A (zh) | 2010-05-05 |
Family
ID=39760720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200880014918A Pending CN101702944A (zh) | 2007-03-15 | 2008-03-17 | 用于识别自然语言文件中的整体-部分关系的语义处理器 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8799776B2 (zh) |
EP (1) | EP2135175A4 (zh) |
JP (1) | JP2010521750A (zh) |
KR (1) | KR101139903B1 (zh) |
CN (1) | CN101702944A (zh) |
WO (1) | WO2008113065A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US8311999B2 (en) | 2009-03-13 | 2012-11-13 | Invention Machine Corporation | System and method for knowledge research |
US8583422B2 (en) | 2009-03-13 | 2013-11-12 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
CN103443787A (zh) * | 2011-02-01 | 2013-12-11 | 埃森哲环球服务有限公司 | 用于标识文本关系的系统 |
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
CN106570002A (zh) * | 2016-11-07 | 2017-04-19 | 网易(杭州)网络有限公司 | 自然语言处理方法和装置 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
CN109101533A (zh) * | 2014-05-12 | 2018-12-28 | 谷歌有限责任公司 | 自动化阅读理解 |
CN111046675A (zh) * | 2019-12-26 | 2020-04-21 | 深圳市东恒达智能科技有限公司 | 一种文本识别方法、存储介质及终端 |
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799776B2 (en) | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
WO2008141673A1 (en) * | 2007-05-21 | 2008-11-27 | Ontos Ag | Semantic navigation through web content and collections of documents |
US8868562B2 (en) * | 2007-08-31 | 2014-10-21 | Microsoft Corporation | Identification of semantic relationships within reported speech |
US8316036B2 (en) * | 2007-08-31 | 2012-11-20 | Microsoft Corporation | Checkpointing iterators during search |
US8463593B2 (en) * | 2007-08-31 | 2013-06-11 | Microsoft Corporation | Natural language hypernym weighting for word sense disambiguation |
US8229970B2 (en) * | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Efficient storage and retrieval of posting lists |
KR101524889B1 (ko) * | 2007-08-31 | 2015-06-01 | 마이크로소프트 코포레이션 | 간접 화법 내에서의 시맨틱 관계의 식별 |
US8280721B2 (en) * | 2007-08-31 | 2012-10-02 | Microsoft Corporation | Efficiently representing word sense probabilities |
US8712758B2 (en) | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
US8209321B2 (en) * | 2007-08-31 | 2012-06-26 | Microsoft Corporation | Emphasizing search results according to conceptual meaning |
US8346756B2 (en) * | 2007-08-31 | 2013-01-01 | Microsoft Corporation | Calculating valence of expressions within documents for searching a document index |
US8229730B2 (en) * | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Indexing role hierarchies for words in a search index |
US20090070322A1 (en) * | 2007-08-31 | 2009-03-12 | Powerset, Inc. | Browsing knowledge on the basis of semantic relations |
US20090255118A1 (en) * | 2008-04-11 | 2009-10-15 | General Electric Company | Method of manufacturing mixers |
US8185509B2 (en) * | 2008-10-15 | 2012-05-22 | Sap France | Association of semantic objects with linguistic entity categories |
JP5536518B2 (ja) * | 2009-04-23 | 2014-07-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | システムの自然言語仕様から当該システム用のシステム・モデル化メタモデル言語モデルを自動的に抽出するための方法、装置及びコンピュータ・ |
JP5398007B2 (ja) * | 2010-02-26 | 2014-01-29 | 独立行政法人情報通信研究機構 | 関係情報拡張装置、関係情報拡張方法、及びプログラム |
US20130013616A1 (en) * | 2011-07-08 | 2013-01-10 | Jochen Lothar Leidner | Systems and Methods for Natural Language Searching of Structured Data |
WO2014000263A1 (en) * | 2012-06-29 | 2014-01-03 | Microsoft Corporation | Semantic lexicon-based input method editor |
US9280520B2 (en) | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
US9342489B2 (en) * | 2014-04-03 | 2016-05-17 | GM Global Technology Operations LLC | Automatic linking of requirements using natural language processing |
CN104317890B (zh) * | 2014-10-23 | 2018-05-01 | 苏州大学 | 一种文本连接词的识别方法及装置 |
US10409909B2 (en) * | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
US10169452B2 (en) * | 2015-06-30 | 2019-01-01 | International Business Machines Corporation | Natural language interpretation of hierarchical data |
CN105138631B (zh) * | 2015-08-20 | 2019-10-11 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
US10552847B2 (en) | 2017-03-23 | 2020-02-04 | International Business Machines Corporation | Real-time pattern matching of database transactions and unstructured text |
WO2020261944A1 (ja) * | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US10990879B2 (en) | 2019-09-06 | 2021-04-27 | Digital Asset Capital, Inc. | Graph expansion and outcome determination for graph-defined program states |
US11481548B2 (en) | 2019-12-05 | 2022-10-25 | Tencent America LLC | Zero pronoun recovery and resolution |
CN111597779B (zh) * | 2020-04-23 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
US11238240B2 (en) | 2020-06-03 | 2022-02-01 | Digital Asset Capital, Inc. | Semantic map generation from natural-language-text documents |
US20230334253A1 (en) * | 2020-09-25 | 2023-10-19 | Soul Machines Limited | Event representation in embodied agent |
CN113255364A (zh) * | 2021-05-28 | 2021-08-13 | 华斌 | 基于知识融合的政务信息化项目多专家意见机器整合方法 |
US12008322B2 (en) * | 2021-07-26 | 2024-06-11 | Atlassian Pty Ltd | Machine learning techniques for semantic processing of structured natural language documents to detect action items |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5696916A (en) * | 1985-03-27 | 1997-12-09 | Hitachi, Ltd. | Information storage and retrieval system and display method therefor |
US5418889A (en) * | 1991-12-02 | 1995-05-23 | Ricoh Company, Ltd. | System for generating knowledge base in which sets of common causal relation knowledge are generated |
US5638543A (en) * | 1993-06-03 | 1997-06-10 | Xerox Corporation | Method and apparatus for automatic document summarization |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5774845A (en) * | 1993-09-17 | 1998-06-30 | Nec Corporation | Information extraction processor |
US5748973A (en) * | 1994-07-15 | 1998-05-05 | George Mason University | Advanced integrated requirements engineering system for CE-based requirements assessment |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
JP3571408B2 (ja) * | 1995-03-31 | 2004-09-29 | 株式会社日立製作所 | 文書加工方法および装置 |
US5708825A (en) * | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
US5631466A (en) * | 1995-06-16 | 1997-05-20 | Hughes Electronics | Apparatus and methods of closed loop calibration of infrared focal plane arrays |
US5963940A (en) | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5924108A (en) * | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
WO1998041930A1 (de) * | 1997-03-18 | 1998-09-24 | Siemens Aktiengesellschaft | Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner |
JP3001047B2 (ja) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
US6171109B1 (en) * | 1997-06-18 | 2001-01-09 | Adin Research, Inc. | Method for generating a multi-strata model and an intellectual information processing device |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US6128634A (en) * | 1998-01-06 | 2000-10-03 | Fuji Xerox Co., Ltd. | Method and apparatus for facilitating skimming of text |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
EP0962873A1 (en) * | 1998-06-02 | 1999-12-08 | International Business Machines Corporation | Processing of textual information and automated apprehension of information |
US6094652A (en) * | 1998-06-10 | 2000-07-25 | Oracle Corporation | Hierarchical query feedback in an information retrieval system |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6789230B2 (en) * | 1998-10-09 | 2004-09-07 | Microsoft Corporation | Creating a summary having sentences with the highest weight, and lowest length |
US6363378B1 (en) * | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
US6442566B1 (en) * | 1998-12-15 | 2002-08-27 | Board Of Trustees Of The Leland Stanford Junior University | Frame-based knowledge representation system and methods |
US6317708B1 (en) * | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
US6976243B2 (en) * | 1999-10-05 | 2005-12-13 | Borland Software Coporation | Method and system for developing source code and displaying linked elements found within the source code |
US6823325B1 (en) * | 1999-11-23 | 2004-11-23 | Trevor B. Davies | Methods and apparatus for storing and retrieving knowledge |
US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
EP1275042A2 (en) * | 2000-03-06 | 2003-01-15 | Kanisa Inc. | A system and method for providing an intelligent multi-step dialog with a user |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US6701345B1 (en) * | 2000-04-13 | 2004-03-02 | Accenture Llp | Providing a notification when a plurality of users are altering similar data in a health care solution environment |
US20020010574A1 (en) * | 2000-04-20 | 2002-01-24 | Valery Tsourikov | Natural language processing and query driven information retrieval |
US20020103793A1 (en) * | 2000-08-02 | 2002-08-01 | Daphne Koller | Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models |
US6823331B1 (en) * | 2000-08-28 | 2004-11-23 | Entrust Limited | Concept identification system and method for use in reducing and/or representing text content of an electronic document |
US6557011B1 (en) * | 2000-10-31 | 2003-04-29 | International Business Machines Corporation | Methods for analyzing dynamic program behavior using user-defined classifications of an execution trace |
US20020111784A1 (en) * | 2001-02-12 | 2002-08-15 | Keller S. Brandon | Method of suggesting configuration commands based on E-CAD tool output |
DE10122756A1 (de) * | 2001-05-10 | 2002-11-21 | Daimler Chrysler Ag | Verfahren zur Generierung von Daten für die semantische Sprachanalyse |
US7251781B2 (en) * | 2001-07-31 | 2007-07-31 | Invention Machine Corporation | Computer based summarization of natural language documents |
US8799776B2 (en) | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US6754654B1 (en) * | 2001-10-01 | 2004-06-22 | Trilogy Development Group, Inc. | System and method for extracting knowledge from documents |
GB0127551D0 (en) * | 2001-11-16 | 2002-01-09 | Abb Ab | Analysing events |
US7035877B2 (en) * | 2001-12-28 | 2006-04-25 | Kimberly-Clark Worldwide, Inc. | Quality management and intelligent manufacturing with labels and smart tags in event-based product manufacturing |
US20040001099A1 (en) * | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
US7676452B2 (en) * | 2002-07-23 | 2010-03-09 | International Business Machines Corporation | Method and apparatus for search optimization based on generation of context focused queries |
US7441219B2 (en) * | 2003-06-24 | 2008-10-21 | National Semiconductor Corporation | Method for creating, modifying, and simulating electrical circuits over the internet |
US7552149B2 (en) * | 2003-09-06 | 2009-06-23 | Oracle International Corporation | Querying past versions of data in a distributed database |
US7536368B2 (en) * | 2003-11-26 | 2009-05-19 | Invention Machine Corporation | Method for problem formulation and for obtaining solutions from a database |
AU2005217413B2 (en) | 2004-02-20 | 2011-06-09 | Factiva, Inc. | Intelligent search and retrieval system and method |
US8126890B2 (en) * | 2004-12-21 | 2012-02-28 | Make Sence, Inc. | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
US20060142907A1 (en) * | 2004-12-28 | 2006-06-29 | Snap-On Incorporated | Method and system for enhanced vehicle diagnostics using statistical feedback |
WO2006111401A2 (en) * | 2005-04-22 | 2006-10-26 | Ubs Ag | A technique for platform-independent service modeling |
US7805496B2 (en) * | 2005-05-10 | 2010-09-28 | International Business Machines Corporation | Automatic generation of hybrid performance models |
US7668825B2 (en) * | 2005-08-26 | 2010-02-23 | Convera Corporation | Search system and method |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US8832064B2 (en) | 2005-11-30 | 2014-09-09 | At&T Intellectual Property Ii, L.P. | Answer determination for natural language questioning |
CN1794233A (zh) * | 2005-12-28 | 2006-06-28 | 刘文印 | 一种网上用户交互问答方法及其系统 |
US20080219735A1 (en) * | 2007-03-08 | 2008-09-11 | Fargo Electronics, Inc. | Printhead Assembly for a Credential Production Device |
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN105045777A (zh) | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
KR20110134909A (ko) * | 2009-03-13 | 2011-12-15 | 인벤션 머신 코포레이션 | 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법 |
US8311999B2 (en) * | 2009-03-13 | 2012-11-13 | Invention Machine Corporation | System and method for knowledge research |
-
2007
- 2007-03-15 US US11/686,660 patent/US8799776B2/en active Active
-
2008
- 2008-03-17 KR KR1020097020885A patent/KR101139903B1/ko not_active IP Right Cessation
- 2008-03-17 WO PCT/US2008/057183 patent/WO2008113065A1/en active Application Filing
- 2008-03-17 EP EP08732326A patent/EP2135175A4/en not_active Withdrawn
- 2008-03-17 CN CN200880014918A patent/CN101702944A/zh active Pending
- 2008-03-17 JP JP2009553837A patent/JP2010521750A/ja active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US8311999B2 (en) | 2009-03-13 | 2012-11-13 | Invention Machine Corporation | System and method for knowledge research |
US8583422B2 (en) | 2009-03-13 | 2013-11-12 | Invention Machine Corporation | System and method for automatic semantic labeling of natural language texts |
US8666730B2 (en) | 2009-03-13 | 2014-03-04 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
CN102262632A (zh) * | 2010-05-28 | 2011-11-30 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US8862460B2 (en) | 2010-05-28 | 2014-10-14 | International Business Machines Corporation | System, method, and program for processing text using object coreference technology |
CN103443787B (zh) * | 2011-02-01 | 2016-10-12 | 埃森哲环球服务有限公司 | 用于标识文本关系的系统 |
CN103443787A (zh) * | 2011-02-01 | 2013-12-11 | 埃森哲环球服务有限公司 | 用于标识文本关系的系统 |
CN109101533A (zh) * | 2014-05-12 | 2018-12-28 | 谷歌有限责任公司 | 自动化阅读理解 |
CN109101533B (zh) * | 2014-05-12 | 2022-07-15 | 谷歌有限责任公司 | 自动化阅读理解 |
CN106682059A (zh) * | 2015-11-11 | 2017-05-17 | 奥多比公司 | 根据图像的结构化的知识建模和提取 |
US11514244B2 (en) | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
CN106570002A (zh) * | 2016-11-07 | 2017-04-19 | 网易(杭州)网络有限公司 | 自然语言处理方法和装置 |
CN106570002B (zh) * | 2016-11-07 | 2021-09-14 | 网易(杭州)网络有限公司 | 自然语言处理方法和装置 |
CN111046675A (zh) * | 2019-12-26 | 2020-04-21 | 深圳市东恒达智能科技有限公司 | 一种文本识别方法、存储介质及终端 |
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN114254158B (zh) * | 2022-02-25 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
US20070156393A1 (en) | 2007-07-05 |
WO2008113065A9 (en) | 2009-07-30 |
WO2008113065A1 (en) | 2008-09-18 |
JP2010521750A (ja) | 2010-06-24 |
EP2135175A1 (en) | 2009-12-23 |
EP2135175A4 (en) | 2011-05-04 |
US8799776B2 (en) | 2014-08-05 |
KR20090130854A (ko) | 2009-12-24 |
KR101139903B1 (ko) | 2012-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101702944A (zh) | 用于识别自然语言文件中的整体-部分关系的语义处理器 | |
US8447588B2 (en) | Region-matching transducers for natural language processing | |
US11308143B2 (en) | Discrepancy curator for documents in a corpus of a cognitive computing system | |
US11030227B2 (en) | Discrepancy handler for document ingestion into a corpus for a cognitive computing system | |
US8266169B2 (en) | Complex queries for corpus indexing and search | |
US8510097B2 (en) | Region-matching transducers for text-characterization | |
US20190129903A1 (en) | Automated Curation of Documents in a Corpus for a Cognitive Computing System | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
CN101149732A (zh) | 由计算机使用的从自然语言文本开发本体的方法 | |
Simov et al. | Building a Linguistically Interpreted Corpus of Bulgarian: the BulTreeBank. | |
Poesio et al. | A General-Purpose, Off-the-shelf Anaphora Resolution Module: Implementation and Preliminary Evaluation. | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
Küçük | Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles | |
Namly et al. | On Arabic Stop-Words: A Comprehensive List and a Dedicated Morphological Analyzer | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
Kaveh-Yazdy et al. | Aleph or Aleph-Maddah, that is the question! Spelling correction for search engine autocomplete service | |
Kruengkrai et al. | Semantic relation extraction from a cultural database | |
Beridze et al. | Dialect dictionaries in the Georgian dialect corpus | |
Mohbey et al. | Preprocessing and morphological analysis in text mining | |
Steiner | Augmenting a German morphological database by data-intense methods | |
Hong et al. | FireCite: Lightweight real-time reference string extraction from webpages | |
Smith | Morphological analysis of historical languages | |
Josi et al. | Representing Standard Text Formulations as Directed Graphs | |
Tongtep et al. | Discovery of predicate-oriented relations among named entities extracted from thai texts | |
Elumalai et al. | Looking into the Operational Modalities Adopted in Some of the POS Tagging Tools in Identification of Contextual Part-of-Speech of Words in Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100505 |