CN101305366B - 从非结构化文本提取和显现图表结构化关系的方法和系统 - Google Patents

从非结构化文本提取和显现图表结构化关系的方法和系统 Download PDF

Info

Publication number
CN101305366B
CN101305366B CN2006800415253A CN200680041525A CN101305366B CN 101305366 B CN101305366 B CN 101305366B CN 2006800415253 A CN2006800415253 A CN 2006800415253A CN 200680041525 A CN200680041525 A CN 200680041525A CN 101305366 B CN101305366 B CN 101305366B
Authority
CN
China
Prior art keywords
relation
entity
module
pattern
chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800415253A
Other languages
English (en)
Other versions
CN101305366A (zh
Inventor
H·哈桑
H·莫索塔费
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101305366A publication Critical patent/CN101305366A/zh
Application granted granted Critical
Publication of CN101305366B publication Critical patent/CN101305366B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Abstract

本发明公开了一种用于从非结构化文本自动提取和挖掘关系和相关实体的系统和方法。该方法包括:接收指定主实体的查询;从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,包括:在非结构化文本中搜索和选择包含主实体的文档,向所选文档的每个词附加一个或多个标签,每个标签是不同类型的,通过将图案应用到所述加标签的文档来提取关系和相关实体;从所选文档提取表征每个实体和关系的特征,包括:使每个关系与以下内容相关联:关系类,和/或关系强度,和/或时间信息,基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。该系统和方法能够以清楚和可利用的方式显现信息。

Description

从非结构化文本提取和显现图表结构化关系的方法和系统
技术领域
本发明涉及数据处理,更特别地,涉及一种用于从非结构化文本自动提取和显现表示出关系的图表结构化数据的方法、系统和计算机程序。 
背景技术
技术领域
结构化信息可以定义为其预期意义以数据的结构或格式明显地表示的信息。结构化信息的典型例子是关系数据库。非结构化信息可以表征为其意义需要解释以接近和提取预期意义的信息。例子包括自然语言文档、语音、音频、图像和视频。换言之,非结构化数据是无组织地驻留于数据库外部的任何数据。非结构化数据可以是文本、音频、视频或图形。 
非结构化信息代表可用于商界或政府的最大、最流行和最快发展的信息源。在一些估计中,非结构化数据代表所有共同信息中的80%。在这些大量数据中的高价值信息是难以发现的。非结构化信息不是适于搜索技术的格式。在非结构化源中搜索信息是不实际的。首先,必须分析数据以检测和定位所关心的项。然后必须将结果结构化为使得强大的搜索引擎和数据库引擎可以在内容被请求时有效地找到所请求的内容。从非结构化世界到结构化世界的桥梁称为信息提取(IE)。 
非结构化信息管理(UIM)应用通常是软件系统,其分析大量非结构化信息(文本、音频、视频、图像等)以发现、组织和传递相关知识到客户端或终端用户。一个例子是处理数百万医学文档和报告以发现药物间关键相互作用、副作用和疾病史的应用。另一例子 是处理数百万文档以发现表明可能的恐怖分子威胁的关键证据的应用。 
非结构化数据的管理被认为是信息技术(IT)产业中主要未解决问题之一,主要原因是可以成功地将结构化数据转换为商业情报和可用信息的工具和技术当应用于非结构化数据时完全不起作用。 
非结构化信息管理(UIM)系统对大量非结构化信息使用信息提取(IE)技术以发现、组织和传递相关知识到客户端。 
信息提取(IE)是自然语言处理(NLP)的重要未解决问题。信息提取中最重要的问题之一是从文本文档中提取实体以及提取这些实体间的关系。实体的例子是“民族”、“组织”和“位置”。关系的例子是“组织-雇用-执行官”、“组织-位置”等。例如,句子“John Adams是XYZ公司的首席执行官”包括个人“John Adams”和组织“XYZ公司”之间的“组织-雇用-执行官”关系。 
已经使用各种技术来提取相关实体间的关系。 
·在监督方法中,在给出的例子中人力专家人工地识别实体和关系。针对这些例子训练分类器,该分类器用于在以后运行时识别关系和实体。 
·半监督方法使用由专家提供的种子样本并设法自动获得类似于种子样本的更多样本。然后,种子样本和所获得的样本被用于训练类似于监督情况中的分类器。 
非结构化数据包括不同于实体和关系的其他信息,例如表示不同实体间的关系的社交网络,其间实体具有某些关系的周期,不同实体间共享的公共因素,…该复杂和丰富的信息难以获取并且非常难以用信息化方式表示。 
HITS(“超文本引导主题选择”)算法是用于对网页进行分级并因此还进行排序的算法。HITS对每个页面使用两个值,“权威值”和“中心值”。“权威值”和“中心值”在相互递归中相互定义。权威值计算为指向该页面的定标中心值的和。中心值是其指向的页面的定标权威值的和。在一些实现中也考虑了所链接页面的关联性。 HITS算法得益于以下研究:当页面(中心)链接到另一页面(权威)时,前者对后者给予授权。HITS方法在J Kleinberg,J.ACM(1999)的标题为“Authoritative Sources in a Hyperlinked Environment”(超链接环境中的权威源)的出版物中描述。 
初始问题 
对于一些领域,从非结构化数据提取知识是昂贵且不可行的任务,因为需要生成很多手工规则以捕获各种信息。尽管对于任何给定领域提取这种知识都是非常困难的操作,但以清楚和有用的方式向用户呈现和显现数据是更困难的。本发明处理三个主要问题: 
·用于在任何领域(应用)中从任何非结构化数据提取实体间关系的图案的自动发现 
·从非结构化数据提取表征每个实体和关系的知识(例如其间关系有效的时间以及在该时间该实体的位置)。 
·多层关系的定义(具有各种约束和条件的关系,例如在给定时间帧中的关系或者在给定组织中两个人之间的关系,…) 
·所提取知识的显现(以使用户能够吸收和消化该知识的方式呈现所提取知识)。 
现有技术
本发明集中于用于从非结构化数据提取和呈现信息的三个关键问题: 
·用于提取实体间关系的图案的自动发现; 
·从非结构化数据提取深层知识; 
·所提取知识的显现。 
大多数现有技术仅集中于第一个问题,其包括从非结构化文本提取实体间关系。出版于“The proceedings of the 1998 InternationalWorkshop on the Web and Databases”中的标题为“Extracting Patternand Relations from the World Wide Web”(从万维网中提取图案和关 系)(Sergy Brin,斯坦福大学计算机科学系)的文章可以找到该领域中的工作。该出版物公开了作者身份信息的提取,如在万维网上在图书描述中找到的那样。该出版物基于双重迭代图案-关系提取,其中关系和图案集合被迭代地结构化。该方法具有两个主要缺陷: 
·(1)使用手工种子样本以提取更多类似于这些手工种子样本的样本。 
·(2)使用词典作为用于提取信息的主要来源。 
出版于“Proceedings of the Fifth ACM International Conference onDigital Libraries”2000中的标题为“Snowball:Extracting Relation fromLarge Plain-Text collections”(雪球:从大型明文集合中提取关系)(Eugene Agichtein和Luis Gravano-哥伦比亚大学计算机科学系,1214 Amsterdam Avenue NY)的文章公开了一种类似于先前工作的思想,通过使用种子样本生成初始图案以及迭代地获得更多图案。然后使用特殊(ad-hoc)测量以估计最近获得的图案的相关性。该方法的主要缺陷是: 
·(1)对种子样本的依赖导致有限的概括能力, 
·(2)使用手工样本导致领域依赖,以及 
·(3)图案的相关性的估计要求特殊测量的使用。 
标题为“Visualization of integrated structured data and extractedrelational facts from free text”(显现整合的结构化文本和从自由文本中提取的关系事实)(Wakefield等人)的美国专利申请US2004/0167907公开了一种机制,用于从非结构化自由文本提取简单关系。然而,该机制具有可以概述如下的主要缺陷: 
·提取关系的机制取决于语法分析树。这是主要缺陷,因为不能提取精确关系。 
·取决于人为规则。机制设计用于某些问题,并且必须针对每个问题而改变,这是昂贵且困难的。 
·使用词典和其他昂贵资源来提取信息。 
·不是通用的并且不能解决不同领域中的不同问题。 
·仅提供简单关系但不能提供高度详细的关系。 
·不完全自动并且需要人为干涉。 
标题为“System and method for automatically and iterativelymining related terms in a document through relations and patterns ofoccurrences”(用于通过出现关系和图案自动地和迭代地挖掘文档中的相关项的系统和方法)(Sundaresan等人)的美国专利US 6,505,197公开了一种自动和迭代数据挖掘系统,用于使用二元概念识别万维网上的一组定义了关系的相关信息。具体地,挖掘系统迭代地提炼以特定方式相关的项的配对,以及它们在网页中出现的图案。自动挖掘系统以迭代方式运行,用于连续地和递增地提炼关系及其相应图案。在一个实施例中,自动挖掘系统根据关系在网页中出现的图案来识别关系。自动挖掘系统包括导出新关系的关系标识器以及导出新图案的图案标识器。最近导出的关系和图案存储在数据库中,其最初以关系和图案的小种子集合开始,其连续地和迭代地被自动挖掘系统加宽。 
然而,该专利受制于多个缺陷: 
·取决于用于提供种子图案的人为工作。 
·所得图案类似于原始种子图案。 
·对于每个领域或应用,新种子图案必须由专家提供;这是乏味且昂贵的过程。 
·提取关系和图案仅取决于非常有限的词汇(词)特征。 
标题为“Wrapper induction by hierarchical data analysis”(通过层级数据分析来进行封装包导入)(Muslea等人)的美国专利US6,606,625公开了一种归纳算法,其基于用户标记的训练样本生成提取规则。问题在于对训练数据的标记形成了严重的瓶颈。 
剩余问题 
所有先前解决方案都受制于下述缺陷中的一个或多个: 
·需要手工规则或大量人为注解样本用于组成用于提取关系的图 案。 
·是领域专用的并且设计为解决非常特殊的问题。 
·取决于种子样本。所得图案不是通用的并且非常类似于种子样本。 
·不是独立于语言的。 
·仅提供简单关系但不能提供高度详细的关系。 
·不针对每个实体和关系提取详细的特征。 
·不能对所提取信息挖掘复杂数据。 
·不提供针对大量数据的有效显现。 
发明内容
发明目的 
·本发明的目的是从非结构化数据自动提取实体间关系,独立于领域和语言,不要求任何种类的任何人为干涉,并且不考虑数据数量如何。 
·本发明的另一目的是提取高度复杂的关系和相关实体,每个所提取实体和关系都由非常丰富的信息结构表示。 
·本发明的另一目的是提取实体间多层关系以及实现对所提取信息的复杂数据挖掘。 
·本发明的另一目的是以清楚和可利用的方式显现信息,可以帮助用户吸收和消化大量非结构化信息。 
发明概要
本发明公开了一种用于从非结构化文本自动提取和挖掘关系和相关实体的系统、方法和计算机程序。更特别地,本发明涉及一种方法,用于: 
·从非结构化文本数据提取关系和相关实体, 
·将所提取信息表现为图表,以及 
·操纵所得图表以更加了解其包含的信息。 
首先通过自动导入图案以及其次通过将这些导入的图案应用于非结构化文本数据,执行关系和相关实体的提取。对于每个关系和实体,提取多个特征以构造图表,其中节点表示实体,并且边表示关系。 
本发明提供如下装置,其用于开发图表,并用于导出其他图表,这些图表集中于某些时间帧内的关系或涉及某些特征。这是分别使用时间图表和基于特征的图表来完成的。两种方法基本上都查询与图表的节点和边相关联的数据结构的内容。 
本发明提供显现技术,用于更好地理解图表中包含的信息。 
本发明提供用于吸收和消化非结构化信息的有效解决方案并实现大量文档的有效显现。 
参照以下描述、权利要求和附图可以更好地理解本发明的前述以及其他目的、特征和优点。 
附图说明
当结合附图阅读时通过参照以下示例性详细实施例的详细描述将最好地理解本发明本身及其优选使用模式、其他目的和优点,附图中: 
图1示出根据本发明的系统的概略图。 
图2是根据本发明的图表结构化关系提取器的详细视图。 
图3是根据本发明的导入图案的步骤的框图。 
图4是模板、图案和元组的例子。 
图5示出根据本发明用于导入图案的方法。 
图6是根据本发明用于图案的初始表示的有限状态机(FSM)。 
图7示出根据HITS算法的图案和元组的表示。 
图8是浅图表的例子。 
图9是基于特征的图表的例子。 
具体实施方式
提供以下描述以使得人们或者本领域普通技术人员能够进行和使用本发明,并且在专利申请及其要求的上下文中提供以下描述。对这里描述的优选实施例以及一般原则和特征的各种修改对于本领域技术人员而言是显而易见的。因此,本发明不旨在受限于所示实施例,而是符合与这里描述的原则和特征一致的最宽范围。 
本发明的主要目的是处理非结构化文本数据以提取关系和相关实体以及对于二者的特征。结果是其节点和边分别表示实体和这些实体间关系的图表。当提取大量信息时,系统还提供操纵图表的能力,以动态地生成示出关系和/或实体的不同方面的各种图表。 
概略图 
图1示出根据本发明的系统的概略图。 
·系统接收指定已命名实体(例如人名、组织名或在任何领域中的任何其他已命名实体)的用户查询103。该已命名实体以下将称为“主实体”。 
·将大量非结构化文本数据100(例如万维网)提供到图表结构化关系提取器101,其提取相关实体、所述相关实体间的关系以及表征所述相关实体和关系的各种信息。 
·系统构造其节点表示与主实体最密切相关的实体并且边表示实体间关系的图表。 
·将图表查询104应用到图表以获得数据的具体视图。 
·由图表显现器102生成最终输出图表105。该最终输出图表105根据在应用到图表的查询中指定的标准来表示实体及其关系。 
图表结构化关系提取器 
图2是根据本发明的图表结构化关系提取器101的详细视图。系统操作如下: 
·将从用户接收的查询103传输到索引器和搜索引擎200用于在非结构化文本数据100中进行搜索(例如在Web上)。非结构化文本数据100包括大量文档(即WEB上的各种文档,例如网页)。搜索引擎200从非结构化文本数据100检索包含查询103中指定的主实体的文档。 
·对包含查询103中指定的主实体的文档应用语法和语义标签器201(所述文档由搜索引擎200得到)以提取各种已命名实体、词汇类型以及词的语义。 
·相关实体和关系提取器202从先前步骤中标记的文档提取与查询103中指定的主实体强烈相关的实体和关系。 
·特征提取器203从由搜索产生的并包含查询中指定的主实体的文档提取信息,以表征先前在步骤202中提取的每个实体和关系。例如,对于特定实体,可以提取与该实体密切相关的接近该实体的人、组织、位置、时间特征、词…。 
·图表扩展器204重复先前步骤,即提取与查询103中指定的主实体特别相关的关系和实体。进行该操作以将图表扩展为具有附加的相关实体和关系。很多实体与查询中指定的主实体相关。在这些实体中,一些是特别相关的并且必须添加到图表。问题在于不知道这些相关实体如何彼此相关以及与其他实体相关。这就是图表扩展器对非结构化文本(100)(而不是仅仅对包含主实体的所选文档)重复先前步骤的原因。 
·然后,图表扩展器204基于所述提取的实体和关系形成图表。查询中指定的主实体作为图表的中心点,所有其他实体连接在其周围。 
·关系分类器205根据关系的语义意义根据一组预定类别来对所得关系进行分类。例如,诸如“领导”、“总裁”和“主席”的关系被分类为“执行官”。该步骤是可选的并且不影响系统的输出。 
·在图表中表示所提取实体和关系。图表扩展器204从非结构化文本数据收集信息并以与每个实体和关系相关联的结构表示所述信息。以便于内容操纵的方式构造图表。 
·将图表传输到图表显现器102。该图表可能会受到来自用户的指定某一标准的查询104。响应于该查询,图表显现器102在输出105中输出相对较简单的图表。该输出图表105根据在查询104中指定的标准表示实体及其关系。 
关系和相关实体提取 
根据优选实施例的系统从非结构化文本提取相关实体和这些实体间的关系。将各种标签器应用到文本以附上不同种类的标签(例如已命名实体标签器向每个词附上表示其已命名实体类别的标签)。关系和相关实体提取器202提取相关实体以及对所述实体间关系的描述。关系分类器205将所提取关系分类在预定关系集合中。 
关系和相关实体提取器202自动提取相关实体以及它们的关系。为了提取关系和相关实体,关系和相关实体提取器使用具有相关联的置信测量的图案。导入(自动获取)图案的过程被执行一次,然后在系统构造期间脱机。使用通用框架导入图案,该框架可以用于任何实体和相关类型。在运行时,将导入的图案应用到非结构化文本以提取实体以及与它们相关联的关系。 
图3是导入图案的方法的概略图。将非结构化文本数据300提供到图案导入器301中,其导入图案302用于接着提取实体以及所述实体间的关系(注意:非结构化文本数据300与非结构化文本数据100相同)。 
如上所述,根据优选实施例的图案导入器301对非结构化文本数据进行操作以导入图案。图4描述图案结构以及对非结构化文本执行的处理。例如,输入文本400“美国副总统Al Gore今天说…”被通过各种标签器(例如词性(POS)标签器、语义标签器和已命名实体标签器)加上标签。换言之,标签与句子中每个词相关联。结果是表示句子400的各种特征的一组多流标签401。 
词:美国 
实体:民族 
词性:形容词 
语义:居民 
词:副总统 
实体:职业 
词性:名词短语 
语义:执行官 
词:Al Gore 
实体:个人 
词性:名词 
语义:无 
使用不同类型的标签的组合可以形成相同句子的不同表示。在给定表示中使用的标签类型取决于系统将尝试匹配的图案。 
模板 
模板是通用标签的序列。模板402的例子是: 
民族_居民 职业_名词短语个人[2]动词_短语 
该模板来源于401中已命名实体标签、词性(POS)标签和语义标签的表示。所有这些标签被认为是单个标签。这里图案的选择仅用于示意目的,可以使用标签、表示和加标签样式的任何组合。 
图案 
图案比模板更具体。图案指定由标签扮演的角色(第一实体、第二实体、或关系)。如后面说明的,图案从模板获得。模板的例子 表示在403中,其中识别关系以及关系中的每个实体。 
该图案表明句子中具有标签民族_居民_形容词的词表示关系中第二实体(实体2),而具有标签个人[2]的词表示关系中第一实体(实体1)。最后,具有标签职业_执行官_名词短语的词表示两个先前实体间的关系。 
元组 
“元组”是将图案应用到非结构化文本的结果。在上述例子中,将图案应用到原始文本的结果是以下元组: 
·实体1:Al Gore 
·实体2:美国 
·关系:副总统 
元组404、405示出不同元组可以如何与相同图案匹配。 
根据本发明的方法包括导入一组包含信息的高置信度的图案的步骤。该组图案在运行时间期间被应用于原始文本以正确识别相关实体以及这些实体间的关系。 
图案导入器 
图3中的图案导入器302进一步在图5中详细示出。用于导入图案的方法仅在构造系统时执行一次。用于导入图案的方法包括以下步骤: 
·500:由语法和语义标签器模块对非结构化文本数据300(即大型文本数据或WEB数据)应用诸如POS标签器、已命名实体标签器和语义标签器的各种标签器。 
·501:所得数据分成两部分:小部分和大部分。该划分是有用的,因为仅数据的小部分需要得到图案的初始集合,而数据的大部分需要使用以下描述的导入过程来排序和检验这些图案。 
·502:数据的小部分用于构造有限状态机502,类似于图6中所示有限状态机。 
·503:初始图案生成器用于滤出不太可能的模板,其在有限状态机中具有较低可能性。然后,初始图案生成器使用初始模板以生成图案的初始集合。先前获得的集合中每个模板可以通过将不同角色附加到模板的不同部分生成多个图案。如果现在考虑以下模板: 
民族 名词_短语个人个人位置 
则从该模板可以生成以下3个图案: 
·民族:实体1名词_短语:关系 个人:实体2个人_实体2位置 
·民族:实体1名词_短语:关系个人个人位置:实体2 
·民族名词_短语_关系 个人:实体1个人:实体1位置:实体2 
因此,通过从模板的初始集合中的每个模板生成所有可能图案,构造图案的初始集合。 
·504:元组匹配器将图案的初始集合中的每个图案应用于非结构化数据。结果包括图案的配对(p,t)以及与这些图案匹配的元组。注意到,这些配对中的很多是错误的,即它们错误地识别相关实体和/或关系。 
有限状态机 
图6示出用于所考虑的图案的有限状态机。 
·第一状态601表示“民族”已命名实体, 
·第二状态602表示“名词_短语”, 
·第三状态603表示“个人”已命名实体,其可以由一个或多个名字表示。对第一弧线的加权604表示该状态序列的可能性。 
HITS图案导入器 
步骤505使用以下研究用于自动识别信息量最大的图案:与很多元组匹配的图案倾向于为正确。类似地,与很多图案匹配的元组倾向于为正确。因此,问题可以视为中心(元组)和权威(图案)问 题,其可以使用HITS(“超文本引导主题选择”)算法来解决。基于一组相关“权威页面”和一组“中心页面”之间的关系,HITS是权威概念的算法公式。HITS算法原始用于通过分析WWW(万维网)的链接结构在考虑搜索查询时确定最权威的网页。HITS算法受益于以下研究:当页面(中心)链接到另一页面(权威)时,前者对后者给予授权。 
HITS图案导入器操作如下: 
假设很大一组数据D包括很大一组图案P,希望识别与最正确元组集合T匹配的图案集合 
Figure S2006800415253D00141
换言之,希望在数据中巨大图案空间之中选择信息量最大、置信度最高的图案,其可以识别正确元组。然而, 和T二者是未知的。 
应用导入过程如下: 
P中的每个图案 
Figure S2006800415253D00143
与数字的权威加权Ap相关联,其表示多少元组与该图案匹配。类似地,T中每个元组t具有数字的中心加权Ht,其表示该元组与多少图案匹配。 
加权被迭代地计算如下: 
Figure S2006800415253D00144
然后加权被归一化,使得: 
Figure S2006800415253D00145
拒绝加权低于预定阈值的图案。 
计算权威加权使得在第一迭代HITS计算中通过针对与图案匹配的每个元组加1来计算权威加权,该总和被进一步加权以有利于得到更短的图案。加权的增量计算如下: 
M ~ = 1 - log ( length ( p ) MaxLength )
其中 
Figure S2006800415253D00147
是图案的基于长度的加权,MaxLength是最长图案的长 度。对于更短的图案,该修改得到更好的加权。 
由该最后步骤产生包括信息量最大的图案的集合,每个图案具有存储在导入的图案302数据库中的权威加权。 
在运行时,如图2所示,关系和相关实体提取器202对非结构化文本数据300使用导入的图案302以提取关系和相关实体。 
图7示出作为双向图表的图案和元组的表示。图案701和702连接到多个元组,类似地,元组703连接到两个图案701和702。该连接导致相互干扰,其增加图案和元组二者的加权。另一方面,图案704具有单个连接,因此具有低加权。 
特征提取 
如图2所示,在被关系和相关实体提取器202提取之后,相关实体连同它们的关系存储在图表结构中。基于用户查询103中指定的主实体创建图表。特征提取器203从非结构化文本数据提取用以表征每个实体和关系的信息。结果是其节点表示实体并且边表示关系的复杂图表。图表是复杂的,因为不是具有简单标签,而是节点和边具有与它们相关联的数据结构。鉴于图表中包含的信息量,需要发明一种方法,其间接地使得对节点和边数据结构的查询可以动态地生成原始图表的变体。 
节点结构 
每个节点是包括基于从上下文导出的特征的实体和矢量的结构,在该上下文中实体在文本中频繁出现。例如,对于某个人,结构看起来是这样的: 
实体名:个人1 
相关联的个人: 
名字1    0.43 
名字2    0.21 
…… 
相关联的组织: 
组织1    0.71 
组织2    0.12 
…… 
相关联的位置: 
位置1    0.50 
位置2    0.24 
…… 
相关联的词包: 
词1词2词3    0.7 
相关联的时间 
时间1    0.12 
时间2    0.09 
…… 
对于实体,与每个特征相关联的数值是当考虑该实体所出现的所有类似特征时出现该特征的概率。 
边结构 
如上所示,关系提取器202可以识别原始文本中哪个词用作关系。提取用于每个包括以下字段的边/关系的结构,其中有: 
·关系类(例如管理人), 
·关系强度(例如0.85意味着“强烈相关”), 
·关于关系的时间信息(例如关系是在80年代)。时间信息用于构造考虑了关系的时间帧的时间图表。所得图表可以表明在给定时间哪些实体相关。这种时间图表可以示出例如个人在其一生与不同组织和个人的关系的种类。 
节点和边结构中包含的信息帮助对图表执行各种操作。 
图表扩展 
为了确定实体相关强度如何,系统依靠与节点配对相关联的特征矢量之间的距离。图表扩展器204使用这些距离来确定是否需要通过添加某些实体来扩展图表。选择接近主实体的实体来扩展图表。 
通过对选择用于扩展的实体重复关系提取和特征提取步骤来进行图表扩展,所选实体是到主实体的距离测量值为小的实体。因此,图表扩展导致多个子图表,每个子图表集中于被选择用于扩展的实体之一。 
可以使用各种距离度量,其中有欧几里德距离和余弦距离。在优选实施例中,使用两个矢量之间的余弦距离。 
可选图表表示 
在先前步骤中构建的图表由于存储在它的节点和边中的数据而非常丰富。为此,可行的是提供一些方法用于通过不同种类的图表表示底层数据。通过以不同方式查询节点和边数据结构的内容获得这些图表。图表显现器102使用图表查询104来对复杂图表执行进一步数据挖掘以更加了解数据。在更简单和更集中的图表(输出图表105))中针对某些特征和特性显现数据。 
将作为例子讨论这些种类的图表中的3个。其他图表可以通过改变前述查询而获得。 
浅图表 
对节点和边结构的最简单查询检索实体的名字以及由图表描述的关系。这导致非常“浅”的图表,其仅示出必需的几条信息。图8是这种浅图表的例子。节点801表示查询中指定的主实体,节点802和803表示与主实体最强烈相关的实体。边804表示节点实体801和803之间的关系,而边805表示节点实体801和802之间的关系。节点806表示图表中与主实体801相关的很多所得实体之一。 
基于特征的图表 
围绕用户查询而构造的图表基于每个节点的特征矢量。基于特征矢量的不同子集使用其他查询可能获得其他图表。当决定2个实体间关系的强度时,仅考虑所选特征子集,因此名为“基于特征的”图表。该种图表解决了如下问题,例如“哪些实体与和主实体X相同的组织集合相关联?”或“哪些人有与主实体X类似的爱好?”。因为可能将所选距离度量应用到所考虑的较小特征矢量,因此可能获得两个实体间针对所选特征的接近程度。换言之,可以仅针对某些特征测量两个实体的接近度以提供对数据的更多关注。 
因为集中于特征矢量的子集可以使在原始图表中远离的两个节点更接近,因此可能跨子图表边界测量节点间的距离。这可以展现出所关注的关系,否则该关系将难以在原始图表中被发现。 
图9示出这种子图表的例子,其中已从图8中所示图表中提取关于“中东危机”的实体。节点901表示主查询,而节点902表示图表中的主节点。节点903是图8中满足用于该子图表的基于特征的标准的节点之一。 
时间图表 
如前所述,每个关系的结构包括时间信息。这打开了到另一类型的查询的大门,该另一类型的查询考虑了关系的时间帧。所得图表可以表明在给定时间哪些实体相关。通过改变时间,图表可以在两方面不同: 
·它们包含的节点(因为2个实体可能在给定时间开始/停止具有关系),以及 
·边的加权(因为关系的强度可以随时间变化)。 
这种时间图表可以示出例如个人在其一生与不同组织和个人的不同关系。 
显现 
图表显现器102以下列方式提供图表的增强可视表示: 
·节点外形宽度表明某一网络中哪个节点是中心。 
·节点颜色对节点的已命名实体标签(例如个人,组织)进行编码。颜色的强度表明该节点与当前选择的中心节点相关的程度(例如深绿色节点是与X强烈相关的组织,淡蓝色节点是与X不那么相关的位置)。 
·边颜色反映关系所属的分类。 
·边厚度反映关系的强度。 
·刷涂和链接用于显示基于特征的图表。在信息显现中,刷涂和链接用于动态地表明相关实体。在多个显示以不同形式呈现相同底层数据的情况下,刷涂和链接是特别有用的。在这种情况下,在一个显示中“刷涂”一个数据项造成在所有其他显示(“链接的”)中刷涂相同项。在优选实施例中,用户可以选择将在构造基于特征的图表中被考虑的特征。当刷涂为激活时,节点的颜色强度反映其属于图表的程度。例如,如果图表表示某人并且希望关注与特定组织相关的其他人;所得新图表是包括仅与该组织相关的人的子图表。 
·时间滑块允许用户在时间上前后移动。作为该移动的结果,创建时间图表。这些时间图表反映在特定时间的关系和相关实体。然而,这些图表不针对每次滑块移动进行显示。实体的节点的颜色强度可以变化以反映在它与主实体之间的关系的变化强度。因此,随着滑块移动,某些节点变暗淡出并且其他节点变亮;关系越远离(过去或将来)当前选择时间,相关节点看起来越暗。在所选时间处与中心实体相关的实体看起来最亮。 
本领域技术人员将认识到,尽管适于操作本发明的数据处理系统的完整结构未在此描述,其结构和操作可以符合本领域已知的现有实现。特别地,注意到,本方法的步骤可以从通过任何类型计算机网络(公共或专用)连接的分布式系统在客户端-服务器模式中操作。 
尽管已经参照优选实施例特别地示出和描述了本发明。应该理解,在不脱离本发明的精神和范围的前提下,可以做出形式和细节 上的各种改变。 

Claims (36)

1.一种用于从非结构化文本自动提取和挖掘关系和相关实体以用于搜索领域的方法,所述方法包括以下步骤:
·接收指定主实体的查询;
·从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,所述步骤包括进一步的步骤:
·在非结构化文本中搜索和选择包含主实体的文档,
·向所选文档的每个词附加一个或多个标签,每个标签是不同类型的;
·通过将图案应用到所述加标签的文档来提取关系和相关实体;
·从所选文档提取表征每个实体和关系的特征,该步骤进一步包括:使每个关系与以下内容相关联:关系类;和/或关系强度;和/或时间信息;
·基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。
2.根据权利要求1的方法,包括进一步的步骤:
·操纵所得图表以更加了解其包含的信息。
3.根据权利要求1或2所述的方法,其中向所选文档的每个词附加一个或多个标签,每个标签是不同类型的步骤包括以下步骤:
·对所选文档应用语法和语义标签器以提取已命名实体、词汇类型以及词的语义。
4.根据权利要求1或2所述的方法,其中操纵所得图表以更加了解其包含的信息的步骤包括进一步的步骤:
·接收图表查询以根据特定标准获得相关实体和关系的特定表示;
·响应于所述图表查询,生成输出图表,其根据图表查询中指定的标准表示实体以及它们的关系。
5.根据权利要求4的方法,其中所述标准是时间标准或者是与一个或多个与关系和相关实体相关联的特征相关的条件或/和约束。
6.根据权利要求1或2所述的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·使表示实体的每个节点与基于表征所述关系和相关实体的特征的值的矢量相关联。
7.根据权利要求1或2所述的方法,其中从在包含主实体的所选文档内频繁出现某实体的上下文中导出表征该实体的一个或多个特征。
8.根据权利要求6所述的方法,其中与表征实体的特征相关联的值基于相关联的实体出现所述特征的概率。
9.根据权利要求1或2所述的方法,其中生成输出图表的步骤包括进一步的步骤:
·在图表上显现:
·关系类;
·关系强度;
·时间信息。
10.根据权利要求9的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·根据关系的语义意义将关系分类在预定类别中。
11.根据权利要求9的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·基于节点间的距离扩展图表;所述步骤包括进一步的步骤:
·选择一个或多个扩展的实体;
·从非结构化文本提取与所述扩展的实体相关的关系和相关实体。
12.根据权利要求11所述的方法,其中所述一个或多个扩展的实体是接近主实体的实体。
13.根据权利要求1或2所述的方法,包括从非结构化文本导入图案的预备步骤,所述步骤包括进一步的步骤:
·向非结构化文本的每个词附加一个或多个不同类型的标签;
·定义一个或多个模板,每个模板基于标签的序列;
·从每个模板生成一个或多个图案,每个图案指定用于模板中每个标签的角色。
14.根据权利要求1或2所述的方法,其中标签是语音标签或已命名实体标签或语义标签器或任何其他类型的标签。
15.根据权利要求13所述的方法,其中定义基于标签的序列的一个或多个模板的步骤包括进一步的步骤:
·选择模板的初始集合;
·滤出在有限状态机中具有较低可能性的模板。
16.根据权利要求13所述的方法,其中从每个模板生成一个或多个图案的步骤包括进一步的步骤:
·从模板的初始集合生成图案的初始集合;
·将图案的初始集合中包含的每个图案应用于非结构化文本,以针对每个图案获得尽可能多的与所述图案匹配的元组,元组是应用图案到非结构化文本的结果;
·识别信息量最大的图案。
17.根据权利要求16的方法,其中识别信息量最大的图案的步骤包括进一步的步骤:
·运行超文本引导主题选择算法。
18.根据权利要求13所述的方法,其中每个图案针对模板中的每个标签指定该标签是第一实体、第二实体还是关系。
19.一种用于从非结构化文本自动提取和挖掘关系和相关实体以用于搜索领域的系统,所述系统包括:
·用于接收指定主实体的查询的模块;
·用于从非结构化文本提取与查询中指定的主实体相关的关系和相关实体的模块,进一步包括:
·用于在非结构化文本中搜索和选择包含主实体的文档的模块,
·用于向所选文档的每个词附加一个或多个标签的模块,每个标签是不同类型的;
·用于通过将图案应用到所述加标签的文档来提取关系和相关实体的模块;
·用于从所选文档提取表征每个实体和关系的特征的模块,进一步包括:用于使每个关系与以下内容相关联的模块:关系类;和/或关系强度;和/或时间信息;
·用于基于所提取特征构造图表的模块,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。
20.根据权利要求19的系统,进一步包括:
·用于操纵所得图表以更加了解其包含的信息的模块。
21.根据权利要求19或20所述的系统,其中用于向所选文档的每个词附加一个或多个标签的模块包括:
·用于对所选文档应用语法和语义标签器以提取已命名实体、词汇类型以及词的语义的模块。
22.根据权利要求19或20所述的系统,其中用于操纵所得图表以更加了解其包含的信息的模块进一步包括:
·用于接收图表查询以根据特定标准获得相关实体和关系的特定表示的模块;
·用于响应于所述图表查询,生成输出图表的模块,其根据图表查询中指定的标准表示实体以及它们的关系。
23.根据权利要求22的系统,其中所述标准是时间标准或者是与一个或多个与关系和相关实体相关联的特征相关的条件或/和约束。
24.根据权利要求19或20所述的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于使表示实体的每个节点与基于表征所述关系和相关实体的特征的值的矢量相关联的模块。
25.根据权利要求19或20所述的系统,其中包括用于从在包含主实体的所选文档内频繁出现某实体的上下文中导出表征该实体的一个或多个特征的模块。
26.根据权利要求24所述的系统,其中与表征实体的特征相关联的值基于相关联的实体出现所述特征的概率。
27.根据权利要求19或20所述的系统,其中用于生成输出图表的模块进一步包括:
·用于在图表上显现:关系类、关系强度和时间信息的模块。
28.根据权利要求27的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于根据关系的语义意义将关系分类在预定类别中的模块。
29.根据权利要求27的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于基于节点间的距离扩展图表的模块,该模块进一步包括:
·用于选择一个或多个扩展的实体的模块;
·用于从非结构化文本提取与所述扩展的实体相关的关系和相关实体的模块。
30.根据权利要求29所述的系统,其中所述一个或多个扩展的实体是接近主实体的实体。
31.根据权利要求19或20所述的系统,包括用于从非结构化文本导入图案的模块,所述模块进一步包括:
·用于向非结构化文本的每个词附加一个或多个不同类型的标签的模块;
·用于定义一个或多个模板,每个模板基于标签的序列的模块;
·用于从每个模板生成一个或多个图案,每个图案指定用于模板中每个标签的角色的模块。
32.根据权利要求19或20所述的系统,其中标签是语音标签或已命名实体标签或语义标签器或任何其他类型的标签。
33.根据权利要求31所述的系统,其中用于定义基于标签的序列的一个或多个模板的模块进一步包括:
·用于选择模板的初始集合的模块;
·用于滤出在有限状态机中具有较低可能性的模板的模块。
34.根据权利要求31所述的系统,其中用于从每个模板生成一个或多个图案的模块进一步包括:
·用于从模板的初始集合生成图案的初始集合的模块;
·用于将图案的初始集合中包含的每个图案应用于非结构化文本,以针对每个图案获得尽可能多的与所述图案匹配的元组的模块,其中元组是应用图案到非结构化文本的结果;
·用于识别信息量最大的图案的模块。
35.根据权利要求34的系统,其中用于识别信息量最大的图案的模块进一步包括:
·用于运行超文本引导主题选择算法的模块。
36.根据权利要求31所述的系统,其中每个图案针对模板中的每个标签指定该标签是第一实体、第二实体还是关系。
CN2006800415253A 2005-11-29 2006-09-18 从非结构化文本提取和显现图表结构化关系的方法和系统 Expired - Fee Related CN101305366B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05111462.7 2005-11-29
EP05111462 2005-11-29
PCT/EP2006/066457 WO2007062885A1 (en) 2005-11-29 2006-09-18 Method and system for extracting and visualizing graph-structured relations from unstructured text

Publications (2)

Publication Number Publication Date
CN101305366A CN101305366A (zh) 2008-11-12
CN101305366B true CN101305366B (zh) 2013-02-06

Family

ID=37396033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800415253A Expired - Fee Related CN101305366B (zh) 2005-11-29 2006-09-18 从非结构化文本提取和显现图表结构化关系的方法和系统

Country Status (3)

Country Link
US (1) US7730085B2 (zh)
CN (1) CN101305366B (zh)
WO (1) WO2007062885A1 (zh)

Families Citing this family (188)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480510B1 (en) * 1998-07-28 2002-11-12 Serconet Ltd. Local area network of serial intelligent cells
EP1510941A1 (en) 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510938B1 (en) * 2003-08-29 2014-06-18 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510940A1 (en) 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510939A1 (en) 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2007102320A1 (ja) * 2006-03-07 2007-09-13 Nec Corporation 言語処理システム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8812957B2 (en) * 2007-01-31 2014-08-19 Adobe Systems Incorporated Relevance slider in a site analysis report
US8099491B2 (en) * 2007-01-31 2012-01-17 Adobe Systems Incorporated Intelligent node positioning in a site analysis report
US7877343B2 (en) * 2007-04-02 2011-01-25 University Of Washington Through Its Center For Commercialization Open information extraction from the Web
GB0713404D0 (en) * 2007-07-11 2007-08-22 Integra Sp Ipr Ltd Altio graph
US20090070130A1 (en) * 2007-09-12 2009-03-12 Neelakantan Sundaresan Reputation scoring
US20090070460A1 (en) * 2007-09-12 2009-03-12 Ebay Inc. Method and system for social network analysis
US8326823B2 (en) * 2007-11-01 2012-12-04 Ebay Inc. Navigation for large scale graphs
US7992104B2 (en) * 2007-11-13 2011-08-02 Microsoft Corporation Viewing data
WO2009148473A1 (en) * 2007-12-12 2009-12-10 21Ct, Inc. Method and system for abstracting information for use in link analysis
US7840548B2 (en) * 2007-12-27 2010-11-23 Yahoo! Inc. System and method for adding identity to web rank
US20090182759A1 (en) * 2008-01-11 2009-07-16 Yahoo! Inc. Extracting entities from a web page
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
NO330635B1 (no) * 2008-12-12 2011-05-30 Microsoft Int Holdings B V Fremgangsmåte for å utvinne relasjoner mellom ord eller tegn i tekstlig innhold
US8219513B2 (en) * 2008-12-19 2012-07-10 Eastman Kodak Company System and method for generating a context enhanced work of communication
US9171077B2 (en) * 2009-02-27 2015-10-27 International Business Machines Corporation Scaling dynamic authority-based search using materialized subgraphs
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
MX2012003721A (es) 2009-09-30 2012-06-28 Evan V Chrapko Sistemas y metodos para analitica de datos graficos sociales para determinar conectividad dentro de una comunidad.
US20110099164A1 (en) 2009-10-23 2011-04-28 Haim Zvi Melman Apparatus and method for search and retrieval of documents and advertising targeting
US20110145710A1 (en) * 2009-12-16 2011-06-16 Sap Ag Framework to visualize networks
US9244965B2 (en) 2010-02-22 2016-01-26 Thoughtwire Holdings Corp. Method and system for sharing data between software systems
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102207936B (zh) * 2010-03-30 2013-10-23 国际商业机器公司 用于提示电子文档内容变更的方法和系统
CN102214179A (zh) * 2010-04-12 2011-10-12 无锡科利德斯科技有限公司 网络信息抓取方法
CN102844755A (zh) * 2010-04-27 2012-12-26 惠普发展公司,有限责任合伙企业 提取命名实体的方法
US9037615B2 (en) * 2010-05-14 2015-05-19 International Business Machines Corporation Querying and integrating structured and unstructured data
US9990429B2 (en) * 2010-05-14 2018-06-05 Microsoft Technology Licensing, Llc Automated social networking graph mining and visualization
US8890890B2 (en) * 2010-05-26 2014-11-18 Microsoft Corp. Pluggable web-based visualizations for applications
US20110302149A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Identifying dominant concepts across multiple sources
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
CN102298588B (zh) * 2010-06-25 2014-04-30 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN102314424B (zh) * 2010-07-01 2017-03-01 商业对象软件有限公司 文件的基于维度的关系图示
US8671040B2 (en) * 2010-07-23 2014-03-11 Thomson Reuters Global Resources Credit risk mining
EP2616926A4 (en) 2010-09-24 2015-09-23 Ibm PROVISION OF QUESTIONS AND ANSWERS WITH DELAYED ASSESSMENT ON THE BASIS OF TEXT WITH LIMITED STRUCTURE
CA2812338C (en) 2010-09-24 2019-08-13 International Business Machines Corporation Lexical answer type confidence estimation and application
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
CN103221915B (zh) 2010-09-24 2017-02-08 国际商业机器公司 在开域类型强制中使用本体信息
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
US8719007B2 (en) 2010-09-27 2014-05-06 Hewlett-Packard Development Company, L.P. Determining offer terms from text
WO2012047541A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622510A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US9317586B2 (en) 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US8977979B2 (en) * 2010-12-06 2015-03-10 International Business Machines Corporation Social network relationship mapping
US9928296B2 (en) 2010-12-16 2018-03-27 Microsoft Technology Licensing, Llc Search lexicon expansion
US8515183B2 (en) 2010-12-21 2013-08-20 Microsoft Corporation Utilizing images as online identifiers to link behaviors together
US20120197758A1 (en) * 2011-01-27 2012-08-02 Ebay Inc. Computation of user reputation based on transaction graph
CN102646099B (zh) * 2011-02-21 2014-08-06 株式会社理光 模式匹配系统、模式映射系统及方法
US9064004B2 (en) * 2011-03-04 2015-06-23 Microsoft Technology Licensing, Llc Extensible surface for consuming information extraction services
US8589408B2 (en) 2011-06-20 2013-11-19 Microsoft Corporation Iterative set expansion using samples
US8386457B2 (en) 2011-06-22 2013-02-26 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
US8893008B1 (en) 2011-07-12 2014-11-18 Relationship Science LLC Allowing groups expanded connectivity to entities of an information service
US8566345B2 (en) 2011-07-14 2013-10-22 International Business Machines Corporation Enterprise intelligence (‘EI’) reporting in an EI framework
US9659266B2 (en) 2011-07-14 2017-05-23 International Business Machines Corporation Enterprise intelligence (‘EI’) management in an EI framework
US9646278B2 (en) 2011-07-14 2017-05-09 International Business Machines Corporation Decomposing a process model in an enterprise intelligence (‘EI’) framework
US9639815B2 (en) 2011-07-14 2017-05-02 International Business Machines Corporation Managing processes in an enterprise intelligence (‘EI’) assembly of an EI framework
WO2013029146A1 (en) * 2011-08-29 2013-03-07 Woznew Inc. System and method for identifying groups of entities
US8478046B2 (en) 2011-11-03 2013-07-02 Xerox Corporation Signature mark detection
US9201964B2 (en) 2012-01-23 2015-12-01 Microsoft Technology Licensing, Llc Identifying related entities
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9251180B2 (en) 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10621880B2 (en) 2012-09-11 2020-04-14 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9262501B2 (en) * 2012-12-13 2016-02-16 Vinayak Borkar Method, apparatus, and computer-readable medium for optimized data subsetting
US9183600B2 (en) 2013-01-10 2015-11-10 International Business Machines Corporation Technology prediction
US9026524B1 (en) 2013-01-10 2015-05-05 Relationship Science LLC Completing queries using transitive closures on a social graph
US9443274B1 (en) 2013-01-10 2016-09-13 Relationship Science LLC System watches for new paths to a target in a social graph
US9742843B2 (en) 2013-03-14 2017-08-22 Thoughtwire Holdings Corp. Method and system for enabling data sharing between software systems
US10372442B2 (en) 2013-03-14 2019-08-06 Thoughtwire Holdings Corp. Method and system for generating a view incorporating semantically resolved data values
US10313433B2 (en) 2013-03-14 2019-06-04 Thoughtwire Holdings Corp. Method and system for registering software systems and data-sharing sessions
US9477759B2 (en) 2013-03-15 2016-10-25 Google Inc. Question answering using entity references in unstructured data
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9811866B1 (en) 2013-07-20 2017-11-07 Relationship Science LLC News alerts based on user analytics
US9348947B2 (en) 2013-07-26 2016-05-24 Helynx, Inc. Systems and methods for visualizing and manipulating graph databases
US10776965B2 (en) * 2013-07-26 2020-09-15 Drisk, Inc. Systems and methods for visualizing and manipulating graph databases
US9760655B2 (en) 2013-09-03 2017-09-12 International Business Machines Corporation Systems and methods for discovering temporal patterns in time variant bipartite graphs
EP2857998A1 (en) * 2013-10-07 2015-04-08 Agfa Healthcare Method of formalizing temporal aspects in events of an electronic patient record
CN105706078B (zh) * 2013-10-09 2021-08-03 谷歌有限责任公司 实体集合的自动定义
US20170068896A1 (en) * 2014-03-03 2017-03-09 Agfa Healthcare Nv Specialisation mechanism for terminology reasoning
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) * 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10325205B2 (en) * 2014-06-09 2019-06-18 Cognitive Scale, Inc. Cognitive information processing system environment
US10395174B2 (en) * 2014-06-09 2019-08-27 Cognitive Scale, Inc. Method for performing insight operations within a cognitive environment
US9665825B2 (en) 2014-06-09 2017-05-30 Cognitive Scale, Inc. System for refining cognitive insights using cognitive graph vectors
US10325203B2 (en) * 2014-06-09 2019-06-18 Cognitive Scale, Inc. Insight engine for use within a cognitive environment
US9898552B2 (en) 2014-06-09 2018-02-20 Wayblazer, Inc. System for refining cognitive insights using travel-related cognitive graph vectors
US10318561B2 (en) 2014-06-09 2019-06-11 Realpage, Inc. Method for refining cognitive insights using travel-related cognitive graph vectors
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105468605B (zh) * 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US9928623B2 (en) 2014-09-12 2018-03-27 International Business Machines Corporation Socially generated and shared graphical representations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
WO2016068955A1 (en) * 2014-10-30 2016-05-06 Hewlett Packard Enterprise Development Lp Data entries having values for features
USD776713S1 (en) 2014-12-17 2017-01-17 Rgi Informatics, Llc Display device with a timeline graphical user interface
WO2016101133A1 (en) 2014-12-23 2016-06-30 Microsoft Technology Licensing, Llc Surfacing relationships between datasets
US9569733B2 (en) * 2015-02-20 2017-02-14 International Business Machines Corporation Extracting complex entities and relationships from unstructured data
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578043B2 (en) 2015-03-20 2017-02-21 Ashif Mawji Calculating a trust score
US11416216B2 (en) 2015-05-22 2022-08-16 Micro Focus Llc Semantic consolidation of data
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10387471B2 (en) 2015-07-30 2019-08-20 Energage, Llc Unstructured response extraction
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10572501B2 (en) 2015-12-28 2020-02-25 International Business Machines Corporation Steering graph mining algorithms applied to complex networks
US10360501B2 (en) 2015-12-31 2019-07-23 International Business Machines Corporation Real-time capture and translation of human thoughts and ideas into structured patterns
US10592603B2 (en) 2016-02-03 2020-03-17 International Business Machines Corporation Identifying logic problems in text using a statistical approach and natural language processing
US11042702B2 (en) 2016-02-04 2021-06-22 International Business Machines Corporation Solving textual logic problems using a statistical approach and natural language processing
US20170235792A1 (en) 2016-02-17 2017-08-17 Www.Trustscience.Com Inc. Searching for entities based on trust score and geography
US9679254B1 (en) 2016-02-29 2017-06-13 Www.Trustscience.Com Inc. Extrapolating trends in trust scores
CN107168939A (zh) * 2016-03-07 2017-09-15 阿里巴巴集团控股有限公司 一种数据到图表的转换方法和装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10878341B2 (en) * 2016-03-18 2020-12-29 Fair Isaac Corporation Mining and visualizing associations of concepts on a large-scale unstructured data
US9721296B1 (en) 2016-03-24 2017-08-01 Www.Trustscience.Com Inc. Learning an entity's trust model and risk tolerance to calculate a risk score
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10235028B2 (en) * 2016-06-10 2019-03-19 International Business Machines Corporation Text extraction on graphs
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10558754B2 (en) 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN107871078A (zh) * 2016-09-27 2018-04-03 北京计算机技术及应用研究所 非结构化文本中提取漏洞信息的方法
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN108228676B (zh) * 2016-12-22 2021-08-13 腾讯科技(深圳)有限公司 信息抽取方法和系统
US10657163B2 (en) * 2017-02-22 2020-05-19 Open Text Sa Ulc Systems and methods for tracking assets across a distributed network environment
US10180969B2 (en) * 2017-03-22 2019-01-15 Www.Trustscience.Com Inc. Entity resolution and identity management in big, noisy, and/or unstructured data
US10621177B2 (en) 2017-03-23 2020-04-14 International Business Machines Corporation Leveraging extracted entity and relation data to automatically filter data streams
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
CN107247739B (zh) * 2017-05-10 2019-11-01 浙江大学 一种基于因子图的金融公报文本知识提取方法
JP6370961B2 (ja) * 2017-05-10 2018-08-08 アイマトリックス株式会社 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10534825B2 (en) 2017-05-22 2020-01-14 Microsoft Technology Licensing, Llc Named entity-based document recommendations
US10540440B2 (en) 2017-06-05 2020-01-21 International Business Machines Corporation Relation extraction using Q and A
US10592738B2 (en) 2017-12-01 2020-03-17 International Business Machines Corporation Cognitive document image digitalization
US11221856B2 (en) * 2018-05-31 2022-01-11 Siemens Aktiengesellschaft Joint bootstrapping machine for text analysis
WO2020005369A1 (en) 2018-06-28 2020-01-02 Google Llc Annotation and retrieval of contextual deep bookmarks
AU2018223011A1 (en) * 2018-08-30 2020-03-19 Flamingo Ai Limited Method and system for administering a network data structure
WO2020055910A1 (en) 2018-09-10 2020-03-19 Drisk, Inc. Systems and methods for graph-based ai training
US11194849B2 (en) 2018-09-11 2021-12-07 International Business Machines Corporation Logic-based relationship graph expansion and extraction
JP7286291B2 (ja) * 2018-09-28 2023-06-05 株式会社東芝 固有表現抽出装置、方法およびプログラム
USD928198S1 (en) 2018-12-05 2021-08-17 Traddictiv Pte. Ltd. Electronic device display screen or portion thereof with graphical user interface
US11216614B2 (en) 2019-07-25 2022-01-04 Wipro Limited Method and device for determining a relation between two or more entities
US11275777B2 (en) 2019-08-22 2022-03-15 International Business Machines Corporation Methods and systems for generating timelines for entities
CN111177315B (zh) * 2019-12-19 2023-04-28 北京明略软件系统有限公司 知识图谱的更新方法、装置及计算机可读存储介质
CN113127555A (zh) * 2019-12-30 2021-07-16 北京阿博茨科技有限公司 一种数据可视化画法匹配装置及方法
CN111522967B (zh) * 2020-04-27 2023-09-15 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备以及存储介质
CN111897911B (zh) * 2020-06-11 2021-08-31 中国科学院计算机网络信息中心 一种基于次级属性图的非结构化数据查询方法及系统
KR102233464B1 (ko) * 2020-08-13 2021-03-30 주식회사 스탠다임 문서 데이터에서 질병 관련 인자들 간의 관계를 추출하는 방법 및 이를 이용하여 구축되는 시스템
CN112151186A (zh) * 2020-10-05 2020-12-29 河南大学 一种在医疗文本中提取疾病诱因、病因的方法及装置及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001270069A1 (en) * 2000-06-23 2002-01-08 The Johns-Hopkins University Architecture for distributed database information access
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
WO2003001413A1 (en) * 2001-06-22 2003-01-03 Nosa Omoigui System and method for knowledge retrieval, management, delivery and presentation
AUPR796701A0 (en) * 2001-09-27 2001-10-25 Plugged In Communications Pty Ltd Database query system and method
US20040083199A1 (en) * 2002-08-07 2004-04-29 Govindugari Diwakar R. Method and architecture for data transformation, normalization, profiling, cleansing and validation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAJARAMAN K ET AL.Knowledge discovery from texts: a concept frame graphapproach.PROCEEDINGS OF THE ELEVENTH INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT. CIKM 2002.2002,669-671. *
RAJARAMAN K ET AL.Mining Semantic Networks for Knowledge Discovery.THIRD IEEE INTERNATIONAL CONFERENCE ON DATA MINING,2003.2003,633-636. *

Also Published As

Publication number Publication date
US20070124291A1 (en) 2007-05-31
US7730085B2 (en) 2010-06-01
WO2007062885A1 (en) 2007-06-07
CN101305366A (zh) 2008-11-12

Similar Documents

Publication Publication Date Title
CN101305366B (zh) 从非结构化文本提取和显现图表结构化关系的方法和系统
CN104239513B (zh) 一种面向领域数据的语义检索方法
US6965900B2 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
US20030115188A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
CN107844533A (zh) 一种智能问答系统及分析方法
Zhang et al. A coarse-to-fine framework to efficiently thwart plagiarism
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN105335510A (zh) 文本数据高效搜索方法
CN117271767B (zh) 基于多智能体的运维知识库的建立方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN109033272A (zh) 一种基于概念的知识自动关联方法及装置
CN105160046A (zh) 基于文本的数据检索方法
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
CN115935983A (zh) 事件抽取方法、装置、电子设备及存储介质
Mittal et al. A COMPARATIVE STUDY OF ASSOCIATION RULE MINING TECHNIQUES AND PREDICTIVE MINING APPROACHES FOR ASSOCIATION CLASSIFICATION.
CN114328841A (zh) 问答模型训练方法及装置、问答方法及装置
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
De Martino et al. Multi-view overlapping clustering for the identification of the subject matter of legal judgments
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN116401338A (zh) 一种基于数据资产智能检索输入输出要求设计特征提取和注意力机制及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130206

Termination date: 20200918

CF01 Termination of patent right due to non-payment of annual fee