发明内容
本发明的目的在于提供一种实体信息图谱生成方法及装置,能更好地通过挖掘有用信息从而形成实体信息图谱。
根据本发明的一个方面,提供了一种实体信息图谱生成方法,包括:
从本地和/或网络中采集文本文件;
根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
优选地,所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤包括:
通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其词性;
根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性;
提取所确定的命名实体,以及命名实体的关系属性。
优选地,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之后,还包括:
将各文本文件中分别抽取的与时间相关的命名实体进行归一化处理,得到时间归一化的命名实体;
将各文本文件中分别抽取的与地点相关的命名实体进行归一化处理,得到地点归一化的命名实体。
优选地,所述的根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系的步骤包括:
在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置;
利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系。
优选地,所述的根据预定义事件名,查找与其有关的命名实体的步骤包括:
在所采集的各文本文件中,确定预定义事件名在文本文件中的位置;
利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
优选地,所述的以预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱的步骤包括:
根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览;
通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览;
利用所形成的跨文本的各个全局实体概览,形成实体信息图谱。
优选地,所述实体概览包括事件类概览和命名实体类概览,在同一文本文件中,利用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及相应的实体关系,形成命名实体类概览。
优选地,通过确定具有相同命名的实体概览的相似度,对各个文本文件的实体概览进行消歧处理。
优选地,通过将各个全局实体概览的命名实体作为节点,将各个全局实体概览的实体关系作为边,形成所述实体信息图谱。
根据本发明的另一方面,提供了一种实体信息图谱生成装置,包括:
采集模块,用于从本地和/或网络中采集文本文件;
抽取模块,用于根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
关联模块,用于根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
绑定模块,用于根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
聚合模块,用于以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
与现有技术相比较,本发明的有益效果在于:
本发明能够将非结构化文本数据转化为结构化数据,及时、大量、准确的获取用户需求的信息,并通过多维复杂的知识图谱体现信息之间的内部关系。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明实施例提供的实体信息图谱生成方法原理图,如图1所示,步骤包括:
步骤S101:从本地和/或网络中采集文本文件。
具体地说,采集文本文件的方式主要有以下三种:
1、利用网络爬虫(预定义网址)获取网络中的文本文件;
2、通过现有的搜索引擎获取文本文件;
3、从本地获取文本文件。
步骤S102:根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性。
所述命名实体是现实世界中的物体,例如:人物、地点、公司、学校等,每个命名实体都有自己的属性,所述属性包括命名实体的关系属性和特征属性,其中,所述关系属性用来与其它命名实体进行关联,所述特征属性用来表征命名实体本身具备的特征。
具体地说,通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其词性,并根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性,并提取所确定的命名实体,以及命名实体的关系属性。此外,根据每个不同的命名实体的属性定义,抽取命名实体的特征属性。
所述预先定义的类别名包括时间、地点、人物、组织机构等,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之后,将各文本文件中分别抽取的与时间和/或地点相关的命名实体进行归一化处理,得到时间和/或地点归一化的命名实体。例如,对于与时间相关的命名实体,将1999年8月1号下午3点24分24秒和一九九九年八月一日15点24分24秒进行时间归一化,标准ISO6801(19990801152424),以供后期进行合并。对于与地点相关的命名实体进行地点归一化处理(例如通过最大生成树算法(MST)),得到地点的标准格式(国家.省/州/自治区.城市.区.镇,以及经纬度),以供后期进行合并。
步骤S103:根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。
具体地说,在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置,并利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系。换句话说,命名实体及其属性满足预定的语法排列规则,则确定已识别出实体关系,可以对其进行抽取。
在所述步骤S102和所述步骤103中,可以通过机器学习(例如条件随机场(CRF)算法或隐马模型(HMM)等)和层叠自动机(FST)规则相结合的方式实现上述步骤的命名实体和实体关系的自动识别。
步骤S104:根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定。
具体地说,在所采集的各文本文件中,确定预定义事件名在文本文件中的位置,并利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
步骤S105:以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
具体地说,根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览,并通过确定具有相同命名的实体概览的相似度(例如采用权值法和空间向量模块计算实体概览间的相似度),对各个文本文件的实体概览进行消歧处理,以便将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览,最后将所形成的跨文本的各个全局实体概览的命名实体作为节点,将各个全局实体概览的实体关系作为边,形成所述实体信息图谱。其中,所述实体概览包括事件类概览和命名实体类概览其中,在同一文本文件中,利用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及相应的实体关系,形成命名实体类概览。
进一步说,在同一文章中,实体的信息可能出现在不同的句子和段落中,本发明利用实体概览(利用别名关系和指代关系进行指代消解,可以采用支持向量机或决策树算法等实现)将文章中相同的实体信息合并一起,例如:1、李鹏是总理,他的夫人是XXX。他指代李鹏,是一种指代关系。2、中国石油化工集团是我国最大的能源公司,中石化年销售…。中石化是中国石油化工集团的简称,可以认为是一种别名关系。换句话说,通过别名关系和指代关系,以及一个分词在同一篇文章只有一个意思的原则,进行篇章内部实体概览的合并。然后,通过跨文本实体信息辨析和实体消歧,将多个篇章的同一命名的实体概览进行合并,得到合并后的全局实体概览。
本发明首先根据不同的实体信息对象的属性,通过自然语言处理和信息抽取技术,提取单个文本中的信息对象属性,进行本地以及全局信息聚合,聚合形成复杂多维的实体信息网络关系图谱,将传统的“关键词”搜索表现为实体信息对象及其关系搜索,可以从更精细的角度来理解和组织搜索结果。
图2是本发明实施例提供的实体信息图谱生成装置框图,如图2所示,包括采集模块201、抽取模块202、关联模块203、绑定模块204和聚合模块205,其中:
所述采集模块201从本地和/或网络中采集文本文件。
具体地说,所述采集模块201可以通过以下方式采集文本文件:
1、利用网络爬虫(预定义网址)获取网络中的文本文件;
2、通过现有的搜索引擎获取文本文件;
3、从本地获取文本文件。
所述抽取模块202根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性。具体地说,所述抽取模块202通过对从网络中采集的与所述关键词关联的文本文件进行分解,得到文本文件的分词及其词性,并根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性和特征属性,并提取所确定的命名实体,以及命名实体的关系属性和特征属性。所述预先定义的类别名包括时间、地点、人物、组织机构等,在从所采集的各文本文件中分别抽取与各个类别名相关的命名实体以及与各个关系字相关的命名实体的属性之后,将各文本文件中分别抽取的与时间和/或地点相关的命名实体进行归一化处理,得到时间和/或地点归一化的命名实体。
所述关联模块203根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。具体地说,所述关联模块203在所采集的各文本文件中,根据命名实体及其属性满足预定的语法排列规则,确定命名实体及其关系属性在文本文件中的位置,并利用所确定的命名实体及其关系属性在文本文件中的位置,将与所述邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系,实现实体关系的识别与提取。
所述绑定模块204根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定。具体地说,所述绑定模块204在所采集的各文本文件中,确定预定义事件名在文本文件中的位置,并利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
所述聚合模块205以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。进一步地,所述聚合模块205包括篇章内实体信息聚合子模块和多篇章实体信息聚合子模块。其中,所述篇章内实体信息聚合子模块根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览,例如,所述篇章内实体信息聚合子模块可以通过人物的别名关系和指代关系,聚合同一文本中的实体信息。所述多篇章实体信息聚合子模块通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览,从而利用所形成的跨文本的各个全局实体概览,形成实体信息图谱,例如,所述多篇章实体信息聚合子模块可以通过确定不同文本文件内的具有相同命名的实体概览的相似度,对各个文本文件的实体概览进行消歧处理,还可以通过确定不同文本文件内的命名实体与其它命名实体关联的相似度,对各个文本文件的命名实体的实体概览进行消歧处理。
利用上述方法,本发明能够实现文本中命名实体(人物、时间、地点、组织机构、数量等)和实体关系的自动识别,代词和名词的指代消解,以及跨文本的命名实体信息聚合等技术。进一步地,本发明利用通过信息抽取和处理,将非结构化文本数据转化为结构化数据,并以实体为节点,实体关系为边构建实体信息关系图谱,实现知识谱图。
图3是本发明实施例提供的实体信息图谱生成系统的硬件架构示意图,如图3所示,硬件平台的设计主要考虑系统整体的一些特性,即:海量数据存储、高速数据分析、易于扩展以及经济、可靠等。由于各种大型机在设备造价、维护成本以及易用性等方面的缺陷,为实现以上目标,本实施例的硬件平台将使用普通商用服务器搭建系统基础硬件平台,并将多个服务器形成数据分布式存储集群。
在图3所示硬件平台的基础上,本实施例的软件基础平台可以使用基于Hadoop的分布式系统平台,利用HBase实现对海量数据的分布式存储、管理以及对MapReduce实现分布式海量计算任务。软件基础平台的主要功能包括信息采集(例如采集门户网站、微博、博客、论坛等的互联网信息)、信息加工(例如进行自然语言处理、信息抽取、信息聚合等)、信息展示(例如按照时间序列、实体事件进行展示,或以自动问答方式进行展示,实现可视化)。其中,所述信息采集是将利用可定制的网络爬虫定点搜集监控特定的国内外网站,对于用户特别关注信息采用用户定制搜索。所述信息加工是依靠本发明提供的技术方案建立事件、命名实体(时间、地点、人物、组织机构等)概览及相互关系,形成以实体和事件为中心信息网络图,储存数据库。所述信息展示提供问答式搜索,多维信息网图的可视化(时间、地点、事件、人物及其关系)以及提供每日分析报告等。
具体地,实现信息采集功能的模块主要通过各种搜索引擎和网络爬虫技术实现用户自定义搜索和国内外相关网站的实时监控,包括微博、博客社交网站(如:Facebook)。用户可根据需求,自定义信息采集的关键词,系统将自动搜索相关内容。其主要功能有:用户采集内容定制,按照用户需求自动信息采集,更新,文档去重,网页内容分析提取,语言编码自动识别以及文本格式转换。
具体地,实现自然语言处理和信息抽取功能的模块是基于hadoop平台上运用mapreduce的分布式计算子系统,是整个智能信息搜集分析系统的核心技术模块,其对自然语言的处理和信息抽取的流程如图4所示。其中:
一、通过对从网络中采集的与所述关键词关联的文本文件进行分解,得到文本文件的分词及其词性,得到分词词性并进行词性标注是信息抽取的基础,分词词性标注主要有三个步骤:1、通过机器学习进行文档的分词及词性标注处理;2、使用预定义的规则,对分词词性标注结果进行纠正更新;3、导入常用词词典及动词用法词典等,以供后续命名实体(NameEntity,NE)及CE识别使用。
二、NE是与各个预先定义的类别名相关的表示关键信息的名词,所述类别名可以是人名、组织名、地名、时间、产品名、联系方式(电话号码、地址、电子邮件等),疾病名称等。NE识别包括两部分:1、机器学习方法识别命名实体,主要识别类型为人名(男、女)、机构名(政府机构、公司、学校)、地名(城市名、省名、国家名)等;2、使用规则方法识别联系方式(电子邮箱、电话号码、网址、传真、电报)、数字(序数、小数、分数、百分数)、时间词(小时、上午、下午、年、月、日、星期、季节、年代、世纪等)、度量衡(重量、长度、电磁剂量、温度、角度、面积、容积等)、货币(人民币、港元、澳元、日圆等)、比率(速度、价格(单价)、频率)、出版物(书籍、杂志、文章等被书名号《》包括的内容)。进一步地,由基本的人物、机构、地点、时间、数量、度量衡等,可以通过人工规则和机器学习方法扩展到产品、会议、品牌、交通工具等,并在tokenlist上加以标注,作为下一级输入。NE识别是构建实体信息图谱的关键技术之一,本实施例采用层叠自动机(FST)规则法和机器学习方法结合方法,如图5所示。命名实体识别包括FST模块和统计学模块。由于本实施例的系统是层级(pipeline)结构,上一级模块的输出为下一级的输入(以tokenlist表示),可以根据需要灵活选择方法以取得最佳实体标注效果。同时,FST的人工规则还可以作为种子词以实现半监督的机器学习方法。基于机器学习的统计学子模块可采用任一常用的统计方法,例如隐马模型(HMM)、条件随机场(CRF)等。
三、归一化是将需要进行比对的NE归一到一个统一的标准上,本实施例包括地点归一化和时间归一化。其中,所述地点归一化是为避免地名混淆问题,对地点进行行政体系上的归一化处理(例如利用MaxSpinTree算法),将地点表达为经纬度表达式,以及国家/州(省)/市(县)表达方式。例如,“香港”进行地点归一化处理后为“中国,香港”,“济南”进行地点归一化处理后为“中国,山东,济南”。所述时间归一化是将时间词所代表的时间点归一到公历的数字表示形态上,例如,1964年10月15日进行时间归一处理后为19641015000000,xxxx-xx-xx-xx-xx-xx对应年份-月份-日期-小时-分钟-秒钟。进一步地,还可以包括数量归一化和度量衡归一化,例如将“100”、“一百”统一表达成阿拉伯数字100,度量衡单位统一成公制。上述归一化的结果标注在tokenlist上。
四、指代消解对实体关系的提取具有重要意义,在中文行文中,很多信息是会聚合在指代词诸如人称代词、称谓名词、职位词等词之上的,本实施例所述指代消解是将被指代的人名实体与其指代词建立起关系,具体包括指代词消解和别名识别。
其中,所述指代词消解的消解对象主要包括人称代词(你、我、他等),称谓词(先生、女士等),指人名词(父亲、哥哥等),职位词(经理、总监等),以及中文中使用较多而形式很特殊的零形回指,例如,“1999年3月,马云正式辞去公职,Φ和他的团队回杭州”,句中Φ是最后一个小句被隐去的主语,指代对象为“马云”。所述别名识别中的别名是一种特殊的指代词,其本身可以是完整姓名的简称,也可以是完全无关的化名、假名,甚至是字符串,不限于姓名命名规则的用户名等,此类词的消解需要单独处理,换句换说,别名是指同一实体的其他称呼,比如,中国石油化工集团可以简称为中石化,在别名模块中,结合词表和规则方法以及模式匹配方法将实体和别名以三元组形式alias(实体,别名)标注在tokenlist结构上。
在指代消解中,利用词性标注和浅层句法分析结果,采用FST规则方法先将可文本内可能的指代词及其属性(人,物,单复数,角色,性别)在tokenlist上标注,在通过程序扫描文本将实体及可能指代词,通过决策树或者SVM分类方法得出相关的实体指代关系,并以三元组Coreference(实体,指代词)在tokenlist加以标注。
五、实体关系(CorrelatedEntity,CE):表示实体与实体之间的相关联系,比如:人物和所属工作单位,其根据预定义关系字,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。
1.CE识别首先对只需要NE识别结果的关系实体进行识别,例如“北京旭宏东方测控技术有限公司总经理郝然”,实体关系为:郝然=>北京旭宏东方测控技术有限公司,又例如“中国电力建设集团有限公司副总经理、党委常委王民浩”,实体关系为:王民浩=>中国电力建设集团有限公司。此类较复杂的并列句式在进行CE识别时不需要进行句法分析。
2.对于相对复杂的句式,需要进行浅层句法分析,包括组块分析(即短语分析)及句法分析。其中,所述组块分析主要是将句中的短语聚合在一起,以供后续句法结构分析,重点是对名词短语(NP)、动词短语(VP),以及介词短语(PP)进行了识别,例如,对“在1996年他再开设另一间店铺”的分析结果为:[在1996年]/PP[他]/r[再开设]/VP[另一间店铺]/NP。在短语分析完成后进行句法分析,即分析句式中的主谓宾结构(SVO),系统中句法成分的表现方式为各组块间建立起句法关系,例如,对“在1996年他再开设另一间店铺”的句法分析结果为:VS(谓语_主语):再开设=>他;VO(谓语_宾语):再开设=>另一间店铺;V_AD(谓语_状语):再开设=>在1996年。
进一步地,句法分析时还需要对基本语义进行分析,如动词的否定形式、被动形式等,例如,“她不是闽南人,是鲁南人。”,第一个谓词“是”是否定形态,在后期使用这一关系时,要做否定判定;又例如,“林肯被布斯枪杀。”,谓语动词“枪杀”的逻辑主语是“布斯”,而逻辑宾语“林肯”。
在句法分析的基础上,再次进行CE识别,例如,对“她不是闽南人,是鲁南人。”,存在CE关系:人物与家乡,即她=>鲁南。而通过句法分析的结果,谓语动词“是”的否定形式,可知同一个类型的关系:她=>闽南,是不成立的。
在识别实体关系的模块,系统也可以分成两个子模块,采用FST语法规则和统计方法结合的方法,形成三元组R(Ne1,Ne2),同样在tokenlist加以标注。
六、预定义事件(PredefinedEvents,PE)是对动词及其对应主谓语等做出了预先定义的事件,系统中事件的表现形式是以谓语动词为中心的一系列关系。例如,“2013年5月10日,马云卸任阿里巴巴集团CEO。”,定义事件:离职;其表现为:离职_人:卸任=>马云;离职_职位:卸任=>CEO;离职_机构:卸任=>阿里巴巴集团;离职_时间:卸任=>2013年5月10日。可见,根据预定义事件名,可以查找与其有关的命名实体,将预定义事件名与查找到的命名实体进行绑定。
七、系统对单篇文章中的信息,抽取的结果形成概览profile进行存储,所述profile分有两大类:以命名实体为核心的NE类profile和以事件为核心的events类profile。本实施例利用指代关系和实体的别名关系,完成文本中的实体信息聚合,使得同一文本中的同一实体信息整合为一个实体概览,即将所有实体看做信息实体对象,如图6所示。对于同名的实体,按照一篇文章内一个名字代表一个意思的原则,进行合并。例如:人物的Profile定义如表1所示:
实现跨文本信息聚合的模块实际上是将各个文本中的分散的,片段的信息以实体和事件有中心,通过实体关系连接聚合在一起,以得到事物的全貌,对于人们理解自然事物及其事物发展有着重要作用。在不同的文本源中,相同的名字可能表示不同的实体,不同的名字也可能表示相同的实体,这种现象的存在极大的制约着信息抽取技术应用的可靠性与实用性。因此需要在数百万计的文本中,进行实体名称辨析。对于基本的命名实体,人名相对于地名、组织机构、时间有更强的歧义性(同名人物,昵称等),解决难度也更高。组织机构名称的具有单一性,可以通过自然语言处理技术对于别名和简称的处理就可以得到较好的效果,对于时间和地点的信息聚合,可以通过时间、地点的归一化技术处理完成。对于人物实体的消歧,本实施例利用实体共存、实体关系以及上下文本信息的特征,通过LSH或者层次聚类的方法进行消岐,考虑到计算量问题,可以采用MapReduce分布式计算的方式完成消岐。在完成了实时信息聚合之后,所有的实体信息及其关系将存储在数据库中。
表1
八、在完成了文本内实体Profile以后,每个文本的profiles均存储在hadoop的Hbase之中,进行跨文本的实体信息验证和融合。实体中,由于地点和时间均已经进行了归一化处理,可以进行简单的合并算法中,组织机构实体由于其名称的唯一性,也可以进行简单的利用规则和别名关系进行合并。对于人物,由于存在着同名现象以及不同人名可能为同意人物,采用了层次聚类方法,并采用的百度百科和维基百科数据作为外部知识库进行人物名称消岐,再进行合并。
在对不同文章形成的名称相同的profile进行存储时,需要将有用的信息聚合后存储,这个过程就是profile合并(Merge)。例如:“马云,1964年10月15日出生于浙江省杭州市,中国著名企业家.马云是阿里巴巴集团、淘宝网、支付宝创始人。马云现为阿里巴巴集团董事局主席、中国雅虎董事局主席、杭州师范大学阿里巴巴商学院院长、华谊兄弟传媒集团董事、菜鸟网络董事长。2013年5月10日,马云卸任阿里巴巴集团CEO。马云1988年毕业于杭州师范学院。马云的妻子张瑛跟他是大学同学。”。例文将形成以“马云”为核心的人物profile:
profiletype:PersonProfile
name:马云
relation:
{出生地:中国.浙江.杭州
出生日期:19641015000000
配偶:张瑛
事件:创办
事件:毕业
事件:卸任}
例文会形成另外三个事件的profile,以“卸任”为例:
profiletype:EventProfile
name:卸任
离职_人:卸任=>马云
离职_职位:卸任=>CEO
离职_机构:卸任=>阿里巴巴集团
离职_时间:卸任=>2013年5月10日
可见,实体概览(EntityProfile,EP):包括文本文件中的NE、相关的CE、以及与这个NE实体相关的事件。
九、在完成文本的实体信息聚合之后,系统通过分析人物实体之间的关系(例如同事、父子等),人物和组织机构之间的关系(例如员工与工作单位)以及地点之间关系(例如地震发生地点、单位所在地、出生地点等),以实体信息和事件为顶点,以实体事件的相互关系为边,可以建立起以实体和事件为中心的多维信息网络图,图7是本发明实施例提供的复杂多维实体信息图谱(人物-地点-组织机构),图8是本发明实施例提供的人物关系图谱,如图7和图8所示,形成了一个多维的,以实体和事物为中心驱动的关系图。运用图理论中的路径计算方法、分类和中心点计算方法,以及可视化技术可以对复杂网络进行可视化分析。综上,信息抽取系统运行结果是海量的经过聚合后的profile信息,可根据实际需要,进行信息的分类展示等操作。
进一步说,利用实体为节点,实体关系为边,形成一个多种类型的实体和多种关系的多维多模信息网络图。因此,通过查找实体,能够发现所有与该实体相关(通过关系)的实体,例如,与某药品有关的厂商、病人、医院、疾病等,在某时间与某地点有关的所有人物等。这样,信息以实体对象为中心,形成了全面的信息知识图谱。
综上所述,本发明具有以下技术效果:
本发明实现了海量数据存储和分布式运算的自然语言处理和信息抽取,跨文本的实体信息聚合算法,并实现了多维复杂实体信息关系图谱的建立。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。