CN105468605A - 一种实体信息图谱生成方法及装置 - Google Patents

一种实体信息图谱生成方法及装置 Download PDF

Info

Publication number
CN105468605A
CN105468605A CN201410421859.XA CN201410421859A CN105468605A CN 105468605 A CN105468605 A CN 105468605A CN 201410421859 A CN201410421859 A CN 201410421859A CN 105468605 A CN105468605 A CN 105468605A
Authority
CN
China
Prior art keywords
entity
text
named entity
named
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410421859.XA
Other languages
English (en)
Other versions
CN105468605B (zh
Inventor
李晓戈
李宗海
高剑凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liu Yujing
Original Assignee
Jinan Zhonglin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Zhonglin Information Technology Co ltd filed Critical Jinan Zhonglin Information Technology Co ltd
Priority to CN201410421859.XA priority Critical patent/CN105468605B/zh
Publication of CN105468605A publication Critical patent/CN105468605A/zh
Application granted granted Critical
Publication of CN105468605B publication Critical patent/CN105468605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体信息图谱生成方法及装置,所述方法包括:采集文本文件;根据预先定义的类别名和关系字,从各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;根据所述命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。本发明能够将非结构化文本数据转化为结构化数据,实现多维复杂的知识图谱。

Description

一种实体信息图谱生成方法及装置
技术领域
本发明涉及自然语言处理技术,特别涉及一种实体信息图谱生成方法及相关的装置。
背景技术
随着互联网的快速发展,人们面临着信息爆炸,海量信息分散在互联网上,具有碎片化,多语言和国际化的性质。互联网实际上就像是一个巨大的图书馆,每台连接在网络上的机算机就像一个个书柜,这个图书馆是没有目录,是动态的,飞速增加的。目前搜索引擎所作的工作仅仅是按照用户的关键词给出包含用户所查询的关键词相关书本的位置,找出图书馆中书本的位置,人们往往被淹没在信息的海洋之中。
由于网络的飞速发展使得互联网信息的传播速度呈现几何增长,现有的信息搜集手段不能满足对于信息的需要。传统的搜索引擎大致可以分为两大类:全文搜索引擎和分类目录。全文搜索引擎通过Spider/crawlers的软件,自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。谷歌、百度就是比较典型的全文搜索引擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。
全文搜索引擎的使用以关键词和一定的语法为特点,而分类目录则通过建立多级目录对网站进行分类。全文搜索引擎因为依靠网络机器人搜集数据,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限,更新慢。
具体地,现有的互联网信息搜索技术(例如百度和谷歌)存在着以下不足:
1.搜索引擎召回的相关信息太多,用户很难定位到所需要的信息;
2.以关键词为基础的搜索,匹配算法尽管简单易行,但停留在语言的表层,没有触及语义,很难以几个关键词的逻辑组合来表达清楚用户的检索意图;
3.既使得到了正确的结果,也仅仅是各个独立的文章链接,需要用户一一浏览;
4.不能提供文章之间的实体事物关联以及时间关联性,揭示事物内部联系和关系。
互联网的发展已经成为一个巨大的知识库,可是由于多数信息都是以非结构化数据存在,人们无法组织利用这一知识成果,所以空拥有信息,没有知识。
随着信息化的飞速发展和互联网接入终端的大规模普及,大量非结构化的文本数据充斥着互联网,如何从海量信息源中挖掘出有价值的信息是一个巨大的挑战。
发明内容
本发明的目的在于提供一种实体信息图谱生成方法及装置,能更好地通过挖掘有用信息从而形成实体信息图谱。
根据本发明的一个方面,提供了一种实体信息图谱生成方法,包括:
从本地和/或网络中采集文本文件;
根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
优选地,所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤包括:
通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其词性;
根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性;
提取所确定的命名实体,以及命名实体的关系属性。
优选地,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之后,还包括:
将各文本文件中分别抽取的与时间相关的命名实体进行归一化处理,得到时间归一化的命名实体;
将各文本文件中分别抽取的与地点相关的命名实体进行归一化处理,得到地点归一化的命名实体。
优选地,所述的根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系的步骤包括:
在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置;
利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系。
优选地,所述的根据预定义事件名,查找与其有关的命名实体的步骤包括:
在所采集的各文本文件中,确定预定义事件名在文本文件中的位置;
利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
优选地,所述的以预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱的步骤包括:
根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览;
通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览;
利用所形成的跨文本的各个全局实体概览,形成实体信息图谱。
优选地,所述实体概览包括事件类概览和命名实体类概览,在同一文本文件中,利用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及相应的实体关系,形成命名实体类概览。
优选地,通过确定具有相同命名的实体概览的相似度,对各个文本文件的实体概览进行消歧处理。
优选地,通过将各个全局实体概览的命名实体作为节点,将各个全局实体概览的实体关系作为边,形成所述实体信息图谱。
根据本发明的另一方面,提供了一种实体信息图谱生成装置,包括:
采集模块,用于从本地和/或网络中采集文本文件;
抽取模块,用于根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
关联模块,用于根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
绑定模块,用于根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
聚合模块,用于以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
与现有技术相比较,本发明的有益效果在于:
本发明能够将非结构化文本数据转化为结构化数据,及时、大量、准确的获取用户需求的信息,并通过多维复杂的知识图谱体现信息之间的内部关系。
附图说明
图1是本发明实施例提供的实体信息图谱生成方法原理图;
图2是本发明实施例提供的实体信息图谱生成装置框图;
图3是本发明实施例提供的实体信息图谱生成系统的硬件架构示意图;
图4是本发明实施例提供的自然语言处理和信息抽取的流程图;
图5是本发明实施例提供的采用层叠自动机规则法和机器学习方法进行命名实体识别的流程图;
图6是本发明实施例提供的信息实体对象示意图;
图7是本发明实施例提供的复杂多维实体信息图谱;
图8是本发明实施例提供的人物关系图谱。
具体实施方式
以下结合附图对本发明的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明实施例提供的实体信息图谱生成方法原理图,如图1所示,步骤包括:
步骤S101:从本地和/或网络中采集文本文件。
具体地说,采集文本文件的方式主要有以下三种:
1、利用网络爬虫(预定义网址)获取网络中的文本文件;
2、通过现有的搜索引擎获取文本文件;
3、从本地获取文本文件。
步骤S102:根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性。
所述命名实体是现实世界中的物体,例如:人物、地点、公司、学校等,每个命名实体都有自己的属性,所述属性包括命名实体的关系属性和特征属性,其中,所述关系属性用来与其它命名实体进行关联,所述特征属性用来表征命名实体本身具备的特征。
具体地说,通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其词性,并根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性,并提取所确定的命名实体,以及命名实体的关系属性。此外,根据每个不同的命名实体的属性定义,抽取命名实体的特征属性。
所述预先定义的类别名包括时间、地点、人物、组织机构等,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之后,将各文本文件中分别抽取的与时间和/或地点相关的命名实体进行归一化处理,得到时间和/或地点归一化的命名实体。例如,对于与时间相关的命名实体,将1999年8月1号下午3点24分24秒和一九九九年八月一日15点24分24秒进行时间归一化,标准ISO6801(19990801152424),以供后期进行合并。对于与地点相关的命名实体进行地点归一化处理(例如通过最大生成树算法(MST)),得到地点的标准格式(国家.省/州/自治区.城市.区.镇,以及经纬度),以供后期进行合并。
步骤S103:根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。
具体地说,在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置,并利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系。换句话说,命名实体及其属性满足预定的语法排列规则,则确定已识别出实体关系,可以对其进行抽取。
在所述步骤S102和所述步骤103中,可以通过机器学习(例如条件随机场(CRF)算法或隐马模型(HMM)等)和层叠自动机(FST)规则相结合的方式实现上述步骤的命名实体和实体关系的自动识别。
步骤S104:根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定。
具体地说,在所采集的各文本文件中,确定预定义事件名在文本文件中的位置,并利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
步骤S105:以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
具体地说,根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览,并通过确定具有相同命名的实体概览的相似度(例如采用权值法和空间向量模块计算实体概览间的相似度),对各个文本文件的实体概览进行消歧处理,以便将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览,最后将所形成的跨文本的各个全局实体概览的命名实体作为节点,将各个全局实体概览的实体关系作为边,形成所述实体信息图谱。其中,所述实体概览包括事件类概览和命名实体类概览其中,在同一文本文件中,利用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及相应的实体关系,形成命名实体类概览。
进一步说,在同一文章中,实体的信息可能出现在不同的句子和段落中,本发明利用实体概览(利用别名关系和指代关系进行指代消解,可以采用支持向量机或决策树算法等实现)将文章中相同的实体信息合并一起,例如:1、李鹏是总理,他的夫人是XXX。他指代李鹏,是一种指代关系。2、中国石油化工集团是我国最大的能源公司,中石化年销售…。中石化是中国石油化工集团的简称,可以认为是一种别名关系。换句话说,通过别名关系和指代关系,以及一个分词在同一篇文章只有一个意思的原则,进行篇章内部实体概览的合并。然后,通过跨文本实体信息辨析和实体消歧,将多个篇章的同一命名的实体概览进行合并,得到合并后的全局实体概览。
本发明首先根据不同的实体信息对象的属性,通过自然语言处理和信息抽取技术,提取单个文本中的信息对象属性,进行本地以及全局信息聚合,聚合形成复杂多维的实体信息网络关系图谱,将传统的“关键词”搜索表现为实体信息对象及其关系搜索,可以从更精细的角度来理解和组织搜索结果。
图2是本发明实施例提供的实体信息图谱生成装置框图,如图2所示,包括采集模块201、抽取模块202、关联模块203、绑定模块204和聚合模块205,其中:
所述采集模块201从本地和/或网络中采集文本文件。
具体地说,所述采集模块201可以通过以下方式采集文本文件:
1、利用网络爬虫(预定义网址)获取网络中的文本文件;
2、通过现有的搜索引擎获取文本文件;
3、从本地获取文本文件。
所述抽取模块202根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性。具体地说,所述抽取模块202通过对从网络中采集的与所述关键词关联的文本文件进行分解,得到文本文件的分词及其词性,并根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性和特征属性,并提取所确定的命名实体,以及命名实体的关系属性和特征属性。所述预先定义的类别名包括时间、地点、人物、组织机构等,在从所采集的各文本文件中分别抽取与各个类别名相关的命名实体以及与各个关系字相关的命名实体的属性之后,将各文本文件中分别抽取的与时间和/或地点相关的命名实体进行归一化处理,得到时间和/或地点归一化的命名实体。
所述关联模块203根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。具体地说,所述关联模块203在所采集的各文本文件中,根据命名实体及其属性满足预定的语法排列规则,确定命名实体及其关系属性在文本文件中的位置,并利用所确定的命名实体及其关系属性在文本文件中的位置,将与所述邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系,实现实体关系的识别与提取。
所述绑定模块204根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定。具体地说,所述绑定模块204在所采集的各文本文件中,确定预定义事件名在文本文件中的位置,并利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
所述聚合模块205以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。进一步地,所述聚合模块205包括篇章内实体信息聚合子模块和多篇章实体信息聚合子模块。其中,所述篇章内实体信息聚合子模块根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览,例如,所述篇章内实体信息聚合子模块可以通过人物的别名关系和指代关系,聚合同一文本中的实体信息。所述多篇章实体信息聚合子模块通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览,从而利用所形成的跨文本的各个全局实体概览,形成实体信息图谱,例如,所述多篇章实体信息聚合子模块可以通过确定不同文本文件内的具有相同命名的实体概览的相似度,对各个文本文件的实体概览进行消歧处理,还可以通过确定不同文本文件内的命名实体与其它命名实体关联的相似度,对各个文本文件的命名实体的实体概览进行消歧处理。
利用上述方法,本发明能够实现文本中命名实体(人物、时间、地点、组织机构、数量等)和实体关系的自动识别,代词和名词的指代消解,以及跨文本的命名实体信息聚合等技术。进一步地,本发明利用通过信息抽取和处理,将非结构化文本数据转化为结构化数据,并以实体为节点,实体关系为边构建实体信息关系图谱,实现知识谱图。
图3是本发明实施例提供的实体信息图谱生成系统的硬件架构示意图,如图3所示,硬件平台的设计主要考虑系统整体的一些特性,即:海量数据存储、高速数据分析、易于扩展以及经济、可靠等。由于各种大型机在设备造价、维护成本以及易用性等方面的缺陷,为实现以上目标,本实施例的硬件平台将使用普通商用服务器搭建系统基础硬件平台,并将多个服务器形成数据分布式存储集群。
在图3所示硬件平台的基础上,本实施例的软件基础平台可以使用基于Hadoop的分布式系统平台,利用HBase实现对海量数据的分布式存储、管理以及对MapReduce实现分布式海量计算任务。软件基础平台的主要功能包括信息采集(例如采集门户网站、微博、博客、论坛等的互联网信息)、信息加工(例如进行自然语言处理、信息抽取、信息聚合等)、信息展示(例如按照时间序列、实体事件进行展示,或以自动问答方式进行展示,实现可视化)。其中,所述信息采集是将利用可定制的网络爬虫定点搜集监控特定的国内外网站,对于用户特别关注信息采用用户定制搜索。所述信息加工是依靠本发明提供的技术方案建立事件、命名实体(时间、地点、人物、组织机构等)概览及相互关系,形成以实体和事件为中心信息网络图,储存数据库。所述信息展示提供问答式搜索,多维信息网图的可视化(时间、地点、事件、人物及其关系)以及提供每日分析报告等。
具体地,实现信息采集功能的模块主要通过各种搜索引擎和网络爬虫技术实现用户自定义搜索和国内外相关网站的实时监控,包括微博、博客社交网站(如:Facebook)。用户可根据需求,自定义信息采集的关键词,系统将自动搜索相关内容。其主要功能有:用户采集内容定制,按照用户需求自动信息采集,更新,文档去重,网页内容分析提取,语言编码自动识别以及文本格式转换。
具体地,实现自然语言处理和信息抽取功能的模块是基于hadoop平台上运用mapreduce的分布式计算子系统,是整个智能信息搜集分析系统的核心技术模块,其对自然语言的处理和信息抽取的流程如图4所示。其中:
一、通过对从网络中采集的与所述关键词关联的文本文件进行分解,得到文本文件的分词及其词性,得到分词词性并进行词性标注是信息抽取的基础,分词词性标注主要有三个步骤:1、通过机器学习进行文档的分词及词性标注处理;2、使用预定义的规则,对分词词性标注结果进行纠正更新;3、导入常用词词典及动词用法词典等,以供后续命名实体(NameEntity,NE)及CE识别使用。
二、NE是与各个预先定义的类别名相关的表示关键信息的名词,所述类别名可以是人名、组织名、地名、时间、产品名、联系方式(电话号码、地址、电子邮件等),疾病名称等。NE识别包括两部分:1、机器学习方法识别命名实体,主要识别类型为人名(男、女)、机构名(政府机构、公司、学校)、地名(城市名、省名、国家名)等;2、使用规则方法识别联系方式(电子邮箱、电话号码、网址、传真、电报)、数字(序数、小数、分数、百分数)、时间词(小时、上午、下午、年、月、日、星期、季节、年代、世纪等)、度量衡(重量、长度、电磁剂量、温度、角度、面积、容积等)、货币(人民币、港元、澳元、日圆等)、比率(速度、价格(单价)、频率)、出版物(书籍、杂志、文章等被书名号《》包括的内容)。进一步地,由基本的人物、机构、地点、时间、数量、度量衡等,可以通过人工规则和机器学习方法扩展到产品、会议、品牌、交通工具等,并在tokenlist上加以标注,作为下一级输入。NE识别是构建实体信息图谱的关键技术之一,本实施例采用层叠自动机(FST)规则法和机器学习方法结合方法,如图5所示。命名实体识别包括FST模块和统计学模块。由于本实施例的系统是层级(pipeline)结构,上一级模块的输出为下一级的输入(以tokenlist表示),可以根据需要灵活选择方法以取得最佳实体标注效果。同时,FST的人工规则还可以作为种子词以实现半监督的机器学习方法。基于机器学习的统计学子模块可采用任一常用的统计方法,例如隐马模型(HMM)、条件随机场(CRF)等。
三、归一化是将需要进行比对的NE归一到一个统一的标准上,本实施例包括地点归一化和时间归一化。其中,所述地点归一化是为避免地名混淆问题,对地点进行行政体系上的归一化处理(例如利用MaxSpinTree算法),将地点表达为经纬度表达式,以及国家/州(省)/市(县)表达方式。例如,“香港”进行地点归一化处理后为“中国,香港”,“济南”进行地点归一化处理后为“中国,山东,济南”。所述时间归一化是将时间词所代表的时间点归一到公历的数字表示形态上,例如,1964年10月15日进行时间归一处理后为19641015000000,xxxx-xx-xx-xx-xx-xx对应年份-月份-日期-小时-分钟-秒钟。进一步地,还可以包括数量归一化和度量衡归一化,例如将“100”、“一百”统一表达成阿拉伯数字100,度量衡单位统一成公制。上述归一化的结果标注在tokenlist上。
四、指代消解对实体关系的提取具有重要意义,在中文行文中,很多信息是会聚合在指代词诸如人称代词、称谓名词、职位词等词之上的,本实施例所述指代消解是将被指代的人名实体与其指代词建立起关系,具体包括指代词消解和别名识别。
其中,所述指代词消解的消解对象主要包括人称代词(你、我、他等),称谓词(先生、女士等),指人名词(父亲、哥哥等),职位词(经理、总监等),以及中文中使用较多而形式很特殊的零形回指,例如,“1999年3月,马云正式辞去公职,Φ和他的团队回杭州”,句中Φ是最后一个小句被隐去的主语,指代对象为“马云”。所述别名识别中的别名是一种特殊的指代词,其本身可以是完整姓名的简称,也可以是完全无关的化名、假名,甚至是字符串,不限于姓名命名规则的用户名等,此类词的消解需要单独处理,换句换说,别名是指同一实体的其他称呼,比如,中国石油化工集团可以简称为中石化,在别名模块中,结合词表和规则方法以及模式匹配方法将实体和别名以三元组形式alias(实体,别名)标注在tokenlist结构上。
在指代消解中,利用词性标注和浅层句法分析结果,采用FST规则方法先将可文本内可能的指代词及其属性(人,物,单复数,角色,性别)在tokenlist上标注,在通过程序扫描文本将实体及可能指代词,通过决策树或者SVM分类方法得出相关的实体指代关系,并以三元组Coreference(实体,指代词)在tokenlist加以标注。
五、实体关系(CorrelatedEntity,CE):表示实体与实体之间的相关联系,比如:人物和所属工作单位,其根据预定义关系字,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系。
1.CE识别首先对只需要NE识别结果的关系实体进行识别,例如“北京旭宏东方测控技术有限公司总经理郝然”,实体关系为:郝然=>北京旭宏东方测控技术有限公司,又例如“中国电力建设集团有限公司副总经理、党委常委王民浩”,实体关系为:王民浩=>中国电力建设集团有限公司。此类较复杂的并列句式在进行CE识别时不需要进行句法分析。
2.对于相对复杂的句式,需要进行浅层句法分析,包括组块分析(即短语分析)及句法分析。其中,所述组块分析主要是将句中的短语聚合在一起,以供后续句法结构分析,重点是对名词短语(NP)、动词短语(VP),以及介词短语(PP)进行了识别,例如,对“在1996年他再开设另一间店铺”的分析结果为:[在1996年]/PP[他]/r[再开设]/VP[另一间店铺]/NP。在短语分析完成后进行句法分析,即分析句式中的主谓宾结构(SVO),系统中句法成分的表现方式为各组块间建立起句法关系,例如,对“在1996年他再开设另一间店铺”的句法分析结果为:VS(谓语_主语):再开设=>他;VO(谓语_宾语):再开设=>另一间店铺;V_AD(谓语_状语):再开设=>在1996年。
进一步地,句法分析时还需要对基本语义进行分析,如动词的否定形式、被动形式等,例如,“她不是闽南人,是鲁南人。”,第一个谓词“是”是否定形态,在后期使用这一关系时,要做否定判定;又例如,“林肯被布斯枪杀。”,谓语动词“枪杀”的逻辑主语是“布斯”,而逻辑宾语“林肯”。
在句法分析的基础上,再次进行CE识别,例如,对“她不是闽南人,是鲁南人。”,存在CE关系:人物与家乡,即她=>鲁南。而通过句法分析的结果,谓语动词“是”的否定形式,可知同一个类型的关系:她=>闽南,是不成立的。
在识别实体关系的模块,系统也可以分成两个子模块,采用FST语法规则和统计方法结合的方法,形成三元组R(Ne1,Ne2),同样在tokenlist加以标注。
六、预定义事件(PredefinedEvents,PE)是对动词及其对应主谓语等做出了预先定义的事件,系统中事件的表现形式是以谓语动词为中心的一系列关系。例如,“2013年5月10日,马云卸任阿里巴巴集团CEO。”,定义事件:离职;其表现为:离职_人:卸任=>马云;离职_职位:卸任=>CEO;离职_机构:卸任=>阿里巴巴集团;离职_时间:卸任=>2013年5月10日。可见,根据预定义事件名,可以查找与其有关的命名实体,将预定义事件名与查找到的命名实体进行绑定。
七、系统对单篇文章中的信息,抽取的结果形成概览profile进行存储,所述profile分有两大类:以命名实体为核心的NE类profile和以事件为核心的events类profile。本实施例利用指代关系和实体的别名关系,完成文本中的实体信息聚合,使得同一文本中的同一实体信息整合为一个实体概览,即将所有实体看做信息实体对象,如图6所示。对于同名的实体,按照一篇文章内一个名字代表一个意思的原则,进行合并。例如:人物的Profile定义如表1所示:
实现跨文本信息聚合的模块实际上是将各个文本中的分散的,片段的信息以实体和事件有中心,通过实体关系连接聚合在一起,以得到事物的全貌,对于人们理解自然事物及其事物发展有着重要作用。在不同的文本源中,相同的名字可能表示不同的实体,不同的名字也可能表示相同的实体,这种现象的存在极大的制约着信息抽取技术应用的可靠性与实用性。因此需要在数百万计的文本中,进行实体名称辨析。对于基本的命名实体,人名相对于地名、组织机构、时间有更强的歧义性(同名人物,昵称等),解决难度也更高。组织机构名称的具有单一性,可以通过自然语言处理技术对于别名和简称的处理就可以得到较好的效果,对于时间和地点的信息聚合,可以通过时间、地点的归一化技术处理完成。对于人物实体的消歧,本实施例利用实体共存、实体关系以及上下文本信息的特征,通过LSH或者层次聚类的方法进行消岐,考虑到计算量问题,可以采用MapReduce分布式计算的方式完成消岐。在完成了实时信息聚合之后,所有的实体信息及其关系将存储在数据库中。
表1
八、在完成了文本内实体Profile以后,每个文本的profiles均存储在hadoop的Hbase之中,进行跨文本的实体信息验证和融合。实体中,由于地点和时间均已经进行了归一化处理,可以进行简单的合并算法中,组织机构实体由于其名称的唯一性,也可以进行简单的利用规则和别名关系进行合并。对于人物,由于存在着同名现象以及不同人名可能为同意人物,采用了层次聚类方法,并采用的百度百科和维基百科数据作为外部知识库进行人物名称消岐,再进行合并。
在对不同文章形成的名称相同的profile进行存储时,需要将有用的信息聚合后存储,这个过程就是profile合并(Merge)。例如:“马云,1964年10月15日出生于浙江省杭州市,中国著名企业家.马云是阿里巴巴集团、淘宝网、支付宝创始人。马云现为阿里巴巴集团董事局主席、中国雅虎董事局主席、杭州师范大学阿里巴巴商学院院长、华谊兄弟传媒集团董事、菜鸟网络董事长。2013年5月10日,马云卸任阿里巴巴集团CEO。马云1988年毕业于杭州师范学院。马云的妻子张瑛跟他是大学同学。”。例文将形成以“马云”为核心的人物profile:
profiletype:PersonProfile
name:马云
relation:
{出生地:中国.浙江.杭州
出生日期:19641015000000
配偶:张瑛
事件:创办
事件:毕业
事件:卸任}
例文会形成另外三个事件的profile,以“卸任”为例:
profiletype:EventProfile
name:卸任
离职_人:卸任=>马云
离职_职位:卸任=>CEO
离职_机构:卸任=>阿里巴巴集团
离职_时间:卸任=>2013年5月10日
可见,实体概览(EntityProfile,EP):包括文本文件中的NE、相关的CE、以及与这个NE实体相关的事件。
九、在完成文本的实体信息聚合之后,系统通过分析人物实体之间的关系(例如同事、父子等),人物和组织机构之间的关系(例如员工与工作单位)以及地点之间关系(例如地震发生地点、单位所在地、出生地点等),以实体信息和事件为顶点,以实体事件的相互关系为边,可以建立起以实体和事件为中心的多维信息网络图,图7是本发明实施例提供的复杂多维实体信息图谱(人物-地点-组织机构),图8是本发明实施例提供的人物关系图谱,如图7和图8所示,形成了一个多维的,以实体和事物为中心驱动的关系图。运用图理论中的路径计算方法、分类和中心点计算方法,以及可视化技术可以对复杂网络进行可视化分析。综上,信息抽取系统运行结果是海量的经过聚合后的profile信息,可根据实际需要,进行信息的分类展示等操作。
进一步说,利用实体为节点,实体关系为边,形成一个多种类型的实体和多种关系的多维多模信息网络图。因此,通过查找实体,能够发现所有与该实体相关(通过关系)的实体,例如,与某药品有关的厂商、病人、医院、疾病等,在某时间与某地点有关的所有人物等。这样,信息以实体对象为中心,形成了全面的信息知识图谱。
综上所述,本发明具有以下技术效果:
本发明实现了海量数据存储和分布式运算的自然语言处理和信息抽取,跨文本的实体信息聚合算法,并实现了多维复杂实体信息关系图谱的建立。
尽管上文对本发明进行了详细说明,但是本发明不限于此,本技术领域技术人员可以根据本发明的原理进行各种修改。因此,凡按照本发明原理所作的修改,都应当理解为落入本发明的保护范围。

Claims (10)

1.一种实体信息图谱生成方法,其特征在于,包括:
从本地和/或网络中采集文本文件;
根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
2.根据权利要求1所述的方法,其特征在于,所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤包括:
通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其词性;
根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性;
提取所确定的命名实体,以及命名实体的关系属性。
3.根据权利要求2所述的方法,其特征在于,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之后,还包括:
将各文本文件中分别抽取的与时间相关的命名实体进行归一化处理,得到时间归一化的命名实体;
将各文本文件中分别抽取的与地点相关的命名实体进行归一化处理,得到地点归一化的命名实体。
4.根据权利要求2或3所述的方法,其特征在于,所述的根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系的步骤包括:
在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置;
利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进行关联,从而得到相关联的命名实体之间的实体关系。
5.根据权利要求1所述的方法,其特征在于,所述的根据预定义事件名,查找与其有关的命名实体的步骤包括:
在所采集的各文本文件中,确定预定义事件名在文本文件中的位置;
利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述预定义事件名有关的命名实体。
6.根据权利要求1所述的方法,其特征在于,所述的以预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱的步骤包括:
根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的各个实体概览;
通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本的各个全局实体概览;
利用所形成的跨文本的各个全局实体概览,形成实体信息图谱。
7.根据权利要求6所述的方法,其特征在于,所述实体概览包括事件类概览和命名实体类概览,在同一文本文件中,利用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及相应的实体关系,形成命名实体类概览。
8.根据权利要求6所述的方法,其特征在于,通过确定具有相同命名的实体概览的相似度,对各个文本文件的实体概览进行消歧处理。
9.根据权利要求6所述的方法,其特征在于,通过将各个全局实体概览的命名实体作为节点,将各个全局实体概览的实体关系作为边,形成所述实体信息图谱。
10.一种实体信息图谱生成装置,其特征在于,包括:
采集模块,用于从本地和/或网络中采集文本文件;
抽取模块,用于根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;
关联模块,用于根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;
绑定模块,用于根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;
聚合模块,用于以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
CN201410421859.XA 2014-08-25 2014-08-25 一种实体信息图谱生成方法及装置 Active CN105468605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410421859.XA CN105468605B (zh) 2014-08-25 2014-08-25 一种实体信息图谱生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410421859.XA CN105468605B (zh) 2014-08-25 2014-08-25 一种实体信息图谱生成方法及装置

Publications (2)

Publication Number Publication Date
CN105468605A true CN105468605A (zh) 2016-04-06
CN105468605B CN105468605B (zh) 2019-04-12

Family

ID=55606316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410421859.XA Active CN105468605B (zh) 2014-08-25 2014-08-25 一种实体信息图谱生成方法及装置

Country Status (1)

Country Link
CN (1) CN105468605B (zh)

Cited By (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106250393A (zh) * 2016-07-13 2016-12-21 广州安望信息科技有限公司 一种基于知识图谱的短文本理解方法及装置
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN107168947A (zh) * 2017-04-19 2017-09-15 成都准星云学科技有限公司 一种新型实体指代消解的方法及其系统
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108153736A (zh) * 2017-12-28 2018-06-12 南开大学 一种基于向量空间模型的关系词映射方法
CN108170848A (zh) * 2018-01-18 2018-06-15 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108733683A (zh) * 2017-04-17 2018-11-02 中兴通讯股份有限公司 一种基于数据摸排探索事件线索的方法及装置
CN109241289A (zh) * 2017-07-04 2019-01-18 北京国双科技有限公司 实体信息图谱扩充方法及装置
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109543044A (zh) * 2018-10-22 2019-03-29 杭州叙简科技股份有限公司 一种事件与法律条文自动匹配系统及匹配方法
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109710773A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 事件主体的生成方法及其装置
CN109726253A (zh) * 2018-12-21 2019-05-07 义橙网络科技(上海)有限公司 人才图谱及人才画像的构建方法、装置、设备及介质
CN109766447A (zh) * 2018-12-25 2019-05-17 东软集团股份有限公司 一种确定敏感信息的方法和装置
CN109815296A (zh) * 2018-12-29 2019-05-28 北京中科闻歌科技股份有限公司 公证文档的人物知识库构建方法、装置及存储介质
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109920414A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 人机问答方法、装置、设备和存储介质
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110168541A (zh) * 2016-07-29 2019-08-23 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及系统
CN110263224A (zh) * 2019-05-07 2019-09-20 南京智慧图谱信息技术有限公司 一种基于elp模型的事件型链接数据压缩方法
CN110309311A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种事件处理策略确定方法及装置
CN110442797A (zh) * 2019-08-19 2019-11-12 重庆华医康道科技有限公司 一种互联网医院产品配置优化方法
CN110472232A (zh) * 2019-07-15 2019-11-19 北京万维之道信息技术有限公司 基于命名实体的信息处理方法及装置
CN110717034A (zh) * 2018-06-26 2020-01-21 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110750649A (zh) * 2018-07-06 2020-02-04 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN110869925A (zh) * 2017-07-12 2020-03-06 微软技术许可有限责任公司 搜索中的多个实体感知的预输入
CN110895548A (zh) * 2018-08-24 2020-03-20 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN110990524A (zh) * 2019-10-24 2020-04-10 清华大学 基于可靠信息库的学术成果机构命名排歧方法及装置
CN111090801A (zh) * 2019-12-18 2020-05-01 创新奇智(青岛)科技有限公司 一种专家人脉关系图谱绘制方法及系统
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111241839A (zh) * 2020-01-16 2020-06-05 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读存储介质和计算机设备
WO2020132850A1 (en) * 2018-12-25 2020-07-02 Microsoft Technology Licensing, Llc Technical document issues scanner
CN111538805A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN111611399A (zh) * 2020-04-15 2020-09-01 广发证券股份有限公司 一种基于自然语言处理的资讯事件图谱化系统及方法
CN111767715A (zh) * 2020-06-10 2020-10-13 北京奇艺世纪科技有限公司 人物识别的方法、装置、设备及存储介质
CN111859970A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN111858860A (zh) * 2019-04-19 2020-10-30 百度在线网络技术(北京)有限公司 搜索信息处理方法及系统、服务器、计算机可读介质
CN111953577A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 一种防止消息错发的方法、系统及可读存储介质
CN112115235A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 实体属性数据查询及配置方法、装置、服务器
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112199488A (zh) * 2020-11-04 2021-01-08 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN112434811A (zh) * 2019-08-26 2021-03-02 华为技术有限公司 知识图谱构建方法及装置、计算设备、存储介质
CN112528044A (zh) * 2020-12-22 2021-03-19 北京明略软件系统有限公司 用于知识抽取的方法、装置和存储介质
WO2022105601A1 (zh) * 2020-11-18 2022-05-27 易保网络技术(上海)有限公司 数据聚类方法和系统、数据存储方法和系统以及存储介质
CN114817386A (zh) * 2016-09-28 2022-07-29 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN115080669A (zh) * 2022-05-11 2022-09-20 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN115495593A (zh) * 2022-10-13 2022-12-20 中原工学院 基于大数据的数学知识图谱构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
US20050192949A1 (en) * 2004-02-27 2005-09-01 Yuichi Kojima Document group analyzing apparatus, a document group analyzing method, a document group analyzing system, a program, and a recording medium
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
CN101079070A (zh) * 2006-05-26 2007-11-28 国际商业机器公司 用于响应于对信息的查询的计算机和方法
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
CN101308493A (zh) * 2007-05-18 2008-11-19 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN101425065A (zh) * 2007-10-31 2009-05-06 日电(中国)有限公司 实体关系挖掘设备和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
US20050192949A1 (en) * 2004-02-27 2005-09-01 Yuichi Kojima Document group analyzing apparatus, a document group analyzing method, a document group analyzing system, a program, and a recording medium
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
CN101079070A (zh) * 2006-05-26 2007-11-28 国际商业机器公司 用于响应于对信息的查询的计算机和方法
CN101030217A (zh) * 2007-03-22 2007-09-05 华中科技大学 一种语义网信息的索引与获取方法
CN101308493A (zh) * 2007-05-18 2008-11-19 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
CN101425065A (zh) * 2007-10-31 2009-05-06 日电(中国)有限公司 实体关系挖掘设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张菲菲 等: "《基于层次聚类的垮文本中文人名消歧研究》", 《计算机工程与应用》 *

Cited By (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN107402933A (zh) * 2016-05-20 2017-11-28 富士通株式会社 实体多音字消歧方法和实体多音字消歧设备
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106095748B (zh) * 2016-06-06 2019-08-27 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106168965B (zh) * 2016-07-01 2020-06-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN106250393A (zh) * 2016-07-13 2016-12-21 广州安望信息科技有限公司 一种基于知识图谱的短文本理解方法及装置
CN106250393B (zh) * 2016-07-13 2017-08-25 广州安望信息科技有限公司 一种基于知识图谱的短文本理解方法及装置
CN110168541B (zh) * 2016-07-29 2023-10-17 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN110168541A (zh) * 2016-07-29 2019-08-23 乐威指南公司 基于静态和时间知识图消除词语歧义的系统和方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN114817386A (zh) * 2016-09-28 2022-07-29 医渡云(北京)技术有限公司 一种结构化医疗数据生成方法及装置
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108399180A (zh) * 2017-02-08 2018-08-14 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN108399180B (zh) * 2017-02-08 2021-11-26 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及服务器
CN106934032B (zh) * 2017-03-14 2019-10-18 北京软通智城科技有限公司 一种城市知识图谱构建方法及装置
CN106934032A (zh) * 2017-03-14 2017-07-07 软通动力信息技术(集团)有限公司 一种城市知识图谱构建方法及装置
CN108733683A (zh) * 2017-04-17 2018-11-02 中兴通讯股份有限公司 一种基于数据摸排探索事件线索的方法及装置
CN107168947A (zh) * 2017-04-19 2017-09-15 成都准星云学科技有限公司 一种新型实体指代消解的方法及其系统
CN107368470A (zh) * 2017-06-27 2017-11-21 北京神州泰岳软件股份有限公司 一种提取企业内部组织架构信息的方法和装置
CN109241289A (zh) * 2017-07-04 2019-01-18 北京国双科技有限公司 实体信息图谱扩充方法及装置
CN110869925A (zh) * 2017-07-12 2020-03-06 微软技术许可有限责任公司 搜索中的多个实体感知的预输入
CN110869925B (zh) * 2017-07-12 2024-04-05 微软技术许可有限责任公司 搜索中的多个实体感知的预输入
CN110019825B (zh) * 2017-07-25 2021-08-20 华为技术有限公司 一种分析数据语义的方法及装置
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN107797991B (zh) * 2017-10-23 2020-11-24 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置
CN108153736A (zh) * 2017-12-28 2018-06-12 南开大学 一种基于向量空间模型的关系词映射方法
CN108197269A (zh) * 2018-01-04 2018-06-22 北京金堤科技有限公司 一种动态关系图谱的生成方法、装置和用户终端
CN108170848A (zh) * 2018-01-18 2018-06-15 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN108170848B (zh) * 2018-01-18 2021-08-13 重庆邮电大学 一种面向中国移动智能客服的对话场景分类方法
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN108388559B (zh) * 2018-02-26 2021-11-19 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110309311A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种事件处理策略确定方法及装置
CN110717034A (zh) * 2018-06-26 2020-01-21 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110750649A (zh) * 2018-07-06 2020-02-04 中兴通讯股份有限公司 知识图谱构建及智能应答方法、装置、设备及存储介质
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN110895548A (zh) * 2018-08-24 2020-03-20 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN109325131B (zh) * 2018-09-27 2021-03-02 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109359299A (zh) * 2018-09-28 2019-02-19 中国电子科技集团公司信息科学研究院 一种基于商品数据的物联网设备能力本体自构建方法
CN109543044B (zh) * 2018-10-22 2021-06-18 杭州叙简科技股份有限公司 一种事件与法律条文自动匹配系统及匹配方法
CN109543044A (zh) * 2018-10-22 2019-03-29 杭州叙简科技股份有限公司 一种事件与法律条文自动匹配系统及匹配方法
CN109376202B (zh) * 2018-10-30 2021-08-03 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109376202A (zh) * 2018-10-30 2019-02-22 青岛理工大学 一种基于nlp的企业供应关系自动抽取分析方法
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN109471947A (zh) * 2018-11-06 2019-03-15 北京锐安科技有限公司 一种数据的知识谱图构建方法、装置、设备及存储介质
CN109543034A (zh) * 2018-11-07 2019-03-29 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109543034B (zh) * 2018-11-07 2021-07-16 中山大学 基于知识图谱的文本聚类方法、装置及可读存储介质
CN109585024B (zh) * 2018-11-14 2021-03-09 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN109585024A (zh) * 2018-11-14 2019-04-05 金色熊猫有限公司 数据挖掘方法及装置、存储介质、电子设备
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111209348B (zh) * 2018-11-21 2023-09-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109597856A (zh) * 2018-12-05 2019-04-09 北京知道创宇信息技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109597856B (zh) * 2018-12-05 2020-12-25 北京知道创宇信息技术股份有限公司 一种数据处理方法、装置、电子设备及存储介质
CN109710773A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 事件主体的生成方法及其装置
CN109726253A (zh) * 2018-12-21 2019-05-07 义橙网络科技(上海)有限公司 人才图谱及人才画像的构建方法、装置、设备及介质
CN109857917A (zh) * 2018-12-21 2019-06-07 中国科学院信息工程研究所 面向威胁情报的安全知识图谱构建方法及系统
CN109766447A (zh) * 2018-12-25 2019-05-17 东软集团股份有限公司 一种确定敏感信息的方法和装置
WO2020132850A1 (en) * 2018-12-25 2020-07-02 Microsoft Technology Licensing, Llc Technical document issues scanner
US11301633B2 (en) 2018-12-25 2022-04-12 Microsoft Technology Licensing, Llc Technical document issues scanner
CN109815296A (zh) * 2018-12-29 2019-05-28 北京中科闻歌科技股份有限公司 公证文档的人物知识库构建方法、装置及存储介质
CN109920414A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 人机问答方法、装置、设备和存储介质
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109948154A (zh) * 2019-03-12 2019-06-28 南京邮电大学 一种基于邮箱名的人物获取及关系推荐系统和方法
CN110134842A (zh) * 2019-04-03 2019-08-16 深圳价值在线信息科技股份有限公司 基于信息图谱的信息匹配方法、装置、存储介质和服务器
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN111858860A (zh) * 2019-04-19 2020-10-30 百度在线网络技术(北京)有限公司 搜索信息处理方法及系统、服务器、计算机可读介质
CN111858860B (zh) * 2019-04-19 2023-08-29 百度在线网络技术(北京)有限公司 搜索信息处理方法及系统、服务器、计算机可读介质
CN110263224A (zh) * 2019-05-07 2019-09-20 南京智慧图谱信息技术有限公司 一种基于elp模型的事件型链接数据压缩方法
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及系统
CN111953577A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 一种防止消息错发的方法、系统及可读存储介质
CN110232125B (zh) * 2019-06-11 2020-10-02 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN110232125A (zh) * 2019-06-11 2019-09-13 吉林大学 一种进行学术人物信息抽取和聚合的方法
CN110472232A (zh) * 2019-07-15 2019-11-19 北京万维之道信息技术有限公司 基于命名实体的信息处理方法及装置
CN110442797A (zh) * 2019-08-19 2019-11-12 重庆华医康道科技有限公司 一种互联网医院产品配置优化方法
CN110442797B (zh) * 2019-08-19 2022-02-08 重庆华医康道科技有限公司 一种互联网医院产品配置优化方法
CN112434811A (zh) * 2019-08-26 2021-03-02 华为技术有限公司 知识图谱构建方法及装置、计算设备、存储介质
CN110990524A (zh) * 2019-10-24 2020-04-10 清华大学 基于可靠信息库的学术成果机构命名排歧方法及装置
CN111090801A (zh) * 2019-12-18 2020-05-01 创新奇智(青岛)科技有限公司 一种专家人脉关系图谱绘制方法及系统
CN111241839A (zh) * 2020-01-16 2020-06-05 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读存储介质和计算机设备
CN111241839B (zh) * 2020-01-16 2022-04-05 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读存储介质和计算机设备
CN111611399A (zh) * 2020-04-15 2020-09-01 广发证券股份有限公司 一种基于自然语言处理的资讯事件图谱化系统及方法
CN111538805A (zh) * 2020-05-25 2020-08-14 武汉烽火普天信息技术有限公司 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN111767715A (zh) * 2020-06-10 2020-10-13 北京奇艺世纪科技有限公司 人物识别的方法、装置、设备及存储介质
CN111859970B (zh) * 2020-07-23 2022-05-17 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN111859970A (zh) * 2020-07-23 2020-10-30 北京字节跳动网络技术有限公司 用于处理信息的方法、装置、设备和介质
CN112115235A (zh) * 2020-09-28 2020-12-22 中国建设银行股份有限公司 实体属性数据查询及配置方法、装置、服务器
CN112199488B (zh) * 2020-11-04 2023-09-26 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN112199488A (zh) * 2020-11-04 2021-01-08 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
WO2022105601A1 (zh) * 2020-11-18 2022-05-27 易保网络技术(上海)有限公司 数据聚类方法和系统、数据存储方法和系统以及存储介质
JP2023536005A (ja) * 2020-11-18 2023-08-22 エバオテック コーポレーション データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体
JP7423859B2 (ja) 2020-11-18 2024-01-29 エバオテック コーポレーション データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体
CN112148843A (zh) * 2020-11-25 2020-12-29 中电科新型智慧城市研究院有限公司 文本处理方法、装置、终端设备和存储介质
CN112528044A (zh) * 2020-12-22 2021-03-19 北京明略软件系统有限公司 用于知识抽取的方法、装置和存储介质
CN115080669A (zh) * 2022-05-11 2022-09-20 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN115080669B (zh) * 2022-05-11 2023-05-05 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN115495593A (zh) * 2022-10-13 2022-12-20 中原工学院 基于大数据的数学知识图谱构建方法

Also Published As

Publication number Publication date
CN105468605B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN105468605A (zh) 一种实体信息图谱生成方法及装置
US11874874B2 (en) Method and system for identifying and discovering relationships between disparate datasets from multiple sources
Poorthuis et al. Making big data small: strategies to expand urban and geographical research using social media
TWI493367B (zh) 搜尋結果之先進過濾方法
US9400835B2 (en) Weighting metric for visual search of entity-relationship databases
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US20150310073A1 (en) Finding patterns in a knowledge base to compose table answers
CN104850601B (zh) 基于图数据库的警务实时分析应用平台及其构建方法
Xu et al. Wikipedia‐based topic clustering for microblogs
US20180096057A1 (en) Collecting event related tweets
CN115757689A (zh) 一种信息查询系统、方法及设备
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN104281565A (zh) 语义词典构建方法和装置
Chen et al. Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors
Balsmeier et al. Automated disambiguation of us patent grants and applications
Zhao et al. Mid-ontology learning from linked data
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
CN109408704B (zh) 基金数据关联方法、系统、计算机设备和存储介质
CN105320715A (zh) 基于本体的语义查询方法
Zeng et al. Linking entities in short texts based on a Chinese semantic knowledge base
Singh et al. Multi-feature segmentation and cluster based approach for product feature categorization
Connaway et al. Publisher names in bibliographic data
CN105512270A (zh) 一种确定相关对象的方法和装置
Cha et al. Topic model based approach for improved indexing in content based document retrieval
KR101752257B1 (ko) 링크드 오픈 데이터 클라우드 정보 서비스 시스템 및 그 제공 방법과 이를 구현하기 위한 프로그램이 저장된 기록매체

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220429

Address after: 250000-201, building 9, Zhongrun Century City, 13777 Jingshi Road, Lixia District, Jinan City, Shandong Province

Patentee after: Shandong comprehend Education Technology Co.,Ltd.

Address before: 250101 413, building 1, No. 322, Shunfeng Road, high tech Zone, Jinan City, Shandong Province

Patentee before: JINAN ZHONGLIN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220507

Address after: 250000 No. 301, unit 4, building 20, No. 7366, East 2nd Ring Road, Lixia District, Jinan City, Shandong Province

Patentee after: Liu Yujing

Address before: 250000-201, building 9, Zhongrun Century City, 13777 Jingshi Road, Lixia District, Jinan City, Shandong Province

Patentee before: Shandong comprehend Education Technology Co.,Ltd.

TR01 Transfer of patent right