CN109508383A - 知识图谱的构建方法及装置 - Google Patents

知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN109508383A
CN109508383A CN201811280911.9A CN201811280911A CN109508383A CN 109508383 A CN109508383 A CN 109508383A CN 201811280911 A CN201811280911 A CN 201811280911A CN 109508383 A CN109508383 A CN 109508383A
Authority
CN
China
Prior art keywords
entity
ontology
predetermined
scientific domain
knowledge mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811280911.9A
Other languages
English (en)
Inventor
任卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811280911.9A priority Critical patent/CN109508383A/zh
Publication of CN109508383A publication Critical patent/CN109508383A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识图谱的构建方法及装置。其中,该方法包括:抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;根据本体的本体类型以及本体之间的关联关系构建本体库;从预定数据源中获取预定科学领域的实体以及实体的结构化信息;将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。本发明解决了相关技术中采用的构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的技术问题。

Description

知识图谱的构建方法及装置
技术领域
本发明涉及知识图谱构建技术领域,具体而言,涉及一种知识图谱的构建方法及装置。
背景技术
知识图谱的构建是指建立图谱的数据模式,就是对整个知识图谱的结构进行定义。知识图谱有自顶向下和自底向上两种构建方式:自底向上构建,是借助一定的技术手段,从公开采集的数据中提取出资源模式,经人工审核之后,加入到知识库中,多用于通用知识图谱;而自顶向下指的是先基于大量数据为知识图谱定义好本体与数据模式,再将实体加入到知识库,多用于行业知识图谱。例如,数据科学是对数据进行科学研究的领域,是实现人工智能的主要途径。在研究过程中,数据科学家们往往自身拥有不同的专业知识与项目经验,但由于这些知识没有进行系统的管理与及时的共享,导致数据科学家在工作中遇到问题时只能通过网络查找零散的信息或者求助他人,加大了知识获取的时间成本以及降低了工作效率。
针对上述相关技术中采用的用于构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种知识图谱的构建方法及装置,以至少解决相关技术中采用的构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种知识图谱的构建方法,包括:抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,所述本体用于对所述预定科学领域中的实体进行抽象表达;根据所述本体的本体类型以及所述本体之间的关联关系构建本体库;从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息;将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱。
可选地,根据所述本体的本体类型以及所述本体之间的关联关系构建本体库包括:根据所述本体中每个本体的属性参数确定所述本体中每个本体的本体类型;基于所述本体中每个本体的关联参数确定所述本体中每个本体之间的关联关系;根据所述本体中每个本体的本体类型以及所述本体中每个本体之间的关联关系构建所述本体库。
可选地,从预定数据源中获取所述预定科学领域的实体包括:获取预设过滤条件,并根据所述预设过滤条件对多个数据源进行过滤,得到属于所述预定科学领域的范畴的预定数据源;从所述预定数据源中获取所述预定科学领域的实体。
可选地,从所述预定数据源中获取所述预定科学领域的实体包括:对所述预定数据源进行信息抽取,得到所述预定科学领域的实体;其中,对所述预定数据源进行信息抽取包括:从半结构化数据和无结构数据中抽取信息,所述半结构数据为数据之间具有预定关系的数据,所述无结构数据为数据之间不具有预设关系的数据。
可选地,获取所述实体的结构化信息包括:通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对所述预定科学领域的实体进行信息抽取,得到所述预定科学领域的实体的属性以及所述实体中每个实体之间的关联关系。
可选地,在从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息之后,该知识图谱的构建方法还包括:对所述预定科学领域的实体以及所述实体的结构化信息进行整合;其中,对所述预定科学领域的实体以及所述实体的结构化信息进行整合包括:搜索得到所述实体中概念相同的实体以及所述实体中存在至少两种概念的实体;对所述概念相同的实体进行归一化处理,同时对所述实体中存在至少两种概念的实体进行消除歧义处理。
可选地,在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,该知识图谱的构建方法还包括:获取所述预定科学领域的新出现的本体以及新出现的实体,并根据所述新出现的本体以及新出现的实体对所述知识图谱进行更新。
可选地,在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,该知识图谱的构建方法还包括:获取预定对象对所述知识图谱的评估结果;根据所述评估结果对所述知识图谱进行更新;和/或,响应预定对象的触发消息,其中,所述触发消息为所述预定对象根据对所述知识图谱的使用需求对所述知识图谱中以下至少之一进行预定操作;实体,实体之间的关联关系,所述预定操作包括以下至少之一:修改操作,删除操作,添加操作。
根据本发明实施例的另外一个方面,还提供了一种知识图谱的构建装置,包括:抽取单元,用于抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,所述本体用于对所述预定科学领域中的实体进行抽象表达;第一构建单元,用于根据所述本体的本体类型以及所述本体之间的关联关系构建本体库;第一获取单元,用于从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息;第二构建单元,用于将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱。
可选地,所述第一构建单元包括:第一确定模块,用于根据所述本体中每个本体的属性参数确定所述本体中每个本体的本体类型;第二确定模块,用于基于所述本体中每个本体的关联参数确定所述本体中每个本体之间的关联关系;第一构建模块,用于根据所述本体中每个本体的本体类型以及所述本体中每个本体之间的关联关系构建所述本体库。
可选地,所述第一获取单元包括:过滤模块,用于获取预设过滤条件,并根据所述预设过滤条件对多个数据源进行过滤,得到属于所述预定科学领域的范畴的预定数据源;第一获取模块,用于从所述预定数据源中获取所述预定科学领域的实体。
可选地,所述第一获取单元包括:抽取模块,用于对所述预定数据源进行信息抽取,得到所述预定科学领域的实体;其中,所述抽取模块包括:抽取子模块,用于从半结构化数据和无结构数据中抽取信息,所述半结构数据为数据之间具有预定关系的数据,所述无结构数据为数据之间不具有预设关系的数据。
可选地,所述第一获取单元包括:第二获取模块,用于通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对所述预定科学领域的实体进行信息抽取,得到所述预定科学领域的实体的属性以及所述实体中每个实体之间的关联关系。
可选地,该知识图谱的构建装置还包括:整合单元,用于在从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息之后,对所述预定科学领域的实体以及所述实体的结构化信息进行整合;其中,所述整合单元包括:搜索模块,用于搜索得到所述实体中概念相同的实体以及所述实体中存在至少两种概念的实体;处理模块,用于对所述概念相同的实体进行归一化处理,同时对所述实体中存在至少两种概念的实体进行消除歧义处理。
可选地,该知识图谱的构建装置还包括:第一更新单元,用于在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,获取所述预定科学领域的新出现的本体以及新出现的实体,并根据所述新出现的本体以及新出现的实体对所述知识图谱进行更新。
可选地,该知识图谱的构建装置还包括:第二获取单元,用于在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,获取预定对象对所述知识图谱的评估结果;第二更新单元,用于根据所述评估结果对所述知识图谱进行更新;和/或,响应单元,用于响应预定对象的触发消息,其中,所述触发消息为所述预定对象根据对所述知识图谱的使用需求对所述知识图谱中以下至少之一进行预定操作;实体,实体之间的关联关系,所述预定操作包括以下至少之一:修改操作,删除操作,添加操作。
根据本发明实施例的另外一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述中任意一项所述的知识图谱的构建方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的知识图谱的构建方法。
在本发明实施例中,采用抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;根据本体的本体类型以及本体之间的关联关系构建本体库;从预定数据源中获取预定科学领域的实体以及实体的结构化信息;将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱的方式实现知识图谱的构建,通过本发明实施例提供的知识图谱的构建方法可以实现构建预定科学领域的本体库,并利用获取的该预定科学领域的实体构建知识图谱的目的,达到了提高知识管理以及共享的效率的技术效果,进而解决了相关技术中采用的构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的知识图谱的构建方法的流程图;
图2是根据本发明实施例的本体库的示意图;
图3是根据本发明实施例的可选的知识图谱的构建方法的流程图;以及
图4是根据本发明实施例的知识图谱的构建装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体之间通过关系相互联结,构成网状的知识结构。
根据覆盖范围而言,知识图谱也可分为开放域通用知识图谱和垂直行业知识图谱。开放域通用知识图谱注重广度,较垂直行业知识图谱而言,其准确度不够高,并且很难借助本体库对一些公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。行业知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。
实施例1
根据本发明实施例,提供了一种知识图谱的构建方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的知识图谱的构建方法的流程图,如图1所示,该知识图谱的构建方法包括如下步骤:
步骤S102,抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达。
其中,预定科学领域可以包括但不限于:生物领域,金融领域,数据科学领域等。在本发明实施例中以预定科学领域为数据科学领域为例进行详细说明。
在步骤S102中,抽取数据科学领域的本体。其中,本体是指一种形式化的,对于共享概念体系的明确而又详细的说明,其提供的是一种共享词表;简而言之,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。
步骤S104,根据本体的本体类型以及本体之间的关联关系构建本体库。
步骤S106,从预定数据源中获取预定科学领域的实体以及实体的结构化信息。
其中,上述预定数据源既可以是存储与本地的数据库的路径,也可以是可以用于搜索到互联网上某个页面的数据的路径(例如,利用爬虫爬取数据)。
步骤S108,将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。
其中,对于上述步骤S102抽取预定科学领域的各个本体并确定各个本体之间的关联关系与步骤S104中抽取数据科学领域的本体这两个步骤、同步骤S106中从预定数据源中获取预定科学领域的实体以及实体的结构化信息可以是同步执行,即可以在抽取数据科学领域的本体之后,同时执行以下两个步骤:步骤S104,根据本体的本体类型以及本体之间的关联关系构建本体库;和步骤S106,从预定数据源中获取预定科学领域的实体以及实体的结构化信息。也可以是,先执行步骤S106,再执行步骤S102和S104。
通过上述步骤,可以采用抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;然后根据本体的本体类型以及本体之间的关联关系构建本体库;同时从预定数据源中获取预定科学领域的实体以及实体的结构化信息;再将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。相对于相关技术中数据没有进行系统的管理以及未及时共享,导致预定领域的科学家在工作过程中遇到问题时只能通过网络查找零散的信息或求助他人,加大了知识获取的时间成本以及降低了工作效率的弊端。通过本发明实施例提供的知识图谱的构建方法可以实现构建预定科学领域的本体库,并利用获取的该预定科学领域的实体构建知识图谱的目的,达到了提高知识管理以及共享的效率的技术效果,进而解决了相关技术中采用的构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的技术问题。
在上述步骤S104中,根据本体的本体类型以及本体之间的关联关系构建本体库可以包括:根据本体中每个本体的属性参数确定本体中每个本体的本体类型;基于本体中每个本体的关联参数确定本体中每个本体之间的关联关系;根据本体中每个本体的本体类型以及本体中每个本体之间的关联关系构建本体库。
例如,图2是根据本发明实施例的本体库的示意图,如图2所示,可以首先定义10个本体,具体地,可以根据本体的属性参数(比如,该本体的具体功能、作用)确定本体的本体类型。其中,该10个本体的名称以及具体定义如下:
①.Pipeline:数据科学研究项目需要进行的工作流程,如数据预处理;即,数据科学领域需要对进行的工作流程这个事项定义一个本体,例如,数据预处理,则可以根据需要定义的本体的属性参数确定该本体的本体类型。
②.Task:项目某工作流程中需要进行的具体事件,如缺失值填补;
③.Method:项目某具体事件可选择的方法,如均值填补;
④.Concept:数据科学相关概念,如分类算法、回归算法;
⑤.Reference:参考资料,如网页链接、本地文件等多种形式;
⑥.Code:可实现的代码文件;
⑦.Parameter:算法涉及的相关参数;
⑧.Case:项目;
⑨.Version:项目版本,同一个项目在不同时间段可能有不同的工作流程;
⑩.Data:项目涉及的数据文件。
另外,在定义了本体以及本体的类型之后,为了构建知识图谱还需要明确各个本体之间的关系,即可以根据每个本体的关联参数确定每个本体之间的关联关系,如图2所示,还定义了10中关系(例如,实体A→实体B):
①.Next:不同本体之间的顺承关系,比如,先实体A后实体B
②.Peer_next:同一本体之间的顺承关系,比如,先实体A后实体B
③.Condition:前提条件关系,比如,实体B是实体A的前提条件
④.Code:代码,比如,实体B是实体A的代码文件
⑤.Reference:资料,比如,实体B是实体A的参考资料
⑥.Case_feature:项目特点,比如,实体B是实体A具有的概念特点
⑦.Case_data:项目数据文件,比如,实体B是实体A的数据文件
⑧.Version:版本,比如,实体B是实体A的流程版本
⑨.Version_task:版本执行任务,比如,实体B是实体A对应的已执行任务
⑩.Version_method:版本执行方法,比如,实体B是实体A对应的已执行方法
作为一种可选的实施例,在步骤S106中,从预定数据源中获取预定科学领域的实体可以包括:获取预设过滤条件,并根据预设过滤条件对多个数据源进行过滤,得到属于预定科学领域的范畴的预定数据源;从预定数据源中获取预定科学领域的实体。
另外,需要说明的是,在从预定数据源中获取到预定科学领域的实体之后,需要将得到的实体转换成符合本体库的构建规则的形式,以保证构建的知识图谱的规划化以及标准化,便于用户使用学习。
可选地,获取实体的结构化信息包括:通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对预定科学领域的实体进行信息抽取,得到预定科学领域的实体的属性以及实体中每个实体之间的关联关系。
优选的,从预定数据源中获取预定科学领域的实体可以包括:对预定数据源进行信息抽取,得到预定科学领域的实体;其中,对预定数据源进行信息抽取包括:从半结构化数据和无结构数据中抽取信息,半结构数据为数据之间具有预定关系的数据,无结构数据为数据之间不具有预设关系的数据。
例如,上述半结构数据可以是从一些文章中提取的数据,由于这些数据是来源是同一篇文章,那么这些数据之间是存在一些关系的,因此,称这些数据为半结构数据;而无结构数据则是数据之间没有任何关联的,比较自由的数据。
作为一种可选的实施例,获取实体的结构化信息包括:通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对预定科学领域的实体进行信息抽取,得到预定科学领域的实体的属性以及实体中每个实体之间的关联关系。
另外,由于获取的实体是从多个数据源中得到的,那么这些实体之间会存在概念相同的多个实体,以及同一个实体指代多种不同的概念的现象。因此,在从预定数据源中获取预定科学领域的实体以及实体的结构化信息之后,该知识图谱的构建方法还可以包括:对预定科学领域的实体以及实体的结构化信息进行整合;其中,对预定科学领域的实体以及实体的结构化信息进行整合包括:搜索得到实体中概念相同的实体以及实体中存在至少两种概念的实体;对概念相同的实体进行归一化处理,同时对实体中存在至少两种概念的实体进行消除歧义处理。经过上述整合操作,使得到的知识图谱比较简洁,清晰,便于用户知识的获取。
需要说明的是,在通过上述方式构建得到知识图谱之后,为了使得通过本发明实施例提供的知识图谱的构建方法得到的知识图谱可以更好地为用户服务,需要对构建得到的知识图谱进行不断的更新。其中,在本发明实施例中,对知识图谱的更新可以从两个方面进行说明,一种是由于预定学科领域的新知识的出现促使该知识图谱需要进行更新;另一种是用户在使用该知识图谱的过程中对知识图谱的适用性、适用性等进行评估,根据评估结果用户主动实施的对知识图谱的更新。下面进行详细说明。
一个方面,对于任意一个科学领域,随着时间的推移,必定会出现一些新的知识,为了使得通过本发明实施例提供的知识图谱的构建方法可以将这些新出现的知识也展示给用户,在将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱之后,该知识图谱的构建方法还可以包括:获取预定科学领域的新出现的本体以及新出现的实体,并根据新出现的本体以及新出现的实体对知识图谱进行更新。
另一个方面,在将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱之后,该知识图谱的构建方法还可以包括:获取预定对象对知识图谱的评估结果;根据评估结果对知识图谱进行更新;和/或,响应预定对象的触发消息,其中,触发消息为预定对象根据对知识图谱的使用需求对知识图谱中以下至少之一进行预定操作;实体,实体之间的关联关系,预定操作包括以下至少之一:修改操作,删除操作,添加操作。
图3是根据本发明实施例的可选的知识图谱的构建方法的流程图,如图3所示,首先,需要进行本体库的构建;具体地,本体库的构建是对预定科学领域的知识进行提取抽象结构的过程,在这里需要明确定义本体以及本体之间的关系。接下来是实体的提取;实体的提取是通过人机交互、自动抽取等方式来实现的,具体地,根据本体库设计的规范,通过人工整理或自动抽取从各种类型的数据源中提取出实体以及实体间的相互关系的知识点,并将实体根据实体之间的相互关系导入本体库中,其中,信息抽取是一种自动化地从半结构和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术,例如,命名实体识别,实体间关系抽取以及实体属性抽取技术。
另外,还包括对知识图谱的更新,例如,在获得新知识后,需要对其进行整合,以消除矛盾和歧义,比如,某些实体可能有多种表达,某个特定称谓也许对应多个不同的实体等。同时引入用户评价机制,使用知识图片的用户可以参与对实体关系的添加、删除和修改,也可以评价该知识图谱(或知识图谱中实体)的价值,知识图谱定期通过价值评价评分保留或剔除实体。
通过本发明实施例提供的知识图谱的构建方法构建的预定科学领域(例如,数据科学领域)的知识图谱可以支持该科学领域的知识问答以及历史项目回顾等。
实施例2
根据本发明实施例还提供了一种知识图谱的构建装置,需要说明的是,本发明实施例的知识图谱的构建装置可以用于执行本发明实施例所提供的知识图谱的构建方法。以下对本发明实施例提供的知识图谱的构建装置进行介绍。
图4是根据本发明实施例的知识图谱的构建装置的示意图,如图4所示,该知识图谱的构建装置可以包括:抽取单元41,第一构建单元43,第一获取单元45以及第二构建单元47。下面对该知识图谱的构建装置进行详细说明。
抽取单元41,用于抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达。
第一构建单元43,用于根据本体的本体类型以及本体之间的关联关系构建本体库。
第一获取单元45,用于从预定数据源中获取预定科学领域的实体以及实体的结构化信息。
第二构建单元47,用于将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。
需要说明的是,该实施例中的抽取单元41可以用于执行本发明实施例中的步骤S102,该实施例中的第一构建单元43可以用于执行本发明实施例中的步骤S104,该实施例中的第一获取单元45可以用于执行本发明实施例中的步骤S106,该实施例中的第二构建单元47可以用于执行本发明实施例中的步骤S108。上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。
在该实施例中,可以利用抽取单元41抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;然后利用第一构建单元43根据本体的本体类型以及本体之间的关联关系构建本体库;再利用第一获取单元45从预定数据源中获取预定科学领域的实体以及实体的结构化信息;并采用第二构建单元47将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。相对于相关技术中数据没有进行系统的管理以及未及时共享,导致预定领域的科学家在工作过程中遇到问题时只能通过网络查找零散的信息或求助他人,加大了知识获取的时间成本以及降低了工作效率的弊端。通过本发明实施例提供的知识图谱的构建装置可以实现构建预定科学领域的本体库,并利用获取的该预定科学领域的实体构建知识图谱的目的,达到了提高知识管理以及共享的效率的技术效果,进而解决了相关技术中采用的构建知识图谱的方式构建得到的知识图谱容易导致获取知识的效率较低的技术问题。
作为一种可选的实施例,第一构建单元可以包括:第一确定模块,用于根据本体中每个本体的属性参数确定本体中每个本体的本体类型;第二确定模块,用于基于本体中每个本体的关联参数确定本体中每个本体之间的关联关系;第一构建模块,用于根据本体中每个本体的本体类型以及本体中每个本体之间的关联关系构建本体库。
作为一种可选的实施例,第一获取单元包括:过滤模块,用于获取预设过滤条件,并根据预设过滤条件对多个数据源进行过滤,得到属于预定科学领域的范畴的预定数据源;第一获取模块,用于从预定数据源中获取预定科学领域的实体。
作为一种可选的实施例,第一获取单元包括:抽取模块,用于对预定数据源进行信息抽取,得到预定科学领域的实体;其中,抽取模块包括:抽取子模块,用于从半结构化数据和无结构数据中抽取信息,半结构数据为数据之间具有预定关系的数据,无结构数据为数据之间不具有预设关系的数据。
作为一种可选的实施例,第一获取单元包括:第二获取模块,用于通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对预定科学领域的实体进行信息抽取,得到预定科学领域的实体的属性以及实体中每个实体之间的关联关系。
作为一种可选的实施例,该知识图谱的构建装置还可以包括:整合单元,用于在从预定数据源中获取预定科学领域的实体以及实体的结构化信息之后,对预定科学领域的实体以及实体的结构化信息进行整合;其中,整合单元包括:搜索模块,用于搜索得到实体中概念相同的实体以及实体中存在至少两种概念的实体;处理模块,用于对概念相同的实体进行归一化处理,同时对实体中存在至少两种概念的实体进行消除歧义处理。
作为一种可选的实施例,该知识图谱的构建装置还可以包括:第一更新单元,用于在将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱之后,获取预定科学领域的新出现的本体以及新出现的实体,并根据新出现的本体以及新出现的实体对知识图谱进行更新。
作为一种可选的实施例,该知识图谱的构建装置还可以包括:第二获取单元,用于在将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱之后,获取预定对象对知识图谱的评估结果;第二更新单元,用于根据评估结果对知识图谱进行更新;和/或,响应单元,用于响应预定对象的触发消息,其中,触发消息为预定对象根据对知识图谱的使用需求对知识图谱中以下至少之一进行预定操作;实体,实体之间的关联关系,预定操作包括以下至少之一:修改操作,删除操作,添加操作。
上述知识图谱的构建装置包括处理器和存储器,上述抽取单元41,第一构建单元43,第一获取单元45以及第二构建单元47等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另外一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述中任意一项的知识图谱的构建方法。
根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的知识图谱的构建方法。
在本发明实施例中还提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;根据本体的本体类型以及本体之间的关联关系构建本体库;从预定数据源中获取预定科学领域的实体以及实体的结构化信息;将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。
在本发明实施例中还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,本体用于对预定科学领域中的实体进行抽象表达;根据本体的本体类型以及本体之间的关联关系构建本体库;从预定数据源中获取预定科学领域的实体以及实体的结构化信息;将实体以及实体的结构化信息导入本体库,以构建预定科学领域的知识图谱。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种知识图谱的构建方法,其特征在于,包括:
抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,所述本体用于对所述预定科学领域中的实体进行抽象表达;
根据所述本体的本体类型以及所述本体之间的关联关系构建本体库;
从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息;
将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱。
2.根据权利要求1所述的方法,其特征在于,根据所述本体的本体类型以及所述本体之间的关联关系构建本体库包括:
根据所述本体中每个本体的属性参数确定所述本体中每个本体的本体类型;
基于所述本体中每个本体的关联参数确定所述本体中每个本体之间的关联关系;
根据所述本体中每个本体的本体类型以及所述本体中每个本体之间的关联关系构建所述本体库。
3.根据权利要求1所述的方法,其特征在于,从预定数据源中获取所述预定科学领域的实体包括:
获取预设过滤条件,并根据所述预设过滤条件对多个数据源进行过滤,得到属于所述预定科学领域的范畴的预定数据源;
从所述预定数据源中获取所述预定科学领域的实体。
4.根据权利要求1所述的方法,其特征在于,从所述预定数据源中获取所述预定科学领域的实体包括:对所述预定数据源进行信息抽取,得到所述预定科学领域的实体;
其中,对所述预定数据源进行信息抽取包括:从半结构化数据和无结构数据中抽取信息,所述半结构数据为数据之间具有预定关系的数据,所述无结构数据为数据之间不具有预设关系的数据。
5.根据权利要求4所述的方法,其特征在于,获取所述实体的结构化信息包括:
通过命名实体识别、实体间关系抽取以及实体属性抽取技术,对所述预定科学领域的实体进行信息抽取,得到所述预定科学领域的实体的属性以及所述实体中每个实体之间的关联关系。
6.根据权利要求1所述的方法,其特征在于,在从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息之后,还包括:
对所述预定科学领域的实体以及所述实体的结构化信息进行整合;
其中,对所述预定科学领域的实体以及所述实体的结构化信息进行整合包括:
搜索得到所述实体中概念相同的实体以及所述实体中存在至少两种概念的实体;
对所述概念相同的实体进行归一化处理,同时对所述实体中存在至少两种概念的实体进行消除歧义处理。
7.根据权利要求1所述的方法,其特征在于,在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,还包括:
获取所述预定科学领域的新出现的本体以及新出现的实体,并根据所述新出现的本体以及新出现的实体对所述知识图谱进行更新。
8.根据权利要求1所述的方法,其特征在于,在将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱之后,还包括:
获取预定对象对所述知识图谱的评估结果;
根据所述评估结果对所述知识图谱进行更新;和/或,
响应预定对象的触发消息,其中,所述触发消息为所述预定对象根据对所述知识图谱的使用需求对所述知识图谱中以下至少之一进行预定操作;实体,实体之间的关联关系,所述预定操作包括以下至少之一:修改操作,删除操作,添加操作。
9.一种知识图谱的构建装置,其特征在于,包括:
抽取单元,用于抽取预定科学领域的各个本体,并确定各个本体之间的关联关系,其中,所述本体用于对所述预定科学领域中的实体进行抽象表达;
第一构建单元,用于根据所述本体的本体类型以及所述本体之间的关联关系构建本体库;
第一获取单元,用于从预定数据源中获取所述预定科学领域的实体以及所述实体的结构化信息;
第二构建单元,用于将所述实体以及所述实体的结构化信息导入所述本体库,以构建所述预定科学领域的知识图谱。
10.根据权利要求9所述的装置,其特征在于,所述第一构建单元包括:
第一确定模块,用于根据所述本体中每个本体的属性参数确定所述本体中每个本体的本体类型;
第二确定模块,用于基于所述本体中每个本体的关联参数确定所述本体中每个本体之间的关联关系;
第一构建模块,用于根据所述本体中每个本体的本体类型以及所述本体中每个本体之间的关联关系构建所述本体库。
CN201811280911.9A 2018-10-30 2018-10-30 知识图谱的构建方法及装置 Pending CN109508383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811280911.9A CN109508383A (zh) 2018-10-30 2018-10-30 知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811280911.9A CN109508383A (zh) 2018-10-30 2018-10-30 知识图谱的构建方法及装置

Publications (1)

Publication Number Publication Date
CN109508383A true CN109508383A (zh) 2019-03-22

Family

ID=65747094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811280911.9A Pending CN109508383A (zh) 2018-10-30 2018-10-30 知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN109508383A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222198A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 有色金属行业知识图谱构建方法、电子装置及存储介质
CN110222196A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 渔业知识图谱构建装置、方法及计算机可读存储介质
CN110245241A (zh) * 2019-06-18 2019-09-17 卓尔智联(武汉)研究院有限公司 塑料知识图谱构建装置、方法及计算机可读存储介质
CN110413695A (zh) * 2019-07-29 2019-11-05 北京百度网讯科技有限公司 基于区块链的警务信息管理方法、装置、设备和介质
CN110750651A (zh) * 2019-10-16 2020-02-04 同方知网(北京)技术有限公司 一种基于科技成果的知识图谱构建方法及生成装置
CN111177653A (zh) * 2019-12-10 2020-05-19 中国建设银行股份有限公司 一种信用评估方法和装置
CN111191050A (zh) * 2020-01-03 2020-05-22 中国建设银行股份有限公司 知识图谱本体模型构建的方法和装置
CN111368097A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种知识图谱抽取方法及装置
CN111475604A (zh) * 2019-09-18 2020-07-31 北京国双科技有限公司 数据处理方法及装置
CN111625607A (zh) * 2019-12-27 2020-09-04 北京国双科技有限公司 油气知识图谱的构建方法、装置、电子设备和存储介质
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
CN111986742A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种构建骨科知识图谱的方法
CN112084203A (zh) * 2020-09-10 2020-12-15 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112104734A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质
WO2021037045A1 (zh) * 2019-08-26 2021-03-04 华为技术有限公司 知识图谱构建方法及装置、计算设备、存储介质
CN113032862A (zh) * 2020-07-27 2021-06-25 深圳市前海数字城市科技有限公司 一种建筑信息模型检查方法、检查装置及终端设备
WO2021253238A1 (en) * 2020-06-16 2021-12-23 Baidu.Com Times Technology (Beijing) Co., Ltd. Learning interpretable relationships between entities, relations, and concepts via bayesian structure learning on open domain facts
WO2022121651A1 (en) * 2020-12-09 2022-06-16 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for knowledge graph construction using capsule neural network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
US20180137424A1 (en) * 2016-11-17 2018-05-17 General Electric Company Methods and systems for identifying gaps in predictive model ontology
CN108509420A (zh) * 2018-03-29 2018-09-07 赵维平 古谱及古文化知识图谱自然语言处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
US20180137424A1 (en) * 2016-11-17 2018-05-17 General Electric Company Methods and systems for identifying gaps in predictive model ontology
CN108509420A (zh) * 2018-03-29 2018-09-07 赵维平 古谱及古文化知识图谱自然语言处理方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222198A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 有色金属行业知识图谱构建方法、电子装置及存储介质
CN110222196A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 渔业知识图谱构建装置、方法及计算机可读存储介质
CN110245241A (zh) * 2019-06-18 2019-09-17 卓尔智联(武汉)研究院有限公司 塑料知识图谱构建装置、方法及计算机可读存储介质
CN110413695A (zh) * 2019-07-29 2019-11-05 北京百度网讯科技有限公司 基于区块链的警务信息管理方法、装置、设备和介质
WO2021037045A1 (zh) * 2019-08-26 2021-03-04 华为技术有限公司 知识图谱构建方法及装置、计算设备、存储介质
CN111475604A (zh) * 2019-09-18 2020-07-31 北京国双科技有限公司 数据处理方法及装置
CN110750651A (zh) * 2019-10-16 2020-02-04 同方知网(北京)技术有限公司 一种基于科技成果的知识图谱构建方法及生成装置
CN110750651B (zh) * 2019-10-16 2023-05-26 同方知网数字出版技术股份有限公司 一种基于科技成果的知识图谱构建方法
CN111177653A (zh) * 2019-12-10 2020-05-19 中国建设银行股份有限公司 一种信用评估方法和装置
CN111177653B (zh) * 2019-12-10 2023-05-30 中国建设银行股份有限公司 一种信用评估方法和装置
CN111625607A (zh) * 2019-12-27 2020-09-04 北京国双科技有限公司 油气知识图谱的构建方法、装置、电子设备和存储介质
CN111191050B (zh) * 2020-01-03 2023-07-04 中国建设银行股份有限公司 知识图谱本体模型构建的方法和装置
CN111191050A (zh) * 2020-01-03 2020-05-22 中国建设银行股份有限公司 知识图谱本体模型构建的方法和装置
CN111368097A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种知识图谱抽取方法及装置
CN111708893A (zh) * 2020-05-15 2020-09-25 北京邮电大学 基于知识图谱的科技资源整合方法及系统
WO2021253238A1 (en) * 2020-06-16 2021-12-23 Baidu.Com Times Technology (Beijing) Co., Ltd. Learning interpretable relationships between entities, relations, and concepts via bayesian structure learning on open domain facts
CN111986742A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种构建骨科知识图谱的方法
CN113032862A (zh) * 2020-07-27 2021-06-25 深圳市前海数字城市科技有限公司 一种建筑信息模型检查方法、检查装置及终端设备
CN113032862B (zh) * 2020-07-27 2022-04-05 深圳市前海数字城市科技有限公司 一种建筑信息模型检查方法、检查装置及终端设备
CN112084203A (zh) * 2020-09-10 2020-12-15 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112104734A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质
WO2022121651A1 (en) * 2020-12-09 2022-06-16 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for knowledge graph construction using capsule neural network
US11861311B2 (en) 2020-12-09 2024-01-02 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for knowledge graph construction using capsule neural network

Similar Documents

Publication Publication Date Title
CN109508383A (zh) 知识图谱的构建方法及装置
Chamoso et al. Relationship recommender system in a business and employment-oriented social network
CN108763445B (zh) 专利知识库的构建方法、装置、计算机设备和存储介质
CN106126521B (zh) 目标对象的社交账号挖掘方法及服务器
CN104615687B (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN109934619A (zh) 用户画像标签建模方法、装置、电子设备及可读存储介质
US20130198191A1 (en) Method for detecting communities in massive social networks by means of an agglomerative approach
CN107729336A (zh) 数据处理方法、设备及系统
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN105787134B (zh) 智能问答方法、装置及系统
CN112989059A (zh) 潜在客户识别方法及装置、设备及可读计算机存储介质
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN112116331A (zh) 一种人才推荐方法及装置
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
KR102079970B1 (ko) 지식 그래프를 이용하여 사이버 시큐리티를 제공하는 방법, 장치 및 컴퓨터 프로그램
CN107239450A (zh) 基于交互上下文处理自然语言方法
CN110457487A (zh) 专利知识图谱的构建方法及装置
CN108846043A (zh) 基于互联网大数据的网络痕迹挖掘分析方法及系统
CN106649380A (zh) 一种基于标签的热点推荐方法及系统
CN108664514A (zh) 一种图像搜索方法、服务器及存储介质
CN110399564A (zh) 帐号分类方法和装置、存储介质及电子装置
CN105354343B (zh) 基于远程对话的用户特征挖掘方法
Aufaure et al. Advances in FCA-based applications for social networks analysis
Wan et al. Discovering typed communities in mobile social networks
Cabrera et al. A context ontology for service provisioning and consumption

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190322