CN111159427B - 一种基于众包的知识图谱构建方法及系统 - Google Patents
一种基于众包的知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN111159427B CN111159427B CN201911399693.5A CN201911399693A CN111159427B CN 111159427 B CN111159427 B CN 111159427B CN 201911399693 A CN201911399693 A CN 201911399693A CN 111159427 B CN111159427 B CN 111159427B
- Authority
- CN
- China
- Prior art keywords
- mode
- graph
- resource
- knowledge
- resources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于众包的知识图谱构建方法及系统,所述方法包括如下步骤:步骤S1、创建图空间;步骤S2、创建用户模式并进行模式匹配和融合;步骤S3、上传资源;步骤S4、图谱构建。所述系统包括图空间模块、用户模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块。本发明采用基于众包的知识获取方法,用户可以根据自己的需求提供资源,添加到知识图谱中,解决知识图谱的资源获取问题。本发明提出一种基于OWL的模式,对异构资源进行描述,从元模型上控制其异构性,使得通过该方法构建的知识图谱可以更容易地进行融合。本发明实现知识应用的操作接口,所述操作接口提供对知识图谱的搜索能力和推理能力。
Description
技术领域
本发明属于计算机技术领域,涉及一种知识图谱构建方法及系统,具体涉及一种基于众包的知识图谱构建方法及系统。
背景技术
知识图谱是将知识结构化形成的知识系统,其中包含了基本事实、通用规则和其他有关信息,常用于人工智能领域的知识抽取、存储与推理等任务。随着智能技术的不断发展,作为人工智能支柱的知识图谱以其强大的知识表示和推理能力受到了学术界和产业界的广泛关注。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用,为了改进信息服务质量,国内外互联网公司纷纷推出知识图谱产品,如谷歌知识图谱、微软BingSatori、百度知心及搜狗知立方等。各个语音助理背后,知识图谱也扮演着重要角色。在大数据的背景下,现有的知识图谱技术有以下能力:一是覆盖能力,能够覆盖多领域的大规模数据;二是包容能力,能够包含大量异构的数据,包容知识的不同表达形式,从而保证应用和用户个性化需求得到满足;三是表示能力,能够对知识的语义信息进行表示。
而在当前知识图谱构建领域,多数研究方法通过抽取实体与实体之间的关系来构建知识图谱,主要包括实体识别方法、关系抽取方法、实体消歧方法与知识补全方法,其中需要大量的人工标注数据,是非常繁琐的数据归一化工作,且没有统一的、标准化的方法能够一次性解决。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于众包的知识图谱构建方法及系统。对于资源的获取问题,本发明提出一种基于众包方式的知识获取方法,用户可以根据自己的需求收集资源或者提供资源,添加到知识图谱中;对于众包方式获取资源的异构问题,本发明提出一种基于网络本体语言(Web Ontology Language,OWL)的模式,对异构资源进行描述,从元模型上控制其异构性,使得通过该方法构建的知识图谱可以更容易的进行融合。
本发明的目的是通过以下技术方案实现的:
一种基于众包的知识图谱构建方法,包括如下步骤:
步骤S1、创建图空间:
所述图空间为面向用户应用的命名空间,包含一个图数据库容器、一个RDF数据库和一个或多个Trans模型;
步骤S2、创建用户模式并进行模式匹配和融合:
创建用户模式,描述实体类、属性和关系;将用户模式存入步骤S1中创建的图空间所对应的RDF数据库;将用户模式和系统默认模式进行匹配和融合,生成模式匹配表,存入数据库;
步骤S3、上传资源:
用户根据用户模式描述的数据格式上传资源,利用步骤S2所述用户模式和模式匹配表对资源进行正确性校验,并对资源进行统一描述,将资源加入到资源入库队列中;
步骤S4、图谱构建:
从步骤S3所述资源入库队列中取出资源,与知识图谱中的资源进行对齐与融合,新资源加入到知识图谱中,利用Trans系列算法对知识图谱进行训练,得到知识表示学习模型。
一种实现上述方法的知识图谱构建系统,包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块,其中:
所述图空间模块用于创建和管理图空间,对不同用户的图谱进行数据隔离,为每个用户的应用场景提供知识图谱的构建和应用支持。
所述模式模块用于创建、审核、匹配、融合模式,模式提供支持属性、关系和类的描述,控制图谱的异构性,为知识图谱融合提供支持;
所述资源模块用于资源准入控制与统一描述,根据模式对资源进行正确性检验,对检验正确的资源,根据模式匹配表,将资源的描述项由用户模式定义的字段逐项转换为默认模式的字段,以得到统一描述的资源,再加入资源入库队列中;
所述图谱构建模块用于构造知识图谱与知识表示学习模型训练;
所述图数据库容器集群管理模块用于管理图数据库容器集群,为图空间分配图数据库容器。
相比于现有技术,本发明具有如下优点:
1、本发明采用基于众包的知识获取方法,用户可以根据自己的需求提供资源,添加到知识图谱中,解决知识图谱的资源获取问题。
2、本发明提出一种基于OWL的模式,对异构资源进行描述,从元模型上控制其异构性,使得通过该方法构建的知识图谱可以更容易地进行融合。
3、本发明实现知识应用的操作接口,所述操作接口提供对知识图谱的搜索能力和推理能力。
附图说明
图1为本发明的基于众包的知识图谱构建方法流程图;
图2为图空间结构示意图;
图3为模式匹配方法流程图;
图4为模式融合方法流程图;
图5为资源入库与知识应用流程图;
图6为本发明的基于众包的知识图谱构建系统架构图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
具体实施方式一、本实施方式提供了一种基于众包的知识图谱构建方法,如图1所示,所述方法包括如下步骤:
步骤S1、创建图空间。
用户从图数据库容器集群分配图数据库容器,分配RDF数据库存储空间,分配Trans模型存储空间。
图空间为面向用户应用的命名空间,包含一个图数据库容器、一个RDF数据库和一个或多个Trans模型;后面将说明的模式和后面将说明的资源包含于图空间,不同图空间中的模式和资源互不相关。图2所示为上述步骤执行三次得到三个图空间的例子。
步骤S2、创建用户模式。
创建用户模式,描述实体类、属性和关系,将用户模式存入步骤S1中创建的图空间所对应的RDF数据库,用户模式和系统默认模式进行匹配和融合,生成模式匹配表,存入数据库。具体包括如下步骤:
步骤S21、在前端新建用户模式,定义实体类,定义类继承关系,定义类属性,定义类属性取值范围,定义关系,定义关系取值范围,定义完成后保存提交,用户模式将保存到RDF数据库中。
步骤S22、模式匹配。如图3所示,匹配方法如下:
步骤S21所述用户模式O1与系统默认模式O2进行匹配,输出为模式匹配表T,匹配表项为模式中定义的类、属性或关系;匹配方法结合文本相似性算法和结构相似性算法,计算用户模式O1中每一项(类、属性或关系)与系统默认模式O2中每一项的文本和结构相似性,将两种相似性组合后得到相似性值,若大于阈值,则认为对应项是匹配的,加入模式匹配表T中。
步骤S23、模式融合:如图4所示,融合方法如下:
输入为步骤S21所述用户模式O1、步骤S22所述系统默认模式O2与步骤S22所述模式匹配表T,输出为新的默认模式NewO2。首先根据模式匹配表T,将用户模式O1与系统默认模式O2连接,若模式匹配表T中的匹配项为1:null,即用户模式O1中的实体(类、属性或关系)在系统默认模式O2中不存在,为系统默认模式O2创建相同的实体;若模式匹配表T中的匹配项为1:1,则跳过。其次根据模式匹配表T,对系统默认模式O2进行约束补全,包括上下位关系补全,定义域(domain)值域(range)补全与属性约束补全。上下文关系补全遍历用户模式O1中类和属性的父类和父属性,根据模式匹配表T,补充到系统默认模式O2对应项中;定义域值域补全遍历用户模式O1中属性和关系,根据模式匹配表T,补充到系统默认模式O2对应项中;属性约束补全遍历用户模式O1中属性约束,根据模式匹配表T,补充到系统默认模式O2对应项中。
步骤S3、上传资源。
如图5所示,用户根据模式描述的数据格式上传资源,利用步骤S2所述模式和模式匹配表对资源进行正确性校验,并对资源进行统一描述,将资源加入到资源入库队列中。
步骤S4、图谱构建。
如图5所示,从步骤S3所述资源入库队列中取出资源,与知识图谱中的资源进行对齐与融合,新资源加入到知识图谱中,利用Trans系列算法对知识图谱进行训练,得到知识表示学习模型,用于推理。
具体包括如下步骤:
步骤S41、从步骤S3所述资源入库队列中取出待入库资源e1,计算待入库资源e1与知识图谱中每一个同类资源e2的相似度res_sim(e1,e2)。取知识图谱中与待入库资源相似度最高且大于阈值的同类资源作为对齐资源,若知识图谱中不存在相似度大于阈值的资源,则认为待入库资源是一个新资源。两个资源e1与e2的相似度res_sim(e1,e2)的计算方法如下:
其中,e1、e2为资源,prop_sim(attr1i,attr2i)代表两个资源的对应属性相似度,attr1i为资源e1的第i个属性,attr2i为资源e2的第i个属性。
步骤S42、若步骤S41所述待入库资源e1未找到匹配的资源e2,则认为e1是一个新资源,直接添加到知识图谱中。若待入库资源e1找到了匹配的资源e2,对于e1的每一个属性attr1i,与e2中对应的属性attr2i有三种对应情况:(1)attr2i不存在,则将attr2i的值设为attr1i;(2)attr2i存在,且与attr1i相同,忽略;(3)attr2i存在,且与attr1i不相同,将attr1i补充到attr2i中。
步骤S43、将融合结果更新到图数据库中,具体方法如下:使用py2neo框架将融合结果转换为子图,更新到Neo4j数据库中;
步骤S44、使用开源的OpenKE框架对知识图谱进行训练,得到一系列Trans模型。OpenKE基于TensorFlow实现了高效的知识表示学习算法。
具体实施方式二、本实施方式提供了一种基于众包的知识图谱构建系统,如图6所示,所述系统包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块,其中:
所述图空间模块用于创建和管理图空间,对不同用户的图谱进行数据隔离,为每个用户的应用场景提供知识图谱的构建和应用支持。
所述模式模块用于创建、审核、匹配、融合模式,模式提供支持属性、关系和类的描述,控制图谱的异构性,为知识图谱融合提供支持。
所述资源模块用于资源准入控制与统一描述,根据模式对资源进行正确性检验,对检验正确的资源,根据模式匹配表,将资源的描述项由用户模式定义的字段逐项转换为默认模式的字段,以得到统一描述的资源,再加入资源入库队列中。
所述图谱构建模块用于构造知识图谱与知识表示学习模型训练,知识图谱由节点和边组成,节点代表实体,边代表实体之间的关系;知识表示学习模型包括TransE、TransH、TransR、TransD。
所述图数据库容器集群管理模块用于管理图数据库容器集群,为图空间分配图数据库容器,特别地图数据库使用Neo4j数据库,容器使用Docker容器。
各个模块的具体实现流程参考具体实施方式一。
需要说明的是,本实施方式中的各个模块(或单元)是逻辑意义上的,具体实现时,多个模块(或单元)可以合并成一个模块(或单元),一个模块(或单元)也可拆分成多个模块(或单元)。
Claims (9)
1.一种基于众包的知识图谱构建方法,其特征在于所述方法包括如下步骤:
步骤S1、创建图空间:
所述图空间为面向用户应用的命名空间,包含一个图数据库容器、一个RDF数据库和一个或多个Trans模型;
步骤S2、创建用户模式并进行模式匹配和融合:
创建用户模式,描述实体类、属性和关系;将用户模式存入步骤S1中创建的图空间所对应的RDF数据库;将用户模式和系统默认模式进行匹配和融合,生成模式匹配表,存入数据库,具体步骤如下:
步骤S21、在前端新建用户模式,定义实体类,定义类继承关系,定义类属性,定义类属性取值范围,定义关系,定义关系取值范围,定义完成后保存提交,用户模式将保存到RDF数据库中;
步骤S22、模式匹配:
步骤S21所述用户模式O1与系统默认模式O2进行匹配,输出为模式匹配表T,匹配表项为模式中定义的类、属性或关系;匹配方法结合文本相似性算法和结构相似性算法,计算用户模式O1中每一项与系统默认模式O2中每一项的文本和结构相似性,将两种相似性组合后得到相似性值,若大于阈值,则认为对应项是匹配的,加入模式匹配表T中;
步骤S23、模式融合:
输入为步骤S21所述用户模式O1、步骤S22所述系统默认模式O2与步骤S22所述模式匹配表T,输出为新的默认模式NewO2;
根据模式匹配表T,将用户模式O1与系统默认模式O2连接,若模式匹配表T中的匹配项为1:null,即用户模式O1中的实体在系统默认模式O2中不存在,为系统默认模式O2创建相同的实体;若模式匹配表T中的匹配项为1:1,则跳过;
根据模式匹配表T,对系统默认模式O2进行约束补全,包括上下位关系补全,定义域值域补全与属性约束补全;上下文关系补全遍历用户模式O1中类和属性的父类和父属性,根据模式匹配表T,补充到系统默认模式O2对应项中;定义域值域补全遍历用户模式O1中属性和关系,根据模式匹配表T,补充到系统默认模式O2对应项中;属性约束补全遍历用户模式O1中属性约束,根据模式匹配表T,补充到系统默认模式O2对应项中;
步骤S3、上传资源:
用户根据用户模式描述的数据格式上传资源,利用步骤S2所述用户模式和模式匹配表对资源进行正确性校验,并对资源进行统一描述,将资源加入到资源入库队列中;
步骤S4、图谱构建:
从步骤S3所述资源入库队列中取出资源,与知识图谱中的资源进行对齐与融合,新资源加入到知识图谱中,利用Trans系列算法对知识图谱进行训练,得到知识表示学习模型。
2.根据权利要求1所述的基于众包的知识图谱构建方法,其特征在于所述步骤S1中,用户从图数据库容器集群分配图数据库容器,分配RDF数据库存储空间,分配Trans模型存储空间。
3.根据权利要求1所述的基于众包的知识图谱构建方法,其特征在于所述步骤S4的具体步骤如下:
步骤S41、从步骤S3所述资源入库队列中取出待入库资源e1,计算待入库资源e1与知识图谱中每一个同类资源e2的相似度res_sim(e1,e2),取知识图谱中与待入库资源相似度最高且大于阈值的同类资源作为对齐资源,若知识图谱中不存在相似度大于阈值的资源,则认为待入库资源是一个新资源;
步骤S42、若步骤S41所述待入库资源e1未找到匹配的资源e2,则认为e1是一个新资源,直接添加到知识图谱中,若待入库资源e1找到了匹配的资源e2,对于e1的每一个属性attr1i,与e2中对应的属性attr2i有三种对应情况:(1)attr2i不存在,则将attr2i的值设为attr1i;(2)attr2i存在,且与attr1i相同,忽略;(3)attr2i存在,且与attr1i不相同,将attr1i补充到attr2i中;
步骤S43、将融合结果更新到图数据库中;
步骤S44、使用开源的OpenKE框架对知识图谱进行训练,得到一系列Trans模型。
5.根据权利要求3所述的基于众包的知识图谱构建方法,其特征在于所述步骤S43的具体方法如下:使用py2neo框架将融合结果转换为子图,更新到Neo4j数据库中。
6.一种实现权利要求1-5任一项所述方法的基于众包的知识图谱构建系统,其特征在于所述系统包括图空间模块、模式模块、资源模块、图谱构建模块、图数据库容器集群管理模块,其中:
所述图空间模块用于创建和管理图空间,对不同用户的图谱进行数据隔离,为每个用户的应用场景提供知识图谱的构建和应用支持;
所述模式模块用于创建、审核、匹配、融合模式,模式提供支持属性、关系和类的描述,控制图谱的异构性,为知识图谱融合提供支持;
所述资源模块用于资源准入控制与统一描述,根据模式对资源进行正确性检验,对检验正确的资源,根据模式匹配表,将资源的描述项由用户模式定义的字段逐项转换为默认模式的字段,以得到统一描述的资源,再加入资源入库队列中;
所述图谱构建模块用于构造知识图谱与知识表示学习模型训练;
所述图数据库容器集群管理模块用于管理图数据库容器集群,为图空间分配图数据库容器。
7.根据权利要求6所述基于众包的知识图谱构建系统,其特征在于所述知识图谱由节点和边组成,节点代表实体,边代表实体之间的关系。
8.根据权利要求6所述基于众包的知识图谱构建系统,其特征在于所述知识表示学习模型包括TransE、TransH、TransR、TransD。
9.根据权利要求6所述基于众包的知识图谱构建系统,其特征在于所述图数据库使用Neo4j数据库,容器使用Docker容器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399693.5A CN111159427B (zh) | 2019-12-30 | 2019-12-30 | 一种基于众包的知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399693.5A CN111159427B (zh) | 2019-12-30 | 2019-12-30 | 一种基于众包的知识图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159427A CN111159427A (zh) | 2020-05-15 |
CN111159427B true CN111159427B (zh) | 2021-10-01 |
Family
ID=70559432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911399693.5A Active CN111159427B (zh) | 2019-12-30 | 2019-12-30 | 一种基于众包的知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159427B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708919B (zh) * | 2020-05-28 | 2021-07-30 | 北京赛博云睿智能科技有限公司 | 一种大数据处理方法及系统 |
CN113296891B (zh) * | 2021-05-25 | 2024-04-19 | 和美(深圳)信息技术股份有限公司 | 基于平台的多场景知识图谱处理方法及装置 |
CN117252461B (zh) * | 2023-08-29 | 2024-06-21 | 深圳市国华在线教育科技有限公司 | 基于大数据的线上培训多模式教学方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109657068A (zh) * | 2018-11-30 | 2019-04-19 | 北京航空航天大学 | 面向智慧博物馆的文物知识图谱生成与可视化方法 |
CN109992672A (zh) * | 2019-04-11 | 2019-07-09 | 华北科技学院 | 基于灾害场景的知识图谱构建方法 |
-
2019
- 2019-12-30 CN CN201911399693.5A patent/CN111159427B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109657068A (zh) * | 2018-11-30 | 2019-04-19 | 北京航空航天大学 | 面向智慧博物馆的文物知识图谱生成与可视化方法 |
CN109992672A (zh) * | 2019-04-11 | 2019-07-09 | 华北科技学院 | 基于灾害场景的知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
DUSKG:A fine-grained knowledge graph for effective personalized service recommendation;Haifang Wang等;《ELSEVIER》;20191130;全文 * |
一种面向医疗健康领域知识图谱的可扩展系统架构的研究;盛明等;《小型微型计算机系统》;20191031;第40卷(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111159427A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malik et al. | A methodology for real-time data sustainability in smart city: Towards inferencing and analytics for big-data | |
CN107391677B (zh) | 携带实体关系属性的中文通用知识图谱的生成方法及装置 | |
CN111159427B (zh) | 一种基于众包的知识图谱构建方法及系统 | |
Cuéllar et al. | A common framework for information sharing in e-learning management systems | |
CN101799835A (zh) | 一种本体驱动地理信息检索系统和检索方法 | |
WO2015085622A1 (zh) | 一种物联网终端设备的语义化方法 | |
CN111191047A (zh) | 一种面向人机协作拆卸任务的知识图谱构建方法 | |
CN103116574A (zh) | 从自然语言文本挖掘领域过程本体的方法 | |
Yin et al. | Data Visualization Analysis Based on Explainable Artificial Intelligence: A Survey | |
CN113111135A (zh) | 一种知识图谱构建方法及装置 | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
CN116108194A (zh) | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 | |
Chen et al. | A visualization method for geographic conceptual modelling | |
Silvescu et al. | Graph databases | |
Ternai et al. | Ontology-based compliance checking on higher education processes | |
Bouhissi et al. | Toward Data Integration in the Era of Big Data: Role of Ontologies | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
Bizid et al. | Integration of heterogeneous spatial databases for disaster management | |
Li et al. | Spatio-temporal data fusion techniques for modeling digital twin City | |
CN114691880A (zh) | 知识图谱构建方法、装置及电子设备 | |
OUKHOUYA et al. | Automating Data Warehouse Design With MDA Approach Using NoSQL and Relational Systems | |
Gujral et al. | Knowledge Graphs: Connecting Information over the Semantic Web | |
Diallo et al. | Sociocultural Ontology: Upperlevel and Domain Ontologies | |
Bounif et al. | Schema repository for database schema evolution | |
Elkaimbillah et al. | Construction of an ontology-based document collection for the IT job offer in Morocco |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |