CN108345647B - 基于Web的领域知识图谱构建系统及方法 - Google Patents
基于Web的领域知识图谱构建系统及方法 Download PDFInfo
- Publication number
- CN108345647B CN108345647B CN201810049318.7A CN201810049318A CN108345647B CN 108345647 B CN108345647 B CN 108345647B CN 201810049318 A CN201810049318 A CN 201810049318A CN 108345647 B CN108345647 B CN 108345647B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- entity
- knowledge graph
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Web的领域知识图谱构建系统及方法,其中,系统包括:知识建模子系统,用于根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型;数据与实体链接子系统,用于根据多种类型数据提取知识,并将提取的知识存入知识图谱;人工辅助标注子系统,用于接收用户标注指令,以根据用户标注指令对知识图谱进行更改;知识可视化子系统,用于可视化呈现知识模型、知识模型与实体间的动态链接和更改后的知识图谱。该系统可以简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度。
Description
技术领域
本发明涉及知识图谱构建技术领域,特别涉及一种基于Web(World Wide Web,全球广域网)的领域知识图谱构建系统及方法。
背景技术
领域知识图谱是从特定领域的特定资源中抽取实体和实体之间的语义关系而构建的语义网络,它包含的知识体系通常具有很强的领域针对性和专业性。但是,目前国内外领域知识图谱构建的研究成果主要都是关于知识图谱中自然语言处理部分的关键技术,包括实体识别、关系识别、实体链接、知识融合、知识计算等。在实际构建领域知识图谱的过程中,为保证精确度,往往需要领域专家的监督与干预,这些技术对于领域专家来说理解难度大,技术实现门槛较高,这对领域知识图谱的普及和应用产生了一定的限制。
知识图谱按照覆盖面可分为通用知识图谱和领域知识图谱。目前已经发布的知识图谱基本都是通用知识图谱,它强调的是广度,主要应用于搜索等业务,对准确度要求不是很高。目前与知识图谱相关的专利申请中,也主要以通用知识图谱的构建为主。而领域知识图谱则具有很强的领域针对性和专业性,通常用于辅助各种复杂的分析应用或决策支持。
相关技术中公开了一种基于垂直领域的知识图谱的构建方法,包括抽取在线百科的类的词汇实现和类之间的上下位关系、领域知识的信息归并,领域的数据属性和关系属性的定义,最终完成实体层的学习;相关技术中还公开了一种面向图书的阅读领域知识图谱构建方法,该方法分为三个部分:通用知识图谱构建、领域知识图谱构建和智能阅读推荐,其中领域知识图谱的构建主要是采用迭代方法不断的扩充与图书相关的核心概念和核心实体,然后挖掘实体之间的语义关系。相关技术中又公开了一种中文旅游领域知识图谱构建方法及系统,采用一种混合式的实体属性知识扩充方法,集成了基于词汇场、监督学习、模式匹配,以及搜索引擎问答的实体属性知识扩充算法以实现旅游领域知识图谱构建任务。
然而,相关技术中的领域知识图谱构建系统存在的主要问题是:目前大多数领域知识图谱的数据建模部分是根据网络内容自动生成并扩充的,其数据模型的准确度难以保证,迫切需要引入专家的辅助编辑与人工监督方式。但是对于非人工智能领域的专家来说,知识图谱构建过程中涉及到的自然语言处理技术理解难度大,技术实现门槛较高,这对领域知识图谱的普及和应用产生了极大的限制,有待解决。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于Web的领域知识图谱构建系统,该系统可以极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度,提升领域知识图谱在现实生活中的应用普及程度。
本发明的另一个目的在于提出一种基于Web的领域知识图谱构建方法。
为达到上述目的,本发明一方面实施例提出了一种基于Web的领域知识图谱构建系统,包括:知识建模子系统,用于根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型;数据与实体链接子系统,用于根据多种类型数据提取知识,并将提取的所述知识存入知识图谱;人工辅助标注子系统,用于接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改;知识可视化子系统,用于可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱。
本发明实施例的基于Web的领域知识图谱构建系统,通过将知识图谱构建过程中涉及到的自然语言处理能力封装为Restful服务,用户在使用过程中仅需面对图形化Web界面,即可简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度,提升领域知识图谱在现实生活中的应用普及程度。
另外,根据本发明上述实施例的基于Web的领域知识图谱构建系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述知识建模子系统包括:数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;模型编辑模块,用于编辑所述知识模型的概念、实体、属性、层次关系以及概念-实体关系;并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限;数据验证模块,用于验证所述数据的完整性和一致性,并备份和导出所述数据;自动构建模块,用于识别所述知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧。
进一步地,在本发明的一个实施例中,所述数据与实体链接子系统包括:转化模块,用于将半结构化数据与非结构化数据转化成结构化数据;预处理模块,用于通过NLP(Natural Language Processing,自然语言处理)技术对所述多种类型数据进行预处理;提取模块,用于通过所述预设的数据资源提取所述知识。
进一步地,在本发明的一个实施例中,所述人工辅助标注子系统具体用于通过将所述知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许所述用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充。
进一步地,在本发明的一个实施例中,所述知识可视化子系统具体用于对所述用户编辑的知识模型或者上传数据,以动态展示所述实体链接的过程。
为达到上述目的,本发明另一方面实施例提出了一种基于Web的领域知识图谱构建方法,包括以下步骤:根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型;根据多种类型数据提取知识,并将提取的所述知识存入知识图谱;接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改;可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱。
本发明实施例的基于Web的领域知识图谱构建方法,通过将知识图谱构建过程中涉及到的自然语言处理能力封装为Restful服务,用户在使用过程中仅需面对图形化Web界面,即可简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度,提升领域知识图谱在现实生活中的应用普及程度。
另外,根据本发明上述实施例的基于Web的领域知识图谱构建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型包括:存储结构化数据、半结构化数据和非结构化数据;编辑所述知识模型的概念、实体、属性、层次关系以及概念-实体关系;在数据库系统中根据事务隔离级别来对数据进行并发编辑;校验用户登录信息,以控制不同编辑层面的权限;验证所述数据的完整性和一致性,并备份和导出所述数据;识别所述知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧。
进一步地,在本发明的一个实施例中,所述根据多种类型数据提取知识,并将提取的所述知识存入知识图谱包括:将半结构化数据与非结构化数据转化成结构化数据;通过自然语言处理NLP技术对所述多种类型数据进行预处理;通过所述预设的数据资源提取所述知识。
进一步地,在本发明的一个实施例中,所述接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改具体用于通过将所述知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许所述用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充。
进一步地,在本发明的一个实施例中,所述可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱具体用于对所述用户编辑的知识模型或者上传数据,以动态展示所述实体链接的过程。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于Web的领域知识图谱构建系统的结构示意图;
图2为根据本发明一个实施例的基于Web的领域知识图谱构建系统的结构示意图;
图3为根据本发明一个实施例的知识建模子系统的结构示意图;
图4为根据本发明实施例的基于Web的领域知识图谱构建方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于Web的领域知识图谱构建系统及方法,首先将参照附图描述根据本发明实施例提出的基于Web的领域知识图谱构建系统。
图1是本发明实施例的基于Web的领域知识图谱构建系统的结构示意图。
如图1所示,该基于Web的领域知识图谱构建系统10包括:
其中,知识建模子系统100用于根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型。数据与实体链接子系统200用于根据多种类型数据提取知识,并将提取的知识存入知识图谱。人工辅助标注子系统300用于接收用户标注指令,以根据用户标注指令对知识图谱进行更改。知识可视化子系统400用于可视化呈现知识模型、知识模型与实体间的动态链接和更改后的知识图谱。本发明实施例的系统10可以简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度。
可以理解的是,结合图1和图2所示,知识建模即构建知识图谱的数据模式,通常有三种构建方式:人工构建方式、自动构建方式和半自动构建方式。本发明实施例采用的是半自动构建方式,原因如下:
人工构建本体通常由大量的专家协作完成,需要从零开始逐个编辑各个概念、概念之间的关系以及一些约束规范等,耗费大量的人力物力,同时构建的本体难以随着互联网的信息变更而更新以致迅速老化;自动构建的方式通常利用各类知识获取技术、机器学习技术以及统计技术等自动地从已经存在的数据资源中获取知识模型,但是模型准确度难以保证;半自动构建方式介于人工构建本体和自动构建本体之间,本体学习在执行过程中受到专家的监督与修正,在保障精度的同时也可以极大地降低专家工作量,并适应网络资源的自动更新。本发明实施例的系统可以提供Web操作界面,既支持多专家在线并发协作编辑,也支持用户对特定行业数据来源进行配置并实现知识模型自动化构建,彼此协同。
知识建模完成后,需要从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,该过程即为知识获取。本发明实施例的系统10可以提供Web操作界面,将所有自然语言处理技术封装为可配置的Restful服务,与数据资源一起以Web组件形式呈现,通过简单拖拽操作对数据资源进行清洗、预处理、实体抽取、关系抽取、知识单元获取等。
另外,本发明实施例的系统10还可以为知识图谱的数据管理人员和领域专家提供全流程的人工辅助标注功能,在数据导入过程、知识建模过程、知识获取过程中引入人工干预,以保证领域知识图谱的准确性。
并且,可视化是将大量的数据、信息和知识转化为一种人类的视觉形式,直观、形象地表现、解释、分析、模拟、发现或揭示隐藏在数据内部的特征和规律。本发明实施例的系统10可以呈现内容包括知识模型、知识模型与实体之间的动态链接过程以及最终形成的知识图谱等。
进一步地,在本发明的一个实施例中,知识建模子系统100包括:数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块。
其中,数据存储模块用于存储结构化数据、半结构化数据和非结构化数据。模型编辑模块用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系。并发控制模块用于在数据库系统中根据事务隔离级别来对数据进行并发编辑。权限控制模块用于校验用户登录信息,以控制不同编辑层面的权限。数据验证模块用于验证数据的完整性和一致性,并备份和导出数据。自动构建模块用于识别知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧。
可以理解的是,如图3所示,本发明实施例的知识建模子系统100的数据存储模块和数据验证模块为通用模块;模型编辑模块、并发控制模块,权限控制模块主要用于支持人工构建方式,支持大规模用户并发编辑,提供对并发编辑下的数据一致性、完整性保证,其中,可编辑内容包括:本体构建过程中对概念及属性的定义,包括概念和属性的名称、定义域、值域等。知识编辑过程中添加和删除概念或实体,编辑概念或实体的名称、搞要、同义概念或实体、父概念、子概念和属性等。自动构建模块主要用于支持自动构建方式,基于用户配置实现知识建模的自动化流程,并且,用户可以在流程中可对知识模型进行监督和修改,从而保证领域知识图谱的准确度。
具体地,各模块的含义如下:
(1)数据存储模块:包括对结构化数据、半结构化数据和非结构化数据的存储;
(2)模型编辑模块:
概念编辑:概念一般是自然界抽象的类别,如:人、书、车;可编辑项包括:概念名称,概念的唯一标识,概念描述,概念同义词
实体编辑:实体一般是自然界客观存在的物体,可编辑项包括:实体名、实体的唯一标示(用于区分两同名的实体)、实体描述、实体同义词等。
属性编辑:定义概念的属性结构,分为数值属性与对象属性。数值属性一般用于为概念下的实例定义参数框架,如:人的身高、体重、视力;对象属性一般用户为概念下的实例定义关系框架,如:人的父亲、母亲、儿子、女儿。可编辑概念属性包括属性名、属性别称、属性类型(分为数值及对象)、属性描述等。
层次关系编辑:父概念为该概念的上层概念,子概念为该概念的下层概念;通过父子概念能够构建概念分类体系,一个概念的上层概念不可以作为其下层概念。
概念-实体关系编辑:可编辑项包括:实体所属的概念、实体继承概念的属性设置等。
(3)并发控制模块:该模块支持大规模用户并发编辑,在数据库系统中使用事务隔离级别来保证数据并发操作的一致性。
(4)权限控制模块:该模块对用户登录信息进行校验,用于控制不同编辑层面的权限,有些级别相对较低的用户,可能仅允许其编辑基本知识信息,这些用户所编辑知识的审查力度也会比较严格,以保证知识图谱的可靠性。
(5)数据验证模块:
数据完整性验证:在数据库领域,数据完整性(Data Integrity,数据完整性)是指数据的精确性(Accuracy)和可靠性(Reliability),主要用于防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息。在知识图谱的构建中,数据的完整性问题更需要考虑,一方面因为知识图谱的数据模式比关系数据的数据模式更加复杂,很容易出现数据的不完整;另一个因素是用户的编辑行为是需要经过审批的,从编辑到审批的这个过程,很可能有其它用户到知识图谱的更新。
另外,本发明实施例对数据完整性做出了如下约束:
(a)添加概念或实体时,必须指定父概念,防止出现游离的概念或实体;
(b)添加父概念、子概念、所属实体和对象属性的值时,必须保证目标概念或实体已经存在;
(c)删除概念时,需要确认该概念不包含实体,不包含子概念,且没有作为某个属性的定义域和值域;
(d)删除实体时,必须保证该实体没有作为其它实体的属性值;
(e)更改父概念后必须仍然保留有其它的父概念,这些约束的校验发生在两个时机,用户保存编辑记录时以及高级用户审批编辑记录时。
数据一致性验证:在数据库领域,一致性(Database Consistency)是指事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。知识图谱的编辑通常是对一个实体或概念进行编辑,面向的是实体或概念的多类知识进行编辑,因此需要对一致性进行保证。本发明实施例在保存和审批时把用户的一次保存行为视为一个原子操作,在这个原子操作中实现事务(transaction)的功能。
数据备份与导出:数据备份的主要操作包括定期对知识图谱的数据进行备份,发生数据难时的数据恢复等;知识图谱的所有数据也存储在RDF(Resource DescriptionFramework,资源描述框架)数据库中,支持SPARQL(SPARQL Protocol and RDF QueryLanguage,查询语言和数据获取协议)查询以及RDF/OWL形式文件的导出。
(6)自动构建模块:
实体识别:支持从识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在本发明实施例中主要是识别知识模型概念相关的实体,先正确分割实体的短语,再对文本实体进行分类。
关系识别:支持从文本中识别实体与实体之间的关系,本发明实施例主要识别已配置好的概念层次关系与概念-实体关系。在本发明实施例中通过对命名实体及其上下文进行获取、挖掘特征和关系分类实现。
实体链接:解决不同环境下的一词多义、多词一义的问题,实现实体识别与实体消歧。
进一步地,在本发明的一个实施例中,数据与实体链接子系统包括:转化模块,用于将半结构化数据与非结构化数据转化成结构化数据;预处理模块,用于通过自然语言处理NLP技术对多种类型数据进行预处理;提取模块,用于通过预设的数据资源提取知识。
可以理解的是,在知识建模完成后,本发明实施例需要从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,该过程即为知识获取。其中,数据可分为三类,一类信息存储在数据库里,可用二维表结构来逻辑表达,称之为结构化数据;另一类信息不能以二维表的形式存储在数据库里,如办公文档、各类报表、电子邮件、图片、视频等,称之为非结构化数据。此外,介于完全结构化数据和完全无结构化数据之间的数据,如HTML(HyperText Markup Language,超文本标记语言)页面、XML(eXtensible MarkupLanguage,可扩展标记语言)文档等,称之为半结构化数据。
在领域知识图谱构建时,通常以结构化数据为起点,因此要先将其他种类数据统一转化为文本,并从文本中获取知识,通常需要使用NLP技术进行预先处理,包括分词、词性标注、命名实体识别和句法分析等步骤;然后借助统计分析、机器学习等技术获取知识。
为降低用户使用门槛,本发明实施例可以实现的数据与实体链接子系统将所有自然语言处理技术封装为可配置的Restful服务,与数据资源一起以Web组件形式呈现,通过简单拖拽操作对数据资源进行清洗、预处理、实体抽取、关系抽取、知识单元获取等。当完成以上对结构化、半结构化和非结构化数据的处理,抽取出有效知识单元后,需将新知识单元与原有知识单元进行链接,可通过拖拽与连线将知识模型和指定数据库表连接绑定,在实体链接过程中,可选择具体数据库中的哪个属性集合与数据模式中的实体对应。
进一步地,在本发明的一个实施例中,人工辅助标注子系统具体用于通过将知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充。
可以理解的是,在数据的导入过程中,难免存在信息错误的情况,因此,除了文本挖掘和自动标引等自动化流程之外,为保证知识图谱信息的准确性,还需要引入人工干预,本发明实施例实现了针对数据导入的全流程设计人工辅助标注子系统,完成将图谱构建过程中有歧义的或者无法判断的数据条目统一整理成为人工任务,允许用户对自动学习的结果进行审查、核对和补充;修正学习结果中的错误,解决学习过程中的冲突,对学习结果进行补充等。领域知识图谱构建过程中需要监督审查的主要场景如下:
(1)知识建模自动构建过程中的实体识别、关系识别和实体链接过程;
(2)数据导入过程;
(3)多源数据的知识抽取、数据与实体的链接过程;
(4)知识获取过程。
进一步地,在本发明的一个实施例中,知识可视化子系统具体用于对用户编辑的知识模型或者上传数据,以动态展示实体链接的过程。
可以理解的是,可视化是将大量的数据、信息和知识转化为一种人类的视觉形式,直观、形象地表现、解释、分析、模拟、发现或揭示隐藏在数据内部的特征和规律,提高人类对事物的观察、记忆和理解能力及整体概念的形成。在知识建模和知识获取都完成后,就可以对知识单元及其关系通过不同图形来可视化展示,例如力导向图、几何图、战略图、冲积图、主题河图、地形图、星团图等。本发明实施例还可以提供多种图形样例,支持用户自定义图表展示类型,除静态图表之外,还可以在用户编辑知识模型或者在上传数据实现实体链接的过程进行动态展示。
根据本发明实施例提出的基于Web的领域知识图谱构建系统,通过将知识图谱构建过程中涉及到的自然语言处理能力封装为Restful服务,用户在使用过程中仅需面对图形化Web界面,即可简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度,提升领域知识图谱在现实生活中的应用普及程度。
其次参照附图描述根据本发明实施例提出的基于Web的领域知识图谱构建方法。
图4是本发明实施例的基于Web的领域知识图谱构建方法的流程图。
在步骤S401中,根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型。
在步骤S402中,根据多种类型数据提取知识,并将提取的知识存入知识图谱。
在步骤S403中,接收用户标注指令,以根据用户标注指令对知识图谱进行更改。
在步骤S404中,可视化呈现知识模型、知识模型与实体间的动态链接和更改后的知识图谱。
进一步地,在本发明的一个实施例中,根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型包括:存储结构化数据、半结构化数据和非结构化数据;编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;在数据库系统中根据事务隔离级别来对数据进行并发编辑;校验用户登录信息,以控制不同编辑层面的权限;验证数据的完整性和一致性,并备份和导出数据;识别知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧。
进一步地,在本发明的一个实施例中,根据多种类型数据提取知识,并将提取的知识存入知识图谱包括:将半结构化数据与非结构化数据转化成结构化数据;通过自然语言处理NLP技术对多种类型数据进行预处理;通过预设的数据资源提取知识。
进一步地,在本发明的一个实施例中,接收用户标注指令,以根据用户标注指令对知识图谱进行更改具体用于通过将知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充。
进一步地,在本发明的一个实施例中,可视化呈现知识模型、知识模型与实体间的动态链接和更改后的知识图谱具体用于对用户编辑的知识模型或者上传数据,以动态展示实体链接的过程。
需要说明的是,前述对基于Web的领域知识图谱构建方法实施例的解释说明也适用于该实施例的基于Web的领域知识图谱构建装置,此处不再赘述。
根据本发明实施例提出的基于Web的领域知识图谱构建方法,通过将知识图谱构建过程中涉及到的自然语言处理能力封装为Restful服务,用户在使用过程中仅需面对图形化Web界面,即可简单便捷地完成知识建模、知识获取和知识可视化工作,极大地降低了领域知识图谱构建的难度,有助于提升领域知识图谱的精确度,提升领域知识图谱在现实生活中的应用普及程度。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (4)
1.一种基于Web的领域知识图谱构建系统,其特征在于,包括:
知识建模子系统,用于根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型,其中,所述知识建模子系统包括:数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;模型编辑模块,用于编辑所述知识模型的概念、实体、属性、层次关系以及概念-实体关系;并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限;数据验证模块,用于验证所述数据的完整性和一致性,并备份和导出所述数据;以及自动构建模块,用于识别所述知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧,所述自动构建模块用于支持自动构建方式,基于用户配置实现知识建模的自动化流程;
数据与实体链接子系统,用于根据多种类型数据提取知识,并将提取的所述知识存入知识图谱,所述数据与实体链接子系统包括:
转化模块,用于将半结构化数据与非结构化数据转化成结构化数据;
预处理模块,用于通过自然语言处理NLP技术对所述多种类型数据进行预处理;
提取模块,用于通过所述预设的数据资源提取所述知识;
人工辅助标注子系统,用于接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改;以及
知识可视化子系统,用于可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱,所述人工辅助标注子系统具体用于通过将所述知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许所述用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充;其中,所述数据验证模块,用于验证所述数据的完整性和一致性还包括:添加概念或实体时,必须指定父概念,防止出现游离的概念或实体;添加父概念、子概念、所属实体和对象属性的值时,必须保证目标概念或实体已经存在;删除概念时,需要确认该概念不包含实体,不包含子概念,且没有作为某个属性的定义域和值域;删除实体时,必须保证该实体没有作为其它实体的属性值;更改父概念后必须仍然保留有其它的父概念,这些约束的校验发生在两个时机,用户保存编辑记录时以及高级用户审批编辑记录时;事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。
2.根据权利要求1所述的基于Web的领域知识图谱构建系统,其特征在于,所述知识可视化子系统具体用于对所述用户编辑的知识模型或者上传数据,以动态展示所述实体链接的过程。
3.一种基于Web的领域知识图谱构建方法,其特征在于,包括以下步骤:
根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型,其中,所述根据预设的数据资源获取初始知识模型,并接收操作界面的操作指令,以构建知识图谱的数据模式得到知识模型包括:
存储结构化数据、半结构化数据和非结构化数据;
编辑所述知识模型的概念、实体、属性、层次关系以及概念-实体关系;
在数据库系统中根据事务隔离级别来对数据进行并发编辑;
校验用户登录信息,以控制不同编辑层面的权限;
验证所述数据的完整性和一致性,并备份和导出所述数据;以及
识别所述知识模型概念相关的实体,并对命名实体及其上下文进行获取、挖掘特征和关系分类,以及实现实体识别与实体消歧,其中构建方式支持自动构建,基于用户配置实现知识建模的自动化流程;
根据多种类型数据提取知识,并将提取的所述知识存入知识图谱,所述根据多种类型数据提取知识,并将提取的所述知识存入知识图谱包括:
将半结构化数据与非结构化数据转化成结构化数据;
通过自然语言处理NLP技术对所述多种类型数据进行预处理;
通过所述预设的数据资源提取所述知识;
接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改,所述接收用户标注指令,以根据所述用户标注指令对所述知识图谱进行更改具体用于通过将所述知识图谱构建过程中有歧义的或者无法判断的数据条目统一整理成人工任务,允许所述用户对自动学习的结果进行审查、核对和补充,以修正学习结果中的错误,并对学习结果进行补充;以及
可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱;其中,数据验证模块,用于验证所述数据的完整性和一致性还包括:添加概念或实体时,必须指定父概念,防止出现游离的概念或实体;添加父概念、子概念、所属实体和对象属性的值时,必须保证目标概念或实体已经存在;删除概念时,需要确认该概念不包含实体,不包含子概念,且没有作为某个属性的定义域和值域;删除实体时,必须保证该实体没有作为其它实体的属性值;更改父概念后必须仍然保留有其它的父概念,这些约束的校验发生在两个时机,用户保存编辑记录时以及高级用户审批编辑记录时;事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。
4.根据权利要求3所述的基于Web的领域知识图谱构建方法,其特征在于,所述可视化呈现所述知识模型、所述知识模型与实体间的动态链接和更改后的知识图谱具体用于对所述用户编辑的知识模型或者上传数据,以动态展示所述实体链接的过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049318.7A CN108345647B (zh) | 2018-01-18 | 2018-01-18 | 基于Web的领域知识图谱构建系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810049318.7A CN108345647B (zh) | 2018-01-18 | 2018-01-18 | 基于Web的领域知识图谱构建系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345647A CN108345647A (zh) | 2018-07-31 |
CN108345647B true CN108345647B (zh) | 2021-12-03 |
Family
ID=62960876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810049318.7A Active CN108345647B (zh) | 2018-01-18 | 2018-01-18 | 基于Web的领域知识图谱构建系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345647B (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033464A (zh) * | 2018-08-31 | 2018-12-18 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN110968298B (zh) * | 2018-09-30 | 2023-03-10 | 上海羚驭信息技术有限公司 | 一种应用于实例化需求的管理系统及方法 |
US10923114B2 (en) * | 2018-10-10 | 2021-02-16 | N3, Llc | Semantic jargon |
CN109271529B (zh) * | 2018-10-10 | 2020-09-01 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109508384A (zh) * | 2018-10-31 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的处理方法、装置、存储介质和处理器 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN109308322A (zh) * | 2018-12-04 | 2019-02-05 | 南京樯图数据科技有限公司 | 一种产业经济知识图谱的创建和交易系统 |
CN109766445B (zh) * | 2018-12-13 | 2024-03-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法及数据处理装置 |
CN109885692B (zh) * | 2019-01-11 | 2023-06-16 | 平安科技(深圳)有限公司 | 知识数据存储方法、装置、计算机设备和存储介质 |
CN111435367B (zh) * | 2019-01-15 | 2024-06-14 | 阿里巴巴集团控股有限公司 | 知识图谱的构建方法、系统、设备及存储介质 |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
CN110008353A (zh) * | 2019-04-09 | 2019-07-12 | 福建奇点时空数字科技有限公司 | 一种动态知识图谱的构建方法 |
CN109919585B (zh) * | 2019-05-14 | 2019-09-10 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 基于知识图谱的人工智能辅助行政审批方法、系统及终端 |
CN110197280B (zh) * | 2019-05-20 | 2021-08-06 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110222127B (zh) * | 2019-06-06 | 2021-07-09 | 中国电子科技集团公司第二十八研究所 | 基于知识图谱的信息汇聚方法、装置和设备 |
CN110263342A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 实体的上下位关系的挖掘方法和装置、电子设备 |
CN110457491A (zh) * | 2019-08-19 | 2019-11-15 | 中国农业大学 | 一种基于游离状态节点的知识图谱重构方法及装置 |
CN110688483B (zh) * | 2019-09-16 | 2022-10-18 | 重庆邮电大学 | 文景转换中基于词典的名词可视性标注方法、介质及系统 |
CN111177591B (zh) * | 2019-12-10 | 2023-09-29 | 深圳市数康云信息技术有限公司 | 面向可视化需求的基于知识图谱的Web数据优化方法 |
CN113127494B (zh) * | 2019-12-30 | 2022-10-11 | 海信集团有限公司 | 一种知识图谱的更新方法及装置 |
CN111581398A (zh) * | 2020-05-13 | 2020-08-25 | 河南八六三软件股份有限公司 | 一种构建知识图谱的方法 |
CN111597354A (zh) * | 2020-05-21 | 2020-08-28 | 北京明略软件系统有限公司 | 知识图谱配置方法、装置、计算机设备和可读存储介质 |
EP4170520A4 (en) * | 2020-06-17 | 2023-11-29 | The 4th Paradigm Technology Co., Ltd | METHOD AND DEVICE FOR CONSTRUCTING A KNOWLEDGE GRAPH, COMPUTER DEVICE AND STORAGE MEDIUM |
CN111858962B (zh) * | 2020-07-27 | 2023-04-07 | 腾讯科技(成都)有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN112182238B (zh) * | 2020-09-22 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种基于图数据库的知识图谱构建系统和方法 |
CN113672599B (zh) * | 2020-09-30 | 2023-05-23 | 华斌 | 政务信息化项目建设管理的可视化辅助决策方法 |
CN112256883B (zh) * | 2020-10-16 | 2023-01-13 | 山东省计算中心(国家超级计算济南中心) | 一种量纲知识图谱构建方法 |
CN112612899B (zh) * | 2020-11-24 | 2024-06-18 | 中国传媒大学 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN112559704A (zh) * | 2020-12-08 | 2021-03-26 | 北京航天云路有限公司 | 一种用户自定义配置的知识图谱生成工具 |
CN112765283A (zh) * | 2021-01-19 | 2021-05-07 | 上海明略人工智能(集团)有限公司 | 实体链接关系的管理方法、装置、电子设备及存储介质 |
CN112860911A (zh) * | 2021-02-04 | 2021-05-28 | 数智知库(苏州)科技有限公司 | 一种基于语言知识图谱的互动生成系统 |
CN113190694A (zh) * | 2021-06-03 | 2021-07-30 | 云知声智能科技股份有限公司 | 一种知识图谱的知识管理平台 |
CN113688254B (zh) * | 2021-08-25 | 2023-06-02 | 中国民用航空飞行学院 | 一种航空动态信息结构化数据模型的构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653522A (zh) * | 2016-01-21 | 2016-06-08 | 中国农业大学 | 一种针对植物领域的非分类关系识别方法 |
CN106649878A (zh) * | 2017-01-07 | 2017-05-10 | 陈翔宇 | 基于人工智能的物联网实体搜索方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609512A (zh) * | 2012-02-07 | 2012-07-25 | 北京中机科海科技发展有限公司 | 异构信息知识挖掘与可视化分析系统及方法 |
CN104102713B (zh) * | 2014-07-16 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 推荐结果的展现方法和装置 |
US10915233B2 (en) * | 2014-09-26 | 2021-02-09 | Oracle International Corporation | Automated entity correlation and classification across heterogeneous datasets |
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及系统 |
US20170178266A1 (en) * | 2015-12-16 | 2017-06-22 | Sap Se | Interactive data visualisation of volume datasets with integrated annotation and collaboration functionality |
CN106815307A (zh) * | 2016-12-16 | 2017-06-09 | 中国科学院自动化研究所 | 公共文化知识图谱平台及其使用办法 |
CN106919689B (zh) * | 2017-03-03 | 2018-05-11 | 中国科学技术信息研究所 | 基于术语释义知识单元的专业领域知识图谱动态构建方法 |
-
2018
- 2018-01-18 CN CN201810049318.7A patent/CN108345647B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653522A (zh) * | 2016-01-21 | 2016-06-08 | 中国农业大学 | 一种针对植物领域的非分类关系识别方法 |
CN106649878A (zh) * | 2017-01-07 | 2017-05-10 | 陈翔宇 | 基于人工智能的物联网实体搜索方法及系统 |
Non-Patent Citations (1)
Title |
---|
"知识图谱技术综述";徐增林 等;《电子科技大学学报》;20160731;第45卷(第4期);第589-606页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108345647A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345647B (zh) | 基于Web的领域知识图谱构建系统及方法 | |
CN111930856B (zh) | 领域知识图谱本体和数据的构建方法、装置和系统 | |
CN112784345B (zh) | 基于知识图谱的图模一致性审查方法、系统、终端及介质 | |
Kalfoglou et al. | Ontology mapping: the state of the art | |
Jiang et al. | Multi-ontology fusion and rule development to facilitate automated code compliance checking using BIM and rule-based reasoning | |
Bancerek et al. | Mizar: State-of-the-art and beyond | |
Meroño-Peñuela et al. | Semantic technologies for historical research: A survey | |
CN111708773A (zh) | 一种多源科创资源数据融合方法 | |
US10089390B2 (en) | System and method to extract models from semi-structured documents | |
CN103593335A (zh) | 基于本体一致性验证推理的中文语义校对方法 | |
Abdelhedi et al. | Automatic Extraction of a Document-oriented NoSQL Schema. | |
Flouris et al. | A Classification of Ontology Change. | |
Schorlemmer et al. | Institutionalising ontology-based semantic integration | |
US8117537B1 (en) | Platform-independent method for computer aided schematic drawings | |
Xue et al. | Semiautomated generation of logic rules for tabular information in building codes to support automated code compliance checking | |
Cigarrán-Recuero et al. | Assessing semantic annotation activities with formal concept analysis | |
Yang et al. | User story clustering in agile development: a framework and an empirical study | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
Brodaric et al. | Representing geoscientific knowledge in cyberinfrastructure: Some challenges, approaches, and implementations | |
KR101636477B1 (ko) | 구조화된 지식정보와 문서수집을 이용한 지식확장 및 검증 시스템, 그 방법, 기록매체 | |
Pretorius | Lexon visualization: visualizing binary fact types in ontology bases | |
Zemmouchi-Ghomari | Cohabitation of relational databases and domain ontologies in the Semantic Web context | |
Cherkashin et al. | Digital archives supporting document content inference | |
Jaziri et al. | Ontology theory, management and design: An overview and future directions | |
Dimitriadis et al. | How to integrate databases without starting a typology war: The Typological Database System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |