CN110008353A - 一种动态知识图谱的构建方法 - Google Patents

一种动态知识图谱的构建方法 Download PDF

Info

Publication number
CN110008353A
CN110008353A CN201910279808.0A CN201910279808A CN110008353A CN 110008353 A CN110008353 A CN 110008353A CN 201910279808 A CN201910279808 A CN 201910279808A CN 110008353 A CN110008353 A CN 110008353A
Authority
CN
China
Prior art keywords
entity
data
knowledge
data information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910279808.0A
Other languages
English (en)
Inventor
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Singularity Space-Time Digital Technology Co Ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910279808.0A priority Critical patent/CN110008353A/zh
Publication of CN110008353A publication Critical patent/CN110008353A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种动态知识图谱的构建方法,包括以下步骤;S1、获取原始数据信息;S2、对原始数据信息进行存储以及处理;S3、根据处理后的原始数据信息,建立知识图谱初次构架;S4、知识图谱初次构架进行知识更新;S5、对S4进行多次操作,实现知识图谱初次构架多次更新;S6、完成动态知识图谱的建立;本发明中,高效地实现了知识图谱的构建以及更新,提高知识图谱初的准确性和完整性。

Description

一种动态知识图谱的构建方法
技术领域
本发明涉及动态知识图谱领域,尤其涉及一种动态知识图谱的构建方法。
背景技术
知识图谱能提供高质量的结构化数据,目前己经广泛地应用于人工智能的多个领域,例如自动问答、搜索引擎以及信息抽取。典型的知识图谱通常以三元组的形式表示(头实体,关系,尾实体),例如(姚明,国籍,中国)反映了姚明的国籍是中国这件事实。然而,大多数现有的知识图谱长时间无法更新,更新效率低,更新容易出现错误信息,因此存在图谱不完整、扩展性较差以及不能实现正确更新的弊端。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种动态知识图谱的构建方法,动态知识图谱信息完整,动态知识图谱能够有效且高效的进行更新,保证数据信息的正确性。
(二)技术方案
为解决上述问题,本发明提供了一种动态知识图谱的构建方法,包括以下步骤;
S1、获取原始数据信息;
S2、对原始数据信息进行存储以及处理;
S3、根据处理后的原始数据信息,建立知识图谱初次构架;
S4、知识图谱初次构架进行知识更新;
S5、对S4进行多次操作,实现知识图谱初次构架多次更新;
S6、完成动态知识图谱的建立;
其中,在S4中,知识更新包括以下步骤:
S101、从网站获取最新数据信息作为参照实体;
S102、抽取图谱中的现有实体,作为现有实体;
S103、将参照实体与现有实体进行比对;
S104、如果,在S103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在S103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在S103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;
S105、知识图谱初次构架根据S104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。
优选的,S1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。
优选的,S2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。
优选的,在S101中,按照以下方式抽取实体:S201、对抓取到的标题先使用命名实体识别,抽取出命名实体;S202、利用分词技术,从标题中获取识别不到的候选实体词列表;S203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。
优选的,在S103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧。
优选的,在S2中,数据信息采用图数据库进行存储。
本发明的上述技术方案具有如下有益的技术效果:
本发明中,高效地实现了知识图谱的构建以及更新;首先进行数据的获取以及数据的存储和处理,根据现有数据建立知识图谱初次构架;之后,对知识图谱初次构架进行知识更新,从而提高知识图谱初的准确性和完整性。
本发明中,对于最新的信息以及在各个网站上发生变化的实体,进行及时更新,实现高效、实时对知识图谱中的数据进行更新的目的,减少了知识图谱数据的滞后性。同时,数据更新过程中,实现数据的智能对比,实现智能审核配合人工审核的高效运作方式,以提高数据的准确性和数据更新效率。
附图说明
图1为本发明提出的动态知识图谱的构建方法的构建流程示意图。
图2为本发明提出的动态知识图谱的构建方法中图谱更新的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-2所示,本发明提出的一种动态知识图谱的构建方法,包括以下步骤;
S1、获取原始数据信息;
S2、对原始数据信息进行存储以及处理;
S3、根据处理后的原始数据信息,建立知识图谱初次构架;
S4、知识图谱初次构架进行知识更新;
S5、对S4进行多次操作,实现知识图谱初次构架多次更新;
S6、完成动态知识图谱的建立;
其中,在S4中,知识更新包括以下步骤:
S101、从网站获取最新数据信息作为参照实体;
S102、抽取图谱中的现有实体,作为现有实体;
S103、将参照实体与现有实体进行比对;
S104、如果,在S103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在S103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在S103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;
S105、知识图谱初次构架根据S104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。
本发明中,高效地实现了知识图谱的构建以及更新;首先进行数据的获取以及数据的存储和处理,根据现有数据建立知识图谱初次构架;之后,对知识图谱初次构架进行知识更新,从而提高知识图谱初的准确性和完整性。
本发明中,对于最新的信息以及在各个网站上发生变化的实体,进行及时更新,实现高效、实时对知识图谱中的数据进行更新的目的,减少了知识图谱数据的滞后性。同时,数据更新过程中,实现数据的智能对比,实现智能审核配合人工审核的高效运作方式,以提高数据的准确性和数据更新效率。
在一个可选的实施例中,S1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。
需要说明的是,获取数据信息来源可靠,保证数据的准确性;获取数据信息的路径广泛,避免遗漏信息,从而提高动态知识图谱的准确性,以及使得动态知识图谱的覆盖面更加广泛。
在一个可选的实施例中,S2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;
数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;
模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;
并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;
权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。
需要说明的是,实现数据的存储和处理,便于后续对数据信息的处理,提高动态知识图谱的构建效率。
在一个可选的实施例中,在S101中,按照以下方式抽取实体:
S201、对抓取到的标题先使用命名实体识别,抽取出命名实体;
S202、利用分词技术,从标题中获取识别不到的候选实体词列表;
S203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。
需要说明的是,在抽取实体时,通过挑选特征,挖掘出最主要可能更新了的实体,高效的对知识图谱进行更新,减少了知识图谱更新过程中不必要的更新,很好的避免了现有方法对网络带宽的浪费,也大大减少了知识图谱中数据的时间滞后。
在一个可选的实施例中,在S103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧,从而利于准确的得出参照实体与现有实体之间的对比结构,提高更新效率。
在一个可选的实施例中,在S2中,数据信息采用图数据库进行存储,图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高,当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种动态知识图谱的构建方法,其特征在于,包括以下步骤;
S1、获取原始数据信息;
S2、对原始数据信息进行存储以及处理;
S3、根据处理后的原始数据信息,建立知识图谱初次构架;
S4、知识图谱初次构架进行知识更新;
S5、对S4进行多次操作,实现知识图谱初次构架多次更新;
S6、完成动态知识图谱的建立;
其中,在S4中,知识更新包括以下步骤:
S101、从网站获取最新数据信息作为参照实体;
S102、抽取图谱中的现有实体,作为现有实体;
S103、将参照实体与现有实体进行比对;
S104、如果,在S103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在S103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在S103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;
S105、知识图谱初次构架根据S104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。
2.根据权利要求1的动态知识图谱的构建方法,其特征在于,S1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。
3.根据权利要求1的动态知识图谱的构建方法,其特征在于,S2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;
数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;
模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;
并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;
权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。
4.根据权利要求1的动态知识图谱的构建方法,其特征在于,在S101中,按照以下方式抽取实体:
S201、对抓取到的标题先使用命名实体识别,抽取出命名实体;
S202、利用分词技术,从标题中获取识别不到的候选实体词列表;
S203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。
5.根据权利要求1的动态知识图谱的构建方法,其特征在于,在S103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧。
6.根据权利要求1的动态知识图谱的构建方法,其特征在于,在S2中,数据信息采用图数据库进行存储。
CN201910279808.0A 2019-04-09 2019-04-09 一种动态知识图谱的构建方法 Pending CN110008353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910279808.0A CN110008353A (zh) 2019-04-09 2019-04-09 一种动态知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910279808.0A CN110008353A (zh) 2019-04-09 2019-04-09 一种动态知识图谱的构建方法

Publications (1)

Publication Number Publication Date
CN110008353A true CN110008353A (zh) 2019-07-12

Family

ID=67170497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910279808.0A Pending CN110008353A (zh) 2019-04-09 2019-04-09 一种动态知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN110008353A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750650A (zh) * 2019-09-30 2020-02-04 中盈优创资讯科技有限公司 企业知识图谱的构建方法及装置
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN111708892A (zh) * 2020-04-24 2020-09-25 陆洋 一种基于深度知识图谱的数据库系统
CN111753021A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN111753022A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN112036570A (zh) * 2020-07-30 2020-12-04 第四范式(北京)技术有限公司 标注任务的调度方法、装置和可读存储介质
CN112163127A (zh) * 2020-09-30 2021-01-01 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN112784058A (zh) * 2021-01-11 2021-05-11 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
WO2022222716A1 (zh) * 2021-04-21 2022-10-27 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
US11544946B2 (en) * 2019-12-27 2023-01-03 Robert Bosch Gmbh System and method for enhancing neural sentence classification

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107633005A (zh) * 2017-08-09 2018-01-26 广州思涵信息科技有限公司 一种基于课堂教学内容的知识图谱构建、对比系统及方法
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN107633005A (zh) * 2017-08-09 2018-01-26 广州思涵信息科技有限公司 一种基于课堂教学内容的知识图谱构建、对比系统及方法
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750650A (zh) * 2019-09-30 2020-02-04 中盈优创资讯科技有限公司 企业知识图谱的构建方法及装置
US11544946B2 (en) * 2019-12-27 2023-01-03 Robert Bosch Gmbh System and method for enhancing neural sentence classification
CN110874414A (zh) * 2020-01-19 2020-03-10 北京同方软件有限公司 一种基于数据联勤服务的政策解读方法
CN111708892B (zh) * 2020-04-24 2021-08-03 陆洋 一种基于深度知识图谱的数据库系统
CN111708892A (zh) * 2020-04-24 2020-09-25 陆洋 一种基于深度知识图谱的数据库系统
WO2021254457A1 (zh) * 2020-06-17 2021-12-23 第四范式(北京)技术有限公司 构建知识图谱的方法及装置、计算机装置及存储介质
CN111753022A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN111753021A (zh) * 2020-06-17 2020-10-09 第四范式(北京)技术有限公司 构建知识图谱的方法、装置、设备和可读存储介质
CN112036570A (zh) * 2020-07-30 2020-12-04 第四范式(北京)技术有限公司 标注任务的调度方法、装置和可读存储介质
CN112163127A (zh) * 2020-09-30 2021-01-01 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
WO2022068348A1 (zh) * 2020-09-30 2022-04-07 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN112163127B (zh) * 2020-09-30 2023-11-21 北京锐安科技有限公司 关系图谱构建方法、装置、电子设备及存储介质
CN112784058A (zh) * 2021-01-11 2021-05-11 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法
CN112784058B (zh) * 2021-01-11 2022-04-22 北京欧拉认知智能科技有限公司 一种基于动态图谱的实体相关性获取方法
WO2022222716A1 (zh) * 2021-04-21 2022-10-27 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置

Similar Documents

Publication Publication Date Title
CN110008353A (zh) 一种动态知识图谱的构建方法
CN109446898B (zh) 一种基于迁移学习和特征融合的行人重识别方法
CN104462216B (zh) 居委标准代码转换系统及方法
CN111291277A (zh) 一种基于语义识别和高级语言搜索的地址标准化方法
CN107562863A (zh) 聊天机器人回复自动生成方法及系统
WO2021109690A1 (zh) 多类型问题智能问答方法、系统、设备及可读存储介质
WO2022126988A1 (zh) 实体命名识别模型的训练方法、装置、设备及存储介质
CN109146711A (zh) 一种综合利用bim技术和3d激光扫描系统优化施工的方法
CN106844527B (zh) 一种基于互联网大数据的路面病害识别与管养决策方法及系统
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN110059177A (zh) 一种基于用户画像的活动推荐方法及装置
CN106503097A (zh) 一种提高数据质量的方法及系统
CN110147420A (zh) 一种基于图谱模型的地名地址匹配查询方法及系统
CN105930478B (zh) 基于要素对象空间信息指纹的空间数据变化捕获方法
CN111241293A (zh) 一种基于学术文献构建的知识图谱算法
CN110675074A (zh) 出行目标点识别方法及装置、模型开发、评价方法及装置
CN106649293A (zh) 一种翻译方法及系统
CN110288191A (zh) 数据匹配方法、装置、计算机设备及存储介质
CN111428801B (zh) 改进融合层与损失函数交替更新的图文匹配方法
CN117093686A (zh) 智能问答匹配方法、装置、终端及存储介质
CN110019768B (zh) 生成文本摘要的方法及装置
CN113742498B (zh) 一种知识图谱的构建更新方法
CN112579919B (zh) 数据处理方法、装置及电子设备
CN114417859A (zh) 一种基于云化区块链技术的数据标准化方法及系统
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712