CN112256883A - 一种量纲知识图谱构建方法 - Google Patents

一种量纲知识图谱构建方法 Download PDF

Info

Publication number
CN112256883A
CN112256883A CN202011112293.4A CN202011112293A CN112256883A CN 112256883 A CN112256883 A CN 112256883A CN 202011112293 A CN202011112293 A CN 202011112293A CN 112256883 A CN112256883 A CN 112256883A
Authority
CN
China
Prior art keywords
dimension
knowledge graph
data
units
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011112293.4A
Other languages
English (en)
Other versions
CN112256883B (zh
Inventor
曹皓伟
王小红
赵志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202011112293.4A priority Critical patent/CN112256883B/zh
Publication of CN112256883A publication Critical patent/CN112256883A/zh
Application granted granted Critical
Publication of CN112256883B publication Critical patent/CN112256883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的量纲知识图谱构建方法,包括:a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据;b).量纲数据预处理;c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联;d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;e).量纲知识图谱自动化更新。本发明的量纲知识图谱构建方法,可实现量纲知识图谱可以自动化更新,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。

Description

一种量纲知识图谱构建方法
技术领域
本发明涉及一种量纲知识图谱构建方法,更具体的说,尤其涉及一种的量纲知识图谱构建方法。
背景技术
知识图谱用于描述现实世界中的实体、概念和关系,是一张巨大的描述现实世界的语义网络。随着知识图谱技术的不断发展和应用,知识图谱与机器学习、深度学习紧密结合,在人工智能领域发挥着不可替代的作用;如何自动化构建准确性高、数据完整、语义合理的知识图谱成为近年来的研究热点;知识图谱的构建过程一般分为数据获取、知识抽取、知识融合、知识处理和知识存储五个步骤,如图1所示给出了其构建过程原理图,在知识图谱构建过程中可以维护一个先验知识库,如先验知识图谱、本体可控词汇集等等,先验知识库一方面可以指导知识图谱构建的各个过程,另一方面也可以根据领域数据特性更新完善先验知识库,本专利提出的量纲知识图谱就属于知识图谱构建过程中的先验知识库。
图数据库存储技术来源于图论,是一种以图的形式对客观世界进行存储的技术,目前广泛使用的图数据库可以分为原生图数据库、非原生图书库、开源图数据库、商业图数据库等等;本专利采用原生图数据库Neo4J社区版对量纲知识进行存储,Neo4J社区版是一个高性能开源图引擎,支持ACID,使用类CQL语言CYPHER进行数据查询;Neo4J底层基于图数据结构(由数组和线性表组成)进行存储,可以高效查询复杂的数据关系,其存储结构如图2所示。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种量纲知识图谱构建方法。
本发明的量纲知识图谱构建方法,其特征在于,通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
本发明的量纲知识图谱构建方法,步骤b)所述的量纲数据预处理过程中,基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,导出单位信息表示由基本物理量或导出单位组合而成的单位信息。
本发明的量纲知识图谱构建方法,步骤c)中所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。
本发明的量纲知识图谱构建方法,步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
本发明的量纲知识图谱构建方法,在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
本发明的有益效果是:本发明的量纲知识图谱构建方法,包括了多源异构数据获取、量纲数据预处理、量纲数据融合、量纲数据存储、量纲知识图谱自动化更新五个流程,使用图的方式对单位进行存储,包括了单位基本格式与其他不同的表达格式、单位与单位之间的关系,量纲知识图谱需要自动的识别并添加未知(量纲知识图谱中不存在)单位,从而使得量纲知识图谱可以自动化更新,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。
附图说明
图1为现有知识图谱构建的一般过程原理图;
图2为原生图数据库Neo4J社区版对量纲知识进行存储的数据结构;
图3为本发明的量纲知识图谱构建方法的流程图;
图4为未知单位“Pa×m^3”在量纲知识图谱自动化更新过程。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图3所示,给出了本发明的量纲知识图谱构建方法的流程图,其通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,十(deca)、百(hecto)、千(kilo)等;导出单位信息表示由基本物理量或导出单位组合而成的单位信息,如功率单位瓦特(W)由基本单位J/s组合得到。常数信息:例如普朗克常数、电荷常数等。
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
该步骤中,所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。等价关系,例如热力学单位1焦耳(J)= 1牛/米(N/m);运算关系,即某个单位加减乘除某个具体数值得到另一个单位,如时间单位1小时(h)= 60*1分钟(min);倒数关系,例如周期(T)为频率(f)的倒数T=1/f。
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
例如,在数据整合时遇到数值单位“Pa×m^3”在图谱中没有相关记录,但是压强单位(Pa)和距离单位(m)在图谱中存在,此时,量纲知识图谱就会按照广度优先搜索算法遍历与压强单位和距离单位相关的路径,如图4所示,发现路径“Pa equals N/m^2”时,使用“N/m^2”替换“Pa*m^3”中的Pa,经过运算后得出表达式“N*m”,“N*m”在图谱中有相关的记录,所以推导出“Pa*m^3”为热力学单位,因此可将其加入量纲知识图谱中并与热力学单位建立关联。
本发明的量纲知识图谱构建方法,量纲知识图谱使用图的数据结构对单位、单位的不同表达方式、单位之间的关系进行构建与存储,量纲知识图谱的构建与发明,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。

Claims (5)

1.一种量纲知识图谱构建方法,其特征在于,通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
2.根据权利要求1所述的量纲知识图谱构建方法,其特征在于:步骤b)所述的量纲数据预处理过程中,基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,导出单位信息表示由基本物理量或导出单位组合而成的单位信息。
3.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:步骤c)中所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。
4.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
5.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
CN202011112293.4A 2020-10-16 2020-10-16 一种量纲知识图谱构建方法 Active CN112256883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011112293.4A CN112256883B (zh) 2020-10-16 2020-10-16 一种量纲知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011112293.4A CN112256883B (zh) 2020-10-16 2020-10-16 一种量纲知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN112256883A true CN112256883A (zh) 2021-01-22
CN112256883B CN112256883B (zh) 2023-01-13

Family

ID=74245450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011112293.4A Active CN112256883B (zh) 2020-10-16 2020-10-16 一种量纲知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112256883B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399006A (zh) * 2022-03-24 2022-04-26 山东省计算中心(国家超级计算济南中心) 基于超算的多源异构图数据融合方法及系统
CN116028651A (zh) * 2023-03-28 2023-04-28 南京万得资讯科技有限公司 一种支持本体和数据增量更新的知识图谱构建系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李肖俊等: "多源异构数据情境中学术知识图谱模型构建研究", 《现代情报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114399006A (zh) * 2022-03-24 2022-04-26 山东省计算中心(国家超级计算济南中心) 基于超算的多源异构图数据融合方法及系统
CN114399006B (zh) * 2022-03-24 2022-07-12 山东省计算中心(国家超级计算济南中心) 基于超算的多源异构图数据融合方法及系统
CN116028651A (zh) * 2023-03-28 2023-04-28 南京万得资讯科技有限公司 一种支持本体和数据增量更新的知识图谱构建系统及方法
CN116028651B (zh) * 2023-03-28 2023-06-09 南京万得资讯科技有限公司 一种支持本体和数据增量更新的知识图谱构建系统及方法

Also Published As

Publication number Publication date
CN112256883B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN104317801B (zh) 一种面向大数据的数据清洗系统及方法
CN112256883B (zh) 一种量纲知识图谱构建方法
CN111597347B (zh) 知识嵌入的缺陷报告重构方法及装置
CN101404015B (zh) 自动生成词条层次
CN108959433A (zh) 一种从软件项目数据中提取知识图谱并问答的方法与系统
CN104899314A (zh) 一种数据仓库的血统分析方法和装置
CN113051382A (zh) 一种基于知识图谱的电力故障智能问答方法及装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN111090643B (zh) 一种基于数据分析系统下的海量用电数据挖掘方法
CN102819600B (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及系统
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN111914066A (zh) 多源数据库全局搜索方法及系统
CN113220901A (zh) 基于增强智能的写作构思辅助系统、网路系统
CN102799627A (zh) 一种基于一阶逻辑和神经网络的数据对应方法
CN103365960A (zh) 电力多级调度管理结构化数据的离线搜索方法
CN113626571A (zh) 答句生成方法、装置、计算机设备和存储介质
CN115757735A (zh) 一种面向电网数字化建设成果资源的智能检索方法及系统
CN113434627A (zh) 工单的处理方法、装置和计算机可读存储介质
CN116894495A (zh) 用注释增强机器学习管道的方法、计算机可读介质和系统
CN115098029A (zh) 数据处理方法及装置
Gao et al. Automatic index selection with learned cost estimator
Liu et al. A performance optimization scheme for migrating hive data to Neo4j database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant