CN112256883A - 一种量纲知识图谱构建方法 - Google Patents
一种量纲知识图谱构建方法 Download PDFInfo
- Publication number
- CN112256883A CN112256883A CN202011112293.4A CN202011112293A CN112256883A CN 112256883 A CN112256883 A CN 112256883A CN 202011112293 A CN202011112293 A CN 202011112293A CN 112256883 A CN112256883 A CN 112256883A
- Authority
- CN
- China
- Prior art keywords
- dimension
- knowledge graph
- data
- units
- basic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的量纲知识图谱构建方法,包括:a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据;b).量纲数据预处理;c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联;d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;e).量纲知识图谱自动化更新。本发明的量纲知识图谱构建方法,可实现量纲知识图谱可以自动化更新,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。
Description
技术领域
本发明涉及一种量纲知识图谱构建方法,更具体的说,尤其涉及一种的量纲知识图谱构建方法。
背景技术
知识图谱用于描述现实世界中的实体、概念和关系,是一张巨大的描述现实世界的语义网络。随着知识图谱技术的不断发展和应用,知识图谱与机器学习、深度学习紧密结合,在人工智能领域发挥着不可替代的作用;如何自动化构建准确性高、数据完整、语义合理的知识图谱成为近年来的研究热点;知识图谱的构建过程一般分为数据获取、知识抽取、知识融合、知识处理和知识存储五个步骤,如图1所示给出了其构建过程原理图,在知识图谱构建过程中可以维护一个先验知识库,如先验知识图谱、本体可控词汇集等等,先验知识库一方面可以指导知识图谱构建的各个过程,另一方面也可以根据领域数据特性更新完善先验知识库,本专利提出的量纲知识图谱就属于知识图谱构建过程中的先验知识库。
图数据库存储技术来源于图论,是一种以图的形式对客观世界进行存储的技术,目前广泛使用的图数据库可以分为原生图数据库、非原生图书库、开源图数据库、商业图数据库等等;本专利采用原生图数据库Neo4J社区版对量纲知识进行存储,Neo4J社区版是一个高性能开源图引擎,支持ACID,使用类CQL语言CYPHER进行数据查询;Neo4J底层基于图数据结构(由数组和线性表组成)进行存储,可以高效查询复杂的数据关系,其存储结构如图2所示。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种量纲知识图谱构建方法。
本发明的量纲知识图谱构建方法,其特征在于,通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
本发明的量纲知识图谱构建方法,步骤b)所述的量纲数据预处理过程中,基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,导出单位信息表示由基本物理量或导出单位组合而成的单位信息。
本发明的量纲知识图谱构建方法,步骤c)中所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。
本发明的量纲知识图谱构建方法,步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
本发明的量纲知识图谱构建方法,在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
本发明的有益效果是:本发明的量纲知识图谱构建方法,包括了多源异构数据获取、量纲数据预处理、量纲数据融合、量纲数据存储、量纲知识图谱自动化更新五个流程,使用图的方式对单位进行存储,包括了单位基本格式与其他不同的表达格式、单位与单位之间的关系,量纲知识图谱需要自动的识别并添加未知(量纲知识图谱中不存在)单位,从而使得量纲知识图谱可以自动化更新,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。
附图说明
图1为现有知识图谱构建的一般过程原理图;
图2为原生图数据库Neo4J社区版对量纲知识进行存储的数据结构;
图3为本发明的量纲知识图谱构建方法的流程图;
图4为未知单位“Pa×m^3”在量纲知识图谱自动化更新过程。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图3所示,给出了本发明的量纲知识图谱构建方法的流程图,其通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,十(deca)、百(hecto)、千(kilo)等;导出单位信息表示由基本物理量或导出单位组合而成的单位信息,如功率单位瓦特(W)由基本单位J/s组合得到。常数信息:例如普朗克常数、电荷常数等。
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
该步骤中,所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。等价关系,例如热力学单位1焦耳(J)= 1牛/米(N/m);运算关系,即某个单位加减乘除某个具体数值得到另一个单位,如时间单位1小时(h)= 60*1分钟(min);倒数关系,例如周期(T)为频率(f)的倒数T=1/f。
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
例如,在数据整合时遇到数值单位“Pa×m^3”在图谱中没有相关记录,但是压强单位(Pa)和距离单位(m)在图谱中存在,此时,量纲知识图谱就会按照广度优先搜索算法遍历与压强单位和距离单位相关的路径,如图4所示,发现路径“Pa equals N/m^2”时,使用“N/m^2”替换“Pa*m^3”中的Pa,经过运算后得出表达式“N*m”,“N*m”在图谱中有相关的记录,所以推导出“Pa*m^3”为热力学单位,因此可将其加入量纲知识图谱中并与热力学单位建立关联。
本发明的量纲知识图谱构建方法,量纲知识图谱使用图的数据结构对单位、单位的不同表达方式、单位之间的关系进行构建与存储,量纲知识图谱的构建与发明,有利于解决数据融合过程中基本单位之间的异构性问题,有利于提升相似性算法、实体对齐和知识融合算法的准确性,同时也有利于提升知识图谱的可计算性。
Claims (5)
1.一种量纲知识图谱构建方法,其特征在于,通过以下步骤来实现:
a).多源异构数据获取;收集互联网上、专家手工整理以及论文中开放共享的科研数据,这些科研数据来源广泛,不同数据源的科研数据具有异构性质;
b).量纲数据预处理;从多源异构的科研数据中识别并提取单位信息,完成量纲数据的抽取工作,量纲数据中的单位信息主要分为基本物质量信息、词头信息、导出单位信息、基本常数信息四部分;
c).量纲数据融合;对来源不同的量纲数据进行人工对齐与建立关联,人工对齐是指将含义相同但表达方式不同的单位进行对齐,建立关联是指构建出不同单位之间的关系;
d).量纲数据的图存储;将经步骤c)融合后的量纲数据导入Neo4J图数据库中,构建量纲知识图谱;
e).量纲知识图谱自动化更新,利用已建立的量纲知识图谱自主识别与添加未知单位,在识别过程中,对未知单位进行拆分,拆分为已知的基本单位,使用基于图的广度优先检索算法对已知的基本单位进行搜索与运算,得到量纲知识图谱中所包含的单位,从而建立未知单位与已知单位的关联,最终实现未知单位的自主识别与更新。
2.根据权利要求1所述的量纲知识图谱构建方法,其特征在于:步骤b)所述的量纲数据预处理过程中,基本物质量信息包括长度l、质量m、时间t、电流i、热力学温度T、物质的量n和发光强度lv七个基本物理量,预处理数据中记录了七个基本物理量的单位名称、单位符号、物理量的表达符号以及物理量的名称;词头信息用于表示单位之间的数量关系,导出单位信息表示由基本物理量或导出单位组合而成的单位信息。
3.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:步骤c)中所述的不同单位之间的关系包括等价关系、运算关系和倒数关系。
4.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:步骤b)中将科研数据中识别并提取的单位信息整理为支持Neo4J导入的CSV格式,步骤d)中量纲数据的图存储方法为:d-1).初始化构建与存储:借助Neo4J-Imprt工具,在知识图谱初始化时一次性导入CSV格式数据,此方式的导入能力达到数万TPS;d-2).增量构建与存储:增量构建应用于图数据库运行时的增量更新,借助CYPHER语言的CREATE或者LOAD语句实现,此方式的导入能力达到数千TPS。
5.根据权利要求1或2所述的量纲知识图谱构建方法,其特征在于:在量纲知识图谱使用过程中,遇到知识图谱中没有包含的数据,即量纲知识图谱不能识别的单位信息,此时分析其包含的基本单位,根据所包含的基本单位遍历知识图谱中的相关通路,并与其他基本单位建立关联,将量纲知识图谱中未收录的单位进行自动识别与添加。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112293.4A CN112256883B (zh) | 2020-10-16 | 2020-10-16 | 一种量纲知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011112293.4A CN112256883B (zh) | 2020-10-16 | 2020-10-16 | 一种量纲知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256883A true CN112256883A (zh) | 2021-01-22 |
CN112256883B CN112256883B (zh) | 2023-01-13 |
Family
ID=74245450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011112293.4A Active CN112256883B (zh) | 2020-10-16 | 2020-10-16 | 一种量纲知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256883B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399006A (zh) * | 2022-03-24 | 2022-04-26 | 山东省计算中心(国家超级计算济南中心) | 基于超算的多源异构图数据融合方法及系统 |
CN116028651A (zh) * | 2023-03-28 | 2023-04-28 | 南京万得资讯科技有限公司 | 一种支持本体和数据增量更新的知识图谱构建系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
-
2020
- 2020-10-16 CN CN202011112293.4A patent/CN112256883B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
Non-Patent Citations (1)
Title |
---|
李肖俊等: "多源异构数据情境中学术知识图谱模型构建研究", 《现代情报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399006A (zh) * | 2022-03-24 | 2022-04-26 | 山东省计算中心(国家超级计算济南中心) | 基于超算的多源异构图数据融合方法及系统 |
CN114399006B (zh) * | 2022-03-24 | 2022-07-12 | 山东省计算中心(国家超级计算济南中心) | 基于超算的多源异构图数据融合方法及系统 |
CN116028651A (zh) * | 2023-03-28 | 2023-04-28 | 南京万得资讯科技有限公司 | 一种支持本体和数据增量更新的知识图谱构建系统及方法 |
CN116028651B (zh) * | 2023-03-28 | 2023-06-09 | 南京万得资讯科技有限公司 | 一种支持本体和数据增量更新的知识图谱构建系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112256883B (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104317801B (zh) | 一种面向大数据的数据清洗系统及方法 | |
CN112256883B (zh) | 一种量纲知识图谱构建方法 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN113051382A (zh) | 一种基于知识图谱的电力故障智能问答方法及装置 | |
CN104899314A (zh) | 一种数据仓库的血统分析方法和装置 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN102819600B (zh) | 面向电力生产管理系统关系数据库的关键词搜索方法 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN109145110A (zh) | 基于标签的信息分类处理、标签查询方法和装置 | |
CN109783619A (zh) | 一种数据过滤挖掘方法 | |
CN110119401A (zh) | 用户画像的处理方法、装置、服务器及存储介质 | |
CN113220901A (zh) | 基于增强智能的写作构思辅助系统、网路系统 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN102799627A (zh) | 一种基于一阶逻辑和神经网络的数据对应方法 | |
CN106980639B (zh) | 短文本数据聚合系统及方法 | |
CN103365960A (zh) | 电力多级调度管理结构化数据的离线搜索方法 | |
CN113127650A (zh) | 一种基于图数据库的技术图谱构建方法和系统 | |
CN117492825A (zh) | 一种基于上下文学习和大语言模型的Solidity注释生成方法 | |
CN115757735A (zh) | 一种面向电网数字化建设成果资源的智能检索方法及系统 | |
Liu et al. | A performance optimization scheme for migrating hive data to Neo4j database | |
CN116662525A (zh) | 一种基于异构图神经网络的金融司法知识关联方法及系统 | |
CN115098029A (zh) | 数据处理方法及装置 | |
CN112732845A (zh) | 一种基于端到端的大型知识图谱构建和存储方法和系统 | |
Aydin et al. | Find the Funding: Entity Linking with Incomplete Funding Knowledge Bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |