CN113434610A - 一种基于命名规则和缓存机制的知识图谱构的操作方法 - Google Patents
一种基于命名规则和缓存机制的知识图谱构的操作方法 Download PDFInfo
- Publication number
- CN113434610A CN113434610A CN202110764250.2A CN202110764250A CN113434610A CN 113434610 A CN113434610 A CN 113434610A CN 202110764250 A CN202110764250 A CN 202110764250A CN 113434610 A CN113434610 A CN 113434610A
- Authority
- CN
- China
- Prior art keywords
- data
- cache
- graph
- naming
- backup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000007246 mechanism Effects 0.000 title claims abstract description 13
- 230000001915 proofreading effect Effects 0.000 claims abstract description 47
- 238000007726 management method Methods 0.000 claims abstract description 42
- 238000013523 data management Methods 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000011161 development Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 239000000203 mixture Substances 0.000 claims abstract description 6
- 238000013500 data storage Methods 0.000 claims description 29
- 238000005516 engineering process Methods 0.000 claims description 19
- 230000008676 import Effects 0.000 claims description 13
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000009825 accumulation Methods 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000013439 planning Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 4
- 238000009472 formulation Methods 0.000 abstract 2
- 238000013075 data extraction Methods 0.000 abstract 1
- 230000018109 developmental process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 6
- 238000007418 data mining Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000009430 construction management Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:数据采集‑知识图谱schema设计‑制定缓存策略‑命名规则制定‑图谱数据管理模块开发‑实体关系数据抽取‑数据缓存及更新校对‑图谱生成及二次校对‑缓存数据备份及管理。本发明能够利用缓存机制提升海量数据情况下的知识图谱构建生成效率、降低知识图谱构建过程中的数据校对和日志生成管理难度、支撑知识图谱数据回滚功能的实现;能够利用合理的命名规则和功能模块降低知识图谱数据管理的难度并实现缓存文件的自动处理、对比、知识图谱数据导入更新以及回滚,从而降低图谱构建和管理的难度、提升图谱构建速度、支撑图谱构建使用全生命周期管理需求的实现。
Description
技术领域
本发明涉及一种基于命名规则和缓存机制的知识图谱构的操作方法,属于知识图谱构建和数据存储管理利用技术领域,具体涉及一种基于命名规则和缓存机制的知识图谱构建更新回滚和知识图谱数据管理。
背景技术
随着计算机技术、信息通信技术和互联网技术的不断发展,电子数据呈现爆发式增长,推动了大数据、人工智能等一系列领域和相关技术的发展,从海量数据中挖掘分析有效信息的技术和能力也愈发重要。尽管目前以机器学习和深度学习为代表的大数据挖掘分析相关技术已经取得众多成果,但是海量数据的挖掘分析依旧存在重复性工作占比高、海量数据频繁处理导致的资源消耗大、部分分析过程可解释性差等问题。为解决上述问题,知识图谱相关理论和技术迎来了新的机遇和发展。
知识图谱能把海量的数据、不同领域的知识通过数据挖掘分析、信息处理、数据融合、知识抽取和表示、知识融合推理和图形绘制而表示出来,以更为简洁直观的方式揭示知识领域的动态发展规律,支撑基于知识的更高一层的数据分析和挖掘,为学科研究提供切实的、有价值的参考和数据、技术支撑。
知识图谱的构建属于一个不断迭代和完善的过程,随着人工经验和数据体量的不断增加,知识图谱的规模也会越来越大,实体关系网络复杂程度呈倍数增长,相应的数据更新、校验和问题的发现也就越来越困难。不仅如此,由于现有大部分知识图谱数据库技术方案和硬件条件的优化策略,使得少量多频次的大规模知识图谱的数据更新速度较慢,不如大批量低频次的数据更新迅速,而且许多知识图谱数据库不具备传统关系型数据库所具备的过程日志和回滚功能,一旦出错难以进行问题和数据的追溯,使得知识图谱数据更新和管理存在较大困难。
为了保证计算机数据的可用性、时效性、准确性和稳定性,在计算机存储、网页浏览器等众多场景下均使用了缓存这一设计。因此借鉴于缓存这一设计,结合大规模数据挖掘分析计算中中间层数据的设计,通过合理规范的命名规则、数据缓存策略和数据备份策略,在海量数据和人工经验分析处理与知识图谱构建管理之间设计一个过渡层,以提升知识图谱构建的自动化程度、数据校对的细致程度,降低知识图谱构建和使用的难度,支持知识图谱数据库数据的快速拆分、融合、备份,支持知识图谱构建管理过程中的数据回滚、问题追溯等需求的实现,进而实现知识图谱构建使用的全过程有效管理,以更好地支撑知识图谱相关技术的研究和应用的实现。
发明内容
为解决上述技术问题,本发明提供了一种基于命名规则和缓存机制的知识图谱构的操作方法,该基于命名规则和缓存机制的知识图谱构的操作方法通过制定内容更为丰富的知识图谱schema、合理的命名规范、详细的数据缓存策略,开发集成多个功能为一体的图谱数据管理模块、日志管理模块,在知识图谱数据库和图谱构成数据之间增加缓存层,实现知识图谱的快速构建、全过程管理、数据校对及问题追溯、回滚操作等。
本发明通过以下技术方案得以实现。
本发明提供的一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:
①数据采集:通过接口、爬虫获取构建知识图谱的多模态数据;
②建立知识图谱schema:建立用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;
③确定缓存策略:确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围,再构建缓存文件夹、缓存文件命名规则;
④图谱数据管理模块开发:完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;
⑤实体关系数据抽取:按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据和关联关系属性数据;
⑥数据缓存及更新校对:按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时,使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;
⑦图谱生成及二次校对:使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略,然后生产图谱;
⑧缓存数据备份及管理:根据缓存数据备份策略完成缓存数据的备份及管理。
所述步骤①分为以下步骤:
(1.1)通过接口、爬虫获取构建知识图谱所必须的常规数值数据、文本数据、图像数据、视频数据、语音数据,形成多模态数据;
(1.2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式进行分类储存。
所述步骤②分为以下步骤:
(2.1)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;
(2.2)定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;
(2.3)定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;
(2.4)定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题。
所述步骤③分为以下步骤:
(3.1)确定缓存数据的范围、存储位置、存储方式;
(3.2)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
(3.3)定义实体及关联关系数据存储文件夹命名规则;
(3.4)定义实体及关联关系数据对应缓存数据的命名规则。
所述步骤(3.1)中,缓存数据的范围包括全部数据缓存和部分数据缓存;存储位置包括本地文件系统、本地服务器、云服务器,缓存数据存在相同路径或者多个路径文件系统中;存储方式包括结构化数据存储、非结构化数据存储、半结构化数据存储;
所述步骤(3.2)中,数据备份位置包括本地和服务器;
所述步骤(3.4)中,缓存数据存储名称中包含实体或关系关键字词或代号、数据唯一性字段名称或代号、新建实体或关系类型的名称或代号、数据更新时间或代号、数据处理方式或代号、其他数据相关说明或代号,名称中各信息顺序不限制,各信息之间通过特定字符进行间隔识别并保证命名满足系统文件命名要求。
所述步骤④分为以下步骤:
(4.1)完成缓存数据文件自动读取对比识别模块、图谱数据导入更新删除回滚模块的开发和测试;
(4.2)完成缓存数据文件管理及日志系统更新管理模块的开发和测试;
(4.3)完成上述各模块的稳定性、可用性、时效性、准确性的测试和优化。
所述步骤(4.1)中,通过读取并识别缓存数据名称中的关键信息并与日志内容进行对比,发现重复命名或相似命名数据;通过判断缓存数据中的数据字段、数据内容相似性进行数据重复性、有效性判断;图谱数据导入更新删除回滚模块包括单条及多条图谱数据的导入、新建、更新、删除、回滚、重复数据自动识别和处理,该模块支持自动化、半自动化及手动调用操作;图谱数据的回滚为:将最近一次的知识图谱数据更新操作全部撤销,支持手动回滚和自动回滚,手动回滚和自动回滚区别在于参数的输入是手动还是自动,数据的精确回滚操作通过缓存文件的名称和内容判断进行实现;
所述步骤(4.2)中,缓存数据文件的管理包括对数据文件新建、复制、删除、重命名的管理,日志系统需记录数据文件的修改内容、修改目标和修改时间。
所述步骤⑤分为以下步骤:
(5.1)从采集的数据当中抽取融合图谱schema定义的实体属性数据,按照数据缓存策略规定进行数据的缓存和命名;
(5.2)从采集的数据当中抽取融合图谱schema定义的关联关系属性数据,按照数据缓存策略规定进行数据的缓存和命名。
所述步骤⑥分为以下步骤:
(6.1)按照缓存策略的要求,将步骤⑤中抽取得到的实体属性数据和关联关系属性数据进行缓存和积累,并实时记录缓存的数据数量及数据体量;
(6.2)当缓存数据的积累满足限制条件时,进行缓存数据的校对更新,记录并处理数据存在的问题;
所述限制条件包括缓存数据数量的限制、缓存数据大小的限制、处理时间的限制、处理数据体量的限制和人为制定的条件限制;
所述缓存数据的校对通过数据缓存策略、命名规则和图谱数据管理模块实现;
所述校对内容包括文件名称相似性及正确性校对、数据内容重复性及正确性校对,校对方式支持自动校对和手动校对;
所述数据问题包括重复数据、重复命名、错误命名、错误数据、数据缺失、数据异常。
所述步骤⑦中,图谱数据管理模块通过识别缓存文件的名称内容进行自动化、批量化的知识图谱数据生成更新;
所述步骤⑦中,二次数据校对及调整工作:通过人工或自动化脚本判断完成数据更新之后的知识图谱中数据的合理性、有效性和正确性,并根据判断结果确定是否进入步骤⑧、是否需要数据调整、是否需要数据回滚;
所述步骤⑧中,存数据备份和管理:根据数据情况和硬件条件,将缓存数据中的全部或部分数据进行二次备份,并按照命名规则对备份文件夹、备份文件进行统一命名,且备注备份时间、备份人、备份内容。
本发明的有益效果在于:能够利用缓存机制提升海量数据背景下的知识图谱构建生成速度和准确率、降低知识图谱构建过程中的数据校对和日志生成管理难度、支撑知识图谱数据回滚功能的实现、便于数据的备份加密和传递,能够利用合理的命名规则和功能模块降低知识图谱数据管理的难度并实现缓存文件的自动处理、对比、知识图谱数据导入更新以及回滚,从而降低图谱构建和管理的难度、提升图谱构建速度、支撑图谱构建使用全生命周期管理需求的实现等,并为后续的知识图谱应用研究提供有效的数据和技术支撑。
附图说明
图1是本发明的结构图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示,一种基于命名规则和缓存机制的知识图谱构的操作方法,包括以下步骤:
①数据采集:通过接口、爬虫获取构建知识图谱所必须的数据;
具体分为以下步骤:
(1.1)通过接口、爬虫获取构建知识图谱所必须的数据,包括常规数值数据、文本数据、图像数据、视频数据、语音数据;
(1.2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式选择合理的方式进行分类储存。
②知识图谱schema设计:设计用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;
具体分为以下步骤:
(2.1)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;
(2.2)定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;
(2.3)定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;
(2.4)定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题。
进一步的,凡是对知识图谱的构建、使用、管理和拓展有影响的信息,均需要填写备注信息保证工作开展和交接过程顺利。
③制定缓存策略:确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围;
具体分为以下步骤:
(3.1)确定缓存数据的范围、存储位置、存储方式;
优先的,缓存数据的范围包括全部数据缓存和部分数据缓存,存储位置包括本地文件系统、本地服务器、云服务器,缓存数据存在相同路径或者多个路径文件系统中,存储方式包括结构化数据存储、非结构化数据存储、半结构化数据存储。
(3.2)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
优先的,数据备份位置包括本地和服务器;
④命名规则制定:制定缓存文件夹、缓存文件命名规则;
具体分为以下步骤:
(4.1)定义实体及关联关系数据存储文件夹命名规则;
(4.2)定义实体及关联关系数据对应缓存数据的命名规则。
优先的,缓存数据存储名称中包含实体或关系关键字词或代号、数据唯一性字段名称或代号、新建实体或关系类型的名称或代号、数据更新时间或代号、数据处理方式或代号、其他数据相关说明或代号,名称中各信息顺序不限制,各信息之间通过特定字符进行间隔识别并保证命名满足系统文件命名要求。
⑤图谱数据管理模块开发:完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;
具体分为以下步骤:
(5.1)完成缓存数据文件自动读取对比识别模块、图谱数据导入更新删除回滚模块;
优先的,通过读取并识别缓存数据名称中的关键信息并与日志内容进行对比,发现重复命名或相似命名数据;通过判断缓存数据中的数据字段、数据内容相似性进行数据重复性、有效性判断;图谱数据导入更新删除回滚模块包括单条及多条图谱数据的导入、新建、更新、删除、回滚、重复数据自动识别和处理,模块支持自动化、半自动化及手动调用操作,模块的输入参数按照简洁明了进行设计;图谱数据的回滚指的将最近一次的知识图谱数据更新操作全部撤销,支持手动回滚和自动回滚,手动回滚和自动回滚区别在于参数的输入是手动还是自动,数据的精确回滚操作通过缓存文件的名称和内容判断进行实现。
(5.2)完成缓存数据文件管理及日志系统更新管理模块;
优先的,缓存数据文件的管理包括对数据文件新建、复制、删除、重命名的管理,日志系统需记录数据文件的修改内容、修改目标和修改时间。
(5.3)完成上述各模块的稳定性、可用性、时效性、准确性测试和优化;
⑥实体关系数据抽取:按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据、关联关系属性数据;
具体分为以下步骤:
(6.1)从采集的数据当中抽取融合图谱schema定义的实体属性数据,按照数据缓存策略规定进行数据的缓存和命名,保证数据的有效性和唯一性;
(6.2)从采集的数据当中抽取融合图谱schema定义的关联关系属性数据,按照数据缓存策略规定进行数据的缓存和命名,保证数据的有效性、唯一性以及和实体属性数据的对应关系。
⑦数据缓存及更新校对:按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;
具体分为以下步骤:
(7.1)按照缓存策略的要求,将步骤⑥中抽取得到的实体和关系数据进行缓存和积累,并实时记录缓存的数据数量及数据体量;
(7.2)当缓存数据的积累满足一定条件时,进行缓存数据的校对更新,记录并处理数据存在的问题;
进一步的,缓存数据积累限制条件包括缓存数据数量的限制、缓存数据大小的限制、处理时间的限制、处理数据体量的限制和人为制定的条件限制;缓存数据的校对通过数据缓存策略、命名规则和图谱数据管理模块实现,校对内容包括文件名称相似性及正确性校对、数据内容重复性及正确性校对,校对方式支持自动校对和手动校对;数据问题包括重复数据、重复命名、错误命名、错误数据、数据缺失、数据异常。
⑧图谱生成及二次校对:使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略;
具体分为以下步骤:
(8.1)利用图谱数据管理模块,自动或半自动化实现单条或批量缓存数据向知识图谱数据库的导入和自动生成、更新;
进一步的,图谱数据管理模块能够通过识别缓存文件的名称内容进行自动化、批量化的知识图谱数据生成更新,提升图谱生成速度。
(8.2)以人工或者脚本操作的形式进行知识图谱数据的二次校对,校对内容包括数据的有效性、正确性。
进一步的,通过人工或自动化脚本判断完成数据更新之后的知识图谱中数据的合理性、有效性和正确性,并根据判断结果确定是否进入下一环节、是否需要数据调整、是否需要数据回滚。
还包括步骤⑨缓存数据备份和管理:根据数据情况和硬件条件,将缓存数据中的全部或部分数据进行二次备份,并按照命名规则对备份文件夹、备份文件进行统一命名,且备注备份时间、备份人、备份内容;
具体分为以下步骤:
(9.1)根据缓存策略要求,对缓存数据中符合备份要求的数据进行备份;
(9.2)进行缓存数据备份数据的管理;
本发明是一种基于命名规则和缓存机制的图谱构建更新回滚方法,通过接口、爬虫获取构建知识图谱所必须的数据;设计用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围;制定缓存文件夹、缓存文件命名规则;完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据、关联关系属性数据;按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略;根据缓存数据备份策略完成缓存数据的备份及管理。
实施例
如上所述,本发明的实施过程如下:
1)通过接口、爬虫获取构建知识图谱所必须的数据,包括常规数值数据、文本数据、图像数据、视频数据、语音数据;
2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式选择合理的方式进行分类储存;
3)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题;
4)确定缓存数据的范围、存储位置、存储方式;
5)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
6)定义实体及关联关系数据存储文件夹及缓存数据命名规则;;
7)完成缓存数据文件自动读取对比识别模块、图谱数据导入更新删除回滚模块;完成缓存数据文件管理及日志系统更新管理模块;
8)完成上述各模块的稳定性、可用性、时效性、准确性测试和优化;
9)从采集的数据当中抽取融合图谱schema定义的实体属性数据,按照数据缓存策略规定进行数据的缓存和命名,保证数据的有效性和唯一性;
10)从采集的数据当中抽取融合图谱schema定义的关联关系属性数据,按照数据缓存策略规定进行数据的缓存和命名,保证数据的有效性、唯一性以及和实体属性数据的对应关系;
11)按照缓存策略的要求,将抽取得到的实体和关系数据进行缓存和积累,并实时记录缓存的数据数量及数据体量;当缓存数据的积累满足一定条件时,进行缓存数据的校对更新,记录并处理数据存在的问题;
12)利用图谱数据管理模块,自动或半自动化实现单条或批量缓存数据向知识图谱数据库的导入和自动生成、更新;以人工或者脚本操作的形式进行知识图谱数据的二次校对,校对内容包括数据的有效性、正确性;
13)根据缓存策略要求,对缓存数据中符合备份要求的数据进行备份,进行缓存数据备份数据的管理。
综上所述,本发明是一套知识图谱构建和管理体系,知识图谱构建管理过程中的所有变化都能记录保存,并通过缓存数据和历史记录实现知识图谱数据的添加、更新、回滚等操作,适用于知识图谱全生命周期管理体系的实现,高质量知识图谱的建立,自动化知识图谱构建体系和大小规模知识图谱数据的有效备份和管理。
Claims (10)
1.一种基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:包括以下步骤:
①数据采集:通过接口、爬虫获取构建知识图谱的多模态数据;
②建立知识图谱schema:建立用于指导知识图谱实体数据、关联数据挖掘存储的图谱schema;
③确定缓存策略:确定缓存数据存储位置、数据存储方式及数据备份策略,并确定需要缓存的数据范围,再构建缓存文件夹、缓存文件命名规则;
④图谱数据管理模块开发:完成缓存文件自动读取对比识别模块、图谱数据导入更新删除回滚模块、缓存文件管理模块的开发和测试;
⑤实体关系数据抽取:按照图谱schema规划内容,从采集的数据中抽取知识图谱必要的实体属性数据和关联关系属性数据;
⑥数据缓存及更新校对:按照缓存策略的要求,将抽取得到的实体关系数据进行存储从而得到缓存数据,当缓存数据的积累满足一定条件时,使用图谱数据管理模块进行数据的初步校对及更新,对问题数据进行处理;
⑦图谱生成及二次校对:使用图谱数据管理模块自动将完成初步校对更新的数据导入知识图谱数据库,并对更新之后的知识图谱进行二次数据校对工作,根据数据校对情况确定数据调整策略,然后生产图谱;
⑧缓存数据备份及管理:根据缓存数据备份策略完成缓存数据的备份及管理。
2.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤①分为以下步骤:
(1.1)通过接口、爬虫获取构建知识图谱所必须的常规数值数据、文本数据、图像数据、视频数据、语音数据,形成多模态数据;
(1.2)对获取的多模态数据进行初步的数据清洗、数据处理,并按照数据格式进行分类储存。
3.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤②分为以下步骤:
(2.1)定义知识图谱构建的基本原则和约定,包括背景说明、图谱用途说明、数据需求及图谱需求说明、数据保密约定、数据解释、专业词汇解释、数据字段命名约定、数据来源、数据形式;
(2.2)定义知识图谱实体数据及关联关系数据的概念、唯一性约束、类别、域定义、属性命名、属性解释、数据关联方式、属性约束、关联约束;
(2.3)定义知识图谱技术选型及图谱架构,包括图谱数据存储技术、图谱数据检索应用技术、图谱架构组成、图谱及数据开发环境;
(2.4)定义知识图谱备注信息,包括使用到的其他工具、数据、存在的问题。
4.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤③分为以下步骤:
(3.1)确定缓存数据的范围、存储位置、存储方式;
(3.2)确定缓存数据的备份策略,包括备份数据命名规则、备份位置、备份数量、备份数据管理及使用策略;
(3.3)定义实体及关联关系数据存储文件夹命名规则;
(3.4)定义实体及关联关系数据对应缓存数据的命名规则。
5.如权利要求4所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤(3.1)中,缓存数据的范围包括全部数据缓存和部分数据缓存;存储位置包括本地文件系统、本地服务器、云服务器,缓存数据存在相同路径或者多个路径文件系统中;存储方式包括结构化数据存储、非结构化数据存储、半结构化数据存储;
所述步骤(3.2)中,数据备份位置包括本地和服务器;
所述步骤(3.4)中,缓存数据存储名称中包含实体或关系关键字词或代号、数据唯一性字段名称或代号、新建实体或关系类型的名称或代号、数据更新时间或代号、数据处理方式或代号、其他数据相关说明或代号,名称中各信息顺序不限制,各信息之间通过特定字符进行间隔识别并保证命名满足系统文件命名要求。
6.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤④分为以下步骤:
(4.1)完成缓存数据文件自动读取对比识别模块、图谱数据导入更新删除回滚模块的开发和测试;
(4.2)完成缓存数据文件管理及日志系统更新管理模块的开发和测试;
(4.3)完成上述各模块的稳定性、可用性、时效性、准确性的测试和优化。
7.如权利要求6所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤(4.1)中,通过读取并识别缓存数据名称中的关键信息并与日志内容进行对比,发现重复命名或相似命名数据;通过判断缓存数据中的数据字段、数据内容相似性进行数据重复性、有效性判断;图谱数据导入更新删除回滚模块包括单条及多条图谱数据的导入、新建、更新、删除、回滚、重复数据自动识别和处理,该模块支持自动化、半自动化及手动调用操作;图谱数据的回滚为:将最近一次的知识图谱数据更新操作全部撤销,支持手动回滚和自动回滚,手动回滚和自动回滚区别在于参数的输入是手动还是自动,数据的精确回滚操作通过缓存文件的名称和内容判断进行实现;
所述步骤(4.2)中,缓存数据文件的管理包括对数据文件新建、复制、删除、重命名的管理,日志系统需记录数据文件的修改内容、修改目标和修改时间。
8.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤⑤分为以下步骤:
(5.1)从采集的数据当中抽取融合图谱schema定义的实体属性数据,按照数据缓存策略规定进行数据的缓存和命名;
(5.2)从采集的数据当中抽取融合图谱schema定义的关联关系属性数据,按照数据缓存策略规定进行数据的缓存和命名。
9.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤⑥分为以下步骤:
(6.1)按照缓存策略的要求,将步骤⑤中抽取得到的实体属性数据和关联关系属性数据进行缓存和积累,并实时记录缓存的数据数量及数据体量;
(6.2)当缓存数据的积累满足限制条件时,进行缓存数据的校对更新,记录并处理数据存在的问题;
所述限制条件包括缓存数据数量的限制、缓存数据大小的限制、处理时间的限制、处理数据体量的限制和人为制定的条件限制;
所述缓存数据的校对通过数据缓存策略、命名规则和图谱数据管理模块实现;
所述校对内容包括文件名称相似性及正确性校对、数据内容重复性及正确性校对,校对方式支持自动校对和手动校对;
所述数据问题包括重复数据、重复命名、错误命名、错误数据、数据缺失、数据异常。
10.如权利要求1所述的基于命名规则和缓存机制的知识图谱构的操作方法,其特征在于:所述步骤⑦中,图谱数据管理模块通过识别缓存文件的名称内容进行自动化、批量化的知识图谱数据生成更新;
所述步骤⑦中,二次数据校对及调整工作:通过人工或自动化脚本判断完成数据更新之后的知识图谱中数据的合理性、有效性和正确性,并根据判断结果确定是否进入步骤⑧、是否需要数据调整、是否需要数据回滚;
所述步骤⑧中,存数据备份和管理:根据数据情况和硬件条件,将缓存数据中的全部或部分数据进行二次备份,并按照命名规则对备份文件夹、备份文件进行统一命名,且备注备份时间、备份人、备份内容。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764250.2A CN113434610A (zh) | 2021-07-06 | 2021-07-06 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
CN202111369404.4A CN113918663A (zh) | 2021-07-06 | 2021-11-18 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
PCT/CN2021/143464 WO2023279684A1 (zh) | 2021-07-06 | 2021-12-31 | 一种基于命名规则和缓存机制的知识图谱构建的操作方法 |
LU503512A LU503512B1 (en) | 2021-07-06 | 2021-12-31 | Operating method for construction of knowledge graph based on naming rule and caching mechanism |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764250.2A CN113434610A (zh) | 2021-07-06 | 2021-07-06 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113434610A true CN113434610A (zh) | 2021-09-24 |
Family
ID=77759307
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764250.2A Withdrawn CN113434610A (zh) | 2021-07-06 | 2021-07-06 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
CN202111369404.4A Pending CN113918663A (zh) | 2021-07-06 | 2021-11-18 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111369404.4A Pending CN113918663A (zh) | 2021-07-06 | 2021-11-18 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
Country Status (3)
Country | Link |
---|---|
CN (2) | CN113434610A (zh) |
LU (1) | LU503512B1 (zh) |
WO (1) | WO2023279684A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023279684A1 (zh) * | 2021-07-06 | 2023-01-12 | 中电科大数据研究院有限公司 | 一种基于命名规则和缓存机制的知识图谱构建的操作方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115309789B (zh) * | 2022-10-11 | 2023-01-03 | 浩鲸云计算科技股份有限公司 | 一种基于业务对象智能动态化实时生成关联数据图的方法 |
CN116028648B (zh) * | 2023-02-15 | 2023-06-09 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10740557B1 (en) * | 2017-02-14 | 2020-08-11 | Casepoint LLC | Technology platform for data discovery |
CN109255031B (zh) * | 2018-09-20 | 2022-02-11 | 苏州友教习亦教育科技有限公司 | 基于知识图谱的数据处理方法 |
CN110990585B (zh) * | 2019-11-29 | 2024-01-30 | 上海勘察设计研究院(集团)股份有限公司 | 构建行业知识图谱的多源数据和时间序列处理方法及装置 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
CN113434610A (zh) * | 2021-07-06 | 2021-09-24 | 中电科大数据研究院有限公司 | 一种基于命名规则和缓存机制的知识图谱构的操作方法 |
-
2021
- 2021-07-06 CN CN202110764250.2A patent/CN113434610A/zh not_active Withdrawn
- 2021-11-18 CN CN202111369404.4A patent/CN113918663A/zh active Pending
- 2021-12-31 LU LU503512A patent/LU503512B1/en active IP Right Grant
- 2021-12-31 WO PCT/CN2021/143464 patent/WO2023279684A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023279684A1 (zh) * | 2021-07-06 | 2023-01-12 | 中电科大数据研究院有限公司 | 一种基于命名规则和缓存机制的知识图谱构建的操作方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023279684A1 (zh) | 2023-01-12 |
LU503512B1 (en) | 2023-06-19 |
CN113918663A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113918663A (zh) | 一种基于命名规则和缓存机制的知识图谱构的操作方法 | |
US7730032B2 (en) | Efficient queriability of version histories in a repository | |
US8892504B2 (en) | Method and system for reconciling meta-data in a data warehouse | |
US7533136B2 (en) | Efficient implementation of multiple work areas in a file system like repository that supports file versioning | |
CN102918494B (zh) | 基于数据库模型不可知论、纲要不可知论且工作负载不可知论的数据存储和存取模型的数据存储和/或检索方法和系统 | |
US7627615B2 (en) | Copy-on-write versioning of documents | |
CN103514223B (zh) | 一种数据仓库数据同步方法和系统 | |
JP4856627B2 (ja) | 部分的クエリーキャッシング | |
CN103902671B (zh) | 一种异构多源数据的动态集成方法及系统 | |
AU2019219824A1 (en) | System for synchronization of changes in edited websites and interactive applications | |
CN113434623B (zh) | 一种基于多源异构空间规划数据的融合方法 | |
Pröll et al. | Scalable data citation in dynamic, large databases: Model and reference implementation | |
RU2406115C2 (ru) | Доступ к сложным данным | |
EP1585036A2 (en) | Management of parameterized database queries | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN107451233B (zh) | 时间属性优先的时空轨迹数据文件在辅助存储设备中的存储方法 | |
CA2167790A1 (en) | Relational database system and method with high data availability during table data restructuring | |
CN106716409A (zh) | 基于查询需求从行存储数据库自适应地构建和更新列存储数据库的方法和系统 | |
CN107077480A (zh) | 基于查询需求自适应地从当前时间的行存储数据库中构建列存储数据库的方法和系统 | |
US20070168334A1 (en) | Normalization support in a database design tool | |
CN113934750A (zh) | 基于编译方式的数据血缘关系分析方法 | |
US20080005077A1 (en) | Encoded version columns optimized for current version access | |
Glake et al. | Data management in multi-agent simulation systems | |
US9135302B2 (en) | Query rewrite with a nested materialized view | |
US20230087098A1 (en) | Data analysis method, apparatus and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210924 |