CN113392227B - 面向轨道交通领域的元数据知识图谱引擎系统 - Google Patents
面向轨道交通领域的元数据知识图谱引擎系统 Download PDFInfo
- Publication number
- CN113392227B CN113392227B CN202110703959.1A CN202110703959A CN113392227B CN 113392227 B CN113392227 B CN 113392227B CN 202110703959 A CN202110703959 A CN 202110703959A CN 113392227 B CN113392227 B CN 113392227B
- Authority
- CN
- China
- Prior art keywords
- metadata
- target
- data
- knowledge graph
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 claims abstract description 101
- 238000013523 data management Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012423 maintenance Methods 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 24
- 238000013500 data storage Methods 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000005192 partition Methods 0.000 claims description 14
- 238000005265 energy consumption Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000013070 change management Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 25
- 238000003860 storage Methods 0.000 description 17
- 238000009960 carding Methods 0.000 description 15
- 238000013499 data model Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000013507 mapping Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 5
- 230000008676 import Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013506 data mapping Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003754 machining Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 229920001872 Spider silk Polymers 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向轨道交通领域的元数据知识图谱引擎系统,包括:数据接入单元,用于对轨道交通领域中原始数据进行预处理,并对预处理后的原始数据进行存储;知识图谱引擎单元,与数据接入单元连接,用于接入原始数据对应的目标元数据,并对目标元数据维护、稽核以及下线;数据治理知识图谱单元,与知识图谱引擎单元连接,用于对目标元数据中的技术元数据、业务元数据和管理元数据之间的目标关联关系进行解耦,构建目标知识图谱,并基于目标知识图谱对解耦后的目标数据进行存储。本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够快速定位元数据,清晰明了的展示出不同层级的元数据信息,以满足不同角色的需求。
Description
技术领域
本发明涉及轨道交通技术领域,尤其涉及一种面向轨道交通领域的元数据知识图谱引擎系统。
背景技术
知识图谱本质上是一种叫做语义网络(semantic network)的知识库,知识图谱是经由语义网路逐渐演化而来的。知识图谱技术在知识的自动获取能力、系统的适应能力以及隐藏信息挖掘方面有其技术优势,同时适用于海量数据的分析处理。在轨道交通领域,知识图谱的应用十分稀少,目前还未发现公开报道的成熟产品。
元数据是关于数据的数据,是对数据进行描述、解释、定位并使其更方便检索、使用或管理的数据。元数据是数据的共享、交换、分析、使用的基础,大数据必然产生海量元数据,元数据变得更加重要,元数据存储、管理、使用、分析的好坏,直接决定了数据应用在企业中的好坏。只有管好元数据,才能用好数据。但是,在大数据时代下,传统元数据的用户体验较差,无法快速定位元数据,无法清晰明了展示不同层级的元数据信息,无法满足不同角色的使用者需求。
发明内容
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统及构建方法,用于克服现有技术中存在的上述问题,能够快速定位元数据,清晰明了的展示出不同层级的元数据信息,以满足不同角色的需求。
本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,包括:
数据接入单元,用于对轨道交通领域中原始数据进行预处理,并对预处理后的原始数据进行存储;
知识图谱引擎单元,与所述数据接入单元连接,用于接入所述原始数据对应的目标元数据,并对所述目标元数据维护、稽核以及下线;
数据治理知识图谱单元,与所述知识图谱引擎单元连接,用于对所述目标元数据中的技术元数据、业务元数据和管理元数据之间的目标关联关系进行解耦,构建目标知识图谱,并基于所述目标知识图谱对解耦后的目标数据进行存储;
其中,目标知识图谱包括数据资产知识图谱、业务知识图谱和管理知识图谱。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述数据接入单元,包括:
预处理模块,用于对所述原始数据进行预处理;
数据存储模块,与所述预处理模块连接,用于对所述预处理后的原始数据进行分类,以获取目标类型数据,并基于目标数据库对所述目标类型数据进行存储;
其中,所述预处理包括过滤或修正所述原始数据中的脏数据和不合法字段。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述数据存储模块,还用于:
基于所述目标数据库中的图数据库,对所述目标类型数据中的知识数据进行存储;
基于所述目标数据库中的结构化数据库,对所述目标类型数据中的非关系型数据进行存储;以及
基于所述目标数据库中的缓存数据库,对所述目标类型数据中的缓存数据进行存储。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述知识图谱引擎单元,包括:
目标元数据获取模块,与所述数据接入单元连接,用于根据目标元数据划分标准,接入所述目标元数据;
目标元模块,与所述目标元数据获取模块连接,用于存储所述目标元数据,并通过对所述目标元数据盘点,确定所述目标关联关系;
元数据维护模块,与所述目标元模块连接,用于维护所述目标元数据;
元数据稽核模块,与所述目标元数据获取模块连接,用于对所述目标元数据进行稽核;
元数据下线模块,与所述目标元数据获取模块连接,用于确定所述目标元数据中的无效元数据,并下线所述无效元数据;
其中,所述目标元数据划分标准包括技术元数据划分标准、业务元数据划分标准和管理元数据划分标准。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述元数据维护模块,包括:
元数据资源目录维护子模块,与所述目标元模块连接,用于根据目标元数据资源目录,对技术元数据资源目录、业务元数据资源目录和管理元数据资源目录进行维护;
元数据变更管理子模块,与所述目标元模块连接,用于根据目标元数据变更流程,对所述目标元数据的变更进行维护;
元数据血缘关系维护子模块,与所述目标元模块连接,用于根据所述目标关联关系对所述目标元数据之间的血缘关系进行维护;
其中,所述目标元数据资源目录是根据所述目标关联关系确定的。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述数据治理知识图谱单元,还用于:
对所述目标关联关系进行解耦,以获取所述目标元数据的目标数据层次、目标业务层次和目标影响层次;
根据所述数据资产知识图谱和所述目标数据层次,构建不同的目标模型实例和目标主题域,并基于所述目标模型实例对所述目标数据中的目标数据类型元数据进行存储,以及基于所述目标主题域对所述目标数据中的目标主题元数据进行存储;
根据所述业务知识图谱和所述目标业务层次,对所述目标数据中的目标业务元数据进行存储;
根据所述管理知识图谱和所述目标影响层次,对所述目标数据中的目标流程节点元数据及目标节点关系元数据进行存储;
其中,所述目标业务元数据包括业务场景元数据、业务关系元数据、业务内容元数据和业务规则元数据。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述目标元模块,包括:
核心子模块,与所述目标元数据获取模块连接,用于存储如下至少所述业务元数据中的一种:
信息分类元数据、业务术语元数据和业务描述元数据;
企业支撑子模块,与所述目标元数据获取模块连接,用于存储所述管理元数据;
数据库对象子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的数据库技术元数据;
应用系统子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的应用系统技术元数据;
数据转移子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的ETL技术元数据。
本发明还提供一种面向轨道交通领域的元数据知识图谱引擎系统,所述目标主题元数据包括如下元数据中的至少一种:
事件主题元数据、票务主题元数据、能耗主题元数据、安全生产主题元数据、内部管理主题元数据和对外服务主题元数据。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,所述对所述目标元数据稽核,包括:
对所述目标元数据的如下方面至少一个进行稽核:
完整性、及时性、规范性、准确性和一致性。
根据本发明提供的一种面向轨道交通领域的元数据知识图谱引擎系统,还包括:
可视化应用单元,与所述数据治理知识图谱单元连接,用于根据目标检索条件对所述目标数据进行检索,以及对所述目标关联关系进行分析及模型构建。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够快速定位元数据,清晰明了的展示出不同层级的元数据信息,以满足不同角色的需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的面向轨道交通领域的元数据知识图谱引擎系统的结构示意图;
图2是本发明提供的元数据盘点的流程示意图;
图3是本发明提供的元数据接入的流程示意图;
图4是本发明提供的元数据变更的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于知识图谱和已有元数据管理功能的知识图谱引擎正是一项数据的应用场景中的重要应用。知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系的知识库。随着大数据时代的到来以及各企业业务的持续发展,数据的数量、种类越来越多,数据之间的关系越来越复杂,数据的应用场景也从传统的统计分析,到现在基于大数据的机器学习、知识图谱等。数据的深度挖掘使用、数据对业务的促进、数据在企业运营等方方面面均发挥着越来越重要的作用,数据资产已经逐步成为企业的核心资产之一。
轨道交通领域的知识图谱引擎目标是以知识图谱技术为核心,基于数据存储及管理框架,结合元数据需求及其全生命周期管理体系并深度整合多个功能模块,满足人员的检索、分析和可视化服务等多方面业务需求,并实现一定程度的智能辅助决策功能。
总体来说,就是要通过对知识图谱引擎的设计、实施和落地来完成轨道交通领域的应用从孤立到集成,数据从分散到集中,管理从个性到规范的目标。基于此,本发明提供一种面向轨道交通领域的元数据知识图谱引擎系统,具体实现如下:
图1是本发明提供的面向轨道交通领域的元数据知识图谱引擎系统的结构示意图,如图1所示,包括:
数据接入单元10,用于对轨道交通领域中原始数据进行预处理,并对预处理后的原始数据进行存储;
知识图谱引擎单元11,与数据接入单元10连接,用于接入原始数据对应的目标元数据,并对目标元数据维护、稽核以及下线;
数据治理知识图谱单元12,与知识图谱引擎单元11连接,用于对目标元数据中的技术元数据、业务元数据和管理元数据之间的目标关联关系进行解耦,构建目标知识图谱,并基于目标知识图谱对解耦后的目标数据进行存储;
其中,目标知识图谱包括数据资产知识图谱、业务知识图谱和管理知识图谱。
可选地,数据接入模块10,对各类原始数据进行接入,并将经过预处理后的原始数据及知识存储后提供元数据注册功能。
知识图谱引擎单元11,数据接入单元10连接,用于接入原始数据对应的目标元数据,并对目标元数据维护、稽核以及下线。知识图谱引擎单元11可以分为两部分,即面向轨道交通的元数据全生命周期管理管理体系层和轨道交通的知识图谱引擎。
1)面向轨道交通的元数据全生命周期管理体系层,以数据环境和元数据需求为基石,通过设计轨道交通领域合理的元数据全生命周期管理体系,有效地进行元数据物理集中,实现元数据的统一管理,并在此基础上,针对元数据需求制定元数据操作流程,规划元数据应用,促进元数据有效使用。
2)轨道交通的知识图谱引擎层,建立元数据知识图谱(数据地图)模型,贯通轨道交通业务与数据资产,提供向上的基于知识图谱引擎的基础能力。
数据接入单元10,将原始数据接入,并将数据核心公共能力进行封装,形成标准化的服务,并将能力微服务化,以服务促管控,提高数据服务的开发与应用能力。
数据是知识图谱的基础,平台提供多源数据的多路径接入,全方位支持大规模的数据导入,要支持在线、离线的文档图片等导入方式。支持从大数据平台内的数据表提取海量数据生成知识图谱或导入已存在的知识图谱,需要指定大数据平台内的数据库及数据表,确定导入字段以及数据量,同时支持原始数据预处理功能。灵活支持数据的在线导入,分散在各处的轨道、列车、轨迹等数据,可以通过平台的在线导入功能,进行在线上传,只需简单的定义和模板选择,就可以快速导入,在数据上传结束后就可以进行搜索、对比、碰撞分析等功能。
知识图谱引擎单元11中的元数据管理体系部分涵盖了大数据系统中的模型元数据、系统资源信息、数据生产元数据、数据应用元数据、业务场景、业务流程、组织与管理要素等元数据信息及其关系。在元数据全生命周期管理体系中主要按元数据接入、元数据维护、元数据稽核和元数据下线几个步骤。在这个过程中会涉及一些知识获取、知识融合等关键技术及元数据管理的基本功能。
面向轨道交通的元数据全生命周期管理体系以数据环境和元数据需求为基石,通过设计轨道交通领域合理的元数据全生命周期管理体系,有效地进行元数据物理集中,实现元数据的统一管理,并在此基础上,针对元数据需求制定元数据操作流程,规划元数据应用,促进元数据有效使用。
建立元数据知识图谱(数据地图)模型,贯通轨道交通业务与数据资产。可实现在业务与业务之间,以轨道交通业务体系为总纲,建立业务分类、业务流程与业务活动间的层级关系。在业务与数据之间,以业务数据映射为核心,建立业务体系与数据资产、数据来源间的映射关系。在数据与数据之间,以数据关联和血缘为纽带,重点建立元数据关联关系和数据溯源关系。
数据治理知识图谱单元12,依托元数据实体信息和元数据关系服务,对技术元数据、业务元数据、管理元数据之间目标关联关系进行分层解耦,形成目标知识图谱,并基于目标知识图谱对解耦后的目标数据分别进行存储,利用数据来反馈业务能力,明晰两者如何协助来达到最终业务管理的目标,提升轨道交通精力的数字化的整体能力。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够快速定位元数据,清晰明了的展示出不同层级的元数据信息,以满足不同角色的需求。
进一步地,在一个实施例中,数据接入单元10,可以具体包括:
预处理模块100,用于对原始数据进行预处理;
数据存储模块101,与预处理模块100连接,用于对预处理后的原始数据进行分类,以获取目标类型数据,并基于目标数据库对目标类型数据进行存储;
其中,预处理包括过滤或修正所述原始数据中的脏数据和不合法字段。
可选地,通过构建预处理模块100,支持自动数据清洗功能,对于原始数据中的脏数据或者不合法字段可以自动过滤及修正,数据存储模块,对预处理后的原始数据进行分类,获取目标类型数据,并基于目标数据库对目标类型数据进行存储。
建立数据存储模块101存储知识图谱数据,基于混合型知识图谱数据存储模块,运用混合型数据存储技术,支持数据融合存储,实现多源海量数据资源融合分布式存储。支持海量数据图谱的高效存储和查询,实现用户友好的查询语言,为图谱基础应用提供存储计算层的技术支撑。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,通过对数据进行预处理有助于剔除数据中的无效值和缺失值,确定数据一致性。
进一步地,在一个实施例中,数据存储模块101,还可以用于:
基于目标数据库中的图数据库,对目标类型数据中的知识数据进行存储;
基于目标数据库中的结构化数据库,对目标类型数据中的非关系型数据进行存储;以及
基于目标数据库中的缓存数据库,对目标类型数据中的缓存数据进行存储。
可选地,数据存储模块101根据不同类型的数据,采用目标数据库如混合型知识图谱数据库,数据层设计了双数据库加一层缓存层的存储机制,对数据进行融合存储,即通过图数据库对知识数据进行存储,通过结构化数据库来存储非关系型数据,再利用缓存数据库作为目标类型数据中的中间缓存数据进行存储。混合型知识图谱数据库支持以扩展的方式替换不同的存储组件,以满足不同应用场景下的具体需求。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,支持对历史版本图谱数据的存储,详细记录图谱变迁历程,实现数据的全面在线,支持分布式部署及分布式计算,在大数据量图谱计算场景下可以充分地利用硬件资源,分摊计算压力,同时又可以避免单点故障,达到高可用的效果。
进一步地,在一个实施例中,知识图谱引擎单元11,可以具体包括:
目标元数据获取模块110,与数据接入单元10连接,用于根据目标元数据划分标准,接入目标元数据;
目标元模块111,与目标元数据获取模块110连接,用于存储所述目标元数据,并通过对目标元数据盘点,确定所述目标关联关系;
元数据维护模块112,与目标元模块111连接,用于维护目标元数据;
元数据稽核模块113,与目标元数据获取模块112连接,用于对目标元数据进行稽核;
元数据下线模块114,与目标元数据获取模块113连接,用于确定目标元数据中的无效元数据,并下线无效元数据;
其中,目标元数据划分标准包括技术元数据划分标准、业务元数据划分标准和管理元数据划分标准。
可选地,以数据仓库中的数据模型为核心对象,从业务、技术、管理三个方面,制定轨道交通领域相应的元数据标准。
技术元数据:面向轨道交通技术人员,用技术语言从数据库、数据表、字段等方面描述数据。技术元数据有助于对数据模型的轨道交通领域日常维护、问题查证等,能有效提高维护效率,加速异常问题查证。包括数据源接口元数据、数仓加工元数据、存储元数据、ETL元数据、数据质量元数据、指标口径元数据等等。
业务元数据:面向轨道交通业务人员,用业务语言从业务分类、业务术语定义、业务规则等方面描述数据。构建轨道交通的分层业务体系,从一级业务分类往下细分,到业务活动,直到最细的业务属性定义,由此构建业务元数据。业务元数据能搭建数据模型和业务人员之间的理解桥梁,好的业务元数据可以帮助业务人员快速理解数据模型,从而更好的应用模型。
管理元数据:面向轨道交通数据管理人员,从数据运维视角,数据资产归属视角,对数据归属、认责、质量、安全隐私等方面进行描述。
同时制定元数据标准化管理体系,规范元数据运营流程,覆盖元数据从接入、修改、维护、稽核、下线等各个环节的管理工作。
1)技术元数据
技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对模型定义、数据存储、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL等环节。技术元数据有助于对数据模型的日常维护、问题查证等,能有效提高维护效率,加速异常问题查证。技术元数据主要包括以下类型:
模型定义:包含数据库表名、字段名、字段类型等属性。
血缘关系:包含来源系统、来源表、来源字段等属性。
存储信息:包含表记录数、存储类型、分区表、主键、索引字段、分区字段、压缩字段等属性。
ETL(Extract/Transform/Loading)元数据:ETL更新频率、ETL加工策略、技术口径(即ETL加工规则)、ETL运行时长等。
技术元数据描述关于数据仓库技术细节的数据,应用于开发、管理和维护数据仓库,应包括以下内容:
数据仓库结构的描述,包括数据仓库模式、视图、维度、层次结构和导出数据的定义,以及数据集市的位置和内容;
业务系统、数据仓库和数据集市的体系结构和模式;
汇总用的算法,包括度量和维定义算法、数据粒度、主题领域、聚合、汇总和预定义的查询与报告;
由操作环境到数据仓库环境的映射,包括源数据及其内容、数据分割、数据提取、清理、转换规则和数据刷新规则及安全(用户授权和存取控制)。
2)业务元数据
业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、业务规则等信息。好的业务元数据可以帮助业务人员快速理解数据模型,从而更好的应用模型。
信息分类:构建轨道交通领域的分层业务体系,从一级业务分类往下细分到业务活动,作为元数据的多级业务分类。包括一级业务分类、二级分类、三级分类、最细业务活动、主题域,比如乘客服务、设备及票务业务等。
业务术语:轨道交通业务中,用于表示某个特定概念的专用的、约定俗成的词语,比如OD客流、耗电量等。业务术语是建立技术与业务之间沟通语境的关键,数据仓库数据模型的中文描述应尽量引用业务术语。
业务描述:包括数据模型的中文描述信息、业务口径(即字段、指标加工规则的业务描述)、计量单位等。
业务元数据应包含以下内容:
使用者的业务术语所表达的数据模型、对象名和属性名;
访问数据的原则和数据的来源;
系统所提供的分析方法、公式和报表的信息。
3)管理元数据
管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要从数据管理和运维的视角,对数据管理、认责、质量、安全隐私等方面进行描述。
数据管理:数据归属部门、数据归属企业等。
数据认责:模型设计人员、数据开发人员等。
数据质量:质量检查时间、人员、结果等。
数据安全:数据敏感等级、访问权限要求等。
管理元数据是描述管理领域信息的数据,应包括人员、岗位、角色、管理流程等内容,元数据管理模块体系结构应包含以下四层:
元数据获取层:元数据获取层抽象概括元数据获取的各种途径。
元数据存储层:元数据存储层与数据存储层共同对元数据存储所遵循的元模型进行定义,并规范从获取层得到的各类元数据的属性、存储格式要求。
元数据功能层:元数据功能层为前端元数据应用提供基本的功能支撑,应包括分析功能、质量管理、服务接口和权限管理等内容。
元数据应用层:元数据应用层通过调用元数据功能层的功能,对元数据管理的实际问题提供应用解决方案,包括指标库管理、业务术语自助学习、维表库管理、接口管理、数据分析系统元数据互通、辅助应用优化、辅助安全管理、基于元数据的开发管理和数据质量管理等内容。
围绕数据仓库开展存量数据模型的元数据盘点工作,并构建目标元模块111,将目标元数据抽象存储到目标元模块111中,目标元模块111设计开发后,将围绕数据仓库的数据模型为中心,开展元数据信息盘点工作,并将盘点信息存储到元模型中,作为元数据生命周期管理、元数据服务的基础信息,主要盘点内容包括:
业务元数据盘点、技术元数据盘点、管理元数据盘点以及元数据关系盘点,元数据关系盘点包括:整理各类元数据之间的关系,确定目标关联关系。
元数据盘点步骤如图2所示,主要包括梳理准备、系统级梳理、实体表梳理、字段级梳理及梳理总结,其中,梳理准备阶段包括:确定梳理范围和系统列表、制定梳理计划及确定梳理工作模块。系统级梳理包括:系统基本状态-系统管理员、业务和功能-开发商或业务、数据流和接口-开发商、系统备份策略及系统未来规划-开发商或业务。实体表梳理包括:获取实体表结构、核对和数据字典的差异、明确实体表关系和含义及实体表评审。字段级梳理包括:明确字段的业务含义、明确代码表信息、样本数据质量初步检查及字段级评审。梳理总结包括:按主题域归类数据、编写各系统资产清单、系统功能和数据映射及评审梳理成果。
目标元数据获取模块110,通过系统自动和线下两种方式,实现元数据的高质量接入,实现多源元数据的接入,适配数据库、文件等多种类性元数据采集接口的接入实施。对于手工元数据,需要建立线下元数据信息的采集机制,实现线下元数据规范化接入。并通过元数据稽核模块113实施元数据接入过程中的稽核服务,确保元数据的完整性、规范性和准确性,及时发现元数据管理过程中存在的问题并跟踪修正,支持元数据考核管理。
其中元数据接入流程如图3所示,包括,元数据获取数据源,从ETL过程、数据源接口、数据库对象、OLAP对象、指标库、数据质量规则库等获取元数据,可以采用元数据自动获取、XML/EXCEL批量导入文件或元数据手工获取的方式获取元数据,并经过元数据变更管理流程(审核)后,存储到元数据存储库。
元数据维护模块112,与目标元模块111连接,用于维护目标元数据元数据,并联合元数据下线模块113,确定目标元数据中的无效元数据,并下线无效元数据、元数据下线影响分析、元数据下线通知、元数据删除等工作。
此外,知识图谱引擎单元11还提供有元数据服务功能,具体如下:
基于元数据管理工具提供元数据应用服务,包括基于知识图谱的元数据智能检索、元数据血缘分析、元数据发布及推广、元数据应用支撑服务等。具体内容包含:
基于知识图谱的元数据智能检索:能根据数据检索需要,基于知识图谱的理念进行不同类型的图检索,同时将自然语言分析能力、意图识别能力与行业知识图谱深度结合,不仅能快速分析用户输入内容准确判断用户意图,而且能快速检索用户所需大量内容,满足定制化检索,实现善解人意的复杂检索。
元数据血缘分析:提供血缘分析服务,针对数据问题依据血缘关系快速定位问题所在,支持数据仓库智能运维工作开展。
元数据变更影响分析:支持数据模型管理开展模型变更影响分析。
元数据发布及推广:成立专门的运营团队,定期线上线下发布元数据,推广元数据及元数据应用工具,对业务部门的元数据问题提供实时答疑服务,普及数据理解,加速数据应用。
元数据应用支撑服务:配合元数据相关应用开发工作,为元数据应用比如数据地图、数据超市等,提供元数据方面的支撑。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,制定规范化的元数据全生命周期运营体系,主要开展元数据接入、元数据维护、元数据稽核、元数据下线等运营工作,实现对元数据的集中、有效的统一管理。
进一步地,在一个实施例中,元数据维护模块112,具体包括:
元数据资源目录维护子模块,与目标元模块111连接,用于根据目标元数据资源目录,对技术元数据资源目录、业务元数据资源目录和管理元数据资源目录进行维护;
元数据变更管理子模块,与目标元模块111连接,用于根据目标元数据变更流程,对目标元数据的变更进行维护;
元数据血缘关系维护子模块,与目标元模块111连接,用于根据目标关联关系对目标元数据之间的血缘关系进行维护;
其中,目标元数据资源目录是根据目标关联关系确定的。
可选地,元数据资源目录维护子模块:对元数据资源目录(技术元数据资源目录、业务元数据资源目录和管理元数据资源目录)进行管理维护。
其中,元数据资源目录维护子模块提供了元模型功能,可以根据查看元模型目录关系树,是对技术元数据、业务术语、业务标签等所有元数据提供系统的管理,如技术元数据可以逐级撰取查阅相关信息,可以自动创建维护术语和标签,并可以实现元数据相互关联的功能。
元数据资源目录一般来源于技术元数据、业务元数据和管理元数据三类元数据的目标关联关系,如技术元数据和业务元数据,业务元数据和业务元数据,技术元数据和管理元数据等多维元数据的关联。
元数据变更管理子模块,用于根据目标元数据变更流程,对目标元数据的变更进行维护。元数据血缘关系维护子模块,用于根据目标关联关系对目标元数据之间的血缘关系进行维护。
其中,目标元数据变更流程示意图如图4所示,主要包括:变更申请、变更审核、元数据维护及元数据发布;
具体流程如下:首先,根据元数据变更申请单发起元数据变更申请,并对变更必要性审核,若确定变更必要,继续对元数据质量审核,判断是否重填,若需要重填,则重新发起元数据变更申请;
若无需重填,则继续对变更影响审核,对元数据关系维护,同时编制变更说明文档,并将元数据入库并发布上线;然后发布元数据变更通知和变更说明文档;最后接收元数据变更通知,结束元数据变更流程。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够对轨道交通业务分类体系进行管理维护,实现快捷,全面地完成统一元数据的相应调整。
进一步地,在一个实施例中,数据治理知识图谱单元12,还用于:
对目标关联关系进行解耦,以获取目标元数据的目标数据层次、目标业务层次和目标影响层次;
根据数据资产知识图谱120和目标数据层次,构建不同的目标模型实例和目标主题域,并基于目标模型实例对目标数据中的目标数据类型元数据进行存储,以及基于目标主题域对目标数据中的目标主题元数据进行存储;
根据业务知识图谱121和目标业务层次,对目标数据中的目标业务元数据进行存储;
根据管理知识图谱122和目标影响层次,对目标数据中的目标流程节点元数据及目标节点关系元数据进行存储;
其中,目标业务元数据包括业务场景元数据、业务关系元数据、业务内容元数据和业务规则元数据。
可选地,依托元数据实体信息和元数据关系服务,对技术元数据、业务元数据、管理元数据之间复杂关系进行分层解耦,形成三层的知识图谱,利用数据来反馈业务能力,明晰两者如何协助来达到最终业务管理的目标,提升轨道交通精力的数字化的整体能力。
数据治理知识图谱12大体分为数据资产知识图谱120、业务知识图谱121、管理知识图谱122三类。
数据资产知识图谱120基于不同的目标数据层次,构成不同的目标模型实例和目标主题域。
目标数据层次:按照数据融合的层次结构,需要实现数据仓库各层次的各种对象以及数据治理过程,如数据库、表、字段、存储、关联、映射关系、数据模型、数据字典、治理脚本等信息的管理。清晰的表示各层次结构之间的数据流程、各对象之间的关系。
目标模型实例:元模型功能可以根据查看元模型关系树,用户根据对应的数据源建立元数据,创建采集任务。不同父元模型拥有不同子元模型,运行完采集任务后可以查看子元模型的不同元数据模型实例信息。不同的模型实例符合公共仓库元模型规范,符合企业数据仓库环境的各类元数据管理模型。
目标主题域包括事件主题域、票务主题域、能耗数据主题域、安全生产域、内部管理域和对外服务域等。
业务知识图谱121中将业务场景、业务关系、业务内容和业务规则的目标业务元数据组织进知识图谱中。
业务场景,如运营调度或设备监控等场景。
业务关系,业务之间必然存在某些关联,一般会以1个或多个业务为核心业务,利用剩余的企业资源来做其他业务,通常其他业务是由核心业务衍生出的上下游业务。这样企业可以实现基本运作,也可以实现资源的利用。
业务内容,业务人员更多关注的是与场景、操作指导等相关的内容,这些内容很难从技术元数据中体现出来。业务元数据使用业务名称、定义、描述等信息表示企业环境中的各种属性和概念。
业务规则:数据业务规则包含各数据项的编码规范、分类规则、描述规则等。编码规则:主数据代码的编码规则。例如:物料代码采取采用“1”开头的8位无含义数字流水码。分类规则:依据相关业务环境和管理需求形成分类规则。例如:物料分类根据物料的自然属性及所包括范围的大小,将物料分为大、中、小三类。描述规则:又称命名规范。例如:物料描述规则具体物料描述规则的定义,主要解决物料描述的规范化问题。
管理知识图谱122中则将流程环节、节点关系和影响因素等目标流程节点元数据组织进知识图谱中。
流程环节:业务流程环节,是为达到特定的价值目标而由不同的人分别共同完成的一系列活动。如业务定义、操作指导等。
节点关系:基于元数据中对各类数据资源的业务、技术、管理属性描述,可以动态生成多种管理服务资源,比如文件节点关系、库表节点关系、接口服务节点关系以及用户自定义、个性化节点关系等。
影响因素:影响性分析及相关性分析功能,根据差异分析结果,从业务及流程、系统及周边系统等多个方面分析数据标准落地后的影响;包括如空调通风能耗的影响因素分析,制冷系统能耗的影响因素分析,及照明系统,给排水系统,电扶梯系统,站台门系统,自动售票检票AFC系统,列车等其他系统能耗影响因素分析等。
三层知识图谱之间存在的映射关系为数据资产图谱与业务图谱是物理实体/业务逻辑映射,业务图谱与管理图谱对应的为业务对象/流程环节关系映射。
物理实体/业务逻辑映射关系:数据物理实体模型又称数据的存储结构表。与业务逻辑的映射关系体现在应用环境中业务逻辑对数据的统一技术要求,包括对数据长度、数据类型、数据格式、数据的缺省值、可否为空的定义、索引、约束关系等设计要素,保证数据模型中设计的结果能够真正落地到某个具体的数据库当中,并提供了系统初始设计所需要的基础元素,以及相关元素之间的关系。
业务对象/流程环节关系映射,将高级的业务概念以业务对象实体/属性及其关系的形态在逻辑层面上更详细的表达出来,与管理流程环节映射,将业务概念层面映射到管理概念层面。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,建立元数据知识图谱模型,贯通轨道交通业务与数据资产,可实现在业务与业务之间,以轨道交通业务体系为总纲,建立各类元数据的层级关系。
进一步地,在一个实施例中,目标元模块111,可以具体包括:
核心子模块,与目标元数据获取模块110连接,用于存储如下至少所述业务元数据中的一种:
信息分类元数据、业务术语元数据和业务描述元数据;
企业支撑子模块,与目标元数据获取模块110连接,用于存储管理元数据;
数据库对象子模块,与目标元数据获取模块连接,用于存储技术元数据中的数据库技术元数据;
应用系统子模块,与目标元数据获取模块连接,用于存储技术元数据中的应用系统技术元数据;
数据转移子模块,与目标元数据获取模块连接,用于存储技术元数据中的ETL技术元数据。
可选地,目标元模块111是元数据需求、元数据数据源、元数据应用的结合点,是实施元数据管理的数据基础。目标元模块111主要包括五类,这里将数据库对象元模型、核心元模型、数据转移元模型为主要实施对象:
企业支撑子模块—存储企业级架构及定义元数据等管理元数据;
核心子模块—存储信息分类、业务术语、业务规则等业务元数据以及多维数据模型;
数据库对象子模块—存储数据库平台的技术元数据;
应用系统子模块—存储应用系统的技术元数据;
数据转移元模型—存储数据映射、转移规则等ETL技术元数据。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够支撑元数据对外应用,便于后续元数据属性扩展,形成企业级统一的元模块标准规范。进一步地,在一个实施例中,目标主题元数据包括如下元数据中的至少一种:
事件主题元数据、票务主题元数据、能耗主题元数据、安全生产主题元数据、内部管理主题元数据和对外服务主题元数据。
可选地,目标主题域存储包括事件主题、票务主题、能耗数据主题、安全生产、内部管理和对外服务主体的元数据等。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,利用不同主题数据来反馈业务能力,最终实现对不同主题业务管理的目标,提升轨道交通精力的数字化的整体能力。
进一步地,在一个实施例中,对目标元数据稽核,包括:
对目标元数据的如下方面至少一个进行稽核:
完整性、及时性、规范性、准确性和一致性。
可选地,通过开展元数据质量稽核,定期对元数据填写的完整性、及时性、规范性及一致性进行全面稽核。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够及时发现元数据管理过程中存在的问题并跟踪修正。进一步地,在一个实施例中,还包括:
可视化应用单元13,与数据治理知识图谱单元12连接,用于根据目标检索条件对所述目标数据进行检索,以及对目标关联关系进行分析及模型构建。
可选地,可视化应用单元13提供场景化的应用能力:大体包括以下三方面:
(1)智能分析应用,主要包括智能分析、导航分析、图谱分析、时空分析等应用场景;
(2)高效开发应用,主要包括辅助建模、需求分析、自适应质量监控和智能梳理等功能;
(3)资产运营应用,主要包括运营监控、模型共享、数据体验和资产价值评估等功能。
具体地:基于知识图谱理念,提供强大的搜索引擎和语义分析能力,能充分理解人类的语言及意图,出色完成各类型的检索任务,并且可按照业务场景进行定制。
能根据所需的应用场景基于知识图谱的理念进行不同类型的图检索,同时将自然语言分析能力、意图识别能力与行业知识图谱深度结合,不仅能快速分析用户输入的目标检索条件准确判断用户意图,而且能快速检索用户所需大量内容,满足定制化检索,实现善解人意的复杂检索。
检索功能将根据用户输入的内容判断搜索意图,根据用户实体使用习惯进行特定训练,使检索功能能够准确理解用户意图并提供符合用户期望的搜索结果,帮助用户智能化处理简单的分析工作。
基于检索引擎和自然语言处理技术,系统拥有强大的文本处理和分析探查能力,底层依赖于自然语言处理能力,自动化构建关键字段的多表关联,实现跨表多维检索、全息档案等能力。通过对数据构建知识结构的索引,实现快速获取信息与知识的智能检索。
系统提供范围检索功能,可根据目标检索条件对目标数据进行检索,智能匹配检索范围和检索字段。大幅度提升检索效率,并且对检索结果的范围筛选提供了很大的灵活性。
通过对目标关联关系进行分析将实体和关系抽象成便于理解的点和线,协助用户在复杂环境中捕捉到蛛丝马迹,支持用户在数据分析的过程中从海量实体关系中通过搜索功能快速查找,追踪线索,并自由添加便签,帮助用户理清思路,找到数据背后的逻辑关系。
通过图形化组合方式搭建各种业务模型,实现多源数据的过滤查询、条件碰撞、交集比对、时空分析、数据合并、特征检索等碰撞处理,为开展深层次、精细化的专业分析应用和最终决策行动提供支持。
也可接入各方数据等通过可视化模型构建,在数据间按照用户设置的碰撞条件,通过后台业务库、专题库、基础信息库、知识图谱库进行比对,快速核查数据的有效性、真实性与关联性,锁定目标身份,在数据计算和过滤的同时,完成高效检索和比对碰撞。
在实际场景中,可视化应用单元13还可以用于:以知识图谱为依托,紧密结合业务需求,对知识进行深度、专业的呈现,做到关注信息一目了然;行业信息自动挖掘;相关信息自动推荐;这是什么,有什么特点,在什么地方,跟什么相关,都发生了什么,一站式获取,全面展现。
实现身份ID,手机MAC,手机号,等多类实体和虚拟身份ID的关联融合,将多个不同的ID关联到同一个人,从而实现对相关人员的多维发现和查询。
轨迹比对技术以数据库中人员身份证信息作为比对对象,实现多重点人员间的快速轨迹比对;通过前端可视化技术,可以基于时间轴对对比结果进行可视化展示,提供同行同住同上网等隐性关系分析展示,并结合高精度地图数据展示轨迹路径。
根据用户输入的地址进行地址数据的标准化;根据用户输入的地址进行地址的相似性判断以及根据用户输入的地址从数据库中筛选出相似度较高/最高的地址;根据用户输入的地址进行解析,返回该地址对应的经纬度数据;根据用户输入的查询条件返回符合要求的地址数据。
在自建图库中找到与检索图片语义相似的图片集,并给出相似度打分(综合图片类型、颜色、内容、布局等特征);适用于各种相似图片查找、相关内容推荐场景。
将业务关系的各种实体和复杂关系全面形式化,将形式化的模型中的模型元素与可视的人机交互界面元素关联起来,给用户以可视化的呈现。
需要说明的是,本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,还包括有非结构化治理单元,主要包括项目管理、数据管理、任务管理、规则管理和模型管理等平台基础管理能力,为上层服务和应用提供全面支撑。
其中项目管理主要包括用户管理、群组管理和权限管理。
数据管理主要包括数据集上下传、知识数据导入、数据统计处理和数据缓存处理。
任务管理主要包括数据标注任务管理和数据抽取任务管理。
规则管理包括文本抽取内容规则和规则统一管理。
模型管理包括模型训练和模型服务。
本发明提供的面向轨道交通领域的元数据知识图谱引擎系统,能够为轨道交通领域的各类用户,如信息浏览用户,知识管理用户,数据分析用户等提供诸如全息档案,超级检索,轨道交通业务关系可视化建模提供服务。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,包括:
数据接入单元,用于对轨道交通领域中原始数据进行预处理,并对预处理后的原始数据进行存储;
知识图谱引擎单元,与所述数据接入单元连接,用于接入所述原始数据对应的目标元数据,并对所述目标元数据维护、稽核以及下线;
数据治理知识图谱单元,与所述知识图谱引擎单元连接,用于对所述目标元数据中的技术元数据、业务元数据和管理元数据之间的目标关联关系进行解耦,构建目标知识图谱,并基于所述目标知识图谱对解耦后的目标数据进行存储;
其中,目标知识图谱包括数据资产知识图谱、业务知识图谱和管理知识图谱;
所述数据治理知识图谱单元,还用于:
对所述目标关联关系进行解耦,以获取所述目标元数据的目标数据层次、目标业务层次和目标影响层次;
根据所述数据资产知识图谱和所述目标数据层次,构建不同的目标模型实例和目标主题域,并基于所述目标模型实例对所述目标数据中的目标数据类型元数据进行存储,以及基于所述目标主题域对所述目标数据中的目标主题元数据进行存储;
根据所述业务知识图谱和所述目标业务层次,对所述目标数据中的目标业务元数据进行存储;
根据所述管理知识图谱和所述目标影响层次,对所述目标数据中的目标流程节点元数据及目标节点关系元数据进行存储;
其中,所述目标业务元数据包括业务场景元数据、业务关系元数据、业务内容元数据和业务规则元数据;
所述目标主题元数据包括如下元数据中的至少一种:
事件主题元数据、票务主题元数据、能耗主题元数据、安全生产主题元数据、内部管理主题元数据和对外服务主题元数据。
2.根据权利要求1所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述数据接入单元,包括:
预处理模块,用于对所述原始数据进行预处理;
数据存储模块,与所述预处理模块连接,用于对所述预处理后的原始数据进行分类,以获取目标类型数据,并基于目标数据库对所述目标类型数据进行存储;
其中,所述预处理包括过滤或修正所述原始数据中的脏数据和不合法字段。
3.根据权利要求2所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述数据存储模块,还用于:
基于所述目标数据库中的图数据库,对所述目标类型数据中的知识数据进行存储;
基于所述目标数据库中的结构化数据库,对所述目标类型数据中的非关系型数据进行存储;以及
基于所述目标数据库中的缓存数据库,对所述目标类型数据中的缓存数据进行存储。
4.根据权利要求1所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述知识图谱引擎单元,包括:
目标元数据获取模块,与所述数据接入单元连接,用于根据目标元数据划分标准,接入所述目标元数据;
目标元模块,与所述目标元数据获取模块连接,用于存储所述目标元数据,并通过对所述目标元数据盘点,确定所述目标关联关系;
元数据维护模块,与所述目标元模块连接,用于维护所述目标元数据;
元数据稽核模块,与所述目标元数据获取模块连接,用于对所述目标元数据进行稽核;
元数据下线模块,与所述目标元数据获取模块连接,用于确定所述目标元数据中的无效元数据,并下线所述无效元数据;
其中,所述目标元数据划分标准包括技术元数据划分标准、业务元数据划分标准和管理元数据划分标准。
5.根据权利要求4所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述元数据维护模块,包括:
元数据资源目录维护子模块,与所述目标元模块连接,用于根据目标元数据资源目录,对技术元数据资源目录、业务元数据资源目录和管理元数据资源目录进行维护;
元数据变更管理子模块,与所述目标元模块连接,用于根据目标元数据变更流程,对所述目标元数据的变更进行维护;
元数据血缘关系维护子模块,与所述目标元模块连接,用于根据所述目标关联关系对所述目标元数据之间的血缘关系进行维护;
其中,所述目标元数据资源目录是根据所述目标关联关系确定的。
6.根据权利要求4所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述目标元模块,包括:
核心子模块,与所述目标元数据获取模块连接,用于存储如下至少所述业务元数据中的一种:
信息分类元数据、业务术语元数据和业务描述元数据;
企业支撑子模块,与所述目标元数据获取模块连接,用于存储所述管理元数据;
数据库对象子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的数据库技术元数据;
应用系统子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的应用系统技术元数据;
数据转移子模块,与所述目标元数据获取模块连接,用于存储所述技术元数据中的ETL技术元数据。
7.根据权利要求1所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,所述对所述目标元数据稽核,包括:
对所述目标元数据的如下方面至少一个进行稽核:
完整性、及时性、规范性、准确性和一致性。
8.根据权利要求1-7任一项所述的面向轨道交通领域的元数据知识图谱引擎系统,其特征在于,还包括:
可视化应用单元,与所述数据治理知识图谱单元连接,用于根据目标检索条件对所述目标数据进行检索,以及对所述目标关联关系进行分析及模型构建。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600275 | 2021-05-31 | ||
CN2021106002759 | 2021-05-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392227A CN113392227A (zh) | 2021-09-14 |
CN113392227B true CN113392227B (zh) | 2024-04-19 |
Family
ID=77623794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110703959.1A Active CN113392227B (zh) | 2021-05-31 | 2021-06-24 | 面向轨道交通领域的元数据知识图谱引擎系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392227B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114221978A (zh) * | 2021-11-02 | 2022-03-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 城市轨道交通云平台系统 |
CN114021191B (zh) * | 2021-11-05 | 2022-07-01 | 江苏安泰信息科技发展有限公司 | 一种安全生产信息化敏感数据管理方法及系统 |
CN114792145B (zh) * | 2022-05-27 | 2023-04-18 | 中国标准化研究院 | 一种基于知识图谱的标准数字化管理维护系统及方法 |
CN115374108B (zh) * | 2022-07-22 | 2023-06-20 | 北京三维天地科技股份有限公司 | 一种基于知识图谱技术的数据标准生成与自动映射方法 |
CN115952160B (zh) * | 2023-01-10 | 2024-04-26 | 数据易(北京)信息技术有限公司 | 一种数据盘点方法 |
CN116069981A (zh) * | 2023-01-17 | 2023-05-05 | 深圳银兴智能数据有限公司 | 一种企业数据存储方法、调用方法及系统 |
CN116383669B (zh) * | 2023-03-18 | 2024-04-16 | 宝钢工程技术集团有限公司 | 一种数据贯通的工厂对象位号标识生成方法及系统 |
CN117114092B (zh) * | 2023-08-09 | 2024-04-30 | 昆仑数智科技有限责任公司 | 一种油气储量计算数据传导更新方法、系统、设备及介质 |
CN117435558B (zh) * | 2023-12-20 | 2024-03-29 | 杭州硕磐智能科技有限公司 | 一种元数据管理方法、计算设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN111680153A (zh) * | 2019-12-17 | 2020-09-18 | 北京嘉遁数据科技有限公司 | 一种基于知识图谱的大数据鉴真方法与系统 |
CN111949779A (zh) * | 2020-07-29 | 2020-11-17 | 交控科技股份有限公司 | 基于知识图谱的轨道交通智能应答方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2545232A1 (en) * | 2005-07-29 | 2007-01-29 | Cognos Incorporated | Method and system for creating a taxonomy from business-oriented metadata content |
JP2020140467A (ja) * | 2019-02-28 | 2020-09-03 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
2021
- 2021-06-24 CN CN202110703959.1A patent/CN113392227B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN111680153A (zh) * | 2019-12-17 | 2020-09-18 | 北京嘉遁数据科技有限公司 | 一种基于知识图谱的大数据鉴真方法与系统 |
CN111949779A (zh) * | 2020-07-29 | 2020-11-17 | 交控科技股份有限公司 | 基于知识图谱的轨道交通智能应答方法及系统 |
Non-Patent Citations (1)
Title |
---|
面向软件工程的知识图谱构建技术研究;张彦;孟令军;王瑞辰;;航空电子技术;20200915(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113392227A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113392227B (zh) | 面向轨道交通领域的元数据知识图谱引擎系统 | |
Golfarelli et al. | Designing the data warehouse: Key steps and crucial issues | |
CN107819824B (zh) | 一种城市数据开放与信息服务系统及服务方法 | |
Zhang et al. | Multi-database mining | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
Bergamaschi et al. | A semantic approach to ETL technologies | |
Cui et al. | Benefits of ontologies in real time data access | |
CN112199433A (zh) | 一种用于城市级数据中台的数据治理系统 | |
Park et al. | Toward total business intelligence incorporating structured and unstructured data | |
Eckert | Complex event processing with XchangeEQ: language design, formal semantics, and incremental evaluation for querying events. | |
CN100485612C (zh) | 软件需求获取系统 | |
Zhang et al. | Research on the integration of heterogeneous information resources in university management informatization based on data mining algorithms | |
Matei et al. | OLAP for multidimensional semantic web databases | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
CN112699100A (zh) | 一种基于元数据管理分析系统 | |
CN115617776A (zh) | 一种数据管理系统及方法 | |
CN113723822A (zh) | 供电服务数据管理系统 | |
Calvanese et al. | A ‘historical case’of ontology-based data access | |
CN110598074A (zh) | 关于科技咨询大数据的统一资源组织管理的方法与系统 | |
Staudt et al. | The role of metadata for data warehousing | |
CN116578614A (zh) | 一种管道设备的数据管理方法、系统、介质及设备 | |
Kremenjaš et al. | Adapting CERIF for a national CRIS: A case study | |
Salas et al. | Stdtrip: Promoting the reuse of standard vocabularies in open government data | |
Min et al. | Data mining and economic forecasting in DW-based economical decision support system | |
Ren et al. | Rules and implementation for generating Ontology from relational database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |