CN116561114A - 一种基于元数据的管理方法 - Google Patents
一种基于元数据的管理方法 Download PDFInfo
- Publication number
- CN116561114A CN116561114A CN202211583627.5A CN202211583627A CN116561114A CN 116561114 A CN116561114 A CN 116561114A CN 202211583627 A CN202211583627 A CN 202211583627A CN 116561114 A CN116561114 A CN 116561114A
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- management method
- architecture
- based management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 239000008280 blood Substances 0.000 claims description 7
- 210000004369 blood Anatomy 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000002688 persistence Effects 0.000 claims description 3
- 238000002759 z-score normalization Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 4
- 230000017531 blood circulation Effects 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 6
- 238000013523 data management Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000010076 replication Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于元数据的管理方法,包括获取元数据;对获取的元数据进行规则分类;开发并维护元数据标准;建立元数据架构;元数据报告分析;还公开了一种元数据管理系统,包括数据源管理模块;元数据信息管理模块;血源流向模块以及SQL工作台;本发明借鉴国内外元数据研究基础和成果,以现代企业管理现状为出发点,针对企业痛点,对元数据的定义、分类、元数据管理的流程、制度、策略、标准及过程等进行深度研究,统一了元数据管理标准和数据源;解决了企业各级部门数据一致性和有效性的问题;建立企业数据资产体系,提升各业务系统数据质量。
Description
技术领域
本发明涉及数据管理的技术领域,尤其涉及一种基于元数据的管理方法及系统。
背景技术
元数据为描述数据的数据,元数据可以为数据描述其元素或属性(名称、大小、数据类型等),或结构(长度、字段、数据列),或其相关数据(存在何处、拥有者),它是一种描述性标签,描述了数据、概念以及之间联系。
有效的元数据管理依赖于数据治理框架体系,主要包括理解元数据需求、定义元数据架构、开发和维护元数据标准、标准化元数据的评估指标、实现受控的元数据环境、创建和维护元数据、整合元数据、管理元数据存储库、分发和交付元数据、查询、报告和分析元数据十项管理活动。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于元数据的管理方法存在的问题,提出了本发明。
因此,本发明目的是提供一种基于元数据的管理方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于元数据的管理方法,包括,
获取元数据;
对获取的元数据进行规则分类;
开发并维护元数据标准;
建立元数据架构;
元数据报告分析。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述获取元数据中元数据的来源包括,
可以通过用户交互、定义和数据分析定义业务元数据;
通过某些维护支持活动可以将有关数据的质量描述和其他发现添加到元数据存储库中,或者从IT系统中获取元数据;
可以在汇总层面或者细节层面识别元数据。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述多获取的元数据进行规则分类包括,
业务元数据用于描述数据系统中业务领优相关概念、关系和规则的数据;
技术元数据用于描述数据系统中技术领域相关概念、关系和规则的数据;
操作元数据用于描述处理和访问数据的详细信息。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述开发并维护元数据标准是通过对元数据进行标准化管理,能够消除不同属性元数据之间的不齐性,也能减小相同属性元数据之间方差,包括,
数据中心化用于消除特征之间的差异性,让不同的特征具有相同的尺度;
Z-Score标准化用于将不同量级的元数据转化为同一个量级,统一用计算出来的Z-Score值衡量,来保证元数据之间的可比性。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述数据中心化的具体公式如下:
数据种类的标准化公式:
其中,Xij为原始元数据,i,j分别代表元数据数列的某一项,Xi表示样方元数据中的平均值。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述Z-Score标准化的具体公式如下:
其中,x1,x2,x3.......xn为原元数据序列,y1,y2........yn为新元数据序列,且方差为1。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述建立元数据架构包括,
集中式元数据架构;
分布式元数据架构;
混合式元数据架构。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述集中式元数据架构是由单一的元数据存储库组成,包含来自不同源的元数据副本,在公共元数据存储库中寻求高度一致性的组织,可以通过集中式元数据架构来实现;所述分布式元数据架构是一种没有持久化的存储库,元数据检索引擎通过实时从源系统检索数据来响应用户的数据请求;所述混合式元数据架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:所述元数据报告分析包括,
血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口;
指标一致性分析是指用视图化的方式来分析比较两个指标的数据流图是否一致,进而了解计算过程是否一致。
作为本发明所述基于元数据的管理方法的一种优选方案,其中:一种元数据管理系统,包括,
数据源管理系统用于数据源连接信息管理,可生成数据库文档;
元数据信息管理模块用于数据库表的元数据信息管理;
血缘流向模块用于元数据的来源与去向记录;
SQL工作台用于在线执行查询SQL语句。
本发明的有益效果:本发明借鉴国内外元数据研究基础和成果,以现代企业管理现状为出发点,针对企业痛点,对元数据的定义、分类、元数据管理的流程、制度、策略、标准及过程等进行深度研究,统一了元数据管理标准和数据源;解决了企业各级部门数据一致性和有效性的问题;建立企业数据资产体系,提升各业务系统数据质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于元数据的管理方法的详细步骤示意图。
图2为本发明基于元数据的管理方法所述集中式元数据架构示意图。
图3为本发明基于元数据的管理方法所述分布式元数据架构示意图。
图4为本发明基于元数据的管理方法所述混合元数据架构示意图。
图5为本发明基于元数据的管理方法所述数据血缘分析功能界面示意图。
图6为本发明基于元数据的管理方法所述元数据查询功能界面示意图。
图7为本发明基于元数据的管理方法所述数据库管理功能界面示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
实施例1
参照图1~3,为本发明的第一个实施例,该实施例提供了一种基于元数据的管理方法,包括:
S1:获取元数据;
具体的,在数据管理的每一项活动中都涉及元数据,任何数据的标识信息都是元数据,元数据是所有信息系统和应用必须的组成部分,使用这些元数据来源用于满足技术元数据需求。
进一步的,元数据获取的主要来源包括:
通过用户交互、定义和数据分析定义业务元数据;
通过某些维护支持活动可以将有关数据的质量描述和其他发现添加到元数据存储库中,或者从IT系统中获取元数据;
在汇总层面(主题领域、系统特征)或细节层面(数据库列的特征和编码值)识别元数据;
一个组织内部的任何可命名的事物都是一个元数据的主要来源。
进一步的,元数据获取的次要来源是通过桥接软件来访问其他元数据存储库;
许多数据管理工具创建并使用其自有的存储库,可通过桥接应用将其他工具和存储库连接起来,主要是实现存储库之间的元数据复制。
S2:对获取的元数据进行规则分类;
进一步的,元数据按其类型通常分为业务元数据、技术元数据和操作元数据,每类元数据因其内容和属性的相同,发挥的作用和功能也相差较大。
具体的,业务元数据主要关注数据的内容和状态,以及与数据治理相关的细节;业务元数据包括概念、主题域、实体和属性等非技术性的名称和定义;属性类型和其他属性特征;范围的描述;计算规则;算法和业务规则;有效的域值及其定义。
具体的,业务元数据涉及以下几个方面:
数据模型、数据集的定义和描述、表和列;业务规则、数据质量规则、转换规则、计算和派生数据;数据来源和数据继承;数据标准和约束;安全/隐私级别的数据;数据中存在的已知问题以及数据的备注或说明。
进一步的,技术元数据提供关于数据的技术细节、存储数据的系统,以及在系统内部和系统之间迁移数据的过程信息。
具体的,技术元数据涉及以下几个方面:
物理数据库表、列名和属性;数据访问权限、组、角色;数据CRUD(创建、替换、更新和删除)的规则;数据ETL(抽取、转换和加载)任务细节;数据继承文档,包括在上游和下游更改影响信息以及内容更新周期、作业进度和依赖项。
进一步的,操作元数据描述处理和访问数据的详细信息;
具体的,操作元数据涉及以下几个方面:
批处理程序的作业执行日志;审计结果、平衡、控制测量和错误日志;报告和查询访问模式、频率和执行时间;补丁和版本维护计划及执行,当前补丁级别以及备份、保留、创建日期、灾难恢复的相关规定。
S3:开发并维护元数据标准;
进一步的,所述开发并维护元数据标准是通过对元数据进行标准化管理,能够消除不同属性元数据之间的不齐性,也能减小相同属性元数据之间方差,包括数据中心化以及Z-Score标准化;
具体的,数据中心化用于消除特征之间的差异性,让不同的特征具有相同的尺度;所述数据中心化的具体公式如下:
数据种类的标准化公式:
其中,Xij为原始元数据,i,j分别代表元数据数列的某一项,Xi表示样方元数据中的平均值;
进一步的,Z-Score标准化用于将不同量级的元数据转化为同一个量级,统一用计算出来的Z-Score值衡量,来保证元数据之间的可比性;所述Z-Score标准化的具体公式如下:
其中,x1,x2,x3.......xn为原元数据序列,y1,y2........yn为新元数据序列,且方差为1。
S4:建立元数据架构;
进一步的,元数据和其他的数据一样,也是具有生命周期的,虽然构建元数据的解决方案不同,但所有的元数据管理解决方案都包括与元数据生命周期中对应的元数据架构,所述元数据架构包括,集中式元数据架构;分布式元数据架构以及混合式元数据架构。
具体的,所述集中式元数据架构是由单一的元数据存储库组成,包含来自不同源的元数据副本,在公共元数据存储库中寻求高度一致性的组织,可以通过集中式元数据架构来实现。
集中式元数据架构优点如下:
高可用性,独立于源系统;快速的元数据检索,因为存储和查询功能在一起;解决数据库结构问题,使其不受第三方或商业系统特有属性的影响;抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
集中式元数据架构缺点如下:
必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中;维护集中式存储库的成本可能很高;元数据的抽取可能需要自定义模块或中间件;验证和维护自定义代码会增加内部IT人员和软件供应商的要求。
进一步的,分布式元数据架构是一种没有持久化的存储库,元数据检索引擎通过实时从源系统检索数据来响应用户的数据请求。
分布式元数据架构的优点如下:
元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的;查询是分布式的,可能会提高响应和处理的效率;来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量;自动化元数据查询处理的开发可能更简单,只需要很少的人工干预;减少了批处理,没有元数据复制或同步过程。
分布式元数据架构的缺点如下:
无法支持用户定义或手动插人的元数据项,因为没有存储库可以放置这些添加项;需要通过统一的、标准化的展示方式呈现来自不同系统的元数据;查询功能受源系统可用性的影响;元数据的质量完全取决于源系统。
进一步的,混合式元数据架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化元数据以及来通过自手工来源添加的元数据;
具体的,该架构得益于从源头近乎实时地检索元数据和扩充元数据,可在需要时最有效地满足用户需求,混合方法降低了对专有系统进行手动干预和自定义编码访问功能的工作量,基于用户的优先级和要求,元数据在使用时尽可能是最新且有效的。混合架构不会提高系统可用性。
但是,源系统的可用性是一个限制,因为后端系统的分布式特性处理查询。在将结果集呈现给最终用户之前,需要用额外的系统开销将这些初始结果与中央存储库中的元数据扩展连接起来,许多组织都可以从混合架构中受益,包括那些具有快速变化的操作元数据的组织,需要一致、统一的元数据组织,以及在元数据和元数据源正在大幅增长的组织,对于大多静态元数据或元数据量较小元数据增量的组织来说,可能无法发挥这种架构替代方案的最大潜力。
S5:元数据报告分析;
具体的,元数据报告分析报告血缘分析和指标一致性分析;
进一步的,数据血缘分析是通过多项自动化、智能化技术手段对数据处理过程的全面追踪,针对平台接入和维护的元数据对象,找到以某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系,元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系;在血缘管理和分析中,包括通过SQL自动解析并展现关系图、通过算法自动发现数据关系且展示、手动维护和修正元数据血缘关系,以及在血缘可视化中可对表级、字段级血缘进行血缘、影响及全链路的筛选展示,支持用户对管理情况的跟踪,对血缘分析进展做统计展示。
实施例2
参照图4~7,为本发明的第二个实施例,该实施例提供了一种元数据管理系统。
具体的,该系统主要包括数据源管理模块,用于数据源连接信息管理,可生成数据库文档;元数据信息管理模块用于数据库表的元数据信息管理;血缘流向模块用于元数据的来源与去向记录以及SQL工作台用于执行查询SQL语句;
进一步的,通过使用dbcp2数据库连接池配置数据源,具体如下:
进一步的,元数据信息管理模块用于数据库表的元数据信息管理;
具体的,定义Hive表相关的元数据表如下:
进一步的,血缘流行模块用于元数据的来源与去向记录;
具体的,数据血缘分析是通过多项自动化、智能化技术手段对数据处理过程的全面追踪,针对平台接入和维护的元数据对象,找到以某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系,元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。在血缘管理和分析中,包括通过SQL自动解析并展现关系图、通过算法自动发现数据关系且展示、手动维护和修正元数据血缘关系,以及在血缘可视化中可对表级、字段级血缘进行血缘、影响及全链路的筛选展示。支持用户对管理情况的跟踪,对血缘分析进展/完成度做统计展示。
进一步的,SQL工作台用于在线执行查询SQL语句;
具体的,执行SQL查询语句遵循以下原则:
SELECT<目标列名序列>--需要哪些列
FROM<表名>[JOIN<表名>ON<连接条件>]--来自哪些表
[WHERE<行选择条件>]--根据什么条件
[GROUPBY<分组依据列>]
[HAVING<组选择条件>]
[ORDERBY<排列依据列>]
其中,SELECT字句用于制定输出的字段;FROM字句用于指定数据的来源;WHERE字句用于指定数据的行选择条件;GROUPBY字句用于对检索到的记录进行分组;HAVING字句用于指定对分组后结果的选择条件;ORDER BY字句用于对查询的结果进行排序。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于元数据的管理方法,包括,
获取元数据;
对获取的元数据进行规则分类;
开发并维护元数据标准;
建立元数据架构;
元数据报告分析。
2.如权利要求1所述的基于元数据的管理方法,其特征在于:
所述获取元数据中元数据的来源包括,
可以通过用户交互、定义和数据分析定义业务元数据;
通过某些维护支持活动可以将有关数据的质量描述和其他发现添加到元数据存储库中,或者从IT系统中获取元数据;
可以在汇总层面或者细节层面识别元数据。
3.如权利要求1~2任一所述的基于元数据的管理方法,其特征在于:
所述多获取的元数据进行规则分类包括,
业务元数据用于描述数据系统中业务领优相关概念、关系和规则的数据;
技术元数据用于描述数据系统中技术领域相关概念、关系和规则的数据;
操作元数据用于描述处理和访问数据的详细信息。
4.如权利要求1~3任一所述的基于元数据的管理方法,其特征在于:
所述开发并维护元数据标准是通过对元数据进行标准化管理,能够消除不同属性元数据之间的不齐性,也能减小相同属性元数据之间方差,包括,
数据中心化用于消除特征之间的差异性,让不同的特征具有相同的尺度;
Z-Score标准化用于将不同量级的元数据转化为同一个量级,统一用计算出来的Z-Score值衡量,来保证元数据之间的可比性。
5.如权利要求4所述的基于元数据的管理方法,其特征在于:所述数据中心化的具体公式如下:
数据种类的标准化公式:
其中,Xij为原始元数据,i,j分别代表元数据数列的某一项,Xi表示样方元数据中的平均值。
6.如权利要求1或5任一所述的基于元数据的管理方法,其特征在于:
所述Z-Score标准化的具体公式如下:
其中,x1,x2,x3.......xn为原元数据序列,y1,y2........yn为新元数据序列,且方差为1。
7.如权利要求1~6任一所述的基于元数据的管理方法,其特征在于:所述建立元数据架构包括,
集中式元数据架构;
分布式元数据架构;
混合式元数据架构。
8.如权利要求7所述的基于元数据的管理方法,其特征在于:所述集中式元数据架构是由单一的元数据存储库组成,包含来自不同源的元数据副本,在公共元数据存储库中寻求高度一致性的组织,可以通过集中式元数据架构来实现;所述分布式元数据架构是一种没有持久化的存储库,元数据检索引擎通过实时从源系统检索数据来响应用户的数据请求;所述混合式元数据架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库。
9.如权利要求1~8任一所述的基于元数据的管理方法,其特征在于:所述元数据报告分析包括,
血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口;
指标一致性分析是指用视图化的方式来分析比较两个指标的数据流图是否一致,进而了解计算过程是否一致。
10.一种元数据管理系统,包括,
数据源管理系统用于数据源连接信息管理,可生成数据库文档;
元数据信息管理模块用于数据库表的元数据信息管理;
血缘流向模块用于元数据的来源与去向记录;
SQL工作台用于在线执行查询SQL语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583627.5A CN116561114A (zh) | 2022-12-09 | 2022-12-09 | 一种基于元数据的管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211583627.5A CN116561114A (zh) | 2022-12-09 | 2022-12-09 | 一种基于元数据的管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116561114A true CN116561114A (zh) | 2023-08-08 |
Family
ID=87493502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211583627.5A Pending CN116561114A (zh) | 2022-12-09 | 2022-12-09 | 一种基于元数据的管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561114A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194533A (zh) * | 2023-11-08 | 2023-12-08 | 中国电子科技集团公司第十五研究所 | 一种元数据服务发布方法和系统 |
-
2022
- 2022-12-09 CN CN202211583627.5A patent/CN116561114A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194533A (zh) * | 2023-11-08 | 2023-12-08 | 中国电子科技集团公司第十五研究所 | 一种元数据服务发布方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | The Data Civilizer System. | |
Jarke et al. | Fundamentals of data warehouses | |
Carey et al. | Data-Centric Systems and Applications | |
Herschel et al. | Explaining missing answers to SPJUA queries | |
US10346358B2 (en) | Systems and methods for management of data platforms | |
CN106372185B (zh) | 一种异构数据源的数据预处理方法 | |
US9218408B2 (en) | Method for automatically creating a data mart by aggregated data extracted from a business intelligence server | |
US7933932B2 (en) | Statistics based database population | |
US20140012835A1 (en) | Generating statistical views in a database system | |
US10216782B2 (en) | Processing of updates in a database system using different scenarios | |
US8527502B2 (en) | Method, system and computer-readable media for software object relationship traversal for object-relational query binding | |
Bleifuß et al. | Exploring change: A new dimension of data analytics | |
US20140244573A1 (en) | Data warehouse with cloud fact table | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
Wijaya et al. | An overview and implementation of extraction-transformation-loading (ETL) process in data warehouse (Case study: Department of agriculture) | |
CN116561114A (zh) | 一种基于元数据的管理方法 | |
CN117764790A (zh) | 基于ai辅助的指标公共维度治理方法及系统 | |
Kvet et al. | Master index access as a data tuple and block locator | |
KR100796906B1 (ko) | 데이터베이스 품질관리 방법 | |
KR100796905B1 (ko) | 데이터베이스 품질관리 시스템 | |
CN114298525A (zh) | 一种数据库风险评估方法及装置 | |
Chen | Database Design and Implementation | |
KR100792322B1 (ko) | 데이터베이스 품질관리 프레임워크 | |
Boulil et al. | Towards the definition of spatial data warehouses integrity constraints with spatial OCL | |
Santos et al. | Using relational algebra on the specification of real world ETL processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |