CN114036130A - 一种元数据分析处理方法及装置 - Google Patents

一种元数据分析处理方法及装置 Download PDF

Info

Publication number
CN114036130A
CN114036130A CN202111318988.2A CN202111318988A CN114036130A CN 114036130 A CN114036130 A CN 114036130A CN 202111318988 A CN202111318988 A CN 202111318988A CN 114036130 A CN114036130 A CN 114036130A
Authority
CN
China
Prior art keywords
data
metadata
analysis
model
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111318988.2A
Other languages
English (en)
Inventor
陈常淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111318988.2A priority Critical patent/CN114036130A/zh
Publication of CN114036130A publication Critical patent/CN114036130A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种元数据分析处理方法及装置,涉及大数据分析处理技术领域,该方法包括:采集数据源中的元数据;获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。本发明通过采集元数据建立元数据模型,将企业分散在多个应用系统的元数据集中管理,为企业展现完整全面的数据结构关系,协助企业集中高效的管理数据资产,可以满足不同业务需求的元数据分析处理,并从分析结果中挖掘数据价值进而指导业务或产品创新,为企业生产赋能。

Description

一种元数据分析处理方法及装置
技术领域
本发明涉及大数据分析处理技术领域,尤指一种元数据分析处理方法及装置。
背景技术
随着企业的发展,每年收集和使用的数据快速增长,数据体量也随之增长。其中,元数据的形态也呈现多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在企业信息化建设中发挥着重要的作用。
元数据管理系统的建设难度比较大,但是在数据仓库项目的实施过程中,这个环节又是非常重要的。正确理解和妥善管理元数据并发挥其价值,构建稳定完善的元数据管理系统成为数据仓库管理的首要任务。
综上来看,亟需一种可以克服上述困难,能够协助企业稳定高效的管理元数据的技术方案。
发明内容
为解决现有技术存在的问题,本发明提出了一种元数据分析处理方法及装置,能够协助企业稳定高效的管理元数据,满足不同业务需求的元数据分析处理服务。
在本发明实施例的第一方面,提出了一种元数据分析处理方法,该方法包括:
采集数据源中的元数据;
获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
进一步的,采集数据源中的元数据,包括:
根据业务需求确定数据采集范围;
将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库。
进一步的,将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库,包括:
通过FTP工具或者利用mv命令将数据文件传输至指定存储服务器;
利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库。
进一步的,利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库,包括:
采用ETL工具抽取数据文件,并对数据文件中的元数据进行数据清洗及数据转换,将转换后的元数据加载至数据仓库。
进一步的,所述数据仓库中存储的元数据包括数据源的元数据、数据仓库的元数据及手工录入的元数据中的一种或多种。
进一步的,获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表,包括:
根据所述业务需求选择业务流程;
根据所述业务流程声明元数据模型的粒度,从最细级别的粒度开始,分别构建粒度由细到粗的多个级别对应的维度表及事实表;
根据所述粒度设置维度表中的维度字段;
根据业务流程的度量设置事实表中的数据,其中,在同一事实表中的度量为相同粒度。
进一步的,所述元数据模型至少包括基础信息、事件管理及关系映射在内的第一级主题;其中,
在所述基础信息中至少包含个体对象的静态属性信息;
在所述事件管理中至少包含数据处理行为及数据仓库的操作行为在内的信息;
在所述关系映射中至少包含多个对象之间的连接关系、映射关系或转换关系在内的信息。
进一步的,在所述基础信息中至少包括数据结构、数据组织及度量逻辑在内的第二级主题;
其中,所述数据结构至少包含表结构、字段说明及字段类型;所述数据组织至少包含数据仓库存储数据的体系结构和模式;所述度量逻辑至少包含度量之间的逻辑运算关系;
在所述事件管理中至少包括操作记录、访问记录及ETL过程在内的第二级主题;
其中,所述操作记录至少包含操作数据仓库的记录;所述访问记录至少包含访问数据者的信息及访问时间;所述ETL过程至少包含数据清洗、数据转换的规则及过程;
在所述关系映射中至少包括血缘关系、数据分布及汇总规则在内的第二级主题;
其中,所述血缘关系至少包含数据之间、元数据之间、数据与元数据之间的血缘关系;数据分布至少包含数据仓库中数据分布情况;汇总规则至少包含数据仓库每一级数据的汇总规则。
进一步的,该方法包括:
定期对元数据模型进行检查,若元数据模型与数据源的元数据出现不一致,利用ETL工具抽取元数据更新元数据模型。
进一步的,当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果,包括:
利用所述元数据模型进行全链分析、冷热度分析、血缘分析和/或关联度分析。
进一步的,利用所述元数据模型进行全链分析,包括:
根据所述数据结构、数据组织及度量逻辑对全链数据的数据质量,数据标准及数据安全进行分析,得到全链分析结果。
进一步的,利用所述元数据模型进行冷热度分析,包括:
根据所述操作记录、访问记录及ETL过程对数据的冷热度进行分析,得到冷热度分析结果。
进一步的,利用所述元数据模型进行血缘分析,包括:
根据所述血缘关系、数据分布及汇总规则对请求分析的数据进行血缘追踪,以请求分析的数据为起点,追踪相关的元数据对象及所述相关的元数据对象的血缘关系,得到血缘分析结果;其中,血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
进一步的,利用所述元数据模型进行关联度分析,包括:
根据所述元数据模型分析数据与其它数据之间的关系及数据参与的处理过程,得到数据使用情况,根据所述数据使用情况得到关联度分析结果。
进一步的,该方法还包括:
根据所述元数据生成物理模型及ETL程序脚本,依赖所述血缘关系自动管理ETL过程。
在本发明实施例的第二方面,提出了一种元数据分析处理装置,该装置包括:
采集模块,用于采集数据源中的元数据;
构建模块,用于获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
建模模块,用于以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
分析模块,用于当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
在本发明实施例的第三方面,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现元数据分析处理方法。
在本发明实施例的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现元数据分析处理方法。
本发明提出的元数据分析处理方法及装置通过采集元数据建立元数据模型,将企业分散在多个应用系统的元数据集中管理,为企业展现完整全面的数据结构关系,协助企业集中高效的管理数据资产,可以满足不同业务需求的元数据分析处理,并从分析结果中挖掘数据价值进而指导业务或产品创新,为企业生产赋能。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例的元数据分析处理方法流程示意图。
图2是本发明一具体实施例的采集元数据的详细流程示意图。
图3是本发明一具体实施例的卸数、采集、传输、加载的关系示意图。
图4是本发明一实施例的采集元数据的途径示意图。
图5是本发明一实施例的建立模型的详细流程示意图。
图6是本发明一实施例的元数据模型第一级主题的示意图。
图7是本发明一实施例的元数据模型两级主题的关系示意图。
图8是本发明一实施例的元数据分析处理装置架构示意图。
图9是本发明一实施例的分析模块的架构示意图。
图10是本发明另一实施例的元数据分析处理装置的架构示意图。
图11是本发明一实施例的计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种元数据分析处理方法及装置,涉及大数据分析处理技术领域。
在本发明实施例中,需要说明的术语有:
ETL(Extract-Transform-Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明一实施例的元数据分析处理方法流程示意图。如图1所示,该方法包括:
S101,采集数据源中的元数据;
S102,获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
S103,以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
S104,当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
本发明通过采集元数据建立元数据模型,将企业分散在多个应用系统的元数据集中管理,为企业展现完整全面的数据结构关系,协助企业集中管理数据资产,统一监管业务的工作流、数据流及信息流,可以满足不同业务需求的元数据分析处理,并从分析结果中挖掘数据价值进而指导业务或产品创新,为企业生产赋能。
为了对上述元数据分析处理方法进行更为清楚的解释,下面结合每一步骤来进行详细说明。
参考图2,为本发明一具体实施例的采集元数据的详细流程示意图。如图2所示,采集数据源中的元数据的详细流程为:
S201,根据业务需求确定数据采集范围;
S202,将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库。
企业一般都会有多个应用系统,如,各项业务的业务系统,OA办公系统等,该些系统每天都有大量的元数据产生,可以根据企业具体业务需求来确定元数据的采集范围。
在确定了数据采集范围后,使用ETL工具把该些系统中的元数据入库,入库要对数据进行清洗和转换,保证数据可用。
元数据采集整合处理后统一存储于元数据仓库,实现元数据的统一管理;数据采集一般要分为三步,数据卸数,采集传输,数据加载。
具体的,参考图3,为本发明一具体实施例的卸数、采集、传输、加载的关系示意图。如图3所示,具体流程为:
S301,将数据源中处于数据采集范围的元数据卸载成数据文件。
其中,数据源可以是上游系统数据库,将需要的数据卸载成数据文件。
S302,通过FTP工具或者利用mv命令将数据文件传输至指定存储服务器;
FTP(File Transfer Protocol)是Internet上用来传送文件的协议(文件传输协议),利用FTP工具可以进行文件的上传(Upload)或下载(Download)等动作。
利用mv命令可以将文件从一个目录移到另一个目录中。
S303,利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库。
在实际应用场景下,关于元数据的存储可以有两种方式,一种是使用单独的数据库做元数据管理,另一种是和业务数据存储到同一数据库,企业可以根据内外环境来选择。
在一具体实施例中,S303的具体流程为:
采用ETL工具抽取数据文件,并对数据文件中的元数据进行数据清洗及数据转换,将转换后的元数据加载至数据仓库。ETL工具可以以固定的周期抽取数据文件。
由于数据源的接入方式、数据规模、业务含义、数据集表、字段等可能发生变化,因此可以先进行数据探查;根据数据探查结果定义ETL标准化处理的过程,数据探查结果可以包括字段的的空值情况、规范情况、值域情况、问题数据情况;
进而判断ETL中是否已有符合需求的算子;若ETL中没有符合需求的算子,则通过内置的工具算子和标量算子,定制符合需求的算子;若ETL中有符合要求的算子,则通过定义ETL标准化处理的过程,采用ETL对数据进行数据清洗以及数据转换,并将所述数据清洗以及数据转换后的数据加载至数据仓库。
参考图4,为本发明一实施例的采集元数据的途径示意图。如图4所示,所述数据仓库中存储的元数据包括数据源的元数据、数据仓库的元数据及手工录入的元数据中的一种或多种。
具体的,外部数据源包含源报表元数据、ETL工具元数据、报表工具元数据。
数据仓库的元数据包含物理模型元数据、事实表信息元数据。
手工录入的元数据包含Mapping文档、任务配置、业务规则、业务术语等元数据。
在具体应用场景中,可以根据企业的业务需求来划定元数据采集范围。虽然从元数据的定义出发,只要能描述数据的数据都能作为元数据来管理,但是,企业有多个应用系统,元数据的数据量大且结构复杂,如果把所有元数据都作为管理对象那么将会造成元数据模型非常复杂和数据库资源的浪费,对此,本发明根据业务需求,采集能给企业带来帮助的元数据,元数据的类型可以包括数据业务元数据、数据运维元数据及数据管理元数据等。
下面结合S102及S103对建立模型的详细过程进行说明。
参考图5,为本发明一实施例的建立模型的详细流程示意图。如图5所示,具体流程为:
S501,根据所述业务需求选择业务流程。
首先,需要确认哪些业务流程是数据仓库应该覆盖的,业务选择非常重要,该步是建模的基础,后面所有的步骤都是基于此业务数据展开的。因此,建模的第一步是选择业务流程。
维度建模是紧贴业务的,所以必须以业务为根基进行建模。选择业务流程就是在整个业务流程中选取需要建模的业务,根据运营提供的需求及考虑以后的易扩展性等进行选择业务。
S502,根据所述业务流程声明元数据模型的粒度,从最细级别的粒度开始,分别构建粒度由细到粗的多个级别对应的维度表及事实表。
在确定了业务流程后,声明模型的粒度。这里的粒度用于确定事实中表示的内容。在选择维度和事实前必须声明粒度,因为每个候选维度或事实必须与定义的粒度保持一致。在一个事实所对应的所有维度设计中强制实行粒度一致性是保证数据仓库应用性能和易用性的关键。从给定的业务流程获取数据时,原始粒度是最低级别的粒度。建议从原始粒度数据开始设计,因为原始记录能够满足无法预期的用户查询。汇总后的数据粒度对优化查询性能很重要,但这样的粒度往往不能满足对细节数据的查询需求。不同的事实可以有不同的粒度,但同一事实中不能混用多种不同的粒度。模型建立完成后,还有可能因为获取新的信息,回到这步修改粒度级别。
S503,根据所述粒度设置维度表中的维度字段。
在声明粒度后,确认模型的维度。维度表是事实表的基础,说明事实表的数据是从哪里采集来的。维度表存储了某一维度的所有相关数据。
维度表是作为业务分析的入口和描述性标识,要确保维度表中不能出现重复数据,应使维度主键唯一。
S504,根据业务流程的度量设置事实表中的数据,其中,在同一事实表中的度量为相同粒度。
在确定维度表后,进一步确定事实表。通过识别数字化的度量,构成事实表的记录。事实表与企业的应用系统的业务用户密切相关,用户可以对事实表的访问获取数据仓库存储的数据。
在实际应用场景中,大部分事实表的度量都是数字类型的,以数量值表示,可累加,可计算,如成本、数量、金额等。事实表中的每行对应一个度量,每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原则之一是同一事实表中的所有度量必须具有相同的粒度,这样能确保不会出现重复计算度量的问题。
在同一事实表中,必须具有相同的粒度,同一事实表中不要混用多种不同的粒度,不同的粒度数据建立不同的事实表。并且从给定的业务流程获取数据时,建议从最细粒度开始设计,能够承受无法预期的用户查询。但是上卷汇总粒度对查询性能的提升很重要的,所以对于有明确需求的数据,建立针对需求的上卷汇总粒度,对需求不明朗的数据建立原子粒度。
S505,以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型。
在一具体实施例中,可以定期对元数据模型进行检查;其中,若元数据模型与数据源的元数据出现不一致,利用ETL工具抽取元数据更新元数据模型;若数据源的数据结构发生变化,重新建立元数据模型。对此,可以确认元数据的更新频率。例如,如果需要进行长期的或大范围的数据分析,可能就不需要每天加载元数据,而是每周或每月加载一次。
元数据建模是一个迭代的过程,可以根据企业的业务情况和数据情况参照建模标准灵活应用,把底层复杂的数据转换成业务简单,完整有序的数据魔方。模型设计时需要考虑各个业务之间的关系,将业务数据与技术数据有效结合,形成业务定义和元数据识别的统一认识,让元数据具有跨部门、中性的特征,使模型可以表达和涵盖所有的业务,快速形成完整的元数据管理体系。
参考图6,为本发明一实施例的元数据模型第一级主题的示意图。如图6所示,所述元数据模型至少包括基础信息、事件管理及关系映射在内的第一级主题;其中,
在所述基础信息中至少包含个体对象的静态属性信息;例如,数据仓库结构的描述,数据表及字段的描述。
在所述事件管理中至少包含数据处理行为及数据仓库的操作行为在内的信息;例如,数据库的增、删、改等操作行为的信息。
在所述关系映射中至少包含多个对象之间的连接关系、映射关系或转换关系在内的信息。例如,应用系统与应用系统之间,模型与模型之间,表和表之间的映射关系、转换规则等信息。
为了更加细致的对业务数据进行划分,每一个主题进一步扩展出第二级主题。具体的,参考图7,为本发明一实施例的元数据模型两级主题的关系示意图。如图7所示,在所述基础信息中至少包括数据结构、数据组织及度量逻辑在内的第二级主题;
其中,所述数据结构至少包含表结构、字段说明及字段类型;所述数据组织至少包含数据仓库存储数据的体系结构和模式;所述度量逻辑至少包含度量之间的逻辑运算关系;
在所述事件管理中至少包括操作记录、访问记录及ETL过程在内的第二级主题;
其中,所述操作记录至少包含操作数据仓库的记录;所述访问记录至少包含访问数据者的信息及访问时间;所述ETL过程至少包含数据清洗、数据转换的规则及过程;
在所述关系映射中至少包括血缘关系、数据分布及汇总规则在内的第二级主题;
其中,所述血缘关系至少包含数据之间、元数据之间、数据与元数据之间的血缘关系;数据分布至少包含数据仓库中数据分布情况;汇总规则至少包含数据仓库每一级数据的汇总规则。
需要说明的是,每级主题下所包含具体信息仅为示例性举例,在实际应用中可以根据需要进行调整。
元数据模型的建立需要经过数据的积累、迭代,通过对分散、存储结构差异大的业务数据进行描述、定位、分类、归纳抽象出元数据模型,进而针对业务关系抽象出组合关系和依赖关系,建立元数据模型主题域,使元数据模型可以表达和涵盖多种业务。
下面结合S104,对数据分析的过程进行详细说明。
当获取到数据分析请求时,可以利用所述元数据模型进行全链分析、冷热度分析、血缘分析和/或关联度分析。
利用所述元数据模型进行全链分析的具体流程为:
根据所述数据结构、数据组织及度量逻辑对全链数据的数据质量,数据标准及数据安全进行分析,得到全链分析结果。
利用所述元数据模型进行冷热度分析的具体流程为:
根据所述操作记录、访问记录及ETL过程对数据的冷热度进行分析,得到冷热度分析结果。
冷热度分析可以分析出哪些数据是企业常用数据,其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,从而为实现数据的自助式分析提供支撑。
利用所述元数据模型进行血缘分析的具体流程为:
根据所述血缘关系、数据分布及汇总规则对请求分析的数据进行血缘追踪,以请求分析的数据为起点,追踪相关的元数据对象及所述相关的元数据对象的血缘关系,得到血缘分析结果;其中,血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
血缘分析可以对数据处理过程进行全面追踪,例如,数据来自哪里,都经过哪些加工过程,找到与该数据所有相关元数据及该些相关元数据的血缘关系。
利用所述元数据模型进行关联度分析的具体流程为:
根据所述元数据模型分析数据与其它数据之间的关系及数据参与的处理过程,得到数据使用情况,根据所述数据使用情况得到关联度分析结果。
关联度分析可以分析数据和其它数据的关系以及它们的关系是怎样建立的。从某一实体关联的其它实体,以及该实体参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,例如,表与ETL程序、表与分析应用、表与其它表的关联情况等;关联度分析可以用来支撑需求变更的影响评估。
本发明将元数据应集中维护和管理,当需要分析某个业务、环节,或有业务或者某个环节发生变更时,可以利用元数据模型实时分析出其所影响的业务功能、企业应用系统、涉及人员、是否涉及监管等信息。通过元数据分析处理能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。
在一实施例中,利用元数据还可以实现ETL自动化管理,具体方法为:
根据所述元数据生成物理模型及ETL程序脚本,依赖所述血缘关系自动管理ETL过程。
在实际应用场景下,基于元数据模型可以形成元数据之间的血缘关系、影响关系和关联关系,对元数据进行影响分析,同步检查,指标一致性分析,实体关联查询。
具体的,影响分析可以向下追溯元数据对象对下游的影响;同步检查可以检查源表到目标表的数据结构是否发生变更;通过指标一致性分析,可以定期分析指标定义是否和实际情况一致;在实体关联查询时,将事实表与维度表的代理键自动关联,查询实体之间的关联。
本发明可以建立一套成熟的元数据模型,使元数据管理统一化,在元数据模型中划分出多个主题,满足多种数据分析请求,支持全链分析、冷热度分析、血缘分析、关联度分析,协助企业集中高效的管理数据资产。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图8对本发明示例性实施方式的元数据分析处理装置进行介绍。
元数据分析处理装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”或者“单元”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
基于同一发明构思,本发明还提出了一种元数据分析处理装置,如图8所示,该装置包括:
采集模块810,用于采集数据源中的元数据;
构建模块820,用于获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
建模模块830,用于以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
分析模块840,用于当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
应当注意,尽管在上文详细描述中提及了元数据分析处理装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
在一实施例中,采集模块810具体用于:根据业务需求确定数据采集范围;将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库。
具体的,可以通过FTP工具或者利用mv命令将数据文件传输至指定存储服务器;利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库。
数据加载工具可以是ETL工具,通过ETL工具抽取数据文件,并对数据文件中的元数据进行数据清洗及数据转换,将转换后的元数据加载至数据仓库。
在一实施例中,所述数据仓库中存储的元数据包括数据源的元数据、数据仓库的元数据及手工录入的元数据中的一种或多种。
在一实施例中,构建模块820具体用于:根据所述业务需求选择业务流程;根据所述业务流程声明元数据模型的粒度,从最细级别的粒度开始,分别构建粒度由细到粗的多个级别对应的维度表及事实表;根据所述粒度设置维度表中的维度字段;根据业务流程的度量设置事实表中的数据,其中,在同一事实表中的度量为相同粒度。
在一实施例中,建模模块830建立的元数据模型的层次至少包含3个第一级主题及9个第二级主题。
具体的,所述元数据模型至少包括基础信息、事件管理及关系映射在内的第一级主题;其中,
在所述基础信息中至少包含个体对象的静态属性信息;
在所述事件管理中至少包含数据处理行为及数据仓库的操作行为在内的信息;
在所述关系映射中至少包含多个对象之间的连接关系、映射关系或转换关系在内的信息。
对于第二级主题进行详细说明如下:
在所述基础信息中至少包括数据结构、数据组织及度量逻辑在内的第二级主题;
其中,所述数据结构至少包含表结构、字段说明及字段类型;所述数据组织至少包含数据仓库存储数据的体系结构和模式;所述度量逻辑至少包含度量之间的逻辑运算关系;
在所述事件管理中至少包括操作记录、访问记录及ETL过程在内的第二级主题;
其中,所述操作记录至少包含操作数据仓库的记录;所述访问记录至少包含访问数据者的信息及访问时间;所述ETL过程至少包含数据清洗、数据转换的规则及过程;
在所述关系映射中至少包括血缘关系、数据分布及汇总规则在内的第二级主题;
其中,所述血缘关系至少包含数据之间、元数据之间、数据与元数据之间的血缘关系;数据分布至少包含数据仓库中数据分布情况;汇总规则至少包含数据仓库每一级数据的汇总规则。
在一实施例中,分析模块840具体用于:利用所述元数据模型进行全链分析、冷热度分析、血缘分析和/或关联度分析。
参考图9,为本发明一实施例的分析模块的架构示意图。如图9所示,分析模块840包括:
全链分析单元841,用于根据所述数据结构、数据组织及度量逻辑对全链数据的数据质量,数据标准及数据安全进行分析,得到全链分析结果。
冷热度分析单元842,用于根据所述操作记录、访问记录及ETL过程对数据的冷热度进行分析,得到冷热度分析结果。
血缘分析单元843,用于根据所述血缘关系、数据分布及汇总规则对请求分析的数据进行血缘追踪,以请求分析的数据为起点,追踪相关的元数据对象及所述相关的元数据对象的血缘关系,得到血缘分析结果;其中,血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
关联度分析单元844,用于根据所述元数据模型分析数据与其它数据之间的关系及数据参与的处理过程,得到数据使用情况,根据所述数据使用情况得到关联度分析结果。
参考图10,为本发明另一实施例的元数据分析处理装置的架构示意图。如图10所示,该装置还包括:
检查模块850,用于定期对元数据模型进行检查,若元数据模型与数据源的元数据出现不一致,利用ETL工具抽取元数据更新元数据模型。
再参考图10,该系统还包括:
ETL管理模块860,用于根据所述元数据生成物理模型及ETL程序脚本,依赖所述血缘关系自动管理ETL过程。
基于前述发明构思,如图11所示,本发明还提出了一种计算机设备1100,包括存储器1110、处理器1120及存储在存储器1110上并可在处理器1120上运行的计算机程序1130,所述处理器1120执行所述计算机程序1130时实现前述元数据分析处理方法。
基于前述发明构思,本发明提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述元数据分析处理方法。
本发明提出的元数据分析处理方法及装置通过采集元数据建立元数据模型,将企业分散在多个应用系统的元数据集中管理,为企业展现完整全面的数据结构关系,协助企业集中高效的管理数据资产,可以满足不同业务需求的元数据分析处理,并从分析结果中挖掘数据价值进而指导业务或产品创新,为企业生产赋能。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (18)

1.一种元数据分析处理方法,其特征在于,该方法包括:
采集数据源中的元数据;
获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
2.根据权利要求1所述的元数据分析处理方法,其特征在于,采集数据源中的元数据,包括:
根据业务需求确定数据采集范围;
将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库。
3.根据权利要求2所述的元数据分析处理方法,其特征在于,将数据源中处于数据采集范围的元数据卸载成数据文件,将所述数据文件加载至数据仓库,包括:
通过FTP工具或者利用mv命令将数据文件传输至指定存储服务器;
利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库。
4.根据权利要求3所述的元数据分析处理方法,其特征在于,利用数据加载工具将存储服务器中的数据文件重新加载至数据仓库,包括:
采用ETL工具抽取数据文件,并对数据文件中的元数据进行数据清洗及数据转换,将转换后的元数据加载至数据仓库。
5.根据权利要求2所述的元数据分析处理方法,其特征在于,所述数据仓库中存储的元数据包括数据源的元数据、数据仓库的元数据及手工录入的元数据中的一种或多种。
6.根据权利要求2所述的元数据分析处理方法,其特征在于,获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表,包括:
根据所述业务需求选择业务流程;
根据所述业务流程声明元数据模型的粒度,从最细级别的粒度开始,分别构建粒度由细到粗的多个级别对应的维度表及事实表;
根据所述粒度设置维度表中的维度字段;
根据业务流程的度量设置事实表中的数据,其中,在同一事实表中的度量为相同粒度。
7.根据权利要求6所述的元数据分析处理方法,其特征在于,所述元数据模型至少包括基础信息、事件管理及关系映射在内的第一级主题;其中,
在所述基础信息中至少包含个体对象的静态属性信息;
在所述事件管理中至少包含数据处理行为及数据仓库的操作行为在内的信息;
在所述关系映射中至少包含多个对象之间的连接关系、映射关系或转换关系在内的信息。
8.根据权利要求7所述的元数据分析处理方法,其特征在于,在所述基础信息中至少包括数据结构、数据组织及度量逻辑在内的第二级主题;
其中,所述数据结构至少包含表结构、字段说明及字段类型;所述数据组织至少包含数据仓库存储数据的体系结构和模式;所述度量逻辑至少包含度量之间的逻辑运算关系;
在所述事件管理中至少包括操作记录、访问记录及ETL过程在内的第二级主题;
其中,所述操作记录至少包含操作数据仓库的记录;所述访问记录至少包含访问数据者的信息及访问时间;所述ETL过程至少包含数据清洗、数据转换的规则及过程;
在所述关系映射中至少包括血缘关系、数据分布及汇总规则在内的第二级主题;
其中,所述血缘关系至少包含数据之间、元数据之间、数据与元数据之间的血缘关系;数据分布至少包含数据仓库中数据分布情况;汇总规则至少包含数据仓库每一级数据的汇总规则。
9.根据权利要求8所述的元数据分析处理方法,其特征在于,该方法包括:
定期对元数据模型进行检查,若元数据模型与数据源的元数据出现不一致,利用ETL工具抽取元数据更新元数据模型。
10.根据权利要求8所述的元数据分析处理方法,其特征在于,当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果,包括:
利用所述元数据模型进行全链分析、冷热度分析、血缘分析和/或关联度分析。
11.根据权利要求10所述的元数据分析处理方法,其特征在于,利用所述元数据模型进行全链分析,包括:
根据所述数据结构、数据组织及度量逻辑对全链数据的数据质量,数据标准及数据安全进行分析,得到全链分析结果。
12.根据权利要求10所述的元数据分析处理方法,其特征在于,利用所述元数据模型进行冷热度分析,包括:
根据所述操作记录、访问记录及ETL过程对数据的冷热度进行分析,得到冷热度分析结果。
13.根据权利要求10所述的元数据分析处理方法,其特征在于,利用所述元数据模型进行血缘分析,包括:
根据所述血缘关系、数据分布及汇总规则对请求分析的数据进行血缘追踪,以请求分析的数据为起点,追踪相关的元数据对象及所述相关的元数据对象的血缘关系,得到血缘分析结果;其中,血缘追踪包括逆向血缘追踪、正向血缘追踪和/或全链血缘追踪。
14.根据权利要求10所述的元数据分析处理方法,其特征在于,利用所述元数据模型进行关联度分析,包括:
根据所述元数据模型分析数据与其它数据之间的关系及数据参与的处理过程,得到数据使用情况,根据所述数据使用情况得到关联度分析结果。
15.根据权利要求9所述的元数据分析处理方法,其特征在于,该方法还包括:
根据所述元数据生成物理模型及ETL程序脚本,依赖所述血缘关系自动管理ETL过程。
16.一种元数据分析处理装置,其特征在于,该装置包括:
采集模块,用于采集数据源中的元数据;
构建模块,用于获取业务流程,根据所述业务流程声明元数据模型的粒度,根据所述粒度构建维度表及事实表;
建模模块,用于以所述业务流程作为建模驱动,根据所述元数据、维度表及事实表建立元数据模型;
分析模块,用于当获取到数据分析请求时,利用所述元数据模型进行数据分析,得到分析结果。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15任一所述方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至15任一所述方法。
CN202111318988.2A 2021-11-09 2021-11-09 一种元数据分析处理方法及装置 Pending CN114036130A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111318988.2A CN114036130A (zh) 2021-11-09 2021-11-09 一种元数据分析处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111318988.2A CN114036130A (zh) 2021-11-09 2021-11-09 一种元数据分析处理方法及装置

Publications (1)

Publication Number Publication Date
CN114036130A true CN114036130A (zh) 2022-02-11

Family

ID=80143632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111318988.2A Pending CN114036130A (zh) 2021-11-09 2021-11-09 一种元数据分析处理方法及装置

Country Status (1)

Country Link
CN (1) CN114036130A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648058A (zh) * 2022-03-03 2022-06-21 昆明理工大学 一种基于元数据的锡铋金属材料数据处理方法及装置
CN114706575A (zh) * 2022-06-07 2022-07-05 杭州比智科技有限公司 一种迁移和复用数据模型的方法及系统
CN114780614A (zh) * 2022-04-24 2022-07-22 中冶赛迪重庆信息技术有限公司 一种时序数据全流程管理系统、方法、设备及介质
CN115237895A (zh) * 2022-07-07 2022-10-25 山东中创软件商用中间件股份有限公司 基于流程的监控引擎系统、方法、设备及介质
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN117056308A (zh) * 2023-08-11 2023-11-14 苏银凯基消费金融有限公司 一种基于OpenLineage数据库生成金融大数据血缘关系的方法
CN117194533A (zh) * 2023-11-08 2023-12-08 中国电子科技集团公司第十五研究所 一种元数据服务发布方法和系统
CN118051548A (zh) * 2024-03-05 2024-05-17 合肥喆塔科技有限公司 数据血缘生成的方法、系统、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648058A (zh) * 2022-03-03 2022-06-21 昆明理工大学 一种基于元数据的锡铋金属材料数据处理方法及装置
CN114780614A (zh) * 2022-04-24 2022-07-22 中冶赛迪重庆信息技术有限公司 一种时序数据全流程管理系统、方法、设备及介质
CN114706575A (zh) * 2022-06-07 2022-07-05 杭州比智科技有限公司 一种迁移和复用数据模型的方法及系统
CN115237895A (zh) * 2022-07-07 2022-10-25 山东中创软件商用中间件股份有限公司 基于流程的监控引擎系统、方法、设备及介质
CN115687309A (zh) * 2022-12-30 2023-02-03 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置
CN115687309B (zh) * 2022-12-30 2023-04-18 浙江大学 非侵入式卷烟出入库全流程数据血缘构建方法、装置
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质
CN116541887B (zh) * 2023-07-07 2023-09-15 云启智慧科技有限公司 一种大数据平台数据安全保护方法
CN117056308A (zh) * 2023-08-11 2023-11-14 苏银凯基消费金融有限公司 一种基于OpenLineage数据库生成金融大数据血缘关系的方法
CN117194533A (zh) * 2023-11-08 2023-12-08 中国电子科技集团公司第十五研究所 一种元数据服务发布方法和系统
CN118051548A (zh) * 2024-03-05 2024-05-17 合肥喆塔科技有限公司 数据血缘生成的方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN114036130A (zh) 一种元数据分析处理方法及装置
Siddiqa et al. Big data storage technologies: a survey
Halevy et al. Goods: Organizing google's datasets
Vulimiri et al. Global analytics in the face of bandwidth and regulatory constraints
Beheshti et al. Scalable graph-based OLAP analytics over process execution data
CN112396404A (zh) 一种数据中台系统
Crawl et al. Provenance for mapreduce-based data-intensive workflows
Bleifuß et al. Exploring change: A new dimension of data analytics
Salloum et al. Exploring and cleaning big data with random sample data blocks
CN116662441A (zh) 一种分布式数据血缘构建及展现方法
Suriarachchi et al. Big provenance stream processing for data intensive computations
Yao et al. Probabilistic consistency guarantee in partial quorum-based data store
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
GB2528047A (en) Mining of policy data source description based on file, storage and application meta-data
Davenport Design of distributed data base systems
CN114298525A (zh) 一种数据库风险评估方法及装置
CN114860759A (zh) 一种数据处理方法、装置、设备及可读存储介质
Winston Time-Series Databases and Amazon Timestream
Joshi et al. A quality attribute-based evaluation of time-series databases for edge-centric architectures
Gao et al. A semantic framework for designing temporal SQL databases
Aydin et al. Data modelling for large-scale social media analytics: design challenges and lessons learned
Hulten et al. A simulation model for performance analysis of large shared data bases
Petrov et al. Relative Performance of Various Types of Repositories for MySQL Archive Backup and Restore Operations
Brighen et al. An economical query cost model in the cloud
Berti et al. StarStar models: Process analysis on top of databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination