CN101515290B - 具有双向互动特征的元数据管理系统及其实现方法 - Google Patents
具有双向互动特征的元数据管理系统及其实现方法 Download PDFInfo
- Publication number
- CN101515290B CN101515290B CN2009100809231A CN200910080923A CN101515290B CN 101515290 B CN101515290 B CN 101515290B CN 2009100809231 A CN2009100809231 A CN 2009100809231A CN 200910080923 A CN200910080923 A CN 200910080923A CN 101515290 B CN101515290 B CN 101515290B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- subsystem
- runtime library
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种具有双向互动特征的元数据管理系统及其实现方法,通过元数据提取装置将EDW各子系统的元数据提取到元数据运行库装置中,并采用通用的关系型元数据模型来存储元数据;通过通用桥接器将关系型元数据模型的元数据,提取到对象型元数据模型的元数据知识库装置中,形成分析结果供用户查询;通过数据库视图,向其它子系统提供其所需的元数据信息。本发明采用双向的元数据管理体系架构,能够支持从EDW的其它子系统抽取元数据存储到元数据管理系统,同时支持向EDW其它子系统提供其所需的元数据信息,解决了元数据和EDW的运行管理问题,减少了EDW的管理难度、保证了元数据的准确性、使得各子系统能高效地通信和稳定运行。
Description
技术领域
本发明涉及元数据管理技术领域,特别涉及一种具有双向互动特征的元数据管理系统及其实现方法。
背景技术
建立元数据管理系统,已成为当前业界建设企业级数据仓库(以下简称EDW)必不可少的一部分。而元数据管理系统必须成为集中EDW所有管理和运行信息的一个统一的知识库,才能够为庞大的EDW的开发、运行和管理提供足够的信息,提升EDW的生产效率,保证EDW的稳定运行。因此,要求元数据管理系统的元数据库中的信息必须是集成的、准确的和保留历史的。然而对于目前那些具有元数据管理系统的EDW来说,存在着一个很大的体系架构缺陷,就是EDW只采用了单向的元数据管理体系架构,即元数据信息只从外部流向元数据管理系统的元数据库,而元数据管理系统的元数据库无法在运行时为EDW提供支持。
EDW中包含多个子系统,每个子系统都具有与其开发、运行相关的元数据。元数据管理系统从这些子系统中提取元数据,形成数据仓库统一的元数据视图。但是如果元数据只是单向地从各个子系统流向元数据管理系统,虽然可以将元数据集成,为EDW的开发和管理提供一定帮助,但很可能造成以下的缺陷:
1)、元数据管理系统的元数据库逐渐演变成一个元数据的查询工具,无法发挥出作为数据仓库核心知识库的总控作用;
2)、元数据信息不会从访问接口流向其它子系统,则无法促进元数据的及时更新,难以从根本上保证元数据的准确性;
3)、元数据管理系统的元数据库不提供运行时所需信息,各个子系统需要维护自己的一套元数据以支持自己的运行,造成了元数据的冗余;
4)、元数据管理系统的元数据库无法保证其内容的准确性,则无法成为EDW运行时的核心部件,造成相关的各系统之间需要进行直接信息交互,大大增加了子系统之间的通信成本,难以管理。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于克服现有技术中的缺点,提供一种具有双向互动特征的元数据管理系统及其实现方法,以实现从EDW的其它子系统抽取元数据存储到元数据管理系统,同时实现向EDW其它子系统提供其所需的元数据信息,解决元数据和EDW的运行管理问题,减少EDW的管理难度,保证元数据的准确性,使得各子系统能高效地通信和稳定运行。
(二)技术方案
为达到上述目的,本发明提供了一种具有双向互动特征的元数据管理系统,该系统包括:
元数据运行库装置1,连接于元数据提取装置2和元数据服务接口装置3,用于存储数据仓库统一的关系型元数据模型,将其它子系统5的元数据集成于统一的关系型元数据模型中;
元数据提取装置2,连接于元数据运行库装置1和其它子系统5,用于将其它子系统5中未经加工的元数据,提取并存储到元数据运行库装置1中;
元数据服务接口装置3,连接于元数据运行库装置1、元数据知识库装置4和其它子系统5,用于将元数据运行库装置1中的基础元数据变换成满足其它子系统5应用需要的元数据,向其它子系统5提供元数据,并将元数据运行库装置1中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置4;
元数据知识库装置4,连接于元数据服务接口装置3,用于对元数据进行分析,形成满足特定要求的分析结果供用户查询。
上述方案中,所述元数据运行库装置1存储有关系型数据库的元数据模型、元数据的结构以及具体的元数据。
上述方案中,所述关系型数据库的元数据模型,具体包括:
源系统数据结构表,用于存放数据仓库源系统表的注释和数据库属性;
源系统字段描述表,用于存放数据仓库源系统表中字段的注释和数据库属性;
源系统表索引描述表,用于存放数据仓库源系统表中索引的字段和数据库属性;
上游接口文件与源系统表关系描述表,用于存放数据仓库与源系统的文件接口的描述;
逻辑数据模型属性表,用于存放数据仓库逻辑数据模型的属性描述;
逻辑数据模型实体表,用于存放数据仓库逻辑数据模型的实体描述;
逻辑数据模型主题表,用于存放数据仓库逻辑数据模型的主题描述;
数据加工关系表,用于存放数据仓库中的各数据对象的加工关系。
上述方案中,所述元数据提取装置2包括:
主处理单元200,用于调用SQL桥接器单元201、SDM桥接器单元202、Excel桥接器单元203和XML桥接器单元204,从其它子系统5中提取数据映射关系、数据仓库逻辑模型、源系统数据结构,并传送给元数据运行库装置1存储为元数据模型;
SQL桥接器单元201和SDM桥接器单元202,用于提取元数据运行库装置1中的数据加工关系表所存放的数据映射关系;
Excel桥接器单元203,用于提取数据仓库逻辑模型,Excel桥接器通过解析ERWIN格式的数据仓库逻辑数据模型设计文档获得相关数据,存储到元数据运行库装置1中的LDM模型属性表、LDM模型实体表和LDM模型主题表中;
XML桥接器单元204,用于从其它子系统5提取源系统数据结构,存放到元数据运行库装置1的源系统数据结构表中。
上述方案中,所述SQL桥接器单元201提取元数据运行库装置1中的数据加工关系表所存放的数据映射关系,是通过解析ETL加载脚本中的SQL实现的。
上述方案中,所述SDM桥接器单元202提取元数据运行库装置1中的数据加工关系表所存放的数据映射关系,是通过解析SDM开发文档实现的。
上述方案中,所述源系统数据结构表描述数据仓库上游系统的数据结构和接口结构,是数据仓库加载源系统文件的依据;源系统数据结构是通过从源系统的统一接口下载的XML获得的,然后通过元数据的桥接器解析并加载到元数据库中。
上述方案中,所述元数据服务接口装置3包括:
主处理单元300,用于调用通用桥接器单元301和数据库视图单元302,将元数据分别从元数据运行库装置1中提取到其它子系统5以及元数据知识库中;
通用桥接器单元301,通过访问配置文件描述的数据映射关系,将基于关系型元数据模型的元数据运行库装置1里的元数据,提取到基于对象型元数据模型的元数据知识库装置4;
数据库视图单元302,用于向其它子系统5提供其它子系统5所需的元数据信息。
上述方案中,所述通用桥接器单元301是一种数据库桥接器,连接于元数据运行库装置1和元数据知识库装置4。
上述方案中,所述数据库视图单元302是根据不同的元数据应用和需求,在基础元数据之上定义的一系列数据库视图的集合,连接于元数据运行库装置1和其它子系统5。
上述方案中,所述元数据知识库装置4包括:
元数据模型单元401,连接于通用桥接器单元301,用于接收通用桥接器单元301从元数据运行库单元1中提取的元数据,并存储为对象型元数据模型;
元数据分析引擎402,连接于元数据模型单元401与元数据查询单元403,用于对元数据模型单元401中存放的元数据进行查找、汇总和分析,形成满足特定要求的分析结果,返回给元数据查询单元403;
元数据查询单元403,连接于元数据分析引擎402,用于提供用户查询界面,接收用户的查询指令,通过访问元数据分析引擎402的分析结果,向用户反馈查询结果。
上述方案中,所述元数据分析引擎402对元数据模型单元401中存放的元数据进行分析,具体包括:
1)、血缘分析:对元数据管理系统中的某要素进行数据血缘分析,即已知某一数据项,查找到该数据项从源系统到应用的若干ETL过程相关的数据项、计算方法和计算公式,形成该报表元素或指标的族谱图,从而了解产生该数据项的流程;
2)、影响分析:EDW系统涉及多个子系统,各个子系统之间的数据有着紧密的联系,任何一个子系统的数据变更需要相关子系统的同时的变更,否则,将会影响到整个数据仓库系统的数据质量;影响分析模块将向用户提供完整的受变更影响对象列表,并产生影响分析报告,依照该报告,用户可以评估数据变更的影响程度,确定是否需提交变更请求;
3)、活力分析:对于EDW中的PDM模型,不同的实体被用户使用的情况是不一样的,实体的使用程度也是元数据重要性指标之一,通过设置指定用户对指定实体或者全部实体的访问类型统计,来判断模型中的实体的活力情况;
4)、孤儿分析:对元数据管理系统中的某要素进行数据孤儿分析,确定数据加工过程中的数据“孤岛”:
5)、元数据浏览和查询:根据用户输入的查询界面提供单体查询功能,通过知识库中元数据对象之间的连接,进行元数据关联性的查询。
为达到上述目的,本发明还提供了一种实现具有双向互动特征的元数据管理的方法,该方法包括:
元数据提取装置2将其它子系统5中未经加工的元数据,提取并存储到元数据运行库装置1中;
元数据运行库装置1将其它子系统5的元数据集成于统一的关系型元数据模型中;
元数据服务接口装置3将元数据运行库装置1中的基础元数据变换成满足其它子系统5应用需要的元数据,向其它子系统5提供元数据,并将元数据运行库装置1中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置4;
元数据知识库装置4对元数据进行分析,形成满足特定要求的分析结果供用户查询。
上述方案中,所述元数据提取装置2将其它子系统5中未经加工的元数据,提取并存储到元数据运行库装置1中,元数据运行库装置1将其它子系统5的元数据集成于统一的关系型元数据模型中,具体包括:
步骤100:启动元数据提取流程;
步骤101:元数据提取装置2从其它子系统5统一收集加载脚本以及开发文档;
步骤102:元数据提取装置2中的SQL桥接器、SDM桥接器从收集的加载脚本以及开发文档中提取元数据映射关系,将加载脚本和开发文档描述的转换逻辑解析成数据映射的描述;
步骤103:元数据提取装置2中的SQL桥接器、SDM桥接器将各自提取的映射关系信息,传送给元数据运行库装置1,元数据运行库装置1将该映射关系信息存储为关系型元数据模型。
上述方案中,所述元数据服务接口装置3将元数据运行库装置1中的基础元数据变换成满足其它子系统5应用需要的元数据,向其它子系统5提供元数据,具体包括:
步骤200:启动ETL流程调度配置;
步骤201:元数据服务接口装置3中的数据库视图单元302读取元数据运行库装置1中的数据映射关系;
步骤202:数据库视图单元302将数据映射关系转换为基于关系型元数据模型的脚本的运行顺序和依赖关系;
步骤203:数据库视图单元302将该运行顺序和依赖关系提供给其它子系统5。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,采用双向的元数据管理体系架构,能够支持从EDW的其它子系统抽取元数据存储到元数据管理系统,同时也支持向EDW其它子系统提供其所需的元数据信息,解决上述的诸多元数据和EDW的运行管理问题,大大减少了EDW的管理难度、保证了元数据的准确性、使得各子系统能高效地通信和稳定运行。
2、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,实现了元数据的统一管理,为子系统的运行和它们之间的交互提供了统一平台,既保证了元数据的准确性,也真正发挥了数据仓库中统一的元数据视图的价值。
3、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,避免了各个子系统需要维护自己的一套元数据所造成的元数据的冗余,节省了计算机资源。
4、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,通过其它子系统向元数据库的灵活加载,使上游系统的变化对EDW的影响最小化。
5、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,通过元数据库向其它子系统提供元数据,实现了各子系统元数据内容的准确性与一致性。
6、本发明提供的这种具有双向互动特征的元数据管理系统及其实现方法,支持数据仓库元数据分析,充分发挥了元数据的可用价值。
附图说明
图1是本发明提供的具有双向互动特征的元数据管理系统的结构示意图;
图2是本发明提供的元数据提取装置的结构示意图;
图3是本发明提供的元数据服务接口装置的结构示意图;
图4是本发明提供的元数据知识库装置的结构示意图;
图5是本发明实现具有双向互动特征的元数据管理的方法流程图;
图6是依照本发明实施例从其它子系统提取元数据的方法流程图;
图7是依照本发明实施例向其它子系统提供元数据的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提供了一种具有双向互动特征的元数据管理系统及其实现方法。本发明通过元数据提取装置2将EDW各子系统的元数据提取到元数据运行库装置1中,并采用通用的关系型元数据模型来存储元数据;通过通用桥接器将关系型元数据模型的元数据,提取到对象型元数据模型的元数据知识库装置4中,形成分析结果供用户查询;通过数据库视图,向其它子系统提供其所需的元数据信息。
本发明实现了元数据的统一管理,为子系统的运行和它们之间的交互提供了统一平台。其中,通用的元数据模型是通过对各子系统的元数据进行概括形成的、能满足各子系统要求的统一的元数据模型;通用桥接器是可以灵活定制同步任务和数据映射的元数据同步程序;元数据管理系统采用数据库视图的方式提供元数据访问接口,实现子系统之间的元数据交互。
下面对本发明所涉及到的数据仓库的技术术语进行说明:
ETL——Extraction/Transformation/Loading的缩写,指源系统数据在数据仓库系统中抽取、转换、加载的过程;ETL也用于表示数据仓库系统中数据加载转换的子系统。
DQ——Data Quality的缩写,指数据仓库的源数据或仓库模型存储的数据的质量,数据的质量状况用业务规则或者技术规则来界定;DQ也用于表示数据仓库系统内部进行数据质量检查的子系统。
元数据模型——用于描述元数据的模型,称作“关于元数据的数据”,物理化之后的元数据模型用于存放具体的元数据。
对象型元数据模型——根据面向对象的编程理念,以对象模型描述的元数据模型。其中的元数据以对象形式存放,并提供面向对象的编程接口提供元数据的访问。
桥接器——元数据通过桥接器从不同的元数据源(文件或数据库)中提取到元数据模型。根据所提取信息的来源不同,元数据桥接器可分为SQL桥接器、SDM桥接器、Excel桥接器和XML桥接器。
如图1所示,图1是本发明提供的具有双向互动特征的元数据管理系统的结构示意图,该系统由元数据运行库装置1、元数据提取装置2、元数据服务接口装置3和元数据知识库装置4构成。其中,元数据运行库装置1,连接于元数据提取装置2和元数据服务接口装置3,用于存储数据仓库统一的关系型元数据模型,将其它子系统5的元数据集成于统一的关系型元数据模型中。元数据提取装置2,连接于元数据运行库装置1和其它子系统5,用于将其它子系统5中未经加工的最基础最为明细的元数据,提取并存储到元数据运行库装置1中。元数据服务接口装置3,连接于元数据运行库装置1、元数据知识库装置4和其它子系统5,用于将元数据运行库装置1中的基础元数据变换成满足其它子系统5应用需要的元数据,向其它子系统5提供元数据,并将元数据运行库装置1中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置4。元数据知识库装置4,连接于元数据服务接口装置3,用于对元数据进行分析,形成满足特定要求的分析结果供用户查询。
元数据运行库装置1,其存储有关系型数据库的元数据模型、元数据的结构以及具体的元数据。此处,关系型数据库的元数据模型具体包括:
1、源系统数据结构表,用于存放数据仓库源系统表的注释和数据库属性。
序号 | 域名 | 备注 |
1 | 所属应用简称 | |
2 | 表英文名 | |
3 | 表中文名 | |
4 | 增长量 | |
5 | 操作类型 | |
6 | 使用说明 | |
7 | 表类型 | |
8 | 数据提供的方式 | |
9 | 数据提供间隔 | |
10 | 数据提供间隔日期 | |
11 | 是否整合入数据仓库 |
2、源系统字段描述表,用于存放数据仓库源系统表中字段的注释和数据库属性。
序号 | 域名描述 | 备注 |
1 | 应用物理分区 | |
2 | 应用简称 | |
3 | 表英文名 | |
4 | 字段名 | |
5 | 字段序号 | |
6 | 字段中文名 | |
7 | 字段含义 | |
8 | 字段类型 | |
9 | 字段长度 | |
10 | 字段约束 | |
11 | 字段小数位 | |
12 | 是否允许空 | |
13 | 字符集 |
3、源系统表索引描述表,用于存放数据仓库源系统表中索引的字段和数据库属性。
序号 | 域名描述 | |
1 | 应用物理分区 | |
2 | 所属应用简称 | |
3 | 表英文名 | |
4 | 字段名 | |
5 | 索引名 | |
6 | 是否唯一索引 | |
7 | 是否聚簇索引 | |
8 | 是否分区索引 |
4、上游接口文件与源系统表关系描述表,用于存放数据仓库与源系统的文件接口的描述。
序号 | 域名描述 | 备注 |
1 | 接口包名称 | |
2 | 接口源文件名称 | |
3 | 接口源文件描述 | |
5 | 源表名 |
5、逻辑数据模型(LDM)属性表,用于存放数据仓库逻辑数据模型的属性描述。
序号 | 域名描述 | 备注 |
1 | 属性ID | |
2 | 实体ID | |
3 | 属性名称 | |
4 | 属性定义 | |
5 | 属性注释 | |
6 | 逻辑顺序 | |
7 | 物理顺序 | |
8 | 属性物理注释 | |
9 | 父属性ID | |
10 | 父关系ID | |
11 | 数据类型 | |
12 | 物理名称 | |
13 | 域ID |
6、LDM模型实体表,用于存放数据仓库逻辑数据模型的实体描述。
序号 | 域名描述 | |
1 | 实体ID | |
2 | 实体名称 | |
3 | 实体定义 | |
4 | 实体注释1 | |
7 | 实体物理名称 | |
8 | 模型建设人代码 | |
9 | 模型审核人代码 | |
10 | Mapping制作人代码 | |
11 | Mapping审核人代码 | |
12 | 实体状态代码 |
7、LDM模型主题表,用于存放数据仓库逻辑数据模型的主题描述。
序号 | 域名描述 | 备注 |
1 | 主题ID | |
2 | 模型ID | |
3 | 主题名称 | |
4 | 主题定义 | |
5 | 创建日期 | |
6 | 是否锁定 | |
7 | 主题顺序 |
8、数据加工关系表,用于存放数据仓库中的各数据对象的加工关系。
序号 | 域名描述 | 备注 |
1 | 源数据库 | |
2 | 源表名 | |
3 | 目标数据库 | |
4 | 目标表名 | |
6 | 加工作业 |
如图2所示,图2是本发明提供的元数据提取装置的结构示意图。元数据提取装置2用于将其它子系统中的元数据信息提取至元数据运行库装置1中,包括主处理单元200、SQL桥接器单元201、SDM桥接器单元202、Excel桥接器单元203和XML桥接器单元204。主处理单元200与其他四个单元SQL桥接器单元201、SDM桥接器单元202、Excel桥接器单元203和XML桥接器单元204连接,用于在不同情况下调用不同的桥接器单元,从其它子系统提取元数据,并传送给元数据运行库装置1。这是双向元数据体系架构中元数据流动的一个方向,即从其它子系统→元数据库的方向。
主处理单元200是本装置的总控单元,用于调用SQL桥接器单元201、SDM桥接器单元202、Excel桥接器单元203和XML桥接器单元204,从其它子系统5中提取数据映射关系、数据仓库逻辑模型、源系统数据结构等元数据,并传送给元数据运行库装置1存储为元数据模型。
SQL桥接器单元201、SDM桥接器单元202用于提取元数据运行库装置1中的数据加工关系表所存放的数据映射关系。元数据运行库装置1中的数据加工关系表所存放的数据映射关系,是通过SQL桥接器单元201解析ETL加载脚本中的SQL、以及SDM桥接器单元202解析SDM开发文档而获得的。
Excel桥接器单元203用于提取数据仓库逻辑模型。Excel桥接器通过解析ERWIN格式的数据仓库逻辑数据模型(Logical Data Model,LDM)设计文档获得相关数据,存储到元数据运行库装置1中的LDM模型属性表、LDM模型实体表和LDM模型主题表中。
XML桥接器单元204用于从其它子系统5提取源系统数据结构,存放到元数据运行库装置1的源系统数据结构表中。源系统数据结构表描述了数据仓库上游系统的数据结构和接口结构,是数据仓库加载源系统文件的依据。源系统数据结构是通过从源系统的统一接口下载的XML获得的;然后通过元数据的桥接器解析并加载到元数据库中。
如图3所示,图3是本发明提供的元数据服务接口装置的结构示意图。元数据服务接口装置3用于将元数据运行库1中的元数据进行转化提供给其它子系统,以及将元数据传送给元数据知识库装置4进行进一步分析。元数据服务接口装置3包含主处理单元300、通用桥接器单元301和数据库视图单元302,其中主处理单元300连接于通用桥接器单元301与数据库视图单元302。
主处理单元300是本装置的总控单元,用于调用通用桥接器单元301和数据库视图单元302,将元数据分别从元数据运行库装置1中提取到其它子系统5以及元数据知识库中。
通用桥接器单元301是一种数据库桥接器,连接于元数据运行库装置1和元数据知识库装置4,通过访问配置文件描述的数据映射关系,将基于关系型元数据模型的元数据运行库装置1里的元数据,提取到基于对象型元数据模型的元数据知识库装置4,这属于元数据库内部的元数据流动。
数据库视图单元302是根据不同的元数据应用和需求,在基础元数据之上定义的一系列数据库视图的集合,其连接于元数据运行库装置1和其它子系统,用于向其它子系统提供其所需的元数据信息。这是双向元数据体系架构中元数据流动的另一个方向,即从元数据库→其它子系统的方向。元数据库支持其它子系统的运行内容可以包括但不限于以下几种:
1)、源系统数据加载。源系统数据加载运行时从元数据库提供的数据视图中获得的数据结构和接口信息。
2)、DQ检查。DQ子系统通过数据库视图获得接口加载描述信息,并在安装时将该信息静态配置到DQ的检查配置表中,运行时以配置信息为依据对接口的加载情况进行检查。
3)、ETL作业调度。ETL作业调度的依据是数据加工的流程,即系统中数据的流向和顺序。元数据运行库装置1中的数据加工关系表所存放的数据映射关系,正是描述了这种加工流程。因此ETL作业调度必须以元数据为依据,进行作业运行顺序和依赖关系的配置。
4)、元数据浏览和分析。从各种途径获得的元数据信息最终都会通过元数据的前端界面向业务用户和技术用户展现,并基于基础元数据进行数据分析,是一种基于元数据的信息挖掘。通过元数据的浏览和分析,业务用户和技术用户都能从各自关心的角度了解到数据仓库。
如图4所示,图4是本发明提供的元数据知识库装置的结构示意图。元数据知识库装置4包含元数据模型单元401、元数据分析引擎402和元数据查询单元403。
元数据模型单元401连接于通用桥接器单元301,用于接收通用桥接器单元301从元数据运行库单元1中提取的元数据,并存储为对象型元数据模型。
元数据分析引擎402连接于元数据模型单元401与元数据查询单元403,用于对元数据模型单元401中存放的元数据进行查找、汇总和分析,形成满足特定要求的分析结果,返回给元数据查询单元403。其所负责的分析可以包括但不限於以下几种:
1)、血缘分析:对元数据管理系统中的某要素进行数据血缘分析,即已知某一数据项,查找到该数据项从源系统到应用的若干ETL过程相关的数据项、计算方法和计算公式,形成该报表元素或指标的族谱图,从而了解产生该数据项的流程;
2)、影响分析:EDW系统涉及多个子系统,各个子系统之间的数据有着紧密的联系,任何一个子系统的数据变更需要相关子系统的同时的变更,否则,将会影响到整个数据仓库系统的数据质量;影响分析模块将向用户提供完整的受变更影响对象列表,并产生影响分析报告,依照该报告,用户可以评估数据变更的影响程度,确定是否需提交变更请求;
3)、活力分析:对于EDW中的PDM模型,不同的实体被用户使用的情况是不一样的,实体的使用程度也是元数据重要性指标之一,通过设置指定用户对指定实体或者全部实体的访问类型统计,来判断模型中的实体的活力情况:
4)、孤儿分析:对元数据管理系统中的某要素进行数据孤儿分析,确定数据加工过程中的数据“孤岛”:
5)、元数据浏览和查询:根据用户输入的查询界面提供单体查询功能,通过知识库中元数据对象之间的连接,进行元数据关联性的查询。
元数据查询单元403连接于元数据分析引擎402,用于提供用户查询界面,接收用户的查询指令,通过访问元数据分析引擎402的分析结果,向用户反馈查询结果。
基于图1至图4所述的具有双向互动特征的元数据管理系统,图5示出了本发明实现具有双向互动特征的元数据管理的方法,该方法包括:
步骤501:元数据提取装置2将其它子系统5中未经加工的最基础最为明细的元数据,提取并存储到元数据运行库装置1中;
步骤502:元数据运行库装置1将其它子系统5的元数据集成于统一的关系型元数据模型中;
步骤503:元数据服务接口装置3将元数据运行库装置1中的基础元数据变换成满足其它子系统5应用需要的元数据,向其它子系统5提供元数据,并将元数据运行库装置1中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置4;
步骤504:元数据知识库装置4对元数据进行分析,形成满足特定要求的分析结果供用户查询。
图6为本发明的一个实施例,描述了本发明从其它子系统提取元数据的流程,具体包括以下步骤:
步骤600:启动元数据提取流程;
步骤601:元数据提取装置2从其它子系统5统一收集加载脚本以及开发文档;
步骤602:元数据提取装置2中的SQL桥接器、SDM桥接器从收集的加载脚本以及开发文档中提取元数据映射关系,将加载脚本和开发文档描述的转换逻辑解析成数据映射的描述;
步骤603:元数据提取装置2中的SQL桥接器、SDM桥接器将各自提取的映射关系信息,传送给元数据运行库装置1,元数据运行库装置1将该映射关系信息存储为关系型元数据模型。
图7为本发明的另一个实施例,描述了本发明向其它子系统提供元数据的流程,具体包括以下步骤:
步骤700:启动ETL流程调度配置;
步骤701:元数据服务接口装置3中的数据库视图单元302读取元数据运行库装置1中的数据映射关系;
步骤702:数据库视图单元302将数据映射关系转换为基于关系型元数据模型的脚本的运行顺序和依赖关系;
步骤703:数据库视图单元302将该运行顺序和依赖关系提供给其它子系统5,以便ELT子系统中的流程配置工具将脚本的运行顺序和依赖关系存放至ETL运行配置库,从而获得运行配置信息的配置方式,保证了各子系统元数据信息的一致性和准确性。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种具有双向互动特征的元数据管理系统,其特征在于,该系统包括:
元数据运行库装置(1),连接于元数据提取装置(2)和元数据服务接口装置(3),用于存储数据仓库统一的关系型元数据模型,将其它子系统(5)的元数据集成于统一的关系型元数据模型中;
元数据提取装置(2),连接于元数据运行库装置(1)和其它子系统(5),用于将其它子系统(5)中未经加工的元数据,提取并存储到元数据运行库装置(1)中;
元数据服务接口装置(3),连接于元数据运行库装置(1)、元数据知识库装置(4)和其它子系统(5),用于将元数据运行库装置(1)中的基础元数据变换成满足其它子系统(5)应用需要的元数据,向其它子系统(5)提供元数据,并将元数据运行库装置(1)中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置(4);以及
元数据知识库装置(4),连接于元数据服务接口装置(3),用于对元数据进行分析,形成满足特定要求的分析结果供用户查询;
其中,所述元数据服务接口装置(3)包括:
主处理单元(300),用于调用通用桥接器单元(301)和数据库视图单元(302),将元数据分别从元数据运行库装置(1)中提取到其它子系统(5)以及元数据知识库装置(4)中;
通用桥接器单元(301),通过访问配置文件描述的数据映射关系,将基于关系型元数据模型的元数据运行库装置(1)里的元数据,提取到基于对象型元数据模型的元数据知识库装置(4);以及
数据库视图单元(302),用于向其它子系统(5)提供该其它子系统(5)所需的元数据信息;
其中,所述数据库视图单元(302)是根据不同的元数据应用和需求,在基础元数据之上定义的一系列数据库视图的集合,连接于元数据运行库装置(1)和其它子系统(5)。
2.根据权利要求1所述的具有双向互动特征的元数据管理系统,其特征在于,所述元数据运行库装置(1)存储有关系型数据库的元数据模型、元数据的结构以及具体的元数据。
3.根据权利要求2所述的具有双向互动特征的元数据管理系统,其特征在于,所述关系型数据库的元数据模型,具体包括:
源系统数据结构表,用于存放数据仓库源系统表的注释和数据库属性;
源系统字段描述表,用于存放数据仓库源系统表中字段的注释和数据库属性;
源系统表索引描述表,用于存放数据仓库源系统表中索引的字段和数据库属性;
上游接口文件与源系统表关系描述表,用于存放数据仓库与源系统的文件接口的描述;
逻辑数据模型属性表,用于存放数据仓库逻辑数据模型的属性描述;
逻辑数据模型实体表,用于存放数据仓库逻辑数据模型的实体描述;
逻辑数据模型主题表,用于存放数据仓库逻辑数据模型的主题描述;
数据加工关系表,用于存放数据仓库中的各数据对象的加工关系。
4.根据权利要求1所述的具有双向互动特征的元数据管理系统,其特征在于,所述元数据提取装置(2)包括:
主处理单元(200),用于调用SQL桥接器单元(201)、SDM桥接器单元(202)、Excel桥接器单元(203)和XML桥接器单元(204),从其它子系统(5)中提取数据映射关系、数据仓库逻辑模型和源系统数据结构,并传送给元数据运行库装置(1)存储为元数据模型;
SQL桥接器单元(201)和SDM桥接器单元(202),用于提取元数据运行库装置(1)中的数据加工关系表所存放的数据映射关系;
Excel桥接器单元(203),用于提取数据仓库逻辑模型,Excel桥接器通过解析ERWIN格式的数据仓库逻辑数据模型设计文档获得相关数据,存储到元数据运行库装置(1)中的LDM模型属性表、LDM模型实体表和LDM模型主题表中;
XML桥接器单元(204),用于从其它子系统(5)提取源系统数据结构,存放到元数据运行库装置(1)的源系统数据结构表中。
5.根据权利要求4所述的具有双向互动特征的元数据管理系统,其特征在于,所述SQL桥接器单元(201)提取元数据运行库装置(1)中的数据加工关系表所存放的数据映射关系,是通过解析ETL加载脚本中的SQL实现的。
6.根据权利要求4所述的具有双向互动特征的元数据管理系统,其特征在于,所述SDM桥接器单元(202)提取元数据运行库装置(1)中的数据加工关系表所存放的数据映射关系,是通过解析SDM开发文档实现的。
7.根据权利要求3或4所述的具有双向互动特征的元数据管理系统,其特征在于,所述源系统数据结构表描述数据仓库上游系统的数据结构和接口结构,是数据仓库加载源系统文件的依据;源系统数据结构是通过从源系统的统一接口下载的XML获得的,然后通过元数据的桥接器解析并加载到元数据库中。
8.根据权利要求1所述的具有双向互动特征的元数据管理系统,其特征在于,所述通用桥接器单元(301)是一种数据库桥接器,连接于元数据运行库装置(1)和元数据知识库装置(4)。
9.根据权利要求1所述的具有双向互动特征的元数据管理系统,其特征在于,所述元数据知识库装置(4)包括:
元数据模型单元(401),连接于通用桥接器单元(301),用于接收通用桥接器单元(301)从元数据运行库装置(1)中提取的元数据,并存储为对象型元数据模型;
元数据分析引擎(402),连接于元数据模型单元(401)与元数据查询单元(403),用于对元数据模型单元(401)中存放的元数据进行查找、汇总和分析,形成满足特定要求的分析结果,返回给元数据查询单元(403);
元数据查询单元(403),连接于元数据分析引擎(402),用于提供用户查询界面,接收用户的查询指令,通过访问元数据分析引擎(402)的分析结果,向用户反馈查询结果。
10.根据权利要求9所述的具有双向互动特征的元数据管理系统,其特征在于,所述元数据分析引擎(402)对元数据模型单元(401)中存放的元数据进行分析,具体包括:
1)、血缘分析:对元数据管理系统中的某要素进行数据血缘分析,即已知某一数据项,查找到该数据项从源系统到应用的若干ETL过程相关的数据项、计算方法和计算公式,形成报表元素或指标的族谱图,从而了解产生该数据项的流程;
2)、影响分析:企业级数据仓库EDW系统涉及多个子系统,各个子系统之间的数据有着紧密的联系,任何一个子系统的数据变更需要相关子系统的同时的变更,否则,将会影响到整个数据仓库系统的数据质量;影响分析模块将向用户提供完整的受变更影响对象列表,并产生影响分析报告,依照该报告,用户可以评估数据变更的影响程度,确定是否需提交变更请求;
3)、活力分析:对于EDW中的PDM模型,不同的实体被用户使用的情况是不一样的,实体的使用程度也是元数据重要性指标之一,通过设置指定用户对指定实体或者全部实体的访问类型统计,来判断模型中的实体的活力情况;
4)、孤儿分析:对元数据管理系统中的某要素进行数据孤儿分析,确定数据加工过程中的数据“孤岛”;
5)、元数据浏览和查询:根据用户输入的查询界面提供单体查询功能,通过知识库中元数据对象之间的连接,进行元数据关联性的查询。
11.一种实现具有双向互动特征的元数据管理的方法,应用于权利要求1所述具有双向互动特征的元数据管理系统,其特征在于,该方法包括:
元数据提取装置(2)将其它子系统(5)中未经加工的元数据,提取并存储到元数据运行库装置(1)中;
元数据运行库装置(1)将其它子系统(5)的元数据集成于统一的关系型元数据模型中;
元数据服务接口装置(3)将元数据运行库装置(1)中的基础元数据变换成满足其它子系统(5)应用需要的元数据,向其它子系统(5)提供元数据,并将元数据运行库装置(1)中基于关系型元数据模型的元数据,提取到基于对象型元数据模型的元数据知识库装置(4);以及
元数据知识库装置(4)对元数据进行分析,形成满足特定要求的分析结果供用户查询;
其中,所述元数据服务接口装置(3)将元数据运行库装置(1)中的基础元数据变换成满足其它子系统(5)应用需要的元数据,向其它子系统(5)提供元数据,具体包括:
步骤200:启动ETL流程调度配置;
步骤201:元数据服务接口装置(3)中的数据库视图单元(302)读取元数据运行库装置(1)中的数据映射关系;
步骤202:数据库视图单元(302)将数据映射关系转换为基于关系型元数据模型的脚本的运行顺序和依赖关系;
步骤203:数据库视图单元(302)将该运行顺序和依赖关系提供给其它子系统(5)。
12.根据权利要求11所述的实现具有双向互动特征的元数据管理的方法,其特征在于,所述元数据提取装置(2)将其它子系统(5)中未经加工的元数据,提取并存储到元数据运行库装置(1)中,元数据运行库装置(1)将其它子系统(5)的元数据集成于统一的关系型元数据模型中,具体包括:
步骤100:启动元数据提取流程;
步骤101:元数据提取装置(2)从其它子系统(5)统一收集加载脚本以及开发文档;
步骤102:元数据提取装置(2)中的SQL桥接器、SDM桥接器从收集的加载脚本以及开发文档中提取元数据映射关系,将加载脚本和开发文档描述的转换逻辑解析成数据映射的描述;
步骤103:元数据提取装置(2)中的SQL桥接器和SDM桥接器将各自提取的映射关系信息,传送给元数据运行库装置(1),元数据运行库装置(1)将该映射关系信息存储为关系型元数据模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100809231A CN101515290B (zh) | 2009-03-25 | 2009-03-25 | 具有双向互动特征的元数据管理系统及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100809231A CN101515290B (zh) | 2009-03-25 | 2009-03-25 | 具有双向互动特征的元数据管理系统及其实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101515290A CN101515290A (zh) | 2009-08-26 |
CN101515290B true CN101515290B (zh) | 2011-08-31 |
Family
ID=41039743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100809231A Active CN101515290B (zh) | 2009-03-25 | 2009-03-25 | 具有双向互动特征的元数据管理系统及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101515290B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102023979B (zh) * | 2009-09-09 | 2013-02-13 | 中国工商银行股份有限公司 | 元数据管理方法及系统 |
CN102236672B (zh) * | 2010-05-06 | 2016-08-24 | 深圳市腾讯计算机系统有限公司 | 一种数据导入方法及装置 |
US8510728B2 (en) * | 2010-06-30 | 2013-08-13 | International Business Machines Corporation | Dynamic determination of application server runtime classloading |
CN102339298A (zh) * | 2010-07-28 | 2012-02-01 | 中国移动通信集团公司 | Sql脚本元数据的更新方法、装置及系统 |
US8447721B2 (en) * | 2011-07-07 | 2013-05-21 | Platfora, Inc. | Interest-driven business intelligence systems and methods of data analysis using interest-driven data pipelines |
CN102289460B (zh) * | 2011-07-13 | 2013-03-27 | 中国工商银行股份有限公司 | 一种向测试环境进行报表元数据同步的方法及系统 |
CN105653565A (zh) * | 2014-12-03 | 2016-06-08 | 北京神州泰岳软件股份有限公司 | 一种数据核查方法和数据核查装置 |
US11567911B2 (en) * | 2014-12-19 | 2023-01-31 | Sergey Anatol'evich GORISHNIY | System and method for management of functionally linked data |
CN104820720A (zh) * | 2015-05-26 | 2015-08-05 | 北京京东尚科信息技术有限公司 | 一种数据质量检测方法和装置 |
CN106294478B (zh) * | 2015-06-04 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 数据仓库的数据处理方法及装置 |
CN105354211A (zh) * | 2015-09-24 | 2016-02-24 | 四川长虹电器股份有限公司 | 基于MongoDB实现XBRL实例文档存取的方法 |
CN105701181A (zh) * | 2016-01-06 | 2016-06-22 | 中电科华云信息技术有限公司 | 一种动态异构元数据获取方法及系统 |
CN105701243A (zh) * | 2016-02-26 | 2016-06-22 | 广州品唯软件有限公司 | 一种基于元数据模型的管控方法及装置 |
CN105760520A (zh) * | 2016-02-26 | 2016-07-13 | 广州品唯软件有限公司 | 一种数据管控平台及架构 |
CN105787051A (zh) * | 2016-02-26 | 2016-07-20 | 广州品唯软件有限公司 | 一种基于元数据模型的分析方法及装置 |
CN106484520A (zh) * | 2016-10-17 | 2017-03-08 | 北京集奥聚合科技有限公司 | 一种基于数据血缘关系的智能调度方法及系统 |
US11379537B2 (en) * | 2016-11-18 | 2022-07-05 | Accenture Global Solutions Limited | Closed-loop unified metadata architecture with universal metadata repository |
CN110019501A (zh) * | 2017-08-24 | 2019-07-16 | 深圳市金证科技股份有限公司 | 一种数据采集方法、装置及终端设备 |
CN110019267A (zh) * | 2017-11-21 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种元数据更新方法、装置、系统、电子设备及存储介质 |
CN108052618B (zh) * | 2017-12-15 | 2020-06-30 | 北京搜狐新媒体信息技术有限公司 | 数据管理方法及装置 |
CN109102754B (zh) * | 2018-06-20 | 2020-12-01 | 新华三大数据技术有限公司 | 数据地图的生成方法及装置 |
CN108920600B (zh) * | 2018-06-27 | 2021-07-06 | 中国科学技术大学 | 一种基于数据关联性的分布式文件系统元数据预取方法 |
CN109242259B (zh) * | 2018-08-10 | 2020-12-11 | 华迪计算机集团有限公司 | 一种基于基础数据资源库的数据集成方法及系统 |
CN109344173B (zh) * | 2018-09-10 | 2022-03-15 | 创新先进技术有限公司 | 数据管理方法和装置、数据结构 |
CN109697626A (zh) * | 2018-10-19 | 2019-04-30 | 上海吉贝克信息技术有限公司 | 基于JeeSite快速开发平台的营销系统、方法、电子终端及介质 |
CN109739893B (zh) * | 2018-12-28 | 2022-04-22 | 上海尚往网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN111967440B (zh) * | 2020-09-04 | 2023-10-27 | 郑州轻工业大学 | 一种农作物病害的综合识别处理方法 |
CN112347124A (zh) * | 2020-11-12 | 2021-02-09 | 浙江百应科技有限公司 | 一种元数据管理平台及元数据管理方法 |
CN112597207B (zh) * | 2020-12-29 | 2022-09-23 | 科技谷(厦门)信息技术有限公司 | 一种元数据管理系统 |
CN113094515A (zh) * | 2021-04-13 | 2021-07-09 | 国网北京市电力公司 | 基于电力营销数据的知识图谱实体及链接提取方法 |
-
2009
- 2009-03-25 CN CN2009100809231A patent/CN101515290B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101515290A (zh) | 2009-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101515290B (zh) | 具有双向互动特征的元数据管理系统及其实现方法 | |
CN111339421B (zh) | 基于云技术的信息搜索的方法、装置、设备及存储介质 | |
CN104933160B (zh) | 一种面向安全监测业务分析的etl框架设计方法 | |
CN104123346A (zh) | 一种结构化数据搜索方法 | |
CN102760058B (zh) | 面向大规模协作开发的海量软件项目共享方法 | |
Hasani et al. | Lambda architecture for real time big data analytic | |
CN101853288A (zh) | 基于文档实时监控可配置的全文检索服务系统 | |
CN103514223A (zh) | 一种数据仓库数据同步方法和系统 | |
CN101354759A (zh) | 一种基于元模型的工作流流程定义转换的方法及系统 | |
CN102929664A (zh) | 一种基于xsd结构的通用数据交换方法 | |
CN104090958A (zh) | 一种基于领域本体的语义信息检索系统及方法 | |
CN201378319Y (zh) | 具有双向互动特征的元数据管理系统 | |
US20150081744A1 (en) | Metadata model repository | |
CN102722368B (zh) | 一种基于文档树和消息泵的插件式软件设计方法 | |
CN101017432A (zh) | 一种构件库管理方法 | |
CN105824892A (zh) | 一种数据池对数据同步和处理的方法 | |
CN114792145A (zh) | 一种基于知识图谱的标准数字化管理维护系统及方法 | |
CN105550351B (zh) | 旅客行程数据即席查询系统及方法 | |
Barkhordari et al. | Atrak: a MapReduce-based data warehouse for big data | |
CN115329011A (zh) | 数据模型的构建方法、数据查询的方法、装置及存储介质 | |
CN103809915A (zh) | 一种磁盘文件的读写方法和装置 | |
US10877998B2 (en) | Highly atomized segmented and interrogatable data systems (HASIDS) | |
Grzegorowski | Scaling of complex calculations over big data-sets | |
CN101876896B (zh) | 一种提升信息化技术的电子政务开发系统 | |
Al-Sadoon et al. | From static to dynamic information containers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |