CN105144080A - 用于元数据管理的系统 - Google Patents

用于元数据管理的系统 Download PDF

Info

Publication number
CN105144080A
CN105144080A CN201480016203.8A CN201480016203A CN105144080A CN 105144080 A CN105144080 A CN 105144080A CN 201480016203 A CN201480016203 A CN 201480016203A CN 105144080 A CN105144080 A CN 105144080A
Authority
CN
China
Prior art keywords
data
version
node
edition
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480016203.8A
Other languages
English (en)
Other versions
CN105144080B (zh
Inventor
格雷格·约斯特
杜桑·拉迪沃杰维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ab Initio Technology LLC
Original Assignee
Ab Initio Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ab Initio Technology LLC filed Critical Ab Initio Technology LLC
Publication of CN105144080A publication Critical patent/CN105144080A/zh
Application granted granted Critical
Publication of CN105144080B publication Critical patent/CN105144080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning

Abstract

一种方法、系统和设备,其包括在计算机存储介质上编码的计算机程序,用于元数据管理。这些方法其中之一包括接收用于选择第一节点的用户输入。所述方法还包括接收第一对象的第一数据志,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系。所述方法还包括接收用于选择第二节点的用户输入。所述方法还包括接收第二对象的第二数据志,其中所述第二对象具有与所述第一对象的类型相同的类型。所述方法还包括将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较。所述方法还包括基于所述比较生成报告。

Description

用于元数据管理的系统
优先权要求
本申请要求2013年3月15日提交的美国专利申请61/790,074的优先权,其全部内容通过引用包含于此。
背景技术
本说明书涉及用于维护和比较数据处理系统的多个版本的系统。
企业使用诸如数据仓库、客户关系管理、数据挖掘等的复杂的数据处理系统来管理数据。在许多数据处理系统中,将数据从诸如数据库文件、操作系统、非结构文件(flatfile)和因特网等的许多不同的数据源拉入中央存储库。经常,在将数据载入数据系统之前对数据进行变换。变换可以包括整理(cleansing)、集成和提取。为了保持对数据及其源和存储在数据系统中的数据所发生过的变换的追踪,可以使用元数据。元数据(有时也称为“与数据有关的数据”)是描述其它数据的属性、格式、来源、历史和相互关系等的数据。元数据管理可以在复杂的数据处理系统中起到核心作用。
有时数据库用户可能想研究如何从不同的数据源获得特定数据。例如,数据库用户可能想知道数据集或数据对象是如何生成的或者是从哪个源导入的。将数据集回溯至获得该数据集的源称为数据志跟踪(datalineagetracing)(或“上游数据志跟踪”)。有时数据库用户可能想研究特定数据集是如何被使用的(称为“下游数据志跟踪”或“影响分析”),例如,哪个应用程序读取了给定数据集。数据库用户还可能有兴趣知道数据集是如何与其它数据集相关的。例如,用户可能想知道如果修改了数据集,则将影响哪些输出表。
发明内容
通常,本发明中所述的主题的一个创新方面可以实现为以下的方法,该方法包括接收在包括节点的第一图中选择第一节点的用户输入的动作。所述方法还包括接收与所述第一节点相关联的第一对象的第一数据志的动作,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系。所述方法还包括接收从包括节点的第二图选择第二节点的用户输入。所述方法还包括接收与所述第二节点相关联的第二对象的第二数据志的动作,其中,所述第二对象具有与所述第一对象的类型相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系。所述方法还包括将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较的动作。所述方法还包括基于所述比较生成报告的动作。
该方面的其它实施例包括相应的计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,其中这些计算机系统、设备和计算机程序各自被配置为进行该方法的动作。一个或多个计算机的系统可被配置为通过将软件、固件、硬件或它们的组合安装在该系统上来进行特定动作,其中该一个或多个计算机在工作时使该系统进行这些动作。一个或多个计算机程序可被配置为通过包括如下指令来进行特定动作,其中这些指令在由数据处理设备执行的情况下使设备进行该动作。
上述和其它实施例可以各自可选地以单独或组合方式包括以下特征中的一个或多个。所述第一节点的类型可以是包括数据集的字段、数据集的列、数据集或变换的组的其中之一。所述图可以包括表示数据处理系统的组件的节点和表示数据处理系统的组件之间的数据流的有向边。差异可以限于所述第一对象和所述第二对象之间的结构差异。所述第一对象可以是对象的第一版本并且所述第二对象是所述对象的第二版本。所述方法还可以包括使用针对所述对象的所述第一版本的唯一标签和查找表来访问所述对象的所述第一版本。所述方法还可以包括使用针对所述对象的所述第二版本的唯一标签和查找表来访问所述对象的所述第二版本。所述对象的所述第一版本和所述对象的所述第二版本在修改历史中可以具有祖先-后代关系。所述对象的所述第一版本和所述对象的所述第二版本在修改历史中可以具有共同的祖先,但所述对象的任一版本不是所述对象的另一版本的后代。所述对象的所述第一版本和所述对象的所述第二版本可以同时描述所述数据处理系统所采用的实现方式。
方面可以包括以下优点中的一个或多个。一些实现可以使得能够进行多组件数据处理系统中的改变的影响分析。一些实现可以便于比较多组件数据处理系统的替代版本。一些实现可以便于维护复杂的多组件数据处理系统。一些实现可以减少多组件数据处理系统的开发和维护成本。
通过以下的说明书和权利要求书,本发明的其它特征和优点将变得明显。
附图说明
图1是用于管理数据处理系统的多个版本的元数据的系统的框图。
图2A~2C示出反映描述数据处理系统的两个版本的元数据之间的差异的数据志图的示例。
图3A示出比较两个不同的应用程序的数据集的报告的示例。
图3B示出比较两个数据集的报告的示例。
图3C示出比较目录的报告的示例。
图3D示出比较字段或列的报告的示例。
图3E示出反映描述数据处理系统的两个版本的元数据之间的差异的数据志表的示例。
图4是用于生成对数据处理系统的版本进行比较的数据志的表示的示例处理的流程图。
具体实施方式
元数据是描述数据的数据。元数据可以是技术的,即,元数据可以描述数据结构的规格,例如,数据结构的记录格式、图像的大小或图像的颜色深度。元数据还可以与业务相关,即,元数据可以提供与数据有关的非结构信息,例如,针对数据结构的记录系统、拍摄图像的时间或拍摄者的名字等。
元数据可以响应于底层系统或数据源的改变而改变。系统可以存储多个版本的元数据。用户可能希望将改变后的元数据与元数据的前一版本或者在元数据的多个版本之间进行比较。
一些实现为了比较针对多组件计算系统的元数据的多个版本而提供组件间的依赖性。使得用户能够评估版本之间的变化的系统范围影响(system-wideimpact)。可以使用这些技术中的一些技术来比较元数据的分支或并行(例如,表示不同的地理区域中所配置的数据处理系统的实例)版本。可以在单个界面中比较元数据的多个版本的数据志。例如,可以对数据志的图形表示进行颜色编码以指示元数据版本所描述的计算系统中的哪些组件在版本之间是相同的或不同的。可以利用编码(例如,颜色编码)来进一步强调系统级别的影响以指示上游改变何时改变了组件的输出而不是组件本身。
还可以将数据志的比较表示为反映组件之间的依赖性的系统组件的表格列表。还可以启用元数据的结构比较(例如,用以从注释的改变中区分出有效改变)。在一些实现中,元数据的各个版本具有使用查找表来映射到各种系统组件的唯一版本标签。
图1是用于管理数据处理系统的多个版本的元数据的系统的框图。环境100包括数据源102,该数据源102可以包括诸如存储装置或与在线数据流的连接等的一个或多个数据的源,其中该一个或多个源各自可以以各种存储格式(例如,数据库表、电子表格文件、非结构文本文件或大型机所使用的原本格式)中的任何格式来存储数据。数据处理系统120包括数据处理组件(处理组件A122、……、处理组件Z124)。在诸如UNIX操作系统等的适当操作系统的控制下,数据处理系统120可以安装在一个或多个通用计算机上。例如,数据处理系统120中的处理组件(例如,处理组件A122)可以包括包含使用多个中央处理单元(CPU)的计算机系统的结构的多节点并行计算环境,可以是本地的(例如,诸如SMP计算机等的多处理器系统)或本地分布式的(例如,作为集群所连接的多个处理器或MPP)、或者远程或远程分布式的(例如,经由局域网(LAN)和/或广域网(WAN)连接的多个处理器)、或者它们的任何组合。
在一些实现中,从包括基于不同的技术(例如,以不同的编程语言编写的软件或者由运行不同的操作系统的单独计算装置操控的模块等)的处理组件的意义上而言,数据处理系统是异构(heterogeneous)的。
数据处理系统120访问来自数据源102的数据,使用其处理组件(例如,122和124)来处理该数据以生成输出数据。数据处理系统120的用户可以直接存储和/或使用该输出数据。在一些实现中,可以导出输出数据,例如,写回数据源102中的一个或多个数据源或者写出至任何其它数据宿(datasink)。
元数据管理系统130收集描述数据处理系统120和/或其外部数据源102的操作的元数据。可以将描述数据处理系统120的组件(例如,处理组件A122和/或外部大型机数据源110)的元数据存储在数据存储系统140上的关系数据库142中作为元数据对象记录。元数据管理系统130维护描述数据处理系统的一个或多个版本的元数据,其中该元数据包括对外部数据源102的描述,并且使得用户(例如,用户150)能够经由用户终端152的用户接口与元数据进行交互。例如,用户终端152可以包括用户150用来与元数据管理系统130进行交互的图形用户界面。用户可能能够查询和/或编辑描述数据处理系统120的各个版本的组件的元数据。
元数据管理系统130向用户150提供的功能的其中之一是用以生成和查阅数据志表示(例如,数据志图、数据志表或反映数据处理系统120的组件之间的依赖性的其它表示)的能力。
在一些示例中,数据存储器140可以包括基础数据存储器和接口数据存储器二者。基础存储器可以存储技术元数据,并且可以包括应用程序及其诸如图和变换等的相关元数据。除存储技术元数据外,基础数据存储器还可以进行包括依赖性分析(例如,如以下更详细地说明,计算数据志)的各种类型的分析,还可以接收和存储这种分析的结果。在一些示例中,可以组合基础数据存储器和接口数据存储器并且作为单个数据存储器来实现。
尽管技术元数据在各种功能上对开发者是有用的,但存在许多需要分析和操作的更高级别的元数据的实例。有时称为“企业”或“业务”元数据的该更高级别的元数据在数据分析中经常有用。业务元数据的一些示例包括数据管理工作,该数据管理工作指示哪个员工负责数据和作为文件和文件内的字段的业务定义的数据字典。业务元数据超越数据的技术描述,并且可以存储在诸如接口数据存储器等的与基础数据存储器分离的平台上。
以元数据对象的形式存储在数据存储器140中的信息使得能够对应用程序和利用这些应用程序所处理的数据进行各种类型的分析。例如,如以下进一步讨论,用户可以获得针对与数据志有关的问题(例如,给定值从哪里来?如何计算出了输出值?哪些应用程序产生并且依赖于该数据?)的答案。开发者可以理解所提出的修改的后果(例如,如果其发生改变,则还将影响什么?如果该源格式发生改变,则将影响哪些应用程序?)。用户/开发者还可以获得针对包含技术元数据和业务元数据二者的答案的问题(例如,哪些组负责产生和使用该数据?谁最后改变了该应用程序?他们作了什么改变?)
数据存储器140能够追踪所存储的元数据对象的状态。将存储在数据存储器140中的对象版本化,使得可以检查如上周、上个月或去年的事项的状态,并且将其与今天的事项的状态进行比较。数据存储器140可以收集作业追踪、或使得能够进行趋势分析(例如,我们的数据增长有多快?)和能力计划(例如,该应用程序用了多长时间运行?该应用程序处理了多少数据,以及速率是多少?应用程序消耗了什么资源?我们什么时候将需要添加另一台服务器?)的执行信息。
在一些情况下,可以从数据存储器140或数据的其它源提取关系(诸如志信息等)。接口数据存储器可以保持数据志的高级别汇总。志信息(或其它数据依赖性分析)可以在系统100内自动计算,也可以从外部系统接收,或者来自人工输入。例如,系统100可以接收已经通过人对代码进行分析所采集到和准备好的志信息。可以将志信息以各种预定格式(例如,电子表格)中的任何格式从文件导出至数据存储器140。
例如,数据志表示可以显示针对数据和/或表示数据存储器140中所存储的元数据对象的处理节点的端对端志,即,给定开始对象所依赖的对象(给定开始对象的源)和给定开始对象所影响的对象(给定开始对象的目标)。在一些实现中,可以生成数据志表示来反映描述数据处理系统120的元数据的两个以上版本之间的差异。例如,可以对组件(例如,图中的节点,或者表格中的一个或多个单元)的表示进行颜色编码以反映该组件的两个版本之间的差异。例如,通过在数据志的表示上覆盖两个版本的差异信息,可以使得用户能够更容易地评估在数据处理系统120的两个版本之间切换的系统范围影响。这从而可以减少对该数据处理系统的维护成本和潜在系统停机时间。
提供数据源102的存储装置相对于数据处理系统120可以是本地的,例如,存储在连接至运行数据处理系统120的一个或多个处理组件的计算机的存储介质(例如,硬盘驱动器108)上,或者相对于数据处理系统120可以是远程的,例如,通过远程连接而安装在与运行数据处理系统120的一个或多个处理组件的计算机进行通信的远程系统(例如,大型机110)上。在一些实现中,数据源102中的一个或多个数据源装置被不同的实体所操作并且它们可利用的元数据仅描述识别数据源和使得数据处理系统120能够从它们提取数据所需要的信息(例如,限于识别和应用程序编程接口(API)信息),从这种意义上而言,数据源102中的一个或多个数据源装置在数据处理系统120的外部。
图2A示出示例数据志图200的第一版本的示意图。该图示出数据存储和变换之间的依赖关系。数据经过用于对从一个或多个数据源到一个或多个数据宿(统一数据存储)的数据流进行处理的、由数据志图的节点所表示的数据处理组件的序列。可以利用在分开的处理装置上运行的处理来实现底层数据处理系统中的各种数据处理组件中的任何数据处理组件,或者可以利用在单个处理装置上运行的一个或多个处理来实现多个数据处理组件。在一些实现中,可以在输入数据记录到达(例如,响应于针对信用卡交易的请求)时连续地对其进行处理。在一些实现中,可以分批处理数据,其中对要利用数据志图200所反映的系统来处理的一组输入数据记录进行标识。
在该示例中,数据源“美国馈送”202将数据提供给“变换A”204变换。变换A204对“美国馈送”202所提供的数据进行操作并且将结果存储在“中间数据集1”206数据存储器中。中间数据集1206数据存储器和“墨西哥馈送”208数据存储器将数据提供给“变换B”210变换。变换B210变换使用从墨西哥馈送208和中间数据集1206提供的数据并且将结果存储在“输出数据集”212数据存储器中。
图2B示出示例数据志图220的第二版本的示意图。第二版本可以是以上针对图2A所述的数据志图的第一版本的更近期版本或更新版本。第二版本还可以是可以与数据志的第一版本并行的数据志。
在该示例中,数据源“美国馈送”222将数据提供给“变换A”224变换。变换A224对“美国馈送”222所提供的数据进行操作并且将结果存储在“中间数据集1”226数据存储器中。数据源“墨西哥馈送”228和“巴西馈送”238将数据提供给“变换C”230变换。变换C230变换对“墨西哥馈送”228所提供的数据进行操作并且将结果存储在“中间数据集2”232数据存储器中。
中间数据集1226数据存储器和中间数据集2232数据存储器将数据提供给“变换B”234变换。变换B234变换使用从中间数据集1226和中间数据集2232提供的数据并且将结果存储在“输出数据集”236数据存储器中。
图2C示出描述数据处理系统的元数据的两个版本的示例数据志图240的示意图。在该示例中,将上述的第一版本与第二版本进行比较。数据志图240包括元数据的两个版本之间的差异的指示。在所示的示例中,利用等同于颜色编码的阴影图案来指示该差异。
在该示例中,数据源“美国馈送”242将数据提供给“变换A”246变换。变换A246对“美国馈送”242所提供的数据进行操作并且将结果存储在“中间数据集1”248数据存储器中。数据源“墨西哥馈送”250和“巴西馈送”260将数据提供给“变换C”252变换。变换C252变换对“墨西哥馈送”250所提供的数据进行操作并且将结果存储在“中间数据集2”254数据存储器中。
中间数据集1248数据存储器和中间数据集2254数据存储器将数据提供给“变换B”256变换。变换B256变换使用从中间数据集1248和中间数据集2254提供的数据并且将结果存储在“输出数据集”258数据存储器中。
节点252、254和260的阴影指示数据处理系统的相应组件和数据存储器仅存在于该数据志的表示中的正在被比较的两个版本其中之一(例如,仅在第二版本中)。例如,在底层数据处理系统的第二版本中,变换C可以从无法匹配特定标准的数据流移除特定记录(例如,移除针对不居住在墨西哥城的客户的所有记录)。在底层数据处理系统的第一版本中,变换C不存在,因此包括针对墨西哥城客户的记录的所有记录将经由数据处理系统传递至数据流中的下一组件。可以将所传递的记录存储在数据存储器2中。由节点256所反映的变换B组件没有阴影,这指示其出现在两个版本中。在各版本中,变换B将对源自美国馈送、墨西哥馈送和巴西馈送的记录进行操作以填入输出数据集。变换B组件本身可以针对存储或显示来对从中间数据集1以及墨西哥馈送(针对版本1)或中间数据集2(针对版本2)接收到的数据进行格式化。例如,在第一版本中,报告可以包括来自产品订单的所有收入的总和,并且在第二版本中,报告a可以包括来自墨西哥城的居民的产品订单的所有收入的总和。尽管,变换C和输出数据集不变,但由于上游组件变换C插入到了一个版本而没有插入另一个版本,因此在两个版本之间变换C和输出数据集各自的输出可以是不同的。查阅数据志图240的用户可以容易地确定变换C是正在被比较的两个版本之间的差异,并且尽管在两个版本之间在节点下游的节点本身是相同的,但由这些节点所反映的所有组件的输出也有可能改变。因此,可以快速评估两个版本之间的改变的影响范围。
在一些实现(未示出)中,通过添加如下节点的状态的附加指示,可以更清楚地突出显示这些节点,其中,这些节点本身尚未改变,但是可能由于数据志中的上游改变而导致相应组件的输出改变。例如,可以利用第二阴影或颜色对在改变后的节点的下游的这些节点进行阴影或颜色编码以更明确地反映这些节点的状态。
例如,变换B(由节点256所反映)可以将来自中间数据集1的信息与中间数据集2进行组合。将该记录序列存储在数据存储器258中。节点246和节点248的条纹阴影指示由这些节点所反映的组件存在于正在被比较的两个版本中,但在两个版本中这些节点有所不同。查阅数据志图200的用户可以容易地确定这些差异出现在哪里以及两个版本之间的差异的影响范围。
例如,数据志图240可以利用元数据管理系统130来生成并且经由图1中的用户终端152的图形用户界面向用户150显示。
可以生成用以标识和突出显示针对系统中的不同的组件的元数据之间的差异的报告。如以下进一步的讨论,可以生成基于数据源、数据集、目录、字段和列来比较数据集的报告。还可以生成如上所述的用以标识和突出显示利用数据志来标识的描述数据处理系统的两个版本的元数据之间的差异的报告。在一些实现中,报告可以基于数据志图的预定部分来标识数据集、数据组件和变换。例如,第一部分262可以标识为“最终数据源”,第二部分264可以标识为“初始变换”,第三部分266可以标识为“中间数据集”,第四部分268可以标识为“二次变换”,并且第五部分270可以标识为“报告”。
图3A示出基于数据源来比较两个不同的应用程序的数据集的报告的示例。报告300标识对数据处理系统中的应用程序进行描述的数据集之间的差异。报告300的行各自反映应用程序所使用的数据集。报告300的列各自反映应用程序,在该示例中,为“美国馈送”数据源302和“墨西哥馈送”数据源304。
利用阴影来指示存在于报告300所比较的数据处理系统的应用程序中的数据集的两个版本之间的差异。条纹行(例如,条纹行306和310)指示与行或列(例如,“City-name.rej”数据集和“Customer.err”数据集)相对应的数据集存在于两个版本中但在两个版本之间有所不同(例如,进行了修改)。阴影行和列(例如,阴影行308和312)指示与行(例如,“Bogo_promos.dat”数据集和“Dg_Issues”数据集)相对应的数据集仅存在于所比较的两个版本其中之一。
图3B示出比较两个数据集的报告的示例。报告320标识对数据处理系统中的应用程序进行描述的数据集之间的差异。报告320的行各自反映各数据集中的数据元素。报告320的列各自反映数据集,在该示例中,为标记为“customer.dat”322和“customer.dat(2)”324的两个版本的客户数据集。
利用阴影来指示报告320所比较的数据集的两个版本之间的差异。条纹行(例如,条纹行330)指示与行或列(例如,“Cust_birthday”数据元素)相对应的数据元素存在于两个版本中但在两个版本之间有所不同(例如,进行了修改)。阴影行和列(例如,阴影行328和332)指示与行(例如,“Main_postcode”数据集和“Main_zipcode”数据元素)相对应的数据元素仅存在于所比较的两个版本其中之一中。
图3C示出比较目录的报告的示例。报告340标识计算机系统所使用的目录之间的差异。报告340的行各自反映目录中所存储的文件。报告340的列各自反映目录中的文件,在该示例中,为“Workarea(1)”目录342和“Workarea(2)”目录344。
利用阴影来指示两个目录之间的差异。条纹行(例如,条纹行346和350)指示与行或列(例如,“Promotions.rej”文件和“Customers.rej”文件)相对应的文件存在于两个版本中但在两个目录之间有所不同(例如,进行了修改)。阴影行和列(例如,阴影行348和352)指示与行(例如,“Cust_payments.dat”文件和“Promotions.dat”文件)相对应的文件仅存在于两个目录其中之一中。
图3D示出比较字段或列的报告的示例。报告360标识一个或多个数据集中的字段或列之间的差异。报告360的行表示字段或列的特征。可以利用附加列361来标识特征。报告360的列各自反映数据集中的字段或列,在该示例中,为“Cust_Birthday”字段362和“Cust_Birthday(2)”字段364。
利用阴影来指示两个字段或列之间的差异。条纹行(例如,条纹行366和370)指示针对与行或列(例如,“数据集”特征和“原本类型”特征)相对应的各特征的值存在于两个字段中但在两个字段之间有所不同。阴影行和列(例如,阴影行368和372)指示与行(例如,“默认值”特征和“业务术语”特征)相对应的特征仅存在于两个字段其中之一中。
图3E示出反映描述数据处理系统的两个版本的元数据之间的差异的数据志表380的示例。在该示例中,数据志表380反映如图2C中的数据志图240所反映的,图2A中的数据志图200与图2B中的数据志图220之间的差异。
如以上针对图2C所述,该表格的标题行382标识数据志图的部分。第一列286标识与数据志图的报告区域262相关的数据志图的组件,并且第二列287标识与数据志图268的二次变换部分相关的数据志图的组件。第三列288标识与中间数据集部分266相关的数据志图的组件。第四列289标识与初始变换部分264相关的数据志图的组件,并且第五列290标识与最终数据源部分262相关的数据志图的组件。
行284示出与输出数据集相关联的组件。在该示例中,扩大输出数据集的区域的大小以在视觉上可识别为与变换B、中间数据集1、中间数据集2、变换A、变换C、美国馈送、墨西哥馈送和巴西馈送相关联。针对各区域,调整区域的大小以清楚地示出组件之间的关系。例如,墨西哥馈送和巴西馈送与变换C相关联,即,参考图2C,墨西哥馈送250和巴西馈送260将数据提供给变换C252。这样,针对变换C的区域294的大小足够大以使其在视觉上与针对墨西哥馈送的区域和针对巴西馈送的区域296相关联。
可以利用阴影来指示数据志的两个组件之间的差异。条纹区域(例如,条纹区域291和292)指示组件出现在数据志图的两个版本中,但已经以同样的方式发生了改变。例如,中间数据集1作为中间数据集1206出现在图2A中的数据志图200中并且还作为中间数据集1226出现在图2B中的数据志图220中,但由报告所反映的数据集存在一些改变。
实心区域(例如,实心区域293、294和296)指示组件仅出现在数据志图其中之一中,或者在正对多个版本进行比较的情况下不出现在数据志图的至少之一中。例如,变换C出现在图2B中的数据志图220中但不出现在图2A中的数据志图200中。
可以将针对数据志的任何元素的元数据进行比较。例如,可以对数据集和数据变换组件的版本进行比较。图4示出针对示例元数据版本比较处理400的流程图。例如,可以利用图1中的元数据管理系统130来进行处理400。
处理400可以在接收402针对版本比较的请求时开始。在一些实现中,该请求可以包括基础或参考版本的显式或隐式标识,其中将针对该基础或参考版本来比较任何其它版本。该请求还可以包括可利用元数据的数据处理系统的另一个附加版本的标识。在一些实现中,该请求包括在不指定基础版本的情况下标识对数据处理系统进行描述的元数据的两个以上版本的信息。例如,标识版本的信息可以包括与数据处理系统的版本相关联的唯一版本标签。
利用针对比较的请求所标识的版本彼此可以具有各种关系。在一些实现中,元数据的第一版本和元数据的第二版本在修改历史中具有祖先-后代关系。例如,第一版本可以是第二版本的更近期的修改或者第二版本可以是第一版本的更近期的修改。在一些实现中,元数据的第一版本和元数据的第二版本在修改历史中具有共同的祖先,但元数据的任何版本都不是元数据的另一版本的后代。例如,第一版本和第二版本可以与均从更早的第三版本获得的并行替代开发路径相对应。在一些实现中,元数据的第一版本和元数据的第二版本同时描述数据处理系统所采用的实施方式。例如,元数据的第一版本可以描述第一地理区域(例如,北美)中所配置的数据处理系统的实例并且元数据的第二版本可以描述第二地理区域(例如,欧洲)中所配置的数据处理系统的实例。在其它示例中,元数据的第一版本可以描述数据处理系统的测试模式实例并且元数据的第二版本可以描述数据处理系统的生产模式实例。
在一些实现中,经由包括与接收请求的处理装置本地连接的硬件(例如,计算机显示器以及键盘和/或鼠标)的用户接口(例如,图形用户界面)来接收请求。例如,可以经由图1中的元数据管理系统130的用户接口来接收402请求。在一些实现中,服务器从远程处理装置经由网络接口接收请求。例如,可以从在远程处理装置上工作的用户终端152经由元数据管理系统130的网络接口接收402请求。
检索404描述数据处理系统的元数据的第一版本。在一些实现中,使用针对元数据的第一版本的唯一标签和查找表来访问针对元数据的第一版本的元数据。例如,关系数据库可以包括列出指向与数据处理系统的组件相关联的元数据对象的外键的查找表。在一些实现中,描述数据处理系统的组件的元数据对象可以包括作为外键的一个或多个版本的标签。在检索404元数据的第一版本的情况下,可以查询关系数据库以返回包括针对第一版本的版本标签的所有元数据对象。例如,利用图1中的元数据管理系统130从驻留在数据存储器140上的关系数据库142检索404元数据的第一版本。
生成406数据处理系统中的组件之间的依赖性的表示。表示可以反映基于描述数据处理系统的元数据的第一版本的第一数据志。在一些实现中,表示可以包括具有表示数据处理系统的组件的节点以及表示数据处理系统的组件之间的数据流的有向边的图形。例如,图2示出反映数据处理系统的组件之间的依赖性的数据志图的示例。在一些实现中,表示可以包括列出数据处理系统的组件的表格。例如,图3示出反映数据处理系统的组件之间的依赖性的数据志表的示例。在一些实现中,表示可以包括所保存的文件、经由网络所发送的数据包、或反映数据处理系统的组件之间的依赖性的其它数据。例如,可以利用图1中的元数据管理系统130来生成406表示。
检索408描述数据处理系统的元数据的第二版本。在一些实现中,使用针对元数据的第二版本的唯一标签和查找表来访问针对元数据的第二版本的元数据。例如,关系数据库可以包括列出指向与数据处理系统的组件相关联的元数据对象的外键的查找表。外键中的一部分可以指向与描述数据处理系统的元数据的基础或参考版本相关联的元数据对象。由于针对数据处理系统的相应组件的元数据对象针对与版本标签相关联的版本而不同,或者由于元数据对象与不存在于基础或参考版本中的组件相对应,因此其它外键可以指向与基础或参考版本不同的元数据对象。在一些情况下,存在于基础或参考版本中的元数据对象可能不存在于与版本标签相关联的版本中。
在一些实现中,版本标签与基础或参考版本的所有元数据对象隐式地关联,除非被与版本标签相关联的查找表中的值显式地重写。例如,针对版本标签的查找表条目可以仅对与基础版本的差异进行编码。在基础版本中省略了描述组件的元数据对象的情况下,查找表可以包括具有指向该元数据对象的外键的条目。在与版本标签相关联的版本中(相对于基础版本)修改了描述组件的元数据对象的情况下,查找表可以包括具有指向与基础版本相关联的元数据对象和与版本标签相关联的元数据对象二者的外键的条目。在与版本标签相关联的版本中省略了描述组件的元数据对象的情况下,查找表可以包括具有指向与基础版本相关联的元数据对象的外键和反映删除的空键的条目。
在一些实现中,可能不存在基础或参考版本并且各个版本标签与指向与该特定版本相关联的元数据对象的任意集合的外键集相关联。
例如,可以利用图1中的元数据管理系统130从驻留在数据存储器140上的关系数据库142检索404元数据的第一版本。
增加410数据处理系统中的组件之间的依赖性的表示以反映第一数据志和基于描述数据处理系统的元数据的第二版本的第二数据志之间的差异。在一些实现中,可以通过对指向分别与两个版本中的版本标签相关联的元数据对象的外键的列表进行比较来检测差异。在一些实现中,可以通过读取指向仅针对第二版本的元数据对象的外键的列表来检测差异,其中已经以明确地指示与作为基础或参考版本的第一版本的差异的格式而生成了和/或存储了列表。在一些实现中,通过对分别与两个版本标签相关联的元数据对象进行直接比较来检测差异。
可以按各种方式在表示中反映差异。例如,可以对表示的特定元素进行颜色编码以反映描述数据处理系统的组件的元数据对象的(相对于第一版本的)删除或修改。可以将反映附加(即,新的)元数据对象(相对于第一版本)的指示或其它数据添加至表示。在一些实现中,表示包括数据志图并且利用节点的颜色编码来至少部分地反映元数据的两个版本之间的差异,以指示哪些组件在元数据的第一版本和元数据的第二版本之间发生了改变。在一些实现中,利用节点的颜色编码来至少部分地反映元数据的两个版本之间的差异,以指示哪些组件输出将由于数据志中的上游改变而导致在元数据的第一版本和元数据的第二版本之间发生改变。例如,可以对反映本身在第二版本中(相对于第一版本)被修改的元数据对象的节点应用第一颜色(例如,黄色),并且对反映本身尚未被修改但可能由于数据志中的上游改变而导致生成不同输出的元数据对象的节点应用第二颜色(例如,红色)。
在一些实现中,表示包括数据志表,并且利用表格中的单元的颜色编码来至少部分地反映元数据的两个版本之间的差异,以指示哪些组件在元数据的第一版本和元数据的第二版本之间发生了改变。在一些实现中,利用表格中的单元的颜色编码来至少部分地反映元数据的两个版本之间的差异,以指示哪些组件输出将由于数据志中的上游改变而导致在元数据的第一版本和元数据的第二版本之间发生改变。例如,可以对反映本身在第二版本中(相对于第一版本)被修改的元数据对象的单元应用第一颜色(例如,黄色),并且对反映本身尚未被修改但可能由于数据志中的上游改变而导致生成不同输出的元数据对象的单元(例如,指示上游依赖性的单个单元或与所影响的元数据相关联的单元的行或列)应用第二颜色(例如,红色)。
在一些实现中,表示中所反映的差异限于元数据的第一版本和元数据的第二版本中的结构差异。例如,可以过滤出并且不在表示中反映元数据对象的注释部分的改变,而可以在表示中反映可能影响数据处理的元数据对象中的结构(例如,实质性的)改变。
例如,可以利用图1中的元数据管理系统130来增加410表示。
可以继续进行针对版本比较的请求的处理,直到已经将由该请求所标识的所有版本都与至少一个其它版本进行了比较为止412。例如,可以再增加表示以反映第一数据志与基于描述数据处理系统的元数据的第三版本的第三数据志之间的差异。在一些实现中,可以将除第一版本外的各版本与第一版本(例如,指定的基础或参考版本)进行比较。
在已经比较了全部所标识的版本并且已经增加了表示以反映这些比较之后412,可以存储、发送和/或显示414该表示。例如,该表示可以包括可以读取的文件并且可以使用该文件来生成数据志图或数据志表并且可以利用元数据管理系统130将该文件存储在图1中的数据存储器140中。在一些实现中,可以在经由电子通信网络(例如,经由元数据管理系统130的网络接口)所发送(例如,至用户终端152)的一个或多个网络协议消息的净荷中对表现进行编码。在一些实现中,可以经由图形用户界面向用户显示表示。例如,可以经由用户终端152的图形用户界面向用户150将表示显示为数据志图或数据志表。
可以使用在计算机上执行的软件来实现上述元数据版本比较方法。例如,该软件在一个或多个编程或可编程计算机系统(可以具有诸如分布式、客户端/服务器或网格等的各种架构)上执行的一个或多个计算机程序中形成进程,其中该一个或多个编程或可编程计算机系统各自包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口以及至少一个输出装置或端口。该软件可以形成例如提供与数据流图的设计和结构相关的其它服务的更大程序的一个或多个模块。可以将图的节点和元素实现为计算机可读介质中所存储的数据结构或符合数据仓库中所存储的数据模型的其它有组织的数据。
可以将软件设置在诸如CD-ROM等的可被通用或专用可编程计算机读取的存储介质中,或通过网络的通信介质将软件(编码成传播信号)传递至执行该软件所在的计算机的存储介质。可以在专用计算机上、或使用诸如协处理器等的专用硬件来执行全部功能。可以以利用不同的计算机来进行软件所指定的计算的不同部分的分布方式来实现软件。优选在利用通用或专用可编程计算机可读取的有形、非易失性存储介质或装置(例如,固态存储器或介质,或者磁性或光学介质)上存储或下载各个这样的计算机程序,以用于在利用计算机系统读取存储介质或装置以进行这里所述的进程的情况下配置和操作计算机。本发明的系统还可以被视为作为配置有计算机程序的计算机可读存储介质来实现,其中这样配置的存储介质使计算机系统以特定和预先定义的方式工作以执行这里所述的功能。
已经说明了本发明的若干实施例。然而,应当理解,可以在没有背离本发明的精神和范围的情况下进行各种变形。例如,上述步骤中的一部分可以是顺序独立的,因而可以按与所述顺序不同的顺序来进行。
应当理解,上述说明意图例示而并非限制由所附权利要求书的范围所定义的本发明的范围。例如,在基本不影响总体处理的情况下可以按不同顺序进行上述若干功能步骤。需要强调,关于图2和3的示例中所述并且在该说明书中被通篇参考的产品顺序的特定数据处理的细节仅是用以示出元数据管理系统和相关联的处理的能力。所出现的特定数据处理系统的细节不是必要特征并且不应视为限制权利要求书的范围。其它实施例在所附权利要求书的范围内。

Claims (28)

1.一种由一个或多个数据处理设备执行的方法,所述方法包括:
接收用于在包括节点的第一图中选择第一节点的用户输入;
接收与所述第一节点相关联的第一对象的第一数据志,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系;
接收用于从包括节点的第二图选择第二节点的用户输入;
接收与所述第二节点相关联的第二对象的第二数据志,其中,所述第二对象具有与所述第一对象相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系;
将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较;以及
基于所述比较来生成报告。
2.根据权利要求1所述的方法,其中,所述第一节点的所述类型是包括数据集的字段、数据集的列、数据集或变换的组的其中之一。
3.根据权利要求1所述的方法,其中,所述图包括表示数据处理系统的组件的节点和表示所述数据处理系统的组件之间的数据流的有向边。
4.根据权利要求1所述的方法,其中,差异限于所述第一对象和所述第二对象之间的结构差异。
5.根据权利要求1所述的方法,其中,所述第一对象是对象的第一版本并且所述第二对象是该对象的第二版本。
6.根据权利要求5所述的方法,其中,还包括:
使用查找表和针对所述对象的所述第一版本的唯一标签来访问所述对象的所述第一版本;以及
使用查找表和针对所述对象的所述第二版本的唯一标签来访问所述对象的所述第二版本。
7.根据权利要求5所述的方法,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有祖先-后代关系。
8.根据权利要求5所述的方法,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有共同的祖先,但是所述对象的任一版本都不是所述对象的另一版本的后代。
9.根据权利要求5所述的方法,其中,所述对象的所述第一版本和所述对象的所述第二版本同时描述数据处理系统所采用的实现方式。
10.一种利用计算机程序指令所编码的非瞬态计算机存储介质,其中,所述计算机程序指令在被一个或多个计算机执行的情况下使所述一个或多个计算机进行以下操作:
接收用于在包括节点的第一图中选择第一节点的用户输入;
接收与所述第一节点相关联的第一对象的第一数据志,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系;
接收用于从包括节点的第二图选择第二节点的用户输入;
接收与所述第二节点相关联的第二对象的第二数据志,其中,所述第二对象具有与所述第一对象相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系;
将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较;以及
基于所述比较来生成报告。
11.根据权利要求10所述的存储介质,其中,所述第一节点的所述类型是包括数据集的字段、数据集的列、数据集或变换的组的其中之一。
12.根据权利要求10所述的存储介质,其中,所述图包括表示数据处理系统的组件的节点和表示所述数据处理系统的组件之间的数据流的有向边。
13.根据权利要求10所述的存储介质,其中,差异限于所述第一对象和所述第二对象之间的结构差异。
14.根据权利要求10所述的存储介质,其中,所述第一对象是对象的第一版本并且所述第二对象是该对象的第二版本。
15.根据权利要求14所述的存储介质,其中,还包括:
使用查找表和针对所述对象的所述第一版本的唯一标签来访问所述对象的所述第一版本;以及
使用查找表和针对所述对象的所述第二版本的唯一标签来访问所述对象的所述第二版本。
16.根据权利要求14所述的存储介质,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有祖先-后代关系。
17.根据权利要求14所述的存储介质,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有共同的祖先,但是所述对象的任一版本不是所述对象的另一版本的后代。
18.根据权利要求14所述的存储介质,其中,所述对象的所述第一版本和所述对象的所述第二版本同时描述数据处理系统所采用的实现方式。
19.一种系统,包括:
一个或多个计算机和存储有可操作的指令的一个或多个存储装置,其中,所述指令在被所述一个或多个计算机执行的情况下使所述一个或多个计算机进行以下操作:
接收用于在包括节点的第一图中选择第一节点的用户输入;
接收与所述第一节点相关联的第一对象的第一数据志,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系;
接收用于从包括节点的第二图选择第二节点的用户输入;
接收与所述第二节点相关联的第二对象的第二数据志,其中,所述第二对象具有与所述第一对象相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系;
将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较;以及
基于所述比较来生成报告。
20.根据权利要求19所述的系统,其中,所述第一节点的所述类型是包括数据集的字段、数据集的列、数据集或变换的组的其中之一。
21.根据权利要求19所述的系统,其中,所述图包括表示数据处理系统的组件的节点和表示所述数据处理系统的组件之间的数据流的有向边。
22.根据权利要求19所述的系统,其中,差异限于所述第一对象和所述第二对象之间的结构差异。
23.根据权利要求19所述的系统,其中,所述第一对象是对象的第一版本并且所述第二对象是该对象的第二版本。
24.根据权利要求23所述的系统,其中,还包括:
使用查找表和针对所述对象的所述第一版本的唯一标签来访问所述对象的所述第一版本;以及
使用查找表和针对所述对象的所述第二版本的唯一标签来访问所述对象的所述第二版本。
25.根据权利要求23所述的系统,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有祖先-后代关系。
26.根据权利要求23所述的系统,其中,所述对象的所述第一版本和所述对象的所述第二版本在修改历史中具有共同的祖先,但是所述对象的任一版本不是所述对象的另一版本的后代。
27.根据权利要求23所述的系统,其中,所述对象的所述第一版本和所述对象的所述第二版本同时描述数据处理系统所采用的实现方式。
28.一种系统,包括:
一个或多个计算机和存储有可操作的指令的一个或多个存储装置,其中,所述指令在被所述一个或多个计算机执行的情况下使所述一个或多个计算机进行操作,所述一个或多个计算机包括:
用于接收用于在包括节点的第一图中选择第一节点的用户输入的部件;
用于接收与所述第一节点相关联的第一对象的第一数据志的部件,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系;
用于接收用于从包括节点的第二图选择第二节点的用户输入的部件;
用于接收与所述第二节点相关联的第二对象的第二数据志的部件,其中,所述第二对象具有与所述第一对象相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系;
用于将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较的部件;以及
用于基于所述比较来生成报告的部件。
CN201480016203.8A 2013-03-15 2014-03-13 用于元数据管理的系统 Active CN105144080B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361790074P 2013-03-15 2013-03-15
US61/790,074 2013-03-15
PCT/US2014/026133 WO2014151631A1 (en) 2013-03-15 2014-03-13 System for metadata management

Publications (2)

Publication Number Publication Date
CN105144080A true CN105144080A (zh) 2015-12-09
CN105144080B CN105144080B (zh) 2021-05-18

Family

ID=51533026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480016203.8A Active CN105144080B (zh) 2013-03-15 2014-03-13 用于元数据管理的系统

Country Status (10)

Country Link
US (1) US9477786B2 (zh)
EP (2) EP3493050A1 (zh)
JP (1) JP6618461B2 (zh)
KR (1) KR102143889B1 (zh)
CN (1) CN105144080B (zh)
AU (1) AU2014233672B2 (zh)
CA (1) CA2902821C (zh)
HK (1) HK1213335A1 (zh)
SG (1) SG11201506510WA (zh)
WO (1) WO2014151631A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503168A (zh) * 2016-10-31 2017-03-15 武汉大学 标准化遥感卫星数据集成通用元数据模型的建立方法
CN108475189A (zh) * 2015-12-21 2018-08-31 起元技术有限责任公司 子图接口生成
CN109710591A (zh) * 2018-12-27 2019-05-03 福建南威软件有限公司 元数据版本自动管理方法
CN116149724A (zh) * 2023-04-18 2023-05-23 清华大学 系统虚拟样机版本差异分析方法、装置和计算机设备

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2009322437A1 (en) 2008-12-02 2010-06-10 Ab Initio Technology Llc Visualizing relationships between data elements and graphical representations of data element attributes
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US11892913B2 (en) * 2015-01-05 2024-02-06 Rubrik, Inc. Data lineage based multi-data store recovery
CA2983080C (en) * 2015-02-11 2021-01-19 Ab Initio Technology Llc Filtering data lineage diagrams
US9996595B2 (en) * 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
US9959154B2 (en) * 2016-02-16 2018-05-01 International Business Machines Corporation Identifying defunct nodes in data processing systems
US10007674B2 (en) 2016-06-13 2018-06-26 Palantir Technologies Inc. Data revision control in large-scale data analytic systems
US10489384B2 (en) 2016-11-09 2019-11-26 Ab Initio Technology Llc Systems and methods for determining relationships among data elements
DE112017006106T5 (de) * 2016-12-01 2019-09-19 Ab Initio Technology Llc Erzeugen von, Zugreifen auf und Anzeigen von Abstammungsmetadaten
US10372761B2 (en) * 2016-12-28 2019-08-06 Sap Se Auto-discovery of data lineage in large computer systems
US10802698B1 (en) * 2017-02-06 2020-10-13 Lucid Software, Inc. Diagrams for structured data
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US10360252B1 (en) * 2017-12-08 2019-07-23 Palantir Technologies Inc. Detection and enrichment of missing data or metadata for large data sets
US10769165B2 (en) * 2017-12-20 2020-09-08 Sap Se Computing data lineage across a network of heterogeneous systems
CN108133000B (zh) 2017-12-21 2021-05-04 百度在线网络技术(北京)有限公司 一种元数据存储方法、装置和服务器
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
US10481961B1 (en) 2019-04-02 2019-11-19 Capital One Services, Llc API and streaming solution for documenting data lineage
US11194845B2 (en) * 2019-04-19 2021-12-07 Tableau Software, LLC Interactive lineage analyzer for data assets
JP7026659B2 (ja) 2019-06-20 2022-02-28 本田技研工業株式会社 応答装置、応答方法、およびプログラム
US11086602B2 (en) * 2019-11-13 2021-08-10 Palantir Technologies Inc. Workflow application and user interface builder integrating objects, relationships, and actions
US11853304B2 (en) * 2021-08-27 2023-12-26 Striveworks Inc. System and method for automated data and workflow lineage gathering

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061353A1 (en) * 2005-09-12 2007-03-15 Bobbin Nathan V User interface options of a data lineage tool
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
CN101971165A (zh) * 2008-02-26 2011-02-09 起元技术有限责任公司 数据关系的图形表示
CN102239458A (zh) * 2008-12-02 2011-11-09 起元技术有限责任公司 可视化数据元素之间的关系
US20110320460A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Efficient representation of data lineage information
US8266122B1 (en) * 2007-12-19 2012-09-11 Amazon Technologies, Inc. System and method for versioning data in a distributed data store
US20120310875A1 (en) * 2011-06-03 2012-12-06 Prashanth Prahlad Method and system of generating a data lineage repository with lineage visibility, snapshot comparison and version control in a cloud-computing platform
CN102890720A (zh) * 2012-10-16 2013-01-23 南京通达海信息技术有限公司 数据库检查维护方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000039944A (ja) * 1998-07-24 2000-02-08 Fuji Electric Co Ltd メンテナンスシステム、メンテナンス方法及び記憶媒体
US6598059B1 (en) * 2000-04-22 2003-07-22 Oracle Corp. System and method of identifying and resolving conflicts among versions of a database table
JP3761156B2 (ja) * 2001-07-27 2006-03-29 三菱電機株式会社 接続図面の編集表示装置、その動作方法およびその方法をコンピュータに実行させるプログラム
US20040255239A1 (en) * 2003-06-13 2004-12-16 Ankur Bhatt Generating electronic reports of data displayed in a computer user interface list view
US7698348B2 (en) 2003-12-19 2010-04-13 Kinaxis Holdings Inc. Extended database engine providing versioning and embedded analytics
US7469262B2 (en) * 2003-12-29 2008-12-23 Oracle International Corporation Customizable metadata merging framework
US7703027B2 (en) * 2005-01-13 2010-04-20 National Instruments Corporation Merging graphical programs
GB0614277D0 (en) * 2006-07-19 2006-08-30 Ibm Method and apparatus for comparing process designs
US7707183B2 (en) * 2006-07-21 2010-04-27 Netiq Corporation Methods, systems and computer program products for monitoring changes to objects on a computer system using information models and baselines
CN101631430A (zh) 2008-07-14 2010-01-20 华为技术有限公司 一种电路板组及电子设备
JP2010244157A (ja) * 2009-04-02 2010-10-28 Toshiba Corp 機能ブロック図処理装置,機能ブロック図処理方法,およびプログラム
US9659042B2 (en) * 2012-06-12 2017-05-23 Accenture Global Services Limited Data lineage tracking
US10089335B2 (en) * 2012-07-10 2018-10-02 Microsoft Technology Licensing, Llc Data lineage across multiple marketplaces
US9063998B2 (en) * 2012-10-18 2015-06-23 Oracle International Corporation Associated information propagation system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070061353A1 (en) * 2005-09-12 2007-03-15 Bobbin Nathan V User interface options of a data lineage tool
US8266122B1 (en) * 2007-12-19 2012-09-11 Amazon Technologies, Inc. System and method for versioning data in a distributed data store
CN101971165A (zh) * 2008-02-26 2011-02-09 起元技术有限责任公司 数据关系的图形表示
CN102239458A (zh) * 2008-12-02 2011-11-09 起元技术有限责任公司 可视化数据元素之间的关系
CN101957816A (zh) * 2009-07-13 2011-01-26 上海谐宇网络科技有限公司 基于多页面比较的网页元数据自动抽取方法和系统
US20110320460A1 (en) * 2010-06-28 2011-12-29 International Business Machines Corporation Efficient representation of data lineage information
US20120310875A1 (en) * 2011-06-03 2012-12-06 Prashanth Prahlad Method and system of generating a data lineage repository with lineage visibility, snapshot comparison and version control in a cloud-computing platform
CN102890720A (zh) * 2012-10-16 2013-01-23 南京通达海信息技术有限公司 数据库检查维护方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DOMENICO BENEVENTANO 等: "Data lineage in the MOMIS data fusion system", 《2011 IEEE 27TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING WORKSHOPS》 *
ERIC THOO 等: "Magic Quadrant for Data Integration Tools", 《GARTNER》 *
FRED ET.AL: "同步不同SQL Server数据库的多个副本的元数据", 《WINDOWS IT PRO MAGAZINE:国际中文版》 *
戴超凡: "数据仓库中数据志跟踪的理论与方法研究", 《中国优秀博硕士学位论文全文数据库 (博士) 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475189A (zh) * 2015-12-21 2018-08-31 起元技术有限责任公司 子图接口生成
CN108475189B (zh) * 2015-12-21 2021-07-09 起元技术有限责任公司 子图接口生成的方法、系统及计算机可读介质
CN106503168A (zh) * 2016-10-31 2017-03-15 武汉大学 标准化遥感卫星数据集成通用元数据模型的建立方法
CN109710591A (zh) * 2018-12-27 2019-05-03 福建南威软件有限公司 元数据版本自动管理方法
CN116149724A (zh) * 2023-04-18 2023-05-23 清华大学 系统虚拟样机版本差异分析方法、装置和计算机设备
CN116149724B (zh) * 2023-04-18 2023-09-22 清华大学 系统虚拟样机版本差异分析方法、装置和计算机设备

Also Published As

Publication number Publication date
EP3493050A1 (en) 2019-06-05
CA2902821C (en) 2021-06-01
KR20150132858A (ko) 2015-11-26
AU2014233672B2 (en) 2018-03-01
JP2016520890A (ja) 2016-07-14
EP2972770A4 (en) 2016-11-16
US20140279979A1 (en) 2014-09-18
US9477786B2 (en) 2016-10-25
SG11201506510WA (en) 2015-09-29
CA2902821A1 (en) 2014-09-25
HK1213335A1 (zh) 2016-06-30
AU2014233672A1 (en) 2015-09-03
EP2972770A1 (en) 2016-01-20
JP6618461B2 (ja) 2019-12-11
KR102143889B1 (ko) 2020-08-12
CN105144080B (zh) 2021-05-18
WO2014151631A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
CN105144080A (zh) 用于元数据管理的系统
US20230126005A1 (en) Consistent filtering of machine learning data
US11030166B2 (en) Smart data transition to cloud
US11086751B2 (en) Intelligent metadata management and data lineage tracing
CN101971165B (zh) 数据关系的图形表示
CA2953826C (en) Machine learning service
CN108536761A (zh) 报表数据查询方法及服务器
US11847040B2 (en) Systems and methods for detecting data alteration from source to target
Johns Information management for health professions
Hachem et al. Managing derived data in the Gaea scientific DBMS
Lee et al. Hands-On Big Data Modeling: Effective database design techniques for data architects and business intelligence professionals
EP3657351A1 (en) Smart data transition to cloud
Uttamchandani The Self-Service Data Roadmap
Sarkar Learning Spark SQL
Schuchardt et al. Applying content management to automated provenance capture
Gupta et al. Provenance in context of Hadoop as a Service (HaaS)-State of the Art and Research Directions
Gayathiri et al. Big health data processing with document-based Nosql database
US20240078244A1 (en) Methods and Systems for Tracking Data Lineage from Source to Target
JPWO2018061070A1 (ja) 計算機システム及び分析ソースデータ管理方法
Al-Wattar Data Warehouse performance comparing Relational Database Management Systems and the Hadoop-based NoSQL Database system
Eisa Parallel Processing for Data Retrieval in Odoo Enterprise Resource Planning Reporting System
CN113918634A (zh) 一种用于数据交互的数据适配方法、适配器及存储介质
CN114418520A (zh) 一种基于rpa的财务数据优化方法和系统
CN116340296A (zh) 基于数据探针的多源数据融合与统一信息模型构建方法
CN113704327A (zh) 数据备案方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant