CN108073686B - 具有通用元数据存储库的闭环统一元数据架构 - Google Patents

具有通用元数据存储库的闭环统一元数据架构 Download PDF

Info

Publication number
CN108073686B
CN108073686B CN201711144085.0A CN201711144085A CN108073686B CN 108073686 B CN108073686 B CN 108073686B CN 201711144085 A CN201711144085 A CN 201711144085A CN 108073686 B CN108073686 B CN 108073686B
Authority
CN
China
Prior art keywords
data
metadata
source
analysis
lineage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711144085.0A
Other languages
English (en)
Other versions
CN108073686A (zh
Inventor
J-L·查特林
T·S·唐
S·帕萨沙拉斯
C·A·普里
A·阿伯多拉什迪
N·阿伯哈萨尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Solutions Ltd
Original Assignee
Accenture Global Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Solutions Ltd filed Critical Accenture Global Solutions Ltd
Publication of CN108073686A publication Critical patent/CN108073686A/zh
Application granted granted Critical
Publication of CN108073686B publication Critical patent/CN108073686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

对于以全球分布的方式捕获和保存大量信息,已经呈指数级增长。闭环统一元数据架构包括通用元数据存储库并且实现数据质量和数据沿袭分析。该架构解决了重要技术挑战,从而提供描述信息的元数据的有意义的一致的和归一化的视图以及确定数据沿袭和有意义的数据质量度量。

Description

具有通用元数据存储库的闭环统一元数据架构
相关申请的交叉引用
根据35 U.S.C.§119,本申请要求享有在2016年11月18日提交的美国临时专利申请No.62/424,199的优先权,其全部内容通过引用并入本文。
技术领域
本公开涉及来自不同数据源的元数据的复杂处理,以提供统一元数据视图,并且使用元数据来驱动数据分析,该数据分析包括数据质量和数据沿袭分析。
背景技术
计算系统可用的处理能力、网络带宽、可用存储空间和其他资源近几十年已经呈指数级增长。包括本地计算系统和基于云的计算系统两者的计算系统的进步已经导致以全球分布的方式捕获、存储以及保存大量信息内容。获得描述信息内容的元数据的有意义的、一致的、归一化的视图以及对信息内容执行有意义的分析是个重大的技术挑战。
附图说明
图1示出实现通用元数据存储库的闭环通用元数据架构。
图2示出架构的另一示例实现方式。
图3示出架构可以实现的用于分析数据质量的逻辑的示例。
图4示出架构可以实现的用于分析数据沿袭的逻辑的示例。
图5示出架构可以实现的用于执行数据发现的逻辑的示例。
图6示出架构可以实现的用于执行将商业元数据映射到技术元数据对象的逻辑的示例。
图7是图示架构的功能的示例的框图。
图8是包括在架构内的逻辑层的示例的框图。
图9是用于架构的关联图表模式的示例。
图10是描绘沿袭数据结构的示例。
图11是图示架构的示例操作的操作流程图。
图12是图示架构的示例操作的图11的操作流程图的第二部分。
具体实施方式
闭环通用元数据架构(“架构”)实现通用元数据存储库(“UMR”)并且执行数据分析,该数据分析包括确定和维护数据沿袭以及确定有意义的数据质量度量。该架构自动扫描和捕获表征输入数据的元数据,该输入数据从无论是托管工作流的企业内部还是该企业外部的任何数目和类型的数据源被驱动到任何预定义的企业工作流。该架构可以被用程序以用于数据跟踪、管理、审查、报告和许多其他目的。
UMR在其向工作流提供输入数据的单个逻辑用户接口视图的意义上是通用的,该输入数据例如包括图表模式形式的商业数据和技术数据。该架构的编程能力经由例如相似性检测,来实现灵活的数据沿袭跟踪、数据质量确定、数据间隙填充和附加数据发现。UMR在整个企业平台上集成了任何所需的数据简档和相似性简档。该架构包括反馈回路,其例如施行商业规则,重新扫描数据源,并且在任何计划或定向的基础上更新UMR。
图1和图2提供了用于下文对架构中技术方案讨论的示例上下文,该架构包括UMR、数据质量度量、数据沿袭和报告。图1和图2中的示例示出了可能的实现方式。就此而言,架构中的技术方案在其应用或实现方式方面,不限于图1和图2或其他附图中的任一个所示的系统。相反,技术方案可以经由许多其他系统实现方式、架构和连接性而被实现。例如,本文讨论了对架构的附加硬件和软件实现方式、在架构中实现的附加逻辑流以及由架构定义和递送的附加GUI接口。
图1示出了网络连接实体100,其包括架构110和(相对于架构110)内部数据源102和外部数据源104两者。架构110从数据源接收源元数据(例如,源元数据112),并且经由任何数目或类型的公共和专用通信网络(例如,通信网络116)向数据源返回反馈消息(例如,反馈消息114)。
如本文中所描述的,架构110接收源元数据,并且代表运行任何预定义工作流的任何给定企业,来分析和处理源元数据,构建和维护UMR,确定数据质量度量,评分数据质量指标,构建和维护数据沿袭,执行数据沿袭评分,向数据源发送反馈,以及在图形用户接口(GUI)中提供UMR的整体视图。为此,架构110包括连接至数据源102和104的通信接口电路120、以及存储库处理电路122、报告电路124和显示电路126。架构110对输入数据执行分析,该输入数据是在从任何数据源接收到的元数据元素(例如,元数据元素128和130)的基础上被引导到预定义工作流。
关于获得源元数据,架构110可以通过实现供应商不可知的通信层来促进元数据收集,其中暴露应用程序编程接口(API)用于导入和导出数据。架构110包括丰富算法的存储库,其包括数据质量和数据沿袭生成和分析,以便丰富元数据除了经由供应商工具可用的元数据之外的元数据。此外,基于计算机的反馈回路可以作为丰富算法的一部分而存在,以便在由架构110标识元数据中的缺陷时自动并且动态地从数据源获得附加元数据。
换种方式说,通信接口电路120从数据源102检索源元数据。数据源102以各种模式向任何给定企业的预定义工作流提供输入数据,并且源元数据表征该输入数据以在统一元数据存储库中创建统一模式。通信接口电路120向存储库处理电路122提供源元数据。进而,存储库处理电路122将源元数据集成到通用元数据存储库的模式中。作为源元数据集成过程的一部分,存储库处理电路122可以标识来自每个数据源102的源元数据内的关键数据帧。关键数据帧可以被存储在通用元数据存储库中以表示整个提取的源元数据。存储库处理电路122还可以对通用元数据存储库中表示的输入数据执行数据分析,并且响应于数据分析来执行反馈循环,以向数据源102递送反馈消息114来更新和/或丰富存在于通用元数据存储库中的元数据。
架构110可以执行多种多样的数据分析,包括静态数据分析和动态数据分析。静态数据分析可以包括对从数据源摄取的归一化的元数据信息的基于计算机的审查和分析。例如,静态数据分析可以包括分析数据沿袭模式或结构,从该数据沿袭模式或结构可以提取元数据的数据源和/或所收集的元数据。在另一示例中,静态数据分析可以涉及新获得的元数据与先前获得的元数据的比较以获得完整性、趋势、遗漏和显著改变。在又一示例中,静态分析可以是对从数据源获得的归一化的元数据中的间隙或遗漏的分析。静态数据分析可以由计算机基于基于计算机的历史数据比较、规则、关系、预定的设定点、预定的阈值和/或任何其他机制或过程来执行以标识不足、遗漏或不期望的变化。
动态数据分析可以涉及基于规则的数据分析、数据度量的生成和/或所生成的数据度量的分析。仅作为一个示例,架构110可以基于源元数据来动态地确定输入数据的数据质量度量。由架构110生成的数据质量度量可以包括可能会被执行的1)基于计算机的数据质量源完整性分析、2)基于计算机的数据准确性分析、3)基于计算机的数据精度分析、4)基于计算机的时间性分析、以及5)基于计算机的合理性分析。另外,基于计算机的准确性分析中可能包括重复、真实性/完整性、数据覆盖、数据变化以及其他参数分析。
这样的基于计算机的动态分析可以基于预定的值、预定的阈值、与第三方信息的比较、与附属信息的比较、服务水平协议的考虑、历史数据比较或能够标识可能问题的任何其他分析。例如,数据准确性、精度和真实性/精度分析可以基于数据源分析、属性分析等。时间性分析可以涉及基于时间的分析,其中来自特定时间段或时间值的数据相对于来自另一特定时间段或时间值的数据进行比较、对比和分析。合理性、重复、数据覆盖和数据变化分析可以基于历史数据分析、对应的数据分析、预定的值或阈值以及其他这样的考虑。这种基于计算机的分析可以基于规则、基于统计分析、基于建模、基于机器学习、基于人工智能(AI)、基于第三方信息和/或基于任何其他参数或条件。此外,技术上下文和商业上下文信息的考虑和比较(诸如经由关联图表)还可以被包括作为动态数据分析的一部分。
作为动态数据分析的结果,反馈消息114可以响应于数据质量度量来指定数据质量警告,其中数据质量警告响应于在数据质量度量上执行的数据质量规则(例如“当最后一个数据值不符合当前趋势时,发送警告”)。在另一示例中,可以标识元数据中的间隙并且将该间隙包括在反馈消息114中。
架构110还可以基于所执行的数据分析,来使用报告电路124提供各种报告。报告可以呈可导出文件、可查看图表、列表、表格等的形式和/或数据库生成或其他数据存储库。报告可以经由用户接口电路126。
用户接口电路126可以包括一个或多个图形用户接口、显示器、触敏显示器、话音或面部识别输入、按钮、开关、扬声器、打印机以及允许系统操作的人类感官感知的其他外围元件或设备。附加示例包括麦克风、视频和静止图像相机、以及任何其他输入输出设备。用户接口电路126可以包括硬件显示器,诸如液晶显示器(LCD)、发光二极管(LED)显示器、或任何其他形式的图像再现硬件。附加的或可替代地,用户接口电路126可以包括传输和/或图像再现硬件,以使得能够在无论是本地还是远离该架构的任何硬件设备或系统上进行图像再现和显示。例如,用户接口电路126可以支持基于web的交互并且支持经由浏览器或其他形式的通信接口的显示。
用户接口电路126还可以向用户提供架构110的操作、功能和控制的感官知觉。例如,用户接口电路126可以包括提供在诸如显示器之类的用户接口上的通用元数据存储库中所表示的所提取的源元数据的整体视图的能力。整体视图可以基于关键数据帧来提供。在示例中,整体视图可以在描绘在技术上下文中在通用元数据存储库中表示的元数据的关系方面的关联模式或图形用户接口视图中进行描绘。另外,商业上下文可以从技术上下文推断出来。例如,关联模式视图可以说明关键数据帧与数据源的关系以及与关键数据帧的各种属性的关系。此外,可以在数据源、元数据的技术上下文以及特定商业或工业的商业焦点之间确定关系和上下文(诸如引用、相关性、继承和层次)。例如,在关联图表用户接口中,技术上下文中的关键数据帧的属性可以在与特定于具体商业或工业片断的商业上下文中的节点的关系和/或上下文来描绘。通过将技术上下文的推断重新聚焦到附加商业上下文情景中,技术上下文还可以被用于与多于一个商业或工业的关系中。
作为另一示例,静态数据分析可以包括创建或更新用于输入数据的数据沿袭结构。数据沿袭结构捕获输入数据的生命周期及其消耗,其可以以许多不同的方式来实现和描述。在一个方面中,数据沿袭结构提供输入数据的关联模式、关联图表或下降映射线。关联图表可以包括沿袭数据字段,这些字段指定以下仅作为几个示例的各项中的任何组合:谁影响输入数据,什么影响输入数据,输入数据在何处被影响,输入数据在何时被影响,输入数据为何被影响,以及输入数据以何方式被影响。在数据沿袭的情况下,反馈消息可以指定或包括响应于数据沿袭结构的数据沿袭警告,其中数据沿袭警告响应于在关联模式上执行的数据沿袭规则或者下降映射线(例如,“当用户X修改了输入数据时,发送警告”)。
图2示出了架构110的另一示例实现方式200。示例实现方式200包括通信接口电路120的通信接口202、存储库处理电路122的系统电路204、输入/输出(I/O)接口206和用户接口电路126的显示电路208。显示电路208可以在本地生成机器接口210或者用于诸如在本地或远程机器上运行的web浏览器中的远程显示。机器接口210和I/O接口206可以包括GUI、触敏显示器、话音或面部识别输入、按钮、开关、扬声器和任何其他用户接口元件。
通信接口202可以包括无线发射器和接收器(“收发器”)212以及由收发器212的发射电路和接收电路所使用的任何天线214。收发器212和天线214可以支持例如任何版本的IEEE 802.11的WiFi网络通信,例如,802.11b,802.11g,802.11n或802.11ac。通信接口202还可以包括物理收发器216。物理收发器216可以为广泛的通信协议中的任一通信协议提供物理层接口,该物理层接口诸如任何类型的以太网、有线电缆数据服务接口规范(DOCSIS)、数字订户线(DSL)、同步光网络(SONET)或其他协议。
系统电路204可以包括任何组合的硬件、软件、固件或其他电路。系统电路204可以例如用一个或多个片上系统(SoC)、专用集成电路(ASIC)、微处理器、离散的模拟和数字电路以及其他电路来实现。系统电路204是架构110中的任何期望的功能的实现方式的一部分。例如,系统电路204可以包括一个或多个指令处理器218和存储器220。存储器220存储例如控制指令222和操作系统224。在一个实现方式中,处理器218执行控制指令222和操作系统224,以执行架构110的任何期望的功能。控制参数226提供以及指定架构的控制指令222、操作系统224以及其他功能的配置和操作选项。
架构110还可以包括企业数据存储装置250。企业数据存储装置250可以表示任何数目的数据源104并且可以包括UMR 254或者任何其他企业数据。企业数据存储装置250可以托管在卷存储设备(例如,硬盘驱动器(HDD)和固态磁盘驱动器(SDD))上,并且可以依据非常大范围的数据结构和数据类型。作为示例,数据结构可以包括SQL、非SQL、面向对象的以及关系数据库、无序和有序的存储机制;结构化的文件、哈希桶、树以及其他结构。数据源104可以向企业内定义的任何数目和类型的企业工作流236提供任何类型的输入数据。仅作为一些示例,企业工作流236可以包括人力资源(HR)工作流,其管控诸如招聘、审查和解雇的HR程序、银行工作流,其创建新客户账户、批准贷款或发放抵押贷款、制造工作流,其执行质量保证程序、处理故障报告并且执行预防性维护、以及客户服务工作流,其将任务指派给代理,处理索赔以及解决客户关联报告。这样的企业工作流236可以形成作为通用元数据存储库的整体视图的一部分的、从元数据的技术上下文外推得出的商业上下文的基础。
所有的工作流由输入数据驱动。数据源102和104提供输入数据以驱动工作流,并且源元数据表征输入数据。作为几个示例,示例输入数据包括数据库表格、列和字段、键盘和鼠标输入、文件、图表、度量、文件(诸如Word、Excel、PowerPoint、PDF、Visio、CAD、Prezi文件)、应用程序数据对象(例如,日历条目、任务列表和电子邮件文件夹)、以及其他数据类型。输入数据的其他示例包括元数据的属性,诸如时间戳、数据源ID、所使用的提取工具以及在整体视图中表征元数据时可能有用的任何其他信息。
控制指令222包括存储库处理逻辑230、数据分析逻辑232和机器接口生成逻辑234。存储库处理逻辑230将源元数据集成到UMR254中,并且响应于由UMR254驱动的数据分析而向数据源提供闭环反馈。数据分析逻辑232执行数据分析,该数据分析包括确定数据质量度量以及构建和维护数据沿袭结构。机器接口生成逻辑234可以创建以及递送整体视图,诸如以促进架构110内的交互的GUI的链接交互式集合形式的关联模式。控制指令222例如还可以被执行,以标识工作流以用于分析,确定那些工作流的数据源,从数据源获得源元数据,获取数据分析的选择以用于运行,定义闭环反馈规则,标识源元数据之间的关系和继承,并且允许运营商设置和用于架构110的整体操作的配置和优选参数。
除其他方面之外,企业数据存储装置104、存储库处理逻辑230、数据分析逻辑232、机器接口生成逻辑240改进底层计算机硬件本身的功能。也就是说,除下文所描述的特征之外的这些特征是底层计算机系统操作的方式的特定改进。这些改进通过集成其中元数据被转换成单个通用模式的各种不同的模式,来促进跨不同数据源的元数据的通用整体视图的生成。由于通用元数据存储库中存在通用模式,可以执行例如通过跨不同数据源执行数据分析来改善例如缺失数据的发现(间隙检测)和/或元数据的丰富性,以除其他之外还提供帮助改进企业中定义的任何工作流的执行。底层计算机硬件本身的改进功能实现进一步的技术益处。例如,架构110自动执行改善工作流性能所需的复杂处理,从而减少人工干预并且减少人为误差的可能性。还进一步地,架构110促进减少资源消耗,包括由于例如使用关键数据帧的数据管理而减少的存储量访问和处理器驱动的分析。此外,架构110在分布式网络环境中与关键数据帧一起操作,以有效地避免在整个通信网络中分布的数据源之间的重复数据存储和大数据传输事件。另外,架构110可以减少或消除对数据源和工作流的繁琐和不精确的手动调整和分析,这有利于存储在分布式数据存储系统中的集中式统一模式元数据存储库架构。
图3示出了架构110可以实现的用于分析数据质量的逻辑300的示例,例如,作为数据分析逻辑232的一部分。架构110定义了企业规则定义框架(302),其中架构110为其数据创建企业规则(304)。架构110将企业规则映射到数据质量规则(306)。数据质量规则定义到工作流的输入数据的质量度量。企业规则可能特定于商业或工业。
架构110执行数据分析器(profiler)或数据映射器,以在数据源上运行简档扫描从而获得源元数据的数据集(308)(诸如技术元数据对象)。数据分析器可以是元数据抓取工具,诸如例如,ATTIVIO、EMCIEN、CLOUDERA NAVIGATOR、SINEQUA或UNIFI,其包括从数据源提取元数据的功能。扫描结果针对诸如代码和脚本之类的数据元素而被解析,并且扫描简档被捕获(例如,被存储)在UMR 254中(310)。接下来,架构110通过执行数据质量规则(例如,通过遍历UMR 254的结构并且将每个数据质量规则应用于可应用字段、表格、列或其他数据元素)来执行动态数据分析(312)。作为执行数据质量规则的一部分,架构可以动态地执行数据质量评分以获得数据质量度量(314)。由数据质量评分生成的数据质量分数可以作为的数据质量度量的一部分与相应的数据相关联地存储在UMR224中。一旦应用了所有数据质量规则并且完成了数据质量评分(316),架构110就可以进行基于计算机的验收测试(318)。验收测试可能包括适当时向数据源发布反馈消息。验收测试可能包括考虑数据质量度量和数据沿袭分数,以及考虑关系、继承、引用或任何其他数据协调、认证和完整性参数。否则,如果存在应用更多的不同或新的数据质量规则,则架构110使用相同或不同的映射器重新运行简档扫描,以继续测试数据质量(320)。在示例中,数据质量分数可以被用在验收测试中,并且确定是否应该应用更多不同的或新的数据质量规则。架构110可以可替代地或附加地进行工作流的验收测试,或者在扫描简档被解析之后采取其他动作。
图4示出了架构可以实现的用于处理数据沿袭的逻辑400的示例。架构110将商业词汇表中的数据沿袭集成点定义为关键数据帧(402),并且通过将技术上下文集成到商业上下文中来配置商业词汇表中的数据沿袭视图(404)。商业词汇表可以描述在一个或多个企业或组织中使用的商业相关数据,并且可以包括商业元数据。商业词汇表可以维护并且提供数据管控平台,诸如COLLIBRA。
对于通用元数据存储库中的元数据内的未确认的关系,架构110可以配置沿袭扫描器或映射器以基于元数据、属性和相关信息来继续进行建议的关系(406),并且使用审查工具确认关系以验证数据流(408)。沿袭扫描器可以使用诸如例如ALATION和CLOUDERANAVIGATOR之类的工具。架构110在UMR 254中标记确认的关系(410)。对于确认的关系,架构110配置沿袭扫描器以跟踪已知沿袭(408)。在任一情况下,架构110都用程序将数据沿袭存储在UMR254中(410)。
架构110确定是否存在任何异常(412),如果存在,则审查那些异常,并且更新UMR254以解决异常(414)。当没有例外时,架构110执行验收测试(416)。在任何情况下,架构110可以选择性地扩展数据沿袭,以例如用于排错目的(418)。当所有数据被考虑(420)时,架构110可以结束排错并且将问题标记为已解决(422)。
如上文所提及的,架构110经由例如相似性检测,执行附加数据的发现。图5示出了架构110可以实现的用于执行数据发现的逻辑500的示例。架构110定义商业词汇表(502)中的数据发现扫描器集成点,并且配置数据发现扫描器,以使用例如预定义的相似性规则集来推断相似性(504)。架构110在数据源上运行数据扫描器(506),并且基于所推断的相似性来确定数据集之间的关系,这些相似性被推荐给数据管理器(508)。所确定的关系用程序而被存储在UMR254中(510)。
作为质量分析的一部分,所确定的关系还可以被解析用于重复(512)。在关系中存在重复的情况下,可以生成来自其中相对于源元数据的其他数据集而存在重复的数据源的源元数据的数据集的快照,以通过遍历其他用例和数据集来标识优选数据源和关系的路线(514)。架构110可以对所标识的优选数据源的数据集进行采样,以确定优选数据集中的数据是否正确(516)。如果所标识的优选数据源的数据集中的数据是正确的,则可以请求访问优选数据源(518),并且架构110检查所推荐的关系是否满足预定义的可接受性准则(520)。如果与所标识的优选数据源的关系不可接受,则架构110可以通过例如标识其他数据集中的相似数据或通过标识通过数据流连接到所标识的优选数据源的数据集,来扩展对与其他数据集的关系的搜索(522)。
如果所推荐的关系不可接受,则架构110修改或放弃所推荐的关系并且重新运行数据扫描器(524)。当所推荐的关系被接受(526)时,架构110可以保存那些关系并继续审查新数据关系的未来数据源(528)。
架构110解决了管理数据源和总结其内容的技术挑战。由于广泛数据源、不同的接口、不同的可访问性标准、企业内部和外部的不同数据源和/或所提取内容的模式的变化,出现了许多这些挑战。架构100提供统一模式,其提供用于系统或系统集合的元数据、数据沿袭和数据质量的视图,从而使得跟踪和维护信息的能力大大提高,同时减少误差。架构100理解文档、数据源、源群集和源组合的二分,并且定义描述系统状态的元数据的整体模型。
体系结构100还监控和改进数据质量。就此而言,架构100可以根据完整性、准确性、精度、时间性、合理性或其他因素,来定义数据质量度量。附加数据质量度量包括是否存在数据重复、数据的真实性/完整性以及数据的覆盖。关于数据沿袭,架构110跟踪数据沿袭的各方面,这些方面包括数据的“谁”、“什么”、“何时”、“何处”、“为什么”以及“如何”特征。数据沿袭可以是离散的、概率的或两者。
图6示出了架构110可以实现的用于执行将商业元数据映射到技术元数据对象的逻辑600的示例。描述组织的商业上下文可以被包括在商业元数据中,诸如存储在商业词汇表中的数据使用和所有权。架构110执行数据分析器或数据映射器,以在数据源上运行简档扫描从而获得源元数据的数据集(诸如技术元数据对象)形式的相应输入数据的简档(602)。可以使用例如数据分析和自动推理,将技术元数据对象映射到包含在商业词汇表(604)中的商业术语。在示例中,数据分析可以由诸如CAMBRIDGE SEMANTICS之类的扫描器工具来执行,以创建基于计算机的推理,该推理可以被用于通过例如发现商业术语和句法相似性和选定技术元数据对象之间的语义相似性和语法相似性,来将商业术语映射到技术元数据对象。该架构可以运行数据源的简档扫描,以获得商业元数据和相似性的推荐,该相似性诸如语义相似性和句法相似性(606)。技术元数据对象可以利用对商业元数据的映射来标记(608)。
架构110可以确定映射的准确性,诸如使用质量控制功能(610)。如果映射不准确(诸如不超过准确性的预定的阈值),则架构110可以重新评估映射(614),然后接受并且标记新推荐(608)。如果映射是准确的,则架构可以确定是否利用映射来标记预定的量的数据(616)。如果不是,则架构110可以发起手动过程,来检查和评估数据(618)。否则,该过程可能结束。
图7是图示了架构110的功能的示例的框图。架构110可以包括前端层702、集成层704、后端层706、数据处理电路708和数据存储电路710。在其他示例中,可以包括附加的或更少的层来描绘所描述的功能。前端层可以包括用于与架构110进行用户交互的指示板714以及管理并且维护架构110的管理用户接口716。
架构110的集成层704可以是提供前端层702和后端层706之间接口的中间件的形式。中间件可以作为无状态客户端服务器可高速缓存的基于web的通信网络协议来操作。在示例实现方式中,中间件可以包括应用程序接口(API),诸如RESTful API。
架构110的后端层706可以被包括在(图1中的)存储库处理电路122中。后端层706可以在若干个不同的阶段中,跨数据供应链执行计算机实现的元数据收集和归一化,该归一化可以被描述为选择、摄取、数据管理和数据准备。另外,架构110可以使用后端层706来在质量和协调以及可动作管理的不同阶段期间,执行计算机实现的冲突解决。
选择阶段可以利用通用元数据选择电路720执行。通用元数据选择电路720可以消耗来自数据源的元数据信息,并且确定从各种可用数据源中获得附加元数据信息的位置。因此,通用元数据选择电路720可以从供应商解决方案中消耗工作流信息或工作任务,并且解析感兴趣的数据源。另外,通用元数据选择电路720可以诸如通过使得能够查询用于从不同数据源抓取数据的数据源和/或各种分析工具或数据映射器,执行与不同数据源的通信。通用元数据选择电路720的功能可以包括源分析、解析、存档和保存。通用元数据选择电路720可以执行对现有数据源的探索,从而导致数据源的简化打通。数据源的打通可能包括对可信数据源编入目录和编制索引,以及打通新数据源,并且为从这些新数据源提取的元数据配置变换规则。
摄取阶段可以由元数据摄取电路122执行。元数据摄取电路122可以将来自数据源的不同元数据模式归一化为在通用元数据存储库中是公共的目标格式和对象模式。例如,元数据摄取电路122可以提供通过一系列连接器将元数据归一化为可摄取形成,诸如跨不同模式从非JSON数据归一化为JSON数据。
由于不同模式下的原始元数据的格式可能显著不同,所以元数据摄取电路122可以将各种不同格式协调成通用元数据存储库中的公共模式格式。进一步地,所提取的源数据可以被元数据摄取电路122存档加载,以用于审计。
后端层706还可以包括元数据冲突解决电路724和元数据模式实施电路726。元数据冲突解决电路724可以在来自不同数据源的数据之间执行元数据对象匹配和冲突解决。因而,一旦来自不同数据源的元数据被归一化并且可以识别重复,则元数据冲突解决电路724就可以通过标识和删除通用元数据存储库内的重复元数据,来解析任何重复的信息。因此,元数据冲突解决电路724可以“清理”在通用元数据存储库中接收到的数据。
元数据模式实施电路726可以提供/处理跨架构110的数据存储层和/或数据源中所包括的不同元数据存储装置的技术元数据的协调。例如,元数据模式实施电路726可以维护元数据和模式对齐,并且执行计算工作,诸如最后一分钟归一化、规范化检查/数据解析等。另外,元数据模式实施电路726可以在架构110的数据存储层中所包括的UMR数据存储装置738中,以结构化和非结构化数据格式执行数据的存储和处理。此外,元数据模式实施电路726可以对数据源编入目录并且在元数据的属性内执行元数据的来源的映射。此外,元数据模式实施电路726可以检测特定数据类型、指派元数据标签并且将元数据路由到预定的队列,从而使得通过基于类型的模式可以加速数据管理。将元数据路由到预定的队列可以包括路由关键数据帧,并且映射其中通过将这样的信息包括在与元数据相关联的属性中来存储元数据的目的。
元数据分析电路728表示算法的存储库、算法的链接以及对UMR和源数据执行分析操作以提供底层数据的更为整体的视图的工具的链接。元数据分析电路728可以包括描述模块730和预测模块732,以执行数据质量度量分析和数据沿袭开发和分析。基于数据质量度量分析和数据沿袭分析,元数据分析电路728可以在来自数据源的源元数据的数据集中标识关键数据帧。
关键数据帧可以表示更大的元数据主体,以使得关键数据帧提供元数据的采样版本。换句话说,代替架构110重复存储从数据源接收到的全部元数据,仅存储关键数据帧。关键数据帧可以包括指向由相应关键数据帧表示的元数据的位置(例如,数据源)的属性。使用关键数据帧,可以开发数据质量度量和数据沿袭测量以提供在通用元数据存储库中表示的全部元数据的整体视图。
元数据分析电路728可以从各种数据源挖掘归一化的数据,以获得数据概率沿袭元数据。另外,元数据分析电路728可以利用已经通过元数据冲突解决电路724和元数据模式实施电路726已经进行质量检查的归一化的数据。通过分析所收集的和归一化的元数据、数据质量度量和概率沿袭元数据,可以在来自每个相应的数据源的源元数据的数据集中标识关键数据帧。
元数据分析电路728还可以审查通用元数据存储库中表示的元数据,以获得元数据的间隙或缺失部分。可以使用描述模块730和预测模块732,从数据质量和数据沿袭的基于计算机的性能中标识这样的间隙。当元数据中的间隙被发现时,元数据分析电路728可以通过标识能够至少部分填充间隙的数据源、提取元数据信息以及归一化这样的元数据来执行通用元数据存储库的丰富,以便将新提取的元数据添加到通用元数据存储库。
事件管理器736可以基于预定义和策划的感兴趣规则来确定要调度什么作业。事件管理器736可以检测改变并且充当用于基于感兴趣事件来处理未来任务的调度器。事件管理器736可以使用基于规则的逻辑来监控触发事件。另外,事件管理器736可以执行商业规则的管理,以指派元数据标签并且路由加载的源数据。事件管理器736的可动作管理可以包括集中管理数据使用和规则以提供基于角色的用户访问和许可以及集中管理商业规则和工作流。
因而,架构110可以被用于在整个平台上整合所有的数据简档和相似性简档。这种途径还包括反馈循环,其实施商业规则并且自动重新运行扫描以更新通用元数据存储库。架构110可以应用在特定列或字段上定义的规则。事件管理器736可以检查以确保规则被应用并且使用检查规则匹配功能来指定任何附加规则。架构110可以重新运行简档和相似性扫描,以根据新应用的规则来更新数据质量度量。
图8是架构110内包括的逻辑层的示例的框图。存在于后端706中的各种电路或引擎可以在这些逻辑层内操作,以执行所描述的功能。架构110可以包括数据流层802、数据源层804、数据沿袭层806和数据字段层808。在其他示例中,更少或更多数目的层可以用来说明本文中所描述的功能。
参考图7和图8,通用元数据选择电路720可以在数据流层802中操作,以便从数据源层804中的数据源818捕获交易数据816。交易数据816还可以被称为来自数据源的源元数据的数据集。交易流数据816的捕获可以通过诸如CLOUDERA NAVIGATOR之类的工具来执行。在数据通过系统移动时,交易816被表示为图表流(可以被用于示出已知过程的规定沿袭)。通用元数据选择电路720还可以映射数据流层802内的交易源数据源和交易目的。
元数据摄取电路722可以在数据源层804中操作。元数据摄取电路722还可以将交易映射到数据源818(推送和拉取)并且对数据源层804中的所有数据源818编入目录。数据源818可以由数据源层804中的元数据摄取电路722,从交易/处理流程图中发现。此外,元数据信息可以在数据源层804中被表示为“表格”或“文档”级的数据粒度。
在数据沿袭层806内,元数据分析电路728可以确定由关键数据帧822组成的数据沿袭时间线820。使用关键数据帧822,架构110可以在关键时间点跟踪沿袭。此外,架构110可以提供历史的、规定的和概率的沿袭。关键数据帧822可以是指向包含每个相应数据源818的源元数据的数据集的简档的指针。在示例中,来自每个数据源(例如,交易)的源元数据的数据集可以用一个关键数据帧表示。然而,在其他示例中,数据集可以由多个关键数据帧822表示。关键数据帧822通过与相应关键数据帧822相关联的时间、事件、显著改变或其他操作属性而更新。在示例中,更新可能受到以下各项限制:期望的粒度、空间、或来自事件管理736的触发。
在图8中,关键数据帧822的时间线流由数据沿袭时间线820描绘。所描绘的数据沿袭时间线820图示了每个关键数据帧822指向至少一个数据简档的流,以指示源元数据的数据集何时从相应的数据源818获得的定时。沿袭时间线820可以通过例如时间采样创建,来以一致的预定的时间间隔创建数据简档。可替代地或附加地,沿袭时间线820可以基于正在被触发的事件。在事件触发场景中,可以基于由事件管理器706触发的规则(例如,数据上传等)来提取数据简档交易。可替代地或附加地,沿袭时间线820可以例如基于改变监控来生成。例如,当来自先前简档时间(例如,值漂移、显著数据上传等)的数据存在显著改变时,可能发生数据分析。发生显著改变可能基于预定的设定点或阈值,该预定的设定点或阈值在相应的数据源818处与先前接收到的元数据参数进行比较。比较可以以预定的时间或频率而发生,或者响应于事件而发生。
数据字段层808可以包括关键数据帧822的数据源字段828内的字段信息。元数据分析电路728可以在数据字段层808中操作,以生成关键数据字段822的数据源字段828。数据源字段828可以包括诸如以下各项之类的信息:i.什么字段由数据库关系组成并且处于数据库关系之中、ii.字段组成度量(例如,分布、数据类型以及与相应关键数据字段的生成有关的其他属性)和/或iii.字段数据质量度量,诸如价值构成、价值覆盖、异质性/独特性等。数据源字段828可以通过预定的结构来生成。在示例中,数据源字段828中的每一个可以以基本JSON结构来生成,诸如:
{
Profile:
Metadata:
ColumnStatistics:
DataQuality:{Fields,Rules}
}
元数据分析电路728还可以以沿袭数据的图表模式832的形式,生成数据字段组成,以对由关键数据帧822表示的元数据的关系组成进行建模。关系组成可以通过面向对象的途径进行抽象建模,以提供数据源的特质或方面、元数据、关键数据帧和元数据收集的操作方面以及其之间的关系的视觉图示。另外,时间戳、逻辑规则、属性、定义等可以被用于推断技术上下文与商业上下文的相关性。图表模式832的关系组成的描绘可以基于数据字段统计834并且允许架构从顶部到底部遍历图表模式832。
再次参照图7,数据处理电路708可以执行数据的实时处理。除了处理有效载荷传递之外,数据处理电路708还定义整个UMR系统的数据工作流,这是因为其处理所有作业执行以及电路、作业、引擎和模块之间的数据传递。
数据存储电路710向通用元数据存储库提供接口,该通用元数据存储库是包括在架构110中的UMR数据存储装置738,其包括图表存储装置740和文档存储装置742两者。与文档存储装置742的接口可能包括例如与HADOOP、云存储以及NoSQL存储设施(诸如MONGO)的接口。与图表存储装置740的接口可以包括与例如NEO4i的接口。
图表存储装置740保持关于摄取的数据片段之间的关系链接的信息,并且文档存储装置742包含数据的详细信息。图表存储装置740本身由技术上下文和商业上下文组成,该技术上下文和商业上下文是松散连接的两个图表。技术图表包含关于数据、基础设施以及在数据上发生的交易的所有信息和关系。商业上下文图表包含用于理解以及做出商业决策的概念、规则、报告等。这两个图表是分开的,以便在遍历是广为人知的情况下服务于提供强大技术支撑的目的,以及特定于用例、域、客户或工业的商业图表。商业图表作为可导出且可重用的知识片段。例如,商业图表的关键方面可以重用于不同的域、商业、工业等。另外,商业图表可以通过利用现有本体自举而可导出并且可重用于开启架构110与不同的商业实体或工业的接合。相反,可以在不影响所收集的元数据的技术表现形式(例如,技术上下文)中的底层基础结构表示的情况下,移除商业图表。
图9是架构110的关联图表模式900的示例。关联图表模式可以通过跨数据的数据源、数据类型、数据存储装置和应用使用而合并和呈现所有元数据的共享视图,来表示UMR。关联图表模式900包括技术上下文图表902和商业上下文图表904的示例,其可以描绘来自不同数据源的归一化的元数据以及与其有关的信息。技术上下文图表902可以描绘关于支持数据管理解决方案的应用、工具和系统的信息。商业上下文图表904可以描绘描述关于数据的过程、上下文和含义的信息。从商业角度来看,商业上下文图表描绘可能强调数据的显著性。
在图9中,关联图表可视地将继承906描绘为互连的点点划线,将关系908描绘为互连实线,以及将引用910描绘为虚线。技术上下文图表902和商业上下文图表904可以包括时间戳(A)、节点(B)、工具(C)、容器(D)、操作(E)、字段(F)、数据源(G)、关键数据帧(H)、简档(I)、集合(J)、属性(K)、数据规则(L)、定义(M)、角色(N)、用户(O)和报告(P)的表示。在其他示例中,附加的或更少的表示可以被包括在关联图表模式900中。
在图9中,继承和关系仅在一个示例下图示,并且为了简洁起见,仅图示一个链接。另外,所有顶点都是节点(B)类型,并且继承所有的属性。进一步地,用户(O)继承角色(N),而关键数据帧继承时间戳(A)。一般而言,关联图表模式900中所包括的继承906可以指示从(来源或源)提供各种属性和/或信息的位置。关联图表模式900还图示了诸如“是…”、“从...导出”、“…的实例”和“包括…”之类的关系908。
例如,可以表示诸如EMCIEM或CLOUDERA NAVIGATOR MCM之类的工具(C),并且诸如时间戳(A)之类的附加数据可以是被示出为工具(C)的“实例”的关系908。附加的,工具(C)可以具有与“是”工具的容器的容器(D)以及“是”工具的操作的操作(E)之间的一个或多个关系908。容器(D)和操作(E)可以包括与“是”相应容器(D)和操作(E)的字段的字段(F)的关系908,并且可以利用与作为另一个字段(F)的“实例”的其他字段(F)的关系908来标识。在另一示例中,诸如表格之类的集合(J)可以具有指示“包括若干个不同属性(K)”的表格的关系,其中一些属性可以具有从数据规则(L)“导出”的关系。
以这种方式,可以在不同分析场景中使用关联图表,来呈现由于从不同的数据源接收的元数据的归一化以及由于其中标识的继承906、关系908和引用910而原本不可用的信息。例如,图表模式可以被用于搜索例如从某个工具(C)而接收的数据,并且相同类型的框架可以被用于开发数据沿袭分数。例如,如果元数据包括手动录入的数据和工具获得的数据的组合,则可以确定数据沿袭分数。数据沿袭分数可以基于“从…导出”的关系908。例如,如果关联图表包括十个节点(B),并且十个节点(B)中的九个节点从链接导出,则数据沿袭分数可能是90。在另一示例中,在搜索关键数据帧(H)的集合(J)之间关系的可靠性时,具有“实例”关系908的若干个属性(K)可以被用于确定数据沿袭分数。因此,具有彼此是“实例”的大量属性的两个集合(J)将具有较高的数据沿袭分数。
引用910可以指示技术上下文图表或商业上下文图表中的一个上下文图表的元素是被用在技术上下文图表或商业上下文图表中的另一个上下文图表的元素中。引用910可以通过提供对作为技术上下文信息或商业上下文信息的信息的引用来创建。例如,如图9所示,技术上下文图表902中的集合(J)可以包含被包括在其中的信息的来源是包含在商业上下文图表904中的属性(K)的指示。
图10是描绘了沿袭数据结构1000的示例。沿袭数据结构1000图示了描绘不同字段1004之间关系908的不同集合1002。还图示了计算器1006,以指示字段之间的关系908是否包括基于计算机的变换、计算或聚合。附加地,图示了变换器1008,该变换器表示预定的常数、公式或数学函数。
图11是图示了架构的示例操作的操作流程图。参照图7、图8和图11,通用元数据选择电路720可以标识以及选择数据源818作为元数据的源并且提供交易流数据816(1102)。元数据摄取电路722可以摄取元数据信息(1104)并且通过归一化信息来协调数据(1106)。元数据冲突解决电路724可以使用例如机器学习和人工智能(AI),来审查冲突信息的归一化的信息(1108)。元数据冲突解决电路724还可以对从其中获得元数据的所有数据源而编入目录(1110)。可以接收关于要添加到目录的附加数据源的标识的用户输入(1111),并且该操作可以返回到选择元数据源(1102)。附加地,元数据冲突解决电路724可以将交易映射到数据源(1112),并且将交易映射到数据目的(1114),以作为创建沿袭组结构的信息的一部分。数据源的目录以及源和目的的映射可以被存储在通用元数据存储库中。
元数据模式实施电路726还可以通过将映射器与不同的模式相匹配,来执行模式协调,以便确定哪些数据片段将不同的模式绑定在一起(1116)。模式协调还可以包括:针对概率值和离散值挖掘数据源以用于在关联模式内完成沿袭关系(1118)。附加地,模式协调可以包括针对数据质量相关信息而挖掘不同数据源(1120)。
元数据分析电路728可以标识用于每个数据源的交易之中的关键数据帧,以建立时间线数据流(1122)。然后,确定从不同数据源接收到的所有模式是否被适当地标识以允许元数据的归一化(1126)。如果没有正确标识,则元数据分析电路728可以选择不同的映射器(1128)并且返回以将不同映射器与被标识为未被正确标识的模式相匹配(1112)。
现在参考图12,如果所有模式被适当地标识,则元数据分析电路728可以生成关键数据帧的时间线流(1132)。关键数据帧可以利用时间戳而被存储在图表存储装置和文档存储装置中(1134)。数据源字段可以由元数据分析电路728与关键数据帧(1136)相关联。数据字段统计可以被存储在图表存储装置和文档存储装置中(1138)。数据属性还可以被存储在图表存储装置和文档存储装置中(1140)。元数据分析电路728可以使用图表存储装置和文档存储装置来生成数据沿袭结构(1142)。元数据分析电路728可以利用描述模块730和预测模块732来跨越不同的数据源执行归一化的元数据的静态数据分析(1146),诸如沿袭数据结构分析和评分。基于静态分析,元数据分析电路728可以标识归一化的元数据中的间隙(1148)。如果元数据中存在间隙,则元数据分析电路728可以定位可以填充间隙的一个或多个数据源(1150)。元数据分析电路728可以选择一个或多个元数据源(1152)。元数据信息可以从所选择的元数据数据源中而被提取(1154),并且操作可以返回以将所选择的元数据源添加到目录(1110)。
如果没有间隙在数据中被标识,则元数据分析电路728可以执行动态数据分析(1158),诸如确定数据质量度量、标识数据质量以及执行数据质量评分。元数据分析电路728可以确定是否存在关联模式的整体视图(1160)。如果不存在,则元数据分析电路728可以查找一个或多个源(1150)、选择一个或多个元数据源(1152)、提取信息(1154)等。如果整体视图存在,则事件管理器736可以应用预定的规则以及可能按事件、条件或偶发事件而触发的逻辑(1164)。事件管理器736可以监控质量阈值(1166)。如果质量阈值尚未交叉,则可以执行数据处理电路708的处理,可以显示数据(1170),并且可以适当时将数据存储在图表存储装置740和文档存储装置742中(1172)。
如果质量阈值已经被突破,则事件管理器736可以生成警告(1176),诸如数据质量警告或数据沿袭警告。事件管理器736可以标识引起质量阈值交叉(1178)的一个或多个数据源。事件管理器可以生成反馈消息(1180),并且向所标识的一个或多个数据源发送反馈消息(1182)。然后该操作可以返回到映射交易源(1112)。
架构110可以执行基于计算机来从可能感兴趣的众多工作流选择感兴趣数据源。从与工作流对齐的一个或多个数据源中的每个摄取数据。所摄取的数据可以被归一化并且被存储在通用元数据存储库中。如果归一化的信息中存在数据缺失(例如,间隙),则可以执行附加数据的选择。附加地,架构可以准备和丰富归一化的数据。例如,数据可以被变换、归一化、以及选择性地丰富。数据变换、归一化和丰富可能基于规则、机器学习、逻辑、人工智能、建模和其他基于计算机的分析和功能。
可以自动执行分析(诸如静态分析和动态分析),以自动创建统一数据视图。例如,静态分析可能包括沿袭数据结构生成、分析和评分。数据沿袭分析可能涉及围绕可以执行什么值的组成的信息。数据沿袭数据质量还可以使用例如人工智能(AI)和/或机器学习(ML)来分析和自动地丰富。动态分析可以包括数据质量度量的标识、生成和分析。可以对数据进行分析,并且可以使用例如人工智能(AI)和/或机器学习(ML)通过架构自动确定关于统计、覆盖、数据质量规则的信息。
架构还可以提供生成实况报告,其可以针对通用元数据存储库中所表示的数据的所有方面而被生成,该方面包括质量和沿袭。通用元数据存储库可以表示中央位置,其保持可以被查询的整体视图,并且自动刷新视图(诸如数据质量和数据沿袭视图)。在通用元数据存储库内,AI/ML可以被用来解决数据冲突并且验证数据完整性。该架构可以使用动态分析来自动重复该过程,从而使得可以对实时数据进行测量和分级。
上文所描述的方法、设备、架构、处理、电路、多个电路和逻辑可以以许多不同的方式以及硬件和软件的许多不同组合而实现。例如,电路和其他实现方式的全部或部分可以是包括诸如中央处理单元(CPU)、微控制器或微处理器之类的指令处理器的电路、或者作为专用集成电路(ASIC)、可编程逻辑器件(PLD)或现场可编程门阵列(FPGA)、或者作为包括离散逻辑或其他电路部件(包括模拟电路部件、数字电路部件或两者)的电路、或者其任何组合。作为示例,电路可以包括离散互连硬件部件、或者可以在单个集成电路管芯上组合、分布在多个集成电路管芯中、或者以公共封装中的多个集成电路管芯的多芯片模块(MCM)而实现。
因此,该电路可以存储或访问用于执行的指令,或者可以仅以硬件来实现其功能。指令可以被存储在不是瞬态信号的有形存储介质(诸如闪存、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM))中、或者被存储在磁盘或光盘(诸如光盘只读存储器(CDROM)、硬盘驱动器(HDD)或其他磁盘或光盘)上、或者被存储在另一机器可读介质中或该另一机器可读介质上。诸如计算机程序产品的产品可以包括存储介质以及存储在该介质中或者在该介质上的指令,并且当该指令由设备中的电路执行时可以使得设备实现上文所描述的或者附图所图示的处理过程中的任一处理过程。
这些实现方式可以是分布式的。比如,电路可以包括多个不同的系统部件,该系统部件诸如是多个处理器和存储器,并且可以跨越多个分布式处理系统。参数、数据库和其他数据结构可以被分开存储和管理,也可以被合并到单个存储器或数据库中,也可以以许多不同的方式在逻辑和物理上进行组织,并且还可以以许多不同的方式实现。示例实现方式包括链接列表、程序变量、散列表格、数组、记录(例如数据库记录)、对象以及隐式存储机构。指令可以形成单个程序的部分(例如,子例程或其他代码段),也可以形成多个单独的程序,也可以分布在多个存储器和处理器上,并且还可以以许多不同的方式实现。示例实现方式包括独立程序以及作为库的一部分,该库诸如类似动态链接库(DLL)的共享库。例如,该库可以包含共享数据和一个或多个共享程序,该共享程序包括指令,该指令在由电路执行时实施上文所描述的或附图中所图示的处理过程中的任一处理过程。
已经对各种实现方式进行了特定描述。然而,许多其他实现方式也是可能的。比如,架构110中的部件和功能中的任一部件和功能可以被托管在由云服务提供商管理的虚拟机中。也就是说,虽然一些实现方式可能完全局限在给定企业内部,但是其他实现方式也可以完全被迁移到云中,或者也可以是具有混合本地实现方式和云实现方式的混合实现方式。

Claims (23)

1.一种用于处理数据的方法,包括:
在网络连接的硬件系统中:
标识预定义工作流,以用于分析;
选择向所述预定义工作流提供输入数据的数据源;
利用通信电路:
从所述数据源检索源元数据,所述源元数据表征到所述预定义工作流的所述输入数据;
向存储库处理电路提供所述源元数据;以及
利用所述存储库处理电路:
通过标识提供所述源元数据的仅一部分的样本的关键数据帧、并且将所述关键数据帧作为所述源元数据的表示而不是作为从所述数据源检索的所述源元数据存储在通用元数据存储库中,来将所述源元数据整合到所述通用元数据存储库中,所述关键数据帧包括提供由所述关键数据帧表示的所述源元数据的数据源的属性;
通过确定数据质量度量并且根据上述关键数据帧构建和维护针对所述源元数据的数据沿袭结构,来对所述输入数据执行由所述通用元数据存储库驱动的数据分析;
生成关联图表模式以使用所述关键数据帧对所述源元数据内的关系进行建模,所述关键数据帧在所述关联图表模式中被描绘;以及
响应于所述数据分析来执行反馈循环,以向所述数据源中的至少一个数据源递送源数据反馈消息。
2.根据权利要求1所述的方法,还包括:通过由所述关键数据帧表示的时间、事件、或对所述源元数据的改变来更新所述关键数据帧。
3.根据权利要求1所述的方法,其中:
所述反馈消息响应于所述数据质量度量而指定数据质量警告。
4.根据权利要求3所述的方法,其中:
所述数据质量警告响应于在所述数据质量度量上执行的数据质量规则。
5.根据权利要求1所述的方法,其中:
执行数据分析包括:执行静态数据分析以更新用于所述源数据的所述数据沿袭结构。
6.根据权利要求5所述的方法,其中:
所述关联图表模式包括作为两个单独且独立的图表的技术上下文图表和商业上下文图表,每个上下文图表包括关系信息和从所述技术上下文图表或所述商业上下文图表中的一个上下文图表到所述技术上下文图表或所述商业上下文图表中的另一个上下文图表的引用。
7.根据权利要求6所述的方法,其中:
所述技术上下文图表或所述商业上下文图表中的至少一个上下文图表包括沿袭数据字段,所述沿袭数据字段指定:
谁影响了所述源数据;
什么影响了所述源数据;
所述源数据在何处被影响;
所述源数据在何时被影响;
所述源数据为何被影响;
所述源数据以何方式被影响;
或上述各项的任何组合。
8.根据权利要求5所述的方法,其中:
所述反馈消息指定响应于所述数据沿袭结构的数据沿袭警告。
9.根据权利要求8所述的方法,其中:
所述数据沿袭警告响应于在技术上下文图表或商业上下文图表中的至少一个上下文图表上执行的数据沿袭规则。
10.根据权利要求1所述的方法,还包括:由元数据分析电路生成针对每个相应关键数据帧的数据源字段,所述数据源字段中的每个数据源字段包括所述数据质量度量和所述数据沿袭结构、并且提供针对所述数据源中的相应数据源的简档。
11.根据权利要求1所述的方法,其中所述关键数据帧中的每个关键数据帧与相应数据简档相关联,并且所述相应数据简档指示所述元数据何时从所述数据源被接收。
12.根据权利要求1所述的方法,其中将所述源元数据整合到通用元数据存储库中包括:仅将所述关键数据帧存储作为所述源元数据的在所述通用元数据存储库中的表示。
13.一种闭环统一元数据处理系统,包括:
处理器;
通用元数据电路,其可由所述处理器执行以从多个不同数据源中的每一个数据源检索源元数据,所述多个不同数据源向预定义工作流提供输入数据,所述源元数据表征所述输入数据;
元数据摄取电路,其可由所述处理器执行以将所述源元数据归一化为通用元数据存储库;
元数据分析电路,其可由所述处理器执行以对所述输入数据执行由所述通用元数据存储库驱动的数据分析,所述数据分析的执行包括:
对所述源元数据的数据质量度量分析和数据沿袭测量分析;
基于所述数据质量度量分析和数据沿袭测量分析的对关键数据帧的标识,所述关键数据帧是被包括在所述源元数据中的更大量的元数据的样本;
将所述关键数据帧而不是所述源元数据存储在所述通用元数据存储库中,所述关键数据帧包括提供由所述关键数据帧表示的所述源元数据的数据源的属性;
生成关联图表模式以对由所述关键数据帧表示的元数据的关系组成进行建模,所述关键数据帧在所述关联图表模式中被描绘;以及
事件管理器电路,其可由所述处理器执行以响应于所述数据分析而执行反馈循环,以向所述数据源中的至少一个数据源递送源数据反馈消息。
14.根据权利要求13所述的系统,其中:
所述数据源中的每一个数据源提供所述源元数据的数据集,并且所述关键数据帧中的每个关键数据帧被存储在所述通用元数据存储库中,以表示相应数据源的所述数据集。
15.根据权利要求14所述的系统,其中:
所述元数据分析电路进一步可由所述处理器执行,以生成利用所述关键数据帧所表示的元数据的时间线流。
16.根据权利要求13所述的系统,其中:
所述通用元数据存储库包括图表存储装置和文档存储装置。
17.根据权利要求13所述的系统,其中:
所述源数据反馈消息包括数据质量消息或数据沿袭消息中的一个,其指示所述源元数据在所述关键数据帧中的间隙或缺失部分,所述数据质量消息或所述数据沿袭消息基于接受测试而被生成,所述接受测试用以更新或丰富所述源元数据和对应的关键数据帧。
18.根据权利要求13所述的系统,还包括元数据模式实施电路,其可由所述处理器执行来标识映射器工具,以从数据源提取元数据,所述映射器工具被配置成将所述元数据映射到所述通用元数据存储库的通用模式。
19.根据权利要求13所述的系统,其中所述关联图表模式包括表示跨不同数据源、数据类型、数据存储装置以及所述数据的应用使用的元数据的共享合并视图的图表。
20.一种非瞬态计算机可读介质,其包括可由处理器执行的指令,所述指令包括:
可由所述处理器执行以选择向预定义工作流提供输入数据的多个数据源的指令;
可由所述处理器执行以从所述数据源中的每一个数据源摄取元数据的数据集的指令,所述元数据的数据集表征到所述预定义工作流的所述输入数据;
可由所述处理器执行以将摄取的所述元数据的数据集归一化为统一模式的指令;
可由所述处理器执行以标识所述摄取的数据集中的每一个数据集中的关键数据帧的指令;
可由所述处理器执行以将所述关键数据帧与时间戳和属性相关联地存储在通用元数据存储库中的指令,所述时间戳指示相应数据集何时被摄取,所述属性提供由所述关键数据帧表示的摄取的所述元数据的数据集的数据源,每个关键数据帧由于相应的摄取的所述数据集中的剩余元数据的代表性样本而被标识,相应的摄取的所述数据集中的所述剩余元数据从所述通用元数据存储库中的存储中被省略;
可由所述处理器执行以生成关联图表模式的指令,所述关联图表模式对由关键数据帧表示的所述元数据的关系组成进行建模,所述关联图表模式包括基于所述通用元数据存储库而被生成的技术上下文图表和商业上下文图表、并且包括对所述关键数据帧的描绘;
可由所述处理器执行以根据所述关联图表模式和所述关键数据帧来执行数据质量分析和数据沿袭分析的指令;以及
可由所述处理器执行以生成用于传输到所述多个数据源中的一个数据源的反馈消息的指令,所述反馈消息包括数据质量警告或数据沿袭警告。
21.根据权利要求20所述的非瞬态计算机可读介质,还包括可由所述处理器执行以将所述关联图表模式存储在图表存储装置中、并且将所述关键数据帧存储在数据存储装置中的指令。
22.根据权利要求20所述的非瞬态计算机可读介质,其中,所述可由所述处理器执行以生成所述关联图表模式的指令包括:可由所述处理器执行以生成所述技术上下文图表或者所述商业上下文图表中的一个上下文图表的元素被用于所述技术上下文图表或所述商业上下文图表中的另一个上下文图表的元素的指示的指令。
23.根据权利要求20所述的非瞬态计算机可读介质,还包括可由所述处理器执行以生成利用所述关键数据帧表示的元数据的时间线流的指令。
CN201711144085.0A 2016-11-18 2017-11-17 具有通用元数据存储库的闭环统一元数据架构 Active CN108073686B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662424199P 2016-11-18 2016-11-18
US62/424,199 2016-11-18
US15/801,787 US11379537B2 (en) 2016-11-18 2017-11-02 Closed-loop unified metadata architecture with universal metadata repository
US15/801,787 2017-11-02

Publications (2)

Publication Number Publication Date
CN108073686A CN108073686A (zh) 2018-05-25
CN108073686B true CN108073686B (zh) 2022-01-25

Family

ID=60387843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711144085.0A Active CN108073686B (zh) 2016-11-18 2017-11-17 具有通用元数据存储库的闭环统一元数据架构

Country Status (4)

Country Link
US (1) US11379537B2 (zh)
EP (1) EP3324309B1 (zh)
CN (1) CN108073686B (zh)
AU (2) AU2017258966A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185728B2 (en) * 2016-12-19 2019-01-22 Capital One Services, Llc Systems and methods for providing data quality management
US10346145B2 (en) * 2017-06-23 2019-07-09 Intel Corporation Loop execution with predicate computing for dataflow machines
US10872097B2 (en) * 2017-12-01 2020-12-22 Salesforce.Com, Inc. Data resolution system for management of distributed data
US10769165B2 (en) * 2017-12-20 2020-09-08 Sap Se Computing data lineage across a network of heterogeneous systems
US10740209B2 (en) * 2018-08-20 2020-08-11 International Business Machines Corporation Tracking missing data using provenance traces and data simulation
US11176196B2 (en) * 2018-09-28 2021-11-16 Apple Inc. Unified pipeline for media metadata convergence
CN109857996A (zh) * 2019-01-25 2019-06-07 深圳供电局有限公司 一种通信调度运行图形资料生成方法及系统
WO2020170217A1 (en) * 2019-02-23 2020-08-27 Mukund Mohan A method and system for managing analytical schema
US11657466B2 (en) 2020-01-24 2023-05-23 Accenture Global Solutions Limited Utilizing machine learning to prevent intellectual property issues for content during different stages of a project lifecycle
CN111400365B (zh) * 2020-02-26 2023-09-19 杭州美创科技股份有限公司 基于标准sql下的业务系统数据质量检测方法
US11321340B1 (en) 2020-03-31 2022-05-03 Wells Fargo Bank, N.A. Metadata extraction from big data sources
CN113468166B (zh) * 2020-03-31 2024-03-01 广州虎牙科技有限公司 元数据处理方法、装置、存储介质及服务器
US12013840B2 (en) 2020-04-17 2024-06-18 International Business Machines Corporation Dynamic discovery and correction of data quality issues
US11681721B2 (en) * 2020-05-08 2023-06-20 Jpmorgan Chase Bank, N.A. Systems and methods for spark lineage data capture
CN111767267B (zh) * 2020-06-18 2024-05-10 杭州数梦工场科技有限公司 元数据处理方法、装置、电子设备
CN112131303A (zh) * 2020-09-18 2020-12-25 天津大学 基于神经网络模型的大规模数据沿袭方法
US20230367823A1 (en) * 2020-09-29 2023-11-16 Nokia Solutions And Networks Oy Apparatus, method, and computer program
CN112199352A (zh) * 2020-10-14 2021-01-08 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) 一种产品数据溯源方法及系统
US11436220B1 (en) 2021-03-10 2022-09-06 Microsoft Technology Licensing, Llc Automated, configurable and extensible digital asset curation tool
US20220292064A1 (en) * 2021-03-15 2022-09-15 Embarcadero Technologies, Inc. Systems and methods for generating database assets
US20220405295A1 (en) * 2021-06-17 2022-12-22 Sap Se Metadata integration based on scope function definition
US11853304B2 (en) 2021-08-27 2023-12-26 Striveworks Inc. System and method for automated data and workflow lineage gathering
CN114968995A (zh) * 2022-05-10 2022-08-30 兴业银行股份有限公司 数据检核计算系统及方法
US20240211477A1 (en) * 2022-12-27 2024-06-27 Liveperson, Inc. Methods and systems for implementing a unified data format for artificial intelligence systems
US20240346051A1 (en) * 2023-04-12 2024-10-17 Ab Initio Technology Llc Meta-data driven ingestion and data processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
CN101593203A (zh) * 2009-05-12 2009-12-02 用友软件股份有限公司 带有前处理和后处理的数据库复合查询系统及方法
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统
CN105139296A (zh) * 2015-10-12 2015-12-09 国家电网公司 一种电网业务数据全生命周期质量管理系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007127956A2 (en) * 2006-04-28 2007-11-08 Business Objects, S.A. Apparatus and method for merging metadata within a repository
EP2370887A4 (en) * 2008-12-02 2012-06-13 Ab Initio Technology Llc Visual representation of the relationship between data elements and graphical representations of data element properties
US9330197B2 (en) * 2008-12-08 2016-05-03 Bank Of America Corporation Data environment change notification
US8554801B2 (en) 2009-07-10 2013-10-08 Robert Mack Method and apparatus for converting heterogeneous databases into standardized homogeneous databases
US10108731B2 (en) * 2010-09-29 2018-10-23 Open Text Sa Ulc System and method for timeline management of objects
US20130246345A1 (en) 2011-09-13 2013-09-19 Wappwolf, Inc. Systems and methods for online workflow implementation
US9552400B2 (en) * 2012-06-01 2017-01-24 Staples, Inc. Defining and mapping application interface semantics
US9659042B2 (en) 2012-06-12 2017-05-23 Accenture Global Services Limited Data lineage tracking
US9384231B2 (en) * 2013-06-21 2016-07-05 Bank Of America Corporation Data lineage management operation procedures
US10459881B2 (en) * 2015-02-27 2019-10-29 Podium Data, Inc. Data management platform using metadata repository

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
CN101515290A (zh) * 2009-03-25 2009-08-26 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
CN101593203A (zh) * 2009-05-12 2009-12-02 用友软件股份有限公司 带有前处理和后处理的数据库复合查询系统及方法
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统
CN105139296A (zh) * 2015-10-12 2015-12-09 国家电网公司 一种电网业务数据全生命周期质量管理系统

Also Published As

Publication number Publication date
AU2019201496A1 (en) 2019-03-28
AU2019201496B2 (en) 2021-03-18
EP3324309A1 (en) 2018-05-23
US11379537B2 (en) 2022-07-05
CN108073686A (zh) 2018-05-25
US20180144067A1 (en) 2018-05-24
EP3324309B1 (en) 2024-09-25
AU2017258966A1 (en) 2018-06-07

Similar Documents

Publication Publication Date Title
CN108073686B (zh) 具有通用元数据存储库的闭环统一元数据架构
JP7344327B2 (ja) アプリケーションプログラミングインターフェイスのメタデータ駆動型外部インターフェイス生成ためのシステムおよび方法
US11409764B2 (en) System for data management in a large scale data repository
US11468098B2 (en) Knowledge-intensive data processing system
US20200125530A1 (en) Data management platform using metadata repository
JP2021108127A (ja) 知識集約型データ処理システム
US10216814B2 (en) Supporting combination of flow based ETL and entity relationship based ETL
Mwilu et al. Design science research contribution to business intelligence in the cloud—A systematic literature review
US11403347B2 (en) Automated master data classification and curation using machine learning
US20230195728A1 (en) Column lineage and metadata propagation
JP2016015124A (ja) コンピュータ装置、処理方法及びコンピュータプログラム
US11615076B2 (en) Monolith database to distributed database transformation
US11276484B1 (en) Clinical activity network generation
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
US10552455B2 (en) Analytics enablement for engineering records
US12099575B2 (en) Auto-triage failures in A/B testing
US20240273112A1 (en) Data modeling and database recommendation using machine learning
CN118733684A (zh) 数据血缘关系管理方法、系统、电子设备及存储介质
Akhund Computing Infrastructure and Data Pipeline for Enterprise-scale Data Preparation
Zhao Provenance management for dynamic, distributed and dataflow environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant