CN102232212A - 在数据管理系统中映射数据集的实例 - Google Patents

在数据管理系统中映射数据集的实例 Download PDF

Info

Publication number
CN102232212A
CN102232212A CN200980148087.4A CN200980148087A CN102232212A CN 102232212 A CN102232212 A CN 102232212A CN 200980148087 A CN200980148087 A CN 200980148087A CN 102232212 A CN102232212 A CN 102232212A
Authority
CN
China
Prior art keywords
data
data set
flow diagram
mapping
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200980148087.4A
Other languages
English (en)
Other versions
CN102232212B (zh
Inventor
蒂姆.韦克林
亚当.韦斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ab Initio Technology LLC
Ab Initio Software LLC
Original Assignee
Ab Initio Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ab Initio Technology LLC filed Critical Ab Initio Technology LLC
Publication of CN102232212A publication Critical patent/CN102232212A/zh
Application granted granted Critical
Publication of CN102232212B publication Critical patent/CN102232212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/197Version control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

一种用于映射存储在数据存储系统(170)的数据以由计算机系统使用的方法,包括:处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表(180)的规范。至少一个数据流图表从至少一个输入数据集接收数据的流以及至少一个数据流图表向至少一个输出数据集提供数据的流。映射器(100)识别一个或多个数据集的集合。在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则。提供用户接口(160)来接收在给定集合的至少两个数据集之间的映射。与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。

Description

在数据管理系统中映射数据集的实例
相关申请的交叉引用
本发明要求2008年12月2日提交的美国专利申请:序列号61/119164的优先权,其通过引用在此并入。
技术领域
本发明涉及在数据管理系统中映射数据集的实例。
背景技术
现代数据管理系统可以包括代表该系统的不同方面的众多组件。不那么复杂的系统常常允许数据被直接查看,而无需用于精确视觉化目的的另外的处理。较为复杂的系统会要求另外的机制用于有目的地查看数据。由许多组件组成的复杂的数据管理系统可以按许多不同的形式存储数据并且按许多不同的方式处理数据。这些存储和处理的形式多数可以按不显然的方式而彼此相关,而没有一种分析该关系的办法。
发明内容
在一个大体的方面,一种用于映射存储在数据存储系统中的数据以由计算机系统使用的方法包括:通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;识别一个或多个数据集的集合,其中在给定集合的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;提供用户接口以接收在给定集合的至少两个数据集之间的映射;以及与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
在另一个大体的方面,一种用于映射存储在数据存储系统中的数据的系统包括:数据存储系统,通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,存储包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;映射器,其识别与数据流图表关联的一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;用户接口,其接收在给定集合中的至少两个数据集之间的映射;以及与数据流图表关联来在数据存储系统中存储该映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
在另一个大体的方面,一种用于映射存储在数据存储系统中的数据的系统包括:一部件,用于通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;用于识别一个或多个数据集的集合的部件,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;用于提供用户接口以接收在给定集合中的至少两个数据集之间的映射的部件;和用于与数据流图表关联来存储在用户接口上接收的映射的部件,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
在另一个大体的方面,一种存储用于映射存储在数据存储系统中的数据的计算机程序的计算机可读介质,该计算机程序包括指令,用于促使计算机来:通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;识别一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;提供用户接口以接收在给定集合中的至少两个数据集之间的映射;以及与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
各个方面能够包括以下特征的一个或多个。
在用户接口上呈现该集合。
在用户接口上呈现根据对一个或多个准则的匹配的数量而排序(order)的可能的映射的列表。
可能的映射的列表包括很可能是在列表中排序较高的给定数据集的实例的候选者。
准则之一内置于映射器中,该映射器识别一个或多个数据集的集合。
准则之一是从用户接口接收的。
至少一个可能的映射指示表示数据集的数据流图表的组件,并且至少一个可能的映射指示不表示数据集的数据流图表的组件。
包括多个组件的数据流图表的子图表表示数据集。
该子图表包括数据组件。
该子图表包括可执行组件。
识别数据集的一个或多个集合包括使用试探法以确定在给定集合中的数据集是否具有与另一数据集共同的一个或多个特征。
该特征包括在数据集的表示中字节和记录的数量。
该特征包括数据集的表示的名称。
该特征包括数据集的表示的创建的日期。
该特征包括数据集的表示的数据格式。
该映射的至少一个数据集属于对数据管理系统已知的数据集的组。
在给定集合中的数据集之间提供格式映射。
该映射包括标识符,其指向保持数据集的踪迹的数据管理系统中的记录。
基于在数据集中的改变更新该映射。
本发明的各个方面能够包括以下一个或多个优点。
通过根据版本识别准则识别数据集的集合,能够比纯粹手动操作更有效地实现在数据集的两个实例之间的匹配。另外,通过提供用户接口以接收在至少两个数据集之间的映射,该映射将比该系统是纯粹自动的更精确。
通过以下描述以及权利要求书,本发明的其它特征和优点将变得明了。
附图说明
图1是数据流图表。
图2是数据集映射器及其相关组件的概图。
图3A-3E是由数据集映射器处理的不同情况的图。
图4是数据集映射器操作的流程图。
图5是数据集连接映射。
图6是数据集格式映射。
具体实施方式
1概述
数据处理元素可以是图表的形式。基于图表的计算使用“数据流图表”实现,该“数据流图表”由指向图表示,该指向图具有在图表中表示组件(对应于存储的数据的数据存储组件或对应于可执行过程的计算组件)的顶点,和在图表中表示组件之间的数据的流的指向链路或“边缘”。数据流图表(也简单叫作“图表”)是模块化实体。每个图表可以由一个或多个其他图表组成,并且特别的图表可以是较大图表中的组件。图形开发环境(GDE)提供用户接口用于规定可执行图表和定义关于图表组件的参数。
参考图1,数据流图表101的示例包括输入组件102,提供要由数据流图表101的可执行组件104a-104j处理的数据积聚集(collection)。例如,数据集102可以包括与数据库系统关联的数据记录或与交易处理系统关联的交易。每个可执行组件与由整个数据流图表101定义的计算的一部分关联。工作要素(如,来自数据积聚集的各个数据记录)进入组件的一个或多个输入端口,而输出工作要素(它们在一些情况中是输入工作要素,或输入工作要素的处理后的版本)一般离开该组件的一个或多个输出端口。在图表101中,来自组件104e、104g和104j的输出工作要素被存储在输出数据组件102a-102c中。
数据集是表示特定的数据积聚集的对象(如,存储在面向对象的数据库中)。在数据流图表的系统的环境中,组件能够表示数据集。在这些情况中,图表可以按一种或多种方式与表示数据集的组件(或简称“数据集组件”)交互作用。数据集组件包括用于访问由给定数据集表示的物理数据的指令,从而图表可以使用数据集组件接受来自数据集的输入,使用数据集组件提供输出到数据集,并且在中间步骤中使用数据集组件处理数据集的数据。数据集组件可以包括与包括数据集对象的实例的给定数据集对象相关的各种类型的信息。此类系统可以具有多打、成千上百的图表和相关的数据集组件。随着此类系统的复杂性增加,不同图表和数据集组件之间的关系变得更难以管理。在系统中一个以上的数据集组件可以表示相同的数据源并且每个此类数据集组件可以与不同图表、图表子集或可执行组件关联。
例如,在一个可能的情况中,单个数据集可以存储在与数据管理系统关联的一个以上的位置中。在该情况中,两个或多个数据源包含该相同数据的相似或相同的版本。在该系统中的两个图表可能处理该单个数据集,但是每个图表从不同数据文件、不同数据库表、或另一类型的数据集组件读取和将每个图表写入不同数据文件、不同数据库表、或另一类型的数据集组件。
在相似的情况中,由给定数据集表示的数据(例如数据文件)可以不仅存储在一个以上的位置中,而且使用不同的数据存储格式来解释。通过以上示例,两个图表可以操作于包含相同数据仅在格式上不同的两个单独的数据文件。每个数据文件可以具有不同的数据类型的排列,尽管包含相同数据的实例。
在替换的情况中,一个图表可以操作于包含该数据集的实例的数据文件,而另一图表可以操作于也包含该数据集的实例的数据库表。在此种情况中,数据文件和数据库表将通常具有两个不同的数据格式。
在另一情况中,数据管理系统可以按不同方式访问不同版本的相同数据集的每个。一个图表可以直接访问数据集的实例,诸如通过经过标准的文件输入/输出机制读取数据文件。另一图表可以通过查询外部源(诸如经由网络可用的数据仓库)检索文件。图表也可以访问经过类似的外部查询(诸如对联网数据库的查询)检索的数据库表。
数据管理系统也可以按不同方式引用(reference)相同数据集每个的不同实例。例如,图表能够根据参数访问不同的数据位置。此类参数可以随时间指向任意数量的数据位置。如果参数在图表的执行之间改变,则操作多次的图表可以在不同场合中访问不同的位置。
在一些情况中,在图表中数据集的表示可以不是单个组件,而是组件的积聚集,诸如图表中的“子图表”组件,其自身实现为具有多个组件的图表。该积聚集可以包括一个或多个数据集组件,并且也可以包括一个或多个可执行组件。
所有这些情况可以潜在地对显现和分析由数据管理系统处理的数据造成问题。如果用户要求与给定数据集交互作用的各组件的统一查看,则能够使用各种办法来使可能存在的数据集的不同实例协调(reconcile)。
一个办法是自动机制,其识别相同数据集的多个实例并且创建在它们之间的连接。可是,有些自动机制具有缺点,诸如以下的三种缺点。第一,该机制会要求数据集的每个实例按特定方式存储,诸如按照统一的命名方案和目录结构。这给该机制提供一种方法以识别和定位与数据管理系统关联的存储系统中的每个。可是,这种安排限制了数据管理系统的灵活性并且可能对该系统的某些使用过于限制。
第二,在操作的几个情况中,该机制可能无法恰当识别相同数据集的实例以及形成正确的连接。例如,如果使用外部引用实体来访问数据集,则这很有可能,并且该自动机制未能访问该实体。类似地,如果组件根据参数列表中的独立参数访问数据集,则这很有可能,并且该机制没有办法访问或解释该参数列表。另外,如果数据集通过由一个或多个数据集组件和可执行组件组成的复杂实体(诸如子图表)表示,则这很有可能。自动机制可能无法辨别组件的什么特定组合表示特定的数据集。
第三,该机制会形成在数据集的实例之间的冗余或不必要的连接。例如,由数据管理系统处理的一些数据集可以表示额外的数据,诸如错误内容日志。在这些数据集的实例之间的任何链接是不必要的。另外,由数据管理系统处理的一些数据集实例可能是冗余实例,诸如高速缓存数据或数据的其他临时副本。连接这种类型的数据的链接很快变为过时并且使检查该数据管理系统的用户搞糊涂。
替换办法是这样的系统,其中用户经由用户接口手动地统一相同数据集的实例。用户不太可能错过在数据集的实例之间的本质链接,并且也不太可能产生在数据集的实例之间的冗余或不必要的链接。可是,如果该数据管理系统具有数百或数千的组件,则用户手动产生必须的链接所需的时间量高得惊人得大。
在部分自动的办法中,数据集映射器用来提供一些自动分析,并且按照对大且/或复杂系统的用户不高得惊人的方法使能用户的一些交互作用。
图2是示出在相关的主要组件之间的相互关系的示范数据集映射器100的一个实施例的框图。数据集映射器100能够分析一个或多个图表180、180a、180b、180c的集合。每个图表与一个或多个数据集组件182、182a、182b关联,其中每个数据集组件可以对应于数据文件、数据库表、子图表或表示数据集的另一类型的组件。映射器100分析各图表,目的是在包含相同数据集1 86的实例的数据集组件之间形成链接。映射器100根据内置规则110、用户定义规则120和试探法130的组合处理每个数据集组件以确定数据集组件182是否可以包含表示数据管理系统170已知的数据源176、176a、176b的几个数据集之一的实例。映射器100将该信息传递给用户接口160,其允许用户162选择对应于数据集组件182的适当的数据集(如果有的话)。例如,用户接口160呈现基于匹配于一个或多个准则(用于识别单个数据集的不同的版本或实例)的可能的候选映射的列表。下面将更详细地描述此类准则的示例,其包括基于内置规则、用户定义规则和试探法的准则。该列表可以根据对一个或多个准则的匹配的量化来排序(如,更有可能成为给定数据集的实例的候选者在列表中排序较高)。映射器100然后产生数据集链接映射140,其指示数据集组件182包含表示数据源176的数据集的实例。
另外,数据集组件182可以具有不同于对应链接的数据源176的格式174的数据格式184。取决于数据管理系统170的要求,用户可以选择为数据集的全部实例建立单个数据格式。该系统存储关于每个数据源176、176a、176b的格式174、174a,174b。替换地,用户可以选择产生在数据集组件182的格式184和对应数据源176的建立格式174之间的可选的映射142。可选的数据格式映射142允许系统170保持关于数据集的每个实例的数据类型的信息。
映射器100也使得用户能够指示在可执行组件和单个数据集组件(它可以不具有其他的连接)之间的链接。例如,数据集组件可以对应于仅具有一个读取器的源数据集或仅具有一个写入器的目标数据集。如果数据集对象已经存在于系统中并且具有其他相关元数据,诸如正确记录格式、文件、数据简档等,该链接使能数据集组件映射到正确的数据集。
2映射过程
映射器100能够处理在复杂的数据管理系统中出现的共同情况。在第一情况中,如图3A所示,一个图表210提供数据集组件212作为输出,而另一图表220接受一不同的数据集组件222作为输入。每个数据集组件包含相同数据集216的实例。该数据集可以和表示数据管理系统已知的数据源176的数据集相同。另外,第一数据集组件212具有可以和属于第二数据集组件222的格式相同的数据格式214,或,替换地,第二组件可以具有不同的格式224。映射器100能够识别第二数据集组件222作为由第一数据集组件212表示的数据集216的实例并且产生适合的链接映射140。
在第二情况中,如图3B所示,图表230使用对外部源239的外部引用238与外部数据集组件232关联。外部数据集组件232具有数据格式234并且是数据集236的实例。如第一情况一样,由外部数据集组件表示的数据集236可以是表示数据管理系统170已知的数据源176的数据集。映射器100能够识别该外部数据集组件232作为另一数据集的实例并且产生适合的链接映射140。
在第三情况中,如图3C所示,图表240使用参数列表247的参数238与数据集组件242关联。引用的数据集组件242具有数据格式244并且是数据集246的实例。如第一和第二情况一样,由引用的数据集组件表示的数据集246可以是表示数据管理系统170已知的数据源176的数据集。映射器100能够识别该引用的数据集组件242作为另一数据集的实例并且产生适合的链接映射140。
在第四情况中,如图3D所示,图表250使用对外部源259的外部引用258与外部组件251关联。外部组件251不是数据集组件,而是另一类型的组件,诸如可执行组件。映射器100能够识别该可执行组件251为不适用于数据集链接映射过程。
在第五情况中,如图3E所示,图表260与自身由几个组件组成的子图表组件263关联。这些组件包括至少一个数据集组件262,以及在该示例中,包括一个或多个可执行组件261a、261b、261c。在这种情况下,作为单个实体的子图表263表示至少一个数据集。其他示范的子图表可以包括多个数据集组件,和任何数量(包括零个)的可执行组件。另外,该子图表263具有多个输出265a、265b。每个输出能够提供数据集的不同实例到接收该输出的组件。另一示范的子图表还可以具有任何数量的输入。再一示范的子图表可以不具有对应于各个数据集的输入或输出。对于子图表确实表示至少一个数据集的情况,映射器100能够识别该子图表263作为至少一个数据集的实例并且产生至少一个适合的链接映射140。
在图4中示出映射器的操作序列的示例。在步骤302中,映射器首先识别在与图表关联的要素中哪个要素表示数据集。一般,图表将具有一个或多个输入和输出,并且每个输入和每个输出可以是数据集的实例。每个图表也可以在一些中间步骤中处理数据集的实例。结果,每个图表可以连接到能够作为数据集候选者的多个组件。在有些情况中,数据管理系统具有关于某些组件的特征的信息,包括有关该组件是否表示数据集的信息。在那些情况下,在步骤304中映射器将潜在的数据集组件添加到数据集候选者的表中。在有些情况下,组件可以是由包括数据集组件和可执行组件的多个组件组成的子图表。子图表可以表示数据集的至少一个实例。因此,映射器编译全部此类子图表的列表并且作为步骤304的一部分将它们添加到数据集候选者的表中。在其他情况中,组件的性质可能不可用于数据管理系统。该组件可以通过对外部实体的引用而被访问,其中该引用可以是对数据库表的查询、指向因特网服务器的统一资源定位符、参数列表中的参数、或另外类型的引用。在这些情况下,映射器一般不具有这样的手段,通过它映射器可以独立访问由引用指向的实体。因此,映射器编译全部此类引用的列表并且作为步骤304的一部分将它们添加到数据集候选者的表中。
接下来,在步骤306中,对于给定的数据集候选者,映射器产生数据集候选者能够映射到的已知数据集的列表。该映射器使用用户定义规则、内置规则和试探法的组合来评估哪个已知数据集能够映射到数据集候选者。
接下来,在步骤308,用户然后选择对应于数据集候选者的已知数据集。如果建议的已知数据集全不是正确的匹配,则用户也可以访问全部已知数据集的整个列表。此外,用户能够指示数据集候选者不是数据集。例如,对远程服务器的引用可以是对远程可执行过程(它不是数据实体)的调用。作为另一示例,数据集候选者可以表示数据,但是它可以是不属于数据管理系统的类型的数据,诸如错误日志。在这种情况下,用户可以向用户接口指示该数据将在映射过程中被忽略。
接下来,在步骤310中,用户识别新映射的数据集的数据格式。该系统可以具有数据格式模板的集合,能够选择其中一个模板。替换地,用户能够在用户接口中产生新的数据格式。
接下来,在步骤312中映射器使用该信息产生关于数据集候选者的链接映射,以及可选的,格式映射。
接下来,映射器将下一个数据集候选者提供给用户用于在步骤308、310和312的另一迭代中的链接产生,除非映射器已经处理全部的数据集候选者。
接下来,在步骤314中,用户查看与数据管理系统关联的组件以基于在组件之间的新链接确保在图表和数据集组件之间的关联的显现是精确的。在步骤316中,用户具有对链接和格式映射做出任何调整的选项。
最后,在步骤318中,映射器向数据管理系统传递该链接和格式映射。该映射可以与一个或多个图表一起存储,或存储在与数据管理系统关联的单独的存储实体中,或通过另外的手段存储。
3数据集映射维持
映射器100能够处理可能出现的多个情况,其影响数据集链接的完整性。
第一情况包括当新组件被添加到数据管理系统170时识别新的数据集候选者。在这种情况中,映射器100分析每个组件并且向用户呈现可能的链接。映射器100能够操作于任何新的组件以产生需要的合适链接。
第二情况包括当数据管理系统170随时间改变时维持现有的链接。例如,数据集的新实例可以在与系统关联的图表的正常操作的期间开始存在。作为另一示例,数据集可能已经改变其身份,诸如其名称或系统中的位置。作为另一示例,数据集可以被整个删除。作为再一示例,数据集候选者可能在前一轮链接产生中被遗漏,从而链接的积聚集不完整。映射系统的用户接口160允许用户162修改现有的链接以弥补不完整或过时的任何映射。
第三情况包括自动更新关于总是遵循已知模式的数据集引用的链接。例如,图表可以处理在参数列表247中引用的数据集。此类参数列表可以随时间改变。如果参数列表遵循数据管理系统已知的标准格式,则映射器可以识别在参数列表中的改变并且相应地更新现有的链接。
4数据集链接映射
如图5所示,数据集链接映射140包含组件名称402、数据集名称404、数据集类型406、格式408、主要数据集位置410和标记412。组件名称402是表示数据集的实例的数据集组件或子图表。数据集名称404是指向由该组件表示的数据集的标识符。数据集类型406指示在例如数据文件、或数据库表、或另外类型的情况下该数据集的实例落入的类别。格式408是数据集的实例用来表示其数据的格式或安排。主要数据集位置410是标识符,其指向保持该数据集的踪迹的数据管理系统中的记录。最后,标记412指示该数据集的实例是否应该被忽略,例如,如果用户已识别数据集的实例为不适用于该数据管理系统并且应该被从链接的集合中剔除。
5内置规则
映射器100具有内置规则110的集合,其根据数据管理系统的标准惯例而操作。如果数据集组件遵循内置规则110,则映射器能够以最高的精确度识别对应于数据集组件的数据集。在规则的一个示范实施中,包含数据集候选者的外部引用的数据库表必须按照由数据管理系统使用的标准化目录结构而安置在永久存储器中。另外,根据参数访问外部引用的数据集组件的图表必须使用数据管理系统也能够访问和解析的参数。另外,数据集组件的格式必须在永久存储器中可用并且可由数据管理系统访问。取决于数据管理系统,其他内置规则也是可能的。
6用户定义的规则
除了映射器用来识别数据集候选者的内置规则外,映射器100也具有可选的用户定义规则120的积聚集。这些规则120可以由用户使能或禁止,这取决于哪个适用于用户的特定数据管理系统。在一个示范实施中,映射器具有六个用户定义的可选规则。如果在名称中一些信息模糊该表的标识,诸如关于定义该表的用户的信息,则映射器可以忽略在数据库表的名称中的一些信息。另外,映射器能够从数据库表的名称中消除该信息。另外,映射器可以忽略数据文件的特定目录,它们已知为包含不属于与数据管理系统关联的数据集的数据。此类目录可以是数据文件类型或数据文件扩展。另外,映射器能够解析对参数列表的特定参数的引用并且以参数自身的名称取代该引用。另外,映射器能够整个消除对参数的引用。用户也能够产生映射器要遵循的其他规则。
7试探法
除了遵循内置和用户定义的规则来评估数据集候选者外,映射器100也使用试探法130的集合。试探法130允许映射器分析给定数据集组件的特征并且将那些特征与已知的数据集比较。与已知的数据集具有类似特征的数据集组件很可能是数据集的实例。在一个示范实施中,映射器使用两个试探法。一个试探法是给定数据集组件的数据的特征。例如,如果与数据集组件关联的数据具有和与已知的数据集关联的数据相同数量的字节和记录,则该数据集组件很可能是那个数据集的实例。另外,如果数据集组件具有类似于已知的数据集的名称或产生的时期,则该数据集组件很可能是那个数据集的实例。第二试探法是数据集组件的数据格式。如果数据集组件与已知的数据集共享数据格式,则该数据集组件很可能是数据集的实例。该试探法在其中多个不同的数据集使用相同数据格式的情况下不那么可靠。
8数据集格式和映射
表示数据源的每个数据集具有关联的数据格式,其对数据集的每个要素指示该要素代表什么类型的数据。例如,数据库表的数据格式指示在给定记录中每个字段的数据类型。数据管理系统170对于表示数据源176、176a、176b的每个数据集保持单个数据格式174、174a、174b。
如果映射器100已遇到表示新的数据集186的数据集组件182,则映射器100基于数据集组件182的数据格式184产生将由数据管理系统存储的对应的数据格式。
在其中数据集组件183表示代表数据源176的已知的数据集的一些情况中,数据集组件182具有不同于代表数据源176的已知的数据集的数据格式174的数据格式184。数据管理系统170将代表数据源176的数据集作为单个实体处理,独立于数据集可能存在的实体的数量。结果,当这些情况出现时数据管理系统170依靠映射器100来统一不同的格式174、184。在一个实施中,映射器能够依靠于用户和数据管理系统的要求以四种不同方法的一种来应对每个情况。用户162能够选择统一的四种方法的任何一种用于每个情况。
在统一的第一方法中,映射器100使用数据集组件182的数据格式184作为数据集的主要数据格式并且相应地更新数据管理系统170。
在统一的第二方法中,映射器100使用现有数据集的数据格式174作为数据集的主要数据格式并且相应地更新数据管理系统170。
在统一的第三方法中,映射器100保持两种数据格式,并且产生在每个数据格式的字段之间的映射142。如图6所示,数据格式映射142指示数据集格式510的哪个字段512a、512b、512c对应于数据集实例(如,数据集组件)的格式的哪个字段522a、522b、522c。
在统一的第四方法中,映射器产生能够充当任一数据格式的新的统一的数据格式。
9一般计算机实施
以上描述的数据集映射方法能够使用用于在计算机上执行的软件来实现。例如,软件形成在一个或多个编程或可编程的计算机系统(其可以具有各种架构,诸如分布式的、客户端/服务器或网格的)中执行的一个或多个计算机程序中的过程,每个计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口、以及至少一个输出设备或端口。该软件可以形成较大程序的一个或多个模块,例如,其提供与数据流图表的设计和配置相关的其他服务。图表的节点和要素能够实现为存储在计算机可读介质中的数据结构或实现为遵循存储在数据仓库中的数据模型的其他组织的数据。
软件可以提供在存储介质中,诸如CD-ROM,可通过通用或专用可编程计算机读取或经过网络的通信介质传递(按可传播信号编码)到执行处的计算机。全部的功能可以在专用计算机上执行,或使用诸如协处理器的专用硬件执行。软件可以按分布方式实现,其中由软件规定的计算的不同部分由不同计算机执行。每个此类计算机程序优选地存储于或下载到存储媒介或设备(如,固态存储器或媒介,或磁或光媒介)中,可由通用或专用可编程计算机读取,以用于当通过计算机系统读取存储媒介或设备以执行这里所述的过程时配置和操作该计算机。本发明的系统也可以考虑实现为计算机可读存储介质,配置为计算机程序,其中存储介质的配置使得计算机系统按特定和预定义的方式操作以执行这里所述的功能。
已经描述了本发明的多个实施例。然而,将理解各种修改可以被做出而不脱离本发明的精神和范围。例如,上述的一些步骤可以是顺序独立的,因此能够按照不同于所述的顺序来执行。
应该理解前述说明的意图是说明性的而非限制本发明的范围,该范围由所附权利要求的范围定义。例如,上述的多个功能步骤可以按照不同的顺序执行而不会本质上影响整个处理。其他实施例处于以下权利要求的范围中。
权利要求书(按照条约第19条的修改)
1.一种用于映射存储在数据存储系统中的数据以由计算机系统使用的方法,该方法包括:
通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
识别一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则,单个数据集的每个版本表示由不同的数据流图表之一接收或提供的数据;
提供用户接口以接收在给定集合中的至少两个数据集之间的映射;以及
与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
2.根据权利要求1所述的方法,包括在用户接口上呈现该集合。
3.根据权利要求1所述的方法,包括在用户接口上呈现根据对一个或多个准则的匹配的数量而排序的可能的映射的列表。
4.根据权利要求3所述的方法,其中可能的映射的列表包括很可能是在列表中排序较高的给定数据集的实例的候选者。
5.根据权利要求3所述的方法,其中准则之一内置于映射器中,该映射器识别一个或多个数据集的集合。
6.根据权利要求3所述的方法,其中准则之一是从用户接口接收的。
7.根据权利要求3所述的方法,其中至少一个可能的映射指示表示数据集的数据流图表的组件,并且至少一个可能的映射指示不表示数据集的数据流图表的组件。
8.根据权利要求1所述的方法,其中包括多个组件的数据流图表的子图表表示数据集。
9.根据权利要求8所述的方法,其中该子图表包括数据组件。
10.根据权利要求8所述的方法,其中该子图表包括可执行组件。
11.根据权利要求1所述的方法,其中识别一个或多个数据集的集合包括使用试探法以确定在给定集合中的数据集是否具有与另一数据集共同的一个或多个特征。
12.根据权利要求11所述的方法,其中该特征包括在数据集的表示中的字节和记录的数量。
13.根据权利要求11所述的方法,其中该特征包括数据集的表示的名称。
14.根据权利要求11所述的方法,其中该特征包括数据集的表示的创建的日期。
15.根据权利要求11所述的方法,其中该特征包括数据集的表示的数据格式。
16.根据权利要求1所述的方法,其中该映射的至少一个数据集属于数据管理系统已知的数据集的组。
17.根据权利要求1所述的方法,还包括提供给定集合中的数据集之间的格式映射。
18.根据权利要求1所述的方法,其中该映射包括标识符,其指向保持数据集的踪迹的数据管理系统中的记录。
19.根据权利要求1所述的方法,还包括基于在数据集中的改变更新该映射。
20.一种用于映射存储在数据存储系统中的数据的系统,该系统包括:
数据存储系统,通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,存储包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
映射器,其识别与数据流图表关联的一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则,单个数据集的每个版本表示由不同的数据流图表之一接收或提供的数据;
用户接口,其接收在给定集合中的至少两个数据集之间的映射,以及与数据流图表关联来在数据存储系统中存储该映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
21.根据权利要求20所述的系统,其中该用户接口呈现该集合。
22.根据权利要求20所述的系统,其中用户接口呈现根据对一个或多个准则的匹配的数量而排序的可能的映射的列表。
23.根据权利要求22所述的系统,其中可能的映射的列表包括很可能是在列表中排序较高的给定数据集的实例的候选者。
24.根据权利要求22所述的系统,其中准则之一被内置于映射器中。
25.根据权利要求22所述的系统,其中准则之一是通过用户接口接收的。
26.根据权利要求22所述的系统,其中至少一个可能的映射指示表示数据集的数据流图表的组件,并且至少一个可能的映射指示不表示数据集的数据流图表的组件。
27.根据权利要求20所述的系统,其中包括多个组件的数据流图表的子图表表示数据集。
28.根据权利要求27所述的系统,其中该子图表包括数据组件。
29.根据权利要求27所述的系统,其中该子图表包括可执行组件。
30.根据权利要求20所述的系统,其中该映射器使用试探法以确定在给定集合中的数据集是否具有与另一数据集共同的一个或多个特征。
31.根据权利要求30所述的系统,其中该特征包括在数据集的表示中字节和记录的数量。
32.根据权利要求30所述的系统,其中该特征包括数据集的表示的名称。
33.根据权利要求30所述的系统,其中该特征包括数据集的表示的创建的日期。
34.根据权利要求30所述的系统,其中该特征包括数据集的表示的数据格式。
35.根据权利要求20所述的系统,其中该映射的数据集的至少一个属于数据管理系统已知的数据集的组。
36.根据权利要求20所述的系统,其中该映射器产生给定集合中数据集之间的格式映射。
37.根据权利要求20所述的系统,其中该映射包括标识符,其指向保持数据集的踪迹的数据管理系统中的记录。
38.根据权利要求20所述的系统,其中映射器基于在数据集中的改变更新该映射。
39.一种用于映射存储在数据存储系统中的数据的系统,该系统包括:
一部件,用于通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
用于识别一个或多个数据集的集合的部件,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则,单个数据集的每个版本表示由不同的数据流图表之一接收或提供的数据;
用于提供用户接口以接收在给定集合中的至少两个数据集之间的映射的部件;和
用于与数据流图表关联来存储在用户接口上接收的映射的部件,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
40.一种存储用于映射存储在数据存储系统中的数据的计算机程序的计算机可读介质,该计算机程序包括指令,用于促使计算机来:
通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
识别一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则,单个数据集的每个版本表示由不同的数据流图表之一接收或提供的数据;
提供用户接口以接收在给定集合的至少两个数据集之间的映射;以及
与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
41.根据权利要求1所述的方法,其中单个数据集的每个版本与不同的图表、图表子集或可执行组件关联。
42.根据权利要求1所述的方法,其中单个数据集的每个版本存储在与数据存储系统关联的不同位置。
43.根据权利要求1所述的方法,其中单个数据集的每个版本使用不同的数据存储格式来解释。
44.根据权利要求1所述的方法,其中使用在数据流图表的执行之间改变的参数来访问单个数据集的每个版本。

Claims (40)

1.一种用于映射存储在数据存储系统中的数据以由计算机系统使用的方法,该方法包括:
通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
识别一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则,;
提供用户接口以接收在给定集合中的至少两个数据集之间的映射;以及
与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
2.根据权利要求1所述的方法,包括在用户接口上呈现该集合。
3.根据权利要求1所述的方法,包括在用户接口上呈现根据对一个或多个准则的匹配的数量而排序的可能的映射的列表。
4.根据权利要求3所述的方法,其中可能的映射的列表包括很可能是在列表中排序较高的给定数据集的实例的候选者。
5.根据权利要求3所述的方法,其中准则之一内置于映射器中,该映射器识别一个或多个数据集的集合。
6.根据权利要求3所述的方法,其中准则之一是从用户接口接收的。
7.根据权利要求3所述的方法,其中至少一个可能的映射指示表示数据集的数据流图表的组件,并且至少一个可能的映射指示不表示数据集的数据流图表的组件。
8.根据权利要求1所述的方法,其中包括多个组件的数据流图表的子图表表示数据集。
9.根据权利要求8所述的方法,其中该子图表包括数据组件。
10.根据权利要求8所述的方法,其中该子图表包括可执行组件。
11.根据权利要求1所述的方法,其中识别一个或多个数据集的集合包括使用试探法以确定在给定集合中的数据集是否具有与另一数据集共同的一个或多个特征。
12.根据权利要求11所述的方法,其中该特征包括在数据集的表示中的字节和记录的数量。
13.根据权利要求11所述的方法,其中该特征包括数据集的表示的名称。
14.根据权利要求11所述的方法,其中该特征包括数据集的表示的创建的日期。
15.根据权利要求11所述的方法,其中该特征包括数据集的表示的数据格式。
16.根据权利要求1所述的方法,其中该映射的至少一个数据集属于数据管理系统已知的数据集的组。
17.根据权利要求1所述的方法,还包括提供给定集合中的数据集之间的格式映射。
18.根据权利要求1所述的方法,其中该映射包括标识符,其指向保持数据集的踪迹的数据管理系统中的记录。
19.根据权利要求1所述的方法,还包括基于在数据集中的改变更新该映射。
20.一种用于映射存储在数据存储系统中的数据的系统,该系统包括:
数据存储系统,通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,存储包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
映射器,其识别与数据流图表关联的一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;
用户接口,其接收在给定集合中的至少两个数据集之间的映射,以及与数据流图表关联来在数据存储系统中存储该映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
21.根据权利要求20所述的系统,其中该用户接口呈现该集合。
22.根据权利要求20所述的系统,其中用户接口呈现根据对一个或多个准则的匹配的数量而排序的可能的映射的列表。
23.根据权利要求22所述的系统,其中可能的映射的列表包括很可能是在列表中排序较高的给定数据集的实例的候选者。
24.根据权利要求22所述的系统,其中准则之一被内置于映射器中。
25.根据权利要求22所述的系统,其中准则之一是通过用户接口接收的。
26.根据权利要求22所述的系统,其中至少一个可能的映射指示表示数据集的数据流图表的组件,并且至少一个可能的映射指示不表示数据集的数据流图表的组件。
27.根据权利要求20所述的系统,其中包括多个组件的数据流图表的子图表表示数据集。
28.根据权利要求27所述的系统,其中该子图表包括数据组件。
29.根据权利要求27所述的系统,其中该子图表包括可执行组件。
30.根据权利要求20所述的系统,其中该映射器使用试探法以确定在给定集合中的数据集是否具有与另一数据集共同的一个或多个特征。
31.根据权利要求30所述的系统,其中该特征包括在数据集的表示中字节和记录的数量。
32.根据权利要求30所述的系统,其中该特征包括数据集的表示的名称。
33.根据权利要求30所述的系统,其中该特征包括数据集的表示的创建的日期。
34.根据权利要求30所述的系统,其中该特征包括数据集的表示的数据格式。
35.根据权利要求20所述的系统,其中该映射的数据集的至少一个属于数据管理系统已知的数据集的组。
36.根据权利要求20所述的系统,其中该映射器产生给定集合中数据集之间的格式映射。
37.根据权利要求20所述的系统,其中该映射包括标识符,其指向保持数据集的踪迹的数据管理系统中的记录。
38.根据权利要求20所述的系统,其中映射器基于在数据集中的改变更新该映射。
39.一种用于映射存储在数据存储系统中的数据的系统,该系统包括:
一部件,用于通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
用于识别一个或多个数据集的集合的部件,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;
用于提供用户接口以接收在给定集合中的至少两个数据集之间的映射的部件;和
用于与数据流图表关联来存储在用户接口上接收的映射的部件,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
40.一种存储用于映射存储在数据存储系统中的数据的计算机程序的计算机可读介质,该计算机程序包括指令,用于促使计算机来:
通过至少一个数据流图表从至少一个输入数据集接收数据的流以及通过至少一个数据流图表向至少一个输出数据集提供数据的流,处理包括代表由表示数据的流的链路相互连接的计算的节点的数据流图表的规范;
识别一个或多个数据集的集合,其中在给定集合中的每个数据集匹配用于识别单个数据集的不同版本的一个或多个准则;
提供用户接口以接收在给定集合的至少两个数据集之间的映射;以及
与数据流图表关联来存储在用户接口上接收的映射,该数据流图表向该映射的数据集提供数据或从该映射的数据集接收数据。
CN200980148087.4A 2008-12-02 2009-12-01 在数据管理系统中映射数据集的实例 Active CN102232212B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11916408P 2008-12-02 2008-12-02
US61/119,164 2008-12-02
PCT/US2009/066210 WO2010065511A1 (en) 2008-12-02 2009-12-01 Mapping instances of a dataset within a data management system

Publications (2)

Publication Number Publication Date
CN102232212A true CN102232212A (zh) 2011-11-02
CN102232212B CN102232212B (zh) 2015-11-25

Family

ID=42223717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980148087.4A Active CN102232212B (zh) 2008-12-02 2009-12-01 在数据管理系统中映射数据集的实例

Country Status (8)

Country Link
US (2) US20100138388A1 (zh)
EP (1) EP2370892B1 (zh)
JP (1) JP5525541B2 (zh)
KR (2) KR101661532B1 (zh)
CN (1) CN102232212B (zh)
AU (1) AU2009322602B2 (zh)
CA (1) CA2744881C (zh)
WO (1) WO2010065511A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403677A (zh) * 2011-01-07 2013-11-20 起元技术有限责任公司 流动分析工具化
CN105683940A (zh) * 2013-06-24 2016-06-15 惠普发展公司,有限责任合伙企业 处理混合流的数据流图
CN107980147A (zh) * 2015-03-23 2018-05-01 摩根士丹利服务集团有限公司 跟踪分布式计算系统中的数据流
CN109643329A (zh) * 2016-09-29 2019-04-16 谷歌有限责任公司 从数据表中的数据生成图表
CN110149801A (zh) * 2015-05-05 2019-08-20 华为技术有限公司 用于在处理系统中进行数据流图转换的系统和方法
CN115017251A (zh) * 2022-08-05 2022-09-06 山东省计算中心(国家超级计算济南中心) 一种用于智慧城市的标准映射地图建立方法及系统

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7389275B2 (en) 2002-03-05 2008-06-17 Visa U.S.A. Inc. System for personal authorization control for card transactions
US9262490B2 (en) * 2004-08-12 2016-02-16 Oracle International Corporation Adaptively routing transactions to servers
EP2370892B1 (en) 2008-12-02 2020-11-04 Ab Initio Technology LLC Mapping instances of a dataset within a data management system
EP2478433A4 (en) 2009-09-16 2016-09-21 Ab Initio Technology Llc MAPPING DATA SET ELEMENTS
US9727438B2 (en) * 2010-08-25 2017-08-08 Ab Initio Technology Llc Evaluating dataflow graph characteristics
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
WO2012061109A1 (en) * 2010-10-25 2012-05-10 Ab Initio Technology Llc Managing data set objects in a dataflow graph that represents a computer program
KR101872748B1 (ko) 2011-01-14 2018-06-29 아브 이니티오 테크놀로지 엘엘시 데이터 콜렉션에 대한 변경 관리 방법
US8217945B1 (en) 2011-09-02 2012-07-10 Metric Insights, Inc. Social annotation of a single evolving visual representation of a changing dataset
US8538934B2 (en) * 2011-10-28 2013-09-17 Microsoft Corporation Contextual gravitation of datasets and data services
WO2014018641A2 (en) 2012-07-24 2014-01-30 Ab Initio Technology Llc Mapping entities in data models
US9444674B2 (en) 2012-10-02 2016-09-13 Microsoft Technology Licensing, Llc Heuristic analysis of responses to user requests
US10489360B2 (en) 2012-10-17 2019-11-26 Ab Initio Technology Llc Specifying and applying rules to data
GB2520061B (en) * 2013-11-08 2016-02-24 Exacttrak Ltd Data accessibility control
US10191863B2 (en) 2014-03-14 2019-01-29 Ab Initio Technology Llc Mapping attributes of keyed entities
US10877955B2 (en) * 2014-04-29 2020-12-29 Microsoft Technology Licensing, Llc Using lineage to infer data quality issues
US10089409B2 (en) 2014-04-29 2018-10-02 Microsoft Technology Licensing, Llc Event-triggered data quality verification
KR102148984B1 (ko) * 2014-05-29 2020-08-27 삼성에스디에스 주식회사 데이터 처리 시스템 및 방법
SG11201700384WA (en) 2014-07-18 2017-02-27 Ab Initio Technology Llc Managing parameter sets
CN105302843A (zh) * 2014-08-01 2016-02-03 友劲科技股份有限公司 管理系统与管理方法
TWI540861B (zh) * 2014-08-01 2016-07-01 友勁科技股份有限公司 管理系統與管理方法
US9626393B2 (en) 2014-09-10 2017-04-18 Ab Initio Technology Llc Conditional validation rules
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US11042537B2 (en) * 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11468049B2 (en) * 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11036697B2 (en) * 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US11086896B2 (en) * 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US11016931B2 (en) * 2016-06-19 2021-05-25 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11068453B2 (en) * 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US11238109B2 (en) * 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US12008050B2 (en) * 2017-03-09 2024-06-11 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US10691729B2 (en) * 2017-07-07 2020-06-23 Palantir Technologies Inc. Systems and methods for providing an object platform for a relational database
US10592147B2 (en) 2017-07-26 2020-03-17 International Business Machines Corporation Dataset relevance estimation in storage systems
US10671303B2 (en) 2017-09-13 2020-06-02 International Business Machines Corporation Controlling a storage system
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
CN110297699B (zh) * 2018-03-23 2021-09-14 华为技术有限公司 调度方法、调度器、存储介质及系统
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11327991B2 (en) * 2018-05-22 2022-05-10 Data.World, Inc. Auxiliary query commands to deploy predictive data models for queries in a networked computing platform
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
KR20210046487A (ko) * 2019-10-18 2021-04-28 삼성전자주식회사 데이터 베이스에 포함된 데이터를 분석하는 데이터 분석 장치 및 방법
WO2022165321A1 (en) 2021-01-31 2022-08-04 Ab Initio Technology Llc Data processing system with manipulation of logical dataset groups
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
KR102660914B1 (ko) * 2023-11-07 2024-04-24 김기창 대용량 데이터 활용을 위한 공통 코드 정비 및 정제와 설계 방법 및 서버

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010014890A1 (en) * 1998-02-06 2001-08-16 Gwoho Liu Methods for mapping data fields from one data set to another in a data processing environment
US20040056908A1 (en) * 2001-03-22 2004-03-25 Turbo Worx, Inc. Method and system for dataflow creation and execution
US20050187984A1 (en) * 2004-02-20 2005-08-25 Tianlong Chen Data driven database management system and method
US7080088B1 (en) * 2002-01-30 2006-07-18 Oracle International Corporation Automatic reconciliation of bindable objects
US20070011208A1 (en) * 2005-07-06 2007-01-11 Smith Alan R Apparatus, system, and method for performing semi-automatic dataset maintenance

Family Cites Families (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168441A (en) 1990-05-30 1992-12-01 Allen-Bradley Company, Inc. Methods for set up and programming of machine and process controllers
US5446885A (en) 1992-05-15 1995-08-29 International Business Machines Corporation Event driven management information system with rule-based applications structure stored in a relational database
JPH0744368A (ja) 1993-07-29 1995-02-14 Hitachi Ltd 組合せモデルの編集システム
US5758351A (en) * 1995-03-01 1998-05-26 Sterling Software, Inc. System and method for the creation and use of surrogate information system objects
US5966072A (en) * 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US6216140B1 (en) * 1997-09-17 2001-04-10 Hewlett-Packard Company Methodology for the efficient management of hierarchically organized information
US6088702A (en) 1998-02-25 2000-07-11 Plantz; Scott H. Group publishing system
US6948154B1 (en) * 1999-03-22 2005-09-20 Oregon State University Methodology for testing spreadsheets
US7120638B1 (en) * 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
US6633875B2 (en) 1999-12-30 2003-10-14 Shaun Michael Brady Computer database system and method for collecting and reporting real estate property and loan performance information over a computer driven network
GB2358072B (en) 2000-01-07 2004-01-28 Mitel Corp Tabular range editing mechanism
US7164422B1 (en) * 2000-07-28 2007-01-16 Ab Initio Software Corporation Parameterized graphs with conditional components
US6704024B2 (en) * 2000-08-07 2004-03-09 Zframe, Inc. Visual content browsing using rasterized representations
US6708186B1 (en) * 2000-08-14 2004-03-16 Oracle International Corporation Aggregating and manipulating dictionary metadata in a database system
US7143076B2 (en) 2000-12-12 2006-11-28 Sap Aktiengesellschaft Method and apparatus for transforming data
US6629098B2 (en) 2001-01-16 2003-09-30 Hewlett-Packard Development Company, L.P. Method and system for validating data submitted to a database application
US7117430B2 (en) * 2001-02-27 2006-10-03 Microsoft Corporation Spreadsheet error checker
JP2002279147A (ja) 2001-03-22 2002-09-27 Sharp Corp 内製化判断支援装置、内製化判断支援方法および内製化判断支援プログラムを記録した機械読取可能な記録媒体および内製化判断支援プログラム
US7853553B2 (en) * 2001-03-26 2010-12-14 Siebel Systems, Inc. Engine for converting data from a source format to a destination format using user defined mappings
US6732095B1 (en) 2001-04-13 2004-05-04 Siebel Systems, Inc. Method and apparatus for mapping between XML and relational representations
US6494159B2 (en) * 2001-05-11 2002-12-17 The United States Of America As Represented By The Secretary Of The Navy Submarine launched unmanned combat vehicle replenishment
US6832366B2 (en) 2001-05-17 2004-12-14 Simdesk Technologies, Inc. Application generator
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US6868526B2 (en) * 2001-07-18 2005-03-15 The Mathworks, Inc. Graphical subclassing
AUPR966001A0 (en) * 2001-12-20 2002-01-24 Canon Information Systems Research Australia Pty Ltd A microprocessor card defining a custom user interface
US7185317B2 (en) 2002-02-14 2007-02-27 Hubbard & Wells Logical data modeling and integrated application framework
US6820077B2 (en) 2002-02-22 2004-11-16 Informatica Corporation Method and system for navigating a large amount of data
US7110924B2 (en) * 2002-05-15 2006-09-19 Caterpillar Inc. Method for controlling the performance of a target system
US7574652B2 (en) * 2002-06-20 2009-08-11 Canon Kabushiki Kaisha Methods for interactively defining transforms and for generating queries by manipulating existing query data
US20050144189A1 (en) 2002-07-19 2005-06-30 Keay Edwards Electronic item management and archival system and method of operating the same
US7167850B2 (en) * 2002-10-10 2007-01-23 Ab Initio Software Corporation Startup and control of graph-based computation
US7225301B2 (en) 2002-11-22 2007-05-29 Quicksilver Technologies External memory controller node
US7257603B2 (en) 2003-05-08 2007-08-14 Microsoft Corporation Preview mode
US20040225632A1 (en) 2003-05-08 2004-11-11 Microsoft Corporation Automated information management and related methods
US20050010896A1 (en) 2003-07-07 2005-01-13 International Business Machines Corporation Universal format transformation between relational database management systems and extensible markup language using XML relational transformation
US20050060317A1 (en) * 2003-09-12 2005-03-17 Lott Christopher Martin Method and system for the specification of interface definitions and business rules and automatic generation of message validation and transformation software
KR100922141B1 (ko) * 2003-09-15 2009-10-19 아브 이니티오 소프트웨어 엘엘시 데이터 프로파일링 방법 및 시스템
US7865507B2 (en) * 2003-09-15 2011-01-04 Oracle International Corporation Data quality analyzer
US7765529B1 (en) * 2003-10-31 2010-07-27 The Mathworks, Inc. Transforming graphical objects in a graphical modeling environment
US7840949B2 (en) * 2003-11-03 2010-11-23 Ramal Acquisition Corp. System and method for data transformation using dataflow graphs
US8165853B2 (en) * 2004-04-16 2012-04-24 Knowledgebase Marketing, Inc. Dimension reduction in predictive model development
JP4275013B2 (ja) * 2004-06-21 2009-06-10 三洋電機株式会社 データフローグラフ処理装置、処理装置、リコンフィギュラブル回路。
US7536406B2 (en) 2004-06-23 2009-05-19 Microsoft Corporation Impact analysis in an object model
US20060007464A1 (en) 2004-06-30 2006-01-12 Percey Michael F Structured data update and transformation system
US7353227B2 (en) * 2004-07-23 2008-04-01 Sap Aktiengesellschaft Conflict resolution engine
US7899833B2 (en) * 2004-11-02 2011-03-01 Ab Initio Technology Llc Managing related data objects
US20060200753A1 (en) * 2005-03-07 2006-09-07 Rishi Bhatia System and method for providing data manipulation as a web service
JP4550641B2 (ja) 2005-03-30 2010-09-22 大陽日酸エンジニアリング株式会社 データ照合装置及び方法
US8255363B2 (en) 2005-06-08 2012-08-28 rPath Methods, systems, and computer program products for provisioning software using dynamic tags to identify and process files
US8630917B2 (en) * 2005-06-09 2014-01-14 At&T Intellectual Property Ii, L.P. Arrangement for guiding user design of comprehensive product solution using on-the-fly data validation
US7716630B2 (en) * 2005-06-27 2010-05-11 Ab Initio Technology Llc Managing parameters for graph-based computations
US7877350B2 (en) * 2005-06-27 2011-01-25 Ab Initio Technology Llc Managing metadata for graph-based computations
US7870162B2 (en) * 2005-07-29 2011-01-11 Sap Ag Method for generating properly formed expressions
US20070050705A1 (en) * 2005-08-30 2007-03-01 Erxiang Liu Method of xml element level comparison and assertion utilizing an application-specific parser
US20070050750A1 (en) 2005-08-31 2007-03-01 Microsoft Corporation Extensible data-driven setup application for operating system
WO2007048229A1 (en) * 2005-10-25 2007-05-03 Angoss Software Corporation Strategy trees for data mining
US8060821B2 (en) * 2005-12-09 2011-11-15 Apple Inc. Enhanced visual feedback of interactions with user interface
US20070179956A1 (en) 2006-01-18 2007-08-02 Whitmyer Wesley W Jr Record protection system for networked databases
US7761586B2 (en) * 2006-02-06 2010-07-20 Microsoft Corporation Accessing and manipulating data in a data flow graph
US7661067B2 (en) * 2006-02-21 2010-02-09 International Business Machines Corporation Method for providing quick responses in instant messaging conversations
US7647298B2 (en) * 2006-03-23 2010-01-12 Microsoft Corporation Generation of query and update views for object relational mapping
US20070294119A1 (en) * 2006-03-30 2007-12-20 Adaptive Alpha, Llc System, method and computer program product for evaluating and rating an asset management business and associate investment funds using experiential business process and performance data, and applications thereof
US8868577B2 (en) * 2006-03-31 2014-10-21 Sap Se Generic database manipulator
US7797319B2 (en) * 2006-05-15 2010-09-14 Algebraix Data Corporation Systems and methods for data model mapping
US7870556B2 (en) * 2006-05-16 2011-01-11 Ab Initio Technology Llc Managing computing resources in graph-based computations
US7970746B2 (en) 2006-06-13 2011-06-28 Microsoft Corporation Declarative management framework
US7689565B1 (en) 2006-06-28 2010-03-30 Emc Corporation Methods and apparatus for synchronizing network management data
JP5894724B2 (ja) * 2006-08-10 2016-03-30 アビニシオ テクノロジー エルエルシー グラフ型計算の分散サービス
US20080083237A1 (en) * 2006-10-06 2008-04-10 Hussmann Corporation Electronic head pressure control
US8423564B1 (en) 2006-10-31 2013-04-16 Ncr Corporation Methods and apparatus for managing and updating stored information
US20080126988A1 (en) 2006-11-24 2008-05-29 Jayprakash Mudaliar Application management tool
US8538918B1 (en) * 2006-12-05 2013-09-17 Corelogic Solutions, Llc Systems and methods for tracking parcel data acquisition
US20080162384A1 (en) * 2006-12-28 2008-07-03 Privacy Networks, Inc. Statistical Heuristic Classification
GB0700450D0 (en) * 2007-01-10 2007-02-21 Radiation Watch Ltd The RWL threat engine
US9430552B2 (en) * 2007-03-16 2016-08-30 Microsoft Technology Licensing, Llc View maintenance rules for an update pipeline of an object-relational mapping (ORM) platform
US20080243765A1 (en) * 2007-03-29 2008-10-02 Ariel Fuxman Method for generating nested mapping specifications in a schema mapping formalism
US7603368B2 (en) * 2007-03-30 2009-10-13 Fmr Llc Mapping data on a network
US8069129B2 (en) * 2007-04-10 2011-11-29 Ab Initio Technology Llc Editing and compiling business rules
US8032404B2 (en) * 2007-06-13 2011-10-04 International Business Machines Corporation Method and system for estimating financial benefits of packaged application service projects
US8694518B2 (en) * 2007-06-14 2014-04-08 Colorquick, L.L.C. Method and apparatus for database mapping
US8103704B2 (en) 2007-07-31 2012-01-24 ePrentise, LLC Method for database consolidation and database separation
US7912264B2 (en) * 2007-08-03 2011-03-22 Siemens Medical Solutions Usa, Inc. Multi-volume rendering of single mode data in medical diagnostic imaging
US7860863B2 (en) 2007-09-05 2010-12-28 International Business Machines Corporation Optimization model for processing hierarchical data in stream systems
US8566296B2 (en) * 2007-09-14 2013-10-22 Oracle International Corporation Support for compensation aware data types in relational database systems
JP5453273B2 (ja) * 2007-09-20 2014-03-26 アビニシオ テクノロジー エルエルシー グラフベース計算におけるデータフロー管理
CN101878461B (zh) * 2007-09-28 2014-03-12 国际商业机器公司 分析用于匹配数据记录的系统的方法和系统
US8078651B2 (en) * 2008-01-24 2011-12-13 Oracle International Corporation Match rules to identify duplicate records in inbound data
US20090234623A1 (en) 2008-03-12 2009-09-17 Schlumberger Technology Corporation Validating field data
JP4224126B1 (ja) * 2008-06-09 2009-02-12 パナソニック株式会社 データベース管理サーバ装置、データベース管理システム、データベース管理方法およびデータベース管理プログラム
US20090319494A1 (en) * 2008-06-20 2009-12-24 Microsoft Corporation Field mapping for data stream output
KR101499599B1 (ko) * 2008-06-30 2015-03-18 아브 이니티오 테크놀로지 엘엘시 그래프 기반 계산에서의 데이터 로깅
US20100083237A1 (en) * 2008-09-26 2010-04-01 Arm Limited Reducing trace overheads by modifying trace operations
US8082228B2 (en) * 2008-10-31 2011-12-20 Netapp, Inc. Remote office duplication
KR101688554B1 (ko) 2008-11-12 2016-12-21 아브 이니티오 테크놀로지 엘엘시 데이터 객체의 관리 및 자동 링킹
CA2744876C (en) 2008-12-02 2017-08-29 Ab Initio Technology Llc Data maintenance system
EP2370892B1 (en) 2008-12-02 2020-11-04 Ab Initio Technology LLC Mapping instances of a dataset within a data management system
EP2391938A4 (en) * 2009-01-30 2016-06-08 Ab Initio Technology Llc DATA PROCESSING WITH VECTOR FIELDS
EP2221733A1 (en) 2009-02-17 2010-08-25 AMADEUS sas Method allowing validation in a production database of new entered data prior to their release
US8935702B2 (en) * 2009-09-04 2015-01-13 International Business Machines Corporation Resource optimization for parallel data integration
EP2478433A4 (en) * 2009-09-16 2016-09-21 Ab Initio Technology Llc MAPPING DATA SET ELEMENTS
JP5401279B2 (ja) 2009-11-26 2014-01-29 株式会社日立製作所 チェックルール設計支援方法、チェックルール設計支援システム、およびチェックルール設計支援プログラム
US9805015B2 (en) 2009-12-16 2017-10-31 Teradata Us, Inc. System and method for enhanced user interactions with a grid
US8555265B2 (en) 2010-05-04 2013-10-08 Google Inc. Parallel processing of data
US8583664B2 (en) * 2010-05-26 2013-11-12 Microsoft Corporation Exposing metadata relationships through filter interplay
US8732143B2 (en) * 2010-08-27 2014-05-20 Microsoft Corporation Reducing locking during database transactions
WO2012061109A1 (en) * 2010-10-25 2012-05-10 Ab Initio Technology Llc Managing data set objects in a dataflow graph that represents a computer program
US8949166B2 (en) * 2010-12-16 2015-02-03 International Business Machines Corporation Creating and processing a data rule for data quality
KR101872748B1 (ko) * 2011-01-14 2018-06-29 아브 이니티오 테크놀로지 엘엘시 데이터 콜렉션에 대한 변경 관리 방법
US20120310904A1 (en) 2011-06-01 2012-12-06 International Business Machine Corporation Data validation and service
US20130166515A1 (en) 2011-12-22 2013-06-27 David Kung Generating validation rules for a data report based on profiling the data report in a data processing tool
US8516008B1 (en) 2012-05-18 2013-08-20 Splunk Inc. Flexible schema column store
US10489360B2 (en) 2012-10-17 2019-11-26 Ab Initio Technology Llc Specifying and applying rules to data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010014890A1 (en) * 1998-02-06 2001-08-16 Gwoho Liu Methods for mapping data fields from one data set to another in a data processing environment
US20040056908A1 (en) * 2001-03-22 2004-03-25 Turbo Worx, Inc. Method and system for dataflow creation and execution
US7080088B1 (en) * 2002-01-30 2006-07-18 Oracle International Corporation Automatic reconciliation of bindable objects
US20050187984A1 (en) * 2004-02-20 2005-08-25 Tianlong Chen Data driven database management system and method
US20070011208A1 (en) * 2005-07-06 2007-01-11 Smith Alan R Apparatus, system, and method for performing semi-automatic dataset maintenance

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103403677A (zh) * 2011-01-07 2013-11-20 起元技术有限责任公司 流动分析工具化
CN103403677B (zh) * 2011-01-07 2017-08-11 起元技术有限责任公司 流动分析工具化
CN105683940A (zh) * 2013-06-24 2016-06-15 惠普发展公司,有限责任合伙企业 处理混合流的数据流图
CN107980147A (zh) * 2015-03-23 2018-05-01 摩根士丹利服务集团有限公司 跟踪分布式计算系统中的数据流
CN110149801A (zh) * 2015-05-05 2019-08-20 华为技术有限公司 用于在处理系统中进行数据流图转换的系统和方法
CN109643329A (zh) * 2016-09-29 2019-04-16 谷歌有限责任公司 从数据表中的数据生成图表
US11694024B2 (en) 2016-09-29 2023-07-04 Google Llc Generating charts from data in a data table
CN109643329B (zh) * 2016-09-29 2023-09-29 谷歌有限责任公司 从数据表中的数据生成图表
CN115017251A (zh) * 2022-08-05 2022-09-06 山东省计算中心(国家超级计算济南中心) 一种用于智慧城市的标准映射地图建立方法及系统
CN115017251B (zh) * 2022-08-05 2022-10-25 山东省计算中心(国家超级计算济南中心) 一种用于智慧城市的标准映射地图建立方法及系统

Also Published As

Publication number Publication date
EP2370892A1 (en) 2011-10-05
KR101661532B1 (ko) 2016-09-30
JP2012510687A (ja) 2012-05-10
JP5525541B2 (ja) 2014-06-18
US11341155B2 (en) 2022-05-24
KR20150042866A (ko) 2015-04-21
EP2370892B1 (en) 2020-11-04
AU2009322602A1 (en) 2010-06-10
CA2744881C (en) 2020-03-10
CN102232212B (zh) 2015-11-25
CA2744881A1 (en) 2010-06-10
US20100138388A1 (en) 2010-06-03
AU2009322602B2 (en) 2015-06-25
KR20110097921A (ko) 2011-08-31
US20200311098A1 (en) 2020-10-01
WO2010065511A1 (en) 2010-06-10
EP2370892A4 (en) 2016-03-09

Similar Documents

Publication Publication Date Title
CN102232212B (zh) 在数据管理系统中映射数据集的实例
US20240152495A1 (en) Generating rules for data processing values of data fields from semantic labels of the data fields
US10592386B2 (en) Fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
Fan Graph pattern matching revised for social network analysis
EP2668725B1 (en) Generating data pattern information
EP2951736B1 (en) Data records selection
EP2608074B1 (en) Systems and methods for merging source records in accordance with survivorship rules
EP3591586A1 (en) Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
US8972460B2 (en) Data model optimization using multi-level entity dependencies
US9152662B2 (en) Data quality analysis
CN102804147A (zh) 执行abap源代码的代码检查的代码检查执行系统
CN106062751A (zh) 对与数据类型有关的数据剖析操作的管理
CN104769585A (zh) 递归地遍历因特网和其他源以识别、收集、管理、评判和鉴定企业身份及相关数据的系统和方法
CN103262076A (zh) 分析数据处理
US20220129816A1 (en) Methods and arrangements to manage requirements and controls, and data at the intersection thereof
Murgia et al. A machine learning approach for text categorization of fixing-issue commits on CVS
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及系统
Visengeriyeva et al. Anatomy of metadata for data curation
CN109783638A (zh) 一种基于半监督学习的用户评论聚类方法
CN116561134B (zh) 业务规则处理方法、装置、设备及存储介质
CN107844561A (zh) 一种数据量统计方法及装置
Ustunboyacioglu et al. Data Quality Assessment in the Wild: Findings from GitHub
WO2022129605A1 (en) Method of processing data from a data source, apparatus and computer program
Tan et al. Sizing data-intensive systems from ER model
CN117390023A (zh) 数据合计方法、数据合计装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant