CN110096494B - 使用源跟踪剖析数据 - Google Patents

使用源跟踪剖析数据 Download PDF

Info

Publication number
CN110096494B
CN110096494B CN201811474571.3A CN201811474571A CN110096494B CN 110096494 B CN110096494 B CN 110096494B CN 201811474571 A CN201811474571 A CN 201811474571A CN 110096494 B CN110096494 B CN 110096494B
Authority
CN
China
Prior art keywords
value
entries
sets
distinct
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811474571.3A
Other languages
English (en)
Other versions
CN110096494A (zh
Inventor
阿伦·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ab Initio Technology LLC
Original Assignee
Ab Initio Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ab Initio Technology LLC filed Critical Ab Initio Technology LLC
Priority to CN201811474571.3A priority Critical patent/CN110096494B/zh
Publication of CN110096494A publication Critical patent/CN110096494A/zh
Application granted granted Critical
Publication of CN110096494B publication Critical patent/CN110096494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24544Join order optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

剖析数据包括访问多个记录集合以为每个特定集合存储量化信息,包括:对于特定集合中记录的至少一个选定字段,值计数条目的相应清单(300A‑300C),每个包括出现在所述选定字段中的值以及其中该值所出现的记录数的计数。处理两个或更多个所述集合的所述量化信息包括:对于来自第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并(302)以产生值计数条目组合清单(304),并且将所述值计数条目组合清单的值计数条目聚合(306),以产生特异字段值条目的清单(308),其识别一特异值并且包括对所述两个或更多个集合的每个中该特异值出现的记录数加以量化的信息。

Description

使用源跟踪剖析数据
本申请是申请号为201380055099.9(对应于PCT国际申请号PCT/US2013/053351)、发明名称为“使用源跟踪剖析数据”、申请日为2013年8月2日的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求享有2012年10月22日提交的美国申请号61/716,766的优先权,该申请通过引用合并于此。
背景技术
本申请涉及使用源跟踪(source tracking)剖析数据。
存储的数据集常常包括各种特性未知的数据。例如,对于数据集的值范围或典型值,数据集内不同字段之间的关系、或者不同字段的值之间的相关性可能是未知的。数据剖析(data profiling)可能涉及检查数据集的源以便确定这种特性。
发明内容
在一个方案中,通常,一种用于剖析存储在数据存储系统中的数据,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。
这些方案可包括一个或多个以下特征。
将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。
将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。
处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。
所述方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
所述方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值出现在所述选定字段中的所述特定记录集合内各个位置的位置信息。
所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据。所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值并且包括对所述两个或更多个集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。
这些方案可包括一个或多个以下特征。
处理两个或更多个所述集合的所述量化信息包括处理三个或更多个所述集合的所述量化信息。
所述方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
所述方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值出现在所述选定字段中的所述特定记录集合内各个位置的位置信息。
所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种计算机程序,存储在计算机可读存储介质上,用于剖析存储在数据存储系统中的数据。所述计算机程序包括指令,所述指令用于使计算机系统:通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及至少一个处理器,被配置为处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。
在另一个方案中,通常,一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中所述记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括出现在所述选定字段中的值以及所述值出现在所述选定字段中的记录数的计数;以及处理装置,用于处理两个或更多个所述集合的所述量化信息以产生剖析总结信息。所述处理包括:对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合和第二集合的每个中所述特异值出现的记录数加以量化的信息。
这些方案可包括一个或多个以下优点。
关系数据库管理系统和其他关系数据存储系统的设计的一个方面是被称为键字的值,其可以被用来识别和/或链接(或“联接”)不同实体中的记录(例如,不同的记录集合,诸如不同的表格或数据集)。关键字成功地使设计中记录之间的相关运算(例如,联合运算)所到达的程度称为参照完整性。当插入、更新或删除记录时,随着时间推移保持参照完整性是保持可靠的关系数据存储系统的一个方面。为了这个目的,一些关系数据库提供约束以实施关联完整性(例如,除非相应的记录已经存在于另一个实体中,否则具有引用相应记录的主关键字的外关键字的字段值的记录不能被插入一个实体中)。但是当下载数据时检查这种约束可能降低性能,所以许多最大的或最活跃的系统可能不具有约束或者已经关闭了这种约束。所以,评估关系型系统的参照完整性可能是评估系统的数据质量的一部分。如果当插入、更新或删除数据时,没有自动实施参照完整性约束,那么可能违反约束并且将破坏系统的参照完整性。
在一些系统中,典型的运算可以包括实体之间的联合运算,其中将一个实体的记录的关键字段中的值与另一个实体中记录的关键字段中的值进行比较。在这些相应关键字段中的值被称为联合运算的“关键字”。通过明确地实现对关键字的联接可以直接地评估存储被配置为由关键字联接的两个实体的数据存储系统的参照完整性。当评估参照完整性时可以执行对由联合运算得到的各种联接记录的分析。例如,可以考虑以下的记录计数:由在两个实体中都是唯一的关键字联接的记录的数目,由在一个实体中是唯一的而在另一个实体中不是唯一的关键字联接的记录的数目,由在任一个实体中均不是唯一的关键字联接的记录的数目,在一个实体存在而另一个实体不存在唯一关键字的记录的数目,在一个实体中存在而另一个实体不存在的非唯一关键字的记录的数目。这些计数共同地回答关于关键字唯一性、笛卡儿积(例如,在两个联接实体中均为非唯一关键字)以及孤立的记录(例如,在联接实体中不存在的关键字)的问题。这些是参照完整性的一些基本测量的示例。这里描述的技术使得易于计算被剖析的数据的参照完整性的这些和其他测量中的一些。
通过以下说明书和权利要求书,本发明的其它特征和优点将变得显而易见。
附图说明
图1是用于剖析数据的系统的框图。
图2A是出现统计的示例的图表。
图2B是出现统计的示例的维恩图。
图3-图6是示例性数据剖析步骤的示意图。
具体实施方式
图1示出示例性数据处理系统100,其中可以使用数据剖析技术。系统100包括数据源102,数据源102可以包括诸如存储装置或连接至在线数据流的一个或多个数据源,其每个可以以任意多种存储格式(例如,数据库表、电子数据表文件、纯文本文件、或主机所使用的本机格式)来存储数据。执行环境104包括剖析模块106和处理模块108。所述执行环境104可能被托管在受合适的操作系统(诸如UNIX操作系统)控制的一个或多个通用计算机上。例如,所述执行环境104可包括多节点并行计算机系统,该多节点并行计算机系统包括使用多个中央处理器(CPU)的计算机系统的配置,所述中央处理器可以是本地CPU(例如多处理器系统,如SMP计算机)、或本地分布式CPU(例如多个处理器耦合为集群或MPP处理器)、或远程CPU、或远程分布式CPU(例如通过局域网(LAN)或广域网(WAN)来耦合的多个处理器)、或其组合。
剖析模块106从数据源102读取数据并且将剖析总结信息存储在由剖析模块106和处理模块108可访问的剖析数据存储110中。例如,剖析数据存储110可以被保存在数据源102的存储装置内,或者被保存在由执行环境104内可访问的单独的数据存储系统中。基于剖析总结信息,处理模块108能够对数据源102中的数据执行多种处理任务,包括清理数据、下载数据至另一个系统、或者管理对存储在数据源102中对象的访问。提供数据源102的存储装置对执行环境104而言可以是本地的,例如,被存储在连接至运行所述执行环境104的计算机的存储介质(例如,硬盘驱动器112)中、或者可以对执行环境104而言是远程的,例如,被托管在通过远程连接或服务(例如,由云计算基础设施提供)与运行所述执行环境104的计算机进行通信的远程系统(例如,主机114)上。
剖析模块106能够读取存储在数据源102中的数据并且以有效的方式来执行各种分析,包括有益于评估所存储数据的参照完整性(referential integrity)的分析。如上所述,评估参照完整性的一个方式是通过执行明确的联合运算(explicit join operation)以及分析最终的联接记录。然而,执行各对实体之间明确的联合运算并不总是评估参照完整性的最有效方式,尤其在其可能为剖析模块106执行的数据剖析的一部分的较宽数据质量评定的情况下。一些数据剖析步骤通过观察一个或多个选定字段(或字段的组合)的一组中的特异值(distinct value)的集合来描绘数据库质量的特性。为了易于数据剖析,可以执行普查计算(census computation)来产生普查数据,该普查数据列举了每个选定字段的一组特异值并且包括对具有每个特异值的记录数目的计数。例如,普查数据可以被布置为选定字段的值计数条目(value count entry)的清单,并且每个值计数条目包括在选定字段中出现的特异值以及在选定字段中出现的特异值的记录数目的计数。在一些实施方式中,普查数据被存储在单个数据集中,可选地,由字段索引以用于快速随机访问,而在其他实施方式中,普查数据可以被存储在多个数据集中,例如,每个字段对应一个数据集。
一种方法,使用联合分析来评估参照完整性,该联合分析使用描绘与不同类型的联接记录和不同类型的未联接记录相关联的各种量的特性的出现统计(occurrencestatistic)来总结两个实体的字段之间联合运算的结果。对于第一实体(实体A)的关键字段(字段A)与相应第二实体(实体B)的关键字段(字段B)之间的联合运算,在图2A的图表中示出不同模式出现次数的示例。“出现次数”表示一个值在字段中出现的次数。出现次数0意味着该值未出现在该字段中。出现次数1意味着该值仅出现在字段的恰好一个记录中。出现值‘M’或‘N’意味着该值在字段的一个以上的记录中。在这个示例中,图表的每排包括与相应模式相关联的计数:‘字段A出现次数’x‘字段B出现次数’。图表的每列包括与特定类型的不同模式相关联的计数。类型‘A-特异’(‘B-特异’)表示特异值出现在与特定出现模式相关联的实体A(实体B)的记录中的次数。类型‘A-计数’(‘B-计数’)表示与特定出现模式相关联的实体A(实体B)的记录的总次数。类型‘AB-计数’表示与特定出现模式相关联的联接记录的总次数。图表的下半部分(即,具有出现模式的行:1x1,1xN,Nx1,NxM)表示联接记录(其中特定关键值在字段A和B中均出现),并且图表的上半部分(即,具有出现模式:1x0,0x1,Nx0,0xN)表示未联接记录(其中特定关键值仅仅出现在一个字段A或B中)。在这个图表中出现的真实计数是由具有以下值的A字段:1个记录中‘a’、1个记录中‘b’、2个记录中‘d’以及具有以下值的B字段:1个记录中‘a’、2个记录中‘c’、1个记录中‘d’和3个记录中‘e’所得到的计数。那么,在实体A中一共有6个记录并且在实体B中有7个记录。图2B示出形象地表示出现统计的另一种形式的维恩图(Venn diagram)。该图示出在联合运算中不匹配并且(在外联结中)穿过或(在内联结中)被拒绝作为与实体A(1未联接记录)和实体B(2未联接记录)相关联的圆的未重叠部分中的未联接记录的记录数。这个图表示出在重叠部分的联合运算中匹配的每个实体的剩余记录的数目(在实体A中5个记录,在实体B中5个记录)。这10个匹配记录产生总共9个联接记录(其为列‘AB-计数’中计数的总和)。可以使用圆的相对尺寸和重叠的中心来定性地指示每个区域中的计数。
根据对实体的真实记录执行真实的联合运算,或者通过对实体的普查数据的各个集合执行‘普查联合’运算可以来执行联合分析(例如,如美国专利第7,849,075号中所描述的,通过引用合并于此)。在普查联合中,每个实体具有普查记录集合,其中每个记录包括:字段标识符(例如,字段A或字段B)、出现在该字段中的特异值、以及特异值出现的记录数的计数。通过比较为两个实体的关键字段产生的普查记录,普查联合运算潜在地进行比对两个实体的单个记录的关键字段进行比较的联合运算更少量次数的比较。如果普查联合运算找到两个输入普查记录的值之间的匹配,那么产生的输出记录包含匹配值、基于两个计数出现的相应模式、以及在一对关键字段的联合运算中会产生的总记录次数(其仅仅是普查记录中两个计数的乘积)。如果没有找到值的匹配,那么也输出带有相应出现模式和总记录次数(其是单个普查记录中的单个计数)的值。普查联合运算的输出记录内的信息足以编译联合运算的上述出现统计的图表中的所有计数。
在一些情况下,能够对多对实体执行联合分析是有用的,例如,用于分析包括多个记录集合的数据源的参照完整性(例如,来自一个或多个数据库的多个表格,和/或来自一个或多个基于文件数据存储的多个数据集)。特定实体可以与许多其他实体配对,以便确定每对的出现统计。然而,代替需要多次读取每个实体的关键字段中的记录、或每个实体的各个普查文件中的普查记录,剖析模块106能够使用对数据源耗时更少的读操作来产生出现统计。例如,如果存在三个数据集A、B和C并且联合分析需要A/B、A/C和B/C的成对出现统计,那么每对单独的独立分析将需要对每个普查文件读取两次。一般地,对于在所有可能组合中独立分析的N个实体,存在N(N-1)/2个唯一对,其将要求对每个实体读取N-1次(每个其他实体一次)。当被分析的实体的数目大于2(例如,3或更大,或者比2大很多,诸如10或更大,或者100或更大)时,通过使用这里描述的一些技术来一起处理实体可以实现显著的效率。例如,在一些情况下,根据数据库的实体关系图表,对很多实体(例如,表格)执行联合分析。
剖析模块106通过使用产生关于关键字段的多个成对联合运算(或多路联合)的方法,能够避免对相同普查文件的重复读操作,而无需(对实体记录或对普查记录)执行真实的联合运算。这种方法的下面两个示例包括访问多个实体来为每个实体的普查文件写入(或者读取之前存储的普查文件)在每个实体中出现的共用关键字段(例如,账号字段)。(还可能存在联合分析所不需要的其他字段的其他普查文件。)“聚合”方法还包括将来自关键字段的相应普查文件的普查记录合并以产生普查记录的排序组合清单(或者至少来自普查记录的值和计数,其标有标识符以识别源实体)。在一些实施方式中,对每个普查文件内的普查记录进行排序,这使得合并运算在存储和读访问时间方面更有效。
在一些实施方式中,不需要将来自不同普查文件的普查记录合并且排序为普查记录的中间组合清单。在“更新”方法中,可以处理即将到来的(潜在未排序的)普查记录以更新输出数据条目的清单,该输出数据条目清单是根据之前接收到的普查数据产生的、被保存在存储系统或数据结构中、并且由即将到来的普查记录的关键值可以访问的。当新的普查记录到达时,使用来自即将到来的普查记录的关键值从存储中检索输出数据条目,进行更新并且将其写回至存储。支持多种存储系统,包括磁盘、内存中数据结构、以及一次写入式存储(其中之前的结果不能被适当地更新而是必须被添加至存储)。
在“更新”方法中,无需同时处理普查文件,但是随着时间推移当普查文件变得可得时其可以被合并为更新内容。特别地,可以再处理之前处理过的普查文件的后续版本以更新之前的结果。还可以结合单独计算的结果的两个或多个集合。
在一些实施方式中,可以混合使用更新方法和聚合(aggregation)方法。对于同时可得的普查文件,可以使用聚合方法以降低内存占用或者提高性能。对于在不同时刻到达的普查文件,可以使用更新方法以更新之前的结果。可以将聚合方法独立地应用于普查文件的集合,同时稍后使用更新方法将结果进行结合。
图3示出聚合方法的示例。在这个示例中,使用对各个源实体:实体A、实体B、实体C的三个普查文件300A、300B、300C作为对剖析模块106的输入(尽管该方法适合于任意数量的普查文件)。每个普查文件包括以指示普查文件所属的源实体(‘A’、‘B’、或‘C’)的源标识符开始的普查记录。在源标识符之后,普查记录包括出现在与普查文件相关联的关键字段中的特异关键字段值,然后是包括该关键字段值的记录数目的计数。在这个示例中,普查文件中所有的普查记录是针对实体内相关的特别关键字段。在其他示例中,额外的标识符被包含在识别与每个值相关联的字段的普查记录中。因为仅仅访问联合分析感兴趣的普查记录比读取实体的所有字段的所有普查记录并且丢弃不相干的普查记录更有效,所以一些实施方式针对不同的独立可访问的普查文件内的不同字段来存储普查记录,如这个示例所示。可替代地,不同字段的普查记录可以被存储在被配置为随机访问不同部分的共同文件或者数据存储的不同部分中。通过添加指定将一起进行分析的普查文件的组的另一个标识符,在相同的实行中可以执行不同关键字段的多个联合分析。
剖析模块106的合并子模块302从输入普查文件中读取普查记录以产生所有普查记录的普查实体的排序组合清单304。在一些实施方式中,顺序地读取输入普查文件(并且可选平行地,如果例如他们被存储在存储介质的分割数据段中)。对于并行实现,通过每个普查文件中的关键字段值可以来分割普查记录,使得共享共同关键字段值的所有记录都被放置在相同的数据段中。通过基于来自普查记录的关键字段值的初级排序次序,并且然后基于源标识符的次级排序次序来对来自输入普查文件的普查记录进行排序。在图3所示的清单304中,已经重写了普查实体以首先示出初级排序关键字段值,然后是次级排序关键字段值,然后是记录计数,但是每个普查条目内的这些项可以以任意顺序来排序。如果同时实施关于不同各个组的普查记录的多个联合分析,那么可以添加指定将一起分析的普查文件的组的标签作为初级排序关键字(带有关于关键字段值的次级排序、以及关于源标示符的第三排序)以确保将一起分析的记录是连续的。
剖析模块106的聚合子模块306将来自清单304的条目聚合以产生特异关键字段值条目的清单308,每个特异关键字段值条目识别特异关键字段值以及量化对于由输入普查文件表示的源实体(在这个示例中,源实体A、B和C)的每个该特异关键字段值在其中所出现的记录数的信息。通过源标识符来聚合(例如,使用汇总运算(rollup operation))在清单304中共享相同关键字段值的排序普查条目。在一些实施方式中,聚合子模块306将在包含与每个特异关键字段值相关联的两个矢量的数据结构中的条目聚合的结果存储起来。一个矢量存储每个源实体的单个实体记录计数,并且另一个矢量存储每对源实体的成对联合记录计数。所以,根据源实体的数目确定第一矢量的长度,并且根据唯一对源实体的数目确定第二矢量的长度。第一矢量的每个元素对应于特定源实体并且保存包含相关关键字段值的记录的计数,如果计数是非零的那么其是来自普查文件的计数,或者如果关键字段值未出现在普查文件中,那么计数为零。这个数据结构还能够容纳在多个分析中单独组的普查文件中的变化数目的文件。例如,子模块306能够使用诸如存储变量或查表运算的机制来将矢量中的索引与每一组的特定普查文件相联系。第二矢量的每个条目保存由特定对源实体之间的联合运算得到的联合记录数的计数,其被计算为每对(在第一矢量中)计数的乘积。基于第一矢量中实体的顺序可以来确定第二矢量的索引结构(例如,通过形成包含第一索引小于第二索引的所有对索引的多索引)。
在图3的示例中,存在具有关键字段值“c”的两个普查记录:在实体B和实体C普查文件300B和300C中各一个。在实体B普查记录中实体记录的计数是2,并且在实体C普查记录中实体记录的计数是1。在清单308中的相应聚合后输出数据结构是“c[0 2 1][0 0 2]”,其中数据结构中的第一项是关键字段值“c”,下一项是分别在实体A、B、C中记录计数的第一矢量,并且最后一项是分别在实体对A/B、A/C和B/C的计数乘积的第二矢量。在一些实施方式中可以省略第二矢量,并且因为其值完全由第一矢量中的值来确定,所以可以代替地稍后产生。
根据清单308中的信息,通过访问提供出现统计的清单308中数据结构的合适值,可以为每对源实体计算总结信息(诸如图2A中的图表和图2B中的维恩图)。(对于三向和更高阶联合,类似的总结信息也是可能的。)因为通常特别感兴趣的是非唯一性,所以可以单独地报告唯一和非唯一记录的配对的计数。如上所述,可以产生每对的维恩图以形象化地表示联合分析的结果。例如,对于对A/B,可以布置圆圈的相对尺寸和圆圈312的定心以及最终的重叠以量化地指示基于相应出现图表310中的信息所确定的每个区域中计数的近似值。
在一些实施方式中,在普查文件300A、300B和300C中普查记录的数据结构还可以包括识别出现关键字段值的特定实体内各个记录位置的位置信息。在一个实施方式中,在产生普查记录期间,用具有相关关键字段值的每个记录的唯一记录标识符来填充矢量。如果实体的原始数据中的记录不具有唯一的记录标识符,那么例如通过给每个记录分配连号序列可以产生这种记录标识符并将其添加至记录作为剖析步骤的一部分。然后在合并阶段这个位置信息可以被包括在由普查记录收集的普查条目内,并且可以在聚合阶段进行结合,如下将进行更详细地描述。
用于存储位置信息的其他实施方式是可能的,其中一些可以提供性能和/或降低的存储空间的优点。例如,可以使用位矢量代替记录标识符的矢量。位矢量(bit vector)的每一位对应于特定的记录标识符,并且如果具有相应记录标识符的关联记录具有相关的关键字段值那么就设置位。位矢量的位与记录标识符之间的对应关系可以是明确的或隐含的。例如,可以存在将位与相应的记录标识符相联系的明确的映射(不非要是一对一的映射),或者可以存在每一位的位置对应于记录位置的顺序次序的隐含映射。在一些实施方式中,压缩最终的位矢量以进一步地节省存储空间。
通过将位置数据结构与每个普查条目相联系,这个位置信息可以被传送至清单308,其在清单308中作为每个聚合后输出数据结构的位置数据结构的矢量出现。对于每个源实体,位置数据结构的矢量包括一个位置数据结构(例如,位矢量)。在清单308的每个聚合后输出数据结构中存在位置数据结构的矢量有助于从结果“深入(drill down)”到原始源实体中的相应记录。在一些情况下,如果源实体已经被关键字段值索引,那么可以使用关键字段值本身来查找原始源实体中的记录,对一些源实体可能并非如此。位置数据结构能够用作为原始源实体的属类索引,并且与该源实体相关联的普查文件能够用作为次级索引(将关键值链接至位置数据结构内的索引)。
成对出现图表310和相关维恩图312的产生包含清单308中输出数据结构的聚合。例如,将对应于每个出现种类(例如,1x0,1x1等)的输出数据结构的计数进行合计以产生合成总计数。还可以结合位置数据结构。在位置数据结构是记录标识符矢量的情况下,对应于特定出现种类的特定源实体中的不同关键字段值的矢量被连结(concatenate)。在位置数据结构是位矢量的情况下,对与特定出现种类的特定源实体中不同关键字段值对应的位矢量一起进行逻辑“或(OR)”的运算。这个结果是对应于出现图表中每个条目或维恩图中条目的组合位置数据结构。使用这个位置数据结构,用户可以从这个条目深入至检索这个出现种类的样本记录或记录的完备集(exhaustive set)。在参照完整性评估的环境中,例如能够访问复制的或孤立的记录非常重要,并且这提供了这样做的能力。
不同的实施方式是可能的,其中对出现图表和维恩图的聚合不会结合位置数据结构本身而是构造对应于清单308中关键字段值的位矢量。在这个实施方式中,构造将位索引与清单308中的每个特异关键字段值配对的位-关键值的映射。在聚合期间,填充表明关键字段值有助于给定出现图表条目的位矢量。现在向下深入可以以两个步骤继续进行。使用出现图表条目的位矢量来找到相关联的关键字段值的集合(根据位-关键值的映射)。直接地在原始源实体中查找这些关键字段值以检索原始记录,或者查找这些关键字段值以检索例如清单308或普查文件300A-300C中的位置数据结构(这进而被用来检索原始记录)。这个实施方式可以提供在存储要求和效率方面的优点,尤其是如果原始源实体已经被关键字段值索引时。
图4示出更新的方法,其中普查文件400C(对于实体C)到达剖析模块106的更新子模块406,其更新之前产生的输出清单408AB(之前根据实体A和B的普查文件所产生的)以产生更新后的清单408ABC。在普查文件400C中的普查条目“C c 1”表示特异关键字段值“c”以及该值出现在实体C的1个记录中的计数1。检索具有关键字段值“c”的408AB中相应的输出数据结构。将示出具有关键字段值“c”的记录的实体A和实体B中计数的第一向量“[0 2]”更新为“[0 2 1]”以添加示出具有关键字段值“c”的实体C中记录计数的元素。类似地,将示出计数的成对乘积的第二矢量从“[0]”更新为“[0 0 2]”,其中第二元素是实体A的计数和实体C的计数的乘积(0*2=0),同时第三元素是实体B的计数和实体C的计数的乘积(1*2=2)。结果被写入更新后的数据输出结构的清单408ABC中。
图5示出更新方法,其中普查文件500B(对于实体B)到达更新子模块406,其更新之前产生的输出清单508AB(之前根据实体A的普查文件和实体B的普查文件的之前版本所产生的)。在普查文件500B中的普查条目“B c 4”表示特异关键字段值“c”以及该值出现在实体B的4个记录中的计数4。根据清单508AB的相应的输出数据结构,之前实体B中对于“c”的计数为2(根据第一矢量“[0 2]”中的第二元素)。在第一矢量中使用新的计数来更新这个计数得到“[0 4]”。然后使用根据实体A和实体B的计数的乘积来更新第二矢量,其中在这个示例中保持不变为“[0]”。将这个结果写入更新后的输出清单510AB。
图6示出更新方法的另一个示例,其中将两个单独产生的输出清单进行结合。基于来自实体A和实体B的普查记录的组合来产生输出清单608AB,并且基于来自实体B和实体C的普查记录的组合来产生输出清单608BC。在这个示例中,在产生两个输出清单时使用实体B的相同的普查记录。(在其他示例中,普查文件的不同版本为实体B提供不同的普查记录,可以首先使用图5所示的步骤来更新输出数据结构中的实体B值以对应于最新的普查值)。剖析模块106的结合子模块606将来自输出数据结构的信息与匹配关键字段值结合,例如,来自清单608AB的输出数据结构“c[0 2][0]”和来自清单608BC的输出数据结构“c[2 1][2]”。第一矢量的每个中的元素对应于在每个输出数据结构中表示的各个实体的普查计数。通过采用它们元素的联合来合并两个第一矢量,对于在两个输出数据结构中表示的任意实体仅保留一个元素(最新的元素)。在这个示例中,组合的结果是更新后的第一矢量“[02 1]”。然后根据更新后的第一矢量从计数的成对乘积来计算更新后的第二矢量,结果是更新后的第二矢量“[0 0 2]”。将更新后的输出数据结构存储在输出清单608ABC中。
上述数据剖析方法可以使用执行适当软件的计算机系统来实现。例如,软件可以包括在一个或多个已编程或可编程计算系统(可以具有各种架构,诸如分布式、客户端/服务器、或网格式)上执行的一个或多个计算机程序中的过程,每个计算系统包括至少一个处理器、至少一个数据存储系统(包括易失性和/或非易失性存储器和/或存储元件)以及至少一个用户接口(用于使用至少一个输入设备或端口来接收输入,以及用于使用至少一个输出设备或端口来提供输出)。该软件可包括大型程序的一个或多个模块,例如,该大型程序提供与数据流图的设计、配置和执行相关的其它服务。该程序的模块(例如,数据流图的元件)可以被实施为数据结构或者符合在数据库中存储的数据模型的其它组织的数据。
该软件可以被提供在诸如CD-ROM或其他计算机可读介质之类的有形永久存储介质(例如可以被通用或专用计算机系统或装置读取的介质)上,或者通过网络的通信介质递送(例如编码成传送信号)到执行该软件的计算机系统的有形永久介质处。一些或全部处理可以在专用计算机上执行,或者使用诸如协处理器或现场可编程门阵列(FPGA)或专用集成电路(ASIC)之类的专用硬件来执行。该处理可以以分布方式实施,在该分布方式中,由该软件指定的不同的计算部分由不同的计算元件执行。每个这样的计算机程序被优选地存储在或下载到可由通用或专用可编程计算机读取的存储设备的计算机可读存储介质(例如,固态存储器或介质、或者磁或光介质),用于在计算机读取该存储介质或设备时配置和操作该计算机,以执行此处所描述的处理。也可以考虑将本发明的系统实施为有形永久存储介质,其配置有计算机程序,其中,如此配置的存储介质使得计算机以特定和预定义的方式操作以执行此处所描述的一个或多个处理步骤。
已经对本发明的多个实施例进行了描述。然而,应当理解,前面的描述旨在说明而非约束本发明的范围,本发明的范围由以下权利要求书的范围来限定。因此,其它实施例也落在以下权利要求书的范围内。例如,在不脱离本发明的范围的情况下可进行各种修改。此外,上述的一些步骤可以是无顺序关联的,因此可以以不同于所述的顺序来执行。

Claims (40)

1.一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:
通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及
将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
2.根据权利要求1所述的方法,其中将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。
3.根据权利要求2所述的方法,其中将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。
4.根据权利要求1所述的方法,其中所述处理包括处理三个或更多个所述集合的所述量化信息。
5.根据权利要求4所述的方法,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
6.根据权利要求5所述的方法,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
7.根据权利要求1所述的方法,其中所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
8.根据权利要求1所述的方法,其中,所述位置数据结构的矢量包括位矢量。
9.根据权利要求1所述的方法,其中,所述位置数据结构的矢量包括记录标识符的矢量。
10.一种计算机可读存储介质,在所述计算机可读存储介质上存储有计算机程序,用于剖析存储在数据存储系统中的数据,所述计算机程序包括指令,所述指令用于使计算机系统:
通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及
将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
11.根据权利要求10所述的计算机可读存储介质,其中,将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值来将所述值计数条目排序。
12.根据权利要求11所述的计算机可读存储介质,其中,将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。
13.根据权利要求10所述的计算机可读存储介质,其中,所述处理包括处理三个或更多个所述集合的所述量化信息。
14.根据权利要求13所述的计算机可读存储介质,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
15.根据权利要求14所述的计算机可读存储介质,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
16.根据权利要求10所述的计算机可读存储介质,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
17.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:
耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
至少一个处理器,被配置为处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及
将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
18.根据权利要求17所述的计算系统,其中,将所述相应清单的所述值计数条目合并包括基于来自所述值计数条目的值将所述值计数条目排序。
19.根据权利要求18所述的计算系统,其中,将所述值计数条目排序包括基于来自所述值计数条目的所述值根据初级排序次序来排序,以及基于所述两个或更多个集合的标识符根据次级排序次序来排序。
20.根据权利要求17所述的计算系统,其中,所述处理包括处理三个或更多个所述集合的所述量化信息。
21.根据权利要求20所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
22.根据权利要求21所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
23.根据权利要求17所述的计算系统,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
24.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:
访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理装置,用于处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合和第二集合的每个的至少一个字段,将相应清单的所述值计数条目合并以产生值计数条目组合清单,以及
将所述值计数条目组合清单的值计数条目聚合,以产生特异字段值条目的清单,所述特异字段值条目的至少一些从所述值计数条目的至少一个中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
25.一种用于剖析存储在数据存储系统中的数据的方法,所述方法包括:
通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及
对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
26.根据权利要求25所述的方法,其中所述处理包括处理三个或更多个所述集合的所述量化信息。
27.根据权利要求26所述的方法还包括,对于所述三个或更多个集合中至少两个集合的第一子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
28.根据权利要求27所述的方法还包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,根据所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
29.根据权利要求25所述的方法,其中所述处理包括:对于所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
30.一种计算机可读存储介质,在所述计算机可读存储介质上存储有计算机程序,用于剖析存储在数据存储系统中的数据,所述计算机程序包括指令,所述指令用于使计算机系统:
通过耦合至所述数据存储系统的接口来访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及
对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
31.根据权利要求30所述的计算机可读存储介质,其中,所述处理包括处理三个或更多个所述集合的所述量化信息。
32.根据权利要求31所述的计算机可读存储介质,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
33.根据权利要求32所述的计算机可读存储介质,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
34.根据权利要求30所述的计算机可读存储介质,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
35.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:
耦合至所述数据存储系统的接口,被配置为访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
至少一个处理器,被配置为处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及
对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
36.根据权利要求35所述的计算系统,其中,所述处理包括处理三个或更多个所述集合的所述量化信息。
37.根据权利要求36所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的第一子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第一子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
38.根据权利要求37所述的计算系统,其中,所述处理包括,对于所述三个或更多个集合中至少两个集合的不同于所述第一子集的第二子集,从所述特异字段值条目清单产生剖析总结信息,所述剖析总结信息包括所述第二子集中各个记录集合的所述字段之间联合运算的多个模式的结果。
39.根据权利要求35的所述的计算系统,其中,所述处理包括,对于来自所述两个或更多个集合的第三集合的至少一个字段,读取相应清单的所述值计数条目以更新所述特异字段值条目清单,使得所述特异字段值条目的至少一些从所述第一集合、第二集合和第三集合的相应清单的值计数条目中识别出特异值并且包括对所述第一集合、第二集合和第三集合的每个中所述特异值出现的记录数加以量化的信息。
40.一种用于剖析存储在数据存储系统中的数据的计算系统,所述计算系统包括:
访问装置,用于访问存储在所述数据存储系统中的多个记录集合,来为所述多个记录集合的每个存储量化信息,对于特定集合中记录的至少一个选定字段而言,每个所述特定集合的所述量化信息包括值计数条目的相应清单,每个值计数条目包括至少出现在所述选定字段中的值以及所述值至少出现在所述选定字段中的记录数的计数;以及
处理装置,用于处理所述特定集合的两个或更多个集合的所述量化信息以产生剖析总结信息,所述处理包括:
对于来自所述两个或更多个集合的至少第一集合的至少一个字段,读取相应清单的所述值计数条目以存储包括特异字段值条目清单的输出数据,以及
对于来自所述两个或更多个集合的第二集合的至少一个字段,读取相应清单的所述值计数条目,以至少部分基于所述存储的输出数据来存储更新输出数据,使得所述特异字段值条目的至少一些从所述第一集合和第二集合的相应清单的值计数条目中识别出特异值;
其中对应于特定集合的值计数条目清单中的每个值计数条目还包括识别所述值至少出现在所述选定字段中的所述特定集合内各个记录位置的位置信息;
其中,通过将位置数据结构与所述每个值计数条目相联系,所述位置信息被传送至所述特异字段值条目的清单,所述位置信息在所述特异字段值条目的清单中作为每个聚合后输出数据结构的位置数据结构的矢量。
CN201811474571.3A 2012-10-22 2013-08-02 使用源跟踪剖析数据 Active CN110096494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811474571.3A CN110096494B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261716766P 2012-10-22 2012-10-22
US61/716,766 2012-10-22
CN201380055099.9A CN104737167B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据
CN201811474571.3A CN110096494B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据
PCT/US2013/053351 WO2014065917A1 (en) 2012-10-22 2013-08-02 Profiling data with source tracking

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380055099.9A Division CN104737167B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据

Publications (2)

Publication Number Publication Date
CN110096494A CN110096494A (zh) 2019-08-06
CN110096494B true CN110096494B (zh) 2024-04-26

Family

ID=48985856

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201380055099.9A Active CN104737167B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据
CN201380055340.8A Active CN104756107B (zh) 2012-10-22 2013-08-02 采用位置信息剖析数据
CN201811474571.3A Active CN110096494B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据
CN201380055344.6A Active CN104769586B (zh) 2012-10-22 2013-10-22 采用位置信息剖析数据

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201380055099.9A Active CN104737167B (zh) 2012-10-22 2013-08-02 使用源跟踪剖析数据
CN201380055340.8A Active CN104756107B (zh) 2012-10-22 2013-08-02 采用位置信息剖析数据

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201380055344.6A Active CN104769586B (zh) 2012-10-22 2013-10-22 采用位置信息剖析数据

Country Status (9)

Country Link
US (5) US9569434B2 (zh)
EP (5) EP2909746B1 (zh)
JP (3) JP6207619B2 (zh)
KR (3) KR102129643B1 (zh)
CN (4) CN104737167B (zh)
AU (4) AU2013335231B2 (zh)
CA (3) CA2887670C (zh)
HK (3) HK1211116A1 (zh)
WO (3) WO2014065919A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102129643B1 (ko) 2012-10-22 2020-07-02 아브 이니티오 테크놀로지 엘엘시 소스 추적으로 데이터 프로파일링
US9953054B2 (en) * 2013-04-22 2018-04-24 Salesforce.Com, Inc. Systems and methods for implementing and maintaining sampled tables in a database system
US9292554B2 (en) * 2013-08-20 2016-03-22 Pivotal Software, Inc. Thin database indexing
US9292553B2 (en) * 2013-08-20 2016-03-22 Pivotal Software, Inc. Queries for thin database indexing
US10515231B2 (en) * 2013-11-08 2019-12-24 Symcor Inc. Method of obfuscating relationships between data in database tables
US20150199645A1 (en) * 2014-01-15 2015-07-16 Bank Of America Corporation Customer Profile View of Consolidated Customer Attributes
US9984173B2 (en) * 2014-02-24 2018-05-29 International Business Machines Corporation Automated value analysis in legacy data
US9971798B2 (en) 2014-03-07 2018-05-15 Ab Initio Technology Llc Managing data profiling operations related to data type
US10769122B2 (en) * 2014-03-13 2020-09-08 Ab Initio Technology Llc Specifying and applying logical validation rules to data
GB2524073A (en) * 2014-03-14 2015-09-16 Ibm Communication method and system for accessing media data
US9628107B2 (en) 2014-04-07 2017-04-18 International Business Machines Corporation Compression of floating-point data by identifying a previous loss of precision
US10877955B2 (en) * 2014-04-29 2020-12-29 Microsoft Technology Licensing, Llc Using lineage to infer data quality issues
US10089409B2 (en) 2014-04-29 2018-10-02 Microsoft Technology Licensing, Llc Event-triggered data quality verification
US9959299B2 (en) 2014-12-02 2018-05-01 International Business Machines Corporation Compression-aware partial sort of streaming columnar data
US10909078B2 (en) 2015-02-25 2021-02-02 International Business Machines Corporation Query predicate evaluation and computation for hierarchically compressed data
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
US11281639B2 (en) 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10467215B2 (en) * 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US20170242876A1 (en) * 2016-02-22 2017-08-24 Ca, Inc. Maintaining Database Referential Integrity Using Different Primary and Foreign Key Values
US11475026B2 (en) * 2016-02-26 2022-10-18 Douglas Schiller Value discrepancy visualization apparatus and method thereof
CN106227837B (zh) * 2016-07-27 2019-08-02 浪潮金融信息技术有限公司 一种数据分析方法和装置
JP2018036977A (ja) * 2016-09-02 2018-03-08 富士ゼロックス株式会社 情報処理装置及びプログラム
US10474649B2 (en) * 2016-09-27 2019-11-12 Halo Tech Corp. Providing action corrections using a dual model system
US10817465B2 (en) * 2016-12-09 2020-10-27 Salesforce.Com, Inc. Match index creation
US10636293B2 (en) * 2017-06-07 2020-04-28 International Business Machines Corporation Uncertainty modeling in traffic demand prediction
US10528549B2 (en) * 2017-09-25 2020-01-07 Mastercard International Incorporated Systems and methods for use in loading data based on a hierarchical framework
US10795915B1 (en) * 2017-12-29 2020-10-06 Iqvia Inc. System and method for merging slowly changing data
CA3030513A1 (en) 2018-01-19 2019-07-19 Sofdesk Inc. Automated roof surface measurement from combined aerial lidar data and imagery
US11068540B2 (en) 2018-01-25 2021-07-20 Ab Initio Technology Llc Techniques for integrating validation results in data profiling and related systems and methods
JP6977177B2 (ja) * 2018-01-25 2021-12-08 アビニシオ テクノロジー エルエルシー データプロファイリングにおいて妥当性確認結果を統合するための技術並びに関連するシステム及び方法
US10430100B2 (en) 2018-02-28 2019-10-01 International Business Machines Corporation Transactional operations in multi-master distributed data management systems
US10891307B2 (en) * 2018-05-31 2021-01-12 Microsoft Technology Licensing, Llc Distributed data synchronization in a distributed computing system
US11042522B2 (en) 2018-06-11 2021-06-22 International Business Machines Corporation Resolving versions in an append-only large-scale data store in distributed data management systems
US11188539B2 (en) 2018-07-27 2021-11-30 International Business Machines Corporation Matching non-sequential log metadata with out-of-order record data
JP6573187B1 (ja) * 2019-01-08 2019-09-11 株式会社ビジネスインテリジェンス データ処理プログラム、データ出力装置、データ統合方法、出力プログラム、データ出力方法及びデータ処理システム
US11360990B2 (en) 2019-06-21 2022-06-14 Salesforce.Com, Inc. Method and a system for fuzzy matching of entities in a database system based on machine learning
US11194844B1 (en) * 2020-09-01 2021-12-07 Skyline Al Ltd. System and method for detecting second degree relationships between entities by uniquely resolving entities
US11909750B1 (en) * 2020-10-15 2024-02-20 Splunk Inc. Data reduction and evaluation via link analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9910590D0 (en) * 1999-05-08 1999-07-07 Int Computers Ltd Data file analysis
CN102683149A (zh) * 2011-02-16 2012-09-19 株式会社岛津制作所 质量分析数据处理方法和质量分析数据处理系统

Family Cites Families (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5179643A (en) 1988-12-23 1993-01-12 Hitachi, Ltd. Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor
JPH032938A (ja) 1989-05-31 1991-01-09 Hitachi Ltd データベース処理方法
US5604899A (en) 1990-05-21 1997-02-18 Financial Systems Technology Pty. Ltd. Data relationships processor with unlimited expansion capability
FR2698465B1 (fr) 1992-11-20 1995-01-13 Bull Sa Méthode d'extraction de profils de statistiques, utilisation des statistiques créées par la méthode.
US5847972A (en) * 1993-09-24 1998-12-08 Eick; Stephen Gregory Method and apparatus for graphically analzying a log-file
US5742806A (en) 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
JP3519126B2 (ja) 1994-07-14 2004-04-12 株式会社リコー 自動レイアウトシステム
US5842200A (en) 1995-03-31 1998-11-24 International Business Machines Corporation System and method for parallel mining of association rules in databases
US6601048B1 (en) 1997-09-12 2003-07-29 Mci Communications Corporation System and method for detecting and managing fraud
CN1052316C (zh) * 1995-09-15 2000-05-10 殷步九 计算机管理设计系统
US5966072A (en) 1996-07-02 1999-10-12 Ab Initio Software Corporation Executing computations expressed as graphs
US5778373A (en) 1996-07-15 1998-07-07 At&T Corp Integration of an information server database schema by generating a translation map from exemplary files
US6138123A (en) 1996-07-25 2000-10-24 Rathbun; Kyle R. Method for creating and using parallel data structures
JPH1055367A (ja) 1996-08-09 1998-02-24 Hitachi Ltd データ利用システム
US5845285A (en) 1997-01-07 1998-12-01 Klein; Laurence C. Computer system and method of data analysis
US5987453A (en) 1997-04-07 1999-11-16 Informix Software, Inc. Method and apparatus for performing a join query in a database system
US7031843B1 (en) * 1997-09-23 2006-04-18 Gene Logic Inc. Computer methods and systems for displaying information relating to gene expression data
US6134560A (en) 1997-12-16 2000-10-17 Kliebhan; Daniel F. Method and apparatus for merging telephone switching office databases
JP3474106B2 (ja) * 1998-06-17 2003-12-08 アルプス電気株式会社 液晶表示装置
KR100688121B1 (ko) 1998-08-11 2007-03-09 가부시키가이샤 터보 데이터 라보라토리 표형식 데이터의 검색,집계,소트방법 및 장치
US7039919B1 (en) * 1998-10-02 2006-05-02 Microsoft Corporation Tools and techniques for instrumenting interfaces of units of a software program
US6826556B1 (en) 1998-10-02 2004-11-30 Ncr Corporation Techniques for deploying analytic models in a parallel
US6546416B1 (en) 1998-12-09 2003-04-08 Infoseek Corporation Method and system for selectively blocking delivery of bulk electronic mail
US6959300B1 (en) 1998-12-10 2005-10-25 At&T Corp. Data compression method and apparatus
US6343294B1 (en) 1998-12-15 2002-01-29 International Business Machines Corporation Data file editor for multiple data subsets
US6741995B1 (en) 1999-03-23 2004-05-25 Metaedge Corporation Method for dynamically creating a profile
US6430539B1 (en) 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US6163774A (en) * 1999-05-24 2000-12-19 Platinum Technology Ip, Inc. Method and apparatus for simplified and flexible selection of aggregate and cross product levels for a data warehouse
US6801938B1 (en) 1999-06-18 2004-10-05 Torrent Systems, Inc. Segmentation and processing of continuous data streams using transactional semantics
KR20020041337A (ko) 1999-06-18 2002-06-01 토런트 시스템즈, 인크. 트랜잭션 시맨틱스를 이용한 연속 데이터 스트림의세그먼테이션 및 처리
JP3318834B2 (ja) 1999-07-30 2002-08-26 三菱電機株式会社 データファイルシステム及びデータ検索方法
JP3363120B2 (ja) 1999-08-30 2003-01-08 ファンクルシステム株式会社 コンテンツ収集・貼付方法及び装置並びにコンテンツ収集・貼付のためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001331362A (ja) 2000-03-17 2001-11-30 Sony Corp ファイル変換方法、データ変換装置及びファイル表示システム
JP3567861B2 (ja) 2000-07-07 2004-09-22 日本電信電話株式会社 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
JP4366845B2 (ja) 2000-07-24 2009-11-18 ソニー株式会社 データ処理装置およびデータ処理方法、並びにプログラム提供媒体
US6788302B1 (en) 2000-08-03 2004-09-07 International Business Machines Corporation Partitioning and load balancing graphical shape data for parallel applications
US20020073138A1 (en) 2000-12-08 2002-06-13 Gilbert Eric S. De-identification and linkage of data records
US6952693B2 (en) 2001-02-23 2005-10-04 Ran Wolff Distributed mining of association rules
US20020161778A1 (en) 2001-02-24 2002-10-31 Core Integration Partners, Inc. Method and system of data warehousing and building business intelligence using a data storage model
US20020120602A1 (en) 2001-02-28 2002-08-29 Ross Overbeek System, method and computer program product for simultaneous analysis of multiple genomes
US20030063779A1 (en) * 2001-03-29 2003-04-03 Jennifer Wrigley System for visual preference determination and predictive product selection
CA2349265A1 (en) * 2001-05-30 2002-11-30 Andrew Emili Protein expression profile database
US20030033138A1 (en) 2001-07-26 2003-02-13 Srinivas Bangalore Method for partitioning a data set into frequency vectors for clustering
US7130852B2 (en) 2001-07-27 2006-10-31 Silicon Valley Bank Internal security system for a relational database system
WO2003014867A2 (en) 2001-08-03 2003-02-20 John Allen Ananian Personalized interactive digital catalog profiling
US6801903B2 (en) 2001-10-12 2004-10-05 Ncr Corporation Collecting statistics in a database system
US7359847B2 (en) * 2001-11-30 2008-04-15 International Business Machines Corporation Tracking converage results in a batch simulation farm network
US20030140027A1 (en) 2001-12-12 2003-07-24 Jeffrey Huttel Universal Programming Interface to Knowledge Management (UPIKM) database system with integrated XML interface
US7813937B1 (en) 2002-02-15 2010-10-12 Fair Isaac Corporation Consistency modeling of healthcare claims to detect fraud and abuse
US7031969B2 (en) 2002-02-20 2006-04-18 Lawrence Technologies, Llc System and method for identifying relationships between database records
EP1488646B1 (en) 2002-03-19 2017-05-03 Mapinfo Corporation Location based service provider
US7032212B2 (en) 2002-05-06 2006-04-18 Microsoft Corporation Method and system for generating test matrices for software programs
US20040083199A1 (en) 2002-08-07 2004-04-29 Govindugari Diwakar R. Method and architecture for data transformation, normalization, profiling, cleansing and validation
US6657568B1 (en) 2002-08-27 2003-12-02 Fmr Corp. Data packing for real-time streaming
US7047230B2 (en) 2002-09-09 2006-05-16 Lucent Technologies Inc. Distinct sampling system and a method of distinct sampling for optimizing distinct value query estimates
US7043476B2 (en) * 2002-10-11 2006-05-09 International Business Machines Corporation Method and apparatus for data mining to discover associations and covariances associated with data
US20040111410A1 (en) 2002-10-14 2004-06-10 Burgoon David Alford Information reservoir
US7395243B1 (en) 2002-11-01 2008-07-01 Checkfree Corporation Technique for presenting matched billers to a consumer
US7698163B2 (en) 2002-11-22 2010-04-13 Accenture Global Services Gmbh Multi-dimensional segmentation for use in a customer interaction
US7403942B1 (en) 2003-02-04 2008-07-22 Seisint, Inc. Method and system for processing data records
US7117222B2 (en) 2003-03-13 2006-10-03 International Business Machines Corporation Pre-formatted column-level caching to improve client performance
US7433861B2 (en) 2003-03-13 2008-10-07 International Business Machines Corporation Byte-code representations of actual data to reduce network traffic in database transactions
US7130760B2 (en) 2003-03-31 2006-10-31 National Instruments Corporation Reporting invalid parameter values for a parameter-based system
US20040249810A1 (en) 2003-06-03 2004-12-09 Microsoft Corporation Small group sampling of data for use in query processing
GB0314591D0 (en) 2003-06-21 2003-07-30 Ibm Profiling data in a data store
US20050240354A1 (en) * 2003-08-27 2005-10-27 Ascential Software Corporation Service oriented architecture for an extract function in a data integration platform
US20060069717A1 (en) * 2003-08-27 2006-03-30 Ascential Software Corporation Security service for a services oriented architecture in a data integration platform
US7426520B2 (en) 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
CN1853181A (zh) * 2003-09-15 2006-10-25 Ab开元软件公司 数据归档
EP2261821B1 (en) * 2003-09-15 2022-12-07 Ab Initio Technology LLC Data profiling
US7587394B2 (en) 2003-09-23 2009-09-08 International Business Machines Corporation Methods and apparatus for query rewrite with auxiliary attributes in query processing operations
US7149736B2 (en) 2003-09-26 2006-12-12 Microsoft Corporation Maintaining time-sorted aggregation records representing aggregations of values from multiple database records using multiple partitions
US7698345B2 (en) 2003-10-21 2010-04-13 The Nielsen Company (Us), Llc Methods and apparatus for fusing databases
US7620630B2 (en) * 2003-11-12 2009-11-17 Oliver Lloyd Pty Ltd Directory system
US8078481B2 (en) * 2003-12-05 2011-12-13 John Steinbarth Benefits administration system and methods of use and doing business
US7689542B2 (en) 2004-01-13 2010-03-30 Oracle International Corporation Dynamic return type generation in a database system
US20050177578A1 (en) 2004-02-10 2005-08-11 Chen Yao-Ching S. Efficient type annontation of XML schema-validated XML documents without schema validation
US7376656B2 (en) 2004-02-10 2008-05-20 Microsoft Corporation System and method for providing user defined aggregates in a database system
KR100619064B1 (ko) 2004-07-30 2006-08-31 삼성전자주식회사 메타 데이터를 포함하는 저장 매체, 그 재생 장치 및 방법
US8447743B2 (en) 2004-08-17 2013-05-21 International Business Machines Corporation Techniques for processing database queries including user-defined functions
CN1314634C (zh) 2004-09-17 2007-05-09 南京理工大学 单质炸药降静电处理方法
US7392169B2 (en) * 2004-10-21 2008-06-24 International Business Machines Corporation Method, system and program product for defining and recording minimum and maximum event counts of a simulation utilizing a high level language
US7899833B2 (en) 2004-11-02 2011-03-01 Ab Initio Technology Llc Managing related data objects
US20060129893A1 (en) * 2004-11-30 2006-06-15 Smith Alan R Apparatus, system, and method for criteria driven summarization of trace entry data
US8145642B2 (en) 2004-11-30 2012-03-27 Oracle International Corporation Method and apparatus to support bitmap filtering in a parallel system
US7694088B1 (en) * 2005-03-31 2010-04-06 Symantec Operating Corporation System and method for efficient creation of aggregate backup images
US20060230019A1 (en) * 2005-04-08 2006-10-12 International Business Machines Corporation System and method to optimize database access by synchronizing state based on data access patterns
US8572018B2 (en) * 2005-06-20 2013-10-29 New York University Method, system and software arrangement for reconstructing formal descriptive models of processes from functional/modal data using suitable ontology
US7877350B2 (en) 2005-06-27 2011-01-25 Ab Initio Technology Llc Managing metadata for graph-based computations
US7584205B2 (en) * 2005-06-27 2009-09-01 Ab Initio Technology Llc Aggregating data with complex operations
US20070021995A1 (en) 2005-07-20 2007-01-25 Candemir Toklu Discovering patterns of executions in business processes
US7774346B2 (en) 2005-08-26 2010-08-10 Oracle International Corporation Indexes that are based on bitmap values and that use summary bitmap values
US20070073721A1 (en) 2005-09-23 2007-03-29 Business Objects, S.A. Apparatus and method for serviced data profiling operations
US7565349B2 (en) * 2005-11-10 2009-07-21 International Business Machines Corporation Method for computing frequency distribution for many fields in one pass in parallel
US20070214179A1 (en) 2006-03-10 2007-09-13 Khanh Hoang Searching, filtering, creating, displaying, and managing entity relationships across multiple data hierarchies through a user interface
US8271452B2 (en) * 2006-06-12 2012-09-18 Rainstor Limited Method, system, and database archive for enhancing database archiving
NO325864B1 (no) 2006-11-07 2008-08-04 Fast Search & Transfer Asa Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
US20080114789A1 (en) 2006-11-15 2008-05-15 Wysham John A Data item retrieval method and apparatus
JP2008146242A (ja) * 2006-12-07 2008-06-26 Ricoh Co Ltd 発注支援システム、機器監視装置、機器監視方法及びプログラム
US7894075B2 (en) * 2006-12-11 2011-02-22 Zygo Corporation Multiple-degree of freedom interferometer with compensation for gas effects
US8412713B2 (en) * 2007-03-06 2013-04-02 Mcafee, Inc. Set function calculation in a database
US9224179B2 (en) * 2007-05-14 2015-12-29 The University Of Utah Research Foundation Method and system for report generation including extensible data
US7958142B2 (en) 2007-09-20 2011-06-07 Microsoft Corporation User profile aggregation
JP5241738B2 (ja) * 2008-01-28 2013-07-17 株式会社ターボデータラボラトリー 表からツリー構造データを構築する方法及び装置
US20090226916A1 (en) * 2008-02-01 2009-09-10 Life Technologies Corporation Automated Analysis of DNA Samples
US7912867B2 (en) 2008-02-25 2011-03-22 United Parcel Services Of America, Inc. Systems and methods of profiling data for integration
US7904464B2 (en) * 2008-08-27 2011-03-08 International Business Machines Corporation Virtual list view support in a distributed directory
US8463739B2 (en) * 2008-08-28 2013-06-11 Red Hat, Inc. Systems and methods for generating multi-population statistical measures using middleware
JP5287071B2 (ja) * 2008-09-17 2013-09-11 株式会社リコー データベース管理システムおよびプログラム
US20100114976A1 (en) * 2008-10-21 2010-05-06 Castellanos Maria G Method For Database Design
CN101393521B (zh) * 2008-11-13 2012-04-25 上海交通大学 Windows应用程序内部固化数据的提取系统
US8150832B2 (en) * 2009-03-06 2012-04-03 Oracle International Corporation Methods and systems for automatically determining a default hierarchy from data
US9251212B2 (en) * 2009-03-27 2016-02-02 Business Objects Software Ltd. Profiling in a massive parallel processing environment
US20110029478A1 (en) 2009-05-20 2011-02-03 Broeker Stephen A Stream Star Schema and Nested Binary Tree for Data Stream Analysis
US8977705B2 (en) * 2009-07-27 2015-03-10 Verisign, Inc. Method and system for data logging and analysis
CN102656554B (zh) 2009-09-16 2019-09-10 起元技术有限责任公司 映射数据集元素
US8560575B2 (en) * 2009-11-12 2013-10-15 Salesforce.Com, Inc. Methods and apparatus for selecting updates to associated records to publish on an information feed in an on-demand database service environment
EP2499565B1 (en) 2009-11-13 2019-01-09 Ab Initio Technology LLC Managing record format information
US8595284B2 (en) 2009-12-14 2013-11-26 Samsung Electronics Co., Ltd Web application script migration
US8396873B2 (en) 2010-03-10 2013-03-12 Emc Corporation Index searching using a bloom filter
US8326824B2 (en) * 2010-05-28 2012-12-04 International Business Machines Corporation Methods to estimate existing cache contents for better query optimization
KR20150042872A (ko) * 2010-06-22 2015-04-21 아브 이니티오 테크놀로지 엘엘시 관련 데이터세트의 처리
JP2012009996A (ja) * 2010-06-23 2012-01-12 National Institute Of Information & Communication Technology 情報処理システム、中継装置、および情報処理方法
JP5398663B2 (ja) * 2010-08-06 2014-01-29 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
US20140147013A1 (en) * 2010-10-11 2014-05-29 The Regents Of The University Of Colorado, A Body Corporate Direct echo particle image velocimetry flow vector mapping on ultrasound dicom images
US8296274B2 (en) 2011-01-27 2012-10-23 Leppard Andrew Considering multiple lookups in bloom filter decision making
JP6066927B2 (ja) 2011-01-28 2017-01-25 アビニシオ テクノロジー エルエルシー データパターン情報の生成
EP2704682A4 (en) * 2011-05-05 2014-10-22 Aegis Analytical Corp SYSTEM FOR DESIGNATING, DISPLAYING AND SELECTING TYPES OF PROCESS PARAMETERS AND PRODUCT RESET PARAMETERS
EP2608122A1 (en) * 2011-12-22 2013-06-26 Philip Morris Products S.A. Systems and methods for quantifying the impact of biological perturbations
US8615519B2 (en) * 2011-06-17 2013-12-24 Sap Ag Method and system for inverted indexing of a dataset
DE102012210794A1 (de) * 2011-07-01 2013-02-07 International Business Machines Corporation System und Verfahren zur Datenqualitätsüberwachung
US8856085B2 (en) 2011-07-19 2014-10-07 International Business Machines Corporation Automatic consistent sampling for data analysis
US8666919B2 (en) 2011-07-29 2014-03-04 Accenture Global Services Limited Data quality management for profiling, linking, cleansing and migrating data
WO2013063017A1 (en) * 2011-10-24 2013-05-02 The Brigham And Women's Hospital, Inc. Diagnosis and treatment of mesothelioma
CN103176973B (zh) 2011-12-20 2016-04-20 国际商业机器公司 用于生成数据库的测试工作负载的系统和方法
US8762396B2 (en) 2011-12-22 2014-06-24 Sap Ag Dynamic, hierarchical bloom filters for network data routing
US9336246B2 (en) 2012-02-28 2016-05-10 International Business Machines Corporation Generating composite key relationships between database objects based on sampling
US9483268B2 (en) * 2012-03-16 2016-11-01 International Business Machines Corporation Hardware based run-time instrumentation facility for managed run-times
US10061807B2 (en) * 2012-05-18 2018-08-28 Splunk Inc. Collection query driven generation of inverted index for raw machine data
CN104704499B (zh) * 2012-06-21 2018-12-11 菲利普莫里斯生产公司 与基于网络的生物标记签名相关的系统和方法
KR102129643B1 (ko) * 2012-10-22 2020-07-02 아브 이니티오 테크놀로지 엘엘시 소스 추적으로 데이터 프로파일링
KR102113366B1 (ko) * 2012-10-22 2020-05-20 아브 이니티오 테크놀로지 엘엘시 데이터 저장 시스템에서 데이터 소스 특성화
US9348773B2 (en) * 2013-05-28 2016-05-24 Dell Products, L.P. Systems and methods for adaptive interrupt coalescing in a converged network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9910590D0 (en) * 1999-05-08 1999-07-07 Int Computers Ltd Data file analysis
CN102683149A (zh) * 2011-02-16 2012-09-19 株式会社岛津制作所 质量分析数据处理方法和质量分析数据处理系统

Also Published As

Publication number Publication date
KR102074026B1 (ko) 2020-02-05
WO2014065919A1 (en) 2014-05-01
AU2013335231A1 (en) 2015-04-30
EP2909745A1 (en) 2015-08-26
AU2013334870A1 (en) 2015-04-30
JP6207619B2 (ja) 2017-10-04
AU2013334870B2 (en) 2018-08-09
HK1211109A1 (zh) 2016-05-13
EP3764242A1 (en) 2021-01-13
EP2909746B1 (en) 2019-12-18
JP2015537296A (ja) 2015-12-24
WO2014065917A1 (en) 2014-05-01
CN104756107B (zh) 2019-01-01
JP2016502699A (ja) 2016-01-28
WO2014066314A1 (en) 2014-05-01
HK1211116A1 (zh) 2016-05-13
KR20150076227A (ko) 2015-07-06
KR20150076225A (ko) 2015-07-06
CN104737167A (zh) 2015-06-24
CA2888250C (en) 2020-07-21
US9569434B2 (en) 2017-02-14
EP2909745B1 (en) 2020-01-01
CA2888250A1 (en) 2014-05-01
US9323748B2 (en) 2016-04-26
EP3657348B1 (en) 2021-12-01
US10719511B2 (en) 2020-07-21
CA2887931C (en) 2022-12-13
CN104737167B (zh) 2019-01-04
KR102134494B1 (ko) 2020-07-15
KR20150079689A (ko) 2015-07-08
US20170154075A1 (en) 2017-06-01
CN104769586A (zh) 2015-07-08
US20140114968A1 (en) 2014-04-24
EP2909752B1 (en) 2020-07-29
AU2018253523A1 (en) 2018-11-15
US9323749B2 (en) 2016-04-26
CN104756107A (zh) 2015-07-01
EP3657348A1 (en) 2020-05-27
AU2018253523B2 (en) 2020-07-02
AU2013335231B2 (en) 2018-08-09
JP6357162B2 (ja) 2018-07-11
CN110096494A (zh) 2019-08-06
EP2909752A1 (en) 2015-08-26
CA2887931A1 (en) 2014-05-01
US20140114926A1 (en) 2014-04-24
JP6377622B2 (ja) 2018-08-22
CN104769586B (zh) 2019-03-22
HK1211113A1 (zh) 2016-05-13
JP2016502166A (ja) 2016-01-21
US20140114927A1 (en) 2014-04-24
EP2909746A1 (en) 2015-08-26
KR102129643B1 (ko) 2020-07-02
CA2887670A1 (en) 2014-05-01
AU2013335229B2 (en) 2018-08-09
US20160012100A1 (en) 2016-01-14
US9990362B2 (en) 2018-06-05
CA2887670C (en) 2021-05-25
AU2013335229A1 (en) 2015-04-30

Similar Documents

Publication Publication Date Title
CN110096494B (zh) 使用源跟踪剖析数据
US9836519B2 (en) Densely grouping dimensional data
US9298829B2 (en) Performing a function on rows of data determined from transitive relationships between columns
US20150088885A1 (en) Aggregating dimensional data using dense containers
WO2010042238A1 (en) System and method for data warehousing and analytics on a distributed file system
US11461333B2 (en) Vertical union of feature-based datasets
Sagi et al. A design space for RDF data representations
Nandi Mimir: Bringing ctables into practice
Rozsnyai et al. Automated correlation discovery for semi-structured business processes
Gupta et al. Pragamana: performance comparison and programming-miner algorithm in relational database query language and NoSQL column-oriented using apache phoenix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40012655

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant