CN117882062A

CN117882062A - 用于连续数据剖析的系统和方法

Info

Publication number: CN117882062A
Application number: CN202280056985.2A
Authority: CN
Inventors: 詹姆斯·B·库什曼二世; 瓦迪姆·瓦克斯; 萨蒂恩德·戈埃尔
Original assignee: Corebra Belgium GmbH
Current assignee: Corebra Belgium GmbH
Priority date: 2021-06-30
Filing date: 2022-07-07
Publication date: 2024-04-12
Also published as: EP4363994A1; US20230004539A1; WO2023275411A8; WO2023275411A1; US11782889B2; US20240004849A1

Abstract

本公开涉及连续数据剖析(CDP)。实体可以容纳大量无组织的和/或重复的数据。为了组织和标准化跨数据集的数据，可以剖析数据。然而，剖析大数据集可能效率低下并产生安全问题，因为剖析数据集通常需要将数据集导出到第三方剖析运行时环境。为了弥补这些问题，本公开涉及包括通信地耦合到客户端的数据库的CDP管理器的连续数据剖析平台。CDP管理器提供对可以在客户端的本地数据库环境上安装CDP工具的CDP API的接入，从而使得数据库管理系统能够在客户端的本地数据库环境内剖析数据集，这引起更高效地使用计算资源以及更安全地处理剖析数据集。

Description

用于连续数据剖析的系统和方法

相关申请交叉引用

本申请涉及申请号为16/844,927，发明名称为″上下文驱动的数据剖析(CONTEXTDRIVEN DATA PROFILING)″的美国专利申请；以及申请号为17/236,823，发明名称为″用于预测正确或缺失数据和数据异常的系统和方法(SYSTEMS AND METHODS FOR PREDICTINGCORRECT OR MISSING DATA AND DATA ANOMALIES)″的美国专利申请，这些美国专利申请通过引用整体并入本文。

技术领域

本公开涉及连续数据剖析，并且具体地涉及执行连续数据剖析以得出对数据的洞察(insight)，同时节省计算能力。

背景技术

实体可以在多个计算设备上以数字方式维护大量数据。例如，组织可以在一系列互连的服务器上维护多列数据。通常可能需要查看(inspect)和评估这些大量数据，以确定对数据多种特性的多种洞察。但是，取得和处理大量数据可能需要大量计算资源。此外，鉴于数据量中包括大量信息，通常可能难以得出高质量的数据。

如先前在通过引用整体并入本文的申请号为16/844,927的专利申请中所描述的，对于获得对大量数据的洞察的该问题的解决方案是数据剖析，数据剖析是可以包括校验客户端数据中的属性，以标准化格式将这些属性标准化，并且然后处理标准化属性以从数据中得出洞察的过程。

然而，随着数据的继续增长，以高效的方式进行剖析变得很麻烦。目前，想要剖析其数据集的实体通常使用专门的第三方工具，该第三方工具需要将客户端数据从其本地平台导出到单独的第三方平台进行剖析。该过程有许多问题，包括大量数据的导出和导入效率低下，第三方平台的安全措施不可预测，以及计算机资源的过度使用。在实践中，实体首先从其本地数据库中导出其数据(通常通过创建副本)，然后将该数据副本导入到第三方剖析运行时环境中，然后将经剖析的数据从第三方运行时环境中导出，并且最后将经剖析的数据副本导入回到初始数据集所源自的本地数据库环境中。此外，因为数据剖析中经常使用数据集的副本，所以客户端通常需要将导入回到数据库中的经剖析的数据集与留在数据库中的未经剖析的数据进行调谐。这是需要时间和密集的计算能力的另一个附加步骤。

因此，就可以应对外部和一次性数据剖析的挑战的系统和方法，存在增加的需求，该挑战包括利用更少的资源和需要更少的导入-导出操作以计算高效的方式剖析数据，这将进一步提高数据的安全性，因为数据的流动性较小。

针对这些和其他一般考虑，作出了本文所公开的多个方面。此外，尽管可以讨论相对具体的问题，但应当理解，示例不应限于解决在本公开的背景技术或其他地方确定的具体问题。

附图说明

参照以下附图描述了非限制性和非穷举性示例。

图1示出了如本文所述的用于连续数据剖析的分布式系统的示例。

图2示出了如本文所述的用于连续数据剖析的示例性输入处理器。

图3示出了用于连续数据剖析的示例性架构。

图4示出了如本文所述的用于连续数据剖析的示例性方法。

图5示出了连续数据剖析管理器和数据库管理系统的示例性架构。

图6示出了用于连续数据剖析的示例性环境。

图7示出了在其中可以实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。

具体实施方式

下文参照附图更全面地描述本公开的多个方面，该附图构成本文的一部分，并且示出了具体的示例性方面。然而，本公开的不同方面可以以许多不同的形式实施，且不应被解释为仅限于本文所述的方面；而是，提供这些方面使得本公开将是彻底和完整的，并将这些方面的范围完全传达给本领域技术人员。各个方面可以作为方法，系统，或设备进行实践。因此，各个方面可以采取硬件实施方式，完全软件实施方式，或组合软件和硬件方面的实施方式的形式。因此，以下详细描述不应作为限制性的。

本申请的实施例涉及用于连续数据剖析的系统和方法。许多实体(例如，公司，组织)维护大量数据。该数据可以存储在计算设备的多种登记表或数据库中。在许多情况下，这些实体可能需要确认和匹配不同数据集中的记录以及得到对数据集的洞察。例如，鉴于多个类似的数据集，组织可以尝试在该类似的数据集中确认和选择高质量且准确的数据集。

本实施例涉及连续处理和剖析数据以及生成对摄取数据的洞察。连续数据剖析过程可以包括校验客户端数据的属性，将属性标准化成标准化格式，以及经由一个或多个规则引擎处理数据。可以基于获得的输入信息来生成其他信息，例如使用排名或价值分数。

数据剖析过程可以允许生成对数据的洞察，从而提高数据质量。洞察的示例可以包括域内和跨域的数据属性的重复或多个实例，包括百分比重叠。作为进一步的示例，洞察可以包括来自规范化和标准化的数据质量报告(标准相对非标准的百分比是多少)或基于标签处理的趋势(例如，具有相同家庭地址的记录)。

如先前所描述的，数据剖析的当前系统和方法通常需要实体将其数据集从其本地运行时环境中导出到专门的第三方剖析运行时环境中。该过程从计算资源的角度来看既不安全又低效。为了弥补这些问题，本系统和方法公开了高效的连续数据剖析过程，在该过程中，实体的数据集可以在存储它的数据库内进行本地剖析。这是经由连续数据剖析(CDP)管理器来促进的，该管理器是轻量前端应用程序，直接与数据库管理系统通信(例如，本地耦合到存储实体的数据集的数据库的软件应用程序)。CDP管理器可以采取应用程序编程接口(API)的形式，其中，CDP将某种剖析逻辑直接安装到数据库管理系统中，允许数据库管理系统处理所有剖析(例如，追踪，调度，计算，和存储经剖析的数据)。作为进一步的示例，CDP管理器可以允许数据库管理系统生成和存储统计表，改变数据捕获(CDC)表，剖析程序，和剖析触发器。

因此，本公开提供了多个技术益处，包括但不限于使得能够更高效地使用计算机资源，因为实体不再需要将其数据从其本地数据库系统中导出并导入到第三方剖析系统中。相反，本文公开的系统和方法使得实体能够简单地调用直接与实体的本地数据库管理系统通信的CDP API，利用实体的数据库计算资源进行剖析过程。另一个技术益处是实体的数据的增加的安全性。通过避免到未知且不可预测的第三方运行时环境中的连续导出-导入过程，安全漏洞或暴露个人身份信息的风险显著降低，因为实体的数据在剖析之前，剖析期间，以及剖析之后未被传输到其本地运行时环境之外。数据留在单个安全位置中。简而言之，连续数据剖析过程提供了计算机资源和处理能力的更高效使用，并且还提供了敏感数据的提高的安全性和保护。

图1示出了如本文所述的用于连续数据剖析的分布式系统的示例。所提出的示例性系统100是相互依赖的部件的组合，该相互依赖的部件相互作用，以形成用于在数据市场上整合和扩充数据的集成整体。系统的部件可以是硬件部件或者在系统的硬件部件上实施和/或由系统的硬件部件执行的软件。例如，系统100包括客户端设备102，104，和106，本地数据库110，112，和114，一个或多个网络108，以及服务器设备116，118，和/或120。

客户端设备102，104，和106可以被配置为接收和传送数据。例如，客户端设备102，104，和106可以包括具有特定于客户端的数据术语和标签的特定于客户端的数据。客户端设备可以经由一个或多个网络108下载可以通信地耦合到客户端数据所驻留的一个或多个数据库110，112，和/或114的CDP管理器程序。在其他实施例中，代替直接下载CDP管理器，一个或多个客户端设备102，104，和/或106可以仅经由一个或多个网络108调用CDP管理器API，其中，API的激活允许CDP管理器(其可以在一个或多个服务器116，118，和/或120上远程操作)直接与一个或多个数据库110，112，和/或114上通信并剖析存储在一个或多个数据库110，112，和/或114上的数据。因为对数据的剖析发生在客户端的数据集的本地位置处，所以存储在一个或多个数据库110，112，和/或114上的客户端数据未经由一个或多个网络108传送，以例如在一个或多个第三方服务器116，118，和/或120上进行远程剖析。特定于客户端的数据可以存储在本地数据库110，112，和114中。原始的未经剖析的数据存储在本地数据库110，112，和114上，并且经剖析的数据(在CDP过程在数据上运行之后)也存储在一个或多个本地数据库110，112，和/或114上。一个或多个服务器116，118，和/或120可以是CDP管理器和/或CDP API的管理员拥有的第三方服务器。在其他示例中，一旦数据被剖析，经剖析的特定于客户端的数据就可以存储在远程服务器(除了或代替本地客户端设备和本地数据库)中，并且可以经由一个或多个网络108和/或卫星122从客户端服务器传送到第三方服务器。

在其他示例中，一个或多个服务器116，118，和/或120可以是客户端所拥有的。这一个或多个服务器116，118，和/或120可以是客户端数据所驻留的客户端拥有的云服务器。在该示例中，客户端数据可以从客户端拥有的本地数据库110，112，和/或114传送到客户端拥有的数据库116，118，和/或120。CDP管理器可以通信地耦合到客户端所拥有的本地或远程数据库。CDP管理器与客户端拥有的数据库之间的该通信信道可以经由一个或多个网络108和/或卫星122来促进。该示例适用于其中远程数据库/服务器由客户端而不是管理CDP管理器和/或API的第三方拥有的场景。

在各方面中，客户端设备(例如，客户端设备102，104，和106)可以有权接入包括特定于客户端的数据的一个或多个数据集或数据源和/或数据库。在其他方面中，客户端设备102，104，和106可以被配备为接收携带有必要安装在客户端拥有的数据库上以供剖析进行的CDP管理软件和/或CDP API文件的宽带和/或卫星信号。客户端设备102，104，和106可以接收的信号和信息可以是从卫星122传送的。卫星122还可以被配置为与一个或多个网络108通信，此外还能够直接与客户端设备102，104，和106通信。在一些示例中，客户端设备可以是移动电话，膝上型计算机，平板电脑，智能家居设备，座机，和可穿戴设备(例如，智能手表)以及其他设备。

为了进一步阐述网络拓扑，一旦CDP管理器通信地耦合到本地数据库110，112，和/或114，客户端设备102，104，和/或106(以及它们对应的本地数据库110，112，和114)就可以接收CDP管理文件和信息。注意，这还适用于其中一个或多个远程数据库116，118，和/或120是客户端拥有的场景。CDP管理文件可以包括但不限于统计表，CDC表，剖析程序，和剖析触发器。一旦对数据集的剖析完成，经剖析的数据就可以存储在原始的未经剖析的数据所存储的初始数据库中。

图2示出了如本文所述的用于连续数据剖析的示例性输入处理器。输入处理器200可以嵌入在客户端设备(例如，客户端设备102，104，和/或106)，远程网络服务器设备(例如，设备116，118，和/或120)，以及能够实施用于连续数据剖析的系统和方法的其他设备内。输入处理系统包括一个或多个数据处理器，并且能够基于由至少一个客户端数据源提供的处理数据来执行算法，软件例程，和/或指令。输入处理系统可以是出厂安装的系统或到特定设备的附加单元。此外，输入处理系统可以是通用计算机或专门的专用计算机。对输入处理系统相对于客户端或远程网络服务器设备等的位置没有限制。根据图2所示的实施例，所公开的系统可以包括存储器205，一个或多个处理器210，通信模块215，连续数据剖析(CDP)模块220，和数据库管理系统(DMS)模块225。本技术的其他实施例可以包括这些模块和部件中的部分，全部，或没有这些模块和部件，以及其他模块，应用程序，数据，和/或部件。然而，一些实施例可以将这些模块和部件中的两个或多个合并到单一模块中和/或使这些模块中的一个或多个的一部分功能与不同的模块相关。

存储器205可以存储用于在一个或多个处理器210上运行一个或多个应用程序或模块的指令。例如，存储器205可以在一个或多个实施例中用于容纳执行CDP模块220和/或DMS模块225以及通信模块215的功能所需的全部或部分指令。通常，存储器205可以包括用于存储信息的任何设备，机制，或填充的数据结构。根据本公开的一些实施例，存储器205可以涵盖但不限于任何类型的易失性存储器，非易失性存储器，和动态存储器。例如，存储器205可以是随机存取存储器，存储器存储设备，光存储器设备，磁性介质，软盘，磁带，硬盘驱动器，SIMM，SDRAM，RDRAM，DDR，RAM，SODIMM，EPROM，EEPROM，光盘，DVD，和/或类似物。根据一些实施例，存储器205可以包括一个或多个磁盘驱动器，闪存驱动器，一个或多个数据库，一个或多个表，一个或多个文件，本地缓存存储器，处理器缓存存储器，关系数据库，平面数据库，和/或类似物。此外，本领域普通技术人员将理解用于存储信息的许多附加设备和技术可以用作存储器205。

在一些示例性方面中，存储器205可存储可以源于CDP管理器的来自CDP模块220的某些文件，例如使得一个或多个客户端数据库能够生成，显示，并存储统计表，CDC表，剖析过程，和剖析触发器的软件应用程序。CDP管理器还可以使得用户能够配置CDP文件中的任何CDP文件，这可以允许定制统计表和CDC表以及剖析过程和剖析触发器。在进一步的示例中，存储器205可存储可以用于促进对客户端数据库上的数据以及CDP管理器与DMS之间的数据流的剖析的某些剖析统计和经剖析的数据。

通信模块215与发送/接收信息(例如，来自CDP模块220的CDP应用程序和来自DMS模块225的数据(未经剖析的和经剖析的))，经由客户端设备或服务器设备，其他客户端设备，远程网络服务器等接收的命令相关。这些通信可以采用任何适合类型的技术，例如蓝牙，WiFi，WiMax，蜂窝(例如，5G)，单跳通信，多跳通信，专用短程通信(DSRC)，或专有通信协议。在一些实施例中，通信模块215发送由CDP模块220输出的信息(例如，待安装在DMS上的软件应用程序和/或逻辑)和/或由DMS模块225输出的信息(例如，经剖析的数据，例如追踪，调度，计算，和存储每个数据表的经剖析的数据统计)，和/或发送到客户端设备102，104，和/或106，以及存储器205以被存储以供将来使用。在一些示例中，通信模块可以通过使用RESTful服务的一个或多个安全REST服务器被构建在HTTP协议上。在又进一步的示例中，CDP模块220可以经由CDP API与DMS模块225通信。在其他示例中，外部应用程序可以请求经剖析的数据统计，并且通信模块215可以促进将经剖析的数据从DMS模块225传送到第三方外部服务。

CDP模块220被配置为将某种逻辑和软件功能安装在数据库上，具体地配置管理客户端数据库的数据库管理系统。可以由CDP模块220提供的逻辑和/或软件可以包括用于促进统计表，CDC表，剖析程序，和剖析触发器的构建和存储的功能。例如，CDP模块220可以使得改变数据捕获方法能够经由DMS在客户端数据库上运行。这些方法可以包括：初始化时间戳或版本号，表触发器(例如，使得当数据改变时，数据库或数据表的管理员接收到推送通知)，快照或表比较，以及日志抓取。这些方法中的每种方法允许数据库状态的实时报告能力。

CDP模块220也可以配置有允许DMS(例如，DMS模块225)与CDP模块220通信并接收由CDP管理器设计和支持的下载和功能的API。一旦CDP模块220通信地耦合到应当在其中进行剖析的本地数据库，剖析就可以基于不同的因素连续地进行。例如，可以经由CDP模块220确立每24小时触发对已经添加到数据集的新数据的剖析的剖析触发器。在另一个示例中，剖析触发器可以基于添加到某个数据集或数据表的新数据量。一旦新数据量达到或超过例如10千兆字节，就触发剖析过程，并自动剖析新数据。

DMS模块225被配置为管理存储特定于客户端的数据的至少一个本地数据库。DMS模块225被配置为操作对每个数据表的剖析统计的改变追踪，调度，计算，和存储。大部分计算资源由DMS模块225管理，因为本文描述的CDP系统和方法使用本地数据库资源来剖析和存储数据。DMS模块225还被配置为生成和存储允许DMS模块225捕获经剖析的数据的整个历史的某些时间线统计表。统计表可以基于由CDP模块220接收的查询经由CDP模块220来显示。

图3示出了用于连续数据剖析的示例性架构。上下文驱动的数据剖析过程可以帮助确定源数据的数据质量。数据剖析可以包括几个处理步骤，其修改输入信息以生成有助于优化匹配准确性等应用的对数据的洞察。例如，数据剖析可以在对经剖析的数据进行令牌化之前对数据进行标准化和校验。

图3是用于连续数据剖析的示例性架构，示出了示例性剖析流程300。连续数据剖析器可以包括灵活的数据流程。可以从数据源以多个批次，连续流，或大批量加载的方式接入和/或处理数据。如先前所描述的，本申请涉及连续数据剖析流。一个或多个数据源302可以包括被配置为存储/维护数据的节点(例如，数据库设备304a-d)(例如，数据湖306a，数据库306b，平面文件(flat file)306c，数据流306d)。例如，数据源302可以包括单列数据，具有多个数据表的一系列关系数据库，或具有大量数据资产的数据湖。

可以在数据剖析器中按用例或客户端解析(resolve)数据质量。例如，上下文可以是基于一列数据，多列数据的组合，或数据源。在数据剖析过程期间，可以得出多个数据，并且可以生成数据摘要(summary)。例如，一列数据的摘要可以以数据简报(sketch)的形式被确认。数据简报可以包括数值数据和/或字符串数据。数据简报中包括的数值数据的示例可以包括多个缺失值，数值数据的平均值/方差/最大值/最小值，可以用于生成分布或直方图的数值数据的近似分位数估计等中的任何一个。字符串数据的示例可以包括多个缺失值，最大字符长度，最小字符长度，平均字符长度，标签频率表，频率项集合，不同值估计等。

一旦在数据的摘要中计算了一系列指标(metrics)中的任何指标，就可以计算出数据剖析分数。数据剖析分数可以用于确定数据质量和/或确认最佳数据，数据组成，和目标数据质量增强活动。以用户设置的间隔，可以重新执行数据剖析以重新计算指标。这些用户设置的间隔可以是时间的(例如，每24小时剖析由数据湖306a接收的新数据)或基于大小的(例如，剖析添加到平面文件306c的每1GB数据)。除了高效地使用计算机资源来连续剖析数据流而不是手动批量处理之外，这还可以用于追踪数据生命周期中的数据分数历史并实现对数据质量问题做记号(flagging)。

在一些实施例中，数据摘要可以包括遵循了特定正则表达式的值(例如，参考数据)的比例。例如，对于遵循特定格式的电话号码，数据摘要可以表示存在多个格式。

在一些实施例中，数据摘要可以包括多个匿名值。例如，可以在源数据中确认已知的匿名名字(例如，John Doe)以确定包括匿名值的数据的比例。

在其他实施例中，数据摘要可以包括基于数据质量规则库的一组数据质量指标。可以利用数据摘要来实现基于与属性相关的参考数据来学习数据质量规则。还可以利用数据摘要来实现直接从源数据中学习数据质量规则(例如，源数据应包括在哪些值之间，最小字符长度应是多少)。

作为第一示例，可以对源数据进行查看以得出数据质量分数。数据质量分数可以包括在源数据的列级别或记录级别计算的分数。可以通过计算数据摘要中包括的任何指标来得出数据质量分数。

作为另一个示例，可以对源数据进行查看以确认质量数据。对于每个数据源中每列数据的数据剖析分数，可以将最可能的一组数据与特定客户端匹配。例如，可以准备表，该表示出一组列/属性(例如，名字，地址电话出生日期，电子邮件地址)，列/属性所存在的不同源(CRM，ERP，订单管理，网络)的数据剖析分数。使用这样的表中包括的数据，可以为特定客户端选择具有最高数据质量的一组数据。在一些实例中，可以匹配多个源以接收尽可能高的质量的数据。这可以在不过度处理源数据的情况下执行。

作为另一个示例，可以对源数据进行查看以得出历史数据剖析分数并执行假设分析(what-if analysis)。假设分析可以包括对如果对数据调用其他(某些)规则会是什么样的情况的分析。为了便于计算这些，可以对从计算指标阶段期间创建的数据摘要中收集的样本数据完成此过程。如果假设分析的结果足够，可以使用在假设分析中选择的新规则执行对指标的新的完整计算。

从数据源(例如，数据湖306a，数据库306b，平面文件306c，数据流306d)提取的数据可以经由数据馈送(data feed)308馈送到剖析器(例如，剖析器310a-n)中。数据馈送308可以包括向剖析器进行的连续的数据馈送。剖析器310a-n可以经由CDP管理器安装在本地数据库上，该CDP管理器可以经由CDP模块220通信地耦合到一个或多个数据库304a-d，如图2中所描述的。馈送到剖析器中的数据可以包括属性(例如，属性312a-n)。属性可以是表中，源中数据的部分，或者同一记录的一部分。

在如图3所示的实施例中，第一剖析器310a可以处理属性1 312a，并且第二剖析器310b可以处理属性2 312b。任何合适数量的剖析器(例如，剖析器N 310n)可以处理任何数量的属性(例如，属性N 312n)。每个剖析器310a-n可以包括一组标准化规则314a-n和一组规则引擎316a-n。标准化规则314a-n和规则引擎316a-n可以经由通信地耦合到数据库的CDP管理器安装在一个或多个数据库304a-n上，提供对存储在储存库上并经由数据馈送308提供给剖析器310a-n的数据的连续剖析。标准化规则314a-n和/或规则引擎316a-n可以是模块化的，其中每组规则都可以针对属性进行处理。每个剖析器可以使用对应的一组标准化规则和一组规则引擎来处理对应的属性。在一些实施例中，每个剖析器可以实施多个机器学习和/或人工智能技术和统计工具，以提高处理属性时的数据质量。来自每个剖析器310a-n的结果数据可以包括表示属性的多个特征的洞察318。

在一些实施例中，可以调整数据质量规则，这可能导致在执行数据质量改进任务时做出不同的确定。例如，数据集可能有很好的分数，但它先前并不知道″John Doe″的名字是匿名(伪造的或虚假的)值。通过更新规则来确认″John Doe″是匿名值，数据剖析分数的改变和分数的历史可以被修改。数据剖析分数的该改变可以实现对数据集中包括的多个数据的确认。

作为另一个示例，可以对源数据进行查看以得出自动数据质量改进请求。触发器可以与特定属性或一系列属性的数据剖析分数相关。触发器可以规定，如果数据剖析分数低于阈值，则可以查看与属性相关的源数据。如果源数据具有表示在多个上下文中如何使用数据的确认值，该源数据可潜在地被改进。

作为另一个示例，可以对源数据进行查看以得出数据洞察。对源数据的数据剖析分数进行处理可以生成数据分布和其他洞察，在发起另一次数据分析之前可以利用该数据分布和其他洞察了解数据的特征。

作为另一个示例，可以对源数据进行查看以得出智能的基于数据质量的数据选择决策。基于将源数据映射到模型(例如，典范模型)，当数据质量分数优于具有类似属性的另一个数据集时，高相关的剖析/采样输出，相关定义，和/或类似的端点消费关系模式可以提供值得查看的替代者的建议。可以根据用户发起的请求运行并排(side-by-side)比较，以帮助用户确认对重叠的测量并表达相对偏好。这可以与用户和社区一起存储/记录，以便长期提供用特定于用户的需求校准的建议。例如，可以经由管理数据源302的数据库管理系统存储和生成统计表。统计表可以提供给CDP管理器，以在CDP管理器接收到显示所述统计表的查询后进行显示。

图4示出了如本文所述的用于连续数据剖析的示例性方法。方法400从接收第一输入数据流402开始；数据流可以来自任何数量的客户端拥有的数据源，例如图3中所描述的那些数据源。与客户端相对应的数据流可以包括一列或多列客户端数据。

一旦在步骤402处接收到第一输入数据流，就可以在步骤404处剖析第一输入流，其中可以确认来自数据流的至少一种属性。数据剖析过程的进一步步骤可以包括取得与属性相对应的一组校验规则和一组标准化规则。这一组校验规则可以提供表示属性是否对应于该属性的规则。这一组标准化规则可以提供将属性修改成标准化格式的规则。

数据剖析过程步骤404可以包括将属性与这一组校验规则进行比较，以确定该属性是否对应于规则。如果确定该属性对应于规则，可以修改该属性，如本文所述。在一些实施例中，校验属性可以包括：确定属性是否包括被确认在一组校验规则中的无效值。可以响应于确定属性不包括无效值来校验属性。

数据剖析过程可以包括根据这一组标准化规则将属性修改成标准化格式。这可以响应于确定属性经由校验规则校验来执行。

数据剖析过程步骤404可以包括通过多个规则引擎处理属性。规则引擎可以包括响应于确定属性表示名字来使属性与相关名字列表中包括的常相关名字相关的名字引擎。规则引擎还可以包括响应于确定属性表示地址来将属性添加到与客户端相关的地址库的地址库引擎。

在一些实施例中，在步骤404处通过一组规则引擎处理经修改的属性可以包括，响应于确定属性表示名字来通过使属性与相关名字列表中包括的相关名字相关的名字引擎处理经修改的属性。通过一组规则引擎处理经修改的属性还可以包括，响应于确定属性表示地址来通过将属性添加到与数据对象相关的地址库中的地址库引擎处理经修改的属性。

在一些实施例中，方法400在数据剖析步骤404处可以包括相对于数据流中的其他属性比较该属性的多个实例。可以为属性生成使用排名。使用排名可以基于数据流中的属性的实例数，并且使用排名可以表示能够从属性得出的多个洞察。

在一些实施例中，可以确认与属性相关并相对于数据流中的其他属性被确认的一系列特征。一系列特征中的示例性特征可以包括质量特征，可用性特征，基数特征等。可以基于一系列特征的聚合来得出属性的价值分数。

在一些实施例中，在步骤404处，基于一系列特征的聚合来得出属性的价值分数可以包括：处理属性以得出属性的质量特征，质量特征确认在数据流中确认的属性与根据一组标准化规则修改的经修改的属性之间的多个差异。基于一系列特征的聚合来得出属性的价值分数还可以包括：处理属性以得出属性的可用性特征，可用性特征表示数据流中与属性相对应的一部分数据中的多个无效条目。基于一系列特征的聚合来得出属性的价值分数还可以包括：处理属性以得出属性的基数特征，基数特征表示属性相对于数据流中的其他属性的差异。基于一系列特征的聚合来得出属性的价值分数还可以包括：聚合属性的所得出的质量特征，可用性特征，和基数特征，以生成属性的价值分数。

一旦在步骤404处剖析了第一输入数据流，就可以在步骤406处生成第一组经剖析数据。在步骤406处，可以将经剖析数据构造成统计表并经由CDP管理器显示。本文描述的系统还可以在一系列经处理和经剖析的属性上维护经剖析的洞察/排名/分数，这允许从原始输入数据流中得出数据质量洞察。

一旦在步骤406处生成了第一组经剖析数据，系统就可以在步骤408处接收第二输入数据流。在一些示例中，第二输入数据流可以在步骤410处触发剖析过程。触发器可以基于时机因素(例如，每24小时剖析新输入数据流)或大小因素(例如，一旦新输入数据流达到1GB大小，就处理新输入数据流)。在其他示例中，步骤408处的第二输入数据流可以存储在客户端数据库中，直到在步骤410中触发剖析过程。因此，由客户端数据存储区在第一组经剖析数据的生成与后续剖析过程的触发之间接收的新数据可以被定义为″第二输入数据流″。

一旦在步骤410处再次触发剖析过程，就根据上文关于剖析步骤404所描述的剖析步骤和处理在步骤412处剖析第二输入数据流。

类似地，一旦在步骤412处剖析了第二输入数据流，就在步骤414处生成第二组经剖析数据，其中，新统计表和数据质量洞察可以从输入数据得出。

该过程可以继续重复，只要在新输入数据流由客户端数据存储区接收时触发剖析处理步骤即可，该客户端数据存储区连接到CDP管理器。CDP管理器可以监测数据流入到一个或多个客户端数据存储区，并且一旦启动了剖析触发器，就可以在客户端数据库中剖析新数据流入。

图5示出了连续数据剖析管理器和数据库管理系统的示例性架构。示例性架构500包括CDP管理器502，CDP管理器502是提供基础客户端数据库与CDP工具之间的通信的轻量用户界面软件应用程序。在一些示例中，CDP管理器502可以管理CDP API并提供对CDP API的接入(或调用接入)。CDP管理器502可以通信地耦合到数据库管理系统506。CDP管理器502还可以将来自CDP工具集的某些剖析工具安装在数据库管理系统506上，例如供DMS 506生成和存储统计表，CDC表，剖析程序，和剖析触发器的能力。CDP管理器502还可以向DMS 506提供用于配置某些存储的程序和剖析触发器的工具。例如，CDP管理器502可以允许用户配置哪些剖析触发器被设置用于自动数据剖析，例如时间或基于大小的触发器，如先前所述的。

在一些情况下，在数据仓库是公共云托管的或管理器(如Snowflake，BigQuery，Redshift等)的情况下，管理器起到的作用有限。时间表和触发器可以由在服务提供商本地但在数据库本身外部的云服务提供。在另一个示例中，亚马孙网络服务(AWS)事件桥处理对Redshift(例如，Redshift是AWS的数据库)内的剖析执行的调度和触发。

架构500还包括外部过程508，如果DMS 506被配置为使用外部过程508，该外部过程可能被涉及。例如，一旦数据被剖析并存储在客户端数据库中，DMS 506就可以经由API508将存储的经剖析的数据传送到可以进一步分析经剖析的数据的外部过程。在其他示例中，外部过程508可以包括其中客户端可能希望增强和/或购买/售卖与存储在客户端数据库上的经剖析的数据集有关的某些数据资产的数据市场。

图6示出了用于经由API将连续数据剖析连接到外部应用程序以进行分析/洞察的示例性环境。环境600包括客户端馈送602，该客户端馈送602包括来自各种数据源，例如图3中所描述的那些数据源(例如，数据湖，数据库，平面文件，和数据流)的数据流。数据源中的每一个数据源具有其自己的CDP环境，在该环境中，剖析统计被连续存储。CDP馈送经由API网关可读，以在没有过多处理时间延迟的情况下进行迅速分析并提供洞察。API网关可以由具有数据剖析或数据质量能力的任何第三方提供。

API网关610是由CDP管理器管理的连续数据剖析(CDP)网关。CDP管理器可以是可通信地耦合到客户端环境604的顶级轻量软件接口。CDP管理器可以从某些数据剖析和数据质量分析工具驻留的CDP环境中得出其功能。某些CDP工具集可以经由CDP API 610可用于在客户端数据集上使用。客户端CDP数据馈送和API网关作为锁钥机制工作，客户端的可以用于有益于对来自第三方的其数据的剖析洞察。一旦连接被确立，CDP API就可以在客户端环境604内安装工具和/或经由CDP API提供对某些CDP工具的接入，该CDP工具可以被利用(例如，经由云服务器)以剖析存储在客户端环境604内的数据。重要的是，应注意，客户端数据(例如，CDP馈送)不从客户端环境604外部传送到例如CDP环境606。

图7示出了在其中可以实施本实施例中的一个或多个实施例的适合的操作环境的一个示例。这只是适合的操作环境的一个示例，并不旨在对使用范围或功能有任何限制。可能适合使用的其他众所周知的计算系统，环境，和/或配置包括但不限于个人计算机，服务器计算机，手持或膝上型设备，多处理器系统，基于微处理器的系统，可编程消费电子产品(例如，智能手机)，网络PC，小型计算机，大型计算机，包括上述系统或设备中的任何系统或设备的分布式计算环境等。

在其最基本的配置中，操作环境700通常包括至少一个处理单元702和存储器704。取决于计算设备的确切配置和类型，存储器704(存储与检测到的设备相关的信息，相关信息，个人网关设置，以及用于执行本文公开的方法的指令等等)可以是易失性的(例如，RAM)，非易失性的(例如，ROM，闪存等)，或两者的某种组合。该最基本的配置在图7中由虚线706所示。此外，环境700还可以包括存储设备(可拆卸的708和/或不可拆卸的710)，包括但不限于磁盘或光盘或磁带。类似地，环境700还可以具有一个或多个输入设备714，例如键盘，鼠标，笔，语音输入等，和/或一个或多个输出设备716，例如显示器，扬声器，打印机等。环境中还可以包括一个或多个通信连接712，例如LAN，WAN，点对点等。

操作环境700通常包括至少某种形式的计算机可读介质。计算机可读介质可以是可由处理单元702或包括操作环境的其他设备接入的任何可用介质。作为示例，而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实施的用于存储诸如计算机可读指令，数据结构，程序模块，或其他数据的信息的易失性和非易失性可拆卸和不可拆卸介质。计算机存储介质包括RAM，ROM，EEPROM，闪存，或其他存储器技术，CD-ROM，数字多功能磁盘(DVD)，或其他光存储，磁带盒，磁带，磁盘存储，或其他磁性存储设备，或者可以用于存储期望的信息的任何其他有形介质。计算机存储介质不包括通信介质。

通信介质体现非暂时性计算机可读指令，数据结构，程序模块，或其他数据。计算机可读指令可以在诸如载波或其他传输机制的调制数据信号中传输，并且包括任何信息递送介质。术语″调制数据信号″是指以对信号中的信息进行编码的方式设置或改变其特性中的一个或多个特性的信号。作为示例，而非限制，通信介质包括有线介质，例如有线网络或直接有线连接，以及无线介质，例如声学，RF，红外，和其他无线介质。上述各项中的任何项的组合也应包括在计算机可读介质的范围内。

操作环境700可以是使用到一个或多个远程计算机的逻辑连接在联网环境中操作的单一计算机。远程计算机可以是个人计算机，服务器，路由器，网络PC，对等设备，或其他公共网络节点，并且通常包括上述元素中的许多或全部以及未如此提及的其他元素。逻辑连接可以包括受可用通信介质支持的任何方法。这样的联网环境常位于办公室，企业范围的计算机网络，内部网，和互联网中。

例如，上文参照根据本公开的多个方面的方法，系统，和计算机程序产品的框图和/或操作图示描述了本公开的多个方面。方框中标注的功能/动作可以不按任何流程图所示的顺序发生。例如，连续示出的两个方框事实上可以基本上并发执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能/动作。

本申请中提供的一个或多个方面的描述和说明并不旨在以任何方式限制或约束所要求保护的本公开的范围。本申请中提供的多个方面，示例，和细节被认为足以传达对其的拥有，并使得其他人能够制作和使用所要求保护的公开的最佳模式。要求保护的公开不应被解释为仅限于本申请中提供的任何方面，示例，或细节。无论是以组合或单独地示出和描述，多种特征(结构和方法两者)旨在选择性地被包括或被省略，以产生具有特定特征集的实施例。在提供了本申请的描述和说明之后，本领域技术人员可以设想落入本申请所体现的一般发明构思的较宽泛方面的精神内的变化，修改，和替代方面，而不脱离所要求保护的公开的较宽泛的范围。

综上所述，应当理解，出于说明的目的，已经在本文中描述了本发明的具体实施例，但可以在不脱离本发明的范围的情况下进行多种修改。因此，除所附权利要求外，本发明不受限制。

Claims

1.一种用于连续剖析数据的系统，包括：

存储器，其被配置为存储非暂时性计算机可读指令；以及

处理器，其通信地耦合到所述存储器，其中，所述处理器在执行所述非暂时性计算机可读指令时，被配置为：

接收第一输入数据流；

剖析所述第一输入数据流；

基于对所述第一输入数据流的所述剖析来生成第一组经剖析的数据；

接收第二输入数据流；

将所述第二输入数据流与至少一个剖析触发器进行比较；

启动所述至少一个剖析触发器；

剖析所述第二输入数据流；

基于对所述第二输入数据流的所述剖析来生成第二组经剖析的数据；

将所述第一组经剖析数据和所述第二组经剖析的数据存储在至少一个客户端数据库中。

2.根据权利要求2所述的系统，其中，所述处理器还被配置为：

将至少一个连续数据剖析(C D P)管理器应用程序连接到所述至少一个客户端数据库；以及

经由所述至少一个连续数据剖析(C D P)管理器应用程序接收至少一个指令或功能。

3.根据权利要求2所述的系统，其中，所述至少一个剖析功能是用于生成经剖析的数据统计表的功能。

4.根据权利要求2所述的系统，其中，所述至少一个剖析功能是用于生成经剖析的数据改变数据存储区表的功能。

5.根据权利要求2所述的系统，其中，所述至少一个剖析功能是用于管理至少一个剖析过程的功能。

6.根据权利要求2所述的系统，其中，所述至少一个剖析功能是用于管理所述至少一个剖析触发器的功能。

7.根据权利要求1所述的系统，其中，所述至少一个剖析触发器是以下中的至少一种：时间触发器，基于大小的触发器，和手动触发器。

8.根据权利要求1所述的系统，其中，剖析所述第一输入数据流包括以下步骤：

确认所述第一输入数据流中的至少一种属性；

取得与所述至少一种属性相对应的至少一组剖析规则和至少一组处理规则；

将所述至少一种属性与至少一组剖析规则和所述至少一组处理规则进行比较，以校验所述至少一种属性中包括的信息；

响应于确定所述至少一种属性中包括的所述信息根据所述至少一组处理规则进行剖析，根据所述至少一组处理规则将至少一种属性中包括的信息存储成至少一种经剖析的格式，其中，所述信息经由至少一个API网关提供；以及

通过至少一组规则引擎处理所述经剖析的至少一种属性。

9.根据权利要求8所述的系统，其中，通过所述至少一组规则引擎处理所述经剖析的至少一种属性包括以下步骤：

响应于确定所述至少一种属性表示名字，通过使所述至少一种属性与相关名字列表中包括的相关名字相关的名字引擎处理所述经修改的至少一种属性。

10.根据权利要求8所述的系统，其中，通过所述至少一组规则引擎处理所述经剖析的至少一种属性包括以下步骤：

响应于确定所述至少一种属性表示地址，通过将所述属性添加到地址库的地址库引擎处理所述经修改的至少一种属性。

11.根据权利要求3所述的系统，其中，所述处理器还被配置为：

经由所述至少一个连续数据剖析管理器应用程序接收至少一个查询，其中，所述至少一个查询生成所述经剖析的数据统计表。

12.根据权利要求1所述的系统，其中，所述处理器还被配置为：

从连续数据剖析管理器接收至少一组连续数据剖析工具，其中，所述连续数据剖析管理器是通信地耦合到所述至少一个客户端数据库的前端软件应用程序。

13.一种连续剖析数据的方法，包括：

将至少一组连续数据剖析工具接收在至少一个客户端数据库中；

将第一输入数据流接收在所述至少一个客户端数据库中；

使用所述至少一个客户端数据库中的所述至少一组连续数据剖析工具来剖析所述第一输入数据流；

将第二输入数据流接收在所述至少一个客户端数据库中；

将所述第二输入数据流与存储在所述至少一个客户端数据库中的至少一个剖析触发器进行比较；

确定所述至少一个剖析触发器被触发；

使用所述至少一个客户端数据库中的所述至少一组连续数据剖析工具来剖析所述第二输入数据流；

基于对所述第二输入数据流的所述剖析来生成第二组经剖析的数据；以及

将所述第一组经剖析的数据和所述第二组经剖析的数据存储在至少一个客户端数据库中。

14.根据权利要求13所述的方法，其中，所述至少一组连续数据剖析工具是从连续数据剖析管理器接收的。

15.根据权利要求14所述的方法，其中，所述连续数据剖析管理器是通信地耦合到所述至少一个客户端数据库的前端软件应用程序。

16.根据权利要求13所述的方法，其中，所述至少一组连续数据剖析工具包括用于生成经剖析的数据统计表的功能。

17.根据权利要求13所述的方法，其中，所述至少一组连续数据剖析工具包括用于生成经剖析的数据改变数据存储区表的功能。

18.根据权利要求13所述的方法，其中，所述至少一组连续数据剖析工具包括用于管理所述至少一个剖析触发器的功能。

19.根据权利要求13所述的方法，其中，所述至少一个剖析触发器是以下中的至少一种：时间触发器，基于大小的触发器，和手动触发器。

20.一种非暂时性计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令在被执行时使计算机系统执行用于连续数据剖析的方法，所述方法包括：

从连续数据剖析管理器将至少一组连续数据剖析统计接收在来自API网关的至少一个客户端数据库中；

将第一输入数据流接收在所述至少一个客户端数据库中；

将第二输入数据流接收在所述至少一个客户端数据库中；

基于所述第二输入数据流与所述至少一个剖析触发器的所述比较来确定所述至少一个剖析触发器被触发；