CN115510144A

CN115510144A - 一种用于数据库实时变化数据抓取的方法及系统

Info

Publication number: CN115510144A
Application number: CN202211462125.7A
Authority: CN
Inventors: 简勇华
Original assignee: Beijing Deepexi Technology Co Ltd
Current assignee: Beijing Deepexi Technology Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2022-12-23
Anticipated expiration: 2042-11-17
Also published as: CN115510144B

Abstract

本发明提供一种用于数据库实时变化数据抓取的方法及系统，其中方法包括：基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集；提取数据变更集中的删除文件；基于删除文件，生成实时变化数据。本发明的用于数据库实时变化数据抓取的方法，实现了企业级数据湖秒级变化数据抓取特性，真正做到了实时和准实时，便于对风险的监控以及数据的溯源。

Description

一种用于数据库实时变化数据抓取的方法及系统

技术领域

本发明涉及数据湖技术领域，特别涉及一种用于数据库实时变化数据抓取的方法及系统。

背景技术

数据湖概念的诞生，源自企业面临的一些挑战，如数据应该以何种方式处理和存储。

最开始的时候，每个应用程序会产生、存储大量数据，而这些数据并不能被其他应用程序使用，这种状况导致数据孤岛的产生。随后数据集市应运而生，应用程序产生的数据存储在一个集中式的数据仓库中，可根据需要导出相关数据传输给企业内需要该数据的部门或个人。

然而数据集市只解决了部分问题。剩余问题，包括数据管理、数据所有权与访问控制等都亟须解决，因为企业寻求获得更高的使用有效数据的能力。

为了解决前面提及的各种问题，企业有很强烈的诉求搭建自己的数据湖，数据湖不但能存储传统类型数据，也能存储任意其他类型数据，并且能在它们之上做进一步的处理与分析，产生最终输出供各类程序消费。

数据湖是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。

数据湖从企业的多个数据源获取原始数据，并且针对不同的目的，同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此，数据湖中被处理的数据可能是任意类型的信息，从结构化数据到完全非结构化数据。

因此对数据湖中数据是否进行修改等变化信息的抓取尤为重要，能够保证数据修改的可溯性，提高了数据使用的安全性。

发明内容

本发明目的之一在于提供了一种用于数据库实时变化数据抓取的方法，实现了企业级数据湖秒级变化数据抓取特性，真正做到了实时和准实时，便于对风险的监控以及数据的溯源。

本发明实施例提供的一种用于数据库实时变化数据抓取的方法，包括：

基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集；

提取数据变更集中的删除文件；

基于删除文件，生成实时变化数据。

优选的，快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照。

其中，快照包括：若干个分区级元数据记录。

分区级元数据记录对应一个分区级元数据文件，分区级元数据文件由分区级元数据文件内的文件级元数据记录的统计结果生成。

一个文件级元数据记录对应一个底层的数据文件。

优选的，基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，包括：

将当前监控时间间隔内的快照与上一个快照进行比对，确定两者的差集；

基于差集，生成数据变更数据集；

或，

获取当前监控时间间隔内的快照的第一标识；

获取当前监控时间间隔内的快照的元数据文件或数据文件的第二标识；

提取第二标识与第一标识相同的元数据文件或数据文件，生成数据变更数据集。

优选的，在快照提交时，为其配置唯一的第一标识；

在生成元数据文件或数据文件时，当快照对应的提交的源文件在原位置已存在时，提取源文件对应关联的第三标识，作为元数据文件或数据文件的第二标识；

当快照对应的提交的源文件在原位置未存在时，将第一标识配置与源文件关联，并将第一标识作为元数据文件或数据文件的第二标识。

优选的，基于删除文件，生成实时变化数据，包括：

确定数据变更数据集中是否存在删除文件对应的数据文件；

当存在时，将删除文件与数据文件进行合并，获取实时变化数据；

当不存在时，基于删除文件中的记录提取源数据文件并提取源数据文件中的数据构造实时变化数据。

优选的，用于数据库实时变化数据抓取的方法，还包括：

基于实时变化数据，确定变化前后的源数据；

基于预设的量化模板对变化前后的源数据进行量化，获取第一量化值和第二量化值；

基于第一量化值和第二量化值，构建风险评估向量；

获取预设的风险评估库；

基于预设的风险评估库和风险评估向量，确定风险值；

确定变化前后的源数据位于数据库内的位置，并确定位置对应的预设的安全系数；

基于预设的安全系数与风险系数对照表和安全系数，确定风险系数；

基于风险系数和风险值，确定威胁值；

当威胁值大于预设的威胁阈值时，输出报警信息。

本发明还提供一种用于数据库实时变化数据抓取的系统，包括：

确定模块，用于基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集；

提取模块，用于提取数据变更集中的删除文件；

生成模块，用于基于删除文件，生成实时变化数据。

优选的，快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照。

其中，快照包括：若干个分区级元数据记录。

一个文件级元数据记录对应一个底层的数据文件。

优选的，确定模块基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，执行如下操作：

基于差集，生成数据变更数据集；

或，

获取当前监控时间间隔内的快照的第一标识；

优选的，在快照提交时，为其配置唯一的第一标识；

本发明具有如下有益效果：

1）实现了PB级别数据体量下的变化数据抓取。

2）实现了企业级数据湖秒级变化数据抓取特性，真正做到了实时和准实时。

3）实现了针对新增，删除，更新等所有类型的数据变更操作的捕获抓取。

4）实现了变化数据抓取过程基本不对库表原有的读写流程造成额外性能损耗。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于数据库实时变化数据抓取的方法的示意图；

图2为本发明实施例中基于快照的数据提取方式的示意图；

图3为本发明实施例中一种基于监控时间间隔对快照进行监控的示意图；

图4为本发明实施例中又一种基于监控时间间隔对快照进行监控的示意图；

图5为本发明实施例中再一种基于监控时间间隔对快照进行监控的示意图；

图6为本发明实施例中再一种基于监控时间间隔对快照进行监控的示意图；

图7为本发明实施例中一种用于数据库实时变化数据抓取的系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种用于数据库实时变化数据抓取的方法，如图1所示，包括：

步骤S1：基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集；

步骤S2：提取数据变更集中的删除文件；

步骤S3：基于删除文件，生成实时变化数据。

上述技术方案的工作原理及有益效果为：

如图3所示，在t0时刻开启实时变化数据抓取功能，在第一个监控间隔1内生成了快照1，因此需要解析快照1并获取实时变化数据；在第二个监控间隔2内没有生成快照，因此跳过此次监控；在第三个监控间隔3内生成了快照2和快照3，因此需要解析快照2和快照3并获取实时变化数据。如图4，在t0时刻开启实时变化数据抓取功能，在第一个监控间隔1内生成了快照1，在第二个监控间隔2内生成可快照2，在第三个监控间隔3内生成了快照3；分别分析快照1、快照2和快照3；通过解析快照，确定数据变更数据集，然后根据数据变更数据集中的删除文件，获取实时变化数据，实现了企业级数据湖秒级变化数据抓取特性，真正做到了实时和准实时，便于对风险的监控以及数据的溯源。

在一个实施例中，快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照。如图2所示，进行建表操作后，生成一张带表结构信息，表分区信息，表属性字段等元数据的初始快照；在进行一批次数据写入并提交后生成该表的第一张快照，进行第二批次数据写入并提交后生成该表的第二张快照…基于快照的提交是进行多层剪枝检索的基础存储方法。

其中，快照包括：若干个分区级元数据记录。快照包含若干个分区级元数据记录：将相近分区的元数据组织在同一个分区级元数据中（该元数据包括几个相邻分区），并记录分区列的min, max, null值。

分区级元数据记录对应一个分区级元数据文件，分区级元数据文件由分区级元数据文件内的文件级元数据记录的统计结果生成。文件级元数据记录包含实际生成数据文件的相关统计信息，包括表中各非分区列在某个数据文件中的min, max, null值等。

一个文件级元数据记录对应一个底层的数据文件。

在一个实施例中，基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，包括：

基于差集，生成数据变更数据集；

或，

获取当前监控时间间隔内的快照的第一标识；

上述技术方案的工作原理及有益效果为：

如图4所示，在t0-t1时间间隔内生成了快照1，快照1由元数据文件1组成，元数据文件1由数据文件1和2组成；在t1-t2时间间隔内生成了快照2，快照2由元数据文件1和2组成，元数据文件1由数据文件1和2组成，元数据文件2由数据文件3和4组成；如何生成t1-t2时间段内的实时变化数据集，也就是图中虚线框出的部分，可以使用两种方法：第一种：每一次新监控间隔内保留上一次监控间隔内的旧快照信息（如果上一次监控间隔内无快照生成则依次前推），基于新旧快照的对比，做新快照与旧快照的差集，生成实时变更数据集。第二种：对每一个提交快照生成一个唯一的UUID标志（即第一标识），并将在此次快照中生成的元数据文件以及数据文件均打上UUID标识，在新生成快照中只要过滤出符合当前UUID的元数据文件以及数据文件即可构造得到实时变更数据集。

为了实现基于第一标识和第二标识实现实时变更数据集的构造，在一个实施例中，在快照提交时，为其配置唯一的第一标识；

在生成元数据文件或数据文件时，当快照对应的提交的源文件在原位置已存在时（即本次快照对应的源文件的操作与前面的快照的操作重复），提取源文件对应关联的第三标识，作为元数据文件或数据文件的第二标识；

当快照对应的提交的源文件在原位置未存在时（即源文件首次存储、修改、删除时），将第一标识配置与源文件关联，并将第一标识作为元数据文件或数据文件的第二标识。

在一个实施例中，基于删除文件，生成实时变化数据，包括：

确定数据变更数据集中是否存在删除文件对应的数据文件；

上述技术方案的工作原理及有益效果为：

构造对应的变更数据集扫描任务，每个任务中包含一个数据文件以及一组删除文件；对于仅删除文件，如果该文件为位置删除文件，则数据文件为其对应的非变更数据集内源数据文件，如果该文件为值删除文件，则数据文件为空，同时我们对该任务进行仅删除文件标识；生成的变更数据集包含两种文件类型：数据文件和删除文件。删除文件用于标记数据文件中已被删除的那部分行数据，因此需要对两种类型的文件进行合并：

如图5所示：虚线所框部分为快照2相对于快照1的变更数据集，其包含两个文件：数据文件3和删除文件4，删除文件4包含数据文件3内的部分行数据的删除记录，因此需要进行两个文件的合并操作，可以使用两种方式进行文件合并：在删除文件中记录要删除数据文件内行的位置，即数据文件名+文件内行号，然后通过位置进行合并。在删除文件中记录要删除数据文件内行的列值，通过列值匹配方式进行合并。在删除文件类型为列值删除文件时，通过在每个文件中记录序列号的方式区分，序列号单调递增，如果一个数据文件存在序列号大于其自身序列号的删除文件，则将该删除文件映射到此数据文件。

如图6所示，考虑一种特殊情况，即变更数据集内无对应数据文件的删除文件；虚线所框部分为快照2相对于快照1的变更数据集，其包含两个文件：数据文件3和删除文件4，删除文件4包含数据文件1内的部分行数据的删除记录，而数据文件1不在此次的变更数据集范围内，因此需要单独解析该删除文件，进行实时删除数据的生成，删除数据生成有两种方式：在删除文件中记录要删除数据文件内行的位置，即数据文件名+文件内行号时，我们找到源数据文件1，读取相应位置行数据并构造实时删除数据；在删除文件中记录要删除数据文件内行的列值时，我们直接读取该列值并构造实时删除数据。

在一个实施例中，用于数据库实时变化数据抓取的方法，还包括：

基于实时变化数据，确定变化前后的源数据；

基于第一量化值和第二量化值，构建风险评估向量；

获取预设的风险评估库；

基于预设的风险评估库和风险评估向量，确定风险值；

基于风险系数和风险值，确定威胁值；

当威胁值大于预设的威胁阈值时，输出报警信息。

上述技术方案的工作原理及有益效果为：

通过对变化前后的源数据进行量化并通过风险评估库评估风险值，经由风险系数，确定出威胁值，进行威胁监控，以便发现危险的数据库的数据操作，提高了数据库的安全性；其中，本实施例的监控方法主要应用在对源数据的修改的情景时，通过对修改前后的源数据的差异，进行风险评估；应用的量化模板为预先设置，将源数据转变为可直接计算的量化值；在构建风险评估向量时，将第一量化值和第二量化值进行顺序排列即可；在风险评估库中标准风险评估向量与风险值一一对应关联；因此基于预设的风险评估库和风险评估向量，确定风险值，就是通过余弦相似度计算法计算风险评估向量与标准风险评估向量的相似度，提取风险评估库中相似度最大的标准风险评估向量对应关联的风险值；通过源数据存储的位置对应配置的安全系数，查询风险系数对照表，确定风险系数，风险系数与风险值的积作为数据变化的威胁值；当实时变化数据存在多个数据时，分别计算每个数据的威胁值，实现变化数据的监控，提高了数据安全性。其中，安全系数越高，则风险系数越低；安全系数越低，则风险系数越高；安全系数为人员手动配置。

本发明还提供一种用于数据库实时变化数据抓取的系统，如图7所示，包括：

确定模块11，用于基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集；

提取模块12，用于提取数据变更集中的删除文件；

生成模块13，用于基于删除文件，生成实时变化数据。

在一个实施例中，快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照。

其中，快照包括：若干个分区级元数据记录。

一个文件级元数据记录对应一个底层的数据文件。

在一个实施例中，确定模块11基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，执行如下操作：

基于差集，生成数据变更数据集；

或，

获取当前监控时间间隔内的快照的第一标识；

在一个实施例中，在快照提交时，为其配置唯一的第一标识；

在一个实施例中，生成模块13基于删除文件，生成实时变化数据，执行如下操作：

确定数据变更数据集中是否存在删除文件对应的数据文件；

在一个实施例中，用于数据库实时变化数据抓取的系统，还包括：监控模块；

监控模块执行如下操作：

基于实时变化数据，确定变化前后的源数据；

基于第一量化值和第二量化值，构建风险评估向量；

获取预设的风险评估库；

基于预设的风险评估库和风险评估向量，确定风险值；

基于风险系数和风险值，确定威胁值；

当威胁值大于预设的威胁阈值时，输出报警信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于数据库实时变化数据抓取的方法，其特征在于，包括：

提取数据变更集中的删除文件；

基于所述删除文件，生成实时变化数据。

2.如权利要求1所述的用于数据库实时变化数据抓取的方法，其特征在于，所述快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照；

其中，所述快照包括：若干个分区级元数据记录；

所述分区级元数据记录对应一个分区级元数据文件，所述分区级元数据文件由所述分区级元数据文件内的文件级元数据记录的统计结果生成；

一个所述文件级元数据记录对应一个底层的数据文件。

3.如权利要求1所述的用于数据库实时变化数据抓取的方法，其特征在于，所述基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，包括：

基于所述差集，生成所述数据变更数据集；

或，

获取当前监控时间间隔内的所述快照的第一标识；

获取当前监控时间间隔内的所述快照的元数据文件或数据文件的第二标识；

提取所述第二标识与所述第一标识相同的所述元数据文件或数据文件，生成所述数据变更数据集。

4.如权利要求3所述的用于数据库实时变化数据抓取的方法，其特征在于，在快照提交时，为其配置唯一的所述第一标识；

在生成元数据文件或数据文件时，当快照对应的提交的源文件在原位置已存在时，提取源文件对应关联的第三标识，作为所述元数据文件或数据文件的第二标识；

当快照对应的提交的源文件在原位置未存在时，将所述第一标识配置与所述源文件关联，并将所述第一标识作为所述元数据文件或数据文件的第二标识。

5.如权利要求3所述的用于数据库实时变化数据抓取的方法，其特征在于，所述基于所述删除文件，生成实时变化数据，包括：

确定所述数据变更数据集中是否存在所述删除文件对应的数据文件；

当存在时，将所述删除文件与所述数据文件进行合并，获取实时变化数据；

当不存在时，基于所述删除文件中的记录提取源数据文件并提取所述源数据文件中的数据构造实时变化数据。

6.如权利要求1所述的用于数据库实时变化数据抓取的方法，其特征在于，还包括：

基于所述实时变化数据，确定变化前后的源数据；

基于所述第一量化值和所述第二量化值，构建风险评估向量；

获取预设的风险评估库；

基于预设的风险评估库和所述风险评估向量，确定风险值；

确定变化前后的源数据位于数据库内的位置，并确定所述位置对应的预设的安全系数；

基于预设的安全系数与风险系数对照表和所述安全系数，确定风险系数；

基于所述风险系数和所述风险值，确定威胁值；

当所述威胁值大于预设的威胁阈值时，输出报警信息。

7.一种用于数据库实时变化数据抓取的系统，其特征在于，包括：

提取模块，用于提取数据变更集中的删除文件；

生成模块，用于基于所述删除文件，生成实时变化数据。

8.如权利要求7所述的用于数据库实时变化数据抓取的系统，其特征在于，所述快照通过如下步骤构建：

进行建表操作后，生成初始快照；

在每进行一批次数据写入并提交后生成一张快照；

其中，所述快照包括：若干个分区级元数据记录；

一个所述文件级元数据记录对应一个底层的数据文件。

9.如权利要求7所述的用于数据库实时变化数据抓取的系统，其特征在于，所述确定模块基于当前监控时间间隔内的快照与历史监控时间间隔内的快照，确定数据变更数据集，执行如下操作：

基于所述差集，生成所述数据变更数据集；

或，

获取当前监控时间间隔内的所述快照的第一标识；

10.如权利要求9所述的用于数据库实时变化数据抓取的系统，其特征在于，在快照提交时，为其配置唯一的所述第一标识；