CN117688014A

CN117688014A - 数据写入方法、装置、电子设备及存储介质

Info

Publication number: CN117688014A
Application number: CN202211105325.7A
Authority: CN
Inventors: 覃立辉
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2024-03-12
Also published as: WO2024051738A1

Abstract

本申请提供一种数据写入方法、装置、电子设备及存储介质，包括调用分布式引擎并行采集待写入数据湖的全量数据和增量数据；分别判断全量数据和增量数据中的数据标签是否为数据处理标签或数据暂存标签；若为数据处理标签，将增量数据和全量数据发送至预设数据处理模块进行处理；若为数据暂存标签且为增量数据，将增量数据暂存至数据湖中预设数据存储模块；若为数据暂存标签且为全量数据，根据全量数据获取存储模块中暂存的增量数据。本申请通过在全量数据和增量数据中加入不同的数据标签，以区分不同数据的处理状态，进而根据数据的处理状态对全量数据和增量数据进行不同的处理，保证全量数据和增量数据写入数据湖时的一致性。

Description

数据写入方法、装置、电子设备及存储介质

技术领域

本申请涉及分布式引擎领域，具体涉及一种基于数据写入方法、装置、电子设备及存储介质。

背景技术

Apache Hudi是新一代流数据湖平台，它将核心仓库和数据库功能直接引入数据湖。Hudi可以提供表、事务以及高效的数据更新插入和数据删除、高级索引、流式摄取服务、数据集群/压缩优化和并发等能力，同时对数据保持为开源文件格式。

CDC是变更数据捕获(Change Data Capture)技术的缩写，Flink CDC可以将源数据库(Source)的全量记录和增量变动记录，同步到一个或多个数据目的(Sink)中。但现有数据库新增数据表的全量记录和增量变动记录无法同时获取，也无法保证全量数据和增量数据的一致性。

发明内容

本申请旨在提供一种基于数据写入方法、装置、电子设备及存储介质，旨在解决现有技术下无法保证全量数据和增量数据写入数据湖时保持一致的问题。

第一方面，本申请实施例提供一种数据写入方法，所述方法包括：

调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，所述全量数据和所述增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；

分别以所述全量数据和所述增量数据中的数据为目标数据块，判断所述目标数据块中的数据标签是否为数据处理标签或数据暂存标签；

若所述目标数据块中的数据标签为数据处理标签，将所述目标数据块发送至预设数据处理模块进行处理；

若所述目标数据块中的数据标签为数据暂存标签且所述目标数据块为增量数据，将所述目标数据块暂存至所述数据湖中预设数据存储模块；

若所述目标数据块中的数据标签为数据暂存标签且所述目标数据块为全量数据，根据所述目标数据块获取所述数据存储模块中暂存的增量数据。

在本申请一些实施方案中，所述调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，包括：

创建增量数据采集任务，所述增量数据采集任务用于采集待写入数据湖的多个预置数据表的增量数据；

切分预置的全量数据采集任务，得到多个全量数据采集任务，所述多个全量数据采集任务用于分别采集所述多个预置数据表的全量数据；

调用分布式引擎并行执行所述增量数据采集任务和所述多个全量数据采集任务，以分别采集多个预置数据表的增量数据和全量数据。

在本申请一些实施方案中，所述方法还包括：

调用所述多个全量数据采集任务采集所述多个预置数据表的全量数据时，将采集到的全量数据加入第一数据标签，所述第一数据标签为数据处理标签或数据暂存标签；

调用所述增量数据采集任务采集所述多个预置数据表的增量数据时，将采集到的增量数据加入第二数据标签，所述第二数据标签为数据处理标签或数据暂存标签。

在本申请一些实施方案中，所述方法还包括：

以所述多个全量数据采集任务中，任意全量数据采集任务为目标全量数据采集任务；

当所述目标全量数据采集任务完成采集目标数据表中的全量数据后，生成全量数据采集完成信息，其中，所述目标数据表为所述多个预置数据表中，与所述目标全量数据采集任务对应的数据表；

按照预设周期判断是否接收到所述全量数据采集完成信息；

若接收到所述全量数据采集完成信息，则将所述增量数据采集任务中新采集到的，与所述目标数据表对应的增量数据中的第二数据标签替换为第三数据标签，所述第三数据标签为数据处理标签或数据暂存标签。

在本申请一些实施方案中，所述方法还包括：

当所述目标全量数据采集任务完成采集目标数据表中的全量数据后，生成全量数据采集记录，并在所述全量数据采集记录中加入第四数据标签，所述第四数据标签为数据处理标签或数据暂存标签。

在本申请一些实施方案中，所述全量数据采集记录中包括全量快照信息；所述若所述目标数据块中的数据标签为数据暂存标签且所述目标数据为全量数据，根据所述目标数据获取所述数据存储模块中暂存的增量数据，包括：

若所述目标数据块中的数据标签为数据暂存标签且所述目标数据块为全量数据，确定与所述目标数据块对应的目标全量数据采集记录；

解析所述目标全量数据采集记录中的全量快照信息；

根据所述全量快照信息，获取所述数据存储模块中暂存的增量数据。

在本申请一些实施方案中，所述方法还包括：

获取暂存的增量数据后，判断所述暂存的增量数据是否已经处理；

若所述暂存的增量数据未处理，则将所述暂存的增量数据发送至所述预设数据处理模块；

若所述暂存的增量数据已处理，则删除所述暂存的增量数据。

另一方面，本申请实施例还提供一种数据写入装置，所述装置包括：

数据获取模块，用于调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，所述全量数据和所述增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；

数据标签判断模块，用于分别以所述全量数据和所述增量数据中的数据为目标数据，判断所述目标数据中的数据标签是否为数据处理标签或数据暂存标签；

第一数据处理模块，用于若所述目标数据块中的数据标签为数据处理标签，将所述目标数据发送至预设数据处理模块进行处理；

第二数据处理模块，用于若所述目标数据块中的数据标签为数据暂存标签且所述目标数据为增量数据，将所述目标数据暂存至所述数据湖中预设数据存储模块；

第三数据处理模块，用于若所述目标数据块中的数据标签为数据暂存标签且所述目标数据为全量数据，根据所述目标数据获取所述数据存储模块中暂存的增量数据。

另一方面，本申请还提供一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现第一方面中任一项所述的数据写入方法。

另一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行第一方面任一项所述的数据写入方法中的步骤。

本申请提供一种数据写入方法、装置、电子设备及存储介质，包括调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，全量数据和增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；分别以全量数据和增量数据中的数据为目标数据块，判断目标数据块中的数据标签是否为数据处理标签或数据暂存标签；若目标数据块中的数据标签为数据处理标签，将目标数据发送至预设数据处理模块进行处理；若目标数据块中的数据标签为数据暂存标签且目标数据为增量数据，将目标数据暂存至数据湖中预设数据存储模块；若目标数据块中的数据标签为数据暂存标签且目标数据为全量数据，根据目标数据获取存储模块中暂存的增量数据。本申请通过在全量数据和增量数据中加入不同的数据标签，以区分不同数据的处理状态，进而根据数据的处理状态对全量数据和增量数据进行不同的处理，保证全量数据和增量数据写入数据湖时的一致性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的数据写入系统的场景示意图；

图2是本申请实施例提供的数据写入方法的一个实施例流程示意图；

图3为本申请实施例提供的获取全量数据和增量数据一实施例流程示意图；

图4为本申请实施例提供的增量数据加标签一实施例流程示意图；

图5为本申请实施例提供的分布式引擎一实施例架构示意图；

图6为本申请实施例提供的数据写入装置一实施例示意图

图7是本申请实施例中提供的电子设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

需要说明的是，本申请实施例方法由于是在电子设备中执行，各电子设备的处理对象均以数据或信息的形式存在，例如时间，实质为时间信息，可以理解的是，后续实施例中若提及尺寸、数量、位置等，均为对应的数据存在，以便电子设备进行处理，具体此处不作赘述。

本申请实施例提供一种数据写入方法、装置、电子设备及存储介质，以下分别进行详细说明。

请参阅图1，图1为本申请实施例所提供的数据写入系统的场景示意图，该数据写入系统可以包括电子设备100，电子设备100中集成有数据写入装置，如图1中的电子设备。

本申请实施例中，该电子设备100可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，例如，本申请实施例中所描述的电子设备100，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是本申请方案一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的电子设备，例如图1中仅示出1个电子设备，可以理解的，该数据写入系统还可以包括一个或多个其他服务器，具体此处不作限定。

另外，如图1所示，该数据写入系统还可以包括存储模块200，用于存储数据；如全量数据和增量数据。

需要说明的是，图1所示的数据写入系统的场景示意图仅仅是一个示例，本申请实施例描述的数据写入系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着数据写入系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

首先，本申请实施例中提供一种数据写入方法，该数据写入方法的执行主体为数据写入装置，该数据写入装置应用于电子设备，该数据写入方法包括：

调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，全量数据和增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；分别以全量数据和增量数据中的数据为目标数据，判断目标数据中的数据标签是否为数据处理标签或数据暂存标签；若目标数据块中的数据标签为数据处理标签，将目标数据发送至预设数据处理模块进行处理；若目标数据块中的数据标签为数据暂存标签且目标数据为增量数据，将目标数据暂存至数据湖中预设数据存储模块；若目标数据块中的数据标签为数据暂存标签且目标数据为全量数据，根据目标数据获取存储模块中暂存的增量数据。

参阅图2，图2是本申请实施例提供的数据写入方法的一个实施例流程示意图。如图2所示，该数据写入方法包括如下步骤：

21、调用分布式引擎并行采集待写入数据湖的全量数据和增量数据。

Flink CDC采集MySQL的数据库中的数据时，主要分为两个阶段，对应两种不同的任务。第一个阶段是采集全量数据任务，主要采集现在已经存在于MySQL数据库中的数据。第二阶段是采集增量变更数据任务，即采集增量数据任务，需要实时监控MySQL数据库变更的数据(即增量数据)。

而Flink CDC添加新数据表的过程中，需要停止增量数据采集阶段的任务，然后采集完新添加的数据表的全量数据后，再重新开始采集增量数据。因为其他数据表的增量数据是实时采集，所以若是停止增量数据采集的任务，其他数据表的数据就不能进行实时采集，这会严重影响数据的实时性。

本申请提供一种数据写入方法，不仅可以保证增量数据和全量数据并行实时采集，还保证采集到的增量数据和全量数据写入数据湖中的一致性。

具体地，首先需要调用分布式引擎并行采集待写入数据湖的全量数据和增量数据；其中全量数据可以理解为，分布式引擎在某个时段内采集到的某个数据表中的所有数据。而增量数据为分布式引擎在某个时段内，采集到的某个数据表中发生变化的所有数据；更具体的，数据表中发生变化的数据可以为新增的数据，删除的数据或更改的数据等。

同时，由于本申请实施例中对全量数据和增量数据需要进行不同的处理，因此并行采集到的全量数据和增量数据中的每个数据，均包括用于区分当前数据处理方式的数据标签。根据数据标签可以判断需要对全量数据和增量数据进行何种处理。

需要说明的是，在本申请的实施例中，仅仅是在启动分布式引擎采集全量数据和增量数据时，是先启动增量数据采集任务再启动全量数据采集任务。当全量数据采集任务和增量数据采集任务均启动后，两者之间不再存在先后启动顺序或采集数据的先后顺序。

22、分别以全量数据和增量数据中的数据为目标数据块，判断目标数据块中的数据标签是否为数据处理标签或数据暂存标签。

在本申请的实施例中，对采集到的全量数据和增量数据主要包括两种处理方式，主要是通过数据标签来判断出数据进行何种处理。因此可以以全量数据为目标数据块，判断对全量数据进行何种处理；或是以增量数据为目标数据块，判断需要对增量数据进行何种处理。而数据标签可以包括数据处理标签或数据暂存标签；即可以根据数据标签对目标数据进行处理，或是暂存。

同时，由于分布式引擎中采集到的全量数据和增量数据是，采集之后就直接发送给分布式引擎的下游，因此实际上采集到的是单个的数据块，且每个数据块中都包括有数据标签。而本申请实施例中也是分别以全量数据和增量数据中的数据为目标数据块，来判断目标数据块中的数据标签。

需要说明的是，在本申请的实施例中，需要对全量数据和增量数据均进行处理，而非仅仅对全量数据进行处理，或仅仅对增量数据进行处理。

23、若目标数据块中的数据标签为数据处理标签，将目标数据块发送至预设数据处理模块进行处理。

在本申请的实施例中，不论目标数据块是增量数据还是全量数据，只要数据标签为数据处理标签，就需要将目标数据块发送至预设的数据处理模块中进行处理。而数据处理模块可以为分布式引擎中的某个功能模块，而具体对数据进行什么处理则需要结合数据处理模块的配置信息和目标数据块本身决定；因此本申请中不做限定。

24、若目标数据块中的数据标签为数据暂存标签且目标数据块为增量数据，将目标数据块暂存至数据湖中的预设数据存储模块。

25、若目标数据块中的数据标签为数据暂存标签且目标数据块为全量数据，根据目标数据块获取数据存储模块中暂存的增量数据。

前述实施例中描述了不论目标数据块是增量数据还是全量数据，只要数据标签为数据处理标签，均对目标数据块进行处理。而若是目标数据块中的数据标签为数据暂存标签，那么对于全量数据和增量数据的处理是不同的。

具体地，若是目标数据块中的数据标签为数据暂存标签，且目标数据块为增量数据，那么需要将目标数据块(即增量数据)暂存至数据湖中的预设数据存储模块中。而若是目标数据块中的数据标签为数据暂存标签，但目标数据块为全量数据，则可以根据目标数据块获取暂存在预设数据存储模块中的增量数据。

本申请实施例提供的数据写入方法，调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，全量数据和增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；分别以全量数据和增量数据中的数据为目标数据块，判断目标数据块中的数据标签是否为数据处理标签或数据暂存标签；若目标数据块中的数据标签为数据处理标签，将目标数据发送至预设数据处理模块进行处理；若目标数据块中的数据标签为数据暂存标签且目标数据为增量数据，将目标数据暂存至数据湖中预设数据存储模块；若目标数据块中的数据标签为数据暂存标签且目标数据为全量数据，根据目标数据获取存储模块中暂存的增量数据。本申请通过在全量数据和增量数据中加入不同的数据标签，以区分不同数据的处理状态，进而根据数据的处理状态对全量数据和增量数据进行不同的处理，保证全量数据和增量数据写入数据湖时的一致性。

如图3所示，为本申请实施例提供的获取全量数据和增量数据一实施例流程示意图。在上述实施例中，调用分布式引擎并行采集待写入数据湖的全量数据和增量数据可以包括：

31、创建增量数据采集任务，增量数据采集任务用于采集待写入数据湖的多个预置数据表的增量数据。

若想要采集数据，需要调用数据采集任务来采集数据表中的数据。对于增量数据的采集来说，首先需要创建增量数据采集任务，才能调用增量数据采集任务采集待写入数据湖的多个预置数据表的增量数据。

在一个具体实施例中，当分布式引擎启动后，可以在分布式引擎中的分片枚举器(Enumerator)中创建增量数据采集任务(BinlogSplit)，并将增量数据采集任务放在分布式引擎的任务列表中的第一个，以保证增量数据采集任务第一个被执行以采集增量数据。其中，分布式引擎的任务列表包含了待执行的多个任务，哪个任务处于首位，哪个任务就可以首先被执行。而由于增量数据是数据表中发生变化的数据，因此需要保证增量数据采集任务第一个被执行，保证增量数据采集任务可以采集到多个预置的数据表中所有的变化数据。

需要说明的是，在上述实施例中，需要将任务列表中处于首位的增量数据采集任务，分配给分布式引擎中的源码分析模块(SourceRead)中执行，以采集增量数据。

32、切分预置的全量数据采集任务，得到多个全量数据采集任务，多个全量数据采集任务用于分别采集多个预置数据表的全量数据。

33、调用分布式引擎并行执行增量数据采集任务和多个全量数据采集任务，以分别采集多个预置数据表的增量数据和全量数据。

对于全量数据采集来说，分布式引擎中原本就包括全量数据采集的任务，但由于数据表有多个，因此需要利用分片枚举器将分布式引擎中的预置的全量数据采集任务进行拆分，得到多个全量数据采集任务(SnapshotSplit)。同时将多个全量数据采集任务分配给源码分析模块中执行，以分别采集多个预置数据表各自对应的全量数据。

需要说明的是，在本申请的实施例中，增量数据采集任务通常为一个，可以采集所有数据表对应的增量数据。而全量数据采集任务有多个，分别采集不同数据表各自对应的全量数据；一个全量数据采集任务对应一个数据表。当然在其他实施例中，也可以同时利用多个全量数据采集任务采集同一个数据表中的全量数据。具体为：将数据表切分为多个不同的区域，以利用多个全量数据采集任务采集不同区域中的全量数据。这样可以有效提高采集全量数据的效率。

且在本申请的实施例中，全量数据采集任务和增量数据采集任务，实际上都是利用分布式引擎中的源码分析模块来执行；即调用分布式引擎并行执行增量数据采集任务和多个全量数据采集任务，实际上是调用分布式引擎中的远吗分词模块并行执行增量数据采集任务和多个全量数据采集任务。

34、调用多个全量数据采集任务采集多个预置数据表的全量数据时，将采集到的全量数据加入第一数据标签。

35、调用增量数据采集任务采集多个预置数据表的增量数据时，将采集到的增量数据加入第二数据标签。

在本申请的实施例中，不仅需要采集增量数据和全量数据，还需要在采集的同时，分别给全量数据和增量数据加入不同的数据标签；以在后续利用数据标签判断对数据进行何种处理。其中，第一数据标签和第二数据标签均为数据处理标签，或数据暂存标签。

具体地，在调用全量数据采集任务采集全量数据时，可以将采集到的全量数据加入第一数据标签；如加入“'SNAPSHOT”这个第一数据标签。

在调用增量数据采集任务采集增量数据时，可以在采集到的增量数据中加入第二数据标签；如加入“STATE_BINLOG”这个第二数据标签。

在上述实施例中，源码分析模块(SourceRead)执行采集数据采集任务采集到全量数据或增量数据的同时，就会在增量数据和全量数据中加入对应的数据标签。

在上述实施例中描述了在采集全量数据和增量数据的同时，就分别在全量数据和增量数据中加入对应的数据标签。但在数据采集完成之后，还需要对全量数据或增量数据进行其他处理。具体地，如图4所示，为本申请实施例提供的增量数据加标签一实施例流程示意图，可以包括：

41、以多个全量数据采集任务中，任意一个全量数据采集任务为目标全量数据采集任务。

42、当目标全量数据采集任务采集目标数据表中的所有全量数据后，生成全量数据采集完成信息。

43、按照预设周期判断是否接收到全量数据采集完成信息。

44、若接收到全量数据采集完成信息，则将增量数据采集任务中新采集到的，与目标数据表对应的增量数据中的第二数据标签替换为第三数据标签。

具体地，由于一个全量数据采集任务采集一个数据表的全量数据，因此可以以多个全量数据采集任务中，任意一个全量数据采集任务为目标全量数据采集任务；再判断目标全量数据采集任务是否采集与之对应的目标数据表中的所有全量数据。

而目标全量数据采集任务采集目标数据表对应的所有全量数据后，源码分析模块会生成全量数据采集完成信息(split信息)，并将全量数据采集完成信息反馈给分片枚举器。同时，增量数据采集任务会按照预设周期来周期性发送信号至分片枚举器，判断是否接收到全量数据采集完成信息，即判断是否已经有全量数据采集完成的目标数据表。而若是增量数据采集任务接收到全量数据采集完成信息，分片枚举器将会将目标数据表对应的数据表标识(或者说数据表ID)反馈给增量数据采集任务；而在增量数据采集任务获取到数据表标识后，将会在新采集到的增量数据中进一步确定与目标数据表对应的部分增量数据，并将这部分增量数据中的第二数据标签替换为第三数据标签。

在一个具体实施例中，第三数据标签可以为“'BINLOG”；当增量数据采集任务接收到目标数据表对应的数据标识后，增量数据采集任务仍在正常采集增量数据。而此时采集到的增量数据中包括第二数据标签“STATE_BINLOG”；但若此时新采集到的增量数据中存在来自目标数据表的增量数据，则需要将这部分增量数据中原本的第二数据标签“STATE_BINLOG”替换为第三数据标签“BINLOG”。

需要说明的是，在本申请的实施例中，当增量数据采集任务启动时，采集到的增量数据均需要加入第二数据标签；此时不论是哪个数据表对应的增量数据，增量数据中均为第二数据标签。但当增量数据采集任务接收到某个数据表对应的数据表标识后，则会在后续采集到与来自该数据表的增量数据时，将原本增量数据中的第二数据标签，替换为第三数据标签；以区分不同数据采集时段或者说不同全量数据对应的不同增量数据。具体地，第二数据标签代表采集到的增量数据为：获取到某个数据表对应的数据表标识之前采集到的增量数据；而第三数据标签代表采集到的增量数据为：获取到某个数据表对应的数据表标识之后采集后的增量数据。

在上述实施例中，目标全量数据采集任务完成采集目标数据表中的全量数据后，不仅需要将新采集到的与目标数据表对应的部分增量数据中的第二数据标签替换为第三数据标签；还会额外生成一个全量数据采集记录。同时需要将全量数据采集记录打包发送至分布式引擎中的下游。

而在生成全量数据采集记录后，还需要在全量数据采集记录中加入第四数据标签；而第四数据标签为数据处理标签或数据暂存标签。在一个具体实施例中，在生成了全量数据采集记录后，可以在全量数据采集记录中加入“TABLE_FINISHED”的第四数据标签。

在上述实施例中，第一数据标签、第二数据标签和第三数据标签是全量数据或增量数据对应的数据标签；而第四数据标签为全量数据采集记录对应的第四数据标签。且在本申请的实施例中，数据处理标签可以同时包括多种不同的数据标签；而数据暂存标签也可以同时包括多种不同的数据标签。并非全量数据(或增量数据)中的数据标签为数据处理标签，而是说全量数据(或增量数据)中的数据标签，为数据处理标签中的一种。根据全量数据(或增量数据)中的数据标签可以确定是对数据进行处理还是暂存。

在本申请的实施例中，全量数据和增量数据中可以包括前述第一数据标签、第二数据标签、第三数据标签，可以根据不同的数据标签对增量数据和全量数据进行不同的处理。例如，当分布式引擎中的下游处理全量数据和增量数据时，若是目标数据块中的数据标签为数据处理标签，则直接将目标数据块发往下游中预设的数据处理模块进行处理。

在一个具体实施例中，数据处理标签可以为本申请实施例中的第一数据标签或第三数据标签；即若数据处理标签为第一数据标签或第三数据标签，则直接将数据块发送至数据处理模块进行处理。更具体地，若是检测到数据块中包括第一数据标签“SNAPSHOT”，或包括第三数据标签“BINLOG”，则可直接将数据块直接发送至数据处理模块进行处理。

而若是数据标签为数据暂存标签，则全量数据和增量数据的处理方法不同。在本申请的实施例，若是数据标签为数据暂存标签，且目标数据块为增量数据，那么可以将增量数据暂存至预设的数据存储模块中。

在一个具体实施例中，若是目标数据块为增量数据，且增量数据中带有第二数据标签“STATE_BINLOG”；那么可以将带有第二数据标签的数据暂存至数据存储模块中，而不是发往下游的数据处理模块进行处理。

而对于数据标签为数据暂存标签，且目标数据块为全量数据的情况来说：在本申请的实施例中，由于某个数据表对应的全量数据采集完毕之后，会生成全量数据采集记录，并在全量数据采集记录中加入第四数据标签；因此若检测到第四数据标签，则说明存在全量数据被采集完毕的数据表。

本申请实施例中的全量数据采集记录中不仅包括第四数据标签，还包括全量数据快照信息；而本申请实施例中判断目标数据块中的数据标签为数据暂存标签，且目标数据块为全量数据，进而根据目标数据块获取数据存储模块中暂存的增量数据。实际上是首先确定与目标数据块对应的目标全量数据采集记录，再解析出目标全量数据采集记录中的全量快照信息；进而根据全量快照信息获取数据存储模块中暂存的增量数据。

在一个具体实施例中，若是在数据广播流中存在全量数据采集记录，且全量数据采集记录中包括第四数据标签“TABLE_FINISH”，那么可以获取暂存在数据存储模块中的包括第二数据标签“STATE_BINLOG”的增量数据。

在上述实施例中，获取暂存的增量数据后，还需要进一步判断暂存的增量数据是否已经处理，若是暂存的增量数据未已处理，则删除暂存的增量数据；而若是未处理，则将暂存的增量数据发送给数据处理模块进行处理。

在本申请的实施例中，采集到的全量数据和增量数据在不同的数据流中发送至，分布式引擎中的下游如卡夫卡分布式存储中。而在发送时可能会存在数据重复和数据发送顺序冲突的问题；本申请中给不同情况下获取的不同的数据加入不同的数据标签，可以有效解决这个问题。

具体地，对于刚开始采集到的全量数据和增量数据来说，全量数据中加入“SNAPSHOT”标签，后续若识别到带有“SNAPSHOT”标签的全量数据，则可以将全量数据发往分布式引擎中的下游进行处理。而采集到的增量数据中则需要加入“STATE_BINLOG”标签，后续若识别到带有“STATE_BINLOG”标签的增量数据，则需要将这些增量数据暂存。

其次，当某个数据表的全量数据采集完毕后，生成了全量数据采集记录，并在全量数据采集记录中加入“TABLE_FINISHED”标签，此时可以根据“TABLE_FINISHED”标签获取暂存的包括“STATE_BINLOG”标签的增量数据。并判断这些暂存的增量数据是否已经处理；若已经处理则清理掉，若未处理则发送至下游继续处理；实现对包括“STATE_BINLOG”标签的增量数据的选择性下发。

同时，若是全量数据采集完成的数据表产生了新的增量数据，那么新的增量数据中的数据标签从“STATE_BINLOG”替换为“BINLOG”；也利用不同的数据标签实现了对增量数据的区分。且若是在后续遇到包括“BINLOG”标签的增量数据，则直接发往下游处理，而不进行暂存。

在上述实施例中，带有“SNAPSHOT”标签的全量数据发往下游时，带有“STATE_BINLOG”标签的增量数据暂存处理。而在某个数据表的全量数据采集完毕后，将新采集到的增量数据中的数据标签从“STATE_BINLOG”替换为“BINLOG”，并将新采集到的增量数据直接发往下游。同时对暂存的包括“STATE_BINLOG”标签的增量数据选择性的下发至下游。利用本申请中的输入写入方法可以有效避免全量数据和增量数据发往下游时的重复和乱序问题。

如图5所示，为本申请实施例提供的分布式引擎一实施例架构示意图。在图5中，任务管理器主程序(Job Manager)包括分片枚举器(Enumerator)，而分片枚举器中的分配记录分片的单元(Split Assigner)会调用全量数据采集任务和增量数据采集任务并行采集全量数据和增量数据。具体地，会调用不同的任务管理器(Task Manager)，而不同的任务管理器中分别存储有全量数据采集任务和增量数据采集任务。对于全量数据来说，多个不同的全量数据采集任务采集不同数据表的全量数据，且需要在采集到的全量数据中加入数据标签“SNAPSHOT”。

而对于增量数据采集任务来说，增量数据采集任务采集到的增量数据中需要加入“STATE_BINLOG”的数据标签。同时，在某个目标数据表的全量数据采集完毕后，需要将后续采集到的目标数据表对应的增量数据中的“STATE_BINLOG”替换为“BINLOG”。当某个目标数据表的全量数据采集完毕后，还需要生成全量数据采集记录，并在全量数据采集记录中加入“TABLE_FINISHED”标签。

在上述实施例中，通过对全量数据和增量数据中加入不同的数据标签可以进行区分，同时采集到的带有不同数据标签的全量数据和增量数据，需要发送至分布式引擎中的数据处理模块进行处理。具体地，在将采集到的数据发往数据处理模块进行处理之前，对利用分布式引擎中的keyby算子对数据进行一次keyby操作，而keyby的值为“DB.TABLE.ID”；这是为了保证同一个ID的数据(或者说同一个数据表对应的数据)可以发往同一个进程中处理。同时不论是全量数据还是增量数据，只要数据中包括“SNAPSHOT”或“BINLOG”就发送至数据处理模块(processfunction)进行处理。而若是遇到带有“STATE_BINLOG”的增量数据，则需要将增量数据暂存至数据存储模块(state)中；在后续遇到包括“TABLE_FINISHED”标签的全量数据采集记录后，再将暂存的增量数据取出并发往数据处理模块进行处理。

在图5所示的实施例中，实际上是利用任务管理器主程序(Job Manager)中来判断是否可以下发暂存的增量数据；在任务管理器主程序中体现为：binloggtid＞＝snapshothwgtid？

本申请实施例还提供一种数据写入装置，如图6所示，为本申请实施例提供的数据写入装置一实施例示意图，可以包括：

数据获取模块601，用于调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，全量数据和增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签。

数据标签判断模块602，用于分别以全量数据和增量数据中的数据为目标数据，判断目标数据中的数据标签是否为数据处理标签或数据暂存标签。

第一数据处理模块603，用于若目标数据块中的数据标签为数据处理标签，将目标数据发送至预设数据处理模块进行处理。

第二数据处理模块604，用于若目标数据块中的数据标签为数据暂存标签且目标数据为增量数据，将目标数据暂存至数据湖中预设数据存储模块。

第三数据处理模块606，用于若目标数据块中的数据标签为数据暂存标签且目标数据为全量数据，根据目标数据获取数据存储模块中暂存的增量数据。

本申请实施例提供的数据写入装置，首先调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，全量数据和增量数据中每个数据中均包括用于区分当前数据处理方式的数据标签；分别以全量数据和增量数据中的数据为目标数据块，判断目标数据块中的数据标签是否为数据处理标签或数据暂存标签；若目标数据块中的数据标签为数据处理标签，将目标数据发送至预设数据处理模块进行处理；若目标数据块中的数据标签为数据暂存标签且目标数据为增量数据，将目标数据暂存至数据湖中预设数据存储模块；若目标数据块中的数据标签为数据暂存标签且目标数据为全量数据，根据目标数据获取存储模块中暂存的增量数据。本申请通过在全量数据和增量数据中加入不同的数据标签，以区分不同数据的处理状态，进而根据数据的处理状态对全量数据和增量数据进行不同的处理，保证全量数据和增量数据写入数据湖时的一致性。

在本申请的实施例中，数据获取模块601还可用于：创建增量数据采集任务，增量数据采集任务用于采集待写入数据湖的多个预置数据表的增量数据；

切分预置的全量数据采集任务，得到多个全量数据采集任务，多个全量数据采集任务用于分别采集多个预置数据表的全量数据；

调用分布式引擎并行执行增量数据采集任务和多个全量数据采集任务，以分别采集多个预置数据表的增量数据和全量数据。

在本申请的实施例中，全量数据采集记录中包括全量快照信息，第三数据处理模块606还可以用于：

若目标数据块中的数据标签为数据暂存标签且目标数据块为全量数据，确定与目标数据块对应的目标全量数据采集记录；

解析目标全量数据采集记录中的全量快照信息；

根据全量快照信息，获取数据存储模块中暂存的增量数据。

本申请实施例还提供一种电子设备，其集成了本申请实施例所提供的任一种数据写入装置。如图7所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该电子设备的控制中心，调用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

电子设备还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

分别以全量数据和增量数据中的数据为目标数据块，判断目标数据块中的数据标签是否为数据处理标签或数据暂存标签；

若目标数据块中的数据标签为数据处理标签，将目标数据块发送至预设数据处理模块进行处理；

若目标数据块中的数据标签为数据暂存标签且目标数据块为增量数据，将目标数据块暂存至数据湖中预设数据存储模块；

若目标数据块中的数据标签为数据暂存标签且目标数据块为全量数据，根据目标数据块获取数据存储模块中暂存的增量数据。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。其上存储有计算机程序，计算机程序被处理器进行加载，以执行本申请实施例所提供的任一种数据写入方法中的步骤。例如，计算机程序被处理器进行加载可以执行如下步骤：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种数据写入方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据写入方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据写入方法，其特征在于，所述调用分布式引擎并行采集待写入数据湖的全量数据和增量数据，包括：

3.根据权利要求2所述的数据写入方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的数据写入方法，其特征在于，所述方法还包括：

按照预设周期判断是否接收到所述全量数据采集完成信息；

5.根据权利要求3所述的数据写入方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的数据写入方法，其特征在于，所述全量数据采集记录中包括全量快照信息；所述若所述目标数据块中的数据标签为数据暂存标签且所述目标数据为全量数据，根据所述目标数据获取所述数据存储模块中暂存的增量数据，包括：

解析所述目标全量数据采集记录中的全量快照信息；

7.根据权利要求1所述的数据写入方法，其特征在于，所述方法还包括：

8.一种数据写入装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；以及

一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7任一项所述的数据写入方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7任一项所述的数据写入方法中的步骤。