CN117331956A

CN117331956A - 任务处理方法、装置、计算机设备及存储介质

Info

Publication number: CN117331956A
Application number: CN202311375933.4A
Authority: CN
Inventors: 易晓博
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-01-02

Abstract

本申请属于大数据领域与金融科技领域，涉及一种任务处理方法，包括：接收并发写入任务；从分区数据表的元数据信息确定出与并发写入任务匹配的第一分区分桶编号；基于元数据信息获取与第一分区分桶编号对应的第一分段锁状态值；若第一分段锁状态值均为无锁状态，将元数据信息中的第一分段锁状态设置为已锁状态，并执行并发写入任务直至完毕，将第一分段锁状态值恢复为无锁状态；若第一分段锁状态值中包括已锁状态，则在检测出并发写入任务符合任务重试条件后再执行。本申请还提供一种任务处理装置、计算机设备及存储介质。此外，本申请的分区数据表可存储于区块链中。通过本申请有效地避免了分区数据表中的数据湖文件出现并发写入冲突的问题。

Description

任务处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据技术领域与金融科技领域，尤其涉及任务处理方法、装置、计算机设备及存储介质。

背景技术

随着大数据领域的不断发展，数据湖技术在大数据领域的发展逐渐兴起，使得数据湖技术在金融科技企业，例如保险企业、银行中的应用越来越广泛。目前，数据湖的组件技术也在不断迭代，从Apache Hive逐渐发展至今日的Apache Hudi、Apache Iceberg等，用户对数据的要求也在不断变高，业务数据的时效从原来的T+1的要求逐步提高到实时或者准实时，这给保存基础数据的数据湖来说带来了更大的挑战，即同步源端数据的时效要求接近实时。

在数据湖朝着数据实时化的方向发展演进的过程中，数据湖文件的并发写入冲突成为业界普遍存在的问题，其问题背景如下：数据湖以实时技术从数据源端同步一份数据表的数据，其实时同步进程以短作业任务的方式不断向该数据表写入最新的数据，而不断生成的短作业任务会以“时间短，频次高”的特点来申请并占用该数据表的写入锁，导致其他写入该数据表的任务无法申请获得写入锁，从而无法达到多任务并发写入同一数据表的目的，因而造成数据湖文件出现并发写入冲突的问题。存在的数据湖文件的并发写入冲突的问题会引起数据延迟或数据不一致，进而给生产带来不良影响。

发明内容

本申请实施例的目的在于提出一种任务处理方法、装置、计算机设备及存储介质，以解决现有存在的数据湖文件的并发写入冲突的问题，并且会引起数据延迟或数据不一致，进而给生产带来不良影响的技术问题。

为了解决上述技术问题，本申请实施例提供一种任务处理方法，采用了如下所述的技术方案：

判断是否接收到与数据湖文件写入场景对应的并发写入任务；

若是，获取预设的分区数据表中的元数据信息；其中，在所述分区数据表中预先为表内的所有数据湖文件建立了相应的元数据信息；

从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号；

基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值；

若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态；

若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；

在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。

进一步的，所述从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号的步骤，具体包括：

对所述并发写入任务进行信息解析，得到对应的解析信息；

从所述解析信息中提取出所述并发写入任务中的文件分区描述信息；

从所述元数据信息中筛选出与所述文件分区描述信息匹配的指定分区分桶编号；

将所述指定分区分桶编号作为所述指定数据湖文件的第一分区分桶编号。

进一步的，在所述获取预设的分区数据表中的元数据信息的步骤之前，还包括：

对所有所述数据湖文件构建分区数据表；

在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理；

基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息。

进一步的，所述基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息的步骤，具体包括：

基于所述文件存储路径确定出各所述数据湖文件在所述分区数据表中的第二分区分桶编号；

构建与所有所述数据湖文件对应的数据初始化写入任务；

执行所述数据初始化写入任务，将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内；

在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，得到修改后的分段锁映射表；

将所述修改后的分段锁映射表存储至预设的初始元数据文件内，得到所述元数据信息。

进一步的，在所述在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态的步骤之前，还包括：

实时获取所述元数据信息中与所述指定数据湖文件的第一分区分桶编号匹配的第三分段锁状态值；

判断所述第三分段锁状态值是否均为无锁状态；

若是，判定所述并发写入任务符合所述任务重试条件，否则判定所述并发写入任务不符合所述任务重试条件。

进一步的，所述获取预设的分区数据表中的元数据信息的步骤，具体包括：

调用预设的任务校验规则；

基于所述任务校验规则对所述并发写入任务进行校验；

若所述并发写入任务通过校验，则执行所述获取预设的分区数据表中的元数据信息的步骤。

进一步的，在所述若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态的步骤之后，还包括：

调用预设的无锁算法；

获取所述分区数据表的当前版本信息；

基于所述无锁算法与所述当前版本信息对所述分区数据表进行版本更新处理。

为了解决上述技术问题，本申请实施例还提供一种任务处理装置，采用了如下所述的技术方案：

第一判断模块，用于判断是否接收到与数据湖文件写入场景对应的并发写入任务；

第一获取模块，用于若是，获取预设的分区数据表中的元数据信息；其中，在所述分区数据表中预先为表内的所有数据湖文件建立了相应的元数据信息；

确定模块，用于从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号；

第二获取模块，用于基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值；

第一处理模块，用于若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态；

第二处理模块，用于若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；

第三处理模块，用于在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，其中，计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现如上述的任务处理方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述的任务处理方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

首先判断是否接收到与数据湖文件写入场景对应的并发写入任务；若是，获取预设的分区数据表中的元数据信息；然后从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号；后续基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值；若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态；而若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；最后在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。本申请通过基于预先构建的分区数据表中的元数据信息的使用来优化与数据湖文件写入场景对应的并发写入任务的处理过程，通过从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号，并从所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值，进而对第一分段锁状态值进行内容分析，以根据得到的分析结果来进行对于并发写入任务的准确的相应处理，基于元数据信息中的分段锁状态的分析实现了快速准确地完成对于与分区数据表中的数据湖文件对应的并发写入任务的处理，有效地避免了分区数据表中的数据湖文件出现并发写入冲突的问题，有利于极大降低数据湖文件在并发写入场景下的冲突概率，以及极大降低因数据湖文件的并发写入冲突引起的数据延迟或数据不一致给生产带来的不良影响。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2根据本申请的任务处理方法的一个实施例的流程图；

图3是根据本申请的任务处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的任务处理方法一般由服务器/终端设备执行，相应地，任务处理装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的任务处理方法的一个实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。本申请实施例提供的任务处理方法能够应用于任意一种需要进行数据湖文件并发写入的场景中，则该任务处理方法能够应用于这些场景的产品中，例如，金融保险领域中的数据湖文件并发写入。所述的任务处理方法，包括以下步骤：

步骤S201，判断是否接收到与数据湖文件写入场景对应的并发写入任务。

在本实施例中，任务处理方法运行于其上的电子设备(例如图1所示的服务器/终端设备)，可以通过有线连接方式或者无线连接方式获取并发写入任务。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。数据湖是一种存储系统，底层包括不同的文件格式及湖表格式，可存储大量非结构化和半结构化的原始数据。数据消费者可以访问该数据进行数据分析，包括BI、报表和机器学习模型训练。有了数据湖，数据变得越来越可用。数据湖技术可具体应用于金融科技企业，例如保险企业、银行等的存储系统。在金融科技的应用领域下，数据湖文件可用于存储金融数据，例如业务数据、购买数据、支付数据、交易数据、金融产品数据等数据。上述数据湖文件写入场景是指接收到的并发写入任务中包含有分区数据表中存储的数据湖文件的并发写入处理的业务场景。其中，并发写入任务可包括一个或多个。示例性的，并发写入任务可包括：“并发-1”写入任务，“并发-1”写入任务的任务内容为追加写(Append)实时数据至最新的分区路径2023-01-01所对应的数据湖文件；或者可包括：“并发-2”写入任务，“并发-2”写入任务的任务内容为更新(Upsert)一条修正数据至历史分区路径1990-01-01所对应的数据湖文件；或者还可包括：覆盖写(Overwrite)历史分区的数据，重写分区路径从“1990-01-01”至“2000-01-01”的所有数据文件。

步骤S202，若是，获取预设的分区数据表中的元数据信息。

在本实施例中，在所述分区数据表中预先为表内的所有数据湖文件建立了相应的元数据信息。元数据信息也可称为Metadata，为存储有分段锁映射表的信息，即该元数据信息中存储有分区数据表全表中包含的所有数据湖文件的分段锁信息，并且会对该元数据信息进行持久化存储。其中，与分区数据表中的数据湖文件相关的所有待处理的并发写入任务均需要先请求分区数据表的元数据信息以获取相应的分段锁信息，所有并发写入任务请求元数据信息的过程都是快捷轻量级的，均不会长期对元数据信息保持读写状态，因此该元数据想本身并不会发生并发写入冲突的问题。

步骤S203，从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号。

在本实施例中，上述从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。其中，与所述并发写入任务匹配的指定数据湖文件可以指该并发写入任务对应的分区数据表中所有需要修改(包含插入、更新、删除等操作)的数据湖文件。另外，分区分桶编号由分区路径+分桶编号的形式构成。并发写入任务对应的指定数据湖文件可以存在多个，且第一分区分桶编号也可以存在多个。

步骤S204，基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值。

在本实施例中，可通过基于所述第一分区分桶编号对所述元数据信息中存储的分段锁映射表进行查询处理，以查询出与该第一分区分桶编号对应的第一分段锁状态值。其中，如果第一分区分桶编号的数量包括多个，则对应的第一分段锁状态值的数量也包括多个。

步骤S205，若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态。

在本实施例中，如果所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则表示当前不存在与指定数据湖文件相关的正在执行的其他并发写入任务，从而可以直接执行上述并发写入任务，具体将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态。另外，在完成并发写入任务的执行处理后，还可以进一步使用无锁算法对分区数据表进行版本信息更新处理，以完成对于本次并发写入任务的处理记录。

步骤S206，若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；

在本实施例中，如果所述第一分区分桶编号对应的第一分段锁状态值未均为无锁状态，即第一分段锁状态值中包括已锁状态，则表示当前存在与指定数据湖文件相关的正在执行的其他并发写入任务，则此时会智能地限制对所述并发写入任务进行执行处理，以规避由于立即执行当前的并发写入任务而造成与指定数据湖文件相关的正在执行的其他并发写入任务出现任务异常会任务失败的情况，有效避免分区数据表中的数据湖文件出现并发写入冲突的问题。

步骤S207，在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。

在本实施例中，上述检测出所述并发写入任务符合预设的任务重试条件的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。另外，上述对所述并发写入任务进行执行处理是指先将所述元数据信息中的所述第一分段锁状态设置为已锁状态，再执行所述并发写入任务的处理。

本申请首先判断是否接收到与数据湖文件写入场景对应的并发写入任务；若是，获取预设的分区数据表中的元数据信息；然后从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号；后续基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值；若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态；而若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；最后在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。本申请实施例通过基于预先构建的分区数据表中的元数据信息的使用来优化与数据湖文件写入场景对应的并发写入任务的处理过程，通过从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号，并从所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值，进而对第一分段锁状态值进行内容分析，以根据得到的分析结果来进行对于并发写入任务的准确的相应处理，基于元数据信息中的分段锁状态的分析实现了快速准确地完成对于与分区数据表中的数据湖文件对应的并发写入任务的处理，有效地避免了分区数据表中的数据湖文件出现并发写入冲突的问题，有利于极大降低数据湖文件在并发写入场景下的冲突概率，以及极大降低因数据湖文件的并发写入冲突引起的数据延迟或数据不一致给生产带来的不良影响。

在一些可选的实现方式中，步骤S203包括以下步骤：

对所述并发写入任务进行信息解析，得到对应的解析信息。

在本实施例中，通过对所述并发写入任务进行信息解析可以得到所述并发写入任务的解析信息，解析信息可包括并发写入任务的任务详情信息与文件分区描述信息。

从所述解析信息中提取出所述并发写入任务中的文件分区描述信息。

在本实施例中，可通过对所述解析信息进行文件分区描述信息的提取处理，以得到所述并发写入任务中的文件分区描述信息。示例性的，如果并发写入任务的内容包括追加写(Append)实时数据至最新的分区路径：分区路径＝2023-01-01所对应的数据湖文件，则对该并发写入任务进行信息解析后，可以得到该并发写入任务的任务详情信息包括：追加写(Append)实时数据，并发写入任务的文件分区描述信息包括：分区路径＝2023-01-01，即文件分区描述信息为并发写入任务中的分区路径。

从所述元数据信息中筛选出与所述文件分区描述信息匹配的指定分区分桶编号。

在本实施例中，可使用所述文件分区描述信息对所述元数据信息进行查询，以查找出与该文件分区描述信息相同的指定分区路径，进而提取出与该指定分区路径匹配的分区分桶编号，以得到上述指定分区分桶编号。其中，分区分桶编号由分区路径+分桶编号的形式构成。示例性的，上述与该指定分区路径匹配的分区分桶编号包括：2023-01-01-a，2023-01-01为分区路径，a为分桶编号。

本申请通过对所述并发写入任务进行信息解析，得到对应的解析信息；然后从所述解析信息中提取出所述并发写入任务中的文件分区描述信息；之后从所述元数据信息中筛选出与所述文件分区描述信息匹配的指定分区分桶编号；后续将所述指定分区分桶编号作为所述指定数据湖文件的第一分区分桶编号。本申请通过对所述并发写入任务进行信息解析以提取出并发写入任务中的文件分区描述信息，进而从所述元数据信息中筛选出与所述文件分区描述信息匹配的指定分区分桶编号以作为指定数据湖文件的第一分区分桶编号，以实现基于元数据信息的使用快速准确地确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号，提高了第一分区分桶编号的获取效率，保证了得到的第一分区分桶编号的准确度。

在本实施例的一些可选的实现方式中，在步骤S202之前，上述电子设备还可以执行以下步骤：

对所有所述数据湖文件构建分区数据表。

在本实施例中，可通过新建一张用于存储所有所述数据湖文件的分区数据表。

在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理。

在本实施例中，通过在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理，以使所有所述数据湖文件按照唯一的分区分桶编号(分区分桶编号由分区路径+分桶编号的形式构成)存储于分区数据表中，且每一个数据湖文件的分区分桶编号用于唯一标定对应的该数据湖文件。

在本实施例中，上述基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息的具体实施过程，本申请将在后续的具体实施例中对此进行进一步的细节描述，在此不作过多阐述。

本申请通过对所有所述数据湖文件构建分区数据表；然后在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理；后续基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息。本申请在构建出所有所述数据湖文件的分区数据表后，通过在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理，进而基于预设的分段锁的映射机制与该文件存储路径的使用对所述分区数据表进行数据初始化处理，可以实现快速地对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息，提高了元数据信息的构建效率，有利于后续可以根据该元数据信息来快速准确地完成对于与分区数据表中的数据湖文件对应的并发写入任务的处理，并且能够有效避免分区数据表中的数据湖文件出现并发写入冲突的问题。

在一些可选的实现方式中，所述基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息，包括以下步骤：

基于所述文件存储路径确定出各所述数据湖文件在所述分区数据表中的第二分区分桶编号。

在本实施例中，可通过对各所述数据湖文件在所述分区数据表中的文件存储路径进行相应的编号生成处理，来创建出各所述数据湖文件在所述分区数据表中的第二分区分桶编号。

构建与所有所述数据湖文件对应的数据初始化写入任务。

在本实施例中，上述数据初始化写入任务为构建出的用于将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内，以及在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，进而根据得到的修改后的分段锁映射表来构建出分区数据表中对应于所有的数据湖文件的元数据信息的初始化任务。

执行所述数据初始化写入任务，将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内。

在本实施例中，上述分段锁映射表为根据分段锁的映射机制构建的一个Key-Value形式的映射表，其中，Key为数据湖文件的分区分桶编号，该Key可以唯一标识分区数据表下唯一的一份数据湖文件，Value保存的是该数据湖文件的分段锁状态值，分段锁状态值包括无锁状态(Unlock)或已锁状态(lock)。

在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，得到修改后的分段锁映射表。

在本实施例中，在所述分区数据表的数据初始化处理中，分段锁映射表中包含所有的数据湖文件的分段锁状态值均会提前设置为无锁状态，以确保当前的所有的数据湖文件均处于可以正常写入数据的正常状态。

在本实施例中，上述初始元数据文件为构建的用于存储分段锁映射表的文件模板。最终得到的元数据信息即为存储有分段锁映射表的信息，即该元数据信息中存储有分区数据表全表中包含的所有数据湖文件的分段锁信息，并且会对该元数据信息进行持久化存储。其中，在完成了元数据信息的构建后，还会生成分区数据表的第一个版本信息，即01版本。

本申请通过基于所述文件存储路径确定出各所述数据湖文件在所述分区数据表中的第二分区分桶编号；然后构建与所有所述数据湖文件对应的数据初始化写入任务；之后执行所述数据初始化写入任务，将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内；后续在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，得到修改后的分段锁映射表；最后将所述修改后的分段锁映射表存储至预设的初始元数据文件内，得到所述元数据信息。本申请在基于所述文件存储路径确定出各所述数据湖文件在所述分区数据表中的第二分区分桶编号后，通过执行预先构建的与所有所述数据湖文件对应的数据初始化写入任务，以将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内，以及在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，进而根据得到的修改后的分段锁映射表来实现快速地构建出分区数据表中对应于所有的数据湖文件的元数据信息，提高了元数据信息的构建效率与构建智能性。

在一些可选的实现方式中，在步骤S207之前，上述电子设备还可以执行以下步骤：

实时获取所述元数据信息中与所述指定数据湖文件的第一分区分桶编号匹配的第三分段锁状态值。

在本实施例中，上述第三分段锁状态值可包括无锁状态或已锁状态。

判断所述第三分段锁状态值是否均为无锁状态。

在本实施例中，如果所述第三分段锁状态值均为无锁状态，则表示当前不存在与指定数据湖文件对应的其他正在执行的并发写入任务，从而会判定所述并发写入任务符合所述任务重试条件。另外，如果所述第三分段锁状态值中不均为无锁状态，即包括已锁状态，则表示当前存在与指定数据湖文件对应的其他正在执行的并发写入任务，从而会判定所述并发写入任务不符合所述任务重试条件。

本申请通过实时获取所述元数据信息中与所述指定数据湖文件的第一分区分桶编号匹配的第三分段锁状态值；然后判断所述第三分段锁状态值是否均为无锁状态；若是，判定所述并发写入任务符合所述任务重试条件，否则判定所述并发写入任务不符合所述任务重试条件。本申请通过实时获取所述元数据信息中与所述指定数据湖文件的第一分区分桶编号匹配的第三分段锁状态值，并通过对该第三分段锁状态值进行内容分析，从而可以根据得到的内容分析结果，实现快速准确地检测出所述并发写入任务是否符合所述任务重试条件，提高了对于并发写入任务的任务重试条件的检测的准确性。

在本实施例的一些可选的实现方式中，步骤S202包括以下步骤：

调用预设的任务校验规则。

在本实施例中，上述任务校验规则为根据实际的合规任务处理规范的内容预先构建的规则，该任务校验规则用于校验待执行的写入任务是否符合该合规任务处理规范的规则。

基于所述任务校验规则对所述并发写入任务进行校验。

在本实施例中，通过使用所述任务校验规则对所述并发写入任务进行校验，如果检测出所述并发写入任务符合上述合规任务处理规范，则判定该并发写入任务通过校验，否则判定该并发写入任务未通过校验。

在本实施例中，如果所述并发写入任务通过校验，则判定该并发写入任务为合规的写入任务，则后续会执行所述获取预设的分区数据表中的元数据信息的步骤。而如果所述并发写入任务未通过校验，则判定该并发写入任务为不合规的写入任务，则后续不会执行所述获取预设的分区数据表中的元数据信息的步骤，而是会限制对该并发写入任务进行执行，以避免出现由于处理了不合规的并发写入任务而导致数据湖文件出现损坏的情况发生，有利于确保并发写入任务的处理规范性。

本申请通过调用预设的任务校验规则；然后基于所述任务校验规则对所述并发写入任务进行校验；若所述并发写入任务通过校验，则执行所述获取预设的分区数据表中的元数据信息的步骤。本申请通过使用任务校验规则对所述并发写入任务进行校验，只有在检测出并发写入任务通过校验，后续才会执行所述获取预设的分区数据表中的元数据信息的处理流程，有效地避免出现由于处理了不合规的并发写入任务而导致数据湖文件出现损坏的情况发生，有利于确保并发写入任务的处理规范性。

在本实施例的一些可选的实现方式中，在步骤S205之后，上述电子设备还可以执行以下步骤：

调用预设的无锁算法。

在本实施例中，上述无锁算法具体可采用CAS(Compare And Swap，比较并交换)算法。

获取所述分区数据表的当前版本信息。

在本实施例中，可通过对分区数据表进行版本信息查询，以获取到所述分区数据表的当前版本信息。

在本实施例中，可通过使用所述无锁算法对所述分区数据表的当前版本信息进行迭代递增加一，生成相应的目标版本信息，并使用该目标版本信息对所述分区数据表的当前版本信息进行替换，以完成对于所述分区数据表的版本更新处理。

本申请通过调用预设的无锁算法；然后获取所述分区数据表的当前版本信息；后续基于所述无锁算法与所述当前版本信息对所述分区数据表进行版本更新处理。本申请在完成对于并发写入任务的处理后，会智能地通过使用无锁算法来对所述分区数据表当前版本信息进行版本更新处理，以实现对于分区数据表的版本信息的自动更新，提高了对于分区数据表的版本信息的更新处理的智能性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

需要强调的是，为进一步保证上述分区数据表的私密和安全性，上述分区数据表还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种任务处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的任务处理装置300包括：第一判断模块301、第一获取模块302、确定模块303、第二获取模块304、第一处理模块305、第二处理模块306以及第三处理模块307。其中：

第一判断模块301，用于判断是否接收到与数据湖文件写入场景对应的并发写入任务；

第一获取模块302，用于若是，获取预设的分区数据表中的元数据信息；其中，在所述分区数据表中预先为表内的所有数据湖文件建立了相应的元数据信息；

确定模块303，用于从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号；

第二获取模块304，用于基于所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值；

第一处理模块305，用于若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态；

第二处理模块306，用于若所述分区分桶编号对应的第一分段锁状态值中包括已锁状态，则限制对所述并发写入任务进行执行处理；

第三处理模块307，用于在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态。

在本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的任务处理方法的步骤一一对应，在此不再赘述。

在本实施例的一些可选的实现方式中，确定模块303包括：

解析子模块，用于对所述并发写入任务进行信息解析，得到对应的解析信息；

提取子模块，用于从所述解析信息中提取出所述并发写入任务中的文件分区描述信息；

筛选子模块，用于从所述元数据信息中筛选出与所述文件分区描述信息匹配的指定分区分桶编号；

第一确定子模块，用于将所述指定分区分桶编号作为所述指定数据湖文件的第一分区分桶编号。

在本实施例的一些可选的实现方式中,任务处理装置还包括：

构建模块，用于对所有所述数据湖文件构建分区数据表；

初始化模块，用于在所述分区数据表中对所有所述数据湖文件的文件存储路径进行初始化处理；

第四处理模块，用于基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息。

本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的任务处理方法的步骤一一对应，在此不再赘述。

在本实施例的一些可选的实现方式中，第四处理模块包括：

第二确定子模块，用于基于所述文件存储路径确定出各所述数据湖文件在所述分区数据表中的第二分区分桶编号；

构建子模块，用于构建与所有所述数据湖文件对应的数据初始化写入任务；

执行子模块，用于执行所述数据初始化写入任务，将所有所述数据湖文件对应的所述第二分区分桶编号添加至预设的分段锁映射表内；

设置子模块，用于在所述分段锁映射表中将各所述第二分区分桶编号对应的第二分段锁状态值设置为无锁状态，得到修改后的分段锁映射表；

生成子模块，用于将所述修改后的分段锁映射表存储至预设的初始元数据文件内，得到所述元数据信息。

在本实施例的一些可选的实现方式中，任务处理装置还包括：

第三获取模块，用于实时获取所述元数据信息中与所述指定数据湖文件的第一分区分桶编号匹配的第三分段锁状态值；

第二判断模块，用于判断所述第三分段锁状态值是否均为无锁状态；

判定模块，用于若是，判定所述并发写入任务符合所述任务重试条件，否则判定所述并发写入任务不符合所述任务重试条件。

在本实施例的一些可选的实现方式中，第一获取模块302包括：

调用子模块，用于调用预设的任务校验规则；

校验子模块，用于基于所述任务校验规则对所述并发写入任务进行校验；

执行子模块，用于若所述并发写入任务通过校验，则执行所述获取预设的分区数据表中的元数据信息的步骤。

调用模块，用于调用预设的无锁算法；

第四获取模块，用于获取所述分区数据表的当前版本信息；

更新模块，用于基于所述无锁算法与所述当前版本信息对所述分区数据表进行版本更新处理。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如任务处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述任务处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例中，通过基于预先构建的分区数据表中的元数据信息的使用来优化与数据湖文件写入场景对应的并发写入任务的处理过程，通过从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号，并从所述元数据信息获取与所述第一分区分桶编号对应的第一分段锁状态值，进而对第一分段锁状态值进行内容分析，以根据得到的分析结果来进行对于并发写入任务的准确的相应处理，基于元数据信息中的分段锁状态的分析实现了快速准确地完成对于与分区数据表中的数据湖文件对应的并发写入任务的处理，有效地避免了分区数据表中的数据湖文件出现并发写入冲突的问题，有利于极大降低数据湖文件在并发写入场景下的冲突概率，以及极大降低因数据湖文件的并发写入冲突引起的数据延迟或数据不一致给生产带来的不良影响。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的任务处理方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种任务处理方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的任务处理方法，其特征在于，所述从所述元数据信息中确定出与所述并发写入任务匹配的指定数据湖文件的第一分区分桶编号的步骤，具体包括：

对所述并发写入任务进行信息解析，得到对应的解析信息；

3.根据权利要求1所述的任务处理方法，其特征在于，在所述获取预设的分区数据表中的元数据信息的第一分区分桶编号的步骤之前，还包括：

对所有所述数据湖文件构建分区数据表；

4.根据权利要求3所述的任务处理方法，其特征在于，所述基于预设的分段锁的映射机制与所述文件存储路径对所述分区数据表进行数据初始化处理，以对所述分区数据表中的所有所述数据湖文件构建对应的元数据信息的步骤，具体包括：

构建与所有所述数据湖文件对应的数据初始化写入任务；

5.根据权利要求1所述的任务处理方法，其特征在于，在所述在检测出所述并发写入任务符合预设的任务重试条件后，对所述并发写入任务进行执行处理，直至所述并发写入任务执行完毕，并将所述第一分段锁状态值设置为无锁状态的步骤之前，还包括：

判断所述第三分段锁状态值是否均为无锁状态；

6.根据权利要求1所述的任务处理方法，其特征在于，所述获取预设的分区数据表中的元数据信息的步骤，具体包括：

调用预设的任务校验规则；

基于所述任务校验规则对所述并发写入任务进行校验；

7.根据权利要求1所述的任务处理方法，其特征在于，在所述若所述第一分区分桶编号对应的第一分段锁状态值均为无锁状态，则将所述元数据信息中的所述第一分段锁状态设置为已锁状态，并执行所述并发写入任务，直至所述并发写入任务执行完毕，再将所述第一分段锁状态值恢复为无锁状态的步骤之后，还包括：

调用预设的无锁算法；

获取所述分区数据表的当前版本信息；

8.一种任务处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的任务处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的任务处理方法的步骤。