CN114331201A - 一种数据加工方法及装置、存储介质及电子设备 - Google Patents

一种数据加工方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114331201A
CN114331201A CN202210004579.3A CN202210004579A CN114331201A CN 114331201 A CN114331201 A CN 114331201A CN 202210004579 A CN202210004579 A CN 202210004579A CN 114331201 A CN114331201 A CN 114331201A
Authority
CN
China
Prior art keywords
job
data
target
data processing
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210004579.3A
Other languages
English (en)
Inventor
周政明
郭玉章
陈洁
李颖
李颢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210004579.3A priority Critical patent/CN114331201A/zh
Publication of CN114331201A publication Critical patent/CN114331201A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stored Programmes (AREA)

Abstract

本申请提供了一种数据加工方法及装置、存储介质及电子设备,包括:获取每个组件包括的各个作业的依赖配置信息;基于每个作业的依赖配置信息,构建作业依赖关系图;获取作业依赖关系图包括的数据加工链路;每条数据加工链路包括至少一个作业;将包括作业最少的数据加工链路确定为目标加工链路;利用目标加工链路加工数据。可见,本申请方案,通过构建作业依赖关系图,以获取各条数据加工链路,并将包括作业最少的数据加工链路确定为目标加工链路,实现对数据加工链路的优化,并利用目标加工链路加工数据,从而提高数据加工效率,进而满足日益增长的数字化经营及监管需求开展。

Description

一种数据加工方法及装置、存储介质及电子设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据加工方法及装置、存储介质及电子设备。
背景技术
随着银行业务数字化经营的转型,基于数据湖、云化数仓平台开展的大数据应用挖掘、指标加工、监管报送等业务需求不断激增,在数据湖、云化数仓平台构建应用、模型的开发人员、业务人员也不断壮大,导致大数据应用及模型众多,且各个应用的指标等数据通过作业的形式进行相互访问、复制、加工,如大额存款、客户标签、理财指标等公共基础数据,形成庞大、复杂、多层级的作业依赖链路网络关系,从而造成作业运行效率低、进而导致数据加工效率低,不满足日益增长的数字化经营及监管需求开展。
发明内容
本申请提供了一种数据加工方法及装置、存储介质及电子设备,目的在于解决现有技术中,作业运行效率低、进而导致数据加工效率低,不满足日益增长的数字化经营及监管需求开展的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种数据加工方法,包括:
获取每个组件包括的各个作业的依赖配置信息;
基于每个作业的依赖配置信息,构建作业依赖关系图;
获取所述作业依赖关系图包括的数据加工链路;每条数据加工链路至少包括源端作业和末端作业;
将包括作业最少的数据加工链路确定为目标加工链路;
利用所述目标加工链路加工数据。
上述的方法,可选的,所述利用所述目标加工链路加工数据,包括:
获取所述目标加工链路包括的每个作业的历史运行时间;
基于所述目标加工链路包括的每个作业的历史运行时间,统计所述目标加工链路的数据加工耗时;
若所述目标加工链路的数据加工耗时大于预设的截止报送时间,则在所述目标加工链路包括的各个作业中,确定至少一个待优化作业,并对各个待优化作业进行作业优化;
利用作业优化后的目标加工链路加工数据;
若所述目标加工链路当前的数据加工耗时不大于预设的截止报送时间,则利用所述目标加工链路加工数据。
上述的方法,可选的,所述对各个待优化作业进行优化,包括:
对每个待优化作业进行数据表分布优化、数据表分区优化和数据过滤优化。
上述的方法,可选的,所述利用所述目标加工链路加工数据之后,还包括:
若所述目标加工链路包括的各个作业中任一作业发生故障,则获取故障作业的作业信息和所述故障作业所属组件的组件信息;所述故障作业为发生故障的作业;
基于所述作业信息和所述组件信息,定位故障源。
上述的方法,可选的,所述基于所述作业信息和所述组件信息,定位故障源,包括:
将所述故障作业作为目标作业;
基于所述作业信息和所述组件信息,确定所述目标作业的依赖作业;
基于所述依赖作业的运行状态,判断所述依赖作业是否发生故障;
若所述依赖作业发生故障,则将所述依赖作业作为目标作业,并返回执行所述确定与所述目标作业有依赖关系的作业的步骤,直至当前的依赖作业不发生故障,将当前的目标作业确定为故障源。
上述的方法,可选的,所述基于所述作业信息和所述组件信息,定位故障源之后,还包括:
确定预设的与所述故障源对应的备份作业;
将所述故障源替换为所确定的备份作业,以使所述备份作业代替所述故障源进行数据加工。
上述的方法,可选的,所述利用所述目标加工链路加工数据之后,还包括:
若所述目标加工链路包括的各个作业中任一作业发生故障,基于发生故障的作业的作业信息,确定受影响作业;
获取受影响作业的业务场景及说明,并基于受影响作业的业务场景及说明,生成业务影响说明。
一种数据加工装置,其特征在于,包括:
第一获取单元,用于获取每个组件包括的各个作业的依赖配置信息;
构建单元,用于基于每个作业的依赖配置信息,构建作业依赖关系图;
第二获取单元,用于获取所述作业依赖关系图包括的数据加工链路;每条数据加工链路至少包括源端作业和末端作业;
第一确定单元,用于将包括作业最少的数据加工链路确定为目标加工链路;
加工单元,用于利用所述目标加工链路加工数据。
一种存储介质,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如上述的数据加工方法。
一种电子设备,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上述的数据加工方法。
与现有技术相比,本申请包括以下优点:
本申请提供了一种数据加工方法及装置、存储介质及电子设备,包括:获取每个组件包括的各个作业的依赖配置信息;基于每个作业的依赖配置信息,构建作业依赖关系图;获取作业依赖关系图包括的数据加工链路;每条数据加工链路包括至少一个作业;将包括作业最少的数据加工链路确定为目标加工链路;利用目标加工链路加工数据。可见,本申请方案,通过构建作业依赖关系图,以获取各条数据加工链路,并将包括作业最少的数据加工链路确定为目标加工链路,实现对数据加工链路的优化,并利用目标加工链路加工数据,从而提高数据加工效率,进而满足日益增长的数字化经营及监管需求开展。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据加工方法的方法流程图;
图2为本申请提供的一种数据加工方法的示例图;
图3为本申请提供的一种数据加工方法的又一示例图;
图4为本申请提供的一种数据加工方法的又一方法流程图;
图5为本申请提供的一种数据加工方法的又一方法流程图;
图6为本申请提供的一种数据加工方法的又一方法流程图;
图7为本申请提供的一种数据加工方法的又一示例图;
图8为本申请提供的一种数据加工方法的又一方法流程图;
图9为本申请提供的一种数据加工方法的又一示例图;
图10为本申请提供的一种数据加工装置的结构示意图;
图11为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
为了便于理解,本申请实施例这里介绍本申请实施例涉及的术语:
应用计算区(组件):根据数据的来源、加工用途、数据访问、服务策略及数据的报送策略等,将数据湖及云化数仓内部划分成多个应用计算区(即组件),包含贴源区、公共计算区、公共访问区、应用计算区、实验区等,例如:贴源区-用于接入上游组件的原始数据,公共计算区-根据贴源区接入的数据进行加工、整合,形成产品、客户等基础维度数据,公共访问区-根据公共计算整合好的基础维度数据进行宽表拼接,形成一个公共的基础明细数据,业务部门或用户可通过报表或即席查询等方式访问此类公共基础明细数据,应用计算区根据应用特性划分单独的应用计算区,外管局报送等组件根据贴源和公共计算的数据,根据人行的报送规则进行一定的衍生加工,形成标准的报送数据,并向人行、外管局等进行报送。
作业:一组程序的集合,通常根据业务模型或业务逻辑运用python、perl等编程语言进行实现,并把开发好的脚本部署在生产服务器中,同时将该组程序集合定义成一个作业,并定义该作业在固定的时间段或频率自动调度执行,通常大数据中的作业主要用于对数据库中的数据进行加工、分析。
本申请实施例提供了一种数据加工方法,该数据加工方法的流程图如图1所示,具体包括:
S101、获取每个组件包括的各个作业的依赖配置信息。
本实施例中,每个组件包括多个作业,获取每个组件包括的各个作业的依赖配置信息,其中,每个作业的依赖配置信息用于指示该作业的依赖作业的作业名。
需要说明的是,针对每个作业,只有当该作业的依赖作业运行完毕的情况下,才会触发该作业的运行。
获取每个组件包括的各个作业的依赖配置信息的过程,具体包括以下步骤:
获取每个组件包括的各个作业的作业信息配置宽表;
通过每个作业的作业信息配置宽表,获取每个组件包括的各个作业的依赖配置信息。
本实施例中,从生产作业配置表中抓取各个组件包括的各个作业的作业定义表和作业关系表,基于关联关系,将每个作业的作业定义表和作业关系表进行合并,得到每个作业的作业信息配置宽表。示例性的,作业信息配置宽表如表1所示。
Figure BDA0003455076300000061
Figure BDA0003455076300000071
表1作业信息配置宽表
需要说明的是,每个作业的作业信息配置宽表中包括作业的依赖作业的作业名、时效信息和业务影响信息,其中,每个作业的业务影响信息包括但不限于影响级别、业务场景一级分类、业务场景二级分类、自定义场景、业务影响时间。
本实施例中,获取每个作业的作业信息配置宽表中的依赖作业的作业名,将每个作业的作业信息配置宽表中的依赖作业的作业名作为该作业的依赖配置信息。
S102、基于每个作业的依赖配置信息,构建作业依赖关系图。
本实施例中,基于每个作业的依赖配置信息,构建作业依赖关系图,具体的,基于每个作业的依赖配置信息,确定每个作业的依赖作业,也就是确定与每个作业有依赖关系的作业,基于每个作业的依赖作业,构建作业依赖关系图。
示例性的,作业依赖关系图如图2所示,其中,a、b、c、d、e、f、h、i、j、l、m、n、o、p和q用于表征作业,不同字母表征不同的作业,作业依赖关系图中的箭头用于表征依赖关系,以及表征数据加工方向,例如,a指向b用于表征,作业b依赖作业a,只有在作业a运行完毕的情况下,才能出发作业b运行,同时也用于表征数据加工方向为作业a至作业b。
可选,还可以构建组件间的数据流程图,示例性的,参阅图3,对私客户信息管理、借记卡(对私)、机构管理、定价管理计算引擎、贷记卡发卡、银行交换系统、收单组件和集中运营服务器所产生的数据进行第一个组件进行贴源集成、在经过第二个组件进行监管应用加工,再经过第三个组件进行系统加工,最后将加工后的数据提交至外汇系统。图3中,T表示天数,T+1用于表征天数加一。
S103、获取作业依赖关系图包括的数据加工链路。
本实施例中,获取作业依赖关系图包括的数据加工链路,其中,每条数据加工链路至少包括源端作业和末端作业。
具体的,从源端作业出发,按照作业依赖关系图中的箭头流向依次遍历作业依赖关系图中的各个作业,从而得到作业依赖关系图包括的数据加工链路。
示例性的,同样参照图2,作业依赖关系图包括的数据加工链路为abcde、abjqmcde和abjqmopie。
S104、将包括作业最少的数据加工链路确定为目标加工链路。
本实施例中,将包括作业最少的数据加工链路确定为目标加工链路,从而减少作业层级,实现对数据加工链路的优化。
示例性的,同样参阅图2,将数据加工链路abcde确定目标加工链路。
S105、利用目标加工链路加工数据。
本实施例中,利用目标加工链路加工数据。也就是利用目标加工链路包括的各个作业加工数据。
参阅图4,利用目标加工链路加工数据的过程,具体包括以下步骤:
S401、获取目标加工链路包括的每个作业的历史运行时间。
本实施例中,获取目标加工链路包括的每个作业的历史运行时间,其中,每个作业的历史运行时间包括历史开始运行时间和历史截止运行时间,历史开始运行时间到历史截止运行时间也就是该作业加工数据的加工时长。
S402、基于目标加工链路包括的每个作业的历史运行时间,统计目标加工链路的数据加工耗时。
本实施例中,基于目标加工链路包括的每个作业的历史运行时间,统计目标加工链路的数据加工耗时,具体的,基于目标加工链路包括的每个作业的历史运行时间,确定目标加工链路包括的每个作业的数据加工时长,目标加工链路包括的每个作业的数据加工时长进行累加,得到目标加工链路的数据加工耗时。
S403、判断目标加工链路的数据加工耗时是否大于预设的截止报送时间,若否,执行S404,若是,执行S405。
S404、利用目标加工链路加工数据。
本实施例中,若目标加工链路的数据加工耗时不大于预设的截止报送时间,则说明目标加工链路的数据加工耗时满足要求,则无需对目标加工链路包括的作业进行作业优化,并直接利用目标加工链路加工数据。
S405、在目标加工链路包括的各个作业中,确定至少一个待优化作业,并对各个待优化作业进行作业优化。
本实施例中,在目标加工链路包括的各个作业中确定至少一个待优化作业,可选的,可以按照作业的数据加工耗时从长到短的顺序,对各个作业进行排序,将排序为前n的每个作业确定为待优化作业,其中,n大于等于1小于等于m,其中,m为目标加工链包括的作业的数量,例如,可以选取耗时最长的作业作为待优化作业,也可以选择耗时最长的两个作业作为待优化作业。
本实施例中,对各个待优化作业进行作业优化,具体的,对每个待优化作业进行数据表分布优化、数据表分区优化和数据过滤优化。
本实施例中,通过对每个待优化作业的数据表进行数据表分布优化和数据表分区优化,以及进行数据过滤优化,实现对待优化作业的作业优化。
具体的,针对每个待优化作业,基于预设的数据表分布优化策略,对该待优化作业的数据表进行数据表分布优化,基于预设的数据表分区优化策略,对该待优化作业的数表进行数据表分区优化,基于预设的数据过滤优化策略,对该待优化作业的数据进行数据过滤优化。
S406、利用作业优化后的目标加工链路加工数据。
本实施例中,利用作业优化后的目标加工链路加工数据。
本申请实施例提供的数据加工方法,通过构建作业依赖关系图,以获取各条数据加工链路,并将包括作业最少的数据加工链路确定为目标加工链路,实现对数据加工链路的优化,并利用目标加工链路加工数据,从而提高数据加工效率,进而满足日益增长的数字化经营及监管需求开展,并且,通过对目标加工链路中的作业进行作业优化,从而提高作业运行效率,进一步提高了数据加工效率。
参阅图5,本实施例中,本申请实施例提供的数据加工方法,在步骤S105之后,还可以包括以下步骤:
S501、若目标加工链路包括的各个作业中任一作业发生故障,则获取故障作业的作业信息和故障作业所属组件的组件信息。
本实施例中,若目标加工链路包括的各个作业中任一作业发生故障,获取故障作业的作业信息和故障作业所属组件的组件信息;其中,故障作业为发生故障的作业。
本实施例中,获取故障作业的作业信息和故障作业所属组件的组件信息;故障作业为发生故障的作业的过程,具体包括:
响应用户的触发指令,生成信息输入界面;
获取用户通过信息输入界面输入的故障作业的作业信息和故障作业所述组件的组件信息。
S502、基于作业信息和组件信息,定位故障源。
本实施中,基于故障作业的作业信息和故障作业所属组件的组件信息,定位故障源。也就是定位源头故障作业。
参阅图6,基于作业信息和组件信息,定位故障源的过程,具体包括以下步骤:
S601、将故障作业作为目标作业。
S602、基于作业信息和组件信息,确定目标作业的依赖作业。
本实施例中,基于目标作业的作业信息和目标作业所属组件的组件信息,确定目标作业的依赖作业,也就是确定与目标作业有依赖关系的作业。具体的,基于目标作业的作业信息和目标作业所属组件的组件信息,通过作业依赖关系图,确定与目标作业有依赖关系的作业。
S603、基于依赖作业的运行状态,判断依赖作业是否发生故障,若否,执行S604,若是,执行S605。
本实施例中,获取依赖作业的运行状态,基于依赖作业的运行状态,判断依赖作业是否发生故障。
S604、将当前的目标作业确定为故障源。
本实施例中,若目标作业的依赖作业不发生故障,则说明是从当前的目标作业是第一个发生故障的作业,并将当前的目标作业确定为故障源。
S605、将依赖作业作为目标作业,返回执行S603。
本实施例中,若目标作业的依赖作业发生故障,则说明当前的目标作业不是第一发生故障的作业,并将当前的目标作业的依赖作业作为新的目标作业,也就是将依赖作业作为目标作业,并返回执行步骤S603。
本申请实施例提供的数据加工方法,基于故障作业的作业信息和故障作业所属组件的组件信息,自动定位故障源,而无需手工一层层查找故障源,从而提高了故障源定位的效率。
本实施例中,本申请实施例提供的数据加工方法,在步骤S502之后,还可以包括以下步骤:
确定预设的与故障源对应的备份作业;
将故障源替换为所确定的备份作业,以使备份作业代替故障源进行数据加工。
本实施例中,预先设置每个作业的备份作业,提升目标加工链路的可用性。
参阅图7,对备份作业的设置过程进行举例说明如下:
1、依赖于SOD和MPP集群的各下游应用,需要上配置两套相同作业名,但所属作业流名不同的复制作业(建议作业流命名方式:应用项目英文简称_源集群名称(SOD/MPP)_原P9流名称),同时,这两套复制作业需要配置相同的自定义输出条件名称(建议命名方式:应用项目英文简称_作业名称)。
2、为了快速切换,建议作业流按照高优作业、低优,复制作业、ETL加工作业进行划分,即高优复制作业单独放在一个或者多个流中,低优复制作业单独放在一个或者多个作业流中,ETL加工作业照此进行规划。
3、下游应用组件作业在调度平台上运行的ETL加工作业的配置方案:ETL加工作业配置所需要的自定义输入条件,条件名称为复制作业的输出的自定义条件名称。
4、首次部署的时候,可以将SOD集群对应的复制作业放开,正常运行,把MPP集群对应的复制作业所在的作业流挂起(虚线部分),确保只有一套集群的复制作业运行。
5、当主集群(SOD)出现异常时,将SOD集群对应的复制作业流挂起,并记录下SOD的复制作业流当前业务日期信息,将MPP集群对应的复制作业流启用,并重新实例化到与SOD对应的作业流相同的业务日期,然后放开运行。
本申请实施例提供的方法中,在定位故障源后,确定预设的与故障对应的备份作业,并将故障源替换为所确定的备份作业,以使备份作业代替故障源进行数据加工,从而提升故障处理速度,以及降低生产损失。
可选的,也可以只设置核心作业的备份作业,例如,同样参阅图2,从图2中可以发现所有作业的核心均来源于作业a加工完成的结果数据,即当作业a故障时,后续所有应用的作业的加工将失败,影响的下游范围过大,可能造成严重的生产事故,即我们可以在作业a,同时增加一个备份作业a1,当作业a集群故障时,下游系统根据所依赖的作业及数据,切换至a1进行结果的数据复制,下游应用继续进行加工,大幅提升作业运行的可持续性。
本申请实施例提供的数据加工方法中,通过设置核心作业的备份作业,既在核心作业发生故障时,切换至核心作业的备份作业继续工作,降低生产损失,又可减少计算机内存的占用。
参阅图8,本实施例中,本申请实施例提供的数据加工方法,在步骤S105之后,还可以包括以下步骤:
S801、若目标加工链路包括的各个作业中任一作业发生故障,基于发生故障的作业的作业信息,确定受影响作业。
本实施例中,若目标加工链路包括的各个作业中任一作业发生故障,则基于发生故障的作业的作业信息,确定受影响作业,其中,受影响作业为发生故障作业的下游作业。
具体的,基于故障作业的作业信息,通过遍历作业依赖关系图,确定故障作业的每个下游作业,将故障作业的每个下游作业确定为受影响作业。其中,故障作业为发生故障的作业。例如,参阅图9,若故障作业为作业c,则确定的受影响作业为作业d和作业e。
S802、获取受影响作业的业务场景及说明,并基于受影响作业的业务场景及说明,生成业务影响说明。
本实施例中,获取受影响作业的业务场景及说明,具体的,基于受影响作业的作业配置信息宽表,获取受影响作业的业务场景及说明,并基于受影响作业的业务场景及说明,通过预设的业务影响说明模板,生成业务影响说明。
本申请实施例提供的数据加工方法,通过生成业务影响说明,以便于用户快速获知故障作业导致的影响,从而采取有效措施,减少生产损失。
需要说明的是,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请公开的范围在此方面不受限制。
与图1所述的方法相对应,本申请实施例还提供了一种数据加工装置,用于对图1中方法的具体实现,其结构示意图如图10所示,具体包括:
第一获取单元1001,用于获取每个组件包括的各个作业的依赖配置信息;
构建单元1002,用于基于每个作业的依赖配置信息,构建作业依赖关系图;
第二获取单元1003,用于获取所述作业依赖关系图包括的数据加工链路;每条数据加工链路至少包括源端作业和末端作业;
第一确定单元1004,用于将包括作业最少的数据加工链路确定为目标加工链路;
加工单元1005,用于利用所述目标加工链路加工数据。
本申请实施例提供的数据加工装置中,通过构建作业依赖关系图,以获取各条数据加工链路,并将包括作业最少的数据加工链路确定为目标加工链路,实现对数据加工链路的优化,并利用目标加工链路加工数据,从而提高数据加工效率,进而满足日益增长的数字化经营及监管需求开展,并且,通过对目标加工链路中的作业进行作业优化,从而提高作业运行效率,进一步提高了数据加工效率。
在本申请的一个实施例中,基于前述方案,加工单元1005具体用于:
获取所述目标加工链路包括的每个作业的历史运行时间;
基于所述目标加工链路包括的每个作业的历史运行时间,统计所述目标加工链路的数据加工耗时;
若所述目标加工链路的数据加工耗时大于预设的截止报送时间,则在所述目标加工链路包括的各个作业中,确定至少一个待优化作业,并对各个待优化作业进行作业优化;
利用作业优化后的目标加工链路加工数据;
若所述目标加工链路当前的数据加工耗时不大于预设的截止报送时间,则利用所述目标加工链路加工数据。
在本申请的一个实施例中,基于前述方案,加工单元1005在对各个待优化作业进行优化时,具体用于:
对每个待优化作业进行数据表分布优化、数据表分区优化和数据过滤优化。
在本申请的一个实施例中,基于前述方案,还可以配置为:
第三获取单元,用于若所述目标加工链路包括的各个作业中任一作业发生故障,则获取故障作业的作业信息和所述故障作业所属组件的组件信息;所述故障作业为发生故障的作业;
定位单元,用于基于所述作业信息和所述组件信息,定位故障源。
在本申请的一个实施例中,基于前述方案,定位单元具体用于:
将所述故障作业作为目标作业;
基于所述作业信息和所述组件信息,确定所述目标作业的依赖作业;
基于所述依赖作业的运行状态,判断所述依赖作业是否发生故障;
若所述依赖作业发生故障,则将所述依赖作业作为目标作业,并返回执行所述确定与所述目标作业有依赖关系的作业的步骤,直至当前的依赖作业不发生故障,将当前的目标作业确定为故障源。
在本申请的一个实施例中,基于前述方案,还可以配置为:
第二确定单元,用于确定预设的与所述故障源对应的备份作业;
替换单元,用于将所述故障源替换为所确定的备份作业,以使所述备份作业代替所述故障源进行数据加工。
在本申请的一个实施例中,基于前述方案,还可以配置为:
第三确定单元,用于若所述目标加工链路包括的各个作业中任一作业发生故障,基于发生故障的作业的作业信息,确定受影响作业;
生成单元,用于获取受影响作业的业务场景及说明,并基于受影响作业的业务场景及说明,生成业务影响说明。
本申请实施例还提供了一种存储介质,所述存储介质存储有指令集,其中,在所述指令集运行时执行如上文任一实施例公开的数据加工方法。
本申请实施例还提供了一种电子设备,其结构示意图如图11所示,具体包括存储器1101,用于存储至少一组指令集;处理器1102,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上文任一实施例公开的数据加工方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种数据加工方法,其特征在于,包括:
获取每个组件包括的各个作业的依赖配置信息;
基于每个作业的依赖配置信息,构建作业依赖关系图;
获取所述作业依赖关系图包括的数据加工链路;每条数据加工链路至少包括源端作业和末端作业;
将包括作业最少的数据加工链路确定为目标加工链路;
利用所述目标加工链路加工数据。
2.根据权利要求1所述的方法,其特征在于,所述利用所述目标加工链路加工数据,包括:
获取所述目标加工链路包括的每个作业的历史运行时间;
基于所述目标加工链路包括的每个作业的历史运行时间,统计所述目标加工链路的数据加工耗时;
若所述目标加工链路的数据加工耗时大于预设的截止报送时间,则在所述目标加工链路包括的各个作业中,确定至少一个待优化作业,并对各个待优化作业进行作业优化;
利用作业优化后的目标加工链路加工数据;
若所述目标加工链路当前的数据加工耗时不大于预设的截止报送时间,则利用所述目标加工链路加工数据。
3.根据权利要求2所述的方法,其特征在于,所述对各个待优化作业进行优化,包括:
对每个待优化作业进行数据表分布优化、数据表分区优化和数据过滤优化。
4.根据权利要求1所述的方法,其特征在于,所述利用所述目标加工链路加工数据之后,还包括:
若所述目标加工链路包括的各个作业中任一作业发生故障,则获取故障作业的作业信息和所述故障作业所属组件的组件信息;所述故障作业为发生故障的作业;
基于所述作业信息和所述组件信息,定位故障源。
5.根据权利要求4所述的方法,其特征在于,所述基于所述作业信息和所述组件信息,定位故障源,包括:
将所述故障作业作为目标作业;
基于所述作业信息和所述组件信息,确定所述目标作业的依赖作业;
基于所述依赖作业的运行状态,判断所述依赖作业是否发生故障;
若所述依赖作业发生故障,则将所述依赖作业作为目标作业,并返回执行所述确定与所述目标作业有依赖关系的作业的步骤,直至当前的依赖作业不发生故障,将当前的目标作业确定为故障源。
6.根据权利要求5所述的方法,其特征在于,所述基于所述作业信息和所述组件信息,定位故障源之后,还包括:
确定预设的与所述故障源对应的备份作业;
将所述故障源替换为所确定的备份作业,以使所述备份作业代替所述故障源进行数据加工。
7.根据权利要求1所述的方法,其特征在于,所述利用所述目标加工链路加工数据之后,还包括:
若所述目标加工链路包括的各个作业中任一作业发生故障,基于发生故障的作业的作业信息,确定受影响作业;
获取受影响作业的业务场景及说明,并基于受影响作业的业务场景及说明,生成业务影响说明。
8.一种数据加工装置,其特征在于,包括:
第一获取单元,用于获取每个组件包括的各个作业的依赖配置信息;
构建单元,用于基于每个作业的依赖配置信息,构建作业依赖关系图;
第二获取单元,用于获取所述作业依赖关系图包括的数据加工链路;每条数据加工链路至少包括源端作业和末端作业;
第一确定单元,用于将包括作业最少的数据加工链路确定为目标加工链路;
加工单元,用于利用所述目标加工链路加工数据。
9.一种存储介质,其特征在于,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如权利要求1~7任意一项所述的数据加工方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如权利要求1~7任意一项所述的数据加工方法。
CN202210004579.3A 2022-01-04 2022-01-04 一种数据加工方法及装置、存储介质及电子设备 Pending CN114331201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210004579.3A CN114331201A (zh) 2022-01-04 2022-01-04 一种数据加工方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210004579.3A CN114331201A (zh) 2022-01-04 2022-01-04 一种数据加工方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114331201A true CN114331201A (zh) 2022-04-12

Family

ID=81025087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210004579.3A Pending CN114331201A (zh) 2022-01-04 2022-01-04 一种数据加工方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114331201A (zh)

Similar Documents

Publication Publication Date Title
US12073298B2 (en) Machine learning service
US8515898B2 (en) Column based data transfer in extract transform and load (ETL) systems
US9886670B2 (en) Feature processing recipes for machine learning
CN105453040B (zh) 在分布式计算环境中处理数据流的方法和系统
US11164131B2 (en) Measure factory
CN111339073A (zh) 实时数据处理方法、装置、电子设备及可读存储介质
CN109614227A (zh) 任务资源调配方法、装置、电子设备及计算机可读介质
CN115374102A (zh) 数据处理方法及系统
CN112579586A (zh) 数据处理方法、装置、设备及存储介质
CN110852559A (zh) 资源的分配方法和装置、存储介质、电子装置
CN112102099A (zh) 保单数据处理方法、装置、电子设备及存储介质
US11893020B2 (en) Enhancing database query processing
CN113918532A (zh) 画像标签聚合方法、电子设备及存储介质
CN107463638A (zh) 离线虚拟机间文件共享方法和设备
US20210049074A1 (en) Cognitive data backup
Mishra et al. Challenges in big data application: a review
CN114331201A (zh) 一种数据加工方法及装置、存储介质及电子设备
US20220092503A1 (en) Measure factory
CN111639057A (zh) 日志消息处理方法、装置、计算机设备及存储介质
US11636085B2 (en) Detection and utilization of similarities among tables in different data systems
US11914586B2 (en) Automated partitioning of a distributed database system
CN111309683B (zh) 扫描全盘数据的方法及装置
CN117853224A (zh) 信用卡清分清算平台、调度方法及服务器
CN117033522A (zh) 一种基于数据湖的数据处理方法、装置、电子设备及介质
CN115511431A (zh) 一种代理商酬金结算方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination