CN111680085A - 数据处理任务分析方法、装置、电子设备和可读存储介质 - Google Patents

数据处理任务分析方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN111680085A
CN111680085A CN202010378418.1A CN202010378418A CN111680085A CN 111680085 A CN111680085 A CN 111680085A CN 202010378418 A CN202010378418 A CN 202010378418A CN 111680085 A CN111680085 A CN 111680085A
Authority
CN
China
Prior art keywords
task
data processing
data
processing task
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010378418.1A
Other languages
English (en)
Inventor
万雄飞
马方旭
徐阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010378418.1A priority Critical patent/CN111680085A/zh
Publication of CN111680085A publication Critical patent/CN111680085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理任务分析方法、装置、电子设备和可读存储介质,所述方法包括:获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;根据所述元数据生成相应的所述数据处理任务的任务特征;根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。通过本申请,解决了在ETL数据生产过程中人工调优带来的低效以及成本高等技术问题,提高了ETL数据处理任务的时效性。

Description

数据处理任务分析方法、装置、电子设备和可读存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理任务分析方法、装置、电子设备和计算机可读存储介质。
背景技术
随着公司业务不断的发展,数据量的日益增多,以及数据使用方对数据产出时间的要求越来越严格,导致数据仓库中对模型的时效性要求不可避免的增加,所以ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)任务的时效性优化是离线数据仓库一直面临的严峻挑战。
相关技术中主要通过人工分析优化ETL的时效性,然而,该方法至少存在如下问题:1)分析手段单一,分析结果存在主观性导致优化效率无法保证;2)人工优化ETL时效性的周期较长;3)人工预估优化手段的可行性和收益评估不准确。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理任务分析方法、装置、电子设备和计算机可读存储介质。
依据本申请的第一方面,提供了一种数据处理任务分析方法,包括:
获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;
根据所述元数据生成相应的所述数据处理任务的任务特征;
根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
可选地,所述元数据包括上游任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
可选地,所述元数据包括当前任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
可选地,所述元数据包括队列资源特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
可选地,所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果包括:
对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
可选地,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述方法还包括:
响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
可选地,所述获取数据处理任务的元数据包括:
提供前端页面,以通过所述前端页面接收数据处理任务标识;
根据所述数据处理任务标识获取所述数据处理任务的元数据;
所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果还包括:
通过所述前端页面展示所述数据处理任务分析结果。
依据本申请的第二方面,提供了一种数据处理任务分析装置,包括:
获取单元,用于获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;
生成单元,用于根据所述元数据生成相应的所述数据处理任务的任务特征;
确定单元,用于根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
可选地,所述元数据包括上游任务特征数据,所述生成单元还用于:
根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
可选地,所述元数据包括当前任务特征数据,所述生成单元还用于:
根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
可选地,所述元数据包括队列资源特征数据,所述生成单元还用于:
根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
可选地,所述确定单元还用于:
对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
可选地,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述装置还包括:
响应单元,用于响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
可选地,所述获取单元还用于:
提供前端页面,以通过所述前端页面接收数据处理任务标识;
根据所述数据处理任务标识获取所述数据处理任务的元数据;
所述确定单元还用于:
通过所述前端页面展示所述数据处理任务分析结果。
依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,采用获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种,根据所述元数据生成相应的所述数据处理任务的任务特征的方式,通过根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果,解决了在ETL数据生产过程中人工调优带来的低效以及成本高等技术问题,提高了ETL数据处理任务的时效性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的数据处理任务分析方法的流程示意图;
图2示出了根据本申请一个实施例的数据处理任务分析方法的流程框图;
图3示出了根据本申请一个实施例的数据处理任务分析装置的结构示意图;
图4示出了根据本申请一个实施例的电子设备的结构示意图;
图5示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
在数据仓库构建过程中,ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)主要负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是构建数据仓库最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到数据仓库构建的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为后期数据仓库开发提供准确的数据。
现有技术中对ETL运行状态的分析和性能的提升主要依赖于人工去发现问题和解决问题,但是由于分析人员的技术水平和经验是因人而异的,导致分析结果往往存在主观性,且人工分析手段单一,导致ETL优化效率无法得到保证。此外,人工参照技术文档进行优化需要克服技术门槛并且需要一定的学习成本,导致ETL时效性优化周期非常长。因此,依赖于人工预估优化ETL时效性的手段效率不高,缺乏可行性。
基于此,本申请提供了一种数据处理任务分析方法,以解决至少一种上述存在的问题,如图1所示,所述方法包括如下步骤S110至步骤S130:
步骤S110,获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种。
在ETL的数据处理任务中,元数据是一个基础元素,它保存记录了ETL过程中所需的各种辅助信息,是ETL过程正确执行的关键。在本申请实施例中,元数据所对应的维度可以包括数据抽取任务、数据转换任务和数据加载任务中的任意一种或多种维度下的数据。数据抽取(Extraction)是指从各个不同的数据源抽取数据到操作型数据存储中,在抽取的过程中可以选取不同的抽取方法,尽可能的提高ETL的运行效率。数据转换(Transformation)主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。数据加载(Loading)是指将经过数据清洗的数据,按照预先定义好的数据仓库模型,加载到数据仓库中去。每个任务维度在运行时都会产生相应的元数据,这些元数据表征了该数据处理任务的运行状态和性能,是后续进行ETL时效性优化分析的基础数据。
步骤S120,根据所述元数据生成相应的所述数据处理任务的任务特征。
在得到数据抽取任务、数据转换任务和数据加载任务所对应的元数据之后,需要对每个任务维度下的元数据进行分类。基于ETL的生产环境,元数据可以划分为上游任务特征数据、当前任务特征数据和队列资源特征数据等类别,具体类别的设置本领域技术人员可以根据实际需求灵活设置,在此不做具体限定。为了满足后续数据处理任务分析模型对输入数据的要求,需要针对每个类别维度下的元数据分别进行任务特征的提取,任务特征可以用于表征每个数据处理任务在各类别维度下的任务处理状态信息。举例说明,对于数据抽取任务,该任务维度下对应的元数据包括上游抽取任务的完成时间为t1和完成时长为T,那么则将上游抽取任务的完成时间t1和完成时长T作为该数据抽取任务的任务特征。
步骤S130,根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
本申请实施例中的数据处理任务分析模型可利用机器学习算法对历史经验等数据进行训练和测试得到,也可以按照长期积累并且通用于不同领域的ETL的常规优化方法配置得到,通过将上述提取到的任务特征输入该数据处理任务分析模型,可以对数据抽取、转换和加载任务处理过程进行迭代优化,提高ETL任务处理的时效性。需要说明的是,该数据处理任务分析模型可以是一个也可以是多个,可以针对不同的数据处理任务分别训练或构建不同的分析模型,也可以是多个子模型融合后得到的一个分析模型,在此不做具体限定。
在本申请的一个实施例中,所述元数据包括上游任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
本申请实施例中的元数据可以包括上游任务特征数据,上游任务特征数据是相对于当前任务特征数据而言的,用于表征与当前任务对应的上游任务的处理状态。ETL在处理数据时,往往会分成多个任务步骤来完成一个数据处理流程。多个任务步骤之间往往有着强依赖关系,上游任务执行并成功,下游任务才可以执行。例如,上游任务结束后产出A结果,下游任务需结合A结果才能产出B结果,因此下游任务的开始一定是在上游任务成功运行并产出结果之后才可以开始。而有时为了保证数据处理结果的高准确性,就必须要求这些任务按照上下游依赖关系有序、高效的执行。因此,上游任务的任务处理状态在很大程度上影响着当前任务或者下游任务的执行效率。
从上游任务特征数据中可以提取出上游任务完成时间、上游模型文件大小以及上游模型文件数量等任务特征,上游任务完成时间越长会导致下游任务执行推迟,上游模型文件越大或者上游模型文件数量越多,会在一定程度导致下游任务执行效率降低,进而影响数据处理任务的时效性,因此需要采取手段解决这一问题。
例如,可以事先限定上游任务完成时间、上游模型文件大小以及上游模型小文件数量的阈值分别为X、Y、Z,将当前提取到的任务特征数据包括上游任务A和B的就绪时间差x1、上游模型文件大小y1以及上游模型小文件数量z1分别与上述阈值比较,发现上游任务A和B的就绪时间差x1超过了阈值X,上游模型小文件数量z1超过了阈值Z,则可以分别采用不同的优化方案,例如,可以按照上游任务A和B的就绪时间拆分,ETL的时效性预计可提升m分钟,或者增加合并小文件的参数等等。上述阈值均可根据实际任务场景对于任务执行性能和时效性的要求灵活设置,例如对于十分紧要的任务场景,可设置相对较小的阈值。需要说明的是,上述过程可以在本申请实施例的数据处理任务分析模型中得到实现。
在本申请的一个实施例中,所述元数据包括当前任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
本申请实施例中的元数据可以包括当前任务特征数据,当前任务特征数据可以用来表征当前正在执行的任务的处理状态数据。从当前任务特征数据中可以提取出任务执行倾斜度以及任务执行阶段信息等任务特征。任务执行倾斜度的本质是数据倾斜,数据倾斜指的是在并行处理的过程中,某些分区或节点处理的数据,显著高于其他分区或节点,导致这部分的数据处理任务比其他任务要大很多,从而成为这个阶段执行最慢的部分,进而成为整个作业执行的瓶颈,甚至直接导致作业失败。
例如,在一个spark(一种大数据处理引擎)作业中,其中某个stage(一组并行的任务)是由200个分区组成,在实际执行中,有198个分区在10秒内就完成了,但是有2个分区执行了3分钟都没有完成,并且在执行5分钟后失败了,这便是典型的数据倾斜场景,通过观察发现这两个分区要处理的数据量是其他分区的30多倍,属于比较严重的数据倾斜。计算作业通常是分阶段进行的,阶段与阶段之间通常存在数据上的依赖关系,也就是说后一阶段需要等前一阶段执行完才能开始。例如,Stage1在Stage0之后执行,假如Stage1依赖Stage0产生的数据结果,那么Stage1必须等待Stage0执行完成后才能开始,如果这时Stage0因为数据倾斜问题,导致任务执行时长过长,或者直接挂起,那么Stage1将一直处于等待状态,整个作业也就一直挂起。这个时候,资源被这个作业占据,只有极少数任务在执行,造成计算资源的严重浪费,利用率下降。
若想解决由于数据倾斜造成的ETL任务时效性降低的问题,需要分析数据倾斜产生的原因,数据倾斜产生的原因可能是多种多样的,一种情况是在shuffle阶段造成倾斜,Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。而MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或者join操作。如果某个key对应的数据量特别大的话,就会发生数据倾斜,最终导致整个spark作业的运行进度会非常缓慢。因此对于这种在shuffle阶段造成的数据倾斜,可以通过排查shuffle中的key分布来解决。
在ETL场景下,数据倾斜的问题也经常发生,例如,Hive是建立在Hadoop上的一种数据仓库基础构架,它提供了一系列的工具,可以用来执行ETL过程,如果Hive表中的数据本身很不均匀,而该业务场景下又需要频繁的使用spark对Hive表执行某个分析操作,这时就会产生数据倾斜。因此分析并解决ETL过程中发生的数据倾斜问题将有助于提高ETL任务处理的时效性。本申请实施例中的任务执行倾斜度可以用来表征数据倾斜的程度,具体可以通过如下方式计算任务执行倾斜度:统计各个stage上要处理的数据量的中位数,然后用每个stage处理的数据减去这个中位数,得到的就是任务执行倾斜度,当然本领域技术人员也可以采用其他计算方式,在此不一一列举。需要说明的是,上述过程同样可以在本申请实施例的数据处理任务分析模型中得到实现。
在本申请的一个实施例中,所述元数据包括队列资源特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
本申请实施例中的元数据可以包括队列资源特征数据,队列资源特征数据可以用来表征任务在生产期间所在队列的资源使用情况。从队列资源特征数据中可以提取出任务执行队列待处理任务量等任务特征,此外,还可以包括各队列最大最小资源、当前已用资源、当前运行任务数以及资源使用比例等任务特征,根据这些任务特征可以了解任务所在队列的资源使用情况,进而优化队列的资源配置,提高队列任务处理的时效性。例如,可以事先设置队列资源待处理量阈值为P,若当前任务所在队列的待处理任务量p1达到该阈值P,则说明当前任务所在队列存在长时间排队现象,可以通过提高任务所在队列的优先级来提高任务处理时效性。为了控制资源队列对可用CPU资源的消耗,可以为资源队列分配适当的优先级。当高并发性导致CPU资源争用时,与高优先级资源队列相关联的任务将比低优先级资源队列获得更大的可用CPU份额。需要说明的是,上述过程同样可以在本申请实施例的数据处理任务分析模型中得到实现。
在本申请的一个实施例中,所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果包括:对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
在利用数据处理任务分析模型对任务特征数据进行分析处理时,为了提高分析过程的效率,保证分析结果的可靠性和稳定性,需要对上一步获取到的任务特征数据进行清洗,数据清洗的目的主要是为了剔除任务特征数据中的异常数据,避免异常数据对分析结果的准确性造成影响。具体的数据清洗方法本领域技术人员可以根据实际需要灵活设置,在此不做具体限定,例如可以是,对于某一段时间内的任务特征数据,剔除掉数据中的最大值和最小值,并将剩余数据取平均值后作为清洗后的数据。
在本申请的一个实施例中,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述方法还包括:响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
具体实施时,如前所述,本申请实施例中的任务特征可以包括上游任务完成时间、上游模型文件大小、上游模型文件数量、任务执行倾斜度、任务执行阶段信息以及任务执行队列待处理任务量等等多个类别,不同的任务特征对应不同的分析规则,进而对应着不同的分析结果和目标解决方案,目标解决方案可以是与分析结果对应的任务处理优化建议,例如,调整任务队列的优先级、增加合并小文件的参数设置以及排查shuffle中的key分布等。通过响应于对目标解决方案的执行请求,可以根据该目标解决方案中的优化建议对相应的数据处理任务执行优化过程。
在本申请的一个实施例中,所述获取数据处理任务的元数据包括:提供前端页面,以通过所述前端页面接收数据处理任务标识;根据所述数据处理任务标识获取所述数据处理任务的元数据;所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果还包括:通过所述前端页面展示所述数据处理任务分析结果。
在进行数据处理任务分析时,需要确定待分析的数据对象,因此本申请实施例还提供了前端页面,该前端页面可以接收用户输入的数据处理任务标识如任务名称,通过检索匹配调取与该任务名称相关的元数据以便进行后续分析,或者也可以输入任务ID信息进行数据提取,任何可以用来表征该任务的唯一标识信息均可以作为用户在前端页面的输入,在此不做具体限定。除了接收用户在前端页面输入的方式,也可以根据系统配置规则自动进行相关数据的提取和分析,如可以规定以某一频率或在某一时间节点自动抽取相关数据进行后续分析处理,实现对定期任务执行情况的抽检和优化。在通过数据处理任务模型得到对数据处理任务的分析结果后,还可以在前端页面展示该数据处理任务的分析结果,例如展示该任务存在的时效性问题及对应的解决方案等。
如图2所示,本申请实施例还提供了一种数据处理任务分析方法的流程框图,首先,获取用户在前端页面输入的待分析任务标识如任务ID,之后在各数据源中进行检索得到与该任务ID相对应的任务元数据,对任务元数据进行特征提取和数据清洗,剔除掉数据中的异常值等,作为分析模型的输入,将经过数据清洗的任务特征数据输入到预设构建的数据处理任务分析模型中进行分析,最后输出该数据处理任务的分析结果。
图3示出了根据本申请一个实施例的数据处理任务分析装置的结构示意图。如图3所示,所述数据处理任务分析装置300包括:获取单元310、生成单元320和确定单元330。
本申请实施例的获取单元310,用于获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种。
在ETL的数据处理任务中,元数据是一个基础元素,它保存记录了ETL过程中所需的各种辅助信息,是ETL过程正确执行的关键。在本申请实施例中,元数据所对应的维度可以包括数据抽取任务、数据转换任务和数据加载任务中的任意一种或多种维度下的数据。数据抽取(Extraction)是指从各个不同的数据源抽取数据到操作型数据存储中,在抽取的过程中可以选取不同的抽取方法,尽可能的提高ETL的运行效率。数据转换(Transformation)主要进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。数据加载(Loading)是指将经过数据清洗的数据,按照预先定义好的数据仓库模型,加载到数据仓库中去。每个任务维度在运行时都会产生相应的元数据,这些元数据表征了该数据处理任务的运行状态和性能,是后续进行ETL时效性优化分析的基础数据。
本申请实施例的生成单元320,用于根据所述元数据生成相应的所述数据处理任务的任务特征。
在得到数据抽取任务、数据转换任务和数据加载任务所对应的元数据之后,需要对每个任务维度下的元数据进行分类。基于ETL的生产环境,元数据可以划分为上游任务特征数据、当前任务特征数据和队列资源特征数据等类别,具体类别的设置本领域技术人员可以根据实际需求灵活设置,在此不做具体限定。为了满足后续数据处理任务分析模型对输入数据的要求,需要针对每个类别维度下的元数据分别进行任务特征的提取,任务特征可以用于表征每个数据处理任务在各类别维度下的任务处理状态信息。举例说明,对于数据抽取任务,该任务维度下对应的元数据包括上游抽取任务的完成时间为t1和完成时长为T,那么则将上游抽取任务的完成时间t1和完成时长T作为该数据抽取任务的任务特征。
本申请实施例的确定单元330,用于根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
本申请实施例中的数据处理任务分析模型可利用机器学习算法对历史经验数据进行训练和测试得到,也可以按照长期积累并且通用于不同领域ETL的常规优化方法配置得到,通过将上述提取到的任务特征输入该数据处理任务分析模型,可以对数据抽取、转换和加载任务处理过程进行迭代优化,提高ETL任务处理的时效性。需要说明的是,该数据处理任务分析模型可以是一个也可以是多个,可以针对不同的数据处理任务分别训练或构建不同的分析模型,也可以是多个子模型融合后得到的一个分析模型,在此不做具体限定。
在本申请的一个实施例中,所述元数据包括上游任务特征数据,所述生成单元320还用于:根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
在本申请的一个实施例中,所述元数据包括当前任务特征数据,所述生成单元320还用于:根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
在本申请的一个实施例中,所述元数据包括队列资源特征数据,所述生成单元320还用于:根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
在本申请的一个实施例中,所述确定单元330还用于:对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
在本申请的一个实施例中,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述装置300还包括:响应单元,用于响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
在本申请的一个实施例中,所述获取单元310还用于:提供前端页面,以通过所述前端页面接收数据处理任务标识;根据所述数据处理任务标识获取所述数据处理任务的元数据;所述确定单元330还用于:通过所述前端页面展示所述数据处理任务分析结果。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,采用获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种,根据所述元数据生成相应的所述数据处理任务的任务特征的方式,通过根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果,解决了在ETL数据生产过程中人工调优带来的低效以及成本高等技术问题,提高了ETL数据处理任务的时效性。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的数据处理任务分析装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图4示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备400包括处理器410和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器420。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码431的存储空间430。例如,用于存储计算机可读程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码431。计算机可读程序代码431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。图5示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机可读程序代码431,可以被电子设备400的处理器410读取,当计算机可读程序代码431由电子设备400运行时,导致该电子设备400执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码431可以执行上述任一实施例中示出的方法。计算机可读程序代码431可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种数据处理任务分析方法,其特征在于,包括:
获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;
根据所述元数据生成相应的所述数据处理任务的任务特征;
根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
2.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述元数据包括上游任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述上游任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括上游任务完成时间、上游模型文件大小以及上游模型文件数量中的至少一种。
3.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述元数据包括当前任务特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述当前任务特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行倾斜度以及任务执行阶段信息中的至少一种。
4.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述元数据包括队列资源特征数据,所述根据所述元数据生成相应的所述数据处理任务的任务特征包括:
根据所述队列资源特征数据生成相应的所述数据处理任务的任务特征,其中所述数据处理任务的任务特征包括任务执行队列待处理任务量。
5.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果包括:
对所述任务特征进行数据清洗,以将经过数据清洗后的任务特征作为所述数据处理任务分析模型的输入。
6.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述数据处理任务分析模型包括与任务特征类别对应的分析规则,所述数据处理任务分析结果包括与各所述任务特征类别对应的分析结果和目标解决方案,所述方法还包括:
响应于对所述目标解决方案的执行请求,根据所述目标解决方案对所述数据处理任务进行优化。
7.根据权利要求1所述的数据处理任务分析方法,其特征在于,所述获取数据处理任务的元数据包括:
提供前端页面,以通过所述前端页面接收数据处理任务标识;
根据所述数据处理任务标识获取所述数据处理任务的元数据;
所述根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果还包括:
通过所述前端页面展示所述数据处理任务分析结果。
8.一种数据处理任务分析装置,其特征在于,包括:
获取单元,用于获取数据处理任务的元数据,所述数据处理任务包括数据抽取任务、数据转换任务和数据加载任务中的至少一种;
生成单元,用于根据所述元数据生成相应的所述数据处理任务的任务特征;
确定单元,用于根据所述任务特征和数据处理任务分析模型确定数据处理任务分析结果。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1至7中任一项所述的方法。
CN202010378418.1A 2020-05-07 2020-05-07 数据处理任务分析方法、装置、电子设备和可读存储介质 Pending CN111680085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010378418.1A CN111680085A (zh) 2020-05-07 2020-05-07 数据处理任务分析方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010378418.1A CN111680085A (zh) 2020-05-07 2020-05-07 数据处理任务分析方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN111680085A true CN111680085A (zh) 2020-09-18

Family

ID=72434180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010378418.1A Pending CN111680085A (zh) 2020-05-07 2020-05-07 数据处理任务分析方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111680085A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925624A (zh) * 2021-03-17 2021-06-08 中国电子系统技术有限公司 一种数据处理任务的配置方法以及装置
CN113687825A (zh) * 2021-08-25 2021-11-23 恒安嘉新(北京)科技股份公司 一种软件模块的构建方法、装置、设备及存储介质
CN113961726A (zh) * 2021-12-20 2022-01-21 中国人民解放军战略支援部队航天工程大学士官学校 一种指挥任务匹配方法及系统
CN114936085A (zh) * 2022-07-21 2022-08-23 联通沃音乐文化有限公司 基于深度学习算法的etl调度方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140259025A1 (en) * 2013-03-07 2014-09-11 Emc Corporation Method and apparatus for parallel computing
CN107688488A (zh) * 2016-08-03 2018-02-13 中国移动通信集团湖北有限公司 一种基于元数据的任务调度的优化方法及装置
CN109885624A (zh) * 2019-01-23 2019-06-14 金蝶软件(中国)有限公司 数据处理方法、装置、计算机设备和存储介质
CN110515734A (zh) * 2019-08-27 2019-11-29 第四范式(北京)技术有限公司 数据处理任务的负载处理方法及装置
CN110580265A (zh) * 2019-09-16 2019-12-17 北京三快在线科技有限公司 Etl任务的处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140259025A1 (en) * 2013-03-07 2014-09-11 Emc Corporation Method and apparatus for parallel computing
CN107688488A (zh) * 2016-08-03 2018-02-13 中国移动通信集团湖北有限公司 一种基于元数据的任务调度的优化方法及装置
CN109885624A (zh) * 2019-01-23 2019-06-14 金蝶软件(中国)有限公司 数据处理方法、装置、计算机设备和存储介质
CN110515734A (zh) * 2019-08-27 2019-11-29 第四范式(北京)技术有限公司 数据处理任务的负载处理方法及装置
CN110580265A (zh) * 2019-09-16 2019-12-17 北京三快在线科技有限公司 Etl任务的处理方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925624A (zh) * 2021-03-17 2021-06-08 中国电子系统技术有限公司 一种数据处理任务的配置方法以及装置
CN113687825A (zh) * 2021-08-25 2021-11-23 恒安嘉新(北京)科技股份公司 一种软件模块的构建方法、装置、设备及存储介质
CN113687825B (zh) * 2021-08-25 2023-12-12 恒安嘉新(北京)科技股份公司 一种软件模块的构建方法、装置、设备及存储介质
CN113961726A (zh) * 2021-12-20 2022-01-21 中国人民解放军战略支援部队航天工程大学士官学校 一种指挥任务匹配方法及系统
CN113961726B (zh) * 2021-12-20 2022-03-01 中国人民解放军战略支援部队航天工程大学士官学校 一种指挥任务匹配方法及系统
CN114936085A (zh) * 2022-07-21 2022-08-23 联通沃音乐文化有限公司 基于深度学习算法的etl调度方法及装置

Similar Documents

Publication Publication Date Title
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN111381970B (zh) 集群任务的资源分配方法及装置、计算机装置及存储介质
CN108153587B (zh) 一种针对大数据平台的慢任务原因检测方法
EP3279806A1 (en) Data processing method and apparatus
CN108492150B (zh) 实体热度的确定方法及系统
CN107562532B (zh) 一种预测设备集群的硬件资源利用率的方法及装置
CN110019298B (zh) 数据处理方法和装置
CN111967521B (zh) 跨境活跃用户识别方法及装置
US10592507B2 (en) Query processing engine recommendation method and system
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN113268403A (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN110489242B (zh) 分布式数据计算方法、装置、终端设备及存储介质
CN111124791A (zh) 一种系统测试方法及装置
CN110928636A (zh) 虚拟机热迁移方法、装置和设备
CN110909072B (zh) 一种数据表建立方法、装置及设备
CN116071133A (zh) 基于大数据的跨境电商环境分析方法、系统及计算设备
CN113220530B (zh) 数据质量监控方法及平台
CN113722141A (zh) 数据任务的延迟原因确定方法、装置、电子设备及介质
CN109086207B (zh) 页面响应故障分析方法、计算机可读存储介质及终端设备
CN113010310A (zh) 作业数据的处理方法、装置和服务器
CN114223189B (zh) 时长统计方法、装置、电子设备和计算机可读介质
CN110825493A (zh) 一种虚拟机调优的方法及装置
CN112148764B (zh) 特征的筛选方法、装置、设备和存储介质
CN117290113B (zh) 一种任务处理方法、装置、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200918

WD01 Invention patent application deemed withdrawn after publication