CN107301113A - 任务监控方法及装置 - Google Patents

任务监控方法及装置 Download PDF

Info

Publication number
CN107301113A
CN107301113A CN201710384951.7A CN201710384951A CN107301113A CN 107301113 A CN107301113 A CN 107301113A CN 201710384951 A CN201710384951 A CN 201710384951A CN 107301113 A CN107301113 A CN 107301113A
Authority
CN
China
Prior art keywords
information
etl tasks
delay
configuration information
etl
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710384951.7A
Other languages
English (en)
Inventor
谢凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaodu Information Technology Co Ltd
Original Assignee
Beijing Xiaodu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaodu Information Technology Co Ltd filed Critical Beijing Xiaodu Information Technology Co Ltd
Priority to CN201710384951.7A priority Critical patent/CN107301113A/zh
Publication of CN107301113A publication Critical patent/CN107301113A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Abstract

本发明实施例提供一种任务监控方法及装置,涉及计算机应用技术领域。通过确定查询配置信息;基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;输出所述延迟信息。本发明实施例提供的技术方案,实现了ETL任务的延迟信息自动统计,方便及时有效的获得ETL任务的延迟情况。

Description

任务监控方法及装置
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种任务监控方法及装置。
背景技术
ETL(extract-transform-load,抽取-转换-装载)用来描述数据从源端经过抽取、转换、加载至目的端的执行过程。
在进行数据分析、使用等数据处理中,数据ETL是不可或缺的关键步骤,数据的及时产出有着很重要的作用。
但是实际应用中,由于存在大量的ETL任务,通常会存在某些ETL任务产出延迟情况,
发明内容
由于实际应用中存在大量ETL(extract-transform-load,抽取-转换-装载)任务,通常会存在ETL任务产出延迟情况,发明人在研究中发现,在进行数据分析或使用等处理时,可能会对应设置多个ETL任务,由于数据处理会例行执行,比如每天都会进行数据ETL,如果可以了解ETL任务的延迟趋势和延迟范围,宏观把握ETL变化趋势,可以及时进行优化,将减少ETL任务产出延迟造成的影响,据此提出了本发明实施例的技术方案,本发明实施例提供了一种任务监控方法及装置,实现了ETL任务的延迟信息自动统计,可以及时有效的获得ETL任务的延迟情况。
本发明的第一方面提供了一种任务监控方法,包括:
确定查询配置信息;
基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
输出所述延迟信息。
可选地,所述延迟信息统计步骤包括:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
可选地,所述延迟信息统计步骤包括:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
可选地,所述输出所述延迟信息包括:
结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出所述统计分布图。
可选地,所述查询配置信息确定步骤包括:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
第二方面,提供了一种任务监控装置,包括:
信息确定模块,用于确定查询配置信息;
信息统计模块,用于基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
信息输出模块,用于输出所述延迟信息。
可选地,所述信息统计模块具体用于:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
可选地,所述信息统计模块具体用于:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
可选地,所述信息输出模块包括:
绘制单元,用于结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出单元,用于输出所述统计分布图。
可选地,所述信息确定模块具体用于:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
本发明实施例中,通过确定查询配置信息,基于查询配置信息即可以自动查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息,输出该延迟信息,以方便用户查看,及时获知ETL任务的延迟信息,本发明实施例实现了ETL任务的延迟信息的自动统计,可以及时有效的获得ETL任务的延迟情况。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种任务监控方法一个实施例的流程图;
图2为本发明实施例提供的一种任务监控方法又一个实施例的流程图;
图3为本发明实施例提供的一种任务监控装置一个实施例的结构示意图;
图4为本发明实施例提供的一种任务监控装置又一个实施例的结构示意图;
图5为本发明实施例提供的一种电子装置一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本发明实施例的技术方案实现了对ETL(extract-transform-load,抽取-转换-装载)任务的自动监控,实际应用中,在进行数据分析或使用等处理时,会对应设置多个ETL任务,由于数据处理通常会例行执行,例如每小时、每天、每周等,而ETL任务执行过程中存在产出延迟的情况,导致数据不能在规定时间内处理完成,从而就会影响下游方的数据采集。为了降低ETL任务产出延迟带来的影响,发明人想到,如果可以了解ETL任务的延迟趋势和延迟范围,宏观把握ETL任务延迟变化趋势,即可以及时进行优化,在一定程度上可以减少ETL任务产出延迟造成的影响。
据此提出了本发明实施例的技术方案,由于ETL任务执行过程中ETL的执行完成情况可以监控获得,因此通过查询配置信息,即可以自动查询ETL任务的执行完成情况,并根据所述执行完成情况统计获得所述ETL任务的延迟信息;输出该延迟信息以方便用户查看,及时获知ETL任务的延迟信息,了解ETL任务的延迟情况。本发明实施例实现了ETL任务的延迟信息的自动统计,可以及时有效的获得ETL任务的延迟情况。且相较于人工统计方式,提高了统计效率,节省人力成本。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种任务监控方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:确定查询配置信息。
102:基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
其中,数据处理时,可以设置多个ETL任务。数据处理通常周期性进行,对延迟信息的统计也即可以周期性进行,对任一个处理周期,查询ETL任务在该任一处理周期内的执行完成情况并据此统计延时信息。
ETL任务执行过程中可以对ETL任务执行过程进行监控,并记录ETL任务的执行完成情况。也即执行完成情况可以是通过监控ETL任务执行过程获得并记录。该执行完成情况例如可以至少包括实际产出时间等信息。
查询配置信息也即根据执行完成情况的存储信息确定,例如可以包括存储地址、ETL任务的任务标识、统计时间范围等。根据统计时间范围可以确定查询哪一个处理周期中的ETL任务的执行完成情况。
根据执行完成情况,即可以统计获得ETL任务的延迟信息。其中延迟信息例如可以包括延迟数量、延迟率等。
由于现有技术中通常采用人工方式进行查找,以获得ETL任务的执行完成情况,且需要人工基于执行完成情况计算延迟信息,统计效率低,而本实施例中通过预先设置的查询配置信息,基于查询配置信息即可以自动触发查询ETL任务的执行完成情况,并可以自动统计获得ETL任务的延迟信息,提高了统计效率。
103:输出所述延迟信息。
通过输出延迟信息,用户即可以获知当前处理周期的ETL任务的延迟情况,从而可以进一步的基于ETL任务的延迟情况做出相应的决策处理等。
通过本实施例的技术方案,实现了ETL任务执行完成的情况的自动获取以及ETL任务的延迟信息的自动统计,从而可以及时有效的获得ETL任务的延迟情况。提高了统计效率。
此外,在实际应用中,ETL任务的执行完成情况可以存储在监控数据库中。因此,在某些实施例中,所述延迟信息统计步骤可以包括:
基于所述查询配置信息,从监控数据库中查询相应的ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
其中,ETL任务的执行完成情况存储在监控数据库中时,从监控数据库中查询需要利用查询语句,例如SQL语句。查询配置信息也即可以包括查询语句,因此,在某些实施例中,所述查询配置信息确定步骤可以包括:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。所述监控数据库为记录所述ETL任务的执行完成情况的数据库。ETL任务的执行完成情况存储在监控数据库中的数据表中。
库名称、表名称以及字段名称也即相当于执行完成情况的存储地址。
由于监控数据库可以存储不同处理周期中ETL任务的执行完成情况,因此根据统计时间范围即可以确定统计哪一个处理周期内的ETL任务的延迟信息。
该查询配置信息也即包括查询语句,通过该查询语句即可以实现查询以及统计操作。
例如如下所示,即为统计时间范围为2016年6月15日,查询全部ETL任务延迟数量的SQL语句。
SELECT count(*)FROM`t_dispatch_job`as job join t_dispatch_job_logs aslog on job.id=log.job_id
where log.day_key=20160615
and log.late_finish_time is not null
and(FROM_UNIXTIME(log.end_time/1000,'%Y-%m-%d%H:%i:%S')>log.late_finish_time or log.end_time is null)
由于数据处理通常是周期性进行,为了方便进一步了解ETL任务的延迟趋势,往往需要对多个处理周期的ETL任务的延迟信息进行统计。因此,可选地,在某些实施例中,所述延迟信息统计步骤可以包括:
在任一处理周期中的达规定时间,基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
该规定时间可以是每一个处理周期中的一个固定时间,可以是指每一个处理周期的结束时间,从而在一个处理周期结束之后,即可以对该处理周期的ETL任务进行延迟统计。通过设置规定时间,每到达规定时间即可以自动执行查询操作。
可选地,可以采用Jenkins技术定时执行,实现到达规定时间,即执行查询操作等。Jenkins是一种持续集成工具,可以用于监控持续重复的工作。
在实际应用中,由于一个处理周期中可能包括多个ETL任务,多个ETL任务中可以包括核心任务,核心任务也即是指数据处理时起到承上启下的关键任务。
因此,所述ETL任务的延迟信息可以包括全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率中的一个或多个;
全部任务延迟数量是指一个处理周期内,全部ETL任务中出现产出延迟的任务总量;
核心任务延迟数量是指一个处理周期内,全部ETL任务中的核心任务中出现产出延迟的任务总量。
其中,全部任务延迟数量中包括该核心任务延迟数量。
全部任务延迟率是指全部任务延迟数量与全部任务总量的比值;
核心任务延迟率是指核心任务延迟数量与全部任务总量的比值。
其中,执行完成情况至少可以包括实际产出时间以及预计产出时间,因此根据一个ETL任务的实际产出时间以及预计产出时间,即可以判断该ETL任务是否产出延迟。
具体的可以是如果实际产出时间大于预计产出时间或者实际产出时间为空时,即可以确定ETL任务产出延迟。
在查询配置信息为查询语句的情况下,如下例中所述,举例说明了用于统计全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率的查询语句。
核心任务延迟数量:
SELECT count(*)FROM`t_dispatch_job`as job join t_dispatch_job_logs aslog on job.id=log.job_id
where log.day_key=20160615
and log.late_finish_time is not null
and(FROM_UNIXTIME(log.end_time/1000,'%Y-%m-%d%H:%i:%S')>log.late_finish_time or log.end_time is null)
and job.id in(101,201,344,72,73,74,75,106,315,353,370,453,454,455,457,341,117,80,58,224,225,226,227,163,132,115,140,145,146,147,248,249,279,82,76,265,178,158,144,200,142,306)
全部任务延迟数量:
SELECT count(*)FROM`t_dispatch_job`as job join t_dispatch_job_logs aslog on job.id=log.job_id
where log.day_key=20160615
and log.late_finish_time is not null
and(FROM_UNIXTIME(log.end_time/1000,'%Y-%m-%d%H:%i:%S')>log.late_finish_time or log.end_time is null)
核心任务延迟率:
select(SELECT count(*)FROM`t_dispatch_job`as job joint_dispatch_job_logs as log on job.id=log.job_id
where log.day_key=20160615
and log.late_finish_time is not null
and(FROM_UNIXTIME(log.end_time/1000,'%Y-%m-%d%H:%i:%S')>log.late_finish_time or log.end_time is null)
and job.id in(101,201,344,72,73,74,75,106,315,353,370,453,454,455,457,341,117,80,58,224,225,226,227,163,132,115,140,145,146,147,248,249,279,82,76,265,178,158,144,200,142,306))
/(select count(*)from t_dispatch_job_logs
where late_finish_time is not null
and log.day_key=20160615
and job_id in(101,201,344,72,73,74,75,106,315,353,370,453,454,455,457,341,117,80,58,224,225,226,227,163,132,115,140,145,146,147,248,249,279,82,76,265,178,158,144,200,142,306))
全部任务延迟率:
select(SELECT count(*)FROM`t_dispatch_job`as job joint_dispatch_job_logs as log on job.id=log.job_id
where log.day_key=20160615
and log.late_finish_time is not null
and(FROM_UNIXTIME(log.end_time/1000,'%Y-%m-%d%H:%i:%S')>log.late_finish_time or log.end_time is null))
/(select count(*)from t_dispatch_job_logs where late_finish_time isnot null
and log.day_key=20160615)as delay
上例中,log.late_finish_time即表示预计产出时间,log.end_time表示实际产出时间,log.day_key即为统计时间范围等。
需要说明的是,上述仅是举例说明查询语句的可能实现形式,本领域技术人员可以理解的是,本发明并不仅限定于此。
图2为本发明实施例提供的一种任务监控方法又一个实施例的流程图,该方法可以包括以下几个步骤:
201:确定查询语句模板;
202:将处理对象输入所述查询语句模板,获得所述查询配置信息。
203:基于所述查询配置信息,查询ETL任务的执行完成情况。
其中,执行完成情况可以包括ETL任务的实际产出时间以及预计产出时间。
204:比较所述实际产出时间以及所述预计产出时间。
205:根据比较结果,计算获得所述ETL任务的延迟信息。
其中,如果实际产出时间为空或者实际产出时间大于预计产出时间,即表明ETL任务产出延迟。
ETL任务的延迟信息可以包括延迟数量、延迟率等。
可选地,ETL任务的延迟信息可以包括所述ETL任务的延迟信息包括全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率中的一个或多个。
206:结合对多个处理周期统计获得的延迟信息,生成统计分布图。
207:输出所述统计分布图。
本实施例中,为了使得用户更加方便的获知ETL任务的延迟情况,了解延迟变化趋势,可以结合对多个处理周期统计获得延迟信息,绘制统计分布图,通过统计分布图可以直观了解ETL任务的延迟信息。
多个处理周期可以是指连续的多个处理周期。
例如处理周期为天时,多个处理周期可以是指连续的一周或连续的一个月等。
可选地,在某些实施例中,可以是通过界面展示系统结合多个处理周期对应的延迟信息,绘制统计分布图并进行展示。
其中,该统计分布图中可以以不同处理周期为横轴,ETL任务的延迟信息为纵轴进行展示。
当然,可选地,结合对多个处理周期统计获得的延迟信息,生成统计分布图可以包括:
根据对相邻处理周期统计获得的延迟信息,计算环比数据;
结合多个相邻处理周期对应的环比数据,生成统计分布图。
也即可以通过统计分布图展示环比数据,可以更加直观的了解延迟变化趋势。
图3为本发明实施例提供的一种任务监控装置一个实施例的结构示意图,该装置可以包括:
信息确定模块301,用于确定查询配置信息;
信息统计模块302,用于基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
信息输出模块303,用于输出所述延迟信息。
通过本实施例的技术方案,实现了ETL任务执行完成的情况的自动获取以及ETL任务的延迟信息的自动统计,从而可以及时有效的获得ETL任务的延迟情况。提高了统计效率。
此外,在实际应用中,ETL任务的执行完成情况可以存储在监控数据库中。因此,在某些实施例中,所述信息统计模块可以具体用于:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
其中,ETL任务的执行完成情况存储在监控数据库中时,从监控数据库中查询需要利用查询语句,例如SQL语句。查询配置信息也即可以包括查询语句,因此,在某些实施例中,所述信息确定模块可以具体用于:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
由于监控数据库可以存储不同处理周期中ETL任务的执行完成情况,因此根据统计时间范围即可以确定统计哪一个处理周期内的ETL任务的延迟信息。
该查询配置信息也即为查询语句,通过该查询语句即可以实现查询以及统计操作。
由于数据处理通常是周期性进行,为了方便进一步了解ETL任务的延迟趋势,往往需要对多个处理周期的ETL任务的延迟信息进行统计。因此,可选地,在某些实施例中,所述信息统计模块可以具体用于:
到达规定时间时,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
该规定时间可以是每一个处理周期中的一个固定时间,可以是指每一个处理周期的结束时间,从而在一个处理周期结束之后,即可以对该处理周期的ETL任务进行延迟统计。当然查询配置信息中的统计时间范围对应任一个处理周期时,该规定时间可以是指该任一个处理周期的下一个处理周期中的任意时间。
通过设置规定时间,每到达规定时间即可以自动执行查询操作。
可选地,可以采用Jenkins技术定时执行。
在实际应用中,由于一个处理周期中可能包括多个ETL任务,多个ETL任务中可以包括核心任务,核心任务也即是指数据处理时起到承上启下的关键任务。
因此,所述ETL任务的延迟信息可以包括全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率中的一个或多个;
全部任务延迟数量是指一个处理周期内,全部ETL任务中出现产出延迟的任务总量;
核心任务延迟数量是指一个处理周期内,全部ETL任务中的核心任务中出现产出延迟的任务总量。
其中,全部任务延迟数量中包括该核心任务延迟数量。
全部任务延迟率是指全部任务延迟数量与全部任务总量的比值;
核心任务延迟率是指核心任务延迟数量与全部任务总量的比值。
其中,执行完成情况至少可以包括实际产出时间以及预计产出时间,因此根据一个ETL任务的实际产出时间以及预计产出时间,即可以判断该ETL任务是否产出延迟。因此,在某些实施例中,所述信息统计模块可以包括:
查询单元,用于基于所述查询配置信息,查询ETL任务的实际产出时间以及预计产出时间;
比较单元,用于比较所述实际产出时间以及所述预计产出时间;
计算单元,用于根据比较结果,计算获得所述ETL任务的延迟信息。
此外,作为又一个实施例,如图4中所示,与图3所示实施例不同之处在于,所述信息输出模块303可以包括:
绘制单元401,用于结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出单元402,用于输出所述统计分布图。
通过统计分布图可以直观了解ETL任务的延迟信息,使得用户更加方便的获知ETL任务的延迟情况,了解延迟变化趋势。
其中,该统计分布图中可以以不同处理周期为横轴,ETL任务的延迟信息为纵轴进行展示。
当然,可选地,在某些实施例中,所述绘制单元可以具体用于:
根据相邻两个处理周期统计获得的延迟信息,计算环比数据;
结合多个相邻处理周期对应的环比数据,生成统计分布图。
通过统计分布图展示环比数据,可以更加直观的了解延迟变化趋势。
在一个可能的设计中,上述实施例中所述的任务监控装置可以实现为一电子装置,如图5中所示,该电子装置可以包括存储器501、处理器502以及显示器503;
所述存储器501存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理器502调用并执行;
所述处理器502用于:
确定查询配置信息;
基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
触发所述显示器503输出所述延迟信息。
可选地,所述处理器502还用于执行前述各方法步骤中的全部或部分步骤。
可选地,该电子装置可以为Jenkins服务器,以实现到到达规定时间,即查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息的目的,实现定时查询和统计。
可选地,显示器可以为一界面展示设备,以用于展示所述延时信息。
存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
通过本发明实施例提供的电子装置实现了ETL任务延迟信息的自动统计,使得可以及时有效的获得ETL任务的延迟情况。
本发明实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行时实现上述任一实施例所述的任务监控方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明公开了A1、一种任务监控方法,包括:
确定查询配置信息;
基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
输出所述延迟信息。
A2、根据A1所述的方法,所述延迟信息统计步骤包括:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
A3、根据A1所述的方法,所述延迟信息统计步骤包括:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
A4、根据A1所述的方法,所述输出所述延迟信息包括:
结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出所述统计分布图。
A5、根据A2所述的方法,所述查询配置信息确定步骤包括:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
A6、根据A1~A5任一项所述的方法,所述ETL任务的延迟信息包括全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率中的一个或多个;
所述执行完成情况至少包括实际产出时间以及预计产出时间;
所述延迟信息统计步骤包括:
基于所述查询配置信息,查询ETL任务的实际产出时间以及预计产出时间;
比较所述实际产出时间以及所述预计产出时间;
根据比较结果,计算获得所述ETL任务的延迟信息。
A7、根据A4所述的方法,所述结合对多个处理周期统计获得的延迟信息,生成统计分布图包括:
根据对相邻两个处理周期统计获得的延迟信息,计算环比数据;
结合多个相邻处理周期对应的环比数据,生成统计分布图。
A8、一种任务监控装置,包括:
信息确定模块,用于确定查询配置信息;
信息统计模块,用于基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
信息输出模块,用于输出所述延迟信息。
A9、根据A8所述的装置,所述信息统计模块具体用于:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
A10、根据A8所述的装置,所述信息统计模块具体用于:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
A11、根据A8所述的装置,所述信息输出模块包括:
绘制单元,用于结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出单元,用于输出所述统计分布图。
A12、根据A9所述的装置,所述信息确定模块具体用于:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
A13、根据A8~A12任一项所述的装置,所述ETL任务的延迟信息包括全部任务延迟数量、核心任务延迟数量、全部任务延迟率以及核心任务延迟率中的一个或多个;
所述执行完成情况至少包括实际产出时间以及预计产出时间;
所述信息统计模块包括:
查询单元,用于基于所述查询配置信息,查询ETL任务的实际产出时间以及预计产出时间;
比较单元,用于比较所述实际产出时间以及所述预计产出时间;
计算单元,用于根据比较结果,计算获得所述ETL任务的延迟信息。
A14、根据A11所述的装置,所述绘制单元具体用于:
根据对相邻两个处理周期统计获得的延迟信息,计算环比数据;
结合多个相邻处理周期对应的环比数据,生成统计分布图。
A15、一种电子装置,包括存储器、处理器以及显示器;
所述存储器存储一条或多条计算机指令,所述一条或多条计算机指令用于被所述处理器调用并执行;
所述处理器用于:
确定查询配置信息;
基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
触发所述显示器输出所述延迟信息。
A16、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;
所述计算机程序使计算机执行时实现如A1~A7任一项所述的任务监控方法。

Claims (10)

1.一种任务监控方法,其特征在于,包括:
确定查询配置信息;
基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
输出所述延迟信息。
2.根据权利要求1所述的方法,其特征在于,所述延迟信息统计步骤包括:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
3.根据权利要求1所述的方法,其特征在于,所述延迟信息统计步骤包括:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
4.根据权利要求1所述的方法,其特征在于,所述输出所述延迟信息包括:
结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出所述统计分布图。
5.根据权利要求2所述的方法,其特征在于,所述查询配置信息确定步骤包括:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
6.一种任务监控装置,其特征在于,包括:
信息确定模块,用于确定查询配置信息;
信息统计模块,用于基于所述查询配置信息,查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
信息输出模块,用于输出所述延迟信息。
7.根据权利要求6所述的装置,其特征在于,所述信息统计模块具体用于:
基于所述查询配置信息,从监控数据库中查询ETL任务的执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息;
其中,所述执行完成情况通过监控所述ETL任务的执行过程获得并写入所述监控数据库中。
8.根据权利要求6所述的装置,其特征在于,所述信息统计模块具体用于:
在任一处理周期中的规定时间,基于所述查询配置信息,查询ETL任务执行完成情况,并根据所述执行完成情况统计所述ETL任务的延迟信息。
9.根据权利要求6所述的装置,其特征在于,所述信息输出模块包括:
绘制单元,用于结合对多个处理周期统计获得的延迟信息,生成统计分布图;
输出单元,用于输出所述统计分布图。
10.根据权利要求7所述的装置,其特征在于,所述信息确定模块具体用于:
确定查询语句模板;
将处理对象输入所述查询语句模板,获得所述查询配置信息;其中所述处理对象包括所述监控数据库的库名称、数据表的表名称、所述执行完成情况的字段名称以及统计时间范围。
CN201710384951.7A 2017-05-26 2017-05-26 任务监控方法及装置 Pending CN107301113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710384951.7A CN107301113A (zh) 2017-05-26 2017-05-26 任务监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710384951.7A CN107301113A (zh) 2017-05-26 2017-05-26 任务监控方法及装置

Publications (1)

Publication Number Publication Date
CN107301113A true CN107301113A (zh) 2017-10-27

Family

ID=60137422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710384951.7A Pending CN107301113A (zh) 2017-05-26 2017-05-26 任务监控方法及装置

Country Status (1)

Country Link
CN (1) CN107301113A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783352A (zh) * 2018-12-13 2019-05-21 平安普惠企业管理有限公司 利用jenkins封装平台进行测试的方法、装置和计算机设备
WO2021099903A1 (en) * 2019-11-18 2021-05-27 International Business Machines Corporation Multi-tenant extract transform load resource sharing
US11841871B2 (en) 2021-06-29 2023-12-12 International Business Machines Corporation Managing extract, transform and load systems
US11941441B2 (en) 2021-04-15 2024-03-26 Capital One Services, Llc Data movement and monitoring system

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403985B2 (en) * 2001-11-01 2008-07-22 Hewlett-Packard Development Company, L.P. Method and system for analyzing electronic service execution
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
CN102521412A (zh) * 2011-12-28 2012-06-27 用友软件股份有限公司 数据关联装置和数据关联方法
CN103678090A (zh) * 2013-12-11 2014-03-26 北京国双科技有限公司 数据处理的监控方法和装置
CN103902646A (zh) * 2013-12-27 2014-07-02 北京天融信软件有限公司 一种分布式任务管理系统与方法
CN104615526A (zh) * 2014-12-05 2015-05-13 北京航空航天大学 一种大数据平台的监控系统
US9116968B2 (en) * 2011-06-30 2015-08-25 Bmc Software, Inc. Methods and apparatus related to graph transformation and synchronization
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN106445772A (zh) * 2015-08-13 2017-02-22 北京恒安永通科技有限公司 一种多数据关联分析方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403985B2 (en) * 2001-11-01 2008-07-22 Hewlett-Packard Development Company, L.P. Method and system for analyzing electronic service execution
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
US9116968B2 (en) * 2011-06-30 2015-08-25 Bmc Software, Inc. Methods and apparatus related to graph transformation and synchronization
CN102521412A (zh) * 2011-12-28 2012-06-27 用友软件股份有限公司 数据关联装置和数据关联方法
CN103678090A (zh) * 2013-12-11 2014-03-26 北京国双科技有限公司 数据处理的监控方法和装置
CN103902646A (zh) * 2013-12-27 2014-07-02 北京天融信软件有限公司 一种分布式任务管理系统与方法
CN104615526A (zh) * 2014-12-05 2015-05-13 北京航空航天大学 一种大数据平台的监控系统
CN106445772A (zh) * 2015-08-13 2017-02-22 北京恒安永通科技有限公司 一种多数据关联分析方法及系统
CN105893529A (zh) * 2016-03-30 2016-08-24 乐视控股(北京)有限公司 一种数据采集方法以及etl组件
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘万庆: "《统计原理与工业统计》", 31 December 1985 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783352A (zh) * 2018-12-13 2019-05-21 平安普惠企业管理有限公司 利用jenkins封装平台进行测试的方法、装置和计算机设备
WO2021099903A1 (en) * 2019-11-18 2021-05-27 International Business Machines Corporation Multi-tenant extract transform load resource sharing
GB2603098A (en) * 2019-11-18 2022-07-27 Ibm Multi-tenant extract transform load resource sharing
GB2603098B (en) * 2019-11-18 2022-12-14 Ibm Multi-tenant extract transform load resource sharing
US11941441B2 (en) 2021-04-15 2024-03-26 Capital One Services, Llc Data movement and monitoring system
US11841871B2 (en) 2021-06-29 2023-12-12 International Business Machines Corporation Managing extract, transform and load systems

Similar Documents

Publication Publication Date Title
CN107301113A (zh) 任务监控方法及装置
US20050203653A1 (en) Process management system and production management system
US20170213167A1 (en) Method for providing business process analyses
US11119843B2 (en) Verifying application behavior based on distributed tracing
CN110806954A (zh) 评估云主机资源的方法、装置、设备及存储介质
US11887013B2 (en) System and method for facilitating model-based classification of transactions
CN107643956B (zh) 定位异常数据的异常起源的方法和装置
CN108734561A (zh) 电子装置、订单数据处理方法和计算机可读存储介质
US20120089963A1 (en) Automated analysis of composite applications
US10073895B2 (en) Method for generating an event log
CN107784070A (zh) 一种提高数据清洗效率的方法、装置及设备
CN107797797A (zh) 量化回测与量化交易方法和装置、存储介质、设备和系统
US9384045B2 (en) Intelligent inclusion/exclusion automation
CN106209495A (zh) 一种云监控系统的报表生成方法及装置
CN103365946A (zh) 数据库性能分析
CN110442647A (zh) 数据一致性同步方法、装置及计算机可读存储介质
CN108205576A (zh) 一种基于数据仓库工具hive分区存储使用和分析数据的方法及系统
JP7150214B2 (ja) 順次データブロックの非同期処理中のエラー対処
US8918410B2 (en) System and method for fast identification of variable roles during initial data exploration
CN107402939B (zh) 保单处理方法和装置
CN110781235A (zh) 基于大数据的采购数据处理方法、装置、终端及存储介质
CN110262753A (zh) 一种加快命令响应的方法、系统以及ssd
CN109033196A (zh) 一种分布式数据调度系统及方法
CN114168624A (zh) 数据分析方法、计算设备及存储介质
CN114064784A (zh) 一种企业研发费用智能归集方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171027

RJ01 Rejection of invention patent application after publication