CN110069572A - 基于大数据平台的hive任务调度方法、装置、设备及存储介质 - Google Patents

基于大数据平台的hive任务调度方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110069572A
CN110069572A CN201910208508.3A CN201910208508A CN110069572A CN 110069572 A CN110069572 A CN 110069572A CN 201910208508 A CN201910208508 A CN 201910208508A CN 110069572 A CN110069572 A CN 110069572A
Authority
CN
China
Prior art keywords
task
hive
previous
target
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910208508.3A
Other languages
English (en)
Other versions
CN110069572B (zh
Inventor
王睿之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910208508.3A priority Critical patent/CN110069572B/zh
Publication of CN110069572A publication Critical patent/CN110069572A/zh
Priority to PCT/CN2019/120594 priority patent/WO2020186809A1/zh
Application granted granted Critical
Publication of CN110069572B publication Critical patent/CN110069572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质。该方法包括:获取客户端发送的原始HIVE任务,基于原始HIVE任务中的启动文件触发日志程序,获取任务日志表;从待处理HIVE任务中获取目标HIVE任务;采用配置文件读取工具读取目标HIVE任务中的配置文件;若读取成功,则获取目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;若前置任务日志中携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件;若业务文件执行成功,则生成任务完成标签,将任务完成标签与自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志中。该方法可提高HIVE任务执行的效率。

Description

基于大数据平台的HIVE任务调度方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质。
背景技术
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HIVE是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。HIVE定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。在Hadoop大数据平台中,HIVE任务的执行相互独立,没有关联与其前置任务,使得在HIVE任务执行过程中,需手动串联HIVE任务之间的执行顺序,影响HIVE任务的执行效率。
发明内容
本发明实施例提供一种基于大数据平台的HIVE任务调度方法、装置、设备及存储介质,以解决当前HIVE任务不关联其前置HIVE任务而导致任务执行效率较低的问题。
一种基于大数据平台的HIVE任务调度方法,包括:
获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;
基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;
基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;
采用配置文件读取工具读取所述目标HIVE任务中的配置文件;
若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;
基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;
若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;
若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。
一种基于大数据平台的HIVE任务调度装置,包括:
原始任务获取模块,用于获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;
任务日志表获取模块,用于基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;
目标任务获取模块,用于基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;
配置文件读取模块,用于采用配置文件读取工具读取所述目标HIVE任务中的配置文件;
任务标识获取模块,用于若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;
前置任务日志获取模块,用于基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;
业务文件执行模块,用于若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;
任务完成处理模块,用于若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据平台的HIVE任务调度方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据平台的HIVE任务调度方法。
上述基于大数据平台的HIVE任务调度方法、装置、设备及存储介质,先通过原始HIVE任务中的启动文件触发日志程序,以获取包含至少一个待处理HIVE任务的任务日志表,以实现对所有未曾处理的HIVE任务的有序管理。再根据待处理HIVE任务的任务处理时间,确定目标HIVE任务,以实现对当前要执行的HIVE任务有序管理。然后,通过配置文件读取工具读取目标HIVE任务的配置文件,以实现对HIVE任务的文件形式进行校验,以保证校验成功的HIVE任务的顺利执行。在配置文件读取成功时,根据该配置文件中的前置任务标识查询前置任务日志,通过识别前置任务日志中是否包含任务完成标签,以实现对HIVE任务的执行逻辑校验,以保证逻辑校验成功的目标HIVE任务的顺利执行。最后,在前置任务日志中包含任务完成标签时,执行目标HIVE任务的业务文件,在业务文件执行成功时生成任务完成标签,将任务完成标签和自身任务标识关联存储到目标任务日志中,有助于后置HIVE任务的顺利执行,实现目标HIVE任务与前置HIVE任务与后置HIVE任务的自动化执行,无需手动串联HIVE任务,提高HIVE任务执行的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于大数据平台的HIVE任务调度方法的一应用环境示意图;
图2是本发明一实施例中基于大数据平台的HIVE任务调度方法的一流程图;
图3是本发明一实施例中基于大数据平台的HIVE任务调度方法的另一流程图;
图4是本发明一实施例中基于大数据平台的HIVE任务调度装置的一示意图;
图5是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于大数据平台的HIVE任务调度方法,该基于大数据平台的HIVE任务调度方法可应用如图1所示的应用环境中。具体地,该基于大数据平台的HIVE任务调度方法应用在大数据平台系统中,该大数据平台系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现串联HIVE任务,以实现HIVE任务执行的自动化,无需人工串联HIVE任务,提高HIVE任务执行效率。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种基于大数据平台的HIVE任务调度方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S201:获取客户端发送的原始HIVE任务,原始HIVE任务包括启动文件、配置文件和业务文件。
其中,原始HIVE任务是客户端给服务器发送的HIVE任务。
原始HIVE任务中的启动文件是指用于启动HIVE任务的文件,具体为SH启动文件。其中,SH文件被称为脚本Bash的应用程序和使用开发人员文件。SH文件被称为是创建并保存在Bash的语言,因为它包含的说明都写在该语言。SH文件可以在文本命令shell的命令行界面中键入执行。SH文件大多是用于程序开发,这些文件在Bash的应用程序非常重要,因为该应用程序主要使用脚本以及命令执行,使这个应用程序的工作。由于SH文件是使用这个应用程序编程脚本和它们包含执行程序的命令,他们确实是非常重要的。SH文件扩展名现已发展成为交互式的命令解释器,虽然它最初是一种脚本语言。当前大多应用程序(如C-壳牌,Korn Shell的和Bourne Shell)中也使用了SH文件脚本的存储。
原始HIVE任务中的配置文件是指用于配置HIVE任务的特定信息的文件,该特定信息包括但不限于配置文件中配置的变量、自身任务标识和报警对象邮箱等。若根据原始HIVE任务的业务逻辑,存在前置HIVE任务时,该原始HIVE任务的配置文件中还包括前置任务标识。其中,所配置的变量是原始HIVE任务的业务逻辑中应用到的变量。自身任务标识是用于唯一识别某一原始HIVE任务的标识。前置任务标识是用于唯一识别原始HIVE任务对应的前置HIVE任务的标识。报警对象邮箱是指开发人员预先配置的在任务出错时进行报警提醒的对象的邮箱,一般可以为运维人员的邮箱。
原始HIVE任务中的业务文件用于存储原始HIVE任务中实现其业务逻辑的可执行文件。可以理解地,该业务文件在被执行时,可在大数据平台系统执行该业务文件中相应的业务逻辑,实现对大数据平台系统中的数据进行处理,获取相应的数据处理结果。
S202:基于原始HIVE任务中的启动文件触发日志程序,获取任务日志表,任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间。
其中,日志程序是用于监控并获取每一原始HIVE任务的日志的程序。任务日志表是采用日志程序记录到的所有原始HIVE任务的起止时间(包括起始时间和终止时间)、占用资源等统计日志的数据表。
具体地,服务器在接收到每一原始HIVE任务时,会通过预先设置在服务器中的日志程序触发一个用于记录该原始HIVE任务的日志记录任务,以记录原始HIVE任务执行过程中所形成的数据。即服务器在接收到一原始HIVE任务时触发一个日志记录任务,把该原始HIVE任务的执行过程中的状态都记录到与该原始HIVE任务相对应的任务日志文件中,即任务日志文件中记录该原始HIVE任务的起始时间、终止时间、任务进程、耗时、资源占用和完成情况等数据。该任务日志表是用于存储所有原始HIVE任务对应的日志记录任务所记录的任务日志文件的数据表。
具体地,服务器在基于原始HIVE任务的启动文件触发日志程序时,使该日志程序给该原始HIVE任务分配一日志记录任务,以便将该日志记录任务所获取的相关数据存储在与其对应的任务日志文件中。然后,将新接收到的原始HIVE任务作为新的待处理HIVE任务存储在任务日志表中,以将该新接收到的原始HIVE任务与其之前未曾处理的其他原始HIVE任务作为任务日志表中的待处理HIVE任务,以实现对所有未曾处理的原始HIVE任务的有序管理。其中,待处理HIVE任务是指记录在任务日志表中未曾处理的原始HIVE任务。待处理HIVE任务对应的任务处理时间可以理解为该待处理HIVE任务的起始时间,可以是用户通过客户端自主设置的用于执行该待处理HIVE任务的时间(一般针对定时任务),也可以是服务器默认接收到原始HIVE任务的时间(一般针对实时任务)。可以理解地,服务器基于原始HIVE任务的启动文件触发日志程序,以获取任务日志表,以便通过该任务日志表对未曾处理的所有待处理HIVE任务进行统一管理,以使待处理HIVE任务依据一定的执行顺序进行执行,保证待处理HIVE任务的执行效率。
S203:基于每一待处理HIVE任务对应的任务处理时间,从至少一个待处理HIVE任务中获取目标HIVE任务。
具体地,服务器基于任务日志表中的每一待处理HIVE任务的任务处理时间,即该待处理HIVE任务的起始时间,依据该起始时间的先后顺序,确定当前所要进行处理的待处理HIVE任务为目标HIVE任务,即从至少一个待处理HIVE任务中确定目标HIVE任务,以实现对起始时间在先的待处理HIVE任务优先处理,从而实现对当前要进行处理的HIVE任务有序管理。
S204:采用配置文件读取工具读取目标HIVE任务中的配置文件。
其中,配置文件读取工具是预先开发并存储在服务器中的用于读取配置文件的工具。具体地,该配置文件读取工具上内置有用于读取配置文件的正则表达式。本实施例中,服务器采用配置文件读取工具中的正则表达式对目标HIVE任务进行匹配,以确定该目标配置文件中的单词、格式或者文件形式等内容是否符合预设格式。若目标HIVE任务的配置文件符合预设格式,则服务器读取成功;若目标HIVE任务的配置文件不符合预设格式,则服务器读取失败。可以理解地,采用配置文件读取工具对目标HIVE任务的配置文件进行读取,以检验开发人员配置的配置文件是否满足其文件形式需求,即实现对HIVE任务的文件形式进行校验,从而保障目标HIVE任务的顺利执行。
S205:若读取成功,则获取目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识。
具体地,若服务器采用配置文件读取工具读取目标HIVE任务中的配置文件成功,则认定该配置文件符合预设格式要求,此时可匹配获取HIVE任务的配置文件中包含的前置任务标识和自身任务标识。
一般来说,任一目标HIVE任务的配置文件均包含其自身任务标识,但可能包含前置任务标识,也有可能未包含前置任务标识,若包含前置任务标识,其所包含的前置任务标识可以是一个,也可以是多个。由于每一目标HIVE任务对应一业务逻辑,该业务逻辑中涉及到至少一个业务参数并对至少一个业务参数进行逻辑处理。若所有业务参数均可以通过同一数据表直接获取,则此时无需等待其他业务逻辑执行,无需配置其对应的前置任务标识,使其目标HIVE任务的配置文件不包含前置任务标识。若至少一个业务参数无法通过同一数据表直接获取,而是需要通过同一数据库中其他数据表或者其他数据库中的数据表获取,则此时需等待其他业务逻辑执行,则需使其对应的目标HIVE任务的配置文件包含前置任务标识,并配置与该前置任务标识相对应的前置HIVE任务,以保证所配置的目标HIVE任务的顺利执行。
本实施例中,服务器在读取目标HIVE任务的配置文件成功之后,可先按预设关键词(该预设关键词可以是配置文件编辑界面中前置任务配置模块中设置的关键词)匹配该配置文件中是否包含前置任务标识,若包含前置任务标识,则说明该目标HIVE任务存在前置HIVE任务,需获取目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识,执行后续步骤S205及其之后的步骤。若不包含前置任务标识,则说明该目标HIVE任务不存在前置HIVE任务,此时可直接执行目标HIVE任务中的业务文件,并执行步骤S207之后的步骤。
S206:基于前置任务标识查询任务日志表,获取与前置任务标识相对应的前置任务日志。
由于日志程序在接收到每一原始HIVE任务时,触发用于记录该原始HIVE任务对应的日志记录任务,并将该日志记录任务所获取的信息记录到任务日志文件中,每一任务日志文件与其自身任务标识关联存储在任务日志表中。本实施例中,服务器可基于目标HIVE任务的配置文件中包含的前置任务标识查询任务日志表,以获取与该前置任务标识相对应的任务日志文件作为前置任务日志。可以理解地,该前置任务日志用于记录前置HIVE任务的起始时间、终止时间、任务进程、耗时、资源占用和完成情况等信息。本实施例中,前置HIVE任务的完成情况可通过是否包含任务完成标签来确定,即若前置任务日志中包含任务完成标签,则说明前置HIVE任务的业务文件执行成功;若前置任务日志中未包含任务完成标签,则说明前置HIVE任务的业务文件未执行成功。
S207:若前置任务日志中携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件。
具体地,若前置任务日志中携带与前置任务标识相对应的任务完成标签,则说明前置HIVE任务成功完成,此时,服务器可以执行该目标HIVE任务中的业务文件,即执行目标HIVE任务的业务文件中的业务逻辑。即在配置文件读取成功之后,根据该配置文件中的前置任务标识查询前置任务日志,通过识别前置任务日志中是否包含任务完成标签,以实现对HIVE任务的执行逻辑校验,以实现逻辑校验成功(即前置HIVE任务)执行成功之后的目标HIVE任务,以保证目标HIVE任务的顺利执行。
S208:若业务文件执行成功,则生成任务完成标签,将任务完成标签与自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志中。
具体地,服务器执行目标HIVE任务的业务文件时,若业务文件执行成功,则服务器可基于该业务文件中获取与其业务逻辑相对应的数据处理结果,并生成一用于标识其业务文件执行成功的任务完成标签。然后,服务器需将任务完成标签与目标HIVE任务的自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志,以便根据该目标任务日志记录的任务完成标签,确定该目标HIVE任务已经执行完成且执行成功。该目标任务日志具体为日志记录表中与目标HIVE任务相对应的任务日志文件。可以理解地,将任务完成标签关联存储到与其自身任务标识相对应的目标任务日志中,以便后续将该目标HIVE任务确定为前置HIVE任务的HIVE任务(即目标HIVE任务的后置HIVE任务)可以根据该目标HIVE任务的目标任务日志中携带的任务完成标签,确定其前置HIVE任务执行成功。即将任务完成标签存储到目标任务日志中,有助于后置HIVE任务的顺利执行,实现目标HIVE任务与前置HIVE任务与后置HIVE任务的自动化执行,无需手动串联HIVE任务,提高HIVE任务执行的效率。
可以理解地,若目标HIVE任务的业务文件执行完成,并将任务完成标签与自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志之后,服务器需该目标HIVE任务从任务日志表对应的至少一个待处理HIVE任务中删除,以避免重复执行,降低执行处理效率。
本实施例所提供的基于大数据平台的HIVE任务调度方法中,先通过原始HIVE任务中的启动文件触发日志程序,以获取包含至少一个待处理HIVE任务的任务日志表,以实现对所有未曾处理的HIVE任务的有序管理。再根据待处理HIVE任务的任务处理时间,确定目标HIVE任务,以实现对当前要执行的HIVE任务有序管理。然后,通过配置文件读取工具读取目标HIVE任务的配置文件,以实现对HIVE任务的文件形式进行校验,以保证校验成功的HIVE任务的顺利执行。在配置文件读取成功时,根据该配置文件中的前置任务标识查询前置任务日志,通过识别前置任务日志中是否包含任务完成标签,以实现对HIVE任务的执行逻辑校验,以保证逻辑校验成功的目标HIVE任务的顺利执行。最后,在前置任务日志中包含任务完成标签时,执行目标HIVE任务的业务文件,在业务文件执行成功时生成任务完成标签,将任务完成标签和自身任务标识关联存储到目标任务日志中,有助于后置HIVE任务的顺利执行,实现目标HIVE任务与前置HIVE任务与后置HIVE任务的自动化执行,无需手动串联HIVE任务,提高HIVE任务执行的效率。
进一步地,由于HIVE任务调度过程中,可能出现各种错误,影响HIVE任务的调度,为了保障HIVE任务出错之后,及时对无法继续执行的HIVE任务进行运营维护,提高运维人员的工作效率,需给HIVE任务调度配置相应的报警机制。在一实施例中,采用配置文件读取工具读取目标HIVE任务中的配置文件过程中可能存在读取失败这一种出错情形,因此,需触发大数据平台中的报警机制进行报警。具体地,在步骤S204之后,即在采用配置文件读取工具读取目标HIVE任务中的配置文件之后,基于大数据平台的HIVE任务调度方法还包括:
S209:若读取失败,则生成文件报错信息,终止目标HIVE任务,向客户端发送基于文件报错信息形成的报警信息。
具体地,若服务器采用配置文件读取工具读取目标HIVE任务中的配置文件失败,则认定该配置文件不符合预设格式要求,使得配置文件无法执行,因此,此时可生成文件报错信息,并终止目标HIVE任务,向客户端发送基于文件报错信息形成的报警信息,以提醒运维人员进行修改。本实施例中,向客户端发送报警信息具体可以是向配置文件中配置的报警对象邮箱对应的客户端发送报警信息。该文件报错信息中可记录配置文件中不符合预设格式要求的配置内容及其对应的标准格式,以便运维人员基于该文件报错信息进行快捷修改维护,以维护目标HIVE任务的配置文件,提高运营维护效率。本实施例中,基于文件报错信息形成的报警信息具体是指将文件报警信息填充在预先设置的报警模板所形成的报警信息。由于目标HIVE任务因为读取配置文件失败,无法执行,此时需将目标HIVE任务从任务日志表对应的至少一个待处理HIVE任务中删除,以避免重复执行,降低执行处理效率。
进一步地,由于HIVE任务调度过程中,可能出现各种错误,影响HIVE任务的调度,为了保障HIVE任务出错之后,及时对无法继续执行HIVE任务进行运营维护,提高运维人员的工作效率,需给HIVE任务调度配置相应的报警机制。在一实施例中,在获取前置任务标识对应的前置任务日志中,该前置任务日志中可能包含任务完成标签(此时可执行步骤S207),也可能未完成任务完成标签,即此时无法继续执行步骤S207,需进行相应的报错处理。即在步骤S206之后,即在获取与前置任务标识相对应的前置任务日志之后,基于大数据平台的HIVE任务调度方法还包括:
S210:若前置任务日志中未携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务未成功完成,触发事件监听程序,以监听前置任务日志的更新数据。
其中,事件监听程序是预先配置在服务器中的用于实现事件监听的程序,该事件监听程序是专用于监听前置任务日志,以获取前置任务日志中的更新数据的程序。具体地,若前置任务日志中未携带与前置任务标识相对应的任务完成标签,则说明前置HIVE任务未执行成功,若直接终止目标HIVE任务的执行,可能会使其前面执行的步骤为无效操作,在下次执行该目标HIVE任务时需重新执行前面的步骤,影响其工作效率。为了保证目标HIVE任务的执行效率,服务器在前置任务日志中未携带任务完成标签时,触发预先设置的事件监听程序,以监听前置任务日志中的更新数据,以获取前置HIVE任务执行过程的更新数据。
S211:若事件监听程序在预设监听期限内未监听到更新数据包含与前置任务标识相对应的任务完成标签,则生成超时报错信息,终止目标HIVE任务,向客户端发送基于超时报错信息形成的报警信息。
其中,预设监听期限为预先设置的监听前置任务日志的期限。该预设监听期限可以理解为在前置HIVE任务未成功完成之后,等待该前置HIVE任务执行处理的期限。具体地,若事件监听程序在预设监听期限内未监听到更新数据包含与前置任务标识相对应的任务完成标签,即说明该前置HIVE任务在预设监听期限内进行执行处理但仍然未成功完成,此时,若目标HIVE任务继续等待前置HIVE任务完成,则其等待的时间开销过大,会降低HIVE任务调度的效率。因此,在预设监听期限内未监听到更新数据包含与前置任务标识相对应的任务完成标签时,生成超时报错信息,并终止目标HIVE任务,向客户端发送基于超时报错信息形成的报警信息,以提醒运维人员进行修改。该超时报错信息可包含执行目标HIVE任务等待超时的详细信息,以便运维人员基于该超时报错信息进行快捷修改维护,以维护其前置HIVE任务的业务逻辑,提高运营维护效率。本实施例中,基于超时报错信息形成的报警信息具体是指将超时报错信息填充在预先设置的报警模板所形成的报警信息。进一步地,向客户端发送报警信息具体可以是向配置文件中配置的报警对象邮箱对应的客户端发送报警信息。由于目标HIVE任务因为超时报错,无法执行,此时需将目标HIVE任务从任务日志表对应的至少一个待处理HIVE任务中删除,以避免重复执行,降低执行处理效率。
进一步地,在步骤S210之后,即在触发事件监听程序,以监听前置任务日志的更新数据之后,基于大数据平台的HIVE任务调度方法还包括:
S212:若事件监听程序在预设监听期限内监听到更新数据包含与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件。
具体地,若事件监听程序在预设监听期限内监听到更新数据包含与前置任务标识相对应的任务完成标签,即说明该前置HIVE任务在预设监听期限内进行执行处理,且前置HIVE任务成功完成,说明目标HIVE任务在预设监听期限内的等待有效,可有效保证目标HIVE任务的顺利执行,提高HIVE任务的执行效率。而且,在目标HIVE任务执行过程中,可通过事件监听程序自行监听并在确定前置HIVE任务成功完成时,自动执行目标HIVE任务中的业务文件,保证HIVE任务调度过程中的自动化,提高执行效率。
进一步地,由于HIVE任务调度过程中,可能出现各种错误,影响HIVE任务的调度,为了保障HIVE任务出错之后,对可继续执行的HIVE任务(即业务文件未执行成功)的HIVE任务配置相应的重试机制,以实现对HIVE任务进行重试,以提高其执行效率。在步骤S207之后,即在执行目标HIVE任务中的业务文件之后,基于大数据平台的HIVE任务调度方法还包括:
S213:若业务文件未执行成功,则更新目标HIVE任务的报错次数。
具体地,服务器执行目标HIVE任务的业务文件时,若业务文件未执行成功,则更新目标HIVE任务的报错次数,使其报错次数加1。可以理解地,该报错次数默认为0,若未成功执行业务文件时,在上次未成功执行业务文件的报错次数的基础上加1。本实施例中,若目标HIVE任务的业务文件未执行成功,则生成任务未完成标签,根据目标HIVE任务中的目标任务日志中的任务未完成标签更新该目标HIVE任务的报错次数。
S214:若报错次数大于预设次数阈值,则生成重试报错信息,终止目标HIVE任务,向客户端发送基于重试报错信息形成的报警信息。
其中,预设次数阈值为预先设置的用于评估是否进行重试的阈值,该预设次数阈值可以设置为三次或者其他次数。具体地,若服务器在更新目标HIVE任务的报错次数之后,确定该报错次数大于预设次数阈值,说明该目标HIVE任务已经重复执行预设次数,但每次执行结果均是业务文件未执行成功,若继续执行目标HIVE任务极有可能还是未执行成功,从而影响HIVE任务的执行效率。因此,在报错次数大于预设次数阈值时,生成重试报错信息,终止目标HIVE任务,向客户端发送基于重试报错信息形成的报警信息。该重试报错信息可包含执行目标HIVE任务过程中重试多次仍然出错的具体信息,以便运维人员可基于该重试报错信息对目标HIVE任务的业务文件进行修改维护,提高运营维护效率。本实施例中,基于重试报错信息形成的报警信息具体是指将重试报错信息填充在预先设置的报警模板所形成的报警信息。
进一步地,在步骤S213之后,即在更新目标HIVE任务的报错次数之后,基于大数据平台的HIVE任务调度方法还包括:
S215:若报错次数不大于预设次数阈值,则重复执行目标HIVE任务中的业务文件,直至业务文件执行成功或者目标HIVE任务的报错次数大于预设次数阈值。
本实施例中,为了避免网络意外对目标HIVE任务执行的影响,可在执行HIVE任务的业务文件出错时,启动重试机制进行重复执行,以保证目标HIVE任务的顺利执行。具体地,若目标HIVE任务的报错次数不大于预设次数阈值,说明目标HIVE任务还可继续重复执行,因此,重复执行目标HIVE任务中的业务文件,以提高目标HIVE任务的执行效率。为了避免目标HIVE任务一直在重复执行,可设置重复执行的停止条件,即直至业务文件执行成功或者目标HIVE任务的报错次数大于预设次数阈值,以保证HIVE任务调度执行的效率。
本实施例所提供的基于大数据平台的HIVE任务调度方法中,先通过原始HIVE任务中的启动文件触发日志程序,以获取包含至少一个待处理HIVE任务的任务日志表,以实现对所有未曾处理的HIVE任务的有序管理。再根据待处理HIVE任务的任务处理时间,确定目标HIVE任务,以实现对当前要执行的HIVE任务有序管理。然后,通过配置文件读取工具读取目标HIVE任务的配置文件,以实现对HIVE任务的文件形式进行校验,以保证校验成功的HIVE任务的顺利执行。在配置文件读取成功时,根据该配置文件中的前置任务标识查询前置任务日志,通过识别前置任务日志中是否包含任务完成标签,以实现对HIVE任务的执行逻辑校验,以保证逻辑校验成功的目标HIVE任务的顺利执行。最后,在前置任务日志中包含任务完成标签时,执行目标HIVE任务的业务文件,在业务文件执行成功时生成任务完成标签,将任务完成标签和自身任务标识关联存储到目标任务日志中,有助于后置HIVE任务的顺利执行,实现目标HIVE任务与前置HIVE任务与后置HIVE任务的自动化执行,无需手动串联HIVE任务,提高HIVE任务执行的效率。并且,还提供在目标HIVE任务出错时自动重试预设次数,以排除网络意外对目标HIVE任务的影响,保证目标HIVE任务的顺利执行。进一步地,在目标HIVE任务出错时,触发相应的报错机制,以向客户端发送报错信息,该报错信息可以是基于文件报错信息、超时报错信息和重试报错信息形成的报错信息,以提醒运维人员对HIVE任务进行运营维护,提高运维人员的工作效率。
在一实施例中,如图3所示,在步骤S201之前,在获取客户端发送的原始HIVE任务之前,基于大数据平台的HIVE任务调度方法还包括:
S301:获取客户端发送的任务配置请求,任务配置请求包括任务类型。
其中,任务配置请求是用于触发服务器进行HIVE任务配置的请求。该任务类型包括前置依赖类型或者无依赖类型。其中,前置依赖类型具体是指需要依赖前置HIVE任务的执行结果数据才可以执行的任务。无依赖类型是指无需依赖前置HIVE任务的数据结果,只需在一数据表中直接获取的任务。具体地,用户在配置任一原始HIVE任务之前,需根据其业务逻辑确定是否需要依赖前置HIVE任务的执行结果数据,若需要依赖,则选择其任务类型为前置依赖类型;若无需依赖,则选择其任务类型为无依赖类型。
S302:基于任务类型,控制客户端进入与任务类型相对应的配置文件编辑界面。
服务器基于任务配置请求中的任务类型,控制客户端进入与该任务类型相对应的配置文件编辑界面。具体地,若任务类型为前置依赖类型,则控制客户端进入第一配置文件编辑界面;若任务类型为无依赖类型,则控制客户端进入第二配置文件编辑界面。本实施例中,第一配置文件编辑界面和第二配置文件编辑界面均包括变量配置模块、自身任务配置模块和报警对象邮箱配置模块,分别用于配置其对应的变量、自身任务标识和报警对象邮箱。该第一配置文件编辑界面比第二配置文件编辑界面多了前置任务配置模块,该前置任务配置模块是用于配置其前置任务的模块。
S303:获取客户端基于配置文件编辑界面形成的配置文件。
服务器可获取客户端发送的基于配置文件编辑界面形成的配置文件。例如,用户可在客户端的变量配置模块中配置变量赋值式,该变量赋值式中,“=”左边是变量名称,右边是变量目标值,对于逻辑主体中的变量,还可采用特定格式(如“${}”这一特定格式)包围其变量目标值。本实施例中,在变量配置模块中配置其配置文件中的变量时,在后续变量发生变化时,可直接在配置文件对变量配置模块中变量目标值进行修改,而不对逻辑主体有任务变动。在用户通过客户端的自身任务配置模块中配置自身任务标识时,还可在其自身任务标识生成时添加相应的时间戳,该时间戳可以为当日的时间戳和当月的时间戳,分别用于检查当日或者当月的自身任务是否完成。用户可在客户端的报警对象邮箱配置模块中配置报警对象的电子邮箱。而在第一配置文件编辑界面的前置任务配置模块中,除了配置前置任务标识,还可在前置任务标识配置完成时添加相应的时间戳,该时间戳可以为当日的时间戳和当月的时间戳,分别用于检查当日或者当月的前置HIVE任务是否完成。
本实施例中,配置文件编辑界面中提供变量配置模块,在变量配置模块中配置的逻辑主体变量包括变量名称和变量目标值(即本次配置时确定变量的值)。在配置文件编辑或修改过程中,可配置该变量名称对应的变量目标值,而不配置或修改其变量名称(或者逻辑主体),以避免逻辑主体变动时需进行回归测试才可确定其他模块是否存在问题。这种分享业务逻辑主体与变量的方式,方便调试。
S304:采用预设的正则表达式对配置文件进行格式匹配,若匹配成功,则向客户端发送匹配成功信息,以使客户端基于匹配成功的配置文件形成原始HIVE任务。
具体地,服务器采用预先设置的正则表达式对配置文件进行匹配,以确定配置文件中的单词、格式或者文件形式等内容是否符合预设格式,若符合预设格式,则配置成功,向客户端发送配置成功信息,以使客户端可基于匹配成功的配置文件形成原始HIVE任务;若不符合预设格式,则配置失败,生成提醒信息,并将该提醒信息发送给客户端,以使开发人员相应修改配置文件。即在服务器获取配置文件之后,可采用预先配置的正则表达式对配置文件进行格式匹配,以保证最终形成的原始HIVE任务的准确性,保证后续该配置文件可被配置文件读取工具顺利读取。
本实施例所提供的基于大数据平台的HIVE任务调度方法中,可根据任务配置请求的任务类型进入相应的配置文件编辑界面,以获取相应的配置文件,并采用正则表达式对配置文件进行格式匹配,从而保证最终形成的配置文件的准确性,使其可被配置文件读取工具顺利读取,从而提高所形成的原始HIVE任务的可执行性,避免因文件报错而终止。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于大数据平台的HIVE任务调度装置,该基于大数据平台的HIVE任务调度装置与上述实施例中基于大数据平台的HIVE任务调度方法一一对应。如图4所示,该基于大数据平台的HIVE任务调度装置包括原始任务获取模块401、任务日志表获取模块402、目标任务获取模块403、配置文件读取模块404、任务标识获取模块405、前置任务日志获取模块406、业务文件执行模块407和任务完成处理模块408。各功能模块详细说明如下:
原始任务获取模块401,用于获取客户端发送的原始HIVE任务,原始HIVE任务包括启动文件、配置文件和业务文件。
任务日志表获取模块402,用于基于原始HIVE任务中的启动文件触发日志程序,获取任务日志表,任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间。
目标任务获取模块403,用于基于每一待处理HIVE任务对应的任务处理时间,从至少一个待处理HIVE任务中获取目标HIVE任务。
配置文件读取模块404,用于采用配置文件读取工具读取目标HIVE任务中的配置文件。
任务标识获取模块405,用于若读取成功,则获取目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识。
前置任务日志获取模块406,用于基于前置任务标识查询任务日志表,获取与前置任务标识相对应的前置任务日志。
业务文件执行模块407,用于若前置任务日志中携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件。
任务完成处理模块408,用于若业务文件执行成功,则生成任务完成标签,将任务完成标签与自身任务标识关联存储到与目标HIVE任务相对应的目标任务日志中。
优选地,在配置文件读取模块404之后,基于大数据平台的HIVE任务调度装置还包括文件报错处理模块。
文件报错处理模块,用于若读取失败,则生成文件报错信息,终止目标HIVE任务,向客户端发送基于文件报错信息形成的报警信息。
优选地,在前置任务日志获取模块406之后,基于大数据平台的HIVE任务调度装置还包括更新数据获取模块和超时报错处理模块。
更新数据获取模块,用于若前置任务日志中未携带与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务未成功完成,触发事件监听程序,以监听前置任务日志的更新数据。
超时报错处理模块,用于若事件监听程序在预设监听期限内未监听到更新数据包含与前置任务标识相对应的任务完成标签,则生成超时报错信息,终止目标HIVE任务,向客户端发送基于超时报错信息形成的报警信息。
优选地,在更新数据获取模块之后,基于大数据平台的HIVE任务调度装置还包括:监听执行处理模块。
监听执行处理模块,用于若事件监听程序在预设监听期限内监听到更新数据包含与前置任务标识相对应的任务完成标签,则前置任务标识对应的前置HIVE任务成功完成,执行目标HIVE任务中的业务文件。
优选地,在业务文件执行模块407之后,基于大数据平台的HIVE任务调度装置还包括:报错次数获取模块和重试报错处理模块。
报错次数获取模块,用于若业务文件未执行成功,则更新目标HIVE任务的报错次数。
重试报错处理模块,用于若报错次数大于预设次数阈值,则生成重试报错信息,终止目标HIVE任务,向客户端发送基于重试报错信息形成的报警信息。
优选地,在报错次数获取模块之后,基于大数据平台的HIVE任务调度装置还包括:重试执行处理模块。
重试执行处理模块,用于若报错次数不大于预设次数阈值,则重复执行目标HIVE任务中的业务文件,直至业务文件执行成功或者目标HIVE任务的报错次数大于预设次数阈值。
优选地,在原始任务获取模块401之前,基于大数据平台的HIVE任务调度装置还包括任务配置请求获取单元、编辑界面进入单元、配置文件获取单元和格式匹配处理单元。
任务配置请求获取单元,用于获取客户端发送的任务配置请求,任务配置请求包括任务类型。
编辑界面进入单元,用于基于任务类型,控制客户端进入与任务类型相对应的配置文件编辑界面。
配置文件获取单元,用于获取客户端基于配置文件编辑界面形成的配置文件。
格式匹配处理单元,用于采用预设的正则表达式对配置文件进行格式匹配,若匹配成功,则向客户端发送匹配成功信息,以使客户端基于匹配成功的配置文件形成原始HIVE任务。
关于基于大数据平台的HIVE任务调度装置的具体限定可以参见上文中对于基于大数据平台的HIVE任务调度方法的限定,在此不再赘述。上述基于大数据平台的HIVE任务调度装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行上述基于大数据平台的HIVE任务调度方法过程中采用或者生成的数据,如任务日志表。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据平台的HIVE任务调度方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中基于大数据平台的HIVE任务调度方法,例如图2所示S201-S215,或者图3所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现基于大数据平台的HIVE任务调度装置这一实施例中的各模块/单元的功能,例如图4所示的原始任务获取模块401、任务日志表获取模块402、目标任务获取模块403、配置文件读取模块404、任务标识获取模块405、前置任务日志获取模块406、业务文件执行模块407和任务完成处理模块408的功能,为避免重复,这里不再赘述。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于大数据平台的HIVE任务调度方法,例如图2所示S201-S215,或者图3所示,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述基于大数据平台的HIVE任务调度装置这一实施例中的各模块/单元的功能,例如图4所示的原始任务获取模块401、任务日志表获取模块402、目标任务获取模块403、配置文件读取模块404、任务标识获取模块405、前置任务日志获取模块406、业务文件执行模块407和任务完成处理模块408的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据平台的HIVE任务调度方法,其特征在于,包括:
获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;
基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;
基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;
采用配置文件读取工具读取所述目标HIVE任务中的配置文件;
若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;
基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;
若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;
若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。
2.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述采用配置文件读取工具读取所述目标HIVE任务中的配置文件之后,所述基于大数据平台的HIVE任务调度方法还包括:
若读取失败,则生成文件报错信息,终止所述目标HIVE任务,向所述客户端发送基于所述文件报错信息形成的报警信息。
3.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述获取与所述前置任务标识相对应的前置任务日志之后,所述基于大数据平台的HIVE任务调度方法还包括:
若所述前置任务日志中未携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务未成功完成,触发事件监听程序,以监听所述前置任务日志的更新数据;
若所述事件监听程序在预设监听期限内未监听到所述更新数据包含与所述前置任务标识相对应的任务完成标签,则生成超时报错信息,终止所述目标HIVE任务,向所述客户端发送基于所述超时报错信息形成的报警信息。
4.如权利要求3所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述触发事件监听程序,以监听所述前置任务日志的更新数据之后,所述基于大数据平台的HIVE任务调度方法还包括:
若所述事件监听程序在预设监听期限内监听到所述更新数据包含与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件。
5.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述执行所述目标HIVE任务中的业务文件之后,所述基于大数据平台的HIVE任务调度方法还包括:
若所述业务文件未执行成功,则更新所述目标HIVE任务的报错次数;
若所述报错次数大于预设次数阈值,则生成重试报错信息,终止所述目标HIVE任务,向所述客户端发送基于所述重试报错信息形成的报警信息。
6.如权利要求5所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述更新所述目标HIVE任务的报错次数之后,所述基于大数据平台的HIVE任务调度方法还包括:
若所述报错次数不大于预设次数阈值,则重复执行所述目标HIVE任务中的业务文件,直至所述业务文件执行成功或者所述目标HIVE任务的报错次数大于所述预设次数阈值。
7.如权利要求1所述的基于大数据平台的HIVE任务调度方法,其特征在于,在所述获取客户端发送的原始HIVE任务之前,所述基于大数据平台的HIVE任务调度方法还包括:
获取客户端发送的任务配置请求,所述任务配置请求包括任务类型;
基于所述任务类型,控制所述客户端进入与所述任务类型相对应的配置文件编辑界面;
获取客户端基于所述配置文件编辑界面形成的配置文件;
采用预设的正则表达式对所述配置文件进行格式匹配,若匹配成功,则向所述客户端发送匹配成功信息,以使所述客户端基于匹配成功的配置文件形成原始HIVE任务。
8.一种基于大数据平台的HIVE任务调度装置,其特征在于,包括:
原始任务获取模块,用于获取客户端发送的原始HIVE任务,所述原始HIVE任务包括启动文件、配置文件和业务文件;
任务日志表获取模块,用于基于所述原始HIVE任务中的启动文件触发日志程序,获取任务日志表,所述任务日志表包括至少一个待处理HIVE任务,每一待处理HIVE任务对应一任务处理时间;
目标任务获取模块,用于基于每一所述待处理HIVE任务对应的任务处理时间,从至少一个所述待处理HIVE任务中获取目标HIVE任务;
配置文件读取模块,用于采用配置文件读取工具读取所述目标HIVE任务中的配置文件;
任务标识获取模块,用于若读取成功,则获取所述目标HIVE任务中的配置文件包含的前置任务标识和自身任务标识;
前置任务日志获取模块,用于基于所述前置任务标识查询所述任务日志表,获取与所述前置任务标识相对应的前置任务日志;
业务文件执行模块,用于若所述前置任务日志中携带与所述前置任务标识相对应的任务完成标签,则所述前置任务标识对应的前置HIVE任务成功完成,执行所述目标HIVE任务中的业务文件;
任务完成处理模块,用于若所述业务文件执行成功,则生成任务完成标签,将所述任务完成标签与所述自身任务标识关联存储到与所述目标HIVE任务相对应的目标任务日志中。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于大数据平台的HIVE任务调度方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于大数据平台的HIVE任务调度方法。
CN201910208508.3A 2019-03-19 2019-03-19 基于大数据平台的hive任务调度方法、装置、设备及存储介质 Active CN110069572B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910208508.3A CN110069572B (zh) 2019-03-19 2019-03-19 基于大数据平台的hive任务调度方法、装置、设备及存储介质
PCT/CN2019/120594 WO2020186809A1 (zh) 2019-03-19 2019-11-25 基于大数据平台的hive任务调度方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208508.3A CN110069572B (zh) 2019-03-19 2019-03-19 基于大数据平台的hive任务调度方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110069572A true CN110069572A (zh) 2019-07-30
CN110069572B CN110069572B (zh) 2022-08-02

Family

ID=67366392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208508.3A Active CN110069572B (zh) 2019-03-19 2019-03-19 基于大数据平台的hive任务调度方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110069572B (zh)
WO (1) WO2020186809A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490451A (zh) * 2019-08-15 2019-11-22 中国平安财产保险股份有限公司 基于hadoop的任务数据管控方法、装置以及计算机设备
CN110764998A (zh) * 2019-09-06 2020-02-07 平安健康保险股份有限公司 基于Django框架的数据比对方法、装置、设备及存储介质
CN110837509A (zh) * 2019-11-08 2020-02-25 深圳市彬讯科技有限公司 一种调度依赖的方法、装置、设备以及存储介质
CN111090569A (zh) * 2019-12-11 2020-05-01 深圳震有科技股份有限公司 一种调度系统及基于调度系统的关系日志生成方法、介质
CN111158798A (zh) * 2019-12-27 2020-05-15 中国银行股份有限公司 一种业务数据处理方法及装置
WO2020186809A1 (zh) * 2019-03-19 2020-09-24 深圳壹账通智能科技有限公司 基于大数据平台的hive任务调度方法、装置、设备及存储介质
CN111930814A (zh) * 2020-05-29 2020-11-13 武汉达梦数据库有限公司 一种基于etl系统的文件事件的调度方法和etl系统
CN112367205A (zh) * 2020-11-12 2021-02-12 深圳前海微众银行股份有限公司 一种对http调度请求的处理方法及调度系统
CN113064713A (zh) * 2021-04-23 2021-07-02 中国工商银行股份有限公司 一种任务执行方法、装置及设备
CN114968913A (zh) * 2022-05-25 2022-08-30 中国平安财产保险股份有限公司 一种数据管理方法、装置及计算设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780704A (zh) * 2020-10-22 2021-12-10 北京京东振世信息技术有限公司 一种任务处理方法和装置
CN112486982A (zh) * 2020-11-17 2021-03-12 中信银行股份有限公司 一种数据获取方法、装置及存储介质
CN112861496A (zh) * 2021-03-22 2021-05-28 平安商业保理有限公司 报表生成显示方法、装置、计算机设备和可读存储介质
CN113268318A (zh) * 2021-04-07 2021-08-17 北京思特奇信息技术股份有限公司 一种任务调度的方法和分布式系统
CN113342490A (zh) * 2021-05-31 2021-09-03 北京顶象技术有限公司 一种建模任务调度的执行方法和装置
CN113779336A (zh) * 2021-09-08 2021-12-10 五八同城信息技术有限公司 用户行为数据的处理方法及装置、电子设备
CN113986380B (zh) * 2021-10-27 2024-02-06 北京百度网讯科技有限公司 数据处理方法、装置和系统、电子设备及存储介质
CN114710403B (zh) * 2022-03-30 2024-04-19 中国建设银行股份有限公司 数据调度方法、装置、设备、介质及程序产品
CN114816717A (zh) * 2022-05-19 2022-07-29 广州有信科技有限公司 计算机任务的执行方法、装置、设备及存储介质
CN117009327B (zh) * 2023-09-27 2024-01-05 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机设备、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001063448A2 (en) * 2000-02-25 2001-08-30 Navic Systems, Inc. Method and system of user profile generation
US20070011226A1 (en) * 2002-09-07 2007-01-11 Appistry, Inc. Processing information using a hive of computing engines including request handlers and process handlers
US20150084784A1 (en) * 2013-09-25 2015-03-26 Solutionbee, LLC Apiary monitoring system
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
US20170116002A1 (en) * 2015-10-26 2017-04-27 Dell Products L.P. Making user profile data portable across platforms
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备
CN107818112A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 一种大数据分析作业系统及任务提交方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536811B (zh) * 2014-12-26 2018-10-16 广州华多网络科技有限公司 基于hive任务的任务调度方法及装置
CN106528275A (zh) * 2015-09-10 2017-03-22 网易(杭州)网络有限公司 数据任务的处理方法及任务调度器
US11080207B2 (en) * 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud
CN106201754A (zh) * 2016-07-06 2016-12-07 乐视控股(北京)有限公司 任务信息分析方法及装置
CN110069572B (zh) * 2019-03-19 2022-08-02 深圳壹账通智能科技有限公司 基于大数据平台的hive任务调度方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001063448A2 (en) * 2000-02-25 2001-08-30 Navic Systems, Inc. Method and system of user profile generation
US20070011226A1 (en) * 2002-09-07 2007-01-11 Appistry, Inc. Processing information using a hive of computing engines including request handlers and process handlers
US20150084784A1 (en) * 2013-09-25 2015-03-26 Solutionbee, LLC Apiary monitoring system
CN104616205A (zh) * 2014-11-24 2015-05-13 北京科东电力控制系统有限责任公司 一种基于分布式日志分析的电力系统运行状态监视方法
US20170116002A1 (en) * 2015-10-26 2017-04-27 Dell Products L.P. Making user profile data portable across platforms
CN107818112A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 一种大数据分析作业系统及任务提交方法
CN107301214A (zh) * 2017-06-09 2017-10-27 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BACKBOOK: "Hive的运行执行顺序", 《HTTPS://WWW.JIANSHU.COM/P/6F0C40F4FA90》 *
CHAVINKING: "hive优化之并行执行任务", 《HTTPS://WWW.BBSMAX.COM/A/OBZBN3QQZE/》 *
基于HDFS的百度多酷移动游戏数据平台的设计与实现: "基于HDFS的百度多酷移动游戏数据平台的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王庆达: "基于Hadoop技术的微博统计系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
阿华田: "hive参数配置终极总结", 《HTTPS://BLOG.CSDN.NET/AA518189/ARTICLE/DETAILS/84763854》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020186809A1 (zh) * 2019-03-19 2020-09-24 深圳壹账通智能科技有限公司 基于大数据平台的hive任务调度方法、装置、设备及存储介质
CN110490451A (zh) * 2019-08-15 2019-11-22 中国平安财产保险股份有限公司 基于hadoop的任务数据管控方法、装置以及计算机设备
CN110764998B (zh) * 2019-09-06 2024-04-02 平安健康保险股份有限公司 基于Django框架的数据比对方法、装置、设备及存储介质
CN110764998A (zh) * 2019-09-06 2020-02-07 平安健康保险股份有限公司 基于Django框架的数据比对方法、装置、设备及存储介质
CN110837509A (zh) * 2019-11-08 2020-02-25 深圳市彬讯科技有限公司 一种调度依赖的方法、装置、设备以及存储介质
CN111090569A (zh) * 2019-12-11 2020-05-01 深圳震有科技股份有限公司 一种调度系统及基于调度系统的关系日志生成方法、介质
CN111158798A (zh) * 2019-12-27 2020-05-15 中国银行股份有限公司 一种业务数据处理方法及装置
CN111930814A (zh) * 2020-05-29 2020-11-13 武汉达梦数据库有限公司 一种基于etl系统的文件事件的调度方法和etl系统
CN111930814B (zh) * 2020-05-29 2024-02-27 武汉达梦数据库股份有限公司 一种基于etl系统的文件事件的调度方法和etl系统
CN112367205B (zh) * 2020-11-12 2023-04-18 深圳前海微众银行股份有限公司 一种对http调度请求的处理方法及调度系统
CN112367205A (zh) * 2020-11-12 2021-02-12 深圳前海微众银行股份有限公司 一种对http调度请求的处理方法及调度系统
CN113064713A (zh) * 2021-04-23 2021-07-02 中国工商银行股份有限公司 一种任务执行方法、装置及设备
CN114968913A (zh) * 2022-05-25 2022-08-30 中国平安财产保险股份有限公司 一种数据管理方法、装置及计算设备

Also Published As

Publication number Publication date
CN110069572B (zh) 2022-08-02
WO2020186809A1 (zh) 2020-09-24

Similar Documents

Publication Publication Date Title
CN110069572A (zh) 基于大数据平台的hive任务调度方法、装置、设备及存储介质
CN108768728B (zh) 运维任务处理方法、装置、计算机设备和存储介质
CN109711802A (zh) 项目信息处理方法、装置、计算机设备和存储介质
CN107220142B (zh) 执行数据恢复操作的方法及装置
CN109558440A (zh) 数据批量处理方法、装置、计算机设备及存储介质
CN109144829B (zh) 故障处理方法、装置、计算机设备和存储介质
CN107957940B (zh) 一种测试日志处理方法、系统及终端
CN109766253B (zh) 一种性能数据发送方法、装置、计算机设备及存储介质
US20160253172A1 (en) Indicating a trait of a continuous delivery pipeline
CN110309123A (zh) 数据库操作的处理方法、装置、计算机设备及存储介质
CN108897587B (zh) 可插拔式机器学习算法运行方法、装置及可读存储介质
CN109308258A (zh) 测试数据的构造方法、装置、计算机设备和存储介质
CN115794839B (zh) 基于Php+Mysql体系的数据归集方法、计算机设备及存储介质
CN109284331A (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN112182089A (zh) 基于数据仓库模型的报表生成方法、装置和设备
CN112579705A (zh) 元数据采集方法、装置、计算机设备和存储介质
CN110502242A (zh) 代码自动生成方法、装置、计算机设备及存储介质
CN105468445B (zh) 一种基于WEB的Spark应用程序调度方法及系统
CN115271503A (zh) 自动化运维方法、装置、电子设备及存储介质
WO2019062087A1 (zh) 考勤数据测试方法、终端、设备以及计算机可读存储介质
US10481836B2 (en) Machine learning method and system for predicting file controls
CN113762722A (zh) 合作开发软件项目的方法和装置
CN114721945A (zh) 基于图数据库的分配方法及其装置、电子设备及存储介质
CN114625773A (zh) 一种基于业务数据的财务数据构建方法和系统
CN113704355A (zh) 数据同步方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant