CN112328393A - 基于大数据环境的作业处理方法、装置、系统及存储介质 - Google Patents

基于大数据环境的作业处理方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN112328393A
CN112328393A CN202011206418.XA CN202011206418A CN112328393A CN 112328393 A CN112328393 A CN 112328393A CN 202011206418 A CN202011206418 A CN 202011206418A CN 112328393 A CN112328393 A CN 112328393A
Authority
CN
China
Prior art keywords
job
big data
processing
early warning
killing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011206418.XA
Other languages
English (en)
Inventor
杨泽森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011206418.XA priority Critical patent/CN112328393A/zh
Publication of CN112328393A publication Critical patent/CN112328393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Abstract

本发明实施例涉及一种基于大数据环境的作业处理方法、装置、系统及存储介质,该方法包括:实时采集大数据作业信息;根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理。通过该种方式,尽量避免在平台资源有限的情况下,各类任务发生资源争抢的情况发生。缩短各类大数据任务整体执行时间,避免对业务分析提供数据服务的SLA时效影响,方便企业管理层及时进行决策分析。

Description

基于大数据环境的作业处理方法、装置、系统及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于大数据环境的作业处理方法、装置、系统及存储介质。
背景技术
随着大数据时代的到来,企业中每天存在海量的大数据计算,用于支撑企业营销和运营。在企业大数据平台、数据中台或数据仓库环境中会存在大量计算任务等,任务数量规模在万级、十万级、百万级规模不等。而平台的计算资源通常会采用另一种资源协调者(Yet Another Resource Negotiator,简称YARN)进行计算资源的管理、分配和调度,YARN是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
YARN资源管理可以由平台管理人员进行资源划分,不同的任务划分不同数量的资源。在实际执行时,考虑不同时段,执行任务不同,如果按照实际资源总量为每一个任务划分资源量,有些任务在这个时段并没有执行任务,必然导致资源浪费。为避免资源闲置所造成浪费情况发生,就会在为每一个任务划分资源时,理论上划分的多一些,这样一来,某些任务并没有使用的资源,则可以调用到正在执行的任务上使用。如此一来,也就导致总和远超实际拥有的资源量。
其所带来的弊端就是,在平台资源有限的情况下,各类任务直接发生资源争抢,造成平台各类大数据任务整体执行时间变长,从而影响大数据为业务分析提供数据服务的服务等级协议(Service-Level Agreement,简称SLA)时效,影响企业管理层及时进行决策分析。
发明内容
鉴于此,为解决现有技术中上述技术问题,本发明实施例提供一种基于大数据环境的作业处理方法、装置、系统及存储介质。
第一方面,本发明实施例提供一种基于大数据环境的作业处理方法,该方法包括:
实时采集大数据作业信息;
根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;
当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理,以便根据对作业执行的预警处理或查杀处理结果,辅助资源调度分配。
在一个可能的实施方式中,资源调度触发条件包括预警触发条件以及查杀触发条件;
预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
在一个可能的实施方式中,与预警触发条件,以及查杀触发条件相对应的,大数据作业信息包括但不限于如下中一种或多种:用户名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。
在一个可能的实施方式中,实时采集大数据作业信息之前,方法还包括:
识别作业对应的任务所在的类型和级别;
根据作业对应的任务的类型和级别,将作业划分到相应的队列,其中,任务对应至少一个作业,不同队列对应于不同的资源配置规格。
在一个可能的实施方式中,根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件,包括:
将大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定大数据作业信息是否符合预警触发条件,或是否符合查杀触发条件。
在一个可能的实施方式中,当确定大数据作业信息符合预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定大数据作业信息符合查杀触发条件时,直接对于大数据作业信息对应的作业进行查杀操作。
在一个可能的实施方式中,根据对所述作业执行的预警处理或查杀处理结果,辅助资源调度分配,包括:
根据对所述作业执行的预警处理的结果,向外发出预警信息,以便预警信息的接收方根据所述预警信息对所述作业占用资源进行优化,或调整作业执行时间,辅助资源调度分配;
或者,根据对所述作业执行的查杀处理结果,停止执行所述作业,以释放所述作业占用的资源,辅助资源调度分配。
第二方面,本发明实施例提供一种基于大数据环境的作业处理装置,该装置包括:
采集单元,用于实时采集大数据作业信息;
处理单元,用于根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;
当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理,以便根据对作业执行的预警处理或查杀处理结果,辅助资源调度分配。
在一个可能的实施方式中,资源调度触发条件包括预警触发条件以及查杀触发条件;处理单元具体用于,
当确定大数据作业信息符合预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定大数据作业信息符合查杀触发条件时,直接对于大数据作业信息对应的作业进行查杀操作。
第三方面,本发明实施例提供一种服务器,该服务器包括:
至少一个处理器和存储器;
处理器用于执行存储器中存储的基于大数据环境的作业处理程序,以实现如第一方面任一实施方式所介绍的基于大数据环境的作业处理方法。
第四方面,本发明实施例提供一种计算机存储介质,该计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如第三方面所介绍的服务器执行,以实现如第一方面任一实施方式所介绍的基于大数据环境的作业处理方法。
本发明实施例提供的一种基于大数据环境的作业处理方法,实时采集大数据作业信息,用以实现对大数据作业的实时监控。一旦根据大数据作业信息确定作业符合调度资源触发条件时,则直接对作业执行相应的处理操作,例如执行预警处理操作,或查杀操作。如果是预警操作,则是告知工作人员及时关注作业占用资源情况,对当前作业占用的资源进行优化,或者调整运行时间。如果是查杀操作,那么直接对当前作业进行查杀。也即是停止当前作业的执行,以便其所占用的资源能够被其他更加需要资源的作业优先使用,尽量避免在平台资源有限的情况下,各类任务发生资源争抢的情况发生。缩短各类大数据任务整体执行时间,避免对业务分析提供数据服务的SLA时效影响,方便企业管理层及时进行决策分析。
附图说明
图1为本发明实施例提供的一种基于大数据环境的作业处理方法流程示意图;
图2为本发明提供的触发预警条件组成示意图;
图3为本发明提供的触发查杀条件示意图;
图4为本发明实施例提供一种基于大数据环境的作业处理装置结构示意图;
图5为本发明实施例提供一种服务器结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种基于大数据环境的作业处理方法流程示意图,如图1所示,该方法包括:
步骤110,实时采集大数据作业信息。
具体的,用户提交任务到大数据平台中心。服务器检测到大数据平台中心接收任务后,会将任务自动生成多个作业。每一个作业都对应大数据作业信息,服务器实是从大数据平台提取大数据作业信息。
可选的,大数据作业信息可以包括但不限于如下中一种或多种:作业名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。根据这些信息,可以方便后续判断当前作业是否符合资源调度触发条件,一旦符合资源调度触发条件,则执行相应的处理操作。
下面,对文中的map和reduce做出具体解释:
Hadoop map/reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。一个map/reduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务(即之前被查杀的任务)。
可选的,大数据作业信息中还包括作业ID、用户名称、作业序号、作业运行状态、最终状态以及运行进度等。所有大数据作业信息都将被记录到日志中,方便后续工作人员查询、使用等。
步骤120,根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件。
步骤130,当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作。
具体的,根据对作业执行的预警处理或查杀处理结果,可以辅助资源调度分配,以便实现资源合理利用。
在一个具体的例子中,处理操作可以包括预警处理或查杀处理。相应的,资源调度触发条件可以包括预警触发条件以及查杀触发条件。
其中,预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
也即是说,预警触发条件可以包括但不限于作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源中的一种或多种。类似的道理,查杀触发条件同样可以包括但不限于作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源中的一种或多种。
在具体配置预警触发条件或者是查杀条件时,可以根据实际情况进行设定。例如图2示出了预警触发条件,图3示出了查杀触发条件。所有维度配置相应的规则条件,规则条件可以是等于、大于、小于、区间、大于等于,或者小于等于等等逻辑运算表达式。配置相应的规则值,或者规则区间。不同的维度、不同的规则条件以及规则值之间配合使用,形成不同的触发子条件,不同的触发子条件之间自由组合,并配置相应的逻辑运算,最终形成触发条件。又或者,不同的触发子条件也可以作为一个完整的触发条件使用,具体如何操作,完全可以根据实际情况设定,这里不做过多说明。
例如图2中,规则维度为时间,规则条件为区间,规则值为0点到6点,构成一个触发子条件;规则维度为队列,规则条件为“=”,规则值为队列名称“dmc_dev”,构成一个触发子条件;规则维度为用户,规则条件为“=”,规则值为用户名称“dmc”,构成一个触发子条件等。图2中共示出5个触发子条件,不同的触发子条件之间的组合规则关系为“并且”。选择预警规则时,如图2所示,通过“√”形式进行选择,图2中选择前4个触发子条件,以并且形式共同构成预警触发条件。其中图2中,Map数,既是map的数量,Red数,既是reduce的数量。至于map和reduce已经在上文中给出具体解释说明。
也即是,当某一个作业对应的作业信息同时满足上述已经选择的4个触发子条件时,确定当前作业符合触发条件,对该作业执行与资源调度触发条件(预警触发条件)对应的处理操作,也即是执行预警操作。执行预警操作后,可以根据预警处理结果,辅助资源调度分配。
例如,根据对所述作业执行的预警处理的结果,向外发出预警信息,以便及时通知工作人员对作业所占用的资源进行优化,或者是调整作业执行时间,进而达到释放资源,辅助资源调度。
图3示出的查杀触发条件示意图,其原理类似图2,这里不再过多赘述。
在一个具体的例子中,如果某一个触发子条件单独作为触发条件,例如预警条件为设置地图申请的计算资源包括2G内存,1中央处理器内核(cpu core)。但是实际作业时,占用的计算资源包括3G内存,2cpu core,此时则会触发预警。
需要说明的是,预警触发条件和查杀触发条件具体配置可以相同,也可以不同,完全根据实际情况设定。例如,图2和图3中以一个具体的例子的形式说明预警触发条件的组成形式,以及查杀触发条件的组成形式,触发条件相同,但是在实际应用中,预警触发条件和查杀触发条件也可以说完全不相同的。
进一步可选的,在根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件时,主要是根据如下方式实现:
将大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定大数据作业信息是否符合预警触发条件,或是否符合查杀触发条件。
例如,当前作业对应的大数据作业信息中包括:用户名称为dmc_dev,资源队列为dmc_dev,map数量15000,作业运行时间为4点到5点之间。将这些数据分别与预警触发条件,以及查杀触发条件相比较,确定其是否符合预警触发条件或符合查杀触发条件。
需要说明的是,这里所说的查杀操作,其实就是暂停作业的执行,查杀的是作业实例。而并非是在服务器上删除该作业,作业的后续执行可以通过如下两种方式实现:
如果该作业是周期性触发执行操作的情况,则不作处理,后续到达周期时,作业会自动触发执行。如果是非周期性触发操作的情况,则需要工作人员在某些空闲时间段,手动触发作业执行。
可选的,在具体执行时,如果确定符合预警触发条件,则触发预警,并生成采用预设通知方式的告知信息。例如,向工作人员发出预警信息,同时还需要向工作人员反馈作业ID信息,以及相应的预警信息。
又或者,在具体执行时,如果确定符合查杀触发条件,需要执行查杀操作,在发送查杀操作通知消息时,还需要向工作人员反馈作业ID信息,以及相应的查杀操作信息。执行查杀操作,同样是方便后续根据处理结果,辅助资源调度分配。即如上文所介绍的,停止执行所述作业,以释放所述作业占用的资源,辅助资源调度分配。
在一个具体的例子中,例如查杀操作为Job查杀操作。具体执行时,可以通过hadoop命令“hadoop job-kill jobid”的形式提交到大数据集群客户端执行实现,用户大数据任务的job被查杀后,用户的大数据任务就会失败,当前任务示例就会停止,由此节约了平台计算资源。
需要说明的是,一个大数据用户提交的大数据计算任务,例如一个hive查询sql或一个python脚本,在hadoop集群计算过程中会自动分成多个job。即用户大数据任务与hadoop job的对应关系是1对多。本实施例中,通过实时智能监控Job的资源申请情况(job的地图与reduce数量)来进行实时预警和查杀干预,从而根据用户自定义的智能job预警与查杀机制预防hadoop大数据集群的资源浪费。
可选的,该方法还可以包括:配置预警信息/查杀消息通知模板。在触发预警操作/查杀操作时,则可以将相应的预警/查杀信息填入模板后,以模板形式反馈至工作人员对应的终端设备上。模板的设置可以包括设置预警信息模板的格式、内容以及告警/查杀信息的接收人等等。
进一步可选的,上述操作中是通过对作业进行预警或者查杀等操作实现资源调度,以便保证资源合理利用。实际上,执行上述所有操作之前,该方法还可以包括如下步骤,用以实现资源合理利用,具体参见如下:
识别作业对应的任务所在的类型和级别;
根据作业对应的任务的类型和级别,将作业划分到相应的队列,其中,任务对应至少一个作业,不同队列对应于不同的资源配置规格。
具体的,由上文所介绍的,用户提交任务到大数据平台,服务器检测到大数据平台接收到任务后,会自动根据任务生成多个作业。为了能够更好的实现资源利用,在生成作业之前,工作人员可以实现配置好不同任务的类型和级别。
其中,对于任务进行分类分级时,可以考虑如下几个维度:
业务条线,任务所服务的业务需求方。
重要程度,任务所支持的业务需求或应用的重要等级,可分为核心、重要、普通。
安全等级,任务加工数据的敏感程度或安全等级分类,可分为机密、核心、重要、公开四个等级。
应用标签,任务支持的具体业务应用或项目的类别。
以上4个维度可以单独使用,也可以自由组合使用。
在根据上述4个维度中一个或多个维度,对任务进行分类分级后,配置相应的标签。服务器则可以根据标签,来识别每一个任务的类型和级别,然后将不同的任务根据分类分级结果,划分到不同的任务队列中。不同任务队列,所能占用的资源以及reduce数量等规格不同,具体将由工作人员事先配置。也即是,在该任务队列中,所有作业执行时都可以按照该规则使用资源。
通过对不同任务进行分类分级后,其所对应的作业也将按照不同的资源配置规格占用相应的资源执行操作。如此一来,某些比较重要的任务将优先享有更多的资源,来执行操作,缩短执行作业时间。而那些不太重要的任务则占用较少的资源,后续慢慢的完成执行操作。通过该种方式,保证有限资源的合理使用,最大化提升平台各类大数据任务整体执行效率,降低对业务分析提供数据服务的SLA时效的影响,便于企业管理层及时进行决策分析。
本发明实施例提供的基于大数据环境的作业处理方法,实时采集大数据作业信息,用以实现对大数据作业的实时监控。一旦根据大数据作业信息确定作业符合调度资源触发条件时,则直接对作业执行相应的处理操作,例如执行预警处理操作,或查杀操作。如果是预警操作,则是告知工作人员及时关注作业占用资源情况,对当前作业占用的资源进行优化,或者调整运行时间。如果是查杀操作,那么直接对当前作业进行查杀。也即是停止当前作业的执行,以便其所占用的资源能够被其他更加需要资源的作业优先使用,尽量避免在平台资源有限的情况下,各类任务发生资源争抢的情况发生。缩短各类大数据任务整体执行时间,避免对业务分析提供数据服务的SLA时效影响,方便企业管理层及时进行决策分析。
图4为本发明实施例提供的一种基于大数据环境的作业处理装置,该装置包括:采集单元401和处理单元402。
采集单元401,用于实时采集大数据作业信息;
处理单元402,用于根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;
当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理,以便根据对作业执行的预警处理或查杀处理结果,辅助资源调度分配。
可选的,资源调度触发条件包括预警触发条件以及查杀触发条件;
预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
可选的,与预警触发条件,以及查杀触发条件相对应的,大数据作业信息包括但不限于如下中一种或多种:用户名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。
可选的,处理单元402还用于,识别作业对应的任务所在的类型和级别;
根据作业对应的任务的类型和级别,将作业划分到相应的队列,其中,任务对应至少一个作业,不同队列对应于不同的资源配置规格。
可选的,处理单元402具体用于,将大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定大数据作业信息是否符合预警触发条件,或是否符合查杀触发条件。
可选的,处理单元402具体用于,当确定大数据作业信息符合预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定大数据作业信息符合查杀触发条件时,直接对于大数据作业信息对应的作业进行查杀操作。
本实施例提供的基于大数据环境的作业处理装置中各功能部件所执行的功能均已在图1对应的实施例中做了详细介绍,因此这里不再赘述。
本发明实施例提供的一种基于大数据环境的作业处理装置,实时采集大数据作业信息,用以实现对大数据作业的实时监控。一旦根据大数据作业信息确定作业符合调度资源触发条件时,则直接对作业执行相应的处理操作,例如执行预警处理操作,或查杀操作。如果是预警操作,则是告知工作人员及时关注作业占用资源情况,对当前作业占用的资源进行优化,或者调整运行时间。如果是查杀操作,那么直接对当前作业进行查杀。也即是停止当前作业的执行,以便其所占用的资源能够被其他更加需要资源的作业优先使用,尽量避免在平台资源有限的情况下,各类任务发生资源争抢的情况发生。缩短各类大数据任务整体执行时间,避免对业务分析提供数据服务的SLA时效影响,方便企业管理层及时进行决策分析。
图5为本发明实施例提供的一种服务器的结构示意图,图5所示的服务器500包括:至少一个处理器501、存储器502、至少一个网络接口503和其他用户接口504。基于大数据环境的作业处理服务器500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口504可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序5022中。
在本发明实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:
实时采集大数据作业信息;
根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;
当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理,以便根据对作业执行的预警处理或查杀处理结果,辅助资源调度分配。
可选的,资源调度触发条件包括预警触发条件以及查杀触发条件;
预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
可选的,与预警触发条件,以及查杀触发条件相对应的,大数据作业信息包括但不限于如下中一种或多种:用户名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。
可选的,实时采集大数据作业信息之前,方法还包括:
识别作业对应的任务所在的类型和级别;
根据作业对应的任务的类型和级别,将作业划分到相应的队列,其中,任务对应至少一个作业,不同队列对应于不同的资源配置规格。
可选的,根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件,包括:
将大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定大数据作业信息是否符合预警触发条件,或是否符合查杀触发条件。
可选的,当确定大数据作业信息符合预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定大数据作业信息符合查杀触发条件时,直接对于大数据作业信息对应的作业进行查杀操作。
可选的,根据对所述作业执行的预警处理的结果,向外发出预警信息,以便预警信息的接收方根据所述预警信息对所述作业占用资源进行优化,或调整作业执行时间,辅助资源调度分配;
或者,根据对所述作业执行的查杀处理结果,停止执行所述作业,以释放所述作业占用的资源,辅助资源调度分配。
上述本发明实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元502501可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的服务器可以是如图5中所示的服务器,可执行如图1中基于大数据环境的作业处理方法的所有步骤,进而实现图1所示基于大数据环境的作业处理方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在服务器侧执行的基于大数据环境的作业处理方法。
处理器用于执行存储器中存储的基于大数据环境的作业处理程序,以实现以下在服务器侧执行的基于大数据环境的作业处理方法的步骤:
实时采集大数据作业信息;
根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件;
当确定作业符合资源调度触发条件时,对作业执行与资源调度触发条件对应的处理操作,其中处理操作包括预警处理或查杀处理,以便根据对作业执行的预警处理或查杀处理结果,辅助资源调度分配。
可选的,资源调度触发条件包括预警触发条件以及查杀触发条件;
预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
可选的,与预警触发条件,以及查杀触发条件相对应的,大数据作业信息包括但不限于如下中一种或多种:用户名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。
可选的,实时采集大数据作业信息之前,方法还包括:
识别作业对应的任务所在的类型和级别;
根据作业对应的任务的类型和级别,将作业划分到相应的队列,其中,任务对应至少一个作业,不同队列对应于不同的资源配置规格。
可选的,根据大数据作业信息确定与大数据作业信息对应的作业是否符合资源调度触发条件,包括:
将大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定大数据作业信息是否符合预警触发条件,或是否符合查杀触发条件。
可选的,当确定大数据作业信息符合预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定大数据作业信息符合查杀触发条件时,直接对于大数据作业信息对应的作业进行查杀操作。
可选的,根据对所述作业执行的预警处理的结果,向外发出预警信息,以便预警信息的接收方根据所述预警信息对所述作业占用资源进行优化,或调整作业执行时间,辅助资源调度分配;
或者,根据对所述作业执行的查杀处理结果,停止执行所述作业,以释放所述作业占用的资源,辅助资源调度分配。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据环境的作业处理方法,其特征在于,所述方法包括:
实时采集大数据作业信息;
根据所述大数据作业信息确定与所述大数据作业信息对应的作业是否符合资源调度触发条件;
当确定所述作业符合资源调度触发条件时,对所述作业执行与所述资源调度触发条件对应的处理操作,其中所述处理操作包括预警处理或查杀处理,以便根据对所述作业执行的预警处理或查杀处理结果,辅助资源调度分配。
2.根据权利要求1所述的方法,其特征在于,所述资源调度触发条件包括预警触发条件以及查杀触发条件;
所述预警触发条件以及查杀触发条件分别包括如下一种或多种:作业处理时间段、资源队列、作业名称、作业的map数量、作业的reduce数量以及作业来源。
3.根据权利要求2所述的方法,其特征在于,与所述预警触发条件以及所述查杀触发条件相对应的,所述大数据作业信息包括但不限于如下中一种或多种:用户名称、作业来源、作业的资源队列、作业运行时间、完成时间、map数量以及reduce数量。
4.根据权利要求1或2所述的方法,其特征在于,所述实时采集大数据作业信息之前,所述方法还包括:
识别所述作业对应的任务所在的类型和级别;
根据所述作业对应的任务的类型和级别,将所述作业划分到相应的队列,其中,所述任务对应至少一个作业,不同队列对应于不同的资源配置规格。
5.根据权利要求3所述的方法,其特征在于,所述根据所述大数据作业信息确定与所述大数据作业信息对应的作业是否符合资源调度触发条件,包括:
将所述大数据作业信息分别与预配置的预警触发条件以及查杀触发条件进行匹配;
确定所述大数据作业信息是否符合所述预警触发条件,或是否符合所述查杀触发条件。
6.根据权利要求4所述的方法,其特征在于,当确定所述大数据作业信息符合所述预警触发条件时,触发预警,并生成采用预设通知方式的告知信息;
或,当确定所述大数据作业信息符合所述查杀触发条件时,直接对于所述大数据作业信息对应的作业进行查杀操作。
7.根据权利要求1-3或5、6中任一项所述的方法,其特征在于,所述根据对所述作业执行的预警处理或查杀处理结果,辅助资源调度分配,包括:
根据对所述作业执行的预警处理的结果,向外发出预警信息,以便预警信息的接收方根据所述预警信息对所述作业占用资源进行优化,或调整作业执行时间,辅助资源调度分配;
或者,根据对所述作业执行的查杀处理结果,停止执行所述作业,以释放所述作业占用的资源,辅助资源调度分配。
8.一种基于大数据环境的作业处理装置,其特征在于,所述装置包括:
采集单元,用于实时采集大数据作业信息;
处理单元,用于根据所述大数据作业信息确定与所述大数据作业信息对应的作业是否符合资源调度触发条件;
当确定所述作业符合资源调度触发条件时,对所述作业执行与所述资源调度触发条件对应的处理操作,其中所述处理操作包括预警处理或查杀处理,以便根据对所述作业执行的预警处理或查杀处理结果,辅助资源调度分配。
9.一种服务器,其特征在于,所述服务器包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的基于大数据环境的作业处理程序,以实现权利要求1~7中任一项所述的基于大数据环境的作业处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如权利要求9所述的服务器执行,以实现权利要求1~7中任一项所述的基于大数据环境的作业处理方法。
CN202011206418.XA 2020-11-02 2020-11-02 基于大数据环境的作业处理方法、装置、系统及存储介质 Pending CN112328393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011206418.XA CN112328393A (zh) 2020-11-02 2020-11-02 基于大数据环境的作业处理方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011206418.XA CN112328393A (zh) 2020-11-02 2020-11-02 基于大数据环境的作业处理方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112328393A true CN112328393A (zh) 2021-02-05

Family

ID=74322986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011206418.XA Pending CN112328393A (zh) 2020-11-02 2020-11-02 基于大数据环境的作业处理方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112328393A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120710A1 (en) * 2001-12-20 2003-06-26 Darren Pulsipher Hierarchically structured logging for computer work processing
JP2005011023A (ja) * 2003-06-18 2005-01-13 Hitachi Ltd ジョブスケジューリング方法及びシステム
US20080189712A1 (en) * 2007-02-02 2008-08-07 International Business Machines Corporation Monitoring performance on workload scheduling systems
CN107315636A (zh) * 2016-04-26 2017-11-03 中国移动通信集团河北有限公司 一种资源可用度预警方法及装置
US20180365072A1 (en) * 2017-06-20 2018-12-20 International Business Machines Corporation Optimizing resource usage in distributed computing environments by dynamically adjusting resource unit size
CN109214741A (zh) * 2017-07-07 2019-01-15 北京京东尚科信息技术有限公司 一种监控指标的预警方法和预警系统
CN111782466A (zh) * 2020-06-28 2020-10-16 京东数字科技控股有限公司 一种大数据任务资源利用检测方法及装置
CN111813545A (zh) * 2020-06-29 2020-10-23 北京字节跳动网络技术有限公司 一种资源配置方法、装置、介质和设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030120710A1 (en) * 2001-12-20 2003-06-26 Darren Pulsipher Hierarchically structured logging for computer work processing
JP2005011023A (ja) * 2003-06-18 2005-01-13 Hitachi Ltd ジョブスケジューリング方法及びシステム
US20080189712A1 (en) * 2007-02-02 2008-08-07 International Business Machines Corporation Monitoring performance on workload scheduling systems
CN107315636A (zh) * 2016-04-26 2017-11-03 中国移动通信集团河北有限公司 一种资源可用度预警方法及装置
US20180365072A1 (en) * 2017-06-20 2018-12-20 International Business Machines Corporation Optimizing resource usage in distributed computing environments by dynamically adjusting resource unit size
CN109214741A (zh) * 2017-07-07 2019-01-15 北京京东尚科信息技术有限公司 一种监控指标的预警方法和预警系统
CN111782466A (zh) * 2020-06-28 2020-10-16 京东数字科技控股有限公司 一种大数据任务资源利用检测方法及装置
CN111813545A (zh) * 2020-06-29 2020-10-23 北京字节跳动网络技术有限公司 一种资源配置方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CA3000422C (en) Workflow service using state transfer
US20160139949A1 (en) Virtual machine resource management system and method thereof
US20140289286A1 (en) System and method for performance tuning of garbage collection algorithms
US20080271032A1 (en) Data Processing Network
US10331488B2 (en) Multilayered resource scheduling
CN111338791A (zh) 集群队列资源的调度方法、装置、设备及存储介质
CN111768097B (zh) 任务执行状态监控方法、装置、系统及存储介质
US20230342191A1 (en) Task Scheduling Method and System
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN110609745A (zh) 一种作业任务的执行方法、装置、电子设备、存储介质
US20230300086A1 (en) On-demand resource capacity in a serverless function-as-a-service infrastructure
CN113076224B (zh) 数据备份方法、数据备份系统、电子设备及可读存储介质
CN113032125A (zh) 作业调度方法、装置、计算机系统和计算机可读存储介质
WO2017074320A1 (en) Service scaling for batch processing
CN112307046A (zh) 数据采集方法和装置、计算机可读存储介质、电子设备
CN106681810A (zh) 一种任务对接处理的定制管理方法、装置及电子设备
CN112328393A (zh) 基于大数据环境的作业处理方法、装置、系统及存储介质
CN115373822A (zh) 任务调度方法、任务处理方法、装置、电子设备和介质
CN114816477A (zh) 服务器升级方法、装置、设备、介质和程序产品
CN113656812A (zh) 一种基于大数据技术的数据管理系统和方法
WO2021096346A1 (en) A computer-implemented system for management of container logs and its method thereof
CN115168297A (zh) 绕行日志审计方法及装置
CN110908777A (zh) 作业调度方法、装置和系统
US9436523B1 (en) Holistic non-invasive evaluation of an asynchronous distributed software process
US11288291B2 (en) Method and system for relation discovery from operation data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co., Ltd

CB02 Change of applicant information