CN113010277A - 一种基于自动化运维的多条件触发自动作业系统和方法 - Google Patents

一种基于自动化运维的多条件触发自动作业系统和方法 Download PDF

Info

Publication number
CN113010277A
CN113010277A CN202011310211.7A CN202011310211A CN113010277A CN 113010277 A CN113010277 A CN 113010277A CN 202011310211 A CN202011310211 A CN 202011310211A CN 113010277 A CN113010277 A CN 113010277A
Authority
CN
China
Prior art keywords
job
task
execution
maintenance
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011310211.7A
Other languages
English (en)
Inventor
曹亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202011310211.7A priority Critical patent/CN113010277A/zh
Publication of CN113010277A publication Critical patent/CN113010277A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于自动化运维的多条件触发自动作业系统和方法。系统包括:任务执行策略设定模块、流程作业信息注册模块、待执行作业触发模块、执行策略监测模块、作业执行状态监测模块、任务去除模块。借助下述步骤:S4、设置流程作业的任务执行策略;S5、注册作业信息;S6、监测步骤S5中已注册作业信息的流程作业的任务执行策略;S7、在步骤S6的监测满足预定条件后触发待执行流程作业;S8、监测步骤S7中所触发的流程作业的作业执行状态;S9、在步骤S6和S8的监测满足预定条件后去除任务调度器中的作业任务或者执行步骤S5重新注册作业信息(包括下次调度时间)。借此,可以实现对IT运维操作的自动化多条件调度处理。

Description

一种基于自动化运维的多条件触发自动作业系统和方法
技术领域
本发明属于智能运维领域,具体涉及一种基于自动化运维的多条件触发自动作业系统和方法,主要用来处理IT行业运维过程中的部分作业,包括周期性、定期的、条件性地触发执行常见的、重复性的运维工作,借以提高运维人员的工作效率。
背景技术
目前,随着企业所需资源数量日益增长,公司的操作节点数有了极大的提高,有些甚至达到百万级别,这给运维工作带来了一定的挑战。
在常规的运维工作中,大多包含多个关联执行主机字段,而不同的字段又代表不同的含义,导致这些节点通常是独立运维的,而且这些运维作业中,通常又包括很多周期性、定期的、条件性触发执行的常见的、重复性的运维工作,这就需要大量的人力资源在这些运维作业上。这样的运维方式,就会存在如下的问题:
1、不同的人员可能会遇到相同或近似的运维问题,由于需要他们各自编写脚本任务,导致功能相同或相近的脚本任务被重复编写,造成了大量的资源浪费;
2、这些功能重复的脚本任务又需要在多台机器上重复地执行,有可能存在不同的人员在不同的机器上运行相同或近似脚本任务的情况,这又进一步造成了资源的浪费;
3、由于存在重复执行重复脚本任务的情况,导致在发生突发状况时,难以及时发现问题所在,而且,由于会出现重复报错问题,使得运维结果难以直观呈现给相关人员,给运维工作带来了不便,尤其是会对一些突发状况不能及时响应
4、对于运维人员而言,日常的运维工作压力非常大,日志清理、系统打补丁、自动备份等都需要运维人员逐一登录主机,完成重复性工作,并且耗时较长的作业还需要再次登录主机确认执行结果,不仅占用了运维人员大量的日常工作时间,导致运维效率低下,人工误差还会导致运维风险增高。
综上所述,目前亟需一种能够简化重复性工作,实现多条件触发的自动化运维技术。
发明内容
为了解决现有技术的上述问题,一方面,本发明提供一种基于自动化运维的多条件触发自动作业方法,可以实现对IT运维操作的自动化多条件调度处理。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于自动化运维的多条件触发自动作业系统,其包括:
任务执行策略设定模块,用于设置流程作业的任务执行策略;
流程作业信息注册模块,用于注册作业信息;
待执行作业触发模块,用于在满足预定条件后触发待执行作业;
执行策略监测模块,用于监测任务执行策略;
作业执行状态监测模块,用于监测作业执行状态;
任务去除模块,用于在满足预定条件后去除任务调度器中的作业任务。
借助上述方案,本发明的基于自动化运维的多条件触发自动作业方法,其可以将周期性、重复性、规律性的工作交给平台处理,大大降低了运维成本,减少了人力资源的调度,大大缩短了批量执行时间,显著提高了运维效率,应急处理能力得到极大地提升,可根据预设作业实现问题快速响应,减少故障处理时间,降低业务风险。有效减少由于人员操作疲劳、注意力降低导致的误操作、响应不及时等问题,从而保证高质量的运维工作,实现了不以增加人力资源为转型前提,充分发挥了将大规模重复性工作化简的作用。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其任务执行策略设定模块中包括周期设定子模块,用于设置任务的执行周期。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其任务执行策略设定模块中包括定期设定子模块,用于设置任务的执行开始时间。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其任务执行策略设定模块中包括cron表达式设定子模块,用于设置任务的cron表达式。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括作业原子操作脚本任务编写模块,用于编写作业原子操作脚本任务。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括单一作业生成模块,用于生成单一作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括流程作业编排模块,用于编排流程作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括概览信息下发模块,用于下发待执行单一作业的概览信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块设于作业调度系统,用于监测下发的单一作业的执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括缓存作业更新模块,设于执行目标主机,用于根据接收到下发的单一作业的概述信息,判断本地缓存作业是否需要更新,完成参数赋值操作。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括作业任务状态上报模块,设于执行目标主机,用于上报单一作业任务状态给作业调度系统。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括参数信息组织模块,用于根据本次单一作业任务的返回参数组织后次单一作业任务的参数信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业执行状态记录子模块,用于记录单一作业执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业执行状态更新子模块,用于更新单一作业执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业结束子模块,用于结束单一作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其流程作业编排模块包括作业执行优先级顺序调整子模块,用于调整单一作业执行优先级顺序。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其流程作业编排模块包括参数设置子模块,用于设置编排流程作业的参数。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括系统启动模块,用于启动系统的运行。
另一方面,本发明还提供一种基于自动化运维的多条件触发自动作业方法,可以实现对IT运维操作的自动化多条件调度处理。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于自动化运维的多条件触发自动作业方法,其包括如下步骤:
S4、设置流程作业的任务执行策略;
S5、注册作业信息;
S6、监测步骤S5中已注册作业信息的流程作业的任务执行策略;
S7、在步骤S6的监测满足预定条件后触发待执行流程作业;
S8、监测步骤S7中所触发的流程作业的作业执行状态;
S9、在步骤S6和S8的监测满足预定条件后去除任务调度器中的作业任务或者执行步骤S5重新注册作业信息(包括下次调度时间)。
借助上述方案,本发明的基于自动化运维的多条件触发自动作业系统,其可以将周期性、重复性、规律性的工作交给平台处理,大大降低了运维成本,减少了人力资源的调度,大大缩短了批量执行时间,显著提高了运维效率,应急处理能力得到极大地提升,可根据预设作业实现问题快速响应,减少故障处理时间,降低业务风险。有效减少由于人员操作疲劳、注意力降低导致的误操作、响应不及时等问题,从而保证高质量的运维工作,实现了不以增加人力资源为转型前提,充分发挥了将大规模重复性工作化简的作用。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S4之前还包括:S0、调度作业初始化。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S4之前还包括:S2、根据作业原子操作脚本任务生成单一作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S4中的设置任务执行策略包括设置任务的执行周期、执行开始时间、cron表达式。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S7中的预定条件包括达到了所设置的任务执行周期、执行开始时间、cron表达式。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S7中触发待执行流程作业包括:S71、下发待执行单一作业的概览信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S9中S8的预定条件包括:作业生命周期已结束或判断作业已经超时,则直接更新相关作业状态,并不再监测该作业以后的状态而且会忽略作业的上报状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S9中S6的预定条件包括:如果执行策略监测为定期则从任务定时调度器中去除此任务,如果任务执行策略监测为周期或cron,则进一步判断任务是否可执行,若可执行,则在定时调度器里自动注册下次调度时间。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S2之前还包括:S1、编写作业原子操作脚本任务。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S2之后还包括:S3、选择步骤S2中生成的单一作业,选择多个执行目标主机,将单一作业作为编排流程作业的子作业来编排流程作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S71之后还包括:S72、执行目标主机接收到下发的单一作业的概述信息,判断本地缓存作业是否需要更新,完成参数赋值操作。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S72之后还包括:S73、若本地缓存作业需要更新,则根据单一作业唯一ID获取最新的详细作业信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业方法,其步骤S9中作业生命周期已结束包括:上报作业异常、正常结束或任务已经超时。
本发明的基于自动化运维的多条件触发自动作业系统和方法,其通过将若干流程作业内聚成执行作业,再注册到统一作业调度中心,然后根据任务执行策略(定期、周期)或预设条件执行作业,作业调度器调度作业下发,执行主机收到作业任务,然后以固定时间间隔上报作业情况,最后上报任务结束状态或异常状态,服务端根据流程判断后选择正常结束任务或继续下一流程,从而完成大批量主机自动执行,并对作业执行过程进行监控对执行结果进行检查,而且作业调度器会根据任务执行策略进行监控策略以及执行计划节点,来确保任务能准确执行,借此将周期性、重复性、规律性的工作交给平台处理,大大降低了运维成本,减少了人力资源的调度,大大缩短了批量执行时间,显著提高了运维效率,应急处理能力得到极大地提升,可根据预设作业实现问题快速响应,减少故障处理时间,降低业务风险。有效减少由于人员操作疲劳、注意力降低导致的误操作、响应不及时等问题,从而保证高质量的运维工作,实现了不以增加人力资源为转型前提,充分发挥了将大规模重复性工作化简的作用。
附图说明
图1为本发明一个实施例的基于自动化运维的多条件触发自动作业系统的框架图;
图2为本发明一个实施例的基于自动化运维的多条件触发自动作业方法的主要流程示意图;
图3为本发明一个实施例的基于自动化运维的多条件触发自动作业系统的作业调度系统的框架图;
图4为本发明一个实施例的基于自动化运维的多条件触发自动作业方法的主要流程示意图;
图5为本发明又一个实施例的基于自动化运维的多条件触发自动作业系统的框架图;
图6为本发明又一个应用例的基于自动化运维的多条件触发自动作业系统的界面示意图(周期设置页面);
图7为本发明一个应用例的基于自动化运维的多条件触发自动作业系统的界面示意图(cron表达式设置页面);
图8为本发明又一应用例的基于自动化运维的多条件触发自动作业系统的界面示意图(预测执行作业页面);
图9为本发明一个应用例的基于自动化运维的多条件触发自动作业系统的界面示意图(编排流程作业页面)。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
参见图1,本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其包括:
任务执行策略设定模块,用于设置流程作业的任务执行策略;
流程作业信息注册模块,用于注册作业信息;
待执行作业触发模块,用于在满足预定条件后触发待执行作业;
执行策略监测模块,用于监测任务执行策略;
作业执行状态监测模块,用于监测作业执行状态;
任务去除模块,用于在满足预定条件后去除任务调度器中的作业任务。
实施时,其可以采用下述方法步骤进行自动化运维(参见图2):
S4、设置流程作业的任务执行策略;
S5、注册作业信息;
S6、监测步骤S5中已注册作业信息的流程作业的任务执行策略;
S7、在步骤S6的监测满足预定条件后触发待执行流程作业;
S8、监测步骤S7中所触发的流程作业的作业执行状态;
S9、在步骤S6和S8的监测满足预定条件后去除任务调度器中的作业任务或者执行步骤S5重新注册作业信息(包括下次调度时间)。
借助上述方案,本发明的基于自动化运维的多条件触发自动作业方法,其可以将周期性、重复性、规律性的工作交给平台处理,大大降低了运维成本,减少了人力资源的调度,大大缩短了批量执行时间,显著提高了运维效率,应急处理能力得到极大地提升,可根据预设作业实现问题快速响应,减少故障处理时间,降低业务风险。有效减少由于人员操作疲劳、注意力降低导致的误操作、响应不及时等问题,从而保证高质量的运维工作,实现了不以增加人力资源为转型前提,充分发挥了将大规模重复性工作化简的作用。
本发明又一实施例的基于自动化运维的多条件触发自动作业系统,其还包括流程作业编排模块,用于编排流程作业。
其中,其任务执行策略设定模块可以用于设置所编排的流程作业的任务执行策略。
本系统实施例中,其作业方法包括如下步骤(其他步骤可参照前述实施例):
S3、编排流程作业;
S4、设置所编排的流程作业的任务执行策略。
较佳的,其任务执行策略设定模块中包括周期设定子模块,用于设置任务的执行周期(例如图5所示的实施例)。借以实现周期性地执行任务。较佳的,还可以通过执行作业预测模块显示预设的任务执行策略(如图7所示的实施例)。
较佳的,其任务执行策略设定模块中包括定期设定子模块,用于设置任务的执行开始时间,以使系统按期执行相应任务。
具体运用时,流程作业的任务执行策略可以设置为单次执行定时任务或周期执行定时任务。其中,设置为单次执行时,作业只被调度一次。设置为周期执行时,按照预定设置作业被周期性调度执行。例如,某作业被设置为每3分钟执行一次,如果在10:00触发了任务,则10:03会进行再次调度该作业,即以开始时间为基准进行调度。其中,如果调度时间间隔小于作业执行时长,也将按此设置执行,例如假设该作业需要5分钟才能执行完毕,在10:00触发了该作业任务(第A次执行),则10:03会进行再次调度(第B次执行),此时第A次执行还在继续,10:05第A次执行结束或者异常、超时,10:06会进行第C次调度,10:08第B次执行结束……
较佳的,其任务执行策略设定模块中包括cron表达式设定子模块,用于设置任务的cron表达式(例如图6所示的实施例)。其中,根据cron表达式进行调度时,可以是单次执行,也可是多次执行。
本发明又一实施例的基于自动化运维的多条件触发自动作业系统,其还包括单一作业生成模块,用于生成单一作业。
本系统实施例中,其作业方法包括如下步骤(其他步骤可参照前述实施例):
S2、生成单一作业;
S3、编排流程作业;
S4、设置所编排的流程作业的任务执行策略。
其中,步骤S3中,可以选择步骤S2中生成的单一作业,选择多个执行目标主机,将单一作业作为编排流程作业的子作业来编排流程作业。即可以由多个操作、文件分发来组成流程作业。
本发明一个较佳实施例的基于自动化运维的多条件触发自动作业系统,其流程作业编排模块包括作业执行优先级顺序调整子模块,用于调整单一作业执行优先级顺序。借此,方便了运维操作人员编排流程作业,可提高工作效率。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其流程作业编排模块包括参数设置子模块,用于设置编排流程作业的参数。作业系统根据预设的参数执行所编排的流程作业。
本发明又一实施例的基于自动化运维的多条件触发自动作业系统,其还包括作业原子操作脚本任务编写模块,用于编写作业原子操作脚本任务(最小作业单位或原子作业单位,不可再次拆分,其中可以包含参数)。
本系统实施例中,其作业方法包括如下步骤(其他步骤可参照前述实施例):
S1、编写作业原子操作脚本任务;
S2、生成单一作业;
S3、编排流程作业;
S4、设置所编排的流程作业的任务执行策略。
其中,步骤S2中,可以根据作业原子操作脚本任务生成单一作业。借此,可以根据需要选择预定的作业原子操作脚本任务生成单一作业任务,提高效率。其中,作业原子操作脚本任务可以是预先编制的,也可以是执行过的历史脚本任务,还可以是根据实时情况而编写的。
例如,在本发明一个较佳实施例中,系统还包括作业原子操作脚本任务编写模块,用于编写作业原子操作脚本任务。借此,可以预先编制作业原子操作脚本任务,并存储于预定位置,在需要时直接引用即可,通过将作业原子操作脚本任务的编制和使用相分离,无需在运维中预定问题时再编制脚本任务,可以显著提高运维操作人员的工作效率。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括概览信息下发模块,用于下发待执行单一作业的概览信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块设于作业调度系统,用于监测下发的单一作业的执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括缓存作业更新模块,设于执行目标主机,用于根据接收到下发的单一作业的概述信息,判断本地缓存作业是否需要更新,完成参数赋值操作。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括作业任务状态上报模块,设于执行目标主机,用于上报单一作业任务状态给作业调度系统。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括参数信息组织模块,用于根据本次单一作业任务的返回参数组织后次单一作业任务的参数信息。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业执行状态记录子模块,用于记录单一作业执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业执行状态更新子模块,用于更新单一作业执行状态。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其作业执行状态监测模块包括作业结束子模块,用于结束单一作业。
本发明一个实施例的基于自动化运维的多条件触发自动作业系统,其还包括系统启动模块,用于启动系统的运行。借此,设置完成后即可以实现一键启动。
下面还提供具体应用例对本发明进行描述。
本具体应用例,是用图6至图9所示的基于自动化运维的多条件触发自动作业系统,再利用图4所示的方法进行自动作业管理。
某集团公司,内部有二十多个主系统,上百个子系统,涵盖小型机、数据库、中间件、业务系统、应用系统等。其日常的运维工作压力非常大,包括日志清理、系统打补丁、自动备份等重复性工作。
基于现有技术的日常运维工作中,包括日志清理、系统打补丁、自动备份等重复性工作都需要运维人员逐一登录主机,并且耗时较长的作业还需要再次登录主机确认执行结果,手工操作、人工巡检为主使其效率低下,误差率高。不仅占用了运维人员的大量日常工作时间,风险也增高。
本应用例中,基于本发明的系统,运维人员可以按照如下方式进行日常的运维工作。
运维人员编写作业原子操作脚本,并存入系统;
新建单一作业(操作作业)并完善变量赋值逻辑,可以选择预先编写保存的原子操作脚本,也可以通过手工录入或编写;
根据新建的单一作业,批量选择执行目标主机,编排作业任务,其中,可以包含多个单一作业任务,并可根据需要调整各单一作业的操作内容(即作业内容)、执行优先级顺序、执行策略(据此根据处理结果完成后续流程作业或终止作业)、配置作业变量参数(包含单一作业的数值、文本、配置项参数,而且支持通知人、全局参数、执行目标参数、返回结果参数);
设置流程作业的任务执行策略等;
设置完成后,操作人员只需要通过系统启动模块“一键式”启动即可实现自动运行,即系统自动执行以下步骤:
初始化调度作业;
注册作业信息;
监测已注册作业信息的流程作业的任务执行策略;
在任务执行策略的监测满足预定条件后触发待执行流程作业;
监测所触发的流程作业的作业执行状态;
在对任务执行策略和作业执行状态的监测满足预定条件后去除任务调度器中的作业任务或者重新注册作业信息(包括下次调度时间)。
其中,系统可以按照如下步骤执行触发的流程作业:
下发待执行作业的概览信息,同时调度系统开始监测作业执行状态;
主机接收到概述作业,判断本地缓存作业是否需要更新(若需要,则根据作业唯一ID获取最新的详细作业信息),完成参数赋值操作;
主机周期上报作业任务状态给作业调度系统,系统详细记录作业执行状态,若作业调度系统收到作业生命周期已结束(上报作业异常、正常结束或任务已经超时)或判断作业已经超时,则直接更新相关作业状态,并不再监测该作业以后的状态而且会忽略作业的上报状态。
其中,系统按照配置的优先级顺序逐一执行单一作业任务,当单一任务完成后,系统判断任务是否继续(本次单一作业正常结束或异常但是执行策略是忽略异常),然后根据本次作业的返回参数组织以后流程作业的参数信息,直到编排流程作业全部结束
也就是说,运维人员可以直接引用编排创建多条件多任务(子任务可以为操作&&文件分发)作业,操作人员“一键式”操作后,即实现了下发作业任务和巡检任务,然后即可以通过系统内部的参数流转功能,完成各个作业之间交互输入输出和按时执行,完成后续流程作业或终止作业。其中,系统会自动监测定时作业状态,操作具体信息,以及操作历史,并可以图形化直观的形式展示本次操作的任务类型、名称、开始结束时间、操作人、操作历史、任务状态等详细信息;日常巡检可直观看到巡检报告,相对重要的报告还可进行导出进行本地备份。
由此可知,本发明基于自动化运维的多条件触发自动作业方法,由于前述设置环节可以独立进行,而无须在系统维护时进行,因此,可以将关联近千台主机数的周期或定期作任务以及突发状况的处理方案,通过系统的统一作业调度中心按照预设方案,确保作业的按时执行和应急处理,不仅节省了大量人力时间,而且近乎完全消灭了因人为因素造成的丢失作业、重复作业、应急事件响应不及时的状况。
其中,为了更好地确保作业调度的正常进行,作业调度器还设置了一个daemon进程,用于定时检测作业调度状态,防止单点故障、网络抖动造成作业调度状态(如开启调度、停止调度等)与调度系统不同步,同时实时监测调度系统自身状态,防止调度系统自身问题导致的作业调度失败。
综上所述,本发明的基于自动化运维的多条件触发自动作业系统和方法,通过将周期性、重复性、规律性的工作交给平台处理,大大降低了运维成本,减少了人力资源的调度,缩短批量执行时间,提高了80%的运维效率,应急处理能力提升900%,可根据预设作业实现问题快速响应,减少故障处理时间,降低业务风险。另外,还可以通过图形化展示,快速发现变更情况,及时止损,更可以有效减少由于人员操作疲劳、注意力降低导致的误操作、响应不及时等问题,从而保证高质量的运维工作。实现了不以增加人力资源为转型前提,充分发挥了将大规模重复性工作化简的作用。系统可以根据预设任务每天进行备份系统数据、任务巡检、任务执行等操作。且可直观性的展示操作任务,避免重复执行。实现运维管理一体化。

Claims (10)

1.一种基于自动化运维的多条件触发自动作业系统,其包括:
任务执行策略设定模块,用于设置流程作业的任务执行策略;
流程作业信息注册模块,用于注册作业信息;
待执行作业触发模块,用于在满足预定条件后触发待执行作业;
执行策略监测模块,用于监测任务执行策略;
作业执行状态监测模块,用于监测作业执行状态;
任务去除模块,用于在满足预定条件后去除任务调度器中的作业任务。
2.如权利要求1所述的自动化运维作业管理系统,其任务执行策略设定模块中包括下列子模块中的任一或任几项:
周期设定子模块,用于设置任务的执行周期;
定期设定子模块,用于设置任务的执行开始时间;
cron表达式设定子模块,用于设置任务的cron表达式。
3.如权利要求1所述的自动化运维作业管理系统,其还包括下列模块中的任一或任几:
调度作业初始化模块,用于初始化调度作业;
作业原子操作脚本任务编写模块,用于编写作业原子操作脚本任务;
单一作业生成模块,用于生成单一作业;
流程作业编排模块,用于编排流程作业;
概览信息下发模块,用于下发待执行单一作业的概览信息;
缓存作业更新模块,用于根据接收到下发的单一作业的概述信息,判断本地缓存作业是否需要更新,完成参数赋值操作;
作业任务状态上报模块,用于上报单一作业任务状态给作业调度系统;
参数信息组织模块,用于根据本次单一作业任务的返回参数组织后次单一作业任务的参数信息。
4.如权利要求1所述的自动化运维作业管理系统,其作业执行状态监测模块包括下列子模块中的任一或任几:
作业执行状态记录子模块,用于记录单一作业执行状态;
作业执行状态更新子模块,用于更新单一作业执行状态;
作业结束子模块,用于结束单一作业。
5.如权利要求1所述的自动化运维作业管理系统,其流程作业编排模块包括下列子模块中的任一或任几:
作业执行优先级顺序调整子模块,用于调整单一作业执行优先级顺序;
参数设置子模块,用于设置编排流程作业的参数。
6.如权利要求1至5中任一项所述的自动化运维作业管理系统,其还包括系统启动模块,用于启动系统的运行。
7.一种基于自动化运维的多条件触发自动作业方法,其包括如下步骤:
S4、设置流程作业的任务执行策略;
S5、注册作业信息;
S6、监测步骤S5中已注册作业信息的流程作业的任务执行策略;
S7、在步骤S6的监测满足预定条件后触发待执行流程作业;
S8、监测步骤S7中所触发的流程作业的作业执行状态;
S9、在步骤S6和S8的监测满足预定条件后去除任务调度器中的作业任务或者执行步骤S5重新注册作业信息(包括下次调度时间)。
8.如权利要求7所述的自动化运维作业管理方法,其还包括下列步骤中的任一或任几个:
步骤S4之前还包括:S0、调度作业初始化;
步骤S4之前还包括:S2、根据作业原子操作脚本任务生成单一作业;
S4中的设置任务执行策略包括设置任务的执行周期、执行开始时间、cron表达式;
S7中的预定条件包括达到了所设置的任务执行周期、执行开始时间、cron表达式;
步骤S7中触发待执行流程作业包括:S71、下发待执行单一作业的概览信息;
S9中S8的预定条件包括:作业生命周期已结束或判断作业已经超时,则直接更新相关作业状态,并不再监测该作业以后的状态而且会忽略作业的上报状态;
S9中S6的预定条件包括:如果执行策略监测为定期则从任务定时调度器中去除此任务,如果任务执行策略监测为周期或cron,则进一步判断任务是否可执行,若可执行,则在定时调度器里自动注册下次调度时间。
9.如权利要求8所述的自动化运维作业管理方法,其还包括下列步骤中的任一或任几个:
步骤S2之前还包括:S1、编写作业原子操作脚本任务;
步骤S2之后还包括:S3、选择步骤S2中生成的单一作业,选择多个执行目标主机,将单一作业作为编排流程作业的子作业来编排流程作业;
步骤S71之后还包括:S72、执行目标主机接收到下发的单一作业的概述信息,判断本地缓存作业是否需要更新,完成参数赋值操作。
10.如权利要求9所述的自动化运维作业管理方法,其还包括下列步骤中的任一或任几个:
步骤S72之后还包括:S73、若本地缓存作业需要更新,则根据单一作业唯一ID获取最新的详细作业信息;
步骤S9中作业生命周期已结束包括:上报作业异常、正常结束或任务已经超时。
CN202011310211.7A 2020-11-20 2020-11-20 一种基于自动化运维的多条件触发自动作业系统和方法 Pending CN113010277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011310211.7A CN113010277A (zh) 2020-11-20 2020-11-20 一种基于自动化运维的多条件触发自动作业系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011310211.7A CN113010277A (zh) 2020-11-20 2020-11-20 一种基于自动化运维的多条件触发自动作业系统和方法

Publications (1)

Publication Number Publication Date
CN113010277A true CN113010277A (zh) 2021-06-22

Family

ID=76383224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011310211.7A Pending CN113010277A (zh) 2020-11-20 2020-11-20 一种基于自动化运维的多条件触发自动作业系统和方法

Country Status (1)

Country Link
CN (1) CN113010277A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816943A (zh) * 2022-07-01 2022-07-29 锐盈云科技(天津)有限公司 企业智能云运维系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102894A (zh) * 2017-04-07 2017-08-29 百度在线网络技术(北京)有限公司 任务调度方法、装置和系统
CN107291565A (zh) * 2017-06-09 2017-10-24 千寻位置网络有限公司 运维可视化自动化作业平台及实现方法
CN109214704A (zh) * 2018-09-26 2019-01-15 广东电网有限责任公司 一种分布式智能化运维平台、方法、装置及可读存储介质
WO2019179056A1 (zh) * 2018-03-18 2019-09-26 平安科技(深圳)有限公司 基于规则引擎的可配置化系统、方法、设备和存储介质
CN110430073A (zh) * 2019-07-30 2019-11-08 中国工程物理研究院计算机应用研究所 一种基于抽象业务原子操作的异构系统自动化运维方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102894A (zh) * 2017-04-07 2017-08-29 百度在线网络技术(北京)有限公司 任务调度方法、装置和系统
CN107291565A (zh) * 2017-06-09 2017-10-24 千寻位置网络有限公司 运维可视化自动化作业平台及实现方法
WO2019179056A1 (zh) * 2018-03-18 2019-09-26 平安科技(深圳)有限公司 基于规则引擎的可配置化系统、方法、设备和存储介质
CN109214704A (zh) * 2018-09-26 2019-01-15 广东电网有限责任公司 一种分布式智能化运维平台、方法、装置及可读存储介质
CN110430073A (zh) * 2019-07-30 2019-11-08 中国工程物理研究院计算机应用研究所 一种基于抽象业务原子操作的异构系统自动化运维方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114816943A (zh) * 2022-07-01 2022-07-29 锐盈云科技(天津)有限公司 企业智能云运维系统

Similar Documents

Publication Publication Date Title
CN107992362B (zh) 自动化性能测试的方法、装置及系统
CN109857558A (zh) 一种数据流处理方法及系统
US20040216002A1 (en) Planning and scheduling for failure recovery system and method
CN112559159A (zh) 一种基于分布式部署的任务调度方法
CN111427676B (zh) 一种机器人流程自动化任务处理方法及装置
CN109343939B (zh) 一种分布式集群及并行计算任务调度方法
CN109144829A (zh) 故障处理方法、装置、计算机设备和存储介质
CN110611707A (zh) 一种任务调度的方法及装置
CN112181621A (zh) 一种任务调度系统、方法、设备及存储介质
CN111400139A (zh) 多数据中心批量作业的管控和调度系统、方法及存储介质
CN103197960A (zh) 用于批量作业系统的调度方法及系统
CN112579267A (zh) 一种去中心化大数据作业流调度方法及装置
CN111932099A (zh) 营销业务管理系统及营销业务管理方法
US20060288199A1 (en) Watchdog system in a distributed computerized application environment
CN111796960A (zh) 一种机器人设备异常自动化恢复的方法及系统
CN117290103A (zh) 一种支持多进程和多线程的任务调度实现方法
CN110619014A (zh) 一种基于etl的数据抽取方法
Merdan et al. Investigating the robustness of re-scheduling policies with multi-agent system simulation
CN106951351A (zh) 一种数据库负载趋势性监控方法
CN113010277A (zh) 一种基于自动化运维的多条件触发自动作业系统和方法
CN110798339A (zh) 一种基于分布式任务调度框架的任务容灾方法
CN116560893B (zh) 一种计算机应用程序运行数据故障处理系统
CN107463428B (zh) 一种用于虚拟化环境下的补丁管理方法和装置
CN113658351A (zh) 一种产品生产的方法、装置、电子设备及存储介质
CN113537937A (zh) 基于拓扑排序的任务编排方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination