CN113886046A - 作业资源竞争识别方法、装置和电子设备 - Google Patents

作业资源竞争识别方法、装置和电子设备 Download PDF

Info

Publication number
CN113886046A
CN113886046A CN202111162635.8A CN202111162635A CN113886046A CN 113886046 A CN113886046 A CN 113886046A CN 202111162635 A CN202111162635 A CN 202111162635A CN 113886046 A CN113886046 A CN 113886046A
Authority
CN
China
Prior art keywords
job
resource
candidate
periodic
jobs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111162635.8A
Other languages
English (en)
Inventor
陆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202111162635.8A priority Critical patent/CN113886046A/zh
Publication of CN113886046A publication Critical patent/CN113886046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开一种作业资源竞争识别方法、装置和电子设备,本申请首先确定预定环境下不同作业中具有周期性特征的各个周期性作业,并确定各个周期性作业中作业执行时间存在重叠的各个作业,作为候选作业集合,之后获取不同作业对应的资源依赖逻辑关系信息及候选作业集合中不同候选作业的周期性特征,并根据不同作业对应的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,识别候选作业集合中存在资源竞争的各个目标作业。从而,本申请通过识别周期性作业,并根据周期性作业的周期性特征及不同作业对应的资源依赖逻辑关系信息,实现了存在资源竞争风险的作业识别,为改善平台作业运行稳定性和应用体验提供了决策依据。

Description

作业资源竞争识别方法、装置和电子设备
技术领域
本申请属于作业调度与资源管理领域,尤其涉及一种作业资源竞争识别方法、装置和电子设备。
背景技术
在具有资源竞争的云计算环境或容器平台下执行作业,往往由于不同作业之间的资源竞争导致平台性运行异常,甚至影响部分执行时间SLAs(服务级别协议)作业的正常执行。
因此,识别云计算环境或容器平台下存在资源竞争风险的作业,以使得为改善平台作业运行稳定性和应用体验提供决策依据,成为本领域一个重要研究方向。
发明内容
为此,本申请公开如下技术方案:
一种作业资源竞争识别方法,所述方法包括:
确定预定环境下不同作业中具有周期性特征的各个周期性作业;
确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合;
获取不同作业对应的资源依赖逻辑关系信息,并获取所述候选作业集合中不同候选作业的周期性特征;
根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
可选的,所述确定预定环境下不同作业中具有周期性特征的各个周期性作业,包括:
获取作业的时间节点信息,所述时间节点信息包括作业在不同执行进度下对应的时间;所述时间节点信息通过对预定标注信息或作业配置信息进行识别获得,或者通过对与作业相关的监控项进行检测获得;
根据作业的时间节点信息,采用时间序列分析法确定作业是否具备周期性特征,若具备,则确定作业为周期性作业。
可选的,所述确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合,包括:
将各个周期性作业的执行过程按照预定步长切分为若干时间窗口,得到不同周期性作业中每个周期性作业的时间分片;
比对各个周期性作业的时间分片,确定出在时间分片对应的至少一个相同时间段内同时执行的各个周期性作业,作为候选作业,得到候选作业集合。
可选的,所述获取不同作业对应的资源依赖逻辑关系信息,包括:
获取不同作业之间的作业调用关系信息、作业不同资源之间的连接关系信息及作业对资源的依赖关系信息,作为所述资源依赖逻辑关系信息;
所述获取所述候选作业集合中不同候选作业的周期性特征,包括:
获取采用时间序列分析法确定的不同候选作业的周期性特征。
可选的,所述根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,包括:
根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具;
基于所述根因分析工具,按预定规则确定所述候选作业集合中存在资源竞争的各个目标作业;
其中,所述根因分析工具包括以逻辑因果关系图方式组织的不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的逻辑关系。
可选的,所述根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具,包括:
解析所述资源依赖逻辑关系信息、识别存在潜在资源竞争关系的指标或因素;所述指标或因素为资源相关的指标或因素,或作业相关的指标或因素;
根据所述作业调用关系信息、不同资源之间的连接关系信息、作业对资源的依赖关系信息,和所述存在潜在资源竞争关系的指标或因素中的至少部分信息,及预定监控范围下与作业相关的监控项的异常信息,初步构建平台运行异常的根因分析工具;
结合所述候选作业集合中不同候选作业的周期性特征,对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果;
根据所述异常检测与分析结果,调整所述根因分析工具。
可选的,所述对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果,包括:
在各个候选作业的不同时间分片下,进行平台运行性异常检测与分析和/或作业与资源的指标异常检测与分析,得到异常检测与分析结果;
所述根据所述异常检测与分析结果,调整所述根因分析工具,包括:
将所述异常检测与分析结果集成至所述根因分析工具。
可选的,上述方法,还包括:
在计划执行的作业启动之前,对作业执行所需的相关资源进行资源状态检测,并在检测的资源状态满足状态条件的情况下,至少暂停对作业的启动;
和/或,根据所述作业识别结果,在所述预定环境下进行作业调度,以至少降低不同作业之间的资源竞争。
一种作业资源竞争识别装置,所述装置包括:
第一确定模块,用于确定预定环境下不同作业中具有周期性特征的各个周期性作业;
第二确定模块,用于确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合;
获取模块,用于获取不同作业对应的资源依赖逻辑关系信息,并获取所述候选作业集合中不同候选作业的周期性特征;
识别模块,用于根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
一种电子设备,包括:
存储器,用于存放计算机指令集;
处理器,用于通过执行存储器上存放的指令集,实现如上文任一项所述的作业资源竞争识别方法。
由以上方案可知,本申请公开的作业资源竞争识别方法、装置和电子设备,首先确定预定环境下不同作业中具有周期性特征的各个周期性作业,并确定各个周期性作业中作业执行时间存在重叠的各个作业,作为候选作业集合,之后获取不同作业对应的资源依赖逻辑关系信息及候选作业集合中不同候选作业的周期性特征,并根据不同作业对应的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,识别候选作业集合中存在资源竞争的各个目标作业。从而,本申请通过识别周期性作业,并根据周期性作业的周期性特征及不同作业对应的资源依赖逻辑关系信息,实现了存在资源竞争风险的作业识别,为改善平台作业运行稳定性和应用体验提供了决策依据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的作业资源竞争识别方法的一处理流程图;
图2是本申请提供的本申请所公开方法的细化执行逻辑图;
图3是本申请提供的根因分析工具的构建过程图;
图4是本申请提供的作业资源竞争识别方法的另一处理流程图;
图5是本申请提供的作业资源竞争识别装置的结构示意图;
图6是本申请提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在具有资源竞争的云计算环境或容器平台下执行作业,往往由于不同作业之间的资源竞争导致平台性运行异常,甚至影响部分执行时间SLAs作业的正常执行。申请人经研究发现,存在资源竞争的作业一般分为两种:
1)一过性作业,例如,人工启动的某个一次性分析或者模型训练活动;
2)定时作业,例如,某个定时备份或者定时数据处理作业。该类型作业具有周期性特征,如果几个定时作业相互存在资源竞争则对平台运行的影响尤其大。平台资源竞争及平台性运行异常也主要是由该类作业导致的。
基于此,本申请公开一种作业资源竞争识别方法、装置和电子设备,主要针对云计算环境或容器平台下的周期性作业,进行存在资源竞争风险的作业识别,为改善平台作业运行稳定性和应用体验提供决策依据。本申请公开的作业资源竞争识别方法,可应用于众多通用或专用的计算装置环境或配置下的设备,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括上述设备或装置的分布式计算服务平台(如云计算平台)等等。
参见图1提供的作业资源竞争识别方法的流程图,本申请实施例提供的作业资源竞争识别方法的处理流程包括:
步骤101、确定预定环境下不同作业中具有周期性特征的各个周期性作业。
预定环境,可以是但不限于云计算平台或容器平台等能用于执行作业的作业执行环境。具有周期性特征的各个周期性作业,可以是该云计算平台或容器平台等环境下的定时备份作业、定时数据处理作业等,定时数据处理作业包括但不限于定时计算、定时报表、定时模型训练等作业。
参见图2,确定预定环境下不同作业中具有周期性特征的各个周期性作业,可进一步实现为:
11)获取作业的时间节点信息,该时间节点信息包括作业在不同执行进度下对应的时间;该时间节点信息通过对预定标注信息或作业配置信息进行识别获得,或者通过对与作业相关的监控项进行检测获得。
具体的,在一种实施方式中,作业具有预定标注信息或作业配置信息,预定标注信息可以是人工为作业标注或系统自动为作业标注的相关时间信息,作业配置信息则包括在计划作业时预先为作业配置的相关时间信息。为作业标注或配置的时间信息,包括但不限于作业的执行时长、计划开始时间和结束时间等信息。
对于具有预定标注信息或作业配置信息的作业,直接识别这些作业的标注信息或配置信息,通过对标注信息或配置信息的识别及分析处理,得到作业的时间节点信息,例如识别标注或配置的时间信息中作业的开始时间、结束时间、执行时长,并根据作业的开始时间、结束时间分析作业时间中值,或根据作业的开始时间、执行时长分析作业时间中值等,相应得到包括但不限于作业的开始时间、作业时间中值、结束时间等的时间节点信息。
在一种实施方式中,作业缺少预定标注信息及作业配置信息,针对该情况,通过对与作业相关的监控项的监控数据进行分析,识别作业的时间节点信息。
实施中,可预先制定作业的监控范围和监控项,监控范围包括但不限于用于部署作业的相关宿主机(如,云平台环境中的服务器节点)的宿主机范围及宿主机中用于部署作业的相关虚拟机的虚拟机范围,具体可采用设置的一系列宿主机信息如服务器节点信息及服务器节点中的相应虚拟机信息来表征这一范围。监控项包括但不限于作业执行时所使用CPU(Central Processing Unit,中央处理器)的占用率,所依赖存储资源的IO(Input/Output,输入/输出)吞吐等指标。结合参见图2,可以预先在数据准备阶段将与监控范围内的监控项相关的服务、资源、应用等的监控、日志、报警等运维历史数据从相应数据库如监控与报警数据库、日志分析系统等中提取出来,作为监控数据。
之后,对监控范围内监控项的监控数据执行异常检测活动,通过对监控项监控数据的异常检测,识别与分析作业开始或结束或时间中值等时间节点信息。
其中,可以但不限于采用Level Shift异常检测方式,执行对监控项数据的异常检测,如果Level Shift异常检测中将检测结果标注为监控数值出现水平的提升,则一般表示为作业启动,反之如果检测结果标注为监控数值出现水平的降低,则一般表示作业停止、暂停或资源释放,但不限于此,还可以根据具体设定,在Level Shift异常检测中将检测结果标注为监控数值出现水平降低时,识别为作业启动,而在将检测结果标注为监控数值出现水平提升时,识别为作业停止、暂停或资源释放。之后进一步根据作业的启动、停止、暂停或资源释放等事件,分析得到作业的开始时间、作业时间中值及结束时间等时间节点信息。
12)根据作业的时间节点信息,采用时间序列分析法确定作业是否具备周期性特征,若具备,则确定作业为周期性作业。
在基于预定标注信息/作业配置信息或通过与作业相关的监控项获得作业的时间节点信息后,采用时间序列分析方法识别具有周期性特征的特征,例如,使用时间序列自相关分析法获得具有典型周期性特征c1、c2、c3的作业等,同时,过滤掉不存在周期性特征的作业,只保留具有周期性特征的作业。
其中,c1、c2、c3分别为作业的周期性开始时间、结束时间、中值时间这些周期性特征。
步骤102、确定各个周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合。
识别出各个周期性作业后,结合作业的周期性特征体现的作业时长、作业开始时间、结束时间等信息,按预定步长将各个周期性作业进行分片,即,将各个周期性作业的执行过程按照该步长切分为若干时间窗口,得到不同周期性作业中每个周期性作业的时间分片,并比对各个周期性作业的时间分片,确定出在时间分片对应的至少一个相同时间段内同时执行的各个周期性作业(表明这些作业的执行时间存在重叠),作为候选作业,得到候选作业集合。
候选作业集合本质体现了作业环境中潜在的具有资源竞争/冲突可能(因其执行时间存在重叠)的作业范围。
步骤103、获取不同作业对应的资源依赖逻辑关系信息,并获取候选作业集合中不同候选作业的周期性特征。
本步骤中,具体获取不同作业之间的作业调用关系、作业不同资源之间的连接关系及作业对资源的依赖关系等信息,作为不同作业对应的资源依赖逻辑关系信息。并获取采用时间序列分析法确定出的不同候选作业的周期性特征,如典型的周期性特征c1、c2、c3等。
实施中,结合参见图2,可预先在数据准备阶段,将作业场景调用链、相关资源中关键指标、相关资源连接拓扑、压力负载派发、相关标注/配置等能信息从云数据库、CMDB(Configuration Management Database,配置管理数据库)、应用数据库等数据存储设备中获取出来,以作为不同作业对应的资源依赖逻辑关系信息的分析依据,来分析得到不同作业对应的资源依赖逻辑关系信息。
如,根据作业场景调用链分析不同作业之间的作业调用关系,根据相关资源连接拓扑与压力负载派发信息(作业分派到哪些节点/虚拟机上)分析作业不同资源之间的连接关系,根据相关标注/配置信息分析作业与资源间的依赖关系等。
步骤104、根据不同作业对应的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,识别候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
之后,进一步根据不同作业对应的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具;并基于根因分析工具,按预定规则确定候选作业集合中存在资源竞争的各个目标作业。
其中,构建的根因分析工具包括以逻辑因果关系图方式组织的不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的逻辑关系。
具体的,参见图3,构建根因分析工具的过程可实现为:
步骤301、解析不同作业对应的资源依赖逻辑关系信息、识别存在潜在资源竞争关系的指标或因素。
具体的,可根据基于相关标注/配置信息分析出的不同作业与资源间的依赖关系,并结合相关资源中的关键指标,识别可能产生资源竞争的主要指标和因素,这里的指标或因素为资源相关的指标或因素,或作业相关的指标或因素。例如,数据库集群作业对存储IOPS(Input/Output Operations Per Second,每秒进行读写操作的次数),延迟,吞吐等指标敏感,可能在这些指标方面与其他作业产生资源竞争等。
步骤302、根据作业调用关系信息、不同资源之间的连接关系信息、作业对资源的依赖关系信息,和所述存在潜在资源竞争关系的指标或因素中的至少部分,及预定监控范围下与作业相关的监控项的异常信息,初步构建平台运行异常的根因分析工具。
预定监控范围及监控项可分别参见上文的说明。
本步骤具体根据作业调用关系信息、不同资源之间的连接关系信息、作业对资源的依赖关系信息,和存在潜在资源竞争关系的指标或因素中的至少部分信息,以及作业执行过程中预定监控范围下与作业相关的监控项的异常信息,如CPU占用率,IO吞吐、数据库性能,存储性能等,生成资源依赖拓扑之下的根因分析工具,以便在发生某些性能或指标异常中实现定性判断。
例如,数据库性能下降,同时出现存储性能下降,这些性能下降是由于数据库作业或者若干作业争抢资源造成,这样的判断逻辑将体现在根因分析工具中,以便于能基于根因分析工具定性判断导致性能或指标异常的原因,相应识别存在资源竞争的作业。
典型的根因分析工具,可以通过故障树分析法(Fault Tree Analysis,FTA)进行自顶向下演绎分析,并结合逻辑门和基本事件等推断问题所在。
步骤303、结合候选作业集合中不同候选作业的周期性特征,对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果。
另外,还结合候选作业集合中不同候选作业的周期性特征(如开始时间、结束时间等),对各个候选作业的相关联指标和日志数据等按时间分片进行作业执行前后的异常检测与分析。例如,按时间分片结合资源依赖关系,识别作业所在节点依赖的SAN(StorageArea Network,存储区域网络)存储设备的性能是否异常,识别作业前后除作业节点之外连接SAN存储设备的其他节点的主要指标变化、是否发生异常等,比如一个典型的场景是,在作业执行期间,某些节点如果呈现较大的IO吞吐,则可能会对作业产生影响,存在潜在的资源竞争。
本步骤303可进一步实现为:
21)根据作业的周期性特征,将监控范围内各节点对应的作业按照预定步长切分为若干时间窗口,得到作业对应的一系列时间分片,对各时间分片下对应的关联指标数据、日志数据等进行异常检测与分析。
实施中,结合参见图2,可预先在数据准备阶段,将一定数据范围内的与作业相关的服务、资源、应用等的监控、日志、报警等运维历史数据从相应数据库如监控与报警数据库、日志分析系统等提取出来,以便用于异常检测与分析。其中,提取的数据范围可以是根据经验预设的一段历史时间的数据,例如,检测分析活动之前3天,15天或30天的历史数据等。
可选的,可通过滑动时间窗口的方式,实现对各时间分片下对应的关联指标数据、日志数据等进行异常检测与分析,其中,每次滑动一个时间窗口,每次滑动尺寸为时间窗口的1/N长度(N为大于1的整数),以保证时间分片内的异常被全面捕获,不会因为跨越时间分片而造成异常事件的漏报。
其中,具体可根据预定异常检测算法并结合设定的相关阈值进行时间窗口内的异常检测,相应实现对各时间分片下数据的异常检测。包括但不限于在各个候选作业的不同时间分片下,进行平台运行性异常检测与分析、作业与资源的指标异常检测与分析等,得到异常检测与分析结果。
例如,根据预定异常检测算法并结合设定的相关阈值,检测时间窗口内数据的数据形态异常或波动异常等,如假设某段时间内,CPU占用率在10%-50%之间波动,从t时刻开始,CPU占用率突增至90%(超出设定的占用率阈值),则可识别出该数据形态异常或波动异常,相应识别出CPU占用率异常。
22)将各个节点中不同作业的各个时间分片数据进行时间对齐,如果某个时间分片异常则标记具体的异常事件(如数据库性能下降、存储性能下降等平台性异常事件),并按照基于预设步长的滑动窗口对时间对齐后的一系列时间分片进行所需逻辑门(如,顺序逻辑门)下的分析,相应得到异常检测与分析结果。
具体的,例如,对于一个异常事件的发生,按顺序逻辑门自顶向下逐层分析导致该事件发生的原因是什么,比如某指标异常,并继续分析该指标异常的下一层原因,比如哪些不同作业发生了哪些方面的资源竞争等等。
步骤304、根据所述异常检测与分析结果,调整根因分析工具。
之后,进一步将按时间分片进行异常检测与分析的结果集成至步骤302构建的根因分析工具,实现对该工具的调整,使得该工具能够通过逻辑因果关系图方式如FTA故障树形式,体现更完备的不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的因果逻辑关系。
其中,最终构建的根因分析工具包括以逻辑门组织的一系列事件,如顶事件、中间事件与底事件,通过不同事件与相应类型逻辑门的连接关系,自顶向下逐层体现导致顶事件发生的原因,使得对于每一顶事件,能够通过逻辑门最终定位至相应的底事件作为该顶事件的根因,其中,逻辑门包括但不限于与门、异或门、非门等、顺序门等等,顶事件包括但不限于数据库性能异常、存储性能异常等平台性异常,中间事件包括但不限于某些因素影响、某些指标异常等,底事件包括但不限于某些资源发生冲突、某些作业执行等,以此体现不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的逻辑关系。
在此基础上,可进一步基于根因分析工具包括的顶事件、中间事件、底事件及用于连接各类事件的逻辑门,确定易导致平台性异常的资源冲突及候选作业集合中会导致这些资源冲突的作业,得到存在资源竞争风险的作业识别结果。
可选的,实施中,如图2所示,还可以通过可视化方法将基于根因分析工具获得的存在资源竞争风险的作业识别结果展示给工程师等相关人员,结合相关人员对资源冲突信息的人工标注或是否资源冲突的判断确认结果,得到最终的存在资源竞争风险的各周期性作业。
另外,可选的,参见图2,还可以根据业务场景,将识别结果(哪些作业存在资源竞争,资源竞争会导致哪些平台性运行异常等)与识别依据(如,导致平台性运行异常的原因是哪些作业存在哪些方面的资源竞争的逻辑分析过程)进行加工裁剪,以生成与业务场景匹配的信息形式,并将其以通知、消息、邮件、报告等方式发送给相关接收方或持久化到存储设备中。
上述业务场景,可以是但不限于报警、生成报告或将识别结果集成到其他相关流程(如,作业调度流程)等。
后续,可根据具备资源竞争关系的作业识别结果,在云计算平台或容器平台等环境下进行作业调度,避免存在资源竞争关系的各个作业或至少部分作业同时执行,以降低不同作业之间的资源竞争,避免平台运行性异常的发生。
由以上方案可知,本实施例的方法,首先确定预定环境下不同作业中具有周期性特征的各个周期性作业,并确定各个周期性作业中作业执行时间存在重叠的各个作业,作为候选作业集合,之后获取不同作业对应的资源依赖逻辑关系信息及候选作业集合中不同候选作业的周期性特征,并根据不同作业对应的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,识别候选作业集合中存在资源竞争的各个目标作业。从而,本申请通过识别周期性作业,并根据周期性作业的周期性特征及不同作业对应的资源依赖逻辑关系信息,实现了存在资源竞争风险的作业识别,为改善平台作业运行稳定性和应用体验提供了决策依据。
在一实施例中,可选的,本申请公开的作业资源竞争识别方法,在根据根因分析工具识别出候选作业集合中存在资源竞争风险的作业之后,还可以包括以下处理:
将异常检测数据中的数值结果转化为具有运维意义的事件数据或者状态数据,并根据具有运维意义的事件数据或者状态数据对根据根因分析工具获得的存在资源竞争风险的作业识别结果进行验证。
具体的,针对步骤303中步骤22)的异常检测数据(如CPU占用率、IO吞吐等的具体取值),可以通过统计学方法或人工标定静态阈值等方法,将异常检测数据中的数值结果转化为具有运维意义的事件数据或者状态数据,如CPU异常、IO吞吐异常等。并进一步基于转化的具有运维意义的事件数据或者状态数据,对基于根因分析工具确定出的结果进行验证确认,以验证基于根因分析工具识别出的存在竞争关系的作业结果的正确性,并在不正常的情况下对根因分析工具和/或识别结果进行校正。
本实施例通过将异常检测数据中的数值结果转化成的具有运维意义的事件数据或者状态数据,并根据转化得到的具有运维意义的事件数据或者状态数据,对基于根因分析工具获得的存在资源竞争风险的作业识别结果进行验证,进一步提升了存在资源竞争风险的作业识别结果的准确性,相应可为改善平台作业运行稳定性和应用体验提供更准确、更有价值的决策依据。
在一实施例中,参见图4提供的作业资源竞争识别方法的流程图,本申请公开的作业资源竞争识别方法,还可以包括以下处理:
步骤105、在计划执行的作业启动之前,对作业执行所需的相关资源进行资源状态检测,并在检测的资源状态满足状态条件的情况下,至少暂停对作业的启动。
上述状态条件为能够表征作业执行所需的相关资源的资源状态异常的条件,如资源指标的数值处于设定的阈值范围之外等。
本实施例主要针对一过性/一次性作业,对其进行相关资源状态检测处理。
其中,具体在计划执行的某一过性/一次性作业启动之前,对近期预定时间窗口内作业执行所需的相关资源进行状态检测,例如,检测该作业启动之前最近30分钟或1个小时内关键计算、网络、存储资源的状态,如果在该时间窗口内作业所需的关键计算、网络、存储等资源的资源指标出现异常,如计算资源指标值处于阈值范围之外,则暂停作业活动。
除此之外,可选的,还可以发送通知消息给管理员等相关人员,以便于人工介入解决,或者,继续实时/周期性检测作业执行所需的上述相关资源的资源状态,并在这些资源恢复正常状态时(如,在计划的启动时间之后半小时计算资源的指标值恢复至阈值范围内)启动作业。
本实施例实现了对一过性/一次性作业的资源竞争风险识别,与上文方法实施例对周期性作业的资源竞争风险识别形成互补,可有效避免作业活动进一步加剧资源竞争,提升了云平台等作业环境的整体可靠性。
对应于上述的作业资源竞争识别方法,本申请实施例还公开一种作业资源竞争识别装置,该装置的组成结构如图5所示,具体包括:
第一确定模块501,用于确定预定环境下不同作业中具有周期性特征的各个周期性作业;
第二确定模块502,用于确定各个周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合;
获取模块503,用于获取不同作业对应的资源依赖逻辑关系信息,并获取候选作业集合中不同候选作业的周期性特征;
识别模块504,用于根据上述的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,识别候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
在一实施方式中,第一确定模块501,具体用于:
获取作业的时间节点信息,所述时间节点信息包括作业在不同执行进度下对应的时间;所述时间节点信息通过对预定标注信息或作业配置信息进行识别获得,或者通过对与作业相关的监控项进行检测获得;
根据作业的时间节点信息,采用时间序列分析法确定作业是否具备周期性特征,若具备,则确定作业为周期性作业。
在一实施方式中,第二确定模块502,具体用于:
将各个周期性作业的执行过程按照预定步长切分为若干时间窗口,得到不同周期性作业中每个周期性作业的时间分片;
比对各个周期性作业的时间分片,确定出在时间分片对应的至少一个相同时间段内同时执行的各个周期性作业,作为候选作业,得到候选作业集合。
在一实施方式中,获取模块503,在获取不同作业对应的资源依赖逻辑关系信息时,具体用于:获取不同作业之间的作业调用关系信息、作业不同资源之间的连接关系信息及作业对资源的依赖关系信息,作为所述资源依赖逻辑关系信息;
获取模块503,在获取候选作业集合中不同候选作业的周期性特征时,具体用于:获取采用时间序列分析法确定的不同候选作业的周期性特征。
在一实施方式中,识别模块504,具体用于:
根据上述的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具;
基于上述根因分析工具,按预定规则确定候选作业集合中存在资源竞争的各个目标作业;
其中,上述根因分析工具包括以逻辑因果关系图方式组织的不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的逻辑关系。
在一实施方式中,识别模块504,在根据上述的资源依赖逻辑关系信息和候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具时,具体用于:
解析所述资源依赖逻辑关系信息、识别存在潜在资源竞争关系的指标或因素;所述指标或因素为资源相关的指标或因素,或作业相关的指标或因素;
根据所述作业调用关系信息、不同资源之间的连接关系信息、作业对资源的依赖关系信息,和所述存在潜在资源竞争关系的指标或因素中的至少部分信息,及预定监控范围下与作业相关的监控项的异常信息,初步构建平台运行异常的根因分析工具;
结合候选作业集合中不同候选作业的周期性特征,对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果;
根据上述的异常检测与分析结果,调整根因分析工具。
在一实施方式中,识别模块504,在对各个候选作业按时间分片进行作业执行前后的异常检测与分析时,具体用于:在各个候选作业的不同时间分片下,进行平台运行性异常检测与分析和/或作业与资源的指标异常检测与分析,得到异常检测与分析结果;
识别模块504,在根据所述异常检测与分析结果,调整根因分析工具时,具体用于:将上述的异常检测与分析结果集成至根因分析工具。
在一实施方式中,上述装置还可以包括检测模块和/或调度处理模块:
检测模块,用于:在计划执行的作业启动之前,对作业执行所需的相关资源进行资源状态检测,并在检测的资源状态满足状态条件的情况下,至少暂停对作业的启动;
调度处理模块,用于:根据所述作业识别结果,在所述预定环境下进行作业调度,以至少降低不同作业之间的资源竞争。
对于本申请实施例公开的作业资源竞争识别装置而言,由于其与上文各方法实施例公开的作业资源竞争识别方法相对应,所以描述的比较简单,相关相似之处请参见上文相应方法实施例的说明即可,此处不再详述。
本申请实施例还公开一种电子设备,该电子设备可以是但不限于云计算环境中的服务器设备,该电子设备的组成结构如图6所示,具体包括:
存储器601,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器602,用于通过执行计算机指令集,实现如上文任一方法实施例公开的作业资源竞争识别方法。
处理器602可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种作业资源竞争识别方法,所述方法包括:
确定预定环境下不同作业中具有周期性特征的各个周期性作业;
确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合;
获取不同作业对应的资源依赖逻辑关系信息,并获取所述候选作业集合中不同候选作业的周期性特征;
根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
2.根据权利要求1所述的方法,所述确定预定环境下不同作业中具有周期性特征的各个周期性作业,包括:
获取作业的时间节点信息,所述时间节点信息包括作业在不同执行进度下对应的时间;所述时间节点信息通过对预定标注信息或作业配置信息进行识别获得,或者通过对与作业相关的监控项进行检测获得;
根据作业的时间节点信息,采用时间序列分析法确定作业是否具备周期性特征,若具备,则确定作业为周期性作业。
3.根据权利要求1所述的方法,所述确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合,包括:
将各个周期性作业的执行过程按照预定步长切分为若干时间窗口,得到不同周期性作业中每个周期性作业的时间分片;
比对各个周期性作业的时间分片,确定出在时间分片对应的至少一个相同时间段内同时执行的各个周期性作业,作为候选作业,得到候选作业集合。
4.根据权利要求3所述的方法,所述获取不同作业对应的资源依赖逻辑关系信息,包括:
获取不同作业之间的作业调用关系信息、作业不同资源之间的连接关系信息及作业对资源的依赖关系信息,作为所述资源依赖逻辑关系信息;
所述获取所述候选作业集合中不同候选作业的周期性特征,包括:
获取采用时间序列分析法确定的不同候选作业的周期性特征。
5.根据权利要求4所述的方法,所述根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,包括:
根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具;
基于所述根因分析工具,按预定规则确定所述候选作业集合中存在资源竞争的各个目标作业;
其中,所述根因分析工具包括以逻辑因果关系图方式组织的不同平台运行性异常事件与作业运行事件、作业资源冲突事件和/或作业/资源指标异常事件之间的逻辑关系。
6.根据权利要求5所述的方法,所述根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,构建平台运行异常的根因分析工具,包括:
解析所述资源依赖逻辑关系信息、识别存在潜在资源竞争关系的指标或因素;所述指标或因素为资源相关的指标或因素,或作业相关的指标或因素;
根据所述作业调用关系信息、不同资源之间的连接关系信息、作业对资源的依赖关系信息,和所述存在潜在资源竞争关系的指标或因素中的至少部分信息,及预定监控范围下与作业相关的监控项的异常信息,初步构建平台运行异常的根因分析工具;
结合所述候选作业集合中不同候选作业的周期性特征,对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果;
根据所述异常检测与分析结果,调整所述根因分析工具。
7.根据权利要求6所述的方法,所述对各个候选作业按时间分片进行作业执行前后的异常检测与分析,得到异常检测与分析结果,包括:
在各个候选作业的不同时间分片下,进行平台运行性异常检测与分析和/或作业与资源的指标异常检测与分析,得到异常检测与分析结果;
所述根据所述异常检测与分析结果,调整所述根因分析工具,包括:
将所述异常检测与分析结果集成至所述根因分析工具。
8.根据权利要求1所述的方法,还包括:
在计划执行的作业启动之前,对作业执行所需的相关资源进行资源状态检测,并在检测的资源状态满足状态条件的情况下,至少暂停对作业的启动;
和/或,根据所述作业识别结果,在所述预定环境下进行作业调度,以至少降低不同作业之间的资源竞争。
9.一种作业资源竞争识别装置,所述装置包括:
第一确定模块,用于确定预定环境下不同作业中具有周期性特征的各个周期性作业;
第二确定模块,用于确定各个所述周期性作业中作业执行时间存在重叠的各个周期性作业,得到候选作业集合;
获取模块,用于获取不同作业对应的资源依赖逻辑关系信息,并获取所述候选作业集合中不同候选作业的周期性特征;
识别模块,用于根据所述资源依赖逻辑关系信息和所述候选作业集合中不同候选作业的周期性特征,识别所述候选作业集合中存在资源竞争的各个目标作业,得到存在资源竞争风险的作业识别结果。
10.一种电子设备,包括:
存储器,用于存放计算机指令集;
处理器,用于通过执行存储器上存放的指令集,实现如权利要求1-8任一项所述的作业资源竞争识别方法。
CN202111162635.8A 2021-09-30 2021-09-30 作业资源竞争识别方法、装置和电子设备 Pending CN113886046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111162635.8A CN113886046A (zh) 2021-09-30 2021-09-30 作业资源竞争识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111162635.8A CN113886046A (zh) 2021-09-30 2021-09-30 作业资源竞争识别方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN113886046A true CN113886046A (zh) 2022-01-04

Family

ID=79005009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111162635.8A Pending CN113886046A (zh) 2021-09-30 2021-09-30 作业资源竞争识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113886046A (zh)

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
JP5874936B2 (ja) 運用管理装置、運用管理方法、及びプログラム
EP3734520A1 (en) Fault analysis and prediction using empirical architecture analytics
US20140053025A1 (en) Methods and systems for abnormality analysis of streamed log data
US9524223B2 (en) Performance metrics of a computer system
AU2019275633B2 (en) System and method of automated fault correction in a network environment
US20210366268A1 (en) Automatic tuning of incident noise
US9621679B2 (en) Operation task managing apparatus and method
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
US8543552B2 (en) Detecting statistical variation from unclassified process log
JP5240709B2 (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN113886046A (zh) 作业资源竞争识别方法、装置和电子设备
US20210027254A1 (en) Maintenance management apparatus, system, method, and non-transitory computer readable medium
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
JP2020170362A (ja) 分析装置、分析方法および分析プログラム
Frattini et al. Using invariants for anomaly detection: the case study of a SaaS application
Kubiak et al. IT-Application Behaviour Analysis: Predicting Critical System States on OpenStack using Monitoring Performance Data and Log Files.
CN109656776B (zh) 计算机系统异常监控的完备性巡检方法及其设备
US20220076181A1 (en) Estimation method, estimation device, and estimation program
CN115391227A (zh) 基于分布式系统的故障测试方法、装置、设备及介质
CN115438094A (zh) 报警数据处理方法、装置、计算设备及存储介质
CN116915463A (zh) 一种调用链数据安全分析方法、装置、设备及存储介质
CN117056214A (zh) 一种变异测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination