CN107451039A - 一种对集群中执行设备评价的方法和设备 - Google Patents

一种对集群中执行设备评价的方法和设备 Download PDF

Info

Publication number
CN107451039A
CN107451039A CN201710198341.8A CN201710198341A CN107451039A CN 107451039 A CN107451039 A CN 107451039A CN 201710198341 A CN201710198341 A CN 201710198341A CN 107451039 A CN107451039 A CN 107451039A
Authority
CN
China
Prior art keywords
equipment
evaluation
execution
running status
evaluation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710198341.8A
Other languages
English (en)
Other versions
CN107451039B (zh
Inventor
王家忙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN107451039A publication Critical patent/CN107451039A/zh
Application granted granted Critical
Publication of CN107451039B publication Critical patent/CN107451039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3433Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请的目的是提供一种对集群中执行设备评价的方法和设备,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的具体情况,判断各所述执行设备的运行状态,并根据所述运行状态确定评价系数,通过将评价系数累加成评价结果,并定期提交至调度主设备,所述调度主设备通过接收至少一个分布式作业主设备上传的集群中各执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,从而根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。

Description

一种对集群中执行设备评价的方法和设备
技术领域
本申请涉及计算机领域,尤其涉及一种对集群中执行设备评价的技术。
背景技术
大规模数据分析中需要使用多台计算机协同工作,多台计算机互相连接组成的物理系统称为集群,管理集群中多台计算机协同工作的系统称为分布式系统。分布式系统主要负责集群中计算机资源的调度。
随着计算机数目增加,发生计算机故障的频率也随之提高。目前大规模计算机集群一般包含上千台机器,虽然单台计算机的故障率很低,但是以集群为单位,机器的硬件各种类型的故障率非常可观。上千台机器的集群,基本上每天都会有故障会影响作业的运行。为了防止故障机器对于作业造成的影响过大,分布式调度系统需要评判机器的情况来进行调度决策。因此,在分布式作业运行过程中如何屏蔽计算机的故障,减弱计算机故障对于集群中运行的作业的影响是分布式系统的一个主要挑战。
计算机的故障一般分为两类:一是某种硬件彻底损坏,一般会导致作业在该机器执行失败;一是硬件没有彻底损坏,只是性能变差,这种情况下不会导致所有作业失败,而会导致部分作业执行失败,或者是作业执行变慢。而要减弱计算机故障对于集群中作业的影响首要的目标是要对计算机做出评价,识别发生故障的计算机。
目前已有方案的缺陷包括:一是硬件检测工具只能检测硬件彻底不可用的情况,对于硬件性能变差,往往很难检查出来。例如,磁盘检测工具可以发现磁盘不可写入文件或者不可读取文件,但是发现不了磁盘写入文件慢或者读取文件慢的情况。二是硬件检测只负责检测单个维度的硬件,给出某种硬件是否可用,但是在某些情况下部分硬件不可用的时候不会影响分布式作业的运行。例如对于只需要CPU(中央处理器)和内存的分布式作业,磁盘的不可用对于作业影响不大。三是硬件检测无法发现软件安装的问题,例如作业依赖的动态链接库在某台机器A没有正常安装,这时候作业在机器A无法正常运行,这种情况硬件检测发现不了问题,进而无法有效帮助调整调度决策。
发明内容
本申请的目的是提供一种基于分布式作业实际运行情况直接评判各分布式作业的执行设备性能的评价方法,以更直接地找出影响分布式作业运行情况的机器,并检测出硬件检测工具无法检测的问题。
根据本申请的一个方面,提供了一种在分布式作业主设备端对集群中执行设备评价的方法,其中,所述方法包括:
获取所述执行设备的运行状态;
确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;
将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
进一步地,获取所述执行设备的运行状态包括:基于所述执行设备对分布式作业实际运行的情况,获取所述执行设备的运行状态。
进一步地,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果包括:当所述分布式作业在执行设备上实际运行情况出现至少以下任一种:
所述分布式作业的单个作业实例执行失败;
所述分布式作业的所有作业实例执行失败;
所述分布式作业的作业实例无法启动;
分布式作业的所述作业实例的执行时间超出预设时间;
则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果。
进一步地,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果包括:根据所述异常的运行状态对分布式作业实际运行的影响,确定对应的评价系数。
进一步地,所述异常的运行状态对分布式作业实际运行的影响越大,所确定的评价系数越大。
进一步地,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果还包括:定期基于错误作业的情况,对所述评价结果进行调整。
进一步地,定期基于错误作业的情况,对所述评价结果进行调整还包括:基于错误作业的概率,生成错误评判系数;利用所述错误评判系数,对所述评价结果进行调整。
进一步地,所述方法还包括:在所述执行设备进行设备维修或更新后,初始化所述执行设备的评价结果。
根据本身请另一方面,提供了一种在调度主设备端对集群中执行设备评价的方法,其中,所述方法包括:
接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;
基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
进一步地,基于所述执行设备的评价结果,生成所述执行设备的性能评价信息包括:基于所述执行设备的评价结果,确定所述执行设备排序信息;基于所述排序信息,生成所述执行设备的性能评价信息。
进一步地,所述分布式作业主设备包括:
获取装置,用于获取所述执行设备的运行状态;
统计装置,用于确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;
上传装置,用于将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
进一步地,所述获取装置用于:当所述分布式作业在执行设备上实际运行情况出现至少以下任一种:
所述分布式作业的单个作业实例执行失败;
所述分布式作业的所有作业实例执行失败;
所述分布式作业的作业实例无法启动;
分布式作业的所述作业实例的执行时间超出预设时间;
则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果。
进一步地,所述获取装置包括:系数确定单元,用于根据所述异常的运行状态对分布式作业实际运行的影响,确定对应的评价系数。
进一步地,所述异常的运行状态对分布式作业实际运行的影响越大,所确定的评价系数越大。
进一步地,所述获取装置还包括:调整单元,用于定期基于错误作业的情况,对所述评价结果进行调整。
进一步地,所述调整单元还包括:第一子单元,用于基于错误作业的概率,生成错误评判系数;第二子单元,用于利用所述错误评判系数,对所述评价结果进行调整。
进一步地,所述分布式作业主设备还包括:初始化装置,用于在所述执行设备进行设备维修或更新后,初始化所述执行设备的评价结果。
进一步地,所述获取装置包括:获取单元,用于基于所述执行设备对分布式作业实际运行的情况,获取所述执行设备的运行状态。
根据本申请又一方面,提供了一种对集群中执行设备评价的调度主设备,其中,所述调度主设备包括:
接收装置,用于接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;
生成装置,用于基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
进一步地,所述生成装置包括:排序单元,用于基于所述执行设备的评价结果,确定所述执行设备排序信息;生成单元,用于基于所述排序信息,生成所述执行设备的性能评价信息。
本申请还提供了一种对集群中执行设备评价的分布式作业主设备,所述分布式作业主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取所述执行设备的运行状态;确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
本申请还提供了一种对集群中执行设备评价的调度主设备,所述调度主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
根据本申请再一方面,提供了一种对集群中执行设备评价的系统,其中,所述系统包括:调度主设备、至少一个分布式作业主设备及至少一个执行设备;其中,
所述分布式作业主设备包括:获取装置,用于获取所述执行设备的运行状态;统计装置,用于确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;上传装置,用于将所述执行设备的评价结果上传至调度主设备;
所述调度主设备包括:接收装置,用于布式作业主设备上传的执行设备的评价结果;生成装置,用于基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
与现有技术相比,根据本申请的实施例所述的一种用于对集群中执行设备评价的方法和设备,其中,所述分布式作业主设备获取所述执行设备的运行状态,并确定评价系数,通过统计所述评价系数生成评价结果,并提交至调度主设备,所述调度主设备通过接收至少一个分布式作业主设备上传的执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,生成能够有效地帮助调度主设备做出调度决策的性能评价信息。
进一步地,根据分布式作业实例在每台执行设备上运行的具体情况,判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果,从而根据实际的运行状态,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种分布式作业主设备端对集群中执行设备评价的方法流程示意图;
图2示出根据本申请在一方面提供的一种调度主设备端对集群中执行设备评价的方法流程示意图;
图3示出根据本申请优选实施例提供的,在分布式系统中对集群中执行设备评价的方法;
图4示出根据本申请一个方面的一种对集群中执行设备评价的分布式作业主设备的设备示意图;
图5示出根据本申请一实施例提供的一种对集群中执行设备评价的分布式作业主设备的设备示意图;
图6示出根据本申请再一实施例中提供的一种对集群中执行设备评价的调度主设备的设备示意图;
图7示出根据本申请再一实施例中提供的一种对集群中执行设备评价的调度主设备的系统示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
图1示出根据本申请一个方面的一种分布式作业主设备端对集群中执行设备评价的方法流程示意图,其中,所述方法包括:步骤S11、步骤S12和步骤S13。
在所述步骤S11中,获取所述执行设备的运行状态;在所述步骤S12中,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;在所述步骤S13中,将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
在此,在集群中的执行设备可以包括一个或多个,所述分布式作业主设备可以与每一所述执行设备保持通信,以获取每一所述执行设备的运行状态,并确定每一所述执行设备的运行状态对应的评价系数,进而基于所述评价系数统计每一所述执行设备的评价结果。
因此,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的具体情况,判断各所述执行设备的运行状态,并根据运行状态确定评价系数,通过统计评价系数生成评价结果,并提交至调度主设备,从而帮助调度主设备根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
进一步地,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的异常情况,统计评价结果,更能够体现各执行设备的异常性能问题。
在优选的实施例中,在所述步骤S11中,所述分布式作业主设备基于所述执行设备对分布式作业的实际运行情况,获取所述执行设备的运行状态。
具体地,在所述步骤S11中,当所述分布式作业在执行设备上实际运行情况出现:所述分布式作业的单个作业实例执行失败;所述分布式作业的所有作业实例执行失败;所述分布式作业的作业实例无法启动;分布式作业的所述作业实例的执行时间超出预设时间;出现以上至少任一种或某几种情况的组合,则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应评价系数,并将所述评价系数累加获得对应所述执行设备的评价结果。所述分布式作业主设备根据实例在每台机器运行的情况查出执行设备的异常状态确定对应评价系数,并将所述评价系数累加获得对应所述执行设备的评价结果。当然,本领域技术人员应能理解上述异常的运行状态为优选的举例,其他现有的或今后可能出现的异常的运行状态如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在具体的场景中,例如,单个作业实例在所述执行设备上执行失败,则评价系数为100,在评价结果上累加100分,所有实例在所述执行设备上执行失败,则评价系数为100,在评价结果上累加100分,实例在所述执行设备上无法启动,则评价系数为100,在评价结果上累加100分、实例在所述执行设备上执行慢,则评价系数为5,在评价结果上累加5分。当然,本领域技术人员应能理解上述各评价系为优选的举例,其他现有的或今后可能出现的各评价系数,如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。进一步地,在所述步骤S12中,根据所述异常的运行状态对分布式作业实际运行的影响,确定不同的评价系数。优选地,所述异常的运行状态对分布式作业实际运行的影响越大,所确定的评价系数越大。
优选地,在所述步骤S12中,为了避免某个或某几个错误作业队分布式作业实际运行的影响,通常可以定期(每个一段时间)对所有执行设备的评价结果进行调整,具体地,基于错误作业的概率,生成错误评判系数;利用所述错误评判系数,对所述评价结果进行调整。在具体的实施例中,例如通常错误作业的出现概率为10%,则确定错误评判系数为0.9,设定间隔时间为一小时,则分布式主设备每个一小时将所有执行设备的评价结果乘以0.9,再将调整后的评价结果发送给调度主设备,从而消除某个错误作业对于机器做出错误评判的影响。
进一步地,所述方法还包括:在所述执行设备进行设备维修或更新后,初始化对应所述执行设备的评价结果。其中,初始化可以是将所述执行设备的评价结果归零。
在所述步骤S13中,将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息,优选地,可以通过定期上传的方式,使调度主设备能够定期地获取到所述执行设备的评价结果的更新信息,以定期地生成所述执行设备的性能评价信息。此外,根据实际评价需求选择上传的时间和频率,也在本申请的思想范围之内。
图2示出根据本申请在一方面提供的一种调度主设备端对集群中执行设备评价的方法流程示意图,其中,所述方法包括步骤S21和步骤S22。
在所述步骤S21中,所述调度主设备接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;在所述步骤S22中,所述调度主设备基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
在此,分布式系统中可以包括一个或多个集群,分布式系统中,通常包括一个调度主设备、调度主设备与一个或多个集群中的分布式作业主设备保持通信,以接收每一所述分布式作业主设备上传的一个或多个执行设备的评价结果,因此,优选地,在所述步骤S11中,所述调度主设备会基于每一所述评价结果生成对应所述执行设备的性能评价信息。
优选地,在所述步骤S22中,所述调度主设备基于所述执行设备的评价结果,对所述执行设备进行排序,生成所述执行设备的排序信息;基于所述排序信息,生成对应所述执行设备的性能评价信息。
对于以异常的运行状态累加的评价结果,其评价结果的分数越高,排名越靠前,说明相应执行设备运行分布式作业的情况越差,调度主设备生成排名靠前的执行设备的性能评价信息为较差,则在调度分布式作业时越应该避免使用对应所述执行设备。
因此,所述调度主设备通过接收至少一个分布式作业主设备定期上传的集群中各执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,从而根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
在优选的场景实施例中,所述分布式系统通常由多个集群组成,因此,所述分布式系统可以包括一个调度主设备、若干集群下每一分布式作业主设备及若干执行设备,因此,调度主设备通常与一个或多个所述分布式作业主设备进行通信。在分布式系统中,调度主设备负责全局管理分布式系统的所有资源,一般每个分布式系统只有一个调度主设备;分布式系统中运行的、和用户逻辑相关的程序称之为应用,当一个应用提交到分布式系统,分布式系统首先调度分布式作业主设备(应用Master),然后根据分布式作业主设备提交的资源申请来给应用分配计算资源,每个应用都有一个分布式作业主设备,分布式作业主设备负责和调度分布式作业主设备交互,进行资源申请等操作;每台执行设备(例如,计算机)上具有代理设备,其中代理设备负责监控每台执行设备的物理资源使用情况,同时管理所有应用在这台计算机启动的进程。
图3示出根据本申请优选实施例提供的一种在分布式系统中对集群中执行设备评价的方法,所述方法包括:
步骤S11’:分布式作业主设备1基于集群中各执行设备对分布式作业实际运行的情况,判断各所述执行设备3的运行状态;
步骤S12’:分布式作业主设备1基于各所述执行设备3的实际运行状态,进行打分,其中,对于单个作业实例在机器上执行失败、所有实例在机器上执行失败、实例在机器上无法启动、实例在机器上执行慢;如果执行设备出现上述情况之一,就对执行设备3累加分数。
步骤S13’:分布式作业主设备1定期将各所述执行设备3的评价结果上传至调度主设备2;分布式作业主设备1每隔一段时间向调度主设备(分布式系统的Master)汇报执行设备的累加分数。
步骤S22’:调度主设备2通过汇总评价结果,当累加分数越高,说明对应所述执行设备3运行分布式作业的情况越差,则调度主设备在调度分布式作业时越应该避免使用对应执行设备3。
图4示出根据本申请一个方面的一种对集群中执行设备评价的分布式作业主设备的设备示意图,其中,所述分布式作业主设备1包括:获取装置11、统计装置12和上传装置13。
所述获取装置11获取所述执行设备的运行状态;所述统计装置12确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;所述上传装置13将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
在此,所述分布式作业主设备1包括但不限于网路设备或通过网络相集成所构成的设备。所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,所述分布式作业主设备1还可以是运行于网络设备或所述用户设备与网络设备通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述分布式作业主设备1仅为举例,其他现有的或今后可能出现的所述分布式作业主设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
此外,上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求。例如,所述获取装置11持续地获取所述执行设备的运行状态;所述统计装置12持续地确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;所述上传装置13将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
在此,在集群中的执行设备可以包括一个或多个,所述分布式作业主设备可以与每一所述执行设备保持通信,以获取每一所述执行设备的运行状态,并确定每一所述执行设备的运行状态对应的评价系数,进而基于所述评价系数统计每一所述执行设备的评价结果。
所述分布式作业主设备1根据分布式作业实例在每台执行设备上运行的具体情况,判断所述执行设备的运行状态,并根据运行状态确定评价系数,通过将评价系数累加成评价结果,并提交至调度主设备,从而帮助调度主设备根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
进一步地,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的异常情况,统计评价结果,更能够体现各执行设备的异常性能问题。
在优选的实施例中,在所述步骤S11中,所述分布式作业主设备基于所述执行设备对分布式作业的实际运行情况,获取所述执行设备的运行状态。
具体地,所述获取装置11当所述分布式作业在执行设备上实际运行情况出现:所述分布式作业的单个作业实例执行失败;所述分布式作业的所有作业实例执行失败;所述分布式作业的作业实例无法启动;分布式作业的所述作业实例的执行时间超出预设时间;出现以上至少任一种或某几种情况的组合,则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应评价系数,并将所述评价系数累加获得对应所述执行设备的评价结果。所述分布式作业主设备根据实例在每台机器运行的情况查出执行设备的异常状态确定对应评价系数,并将所述评价系数累加获得对应所述执行设备的评价结果。当然,本领域技术人员应能理解上述异常的运行状态为优选的举例,其他现有的或今后可能出现的异常的运行状态如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述统计装置12根据所述异常的运行状态对分布式作业实际运行的影响,确定不同的评价系数。优选地,所述异常的运行状态对分布式作业实际运行的影响越大,所确定评价系数越大。
在具体的场景中,例如,单个作业实例在所述执行设备上执行失败,则评价系数为100,在评价结果上累加100分,所有实例在所述执行设备上执行失败,则评价系数为100,在评价结果上累加100分,实例在所述执行设备上无法启动,则评价系数为100,在评价结果上累加100分、实例在所述执行设备上执行慢,则评价系数为5,在评价结果上累加5分。当然,本领域技术人员应能理解上述各评价系为优选的举例,其他根据具体运行情况确定的各评价系数,如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
优选地,所述统计装置12为了避免某个或某几个错误作业队分布式作业实际运行的影响,可以通过调整单元定期(每个一段时间)对所有执行设备的评价结果进行调整,具体地,所述调整单元包括第一子单元和第二子单元(未示出),所述第一子单元基于错误作业的概率,生成错误评判系数;所述第二子单元利用所述错误评判系数,对所述评价结果进行调整。在具体的实施例中,例如通常错误作业的出现概率为10%,则确定错误评判系数为0.9,设定间隔时间为一小时,则分布式主设备每个一小时将所有执行设备的评价结果乘以0.9,再将调整后的评价结果发送给调度主设备,从而消除某个错误作业对于机器做出错误评判的影响。
图5示出根据本申请一实施例提供的一种对集群中执行设备评价的分布式作业主设备的设备示意图,在图3的基础上,所述分布式作业设备1还包括初始化装置14,所述初始化装置14在所述执行设备进行设备维修或更新后,初始化对应所述执行设备的评价结果。其中,初始化可以是将所述执行设备的评价结果归零处理。
所述上传装置13将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息,优选地,可以通过定期上传的方式,使调度主设备能够定期地获取到所述执行设备的评价结果的更新信息,以定期地生成所述执行设备的性能评价信息。此外,根据实际评价需求选择上传的时间和频率,也在本申请的思想范围之内。
图6示出根据本申请再一实施例中提供的一种对集群中执行设备评价的调度主设备的设备示意图,其中,所述调度主设备2包括:接收装置21和生成装置22。
其中,所述接收装置2接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;所述生成装置22基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
在此,分布式系统中可以包括一个或多个集群,分布式系统中,通常包括一个调度主设备、调度主设备与一个或多个集群中的分布式作业主设备保持通信,以接收每一所述分布式作业主设备上传的一个或多个执行设备的评价结果,因此,优选地,所述调度主设备的获取装置会基于每一所述评价结果生成对应所述执行设备的性能评价信息。
优选地,所述生成装置22基于各所述执行设备的评价结果,对所述执行设备进行排序,生成所述执行设备的排序信息;基于排序信息,生成对应所述执行设备的性能评价信息。
对于以异常的运行状态累加的评价结果,其评价结果的分数越高,排名越靠前,说明相应执行设备运行分布式作业的情况越差,调度主设备生成排名靠前的执行设备的性能评价信息为较差,则在调度分布式作业时越应该避免使用对应所述执行设备。
此外,所述调度主设备还可以通过设定预警阈值,当某执行设备的性能评价信息超过预警阈值,可以反馈预警信息,以使调度主设备停止调度预警的执行设备,或提醒更换或维修相应执行设备。
与现有技术相比,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的具体情况,判断各所述执行设备的运行状态,并根据运行状态确定评价系数,通过将评价系数累加成评价结果,并提交至调度主设备,所述调度主设备通过接收至少一个分布式作业主设备上传的集群中各执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,从而根据实际的运行情况生成性能评价信息,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
图7示出根据本申请再一实施例中提供的一种对集群中执行设备评价的调度主设备的系统示意图。其中,所述系统包括分布式作业主设备1、调度主设备2及至少一个执行设备3,其中,所述分布式作业主设备1与图5所示的分布式作业主设备1的内容相同或基本相同,所述调度主设备2与图6所示的调度主设备2的内容相同或基本相同,为简明起见,不再赘述,仅以引用的方式包含于此。
具体地,所述分布式作业主设备1的获取装置11获取所述执行设备3的运行状态,所述分布式作业主设备1的统计装置12基于所述执行设备3的实际运行状态,进行打分,其中,对于单个作业实例在机器上执行失败、所有实例在机器上执行失败、实例在机器上无法启动、实例在机器上执行慢;如果执行设备出现上述情况之一,就对执行设备3累加分数。接着分布式作业主设备1的上传装置13将所述执行设备3的评价结果上传至调度主设备2;分布式作业主设备1每隔一段时间向调度主设备(分布式系统的Master)汇报执行设备的累加分数。随后,调度主设备2的接收装置21接收至少一个分布式作业主设备上传的集群中各执行设备的评价结果,调度主设备2的生成装置22通过汇总评价结果,当累加分数越高,说明对应所述执行设备3运行分布式作业的情况越差,则调度主设备在调度分布式作业时越应该避免使用对应执行设备3。
本申请实施例还提供了一种对集群中执行设备评价的分布式作业主设备,所述分布式作业主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取所述执行设备的运行状态;确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
本申请实施例还提供了一种对集群中执行设备评价的调度主设备,所述调度主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
与现有技术相比,根据本申请的实施例所述的一种用于对集群中执行设备评价的方法和设备,其中,所述分布式作业主设备根据分布式作业实例在每台执行设备上运行的具体情况,判断各所述执行设备的运行状态,并根据运行状态确定评价系数,通过将评价系数累加成评价结果,并提交至调度主设备,所述调度主设备通过接收至少一个分布式作业主设备上传的集群中各执行设备的评价结果,并根据汇总的评价结果对所述执行设备的性能进行评价,从而生成能够有效地帮助调度主设备做出调度决策的性能评价信息。
进一步地,根据分布式作业实例在每台执行设备上运行的具体情况,判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果,从而根据实际的运行状态,识别发生故障或者运行状态不好的执行设备,检测出硬件检测工具无法检测的问题,进而有效地帮助调度主设备做出调度决策。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (23)

1.一种在分布式作业主设备端对集群中执行设备评价的方法,其中,所述方法包括:
获取所述执行设备的运行状态;
确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;
将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
2.根据权利要求1所述的方法,其中,获取所述执行设备的运行状态包括:
基于所述执行设备对分布式作业实际运行的情况,获取所述执行设备的运行状态。
3.根据权利要求2所述的方法,其中,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果包括:
当所述分布式作业在执行设备上实际运行情况出现至少以下任一种:
所述分布式作业的单个作业实例执行失败;
所述分布式作业的所有作业实例执行失败;
所述分布式作业的作业实例无法启动;
分布式作业的所述作业实例的执行时间超出预设时间;
则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果。
4.根据权利要求3所述的方法,其中,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果包括:
根据所述异常的运行状态对分布式作业实际运行的影响,确定对应的评价系数。
5.根据权利要求4所述的方法,其中,所述异常的运行状态对分布式作业实际运行的影响越大,所确定的评价系数越大。
6.根据权利要求1所述的方法,其中,确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果还包括:
定期基于错误作业的情况,对所述评价结果进行调整。
7.根据权利要求6所述的方法,其中,定期基于错误作业的情况,对所述评价结果进行调整还包括:
基于错误作业的概率,生成错误评判系数;
利用所述错误评判系数,对所述评价结果进行调整。
8.根据权利要求1至7中任一项所述的方法,其中,所述方法还包括:
在所述执行设备进行设备维修或更新后,初始化所述执行设备的评价结果。
9.一种在调度主设备端对集群中执行设备评价的方法,其中,所述方法包括:
接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;
基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
10.根据权利要求9所述的方法,其中,基于所述执行设备的评价结果,生成所述执行设备的性能评价信息包括:
基于所述执行设备的评价结果,确定所述执行设备排序信息;
基于所述排序信息,生成所述执行设备的性能评价信息。
11.一种对集群中执行设备评价的分布式作业主设备,其中,所述分布式作业主设备包括:
获取装置,用于获取所述执行设备的运行状态;
统计装置,用于确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;
上传装置,用于将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
12.根据权利要求11所述的分布式作业主设备,其中,所述获取装置包括:
获取单元,用于基于所述执行设备对分布式作业实际运行的情况,获取所述执行设备的运行状态。
13.根据权利要求12所述的分布式作业主设备,其中,所述获取装置用于:
当所述分布式作业在执行设备上实际运行情况出现至少以下任一种:
所述分布式作业的单个作业实例执行失败;
所述分布式作业的所有作业实例执行失败;
所述分布式作业的作业实例无法启动;
分布式作业的所述作业实例的执行时间超出预设时间;
则判断所述执行设备出现异常的运行状态,并基于所述异常的运行状态确定对应的评价系数,并将所述评价系数累加获得所述执行设备的评价结果。
14.根据权利要求13所述的分布式作业主设备,其中,所述获取装置包括:
系数确定单元,用于根据所述异常的运行状态对分布式作业实际运行的影响,确定对应的评价系数。
15.根据权利要求14所述的分布式作业主设备,其中,所述异常的运行状态对分布式作业实际运行的影响越大,所确定的评价系数越大。
16.根据权利要求15所述的分布式作业主设备,其中,所述获取装置还包括:
调整单元,用于定期基于错误作业的情况,对所述评价结果进行调整。
17.根据权利要求11所述的分布式作业主设备,其中,所述调整单元还包括:
第一子单元,用于基于错误作业的概率,生成错误评判系数;
第二子单元,用于利用所述错误评判系数,对所述评价结果进行调整。
18.根据权利要求11至17中任一项所述的分布式作业主设备,其中,所述分布式作业主设备还包括:
初始化装置,用于在所述执行设备进行设备维修或更新后,初始化所述执行设备的评价结果。
19.一种对集群中执行设备评价的调度主设备,其中,所述调度主设备包括:
接收装置,用于接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;
生成装置,用于基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
20.根据权利要求19所述的调度主设备,其中,所述生成装置包括:
排序单元,用于基于所述执行设备的评价结果,确定所述执行设备排序信息;
生成单元,用于基于所述排序信息,生成所述执行设备的性能评价信息。
21.一种对集群中执行设备评价的分布式作业主设备,其中,所述分布式作业主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取所述执行设备的运行状态;确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;将所述执行设备的评价结果上传至调度主设备,以供所述调度主设备生成所述执行设备的性能评价信息。
22.一种对集群中执行设备评价的调度主设备,其中,所述调度主设备包括:
处理器;
以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收所述分布式作业主设备上传的执行设备的评价结果,其中,所述执行设备的评价结果是基于所述执行设备的运行状态所对应的评价系数统计获得的;基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
23.一种对集群中执行设备评价的系统,其中,所述系统包括:调度主设备、至少一个分布式作业主设备及至少一个执行设备;其中,
所述分布式作业主设备包括:获取装置,用于获取所述执行设备的运行状态;统计装置,用于确定所述运行状态对应的评价系数,并基于所述评价系数统计所述执行设备的评价结果;上传装置,用于将所述执行设备的评价结果上传至调度主设备;
所述调度主设备包括:接收装置,用于布式作业主设备上传的执行设备的评价结果;生成装置,用于基于所述执行设备的评价结果,生成所述执行设备的性能评价信息。
CN201710198341.8A 2016-03-31 2017-03-29 一种对集群中执行设备评价的方法和设备 Active CN107451039B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610194500 2016-03-31
CN2016101945002 2016-03-31

Publications (2)

Publication Number Publication Date
CN107451039A true CN107451039A (zh) 2017-12-08
CN107451039B CN107451039B (zh) 2021-02-09

Family

ID=60486428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710198341.8A Active CN107451039B (zh) 2016-03-31 2017-03-29 一种对集群中执行设备评价的方法和设备

Country Status (1)

Country Link
CN (1) CN107451039B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126810A (zh) * 2019-12-16 2020-05-08 国网河北省电力有限公司电力科学研究院 一种源侧发电机组运行安全评价方法
CN113438110A (zh) * 2021-06-23 2021-09-24 曙光信息产业(北京)有限公司 一种集群性能的评价方法、装置、设备及存储介质
CN115499300A (zh) * 2022-09-19 2022-12-20 八维通科技有限公司 嵌入式设备集群化运行架构、方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、系统及设备
CN104239154A (zh) * 2014-10-09 2014-12-24 浪潮(北京)电子信息产业有限公司 一种Hadoop集群中的作业调度方法和作业调度器
US20150143363A1 (en) * 2013-11-19 2015-05-21 Xerox Corporation Method and system for managing virtual machines in distributed computing environment
CN104915407A (zh) * 2015-06-03 2015-09-16 华中科技大学 一种基于Hadoop多作业环境下的资源调度方法
CN105096096A (zh) * 2014-04-29 2015-11-25 阿里巴巴集团控股有限公司 任务性能评价方法及系统
CN105335209A (zh) * 2014-06-19 2016-02-17 联想(北京)有限公司 一种虚拟机调度方法、电子设备及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694630A (zh) * 2009-09-30 2010-04-14 曙光信息产业(北京)有限公司 一种作业调度方法、系统及设备
US20150143363A1 (en) * 2013-11-19 2015-05-21 Xerox Corporation Method and system for managing virtual machines in distributed computing environment
CN105096096A (zh) * 2014-04-29 2015-11-25 阿里巴巴集团控股有限公司 任务性能评价方法及系统
CN105335209A (zh) * 2014-06-19 2016-02-17 联想(北京)有限公司 一种虚拟机调度方法、电子设备及服务器
CN104239154A (zh) * 2014-10-09 2014-12-24 浪潮(北京)电子信息产业有限公司 一种Hadoop集群中的作业调度方法和作业调度器
CN104915407A (zh) * 2015-06-03 2015-09-16 华中科技大学 一种基于Hadoop多作业环境下的资源调度方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126810A (zh) * 2019-12-16 2020-05-08 国网河北省电力有限公司电力科学研究院 一种源侧发电机组运行安全评价方法
CN111126810B (zh) * 2019-12-16 2023-08-22 国网河北省电力有限公司电力科学研究院 一种源侧发电机组运行安全评价方法
CN113438110A (zh) * 2021-06-23 2021-09-24 曙光信息产业(北京)有限公司 一种集群性能的评价方法、装置、设备及存储介质
CN113438110B (zh) * 2021-06-23 2023-02-28 曙光信息产业(北京)有限公司 一种集群性能的评价方法、装置、设备及存储介质
CN115499300A (zh) * 2022-09-19 2022-12-20 八维通科技有限公司 嵌入式设备集群化运行架构、方法及装置
CN115499300B (zh) * 2022-09-19 2024-03-15 八维通科技有限公司 嵌入式设备集群化运行架构系统、构建方法及构建装置

Also Published As

Publication number Publication date
CN107451039B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
US11159450B2 (en) Nonintrusive dynamically-scalable network load generation
CN108763038B (zh) 告警数据的管理方法、装置、计算机设备及存储介质
US9459942B2 (en) Correlation of metrics monitored from a virtual environment
US8677191B2 (en) Early detection of failing computers
US10462027B2 (en) Cloud network stability
US20150309908A1 (en) Generating an interactive visualization of metrics collected for functional entities
US8667334B2 (en) Problem isolation in a virtual environment
US9858106B2 (en) Virtual machine capacity planning
US20100082708A1 (en) System and Method for Management of Performance Fault Using Statistical Analysis
CN107451039A (zh) 一种对集群中执行设备评价的方法和设备
JP5200970B2 (ja) 品質管理システムおよび品質管理装置および品質管理プログラム
CA2501273A1 (en) Process for determining competing cause event probability and/or system availability during the simultaneous occurrence of multiple events
US20190356560A1 (en) Quality assessment and decision recommendation for continuous deployment of cloud infrastructure components
US20230239194A1 (en) Node health prediction based on failure issues experienced prior to deployment in a cloud computing system
CN110659147B (zh) 一种基于模块自检行为的自修复方法和系统
EP3996348A1 (en) Predicting performance of a network order fulfillment system
JP2015185120A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5544929B2 (ja) 運用管理装置、運用管理方法、運用管理プログラム
US20180253366A1 (en) Data storage device monitoring
CN112162528B (zh) 一种数控机床的故障诊断方法、装置、设备和存储介质
JP6622040B2 (ja) 分析システム、及び、分析方法
US20160164714A1 (en) Alert management system for enterprises
JP6326383B2 (ja) ネットワーク評価システム、ネットワーク評価方法、及びネットワーク評価プログラム
CN109144765B (zh) 报表生成方法、装置、计算机设备及存储介质
CN110457194A (zh) 电子设备稳定性预警方法、系统、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant