CN110162423B - 资源检查方法和资源检查装置 - Google Patents

资源检查方法和资源检查装置 Download PDF

Info

Publication number
CN110162423B
CN110162423B CN201910427103.9A CN201910427103A CN110162423B CN 110162423 B CN110162423 B CN 110162423B CN 201910427103 A CN201910427103 A CN 201910427103A CN 110162423 B CN110162423 B CN 110162423B
Authority
CN
China
Prior art keywords
node
probability
nodes
checking
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910427103.9A
Other languages
English (en)
Other versions
CN110162423A (zh
Inventor
陆明
王友焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910427103.9A priority Critical patent/CN110162423B/zh
Publication of CN110162423A publication Critical patent/CN110162423A/zh
Application granted granted Critical
Publication of CN110162423B publication Critical patent/CN110162423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本公开提供了一种资源检查方法,包括响应于检查指令,读取与所述检查指令对应的检查作业集合,基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率,基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果,输出所述定位结果。本公开还提供了一种资源检查装置。

Description

资源检查方法和资源检查装置
技术领域
本公开涉及一种资源检查方法和一种资源检查装置。
背景技术
在基础设施运维中,需要对系统发生异常情况进行检查。这样的检查过程可能会跨越多种不同的资源逐层展开。例如,当发现运行在云平台虚拟机中的数据库性能变差,会分别从应用性能,应用与数据库网络性能,计算资源性能,宿主机资源竞争情况,存储资源性能等方面分别进行性能检查。这样的检查定位往往按照一定的工作流程一步步推进诊断定位,例如按照应用层到物理层的多个层级逐层进行检查,每一个层次的内容检查完成之后检查下一层次内容,直到按照流程定位到问题位置已告结束。该工作流程具有较强的逻辑顺序,能够有效地排查问题,能够有效展开检查工作。然而,本发明人发现,在复杂的问题定位过程中,上述方法存在问题诊断效率不足的问题。
发明内容
本公开的一个方面提供了一种资源检查的方法,包括响应于检查指令,读取与所述检查指令对应的检查作业集合,基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率,基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果,输出所述定位结果。
可选地,所述基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业包括,执行所述多个节点中概率最大的节点对应的检查作业,获得检查结果,以及根据所述检查结果,更新所述概率图模型。
可选地,所述基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业包括,基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点,执行所述第一节点对应的检查作业,获得检查结果,以及根据所述检查结果,更新所述概率图模型。
可选地,所述从所述多个节点中确定第一节点包括从所述多个节点中确定单位时长能够定位异常的概率最大的第一节点或由多个节点组成的第一路径,其中,所述第一路径包括第一节点。
可选地,所述基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点包括若概率最大的节点的预测执行时长大于阈值,则降低该节点的执行优先级,或者,若概率最大的节点的预测执行时长大于阈值,则将多个节点中概率次大的节点确定为第一节点。
可选地,所述基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业包括,基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径,执行所述第一路径中的全部节点对应的检查作业,获得检查结果,以及根据所述检查结果,更新所述概率图模型。
可选地,所述方法还包括基于预设的数据或者历史记录,确定所述概率图模型中各个节点的概率,以及在执行一个节点对应的检查作业获得该节点的检查结果之后,将该节点的检查结果加入所述历史记录。
本公开的另一个方面提供了一种资源检查装置,包括读取模块、获得模块、执行模块以及输出模块。读取模块,用于响应于检查指令,读取与所述检查指令对应的检查作业集合。获得模块,用于基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率。执行模块,用于基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果。输出模块,用于输出所述定位结果。
可选地,所述执行模块包括第一执行子模块和更新子模块。第一执行子模块,用于执行所述多个节点中概率最大的节点对应的检查作业,获得检查结果。更新子模块,用于根据所述检查结果,更新所述概率图模型。
可选地,所述执行模块包括第一确定子模块、第二执行子模块以及第二更新子模块。第一确定子模块,用于基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点。第二执行子模块,用于执行所述第一节点对应的检查作业,获得检查结果。第二更新子模块,用于根据所述检查结果,更新所述概率图模型。
可选地,所述第一确定子模块用于从所述多个节点中确定单位时长能够定位异常的概率最大的第一节点或由多个节点组成的第一路径,其中,所述第一路径包括第一节点。
可选地,所述第一确定子模块用于在概率最大的节点的预测执行时长大于阈值的情况下,降低该节点的执行优先级,或者,在概率最大的节点的预测执行时长大于阈值的情况下,将多个节点中概率次大的节点确定为第一节点。
可选地,所述执行模块包括第二确定子模块、第三执行子模块以及第三更新子模块。第二确定子模块,用于基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径。第三执行子模块,用于执行所述第一路径中的全部节点对应的检查作业,获得检查结果。第三更新子模块,用于根据所述检查结果,更新所述概率图模型。
可选地,所述装置还包括确定模块和记录模块。确定模块,用于基于预设的数据或者历史记录,确定所述概率图模型中各个节点的概率。记录模块,用于在执行一个节点对应的检查作业获得该节点的检查结果之后,将该节点的检查结果加入所述历史记录。
本公开的另一个方面提供了一种电子设备,包括,至少一个处理器以及至少一个存储器,用于存储一个或多个计算机可读指令,其中,当所述一个或多个计算机可读指令被所述至少一个处理器执行时,使得所述处理器执行如上所述的方法。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1A和图1B示意性示出了根据本公开的实施例的资源检查的示例性场景;
图2示意性示出了根据本公开实施例的资源检查方法的流程图;
图3A~图3C示意性示出了根据本公开实施例的基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业的流程图;
图4示意性示出了根据本公开实施例的资源检查装置的框图;
图5A~图5C示意性示出了根据本公开实施例的执行模块的框图;
以及
图6示意性示出了根据本公开实施例的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个"这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本公开的实施例提供了一种资源检查方法,包括响应于检查指令,读取与所述检查指令对应的检查作业集合,基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率,基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果,输出所述定位结果。
图1A和图1B示意性示出了根据本公开的实施例的资源检查的示例性场景。
一个通常的检查流程可以由一个有向无环图表示。如图1A所示,该流程从节点A开始,执行节点A对应的检查操作后,可以确定是否定位到异常,如果没有发现异常,可以继续执行节点B,或者执行节点C,或者分别执行节点B和节点C。具体的选择可以根据节点A的检查操作得到的检查结果确定,也可以与节点的检查结果无关。以此类推,直至定位到异常或者流程结束,得到检查报告。
本公开实施例的方法可以不受标准工作流程的限制,由于多数检查作业之间无依赖关系,可以首先检查最可能定位异常的检查作业,使得能够尽早定位异常。如图1B所示,执行节点H对应的检查作业能够定位异常的概率达到50%,执行节点E对应的检查作业能够定位异常的概率达到30%,可以首先执行节点H和节点E,然后再执行其他节点对应的检查操作,如此可以使得定位到异常所需要的时间的期望值降低,可以尽早定位到异常。
图2示意性示出了根据本公开实施例的资源检查方法的流程图。
如图2所示,该方法包括操作S210~S240。
在操作S210,响应于检查指令,读取与所述检查指令对应的检查作业集合。根据本公开实施例,不同的检查指令可以对应不同的检查作业集合。例如,在高性能计算场景和客户端场景中,检查的操作以及相应的判断标准都会不同。例如,测试任务的同一处理速度在客户端场景中是正常的,在高性能计算场景中则有可能是异常的。
在操作S220,基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率。根据本公开实施例,该概率图模型可以是基于有向无环图的贝叶斯网络模型。其中,该节点检查的对象发生异常的概率可以是独立的概率,例如A节点检查的对象a出现异常的概率,该概率与其他节点无关。或者,该节点检查的对象发生的概率可以是基于全局确定的概率,即在假定系统中一定存在异常的条件下该异常发生在某一节点的概率,该概率与其他节点相关。例如,对象a发生异常的概率为10%,对象b发生异常的概率为5%,对象c发生异常的概率为15%,如果需要检查的对象为对象a和对象b,那么异常发生在对象a的概率为67%,异常发生在对象b的概率为33%,如果需要检查的对象为对象a和对象c,那么异常发生在对象a的概率为40%,那么异常发生在对象c的概率为60%。
根据本公开实施例,概率图模型中的各个节点的概率可以基于预设的数据或者历史记录确定。预设的数据可以是根据经验确定的节点的概率估计值。
在操作S230,基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果。
根据本公开实施例,可以按照各个节点的概率大小的顺序,依次执行多个节点对应的检查作业,在每个节点执行完毕之后,直接执行下一个节点的对应的检查作业,直至定位到异常。
下面结合图3A~图3C对本公开另一些实施例的操作S230进行说明。
图3A示意性示出了根据本公开实施例的基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业的流程图。
如图3A所示,该方法包括操作S311和S312。
在操作S311,执行所述多个节点中概率最大的节点对应的检查作业,获得检查结果。
在操作S312,根据所述检查结果,更新所述概率图模型。
根据本公开实施例,操作S311和S312可以循环执行,直至定位到异常。即,在每个节点对应的检查作业执行完毕后,还根据该节点的检查结果,更新所述概率图模型。其中,该概率是指上文所述基于全局的概率。在一个节点执行检查作业之后,概率图中的各个节点的概率根据获得的检查结果相应地发生改变。例如,在执行节点A的检查作业之前,节点B的概率为P(B),在执行节点A获得检查结果A1后,节点B的概率相应地被更新为P(B|A1)。可以根据更新后的概率确定下一步要执行的节点。
图3B示意性示出了根据本公开另一实施例的基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业的流程图。
如图3B所示,该方法包括操作S321~S323。
在操作S321,基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点。
根据本公开实施例,多个检查作业中的部分检查作业之间可能存在依赖关系,例如,检查作业M包括在设备中安装软件X,检查作业N的执行需要设备中存在软件X才能执行,此时,两个检查作业之间存在依赖关系,检查作业N必须在检查作业M之后执行。多数情况下,检查作业是无侵入性的,存在依赖关系的检查作业较少。
根据本公开实施例,还获得各个检查作业的预计执行时长,例如可以根据理论值对预计执行时长进行估计,或者通过历史记录确定各个检查作业的预计执行时长。获得检查作业集合中的各个检查作业的预计执行时长可以包括,获得历史记录,以及基于所述历史记录,确定所述检查作业集合中的各个检查作业的预计执行时长。
根据本公开实施例,操作S321可以在概率最大的节点的预测执行时长大于阈值的情况下,降低该节点的执行优先级,或者,在概率最大的节点的预测执行时长大于阈值的情况下,将多个节点中概率次大的节点确定为第一节点。例如,阈值可以设定为8小时,如果某节点的预测执行时长超过8小时,即使该节点的概率最大,也不会优先执行该节点对应的检查操作。
根据本公开实施例,操作S321可以包括从所述多个节点中确定单位时长能够定位异常的概率最大的第一节点或由多个节点组成的第一路径,其中,所述第一路径包括第一节点。
根据本公开实施例,可以确定各个节点的概率与预测执行时长的比值,确定该比值最大的节点为第一节点,优先执行该节点对应的检查操作。例如,A节点的概率为30%,A节点的预测执行时长为4小时,B节点的概率为20%,B节点的预测执行时长为2小时,可以确定A节点的概率与预测执行时长的比值为7.5%/小时,B节点的概率与预测执行时长的比值为10%/小时,可以确定B节点为第一节点。
根据本公开实施例,多个节点可以组成路径,多个节点组成的路径的概率可以被确定为该路径上各个节点的概率之和,该路径的预测执行时长可以被确定为该路径上各个节点的预测执行时长之和,因此,也可以确定该路径的概率与预测执行时长的比值,如果第一路径的比值较其他节点更大,可以优先执行该第一路径上的节点对应的作业。例如,具有依赖关系的节点A和节点B组成第一路径,其中,执行节点B可以更有利于尽早定位异常,但在执行节点B之前必须先执行节点A,即使节点A的概率与预测执行时长的比值不高,只要A和B组成的第一路径的比值是最高的,就可以优先执行节点A和节点B。
在操作S322,执行所述第一节点对应的检查作业,获得检查结果。
在操作S323,根据所述检查结果,更新所述概率图模型。该操作类似于上文所述的操作S312,此处不再重复。
图3C示意性示出了根据本公开又一实施例的基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业的流程图。
如图3C所示,该方法包括操作S331~S333。
在操作S331,基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径。
在操作S332,执行所述第一路径中的全部节点对应的检查作业,获得检查结果。
在操作S333,根据所述检查结果,更新所述概率图模型。
图3C所示意的实施例与图3B所示意的实施例的区别在于,在确定第一路径的情况下,图3C所示意的实施例在执行完第一路径中的全部节点对应的检查作业后才更新所述概率图模型,而图3B所示意的实施例在执行完第一路径中的第一节点后就更新所述概率图模型。
在以上图3A~图3C所示意的各个实施例中,在执行一个节点对应的检查作业获得该节点的检查结果之后,该方法还可以包括将该节点的检查结果加入所述历史记录,用于在之后确定节点的概率时作为参考数据。
返回参考图2。在操作S240,输出所述定位结果。根据本公开实施例,对于紧急异常的处理,可以在定位到一个异常后立即输出定位结果,以便第一时间解决异常,对于非紧急的异常,可以待检查完毕后一并输出。
本公开实施例的方法基于多个节点的概率的相对大小,按照顺序执行所述多个节点对应的作业,能够更早地定位异常。
基于同一发明构思,本公开还提供了一种资源检查装置,下面参照图4对本公开实施例的资源检查装置进行说明。
图4示意性示出了根据本公开实施例的资源检查装置400的框图。
如图4所示,该资源检查装置400包括读取模块410、获得模块420、执行模块430以及输出模块440。该装置400可以执行上面参考图2、图3A~图3C描述的方法。
读取模块410,例如执行上文参考图2所描述的操作S210,用于响应于检查指令,读取与所述检查指令对应的检查作业集合。
获得模块420,例如执行上文参考图2所描述的操作S220,用于基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率。
执行模块430,例如执行上文参考图2所描述的操作S230,用于基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果。
输出模块440,例如执行上文参考图2所描述的操作S240,用于输出所述定位结果。
图5A示意性示出了根据本公开实施例的执行模块510的框图。
如图5A所示,该执行模块510包括第一执行子模块511和更新子模块512。
第一执行子模块511,例如执行上文参考图3A所描述的操作S311,用于执行所述多个节点中概率最大的节点对应的检查作业,获得检查结果。
更新子模块512,例如执行上文参考图3A所描述的操作S312,用于根据所述检查结果,更新所述概率图模型。
图5B示意性示出了根据本公开实施例的执行模块520的框图。
如图5B所示,该执行模块520包括第一确定子模块521、第二执行子模块522以及第二更新子模块523。
第一确定子模块521,例如执行上文参考图3B所描述的操作S321,用于基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点。
第二执行子模块522,例如执行上文参考图3B所描述的操作S322,用于执行所述第一节点对应的检查作业,获得检查结果。
第二更新子模块523,例如执行上文参考图3B所描述的操作S323,用于根据所述检查结果,更新所述概率图模型。
根据本公开实施例,所述第一确定子模块521用于从所述多个节点中确定单位时长能够定位异常的概率最大的第一节点或由多个节点组成的第一路径,其中,所述第一路径包括第一节点。
根据本公开实施例,所述第一确定子模块521用于在概率最大的节点的预测执行时长大于阈值的情况下,降低该节点的执行优先级,或者,在概率最大的节点的预测执行时长大于阈值的情况下,将多个节点中概率次大的节点确定为第一节点。
图5C示意性示出了根据本公开实施例的执行模块530的框图。
如图5C所示,该执行模块530包括第二确定子模块531、第三执行子模块532以及第三更新子模块533。
第二确定子模块531,例如执行上文参考图3C所描述的操作S331,用于基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径。
第三执行子模块532,例如执行上文参考图3C所描述的操作S332,用于执行所述第一路径中的全部节点对应的检查作业,获得检查结果。
第三更新子模块533,例如执行上文参考图3C所描述的操作S333,用于根据所述检查结果,更新所述概率图模型。
根据本公开实施例,所述装置还可以包括确定模块和记录模块。确定模块,用于基于预设的数据或者历史记录,确定所述概率图模型中各个节点的概率。记录模块,用于在执行一个节点对应的检查作业获得该节点的检查结果之后,将该节点的检查结果加入所述历史记录。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,读取模块410、获得模块420、执行模块430、输出模块440、第一执行子模块511、更新子模块512、第一确定子模块521、第二执行子模块522、第二更新子模块523、第二确定子模块531、第三执行子模块532、第三更新子模块533、确定模块以及记录模块中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,读取模块410、获得模块420、执行模块430、输出模块440、第一执行子模块511、更新子模块512、第一确定子模块521、第二执行子模块522、第二更新子模块523、第二确定子模块531、第三执行子模块532、第三更新子模块533、确定模块以及记录模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,读取模块410、获得模块420、执行模块430、输出模块440、第一执行子模块511、更新子模块512、第一确定子模块521、第二执行子模块522、第二更新子模块523、第二确定子模块531、第三执行子模块532、第三更新子模块533、确定模块以及记录模块中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括处理器610和计算机可读存储介质620。该计算机系统600可以执行根据本公开实施例的方法。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
计算机可读存储介质620,例如可以是非易失性的计算机可读存储介质,具体示例包括但不限于:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;等等。
计算机可读存储介质620可以包括计算机程序621,该计算机程序621可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行根据本公开实施例的方法或其任何变形。
根据本发明的实施例,读取模块410、获得模块420、执行模块430、输出模块440、第一执行子模块511、更新子模块512、第一确定子模块521、第二执行子模块522、第二更新子模块523、第二确定子模块531、第三执行子模块532、第三更新子模块533、确定模块以及记录模块中的至少一个可以实现为参考图6描述的计算机程序模块,其在被处理器610执行时,可以实现上面描述的相应操作。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (5)

1.一种资源检查方法,包括:
响应于检查指令,读取与所述检查指令对应的检查作业集合;
基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率;
基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果;
输出所述定位结果;
其中,所述基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,包括:
基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点或者确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径;所述预测执行时长表示在节点完成检查作业的预计执行时间;
执行所述第一节点或所述第一路径中的全部节点对应的检查作业,获得检查结果;以及
根据所述检查结果,更新所述概率图模型。
2.根据权利要求1所述的方法,其中,所述从所述多个节点中确定第一节点包括:
从所述多个节点中确定单位时长能够定位异常的概率最大的第一节点或由多个节点组成的第一路径,其中,所述第一路径包括第一节点。
3.根据权利要求1所述的方法,其中,所述基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点包括:
若概率最大的节点的预测执行时长大于阈值,则降低该节点的执行优先级;或者
若概率最大的节点的预测执行时长大于阈值,则将多个节点中概率次大的节点确定为第一节点。
4.根据权利要求1-3任意一项所述的方法,还包括:
基于预设的数据或者历史记录,确定所述概率图模型中各个节点的概率;以及
在执行一个节点对应的检查作业获得该节点的检查结果之后,将该节点的检查结果加入所述历史记录。
5.一种资源检查装置,包括:
读取模块,用于响应于检查指令,读取与所述检查指令对应的检查作业集合;
获得模块,用于基于所述检查作业集合,获得基于检查作业的节点的概率图模型,其中,所述概率图模型的各个节点的概率指示了该节点检查的对象发生异常的概率;
执行模块,用于基于多个节点中各个节点的概率大小来顺序执行所述多个节点对应的检查作业,直至定位到异常,得到定位结果;
输出模块,用于输出所述定位结果;
其中,所述执行模块包括:
第一确定子模块,用于基于多个节点中各个节点的概率大小、节点之间的依赖关系以及各个节点的预测执行时长,从所述多个节点中确定第一节点或者确定单位时长能够定位异常的概率最大的由多个节点组成的第一路径;所述预测执行时长表示在节点完成检查作业的预计执行时间;
第二执行子模块,用于执行所述第一节点或所述第一路径中的全部节点对应的检查作业,获得检查结果;以及
第二更新子模块,用于根据所述检查结果,更新所述概率图模型。
CN201910427103.9A 2019-05-21 2019-05-21 资源检查方法和资源检查装置 Active CN110162423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910427103.9A CN110162423B (zh) 2019-05-21 2019-05-21 资源检查方法和资源检查装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910427103.9A CN110162423B (zh) 2019-05-21 2019-05-21 资源检查方法和资源检查装置

Publications (2)

Publication Number Publication Date
CN110162423A CN110162423A (zh) 2019-08-23
CN110162423B true CN110162423B (zh) 2021-04-13

Family

ID=67631961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910427103.9A Active CN110162423B (zh) 2019-05-21 2019-05-21 资源检查方法和资源检查装置

Country Status (1)

Country Link
CN (1) CN110162423B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410467B1 (ko) * 2020-03-09 2022-06-17 주식회사 케이티앤지 에어로졸 생성 장치 및 이를 제어하는 방법
CN111721808A (zh) * 2020-05-16 2020-09-29 北京城建中南土木工程集团有限公司 一种地下管网泄露位置确定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170648A (zh) * 2011-01-28 2011-08-31 北京浩阳华夏科技有限公司 无线传感器网络的被动诊断方法
CN104796273A (zh) * 2014-01-20 2015-07-22 中国移动通信集团山西有限公司 一种网络故障根源诊断的方法和装置
CN109728580A (zh) * 2019-03-06 2019-05-07 国网上海市电力公司 基于深度双向搜索法的配电网检修方式下可靠性评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262690B (zh) * 2011-06-07 2013-10-30 中国石油大学(北京) 一种混合故障预警模型的建模方法及建模系统
CN105656662B (zh) * 2014-12-08 2019-02-12 华为技术有限公司 一种故障定位方法及装置
US10776225B2 (en) * 2018-06-29 2020-09-15 Hewlett Packard Enterprise Development Lp Proactive cluster compute node migration at next checkpoint of cluster cluster upon predicted node failure
CN109344009B (zh) * 2018-10-11 2021-09-14 重庆邮电大学 基于分级检查点的移动云系统容错方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170648A (zh) * 2011-01-28 2011-08-31 北京浩阳华夏科技有限公司 无线传感器网络的被动诊断方法
CN104796273A (zh) * 2014-01-20 2015-07-22 中国移动通信集团山西有限公司 一种网络故障根源诊断的方法和装置
CN109728580A (zh) * 2019-03-06 2019-05-07 国网上海市电力公司 基于深度双向搜索法的配电网检修方式下可靠性评估方法

Also Published As

Publication number Publication date
CN110162423A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
US11249876B2 (en) System and method for predicting application performance for large data size on big data cluster
US20190294531A1 (en) Automated software deployment and testing based on code modification and test failure correlation
US20190294536A1 (en) Automated software deployment and testing based on code coverage correlation
US9514577B2 (en) Integrating economic considerations to develop a component replacement policy based on a cumulative wear-based indicator for a vehicular component
US9710258B2 (en) Identifying cause of incidents in the DevOps environment automatically
CN110162423B (zh) 资源检查方法和资源检查装置
JP7112544B2 (ja) 自動運転車両のテスト方法、装置、電子デバイス、媒体およびコンピュータプログラム
US11113183B2 (en) Automated device test triaging system and techniques
US10769866B2 (en) Generating estimates of failure risk for a vehicular component
CN110188023B (zh) 资源健康检查方法和资源健康检查装置
WO2019056720A1 (zh) 自动化测试用例管理方法、装置、设备及存储介质
US9621679B2 (en) Operation task managing apparatus and method
CN111199088A (zh) 复现场景数据的方法和装置
CN111198811A (zh) 一种页面自动化测试的方法、装置、电子设备及存储介质
US10169194B2 (en) Multi-thread sequencing
US20180074850A1 (en) Managing execution of computer operations with non-competing computer resource requirements
US20170351598A1 (en) Optimizations for regression tracking and triaging in software testing
US20200019286A1 (en) Disk utilization analysis
CN111367583A (zh) 业务加载的方法和装置、电子设备和介质
CN109976905B (zh) 内存管理方法、装置和电子设备
US9092333B2 (en) Fault isolation with abstracted objects
CN109614230B (zh) 资源虚拟化方法、装置和电子设备
CN110795304B (zh) 分布式存储系统性能测试的方法及装置
US20140040866A1 (en) Managing code instrumentation in a production computer program
CN116383021A (zh) 软件包性能的测试方法、系统、计算设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant