CN113064765B - 节点异常处理方法、装置、电子设备及机器可读存储介质 - Google Patents

节点异常处理方法、装置、电子设备及机器可读存储介质 Download PDF

Info

Publication number
CN113064765B
CN113064765B CN202110451704.0A CN202110451704A CN113064765B CN 113064765 B CN113064765 B CN 113064765B CN 202110451704 A CN202110451704 A CN 202110451704A CN 113064765 B CN113064765 B CN 113064765B
Authority
CN
China
Prior art keywords
node
abnormal
exception handling
preset
bypass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110451704.0A
Other languages
English (en)
Other versions
CN113064765A (zh
Inventor
陈鹏
唐政
高其涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202110451704.0A priority Critical patent/CN113064765B/zh
Publication of CN113064765A publication Critical patent/CN113064765A/zh
Application granted granted Critical
Publication of CN113064765B publication Critical patent/CN113064765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种节点异常处理方法、装置、电子设备及机器可读存储介质,根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。

Description

节点异常处理方法、装置、电子设备及机器可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种节点异常处理方法、装置、电子设备及机器可读存储介质。
背景技术
分布式系统是建立在计算机网络之上的软件系统,具有高度的内聚性和透明性。分布式系统由多个工作单元组成,通常将分布式系统中的工作单元称为节点,其具体形式可以是软件子模块、线程或进程、子任务执行设备等。分布式系统的各节点分别执行一部分子任务,通过各节点之间的协同工作,可实现复杂的任务执行要求。如果一个节点出现异常,势必会影响整个分布式系统的任务执行。
为了应对节点异常的问题,当前的方案中,对分布式系统中各节点的服务状态进行监测,如果监测到异常状态,则会对异常的节点进行重启操作,如果进行重启操作后该节点仍未恢复至正常状态,则会对整个分布式系统进行重启操作。
上述节点异常处理方法中,一旦监测到某一节点出现异常,就会对其进行重启操作,然而在实际场景中,节点在短暂异常后可能会自行恢复正常状态,无需对其进行强制重启操作。如果一出现异常就强制进行重启操作,重启操作触发过于敏感,会导致任务反复重新执行,严重消耗分布式系统的资源。
发明内容
本申请实施例的目的在于提供一种节点异常处理方法、装置、电子设备及机器可读存储介质,以避免过于敏感的重启操作导致严重消耗分布式系统的资源。具体技术方案如下:
第一方面,本申请实施例提供了一种节点异常处理方法,该方法包括:
获取节点的工作状态统计信息及当前灵敏度;其中,工作状态统计信息为:对当前时刻以前的预设时段内该节点的各种工作状态统计得到;当前灵敏度表征当前时刻触发对该节点进行主异常处理的几率,主异常处理包括重启操作和/或旁路操作;
根据工作状态统计信息及当前灵敏度,计算该节点的异常值,其中,异常值表征该节点的异常程度;
确定异常值所属的第一阈值范围;
根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对节点进行所述第一异常处理。
可选的,获取节点的当前灵敏度的步骤,包括:
获取初始灵敏度、预设灵敏度系数,以及预设时段内对该节点进行主异常处理的总次数;
根据初始灵敏度、预设灵敏度系数及总次数,计算该节点的当前灵敏度,其中,当前灵敏度与总次数反相关。
可选的,工作状态统计信息包括预设时段内对该节点的各种工作状态的统计次数;
根据工作状态统计信息及当前灵敏度,计算该节点的异常值的步骤,包括:
根据各种工作状态的统计次数及针对各种工作状态预先设置的权重,对各种工作状态的统计次数进行加权运算,得到工作状态加权结果;
计算当前灵敏度与工作状态加权结果的乘积,得到该节点的异常值。
可选的,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理的步骤,包括:
若异常值大于主异常处理阈值,则对该节点进行主异常处理,并记录主异常处理事件;
若异常值大于第二异常处理阈值、且小于或等于主异常处理阈值,则对该节点进行第二异常处理,其中,第二异常处理为启动旁路节点操作。
可选的,该方法还包括:
若异常值小于第三异常处理阈值,则对该节点进行第三异常处理,其中,第三异常处理阈值小于第二异常处理阈值,第三异常处理为销毁已启动的旁路节点操作。
可选的,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理的步骤,包括:
若异常值大于第一预设阈值,则对该节点进行重启操作,其中,大于第一预设阈值的阈值范围与重启操作的异常处理相对应;
若异常值大于第二预设阈值、且小于或等于第一预设阈值,则对该节点进行旁路操作,其中,大于第二预设阈值、且小于或等于第一预设阈值的阈值范围与旁路操作的异常处理相对应;
若异常值大于第三预设阈值、且小于或等于第二预设阈值,则在该节点无旁路节点的情况下,对该节点进行生成旁路节点操作,其中,大于第三预设阈值、且小于或等于第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应;
若异常值小于第四预设阈值,则在该节点已有旁路节点的情况下,对节点进行释放旁路节点操作,其中,第四预设阈值小于第三预设阈值,小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应。
可选的,对节点进行生成旁路节点操作的步骤,包括:
根据该节点所执行的任务,从预设资源池中获取该任务所需的资源;
利用所获取的资源,生成该节点的旁路节点。
第二方面,本申请实施例提供了一种节点异常处理装置,该装置包括:
获取模块,用于获取节点的工作状态统计信息及当前灵敏度;其中,工作状态统计信息为:对当前时刻以前的预设时段内该节点的各种工作状态统计得到;当前灵敏度表征当前时刻触发对该节点进行主异常处理的几率,主异常处理包括重启操作和/或旁路操作;
计算模块,用于根据工作状态统计信息及当前灵敏度,计算该节点的异常值,其中,异常值表征该节点的异常程度;
确定模块,用于确定异常值所属的第一阈值范围;
处理模块,用于根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对节点进行所述第一异常处理。
可选的,获取模块,具体用于获取初始灵敏度、预设灵敏度系数,以及预设时段内对该节点进行主异常处理的总次数;根据初始灵敏度、预设灵敏度系数及总次数,计算该节点的当前灵敏度,其中,当前灵敏度与总次数反相关。
可选的,工作状态统计信息包括预设时段内对该节点的各种工作状态的统计次数;
计算模块,具体用于根据各种工作状态的统计次数及针对各种工作状态预先设置的权重,对各种工作状态的统计次数进行加权运算,得到工作状态加权结果;计算当前灵敏度与工作状态加权结果的乘积,得到该节点的异常值。
可选的,处理模块,具体用于若异常值大于主异常处理阈值,则对该节点进行主异常处理,并记录主异常处理事件;若异常值大于第二异常处理阈值、且小于或等于主异常处理阈值,则对该节点进行第二异常处理,其中,第二异常处理为启动旁路节点操作。
可选的,处理模块,还用于若异常值小于第三异常处理阈值,则对该节点进行第三异常处理,其中,第三异常处理阈值小于第二异常处理阈值,第三异常处理为销毁已启动的旁路节点操作。
可选的,处理模块,具体用于若异常值大于第一预设阈值,则对该节点进行重启操作,其中,大于第一预设阈值的阈值范围与重启操作的异常处理相对应;若异常值大于第二预设阈值、且小于或等于第一预设阈值,则对该节点进行旁路操作,其中,大于第二预设阈值、且小于或等于第一预设阈值的阈值范围与旁路操作的异常处理相对应;若异常值大于第三预设阈值、且小于或等于第二预设阈值,则在该节点无旁路节点的情况下,对该节点进行生成旁路节点操作,其中,大于第三预设阈值、且小于或等于第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应;若异常值小于第四预设阈值,则在该节点已有旁路节点的情况下,对节点进行释放旁路节点操作,其中,第四预设阈值小于第三预设阈值,小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应。
可选的,处理模块,具体用于根据该节点所执行的任务,从预设资源池中获取该任务所需的资源;利用所获取的资源,生成该节点的旁路节点。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,实现本申请实施例第一方面所提供的方法。
第四方面,本申请实施例提供了一种机器可读存储介质,机器可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本申请实施例第一方面所提供的方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本申请实施例第一方面所提供的方法。
本申请实施例提供的一种节点异常处理方法、装置、电子设备及机器可读存储介质,获取节点的工作状态统计信息及当前灵敏度,根据工作状态统计信息及当前灵敏度,计算该节点的异常值,确定异常值所属的第一阈值范围,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。其中,工作状态统计信息为对当前时刻以前的预设时段内该节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内该节点的工作状态变化,当前灵敏度表征了当前时刻触发对该节点进行重启操作和/或旁路操作的几率,则根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本申请一实施例的节点异常处理方法的流程示意图;
图2为本申请实施例的计算异常值的流程示意图;
图3为本申请实施例的异常处理判断的流程示意图;
图4为本申请实施例的主异常处理的流程示意图;
图5为本申请实施例的第二异常处理的流程示意图;
图6为本申请另一实施例的节点异常处理方法的流程示意图;
图7为本申请实施例的节点根据异常值触发异常操作的流程示意图;
图8为本申请实施例的旁路操作的流程示意图;
图9为本申请实施例的生成旁路节点操作的流程示意图;
图10为本申请实施例的节点异常处理装置的结构示意图;
图11为本申请实施例的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
为了避免过于敏感的重启操作导致严重消耗分布式系统的资源,本申请实施例提供了一种节点异常处理方法、装置、电子设备及机器可读存储介质。
本申请实施例中的术语解释如下:
节点:软件系统中的一个工作单元,具体形式可以是一个软件子模块、一个线程或进程,或一个子任务执行设备等。
旁路节点和旁路操作:某个节点的旁路节点可以理解为备用节点,在当前节点异常时,旁路节点可进行替代性工作;旁路操作可理解为当前节点执行的子任务调度至旁路节点执行。
异常值:表征节点的异常程度,用于衡量一个节点的工作状态。
灵敏度:异常状态计数到异常值的换算系数,表征了触发对一个节点进行主异常处理的几率。
重启操作:重新加载某个节点,可以是重新创建线程、进程,也可以是重新初始化某个模块,也可以是断电重启某个设备。
主异常处理:主异常处理为那些被选定为对灵敏度计算有影响的异常处理,可以由多种,比如重启操作、旁路操作都可以被选择为主异常处理,也可以仅选择重启操作作为主异常处理,也可不局限于重启操作和旁路操作。
下面,首先对本申请实施例所提供的节点异常处理方法进行介绍。
本申请实施例所提供的节点异常处理方法的执行主体为至少具有逻辑运算能力的电子设备,例如分布式系统中的管理节点,该电子设备中至少包括核心处理芯片。本申请实施例所提供的节点异常处理方法可以被设置于上述电子设备中的软件、硬件电路和逻辑电路中的至少一种执行实现。
如图1所示,本申请实施例所提供的一种节点异常处理方法,可以包括如下步骤。
S101,获取节点的工作状态统计信息及当前灵敏度。
其中,工作状态统计信息为:对当前时刻以前的预设时段内该节点的各种工作状态统计得到;当前灵敏度表征当前时刻触发对该节点进行主异常处理的几率,主异常处理包括重启操作和/或旁路操作。
S102,根据工作状态统计信息及当前灵敏度,计算该节点的异常值。
其中,异常值表征节点的异常程度。
S103,确定异常值所属的第一阈值范围。
S104,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。
应用本申请实施例,获取节点的工作状态统计信息及当前灵敏度,根据工作状态统计信息及当前灵敏度,计算该节点的异常值,确定异常值所属的第一阈值范围,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。其中,工作状态统计信息为对当前时刻以前的预设时段内该节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内该节点的工作状态变化,当前灵敏度表征了当前时刻触发对该节点进行重启操作和/或旁路操作的几率,则根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。
电子设备以一定周期查询(包括但不限于轮询、随机选择查询、分批次查询等)分布式系统内部的各个节点,并对每个节点进行异常处理,对每个节点的异常处理可以是相互独立的。
针对分布式系统内的每个节点,均可以一定周期执行如图1所示的节点异常处理方法。首先获取某个节点的工作状态统计信息及当前灵敏度,工作状态统计信息是对当前时刻以前的预设时段内节点的各种工作状态统计得到,当前灵敏度表征当前时刻触发对节点进行主异常处理的几率,主异常处理包括重启操作和/或旁路操作。
工作状态统计信息可以是哪个时刻节点具体是哪种工作状态的统计消息,也可以是当前时刻以前的预设时段内对节点的各种工作状态的统计次数,例如,在当前时刻以前的预设时段内,每个周期获取到节点的当前工作状态,判断当前工作状态是否为OK(正常)、NOR(未工作)、WARN(报警)或者ERR(异常),并对相应的工作状态统计次数累加1。
灵敏度是指异常状态计数到异常值的换算系数,用于表征触发对节点进行主异常处理的几率,一个节点的灵敏度取值越高,则越有可能对该节点进行主异常处理。节点的当前灵敏度可以是人为根据实际的需求预先设置的,也可以电子设备是对预设时段内对节点进行过的历史异常处理进行分析得到。
在本申请实施例的一种实现方式中,获取节点的当前灵敏度的步骤,具体可以为:获取初始灵敏度、预设灵敏度系数,以及当前时刻以前的预设时段内对该节点进行主异常处理的总次数;根据初始灵敏度、预设灵敏度系数及总次数,计算该节点的当前灵敏度,其中,当前灵敏度与总次数反相关。
针对每个节点可以设置初始灵敏度,每个节点可以有相同的初始灵敏度,也可以有不同的初始灵敏度,预设灵敏度系数是预先分配的主异常处理权重系数,一般情况下针对一个节点,预设灵敏度是固定的,当然,预设灵敏度也可以是动态设置的,这里不做具体限定。在当前时刻以前的预设时段内,每对节点进行一个主异常处理,就会累计一次处理次数,在计算当前灵敏度时,可以获取到当前时刻以前的预设时段内对节点进行主异常处理的总次数,由于预设时段是固定的,则随着时间的推移,获取到的总次数会动态的变化。
具体可以采用公式(1)计算节点的当前灵敏度。
S=MAX(0,S0-S1*FAULT_CNT) (1)
其中,S为节点的当前灵敏度,S0为初始灵敏度,S1为预设灵敏度系数,FAULT_CNT为当前时刻以前的预设时段内对节点进行主异常处理的总次数。可见,S的取值范围为[0,S0],当前灵敏度S与总次数FAULT_CNT反相关,也就是说FAULT_CNT越大,即当前时刻以前的预设时段内对节点进行主异常处理的次数越多,则当前灵敏度S越低。
如上述,工作状态统计信息是对当前时刻以前的预设时段内节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内节点的工作状态变化,异常状态出现的次数越多,说明节点的异常程度越严重。当前灵敏度表征了当前时刻触发对节点进行主异常处理的几率,当前灵敏度越高,说明越可能对该节点进行主异常处理。因此,综合工作状态统计信息和当前灵敏度,可以计算出用于表征节点的异常程度的异常值。
在本申请实施例的一种实现方式中,工作状态统计信息包括当前时刻以前的预设时段内对该节点的各种工作状态的统计次数。相应的,S102具体可以为:根据各种工作状态的统计次数及针对各种工作状态预先设置的权重,对各种工作状态的统计次数进行加权运算,得到工作状态加权结果;计算当前灵敏度与工作状态加权结果的乘积,得到该节点的异常值。
计算异常值的流程如图2所示,电子设备每个周期获取节点的当前工作状态,判断节点的工作状态是OK(正常)状态、NOR(未工作)状态、WARN(报警)状态或者ERR(异常)状态,并将相应的的统计次数累加1,经过对当前时刻以前的预设时段内节点的各种工作状态出现的次数进行统计,得到OK状态统计次数OK_CNT、NOR状态统计次数NOR_CNT、WARN状态统计次数WARN_CNT、ERR状态统计次数ERR_CNT。针对各种工作状态预先设置有权重,例如针对OK状态预先设置有权重QOK,针对NOR状态预先设置有权重QNOR,针对WARN状态预先设置有权重QWARN,针对ERR状态预先设置有权重QERR,则可以利用公式(2)计算节点的异常值。
FAULT=S*(QOK*OK_CNT+QNOR*NOR_CNT+QWARN*WARN_CNT+QERR*ERR_CNT) (2)
其中,FAULT为节点的异常值,S为节点的当前灵敏度。权重QOK、QNOR、QWARN、QERR分别可以取值为-1、0、1、2。当然,以上四种工作状态仅仅为举例说明,即节点的工作状态不局限于上述四种,随着工作状态种类的增加或减少,公式(2)右边累加的子项也相应增加或减少。
由于异常值表征了节点的异常程度,则根据异常值的大小可以选择对节点进行不同的异常处理,异常值越大,说明节点的异常程度越严重,越应该执行更为严苛的异常处理,例如直接对节点进行重启操作、旁路操作等。因此,在计算出节点的异常值之后,应当判断异常值处于哪个异常处理所对应的阈值范围,从而进行相应的异常处理。即首先确定出异常值所属的第一阈值范围,然后根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。
在本申请实施例的一种实现方式中,S104具体可以通过如下步骤实现:
若节点的异常值大于主异常处理阈值,则对该节点进行主异常处理,并记录主异常处理事件;
若异常值大于第二异常处理阈值、且小于或等于主异常处理阈值,则对该节点进行第二异常处理,其中,第二异常处理为启动旁路节点操作。
如图3所示,在计算得到节点的异常值后,先判断异常值是否大于主异常处理阈值X1,大于则对该节点进行主异常处理并记录主异常处理事件以用于统计上述当前时刻以前的预设时段内对节点进行主异常处理的总次数,否则判断异常值是否大于第二异常处理阈值X2(X1>X2),大于则对该节点进行第二异常处理,否则不进行异常处理。
主异常处理和第二异常处理根据异常值的大小进行触发,如图4所示,主异常处理的过程为:先判断旁路节点是否未启动,如果是则启动旁路节点,再进行旁路操作,最后销毁源节点(若分布式系统资源充足,也可以选择直接重启源节点待命);如图5所示,第二异常处理的过程为:判断旁路节点是否未启动,如果是则启动旁路节点待命。对于不存在旁路节点的情况,主异常处理可以为直接重启当前节点。
当然,本申请实施例中的异常处理不仅限于上述的主异常处理和第二异常处理,实际异常处理可以有更多种,根据异常值的大小进行各类异常处理的触发。在本申请实施例的一种实现方式中,该方法还可以包括如下步骤:
若异常值小于第三异常处理阈值,则对该节点进行第三异常处理,其中,第三异常处理阈值小于第二异常处理阈值,第三异常处理为销毁已启动的旁路节点操作。
当异常值低于第三异常处理阈值X3(X3小于X2)时,进行第三异常处理:销毁已启动的旁路节点,节省分布式系统整体资源。当然,还可以设置一个非常小的阈值,如果异常值小于该阈值,则不对节点进行异常处理。
本申请实施例采用异常值属不同阈值范围,对应进行不同异常处理的方式,所触发的异常处理更为精准,根据当前时刻以前的预设时段内的节点状况更能反应真实的节点状况,所触发的异常处理也更适合,能够带来更高的价值。
本申请实施例中根据异常值的大小设置多级异常处理操作,如第二异常处理(启动旁路节点)、第三异常处理(销毁旁路节点)的引入使得分布式系统在合适的时机(当前节点工作状态变差,但不是最差的时候)启动旁路节点,为即将可能到来的主异常处理做好准备,此处的第二、第三异常处理能够保证旁路节点仅在当前节点状态变差时才开始占用分布式系统资源,并且在节点状态变好时销毁旁路节点,更利于节省分布式系统的整体资源消耗。
综上所述,针对某个节点,以一定周期执行图6所示的流程,首先获取某个节点的当前工作状态,用于统计该节点的各种工作状态的统计次数,然后计算该节点的当前灵敏度,具体的计算方式见公式(1),随后根据当前灵敏度和该节点的各种工作状态的统计次数,计算该节点的异常值,具体的计算方式见公式(2),最后根据异常值的大小进行判断是否触发对该节点的异常处理,是则对该节点进行异常处理,并且若为主异常处理则需记录主异常处理事件。
通过本申请实施例,可以看出,如果节点出现异常的情况较少,并不会立马对其进行重启操作、旁路操作等更为严苛的主异常处理,给节点预留出了自恢复的机会,能够避免节点重启过于敏感而过多消耗分布式系统的资源。并且,由于随着时间的推移,获取到的当前时刻以前的预设时段内对节点进行主异常处理的总次数是会动态的变化,即如果此前对节点进行过多次主异常处理,而近期进行主异常处理的次数明显减少,则获取到的总次数会减少,相应的,计算得到当前灵敏度会增大,因此,根据工作状态统计信息和当前灵敏度计算得到的节点的异常值可能会增大,则有可能再次对节点进行主异常处理,这样可以避免节点被永久放弃。针对不同的节点,初始灵敏度、预设灵敏度系数以及阈值范围都可以设置为不同,如更为重要的节点可以优先保证更容易被触发主异常处理。
在本申请实施例的一种实现方式中,S104具体可以通过如下步骤实现:
若节点的异常值大于第一预设阈值,则对该节点进行重启操作,其中,大于第一预设阈值的阈值范围与重启操作的异常处理相对应;
若异常值大于第二预设阈值、且小于或等于第一预设阈值,则对该节点进行旁路操作,其中,大于第二预设阈值、且小于或等于第一预设阈值的阈值范围与旁路操作的异常处理相对应;
若异常值大于第三预设阈值、且小于或等于第二预设阈值,则在该节点无旁路节点的情况下,对该节点进行生成旁路节点操作,其中,大于第三预设阈值、且小于或等于第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应;
若异常值小于第四预设阈值,则在该节点已有旁路节点的情况下,对该节点进行释放旁路节点操作,其中,第四预设阈值小于第三预设阈值,小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应。
在具体实施时,异常处理可以包括重启操作、旁路操作、生成旁路节点操作和释放旁路节点操作,其中重启操作和旁路操作为主异常处理。相应的,阈值范围包括:大于第一预设阈值的阈值范围,大于第二预设阈值、且小于或等于第一预设阈值的阈值范围,大于第三预设阈值、且小于或等于第二预设阈值的阈值范围,小于第四预设阈值的阈值范围;其中,第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值的大小关系为:第一预设阈值>第二预设阈值>第三预设阈值>第四预设阈值。
节点根据异常值触发异常操作的流程如图7所示,大于第一预设阈值的阈值范围与重启操作的异常处理相对应,则当节点的异常值大于第一预设阈值时,对该节点进行重启操作;大于第二预设阈值、且小于或等于第一预设阈值的阈值范围与旁路操作的异常处理相对应,则当节点异常值大于第二预设阈值、且小于或等于第一预设阈值时,对该节点进行旁路操作;大于第三预设阈值、且小于或等于第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应,则当节点的异常值大于第三预设阈值、且小于或等于第二预设阈值时,先检查该节点是否已有旁路节点或旁路节点处于创建过程中,若否,则对该节点进行生成旁路节点操作;小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应,则当节点的异常值小于第四预设阈值时,先检查该节点是否已有旁路节点或旁路节点处于创建过程中,若是,则对该节点进行释放旁路节点操作。
在本申请实施例的一种实现方式中,对节点进行旁路操作的步骤,具体可以为:将该节点执行的任务调度至已生成的旁路节点,并释放该节点的资源。
具体的旁路操作过程如图8所示,首先检查已生成的该节点的旁路节点是否就绪,具体的检查方式可以是,向旁路节点发送探测消息,如果旁路节点回复反馈消息,则说明旁路节点已就绪,则切换至旁路节点,具体切换的过程,就是将源节点上执行的任务调度至旁路节点,由旁路节点执行该任务,并释放源节点的资源,具体释放源节点资源的方式可以是在资源池中增加源节点的资源,例如源节点的存储资源、CPU资源等。
在本申请实施例的一种实现方式中,对节点进行生成旁路节点操作的步骤,具体可以为:根据该节点所执行的任务,从预设资源池中获取该任务所需的资源;利用获取到的资源,生成该节点的旁路节点。
具体的生成旁路节点操作的过程如图9所示,在拥有M个节点的分布式系统中,存在一个可创建N个旁路节点的资源池(N一般小于M),在需要生成旁路节点时,首先从资源池获取所需的资源,具体是根据源节点执行的任务,从资源池中获取该任务所需的资源,如果获取成功,则利用所获取的资源生成旁路节点;如果获取失败,则查找分布式系统中已经就绪的旁路节点,若查找到,则对源节点进行旁路操作。当然,在一种优选的方式下,可以多个节点共用旁路节点,如果查找到已就绪的旁路节点,可以对异常值最高的节点优先进行旁路操作。
本申请实施例中,使用较少的资源(如只需N个节点资源),为所有(M个节点)动态分配旁路节点,以便在节点工作状态变差时,及时进行旁路操作,切换到新创建的旁路节点上执行任务。在现有的技术方案中,一般是提前创建好旁路节点,并且令旁路节点一直处于待命状态,这会造成大量的资源浪费,而在本申请实施例中,只有在异常值大于第三预设阈值、且小于或等于第二预设阈值,并且在节点无旁路节点的情况下,才创建旁路节点。也就是说节点在异常值大于第三预设阈值、且小于或等于第二预设阈值这样的“亚健康”状态时,进行旁路节点的创建,随后,节点在异常值大于第二预设阈值、且小于或等于第一预设阈值这样的“病态”状态时,直接对该节点进行旁路操作。因此,在节省资源的前提下,能够实现快速的节点切换,有效保障系统的不间断运行。
基于上述方法实施例,本申请实施例提供了一种节点异常处理装置,如图10所示,该装置可以包括:
获取模块1010,用于获取节点的工作状态统计信息及当前灵敏度;其中,工作状态统计信息为:对当前时刻以前的预设时段内该节点的各种工作状态统计得到;当前灵敏度表征当前时刻触发对该节点进行主异常处理的几率,主异常处理包括重启操作和/或旁路操作;
计算模块1020,用于根据工作状态统计信息及当前灵敏度,计算该节点的异常值,其中,异常值表征该节点的异常程度;
确定模块1030,用于确定异常值所属的第一阈值范围;
处理模块1040,用于根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对节点进行所述第一异常处理。
可选的,获取模块1010,具体可以用于获取初始灵敏度、预设灵敏度系数,以及预设时段内对该节点进行主异常处理的总次数;根据初始灵敏度、预设灵敏度系数及总次数,计算该节点的当前灵敏度,其中,当前灵敏度与总次数反相关。
可选的,工作状态统计信息包括预设时段内对该节点的各种工作状态的统计次数;
计算模块1020,具体可以用于根据各种工作状态的统计次数及针对各种工作状态预先设置的权重,对各种工作状态的统计次数进行加权运算,得到工作状态加权结果;计算当前灵敏度与工作状态加权结果的乘积,得到该节点的异常值。
可选的,处理模块1040,具体可以用于若异常值大于主异常处理阈值,则对该节点进行主异常处理,并记录主异常处理事件;若异常值大于第二异常处理阈值、且小于或等于主异常处理阈值,则对该节点进行第二异常处理,其中,第二异常处理为启动旁路节点操作。
可选的,处理模块1040,还可以用于若异常值小于第三异常处理阈值,则对该节点进行第三异常处理,其中,第三异常处理阈值小于第二异常处理阈值,第三异常处理为销毁已启动的旁路节点操作。
可选的,处理模块1040,具体可以用于若异常值大于第一预设阈值,则对该节点进行重启操作,其中,大于第一预设阈值的阈值范围与重启操作的异常处理相对应;若异常值大于第二预设阈值、且小于或等于第一预设阈值,则对该节点进行旁路操作,其中,大于第二预设阈值、且小于或等于第一预设阈值的阈值范围与旁路操作的异常处理相对应;若异常值大于第三预设阈值、且小于或等于第二预设阈值,则在该节点无旁路节点的情况下,对该节点进行生成旁路节点操作,其中,大于第三预设阈值、且小于或等于第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应;若异常值小于第四预设阈值,则在该节点已有旁路节点的情况下,对节点进行释放旁路节点操作,其中,第四预设阈值小于第三预设阈值,小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应。
可选的,处理模块1040,具体可以用于根据该节点所执行的任务,从预设资源池中获取该任务所需的资源;利用所获取的资源,生成该节点的旁路节点。
应用本申请实施例,获取节点的工作状态统计信息及当前灵敏度,根据工作状态统计信息及当前灵敏度,计算该节点的异常值,确定异常值所属的第一阈值范围,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。其中,工作状态统计信息为对当前时刻以前的预设时段内该节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内该节点的工作状态变化,当前灵敏度表征了当前时刻触发对该节点进行重启操作和/或旁路操作的几率,则根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。
本申请实施例提供了一种电子设备,如图11所示,包括处理器1101和存储器1102,其中,存储器1102,用于存放计算机程序;处理器1101,用于执行存储器上所存放的计算机程序时,实现上述节点异常处理方法。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离上述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理单元)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本实施例中,上述处理器通过读取存储器中存储的计算机程序,并通过运行计算机程序,能够实现:获取节点的工作状态统计信息及当前灵敏度,根据工作状态统计信息及当前灵敏度,计算该节点的异常值,确定异常值所属的第一阈值范围,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。其中,工作状态统计信息为对当前时刻以前的预设时段内该节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内该节点的工作状态变化,当前灵敏度表征了当前时刻触发对该节点进行重启操作和/或旁路操作的几率,则根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。
另外,本申请实施例提供了一种机器可读存储介质,机器可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述节点异常处理方法。
本实施例中,计算机可读存储介质存储有在运行时执行本申请实施例所提供的节点异常处理方法的计算机程序,因此能够实现:获取节点的工作状态统计信息及当前灵敏度,根据工作状态统计信息及当前灵敏度,计算该节点的异常值,确定异常值所属的第一阈值范围,根据第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定第一阈值范围对应的第一异常处理,并对该节点进行第一异常处理。其中,工作状态统计信息为对当前时刻以前的预设时段内该节点的各种工作状态统计得到,反映了当前时刻以前的预设时段内该节点的工作状态变化,当前灵敏度表征了当前时刻触发对该节点进行重启操作和/或旁路操作的几率,则根据工作状态统计信息和当前灵敏度计算得到的异常值能够准确表示出该节点的异常程度,节点在不同异常程度下可进行不同的异常处理,预先设置有表示异常程度的各阈值范围与异常处理的对应关系,则根据异常值所属的第一阈值范围,可以确定出其对应的第一异常处理,然后针对性的对该节点进行第一异常处理,避免了一出现节点异常就强制进行重启操作,从而能够有效降低分布式系统的资源消耗。
本申请实施例提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述节点异常处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD(DigitalVersatile Disc,数字多功能光盘))、或者半导体介质(例如SSD(Solid State Disk,固态硬盘))等。
对于节点异常处理装置、电子设备、机器可读存储介质及计算机程序产品实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于节点异常处理装置、电子设备、机器可读存储介质及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种节点异常处理方法,其特征在于,所述方法包括:
获取节点的工作状态统计信息及当前灵敏度;其中,所述工作状态统计信息为:对当前时刻以前的预设时段内所述节点的各种工作状态统计得到;所述当前灵敏度表征当前时刻触发对所述节点进行主异常处理的几率,所述主异常处理包括重启操作和/或旁路操作;
根据所述工作状态统计信息及所述当前灵敏度,计算所述节点的异常值,所述异常值表征所述节点的异常程度;
确定所述异常值所属的第一阈值范围;
根据所述第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定所述第一阈值范围对应的第一异常处理,并对所述节点进行所述第一异常处理。
2.根据权利要求1所述的方法,其特征在于,所述获取节点的当前灵敏度的步骤,包括:
获取初始灵敏度、预设灵敏度系数,以及所述预设时段内对所述节点进行主异常处理的总次数;
根据所述初始灵敏度、所述预设灵敏度系数及所述总次数,计算所述节点的当前灵敏度,其中,所述当前灵敏度与所述总次数反相关。
3.根据权利要求1所述的方法,其特征在于,所述工作状态统计信息包括所述预设时段内对所述节点的各种工作状态的统计次数;
所述根据所述工作状态统计信息及所述当前灵敏度,计算所述节点的异常值的步骤,包括:
根据所述各种工作状态的统计次数及针对所述各种工作状态预先设置的权重,对所述各种工作状态的统计次数进行加权运算,得到工作状态加权结果;
计算所述当前灵敏度与所述工作状态加权结果的乘积,得到所述节点的异常值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定所述第一阈值范围对应的第一异常处理,并对所述节点进行所述第一异常处理的步骤,包括:
若所述异常值大于主异常处理阈值,则对所述节点进行主异常处理,并记录主异常处理事件;
若所述异常值大于第二异常处理阈值、且小于或等于所述主异常处理阈值,则对所述节点进行第二异常处理,其中,所述第二异常处理为启动旁路节点操作。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述异常值小于第三异常处理阈值,则对所述节点进行第三异常处理,其中,所述第三异常处理阈值小于所述第二异常处理阈值,所述第三异常处理为销毁已启动的旁路节点操作。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定所述第一阈值范围对应的第一异常处理,并对所述节点进行所述第一异常处理的步骤,包括:
若所述异常值大于第一预设阈值,则对所述节点进行重启操作,其中,所述大于第一预设阈值的阈值范围与重启操作的异常处理相对应;
若所述异常值大于第二预设阈值、且小于或等于所述第一预设阈值,则对所述节点进行旁路操作,其中,所述大于第二预设阈值、且小于或等于所述第一预设阈值的阈值范围与旁路操作的异常处理相对应;
若所述异常值大于第三预设阈值、且小于或等于所述第二预设阈值,则在所述节点无旁路节点的情况下,对所述节点进行生成旁路节点操作,其中,所述大于第三预设阈值、且小于或等于所述第二预设阈值的阈值范围与生成旁路节点操作的异常处理相对应;
若所述异常值小于第四预设阈值,则在所述节点已有旁路节点的情况下,对所述节点进行释放旁路节点操作,其中,所述第四预设阈值小于所述第三预设阈值,所述小于第四预设阈值的阈值范围与释放旁路节点操作的异常处理相对应。
7.根据权利要求6所述的方法,其特征在于,所述对所述节点进行生成旁路节点操作的步骤,包括:
根据所述节点所执行的任务,从预设资源池中获取所述任务所需的资源;
利用所述资源,生成所述节点的旁路节点。
8.一种节点异常处理装置,其特征在于,所述装置包括:
获取模块,用于获取节点的工作状态统计信息及当前灵敏度;其中,所述工作状态统计信息为:对当前时刻以前的预设时段内所述节点的各种工作状态统计得到;所述当前灵敏度表征当前时刻触发对所述节点进行主异常处理的几率,所述主异常处理包括重启操作和/或旁路操作;
计算模块,用于根据所述工作状态统计信息及所述当前灵敏度,计算所述节点的异常值,所述异常值表征所述节点的异常程度;
确定模块,用于确定所述异常值所属的第一阈值范围;
处理模块,用于根据所述第一阈值范围以及预先设置的各阈值范围与异常处理的对应关系,确定所述第一阈值范围对应的第一异常处理,并对所述节点进行所述第一异常处理。
9.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-7任一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN202110451704.0A 2021-04-26 2021-04-26 节点异常处理方法、装置、电子设备及机器可读存储介质 Active CN113064765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451704.0A CN113064765B (zh) 2021-04-26 2021-04-26 节点异常处理方法、装置、电子设备及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451704.0A CN113064765B (zh) 2021-04-26 2021-04-26 节点异常处理方法、装置、电子设备及机器可读存储介质

Publications (2)

Publication Number Publication Date
CN113064765A CN113064765A (zh) 2021-07-02
CN113064765B true CN113064765B (zh) 2023-09-05

Family

ID=76567682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451704.0A Active CN113064765B (zh) 2021-04-26 2021-04-26 节点异常处理方法、装置、电子设备及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN113064765B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203292B (zh) * 2022-09-15 2022-11-25 昆仑智汇数据科技(北京)有限公司 一种工业设备的数据处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034507A (ja) * 2009-08-05 2011-02-17 Fujitsu Ltd 動作履歴収集装置、動作履歴収集方法およびプログラム
CN111327685A (zh) * 2020-01-21 2020-06-23 苏州浪潮智能科技有限公司 分布式存储系统数据处理方法、装置及设备和存储介质
CN111563679A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 数据处理方法以及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4457581B2 (ja) * 2003-05-28 2010-04-28 日本電気株式会社 耐障害システム、プログラム並列実行方法、耐障害システムの障害検出装置およびプログラム
US10776196B2 (en) * 2018-08-29 2020-09-15 International Business Machines Corporation Systems and methods for anomaly detection in a distributed computing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034507A (ja) * 2009-08-05 2011-02-17 Fujitsu Ltd 動作履歴収集装置、動作履歴収集方法およびプログラム
CN111327685A (zh) * 2020-01-21 2020-06-23 苏州浪潮智能科技有限公司 分布式存储系统数据处理方法、装置及设备和存储介质
CN111563679A (zh) * 2020-04-30 2020-08-21 支付宝(杭州)信息技术有限公司 数据处理方法以及装置

Also Published As

Publication number Publication date
CN113064765A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
EP2414932B1 (en) Execution of a plugin according to plugin stability level
WO2018072408A1 (zh) 一种内存分析方法、装置、系统以及计算设备
EP2911060B1 (en) Method and device for determining resource leakage and for predicting resource usage state
CN111324423B (zh) 容器内进程的监控方法、装置、存储介质和计算机设备
CN114328102A (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN110109741B (zh) 循环任务的管理方法、装置、电子设备及存储介质
CN111813548A (zh) 一种资源调度方法、装置、电子设备及存储介质
CN113064765B (zh) 节点异常处理方法、装置、电子设备及机器可读存储介质
CN113067875A (zh) 基于微服务网关动态流控的访问方法和装置以及设备
CN112749013A (zh) 线程负载的检测方法、装置、电子设备及存储介质
CN115509858A (zh) 业务系统监控方法、装置、存储介质及计算机设备
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN113590285A (zh) 一种用于线程池参数动态设置的方法、系统及设备
JP2013522741A (ja) 診断データを収集するためのマルチスレッド化コンピューティング環境における方法、装置、およびコンピュータ・プログラム
WO2021174684A1 (zh) 一种割接信息处理方法、系统及装置
CN113157426A (zh) 一种任务调度方法、系统、设备及存储介质
CN112559565A (zh) 一种异常检测方法、系统及装置
CN109446034B (zh) 上报崩溃事件的方法、装置、计算机设备及存储介质
CN110704313A (zh) Java虚拟机内存泄漏检测方法及装置
CN110955587A (zh) 一种待更换设备确定方法及装置
CN114860432A (zh) 一种内存故障的信息确定方法及装置
CN111143127B (zh) 监管网络设备的方法、装置、存储介质及设备
CN110851286B (zh) 线程管理方法、装置、电子设备及存储介质
CN114579252A (zh) 一种监测应用状态的方法、系统、存储介质及设备
CN111857689A (zh) 一种框架、框架的功能配置方法、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant