CN116881033A - 计算集群异常处理方法、装置、计算机设备及存储介质 - Google Patents

计算集群异常处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116881033A
CN116881033A CN202310854210.6A CN202310854210A CN116881033A CN 116881033 A CN116881033 A CN 116881033A CN 202310854210 A CN202310854210 A CN 202310854210A CN 116881033 A CN116881033 A CN 116881033A
Authority
CN
China
Prior art keywords
server
state
computing server
current computing
exception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310854210.6A
Other languages
English (en)
Inventor
郭跃磊
马超
周正阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Original Assignee
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexin Technology Co ltd, Hexin Technology Suzhou Co ltd filed Critical Hexin Technology Co ltd
Priority to CN202310854210.6A priority Critical patent/CN116881033A/zh
Publication of CN116881033A publication Critical patent/CN116881033A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及数据处理领域,公开了计算集群异常处理方法、装置、计算机设备及存储介质,该方法包括:获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,所述初始状态标记包括不可达状态和不可用状态;基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态;基于所述服务器状态,对所述当前计算服务器进行异常处理,本发明通过获取计算集群中存在异常计算服务器的初始状态标记和地址,以对异常计算服务器的状态进行收集,根据初始状态标记和地址,确定计算服务器的服务器状态,以根据服务器状态,对计算服务器进行自动异常处理,省去了人工处理异常的步骤,大大提高了异常处理效率。

Description

计算集群异常处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及计算集群异常处理方法、装置、计算机设备及存储介质。
背景技术
随着IC芯片设计规模日益扩大,研发所需的计算资源也随之膨胀,保持计算集群服务器的状态稳定,是保证芯片设计按期完成的基础保证。随着计算集群扩张,网络、存储及集群软件出现问题时,导致异常计算节点不时发生,导致计算集群中计算服务器无法接收任务、接收任务数量降低或运行速度变慢等情况。
在现有技术中,系统管理员连接异常计算机,并根据计算的状态进行手动处理异常。然而,计算集群服务器一般数量较多,人工处理异常工作量较大,效率低,且存在误操作的可能性,
发明内容
有鉴于此,本发明提供了一种计算集群异常处理方法、装置、计算机设备及存储介质,以解决自动处理计算集群异常的问题。
第一方面,本发明提供了一种计算集群异常处理方法,应用于主控服务器,该方法包括:
获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,所述初始状态标记包括不可达状态和不可用状态;
基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态;
基于所述服务器状态,对所述当前计算服务器进行异常处理。
本发明通过获取计算集群中存在异常计算服务器的初始状态标记和地址,以对异常计算服务器的状态进行收集,根据初始状态标记和地址,确定计算服务器的服务器状态,以根据服务器状态,对计算服务器进行自动异常处理,省去了人工处理异常的步骤,大大提高了异常处理效率。
在一种可选的实施方式中,所述基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态,包括:
基于所述地址,利用远程连接程序判断是否可以和当前计算服务器进行远程连接;
若当前计算服务器的初始状态标记为不可用状态,可以和当前计算服务器进行远程连接,且当前计算服务器能够执行主控服务器发送的判断指令,则确定当前计算服务器的服务器状态为可恢复状态;
若当前计算服务器的初始状态标记为不可达状态,无法和当前计算服务器进行远程连接,且当前计算服务器无法返回数据包对应的响应,则确定当前计算服务器的服务器状态为不可恢复状态;
若当前计算服务器能够响应主控服务器发送的测试指令,且主控服务器工作正常,则确定当前计算服务器的服务器状态为正常状态。
本发明通过根据计算服务器的初始状态标记、主控服务器与当前计算服务器的连接情况及当前计算服务器是否能执行判断指令,综合判断计算服务器的服务器状态,以提高服务器状态结果的准确性。
在一种可选的实施方式中,所述基于所述服务器状态,对所述当前计算服务器进行异常处理,包括:
若所述服务器状态为不可恢复状态,则重新配置当前计算服务器,以使得当前计算服务器脱离所述目标计算集群;
若所述服务器状态为可恢复状态,则获取进程异常类型,并根据所述进程异常类型对当前计算服务器进行异常修复处理。
本发明通过对不可恢复的计算服务器重新配置,使得不可恢复的计算服务器脱离计算集群,以优化计算集群,通过对可恢复的计算服务器进行对应的异常修复处理,以使得异常修复处理后的计算服务器正常工作,满足用户需求。
在一种可选的实施方式中,所述方法还包括:
若所述服务器状态为正常状态,则删除当前计算服务器的初始状态标记和地址。
本发明通过删除正常状态计算服务器的初始状态标记和地址,以将发生误判、无需异常处理的计算服务器信息删除,从而避免对正常状态计算服务器进行处理造成的资源浪费。
在一种可选的实施方式中,所述若所述服务器状态为不可恢复状态,则重新配置当前计算服务器,包括:
利用远程指令重启所述当前计算服务器;
当检测到当前计算服务器重启完成后,根据预设命令重新配置所述当前计算服务器。
本发明通过利用远程重启指令以对不可恢复的计算服务器进行重启,并在计算服务器重启完成后,对计算服务器进行重新配置,以实现自动配置,提高计算服务器的异常处理效率。
在一种可选的实施方式中,所述根据所述进程异常类型对当前计算服务器进行异常修复处理,包括:
若进程异常类型为内存使用异常,则停止异常内存占用的程序;
若进程异常类型为集群程序异常,则重新配置集群程序;
若进程异常类型为IO占用异常,则清理异常IO占用程序。
本发明对不同类型的异常进程进行对应的异常修复处理,以有针对性地对计算服务器进行精准处理,以使得异常修复处理后的进程可以供用户正常使用。
在一种可选的实施方式中,所述方法还包括:
获取经过异常恢复处理后的第一计算服务器更新后的服务器状态,并将所述第一计算服务器的地址及其对应的更新后的服务器状态保存到临时目录;
若临时目录中存在同一地址的相同服务器状态连续出现预设次数,则将该地址对应的第一计算服务器的服务器状态确定为不可恢复状态,并在所述临时目录删除该地址对应的第一计算服务器的相关信息。
本发明通过将临时目录中连续出现预设次数的同一地址相同服务器状态确定为不可恢复状态,并将该计算服务器的相关信息删除,以增加临时目录的存储空间。
第二方面,本发明提供了一种计算集群异常处理装置,应用于主控服务器,该装置包括:
获取模块,用于获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,所述初始状态标记包括不可达状态和不可用状态;
确定模块,用于基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态;
处理模块,用于基于所述服务器状态,对所述当前计算服务器进行异常处理。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的计算集群异常处理方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的计算集群异常处理方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的计算集群异常处理方法的流程示意图;
图2是根据本发明实施例的另一计算集群异常处理方法的流程示意图;
图3是根据本发明实施例的又一计算集群异常处理方法的流程示意图;
图4是根据本发明实施例的各个程序处理计算集群异常的示意图;
图5是根据本发明实施例的计算集群异常处理装置的结构框图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在高性能计算集群中计算服务器节点出现异常后,通常在接受大规模计算任务或者运行大规模计算任务会出现异常,导致计算资源浪费。
根据本发明实施例,提供了一种计算集群异常处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种计算集群异常处理方法,应用于主控服务器,具体地,主控服务器为Master服务器,图1是根据本发明实施例的计算集群异常处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,初始状态标记包括不可达状态和不可用状态。
在本发明实施例中,根据用户预设自定义的周期,默认预设周期为30分钟,每隔预设周期,状态收集程序从计算集群日志中,读取存在异常的当前服务器的初始状态标记和IP地址,并保存至服务器IP数据库中。具体地,unreachable标记为不可达,unavailable标记为不可用。
每隔预设周期,状态读取程序通过预设指令从服务器IP数据库中读取当前计算服务器的IP地址和初始状态标记,并将存在异常的计算服务器的IP列表和初始状态标记提交至状态判断程序。
步骤S102,基于初始状态标记和地址,利用远程连接程序确定当前计算服务器的服务器状态。
在本发明实施例中,状态判断程序根据接收到的异常计算服务器的IP列表和初始状态标记,状态判断程度通过ssh/rsh等远程工具测试异常计算服务器,并对计算服务器的服务器状态进行确认。具体地,服务器状态包括可恢复状态、不可恢复状态和正常状态。
步骤S103,基于服务器状态,对当前计算服务器进行异常处理。
在本发明实施例中,针对不同服务器状态的计算服务器,分别进行异常处理,以实现自动异常处理。异常处理程序接收到异常计算服务器的IP地址和初始状态标记,根据服务器状态采取相应的处理方法。
本实施例提供的计算集群异常处理方法,通过获取计算集群中存在异常计算服务器的初始状态标记和地址,以对异常计算服务器的状态进行收集,根据初始状态标记和地址,确定计算服务器的服务器状态,以根据服务器状态,对计算服务器进行自动异常处理,省去了人工处理异常的步骤,大大提高了异常处理效率。
在本实施例中提供了一种计算集群异常处理方法,可用于上述的主控服务器,图2是根据本发明实施例的计算集群异常处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址。
详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S202,基于初始状态标记和地址,利用远程连接程序确定当前计算服务器的服务器状态。
具体地,上述步骤S202包括:
步骤S2021,基于地址,利用远程连接程序判断是否可以和当前计算服务器进行远程连接。
在本发明实施例中,基于IP地址,利用ssh/rsh远程连接程序,使用主控服务器的账号和密码,可以建立主控服务器和当前计算服务器的远程连接。在当前计算机服务器上执行指令,若当前计算机服务器能够执行指令,则确定当前计算服务器可以和主控服务器进行远程连接;若当前计算机服务器器没有返回结果,或返回的结果为timeout,则确定确定当前计算服务器无法和主控服务器进行远程连接。
步骤S2022,若当前计算服务器的初始状态标记为不可用状态,可以和当前计算服务器进行远程连接,且当前计算机服务器能够执行主控服务器发送的判断指令,则确定当前计算服务器的服务器状态为可恢复状态。
在本发明实施例中,针对不可用的计算服务器,通过ssh/rsh远程连接程序和当前计算机服务器建立远程连接,若当前计算机服务器能够执行主控服务器发送的判断指令,则标记为可恢复状态,并将该结果保存至临时目录。
具体地,判断指令可以为集群守护进程、IO wait、网络以及CPU内存等指令。主控服务器能够执行判断指令,并输出异常类型,具体地,异常类型包括集群守护进程异常、僵尸进程过多、IO wait高、网络繁忙及CPU内存负载高等。
步骤S2023,若当前计算服务器的初始状态标记为不可达状态,当无法和前计算服务器进行远程连接,且当前计算机服务器无法返回数据包对应的响应,则确定当前计算服务器的服务器状态为不可恢复状态。
在本发明实施例中,针对不可达的计算服务器,通过ssh/rsh远程连接程序无法和当前计算机服务器建立远程连接,并且主控服务器向当前计算服务器发送数据包时,当前计算机服务器对接收到的数据包无法作出响应,则标记为不可恢复状态,并提交当前计算机服务器IP地址和所有状态信息至异常处理程序。
步骤S2024,若当前计算服务器能够响应主控服务器发送的测试指令,且主控服务器工作正常,则确定当前计算服务器的服务器状态为正常状态。
在本发明实施例中,若通过ssh/rsh远程连接程序与当前计算机服务器建立远程连接后,通过系统指令或第三方指令能够收集到系统状态,则当前计算服务器能够正常响应测试指令,且主控服务器工作状态正常,则该计算服务器的服务器为正常状态。
本实施例提供的计算集群异常处理方法,根据计算服务器的初始状态标记、主控服务器与当前计算服务器的连接情况及当前计算服务器是否能执行判断指令,综合判断计算服务器的服务器状态,以提高服务器状态结果的准确性。
步骤S2025,若服务器状态为正常状态,则删除当前计算服务器的初始状态标记和地址。
在本发明实施例中,若服务器状态为正常状态,则对异常计算服务器判断发生误判,由于无需对正常状态的计算服务器进行处理,则通过数据远程更新或删除数据条目等命令,删除数据库中正常状态的计算服务器的初始状态和地址。
本实施例提供的计算集群异常处理方法,通过删除正常状态计算服务器的初始状态标记和地址,以将发生误判、无需异常处理的计算服务器信息删除,从而避免对正常状态计算服务器进行处理造成的资源浪费。
步骤S203,基于服务器状态,对当前计算服务器进行异常处理。
具体地,上述步骤S203包括:
步骤S2031,若服务器状态为不可恢复状态,则重新配置当前计算服务器,以使得当前计算服务器脱离目标计算集群。
在本发明实施例中,针对不可恢复的服务器,通过IPMItool等工具,利用预设指令重新配置当前计算服务器,以使重新配置的计算服务器脱离目标计算集群。
步骤S2032,若服务器状态为可恢复状态,则获取进程异常类型,并根据进程异常类型对当前计算服务器进行异常修复处理。
在本发明实施例中,针对可恢复的服务器,根据服务器状态和进程异常类型,进行异常修复处理。具体地,进程异常类型包括内存使用异常、集群程序异常以及IO占用异常等。
本实施例提供的计算集群异常处理方法,通过对不可恢复的计算服务器重新配置,使得不可恢复的计算服务器脱离计算集群,以优化计算集群,通过对可恢复的计算服务器进行对应的异常修复处理,以使得异常修复处理后的计算服务器正常工作,满足用户需求。
具体地,上述步骤S2031包括:
步骤S20311,利用远程指令重启当前计算服务器。
步骤S20312,当检测到当前计算服务器重启完成后,根据预设命令重新配置当前计算服务器。
在本发明实施例中,针对不可恢复的计算服务器,利用shutdown等命令加上当前计算服务器的IP地址,重启当前计算服务器。检测当前计算服务器是否重启完毕,可以通过向当前计算服务器发送指令,待收到当前计算服务器返回的响应,即为重启完成。根据预设命令重新配置当前计算服务器,以使得当前计算服务器脱离目标计算集群。
本实施例提供的计算集群异常处理方法,对不同类型的异常进程进行对应的异常修复处理,以有针对性地对计算服务器进行精准处理,以使得异常修复处理后的进程可以供用户正常使用。
具体地,上述步骤S2032包括:
步骤S20321,若进程异常类型为内存使用异常,则停止异常内存占用的程序。
步骤S20322,若进程异常类型为集群程序异常,则重新配置集群程序。
步骤S20323,若进程异常类型为IO占用异常,则清理异常IO占用程序。
在本发明实施例中,针对可恢复的计算服务器,对计算服务器进行异常修复处理,以使得异常修复处理后的计算服务器能够被用户使用。
针对内存使用异常的进程,可能是内存控制器出现故障或内存条与主板插槽接触不良导致的,则停止异常内存占用的程序,以免异常进程占用大量系统资源,导致其他进程无法正常使用。
针对集群程序异常的进程,可能是进程超出硬件资源所能提供的容量,也可能是部分节点状态和数据状态处于高负载状态,而其他节点状态处于空闲状态导致的,则利用预设命令重新配置集群程序,以保证重新配置后的集群程序稳定运行。
针对IO占用异常的进程,可以采用iotop等命令定位IO占用异常的进程,则清理异常IO占用程序。此外,进程异常还包括僵尸进程过多,则停止僵尸进程,以对异常进程进行处理。
本实施例提供的计算集群异常处理方法,对不同类型的异常进程进行对应的异常修复处理,以有针对性地对计算服务器进行精准处理,以使得异常修复处理后的进程可以供用户正常使用。
在本实施例中提供了一种计算集群异常处理方法,可用于上述的主控服务器,如手机、平板电脑等,图3是根据本发明实施例的计算集群异常处理方法的流程图,如图3所示,该流程还包括如下步骤:
步骤S301,获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址。
详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S302,基于初始状态标记和地址,利用远程连接程序确定当前计算服务器的服务器状态。
详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S303,基于服务器状态,对当前计算服务器进行异常处理。
详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S304,获取经过异常恢复处理后的第一计算服务器更新后的服务器状态,并将第一计算服务器的地址及其对应的更新后的服务器状态保存到临时目录。
步骤S305,若临时目录中存在同一地址的相同服务器状态连续出现预设次数,则将该地址对应的第一计算服务器的服务器状态确定为不可恢复状态,并在临时目录删除该地址对应的第一计算服务器的相关信息。
在本发明实施例中,经过异常恢复处理后的第一计算服务器的服务器状态更新,并将异常恢复处理后的服务器IP地址提交至状态判断程序,同事保存第一计算服务器的IP地址和更新后的服务器状态标记至临时目录。
若临时目录中连续出现预设次数的同一IP地址,相同服务器状态标记的计算服务器,则该计算服务器为不可恢复。删除临时目录中不可恢复状态的服务器,以增加临时目录的存储空间。其中,预设次数可以为3次,也可以根据实际应用场景设置。
本实施例提供的计算集群异常处理方法,通过将临时目录中连续出现预设次数的同一地址相同服务器状态确定为不可恢复状态,并将该计算服务器的相关信息删除,以增加临时目录的存储空间。
如图4所示,计算集群异常处理包括状态收集程序、状态读取程序、状态判断程序、异常处理程序以及后期处理,各个程序的具体处理方式详细请参见上述实施例,在此不再赘述。
需要说明的是,在将所有异常服务器处理完毕后,根据每个步骤的处理日志,生成详细处理报告,并将处理报告发送至管理员,以便于管理员了解异常处理情况。
在本实施例中还提供了一种计算集群异常处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种计算集群异常处理装置,应用于主控服务器,如图5所示,包括:
获取模块501,用于获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,初始状态标记包括不可达状态和不可用状态。
确定模块502,用于基于初始状态标记和地址,利用远程连接程序确定当前计算服务器的服务器状态。
处理模块503,用于基于服务器状态,对当前计算服务器进行异常处理。
在一些可选的实施方式中,确定模块502包括:
判断单元,用于基于地址,利用远程连接程序判断是否可以和当前计算服务器进行远程连接。
第一确定单元,用于若当前计算服务器的初始状态标记为不可用状态,可以和当前计算服务器进行远程连接,且当前计算服务器能够执行主控服务器发送的判断指令,则确定当前计算服务器的服务器状态为可恢复状态。
第二确定单元,用于若当前计算服务器的初始状态标记为不可达状态,无法和当前计算服务器无法进行远程连接,且当前计算服务器无法返回数据包对应的响应,则确定当前计算服务器的服务器状态为不可恢复状态。
第三确定单元,用于若当前计算服务器能够响应主控服务器发送的测试指令,且主控服务器工作正常,则确定当前计算服务器的服务器状态为正常状态。
在一些可选的实施方式中,处理模块503包括:
配置单元,用于若服务器状态为不可恢复状态,则重新配置当前计算服务器,以使得当前计算服务器脱离目标计算集群。
异常修复处理单元,用于若服务器状态为可恢复状态,则获取进程异常类型,并根据进程异常类型对当前计算服务器进行异常修复处理。
在一些可选的实施方式中,该装置还包括:
删除模块,用于若服务器状态为正常状态,则删除当前计算服务器的初始状态标记和地址。
在一些可选的实施方式中,配置单元包括:
重启子单元,用于利用远程指令重启当前计算服务器。
配置子单元,用于当检测到当前计算服务器重启完成后,根据预设命令重新配置当前计算服务器。
在一些可选的实施方式中,配置子单元包括:
停止子单元,用于若进程异常类型为内存使用异常,则停止异常内存占用的程序。
重新配置子单元,用于若进程异常类型为集群程序异常,则重新配置集群程序。
清理子单元,用于若进程异常类型为IO占用异常,则清理异常IO占用程序。
在一些可选的实施方式中,该装置还包括:
保存模块,用于获取经过异常恢复处理后的第一计算服务器更新后的服务器状态,并将第一计算服务器的地址及其对应的更新后的服务器状态保存到临时目录。
删除模块,用于若临时目录中存在同一地址的相同服务器状态连续出现预设次数,则将该地址对应的第一计算服务器的服务器状态确定为不可恢复状态,并在临时目录删除该地址对应的第一计算服务器的相关信息。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的计算集群异常处理装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的计算集群异常处理装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入。输出装置40可以包括显示设备等。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种计算集群异常处理方法,其特征在于,应用于主控服务器,所述方法包括:
获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,所述初始状态标记包括不可达状态和不可用状态;
基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态;
基于所述服务器状态,对所述当前计算服务器进行异常处理。
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态,包括:
基于所述地址,利用远程连接程序判断是否可以和当前计算服务器进行远程连接;
若当前计算服务器的初始状态标记为不可用状态,可以和当前计算服务器进行远程连接,且当前计算服务器能够执行主控服务器发送的判断指令,则确定当前计算服务器的服务器状态为可恢复状态;
若当前计算服务器的初始状态标记为不可达状态,无法和当前计算服务器进行远程连接,且当前计算服务器无法返回数据包对应的响应,则确定当前计算服务器的服务器状态为不可恢复状态;
若当前计算服务器能够响应主控服务器发送的测试指令,且主控服务器工作正常,则确定当前计算服务器的服务器状态为正常状态。
3.根据权利要求2所述的方法,其特征在于,所述基于所述服务器状态,对所述当前计算服务器进行异常处理,包括:
若所述服务器状态为不可恢复状态,则重新配置当前计算服务器,以使得当前计算服务器脱离所述目标计算集群;
若所述服务器状态为可恢复状态,则获取进程异常类型,并根据所述进程异常类型对当前计算服务器进行异常修复处理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述服务器状态为正常状态,则删除当前计算服务器的初始状态标记和地址。
5.根据权利要求3所述的方法,其特征在于,所述若所述服务器状态为不可恢复状态,则重新配置当前计算服务器,包括:
利用远程指令重启所述当前计算服务器;
当检测到当前计算服务器重启完成后,根据预设命令重新配置所述当前计算服务器。
6.根据权利要求3所述的方法,其特征在于,所述根据所述进程异常类型对当前计算服务器进行异常修复处理,包括:
若进程异常类型为内存使用异常,则停止异常内存占用的程序;
若进程异常类型为集群程序异常,则重新配置集群程序;
若进程异常类型为IO占用异常,则清理异常IO占用程序。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取经过异常恢复处理后的第一计算服务器更新后的服务器状态,并将所述第一计算服务器的地址及其对应的更新后的服务器状态保存到临时目录;
若临时目录中存在同一地址的相同服务器状态连续出现预设次数,则将该地址对应的第一计算服务器的服务器状态确定为不可恢复状态,并在所述临时目录删除该地址对应的第一计算服务器的相关信息。
8.一种计算集群异常处理装置,其特征在于,应用于主控服务器,所述装置包括:
获取模块,用于获取目标计算集群中存在异常的当前计算服务器的初始状态标记和地址,所述初始状态标记包括不可达状态和不可用状态;
确定模块,用于基于所述初始状态标记和地址,利用远程连接程序确定所述当前计算服务器的服务器状态;
处理模块,用于基于所述服务器状态,对所述当前计算服务器进行异常处理。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的计算集群异常处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的计算集群异常处理方法。
CN202310854210.6A 2023-07-12 2023-07-12 计算集群异常处理方法、装置、计算机设备及存储介质 Pending CN116881033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310854210.6A CN116881033A (zh) 2023-07-12 2023-07-12 计算集群异常处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310854210.6A CN116881033A (zh) 2023-07-12 2023-07-12 计算集群异常处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116881033A true CN116881033A (zh) 2023-10-13

Family

ID=88259938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310854210.6A Pending CN116881033A (zh) 2023-07-12 2023-07-12 计算集群异常处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116881033A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100313064A1 (en) * 2009-06-08 2010-12-09 Microsoft Corporation Differentiating connectivity issues from server failures
CN106528143A (zh) * 2016-10-27 2017-03-22 杭州昆海信息技术有限公司 一种配置管理方法及装置
CN112463549A (zh) * 2020-11-25 2021-03-09 北京浪潮数据技术有限公司 云平台的审计方法、装置、设备及计算机可读存储介质
CN113626238A (zh) * 2021-07-23 2021-11-09 济南浪潮数据技术有限公司 ctdb服务健康状态监控方法、系统、装置及存储介质
CN116360990A (zh) * 2023-03-27 2023-06-30 合芯科技有限公司 分布式计算任务合理性预判方法、系统、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100313064A1 (en) * 2009-06-08 2010-12-09 Microsoft Corporation Differentiating connectivity issues from server failures
CN106528143A (zh) * 2016-10-27 2017-03-22 杭州昆海信息技术有限公司 一种配置管理方法及装置
CN112463549A (zh) * 2020-11-25 2021-03-09 北京浪潮数据技术有限公司 云平台的审计方法、装置、设备及计算机可读存储介质
CN113626238A (zh) * 2021-07-23 2021-11-09 济南浪潮数据技术有限公司 ctdb服务健康状态监控方法、系统、装置及存储介质
CN116360990A (zh) * 2023-03-27 2023-06-30 合芯科技有限公司 分布式计算任务合理性预判方法、系统、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZABBIX中国: "Zabbix常见问题处理手册", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/135984748》, pages 1 - 22 *

Similar Documents

Publication Publication Date Title
US7624309B2 (en) Automated client recovery and service ticketing
CN113590595A (zh) 一种数据库多写方法、装置及相关设备
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN114884840A (zh) 应用健康状态检查方法及电子设备
CN110764799A (zh) 一种优化远程更新fpga加速卡的方法、设备及介质
CN110674008B (zh) Ssd的问题盘日志信息收集方法、装置、设备及介质
CN116701518A (zh) 数据库集群部署方法、装置、计算机设备及存储介质
CN116881033A (zh) 计算集群异常处理方法、装置、计算机设备及存储介质
CN110134546B (zh) 批量重启windows系统方法、电子装置及存储介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN108595292B (zh) 一种系统的优化方法、移动终端及计算机存储介质
CN116680055A (zh) 一种异步任务处理方法、装置、计算机设备及存储介质
CN107168815B (zh) 一种收集硬件错误信息的方法
EP2829974A2 (en) Memory dump method, information processing apparatus and program
CN114442930A (zh) 组磁盘阵列的控制方法、装置、电子设备及可读存储介质
CN116391177A (zh) 带优先级的非活动存储器设备更新
CN116324726A (zh) 加速的非易失性存储器设备检查和取证
CN110908821A (zh) 任务失败管理的方法、装置、设备和存储介质
CN117389841B (zh) 加速器资源监控方法、装置、集群设备及存储介质
CN117149487A (zh) 确定数据丢失的方法、装置、设备及存储介质
CN117009438A (zh) 一种基于k8s的通用数据库节点扩容方法及装置
CN113986271A (zh) 一种安装系统过程中自动创建raid的方法、装置和设备
CN116540940A (zh) 存储集群管控方法、装置、设备和存储介质
CN116955238A (zh) 中央处理器接口上电状态控制方法、装置、计算机及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination