CN116506327B - 物理节点监测方法、装置、计算机设备及存储介质 - Google Patents

物理节点监测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116506327B
CN116506327B CN202310754601.0A CN202310754601A CN116506327B CN 116506327 B CN116506327 B CN 116506327B CN 202310754601 A CN202310754601 A CN 202310754601A CN 116506327 B CN116506327 B CN 116506327B
Authority
CN
China
Prior art keywords
physical node
node
physical
nodes
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310754601.0A
Other languages
English (en)
Other versions
CN116506327A (zh
Inventor
王怀亮
郑王力
滕春金
周凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVIC INTERNATIONAL E-BUSINESS Inc
Original Assignee
AVIC INTERNATIONAL E-BUSINESS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVIC INTERNATIONAL E-BUSINESS Inc filed Critical AVIC INTERNATIONAL E-BUSINESS Inc
Priority to CN202310754601.0A priority Critical patent/CN116506327B/zh
Publication of CN116506327A publication Critical patent/CN116506327A/zh
Application granted granted Critical
Publication of CN116506327B publication Critical patent/CN116506327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及物理节点监测技术领域,公开了物理节点监测方法、装置、计算机设备及存储介质,本发明从预配置的物理节点集合中选择与第一物理节点配对的第二物理节点,实现物理节点之间的相互监测;当确定第二物理节点异常后,从物理节点集合中选择与第一物理节点配对的第三物理节点,建立第一物理节点与第三物理节点之间的连接关系,实现了对物理节点集合中所有的物理节点都有相互监测的节点对象;并周期性监测已故障的第二物理节点的运行状态,当根据运行状态确定第二物理节点运行恢复正常时,断开第一物理节点与第三物理节点之间的连接关系,重新启用第二物理节点,建立第一物理节点和第二物理节点之间的连接关系,避免了资源浪费。

Description

物理节点监测方法、装置、计算机设备及存储介质
技术领域
本发明涉及云平台物理节点监测技术领域,具体涉及物理节点监测方法、装置、计算机设备及存储介质。
背景技术
在云平台中,构成云平台的各个物理节点通过交换机、路由器等网络设备相互连接,共同构成云平台的各种场景。但是可能因为网络设备不稳定,导致物理节点宕机等意外情况。
相关技术中,对于上述情况,通过控虚拟机或其所在宿主机节点的可用性,一旦发现虚拟机故障或其所在宿主机物理节点故障,则通过预置的高可用方案实现虚拟机的重启或迁移,故障物理节点等待运维人员介入。
但这种情况对物理节点资源不足的情况是不合适的,因此需要一种全新的物理节点监测方法以解决上述问题。
发明内容
有鉴于此,本发明提供了一种物理节点监测方法、装置、计算机设备及存储介质,以解决在物理节点资源不足且出现物理节点故障后,导致对物理节点接入不及时的问题。
第一方面,本发明提供了一种物理节点监测方法,方法包括:
从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,第一物理节点为物理节点集中的任一物理节点;
当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点;
周期性监测第二物理节点的运行状态;
当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。
有益效果,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,实现了在物理节点集中物理节点之间的相互监测,减少了不必要的资源浪费,其中第一物理节点为物理节点集中的任一物理节点;进一步地,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点与第三物理节点之间的连接关系,其中第三物理节点是第二物理节点的子节点,避免了在第二物理节点异常的情况下无法对第二物理节点的子节点进行监测,进而实现了对物理节点集中所有的物理节点都有相互监测的对象;在此基础上周期性监测第二物理节点的运行状态,当根据运行状态确定第二物理节点运行正常时,断开第一物理节点与第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督,实现了对故障节点的及时监测,避免了资源浪费,在故障物理节点恢复后,及时恢复物理节点的连接关系,提高了物理节点的利用率。
在一种可选的实施方式中,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,具体包括:
从物理节点集中筛选与第一物理节点存在映射关系的至少一个物理节点;
根据至少一个物理节点与第一物理节点的连接时间,确定第二物理节点。
有益效果,在选择物理节点时,在与第一物理节点存在映射关系的物理节点中,根据连接时间来选择对应的第二物理节点,提高了第一物理节点与第二物理节点在后续相互监测过程的效率。
在一种可选的实施方式中,根据至少一个物理节点与第一物理节点的连接时间,确定第二物理节点,具体包括:
至少一个物理节点分别与第一物理节点进行至少一次连接,确定至少一个物理节点分别与第一物理节点进行至少一次连接的连接时间;
根据至少一个物理节点与第一物理节点进行至少一次连接的连接时间,确定至少一个物理节点分别与第一物理节点进行连接的平均时间;
根据至少一个物理节点分别与第一物理节点进行连接的平均时间,确定第二物理节点。
有益效果,根据每一个存在映射关系的物理节点与第一物理节点的多次连接之后,根据每一次的连接时间,确定对应的第二物理节点,可以避免由于特殊情况导致的连接时间不准确的问题,进而确保了第二物理节点与第一物理节点相互监测效率最高的情况。
在一种可选的实施方式中,第一物理节点还包括地址信息,当物理节点集中不存在与第一物理节点有映射关系的物理节点时,从预配置的物理节点集中选择与第一物理节点对应的第二物理节点,具体包括:
根据第一物理节点的地址信息,和物理节点集每一个物理节点的地址信息,确定第二物理节点。
有益效果,当物理节点集中不存在与第一物理节点的有映射关系的物理节点时,为进一步确保物理节点之间的监测效率,可以根据地址信息确定对应的第二物理节点,以提高监测效率。
在一种可选的实施方式中,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,具体包括:
确定与第二物理节点构建级联关系链中运行状态正常的至少一个子节点;
从至少一个子节点中选择与第二物理节点级联关系最近的子节点作为第三物理节点;
建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督。
有益效果,在确定第三物理节点时,目的是为了在第二物理节点故障的情况下,对第二物理节点的后续子节点进行继续监测,因此级联关系最近的节点,可以确保在第二物理节点链路上的所有物理节点均被监测到,提高了监测效率。
在一种可选的实施方式中,当确定第二物理节点异常时,方法还包括:
将异常的第二物理节点加入到故障列表。
有益效果,将第二物理节点加入到故障列表,以便后续相关人员进行维修处理。
在一种可选的实施方式中,第二物理节点的运行状态异常的情况包括第二物理节点宕机和网络故障。
有益效果,通过判断宕机和网络故障综合考虑物理节点的故障,提高了监测准确率。
第二方面,本发明提供了一种物理节点监测装置,装置包括:
节点配对模块,用于从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,第一物理节点为物理节点集中的任一物理节点;
节点监督模块,用于当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点;
节点监测模块,用于周期性监测第二物理节点的运行状态;
重新启用模块,用于当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的物理节点监测方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的物理节点监测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的物理节点监测方法的流程示意图;
图2是根据本发明实施例的另一物理节点监测方法的流程示意图;
图3是根据本发明实施例的又一物理节点监测方法的流程示意图;
图4是根据本发明实施例的物理节点监测方法的示意图;
图5是根据本发明实施例的物理节点监测方法的示意图;
图6是根据本发明实施例的物理节点监测方法的示意图;
图7是根据本发明实施例的物理节点监测装置的结构框图;
图8是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前在私有云场景中,通过心跳机制监控虚拟机或其所在宿主机节点(物理节点)的可用性,一旦发现虚拟机故障或其所在宿主机节点(物理节点)故障,则通过预置的高可用方案实现虚拟机的重启或迁移。对故障的宿主机或宿主机上的私有云平台系统本身并没有过多高可用处理,或者是发出告警等待运维人员介入。
这种方案在对物理节点资源不足、资源使用率比较敏感、运维人员处理不及时的小型私有云环境中是不适合的,小型私有云环境物理节点的数量比较紧张,物理节点存在网络故障或私有云平台程序宕机后,如果运维人员借入不及时,在等待处理的这段时间内会造成物理资源的浪费,和私有云平台可用资源的紧张。
根据本发明实施例,提供了一种物理节点监测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种物理节点监测方法,图1是根据本发明实施例的物理节点监测方法的流程图,本发明实施例中所有的物理节点均与网关连通,且所有物理节点之间网络互通;至少有一台物理服务器节点及其私有云平台服务正常。如图1所示,该流程包括如下步骤:
步骤S101,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点。
第一物理节点为物理节点集中的任一物理节点。
示例性地,对第一物理节点进行配对时,可以根据在数据库中存在映射关系的物理节点,也就是说可以在数据库中已经存储了对应的映射关系。这里的第一物理节点和第二物理节点可以网络连接。
步骤S102,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督。
其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点。
示例性地,在确定第二物理节点后,第一物理节点与第二物理节点之间进行相互监测,当第二物理节点运行异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,第一物理节点直接与第三物理节点连接,也就是不需要第二物理节点了,避免了在第二物理节点异常的情况下无法对第二物理节点的子节点进行监测,进而实现了对物理节点集中所有的物理节点都有相互监测的对象。
在监测对应的物理节点的过程中,若发现物理节点故障无法连接,则进一步接管监测物理节点自身的物理节点。
步骤S103,周期性监测第二物理节点的运行状态。
示例性地,当确定第二物理节点异常后,则说明第二物理节点无法正常运行,为在第二物理节点恢复正常运行后,对及时恢复第二物理节点的运行。具体的,监测周期可以是50ms等,本领域技术人员可以根据实际情况确定。
在本发明实施例中,以私有云平台的物理节点为例,监测是否运行正常以及异常的情况时,均需要确定对应物理节点的网络连接以及对应的功能的程序是否正常。
步骤S104,当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。
示例性地,当监测到第二物理节点运行正常后,则断开第一物理节点与第三物理节点的连接关系,恢复第一物理节点与第二物理节点连接关系,第二物理节点与第三物理节点的连接关系,以完成对第二物理节点的重新启用,提高物理节点的利用率。
本实施例提供的物理节点监测方法,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,实现了在物理节点集中物理节点之间的相互监测,减少了不必要的资源浪费,其中第一物理节点为物理节点集中的任一物理节点;进一步地,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点与第三物理节点之间的连接关系,其中第三物理节点是第二物理节点的子节点,避免了在第二物理节点异常的情况下无法对第二物理节点的子节点进行监测,进而实现了对物理节点集中所有的物理节点都有相互监测的对象;在此基础上周期性监测第二物理节点的运行状态,当根据运行状态确定第二物理节点运行正常时,断开第一物理节点与第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督,实现了对故障节点的及时监测,避免了资源浪费,在故障物理节点恢复后,及时恢复物理节点的连接关系,提高了物理节点的利用率。
在本实施例中提供了一种物理节点监测方法,图2是根据本发明实施例的物理节点监测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,第一物理节点为物理节点集中的任一物理节点。
具体地,上述步骤S201包括:
步骤S2011,从物理节点集中筛选与第一物理节点存在映射关系的至少一个物理节点。
步骤S2012,根据至少一个物理节点与第一物理节点的连接时间,确定第二物理节点。
示例性地,在确定第二物理节点时,可能与第一物理节点存在映射关系的物理节不止一个,因此需要从多个物理节点中选择最佳的物理节点作为第二物理节点。在本发明实施例中,根据每一个物理节点与第一物理节点之间连接关系作为选取标准,提高了第一物理节点与第二物理节点在后续相互监测过程的效率。
在一些可选的实施方式中,上述步骤S2012包括:
步骤a1,至少一个物理节点分别与第一物理节点进行至少一次连接,确定至少一个物理节点分别与第一物理节点进行至少一次连接的连接时间。
步骤a2,根据至少一个物理节点与第一物理节点进行至少一次连接的连接时间,确定至少一个物理节点分别与第一物理节点进行连接的平均时间。
步骤a3,根据至少一个物理节点分别与第一物理节点进行连接的平均时间,确定第二物理节点。
示例性地,将所有与第一物理节点之间存在映射关系的物理节点与第一物理节点之间的连接时间作为选取标准,并且连接时间最短的监测效率更高。为进一步减少对由于其他不可控因素导致连接时间不准确的情况,可以每一个物理节点与第一物理节点分别连接,根据多次连接时间的均值计算。
具体地,所有的物理节点向第一物理节点发送测试数据包,连续发送三次,取平均耗时,耗时最短的即为第二物理节点。
在一个优选的实施例中,第一物理节点还包括地址信息,当物理节点集中不存在与第一物理节点有映射关系的物理节点时,从预配置的物理节点集中选择与第一物理节点对应的第二物理节点,具体包括:
根据第一物理节点的地址信息,和物理节点集每一个物理节点的地址信息,确定第二物理节点。
示例性地,如果数据库中没有保存存在映射关系的物理节点,则选择IP值(地址信息)与该第一物理节点的IP值(地址信息)相减后的差最小的物理作为第二物理节点。
步骤S202,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S203,周期性监测第二物理节点的运行状态。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S204,当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。详细请参见图1所示实施例的步骤S103,在此不再赘述。
本实施例提供的物理节点监测方法,根据每一个存在映射关系的物理节点与第一物理节点的多次连接之后,根据每一次的连接时间,确定对应的第二物理节点,可以避免由于特殊情况导致的连接时间不准确的问题,进而确保了第二物理节点与第一物理节点相互监测效率最高的情况。当物理节点集中不存在与第一物理节点的有映射关系的物理节点时,为进一步确保物理节点之间的监测效率,可以根据地址信息确定对应的第二物理节点,以提高监测效率。
在本实施例中提供了一种物理节点监测方法,图3是根据本发明实施例的物理节点监测方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,第一物理节点为物理节点集中的任一物理节点。详细请参见图2所示实施例的步骤S201,在此不再赘述。
步骤S302,当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点。
具体地,上述步骤S302包括:
步骤S3021,确定与第二物理节点构建级联关系链中运行状态正常的至少一个子节点;
步骤S3022,从至少一个子节点中选择与第二物理节点级联关系最近的子节点作为第三物理节点;
步骤S3023,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督。
示例性地,在一个具体实施例中,例如,节点A监测节点B,节点B监测节点C,如果A监测B的过程中发现B故障无法连接,则原本B监测的C节点也由A节点接管,因为此时B很可能已经失去了探测其他节点的能力,以此类推,如果C节点也故障,则递归接管后续节点,以保证所有节点都有可以对其探测的正常节点。
步骤S303,周期性监测第二物理节点的运行状态。详细请参见图2所示实施例的步骤S203,在此不再赘述。
步骤S304,当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。详细请参见图2所示实施例的步骤S204,在此不再赘述。
本实施例提供的物理节点监测方法,在确定第三物理节点时,目的是为了在第二物理节点故障的情况下,对第二物理节点的后续子节点进行继续监测,因此级联关系最近的节点,可以确保在第二物理节点链路上的所有物理节点均被监测到,提高了监测效率。
上述实施例中,在确定第二物理节点故障后,将第二物理节点加入到故障列表,以便后续相关人员进行维修处理。在确定第二物理节点的运行状态时,需要先确定自身的运行状态,也就是第一物理节点的运行状态,具体地,确定每一个物理节点的物理状态时,都需要同时确定是否是物理节点宕机以及网络故障的问题,其中宕机可以包括程序运行异常、物理节点死机等多种可能存在得到情况。
如图4所示,为第一物理节点(计算节点)自测的流程图,每次自测和监测第二物理节点均连续三次测量,以减少误判的情况,具体地,开启定时任务,每5s获取所有有效物理机节点(物理节点)信息,在实际实施过程中可以根据每一个节点与网关是否联通来确定是否有效,为避免误判,需要连续三次(或者多次)探测节点与网关的联通性,每次探测时间隔500ms,当三次均是探测不通过时,将物理节点的状态修改为故障,当3次均为探测通过时,物理节点的状态为运行中,并恢复对应节点的连接关系,与原来的配对节点进行相互探测。
如图5所示,为第一物理节点监测第二物理节点(计算节点互测)的流程图,在本发明实施例中,结合私有云平台的特性,需要探测laas服务端口以确定网络连接是否正常。图5中给出了当第二物理节点异常的情况下,将第一物理节点接管监测第三物理节点的过程。具体地,进行物理节点互测时,首先需要探测配对物理节点的IP是否可达,同样为避免误判断或者是其他不可控因素的影响,可每隔100ms持续探测三次(或者多次),当每一次探测的结果(或者是大多数)都是可达的情况下,再次探测lass服务端口是否可达(进行三次探测),可达的情况说明配对物理节点运行状态正常,否则配对物理节点的状态为故障,需要接管配对物理节点的其他配对节点,并添加到本物理节点的探测列表中。将故障的物理节点加入到故障列表(redis网络状态监控队列)中,等待定时任务探测,定时拉去物理节点信息进行探测,判断对应物理节点是否恢复网络连接,当网络恢复后重新启用对应的物理节点,或者在对应物理节点故障的情况下,将物理节点中的虚拟机等迁移或重建在其他物理节点。
如图6所示,为对故障的物理节点进行周期性监测(网络故障检查)的流程图,实现了对故障节点的第一时间自愈的过程。具体地,开始探测故障节点队列,探测每一个物理节点的IP判断网络是否回复,当网络没有恢复的情况下探测网关是否可达,经过多次探测之后且网关不可达,则中止探测,当网关可达的情况下持续探测,直至网络恢复,当网络恢复后,探测laas服务端口可达时,对应物理节点网络状态正常并恢复对应物理节点处理原有虚拟机;探测laas服务端口不可达时,执行远程命令启动laas服务,重试三次后,判断laas端口是否可达,不可达为物理节点依旧故障,需要协助迁移虚拟机,可达为物理节点运行正常。
在本实施例中还提供了一种物理节点监测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种物理节点监测装置,如图7所示,包括:
节点配对模块701,用于从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,第一物理节点为物理节点集中的任一物理节点;
节点监督模块702,用于当确定第二物理节点异常后,从物理节点集中选择与第一物理节点配对的第三物理节点,建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督,其中,第三物理节点为第二物理节点的子节点,且处于正常运行状态的节点;
节点监测模块703,用于周期性监测第二物理节点的运行状态;
重新启用模块704,用于当根据运行状态确定第二物理节点运行正常时,断开第一物理节点和第三物理节点之间的连接关系,重新启用第二物理节点,并建立第一物理节点和第二物理节点之间的连接关系,用以第一物理节点和第二物理节点互相监督。
在一些可选的实施方式中,节点配对模块701,具体包括:
筛选单元,用于从物理节点集中筛选与第一物理节点存在映射关系的至少一个物理节点;
第二物理节点确定单元,用于根据至少一个物理节点与第一物理节点的连接时间,确定第二物理节点。
在一些可选的实施方式中,第二物理节点确定单元,具体用于:
至少一个物理节点分别与第一物理节点进行至少一次连接,确定至少一个物理节点分别与第一物理节点进行至少一次连接的连接时间;
根据至少一个物理节点与第一物理节点进行至少一次连接的连接时间,确定至少一个物理节点分别与第一物理节点进行连接的平均时间;
根据至少一个物理节点分别与第一物理节点进行连接的平均时间,确定第二物理节点。
在一些可选的实施方式中,第一物理节点还包括地址信息,筛选单元具体用于:
根据第一物理节点的地址信息,和物理节点集每一个物理节点的地址信息,确定第二物理节点。
在一些可选的实施方式中,节点监测模块703,具体包括:
子节点确定单元,用于确定与第二物理节点构建级联关系链中运行状态正常的至少一个子节点;
第三物理节点选择单元,用于从至少一个子节点中选择与第二物理节点级联关系最近的子节点作为第三物理节点;
连接关系建立单元,用于建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督。
在一些可选的实施方式中,当确定第二物理节点异常时,装置还用于:
将异常的第二物理节点加入到故障列表。
在一些可选的实施方式中,第二物理节点的运行状态异常的情况包括第二物理节点宕机和网络故障。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的物理节点监测装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图7所示的物理节点监测装置。
请参阅图8,图8是本发明可选实施例提供的一种计算机设备的结构示意图,如图8所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (9)

1.一种物理节点监测方法,其特征在于,所述方法包括:
从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,所述第一物理节点为所述物理节点集中的任一物理节点;
当确定所述第二物理节点异常后,从所述物理节点集中选择与所述第一物理节点配对的第三物理节点,建立所述第一物理节点和所述第三物理节点之间的连接关系,用以所述第一物理节点和所述第三物理节点互相监督,其中,所述第三物理节点为所述第二物理节点的子节点,且处于正常运行状态的节点;
周期性监测所述第二物理节点的运行状态;
当根据所述运行状态确定所述第二物理节点运行正常时,断开所述第一物理节点和所述第三物理节点之间的连接关系,重新启用所述第二物理节点,并建立所述第一物理节点和所述第二物理节点之间的连接关系,用以所述第一物理节点和所述第二物理节点互相监督;
所述当确定所述第二物理节点异常后,从所述物理节点集中选择与所述第一物理节点配对的第三物理节点,建立所述第一物理节点和所述第三物理节点之间的连接关系,用以所述第一物理节点和所述第三物理节点互相监督,具体包括:
确定与所述第二物理节点构建级联关系链中运行状态正常的至少一个子节点;
从所述至少一个子节点中选择与所述第二物理节点级联关系最近的子节点作为所述第三物理节点;
建立所述第一物理节点和所述第三物理节点之间的连接关系,用以所述第一物理节点和所述第三物理节点互相监督。
2.根据权利要求1所述的方法,其特征在于,所述从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,具体包括:
从所述物理节点集中筛选与所述第一物理节点存在映射关系的至少一个物理节点;
根据所述至少一个物理节点与所述第一物理节点的连接时间,确定所述第二物理节点。
3.根据权利要求2所述的方法,其特征在于,根据所述至少一个物理节点与所述第一物理节点的连接时间,确定所述第二物理节点,具体包括:
所述至少一个物理节点分别与所述第一物理节点进行至少一次连接,确定所述至少一个物理节点分别与所述第一物理节点进行至少一次连接的连接时间;
根据所述至少一个物理节点与所述第一物理节点进行至少一次连接的连接时间,确定所述至少一个物理节点分别与所述第一物理节点进行连接的平均时间;
根据所述至少一个物理节点分别与所述第一物理节点进行连接的平均时间,确定第二物理节点。
4.根据权利要求2或3所述的方法,其特征在于,所述第一物理节点还包括地址信息,当所述物理节点集中不存在与所述第一物理节点有映射关系的物理节点时,所述从预配置的物理节点集中选择与第一物理节点对应的第二物理节点,具体包括:
根据所述第一物理节点的地址信息,和所述物理节点集每一个物理节点的地址信息,确定所述第二物理节点。
5.根据权利要求4所述的方法,其特征在于,所述当确定所述第二物理节点异常时,所述方法还包括:
将异常的第二物理节点加入到故障列表。
6.根据权利要求5所述的方法,其特征在于,所述第二物理节点的运行状态异常的情况包括所述第二物理节点宕机和网络故障。
7.一种物理节点监测装置,其特征在于,所述装置包括:
节点配对模块,用于从预配置的物理节点集中选择与第一物理节点配对的第二物理节点,所述第一物理节点为所述物理节点集中的任一物理节点;
节点监督模块,用于当确定所述第二物理节点异常后,从所述物理节点集中选择与所述第一物理节点配对的第三物理节点,建立所述第一物理节点和所述第三物理节点之间的连接关系,用以所述第一物理节点和所述第三物理节点互相监督,其中,所述第三物理节点为所述第二物理节点的子节点,且处于正常运行状态的节点;
节点监测模块,用于周期性监测所述第二物理节点的运行状态;
重新启用模块,用于当根据所述运行状态确定所述第二物理节点运行正常时,断开所述第一物理节点和所述第三物理节点之间的连接关系,重新启用所述第二物理节点,并建立所述第一物理节点和所述第二物理节点之间的连接关系,用以所述第一物理节点和所述第二物理节点互相监督;
所述节点监督模块,具体包括:
子节点确定单元,用于确定与第二物理节点构建级联关系链中运行状态正常的至少一个子节点;
第三物理节点选择单元,用于从至少一个子节点中选择与第二物理节点级联关系最近的子节点作为第三物理节点;
连接关系建立单元,用于建立第一物理节点和第三物理节点之间的连接关系,用以第一物理节点和第三物理节点互相监督。
8.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至6中任一项所述的物理节点监测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的物理节点监测方法。
CN202310754601.0A 2023-06-26 2023-06-26 物理节点监测方法、装置、计算机设备及存储介质 Active CN116506327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310754601.0A CN116506327B (zh) 2023-06-26 2023-06-26 物理节点监测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310754601.0A CN116506327B (zh) 2023-06-26 2023-06-26 物理节点监测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN116506327A CN116506327A (zh) 2023-07-28
CN116506327B true CN116506327B (zh) 2023-11-24

Family

ID=87326967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310754601.0A Active CN116506327B (zh) 2023-06-26 2023-06-26 物理节点监测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116506327B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105262640A (zh) * 2015-09-17 2016-01-20 北京汉柏科技有限公司 一种提升云平台服务器可靠性的系统、方法及其部署框架
CN109218126A (zh) * 2017-06-30 2019-01-15 中兴通讯股份有限公司 监测节点存活状态的方法、装置及系统
CN110311800A (zh) * 2018-03-27 2019-10-08 中兴通讯股份有限公司 通信设备、节点的连接方法、存储介质、电子装置
CN110958151A (zh) * 2018-09-26 2020-04-03 上海欣诺通信技术股份有限公司 保活检测方法、装置、节点、存储介质及通信系统
CN111371742A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于svdd的网络切片物理节点异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756571B (zh) * 2020-05-28 2022-02-18 苏州浪潮智能科技有限公司 一种集群节点故障的处理方法、装置、设备及可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105262640A (zh) * 2015-09-17 2016-01-20 北京汉柏科技有限公司 一种提升云平台服务器可靠性的系统、方法及其部署框架
CN109218126A (zh) * 2017-06-30 2019-01-15 中兴通讯股份有限公司 监测节点存活状态的方法、装置及系统
CN110311800A (zh) * 2018-03-27 2019-10-08 中兴通讯股份有限公司 通信设备、节点的连接方法、存储介质、电子装置
CN110958151A (zh) * 2018-09-26 2020-04-03 上海欣诺通信技术股份有限公司 保活检测方法、装置、节点、存储介质及通信系统
CN111371742A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于svdd的网络切片物理节点异常检测方法

Also Published As

Publication number Publication date
CN116506327A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
US10491671B2 (en) Method and apparatus for switching between servers in server cluster
US10693813B1 (en) Enabling and disabling links of a networking switch responsive to compute node fitness
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
US10489232B1 (en) Data center diagnostic information
CN109286529B (zh) 一种恢复RabbitMQ网络分区的方法及系统
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
CN110716842B (zh) 集群故障检测方法和装置
WO2018095414A1 (zh) 虚拟机故障的检测和恢复方法及装置
JP7341244B2 (ja) クラスタ管理方法、装置、およびシステム
CN110336715B (zh) 状态检测方法、主节点和集群管理系统
CN111897697A (zh) 服务器硬件故障修复方法和装置
CN114531373A (zh) 节点状态检测方法、节点状态检测装置、设备及介质
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN116506327B (zh) 物理节点监测方法、装置、计算机设备及存储介质
CN106411643B (zh) Bmc检测方法以及装置
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN115686831A (zh) 基于分布式系统的任务处理方法及装置、设备及介质
CN114374627A (zh) 基板管理控制器重启的方法、装置、系统及服务器
Kitamura et al. Development of a Server Management System Incorporating a Peer-to-Peer Method for Constructing a High-availability Server System
CN114884840A (zh) 应用健康状态检查方法及电子设备
RU2710288C1 (ru) Способ удаленного сброса ненормального состояния стоек, применяемых в дата-центре
US10365934B1 (en) Determining and reporting impaired conditions in a multi-tenant web services environment
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN115499296B (zh) 一种云桌面热备管理方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant