CN115801203B - 一种分布式集群可靠性管理方法、装置及设备 - Google Patents

一种分布式集群可靠性管理方法、装置及设备 Download PDF

Info

Publication number
CN115801203B
CN115801203B CN202310073409.5A CN202310073409A CN115801203B CN 115801203 B CN115801203 B CN 115801203B CN 202310073409 A CN202310073409 A CN 202310073409A CN 115801203 B CN115801203 B CN 115801203B
Authority
CN
China
Prior art keywords
error rate
distributed cluster
actual
server node
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310073409.5A
Other languages
English (en)
Other versions
CN115801203A (zh
Inventor
杨学总
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310073409.5A priority Critical patent/CN115801203B/zh
Publication of CN115801203A publication Critical patent/CN115801203A/zh
Application granted granted Critical
Publication of CN115801203B publication Critical patent/CN115801203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明提出一种分布式集群可靠性管理方法、装置及设备。方法包括:根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算单个服务器节点的实际误码率,并与单个服务器节点的理论误码率比较;响应于单个服务器节点的实际误码率不大于单个服务器节点的理论误码率,在分布式集群中保留单个服务器节点;根据分布式集群中保留的服务器节点的数量以及对应的实际误码率计算分布式集群的实际误码率;将分布式集群的实际误码率与分布式集群的理论误码率进行比较,以判断分布式集群的可靠性。本发明公开的方案可以将分布式集群中处理器互联的可靠性进行量化,以判断分布式集群的可靠性。

Description

一种分布式集群可靠性管理方法、装置及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种分布式集群可靠性管理方法、装置及设备。
背景技术
分布式存储系统与国产CPU的结合,已经应用到各类生活和办公场景。分布式存储系统采用可扩展系统架构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。与此同时,分布式存储系统能够应用于多种场景,在商业化模式的推动下,对于分布式存储系统的可靠性的要求也越来越高。
CPU的应用依赖于与CPU自身的配合以及与外围设备的兼容,涉及各类高速协议、低速协议以及数据格式要求的兼容。分布式存储系统底层的硬件设备是存储服务器,存储服务器不仅包含国产处理器,还需有对应的网卡、存储卡、存储设备、缓存设备,国产处理器在与外围设备做生态兼容时,会面临各种各样的接口协议的兼容问题。任何数据的传输错误都可能导致服务器运行异常,最终导致机器运行过程出现故障,加之国产CPU自身的生态建设及RAS特性不足,导致机器出现故障后,无法快速准确的定位,因此需要投入大量的设备、人力进行故障的检测以及问题分析。CPU互联信号的故障上报存在一定的缺失,比如在CPU互联信号出现异常时,服务器会概率性出现宕机,但缺乏对应的故障上报。
同时,服务器上使用的CPU一般是通过PCBA(Printed Circuit Board Assembly,服务器板卡)实现双路CPU互联,CPU通过与PCBA上的socket基座以及对应的机构件固定在PCBA上,并通过PCBA本身作为传输介质与PCBA上的另外一路CPU互联,一般是通过XGMII(10Gigabit MediaIndependent Interface,高速并联总线)或者Serdes信号传输CPU之间的计算数据传输,一旦达到一定的误码阈值,服务器就可能产生宕机,进而影响分布式存储系统的可靠性。在实际生产中,CPU本身的批次、主板的PCBA质量、CPU与PCBA的接触性等多种因素,都可能导致CPU互联信号出现异常,这种异常短期内难以在生产线或者客户的应用表现出来,因此为后续的数据生产环境埋下巨大隐患。
发明内容
有鉴于此,本发明提出了一种分布式集群可靠性管理方法、装置及设备,其中,本发明提出的一种分布式集群可靠性管理方法通过同一个服务器节点的互联CPU的模式实现依次发送固定字符串,获取字符串的有效窗口并将有效窗口换算成实际眼图,按照实际眼图与理论眼图的比值计算单个服务器节点的实际误码率,根据分布式存储集群的高拓展性,将集群内的各个服务器节点对应的实际误码率等比换算,进而计算出分布式集群的CPU互联的实际误码率,通过将分布式集群的实际误码率与其对应的理论误码率进行比较,以判断分布式集群的可靠性。
基于以上目的,本发明的实施例的一个方面提供了一种分布式集群可靠性管理方法,所述方法包括以下步骤:根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。
在一些实施例中,方法还包括:计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。
在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图包括:设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。
在一些实施例中,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图。
在一些实施例中,所述设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据包括:将所述互联处理器设置为debug模式,根据所述debug模式设置所述单组并行总线的发送端按照时钟周期发送固定数据。
在一些实施例中,所述通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据包括:至少根据所述时钟周期和处理器的内存容量设置分割所述时钟周期的频率。
在一些实施例中,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图包括:获取所述单组并行总线的接收端在每两个所述时钟周期内连续读取相同值的最大时间长度,并将所述最大时间长度换算为所述固定数据对应的有效窗口的宽度。
在一些实施例中,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图还包括:根据所述固定数据对应的有效窗口的宽度计算转换后的实际眼图的宽度和高度,以得到所述固定数据对应的实际眼图。
在一些实施例中,所述通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线的误码率包括:通过计算所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的面积之比得到所述单组并行总线对应的单组误码率。
在一些实施例中,所述根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较包括:根据所述单个服务器节点的互联处理器的并行总线的组数将每组对应的单组误码率进行累加,得到所述单个服务器节点的实际误码率。
在一些实施例中,所述方法还包括:响应于所述单个服务器节点的实际误码率大于所述单个服务器节点的理论误码率,在所述分布式集群中去除所述单个服务器节点。
在一些实施例中,所述根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率包括:通过所述分布式集群中保留的服务器节点的数量得到所述分布式集群的误码率参数,并根据所述误码率参数以及保留的每个服务器节点对应的实际误码率计算得到所述分布式集群的实际误码率。
在一些实施例中,所述将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性包括:响应于所述分布式集群的实际误码率小于所述分布式集群的理论误码率,认定所述分布式集群当前运行可靠并且可以扩展服务器节点的数量。
在一些实施例中,所述将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性还包括:响应于所述分布式集群的实际误码率大于所述分布式集群的理论误码率,认定所述分布式集群当前运行不可靠并且需要减少服务器节点的数量。
本发明实施例的另一个方面,还提供了一种分布式集群可靠性管理装置,所述装置包括:第一模块,配置用于根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;第二模块,配置用于响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;第三模块,配置用于根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;第四模块,配置用于将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。
在一些实施例中,所述装置还包括:第五模块,配置用于计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;第六模块,配置用于通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。
在一些实施例中,所述第五模块进一步配置用于:设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
在一些实施例中,所述第五模块进一步还配置用于:通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。
本发明实施例的另一方面,还提供一种计算机设备,包括至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任一方法的步骤。
本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上任一方法步骤的计算机程序。
本发明至少具有以下有益效果:本发明提出一种分布式集群可靠性管理方法、装置及设备,其中,本发明提出的一种分布式集群可靠性管理方法通过计算出分布式集群中的单个服务器节点的实际误码率,进而得到分布式集群的实际误码率,将分布式集群中处理器互联的可靠性进行量化,以判断分布式集群的可靠性,并根据判断结果决定扩展服务器节点或者减少服务器节点,并及时识别潜在的问题,减少问题服务器节点,以保证分布式集群运行可靠。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的实施例。
图1示出了本发明提供的一种分布式集群可靠性管理方法的实施例的示意图;
图2示出了本发明提供的单个服务器节点的互联处理器的单组并行总线的眼图的示意图;
图3示出了本发明提供的分布式集群的服务器节点交互的示意图;
图4示出了本发明提供的一种分布式集群可靠性管理装置的实施例的示意图;
图5示出了本发明提供的一种计算机设备的实施例的示意图;
图6示出了本发明提供的一种计算机可读存储介质的实施例的示意图。
具体实施方式
以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其它实施例可以采取各种替代形式。
此外,需要说明的是术语“包括”、“包含”或其任何其它变形旨在涵盖非排他性的包括,以使包含一系列要素的过程、方法、物品或装置不仅包括那些要素,也可以包括未明确列出的或这些过程、方法、物品或装置所固有的要素。
下面将结合附图说明本申请的一个或多个实施例。
基于以上目的,本发明实施例的第一个方面,提出了一种分布式集群可靠性管理方法的实施例。图1示出的是本发明提供的一种分布式集群可靠性管理方法的实施例的示意图。如图1所示,本发明实施例的一种分布式集群可靠性管理方法包括以下步骤:
S1、根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;
S2、响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;
S3、根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;
S4、将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。
根据本发明的若干实施例,方法还包括:计算单个服务器节点的互联处理器的单组并行总线的实际眼图;通过单组并行总线的实际眼图与单组并行总线的理论眼图的比值得到单组并行总线对应的单组误码率。
根据本发明的若干实施例,计算单个服务器节点的互联处理器的单组并行总线的实际眼图包括:设置互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
根据本发明的若干实施例,计算单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过单组并行总线的接收端分割时钟周期,并按照分割时钟周期的频率从固定数据中读取数据。
根据本发明的若干实施例,计算单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:通过单组并行总线的接收端获取固定数据对应的有效窗口并转换为实际眼图。
根据本发明的若干实施例,设置互联处理器的单组并行总线的发送端按照时钟周期发送固定数据包括:将互联处理器设置为debug模式,根据debug模式设置单组并行总线的发送端按照时钟周期发送固定数据。
根据本发明的若干实施例,通过单组并行总线的接收端分割时钟周期,并按照分割时钟周期的频率从固定数据中读取数据包括:至少根据时钟周期和处理器的内存容量设置分割时钟周期的频率。
根据本发明的若干实施例,通过单组并行总线的接收端获取固定数据对应的有效窗口并转换为实际眼图包括:获取单组并行总线的接收端在每两个时钟周期内连续读取相同值的最大时间长度,并将最大时间长度换算为固定数据对应的有效窗口的宽度。
根据本发明的若干实施例,通过单组并行总线的接收端获取固定数据对应的有效窗口并转换为实际眼图还包括:根据固定数据对应的有效窗口的宽度计算转换后的实际眼图的宽度和高度,以得到固定数据对应的实际眼图。
根据本发明的若干实施例,通过单组并行总线的实际眼图与单组并行总线的理论眼图的比值得到单组并行总线的误码率包括:通过计算单组并行总线的实际眼图与单组并行总线的理论眼图的面积之比得到单组并行总线对应的单组误码率。
根据本发明的若干实施例,根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算单个服务器节点的实际误码率,并与单个服务器节点的理论误码率比较包括:根据单个服务器节点的互联处理器的并行总线的组数将每组对应的单组误码率进行累加,得到单个服务器节点的实际误码率。
根据本发明的若干实施例,方法还包括:响应于单个服务器节点的实际误码率大于单个服务器节点的理论误码率,在分布式集群中去除单个服务器节点。
根据本发明的若干实施例,根据分布式集群中保留的服务器节点的数量以及对应的实际误码率计算分布式集群的实际误码率包括:通过分布式集群中保留的服务器节点的数量得到分布式集群的误码率参数,并根据误码率参数以及保留的每个服务器节点对应的实际误码率计算得到分布式集群的实际误码率。
根据本发明的若干实施例,将分布式集群的实际误码率与分布式集群的理论误码率进行比较,以判断分布式集群的可靠性包括:响应于分布式集群的实际误码率小于分布式集群的理论误码率,认定分布式集群当前运行可靠并且可以扩展服务器节点的数量。
根据本发明的若干实施例,将分布式集群的实际误码率与分布式集群的理论误码率进行比较,以判断分布式集群的可靠性还包括:响应于分布式集群的实际误码率大于分布式集群的理论误码率,认定分布式集群当前运行不可靠并且需要减少服务器节点的数量。
以下给出了基于本发明的一种分布式集群可靠性管理方法的另一实施例的具体步骤。
本实施例中的分布式集群基于国产处理器互联,通过处理器的高速并联总线的TX端发送固定的字符串,比如10101010,在处理器的RX端通过分割单个时钟周期,获取字符串的有效窗口并换算成实际眼图,按照实际眼图与理论眼图的比例用来计算单个服务器节点的实际误码率,根据分布式存储集群的高拓展性,将集群内的服务器节点的误码率等比换算,计算出分布式集群的实际误码率,通过集群的实际误码率与集群的理论误码率比较判断当前集群扩展性是否已经到达上限及运行的可靠性。具体地,
(1)服务器开始部署业务之前,使用处理器厂商提供的工具设置CPU的模式,比如lHART(一种debug接口工具,根据处理器厂商不同会有不同的工具)。通过从单根并行总线的TX(发送端)按照时钟周期发送固定字符串101010,同时在RX端将每个时钟周期分成100个单位,定义为UI,即一个时钟周期等于100UI,每个UI读取一次数据。由于数据从0到1,从1到0在物理上为信号的跳变,此过程需要考虑信号的上升沿、下降沿以及CPU判断到达0或1的阈值范围,所以按照1、0两个数据为一个周期,在实际的读取过程中,单独连续为0或者单独连续为1的UI数值都不会超过50。定义信号的有效窗口为RX检测2个时钟周期内(由于RX的采样时钟触发可能从1、0数据的任何一处开始,采样两个时钟周期,以保证采样过程可以获取字符0的最大连续的UI数值)连续读取为0的UI计数。以XGMII信号为例,双路CPU并联总线共计64组RX与TX,第一组(XGMII TX1与RX1)的有效窗口定义为X1,并联总线的信号的上升沿及下降沿表示处理器本身、PCBA本身及生产组装的结合,即单个服务器节点的处理器互联信号的真实反馈,通过获取X1的有效窗口,即可将实际的信号质量数据化。
(2)图2示出的是本发明提供的单个服务器节点的互联处理器的单组并行总线的眼图的示意图,如图2所示,眼图的参数包括眼宽和眼高,根据信号的上升沿及下降沿,将眼图具体化为长宽高按照一定比例的六边形。其中开发过程中希望的眼图为理论眼图,面积为S,对应的误码率为10-x,厂商反馈的眼图为=直接淘汰的标准,实际测得的有效窗口X1转换成的实际眼图的面积为S1,获取到S1后,按照误码率E1=S1/S*10-x计算得到第一组并行总线的实际误码率E1。后续依次获取到64组并行总线对应的实际误码率,按照相同的比重进行叠加,获取到的那个服务器节点的实际误码率F1=E1+E2+E3+…+E64,如果开发过程个别的总线的设计质量表现较差,可根据实际开发过程做响应的倍数叠加。
(3)图3示出的为本发明提供的分布式集群的服务器节点交互的示意图,如图3所示,分布式集群包含前端网络和后端网络,分布式存储集群内每个服务器节点都需要与其他服务器节点进行数据交互,随着集群规模的扩大,对应的节点数及单个节点内的处理器互联传输数据负载也随之增大。根据由步骤(2)获取到的单个服务器节点的实际误码率结合分布式存储集群的扩展特性,随着集群的服务器节点数量N的增加,服务器节点之间的数据传输按照服务器节点数量N的倍数增加,因此,分布式集群的实际误码率为N*(F1+F2+F3+…+Fn)。通过将计算得到的分布式集群的实际误码率与分布式集群的理论误码率进行比较,评估该分布式集群是否存在问题以及是否可以增加服务器节点的数量,如果计算得到的分布式集群的实际误码率小于分布式集群的理论误码率,则表示该分布式集群运行可靠并且可以扩展服务器节点的数量;如果计算得到的分布式集群的实际误码率大于分布式集群的理论误码率,则表明分布式集群运行不可靠并且存在潜在问题,应该减少集群内服务器节点的数量。
本发明的实施例的第二个方面,提出了一种分布式集群可靠性管理装置。图4示出的是本发明提供的一种分布式集群可靠性管理装置的实施例的示意图。如图4所示,本发明提供的一种分布式集群可靠性管理装置包括:第一模块011,配置用于根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较;第二模块012,配置用于响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;第三模块013,配置用于根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;第四模块014,配置用于将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性。
基于以上目的,本发明实施例的第三个方面,提出了一种计算机设备,图5示出的是本发明提供的一种计算机设备的实施例的示意图。如图5所示,本发明提供的一种计算机设备的实施例,包括以下模块:至少一个处理器021;以及存储器022,存储器022存储有可在处理器021上运行的计算机指令023,该计算机指令023由处理器021执行时实现如上所述的方法的步骤。
本发明还提供了一种计算机可读存储介质。图6示出的是本发明提供的一种计算机可读存储介质的实施例的示意图。如图6所示,计算机可读存储介质031存储有被处理器执行时执行以下步骤的计算机程序032。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,设置系统参数的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、D0L或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (20)

1.一种分布式集群可靠性管理方法,其特征在于,包括:
根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较,其中,根据单组并行总线的实际眼图与理论眼图的计算结果得到所述单组并行总线对应的单组误码率;
响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;
根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;
将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性并基于判断结果确认在所述分布式集群中是否增加服务器节点的数量。
2.根据权利要求1所述的方法,其特征在于,所述根据单组并行总线的实际眼图与理论眼图的计算结果得到所述单组并行总线对应的单组误码率包括:
计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;
通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。
3.根据权利要求2所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图包括:
设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
4.根据权利要求3所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:
通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。
5.根据权利要求4所述的方法,其特征在于,所述计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图还包括:
通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图。
6.根据权利要求3所述的方法,其特征在于,所述设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据包括:
将所述互联处理器设置为debug模式,根据所述debug模式设置所述单组并行总线的发送端按照时钟周期发送固定数据。
7.根据权利要求4所述的方法,其特征在于,所述通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据包括:
至少根据所述时钟周期和处理器的内存容量设置分割所述时钟周期的频率。
8.根据权利要求5所述的方法,其特征在于,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图包括:
获取所述单组并行总线的接收端在每两个所述时钟周期内连续读取相同值的最大时间长度,并将所述最大时间长度换算为所述固定数据对应的有效窗口的宽度。
9.根据权利要求8所述的方法,其特征在于,所述通过所述单组并行总线的接收端获取所述固定数据对应的有效窗口并转换为实际眼图还包括:
根据所述固定数据对应的有效窗口的宽度计算转换后的实际眼图的宽度和高度,以得到所述固定数据对应的实际眼图。
10.根据权利要求2所述的方法,其特征在于,所述通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线的误码率包括:
通过计算所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的面积之比得到所述单组并行总线对应的单组误码率。
11.根据权利要求1所述的方法,其特征在于,所述根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较包括:
根据所述单个服务器节点的互联处理器的并行总线的组数将每组对应的单组误码率进行累加,得到所述单个服务器节点的实际误码率。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述单个服务器节点的实际误码率大于所述单个服务器节点的理论误码率,在所述分布式集群中去除所述单个服务器节点。
13.根据权利要求1所述的方法,其特征在于,所述根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率包括:
通过所述分布式集群中保留的服务器节点的数量得到所述分布式集群的误码率参数,并根据所述误码率参数以及保留的每个服务器节点对应的实际误码率计算得到所述分布式集群的实际误码率。
14.根据权利要求1所述的方法,其特征在于,所述将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性并基于判断结果确认在所述分布式集群中是否增加服务器节点的数量包括:
响应于所述分布式集群的实际误码率小于所述分布式集群的理论误码率,认定所述分布式集群当前运行可靠并且可以扩展服务器节点的数量。
15.根据权利要求1所述的方法,其特征在于,所述将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性并基于判断结果确认在所述分布式集群中是否增加服务器节点的数量还包括:
响应于所述分布式集群的实际误码率大于所述分布式集群的理论误码率,认定所述分布式集群当前运行不可靠并且需要减少服务器节点的数量。
16.一种分布式集群可靠性管理装置,其特征在于,所述装置包括:
第一模块,配置用于根据单个服务器节点的互联处理器的并行总线的组数以及每组对应的单组误码率计算所述单个服务器节点的实际误码率,并与所述单个服务器节点的理论误码率比较,其中,根据单组并行总线的实际眼图与理论眼图的计算结果得到所述单组并行总线对应的单组误码率;
第二模块,配置用于响应于所述单个服务器节点的实际误码率不大于所述单个服务器节点的理论误码率,在所述分布式集群中保留所述单个服务器节点;
第三模块,配置用于根据所述分布式集群中保留的服务器节点的数量以及对应的实际误码率计算所述分布式集群的实际误码率;
第四模块,配置用于将所述分布式集群的实际误码率与所述分布式集群的理论误码率进行比较,以判断所述分布式集群的可靠性并基于判断结果确认在所述分布式集群中是否增加服务器节点的数量。
17.根据权利要求16所述的装置,其特征在于,所述第一模块进一步配置用于:
计算所述单个服务器节点的互联处理器的单组并行总线的实际眼图;
通过所述单组并行总线的实际眼图与所述单组并行总线的理论眼图的比值得到所述单组并行总线对应的单组误码率。
18.根据权利要求17所述的装置,其特征在于,所述第一模块进一步配置用于:
设置所述互联处理器的单组并行总线的发送端按照时钟周期发送固定数据。
19.根据权利要求18所述的装置,其特性在于,所述第一模块进一步还配置用于:通过所述单组并行总线的接收端分割所述时钟周期,并按照分割所述时钟周期的频率从所述固定数据中读取数据。
20. 一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-15任意一项所述方法的步骤。
CN202310073409.5A 2023-01-19 2023-01-19 一种分布式集群可靠性管理方法、装置及设备 Active CN115801203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310073409.5A CN115801203B (zh) 2023-01-19 2023-01-19 一种分布式集群可靠性管理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310073409.5A CN115801203B (zh) 2023-01-19 2023-01-19 一种分布式集群可靠性管理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115801203A CN115801203A (zh) 2023-03-14
CN115801203B true CN115801203B (zh) 2023-04-25

Family

ID=85430254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310073409.5A Active CN115801203B (zh) 2023-01-19 2023-01-19 一种分布式集群可靠性管理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115801203B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739472A (zh) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 一种服务器高频数据传输的稳定性测试方法
CN108173715A (zh) * 2018-01-02 2018-06-15 郑州云海信息技术有限公司 一种获取分布式存储服务器硬件信息的方法、装置及设备
CN110515919A (zh) * 2019-08-20 2019-11-29 苏州浪潮智能科技有限公司 一种分布式集群提供多存储服务的方法、设备及可读介质
CN114356722A (zh) * 2022-01-12 2022-04-15 平安壹钱包电子商务有限公司 用于服务器集群的监控告警方法、系统、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10339535A1 (de) * 2003-08-26 2005-03-24 Deutsche Thomson-Brandt Gmbh Verfahren zum Abfragen von Informationen bezüglich einer Netzwerkteilnehmerstation in einem Netzwerk verteilter Stationen sowie Netzwerkteilnehmerstation für die Durchführung des Verfahrens
CN103313141B (zh) * 2013-05-08 2016-01-13 华中师范大学 一种用于分布式无线多播的协作节点选择建立方法
CN103401704A (zh) * 2013-07-24 2013-11-20 佳都新太科技股份有限公司 一种分布式日志采集服务器的实现方案
CN107590008B (zh) * 2017-08-02 2019-11-15 中国科学院计算技术研究所 一种通过加权熵判断分布式集群可靠度的方法和系统
CN110837432A (zh) * 2019-11-14 2020-02-25 北京金山云网络技术有限公司 服务集群中异常节点的确定方法、装置和监控服务器
US11539715B1 (en) * 2021-06-24 2022-12-27 Beyond Aerospace Ltd. Distributed ledger-based ad-hoc system, apparatus and method using fingerprint verification
CN115099133B (zh) * 2022-06-16 2024-08-02 南京航空航天大学 一种基于tlmpa-bp的集群系统可靠性评估方法
CN115525490A (zh) * 2022-09-29 2022-12-27 苏州浪潮智能科技有限公司 一种内存眼图测试方法、硬件调试设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739472A (zh) * 2012-06-29 2012-10-17 浪潮电子信息产业股份有限公司 一种服务器高频数据传输的稳定性测试方法
CN108173715A (zh) * 2018-01-02 2018-06-15 郑州云海信息技术有限公司 一种获取分布式存储服务器硬件信息的方法、装置及设备
CN110515919A (zh) * 2019-08-20 2019-11-29 苏州浪潮智能科技有限公司 一种分布式集群提供多存储服务的方法、设备及可读介质
CN114356722A (zh) * 2022-01-12 2022-04-15 平安壹钱包电子商务有限公司 用于服务器集群的监控告警方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN115801203A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN108319617B (zh) 确定数据库主从差异的方法、装置及切换控制方法、装置
CN102143008A (zh) 用于数据中心的诊断故障事件的方法及装置
US11341842B2 (en) Metering data management system and computer readable recording medium
CN110677292A (zh) 一种光口速率配置方法及装置
CN106095483A (zh) 服务的自动化部署方法及装置
CN114757142A (zh) 自纠错芯片验证方法、装置、设备及计算机可读介质
CN112838944B (zh) 诊断及管理、规则确定及部署方法、分布式设备、介质
CN111224807A (zh) 分布式日志处理方法、装置、设备及计算机存储介质
CN118349401A (zh) 测试设备、测试方法及测试系统
CN113434346B (zh) 一种差分信号极性连接的自动检测方法及系统
CN115801203B (zh) 一种分布式集群可靠性管理方法、装置及设备
CN108306780B (zh) 一种基于云环境的虚拟机通信质量自优化的系统和方法
CN116633766A (zh) 故障处理方法、装置、电子设备及存储介质
CN112073518B (zh) 云存储系统、云存储系统管理方法及中心管理节点
CN111885159B (zh) 数据采集方法、装置、电子设备及存储介质
CN112468329A (zh) 一种服务器批量分组管理的方法、装置、设备及可读介质
CN114157674A (zh) 无线通信方法、装置、系统、服务器以及介质
CN110795291A (zh) 一种数据库处理方法及装置
CN116628508B (zh) 模型训练过程异常检测方法、装置、设备及存储介质
CN118550767A (zh) 一种财务数据实时同步备份方法及相关设备
CN116483678B (zh) 一种信息处理方法和相关装置
CN111917599B (zh) 一种云平台主机状态的管理系统与方法
CN110046120B (zh) 基于iic协议的数据处理方法、装置、系统及存储介质
CN110505012B (zh) 一种波分系统的瓶颈判断方法及装置
CN116149853A (zh) 集群主机的配置方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant