CN115878441A - 基于一致性缓存的高可用计算服务方法、系统及设备 - Google Patents

基于一致性缓存的高可用计算服务方法、系统及设备 Download PDF

Info

Publication number
CN115878441A
CN115878441A CN202310164874.XA CN202310164874A CN115878441A CN 115878441 A CN115878441 A CN 115878441A CN 202310164874 A CN202310164874 A CN 202310164874A CN 115878441 A CN115878441 A CN 115878441A
Authority
CN
China
Prior art keywords
data
computing
subsystem
local
cache
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310164874.XA
Other languages
English (en)
Other versions
CN115878441B (zh
Inventor
刘晶
田峰
于洋
李晓丹
谭丽明
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202310164874.XA priority Critical patent/CN115878441B/zh
Publication of CN115878441A publication Critical patent/CN115878441A/zh
Application granted granted Critical
Publication of CN115878441B publication Critical patent/CN115878441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种基于一致性缓存的高可用计算服务方法、系统及设备,应用于计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,所述高可用计算服务方法,包括:以能否正常提供计算服务为基准,划分计算设备状态;获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;以及打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。本申请实施例的系统提供数据一致性服务,以便备机的应用服务程序可无缝衔接,承担计算服务功能。

Description

基于一致性缓存的高可用计算服务方法、系统及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于一致性缓存的高可用计算服务方法、系统及设备。
背景技术
高可用计算服务系统的目标是为了确保提供稳定、可靠的计算服务。为了提高计算服务的可用性,当前的技术方案主要从两方面着手,一是监测计算设备软硬件运行状态,二是采用冗余备份的方法。监测计算设备软硬件运行状态是为了确保计算设备的可靠性,能够提前预知计算设备软硬件故障,便于运维人员保养维护,或者及时发现故障发生,以便运维人员处理维修。冗余备份的方法则是在由于某些因素致使的当前计算服务系统无法正常运行,且短时间内故障无法消除,由备份的计算设备继续提供计算服务,以便及时处理和更新发生故障的计算设备。
在现有的计算设备状态检测技术和冗余备份技术已经十分成熟,但这两种技术之间的耦合较少。现有的状态监测系统可以获取计算设备系统运行时的各种硬件参数。而软件服务的各项参数,则是可以通过协议,写入一块专属存储空间,经由特定的接口进行读取。而冗余备份则是探测到故障发生,进而切换其他计算设备继续提供服务。现有的高可用服务系统存在以下3个问题有待解决:1.如何从软硬件数据,来评估计算设备的健康状态,或者判定是否发生故障;2.如何提高冗余备份切换工作模式的速率,即探测到故障发生或者故障发生前的征兆,能够迅速切换承担应用服务的计算设备;3.应用服务的接续问题,即当切换至备机时,应用服务如何避免重新启动,直接在备机接续运行。
发明内容
本申请实施例提供一种基于一致性缓存的高可用计算服务方法、系统及设备,用以解决或者至少部分解决上述问题,及时发现故障,能够联动冗余机制,迅速可靠的切换主备机,提供数据一致性服务,以便备机的应用服务程序可无缝衔接,承担计算服务功能。
本申请实施例提供一种基于一致性缓存的高可用计算服务方法,应用于计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连;
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据;
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据;
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统;
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口;
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式;
所述高可用计算服务方法,包括:
以能否正常提供计算服务为基准,划分计算设备状态;
获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;以及
打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。
可选的,以能否正常提供计算服务为基准,划分计算设备状态包括;以能否正常提供计算服务为基准,将所述计算设备状态划分为健康、良好、一般、否决四种状态。
可选的,获取的计算设备的运行数据包括硬件运行数据和软件运行数据;
基于所述运行数据确定计算设备的健康状态包括:
预先选取健康状态下各项参数值,建立健康样本集;
计算典型故障样本点与健康样本之间的马氏距离,并以此为基准划分健康状态;
计算所述运行数据对应的样本点与健康样本之间的马氏距离,以利用马氏距离确定所述计算设备的健康状态,其中马氏距离越大,表征其偏离健康样本的程度越远。
可选的,获取计算设备的运行数据包括:
预先配置指定容量的存储空间作为一致性存储空间,所述一致性存储空间可双端读取,其一端读写端口由FPGA逻辑控制读写,另一读写端口由驱动控制读写,所述FPGA逻辑包含硬件信息读取模块、软件信息读取模块、本机信息发送模块,它机信息读取模块、一致性内存更新模块;
通过硬件信息读取模块和软件信息读取模块来获取计算设备的运行数据。
可选的,打包本机数据、接收它机数据,写入所述一致性缓存包括:
将获取到的运行数据以及它机/本机的主副机状态打包成它机/本机数据帧;
通过指定的帧头帧尾格式发送所述它机/本机数据帧;
根据所述它机/本机数据帧,将本机与它机的运行数据写入一致性缓存,以确保在一个传输周期内,双机具有相同的缓存数据。
本申请实施例还提出一种基于一致性缓存的高可用计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连;
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据;
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据;
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统;
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口;
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式。
本申请实施例还提出一种计算服务设备,包括主处理器,协处理器,所述主处理器与所述协处理器相连组成计算板卡,所述协处理器引出信号线与其他计算板卡相连,组成冗余热备系统,所述冗余热备系统用于运行应用服务程序;
所述主处理器用于,预先以能否正常提供计算服务为基准,划分计算设备状态;并获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;
所述协处理器,用于打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。
本申请实施例系统能够实时检测计算服务系统相关的软硬件状态,及时发现故障,并且能够联动冗余机制,迅速可靠的切换主备机。本申请实施例系统提供数据一致性服务,以便备机的应用服务程序可无缝衔接,承担计算服务功能。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例的计算服务系统架构示例;
图2为本申请实施例基于计算服务系统的高可用计算服务方法流程示例;
图3为本申请实施例的计算服务设备架构示例;
图4为本申请实施例的计算服务设备的硬件架构示例。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供一种基于一致性缓存的高可用计算服务方法,应用于计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,如图1所示,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连。例如计算子系统可以运行完整的Linux操作系统,负责提供应用服务程序。本申请实施例中计算子系统包括计算设备,以及基于计算设备已经运行的操作系统,应用程序等。
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据,并将检测数据通过硬件监测子系统的数据接口输出。所述硬件监测子系统还可以用于对从各种传感器与程序传输的数据进行收集,清洗以及归一化处理,以便评估计算设备的健康状态。
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据、处理日志,通过软件监测系统数据接口输出。
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统。
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口。
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式;
所述高可用计算服务方法,如图2所示,包括:
根据实际需求,以能否正常提供计算服务为基准,划分计算设备状态;
获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态。所获取的计算设备的运行数据包括硬件状态数据和软件运行数据,例如硬件数据包括温度、电压、电流、自检灯等特征数据,软件运行数据例如可以是系统服务故障和应用服务故障,系统服务故障是基于操作系统内核的故障,直接导致操作系统不能正常运行。应用服务故障,则是相关人员开发的计算应用服务程序出现故障或者程序失控,结果异常等情况。由此根据硬件状态数据和软件运行数据计算设备的健康状态。
打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。例如若本机为主机,则对外提供服务,若本机为它机,则内部运行服务程序,不对外输出。
本申请实施例系统能够实时检测计算服务系统相关的软硬件状态,及时发现故障,并且能够联动冗余机制,迅速可靠的切换主备机。本申请实施例系统提供数据一致性服务,以便备机的应用服务程序可无缝衔接,承担计算服务功能。
在一些实施例中,以能否正常提供计算服务为基准,划分计算设备状态包括;以能否正常提供计算服务为基准,将所述计算设备状态划分为健康、良好、一般、否决四种状态。具体的划分的依据可以是设计人员提出的先验条件,如剩余内存,正常温度范围,正常电压范围等。
在一些实施例中,获取的计算设备的运行数据包括硬件运行数据和软件运行数据;
基于所述运行数据确定计算设备的健康状态包括:
预先选取健康状态下各项参数值,建立健康样本集;
计算典型故障样本点与健康样本之间的马氏距离,并以此为基准划分健康状态;
计算所述运行数据对应的样本点与健康样本之间的马氏距离,以利用马氏距离确定所述计算设备的健康状态,其中马氏距离越大,表征其偏离健康样本的程度越远。
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存可以采用如下方式,将定时收发的相关数据,写入固定的存储空间内,新的数据覆盖旧数据,以此往复更新,从而应用服务程序可以从一致缓存中读取运行所需要的参数和控制指令。
在一些实施例中,获取计算设备的运行数据包括:
预先配置指定容量的存储空间作为一致性存储空间,所述一致性存储空间可双端读取,其一端读写端口由FPGA逻辑控制读写,另一读写端口由驱动控制读写,所述FPGA逻辑包含硬件信息读取模块、软件信息读取模块、本机信息发送模块,它机信息读取模块、一致性内存更新模块。
一些具体示例中,可以预先配置容量为64Mb的BRAM,作为一致性存储空间,该一致性存储空间可双端读取,双端可同时读取,其一端读写端口由FPGA逻辑控制读写,另一端口,通过PCIE接口由驱动控制读写。
FPGA逻辑包含硬件信息读取模块、软件信息读取模块、本机信息发送模块,它机信息读取模块、一致性内存更新模块。
硬件信息读取模块包含通过SPI总线,读取布置的温度传感器数据,通过XADC读取FPGA内核电压,12V输入电压以及3.3V输入电压,通过开关量读取自检状态。
软件信息读取模块是通过按照预设协议地址,读取计算板卡的各项参数,具体包括cpu使用率、网络联通状态、剩余硬盘、剩余内存、应用服务状态。
通过硬件信息读取模块和软件信息读取模块来获取计算设备的运行数据。
在一些实施例中,打包本机数据、接收它机数据,写入所述一致性缓存包括:
将获取到的运行数据以及它机/本机的主副机状态打包成它机/本机数据帧,并且转换成对应不同脉宽波形输出。
通过指定的帧头帧尾格式发送所述它机/本机数据帧,例如可以定义“1”的波形为0.64微秒高电平,0.16微秒低电平,定义“0”的波形为0.16微秒高电平,0.64微秒低电平,帧头格式为0X5555,帧尾为0XAAAA,并通过TTL-转485芯片,将数据帧发出,发送周期为10毫秒,由本机信息发送模块执行发送过程。它机信息读取模块即为按照步骤五的定义,解析接收的它机数据。
根据所述它机/本机数据帧,将本机与它机的运行数据写入一致性缓存,以确保在一个传输周期内,双机具有相同的缓存数据。在某一计算板卡出现问题的情况下,另一板计算卡的一致性缓存中的数据可以无缝供应用程序读取,提供连续性的服务。
本申请实施例还提出一种基于一致性缓存的高可用计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连;
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据;
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据;
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统;
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口;
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式。
本申请实施例还提出一致性缓存的高可用计算服务装置。该装置为一计算设备,具体主处理器、高可用协处理器、主机存储、协处理器存储以及物理电气接口等。主处理器为运行操作系统提供计算能力,可根据应用服务需求,选取合适的主处理器。主机存储承担计算子系统的存储功能。协处理器主要负责高可用子系统以及一致性缓存子系统的实现,因此需要实时性,多并发性能力较强的处理芯片,在具体示例中可以采用FPGA,协处理器存储承担协处理器的存储功能。物理电气接口为连接传感器与PCIE设备预留,用以实现数据传输通道。
本申请实施例还提出一种计算服务设备,如图3所示,包括主处理器,协处理器,所述主处理器与所述协处理器相连组成计算板卡,所述协处理器引出信号线与其他计算板卡相连,组成冗余热备系统,所述冗余热备系统用于运行应用服务程序;
所述主处理器用于,预先以能否正常提供计算服务为基准,划分计算设备状态;并获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;
所述协处理器,用于打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。
本申请实施例还提出一种计算服务设备的实施案例,本示例中计算服务设备为VPX总线型计算板卡,如图4所示,主处理器为龙芯3A3000,高可用协处理器为JFM7K325T系列FPGA芯片。主处理器与协处理器之间通过PCIEx8接口相连。FPGA芯片引出RS-485信号,通过计算板从VPX连接器引出,以便与其他计算板卡相连,组成冗余热备系统。计算板卡运行国产麒麟操作系统,提供计算服务。
首先在硬件层次,本示例部署了包含温度传感器,电流、电压DAC模块、以及硬件开关状态等多种数据源。通过I2C总线,FPGA内部XADC模块、开关量等多种总线和信号方式传输数据信息。温度传感器分布在cpu,电源等重要位置,更能表征设备状态。FPGA内部XADC模块可以获取内核电压,电流、工作温度等多种数据。
在软件层次,通过操作系统内核工具,实时监控cpu使用率、网络联通状态、剩余硬盘、剩余内存、应用服务状态等数据。
FPGA实现高可用子系统与一致性缓存子系统。
FPGA实时并行接收软硬件数据,并对其进行清洗和归一化处理。通过提前实验测量的健康状态下个样本的数值,建立健康样本数据对数据进行降维融合,然后计算马氏距离。
通过主成分分析法,降维融合后的样本维数为4维,对于新的特征样本,使用马氏距离计算健康值,马氏距离的计算方法亦为已经公布的方法,故不再赘述。
然后根据健康值,划分健康、良好、一般和否决,通过RS-485总线,与其他板卡进行通信,实现冗余热备系统,数据采用串行双工模式进行传输。FPGA将这些数据进行打包,写入外挂的SPI FLASH芯片中。一致性缓存子系统需要从计算子系统和高可用子系统中,实时记录更新关键数据,并将关键数据定时写入PCIE的Bar地址空间。
计算子系统中的应用服务可以通过访问PCIE的Bar地址空间,获取一致性缓存内容,以及主副工作状态等信息,进而提供不同的计算服务。
一种示例性的FPGA实现高一致性缓存的具体过程如下:
开辟容量为64Mb的BRAM,作为一致性存储空间,该一致性存储空间可双端读取,双端可同时读取,其一端读写端口由FPGA逻辑控制读写,另一端口,通过PCIE接口由驱动控制读写。
FPGA逻辑包含硬件信息读取模块、软件信息读取模块、本机信息发送模块,它机信息读取模块、一致性内存更新模块。
硬件信息读取模块包含通过SPI总线,读取布置的温度传感器数据,通过XADC读取FPGA内核电压,12V输入电压以及3.3V输入电压,通过开关量读取自检状态。
软件信息读取模块是通过按照预设协议地址,读取计算板卡的各项参数,具体包括cpu使用率、网络联通状态、剩余硬盘、剩余内存、应用服务状态。
将以上步骤收集的数据,连同计算所得的健康值,以及本机的主副机状态打包成本机数据帧,并且转换成对应不同脉宽波形输出,定义“1”的波形为0.64微秒高电平,0.16微秒低电平,定义“0”的波形为0.16微秒高电平,0.64微秒低电平,帧头格式为0X5555,帧尾为0XAAAA,并通过TTL-转485芯片,将数据帧发出,发送周期为10毫秒,由本机信息发送模块执行发送过程。
它机信息读取模块即为按照步骤五的定义,解析接收的它机数据。
将本机与它机的数据写入一致性缓存中,此步骤可确保插入同一机箱的计算板一致性缓存的相同性及实时同步性,当某一板卡出现问题,另一板卡的一致性缓存中的数据可以无缝供应用程序读取,提供连续性的服务。
本申请实施例通过采集软硬件数据,可以更准确表征设备的健康状态,并且通过引入一致性缓存,解决了设备工作状态切换之间,计算应用服务中断的问题,实时性高,较传统冗余热备系统,提高主副切换间隔速率,大大提高了计算应用服务的连续性和稳定性。
需要说明的是,在本申各实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以供一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本申请的保护之内。

Claims (7)

1.一种基于一致性缓存的高可用计算服务方法,应用于计算服务系统,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连;
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据;
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据;
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统;
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口;
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式;
所述高可用计算服务方法,包括:
以能否正常提供计算服务为基准,划分计算设备状态;
获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;以及
打包本机数据、接收它机数据,写入所述一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。
2.如权利要求1所述的一种基于一致性缓存的高可用计算服务方法,其特征在于,以能否正常提供计算服务为基准,划分计算设备状态包括;以能否正常提供计算服务为基准,将所述计算设备状态划分为健康、良好、一般、否决四种状态。
3.如权利要求1所述的一种基于一致性缓存的高可用计算服务方法,其特征在于,获取的计算设备的运行数据包括硬件运行数据和软件运行数据;
基于所述运行数据确定计算设备的健康状态包括:
预先选取健康状态下各项参数值,建立健康样本集;
计算典型故障样本点与健康样本之间的马氏距离,并以此为基准划分健康状态;
计算所述运行数据对应的样本点与健康样本之间的马氏距离,以利用马氏距离确定所述计算设备的健康状态,其中马氏距离越大,表征其偏离健康样本的程度越远。
4.如权利要求1所述的一种基于一致性缓存的高可用计算服务方法,其特征在于,获取计算设备的运行数据包括:
预先配置指定容量的存储空间作为一致性存储空间,所述一致性存储空间可双端读取,其一端读写端口由FPGA逻辑控制读写,另一读写端口由驱动控制读写,所述FPGA逻辑包含硬件信息读取模块、软件信息读取模块、本机信息发送模块,它机信息读取模块、一致性内存更新模块;
通过硬件信息读取模块和软件信息读取模块来获取计算设备的运行数据。
5.如权利要求4所述的一种基于一致性缓存的高可用计算服务方法,其特征在于,打包本机数据、接收它机数据,写入所述一致性缓存包括:
将获取到的运行数据以及它机/本机的主副机状态打包成它机/本机数据帧;
通过指定的帧头帧尾格式发送所述它机/本机数据帧;
根据所述它机/本机数据帧,将本机与它机的运行数据写入一致性缓存,以确保在一个传输周期内,双机具有相同的缓存数据。
6.一种基于一致性缓存的高可用计算服务系统,其特征在于,所述计算服务系统包括计算子系统、硬件监测子系统、软件监测子系统、一致性缓存子系统、高可用子系统以及冗余热备子系统,其中,
所述计算子系统,作为应用服务运行的基础,运行完整的操作系统,与一致性缓存子系以及高可用子系统相连;
所述硬件监测子系统,与布置在计算设备中的各类传感器相连,用以采集计算设备的硬件状态数据;
所述软件监测子系统,运行于操作系统中,用于检测是否有系统服务故障和应用服务故障,并记录工作状态数据;
所述高可用子系统,与所述硬件监测子系统和所述软件监测子系统相连接,用于处理所述硬件监测子系统和所述软件监测子系统所采集的状态数据,评估计算设备的健康状态,以及将需要写入一致性缓存的数据进行打包,发送给一致性缓存子系统;
所述一致性缓存子系统,用于将接收到的数据写入一致性缓存中、更新一致性缓存,并为应用服务程序提供数据接口;
所述冗余热备子系统,包括至少两个计算设备,用于根据本机以及它机的健康状态,确定工作模式。
7.一种计算服务设备,其特征在于,包括主处理器,协处理器,所述主处理器与所述协处理器相连组成计算板卡,所述协处理器引出信号线与其他计算板卡相连,组成冗余热备系统,所述冗余热备系统用于运行应用服务程序;
所述主处理器用于,预先以能否正常提供计算服务为基准,划分计算设备状态;并获取计算设备的运行数据,并基于所述运行数据确定计算设备的健康状态;
所述协处理器,用于打包本机数据、接收它机数据,写入一致性缓存,以供应用服务程序从一致性缓存中读取相关数据及控制指令,并获取本机工作模式,以基于本机工作模式确定是否对外输出。
CN202310164874.XA 2023-02-27 2023-02-27 基于一致性缓存的高可用计算服务方法、系统及设备 Active CN115878441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310164874.XA CN115878441B (zh) 2023-02-27 2023-02-27 基于一致性缓存的高可用计算服务方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310164874.XA CN115878441B (zh) 2023-02-27 2023-02-27 基于一致性缓存的高可用计算服务方法、系统及设备

Publications (2)

Publication Number Publication Date
CN115878441A true CN115878441A (zh) 2023-03-31
CN115878441B CN115878441B (zh) 2023-06-16

Family

ID=85761601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310164874.XA Active CN115878441B (zh) 2023-02-27 2023-02-27 基于一致性缓存的高可用计算服务方法、系统及设备

Country Status (1)

Country Link
CN (1) CN115878441B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084313A2 (en) * 2000-05-02 2001-11-08 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
CN103684839A (zh) * 2012-09-26 2014-03-26 中国移动通信集团四川有限公司 一种用于双机热备的数据传输方法、系统及服务器
CN106254097A (zh) * 2016-07-20 2016-12-21 浙江众合科技股份有限公司 一种基于第三方判定的ats系统双机仲裁系统及方法
CN112118130A (zh) * 2020-08-25 2020-12-22 通号城市轨道交通技术有限公司 自适应的分布式缓存主备状态信息切换方法及装置
CN114384896A (zh) * 2022-01-12 2022-04-22 北京交通大学 轨道交通列控车载设备模拟电路级健康度预测方法及系统
CN115408240A (zh) * 2022-09-09 2022-11-29 中国兵器装备集团自动化研究所有限公司 一种冗余系统主备方法、装置、设备及储存介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084313A2 (en) * 2000-05-02 2001-11-08 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
CN103684839A (zh) * 2012-09-26 2014-03-26 中国移动通信集团四川有限公司 一种用于双机热备的数据传输方法、系统及服务器
CN106254097A (zh) * 2016-07-20 2016-12-21 浙江众合科技股份有限公司 一种基于第三方判定的ats系统双机仲裁系统及方法
CN112118130A (zh) * 2020-08-25 2020-12-22 通号城市轨道交通技术有限公司 自适应的分布式缓存主备状态信息切换方法及装置
CN114384896A (zh) * 2022-01-12 2022-04-22 北京交通大学 轨道交通列控车载设备模拟电路级健康度预测方法及系统
CN115408240A (zh) * 2022-09-09 2022-11-29 中国兵器装备集团自动化研究所有限公司 一种冗余系统主备方法、装置、设备及储存介质

Also Published As

Publication number Publication date
CN115878441B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US11687391B2 (en) Serializing machine check exceptions for predictive failure analysis
CN111414268B (zh) 故障处理方法、装置及服务器
JP4886601B2 (ja) Usbインタフェース設備に対して操作を行う装置及び方法
JP2017507432A (ja) 複数のセンサを有する測定システム
CN105183575A (zh) 处理器故障的诊断方法、装置及系统
CN102750109A (zh) 资料同步系统及方法
CN111984487A (zh) 一种离机记录故障硬件位置的方法及装置
CN104239174A (zh) Bmc远程调试系统及方法
CN113868051B (zh) 一种PCIe故障检测装置、方法、设备和存储介质
EP3534259B1 (en) Computer and method for storing state and event log relevant for fault diagnosis
CN112019455B (zh) 一种基于可编程逻辑器件的交换机监控装置及方法
CN210721440U (zh) 一种pcie卡异常恢复装置及pcie卡、pcie扩展系统
CN110825547B (zh) 一种基于smbus的pcie卡异常恢复装置及方法
CN111488050B (zh) 一种电源监控方法、系统及服务器
CN115878441B (zh) 基于一致性缓存的高可用计算服务方法、系统及设备
CN104484260A (zh) 一种基于GJB289总线接口SoC的仿真监控电路
CN112015600A (zh) 日志信息处理系统、日志信息处理方法及装置和交换机
CN112383462B (zh) 一种网络设备以及总线配置方法
CN115470056A (zh) 服务器硬件上电启动故障排查方法、系统、装置及介质
CN111858187A (zh) 一种电子设备及业务切换方法、装置
CN112084097B (zh) 一种磁盘告警方法及装置
CN116662042A (zh) 内存装置及其工作方法、计算机可读存储介质及设备
CN211603369U (zh) 一种服务器dc掉电故障定位系统
CN113419618A (zh) 服务器解码卡下电控制方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant