CN114546694B - 一种缓存故障管理方法、系统、存储介质及设备 - Google Patents

一种缓存故障管理方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN114546694B
CN114546694B CN202210108171.0A CN202210108171A CN114546694B CN 114546694 B CN114546694 B CN 114546694B CN 202210108171 A CN202210108171 A CN 202210108171A CN 114546694 B CN114546694 B CN 114546694B
Authority
CN
China
Prior art keywords
local control
cache
storage system
management module
fault management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210108171.0A
Other languages
English (en)
Other versions
CN114546694A (zh
Inventor
王志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210108171.0A priority Critical patent/CN114546694B/zh
Publication of CN114546694A publication Critical patent/CN114546694A/zh
Application granted granted Critical
Publication of CN114546694B publication Critical patent/CN114546694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

本发明提供了一种缓存故障管理方法、系统、存储介质及设备,方法包括:响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认本控存储系统是否处于性能模式;若是,判断缓存故障区域的大小是否超过第一预设阈值;如果超过第一预设阈值,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;如果前端业务压力值未超过第二预设阈值且本控缓存故障管理模块接收到关于本控存储系统重启的第一请求,对本控缓存实体和对应位置的对控缓存实体分别进行隔离。本发明可以避免在整机发生缓存故障时整机系统的可用性被影响的情况。

Description

一种缓存故障管理方法、系统、存储介质及设备
技术领域
本发明涉及存储技术领域,尤其涉及一种缓存故障管理方法、系统、存储介质及设备。
背景技术
统一存储(有时也称网络统一存储或者NUS)是一个能在单一设备上运行和管理文件及应用程序的存储系统。统一存储实质上是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN(Storage Area Network,存储区域网络)的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。
当前统一存储利用双控或者多控下故障切换的技术来进行整机可靠性的保障。例如本控缓存故障时,本控停止服务,本控业务会立即转移到对控完成。这个过程中对控业务压力骤增,特别是在前端业务压力很大的时候,容易造成时延上升、业务卡顿,从而影响了整机系统的可用性。
发明内容
有鉴于此,本发明的目的在于提出一种缓存故障管理方法、系统、存储介质及设备,用以解决现有技术中当本控缓存故障时,本控立即停止服务并将服务转移到对控,造成对控业务压力骤增,从而影响整机系统可用性的问题。
基于上述目的,本发明提供了一种缓存故障管理方法,包括以下步骤:
响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认本控存储系统是否处于性能模式;
响应于本控存储系统处于性能模式,判断缓存故障区域的大小是否超过第一预设阈值;
响应于缓存故障区域的大小超过第一预设阈值,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;
响应于前端业务压力值未超过第二预设阈值且本控缓存故障管理模块接收到关于本控存储系统重启的第一请求,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离。
在一些实施例中,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置包括:
由本控缓存故障管理模块将缓存故障区域所在的本控缓存实体的位置告知对应的对控缓存故障管理模块,并通过对控缓存故障管理模块检测出对应的对控缓存实体的位置。
在一些实施例中,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离包括:
由本控缓存故障管理模块基于第一请求向本控存储系统的系统启动固件发送隔离位置信息,并使其在本控存储系统重启过程中基于隔离位置信息对本控缓存实体进行隔离;
响应于本控存储系统完成重启,由本控缓存故障管理模块向对控缓存故障管理模块发送关于其所处的对控存储系统重启的第二请求,并使对控存储系统基于第二请求进行系统重启,且在系统重启过程中由对控存储系统的系统启动固件对对控缓存实体进行隔离。
在一些实施例中,方法还包括:
响应于前端业务压力值超过第二预设阈值,由本控缓存故障管理模块控制本控存储系统重启,并通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
在一些实施例中,方法还包括:
由本控存储系统所在的集群基于隔离结果对集群中的缓存配置进行调整。
在一些实施例中,方法还包括:
响应于本控存储系统处于非性能模式且应用属于关键应用,由本控缓存故障管理模块控制本控存储系统重启,并通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
在一些实施例中,方法还包括:
响应于本控存储系统处于非性能模式且应用属于非关键应用,判断本控缓存故障管理模块是否接收到关于本控存储系统重启的第三请求;
响应于本控缓存故障管理模块接收到第三请求,基于第三请求通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
本发明的另一方面,还提供了一种缓存故障管理系统,包括:
确认模块,配置用于响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认本控存储系统是否处于性能模式;
第一判断模块,配置用于响应于本控存储系统处于性能模式,判断缓存故障区域的大小是否超过第一预设阈值;
第二判断模块,配置用于响应于缓存故障区域的大小超过第一预设阈值,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;以及
隔离模块,配置用于响应于前端业务压力值未超过第二预设阈值且本控缓存故障管理模块接收到关于本控存储系统重启的第一请求,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离。
本发明的又一方面,还提供了一种计算机可读存储介质,存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述方法。
本发明的再一方面,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该计算机程序被处理器执行时执行上述方法。
本发明至少具有以下有益技术效果:
本发明通过缓存故障管理模块对存储系统中的缓存故障进行实时管理,特别是在存储系统处于性能模式下对缓存故障区域进行精细化隔离;在本控存储系统的前端业务压力较小时,可以不立即停止本控存储系统的服务,而是在前端业务压力超过第二预设阈值时,在下次收到重启请求后才对本控存储系统进行重启,可以避免本控缓存发生故障就立即停止服务而将业务马上转移到对控存储系统的情况,从而避免了对控存储系统因业务压力增大而影响整机可靠性的情况,因此有利于保证整机正常提供服务,进而提高了整机系统的可用性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明实施例提供的缓存故障管理方法的示意图;
图2为根据本发明实施例提供的实现缓存故障管理方法的结构示意图;
图3为根据本发明实施例提供的缓存故障管理系统的示意图;
图4为根据本发明实施例提供的实现缓存故障管理方法的计算机可读存储介质的示意图;
图5为根据本发明实施例提供的执行缓存故障管理方法的计算机设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。
基于上述目的,本发明实施例的第一个方面,提出了一种缓存故障管理方法的实施例。图1示出的是本发明提供的缓存故障管理方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
步骤S10、响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认本控存储系统是否处于性能模式;
步骤S20、响应于本控存储系统处于性能模式,判断缓存故障区域的大小是否超过第一预设阈值;
步骤S30、响应于缓存故障区域的大小超过第一预设阈值,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;
步骤S40、响应于前端业务压力值未超过第二预设阈值且本控缓存故障管理模块接收到关于本控存储系统重启的第一请求,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离。
本发明实施例通过缓存故障管理模块对存储系统中的缓存故障进行实时管理,特别是在存储系统处于性能模式下对缓存故障区域进行精细化隔离;在本控存储系统的前端业务压力较小时,可以不立即停止本控存储系统的服务,而是在前端业务压力超过第二预设阈值时,在下次收到重启请求后才对本控存储系统进行重启,可以避免本控缓存发生故障就立即停止服务而将业务马上转移到对控存储系统的情况,从而避免了对控存储系统因业务压力增大而影响整机可靠性的情况,因此有利于保证整机正常提供服务,进而提高了整机系统的可用性和可靠性。
在一些实施例中,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置包括:由本控缓存故障管理模块将缓存故障区域所在的本控缓存实体的位置告知对应的对控缓存故障管理模块,并通过对控缓存故障管理模块检测出对应的对控缓存实体的位置。
本实施例中,在本控存储系统或对控存储系统中,缓存实体都不只一个,均具有多个缓存实体。
在一些实施例中,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离包括:由本控缓存故障管理模块基于第一请求向本控存储系统的系统启动固件发送隔离位置信息,并使其在本控存储系统重启过程中基于隔离位置信息对本控缓存实体进行隔离;响应于本控存储系统完成重启,由本控缓存故障管理模块向对控缓存故障管理模块发送关于其所处的对控存储系统重启的第二请求,并使对控存储系统基于第二请求进行系统重启,且在系统重启过程中由对控存储系统的系统启动固件对对控缓存实体进行隔离。
本实施例中,通过本控存储系统的系统启动固件对本控缓存实体进行隔离,是指在本控存储系统启动过程中,系统启动固件会跳过本控缓存实体,对该本控缓存实体相邻的其他本控缓存实体进行正常启用,而不启用该本控缓存实体。类似地,通过对控存储系统的系统启动固件对对控缓存实体进行隔离,是指在对控存储系统启动过程中,系统启动固件会跳过对控缓存实体,对该对控缓存实体相邻的其他对控缓存实体进行正常启用,而不启用该对控缓存实体。
在一些实施例中,方法还包括:响应于前端业务压力值超过第二预设阈值,由本控缓存故障管理模块控制本控存储系统重启,并通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
本实施例中,假设第二预设阈值为50%,则在本控存储系统的前端业务压力超过50%时,控制本控存储系统立刻停止服务,进行重启。重启时,仅对缓存故障区域进行隔离即可。
在一些实施例中,方法还包括:由本控存储系统所在的集群基于隔离结果对集群中的缓存配置进行调整。
本实施例中,由于对部分本控缓存实体和对控缓存实体进行了隔离,因此集群中的缓存区域减少了,从而需要对集群中的缓存配置进行调整。
在一些实施例中,方法还包括:响应于本控存储系统处于非性能模式且应用属于关键应用,由本控缓存故障管理模块控制本控存储系统重启,并通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
在一些实施例中,方法还包括:响应于本控存储系统处于非性能模式且应用属于非关键应用,判断本控缓存故障管理模块是否接收到关于本控存储系统重启的第三请求;响应于本控缓存故障管理模块接收到第三请求,基于第三请求通知本控存储系统的系统启动固件对缓存故障区域进行隔离。
图2为根据本发明实施例提供的实现缓存故障管理方法的结构示意图。如图2所示,实现缓存故障管理方法的结构示意图中包括本控存储系统和对控存储系统,两个存储系统均具有:OS(操作系统)模块、缓存模块、CFM故障管理模块(即缓存故障管理模块)、指示模块、无线模块及串口模块。
缓存故障管理模块:该模块位于板卡上,可以实时分析缓存模块工作状态,具体如下:
性能模式下,如果某些应用触发缓存故障,缓存故障管理模块记录该故障区域,并在下次控制节点重启时通知系统启动固件进行缓存区域隔离;如果应用触发缓存故障,缓存故障管理模块记录该故障区域并立即控制节点重启,并通知系统启动固件进行缓存区域隔离。如果故障来源于同一根内存或者同一缓存实体,且故障区域大于A(例如32KB),且前端业务压力小于B(例如50%)的情况下,本控缓存故障管理模块同步对控缓存故障管理模块,且在下次控制节点重启时通知系统启动固件进行本控该缓存实体和对控相同位置缓存实体隔离,并同步OS模块进行集群缓存配置调整:具体的,本控缓存故障管理模块和对控缓存故障管理模块通过Serdes(SERializer/DESerializer,串行器/解串器的简称)等网络链路互相通信(该Serdes链路为冗余链路,在冗余的Serdes链路都失效时缓存故障管理模块还可通过无线串口模块与对控缓存故障管理模块进行临时通信),本控缓存模块通过NTB(Non-Transparent Bridge,非透明桥)或者RoCE(RDMA over Converged Ethernet,表示一种RDMA网络)等高速镜像链路与对控缓存故障管理模块通信。缓存故障区域或者缓存实体的隔离由系统启动固件(例如BIOS等)在系统启动时进行隔离,系统启动固件从本控缓存故障管理模块和对控缓存故障管理模块分别获取隔离实施信息并校验一致后完成相应隔离动作准备。校验失败再启动N次重试机制,重试机制失败后则进行不隔离启动并进行告警上报。
非性能模式下,如果非关键应用触发缓存故障,缓存故障管理模块记录该故障区域并在下次控制节点重启时通知系统启动固件进行缓存区域隔离;如果关键应用触发缓存故障,缓存故障管理模块记录该故障区域并立即控制节点重启并通知系统启动固件进行缓存区域隔离。如果故障来源于同一根内存或者同一缓存实体,且故障区域大于C(例如8KB),则缓存故障管理模块同步对控缓存故障管理模块,且在下次控制节点重启时通知系统启动固件进行本控该缓存实体和对控相同位置缓存实体隔离,并同步OS模块进行集群缓存配置调整。
以上参数均有预设且可以通过串口模块进行定制化修改。通过缓存故障管理模块对缓存故障进行实时管理,特别是在性能模式下精细化隔离故障区域,在不影响整机可靠性的情况下保证了故障控制器可以正常提供服务,进而提高了整机系统的可用性。
OS模块:整机系统模块,可以根据缓存故障管理模块调整整机集群缓存配置,并能将前端业务压力情况发送到缓存故障管理模块。
缓存模块:该模块位于板卡上,一般包含内存和部件内的高速缓存,受缓存故障管理模块控制,本控缓存故障管理模块通过NTB或者RoCE等高速镜像链路与对控缓存故障管理模块通信。
指示模块:该模块位于板卡上,受串口模块的直接控制,对外指示当前缓存故障管理模块的实时状态。
无线模块:可将串口模块信号转换成WIFI等无线信号,外界不用实体串口线就可与缓存故障管理模块进行信息交互。
串口模块:通过串口模块可以进行外界与缓存故障管理模块的信息交互、参数预设和相关功能的开启。
本发明实施例的第二个方面,还提供了一种缓存故障管理系统。图3示出的是本发明提供的缓存故障管理系统的实施例的示意图。如图3所示,一种缓存故障管理系统包括:确认模块10,配置用于响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认本控存储系统是否处于性能模式;第一判断模块20,配置用于响应于本控存储系统处于性能模式,判断缓存故障区域的大小是否超过第一预设阈值;第二判断模块30,配置用于响应于缓存故障区域的大小超过第一预设阈值,基于缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;以及隔离模块40,配置用于响应于前端业务压力值未超过第二预设阈值且本控缓存故障管理模块接收到关于本控存储系统重启的第一请求,基于第一请求对本控缓存实体和对应位置的对控缓存实体分别进行隔离。
本发明实施例的第三个方面,还提供了一种计算机可读存储介质,图4示出了根据本发明实施例提供的实现缓存故障管理方法的计算机可读存储介质的示意图。如图4所示,计算机可读存储介质3存储有计算机程序指令31。该计算机程序指令31被处理器执行时实现上述任意一项实施例的方法。
应当理解,在相互不冲突的情况下,以上针对根据本发明的缓存故障管理方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的缓存故障管理系统和存储介质。
本发明实施例的第四个方面,还提供了一种计算机设备,包括如图5所示的存储器402和处理器401,该存储器402中存储有计算机程序,该计算机程序被该处理器401执行时实现上述任意一项实施例的方法。
如图5所示,为本发明提供的执行缓存故障管理方法的计算机设备的一个实施例的硬件结构示意图。以如图5所示的计算机设备为例,在该计算机设备中包括一个处理器401以及一个存储器402,并还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图5中以通过总线连接为例。输入装置403可接收输入的数字或字符信息,以及产生与缓存故障管理系统的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的缓存故障管理方法对应的程序指令/模块。存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储缓存故障管理方法的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的缓存故障管理方法。
最后需要说明的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (9)

1.一种缓存故障管理方法,其特征在于,包括以下步骤:
响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认所述本控存储系统是否处于性能模式;
响应于所述本控存储系统处于性能模式,判断所述缓存故障区域的大小是否超过第一预设阈值;
响应于所述缓存故障区域的大小超过所述第一预设阈值,基于所述缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;
响应于所述前端业务压力值未超过所述第二预设阈值且所述本控缓存故障管理模块接收到关于所述本控存储系统重启的第一请求,基于所述第一请求对所述本控缓存实体和对应位置的所述对控缓存实体分别进行隔离;
响应于所述前端业务压力值超过所述第二预设阈值,由所述本控缓存故障管理模块控制所述本控存储系统重启,并通知所述本控存储系统的系统启动固件对所述缓存故障区域进行隔离。
2.根据权利要求1所述的方法,其特征在于,基于所述缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置包括:
由所述本控缓存故障管理模块将所述缓存故障区域所在的本控缓存实体的位置告知对应的对控缓存故障管理模块,并通过所述对控缓存故障管理模块检测出对应的所述对控缓存实体的位置。
3.根据权利要求2所述的方法,其特征在于,基于所述第一请求对所述本控缓存实体和对应位置的所述对控缓存实体分别进行隔离包括:
由所述本控缓存故障管理模块基于所述第一请求向所述本控存储系统的系统启动固件发送隔离位置信息,并使其在所述本控存储系统重启过程中基于所述隔离位置信息对所述本控缓存实体进行隔离;
响应于所述本控存储系统完成重启,由所述本控缓存故障管理模块向所述对控缓存故障管理模块发送关于其所处的对控存储系统重启的第二请求,并使所述对控存储系统基于所述第二请求进行系统重启,且在系统重启过程中由所述对控存储系统的系统启动固件对所述对控缓存实体进行隔离。
4.根据权利要求1所述的方法,其特征在于,还包括:
由所述本控存储系统所在的集群基于隔离结果对所述集群中的缓存配置进行调整。
5.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述本控存储系统处于非性能模式且所述应用属于关键应用,由所述本控缓存故障管理模块控制所述本控存储系统重启,并通知所述本控存储系统的系统启动固件对所述缓存故障区域进行隔离。
6.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述本控存储系统处于非性能模式且所述应用属于非关键应用,判断所述本控缓存故障管理模块是否接收到关于所述本控存储系统重启的第三请求;
响应于所述本控缓存故障管理模块接收到所述第三请求,基于所述第三请求通知所述本控存储系统的系统启动固件对所述缓存故障区域进行隔离。
7.一种缓存故障管理系统,其特征在于,包括:
确认模块,配置用于响应于本控缓存故障管理模块检测到其所处的本控存储系统中的应用触发了缓存故障,记录相应的缓存故障区域,并确认所述本控存储系统是否处于性能模式;
第一判断模块,配置用于响应于所述本控存储系统处于性能模式,判断所述缓存故障区域的大小是否超过第一预设阈值;
第二判断模块,配置用于响应于所述缓存故障区域的大小超过所述第一预设阈值,基于所述缓存故障区域所在的本控缓存实体的位置获得对应的对控缓存实体的位置,并判断前端业务压力值是否超过第二预设阈值;以及
隔离模块,配置用于响应于所述前端业务压力值未超过所述第二预设阈值且所述本控缓存故障管理模块接收到关于所述本控存储系统重启的第一请求,基于所述第一请求对所述本控缓存实体和对应位置的所述对控缓存实体分别进行隔离;
响应于所述前端业务压力值超过所述第二预设阈值,由所述本控缓存故障管理模块控制所述本控存储系统重启,并通知所述本控存储系统的系统启动固件对所述缓存故障区域进行隔离。
8.一种计算机可读存储介质,其特征在于,存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的方法。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时执行如权利要求1-6任意一项所述的方法。
CN202210108171.0A 2022-01-28 2022-01-28 一种缓存故障管理方法、系统、存储介质及设备 Active CN114546694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210108171.0A CN114546694B (zh) 2022-01-28 2022-01-28 一种缓存故障管理方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210108171.0A CN114546694B (zh) 2022-01-28 2022-01-28 一种缓存故障管理方法、系统、存储介质及设备

Publications (2)

Publication Number Publication Date
CN114546694A CN114546694A (zh) 2022-05-27
CN114546694B true CN114546694B (zh) 2024-06-28

Family

ID=81674553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210108171.0A Active CN114546694B (zh) 2022-01-28 2022-01-28 一种缓存故障管理方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN114546694B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111708484A (zh) * 2020-05-22 2020-09-25 苏州浪潮智能科技有限公司 一种控制数据下刷速度的方法、系统、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10921871B2 (en) * 2019-05-17 2021-02-16 Trane International Inc. BAS/HVAC control device automatic failure recovery

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111124722A (zh) * 2019-10-30 2020-05-08 苏州浪潮智能科技有限公司 一种隔离故障内存的方法、设备及介质
CN111708484A (zh) * 2020-05-22 2020-09-25 苏州浪潮智能科技有限公司 一种控制数据下刷速度的方法、系统、设备及介质

Also Published As

Publication number Publication date
CN114546694A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
US11194679B2 (en) Method and apparatus for redundancy in active-active cluster system
US20200364114A1 (en) Node Down Recovery Method and Apparatus, Electronic Device, and Storage Medium
US11907561B2 (en) Data backup method and apparatus
US8533525B2 (en) Data management apparatus, monitoring apparatus, replica apparatus, cluster system, control method and computer-readable medium
CN113434337B (zh) 重试策略的控制方法、装置及电子设备
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
US9817590B2 (en) PLC data log module with backup function
US9092396B2 (en) Standby system device, a control method, and a program thereof
CN116319618A (zh) 交换机运行控制方法、装置、系统、设备及存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN114546694B (zh) 一种缓存故障管理方法、系统、存储介质及设备
CN114860286B (zh) 一种cpld无感升级方法、系统、存储介质及设备
CN110879760B (zh) 一种统一存储系统及方法、电子设备
US11314670B2 (en) Method, apparatus, and device for transmitting file based on BMC, and medium
CN104836679A (zh) 通信异常处理方法及网元设备
WO2021259109A1 (zh) 补丁加载方法、网元及计算机可读存储介质
JP6554801B2 (ja) 冗長通信装置及びその制御方法
CN112966046B (zh) 数据同步方法和装置、电子设备和存储介质
WO2018094739A1 (zh) 一种处理业务的方法、业务节点、控制节点和分布式系统
JP7211173B2 (ja) 通信制御装置、電子機器装置、通信制御方法、及び通信制御プログラム
CN111427729A (zh) 一种提高hawq可用性的方法、系统、设备及介质
CN118606367A (zh) 缓存环境监测和缓存策略切换方法、系统和存储介质
JP6653250B2 (ja) 計算機システム
CN116915601A (zh) 代理服务器的配置更新方法、系统、设备及存储介质
JP2023530772A (ja) 動作ステータス切り替え方法、装置、アクティブ/スタンバイ管理システムおよびネットワークシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant