CN114020525B - 故障隔离方法、装置、设备及存储介质 - Google Patents

故障隔离方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114020525B
CN114020525B CN202111230189.XA CN202111230189A CN114020525B CN 114020525 B CN114020525 B CN 114020525B CN 202111230189 A CN202111230189 A CN 202111230189A CN 114020525 B CN114020525 B CN 114020525B
Authority
CN
China
Prior art keywords
address
fault
module
target
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111230189.XA
Other languages
English (en)
Other versions
CN114020525A (zh
Inventor
王震
赵帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111230189.XA priority Critical patent/CN114020525B/zh
Publication of CN114020525A publication Critical patent/CN114020525A/zh
Application granted granted Critical
Publication of CN114020525B publication Critical patent/CN114020525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明揭示了一种故障隔离方法、装置、设备及存储介质,所述方法包括:获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换。本发明设计的有益效果针对读写过程中出现的坏块,通过预备好的隔离坏块区和故障隔离索引表进行坏块替换,使出现的坏块不影响正常的数据读写,保证数据读写的可靠性。

Description

故障隔离方法、装置、设备及存储介质
技术领域
本发明涉及存储技术领域,具体涉及一种故障隔离方法、装置、设备及存储介质。
背景技术
近年来,CPU技术发展迅速,单核CPU计算频率增加、多核CPU技术的出现使得计算能力得到长足发展。相比之下,作为数据载体的存储介质,却没有跟上发展速度。内存(DRAM)和非易失性存储(SSD、磁盘)是常用的两种存储介质类型。二者优缺点差异明显,前者具有优异的访问性能却掉电会产生数据丢失且造价高昂,后者则相反,没有前者的缺点但时延方面无法满足极致性能计算的需求。
Intel Optane DC Persistent Memory(Apache Pass-AEP),是Intel推出的一种新型的非易失Optane Memory设备,既兼顾非易失性存储,又接近内存的使用方式和速度,是符合未来趋势的新型存储介质之一,研究AEP内存的故障隔离技术,可以保证AEP内存数据的安全性,大幅度减少因硬件故障造成的宕机及影响,具有非常重要的意义。
发明内容
有鉴于此,本发明实施例提供了一种故障隔离方法、装置、设备及存储介质,旨在解决读写过程中出现的坏块影响正常的数据读写,无法保证数据读写的可靠性。
根据第一方面,本发明实施例提供了一种故障隔离方法,包括:
获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;
基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;
基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换。
本发明实施例提供的故障隔离方法,当目标空间中出现故障模块时,即为坏块产生,在巡检时会标记该故障模块,当有数据流读写到该故障模块时,不会直接读取该故障模块的地址,而是会查询故障映射表,该故障映射表存储的为目标地址映射模块的地址,查询到相匹配的目标地址映射模块的地址,通过该目标地址映射模块确定目标地址映射模块,目标地址映射模块中存储有备份地址,通过该备份地址实现故障模块的地址替换,进而完成故障模块地址的故障隔离。
结合第一方面,在第一方面第一实施方式中,基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换,包括:
查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;
基于所述叶子节点获取所述故障模块对应的备份地址。
本发明实施例提供的故障隔离方法,每个目标地址映射模块都有叶子节点,叶子节点中存储有备份地址,通过找到的目标地址映射模块遍历其叶子节点可以快速的获取到相应的备份地址。
结合第一方面,在第一方面第二实施方式中,故障映射表通过以下方式形成,包括:
创建多个目标地址映射模块的地址;
基于多个所述目标地址映射模块的地址生成所述故障映射表。
本发明实施例提供的故障隔离方法,创建多个目标地址映射模块的地址,每个目标地址映射模块的地址对应一个目标地址映射模块,减少查询的层级,可以快速获取到目标地址映射模块,并且故障映射表保存的是地址,占用空间很小,提高了内存资源的利用率。
结合第一方面第二实施方式,在第一方面第三实施方式中,创建多个目标地址映射模块的地址,包括:
所述目标空间的地址范围与所述目标地址映射模块的地址一一对应。
本发明实施例提供的故障隔离方法,所述目标空间的地址范围与所述目标地址映射模块的地址一一对应,通过获取到的故障模块的地址可以快速获取到与之相匹配的目标地址映射模块的地址,进而可以确认相应的目标地址映射模块。
结合第一方面第三实施方式,在第一方面第四实施方式中,包括:
获取所述故障模块地址;
基于所述故障模块地址获取相对应的所述目标地址映射模块的地址。
本发明实施例提供的故障隔离方法,由于故障模块地址与目标地址映射模块的地址是一一对应的,因此通过故障模块的地址可以准确获取到与之相对应的目标地址映射模块的地址。
结合第一方面,在第一方面第五实施方式中,基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换,包括:
获取备份空间,所述备份空间中包括所述备份地址;
提取所述备份地址与所述故障模块的地址进行替换。
本发明实施例提供的故障隔离方法,将备份地址存储与备份空间中,备份空间设于目标空间中,便于对备份地址查询,且占用的内存小。
结合第一方面,在第一方面第六实施方式中,获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,包括:
获取故障地址信息;
将所述故障地址信息转换为坏块信息;
基于所述坏块信息生成所述目标空间。
本发明实施例提供的故障隔离方法,接收到故障地址信息,该信息是设备无法纠正的错误,提取出该信息后,是以物理地址形式表示的,在通过转换,将其转换为坏块信息,进而坏块信息生成坏块列表,即为目标空间,当进行数据读写时,根据坏块替换策略进行相应的故障模块地址的替换。
根据第二方面,本发明实施例还提供了一种故障隔离装置,包括:
获取单元,用于获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;
地址单元,用于基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;
替换单元,用于基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换。
本发明实施例提供的故障隔离装置,当目标空间中出现故障模块时,即为坏块产生,在巡检时会标记该故障模块,当有数据流读写到该故障模块时,不会直接读取该故障模块的地址,而是会查询故障映射表,该故障映射表存储的为目标地址映射模块的地址,查询到相匹配的目标地址映射模块的地址,通过该目标地址映射模块确定目标地址映射模块,目标地址映射模块中存储有备份地址,通过该备份地址实现故障模块的地址替换,进而完成故障模块地址的故障隔离。
结合第二方面,在第二方面第一实施方式中,上述替换单元,还包括:
查询单元,用于查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;
备份地址获取单元,用于基于所述叶子节点获取所述故障模块对应的备份地址。
结合第二方面,在第二方面第二实施方式中,故障映射表通过以下方式形成,包括:
创建单元,用于创建多个目标地址映射模块的地址;
列表单元,用于基于多个所述目标地址映射模块的地址生成所述故障映射表。
结合第二方面第二实施方式,在第二方面第三实施方式中,上述创建单元,具体用于:
所述目标空间的地址范围与所述目标地址映射模块的地址一一对应。
结合第二方面第三实施方式,在第二方面第四实施方式中,包括:
故障地址获取单元,用于获取所述故障模块地址;
匹配单元,用于基于所述故障模块地址获取相对应的所述目标地址映射模块的地址。
结合第二方面,在第二方面第五实施方式中,上述替换单元,还包括:
备份单元,用于获取备份空间,所述备份空间中包括所述备份地址;
提取单元,用于提取所述备份地址与所述故障模块的地址进行替换。
结合第二方面,在第二方面第六实施方式中,还包括:
信息获取单元,用于获取故障地址信息;
转换单元,用于将所述故障地址信息转换为坏块信息;
空间单元,用于基于所述坏块信息生成所述目标空间。
根据第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的故障隔离方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的故障隔离方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是应用本发明实施例提供的故障隔离方法的流程示意图;
图2是应用本发明实施例提供的故障隔离装置的功能模块图;
图3是应用本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例提供的故障隔离的方法,其执行主体可以是故障隔离的装置,该故障隔离的装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部,其中,该计算机设备可以是服务器或者终端,其中,本申请实施例中的服务器可以为一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑、可穿戴设备以及智能机器人等其他智能硬件设备。下述方法实施例中,均以执行主体是电子设备为例来进行说明。
在本申请一个实施例中,如图1所示,提供了一种故障隔离方法,以该方法应用与电子设备为例进行说明,包括以下步骤:
S100,获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块。
在本实施例中,主要是针对AEP(英文:Apache Pass–AEP中文:非易失性存储设备)内存的故障隔离策略,AEP内存的故障隔离策略主要是在AEP进行数据读写时候产生的,在进行内存读写时,有数据流时,如果读取到故障模块则会触发故障隔离流程。
在本实施例中,本发明的故障隔离方法以目标空间内存为100GB为粒度进行划分,100GB内存空间再以1GB为粒度进行划分,即每个模块的内存为1GB,故障隔离以模块为单位进行管理,每个模块有512bytes。当某个1GB空间发生故障时,即有故障模块产生,巡检时会标记该故障模块,并且获取到该故障模块的地址。
S200,基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块。
在本实施例中,故障映射表为故障隔离索引表,该故障索引表中存储的为目标地址映射模块的地址。其中,目标地址映射模块可以是B+树,或B树,或其他结构,在此对其并不做任何限定。在本发明中目标地址映射模块采用的为B+树,相应地,目标地址映射模块的地址即为B+树的地址,下文直接采用B+树进行描述,通过B+树的地址即可获取到对应的B+树,B+树是B树的一个升级版,相对于B树来说B+树更充分的利用了节点的空间,让查询速度更加稳定,其速度完全接近于二分法查找。B+树的层级更少,相较于B树,B+每个叶子节点存储的关键字数更多,树的层级更少所以查询数据更快;B+树查询速度更稳定,B+所有关键字数据地址都存在叶子节点上,所以每次查找的次数都相同所以查询速度要比B树更稳定;B+树天然具备排序功能:B+树所有的叶子节点数据构成了一个有序链表,在查询大小区间的数据时候更方便,数据紧密性很高,缓存的命中率也会比B树高;B+树全节点遍历更快:B+树遍历整棵树只需要遍历所有的叶子节点即可,而不需要像B树一样需要对每一层进行遍历,这有利于数据库做全表扫描。
S300,基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换。
由于B+树数据结构的特性,如果出现故障模块,通过B+树可以快速找到故障模块地址对应的备份地址,实现故障模块的地址替换,进而完成故障隔离,采用故障隔离索引表和B+树结合的数据结构,能够在不影响性能的同时保证故障模块地址的替换。
本发明实施例提供的故障隔离方法,当目标空间中出现故障模块时,即为坏块产生,在巡检时会标记该故障模块,当有数据流读写到该故障模块时,不会直接读取该故障模块的地址,而是会查询故障映射表,该故障映射表存储的为目标地址映射模块的地址,查询到相匹配的目标地址映射模块的地址,通过该目标地址映射模块确定目标地址映射模块,目标地址映射模块中存储有备份地址,通过该备份地址实现故障模块的地址替换,进而完成故障模块地址的故障隔离。
在本申请一个可选的实施例中,如图1所示,上述S300中的“基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换”,可以包括以下步骤:
(1)查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;
(2)基于所述叶子节点获取所述故障模块对应的备份地址。
本发明实施例提供的故障隔离方法,每个目标地址映射模块都有叶子节点,每个B+树的叶子节点,是LA-RA的结构(英文:local address-replaceable address中文:本地地址-替换地址),保存有各个模块1GB空间和备份地址的对应关系,叶子节点中存储有备份地址,通过找到的目标地址映射模块遍历其叶子节点可以快速的获取到相应的备份地址。
在本申请一个可选的实施例中,如图1所示,上述故障映射表通过以下方式形成,包括:
(1)创建多个目标地址映射模块的地址;
(2)基于多个所述目标地址映射模块的地址生成所述故障映射表。
本发明实施例提供的故障隔离方法,创建多个目标地址映射模块的地址,每个目标地址映射模块的地址对应一个目标地址映射模块,减少查询的层级,可以快速获取到目标地址映射模块,并且故障映射表保存的是地址,占用空间很小,提高了内存资源的利用率。
在本申请一个可选的实施例中,如图1所示,上述“创建多个目标地址映射模块的地址”,包括:
所述目标空间的地址范围与所述目标地址映射模块的地址一一对应。
本发明实施例提供的故障隔离方法,所述目标空间的地址范围与所述目标地址映射模块的地址一一对应,通过获取到的故障模块的地址可以快速获取到与之相匹配的目标地址映射模块的地址,进而可以确认相应的目标地址映射模块。
在本申请一个可选的实施例中,如图1所示,还包括以下步骤:
(1)获取所述故障模块地址;
(2)基于所述故障模块地址获取相对应的所述目标地址映射模块的地址。
本发明实施例提供的故障隔离方法,由于故障模块地址与目标地址映射模块的地址是一一对应的,因此通过故障模块的地址可以准确获取到与之相对应的目标地址映射模块的地址。
在本申请一个可选的实施例中,如图1所示,上述S300中的“基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换”,可以包括以下步骤:
(1)获取备份空间,所述备份空间中包括所述备份地址;
(2)提取所述备份地址与所述故障模块的地址进行替换。
本发明实施例提供的故障隔离方法,将备份地址存储与备份空间中,备份空间设于目标空间中,将内存目标空间按照1GB粒度进行划分,保证每个1GB空间和备份空间中的备份地址的对应关系,便于对备份地址查询,且占用的内存小。
在本申请一个可选的实施例中,如图1所示,上述S100中的“获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求”,可以包括以下步骤:
(1)获取故障地址信息;
(2)将所述故障地址信息转换为坏块信息;
(3)基于所述坏块信息生成所述目标空间。
在本实施例中,AEP内存的故障隔离策略主要是在AEP进行数据读写时候产生。在AEP内存进行数据读写可以分为三个阶段,首先经过MCE(中文:机器检测错误机制)处理模块,该模块会接收MCE类型的错误信息,如果接收的消息是AEP设备的无法纠正的错误,则会提取出AEP内存的故障地址信息,提取出的故障地址信息是以物理地址形式表示的,再通过UC转换模块,将其转换为以pmem设备扇区号表示的坏块信息并生成坏块列表,即为目标空间,当读写处理模块进行数据读写的时候,根据坏块替换策略进行相应的故障模块替换。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图2所示,本实施例提供了一种故障隔离装置,包括获取单元1、地址单元2和替换单元3,其中:
获取单元1,用于获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;
地址单元2,用于基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;
替换单元3,用于基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换。
本发明实施例提供的故障隔离装置,当目标空间中出现故障模块时,即为坏块产生,在巡检时会标记该故障模块,当有数据流读写到该故障模块时,不会直接读取该故障模块的地址,而是会查询故障映射表,该故障映射表存储的为目标地址映射模块的地址,查询到相匹配的目标地址映射模块的地址,通过该目标地址映射模块确定目标地址映射模块,目标地址映射模块中存储有备份地址,通过该备份地址实现故障模块的地址替换,进而完成故障模块地址的故障隔离。
在本申请一个实施例中,上述替换单元,还包括查询单元和备份地址获取单元:
查询单元,用于查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;
备份地址获取单元,用于基于所述叶子节点获取所述故障模块对应的备份地址。
在本申请一个实施例中,故障映射表通过以下方式形成,包括创建单元和列表单元:
创建单元,用于创建多个目标地址映射模块的地址;
列表单元,用于基于多个所述目标地址映射模块的地址生成所述故障映射表。
在本申请一个实施例中,上述创建单元,具体用于:
所述目标空间的地址范围与所述目标地址映射模块的地址一一对应。
在本申请一个实施例中,还包括故障地址获取单元和匹配单元:
故障地址获取单元,用于获取所述故障模块地址;
匹配单元,用于基于所述故障模块地址获取相对应的所述目标地址映射模块的地址。
在本申请一个实施例中,上述替换单元,还包括备份单元和提取单元:
备份单元,用于获取备份空间,所述备份空间中包括所述备份地址;
提取单元,用于提取所述备份地址与所述故障模块的地址进行替换。
在本申请一个实施例中,还包括信息获取单元、转换单元和空间单元:
信息获取单元,用于获取故障地址信息;
转换单元,用于将所述故障地址信息转换为坏块信息;
空间单元,用于基于所述坏块信息生成所述目标空间。
关于故障隔离装置的具体限定以及有益效果可以参见上文中对于方法的限定,在此不再赘述。上述故障隔离装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本发明实施例还提供一种电子设备,具有上述图2所示的故障隔离装置。
如图3所示,图3是本发明可选实施例提供的一种电子设备的结构示意图,如图3所示,该电子设备可以包括:至少一个处理器71,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口73,存储器74,至少一个通信总线72。其中,通信总线72用于实现这些组件之间的连接通信。其中,通信接口73可以包括显示屏(Display)、键盘(Keyboard),可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图2所描述的装置,存储器74中存储应用程序,且处理器71调用存储器74中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线72可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器74可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器74还可以包括上述种类的存储器的组合。
其中,处理器71可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器74还用于存储程序指令。处理器71可以调用程序指令,实现如本申请图1实施例中所示的故障隔离方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的故障隔离方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种故障隔离方法,其特征在于,包括:
获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;
基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;所述故障映射表通过以下方式形成:创建多个目标地址映射模块的地址;基于多个所述目标地址映射模块的地址生成所述故障映射表;所述目标空间的地址范围与所述目标地址映射模块的地址一一对应;
基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换;所述基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换步骤中,包括:查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;基于所述叶子节点获取所述故障模块对应的备份地址;其中,所述目标地址映射模块为B+树。
2.根据权利要求1所述的故障隔离方法,其特征在于,包括:
获取所述故障模块地址;
基于所述故障模块地址获取相对应的所述目标地址映射模块的地址。
3.根据权利要求1所述的故障隔离方法,其特征在于,所述基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换步骤中,包括:
获取备份空间,所述备份空间中包括所述备份地址;
提取所述备份地址与所述故障模块的地址进行替换。
4.根据权利要求1所述的故障隔离方法,其特征在于,所述获取故障模块的地址、所述故障模块所在目标空间的地址范围以及所述故障模块的访问请求步骤之前,包括:
获取故障地址信息;
将所述故障地址信息转换为坏块信息;
基于所述坏块信息生成所述目标空间。
5.一种故障隔离装置,其特征在于,包括:
获取单元,用于获取故障模块的地址、所述故障模块所在目标空间 的地址范围以及所述故障模块的访问请求,所述目标空间包括多个模块;
地址单元,用于基于目标空间的地址范围查询故障映射表,确定所述目标空间对应的目标地址映射模块的地址,以确定所述目标地址映射模块;所述故障映射表通过以下方式形成:创建多个目标地址映射模块的地址;基于多个所述目标地址映射模块的地址生成所述故障映射表;所述目标空间的地址范围与所述目标地址映射模块的地址一一对应;
替换单元,用于基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换;所述基于所述故障模块的地址在所述目标地址映射模块中确定所述故障模块对应的备份地址,以对所述故障模块的地址进行替换步骤中,包括:查询所述目标地址映射模块的叶子节点,所述叶子节点用于存储所述备份地址;基于所述叶子节点获取所述故障模块对应的备份地址;其中,所述目标地址映射模块为B+树。
6.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-4中任一项所述的故障隔离方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-4中任一项所述的故障隔离方法。
CN202111230189.XA 2021-10-21 2021-10-21 故障隔离方法、装置、设备及存储介质 Active CN114020525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111230189.XA CN114020525B (zh) 2021-10-21 2021-10-21 故障隔离方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111230189.XA CN114020525B (zh) 2021-10-21 2021-10-21 故障隔离方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114020525A CN114020525A (zh) 2022-02-08
CN114020525B true CN114020525B (zh) 2024-04-19

Family

ID=80056910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111230189.XA Active CN114020525B (zh) 2021-10-21 2021-10-21 故障隔离方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114020525B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117995250A (zh) * 2022-10-31 2024-05-07 成都华为技术有限公司 一种存储器故障修复方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070048384A (ko) * 2005-11-04 2007-05-09 (주)아트칩스 메모리 맵에서 배드 블록 처리방법
WO2016115661A1 (zh) * 2015-01-19 2016-07-28 华为技术有限公司 内存故障隔离方法和装置
CN107992430A (zh) * 2017-12-20 2018-05-04 北京京存技术有限公司 闪存芯片的管理方法、装置及计算机可读存储介质
CN110879761A (zh) * 2018-09-05 2020-03-13 华为技术有限公司 硬盘故障处理方法、阵列控制器及硬盘
CN111125447A (zh) * 2019-12-22 2020-05-08 北京浪潮数据技术有限公司 一种元数据访问方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909045B2 (en) * 2018-12-20 2021-02-02 Arm Limited System, method and apparatus for fine granularity access protection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070048384A (ko) * 2005-11-04 2007-05-09 (주)아트칩스 메모리 맵에서 배드 블록 처리방법
WO2016115661A1 (zh) * 2015-01-19 2016-07-28 华为技术有限公司 内存故障隔离方法和装置
CN107992430A (zh) * 2017-12-20 2018-05-04 北京京存技术有限公司 闪存芯片的管理方法、装置及计算机可读存储介质
CN110879761A (zh) * 2018-09-05 2020-03-13 华为技术有限公司 硬盘故障处理方法、阵列控制器及硬盘
CN111125447A (zh) * 2019-12-22 2020-05-08 北京浪潮数据技术有限公司 一种元数据访问方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN114020525A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
JP6854885B2 (ja) 重複排除ストレージ内のイメージを修復するためのシステム及び方法
CN105843551B (zh) 高性能和大容量储存重复删除中的数据完整性和损耗电阻
CN106910528B (zh) 一种固态硬盘数据巡检的优化方法及装置
US11176110B2 (en) Data updating method and device for a distributed database system
CN110196818B (zh) 缓存数据的方法、缓存设备和存储系统
CN111782656B (zh) 数据读写方法及装置
US20180004434A1 (en) Technologies for addressing data in a memory
CN114020525B (zh) 故障隔离方法、装置、设备及存储介质
CN110990365A (zh) 一种数据同步方法、装置、服务器及存储介质
US8566689B2 (en) Data integrity units in nonvolatile memory
WO2017113211A1 (zh) 访问请求处理方法、装置及计算机系统
CN106528322B (zh) 检测数据的无记载损坏的方法和设备
CN109697158B (zh) 一种基于故障的日志分析方法与装置
US11288237B2 (en) Distributed file system with thin arbiter node
CN114116355A (zh) 内存测试方法、装置及电子设备
CN111382179B (zh) 数据处理方法、装置及电子设备
US10740202B2 (en) System and method for efficient comparison of mirrored storage devices
CN117131014A (zh) 数据库迁移方法、装置、设备及存储介质
CN115712397A (zh) 缓存验证装置、方法及系统
CN111625199B (zh) 提升固态硬盘数据通路可靠性的方法、装置、计算机设备及存储介质
US11829604B2 (en) Method, device and computer program products for storage management
CN110543434B (zh) Nand快闪器件、存储表管理方法、设备和存储介质
CN108664417B (zh) 一种目录更新方法及装置
CN109542359B (zh) 一种数据重建方法、装置、设备及计算机可读存储介质
CN113806249B (zh) 一种对象存储有序列举方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant