CN117354129A - 一种综合硬件故障率和环境故障率的分布式存储备份方法 - Google Patents

一种综合硬件故障率和环境故障率的分布式存储备份方法 Download PDF

Info

Publication number
CN117354129A
CN117354129A CN202311409591.3A CN202311409591A CN117354129A CN 117354129 A CN117354129 A CN 117354129A CN 202311409591 A CN202311409591 A CN 202311409591A CN 117354129 A CN117354129 A CN 117354129A
Authority
CN
China
Prior art keywords
node
backup
storage server
nodes
failure rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311409591.3A
Other languages
English (en)
Inventor
卢会春
林静
郎志龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Public Information Industry Co ltd
Original Assignee
Zhejiang Public Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Public Information Industry Co ltd filed Critical Zhejiang Public Information Industry Co ltd
Priority to CN202311409591.3A priority Critical patent/CN117354129A/zh
Publication of CN117354129A publication Critical patent/CN117354129A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种一种综合硬件故障率和环境故障率的分布式存储备份方法,涉及数据存储技术领域,该方法包括:基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。本发明能够在极大程度上消除因故障导致分布式存储系统中的一部分存储服务器节点出现故障导致局部分发服务无法执行的缺陷,确保在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。

Description

一种综合硬件故障率和环境故障率的分布式存储备份方法
相关申请的交叉引用
本申请是基于申请号为2023106185956,申请日为:2023年05月26日,发明名称为“一种基于跨地域的分布式存储备份方法及装置”的中国专利申请的分案申请。
技术领域
本发明涉及数据存储技术领域,具体涉及一种基于跨地域的分布式存储备份方法及装置。
背景技术
分布式存储,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也存在可靠性和安全性的问题,不能满足大规模存储应用的需要。分布式存储采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
为了能够提供服务器级别的故障域隔离,跨地域的分布式存储应运而生。但是在跨地域的分布式存储方案中,当服务器节点数量增多时,其中的一部分服务器节点出现故障的概率会随之上升。如何在部分服务器节点出现故障的时候依旧能够提供相应的分发服务是亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种基于跨地域的分布式存储备份方法及装置,以解决现有跨地域的分布式存储方案中部分服务器节点出现故障的时候导致局部分发服务无法执行的问题。
根据第一方面,本发明实施例提供了一种基于跨地域的分布式存储备份方法,所述方法包括:
基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
结合第一方面,在第一方面第一实施方式中,所述基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点,具体包括:
确定分布式存储系统中各个存储服务器节点对应的故障概率;
基于存储服务器节点的故障概率,由故障概率从高至低对存储服务器节点排序,得到排列序列;
从排列序列头部依次选取第一预设数量的存储服务器节点为次级节点,从排列序列尾部依次选取第二预设数量的存储服务器节点作为备份节点。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述确定分布式存储系统中各个存储服务器节点对应的故障概率,具体包括:
确定存储服务器节点对应的硬件故障率;
确定存储服务器节点对应的环境故障率;
基于存储服务器节点对应的硬件故障率以及环境故障率,确定存储服务器节点对应的故障概率。
结合第一方面第二实施方式,在第一方面第三实施方式中,其特征在于,所述确定存储服务器节点对应的硬件故障率,具体包括:
确定存储服务器节点各个硬件的型号;
每当存储服务器节点出现硬件故障时,记录下存储服务器节点对应的硬件及硬件对应的型号;
统计所有存储服务器节点每一硬件在第一预设时间段内出现硬件故障的次数;
针对每一存储服务器节点,基于其对应的硬件、硬件对应的型号、第一预设时间段以及硬件故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的硬件故障率。
结合第一方面第二实施方式,在第一方面第四实施方式中,所述确定存储服务器节点对应的环境故障率,具体包括:
将属于同一变电站的存储服务器节点划分至同一环境区块;
每当存储服务器节点出现环境故障时,记录下引起环境故障的类型;
统计属于同一环境区块中,由于环境因素导致存储服务器节点在第二预设时间段内出现环境故障的次数;
针对每一台存储服务器节点,基于其环境因素的类型、第二预设时间段以及环境故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的环境故障率。
结合第一方面第四实施方式,在第一方面第五实施方式中,所述由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据,具体包括:
从未被配置的次级节点中选择故障概率最高的次级节点作为待配置次级节点;
将待配置次级节点对应的环境区块确定为禁区区块;
确定未被配置的备份节点对应的环境区块,并确定环境区块与禁区区块之间的距离,将与禁区区块之间的距离最近的环境区块确定为优选区块;
从优选区块对应的备份节点中选择故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。
结合第一方面第五实施方式,在第一方面第六实施方式中,所述由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据,还包括:
确定待配置备份节点是否满足待配置次级节点的数据存储要求;
确定不满足数据存储要求,从优选区块对应的备份节点中选择未被配置且故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。
根据第二方面,本发明实施例还提供 一种基于跨地域的分布式存储备份装置,所述装置包括:
筛选模块,用于基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
配置模块,用于由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
根据第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于跨地域的分布式存储备份方法的步骤。
根据第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于跨地域的分布式存储备份方法的步骤。
本发明的基于跨地域的分布式存储备份方法及装置,根据分布式存储系统中各个存储服务器节点对应的故障概率筛选出次级节点与备份节点,在减少因故障导致分发服务无法执行的缺陷的情况下,尽可能降低需要备份的数据量,降低因此给整体系统带来的额外负载,在次级节点与备份节点之间相互配置过程中,考虑了备份节点与次级节点的距离,并以故障概率为优先级依次进行次级节点的配置,进一步降低为网络链路带来的负载以及减小因网络拨动导致备份过程出故障的情况发生,本发明能够在极大程度上消除因故障导致分布式存储系统中的一部分存储服务器节点出现故障导致局部分发服务无法执行的缺陷,确保在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明提供的基于跨地域的分布式存储备份方法的流程示意图;
图2示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S10具体的流程示意图;
图3示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S11具体的流程示意图;
图4示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S111具体的流程示意图;
图5示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S112具体的流程示意图;
图6示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S20具体的流程示意图之一;
图7示出了本发明提供的基于跨地域的分布式存储备份方法中步骤S20具体的流程示意图之二;
图8示出了本发明提供的基于跨地域的分布式存储备份装置的结构示意图;
图9示出了本发明提供的基于跨地域的分布式存储备份方法的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的数字资源系统例如各类的视频系统通常采用集中式存储,数字资源系统将视频文件、音频文件等数字资源存储在专用服务器上,通过客户端向服务器发送请求进而将相应的文件分发给客户端。集中式存储不仅需要针对专用服务器的专门硬件投入,一旦服务器出现损坏等情况,那么所有的分发服务都将暂停,导致单点故障,并且大量的文件仅仅存放在专用服务器上,为网络性能带来了瓶颈障碍。
为了解决集中式存储存在的上述问题,分布式存储应运而生,分布式存储通过网络使用每台服务器节点的磁盘空间,采用化整为零的方式将这些分散的服务器节点构成一个虚拟存储设备。一方面,数据分散地存储在各个角落,避免了网络性能的瓶颈障碍;另一方面,在一部分服务器出现故障的时候,仅存储于该服务器节点的分发服务会被暂停,不会出现所有分发服务被暂定的单点故障问题。
传统的分布式存储属于中心化存储,整个存储网络都位于同一机房,能提供服务器级别的故障域隔离,但无法应对机房甚至城市级别的故障,包括但不限于停电、断网、火灾等等,而跨地域的分布式存储能够很好地解决该问题。
但是在跨地域的分布式存储方案中,当服务器节点数量增多时,其中的一部分服务器节点出现故障的概率会随之上升。如何在部分服务器节点出现故障的时候依旧能够提供相应的分发服务是亟待解决的问题。
为了解决上述问题,在本实施例中提供了一种基于跨地域的分布式存储备份方法,旨在使得跨地域的分布式存储系统在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。本发明实施例的基于跨地域的分布式存储备份方法可用于电子设备中,电子设备包括但不局限于电脑、移动终端等,图1是根据本发明实施例的基于跨地域的分布式存储备份方法的流程示意图,如图1所示,该方法包括如下步骤:
S10、基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率/>前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率/>后第二预设数量对应的存储服务器节点作为备份节点。
分布式存储系统包括若干存储服务器节点,可以理解的是,上述提到的各个存储服务器节点都有可能发生故障进而导致其分发服务无法执行,但是一个以上的存储服务器节点同时发生故障的概率则会大大降低。因此,可以通过在至少一个存储服务器节点(即备份节点)对数据进行备份,当某一存储服务器节点发生故障时,由对应的备份节点代为其执行其分发服务,从而使得相应的分发服务可以顺利执行。
若将所有存储服务器节点的数据都进行备份的话,会成倍增加各个存储服务器节点的负载,由于该些存储服务器节点分散于不同地方,配置也不尽相同,可以理解的是每个存储服务器节点出现故障的概率也是不相同的。在日常维护的基础上,还是有一部分存储服务器不可避免地出现故障。在本发明实施例中还对进行数据备份的存储服务器节点以及相应的备份节点进行筛选和限制,具体的,将更容易出现故障的存储服务器节点筛选出来,得到次级节点,并给这些次级节点配置另外一些备份节点,对次级节点其所存储的数据进行备份。在次级节点出现故障时,由备份有其数据的备份节点代为执行其分发服务,在极大程度上避免了因部分存储服务器节点的故障导致分发服务受阻的情况。
S20、由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
作为本发明一些可选实施例,在备份节点中单独设置一个备份分区用于备份与之配置的次级节点的数据。备份分区的大小可以是固定的,也可以按照该备份节点的一定百分比设置,例如将该备份节点总存储区的30%设置为备份分区。
本发明的提供的基于跨地域的分布式存储备份方法,根据分布式存储系统中各个存储服务器节点对应的故障概率筛选出次级节点与备份节点,在减少因故障导致分发服务无法执行的缺陷的情况下,尽可能降低需要备份的数据量,降低因此给整体系统带来的额外负载,在次级节点与备份节点之间相互配置过程中,考虑了备份节点与次级节点的距离,并以故障概率为优先级依次进行次级节点的配置,进一步降低为网络链路带来的负载以及减小因网络拨动导致备份过程出故障的情况发生,本发明能够在极大程度上消除因故障导致分布式存储系统中的一部分存储服务器节点出现故障导致局部分发服务无法执行的缺陷,确保在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。
下面结合图2对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中步骤S10具体为,即,关于次级节点和备份节点的筛选规则如下:
S11、确定分布式存储系统中各个存储服务器节点对应的故障概率
S12、基于存储服务器节点的故障概率,由故障概率/>从高至低对存储服务器节点排序,得到排列序列,其中,/>表示存储服务器节点的序号。
S13选取第一预设数量m的存储服务器节点作为次级节点并选取第二预设数量n的存储服务器节点作为备份节点,更具体的,从排列序列头部依次选取m个存储服务器节点为次级节点即选取故障概率排名前m的存储服务器节点作为次级节点,从排列序列尾部依次选取n个存储服务器节点作为备份节点即选取故障概率/>排名后n的存储服务器节点作为备份节点。
在本发明实施例中,m和n的具体数值可由用户自定义设定,两者的数值可以相等,也可以不相等。
作为本发明一些可选实施例,由于备份节点既要存储自身的数据,又要备份次级节点的数据,因此将n的数值设置为大于m的数值,例如将n的数值为m数值的2倍以上。
在本发明实施例另一些实施例中,m和n的具体取值可以按存储服务器节点总数的百分比取值,例如选取故障概率前5%的存储服务器节点作为次级节点,选取故障概率/>后10%的存储服务器节点作为备份节点。
下面结合图3对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中,影响故障概率的因素主要有两大块,即存储服务器节点自身的硬件条件以及存储服务器节点所处的环境条件,步骤S11具体包括:
S111、确定存储服务器节点对应的硬件故障率
S112、确定存储服务器节点对应的环境故障率
S113、基于存储服务器节点对应的硬件故障率以及环境故障率/>,确定存储服务器节点对应的故障概率/>
构建存储服务器节点故障概率的等效模型:
其中,表示存储服务器节点对应的硬件故障率;/>表示存储服务器节点对应的环境故障率。
影响硬件故障率的因素包括存储服务器节点的各类硬件,包括但不限于CPU、硬盘、电源、主板、内存、散热系统等等,每种类型的硬件都有不同的型号,对应出现故障的概率也不相同。下面结合图4对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中步骤S111具体包括:
S1111、确定存储服务器节点各个硬件的型号。
S1112、每当存储服务器节点出现硬件故障时,记录下存储服务器节点对应的硬件及硬件对应的型号,以备后期数据统计使用。
S1113、统计所有存储服务器节点因上述型号硬件在第一预设时间段内出现硬件故障的次数/>,在本发明实施例中,第一预设时间段可以是一个季度或者半年。
S1114、针对每一存储服务器节点,基于其对应的硬件、硬件对应的型号、第一预设时间段以及硬件故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的硬件故障率
其中,表示第一预设时间段;/>表示相邻两次维护的时间间隔,在本发明实施例中可以理解的是,/>能够根据实际情况设定。
影响环境故障率的因素主要包括存储服务器节点所处地理位置的电网性能、网络性能、火灾等发生的几率等等环境因素。下面结合图5对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中步骤S111具体包括:
S1121、将属于同一变电站的存储服务器节点划分至同一环境区块。
由于停电与配电网直接相关,因而与其所归属的变电站有直接的联系。因此,根据变电站归属对存储服务器节点所处的位置进行区块划分;具体的,属于同一变电站(一般指工区的三类变电站)的存储服务器节点划分至同一环境区块。
断网、火灾的出现带有一定的随机性,与存储服务器节点所处区域关联性不大,但是基于后续计算需要,分区是必要的。在本发明实施例中,为了减小计算量,按照电网分区的形式进行区块划分,将属于同一变电站(一般指工区的三类变电站)的存储服务器节点划分至同一环境区块。
S1122、每当存储服务器节点出现环境故障时,记录下引起环境故障的类型(例如停电、断网、火灾等),同样的,以备后期数据统计使用。
S1123、统计属于同一环境区块中,由于停电、断网或火灾等环境因素导致存储服务器节点在第二预设时间段内出现环境故障的次数,/>代表环境因素的类型。
接下去的计算过程与计算硬件故障率相同。
S1124、针对每一台存储服务器节点,基于其环境因素的类型、第二预设时间段以及环境故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的环境故障率
其中,表示第二预设时间段。
在本发明实施例中,第一预设时间段以及第二预设时间段均为过去的时间段。
至此,已经能够算出分布式存储系统中每一台存储服务器节点的故障概率。按照故障概率/>将该些存储服务器节点进行排序后,即可得到第一预设数量的次级节点以及第二预设数量的备份节点。
下面结合图6对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中步骤S20具体包括:
S201、从未被配置的次级节点中选择故障概率最高的次级节点作为待配置次级节点。
即在进行次级节点与备份节点之间的相互配置时,以次级节点对应的故障概率为优先级,按照故障概率/>从高至低,对次级节点逐一进行配置。
S202、将待配置次级节点对应的环境区块确定为禁区区块。
针对待配置的该次级节点,确定其所处的环境区块,并将该环境区块标记为禁区区块。
S203、确定未被配置的备份节点对应的环境区块,并确定环境区块与禁区区块之间的距离,将与禁区区块之间的距离最近的环境区块确定为优选区块。
从未被配置的备份节点对应的环境区块中,将与禁区区块距离最近的环境区块标记为优选区块。将距离最近的环境区块中选为优选区块的目的是为了减少备份给整体网络链路带来的负载,并且距离越近,速度越快,相应的,网络波动出故障的几率也越小。
S204、从优选区块对应的备份节点中选择故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。
下面结合图7对本发明的基于跨地域的分布式存储备份方法进行阐述,该方法中步骤S20还包括:
S205、确定待配置备份节点是否满足待配置次级节点的数据存储要求,即,待配置备份节点的存储区(例如备份分区)能否完全存储待配置次级节点的数据。
S206、确定不满足数据存储要求,从优选区块对应的备份节点中选择未被配置且故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。即从优选区块中按照故障概率/>排名从低至高的顺序依次将备份节点配置给待配置次级节点,直至配置的备份节点用于进行数据备份的存储区的总和足够完全存储该次级节点中的数据。
在如图6以及如图7所示的实施例中,优选区块不能是禁区区块本身,这样设置的目的是为了避免因环境故障导致相互配置的备份节点和次级节点同时宕机的情况发生。因此,在步骤S203以及步骤S中,当确定优选区块为禁区区块时,将该优选区块对应的环节区块从当次配置过程的列表中剔除,并从非该环节区块的未被配置的备份节点对应的环境区块中重新选取与禁区区块之间的距离最近的环境区块为优选区块。
需要说明的是,还存在一种情况,一个优先区块中未被配置的备份节点的存储区总和不足以存储待配置次级节点中的数据。在该情况下,将该优选区块中的所有备份节点都配置给该此节点,然后从剩余的环境区块中再确定一个优选区块,继续进行备份节点的配置,直至备份分区的总和足够存储该次级节点中的数据为止。
通过步骤S20的处理,可以为每一次级节点配置一个或多个备份节点,用以备份次级节点其数据。当次级节点出现故障时,所配置的对应的备份节点可以代为执行分发服务,在很大程度上避免了因存储服务器节点出现故障宕机而导致局部分发服务无法执行的缺陷。
下面对本发明实施例提供的基于跨地域的分布式存储备份装置进行描述,下文描述的基于跨地域的分布式存储备份装置与上文描述的基于跨地域的分布式存储备份方法可相互对应参照。
为了解决上述问题,在本实施例中提供了一种基于跨地域的分布式存储备份装置,旨在使得跨地域的分布式存储系统在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。本发明实施例的基于跨地域的分布式存储备份装置可用于电子设备中,电子设备包括但不局限于电脑、移动终端等,图8是根据本发明实施例的基于跨地域的分布式存储备份装置的结构示意图,如图8所示,该装置包括:
筛选模块10,用于基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率/>前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率/>后第二预设数量对应的存储服务器节点作为备份节点。
分布式存储系统包括若干存储服务器节点,可以理解的是,上述提到的各个存储服务器节点都有可能发生故障进而导致其分发服务无法执行,但是一个以上的存储服务器节点同时发生故障的概率则会大大降低。因此,可以通过在至少一个存储服务器节点(即备份节点)对数据进行备份,当某一存储服务器节点发生故障时,由对应的备份节点代为其执行其分发服务,从而使得相应的分发服务可以顺利执行,
若将所有存储服务器节点的数据都进行备份的话,会成倍增加各个存储服务器节点的负载,由于该些存储服务器节点分散于不同地方,配置也不尽相同,可以理解的是每个存储服务器节点出现故障的概率也是不相同的。在日常维护的基础上,还是有一部分存储服务器不可避免地出现故障。在本发明实施例中还对进行数据备份的存储服务器节点以及相应的备份节点进行筛选和限制,具体的,将更容易出现故障的存储服务器节点筛选出来,得到次级节点,并给这些次级节点配置另外一些备份节点,对次级节点其所存储的数据进行备份。在次级节点出现故障时,由备份有其数据的备份节点代为执行其分发服务,在极大程度上避免了因部分存储服务器节点的故障导致分发服务受阻的情况。
配置模块20,用于由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率/>对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
作为本发明一些可选实施例,在备份节点中单独设置一个备份分区用于备份与之配置的次级节点的数据。备份分区的大小可以是固定的,也可以按照该备份节点的一定百分比设置,例如将该备份节点总存储区的30%设置为备份分区。
本发明的提供的基于跨地域的分布式存储备份装置,根据分布式存储系统中各个存储服务器节点对应的故障概率筛选出次级节点与备份节点,在减少因故障导致分发服务无法执行的缺陷的情况下,尽可能降低需要备份的数据量,降低因此给整体系统带来的额外负载,在次级节点与备份节点之间相互配置过程中,考虑了备份节点与次级节点的距离,并以故障概率为优先级依次进行次级节点的配置,进一步降低为网络链路带来的负载以及减小因网络拨动导致备份过程出故障的情况发生,本发明能够在极大程度上消除因故障导致分布式存储系统中的一部分存储服务器节点出现故障导致局部分发服务无法执行的缺陷,确保在部分服务器节点出现故障的时候依旧能够提供相应的分发服务。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于跨地域的分布式存储备份方法,该方法包括:
基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于跨地域的分布式存储备份方法,该方法包括:
基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于跨地域的分布式存储备份方法,该方法包括:
基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述方法包括:
基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点;
由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据;
所述确定分布式存储系统中各个存储服务器节点对应的故障概率,具体包括:
确定存储服务器节点对应的硬件故障率;
确定存储服务器节点对应的环境故障率;
基于存储服务器节点对应的硬件故障率以及环境故障率,确定存储服务器节点对应的故障概率;
构建存储服务器节点故障概率的等效模型:
其中,表示故障概率;/>表示存储服务器节点对应的硬件故障率;/>表示存储服务器节点对应的环境故障率。
2.根据权利要求1所述的综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述基于分布式存储系统中各个存储服务器节点对应的故障概率,选取故障概率前第一预设数量对应的存储服务器节点作为次级节点,选取故障概率后第二预设数量对应的存储服务器节点作为备份节点,具体包括:
确定分布式存储系统中各个存储服务器节点对应的故障概率;
基于存储服务器节点的故障概率,由故障概率从高至低对存储服务器节点排序,得到排列序列;
从排列序列头部依次选取第一预设数量的存储服务器节点为次级节点,从排列序列尾部依次选取第二预设数量的存储服务器节点作为备份节点。
3.根据权利要求1所述的综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述确定存储服务器节点对应的硬件故障率,具体包括:
确定存储服务器节点各个硬件的型号;
每当存储服务器节点出现硬件故障时,记录下存储服务器节点对应的硬件及硬件对应的型号;
统计所有存储服务器节点每一硬件在第一预设时间段内出现硬件故障的次数;
针对每一存储服务器节点,基于其对应的硬件、硬件对应的型号、第一预设时间段以及硬件故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的硬件故障率。
4.根据权利要求1所述的综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述确定存储服务器节点对应的环境故障率,具体包括:
将属于同一变电站的存储服务器节点划分至同一环境区块;
每当存储服务器节点出现环境故障时,记录下引起环境故障的类型;
统计属于同一环境区块中,由于环境因素导致存储服务器节点在第二预设时间段内出现环境故障的次数;
针对每一台存储服务器节点,基于其环境因素的类型、第二预设时间段以及环境故障的次数,得到存储服务器节点在相邻两次维护的时间间隔内的环境故障率。
5.根据权利要求4所述的综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据,具体包括:
从未被配置的次级节点中选择故障概率最高的次级节点作为待配置次级节点;
将待配置次级节点对应的环境区块确定为禁区区块;
确定未被配置的备份节点对应的环境区块,并确定环境区块与禁区区块之间的距离,将与禁区区块之间的距离最近的环境区块确定为优选区块;
从优选区块对应的备份节点中选择故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。
6.根据权利要求5所述的综合硬件故障率和环境故障率的分布式存储备份方法,其特征在于,所述由故障概率自高至低并基于备份节点与次级节点之间的距离,为故障概率对应的次级节点配置备份节点,以利用备份节点备份次级节点的数据,还包括:
确定待配置备份节点是否满足待配置次级节点的数据存储要求;
确定不满足数据存储要求,从优选区块对应的备份节点中选择未被配置且故障概率最低的备份节点作为待配置备份节点,将待配置备份节点配置给待配置次级节点。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述综合硬件故障率和环境故障率的分布式存储备份方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述综合硬件故障率和环境故障率的分布式存储备份方法的步骤。
CN202311409591.3A 2023-05-26 2023-05-26 一种综合硬件故障率和环境故障率的分布式存储备份方法 Pending CN117354129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311409591.3A CN117354129A (zh) 2023-05-26 2023-05-26 一种综合硬件故障率和环境故障率的分布式存储备份方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310618595.6A CN116614346B (zh) 2023-05-26 2023-05-26 一种基于跨地域的分布式存储备份方法及装置
CN202311409591.3A CN117354129A (zh) 2023-05-26 2023-05-26 一种综合硬件故障率和环境故障率的分布式存储备份方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202310618595.6A Division CN116614346B (zh) 2023-05-26 2023-05-26 一种基于跨地域的分布式存储备份方法及装置

Publications (1)

Publication Number Publication Date
CN117354129A true CN117354129A (zh) 2024-01-05

Family

ID=87677875

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310618595.6A Active CN116614346B (zh) 2023-05-26 2023-05-26 一种基于跨地域的分布式存储备份方法及装置
CN202311409591.3A Pending CN117354129A (zh) 2023-05-26 2023-05-26 一种综合硬件故障率和环境故障率的分布式存储备份方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310618595.6A Active CN116614346B (zh) 2023-05-26 2023-05-26 一种基于跨地域的分布式存储备份方法及装置

Country Status (1)

Country Link
CN (2) CN116614346B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100372249C (zh) * 2003-09-05 2008-02-27 华为技术有限公司 通信系统中节点备份的方法
US8341121B1 (en) * 2007-09-28 2012-12-25 Emc Corporation Imminent failure prioritized backup
US9015527B2 (en) * 2013-01-29 2015-04-21 Hewlett-Packard Development Company, L.P. Data backup and recovery
CN107015884B (zh) * 2016-01-28 2019-12-20 杭州海康威视数字技术股份有限公司 一种数据存储方法及装置
CN107612715B (zh) * 2017-08-28 2021-01-26 深圳市盛路物联通讯技术有限公司 物联网中继器的数据备份方法及装置
CN112312444B (zh) * 2020-10-22 2024-01-02 深圳供电局有限公司 一种5g网络切片下资源备份方法

Also Published As

Publication number Publication date
CN116614346B (zh) 2023-10-10
CN116614346A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111880936B (zh) 资源调度方法、装置、容器集群、计算机设备和存储介质
CN110096472B (zh) 节点集群中管理节点的选择
US20130326038A1 (en) Management of datacenters for fault tolerance and bandwidth
CN102694868A (zh) 一种集群系统实现及任务动态分配方法
CN105939389A (zh) 负载均衡方法及装置
TWI701916B (zh) 用於在分布式系統中使管理能力自恢復的方法和裝置
CN112764920B (zh) 一种边缘应用部署方法、装置、设备和存储介质
CN108540315A (zh) 分布式存储系统、方法和装置
CN109873714B (zh) 云计算节点配置更新方法及终端设备
CN111221700B (zh) 一种集群节点状态监控方法、装置、设备及可读存储介质
CN111459642B (zh) 一种分布式系统中故障处理和任务处理方法及装置
CN113553179A (zh) 分布式键值存储负载均衡方法及系统
CN110727508A (zh) 一种任务调度系统和调度方法
CN111866210A (zh) 一种虚拟ip均衡分配方法、系统、终端及存储介质
CN110580198A (zh) OpenStack计算节点自适应切换为控制节点的方法及装置
CN114048004A (zh) 虚拟机高可用批量调度方法、装置、设备及存储介质
CN115756955A (zh) 一种数据备份、数据恢复的方法、装置及计算机设备
CN110730095A (zh) 一种面向云计算平台的数据安全应急演练方法和系统
CN108763312B (zh) 一种基于负载的从数据节点筛选方法
CN116614346B (zh) 一种基于跨地域的分布式存储备份方法及装置
CN109359800B (zh) 一种配电自动化主站系统运行状态的评价方法及系统
CN104378239A (zh) 基于集群框架的快速可靠性指标统计系统及方法
CN110737543B (zh) 一种分布式文件系统数据恢复的方法、装置及存储介质
CN108616583B (zh) 一种基于计算机云的存储空间分配方法
CN115858250A (zh) 数据恢复方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination