CN111045845A - 一种数据回传方法、装置、设备及计算机可读存储介质 - Google Patents

一种数据回传方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111045845A
CN111045845A CN201911207158.5A CN201911207158A CN111045845A CN 111045845 A CN111045845 A CN 111045845A CN 201911207158 A CN201911207158 A CN 201911207158A CN 111045845 A CN111045845 A CN 111045845A
Authority
CN
China
Prior art keywords
temporary
node
write operation
value
operation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911207158.5A
Other languages
English (en)
Other versions
CN111045845B (zh
Inventor
王文庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911207158.5A priority Critical patent/CN111045845B/zh
Priority to PCT/CN2020/073115 priority patent/WO2021103304A1/zh
Publication of CN111045845A publication Critical patent/CN111045845A/zh
Application granted granted Critical
Publication of CN111045845B publication Critical patent/CN111045845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种数据回传方法、装置、设备及计算机可读存储介质,方法包括:获取临时故障节点的CPU使用率和内存使用率;根据CPU使用率和内存使用率得到临时故障节点的脆弱值;判断脆弱值是否小于第一阈值;若是,将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点;若否,返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,直至脆弱值小于第一阈值并进行写操作数据回传为止。本申请公开的上述技术方案,通过脆弱值的判断来决定是否进行数据回传及何时进行回传,以尽量避免临时故障节点发生二次故障的情况,从而提高系统的稳定性和持久性。

Description

一种数据回传方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及存储系统技术领域,更具体地说,涉及一种数据回传方法、装置、设备及计算机可读存储介质。
背景技术
在存储系统中,当检测到某个节点出现临时故障时,就会把这个临时故障节点的数据分配给其他可用的临时备用节点,并利用临时备用节点对数据进行保存和处理。
在临时故障节点从故障中恢复之后,临时备用节点会把临时故障节点故障期间产生的写操作数据全部迁移给刚刚从故障中恢复过来的临时故障节点进行保存和处理,此时,写操作数据便会蜂拥而至。但是,由于临时故障节点刚刚从故障中恢复,性能可能比较脆弱,因此,面对大量涌入的数据,极有可能会发生再度崩溃,而这则会对整个存储系统的性能产生影响,从而会降低存储系统的稳定性与持久性。
综上所述,如何尽量避免临时故障节点在故障恢复之后出现二次故障的情况,以提高系统的稳定性与持久性,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种数据回传方法、装置、设备及计算机可读存储介质,用于尽量避免临时故障节点在故障恢复之后出现二次故障的情况,以提高系统的稳定性与持久性。
为了实现上述目的,本申请提供如下技术方案:
一种数据回传方法,其特征在于,包括:
在临时故障节点从故障中恢复时,获取所述临时故障节点的CPU使用率和内存使用率;
根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值;
判断所述脆弱值是否小于第一阈值;
若是,则将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点;
若否,则返回执行所述获取所述临时故障节点的CPU使用率和内存使用率的步骤,直至所述脆弱值小于所述第一阈值并进行写操作数据回传为止。
优选的,将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点,包括:
判断所述脆弱值是否小于第二阈值;其中,所述第二阈值小于所述第一阈值;
若是,则将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据同时回传给所述临时故障节点;
若否,则将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点。
优选的,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点,包括:
每次均控制一个所述临时备用节点将所述写操作数据回传给所述临时故障节点。
优选的,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点,包括:
若所述写操作数据涌入所述临时故障节点,则对所述写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
按照所述写操作数据队列进行所述写操作数据的回传。
优选的,所述第一阈值为0.75,所述第二阈值为0.5。
优选的,根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值,包括:
利用V=CpuUsed*x+MemUsed*y得到所述临时故障节点的脆弱值;
其中,V为所述临时故障节点的脆弱值,CpuUsed为所述CPU使用率,MemUsed为所述内存使用率,x、y为转移因子。
优选的,获取所述临时故障节点的CPU使用率和内存使用率,包括:
利用Sigar工具获取所述临时故障节点的所述CPU使用率和所述内存使用率。
一种数据回传装置,包括:
获取模块,用于在临时故障节点从故障中恢复时,获取所述临时故障节点的CPU使用率和内存使用率;
得到脆弱值模块,用于根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值;
判断模块,用于判断所述脆弱值是否小于第一阈值;
回传模块,用于在确定所述脆弱值小于所述第一阈值时,将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点;
返回执行模块,用于在确定所述脆弱值不小于所述第一阈值时,返回执行所述获取所述临时故障节点的CPU使用率和内存使用率的步骤,直至所述脆弱值小于所述第一阈值并进行写操作数据回传为止。
优选的,所述回传模块包括:
判断单元,用于判断所述脆弱值是否小于第二阈值;其中,所述第二阈值小于所述第一阈值;
第一回传单元,用于在确定所述脆弱值小于所述第二阈值时,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据同时回传给所述临时故障节点;
第二回传单元,用于在确定所述脆弱值不小于所述第二阈值时,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点。
优选的,所述第二回传单元包括:
第一回传子单元,用于每次均控制一个所述临时备用节点将所述写操作数据回传给所述临时故障节点。
优选的,所述第二回传单元可以包括:
排列子单元,用于若所述写操作数据涌入所述临时故障节点,则对所述写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
第二回传子单元,用于按照所述写操作数据队列进行所述写操作数据的回传。
优选的,所述第一阈值为0.75,所述第二阈值为0.5。
优选的,所述得到脆弱值模块包括:
得到脆弱值单元,用于利用V=CpuUsed*x+MemUsed*y得到所述临时故障节点的脆弱值;
其中,V为所述临时故障节点的脆弱值,CpuUsed为所述CPU使用率,MemUsed为所述内存使用率,x、y为转移因子。
优选的,所述获取模块包括:
获取单元,用于利用Sigar工具获取所述临时故障节点的所述CPU使用率和所述内存使用率。
一种数据回传设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的数据回传方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的数据回传方法的步骤。
本申请提供了一种数据回传方法、装置、设备及计算机可读存储介质,其中,该方法包括:在临时故障节点从故障中恢复时,获取临时故障节点的CPU使用率和内存使用率;根据CPU使用率和内存使用率得到临时故障节点的脆弱值;判断脆弱值是否小于第一阈值;若是,则将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点;若否,则返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,直至脆弱值小于第一阈值并进行写操作数据回传为止。
本申请公开的上述技术方案,在临时故障节点从故障中恢复时,通过CPU使用率和内存使用率得到临时故障节点的脆弱值,若脆弱值小于第一阈值,表明临时故障节点并不脆弱,则可以将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点,若脆弱值不小于第一阈值,则表明临时故障节点比较脆弱,此时,则不进行写操作数据回传,并持续计算临时故障节点的脆弱值,直至脆弱值小于第一阈值并进行写操作数据回传为止,即通过脆弱值的判断来决定是否进行写操作数据的回传及决定何时进行写操作数据的回传,以尽量避免在临时故障节点刚从故障中恢复过来因性能比较脆弱而直接进行数据回传所导致的临时故障节点发生二次故障的情况,从而提高系统的稳定性和持久性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据回传方法的流程图;
图2为本申请实施例提供的另一种数据回传方法的流程图;
图3为本申请实施例提供的一种数据回传装置的结构示意图;
图4为本申请实施例提供的一种数据回传设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种数据回传方法的流程图,可以包括:
在临时故障节点从故障中恢复时,执行步骤S11。
S11:获取临时故障节点的CPU使用率和内存使用率。
在存储系统中,在临时故障节点从故障中恢复时,可能比较脆弱,因此,则可以获取临时故障节点的CPU使用率和内存使用率,以通过CPU使用率和内存使用率来衡量临时故障节点的脆弱程度。
需要说明的是,这里提及的存储系统具体可以为Cassandra存储系统,当然,也可以为其他类型的存储系统,本申请对存储系统的类型不做任何限定。
S12:根据CPU使用率和内存使用率得到临时故障节点的脆弱值。
在获取到临时故障节点的CPU使用率和内存使用率之后,可以根据CPU使用率和内存使用率得到临时故障节点在从故障中恢复之后的脆弱值,以通过脆弱值来反映临时故障节点的脆弱程度。
S13:判断脆弱值是否小于第一阈值。若是,则执行步骤S14,若返回执行步骤S11,直至脆弱值小于第一阈值并进行写操作数据回传为止。
判断所得到的脆弱值是否小于第一阈值,若脆弱值小于第一阈值,则执行步骤S14。
若脆弱值不小于第一阈值,则返回执行步骤S11。具体地,若脆弱值大于等于第一阈值,则表明从故障中恢复过来的临时故障节点比较脆弱(脆弱程度比较大),即表明临时故障节点正处于刚刚恢复并且十分脆弱的时候(可以将临时故障节点的脆弱度划分为“脆弱”等级),其在数据回传过程中发生再度崩溃的几率比较大,因此,为了避免临时故障节点在数据回传过程中发生再度崩溃的情况,则可以继续监控临时故障节点的状况,即可以返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,并依次执行根据CPU使用率和内存使用率得到临时故障节点的脆弱值、判断脆弱值是否小于第一阈值的步骤,直至临时故障节点的脆弱值小于第一阈值并进行写操作数据回传为止。也就是说,在脆弱值大于等于第一阈值时,可以返回执行步骤S11、步骤S12以及步骤S13,直至后续所计算出的脆弱值小于第一阈值,且执行步骤S14为止,以使得临时备用节点在临时故障节点故障期间所接管并产生的写操作数据可以回传给临时故障节点。
需要说明的是,考虑到CPU使用率起伏比较大,且时刻都在发生变化,因此,为了使得脆弱值可以更加准确地反映临时故障节点的具体状况,则CPU使用率获取的时间间隔应该为分钟级而不能为秒级,相应地,脆弱值判断的时间间隔同样应该为分钟级而不能为秒级。
S14:将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点。
若脆弱值小于第一阈值,则表明从故障中恢复过来的临时故障节点的脆弱程度比较小,即表明该临时故障节点并不是很脆弱,其在数据回传过程中发生再度崩溃的几率比较小,因此,为了使得临时故障节点能够及时对自身所负责的写操作数据进行处理,则可以将临时备用节点在临时故障节点故障期间所接管并产生的写操作数据回传给临时故障节点,以使得临时故障节点均可以正常处理原本属于自身的写操作数据。其中,这里提及的接管并产生的写操作数据即为原本应由未发生故障的临时故障节点负责处理,但因其发生故障则转由临时备用节点负责进行处理的写操作数据。
本申请公开的上述技术方案,在临时故障节点从故障中恢复时,通过CPU使用率和内存使用率得到临时故障节点的脆弱值,若脆弱值小于第一阈值,表明临时故障节点并不脆弱,则可以将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点,若脆弱值不小于第一阈值,则表明临时故障节点比较脆弱,此时,则不进行写操作数据回传,并持续计算临时故障节点的脆弱值,直至脆弱值小于第一阈值并进行写操作数据回传为止,即通过脆弱值的判断来决定是否进行写操作数据的回传及决定何时进行写操作数据的回传,以尽量避免在临时故障节点刚从故障中恢复过来因性能比较脆弱而直接进行数据回传所导致的临时故障节点发生二次故障的情况,从而提高系统的稳定性和持久性。
参见图2,其示出了本申请实施例提供的另一种数据回传方法的流程图,针对步骤S14中的:将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点,具体可以包括:
S140:判断脆弱值是否小于第二阈值;其中,第二阈值小于第一阈值;若是,则执行步骤S141,若否,则执行步骤S142。
在脆弱值小于第一阈值的情况下,判断脆弱值是否小于第二阈值,其中,第二阈值小于第一阈值。若是,即若脆弱值小于第二阈值,则执行步骤S141,若否,即若脆弱值大于等于第二阈值且小于第一阈值,则执行步骤S142。
S141:将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据同时回传给临时故障节点。
若脆弱值小于第二阈值,则表明临时故障节点恢复状况良好,可以将其视为正常的节点,并可以将临时故障节点的脆弱度划分为“健壮”等级,相应地,则可以采用原生的数据回传机制进行数据回传,即可以将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据全部回传给刚刚从故障中恢复过来的临时故障节点,也即允许提示信息全部涌入临时故障节点,以提高数据回传的效率,从而使得临时故障节点可以及时地接收到其自身所负责的相关数据。
S142:将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据顺序回传给临时故障节点。
若脆弱值大于等于第二阈值且小于第一阈值,则表明临时故障节点恢复状况一般,并不可以将其视为正常的节点(此时,可以将临时故障节点的脆弱度划分为“一般”等级),不适合进行大负荷工作,因此,则可以将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据顺序回传给临时故障节点,即每次只允许一个临时备用节点进行写操作数据的回传,以既能够实现数据回传,又尽量避免数据回传过程中临时故障节点发生再度崩溃的情况,以降低二次故障的发生率,从而提高系统的稳定性和持久性。
本申请实施例提供的一种数据回传方法,将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据顺序回传给临时故障节点,可以包括:
每次均控制一个临时备用节点将写操作数据回传给临时故障节点。
在进行顺序回传时,可以对所有的临时备用节点进行控制,以使得每次均存在一个临时备用节点将其在临时故障节点故障期间所接管并产生的写操作回传给临时故障节点。
本申请实施例提供的一种数据回传方法,将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据顺序回传给临时故障节点,可以包括:
若写操作数据涌入临时故障节点,则对写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
按照写操作数据队列进行写操作数据的回传。
在顺序回传时,若存在写操作数据涌入临时故障节点的情况,即若存在多个临时备用节点向临时故障节点发送写操作数据的情况,则可以对写操作数据按照到达时间由早到晚的顺序进行排列,以得到一个写操作数据队列,然后,可以按照写操作数据队列进行写操作数据的回传,即在写操作数据涌入临时备用节点时采用排队机制、先到先传、顺序回传,以尽量避免临时备用节点发生再度崩溃的情况。
本申请实施例提供的一种数据回传方法,第一阈值为0.75,第二阈值为0.5。
具体地,可以将第一阈值设置为0.75,并可以将第二阈值设置为0.5,其中,这两个数值具体是通过模拟实验得到的,可以保证数据回传具有较高的可靠性。
具体地,采用20台配置相同的虚拟机作为存储系统中的节点,根据日常使用的经验将一个节点连续两次检测得出的脆弱值均不小于0.98作为二次故障的判断标准。
首先,控制20个虚拟机的CPU使用率和内存使用率,使得脆弱值小于0.5,模拟脆弱度为“健壮”的节点,此时,进行大量数据传入,以模拟数据回传,设置检测时间间隔为5分钟。当连续两次检测得出的脆弱值均超过0.98时,则视其为二次故障。实验共进行100次。
其次,控制20个虚拟机的CPU使用率和内存使用率,使得脆弱值介于0.5到0.75之间,模拟脆弱度为“一般”的节点,此时,进行大量数据传入,以模拟数据回传,设置检测时间间隔为5分钟。当连续两次检测得出的脆弱值均超过0.98时,则视其为二次故障。实验共进行100次。
最后,控制20个虚拟机的CPU使用率和内存使用率,使得脆弱值大于0.75,模拟脆弱度为“脆弱”的节点,此时,进行大量数据传入,以模拟数据回传,设置检测时间间隔为5分钟。当连续两次检测得出的脆弱值均超过0.98时,则视其为二次故障。实验共进行100次。
三种脆弱度等级的节点均采用原生的数据回传机制进行数据回传时,其二次故障率分别约为5%、20%、50%。
然后,采用相同的20个虚拟机节点,相同的实验过程和实验次数,采用不同的数据传输方式:脆弱度为“健壮”的节点仍采用数据大量涌入的方式模拟原生的数据回传机制进行数据回传,脆弱度为“一般”的节点采用单个文件依次传输的方式模拟顺序数据回传,脆弱度为“脆弱”的节点不进行数据回传。
采用上述分级移交数据回传的方式能使得所有节点的二次故障率都控制在5%左右。根据之前的两阶段数据可以看出,分级移交的二次故障率明显优于原生的数据回传机制,所以,也能给系统带来更好的稳定性。
由此可知,在数据回传的处理方面,改进后分级移交数据回传机制相对于原来的数据回传机制,在节点二次故障这个问题上,有了很好的改善,且效果比较显著。
本申请实施例提供的一种数据回传方法,根据CPU使用率和内存使用率得到临时故障节点的脆弱值,可以包括:
利用V=CpuUsed*x+MemUsed*y得到临时故障节点的脆弱值;
其中,V为临时故障节点的脆弱值,CpuUsed为CPU使用率,MemUsed为内存使用率,x、y为转移因子。
具体可以利用V=CpuUsed*x+MemUsed*y计算临时故障节点的脆弱值,其中,V为临时故障节点的脆弱值,CpuUsed为CPU使用率,MemUsed为内存使用率,x、y为转移因子。
在计算临时故障节点的脆弱值时,考虑到CPU使用率和内存使用率均比较重要,则可以将x、y这两个转移因子设定为0.5,当然,也可以根据经验对x、y的值进行调整,本申请对此不做任何限定。
本申请实施例提供的一种数据回传方法,获取临时故障节点的CPU使用率和内存使用率,可以包括:
利用Sigar工具获取临时故障节点的CPU使用率和内存使用率。
可以利用Sigar(System information gatherer and report)工具获取从故障中恢复的临时故障节点的CPU使用率和内存使用率。
Sigar是一个收集系统各项底层信息的工具合集,其中,获取的CPU信息考虑CPU多核性能,最后通过计算CPU的平均使用率作为CPU使用率。
本申请实施例还提供了一种数据回传装置,参见图3,其示出了本申请实施例提供的一种数据回传装置的结构示意图,可以包括:
获取模块31,用于在临时故障节点从故障中恢复时,获取临时故障节点的CPU使用率和内存使用率;
得到脆弱值模块32,用于根据CPU使用率和内存使用率得到临时故障节点的脆弱值;
判断模块33,用于判断脆弱值是否小于第一阈值;
回传模块34,用于在确定脆弱值小于第一阈值时,将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点;
返回执行模块35,用于在确定脆弱值不小于第一阈值时,返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,直至脆弱值小于第一阈值并进行写操作数据回传为止。
本申请实施例提供的一种数据回传装置,回传模块34可以包括:
判断单元,用于判断脆弱值是否小于第二阈值;其中,第二阈值小于第一阈值;
第一回传单元,用于在确定脆弱值小于第二阈值时,将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据同时回传给临时故障节点;
第二回传单元,用于在确定脆弱值不小于第二阈值时,将所有临时备用节点在临时故障节点故障期间接管并产生的写操作数据顺序回传给临时故障节点。
本申请实施例提供的一种数据回传装置,第二回传单元可以包括:
第一回传子单元,用于每次均控制一个临时备用节点将写操作数据回传给临时故障节点。
本申请实施例提供的一种数据回传装置,第二回传单元可以包括:
排列子单元,用于若写操作数据涌入临时故障节点,则对写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
第二回传子单元,用于按照写操作数据队列进行写操作数据的回传。
本申请实施例提供的一种数据回传装置,第一阈值为0.75,第二阈值为0.5。
本申请实施例提供的一种数据回传装置,得到脆弱值模块32可以包括:
得到脆弱值单元,用于利用V=CpuUsed*x+MemUsed*y得到临时故障节点的脆弱值;
其中,V为临时故障节点的脆弱值,CpuUsed为CPU使用率,MemUsed为内存使用率,x、y为转移因子。
本申请实施例提供的一种数据回传装置,获取模块31可以包括:
获取单元,用于利用Sigar工具获取临时故障节点的CPU使用率和内存使用率。
本申请实施例还提供了一种数据回传设备,参见图4,其示出了本申请实施例提供的一种数据回传设备的结构示意图,可以包括:
存储器41,用于存储计算机程序;
处理器42,用于执行上述存储器41存储的计算机程序时可实现如下步骤:
在临时故障节点从故障中恢复时,获取临时故障节点的CPU使用率和内存使用率;根据CPU使用率和内存使用率得到临时故障节点的脆弱值;判断脆弱值是否小于第一阈值;若是,则将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点;若否,则返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,直至脆弱值小于第一阈值并进行写操作数据回传为止。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
在临时故障节点从故障中恢复时,获取临时故障节点的CPU使用率和内存使用率;根据CPU使用率和内存使用率得到临时故障节点的脆弱值;判断脆弱值是否小于第一阈值;若是,则将临时备用节点在临时故障节点故障期间接管并产生的写操作数据回传给临时故障节点;若否,则返回执行获取临时故障节点的CPU使用率和内存使用率的步骤,直至脆弱值小于第一阈值并进行写操作数据回传为止。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的一种数据回传装置、设备及计算机可读存储介质中相关部分的说明可以参见本申请实施例提供的一种数据回传方法中对应部分的详细说明,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种数据回传方法,其特征在于,包括:
在临时故障节点从故障中恢复时,获取所述临时故障节点的CPU使用率和内存使用率;
根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值;
判断所述脆弱值是否小于第一阈值;
若是,则将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点;
若否,则返回执行所述获取所述临时故障节点的CPU使用率和内存使用率的步骤,直至所述脆弱值小于所述第一阈值并进行写操作数据回传为止。
2.根据权利要求1所述的数据回传方法,其特征在于,将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点,包括:
判断所述脆弱值是否小于第二阈值;其中,所述第二阈值小于所述第一阈值;
若是,则将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据同时回传给所述临时故障节点;
若否,则将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点。
3.根据权利要求2所述的数据回传方法,其特征在于,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点,包括:
每次均控制一个所述临时备用节点将所述写操作数据回传给所述临时故障节点。
4.根据权利要求2所述的数据回传方法,其特征在于,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点,包括:
若所述写操作数据涌入所述临时故障节点,则对所述写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
按照所述写操作数据队列进行所述写操作数据的回传。
5.根据权利要求2所述的数据回传方法,其特征在于,所述第一阈值为0.75,所述第二阈值为0.5。
6.根据权利要求1至5任一项所述的数据回传方法,其特征在于,根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值,包括:
利用V=CpuUsed*x+MemUsed*y得到所述临时故障节点的脆弱值;
其中,V为所述临时故障节点的脆弱值,CpuUsed为所述CPU使用率,MemUsed为所述内存使用率,x、y为转移因子。
7.根据权利要求6所述的数据回传方法,其特征在于,获取所述临时故障节点的CPU使用率和内存使用率,包括:
利用Sigar工具获取所述临时故障节点的所述CPU使用率和所述内存使用率。
8.一种数据回传装置,其特征在于,包括:
获取模块,用于在临时故障节点从故障中恢复时,获取所述临时故障节点的CPU使用率和内存使用率;
得到脆弱值模块,用于根据所述CPU使用率和所述内存使用率得到所述临时故障节点的脆弱值;
判断模块,用于判断所述脆弱值是否小于第一阈值;
回传模块,用于在确定所述脆弱值小于所述第一阈值时,将临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据回传给所述临时故障节点;
返回执行模块,用于在确定所述脆弱值不小于所述第一阈值时,返回执行所述获取所述临时故障节点的CPU使用率和内存使用率的步骤,直至所述脆弱值小于所述第一阈值并进行写操作数据回传为止。
9.根据权利要求8所述的数据回传装置,其特征在于,所述回传模块包括:
判断单元,用于判断所述脆弱值是否小于第二阈值;其中,所述第二阈值小于所述第一阈值;
第一回传单元,用于在确定所述脆弱值小于所述第二阈值时,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据同时回传给所述临时故障节点;
第二回传单元,用于在确定所述脆弱值不小于所述第二阈值时,将所有所述临时备用节点在所述临时故障节点故障期间接管并产生的写操作数据顺序回传给所述临时故障节点。
10.根据权利要求9所述的数据回传装置,其特征在于,所述第二回传单元包括:
第一回传子单元,用于每次均控制一个所述临时备用节点将所述写操作数据回传给所述临时故障节点。
11.根据权利要求9所述的数据回传装置,其特征在于,所述第二回传单元可以包括:
排列子单元,用于若所述写操作数据涌入所述临时故障节点,则对所述写操作数据按照到达时间由早到晚的顺序进行排列,以得到写操作数据队列;
第二回传子单元,用于按照所述写操作数据队列进行所述写操作数据的回传。
12.根据权利要求9所述的数据回传装置,其特征在于,所述第一阈值为0.75,所述第二阈值为0.5。
13.根据权利要求8至12任一项所述的数据回传装置,其特征在于,所述得到脆弱值模块包括:
得到脆弱值单元,用于利用V=CpuUsed*x+MemUsed*y得到所述临时故障节点的脆弱值;
其中,V为所述临时故障节点的脆弱值,CpuUsed为所述CPU使用率,MemUsed为所述内存使用率,x、y为转移因子。
14.根据权利要求13所述的数据回传装置,其特征在于,所述获取模块包括:
获取单元,用于利用Sigar工具获取所述临时故障节点的所述CPU使用率和所述内存使用率。
15.一种数据回传设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的数据回传方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据回传方法的步骤。
CN201911207158.5A 2019-11-29 2019-11-29 一种数据回传方法、装置、设备及计算机可读存储介质 Active CN111045845B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911207158.5A CN111045845B (zh) 2019-11-29 2019-11-29 一种数据回传方法、装置、设备及计算机可读存储介质
PCT/CN2020/073115 WO2021103304A1 (zh) 2019-11-29 2020-01-20 一种数据回传方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911207158.5A CN111045845B (zh) 2019-11-29 2019-11-29 一种数据回传方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111045845A true CN111045845A (zh) 2020-04-21
CN111045845B CN111045845B (zh) 2021-09-17

Family

ID=70234173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911207158.5A Active CN111045845B (zh) 2019-11-29 2019-11-29 一种数据回传方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111045845B (zh)
WO (1) WO2021103304A1 (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102420704A (zh) * 2011-12-12 2012-04-18 东北大学 一种基于mpls-te的流量等级区分式故障恢复方法
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
GB2518052A (en) * 2013-09-04 2015-03-11 Appdynamics Inc Group server performance correction via actions to server subset
CN104536770A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种支持并行作业断点恢复的作业提交和恢复方法
CN105204965A (zh) * 2014-06-20 2015-12-30 英特尔公司 用于多节点环境中的动态节点修复的方法和装置
CN105335251A (zh) * 2015-09-23 2016-02-17 浪潮(北京)电子信息产业有限公司 一种故障恢复方法及系统
US9372906B2 (en) * 2004-09-09 2016-06-21 Microsoft Technology Licensing, Llc Method, system, and apparatus for providing resilient data transfer in a data protection system
CN106528324A (zh) * 2015-09-10 2017-03-22 华为技术有限公司 故障恢复的方法和装置
CN107394785A (zh) * 2017-07-03 2017-11-24 中国南方电网有限责任公司电网技术研究中心 配电网脆弱性评估的方法及装置
CN109040027A (zh) * 2018-07-12 2018-12-18 北京理工大学 基于灰色模型的网络脆弱性节点的主动预测方法
CN109117322A (zh) * 2018-08-28 2019-01-01 郑州云海信息技术有限公司 一种服务器主备冗余的控制方法、系统、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533506B (zh) * 2012-09-26 2015-06-24 深圳友讯达科技股份有限公司 建立回传路径的方法及网络系统、节点
CN104504147B (zh) * 2015-01-04 2018-04-10 华为技术有限公司 一种数据库集群的资源协调方法、装置及系统
CN107294790A (zh) * 2017-07-21 2017-10-24 郑州云海信息技术有限公司 一种集群系统中控制器节点故障恢复方法
CN108021452A (zh) * 2017-12-15 2018-05-11 郑州云海信息技术有限公司 一种分布式系统数据同步的方法、装置及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9372906B2 (en) * 2004-09-09 2016-06-21 Microsoft Technology Licensing, Llc Method, system, and apparatus for providing resilient data transfer in a data protection system
CN102420704A (zh) * 2011-12-12 2012-04-18 东北大学 一种基于mpls-te的流量等级区分式故障恢复方法
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
GB2518052A (en) * 2013-09-04 2015-03-11 Appdynamics Inc Group server performance correction via actions to server subset
CN105204965A (zh) * 2014-06-20 2015-12-30 英特尔公司 用于多节点环境中的动态节点修复的方法和装置
CN104536770A (zh) * 2015-01-28 2015-04-22 浪潮电子信息产业股份有限公司 一种支持并行作业断点恢复的作业提交和恢复方法
CN106528324A (zh) * 2015-09-10 2017-03-22 华为技术有限公司 故障恢复的方法和装置
CN105335251A (zh) * 2015-09-23 2016-02-17 浪潮(北京)电子信息产业有限公司 一种故障恢复方法及系统
CN107394785A (zh) * 2017-07-03 2017-11-24 中国南方电网有限责任公司电网技术研究中心 配电网脆弱性评估的方法及装置
CN109040027A (zh) * 2018-07-12 2018-12-18 北京理工大学 基于灰色模型的网络脆弱性节点的主动预测方法
CN109117322A (zh) * 2018-08-28 2019-01-01 郑州云海信息技术有限公司 一种服务器主备冗余的控制方法、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2021103304A1 (zh) 2021-06-03
CN111045845B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN106878473B (zh) 一种消息处理方法、服务器集群及系统
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN105426271A (zh) 对分布式存储系统的锁管理的方法和装置
CN105446827A (zh) 一种数据库故障时的数据存储方法和设备
CN114637475A (zh) 一种分布式存储系统控制方法、装置及可读存储介质
CN104506392A (zh) 一种宕机检测方法及设备
CN110187841A (zh) 一种存储系统管理磁盘的方法、装置及存储服务器
CN106815094B (zh) 一种用于实现主备同步模式下事务提交的方法与设备
CN106572137A (zh) 一种分布式服务资源管理方法和装置
CN111290880A (zh) 一种osd数据恢复方法、装置、设备、介质
CN111045845B (zh) 一种数据回传方法、装置、设备及计算机可读存储介质
CN103634167A (zh) 云环境中对目标主机进行安全配置检查的方法和系统
CN109493230B (zh) 一种单边交易的补录方法及装置
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
CN111367934A (zh) 数据一致性的检验方法、装置、服务器和介质
CN114647531B (zh) 故障解决方法、故障解决系统、电子设备及存储介质
CN108509143B (zh) 一种基于云存储的数据检测方法及装置
CN104102554B (zh) 一种数据备份的方法和数据备份装置
CN113542001B (zh) Osd故障心跳检测方法、装置、设备及存储介质
CN109117317A (zh) 一种集群故障恢复方法和相关装置
CN111784359B (zh) 多模式风控分级容灾方法及装置
CN102929746A (zh) 一种用于彩票销售系统的快速备份及恢复方法
CN111817892B (zh) 一种网络管理方法、系统、电子设备及存储介质
CN114415970A (zh) 分布式存储系统的磁盘故障处理方法、装置及服务器
CN103501320B (zh) 一种利用失效日志计算存储集群可用性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant