CN114816855A - 一种hdfs系统数据处理方法、装置、介质 - Google Patents
一种hdfs系统数据处理方法、装置、介质 Download PDFInfo
- Publication number
- CN114816855A CN114816855A CN202210465686.6A CN202210465686A CN114816855A CN 114816855 A CN114816855 A CN 114816855A CN 202210465686 A CN202210465686 A CN 202210465686A CN 114816855 A CN114816855 A CN 114816855A
- Authority
- CN
- China
- Prior art keywords
- cluster
- source cluster
- backup
- executing
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 23
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 13
- 230000010076 replication Effects 0.000 claims description 3
- 230000002265 prevention Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1464—Management of the backup or restore process for networked environments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
- G06F16/184—Distributed file systems implemented as replicated file system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机存储领域,公开了一种HDFS系统数据备份方法、装置、介质,包括:执行备份任务以将集群数据从源集群复制至备份集群,以防止源集群中数据丢失或损坏。在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件,以判断是否能够向源集群中成功写入更新数据。若满足预设条件,在源集群和备份集群中同时执行更新指令;若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。本申请所提供的方案中,通过根据源集群的工作状态选择合适的防止以执行更新指令,从而修改源集群和备份集群中的数据,无需拷贝全盘数据,提高数据备份效率。
Description
技术领域
本申请涉及计算机存储领域,特别是涉及一种HDFS系统数据处理方法、装置、介质。
背景技术
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种管理网络中跨多台计算机存储的文件的文件管理系统。HDFS系统中具有Namenode,Datanode,SecondaryNamenode三类节点,其中,Namenode节点在系统负责存储文件系统的元数据(文件目录树,文件和存储数据的对应关系)和目录权限等数据。
在跨HDFS集群同步数据的场景中,通常需要将一个HDFS集群中的全部数据拷贝到另一集群中。若在拷贝过程中若存在数据修改操作,则需要再次执行数据拷贝工作,以保证源集群与目标集群的数据一致。但拷贝全部数据会占用大量的时间和计算资源,影响工作效率。
由此可见,如何提供一种更加高效的HDFS系统数据备份方法,以提高数据备份效率,是本领域技术人员亟需解决的问题。
发明内容
本申请的目的是提供一种HDFS系统数据备份方法、装置、介质,以提高数据备份效率。
为了解决上述技术问题,本申请提供了一种HDFS系统数据处理方法,该方法包括:
执行备份任务以将集群数据从源集群复制至备份集群;
在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件;
若满足所述预设条件,在所述源集群和备份集群中同时执行所述更新指令;
若不满足,在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令。
优选的,所述预设条件包括:
所述源集群的网络带宽高于预设带宽,且所述源集群获取到的请求数量低于第一请求数量阈值。
优选的,所述在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令,包括:
判断所述源集群的工作状态满足所述预设条件的第二时刻与在所述备份集群中执行所述更新指令的第一时刻之差是否小于第一预设时间;
若小于所述第一预设时间,执行所述在所述源集群中执行所述更新指令的步骤;
若不小于,向管理人员发送第一预警信息。
优选的,还包括:
当获取到所述客户端发送的读取指令后,判断是否已经在所述源集群中执行所述更新指令;
若已执行所述更新指令,则在所述备份集群中执行所述读取指令;
若未执行所述更新指令,则判断所述源集群的请求数量是否大于第二请求数量阈值;
若大于所述第二请求数量阈值,则在所述备份集群中执行所述读取指令;
若不大于所述第二请求数量阈值,则在所述源集群中执行所述读取指令。
优选的,所述在所述源集群中执行所述更新指令包括:
获取所述备份集群中与所述更新指令对应的数据块;
将各所述数据块写入所述源集群中。
优选的,所述在所述源集群和备份集群中同时执行所述更新指令的步骤后,还包括:
向客户端发送第一反馈信息;
所述在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令的步骤后,还包括:
向所述客户端发送第二反馈信息。
优选的,所述在所述源集群和备份集群中同时执行所述更新指令包括:
判断在第二预设时间内是否成功在所述源集群中执行所述更新指令;
若未成功执行,执行所述在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令的步骤。
为了解决上述技术问题,本申请还提供一种HDFS系统数据处理装置,包括:
复制模块,用于执行备份任务以将集群数据从源集群复制至备份集群;
判断模块,用于在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件;
第一执行模块,用于若满足所述预设条件,在所述源集群和备份集群中同时执行所述更新指令;
第二执行模块,用于若不满足,在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令。
为了解决上述技术问题,本申请还提供一种HDFS系统数据处理装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的HDFS系统数据处理方法的步骤。
为了解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的HDFS系统数据处理方法的步骤。
本申请提供了一种HDFS系统数据备份方法,该方法包括:执行备份任务以将集群数据从源集群复制至备份集群,以防止源集群中数据丢失或损坏。在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件,以判断是否能够向源集群中成功写入更新数据。若满足预设条件,在源集群和备份集群中同时执行更新指令;若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。本申请所提供的方案中,通过根据源集群的工作状态选择合适的防止以执行更新指令,从而修改源集群和备份集群中的数据,无需拷贝全盘数据,提高数据备份效率。
此外,本申请还提供了一种HDFS系统数据备份装置、介质,与上述方法对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种HDFS系统架构图;
图2为本申请实施例所提供的一种HDFS系统数据处理方法的流程图;
图3为本申请实施例所提供的一种HDFS系统数据处理装置的结构图;
图4为本申请实施例所提供的另一种HDFS系统数据处理装置的结构图;
附图标记如下:1为客户端,2为协调进程,3为源集群,4为备份集群,10为复制模块,11为判断模块,110为第一执行模块,111为第二执行模块,20为存储器,21为处理器,22为显示屏,23为输入输出接口,24为通信接口,25为电源,26为通信总线,201为计算机程序,202为操作系统,203为数据。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种HDFS系统数据处理方法、装置、介质,以提高HDFS系统数据备份效率。
在大型服务器工作场景中,通常采用HDFS系统搭建高容错率、高吞吐量的分布式文件系统,HDFS系统通常以集群的形式保存数据。在实际应用中,经常出现跨HDFS集群同步数据的场景,为了提高用户修改数据后HDFS数据集群数据同步的速度,本申请提供了一种HDFS系统数据处理方法,图1为本申请实施例所提供的一种HDFS系统架构图,如图1所示,该系统包括:客户端1、协调进程2、源集群3和备份集群44。其中,客户端1用于根据用户操作生成操作指令,协调进程2用于记录用户的操作指令,备份集群4用于存储备份数据。本申请所提供的数据处理方法应用于服务器,通过协调进程2控制源集群3与备份集群4的数据更新。在完成系统备份的情况下,HDFS系统在获取到用户发送的数据更新指令后判断源集群3与备份集群4的工作状态,若源集群3工作状态满足预设条件,则在源集群3与备份集群4中同时执行更新指令,若源集群3工作状态不满足预设条件,则仅在备份集群4中执行更新指令,同时通过协调进程2记录更新指令(包括操作指令和目标文件的存储路径),知道源集群3的工作状态满足预设条件后,根据协调进程2中记录的更新指令更新源集群3中的数据。通过根据源集群3的工作状态选择合适的防止以执行更新指令,从而修改源集群3和备份集群4中的数据,无需拷贝全盘数据,提高数据备份效率。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图2为本申请实施例所提供的一种HDFS系统数据处理方法的流程图,如图2所示,该方法包括:
S10:执行备份任务以将集群数据从源集群复制至备份集群。
S11:在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件。
在具体实施中,为了防止源集群中数据丢失或损坏,需要在每个备份周期内或检测到用户通过客户端所发送的备份指令后,将源集群中的数据备份至备份集群中。可以理解的是,由于源集群中数据量较大,数据备份过程所需时间较长,用户可能在数据备份过程中读取或修改源集群或备份集群中的数据,导致即使完成备份任务后源集群和备份集群中存在差异的情况。为了提高数据备份效率,本申请提供的数据处理方法仅修改源集群与备份集群中与更新指令对应的数据。
需要注意的是,由于HDFS系统需要处理大量的数据读取等请求,当工作量过大或网络带宽不足时,可能会出现在源集群所在服务器性能不足导致服务器无法执行更新指令的情况,进而导致源集群与备份集群中的数据存在差异,影响系统的正常运行。因此,在本实施例中通过判断源集群的工作状态是否满足预设条件从而选择相应的更新方式以在备份集群和源集群中执行更新指令。
在具体实施中,判断是否满足预设条件的工作可以由额外设置的进程完成,也可以由协调进程完成,此处不做限定。进一步的,协调进程可以记录更新指令的详细信息,例如:目标数据、对数据的操作指令;也可以仅记录更新指令名称信息和更新后数据的存储地址;前一种方案更加准确,但会导致协调进程的数据量过大,影响协调进程的正常工作,后一种方案所占用的计算资源较少。
可以理解的是,影响源集群的性能的因素包括:源集群负载和网络带宽等。
若满足预设条件,则进入S110;若不满足预设条件,则进入S111。
S110:若满足预设条件,在源集群和备份集群中同时执行更新指令。
S111:若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。
在具体实施中,若源集群满足预设条件,则在源集群和备份集群中同时执行更新指令;若不满足预设条件,则仅在备份集群中执行更新指令,并在协调进程中记录当前更新指令,协调进程还用于监视源集群的工作状态,当源集群的工作状态满足预设条件时,在源集群中执行记录的更新指令。
可以理解的是,在源集群和备份集群中同时执行更新指令时,可能由于执行更新指令的过程中源集群的负载突然增大或网络带宽降低,导致更新指令执行失败。因此,可以判断在第二预设时间内是否成功在源集群中执行更新指令,若未成功执行,向管理人员发送报警信息并通过协调线程记录更新指令,以在源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。
本申请提供了一种HDFS系统数据备份方法,该方法包括:执行备份任务以将集群数据从源集群复制至备份集群,以防止源集群中数据丢失或损坏。在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件,以判断是否能够向源集群中成功写入更新数据。若满足预设条件,在源集群和备份集群中同时执行更新指令;若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。本申请所提供的方案中,通过根据源集群的工作状态选择合适的防止以执行更新指令,从而修改源集群和备份集群中的数据,无需拷贝全盘数据,提高数据备份效率。
在具体实施中,为了准确的反应源集群的工作状态,在上述实施例的基础上,预设条件包括:
源集群的网络带宽高于预设带宽,且源集群获取到的请求数量低于第一请求数量阈值。
在具体实施中,当源集群的网络带宽高于预设带宽且源集群获取到的请求数量低于第一请求数量阈值时,在源集群和备份集群中同时执行更新指令。为了提高用户的使用体验,还可以将更新指令的具体执行结果发送至客户端以便于客户查看。若在源集群和备份集群均成功执行更新指令以对相应的数据进行修改,则向客户端发送第一反馈信息。
当源集群的网络带宽低于预设带宽且源集群获取到的请求数量高于第一请求数量阈值时,表明源集群负载过高或网络压力过大,此时源集群无法及时处理更新指令,此时只在备份集群中执行更新指令以更新备份集群中的数据,同时在协调进程中记录更新指令和与更新指令所对应的数据在备份集群中的存储路径。此外,协调进程还用于监控源集群的工作状态,当检测到源集群的工作状态满足预设条件时,根据存储路径获取备份集群中的目标数据,并将目标数据存储至源集群中。进一步的,为了提高用户的使用体验,使用户能够查看HDFS系统的工作状态,若完成修改备份集群中数据的时刻与完成修改源集群中数据的时刻不同,则向客户端发送第二反馈信息。
进一步的,当仅在备份集群中执行了更新指令时,可以向客户端发送第三反馈信息,以向用户表明更新数据以写入备份集群。
在本实施例中,通过将备份集群中的更新后的数据发送至源集群以完成源集群数据的更新任务。当备份集群向源集群发送数据时,并非调用源集群的原生HDFS写入数据接口,而是直接发送更新后的数据所涉及到的block,以替换源集群的相应的block。同时同步更新后数据在namenode中的元数据到源集群中。这样就完成了异步数据的同步工作,源集群不需要重复备份集群中的block合并操作,减少了计算资源的浪费和读取磁盘占用的系统性能。
可以理解的是,当源集群中数据更新完成后,清除协调进程中的更新指令的记录。
需要注意的是,在系统运行过程中,当源集群和备份集群中同时执行更新指令时,为了防止源集群业务量突然增加或网络带宽突然降低导致无法正常执行更新指令,在上述实施例的基础上,还需要判断在第二预设时间内是否成功在源集群中执行更新指令;若未成功执行,则在记录更新指令并监控源集群的工作状态,直至源集群满足预设条件时在源集群中执行更新指令。从而执行更新指令的时间过长,影响用户的正常使用。
在具体实施中,当源集群存在故障或网络连接存在故障时,将导致更新指令长时间不能再源集群中执行,导致源集群与备份集群数据差距过大,影响正常的数据读取和使用。
为了解决这一问题,在上述实施例的基础上,在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令,包括:
判断源集群的工作状态满足预设条件的第二时刻与在备份集群中执行更新指令的第一时刻之差是否小于第一预设时间;
若小于第一预设时间,执行在源集群中执行更新指令的步骤;
若不小于,向管理人员发送第一预警信息。
在本实施例中,通过在第一时刻与第二时刻之差小于第一预设时间时向管理人员发送第一预警信息,使管理人员能够及时发现源集群的故障状态,提高系统稳定性。
在具体实施中,通常由源集群负责处理全部的读取请求,备份集群只作为数据备份工具,备份集群并不承担业务压力,导致计算资源浪费。
为了解决这一问题,在上述实施例的基础上,当获取到客户端发送的读取指令后,判断是否已经在源集群中执行更新指令;
若已执行更新指令,则在备份集群中执行读取指令;
若未执行更新指令,则判断源集群的请求数量是否大于第二请求数量阈值;
若大于第二请求数量阈值,则在备份集群中执行读取指令;
若不大于第二请求数量阈值,则在源集群中执行读取指令。
当请求数量大于第二请求阈值时,表明系统的业务压力增大,此时协调进程可以将部分请求转移至备份集群,以减小源集群的业务压力,提高HDFS系统工作效率。
进一步的,由于获取到更新指令后,优先修改备份集群中的数据,因此备份集群中的数据要比源集群中的数据更新。为了保证用户读取的数据为最新数据,协调进程需要判断与用户请求对应的文件与记录的更新指令的目标文件是否对应,若是,则将此用户请求转发至备份集群,以保证接收到的数据为最新数据。
在具体实施中,为了确保源集群中的数据不会落后于备份集群太多,需要定期同步备份集群与源集群中的数据。另外,在解除两个集群的备份关系之前,会强制执行同步备份集群与源集群中的数据。若源集群或者备份集群有一个发生故障无法提供服务。将双集群备份系统降级为传统单集群系统,并且采用协调进程记录此期间更新指令,当故障集群恢复服务时,根据更新指令同步源集群与备份集群中的数据。协调进程可以在备份集群、源集群所在的服务器上运行,也可以运行在单独设施的服务器中,协调进程采用分布式多实例的方式运行,不同实例间的数据保持同步,当某一实例出现故障时,切换至其他可用实例,以防止更新指令记录丢失,提高系统的稳定性。
需要注意的是,在执行更新指令的过程中,若用户再次修改与更新指令对应的数据,则创建HDFS快照(保留原block文件和ID信息),并该文件标记为并发修改状态。同时正常执行更新指令,并在下一次执行更新指令时对该数据进行更新。
在上述实施例中,对于HDFS系统数据处理方法进行了详细描述,本申请还提供HDFS系统数据处理装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图3为本申请实施例所提供的一种HDFS系统数据处理装置的结构图,包括:
复制模块10,用于执行备份任务以将集群数据从源集群复制至备份集群;
判断模块11,用于在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件;
第一执行模块110,用于若满足预设条件,在源集群和备份集群中同时执行更新指令;
第二执行模块111,用于若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本实施例中提供了一种HDFS系统数据备份装置,该装置包括:执行备份任务以将集群数据从源集群复制至备份集群,以防止源集群中数据丢失或损坏。在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件,以判断是否能够向源集群中成功写入更新数据。若满足预设条件,在源集群和备份集群中同时执行更新指令;若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。本申请所提供的方案中,通过根据源集群的工作状态选择合适的防止以执行更新指令,从而修改源集群和备份集群中的数据,无需拷贝全盘数据,提高数据备份效率。
图4为本申请实施例所提供的另一种HDFS系统数据处理装置的结构图,如图4所示,HDFS系统数据处理包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例HDFS系统数据处理方法的步骤。
本实施例提供的服务器可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的HDFS系统数据处理方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于更新指令等。
在一些实施例中,HDFS系统数据处理装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图4中示出的结构并不构成对HDFS系统数据处理装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的HDFS系统数据处理装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:
执行备份任务以将集群数据从源集群复制至备份集群;
在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件;
若满足预设条件,在源集群和备份集群中同时执行更新指令;
若不满足,在备份集群中执行更新指令,并在确定源集群的工作状态满足预设条件的情况下,在源集群中执行更新指令。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的HDFS系统数据处理方法、装置、介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种HDFS系统数据处理方法,其特征在于,包括:
执行备份任务以将集群数据从源集群复制至备份集群;
在获取到更新指令的情况下,判断所述源集群的工作状态是否满足预设条件;
若满足所述预设条件,在所述源集群和所述备份集群中同时执行所述更新指令;
若不满足,在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令。
2.根据权利要求1所述的HDFS系统数据处理方法,其特征在于,所述预设条件包括:
所述源集群的网络带宽高于预设带宽,且所述源集群获取到的请求数量低于第一请求数量阈值。
3.根据权利要求1所述的HDFS系统数据处理方法,其特征在于,所述在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令,包括:
判断所述源集群的工作状态满足所述预设条件的第二时刻与在所述备份集群中执行所述更新指令的第一时刻之差是否小于第一预设时间;
若小于所述第一预设时间,执行所述在所述源集群中执行所述更新指令的步骤;
若不小于,向管理人员发送第一预警信息。
4.根据权利要求1至3任意一项所述的HDFS系统数据处理方法,其特征在于,还包括:
当获取到所述客户端发送的读取指令后,判断是否已经在所述源集群中执行所述更新指令;
若已执行所述更新指令,则在所述备份集群中执行所述读取指令;
若未执行所述更新指令,则判断所述源集群的请求数量是否大于第二请求数量阈值;
若大于所述第二请求数量阈值,则在所述备份集群中执行所述读取指令;
若不大于所述第二请求数量阈值,则在所述源集群中执行所述读取指令。
5.根据权利要求3所述的HDFS系统数据处理方法,其特征在于,所述在所述源集群中执行所述更新指令包括:
获取所述备份集群中与所述更新指令对应的数据块;
将各所述数据块写入所述源集群中。
6.根据权利要求1所述的HDFS系统数据处理方法,其特征在于,所述在所述源集群和所述备份集群中同时执行所述更新指令的步骤后,还包括:
向客户端发送第一反馈信息;
所述在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令的步骤后,还包括:
向所述客户端发送第二反馈信息。
7.根据权利要求1所述的HDFS系统数据处理方法,其特征在于,所述在所述源集群和所述备份集群中同时执行所述更新指令包括:
判断在第二预设时间内是否成功在所述源集群中执行所述更新指令;
若未成功执行,执行所述在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令的步骤。
8.一种HDFS系统数据处理装置,其特征在于,包括:
复制模块,用于执行备份任务以将集群数据从源集群复制至备份集群;
判断模块,用于在获取到更新指令的情况下,判断源集群的工作状态是否满足预设条件;
第一执行模块,用于若满足所述预设条件,在所述源集群和备份集群中同时执行所述更新指令;
第二执行模块,用于若不满足,在所述备份集群中执行所述更新指令,并在确定所述源集群的工作状态满足所述预设条件的情况下,在所述源集群中执行所述更新指令。
9.一种HDFS系统数据处理装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的HDFS系统数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的HDFS系统数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210465686.6A CN114816855A (zh) | 2022-04-29 | 2022-04-29 | 一种hdfs系统数据处理方法、装置、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210465686.6A CN114816855A (zh) | 2022-04-29 | 2022-04-29 | 一种hdfs系统数据处理方法、装置、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114816855A true CN114816855A (zh) | 2022-07-29 |
Family
ID=82509259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210465686.6A Pending CN114816855A (zh) | 2022-04-29 | 2022-04-29 | 一种hdfs系统数据处理方法、装置、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114816855A (zh) |
-
2022
- 2022-04-29 CN CN202210465686.6A patent/CN114816855A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230138736A1 (en) | Cluster file system-based data backup method and apparatus, and readable storage medium | |
US11397648B2 (en) | Virtual machine recovery method and virtual machine management device | |
CN102981931B (zh) | 虚拟机备份方法及装置 | |
CN102594849B (zh) | 数据备份、恢复方法、虚拟机快照删除、回滚方法及装置 | |
US9569314B2 (en) | Flash copy for disaster recovery (DR) testing | |
US10114703B2 (en) | Flash copy for disaster recovery (DR) testing | |
CN111221678A (zh) | Hbase数据备份/恢复系统、方法、装置及电子设备 | |
CN107765990A (zh) | 一种系统磁盘管理方法和装置 | |
US20190050455A1 (en) | Adaptive page rendering for a data management system | |
CN114791901A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114328007B (zh) | 一种容器备份还原方法、装置及其介质 | |
CN111522688A (zh) | 分布式系统的数据备份方法及装置 | |
CN114816855A (zh) | 一种hdfs系统数据处理方法、装置、介质 | |
CN115080309A (zh) | 数据备份系统、方法、存储介质以及电子设备 | |
CN115098300A (zh) | 一种数据库的备份方法、容灾方法、装置及设备 | |
CN112148532A (zh) | 硬盘数据的批量恢复方法、装置、存储介质及电子设备 | |
CN111400098A (zh) | 一种副本管理方法、装置、电子设备及存储介质 | |
CN110688071A (zh) | 一种减少数据同步量的数据同步方法及系统 | |
CN117667515B (zh) | 主备集群的备份管理方法、装置、计算机设备及存储介质 | |
CN110658989B (zh) | 用于备份存储垃圾收集的系统和方法 | |
CN114301927A (zh) | 一种分布式系统中主节点选取方法、装置及介质 | |
CN115617576A (zh) | 一种副本数据的恢复方法、装置及介质 | |
CN114168528A (zh) | 一种快照生成方法、装置、介质 | |
CN112667358A (zh) | 虚拟机快照的管理方法、电子设备、计算机可读介质 | |
CN115657934A (zh) | 业务与元数据同步并行处理的方法、装置、服务器及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |