CN114296633A

CN114296633A - 一种基于大数据的数据迁移方法及系统

Info

Publication number: CN114296633A
Application number: CN202111460312.7A
Authority: CN
Inventors: 李珊
Original assignee: Guizhou Anhe Shengda Enterprise Management Co ltd
Current assignee: Guizhou Anhe Shengda Enterprise Management Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-04-08

Abstract

本发明公开了一种基于大数据的数据迁移方法，包括：终端同时向多个元数据节点发送数据获取请求；第一元数据节点基于数据获取请求，获取第一磁盘中的文件数据对应的元数据，并将文件数据对应的元数据发送至zookeeper中；zookeeper基于文件数据对应的元数据，获取文件数据对应的第一文件数据节点及对应的第二磁盘信息；当第二磁盘指示状态为饱和时，zookeeper控制第二磁盘将第二磁盘中的数据迁移至第三磁盘；zookeeper将第一文件数据节点与挂载的第三磁盘信息发送至第一元数据节点，并通过第一元数据节点透发至终端。

Description

一种基于大数据的数据迁移方法及系统

技术领域

本发明属于信息技术领域，具体地，涉及一种基于大数据的数据迁移的方法及系统。

背景技术

大数据是指一种规模大到在获取、存储、分析方面大大超出了传统数据库软件工具(如MySQL，Oracle，PostgreSQL等)能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征；是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Hadoop框架是一个由Apache基金会所开发的分布式系统基础云平台架构，通过Hadoop，用户可以在不了解分布式底层细节的情况下，开发分布式程序。Hadoop框架主要包括HDFS(Hadoop Distributed File System)MapReduce。其中，HDFS是一个分布式文件系统，为海量的数据提供存储，而MapReduce则为海量的数据提供计算。随着用户将数据和计算越来越多地迁移到云端，基于ECS(Elastic Compute Service)构建的HDFS文件系统的规模也越来越大，这包含了直接提供HDFS服务或者像HBase，Spark这样基于HDFS的产品。

在该架构下，若挂载的磁盘出现资源利用率过高，例如CPU占用率过高或存储量过大，则会极大的影响数据的请求和获取流程，导致系统效率低下，严重情况下还会造成磁盘宕机。

发明内容

本发明提供了一种基于大数据的数据迁移的方法及系统，有效解决了现有技术中挂载磁盘资源利用率过高导致的系统效率低下的问题，有效提升了系统的数据请求与获取效率。

为了实现上述目的，本发明提供了一种基于大数据的数据迁移的方法，包括：

终端同时向多个元数据节点发送数据获取请求，所述数据获取请求中包括文件数据ID，其中，第一磁盘挂载于所述多个元数据节点；

第一元数据节点基于所述数据获取请求，获取所述第一磁盘中的所述文件数据对应的元数据，并将所述文件数据对应的元数据发送至zookeeper中，所述第一元数据节点属于所述多个元数据节点中的一个或多个；

所述zookeeper基于所述文件数据对应的元数据，获取所述文件数据对应的第一文件数据节点及对应的第二磁盘信息，其中，所述第一文件数据节点的数量为多个；

当所述第二磁盘指示状态为饱和时，所述zookeeper控制所述第二磁盘将所述第二磁盘中的数据迁移至第三磁盘，并更新所述第二磁盘、第三磁盘与所述第一文件数据节点对应的挂载关系；

所述zookeeper将所述第一文件数据节点与挂载的第三磁盘信息发送至所述第一元数据节点，并通过所述第一元数据节点透发至所述终端；

所述终端向所述第一文件数据节点发送文件获取请求，以使所述第一文件数据节点从所述第三磁盘中获取所述文件数据，并将所述文件数据反馈至所述终端。

可选地，所述zookeeper控制所述第二磁盘将所述第二磁盘中的数据迁移至第三磁盘，包括：

当所述第三磁盘数量为一个时，所述第二磁盘将自身保存的文件数据和/或文件数据副本发送至所述第三磁盘中；

当所述第三磁盘数量为多个时，所述第二磁盘将自身保存的文件数据和/或文件数据副本进行拆分，并依据迁移策略将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中。

可选地，依据迁移策略将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中，包括：

依次获取多个所述第三磁盘的指示状态，基于所述指示状态，确定每一个所述第三磁盘的最大数据迁移量；

基于所述最大数据迁移量，将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中，其中，每一个所述第三磁盘中，迁移的文件数据和/或文件数据副本数据量小于所述对应的最大数据迁移量。

可选地，在所述将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘之后，所述方法还包括：

将多个所述第一文件数据节点的IP地址批量写入XML文件中，并保存至Zookeeper中；

所述Zookeeper按序批量读取所述XML文件中的IP地址，并完成所述第一文件数据节点的磁盘批量挂载操作。

可选地，所述终端向所述第一文件数据节点发送文件获取请求，包括：

所述终端通过多线程操作机制，并行向多个所述第一文件数据节点发送文件数据请求，所述文件数据请求中包含所述第一文件数据节点信息及挂载的磁盘信息。

可选地，在所述并行向多个所述第一文件数据节点发送文件数据请求之后，所述方法还包括：

若所述第一文件数据节点未响应所述文件数据请求，则所述zookeeper对所述第一文件数据节点进行重定向RE-ORIENT操作。

若所述第一文件数据节点未响应所述文件数据请求，则所述zookeeper对所述第一文件数据节点进行重挂载操作。

可选地，所述终端同时向多个元数据节点发送数据获取请求，包括：

若所述多个元数据节点中的一个或多个节点宕机，则所述终端在预设周期内未收到宕机节点的响应，将所述宕机节点的IP地址放入所述终端的黑名单中。

可选地，所述第二磁盘指示状态为所述第二磁盘资源利用率的使用状态。

本发明实施例还提供了一种基于大数据的数据迁移系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。

本发明实施例的方法及系统具有下列优点：

本发明实施例中，zookeeper通过获取磁盘的指示状态，判断当前磁盘是否处于饱和，若处于饱和状态则将磁盘的数据进行迁移，并在迁移过程后重新刷新磁盘和文件数据节点的挂载关系，提升了系统获取数据及响应数据请求的效率。此外，本发明实施例还可以通过批量IP写入，批量磁盘挂载的方式进行磁盘批量挂载，提升了磁盘挂载效率。

附图说明

图1为一个实施例中hadoop云平台架构图；

图2为一个实施例中基于大数据的数据迁移的方法流程图；

图3为一个实施例中元数据节点宕机后的发送流程示意图；

图4为一个实施例中的数据迁移逻辑示意图；

图5为一个实施例中系统的硬件组成示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明实施例中hadoop云平台架构图，如图1所示，该平台10包括终端11、多个元数据节点MetaNode 12，挂载在多个元数据节点的第一磁盘13，多个第一文件数据节点FileNode 14、挂载多个第一文件数据节点的多个磁盘15，以及zookeeper 16。为了方便说明，本发明实施例用两个元数据节点121和122举例，本领域技术人员可以理解，在实际的场景中，元数据节点大于等于2个。

其中，元数据节点121和122均挂载有第一磁盘13，该第一磁盘13中存储有终端需要获取到的数据对应的文件信息，该文件信息包括该文件的存储地址、存储的文件数据节点名称或节点ID，以及该文件数据节点挂载了的磁盘信息。可以理解的是，元数据节点直接与终端进行交互，为终端响应其需要获取到的文件信息，而第一磁盘则类似于目录或指针的概念，其存储有终端其要的文件信息。

多个第一文件数据节点14的目的是响应于终端的文件获取请求，为终端提供必要的数据或文件，为了方便说明，该第一文件数据节点包括三个节点，分别标记为141、142和143，与其对应的挂载磁盘15包括第二磁盘151、第三磁盘152、第四磁盘153和第五磁盘154，其中，151-154的数量可以是一个，也可以是多个(例如，编号为第三磁盘的一套磁盘中有多个磁盘，形成磁盘阵列)。其中，示例性地，文件数据节点141挂载得有第二和第五磁盘；文件数据节点142挂载得有第三和第五磁盘；文件数据节点143挂载得有第三和第四磁盘。由于文件数据节点和磁盘可以是一对多的关系，因此，访问文件数据节点141，即可访问第二和第五磁盘中的数据内容。

zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。在本发明实施例中，zookeeper 16保存有元数据节点与挂载的磁盘之间的对应关系，同样也保存有文件数据节点与挂载的磁盘之间的对应关系，同时，当磁盘的资源占用率或利用率达到饱和(例如超过临界值或预设阈值)时，需要zookeeper进行数据迁移的管控和监督服务。

如图2所示，本发明实施例提供一种基于大数据的数据迁移方法，应用于图1所示的hadoop云平台，包括：

S101.终端同时向多个元数据节点发送数据获取请求，所述数据获取请求中包括文件数据ID，其中，第一磁盘挂载于所述多个元数据节点；

当终端需要获取数据文件时，生成一个数据获取请求，该请求中包括了需要获取的文件数据ID，并向多个元数据节点同时同步发送。

之所以需要向多个元数据节点同时并同步发送，是为了提升应答效率，类似于广播broadcast机制，当终端向多个元数据节点群发时，只需要接收到响应最快的元数据节点发来的响应，可最大限度的提升网元和终端的应答能力。此外，如果多个元数据节点中出现了一个或多个节点宕机，例如图3中，元数据节点121出现了宕机，则此时元数据节点122还可以正常工作并响应终端的请求，网元的稳定性得到提升。

此外，若多个元数据节点中的一个或多个节点宕机，则终端在预设周期内未收到该宕机节点的响应，将宕机节点的IP地址放入终端的黑名单中。

S102.第一元数据节点基于所述数据获取请求，获取所述第一磁盘中的所述文件数据对应的元数据，并将所述文件数据对应的元数据发送至zookeeper中，所述第一元数据节点属于所述多个元数据节点中的一个或多个；

当多个元数据节点收到该数据获取请求后，则发送”query”指令在第一磁盘中查找该文件数据ID对应的元数据，该元数据包括不限于该文件数据对应的存储地址、对应的文件数据节点名称/ID及挂载的磁盘目录和名称等。示例性地，在创建目录或者文件时，元数据节点在元数据云盘上创建对应的目录或者文件，然后通过RPC(Remote ProcedureCall，远程过程调用)调用文件数据节点FileNode创建实际的文件。元数据上创建的文件，除了上述内容外，还包括这个文件的属性，包括：物理地址、文件长度、权限、状态等，属性的更新保证是原子操作。其中，物理地址描述了一个文件真实存放的地址，可以包括<云盘ID，目录ID，UUID>3个部分，UUID是创建文件时生成的唯一ID，使用UUID来作为逻辑文件路径到物理文件的映射，这样的好处是在重命名文件时，只需要修改元数据，不需要移动文件数据本身。元数据映射的例子如：文件“/root/source/people.txt”映射到UUID。

S103.所述zookeeper基于所述文件数据对应的元数据，获取所述文件数据对应的第一文件数据节点及对应的第二磁盘信息，其中，所述第一文件数据节点的数量为多个；

在获取到文件数据对应的元数据之后，zookeeper即可根据该元数据，获取终端需要的文件数据地址信息，在本发明实施例中，该文件数据保存在第二磁盘中，且该第二磁盘挂载在第一文件数据节点上，因此，且第一文件数据节点为多个。

S104.当所述第二磁盘指示状态为饱和时，所述zookeeper控制所述第二磁盘将所述第二磁盘中的数据迁移至第三磁盘，并更新所述第二磁盘、第三磁盘与所述第一文件数据节点对应的挂载关系；

可选地，在本发明实施例中，第二磁盘的指示状态包括该磁盘的资源利用率等具体指标的状态，例如，资源利用率达到90％时认定其处于饱和状态。

在第二磁盘进入了饱和状态后，为了负载均衡的考虑，需要将第二磁盘的有效数据进行有序迁移，具体地，zookeeper控制第二磁盘将所述第二磁盘中的数据迁移至第三磁盘：

当所述第三磁盘数量为一个时，所述第二磁盘将自身保存的文件数据和/或文件数据副本发送至所述第三磁盘中；迁移之后，第二磁盘降低自身的资源利用率，其存储容量和处理效率会得到较大提升，相应的，第三磁盘的资源利用率会提升，但总体而言不会影响到数据正常的读写。

当所述第三磁盘数量为多个时，所述第二磁盘将自身保存的文件数据和/或文件数据副本进行拆分，并依据迁移策略将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中。例如，zookeeper可依次获取多个所述第三磁盘的指示状态，基于所述指示状态，确定每一个所述第三磁盘的最大数据迁移量MAX_DATA；基于所述最大数据迁移量，将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中，其中，每一个所述第三磁盘中，迁移的文件数据和/或文件数据副本数据量小于所述对应的最大数据迁移量。如图4所示，假设第三磁盘具备3个，标记分别为3a,3b,3c，则第二磁盘将自身保存的文件数据和/或文件数据副本进行拆分，拆分为3段，为了匹配每一个第三磁盘的最大数据迁移量MAX1,MAX2和MAX3，第二磁盘将拆分比例定为3：3：4，即30％的数据迁移至3a，30％的数据迁移至3b，40％的数据迁移至3c，满足迁移的文件数据和/或文件数据副本数据量小于对应的最大数据迁移量的条件。

此外，在所述将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘之后，hadoop云平台还可以进行磁盘批量挂载操作，包括：将多个所述第一文件数据节点的IP地址批量写入XML文件中，并保存至Zookeeper中；所述Zookeeper按序批量读取所述XML文件中的IP地址，并完成所述第一文件数据节点的磁盘批量挂载操作。

具体地，首先按照顺序接收待传入的待挂载节点信息，通过对比现有可用的磁盘盘符和已用正常挂载的磁盘盘符获取可以挂载的新磁盘信息，通过磁盘损坏日志信息获取需要挂载的数据目录，执行指令对获取的可以进行挂载的新磁盘进行分区及格式化，随后获取新挂载磁盘的uuid替换新磁盘的uuid，执行指令进行挂载，最后通过检查需要挂载的数据目录信息判断磁盘是否挂载成功，如果挂载成功则启动该节点所有服务，如果不成功则重启，待检测到重启成功后重新检查待挂载磁盘是否挂载成功。

S105.所述zookeeper将所述第一文件数据节点与挂载的第三磁盘信息发送至所述第一元数据节点，并通过所述第一元数据节点透发至所述终端；

在获取了第一文件数据节点与新的第三磁盘信息的挂载信息后，将该信息发送至第一元数据节点，并通过该节点透发至终端。

S106.所述终端向所述第一文件数据节点发送文件获取请求，以使所述第一文件数据节点从所述第三磁盘中获取所述文件数据，并将所述文件数据反馈至所述终端。

在本发明实施例中，所述终端向所述第一文件数据节点发送文件获取请求，具体可以为：该终端可通过多线程操作机制，并行向多个所述第一文件数据节点发送文件数据请求，其中，文件数据请求中包含所述第一文件数据节点信息及挂载的磁盘信息。其中，多线程操作机制同步及并行发送请求，能够保证该终端在最短时间内收到最快响应的节点发送的文件数据，而不必等到单一的第一文件数据节点的响应。此外，遇到极端情况下，例如通信故障或节点宕机，多线程的操作机制可以保证至少有一条备份线路正常响应。

此外，在所述并行向多个所述第一文件数据节点发送文件数据请求之后，若所述第一文件数据节点未响应所述文件数据请求，则所述zookeeper对所述第一文件数据节点进行重定向RE-ORIENT操作或重挂载操作。重定向操作即更新路由表，使得路径进行重新设计并及时更新，并重新根据更新后的路由表进行数据查询和获取，此外，重定向还可以包括路由路径更改为从新的文件数据节点获取第三磁盘中的文件数据(前提是该第三磁盘挂载在第一文件数据节点及该新节点之上)；而重挂载则表示第三磁盘挂载到第一数据节点不成功，此时需要重新进行一轮挂载。

本发明实施例的方法及系统具有下列优点：

本发明实施例还提供一种系统，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机可执行指令用于执行上述实施例中的方法。

图5为一个实施例中系统的硬件组成示意图。可以理解的是，图5仅仅示出了系统的简化设计。在实际应用中，系统还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等，而所有可以实现本申请实施例的大数据管理方法的系统都在本申请的保护范围之内。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read至only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read至only memory，CD至ROM)，该存储器用于相关指令及数据。

输入系统用于输入数据和/或信号，以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。处理器还可以包括一个或多个专用处理器，专用处理器可以包括GPU、FPGA等，用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于大数据的数据迁移方法，应用于Hadoop云平台，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述zookeeper控制所述第二磁盘将所述第二磁盘中的数据迁移至第三磁盘，包括：

3.根据权利要求2所述的方法，其特征在于，依据迁移策略将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘中，包括：

4.根据权利要求2或3所述的方法，其特征在于，在所述将所述拆分后的文件数据和/或文件数据副本依次迁移至多个所述第三磁盘之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述终端向所述第一文件数据节点发送文件获取请求，包括：

6.根据权利要求5所述的方法，其特征在于，在所述并行向多个所述第一文件数据节点发送文件数据请求之后，所述方法还包括：

7.根据权利要求5所述的方法，其特征在于，在所述并行向多个所述第一文件数据节点发送文件数据请求之后，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述终端同时向多个元数据节点发送数据获取请求，包括：

9.根据权利要求1所述的方法，其特征在于，所述第二磁盘指示状态为所述第二磁盘资源利用率的使用状态。

10.一种基于大数据的数据迁移系统，其特征在于，包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至9任一项所述的方法。