CN113434462A - Hdfs数据的转移方法及装置、存储介质、电子设备 - Google Patents

Hdfs数据的转移方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN113434462A
CN113434462A CN202110685687.7A CN202110685687A CN113434462A CN 113434462 A CN113434462 A CN 113434462A CN 202110685687 A CN202110685687 A CN 202110685687A CN 113434462 A CN113434462 A CN 113434462A
Authority
CN
China
Prior art keywords
hadoop cluster
target
hdfs data
data
service information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110685687.7A
Other languages
English (en)
Inventor
梁海昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202110685687.7A priority Critical patent/CN113434462A/zh
Publication of CN113434462A publication Critical patent/CN113434462A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种HDFS数据的转移方法及装置、存储介质、电子设备,属于云计算领域。其中,该方法包括:将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库H i ve元数据。通过本发明,解决了相关技术在数据转移后需要手动配置H i ve元数据的技术问题,提高了H i ve元数据的配置效率,在HDFS数据转移到目标Hadoop集群后,不用手动更新,在目标Hadoop集群中直接就可以进行使用和查询。

Description

HDFS数据的转移方法及装置、存储介质、电子设备
技术领域
本发明涉及云计算领域,具体而言,涉及一种HDFS数据的转移方法及装置、存储介质、电子设备。
背景技术
相关技术中,Hadoop实现了一个分布式文件系统(HDFS,Hadoop DistributedFile System,Hadoop分布式文件系统),其中一个组件是HDFS,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,而Hive是一种基于HDFS存储的数据库服务。
相关技术中,Hive元数据中,数据存储路径记录的是带有HDFS nameservice(名称服务)的完整URL(Uniform Resource Locator,统一资源定位符)信息,例如:hdfs://hadoop-demo/path/to/hive/data/,在备份或迁移数据HDFS数据时,需要同时对Hive元数据进行备份迁移,如果新集群的HDFS nameservice与旧集群不一致,要想HDFS数据在新Hadoop集群中直接就可以进行使用和查询,需要针对整条URL信息进行修改,重新手动逐条改写HDFS数据在新集群中的Hive元数据,导致数据转移时间长。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种HDFS数据的转移方法及装置、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种HDFS数据的转移方法,包括:将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
进一步,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据包括:在所述目标Hadoop集群的服务器节点中查询指定配置文件,其中,所述指定配置文件用于存储所述目标Hadoop集群的Hive配置参数;在所述指定配置文件中采用所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群中的第一元数据字段,其中,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,所述方法还包括:获取所述HDFS数据在所述源Hadoop集群中的数据库地址;基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据。
进一步,基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据包括:将所述数据库地址复制到所述目标Hadoop集群的数据库中,并将所述数据库地址配置为所述HDFS数据在所述目标Hadoop集群中的Hive元数据,其中,所述数据库地址与所述HDFS数据在所述目标Hadoop集群中的统一资源定位符URL地址对应。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括:在所述源Hadoop集群的服务器节点的指定配置文件中配置所述HDFS数据的第一元数据字段,在所述源Hadoop集群的数据库中配置所述HDFS数据的第二元数据字段,其中,所述HDFS数据的Hive元数据包括所述第一元数据字段和所述第二元数据字段,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP,所述第二元数据字段用于表征所述HDFS数据在集群内的存储路径。
进一步,在基于所述第二名称服务信息在所述目标Hadoop集群中配置所述HDFS数据的数据仓库Hive元数据之后,所述方法还包括:接收所述HDFS数据的查询请求;获取所述第二名称服务信息,以及获取所述HDFS数据在所述目标Hadoop集群中的数据库地址;采用所述第二名称服务信息和所述数据库地址拼接生成所述HDFS数据的Hive元数据;基于所述Hive元数据在目标Hadoop集群中定位所述HDFS数据。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括以下之一:接收所述HDFS数据的备份请求;接收所述HDFS数据的迁移请求。
根据本申请实施例的另一个方面,还提供了一种HDFS数据的转移装置,包括:转移模块,用于将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;判断模块,用于判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;第一配置模块,用于若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
进一步,所述第一配置模块包括:查询单元,用于在所述目标Hadoop集群的服务器节点中查询指定配置文件,其中,所述指定配置文件用于存储所述目标Hadoop集群的Hive配置参数;配置单元,用于在所述指定配置文件中采用所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群中的第一元数据字段,其中,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP。
进一步,所述装置还包括:转移模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,获取所述HDFS数据在所述源Hadoop集群中的数据库地址;第二配置模块,用于基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据。
进一步,所述第二配置模块包括:复制单元,用于将所述数据库地址复制到所述目标Hadoop集群的数据库中,并将所述数据库地址配置为所述HDFS数据在所述目标Hadoop集群中的Hive元数据,其中,所述数据库地址与所述HDFS数据在所述目标Hadoop集群中的统一资源定位符URL地址对应。
进一步,所述装置还包括:第三配置模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,在所述源Hadoop集群的服务器节点的指定配置文件中配置所述HDFS数据的第一元数据字段,在所述源Hadoop集群的数据库中配置所述HDFS数据的第二元数据字段,其中,所述HDFS数据的Hive元数据包括所述第一元数据字段和所述第二元数据字段,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP,所述第二元数据字段用于表征所述HDFS数据在集群内的存储路径。
进一步,所述装置还包括:接收模块,用于在所述第一配置模块基于所述第二名称服务信息在所述目标Hadoop集群中配置所述HDFS数据的数据仓库Hive元数据之后,接收所述HDFS数据的查询请求;获取模块,用于获取所述第二名称服务信息,以及获取所述HDFS数据在所述目标Hadoop集群中的数据库地址;生成模块,用于采用所述第二名称服务信息和所述数据库地址拼接生成所述HDFS数据的Hive元数据;定位模块,用于基于所述Hive元数据在目标Hadoop集群中定位所述HDFS数据。
进一步,所述装置还包括以下之一:第二接收模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,接收所述HDFS数据的备份请求;第三接收模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,接收所述HDFS数据的迁移请求。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群,然后判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息是否一致,若判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息不一致,基于第二名称服务信息配置HDFS数据在目标Hadoop集群的数据仓库Hive元数据,通过判断源Hadoop集群与目标Hadoop集群的名称服务信息是否一致,在不一致时,基于第二名称服务信息配置Hive元数据,实现了一种在转移HDFS数据后自动配置Hive元数据的方案,解决了相关技术在数据转移后需要手动配置Hive元数据的技术问题,提高了Hive元数据的配置效率,在HDFS数据转移到目标Hadoop集群后,不用手动更新,在目标Hadoop集群中直接就可以进行使用和查询。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种服务器的硬件结构框图;
图2是根据本发明实施例的一种HDFS数据的转移方法的流程图;
图3是本发明一可选实施例的转移流程图;
图4是根据本发明实施例的一种HDFS数据的转移装置的结构框图;
图5是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种HDFS数据的转移方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种HDFS数据的转移方法,图2是根据本发明实施例的一种HDFS数据的转移方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;
本实施例的HDFS数据和Hive元数据统称为Hive数据,是Hadoop集群中Hive服务的组成元素,其中,Hive元数据用于在关系型数据库中(例如mysql)记录Hive中库表信息,以及数据文件在HDFS中的存储路径,每个HDFS数据对应一条Hive元数据。
步骤S204,判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息是否一致;
本实施例的名称服务(nameservice)是Hadoop集群中的一种配置信息,为访问HDFS时的URL别名,实际配置中会指向NameNode(名称节点)IP,操作HDFS时不需要操作IP,而使用nameservice进行替代。
步骤S206,若判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息不一致,基于第二名称服务信息配置HDFS数据在目标Hadoop集群的数据仓库Hive元数据。
在另一方面,若判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息一致,则HDFS数据在目标Hadoop集群的Hive元数据与在源Hadoop集群中的一致,可以直接使用。
通过上述步骤,将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群,然后判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息是否一致,若判断源Hadoop集群的第一名称服务信息与目标Hadoop集群的第二名称服务信息不一致,基于第二名称服务信息配置HDFS数据在目标Hadoop集群的数据仓库Hive元数据,通过判断源Hadoop集群与目标Hadoop集群的名称服务信息是否一致,在不一致时,基于第二名称服务信息配置Hive元数据,实现了一种在转移HDFS数据后自动配置Hive元数据的方案,解决了相关技术在数据转移后需要手动配置Hive元数据的技术问题,提高了Hive元数据的配置效率,在HDFS数据转移到目标Hadoop集群后,不用手动更新,在目标Hadoop集群中直接就可以进行使用和查询。
在本实施例中,基于第二名称服务信息配置HDFS数据在目标Hadoop集群的数据仓库Hive元数据包括:
S11,在目标Hadoop集群的服务器节点中查询指定配置文件,其中,指定配置文件用于存储目标Hadoop集群的Hive配置参数;
可选的,该指定配置文件为server node(服务节点)中的hive-site.xml文件,当然,也可以是目标Hadoop集群的网络节点中的其他自定义的文件。
S12,在指定配置文件中采用第二名称服务信息配置HDFS数据在目标Hadoop集群中的第一元数据字段,其中,第一元数据字段用于表征HDFS数据指向的名称节点IP。
在一个示例中,第一名称服务信息为hadoop-demo1,第二名称服务信息为hadoop-demo2,若该目标Hadoop集群的指定配置文件已经配置了第二名称服务信息,则可以直接使用该hadoop-demo2作为新转移的HDFS数据的Hive元数据的一部分,即第一元数据字段;若该目标Hadoop集群的指定配置文件未配置第二名称服务信息,则在指定配置文件中新添加hadoop-demo2,之后就可以使用该hadoop-demo2作为新转移的HDFS数据的Hive元数据的一部分。
在本实施例的另一方面,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,还包括:
S21,获取HDFS数据在源Hadoop集群中的数据库地址;
以数据库为关系型数据库MySQL为例进行说明,HDFS数据在源Hadoop集群中的数据库地址为path/to/hive/data/,该地址存储在MySQL中,如果是其他数据存储方式,该数据库地址也可以存储在源Hadoop集群的其他位置,如使用derby内存数据库保存hive元数据,使用derby存储方式时,在当前目录生成一个derby文件和一个metastore_db目录,数据库地址会存储在metastore_db目录中。
S22,基于数据库地址在目标Hadoop集群中配置HDFS数据的Hive元数据。
在一个示例中,若源Hadoop集群和目标Hadoop集群都采用相同类型的数据库,如MySQL,由于数据库本身是通用的,因此可以在目标Hadoop集群中直接使用该数据库地址,如果源Hadoop集群使用的数据库A和目标Hadoop集群使用的数据库B不相同,则需要对数据库地址进行转换,将其转换为数据库B的数据库地址。该数据库地址是该HDFS数据的Hive元数据的另一部分,即第二元数据字段,第二元数据字段和上述第一元数据字段组成了完整的Hive元数据。
在本实施例的一个实施方式中,基于数据库地址在目标Hadoop集群中配置HDFS数据的数据仓库Hive元数据包括:将数据库地址复制到目标Hadoop集群的数据库中,并将数据库地址配置为HDFS数据在目标Hadoop集群中的Hive元数据,其中,数据库地址与HDFS数据在目标Hadoop集群中的统一资源定位符URL地址对应。
在本实施例的一个实施方式中,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,还包括:在源Hadoop集群的服务器节点的指定配置文件中配置HDFS数据的第一元数据字段,在源Hadoop集群的数据库中配置HDFS数据的第二元数据字段,其中,HDFS数据的Hive元数据包括第一元数据字段和第二元数据字段,第一元数据字段用于表征HDFS数据指向的名称节点(name node)IP,第二元数据字段用于表征HDFS数据在集群内的存储路径。
在本实施例的一些应用场景中,在目标Hadoop集群采用Hive元数据查询该HDFS数据。在基于第二名称服务信息在目标Hadoop集群中配置HDFS数据的数据仓库Hive元数据之后,还包括:接收HDFS数据的查询请求;获取第二名称服务信息,以及获取HDFS数据在目标Hadoop集群中的数据库地址;采用第二名称服务信息和数据库地址拼接生成HDFS数据的Hive元数据;基于Hive元数据在目标Hadoop集群中定位HDFS数据。
在一个应用场景中,用户通过客户端(client)向集群(包括目标Hadoop集群)发送查询请求,查询目标HDFS数据,通过目标HDFS数据的文件标识或者其他关键字在各个集群内的数据库进行检索,在目标Hadoop集群的路径path/to/hive/data/中找到该目标HDFS数据,通过在目标Hadoop集群的指定配置文件中获取其nameservice(hadoop-demo2),通过组成,得到完整的Hive元数据-hdfs://hadoop-demo2/path/to/hive/data,将其反馈给客户端,客户端采用该Hive元数据,可以定位到HDFS数据,并选择针对该HDFS数据执行进一步的操作。
在本实施例的方案可以应用在HDFS数据的备份或者迁移等数据转移场景中,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,还包括:接收HDFS数据的备份请求;或者,接收HDFS数据的迁移请求。
图3是本发明一可选实施例的转移流程图。如图3所示,可以理解的是,在一些Hive数据备份/迁移过程中,备份/迁移Hive数据的过程可以包括HDFS数据转移(备份/迁移)流程和Hive元数据的转移流程,其可以包括以下步骤:
S31,备份/迁移HDFS数据至目标Hadoop集群;
S32,备份/迁移MySQL数据(即Hive元数据)至目标MySQL;
S33,校验nameservice信息是否与目标Hadoop集群一致;
S34,若一致,确定迁移完成;若不一致,对目标Hadoop集群的nameservice信息进行更新,与目标集群一致。
在发明可选实施例中的一个改进在于,第S33步中,将元数据中的nameservice进行分离配置,单独在Hive的配置文件(hive-site.xml)中进行配置,从而不需要将nameservice固定在元数据中,在进行数据备份/迁移时,由于目标Hadoop集群中的Hive配置文件中nameservice本来就是正确配置,所以无需进行额外调整,直接将其配置成HDFS数据在目标集群中Hive元数据的一部分,从而可以省去步骤S33和步骤S34,即省去校验nameservice信息的步骤。
采用本实施例的方案,将nameservice从元数据中分离,作为单独的Hive配置,在hive-site.xml里面定义.不需要在元数据中记录,在做Hive数据迁移或备份时,在目标集群中只需要调整hive-site.xml即可,不需要更新MySQL中的内容。同时节省了数据备份/迁移的时间,HDFS数据+Hive元数据迁移完毕后,在目标Hadoop集群中直接就可以进行使用和查询,无需再一条条手动更新Hive元数据中的nameservice。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种HDFS数据的转移装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种HDFS数据的转移装置的结构框图,如图4所示,该装置包括:转移模块40,判断模块42,第一配置模块44,其中,
转移模块40,用于将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;
判断模块42,用于判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;
第一配置模块44,用于若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
可选的,所述第一配置模块包括:查询单元,用于在所述目标Hadoop集群的服务器节点中查询指定配置文件,其中,所述指定配置文件用于存储所述目标Hadoop集群的Hive配置参数;配置单元,用于在所述指定配置文件中采用所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群中的第一元数据字段,其中,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP。
可选的,所述装置还包括:转移模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,获取所述HDFS数据在所述源Hadoop集群中的数据库地址;第二配置模块,用于基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据。
可选的,所述第二配置模块包括:复制单元,用于将所述数据库地址复制到所述目标Hadoop集群的数据库中,并将所述数据库地址配置为所述HDFS数据在所述目标Hadoop集群中的Hive元数据,其中,所述数据库地址与所述HDFS数据在所述目标Hadoop集群中的统一资源定位符URL地址对应。
可选的,所述装置还包括:第三配置模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,在所述源Hadoop集群的服务器节点的指定配置文件中配置所述HDFS数据的第一元数据字段,在所述源Hadoop集群的数据库中配置所述HDFS数据的第二元数据字段,其中,所述HDFS数据的Hive元数据包括所述第一元数据字段和所述第二元数据字段,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP,所述第二元数据字段用于表征所述HDFS数据在集群内的存储路径。
可选的,所述装置还包括:接收模块,用于在所述第一配置模块基于所述第二名称服务信息在所述目标Hadoop集群中配置所述HDFS数据的数据仓库Hive元数据之后,接收所述HDFS数据的查询请求;获取模块,用于获取所述第二名称服务信息,以及获取所述HDFS数据在所述目标Hadoop集群中的数据库地址;生成模块,用于采用所述第二名称服务信息和所述数据库地址拼接生成所述HDFS数据的Hive元数据;定位模块,用于基于所述Hive元数据在目标Hadoop集群中定位所述HDFS数据。
可选的,所述装置还包括以下之一:第二接收模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,接收所述HDFS数据的备份请求;第三接收模块,用于在所述转移模块将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,接收所述HDFS数据的迁移请求。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本申请实施例还提供了一种电子设备,图5是本发明实施例的一种电子设备的结构图,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,存储器53,用于存放计算机程序;处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
进一步,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据包括:在所述目标Hadoop集群的服务器节点中查询指定配置文件,其中,所述指定配置文件用于存储所述目标Hadoop集群的Hive配置参数;在所述指定配置文件中采用所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群中的第一元数据字段,其中,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,所述方法还包括:获取所述HDFS数据在所述源Hadoop集群中的数据库地址;基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据。
进一步,基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据包括:将所述数据库地址复制到所述目标Hadoop集群的数据库中,并将所述数据库地址配置为所述HDFS数据在所述目标Hadoop集群中的Hive元数据,其中,所述数据库地址与所述HDFS数据在所述目标Hadoop集群中的统一资源定位符URL地址对应。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括:在所述源Hadoop集群的服务器节点的指定配置文件中配置所述HDFS数据的第一元数据字段,在所述源Hadoop集群的数据库中配置所述HDFS数据的第二元数据字段,其中,所述HDFS数据的Hive元数据包括所述第一元数据字段和所述第二元数据字段,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP,所述第二元数据字段用于表征所述HDFS数据在集群内的存储路径。
进一步,在基于所述第二名称服务信息在所述目标Hadoop集群中配置所述HDFS数据的数据仓库Hive元数据之后,所述方法还包括:接收所述HDFS数据的查询请求;获取所述第二名称服务信息,以及获取所述HDFS数据在所述目标Hadoop集群中的数据库地址;采用所述第二名称服务信息和所述数据库地址拼接生成所述HDFS数据的Hive元数据;基于所述Hive元数据在目标Hadoop集群中定位所述HDFS数据。
进一步,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括以下之一:接收所述HDFS数据的备份请求;接收所述HDFS数据的迁移请求。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的HDFS数据的转移方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的HDFS数据的转移方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种HDFS数据的转移方法,其特征在于,包括:
将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;
判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;
若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
2.根据权利要求1所述的方法,其特征在于,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据包括:
在所述目标Hadoop集群的服务器节点中查询指定配置文件,其中,所述指定配置文件用于存储所述目标Hadoop集群的Hive配置参数;
在所述指定配置文件中采用所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群中的第一元数据字段,其中,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP。
3.根据权利要求1所述的方法,其特征在于,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之后,所述方法还包括:
获取所述HDFS数据在所述源Hadoop集群中的数据库地址;
基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据。
4.根据权利要求3所述的方法,其特征在于,基于所述数据库地址在所述目标Hadoop集群中配置所述HDFS数据的Hive元数据包括:
将所述数据库地址复制到所述目标Hadoop集群的数据库中,并将所述数据库地址配置为所述HDFS数据在所述目标Hadoop集群中的Hive元数据,其中,所述数据库地址与所述HDFS数据在所述目标Hadoop集群中的统一资源定位符URL地址对应。
5.根据权利要求1所述的方法,其特征在于,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括:
在所述源Hadoop集群的服务器节点的指定配置文件中配置所述HDFS数据的第一元数据字段,在所述源Hadoop集群的数据库中配置所述HDFS数据的第二元数据字段,其中,所述HDFS数据的Hive元数据包括所述第一元数据字段和所述第二元数据字段,所述第一元数据字段用于表征所述HDFS数据指向的名称节点IP,所述第二元数据字段用于表征所述HDFS数据在集群内的存储路径。
6.根据权利要求1所述的方法,其特征在于,在基于所述第二名称服务信息在所述目标Hadoop集群中配置所述HDFS数据的数据仓库Hive元数据之后,所述方法还包括:
接收所述HDFS数据的查询请求;
获取所述第二名称服务信息,以及获取所述HDFS数据在所述目标Hadoop集群中的数据库地址;
采用所述第二名称服务信息和所述数据库地址拼接生成所述HDFS数据的Hive元数据;
基于所述Hive元数据在目标Hadoop集群中定位所述HDFS数据。
7.根据权利要求1所述的方法,其特征在于,在将HDFS数据从源Hadoop集群转移至目标Hadoop集群之前,所述方法还包括以下之一:
接收所述HDFS数据的备份请求;
接收所述HDFS数据的迁移请求。
8.一种HDFS数据的转移装置,其特征在于,包括:
转移模块,用于将Hadoop分布式文件系统HDFS数据从源Hadoop集群转移至目标Hadoop集群;
判断模块,用于判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息是否一致;
第一配置模块,用于若判断所述源Hadoop集群的第一名称服务信息与所述目标Hadoop集群的第二名称服务信息不一致,基于所述第二名称服务信息配置所述HDFS数据在所述目标Hadoop集群的数据仓库Hive元数据。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
CN202110685687.7A 2021-06-21 2021-06-21 Hdfs数据的转移方法及装置、存储介质、电子设备 Pending CN113434462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685687.7A CN113434462A (zh) 2021-06-21 2021-06-21 Hdfs数据的转移方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685687.7A CN113434462A (zh) 2021-06-21 2021-06-21 Hdfs数据的转移方法及装置、存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN113434462A true CN113434462A (zh) 2021-09-24

Family

ID=77756867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685687.7A Pending CN113434462A (zh) 2021-06-21 2021-06-21 Hdfs数据的转移方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN113434462A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115185723A (zh) * 2022-06-02 2022-10-14 广州市玄武无线科技股份有限公司 一种Region元信息修复方法、系统、装置及存储介质
WO2024001280A1 (zh) * 2022-06-30 2024-01-04 华为技术有限公司 数据流动感知方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370845A1 (en) * 2014-06-18 2015-12-24 International Business Machines Corporation Storage device data migration
CN106777164A (zh) * 2016-12-20 2017-05-31 东软集团股份有限公司 一种数据迁移集群及数据迁移方法
CN111241203A (zh) * 2020-02-10 2020-06-05 江苏满运软件科技有限公司 Hive数据仓库同步方法、系统、设备及存储介质
CN111897887A (zh) * 2020-08-06 2020-11-06 北京沃东天骏信息技术有限公司 参数配置方法及装置、系统、电子设备和存储介质
CN111984686A (zh) * 2019-05-24 2020-11-24 北京京东尚科信息技术有限公司 一种数据处理的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370845A1 (en) * 2014-06-18 2015-12-24 International Business Machines Corporation Storage device data migration
CN106777164A (zh) * 2016-12-20 2017-05-31 东软集团股份有限公司 一种数据迁移集群及数据迁移方法
CN111984686A (zh) * 2019-05-24 2020-11-24 北京京东尚科信息技术有限公司 一种数据处理的方法和装置
CN111241203A (zh) * 2020-02-10 2020-06-05 江苏满运软件科技有限公司 Hive数据仓库同步方法、系统、设备及存储介质
CN111897887A (zh) * 2020-08-06 2020-11-06 北京沃东天骏信息技术有限公司 参数配置方法及装置、系统、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TUNING.GT: "hadoop跨集群之间迁移hive数据", 《CSDN》, 30 April 2017 (2017-04-30), pages 1 - 3 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115185723A (zh) * 2022-06-02 2022-10-14 广州市玄武无线科技股份有限公司 一种Region元信息修复方法、系统、装置及存储介质
CN115185723B (zh) * 2022-06-02 2023-06-02 广州市玄武无线科技股份有限公司 一种Region元信息修复方法、系统、装置及存储介质
WO2024001280A1 (zh) * 2022-06-30 2024-01-04 华为技术有限公司 数据流动感知方法及相关装置

Similar Documents

Publication Publication Date Title
CN111970315A (zh) 推送消息的方法、装置及系统
CN110661638B (zh) 一种通信方法及装置
US20130275956A1 (en) Firmware upgrade method and system and terminal device using the method
CN109587258B (zh) 一种服务探活方法及装置
CN113434462A (zh) Hdfs数据的转移方法及装置、存储介质、电子设备
CN112506670B (zh) 一种多节点自动化运维任务处理方法、系统及存储介质
CN109151025B (zh) 基于url的负载均衡方法、装置、计算机存储介质及设备
CN110413845B (zh) 基于物联网操作系统的资源存储方法及装置
US20240134549A1 (en) Method and system for data uploading, and computer-readable storage medium
CN109857723B (zh) 基于可扩容数据库集群的动态数据迁移方法及相关设备
CN113010378B (zh) 微服务模块的日志处理方法及装置、存储介质、电子装置
CN112788126A (zh) 资源下载方法、装置、服务器和存储介质
CN113067853A (zh) 一种数据推送方法、装置、电子设备及存储介质
CN115706741A (zh) 一种切片文件的回源方法以及装置
CN110955460B (zh) 一种服务进程启动方法、装置、电子设备和存储介质
CN115221119A (zh) 文件的查找方法及装置、存储介质、电子设备
US20230045914A1 (en) Method and apparatus for controlling device in internet of things, and gateway device and storage medium
CN113055213A (zh) 告警信息管理方法、告警信息管理系统及服务器
CN111770487B (zh) 一种接入点名称apn信息配置方法、设备及介质
CN112783842B (zh) 一种日志收集方法和装置
CN109104499B (zh) 一种会话建立方法、装置、设备和存储介质
EP4057577A1 (en) Addressing method, addressing system and addressing apparatus
CN110944038A (zh) Cdn调度方法及系统
WO2018223981A1 (zh) 一种软件下载方法、装置及基站
CN110858201A (zh) 数据处理方法及系统、处理器、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination