CN112861185A - 基于Hive数据仓库的数据自动变形传输方法 - Google Patents
基于Hive数据仓库的数据自动变形传输方法 Download PDFInfo
- Publication number
- CN112861185A CN112861185A CN202110352519.6A CN202110352519A CN112861185A CN 112861185 A CN112861185 A CN 112861185A CN 202110352519 A CN202110352519 A CN 202110352519A CN 112861185 A CN112861185 A CN 112861185A
- Authority
- CN
- China
- Prior art keywords
- data
- deformation
- hive
- name
- warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000005540 biological transmission Effects 0.000 title claims abstract description 54
- 238000011084 recovery Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000013501 data transformation Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供一种基于Hive数据仓库的数据自动变形传输方法,适于信息安全技术领域,该方法包括:获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中,实现Hadoop集群的hive生态组件中的数据敏感信息的自动变形、传输、上载以及数据自动变形恢复。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种基于Hive数据仓库的数据自动变形传输方法。
背景技术
随着人工智能技术的发展,大数据处理技术的应用越来越广泛,对数据的依赖也越来越强,面对海量数据的冲击,数据库技术作为大数据处理的基础技术,得到业界的重视。
对于生产环境Hadoop集群Hive数据仓库存放大量业务数据,其中包含大量敏感信息。当对于业务功能进行测试验证时,需要基于部分生产数据进行验证。而生产数据的敏感性导致数据无法直接复制到测试验证环境,限制了技术的发展。
发明内容
针对现有技术中的问题,本发明提供一种基于Hive数据仓库的数据自动变形传输方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种基于Hive数据仓库的数据自动变形传输方法,包括:
获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;
根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;
控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中。
进一步地,基于Hive数据仓库的数据自动变形传输方法还包括:
将所述备份库中的数据传输至目标集群。
进一步地,基于Hive数据仓库的数据自动变形传输方法还包括:
根据所述数据变形抽取脚本控制目标集群建表、分区以及接收所述变形后的数据。
进一步地,所述根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本,包括:
根据所述数据恢复清单获取Hive库名、表名;
关联Hive元数据字段信息得到库名、表名、字段名;
关联数据变形清单得到库名、表名、字段名、需要变形字段类型以及变形函数;
根据所述库名、表名、字段名、需要变形字段类型以及变形函数生成数据抽取HQL语句,得到数据变形抽取脚本。
进一步地,基于Hive数据仓库的数据自动变形传输方法还包括:
设置各字段类型对应的变形函数。
进一步地,所述数据变形抽取脚本的逻辑为:
检查源集群是否存在备份库,若不存在则新建备份库;
检查备份库中是否存在待恢复表,若存在则删除表;
根据所述库名、表名、字段名创建备份表;
根据所述库名、表名、字段名筛选Hive数据仓库中源表信息,在需要变形的字段外嵌套变形函数;
筛选出来带嵌套变形函数的源表信息插入到备份库备份表中。
第二方面,提供一种基于Hive数据仓库的数据自动变形传输方法,包括:
获取变形规则程序文件;
在Hive数据仓库中创建变形函数执行变形规则程序文件所对应的HDFS文件系统路径。
进一步地,基于Hive数据仓库的数据自动变形传输方法还包括:
在所述Hive数据仓库中执行获取的数据变形抽取脚本以将变形后的数据抽取到源集群的备份库中。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于Hive数据仓库的数据自动变形传输方法的步骤。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于Hive数据仓库的数据自动变形传输方法的步骤。
第五方面,提供一种基于Hive数据仓库的数据自动变形传输装置,包括:
数据获取模块,获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;
脚本生成模块,根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;
数据变形模块。控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中。
第六方面,提供一种基于Hive数据仓库的数据自动变形传输装置,包括:
程序文件获取模块,获取变形规则程序文件;
路径创建模块,在Hive数据仓库中创建变形函数执行变形规则程序文件所对应的HDFS文件系统路径。
本发明提供的基于Hive数据仓库的数据自动变形传输方法和装置,适于信息安全技术领域,该方法包括:获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中,实现Hadoop集群的hive生态组件中的数据敏感信息的自动变形、传输、上载以及数据自动变形恢复。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中的应用架构示意图;
图2是本发明实施例中的基于Hive数据仓库的数据自动变形传输方法的流程示意图一;
图3是本发明实施例中的基于Hive数据仓库的数据自动变形传输方法的流程示意图二;
图4是本发明实施例中的基于Hive数据仓库的数据自动变形传输方法的流程示意图三;
图5示出了本发明实施例中步骤S200的具体步骤;
图6示出了本发明实施例中另一种基于Hive数据仓库的数据自动变形传输方法的流程示意图;
图7示出了本发明实施例中的程序处理过程;
图8举例说明了本发明实施例中基于Hive数据仓库的数据自动变形传输技术的流程;
图9是本发明实施例中的基于Hive数据仓库的数据自动变形传输装置的结构框图;
图10为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1为本发明实施例中的应用架构示意图;如图1所示,两套Hadoop集群,其中,集群A存放真实业务敏感信息数据,集群B存放变形后数据。敏感数据由集群A经过变形转存到备份库,再传输到集群B,集群B的变形后数据可供数据分析或测试场景使用。
一台控制服务器,安装了集群A的Hadoop客户端和集群B的Hadoop客户端,可访问集群A和集群B,通过A集群客户端控制集群A的数据变形存储和传输,通过B集群客户端控制集群B的建表、分区及接收数据路径;另外部署触发数据变形、抽取的web服务,来启动数据变形传输装置。
一台数据库服务器,用来存放Hive元数据信息、变形信息、数据清单,可被控制服务器访问。
图2是本发明实施例中的基于Hive数据仓库的数据自动变形传输方法的流程示意图一,由控制服务器执行,该基于Hive数据仓库的数据自动变形传输方法可以包括以下内容:
步骤S100:获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;
其中,真实数据存储于集群A中,真实数据的字段变形规则由具体业务逻辑确定,通过业务用户根据字段属性定义真实数据变形规则,统一得到表字段变形清单。登录控制服务器,业务人员将表字段变形清单上传到控制服务器,再将表字段变形清单信息存放到变形工具使用的数据库中。
数据恢复清单是由业务人员整理出的需要变形恢复的表清单,存放到变形工具使用的数据库中。
Hive作为Hadoop的一个数据存储生态组件,其元数据信息存放于DBService管理节点的关系型数据库中。登录控制服务器,登录集群A的DBService主节点管理数据库,获取全量Hive数据仓库元数据信息。存放于变形恢数工具使用的数据库中。
步骤S200:根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;
其中,数据变形抽取脚本的逻辑为:检查源集群是否存在备份库,若不存在则新建备份库;检查备份库中是否存在待恢复表,若存在则删除表;根据所述库名、表名、字段名创建备份表;根据所述库名、表名、字段名筛选Hive数据仓库中源表信息,在需要变形的字段外嵌套变形函数;筛选出来带嵌套变形函数的源表信息插入到备份库备份表中。
步骤S300:控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中。
具体地,登录控制服务器,在集群A的Hive数据仓库中执行数据变形抽取脚本。将数据抽取到集群A的备份库备份表中。
通过采用上述技术方案,能够实现Hadoop集群的hive生态组件中的数据敏感信息的自动变形、传输、上载以及数据自动变形恢复。
在一个可选的实施例中,参见图3,该基于Hive数据仓库的数据自动变形传输方法还可以包括:
步骤S400:将所述备份库中的数据传输至目标集群。
具体地,将集群A备份库备份表中的数据传输到集群B的HDFS文件系统中的对应路径。
在一个可选的实施例中,参见图4,该基于Hive数据仓库的数据自动变形传输方法还可以包括:
步骤S500:根据所述数据变形抽取脚本控制目标集群建表、分区以及接收所述变形后的数据。
具体地,登录控制服务器,在集群B建立对应的表结构及分区信息,通过Hadoop集群的distcp工具进行传输。
在一个可选的实施例中,参见图5,该步骤S200可以包括以下内容:
步骤S210:根据所述数据恢复清单获取Hive库名、表名;
步骤S220:关联Hive元数据字段信息得到库名、表名、字段名;
步骤S230:关联数据变形清单得到库名、表名、字段名、需要变形字段类型以及变形函数;
步骤S240:根据所述库名、表名、字段名、需要变形字段类型以及变形函数生成数据抽取HQL语句,得到数据变形抽取脚本。
在一个可选的实施例中,该基于Hive数据仓库的数据自动变形传输方法还可以包括:
设置各字段类型对应的变形函数。
具体地,需要预先定义数据变形规则,数据根据不同类型区分不同变形规则,相关变形规则封装成程序文件。敏感信息包括个人财产信息、健康生理信息、生物识别信息、个人身份信息、网络身份标识信息等,对上述信息按组成类型区分。例如:通讯号码、证件号码为数字类型变形,通过秘钥加密取模法根据不同位变形;人名、地址等中文信息根据汉字对照表实现对照变形;密码、秘钥、emall设置变形后统一固定值;IP地址、DNS地址通过秘钥加密取模变形等。
配置变形函数时,登录控制服务器,变形规则程序存放于控制服务器。在控制服务器上登录集群A客户端,将变形规则程序文件通过集群A客户端上传到集群A的HDFS文件系统,配置集群A相关HDFS路径读取规则,可提供数Hive组件读取变形规则程序文件。在Hive数据仓库中,创建变形函数指向变形规则程序文件所对应的HDFS文件系统路径。
值得说明的是,在拼接数据变形抽取脚本时,登录控制服务器,可以先确定秘钥文件已在控制服务器存放。根据数据恢复清单可获取hive库名、表名,关联Hive元数据字段信息得到库名、表名、字段名,关联数据变形清单可得到库名、表名、字段名、需要变形字段类型,部分变形规则需要秘钥则读取秘钥文件,生成数据抽取HQL语句。变形抽取脚本逻辑为:(1)检查是否存在备份库,若不存在则新建备份库,若存在则进行下一步;(2)检查备份库中是否存在待恢复表,若存在则删除表,若不存在则进行下一步;(3)创建备份表语句,与源表表结构一致;(4)筛选源表信息在需要变形的字段外嵌套变形函数;(5)筛选出来带嵌套变形函数的源表信息插入到备份库备份表中。
本发明实施例还提供了一种基于Hive数据仓库的数据自动变形传输方法,在源集群中执行,比如图1中的集群A,参见图6,该方法可以包括以下内容:
步骤S1000:获取变形规则程序文件;
步骤S2000:在Hive数据仓库中创建变形函数执行变形规则程序文件所对应的HDFS文件系统路径。
步骤S3000:在所述Hive数据仓库中执行获取的数据变形抽取脚本以将变形后的数据抽取到源集群的备份库中。
具体地,通过登录控制服务器,变形规则程序存放于控制服务器。在控制服务器上登录集群A客户端,将变形规则程序文件通过集群A客户端上传到集群A的HDFS文件系统,配置集群A相关HDFS路径读取规则,可提供数Hive组件读取变形规则程序文件。在Hive数据仓库中,创建变形函数指向变形规则程序文件所对应的HDFS文件系统路径。
为了是本领域技术人员更好地理解本申请,结合图7和图8,对本申请的技术方案进行说明:
在控制服务器部署WEB服务提供如下功能:
(1)数据清单上传功能,普通用户上传数据清单,上传后web服务将清单写入数据库。如需要对客户基本信息表进行变形,则上传该表名(personal_basic_info)。
(2)变形清单上传功能,管理员用户上传变形清单,上传后web服务将变形清单写入数据库。如personal_basic_info表中的name,ID,telephome,email,address等字段涉及敏感信息需要变形,则变形清单中c_name的变形规则为1,c_ID变形规则为2,c_mobile变形规则为3,c_email变形规则为4,c_address变形规则为5等。
(3)数据自动化变形传输服务触发选项,触发项实现数据变形恢复自动化步骤。如WEB前台页面触发选项按钮,可以控制数据变形恢复功能触发。
(4)hive元数据信息获取功能,触发控制服务器获取集群元数据字段信息并写入数据库。如,登录集群A元数据服务器节点,获取personal_basic_info表结构。
(5)变形脚本整合功能,根据恢数清单、变形清单、元数据字段信息,将需要变形字段嵌套变形函数,拼接成建表脚本文件。如变形规则为1,则该字段嵌套函数为username(c_name),变形规则为2则嵌套身份证变形函数certificate(c_ID,变形秘钥),变形规则为3则嵌套数字变形函数telephone(c_mobile,变形密钥),变形规则为4则嵌套email(c_email),变形规则为5则嵌套Address(c_address)等。在集群A中备份库新建personal_basic_info_bak表,与personal_basic_info结构相同,根据上述变形规则生成插数语句(insert intotable personal_basic_info_bak select username(c_name),certificate(c_ID,变形秘钥),telephone(c_mobile,变形密钥),email(c_email),Address(c_address)frompersonal_basic_info)。
(6)执行变形脚本,登录Hadoop集群A,执行变形脚本文件,将数据变形存储到备份库。如:执行上述插数语句。
(7)数据变形检查功能,登录Hadoop集群A,检查备份库中数据是否变形成功。若成功则进行数据传输,若失败则进行数据清理。如:对比两张表的同一条记录personal_basic_info.c_name和personal_basic_info_bak.c_name,如果相同则清理该表,停止数据变形传输动作,如果不相同则执行步骤(8)。
(8)数据接收功能,登录Hadoop集群B,创建表结构和分区信息。
提供数据传输功能,登录Hadoop集群A,将备份库中的数据传输到Hadoop集群B对应表和分区路径下。将集群A中的personal_basic_info_bak跨集群拷贝到集群B,
(9)返回数据变形恢复结束标识到前端。
综上所述,本发明用于Hive数据仓库的数据自动变形,实现Hadoop集群的hive生态组件中的数据敏感信息数据的变形、传输、上载,克服了现有分布式hadoop集群Hive数据仓库敏感数据恢复的步骤繁多、触发方式复杂、生产测试环境硬隔离导致的数据变形恢复无法自动化实现的缺点。
其中,实现对两套Hadoop集群的数据变形传输装置。一套存放敏感数据的Hive数据仓库数据进行变形传输到另一套Hive数据仓库,使收到数据的Hive数据仓库的数据是变形后数据,可实现数据分析或测试验证等模拟场景。
基于同一发明构思,本申请实施例还提供了一种基于Hive数据仓库的数据自动变形传输装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于基于Hive数据仓库的数据自动变形传输装置解决问题的原理与上述方法相似,因此基于Hive数据仓库的数据自动变形传输装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图9是本发明实施例中的基于Hive数据仓库的数据自动变形传输装置的结构框图。如图9所示,该基于Hive数据仓库的数据自动变形传输装置具体包括:数据获取模块10、脚本抽取模块20以及数据变形模块30。
数据获取模块10,获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;
脚本抽取模块20,根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;
数据变形模块30,控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中。
通过采用上述技术方案,能够实现Hadoop集群的hive生态组件中的数据敏感信息的自动变形、传输、上载以及数据自动变形恢复。
上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备,具体的,电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于Hive数据仓库的数据自动变形传输方法的步骤。
下面参考图10,其示出了适于用来实现本申请实施例的电子设备600的结构示意图。
如图10所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于Hive数据仓库的数据自动变形传输方法的步骤。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于Hive数据仓库的数据自动变形传输方法,其特征在于,包括:
获取数据变形清单、数据恢复清单以及Hive数据仓库元数据字段信息;
根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本;
控制源集群的Hive数据仓库中执行所述数据变形抽取脚本以将变形后的数据抽取到所述源集群的备份库中。
2.根据权利要求1所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,还包括:
将所述备份库中的数据传输至目标集群。
3.根据权利要求2所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,还包括:
根据所述数据变形抽取脚本控制目标集群建表、分区以及接收所述变形后的数据。
4.根据权利要求1所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,所述根据所述数据变形清单、所述数据恢复清单以及所述元数据字段信息拼接数据变形抽取脚本,包括:
根据所述数据恢复清单获取Hive库名、表名;
关联Hive元数据字段信息得到库名、表名、字段名;
关联数据变形清单得到库名、表名、字段名、需要变形字段类型以及变形函数;
根据所述库名、表名、字段名、需要变形字段类型以及变形函数生成数据抽取HQL语句,得到数据变形抽取脚本。
5.根据权利要求4所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,还包括:
设置各字段类型对应的变形函数。
6.根据权利要求4所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,所述数据变形抽取脚本的逻辑为:
检查源集群是否存在备份库,若不存在则新建备份库;
检查备份库中是否存在待恢复表,若存在则删除表;
根据所述库名、表名、字段名创建备份表;
根据所述库名、表名、字段名筛选Hive数据仓库中源表信息,在需要变形的字段外嵌套变形函数;
筛选出来带嵌套变形函数的源表信息插入到备份库备份表中。
7.一种基于Hive数据仓库的数据自动变形传输方法,其特征在于,包括:
获取变形规则程序文件;
在Hive数据仓库中创建变形函数执行变形规则程序文件所对应的HDFS文件系统路径。
8.根据权利要求7所述的基于Hive数据仓库的数据自动变形传输方法,其特征在于,还包括:
在所述Hive数据仓库中执行获取的数据变形抽取脚本以将变形后的数据抽取到源集群的备份库中。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的基于Hive数据仓库的数据自动变形传输方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的基于Hive数据仓库的数据自动变形传输方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352519.6A CN112861185A (zh) | 2021-03-31 | 2021-03-31 | 基于Hive数据仓库的数据自动变形传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110352519.6A CN112861185A (zh) | 2021-03-31 | 2021-03-31 | 基于Hive数据仓库的数据自动变形传输方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861185A true CN112861185A (zh) | 2021-05-28 |
Family
ID=75992028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110352519.6A Pending CN112861185A (zh) | 2021-03-31 | 2021-03-31 | 基于Hive数据仓库的数据自动变形传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861185A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398366A (zh) * | 2021-12-28 | 2022-04-26 | 重庆允成互联网科技有限公司 | 一种异构数据输入方法及数据工厂配置系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106357449A (zh) * | 2016-09-27 | 2017-01-25 | 深圳市彬讯科技有限公司 | 一种zedis分布式缓存方法 |
CN110826105A (zh) * | 2019-11-15 | 2020-02-21 | 江苏苏宁银行股份有限公司 | 一种分布式银行数据脱敏方法及系统 |
CN112256782A (zh) * | 2020-10-30 | 2021-01-22 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 基于Hadoop的电力大数据处理系统 |
-
2021
- 2021-03-31 CN CN202110352519.6A patent/CN112861185A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106357449A (zh) * | 2016-09-27 | 2017-01-25 | 深圳市彬讯科技有限公司 | 一种zedis分布式缓存方法 |
CN110826105A (zh) * | 2019-11-15 | 2020-02-21 | 江苏苏宁银行股份有限公司 | 一种分布式银行数据脱敏方法及系统 |
CN112256782A (zh) * | 2020-10-30 | 2021-01-22 | 内蒙古电力(集团)有限责任公司乌海超高压供电局 | 基于Hadoop的电力大数据处理系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398366A (zh) * | 2021-12-28 | 2022-04-26 | 重庆允成互联网科技有限公司 | 一种异构数据输入方法及数据工厂配置系统 |
CN114398366B (zh) * | 2021-12-28 | 2022-12-27 | 重庆允成互联网科技有限公司 | 一种异构数据输入方法及数据工厂配置系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107957957B (zh) | 测试用例的获取方法和装置 | |
CN109492013B (zh) | 应用于数据库集群的数据处理方法、装置和系统 | |
CN112487083B (zh) | 一种数据校验方法和设备 | |
CN111897623B (zh) | 一种集群管理方法、装置、设备及存储介质 | |
CN112860777B (zh) | 数据处理方法、装置及设备 | |
CN110022315A (zh) | 一种块链式账本中的权重管理方法、装置及设备 | |
US20160092801A1 (en) | Using complexity probability to plan a physical data center relocation | |
CN113392068A (zh) | 数据处理方法、装置和系统 | |
US20170199912A1 (en) | Behavior topic grids | |
CN106990974B (zh) | 一种app应用更新方法、装置及电子设备 | |
CN112861185A (zh) | 基于Hive数据仓库的数据自动变形传输方法 | |
CN110990878B (zh) | 一种隐私数据衍生图的构建方法 | |
CN115174158B (zh) | 基于多云管理平台的云产品配置检查方法 | |
AU2021268828B2 (en) | Secure data replication in distributed data storage environments | |
CN115203746A (zh) | 数据账户的访问授权方法及装置 | |
CN115221559A (zh) | 数据账户的访问授权方法及装置 | |
CN110968888B (zh) | 一种数据处理方法及装置 | |
CN110297625B (zh) | 应用的处理方法及装置 | |
CN113282617A (zh) | 数据查询方法以及业务系统翻页方法 | |
US20170286195A1 (en) | Information object system | |
CN112182115A (zh) | 关系的展示方法和装置、存储介质、电子装置 | |
CN116684282B (zh) | 新增云端服务器初始化方法、装置和计算机设备 | |
CN117034233B (zh) | 基于权限的应用管理方法、装置、计算设备及存储介质 | |
CN113420288B (zh) | 一种容器镜像敏感信息检测系统及方法 | |
CN107885659A (zh) | 对客户端的请求模拟响应的方法及装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |