CN107403111A

CN107403111A - Hive数据脱敏方法及装置

Info

Publication number: CN107403111A
Application number: CN201710682461.5A
Authority: CN
Inventors: 屈淑杰; 王鹏
Original assignee: China Travelsky Technology Co Ltd
Current assignee: China Travelsky Technology Co Ltd; China Travelsky Holding Co
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2017-11-28

Abstract

本发明提供了一种HIVE数据脱敏方法及装置。其中，该方法包括：创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务。通过本发明，解决了现有技术中采用非分布式的脱敏处理而导致效率低下的技术问题。

Description

HIVE数据脱敏方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种HIVE数据脱敏方法及装置。

背景技术

目前脱敏行业对于文本文件的脱敏，处理的主要是非分布式文件系统的脱敏或对分布式文件系统上的文件采取非分布式的脱敏处理方法。

对于分布式文件系统的海量文件脱敏，采用非分布式的脱敏处理方法，一般有两种方式来提高处理能力，第一种是在单台脱敏服务器上采用多线程并行处理的方式，第二种是通过将脱敏平台集群化，即将脱敏平台部署到多台服务器上，利用多台脱敏服务器来并行脱敏处理。第一种方式的处理效率提升空间不大，受限于单台服务器的处理能力，不能真正解决海量文件的高效脱敏。第二种方式能够在相当程度上解决海量数据文件脱敏的效率问题，但是对硬件资源要求较高，成本较大，也不是一个好的处理方式。

针对现有技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种HIVE数据脱敏方法及装置，以至少解决现有技术中采用非分布式的脱敏处理而导致效率低下的技术问题。

根据本发明的一个实施例，提供了一种HIVE数据脱敏方法，包括：创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务。

可选地，在根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，所述方法还包括：连接所述脱敏平台与所述HIVE数据仓库；根据所述UDF脱敏函数将所述HIVE脱敏任务组建成用于执行的SQL脱敏语句；将所述SQL脱敏语句通过数据库连接JDBC方式提交到所述HIVE数据仓库端。

可选地，根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务包括：根据所述UDF脱敏函数将所述脱敏任务生成映射规约MapReduce作业；在所述HIVE数据仓库端执行所述MapReduce作业。

可选地，连接所述脱敏平台与所述HIVE数据仓库包括：设置以下连接参数：指定的HIVE连接地址，连接HIVE的驱动，Schema信息；通过所述连接参数连接所述脱敏平台与所述HIVE数据仓库。

可选地，创建HIVE脱敏任务包括：添加HIVE数据源，以及HIVE脱敏字段的集合；绑定所述脱敏字段的脱敏规则；根据所述HIVE数据源和所述脱敏规则创建HIVE脱敏任务。

可选地，在根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，所述方法还包括：选择脱敏源数据源和脱敏后的目标数据源，其中，所述脱敏源数据源和所述脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；将所述HIVE脱敏任务由所述脱敏平台提交到Hadoop的HIVE数据仓库端。

根据本发明的另一个实施例，提供了一种HIVE数据脱敏装置，包括：创建模块，用于创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；执行模块，用于根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务。

可选地，所述装置还包括：连接模块，用于在所述执行模块根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，连接所述脱敏平台与所述HIVE数据仓库；组建模块，用于根据所述UDF脱敏函数将所述HIVE脱敏任务组建成用于执行的SQL脱敏语句；第一提交模块，用于将所述SQL脱敏语句通过数据库连接JDBC方式提交到所述HIVE数据仓库端。

可选地，所述执行模块包括：生成单元，用于根据所述UDF脱敏函数将所述脱敏任务生成映射规约MapReduce作业；执行单元，用于在所述HIVE数据仓库端执行所述MapReduce作业。

可选地，所述装置还包括：选择模块，用于在所述执行模块根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，选择脱敏源数据源和脱敏后的目标数据源，其中，所述脱敏源数据源和所述脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；第二提交模块，用于将所述HIVE脱敏任务由所述脱敏平台提交到Hadoop的HIVE数据仓库端。

通过本发明，实现了由HIVE自身分解成多个MapReduce作业分布式并行执行，以充分利用集群的分布式任务优势，通过HIVE的UDF自定义脱敏函数方式,实现集群端的分布式脱敏任务，解决了现有技术中采用非分布式的脱敏处理而导致效率低下的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的HIVE数据脱敏方法的流程图；

图2是根据本发明实施例的HIVE数据脱敏装置的结构框图；

图3是本发明实施例中HIVE数据脱敏流程图；

图4是本发明实施例中新增HIVE源数据源的示意图；

图5是本发明实施例中添加HIVE脱敏字段集合的示意图；

图6是本发明实施例中绑定脱敏字段的脱敏规则的示意图一；

图7是本发明实施例中绑定脱敏字段的脱敏规则的示意图二；

图8是本发明实施例中创建HIVE脱敏任务的示意图；

图9是本发明实施例中开启脱敏任务的示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本实施例中的相关术语解释如下：

数据脱敏：数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

HIVE：HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hadoop：Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem)，简称HDFS。能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。

MapReduce：MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。

JAR：JAR文件格式以流行的ZIP文件格式为基础。与ZIP文件不同的是，JAR文件不仅用于压缩和发布，而且还用于部署和封装库、组件和插件程序，并可被像编译器和JVM这样的工具直接使用。一个JAR文件可以用于发布和使用类库、作为应用程序和扩展的构建单元、作为组件、Applet或者插件程序的部署单位、用于打包与组件相关联的辅助资源。

实施例1

在本实施例中提供了一种HIVE数据脱敏方法，图1是根据本发明实施例的HIVE数据脱敏方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；

步骤S104，根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务。

通过上述步骤，实现了由HIVE自身分解成多个MapReduce作业分布式并行执行，以充分利用集群的分布式任务优势，通过HIVE的UDF自定义脱敏函数方式,实现集群端的分布式脱敏任务，解决了现有技术中采用非分布式的脱敏处理而导致效率低下的技术问题。

可选地，上述步骤的执行主体可以为数据脱敏平台，具体如计算机，服务器等，但不限于此。

可选地，在根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务之前，方法还包括：

S11，连接脱敏平台与HIVE数据仓库；

S12，根据UDF脱敏函数将HIVE脱敏任务组建成用于执行的SQL脱敏语句；

S13，将SQL脱敏语句通过JDBC(数据库连接)方式提交到HIVE数据仓库端。

可选地，根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务包括：

S21，根据UDF脱敏函数将脱敏任务生成映射规约MapReduce作业；

S22，在HIVE数据仓库端执行MapReduce作业。

在本实施例中，连接脱敏平台与HIVE数据仓库包括：

S31，设置以下连接参数：指定的HIVE连接地址，连接HIVE的驱动，Schema信息；Schema为数据库对象的集合，一个对象对应一个Schema；

S32，通过连接参数连接脱敏平台与HIVE数据仓库。

在本实施例中，创建HIVE脱敏任务包括：

S41，添加HIVE数据源，以及HIVE脱敏字段的集合；

S42，绑定脱敏字段的脱敏规则；

S43，根据HIVE数据源和脱敏规则创建HIVE脱敏任务。

在本实施例中，在根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务之前，方法还包括：

S51，选择脱敏源数据源和脱敏后的目标数据源，其中，脱敏源数据源和脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；

S52，将HIVE脱敏任务由脱敏平台提交到Hadoop的HIVE数据仓库端。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种HIVE数据脱敏装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的HIVE数据脱敏装置的结构框图，如图2所示，该装置包括：

创建模块20，用于创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；

执行模块22，用于根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务。

可选的，装置还包括：连接模块，用于在执行模块根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务之前，连接脱敏平台与HIVE数据仓库；组建模块，用于根据UDF脱敏函数将HIVE脱敏任务组建成用于执行的SQL脱敏语句；第一提交模块，用于将SQL脱敏语句通过数据库连接JDBC方式提交到HIVE数据仓库端。

可选的，执行模块包括：生成单元，用于根据UDF脱敏函数将脱敏任务生成映射规约MapReduce作业；执行单元，用于在HIVE数据仓库端执行MapReduce作业。

可选的，装置还包括：选择模块，用于在执行模块根据UDF脱敏函数在HIVE数据仓库端执行脱敏任务之前，选择脱敏源数据源和脱敏后的目标数据源，其中，脱敏源数据源和脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；第二提交模块，用于将HIVE脱敏任务由脱敏平台提交到Hadoop的HIVE数据仓库端。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本实施例要解决的是找到既能高效的处理分布式文件系统的海量文件脱敏，又不需要使用更多的硬件资源的方式。

本实施例的Hadoop平台的数据仓库脱敏实现思路包括：

首先，为了打通脱敏平台和HIVE数据仓库的连接，实现HIVE数据仓库的连接测试和数据表的预览，必须将HIVE的JDBC驱动包加入脱敏平台，然后在平台添加HIVE数据源，设置指定的HIVE连接地址URL，连接HIVE驱动，Schema等信息；测试连接成功即可预览HIVE数据仓库的表信息了。HIVE数据仓库的脱敏，需要使用到HIVE的UDF自定义函数，所以需要向HIVE的类库目录中上传脱敏平台封装的第三方脱敏Jar包，以便绑定好自定义脱敏函数，否则脱敏过程中会出现找不到第三方jar包中的类的异常。

在本实施例中，HIVE的数据脱敏除了脱敏方式和平台其他关系型数据库的脱敏方式不一样之外，其连接方式，预览数据表信息、绑定字段脱敏规则和其他关系型数据库都一样。平台针对HIVE数据脱敏的操作方式、流程和其他关系型数据库是一样的。

最后，完成HIVE数据表脱敏配置后，即可由脱敏平台提交HIVE脱敏任务，提交作业时需要选择脱敏源数据源和脱敏后的目标数据源，脱敏源数据源和脱敏目标数据源必须都是同一个集群的HIVE数据源，但Schema要不同。脱敏任务完成后，脱敏完的数据表和原数据表名称一致，如果目标数据源中存在与源数据源中名称一致的数据表，则目标数据源中同样名称的数据表的数据将被覆盖。针对HIVE的数据表，如果有指定where条件过滤脱敏的数据，则脱敏过程将以增量的方式新增脱敏后的分区数据，或者以指定的where条件自动覆盖相应的分区数据。

图3是本发明实施例中HIVE数据脱敏流程图。

下面介绍使用本实施方案的作业流程步骤：

1、新增HIVE源数据源：在脱敏平台的数据源管理界面中，点击新增连接按钮，进入编辑新增数据源界面。输入各项需要填写的数据源信息后，测试连接成功，即可保存数据源。图4是本发明实施例中新增HIVE源数据源的示意图。

2、添加HIVE脱敏字段集合：在字段集管理界面中，点击新增按钮进入新增脱敏字段集界面，填写好各项必填选项后保存(此处的归属数据源选择HIVE源数据源)。图5是本发明实施例中添加HIVE脱敏字段集合的示意图。

3、绑定脱敏字段的脱敏规则：在脱敏字段管理列表中，选择要脱敏的HIVE源数据源，然后选择要编辑的脱敏字段集，为此字段集编辑要脱敏的字段并绑定脱敏规则。图6是本发明实施例中绑定脱敏字段的脱敏规则的示意图一，图7是本发明实施例中绑定脱敏字段的脱敏规则的示意图二。

4、创建HIVE脱敏任务：由菜单数据管理→数据脱敏进入数据脱敏任务列表，点击新增按钮进入新增脱敏任务编辑界面。选择脱敏源数据源，脱敏字段集，脱敏目标数据源等各项信息后，提交保存。图8是本发明实施例中创建HIVE脱敏任务的示意图。

5、开启脱敏任务：在数据脱敏任务列表中，选择要开启的任务，点击启动按钮并确认，即可开启脱敏任务。图9是本发明实施例中开启脱敏任务的示意图。

本实施例通过打包脱敏Jar包，执行“add jar/var/lib/HIVE/udf/dmp_mask_udf.jar；”和“create temporary function HIVEmask as'com.pearlsoft.dmp.hadoop.handler.Job.utils.MaskUDF'；”，创建HIVE的自定义UDF脱敏函数，在HIVE数据仓库端执行脱敏任务。实现了由HIVE自身分解成多个MapReduce作业分布式并行执行，以充分利用集群的分布式任务优势。

本实施例通过HIVE的UDF自定义脱敏函数方式,实现集群端的分布式脱敏任务。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种HIVE数据脱敏方法，其特征在于，包括：

创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；

根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务。

2.根据权利要求1所述的方法，其特征在于，在根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，所述方法还包括：

连接所述脱敏平台与所述HIVE数据仓库；

根据所述UDF脱敏函数将所述HIVE脱敏任务组建成用于执行的SQL脱敏语句；

将所述SQL脱敏语句通过数据库连接JDBC方式提交到所述HIVE数据仓库端。

3.根据权利要求1所述的方法，其特征在于，根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务包括：

根据所述UDF脱敏函数将所述脱敏任务生成映射规约MapReduce作业；

在所述HIVE数据仓库端执行所述MapReduce作业。

4.根据权利要求2所述的方法，其特征在于，连接所述脱敏平台与所述HIVE数据仓库包括：

设置以下连接参数：指定的HIVE连接地址，连接HIVE的驱动，Schema信息；

通过所述连接参数连接所述脱敏平台与所述HIVE数据仓库。

5.根据权利要求2所述的方法，其特征在于，创建HIVE脱敏任务包括：

添加HIVE数据源，以及HIVE脱敏字段的集合；

绑定所述脱敏字段的脱敏规则；

根据所述HIVE数据源和所述脱敏规则创建HIVE脱敏任务。

6.根据权利要求1所述的方法，其特征在于，在根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，所述方法还包括：

选择脱敏源数据源和脱敏后的目标数据源，其中，所述脱敏源数据源和所述脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；

将所述HIVE脱敏任务由所述脱敏平台提交到Hadoop的HIVE数据仓库端。

7.一种HIVE数据脱敏装置，其特征在于，包括：

创建模块，用于创建HIVE脱敏任务，以及HIVE的自定义UDF脱敏函数；

执行模块，用于根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

连接模块，用于在所述执行模块根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，连接所述脱敏平台与所述HIVE数据仓库；

组建模块，用于根据所述UDF脱敏函数将所述HIVE脱敏任务组建成用于执行的SQL脱敏语句；

第一提交模块，用于将所述SQL脱敏语句通过数据库连接JDBC方式提交到所述HIVE数据仓库端。

9.根据权利要求7所述的装置，其特征在于，所述执行模块包括：

生成单元，用于根据所述UDF脱敏函数将所述脱敏任务生成映射规约MapReduce作业；

执行单元，用于在所述HIVE数据仓库端执行所述MapReduce作业。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

选择模块，用于在所述执行模块根据所述UDF脱敏函数在HIVE数据仓库端执行所述脱敏任务之前，选择脱敏源数据源和脱敏后的目标数据源，其中，所述脱敏源数据源和所述脱敏目标数据源是同一个集群的HIVE数据源，且Schema不同；

第二提交模块，用于将所述HIVE脱敏任务由所述脱敏平台提交到Hadoop的HIVE数据仓库端。