CN108446570A

CN108446570A - 一种数据脱敏方法及装置

Info

Publication number: CN108446570A
Application number: CN201810169873.3A
Authority: CN
Inventors: 李烨
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-08-24

Abstract

本发明公开了一种数据脱敏方法，方法步骤为：步骤1、创建用于执行脱敏算法的用户自定义函数UDF，并部署到Spark或Flink中的一种集群上；步骤2、创建可以自动生成用于执行脱敏任务的SQL语句的程序；步骤3、执行步骤2创建的程序生成SQL语句，并提交到Spark或Flink中的一种集群上结合步骤1中UDF执行该语句。一种数据脱敏装置，包括：第一创建模块、第二创建模块和执行模块。本发明采用新兴的基于内存的分布式计算框架Spark或Flink，不同于传统的基于磁盘的分布式计算框架，如MapReduce以及基于MapReduce的Hive，减少了脱敏过程中的磁盘读写和网络传输开销，提升了脱敏的性能。

Description

一种数据脱敏方法及装置

技术领域

本发明涉及数据处理领域，具体涉及一种基于分布式内存计算框架Spark或Flink的数据脱敏方法及装置。

背景技术

数据脱敏指对数据中的敏感信息通过脱敏规则进行变形，实现敏感隐私数据的可靠保护。这样，就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的接近真实的数据集。

目前脱敏行业对于分布式文件系统的数据的脱敏，主要是使用基于磁盘的分布式计算框架，如MapReduce以及基于MapReduce的Hive，如申请号为201710682461.5、201710681806.5、201611260695.2的专利。该类方法包括：创建Hive中的用于脱敏的用户自定义函数UDF以及基于UDF的SQL或MapReduce的脱敏任务；将脱敏任务提交到分布式文件系统上执行；任务执行完毕后会生成脱敏后的数据。基于磁盘的分布式计算框架，在脱敏过程中会产生较多的磁盘读写和网络传输开销，无法充分利用内存缓存中间结果数据，因此性能较差。针对现有技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明的目的在于：解决现有数据脱敏技术脱敏过程中产生较多磁盘读写和网络传输开销，无法充分利用内存缓存中间结果数据，性能较差的问题，提供一种基于内存的分布式计算框架Spark或Flink的数据脱敏方法及装置。

本发明采用的技术方案如下：

一种数据脱敏方法，方法步骤为：

步骤1、创建用于执行脱敏算法的用户自定义函数UDF，并部署到Spark或Flink中的一种集群上；

步骤2、创建可以自动生成用于执行脱敏任务的SQL语句的程序；

步骤3、执行步骤2创建的程序生成SQL语句，并提交到Spark或Flink中的一种集群上结合步骤1中UDF执行该语句。

进一步，所述步骤1具体步骤如下：

步骤1.1、创建用于执行脱敏算法的用户自定义函数UDF：

步骤1.2、将步骤1.1创建的UDF代码编译成jar包；

步骤1.3、将步骤1.2生成的UDF的jar包部署到Spark或Flink中的一种集群上。

进一步，所述步骤2具体步骤如下：

步骤2.1、对存放需脱敏数据的表中的字段进行敏感标记并存储；

步骤2.2、创建可查询步骤2.1敏感字段的标记和类型，并自动生成用于执行脱敏任务的SQL语句的程序。

进一步，所述步骤3具体步骤如下：

步骤3.1、执行可以自动生成用于执行脱敏任务的SQL语句的程序，以生成SQL语句；

步骤3.2、提交步骤3.1生成的SQL语句到Spark或Flink中的一种集群上，并结合步骤1中部署到Spark或Flink中的一种集群上的UDF执行该语句；

步骤3.3、步骤3.2执行完毕得到脱敏后的数据，完成数据脱敏。

进一步，所述提交SQL语句到Spark或Flink中的一种集群上是通过JAVA数据库连接JDBC方式提交。

一种数据脱敏装置，其特征在于，包括：

第一创建模块：用于创建用于执行脱敏算法的用户自定义函数UDF，并部署到Spark或Flink中的一种集群上；

第二创建模块：用于创建可以自动生成用于执行脱敏任务的SQL语句的程序；

执行模块：用于执行第二创建模块的程序生成SQL语句，并提交到Spark或Flink中的一种集群上结合第一创建模块创建的UDF执行该语句。

进一步，所述第一创建模块包括：

函数创建模块：用于创建用来执行脱敏算法的用户自定义函数UDF；

编译模块：用于将函数创建模块创建的UDF代码编译成iar包；

部署模块：用于将编译模块生成的UDF的jar包部署到Spark或Flink中的一种集群上。

进一步，所述第二创建模块包括：

标记模块：用于对存放需脱敏的数据表中的字段进行敏感标记并存储；

程序生成模块：用于创建可查询标记模块生成的敏感字段的标记和类型，并自动生成用于执行脱敏任务的SQL语句的程序。

进一步，所述执行模块包括：

第一执行模块：用于执行第二创建模块的程序，并生成SQL语句；

第二执行模块：用于提交第一执行模块生成的SQL语句到Spark或Flink中的一种集群上，并结合部署到Spark或Flink中的一种集群上的UDF执行该语句；

结束模块：用于表示第二执行模块执行完毕，得到脱敏后数据，完成数据脱敏。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明中，采用新兴的基于内存的分布式计算框架Spark或Flink，不同于传统的基于磁盘的分布式计算框架，如MapReduce以及基于MapReduce的Hive，减少了脱敏过程中的磁盘读写和网络传输开销，提升了脱敏的性能。

附图说明

图1为本发明方法流程示意图；

图2为本发明装置结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

对文中计算框架名词解释如下：

Spark：由美国加州伯克利大学开源的分布式内存计算框架，支持SQL语言接口，目前是Apache社区的顶级开源项目。

Flink：由德国柏林理工大学开源的分布式内存计算框架，支持SQL语言接口，目前是Apache社区的顶级开源项目，很多方面和Spark类似。

MapReduce：最早是由Google公司提出的一个处理大规模数据的分布式计算模型，后来由美国雅虎公司基于这一模型提供了一个叫Hadoop的开源实现，并贡献给Apache社区。

Hive：美国Facebook公司开源的一个基于Hadoop的SQL引擎，可以把SQL转化成MapReduce任务执行，目前是Apache社区的顶级开源项目。

实施例1

一种数据脱敏方法，方法步骤为：

步骤1、创建用于执行脱敏算法的用户自定义函数UDF，UDF的作用是对参数进行脱敏变形，变形方式包含散列(Hash)、移位(Shift)、替换(Replace)、截断(Truncate)、枚举(Enumerate)、掩码(Mask)、求模(Modulo)、可逆加密(Reversible Encryption)；

步骤2、将步骤1创建的UDF代码编译成jar包；

步骤3、将步骤2生成的UDF的jar包部署到Spark或Flink中的一种集群上。

步骤4、对存放要脱敏的数据的表中每个字段是否是敏感字段以及哪种类型的敏感字段如姓名类、地址类、日期类、电话号码类、证件号类，进行标记，并存储在数据库中；

步骤5、创建可以查询表中敏感字段的标记和类型，并自动生成用于执行脱敏任务的SQL语句的程序；

步骤6、执行前述步骤5的程序，并生成SQL语句；

步骤7、通过JAVA数据库连接JDBC方式提交步骤6生成的SQL语句到Spark或Flink中的一种集群上，并结合步骤3中UDF执行该语句；

步骤8、步骤7SQL执行完毕得到脱敏后的数据，源表中的敏感字段内容已经被脱敏。

一种数据脱敏装置，包括：

第一创建模块：用于创建用于执行脱敏算法的用户自定义函数UDF，并部署到Spark或Flink中的一种集群上，所述第一创建模块包括：

编译模块：用于将函数创建模块创建的UDF代码编译成jar包；

第二创建模块：用于创建可以自动生成用于执行脱敏任务的SQL语句的程序，所述第二创建模块包括：

执行模块：用于执行第二创建模块生成的程序生成SQL语句，并提交到Spark或Flink中的一种集群上结合第一创建模块创建的UDF执行该语句，所述执行模块包括：

第一执行模块：用于执行脱敏任务程序，并生成SQL语句；

与基于磁盘的分布式计算框架，如MapReduce以及基于MapReduce的Hive相比，本发明实施例采用基于内存的分布式计算框架Spark或Flink，减少了脱敏过程中的磁盘读写和网络传输开销，提升了脱敏的性能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据脱敏方法，其特征在于：方法步骤为：

2.根据权利要求1所述的一种数据脱敏方法，其特征在于：所述步骤1具体步骤如下：

步骤1.1、创建用于执行脱敏算法的用户自定义函数UDF；

步骤1.2、将步骤1.1创建的UDF代码编译成jar包；

3.根据权利要求1或2所述的一种数据脱敏方法，其特征在于：所述步骤2具体步骤如下：

4.根据权利要求1或3所述的一种数据脱敏方法，其特征在于：所述步骤3具体步骤如下：

5.根据权利要求4任一项所述的一种数据脱敏方法，其特征在于：所述提交SQL语句到Spark或Flink中的一种集群上是通过JAVA数据库连接JDBC方式提交。

6.一种数据脱敏装置，其特征在于，包括：

7.根据权利要求6所述的一种数据脱敏装置，其特征在于：所述第一创建模块包括：

编译模块：用于将函数创建模块创建的UDF代码编译成jar包；

8.根据权利要求6所述的一种数据脱敏装置，其特征在于：所述第二创建模块包括：

9.根据权利要求6所述的一种数据脱敏装置，其特征在于：所述执行模块包括：

第一执行模块：用于执行第二创建模块的程序，以生成SQL语句；