CN106778351A - 数据脱敏方法及装置 - Google Patents

数据脱敏方法及装置 Download PDF

Info

Publication number
CN106778351A
CN106778351A CN201611260695.2A CN201611260695A CN106778351A CN 106778351 A CN106778351 A CN 106778351A CN 201611260695 A CN201611260695 A CN 201611260695A CN 106778351 A CN106778351 A CN 106778351A
Authority
CN
China
Prior art keywords
desensitization
hbase databases
hbase
mapreduce operations
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611260695.2A
Other languages
English (en)
Other versions
CN106778351B (zh
Inventor
王明
马晓雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
China Travelsky Holding Co
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN201611260695.2A priority Critical patent/CN106778351B/zh
Publication of CN106778351A publication Critical patent/CN106778351A/zh
Application granted granted Critical
Publication of CN106778351B publication Critical patent/CN106778351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据脱敏方法及装置,其中,该方法包括:根据脱敏策略从HBase数据库获取表结构,用于配置MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。通过本发明,解决了现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。

Description

数据脱敏方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据脱敏方法及装置。
背景技术
相关技术中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。JAR文件格式以流行的ZIP文件格式为基础。与ZIP文件不同的是,JAR文件不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序,并可被像编译器和JVM这样的工具直接使用。一个JAR文件可以用于:用于发布和使用类库、作为应用程序和扩展的构建单元、作为组件、Applet或者插件程序的部署单位、用于打包与组件相关联的辅助资源。FAT JAR打包插件,可以方便的完成各种打包任务,可以包含外部的包等。
数据脱敏传统的脱敏方式,是将源数据库的数据抽取到脱敏平台,对数据进行脱敏转换后,再将转换后的数据装载到目标数据库。现有技术对于处理传统关系型数据库(如ORACLE、DB2、Mysql等)的数据量,一般都可以在一个晚上执行完脱敏任务。但是,对于Hadoop这样的超大规模数据处理平台,用传统的脱敏方式处理将需要半个月甚至一个月的时间,这样的处理速度是不可忍受的。现有的对Hadoop平台HBase脱敏的处理方式一般是通过Hadoop API或者第三方工具如Phoenix,将HBase数据抽取到脱敏平台进行脱敏转换处理,再将转换后的数据通过API或工具装载回HBase数据库。这些方式都面临脱敏平台单点处理能力上限问题。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种数据脱敏方法及装置,以至少解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。
根据本发明的一个实施例,提供了一种数据脱敏方法,包括:根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。
可选地,在根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,所述方法还包括:配置所述HBase数据库的所述脱敏策略。
可选地,配置所述HBase数据库的所述脱敏策略包括:将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。
可选地,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业包括:根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。
可选地,所述表结构为:字段名。
可选地,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:根据预设规则判断是否覆盖所述HBase数据库的原表;在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
可选地,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。
根据本发明的另一个实施例,提供了一种数据脱敏装置,包括:获取模块,用于根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交模块,用于提交所述MapReduce作业给Hadoop集群执行脱敏操作。
可选地,所述装置还包括:配置模块,用于在所述获取模块根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,配置所述HBase数据库的所述脱敏策略。
可选地,所述配置模块包括包括:第一配置单元,用于将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;第二配置单元,用于将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;第三配置单元,用于设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。
可选地,所述获取模块包括:扫描单元,用于根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;获取单元,用于对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。
可选地,所述表结构为:字段名。
可选地,所述提交模块包括:判断单元,用于根据预设规则判断是否覆盖所述HBase数据库的原表;处理单元,用于在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
可选地,所述提交模块包括:处理单元,用于获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;
脱敏单元,用于根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。
根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:
根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
提交所述MapReduce作业给Hadoop集群执行脱敏操作。
通过本发明,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。由此实现了包括HBase数据库的脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,可以解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题,实现了HBase表的分布式脱敏效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据脱敏方法的流程图;
图2是根据本发明实施例的数据脱敏装置的结构框图;
图3是根据本实施例的HBase脱敏流程示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
在本实施例中提供了一种数据脱敏方法,图1是根据本发明实施例的数据脱敏方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
步骤S104,提交MapReduce作业给Hadoop集群执行脱敏操作。
通过上述步骤,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。由此实现了包括HBase数据库的脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,可以解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题,实现了HBase表的分布式脱敏效果。
可选地,上述步骤的执行主体可以为数据脱敏平台等,但不限于此。
可选的,在根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,本实施例的方法还包括:配置HBase数据库的脱敏策略。
可选的,配置HBase数据库的脱敏策略包括:
将Hadoop的应用程序编程接口API作为提交MapReduce作业的通道;
将HBase数据库的类信息、HBase数据库的配置文件、以及第三方JAR包配置在包括MapReduce作业的胖JAR包;
设置系统环境变量Hadoop_USER_NAME对提交MapReduce作业的用户进行鉴权。
为了打通脱敏平台和Hadoop集群,实现脱敏任务自动化提交运行,必须能够从脱敏平台提交MapReduce作业到Hadoop集群自动执行。Hadoop提供了提交MapReduce作业的API(Job.submit()),但脱敏作业需要依赖平台的其它类、脱敏平台的数据库配置信息及第三方JAR包,必须将这些类,配置文件及第三方JAR包一起打进需要提交的JAR包里,且必须将这个提交的JAR包打成FAT JAR(JAR包里不存在第三方JAR,而是第三方JAR里的文件),否则会出现找不到第三方JAR包中的类的异常。打JAR包主要使用了JDK的java.util.jar包中的API。另外,提交任务的用户必须为Hadoop平台具有可提交作业权限的有效用户,可通过设置系统环境变量Hadoop_USER_NAME来设置提交MapReduce作业的用户。
可选的。根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业包括:
根据表结构对HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对HBase数据库的表做全表扫描;
对扫描得到的HBase数据库的表和表结构进行脱敏算法的配置得到MapReduce作业。
由于HBase数据库的表结构是动态变化,不固定的,为了获取HBase的表结构,必须首先对HBase数据库的表做全表扫描,由于只扫表结构,不扫具体数据,速度还是比较快的。另外,由于HBase中并不是每张表都需要脱敏,有些表的表结构是固定的,不会变化的,也就是不会在新增加数据的过程中添加新的列,那么就可以通过在脱敏平台配置需要扫描的表和记录数,来提高扫描效率。扫描表结构也是由脱敏平台提交MapReduce作业的方式进行,获取到的表结构会存储到脱敏平台的数据库中,HBase表结构的主要形式为列族名:字段名。此时,就可以在脱敏平台针对HBase的表和字段进行脱敏算法的配置。
可选的,提交MapReduce作业给Hadoop集群执行脱敏操作包括:
S11,根据预设规则判断是否覆盖HBase数据库的原表;
S12,在覆盖HBase数据库的原表的情况下,删除原表并重命名脱敏后的表为原表的名称;在不覆盖HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
可选的,提交MapReduce作业给Hadoop集群执行脱敏操作包括:
S21,获取脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;
S22,根据脱敏字段和预设数据字典执行脱敏算法,返回脱敏数据。
完成HBase数据库的脱敏配置后,即可由脱敏平台提交MapReduce作业到Hadoop集群执行。HBase的脱敏可以选择是否覆盖原表,如果是,先删除原表,然后重命名脱敏后的表为原表表名称。如果不是,则生成一张新的表,表名通过前台配置,只能配置原表名的后缀名,在MapReduce脱敏作业程序中把后缀名放入上下文环境中(Configuration),以便在setup()方法中创建新表时,取得后缀名。脱敏表数据为原表脱敏后的数据。HBase的MapReduce作业使用TableMapReduceUtil.initTableMapperJob(scans,MyMapper.class,ImmutableBytesWritable.class,ImmutableBytesWritable.class,job)的API,scans是一个Scan类型的List,其中包含了需要脱敏的表。MapReduce脱敏作业在Hadoop集群上执行时,需要获取HBase表配置的脱敏字段及算法,还有脱敏平台的数据字典,包含常用汉字、身份证地址码、百家姓等,这些信息可通过在MapReduce作业的setup()方法中通过JDBC连接脱敏平台数据库,将相关信息查询出来,存储到内存数据结构HashMap中。在处理脱敏数据的Map方法中,就可以通过列名从HashMap中取出相关信息,执行脱敏算法,返回脱敏数据了。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种数据脱敏装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的数据脱敏装置的结构框图,如图2所示,该装置包括:
获取模块20,用于根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
提交模块22,用于提交MapReduce作业给Hadoop集群执行脱敏操作。
可选的,本实施例的装置还包括:配置模块,用于在获取模块根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,配置HBase数据库的脱敏策略。
可选的,配置模块包括:第一配置单元,用于将Hadoop的应用程序编程接口API作为提交MapReduce作业的通道;第二配置单元,用于将HBase数据库的类信息、HBase数据库的配置文件、以及第三方JAR包配置在包括MapReduce作业的胖JAR包;第三配置单元,用于设置系统环境变量Hadoop_USER_NAME对提交MapReduce作业的用户进行鉴权。
可选的,获取模块包括:扫描单元,用于根据表结构对HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对HBase数据库的表做全表扫描;获取单元,用于对扫描得到的HBase数据库的表和表结构进行脱敏算法的配置得到MapReduce作业。具体的,表结构为:字段名。
在根据本实施例的可选实施方式中,提交模块包括:判断单元,用于根据预设规则判断是否覆盖HBase数据库的原表;处理单元,用于在覆盖HBase数据库的原表的情况下,删除原表并重命名脱敏后的表为原表的名称;在不覆盖HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
在根据本实施例的可选实施方式中,提交模块包括:处理单元,用于获取脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;脱敏单元,用于根据脱敏字段和预设数据字典执行脱敏算法,返回脱敏数据。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本实施例是根据本发明的可选实施例,用于结合具体的场景对本申请进行详细说明:图3是根据本实施例的HBase脱敏流程示意图,如图3所示,结合图3,在实际操作时,流程包括:
1、在脱敏平台选择HDFS文件脱敏,点击选择XML文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏的标签名,配置标签名的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
2、在脱敏平台选择HDFS文件脱敏,点击选择JSON文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏的标签名,配置标签名的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
3、在脱敏平台选择HDFS文件脱敏,点击选择结构化文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏数据的分隔符位置,配置分隔符位置数据的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
4、在脱敏平台选择HDFS文件脱敏,点击选择定长文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏数据的起始位置,结束位置,配置起始位置结束位置间数据的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
本实施例通过自动打FATJAR的方式,实现了脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,由此实现了HDFS文件的分布式脱敏。另外,通过修改MapReduce输入输出格式,且将Reduce数设置为1,保证了脱敏后的文件个数为1且文件名与原文件一致。通过扫描HBase全表数据的方式,获取了HBase表的完整表结构,实现了HBase表的可配置脱敏。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
S1,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
S2,提交所述MapReduce作业给Hadoop集群执行脱敏操作。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行提交所述MapReduce作业给Hadoop集群执行脱敏操作。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据脱敏方法,其特征在于,包括:
根据脱敏策略从HBase数据库获取表结构,配置用于脱敏的MapReduce作业;
提交所述MapReduce作业给Hadoop集群执行脱敏操作。
2.根据权利要求1所述的方法,其特征在于,在根据脱敏策略从HBase数据库获取表结构,配置用于脱敏的MapReduce作业之前,所述方法还包括:
配置所述HBase数据库的所述脱敏策略。
3.根据权利要求2所述的方法,其特征在于,配置所述HBase数据库的所述脱敏策略包括:
将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;
将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;
设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。
4.根据权利要求1所述的方法,其特征在于,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业包括:
根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;
对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。
5.根据权利要求4所述的方法,其特征在于,所述表结构为:字段名。
6.根据权利要求1所述的方法,其特征在于,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:
根据预设规则判断是否覆盖所述HBase数据库的原表;
在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
7.根据权利要求1所述的方法,其特征在于,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:
获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;
根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。
8.一种数据脱敏装置,其特征在于,包括:
获取模块,用于根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;
提交模块,用于提交所述MapReduce作业给Hadoop集群执行脱敏操作。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
配置模块,用于在所述获取模块根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,配置所述HBase数据库的所述脱敏策略。
10.根据权利要求9所述的装置,其特征在于,所述配置模块包括包括:
第一配置单元,用于将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;
第二配置单元,用于将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;
第三配置单元,用于设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。
11.根据权利要求8所述的装置,其特征在于,所述获取模块包括:
扫描单元,用于根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;
获取单元,用于对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。
12.根据权利要求11所述的装置,其特征在于,所述表结构为:字段名。
13.根据权利要求8所述的装置,其特征在于,所述提交模块包括:
判断单元,用于根据预设规则判断是否覆盖所述HBase数据库的原表;
处理单元,用于在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。
14.根据权利要求8所述的装置,其特征在于,所述提交模块包括:
处理单元,用于获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;
脱敏单元,用于根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。
CN201611260695.2A 2016-12-30 2016-12-30 数据脱敏方法及装置 Active CN106778351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611260695.2A CN106778351B (zh) 2016-12-30 2016-12-30 数据脱敏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611260695.2A CN106778351B (zh) 2016-12-30 2016-12-30 数据脱敏方法及装置

Publications (2)

Publication Number Publication Date
CN106778351A true CN106778351A (zh) 2017-05-31
CN106778351B CN106778351B (zh) 2020-04-21

Family

ID=58954299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611260695.2A Active CN106778351B (zh) 2016-12-30 2016-12-30 数据脱敏方法及装置

Country Status (1)

Country Link
CN (1) CN106778351B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315972A (zh) * 2017-06-01 2017-11-03 北京明朝万达科技股份有限公司 一种大数据非结构化文件动态脱敏方法及系统
CN107403110A (zh) * 2017-08-10 2017-11-28 中国民航信息网络股份有限公司 Hdfs数据脱敏方法及装置
CN107563218A (zh) * 2017-08-23 2018-01-09 北京明朝万达科技股份有限公司 一种基于大数据的数据脱敏方法和Hbase脱敏处理系统
CN107679418A (zh) * 2017-09-30 2018-02-09 武汉汉思信息技术有限责任公司 数据脱敏方法、服务器及存储介质
CN107832464A (zh) * 2017-11-28 2018-03-23 中国银行股份有限公司 一种数据漂白方法及装置
CN108573171A (zh) * 2018-04-13 2018-09-25 中国民航信息网络股份有限公司 Greenplum数据脱敏方法、装置、设备及介质
CN109308258A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 测试数据的构造方法、装置、计算机设备和存储介质
CN109657496A (zh) * 2018-12-20 2019-04-19 中国电子科技网络信息安全有限公司 一种零拷贝全镜像的大数据静态数据库脱敏系统及方法
CN110210241A (zh) * 2018-02-28 2019-09-06 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN111709052A (zh) * 2020-06-01 2020-09-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN112231375A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种Sqoop集成多版本HBase的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769615A (zh) * 2012-07-02 2012-11-07 北京大学 一种基于MapReduce机制的任务调度方法和系统
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理系统及访问方法
CN104484226A (zh) * 2014-12-08 2015-04-01 无锡城市云计算中心有限公司 MapReduce作业处理系统、服务器及处理方法
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN106102027A (zh) * 2016-06-12 2016-11-09 西南医科大学 基于MapReduce的短信批量提交方法
CN205829704U (zh) * 2016-04-25 2016-12-21 云南电网有限责任公司昆明供电局 云存储系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166785A (zh) * 2011-12-15 2013-06-19 同程网络科技股份有限公司 基于Hadoop的分布式日志分析系统
CN102769615A (zh) * 2012-07-02 2012-11-07 北京大学 一种基于MapReduce机制的任务调度方法和系统
CN104317899A (zh) * 2014-10-24 2015-01-28 西安未来国际信息股份有限公司 一种大数据分析与处理系统及访问方法
CN104484226A (zh) * 2014-12-08 2015-04-01 无锡城市云计算中心有限公司 MapReduce作业处理系统、服务器及处理方法
CN105653981A (zh) * 2015-12-31 2016-06-08 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
CN205829704U (zh) * 2016-04-25 2016-12-21 云南电网有限责任公司昆明供电局 云存储系统
CN106102027A (zh) * 2016-06-12 2016-11-09 西南医科大学 基于MapReduce的短信批量提交方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITEYE-博客: "《Mapreduce部署与第三方依赖包管理》", 《推酷》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315972A (zh) * 2017-06-01 2017-11-03 北京明朝万达科技股份有限公司 一种大数据非结构化文件动态脱敏方法及系统
CN107403110A (zh) * 2017-08-10 2017-11-28 中国民航信息网络股份有限公司 Hdfs数据脱敏方法及装置
CN107563218A (zh) * 2017-08-23 2018-01-09 北京明朝万达科技股份有限公司 一种基于大数据的数据脱敏方法和Hbase脱敏处理系统
CN107679418A (zh) * 2017-09-30 2018-02-09 武汉汉思信息技术有限责任公司 数据脱敏方法、服务器及存储介质
CN107832464B (zh) * 2017-11-28 2021-11-23 中国银行股份有限公司 一种数据漂白方法及装置
CN107832464A (zh) * 2017-11-28 2018-03-23 中国银行股份有限公司 一种数据漂白方法及装置
CN110210241B (zh) * 2018-02-28 2023-11-21 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN110210241A (zh) * 2018-02-28 2019-09-06 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN108573171A (zh) * 2018-04-13 2018-09-25 中国民航信息网络股份有限公司 Greenplum数据脱敏方法、装置、设备及介质
CN109308258A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 测试数据的构造方法、装置、计算机设备和存储介质
CN109657496B (zh) * 2018-12-20 2022-07-05 中国电子科技网络信息安全有限公司 一种零拷贝全镜像的大数据静态数据库脱敏系统及方法
CN109657496A (zh) * 2018-12-20 2019-04-19 中国电子科技网络信息安全有限公司 一种零拷贝全镜像的大数据静态数据库脱敏系统及方法
CN111709052B (zh) * 2020-06-01 2021-05-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN111709052A (zh) * 2020-06-01 2020-09-25 支付宝(杭州)信息技术有限公司 一种隐私数据识别和处理方法、装置、设备和可读介质
CN112231375A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种Sqoop集成多版本HBase的方法及装置

Also Published As

Publication number Publication date
CN106778351B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN106778351A (zh) 数据脱敏方法及装置
EP2565802B1 (en) Data masking setup
JP5939123B2 (ja) 実行制御プログラム、実行制御方法および情報処理装置
CN103810196A (zh) 基于业务模型进行数据库性能测试的方法
CN108197091B (zh) 一种创建数据表的方法、系统及相关设备
US20140059000A1 (en) Computer system and parallel distributed processing method
CN107301179A (zh) 数据库读写分离的方法和装置
CN111068328A (zh) 游戏广告配置表格的生成方法、终端设备及介质
CN107403110A (zh) Hdfs数据脱敏方法及装置
CN105574070A (zh) 内容管理系统及在其中报告多个对象的计算机实现方法
CN109241384A (zh) 一种科研信息的可视化方法及装置
CN110597896A (zh) 一种数据展示方法、数据展示装置及终端设备
CN111338604A (zh) 服务生成方法、装置、设备及计算机可读存储介质
CN107679141A (zh) 数据入库方法、装置、设备及计算机可读存储介质
CN114238381A (zh) 数据质量校验方法、设备及计算机可读存储介质
CN111859076A (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
EP2965492A1 (en) Selection of data storage settings for an application
US20230083843A1 (en) Dynamic Multi-Platform Model Generation and Deployment System
CN114443015A (zh) 一种基于数据库元数据的增删改查服务接口生成方法
Reagan et al. Cosmos db
CN112579604A (zh) 测试系统的造数方法、装置、设备及存储介质
KR20130126012A (ko) 비즈니스 인텔리전스의리포트 제공 방법 및 장치
CN112650598B (zh) 一种用于工作流系统的多应用接入方法
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN114296696A (zh) 业务功能操作方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant