CN107403110A - Hdfs数据脱敏方法及装置 - Google Patents

Hdfs数据脱敏方法及装置 Download PDF

Info

Publication number
CN107403110A
CN107403110A CN201710681806.5A CN201710681806A CN107403110A CN 107403110 A CN107403110 A CN 107403110A CN 201710681806 A CN201710681806 A CN 201710681806A CN 107403110 A CN107403110 A CN 107403110A
Authority
CN
China
Prior art keywords
desensitization
file
hadoop clusters
submitted
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710681806.5A
Other languages
English (en)
Inventor
张海洋
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
China Travelsky Holding Co
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN201710681806.5A priority Critical patent/CN107403110A/zh
Publication of CN107403110A publication Critical patent/CN107403110A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种HDFS数据脱敏方法及装置,其中,该方法包括:针对不同类型的脱敏文件创建不同的脱敏配置;将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。通过本发明,解决了现有技术中不能实现分布式脱敏的技术问题。

Description

HDFS数据脱敏方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种HDFS数据脱敏方法及装置。
背景技术
现有技术中,脱敏行业对于文本文件的脱敏,处理的主要是非分布式文件系统的脱敏,或对分布式文件系统上的文件采取非分布式的脱敏处理方法。对于分布式文件系统的海量文件脱敏,采用非分布式的脱敏处理方法,一般有两种方式来提高处理能力,第一种是在单台脱敏服务器上采用多线程并行处理的方式,第二种是通过将脱敏平台集群化,即将脱敏平台部署到多台服务器上,利用多台脱敏服务器来并行脱敏处理。第一种方式的处理效率提升空间不大,受限于单台服务器的处理能力,不能真正解决海量文件的高效脱敏。第二种方式能够在相当程度上解决海量数据文件脱敏的效率问题,但是对硬件资源要求较高,成本较大,也不是一个好的处理方式,所以本专利要解决的是找到这两种方式之外的既能高效的处理分布式文件系统的海量文件脱敏,又不需要使用更多的硬件资源的第三种方式。
针对现有技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种HDFS数据脱敏方法及装置,以至少解决现有技术中不能实现分布式脱敏的技术问题。
根据本发明的一个实施例,提供了一种HDFS数据脱敏方法,包括:针对不同类型的脱敏文件创建不同的脱敏配置;将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
可选地,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之前,所述方法还包括:配置脱敏平台与所述Hadoop集群的交互环境。
可选地,配置脱敏平台与所述Hadoop集群的交互环境包括:将以下文件打成fatjar:所述脱敏平台的数据库配置信息、接口类配置文件,第三方jar包的内容及配置文件;通过所述脱敏平台将所述fat jar提交到所述Hadoop集群。
可选地,所述脱敏文件的文件类型包括以下至少之一:XML、json、固定分隔符文本、定长分隔文本、Avro文件。
可选地,将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏包括:将所述脱敏文件以脱敏任务的形式通过MapReduce作业提交到所述Hadoop集群进行脱敏。
可选地,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏时,所述方法还包括:在所述脱敏平台指定输入目录和输出目录。
可选地,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之后,所述方法还包括:在所述脱敏文件脱敏完成后,获取所述脱敏文件在输入时的文件名;根据所述文件名匹配脱敏后的所述脱敏文件,并输出。
根据本发明的另一个实施例,提供了一种HDFS数据脱敏装置,包括:创建模块,用于针对不同类型的脱敏文件创建不同的脱敏配置;提交模块,用于将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
可选地,所述装置还包括:配置模块,用于在所述提交模块将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之前,配置脱敏平台与所述Hadoop集群的交互环境。
可选地,所述装置还包括:获取模块,用于在所述脱敏文件脱敏完成后,获取所述脱敏文件在输入时的文件名;匹配模块,用于根据所述文件名匹配脱敏后的所述脱敏文件,并输出。
根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:
针对不同类型的脱敏文件创建不同的脱敏配置;
将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
通过本发明,针对不同类型的脱敏文件创建不同的脱敏配置;将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。实现了脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,由此实现了HDFS文件的分布式脱敏,解决了现有技术中不能实现分布式脱敏的技术问题,提高了脱敏效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的HDFS数据脱敏方法的流程图;
图2是根据本发明实施例的HDFS数据脱敏装置的结构框图;
图3是本发明实施例的HDFS的XML文件脱敏流程图;
图4是本发明实施例的文件脱敏操作的示意图一;
图5是本发明实施例的文件脱敏操作的示意图二;
图6是本发明实施例的文件脱敏操作的示意图三;
图7是本发明实施例的文件脱敏操作的示意图四。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
与实施方式相关的相关术语的解释如下:
数据脱敏:
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
Hadoop:
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(largedata set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。
HDFS:
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
Avro:
Apache Avro是语言独立的数据序列化系统。Avro在概念上分为两部分:模式(Schema)和数据(一般为二进制数据)。Schema一般采用Json格式进行描述。Avro同时定义了一些自己的数据类型。Avro可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。
MapReduce:
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
实施例1
在本实施例中提供了一种HDFS数据脱敏方法,图1是根据本发明实施例的HDFS数据脱敏方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,针对不同类型的脱敏文件创建不同的脱敏配置;
步骤S104,将脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
通过上述步骤,针对不同类型的脱敏文件创建不同的脱敏配置;将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。实现了脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,由此实现了HDFS文件的分布式脱敏,解决了现有技术中不能实现分布式脱敏的技术问题,提高了脱敏效率。
可选地,上述步骤的执行主体可以为脱敏文件等,但不限于此。
可选的,在将脱敏文件通过MapReduce作业提交到Hadoop集群进行脱敏之前,还包括:配置脱敏平台与Hadoop集群的交互环境。
可选的,配置脱敏平台与Hadoop集群的交互环境包括:
S11,将以下文件打成fat jar:脱敏平台的数据库配置信息、接口类配置文件,第三方jar包的内容及配置文件;
S12,通过脱敏平台将fat jar提交到Hadoop集群。
在本实施例中,脱敏文件的文件类型包括以下至少之一:XML、json、固定分隔符文本、定长分隔文本、Avro文件。
可选的,将脱敏文件通过MapReduce作业提交到Hadoop集群进行脱敏包括:将脱敏文件以脱敏任务的形式通过MapReduce作业提交到Hadoop集群进行脱敏。
可选的,在将脱敏文件通过MapReduce作业提交到Hadoop集群进行脱敏时,方法还包括:在脱敏平台指定输入目录和输出目录。
可选的,在将脱敏文件通过MapReduce作业提交到Hadoop集群进行脱敏之后,方法还包括:
S12,在脱敏文件脱敏完成后,获取脱敏文件在输入时的文件名;
S13,根据文件名匹配脱敏后的脱敏文件,并输出。
作为一个整体,本实施例的Hadoop平台的HDFS文件脱敏实现方案如下:
首先,需要解决脱敏平台和Hadoop集群之间的交互问题:即需要实现脱敏任务的自动化提交运行。脱敏平台必须能够提交MapReduce作业到Hadoop集群并自动执行。利用Hadoop提供的提交MapReduce作业的API(Job.submit())、脱敏平台创建的接口和第三方jar包来完成这个目标。实现HDFS脱敏工作第一步是对Hadoop环境进行配置。需要把脱敏作业需要依赖的脱敏平台的数据库配置信息、接口类及第三方jar包的内容及配置文件一起打进需要提交的jar包里,通过脱敏平台进行自动提交。这个提交的jar包必须打成fat jar(jar包里不存在第三方jar,而是第三方jar里的文件),否则会出现找不到第三方jar包中的类的异常。生成jar包主要使用了JDK的java.util.jar包中的API。需要注意,提交任务的用户必须为Hadoop平台具有可提交作业权限的有效用户。可通过设置系统环境变量Hadoop_USER_NAME来设置提交MapReduce作业的用户。
其次,需要解决HDFS文件系统上多种形式的文件的脱敏问题。如XML、json、固定分隔符文本、定长分隔文本、Avro文件等文件类型的脱敏。针对不同的格式,脱敏平台通过创建不同的脱敏配置来完成多类型文件的脱敏。例如固定分隔符文本,它需要指定固定分隔符后的数据采用哪种脱敏规则进行脱敏。
最后,需要由脱敏平台提交MapReduce作业到Hadoop集群执行。MapReduce作业以脱敏任务的形式进行提交,提交作业时需要在脱敏平台指定输入目录及输出目录,也就是脱敏源和目标。其中,HBase的脱敏需要提供选择是否覆盖原文件的接口。如果选择需要删除源文件,则脱敏任务执行时,先把源文件脱敏后放到输出目录,之后删除原文件,重命名输出目录为原输入文件目录的名称。如果选择不需要删除源文件,则将脱敏后的文件放到输出目录下,保持文件名与原文件名一致。
脱敏任务执行过程中,需要解决的另一个问题是:脱敏后的文件名与原文件名必须保持一致且脱敏输出文件数为一个。由于MapReduce对文件的默认处理方式是每一个Reducer会把结果输出写在公共文件夹中一个单独的文件内,这些文件的命名一般是part-nnnnn,nnnnn是关联到某个Reduce任务的partition的id。脱敏平台通过改写MapReduce的输入输出格式,在输入时预先传入文件名,输出时再取出文件名,并且需要设置Reducer数量为1的方式,实现了输出文件为一个且文件名保持与原文件一致的需求。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
实施例2
在本实施例中还提供了一种HDFS数据脱敏装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的HDFS数据脱敏装置的结构框图,如图2所示,该装置包括:
创建模块20,用于针对不同类型的脱敏文件创建不同的脱敏配置;
提交模块22,用于将脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
可选的,装置还包括:配置模块,用于在提交模块将脱敏文件通过MapReduce作业提交到Hadoop集群进行脱敏之前,配置脱敏平台与Hadoop集群的交互环境。
可选的,装置或Hadoop集群还包括:获取模块,用于在脱敏文件脱敏完成后,获取脱敏文件在输入时的文件名;匹配模块,用于根据文件名匹配脱敏后的脱敏文件,并输出。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本实施例是根据本发明的可选实施例,用于结合具体的实例进行说明:
本实施例方案的关键点在于:
1)通过脱敏平台自动打jar包(胖jar)的方式,实现脱敏平台与Hadoop集群的对接
2)通过修改MapReduce输入输出格式,且将reduce数设置为1,保证了脱敏后的文件个数为1且文件名与原文件一致
图3是本发明实施例的HDFS的XML文件脱敏流程图。
参考图4~图7,在具体操作时,本实施例的实现步骤包括:
1、在脱敏平台选择HDFS文件脱敏,点击选择XML文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏的标签名,配置标签名的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
2、在脱敏平台选择HDFS文件脱敏,点击选择json文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏的标签名,配置标签名的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
3、在脱敏平台选择HDFS文件脱敏,点击选择结构化文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏数据的分隔符位置,配置分隔符位置数据的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
4、在脱敏平台选择HDFS文件脱敏,点击选择定长文件脱敏,录入“输入文件目录”,“输出文件目录”,选择“批次”,增加需要脱敏数据的起始位置,结束位置,配置起始位置结束位置间数据的脱敏规则,配置完成后,点击提交脱敏任务,即生成MapReduce作业并提交到Hadoop集群执行。
通过本实施例,通过自动打fat jar的方式,实现了脱敏平台和Hadoop集群的统一,即可由脱敏平台直接提交MapReduce作业到Hadoop集群执行,由此实现了HDFS文件的分布式脱敏。另外,通过修改MapReduce输入输出格式,且将reduce数设置为1,保证了脱敏后的文件个数为1且文件名与原文件一致。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种HDFS数据脱敏方法,其特征在于,包括:
针对不同类型的脱敏文件创建不同的脱敏配置;
将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
2.根据权利要求1所述的方法,其特征在于,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之前,所述方法还包括:
配置脱敏平台与所述Hadoop集群的交互环境。
3.根据权利要求2所述的方法,其特征在于,配置脱敏平台与所述Hadoop集群的交互环境包括:
将以下文件打成fat jar:所述脱敏平台的数据库配置信息、接口类配置文件,第三方jar包的内容及配置文件;
通过所述脱敏平台将所述fat jar提交到所述Hadoop集群。
4.根据权利要求1所述的方法,其特征在于,所述脱敏文件的文件类型包括以下至少之一:XML、json、固定分隔符文本、定长分隔文本、Avro文件。
5.根据权利要求1所述的方法,其特征在于,将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏包括:
将所述脱敏文件以脱敏任务的形式通过MapReduce作业提交到所述Hadoop集群进行脱敏。
6.根据权利要求1所述的方法,其特征在于,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏时,所述方法还包括:
在所述脱敏平台指定输入目录和输出目录。
7.根据权利要求1所述的方法,其特征在于,在将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之后,所述方法还包括:
在所述脱敏文件脱敏完成后,获取所述脱敏文件在输入时的文件名;
根据所述文件名匹配脱敏后的所述脱敏文件,并输出。
8.一种HDFS数据脱敏装置,其特征在于,包括:
创建模块,用于针对不同类型的脱敏文件创建不同的脱敏配置;
提交模块,用于将所述脱敏文件通过映射规约MapReduce作业提交到Hadoop集群进行脱敏。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
配置模块,用于在所述提交模块将所述脱敏文件通过MapReduce作业提交到所述Hadoop集群进行脱敏之前,配置脱敏平台与所述Hadoop集群的交互环境。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
获取模块,用于在所述脱敏文件脱敏完成后,获取所述脱敏文件在输入时的文件名;
匹配模块,用于根据所述文件名匹配脱敏后的所述脱敏文件,并输出。
CN201710681806.5A 2017-08-10 2017-08-10 Hdfs数据脱敏方法及装置 Pending CN107403110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710681806.5A CN107403110A (zh) 2017-08-10 2017-08-10 Hdfs数据脱敏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710681806.5A CN107403110A (zh) 2017-08-10 2017-08-10 Hdfs数据脱敏方法及装置

Publications (1)

Publication Number Publication Date
CN107403110A true CN107403110A (zh) 2017-11-28

Family

ID=60396824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710681806.5A Pending CN107403110A (zh) 2017-08-10 2017-08-10 Hdfs数据脱敏方法及装置

Country Status (1)

Country Link
CN (1) CN107403110A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573171A (zh) * 2018-04-13 2018-09-25 中国民航信息网络股份有限公司 Greenplum数据脱敏方法、装置、设备及介质
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN109558746A (zh) * 2018-11-06 2019-04-02 泰康保险集团股份有限公司 数据脱敏方法、装置、电子设备及存储介质
CN110210241A (zh) * 2018-02-28 2019-09-06 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN112784291A (zh) * 2019-11-05 2021-05-11 中国电信股份有限公司 大数据脱敏方法和系统
CN113051357A (zh) * 2021-03-08 2021-06-29 中国地质大学(武汉) 一种基于博弈论的矢量地图最优化局部脱敏方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210241A (zh) * 2018-02-28 2019-09-06 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN110210241B (zh) * 2018-02-28 2023-11-21 中兴通讯股份有限公司 一种数据脱敏方法和装置
CN108573171A (zh) * 2018-04-13 2018-09-25 中国民航信息网络股份有限公司 Greenplum数据脱敏方法、装置、设备及介质
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN109558746A (zh) * 2018-11-06 2019-04-02 泰康保险集团股份有限公司 数据脱敏方法、装置、电子设备及存储介质
CN109558746B (zh) * 2018-11-06 2020-11-06 泰康保险集团股份有限公司 数据脱敏方法、装置、电子设备及存储介质
CN112784291A (zh) * 2019-11-05 2021-05-11 中国电信股份有限公司 大数据脱敏方法和系统
CN112784291B (zh) * 2019-11-05 2023-08-08 天翼云科技有限公司 大数据脱敏方法和系统
CN113051357A (zh) * 2021-03-08 2021-06-29 中国地质大学(武汉) 一种基于博弈论的矢量地图最优化局部脱敏方法

Similar Documents

Publication Publication Date Title
US10853338B2 (en) Universal data pipeline
CN107403110A (zh) Hdfs数据脱敏方法及装置
US11216302B2 (en) Modifying task dependencies at worker nodes using precompiled libraries
CN107370786B (zh) 一种基于微服务架构的通用信息管理系统
US20200410031A1 (en) Systems and methods for cloud computing
US9063976B1 (en) Dynamic tree determination for data processing
US9996593B1 (en) Parallel processing framework
US7861222B2 (en) Discoscript: a simplified distributed computing scripting language
CN108415832A (zh) 接口自动化测试方法、装置、设备及存储介质
CN106778351B (zh) 数据脱敏方法及装置
US20220179991A1 (en) Automated log/event-message masking in a distributed log-analytics system
JPH08339355A (ja) 分散形システムでの処理タスク実行呼び出し方法及び装置
CN108984549A (zh) 一种基于动态配置数据库的分库分表数据抽取方法和装置
US10182104B1 (en) Automatic propagation of resource attributes in a provider network according to propagation criteria
EP2965492B1 (en) Selection of data storage settings for an application
WO2019043462A1 (en) SYSTEMS AND METHODS FOR CREATING AUTOMATED INTERFACE TRANSMISSION BETWEEN HETEROGENEOUS SYSTEMS IN A BUSINESS ECOSYSTEM
CN107168795A (zh) 基于cpu‑gpu异构复合式并行计算框架的密码子偏差系数模型方法
US11029923B2 (en) Technical building block
US9317305B2 (en) Systems and methods for data brick creation and use
CN113626510A (zh) 交易核对方法、装置、电子设备及存储介质
CN105808354A (zh) 利用WLAN网络组建临时Hadoop环境的方法
US11275569B1 (en) Techniques and architectures for providing continuous integration (CI) and/or continuous delivery (CD) in a data lake environment
CN110347654A (zh) 一种上线集群特性的方法和装置
CN106687999B (zh) 产生实现被设计为更新根据应用数据模型指定的对象的规则的指令集
Deshpande Hadoop Real-World Solutions Cookbook

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171128

WD01 Invention patent application deemed withdrawn after publication