CN109558746B - 数据脱敏方法、装置、电子设备及存储介质 - Google Patents
数据脱敏方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109558746B CN109558746B CN201811311180.XA CN201811311180A CN109558746B CN 109558746 B CN109558746 B CN 109558746B CN 201811311180 A CN201811311180 A CN 201811311180A CN 109558746 B CN109558746 B CN 109558746B
- Authority
- CN
- China
- Prior art keywords
- desensitization
- task
- data
- type
- original data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供一种数据脱敏方法、装置、电子设备及存储介质,其中,该方法包括:获取脱敏任务,该脱敏任务包括:任务类型和数据源类型,根据该数据源类型和任务类型,获取原始数据,以及根据该原始数据中敏感信息的类型,获取该原始数据对应的脱敏规则,最后根据该脱敏规则,对原始数据进行脱敏处理,得到脱敏数据。该技术方案的数据脱敏方法对不同任务类型和不同数据源类型的原始数据进行自动处理,避免了数据脱敏过程中的数据泄露风险,脱敏的稳定性高,降低了人力成本,数据量巨大时也可以实现。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据脱敏方法、装置、电子设备及存储介质。
背景技术
随着大数据技术的不断成熟发展和应用范围不断扩大,涉及大数据技术的开发项目越来越多,如何对大规模数据进行脱敏,并利用脱敏后的数据搭建一个大数据项目的测试环境的需求就越来越强烈。
目前,大数据脱敏通常采用人工脱敏方法,即操作人员根据原始数据的敏感程度对其中的敏感信息进行处理,以屏蔽掉原始数据中的敏感信息,实现敏感信息的隐私保护。
然而,由于人工脱敏方法中操作人员直接接触数据,在数据脱敏的过程中不仅存在数据泄露的风险、脱敏稳定性不可控的问题,而且人工脱敏操作的人工成本高、数据量巨大时实现困难。
发明内容
本申请提供一种数据脱敏方法、装置、电子设备及存储介质,以解决现有人工脱敏方法存在的数据泄露风险、脱敏稳定性不可控、人工成本高以及实现困难的问题。
本申请第一方面提供的一种数据脱敏方法,包括:
获取脱敏任务,所述脱敏任务包括:任务类型和数据源类型;
根据所述数据源类型和所述任务类型,获取原始数据;
根据所述原始数据中敏感信息的类型,获取所述原始数据对应的脱敏规则;
根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据。
可选的,在第一方面的一种可能实现方式中,所述任务类型包括:脱敏测试任务和脱敏正式任务;
所述根据所述数据源类型和所述任务类型,获取原始数据,包括:
若所述任务类型为脱敏测试任务,则根据所述数据源类型获取指定数量的所述原始数据;
若所述任务类型为脱敏正式任务,则根据所述数据源类型获取所有所述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
可选的,在第一方面的上述可能实现方式中,所述根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据之后,所述方法还包括:
若所述任务类型为脱敏测试任务,则根据所述脱敏数据和所述原始数据判断所述脱敏规则是否有效;
若所述任务类型为脱敏正式任务,则将所述脱敏数据存储至所述脱敏任务对应的预设存储位置。
可选的,在第一方面的另一种可能实现方式中,所述方法还包括:
实时获取并显示所述脱敏任务的进度信息;
在根据所述进度信息确定所述脱敏任务执行完毕时,记录和保存所述脱敏任务的任务信息,所述任务信息包括:申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的。
可选的,在第一方面的再一种可能实现方式中,所述获取脱敏任务之前,所述方法还包括:
获取所述脱敏任务的审核信息,所述审核信息包括:所述原始数据和所述脱敏规则;
根据所述审核信息中的所述原始数据和所述脱敏规则,判定所述脱敏任务是否符合安全规则。
可选的,在第一方面的又一种可能实现方式中,所述方法还包括:
根据各种敏感信息的类型,制定所述各种敏感信息分别对应的脱敏规则。
可选的,在第一方面的又一种可能实现方式中,所述获取脱敏任务,包括:
接收数据平台下发的脱敏任务请求,所述脱敏任务请求包括:数据平台标识和脱敏任务标识;
根据所述脱敏任务请求中的所述脱敏任务标识,从所述数据平台标识对应的所述数据平台处获取所述脱敏任务。
本申请第二方面提供了一种数据脱敏装置,包括:获取模块和处理模块;
所述获取模块,用于获取脱敏任务,所述脱敏任务包括:任务类型和数据源类型,根据所述数据源类型和所述任务类型,获取原始数据,以及根据所述原始数据中敏感信息的类型,获取所述原始数据对应的脱敏规则;
所述处理模块,用于根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据。
可选的,在第二方面的一种可能实现方式中,所述任务类型包括:脱敏测试任务和脱敏正式任务;
所述获取模块,用于根据所述数据源类型和所述任务类型,获取原始数据,具体为:
所述获取模块,具体用于在所述任务类型为脱敏测试任务时,根据所述数据源类型获取指定数量的所述原始数据,在所述任务类型为脱敏正式任务时,根据所述数据源类型获取所有所述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
可选的,在第二方面的上述可能实现方式中,所述处理模块,还用于在根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据之后,在所述任务类型为脱敏测试任务时,根据所述脱敏数据和所述原始数据判断所述脱敏规则是否有效,以及在所述任务类型为脱敏正式任务时,将所述脱敏数据存储至所述脱敏任务对应的预设存储位置。
可选的,在第二方面的另一种可能实现方式中,所述获取模块,还用于实时获取并显示所述脱敏任务的进度信息;
相应的,所述处理模块,还用于在根据所述进度信息确定所述脱敏任务执行完毕时,记录和保存所述脱敏任务的任务信息,所述任务信息包括:申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的。
可选的,在第二方面的再一种可能实现方式中,所述获取模块,还用于获取脱敏任务之前,获取所述脱敏任务的审核信息,所述审核信息包括:所述原始数据和所述脱敏规则;
相应的,所述处理模块,还用于根据所述审核信息中的所述原始数据和所述脱敏规则,判定所述脱敏任务是否符合安全规则。
可选的,在第二方面的又一种可能实现方式中,所述处理模块,还用于根据各种敏感信息的类型,制定所述各种敏感信息分别对应的脱敏规则。
可选的,在第二方面的又一种可能实现方式中,所述获取模块,用于获取脱敏任务,具体为:
所述获取模块,具体用于接收数据平台下发的脱敏任务请求,所述脱敏任务请求包括:数据平台标识和脱敏任务标识,根据所述脱敏任务请求中的所述脱敏任务标识,从所述数据平台标识对应的所述数据平台处获取所述脱敏任务。
本申请第三方面提供一种数据脱敏装置,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面以及第一方面各可能实现方式所述的方法。
本申请第四方面提供一种存储介质,所述存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面以及第一方面各可能实现方式所述的方法。
本申请实施例提供的数据脱敏方法、装置、电子设备及存储介质,通过获取包括任务类型和数据源类型的脱敏任务,根据该数据源类型和任务类型获取原始数据,进而根据原始数据中敏感信息的类型,获取该原始数据对应的脱敏规则,最后根据该脱敏规则对原始数据进行脱敏处理得到脱敏数据。该技术方案中,数据脱敏装置可以自动处理不同任务类型和不同数据源类型的原始数据,避免了数据脱敏过程中的数据泄露风险,脱敏的稳定性高,降低了人力成本,数据量巨大时也容易实现。
附图说明
图1为本申请实施例提供的一种数据脱敏方法的应用场景示意图;
图2为图1所示实施例中数据脱敏装置的架构示意图;
图3为本申请实施例提供的数据脱敏方法实施例一的流程示意图;
图4为本申请实施例提供的数据脱敏方法实施例二的流程示意图;
图5为本申请实施例提供的数据脱敏方法实施例三的流程示意图;
图6为本申请实施例提供的数据脱敏装置实施例的结构示意图;
图7为本申请实施例提供的电子设备实施例的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种数据脱敏方法的应用场景示意图。如图1所示,该数据脱敏方法的应用场景中包括数据平台11、数据平台12和数据脱敏装置13。可选的,该数据平台11中可以存储大量携带有敏感信息的原始数据;数据平台12可以是为数据脱敏环境提供服务的数据平台,在数据脱敏装置13执行数据脱敏任务之前,数据平台12中可以暂时不存储任何数据;该数据脱敏装置13主要用于获取脱敏任务,根据脱敏任务中数据源类型和任务类型从数据平台11中获取携带有敏感信息的原始数据,根据该敏感信息的类型获取对应的脱敏规则,根据该脱敏规则对原始数据进行脱敏处理,以及对脱敏数据进行相应的处理,例如,将得到的脱敏数据和/或该脱敏任务的任务信息存储到上述数据平台12中。
可选的,本申请实施例中的数据平台11和数据平台12既可以是ES(elasticsearch),也可以是分布式文件系统(hadoop distributed file system,HDFS),还可以是其他的数据平台,本申请实施例中的数据脱敏装置13可以适用于多个数据平台中的数据脱敏,对于数据平台的种类,本申请实施例并不对其进行限定。因此,本申请实施例中的数据源类型可以为多种,例如,数据源类型可以是ES,还可以是HDFS等。
可选的,ES是一个基于Lucene的搜索服务器,其提供了一个分布式多用户能力的全文搜索引擎,是当前流行的企业级搜索引擎,能够解决用户对于搜索的众多要求,该ES在实现搜索功能的同时,还可以存储数据,因而,本申请实施例中数据脱敏装置13可以从ES获取待脱敏处理的原始数据。
可选的,HDFS是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统,其具有高容错性(fault-tolerant)的特点,能够被设计用来部署在低廉的(low-cost)硬件上,可以提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。因而,该HDFS是常用的用于存储数据的数据平台,故本申请实施例中的数据脱敏装置13可以从HDFS获取待脱敏处理的原始数据。
可选的,由于在实际生产环境的大数据平台中存储了大量携带有真实敏感信息的数据,因而,在开发一个基于大数据的产品中,需要在测试环境搭建一个大数据的测试环境来满足产品测试的工作,即需要对在生产环境的大数据平台中的真实数据进行脱敏,并将脱敏后的数据存储到测试环境的大数据平台中,用于大数据产品的开发测试。
可选的,本申请实施例中所述的敏感信息通常包括:客户个人隐私数据以及某些关键的敏感业务数据,例如,姓名:客户姓名、客户名等;地址:家庭地址、公司地址等;邮箱:公司邮箱,常用邮箱等;电话:手机号码、固定电话等;证件:身份证、护照、军官证等;账户:银行卡号、客户号、税务登记号、组织机构代码、营业执照号等;邮编:公司邮编、家庭住址邮编等;日期:生日等。本申请实施例并不对上述敏感信息的具体类型进行限定,其在其他情形下,还可能包括其他类型的信息,此处不再赘述。
针对上述需求,本申请实施例提供了一种数据脱敏方法,用于解决现有人工脱敏方法中存在的数据泄露风险大、脱敏稳定性不可控以及人工成本高、数据量巨大时实现困难等问题,数据脱敏装置利用获取的脱敏规则对根据数据源类型和任务类型获取到的原始数据进行自动脱敏处理,保证了数据安全和脱敏稳定性,降低了脱敏成本,易于实现。
下面首先对本申请实施例中的数据脱敏装置的结构进行简要介绍。
可选的,图2为图1所示实施例中数据脱敏装置的架构示意图。如图2所示,本申请实施例中的数据脱敏装置13可以包括:配置管理模块131和数据处理模块132。
示例性的,在本实施例中,该配置管理模块131可以包括:脱敏任务生成单元1311、脱敏任务测试单元1312、脱敏任务下发单元1313、脱敏规则制定单元1314和历史操作审计单元1315。
其中,该脱敏任务生成单元1311可以用于根据选定的获取到的脱敏数据源、脱敏后数据的保存位置和脱敏数据源对应的脱敏规则等信息生成一个脱敏任务。
该脱敏任务测试单元1312可以在脱敏任务生成后,首先启动脱敏测试功能,通知数据处理模块132按照预设规则读取少量数据进行脱敏测试,以判定上述脱敏规则是否有效。
该脱敏任务下发单元1313在确定脱敏任务中的脱敏规则有效后,可以将该脱敏任务下发给数据处理模块132,以使该数据处理模块132正式执行数据脱敏任务,并实时反馈整个脱敏任务的执行进度。
该脱敏规则制定单元1314主要用于脱敏规则的制定,对于常用的数据类型,基于数据安全的考虑,制定统一的数据脱敏规则,如身份证号码脱敏规则是:统一隐去第一位和最后一位以外的所有数字,并用*号代替等。该单元主要负责对这些统一的脱敏规则进行编辑维护。
该历史操作审计单元1315主要负责记录历史中所有的脱敏任务,包括脱敏的时间,申请人,脱敏的数据内容,脱敏的目的等信息。
示例性的,在本实施例中,该数据处理模块132可以包括:底层框架1321、数据输入单元1322、数据脱敏单元1323和数据输出单元1324。
其中,该底层框架1321可以由logstash开源底层框架实现,主要负责底层基本功能的支撑,并对外提供输入(input)、过滤(filter)、输出(output)三个框架接口。该logstash是一个开源的数据收集引擎,它具有备实时数据传输能力,可以统一收集和过滤来自不同数据源的数据,并按照开发者制定的规范输出到目的位置,为开发者有效分析数据脱敏系统的运行性能,做好监控和预警的准备工作提供了实现前提。
数据输入单元1322主要用于根据获取到的脱敏任务的任务类型和数据源类型从数据源类型对应的数据平台获取原始数据,并送入数据脱敏单元1323(或者,称为处理单元、过滤器),该数据脱敏单元1323按照根据原始数据中敏感信息的类型获取脱敏规则,并利用该脱敏规则对原始数据进行脱敏处理,即隐去原始数据中敏感信息,得到脱敏数据,最后通过该数据输出单元1324输出到脱敏任务对应的预设存储位置。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图3为本申请实施例提供的数据脱敏方法实施例一的流程示意图。本申请实施例的执行主体可以是上述图1和图2中的数据脱敏装置。可选的,如图3所示,本申请实施例提供的数据脱敏方法可以包括如下步骤:
步骤31:获取脱敏任务,该脱敏任务包括:任务类型和数据源类型。
可选的,在本申请的实施例中,当数据脱敏装置需要执行数据脱敏任务时,作为一种示例,数据脱敏装置可以通过接收用户下发的数据脱敏指令生成脱敏任务,进而根据该脱敏任务中的任务类型和数据源类型,获取该脱敏任务所对应的原始数据以及脱敏规则。
可选的,作为另一种示例,该数据脱敏装置可以包括配置管理模块和数据脱敏模块,由该配置管理模块根据用户通过用户界面选择的数据源类型、任务类型等生成脱敏任务,并将其发送给数据脱敏模块执行,因而,该数据脱敏模块可以获取到该脱敏任务。
可选的,作为再一种示例,该步骤31还可以通过如下方式实现:接收数据平台下发的脱敏任务请求,该脱敏任务请求包括:数据平台标识和脱敏任务标识,根据该脱敏任务请求中的脱敏任务标识,从数据平台标识对应的该数据平台处获取该脱敏任务。
由于本申请实施例中的数据脱敏装置可以对多个数据平台(例如,上述的ES或HDFS等)中的数据进行脱敏处理,因而,为了使数据脱敏装置可以区分出脱敏任务的来源,接收到的脱敏任务请求中需要包括数据平台标识。此外,由于同一数据平台中根据待脱敏的类型也可以生成多个不同的脱敏任务,为了使数据脱敏装置可以从同一数据平台中获取数据平台请求处理的脱敏任务,该脱敏任务请求中也需要包括脱敏任务标识。
可选的,在本申请实施例中,脱敏任务除包括任务类型和数据源类型之外,还可以包括原始数据脱敏后的数据保存位置以及原始数据对应的脱敏规则等内容,数据脱敏装置在执行脱敏任务时,可以利用脱敏任务中的脱敏规则直接对原始数据进行脱敏处理,将在脱敏任务执行完成后,将得到的脱敏数据保存到预先设定位置。
步骤32:根据上述数据源类型和任务类型,获取原始数据。
可选的,由于本申请实施例中的数据脱敏装置可以对多个数据平台(例如,上述的ES或HDFS等)中的数据进行脱敏处理,而且该数据脱敏装置也可以根据实际需要选择不同的任务类型(例如,脱敏测试任务或脱敏正式任务)进行执行。
因此,在本实施例中,当数据脱敏装置获取到脱敏任务之后,可以根据任务中原始数据的数据源类型(如ES或HDFS)选择启动对用的数据读取模块(对应的数据输入模块),以使其从数据源类型对应的数据平台中获取原始数据,即执行原始数据的读取操作。
可选的,在本申请的上述实施例中,该脱敏任务的任务类型可以包括:脱敏测试任务和脱敏正式任务。
相应的,该步骤32(根据上述数据源类型和任务类型,获取原始数据)可以通过如下步骤的任意一种实现:
作为一种示例,若上述任务类型为脱敏测试任务,则根据上述数据源类型获取指定数量的上述原始数据。
可选的,当数据脱敏装置获取到的脱敏任务中任务类型指示的是脱敏测试任务时,数据脱敏装置可以根据数据源类型从相应的数据平台获取指定数量的原始数据,通过对该指定数量的原始数据进行脱敏处理,以根据脱敏任务的执行结果判定原始数据的脱敏规则是否有效,从而避免了脱敏规则无效带来的大量重复工作。
作为另一种示例,若上述任务类型为脱敏正式任务,则根据上述数据源类型获取所有上述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
可选的,当数据脱敏装置获取到的脱敏任务中任务类型指示的是脱敏正式任务时,数据脱敏装置则可以根据数据源类型从相应的数据平台获取全部原始数据,直到接收到暂停通知或者获取完所有原始数据为止。可选的,该暂停通知可以是用户下发的。
步骤33:根据上述原始数据中敏感信息的类型,获取原始数据对应的脱敏规则。
可选的,在本申请的实施例中,用户根据常用的敏感信息的类型,制定了统一的脱敏规则,并且存储在的数据脱敏装置中。因而,在本申请的实施例中,当数据脱敏装置获取到待脱敏的原始数据之后,可以首先确定出该原始数据中敏感信息的类型,进而根据该原始数据中敏感信息的类型,从存储有脱敏规则的存储单元中获取该原始数据对应的脱敏规则,该脱敏规则实际上是敏感信息对应的脱敏规则。
可选的,在本申请的实施例中,数据脱敏装置在获取脱敏任务之前,实际上还可以执行如下步骤:
根据各种敏感信息的类型,制定各种敏感信息分别对应的脱敏规则。
可选的,在本实施例中,对于常用数据对应的敏感信息,可以基于数据安全的考虑,并根据该敏感信息的类型,首先制定统一的脱敏规则。
例如,对于身份证号码等敏感信息,其对应的脱敏规则可以设置为:统一隐去除第一位和最后一位以外的所有数字,并用*号代替。对于手机号码等敏感信息,其对应的脱敏规则可以设置为:隐去第4位至第7位的信息,并用*号代替。
实际上,对于敏感信息对应的脱敏规则,可以根据实际需要进行设置,本申请实施例并不对其进行限定。
步骤34:根据上述脱敏规则,对获取到的原始数据进行脱敏处理,得到脱敏数据。
可选的,在本申请的实施例中,数据脱敏装置从数据源类型对应的数据平台获取到的原始数据以后原始数据对应的脱敏规则后,便可以根据该脱敏规则对获取到的原始数据进行脱敏处理,即利用该脱敏规则,将原始数据中的敏感信息隐去,得到脱敏数据,该脱敏数据中不包含客户个人隐私数据以及某些关键的敏感业务数据等。
可选的,当该数据脱敏装置的底层框架由logstash开源底层框架实现时,并且在该logstash开源底层框架获取到原始数据时,利用获取到的脱敏规则对原始数据进行脱敏处理。即本申请实施例在实时数据传输引擎logstash的基础上,低成本、高灵活性的实现了数据脱敏。
可选的,在本申请的实施例中,在该步骤34(根据上述脱敏规则,对获取到的原始数据进行脱敏处理,得到脱敏数据)之后,该数据脱敏方法还可以包括步骤:
作为一种示例,若上述任务类型为脱敏测试任务,则根据该脱敏数据和原始数据判断上述脱敏规则是否有效。
可选的,在本申请实施例中,由于该数据脱敏装置可以对数据平台中的原始数据进行脱敏处理,且鉴于数据平台的数据量庞大,多次重复脱敏处理可能耗费的时间非常长、工作量非常大,因此,本申请实施例中将脱敏任务的任务类型分为脱敏测试任务和脱敏正式任务,利用该脱敏测试任务检测获取到的脱敏规则是否有效,并在脱敏规则有效时,再利用脱敏正式任务对数据平台中的原始数据进行脱敏处理。
可选的,在本申请的实施例中,当获取到脱敏任务时,相应的,确定出该脱敏任务的任务类型和数据源类型,并且根据任务类型从数据源类型对应的数据平台中,获取原始数据,相应的,再根据原始数据中敏感信息的类型获取原始数据对应的脱敏规则。
值得说明的是,若该脱敏规则是第一次使用,则在得到脱敏数据后需要根据脱敏数据和原始数据判定该脱敏规则是否有效,若该脱敏规已被使用多次,则可以不对脱敏规则的有效性进行验证,具体是否验证可以根据实际情况进行确定,本申请实施例不对其进行限定。
作为另一种示例,若上述任务类型为脱敏正式任务,则将得到的脱敏数据存储至脱敏任务对应的预设存储位置。
可选的,在本申请的实施例中,脱敏任务还可以包括该脱敏任务执行后脱敏数据的预设存储位置,因而,在脱敏任务的任务类型为脱敏正式任务时,数据脱敏装置根据原始数据对应的脱敏规则对原始数据进行脱敏处理之后,可以将得到的脱敏数据存储至脱敏任务对应的预设存储位置,例如,异于存放原始数据存放平台的另一个数据平台。
本申请实施例提供的数据脱敏装置,通过获取包括任务类型和数据源类型的脱敏任务,根据该数据源类型和任务类型获取原始数据,进而根据原始数据中敏感信息的类型,获取该原始数据对应的脱敏规则,最后根据该脱敏规则对原始数据进行脱敏处理得到脱敏数据。该技术方案中,数据脱敏装置可以自动处理不同任务类型和不同数据源类型的原始数据,避免了数据脱敏过程中的数据泄露风险,脱敏的稳定性高,降低了人力成本,且数据量巨大时也容易实现。
可选的,在上述实施例的基础上,图4为本申请实施例提供的数据脱敏方法实施例二的流程示意图。如图4所示,该数据脱敏方法还可以包括如下步骤:
步骤41:实时获取并显示该脱敏任务的进度信息。
可选的,在本申请的实施例中,在数据脱敏装置对原始数据进行脱敏处理的过程中,数据脱敏装置还可以实时获取并显示该脱敏任务的进度信息。可选的,该数据脱敏装置可以将脱敏任务的进度信息显示在人机交互界面上,以将脱敏任务的进度信息进行展示,使工作人员更直观的了解脱敏任务中数据脱敏进程。
步骤42:在根据上述进度信息确定该脱敏任务执行完毕时,记录和保存该脱敏任务的任务信息。
可选的,该任务信息可以包括:申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的。
可选的,根据上述获取到的进度信息可以判定脱敏任务是否执行完毕,并且当脱敏任务执行完毕之后,可以将脱敏任务的任务信息记录下来,以便工作人员对脱敏任务的结果进行评判,包括脱敏任务的完成状况、脱敏后数据的质量等内容。
可选的,通过将脱敏任务的任务信息保存下来,由于该任务信息中包括了该脱敏任务的申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的,这样可以在后续统计时方便相关人员查看,或者,在该脱敏任务导致敏感信息泄露,或者,收到用户投诉时,可以追溯该脱敏任务的相关执行信息,例如,该脱敏任务的申请人信息、该脱敏任务审核通过的审核人信息,以及该脱敏任务何时执行的,其使用的原始数据,处理后的脱敏数据,以及该脱敏任务的数据脱敏目的等。
值得说明的是,本申请实施例中脱敏任务的任务信息包括但不局限于上述信息,其还可以包括其他信息,具体内容可以根据实际情况进行确定,此处不再赘述。
本申请实施例提供的数据脱敏方法,通过实时获取并显示脱敏任务的进度信息,记录和保存该脱敏任务的任务信息,这样可以方便工作人员查看脱敏任务的执行情况,进而在脱敏任务执行完毕后,可以追溯该脱敏任务的任务信息,为后续脱敏任务的维护和查找提供了实现可能。
可选的,在本申请的实施例中,图5为本申请实施例提供的数据脱敏方法实施例三的流程示意图。如图5所示,该数据脱敏方法在上述步骤31(获取脱敏任务)之前,还可以包括如下步骤:
步骤51:获取脱敏任务的审核信息。
其中,该审核信息包括:原始数据和脱敏规则。
步骤52:根据该审核信息中的原始数据和脱敏规则,判定该脱敏任务是否符合安全规则。
可选的,在本申请的实施例中,当数据脱敏装置需要执行一个脱敏任务之前,可以首先获取该脱敏任务的审核信息,进而根据该审核信息中的原始数据和脱敏规则,判定该原始数据利用该脱敏规则进行处理后,得到的脱敏数据是否能够满足安全规则。
例如,若该脱敏任务待处理的原始数据中包括某个用户的姓名、性别、出生日期、身份证号码和住址等信息,而脱敏规则是将姓名、性别和身份证号码的第7位至第14位隐去,并用*号代替。由于脱敏规则虽然将身份证号码中有关出生日期的部分隐去了,但是原始数据中的出生日期信息还存在,此时,该原始数据利用该脱敏规则得到的脱敏数据中仍然包含敏感信息,其并不能满足安全规则。只有当脱敏规则将姓名、性别、出生日期、身份证号码的第7位至第14位以及住址中的门牌号等具体信息隐去,并用*号代替后,才可能保证脱敏数据中不包含敏感信息,进而,该脱敏任务才可能符合安全规则。
本申请实施例提供的数据脱敏方法,在获取脱敏任务之前,首先获取脱敏任务的审核信息,并根据审核信息中包括的原始数据和脱敏规则,判定该脱敏任务是否符合安全规则,该技术方案为保证脱敏任务的可执行性奠定了基础,避免了原始数据中敏感信息的泄露,解决了大数据平台的数据脱敏问题。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6为本申请实施例提供的数据脱敏装置实施例的结构示意图。如图6所示,该数据脱敏装置可以包括:获取模块61和处理模块62。
其中,该获取模块61,用于获取脱敏任务,该脱敏任务包括:任务类型和数据源类型,根据所述数据源类型和所述任务类型,获取原始数据,以及根据所述原始数据中敏感信息的类型,获取所述原始数据对应的脱敏规则。
该处理模块62,用于根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据。
可选的,在本申请实施例的一种可能实现方式中,所述任务类型包括:脱敏测试任务和脱敏正式任务。
因而,上述获取模块61,用于根据所述数据源类型和所述任务类型,获取原始数据,具体为:
该获取模块61,具体用于在所述任务类型为脱敏测试任务时,根据所述数据源类型获取指定数量的所述原始数据,在所述任务类型为脱敏正式任务时,根据所述数据源类型获取所有所述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
可选的,在本申请实施例的上述可能实现方式中,所述处理模块62,还用于在根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据之后,在所述任务类型为脱敏测试任务时,根据所述脱敏数据和所述原始数据判断所述脱敏规则是否有效,以及在所述任务类型为脱敏正式任务时,将所述脱敏数据存储至所述脱敏任务对应的预设存储位置。
可选的,在本申请实施例的另一种可能实现方式中,所述获取模块61,还用于实时获取并显示所述脱敏任务的进度信息;
相应的,所述处理模块62,还用于在根据所述进度信息确定所述脱敏任务执行完毕时,记录和保存所述脱敏任务的任务信息,所述任务信息包括:申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的。
可选的,在本申请实施例的再一种可能实现方式中,所述获取模块61,还用于获取脱敏任务之前,获取所述脱敏任务的审核信息,所述审核信息包括:所述原始数据和所述脱敏规则;
相应的,所述处理模块62,还用于根据所述审核信息中的所述原始数据和所述脱敏规则,判定所述脱敏任务是否符合安全规则。
可选的,在本申请实施例的又一种可能实现方式中,所述处理模块62,还用于根据各种敏感信息的类型,制定所述各种敏感信息分别对应的脱敏规则。
可选的,在本申请实施例的又一种可能实现方式中,所述获取模块61,用于获取脱敏任务,具体为:
所述获取模块61,具体用于接收数据平台下发的脱敏任务请求,所述脱敏任务请求包括:数据平台标识和脱敏任务标识,根据所述脱敏任务请求中的所述脱敏任务标识,从所述数据平台标识对应的所述数据平台处获取所述脱敏任务。
本申请实施例提供的数据脱敏装置,可用于执行图3至图5所示实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图7为本申请实施例提供的电子设备实施例的结构示意图。如图7所示,该电子设备,可以包括:处理器71和存储器72及存储在所述存储器72上并可在所述处理器71上运行的计算机程序,所述处理器71执行所述计算机程序时实现如上述图3至图5所示实施例的方法。
可选的,本申请实施例还提供一种存储介质,所述存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如上述图3至图5所示实施例的方法。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述图3至图5所示实施例的方法。
本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述图3至图5所示实施例的方法。
本文中的术语“多个”是指两个或两个以上。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
可以理解的是,在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (9)
1.一种数据脱敏方法,其特征在于,包括:
获取脱敏任务,所述脱敏任务包括任务类型和数据源类型;
根据所述数据源类型和所述任务类型,获取原始数据;
根据所述原始数据中敏感信息的类型,获取所述原始数据对应的脱敏规则;
根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据;
其中,所述任务类型包括:脱敏测试任务和脱敏正式任务;
所述根据所述数据源类型和所述任务类型,获取原始数据,包括:
若所述任务类型为脱敏测试任务,则根据所述数据源类型获取指定数量的所述原始数据;
若所述任务类型为脱敏正式任务,则根据所述数据源类型获取所有所述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
2.根据权利要求1所述的方法,其特征在于,所述根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据之后,所述方法还包括:
若所述任务类型为脱敏测试任务,则根据所述脱敏数据和所述原始数据判断所述脱敏规则是否有效;
若所述任务类型为脱敏正式任务,则将所述脱敏数据存储至所述脱敏任务对应的预设存储位置。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
实时获取并显示所述脱敏任务的进度信息;
在根据所述进度信息确定所述脱敏任务执行完毕时,记录和保存所述脱敏任务的任务信息,所述任务信息包括:申请人信息、审核人信息、脱敏时间、原始数据、脱敏数据、脱敏规则和脱敏目的。
4.根据权利要求1-2任一项所述的方法,其特征在于,所述获取脱敏任务之前,所述方法还包括:
获取所述脱敏任务的审核信息,所述审核信息包括:所述原始数据和所述脱敏规则;
根据所述审核信息中的所述原始数据和所述脱敏规则,判定所述脱敏任务是否符合安全规则。
5.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
根据各种敏感信息的类型,制定所述各种敏感信息分别对应的脱敏规则。
6.根据权利要求1所述的方法,其特征在于,所述获取脱敏任务,包括:
接收数据平台下发的脱敏任务请求,所述脱敏任务请求包括:数据平台标识和脱敏任务标识;
根据所述脱敏任务请求中的所述脱敏任务标识,从所述数据平台标识对应的所述数据平台处获取所述脱敏任务。
7.一种数据脱敏装置,其特征在于,包括:获取模块和处理模块;
所述获取模块,用于获取脱敏任务,所述脱敏任务包括:任务类型和数据源类型,根据所述数据源类型和所述任务类型,获取原始数据,以及根据所述原始数据中敏感信息的类型,获取所述原始数据对应的脱敏规则;
所述处理模块,用于根据所述脱敏规则,对所述原始数据进行脱敏处理,得到脱敏数据;
其中,所述获取模块,具体用于在所述任务类型为脱敏测试任务时,根据所述数据源类型获取指定数量的所述原始数据,在所述任务类型为脱敏正式任务时,根据所述数据源类型获取所有所述原始数据,直到接收到暂停通知或者获取完所有原始数据为止。
8.一种电子设备,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述权利要求1-6任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311180.XA CN109558746B (zh) | 2018-11-06 | 2018-11-06 | 数据脱敏方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311180.XA CN109558746B (zh) | 2018-11-06 | 2018-11-06 | 数据脱敏方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109558746A CN109558746A (zh) | 2019-04-02 |
CN109558746B true CN109558746B (zh) | 2020-11-06 |
Family
ID=65865630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811311180.XA Active CN109558746B (zh) | 2018-11-06 | 2018-11-06 | 数据脱敏方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558746B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489992A (zh) * | 2019-06-26 | 2019-11-22 | 中电万维信息技术有限责任公司 | 基于大数据平台的脱敏方法及系统 |
CN110765483A (zh) * | 2019-09-29 | 2020-02-07 | 北京淇瑀信息科技有限公司 | 一种配置化的日志脱敏方法、装置和电子设备 |
CN110795764A (zh) * | 2019-11-01 | 2020-02-14 | 中国银行股份有限公司 | 一种数据脱敏方法及系统 |
CN110851463A (zh) * | 2019-11-08 | 2020-02-28 | 南京国图信息产业有限公司 | 一种基于互联网地图地理编码引擎的不动产登记数据脱敏与空间化方法 |
CN111371650B (zh) * | 2020-03-06 | 2022-03-25 | 中国银行股份有限公司 | 一种基于流量转发的准生产设备测试方法及系统 |
CN111737750B (zh) * | 2020-06-30 | 2023-12-26 | 绿盟科技集团股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112163214A (zh) * | 2020-09-22 | 2021-01-01 | 杭州数梦工场科技有限公司 | 数据访问的方法和装置 |
CN112347510B (zh) * | 2020-11-06 | 2024-03-29 | 中国工商银行股份有限公司 | 脱敏方法和脱敏装置 |
CN113127929B (zh) * | 2021-04-30 | 2024-03-01 | 天翼安全科技有限公司 | 数据脱敏方法、脱敏规则处理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203145A (zh) * | 2016-08-04 | 2016-12-07 | 北京网智天元科技股份有限公司 | 数据脱敏方法及相关设备 |
CN106529329A (zh) * | 2016-10-11 | 2017-03-22 | 中国电子科技网络信息安全有限公司 | 一种用于大数据的脱敏系统及脱敏方法 |
CN106599713A (zh) * | 2016-11-11 | 2017-04-26 | 中国电子科技网络信息安全有限公司 | 一种基于大数据的数据库脱敏系统及方法 |
CN107403110A (zh) * | 2017-08-10 | 2017-11-28 | 中国民航信息网络股份有限公司 | Hdfs数据脱敏方法及装置 |
CN107766741A (zh) * | 2017-10-23 | 2018-03-06 | 中恒华瑞(北京)信息技术有限公司 | 数据脱敏系统和方法 |
CN108197486A (zh) * | 2017-12-20 | 2018-06-22 | 北京天融信网络安全技术有限公司 | 大数据脱敏方法、系统、计算机可读介质及设备 |
-
2018
- 2018-11-06 CN CN201811311180.XA patent/CN109558746B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203145A (zh) * | 2016-08-04 | 2016-12-07 | 北京网智天元科技股份有限公司 | 数据脱敏方法及相关设备 |
CN106529329A (zh) * | 2016-10-11 | 2017-03-22 | 中国电子科技网络信息安全有限公司 | 一种用于大数据的脱敏系统及脱敏方法 |
CN106599713A (zh) * | 2016-11-11 | 2017-04-26 | 中国电子科技网络信息安全有限公司 | 一种基于大数据的数据库脱敏系统及方法 |
CN107403110A (zh) * | 2017-08-10 | 2017-11-28 | 中国民航信息网络股份有限公司 | Hdfs数据脱敏方法及装置 |
CN107766741A (zh) * | 2017-10-23 | 2018-03-06 | 中恒华瑞(北京)信息技术有限公司 | 数据脱敏系统和方法 |
CN108197486A (zh) * | 2017-12-20 | 2018-06-22 | 北京天融信网络安全技术有限公司 | 大数据脱敏方法、系统、计算机可读介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109558746A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558746B (zh) | 数据脱敏方法、装置、电子设备及存储介质 | |
CN109241358A (zh) | 元数据管理方法、装置、计算机设备及存储介质 | |
CN110704873B (zh) | 一种防止敏感数据泄漏的方法及系统 | |
US11720825B2 (en) | Framework for multi-tenant data science experiments at-scale | |
US10956664B2 (en) | Automated form generation and analysis | |
CN111414376A (zh) | 一种数据预警方法和装置 | |
CN111078776A (zh) | 数据表的标准化方法、装置、设备及存储介质 | |
CN109871368B (zh) | 数据库检测方法、装置、计算机装置及存储介质 | |
WO2018121266A1 (zh) | 一种应用程序获取方法和装置以及一种终端设备 | |
CN109241722A (zh) | 用于获取信息的方法、电子设备和计算机可读介质 | |
CN115587575A (zh) | 数据表创建方法、目标数据查询方法、装置及设备 | |
CN108255967B (zh) | 存储过程的调用方法、装置、存储介质及终端 | |
CN116541372A (zh) | 一种数据资产治理方法及系统 | |
TW202032466A (zh) | 用戶年齡預測方法、裝置及設備 | |
CN114648323A (zh) | 面向业务场景的调用链处理方法、装置及介质 | |
CN112667619B (zh) | 辅助检查数据的方法、装置、终端设备及存储介质 | |
US12026275B2 (en) | Systems and methods for semantic context enrichment and data masking | |
CN109947797B (zh) | 一种数据检查装置及方法 | |
CN110895552A (zh) | 一种人员信息获取方法及装置 | |
US20180329926A1 (en) | Image-based semantic accommodation search | |
CN115730012A (zh) | 一种数据库脱敏方法及系统 | |
CA3144122A1 (en) | Data verifying method, device and system | |
CN115391655A (zh) | 信息查询方法及装置、电子设备和计算机可读存储介质 | |
CN114968960A (zh) | 日志处理方法、装置、计算机设备及存储介质 | |
CN111222739B (zh) | 核电站的任务分配方法及核电站的任务分配系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |