CN114357498A - 一种数据脱敏方法及装置 - Google Patents

一种数据脱敏方法及装置 Download PDF

Info

Publication number
CN114357498A
CN114357498A CN202011089982.8A CN202011089982A CN114357498A CN 114357498 A CN114357498 A CN 114357498A CN 202011089982 A CN202011089982 A CN 202011089982A CN 114357498 A CN114357498 A CN 114357498A
Authority
CN
China
Prior art keywords
desensitization
data
desensitized
sensitive
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011089982.8A
Other languages
English (en)
Inventor
戴启厚
李立宁
赵林
程洁
徐蓉
李沈郢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011089982.8A priority Critical patent/CN114357498A/zh
Publication of CN114357498A publication Critical patent/CN114357498A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明实施例提供了一种数据脱敏方法及装置,该方法包括在确定用户具有访问待脱敏数据库的权限时,从待脱敏数据库中获取待脱敏数据,基于待脱敏数据的敏感字段和针对敏感字段的脱敏规则,生成待脱敏数据的脱敏任务,在确定脱敏任务符合设定审核条件后,根据脱敏规则对待脱敏数据中敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据,将脱敏后的数据存储在目标数据库中。如此可以提高数据脱敏方式的灵活性,以便满足不同的数据脱敏需求,并可以确保数据脱敏过程中的安全性,从而可以防止数据脱敏过程中发生数据泄露的风险,进而可以解决现有技术中存在传统脱敏方法方式单一、安全维度不足等问题。

Description

一种数据脱敏方法及装置
技术领域
本发明实施例涉及数据脱敏技术领域,尤其涉及一种数据脱敏方法及装置。
背景技术
在大数据时代,企业在生产、运营过程中会产生大量的数据,其中包括一些隐私数据,而且这些数据可能会被应用于各个场景。然而,这些数据在未经处理的情况下就进行传播,会导致企业或者个人的隐私信息存在泄露的风险,从而给企业或个人造成无法估计的损失。此外,对于企业来说,数据就是资产,而隐私数据保护就是企业必须面临的问题和挑战。因此,对数据进行脱敏处理,则可以在不降低数据安全性的前提下,保证数据的可用性。
现有的数据脱敏技术大多是采用分布式数据处理的方式对数据进行脱敏处理,以便提升数据脱敏的效率。然而这种处理方式由于过于追求数据脱敏效率的提升,而较少考虑脱敏过程中的系统安全、算法安全、脱敏需求的多样化和精细化,因此对于企业来说,无法保证企业隐私数据的安全性。
综上,目前亟需一种数据脱敏方法,用以解决现有技术中存在传统脱敏方法方式单一、安全维度不足等问题。
发明内容
本发明实施例提供了一种数据脱敏方法及装置,用以解决现有技术中存在传统脱敏方法方式单一、安全维度不足等问题。
第一方面,本发明实施例提供了一种数据脱敏方法,包括:
在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据;
基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的脱敏任务;
在确定所述脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据;
将所述脱敏后的数据存储在目标数据库中。
上述技术方案中,通过对用户访问待脱敏数据库的权限进行验证,可以确保待脱敏数据库中数据的安全隐私,并可以避免数据的泄露。再从敏感字段对应的多个脱敏规则中确定出脱敏规则,如此可以使得脱敏方式更加多样化、精细化,并可以提高数据脱敏方式的灵活性,以便满足不同的数据脱敏需求,从而可以避免单一的脱敏方式带来的脱敏安全问题。此外,在确定出敏感字段对应的脱敏规则后,还需将待脱敏数据的数据脱敏任务进行上报,以便审核人员在确定用户的数据脱敏任务符合设定审核条件时,可以根据敏感字段的脱敏规则对待脱敏数据中敏感字段对应的敏感数据进行脱敏处理,如此可以进一步确保数据脱敏过程中的安全性,从而可以防止数据脱敏过程中发生数据泄露的风险,进而可以解决现有技术中存在传统脱敏方法方式单一、安全维度不足等问题。
可选地,所述在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据,包括:
获取用户发送的数据脱敏请求,所述数据脱敏请求包括所述待脱敏数据库的标识和所述用户的身份信息;
基于所述待脱敏数据库的标识确定出对应的待脱敏数据库,并对所述用户的身份信息进行验证,确定所述用户是否具有访问所述待脱敏数据库的权限;
若是,则从所述待脱敏数据库中获取所述待脱敏数据。
上述技术方案中,在用户请求访问待脱敏数据库的标识对应的待脱敏数据库时,通过对用户的身份信息进行验证,以便判断用户是否具有访问待脱敏数据库的权限,如此可以确保待脱敏数据库中待脱敏数据的安全隐私,并可以避免发生数据泄露的风险。
可选地,所述基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,包括:
根据所述待脱敏数据,选取出所述敏感字段;
基于所述敏感字段对应的分区规则,从所述敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出所述敏感字段对应的脱敏规则。
上述技术方案中,通过根据待脱敏数据,选取出敏感字段,并基于敏感字段对应的分区规则,从敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出敏感字段对应的脱敏规则。如此可以使得敏感数据的脱敏分区更加多样化、精细化,并可以使得脱敏方式也更加多样化,从而可以提高数据脱敏方式的灵活性,以便满足不同的数据脱敏需求。
可选地,所述根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,包括:
若确定所述敏感字段对应的敏感数据为不规律数据,则将所述敏感字段对应的敏感数据与数据字典进行匹配,确定出所述敏感数据的多个分区,并基于所述数据脱敏任务从所述多个分区中确定出第一脱敏分区,调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第一脱敏分区对应的敏感数据进行脱敏处理;
若确定所述敏感字段对应的敏感数据为规律数据,则基于所述数据脱敏任务确定出第二脱敏分区,并调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第二脱敏分区对应的敏感数据进行脱敏处理。
上述技术方案中,通过在确定敏感字段对应的敏感数据为不规律数据,则将敏感字段对应的敏感数据与数据字典进行匹配,确定出敏感数据的多个分区,并基于数据脱敏任务从多个分区中确定出第一脱敏分区,调用敏感字段对应的脱敏规则中的脱敏算法对第一脱敏分区对应的敏感数据进行脱敏处理,或者在确定敏感字段对应的敏感数据为规律数据,则基于数据脱敏任务确定出第二脱敏分区,并调用敏感字段对应的脱敏规则中的脱敏算法对第二脱敏分区对应的敏感数据进行脱敏处理,可以准确及时地对敏感数据进行处理,从而可以提高数据脱敏的效率,并可以提高数据脱敏方式的灵活性。
可选地,所述方法还包括:
接收用户发送的脱敏算法更新指令,所述脱敏算法更新指令用于指示更新所述敏感字段对应的旧版脱敏算法;
确定所述敏感字段对应的旧版脱敏算法是否处于数据脱敏任务调用中;
若否,则根据所述脱敏算法更新指令将所述敏感字段对应的旧版脱敏算法更新为新版脱敏算法,否则在确定所述旧版脱敏算法执行完所述敏感字段对应的数据脱敏任务后,将所述旧版脱敏算法更新为所述新版脱敏算法。
上述技术方案中,通过根据脱敏算法更新指令可以准确及时地将敏感字段对应的旧版脱敏算法更新为新版脱敏算法,如此可以提高脱敏算法的多样性、灵活性,从而可以提高数据脱敏方式的灵活性,并可以避免存在恶意用户破解脱敏算法导致数据泄露的风险,有助于提高数据脱敏的安全性。
可选地,所述方法还包括:
在确定所述敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或所述敏感字段对应的旧版脱敏算法更新为所述新版脱敏算法后,若出现新的数据脱敏任务,则调用所述新版脱敏算法对所述新的数据脱敏任务进行处理。
上述技术方案中,在敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或敏感字段对应的旧版脱敏算法更新为新版脱敏算法后,针对新出现的数据脱敏任务,可以及时地调用新版脱敏算法对新的数据脱敏任务进行处理。如此可以及时地对脱敏算法进行切换,从而有助于提高脱敏算法的灵活性。
可选地,所述将所述脱敏后的数据存储在目标数据库中,包括:
对所述脱敏后的数据进行数据标识处理,得到标识后的脱敏数据;
将所述标识后的脱敏数据存储在所述目标数据库中。
上述技术方案中,通过对脱敏后的数据进行数据标识处理,可以使得后续用户可以准确及时地查找对应的脱敏数据,并可以为用户根据脱敏数据的标识在数据脱敏断点的情况下能够及时地继续进行数据脱敏处理提供支持。
第二方面,本发明实施例还提供了一种数据脱敏装置,包括:
获取单元,用于在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据;
处理单元,用于基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的数据脱敏任务;在确定所述数据脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据;将所述脱敏后的数据存储在目标数据库中。
可选地,所述处理单元具体用于:
获取用户发送的数据脱敏请求,所述数据脱敏请求包括所述待脱敏数据库的标识和所述用户的身份信息;
基于所述待脱敏数据库的标识确定出对应的待脱敏数据库,并对所述用户的身份信息进行验证,确定所述用户是否具有访问所述待脱敏数据库的权限;
若是,则从所述待脱敏数据库中获取所述待脱敏数据。
可选地,所述处理单元具体用于:
根据所述待脱敏数据,选取出所述敏感字段;
基于所述敏感字段对应的分区规则,从所述敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出所述敏感字段对应的脱敏规则。
可选地,所述处理单元具体用于:
若确定所述敏感字段对应的敏感数据为不规律数据,则将所述敏感字段对应的敏感数据与数据字典进行匹配,确定出所述敏感数据的多个分区,并基于所述数据脱敏任务从所述多个分区中确定出第一脱敏分区,调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第一脱敏分区对应的敏感数据进行脱敏处理;
若确定所述敏感字段对应的敏感数据为规律数据,则基于所述数据脱敏任务确定出第二脱敏分区,并调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第二脱敏分区对应的敏感数据进行脱敏处理。
可选地,所述处理单元还用于:
接收用户发送的脱敏算法更新指令,所述脱敏算法更新指令用于指示更新所述敏感字段对应的旧版脱敏算法;
确定所述敏感字段对应的旧版脱敏算法是否处于数据脱敏任务调用中;
若否,则根据所述脱敏算法更新指令将所述敏感字段对应的旧版脱敏算法更新为新版脱敏算法,否则在确定所述旧版脱敏算法执行完所述敏感字段对应的数据脱敏任务后,将所述旧版脱敏算法更新为所述新版脱敏算法。
可选地,所述处理单元还用于:
在确定所述敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或所述敏感字段对应的旧版脱敏算法更新为所述新版脱敏算法后,若出现新的数据脱敏任务,则调用所述新版脱敏算法对所述新的数据脱敏任务进行处理。
可选地,所述处理单元还用于:
对所述脱敏后的数据进行数据标识处理,得到标识后的脱敏数据;
将所述标识后的脱敏数据存储在所述目标数据库中。
第三方面,本发明实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行数据脱敏方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行数据脱敏方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种数据脱敏方法的流程示意图;
图3为本发明实施例提供的一种数据库认证的示意图;
图4为本发明实施例提供的一种配置脱敏规则的示意图;
图5为本发明实施例提供的一种定义算法的流程示意图;
图6为本发明实施例提供的一种脱敏计算模块的示意图;
图7为本发明实施例提供的一种数据脱敏装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以包括脱敏系统101和外部数据源102。其中,脱敏系统101可以包括配置管理模块1011、任务创建模块1012、任务审批及调度模块1013和脱敏计算模块1014。
其中,配置管理模块1011,包括配置用于敏感数据识别与分区的数据字典管理模块;还包括用于管理敏感数据类别且可对敏感数据类别进行添加、修改,并为数据库脱敏系统定义和配置敏感数据的敏感类型管理模块;还包括针对不同的数据特征而构造的脱敏算法,依据具体需求设定脱敏算法参数并上传脱敏算法包的脱敏算法管理模块;以及还包括敏感数据与对应的算法关联结合,针对不同业务场景生成不同的脱敏规则的脱敏规则模块。
任务创建模块1012,包括配置数据源连接信息、规则并测试数据库连通性的数据源配置模块;以及还包括为脱敏数据匹配系统自定义脱敏规则的规则匹配模块。
任务审批及调度模块1013,包括脱敏任务审批、脱敏任务调度。其中,脱敏任务审批用于对数据连接安全性、数据脱敏合规性的判断与管理;脱敏任务调度用于设置任务优先级、调整任务优先级、分配任务线程,设置并执行脱敏任务调度机制。
脱敏计算模块1014,用于数据脱敏过程中解析任务配置信息,读取相应数据源中待脱敏数据,解析系统中匹配的脱敏规则,调用相应的脱敏算法对敏感数据进行脱敏计算,将数据写入对应的目标数据库,并实时游标记当前脱敏进度用于处理数据脱敏的断点情况下的任务接续,以及用于数据脱敏完成后生成脱敏报告。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种数据脱敏方法的流程,该流程可以由数据脱敏装置执行。
如图2所示,该流程具体包括:
步骤201,在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据。
步骤202,基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的数据脱敏任务。
步骤203,在确定所述数据脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据。
步骤204,将所述脱敏后的数据存储在目标数据库中。
上述步骤201和步骤202中,在对待脱敏数据进行脱敏处理之前,还需要对请求数据脱敏的用户的身份信息进行验证,以便判断用户是否具有访问待脱敏数据库的权限,如此可以确保待脱敏数据库中待脱敏数据的安全隐私,并可以避免发生数据泄露的风险。首先获取用户发送的数据脱敏请求,该数据脱敏请求包括待脱敏数据库的标识和用户的身份信息。再基于待脱敏数据库的标识确定出对应的待脱敏数据库,并对用户的身份信息进行验证,确定用户是否具有访问待脱敏数据库的权限。然后在确定用户具有访问待脱敏数据库的权限时,从待脱敏数据库中获取待脱敏数据。之后根据待脱敏数据,选取出敏感字段,基于敏感字段对应的分区规则,从敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出敏感字段对应的脱敏规则,并基于敏感字段、敏感字段对应的敏感数据的脱敏分区和针对敏感字段的脱敏规则(包括敏感字段对应的分区规则、脱敏算法等),生成待脱敏数据的数据脱敏任务。
具体地,本发明实施例在具体实施过程中,主要采用多层安全验证程序对用户的访问权限、用户请求的数据脱敏任务进行验证,以防止数据脱敏过程中数据的泄露,从而可以确保数据脱敏的安全性。其中,多层安全验证程序可以分为登录方式验证、数据库认证、数据脱敏任务审批。比如以LDAP(Lightweight Directory Access Protocol,轻量级目录访问协议)用户为例,身份认证交由使用方控制,以便增加数据脱敏的隐私性。示例性地,图3为本发明实施例的一种数据库认证的示意图。如图3所示,用户在创建数据脱敏任务时,需要配置数据库连接信息,并在配置管理员系统提前上传keytab文件,以便与用户进行绑定,然后根据用户绑定的相应的认证文件对用户需要访问的数据库进行数据库认证,在数据库认证通过后用户才能获取授权,以便用户基于待脱敏数据的敏感字段和针对敏感字段的脱敏规则创建数据脱敏任务。需要说明的是,本发明实施例对数据库的认证方式不作限制,在实际的不同应用场景中,本发明的技术方案也支持不同集群的数据库认证。当然,用户也可以不在获取待脱敏数据后才创建数据脱敏任务,可以根据自己的需求提前创建数据脱敏数据任务,在创建好数据脱敏任务后再去请求连接数据库。
此外,本发明实施例的数据脱敏系统是数据库到数据库的脱敏方式,主要针对Hive等非关系型数据库,涉及的脱敏数据量大、数据类型多。数据脱敏过程中通过配置及认证信息连接数据库,并在读写数据之前加数据库识别、表名称区分等方式,可以保证数据脱敏时原有数据不被修改,脱敏后数据表携带用户给定的标识,如此可以减少流程化地脱敏过程中用户由于误操作导致数据的损失。
另外,在生成待脱敏数据的数据脱敏任务之前,还需要为敏感字段设置对应的脱敏规则。具体地,获取样本数据,该样本数据包括敏感字段和敏感字段对应的敏感数据,在确定敏感字段对应的敏感数据为不规律数据时,对敏感字段对应的敏感数据进行拆分处理,得到拆分后的敏感数据,并将拆分后的敏感数据与数据字典进行匹配处理,确定出敏感字段的多个分区,并可以为该敏感字段设置对应的多个脱敏规则,将敏感字段、脱敏分区(多个分区中任一分区或多个分区中任意组合(比如两个分区组合或者三个分区组合等))、多个脱敏规则进行关联,以便用户在创建脱敏任务时,根据选取出的敏感字段对应的脱敏规则,同时确定出脱敏分区,则可以调用敏感字段对应的脱敏规则中的脱敏算法对脱敏分区对应的敏感数据进行脱敏处理。在确定敏感字段对应的敏感数据为规律数据时,则对敏感字段对应的敏感数据进行拆分处理,得到敏感字段的多个分区,并可以为该敏感字段设置对应的多个脱敏规则,将敏感字段、脱敏分区(多个分区中任一分区或多个分区中任意组合(比如两个分区组合或者三个分区组合等))、多个脱敏规则进行关联,以便用户在创建脱敏任务时根据选取出的敏感字段对应的脱敏规则,同时确定出脱敏分区,则可以调用敏感字段对应的脱敏规则中的脱敏算法对脱敏分区对应的敏感数据进行脱敏处理。如此可以使得脱敏方式更加多样化、精细化,并可以提高数据脱敏方式的灵活性,以便满足不同的数据脱敏需求,从而可以避免单一的脱敏方式带来的脱敏安全问题。示例性,图4为本发明实施例的一种配置脱敏规则的示意图。如图4所示,用户可以定义数据脱敏方法,定义敏感类型,定义数据字典,通过脱敏规则关联脱敏算法与敏感类型。即,用户可以根据数据的类型特征,指定数据分区样式与规则,并以数据字典或间隔符或长度匹配数据,对数据进行分段拆分,实现数据分区和数据初始校验的目的。也就是,基于数据字典确定出针对敏感字段的多个分区类型,并为多个分区类型中每一分区类型配置对应的多个脱敏规则,以便精准匹配出待脱敏数据中的敏感数据,从而可以输出预定形式的脱敏数据。
比如,敏感字段为手机号码,则本领域技术人员应当理解,手机号码一般为固定的11位,比如123XXXXXXXX,因此手机号码为规律数据,即为固定数据,可以为手机号码设置对应的多个脱敏规则,并可以将手机号码切分为多个分区,比如将手机号码切分为3-4-4,将前3位或中间4位或后4位进行替换或掩码或加密(比如哈希计算等)或无效化(比如用特殊符号代替等)等脱敏处理,或者将前7位(前3位和中间4位组合作为脱敏分区)或后8位(中间4位和最后4位组合作为脱敏分区)进行替换或掩码或加密或无效化等脱敏处理,或者将前3位和最后4位作为脱敏分区,都进行替换或掩码或加密或无效化等脱敏处理,在实际应用场景中本发明实施例对此并不作限制。当然也可以将手机号码切分为3-5-3、4-4-3、3-8等进行脱敏处理,在实际应用场景中本发明实施例对此并不作限制。此外,比如敏感字段为姓名,对于姓名,本领域技术人员应当理解,姓名是不规律数据,即是不固定的数据,可以包括两个字或三个字或四个字或五个字等,其中姓可以包括单字姓、复姓或多字姓等,比如张XX或上官X等。对于张X,将其拆分为“张”、“X”和“X”,将拆分后的“张”、“X”和“X”与数据字典(比如数据字典存储有姓:张、上官或地址:XX省(市)等)进行匹配,则可以匹配出“张”,或者将上官X拆分为“上”、“官”和“X”,将拆分后的“上”、“官”和“X”与数据字典进行匹配,则查询不到“上”这个姓,因此就会将上官X拆分为“上官”和“X”,并将拆分后的“上官”和“X”与数据字典进行匹配,则可以匹配出“上官”。如此敏感字段“姓名”可以划分两个分区,即姓分区和名分区,针对姓分区对应的敏感数据,可以采用对姓分区对应的敏感数据进行替换或掩码或加密或无效化等脱敏处理,或者针对名分区对应的敏感数据,可以采用对名分区对应的敏感数据进行替换或掩码或加密或无效化等脱敏处理,当然也可以对姓分区对应的敏感数据和名分区对应的敏感数据都进行替换或掩码或加密或无效化等脱敏处理。此外,多字姓(比如结合父辈的姓组合的姓或者少数民族的姓)等也可以采用类似的方法进行拆分处理,并将拆分后的数据与数据字典进行匹配,以便确定出对应的多字姓等。在实际应用场景中本发明实施例对此并不作限制。需要说明的是,针对不固定的地址、座机区号等也可以采用本发明实施例的技术方案进行数据脱敏处理。
上述步骤203中,在确定管理员对上报的数据脱敏任务进行审核通过后,即确认上报的数据脱敏任务符合设定的审核条件后,对待脱敏数据的数据脱敏任务进行设置任务优先级,当然也可以调整任务优先级,并为待脱敏数据的数据脱敏任务分配对应的脱敏处理线程。若确定敏感字段对应的敏感数据为不规律数据,则将敏感字段对应的敏感数据进行拆分处理后,得到拆分后的数据,并将拆分后的数据与数据字典进行匹配,确定出敏感数据的多个分区,并基于数据脱敏任务从多个分区中确定出第一脱敏分区,执行脱敏处理线程调用敏感字段对应的脱敏规则中的脱敏算法对第一脱敏分区对应的敏感数据进行脱敏处理。若确定敏感字段对应的敏感数据为规律数据,则基于数据脱敏任务确定出第二脱敏分区,并执行脱敏处理线程调用敏感字段对应的脱敏规则中的脱敏算法对第二脱敏分区对应的敏感数据进行脱敏处理。如此可以准确及时地对敏感数据进行处理,从而可以提高数据脱敏的效率,并可以提高数据脱敏方式的灵活性。其中,第一脱敏分区、第二脱敏分区均可以为多个分区中任一分区或多个分区中任意组合(比如两个分区组合或者三个分区组合等),具体不作限制。
其中,用户可以根据自己的需求对脱敏算法进行更新,如此可以提高脱敏算法的多样性、灵活性,从而可以提高数据脱敏方式的灵活性,并可以避免存在恶意用户破解脱敏算法导致数据泄露的风险,有助于提高数据脱敏的安全性。首先接收用户发送的脱敏算法更新指令,该脱敏算法更新指令用于指示更新敏感字段对应的旧版脱敏算法,并确定敏感字段对应的旧版脱敏算法是否处于数据脱敏任务调用中,若敏感字段对应的旧版脱敏算法未处于数据脱敏任务调用中,则根据脱敏算法更新指令将敏感字段对应的旧版脱敏算法更新为新版脱敏算法,否则在确定旧版脱敏算法执行完敏感字段对应的数据脱敏任务后,将旧版脱敏算法更新为新版脱敏算法。此外,在确定敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或敏感字段对应的旧版脱敏算法更新为新版脱敏算法后,若出现新的数据脱敏任务,则可以调用新版脱敏算法对新的数据脱敏任务进行处理,以便可以及时地对脱敏算法进行切换,从而有助于提高脱敏算法的灵活性。具体地,在对脱敏算法进行更新时,旧版本脱敏算法正被用于数据脱敏任务中,新版本脱敏算法上传后与旧版本脱敏算法同时存在系统中。自脱敏算法更新的时间节点后,系统内新建的脱敏规则自动升级为最新脱敏算法,新的任务线程调用新版本脱敏算法。此外,在调用脱敏算法包时,给每一个类分配一个classloader。当脱敏算法升级时,找到对应的classloader,判断java堆中是否存在该类实例(即类对应旧版算法是否被任务占用),直到关联该脱敏算法的所有字段是否脱敏完成,在确定该脱敏算法的所有字段脱敏完成后,卸载脱敏算法包中算法class的classloader。同时,自脱敏算法更新的时间节点后的数据脱敏任务自动分配newclassloader。
示例性地,图5为本发明实施例的一种定义算法的流程示意图。如图5所示,该流程包括以下步骤:
步骤501,定义算法名。
定义脱敏算法的算法名。
步骤502,绑定对应的主函数名。
为定义的脱敏算法名绑定对应的主函数名。
步骤503,配置参数和入参顺序。
为定义的脱敏算法名配置对应的算法参数以及入参顺序等。
步骤504,上传对应的算法jar包。
为脱敏算法配置上传路径,并按照该上传路径将配置好的脱敏算法jar包进行上传。
步骤505,服务器指定单元存储。
将配置好的脱敏算法jar包上传至脱敏服务器的指定单元进行存储。
进一步地,图6为本发明实施例的一种脱敏计算模块的示意图。其中,脱敏计算模块主要包括匹配规则、线程分配、调用算法三个阶段。具体地,可以按照图6所示的流程对待脱敏数据进行数据脱敏处理。其中,上述已经对待脱敏数据进行数据脱敏处理过程中的匹配脱敏规则、线程分配、调用算法进行了介绍,在此不再赘述。
下面对数据脱敏任务在被分配任务线程后的脱敏计算过程进行具体介绍。具体地,在脱敏系统对待脱敏数据对应的数据脱敏任务进行分配任务线程后,数据脱敏任务进入执行状态。在数据脱敏任务执行过程中,脱敏计算模块连接数据库读取待脱敏数据,并分解数据脱敏任务配置时选定的脱敏规则信息,利用关联的敏感类型对待脱敏数据进行甄别和分解。再根据关联的脱敏方法的参数定义,通过信息标识将待脱敏数据插入到相应的传参数组之中。之后读取配置目录下的相关配置文件,获取脱敏算法包的指定路径,加载对应的脱敏算法,并调用对应的执行方法名执行脱敏算法,经过计算就可以得到脱敏后的数据,最后将脱敏后的数据写入目标数据库。
上述步骤204中,在得到脱敏后的数据后,对脱敏后的数据进行数据标识处理,得到标识后的脱敏数据,并将标识后的脱敏数据存储在目标数据库中,如此可以便于后续用户可以准确及时地查找对应的脱敏数据,并可以为用户根据脱敏数据的标识在数据脱敏断点的情况下能够及时地继续进行数据脱敏处理提供支持。此外,在脱敏完成后会生成数据脱敏报告,该数据脱敏报告主要记录待脱敏数据中哪些字段进行脱敏处理、对应的敏感字段具体采用什么样的脱敏方法进行脱敏处理、数据脱敏耗费时间、脱敏数据数量、脱敏失败数据数量、脱敏成功率等。
上述实施例表明,通过对用户访问待脱敏数据库的权限进行验证,可以确保待脱敏数据库中数据的安全隐私,并可以避免数据的泄露。再从敏感字段对应的多个脱敏规则中确定出脱敏规则,如此可以使得脱敏方式更加多样化、精细化,并可以提高数据脱敏方式的灵活性,以便满足不同的数据脱敏需求,从而可以避免单一的脱敏方式带来的脱敏安全问题。此外,在确定出敏感字段对应的脱敏规则后,还需将待脱敏数据的数据脱敏任务进行上报,以便审核人员在确定用户的数据脱敏任务符合设定审核条件时,可以根据敏感字段的脱敏规则对待脱敏数据中敏感字段对应的敏感数据进行脱敏处理,如此可以进一步确保数据脱敏过程中的安全性,从而可以防止数据脱敏过程中发生数据泄露的风险,进而可以解决现有技术中存在传统脱敏方法方式单一、安全维度不足等问题。
基于相同的技术构思,图7示例性的示出了本发明实施例提供的一种数据脱敏装置,该装置可以执行数据脱敏方法的流程。
如图7所示,该装置包括:
获取单元701,用于在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据;
处理单元702,用于基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的数据脱敏任务;在确定所述数据脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据;将所述脱敏后的数据存储在目标数据库中。
可选地,所述处理单元702具体用于:
获取用户发送的数据脱敏请求,所述数据脱敏请求包括所述待脱敏数据库的标识和所述用户的身份信息;
基于所述待脱敏数据库的标识确定出对应的待脱敏数据库,并对所述用户的身份信息进行验证,确定所述用户是否具有访问所述待脱敏数据库的权限;
若是,则从所述待脱敏数据库中获取所述待脱敏数据。
可选地,所述处理单元702具体用于:
根据所述待脱敏数据,选取出所述敏感字段;
基于所述敏感字段对应的分区规则,从所述敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出所述敏感字段对应的脱敏规则。
可选地,所述处理单元702具体用于:
若确定所述敏感字段对应的敏感数据为不规律数据,则将所述敏感字段对应的敏感数据与数据字典进行匹配,确定出所述敏感数据的多个分区,并基于所述数据脱敏任务从所述多个分区中确定出第一脱敏分区,调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第一脱敏分区对应的敏感数据进行脱敏处理;
若确定所述敏感字段对应的敏感数据为规律数据,则基于所述数据脱敏任务确定出第二脱敏分区,并调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第二脱敏分区对应的敏感数据进行脱敏处理。
可选地,所述处理单元702还用于:
接收用户发送的脱敏算法更新指令,所述脱敏算法更新指令用于指示更新所述敏感字段对应的旧版脱敏算法;
确定所述敏感字段对应的旧版脱敏算法是否处于数据脱敏任务调用中;
若否,则根据所述脱敏算法更新指令将所述敏感字段对应的旧版脱敏算法更新为新版脱敏算法,否则在确定所述旧版脱敏算法执行完所述敏感字段对应的数据脱敏任务后,将所述旧版脱敏算法更新为所述新版脱敏算法。
可选地,所述处理单元702还用于:
在确定所述敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或所述敏感字段对应的旧版脱敏算法更新为所述新版脱敏算法后,若出现新的数据脱敏任务,则调用所述新版脱敏算法对所述新的数据脱敏任务进行处理。
可选地,所述处理单元702还用于:
对所述脱敏后的数据进行数据标识处理,得到标识后的脱敏数据;
将所述标识后的脱敏数据存储在所述目标数据库中。
基于相同的技术构思,本发明实施例提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行数据脱敏方法。
基于相同的技术构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行数据脱敏方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据脱敏方法,其特征在于,包括:
在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据;
基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的数据脱敏任务;
在确定所述数据脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据;
将所述脱敏后的数据存储在目标数据库中。
2.如权利要求1所述的方法,其特征在于,所述在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据,包括:
获取用户发送的数据脱敏请求,所述数据脱敏请求包括所述待脱敏数据库的标识和所述用户的身份信息;
基于所述待脱敏数据库的标识确定出对应的待脱敏数据库,并对所述用户的身份信息进行验证,确定所述用户是否具有访问所述待脱敏数据库的权限;
若是,则从所述待脱敏数据库中获取所述待脱敏数据。
3.如权利要求1所述的方法,其特征在于,所述基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,包括:
根据所述待脱敏数据,选取出所述敏感字段;
基于所述敏感字段对应的分区规则,从所述敏感字段对应的敏感数据的多个分区中选取出脱敏分区,并确定出所述敏感字段对应的脱敏规则。
4.如权利要求1所述的方法,其特征在于,所述根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,包括:
若确定所述敏感字段对应的敏感数据为不规律数据,则将所述敏感字段对应的敏感数据与数据字典进行匹配,确定出所述敏感数据的多个分区,并基于所述数据脱敏任务从所述多个分区中确定出第一脱敏分区,调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第一脱敏分区对应的敏感数据进行脱敏处理;
若确定所述敏感字段对应的敏感数据为规律数据,则基于所述数据脱敏任务确定出第二脱敏分区,并调用所述敏感字段对应的脱敏规则中的脱敏算法对所述第二脱敏分区对应的敏感数据进行脱敏处理。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
接收用户发送的脱敏算法更新指令,所述脱敏算法更新指令用于指示更新所述敏感字段对应的旧版脱敏算法;
确定所述敏感字段对应的旧版脱敏算法是否处于数据脱敏任务调用中;
若否,则根据所述脱敏算法更新指令将所述敏感字段对应的旧版脱敏算法更新为新版脱敏算法,否则在确定所述旧版脱敏算法执行完所述敏感字段对应的数据脱敏任务后,将所述旧版脱敏算法更新为所述新版脱敏算法。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
在确定所述敏感字段对应的旧版脱敏算法处于数据脱敏任务调用中或所述敏感字段对应的旧版脱敏算法更新为所述新版脱敏算法后,若出现新的数据脱敏任务,则调用所述新版脱敏算法对所述新的数据脱敏任务进行处理。
7.如权利要求1至6任一项所述的方法,其特征在于,所述将所述脱敏后的数据存储在目标数据库中,包括:
对所述脱敏后的数据进行数据标识处理,得到标识后的脱敏数据;
将所述标识后的脱敏数据存储在所述目标数据库中。
8.一种数据脱敏装置,其特征在于,包括:
获取单元,用于在确定用户具有访问待脱敏数据库的权限时,从所述待脱敏数据库中获取待脱敏数据;
处理单元,用于基于所述待脱敏数据的敏感字段和针对所述敏感字段的脱敏规则,生成所述待脱敏数据的数据脱敏任务;在确定所述数据脱敏任务符合设定审核条件后,根据所述脱敏规则对所述待脱敏数据中所述敏感字段对应的敏感数据进行脱敏处理,得到脱敏后的数据;将所述脱敏后的数据存储在目标数据库中。
9.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1至7任一项所述的方法。
CN202011089982.8A 2020-10-13 2020-10-13 一种数据脱敏方法及装置 Pending CN114357498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011089982.8A CN114357498A (zh) 2020-10-13 2020-10-13 一种数据脱敏方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011089982.8A CN114357498A (zh) 2020-10-13 2020-10-13 一种数据脱敏方法及装置

Publications (1)

Publication Number Publication Date
CN114357498A true CN114357498A (zh) 2022-04-15

Family

ID=81090143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011089982.8A Pending CN114357498A (zh) 2020-10-13 2020-10-13 一种数据脱敏方法及装置

Country Status (1)

Country Link
CN (1) CN114357498A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080827A (zh) * 2022-07-01 2022-09-20 中银金融科技有限公司 一种敏感数据处理方法及装置
CN115952547A (zh) * 2023-02-15 2023-04-11 北京景安云信科技有限公司 基于协议分析的数据库脱敏装置及方法
CN116226908A (zh) * 2022-12-27 2023-06-06 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN117390658A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种数据安全引擎、数据安全访问系统和访问方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080827A (zh) * 2022-07-01 2022-09-20 中银金融科技有限公司 一种敏感数据处理方法及装置
CN115080827B (zh) * 2022-07-01 2024-05-24 中银金融科技有限公司 一种敏感数据处理方法及装置
CN116226908A (zh) * 2022-12-27 2023-06-06 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN116226908B (zh) * 2022-12-27 2024-03-29 北京市大数据中心 基于大数据的数据安全应急管理分析方法及系统
CN115952547A (zh) * 2023-02-15 2023-04-11 北京景安云信科技有限公司 基于协议分析的数据库脱敏装置及方法
CN115952547B (zh) * 2023-02-15 2024-04-19 北京景安云信科技有限公司 基于协议分析的数据库脱敏装置及方法
CN117390658A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种数据安全引擎、数据安全访问系统和访问方法
CN117390658B (zh) * 2023-12-13 2024-03-05 北京宇信科技集团股份有限公司 一种数据安全引擎、数据安全访问系统和访问方法

Similar Documents

Publication Publication Date Title
CN114357498A (zh) 一种数据脱敏方法及装置
JP7222036B2 (ja) モデルトレーニングシステムおよび方法および記憶媒体
CN108810006B (zh) 资源访问方法、装置、设备及存储介质
CN111478961B (zh) 多租户的服务调用方法及装置
US10749985B2 (en) Custom communication channels for application deployment
KR101273900B1 (ko) 애플리케이션 의존성 스토리지 제어
US8024564B2 (en) Automating configuration of software applications
CN107203715B (zh) 执行系统调用的方法及装置
CN110532025B (zh) 基于微服务架构的数据处理方法、装置、设备及存储介质
CN110008665B (zh) 一种区块链的权限控制方法及装置
CN104639650A (zh) 一种细粒度分布式接口访问控制方法及装置
CN113179271A (zh) 一种内网安全策略检测方法及装置
CN105678183B (zh) 一种智能终端的用户数据管理方法及装置
CN110138767B (zh) 事务请求的处理方法、装置、设备和存储介质
US11489844B2 (en) On-the-fly creation of transient least privileged roles for serverless functions
CN115208693B (zh) 一种基于微服务的安全访问控制方法及装置
CN113239386A (zh) Api权限控制方法及装置
CN113395271A (zh) 一种云计算平台中数据安全访问方法及云计算平台
CN111177703A (zh) 操作系统数据完整性的确定方法及装置
CN117494186A (zh) 一种基于Alluxio集群数据的权限管理方法、系统及电子设备
CN116522308A (zh) 数据库账号托管方法、装置、计算机设备及存储介质
CN109495432B (zh) 一种匿名账户的鉴权方法及服务器
JP6322967B2 (ja) データ保護装置、方法、および、プログラム
WO2018233638A1 (zh) Ai软件系统安全状态的确定方法及装置
US11983580B2 (en) Real-time modification of application programming interface behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination