CN111813808A

CN111813808A - 一种大数据快速脱敏的方法及装置

Info

Publication number: CN111813808A
Application number: CN202010525129.XA
Authority: CN
Inventors: 赵川; 陈飞; 王国平; 赵莹
Original assignee: Yunnan Power Grid Co Ltd
Current assignee: Yunnan Power Grid Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-10-23

Abstract

本发明涉及一种大数据快速脱敏的方法及装置。本发明包括：使用AI算法使用Ai算法对数据进行自动识别，筛选出敏感信息区，并对敏感信息进行分类，对各类隐私数据实现自动脱敏;脱敏步骤包括：对隐私数据进行打标签，将数据进行分类；对需要进行脱敏的标签数据进行预处理，提取属于敏感数据的特征及数量，将特征数据使用神经网络算法，进行训练生成模型，然后再通过模型对数据进行自动扫描分析，识别出存在的敏感数据区以及敏感数据的类型；对不同类型的隐私数据进行移除或者脱敏。本发明能提供各类数据库数据转化的智能操作，实现了跨数据库的快速装载，实现了多数据拆分与数据整合操作，实现了业务及数据智能关联性分析。

Description

一种大数据快速脱敏的方法及装置

技术领域

本发明涉及一种大数据快速脱敏的方法及装置，属于大数据技术领域。

背景技术

伴随着互联网发展的迅猛发展和金融行业的持续进步，各类复杂的业务系统会产生大量的业务数据和用户数据，用户数据的安全性变的越来越重要，所以在测试环节和开发环节需要用到大量的生产数据区验证业务的可靠性和正确性，因此数据安全性就变的越来越重要。

因此数据从生产环境迁移到各类测试开发环境中需要制定完整的流程来符合安全要求、审计监管要求，主要是为了避免在数据传递转化过程中发生、损坏、泄露，带来严重的经济损失。

为了保证数据的安全性一般会使用一下一些常见的步骤去解决问题：

(1)通过数据库的基础功能完成全量或者增量部分的数据提取；

操作方式简单快捷可以直接获取；

确定：数据没有丝毫隐私可言，没有经过处理的数据DBA可以轻松获取泄露风险很大；

(2)数据移交测试部门和开发部门后进行脱敏和数据处理；

厂商人员省时省力，对第三方需要有完全信任；

如果第三方处理流程出现问题会存在严重的泄露风险；

第三发处理数据过程的水平良莠不齐，很多都是通过简单的数据处理方式对关键字段进行了模糊处理，如果多业务不熟悉会导致很多数据在脱敏后无法正常使用。

(3)通过ETL抽取数据的方式进行对关键字段的整理、合并、拆分等操作

对甲方数据管理人员要求较高，数据保密性好；

处理大量数据时会经常出现性能问题，有可能在处理百万数据过程中要出现以天为单位的处理时间。

发明内容

本发明提供了一种大数据快速脱敏的方法及装置，解决了数据从生产环境移植到测试环境和开发环境过程中的安全性，数据在迁移过程中只展示结构不展示数据；解决数据移植过程中性能问题保证百万级数据短时间窗口快速迁移完毕；解决了数据迁移过程中关键敏感字段的模糊化处理，保证关键字段数据的可用性和不可逆性；解决了数据迁移过程中的迁移量控制。

本发明的技术方案是：一种大数据快速脱敏的方法，包括：

使用AI算法对数据进行建模，通过训练的模型来自动进行数据表的扫描分析，找到存在的敏感数据区以及敏感数据类型，对各类隐私数据实现自动脱敏；

对隐私数据进行敏感匹配，定位具体属于敏感数据的特征及数量，在处理过程中自动处理各类错误信息；

批量对数据进行抽取，数据抽取后生产数据源能选择自动清空，只保证对新生成的数据源的可见性，抽取后的数据能放在数据缓冲区多次使用，对不可重复字段需求支持数据的二次清洗；

根据数据的隐私安全级别，内置了数据模拟规则AI引擎，同时支持手动的正则驱动引擎对数据规则进行定义；

用户可根据需求进行数据的抽取和选择，选择过程支持：数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。

进一步地，对各类隐私数据实现自动脱敏的具体步骤包括：

对隐私数据进行打标签，将数据进行分类；

对需要进行脱敏的标签数据进行预处理，提取属于敏感数据的特征及数量，将特征数据使用神经网络算法，进行训练生成模型，然后再通过模型对数据进行自动扫描分析，识别出存在的敏感数据区以及敏感数据的类型；

对不同类型的隐私数据进行移除或者脱敏；

针对不同的隐私数据泄露类型，采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。

一种大数据快速脱敏的装置，包括：

AI数据智能发现模块，用于使用AI算法对数据进行建模，通过训练的模型来自动进行数据表的扫描分析，找到存在的敏感数据区以及敏感数据类型，对各类隐私数据实现自动脱敏；

数据匹配识别模块，用于对隐私数据进行敏感匹配，定位具体属于敏感数据的特征及数量，在处理过程中自动处理各类错误信息；

批量高性能数据抽取模块，用于批量对数据进行抽取，数据抽取后生产数据源能选择自动清空，只保证对新生成的数据源的可见性，抽取后的数据能放在数据缓冲区多次使用，对不可重复字段需求支持数据的二次清洗；

AI数据漂白算法模块，用于根据数据的隐私安全级别，内置了数据模拟规则AI引擎，同时支持手动的正则驱动引擎对数据规则进行定义；

数据快速抽取装载模块，用于用户可根据需求进行数据的抽取和选择，选择过程支持：数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。

进一步地，所述AI数据智能发现模块还包括：

打标签模块，用于对隐私数据进行打标签，将数据进行分类；

识别模块，用于对需要进行脱敏的标签数据进行预处理，提取属于敏感数据的特征及数量，将特征数据使用神经网络算法，进行训练生成模型，然后再通过模型对数据进行自动扫描分析，识别出存在的敏感数据区以及敏感数据的类型；

脱敏模块，用于对不同类型的隐私数据进行移除或者脱敏；

衡量模块，用于针对不同的隐私数据泄露类型，采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。

本发明的有益效果是：

本发明帮助对数据敏感的企业及机构提供统一访问数据的方式，标准化数据脱敏的完整流程，在实施数据脱敏的过程中最大化的防止了私有化数据意外泄露的风险。

本发明主要是解决在数据脱敏过程中的数据保护问题，脱敏过程中大数据量的智能处理问题，最后帮助用户将数据对接到非生产环境中使用；

本发明能提供各类数据库数据转化的智能操作，实现了跨数据库的快速装载，实现了多数据拆分与数据整合操作，实现了业务及数据智能关联性分析。

附图说明

图1是根据示例性实施示出的实施流程图；

图2是示例性的示出了一种基本的流程图例；

图3是示例性的示出了一种脱敏前的实例表示图；

图4是示例性的示出了一种在实体序列化前对数据进行脱敏的具体流程图；

图5是示例性的示出了一种脱敏后的实例表示图。

具体实施方式

实施例1：一种大数据快速脱敏的方法，包括：

进一步地，对各类隐私数据实现自动脱敏的具体步骤包括：

对隐私数据进行打标签，将数据进行分类；

对不同类型的隐私数据进行移除或者脱敏；

一种大数据快速脱敏的装置，包括：

进一步地，所述AI数据智能发现模块还包括：

脱敏模块，用于对不同类型的隐私数据进行移除或者脱敏；

实施例2：如图1-5所示，一种大数据快速脱敏的方法，包括：

步骤一、AI数据智能发现：

用户的隐私数据保护和挖掘数据的价值是相互冲突的，彻底数据脱敏将会模糊所有的用户标识信息，使得数据的分析价值大大降低，但保留隐私数据信息又导致用户隐私泄露的风险无法控制。因此本数据脱敏设计的目的并不是使用算法将用户的隐私信息全部抹去，而是在可控数据泄露风险、可管理数据和可审计的前提下对用户隐私数据进行脱敏。

所以在想对隐私数据脱敏之前，我们需先识别出那些数据为敏感数据，以及敏感的严重程度，从而来决定对数据脱敏使用的算法和脱敏的程度。

进一步地，对各类隐私数据实现自动脱敏的具体步骤包括：

S1、对隐私数据进行打标签，将数据分为4类，分别为：

1.可识别列：能确切定位到某个人的列，例如：身份证号，地址，姓名等。

2.半标识列：需要多个列一起来定位识别到某个人，单一列是不能定位到个人，如生日，性别，年龄等

3.包含用户敏感信息的列，如交易金额，疾病或收入等。

4.其他不包含用户敏感信息的列；

S2、对需要进行脱敏的标签数据进行预处理，提取属于敏感数据的特征及数量，将特征数据使用神经网络算法，进行训练生成模型，然后再通过模型对数据进行自动扫描分析，识别出存在的敏感数据区以及敏感数据的类型，以便使用不同的算法对敏感数据进行脱敏；

S3、对不同类型的隐私数据进行移除或者脱敏使得攻击者无法直接标识用户。这里用到的脱敏算法有如下：

1.Hiding：将数据替换成一个随机的常量，常用作不需要该敏感字段时，如543000->0；

2.Hashing:将数据映射为一个hash值，常用作将不定长数据映射成定长的hash值，如：mysql→45639876553；

3.Permutation:将数据映射成另一个值，可以通过映射值找回原始值，并且支持聚合或者连接操作。Python→spefde；

4.Shift/Floor(偏移或取整)：通过随机移动数据的位置，来改变数据。Shift：为数据值增加一个固定的偏移量，隐藏数值部分特征，如：345—>1345，257—>1257，Floor：数据或日期取整，如：28—>20，20190506 12:30:14–>20190506；

5.Enumeration：将数据映射为新值，同时保持数据顺序。如5000→25000,400->20000；

6.Truncation：将数据尾部截断，只保留前半部分。023-555555→023；

7.Prefix-preserving:保持IP的前n位不变，混淆其他部分。10.199.90.105→10.199.32.12；

8.Mask(掩码屏蔽):数据长度不变，只保留部分数据信息，主要用在账户类数据的部分信息脱敏。如：123456789→123****89；

9.加密脱敏：线性散列算法：MD5,SHA1,HMAC；非对称性加密算法：RSA,DSA,ECC；对称性加密算法：AES,DES,3DES

S4、针对不同的隐私数据泄露类型，采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。

下面是用到的衡量隐私数据泄露的算法：

1、K-Anonymity(匿名算法)：要求对于任意一行数据，其所在的等价组(相等集)中的内纪录数量大于等于k，即针对大数据在进行链接攻击时，对于任意一条记录的攻击都，同时都有k-1条项目记录，这使得攻击者确定为确定用户隐私数据的概率为1/k,从而起到保护用户隐私的作用。对于K-Anonymity的数据集，攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。

2、L-Diversity：要求每一个等价组(相等集)的敏感属性至少有L个不同的值，l-diversity使得攻击者在确定等价组的基础上只有1/L的概率确认某用户的敏感信息。下面是l-diversity的定义：如果RT{A1，A2，…，An}满足k-匿名，且同一等价类中的记录至少有L个"较好表现"(Well-represented)的值，则称匿名数据表RT{A1,A2,...An}是L-多样性的。这里的"较好表现"有下面多种解释：

1.不可区分:同一等价组至少出现L个不相同的敏感属性值。

2.基于熵：同一相等集中敏感属性的信息熵Entropy(E)>logL。相同组E的敏感属性的信息熵定义为：Entropy(E)＝-∑_s∈Sp(E，s)logp(E，s)，这里的S为敏感属性值域，p(E,s)为敏感属性值s在相同组E中出现的概率。

3.递归：每个相同组都满足r_i＜c(r_l+r_l+1+…+r_m)。这里的m表表示相同组中不同敏感属性值的个数，r_i表示该相同组中第i(l≤i＜＜m)频繁的敏感属性值的个数。递归(c,l)-diversity保证了相同组中频率最高的敏感属性值出现的频率不会太高。L-Diversity只是用来衡量相等集的不同属性值数量，并没有衡量不同属性值的分布，所以其在衡量属性泄露风险上仍有不足之处。

3、T-Closeness：在l-diversity基础上，考虑到敏感属性的分布，要求如果一个相等组的敏感数据的分布尽量的接近敏感数据的全局分布。这样减弱半标识属性和特定敏感信息的联系，是的攻击者更难通过敏感信息的分布信息来推断出个人的敏感信息。

通过这3种算法来评估信息脱敏后信息的泄露风险，进而对脱敏算法进行优化，使得隐私数据泄露风险降低。

步骤二、数据匹配识别：

对隐私数据进行敏感匹配，定位具体属于敏感数据的特征及数量，在处理过程中自动处理各类错误信息；数据匹配脱敏过程支持多级处理，数据反清洗功彻底保证数据安全性，保证隐私数据的完整性能准确性。

步骤三、批量高性能数据抽取：

步骤四、AI数据漂白：

根据数据的隐私安全级别，内置了数据模拟规则AI引擎，同时支持手动的正则驱动引擎对数据规则进行定义：

无限接近真实数据模拟；

保证脱敏后业务数据的相关性；

保证脱敏后数据的非重复性和唯一性；

支持关键数据的多次转加密计算。

步骤五、转化数据快速抽取装载：

如图2示例性的示出了一种基本的流程图，此图中包含的数据迁移处理基本步骤为：

第一步：自动读取全库表结构信息，生成数据库关联的逻辑拓扑；

第二步：选取需要抽取的各个表中的字段数据，关联脱敏标识信息；

第三步：自动执行数据抽取任务进行漂白脱敏及漂白操作；

第四步：将预处理数据进行分库分表管理，用户根据使用需求进行自动抽取灌装操作，操作过程支持批量模式和单笔模式和各类复杂的组合操作

图3是示例性的示出了一种脱敏前的实例表示图；如图3中，打日志之前，获得脱敏的数据就两个步骤：[拿到要输入的数据(user实体)]→[进行序列化]，所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理，之后正常序列化；第二个方法就是在实体序列化的时候，对要脱敏的字段进行处理；图4是示例性的示出了一种在实体序列化前对数据进行脱敏的具体流程图；图5是示例性的示出了一种脱敏后的实例表示图。

一种大数据快速脱敏的装置，包括：

进一步地，所述AI数据智能发现模块还包括：

脱敏模块，用于对不同类型的隐私数据进行移除或者脱敏；

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种大数据快速脱敏的方法，其特征在于，包括：

2.根据权利要求1所述的大数据快速脱敏的方法，其特征在于，对各类隐私数据实现自动脱敏的具体步骤包括：

对隐私数据进行打标签，将数据进行分类；

对不同类型的隐私数据进行移除或者脱敏；

3.一种大数据快速脱敏的装置，其特征在于，包括：

4.根据权利要求3所述的大数据快速脱敏的装置，其特征在于，所述AI数据智能发现模块还包括：

脱敏模块，用于对不同类型的隐私数据进行移除或者脱敏；