CN110096897A

CN110096897A - 数据脱敏方法及装置、数据泄露源头定位方法及装置

Info

Publication number: CN110096897A
Application number: CN201910301089.8A
Authority: CN
Inventors: 庄子迪; 刘会议; 党美
Original assignee: Shandong Three Mdt Infotech Ltd
Current assignee: Shandong Three Mdt Infotech Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-08-06
Anticipated expiration: 2039-04-15
Also published as: CN110096897B

Abstract

本发明涉及数据脱敏方法及装置、数据泄露源头定位方法及装置，数据脱敏方法包括：确定脱敏项并定义脱敏母规则；为用户绑定唯一的规则变量；使用用户规则对原始数据集作脱敏处理。在数据溯源时，根据溯源数据集筛选原始数据集和用户规则集；抽取部分溯源数据集数据作为溯源样本集；调用用户规则集中的用户规则分别对溯源样本集作逆脱敏处理，得到各个用户规则对应的用户溯源集；将用户溯源集中的数据在原始数据集中进行匹配查询；根据匹配查询结果获取溯源数据集泄露源头。上述方法使用脱敏项作为区分不同用户的标记，具有隐蔽性且保持了数据的可用性，也实现了隐私数据的保护；同时在数据溯源时可快速定位数据泄露源头。

Description

数据脱敏方法及装置、数据泄露源头定位方法及装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种数据脱敏方法及装置、数据泄露源头定位方法及装置。

背景技术

在信息化社会，数据蕴含的价值已远远超过单个组织机构开发驾驭的能力，因此，将自身拥有的数据委托其他组织进行数据分析，或通过数据交易流转使数据发挥剩余价值，或在组织内部将数据共享到各个节点，成为充分挖掘数据价值的实践需求。然而在这些实践需求面前，有如下风险及担忧因素成为我们的掣肘：一、个人隐私数据泄露；二、数据流出后无法对泄露节点进行定位追责。

然而，现有技术中，没有一种较好的方法可以有效解决上述技术问题。因此，如何在使用数据时保护个人隐私数据，以及在数据流出后对泄露节点进行定位追责成为亟待解决的技术问题。

发明内容

本发明所要解决的技术问题是针对现有技术存在的问题，提供一种数据脱敏方法及装置、数据泄露源头定位方法及装置。

为解决上述技术问题，本发明实施例提供一种数据脱敏方法，包括：

确定原始数据集D的脱敏项和脱敏映射空间，定义规则变量和脱敏母规则；

为用户指定唯一的规则变量，将所述规则变量输入所述脱敏母规则，获得对应的用户规则，形成用户与用户规则的绑定关系并存储；

利用所述用户规则对所述原始数据集D进行脱敏处理，获得脱敏结果数据集；其中，所述脱敏映射空间为所述脱敏结果数据集中数据的取值域；

将所述脱敏结果数据集交付给所述用户。

为解决上述技术问题，本发明实施例还提供一种数据脱敏装置，包括：

定义模块，用于确定原始数据集D的脱敏项和脱敏映射空间，定义规则变量和脱敏母规则；

绑定模块，用于为用户指定唯一的规则变量，将所述规则变量输入所述脱敏母规则，获得对应的用户规则，形成用户与用户规则的绑定关系并存储；

第一处理模块，用于利用所述用户规则对所述原始数据集D进行脱敏处理，获得脱敏结果数据集；其中，所述脱敏映射空间为所述脱敏结果数据集中数据的取值域；

交付模块，用于将所述脱敏结果数据集交付给所述用户。

为解决上述技术问题，本发明实施例还提供一种数据脱敏装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案所述的数据脱敏方法。

本发明的有益效果是：本发明将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时可快速定位数据泄露源头。

为解决上述技术问题，本发明实施例还提供一种数据泄露源头定位方法，包括：筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述方案所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

抽取溯源数据集S中的部分数据作为溯源样本集S₀；

当所述脱敏母规则为可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述溯源样本集S₀作逆脱敏处理，得到各用户规则对应的用户溯源集；

将所述用户溯源集中的数据依次在所述原始数据集D中进行匹配查询，获取匹配查询结果；

根据所述匹配查询结果确定验证通过的用户规则，从而判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头。

为解决上述技术问题，本发明实施例还提供一种数据泄露源头定位装置，包括：

获取模块，用于筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述方案所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集，并确定所述用户规则所对应的脱敏母规则的类型；

抽样模块，用于抽取溯源数据集S中的部分数据作为溯源样本集S₀；

第二处理模块，当所述脱敏母规则为可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述溯源样本集S₀作逆脱敏处理，得到各用户规则对应的用户溯源集，并调用匹配模块；

当所述脱敏母规则为不可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述原始数据集D作脱敏处理，得到各个用户规则对应的用户溯源集，并调用匹配模块；

当所述脱敏母规则为聚合型的不可逆脱敏逻辑时，直接调用匹配模块；

匹配模块，用于当所述脱敏母规则为可逆脱敏逻辑时，将所述用户溯源集中的数据依次在所述原始数据集D中进行匹配查询，获得匹配查询结果；

当所述脱敏母规则为不可逆脱敏逻辑时，将所述用户溯源集中的数据依次在所述溯源数据集S中进行匹配查询，获得匹配查询结果；

当所述脱敏母规则为聚合型的不可逆脱敏逻辑时，直接识别所述溯源样本集S₀匹配的用户规则，所述匹配的用户规则即验证通过的用户规则；

判定模块，用于根据所述匹配查询结果确定验证通过的用户规则，从而判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头；

其中，所述聚合型的含义，指该类型脱敏母规则下的不同用户规则，将把原始数据集映射至脱敏映射空间中相对聚集且易于分辨的不相交子集。

为解决上述技术问题，本发明实施例还提供一种数据泄露源头定位装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案所述的数据泄露源头定位方法。

本发明的有益效果是：本发明将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时，根据溯源数据集筛选原始数据集和用户规则集；抽取部分溯源数据集数据作为溯源样本集；调用用户规则集中的用户规则分别对溯源样本集作逆脱敏处理，得到各个用户规则对应的用户溯源集；将用户溯源集中的数据在原始数据集中进行匹配查询；根据匹配查询结果获取溯源数据集泄露源头，实现快速定位数据泄露源头。

附图说明

图1为本发明实施例提供的数据脱敏方法的示意性流程图；

图2为本发明一实施例提供的数据泄露源头定位方法的示意性流程图

图3为本发明另一实施例提供的数据泄露源头定位方法示意性流程图；

图4为本发明另一实施例提供的数据泄露源头定位方法示意性流程图；

图5为本发明实施例提供的数据脱敏装置示意性结构框图；

图6为本发明实施例提供的数据泄露源头定位装置示意性结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例中，就溯源需求而言，数据权益人将其数据集交付给若干不同对象主体，当该数据集发生数据泄露时，数据权益人希望能确定以及证明数据是由哪个对象主体泄露；就交付数据集而言，原始数据集包括可脱敏项，可脱敏项数据均可改动，非脱敏项数据不允许任何改动；就溯源场景而言，发现泄露的数据集具有一定的规模，且数据集流通过程中未经任何篡改，即原始数据集或某一交付数据集的数据单元，将完整而原封不动地出现在泄露数据集中。

本发明实施例将以数据库为数据集的形态进行解释描述，数据集的形态还可以是其他结构化的数据集。

下面对本发明实施例涉及的以下概念进行简要介绍。

脱敏项：与个体身份、隐私信息相关的数据项。该类信息对于数据的统计分析以及使用没有用处，或者不需要被精确保留。进一步地说，脱敏项是为了保护个体完整社会身份信息不被非法滥用，而“应当”被模糊化、屏蔽、替换处理的数据项。

未脱敏数据：脱敏项中的原始数据。

脱敏结果数据：脱敏项中经过脱敏后的数据。

脱敏映射空间：脱敏结果数据的取值域。

脱敏母规则：将待定的规则变量作为输入的脱敏逻辑。

脱敏子规则：指定了规则变量取值的脱敏母规则；是脱敏母规则的具体实现。与规则变量取值一一对应。

规则变量：将不同的规则变量输入脱敏母规则，会得到不同的脱敏子规则。在此，称“两种规则不同”，当且仅当这两种规则分别应用到任何一种可能的“未脱敏数据”输入，映射结果将是两种不同的“脱敏结果数据”输出。

规则空间：对于某一脱敏母规则，其所涵盖的一切脱敏子规则的集合，称为该脱敏母规则的规则空间。

规则空间容量：即对于某一脱敏母规则，其规则空间所含的子规则数量；由于脱敏子规则由规则变量唯一决定，规则空间容量也即等于规则变量可能的不同输入值的数量。

用户规则：对于特定的数据交付对象(称为一个“用户”)，使用规则空间中特定脱敏子规则执行脱敏后交付；对于不同的用户，使用规则空间中不同的脱敏子规则——这种依用户身份不同而不同、与用户身份绑定的脱敏规则，称为用户规则。

溯源数据集：被发现非法泄露流通的数据集。可能是原始数据集的一部分或全部数据，也可能是曾交付给某一用户的一部分或全部数据。需要依靠该数据集本身和已有信息，判断该数据集的泄露源头。

图1为本发明实施例提供的数据脱敏方法的示意性流程图。如图1所示，该方法包括：

S110，确定原始数据集D的脱敏项和脱敏映射空间，定义规则变量和脱敏母规则；

具体地，脱敏映射空间为脱敏结果数据集中数据的取值域；其可以是保持原始数据格式的数据全体，可以是保持原始数据格式的部分数据，也可以是和原始数据长度不同但格式相同，或者长度相同但格式不同、或长度格式都不同的某一数据集合。

下文中将均以“居民身份证号”为脱敏项，做举例说明：

脱敏映射空间可以是保持原始数据格式的数据全体，即“拥有居民身份证号特征(6位区位码+8位出生年月日+3位顺序码+1位校验码)的数据全体”；

可以是保持原始数据格式的部分数据，比如映射空间取“拥有居民身份证号特征、区位码以37开头且出生年份在1949-1999之间的数据集合”；

可以是和原始数据格式相同、长度不同的某一数据集合，比如说映射空间取“拥有居民身份证号格式，但顺序码由3位更改为4位的数据集合”；

可以是和原始数据长度相同但格式不同的某一数据集合，比如映射空间取“拥有居民身份证号长度，但除去开头6位区位码和末尾1位校验码，中间11位数字用‘*’代替8到11位的数据集合”；

可以是和原始数据长度和格式都不同的某一数据集合，比如映射空间取“将居民身份证号作为字符串，利用AES对称加密算法加密所得数据的16进制表示的数据集合”。

在所述实施例中，以“居民身份证号”为脱敏项，并以保持原始数据格式的数据全体作为脱敏映射空间。

对于脱敏母规则与规则变量，其中，脱敏母规则可以是不可逆脱敏逻辑，也可以是可逆脱敏逻辑。

不可逆脱敏逻辑，即在没有原始数据的情况下，无法由脱敏后的数据还原为原始数据，比如说“将身份证号中间11位数字用‘*’代替8到11位、且以脱敏位数作为规则变量”；

可逆脱敏逻辑，即在没有原始数据的情况下，能够由脱敏后的数据还原为原始数据，比如“将居民身份证号作为字符串，利用AES对称加密算法加密所得数据的16进制表示，且以所用密钥作为规则变量”——此时只需要使用相同密钥对脱敏后数据进行解密操作即可。

在所述实施例中，采用AES作为轮函数的FPE-FF1(保持格式的加密算法)加密身份证号的末4位作为脱敏母规则，轮函数AES的密钥作为规则变量。

应注意，脱敏母规则不宜频繁大幅变动，能预想到或需要支持更新的变动，应以规则变量的形式作体现。

在较长一段时间内，用户规则应使用同一个脱敏母规则，如此可以降低本发明实施例溯源流程的额外开销。

同时，就脱敏母规则与规则变量的定义而言要求：二者所生成的规则空间容量，应能够满足交付用户对象数目以及周期性更新用户规则等的要求和需要。

S120，为用户指定唯一的规则变量，将所述规则变量输入所述脱敏母规则，获得对应的用户规则，形成用户与用户规则的绑定关系并存储；

具体地，在将待交付数据集交付给用户前，为用户指定唯一的规则变量。

当母规则是不可逆脱敏逻辑时，比如“将身份证号中间11位数字用‘*’代替8到11位、且以脱敏位数作为规则变量”，为用户指定唯一的规则变量，即比如为用户A指定规则变量为8位，为用户B指定规则变量为9位…从而用户A绑定的用户规则即“将身份证号中间11位数字用‘*’代替8位”，而用户B绑定的用户规则为“将身份证号中间11位数字用‘*’代替9位”；

当母规则是可逆脱敏逻辑时，比如“将居民身份证号作为字符串，利用AES对称加密算法加密所得数据的16进制表示，且以所用密钥作为规则变量”，为用户指定唯一的规则变量，即为用户指定不同的密钥，比如用户A指定密钥K1，用户B指定密钥K2，于是用户A绑定的用户规则即“使用以K1为密钥的AES算法加密身份证号”，而用户B绑定的用户规则即“使用以K2为密钥的AES算法加密身份证号”。

在所述实施例中，为不同用户绑定不同的FPE-FF1轮函数密钥。用户A绑定密钥K1，用户B绑定密钥K2。

S130，利用所述用户规则对所述原始数据集D进行脱敏处理，获得脱敏结果数据集；

具体地，所述用户规则应用于指定脱敏项的处理以用于溯源，其他非指定脱敏项数据或者被原样拷贝，或者进行与溯源无关的脱敏处理而进入脱敏结果数据集。其中，与溯源无关的脱敏处理指不绑定用户、不含有特殊意义标记、仅实现隐私保护的普通脱敏。

在所述实施例中，假设原始数据中的某一行为“370102197312052787张三男…”，A的用户规则即使用密钥K1加密身份证号列的末4位“2787”，假设其得到结果“3519”，而同样对该条数据，B的用户规则使用密钥K2加密身份证号的末四位，会得到不一样的结果“6457”；并且在本实施例中，非指定脱敏项数据，即非“居民身份证列”的数据，如上述“张三男…”将被原样拷贝到脱敏结果数据集中，于是交付给A的数据集中该行对应的数据是“370102197312053519张三男…”，而交付给B的数据集中则是“370102197312056457张三男…”。

S140，将所述脱敏结果数据集交付给所述用户。

应注意，脱敏结果数据集中的脱敏项数据对所述用户应当是无用的，或脱敏结果数据集能够满足所述用户的使用需求。所述用户原封不动地使用该脱敏数据结果集，而不应需要且不应能够恢复所述脱敏项的真实数据。

在所述实施例中，假设交付用户将不需要对“居民身份证列”的数据做任何统计。

上述实施例中，将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时可快速定位数据泄露源头。

图2为本发明实施例提供的数据泄露源头定位方法的示意性流程图。如图2所示，该方法包括：

S210，筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述方案所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

具体地，筛选方式可以是根据数据本身所含有的内容特征或时间批次标识等。在该实施例中，假设根据数据集本身包含的时间批次标识，筛选定位到唯一一个原始数据集，并且该数据集曾仅交付过A和B两个用户。

S220，抽取溯源数据集S中的部分数据作为溯源样本集S₀；

具体地，可以抽取出溯源数据集一定比例或数目的数据作为溯源样本集。在该实施例中，抽取溯源数据集中的50条数据作为溯源样本集。

S230，当所述脱敏母规则为可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述溯源样本集S₀作逆脱敏处理，得到各用户规则对应的用户溯源集；

在所述实施例中，使用用户A的密钥K1对溯源样本集“居民身份证列”做以AES为轮函数的FPE-FF1解密，得到由50条逆脱敏数据构成的、用户A的用户溯源集；使用用户B的密钥K2对溯源样本集“居民身份证列”做以AES为轮函数的FPE-FF1解密，得到用户B的用户溯源集。

该实施例中，假定数据行“370102197312053519张三男…”包含在溯源样本集中，于是A的用户溯源集中将包含用K1解密其身份证号末4位“3519”所得数据行“370102197312052787张三男…”，而B的用户溯源集中则包含使用K2解密其身份证号末4位所得数据行“370102197312054630张三男…”。

S240，将所述用户溯源集中的数据依次在所述原始数据集D中进行匹配查询，获得匹配查询结果；

该实施例中，在原始数据集D中匹配依次查询用户A的用户溯源集中所含50条数据，与用户B的用户溯源集中所含50条数据。

需要说明的是，匹配成功的标准，应至少是“主键约束组合”完全匹配，即匹配成功的数据列的组合在数据集中不存在重复。或者最简单地，可以采用“全列数据匹配”作为匹配成功的标准。

继续前述假定，则需在原始数据集中查询A的用户溯源集中条目“370102197312052787张三男…”等50条，以及B的用户溯源集中条目“370102197312054630张三男…”等50条。

S250，根据所述匹配查询结果确定验证通过的用户规则，从而判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头。

该实施例中，采用“全列数据匹配”作为匹配成功的标准。匹配结果可能且仅可能出现以下几种情况之一(用户A和用户B身份对称，故对称的部分不作赘述)：

(1)用户A的用户溯源集50条数据全部匹配成功，也即意味着用户B的用户溯源集全部匹配失败。此时可判断，该数据集由用户A泄露，反之则该数据集由用户B泄露；

(2)用户A的用户溯源集50条中仅有一部分数据匹配成功，用户B的用户溯源集全部匹配失败。此时判断，该溯源数据集是用户A应当承担一部分泄露责任，另一部分数据，或者是其他来源或伪造的数据，或者是由数据权益人自身泄露的数据。

(3)用户A的用户溯源集50条中有一部分数据匹配成功，用户B的用户溯源集中也有一部分数据匹配成功，且数目总和等于50。此时说明，该溯源数据集是由用户A和用户B泄露的数据集混合而成的。

(4)用户A的用户溯源集50条中有一部分数据匹配成功，用户B的用户溯源集中也有一部分数据匹配成功，且数目总和不足50。此时说明，该溯源数据集是由用户A和用户B泄露的数据集混合而成，并且还有一部分是其他来源或伪造的数据，或者是由数据权益人自身泄露的数据。

(5)用户A的用户溯源集和用户B的用户溯源集全部匹配失败。若溯源样本集本身在原始数据集中全部匹配成功，那证明该溯源数据集是由数据权益人自身丢失；若溯源样本集本身在原始数据集也匹配失败，则可能是原始数据集筛选定位错误，也可能该溯源数据集并不是来源于数据权益人的数据。

需要说明的是，上述实施例中均以“泄露数据集流通过程中未经任何篡改，即原始数据集或某一交付数据集的数据单元，将完整而原封不动地出现在泄露数据集中”为前提。

接着前述假定，用户A的用户溯源集中条目“370102197312052787张三男…”将在原始数据集中匹配成功，而B的用户溯源集中条目“370102197312054630张三男…”将在原始数据集中匹配失败。

上述实施例中，将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时，根据溯源数据集筛选原始数据集和用户规则集；抽取部分溯源数据集数据作为溯源样本集；调用用户规则集中的用户规则分别对溯源样本集作逆脱敏处理，得到各个用户规则对应的用户溯源集；将用户溯源集中的数据在原始数据集中进行匹配查询；根据匹配查询结果获取溯源数据集泄露源头，实现快速定位数据泄露源头。该实施例中不需要对整个溯源数据集进行运算，只需在溯源数据集中适当选取较小比例条目的数据即可。

图3为本发明另一实施例提供的脱敏母规则为不可逆脱敏逻辑时，数据泄露源头定位方法的示意性流程图。如图3所示，该方法包括：

S310，筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述方案所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

S320，当所述脱敏母规则为不可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述原始数据集D作脱敏处理，得到各个用户规则对应的用户溯源集；

S330，将所述用户溯源集中的数据依次在所述溯源数据集S中进行匹配查询，获得匹配查询结果；

S340，根据所述匹配查询结果确定验证通过的用户规则，从而判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头。

需要说明的是，当脱敏母规则为不可逆脱敏逻辑时，其匹配查询逻辑与可逆母规则时的逻辑相反。具体地，当脱敏母规则是可逆脱敏逻辑时，是利用各用户规则分别处理溯源数据集，然后查询原始数据集；而当脱敏母规则为不可逆逻辑时，则是利用各用户规则分别处理原始数据集，然后查询溯源数据集。

上述实施例中，将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时，根据溯源数据集筛选原始数据集和用户规则集；调用用户规则集中的用户规则分别对原始数据集作脱敏处理，得到各个用户规则对应的用户溯源集；将用户溯源集中的数据在溯源数据集中进行匹配查询；根据匹配查询结果获取溯源数据集泄露源头，实现快速定位数据泄露源头。

图4为本发明另一实施例提供的脱敏母规则为不可逆脱敏逻辑的聚合型规则时数据泄露源头定位方法的示意性流程图。如图4所示，该方法包括：

S410，筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述方案所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

S420，抽取溯源数据集S中的部分数据作为溯源样本集S₀；

S430，当所述脱敏母规则为聚合型的不可逆脱敏逻辑时，直接识别所述溯源样本集S₀匹配的用户规则，从而判定所述溯源样本集S₀匹配的用户规则绑定的用户为所述溯源数据集泄露的源头。

其中，所述聚合型规则的含义，指该类型脱敏母规则下的不同用户规则，将把原始数据映射至脱敏映射空间中相对聚集从而易于分辨的不相交子集。即交付给用户A的数据集均具有特征a，而交付给用户B的数据集集中具有特征b,于是仅凭数据所聚合到的特征形式即可区分该数据集匹配的是用户A还是用户B。反之，若脱敏母规则为非聚合型的一般的不可逆脱敏母规则，则对原始数据使用用户A的用户规则映射得到的数据集会均匀分布在脱敏映射空间中，使用用户B的用户规则映射得到的数据集也会均匀分布在脱敏映射空间中，难以仅凭经处理的数据集特征区分用户A和用户B。

需要说明的是，聚合型的不可逆脱敏逻辑为不可逆逻辑的特殊情况，当脱敏母规则为不可逆脱敏逻辑时，都可以利用图3所示实施例进行处理。当脱敏母规则为聚合型的不可逆脱敏逻辑时，可以用图4所示实施例进行处理，以节省计算过程，提高数据泄露源头定位效率。

如“将身份证号中间11位数字用‘*’代替8到11位、且以脱敏位数作为规则变量”，用户A的规则为“将身份证号中间11位数字用‘*’代替8位”，而用户B的规则为“代替9位”，那么只需判断溯源样本集中数据‘*’代替了几位即可。

上述实施例中，将数据中的非统计字段作为脱敏项，对脱敏项进行模糊化或混淆化等脱敏处理，使用脱敏项作为区分不同用户的标记，一方面具有隐蔽性且保持了数据的可用性，另一方面也实现了隐私数据的保护；同时在数据溯源时，根据溯源数据集筛选原始数据集和用户规则集；抽取部分溯源数据集数据作为溯源样本集；如果脱敏母规则为不可逆脱敏逻辑的聚合型规则，直接识别所述溯源样本集S₀匹配的用户规则即可，从而判定所述溯源样本集S₀匹配的用户规则绑定的用户为所述溯源数据集泄露的源头，实现快速定位数据泄露源头。

上文结合图1至图4，详细描述了根据本发明实施例提供的数据脱敏方法以及数据泄露源头定位方法。下面结合图5和6，详细描述本发明实施例提供的数据脱敏装置和数据泄露源头定位装置。

如图5所示，本发明实施例还提供一种数据脱敏装置，包括：

交付模块，用于将所述脱敏结果数据集交付给所述用户。

如图6所示，本发明实施例还提供一种数据泄露源头定位装置，包括：

获取模块，用于筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照上述实施例提供的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

第二处理模块，当所述脱敏母规则为可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述溯源样本集S₀作逆脱敏处理，得到各用户规则对应的用户溯源集；

匹配模块，用于将所述用户溯源集中的数据依次在所述原始数据集D中进行匹配查询，获得匹配查询结果；

判定模块，用于根据所述匹配查询结果确定验证通过的用户规则，从而判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头。

优选地，本发明实施例还提供一种数据泄露源头定位装置，包括：

第二处理模块，当所述脱敏母规则为不可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述原始数据集D作脱敏处理，得到各个用户规则对应的用户溯源集；

匹配模块，用于将所述用户溯源集中的数据依次在所述溯源数据集S中进行匹配查询，获得匹配查询结果；

第二处理模块，当所述脱敏母规则为聚合型的不可逆脱敏逻辑时，直接调用匹配模块；

匹配模块，用于直接识别所述溯源样本集S₀匹配的用户规则，所述匹配的用户规则即验证通过的用户规则；

判定模块，用于判定所述验证通过的用户规则绑定的用户为所述溯源数据集泄露的源头；

本发明实施例还提供一种数据脱敏装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案所述的数据脱敏方法。

本发明实施例还提供一种数据泄露源头定位装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方案所述的数据泄露源头定位方法。

本发明实施例中，数据脱敏装置及数据泄露源头定位装置可实现上述实施例中对应方法所描述的全部功能，其具体实现方式和取得的对应效果与方法部分对应，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据脱敏方法，其特征在于，包括：

将所述脱敏结果数据集交付给所述用户。

2.根据权利要求1所述的方法，其特征在于，所述脱敏映射空间为以下情况中的任一种：

保持原始数据格式的数据全体；

或者，保持原始数据格式的部分数据，

或者，与原始数据长度不同但格式相同的数据集合；

或者，与原始数据长度相同但格式不同的数据集合；

或者，与原始数据长度和格式均不同的数据集合。

3.根据权利要求1或2所述的方法，其特征在于，所述脱敏母规则是不可逆脱敏逻辑，或者是可逆脱敏逻辑；

其中，所述不可逆脱敏逻辑，即在没有原始数据的情况下，无法由脱敏后的数据还原为原始数据；

所述可逆脱敏逻辑，即在没有原始数据的情况下，能够由脱敏后的数据还原为原始数据。

4.一种数据泄露源头定位方法，其特征在于，包括：

筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照权利要求1至3任一项所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集；并确定所述用户规则所对应的脱敏母规则的类型；

抽取溯源数据集S中的部分数据作为溯源样本集S₀；

5.根据权利要求4所述的方法，其特征在于，还包括：

当所述脱敏母规则为不可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述原始数据集D作脱敏处理，得到各个用户规则对应的用户溯源集；

将所述用户溯源集中的数据依次在所述溯源数据集S中进行匹配查询，获得匹配查询结果；

6.根据权利要求4所述的方法，其特征在于，还包括：

当所述脱敏母规则为聚合型的不可逆脱敏逻辑时，直接识别所述溯源样本集S₀匹配的用户规则，从而判定所述溯源样本集S₀匹配的用户规则绑定的用户为所述溯源数据集泄露的源头，其中，所述聚合型的含义，指该类型脱敏母规则下的不同用户规则，将原始数据集映射至脱敏映射空间中相对聚集且易于分辨的不相交子集。

7.一种数据脱敏装置，其特征在于，包括：

交付模块，用于将所述脱敏结果数据集交付给所述用户。

8.一种数据泄露源头定位装置，其特征在于，包括：

获取模块，用于筛选并获取溯源数据集S对应的原始数据集D，以及该原始数据集D按照权利要求1至3任一项所述的数据脱敏方法进行脱敏处理后交付的一个或多个用户对象所对应的用户规则构成的集合，将所述集合作为待验用户规则集，并确定所述用户规则所对应的脱敏母规则的类型；

第二处理模块，用于当所述脱敏母规则为可逆脱敏逻辑时，依次调用所述待验用户规则集中的用户规则，分别对所述溯源样本集S₀作逆脱敏处理，得到各用户规则对应的用户溯源集，并调用匹配模块；

9.一种数据脱敏装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述的数据脱敏方法。

10.一种数据泄露源头定位装置，包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求4至6任一项所述的数据泄露源头定位方法。