CN111737750A

CN111737750A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN111737750A
Application number: CN202010622044.3A
Authority: CN
Inventors: 陈磊; 刘文懋; 张润滋; 吴子建; 薛见新
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-02
Anticipated expiration: 2040-06-30
Also published as: CN111737750B

Abstract

本发明公开了一种数据处理方法、装置、电子设备及存储介质，用以自动对脱敏数据进行风险评估，提高风险评估效率。本发明实施例对原始数据集中的数据进行脱敏处理，得到多个脱敏数据集；从脱敏数据集中选择目标属性类型对应的脱敏数据集，并确定至少一个目标数据集合；根据各目标数据集合对应的概率值以及危害值确定风险值，若风险值大于预设阈值，则调整脱敏处理的方式。本发明实施例从脱敏数据被利用的可能性以及利用脱敏数据成功还原业务数据所造成的危害两个方面进行风险评估，并且实现自动确定风险值，定量确定数据泄露风险高低；并根据确定出的风险值调整脱敏处理的方式，以降低数据泄露风险。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及数据安全领域，特别涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

企业单位保存的业务数据通常涉及企业机密，为保证数据安全，一般会对数据进行脱敏处理。

数据脱敏通常是指对业务数据进行失真变形处理，使脱敏后的数据与原始数据不同，从而实现对业务数据的保护，有效降低数据泄露的风险。但是，一般来说，对数据进行脱敏处理不一定能完全消除数据泄露的风险，也就是说，脱敏后的数据仍存在泄露风险。

目前，通常是通过安全专家对脱敏数据进行人工检查，根据经验进行风险评估，主观性较强，检查效率较低。

发明内容

本公开的目的是提供一种数据处理方法、装置、电子设备和存储介质，用于自动对脱敏数据集进行风险评估，提高风险评估效率，并根据评估结果调整脱敏处理方式从而降低数据泄露风险。

第一方面，本公开实施例提供了一种数据处理方法，包括：

对原始数据集中的数据进行脱敏处理，得到多个脱敏数据集；其中同一个所述脱敏数据集包括的脱敏数据对应同一个属性类型；

从所述脱敏数据集中选择目标属性类型对应的脱敏数据集，根据选择的所述脱敏数据集确定至少一个目标数据集合；其中每个目标数据集合包括至少一个脱敏数据集，且不同的目标数据集合包括的脱敏数据集不同；

针对任一目标数据集合，确定所述目标数据集合对应的概率值以及危害值；其中所述概率值表征利用目标数据集合还原原始数据集的概率，所述危害值表征利用目标数据集合成功还原原始数据集造成的危害程度；

根据各目标数据集合对应的所述概率值以及所述危害值确定风险值，若所述风险值大于预设阈值，则调整脱敏处理的方式，其中所述风险值表征泄露原始数据集的风险程度。

一种可选的实施方式为，针对任一目标数据集合，确定所述目标数据集合对应的概率值，包括：

针对任一目标数据集合，将所述目标数据集合的组合信息的信息熵值与最大信息熵值进行归一化处理，得到所述目标数据集合的脆弱性概率值，其中所述组合信息是由所述目标数据集合的脱敏数据集中同一对象的脱敏数据组成的；所述脆弱性概率值表征利用所述目标数据集合成功还原原始数据集中每个对象的概率；所述信息熵值表示所述目标数据集合的所有组合信息的多样性；所述最大信息熵值根据所述目标数据集合的对象个数确定；

通过所述目标数据集合包括的脱敏数据集的个数以及衰减函数，确定所述目标数据集合的利用概率值；其中所述利用概率值表征所述目标数据集合的泄露概率；

将所述目标数据集合的脆弱性概率值以及利用概率值的乘积作为所述目标数据集合的概率值。

一种可选的实施方式为，针对任一目标数据集合，确定所述目标数据集合对应的危害值，包括：

将所述目标属性类型对应的脱敏数据集的总个数与所述目标数据集合包括的脱敏数据集的个数的差值，作为利用所述目标数据集合成功还原原始数据集时泄露的数据的数量；

通过所述数量以及递增函数确定所述目标数据集合对应的危害值。

一种可选的实施方式为，该方法还包括：

若所述风险值大于预设阈值，则调整所述原始数据集进行脱敏处理后得到的多个脱敏数据集的访问权限等级。

一种可选的实施方式为，所述根据各目标数据集合对应的所述概率值以及所述危害值确定风险值，包括：

根据预设业务场景与风险类型的对应关系，确定所述原始数据集所属业务场景对应的目标风险类型；其中所述风险类型包括最高风险、最低风险、平均风险；

若所述目标风险类型为最高风险，将各目标数据集合对应的子风险值中最大值作为所述风险值；若所述目标风险类型为最低风险，将各目标数据集合对应的子风险值中最小值作为所述风险值；若所述目标风险类型为平均风险，将各目标数据集合对应的子风险值的平均值作为所述风险值；

其中，所述各目标数据集合对应的子风险值是根据各目标数据集合对应的所述概率值以及所述危害值确定的。

一种可选的实施方式为，所述从所述脱敏数据集中选择目标属性类型对应的脱敏数据集，包括：

若任一脱敏数据集对应的属性字段为目标属性类型对应的属性字段，则确定所述脱敏数据集为所述目标属性类型对应的脱敏数据集。

一种可选的实施方式为，所述根据选择的所述脱敏数据集确定至少一个目标数据集合，包括：

遍历不大于M的每个正整数，每遍历一个正整数，从所述目标属性类型对应的脱敏数据集中，确定所有包含所述正整数个脱敏数据集的目标数据集合；其中所述目标数据集合中包含的脱敏数据集不同；所述M为所述目标属性类型对应的脱敏数据集的总个数。

第二方面，本公开实施例还提供了一种数据处理装置，包括：

脱敏模块，用于对原始数据集中的数据进行脱敏处理，得到多个脱敏数据集；其中同一个所述脱敏数据集包括的脱敏数据对应同一个属性类型；

确定模块，用于从所述脱敏数据集中选择目标属性类型对应的脱敏数据集，根据选择的所述脱敏数据集确定至少一个目标数据集合；其中每个目标数据集合包括至少一个脱敏数据集，且不同的目标数据集合包括的脱敏数据集不同；

评估模块，用于针对任一目标数据集合，确定所述目标数据集合对应的概率值以及危害值；其中所述概率值表征利用目标数据集合还原原始数据集的概率，所述危害值表征利用目标数据集合成功还原原始数据集造成的危害程度；

处理模块，用于根据各目标数据集合对应的所述概率值以及所述危害值确定风险值，若所述风险值大于预设阈值，则调整脱敏处理的方式，其中所述风险值表征泄露原始数据集的风险程度。

一种可选的实施方式为，所述评估模块具体用于：

一种可选的实施方式为，所述处理模块还用于：

一种可选的实施方式为，所述处理模块具体用于：

一种可选的实施方式为，所述确定模块具体用于：

第三方面，本公开另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例第一方面任一数据处理方法。

第四方面，本公开另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本公开实施例第一方面任一数据处理方法。

本发明实施例提出一种数据处理方法，从脱敏数据被利用的可能性以及利用脱敏数据成功还原业务数据所造成的危害两个方面进行风险评估，并且实现自动确定风险值，定量确定数据泄露风险高低，提高风险评估效率；并根据确定出的风险值调整脱敏处理的方式，以降低数据泄露风险；还可以根据确定出的风险值确定数据泄露风险是否在安全范围内，自动实现风险评估。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据处理方法流程示意图；

图2为本发明实施例提供的一种属性类型分类示意图；

图3为本发明实施例提供的一种数据处理方法框架示意图；

图4为本发明实施例提供的一种数据处理装置结构示意图；

图5为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清除、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

由于数据进行脱敏处理后仍存在残余泄露风险，因此进行风险管理非常重要，管理风险的关键是需要评估脱敏数据的泄露风险。在数据安全法规和标准中，均明确指出数据脱敏完成后，需要进行风险评估和定期风险重评估，使得数据的泄露风险在可控范围内。

目前，对脱敏数据的风险评估通常由安全专家根据个人经验进行，人工确定数据泄露风险，主观性较强，并且只能定性确定高风险还是低风险，还没有一种自动进行风险评估的方法，定量确定数据的泄露风险。

下面结合附图对本发明实施例提供的数据处理方法进行详细说明。

如表1所示，为本发明实施例提供的一种业务数据表，数据表中包含大量的业务数据：

序号

姓名

性别

身高

年龄

邮编

毕业学校

公司

薪资

1

张一

男

171

23

10111

第一大学

公司1

60W

2

王二

女

173

22

30111

第二大专

公司2

25W

……

999

王三

男

172

31

10111

第三学院

公司1

50W

1000

李四

女

179

21

30211

第二大专

公司2

55W

表1

需要说明的是，表1中所示的数据仅是示例的，并不构成对本发明实施例保护范围的限定。本发明实施例中将表1所示的未经脱敏处理的数据表称为原始数据集，原始数据集由大量的业务数据构成，为降低业务数据的泄露风险，本发明实施例提供一种数据处理方法，实现对业务数据的脱敏处理以及对处理后的脱敏数据进行风险评估，从而更有效的降低业务数据泄露风险。

如图1所示，为本发明实施例提供的一种数据处理方法的流程图，包括：

在步骤S101中，对原始数据集中的数据进行脱敏处理，得到多个脱敏数据集；

其中，同一个脱敏数据集包括的脱敏数据对应同一个属性类型；

具体的，脱敏处理是指对原始数据进行失真变形处理，将原始数据显示为不同的数据。本发明实施例中，脱敏处理方法可以包括量化处理、取整处理、屏蔽处理和泛化处理等方法。

例如，原始数据年龄为“27”，量化处理得到的脱敏数据为“30”；

原始数据时间为“8:12”，取整处理得到的脱敏数据为“8:00”；

原始数据为手机号“13255556666”，屏蔽处理得到的脱敏数据为“132****6666”；

原始数据为地区“北京海淀”，泛化处理得到的脱敏数据为“北京”。

需要说明的是，上述四种脱敏处理方法仅是示例的，还可以使用其他脱敏处理方法实现数据脱敏；并且每种脱敏处理方法仅是示例的，例如，手机号“13255556666”屏蔽处理得到的脱敏数据还可以为“13*******66”，上述具体实施例并不构成对本发明实施例保护范围的限定。

假设对表1所示的原始数据集中的数据进行脱敏处理，得到多个脱敏数据集，如表2所示：

序号

姓名

性别

身高

年龄

邮编

毕业学校

公司

薪资

1

张*

男

170

25

101**

U1

C1

60W

2

王*

女

175

20

301**

U2

C2

25W

……

999

王*

男

170

30

101**

U3

C1

50W

1000

李*

女

180

20

302**

U2

C2

55W

表2

本发明实施例中将表2所示的经过脱敏处理的每一列数据称为脱敏数据集，例如，“身高”对应的脱敏数据集为{170、175、……、170、180}。如表2所示的脱敏数据表中，每一列脱敏数据对应一种属性，属性由属性字段表示，例如“序号”、“姓名”“性别”、“身高”、“年龄”“邮编”、“毕业学校”、“公司”、“薪资”等属性字段；每一行脱敏数据对应一条记录，表示同一对象对应的不同属性的数据，表2所示的脱敏数据表中包含200条记录，表示200个人对应的不同属性的数据。需要说明的是，本发明实施例中对象可以是人也可以是物，本发明实施例不做具体限定。

此外，不同属性对应的属性类型不同，例如，表2所示的脱敏数据中，可以分为三种属性类型“非个人相关属性”、“个人基本属性”、“敏感属性”，“非个人相关属性”对应的属性字段包括“序号”；“个人基本属性”对应的属性字段包括“姓名”“性别”、“身高”、“年龄”“邮编”、“毕业学校”、“公司”；“敏感属性”对应的属性字段包括“薪资”等，如图2所示。同一列脱敏数据对应一种属性，因此同一个脱敏数据集包括的脱敏数据对应同一属性类型。

在步骤S102中、从脱敏数据集中选择目标属性类型对应的脱敏数据集；

具体的，目标属性类型可以由攻击场景进行确定，例如在隐私攻击场景下，目标属性类型可以是个人基本属性。

此外，攻击是指希望掌握原始数据集的攻击者通过自身所掌握的数据还原原始数据的过程，攻击者可以是原始数据集中任一对象的同学、朋友和邻居等，同时也可能是掌握了大量黑灰产身份数据库的黑客。

一种可选的实施方式为，若任一脱敏数据集对应的属性字段为目标属性类型对应的属性字段，则确定该脱敏数据集为目标属性类型对应的脱敏数据集。

实施中，可以构建不同属性类型对应的属性字段库，根据脱敏数据集对应的属性字段与目标属性类型对应的属性字段库进行对比，若脱敏数据集对应的属性字段可以与目标属性类型对应的属性字段库中任一属性字段匹配，则确定该脱敏数据集属于目标属性类型对应的脱敏数据集。

例如，脱敏数据集{170、175、……、170、180}对应的属性字段为“身高”，目标属性类型“个人基本属性”对应的属性字段库中包含“身高”属性字段，则确定脱敏数据集{170、175、……、170、180}为目标属性类型对应的脱敏数据集。

此外，以隐私攻击场景为例，在隐私攻击场景下个人基本属性为目标属性类型，本发明实施例还提供一种确定目标属性类型对应的脱敏数据集的方法，实施中，由于非个人相关属性以及敏感属性对应的属性字段较少，可以通过所有脱敏数据集对应的属性字段与非个人相关属性以及敏感属性对应的属性字段库中的属性字段进行匹配，若任一脱敏数据集对应的属性字段在非个人相关属性以及敏感属性对应的属性字段库中均未匹配到相同的属性字段，则确定该脱敏数据集为目标属性类型对应的脱敏数据集。

例如，确定目标属性类型为个人基本属性，确定出目标属性类型对应的脱敏数据集包括“姓名”对应的脱敏数据集、“性别”对应的脱敏数据集、“身高”对应的脱敏数据集、“年龄”对应的脱敏数据集、“邮编”对应的脱敏数据集、“毕业学校”对应的脱敏数据集、“公司”对应的脱敏数据集。

在步骤S103中、根据选择的脱敏数据集确定至少一个目标数据集合；

其中，每个目标数据集合包括至少一个脱敏数据集，且不同的目标数据集合包括的脱敏数据集不同。

具体的，目标属性类型对应的脱敏数据集有M个，分别为M属性字段对应的脱敏数据集，从目标属性类型对应的脱敏数据集中确定目标数据集合，目标数据集合为可能用于还原原始数据集的脱敏数据集组成的集合，目标数据集的总个数为M个脱敏数据集对应的所有组合情况。

一种可选的实施方式为，遍历不大于M的每个正整数，每遍历一个正整数，从目标属性类型对应的脱敏数据集中，确定所有包含该正整数个脱敏数据集的目标数据集合；其中目标数据集合中包含的脱敏数据集不同。

实施中，目标数据集合中包含的脱敏数据集的个数可以是1个、2个、……M个，其中，M为目标属性类型对应的脱敏数据集的总个数。

从M个脱敏数据集中选取1个脱敏数据集组成目标数据集合，每个目标数据集合中包括不同的脱敏数据集，确定出的目标数据集有

种；从M个脱敏数据集中选取2个脱敏数据集组成目标数据集合，每个目标数据集合中包括不同的脱敏数据集，确定出的目标数据集有

种；……；从M个脱敏数据集中选取M个脱敏数据集组成目标数据集合，每个目标数据集合中包括不同的脱敏数据集，确定出的目标数据集有

种，可以确定出的目标数据集合的总个数为：2^M-1个。

下面以目标属性类型对应3个脱敏数据集为例，说明本发明实施例中目标数据集合的所有情况，假设，目标属性类型对应的脱敏数据集包括：A1、A2、A3，则目标数据集合包括T1＝{A1}、T2＝{A2}、T3＝{A3}、T4＝{A1 A2}、T5＝{A1 A3}、T6＝{A2 A3}、T7＝{A1 A2A3}。

需要说明的是，本发明实施例中目标数据集合均有可能被攻击者利用，存在不同程度的脆弱性，目标数据集合也可以称为脆弱性组合。

在步骤S104中、针对任一目标数据集合，确定该目标数据集合对应的概率值以及危害值；

其中，概率值表征利用目标数据集合还原原始数据集的概率，危害值表征利用目标数据集合成功还原原始数据集造成的危害程度；

具体的，针对任一目标数据集合，确定目标数据集合对应的被利用还原原始数据的概率值，以及利用该目标数据集合成功还原原始数据集造成的危害值，对每个目标数据集合进行风险评估。

一、确定概率值。

本发明实施例中，目标数据集合对应的概率值表征利用目标数据集合还原原始数据集的概率，任一目标数据集合还原原始数据集的概率可以由该目标数据集合对应的脆弱性概率以及利用概率值来确定。

本发明实施例中，目标数据集合对应的脆弱性概率值表示利用该目标数据集合成功还原原始数据集中每个对象的概率，利用概率值表示该目标数据集合的泄露概率，通过目标数据集合对应的脆弱性概率值以及利用概率值确定目标数据集合对应的概率值。下面对确定目标数据集合对应的脆弱性概率值以及利用概率值的方法分别进行说明。

1、确定脆弱性概率值。

一种可选的实施方式为，针对任一目标数据集合，将目标数据集合的组合信息的信息熵值与最大信息熵值进行归一化处理，得到目标数据集合的脆弱性概率值。

具体的，脆弱性概率值表征利用目标数据集合成功还原原始数据集中每个对象的概率，脆弱性概率值与目标数据集合中对应同一对象的脱敏数据组成的组合信息的分布情况相关，组合信息的分布情况越唯一，还原出原始数据集中每个对象的概率值越高，也就是脆弱性越严重；组合信息的分布情况越统一，也就是每个组合信息越相同，还原出原始数据集中每个对象的概率值越低，也就是脆弱性越不严重，也就是说，脆弱性概率值也表示目标数据集合对应的脆弱性严重程度。

例如，如表3、表4、表5所示出的目标数据集合数据不同组合情况：

年龄	工作地址
		28	北京海淀区
29	北京朝阳区
		24	上海浦东区
23	上海徐汇区

表3

表3所示的目标数据集合中包含2个脱敏数据集，分别为年龄对应的脱敏数据集以及工作地址对应的脱敏数据集，其中每一行脱敏数据对应同一个对象，对应同一对象的年龄与工作地址组成组合信息，表3中共有4种组合信息，分别为“28+北京海淀区”、“29+北京朝阳区”、“24+上海浦东区”、“23+上海徐汇区”。

年龄	工作地址
		30	北京
30	北京
		25	上海
25	上海

表4

表4所示的目标数据集合中包含2个脱敏数据集，分别为年龄对应的脱敏数据集以及工作地址对应的脱敏数据集，其中每一行脱敏数据对应同一个对象，对应同一对象的年龄与工作地址组成组合信息，表4中共有2种组合信息，分别为“30+北京”、“30+北京”、“25+上海”、“25+上海”。

年龄	工作地址
		30	中国
30	中国
		30	中国
30	中国

表5

表5所示的目标数据集合中包含2个脱敏数据集，分别为年龄对应的脱敏数据集以及工作地址对应的脱敏数据集，其中每一行脱敏数据对应同一个对象，对应同一对象的年龄与工作地址组成组合信息，表中共有1种组合信息，分别为“30+中国”。

可以看出，表3中组合信息的分布情况最唯一，还原出原始数据集中每个对象的概率值最高，脆弱性最严重；表5中组合信息的分布情况最统一，还原出原始数据集中每个对象的概率值最低，脆弱性最不严重。

本发明实施例中，组合信息的多样性可以由信息熵值表示，通过组合信息的信息熵值与最大信息熵值进行比值的方法归一化处理，得到目标数据集合的脆弱性概率值。其中，最大信息熵值与目标数据集合中对象的个数有关。

其中，信息熵可以根据下列公式确定：

其中，H表示信息熵值；x_i表示第i个组合信息；m表示目标数据集合中组合信息种类的总个数；p(x_i)表示确定第i个组合信息的概率值。

假设，目标数据集合如表4所示，则目标数据集合的信息熵值为：

最大信息熵值与目标数据集合中对象的个数有关，当信息熵值最大时，目标数据集合的组合信息的情况均不相同，也就是说组合信息的种类与目标数据集合中对象的个数相同。

假设，目标数据集合如表4所示，则目标数据集合对应的最大信息熵值为：

则目标数据集合对应的脆弱性概率值为：

其中，v_i表示第i个目标数据集合的脆弱性概率值，H表示第i个目标数据集合的组合信息的信息熵值；H_max表示第i个目标数据集合的中最大信息熵值。

假设目标数据集合如表4所示，则目标数据集合对应的脆弱性概率值为0.5。

2、确定利用概率值。

一种可选的实施方式为，通过目标数据集合包括的脱敏数据集的个数以及衰减函数，确定该目标数据集合的利用概率值。

具体的，利用概率值表征目标数据集合的泄露概率，利用概率值与目标数据集合中脱敏数据集的个数相关，脱敏数据集的个数越多，意为着攻击者需要掌握更多的信息还原原始数据集，难度更大，则目标数据集合被利用的概率越低，目标数据集合对应的利用概率值越低。

例如，目标数据集合包括T1＝{A1}、T2＝{A2}、T3＝{A3}、T4＝{A1 A2}、T5＝{A1A3}、T6＝{A2 A3}、T7＝{A1 A2 A3}，其中，目标数据集合T1的利用概率值p₁最大，目标数据集合T7的利用概率值p₇最小，利用概率值p_i随目标数据集合中脱敏数据集的个数的增加而减小。

实施中，可以根据以脱敏数据集的个数为自变量，利用概率值为因变量的衰减函数，确定目标数据集合的利用概率值。例如，可以采用二项分布(M，P)进行反向累加和得到衰减函数，其中，M表示目标属性类型对应的脱敏数据集的个数，P表示任一脱敏数据集泄露的概率。

在确定目标数据集合对应的脆弱性概率值以及利用概率值后，将目标数据集合的脆弱性概率值以及利用概率值的乘积作为目标数据集合的概率值。

实施中，可以根据下列公式确定目标数据集合的概率值：

prob_i＝v_i×p_i

其中，prob_i表示第i个目标数据集合的概率值；v_i表示第i个目标数据集合的脆弱性概率值；p_i表示第i个目标数据集合的利用概率值。

二、确定危害值。

本发明实施例中，目标数据集合对应的危害值表征利用目标数据集合成功还原原始数据集造成的危害程度，任一目标数据集合成功还原原始数据集造成的危害程度可以由利用目标数据集合成功还原原始数据集时泄露的数据的数量来确定。

一种可选的实施方式为，将目标属性类型对应的脱敏数据集的总个数与目标数据集合包括的脱敏数据集的个数的差值，作为利用目标数据集合成功还原原始数据集时泄露的数据的数量；通过该数量以及递增函数确定目标数据集合对应的危害值。

实施中，若利用目标数据集合还原原始数据集，则表示目标数据集合中包含的脱敏数据集已经泄露；若利用目标数据集合中包含的脱敏数据集成功还原原始数据集，则原始数据集中除已泄露的上述目标数据集合之外的其他脱敏数据集为利用目标数据集成功还原原始数据集时泄露的数据。

例如，目标数据类型对应的脱敏数据集为A1、A2、A3，若目标数据集合为{A1}，则利用目标数据集合{A1}成功还原原始数据集时，泄露的数据为A2、A3。

因此，将目标属性类型对应的脱敏数据集的总个数与目标数据集合包括的脱敏数据集的个数的差值，作为利用该目标数据集合成功还原原始数据集时泄露的数据的数量，泄露的数据的数量越多，造成的危害程度越大，因此，通过泄露的数据的数量与递增函数确定目标数据集合对应的危害值。

实施中，可以根据以泄露的数据的数量为自变量，危害值为因变量的递增函数，确定目标数据集合的危害值。例如，可以采用二项分布(M，P)进行正向累积积分得到递增函数，其中，M表示目标属性类型对应的脱敏数据集的个数，P表示任一脱敏数据集泄露的概率。

此外，从上述内容中可以看出，目标数据集合中脱敏数据集的个数越少，在利用该目标数据集合成功还原原始数据集时泄露的数据的数量越多，造成的危害程度越大，危害值越高，因此目标数据集合中脱敏数据集的个数与目标数据集对应的危害程度成反比。

实施中，可以通过h_i表示第i个目标数据集合的危害值。

在步骤S105中、根据各目标数据集合对应的概率值以及危害值确定风险值。

本发明实施例中，根据每个目标数据集合对应的概率值以及危害值确定每个，目标数据集合对应的子风险值。

实施中，目标数据集合对应的子风险值可以根据下列公式确定：

Risk_i＝prob_i×h_i

其中，Risk_i表示第i个目标数据集合对应的子风险值。

根据各个目标数据集合对应的子风险值中最大的子风险值确定风险值最大的目标数据集合以及目标数据集合中脱敏数据集的情况；根据各个目标数据集合对应的子风险值中最小的子风险值确定风险值最小的目标数据集合以及目标数据集合中脱敏数据集的情况；并根据各个目标数据集合对应的子风险值的平均值确定平均风险值。

其中，平均风险值可以根据下列公式确定：

其中，

表示平均风险值；2^M-1为目标属性类型对应的M个脱敏数据集确定的目标数据集合的总个数；Risk_i表示第i个目标数据集合对应的子风险值。

根据预设业务场景与风险类型的对应关系，确定原始数据集所属业务场景对应的目标风险类型；其中风险类型包括最高风险、最低风险、平均风险；

本发明实施例中，预先设置业务场景与风险类型的对应关系，风险管理要求高的业务场景，以最低风险最为目标风险类型；风险管理要求低的业务场景，以最高风险对目标风险类型，其中业务场景与风险类型的对应关系可以根据本领域技术人员的经验进行设置，本发明实施例不做具体限定。

若目标风险类型为最高风险，将各目标数据集合对应的子风险值中最大值作为风险值；若目标风险类型为最低风险，将各目标数据集合对应的子风险值中最小值作为风险值；若所述目标风险类型为平均风险，将各目标数据集合对应的子风险值的平均值作为风险值。

本发明实施例中，还可以根据各目标数据集合对应的子风险值确定原始数据经脱敏处理后的风险范围，从而进行风险管理。

在步骤S106中、判断确定出的风险值是否大于预设阈值，若是，执行步骤S107；若否，执行步骤S108；

在步骤S107中、调整脱敏处理方式；

在步骤S108中、数据处理完成。

本发明实施例中，预设阈值可以根据本领域自技术人员的经验进行确定，若确定出的风险值大于预设阈值，根据风险值对脱敏数据进行风险管理，一种可选的实施方式为调整原始数据集的脱敏处理方式，另一种可选的实施方式为，调整原始数据集进行脱敏处理后得到的多个脱敏数据集的访问权限等级。

由于不同脱敏方式处理得到的脱敏数据对应的风险值不同，可以比较多种脱敏处理方式得到的脱敏数据的风险值，在当前脱敏处理方式得到的脱敏数据泄露风险较高时，调整脱敏处理方式；也可以调整脱敏数据的访问权限等级，例如，当前脱敏数据可以对100人开放，若当前脱敏数据泄露风险较高时，将当前脱敏数据调整为只对管理权限高的10个人开放。

上述风险管理方式仅是示例的，并不构成对本发明实施例保护范围的限定。此外，本发明实施例提供的数据处理方法可以应用于企业自评估、第三方评估等应用场景。

本发明实施例中，还可以根据不同风险值与风险等级的对应关系，确定风险值对应的风险等级；其中，风险等级表示泄露原始数据集的风险程度。

实际应用中，根据企业自身的可控风险范围，建立不同风险级别的映射表。表6是一个风险值到风险级别映射表的示例：

风险值区间	0-20	20-40	40-70	70-100
					风险级别	低风险	中等风险	较高风险	高风险

表6

一种可选的实施方式为，可以根据平均风险值确定风险等级，例如，将平均风险值映射到风险值区间，确定脱敏数据的风险等级。

假设，脱敏数据的平均风险值为0.35，以扩大一百倍进行映射，确定脱敏数据的风险值位于风险区间20-40内，则脱敏数据的风险等级为中等风险。

如图3所示，为本发明实施例提供的数据处理方法框架示意图，包括脱敏处理单元、预处理与准备单元、独立风险评估单元以及综合风险单元。

其中，脱敏处理单元将原始数据集进行脱敏处理，得到的多个脱敏数据集；预处理与准备单元从多个脱敏数据集中选择目标属性对应的脱敏数据集，并自动识别选择出的脱敏数据集确定的所有目标数据集合；独立风险评估单元对每个目标数据集合进行风险评估，得到每个目标数据集合对应的子风险值；综合评估单元根据子风险值得到最高风险值、平均风险值以及最低风险值对脱敏数据进行综合评估。

此外，独立风险评估单元还可以通过每个目标数据集合的子风险值以及映射关系确定每个目标数据集合对应的子风险级别；综合评估单元还可以通过平均风险值以及映射关系确定平均风险级别。

基于相同的发明构思，如图4所示，为本发明实施例示出的一种数据处理装置，包括：

脱敏模块401，用于对原始数据集中的数据进行脱敏处理，得到多个脱敏数据集；其中同一个所述脱敏数据集包括的脱敏数据对应同一个属性类型；

确定模块402，用于从所述脱敏数据集中选择目标属性类型对应的脱敏数据集，根据选择的所述脱敏数据集确定至少一个目标数据集合；其中每个目标数据集合包括至少一个脱敏数据集，且不同的目标数据集合包括的脱敏数据集不同；

评估模块403，用于针对任一目标数据集合，确定所述目标数据集合对应的概率值以及危害值；其中所述概率值表征利用目标数据集合还原原始数据集的概率，所述危害值表征利用目标数据集合成功还原原始数据集造成的危害程度；

处理模块404，用于根据各目标数据集合对应的所述概率值以及所述危害值确定风险值，若所述风险值大于预设阈值，则调整脱敏处理的方式，其中所述风险值表征泄露原始数据集的风险程度。

一种可选的实施方式为，所述评估模块403具体用于：

一种可选的实施方式为，所述处理模块404还用于：

一种可选的实施方式为，所述处理模块404具体用于：

一种可选的实施方式为，所述确定模块402具体用于：

关于数据处理装置中各模块的实施以及有益效果可参见前文方法中的描述，此处不再赘述。

在介绍了本发明示例性实施方式的数据处理方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。例如，处理器可以执行如图1所示的数据处理方法中的步骤。

下面参照图5来描述根据本发明的这种实施方式的计算设备50。图5显示的计算设备50仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算设备50以通用计算设备的形式表现。计算设备50的组件可以包括但不限于：上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。

总线53表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器52可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)521和/或高速缓存存储器522，还可以进一步包括只读存储器(ROM)523。

存储器52还可以包括具有一组(至少一个)程序模块524的程序/实用工具525，这样的程序模块524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算设备50交互的设备通信，和/或与使得该计算设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，计算设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与用于计算设备50的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的一种数据处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的一种数据处理方法中的步骤，例如，计算机设备可以执行如图1或图3所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于数据处理的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务端上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理的设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理的设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理的设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理的设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，针对任一目标数据集合，确定所述目标数据集合对应的概率值，包括：

针对任一目标数据集合，将所述目标数据集合的组合信息的信息熵值与最大信息熵值进行归一化处理，得到所述目标数据集合的脆弱性概率值；其中所述组合信息是由所述目标数据集合的脱敏数据集中同一对象的脱敏数据组成的；所述脆弱性概率值表征利用所述目标数据集合成功还原原始数据集中每个对象的概率；所述信息熵值表示所述目标数据集合的所有组合信息的多样性；所述最大信息熵值根据所述目标数据集合的对象个数确定；

3.如权利要求2所述的方法，其特征在于，针对任一目标数据集合，确定所述目标数据集合对应的危害值，包括：

4.如权利要求2或3所述的方法，其特征在于，该方法还包括：

5.如权利要求1所述的方法，其特征在于，所述根据各目标数据集合对应的所述概率值以及所述危害值确定风险值，包括：

6.如权利要求1～3、5任一所述的方法，其特征在于，所述从所述脱敏数据集中选择目标属性类型对应的脱敏数据集，包括：

7.如权利要求6所述的方法，其特征在于，所述根据选择的所述脱敏数据集确定至少一个目标数据集合，包括：

8.一种数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器以及处理器；

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1～7任一项所述的数据处理方法。

10.一种计算机存储介质，存储有计算机程序，其特征在于，所述计算机程序在被计算机执行时用于执行如权利要求1～7中任一项所述的数据处理方法。