CN110765491A

CN110765491A - 一种去敏感化数据关联关系的保持方法及系统

Info

Publication number: CN110765491A
Application number: CN201911085585.0A
Authority: CN
Inventors: 叶卫; 姚一杨; 许敏; 孙嘉赛; 贺琛; 吴慧; 金烂聚; 王云烨; 史俊潇; 张明熙; 陈逍潇; 张吉; 吴建伟; 王臻; 孟奇; 段玉帅
Original assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-07
Anticipated expiration: 2039-11-08
Also published as: CN110765491B

Abstract

本发明属于大数据技术领域，具体涉及一种大数据中的数据去敏感化。通过数据生成网络模型生成公开数据集替代所述原始数据集供查询，避免了原始数据集中的真实数据被查询访问；同时，公开数据集中的数据与所述原始数据集中的数据的分布保持一致，保留了原始数据集中的数据之间的关联关系。

Description

一种去敏感化数据关联关系的保持方法及系统

技术领域

本发明属于大数据技术领域，具体涉及一种大数据中的数据去敏感化。

背景技术

随着互联网技术的飞速发展，政府及企业已经积累了大量的敏感信息和数据，而这些数据在很多工作场景中会得到使用。敏感的个人、财务和健康信息，受到多种不同行业和政府数据隐私法规的管制。如果企业无法保持数据隐私，就会面临严重的财务和法律惩罚，同时还会在客户与市场方面蒙受可观的损失。

授权公告号CN106599713B，授权公告日2019年4月12日的发明专利公开了一种基于大数据的数据库脱敏系统及方法。但是，其仍然避免不了用户对原始隐私数据的访问，存在隐私暴露的风险。

发明内容

本发明为了解决上述技术问题，提供一种去敏感化数据关联关系的保持方法，其特征在于，包括：

步骤a1，建立数据生成网络模型G和数据判断网络模型D；

步骤a2，将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D，训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假，以更新所述数据判断网络模型D的参数；

步骤a3，将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D，并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G，训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真，以更新所述数据生成网络模型G的参数；

步骤a4，基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3，直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真；

步骤a5，基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集；

步骤a6，发布所述公开数据集以替代所述原始数据集供查询。

上述技术方案中通过采用公开数据集替代所述原始数据集供查询，避免了原始数据集中的真实数据被查询访问；同时，公开数据集中的数据与所述原始数据集中的数据的分布保持一致，保留了原始数据集中的数据之间的关联关系。

作为优选，所述数据生成网络模型G为残差神经网络。

作为优选，所述数据生成网络模型G的最后一层采用tanh函数作为激励函数。

作为优选，所述数据生成网络模型G的其余层采用leaky_relu函数作为激励函数。

作为优选，所述数据判断网络模型D为VCG神经网络。

作为优选，所述数据判断网络模型D的最后一层采用sigmoid函数作为激励函数。

作为优选，所述数据判断网络模型D的其余层采用leaky_relu函数作为激励函数。

作为优选，所述步骤a4中采用损失函数为：

；其中，pdata（x）为数据生成网络模型生成的模拟数据，pz（z）为噪声数据。

作为优选，所述步骤a2中，每次训练输入所述数据生成网络模型G的噪声数据均不同，每次训练输入所述数据判断网络模型D的原始数据均不同。

本发明还提供一种去敏感化数据关联关系的保持系统，其特征在于：采用上述任一项所述的保持方法。

本发明具有下述有益效果：

通过采用公开数据集替代所述原始数据集供查询，避免了原始数据集中的真实数据被查询访问；同时，公开数据集中的数据与所述原始数据集中的数据的分布保持一致，保留了原始数据集中的数据之间的关联关系。

具体实施方式

这里使用的术语仅用于描述特定实施例的目的，而不意图限制本发明。除非另外定义，否则本文使用的所有术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。将进一步理解的是，常用术语应该被解释为具有与其在相关领域和本公开内容中的含义一致的含义。本公开将被认为是本发明的示例，并且不旨在将本发明限制到特定实施例。

实施例一

一种去敏感化数据关联关系的保持方法，包括：

步骤a1，建立数据生成网络模型G和数据判断网络模型D。作为优选，本实施例中的数据生成网络模型G为残差神经网络，其最后一层采用tanh函数作为激励函数，其余层采用leaky_relu函数作为激励函数。数据判断网络模型D为VCG神经网络，其最后一层采用sigmoid函数作为激励函数，其余层采用leaky_relu函数作为激励函数。采用tanh函数作为激活函数的神经网络层，需要将上一层的输出数据（也即本层的输入数据）的值范围由0到1区间扩展至-1到1区间。

步骤a2，将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D，训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假，以更新所述数据判断网络模型D的参数。通过该步骤提升数据判断网络模型D分辨真假数据的能力。作为优选，每次训练输入所述数据生成网络模型G的噪声数据均不同，每次训练输入所述数据判断网络模型D的原始数据均不同。

步骤a3，将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D，并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G，训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真，以更新所述数据生成网络模型G的参数。通过该步骤提升数据生成网络模型生产出接近原始数据集数据的能力。作为优选，每次训练输入所述数据生成网络模型G的噪声数据均不同，每次训练输入所述数据判断网络模型D的原始数据均不同。

步骤a4，基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3，直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真。这时，数据生成网络模型所生产的数据能够使得数据判断网络模型分辨不出真假，达到以假乱真的程度。其中，损失函数：

其中，pdata（x）为数据生成网络模型生成的模拟数据，pz（z）为噪声数据。

步骤a5，基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集。

作为优选，在步骤a2将原始数据集中的原始数据输入作为数据输入之前对原始数据进行预处理，数据预处理包括：

步骤a2-1，将原始数据集的统一为数据表格式。统一过程中也包括现有技术中常用的数据清洗、筛选等操作。

步骤a2-2，将所述步骤a2-1中得到的数据表格式中的每一单元格的内容例如，汉字、数字、字母等符号）依照统一的转换规则转换为机器识别码，以获得编码数据表。转换规则可以采用现有技术中任一的能够将字符转换成机器识别码的规则或方法，只要能够保证转换后的机器可识别码与转换前的字符一一对应。例如，可以依照ASCII码将数据表格式中每一单元格的内容转换为数字（汉字可以先转换为英文字符以后再转换）。转换的同时需要保证数据式表格中的每一格的相对位置不变，例如，将数据表格式的原始数据集中每一的单元格当做是图片数据中的一个像素点的位置来处理，不同之处在于该“像素点”（即单元格）中的数值范围与图片数据不同。

步骤a2-3，将所述编码数据表中的各数据进行归一化处理至0至1范围内的数字。经过该步骤，可以将步骤a2-3中各单元格中的数据数值范围统一到0到1的范围中，从而使得统一过后的数据表格式的原始数据集在之后的步骤中的处理。

步骤a5中，需要对生成的一原始数据集进行处理，按照步骤a2-2中采用的转换规则进行逆变换。

在另一个实施例中，也可以在步骤a2-1对原始数据集进行处理以后。将原始数据集转换为图片格式用于接下来的步骤中的处理。

或者在另一实施例中，步骤a-2中仅裁剪出数据表格式的原始数据集中的数据内容部分（即“键-值”模式中的“值”）进行处理，而对于用于对每一行或者每一列数据内容进行定义的部分（即“键-值”模式中的“键”）被裁减掉不做处理。但是，注意需要保留各“值”部分在数据表中的相对位置不变。在步骤a5中，将还原后的只剩“值”部分的内容重新与裁掉的“键”组合成公开数据表。

实施例二

一种去敏感化数据关联关系的保持系统，其特征在于采用实施例一种所述的保持方法。

虽然描述了本发明的实施方式，但是本领域普通技术人员可以在所附权利要求的范围内做出各种变形或修改。

Claims

1.一种去敏感化数据关联关系的保持方法，其特征在于，包括：

步骤a1，建立数据生成网络模型G和数据判断网络模型D；

2.根据权利要求1所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据生成网络模型G为残差神经网络。

3.根据权利要求2所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据生成网络模型G的最后一层采用tanh函数作为激励函数。

4.根据权利要求3所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据生成网络模型G的其余层采用leaky_relu函数作为激励函数。

5.根据权利要求1所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据判断网络模型D为VCG神经网络。

6.根据要求5所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据判断网络模型D的最后一层采用sigmoid函数作为激励函数。

7.根据权利要求6所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述数据判断网络模型D的其余层采用leaky_relu函数作为激励函数。

8.根据权利要求1所述的一种去敏感化数据关联关系的保持方法，其特征在于，所述步骤a4中采用损失函数为：

；

9.根据权利要求1所述的一种去敏感化数据关联关系的保持方法，其特征在于：

所述步骤a2中，每次训练输入所述数据生成网络模型G的噪声数据均不同，每次训练输入所述数据判断网络模型D的原始数据均不同。

10.一种去敏感化数据关联关系的保持系统，其特征在于：

采用权利要求1-9中任一项所述的保持方法。