CN110765491A - 一种去敏感化数据关联关系的保持方法及系统 - Google Patents

一种去敏感化数据关联关系的保持方法及系统 Download PDF

Info

Publication number
CN110765491A
CN110765491A CN201911085585.0A CN201911085585A CN110765491A CN 110765491 A CN110765491 A CN 110765491A CN 201911085585 A CN201911085585 A CN 201911085585A CN 110765491 A CN110765491 A CN 110765491A
Authority
CN
China
Prior art keywords
data
network model
maintaining
desensitized
association relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911085585.0A
Other languages
English (en)
Other versions
CN110765491B (zh
Inventor
叶卫
姚一杨
许敏
孙嘉赛
贺琛
吴慧
金烂聚
王云烨
史俊潇
张明熙
陈逍潇
张吉
吴建伟
王臻
孟奇
段玉帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority to CN201911085585.0A priority Critical patent/CN110765491B/zh
Publication of CN110765491A publication Critical patent/CN110765491A/zh
Application granted granted Critical
Publication of CN110765491B publication Critical patent/CN110765491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明属于大数据技术领域,具体涉及一种大数据中的数据去敏感化。通过数据生成网络模型生成公开数据集替代所述原始数据集供查询,避免了原始数据集中的真实数据被查询访问;同时,公开数据集中的数据与所述原始数据集中的数据的分布保持一致,保留了原始数据集中的数据之间的关联关系。

Description

一种去敏感化数据关联关系的保持方法及系统
技术领域
本发明属于大数据技术领域,具体涉及一种大数据中的数据去敏感化。
背景技术
随着互联网技术的飞速发展,政府及企业已经积累了大量的敏感信息和数据,而这些数据在很多工作场景中会得到使用。敏感的个人、财务和健康信息,受到多种不同行业和政府数据隐私法规的管制。如果企业无法保持数据隐私,就会面临严重的财务和法律惩罚,同时还会在客户与市场方面蒙受可观的损失。
授权公告号CN106599713B,授权公告日2019年4月12日的发明专利公开了一种基于大数据的数据库脱敏系统及方法。但是,其仍然避免不了用户对原始隐私数据的访问,存在隐私暴露的风险。
发明内容
本发明为了解决上述技术问题,提供一种去敏感化数据关联关系的保持方法,其特征在于,包括:
步骤a1,建立数据生成网络模型G和数据判断网络模型D;
步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假,以更新所述数据判断网络模型D的参数;
步骤a3,将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D,并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G,训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真,以更新所述数据生成网络模型G的参数;
步骤a4,基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3,直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真;
步骤a5,基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集;
步骤a6,发布所述公开数据集以替代所述原始数据集供查询。
上述技术方案中通过采用公开数据集替代所述原始数据集供查询,避免了原始数据集中的真实数据被查询访问;同时,公开数据集中的数据与所述原始数据集中的数据的分布保持一致,保留了原始数据集中的数据之间的关联关系。
作为优选,所述数据生成网络模型G为残差神经网络。
作为优选,所述数据生成网络模型G的最后一层采用tanh函数作为激励函数。
作为优选,所述数据生成网络模型G的其余层采用leaky_relu函数作为激励函数。
作为优选,所述数据判断网络模型D为VCG神经网络。
作为优选,所述数据判断网络模型D的最后一层采用sigmoid函数作为激励函数。
作为优选,所述数据判断网络模型D的其余层采用leaky_relu函数作为激励函数。
作为优选,所述步骤a4中采用损失函数为:
Figure DEST_PATH_IMAGE002
;其中,pdata(x)为数据生成网络模型生成的模拟数据,pz(z)为噪声数据。
作为优选,所述步骤a2中,每次训练输入所述数据生成网络模型G的噪声数据均不同,每次训练输入所述数据判断网络模型D的原始数据均不同。
本发明还提供一种去敏感化数据关联关系的保持系统,其特征在于:采用上述任一项所述的保持方法。
本发明具有下述有益效果:
通过采用公开数据集替代所述原始数据集供查询,避免了原始数据集中的真实数据被查询访问;同时,公开数据集中的数据与所述原始数据集中的数据的分布保持一致,保留了原始数据集中的数据之间的关联关系。
具体实施方式
这里使用的术语仅用于描述特定实施例的目的,而不意图限制本发明。 除非另外定义,否则本文使用的所有术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。 将进一步理解的是,常用术语应该被解释为具有与其在相关领域和本公开内容中的含义一致的含义。本公开将被认为是本发明的示例,并且不旨在将本发明限制到特定实施例。
实施例一
一种去敏感化数据关联关系的保持方法,包括:
步骤a1,建立数据生成网络模型G和数据判断网络模型D。作为优选,本实施例中的数据生成网络模型G为残差神经网络,其最后一层采用tanh函数作为激励函数,其余层采用leaky_relu函数作为激励函数。数据判断网络模型D为VCG神经网络,其最后一层采用sigmoid函数作为激励函数,其余层采用leaky_relu函数作为激励函数。采用tanh函数作为激活函数的神经网络层,需要将上一层的输出数据(也即本层的输入数据)的值范围由0到1区间扩展至-1到1区间。
步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假,以更新所述数据判断网络模型D的参数。通过该步骤提升数据判断网络模型D分辨真假数据的能力。作为优选,每次训练输入所述数据生成网络模型G的噪声数据均不同,每次训练输入所述数据判断网络模型D的原始数据均不同。
步骤a3,将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D,并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G,训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真,以更新所述数据生成网络模型G的参数。通过该步骤提升数据生成网络模型生产出接近原始数据集数据的能力。作为优选,每次训练输入所述数据生成网络模型G的噪声数据均不同,每次训练输入所述数据判断网络模型D的原始数据均不同。
步骤a4,基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3,直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真。这时,数据生成网络模型所生产的数据能够使得数据判断网络模型分辨不出真假,达到以假乱真的程度。其中,损失函数:
Figure DEST_PATH_IMAGE003
其中,pdata(x)为数据生成网络模型生成的模拟数据,pz(z)为噪声数据。
步骤a5,基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集。
作为优选,在步骤a2将原始数据集中的原始数据输入作为数据输入之前对原始数据进行预处理,数据预处理包括:
步骤a2-1,将原始数据集的统一为数据表格式。统一过程中也包括现有技术中常用的数据清洗、筛选等操作。
步骤a2-2,将所述步骤a2-1中得到的数据表格式中的每一单元格的内容例如,汉字、数字、字母等符号)依照统一的转换规则转换为机器识别码,以获得编码数据表。转换规则可以采用现有技术中任一的能够将字符转换成机器识别码的规则或方法,只要能够保证转换后的机器可识别码与转换前的字符一一对应。例如,可以依照ASCII码将数据表格式中每一单元格的内容转换为数字(汉字可以先转换为英文字符以后再转换)。转换的同时需要保证数据式表格中的每一格的相对位置不变,例如,将数据表格式的原始数据集中每一的单元格当做是图片数据中的一个像素点的位置来处理,不同之处在于该“像素点”(即单元格)中的数值范围与图片数据不同。
步骤a2-3,将所述编码数据表中的各数据进行归一化处理至0至1范围内的数字。经过该步骤,可以将步骤a2-3中各单元格中的数据数值范围统一到0到1的范围中,从而使得统一过后的数据表格式的原始数据集在之后的步骤中的处理。
步骤a5中,需要对生成的一原始数据集进行处理,按照步骤a2-2中采用的转换规则进行逆变换。
在另一个实施例中,也可以在步骤a2-1对原始数据集进行处理以后。将原始数据集转换为图片格式用于接下来的步骤中的处理。
或者在另一实施例中,步骤a-2中仅裁剪出数据表格式的原始数据集中的数据内容部分(即“键-值”模式中的“值”)进行处理,而对于用于对每一行或者每一列数据内容进行定义的部分(即“键-值”模式中的“键”)被裁减掉不做处理。但是,注意需要保留各“值”部分在数据表中的相对位置不变。在步骤a5中,将还原后的只剩“值”部分的内容重新与裁掉的“键”组合成公开数据表。
实施例二
一种去敏感化数据关联关系的保持系统,其特征在于采用实施例一种所述的保持方法。
虽然描述了本发明的实施方式,但是本领域普通技术人员可以在所附权利要求的范围内做出各种变形或修改。
虽然描述了本发明的实施方式,但是本领域普通技术人员可以在所附权利要求的范围内做出各种变形或修改。

Claims (10)

1.一种去敏感化数据关联关系的保持方法,其特征在于,包括:
步骤a1,建立数据生成网络模型G和数据判断网络模型D;
步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假,以更新所述数据判断网络模型D的参数;
步骤a3,将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D,并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G,训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真,以更新所述数据生成网络模型G的参数;
步骤a4,基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3,直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真;
步骤a5,基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集;
步骤a6,发布所述公开数据集以替代所述原始数据集供查询。
2.根据权利要求1所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据生成网络模型G为残差神经网络。
3.根据权利要求2所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据生成网络模型G的最后一层采用tanh函数作为激励函数。
4.根据权利要求3所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据生成网络模型G的其余层采用leaky_relu函数作为激励函数。
5.根据权利要求1所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据判断网络模型D为VCG神经网络。
6.根据要求5所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据判断网络模型D的最后一层采用sigmoid函数作为激励函数。
7.根据权利要求6所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据判断网络模型D的其余层采用leaky_relu函数作为激励函数。
8.根据权利要求1所述的一种去敏感化数据关联关系的保持方法,其特征在于,所述步骤a4中采用损失函数为:
Figure DEST_PATH_IMAGE001
其中,pdata(x)为数据生成网络模型生成的模拟数据,pz(z)为噪声数据。
9.根据权利要求1所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述步骤a2中,每次训练输入所述数据生成网络模型G的噪声数据均不同,每次训练输入所述数据判断网络模型D的原始数据均不同。
10.一种去敏感化数据关联关系的保持系统,其特征在于:
采用权利要求1-9中任一项所述的保持方法。
CN201911085585.0A 2019-11-08 2019-11-08 一种去敏感化数据关联关系的保持方法及系统 Active CN110765491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911085585.0A CN110765491B (zh) 2019-11-08 2019-11-08 一种去敏感化数据关联关系的保持方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911085585.0A CN110765491B (zh) 2019-11-08 2019-11-08 一种去敏感化数据关联关系的保持方法及系统

Publications (2)

Publication Number Publication Date
CN110765491A true CN110765491A (zh) 2020-02-07
CN110765491B CN110765491B (zh) 2020-07-17

Family

ID=69336935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911085585.0A Active CN110765491B (zh) 2019-11-08 2019-11-08 一种去敏感化数据关联关系的保持方法及系统

Country Status (1)

Country Link
CN (1) CN110765491B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085971A1 (en) * 2014-09-22 2016-03-24 Infosys Limited System and method for tokenization of data for privacy
CN108491497A (zh) * 2018-03-20 2018-09-04 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN108959958A (zh) * 2018-06-14 2018-12-07 中国人民解放军战略支援部队航天工程大学 一种关联大数据的隐私保护方法及系统
CN109598334A (zh) * 2018-12-03 2019-04-09 中国信息安全测评中心 一种样本生成方法及装置
CN109933677A (zh) * 2019-02-14 2019-06-25 厦门一品威客网络科技股份有限公司 图像生成方法和图像生成系统
US20190197673A1 (en) * 2017-12-26 2019-06-27 Samsung Electronics Co., Ltd. Image acquisition device and method of controlling the same
CN110070530A (zh) * 2019-04-19 2019-07-30 山东大学 一种基于深度神经网络的输电线路覆冰检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085971A1 (en) * 2014-09-22 2016-03-24 Infosys Limited System and method for tokenization of data for privacy
US20190197673A1 (en) * 2017-12-26 2019-06-27 Samsung Electronics Co., Ltd. Image acquisition device and method of controlling the same
CN108491497A (zh) * 2018-03-20 2018-09-04 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN108959958A (zh) * 2018-06-14 2018-12-07 中国人民解放军战略支援部队航天工程大学 一种关联大数据的隐私保护方法及系统
CN109598334A (zh) * 2018-12-03 2019-04-09 中国信息安全测评中心 一种样本生成方法及装置
CN109933677A (zh) * 2019-02-14 2019-06-25 厦门一品威客网络科技股份有限公司 图像生成方法和图像生成系统
CN110070530A (zh) * 2019-04-19 2019-07-30 山东大学 一种基于深度神经网络的输电线路覆冰检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PANKAJ JOSHI等: "Impact of various mobility model and judgment for selecting mode of network in different mobility situation for Mobile Ad-Hoc Network (MANET)", 《2012 1ST INTERNATIONAL CONFERENCE ON EMERGING TECHNOLOGY TRENDS IN ELECTRONICS, COMMUNICATION & NETWORKING》 *
白海娟等: "基于生成式对抗网络的字体风格迁移方法", 《计算机信息与通信》 *

Also Published As

Publication number Publication date
CN110765491B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
US20190251165A1 (en) Conversational agent
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN109670303B (zh) 基于条件变分自编码的密码攻击评估方法
CN110751698A (zh) 一种基于混和网络模型的文本到图像的生成方法
CN111681154B (zh) 一种基于生成对抗网络的彩色图像隐写失真函数设计方法
CN111241291A (zh) 利用对抗生成网络生成对抗样本的方法及装置
CN109960975B (zh) 一种基于人眼的人脸生成及其人脸识别方法
CN110866238B (zh) 基于对抗样本的验证码图像的生成方法
CN115439719B (zh) 一种针对对抗攻击的深度学习模型防御方法及模型
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
Cao et al. Generative steganography based on long readable text generation
CN108647683A (zh) 一种基于频域加噪的字符对抗验证码生成方法和系统
CN111680480A (zh) 基于模板的作业批改方法、装置、计算机设备及存储介质
CN115329769A (zh) 基于语义增强网络的平台企业网络舆论情感分析方法
CN115147849A (zh) 字符编码模型的训练方法、字符匹配方法和装置
KR20220152167A (ko) 도메인 네임 시스템(dns) 레코드들의 세트에서 피싱-도메인들을 검출하기 위한 시스템 및 방법
CN110765491B (zh) 一种去敏感化数据关联关系的保持方法及系统
CN108090044B (zh) 联系方式的识别方法和装置
CN111582284B (zh) 用于图像识别的隐私保护方法、装置和电子设备
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN116644765A (zh) 语音翻译方法、语音翻译装置、电子设备及存储介质
Liu et al. Subverting privacy-preserving gans: Hiding secrets in sanitized images
CN108874978A (zh) 一基于分层适应性分段网络解决会议内容摘要任务的方法
CN107967472A (zh) 一种使用动态形状编码的搜索词语方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant