CN110990869B - 一种应用于隐私保护的电力大数据脱敏方法 - Google Patents

一种应用于隐私保护的电力大数据脱敏方法 Download PDF

Info

Publication number
CN110990869B
CN110990869B CN201911200196.8A CN201911200196A CN110990869B CN 110990869 B CN110990869 B CN 110990869B CN 201911200196 A CN201911200196 A CN 201911200196A CN 110990869 B CN110990869 B CN 110990869B
Authority
CN
China
Prior art keywords
data
attribute
distance
generalization
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911200196.8A
Other languages
English (en)
Other versions
CN110990869A (zh
Inventor
孙林檀
吕静贤
韩维
陈龙
汪亚娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Original Assignee
State Grid Co ltd Customer Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center filed Critical State Grid Co ltd Customer Service Center
Priority to CN201911200196.8A priority Critical patent/CN110990869B/zh
Publication of CN110990869A publication Critical patent/CN110990869A/zh
Application granted granted Critical
Publication of CN110990869B publication Critical patent/CN110990869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种应用于隐私保护的电力大数据脱敏方法。包括以下步骤:步骤1:对各个数据库中的敏感信息进行收集和整理,形成源数据表;步骤2:对数据表T中的数据进行聚类;本发明相对于现有技术的优点在于:一方面对数据泛化前,先确定一种分类型属性对数据表初分类,以减少计算复杂度;另一方面在计算数据间距离时,根据当前属性值的方差确定该属性值在距离测算中所占的比重,从而使得聚类更加合理化,尽可能减小泛化程度从而降低数据损失量。

Description

一种应用于隐私保护的电力大数据脱敏方法
技术领域:
本发明涉及防止未授权行为的保护计算机信息安全的方法,进一步涉及一种应用于隐私保护的电力大数据脱敏方法。
背景技术:
随着数字化技术的高速发展和移动终端的普及,数据成爆炸式增长,大数据时代已悄然来临。随着大数据所蕴含着的巨大商业价值愈发受到各方关注,目前各行各业都在致力于大数据的挖掘和分析。然而,大数据往往包含用户大量的敏感信息,而未经处理直接发布或共享原始数据,将不可避免地泄露用户隐私信息。因此,在大数据应用过程中,应坚持安全与发展并重的原则,在充分发挥数据价值的同时,着力解决数据安全及个人信息保护问题。
例如,国家电网公司目前在大力推进智慧家庭建设,提高居民的用电智能化水平,采集了用户的海量信息,主要包括两方面:(1)工作中业务系统的运行数据,包括各类工单数据,各类仪器实时用电量数据,现场工作票等数据信息。(2)用户的个人信息,包括:姓名,手机号,身份证号,家庭住址,所在单位等信息。当国家电网公司在外包项目工程时,需要提供测试数据,如果直接从数据库中导出,必然会泄露用户信息。不仅如此,很多大数据平台,医疗系统等也存在隐私泄露的风险。目前,个人隐私保护问题己经引起了公众的广泛关注,不仅在我国,在欧盟和美国也有新增立法保护个人信息。由此可见,如果不能解决由于大数据共享导致的个人隐私泄露的问题,将给相关数据发布和使用方带来严重的法律风险,进而阻碍大数据技术的应用和发展。兙
Sweeney等人2002年提出的k-匿名(k-anonymity)模型是一种经典的隐私保护方法,进一步,Machanavajjhala等人在之后提出了L-diversity的概念,解决了k-anonymity模型无法解决的同质攻击。Aggrawal等人于2006年首次提出利用聚类方法实现数据匿名隐私保护,此后陆续可见一些聚类匿名的研究成果,包括姜火文等人提出了GAA-CP聚类匿名算法,借用贪心法和聚类思想将n个元组按距离最小化进行贪心聚类划分,分别实现匿名,尽可能保证数据损失最小。GAA-CP在计算元祖间距离时,一开始就将数值型属性数据和分类型属性数据合并计算,导致在聚类时将分类型数据无差别化合并,从而扩大了数据的泛化程度,使数据损失量变大,用于数据挖掘、分析的价值较低。
发明内容:
本发明提供一种对数值型数据和分类型数据进行聚类匿名的BKC-LDA算法(Binary K-Clustering L-Diversity Algorithm),通过改进GAA-CP算法,对电力用户相关大数据进行筛选,挖掘和分析,对需要隐私保护的敏感类数据和需要泛化可公开数据进行分类。具体技术方案如下:
一种应用于隐私保护的电力大数据脱敏方法,包括以下步骤:
步骤1:对各个数据库中的敏感信息进行收集和整理,敏感信息包括:姓名,身份证号,年龄,联系电话,电表用户号,用电量,账户余额等信息,形成源数据表;整理过程包括:数值型数据和分类型数据的分类,属性表示为:QI={N1,...,Nn1,C1,...,Cn2},其中{N1,...,Nn1}表示数值型属性,{C1,...,Cn2}表示为分类型属性;对需要隐匿的属性数据进行隐匿,对需要公开的数据进行泛化;
步骤2:对数据表T中的数据进行聚类,其步骤为:
步骤2.1:对于源数据表T中每条数据记录,即为元祖,选定一个带有分类属性的准标识Cd进行初划分,即:
T={P1,P2,,Pi,...,PI}(P1≠P2≠...≠Pi≠PI);
根据元祖间的距离计算公式对Pi中的元祖执行聚类操作,进一步确定泛化类;
假设对于任意两个元祖rj,rk,包括数值型数据{N1,...,Nn1}和分类型数据{C1,...,Cn2},对于数值型属性Ns,其数据间的距离为
Figure BDA0002295677470000037
定义如下:
Figure BDA0002295677470000031
其中,
Figure BDA0002295677470000032
σ分别为属性Ns的平均值和方差,
Figure BDA0002295677470000033
为初分类的数据集Pi中属性Ns的域值长度。
Figure BDA0002295677470000034
相当于对数值型数据进行加权,σ越大,即为该属性的数据越容易辨别,需加大数据间的泛化距离,减小在记录间距离测算的重要度,从而有效减小数据损失量;
对于分类型属性Ct,令D为分类域,TD为D上的泛化树,对于任意两个分类值rj,rk∈D,rj,rk之间的距离
Figure BDA0002295677470000035
定义为:
dCi(rj,rk)=W(Δ(rj,rk))/W(TD)
其中,Δ(rj,rk)表示泛化树中以节点x和y的最小公共祖先为根的子树,W(T)表示泛化树T的层次距离总和,以实现距离的标准化;
那么元祖间的总距离表示为:
Figure BDA0002295677470000036
步骤2.2:对初分类集合Pi执行聚类操作,即:从数据集Pi中任意选定元祖rj,求出Pi中距离rj最远的元祖rk,并以这两个元祖为质心执行聚类操作;对Pi中的其他数据记录rm,计算其与两个质心的距离D(rm,rj),D(rm,rk),将rm归类为与其距离较近的质心,由此将Pi二化分,分为
Figure BDA0002295677470000041
若当前数据集
Figure BDA0002295677470000042
Figure BDA0002295677470000043
已经满足数据条数的限制,则将形成的等价类加入到等价类集合:EQ←{EQ,E(Pj)}(假设
Figure BDA0002295677470000044
满足条件),停止对该数据集Pj的二化分,否则重复执行步骤2.2;
步骤2.3:在上一步的基础上,对聚类后的数据执行泛化操作。为了避免出现同质攻击,考虑敏感属性SA,对于符合L-diversity的集合进行泛化,对于不符合敏感属性种类的集合重新执行二划分,增加其中元祖数,扩大等价类的大小,直到满足等价类种类不小于L的要求;若此时Pi不满足数据条数限制,则将其归为当前等价类。这样虽然可能导致泛化范围的扩大,数据损失量增大,但减小了敏感信息泄露的危险,确保了信息安全。将最终划分好的满足K聚类,L多样性的泛化后的数据放入数据表
Figure BDA0002295677470000045
步骤2.4:在执行步骤2.3时根据用户的查看数据库的权限大小,将数据分为三个等级,从一级到三级用户查看权限依次变高,用户的查看权限越大,数据的泛化程度越小,越能看到更多的用户信息。
本发明相对于现有技术的优点在于:一方面对数据泛化前,先确定一种分类型属性对数据表初分类,以减少计算复杂度;另一方面在计算数据间距离时,根据当前属性值的方差确定该属性值在距离测算中所占的比重,从而使得聚类更加合理化,尽可能减小泛化程度从而降低数据损失量。
附图说明:
图1是本发明实施例中用户地址信息分布图。
图2执行BKC-LDA算法与GAA-CP算法时,调整K,L值,从而改变泛化类的大小,得到三个等级权限下平均每条记录的数据损失量对比图。易知,权限越大的用户能够看到的用户信息越多,随着权限等级的变大,在保护用户隐私的条件下,本发明的BKC-LDA算法在同等级下始终保持较低的数据损失量,当公开本发明所处理后的数据时,数据的可用性较强,能够有效保护用户隐私,对数据脱敏效果显著。
具体实施方式:
实施例:
下面结合图表和具体实例对本发明提供的基于贪心和聚类的思想,以及K匿名算法和L多样性算法的大数据脱敏方法进行详细说明。
表1
Figure BDA0002295677470000051
本发明的BKC-LDA算法由以下步骤实现:
步骤1:从电力各类数据库中选取北京市昌平区、海淀区和朝阳区三个区域的用户数据,图1为以三个区域的划分图,从上到下依次为三个等级权限所能看到的信息;本发明以海淀区为例,海淀区分为街道,镇和地区三种行政区域;表1为从选出的海淀区部分用户的源数据表T,其中包括带有分类属性的地址信息,以及数值属性的年龄,月用电量和账户余额信息;住址信息为分类型数据C1;年龄,月用电量以及账户余额为数值型数据,分别表示为N1,N2,N3,其中账户余额为敏感属性SA,为了数据的信息安全,需要对住址信息,年龄以及月用电量信息进行泛化,以此达到隐私保护的目的;
步骤2:对数据表T中的数据进行聚类,步骤如下:
步骤2.1:首先,以三级查看权限为例进行说明,将表1中的数据以住址信息C1为依据进行初分类,即,将数据中地址信息中为北京市海淀区街道、北京市海淀区镇和北京市海淀区地区分别划分为三大类,T={P1,P2,P3},然后分别对这三类数据采用BKC-LDA算法进一步划分;由表1知,P1包括元祖r1:r5,P2包括元祖r6:r7,P3包括元祖r8:r11;根据数据表T的元祖个数设定本实例中K=3,L=2,以P1为例,实施泛化;
步骤2.2:对初分类集合Pi执行聚类操作,随机选定一个元祖rj,假设为rj←r2,根据公式:
Figure BDA0002295677470000061
遍历可得与r2距离最远的元祖为r1;以r1,r2为聚类中心,若当前数据集
Figure BDA0002295677470000062
Figure BDA0002295677470000063
已经满足数据条数K的限制,则等价类集合将r3~r5进行二化分,得到
Figure BDA0002295677470000064
Figure BDA0002295677470000065
满足K聚类;
步骤2.3:在上一步的基础上,对聚类后的数据执行泛化操作;为了避免出现同质攻击,考虑敏感属性SA,对于符合L-diversity的集合进行泛化,对于不符合敏感属性种类的集合重新执行二划分,增加其中元祖数,扩大等价类的大小,直到满足等价类种类不小于L的要求;对于剩下的
Figure BDA0002295677470000066
由于元祖数为2,且敏感属性账户余额的种类为2,满足条件L≥2,则直接执行泛化;同理可对P2,P3中的数据采用步骤2.2~2.3进一步划分,以此完成对整个数据表的脱敏过程,执行结果如表2所示;
表2
Figure BDA0002295677470000071
步骤2.4:上述是针对一种用户权限的数据脱敏方法,对于不同的用户权限,本发明调整K,L值,改变类中元祖的个数,扩大准标识符属性的泛化程度,根据数据泛化程度的不同分别确定1~3等级的用户权限。
对比例:
同样对表1中的数据执行GAA-CP算法,其数据脱敏结果如表3所示,易知,由于GAA-CP算法在计算元祖之间距离时没有进行初分类,而单纯依据距离公式进行聚类将导致扩大等价类的泛化程度,如表3中所示,已经将r1~r3泛化为北京市海淀区,扩大了泛化程度从而使数据信息量的损失变大,不利于数据分析和进一步的挖掘;
3.
表3
Figure BDA0002295677470000072
Figure BDA0002295677470000081
下面结合图表和具体实例对本发明提供的基于贪心和聚类的思想,以及K匿名算法和L多样性算法的大数据脱敏方法进行详细说明。
本发明的BKC-LDA算法由以下步骤实现:
步骤1:从电力各类数据库中选取北京市昌平区、海淀区和朝阳区三个区域的用户数据,图1为以三个区域的划分图,从上到下依次为三个等级权限所能看到的信息;本实施例以海淀区为例,海淀区分为街道,镇和地区三种行政区域;表1为从选出的海淀区部分用户的源数据表T,其中包括带有分类属性的地址信息,以及数值属性的年龄,月用电量和账户余额信息;住址信息为分类型数据C1;年龄,月用电量以及账户余额为数值型数据,分别表示为N1,N2,N3,其中账户余额为敏感属性SA,为了数据的信息安全,需要对住址信息,年龄以及月用电量信息进行泛化,以此达到隐私保护的目的;
步骤2:首先,以三级查看权限为例进行说明,根据步骤2.1对表1中的数据以住址信息C1为依据进行初分类,即,将数据中地址信息中为北京市海淀区街道、北京市海淀区镇和北京市海淀区地区分别划分为三大类,T={P1,P2,P3},然后分别对这三类数据采用BKC-LDA算法进一步划分;由表1知,P1包括元祖r1:r5,P2包括元祖r6:r7,P3包括元祖r8:r11;根据数据表T的元祖个数设定本实例中K=3,L=2,以P1为例,泛化步骤如下:
步骤2.1:随机选定一个元祖rj,假设为rj←r2,根据公式:
Figure BDA0002295677470000091
遍历可得与r2距离最远的元祖为r1
步骤2.2:以r1,r2为聚类中心,根据步骤2.2~2.3将r3~r5进行二化分,得到
Figure BDA0002295677470000092
Figure BDA0002295677470000093
满足K聚类,L多样性要求,可执行泛化操作;对于剩下的
Figure BDA0002295677470000094
由于元祖数为2,且敏感属性账户余额的种类为2,满足条件L≥2,则直接执行泛化;同理可对P2,P3中的数据采用BKC-LDA算法进一步划分,以此完成对整个数据表的脱敏过程,执行结果如表2所示;
表2
Figure BDA0002295677470000095
对于不同的用户权限,本发明调整K,L值,改变类中元祖的个数,扩大准标识符属性的泛化程度,根据数据泛化程度的不同分别确定1~3等级的用户权限。
对比例:
同样对表1中的数据执行GAA-CP算法,其数据脱敏结果如表3所示,易知,由于GAA-CP算法在计算元祖之间距离时没有进行初分类,而单纯依据距离公式进行聚类将导致扩大等价类的泛化程度,如表3中所示,已经将r1~r3泛化为北京市海淀区,扩大了泛化程度从而使数据信息量的损失变大,不利于数据分析和进一步的挖掘。
表3
Figure BDA0002295677470000101

Claims (1)

1.一种应用于隐私保护的电力大数据脱敏方法,其特征在于,包括以下步骤:
步骤1:对各个数据库中的敏感信息进行收集和整理,形成源数据表;整理过程包括:数值型数据和分类型数据的分类,属性表示为:QI={N1,...,Nn1,C1,...,Cn2},其中{N1,...,Nn1}表示数值型属性,{C1,...,Cn2}表示为分类型属性;对需要隐匿的属性数据进行隐匿,对需要公开的数据进行泛化;
步骤2:对数据表T中的数据进行聚类,其步骤为:
步骤2.1:对于源数据表T中每条数据记录,即为元祖,选定一个带有分类属性的准标识Cd进行初划分,即:
T={P1,P2,,Pi,...,PI}(P1≠P2≠...≠Pi≠PI);
根据元祖间的距离计算公式对Pi中的元祖执行聚类操作,进一步确定泛化类;
假设对于任意两个元祖rj,rk,包括数值型数据{N1,...,Nn1}和分类型数据{C1,...,Cn2},对于数值型属性Ns,其数据间的距离为
Figure FDA0002295677460000011
定义如下:
Figure FDA0002295677460000012
其中,
Figure FDA0002295677460000013
σ分别为属性Ns的平均值和方差,
Figure FDA0002295677460000014
为初分类的数据集Pi中属性Ns的域值长度;
Figure FDA0002295677460000015
相当于对数值型数据进行加权,σ越大,即为该属性的数据越容易辨别,需加大数据间的泛化距离,减小在记录间距离测算的重要度,从而有效减小数据损失量;
对于分类型属性Ct,令D为分类域,TD为D上的泛化树,对于任意两个分类值rj,rk∈D,rj,rk之间的距离
Figure FDA0002295677460000016
定义为:
Figure FDA0002295677460000021
其中,Δ(rj,rk)表示泛化树中以节点x和y的最小公共祖先为根的子树,W(T)表示泛化树T的层次距离总和,以实现距离的标准化;
那么元祖间的总距离表示为:
Figure FDA0002295677460000022
步骤2.2:对初分类集合Pi执行聚类操作,即:从数据集Pi中任意选定元祖rj,求出Pi中距离rj最远的元祖rk,并以这两个元祖为质心执行聚类操作;对Pi中的其他数据记录rm,计算其与两个质心的距离D(rm,rj),D(rm,rk),将rm归类为与其距离较近的质心,由此将Pi二化分,分为
Figure FDA0002295677460000023
若当前数据集
Figure FDA0002295677460000024
Figure FDA0002295677460000025
已经满足数据条数的限制,则将形成的等价类加入到等价类集合:EQ←{EQ,E(Pj)}(假设
Figure FDA0002295677460000026
满足条件),停止对该数据集Pj的二化分,否则重复执行步骤2.2;
步骤2.3:在上一步的基础上,对聚类后的数据执行泛化操作;为了避免出现同质攻击,考虑敏感属性SA,对于符合L-diversity的集合进行泛化,对于不符合敏感属性种类的集合重新执行二划分,增加其中元祖数,扩大等价类的大小,直到满足等价类种类不小于L的要求;若此时Pi不满足数据条数限制,则将其归为当前等价类;这样虽然可能导致泛化范围的扩大,数据损失量增大,但减小了敏感信息泄露的危险,确保了信息安全;将最终划分好的满足K聚类,L多样性的泛化后的数据放入数据表
Figure FDA0002295677460000027
步骤2.4:在执行步骤2.3时根据用户的查看数据库的权限大小,将数据分为三个等级,从一级到三级用户查看权限依次变高,用户的查看权限越大,数据的泛化程度越小,越能看到更多的用户信息。
CN201911200196.8A 2019-11-29 2019-11-29 一种应用于隐私保护的电力大数据脱敏方法 Active CN110990869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911200196.8A CN110990869B (zh) 2019-11-29 2019-11-29 一种应用于隐私保护的电力大数据脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911200196.8A CN110990869B (zh) 2019-11-29 2019-11-29 一种应用于隐私保护的电力大数据脱敏方法

Publications (2)

Publication Number Publication Date
CN110990869A CN110990869A (zh) 2020-04-10
CN110990869B true CN110990869B (zh) 2022-11-18

Family

ID=70088338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911200196.8A Active CN110990869B (zh) 2019-11-29 2019-11-29 一种应用于隐私保护的电力大数据脱敏方法

Country Status (1)

Country Link
CN (1) CN110990869B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231759A (zh) * 2020-11-20 2021-01-15 深圳前海微众银行股份有限公司 日志脱敏方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5511532B2 (ja) * 2010-06-16 2014-06-04 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN105512566B (zh) * 2015-11-27 2018-07-31 电子科技大学 一种基于k-匿名的健康数据隐私保护方法
CN107273757B (zh) * 2017-04-23 2020-08-18 西安电子科技大学 一种基于l-diversity规则和MDAV算法的处理大数据的方法
CN108133146A (zh) * 2017-06-01 2018-06-08 徐州医科大学 基于二次划分的敏感属性l-diversity隐私保护方法

Also Published As

Publication number Publication date
CN110990869A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
Cheng et al. K-isomorphism: privacy preserving network publication against structural attacks
CN107358116B (zh) 一种多敏感属性数据发布中的隐私保护方法
Chang et al. TFRP: An efficient microaggregation algorithm for statistical disclosure control
Shuttleworth et al. Are Northern Ireland's communities dividing? Evidence from geographically consistent Census of Population data, 1971–2001
Gao et al. Local differential privately anonymizing online social networks under hrg-based model
TW201426578A (zh) 匿名資料集的產生方法及裝置與風險評估方法及裝置
Wu et al. Privacy preserving data mining research: Current status and key issues
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及系统
US11983297B2 (en) Efficient statistical techniques for detecting sensitive data
CN107273752B (zh) 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法
Kuang et al. A privacy protection model of data publication based on game theory
CN114092729A (zh) 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
Le et al. Anonymous privacy preservation based on m-signature and fuzzy processing for real-time data release
CN116108167A (zh) 一种结合知识图谱的个人敏感信息分类分级方法
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN110990869B (zh) 一种应用于隐私保护的电力大数据脱敏方法
Shaham et al. Machine learning aided anonymization of spatiotemporal trajectory datasets
Sun et al. Anomaly subgraph detection with feature transfer
CN113158206A (zh) 一种基于决策树的文档安全等级划分方法
Chong et al. Trace me if you can: an unlinkability approach for privacy-preserving in social networks
CN103336865B (zh) 一种动态通信网络构建方法及装置
Tang et al. A data desensitization algorithm for privacy protection electric power industry
CN112800242B (zh) 谱系挖掘方法、装置、电子设备及计算机可读存储介质
Kan Seeking the ideal privacy protection: Strengths and limitations of differential privacy
Liu et al. Trajectory privacy data publishing scheme based on local optimisation and R-tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant