CN113688420A - 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 - Google Patents

一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 Download PDF

Info

Publication number
CN113688420A
CN113688420A CN202110871359.6A CN202110871359A CN113688420A CN 113688420 A CN113688420 A CN 113688420A CN 202110871359 A CN202110871359 A CN 202110871359A CN 113688420 A CN113688420 A CN 113688420A
Authority
CN
China
Prior art keywords
data
noise
value
cluster
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110871359.6A
Other languages
English (en)
Other versions
CN113688420B (zh
Inventor
黄福兴
陶晓峰
孙萌
熊霞
刘涅煊
丁宏
陆洋
缪平
李远航
邓良柱
秦勇
李坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NARI Group Corp
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Original Assignee
NARI Group Corp
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NARI Group Corp, Nari Technology Co Ltd, NARI Nanjing Control System Co Ltd filed Critical NARI Group Corp
Priority to CN202110871359.6A priority Critical patent/CN113688420B/zh
Publication of CN113688420A publication Critical patent/CN113688420A/zh
Application granted granted Critical
Publication of CN113688420B publication Critical patent/CN113688420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioethics (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Water Supply & Treatment (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于聚类的差分隐私用电采集数据隐私保护方法及装置,包括:利用差分隐私技术把拉普拉斯噪音添加到用电采集数据中抵御相关攻击;根据聚类分析的结果对噪音值的最大值进行了限制。本发明利用差分隐私技术保护采集到的用电采集数据,保证数据的可用性;为了进一步提高用电采集数据的可用性,限制添加到用电采集数据中的噪音最大值。

Description

一种基于聚类的差分隐私用电采集数据隐私保护方法及装置
技术领域
本发明属于电力系统及其自动化技术领域,具体涉及一种基于聚类的差分隐私用电采集数据隐私保护方法,还涉及一种基于聚类的差分隐私用电采集数据隐私保护装置。
背景技术
随着智慧电网的快速建设,电力在推动社会经济进步、提高人民生活质量方面发挥着越来越多的重要作用。通过合理地对采集到的用电采集数据进行数据分析与挖掘,对于提高电网建设水平和提高用户满意度具有重要的意义,是电力企业生产经营管理及电网安全运行的重要手段。这些被收集到的用电采集数据可以被应用于电力方面的很多聚类分析方面的应用。电力公司可以借助于电网大数据平台对用电采集数据进行聚类分析,提高电网公司的针对不同用户的个性化服务质量,给用户带来更多的便捷。还可以通过用电采集数据分析发现用户的窃电行为保护电网公司的利益。
虽然用户可以通过用电采集数据享受到电力公司更加优质的服务,但同时用户也存在隐私信息被泄露的风险。因为这些用电采集数据不仅包含了用电采集数据本身的电力价值,还包括了用户的其它隐私信息。通过这些用电采集数据,恶意的攻击者可以推测出电力用户的财产情况、习惯以及其它敏感的个人信息。现在,用户对个人的隐私保护越来越重视,并且数据隐私的问题也日益显露出来,因此,在用电采集数据为科学研究提供帮助的同时,也应该保证电力用户的隐私信息不被泄露。
大多数隐私保护技术都是通过直接破坏掉数据中存在的敏感信息,譬如删除掉数据中的姓名、id号等。虽然上述在一定程度上可以保护电力用户的个人隐私,但是很多隐私方面的攻击都无法抵御。特别地,当攻击者了解到相关的背景知识时,保护电力用户的隐私更加困难。其次,关于用电采集数据聚类分析中的隐私保护的研究很少。因此,保护用电采集数据聚类分析中的电力用户隐私的新方法很值得研究。
发明内容
本发明的目的在于克服现有技术中的不足,提供了一种基于聚类的差分隐私用电采集数据隐私保护方法,限制添加到用电采集数据中拉普拉斯噪音的最大值,提高加入噪音后的用电采集数据在聚类分析中的数据质量。
为解决上述技术问题,本发明的技术方案如下。
第一方面,本发明提供了一种基于聚类的差分隐私用电采集数据隐私保护方法,包括以下过程:
对用电采集数据及其相邻数据分别进行数据聚类,得到对应的类簇;
基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数;
基于用电采集数据的类簇数据,计算得到噪音值限制的最大值;
基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值;
将各属性的噪音值添加到用电采集数据的类簇中。
可选地,所述基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数,包括:
拉普拉斯分布下的噪音的概率密度函数表达式如下所示:
Figure BDA0003188968590000031
其中,p(r)表示概率密度,r表示噪音变量,λ为拉普拉斯分布的参数,e表示自然常数;λ由差分隐私参数和全局敏感度决定,其值为全局敏感度Δf和差分隐私参数ε的商;
计算聚类分析中的第i属性的全局敏感度Δf:
Figure BDA0003188968590000032
其中,Δf表示用电采集数据库的某个类簇第i属性的全局敏感度,nc和n'c分别表示两个类簇的数据记录的数量,
Figure BDA0003188968590000033
表示类簇中第j条数据记录的第i个属性,
Figure BDA0003188968590000034
表示相邻类簇中第j′条数据记录的第i个属性;
由于D'和D仅相差一条用电采集数据记录,假设nc=1+n'c,那么公式(3)可以变换为如下公式:
Figure BDA0003188968590000041
由于D'和D进相差一条用电采集数据记录,那么
Figure BDA0003188968590000042
为用电采集数据库D中第i个属性最大的值,该值简记为
Figure BDA0003188968590000043
那么公式(4)可以变换为如下公式:
Figure BDA0003188968590000044
将公式(5)计算得出的全局敏感度代入到公式(2),得到添加到用电采集数据中的拉普拉斯噪音的概率密度函数为:
Figure BDA0003188968590000045
其中,p表示概率密度,nc表示数据记录的数量,ε表示差分隐私参数,cx′i表示类簇中的中心点坐标。
可选的,所述基于用电采集数据的类簇数据,计算得到噪音值限制的最大值,包括:
根据用电采集数据的聚类情况,把噪音值的最大值限制为如公式(7)所示:
Figure BDA0003188968590000051
其中,d表示噪音值,xl表示靠近类簇中心点的第l个其它数据点第i属性的值,m为常量,可根据用采数据要求确定;公式(7)表示噪音值的最大值限制为选择m个数据点与中心点第i属性坐标的距离的平均值。
可选的,所述基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值,包括:
基于噪音的概率密度函数和噪音值限制的最大值,计算得到累积分布函数;
基于累积分布函数的逆反函数,计算得到用电采集数各属性的噪音值。
可选的,所述累积分布函数的计算公式为:
Figure BDA0003188968590000052
其中,nc表示数据记录的数量,ε表示差分隐私参数,cx′i表示相邻数据库类簇中的中心点坐标,dmax表示最大噪音值;设计这个公式是为了求噪音值,根据累积分布求逆反,逆反中累积分布的取值范围为[0,1],代入符合[0,1]均匀分布的值到逆反分布中就可以得到噪音值。
可选的,所述用电采集数属性的噪音值的计算公式为:
Figure BDA0003188968590000061
其中,nc表示数据记录的数量,ε表示差分隐私参数,cx′i表示相邻数据库类簇中的中心点坐标,dmax表示最大噪音值。
可选的,还包括:
判断用电采集数据任一属性是否能够近似表示成其它若干列属性的线性组合;
若第h个属性值xh能够表示成其它一些属性值的线性组合,表示成如下的形式:
Figure BDA0003188968590000062
其中,xh表示第h个属性值,xj表示第j个属性值,wj表示相应的权重值;
则根据线性组合内的属性的噪音值与相应属性的权重wj的乘积的和,计算得到属性值xh的噪音值。
第二方面,本发明的一种基于聚类的差分隐私用电采集数据隐私保护装置,包括:
聚类分析模块,用于对用电采集数据及其相邻数据分别进行数据聚类,得到对应的类簇;
噪音函数计算模块,用于基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数;
噪音值限制模块,用于基于用电采集数据的类簇数据,计算得到噪音值限制的最大值;
噪音值计算模块,用于基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值;
噪音添加模块,用于将各属性的噪音值添加到用电采集数据的类簇中。
与现有技术相比,本发明所达到的有益效果是:
1)拉普拉斯噪音添加到用电采集数据聚类类簇中,实现用采数据的隐私保;
2)限制添加到用电采集数据中拉普拉斯噪音的最大值,给出了限制后的累积分布函数,提高加入噪音后的用电采集数据在聚类分析中的数据质量;
3)根据属性之间的线性关系来确定某些属性的噪音值,节省隐私预算。
附图说明
图1为本发明实施例提供的方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
目前,差分隐私已经成为一种新的隐私保护方法,受到很多很多专家学者们的青睐,在很多领域也得到了很好地应用。该模型可以无视背景知识攻击,通过向查询和分析结果中添加噪音达到隐私保护的效果,并且还可以保证数据的统计特征不被破坏。因此,本发明将差分隐私技术应用到用电采集数据聚类分析的隐私保护中去。并且为了提高加入噪音后的用电采集数据在聚类分析中的数据质量,限制添加到用电采集数据中拉普拉斯噪音的最大值,给出了限制后的累积分布函数。其次,为了节省隐私预算,根据属性之间的线性关系来确定某些属性的噪音值。
实施例1
本发明的一种基于聚类的差分隐私用电采集数据隐私保护方法,参见图1所示,包括如下步骤:
步骤1、确定攻击模型
攻击者通过对用电采集数据聚类分析可以获取到电力用户的隐私信息,确定聚类分析中的攻击方式。
本发明实施例中,用D表示某用电采集数据库,D'表示D的相邻数据库,两个数据库仅相差一条用采数据。对用电采集数据D进行聚类分析,某类簇中数据记录的数量用nc表示,类簇中心第i个属性的坐标(所有点的平均值)用cxi表示,那么类簇中心点坐标表示为(cx1,…,cxi,…,cxk),k为用电采集数据的属性个数。同样的,对相邻数据库D'进行聚类分析,相邻类簇中的数据记录数量n'c和相邻类簇中心的第i个属性的坐标cx'i。攻击者可以根据相邻类簇得到某个记录的属性值。具体分析如下:
首先计算两数据库中类簇数据记录数量和类簇中心点第i属性的坐标乘积之差,由于D'和D仅相差一条用电采集数据记录,因此两个类簇中数据记录数量也相差一条,假设nc=1+n'c,可以推导出如下公式:
Figure BDA0003188968590000081
其中,xj表示D的类簇中第i个属性上的第j行值,xj′表示D'的类簇中第i个属性上的第j′行值,根据(1)式可以得到两数据库中类簇数据记录数量和类簇中心点第i属性的坐标乘积之差即为相差的那条数据记录的第i个属性的值,也就是相差的那条数据记录的第i个属性的值xi=|nc×cxi-n'c×cx'i|。
从以上描述可知,攻击模型是:对数据库D和D'先聚类得到类簇,根据相邻类簇得到某个具体数据记录的属性值。即通过聚类分析来获得数据记录的具体属性值信息。
步骤2,噪音设计
根据确定的用电采集数据在聚类分析时存在的攻击模型,利用差分隐私技术设计加入噪音的概率密度函数。噪音添加是根据用电采集数据的不同属性值分别添加噪音,也就是说是从一维的角度添加噪音。为了抵御聚类攻击模型,要对用电采集数据添加拉普拉斯噪音。
拉普拉斯分布下的噪音的概率密度函数表达式如下所示:
Figure BDA0003188968590000091
其中,p(r)表示概率密度,r表示噪音变量,λ为拉普拉斯分布的参数,e表示自然常数。λ由差分隐私参数和全局敏感度决定,其值为全局敏感度Δf和差分隐私参数ε的商。
接下来计算聚类分析中的第i属性的全局敏感度Δf。
Figure BDA0003188968590000092
其中,Δf表示用电采集数据库的某个类簇第i属性的全局敏感度,nc和n'c分别表示两个类簇的数据记录的数量,
Figure BDA0003188968590000093
表示类簇中第j条数据记录的第i个属性,
Figure BDA0003188968590000101
表示相邻类簇中第j′条数据记录的第i个属性。
由于D'和D仅相差一条用电采集数据记录,假设nc=1+n'c,那么公式(3)可以变换为如下公式:
Figure BDA0003188968590000102
由于D'和D进相差一条用电采集数据记录,那么
Figure BDA0003188968590000103
为用电采集数据库D中第i个属性最大的值,该值简记为
Figure BDA0003188968590000104
那么公式(4)可以变换为如下公式:
Figure BDA0003188968590000105
将公式(5)计算得出的全局敏感度代入到公式(2),得到添加到用电采集数据中的拉普拉斯噪音的概率密度函数为:
Figure BDA0003188968590000111
其中,p表示概率密度,nc表示数据记录的数量,ε表示差分隐私参数,cx′i表示类簇中的中心点坐标。
步骤3,噪音值计算
直接将噪音值添加到用电采集数据中可以避免攻击者通过聚类分析获取到电力用户的隐私信息。虽然通过添加差分隐私噪音可以避免电力用户隐私泄露,但是也在一定程度上牺牲了用电采集数据的质量。为了在保护用户隐私信息的同时也保证用电采集数据用于聚类分析的质量,本发明通过约束添加到用电采集数据中的噪音值的大小,从而避免用电采集数据在进行聚类分析时数据质量不高,换句话说就是防止加噪后的用电采集数据在进行聚类分析时远离了原本的类簇。
根据用电采集数据的实际聚类情况,把噪音值的最大值限制为如公式(7)所示:
Figure BDA0003188968590000112
其中,d表示噪音值,xl表示靠近类簇中心点的第l个其它数据点第i属性的值,m为常量,可根据用采数据要求确定。公式(7)表示噪音值的最大值限制为选择m个数据点与中心点第i属性坐标的距离的平均值。
由于添加到用电采集数据的噪音值的大小被限制,结合拉普拉斯噪音分布的累计分布函数和噪音值最大值限制,累积分布函数的取值范围为[0,1],因此设计噪音值的累积分布函数的表达式如下所示:
Figure BDA0003188968590000121
其中,nc表示数据记录的数量,ε表示差分隐私参数,cx′i表示相邻数据库类簇中的中心点坐标,dmax表示最大噪音值。设计这个公式是为了求噪音值,根据累积分布求逆反,逆反中累积分布的取值范围为[0,1],代入符合[0,1]均匀分布的值到逆反分布中就可以得到噪音值。
根据公式(8)中的累积分布函数求得相应的逆反函数,根据逆反函数来求加入用电采集数据中的噪音值。由于累积分布函数的取值范围为[0,1],因此只需要生成服从参数为[0,1]的均匀分布的随机数结合逆反函数就能够得到噪音值。
噪音值的表达式如下所示:
Figure BDA0003188968590000122
其次,通过线性分析模型分析第h个属性值是否可以表示成其它一些属性值的线性组合,假如可以表示成如下的形式:
Figure BDA0003188968590000123
其中,xh表示第h个属性值,xj表示第j个属性值,wj表示相应的权重值。
那么就可以根据线性组合内的属性的噪音值与(10)中相应属性的权重wj的乘积的和来求的属性值xh的噪音值。
步骤4,用采数据隐私保护
将噪音值添加到用采数据中,最终抵御第一步聚类的攻击,从而实现用采数据的隐私保护。
具体包括以下过程:
(1)数据预处理:对用电采集数据进行数据清洗,然后对于采集到的数据中存在缺失的部分,利用插值法来填充。
(2)线性判断:用于判断用电采集数据第i列的属性值是否可以近似表示成其它若干列属性的线性组合。
判断的过程为:利用python中Sklearn包中的线性预测方法,用其它列来线性预测第i列,如果预测误差在设置阈值范围内,就认为可以近似表示成其它若干列的线性组合。
(3)数据聚类:对预处理后的用电采集数据进行数据聚类,得到若干个聚类类簇。
(4)数据隐私保护:对聚类后不同类簇中的用采数据利用差分隐私技术添加噪音。根据公式9计算得到噪音值,将噪音值添加到用采数据中,最终抵御第一步聚类的攻击,从而实现用采数据的隐私保护。
不能用其它列线性表示的属性列值直接添加噪音,可以用其它若干列的线性组合表示的属性列,根据线性组合的权重和该列的噪音值来确定添加的噪音。
实施例2
基于与实施例1同样的发明构思,本发明还提供了一种基于聚类的差分隐私用电采集数据隐私保护装置,包括:
聚类分析模块,用于对用电采集数据及其相邻数据分别进行数据聚类,得到对应的类簇;
噪音函数计算模块,用于基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数;
噪音值限制模块,用于基于用电采集数据的类簇数据,计算得到噪音值限制的最大值;
噪音值计算模块,用于基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值;
噪音添加模块,用于将各属性的噪音值添加到用电采集数据的类簇中。
本发明装置中各模块的具体实现方案参见实施例1方法的各步骤过程。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (8)

1.一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,包括以下过程:
对用电采集数据及其相邻数据分别进行数据聚类,得到对应的类簇;
基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数;
基于用电采集数据的类簇数据,计算得到噪音值限制的最大值;
基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值;
将各属性的噪音值添加到用电采集数据的类簇中。
2.根据权利要求1所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,所述基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数,包括:
拉普拉斯分布下的噪音的概率密度函数表达式如下所示:
Figure FDA0003188968580000011
其中,p(r)表示概率密度,r表示噪音变量,λ为拉普拉斯分布的参数,e表示自然常数;λ由差分隐私参数和全局敏感度决定,其值为全局敏感度Δf和差分隐私参数ε的商;
计算聚类分析中的第i属性的全局敏感度Δf:
Figure FDA0003188968580000021
其中,Δf表示用电采集数据库的某个类簇第i属性的全局敏感度,nc和n'c分别表示两个类簇的数据记录的数量,
Figure FDA0003188968580000022
表示类簇中第j条数据记录的第i个属性,
Figure FDA0003188968580000023
表示相邻类簇中第j′条数据记录的第i个属性;
由于用电采集数据D和相邻数据D'仅相差一条用电采集数据记录,假设nc=1+n'c,那么公式(3)变换为如下公式:
Figure FDA0003188968580000024
由于D'和D进相差一条用电采集数据记录,那么
Figure FDA0003188968580000025
为用电采集数据D中第i个属性最大的值,该值简记为
Figure FDA0003188968580000026
那么公式(4)变换为如下公式:
Figure FDA0003188968580000031
将公式(5)计算得出的全局敏感度代入到公式(2),得到添加到用电采集数据中的拉普拉斯噪音的概率密度函数为:
Figure FDA0003188968580000032
其中,p表示概率密度,nc表示数据记录的数量,ε表示差分隐私参数,cxi'表示类簇中的中心点坐标。
3.根据权利要求1所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,所述基于用电采集数据的类簇数据,计算得到噪音值限制的最大值,包括:
根据用电采集数据的聚类情况,把噪音值的最大值限制为如公式(7)所示:
Figure FDA0003188968580000033
其中,d表示噪音值,xl表示靠近类簇中心点的第l个其它数据点第i属性的值,m为常量;公式(7)表示噪音值的最大值限制为选择m个数据点与中心点第i属性坐标的距离的平均值。
4.根据权利要求1所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,所述基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值,包括:
基于噪音的概率密度函数和噪音值限制的最大值,计算得到累积分布函数;
基于累积分布函数的逆反函数,计算得到用电采集数各属性的噪音值。
5.根据权利要求4所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,所述累积分布函数的计算公式为:
Figure FDA0003188968580000041
其中,nc表示数据记录的数量,ε表示差分隐私参数,
Figure FDA0003188968580000042
表示用电采集数据D中第i个属性最大的值,cx′i表示相邻数据库类簇中的中心点坐标,dmax表示最大噪音值,d表示噪音值。
6.根据权利要求5所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,所述用电采集数属性的噪音值的计算公式为:
Figure FDA0003188968580000043
其中,nc表示数据记录的数量,ε表示差分隐私参数,
Figure FDA0003188968580000044
表示用电采集数据D中第i个属性最大的值,cx′i表示相邻数据库类簇中的中心点坐标,m为常量,dmax表示最大噪音值。
7.根据权利要求1所述的一种基于聚类的差分隐私用电采集数据隐私保护方法,其特征在于,还包括:
判断用电采集数据任一属性是否能够近似表示成其它若干列属性的线性组合;
若第h个属性值xh能够表示成其它一些属性值的线性组合,表示成如下的形式:
Figure FDA0003188968580000051
其中,xh表示第h个属性值,xj表示第j个属性值,wj表示相应的权重值;
则根据线性组合内的属性的噪音值与相应属性的权重wj的乘积的和,计算得到属性值xh的噪音值。
8.一种基于聚类的差分隐私用电采集数据隐私保护装置,其特征在于,包括:
聚类分析模块,用于对用电采集数据及其相邻数据分别进行数据聚类,得到对应的类簇;
噪音函数计算模块,用于基于用电采集数据及其相邻数据的类簇数据,计算得到拉普拉斯噪音的概率密度函数;
噪音值限制模块,用于基于用电采集数据的类簇数据,计算得到噪音值限制的最大值;
噪音值计算模块,用于基于噪音的概率密度函数和噪音值限制的最大值,计算得到用电采集数各属性的噪音值;
噪音添加模块,用于将各属性的噪音值添加到用电采集数据的类簇中。
CN202110871359.6A 2021-07-30 2021-07-30 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 Active CN113688420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110871359.6A CN113688420B (zh) 2021-07-30 2021-07-30 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110871359.6A CN113688420B (zh) 2021-07-30 2021-07-30 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置

Publications (2)

Publication Number Publication Date
CN113688420A true CN113688420A (zh) 2021-11-23
CN113688420B CN113688420B (zh) 2024-04-30

Family

ID=78578397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110871359.6A Active CN113688420B (zh) 2021-07-30 2021-07-30 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置

Country Status (1)

Country Link
CN (1) CN113688420B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
US20210012031A1 (en) * 2019-07-01 2021-01-14 Warner Bros. Entertainment Inc. Systems and methods to maintain user privacy while providing recommendations
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
US20210012031A1 (en) * 2019-07-01 2021-01-14 Warner Bros. Entertainment Inc. Systems and methods to maintain user privacy while providing recommendations
CN110727959A (zh) * 2019-10-15 2020-01-24 南京航空航天大学 一种基于聚类的差分隐私轨迹数据保护方法
JP2022041957A (ja) * 2020-08-31 2022-03-11 株式会社日立製作所 データ解析システムのプライバシー保護データを生成する方法及びデバイス

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹春萍;徐帮兵;: "一种带隐私保护的基于标签的推荐算法研究", 计算机科学, no. 08, 15 August 2017 (2017-08-15), pages 140 - 145 *
梁晓兵;许斌;翟峰;沈博;: "基于属性分类的用电大数据隐私保护方法", 计算机工程与应用, no. 05, 31 January 2018 (2018-01-31), pages 97 - 104 *

Also Published As

Publication number Publication date
CN113688420B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN108959961B (zh) 一种查询平均成绩的隐私保护方法
Verykios Association rule hiding methods
Ge et al. Efficient all top-k computation-a unified solution for all top-k, reverse top-k and top-m influential queries
CN112990583B (zh) 一种数据预测模型的入模特征确定方法及设备
Song et al. The application of cluster analysis in geophysical data interpretation
Agarwal et al. I/O-efficient batched union-find and its applications to terrain analysis
Li et al. A novel algorithm for privacy preserving utility mining based on integer linear programming
Yin et al. An industrial dynamic skyline based similarity joins for multidimensional big data applications
Jain et al. Privacy preserving processing of data decision tree based on sample selection and singular value decomposition
CN108182531A (zh) 页岩气开发评价方法、装置及终端设备
Liu et al. Efficiently learning spatial indices
CN114118858A (zh) 电力安全智能评估方法、装置、设备、介质和程序产品
CN113688420B (zh) 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置
CN112560084A (zh) 基于r树的差分隐私轨迹保护方法
Yadav et al. Privacy preserving data mining with abridge time using vertical partition decision tree
Tian Design and implementation of distributed government audit system based on multidimensional online analysis
CN113190841A (zh) 一种使用差分隐私技术防御图数据攻击的方法
CN111144540A (zh) 反窃电仿真数据集的生成方法
CN116910596B (zh) 一种基于改进dbscan聚类的用户窃电分析方法、设备及存储介质
CN110705736A (zh) 宏观经济预测方法、装置、计算机设备及存储介质
Zhi et al. Personalized Differential Privacy Preservation Method for Trajectory Based on Regional Density Analysis
Amiri et al. Sensitive data anonymization using genetic algorithms for SOM-based clustering
CN117827961B (zh) 一种基于大数据的国土空间规划方法及相关设备
Kontaki et al. Continuous subspace clustering in streaming time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant