CN112131605A - 一种基于互信息相关技术的差分隐私动态数据发布方法 - Google Patents

一种基于互信息相关技术的差分隐私动态数据发布方法 Download PDF

Info

Publication number
CN112131605A
CN112131605A CN202011014417.5A CN202011014417A CN112131605A CN 112131605 A CN112131605 A CN 112131605A CN 202011014417 A CN202011014417 A CN 202011014417A CN 112131605 A CN112131605 A CN 112131605A
Authority
CN
China
Prior art keywords
data
cluster
clustering
mutual information
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011014417.5A
Other languages
English (en)
Inventor
冉家敏
刘胜军
谢飞
倪志伟
陈千
丁正
朱旭辉
倪丽萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei City Cloud Data Center Co ltd
Hefei University of Technology
Original Assignee
Hefei City Cloud Data Center Co ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei City Cloud Data Center Co ltd, Hefei University of Technology filed Critical Hefei City Cloud Data Center Co ltd
Priority to CN202011014417.5A priority Critical patent/CN112131605A/zh
Publication of CN112131605A publication Critical patent/CN112131605A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Nonlinear Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种基于互信息相关技术的差分隐私动态数据发布方法,与现有技术相比解决了噪声积累多、隐私预算分配不当、数据可用性差的缺陷。本发明包括以下步骤:动态数据流的获取;动态数据流的分割;初始聚类处理;待发布分组的形成;分组数据的发布;差分隐私动态数据的发布。本发明根据动态数据流的特点,采用分形技术对数据进行聚类处理,并利用互信息相关知识进行聚类成员选择,最后结合差分隐私技术对聚类结果添加隐私保护再发布数据,从而提高动态数据发布的安全性及数据的可用性。

Description

一种基于互信息相关技术的差分隐私动态数据发布方法
技术领域
本发明涉及动态数据隐私发布技术领域,具体来说是一种基于互信息相关技术的差分隐私动态数据发布方法。
背景技术
在混合云数据中心中,不仅存在定期收集的静态数据,也会有源源不断的动态数据流进入,常见的交通流数据、在线交易数据、环境监测数据等均属于动态数据,这些数据通常以一种实时、连续不断、非匀速的方式到达,而且通常类型繁杂、数量无法预知。在对这类数据进行统计发布时,一方面可以挖掘其中蕴含的价值,但另一方面也存在隐私信息泄漏的危险,为了对隐私数据进行保护,不少研究者对此进行了研究。
为了保护隐私信息的安全性,研究使用泛化、抑制等方法隐藏敏感信息实现对数据的保护,通常采用k-匿名(SWEENEY L.k-anonymity:a model for protecting privacy[J].Inter-national Journal on Uncertainty,Fuzziness and Knowledge-basedSystems,2002,10(5):557-570)以及在其基础上改进的l-多样性(MACHANAVAJJHALA A,KIFER D,GEHRKE J,et al.l-diversity:privacy beyond k-anonymity[C]//Proc of the22nd International Conference on Data Engineering.Washington DC:IEEE ComputerSociety,2006:24-35)、t-保密性(Li N,Li T,Venkatasubramanian S.t-closeness:Privacy beyond k-anonymity and l-diversity[C]//Data Engineering,2007.ICDE2007.IEEE 23rd International Conference on.IEEE,2007:106-115)等方法进行数据发布隐私保护。
但上述隐私保护方法在现实应用中仍然存在不小的局限性,只能针对特定的攻击手段。近年来,为了抵抗背景知识攻击,差分隐私技术应运而生,该技术可保证即使攻击者获取所能得到的最大背景知识,也无法获取用户的隐私信息,因而结合差分隐私技术的数据发布方法逐渐流行起来(屈晶晶,蔡英,夏红科.面向动态数据发布的差分隐私保护研究综述[J].北京信息科技大学学报(自然科学版),2019,34(06):30-36)。
目前,由于数据中心中动态数据体量庞大,针对动态数据的数据发布问题需求强烈,但由于和静态数据特征的不同,导致静态数据的差分隐私发布方法无法支撑动态数据发布。同时,由于动态数据流需要快速而准确的进行统计发布,在进行差分隐私数据发布时通常容易出现噪声积累过多、隐私预算分配不当、数据可用性降低等问题,从而导致数据发布结果误差大,隐私容易泄露等后果。
发明内容
本发明的目的是为了解决现有技术中噪声积累多、隐私预算分配不当、数据可用性差的缺陷,提供一种基于互信息相关技术的差分隐私动态数据发布方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于互信息相关技术的差分隐私动态数据发布方法,包括以下步骤:
动态数据流的获取:获取待处理的动态数据流;
动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
Figure BDA0002698582970000021
其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
Figure BDA0002698582970000022
差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
所述初始聚类处理包括以下步骤:
抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ12,...,λi,...,λH},λi表示第i次聚类结果;
若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为
Figure BDA0002698582970000031
分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
Figure BDA0002698582970000032
其中,计算每个簇的分形维数的公式为:
Figure BDA0002698582970000033
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;
Figure BDA0002698582970000034
表示盒子所覆盖的数据点数。
所述待发布分组的形成包括以下步骤:
对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到
Figure BDA0002698582970000035
其中
Figure BDA0002698582970000036
分别计算加入新的数据点e后组成新的簇的分形维数;
计算加入数据点前后的分形影响度Vi,其计算公式如下:
Figure BDA0002698582970000037
式中,
Figure BDA0002698582970000038
表示第i个聚类成员的第k个簇的分形影响度,
Figure BDA0002698582970000039
表示第i个聚类成员的第k个簇的分形维数,
Figure BDA00026985829700000310
表示第i个聚类成员的第k个簇加入数据点e后的分形维数;
找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;
利用互信息计算每个聚类成员的权值;
当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'H}。
所述利用互信息计算每个聚类成员的权值为:
设定计算互信息的公式为:
Figure BDA0002698582970000041
式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;
计算平均互信息的公式为:
Figure BDA0002698582970000042
式中,αi表示第i个聚类成员的平均互信息;
计算聚类成员的权值的公式为:
Figure BDA0002698582970000043
式中,
Figure BDA0002698582970000044
ωi满足ωi>0(i=1,2,...,H)且
Figure BDA0002698582970000045
有益效果
本发明的一种基于互信息相关技术的差分隐私动态数据发布方法,与现有技术相比根据动态数据流的特点,采用分形技术对数据进行聚类处理,并利用互信息相关知识进行聚类成员选择,最后结合差分隐私技术对聚类结果添加隐私保护再发布数据,从而提高动态数据发布的安全性及数据的可用性。
本发明基于发现交通流数据、在线交易数据、环境监测数据等动态数据流具有分形的特性,利用分形维数聚类方法对数据流进行处理,再利用互信息的知识对聚类结果进行选择,选择较优的聚类成员,进一步提高聚类质量,再结合差分隐私直方图发布技术,可有效满足动态数据发布需求,在有效保护数据的隐私信息的同时保证数据的可用性。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述一种基于互信息相关技术的差分隐私动态数据发布方法,包括以下步骤:
第一步,动态数据流的获取:获取待处理的动态数据流。
第二步,动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中。
第三步,初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数。
(1)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ12,...,λi,...,λH},λi表示第i次聚类结果;
(2)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为
Figure BDA0002698582970000061
分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
Figure BDA0002698582970000062
其中,计算每个簇的分形维数的公式为:
Figure BDA0002698582970000063
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;
Figure BDA0002698582970000064
表示盒子所覆盖的数据点数。
第四步,待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组。
对抽取完剩下的数据再进行分形维数聚类,可以将剩下的数据添加到更符合的聚类簇中,然后利用互信息,计算每个聚类成员的权值,选择符合阈值条件的聚类成员,也就是选择聚类结果较好的聚类成员,可以有效提升聚类效果,也就是获取了较优的数据聚类分析结果,获取有效的待发布数据的统计结果,为后续添加拉普拉斯噪声后保持数据的可用性做出贡献。其具体步骤如下:
(1)对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到
Figure BDA0002698582970000065
其中
Figure BDA0002698582970000066
(2)分别计算加入新的数据点e后组成新的簇的分形维数;
(3)计算加入数据点前后的分形影响度Vi,其计算公式如下:
Figure BDA0002698582970000067
式中,
Figure BDA0002698582970000068
表示第i个聚类成员的第k个簇的分形影响度,
Figure BDA0002698582970000069
表示第i个聚类成员的第k个簇的分形维数,
Figure BDA00026985829700000610
表示第i个聚类成员的第k个簇加入数据点e后的分形维数;
(4)找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;
(5)利用互信息计算每个聚类成员的权值;初次分形聚类后得到的聚类成员,其聚类效果各有不同,此时利用互信息,计算得到每个聚类成员的权值,选择符合阈值标准的聚类成员,可以得到更优的聚类结果,达到更好的聚类分析效果,有利于后续添加差分隐私保护。
设定计算互信息的公式为:
Figure BDA0002698582970000071
式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;
计算平均互信息的公式为:
Figure BDA0002698582970000072
式中,αi表示第i个聚类成员的平均互信息;
计算聚类成员的权值的公式为:
Figure BDA0002698582970000073
式中,
Figure BDA0002698582970000074
ωi满足ωi>0(i=1,2,...,H)且
Figure BDA0002698582970000075
(6)当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'H}。
第五步,分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
Figure BDA0002698582970000076
其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
Figure BDA0002698582970000081
第六步,差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
在此,以某动态数据为例,其差分隐私动态数据发布方法,包括以下几个步骤:
步骤一:使用滑动窗口技术对动态数据流进行分割:将长度为T的数据流X分割成N个时间戳上的数据点集,
得到数据点集的集合P={X1,X2,..,XD,..,XN}。使数据以静态方式展示在滑动窗口中。
步骤二:对数据先进行初始聚类。
采集一段时间的数据流,抽取出其中一部分数据,采用一种现有的聚类算法k-means聚类算法对数据进行初始聚类:对第D个数据集XD进行H次初始聚类。本实例中,采用UCI数据集IRIS作为一个时间戳下的数据集,其中共有150条四维数据,抽取其中90%的数据组成新的数据集,进行H次聚类,得到H次聚类结果集λ={λ12,...,λi,...,λH},H取值设为3,即对抽取的90%的数据组成的数据集进行3次初始k-means聚类,λi表示第i次聚类结果,若设定聚类簇数有k个,则λi聚类结果中每个簇分别记为
Figure BDA0002698582970000082
本实施例中将聚类簇数设置为3,即k取3,得到聚类结果集,计算初始聚类中每个簇的分形维数,第k个簇的分形维数记为
Figure BDA0002698582970000083
其中计算分形维数的公式为:
Figure BDA0002698582970000084
式(1)中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,可取正负数,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;
Figure BDA0002698582970000085
表示盒子所覆盖的数据点数。本实施例中q值取2。
对抽取的90%的数据进行初始k-means聚类,结果计算得到的分形维数如下表1所示:
表1初始聚类计算所得分形维数值表
Figure BDA0002698582970000091
步骤三:将步骤一中分割后的滑动窗口数据执行分形维数聚类操作以进行聚类分析,对所剩下的10%的数据进行分形维数聚类:对其中的每一个数据点e加入到每一个初始聚类中去,得到
Figure BDA0002698582970000092
分别计算其分形维数;可以得到新计算的分形维数如表2所示:
表2加入剩余数据所得新的分形维数值表
Figure BDA0002698582970000093
计算分形影响度Vi,分型影响度计算结果如下表3所示:
表3分形影响度表
Figure BDA0002698582970000101
找到分形影响度最小的类,若其小于给定阈值δ,则认为数据点e属于该类,加入该类中;若数据点e未找到任何符合的类,则认定其为离群点,将其作为单独的一个类。
计算分形影响度的公式为:
Figure BDA0002698582970000102
式(2)中,
Figure BDA0002698582970000103
表示第i个聚类成员的第k个簇的分形影响度,
Figure BDA0002698582970000104
表示第i个聚类成员的第k个簇的分形维数,
Figure BDA0002698582970000105
表示第i个聚类成员的第k个簇加入数据点e后的分形维数。
利用互信息计算每个聚类成员的权值:计算互信息的公式为:
Figure BDA0002698582970000106
式(3)中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量。
计算三组聚类成员之间的互信息结果如下表4所示,
表4三个聚类成员之间的互信息值表
聚类成员 1 2 3
1 0 0.5286 0.4746
2 0.5286 0 0.6652
3 0.4746 0.6652 0
计算平均互信息的公式为:
Figure BDA0002698582970000111
式(4)中,αi表示第i个聚类成员的平均互信息。
计算聚类成员的权值的公式为:
Figure BDA0002698582970000112
式(5)中,
Figure BDA0002698582970000113
ωi满足ωi>0(i=1,2,...,H)且
Figure BDA0002698582970000114
计算三个聚类成员所得平均互信息及其权值大小如下表5:
表5三个聚类成员的平均互信息及其权值的计算所得值表
α(平均互信息) 0.3344 0.3979 0.3799
ω(权值) 0.3676 0.3089 0.3235
选择符合条件的聚类成员,当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ1',λ2',...,λi',...,λ'H}。由表5结果可知,将选择第一个聚类成员作为最终进行统计的聚类结果,对每个聚类成员的聚类结果进行按类统计,形成待发布分组,计算所得统计结果为:
[35,59,56]。
对分组进行拉普拉斯加噪:对每个聚类成员的每个簇进行拉普拉斯加噪,
Figure BDA0002698582970000121
采用直方图发布方法发布数据时,其查询敏感度为1,故而添加1/ε的拉普拉斯噪声即可满足ε的差分隐私,其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
Figure BDA0002698582970000122
并发布加噪后的分组数据。
如表6所示:添加不同隐私预算所得到的加噪数据是不一样的,隐私预算的取值越接近1,隐私保护的效果越差,但数据的可用型较强,取值越接近0,隐私保护的效果越好,但数据的可用性会有所降低。
表6不同隐私预算取值对比表
原始统计数据 隐私预算取值0.1 隐私预算取值0.5 隐私预算取值0.9
35 39.1 36.6 33.7
59 52.3 59.2 57.7
56 56.2 59 55.1
步骤四:当某个聚类成员的分组数据的数量达到与滑动窗口大小差不多时,滑动窗口向前平移,重复步骤三。
对比使用k-means聚类算法及使用本发明中所提及的聚类方法对IRIS数据集的聚类结果对比如下表7:
表7不同聚类方式的准确性和误差对比表
k-means 分形聚类 基于互信息的分形聚类
聚类准确性 0.5267 0.5333 0.8667
聚类误差 163.2624 199.7899 143.4537
说明本发明方法可有效提升聚类效果,对后续为聚类分析结果进行差分隐私加噪具有重大帮助。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:
11)动态数据流的获取:获取待处理的动态数据流;
12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
Figure FDA0002698582960000011
其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
Figure FDA0002698582960000012
16)差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
2.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述初始聚类处理包括以下步骤:
21)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ12,...,λi,...,λH},λi表示第i次聚类结果;
22)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为
Figure FDA0002698582960000013
分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
Figure FDA0002698582960000021
其中,计算每个簇的分形维数的公式为:
Figure FDA0002698582960000022
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;
Figure FDA0002698582960000023
表示盒子所覆盖的数据点数。
3.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述待发布分组的形成包括以下步骤:
31)对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到
Figure FDA0002698582960000024
其中
Figure FDA0002698582960000025
32)分别计算加入新的数据点e后组成新的簇的分形维数;
33)计算加入数据点前后的分形影响度Vi,其计算公式如下:
Figure FDA0002698582960000026
式中,
Figure FDA0002698582960000027
表示第i个聚类成员的第k个簇的分形影响度,
Figure FDA0002698582960000028
表示第i个聚类成员的第k个簇的分形维数,
Figure FDA0002698582960000029
表示第i个聚类成员的第k个簇加入数据点e后的分形维数;
34)找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;
35)利用互信息计算每个聚类成员的权值;
36)当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'H}。
4.根据权利要求3所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述利用互信息计算每个聚类成员的权值为:
设定计算互信息的公式为:
Figure FDA0002698582960000031
式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;
计算平均互信息的公式为:
Figure FDA0002698582960000032
式中,αi表示第i个聚类成员的平均互信息;
计算聚类成员的权值的公式为:
Figure FDA0002698582960000033
式中,
Figure FDA0002698582960000034
ωi满足ωi>0(i=1,2,...,H)且
Figure FDA0002698582960000035
CN202011014417.5A 2020-09-24 2020-09-24 一种基于互信息相关技术的差分隐私动态数据发布方法 Pending CN112131605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011014417.5A CN112131605A (zh) 2020-09-24 2020-09-24 一种基于互信息相关技术的差分隐私动态数据发布方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011014417.5A CN112131605A (zh) 2020-09-24 2020-09-24 一种基于互信息相关技术的差分隐私动态数据发布方法

Publications (1)

Publication Number Publication Date
CN112131605A true CN112131605A (zh) 2020-12-25

Family

ID=73839955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011014417.5A Pending CN112131605A (zh) 2020-09-24 2020-09-24 一种基于互信息相关技术的差分隐私动态数据发布方法

Country Status (1)

Country Link
CN (1) CN112131605A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662152A (zh) * 2022-04-06 2022-06-24 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282425A1 (en) * 2005-04-20 2006-12-14 International Business Machines Corporation Method and apparatus for processing data streams
CN107249000A (zh) * 2017-07-06 2017-10-13 河南科技大学 一种移动用户异常行为检测方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
CN108921211A (zh) * 2018-06-27 2018-11-30 重庆师范大学 一种基于密度峰值聚类计算分形维数的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282425A1 (en) * 2005-04-20 2006-12-14 International Business Machines Corporation Method and apparatus for processing data streams
CN107249000A (zh) * 2017-07-06 2017-10-13 河南科技大学 一种移动用户异常行为检测方法
CN108763956A (zh) * 2018-05-24 2018-11-06 辽宁工业大学 一种基于分形维数的流式数据差分隐私保护发布方法
CN108921211A (zh) * 2018-06-27 2018-11-30 重庆师范大学 一种基于密度峰值聚类计算分形维数的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴晓璇: "基于分形维数的选择性聚类融合算法研究", 《万方数据学位论文库》, pages 1 - 101 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114662152A (zh) * 2022-04-06 2022-06-24 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法
CN114662152B (zh) * 2022-04-06 2023-05-12 安徽工业大学 一种面向实时数据的本地化差分隐私数据流发布方法

Similar Documents

Publication Publication Date Title
CN108763956B (zh) 一种基于分形维数的流式数据差分隐私保护发布方法
CN105046160B (zh) 一种基于直方图的面向数据流差分隐私发布方法
CN103746982B (zh) 一种http网络特征码自动生成方法及其系统
CN109951499B (zh) 一种基于网络结构特征的异常检测方法
CN102880834B (zh) 一种保持数据数字特征的隐私信息保护方法
CN113254988A (zh) 高维敏感数据隐私分级保护发布方法、系统、介质及设备
CN112131605A (zh) 一种基于互信息相关技术的差分隐私动态数据发布方法
CN111128301A (zh) 一种基于模糊聚类的重叠蛋白质复合物识别方法
CN112380567A (zh) 一种基于本地化差分隐私带有置信度的调查方法
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN108647334B (zh) 一种spark平台下的视频社交网络同源性分析方法
CN113743477A (zh) 一种基于差分隐私的直方图数据发布方法
JP2020140423A (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN112039859A (zh) 一种变长时间窗口下复杂图网络的聚类方法
CN111008673A (zh) 配电网信息物理系统中恶性数据链采集提取方法
Lan et al. Mining high utility itemsets over uncertain databases
Janiszewska et al. Block matrix approximation via entropy loss function
CN114462093A (zh) 基于差分隐私的时空泛化轨迹数据发布方法
CN113537308B (zh) 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113959428A (zh) 一种用于跟踪非刚性多扩展目标的phd滤波方法
Li et al. High resolution radar data fusion based on clustering algorithm
Aggarwal The multi-set stream clustering problem
CN107943918B (zh) 一种基于层次化大规模图数据的运算系统
Cheng et al. Adaptive distributed differential privacy with SGD

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination