CN111242194A - 亲和传播聚类的差分隐私保护方法 - Google Patents

亲和传播聚类的差分隐私保护方法 Download PDF

Info

Publication number
CN111242194A
CN111242194A CN202010010540.3A CN202010010540A CN111242194A CN 111242194 A CN111242194 A CN 111242194A CN 202010010540 A CN202010010540 A CN 202010010540A CN 111242194 A CN111242194 A CN 111242194A
Authority
CN
China
Prior art keywords
matrix
sample data
attraction
attribution
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010010540.3A
Other languages
English (en)
Other versions
CN111242194B (zh
Inventor
李先贤
蔡涵博
刘晓红
王金艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202010010540.3A priority Critical patent/CN111242194B/zh
Publication of CN111242194A publication Critical patent/CN111242194A/zh
Application granted granted Critical
Publication of CN111242194B publication Critical patent/CN111242194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种亲和传播聚类的差分隐私保护方法,首先对数据进行密度定义,针对密度提升数据点作为聚类中心点的偏好程度,随后对迭代过程进行固定。然后对固定的迭代次数使用满足差分隐私的方式进行采样,最后将采样出的迭代轮数中的R矩阵添加拉普拉斯机制噪声。

Description

亲和传播聚类的差分隐私保护方法
技术领域
本发明涉及隐私保护技术领域,具体涉及一种亲和传播聚类的差分隐私保护方法。
背景技术
随着信息时代的到来,信息技术和大数据产业开始进入高速发展阶段。互联网深入到我们生活中的方方面面,每天都会在我们生活的各个领域产生大量的数据,对这些数据进行挖掘可以得到很多有用的信息。聚类是数据挖掘中的一项重要技术,已经得到了大量的研究,近年来越来越多的聚类算法相继涌现。通过聚类技术,我们可以对大量的数据进行分析,使得由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类能够帮助市场分析人员从客户基本库中发现不同的客户群,在生物学上可以帮助研究者对研究的动植物进行分类,对种群结构产生更好的认识等等。2007年,Brendan J.Frey*等人提出了一种基于互信息传递的亲和传播聚类新方法,该方法不需要指定具体的聚类个数,算法精准度高,适用环境广泛,但是该方法没有考虑到用户的隐私问题,当聚类中间结果含有个人敏感信息时(如顾客消费记录,收入等),敌手可以大概率的推测出用户的个人信息,从而导致个人敏感信息受到威胁。
发明内容
本发明所要解决的是在亲和传播聚类模型运行期间所导致的隐私泄露的问题,提供一种亲和传播聚类的差分隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
亲和传播聚类的差分隐私保护方法,包括步骤如下:
步骤1、计算原始数据集中每两个不同样本数据之间的距离,以得到每两个不同样本数据之间的相似度,并据此构建出非完整的相似度矩阵S′;
步骤2、对步骤1的非完整的相似度矩阵S′中的对角相似度进行补全,由此得到完整的相似度矩阵S;即:
步骤2.1、分别计算原始数据集中的每个样本数据的密度值,并根据密度值对原始数据集中的样本数据进行降序排序;
步骤2.2、将密度值排在前θ%的样本数据作为第一类样本数据,其余的样本数据作为第二类样本数据;
步骤2.3、将非完整的相似度矩阵S′中所有相似度的最大值作为第一类样本数据的相似度,并将非完整的相似度矩阵S′中所有相似度的平均值作为第二类样本数据的相似度;
步骤2.4、基于步骤2.3所得到的每个样本数据的相似度,对步骤1的非完整的相似度矩阵S′的对角相似度进行补全,由此得到完整的相似度矩阵S;
步骤3、初始化吸引度矩阵R′和归属度矩阵A′,其中吸引度矩阵R′的吸引度初值为全0,归属度矩阵A′的归属度初值为全0;
步骤4、先设定最大迭代次数X和扰动概率参数f;再基于最大迭代次数X,构建一个长度为X的全0的初始比特串B′;后基于扰动概率参数f,对初始比特串B′进行PRR机制扰动,得到扰动比特串B;
步骤5、基于步骤2的相似度矩阵S和步骤4的扰动比特串B,对步骤3的吸引度矩阵R′和归属度矩阵A′进行X次迭代,得到吸引度矩阵R和归属度矩阵A;即:
步骤5.1、先基于相似度矩阵S和归属度矩阵A′,利用吸引度计算公式计算初始的吸引度矩阵R0;再基于初始的吸引度矩阵R0,利用归属度计算公式计算初始的归属度矩阵A0
步骤5.2、在第1次迭代时,先基于相似度矩阵S和上一次迭代的归属度矩阵A0,利用吸引度计算公式计算当前吸引度矩阵R1;再基于当前吸引度矩阵R1,利用归属度计算公式计算归属度矩阵A1
步骤5.3、在第x次迭代时,先基于相似度矩阵S和上一次迭代的归属度矩阵Ax-1,利用吸引度计算公式计算当前吸引度矩阵Rx;再判断扰动比特串B中的第x位是否为1:如果第x位为1,则先对当前吸引度矩阵Rx进行拉普拉斯加噪,得到当加噪后的吸引度矩阵Rx′,再基于当加噪后的吸引度矩阵Rx′,并利用归属度计算公式计算当归属度矩阵Ax;如果第x位为0,则直接基于当吸引度矩阵Rx,并利用归属度计算公式计算当归属度矩阵Ax
步骤5.4、重复步骤5.3的过程,得到最终的吸引度矩阵RX和最终的归属度矩阵AX,此时吸引度矩阵RX即为所求吸引度矩阵R,归属度矩阵AX即为所求归属度矩阵A;
步骤6、对于原始数据集的第i个样本数据将步骤5所得吸引度矩阵R第i行第i列的吸引度值与步骤5所得归属度矩阵A的第i行第i列的归属度值进行相加,如果相加所得的值大于0,则将该样本数据视为聚类中心点;否则,将该样本数据视为普通聚类点;
步骤7、对于每个普通聚类点,先基于吸引度矩阵R和归属度矩阵A,计算该普通聚类点与各个聚类中心点的亲和度值,其中亲和度值等于普通聚类点与聚类中心点的吸引度值与归属度值之和,再将普通聚类点分配给亲和度值最大的聚类中心点所在的簇中,由此完成聚类;
步骤8、将步骤7所得到的聚类输出;
上述θ%为设定值;i=1,2,…,N,N为原始数据集的样本数据个数;x=1,2,…,X,X为迭代次数。
上述方案中,所有相似度矩阵、所有吸引度矩阵和所有归属度矩阵的大小为N×N,其中N为原始数据集的样本数据个数。
上述方案中,θ%的取值为5%~10%之间。
上述方案中,样本数据
Figure BDA0002356985550000031
与样本数据
Figure BDA0002356985550000032
在当前迭代的吸引度
Figure BDA0002356985550000033
为:
Figure BDA0002356985550000034
式中,
Figure BDA0002356985550000035
表示样本数据
Figure BDA0002356985550000036
与样本数据
Figure BDA0002356985550000037
的距离,
Figure BDA0002356985550000038
表示表示样本数据
Figure BDA0002356985550000039
与样本数据
Figure BDA00023569855500000310
的距离,
Figure BDA00023569855500000311
表示样本数据
Figure BDA00023569855500000312
与样本数据
Figure BDA00023569855500000313
在上一次迭代的归属度,i,k,k′=1,2,…,N,N为原始数据集的样本数据个数。
上述方案中,样本数据
Figure BDA00023569855500000314
与样本数据
Figure BDA00023569855500000315
在当前迭代的归属度
Figure BDA00023569855500000316
为:
Figure BDA00023569855500000317
式中,
Figure BDA00023569855500000318
表示样本数据
Figure BDA00023569855500000319
与样本数据
Figure BDA00023569855500000320
在上一次迭代的吸引度;
Figure BDA00023569855500000321
表示样本数据
Figure BDA00023569855500000322
与样本数据
Figure BDA00023569855500000323
在上一次迭代的吸引度,i,k,k′=1,2,…,N,N为原始数据集的样本数据个数。
本发明利用相似性函数计算样本数据集的归属度和吸引度,值越大相似性也就越高,聚为一类的可能性也就越大,这种相似性也可以理解为社交网络中的关系亲密度,因此为了保证这种亲密关系不被泄露,在计算吸引度和相似度矩阵的时候加上差分隐私的拉普拉斯噪声来隐藏潜在的个人数据信息,从而实现隐私安全的保护。
与现有技术相比,本发明具有如下特点:
1、在算法迭代过程中,本发明通过引入密度中心点权重的概念对迭代次数进行优化,固定迭代次数,从而加快算法收敛速度。
2、为了合理分配隐私预算,本发明对整体的固定迭代次数使用永久性随机响应机制进行采样,对采样出的一部分迭代步骤中的吸引度矩阵值用拉普拉斯机制进行加噪,从而保护数据的隐私。
附图说明
图1为亲和传播聚类的差分隐私保护方法的原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种亲和传播聚类的差分隐私保护方法,如图1所示,其具体包括步骤如下:
步骤1、计算原始数据集中每两个不同样本数据xi,xk之间的距离,并得到每两个不同样本数据之间的相似度s(xi,xk),并据此构建出非完整的相似度矩阵S′。
设原始数据集大小为N,对于原始数据集中每两个样本数据,通过如下公式计算两个样本数据xi,xk之间的距离s(xi,xk):
s(xi,xk)=-||xi-xk||2
将上述计算结果即每两个样本数据之间的距离存入到一个大小为N*N的相似度矩阵S′中去。
步骤2、对步骤1的非完整的相似度矩阵S′中的对角相似度s(xi,xi)进行补全,由此得到完整的相似度矩阵S。相似度矩阵S的大小为N*N。
在亲和传播聚类中,每个样本数据都有一个密度值,密度值越大,这个样本数据越有可能成为一个聚类中心点。按照这个思想,本发明根据样本数据的密度值来提升其偏好值,以减少聚类算法的迭代次数,加快收敛速度,从而降低每次迭代需要添加的总噪声。
步骤2.1、分别计算原始数据集中的每个样本数据xi的密度值ρi,并根据密度值对原始数据集中的样本数据进行降序排序;
密度值ρi的具体计算方式为:在样本数据点i邻域范围内(此邻域范围由用户指定)的样本数据点的个数就是其密度值,每个样本数据点都有其对应的一个ρi值。
步骤2.2、将密度值排在前θ%的样本数据作为第一类样本数据,其余的样本数据作为第二类样本数据;在本发明优选实施例中,θ%的取值为5%~10%之间。
步骤2.3、将非完整的相似度矩阵S′中所有相似度s(xi,xk)的最大值作为第一类样本数据的相似度s(xi,xi),并将非完整的相似度矩阵S′中所有相似度s(xi,xk)的平均值作为第二类样本数据的相似度s(xi,xi);
步骤2.4、基于步骤2.3所得到的相似度s(xi,xi),对步骤1的非完整的相似度矩阵S′的对角相似度s(xi,xi)进行补全,由此得到完整的相似度矩阵S。
步骤3、初始化吸引度矩阵R′和归属度矩阵A′。其中吸引度矩阵R′的大小为N*N,其吸引度初值为全0,归属度矩阵A′的大小为N*N,其归属度初值为全0。
步骤4、先设定迭代次数X和扰动概率参数f;再基于迭代次数X,构建一个长度为X的全0的初始比特串B′;后基于扰动概率参数f,对初始比特串B′进行PRR机制扰动,得到扰动比特串B。
PRR机制为谷歌开发的一个随机响应机制,设有一个确定的映射全0bit串B,使用PRR对其每一位进行翻转,设翻转概率如下:
Figure BDA0002356985550000041
式中,Bx表示扰动比特串B中的第x位,B′x表示原始比特串B′中的第x位。在采用PRR机制进行扰动时,以
Figure BDA0002356985550000042
的概率取1,以
Figure BDA0002356985550000043
的概率取0,以1-f的概率保持不变。对比特串B中的每一位使用如上概率进行翻转后,就得到最终的扰动比特串B′。f为用户指定的扰动概率参数,在这一步我们分配隐私预算为ε11表示了用户的隐私保护程度,ε1越小,隐私保护水平越高),则PRR机制中的f参数就应该设为
Figure BDA0002356985550000051
采用谷歌的PRR机制对迭代次数进行采样,这种采样方式是满足ε-差分隐私的采样方式。
步骤5、基于步骤2的相似度矩阵S和步骤4的扰动比特串B,对步骤3的吸引度矩阵R′和归属度矩阵A′进行X次迭代,得到吸引度矩阵R和归属度矩阵A;吸引度矩阵R和归属度矩阵A的大小为N*N。
(1)吸引度矩阵
吸引度矩阵R中的每个值由上述S矩阵的对应值计算而来,R矩阵中的每个值用以表示两个样本数据点之间的吸引度。
R矩阵中第i行和第k列的值就用来表示数据样本点k作为数据样本点i的中心点的吸引程度,用rx(xi,xk)表示,即样本数据xi与样本数据xk在当前迭代的吸引度rx(xi,xk)为:
rx(xi,xk)=s(xi,xk)-maxk′≠k{ax-1(xi,xk’)+s(xi,xk’)}
式中,s(xi,xk)表示样本数据xi与样本数据xk的距离,s(xi,xk’)表示表示样本数据xi与样本数据xk′的距离,ax-1(xi,xk’)表示样本数据xi与样本数据xk′在上一次迭代的归属度。
(2)归属度矩阵
归属度矩阵A中的每个值由R矩阵中的每个值计算而来,A矩阵中的每个值用以表示两个样本数据点之间的归属度。
A矩阵中第i行和第k列的值就用来表示数据样本点i作为数据样本点k的簇内点的归属程度,用ax(xi,xk)表示,即样本数据xi与样本数据xk在当前迭代的归属度ax(xi,xk)为:
Figure BDA0002356985550000052
式中,rx-1(xk,xk)表示样本数据xk与样本数据xk在上一次迭代的吸引度;rx-1(xk,xk′)表示样本数据xk与样本数据xk′在上一次迭代的吸引度。
式中,rx-1(xk,xk)表示样本数据xk与样本数据xk在上一次迭代的吸引度;rx-1(xk,xk′)表示样本数据xk与样本数据xk′在上一次迭代的吸引度。
在每轮迭代中,都会对R矩阵和A矩阵中的每个值使用rx(xi,xk)和ax(xi,xk)公式进行计算。在计算R矩阵的时候,会根据生成的二进制串B中第x位的值决定是否对第x轮迭代中的R矩阵中的值添加拉普拉斯噪声,最终输出运算结束后的R矩阵和A矩阵。
针对拉普拉斯的噪声,我们在此分配隐私预算为ε2,(ε2表示了用户的隐私保护程度,ε2越小,隐私保护水平越高)敏感度Δf由以下公式计算得来:
Figure BDA0002356985550000053
因此对需要添加噪声的R矩阵,我们添加的拉普拉斯噪声为lap(Δf/ε2)。
需要注意的是,算法整体的隐私保护预算为ε=ε12
本步骤旨在使得不在每次迭代中添加拉普拉斯噪声,而是选择性的使用满足差分隐私的随机扰动机制对迭代次数进行采样,筛选出远小于迭代轮数x的一部分轮数,在这部分轮数中我们添加隐私保护噪声,由于我们的采样是完全随机的且满足严格的ε-差分隐私机制的,所以攻击者无法获知我们究竟在哪几轮的数据中添加了噪声,因为每次迭代计算R矩阵,都会用到上一次R矩阵的计算结果,所以我们只要在一次R矩阵中添加噪声就可以满足严格的差分隐私,我们进一步筛选出一部分的迭代次数多次加噪,可以使得数据的隐私性更高,实验证明,这样既可以高强度的保护隐私,又能够满足数据一定的精度要求,不至于造成噪声叠加导致数据精度的损失灾难,同时,由于仅仅是选择了一部分迭代轮数进行噪声处理,所以对算法的运行效率影响不大,极大地保留了原始算法的精度和效率。
步骤5.1、先基于相似度矩阵S和归属度矩阵A′,利用吸引度计算公式计算吸引度矩阵R0;再基于吸引度矩阵R0,利用归属度计算公式计算归属度矩阵A0
步骤5.2、在第1次迭代时,先基于相似度矩阵S和归属度矩阵A0,利用吸引度计算公式计算吸引度矩阵R1;再基于吸引度矩阵R1,利用归属度计算公式计算归属度矩阵A1
步骤5.3、在第x次迭代时,先基于相似度矩阵S和归属度矩阵Ax-1,利用吸引度计算公式计算吸引度矩阵Rx;再判断扰动比特串B中的第x位是否为1,如果第x位为1,则先对吸引度矩阵Rx进行拉普拉斯加噪后,再基于加噪后的吸引度矩阵Rx,并利用归属度计算公式计算归属度矩阵Ax;如果第x位为0,则直接基于吸引度矩阵Rx,并利用归属度计算公式计算归属度矩阵Ax
步骤5.4、重复步骤5.3的过程,得到吸引度矩阵RX和归属度矩阵AX,则吸引度矩阵RX即为所求吸引度矩阵R,归属度矩阵AX即为所求归属度矩阵A。
步骤6、对于原始数据集的样本数据xi,将步骤5所得吸引度矩阵R第i行第i列的吸引度R(xi,xi)与步骤5所得归属度矩阵A的第i行第i列的归属度A(xi,xi)进行相加,如果R(xi,xi)+A(xi,xi)的值大于0,则将样本数据xi视为聚类中心点;否则,将样本数据xi视为普通聚类点。
步骤7、对于每个普通聚类点,先基于吸引度矩阵R和归属度矩阵A,计算该普通聚类点与各个聚类中心点的亲和度值,其中亲和度值等于普通聚类点与聚类中心点的吸引度值与归属度值之和,再将普通聚类点分配给亲和度值最大的聚类中心点所在的簇中,由此完成聚类。
假设筛选出了3个聚类中心点C1,C2,C3,我们对于剩下的所有非聚类中心点,如样本数据点xi,则利用吸引度矩阵R和归属度矩阵A,得到(xi,C1)的亲和度值A(xi,C1)+R(xi,C1)、(xi,C2)的亲和度值A(xi,C2)+R(xi,C2)、(xi,C3)的亲和度值A(xi,C3)+R(xi,C3)。选取三个亲和度值中最大的值,假设A(xi,C1)+R(xi,C1)值最大,则将样本数据点xi分配给聚类中心点C1所在的簇中,其余点以此类推。
步骤8、将步骤7所得到的聚类输出。
上述θ%为设定值;i,k=1,2,…,N,i≠k,N为原始数据集的样本数据个数;x=1,2,…,X,X为迭代次数。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (5)

1.亲和传播聚类的差分隐私保护方法,其特征是,包括步骤如下:
步骤1、计算原始数据集中每两个不同样本数据之间的距离,以得到每两个不同样本数据之间的相似度,并据此构建出非完整的相似度矩阵S′;
步骤2、对步骤1的非完整的相似度矩阵S′中的对角相似度进行补全,由此得到完整的相似度矩阵S;即:
步骤2.1、分别计算原始数据集中的每个样本数据的密度值,并根据密度值对原始数据集中的样本数据进行降序排序;
步骤2.2、将密度值排在前θ%的样本数据作为第一类样本数据,其余的样本数据作为第二类样本数据;
步骤2.3、将非完整的相似度矩阵S′中所有相似度的最大值作为第一类样本数据的相似度,并将非完整的相似度矩阵S′中所有相似度的平均值作为第二类样本数据的相似度;
步骤2.4、基于步骤2.3所得到的每个样本数据的相似度,对步骤1的非完整的相似度矩阵S′的对角相似度进行补全,由此得到完整的相似度矩阵S;
步骤3、初始化吸引度矩阵R′和归属度矩阵A′,其中吸引度矩阵R′的吸引度初值为全0,归属度矩阵A′的归属度初值为全0;
步骤4、先设定最大迭代次数X和扰动概率参数f;再基于最大迭代次数X,构建一个长度为X的全0的初始比特串B′;后基于扰动概率参数f,对初始比特串B′进行PRR机制扰动,得到扰动比特串B;
步骤5、基于步骤2的相似度矩阵S和步骤4的扰动比特串B,对步骤3的吸引度矩阵R′和归属度矩阵A′进行X次迭代,得到吸引度矩阵R和归属度矩阵A;即:
步骤5.1、先基于相似度矩阵S和归属度矩阵A′,利用吸引度计算公式计算初始的吸引度矩阵R0;再基于初始的吸引度矩阵R0,利用归属度计算公式计算初始的归属度矩阵A0
步骤5.2、在第1次迭代时,先基于相似度矩阵S和上一次迭代的归属度矩阵A0,利用吸引度计算公式计算当前吸引度矩阵R1;再基于当前吸引度矩阵R1,利用归属度计算公式计算归属度矩阵A1
步骤5.3、在第x次迭代时,先基于相似度矩阵S和上一次迭代的归属度矩阵Ax-1,利用吸引度计算公式计算当前吸引度矩阵Rx;再判断扰动比特串B中的第x位是否为1:如果第x位为1,则先对当前吸引度矩阵Rx进行拉普拉斯加噪,得到当加噪后的吸引度矩阵Rx′,再基于当加噪后的吸引度矩阵Rx′,并利用归属度计算公式计算当归属度矩阵Ax;如果第x位为0,则直接基于当吸引度矩阵Rx,并利用归属度计算公式计算当归属度矩阵Ax
步骤5.4、重复步骤5.3的过程,得到最终的吸引度矩阵RX和最终的归属度矩阵AX,此时吸引度矩阵RX即为所求吸引度矩阵R,归属度矩阵AX即为所求归属度矩阵A;
步骤6、对于原始数据集的第i个样本数据将步骤5所得吸引度矩阵R第i行第i列的吸引度值与步骤5所得归属度矩阵A的第i行第i列的归属度值进行相加,如果相加所得的值大于0,则将该样本数据视为聚类中心点;否则,将该样本数据视为普通聚类点;
步骤7、对于每个普通聚类点,先基于吸引度矩阵R和归属度矩阵A,计算该普通聚类点与各个聚类中心点的亲和度值,其中亲和度值等于普通聚类点与聚类中心点的吸引度值与归属度值之和,再将普通聚类点分配给亲和度值最大的聚类中心点所在的簇中,由此完成聚类;
步骤8、将步骤7所得到的聚类输出;
上述θ%为设定值;i=1,2,...,N,N为原始数据集的样本数据个数;x=1,2,...,X,X为迭代次数。
2.根据权利要求1所述的亲和传播聚类的差分隐私保护方法,其特征是,所有相似度矩阵、所有吸引度矩阵和所有归属度矩阵的大小为N×N,其中N为原始数据集的样本数据个数。
3.根据权利要求1所述的亲和传播聚类的差分隐私保护方法,其特征是,步骤2中,θ%的取值为5%~10%之间。
4.根据权利要求1所述的亲和传播聚类的差分隐私保护方法,其特征是,样本数据
Figure FDA0002356985540000021
与样本数据
Figure FDA0002356985540000022
在当前迭代的吸引度
Figure FDA0002356985540000023
为:
Figure FDA0002356985540000024
式中,
Figure FDA0002356985540000025
表示样本数据
Figure FDA0002356985540000026
与样本数据
Figure FDA0002356985540000027
的距离,
Figure FDA0002356985540000028
表示表示样本数据
Figure FDA0002356985540000029
与样本数据
Figure FDA00023569855400000210
的距离,
Figure FDA00023569855400000211
表示样本数据
Figure FDA00023569855400000212
与样本数据
Figure FDA00023569855400000213
在上一次迭代的归属度,i,k,k′=1,2,...,N,N为原始数据集的样本数据个数。
5.根据权利要求1所述的亲和传播聚类的差分隐私保护方法,其特征是,样本数据
Figure FDA00023569855400000214
与样本数据
Figure FDA00023569855400000215
在当前迭代的归属度
Figure FDA00023569855400000216
为:
Figure FDA00023569855400000217
式中,
Figure FDA00023569855400000218
表示样本数据
Figure FDA00023569855400000219
与样本数据
Figure FDA00023569855400000220
在上一次迭代的吸引度;
Figure FDA00023569855400000221
表示样本数据
Figure FDA00023569855400000222
与样本数据
Figure FDA00023569855400000223
在上一次迭代的吸引度,i,k,k′=1,2,...,N,N为原始数据集的样本数据个数。
CN202010010540.3A 2020-01-06 2020-01-06 亲和传播聚类的差分隐私保护方法 Active CN111242194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010540.3A CN111242194B (zh) 2020-01-06 2020-01-06 亲和传播聚类的差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010540.3A CN111242194B (zh) 2020-01-06 2020-01-06 亲和传播聚类的差分隐私保护方法

Publications (2)

Publication Number Publication Date
CN111242194A true CN111242194A (zh) 2020-06-05
CN111242194B CN111242194B (zh) 2022-03-08

Family

ID=70879849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010540.3A Active CN111242194B (zh) 2020-01-06 2020-01-06 亲和传播聚类的差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN111242194B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870923A (zh) * 2014-03-03 2014-06-18 华北电力大学 基于信息熵的凝聚型层次聚类算法的风电场机群聚合方法
US20140196151A1 (en) * 2013-01-10 2014-07-10 Microsoft Corporation Preserving geometric properties of datasets while protecting privacy
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN107871087A (zh) * 2017-11-08 2018-04-03 广西师范大学 分布式环境下高维数据发布的个性化差分隐私保护方法
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
CN110334539A (zh) * 2019-06-12 2019-10-15 北京邮电大学 一种基于随机响应的个性化隐私保护方法及装置
US20190347278A1 (en) * 2018-05-09 2019-11-14 Sogang University Research Foundation K-means clustering based data mining system and method using the same

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140196151A1 (en) * 2013-01-10 2014-07-10 Microsoft Corporation Preserving geometric properties of datasets while protecting privacy
CN103870923A (zh) * 2014-03-03 2014-06-18 华北电力大学 基于信息熵的凝聚型层次聚类算法的风电场机群聚合方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN107871087A (zh) * 2017-11-08 2018-04-03 广西师范大学 分布式环境下高维数据发布的个性化差分隐私保护方法
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
US20190347278A1 (en) * 2018-05-09 2019-11-14 Sogang University Research Foundation K-means clustering based data mining system and method using the same
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
CN110334539A (zh) * 2019-06-12 2019-10-15 北京邮电大学 一种基于随机响应的个性化隐私保护方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
XIAOYAN ZHU 等: "Privacy-Preserving Affinity Propagation Clustering over Vertically Partitioned Data", 《2012 FOURTH INTERNATIONAL CONFERENCE ON INTELLIGENT NETWORKING AND COLLABORATIVE SYSTEMS》 *
YIANNIS KOKKINOS 等: "Confidence ratio affinity propagation in ensemble selection of Neural Network classifiers for distributed privacy-preserving data mining", 《NEUROCOMPUTING》 *
刘沫萌: "面向聚类算法的隐私保护技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
刘鑫: "基于差分隐私的数据发布方法", 《中国优秀硕士学位论文全文数据库(硕士)信息科技辑》 *
黄镇: "面向用户隐私保护的声纹身份认证研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN111242194B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
Nguyen et al. Unbiased Feature Selection in Learning Random Forests for High‐Dimensional Data
Asur et al. An ensemble framework for clustering protein–protein interaction networks
Mitra et al. Multi-objective evolutionary biclustering of gene expression data
Bu et al. A fast parallel modularity optimization algorithm (FPMQA) for community detection in online social network
Wang et al. Low-rank kernel matrix factorization for large-scale evolutionary clustering
Nikolentzos et al. Learning structural node representations using graph kernels
CN110866030A (zh) 一种基于无监督学习的数据库异常访问检测方法
Hussain et al. CCGA: Co-similarity based Co-clustering using genetic algorithm
US7277893B2 (en) System and method of flexible data reduction for arbitrary applications
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Zarei et al. Detecting community structure in complex networks using genetic algorithm based on object migrating automata
Huang et al. Weighting method for feature selection in k-means
Elakkiya et al. GAMEFEST: Genetic Algorithmic Multi Evaluation measure based FEature Selection Technique for social network spam detection
Su et al. Application of bert to enable gene classification based on clinical evidence
Wang et al. scHFC: a hybrid fuzzy clustering method for single-cell RNA-seq data optimized by natural computation
CN111242194B (zh) 亲和传播聚类的差分隐私保护方法
CN115797041A (zh) 基于深度图半监督学习的金融信用评估方法
CN111259442B (zh) MapReduce框架下决策树的差分隐私保护方法
Alkan et al. RedNemo: topology-based PPI network reconstruction via repeated diffusion with neighborhood modifications
Xiao et al. A quantum-inspired genetic algorithm for data clustering
Beg et al. Clustering by genetic algorithm-high quality chromosome selection for initial population
Fu et al. Neurons merging layer: Towards progressive redundancy reduction for deep supervised hashing
Lopez et al. Extracting biological knowledge by fuzzy association rule mining
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
Usuzaka et al. A novel NMF algorithm for detecting clusters in directed networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant