CN113537308B - 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 - Google Patents
基于本地化差分隐私的两阶段k-means聚类处理系统及方法 Download PDFInfo
- Publication number
- CN113537308B CN113537308B CN202110730733.0A CN202110730733A CN113537308B CN 113537308 B CN113537308 B CN 113537308B CN 202110730733 A CN202110730733 A CN 202110730733A CN 113537308 B CN113537308 B CN 113537308B
- Authority
- CN
- China
- Prior art keywords
- user
- center point
- cluster
- stage
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003064 k means clustering Methods 0.000 title claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了基于本地化差分隐私的两阶段k‑means聚类处理系统及方法,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;第一阶段基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制,第二阶段基于拉普拉斯机制更新中心点,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建,通过本发明解决k‑means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。
Description
技术领域
本发明属于数据聚类技术领域,涉及基于本地化差分隐私的k-means聚类算法,特别涉及基于本地化差分隐私的两阶段k-means聚类处理系统及方法。
背景技术
随着信息时代的到来,数据已经应用在生活的方方面面,在人们享受数据给生活带来便利的同时,数据中包含的隐私信息也越来越多,隐私泄露的风险也越来越严峻。如何在保护敏感信息的基础上对数据进行使用,是当前面临的重要挑战。
聚类是一类有效的数据挖掘算法,是根据样本的内在特征或相似性对样本进行分组的一类方法。其中k-means是目前最流行和最简单的聚类算法之一,k-means聚类算法的主要思想是:找到一种分类方法,使得每个聚类的中心点和聚类中的点之间的平方误差最小。由于用户数据可能包含敏感信息,所以在k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新都会泄露用户的敏感信息。
为了解决隐私泄露问题,现有的主流方法是使用差分隐私技术,其中差分隐私又可分为中心化差分隐私技术(Centralizer Differential Privacy,CDP)和本地化差分隐私技术(Local Differential Privacy,LDP)。很多学者基于CDP优化了k-means聚类算法,但是CDP是建立在可信第三方数据收集者的前提下的,由于这个前提过于苛刻,所以此类技术在实际部署中很少。基于LDP的k-means聚类算法便应运而生,LDP假设所有的第三方数据收集者都是不可信的,这保证了在面对强背景知识攻击者以及不可信的第三方数据收集者的隐私攻击时,LDP仍能为每一个客户端用户提供可靠的、具有理论保证的隐私保护服务。
现有的基于LDP的k-means算法的研究中,主要是将用户的加噪数据直接发送给server端,有的方法是用户每个点的距离向量扰动后发送给server端;有的方法是每个用户将原始数据直接加噪后发送给server端,server端根据加噪的数据使用k-means进行处理。这种方案并非直接针对k-means的用户属于哪个簇和对应的中心点这两个隐私信息进行隐私保护,而是着手于对用户给出的原始数据进行扰动和加噪。对用户的原始数据进行扰动之后,用户原本的真实数据就无从得知了,将扰动的数据发送给聚类算法进行聚类,这样也起到了一定的隐私保护作用。但是上述方案存在一定不足:在LDP模型下,针对每一个用户位置加噪,加噪后的数据严重偏离真实值,单个带噪数据没有意义,只有基于大量带噪数据计算的统计值是有意义的,该统计值可以用于作为真实统计值的估计。所以基于单个用户的带噪数据完成其与中心点归属关系的判定会得到无用的对用户分组的结果。
鉴于此,本发明提出了一种基于LDP的两阶段k-means算法,分别应用满足LDP的算法完成用户与中心点归属关系的判定以及中心点的更新,解决了隐私泄露的问题。
发明内容
针对现有技术存在的不足,本发明提供一种基于本地化差分隐私的两阶段k-means聚类系统及方法,基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制;基于拉普拉斯机制,设计满足本地化差分隐私模型约束的中心点更新方法,解决k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。
为了解决上述技术问题,本发明采用的技术方案是:
基于本地化差分隐私的两阶段k-means聚类处理方法,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私;
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息。
进一步的,每次迭代的具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量;
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代。
进一步的,在每次迭代时,第一阶段中,通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
进一步的,在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e∈。
进一步的,在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇。
进一步的,第二阶段中,更新中心点时,首先将每个用户的坐标(xi,yi)进行归一化处理,之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数,
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,获得新的中心点。
本发明还提供一种基于本地化差分隐私的两阶段k-means聚类处理系统,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于本地化差分隐私的两阶段k-means聚类处理方法。
与现有技术相比,本发明优点在于:
(1)基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制。
(2)基于拉普拉斯机制,设计满足本地化差分隐私模型约束的中心点更新方法。
(3)本发明将隐私预算分成多份,防止出现迭代过程中隐私预算枯竭问题,将每次迭代使用的隐私预算分配到两个阶段,在满足差分隐私的基础上优化效果;两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建,解决k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的两阶段k-means框架单次迭代示意图;
图2为本发明单个用户处理坐标信息示意图;
图3为本发明用户发布中心点带噪数据流程示意图;
图4为本发明用户使用拉普拉斯机制加噪坐标信息流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
在LDP模型中,用户需要将真实数据加噪以后再将数据发布。其中数据加噪过程借助于随机函数f完成,f满足ε-LDP,当且仅当对于任意两个输入值t1和t2,任意输出值t*满足约束
Pr[f(t1)=t*]≤eε.Pr[f(t2)=t*]
其中,ε为隐私预算,代表隐私保护的强度,ε-LDP能保证对于加噪后的元组t*,数据搜集者不能以高于eε的概率推断出原始元组是t1还是t2。这意味着,ε越小,就能产生越强的隐私保护。
本发明提出的基于本地化差分隐私的两阶段k-means聚类处理方法,需要进行多次迭代,根据本地化差分隐私的可组合性,将隐私预算ε分成多份,用于多次迭代,防止出现迭代过程中隐私预算枯竭问题。同时因为在每次迭代时,要进行两阶段的处理,将每次迭代使用的隐私预算εi分配到两个阶段,在满足差分隐私的基础上优化效果。
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私。
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息。
在上述方案的第一阶段基于真实值进行扰动获取用户与中心点的归属关系,第二阶段利用带噪信息的统计值作为估计值,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建。
下面首先介绍在∈-LDP约束下,两阶段k-means聚类分析框架以及原理。随后,基于此框架,结合随机响应机制和拉普拉斯机制提出一种提高精度的优化方案。
如图1所示的两阶段k-means框架单次迭代示意图,具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量。
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代。
在k-means算法过程中主要关注两处隐私信息,首先是每次迭代时用户坐标归属于哪个中心点的这一信息,用户并不希望这一信息被外界知道,所以需要对该信息加以扰动,随机响应机制即RR机制可以很好地解决这个问题。其次,在k-means聚类算法中,每次迭代都要更新中心点,中心点的选取也是一个隐私信息,本专利使用拉普拉斯机制对用户坐标信息进行加噪,再进行中心点的选取,很好地保护了用户的隐私。
(1)确定用户归属于哪个中心点
在k-means算法的每次迭代时,第一阶段中,需要通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,如图2所示,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e∈。
如图3所示,在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇。
(2)中心点更新
拉普拉斯分布是一种统计学概念,它是一个连续的概率分布。为了保护数据隐私,本发明通过拉普拉斯机制添加噪声,将原有的单一的确定的结果概率化,实现隐私保护。假设每个用户的数据记录都包含一组数值属性,如本发明主要是二维数据信息,如坐标和轨迹信息。
首先,为了能统一操作,将每个用户的坐标(xi,yi)进行归一化处理,即将每个坐标的坐标值都归一于[-1,1]的区间中。之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化。拉普拉斯机制的核心是一个随机函数,将数值输入拉普拉斯函数,它将输出一个扰动后的数据,其中Lap(λ)表示一个遵循尺度λ的拉普拉斯分布的随机变量。
在k-means算法中,计算各簇的中心点时,需要先计算各簇内的点到各簇中心点的距离和sum,再将其除以簇内所有点的数目count,更新该簇的中心点。
为了避免用户的敏感信息被窃取,在计算距离之和的时候,如图4所示,用户不把真实坐标传达给中心点,而是先利用拉普拉斯机制加噪,并且给每个用户的横纵坐标分别进行拉普拉斯加噪,将拉普拉斯函数输出的噪音加载坐标点上,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数,
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,即公式获得新的中心点。
此时的中心点是经过扰动之后的中心点,该结果不会暴露用户的中心点的真实信息,满足了隐私保护的需求。
作为本发明另一实施例,提供一种基于本地化差分隐私的两阶段k-means聚类处理系统,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
该系统的每个模块的功能及工作方式同前所述的基于本地化差分隐私的两阶段k-means聚类处理方法,此处不再赘述。
作为本发明另一实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于本地化差分隐私的两阶段k-means聚类处理方法,此处不再赘述。
综上所述,本发明第一阶段基于真实值进行扰动获取用户与中心点的归属关系,并利用随机响应机制完成对该信息的加噪以保护用户的隐私;第二阶段利用带噪信息的统计值作为估计值,计算平均值统计结果,作为更新后每个中心点的信息,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建。
本发明的各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (5)
1.基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私;
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息;
每次迭代的具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量;
在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇;
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代;
更新中心点时,首先将每个用户的坐标(xi,yi)进行归一化处理,之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数;
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,获得新的中心点。
2.根据权利要求1所述的基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,在每次迭代时,第一阶段中,通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
3.根据权利要求2所述的基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e∈。
4.基于本地化差分隐私的两阶段k-means聚类处理系统,其特征在于,用于实现如权利要求1-3任一项所述的基于本地化差分隐私的两阶段k-means聚类处理方法,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一权利要求所述的基于本地化差分隐私的两阶段k-means聚类处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730733.0A CN113537308B (zh) | 2021-06-29 | 2021-06-29 | 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730733.0A CN113537308B (zh) | 2021-06-29 | 2021-06-29 | 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537308A CN113537308A (zh) | 2021-10-22 |
CN113537308B true CN113537308B (zh) | 2023-11-03 |
Family
ID=78097181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110730733.0A Active CN113537308B (zh) | 2021-06-29 | 2021-06-29 | 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537308B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115348280A (zh) * | 2022-06-27 | 2022-11-15 | 昆明理工大学 | 一种基于可信区块链的车联网数据共享方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN110334757A (zh) * | 2019-06-27 | 2019-10-15 | 南京邮电大学 | 面向大数据分析的隐私保护聚类方法及计算机存储介质 |
CN112199722A (zh) * | 2020-10-15 | 2021-01-08 | 南京邮电大学 | 一种基于K-means的差分隐私保护聚类方法 |
CN112364914A (zh) * | 2020-11-10 | 2021-02-12 | 郑州大学 | 基于簇相似度与变换不变性的差分隐私k均值聚类方法 |
-
2021
- 2021-06-29 CN CN202110730733.0A patent/CN113537308B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN110334757A (zh) * | 2019-06-27 | 2019-10-15 | 南京邮电大学 | 面向大数据分析的隐私保护聚类方法及计算机存储介质 |
CN112199722A (zh) * | 2020-10-15 | 2021-01-08 | 南京邮电大学 | 一种基于K-means的差分隐私保护聚类方法 |
CN112364914A (zh) * | 2020-11-10 | 2021-02-12 | 郑州大学 | 基于簇相似度与变换不变性的差分隐私k均值聚类方法 |
Non-Patent Citations (1)
Title |
---|
基于K均值和双支持向量机的P2P流量识别方法;郭伟;王西闯;肖振久;;计算机应用(第10期);第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537308A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022126971A1 (zh) | 基于密度的文本聚类方法、装置、设备及存储介质 | |
Riederer et al. | Linking users across domains with location data: Theory and validation | |
CN103020256B (zh) | 一种大规模数据的关联规则挖掘方法 | |
CN111460234B (zh) | 图查询方法、装置、电子设备及计算机可读存储介质 | |
CN108399268B (zh) | 一种基于博弈论的增量式异构图聚类方法 | |
CN101149759A (zh) | 一种基于邻域模型的K-means初始聚类中心选择方法 | |
CN104077723A (zh) | 一种社交网络推荐系统及方法 | |
CN113222181B (zh) | 一种面向k-means聚类算法的联邦学习方法 | |
CN114385376B (zh) | 一种异构数据下边缘侧联邦学习的客户端选择方法 | |
CN113537308B (zh) | 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 | |
CN113094746A (zh) | 基于本地化差分隐私的高维数据发布方法及相关设备 | |
CN116629376A (zh) | 一种基于无数据蒸馏的联邦学习聚合方法和系统 | |
CN113704787B (zh) | 一种基于差分隐私的隐私保护聚类方法 | |
CN116186757A (zh) | 一种效用增强的条件特征选择差分隐私数据发布方法 | |
CN111797433A (zh) | 一种基于差分隐私的lbs服务隐私保护方法 | |
Yin et al. | An industrial dynamic skyline based similarity joins for multidimensional big data applications | |
Yu | Accurate recognition method of human body movement blurred image gait features using graph neural network | |
Yan et al. | The self-adaptive integrated algorithm on time-sensitive cluster evolution tracking | |
CN115376192B (zh) | 用户异常行为确定方法、装置、计算机设备及存储介质 | |
CN109409132A (zh) | 一种具有个性化隐私保护功能的负调查方法 | |
CN111401412A (zh) | 一种基于平均共识算法的物联网环境下分布式软聚类方法 | |
CN116467751A (zh) | 一种带有隐私保护的关联规则学习方法 | |
Sheela et al. | Partition based perturbation for privacy preserving distributed data mining | |
CN114430530B (zh) | 空间划分方法、装置、设备、介质和程序产品 | |
CN112235787A (zh) | 一种基于生成对抗网络的位置隐私保护方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |