CN113537308B - 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 - Google Patents

基于本地化差分隐私的两阶段k-means聚类处理系统及方法 Download PDF

Info

Publication number
CN113537308B
CN113537308B CN202110730733.0A CN202110730733A CN113537308B CN 113537308 B CN113537308 B CN 113537308B CN 202110730733 A CN202110730733 A CN 202110730733A CN 113537308 B CN113537308 B CN 113537308B
Authority
CN
China
Prior art keywords
user
center point
cluster
stage
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110730733.0A
Other languages
English (en)
Other versions
CN113537308A (zh
Inventor
王宁
庄健
朱佩瑶
王志刚
殷波
王晓东
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110730733.0A priority Critical patent/CN113537308B/zh
Publication of CN113537308A publication Critical patent/CN113537308A/zh
Application granted granted Critical
Publication of CN113537308B publication Critical patent/CN113537308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了基于本地化差分隐私的两阶段k‑means聚类处理系统及方法,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;第一阶段基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制,第二阶段基于拉普拉斯机制更新中心点,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建,通过本发明解决k‑means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。

Description

基于本地化差分隐私的两阶段k-means聚类处理系统及方法
技术领域
本发明属于数据聚类技术领域,涉及基于本地化差分隐私的k-means聚类算法,特别涉及基于本地化差分隐私的两阶段k-means聚类处理系统及方法。
背景技术
随着信息时代的到来,数据已经应用在生活的方方面面,在人们享受数据给生活带来便利的同时,数据中包含的隐私信息也越来越多,隐私泄露的风险也越来越严峻。如何在保护敏感信息的基础上对数据进行使用,是当前面临的重要挑战。
聚类是一类有效的数据挖掘算法,是根据样本的内在特征或相似性对样本进行分组的一类方法。其中k-means是目前最流行和最简单的聚类算法之一,k-means聚类算法的主要思想是:找到一种分类方法,使得每个聚类的中心点和聚类中的点之间的平方误差最小。由于用户数据可能包含敏感信息,所以在k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新都会泄露用户的敏感信息。
为了解决隐私泄露问题,现有的主流方法是使用差分隐私技术,其中差分隐私又可分为中心化差分隐私技术(Centralizer Differential Privacy,CDP)和本地化差分隐私技术(Local Differential Privacy,LDP)。很多学者基于CDP优化了k-means聚类算法,但是CDP是建立在可信第三方数据收集者的前提下的,由于这个前提过于苛刻,所以此类技术在实际部署中很少。基于LDP的k-means聚类算法便应运而生,LDP假设所有的第三方数据收集者都是不可信的,这保证了在面对强背景知识攻击者以及不可信的第三方数据收集者的隐私攻击时,LDP仍能为每一个客户端用户提供可靠的、具有理论保证的隐私保护服务。
现有的基于LDP的k-means算法的研究中,主要是将用户的加噪数据直接发送给server端,有的方法是用户每个点的距离向量扰动后发送给server端;有的方法是每个用户将原始数据直接加噪后发送给server端,server端根据加噪的数据使用k-means进行处理。这种方案并非直接针对k-means的用户属于哪个簇和对应的中心点这两个隐私信息进行隐私保护,而是着手于对用户给出的原始数据进行扰动和加噪。对用户的原始数据进行扰动之后,用户原本的真实数据就无从得知了,将扰动的数据发送给聚类算法进行聚类,这样也起到了一定的隐私保护作用。但是上述方案存在一定不足:在LDP模型下,针对每一个用户位置加噪,加噪后的数据严重偏离真实值,单个带噪数据没有意义,只有基于大量带噪数据计算的统计值是有意义的,该统计值可以用于作为真实统计值的估计。所以基于单个用户的带噪数据完成其与中心点归属关系的判定会得到无用的对用户分组的结果。
鉴于此,本发明提出了一种基于LDP的两阶段k-means算法,分别应用满足LDP的算法完成用户与中心点归属关系的判定以及中心点的更新,解决了隐私泄露的问题。
发明内容
针对现有技术存在的不足,本发明提供一种基于本地化差分隐私的两阶段k-means聚类系统及方法,基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制;基于拉普拉斯机制,设计满足本地化差分隐私模型约束的中心点更新方法,解决k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。
为了解决上述技术问题,本发明采用的技术方案是:
基于本地化差分隐私的两阶段k-means聚类处理方法,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私;
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息。
进一步的,每次迭代的具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量;
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代。
进一步的,在每次迭代时,第一阶段中,通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
进一步的,在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e
进一步的,在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇。
进一步的,第二阶段中,更新中心点时,首先将每个用户的坐标(xi,yi)进行归一化处理,之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数,
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,获得新的中心点。
本发明还提供一种基于本地化差分隐私的两阶段k-means聚类处理系统,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于本地化差分隐私的两阶段k-means聚类处理方法。
与现有技术相比,本发明优点在于:
(1)基于随机响应机制,建立满足本地化差分隐私模型约束的用户与中心点归属关系判定机制。
(2)基于拉普拉斯机制,设计满足本地化差分隐私模型约束的中心点更新方法。
(3)本发明将隐私预算分成多份,防止出现迭代过程中隐私预算枯竭问题,将每次迭代使用的隐私预算分配到两个阶段,在满足差分隐私的基础上优化效果;两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建,解决k-means算法的每步迭代中用户与中心点的归属关系判定以及中心点的更新过程中泄露用户的敏感信息问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的两阶段k-means框架单次迭代示意图;
图2为本发明单个用户处理坐标信息示意图;
图3为本发明用户发布中心点带噪数据流程示意图;
图4为本发明用户使用拉普拉斯机制加噪坐标信息流程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
在LDP模型中,用户需要将真实数据加噪以后再将数据发布。其中数据加噪过程借助于随机函数f完成,f满足ε-LDP,当且仅当对于任意两个输入值t1和t2,任意输出值t*满足约束
Pr[f(t1)=t*]≤eε.Pr[f(t2)=t*]
其中,ε为隐私预算,代表隐私保护的强度,ε-LDP能保证对于加噪后的元组t*,数据搜集者不能以高于eε的概率推断出原始元组是t1还是t2。这意味着,ε越小,就能产生越强的隐私保护。
本发明提出的基于本地化差分隐私的两阶段k-means聚类处理方法,需要进行多次迭代,根据本地化差分隐私的可组合性,将隐私预算ε分成多份,用于多次迭代,防止出现迭代过程中隐私预算枯竭问题。同时因为在每次迭代时,要进行两阶段的处理,将每次迭代使用的隐私预算εi分配到两个阶段,在满足差分隐私的基础上优化效果。
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私。
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息。
在上述方案的第一阶段基于真实值进行扰动获取用户与中心点的归属关系,第二阶段利用带噪信息的统计值作为估计值,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建。
下面首先介绍在∈-LDP约束下,两阶段k-means聚类分析框架以及原理。随后,基于此框架,结合随机响应机制和拉普拉斯机制提出一种提高精度的优化方案。
如图1所示的两阶段k-means框架单次迭代示意图,具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量。
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代。
在k-means算法过程中主要关注两处隐私信息,首先是每次迭代时用户坐标归属于哪个中心点的这一信息,用户并不希望这一信息被外界知道,所以需要对该信息加以扰动,随机响应机制即RR机制可以很好地解决这个问题。其次,在k-means聚类算法中,每次迭代都要更新中心点,中心点的选取也是一个隐私信息,本专利使用拉普拉斯机制对用户坐标信息进行加噪,再进行中心点的选取,很好地保护了用户的隐私。
(1)确定用户归属于哪个中心点
在k-means算法的每次迭代时,第一阶段中,需要通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,如图2所示,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e
如图3所示,在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇。
(2)中心点更新
拉普拉斯分布是一种统计学概念,它是一个连续的概率分布。为了保护数据隐私,本发明通过拉普拉斯机制添加噪声,将原有的单一的确定的结果概率化,实现隐私保护。假设每个用户的数据记录都包含一组数值属性,如本发明主要是二维数据信息,如坐标和轨迹信息。
首先,为了能统一操作,将每个用户的坐标(xi,yi)进行归一化处理,即将每个坐标的坐标值都归一于[-1,1]的区间中。之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化。拉普拉斯机制的核心是一个随机函数,将数值输入拉普拉斯函数,它将输出一个扰动后的数据,其中Lap(λ)表示一个遵循尺度λ的拉普拉斯分布的随机变量。
在k-means算法中,计算各簇的中心点时,需要先计算各簇内的点到各簇中心点的距离和sum,再将其除以簇内所有点的数目count,更新该簇的中心点。
为了避免用户的敏感信息被窃取,在计算距离之和的时候,如图4所示,用户不把真实坐标传达给中心点,而是先利用拉普拉斯机制加噪,并且给每个用户的横纵坐标分别进行拉普拉斯加噪,将拉普拉斯函数输出的噪音加载坐标点上,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数,
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,即公式获得新的中心点。
此时的中心点是经过扰动之后的中心点,该结果不会暴露用户的中心点的真实信息,满足了隐私保护的需求。
作为本发明另一实施例,提供一种基于本地化差分隐私的两阶段k-means聚类处理系统,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
该系统的每个模块的功能及工作方式同前所述的基于本地化差分隐私的两阶段k-means聚类处理方法,此处不再赘述。
作为本发明另一实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的基于本地化差分隐私的两阶段k-means聚类处理方法,此处不再赘述。
综上所述,本发明第一阶段基于真实值进行扰动获取用户与中心点的归属关系,并利用随机响应机制完成对该信息的加噪以保护用户的隐私;第二阶段利用带噪信息的统计值作为估计值,计算平均值统计结果,作为更新后每个中心点的信息,两个阶段都有效地避免了直接使用单个用户的带噪值完成聚类的构建。
本发明的各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (5)

1.基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,将隐私预算ε分成多份,用于多次迭代,在每次迭代时,包括两个阶段,每次迭代使用的隐私预算分配到两个阶段;
第一阶段,应用本地化差分隐私算法完成用户与中心点归属关系的判定:每个用户利用真实数据判定其归属的中心点,并利用随机响应机制完成对每次迭代时用户坐标归属于哪个中心点这一信息的加噪以保护用户的隐私;
第二阶段,基于拉普拉斯机制进行中心点的更新:在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的坐标信息;
每次迭代的具体步骤如下:
阶段1:获取每个用户加噪的所属簇;计算每个簇的点数量;
在计算出用户ui归属于簇labeli后,用户以概率p1回答labeli,以概率p2随机回答除labeli以外的任意其他簇,其中p1、p2的值如下式计算:
最终能得出:
用户ui以Pr[y=j]的概率回答第j簇,根据该公式计算出每个用户ui回答正确簇值的概率,1≤i≤n;之后利用一个随机数p,如果该随机数p小于Pr[y=labeli],将用户分配给所属的真实簇并发布真实值labeli,反之,分配给一个其他的随机簇;
阶段2:获取阶段1获取的每个簇的数量和对应的用户信息,获取每个用户加噪的坐标信息,并计算新的中心点,更新中心点,并发送给所有用户,用于下次迭代;
更新中心点时,首先将每个用户的坐标(xi,yi)进行归一化处理,之后对横纵坐标分别加入拉普拉斯噪声,对查询结果进行扰动,将查询结果概率化,加噪后的横纵坐标分别为:
其中,为与/>相关的拉普拉斯分布函数;
最后,将带噪的数据发送给中心点,各簇内的点到各簇中心点的欧氏距离之和为sum*,再将其除以簇内所有点的数目count,获得新的中心点。
2.根据权利要求1所述的基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,在每次迭代时,第一阶段中,通过下述方法判断每个用户的坐标归属于哪个簇:首先计算用户坐标ti和每个中心点μk的欧氏距离,之后比较各个距离,用户将归属于距离最近的那个中心点:
计算出来的labeli就是该坐标应该归属的真实簇号。
3.根据权利要求2所述的基于本地化差分隐私的两阶段k-means聚类处理方法,其特征在于,在获得用户归属于哪个中心点的信息后,用户ui需要回答一个值给聚合器,这个值就是用户所属的哪个簇,这个值的候选值有k个,通过随机响应机制对用户归属于哪个中心点这一信息加噪,保证用户ui以大概率p1回答真实labeli,而用小概率p2随机回答其他label;根据差分隐私的需求,需要满足以下:
i.回答值的所有概率和为1
ii.大概率p1和小概率p2的比值为e
4.基于本地化差分隐私的两阶段k-means聚类处理系统,其特征在于,用于实现如权利要求1-3任一项所述的基于本地化差分隐私的两阶段k-means聚类处理方法,包括:
第一加噪模块,用于每次迭代时用户坐标归属于哪个中心点的信息加噪,在每个用户利用真实数据获得用户归属于哪个中心点的信息后,利用随机响应机制完成对这一信息的加噪以保护用户的隐私;
第二加噪模块,用于每次迭代更新中心点时对用户坐标信息加噪,在服务端进行中心点的更新时,用户将横纵坐标加入拉普拉斯噪声后传给服务器,服务器结合第一阶段的结果,使用同一簇中的不同用户的带噪坐标值计算平均值统计结果,作为更新后每个中心点的信息。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一权利要求所述的基于本地化差分隐私的两阶段k-means聚类处理方法。
CN202110730733.0A 2021-06-29 2021-06-29 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 Active CN113537308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730733.0A CN113537308B (zh) 2021-06-29 2021-06-29 基于本地化差分隐私的两阶段k-means聚类处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730733.0A CN113537308B (zh) 2021-06-29 2021-06-29 基于本地化差分隐私的两阶段k-means聚类处理系统及方法

Publications (2)

Publication Number Publication Date
CN113537308A CN113537308A (zh) 2021-10-22
CN113537308B true CN113537308B (zh) 2023-11-03

Family

ID=78097181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730733.0A Active CN113537308B (zh) 2021-06-29 2021-06-29 基于本地化差分隐私的两阶段k-means聚类处理系统及方法

Country Status (1)

Country Link
CN (1) CN113537308B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115348280A (zh) * 2022-06-27 2022-11-15 昆明理工大学 一种基于可信区块链的车联网数据共享方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质
CN112199722A (zh) * 2020-10-15 2021-01-08 南京邮电大学 一种基于K-means的差分隐私保护聚类方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质
CN112199722A (zh) * 2020-10-15 2021-01-08 南京邮电大学 一种基于K-means的差分隐私保护聚类方法
CN112364914A (zh) * 2020-11-10 2021-02-12 郑州大学 基于簇相似度与变换不变性的差分隐私k均值聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于K均值和双支持向量机的P2P流量识别方法;郭伟;王西闯;肖振久;;计算机应用(第10期);第1-3页 *

Also Published As

Publication number Publication date
CN113537308A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
WO2022126971A1 (zh) 基于密度的文本聚类方法、装置、设备及存储介质
Riederer et al. Linking users across domains with location data: Theory and validation
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
CN111460234B (zh) 图查询方法、装置、电子设备及计算机可读存储介质
CN108399268B (zh) 一种基于博弈论的增量式异构图聚类方法
CN101149759A (zh) 一种基于邻域模型的K-means初始聚类中心选择方法
CN104077723A (zh) 一种社交网络推荐系统及方法
CN113222181B (zh) 一种面向k-means聚类算法的联邦学习方法
CN114385376B (zh) 一种异构数据下边缘侧联邦学习的客户端选择方法
CN113537308B (zh) 基于本地化差分隐私的两阶段k-means聚类处理系统及方法
CN113094746A (zh) 基于本地化差分隐私的高维数据发布方法及相关设备
CN116629376A (zh) 一种基于无数据蒸馏的联邦学习聚合方法和系统
CN113704787B (zh) 一种基于差分隐私的隐私保护聚类方法
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
CN111797433A (zh) 一种基于差分隐私的lbs服务隐私保护方法
Yin et al. An industrial dynamic skyline based similarity joins for multidimensional big data applications
Yu Accurate recognition method of human body movement blurred image gait features using graph neural network
Yan et al. The self-adaptive integrated algorithm on time-sensitive cluster evolution tracking
CN115376192B (zh) 用户异常行为确定方法、装置、计算机设备及存储介质
CN109409132A (zh) 一种具有个性化隐私保护功能的负调查方法
CN111401412A (zh) 一种基于平均共识算法的物联网环境下分布式软聚类方法
CN116467751A (zh) 一种带有隐私保护的关联规则学习方法
Sheela et al. Partition based perturbation for privacy preserving distributed data mining
CN114430530B (zh) 空间划分方法、装置、设备、介质和程序产品
CN112235787A (zh) 一种基于生成对抗网络的位置隐私保护方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant