CN107451618A - 一种密度峰值聚类算法的差分隐私保护方法 - Google Patents
一种密度峰值聚类算法的差分隐私保护方法 Download PDFInfo
- Publication number
- CN107451618A CN107451618A CN201710680326.7A CN201710680326A CN107451618A CN 107451618 A CN107451618 A CN 107451618A CN 201710680326 A CN201710680326 A CN 201710680326A CN 107451618 A CN107451618 A CN 107451618A
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- mtr
- mtd
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
Abstract
本发明涉及一种密度峰值聚类算法的差分隐私保护方法,其步骤:1)基于Voronoi图分割的方法对数据对象进行分组,并采用Map Reduce技术来并行计算,提高算法的效率;2)对数据集D中每一个点xi计算局部密度2.1)需要从分组聚簇Si复制四个点到Sj;2.2)往数据集中添加噪音;2.3)使得ρ'的计算满足ε‑差分隐私保护;3)对每一个点xi计算密度距离在计算值时,为解决因分组导致的计算错误,采用复制过滤模型来保证聚类隐私保护的正确性。并将数据集中添加噪音,其处理方法与步骤2.1)至2.2)相同,使δ”的计算满足ε‑差分隐私。本发明能解决大数据背景下的新型密度峰值聚类算法的隐私保护,保证聚类的正确性。
Description
技术领域
本发明涉及一种差分隐私保护方法,特别是关于一种密度峰值聚类算法的差分隐私保护方法。
背景技术
随着差分隐私保护的技术出现,对于传统的聚类算法,出现了很多差分隐私保护的聚类方法。但是对于大数据下新型的聚类算法还没提出相应的隐私保护方法。隐私保护k-means聚类和隐私保护DBSCAN已经被研究。不同于差分隐私,他们不能够对会潜在泄露个人信息的结果提供保护。聚类的结果中可能包含新的实体或结点之间未知的关系,因此聚类可能揭示敏感信息。
到目前为止,研究最多的是对k-means聚类算法的隐私保护。从2003到2008 年,大多数的k-means算法研究采用安全多方计算,其中数据的分布类型包括垂直数据,水平数据和混合数据。上述工作采用的是Yao协议和同态加密技术。隐私代价是通过计算和通信成本来衡量的,对比于同态加密技术的隐私代价,Yao 协议代价将更大,而且同态加密技术的加密成本也是不容忽视的。传统的基于分割的聚类算法(最常见的为k-means算法)不能够发现非球面形状的聚簇,基于密度的聚类方法可以识别,经典的基于密度的聚类算法为DBSCAN。对此聚类算法的一些隐私保护工作包括Kunar et al.(针对水平和垂直分布的数据),以及 Jinfeiet.al(数据分布特征可以是任意分布的),他们都是基于Pailler的加法同态加密技术的乘法协议。但是,这些安全函数保护协议都忽略了一个问题就是没有函数使用来保护隐私的,他们并不提供保护个人敏感信息不被泄露。自从差分隐私被提出并被数据库领域广泛接受后,隐私保护要求已经实现了从句法模型更严格的差分隐私模型。
当然,其中去多工作是针对k-means算法。例如,McSherry构建了PINQ系统,实现了差分隐私保护k-means聚类算法。Nissim et al.提出了抽样与聚合框架,并应用到了GUPT系统中,也实现了对k-means算法进行了隐私保护。Zhang et al. 提出了基于遗传算法的差分隐私模型拟合,也应用到了k-means算法。
在数据类型多样性的背景下,Alex Rodriguez和Alessandro Laio提出了快速搜索和发现密度峰值的聚类算法(DPC算法)。此聚类算法能够聚出任意形状和任意维度的数据集,它可以很好的应用于生物信息学、文献计量学、模式识别。据我们所知,目前关于此聚类算法还没有隐私保护的工作。
发明内容
针对上述问题,本发明的目的是提供一种密度峰值聚类算法的差分隐私保护方法,该方法能解决大数据背景下的新型密度峰值聚类算法的隐私保护,保证聚类的正确性。
为实现上述目的,本发明采取以下技术方案:一种密度峰值聚类算法的差分隐私保护方法,其特征在于包括以下步骤:1)基于Voronoi图分割的方法对数据对象进行分组;2)对数据集D中每一个点xi计算局部密度2.1)需要从分组聚簇Si复制四个点到Sj;2.2)往数据集中添加噪音:
式中,ρ'表示加入噪音后的局部密度值,表示点xi和点xj之间的距离,dc表示阈值,Lap(β)表示加入的噪音,β表示加入的噪音量,χ()表示是一个函数,如果l<0,则χ(l)=1;否则χ(l)=0,GSρ表示局部密度函数ρ的敏感度,ε1表示第一阶段隐私预算;2.3)如果dc满足如下不等式,则ρ'的计算满足ε-差分隐私保护:
3)对每一个点xi计算密度距离并将数据集中添加噪音,其处理方法与步骤2.1)至2.2)相同,使δ”的计算满足ε-差分隐私。
进一步,所述步骤1)中,假设数据对象为数据集D,对于数据集D,挑选M 个点作为初始中心点集;然后根据垂直线,将数据集D分割成M个相互不相交的分组,数据集D中的每一个点被分配到最近的初始中心点所在的分组中。
进一步,所述步骤3)中,如果xi应该从分组Sj复制到分组Si中,复制后的分组满足如下等式:根据过滤冗余依赖模型对复制点过滤,如果满足sj∈Sj,si∈Si,|xj,si|≤|sj,si|-θ,则δ”的计算满足ε-差分隐私;其中,表示点si的局部密度值,δ”表示加噪音的密度距离次大值,θ={θ1,θ2},θ1=max{|xi,si|}+δs(Si),θ2=min{2|xm,si|+|sj,sk|+|sj,si|},δs表示在分组中第二大密度距离。
进一步,所述过滤冗余依赖模型为:以δs表示在分组中第二大密度距离,Si,Sj表示原始分组,si,xi,xm∈Si;Si≠Sj,有:
然后,对数据集添加噪音,使得添加的噪音量满足如下等式:
式中,表示两点之间的距离,表示点的局部密度值,ε2表示第二阶段隐私预算。
本发明由于采取以上技术方案,其具有以下优点:本发明将差分隐私保护模型运用到新型的简洁的密度峰值聚类算法(Density peaks clustering,DPC)中,提出了一个新的隐私保护框架模型,为了避免直接对原始数据添加噪音而造成聚类结果严重失真,本发明采用Voronoi图分割的思想来降低噪音量,并采用 MapReduce并行计算加快算法的效率,同时通过复制过滤原则来保证聚类的正确性,并引入ε1和ε2分别保护聚类参数ρ和δ。
附图说明
图1是Voronoi图;
图2是数据复制;
图3是δ与δ'之间的关系;
图4是两点之间的依赖性;
图5是过滤冗余依赖点。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
在本发明中,出现的各符号含义如下:
D表示数据集,xi是其中的任意一点。
S表示初始聚簇集,C是最终的聚簇集。
Si∈S表示初始聚簇集中一个聚簇,且si是Si的聚簇中心。
Ci∈C表示最终聚簇集中的一个聚簇,且Ci=Si+Ri,其中Ri是将要被复制的点集。
l表示Voronoi图的边界。
本发明提供一种密度峰值聚类算法的差分隐私保护方法,采用基于Voronoi 图分割的方法来解决基于DPC聚类算法的隐私保护问题。其包括以下步骤:
1)对数据对象进行预处理:基于Voronoi图分割的方法对数据对象进行分组;
分组过程为:假设数据对象为数据集D,对于数据集D,挑选M个点作为初始中心点集。然后根据垂直线,将数据集D分割成M个相互不相交的分组,数据集D中的每一个点被分配到最近的初始中心点所在的分组中,以提高DPC算法的效率和维持数据的可用性。
例如:如图1所示,将数据集分割成5个分组。首先通过MapReduce执行水库采样算法挑选初始中心点,然后计算每个点xi到初始中心点si之间的距离,选择距离中心点最近的分组,将点xi分配到此分组中。分组完成后,整个数据点集将被分成一系列不相交的分组。同时,采用水库采样方法采样任意两点之间的距离。
2)对数据集D中每一个点xi计算局部密度
由于分组后,每一个分组是相对独立的,所以在计算每个分组内的数据点xi的局部密度值时,点xi的值可能会是一个错值。如图2所示,在分组Sj中,点 xj的局部密度是8,然而它的真实值应该是12。
2.1)为了得到正确的局部密度ρ值,需要从分组聚簇Si复制四个点到聚簇Sj (i、j为任意取值)。因此,每一个聚簇Ci不仅包含从Voronoi图分割得到的点集,还应包括复制到本组的其他分组中的点集即其中,如2所示,每一个分组包含两种类型的点,一个是从Voronoi图分割得到的原始点集,另一个是从其他分组复制过来的点集。
2.2)往数据集中添加噪音,以保证复制过程中数据隐私保护的正确性:
式中,ρ'表示加入噪音后的局部密度值;表示点xi和点xj之间的距离;dc表示阈值;Lap(β)表示加入的噪音;β表示加入的噪音量;χ()表示是一个函数,如果l<0,则χ(l)=1;否则χ(l)=0;,GSρ表示局部密度函数ρ的敏感度,ε1表示第一阶段隐私预算。
2.3)如果dc满足如下不等式,则ρ'的计算满足ε-差分隐私保护:
3)对每一个点xi计算密度距离
点xi的密度距离表示为点xi到比局部密度大的点或是全局最大局部密度值的点的最近距离。因此,对于具有局部密度值最大的点,定义为
由于也是在每个分组内计算密度距离值,同样类似于计算局部密度值,其处理方法与步骤2.1)至2.2)相同,密度距离次大值δ'的值将会大于真实的密度距离值。例如,如图3所示,会出现计算错误的原因是,xi和si位于不同的分组中,而他们应该放到同一个分组中。在分组Sj中,sj是xi的依赖点,然而实际情况,si是xi的依赖点。
如果xi应该从分组Sj复制到分组Si中。显然,复制后的分组满足如下等式:但是这样将会产生许多冗余的依赖点,最后,根据过滤冗余依赖模型对复制点过滤,如果满足sj∈Sj,si∈Si,|xj,si|≤|sj,si|-θ,则δ”的计算满足ε-差分隐私。其中,表示点si的局部密度值,δ”表示加噪音的密度距离次大值,θ={θ1,θ2},θ1=max{|xi,si|}+δs(Si),θ2=min{2|xm,si|+|sj,sk|+|sj,si|},δs表示在分组中第二大密度距离。
上述步骤3)中,过滤冗余依赖模型为:
以δs表示在分组中第二大密度距离,Si,Sj表示原始分组。 si,xi,xm∈Si;Si≠Sj,有:
然后,对数据集添加噪音,使得添加的噪音量满足如下等式:
式中,表示xixj之间的距离,表示聚簇中心的局部密度值,ε2表示第二阶段隐私预算。
下面通过实施例来证明ρ'满足ε-差分隐私,δ”满足ε-差分隐私。
为证明ρ'满足ε-差分隐私,首先确保xj的局部密度值的计算是正确的,其过程如下:
(1)证明局部密度ρ值计算的正确性。
如图4所示,h是三角形Δxjsisj从顶点xj到边sisj的高,交点为t。
根据直角三角形的性质,有如下公式:
如果|xi,l|≤dc,那么点xi和点xj之间存在依赖性因此,xi应该被移到Sj,这样就保证了的ρ值是正确的。
(2)假设参数Par(D1)和Par(D2)分别代表对数据集D1和D2添加噪音后的聚类结果。Parti代表任意的聚类算法。
对局部密度ρ添加拉普拉斯噪音后有如下等式:ρ'=ρ+Lap(β)
|Parti-|Par(D1)||≥|Parti-|Par(D2)||-||Par(D1)|-|Par(D2)||
综上所述,差分隐私聚类算法满足ε-差分隐私。
为证明δ”满足ε-差分隐私,需要首先确保xi的δ值的计算是正确的。
(1)证明δ值计算的正确性
如图5所示,使用反证法,如果si∈Si,sj∈Sj,|xj,si|<θ,其中,xj=xi or xm,θ=θ1 or θ2,根据三角形的性质,即斜边大于直角边,有如下等式:
根据上述等式,对于有|xj,si|>|sj,si|-θ。因此,根据复制模型,xj应该过滤。
其中,复制模型为:
(1.1)以δs表示在分组中第二大密度距离,Si,Sj表示原始分组。 si,xi,xm∈Si;Si≠Sj,有如下不等式成立:
(1.2)对数据集添加噪音,使得添加的噪音量满足如下等式:
(1.3)从两方面证明复制模型的正确性,以图5为例。
i)对于 表示点xm依附于点根据三角形性质以及密度峰值聚类的相关定义,有如下公式:
|si,xm|≤min{|xm,sk|}
ii)对于δs是点集中第二大密度距离,且用δ'表示最大密度距离。即除了δ',没有其他点的δ比δs更大。因此,有如下公式:
(2)因为|si,xi|≤max{|xi,si|},且三角形不等式性质根据密度峰值聚类的相关定义,有如下公式:
因此,如果满足sj∈Sj,si∈Si,|xj,si|≤|sj,si|-θ,则δ”的计算满足ε-差分隐私。
上述各实施例仅用于说明本发明,各部件的结构、尺寸、设置位置及形状都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别部件进行的改进和等同变换,均不应排除在本发明的保护范围之外。
Claims (4)
1.一种密度峰值聚类算法的差分隐私保护方法,其特征在于包括以下步骤:
1)基于Voronoi图分割的方法对数据对象进行分组;
2)对数据集D中每一个点xi计算局部密度
2.1)需要从分组聚簇Si复制四个点到Sj;
2.2)往数据集中添加噪音:
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msup>
<mi>&rho;</mi>
<mo>&prime;</mo>
</msup>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</munder>
<mi>&chi;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>d</mi>
<mi>c</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mo>|</mo>
<mi>x</mi>
<mo>|</mo>
<mo>/</mo>
<mi>&beta;</mi>
<mo>,</mo>
<mi>&beta;</mi>
<mo>=</mo>
<msub>
<mi>GS</mi>
<mi>&rho;</mi>
</msub>
<mo>/</mo>
<msub>
<mi>&epsiv;</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
式中,ρ'表示加入噪音后的局部密度值,表示点xi和点xj之间的距离,dc表示阈值,Lap(β)表示加入的噪音,β表示加入的噪音量,χ()表示是一个函数,如果l<0,则χ(l)=1;否则χ(l)=0,GSρ表示局部密度函数ρ的敏感度,ε1表示第一阶段隐私预算;
2.3)如果dc满足如下不等式,则ρ'的计算满足ε-差分隐私保护:
<mrow>
<msub>
<mi>d</mi>
<mi>c</mi>
</msub>
<mo>></mo>
<mfrac>
<mrow>
<msup>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>-</mo>
<msup>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
<mrow>
<mn>2</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
<mo>&Element;</mo>
<msub>
<mi>S</mi>
<mi>j</mi>
</msub>
<mo>;</mo>
</mrow>
3)对每一个点xi计算密度距离并将数据集中添加噪音,其处理方法与步骤2.1)至2.2)相同,使δ”的计算满足ε-差分隐私。
2.如权利要求1所述的一种密度峰值聚类算法的差分隐私保护方法,其特征在于:所述步骤1)中,假设数据对象为数据集D,对于数据集D,挑选M个点作为初始中心点集;然后根据垂直线,将数据集D分割成M个相互不相交的分组,数据集D中的每一个点被分配到最近的初始中心点所在的分组中。
3.如权利要求1所述的一种密度峰值聚类算法的差分隐私保护方法,其特征在于:所述步骤3)中,如果xi应该从分组Sj复制到分组Si中,复制后的分组满足如下等式:根据过滤冗余依赖模型对复制点过滤,如果满足则δ”的计算满足ε-差分隐私;其中,表示点si的局部密度值,δ”表示加噪音的密度距离次大值,θ={θ1,θ2},θ1=max{|xi,si|}+δs(Si),θ2=min{2|xm,si|+|sj,sk|+|sj,si|},δs表示在分组中第二大密度距离。
4.如权利要求3所述的一种密度峰值聚类算法的差分隐私保护方法,其特征在于:所述过滤冗余依赖模型为:以δs表示在分组中第二大密度距离,Si,Sj表示原始分组,si,xi,xm∈Si;有:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&rho;</mi>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
</msub>
<mo>=</mo>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&rho;</mi>
<msub>
<mi>s</mi>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
</msub>
</msub>
<mo>></mo>
<msub>
<mi>&rho;</mi>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>&le;</mo>
<msub>
<mi>&theta;</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mo>{</mo>
<mn>2</mn>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>+</mo>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<mi>j</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
</mrow>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
</mrow>
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&rho;</mi>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</msub>
<mo>&NotEqual;</mo>
<mi>max</mi>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&rho;</mi>
<msub>
<mi>s</mi>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</msub>
</msub>
<mo>></mo>
<mi>min</mi>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>|</mo>
<mrow>
<msub>
<mi>s</mi>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
<mo>&le;</mo>
<msub>
<mi>&theta;</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mi>max</mi>
<mo>{</mo>
<mo>|</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>s</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>|</mo>
<mo>}</mo>
<mo>+</mo>
<msup>
<mi>&delta;</mi>
<mi>s</mi>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
</mrow>
1
然后,对数据集添加噪音,使得添加的噪音量满足如下等式:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mi>j</mi>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mo>|</mo>
<mi>x</mi>
<mo>|</mo>
<mo>/</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>&beta;</mi>
<mo>=</mo>
<msub>
<mi>GS</mi>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
</msub>
<mo>/</mo>
<msub>
<mi>&epsiv;</mi>
<mn>2</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
</mrow>
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
<mo>=</mo>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mrow>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
<mo>:</mo>
<msub>
<mi>&rho;</mi>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</msub>
<mo>></mo>
<msub>
<mi>&rho;</mi>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</msub>
</mrow>
</munder>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<msub>
<mi>x</mi>
<mi>j</mi>
</msub>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>L</mi>
<mi>a</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<mo>|</mo>
<mi>x</mi>
<mo>|</mo>
<mo>/</mo>
<mi>&beta;</mi>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>&beta;</mi>
<mo>=</mo>
<msub>
<mi>GS</mi>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>&prime;</mo>
<mo>&prime;</mo>
</mrow>
</msup>
</msub>
<mo>/</mo>
<msub>
<mi>&epsiv;</mi>
<mn>2</mn>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
式中,表示两点之间的距离,表示点的局部密度值,ε2表示第二阶段隐私预算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710680326.7A CN107451618A (zh) | 2017-08-10 | 2017-08-10 | 一种密度峰值聚类算法的差分隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710680326.7A CN107451618A (zh) | 2017-08-10 | 2017-08-10 | 一种密度峰值聚类算法的差分隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107451618A true CN107451618A (zh) | 2017-12-08 |
Family
ID=60491961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710680326.7A Pending CN107451618A (zh) | 2017-08-10 | 2017-08-10 | 一种密度峰值聚类算法的差分隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451618A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344643A (zh) * | 2018-09-03 | 2019-02-15 | 华中科技大学 | 一种面向图中三角形数据发布的隐私保护方法及系统 |
CN109597901A (zh) * | 2018-11-15 | 2019-04-09 | 韶关学院 | 一种基于生物数据的数据分析方法 |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN110569655A (zh) * | 2019-09-06 | 2019-12-13 | 中国科学院信息工程研究所 | 一种群组隐私信息发现方法及系统 |
CN110619231A (zh) * | 2019-08-26 | 2019-12-27 | 北京航空航天大学 | 一种基于MapReduce的差分可辨性k原型聚类方法 |
CN111242194A (zh) * | 2020-01-06 | 2020-06-05 | 广西师范大学 | 亲和传播聚类的差分隐私保护方法 |
CN112131603A (zh) * | 2020-09-24 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法 |
CN113094751A (zh) * | 2021-04-21 | 2021-07-09 | 山东大学 | 一种个性化隐私数据处理方法、装置、介质及计算机设备 |
CN113300828A (zh) * | 2021-05-27 | 2021-08-24 | 南开大学 | 一种分布式差分隐私聚合方法 |
CN113688420A (zh) * | 2021-07-30 | 2021-11-23 | 国电南瑞南京控制系统有限公司 | 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 |
CN113762374A (zh) * | 2021-08-31 | 2021-12-07 | 南京宁正信息科技有限公司 | 一种基于改进密度峰值聚类的异常轨迹检测方法 |
CN115580493A (zh) * | 2022-12-07 | 2023-01-06 | 南方电网数字电网研究院有限公司 | 电力数据分类加密传输方法、装置和计算机设备 |
-
2017
- 2017-08-10 CN CN201710680326.7A patent/CN107451618A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344643A (zh) * | 2018-09-03 | 2019-02-15 | 华中科技大学 | 一种面向图中三角形数据发布的隐私保护方法及系统 |
CN109344643B (zh) * | 2018-09-03 | 2022-03-29 | 华中科技大学 | 一种面向图中三角形数据发布的隐私保护方法及系统 |
CN109597901B (zh) * | 2018-11-15 | 2021-11-16 | 韶关学院 | 一种基于生物数据的数据分析方法 |
CN109597901A (zh) * | 2018-11-15 | 2019-04-09 | 韶关学院 | 一种基于生物数据的数据分析方法 |
CN109858269A (zh) * | 2019-02-20 | 2019-06-07 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN109886334B (zh) * | 2019-02-20 | 2023-09-22 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN109858269B (zh) * | 2019-02-20 | 2022-11-01 | 安徽师范大学 | 一种基于同态加密的隐私保护密度峰聚类方法 |
CN110619231A (zh) * | 2019-08-26 | 2019-12-27 | 北京航空航天大学 | 一种基于MapReduce的差分可辨性k原型聚类方法 |
CN110619231B (zh) * | 2019-08-26 | 2021-06-18 | 北京航空航天大学 | 一种基于MapReduce的差分可辨性k原型聚类方法 |
CN110569655A (zh) * | 2019-09-06 | 2019-12-13 | 中国科学院信息工程研究所 | 一种群组隐私信息发现方法及系统 |
CN110569655B (zh) * | 2019-09-06 | 2021-05-25 | 中国科学院信息工程研究所 | 一种群组隐私信息发现方法及系统 |
CN111242194A (zh) * | 2020-01-06 | 2020-06-05 | 广西师范大学 | 亲和传播聚类的差分隐私保护方法 |
CN111242194B (zh) * | 2020-01-06 | 2022-03-08 | 广西师范大学 | 亲和传播聚类的差分隐私保护方法 |
CN112131603A (zh) * | 2020-09-24 | 2020-12-25 | 合肥城市云数据中心股份有限公司 | 一种基于四叉树自适应划分技术的二维空间数据差分隐私发布方法 |
CN113094751B (zh) * | 2021-04-21 | 2022-09-30 | 山东大学 | 一种个性化隐私数据处理方法、装置、介质及计算机设备 |
CN113094751A (zh) * | 2021-04-21 | 2021-07-09 | 山东大学 | 一种个性化隐私数据处理方法、装置、介质及计算机设备 |
CN113300828A (zh) * | 2021-05-27 | 2021-08-24 | 南开大学 | 一种分布式差分隐私聚合方法 |
CN113300828B (zh) * | 2021-05-27 | 2022-07-05 | 南开大学 | 一种分布式差分隐私聚合方法 |
CN113688420A (zh) * | 2021-07-30 | 2021-11-23 | 国电南瑞南京控制系统有限公司 | 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 |
CN113688420B (zh) * | 2021-07-30 | 2024-04-30 | 国电南瑞南京控制系统有限公司 | 一种基于聚类的差分隐私用电采集数据隐私保护方法及装置 |
CN113762374A (zh) * | 2021-08-31 | 2021-12-07 | 南京宁正信息科技有限公司 | 一种基于改进密度峰值聚类的异常轨迹检测方法 |
CN113762374B (zh) * | 2021-08-31 | 2024-01-30 | 南京宁正信息科技有限公司 | 一种基于改进密度峰值聚类的异常轨迹检测方法 |
CN115580493A (zh) * | 2022-12-07 | 2023-01-06 | 南方电网数字电网研究院有限公司 | 电力数据分类加密传输方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451618A (zh) | 一种密度峰值聚类算法的差分隐私保护方法 | |
Li et al. | Radar: Residual analysis for anomaly detection in attributed networks. | |
Gao et al. | Achieving optimal misclassification proportion in stochastic block models | |
Ke et al. | Community detection for hypergraph networks via regularized tensor power iteration | |
Chen et al. | Maximum co-located community search in large scale social networks | |
CN107766745B (zh) | 层次数据发布中的分级隐私保护方法 | |
Chen et al. | Communication-optimal distributed clustering | |
Zhao et al. | Privacy-preserving clustering for big data in cyber-physical-social systems: Survey and perspectives | |
Chien et al. | On the minimax misclassification ratio of hypergraph community detection | |
Cheung et al. | Robust semisupervised graph classifier learning with negative edge weights | |
Nentwig et al. | Incremental clustering on linked data | |
Chen et al. | Phase transitions in spectral community detection | |
Zhuang et al. | Mining query-based subnetwork outliers in heterogeneous information networks | |
CN104008177B (zh) | 面向图像语义标注的规则库结构优化与生成方法及系统 | |
Noroozi et al. | Estimation and clustering in popularity adjusted block model | |
Gligorijević et al. | Fusion and community detection in multi-layer graphs | |
Ranbaduge et al. | Tree based scalable indexing for multi-party privacy-preserving record linkage | |
Lin et al. | An improved clustering method based on k-means | |
Wang et al. | Efficient graph similarity join for information integration on graphs | |
Ren et al. | $ kt $-Safety: Graph Release via $ k $-Anonymity and $ t $-Closeness | |
CN112199722B (zh) | 一种基于K-means的差分隐私保护聚类方法 | |
Bai et al. | RMMDI: a novel framework for role mining based on the multi-domain information | |
Oostrum | Bures–Wasserstein geometry for positive-definite Hermitian matrices and their trace-one subset | |
Huang et al. | A novel hybrid clustering algorithm based on minimum spanning tree of natural core points | |
Beltrametti et al. | Geometry of the Hough transforms with applications to synthetic data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171208 |