CN107688752A

CN107688752A - 一种面向多视图聚类挖掘的个性化隐私保护方法

Info

Publication number: CN107688752A
Application number: CN201710717235.6A
Authority: CN
Inventors: 徐东; 李贤�; 张子迎; 孟宇龙; 张朦朦; 姬少培; 王岩俊; 吕骏; 方成; 方一成; 王杰
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2018-02-13
Anticipated expiration: 2037-08-21
Also published as: CN107688752B

Abstract

本发明公开了一种面向多视图聚类挖掘的个性化隐私保护方法，属于信息安全技术领域。本发明提出隐私偏序拓扑分类算法(PT，Privacy Topology)，针对不同隐私数据的敏感性差异表示问题，先定义隐私关系并构建隐私偏序集，据此设计隐私数据的拓扑分类算法求解隐私线序集。针对隐私数据的多个视图，对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类。提出面向聚类的个性化匿名算法(PPOC，Personal Privacy Oriented Classtering),通过可变k‑匿名策略，利用面向多视图聚类的满足个性化需求的隐私保护算法，实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。

Description

一种面向多视图聚类挖掘的个性化隐私保护方法

技术领域

本发明为一种面向多视图聚类挖掘的个性化隐私保护方法，涉及信息安全技术领域。

背景技术

随着互联网、物联网、智慧城市等数字化技术的发展，传感器、移动终端等各类数据收集设备将人类的衣食住行各类信息以数字化形式存储起来，从而催生了大数据时代的到来。数据首次作为一种资源，受到了政府、企业以及学术界等社会实体的高度关注。

然而在数据使用过程中，个人的隐私信息可能遭到泄露。在发掘数据潜在价值的过程中，如何保障个人的隐私安全，尤其是如何避免数据挖掘带来的隐私泄露，是数据科学目前亟需解决的关键问题。隐私数据对个人或团体而言是特殊的或敏感的，是其不愿意泄露的信息。隐私信息的保护程度决定着用户对相关服务的信任度和接受性，是数据价值能否找到受众的基础。

数据在发布、存储、挖掘和使用的整个生命周期中都可能存在隐私泄露风险。数据在发布和使用过程中的隐私安全问题已受到学术界的普遍关注，并已产生了大量有意义的研究成果。随着数据挖掘技术在应用层面的普及，面向挖掘的隐私安全问题已经得到了广泛关注，隐私保护领域的研究焦点和重心正在逐步向隐私保护数据挖掘领域偏移。面向聚类挖掘的隐私保护技术是前沿热点。

不同的人对隐私的定义理解是不同的，相同的个体对不同数据隐私的定义也会存在差别。个性化隐私保护能根据用户的不同要求，对数据中的敏感属性值提供不同程度的隐私保护。因此个性化的隐私保护技术更具针对性，针对个性化需求的隐私保护技术研究是学界的前沿热点课题。

总结现有研究成果发现，目前个性化隐私保护研究面临如下关键问题亟需解决：

(1)现存算法几乎是针对数据发布需求而设计的，未涉足聚类挖掘可能导致的隐私安全问题；

(2)已有个性化隐私保护算法未综合考虑用户对隐私认知的差异性和不同属性重要度的差异性，其个性化程度有待提升，且信息损失较大。

发明内容

本发明的目的在于提供一种面向多视图聚类挖掘的个性化隐私保护方法。

本发明针对隐私保护挖掘和个性化隐私保护的上述局限性，提出一种面向多视图聚类挖掘的个性化隐私保护方法。

本发明的目的是通过以下步骤实现的：

一种面向多视图聚类挖掘的个性化隐私保护方法，其特征在于，包含以下步骤：

步骤一定义隐私关系；隐私数据集合D中的一条记录为多重组d＝(d₁,d₂,…,d_n)，序偶d_i＝<a_i,s_i>∈d，a_i为字段A_i上的原始数据值，s_i为a_i对应的隐私度；称卡氏积D×D的下述子集为D上的隐私关系：

R＝{<d,d'>|d,d'∈D,d_i＝<a_i,s_i>∈d,d'_i＝<a'_i,s'_i>∈d'，且s_i≥s'_i}；若D上的两条记录d和d'具有隐私关系，即<d,d'>∈R，记为：d_≥d'；

步骤二输入隐私数据集D，包括每个视图数据X⁽ⁱ⁾(i＝1,2,3,4)，原始数据记录表和对应的隐私度记录表聚类簇数目期望值K，调节参数γ；

初始化队列Q为空，置偏序隐私层L＝1，并生成隐私偏序集<D',R'>；其中，记A'＝(A_i,A_i+1,……,A_i+k)为原始数据模型A的一个属性子集(k≤n)，对应的隐私度子模式为S'＝(S_i,S_i+1,……,S_i+k)，D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D'，并设R'为D'上的隐私关系，则称序偶<D',R'>为隐私偏序集合，简称隐私偏序；若数据集合对于隐私数据b∈B，且B中不存在隐私数据x，使得b≠x且b≥x，那么隐私数据b∈B称为B的一个极小隐私元；B的所有极小隐私元构成的集合为B的极小隐私集；隐私数据集的第一个极小隐私集对应的偏序隐私层数为1，删掉第一个极小隐私集后，剩余数据集的极小隐私集对应的层数为2，依次类推，层数逐次增加1，直到删完所有数据为止；

步骤三判断D是否为空，若为空则得到隐私线序集Q，Q中存储三类值：隐私数据记录指针、偏序隐私层号和相对隐私秩，若D不为空执行下一步；

步骤四求解D的极小隐私集E，置E'＝E,，计算e在E内的相对隐私秩；其中，极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元；记隐私数据d的隐私秩为：

式中，d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s＝(s₁,s₂,…,s_n)和s'＝(s'₁,s'₂,…,s'_n)；|>为求给定隐私数据的隐私秩的专用符号；符号x|表示若x＞0，则置x＝0；sign()为符号函数；

步骤五任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e，层数为L，置相对隐私秩为|e>；置E'＝E'-{e}，判断E'是否为空，若不为空，反复本步骤；

步骤六置D＝D-E，偏序隐私层数L＝L+1，判断D是否为空，若不为空返回步骤三；

步骤七从步骤二中得到每个视图数据X⁽ⁱ⁾(i＝1,2,3,4)，聚类簇数目期望值K，调节参数γ；

步骤八随机填充矩阵G使得每行恰有一个1，其余全为0；生成对角矩阵D⁽ⁱ⁾；

步骤九计算对角阵

步骤十更新中心矩阵

步骤十一更新聚类指示矩阵G：

步骤十二更新对角矩阵其中e^(i)j是E⁽ⁱ⁾＝X⁽ⁱ⁾-GC⁽ⁱ⁾的第j行；

步骤十三更新权重其中：

H⁽ⁱ⁾＝Tr{(X⁽ⁱ⁾-C⁽ⁱ⁾G^T)D⁽ⁱ⁾(X⁽ⁱ⁾-C⁽ⁱ⁾G^T)^T}；

步骤十四重复步骤七至步骤十三，直至收敛或超过设定的执行次数；

步骤十五得到聚类指示矩阵G，各视图的聚类中心矩阵C⁽ⁱ⁾及权重λ⁽ⁱ⁾，i＝1,2,3,4；

步骤十六对S进行主成分分析，取第一主成分系数u⁽¹⁾＝(u₁,u₂,…,u_n)作为属性敏感度；

步骤十七求S每行记录s_j＝(s_j1,s_j2,…,s_jn)的元组敏感度置T_s＝(S₁,S₂,…,S_m)^T；

步骤十八记第i个视图的样本矩阵表示为X⁽ⁱ⁾，构造如下所示的多视图K-均值聚类目标函数：

式中，C⁽ⁱ⁾为第i个视图的聚类中心矩阵；G为聚类指示矩阵，由约束条件知，其每行恰有一个1，其余全为0，若G_jk＝1，表明第j个样本在第k个聚类簇中；λ⁽ⁱ⁾为第i个视图的权重；γ是控制权重分布的调节参数。M为视图个数，本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图；

置X⁽¹⁾＝A，X⁽²⁾＝S，X⁽³⁾＝T_s，X⁽⁴⁾＝Q，X＝{X⁽ⁱ⁾|i＝1,2,3,4}；

步骤十九分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字，对聚类簇降序排序，排序后的聚类簇序列记为V＝(v₁,v₂,…,v_K)；

步骤二十产生K以内可重复的K个随机正整数序列R，并降序排序得R＝(r₁,r₂,…,r_K)；

步骤二十一定义数据集合A'，用以存放匿名后的数据，并置A'为空；

步骤二十二取A中的第t条记录a_t；基于G，查找a_t所属聚类簇v_p；求v_p的平均隐私度

avg_p；取a_t的隐私度高于avg_p属性作为敏感属性，其余作为准标识符；对a_t进行r_p-匿

名操作，匿名后的记录存入A'；重复步骤二十二m次，然后输出保护后的发布数据A'。

本发明带来的益处为：

有效地实现个性化隐私保护需求的同时，其聚类质量也能达到较好水平。本发明所提的个性化包括两层含义：其一，数据是否为隐私信息，数据收集时由数据产生者确定；其二，各个字段的敏感性不同，对不同敏感性值给予强度有别的操作。发明主要包括：提出隐私偏序拓扑分类算法，据此求解隐私线序集；针对隐私数据的多个视图，对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类；提出面向聚类的个性化匿名算，通过可变k-匿名策略，利用面向多视图聚类满足个性化需求的隐私保护算法，实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。本发明的具体总流程如图1。

附图说明

图1为本发明个性化隐私保护方法总流程图。

图2为本发明隐私数据多视图聚类示意图。

图3为本发明隐私偏序的拓扑分类流程。

图4为本发明面向多视图聚类的个性化隐私保护方法操作执行流程。

具体实施方式

对于原始数据模型A＝(A₁,A₂,……,A_n)下的一条数据表示为d＝(a₁,a₂,……,a_n)，其中，a_i为数据的属性，若存在i，(i＝1,2,……,n)使得a_i是敏感的，不愿意他人知晓，则称此记录d为一条隐私数据，而数据产生者对隐私数据项敏感程度的量化表示，称为隐私度。给定原始数据模式A＝(A₁,A₂,……,A_n)，对应的隐私度模式为S＝(S₁,S₂,……,S_n)，则隐私数据模型定义为序偶<A,S>，该模型下的一条隐私数据表示为n重组d＝(d₁,d₂,…,d_n)，其中d_i＝<a_i,s_i>为有序二重组，a_i为属性A_i对应的一个原始数据值，s_i为a_i对应的隐私度。另记d_j＝(a_j1,a_j2,……,a_jn)为原始数据模式A＝(A₁,A₂,……,A_n)的第j个元组，设d_j各个属性对应的隐私度依次为s_j1,s_j2,……,s_jn，则a_j的元组敏感度定义为s_j＝u₁s₁+u₂s₂+…+u_ns_n，即s_j是第j个属性隐私度的线性组合，其系数为属性敏感度。

基于上述问题描述，为了实现本发明的目的，本发明采用如下步骤：

步骤001.提出隐私偏序拓扑分类算法(PT，Privacy Topology)，针对不同隐私数据的敏感性差异表示问题，先定义隐私关系并构建隐私偏序集，据此设计隐私数据的拓扑分类算法求解隐私线序集。

步骤002.针对隐私数据的多个视图，对原始数据、隐私度、元组敏感度、隐私线序集等视图进行多视图聚类。

步骤003.提出面向聚类的个性化匿名算法(PPOC，Personal Privacy OrientedClasstering),通过可变k-匿名策略，利用面向多视图聚类的满足个性化需求的隐私保护算法，实现对不同聚类簇以及同簇内部不同元组施加程度有别的个性化保护操作。

所述步骤001具体包括如下步骤，具体流程图如图2：

步骤00101.定义隐私关系。隐私数据集合D中的一条记录为多重组d＝(d₁,d₂,…,d_n)，序偶d_i＝<a_i,s_i>∈d，a_i为字段A_i上的原始数据值，s_i为a_i对应的隐私度。称卡氏积D×D的下述子集为D上的隐私关系：

R＝{<d,d'>|d,d'∈D,d_i＝<a_i,s_i>∈d,d'_i＝<a'_i,s'_i>∈d',且s_i≥s'_i}.

若D上的两条记录d和d'具有隐私关系，即<d,d'>∈R，记为：d_≥d'.

步骤00102.输入隐私数据集D，初始化队列Q为空，置偏序隐私层L＝1，并生成隐私偏序集<D',R'>。其中，记A'＝(A_i,A_i+1,……,A_i+k)为原始数据模型A的一个属性子集(k≤n)，对应的隐私度子模式为S'＝(S_i,S_i+1,……,S_i+k)，D中每条记录去掉A'和S'中未出现的属性字段后所得的子集记为D'，并设R'为D'上的隐私关系，则称序偶<D',R'>为隐私偏序集合，简称隐私偏序。若数据集合对于隐私数据b∈B，且B中不存在隐私数据x，使得b≠x且b≥x，那么隐私数据b∈B称为B的一个极小隐私元。B的所有极小隐私元构成的集合为B的极小隐私集。隐私数据集的第一个极小隐私集对应的偏序隐私层数为1，删掉第一个极小隐私集后，剩余数据集的极小隐私集对应的层数为2，依次类推，层数逐次增加1，直到删完所有数据为止。

步骤00103.判断D是否为空，若为空输出隐私线序集Q，Q中存储三类值：隐私数据记录指针、偏序隐私层号和相对隐私秩，若D不为空执行下一步。

步骤00104.求解D的极小隐私集E，置E'＝E,，计算e在E内的相对隐私秩。其中，极小隐私集E中隐私秩最小的隐私数据e为B的一个首隐私极元。记隐私数据d的隐私秩为：

式中，d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s＝(s₁,s₂,…,s_n)和s'＝(s'₁,s'₂,…,s'_n)；|>为求给定隐私数据的隐私秩的专用符号；符号x|表示若x＞0，则置x＝0；sign()为符号函数。

步骤00105.任选E'内一个首隐私极元e,并置Q队尾节点的记录指针指向e，层数为L，置相对隐私秩为|e>。置E'＝E'-{e}，判断E'是否为空，若不为空，反复本步骤。

步骤00106.置D＝D-E，偏序隐私层数L＝L+1，判断D是否为空，若不为空返回步骤00103；

对于步骤002，不同视图提供了对隐私数据不同角度的观察轮廓，且视图之间存在密切联系，对隐私数据进行多视图聚类，能揭示视图内部的元组之间以及不同视图之间的内在联系，不同聚类簇体现了不同的隐私个性化需求，这有助于提高隐私保护操作的个性化程度。本发明同时基于原始数据、隐私度、元组敏感度、隐私线序集等多个视图，对隐私数据进行多视图聚类，对不同聚类簇以及同簇内部的不同元组施加程度有别的个性化保护操作，多视图聚类示意图如图1。

记第i个视图的样本矩阵表示为X⁽ⁱ⁾，构造如下所示的多视图K-均值聚类目标函数：

式中，C⁽ⁱ⁾为第i个视图的聚类中心矩阵；G为聚类指示矩阵，由约束条件知，其每行恰有一个1，其余全为0，若G_jk＝1，表明第j个样本在第k个聚类簇中；λ⁽ⁱ⁾为第i个视图的权重；γ是控制权重分布的调节参数。M为视图个数，本发明包括原始数据、隐私度、元组敏感度和隐私线序集等4个视图。在此目标函数中，指示矩阵G实现了不同视图的关联。(上述目标函数的求解过程比较复杂，详细过程参见：一种面向聚类的隐私保护数据发布方法，计算机研究与发展，2010,47(12)：2083-2089)

步骤002中多视图聚类方法包括以下步骤：

步骤00201.输入隐私数据的每个视图数据X⁽ⁱ⁾(i＝1,2,3,4)，聚类簇数目期望值K，调节参数γ。

步骤00202.随机填充矩阵G使得每行恰有一个1，其余全为0；生成对角矩阵D⁽ⁱ⁾。

步骤00203.计算对角阵

步骤00204.更新中心矩阵

步骤00205.更新聚类指示矩阵G：

步骤00206.更新对角矩阵其中e^(i)j是E⁽ⁱ⁾＝X⁽ⁱ⁾-GC⁽ⁱ⁾的第j行。

步骤00207.更新权重其中：

H⁽ⁱ⁾＝Tr{(X⁽ⁱ⁾-C⁽ⁱ⁾G^T)D⁽ⁱ⁾(X⁽ⁱ⁾-C⁽ⁱ⁾G^T)^T}。

步骤00208.重复以上步骤直至收敛或超过设定的执行次数。

步骤00209.输出聚类指示矩阵G，各视图的聚类中心矩阵C⁽ⁱ⁾及权重λ⁽ⁱ⁾，i＝1,2,3,4。

本发明用平均偏序隐私层号和平均相对隐私秩，作为多视图聚类簇的敏感性评估准则。由偏序隐私层的意义可知，其层号越大，敏感性越高；而相对隐私秩是同一个极小隐私集内刻画隐私数据间敏感性强弱关系测度，因此用平均偏序隐私层号和平均相对隐私秩评估聚类簇敏感性是合理的。聚类簇的敏感性评估过程中，平均偏序隐私层号和平均相对隐私秩分别作为主、次关键字，即偏序隐私层的优先级大于相对隐私秩。

关于对不同敏感度的聚类簇，本发明选取经典的k-匿名算法对不同簇进行保护。在k-匿名算法中，k值代表不可区别的记录条数，其值是保护能力强弱的直接指标，k的取值越大，保护程度越高，反之则保护能力越低。步骤003其具体包括以下步骤，具体流程图如图4。

步骤00301.输入隐私数据集D，包括原始数据记录表和对应的隐私度记录表以及多视图聚类簇数目期望值K及调节参数γ；

步骤00302.对S进行主成分分析，取第一主成分系数u⁽¹⁾＝(u₁,u₂,…,u_n)作为属性敏感度；

步骤00303.求S每行记录s_j＝(s_j1,s_j2,…,s_jn)的元组敏感度置T_s＝(S₁,S₂,…,S_m)^T；

步骤00304.用步骤001中的方法求出D的隐私线序集Q；

步骤00305.置X⁽¹⁾＝A，X⁽²⁾＝S，X⁽³⁾＝T_s，X⁽⁴⁾＝Q，X＝{X⁽ⁱ⁾|i＝1,2,3,4}；

步骤00306.用步骤002中的算法求出G,C,λ其中，G为聚类指示矩阵,C＝{C⁽ⁱ⁾|i＝1,2,3,4}是每个视图的聚类中心，λ＝{λ⁽ⁱ⁾|i＝1,2,3,4}为每个视图的权重；

步骤00307.基于Q，计算每个聚类簇对应的平均偏序隐私层号和平均相对隐私秩；

步骤00308.分别以平均偏序隐私层号和平均相对隐私秩为主、次关键字，对聚类簇降序排序，排序后的聚类簇序列记为V＝(v₁,v₂,…,v_K)；

步骤00309.产生K以内可重复的K个随机正整数序列R，并降序排序得R＝(r₁,r₂,…,r_K)；

步骤00310.定义数据集合A'，用以存放匿名后的数据，并置A'为空；

步骤00311.重复以下步骤m次：

1)取A中的第t条记录a_t；

2)基于G，查找a_t所属聚类簇v_p；

3)求v_p的平均隐私度avg_p；

4)取a_t的隐私度高于avg_p属性作为敏感属性，其余作为准标识符；

5)对a_t进行r_p-匿名操作，匿名后的记录存入A'；

步骤00312.输出保护后的发布数据A'。

Claims

1.一种面向多视图聚类挖掘的个性化隐私保护方法，其特征在于，包含以下步骤：

R＝{<d,d'>|d,d'∈D,d_i＝<a_i,s_i>∈d,d'_i＝<a'_i,s'_i>∈d'，且s_i≥s'_i}；若D上的两条记录d和d'具有隐私关系，即<d,d'>∈R，记为：d≥d'；

<mrow> <mo>|</mo> <mi>d</mi> <mo>></mo> <mo>=</mo> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <msup> <mi>d</mi> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>D</mi> </mrow> </munder> <munder> <mrow> <mi>s</mi> <mi>i</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>-</mo> <msup> <mi>d</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <mo>&OverBar;</mo> </munder> </mrow>

式中，d和d'为给定含n个属性的两条隐私数据,二者对应各属性的隐私度分别为s＝(s₁,s₂,…,s_n)和s'＝(s'₁,s'₂,…,s'_n)；|>为求给定隐私数据的隐私秩的专用符号；符号表示若x＞0，则置x＝0；sign()为符号函数；

步骤九计算对角阵

步骤十更新中心矩阵

步骤十一更新聚类指示矩阵G：

<mrow> <mtable> <mtr> <mtd> <mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>G</mi> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msup> <mover> <mi>D</mi> <mo>~</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <mo>|</mo> <msup> <mi>X</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msup> <mi>C</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mi>G</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

步骤十三更新权重其中：

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msup> <mi>C</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <mi>G</mi> <mo>,</mo> <msup> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </munder> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <msup> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>&gamma;</mi> </msup> <mo>|</mo> <mo>|</mo> <msup> <mi>X</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msup> <mi>GC</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>,</mo> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>G</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

步骤二十二取A中的第t条记录a_t；基于G，查找a_t所属聚类簇v_p；求v_p的平均隐私度avg_p；取a_t的隐私度高于avg_p属性作为敏感属性，其余作为准标识符；对a_t进行r_p-匿名操作，匿名后的记录存入A'；重复步骤二十二m次，然后输出保护后的发布数据A'。