CN106940777B

CN106940777B - 一种基于敏感信息度量的身份信息隐私保护方法

Info

Publication number: CN106940777B
Application number: CN201710082886.2A
Authority: CN
Inventors: 曹宇
Original assignee: Hunan Chenhan Information Technology Co ltd
Current assignee: Hunan Chenhan Information Technology Co ltd
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2020-12-15
Anticipated expiration: 2037-02-16
Also published as: CN106940777A

Abstract

本发明公开一种基于敏感信息度量的身份信息隐私保护方法包括如下步骤：S1，确定输入输出；S2，定义身份重要度并计算出身份重要度；S3，优化身份重要度；S4，计算敏感信息披露矩阵、最小攻击集、信息披露概率；S5，确定泛化函数，对数据集泛化；S6，建立避免背景知识攻击隐私保护模型；S7，描述(γ，η)‑Risk匿名算法，输入原始数据集D，输出匿名数据集D′；S8，引入置信区间，将攻击方的高概率推断攻击控制在指定置信区间内，避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击。本发明解决了现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击问题，对关键身份和身份敏感信息保护更加全面、有效。

Description

一种基于敏感信息度量的身份信息隐私保护方法

技术领域

本发明涉及网络空间安全中用户身份信息隐私保护方法，，具体涉及一种基于敏感信息度量的身份信息隐私保护方法。

背景技术

网络应用的飞速发展使得用户面临的身份盗用和身份信息泄露威胁以及应用和服务面临的来自外部和内部的身份安全威胁越来越严重，如何解决身份盗用和身份信息泄露是当前的研究热点。要解决身份信息泄露问题，仅仅提供完善的身份鉴别和授权流程和安全的信息传输是不够的，还需要对应用间以及应用与用户之间互相披露的信息进行保护。

隐私保护解决身份信息泄露问题的重要手段，隐私保护是指对已发布数据的访问并不能使攻击方获取关于任何用户的任何信息，即使攻击方拥有从其他渠道获取到的用户背景知识，无论是否发布数据，用户的隐私风险始终保持一致。隐私保护要符合匿名性、非追踪性、非关联性、不可推断性、机密性、似真否认等原则。传统的隐私保护技术包括基于数据失真(distorting)的技术、基于数据加密的技术、基于限制发布的技术。这些技术各有其优缺点，基于数据失真的技术具有较高的效率，但存在一定程度的信息丢失；基于数据加密的技术能够保证最终数据的准确性和安全性，但计算开销大，效率较低；基于限制发布的技术能够保证发布数据的真实性，同样，发布的数据存在一定程度的信息丢失。

隐私保护的目的是确保攻击方无法以较高的概率(置信度)推断出攻击目标的敏感信息。在实际应用中，出于研究和分析目的，通常需要发布包含用户信息的数据集，在数据发布过程中，数据发布方需要对待发布数据集中敏感属性进行匿名化处理，隐藏原始数据，发布匿名化后的数据，不泄露数据中包含的用户敏感属性，从而实现隐私保护的目标；另一方面，由于研究和分析数据的需求，数据发布方必须保证匿名化后的数据仍然保持原始数据的部分统计特征，保证匿名数据集的可用性；从而，在实际实现中，隐私保护算法需要平衡隐私保护和匿名数据可用性两方面的矛盾。

身份及身份属性面临的威胁除了传统的数据隐私泄露威胁——敏感身份属性泄露，还包括通过推理得知重要用户(网络管理员、企业高层管理人员等权限较高的用户)的身份标识，进而对重要用户进行重点数据挖掘，这一方面会使得攻击方获得更高的系统访问权限，另一方面对重要用户本身也是一种伤害(包括人身伤害和精神伤害，如斩首行动等)。

考虑到对所有身份信息进行全面完整的保护在技术实现上的困难性和非必要性，首先需要研究评估用户身份信息重要程度的方法，从而明确保护对象；然后，研究数据发布过程中的隐私保护技术，对要披露的用户信息进行匿名化处理，避免对用户身份的背景知识攻击，将身份盗用和身份信息泄露的风险控制在可接受的概率范围内。由以上分析可知，身份信息管理还面临着技术难题，目前针对身份管理技术的研究很少，大多处于摸索阶段。

发明内容

针对现有技术的不足，本发明旨在提供一种基于敏感信息度量的身份信息隐私保护方法，该方法首先根据身份引用和身份属性信息引用来度量身份信息敏感程度，对重要用户及身份信息重要程度进行分级，在此基础上，可对用户关键身份和身份敏感信息进行隐私保护。本发明能够解决现有隐私保护方法难以有效应对基于背景知识攻击的隐私信息攻击方法的问题，使得对关键身份和身份敏感信息保护更加全面、有效。给定若干用户的身份信息库，本发明可自动识别出重要身份并确保攻击者无法通过高概率推断获得身份信息。

为了实现上述目的，本发明采用如下技术方案：一种基于敏感信息度量的身份信息隐私保护方法，其特征在于，其包括如下步骤：

S1，确定输入输出；

S2，定义身份重要度并计算出身份重要度；

S3，根据孤立引用和完全引用，优化身份重要度；

S4，计算出敏感信息披露矩阵、最小攻击集、信息披露概率；

S5，确定泛化函数，并对数据集泛化；

S6，建立避免背景知识攻击的隐私保护模型；

S7，描述(γ，η)-Risk匿名算法，输入原始数据集D，输出匿名数据集D′；

S8，引入置信区间，将攻击方的高概率推断攻击控制在指定的置信区间内，避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击；

所述步骤S1中确定输入输出的过程如下：

S11.首先记身份信息数据库为D_id，应用程序数据库为A_id；

S12.定义身份信息引用：假设c是某一特定身份信息，A是某一特定应用，F_A是当前应用环境下所有应用的集合；

如果A引用了c，那么，存在一个从A到c的身份信息引用和一个从c到A的反向引用；

S13.定义身份信息引用矩阵：构造一个矩阵M_ID，每一列表示用户U的一个身份信息，每一行表示一个应用，元素值表示在应用A_i和身份信息c之间存在一个身份信息引用，即：

那么，可得用户U的身份信息引用矩阵M_ID：

S14.定义身份引用：假设a是一个用户在某些应用中的身份标识符，A是某一特定应用，F_A是当前应用环境下所有应用的集合；

如果A引用了a，那么，存在一个从A到a的身份引用，另外还存在一个从a到A的反向引用；

S15.定义身份引用矩阵：构造一个矩阵M′_ID，矩阵的行和列均代表某一应用，矩阵元素值表示在应用A_i和A_j之间存在一个身份标识符引用，那么，可得用户U的身份标识符引用矩阵M′_ID，其中身份标识符引用矩阵M′_ID对角线元素恒为1；对身份信息重要性的度量等同于对包括身份标识符在内的每一个身份信息的度量，即与该身份信息存在引用关系的应用的度量为身份标识符引用矩阵M′_ID，可由如下公式计算出：

其中，N_A表示用户U的身份信息总数，N_ID表示用户U的应用总数；

所述步骤S2中定义身份重要度并计算出身份重要度的具体过程如下：

S21.定义身份重要度：假设A是一个应用，F_A是A引用的所有标识符的集合，B_A是所有与A有引用关系的应用的集合，C_A是B_A中所有应用所包含用户的身份标识符集合，ID为用户身份标识符，F_A中的标识符是C_A的一个子集，即

ID＝ID′，N_A是集合F_A中各个标识符的引用次数的集合，那么应用A的IIV值迭代定义为：

S22.IIV值计算过程中引入了常数q来表征不能被其他任何应用引用的应用的IIV值，常数q不为0；修正IIV计算公式为：

其中，u表示应用u，v表示应用v，B_u表示所有与u有引用关系的应用的集合，q为常数，表示IIV最小初始值，M是全网的应用数目；

S23.对身份信息引用矩阵M_ID作归一化处理，得到转移概率矩阵P：

S24.求M_ID的归一化：P＝norm(M′_ID)

S25.计算P的特征值D和特征向量V：[V,D]＝eig(P)；

S26.求最大特征值M为：M＝find(abs(diag(D)))＝＝max(abs(diag(D)))；

S27.计算特征值最大的特征向量：EigenVector＝V(:,M)；

S28.归一化特征向量为：IIV＝EigenVector./norm(EigenVector,1)；

所述步骤S3中根据孤立引用和完全引用，优化身份重要度的具体过程如下：完全引用和孤立引用生成的转换矩阵P；且引入用户向量来计算IIV值，用户向量被所有应用引用；

所述步骤S4中计算出敏感信息披露矩阵、最小攻击集、信息披露概率的具体过程如下：

S41.敏感信息披露矩阵：对一个包含N个应用的应用域D_APP，应用APP_i向第三方应用披露的用户敏感信息矩阵如下所示：

其中

表示应用APP_i是否向应用APP_j披露了用户敏感信息，如果有，该值为1，否则，该值为0；敏感信息披露矩阵是身份信息引用矩阵的一个子集，敏感信息披露矩阵可有效反映用户面临的身份信息披露风险的来源和目的地；

S42.最小攻击集I_Attack：用最小攻击集构建完整用户身份信息，其是实现用户身份伪造所需获取的身份披露信息的最小集合，定义为：I_Attack＝{I₁，...，I_N}；最小攻击集I_Attack用于确定用户身份信息在应用环境中传播的广泛性；其中，最小攻击集元素越少，用户身份信息传播的越广泛，攻击方获取最小攻击集伪造用户身份的概率越高，身份泄漏的风险越大；反之，攻击方攻击成本越高，用户身份泄漏的风险越低；

S43.信息披露概率：即攻击方成功获取最小攻击集I_Attack的概率；对于一个包含N个应用的应用域D_APP，令包含最小攻击集内元素的应用集合为

攻击方攻击I_Attack内身份信息I_i成功的概率为

则信息披露概率p为：

所述步骤S5中确定泛化函数，并对数据集泛化的具体过程如下：

S51.待发布原始数据集合：包含所有用户原始身份和属性信息的集合，记作T；

S52.待发布敏感数据集合：待发布原始数据集合中关键用户身份和身份敏感信息数据的集合，记作D；

S53.待发布非敏感数据集合：待发布原始数据集合中非敏感数据集合，记作S；待发布原始数据集合T＝D∪S；

S54.泛化函数：对给定的数据v，v的泛化函数Ψ(v)返回v的所有泛化值；采用DGH结构来实现泛化函数Ψ，其中Ψ(China)＝{China，EastAsia，Asia，*}；对于元组t和t′，当t′_i∈Ψ(t_i)时，t′∈Ψ(t)，其中i∈QID，QID是用户的准标识符集合；

S55.数据集泛化：给定敏感数据集D和数据集D′，当且仅当：|D|＝|D′|且D′_ij∈Ψ(D_ij)，i∈QID，0<j<N，N为用户属性个数；此时，D′是D的泛化数据集，其中元组d＝D[·]_j与元组d'＝D'[.]_j相互关联，记为

S55.非覆盖泛化：给定数据集D和D的泛化D′，D′是D的非覆盖泛化，当且仅当：对于D′中的任意两个元组d′₁，d′₂，d′₁≠d′₂，D中的任意一个元组d都不能同时满足d′₁∈Ψ(d)，d′₂∈Ψ(d)；非覆盖泛化实际上是指，对于数据集D中的任意一个元组只能在数据集D的匿名化集合D′中找到唯一对应的泛化元组；T′和T″都是T的非覆盖泛化，D″也是D的非覆盖泛化；

S56.等价泛化：数据集D′₁、D′₂分别为数据集D₁、D₂对应的非覆盖泛化，D′₁和D′₂是等价泛化，当：

(1)

(2)如果d′₁∈Ψ(d₂)或d′₂∈Ψ(d₁)，则d′₁＝d′₂；

S57.k-anonymity匿名：对数据集D的匿名数据集D′，D′为k-anonymity数据集，当且仅当对任意准标识符i∈QID，D′_i至少出现k次；

所述步骤S6中建立避免背景知识攻击的隐私保护模型的具体过程如下：

S61.原子：对任意用户u_i及其敏感属性值

对应的原始数据集中的记录d_i，原子表示公式：

原子将用户和用户的敏感属性关联起来；

S62.基本背景知识：基本背景知识是由原子组成的公式：∧_iA_i→∨_iB_j，其中A_i和B_j都是原子，i∈{1，...，M}，j∈{1，...，N}，M和N表示原子的数目；

S63.背景知识：背景知识K是由若干条基本背景知识组成，攻击方关于用户u的背景知识K_u定义为

表示分类树T_R中包含

的父节点，l为用户准标识符集合中元素数量，m为用户敏感属性值集合中元素数量，S为用户敏感属性值集合，

表示攻击者关于用户第i个准标识符的背景知识，

表示攻击者关于用户第j个敏感属性值的背景知识；

S64.准标识符等价类：数据集D中的准标识符相似等价类G^QID是对数据集D按照准标识符进行的一个划分，其中对

N为数据集D划分得到的准标识符等价类的数目；原始数据集D的一个准标识符等价划分得到集合T和S，T和S都是D的准标识符等价类；

S65.准标识符属性映射：对数据集D的准标识符等价类划分

准标识符属性映射pt定义为pt：G→G，该映射满足：

(1)

(2)

(3)pt(G)＝G；

S66.(γ，η)-Risk匿名：给定待发布原始数据集D、等价泛化数据集D′及其准标识符等价类划分

用户集合U，若G中所有准标识符等价类

中记录均满足对

d′_u∈D，有：

数据集D′是数据集D的(γ，η)-Risk匿名；

其中，

是

中所有敏感属性类别的数量，

是

中所拥有的不同敏感属性类别的集合，

是该集合的基数，

是

中敏感属性的属性值为某一类别C_u的所有记录的条数，

是

中敏感属性的属性值属于某一类别C_u的不同敏感属性值集合；

所述步骤S7中描述(γ，η)-Risk匿名算法，输入原始数据集D，输出匿名数据集D′的具体过程如下：

S71.假定

Count_G＝0，统计D中的敏感数据类别得到集合C_S，根据C_S将D中记录划分成M个敏感类别记录集合

每个集合一个敏感类别；

S72.对每个准标识符等价类

统计敏感值得到敏感值集合V_S并根据V_S将每个

分为N个敏感值记录集合

每个集合一个敏感值，从而D分为M*N个敏感值记录集合；

S73.对给定参数γ，计算

Count_G＝Count_G+1；

For i＝1 to γ do

For j＝1 to η do

从c_j中删除任意一条记录r；

S74.对γ个集合

汇总归类

中剩余的唯一记录；

将r放入R_r集合中任一

等价类中；

S75.将

中准标识符值和敏感属性值记录插入匿名数据集D′：

For j＝1 to Count_G do

定义集合

上的准标识符属性映射pt_j；

将记录

插入D′；

输出D′；

所述步骤S8中引入置信区间，将攻击方的高概率推断攻击控制在指定的置信区间内，避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击的具体过程如下：

S81.属性分布函数：给定用户集合U，属性集C＝{c₁，...，c_n}，属性分布函数

对给定属性值集合V＝{v₁，...，v_n}返回U中的一个用户，即：

其中U_V∈U并且v_i∈Ψ(U_V[c_i])，i∈[1，n]；

S82.置信(γ，η)-Risk匿名：给定敏感数据集D及其等价泛化数据集D′，D的属性分布函数F，置信度α，β∈[0，1]，令事件E_γ表示

事件E_η表示

如果

都有P(E_γ|F)≥α，P(F_η|F)≥β，P为概率；D′是D的置信度，即为(α，β)的(γ，η)-Risk匿名。

本发明的有益效果在于：

1.在(γ，η)-Risk匿名模型中，具有背景知识K_u的攻击方根据用户u的准标识符属性可以准确推测出用户记录属于哪一个准标识符等价类，即

中的i值，同时，攻击方知道用户u的敏感值类别C_u，进而，攻击方推测出d_u的敏感值必定是

中属于类别C_u的敏感值，由于

中敏感值类别为C_u的敏感值集合

包含η个元素，在没有其他背景知识的情况下，攻击方认为d_u的敏感值可能是

中任一元素，因此，具有背景知识K_u的攻击方获得用户u的敏感属性信息的概率不超过1/η。对于不具有背景知识K_u的攻击方，由于攻击方不知道d_u的敏感值类别，因此攻击方获得用户u的敏感属性信息的概率不超过1/(γ×η)。

2.在(γ，η)-Risk匿名算法中，在完成步骤S71、步骤S72后和步骤S73完成后，每个非空的敏感类别记录集合

中最多包含η-1个非空的敏感值记录集合

其中每个非空的敏感值记录集合

中有且仅有一条记录。完成步骤S74后，集合R_r中至少存在一个满足(γ，η)匿名的准标识符属性等价类划分。步骤S71和步骤S72完成数据集中记录分组工作，时间复杂度均为O(N)，N为数据集D包含的记录条数，步骤S73共执行了

次时间复杂度为O(γ×η)的循环，其时间复杂度为

步骤S74对剩余记录进行处理，时间复杂度为O(N)，步骤S75构造并实现准标识符映射，时间复杂度为O(N)，因此算法总的时间复杂度为O(N)。

3.置信(γ，η)-Risk匿名在数据集的每个准标识符等价类上定义了隐私，增加了识别用户身份即将原始数据集和特定用户相关联的难度，尤其是在隐私保护需求需要个性化的场合(如某些隐私需求较高的数据可能需要更高的置信等级)，从而增强了数据集的匿名性。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本发明一种基于敏感信息度量的身份信息隐私保护方法如下：

S1，确定输入输出；

S11.首先记身份信息数据库为D_id，应用程序数据库为A_id；

那么，可得用户U的身份信息引用矩阵M_ID：

S2，定义身份重要度并计算出身份重要度；

S24.求M_ID的归一化：P＝norm(M′_ID)

S25.计算P的特征值D和特征向量V：[V,D]＝eig(P)；

S26.求最大特征值M为：M＝find(abs(diag(D)))＝＝max(abs(diag(D)))；

S27.计算特征值最大的特征向量：EigenVector＝V(:,M)；

S28.归一化特征向量为：IIV＝EigenVector./norm(EigenVector,1)。

S3，根据孤立引用和完全引用，优化身份重要度；

完全引用和孤立引用生成的转换矩阵P；且引入用户向量来计算IIV值，用户向量被所有应用引用。

其中

攻击方攻击I_Attack内身份信息I_i成功的概率为

则信息披露概率p为：

S5，确定泛化函数，并对数据集泛化；

S55.数据集泛化：给定敏感数据集D和数据集D′，当且仅当：|D|＝|D′|且D′_ij∈Ψ(D_ij)，i∈QID，0<j<N，N为用户属性个数；此时，D′是D的泛化数据集，其中元组d＝D[·]_j与元组d'＝D'[·]_j相互关联，记为

(1)

(2)如果d′₁∈Ψ(d₂)或d′₂∈Ψ(d₁)，则d′₁＝d′₂；

S57.k-anonymity匿名：对数据集D的匿名数据集D′，D′为k-anonymity数据集，当且仅当对任意准标识符i∈QID，D′_i至少出现k次。

S6，建立避免背景知识攻击的隐私保护模型；

S61.原子：对任意用户u_i及其敏感属性值

对应的原始数据集中的记录d_i，原子表示公式：

原子将用户和用户的敏感属性关联起来；

表示分类树T_R中包含

表示攻击者关于用户第i个准标识符的背景知识，

表示攻击者关于用户第j个敏感属性值的背景知识；

S65.准标识符属性映射：对数据集D的准标识符等价类划分

准标识符属性映射pt定义为pt：G→G，该映射满足：

(1)

(2)

(3)pt(G)＝G；

用户集合U，若G中所有准标识符等价类

中记录均满足对

d′_u∈D，有：

数据集D′是数据集D的(γ，η)-Risk匿名；

其中，

是

中所有敏感属性类别的数量，

是

中所拥有的不同敏感属性类别的集合，

是该集合的基数，

是

中敏感属性的属性值为某一类别C_u的所有记录的条数，

是

中敏感属性的属性值属于某一类别C_u的不同敏感属性值集合。

S7，描述(γ，η)-Risk匿名算法，输入原始数据集D，输出匿名数据集D′：

S71.假定

每个集合一个敏感类别；

S72.对每个准标识符等价类

统计敏感值得到敏感值集合v_S并根据V_S将每个

分为N个敏感值记录集合

每个集合一个敏感值，从而D分为M*N个敏感值记录集合；

S73.对给定参数γ，计算

Count_G＝Count_G+1；

For i＝1 to γ do

For j＝1 to η do

从c_j中删除任意一条记录r；

S74.对γ个集合

汇总归类

中剩余的唯一记录；

将r放入R_r集合中任一

等价类中；

S75.将

中准标识符值和敏感属性值记录插入匿名数据集D′：

For j＝1 to Count_G do

定义集合

上的准标识符属性映射pt_j；

将记录

插入D′；

输出D′。

S8，引入置信区间，将攻击方的高概率推断攻击控制在指定的置信区间内，避免攻击者使用属性分布函数计算用户身份信息统计特征后进行高概率推断攻击：

其中U_V∈U并且v_i∈Ψ(U_V[c_i])，i∈[1，n]；

事件E_η表示

如果

都有P(E_γ|F)≥α，P(E_η|F)≥β，P为概率；D′是D的置信度，即为(α，β)的(γ，η)-Risk匿名。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，作出各种相应的改变和变形，而所有的这些改变和变形都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于敏感信息度量的身份信息隐私保护方法，其特征在于，其包括如下步骤：

S1，确定输入输出；

S2，定义身份重要度并计算出身份重要度；

S3，根据孤立引用和完全引用，优化身份重要度；

S5，确定泛化函数，并对数据集泛化；

S6，建立避免背景知识攻击的隐私保护模型；

所述步骤S1中确定输入输出的过程如下：

S11.首先记身份信息数据库为D_id，应用程序数据库为A_id；

那么，可得用户U的身份信息引用矩阵M_ID：

S24.求M_ID的归一化：P＝norm(M′_ID)

S25.计算P的特征值D和特征向量V：[V，D]＝eig(P)；

S26.求最大特征值M为：M＝find(abs(diag(D)))＝＝max(abs(diag(D)))；

S27.计算特征值最大的特征向量：EigenVector＝V(：，M)；

S28.归一化特征向量为：IIV＝EigenVector./norm(EigenVector，1)；

其中

攻击方攻击I_Attack内身份信息I_i成功的概率为

则信息披露概率p为：

S55.数据集泛化：给定敏感数据集D和数据集D′，当且仅当：|D|＝|D′|且D′_ij∈Ψ(D_ij)，i∈QID，0＜j＜N，N为用户属性个数；此时，D′是D的泛化数据集，其中元组d＝D[.]_j与元组d′＝D′[.]_j相互关联，记为

(1)

(2)如果d′₁∈Ψ(d₂)或d′₂∈Ψ(d₁)，则d′₁＝d′₂；

S61.原子：对任意用户u_i及其敏感属性值

对应的原始数据集中的记录d_i，原子表示公式：

原子将用户和用户的敏感属性关联起来；

表示分类树T_R中包含

表示攻击者关于用户第i个准标识符的背景知识，

表示攻击者关于用户第j个敏感属性值的背景知识；

N为数据集D划分得到的准标识符等价类的数目；原始数据集D的一个准标识符等价划分得到集合T和S，T和5都是D的准标识符等价类；

S65.准标识符属性映射：对数据集D的准标识符等价类划分

准标识符属性映射pt定义为pt：G→G，该映射满足：

(1)

pt(G_i)＝G_j，G_i≠G_j∈G；

(2)

pt(G_i)≠pt(G_j)；

(3)pt(G)＝G；

用户集合U，若G中所有准标识符等价类

中记录均满足对

d′_u∈D，有：

数据集D′是数据集D的(γ，η)-Risk匿名；

其中，

是

中所有敏感属性类别的数量，

是

中所拥有的不同敏感属性类别的集合，

是该集合的基数，

是

中敏感属性的属性值为某一类别C_u的所有记录的条数，

是

S71.假定

每个集合一个敏感类别；

S72.对每个准标识符等价类

统计敏感值得到敏感值集合V_S并根据V_S将每个

分为N个敏感值记录集合

每个集合一个敏感值，从而D分为M*N个敏感值记录集合；

S73.对给定参数γ，计算

Count_G＝Count_G+1；

集合R_γ＝记录数最多的前γ个

集合；

For i＝1 to γ do

R_η＝记录数最多的前η个

集合；

For j＝1 to η do

从c_j中删除任意一条记录r；

S74.对γ个集合

汇总归类

中剩余的唯一记录；

将r放入R_r集合中任一

等价类中；

S75.将

中准标识符值和敏感属性值记录插入匿名数据集D′：

For j＝1 to Count_G do

定义集合

上的准标识符属性映射pt_j；

将记录

插入D′；

输出D′；

其中U_V∈U并且v_i∈Ψ(U_V[c_i])，i∈[1，n]；

事件E_η表示

如果