CN104601596B

CN104601596B - 一种分类数据挖掘系统中数据隐私保护方法

Info

Publication number: CN104601596B
Application number: CN201510061632.3A
Authority: CN
Inventors: 任勋益; 袁武
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2017-09-22
Anticipated expiration: 2035-02-05
Also published as: CN104601596A

Abstract

本发明涉及一种分类数据挖掘系统中数据隐私保护方法，将系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方，首先，各参与方分别将其隐私数据以密文形式布设在随机数据中，并通过合作计算，分别获得各个属性的信息熵；接着，各参与方通过针对计算过程中计算结果采用加密传输的方式，分别获得各个属性的信息增益；然后，针对各个属性的信息增益进行比较，获得最大信息增益所对应的属性，以该属性为节点进行分裂；最后判断是否满足终止分裂条件，是则结束，否则循环上述方案；上述设计技术方案基于保护隐私的ID3分类模型，采用全同态加密算法的方案，有效实现针对网络分类数据挖掘过程中隐私数据保护。

Description

一种分类数据挖掘系统中数据隐私保护方法

技术领域

本发明涉及一种分类数据挖掘系统中数据隐私保护方法。

背景技术

数据挖掘(Data Mining，DM)是从大量的、不完全的、有噪声、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和知识的过程。随着数据挖掘和知识发现技术的发展，数据挖掘和知识发现的研究已经涵盖数据库、人工智能和数理统计三大学科的内容。它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策和支持。

由于数据挖掘的诸多优点，它在商业零售、医疗与保险、大数据分析等方面都有较好的应用前景，对数据挖掘技术的研究正成为学术界、商业界和工业界的热点之一。但是，数据挖掘在为人们提供有益知识的同时，也会直接或间接的泄露参与方的数据隐私，给当事人带来经济和其他方面的损失，甚至造成难以估量的影响，这成为数据挖掘不能逃避的问题。因此数据挖掘中的隐私安全问题具有重要意义。

根据数据挖掘实现的不同场景，数据挖掘可分为集中式数据挖掘和分布式的数据挖掘。目前对于集中式的数据挖掘，由于它不涉及通信传输和多方参与，目前已经有了比较成熟的隐私保护方案。而在分布式环境中，挖掘环境和实现过程更为复杂，分布式环境中数据挖掘的隐私安全问题主要包括三个方面：(1)保护聚类挖掘参与方的数据隐私；(2)保护关联规则挖掘参与方的数据隐私；(3)保护分类挖掘中的参与方的数据隐私。目前对前两个方面的研究已有不少成果，然而对分类挖掘的隐私保护研究还少有人涉及，分布式环境中的多方参与和准诚信的环境，显然给问题的解决带来了一定的难度，一般采用的策略主要是使用密码学的方法，但仅用密码学的方法是不足够的，仍然需要结合新的技术、方法来保证分类挖掘中各方的隐私数据不被泄露；对于分布式环境来说，分布式环境包括水平分割数据和垂直分割数据两种，在垂直划分的数据集中，同一数据的不同属性分别存储在不同的参与方中；在水平划分的数据集中，数据的所有属性存储在同一个参与方中,不同的参与方存储不同数据的信息。

在网络世界里，针对网络中隐私数据的攻击表现为网络恶意入侵，网络恶意入侵的主要过程是发生在分类器生成过程中，如果某个参与方是恶意的，它可能对参与分类挖掘的其他各方进行如下几种攻击：①截获其他参与方的通信数据，分析它们的隐私数据；②利用自己参与计算的便利职务，分析其他各方的隐私数据；③利用自己收到的计算结果，倒推其他参与方的数据隐私等等。

发明内容

针对上述技术问题，本发明所要解决的技术问题是提供一种基于保护隐私的ID3分类模型，采用全同态加密算法的方案，有效实现针对网络分类数据挖掘过程中隐私数据保护的分类数据挖掘系统中数据隐私保护方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种分类数据挖掘系统中数据隐私保护方法，其中，系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方，数据隐私保护方法包括如下步骤：

步骤001.首先，各参与方分别将其隐私数据以密文形式，通过随机排序方式分布在其对应的随机数据中；然后，各参与方根据各自对应的随机数据进行合作计算，分别获得处理数据中各个属性的信息熵；

步骤002.通过针对计算过程中计算结果采用加密传输的方式，各参与方根据处理数据中各个属性的信息熵进行合作计算，分别获得处理数据中各个属性的信息增益；

步骤003.针对处理数据中各个属性的信息增益进行比较，获得最大信息增益所对应的属性，将该属性作为最佳分裂属性，以最佳分裂属性为节点进行分裂；

步骤004.判断是否满足终止分裂条件，是则结束，否则返回步骤001。

作为本发明的一种优选技术方案：所述步骤001之前，初始化，针对处理数据中的属性预设目标属性，其余属性为候选属性，表示第i个参与方对应系统中所述处理数据中第l个候选属性中第t_l个类别的类别数据，其中，i∈{1,…,I}，I为参与方的总数，l∈{1,…,L}，L为处理数据中候选属性的个数，t_l为对应处理数据中第l个候选属性中的第t_l个类别，t_l∈{1,…,T_l}，T_l为处理数据中第l个候选属性对应的类别的总数；并且，若第i个参与方所对应的各个候选属性当中不包括第l个候选属性，则

所述步骤001具体包括如下步骤：

步骤00101.第I个参与方P_I随机产生加解密密钥(e,d)，P_I保存解密密钥d，并将加密密钥e分发给其他所有参与方；

步骤00102.第I个参与方P_I通过加密密钥e，针对进行加密获得并将发送给第1个参与方P₁；

步骤00103.第1个参与方P₁根据采用加密密钥e，通过针对进行加密获得并将发送给第2个参与方P₂；

步骤00104.第2个参与方P₂按上述步骤同样的方式，针对进行加密获得依次方式类推，依序针对所有参与方，直至第(I-1)个参与方P_(I-1)针对进行加密获得

步骤00105.第(I-1)个参与方P_(I-1)根据分别计算获得其中，表示参与方对应处理数据第l个候选属性中第t_l个类别的概率值，即针对l∈{1,…,L}和t_l∈{1,…,T_l}，获得参与方分别对应处理数据各个候选属性中各个类别的概率值

步骤00106.第(I-1)个参与方P_(I-1)生成一组随机数R₁,R₂,…,R_M，并且将与e(R₁),e(R₂),…,e(R_M)随机排序，将序列发送至第I个参与方P_I；

步骤00107.第I个参与方P_I根据解密密钥d，针对接收到的序列中的各个元素进行解密，并保持序列中元素顺序不变，针对各个元素进行处理获得发送至第1个参与方P₁；

步骤00108.第1个参与方P₁针对接收到的序列中的各个元素分别加上随机数R，即发送至第(I-1)个参与方P_(I-1)；

步骤00109.第(I-1)个参与方P_(I-1)计算并且将发送至第1个参与方P₁；

步骤00110.第1个参与方P₁计算并发送至第(I-1)个参与方P_(I-1)；

步骤00111.第(I-1)个参与方P_(I-1)根据和获得

步骤00112.第(I-1)个参与方P_(I-1)针对处理数据中所有的候选属性，l∈{1,…,L}，分别按上述步骤00101至步骤00111，分别获得对应各个候选属性的

步骤00113.第(I-1)个参与方P_(I-1)根据分别对应各个候选属性的针对对应候选属性的所有类别t_l∈{1,…,T_l}，按如下公式：

计算获得e(Entropy(S_l))，其中，Entropy(S_l)为处理数据中第l个候选属性的信息熵，进而针对l∈{1,…,L}，分别获得处理数据中各个候选属性的信息熵，S为处理数据中所有属性的集合。

作为本发明的一种优选技术方案：所述步骤002具体包括如下步骤：

步骤00201.第(I-1)个参与方P_(I-1)向第1个参与方P₁发送e(|S_l|)，其中S_l表示处理数据中第l个候选属性，|S_l|表示处理数据第l个候选属性中所包含类别数据的数量；

步骤00202.第1个参与方P₁计算并计算并将发送至第I个参与方P_I，其中R'为参与方P₁私有的一个随机数；

步骤00203.第I个参与方P_I根据解密密钥d，针对进行解密获得并发送给第(I-1)个参与方P_(I-1)；

步骤00204.第(I-1)个参与方P_(I-1)根据如下公式：

计算获得并发送给第1个参与方P₁；

步骤00205.第1个参与方P₁计算e(Entropy(S_l))^-R'＝e(-R'Entropy(S_l))，并将e(-R'Entropy(S_l))发送至第(I-1)个参与方P_(I-1)；

步骤00206.第(I-1)个参与方P_(I-1)根据和e(-R'Entropy(S_l))获得

步骤00207.第(I-1)个参与方P_(I-1)根据如下公式：

计算获得和

步骤00208.第(I-1)个参与方P_(I-1)根据如下公式：

计算获得处理数据第l个候选属性的信息增益Gain(S_l,S)，进而针对l∈{1,…,L}，分别获得处理数据各个候选属性的信息增益，其中，S_v为处理数据中的目标属性，Entropy(S_v)的计算方法参照上述步骤针对候选属性计算Entropy(S_l)的方法。

作为本发明的一种优选技术方案：所述步骤003具体包括如下步骤：

步骤00301.第I个参与方P_I重新随机产生加解密密钥(e',d')，P_I保存解密密钥d'，并将加密密钥e'分发给其他所有参与方；

步骤00302.第I个参与方P_I根据l∈{1,…,L}，针对各个候选属性的信息增益Gain(S_l,S)，分别进行加密e'(m_l)，并发送至第(I-1)个参与方P_(I-1)，其中，m_l＝Gain(S_l,S)；

步骤00303.第(I-1)个参与方P_(I-1)随机生成队列通过加密秘钥e'，针对随机队列中的每一个元素进行加密，更新队列再针对对应各个候选属性的e'(m_l)，计算e'(m_l)×e'(m_j)^-1＝e'(m_l-m_j)，并将e'(m_l-m_j)进行随机扰动后添加至队列中，将队列发送至第I个参与方P_I，其中，j∈{1,…,L}，且l＜j；

步骤00304.第I个参与方P_I根据解密密钥d'，分别针对序列中的各个元素进行解密，如果结果大于0，则扰动表对应元素为+1，如果结果小于0，则对应的元素为-1，获得一个由+1和-1组成的差分矩阵发送至第(I-1)个参与方P_(I-1)；

步骤00305.第(I-1)个参与方P_(I-1)针对差分矩阵中每一个m_l，将每一个m_l对应候选属性中所所有类别数据进行相加，依次针对所有m_l按大小进行排序；

步骤00306.第(I-1)个参与方P_(I-1)根据m_l的排序结果，获得最大信息增益所对应的候选属性，将该候选属性作为最佳分裂属性，由任何一个参与方以最佳分裂属性为节点进行分裂。

作为本发明的一种优选技术方案：所述步骤00306中，第(I-1)个参与方P_(I-1)将最佳分裂属性发送至其它所有参与方。

本发明所述一种分类数据挖掘系统中数据隐私保护方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计的分类数据挖掘系统中数据隐私保护方法，基于保护隐私的ID3分类模型，采用全同态加密算法的方案，其中，采用同态加密系统对各参与方的私有数据进行加密，这样参与决策树生成和挖掘运算的将会是加密后的密文，合作计算过程中各方传输的也是加密后的结果，恶意攻击者即使截获密文也无从知晓报文的涵义，从而使攻击者无从知晓私密数据，并且，同态加密技术可以保证在普通的求加法和乘法运算的过程中，我们的运算在密文状态下进行，有效保护各参与方的数据隐私；同时，在计算信息增益的过程中，由于需要进行指数运算，无法在同态加密状态下进行，我们采取明文运算，在此过程中，我们将明文数据淹没在随机数组中，并随机选择计算方和目标数据识别方，以此来保护隐私数据不被泄露；不仅如此，由于方案中的加密技术采用同态加密，因此加密过程并不影响计算的正确性，而且数字信封和随机排序技术也不会对决策树生成过程产生影响，上述技术方案不仅不会影响计算结果的正确性，而且有限提高计算过程的复杂度，以此有效实现针对网络分类数据挖掘过程中隐私数据保护。

附图说明

图1为本发明设计分类数据挖掘系统中数据隐私保护方法的流程示意图。

具体实施方式

下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计的一种分类数据挖掘系统中数据隐私保护方法，其中，系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方，在具体的实际应用过程当中，数据隐私保护方法具体包括如下步骤：

比如以下表中的一组天气数据作为处理数据：

outlook	temperature	humidity	windy	play
					sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
					overcast	hot	high	FALSE	yes
rainy	mild	high	FALSE	yes
					rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no
					overcast	cool	normal	TRUE	yes
sunny	mild	high	FALSE	no
					sunny	cool	normal	FALSE	yes
rainy	mild	normal	FALSE	yes
					sunny	mild	normal	TRUE	yes
overcast	mild	high	TRUE	yes
					overcast	hot	normal	FALSE	yes
rainy	mild	high	TRUE	no

初始化，针对处理数据中的属性预设目标属性“play”，其余属性为候选属性“outlook”、“temperature”、“humidity”和“windy”，表示第i个参与方对应系统中所述处理数据中第l个候选属性中第tl个类别的类别数据，其中，i∈{1,…,I}，I为参与方的总数，l∈{1,…,L}，L为处理数据中候选属性的个数，在这里的实施例中，L＝4，t_l为对应处理数据中第l个候选属性中的第t_l个类别，t_l∈{1,…,Tl}，T_l为处理数据中第l个候选属性对应的类别的总数，这其中，对应目标属性“play”的类别的总数为2，包括“yes”和“no”；对应候选属性“outlook”的类别的总数为3，包括“sunny”、“overcast”、“rainy”；对应候选属性“temperature”的类别的总数为3，包括“hot”、“mild”、“cool”；对应候选属性“humidity”的类别的总数为2，包括“high”、“normal”；对应候选属性“windy”的类别的总数为2，包括“TRUE”、“FALSE”；这其中，若第i个参与方所对应的各个候选属性当中不包括第l个候选属性，则

步骤001.首先，各参与方分别将其隐私数据以密文形式，通过随机排序方式分布在其对应的随机数据中；然后，各参与方根据各自对应的随机数据进行合作计算，分别获得处理数据中各个属性的信息熵，使得恶意参与方不能确定特定的数据，从而保护隐私数据的安全，其中，步骤001具体包括如下步骤：

步骤00101.第I个参与方P_I随机产生加解密密钥(e,d)，P_I保存解密密钥d，并将加密密钥e分发给其他所有参与方。

步骤00102.第I个参与方P_I通过加密密钥e，针对进行加密获得并将发送给第1个参与方P₁。

步骤00103.第1个参与方P₁根据采用加密密钥e，通过针对进行加密获得并将发送给第2个参与方P₂。

步骤00106.第(I-1)个参与方P_(I-1)生成一组随机数R₁,R₂,…,R_M，并且将与e(R₁),e(R₂),…,e(R_M)随机排序，将序列发送至第I个参与方P_I。

步骤00107.第I个参与方P_I根据解密密钥d，针对接收到的序列中的各个元素进行解密，并保持序列中元素顺序不变，针对各个元素进行处理获得发送至第1个参与方P₁。

步骤00108.第1个参与方P₁针对接收到的序列中的各个元素分别加上随机数R，即发送至第(I-1)个参与方P_(I-1)。

步骤00109.第(I-1)个参与方P_(I-1)计算并且将发送至第1个参与方P₁。

步骤00110.第1个参与方P₁计算并发送至第(I-1)个参与方P_(I-1)。

步骤00111.第(I-1)个参与方P_(I-1)根据和获得

步骤002.通过针对计算过程中计算结果采用加密传输的方式，各参与方根据处理数据中各个属性的信息熵进行合作计算，分别获得处理数据中各个属性的信息增益，这种方式能够防止恶意参与方和其它实体截获数据，由于信息增益计算过程需要在明文的环境中进行，我们用随机排序技术，将目标明文淹没在随机数组中，确保恶意攻击者不能得到或辨识隐私数据；其中，步骤002具体包括如下步骤：

步骤00201.第(I-1)个参与方P_(I-1)向第1个参与方P₁发送e(|S_l|)，其中S_l表示处理数据中第l个候选属性，|S_l|表示处理数据第l个候选属性中所包含类别数据的数量。

步骤00202.第1个参与方P₁计算并计算并将发送至第I个参与方P_I，其中R'为参与方P₁私有的一个随机数。

步骤00203.第I个参与方P_I根据解密密钥d，针对进行解密获得并发送给第(I-1)个参与方P_(I-1)。

步骤00204.第(I-1)个参与方P_(I-1)根据如下公式：

计算获得并发送给第1个参与方P₁。

步骤00205.第1个参与方P₁计算e(Entropy(S_l))^-R'＝e(-R'Entropy(S_l))，并将e(-R'Entropy(S_l))发送至第(I-1)个参与方P_(I-1)。

步骤00206.第(I-1)个参与方P_(I-1)根据和e(-R'Entropy(S_l))获得

步骤00207.第(I-1)个参与方P_(I-1)根据如下公式：

计算获得和

步骤00208.第(I-1)个参与方P_(I-1)根据如下公式：

步骤003.针对处理数据中各个属性的信息增益进行比较，获得最大信息增益所对应的属性，将该属性作为最佳分裂属性，以最佳分裂属性为节点进行分裂，这种方式使得各参与方除了最终的比较结果以外，不能获取其它参与方的任何数据知识，从而有效的保护了数据隐私；其中，步骤003具体包括如下步骤：

步骤00301.第I个参与方P_I重新随机产生加解密密钥(e',d')，P_I保存解密密钥d'，并将加密密钥e'分发给其他所有参与方。

步骤00302.第I个参与方P_I根据l∈{1,…,L}，针对各个候选属性的信息增益Gain(S_l,S)，分别进行加密e'(m_l)，并发送至第(I-1)个参与方P_(I-1)，其中，m_l＝Gain(S_l,S)。

步骤00303.第(I-1)个参与方P_(I-1)随机生成队列通过加密秘钥e'，针对随机队列中的每一个元素进行加密，更新队列再针对对应各个候选属性的e'(m_l)，计算e'(m_l)×e'(m_j)^-1＝e'(m_l-m_j)，并将e'(m_l-m_j)进行随机扰动后添加至队列中，将队列发送至第I个参与方P_I，其中，j∈{1,…,L}，且l＜j。

步骤00304.第I个参与方P_I根据解密密钥d'，分别针对序列中的各个元素进行解密，如果结果大于0，则扰动表对应元素为+1，如果结果小于0，则对应的元素为-1，获得一个由+1和-1组成的差分矩阵发送至第(I-1)个参与方P_(I-1)。

步骤00305.第(I-1)个参与方P_(I-1)针对差分矩阵中每一个m_l，将每一个m_l对应候选属性中所所有类别数据进行相加，依次针对所有m_l按大小进行排序。

步骤00306.第(I-1)个参与方P_(I-1)根据m_l的排序结果，获得最大信息增益所对应的候选属性，将该候选属性作为最佳分裂属性，并P_(I-1)将最佳分裂属性发送至其它所有参与方，由任何一个参与方以最佳分裂属性为节点进行分裂。

上述技术方案设计的分类数据挖掘系统中数据隐私保护方法，基于保护隐私的ID3分类模型，采用全同态加密算法的方案，其中，采用同态加密系统对各参与方的私有数据进行加密，这样参与决策树生成和挖掘运算的将会是加密后的密文，合作计算过程中各方传输的也是加密后的结果，恶意攻击者即使截获密文也无从知晓报文的涵义，从而使攻击者无从知晓私密数据，并且，同态加密技术可以保证在普通的求加法和乘法运算的过程中，我们的运算在密文状态下进行，有效保护各参与方的数据隐私；同时，在计算信息增益的过程中，由于需要进行指数运算，无法在同态加密状态下进行，我们采取明文运算，在此过程中，我们将明文数据淹没在随机数组中，并随机选择计算方和目标数据识别方，以此来保护隐私数据不被泄露；不仅如此，由于方案中的加密技术采用同态加密，因此加密过程并不影响计算的正确性，而且数字信封和随机排序技术也不会对决策树生成过程产生影响，上述技术方案不仅不会影响计算结果的正确性，而且有限提高计算过程的复杂度，以此有效实现针对网络分类数据挖掘过程中隐私数据保护。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种分类数据挖掘系统中数据隐私保护方法，其中，系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方，其特征在于，数据隐私保护方法包括如下步骤：

2.根据权利要求1所述一种分类数据挖掘系统中数据隐私保护方法，其特征在于，所述步骤001之前，进行初始化，针对处理数据中的属性预设目标属性，其余属性为候选属性，表示第i个参与方对应系统中所述处理数据中第l个候选属性中第t_l个类别的类别数据，其中，i∈{1,…,I}，I为参与方的总数，l∈{1,…,L}，L为处理数据中候选属性的个数，t_l为对应处理数据中第l个候选属性中的第t_l个类别，t_l∈{1,…,T_l}，T_l为处理数据中第l个候选属性对应的类别的总数；并且，若第i个参与方所对应的各个候选属性当中不包括第l个候选属性，则

所述步骤001具体包括如下步骤：

步骤00105.第(I-1)个参与方P_(I-1)根据分别计算获得其中，表示参与方对应处理数据第l个候选属性中第t_l个类别的概率值，即针对l∈{1,···,L}和t_l∈{1,···,T_l}，获得参与方分别对应处理数据各个候选属性中各个类别的概率值

步骤00110.第1个参与方P₁计算并发送至第(I-1)个参与方P_(I-1)；步骤00111.第(I-1)个参与方P_(I-1)根据和获得

步骤00112.第(I-1)个参与方P_(I-1)针对处理数据中所有的候选属性，l∈{1,···,L}，分别按上述步骤00101至步骤00111，分别获得对应各个候选属性的

<mrow> <mi>e</mi> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Pi;</mo> <mrow> <msub> <mi>t</mi> <mi>l</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mi>l</mi> </msub> </munderover> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <msub> <mi>lt</mi> <mi>l</mi> </msub> </mrow> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <msub> <mi>lt</mi> <mi>l</mi> </msub> </mrow> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>e</mi> <mo>(</mo> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <msub> <mi>t</mi> <mi>l</mi> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mi>l</mi> </msub> </munderover> <msub> <mi>Q</mi> <mrow> <msub> <mi>lt</mi> <mi>l</mi> </msub> </mrow> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>Q</mi> <mrow> <msub> <mi>lt</mi> <mi>l</mi> </msub> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow>

3.根据权利要求2所述一种分类数据挖掘系统中数据隐私保护方法，其特征在于，所述步骤002具体包括如下步骤：

步骤00204.第(I-1)个参与方P_(I-1)根据如下公式：

<mrow> <mi>e</mi> <msup> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <msup> <mi>R</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>+</mo> <msup> <mi>R</mi> <mo>&prime;</mo> </msup> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

计算获得并发送给第1个参与方P₁；

步骤00206.第(I-1)个参与方P_(I-1)根据和e(-R'Entropy(S_l))获得

步骤00207.第(I-1)个参与方P_(I-1)根据如下公式：

<mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mi>e</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>e</mi> <msup> <mrow> <mo>(</mo> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <mrow> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

计算获得和

步骤00208.第(I-1)个参与方P_(I-1)根据如下公式：

<mrow> <mi>e</mi> <mrow> <mo>(</mo> <mi>G</mi> <mi>a</mi> <mi>i</mi> <mi>n</mi> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>,</mo> <mi>S</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>v</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>e</mi> <mrow> <mo>(</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>S</mi> <mo>|</mo> </mrow> </mfrac> <mi>E</mi> <mi>n</mi> <mi>t</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> <mi>y</mi> <mo>(</mo> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

计算获得处理数据第l个候选属性的信息增益Gain(S_l,S)，进而针对l∈{1,···,L}，分别获得处理数据各个候选属性的信息增益，其中，S_v为处理数据中的目标属性，Entropy(S_v)的计算方法参照上述步骤针对候选属性计算Entropy(S_l)的方法。

4.根据权利要求3所述一种分类数据挖掘系统中数据隐私保护方法，其特征在于，所述步骤003具体包括如下步骤：

5.根据权利要求4所述一种分类数据挖掘系统中数据隐私保护方法，其特征在于，所述步骤00306中，第(I-1)个参与方P_(I-1)将最佳分裂属性发送至其它所有参与方。