CN104601596A - 一种分类数据挖掘系统中数据隐私保护方法 - Google Patents

一种分类数据挖掘系统中数据隐私保护方法 Download PDF

Info

Publication number
CN104601596A
CN104601596A CN201510061632.3A CN201510061632A CN104601596A CN 104601596 A CN104601596 A CN 104601596A CN 201510061632 A CN201510061632 A CN 201510061632A CN 104601596 A CN104601596 A CN 104601596A
Authority
CN
China
Prior art keywords
participant
data
attribute
entropy
deal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510061632.3A
Other languages
English (en)
Other versions
CN104601596B (zh
Inventor
任勋益
袁武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510061632.3A priority Critical patent/CN104601596B/zh
Publication of CN104601596A publication Critical patent/CN104601596A/zh
Application granted granted Critical
Publication of CN104601596B publication Critical patent/CN104601596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种分类数据挖掘系统中数据隐私保护方法,将系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,首先,各参与方分别将其隐私数据以密文形式布设在随机数据中,并通过合作计算,分别获得各个属性的信息熵;接着,各参与方通过针对计算过程中计算结果采用加密传输的方式,分别获得各个属性的信息增益;然后,针对各个属性的信息增益进行比较,获得最大信息增益所对应的属性,以该属性为节点进行分裂;最后判断是否满足终止分裂条件,是则结束,否则循环上述方案;上述设计技术方案基于保护隐私的ID3分类模型,采用全同态加密算法的方案,有效实现针对网络分类数据挖掘过程中隐私数据保护。

Description

一种分类数据挖掘系统中数据隐私保护方法
技术领域
本发明涉及一种分类数据挖掘系统中数据隐私保护方法。
背景技术
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。随着数据挖掘和知识发现技术的发展,数据挖掘和知识发现的研究已经涵盖数据库、人工智能和数理统计三大学科的内容。它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策和支持。
由于数据挖掘的诸多优点,它在商业零售、医疗与保险、大数据分析等方面都有较好的应用前景,对数据挖掘技术的研究正成为学术界、商业界和工业界的热点之一。但是,数据挖掘在为人们提供有益知识的同时,也会直接或间接的泄露参与方的数据隐私,给当事人带来经济和其他方面的损失,甚至造成难以估量的影响,这成为数据挖掘不能逃避的问题。因此数据挖掘中的隐私安全问题具有重要意义。
根据数据挖掘实现的不同场景,数据挖掘可分为集中式数据挖掘和分布式的数据挖掘。目前对于集中式的数据挖掘,由于它不涉及通信传输和多方参与,目前已经有了比较成熟的隐私保护方案。而在分布式环境中,挖掘环境和实现过程更为复杂,分布式环境中数据挖掘的隐私安全问题主要包括三个方面:(1)保护聚类挖掘参与方的数据隐私;(2)保护关联规则挖掘参与方的数据隐私;(3)保护分类挖掘中的参与方的数据隐私。目前对前两个方面的研究已有不少成果,然而对分类挖掘的隐私保护研究还少有人涉及,分布式环境中的多方参与和准诚信的环境,显然给问题的解决带来了一定的难度,一般采用的策略主要是使用密码学的方法,但仅用密码学的方法是不足够的,仍然需要结合新的技术、方法来保证分类挖掘中各方的隐私数据不被泄露;对于分布式环境来说,分布式环境包括水平分割数据和垂直分割数据两种,在垂直划分的数据集中,同一数据的不同属性分别存储在不同的参与方中;在水平划分的数据集中,数据的所有属性存储在同一个参与方中,不同的参与方存储不同数据的信息。
在网络世界里,针对网络中隐私数据的攻击表现为网络恶意入侵,网络恶意入侵的主要过程是发生在分类器生成过程中,如果某个参与方是恶意的,它可能对参与分类挖掘的其他各方进行如下几种攻击:①截获其他参与方的通信数据,分析它们的隐私数据;②利用自己参与计算的便利职务,分析其他各方的隐私数据;③利用自己收到的计算结果,倒推其他参与方的数据隐私等等。
发明内容
针对上述技术问题,本发明所要解决的技术问题是提供一种基于保护隐私的ID3分类模型,采用全同态加密算法的方案,有效实现针对网络分类数据挖掘过程中隐私数据保护的分类数据挖掘系统中数据隐私保护方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,数据隐私保护方法包括如下步骤:
步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理数据中各个属性的信息熵;
步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息增益;
步骤003.针对处理数据中各个属性的信息增益进行比较,获得最大信息增益所对应的属性,将该属性作为最佳分裂属性,以最佳分裂属性为节点进行分裂;
步骤004.判断是否满足终止分裂条件,是则结束,否则返回步骤001。
作为本发明的一种优选技术方案:所述步骤001之前,初始化,针对处理数据中的属性预设目标属性,其余属性为候选属性,表示第i个参与方对应系统中所述处理数据中第l个候选属性中第tl个类别的类别数据,其中,i∈{1,…,I},I为参与方的总数,l∈{1,…,L},L为处理数据中候选属性的个数,tl为对应处理数据中第l个候选属性中的第tl个类别,tl∈{1,…,Tl},Tl为处理数据中第l个候选属性对应的类别的总数;并且,若第i个参与方所对应的各个候选属性当中不包括第l个候选属性,则
所述步骤001具体包括如下步骤:
步骤00101.第I个参与方PI随机产生加解密密钥(e,d),PI保存解密密钥d,并将加密密钥e分发给其他所有参与方;
步骤00102.第I个参与方PI通过加密密钥e,针对进行加密获得并将发送给第1个参与方P1
步骤00103.第1个参与方P1根据采用加密密钥e,通过针对进行加密获得并将发送给第2个参与方P2
步骤00104.第2个参与方P2按上述步骤同样的方式,针对进行加密获得依次方式类推,依序针对所有参与方,直至第(I-1)个参与方P(I-1)针对进行加密获得
步骤00105.第(I-1)个参与方P(I-1)根据分别计算获得其中,表示参与方对应处理数据第l个候选属性中第tl个类别的概率值,即针对l∈{1,…,L}和tl∈{1,…,Tl},获得参与方分别对应处理数据各个候选属性中各个类别的概率值
步骤00106.第(I-1)个参与方P(I-1)生成一组随机数R1,R2,…,RM,并且将与e(R1),e(R2),…,e(RM)随机排序,将序列发送至第I个参与方PI
步骤00107.第I个参与方PI根据解密密钥d,针对接收到的序列中的各个元素进行解密,并保持序列中元素顺序不变,针对各个元素进行处理获得发送至第1个参与方P1
步骤00108.第1个参与方P1针对接收到的序列中的各个元素分别加上随机数R,即发送至第(I-1)个参与方P(I-1)
步骤00109.第(I-1)个参与方P(I-1)计算并且将发送至第1个参与方P1
步骤00110.第1个参与方P1计算并发送至第(I-1)个参与方P(I-1)
步骤00111.第(I-1)个参与方P(I-1)根据获得
步骤00112.第(I-1)个参与方P(I-1)针对处理数据中所有的候选属性,l∈{1,…,L},分别按上述步骤00101至步骤00111,分别获得对应各个候选属性的
步骤00113.第(I-1)个参与方P(I-1)根据分别对应各个候选属性的针对对应候选属性的所有类别tl∈{1,…,Tl},按如下公式:
e ( Entropy ( S l ) ) = Π t l = 1 T l e ( Q lt l log ( Q lt l ) ) = e ( Σ t l = 1 T l Q lt l log ( Q lt l ) )
计算获得e(Entropy(Sl)),其中,Entropy(Sl)为处理数据中第l个候选属性的信息熵,进而针对l∈{1,…,L},分别获得处理数据中各个候选属性的信息熵,S为处理数据中所有属性的集合。
作为本发明的一种优选技术方案:所述步骤002具体包括如下步骤:
步骤00201.第(I-1)个参与方P(I-1)向第1个参与方P1发送e(|Sl|),其中Sl表示处理数据中第l个候选属性,|Sl|表示处理数据第l个候选属性中所包含类别数据的数量;
步骤00202.第1个参与方P1计算 e ( | S l | ) 1 S = e ( | S l | | S | ) , 并计算 e ( | S l | | S | ) × e ( R ′ ) = e ( | S l | | S | + R ′ ) , 并将发送至第I个参与方PI,其中R'为参与方P1私有的一个随机数;
步骤00203.第I个参与方PI根据解密密钥d,针对进行解密获得并发送给第(I-1)个参与方P(I-1)
步骤00204.第(I-1)个参与方P(I-1)根据如下公式:
e ( Entropy ( S l ) ) ( | S l | | S | + R ′ ) = e ( | S l | | S | Entropy ( S l ) + R ′ Entropy ( S l ) )
计算获得并发送给第1个参与方P1
步骤00205.第1个参与方P1计算e(Entropy(Sl))-R'=e(-R'Entropy(Sl)),并将e(-R'Entropy(Sl))发送至第(I-1)个参与方P(I-1)
步骤00206.第(I-1)个参与方P(I-1)根据和e(-R'Entropy(Sl))获得
步骤00207.第(I-1)个参与方P(I-1)根据如下公式:
Π l = 1 L e ( | S l | | S | Entropy ( S l ) ) = e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) - 1 = e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
计算获得
步骤00208.第(I-1)个参与方P(I-1)根据如下公式:
e ( Gain ( S l , S ) ) = e ( Entropy ( S v ) ) × e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) )
计算获得处理数据第l个候选属性的信息增益Gain(Sl,S),进而针对l∈{1,…,L},分别获得处理数据各个候选属性的信息增益,其中,Sv为处理数据中的目标属性,Entropy(Sv)的计算方法参照上述步骤针对候选属性计算Entropy(Sl)的方法。
作为本发明的一种优选技术方案:所述步骤003具体包括如下步骤:
步骤00301.第I个参与方PI重新随机产生加解密密钥(e',d'),PI保存解密密钥d',并将加密密钥e'分发给其他所有参与方;
步骤00302.第I个参与方PI根据l∈{1,…,L},针对各个候选属性的信息增益Gain(Sl,S),分别进行加密e'(ml),并发送至第(I-1)个参与方P(I-1),其中,ml=Gain(Sl,S);
步骤00303.第(I-1)个参与方P(I-1)随机生成队列通过加密秘钥e',针对随机队列中的每一个元素进行加密,更新队列再针对对应各个候选属性的e'(ml),计算e'(ml)×e'(mj)-1=e'(ml-mj),并将e'(ml-mj)进行随机扰动后添加至队列中,将队列发送至第I个参与方PI,其中,j∈{1,…,L},且l<j;
步骤00304.第I个参与方PI根据解密密钥d',分别针对序列中的各个元素进行解密,如果结果大于0,则扰动表对应元素为+1,如果结果小于0,则对应的元素为-1,获得一个由+1和-1组成的差分矩阵发送至第(I-1)个参与方P(I-1)
步骤00305.第(I-1)个参与方P(I-1)针对差分矩阵中每一个ml,将每一个ml对应候选属性中所所有类别数据进行相加,依次针对所有ml按大小进行排序;
步骤00306.第(I-1)个参与方P(I-1)根据ml的排序结果,获得最大信息增益所对应的候选属性,将该候选属性作为最佳分裂属性,由任何一个参与方以最佳分裂属性为节点进行分裂。
作为本发明的一种优选技术方案:所述步骤00306中,第(I-1)个参与方P(I-1)将最佳分裂属性发送至其它所有参与方。
本发明所述一种分类数据挖掘系统中数据隐私保护方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的分类数据挖掘系统中数据隐私保护方法,基于保护隐私的ID3分类模型,采用全同态加密算法的方案,其中,采用同态加密系统对各参与方的私有数据进行加密,这样参与决策树生成和挖掘运算的将会是加密后的密文,合作计算过程中各方传输的也是加密后的结果,恶意攻击者即使截获密文也无从知晓报文的涵义,从而使攻击者无从知晓私密数据,并且,同态加密技术可以保证在普通的求加法和乘法运算的过程中,我们的运算在密文状态下进行,有效保护各参与方的数据隐私;同时,在计算信息增益的过程中,由于需要进行指数运算,无法在同态加密状态下进行,我们采取明文运算,在此过程中,我们将明文数据淹没在随机数组中,并随机选择计算方和目标数据识别方,以此来保护隐私数据不被泄露;不仅如此,由于方案中的加密技术采用同态加密,因此加密过程并不影响计算的正确性,而且数字信封和随机排序技术也不会对决策树生成过程产生影响,上述技术方案不仅不会影响计算结果的正确性,而且有限提高计算过程的复杂度,以此有效实现针对网络分类数据挖掘过程中隐私数据保护。
附图说明
图1为本发明设计分类数据挖掘系统中数据隐私保护方法的流程示意图。
具体实施方式
下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计的一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,在具体的实际应用过程当中,数据隐私保护方法具体包括如下步骤:
比如以下表中的一组天气数据作为处理数据:
outlook temperature humidity windy play
sunny hot high FALSE no
sunny hot high TRUE no
overcast hot high FALSE yes
rainy mild high FALSE yes
rainy cool normal FALSE yes
rainy cool normal TRUE no
overcast cool normal TRUE yes
sunny mild high FALSE no
sunny cool normal FALSE yes
rainy mild normal FALSE yes
sunny mild normal TRUE yes
overcast mild high TRUE yes
overcast hot normal FALSE yes
rainy mild high TRUE no
初始化,针对处理数据中的属性预设目标属性“play”,其余属性为候选属性“outlook”、“temperature”、“humidity”和“windy”,表示第i个参与方对应系统中所述处理数据中第l个候选属性中第tl个类别的类别数据,其中,i∈{1,…,I},I为参与方的总数,l∈{1,…,L},L为处理数据中候选属性的个数,在这里的实施例中,L=4,tl为对应处理数据中第l个候选属性中的第tl个类别,tl∈{1,…,Tl},Tl为处理数据中第l个候选属性对应的类别的总数,这其中,对应目标属性“play”的类别的总数为2,包括“yes”和“no”;对应候选属性“outlook”的类别的总数为3,包括“sunny”、“overcast”、“rainy”;对应候选属性“temperature”的类别的总数为3,包括“hot”、“mild”、“cool”;对应候选属性“humidity”的类别的总数为2,包括“high”、“normal”;对应候选属性“windy”的类别的总数为2,包括“TRUE”、“FALSE”;这其中,若第i个参与方所对应的各个候选属性当中不包括第l个候选属性,则
步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理数据中各个属性的信息熵,使得恶意参与方不能确定特定的数据,从而保护隐私数据的安全,其中,步骤001具体包括如下步骤:
步骤00101.第I个参与方PI随机产生加解密密钥(e,d),PI保存解密密钥d,并将加密密钥e分发给其他所有参与方。
步骤00102.第I个参与方PI通过加密密钥e,针对进行加密获得并将发送给第1个参与方P1
步骤00103.第1个参与方P1根据采用加密密钥e,通过针对进行加密获得并将发送给第2个参与方P2
步骤00104.第2个参与方P2按上述步骤同样的方式,针对进行加密获得依次方式类推,依序针对所有参与方,直至第(I-1)个参与方P(I-1)针对进行加密获得
步骤00105.第(I-1)个参与方P(I-1)根据分别计算获得其中,表示参与方对应处理数据第l个候选属性中第tl个类别的概率值,即针对l∈{1,…,L}和tl∈{1,…,Tl},获得参与方分别对应处理数据各个候选属性中各个类别的概率值
步骤00106.第(I-1)个参与方P(I-1)生成一组随机数R1,R2,…,RM,并且将与e(R1),e(R2),…,e(RM)随机排序,将序列发送至第I个参与方PI
步骤00107.第I个参与方PI根据解密密钥d,针对接收到的序列中的各个元素进行解密,并保持序列中元素顺序不变,针对各个元素进行处理获得发送至第1个参与方P1
步骤00108.第1个参与方P1针对接收到的序列中的各个元素分别加上随机数R,即发送至第(I-1)个参与方P(I-1)
步骤00109.第(I-1)个参与方P(I-1)计算并且将发送至第1个参与方P1
步骤00110.第1个参与方P1计算并发送至第(I-1)个参与方P(I-1)
步骤00111.第(I-1)个参与方P(I-1)根据获得
步骤00112.第(I-1)个参与方P(I-1)针对处理数据中所有的候选属性,l∈{1,…,L},分别按上述步骤00101至步骤00111,分别获得对应各个候选属性的
步骤00113.第(I-1)个参与方P(I-1)根据分别对应各个候选属性的针对对应候选属性的所有类别tl∈{1,…,Tl},按如下公式:
e ( Entropy ( S l ) ) = Π t l = 1 T l e ( Q lt l log ( Q lt l ) ) = e ( Σ t l = 1 T l Q lt l log ( Q lt l ) )
计算获得e(Entropy(Sl)),其中,Entropy(Sl)为处理数据中第l个候选属性的信息熵,进而针对l∈{1,…,L},分别获得处理数据中各个候选属性的信息熵,S为处理数据中所有属性的集合。
步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息增益,这种方式能够防止恶意参与方和其它实体截获数据,由于信息增益计算过程需要在明文的环境中进行,我们用随机排序技术,将目标明文淹没在随机数组中,确保恶意攻击者不能得到或辨识隐私数据;其中,步骤002具体包括如下步骤:
步骤00201.第(I-1)个参与方P(I-1)向第1个参与方P1发送e(|Sl|),其中Sl表示处理数据中第l个候选属性,|Sl|表示处理数据第l个候选属性中所包含类别数据的数量。
步骤00202.第1个参与方P1计算 e ( | S l | ) 1 S = e ( | S l | | S | ) , 并计算 e ( | S l | | S | ) × e ( R ′ ) = e ( | S l | | S | + R ′ ) , 并将发送至第I个参与方PI,其中R'为参与方P1私有的一个随机数。
步骤00203.第I个参与方PI根据解密密钥d,针对进行解密获得并发送给第(I-1)个参与方P(I-1)
步骤00204.第(I-1)个参与方P(I-1)根据如下公式:
e ( Entropy ( S l ) ) ( | S l | | S | + R ′ ) = e ( | S l | | S | Entropy ( S l ) + R ′ Entropy ( S l ) )
计算获得并发送给第1个参与方P1
步骤00205.第1个参与方P1计算e(Entropy(Sl))-R'=e(-R'Entropy(Sl)),并将e(-R'Entropy(Sl))发送至第(I-1)个参与方P(I-1)
步骤00206.第(I-1)个参与方P(I-1)根据和e(-R'Entropy(Sl))获得
步骤00207.第(I-1)个参与方P(I-1)根据如下公式:
Π l = 1 L e ( | S l | | S | Entropy ( S l ) ) = e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) - 1 = e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
计算获得
步骤00208.第(I-1)个参与方P(I-1)根据如下公式:
e ( Gain ( S l , S ) ) = e ( Entropy ( S v ) ) × e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) )
计算获得处理数据第l个候选属性的信息增益Gain(Sl,S),进而针对l∈{1,…,L},分别获得处理数据各个候选属性的信息增益,其中,Sv为处理数据中的目标属性,Entropy(Sv)的计算方法参照上述步骤针对候选属性计算Entropy(Sl)的方法。
步骤003.针对处理数据中各个属性的信息增益进行比较,获得最大信息增益所对应的属性,将该属性作为最佳分裂属性,以最佳分裂属性为节点进行分裂,这种方式使得各参与方除了最终的比较结果以外,不能获取其它参与方的任何数据知识,从而有效的保护了数据隐私;其中,步骤003具体包括如下步骤:
步骤00301.第I个参与方PI重新随机产生加解密密钥(e',d'),PI保存解密密钥d',并将加密密钥e'分发给其他所有参与方。
步骤00302.第I个参与方PI根据l∈{1,…,L},针对各个候选属性的信息增益Gain(Sl,S),分别进行加密e'(ml),并发送至第(I-1)个参与方P(I-1),其中,ml=Gain(Sl,S)。
步骤00303.第(I-1)个参与方P(I-1)随机生成队列通过加密秘钥e',针对随机队列中的每一个元素进行加密,更新队列再针对对应各个候选属性的e'(ml),计算e'(ml)×e'(mj)-1=e'(ml-mj),并将e'(ml-mj)进行随机扰动后添加至队列中,将队列发送至第I个参与方PI,其中,j∈{1,…,L},且l<j。
步骤00304.第I个参与方PI根据解密密钥d',分别针对序列中的各个元素进行解密,如果结果大于0,则扰动表对应元素为+1,如果结果小于0,则对应的元素为-1,获得一个由+1和-1组成的差分矩阵发送至第(I-1)个参与方P(I-1)
步骤00305.第(I-1)个参与方P(I-1)针对差分矩阵中每一个ml,将每一个ml对应候选属性中所所有类别数据进行相加,依次针对所有ml按大小进行排序。
步骤00306.第(I-1)个参与方P(I-1)根据ml的排序结果,获得最大信息增益所对应的候选属性,将该候选属性作为最佳分裂属性,并P(I-1)将最佳分裂属性发送至其它所有参与方,由任何一个参与方以最佳分裂属性为节点进行分裂。
步骤004.判断是否满足终止分裂条件,是则结束,否则返回步骤001。
上述技术方案设计的分类数据挖掘系统中数据隐私保护方法,基于保护隐私的ID3分类模型,采用全同态加密算法的方案,其中,采用同态加密系统对各参与方的私有数据进行加密,这样参与决策树生成和挖掘运算的将会是加密后的密文,合作计算过程中各方传输的也是加密后的结果,恶意攻击者即使截获密文也无从知晓报文的涵义,从而使攻击者无从知晓私密数据,并且,同态加密技术可以保证在普通的求加法和乘法运算的过程中,我们的运算在密文状态下进行,有效保护各参与方的数据隐私;同时,在计算信息增益的过程中,由于需要进行指数运算,无法在同态加密状态下进行,我们采取明文运算,在此过程中,我们将明文数据淹没在随机数组中,并随机选择计算方和目标数据识别方,以此来保护隐私数据不被泄露;不仅如此,由于方案中的加密技术采用同态加密,因此加密过程并不影响计算的正确性,而且数字信封和随机排序技术也不会对决策树生成过程产生影响,上述技术方案不仅不会影响计算结果的正确性,而且有限提高计算过程的复杂度,以此有效实现针对网络分类数据挖掘过程中隐私数据保护。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,其特征在于,数据隐私保护方法包括如下步骤:
步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理数据中各个属性的信息熵;
步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息增益;
步骤003.针对处理数据中各个属性的信息增益进行比较,获得最大信息增益所对应的属性,将该属性作为最佳分裂属性,以最佳分裂属性为节点进行分裂;
步骤004.判断是否满足终止分裂条件,是则结束,否则返回步骤001。
2.根据权利要求1所述一种分类数据挖掘系统中数据隐私保护方法,其特征在于,所述步骤001之前,初始化,针对处理数据中的属性预设目标属性,其余属性为候选属性,表示第i个参与方对应系统中所述处理数据中第l个候选属性中第tl个类别的类别数据,其中,i∈{1,…,I},I为参与方的总数,l∈{1,…,L},L为处理数据中候选属性的个数,tl为对应处理数据中第l个候选属性中的第tl个类别,tl∈{1,…,Tl},Tl为处理数据中第l个候选属性对应的类别的总数;并且,若第i个参与方所对应的各个候选属性当中不包括第l个候选属性,则
所述步骤001具体包括如下步骤:
步骤00101.第I个参与方PI随机产生加解密密钥(e,d),PI保存解密密钥d,并将加密密钥e分发给其他所有参与方;
步骤00102.第I个参与方PI通过加密密钥e,针对进行加密获得并将发送给第1个参与方P1
步骤00103.第1个参与方P1根据采用加密密钥e,通过针对进行加密获得并将发送给第2个参与方P2
步骤00104.第2个参与方P2按上述步骤同样的方式,针对进行加密获得依次方式类推,依序针对所有参与方,直至第(I-1)个参与方P(I-1)针对进行加密获得
步骤00105.第(I-1)个参与方P(I-1)根据A1l1A2l1…A(I-1)l1AIl1、…、分别计算获得其中,表示参与方对应处理数据第l个候选属性中第tl个类别的概率值,即针对l∈{1,…,L}和tl∈{1,…,Tl},获得参与方分别对应处理数据各个候选属性中各个类别的概率值
步骤00106.第(I-1)个参与方P(I-1)生成一组随机数R1,R2,…,RM,并且将与e(R1),e(R2),…,e(RM)随机排序,将序列发送至第I个参与方PI
步骤00107.第I个参与方PI根据解密密钥d,针对接收到的序列中的各个元素进行解密,并保持序列中元素顺序不变,针对各个元素进行处理获得log(R1),log(R2),…,log(RM),发送至第1个参与方P1
步骤00108.第1个参与方P1针对接收到的序列中的各个元素分别加上随机数R,即log(R1)+R,log(R2)+R,…,log(RM)+R,发送至第(I-1)个参与方P(I-1)
步骤00109.第(I-1)个参与方P(I-1)计算并且将发送至第1个参与方P1
步骤00110.第1个参与方P1计算并发送至第(I-1)个参与方P(I-1)
步骤00111.第(I-1)个参与方P(I-1)根据获得 e ( Q lt l log ( Q lt l ) ) ;
步骤00112.第(I-1)个参与方P(I-1)针对处理数据中所有的候选属性,l∈{1,…,L},分别按上述步骤00101至步骤00111,分别获得对应各个候选属性的
步骤00113.第(I-1)个参与方P(I-1)根据分别对应各个候选属性的针对对应候选属性的所有类别tl∈{1,…,Tl},按如下公式:
e ( Entropy ( S l ) ) = Π t l = 1 T l e ( Q lt l log ( Q lt l ) ) = e ( Σ t l = 1 T l Q lt l log ( Q lt l ) )
计算获得e(Entropy(Sl)),其中,Entropy(Sl)为处理数据中第l个候选属性的信息熵,进而针对l∈{1,…,L},分别获得处理数据中各个候选属性的信息熵,S为处理数据中所有属性的集合。
3.根据权利要求2所述一种分类数据挖掘系统中数据隐私保护方法,其特征在于,所述步骤002具体包括如下步骤:
步骤00201.第(I-1)个参与方P(I-1)向第1个参与方P1发送e(|Sl|),其中Sl表示处理数据中第l个候选属性,|Sl|表示处理数据第l个候选属性中所包含类别数据的数量;
步骤00202.第1个参与方P1计算并计算并将发送至第I个参与方PI,其中R'为参与方P1私有的一个随机数;
步骤00203.第I个参与方PI根据解密密钥d,针对进行解密获得并发送给第(I-1)个参与方P(I-1)
步骤00204.第(I-1)个参与方P(I-1)根据如下公式:
e ( Entropy ( S l ) ) ( | S l | | S | + R ′ ) = e ( | S l | | S | Entropy ( S l ) + R ′ Entropy ( S l ) )
计算获得并发送给第1个参与方P1
步骤00205.第1个参与方P1计算e(Entropy(Sl))-R'=e(-R'Entropy(Sl)),并将e(-R'Entropy(Sl))发送至第(I-1)个参与方P(I-1)
步骤00206.第(I-1)个参与方P(I-1)根据和e(-R'Entropy(Sl))获得
步骤00207.第(I-1)个参与方P(I-1)根据如下公式:
Π l = 1 L e ( | S l | | S | Entropy ( S l ) ) = e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
e ( Σ l = 1 L | S l | | S | Entropy ( S l ) ) - 1 = e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) ) ;
计算获得
步骤00208.第(I-1)个参与方P(I-1)根据如下公式:
e ( Gain ( S l , S ) ) = e ( Entropy ( S v ) ) × e ( - Σ l = 1 L | S l | | S | Entropy ( S l ) )
计算获得处理数据第l个候选属性的信息增益Gain(Sl,S),进而针对l∈{1,…,L},分别获得处理数据各个候选属性的信息增益,其中,Sv为处理数据中的目标属性,Entropy(Sv)的计算方法参照上述步骤针对候选属性计算Entropy(Sl)的方法。
4.根据权利要求3所述一种分类数据挖掘系统中数据隐私保护方法,其特征在于,所述步骤003具体包括如下步骤:
步骤00301.第I个参与方PI重新随机产生加解密密钥(e',d'),PI保存解密密钥d',并将加密密钥e'分发给其他所有参与方;
步骤00302.第I个参与方PI根据l∈{1,…,L},针对各个候选属性的信息增益Gain(Sl,S),分别进行加密e'(ml),并发送至第(I-1)个参与方P(I-1),其中,ml=Gain(Sl,S);
步骤00303.第(I-1)个参与方P(I-1)随机生成队列通过加密秘钥e',针对随机队列中的每一个元素进行加密,更新队列再针对对应各个候选属性的e'(ml),计算e'(ml)×e'(mj)-1=e'(ml-mj),并将e'(ml-mj)进行随机扰动后添加至队列中,将队列发送至第I个参与方PI,其中,j∈{1,…,L},且l<j;
步骤00304.第I个参与方PI根据解密密钥d',分别针对序列中的各个元素进行解密,如果结果大于0,则扰动表对应元素为+1,如果结果小于0,则对应的元素为-1,获得一个由+1和-1组成的差分矩阵发送至第(I-1)个参与方P(I-1)
步骤00305.第(I-1)个参与方P(I-1)针对差分矩阵中每一个ml,将每一个ml对应候选属性中所所有类别数据进行相加,依次针对所有ml按大小进行排序;
步骤00306.第(I-1)个参与方P(I-1)根据ml的排序结果,获得最大信息增益所对应的候选属性,将该候选属性作为最佳分裂属性,由任何一个参与方以最佳分裂属性为节点进行分裂。
5.根据权利要求4所述一种分类数据挖掘系统中数据隐私保护方法,其特征在于,所述步骤00306中,第(I-1)个参与方P(I-1)将最佳分裂属性发送至其它所有参与方。
CN201510061632.3A 2015-02-05 2015-02-05 一种分类数据挖掘系统中数据隐私保护方法 Active CN104601596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510061632.3A CN104601596B (zh) 2015-02-05 2015-02-05 一种分类数据挖掘系统中数据隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510061632.3A CN104601596B (zh) 2015-02-05 2015-02-05 一种分类数据挖掘系统中数据隐私保护方法

Publications (2)

Publication Number Publication Date
CN104601596A true CN104601596A (zh) 2015-05-06
CN104601596B CN104601596B (zh) 2017-09-22

Family

ID=53127101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510061632.3A Active CN104601596B (zh) 2015-02-05 2015-02-05 一种分类数据挖掘系统中数据隐私保护方法

Country Status (1)

Country Link
CN (1) CN104601596B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915608A (zh) * 2015-05-08 2015-09-16 南京邮电大学 一种信息物理融合系统隐私保护型数据分类方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法
CN107135061A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种5g通信标准下的分布式隐私保护机器学习方法
CN107145792A (zh) * 2017-04-07 2017-09-08 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN110176983A (zh) * 2019-05-22 2019-08-27 西安电子科技大学 基于全同态加密的隐私保护关联规则挖掘方法
CN111191738A (zh) * 2018-11-16 2020-05-22 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN111222158A (zh) * 2019-11-07 2020-06-02 杭州趣链科技有限公司 一种基于区块链的两方安全隐私比较方法
CN111931243A (zh) * 2020-10-09 2020-11-13 北京微智信业科技有限公司 一种基于全同态加密的排序方法
WO2021000572A1 (zh) * 2019-07-01 2021-01-07 创新先进技术有限公司 数据处理方法、装置和电子设备
CN113094751A (zh) * 2021-04-21 2021-07-09 山东大学 一种个性化隐私数据处理方法、装置、介质及计算机设备
CN115587139A (zh) * 2022-11-03 2023-01-10 国网江苏省电力有限公司营销服务中心 一种基于同态加密的分布式隐私保护分类方法及系统
CN111191738B (zh) * 2018-11-16 2024-06-21 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100024042A1 (en) * 2008-07-22 2010-01-28 Sara Gatmir Motahari System and Method for Protecting User Privacy Using Social Inference Protection Techniques
CN101814119A (zh) * 2010-02-13 2010-08-25 武汉理工大学 具有隐私保护的用户模型构建方法
CN102999789A (zh) * 2012-11-19 2013-03-27 浙江工商大学 一种基于隐半马尔科夫模型的数字化城市安全预警方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100024042A1 (en) * 2008-07-22 2010-01-28 Sara Gatmir Motahari System and Method for Protecting User Privacy Using Social Inference Protection Techniques
CN101814119A (zh) * 2010-02-13 2010-08-25 武汉理工大学 具有隐私保护的用户模型构建方法
CN102999789A (zh) * 2012-11-19 2013-03-27 浙江工商大学 一种基于隐半马尔科夫模型的数字化城市安全预警方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915608B (zh) * 2015-05-08 2018-07-27 南京邮电大学 一种信息物理融合系统隐私保护型数据分类方法
CN104915608A (zh) * 2015-05-08 2015-09-16 南京邮电大学 一种信息物理融合系统隐私保护型数据分类方法
CN106778314A (zh) * 2017-03-01 2017-05-31 全球能源互联网研究院 一种基于k‑means的分布式差分隐私保护方法
CN107145792B (zh) * 2017-04-07 2020-09-15 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN107145792A (zh) * 2017-04-07 2017-09-08 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN107135061A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种5g通信标准下的分布式隐私保护机器学习方法
CN111191738A (zh) * 2018-11-16 2020-05-22 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN111191738B (zh) * 2018-11-16 2024-06-21 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN110176983A (zh) * 2019-05-22 2019-08-27 西安电子科技大学 基于全同态加密的隐私保护关联规则挖掘方法
CN110176983B (zh) * 2019-05-22 2021-09-03 西安电子科技大学 基于全同态加密的隐私保护关联规则挖掘方法
WO2021000572A1 (zh) * 2019-07-01 2021-01-07 创新先进技术有限公司 数据处理方法、装置和电子设备
CN111222158A (zh) * 2019-11-07 2020-06-02 杭州趣链科技有限公司 一种基于区块链的两方安全隐私比较方法
CN111931243B (zh) * 2020-10-09 2021-01-19 北京微智信业科技有限公司 一种基于全同态加密的排序方法
CN111931243A (zh) * 2020-10-09 2020-11-13 北京微智信业科技有限公司 一种基于全同态加密的排序方法
CN113094751A (zh) * 2021-04-21 2021-07-09 山东大学 一种个性化隐私数据处理方法、装置、介质及计算机设备
CN115587139A (zh) * 2022-11-03 2023-01-10 国网江苏省电力有限公司营销服务中心 一种基于同态加密的分布式隐私保护分类方法及系统
CN115587139B (zh) * 2022-11-03 2024-03-22 国网江苏省电力有限公司营销服务中心 一种基于同态加密的分布式隐私保护分类方法及系统

Also Published As

Publication number Publication date
CN104601596B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN104601596B (zh) 一种分类数据挖掘系统中数据隐私保护方法
Xing et al. Mutual privacy preserving $ k $-means clustering in social participatory sensing
Zhang et al. Gan enhanced membership inference: A passive local attack in federated learning
CN112714106B (zh) 一种基于区块链的联邦学习搭便车攻击防御方法
CN105046161B (zh) 基于dna动态编码的彩色图像加密方法
CN106972927B (zh) 一种针对不同安全等级的加密方法及系统
CN108898025A (zh) 基于双重置乱和dna编码的混沌图像加密方法
CN112966283B (zh) 基于多方集合求交集的垂直分区数据pparm方法
CN107135061B (zh) 一种5g通信标准下的分布式隐私保护机器学习方法
CN107342990A (zh) 一种分布式授权的属性基网络环签名方法
Hua et al. Image encryption using 2D Logistic-Sine chaotic map
CN112560059B (zh) 一种基于神经通路特征提取的垂直联邦下模型窃取防御方法
CN108600574A (zh) 以Faster R-CNN’s为基础的秘密分享方法
Lidkea et al. Convolutional neural network framework for encrypted image classification in cloud-based ITS
CN108259185A (zh) 一种群组通信中抗泄漏的群密钥协商系统及方法
CN105007270B (zh) 格上多权威的密钥策略基于属性的加密方法
CN104915608A (zh) 一种信息物理融合系统隐私保护型数据分类方法
CN113688408A (zh) 一种基于安全多方计算的最大信息系数方法
William et al. Secure Authentication Protocols For Internet Of Things (Iot) Devices
CN115766962A (zh) 一种基于五维保守超混沌系统的多密钥图像加密方法
Wang et al. Information privacy protection based on verifiable (t, n)-Threshold multi-secret sharing scheme
Sam et al. Chaos based image encryption scheme based on enhanced logistic map
CN112532383A (zh) 一种基于秘密分享的隐私保护计算方法
Nguyen et al. Blockchain-based secure client selection in federated learning
CN116663052A (zh) 多方协作下的电力数据隐私保护方法、系统、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant