CN106503575B - 一种分布式关联规则挖掘隐私信息保护方法 - Google Patents
一种分布式关联规则挖掘隐私信息保护方法 Download PDFInfo
- Publication number
- CN106503575B CN106503575B CN201610844383.XA CN201610844383A CN106503575B CN 106503575 B CN106503575 B CN 106503575B CN 201610844383 A CN201610844383 A CN 201610844383A CN 106503575 B CN106503575 B CN 106503575B
- Authority
- CN
- China
- Prior art keywords
- private key
- website
- sub
- association rules
- party
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种分布式关联规则挖掘隐私信息保护方法。算法应用差分隐私算法与同态加密技术,引入半可信第三方,将各站点的数据集匿名化,利用Paillier算法计算全局支持数,利用Shamir秘密共享技术将Paillier算法的解密密钥分解发送到各站点。本发明提出的算法具有站点之间无须通信、支持数传输安全、第三方难以计算站点信息等优点。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种分布式关联规则挖掘隐私信息保护方法。
背景技术
伴随着数据挖掘技术在各个领域的广泛应用,数据挖掘对用户的隐私和数据安全所造成的威胁越来越引起人们的关注。在涉及企业敏感数据(如电子病历中包含的医院医疗业务或财务状况)或个人隐私信息(如电子病历中包含的患者隐私病症)的各种数据挖掘日常应用中,对于如何提高数据的安全性引起了学者的广泛关注。
目前国内外的隐私保护数据挖掘算法主要有基于数据扰乱的、基于查询限制等方法,在分布式环境下主要有基于查询限制或数据扰乱和查询限制混合使用等方法。数据扰乱首先通过数据离散化、数据随机变换和增加噪声等操作对原始数据进行干扰,对干扰后的数据进行挖掘,减少挖掘中隐私的泄漏;查询限制则是通过数据隐藏、抽样、划分或加密等方式,再利用概率统计或分布式计算的方法得到挖掘结果,以达到保护数据的目的。目前分布式环境下关联规则挖掘隐私保护算法较多的使用同态加密技术,该技术最主要的特点是对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。在将该技术运用在分布式关联规则挖掘中时,私钥拥有者容易通过两两计算站点的信息,获得足够多的方程组后,解出各站点数据集中项集的支持度信息造成隐私泄漏。
发明内容
针对现有技术存在的不足,本发明提出一种分布式关联规则挖掘隐私信息保护方法,增强在水平分布式环境下关联规则挖掘中各站点支持度和个体信息的安全性。
一种分布式关联规则挖掘隐私信息保护方法,其特征包含于以下步骤:
1)各站点使用差分隐私算法对各自拥有的数据集进行匿名化操作;
2)引入的半可信第三方利用Shamir秘密共享算法将产生的私钥分解成n+1个子私钥;
3)第三方将n个子私钥分别发送给各站点(共n个站点),把原始私钥重置为第n+1个子私钥的值skn+1;
4)第三方将所有的子私钥重构成原私钥,对各站点发送过来的支持度矩阵进行解密;
5)第三方对支持度矩阵解密完成后,将原私钥重置为第n+1个子私钥的值skn+1。
附图说明
图1是算法流程图
图2是分布式数据挖掘框架
具体实施方式
该方法思想如下:
(1)在对数据进行挖掘前,各站点对各自拥有的原始数据集D使用差分隐私保护算法进行匿名化处理,构成匿名化数据集D’。
(2)引入半可信第三方,第三方产生使用同态加密算法时所需的公钥私钥对(pk,sk),利用Shamir秘密共享算法将私钥分解成n+1个子私钥,赋值sk为skn+1并将公钥子私钥对分别发送给各站点。
(3)各站点计算出k-项集的本地支持数,构成行矩阵,使用公钥pk对该矩阵M进行同态加密,形成新的行矩阵E(M),将E(M)连同子私钥一并发送给第三方。
(4)第三方整合各站点发来的所有矩阵,利用Shamir算法还原私钥sk,计算k-项集(包含k个项的项集)的全局支持数,利用Shamir算法对私钥再次进行分解,重置sk=skn+1,根据Apriori数据挖掘算法,最终得出关联规则。
下面结合实施例子及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
现设定有三个数据集D1、D2、D3分别分布在三个站点S1、S2、S3中,具体数据集见表1-表3。最小支持度为min_sup,最小置信度为min_conf,挖掘框架如图2所示。
表1原始数据集D1示例
表2原始数据集D2示例
表3原始数据集D3示例
1)站点S1、S2、S3使用差分隐私算法将站点内数据集进行匿名化,得到经过差分隐私算法执行后的数据集(见表4-表6);
表4匿名化后数据集D1′示例
表5匿名化后数据集D2′示例
表6匿名化后数据集D3′示例
2)第三方DC产生公钥和私钥(pk,sk),利用Shamir密钥共享方法将私钥sk分解成4个子密钥ski(1≤i≤4),并将sk赋值为sk4;
3)DC将(pk,ski)发送给各站点;
4)各站点并行计算1-项集的支持数,使用pk将1-项集支持数利用Paillier同态加密算法进行加密,构成行矩阵将该行矩阵和ski一同发送给DC;
5)DC将各站点发送过来的行矩阵相加,并将ski合并到sk, 用私钥sk解密得并重置sk=sk4。若Sup1大于min_sup*|D|(|D|为各站点总事务数之和),则该候选1-项集为全局频繁1-项集;
6)DC使用关联规则挖掘算法Apriori生成全局2-项集;
7)若全局频繁1-项集的数目不等于零,转到第4步,否则继续执行下一步;
8)各站点统计出2-项集的支持数,以同样的方式发送给DC;
9)DC将所有的候选频繁项集支持度与给定的最小置信度进行比较,候选频繁项集支持度大于min_conf的,则为关联规则,否则丢弃;
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (6)
1.一种分布式关联规则挖掘隐私信息保护方法,其特征包含于以下步骤:
1)各站点使用差分隐私算法对各自拥有的数据集进行匿名化操作;
2)引入的半可信第三方利用Shamir秘密共享算法将产生的原私钥sk分解成n+1个子私钥;
3)第三方将n个子私钥分别发送给各站点,把原私钥sk重置为第n+1个子私钥的值skn+1;
4)第三方将所有的子私钥重构成原私钥sk,对各站点发送过来的支持度矩阵进行解密;
5)第三方对支持度矩阵解密完成后,将原私钥sk重置为第n+1个子私钥的值skn+1;
所述的一种分布式关联规则挖掘隐私信息保护方法具体为:各站点计算出k-项集的本地支持数,构成行矩阵M,使用公钥pk对该矩阵M进行同态加密,形成新的矩阵E(M),将E(M)连同子私钥一并发送给第三方。
2.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法,其特征在于:各站点使用差分隐私算法匿名化拥有的数据集,得到一个新的匿名化表,后续计算项集支持度时根据该表计算。
3.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方将生成的原私钥sk分解成n+1个子私钥ski(1≤i≤n+1)。
4.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方将子私钥ski分别发送给各站点,并将原私钥sk赋值为skn+1。
5.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方从各站点发送的包中获取子私钥ski,使用这些子私钥和第三方自身拥有的子私钥skn+1重构原私钥sk,并使用sk对从各站点发送过来的矩阵相加后的结果进行解密。
6.根据权利要求1所述的一种分布式关联规则挖掘隐私信息保护方法,其特征在于:第三方完成解密操作后,将原私钥sk重置为第n+1个子私钥的值skn+1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610844383.XA CN106503575B (zh) | 2016-09-22 | 2016-09-22 | 一种分布式关联规则挖掘隐私信息保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610844383.XA CN106503575B (zh) | 2016-09-22 | 2016-09-22 | 一种分布式关联规则挖掘隐私信息保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106503575A CN106503575A (zh) | 2017-03-15 |
CN106503575B true CN106503575B (zh) | 2019-03-05 |
Family
ID=58290299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610844383.XA Active CN106503575B (zh) | 2016-09-22 | 2016-09-22 | 一种分布式关联规则挖掘隐私信息保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503575B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203725A (zh) * | 2017-05-23 | 2017-09-26 | 广东工业大学 | 一种垂直分布式关联规则挖掘隐私信息保护方法 |
CN108022654B (zh) * | 2017-12-20 | 2021-11-30 | 深圳先进技术研究院 | 一种基于隐私保护的关联规则挖掘方法、系统及电子设备 |
CN108449317B (zh) * | 2018-02-08 | 2020-07-07 | 湘潭大学 | 一种基于sgx与同态加密进行安全验证的门禁系统及其实现方法 |
CN108520182A (zh) * | 2018-04-09 | 2018-09-11 | 哈尔滨工业大学深圳研究生院 | 一种基于差分隐私和关联规则的需求隐私保护方法 |
CN108920714B (zh) * | 2018-07-26 | 2021-10-01 | 上海交通大学 | 一种分布式环境下隐私保护的关联规则挖掘方法和系统 |
CN110471957B (zh) * | 2019-08-16 | 2021-10-26 | 安徽大学 | 基于频繁模式树的本地化差分隐私保护频繁项集挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866405A (zh) * | 2010-06-23 | 2010-10-20 | 江苏大学 | 一种关联规则挖掘中隐私数据的保护方法 |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
CN105825226A (zh) * | 2016-03-11 | 2016-08-03 | 江苏畅远信息科技有限公司 | 一种基于关联规则的分布式多标签图像识别方法 |
-
2016
- 2016-09-22 CN CN201610844383.XA patent/CN106503575B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101866405A (zh) * | 2010-06-23 | 2010-10-20 | 江苏大学 | 一种关联规则挖掘中隐私数据的保护方法 |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
CN105825226A (zh) * | 2016-03-11 | 2016-08-03 | 江苏畅远信息科技有限公司 | 一种基于关联规则的分布式多标签图像识别方法 |
Non-Patent Citations (3)
Title |
---|
A Comprehensive Comparison of Multiparty Secure Additions with Differential Privacy;Slawomir Goryczka et al;《 IEEE Transactions on Dependable and Secure Computing》;20151001;第15卷(第5期);全文 |
一种分布式事务数据的差分隐私发布策略;欧阳佳 等;《软件学报》;20150630;第26卷(第6期);第1457-1472页 |
面向数据发布和挖掘的隐私保护研究进展;王娇 等;《网路与信息安全学报》;20160131;第2卷(第1期);第18-26页 |
Also Published As
Publication number | Publication date |
---|---|
CN106503575A (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503575B (zh) | 一种分布式关联规则挖掘隐私信息保护方法 | |
Talhaoui et al. | A new fractional one dimensional chaotic map and its application in high-speed image encryption | |
Kim et al. | Secure and differentially private logistic regression for horizontally distributed data | |
Shen et al. | A secure cloud-assisted urban data sharing framework for ubiquitous-cities | |
Kim et al. | Efficient privacy-preserving matrix factorization via fully homomorphic encryption | |
Guo et al. | A new data clustering strategy for enhancing mutual privacy in healthcare IoT systems | |
US8843762B2 (en) | Cryptographic system for performing secure iterative computations and signal processing directly on encrypted data in untrusted environments | |
Liu et al. | Toward highly secure yet efficient KNN classification scheme on outsourced cloud data | |
Kumar et al. | IEHC: An efficient image encryption technique using hybrid chaotic map | |
US8433925B2 (en) | Cryptographic system for performing secure computations and signal processing directly on encrypted data in untrusted environments | |
CN107203725A (zh) | 一种垂直分布式关联规则挖掘隐私信息保护方法 | |
Liu et al. | A novel robust watermarking algorithm for encrypted medical image based on DTCWT-DCT and chaotic map | |
Wu et al. | Secure and efficient outsourced k-means clustering using fully homomorphic encryption with ciphertext packing technique | |
CN110059501B (zh) | 一种基于差分隐私的安全外包机器学习方法 | |
US20110060901A1 (en) | Cryptographic System for Performing Secure Iterative Matrix Inversions and Solving Systems of Linear Equations | |
Gupta et al. | A confidentiality preserving data leaker detection model for secure sharing of cloud data using integrated techniques | |
Sajjad et al. | An efficient privacy preserving protocol for dynamic continuous data collection | |
Kim et al. | A privacy-preserving k-means clustering algorithm using secure comparison protocol and density-based center point selection | |
CN114598472A (zh) | 基于区块链的条件隐藏可搜索代理重加密方法及存储介质 | |
CN110198216B (zh) | 一种保护隐私的增量真值发现方法、装置、计算机设备及存储介质 | |
EP2317689B1 (en) | Cryptographic system for performing secure computations and signal processing directly on encrypted data in untrusted environments | |
Hassan et al. | A lightweight proxy Re-encryption approach with certificate-based and incremental cryptography for fog-enabled E-healthcare | |
Shin et al. | Securing a local training dataset size in federated learning | |
Huang et al. | Privacy preserving IoT-based crowd-sensing network with comparable homomorphic encryption and its application in combating COVID19 | |
Guo et al. | Research on medical data security sharing scheme based on homomorphic encryption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |