CN103605749A - 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 - Google Patents
一种基于多参数干扰的隐私保护关联规则数据挖掘方法 Download PDFInfo
- Publication number
- CN103605749A CN103605749A CN201310591116.2A CN201310591116A CN103605749A CN 103605749 A CN103605749 A CN 103605749A CN 201310591116 A CN201310591116 A CN 201310591116A CN 103605749 A CN103605749 A CN 103605749A
- Authority
- CN
- China
- Prior art keywords
- mtd
- msub
- mtr
- msubsup
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000007418 data mining Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000005065 mining Methods 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000004792 malaria Diseases 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法,包括:将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则。与现有技术相比,本发明实现了数据干扰策略和查询限制策略的相互结合,克服了两个策略本身存在的缺陷,提高了隐私保护程度;根据矩阵分块思想发现了概率逆矩阵之间的递推关系,避免了先求出概率矩阵再计算其逆矩阵的繁琐过程,基于集合原理优化计数过程,消除了计数过程中的指数级时间复杂度,很大地提高了方法执行效率。
Description
技术领域
本发明涉及数据挖掘中隐私数据的保护技术,尤其是涉及一种基于多参数干扰的隐私保护关联规则数据挖掘方法。
背景技术
数据挖掘技术通过融合人工智能、统计学和数据库管理等传统数据分析方法可以从大规模数据集中提取出隐藏的规则和模式,从而为相关部门提供有效决策支持。当数据挖掘发挥越来越大的作用时,随之也带来了隐私方面的问题。比如说疾病控制中心可以通过分析医院病人的病历信息得到疾病间的关系(成年女性患疟疾的同时可能会患有肺结核)。但是数据挖掘技术是基于真实的数据上进行的,无法有效地保护病人所患疾病等隐私信息。与此同时,这些敏感的信息恰恰是医院和病人不想泄露的。再例如,两个公司共享各自数据库进行合作挖掘,得出对双方都有用的信息,但是企业往往不愿意公布自己的真实数据给合作方以免泄露自己的企业机密。隐私保护数据挖掘技术就是为了解决上述问题而产生的。
隐私保护数据挖掘的目标就是在保证数据挖掘的同时尽可能地保护隐私数据,在无法获得精确数据的情况下,却能够得到准确的模型和分析结果。基于隐私保护的关联规则挖掘是隐私保护数据挖掘中最活跃的研究方向之一。申请号为201010209518.8的中国专利公开了一种面向关联规则挖掘的隐私数据保护方法,该方法保护了隐私数据在传输过程中的安全性,但在挖掘前仍要恢复原始数据,存在泄漏隐私的风险。2009年王锐提出了MRD算法,提高了关联规则挖掘过程中的隐私保护度,但是运行时间效率不高。2010年沈中林提出了改进的隐私保护关联规则挖掘算法,通过分治策略对MASK算法进行改进,提高了运行时间效率但隐私保护程度低。现有的隐私保护关联规则挖掘方法普遍存在着时间复杂度高、隐私保护程度低等缺点,很难将其应用到实际中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多参数干扰的隐私保护关联规则数据挖掘方法,该方法结合数据干扰和查询限制策略,通过设置不同的参数对原始数据进行不同的处理,实现了对隐私数据更有效的保护,数据挖掘的对象是干扰后的数据,而且在重构过程中引入集合原理,依据扰动参数对数据的真实支持度进行重构以获得频繁项集,消除了额外的计数开销,提高了执行效率。
本发明的目的可以通过以下技术方案来实现:一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。
实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1;
其中,表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1; 表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln;
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1。
其中,
52)再通过集合原理的公式,得出其余元组在任意n-项集中出现的次数,
与现有技术相比,本发明具有以下优点:
1、数据干扰和查询限制策略的结合:本发明方法通过采用多参数扰动,根据不同参数对数据进行不同处理,既可以变换数据项也可以隐藏数据项,实现了数据干扰策略和查询限制策略的相互结合,克服了两个策略本身存在的缺陷,提高了隐私保护程度。
2、概率矩阵求逆的优化:在根据公式进行支持度重构过程中,求解概率逆矩阵的效率严重影响整个挖掘方法的执行性能,本发明方法根据矩阵分块思想发现了概率逆矩阵之间的递推关系,从而简化了求解过程,只需要求一次概率逆矩阵,后面的逆矩阵均可通过递推公式直接获得,避免了先求出概率矩阵再计算其逆矩阵的繁琐过程,提高了方法执行效率。
3、基于集合原理优化计数过程:由于本发明方法的挖掘对象是干扰后的数据,支持度重构的过程比较复杂,本方法通过集合原理可以优化项集计数过程,只需查询那些项集全为“1”的个数,其它组合的个数可以通过基于集合原理的公式计算出来,消除了计数过程中的指数级时间复杂度,方法执行效率获得了很大改进。
附图说明
图1为本发明随机扰乱原始数据集得到干扰后数据集的流程图;
图2为本发明项集支持度重构获得频繁项集的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则。
如图1所示,实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
如图2所示,实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1;
其中,表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1; 表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln;
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1。
其中,
由于本发明方法是在干扰后数据集中进行挖掘的,支持度重构的过程比较复杂。例如,原始数据项000经过干扰后可能变成000,001,010,100,011,110,101,111中的任意一种,而在重构n-项集支持度时必须考虑到2n种情况,即需要扫描2n次数据集来得到2n种组合的个数。本发明方法通过集合原理可以优化计数过程,只需查询那些项集全为“1”的个数,其它组合的个数可以通过基于集合原理的公式计算出来。
52)再通过集合原理的公式,得出其余元组在任意n-项集中出现的次数,
以2-项集为例,a和b分别表示候选2-项集中的元素,那么‘11’元组的个数可以表示成I(a∩b),‘10’元组的个数可以表示成‘01’元组的个数可以表示成‘00’元组的个数可以表示成我们只需要扫描‘11’元组的个数,运用以上的集合公式我们可以得到其它组合的个数:
以3-项集为例,a,b和c分别表示候选3-项集中的元素,运用以上公式我们可以得到:
实施例:
如表1所示,原始数据集由3个项目和10个数据记录组成,最小支持度阈值设为2。
表1原始数据集
ID | A | B | C |
1 | 1 | 1 | 0 |
2 | 0 | 1 | 0 |
3 | 0 | 1 | 1 |
4 | 1 | 1 | 0 |
5 | 1 | 0 | 1 |
6 | 0 | 1 | 1 |
7 | 1 | 0 | 1 |
8 | 1 | 1 | 1 |
9 | 1 | 1 | 1 |
10 | 1 | 0 | 1 |
具体执行步骤如下:
(1)设置三个干扰参数为p1=0.4,p2=0.3,p3=0.3,对于原始数据集中的任意一个项目t∈{0,1},设f1=t,f2=1-t,f3=0,定义一个函数f(t),函数值以概率pj取值为fj,j=1,2,3,对原始数据库进行随机干扰,得到干扰后数据集D′,如表2所示;
表2干扰后数据集D′
ID | A | B | C |
1 | 1 | 1 | 0 |
2 | 0 | 1 | 1 |
3 | 0 | 1 | 0 |
4 | 0 | 0 | 1 |
5 | 1 | 1 | 1 |
6 | 0 | 0 | 1 |
7 | 0 | 1 | 0 |
8 | 0 | 1 | 0 |
9 | 1 | 0 | 1 |
10 | 1 | 0 | 1 |
(2)还原频繁项集
①还原频繁1-项集:
分别判断各个项的真实支持度是否大于最小支持度阈值:Sup(A)=10>2;Sup(B)=30>2;Sup(C)=30>2,所以频繁1-项集为L={A,B,C};
②还原频繁2-项集:
由频繁1-项集得到候选2-项集:{{A,B}{A,C}{B,C}},
由以上结果可得到候选2-项集中各个项集的真实支持度,
Sup(A,B):
Sup(A,C):
Sup(B,C):
③由频繁2-项集生成候选3-项集,候选3-项集为空集,整个过程结束;
④我们最后可以得出频繁项集L=L1∪L2={{A},{B},{C},{A,C}}。
Claims (5)
1.一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,包括以下步骤:
(1)将原始数据集构造为二维布尔矩阵D,利用数据干扰和查询限制策略对布尔矩阵D进行随机干扰以提高隐私保护度,得到干扰后数据集D′;
(2)采用改进后的MASK算法对干扰后数据集D′进行项集支持度重构,并通过集合原理优化计数过程,获取频繁项集,得到关联规则数据。
2.根据权利要求1所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,实施步骤(1)具体为,
11)布尔矩阵D的行代表数据记录,列代表项,一个数据记录表示成T=[i1,i2,...ik],k代表项的个数;
其中,ij,l≤j≤k的值为0或1,1表示该项出现,0表示该项不出现;
12)设置三个随机化参数:p1、p2、p3,满足0≤p1,p2,p3≤1和p1+p2+p3=1;
13)对每个项ij进行随机干扰,将数据记录T=[i1,i2,...ik]变换成T′=[i1′,i2′,...ik′],得到干扰后数据集D′,其中,ij′表示以p1的概率保持原来的值ij,以p2的概率变成1-ij,以p3的概率取值为0。
3.根据权利要求2所述的一种基于多参数干扰的隐私保护关联规则数据挖掘方法,其特征在于,实施步骤(2)具体为,
21)设置最小支持度阈值s,扫描干扰后数据集D′,产生候选1-项集C1;
23)若每个1-项集的真实支持度均不小于最小支持度阈值s,则将候选1-项集C1作为频繁1-项集L1;否则将真实支持度小于阈值s的1-项集从候选1-项集C1中剔除后得到频繁1-项集L1;
24)更新n=n+1,根据频繁n-1-项集得到候选n-项集Cn,计算候选n-项集Cn中各个n-项集的真实支持度
其中,表示元组l在干扰后数据集D′的任意n-项集中出现的次数,元组l为十进制数m的二进制形式,m=0,1,…,2n-1; 表示十进制数jx的二进制元组变成十进制数ix的二进制元组的扭曲概率,ix=0,1,…,2n-1,jx=0,1,…,2n-1;
25)若每个n-项集的真实支持度均不小于最小支持度阈值s,则将候选n-项集Cn作为频繁n-项集Ln;否则将真实支持度小于阈值s的n-项集从候选n-项集Cn中剔除后得到频繁n-项集Ln;
26)判断频繁n-项集Ln是否为空,是则执行步骤27),否则返回步骤24);
27)从干扰后数据集中重构得到所有原始频繁项集L=L1∪…∪Ln-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310591116.2A CN103605749A (zh) | 2013-11-20 | 2013-11-20 | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310591116.2A CN103605749A (zh) | 2013-11-20 | 2013-11-20 | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103605749A true CN103605749A (zh) | 2014-02-26 |
Family
ID=50123971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310591116.2A Pending CN103605749A (zh) | 2013-11-20 | 2013-11-20 | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103605749A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984723A (zh) * | 2014-05-15 | 2014-08-13 | 江苏易酒在线电子商务有限公司 | 一种针对增量数据对频繁项进行更新数据挖掘方法 |
CN104298778A (zh) * | 2014-11-04 | 2015-01-21 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN104765810A (zh) * | 2015-04-02 | 2015-07-08 | 西安电子科技大学 | 基于布尔矩阵的诊疗规则挖掘方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN105354336A (zh) * | 2015-12-07 | 2016-02-24 | Tcl集团股份有限公司 | 一种处理交易事务数据库数据的方法和装置 |
CN105608135A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Apriori算法的数据挖掘方法及系统 |
CN106202246A (zh) * | 2016-06-27 | 2016-12-07 | 广东工业大学 | 一种基于压缩矩阵的隐私保护挖掘方法 |
CN106909666A (zh) * | 2017-02-27 | 2017-06-30 | 广东工业大学 | 一种基于多参数扰动的数据挖掘隐私保护方法 |
CN107113183A (zh) * | 2014-11-14 | 2017-08-29 | 马林·利佐尤 | 大数据的受控共享的系统和方法 |
CN107203725A (zh) * | 2017-05-23 | 2017-09-26 | 广东工业大学 | 一种垂直分布式关联规则挖掘隐私信息保护方法 |
CN107302521A (zh) * | 2017-05-23 | 2017-10-27 | 全球能源互联网研究院 | 一种用户隐私数据的发送方法和接收方法 |
CN109389412A (zh) * | 2017-08-02 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 一种训练模型的方法及装置 |
CN117993027A (zh) * | 2024-03-28 | 2024-05-07 | 之江实验室 | 针对重复查询攻击的数据保护方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266097A1 (en) * | 2006-04-25 | 2007-11-15 | Pagebites, Inc. | Method for information gathering and dissemination in a social network |
CN102929896A (zh) * | 2011-08-13 | 2013-02-13 | 句容今太科技园有限公司 | 基于隐私保护的数据挖掘方法 |
CN103294967A (zh) * | 2013-05-10 | 2013-09-11 | 中国地质大学(武汉) | 大数据挖掘下的用户隐私保护方法及系统 |
-
2013
- 2013-11-20 CN CN201310591116.2A patent/CN103605749A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070266097A1 (en) * | 2006-04-25 | 2007-11-15 | Pagebites, Inc. | Method for information gathering and dissemination in a social network |
CN102929896A (zh) * | 2011-08-13 | 2013-02-13 | 句容今太科技园有限公司 | 基于隐私保护的数据挖掘方法 |
CN103294967A (zh) * | 2013-05-10 | 2013-09-11 | 中国地质大学(武汉) | 大数据挖掘下的用户隐私保护方法及系统 |
Non-Patent Citations (2)
Title |
---|
张长星: "隐私保护数据挖掘算法的研究", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
李威: "多参数扰动的隐私保护关联规则挖掘算法研究", 《中国优秀硕士论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984723A (zh) * | 2014-05-15 | 2014-08-13 | 江苏易酒在线电子商务有限公司 | 一种针对增量数据对频繁项进行更新数据挖掘方法 |
CN104298778B (zh) * | 2014-11-04 | 2017-07-04 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN104298778A (zh) * | 2014-11-04 | 2015-01-21 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN107113183A (zh) * | 2014-11-14 | 2017-08-29 | 马林·利佐尤 | 大数据的受控共享的系统和方法 |
CN104765810B (zh) * | 2015-04-02 | 2018-03-06 | 西安电子科技大学 | 基于布尔矩阵的诊疗规则挖掘方法 |
CN104765810A (zh) * | 2015-04-02 | 2015-07-08 | 西安电子科技大学 | 基于布尔矩阵的诊疗规则挖掘方法 |
CN104881467B (zh) * | 2015-05-26 | 2018-08-31 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN104881467A (zh) * | 2015-05-26 | 2015-09-02 | 上海交通大学 | 基于频繁项集的数据关联性分析和预读取方法 |
CN105354336A (zh) * | 2015-12-07 | 2016-02-24 | Tcl集团股份有限公司 | 一种处理交易事务数据库数据的方法和装置 |
CN105608135B (zh) * | 2015-12-18 | 2020-03-31 | Tcl集团股份有限公司 | 一种基于Apriori算法的数据挖掘方法及系统 |
CN105608135A (zh) * | 2015-12-18 | 2016-05-25 | Tcl集团股份有限公司 | 一种基于Apriori算法的数据挖掘方法及系统 |
CN106202246A (zh) * | 2016-06-27 | 2016-12-07 | 广东工业大学 | 一种基于压缩矩阵的隐私保护挖掘方法 |
CN106909666A (zh) * | 2017-02-27 | 2017-06-30 | 广东工业大学 | 一种基于多参数扰动的数据挖掘隐私保护方法 |
CN107302521A (zh) * | 2017-05-23 | 2017-10-27 | 全球能源互联网研究院 | 一种用户隐私数据的发送方法和接收方法 |
CN107203725A (zh) * | 2017-05-23 | 2017-09-26 | 广东工业大学 | 一种垂直分布式关联规则挖掘隐私信息保护方法 |
CN109389412A (zh) * | 2017-08-02 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 一种训练模型的方法及装置 |
CN109389412B (zh) * | 2017-08-02 | 2022-03-04 | 创新先进技术有限公司 | 一种训练模型的方法、装置、服务设备以及用户设备 |
CN117993027A (zh) * | 2024-03-28 | 2024-05-07 | 之江实验室 | 针对重复查询攻击的数据保护方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103605749A (zh) | 一种基于多参数干扰的隐私保护关联规则数据挖掘方法 | |
CN106940777B (zh) | 一种基于敏感信息度量的身份信息隐私保护方法 | |
Goodwin et al. | Data mining issues and opportunities for building nursing knowledge | |
Nayak et al. | A survey on privacy preserving data mining: approaches and techniques | |
Loukides et al. | Disassociation for electronic health record privacy | |
Magee et al. | The dawn of open access to phylogenetic data | |
CN106650487B (zh) | 基于多维敏感数据发布的多部图隐私保护方法 | |
Ruggieri et al. | Anti-discrimination analysis using privacy attack strategies | |
US20220067202A1 (en) | Method for creating avatars for protecting sensitive data | |
Mishra et al. | An implementation of feature ranking using machine learning techniques for diabetes disease prediction | |
Sattar et al. | A general framework for privacy preserving data publishing | |
Jamshidi et al. | Symptom prediction and mortality risk calculation for COVID-19 using machine learning | |
Olver | Linking data to improve health outcomes | |
Shan et al. | COVID‐19 patient diagnosis and treatment data mining algorithm based on association rules | |
Nasiri et al. | Classification and evaluation of privacy preserving data mining methods | |
Kaur et al. | k-anonymization of social network data using Neural Network and SVM: K-NeuroSVM | |
Li et al. | Adaptive vertical federated learning via feature map transferring in mobile edge computing | |
Tang et al. | IHVFL: a privacy-enhanced intention-hiding vertical federated learning framework for medical data | |
Han et al. | Sensitive disclosures under differential privacy guarantees | |
Fienberg et al. | Valid statistical analysis for logistic regression with multiple sources | |
Podlesny et al. | Attribute compartmentation and greedy UCC discovery for high-dimensional data anonymization | |
CN110457940B (zh) | 一种基于图论和互信息量的差分隐私度量方法 | |
Lakshmi et al. | SVD based data transformation methods for privacy preserving clustering | |
Jarman et al. | An integrated framework for risk profiling of breast cancer patients following surgery | |
Wang et al. | L-diversity algorithm for incremental data release |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140226 |
|
RJ01 | Rejection of invention patent application after publication |