CN107526975A - 一种基于差分隐私保护决策树的方法 - Google Patents

一种基于差分隐私保护决策树的方法 Download PDF

Info

Publication number
CN107526975A
CN107526975A CN201710680315.9A CN201710680315A CN107526975A CN 107526975 A CN107526975 A CN 107526975A CN 201710680315 A CN201710680315 A CN 201710680315A CN 107526975 A CN107526975 A CN 107526975A
Authority
CN
China
Prior art keywords
decision tree
data set
privacy
noicount
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710680315.9A
Other languages
English (en)
Inventor
孟小峰
郭胜娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201710680315.9A priority Critical patent/CN107526975A/zh
Publication of CN107526975A publication Critical patent/CN107526975A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于差分隐私保护决策树的方法,其步骤:对原始数据集以抽样概率p进行抽样得到数据集样本,且得到的数据集满足ln(1+p(eε‑1))‑差分隐私:对抽样得到的数据集进行初步处理,将连续属性和离散属性一起参与隐私保护下的决策选择;根据抽取的数据集样本初始化C4.5决策树,利用稀疏向量方法判断决策树中的结点是否继续分裂;递归构建决策树。本发明分类准确率越高,在保护隐私的同时,能够高效准确的构建决策树。

Description

一种基于差分隐私保护决策树的方法
技术领域
本发明涉及一种决策树隐私保护方法,特别是关于一种基于差分隐私保护决策树的方法。
背景技术
随着硬件和科技的发展,及时有效地收集大量数据已不是难题,但是如何从这些数据中挖掘有用的知识和价值是人们研究的难点。分类算法是人们常用的数据挖掘工具,它能够很好支持精确营销、个性偏好和信用分析等应用,广泛受到金融行业以及公司的喜爱。决策树是其中一种常见的分类算法,构建决策树时,首先需要决定依据哪个属性来分裂结点,这个决定是由结点中的数据所支配。此外,一旦决策树构建完成,叶节点是可以输出关于类的计数信息,也是由结点中的数据所支配。正因为上面的决定和输出都是直接基于数据,差分隐私认为涉及到对数据信息的发布都有可能泄露隐私,因此需要提供一种差分隐私保护决策树算法。
由于差分隐私保护决策树方法的核心技术为对决策树中非叶结点利用指数机制选取何种分裂规则来减少隐私预算的分配,以及如何对叶节点添加适量的拉普拉斯噪音。但是,它们主要有两点不足:1)仅仅在小的空间数据上进行决策分类,当数据点达到百万级别时,会产生大量的分类树,导致选择方法低效;2)在构建决策树过程中,会逐层分配隐私代价,当树的高度很大时,可能会耗尽隐私预算。
发明内容
针对上述问题,本发明的目的是提供一种基于差分隐私保护决策树的方法,该方法分类准确率越高,在保护隐私的同时,能够高效准确的构建决策树。
为实现上述目的,本发明采取以下技术方案:一种基于差分隐私保护决策树的方法,其特征在于包括以下步骤:1)对原始数据集以抽样概率p进行抽样得到数据集样本,且得到的数据集满足ln(1+p(eε-1))-差分隐私:2)对抽样得到的数据集进行初步处理,将连续属性和离散属性一起参与隐私保护下的决策选择;3) 根据抽取的数据集样本初始化C4.5决策树,利用稀疏向量方法判断决策树中的结点是否继续分裂;4)递归构建决策树。
进一步,所述步骤1)中,以假设的抽样概率p对原始数据集进行Bernoulli 随机抽样,被选中的样本放到空间样本中,否则舍弃,并计算整个决策树构建在抽样概率p下所需的隐私预算εp;其中,隐私预算εp是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的,隐私需求越高,则隐私预算εp值越小,εp=ε12,ε1表示第一阶段隐私预算,ε2表示第二阶段隐私预算。
进一步,所述步骤1)中,给定一个数据集D,且算法A在数据集D上满足ε- 差分隐私;如果方法Ap操作如下:以概率p从数据集D中抽取样本获得数据集Dp,然后算法A作用于数据集Dp,则数据集Dp满足ln(1+p(eε-1))-差分隐私。
进一步,所述步骤2)中,具体步骤为:2.1)设s代表任意连续属性值细分方案集S中的一个方案,u(D,s)表示当前方案s的可用性,对连续属性值细分方案集S中的方案s权重用指数机制以概率p(s)选中方案s;2.2)权重确定后,连续属性的细分方案s以概率直接和离散属性一起参与属性可用性选择;而离散属性就以概率参与属性选择。
进一步,所述概率p(s)为:
式中,ε为隐私预算,Δu表示敏感度。
进一步,所述步骤3)中,利用稀疏向量方法判断决策树中的结点是否继续分裂过程如下:3.1)确定阈值θ,将计数查询结果count()与阈值θ作对比,如果 count()>θ,则为找到查询结果,否则继续;3.2)对阈值θ添加拉普拉斯噪音,得到加过拉普拉斯噪音之后的阈值noi(θ);3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音,将得到的noicount(v),并将添加拉普拉斯噪音的查询结果 noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较,如果 noicount(v)≥noi(θ),说明此结点不满足隐私需求,需要将此结点进行分裂;如果 noicount(v)<noi(θ),将此节点定义为叶节点,然后对其中的结点进行归类标签。
进一步,所述步骤3.1)中,阈值θ的确定方法是:对不添加噪音构造出的决策树的叶节点进行计数,得到每一个叶节点计数查询 {count(v1),count(v2),...,count(vn)},然后对得到这些数值集合求得平均值作为最终要确定的阈值θ;vi表示叶子节点,i=1,2,…,n。
进一步,所述步骤3.3)中,添加拉普拉斯噪音进行响应计数查询的隐私保护:
式中,Lap(2/ε1)为拉普拉斯噪音。
进一步,所述步骤4)中,构建过程如下:4.1)记录根节点在l1层;4.2)当 li<h时,遍历li+1中所有结点vj;vj∈li+1,li为当前层,h为树高度;4.3)若vj是叶节点,则noicount(p(vj))=noicount(p(vj))+noicount(vj),p(vj)表示vj的父结点;反之,S=S∪vj;4.4)将变量i加1,记录h-1层为当前层;4.5)当li>1时,遍历li中结点vj,且vj∈S,并满足:noicount(p(vj))=noicount(p(vj))+noicount(vj); 4.6)更新vj的父结点,完成决策树构建。
本发明由于采取以上技术方案,其具有以下优点:1、本发明提出了融合抽样与SVT方法的决策树隐私保护方法,在满足差分隐私的情况下,采用伯努利抽样对大规模原始数据进行抽样,在构建决策树过程中,利用SVT方法来判断结点是否继续分裂;分类准确率越高。2、本发明选择max(D,s)为可用性函数的分类结果准确度高于以InfoGain(D,s)为可用性函数的分类结果,本发明采用在指数机制下 max(D,s)能够以更高的概率选择更好的分类属性,从而提高分类结果的准确度。3、本发明针对数据挖掘中经典的贪婪决策树C4.5的差分隐私保护,在新的大数据背景下保护隐私的同时,能够高效准确的构建决策树。采用Bernoulli抽样实验解决大数据问题,同时利用SVT方法来判断结点是否分裂,如果满足分裂条件,则根据指数机制选择分类属性的方案。4、本发明为了减少查询次数造成的隐私预算的快速消耗,采用SVT方法,即通过阈值的办法来控制计数查询中添加的噪音量。
具体实施方式
下面结合实施例对本发明进行详细的描述。
本发明提供一种基于差分隐私保护决策树的方法,该方法针对数据挖掘中经典的贪婪决策树C4.5的差分隐私保护,向训练数据集提交查询,在数据集计算查询答案,然后差分隐私保护机制以某种方式来更改此答案,以达到保护数据集中每一个人的隐私的目的。本发明包括以下步骤:
1)采用Bernoulli(伯努利)随机抽样原理对原始数据集以抽样概率p进行抽样得到数据集样本,且得到的数据集满足ln(1+p(eε-1))-差分隐私:
以假设的抽样概率p对原始数据集进行Bernoulli随机抽样,被选中的样本放到空间样本中,否则舍弃,并计算整个决策树构建在抽样概率p下所需的隐私预算εp。其中,隐私预算εp是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的,隐私需求越高,则隐私预算εp值越小,通常设为0.01,0.1或是1 等。εp=ε12,ε1表示第一阶段隐私预算,ε2表示第二阶段隐私预算。
为使得隐私保护决策树算法满足ε-差分隐私而计算出的隐私预算εp值得到保证,Bernoulli抽样方法需满足ln(1+p(eε-1))-差分隐私:
给定一个数据集D,且算法A在数据集D上满足ε-差分隐私。如果方法Ap操作如下:以概率p从数据集D中抽取样本获得数据集Dp,然后算法A作用于数据集Dp,则数据集Dp满足ln(1+p(eε-1))-差分隐私。其中,ε是隐私预算。
ε-差分隐私:对于任何一对邻近数据集D和D',一个随机函数B满足ε-差分隐私,对于任何S∈Rang(B),有:
Pr[A(D)=S]≤eε·Pr[A(D')=S];
式中,Pr表示概率,S表示细分方案集。
通过ln(1+p(eε-1))-差分隐私,使得Bernoulli随机抽样出来的新数据集上进行相应的决策树构建,且能够保证抽样出的数据集同样满足特定的隐私代价。就可以在选择出的能够一定程度代表整体数据特征的记录进行后续隐私保护决策树构建。
2)对抽样得到的数据集进行初步处理,将连续属性和离散属性一起参与隐私保护下的决策选择,以减少调用指数机制次数;
2.1)设s代表任意连续属性值细分方案集S中的一个方案,u(D,s)表示当前方案s的可用性。为了使得连续属性和离散属性一起参与选择,对连续属性值细分方案集S中的方案s权重用指数机制以如下的概率选中方案s:
式中,Δu表示敏感度。
2.2)权重确定后,连续属性的细分方案s以概率直接和离散属性一起参与属性可用性选择;而离散属性就以概率参与属性选择。
上述步骤中,确定在度量属性细分方案可用性时选用的可用性函数:信息增益和最大类频数和。
设x表示记录中的某个属性,对x细分方案可表示为s:x→{x1,x2,...,xq},x1,x2,...,xq表示x的细分值。Dx表示属性值为x的数据集,|Dx|表示Dx的记录个数。 Dxj表示属性值为xj(j=1,2,...,q)构成的数据集。细分方案s:x→{x1,x2,...,xq}就是将数据集Dx划分成若干个子数据集Dx1,Dx2,...,Dxq。设数据集Dx的分类属性有m个不同的取值,即定义了m个不同的类Ci(i=1,2,...,m),每个类Ci中的记录个数为ci
信息增益的可用性函数,即u(D,s)=InfoGain(D,s);首先计算数据集Dx的熵:
其中:pi=ci/|Dx|。方案s:x→{x1,x2,...,xq}产生的信息增益为 InfoGain(D,s)=I(Dx)-H(Dx),其中,是所有子集的熵的 加权和,I(Dxj)是数据集Dxj的熵。由于I(Dr)的最大值是log2m,E(Dx)的最小值为 0。所以信息增益函数的敏感度为Δu=log2m。
最大类频数和的可用性函数,即u(D,s)=max(D,s);其中,
对于Dx的任一子集Dxj是指具有最多元组的结点中的记录个数。由上式可以看出,max(D,s)的敏感度为1。因此,本发明采用最大类频数和的可用性函数。
3)根据抽取的数据集样本初始化C4.5决策树,利用SVT(稀疏向量)方法判断决策树中的结点是否继续分裂,从而使得隐私预算的分配不再依赖于树的高度,解决递归构建决策树时隐私预算的快速耗尽的问题。
由于隐私预算分配与决策树的高度息息相关,树的高度过高,会使得隐私预算快速耗尽,每次查询和选择分裂属性的隐私预算ε很小,从而噪音量变大决策导致精度快速下降;树的高度过低,会直接影响决策树的可用性与准确度。以往隐私保护方法中实验都是根据用户的需求,将决策树设为固定高度。
SVT方法是用来查找大于某个阈值的查询计数。利用SVT(稀疏向量)方法判断决策树中的结点是否继续分裂过程如下:
3.1)确定阈值θ,将计数查询结果count()与阈值θ作对比,如果count()>θ,则为找到查询结果,否则继续。
阈值θ的确定方法是:对不添加噪音构造出的决策树的叶节点进行计数,得到每一个叶节点计数查询{count(v1),count(v2),...,count(vn)},然后对得到这些数值集合求得平均值作为最终要确定的阈值θ。其中,vi表示叶子节点,i=1,2,…,n。
3.2)对阈值θ添加拉普拉斯噪音,得到加过拉普拉斯噪音之后的阈值noi(θ);
3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音,将得到的 noicount(v),并将添加拉普拉斯噪音的查询结果noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较,如果noicount(v)≥noi(θ),说明此结点不满足隐私需求,需要将此结点进行分裂;如果noicount(v)<noi(θ),可以将此节点定义为叶节点,然后对其中的结点进行归类标签。
步骤3.3)中,添加拉普拉斯噪音进行响应计数查询的隐私保护:
式中,Lap(2/ε1)为拉普拉斯噪音。
在利用SVT方法判断结点是否分裂的过程中,并不会像以往的通过不断迭代分割隐私预算来保护隐私,它每次判断所需的隐私预算值都为ε1,这就不会因为多次迭代而迅速消耗隐私预算,从而造成噪音量大。
4)递归构建决策树:
4.1)记录根节点在l1层;
4.2)当li<h时,遍历li+1中所有结点vj;vj∈li+1,li为当前层,h为树高度;
4.3)若vj是叶节点,则noicount(p(vj))=noicount(p(vj))+noicount(vj), p(vj)表示vj的父结点;反之,S=S∪vj
4.4)将变量i加1,记录h-1层为当前层;
4.5)当li>1时,遍历li中结点vj,且vj∈S,并满足:
noicount(p(vj))=noicount(p(vj))+noicount(vj);
4.6)更新vj的父结点,完成决策树构建。
上述各实施例仅用于说明本发明,各部件的结构、尺寸、设置位置及形状都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别部件进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (9)

1.一种基于差分隐私保护决策树的方法,其特征在于包括以下步骤:
1)对原始数据集以抽样概率p进行抽样得到数据集样本,且得到的数据集满足ln(1+p(eε-1))-差分隐私:
2)对抽样得到的数据集进行初步处理,将连续属性和离散属性一起参与隐私保护下的决策选择;
3)根据抽取的数据集样本初始化C4.5决策树,利用稀疏向量方法判断决策树中的结点是否继续分裂;
4)递归构建决策树。
2.如权利要求1所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤1)中,以假设的抽样概率p对原始数据集进行Bernoulli随机抽样,被选中的样本放到空间样本中,否则舍弃,并计算整个决策树构建在抽样概率p下所需的隐私预算εp;其中,隐私预算εp是由数据拥有者或是数据发布者根据用户的隐私需求所预先指定的,隐私需求越高,则隐私预算εp值越小,εp=ε12,ε1表示第一阶段隐私预算,ε2表示第二阶段隐私预算。
3.如权利要求1或2所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤1)中,给定一个数据集D,且算法A在数据集D上满足ε-差分隐私;如果方法Ap操作如下:以概率p从数据集D中抽取样本获得数据集Dp,然后算法A作用于数据集Dp,则数据集Dp满足ln(1+p(eε-1))-差分隐私。
4.如权利要求1所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤2)中,具体步骤为:
2.1)设s代表任意连续属性值细分方案集S中的一个方案,u(D,s)表示当前方案s的可用性,对连续属性值细分方案集S中的方案s权重用指数机制以概率p(s)选中方案s;
2.2)权重确定后,连续属性的细分方案s以概率直接和离散属性一起参与属性可用性选择;而离散属性就以概率参与属性选择。
5.如权利要求4所述的一种基于差分隐私保护决策树的方法,其特征在于:所述概率p(s)为:
式中,ε为隐私预算,Δu表示敏感度。
6.如权利要求1所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤3)中,利用稀疏向量方法判断决策树中的结点是否继续分裂过程如下:
3.1)确定阈值θ,将计数查询结果count()与阈值θ作对比,如果count()>θ,则为找到查询结果,否则继续;
3.2)对阈值θ添加拉普拉斯噪音,得到加过拉普拉斯噪音之后的阈值noi(θ);
3.3)对每一个结点的查询结果count(v)添加拉普拉斯噪音,将得到的noicount(v),并将添加拉普拉斯噪音的查询结果noicount(v)与加过拉普拉斯噪音之后的阈值noi(θ)进行比较,如果noicount(v)≥noi(θ),说明此结点不满足隐私需求,需要将此结点进行分裂;如果noicount(v)<noi(θ),将此节点定义为叶节点,然后对其中的结点进行归类标签。
7.如权利要求6所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤3.1)中,阈值θ的确定方法是:对不添加噪音构造出的决策树的叶节点进行计数,得到每一个叶节点计数查询{count(v1),count(v2),...,count(vn)},然后对得到这些数值集合求得平均值作为最终要确定的阈值θ;vi表示叶子节点,i=1,2,…,n。
8.如权利要求6或7所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤3.3)中,添加拉普拉斯噪音进行响应计数查询的隐私保护:
式中,Lap(2/ε1)为拉普拉斯噪音。
9.如权利要求1所述的一种基于差分隐私保护决策树的方法,其特征在于:所述步骤4)中,构建过程如下:
4.1)记录根节点在l1层;
4.2)当li<h时,遍历li+1中所有结点vj;vj∈li+1,li为当前层,h为树高度;
4.3)若vj是叶节点,则noicount(p(vj))=noicount(p(vj))+noicount(vj),p(vj)表示vj的父结点;反之,S=S∪vj
4.4)将变量i加1,记录h-1层为当前层;
4.5)当li>1时,遍历li中结点vj,且vj∈S,并满足:
noicount(p(vj))=noicount(p(vj))+noicount(vj);
4.6)更新vj的父结点,完成决策树构建。
CN201710680315.9A 2017-08-10 2017-08-10 一种基于差分隐私保护决策树的方法 Pending CN107526975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710680315.9A CN107526975A (zh) 2017-08-10 2017-08-10 一种基于差分隐私保护决策树的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710680315.9A CN107526975A (zh) 2017-08-10 2017-08-10 一种基于差分隐私保护决策树的方法

Publications (1)

Publication Number Publication Date
CN107526975A true CN107526975A (zh) 2017-12-29

Family

ID=60680930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710680315.9A Pending CN107526975A (zh) 2017-08-10 2017-08-10 一种基于差分隐私保护决策树的方法

Country Status (1)

Country Link
CN (1) CN107526975A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862014A (zh) * 2017-10-31 2018-03-30 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN108537055A (zh) * 2018-03-06 2018-09-14 南京邮电大学 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN109241774A (zh) * 2018-09-19 2019-01-18 华中科技大学 一种差分隐私空间分解方法和系统
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110134879A (zh) * 2019-03-06 2019-08-16 辽宁工业大学 一种基于差分隐私保护的兴趣点推荐算法
CN111259442A (zh) * 2020-01-15 2020-06-09 广西师范大学 MapReduce框架下决策树的差分隐私保护方法
CN112131608A (zh) * 2020-08-03 2020-12-25 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN113094497A (zh) * 2021-06-07 2021-07-09 华中科技大学 一种电子健康记录推荐方法及共享边缘计算平台
CN113221168A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于差分隐私的划分业务对象集合的方法和装置
CN113704788A (zh) * 2021-08-30 2021-11-26 国网江苏省电力有限公司营销服务中心 一种基于r-邻域关系与差分隐私的四分树隐私保护方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862014A (zh) * 2017-10-31 2018-03-30 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN107862014B (zh) * 2017-10-31 2018-12-04 陕西师范大学 隐私保护加权网络发布数据集的构建方法
CN108537055A (zh) * 2018-03-06 2018-09-14 南京邮电大学 一种数据查询隐私保护的隐私预算分配和数据发布方法及其系统
CN109284626A (zh) * 2018-09-07 2019-01-29 中南大学 面向差分隐私保护的随机森林算法
CN109241774A (zh) * 2018-09-19 2019-01-18 华中科技大学 一种差分隐私空间分解方法和系统
CN109726758A (zh) * 2018-12-28 2019-05-07 辽宁工业大学 一种基于差分隐私的数据融合发布算法
CN110134879A (zh) * 2019-03-06 2019-08-16 辽宁工业大学 一种基于差分隐私保护的兴趣点推荐算法
CN111259442A (zh) * 2020-01-15 2020-06-09 广西师范大学 MapReduce框架下决策树的差分隐私保护方法
CN112131608A (zh) * 2020-08-03 2020-12-25 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN112131608B (zh) * 2020-08-03 2024-01-26 辽宁工业大学 一种满足lkc模型的分类树差分隐私保护方法
CN113221168A (zh) * 2021-05-13 2021-08-06 支付宝(杭州)信息技术有限公司 一种基于差分隐私的划分业务对象集合的方法和装置
CN113094497A (zh) * 2021-06-07 2021-07-09 华中科技大学 一种电子健康记录推荐方法及共享边缘计算平台
CN113704788A (zh) * 2021-08-30 2021-11-26 国网江苏省电力有限公司营销服务中心 一种基于r-邻域关系与差分隐私的四分树隐私保护方法
CN113704788B (zh) * 2021-08-30 2024-04-12 国网江苏省电力有限公司营销服务中心 一种基于r-邻域关系与差分隐私的四分树隐私保护方法

Similar Documents

Publication Publication Date Title
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
Rozemberczki et al. Gemsec: Graph embedding with self clustering
Wang et al. Clustering by fast search and find of density peaks with data field
US10073906B2 (en) Scalable tri-point arbitration and clustering
Shen et al. Submodular function optimization for motion clustering and image segmentation
Forero et al. Robust clustering using outlier-sparsity regularization
Ye et al. Robust similarity measure for spectral clustering based on shared neighbors
CN109686402B (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN102243641A (zh) 大规模数据的高效聚类方法
Wang et al. Selecting likelihood weights by cross-validation
Zhi et al. Dynamic truth discovery on numerical data
CN110598061A (zh) 一种多元图融合的异构信息网嵌入方法
CN106228554A (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN105913159A (zh) 基于社交网络事件的用户影响力预测方法
CN115293919B (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Abdzaid Atiyah et al. KC‐Means: A Fast Fuzzy Clustering
CN106649731A (zh) 一种基于大规模属性网络的节点相似性搜索方法
CN113704787B (zh) 一种基于差分隐私的隐私保护聚类方法
Du et al. An improved density peaks clustering algorithm by automatic determination of cluster centres
Liu et al. Adaptive density trajectory cluster based on time and space distance
CN110580252A (zh) 多目标优化下的空间对象索引与查询方法
Király et al. Geodesic distance based fuzzy c-medoid clustering–searching for central points in graphs and high dimensional data
Priya et al. Community Detection in Networks: A Comparative study
Liu et al. Lsdh: a hashing approach for large-scale link prediction in microblogs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171229

RJ01 Rejection of invention patent application after publication