CN111259440A - 一种针对云外包数据的隐私保护决策树分类方法 - Google Patents

一种针对云外包数据的隐私保护决策树分类方法 Download PDF

Info

Publication number
CN111259440A
CN111259440A CN202010038483.XA CN202010038483A CN111259440A CN 111259440 A CN111259440 A CN 111259440A CN 202010038483 A CN202010038483 A CN 202010038483A CN 111259440 A CN111259440 A CN 111259440A
Authority
CN
China
Prior art keywords
csp
esp
mod
node
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010038483.XA
Other languages
English (en)
Other versions
CN111259440B (zh
Inventor
柳林
陈荣茂
苏金树
王琼
陈锦榕
李�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010038483.XA priority Critical patent/CN111259440B/zh
Publication of CN111259440A publication Critical patent/CN111259440A/zh
Application granted granted Critical
Publication of CN111259440B publication Critical patent/CN111259440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据隐私保护领域,涉及一种针对云外包数据的隐私保护决策树分类方法,包括以下步骤:第一步,CSP将原始决策树模型转换成二叉树,在二叉树上随机添加k个虚拟叶子节点,然后表示成多项式,最后将N发送给ESP和用户;第二步,用户利用收到的N将自己的查询向量分割,并把分割后的数据分别传输给CSP和ESP;第三步,CSP和ESP协同比较每一个树节点的阈值及其对应的查询向量数据,得到共享的比较结果;第四步,根据比较结果,CSP和ESP协同计算加入虚拟节点以后的决策树表示的多项式,将结果发送给用户;第五步,用户接收两个云发送的数据并相加,得到最终的分类标签。本发明的有益效果:用户的计算和通信开销最小;保护了决策树模型不被ESP和用户所获知。

Description

一种针对云外包数据的隐私保护决策树分类方法
技术领域
本发明属于数据隐私保护领域,涉及云外包数据的分类问题,具体涉及一种针对云外包数据的隐私保护决策树分类方法。
背景技术
当今,机器学习已经被广泛应用于图像处理、语音识别和医疗诊断等领域,并在这些领域取得了一系列突破性成果。因此,机器学习在工业界和学术界都引起了广泛关注。当今全球几大互联网巨头,例如亚马逊、谷歌和微软,都提供在线机器学习分类服务。这些公司有能力从不同的组织机构和个人那里收集海量数据,训练机器学习模型,并利用这些模型对外提供分类预测服务。这种在线机器学习分类服务极大地拉近了普通用户与机器学习的距离。使得普通用户可以在缺少高效计算平台、海量数据和机器学习知识背景的情况下,依然可以享受到科技进步带来的生活便利。
现实生活中,人们在使用云服务时需要将查询数据以明文的形式交给云计算平台。这可能会带来隐私泄露的风险。在线医疗服务是云提供的一种典型的机器学习应用。一方面,用户在使用线上医疗服务时常常需要上传血压、体温、过往病史等隐私信息。线上医疗服务返回的结果,显示了用户是否罹患某种疾病。这些信息对用户而言隐私性很强,几乎没有人愿意对外披露此类信息。另一方面,对云平台而言,训练机器学习模型需要耗费大量的时间和金钱,它们常常会把训练好的模型视为企业资产。因而,云平台也不希望在分类过程中泄露模型参数给用户。一种简单的解决方案是将数据加密后再交给云平台处理,但是加密后数据处理难度加大,使得一般的机器学习算法难以在密文上展开。因此,在保护用户和云隐私的同时,如何高效安全地实现隐私保护的机器学习成为当前云服务商亟需解决的问题。
决策树作为一种常用的分类模型,已经被广泛应用于在线医疗、文本分类和信用风险评估等领域当中。目前关于云外包数据上的隐私保护决策树分类的研究从系统模型上可以分为两种:一种是基于单云模型的,另外一种是基于双云模型的。在双云模型下,用户仅上传查询向量和接收分类标签,分类过程中无需再和云平台做任何交互。与单云模型相比,双云模型下用户的计算和通信开销都相对更加小。
1)基于单云模型的隐私保护决策树分类。
Bost等人(Bost等,Machine Learning Classification over Encrypted Data(加密数据上的机器学习分类研究).ISOC Network and Distributed System SecuritySymposium(ISOC网络与分布式系统安全研讨会),2015,4324-4325)首次提出将决策树表示成多项式,多项式的计算结果就是分类结果。然而,由于此方案采用了耗时的全同态加密,他们的方案效率并不高。Wu等人(Wu等,Privately evaluating decision trees andrandom forests(隐私保护决策树和随机森林分类).Proceedings on Privacy EnhancingTechnologies(隐私增强技术会议),2016,335-355)改进了Bost等人的方案。他们采用了计算开销比较小的加性同态加密方案和不经意传输技术来代替全同态,同时又重新设计了一个运算效率比较高的安全比较算法。Tai等人(Tai等,Privacy-preserving decisiontrees evaluation via linear functions(基于线性函数的隐私保护决策树分类),European Symposium on Research in Computer Security(欧洲计算机安全研讨会),2017,494-512)遵循Bost等人和Wu等人的研究思路进一步提出了改进方案。Tai等人的工作的计算开销与树的深度成线性关系,而Bost和Wu等人的工作的计算开销随着树的深度增加而呈指数增长。Cock等(Cock等人,Efficient and private scoring of decision trees,support vector machines and logistic regression models based on pre-computation(一种基于预计算的安全高效决策树、支持向量机和逻辑回归模型),IEEETransactions on Dependable and Secure Computing(IEEE可靠和安全计算期刊,2017,271-230)提出一种基于秘密共享的决策树分类方案,与前述方案相比具有更高的运算效率。Teuno等(Teuno等人,Private evaluation of decision trees using sublinearcost(一种具有次线性计算开销的隐私保护决策树分类方案),Proceedings on PrivacyEnhancing Technologies(隐私增强技术会议),2019,266-286)基于不经意传输和混淆电路技术,提出了一种基于单云模型的隐私保护决策树分类算法,进一步降低了计算和通信开销。
上述方案均基于单云模型,主要有以下两个缺陷:一是不支持离线用户。在这种模型中,用户需要和云多次交互,分别计算,才能得到最终的分类标签;二是无法完全保护决策树的模型不被用户所知。由于用户需要参与计算,上述各个方案会或多或少泄露决策树模型的部分信息给用户,比如节点数量或者树的深度。
2)基于双云模型的隐私保护决策树分类。
Zheng等(Zheng等人,Towards secure and efficient outsourcing of machinelearning classification(一种安全高效的机器学习分类),European Symposium onResearch in Computer Security(欧洲计算机安全研讨会),2019,22-40)提出了一种基于双云模型的隐私保护决策树分类方案。这种方案的计算和通信开销与决策树的深度呈线性增长关系。在应对深度比较小的决策树,该方案具有较高的效率,但是当处理深度比较深且稀疏的决策树时,云的计算和通信开销都会显著增长。另外,在这个方案里树的深度依然无法得到保护,并不能达到安全保护决策树模型的目标。
综上所述,当前无论是基于单云模型还是基于双云模型所设计的隐私保护决策树分类方案都无法完全保护树模型不泄露。特别的,基于单云模型的决策树分类方案还无法支持离线用户;基于双云模型的设计方案目前还不能高效的处理深度较深的决策树。
发明内容
针对现有云外包数据隐私保护决策树分类体制,其安全和效率都不高的问题,本发明在双云模型下,提出一种针对云外包数据的隐私保护决策树分类方法,该方法基于秘密共享技术,以实现隐私保护决策树分类,并满足以下特征:
1)保护用户查询数据和分类结果不被云所获悉;
2)树模型仅属于其中一个云,关于该模型的任何信息都不会泄露给用户和另外一个协同分类的云;
3)支持离线用户。用户只需要发送查询向量和接收分类结果,不需要参与任何中间计算。
4)云的计算和通信开销仅与树节点数量呈线性增长关系。
本发明的技术方案如下:
一种针对云外包数据的隐私保护决策树分类方法,包括如下步骤:
S1拥有决策树模型的云(Cloud Service Provider,CSP)将原始的决策树转换成二叉树,然后在二叉树模型上随机加入k个虚拟节点(dummy node),并将这个树表示成多项式形式,最后将秘密共享的模数N发送给另一个辅助分类的云(Evaluation ServiceProvider,ESP)和用户,N为自然数;具体如下:
S1.1 CSP将所有的虚拟节点都添加到原始决策树上的叶子节点处,且添加位置随机;原始的决策树有p个叶子节点,随机选择p'个叶子节点,且p'≤p,
Figure BDA0002366877750000031
将每一个选中的叶子节点分别替换为一个虚拟节点,并为这个虚拟节点生成两个与原始被替换节点具有相同标签的叶子节点,同时为虚拟节点随机赋值;
S1.2 CSP将添加了虚拟节点的决策树表示成多项式形式;对于决策树的叶子节点,CSP将其关联到该节点代表的分类标签,即Lq,q∈{1,2,···,m'},m'表示分类标签的数量;对于决策树的每一个中间节点,CSP都为其设置一个布尔函数,即f(xi)=1{xi<sj},xi表示中间节点的阈值,sj表示该中间节点对应的查询向量中的某一个数,i∈{1,2,···,m},j∈{1,2,…,n},m表示决策树中间节点数量,n表示待查询向量长度。如果这个布尔函数的值为1,则指向该节点的左孩子节点,否则指向右孩子节点。不失一般性,假定该节点的左孩子节点、右孩子节点分别是b1和b2,且该节点的布尔函数结果为oi,那么该节点的多项式表示为oi·b1+(1-oi)·b2。按此方法,CSP可以得到整个决策树的多项式表示(详细步骤见文献(Bost等,Machine Learning Classification over Encrypted Data(加密数据上的机器学习分类研究),ISOC Network and Distributed System SecuritySymposium(ISOC网络与分布式系统安全研讨会),2015,4324-4325))。该多项式的每一项都表示一条从根节点到叶子节点的路径。
S1.3 CSP向用户和ESP发送用于秘密共享的模数N;
S2用户利用收到的N将待查询数据的特征向量分割,并把分割后的数据分别传输给CSP和ESP。假设用户待查询数据的特征向量每一个数以及决策树中每一个节点的阈值的比特长度最长为l(l是自然数),对于待查询数据的特征向量
Figure BDA0002366877750000032
用户首先将所有的查询向量里的每一个数sj实施比特分解,即sj={sj,1,sj,2,···,sj,l},然后利用秘密共享的模数N将每一个比特分割成两部分;具体而言,对于每一个sj,k,(j∈{1,2,…,n},k∈{1,2,···,l},k是自然数),用户从整数环ZN中选择一个随机数
Figure BDA0002366877750000041
并令
Figure BDA0002366877750000042
Figure BDA0002366877750000043
分割完成后,用户将<sj,k>A和<sj,k>B分别发送给CSP和ESP(j∈{1,2,…,n},k∈{1,2,···,l})。在下文的描述中,我们用<·>A表示属于CSP的共享数据,<·>B表示属于ESP的共享数据;两者相加并模N,可得原始数据;<·>表示某个共享于CSP和ESP的数。
S3 CSP和ESP运行秘密共享比较协议,比较每一个中间节点阈值xi,i∈{1,2,…,m},及其对应的查询向量数据<sj>,得到共享的比较结果{<q1>,<q2>,···,<qm>};xi与<sj>的秘密共享比较协议主要包括以下步骤:
S3.1 CSP将每一个xi,i∈{1,2,···,m},比特分解为xi,1,xi,2,···,xi,l;然后计算((xi,k+<sj,k>A)mod2)·2kmodN,并将结果记为<di,k>A;ESP计算(-<sj,k>Bmod2)·2kmodN,并将结果记为<di,k>B,k∈{1,2,···,l};
S3.2 CSP从{0,1}中随机挑选一个数并记为α,然后计算1-2αmodN,并将结果记为γ;随后,CSP从ZN中随机挑选l个随机数ri,1,ri,2,···,ri,l
S3.3对于所有的k∈{1,2,···,l},CSP计算
Figure BDA0002366877750000044
Figure BDA0002366877750000045
并将它们分别标记为<hi,0>A和<hi,k>A;ESP计算
Figure BDA0002366877750000046
Figure BDA0002366877750000047
并将它们分别标记为<hi,0>B和<hi,k>B
S3.4 CSP和ESP共享预计算的乘法三元组即<ci,k>A,<ai,k>A,<bi,k>A和<ci,k>B,<ai,k>B,<bi,k>B,满足ci,k=ai,k·bi,kmodN。这里,<ai,k>A,<ai,k>B,<bi,k>A和<bi,k>B都是ZN环里的随机数。CSP和ESP标记<ri,k>A←ri,k,<ri,k>B←0,然后CSP和ESP在<hi,k>A,<hi,k>B,<ri,k>A,<ri,k>B上运行秘密共享乘法协议(Beaver,Efficient multiparty protocols using circuitrandomization(使用电路随机化的高效多方协议),Annual International CryptologyConference(美洲密码学会),1991,420–432)得到δi,k的共享份<δi,k>A,<δi,k>B,δi,k=hi,k·ri,k mod N,该秘密共享乘法协议主要包括以下步骤:
S3.4.1 CSP和ESP分别计算<hi,k>A-<ai,k>AmodN,<hi,k>B-<ai,k>Bmod N,<ri,k>A-<bi,k>AmodN和<ri,k>B-<bi,k>Bmod N,并分别将结果记为<ei,k>A,<ei,k>B,<fi,k>A和<fi,k>B
S3.4.2CSP将<ei,k>A,<fi,k>A发送给ESP,ESP将<ei,k>B,<fi,k>B发送给CSP;并分别计算ei,k=<ei,k>A+<ei,k>BmodN,fi,k=<fi,k>A+<fi,k>BmodN;
S3.4.3 CSP计算<δi,k>A=<ci,k>A+<bi,k>A·ei,k+<ai,k>A·fi,kmodN,ESP计算<δi,k>B=<ci,k>B+<bi,k>B·ei,k+<ai,k>B·fi,k+ei,k·fi,kmodN,<δi,k>A和<δi,k>B即为秘密共享乘法协议的输出;
S3.5对每一个δ'i,k,k∈{1,2,···,l},ESP从ZN中随机挑选一个ωi,计算<δi,k>BimodN,并将结果标记为<δi,k>B';然后将所有的{<δi,1>B',<δi,2>B',···,<δi,l>B'}发送给CSP;
S3.6 CSP收到ESP传输的{<δi,1>B',<δi,2>B',···,<δi,l>B'}后,对每一个δ'i,k,k∈{1,2,···,l}计算δi,k=<δi,k>A+<δi,k>B'modN,然后,CSP在{δi,1i,2,···,δi,l}上运行随机排序函数,将其排序为{δ'i,1,δ'i,2,···,δ'i,l},并将{δ'i,1,δ'i,2,···,δ'i,l}发送给ESP;
S3.7 ESP收到{δ'i,1,δ'i,2,···,δ'i,l}后,对每一个δ'i,k,k∈{1,2,···,l},ESP计算δi,k'-ωimodN,然后把计算结果标记为δi,k”;如果这其中有一个δi,k”为0,ESP记βi=1,否则,记βi=0。
S3.8 CSP和ESP标记<oi>A=αimodN和<oi>B=-βimodN,然后将<oi>A,<oi>B,<oi>A,<oi>B作为输入,运行秘密共享乘法协议即可得到秘密共享比较协议的结果<qi>A和<qi>B,这里
Figure BDA0002366877750000061
S4根据S3中的秘密共享比较协议的结果,即{<q1>,<q2>,···,<qm>},CSP和ESP协同计算加入虚拟节点后的决策树所表示的多项式,并将结果发送给用户。多项式每一个项都是这些布尔函数值的乘法和加法的组合。由于加法可以直接通过本地计算得到,乘法可以利用3.4.1至3.4.3所示计算步骤得到;CSP和ESP就可以得到最后的共享计算结果<Lq>A和<Lq>B(多项式计算具体步骤参见(Bost等,Machine Learning Classification overEncrypted Data(加密数据上的机器学习分类研究),ISOC Network and DistributedSystem Security Symposium(ISOC网络与分布式系统安全研讨会),2015,4324-4325))。而后,CSP将<Lq>A发送给用户;ESP将<Lq>B发送给用户;
S5用户接收CSP和ESP发送的数据并相加:Lq←<Lq>A+<Lq>BmodN,q∈{1,2,···,m'},即可得到最终的分类标签Lq
与现有技术相比,本发明的有益效果是:
·用户的计算和通信开销最小。用户在整个决策树分类过程仅需要分割查询向量和恢复计算最后的分类标签,所有的运算都不包含耗时的加解密运算。此外,在整个分类过程中,用户也无需参与运算。
·本发明完全保护了决策树模型不被ESP和用户所获知。在本发明中,通过随机添加虚拟节点,ESP无法通过计数比较大小协议运行的次数来获知树节点数量和树的深度等模型信息。
·云的计算和通信开销仅与树的节点数量线性相关,不与树的深度指数相关。当前大多数工作都要求在原始决策树上添加大量虚拟节点,使之成为一个完全二叉树。本发明无需将原始决策树转换成完全二叉树,降低了云的计算和通信开销。
附图说明
图1是本发明的系统模型程图;
图2是本发明的总体流程图;
图3虚拟节点添加示意图(a)原始二叉树;(b)加入虚拟节点的二叉树;
图4是本发明秘密共享比较协议的计算性能测试图;
图5是本发明秘密共享比较协议的通信开销测试图。
具体实施方式
下面结合实例对本发明的实施方式进行进一步详细说明。
如图1所示,本发明针对云外包数据的隐私保护决策树分类方法,包括以下步骤:
第一步,CSP将原始决策树模型转换成二叉树,在二叉树上随机添加k个虚拟叶子节点,然后把这个树表示成多项式,最后将用于秘密共享计算的模数N发送给ESP和用户;
第二步,用户利用收到的N将自己的查询向量分割,并把分割后的数据分别传输给CSP和ESP;
第三步,CSP和ESP协同比较每一个树节点的阈值及其对应的查询向量数据,得到共享的比较结果;
第四步,根据比较结果,CSP和ESP协同计算加入虚拟节点以后的决策树表示的多项式,并将多项式计算结果发送给用户;
第五步,用户接收两个云发送的数据并相加,即可得到最终的分类标签。
本发明在真实通用机器学习数据集进行了测试,并评估了本发明的有效性。
1)实验设置
客户端使用一台个人笔记本电脑,配置为Intel i5-7200U CPU 8GB内存,CentOS7操作系统;CSP和ESP采用两台配置为Intel i5-8300H CPU 8GB内存,Ubuntu16.4操作系统的电脑。三台机器通过100Mbps网络连接。
2)秘密共享比较协议测试
由于秘密共享比较是整个分类过程中耗时最多的模块,通过实验测试了本发明秘密共享比较协议的计算和通信开销,实验结果如图4和图5所示。从图中可以看出本发明的秘密共享比较协议的计算和通信开销都随着输入数据的比特长度而线性增长。
3)真实数据集测试
本发明从著名的UCI机器学习数据集中选择了5个典型数据集作为代表,测试了提出的方法的效率。这个5个数据集分别是breast-cancer,heat-disease,housing,credit-screening和spambase,如表1所示。本实验首先使用Matlab提供的Classregtree和TreeBagger函数在原始数据集上训练出决策树模型;然后在训练的模型上测试本发明的计算和通信开销。实验测试表示两个云的通信和计算均在秒级和KB级。云的计算和通信开销与树节点的数目呈线性增长关系,最大的计算开销在5s内,最大的通信开销在100KB内。说明本发明具有良好的计算和通信效率,适合实际部署。
表1.真实数据集测试
数据集 查询向量长度 树深度 树节点数目 云计算时间 云通信开销
breast-cancer 9 8 12 0.480s 11.22KB
heat-disease 13 3 5 0.249s 5.94KB
housing 13 13 92 4.032s 99.42KB
credit-screening 15 4 5 0.309s 5.99KB
spambase 57 17 58 3.027s 58.91KB

Claims (1)

1.一种针对云外包数据的隐私保护决策树分类方法,其特征在于,包括如下步骤:
S1 CSP将原始的决策树转换成二叉树,然后在二叉树模型上随机加入k个虚拟节点,并将这个树表示成多项式形式,最后将秘密共享的模数N发送给ESP和用户,N为自然数;具体如下:
S1.1 CSP将所有的虚拟节点都添加到原始决策树上的叶子节点处,且添加位置随机;原始的决策树有p个叶子节点,随机选择p'个叶子节点,且p'≤p,
Figure FDA0002366877740000011
将每一个选中的叶子节点分别替换为一个虚拟节点,并为这个虚拟节点生成两个与原始被替换节点具有相同标签的叶子节点,同时为虚拟节点随机赋值;
S1.2 CSP将添加了虚拟节点的决策树表示成多项式形式;对于决策树的叶子节点,CSP将其关联到该节点代表的分类标签,即Lq,q∈{1,2,···,m'},m'表示分类标签的数量;对于决策树的每一个中间节点,CSP都为其设置一个布尔函数,即f(xi)=1{xi<sj},xi表示中间节点的阈值,sj表示该中间节点对应的查询向量中的某一个数,i∈{1,2,···,m},j∈{1,2,…,n},m表示决策树中间节点数量,n表示待查询向量长度;如果这个布尔函数的值为1,则指向该节点的左孩子节点,否则指向右孩子节点;假定该节点的左孩子节点、右孩子节点分别是b1和b2,且该节点的布尔函数结果为oi,那么该节点的多项式表示为oi·b1+(1-oi)·b2;按此方法,CSP可以得到整个决策树的多项式表示,该多项式的每一项都表示一条从根节点到叶子节点的路径;
S1.3 CSP向用户和ESP发送用于秘密共享的模数N;
S2用户利用收到的N将待查询数据的特征向量分割,并把分割后的数据分别传输给CSP和ESP;假设用户待查询数据的特征向量每一个数以及决策树中每一个节点的阈值的比特长度最长为l,l是自然数,对于待查询数据的特征向量
Figure FDA0002366877740000012
用户首先将所有的查询向量里的每一个数sj实施比特分解,即sj={sj,1,sj,2,···,sj,l},然后利用秘密共享的模数N将每一个比特分割成两部分;具体而言,对于每一个sj,k,j∈{1,2,…,n},k∈{1,2,···,l},k是自然数,用户从整数环ZN中选择一个随机数
Figure FDA0002366877740000013
并令
Figure FDA0002366877740000014
Figure FDA0002366877740000015
分割完成后,用户将<sj,k>A和<sj,k>B分别发送给CSP和ESP,两者相加并模N,可得原始数据;<·>A表示属于CSP的共享数据,<·>B表示属于ESP的共享数据,<·>表示某个共享于CSP和ESP的数;
S3 CSP和ESP运行秘密共享比较协议,比较每一个中间节点阈值xi,i∈{1,2,…,m},及其对应的查询向量数据<sj>,得到共享的比较结果{<q1>,<q2>,···,<qm>};xi与<sj>的秘密共享比较协议主要包括以下步骤:
S3.1 CSP将每一个xi比特分解为xi,1,xi,2,···,xi,l;然后计算((xi,k+<sj,k>A)mod2)·2kmod N,并将结果记为<di,k>A;ESP计算(-<sj,k>Bmod2)·2kmod N,并将结果记为<di,k>B,k∈{1,2,···,l};
S3.2 CSP从{0,1}中随机挑选一个数并记为α,然后计算1-2αmod N,并将结果记为γ;随后,CSP从ZN中随机挑选l个随机数ri,1,ri,2,···,ri,l
S3.3对于所有的k∈{1,2,···,l},CSP计算
Figure FDA0002366877740000021
Figure FDA0002366877740000022
并将它们分别标记为<hi,0>A和<hi,k>A;ESP计算
Figure FDA0002366877740000023
Figure FDA0002366877740000024
并将它们分别标记为<hi,0>B和<hi,k>B
S3.4 CSP和ESP共享预计算的乘法三元组即<ci,k>A,<ai,k>A,<bi,k>A和<ci,k>B,<ai,k>B,<bi,k>B,满足ci,k=ai,k·bi,kmod N;这里,<ai,k>A,<ai,k>B,<bi,k>A和<bi,k>B都是ZN环里的随机数;CSP和ESP标记<ri,k>A←ri,k,<ri,k>B←0,然后CSP和ESP在<hi,k>A,<hi,k>B,<ri,k>A,<ri,k>B上运行秘密共享乘法协议得到δi,k的共享份<δi,k>A,<δi,k>B,δi,k=hi,k·ri,kmod N,该秘密共享乘法协议主要包括以下步骤:
S3.4.1CSP和ESP分别计算<hi,k>A-<ai,k>Amod N,<hi,k>B-<ai,k>Bmod N,<ri,k>A-<bi,k>Amod N和<ri,k>B-<bi,k>Bmod N,并分别将结果记为<ei,k>A,<ei,k>B,<fi,k>A和<fi,k>B
S3.4.2CSP将<ei,k>A,<fi,k>A发送给ESP,ESP将<ei,k>B,<fi,k>B发送给CSP;并分别计算ei,k=<ei,k>A+<ei,k>Bmod N,fi,k=<fi,k>A+<fi,k>Bmod N;
S3.4.3CSP计算<δi,k>A=<ci,k>A+<bi,k>A·ei,k+<ai,k>A·fi,kmod N,ESP计算<δi,k>B=<ci,k>B+<bi,k>B·ei,k+<ai,k>B·fi,k+ei,k·fi,kmod N,<δi,k>A和<δi,k>B即为秘密共享乘法协议的输出;
S3.5对每一个δ'i,k,k∈{1,2,···,l},ESP从ZN中随机挑选一个ωi,计算<δi,k>Bimod N,并将结果标记为<δi,k>B';然后将所有的{<δi,1>B',<δi,2>B',···,<δi,l>B'}发送给CSP;
S3.6 CSP收到ESP传输的{<δi,1>B',<δi,2>B',···,<δi,l>B'}后,对每一个δ'i,k,k∈{1,2,···,l}计算δi,k=<δi,k>A+<δi,k>B'mod N,然后,CSP在{δi,1i,2,···,δi,l}上运行随机排序函数,将其排序为{δ'i,1,δ'i,2,···,δ'i,l},并将{δ'i,1,δ'i,2,···,δ'i,l}发送给ESP;
S3.7 ESP收到{δ'i,1,δ'i,2,···,δ'i,l}后,对每一个δ'i,k,k∈{1,2,···,l},ESP计算δi,k'-ωimod N,然后把计算结果标记为δi,k”;如果这其中有一个δi,k”为0,ESP记βi=1,否则,记βi=0;
S3.8 CSP和ESP标记<oi>A=αimod N和<oi>B=-βimod N,然后将<oi>A,<oi>B,<oi>A,<oi>B作为输入,运行秘密共享乘法协议即可得到秘密共享比较协议的结果<qi>A和<qi>B,这里
Figure FDA0002366877740000031
S4根据S3中的秘密共享比较协议的结果,即{<q1>,<q2>,···,<qm>},CSP和ESP协同计算加入虚拟节点后的决策树所表示的多项式,并将结果发送给用户;多项式每一个项都是这些布尔函数值的乘法和加法的组合;由于加法可以直接通过本地计算得到,乘法可以利用3.4.1至3.4.3所示计算步骤得到;CSP和ESP就可以得到最后的共享计算结果<Lq>A和<Lq>B;而后,CSP将<Lq>A发送给用户,ESP将<Lq>B发送给用户;
S5用户接收CSP和ESP发送的数据并相加:Lq←<Lq>A+<Lq>Bmod N,q∈{1,2,···,m'},即可得到最终的分类标签Lq
CN202010038483.XA 2020-01-14 2020-01-14 一种针对云外包数据的隐私保护决策树分类方法 Active CN111259440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010038483.XA CN111259440B (zh) 2020-01-14 2020-01-14 一种针对云外包数据的隐私保护决策树分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038483.XA CN111259440B (zh) 2020-01-14 2020-01-14 一种针对云外包数据的隐私保护决策树分类方法

Publications (2)

Publication Number Publication Date
CN111259440A true CN111259440A (zh) 2020-06-09
CN111259440B CN111259440B (zh) 2022-04-19

Family

ID=70954085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038483.XA Active CN111259440B (zh) 2020-01-14 2020-01-14 一种针对云外包数据的隐私保护决策树分类方法

Country Status (1)

Country Link
CN (1) CN111259440B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112511525A (zh) * 2020-11-24 2021-03-16 山西三友和智慧信息技术股份有限公司 一种网站恶意第三方内容检测方法及系统
CN117579258A (zh) * 2023-10-31 2024-02-20 西安电子科技大学 一种安全高效的分布式k-d树构建方法
CN117725620A (zh) * 2024-02-07 2024-03-19 蓝象智联(杭州)科技有限公司 一种基于决策树的分类结果公开验证隐私保护方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107734054A (zh) * 2017-11-06 2018-02-23 福州大学 安全云存储中的加密数据检索系统
US20190190714A1 (en) * 2017-12-20 2019-06-20 Nxp B.V. Privacy-preserving evaluation of decision trees
CN110008717A (zh) * 2019-02-26 2019-07-12 东北大学 支持隐私保护的决策树分类服务系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107734054A (zh) * 2017-11-06 2018-02-23 福州大学 安全云存储中的加密数据检索系统
US20190190714A1 (en) * 2017-12-20 2019-06-20 Nxp B.V. Privacy-preserving evaluation of decision trees
CN110008717A (zh) * 2019-02-26 2019-07-12 东北大学 支持隐私保护的决策树分类服务系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HYEONG-JIN KIM,等: "Privacy-Preserving Association Rule Mining Algorithm for Encrypted Data in Cloud Computing", 《2019 IEEE 12TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING》 *
李远航等: "面向差分隐私保护的随机森林算法", 《计算机工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214733A (zh) * 2020-09-30 2021-01-12 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112214733B (zh) * 2020-09-30 2022-06-21 中国科学院数学与系统科学研究院 面向隐私保护的分布式估计方法、系统与可读存储介质
CN112511525A (zh) * 2020-11-24 2021-03-16 山西三友和智慧信息技术股份有限公司 一种网站恶意第三方内容检测方法及系统
CN112511525B (zh) * 2020-11-24 2022-07-22 山西三友和智慧信息技术股份有限公司 一种网站恶意第三方内容检测方法及系统
CN117579258A (zh) * 2023-10-31 2024-02-20 西安电子科技大学 一种安全高效的分布式k-d树构建方法
CN117579258B (zh) * 2023-10-31 2024-09-10 西安电子科技大学 一种安全高效的分布式k-d树构建方法
CN117725620A (zh) * 2024-02-07 2024-03-19 蓝象智联(杭州)科技有限公司 一种基于决策树的分类结果公开验证隐私保护方法及系统
CN117725620B (zh) * 2024-02-07 2024-04-30 蓝象智联(杭州)科技有限公司 一种基于决策树的分类结果公开验证隐私保护方法及系统

Also Published As

Publication number Publication date
CN111259440B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN111259440B (zh) 一种针对云外包数据的隐私保护决策树分类方法
Kiss et al. SoK: Modular and efficient private decision tree evaluation
Liu et al. Oblivious neural network predictions via minionn transformations
Suhail et al. On the role of hash-based signatures in quantum-safe internet of things: Current solutions and future directions
Tueno et al. Private evaluation of decision trees using sublinear cost
JP5957918B2 (ja) 暗号化技術を用いたツリーに基づく分類のための方法及び装置
US8130947B2 (en) Privacy preserving social network analysis
Wang et al. Privacy-preserving pattern matching over encrypted genetic data in cloud computing
CN108712260A (zh) 云环境下保护隐私的多方深度学习计算代理方法
Joye et al. Private yet efficient decision tree evaluation
Xie et al. Achieving privacy-preserving online diagnosis with outsourced SVM in internet of medical things environment
Niu et al. Toward verifiable and privacy preserving machine learning prediction
Liang et al. Efficient and privacy-preserving decision tree classification for health monitoring systems
Guo et al. A privacy-preserving online medical prediagnosis scheme for cloud environment
Teo et al. DAG: a general model for privacy-preserving data mining
Erkin et al. Privacy enhanced recommender system
Xue et al. Secure and privacy-preserving decision tree classification with lower complexity
Wang et al. PeGraph: A system for privacy-preserving and efficient search over encrypted social graphs
Meng et al. Privacy-preserving xgboost inference
Wu et al. Efficient privacy-preserving frequent itemset query over semantically secure encrypted cloud database
Reyad et al. Hash-enhanced elliptic curve bit-string generator for medical image encryption
Liu et al. Secure and fast decision tree evaluation on outsourced cloud data
Saha et al. Outsourcing private equality tests to the cloud
Liu et al. Efficient and Privacy-Preserving Logistic Regression Scheme based on Leveled Fully Homomorphic Encryption
Sumaryanti et al. Improvement security in e-business systems using hybrid algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant