CN110008717B

CN110008717B - 支持隐私保护的决策树分类服务系统及方法

Info

Publication number: CN110008717B
Application number: CN201910142676.7A
Authority: CN
Inventors: 徐剑; 王安迪; 王琛
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2023-04-11
Anticipated expiration: 2039-02-26
Also published as: CN110008717A

Abstract

本发明属于机器学习与隐私保护领域，具体涉及一种支持隐私保护的决策树分类服务系统及方法。所述服务系统包括模型拥有者模块、客户端模块、云服务模块以及密文运算模块；所述方法包括准备阶段及分类阶段。本发明提出了一个面向云端加密数据的支持隐私保护的决策树分类器，设计与实现了支持隐私保护的决策树分类服务系统；利用用户上传的加密数据无法恢复出原始数据，保证外包计算过程的隐私保护，通过将大规模的数据外包到存储、计算资源强大的第三方服务器上，降低用户本地基础设施投资与管理，进而产生更多的经济效益。

Description

支持隐私保护的决策树分类服务系统及方法

技术领域

本发明属于机器学习与隐私保护领域，具体涉及一种支持隐私保护的决策树分类服务系统及方法。

背景技术

目前，针对数据分类过程中的隐私保护研究方法主要有三类：1)数据扰动技术，直接通过添加随机噪声的方式来扰动各个数据记录的值，使得扰动数据的分布看起来与实际数据的分布非常不同。但是扰动数据不具备语义安全性，并且对于分类器而言，无法产生精确的分类结果；2)安全多方计算(Secure Multi-Party Computation,SMC)及其衍生技术，如安全信息检索(PIR)技术、安全数据挖掘(PPDM)技术。这类技术假定数据集是水平或垂直分割并分布存储在各参与方的。各参与方之后可以联合对数据进行挖掘并得出数据挖掘结果，且在处理过程中，各方数据不会泄露给其他方仅被自身获知。然而，这类方法的中间计算任务是基于非加密数据，且数据在传输过程中也是未加密的，容易在数据传输过程泄露隐私信息；3)同态加密技术，相较于传统的只支持密文存储的加密算法，其允许用户直接对密文进行特定的代数运算，得到的数据仍是加密的结果，且与对明文进行同样的操作再将结果加密一样，主要包括全同态加密和部分同态加密技术。全同态加密技术理论上允许第三方在未解密的条件下对密文执行任意运算，但是其在实际应用中仍旧存在一些约束，例如，计算代价昂贵；只支持整数类型的数据；需要固定的乘法深度，不能无限进行加法和乘法运算；以及全同态加密不支持比较和取最值运算等。部分同态加密技术，能够满足乘法或加法同态属性，然而，依然无法支持比较和取最值运算。

综上所述，现有的隐私保护技术无法直接运用于数据分类过程的隐私保护当中，其实际应用存在以下约束：1)当前技术无法保证数据的语义安全，分类结果不精确；2)数据以明文形式传输，无法保证数据在传输过程中不被窃取造成隐私泄露；3)针对加密数据，全同态加密虽然能够满足任意运算但效率低下，部分同态加密仅支持加法或者乘法运算，且两者都不支持比较和求最值运算。

为解决上述问题，大量学者纷纷开展了数据分类过程的隐私保护研究工作，其中将安全多方计算与同态加密算法结合是解决数据分类过程中隐私泄露的主流方法。在该方法中，数据通过同态加密算法进行加密，然后结合安全多方计算的原理，构造面向加密数据的安全协议，如比较协议，求最小值协议等。该安全协议基于交互式环境，参与方A将增加随机噪音的加密数据发送给参与方B，传输过程为密文传输，能够防止中间人攻击，参与方B接收数据后，基于密文进行运算，然后刷新运算结果并返回给参与方A，参与方A去除噪声数据，得到密文结果。安全协议能够面向密文数据进行运算，且保证不泄露各输入值和中间结果给参与计算的其他方获知，很好的保证了密文数据的隐私安全。

虽然，同态加密算法和安全多方计算结合部分解决了密文数据上的比较、求最小值等运算，但是，分类器种类的多样性以及自身结构的复杂性使得通过该方法构造分类器时在安全性、效率以及可用性方面存在一些不足之处，具体如下：

安全性方面：现有的构造分类器的研究中对于数据的隐私安全保护考虑不全面，已有的方案仅能支持训练数据、分类模型、用户输入数据及输出结果中单个或几个的隐私安全，无法同时保证全部数据的隐私安全。同时，对同态加密的私钥缺乏有效的管理，私钥数据容易被不法分子窃取。

效率方面：现有的构造分类器的安全协议基于交互式环境，对设备的网络带宽有一定的依赖，由于安全多方计算，参与方的计算量是相同的，因此对于设备的计算能力也有一定的要求，对于一些资源受限的轻量级设备来说，是难以接受，同时协议的执行需要多次交互和大量数据传输，网络延迟也会对协议的执行产生影响。

可用性方面：现有的构造分类器的研究中分类器的构造过于单一，已有的方案仅设计针对特定分类器的安全协议，缺少普适性，不能适应实际广泛的应用场景。同时，在机器学习分类器分类过程中，要求模型提供者与用户全程在线，且用户仍要参与大量的密文运算，这与用户交付服务方进行数据分类预测的初衷相悖，缺乏实用性。

随着云计算的快速发展以及隐私意识的提高，数据拥有者倾向于将数据加密之后外包给外包服务提供商，同时希望外包服务提供商能够具有加密数据的分析计算能力，以便减轻自身的存储和计算负担，因此，外包环境下的加密数据的机器学习分类器随之诞生。外包环境下的加密数据的机器学习分类器是面向加密数据的机器学习分类器与外包计算相结合发展起来的产物，该分类器包含三方参与实体，即模型拥有者模块、分类服务提供者以及查询用户。模型拥有者模块负责上传加密的训练模型以及同态加密密钥管理，分类服务提供者负责存储加密的分类模型以及提供加密数据的分类服务，查询用户则是加密查询数据的提交者，即分类服务提供者的服务对象，其上传加密查询数据后，等待然后得到最终的分类结果。本发明以决策树分类器为研究对象，提出了一个面向云端加密数据的支持隐私保护的决策树分类器，实现了加密模型上传与存储、加密数据分类以及分类结果可视化等功能。

发明内容

针对上述存在的技术问题，本发明提供一种支持隐私保护的决策树分类服务系统，所述服务系统包括：模型拥有者模块、客户端模块、云服务模块以及密文运算模块；

所述模型拥有者模块是原始训练数据拥有者，主要负责通过学习算法对训练数据进行训练得到分类模型，同态加密算法的密钥生成及分发到云服务器和客户端，模型进行加密，模型上传及定期更新到云服务器中；

所述云服务器是分类服务提供者，负责存储模型和提供分类服务、模型及处理的数据皆为密文；

所述客户端只需发送加密的查询数据，等待后可获知加密的分类结果，解密后得到结果；

所述密文运算模块包含三部分：1)密文比较协议：实现ElGamal加密数据的比较，用于决策树模型中阈值的比较；2)密文转换协议：实现密文数据从一种同态加密到另一种同态加密的数据转换，用于GM同态加密算法到ElGamal同态加密算法的转换；3)密文决策树分类器：调用密文比较协议以模块线性组合方式构造半诚实模型下安全的决策树分类器。

一种支持隐私保护的决策树分类服务系统的控制方法，采用所述的支持隐私保护的决策树分类服务系统，分为准备阶段及分类阶段：

一、所述准备阶段包括以下步骤：

步骤1，密钥生成：

首先由模型拥有者模块进行密钥生成；

所述模型拥有者模块生成用于加解密的ElGamal同态加密算法的公私钥对＜pk_e,sk_e>及GM同态加密算法的公私钥对<pk_gm,sk_gm>，其中公钥为pk_e，pk_gm，私钥为sk_e，sk_gm；pk_e，pk_gm公开，用于数据的加密；

步骤2，秘钥分发：

当客户端发送分类请求时，所述模型拥有者模块将用于解密的私钥sk_e，sk_gm通过可信通道发送给客户端；

步骤3，获取训练数据，选择决策树分类算法作为机器学习算法，对训练数据进行训练得到分类模型W；

步骤4，模型转换：

对分类模型W进行模型转换，将该模型树结构中从根结点到每一叶子结点的路转换为线性函数；

所述模型拥有者模块使用同态加密算法对分类模型W进行加密；通过决策树算法得到的模型为二叉决策树，其包括阈值和树结构两部分，对树结构进行模型转换，将其转换为线性函数；

步骤5，模型加密：

使用公钥对该模型进行加密；

步骤6，发送模型：

将加密后的模型发送给CS；

步骤7，模型拥有者模块下线，不再参与后面的分类工作；

二、所述分类阶段包括以下步骤：

步骤1，云服务器启动服务，等待客户端发送分类请求；

步骤2，客户端选择查询数据x，其次使用公钥对查询数据x进行加密，然后将加密后的查询数据E(x)发送到云服务器；

步骤3，当云服务器得到加密查询数据E(x)后，根据数据类型选择加密模型E(W)；

步骤4，云服务器在客户端的辅助分类处理的配合下执行分类处理，得到加密的分类结果E(R)，将其发送给客户端；

步骤5，客户端得到加密的分类结果E(R)后，使用私钥对E(R)解密，得到最终的分类结果R，R表示分类标签v_j。

所述准备阶段的步骤1中具体包括以下步骤：

步骤1.1，ElGamal同态加密

ElGamal同态加密算法满足单一的乘法同态，为满足系统的需要，对该算法进行改进，使其满足加法同态和数乘同态，改进后的ElGamal加密算法描述如下：

步骤1.1.1，生成公私钥；

输入安全参数λ，利用群系统生成算法生成(G,p,g)←Gen(1^λ)，其中p是长度为λ的奇素数，g是循环群

的生成元，均匀随机选取

gcd(α,p)＝1，计算y＝g^xmodp；输出公钥(y,g,p,α)，私钥为x；

步骤,1.1.2，加密；

被加密的信息为M，选择一个随机数k，k与p-1互质，计算a＝g^kmodp，b＝y^k·α^Mmodp，(a,b)为密文，是明文的两倍长；

步骤1.1.3，解密；

根据α^M＝b/a^x(modp)，进而求对数得到：M＝log_αα^M；只需部分解密到α^M即可，无需完全解密；

步骤1.2，GM同态加密；

GM同态加密算法，即Goldwasser-Micali同态加密算法是第一个在标准模型下被证明是语义安全的加密算法，其安全性是基于判定二次剩余假设，具体密钥生成算法描述如下：

假设GenMod是一个模数生成算法，安全参数为λ；GM算法GM＝(Gen,Enc,Dec)包括以下步骤：

步骤1.2.1，Gen输入安全参数λ，调用GenMod(1^λ)，生成(N,p,q)；其中p,q是两个长度为λ的互异奇素数，并且y←QNR⁺；公钥为(N,y)，私钥为(p,q)；

步骤1.2.2，Enc输入公钥N，被加密信息为

是m的二进制表示，m_i∈{0,1}；对于每个i∈[l]，随机选择

令

输出c:＝c₁…c_l为密文；

步骤1.2.3，Dec输入密文c:＝c₁…c_l，对于每个i∈[l]，如果c_i∈QR_N，则m_i:＝0；如果c_i∈QNR⁺则m_i:＝1；其他则m_i＝⊥；输出m:＝m₁…m_l；

其中QNR⁺表示

中关于乘法的非二次平方剩余类的集合，QR_N表示

中关于乘法的平方剩余类的集合，⊥表示计算错误，或者无效的结果，甚至是不允许的行为。

所述准备阶段的步骤4中具体包括以下步骤：

步骤4.1，将阈值转换为布尔型数值；

比较属性值x_i和判定结点阈值n_i大小，属性值x_i即所述查询数据x的第i个属性值，比较结果表示为：

其中树结构的判定结点阈值为b_i，其中b₁为根结点阈值；叶子结点取值为v_j，即分类标签；

若b_i＝1，则走左子树，若b_i＝0，则走右子树；记结点到左子树的路径花销为e_i,l＝1-b_i，到右子树的路径花销为e_i,r＝b_i，l表示左子树，r表示右子树；

步骤4.2，计算从根结点到每个叶子结点的路径花销；若有6个叶子结点，则从根结点b₁到叶子结点的路共有6条，其总路径花销为

b表示判定结点阈值的集合，如下式所示，6条路分别为：

步骤4.3，将二叉决策树模型转换为线性函数；从根结点到每个叶子结点的路径对应于一个线性函数，表示为

若有6个叶子结点，则可转换为6个线性函数，前3个线性函数为：

根据上述过程，模型W可以表示为多个线性函数及判定结点{h(b)_vj,n_i}，i表示第i个判定结点，j表示第j个叶子结点；

经过上述转换只需通过计算线性函数便可获知最终的预测结果。

所述分类阶段步骤4中所述的分类过程具体为：

通过密文决策树分类器，调用密文比较协议以模块线性组合方式构造半诚实模型下安全的决策树分类器；

所述密文决策树分类器中，U和CS均是半诚实的，且在分类开始之前，除公开发表的公钥外，客户端U和云服务器CS分别拥有一些隐私信息，其中U拥有查询数据x＝(x₁,..,x_m)及私钥sk_e,sk_gm，CS拥有加密的分类模型

和

的参数b是未知的，需要U和CS通过执行协议1获取得到每个b_i的值，然后执行协议3计算各路径花销

和线性函数

的值，获取最终的分类结果；设判定结点个数为m，即i∈{1,...,m}；叶子结点个数为k，即j∈{1,...,k}；线性函数个数为n；

所述分类过程包括以下步骤：

步骤4.1，在DTreeClassifer分类协议中，U分别使用GM和ElGamal同态加密算法的公钥对输入数据x_i按位进行加密，得到加密数据[x_i]_e,[x_i]_gm后再发送给CS，CS没有对应的私钥sk_e,sk_gm无法对U加密数据[x_i]_e,[x_i]_gm进行解密，保证了U输入数据x_i的安全；

步骤4.2，CS和U联合执行PvtCmp密文比较协议，CS获取ElGamal加密的加密数据[b_i]_e，在该协议执行过程中，U无法获知CS的输入数据和输出结果，保证了CS的输入和输出结果的隐私安全，CS仅得到加密的输出结果保证了DTreeClassifer协议运算过程中中间数据的隐私安全；

步骤4.3，CS将加密的加密数据[b_i]_e带入到路径花销

和线性函数

中进行计算，由于ElGamal加密算法的加法同态性质，CS可以得到与明文相同的执行结果，且能够保证数据的安全性；为

和

增加干扰r_i，保证路径花销和线性函数的数据安全，将增加干扰后的

和

发送到U，U解密

和

得到

和

若解密后的路径花销

为0，则对应的

为最终的分类标签；在此执行过程中，U解密后得到的是增加干扰后的值，其中

因此解密后也不能获取原有数据，保证了分类模型仅能被数据拥有者获知；当且仅当

为0时，U得到的

才是分类标签，因此保证了U仅能获知查询数据所属的分类，而不能获知除此之外的其他分类标签信息；综上所述，DTreeClassifer分类协议既保证了客户端输入数据及输出结果的安全性也保证了分类模型的安全性，实现了决策树分类器的分类过程的隐私保护。

所述分类阶段步骤4中，所述密文比较协议用于实现ElGamal加密数据的比较，用于分类模型中判定结点阈值n_i和属性值x_i的比较；比较操作是决策树分类器执行分类处理的核心操作，为满足决策树分类服务系统的需要，基于PvtCmp(Private comparisonprotocol)比较协议，具体为：

计算

其中i∈{1,..,t},若存在i∈{1,..,t}使得c_i＝0成立，则

其中x＝(x₁,...,x_t),y＝(y₁,...,y_t)均为二进制形式，t表示x和y的二进制位数，客户端U和云服务器CS输入数据的二进制位数相等；

PvtCmp比较协议由两方参与，U和CS，设U的输入数据为[x]_e,[x]_gm，CS的输入数据为[y]_e,[y]_gm，以二进制加密形式表示，二进制位数相等，长度为t，具体包括以下步骤：

步骤4.1，U将加密的输入数据[x]_e,[x]_gm发送给CS；

步骤4.2，CS接收U的加密的输入数据[x]_e,[x]_gm，然后从{0,1}中随机选择一个数，记为b₁，计算s←1-2b₁，然后执行两层循环，外循环次数为t，内循环次数为j＜i,i＝1,...,t，内循环中先计算x_j,y_j的异或结果

再使用密文转换协议将异或结果

转换为

接着对异或结果

进行求和得到

内循环结束后，计算

并选择随机值r_i将其添加到

中得到

一次外循环结束得到[c_i]_e，则t次外循环结束后可得[c]_e＝([c₁],....[c_t])_e；CS将结果[c]_e＝([c₁],....[c_t])_e发送给U；

步骤4.3，U接收并解密[c]_e，判断是否存在i∈{1,..,t}使得c_i＝0成立，若存在，则b₂＝1，否则b₂＝0；将b₂进行加密得到[b₂]_e并将其发送给CS；

步骤4.4，CS接收[b₂]_e，计算

其中[b]_e≡[x＜y]_e，即若b＝1，则x＜y，否，则x≥y；

所述步骤4.1-4.4中，U接收[c]_e并解密，由于r_i的存在，U不能获知其真实值，保证了CS输入数据y的安全性；CS接收U的x和b₂，两者皆为密文表示，CS没有私钥无法解密，保证了U中输入数据x和中间数据b₂的安全性；运算过程均基于密文操作，因此，该PvtCmp比较协议同时保证了客户端与云服务器相关数据的安全性。

所述分类阶段步骤4中所述的密文转换协议用于实现加密数据从一种同态加密到另一种同态加密的数据转换，用于GM同态加密的加密数据到ElGamal同态加密的加密数据的转换，同时保证加密数据的隐私安全；其应用场景为参与方A拥有两个同态加密算法的公钥pk₁,pk₂以及pk₁加密的加密数据[c]₁，参与方B拥有相应同态加密算法的私钥sk₁,sk₂，通过执行密文转换协议，A最终得到pk₂加密的加密数据[c]₂；在上述过程中，B不会获知任何与A输入数据[c]₁其明文数据c相关的信息；

所述密文转换协议在密文比较协议中使用用于实现GM同态加密算法加密的加密数据到ElGamal同态加密算法加密的加密数据的转换，pk₁表示GM的公钥pk_gm，pk₂表示ElGamal的公钥pk_e，[c]₁表示GM加密的加密数据，其中c表示

本发明的有益效果：

本发明以决策树分类器为研究对象，在此基础上，提出了一个面向云端加密数据的支持隐私保护的决策树分类器，设计与实现了支持隐私保护的决策树分类服务系统。

本发明利用用户上传的加密数据无法恢复出原始数据，保证外包计算过程的隐私保护，通过将大规模的数据外包到存储、计算资源强大的第三方服务器上，降低用户本地基础设施投资与管理，进而产生更多的经济效益；

本发明提出了一个面向云端加密数据的支持隐私保护的决策树分类器。给出了分类器的整体框架，描述了分类器的基本组成与实体构成，对决策树训练及分类过程进行了详细研究，设计了对应于明文操作的安全密文协议，使得密文的操作结果解密后与执行相同明文操作一致，并对决策树模型进行了转换使其适应于密文数据操作。

本发明设计合理，易于实现，具有很好的实用价值。

附图说明

图1为本发明具体实施方式中所述系统准备阶段流程图；

图2为本发明具体实施方式中所述系统准备阶段的模型转换流程图；

图3为本发明具体实施方式中所述变换二叉树决策树生成图；

图4为本发明具体实施方式中所述系统分类阶段流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明做出进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明基于机器学习，提出了一种支持隐私保护的决策树分类服务系统及控制方法，所述服务系统包括：模型拥有者模块、客户端模块、云服务模块以及密文运算模块；

所述服务系统的控制方法分为准备阶段及分类阶段：

一、所述准备阶段如图1所示，包括以下步骤：

步骤1，密钥生成：

所述服务系统的数据安全是基于同态加密算法的安全的，因此在准备阶段首先由模型拥有者模块进行密钥生成；

所述同态加密算法描述了一类加密算法，其拥有的同态属性为：能够在密文上直接执行操作，且密文操作的结果解密后获得的结果与明文上执行相同操作的结果一致；其定义的数学表示为：对于一个加密算法，其在明文空间上执行的操作为

例如加法；如果存在相应的可在密文空间上执行的操作

称满足下式的加密算法为同态加密算法；

其中，m1,m2为明文数据，pk表示公钥用于加密,sk表示私钥用于加密，Enc(.)表示加密函数，其输入为明文数据，输出为加密数据，Dec(.)表示解密函数，其输入为加密数据输出为明文数据；

所述模型拥有者模块生成用于加解密的ElGamal同态加密算法的公私钥对<pk_e,sk_e>及GM同态加密算法的公私钥对<pk_gm,sk_gm＞，其中公钥为pk_e，pk_gm，私钥为sk_e，sk_gm；pk_e，pk_gm公开，用于数据的加密，具体包括以下步骤：

步骤1.1，ElGamal同态加密

步骤1.1.1，生成公私钥；

的生成元，均匀随机选取

gcd(α,p)＝1，计算y＝g^xmodp；输出公钥(y,g,p,α)，私钥为x；

步骤,1.1.2，加密；

步骤1.1.3，解密；

根据α^M＝b/a^x(modp)，进而求对数得到：M＝log_αα^M；虽然求对数要付出很大的代价，需要在α^M的空间里搜索结果，但是本发明中有的只需部分解密到α^M即可，无需完全解密，减少了计算耗时；

步骤1.2，GM同态加密；

步骤1.2.2，Enc输入公钥N，被加密信息为

是m的二进制表示，m_i∈{0,1}；对于每个i∈[l]，随机选择

令

输出c:＝c₁…c_l为密文；

其中QNR⁺表示

中关于乘法的非二次平方剩余类的集合，QR_N表示

中关于乘法的平方剩余类的集合，⊥表示计算错误，或者无效的结果，甚至是不允许的行为；

步骤2，秘钥分发：

当客户端发送分类请求时，所述模型拥有者模块将用于解密的私钥sk_e，sk_gm通过可信通道发送给客户端，由于模型和私钥不归同一参与方所有，因此能够保证模型的隐私安全；

步骤4，模型转换：

为保证分类模型W的结构不被第三方获知，对其进行模型转换，将该模型树结构中从根结点到每一叶子结点的路转换为线性函数；

所述模型拥有者模块使用同态加密算法对分类模型W进行加密，以此保证模型的隐私安全；然而通过决策树算法得到的模型为二叉决策树，其包括阈值和树结构两部分，因此对树结构进行模型转换，将其转换为线性函数，从而保证了阈值及树结构两者的隐私安全，其转换流程如图2所示，具体为：

步骤4.1，将阈值转换为布尔型数值；

其中树结构的判定结点阈值为b_i，本实施例中，i∈{1,..,6}，其中b₁为根结点；叶子结点取值为v_j，即分类标签，本实施例中，j∈{1,..,6}；

本实施例如图3所示，若b_i＝1，则走左子树，若b_i＝0，则走右子树；记结点到左子树的路径花销为e_i,l＝1-b_i，到右子树的路径花销为e_i,r＝b_i，l表示左子树，r表示右子树；

步骤4.2，计算从根结点到每个叶子结点的路径花销；本实施例中，其有6个叶子结点，所以从根结点b₁到叶子结点的路共有6条，其总路径花销为

b表示判定结点阈值的集合，如下式所示，6条路分别为：

本实施例中，可转换为6个线性函数，前3个线性函数为：

经过上述转换只需通过计算线性函数便可获知最终的预测结果；

步骤5，模型加密：

由于要将该模型发送给非可信的第三方CS，因此在发送前使用公钥对该模型进行加密；

步骤6，发送模型：

将加密后的模型发送给CS；

步骤7，模型拥有者模块下线，不再参与后面的分类工作；

二、所述分类阶段如图4所示，包括以下步骤：

步骤1，云服务器启动服务，等待客户端发送分类请求；

步骤4，云服务器在客户端的辅助分类处理的配合下执行分类处理，得到加密的分类结果E(R)，将其发送给客户端，分类过程具体为：

和

和线性函数

步骤4.3，CS将加密的加密数据[b_i]_e带入到路径花销

和线性函数

和

和

发送到U，U解密

和

得到

和

若解密后的路径花销

为0，则对应的

为0时，U得到的

才是分类标签，因此保证了U仅能获知查询数据所属的分类，而不能获知除此之外的其他分类标签信息；综上所述，DTreeClassifer分类协议既保证了客户端输入数据及输出结果的安全性也保证了分类模型的安全性，实现了决策树分类器的分类过程的隐私保护；

步骤5，客户端得到加密的分类结果E(R)后，使用私钥对E(R)解密，得到最终的分类结果R，R表示分类标签v_j；

在上述的分类阶段，客户端仅能获知查询数据x及其分类结果R，无法获知真实的模型W，保证了模型W对于客户端的隐私保护，而云服务器既不能获知模型W的真实值也不能获知查询数据x及其分类结果R，保证了模型W、查询数据x及其分类结果R对于云服务器的隐私安全；

在步骤4中，所述密文比较协议用于实现ElGamal加密数据的比较，用于分类模型中判定结点阈值n_i和属性值x_i的比较；比较操作是决策树分类器执行分类处理的核心操作，为满足决策树分类服务系统的需要，基于PvtCmp(Private comparison protocol)比较协议，设计了本发明使用的PvtCmp比较协议，其核心思想为：计算

其中i∈{1,..,t},若存在i∈{1,..,t}使得c_i＝0成立，则

步骤4.1，U将加密的输入数据[x]_e,[x]_gm发送给CS；

再使用密文转换协议将异或结果

转换为

接着对异或结果

进行求和得到

内循环结束后，计算

并选择随机值r_i将其添加到

中得到

步骤4.4，CS接收[b₂]_e，计算

其中[b]_e≡[x＜y]_e，即若b＝1，则x＜y，否，则x≥y；

步骤4.1-4.4中，U接收[c]_e并解密，由于r_i的存在，U不能获知其真实值，保证了CS输入数据y的安全性；CS接收U的x和b₂，两者皆为密文表示，CS没有私钥无法解密，保证了U中输入数据x和中间数据b₂的安全性；运算过程均基于密文操作，因此，该PvtCmp比较协议同时保证了客户端与云服务器相关数据的安全性；

所述密文转换协议用于实现加密数据从一种同态加密到另一种同态加密的数据转换，用于GM同态加密的加密数据到ElGamal同态加密的加密数据的转换，同时保证加密数据的隐私安全；其应用场景为参与方A拥有两个同态加密算法的公钥pk₁,pk₂以及pk₁加密的加密数据[c]₁，参与方B拥有相应同态加密算法的私钥sk₁,sk₂，通过执行密文转换协议，A最终得到pk₂加密的加密数据[c]₂；在上述过程中，B不会获知任何与A输入数据[c]₁其明文数据c相关的信息；

Claims

1.一种支持隐私保护的决策树分类服务系统，其特征在于，所述服务系统包括：模型拥有者模块、客户端模块、云服务模块以及密文运算模块；

所述密文运算模块包含三部分：1)密文比较协议：实现ElGamal加密数据的比较，用于决策树模型中阈值的比较；2)密文转换协议：实现密文数据从一种同态加密到另一种同态加密的数据转换，用于GM同态加密算法到ElGamal同态加密算法加密的加密数据转换；3)密文决策树分类器：调用密文比较协议以模块线性组合方式构造半诚实模型下安全的决策树分类器。

2.一种支持隐私保护的决策树分类服务系统的控制方法，其特征在于，采用权利要求1所述的支持隐私保护的决策树分类服务系统，分为准备阶段及分类阶段：

一、所述准备阶段包括以下步骤：

步骤1，密钥生成：

首先由模型拥有者模块进行密钥生成；

所述模型拥有者模块生成用于加解密的ElGamal同态加密算法的公私钥对<pk_e，sk_e>及GM同态加密算法的公私钥对<pk_gm，sk_gm>，其中公钥为pk_e，pk_gm，私钥为sk_e，sk_gm；pk_e，pk_gm公开，用于数据的加密；

步骤2，秘钥分发：

步骤4，模型转换：

步骤5，模型加密：

使用公钥对该模型进行加密；

步骤6，发送模型：

将加密后的模型发送给CS；

步骤7，模型拥有者模块下线，不再参与后面的分类工作；

二、所述分类阶段包括以下步骤：

步骤1，云服务器启动服务，等待客户端发送分类请求；

3.根据权利要求2所述的支持隐私保护的决策树分类服务系统的控制方法，其特征在于，所述准备阶段的步骤1中具体包括以下步骤：

步骤1.1，ElGamal同态加密

步骤1.1.1，生成公私钥；

输入安全参数λ，利用群系统生成算法生成(G，p，g)←Gen(1^λ)，其中p是长度为λ的奇素数，g是循环群

的生成元，均匀随机选取

gcd(α，p)＝1，计算y＝g^xmodp；输出公钥(y，g，p，α)，私钥为x；

步骤，1.1.2，加密；

被加密的信息为M，选择一个随机数k，k与p-1互质，计算a＝g^kmod p，b＝y^k·α^Mmod p，(a，b)为密文，是明文的两倍长；

步骤1.1.3，解密；

根据α^M＝b/a^x(mod p)，进而求对数得到：M＝log_αα^M；只需部分解密到α^M即可，无需完全解密；

步骤1.2，GM同态加密；

假设GenMod是一个模数生成算法，安全参数为λ；GM算法GM＝(Gen，Enc，Dec)包括以下步骤：

步骤1.2.1，Gen输入安全参数λ，调用GenMod(1^λ)，生成(N，p，q)；其中p，q是两个长度为λ的互异奇素数，并且y←QNR⁺；公钥为(N，y)，私钥为(p，q)；

步骤1.2.2，Enc输入公钥N，被加密信息为

m＝m₁…m_l∈{0，1}^l是m的二进制表示，m_i∈{0，1}；对于每个i∈[l]，随机选择

输出c：＝c₁…c_l为密文；

步骤1.2.3，Dec输入密文c：＝c₁…c_l，对于每个i∈[l]，如果c_i∈QR_N，则m_i：＝0；如果c_i∈QNR⁺则m_i：＝1；其他则m_i＝⊥；输出m：＝m₁…m_l；

其中QNR⁺表示

中关于乘法的非二次平方剩余类的集合，QR_N表示

4.根据权利要求2所述的支持隐私保护的决策树分类服务系统的控制方法，其特征在于，所述准备阶段的步骤4中具体包括以下步骤：

步骤4.1，将阈值转换为布尔型数值；

若b_i＝1，则走左子树，若b_i＝0，则走右子树；记结点到左子树的路径花销为e_i，l＝1-b_i，到右子树的路径花销为e_i，r＝b_i，l表示左子树，r表示右子树；

b表示判定结点阈值的集合，如下式所示，6条路分别为：

根据上述过程，模型W可以表示为多个线性函数及判定结点{h(b)_vj，n_i}，i表示第i个判定结点，j表示第j个叶子结点；

5.根据权利要求2所述的支持隐私保护的决策树分类服务系统的控制方法，其特征在于，所述分类阶段步骤4中所述的分类过程具体为：

所述密文决策树分类器中，U和CS均是半诚实的，且在分类开始之前，除公开发表的公钥外，客户端U和云服务器CS分别拥有一些隐私信息，其中U拥有查询数据x＝(x₁，..，x_m)及私钥sk_e，sk_gm，CS拥有加密的分类模型

和

和线性函数

的值，获取最终的分类结果；设判定结点个数为m，即i∈{1，...，m}；叶子结点个数为k，即j∈{1，...，k}；线性函数个数为n；

所述分类过程包括以下步骤：

步骤4.1，在DTreeClassifer分类协议中，U分别使用GM和ElGamal同态加密算法的公钥对输入数据x_i按位进行加密，得到加密数据[x_i]_e，[x_i]_gm后再发送给CS，CS没有对应的私钥sk_e，sk_gm无法对U加密数据[x_i]_e，[x_i]_gm进行解密，保证了U输入数据x_i的安全；

步骤4.3，CS将加密的加密数据[b_i]_e带入到路径花销

和线性函数

和

和

发送到U，U解密

和

得到

和

若解密后的路径花销

为0，则对应的

为0时，U得到的

6.根据权利要求5所述的支持隐私保护的决策树分类服务系统的控制方法，其特征在于，所述分类阶段步骤4中，所述密文比较协议用于实现ElGamal加密数据的比较，用于分类模型中判定结点阈值n_i和属性值x_i的比较；比较操作是决策树分类器执行分类处理的核心操作，为满足决策树分类服务系统的需要，基于PvtCmp(Private comparison protocol)比较协议，具体为：

计算

其中i∈{1，..，t}，若存在i∈{1，..，t}使得c_i＝0成立，则

其中x＝(x₁，...，x_t)，y＝(y₁，...，y_t)均为二进制形式，t表示x和y的二进制位数，客户端U和云服务器CS输入数据的二进制位数相等；

PvtCmp比较协议由两方参与，U和CS，设U的输入数据为[x]_e，[x]_gm，CS的输入数据为[y]_e，[y]_gm，以二进制加密形式表示，二进制位数相等，长度为t，具体包括以下步骤：

步骤4.1，U将加密的输入数据[x]_e，[x]_gm发送给CS；

步骤4.2，CS接收U的加密的输入数据[x]_e，[x]_gm，然后从{0，1}中随机选择一个数，记为b₁，计算s←1-2b₁，然后执行两层循环，外循环次数为t，内循环次数为j＜i，i＝1，...，t，内循环中先计算x_j，y_j的异或结果

再使用密文转换协议将异或结果

转换为

接着对异或结果

进行求和得到

内循环结束后，计算

并选择随机值r_i将其添加到

中得到

一次外循环结束得到[c_i]_e，则t次外循环结束后可得[c]_e＝([c₁]，....[c_t])_e；CS将结果[c]_e＝([c₁]，....[c_t])_e发送给U；

步骤4.3，U接收并解密[c]_e，判断是否存在i∈{1，..，t}使得c_i＝0成立，若存在，则b₂＝1，否则b₂＝0；将b₂进行加密得到[b₂]_e并将其发送给CS；

步骤4.4，CS接收[b₂]_e，计算

其中[b]_e≡[x＜y]_e，即若b＝1，则x＜y，否，则x≥y；

7.根据权利要求6所述的支持隐私保护的决策树分类服务系统的控制方法，其特征在于，所述分类阶段步骤4中所述的密文转换协议用于实现加密数据从一种同态加密到另一种同态加密的数据转换，用于GM同态加密的加密数据到ElGamal同态加密的加密数据的转换，同时保证加密数据的隐私安全；其应用场景为参与方A拥有两个同态加密算法的公钥pk₁，pk₂以及pk₁加密的加密数据[c]₁，参与方B拥有相应同态加密算法的私钥sk₁，sk₂，通过执行密文转换协议，A最终得到pk₂加密的加密数据[c]₂；在上述过程中，B不会获知任何与A输入数据[c]₁其明文数据c相关的信息；