CN110222527A

CN110222527A - 一种隐私保护方法

Info

Publication number: CN110222527A
Application number: CN201910428441.4A
Authority: CN
Inventors: 赖俊祚; 赵豫陕; 李燕玲; 戴杰玲; 朱杰
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-10

Abstract

本发明公开了一种隐私保护方法，包括如下步骤：client准备数据，并将数据用自己的公钥加密后发送给server，发送数据的顺序由server规定；server接收数据后，根据自己模型的节点选择对应的加密数据，在密文上执行一个比较协议，并将盲化的比较结果乱序发送给client，同时将一个比较序列与叶节点的对照表发送给client；client收到比较结果解密后，根据比较结果设置一个(0,1)比较序列，从对照表中找出比较序列对应的叶节点的值即预测结果。本发明在实现用决策树提供预测服务的基础上，保护了server的模型信息、client的数据信息以及最后的预测结果；同时，本发明尽可能的减少了client与server的交互，也具有较高的效率，更符和实际应用场景。

Description

一种隐私保护方法

技术领域

本发明涉及信息安全领域，特别涉及一种基于决策树及其集成学习算法的隐私保护方法。

背景技术

随着机器学习、人工智能的发展，它在越来越多的领域中得以应用。就人们最为关心的医疗领域来说，利用医疗数据，训练机器学习模型来代替人工做疾病诊断是当今的研究热点也是今后的发展趋势。目前已有很多机构训练出了较为实用的模型，如基于RandomForests的心脏病预测、利用决策树对结直肠癌患者肝脏CT图像做分类，以及用Xgboost预测糖尿病等等。然而，直接在用户(client)数据上做预测不但会泄漏用户数据和预测结果的隐私，同时对于模型拥有者(server)来说也会泄漏模型的信息，这些信息对双方来说都是极为重要的。因此，在利用机器学习模型做诊断的同时保护信息的隐私十分必要，具有重要的理论意义和应用价值。

同态加密是密码学中常用的技术。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。利用同态的性质，我们可以将用户的数据和模型的节点阈值在密文上进行比较，在得到比较结果的同时保证了数据的隐私。

David J.Wu等人在文献Privately Evaluating Decision Trees and RandomForests提出了一个关于决策树预测阶段的隐私保护方案，方案可扩展到RandomForests上。但方案的顺利执行需要用户与服务器进行多次交互，且协议最后用户与服务器需要共同参与一个不经意传输协议得到结果。通常来说，构造方案时的一个原则是在满足需求的情况下，尽可能减少用户的工作量，因为云服务器的计算能力远大于用户，用户的工作量越少越符合实际情况，更有助于方案的实施与推广。在这篇文献所提出的方案中，最后用到了不经意传输协议，这仅仅保护了决策树中叶节点这些对隐私性要求不强的信息，却极大的增加了用户和服务器的工作量。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种隐私保护方法，此方法可在保护server的模型信息、client数据信息、预测结果的目标下，减少用户与服务器的交互，提高了方案执行的效率，更符合实际应用场景。

本发明的目的通过以下的技术方案实现：一种隐私保护方法，包括如下步骤：

client准备数据，并将数据用自己的公钥加密后发送给server，发送数据的顺序由server规定；由于Server接触到的与client数据有关的信息都是以加密的形式存在的，即在方案执行开始时，client将自己的数据都转换成二进制形式，并将这些二进制数用自己的公钥加密后发送给server。由于server没有client的私钥，所以他不能解密得到client数据的信息，并且server在进行比较协议时，也是在密文上计算的，比较结果也是加密的，而比较结果能推出最终模型关于client数据的预测信息，所以server没有私钥不能得到client数据和最终预测结果的信息，由此可以很好的保护client的数据信息；

server接收数据后，根据自己模型的节点选择对应的加密数据，在密文上执行一个比较协议，并将盲化的比较结果乱序发送给client，同时将一个比较序列与叶节点的对照表发送给client；由于client只能得到盲化的比较结果，client不能从盲化的比较结果推出server模型的信息，所以保护了server模型的信息；

client收到比较结果解密后，根据比较结果设置一个(0,1)比较序列，从对照表中找出比较序列对应的叶节点的值即预测结果；client根据(0,1)比较序列不能推断出server模型节点的阈值与自己的数据的大小关系，从而保护了模型节点的信息。

优选的，所述client准备数据的具体步骤为：

根据server的要求准备数据(x₁,x₂,...x_n)，其中每一个x_i代表一个属性值；

将每个x_i都转换为二进制形式，并用Paillier算法产生公私钥对，对属性值的每一个比特位进行加密Enc_pk(x_i,j),x_i,j指代属性值x_i的第j个比特位。

优选的，在执行比较协议前，server选择一个随机的0、1序列每一个s_i对应模型中的一个非叶节点。

更进一步的，所述server执行比较协议，在比较每一个节点时：

若s_i＝0，则计算每一个比特位时，随机选取一个正整数r_i,j，计算：

若s_i＝1，则计算每一个比特位时，随机选取一个正整数r_i,j，计算：

其中y_i,j代表模型的第i个节点的阈值转换为二进制形式后的第j个比特位，x_i,j代表与模型节点对应的用户数据的属性值的第j个比特位；(z_i,1,...,z_i,t)代表一个节点的比较结果。

优选的，所述比较序列的异或计算可转化为：

当y_i,k为0时，

当y_i,k为1时，

优选的，所述client接收到m个加密的序列后，用自己的私钥依此进行解密，若一个序列中存在元素解密结果为0，则此序列的比较结果设置为0，否则为1；client将所有序列解密后，会得到一个有m个(0,1)元素的比较序列，与server发送的对照表进行比对后得到所对应的叶节点，叶节点的值即为最终预测结果。

优选的，所述隐私保护方法以决策树为弱学习器的RandomForests，进行集成学习：

在做预测时，若是分类任务，则将预测数据放到RandomForests中的每一颗树进行预测，在单棵树上的预测方法同前述隐私保护方法，重复进行n次(假设RandomForests中有n棵决策树)，client在得到每一棵决策树的分类结果后，采取投票法的方式选取个数最多一类的作为预测结果；

若是回归任务，则client将每棵树得到的结果相加求和求均值，均值即为最终的预测结果；即其中f_i(x)为第i棵树的预测结果。

优选的，所述隐私保护方法以决策树为弱学习器的GBDT或Xgboost，进行集成学习：

做回归任务时，GBDT或Xgboost将每棵树的预测结果乘上这颗树的权重得到一个值，将所有树所得到的值相加即为最终的预测结果；即其中f_i(x)为第i棵树的预测结果，β_i为第i棵树所占的权重。

更进一步的，所述β_if_i(x)可由server先在明文上计算好，再由client通过OT协议得到β_if_i(x)。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明server执行比较协议时将盲化的比较结果乱序发送给client，避免client通过改变属性值多次查询推测出模型的节点信息，因而更好的保护模型的隐私。

2、本发明在执行比较协议时，选择随机序列计算x与y、y与x的大小关系，由于用户解密后不确定比较关系，故隐藏了比较结果，从而无法推断出模型节点预支的相关信息。

3、本发明client用自己的公钥加密数据后再发送数据给server，由于server无法获知client私钥则无法得到client数据和最终预测结果的信息，因此可以很好的保护client的数据信息。

4、本发明尽可能的减少了client与server的交互，具有较高的效率，更符和实际应用场景。

附图说明

图1是本发明实施例一种隐私保护方法流程图。

图2为本发明实施例决策树模型示意图。

图3为本发明实施例1中S＝{0,0,0}时，比较序列与叶节点的对照图。

图4为本发明实施例1中S＝{1,0,0}时，比较序列与叶节点的对照图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图详细描述本发明提供的实施例，但本发明的实施方式不限于此。

实施例1

下面对本实施例相关原理进行阐述：

1、决策树是机器学习中常见的模型，它既能做分类任务，又能做回归任务。决策树是一种树形结构，其中每个内部节点(非叶节点)表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种预测结果。利用决策树模型对数据做预测，主要是通过从模型根节点开始，将数据中对应模型节点的属性值与节点阈值进行比较，当比较结果为小于时，进入到根节点的左子树，否则进入右子树，再循环执行前述步骤，直到抵达叶节点，即为相应的预测结果。

决策树中每一个根节点经过不同的内部节点到达每一个叶节点都会对应一条路径。规定属性值小于对应非叶节点的阈值往左走记为0，反之往右走记为1。

图2是一个简单的决策树模型：a₁,a₂,a₃代表树的内部节点，最底层节点代表叶节点，1,2,3,4代表所属类别(回归任务代表所属值)，则部分路径(比较序列)与叶节点的对应关系如表1所示。

表1部分路径(比较序列)与叶节点的对应关系对比表

说明：分析前两个比较序列(0,0,0)→3和(0,0,1)→3，第一个值为0表示数据小于a₁的阈值，往左走到达a₂，与a₂比较值为0往左走到达类别为3的叶节点，由于server是在密文上进行比较，在比较完a₁节点后不知道往左或往右走，所以每个节点都需要进行比较，此时a₃节点的比较结果对类别无影响，即无论a₃的比较值为0或1，比较序列(0,0,0)和(0,0,1)对应的都是类别为3的叶节点。

2、比较协议

在此介绍一个比较协议，主要存在两方，要比较两个数的大小。假设两方分别具有值x和y，在执行完此协议后，一方得到比较的结果，但双方均不知道对方的值。协议的主要思想是：假设x₁x₂…x_t和y₁y₂…y_t分别代表x和y的二进制形式。若x<y，则存在i表示转换为二进制形式后的第i位，t为规定的每一个属性值x、y转换为二进制后的位数，当数据位数不足t时，空位以0填充(例如：t＝5，x＝5，x转换为二进制为101，则填充0后为00101，即x₁x₂x₃x₄x₅)；对任意j<i，(例如i＝5即x₅，则j<i就指的是这些比特位x₁x₂x₃x₄)有x_j＝y_j，且x_i<y_i。这等价于计算如下式子：其中代表比第i位低的所有比特位x_j与y_j异或结果的和(例如，j＝3，则)；z_i表示式子的计算结果(假设x和y转换成二进制后有t位，则把(x₁,y₁)、(x₂,y₂)、…(x_t,y_t)都分别带入上式，计算出t个结果z₁,z₂,...,z_t))。在本实施例的方案中，client将他每一个属性值转换为二进制形式，并用Paillier加密算法对二进制x₁x₂…x_t的每一位进行加密；server在密文上计算z₁,...,z_t，把计算的结果乱序发送给client。client对收到的数据进行解密，若z₁,...,z_t中有值解密为0，则说明x<y，否则说明x≥y。

3、同态加密方案

由于是在密文上进行比较，我们用到的比较方案需要支持加法操作的加密方案，故在此选择具有代表性的Paillier加密，它是一种支持加法运算的同态加密方案。下面进行Paillier算法的介绍：

①密钥生成：选取两个大素数p,q，计算N＝p·q，随机选择使得gcd(L(g^λmod N²),N)＝1,定义gcd代表求最大公约数。公钥pk＝(g,N)，私钥sk＝λ＝lcm((p-1),(q-1))，其中lcm代表求最小公倍数。

②加密：选择随机数明文m∈Z_N，计算密文c＝Enc(m)＝g^mr^N mod N²，其中Enc表示加密。

③解密：计算其中Dec表示解密。

④加法同态性质：当密文Enc(m₁)和Enc(m₂)相乘之后解密的结果等于明文m₁和m₂相加，表达式如下：

在加法同态算法中，密文的常数指数运算相当于明文与常数相乘运算，形式以下：

Enc(m)^a＝Enc(a·m)，a是常数。

如图1所示，一种隐私保护方法，假设有两方，拥有个人数据的client想让拥有决策树模型的server帮忙做预测。在方案执行前，server需要告诉client做预测所需要的属性(为了更好的隐藏模型的信息，server会让client多准备一些属性，server从中选择需要的属性与模型做比较，而client无法得知server选择的属性故可在一定程度上隐藏模型的部分信息)，同时也要规定每一个属性值转换为二进制后的最大位数t，当client的数据位数不足t位时，高位以0填充，以便进行后续操作。

在本实施例中，设计的是保护两方的隐私，包括client的数据和预测结果、server的模型信息。其中模型信息需要保护的是决策树的结构信息(树模型的每一个节点对应的属性)以及每个节点的阈值。这是决策树模型最重要的信息，即保护了这两个信息也就保护了模型的隐私。决策树模型的叶子节点信息可以是公开的，首先公开叶节点信息不会泄露额外的信息，并且在现实的应用中，叶节点信息通常client是知道的。例如，用决策树模型来做疾病诊断，通常叶节点信息应为诊断结果是或否，这是client一开始便知道的；其次，即使进行了叶节点信息的保护，由于client最终会得到其中一个叶节点的信息作为自己数据的预测结果，client可尝试用不同的数据得到不同的结果，最终也能得到叶节点的信息，故本方案不保护叶节点的信息。

client输入的数据信息为：一个特征向量其中x_i有t比特位，不足t位的高位以0填充，x_i,j指代属性值x_i的第j个比特位。

server输入的数据信息为：一个有m个非叶节点的二叉决策树模型。

隐私保护方法的具体步骤如下：

S1、首先client根据server的要求准备数据(x₁,x₂,...x_n)，其中每一个x_i代表一个属性值。client将每个x_i都转换为二进制形式x_i→(x_i1,x_i2,...,x_it)，并用Paillier算法产生公私钥对(pk＝(g,N),sk＝λ＝lcm((p-1),(q-1)))，对属性值的每一个比特位用client的公钥进行加密得到Enc_pk(x_i,j)。client将加密好的数据按照server规定的顺序发送过去。

S2、server接收数据后，由于知道数据的顺序，故可从中选择与模型的节点对应的属性值进行比较：将自己的模型节点阈值(y₁,y₂,...,y_m)转换为二进制形式，并用client的公钥对每一比特位进行加密。在执行比较协议前，server选择一个随机的0、1序列每一个s_i对应模型中的一个非叶节点。比较每一个节点时：

(i)若s_i＝0，则计算每一个比特位时，server随机选取一个正整数r_i,j，计算：

(ii)若s_i＝1，则计算每一个比特位时，server随机选取一个正整数r_i,j，计算：

其中y_i,j代表模型的第i个节点的阈值转换为二进制形式后的第j个比特位，x_i,j代表与模型节点对应的用户数据的属性值的第j个比特位。由于用户拥有节点阈值y，故可在密文上进行计算。计算时，因为server知道y_i,k，故异或计算可转化为：当y_i,k为0时，当y_i,k为1时，在加法同态中，密文的常数指数次方运算相当于在明文上相乘，故可计算与常数r_i,j相乘。server选择多乘一个随机数是为了隐藏计算结果，因为这些结果有可能会泄漏模型的节点信息。在进行比较前，server选择随机序列S是为了隐藏比较结果，由于最终计算的密文结果会发送给client，client用自己的私钥进行解密后，能得到真实的比较结果，即能得到自己的属性值与模型节点阈值的大小关系，所以此处选择随机序列S，随机的计算x与y或y与x的大小关系，用户解密后由于不确定比较关系，故隐藏了比较结果，从而无法推断出模型节点阈值的相关信息。

当比较完模型所有的m个非叶节点后，server得到m个(z₁₁,...,z_1t)这样的比较序列，并将各序列内部打乱顺序，即每一个序列(z₁₁,...,z_1t)→(z_1t,…,z₁₂)；(z_i,1,...,z_i,t)代表一个节点的比较结果，因为模型有m个非叶节点，需要对每一个非叶节点都进行比较，故server会计算m个这样的序列，一个序列代表client数据中的一个属性值与模型一个节点的阈值比较结果，这个比较序列就对应模型中唯一的一个叶子节点。由于server在比较时是从根节点开始，按从上往下从左到右的顺序进行，所以若直接将这m个比较结果按顺序发送给用户，client可改变自己的属性值进行多次查询，这样client有可能推测出模型的一些节点信息。为了更好的保护模型的隐私，server在将这m个序列发送给client时采用乱序的方式。

由于server选取随机序列S来决定比较x和y或y和x的大小关系，故比较序列与叶节点的对应关系表也应进行改变。例如：参见图3，若S＝{0,0,0},即每个节点都是比较x与y的大小关系，则比较序列与叶节点的对照表为表2；

表2 S＝{0,0,0}时，比较序列与叶节点的对照表

若S＝{1,0,0}，参见图4，即a₁节点是比较y与x的大小关系，a₂与a₃节点比较的是x与y的大小关系，则比较序列与叶节点的对照表为表3。

表3 S＝{1,0,0}时，比较序列与叶节点的对照表

最后server将比较结果发送给client时采用乱序的方式，故比较序列与叶节点序号的对照表也随之改变，并将改变后的对照表发送给client。例如：表2中若比较结果为(0,0,1)，按(a₁,a₂,a₃)的顺序发送，则对应的叶节点应为序号3；按(a₁,a₃,a₂)的顺序发送，则对应的叶节点序号应为1。

S3、client接收到m个加密的序列后，用自己的私钥依此进行解密，若一个序列中存在元素解密结果为0，则此序列的比较结果设置为0，否则为1。此处由于client不知道server选择了哪些属性进行比较，同时也不知道这m个序列分别对应哪些属性，也无法从比较结果中得到自己数据和模型节点阈值的大小关系，所以保证了server模型信息的安全。client将所有序列解密后，会得到一个有m个(0,1)元素的比较序列，与server发送的对照表进行比对后得到所对应的叶节点，叶节点的值即为最终预测结果。

表4.文献1与本实施例方案比较

方案	client工作量	交互量	方案效率	应用范围
					文献[1]	多	多	低	小
本实施例方案	少	少	高	大

[1]Wu D J,Feng T,Naehrig M,et al.Privately Evaluating Decision Treesand Random Forests[J].Proceedings on Privacy Enhancing Technologies,2015,2016(4).

实施例2

实施例1是在单棵决策树上做预测。但在实际应用中，由于决策树易出现过拟合的现象，导致单棵决策树做预测任务的效果往往不如以决策树为弱学习器的集成学习方法(Random Forests、GBDT、Xgboost)，。现将上述方案进行扩展。

①RandomForests

Bagging方法的各弱学习器之间无强依赖。RandomForests是集成学习中属于Bagging一类的方法。RandomForests在做预测时，若是分类任务，则将预测数据放到RandomForests中的每一颗树进行预测，在单棵树上的预测方法同前述方案，重复进行n次(假设RandomForests中有n棵决策树)，client在得到每一棵决策树的分类结果后，采取投票法的方式选取个数最多一类的作为预测结果。若是回归任务，则client将每棵树得到的结果相加求和求均值，均值即为最终的预测结果。即其中f_i(x)为第i棵树的预测结果。

②GBDT、Xgboost

Boosting方法的各弱学习器之间有强依赖性。GBDT和Xgboost都属于集成学习中的Boosting方法。GBDT和Xgboost在做预测时与RandomForests所采取的机制不同，做回归任务时，GBDT和Xgboost都是将每棵树的预测结果乘上这颗树的权重得到一个值，将所有树所得到的值相加即为最终的预测结果。即其中f_i(x)为第i棵树的预测结果，β_i为第i棵树所占的权重。此处β_if_i(x)可由server先在明文上计算好，再由client通过OT协议得到β_if_i(x)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种隐私保护方法，其特征在于，包括如下步骤：

client准备数据，并将数据用自己的公钥加密后发送给server，发送数据的顺序由server规定；

server接收数据后，根据自己模型的节点选择对应的加密数据，在密文上执行一个比较协议，并将盲化的比较结果乱序发送给client，同时将一个比较序列与叶节点的对照表发送给client；

client收到比较结果解密后，根据比较结果设置一个(0,1)比较序列，从对照表中找出比较序列对应的叶节点的值即预测结果。

2.根据权利要求1所述的隐私保护方法，其特征在于，所述client准备数据的具体步骤为：

3.根据权利要求1所述的隐私保护方法，其特征在于，在执行比较协议前，server选择一个随机的0、1序列每一个s_i对应模型中的一个非叶节点。

4.根据权利要求3所述的隐私保护方法，其特征在于，所述server执行比较协议，在比较每一个节点时：

若s_i＝0，则计算每一个比特位时，随机选取一个正整数r_i,j，计算：z_i,j＝Enc_pk[r_i,j(x_i,j-y_i,j+1+3∑_k＜j(x_i,k⊕y_i,k))]；

若s_i＝1，则计算每一个比特位时，随机选取一个正整数r_i,j，计算：z_i,j＝Enc_pk[r_i,j(y_i,j-x_i,j+1+3∑_k＜j(x_i,k⊕y_i,k))]；

5.根据权利要求1所述的隐私保护方法，其特征在于，所述比较序列的异或计算可转化为：

当y_i,k为0时，x_i,k⊕y_i,k＝x_i,k；

当y_i,k为1时，x_i,k⊕y_i,k＝1-x_i,k。

6.根据权利要求1所述的隐私保护方法，其特征在于，所述client接收到m个加密的序列后，用自己的私钥依此进行解密，若一个序列中存在元素解密结果为0，则此序列的比较结果设置为0，否则为1；client将所有序列解密后，会得到一个有m个(0,1)元素的比较序列，与server发送的对照表进行比对后得到所对应的叶节点，叶节点的值即为最终预测结果。

7.根据权利要求1所述的隐私保护方法，其特征在于，所述隐私保护方法以决策树为弱学习器的RandomForests，进行集成学习：

在做预测时，若是分类任务，则将预测数据放到RandomForests中的每一颗树进行预测，在单棵树上的预测方法同前述隐私保护方法，重复进行n次，client在得到每一棵决策树的分类结果后，采取投票法的方式选取个数最多一类的作为预测结果；

8.根据权利要求1所述的隐私保护方法，其特征在于，所述隐私保护方法以决策树为弱学习器的GBDT或Xgboost，进行集成学习：

9.根据权利要求8所述的隐私保护方法，其特征在于，所述β_if_i(x)可由server先在明文上计算好，再由client通过OT协议得到β_if_i(x)。