CN113962286A

CN113962286A - 一种基于分段函数的去中心化逻辑回归分类预测方法

Info

Publication number: CN113962286A
Application number: CN202111093840.3A
Authority: CN
Inventors: 朱珊珊; 何道敬; 杜润萌; 李治军; 王莘
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-01-21

Abstract

本发明公开了一种基于分段函数的去中心化逻辑回归分类预测方法，该方法具体为：设有m个参与者包括1个数据应用者和m‑1个数据持有者，数据应用者和数据持有者基于选定的加密方案计算X _k W _k，然后数据应用者和数据持有者加密X _k W _k并作为输入调用盲百万富翁协议，从而获取分段函数f(XW)的结果。数据应用者计算误差Y’=f(XW)−Y。数据应用者加密误差E(Y’)发送给所有的数据持有者。数据应用者可以本地更新参数W ₁。数据持有者计算E(Y’)并更新参数。重复上述步骤，直至训练收敛至某一阈值或者迭代次数达到设置的最大的迭代次数。最终，数据应用者和数据持有者得到最终参数W _k，参与者可以通过得到参数W _k进行分类预测。本发明的方法与现有方法的区别是：没有暴露梯度值和乘积结果，保护了数据持有者数据的安全性。

Description

一种基于分段函数的去中心化逻辑回归分类预测方法

技术领域

本发明属于联邦学习建模领域，特别涉及去除第三方的基于安全多方计算的纵向联邦逻辑回归建模方式即一种基于分段函数的去中心化逻辑回归分类预测方法。

背景技术

随着大数据时代各行业对数据分析需求的持续增加，通过机器学习(MachineLearning, ML)高效地获取知识，已经逐渐成为当今机器学习技术发展的主要推动力。机器学习基于对数据的初步认识和学习目的的分析，选择合适的数学模型，拟定超参数，并输入样本数据，依据一定的策略，运用合适的学习算法对模型进行训练，最后运用训练好的模型对数据进行分析预测。机器学习应用十分广泛，无论是在军事领域还是民用领域，都承担着非常重要的角色。

随着数据产生速度的持续加快，数据体量也有了前所未有的增长。机器学习能够在实际应用中发挥作用主要是靠数据支撑，传统的机器学习是把模型训练需要的数据集合到一个数据中心然后再训练模型，但是大部分企业都存在数据量少，数据质量差的问题，并且国内外监管环境也在逐步加强数据隐私保护。因此在保护数据隐私安全及合法合规的基础上，实现共同建模成为大势所趋。这意味着机器学习收集数据将成为一个饱受关注的热点问题。例如，一些医疗单位不愿意将病人的信息暴露给其他组织研究建模，缺乏足够的，优质的数据进行建模，最终得出的模型也无法实际得应用到生产环境中。

由于安全多方计算(Secure multiparty computation，即MPC)相关技术热度持续高升，有许多研究中使用MPC技术直接加密数据集进行机器学习训练，虽然保护了数据隐私安全，但是计算开销和通信开销呈指数级增加，在大数据环境下，这显然更加是一种挑战。联邦学习也应运而生，某谷公司率先公开了联邦学习框架FATE，其中纵向联邦学习支持多个参与方联合数据集，在数据中心形成一个完整的数据池进行模型训练，在此过程中每个参与方数据都得到了保护，共同建模提高了模型的拟合度，自身模型无损耗。还有学者将联邦学习引入到更加丰富的应用场景中，根据参与方之间数据分布的差异，形成了完整的联邦学习框架包括横向联邦学习框架、纵向联邦学习框架和联邦迁移学习框架。

逻辑回归是目前流行病学和医学的疾病诊断、金融行业经济预测等最常用的分析方法，它与多重线性回归相比有很多的优势，它的因变量可以是二分类也可以是多分类，但是二分类更为常用，也更加容易分析。同样在机器学习建模预测分类算法中，逻辑回归算法也是经典之一。目前联邦学习框架中使用逻辑回归算法进行预测分类时大多数都有第三方存在，这个第三方在最开始为数据各方分配公钥，第三方持有对应私钥。各个参与方利用该公钥对训练数据的中间结果进行加密后通信，第三方用私钥解密来自各方的中间结果，计算得出此次迭代的中间结果更新。这个过程中，第三方获得了其他参与方的隐私数据，参与方的隐私信息仍然存在暴露的危险。而且应用公钥系统会导致复杂性过高。逻辑回归算法主要的额外挑战是计算逻辑函数，其中逻辑函数中的除法和取幂很难使用安全多方技术来支持计算。因此，先前的工作提出使用泰勒展开式多项式来逼近原函数，而且已有相关工作证明使用一个高次多项式的近似是非常精确的。但是，由于效率的原因，在安全计算中，近似多项式的程度设置为2或3，这导致训练模型的精度损失比逻辑回归大。

我们采用的新提供一种基于分段函数的去中心化逻辑回归分类预测方法，避免了泰勒展开式和公钥系统加密，采用新的逻辑函数代替泰勒展开式。我们设计的分段函数涉及到数据和数据的隐私比较问题，也就是著名的百万富翁问题。百万富翁问题是指两个百万富翁Alice 和Bob分别拥有财富t₁和t₂，他们想秘密地确定t₁和t₂之间的大小关系。但是在当参与者只知道加密的数据时，而不知道对应的明文数据时，有必要对相应的加密的数据的大小进行安全比较。我们称之为盲百万富翁问题，它比百万富翁问题有更高的安全要求。目前盲百万富翁问题解决方案是基于有全集设定的情况。

发明内容

本发明的目的是提供一种基于分段函数的去中心化逻辑回归分类预测方法，避免了泰勒展开式和公钥系统加密，采用新的逻辑函数代替泰勒展开式，在保证系统安全性的同时，大大降低了系统的复杂性和提高系统的效率。我们提出的逻辑回归分类预测方法，除了解决线性回归问题外，还可以解决神经网络问题。最后我们提出了一个盲百万富翁协议，避免了全集的设定，高效且安全。

实现本发明目的的具体技术方案是：

一种基于分段函数的去中心化逻辑回归分类预测方法，特点是：该方法包括下述步骤：

步骤1：设有m个参与者，包括1个数据应用者和m-1个数据持有者，每个参与者手中拥有一个数据集，且每个参与者初始化一个任意的参数W_k，k∈[1,m]，数据应用者的数据集包括特征数据X₁和标签数据Y；数据持有者的数据集仅包括特征数据X_k，k∈[2,m]；然后所有参与者执行基于纵向联邦学习的共同训练一个模型，即逻辑回归方法对应的逻辑回归模型；

步骤2：数据应用者和数据持有者基于选定的加密方案加密X_kW_k，k∈[1,m]，加密结果记作E(X_kW_k)，其中符号E()表示加密；然后数据应用者和数据持有者将E(X_kW_k)作为输入调用盲百万富翁协议，从而获取分段函数f(XW)的结果；

步骤3：数据应用者计算误差Y’，Y’＝f(XW)-Y；数据应用者加密误差Y’得到加密结果 E(Y’)发送给所有的数据持有者；与此同时，数据应用者通过计算梯度

以此更新参数 W₁；

步骤4：数据持有者根据E(Y’)计算自己的加密梯度值

k∈[2,m]，并以此更新参数E(W_k)，k∈[2,m]；然后计算E(X_kW_k)，k∈[2,m]，发送给数据应用者；

步骤5：重复步骤2-步骤4，直至模型收敛至某一阈值或者迭代次数达到设置的最大的迭代次数；数据持有者随机选择一个数据R_k，k∈[2,m]，计算E(W_kR_k)发送给数据应用者；数据应用者对E(W_kR_k)，k∈[2,m]进行解密得到W_kR_k发送给数据持有者，数据持有者计算W_kR_k/R_k得到最终的参数W_k，k∈[2,m]；

步骤6：数据应用者和数据持有者最终返回各自的参数W_k，k∈[1,m]；

步骤7：数据持有者计算X_kW_k，k∈[2,m]发送给数据应用者，数据应用者计算(1+e^{-(X1W1+...+XmWm)})/1，该计算结果不是0就是1，即为分类预测结果。

所述分段函数具体为对于自变量x的不同的取值范围，有着不同的对应法则，这样的函数通常叫做分段函数。

步骤1中所述纵向联邦学习具体为：在两个数据集的用户重叠多而用户特征重叠少的情况下，把数据集按照纵向即特征维度切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练，具体包括下述步骤：

步骤A1：无标签数据的参与方提供加密特征数据协助有标签数据的参与方进行梯度更新和模型参数更新；

步骤A2：有标签数据的参与方提供加密标签数据协助无标签数据的参与方进行梯度更新和模型参数更新；

步骤A3：A1-A2步骤进行迭代，直至纵向联邦学习模型收敛至某一阈值或者达到最大迭代次数。

步骤1所述的逻辑回归方法，具体为：

步骤B1：逻辑回归的主要任务是实现分类，逻辑回归中使用逻辑函数h_w(X)，其中h_w(X)＝ 1+e^-WX；使用分段函数f(XW)代替逻辑函数；其分段函数f(XW)：当XW<-1/2,f(XW)＝0；当 XW>1/2,f(XW)＝1；剩余所有情况,f(XW)＝XW+1/2；这里称f(XW)为新的逻辑函数；

步骤B2：逻辑回归中对应的损失函数是L(W)＝-1/m Ylogf(WX)+(1-Y)log(1-f(WX))；

步骤B3：损失函数对应的梯度值是

步骤B4：根据梯度值进行参数更新

其中α是数据应用者选择的学习率。

步骤2所述的加密方案，具体为：

步骤C1：数据应用者生成公钥pk和私钥sk，并将公钥发送给所有数据持有者；

步骤C2：数据应用者和数据持有者均利用公钥pk进行加密，即给定一个明文数据data，对data进行加密只需要计算E(data)即可；

步骤C3：只有数据应用者利用私用sk对E(data)进行解密，解密用D()表示,即计算D(E(data))得到明文消息data。

6、根据权利要求1所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤2所述的盲百万富翁协议，具体为：

步骤D1：数据应用者计算E(X₁W₁)发送给第一个数据持有者，并且该数据持有者计算 E(X₂W₂)保留在本地；

步骤D2:对于剩余数据持有者，计算E(X_kW_k)，k∈[3,m]发送给第一个数据持有者；

步骤D3:第一个数据持有者计算所有的E(X_kW_k)相加的密文和，结果记作Csum发送给数据应用者；

步骤D4:数据应用者对Csum进行解密并进行判断，如果D(Csum)<-1/2，令f(XW)＝0；如果D(Csum)>1/2，令f(XW)＝1；否则，令f(XW)＝XW+1/2。

步骤A3中所述的阈值为：模型参数变化量小于设定的某个数值。

步骤A1和步骤A2所述进行梯度更新采用全量梯度下降、小批量梯度下降或随机梯度下降方式。

本发明的有益效果在于：

第一，本发明提出了一种基于分段函数不需要可信第三方的联邦学习逻辑回归算法，避免了泰勒展开式，在保证系统安全性的同时，大大降低了系统的复杂性。

第二，设计了盲百万富翁协议，该协议不仅可以进行高效计算，而极大的保护数据持有者数据的隐私，并且避免了全集的设定。

附图说明

图1为本发明流程示意图；

图2为本发明实施例纵向联邦学习示意图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

实施例

以10家银行联邦训练逻辑回归算法来预测用户是否为黑名单用户为例，其中第一个银行 B₁是数据应用者，剩余9家银行B_k，k∈[2,10]是数据持有者，对基于分段函数的去中心化逻辑回归分类预测方法步骤作具体说明：

第一阶段，10家银行根据自己拥有的数据集，综合用户属性信息来获取特征值X_k,k∈ [2,10]，定义模型逻辑回归算法，初始模型参数W_k，k∈[1,10]，学习率α，最大迭代次数，获取样本对齐信息，样本对齐是进行纵向联邦学习的前提，纵向联邦学习流程图如图2所示。

样本对齐即对数据集进行隐私求交算法，以两方参与者Alice和Bob为例，具体计算方法为：Bob生成公钥对，将公钥发给Alice，Alcie对自己的id进行加密，然后将加密的发送给Bob，Bob将Alice加密后的值进行第二次加密得到Z_A，Bob也将自己的id进行加密得到Z_B。Bob将Z_A和Z_B发送给Bob，Alice对Z_B进行加密得到D_B，将D_B和Z_A进行求交，得到交集结果发送给Bob。

第二阶段，数据应用者和数据持有者基于选定的加密方案计算E(X_kW_k)，然后数据应用者和数据持有者将X_kW_k作为输入调用盲百万富翁协议，从而获取分段函数f(XW)的结果。数据应用者计算误差Y’＝f(XW)-Y。数据应用者加密误差得到E(Y’)发送给所有的数据持有者。与此同时，数据应用者可以通过计算梯度值

以此更新参数W₁。数据持有者根据E(Y’)计算自己的加密梯度值

k∈[2,10]，并以此更新参数E(W_k)，k∈[2,10]。然后计算E(X_kW_k)， k∈[2,m]发送给数据应用者。重复上述步骤，直至模型收敛至某一阈值或者迭代次数达到设置的最大的迭代次数。数据持有者随机选择一个数据R_k，k∈[2,10]，计算E(W_kR_k)发送给数据应用者。数据应用者对E(W_kR_k)，k∈[2,10]进行解密得到W_kR_k发送给数据持有者，数据持有者计算W_kR_k/R_k得到最终的参数W_k，k∈[2,10]。最终所有的银行得到对应的参数信息。然后，数据持有者对应的银行B_k计算X_kW_k，k∈[2,10]发送给数据应用者对应的银行B₁，B₁计算(1+e^{-(X1W1+...+X10W10)})/1，该计算结果不是0就是1，0表示这个用户是正常用户，1表示黑名单用户，即为分类预测结果。

Claims

1.一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，该方法包括下述步骤：

步骤3：数据应用者计算误差Y’，Y’＝f(XW)-Y；数据应用者加密误差Y’得到加密结果E(Y’)发送给所有的数据持有者；与此同时，数据应用者通过计算梯度

以此更新参数W₁；

步骤4：数据持有者根据E(Y’)计算自己的加密梯度值

并以此更新参数E(W_k)，k∈[2,m]；然后计算E(X_kW_k)，k∈[2,m]，发送给数据应用者；

步骤7：数据持有者计算X_kW_k，k∈[2,m]发送给数据应用者，数据应用者计算(1+e^-(X1W1+...+XmWm))/1，该计算结果不是0就是1，即为分类预测结果。

2.根据权利要求1所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤1中所述纵向联邦学习具体为：在两个数据集的用户重叠多而用户特征重叠少的情况下，把数据集按照纵向即特征维度切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练，具体包括下述步骤：

3.根据权利要求1所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤1所述的逻辑回归方法，具体为：

步骤B1：逻辑回归中使用逻辑函数h_w(X)，其中h_w(X)＝1+e^-WX；采用分段函数f(XW)代替逻辑函数；其分段函数f(XW)：当XW<-1/2,f(XW)＝0；当XW>1/2,f(XW)＝1；剩余所有情况,f(XW)＝XW+1/2；

步骤B3：损失函数对应的梯度值是

步骤B4：根据梯度值进行参数更新

其中α是数据应用者选择的学习率。

4.根据权利要求1所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤2所述的加密方案，具体为：

5.根据权利要求1所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤2所述的调用盲百万富翁协议，从而获取分段函数f(XW)的结果，具体为：

步骤D1：数据应用者计算E(X₁W₁)发送给第一个数据持有者，并且该数据持有者计算E(X₂W₂)保留在本地；

6.根据权利要求2所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤A3中所述的阈值为：模型参数变化量小于设定的某个数值。

7.根据权利要求2所述的一种基于分段函数的去中心化逻辑回归分类预测方法，其特征在于，步骤A1和步骤A2所述进行梯度更新采用全量梯度下降、小批量梯度下降或随机梯度下降方式。