CN115018087A

CN115018087A - 一种多方纵向逻辑回归算法模型的训练方法及系统

Info

Publication number: CN115018087A
Application number: CN202210883106.5A
Authority: CN
Inventors: 韩宗达; 池长康; 薛瑞东
Original assignee: Beijing Rongshulianzhi Technology Co ltd
Current assignee: Beijing Rongshulianzhi Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-09-06
Anticipated expiration: 2042-07-26
Also published as: CN115018087B

Abstract

本发明实施例提供一种多方纵向逻辑回归算法模型的训练方法及系统，该方法包括：向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，迭代步骤包括：步骤121、接收由各特征提供方的局部聚合值；步骤122、将各局部聚合值进行相加得到全局聚合值；步骤123、将全局聚合值输入分段函数内进行计算，得到预测值；步骤124、根据预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方，用于各特征提供方在其本地调整模型训练参数，实现模型训练迭代计算。通过特征提供方在本地将模型训练参数与其所持有的本地数据生成局部聚合值，避免原始数据集的分发，在模型训练的整个过程中通信开销小。

Description

一种多方纵向逻辑回归算法模型的训练方法及系统

技术领域

本发明涉及模型训练领域，具体涉及一种多方纵向逻辑回归算法模型的训练方法及系统。

背景技术

逻辑回归是一种常用的机器学习模型，它广泛应用于金融、广告等领域。但现在数据往往分布在多方，把这些数据都有效利用起来，是可以提升模型表现的。然而数据中存在的隐私信息，使各方不愿轻易共享、集成这些数据，从而形成了数据孤岛。安全多方计算、同态加密等隐私保护技术，允许多方在不暴露各自敏感数据的前提下，协同地去训练逻辑回归模型，从而打破数据孤岛。

跨多个数据拥有者的机器学习按照数据切分可以划分为纵向以及横向场景，纵向场景指所有数据拥有者持有相同的样本以及不同的特征，横向场景指所有数据拥有者持有相同的特征以及不同的样本。在企业与企业之间的协同建模场景中，大部分是数据纵向切分场景(纵向场景)。但是无法解决各方之间的通信开销大的问题。

发明内容

本发明实施例提供一种多方纵向逻辑回归算法模型的训练方法及系统，通过特征提供方在本地将模型训练参数与其所持有的本地数据生成局部聚合值，避免原始数据集的分发，在模型训练的整个过程中通信开销小。

为达上述目的，一方面，本发明实施例提供一种多方纵向逻辑回归算法模型的训练方法，应用于模型训练发起方，包括：

步骤11、向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征提供方；

步骤12、将各特征提供方提供的局部聚合值输入多方纵向逻辑回归算法初始模型进行模型迭代训练，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于模型训练发起方的具体步骤包括：

步骤121、接收由各特征提供方根据接收的模型训练参数与其所持有的本地数据在本地生成局部聚合值；其中，首次采用的模型训练参数为模型训练初始参数；

步骤122、当接收到协议内各特征提供方所有局部聚合值后，将各局部聚合值进行相加得到全局聚合值；

步骤123、将全局聚合值输入分段函数内进行计算，得到预测值；

步骤124、根据预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方，所述残差用于各特征提供方采用随机梯度下降法计算参数梯度，所述参数梯度用于各特征提供方在其本地调整模型训练参数，实现模型训练迭代计算。

另一方面，本发明实施例提供一种多方纵向逻辑回归算法模型的训练方法，应用于特征提供方，包括：

步骤21、接收协议内的模型训练发起方发送的多方纵向逻辑回归算法初始模型训练的请求，接收与本特征提供方所提供的特征对应的模型训练参数；

步骤22、向模型训练发起方提供局部聚合值，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于特征提供方的具体步骤包括：

步骤221、根据模型训练参数与所持有的本地数据在本地生成局部聚合值，将生成的局部聚合值发送给模型训练发起方；其中，首次采用的模型训练参数为模型训练初始参数；

步骤222、接收模型训练发起方发送的残差，根据残差采用随机梯度下降法计算参数梯度，通过所述参数梯度调整模型训练参数；其中，调整后的模型训练参数用于与所持有的本地数据在本地生成新的局部聚合值。

本发明实施例还提供一种多方纵向逻辑回归算法模型的训练方法，包括：

步骤31、模型训练发起方向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征提供方；

步骤32、将各特征提供方提供的局部聚合值输入多方纵向逻辑回归算法初始模型进行模型迭代训练，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练的具体步骤包括：

步骤321、特征提供方根据模型训练参数与所持有的本地数据在本地生成局部聚合值，将生成的局部聚合值发送给模型训练发起方；其中，首次采用的模型训练参数为模型训练初始参数；

步骤322、模型训练发起方接收由各特征提供方发送的相应的局部聚合值；其中，首次采用的模型训练参数为模型训练初始参数；

步骤323、当协议内各特征提供方均发送局部聚合值后，模型训练发起方将各局部聚合值进行相加得到全局聚合值；

步骤324、模型训练发起方将全局聚合值输入分段函数内进行计算，得到预测值；

步骤325、模型训练发起方根据预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方；

步骤326、特征提供方根据残差采用随机梯度下降法计算参数梯度，通过所述参数梯度调整模型训练参数，实现模型训练迭代计算；其中，调整后的模型训练参数用于与所持有的本地数据在本地生成新的局部聚合值。

本发明实施例还提供一种多方纵向逻辑回归算法模型的训练系统，应用于模型训练发起方，包括：

请求单元，用于向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征提供方；

迭代收敛单元，用于将各特征提供方提供的局部聚合值输入多方纵向逻辑回归算法初始模型进行模型迭代训练，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，所述迭代收敛单元，具体用于在每次模型迭代训练时，执行如下步骤：

本发明实施例还提供一种多方纵向逻辑回归算法模型的训练系统，应用于特征提供方，包括：

接收单元，用于接收协议内的模型训练发起方发送的多方纵向逻辑回归算法初始模型训练的请求，接收与本特征提供方所提供的特征对应的模型训练参数；

迭代配合单元，用于向模型训练发起方提供局部聚合值，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，所述迭代配合单元，具体用于在每次模型迭代训练时，执行如下步骤：

步骤222、接收模型训练发起方发送的残差，根据残差采用随机梯度下降法计算参数梯度，通过所述参数梯段调整模型训练参数；其中，所述调整的模型训练参数用于与所持有的本地数据在本地生成新的局部聚合值。

本发明实施例还提供一种计算机可读存储介质，应用于模型训练发起方，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被计算机设备执行时，使得所述计算机设备执行以下操作：

向协议内各特征提供方发起多方纵向逻辑回归算法初始模型训练的请求，并将与各特征提供方所提供的特征对应模型训练初始参数发送给相应特征提供方，将各特征提供方提供的局部聚合值输入多方纵向逻辑回归算法初始模型进行模型迭代训练，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于模型训练发起方的具体步骤包括：

本发明实施例还提供一种计算机可读存储介质，应用于特征提供方，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被计算机设备执行时，使得所述计算机设备执行以下操作：

接收协议内的模型训练发起方发送的多方纵向逻辑回归算法初始模型训练的请求，接收与本特征提供方所提供的特征对应的模型训练参数，向模型训练发起方提供局部聚合值，直至满足所述多方纵向逻辑回归算法初始模型的收敛条件，得到训练完毕的多方纵向逻辑回归算法模型；其中，每次模型迭代训练时，属于特征提供方的具体步骤包括：

本发明实施例还提供一种计算机设备，应用于模型训练发起方，包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

本发明实施例还提供一种计算机设备，应用于特征提供方，包括：

处理器；以及，

上述技术方案具有如下有益效果：本发明通过特征提供方在本地将模型训练参数与其所持有的本地数据生成局部聚合值，避免原始数据集的分发，在模型训练的整个过程中通信开销小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的多方纵向逻辑回归算法模型的训练方法(应用于模型训练发起方)的流程图；

图2是本发明实施例的多方纵向逻辑回归算法模型的训练方法(应用于特征提供方)的流程图；

图3是本发明实施例的多方纵向逻辑回归算法模型的训练方法的流程图；

图4是本发明实施例的前向计算协议的示意图；

图5是现有技术中sigmoid近似函数图像；

图6是本发明实施例中所做实验形成的census数据集损失曲线；

图7是本发明实施例中所做实验形成的census数据集预测值分布曲线；

图8是本发明实施例中所做实验形成的credit-card数据集损失曲线；

图9是本发明实施例中所做实验形成的credit-card数据集预测值分布曲线；

图10是本发明实施例中所做实验形成的chess数据集损失曲线；

图11是本发明实施例中所做实验形成的chess数据集预测值分布曲线。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，结合本发明的实施例，提供一种多方纵向逻辑回归算法模型的训练方法，应用于模型训练发起方，包括：

优选地，在步骤121中，所生成的局部聚合值为同态密文形式；

优选地，在步骤122中，将所述同态密文形式的各局部聚合值进行相加所得到的全局聚合值也为同态密文形式。

优选地，步骤123具体可以包括：

将同态密文形式的全局聚合值转换为二进制秘密分享；

在二进制秘密分享下，通过比较算子比较全局聚合值与各个分段点，得到二进制秘密分享的两个指示位，并将两个指示位由二进制秘密分享转化为同态密文形式；其中，分段函数中指明各分段点；

根据两个指示位计算分段函数各分段的计算结果，通过各计算结果表示模型的预测值；其中，所述预测值为同态密文形式。

优选地，步骤124具体包括：

所述残差等于同态密文形式的真实标签值与预测值之差，所述残差为同态密文形式；

将各残差以同态密文形式分别发送给相应的特征提供方。

优选地，上述方法还包括如下步骤：

在多方纵向逻辑回归算法模型训练完毕之后，接收各特征提供方根据最终的模型参数与其所持有的本地数据在本地生成局部聚合值；

将各局部聚合值进行相加得到全局聚合值；

将全局聚合值输入分段函数内进行计算，得到预测值；

将预测值泛化成预测类别；其中，所述将预测值泛化成预测类别，具体包括：将预测值由同态密文形式转换为算数秘密分享的预测值；

根据设定的输出值分段点，提取算数秘密分享的预测值与设定的输出值分段点的差值符号位，将该符号位的非门作为预测类别。

如图2所示，结合本发明的实施例，还提供一种多方纵向逻辑回归算法模型的训练方法，应用于特征提供方，包括：

优选地，图2所示的方法，步骤21，具体包括：当接收与本特征提供方所提供的特征对应的模型训练参数后，对模型训练参数进行初始化；

优选地，步骤221具体包括：接收模型训练发起方提供的同态密文形式的模型训练参数，根据同态密文形式的模型训练参数与所持有的本地数据在本地生成局部聚合值，所述局部聚合值为同态密文形式，将同态密文形式的局部聚合值发送给模型训练发起方。

优选地，步骤222具体包括：

自样本集获取一份未被选取的样本，根据模型训练发起方发送的残差和所获取的样本在本地计算参数梯度，通过所述参数梯度调整模型训练参数；其中，所述样本集具有均分的预设份数样本；

将调整的模型训练参数以同态密文形式保存在本地。

如图3所示，结合本发明的实施例，还提供一种多方纵向逻辑回归算法模型的训练方法，包括：

结合本发明的实施例，还提供一种多方纵向逻辑回归算法模型的训练系统，应用于模型训练发起方，包括：

结合本发明的实施例，还提供一种多方纵向逻辑回归算法模型的训练系统，应用于特征提供方，包括：

结合本发明的实施例，还提供一种计算机可读存储介质，应用于模型训练发起方，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当计算机设备执行时，使得所述计算机设备执行以下操作：

结合本发明的实施例，还提供一种计算机设备，应用于模型训练发起方，包括：

处理器；以及，

结合本发明的实施例，还提供一种计算机可读存储介质，应用于特征提供方，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被计算机设备执行时，使得所述计算机设备执行以下操作：

结合本发明的实施例，还提供一种计算机设备，应用于特征提供方，包括：

处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明，实施过程中没有介绍到的技术细节，可以参考前文的相关描述。

本发明实施例为一种基于门限同态的隐私保护多方逻辑回归算法，能够解决现有的隐私保护的多方纵向逻辑回归算法通信开销大的问题。

上述一种基于门限同态加密的隐私保护纵向多方逻辑回归算法，具体包含以下两点：

(1)基于门限同态加密的局部模型聚合及梯度更新机制，实现高扩展性(具有多个特征提供方)与低通信代价的统一。

(2)采用一种分段函数与多项式插值深度融合的sigmoid函数近似方法，避免近似误差导致的模型效用损失。

本发明实施例的模型训练主要包括两个协议：第一个协议，隐私保护逻辑回归模型的前向计算协议：各个参与方(特征提供方)将持有的特征作为输入，并得到最终的预测类别；第二个协议，隐私保护逻辑回归模型的参数更新协议：根据(标签)预测值、真实标签值和样本，计算梯度，并根据计算梯度更新模型的参数。

(一)隐私保护逻辑回归模型的前向计算协议

前向计算是逻辑回归模型的重要组成部分之一。主要包括的组件有：模型聚合、sigmoid函数近似计算以及类别泛化。

A、前向计算协议流程。

前向计算协议的总体流程如图4所示。在模型训练及推理过程中，模型训练参数的初始化会交由各个特征提供方进行。当模型训练开始后，在每次对sigmoid近似函数(即分段函数)评估后，则调整更新各特征提供方相应模型训练参数以更新，更新后的模型训练参数将会以密文的形式保存在各个特征提供方，不对模型发起方以及其他特征提供方公开。这是做是为了避免攻击方通过模型参数反推梯度，从而根据反推得到的梯度向模型发起方泄漏特征的相关信息，或是向特征提供方泄漏标签的相关信息。具体步骤如下：

1、特征提供方根据模型密态参数[W_i]与本地数据X_i，通过[W_iX_i]计算局部聚合值，并且发送给模型发起方；其中，符号[]表示同态加密，[W_i]表示W_i的同态密文；

例如，假设有P个特征提供方，分别是特征提供方1、特征提供方2、…、特征提供方P；

特征提供方1根据模型密态参数[W₁]与本地数据X₁，通过[W₁X₁]计算局部聚合值；

特征提供方2根据模型密态参数[W₂]与本地数据X₂，通过[W₂X₂]计算局部聚合值；

以此类推，特征提供方P根据模型密态参数[W_P]与本地数据X_P，通过[W_PX_P]计算局部聚合值。

2、模型发起方将局部聚合值相加，得到全局聚合值[WX]；

3、对[WX]近似计算sigmoid函数，得到预测值函数

4、将根据预测值函数

得到的预测值泛化成预测类别。

B、sigmoid函数近似计算。

现有技术中，sigmoid函数是前向计算的重要计算组件之一，其主要作用是将模型预测值映射到区间[0,1]内，然后通过指定阈值完成二分类任务。但是，在秘密分享下直接计算sigmoid函数是困难的。因此，选择一个计算代价与效用损失均较低的形式对sigmoid函数进行近似估计。

目前已有的拟合形式包括：泰勒多项式展开(Taylor Expansion)、全局近似估计(Global Approximation)、极小极大近似估计(Minimax Approximation)、分段近似估计(Piecewise Approximation)，各自的函数图像如图5所示。泰勒多项式展开需要展开到高阶(例如10阶)，才能保证足够小的精度损失；同时，在部分真实数据集上验证了分段近似估计造成的精度损失极小。极小极大近似估计通过雷米兹算法(Remez)迭代近似算法得到三阶多项式，从函数图像上可以看出，该多项式相较于通过泰勒展开得到的三阶多项式，其更接近于sigmoid原函数。相较于泰勒展开以及分段函数的近似方法，极小极大近似估计在部分场景下可以达到更高的精度。然而，极大极小近似估计仍存在以下问题：

1、极大极小近似估计仅在[-5,5]区间内接近sigmoid原函数，区间外函数的单调性会发生变化，即在大于5的区间内，函数单调下降；在小于-5的区间内，函数单调递增。显然，当模型聚合值在[-5,5]外时，误差会扩大。

2、极大极小近似估计是一个无界的三阶多项式，无法收敛到一个固定值。因此，当模型聚合值过大时，会出现溢出的问题。

3、极大极小近似估计在x＝5以及x＝-5两个点的取值会超过sigmoid原始函数的值域。

针对上述问题，本发明实施例对极大极小近似估计方法进行改进，改进的关键点有两个：首先，在[-4,4]区间进行三阶多项式表示，避免多项式的值域超过[0,1]；其次，其余区间利用分段函数进行截断，避免区间外多项式单调性的改变造成误差损失，并且限制近似函数的值域范围，以避免近似值溢出。

三阶多项式的生成利用拉格朗日插值法完成。选择的插值点是x＝-4，-2，2，4，得到如下多项式：

u(x)＝0.5+0.214x-0.006x³ (1)。

当x位于(4,+∞)以及(-∞,-4)两个区间时，分别令输出为1和0。综上所述，得到本发明的sigmoid函数的近似函数(即分段函数)表达式为：

采用如下技术手段，使得在评估近似函数的同时不暴露模型聚合值以及计算结果：首先，通过秘密分享下的比较算子得到输入与各个分段点的大小关系，该比较算子的工作原理是提取输入与分段点的差值的符号位(即指示位)；然后，通过符号位设计出包含三个分段输出的逻辑表达式；最后，只需要评估该逻辑表达式，即可得到最终的近似函数输出。为了平衡计算过程中的计算开销与通信开销，采用同态加密与秘密分享深度融合的技术路线来评估该函数。具体步骤如下：

1、模型发起方计算u＝-0.006[WX]³+0.214[WX]+0.5；(3)

2、将[WX]由同态密文转化为算数秘密分享<WX>_A，并在秘密分享下计算<WX+4>_A和<WX-4>_A的符号位，并转化为同态密文[b₁]，[b₂]；此步骤涉及加密方式转变；其中，下标A表示进行了加密。

3、模型发起方计算

得到计算结果，该计算结果是模型的预测概率，预测概率会用于计算下一步迭代的参数梯度。其中，∧表示逻辑运算“and”，b₁和b₂是两个指示位，u为步骤1中模型发起方进行计算的结果；当b₁＝0，若x＞4，b₂＝0，若x＞-4；其中，b₂、b₁之前的符号

表示“非门”。在计算的过程中，涉及到将同态密文转化为算术秘密分享，和将二进制秘密分享下的符号位转化为同态密文。将二进制秘密分享下的符号位转化为同态密文的步骤包括：各个特征提供方将持有二进制秘密分享值经同态加密后发送给模型发起方，模型发起方在密文下执行异或计算，以实现二进制秘密分享至同态密文的转换。即：局部聚合值在计算sigmoid近似函数前已通过同态密文模式在模型发起方处完成了聚合，得到全局聚合值。符号位的提取依赖于二进制秘密分享，所以是先将全局聚合值转化为二进制秘密分享，然后提取全局聚合值的符号位。此时的符号位是二进制秘密分享形式，为了计算预测概率，会将其再转化为同态密文模式。

C、类别泛化：将预测值

泛化成预测类别。

类别泛化是将模型的预测值或预测概率泛化为具体的类别，本质上是评估一个分段函数：

表示预测值函数

的值，

通过向量表示；

该分段函数的评估延续与之前的相同的思路，将分段函数的各个输出总结为一个逻辑表达式，评估逻辑表达式的过程等价于评估该分段函数。由于该分段函数仅存在2个分段点，且输出值域仅包含0和1，因此，只需要提取

的符号位即可。当

对，符号位为0；当

时，符号位为1。显然，与分段函数的输出正好相反，因此，分段函数的输出为符号位的非门。

在sigmoid近似函数的评估过程中，预测概率

为同态密文形式。因此，在提取符号位之前，需要将

转化为算数秘密分享形式。

隐私保护逻辑回归模型的参数更新协议：

模型参数(模型训练参数)更新是逻辑回归的核心组件之一，本发明实施例采用随机梯度下降法。其中，梯度下降法的工作原理是，模型参数按照梯度下降的方向更新可以使损失下降速度最快。因此，如何计算损失函数对模型参数的梯度是该方法的关键。随机梯度下降法在梯度下降法的基础上增加了批量限制，不再统计完整训练集的平均梯度，而是一个小批量训练集(mini-batch)的平均梯度。

在sigmoid近似函数(分段函数)评估完成后(即得到预测值)，预测概率

为同态密文形式。因此，模型发起方在本地计算残差

然后，将残差的密文发送给各个特征提供方以计算梯度(即参数梯度)。梯度计算以及模型参数更新仅涉及明文与密文之间的乘法计算，因此，均可以由各个特征提供方在本地进行。同时，更新完成的参数以密文形式保存在各个特征提供方本地。由于模型参数的泄漏会导致梯度的泄漏，进而威胁到特征值以及标签值的隐私安全，模型参数必须以密文形式存储。保存在特征提供方本地的目的是便于模型推理时可以直接进行局部模型的计算。具体步骤如下：

1、模型发起方计算各特征提供方的残差

2、各特征提供方根据残差和本地数据计算对应的梯度并更新模型参数。具体包括：

纵向场景下的数据是按特征切分的，在样本维度是相同的。梯度与特征是一一对应的，即每一个特征都会对应一个模型参数w，而每一个模型参数w会对应一个梯度。因此，每个特征提供方仅会使用与自己特征对应的梯度，而不会将梯度发送给其他特征提供方。并且，由于梯度存在隐私泄漏风险，所以每个特征提供方只能得到与自己特征对应的密文梯度，而非明文梯度。在随机梯度下降中，每一次梯度的计算不会使用所有的样本，而是部分样本，比如有100个样本，批大小(batch的大小)设置为10，则每次计算梯度时使用的样本仅为10个，而非100个，但遍历完所有样本后，模型参数会更新10次(100个样本可以划分为互不相交的10个batch)。

基于同态加密的随机梯度下降算法具备较小的通信开销，大部分计算均是在模型发起方以及特征提供方本地进行，无需像现有技术中采用sigmoid近似函数需要进行点对点的通信，存在通信开销大的问题。

逻辑回归模型的训练目标是更好的拟合训练集，并达到更好的泛化效果。

采用多方纵向逻辑回归算法模型在具体场景中采用相应的数据进行训练，通过训练完毕的多方纵向逻辑回归算法模型在具体场景中进行应用，比如采用多方纵向逻辑回归算法模型进行金融的信用欺诈检测，通过金融交易数据训练多方纵向逻辑回归算法模型，通过训练完毕的多方纵向逻辑回归算法模型预测得到属于信用欺诈的失信用户名单，提升金融机构的反欺诈能力；以及用于广告的推荐问题，具体为：采用广告人群数据来训练多方纵向逻辑回归算法模型，通过训练完毕的多方纵向逻辑回归算法模型对人群按用户画像进行分类，实现广告精准推荐。

本发明实施例所取得的有益效果如下：

通信方面，现有的隐私保护的多方逻辑回归算法，需要将n个m维的数据分发给p个参与方，并且在t轮迭代中，每轮都需要在p-sharing下计算矩阵乘法，这会带来O(mnp+mnpt)的通信开销；其中，p-sharing是p个参与方的秘密分享，会将一个输入x拆成p份，然后分发给p个参与方。而本发明实施例避免了对原始数据集的分发，还避免了在秘密分享下计算矩阵乘法开销大的问题，因此通信开销为O(np²t)。考虑到大多数场景下，尤其在数据的特征维数m远大于参与方个数p时本方法具有更低的通信开销。

针对本发明实施例，预测精度方面进行实验，对比算法设置如下：

1、使用sigmoid原函数来进行逻辑回归；

2、使用分段函数近似sigmoid函数来进行逻辑回归，具体函数为：

3、使用多项式函数近似sigmoid函数来进行逻辑回归，具体函数为：

f(x)＝-0.004x³+0.197x+0.5 (6)。

4、使用本发明实施例的分段函数，即多个分段函数+多项式函数近似sigmoid函数来进行逻辑回归，具体函数为：

使用公开数据集census、chess、credit-card和MNIST(MNIST表示手写字体识别数据集)，验证所提算法的有效性，表1为这些数据集的统计信息。

表1：数据集统计信息

数据集	特征维数	样本数量	样本类别
				census	40	199523	2
chess	36	3196	2
				credit-card	23	30000	2
MNIST	784	60000	10

采取的评价指标为正确率、准确率、召回率、F1分数、AUC、KS，通过表2所示的混淆矩阵表进行定义。

表2：混淆矩阵表

	正例(Positive)	反例(Negative)
			正确(True)	True Positive(TP)	True Negative(TN)
错误(False)	False Positive(FP)	False Negative(FN)

其中，True Positive(真正，TP)表示把实际上是正类的预测为正类的总数，TrueNegative(真负，TN)表示把实际上为负类的预测为负类的总数，False Positive(假正，FP)表示将实际为负类的预测为正类的总数，False Negative(假负，FN)表示把实际上为正类的预测为负类的总数。

根据以上规定，正确率的定义为：

其含义是所有样例中，被正确预测的比例。

准确率的定义为：

其含义是所有判断为正类的样例中，实际为正类的比例。

召回率的定义为：

其含义是所有实际的正例中，被正确预测出来的比例。

理想的状况下希望准确率和召回率都很高，但两者是存在矛盾的。因此根据找到平衡两者矛盾的点，也就是指标F1分数的由来，其定义如下：

其中，P(precision)表示准确率，R(recall)表示召回率。

为了定义AUC(Area Under Curve，受试者工作特征曲线下的面积)和KS(科尔莫哥洛夫-斯米尔诺夫指标)，先定义TPR(True Positive Rate，真阳性率)和FPR(FalsePositive Rate，伪阳性率)：

基于以上定义，可以得到AUC的定义为：

AUC＝ROC曲线下方的面积 (14)。

其中，ROC(Receiver Operating Characteristic，接受者操作特征)曲线为分类阈值threshold取不同值时，得到的一系列点(FPR,TPR)的连线。

KS的定义为：

下面通过对比分析所发明方法和现有取得先进结果的方法的实验结果，来说明本发明实施例的方法的效果和性能。

在census数据集上，设置学习率为0.001、迭代轮数为8、批处理大小(batch_size)为64，阈值为0.5，得到如表3以及图6、图7的实验结果，其中，图6的纵坐标表示各逻辑回归算法在迭代时的损失，图7的纵坐标表示各逻辑回归算法的各预测值所在区间的比例。

表3：census数据集指标

在credit-card数据集上，设置学习率为0.001、迭代轮数为7、batch_size为64，阈值为0.5，得到如表4以及图8、图9的实验结果，其中，其中，图8的纵坐标表示各逻辑回归算法在迭代时的损失，图9的纵坐标表示各逻辑回归算法的各预测值所在区间的比例。

表4：credit-card数据集指标

在chess数据集上，设置学习率为0.001、迭代轮数为30、batch_size为64，阈值为0.5，得到如表5以及图10、图11的实验结果，其中，其中，图10的纵坐标表示各逻辑回归算法在迭代时的损失，图11的纵坐标表示各逻辑回归算法的各预测值所在区间的比例。

表5：chess数据集指标

在MNIST数据集上，使用one vs all(一对多的多类别分类方法)策略，设置学习率为0.005、迭代轮数为60、batch_size为64，得到如表6的实验结果：

表6：MNIST数据集指标

从实验结果可以看出：

(1)只使用分段函数的sigmoid函数近似方法，在一部分数据集上表现差于本发明实施例提出的方法和标准的sigmoid函数，但也在一部分数据集上的表现优于本发明实施例提出的方法和标准的sigmoid函数。这一现象说明使用分段函数的sigmoid函数近似方法的效果是数据强相关的，依赖于模型使用的数据集。

(2)只使用多项式插值的sigmoid函数近似方法，在数据维数过多、学习率过高、迭代轮数过多等情况下，都会导致模型的准确度下降，甚至会出现数值溢出等问题。相较之下，本发明实施例提出的sigmoid函数近似方法在上述情况下仍能保证正常运行。

(3)相比于只使用分段函数或多项式插值的sigmoid函数近似方法，本发明实施例提出的分段函数与多项式插值深度融合的sigmoid函数近似方法，对sigmoid函数的拟合效果更好，各项指标上都更加靠近现有技术中的sigmoid函数。

因此，本发明实施例所提出的近似函数可以保证在任意数据集上(特征提供方相应的本地数据)训练得到的模型与使用sigmoid原函数训练得到的模型维持相同的模型精度。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多方纵向逻辑回归算法模型的训练方法，应用于模型训练发起方，其特征在于，包括：

步骤123、将所述全局聚合值输入分段函数内进行计算，得到预测值；

步骤124、根据所述预测值计算各特征提供方相应的残差，并将所述残差发送至对应的特征提供方，所述残差用于各特征提供方采用随机梯度下降法计算参数梯度，所述参数梯度用于各特征提供方在其本地调整模型训练参数，实现模型训练迭代计算。

2.根据权利要求1所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，

在步骤121中，所生成的局部聚合值为同态密文形式；

在步骤123中，将所述同态密文形式的各局部聚合值进行相加所得到的全局聚合值也为同态密文形式。

3.根据权利要求2所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，

步骤123具体包括：

将同态密文形式的全局聚合值转换为二进制秘密分享；

在二进制秘密分享下，通过比较算子比较全局聚合值与各个分段点，得到二进制秘密分享的两个指示位，并将所述指示位由二进制秘密分享转化为同态密文形式；其中，分段函数中指明各分段点；

4.根据权利要求2所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤124具体包括：

将各残差以同态密文形式分别发送给相应的特征提供方。

5.根据权利要求3所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，还包括：

将各局部聚合值进行相加得到全局聚合值；

将所述全局聚合值输入分段函数内进行计算，得到预测值；

将所述预测值泛化成预测类别；其中，所述的将所述预测值泛化成预测类别，具体包括：

将预测值由同态密文形式转换为算数秘密分享的预测值；

根据设定的输出值分段点，提取算数秘密分享的预测值与设定的输出值分段点的差值符号位，将所述符号位的非门作为预测类别。

6.一种多方纵向逻辑回归算法模型的训练方法，应用于特征提供方，其特征在于，包括：

7.根据权利要求6所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤21，具体包括：当接收与本特征提供方所提供的特征对应的模型训练参数后，对模型训练参数进行初始化；

步骤221具体包括：接收模型训练发起方提供的同态密文形式的模型训练参数，根据同态密文形式的模型训练参数与所持有的本地数据在本地生成局部聚合值，所述局部聚合值为同态密文形式，将同态密文形式的局部聚合值发送给模型训练发起方。

8.根据权利要求7所述的多方纵向逻辑回归算法模型的训练方法，其特征在于，步骤222具体包括：

将调整后的模型训练参数以同态密文形式保存在本地。

9.一种多方纵向逻辑回归算法模型的训练方法，其特征在于，包括：

10.一种多方纵向逻辑回归算法模型的训练系统，应用于模型训练发起方，其特征在于，包括：

11.一种多方纵向逻辑回归算法模型的训练系统，应用于特征提供方，其特征在于，包括：

12.一种计算机可读存储介质，应用于模型训练发起方，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被计算机设备执行时，使得所述计算机设备执行权利要求1-5中任意一项所述的多方纵向逻辑回归算法模型的训练方法。

13.一种计算机可读存储介质，应用于特征提供方，其特征在于，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被计算机设备执行时，使得所述计算机设备执行权利要求6-8中任意一项所述的多方纵向逻辑回归算法模型的训练方法。

14.一种计算机设备，应用于模型训练发起方，其特征在于，包括：

处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-5中任意一项所述的多方纵向逻辑回归算法模型的训练方法。

15.一种计算机设备，应用于特征提供方，其特征在于，包括：

处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求6-8中任意一项所述的多方纵向逻辑回归算法模型的训练方法。