CN114662156B

CN114662156B - 一种基于匿名化数据的纵向逻辑回归建模方法

Info

Publication number: CN114662156B
Application number: CN202210573495.1A
Authority: CN
Inventors: 裴阳; 毛仁歆; 刘文博; 马煜翔; 刘洋
Original assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Current assignee: Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-06
Anticipated expiration: 2042-05-25
Also published as: CN114662156A

Abstract

本发明公开了一种基于匿名化数据的纵向逻辑回归建模方法。它包括以下步骤：发起方、参与方分别构建同样的纵向逻辑回归模型并初始化；发起方、参与方联合计算出每个匿名样本对应的预测值Y，发起方得到预测值分片Y_A，参与方得到预测值分片Y_B；发起方、参与方分别计算残差分片Δy_A、残差分片Δy_B；发起方、参与方各自计算自身持有的数据特征分片对应的权重系数的最新值并赋值；重复上述步骤T次，完成纵向逻辑回归模型建模。本发明可以使用秘密分享密文状态下的数据特征分片，在建模过程中没有泄露中间结果，大大提高了建模安全性。

Description

一种基于匿名化数据的纵向逻辑回归建模方法

技术领域

本发明涉及逻辑回归建模技术领域，尤其涉及一种基于匿名化数据的纵向逻辑回归建模方法。

背景技术

近些年来，随着云计算以及大数据技术的成熟以及普及，用户无时不刻都在产生数据，而这些数据如果被滥用，对个人隐私、社会安全将会产生极大的危害。企业和机构由于隐私政策限制，诞生了“数据孤岛”，即单独的公司或者机构只拥有部分数据。联邦学习概念应运而生，旨在解决如何在保护数据隐私的前提下，发挥数据作为机器学习建模的“原料”作用。而逻辑回归模型作为基础且重要的机器学习模型，如何去构建联邦学习下的安全逻辑回归模型也成为了关注的焦点。在最新发布的个人信息保护法中，再次强调了个人信息的重要性，除匿名化数据外敏感数据的使用都需要受到监管。

逻辑回归（logistic回归）又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测，金融风控等领域。现有的纵向逻辑回归建模方法在建模过程中会泄漏部分中间计算结果（如：预测值、残差等），存在安全隐患。隐匿集合求交共享数据是在参与双方不泄露任何额外信息的情况下，得到双方持有ID的交集，并将各自ID对应的数据特征通过秘密分享的加法共享给另一方，双方各自保留秘密分享密文状态下的数据特征分片，即不泄露双方的ID信息，也不泄露ID对应的数据特征信息。然而，现有的纵向逻辑回归建模方法无法使用秘密分享密文状态下的数据特征分片。

发明内容

本发明为了解决上述技术问题，提供了一种基于匿名化数据的纵向逻辑回归建模方法，其可以使用秘密分享密文状态下的数据特征分片，在建模过程中没有泄露中间结果，大大提高了建模安全性。

为了解决上述问题，本发明采用以下技术方案予以实现：

本发明的一种基于匿名化数据的纵向逻辑回归建模方法，用于金融机构联合风控建模，发起方持有K个匿名样本对应的样本数据集X_A及标签值分片y_A，样本数据集X_A中包含n个秘密分享密文状态下的数据特征分片，参与方持有相同的K个匿名样本对应的样本数据集X_B及标签值分片y_B，样本数据集X_B中包含n个秘密分享密文状态下的数据特征分片，其特征在于，包括以下步骤：

S1：发起方、参与方分别构建同样的纵向逻辑回归模型，初始化样本数据集X_A中每个数据特征分片对应的权重系数、样本数据集X_B中每个数据特征分片对应的权重系数；

S2：发起方、参与方联合计算出每个匿名样本对应的预测值Y，发起方得到预测值分片Y_A，参与方得到预测值分片Y_B，Y=Y_A+Y_B；

S3：发起方将每个匿名样本对应的标签值分片y_A减去对应的预测值分片Y_A得到对应的残差分片Δy_A，参与方将每个匿名样本对应的标签值分片y_B减去对应的预测值分片Y_B得到对应的残差分片Δy_B；

S4：发起方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片Δy_A计算出样本数据集X_A中每个数据特征分片对应的权重系数的最新值，给这些权重系数赋予最新值；

参与方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片Δy_B计算出样本数据集X_B中每个数据特征分片对应的权重系数的最新值，给这些权重系数赋予最新值；

S5：重复执行S2至S4步骤T次，完成纵向逻辑回归模型建模。

在本方案中，发起方持有的K个匿名样本对应的样本数据集X_A及标签值分片y_A、参与方持有相同的K个匿名样本对应的样本数据集X_B及标签值分片y_B是发起方、参与方经过隐匿集合求交分享数据后得到的结果，K个匿名样本为发起方、参与方的K个交集样本，发起方原先每个匿名样本有v个数据特征，v个数据特征通过秘密分享的加法共享给参与方，参与方原先每个匿名样本有w个数据特征，w个数据特征通过秘密分享的加法共享给发起方，v+w=n，这样发起方、参与方都各自拥有n个秘密分享密文状态下的数据特征分片，例如：发起方的匿名样本中有数据特征R，通过秘密分享的加法共享给参与方后，发起方持有数据特征分片R1，参与方持有数据特征分片R2，R= R1+ R2。

首先，发起方、参与方分别构建同样的纵向逻辑回归模型，并初始化。接着，发起方、参与方联合计算出每个匿名样本对应的预测值Y，发起方得到预测值分片Y_A，参与方得到预测值分片Y_B，从而使得发起方可以计算出每个匿名样本对应的残差分片Δy_A，参与方可以计算出每个匿名样本对应的残差分片Δy_B，最后发起方、参与方分别计算各自持有的数据特征分片对应的权重系数的最新值，并给这些权重系数赋予最新值，完成了一次纵向逻辑回归模型的迭代，重复执行上述步骤T次，T≥1，完成纵向逻辑回归模型建模，最终，发起方持有样本数据集X_A中每个数据特征分片对应的权重系数的最新值，参与方持有样本数据集X_B中每个数据特征分片对应的权重系数的最新值。

在整个建模过程中，发起方、参与方各自持有的秘密分享密文状态下的特征数据分片以及在建模过程中产生的预测值、残差等中间结果都没有泄露给对方，大大提高了建模安全性。本方案的方法适用于风控场景、营销场景，比如，发起方、参与方为不同的金融机构，双方之间使用专网通信，采用本方案的方法实现联合建模，用于预测金融机构用户等级。

作为优选，所述K个匿名样本的编号分别为1，2……K，样本数据集X_A中的n个数据特征分片依次标记为X_A1、X_A2……X_An，n≥1，则编号为i的匿名样本对应的样本数据集为X_A(i)，1≤i≤K，样本数据集X_A(i)的结构为X_A(i)=｛X_A1(i)、X_A2(i)、……X_An(i)｝，样本数据集X_B中的n个数据特征分片依次标记为X_B1、X_B2……X_Bn，则编号为i的匿名样本对应的样本数据集为X_B(i)，样本数据集X_B(i)的结构为X_B(i)=｛X_B1(i)、X_B2(i)、……X_Bn (i)｝；

所述步骤S2中发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i)，发起方得到预测值分片Y_A(i)，参与方得到预测值分片Y_B(i)的方法包括以下步骤：

N1：发起方、参与方协商生成参数a、参数b、参数c，a*b=c，发起方持有参数分片a_A、参数分片b_A、参数分片c_A，参与方持有参数分片a_B、参数分片b_B、参数分片c_B，a=a_A+a_B，b=b_A+b_B，c= c_A+c_B；

N2：发起方计算出W_Aj-a_A、X_Aj(i)-b_A并将其发送给参与方，参与方计算出W_Bj-a_B、X_Bj(i)-b_B并将其发送给发起方；

发起方、参与方都计算出F_j =(X_Aj(i)-b_A)+(X_Bj(i)-b_B)，E_j =(W_Aj-a_A) + (W_Bj-a_B)，

发起方计算出中间参数分片Z(i)_A：

Z(i)_A= Z(i)_A1+Z(i)_A2……+Z(i)_An，

Z(i)_Aj=F_j*a_A+E_j*b_A+c_A；

参与方计算出中间参数分片Z(i)_B：

Z(i)_B= Z(i)_B1+Z(i)_B2……+Z(i)_Bn，

Z(i)_Bj=E_j*F_j+F_j*a_B+E_j*b_B+c_B；

其中，1≤j≤n，X_Aj(i)表示编号为i的匿名样本对应的样本数据集为X_A(i)中的第j个数据特征分片，X_Bj(i)表示编号为i的匿名样本对应的样本数据集为X_B(i)中的第j个数据特征分片，W_Aj表示样本数据集X_A中的第j个数据特征分片X_Aj对应的权重系数，W_Bj表示样本数据集X_B中的第j个数据特征分片X_Bj对应的权重系数

N3：发起方、参与方根据中间参数分片Z(i)_A、中间参数分片Z(i)_B采用秘密分享的乘法协议计算出各自的预测值分片，发起方得到预测值分片Y_A(i)，参与方得到预测值分片Y_B(i)，

Y_A(i)+Y_B(i)满足如下公式：

Y_A(i)+Y_B(i)=sigmoid(Z(i)_A+Z(i)_B)，

。

步骤N2中，发起方计算出W_Aj-a_A、X_Aj(i)-b_A并将其发送给参与方，参与方计算出W_Bj-a_B、X_Bj(i)-b_B并将其发送给发起方，这样发起方没有将W_Aj、X_Aj(i)泄漏给参与方，参与方也没有将W_Bj、X_Bj(i)泄漏给发起方，大大提高了建模安全性。

步骤N3中，由于秘密分享密文状态下的数据特征分片不支持非线性函数计算，所以采用线性函数拟合sigmoid函数，得到公式：

。

作为优选，所述步骤N3包括以下步骤：

发起方、参与方采用秘密分享的比较协议比较Z(i)_A+Z(i)_B与-5、5的大小关系，

当Z(i)_A+Z(i)_B≤-5时，

Y_A(i)等于设定值f1，Y_B(i)等于设定值f2，f1+f2=0；

当Z(i)_A+Z(i)_B≥5时，

Y_A(i)等于设定值d1，Y_B(i)等于设定值d2，d1+d2=1；

当-5＜Z(i)_A+Z(i)_B＜5时，

发起方计算出Z(i)_A-a_A、Z(i)_A-b_A并将其发送给参与方，

参与方计算出Z(i)_B-a_B、Z(i)_B-b_B并将其发送给发起方，

发起方、参与方都计算出P1=(Z(i)_A-b_A)+(Z(i)_B-b_B)，Q1=(Z(i)_A-a_A)+(Z(i)_B-a_B)，

发起方计算出G(i)_A=P1*a_A+Q1*b_A+c_A，

参与方计算出G(i)_B=P1*Q1+P1*a_B+Q1*b_B+c_B，

发起方计算出G(i)_A-a_A、Z(i)_A-b_A并将其发送给参与方，

参与方计算出G(i)_B-a_B、Z(i)_B-b_B并将其发送给发起方，

发起方计算出预测值分片Y_A(i)：

Y_A(i)=0.5*d1+0.197*Z(i)_A-0.004*H(i)_A，

H(i)_A=P2*a_A+Q2*b_A+c_A；

参与方计算出预测值分片Y_B(i)：

Y_B(i)=0.5*d2+0.197*Z(i)_B-0.004*H(i)_B，

H(i)_B=P2*Q2+P2*a_B+Q2*b_B+c_B。

整个计算过程中，发起方没有泄露Z(i)_A给参与方，参与方没有泄露Z(i)_B给发起方，大大提高了建模安全性。

作为优选，所述步骤S3中发起方计算出编号为i的匿名样本对应的残差分片Δy_A(i)的公式如下：

Δy_A(i)=y_A(i)-Y_A(i)，y_A(i)表示编号为i的匿名样本对应的标签值分片y_A；

所述步骤S3中参与方计算出编号为i的匿名样本对应的残差分片Δy_B(i)的公式如下：

Δy_B(i)=y_B(i)-Y_B(i)，y_B(i)表示编号为i的匿名样本对应的标签值分片y_B。

作为优选，所述步骤S4中发起方给样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数W_Aj赋予最新值的公式如下：

；

所述步骤S4中参与方给样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数W_Bj赋予最新值的公式如下：

。

作为优选，所述步骤S1中初始化样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数、样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数的方法如下：

发起方初始化第j个数据特征对应的权重系数W_j，将权重系数W_j拆分为权重系数分片W_Aj、权重系数分片W_Bj，将权重系数分片W_Bj发送给参与方，发起方将权重系数分片W_Aj作为样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数，参与方将权重系数分片W_Bj作为样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数。

本发明的有益效果是：可以使用秘密分享密文状态下的数据特征分片，在建模过程中没有泄露中间结果，大大提高了建模安全性。

附图说明

图1是实施例的流程图；

图2是实施例中举例的样本数据图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：本实施例的一种基于匿名化数据的纵向逻辑回归建模方法，用于金融机构联合风控建模，发起方、参与方经过隐匿集合求交共享数据后，发起方持有K个匿名样本对应的样本数据集X_A及标签值分片y_A，样本数据集X_A中包含n个秘密分享密文状态下的数据特征分片，参与方持有相同的K个匿名样本对应的样本数据集X_B及标签值分片y_B，样本数据集X_B中包含n个秘密分享密文状态下的数据特征分片，K个匿名样本的编号分别为1，2……K，样本数据集X_A中的n个数据特征分片依次标记为X_A1、X_A2……X_An，n≥1，则编号为i的匿名样本对应的样本数据集为X_A(i)，1≤i≤K，样本数据集X_A(i)的结构为X_A(i)=｛X_A1(i)、X_A2(i)、……X_An(i)｝，样本数据集X_B中的n个数据特征分片依次标记为X_B1、X_B2……X_Bn，则编号为i的匿名样本对应的样本数据集为X_B(i)，样本数据集X_B(i)的结构为X_B(i)=｛X_B1(i)、X_B2(i)、……X_Bn (i)｝，如图1所示，包括以下步骤：

初始化样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数、样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数的方法如下：

发起方初始化第j个数据特征对应的权重系数W_j，将权重系数W_j拆分为权重系数分片W_Aj、权重系数分片W_Bj，将权重系数分片W_Bj发送给参与方，发起方将权重系数分片W_Aj作为样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数，参与方将权重系数分片W_Bj作为样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数；

发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i)，发起方得到预测值分片Y_A(i)，参与方得到预测值分片Y_B(i)的方法包括以下步骤：

发起方计算出中间参数分片Z(i)_A：

Z(i)_A= Z(i)_A1+Z(i)_A2……+Z(i)_An，

Z(i)_Aj=F_j*a_A+E_j*b_A+c_A；

参与方计算出中间参数分片Z(i)_B：

Z(i)_B= Z(i)_B1+Z(i)_B2……+Z(i)_Bn，

Z(i)_Bj=E_j*F_j+F_j*a_B+E_j*b_B+c_B；

Y_A(i)+Y_B(i)满足如下公式：

Y_A(i)+Y_B(i)=sigmoid(Z(i)_A+Z(i)_B)，

；

发起方计算出编号为i的匿名样本对应的残差分片Δy_A(i)的公式如下：

参与方计算出编号为i的匿名样本对应的残差分片Δy_B(i)的公式如下：

Δy_B(i)=y_B(i)-Y_B(i)，y_B(i)表示编号为i的匿名样本对应的标签值分片y_B；

发起方给样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数W_Aj赋予最新值的公式如下：

；

；

S5：重复执行S2至S4步骤T次，T≥1，完成纵向逻辑回归模型建模。

步骤N3包括以下步骤：

当Z(i)_A+Z(i)_B≤-5时，

Y_A(i)等于设定值f1，Y_B(i)等于设定值f2，f1+f2=0；

当Z(i)_A+Z(i)_B≥5时，

Y_A(i)等于设定值d1，Y_B(i)等于设定值d2，d1+d2=1；

当-5＜Z(i)_A+Z(i)_B＜5时，

发起方计算出Z(i)_A-a_A、Z(i)_A-b_A并将其发送给参与方，

参与方计算出Z(i)_B-a_B、Z(i)_B-b_B并将其发送给发起方，

发起方计算出G(i)_A=P1*a_A+Q1*b_A+c_A，

参与方计算出G(i)_B=P1*Q1+P1*a_B+Q1*b_B+c_B，

发起方计算出G(i)_A-a_A、Z(i)_A-b_A并将其发送给参与方，

参与方计算出G(i)_B-a_B、Z(i)_B-b_B并将其发送给发起方，

发起方计算出预测值分片Y_A(i)：

Y_A(i)=0.5*d1+0.197*Z(i)_A-0.004*H(i)_A，

H(i)_A=P2*a_A+Q2*b_A+c_A；

参与方计算出预测值分片Y_B(i)：

Y_B(i)=0.5*d2+0.197*Z(i)_B-0.004*H(i)_B，

H(i)_B=P2*Q2+P2*a_B+Q2*b_B+c_B。

步骤N2中，发起方计算出W_Aj-a_A、X_Aj(i)-b_A并将其发送给参与方，参与方计算出W_Bj-a_B、X_Bj(i)-b_B并将其发送给发起方，这样发起方没有将W_Aj、X_Aj(i)泄漏给参与方，参与方也没有将W_Bj、X_Bj(i)泄漏给发起方，步骤N3中，发起方没有泄露Z(i)_A给参与方，参与方没有泄露Z(i)_B给发起方，在整个建模过程中，发起方、参与方各自持有的秘密分享密文状态下的特征数据分片以及在建模过程中产生的预测值、残差等中间结果都没有泄露给对方，大大提高了建模安全。本方案的方法适用于风控场景、营销场景，比如，发起方、参与方为不同的金融机构，双方之间使用专网通信，采用本方案的方法实现联合建模，用于预测金融机构用户等级。。

。

举例说明：

如图2所示，初始时，发起方持有四个样本，分别为张三、李七、王五、赵六，每个样本包含有数据特征X₁、X₂以及标签值y，参与方持有四个样本，分别为张三、李四、王五、刘九，每个样本包含有数据特征X₃、X₄；

发起方、参与方经过隐匿集合求交共享数据后，发起方持有编号为1、2的匿名样本，每个匿名样本包含有数据特征分片X_A1、X_A2、X_A3、X_A4以及标签值y_A，参与方持有编号为1、2的样本，每个匿名样本包含有数据特征分片X_B1、X_B2、X_B3、X_B4以及标签值y_B，编号为1的匿名样本与张三样本对应，编号为2的匿名样本与王五样本对应。

以编号为1的匿名样本为例，

发起方持有编号为1的匿名样本对应的样本数据集为X_A(1)，X_A(1)=｛X_A1(1)、X_A2(1)、X_A3(1)、X_A4(1)｝=｛0.1、0.5、2、0.3｝，持有标签值分片y_A(1)=-1；

参与方持有编号为1的匿名样本对应的样本数据集为X_B(1)，X_B(1)=｛X_B1(1)、X_B2(1)、X_B3(1)、X_B4(1)｝=｛0.2、0.5、-1、-0.1｝，持有标签值分片y_B(1)=1；

样本数据集X_A(1)与样本数据集为X_B(1)相加可以得到发起方、参与方分别持有的张三的数据特征的集合｛0.3、1、1、0.2｝，标签值分片y_A(1)与标签值分片y_B(1)相加可以得到张三的标签值0。

发起方将数据特征X₁、X₂ 、X₃、X₄的权重系数W₁、W₂、W₃、W₄初始化为1、-1、1、3，并通过秘密分享加法共享给参与方；

发起方持有数据特征分片X_A1、X_A2、X_A3、X_A4对应的权重系数W_A1、W_A2、W_A3、W_A4分别为2、1、0、2；

参与方持有数据特征分片X_B1、X_B2、X_B3、X_B4对应的权重系数W_B1、W_B2、W_B3、W_B4分别为-1、-2、1、-5。

发起方生成a_A=1、b_A=2、c_A=3，参与方生成a_B=2、b_B=1、c_B=6，

(a_A+a_B)* (b_A+b_B)= (c_A+c_B)，

发起方计算出W_A1-a_A=2-1=1、X_A1(1)-b_A=0.1-2=-1.9，并将其发送给参与方，参与方计算出W_B1-a_B=-1-2=-3、X_B1(1)-b_B=0.2-1=-0.8，并将其发送给发起方；

发起方、参与方都计算出F₁=(X_A1(1)-b_A)+(X_B1(1)-b_B)= -1.9-0.8=-2.7，E₁ =(W_A1-a_A) + (W_B1-a_B) =1-3=-2；

发起方计算出中间参数分片Z(1)_A1：

Z(1)_A1=F₁*a_A+E₁*b_A+c_A=-2.7*1+-2*2+3=-3.7；

参与方计算出中间参数分片Z(1)_B1：

Z(1)_B1= E₁*F₁+F₁*a_B+E₁*b_B+c_B =-2*(-2.7)+ -2.7*2+-2*1+6=4；

Z(1)_A1+Z(1)_B1=-3.7+4=0.3；

(W_A1+W_B1)*(X_A1(1)+X_B1(1))= W₁* X₁=1*0.3=0.3；

即，Z(1)_A1+Z(1)_B1=W₁* X₁，

所以，发起方持有的中间参数分片Z(1)_A1与参与方持有的中间参数分片Z(1)_B1的和等于W₁* X₁，采用同样方法计算出Z(1)_A2、Z(1)_B2、Z(1)_A3、Z(1)_B3、 Z(1)_A4、Z(1)_B4，得到中间参数分片Z(i)_A、Z(i)_B，

中间参数分片Z(1)_A+Z(1)_B=W₁*X₁+W₂*X₂+ W₃*X₃+W₄*X₄；

采用同样原理，发起方计算出Y_A(1)，参与方计算出Y_B(1)，通过上述方法计算出的Y_A(1)、Y_B(1)会满足Y_A(1)+Y_B(1)=Y(1)，Y(1)为根据数据特征X₁、X₂ 、X₃、X₄的明文值与权重系数W₁、W₂、W₃、W₄的明文值计算出的预测值。

发起方计算出编号为1的匿名样本的对应的残差分片Δy_A(1)、编号为2的匿名样本的对应的残差分片Δy_A(2)，参与方计算出编号为1的匿名样本的对应的残差分片Δy_B(1)、编号为2的匿名样本的对应的残差分片Δy_B(2)。

发起方根据学习率α、匿名样本个数2、残差分片Δy_A(1)、Δy_A(2)计算出权重系数W_A1、W_A2、W_A3、W_A4的最新值，给这些权重系数赋予最新值；参与方根据学习率α、匿名样本个数2、残差分片Δy_B(1)、Δy_B(2)计算出权重系数W_B1、W_B2、W_B3、W_B4的最新值，给这些权重系数赋予最新值；

重复上述步骤迭代T轮，发起方获得最终的W_A1、W_A2、W_A3、W_A4的值，参与方获得最终的W_B1、W_B2、W_B3、W_B4的值，完成纵向逻辑回归建模。

Claims

1.一种基于匿名化数据的纵向逻辑回归建模方法，用于金融机构联合风控建模，发起方持有K个匿名样本对应的样本数据集X_A及标签值分片y_A，样本数据集X_A中包含n个秘密分享密文状态下的数据特征分片，参与方持有相同的K个匿名样本对应的样本数据集X_B及标签值分片y_B，样本数据集X_B中包含n个秘密分享密文状态下的数据特征分片，其特征在于，包括以下步骤：

S5：重复执行S2至S4步骤T次，完成纵向逻辑回归模型建模；

所述K个匿名样本的编号分别为1，2……K，样本数据集X_A中的n个数据特征分片依次标记为X_A1、X_A2……X_An，n≥1，则编号为i的匿名样本对应的样本数据集为X_A(i)，1≤i≤K，样本数据集X_A(i)的结构为X_A(i)=｛X_A1(i)、X_A2(i)、……X_An(i)｝，样本数据集X_B中的n个数据特征分片依次标记为X_B1、X_B2……X_Bn，则编号为i的匿名样本对应的样本数据集为X_B(i)，样本数据集X_B(i)的结构为X_B(i)=｛X_B1(i)、X_B2(i)、……X_Bn (i)｝；

N1：发起方、参与方协商生成参数a、参数b、参数c，a*b=c，发起方持有参数分片a_A、参数分片b_A、参数分片c_A，参与方持有参数分片a_B、参数分片b_B、参数分片c_B，a=a_A+a_B，b=b_A+b_B，c=c_A+c_B；

发起方计算出中间参数分片Z(i)_A：

Z(i)_A= Z(i)_A1+Z(i)_A2……+Z(i)_An，

Z(i)_Aj=F_j*a_A+E_j*b_A+c_A；

参与方计算出中间参数分片Z(i)_B：

Z(i)_B= Z(i)_B1+Z(i)_B2……+Z(i)_Bn，

Z(i)_Bj=E_j*F_j+F_j*a_B+E_j*b_B+c_B；

其中，1≤j≤n，X_Aj(i)表示编号为i的匿名样本对应的样本数据集为X_A(i)中的第j个数据特征分片，X_Bj(i)表示编号为i的匿名样本对应的样本数据集为X_B(i)中的第j个数据特征分片，W_Aj表示样本数据集X_A中的第j个数据特征分片X_Aj对应的权重系数，W_Bj表示样本数据集X_B中的第j个数据特征分片X_Bj对应的权重系数；

Y_A(i)+Y_B(i)满足如下公式：

Y_A(i)+Y_B(i)=sigmoid(Z(i)_A+Z(i)_B)，

。

2.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S3中发起方计算出编号为i的匿名样本对应的残差分片Δy_A(i)的公式如下：

3.根据权利要求2所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S4中发起方给样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数W_Aj赋予最新值的公式如下：

；

。

4.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法，其特征在于，所述步骤S1中初始化样本数据集X_A中第j个数据特征分片X_Aj对应的权重系数、样本数据集X_B中第j个数据特征分片X_Bj对应的权重系数的方法如下：