CN114362948A - 一种高效的联邦衍生特征逻辑回归建模方法 - Google Patents
一种高效的联邦衍生特征逻辑回归建模方法 Download PDFInfo
- Publication number
- CN114362948A CN114362948A CN202210263501.3A CN202210263501A CN114362948A CN 114362948 A CN114362948 A CN 114362948A CN 202210263501 A CN202210263501 A CN 202210263501A CN 114362948 A CN114362948 A CN 114362948A
- Authority
- CN
- China
- Prior art keywords
- sample
- data set
- client
- feature
- initiator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Storage Device Security (AREA)
Abstract
本发明公开了一种高效的联邦衍生特征逻辑回归建模方法。它包括以下步骤:发起方、参与方选取同样的K个样本,利用秘密分享算法计算出衍生特征;发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,并初始化;发起方、参与方配合计算出每个样本对应的预测值yD,并计算出每个样本对应的差值Δy;发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值;重复上述步骤T次,完成逻辑回归模型建模。本发明可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私。
Description
技术领域
本发明涉及衍生特征逻辑回归建模技术领域,尤其涉及一种高效的联邦衍生特征逻辑回归建模方法。
背景技术
在实际业务中,很多变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用,所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
特征衍生常用于金融风控场景。目前,发起方、参与方联合建模时,需要发起方的基础数据与参与方的基础数据采用明文方式进行特征衍生,得到明文的衍生特征后,发起方、参与方利用衍生特征、双方的基础数据进行逻辑回归建模,然而这种建模方法采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
发起方、参与方也可采用《ABY – A Framework for Efficient Mixed-ProtocolSecure Two-Party Computation》这篇论文的方法,利用秘密分享算法计算发起方的基础特征和参与方的基础特征的联邦衍生特征,发起方、参与方各自保留对应的密文状态的衍生特征分片,但是,现有的逻辑回归建模方法无法使用密文状态的衍生特征分片。
发明内容
本发明为了解决上述技术问题,提供了一种高效的联邦衍生特征逻辑回归建模方法,其可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种高效的联邦衍生特征逻辑回归建模方法,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,样本数据集XA中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,样本数据集XB中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B;
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中的每个数据特征对应的权重系数、样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数、衍生特征分片<XC>B对应的权重系数;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD;
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,并给这些权重系数赋予最新值;
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,并给这些权重系数赋予最新值;
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,完成逻辑回归模型建模。
在本方案中,发起方、参与方选取同样的K个样本用于逻辑回归建模,利用秘密分享算法计算出衍生特征,得到保存在发起方的与每个样本对应的衍生特征分片<XC>A、保存在参与方的与每个样本对应的衍生特征分片<XC>B。接着,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。发起方、参与方配合计算出每个样本对应的预测值yD,从而可以得到每个样本对应的差值Δy,发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,重复上述步骤T次后,发起方得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,参与方得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,完成逻辑回归模型建模。
在整个建模过程中,发起方、参与方的数据都没有明文出库,衍生特征分片<XC>A、衍生特征分片<XC>B都是密文状态,发起方、参与方都无法获取对方的数据,也无法获取衍生特征的明文值,保护了双方的数据隐私,避免了数据泄露。本方案利用秘密分享算法生成衍生特征,并将秘密分享生成的衍生特征用于逻辑回归建模,计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。本方案的方法适用于风控场景、营销场景,比如,发起方为金融机构,参与方为运营商,金融机构与运营商之间使用专网通信,采用本方案的方法实现联邦特征衍生、联合建模,用于预测金融机构的金融机构用户等级。
作为优选,所述衍生特征分片<XC>A与衍生特征分片<XC>B之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
假设发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征f与样本数据集XB中的数据特征e进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B,则满足下述情况种的一种:
f+e=<XC>A+<XC>B;
f-e=<XC>A+<XC>B;
e-f=<XC>A+<XC>B;
f*e=<XC>A+<XC>B;
f/e=<XC>A+<XC>B;
e/f=<XC>A+<XC>B。
作为优选,所述步骤S1包括以下步骤:
发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XC>A(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XC>B (i)。
每个样本都有唯一对应的标识,发起方采集的K个样本的标识与参与方采集的K个样本的标识一致。
作为优选,所述步骤S2包括以下步骤:
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WC>AEA+ WBDB +<WC>BEB),
EA =[<XC>A(1) <XC>A(2)…<XC>A(K)],
EB =[<XC>B (1) <XC>B (2)…<XC>B (K)],
<WC>A表示衍生特征分片<XC>A对应的权重系数,<WC>B表示衍生特征分片<XC>B对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>B对应的权重系数。
作为优选,所述步骤S3包括以下步骤:
发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,
编号为i的样本的衍生特征对应的预测得分yC(i)=<WC>A<XC>B (i)+<WC>B<XC>A(i)+<WC>A<XC>A(i)+<WC>B<XC>B (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i))。
作为优选,所述步骤S5包括以下步骤:
发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Y=[Δy(1) Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XC>A对应的权重系数<WC>A重新赋值的公式如下:
EA =[<XC>A(1) <XC>A(2)…<XC>A(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Y=[Δy(1) Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XC>B对应的权重系数<WC>B重新赋值的公式如下:
EB =[<XC>B (1) <XC>B (2)…<XC>B (K)]。
作为优选,所述步骤S2还包括以下步骤:发起方和参与方初始化参数T、学习率、乘法三元组。乘法三元组主要用于多方安全计算协议中的乘法计算,它的应用范围为加法和乘法均为线性的秘密分享机制。
本发明的有益效果是:(1)可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。(2)计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。
附图说明
图1是实施例的流程图;
图2是实施例中举例的模型参数表。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种高效的联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,如图1所示,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本(样本为用户样本)对应的样本数据集XA,每个样本都有唯一对应的标识,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,该K个样本的标识与发起方采集的K个样本的标识一致,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的某个数据特征、样本数据集XB中的某个数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XC>A(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XC>B (i);
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WC>AEA+ WBDB +<WC>BEB),
EA =[<XC>A(1) <XC>A(2)…<XC>A(K)],
EB =[<XC>B (1) <XC>B (2)…<XC>B (K)],
<WC>A表示衍生特征分片<XC>A对应的权重系数,<WC>B表示衍生特征分片<XC>B对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>B对应的权重系数;
发起方和参与方初始化参数T、学习率α、乘法三元组;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),并发送给发起方客户端;
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,
编号为i的样本的衍生特征对应的预测得分yC(i)=<WC>A<XC>B (i)+<WC>B<XC>A(i)+<WC>A<XC>A(i)+<WC>B<XC>B (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i));
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;(发起方客户端拥有每个样本对应的真实值yE)
编号为i的样本对应的差值Δy(i)= yD(i)-yE(i),yE(i)表示编号为i的样本对应的真实值;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Y=[Δy(1) Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XC>A对应的权重系数<WC>A重新赋值的公式如下:
EA =[<XC>A(1) <XC>A(2)…<XC>A(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Y=[Δy(1) Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XC>B对应的权重系数<WC>B重新赋值的公式如下:
EB =[<XC>B (1) <XC>B (2)…<XC>B (K)];
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,完成纵向逻辑回归模型建模。
在本方案中,发起方、参与方选取同样的K个样本用于逻辑回归建模,利用秘密分享算法计算出衍生特征,得到保存在发起方的与每个样本对应的衍生特征分片<XC>A、保存在参与方的与每个样本对应的衍生特征分片<XC>B。接着,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。发起方、参与方配合计算出每个样本对应的预测值yD,从而可以得到每个样本对应的差值Δy,发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,重复上述步骤T次后,发起方得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,参与方得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,完成纵向逻辑回归模型建模。
在整个建模过程中,发起方、参与方的数据都没有明文出库,衍生特征分片<XC>A、衍生特征分片<XC>B都是密文状态,发起方、参与方都无法获取对方的数据,也无法获取衍生特征的明文值,保护了双方的数据隐私,避免了数据泄露。本方案利用秘密分享算法生成衍生特征,并将秘密分享生成的衍生特征用于逻辑回归建模,计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。本方案的方法适用于风控场景、营销场景,比如,发起方为金融机构,参与方为运营商,金融机构与运营商之间使用专网通信,采用本方案的方法实现联邦特征衍生、联合建模,用于预测金融机构的金融机构用户等级。
衍生特征分片<XC>A与衍生特征分片<XC>B之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
假设发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征f与样本数据集XB中的数据特征e进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B,则满足下述情况种的一种:
f+e=<XC>A+<XC>B;
f-e=<XC>A+<XC>B;
e-f=<XC>A+<XC>B;
f*e=<XC>A+<XC>B;
f/e=<XC>A+<XC>B;
e/f=<XC>A+<XC>B。
乘法三元组主要用于多方安全计算协议中的乘法计算,它的应用范围为加法和乘法均为线性的秘密分享机制。
举例说明:
发起方、参与方都采集ID为1、2、3的三个样本,依次编号为1、2、3,发起方、参与方的初始参数如图2所示,学习率α为0.1、样本个数K为3,迭代T轮。
样本数据集XA中的数据特征依次标记为XA1、XA2,
样本数据集XA(1)的结构为XA (1)={XA1(1)、XA2(1)}={4、3 };
样本数据集XA (2)的结构为XA (2)={2、1 };
样本数据集XA (3)的结构为XA (3)={3、1 };
样本数据集XB中的数据特征依次标记为XB1、XB2,
样本数据集XB (1)的结构为XB (1)={2、3 };
样本数据集XB (2)的结构为XB (2)={2、1 };
样本数据集XB (3)的结构为XB (3)={3、1 };
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WC>AEA+ WBDB +<WC>BEB);
第一次迭代:
发起方客户端计算出编号为1的样本的样本数据集XA对应的预测得分yA(1)=WA*XA(1)= [1 2] *[2 1]=4;
参与方客户端计算出编号为1的样本的样本数据集XB对应的预测得分yB(1)= [1 2] *[2 1]=4;
发起方客户端、参与方客户端利用秘密分享乘法联邦计算编号为1的样本的衍生特征对应的预测得分yC(1)=1*0.8+2*0.2+1*0.2+2*0.8=3,
发起方客户端根据预测得分yA(1)、预测得分yB(1)、预测得分yC(1)计算出编号为2的样本对应的预测值yD(1)= sigmoid(4+4+3)= sigmoid(11)= 0.999999;
发起方客户端计算编号为1的样本对应的差值Δy(1)=yD(1)-yE(1)= 0.999999-1=-0.000001;
同理,发起方客户端计算出编号为2的样本对应的差值Δy(2)=1,编号为3的样本对应的差值Δy(3)=1,并将差值Δy(1)、Δy(2)、Δy(3)发送给参与方客户端;
发起方客户端给WA1、WA2、<WC>A重新赋值:
WA1=1-0.1/3*(-0.000001*2+1*4+1*3)=0.766667;
WA1=1-0.1/3*(-0.000001*1+1*3+1*1)=0.866667;
<WC>A=1-0.1/3*(-0.000001*0.2+1*0.3+1*1.1)=0.953333;
参与方客户端给WB1、WB2、<WC>B重新赋值:
WB1=1-0.1/3*(-0.000001*2+1*2+1*3)=0.833333;
WB2=1-0.1/3*(-0.000001*1+1*3+1*1)=0.866667;
<WC>B =1-0.1/3*(-0.000001*0.8+1*0.7+1*0.9)=0.946667;
重复上述步骤迭代T轮,发起方客户端获得最终的WA1、WA2、<WC>A的值,参与方客户端获得最终的WB1、WB2、<WC>B的值,完成联邦衍生特征逻辑回归模型建模。
Claims (7)
1.一种高效的联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,其特征在于,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,样本数据集XA中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,样本数据集XB中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B;
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中的每个数据特征对应的权重系数、样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数、衍生特征分片<XC>B对应的权重系数;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD;
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,并给这些权重系数赋予最新值;
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,并给这些权重系数赋予最新值;
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,完成逻辑回归模型建模。
2.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述衍生特征分片<XC>A与衍生特征分片<XC>B之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
3.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S1包括以下步骤:
发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XC>A、保存在参与方客户端的与每个样本对应的衍生特征分片<XC>B,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XC>A(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XC>B (i)。
4.根据权利要求3所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2包括以下步骤:
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WC>AEA+ WBDB +<WC>BEB),
EA =[<XC>A(1)<XC>A(2)…<XC>A(K)],
EB =[<XC>B (1)<XC>B (2)…<XC>B (K)],
<WC>A表示衍生特征分片<XC>A对应的权重系数,<WC>B表示衍生特征分片<XC>B对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XC>A对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XC>B对应的权重系数。
5.根据权利要求4所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S3包括以下步骤:
发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,
编号为i的样本的衍生特征对应的预测得分yC(i)=<WC>A<XC>B (i)+<WC>B<XC>A(i)+<WC>A<XC>A(i)+<WC>B<XC>B (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i))。
6.根据权利要求5所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S5包括以下步骤:
发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>A对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Y=[Δy(1)Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XC>A对应的权重系数<WC>A重新赋值的公式如下:
EA =[<XC>A(1)<XC>A(2)…<XC>A(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XC>B对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Y=[Δy(1)Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XC>B对应的权重系数<WC>B重新赋值的公式如下:
EB =[<XC>B (1)<XC>B (2)…<XC>B (K)]。
7.根据权利要求1所述的一种高效的联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2还包括以下步骤:发起方和参与方初始化参数T、学习率、乘法三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263501.3A CN114362948B (zh) | 2022-03-17 | 2022-03-17 | 一种联邦衍生特征逻辑回归建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210263501.3A CN114362948B (zh) | 2022-03-17 | 2022-03-17 | 一种联邦衍生特征逻辑回归建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114362948A true CN114362948A (zh) | 2022-04-15 |
CN114362948B CN114362948B (zh) | 2022-07-12 |
Family
ID=81094420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210263501.3A Active CN114362948B (zh) | 2022-03-17 | 2022-03-17 | 一种联邦衍生特征逻辑回归建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114362948B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114553395A (zh) * | 2022-04-24 | 2022-05-27 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
CN114662156A (zh) * | 2022-05-25 | 2022-06-24 | 蓝象智联(杭州)科技有限公司 | 一种基于匿名化数据的纵向逻辑回归建模方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN111523674A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN111600707A (zh) * | 2020-05-15 | 2020-08-28 | 华南师范大学 | 一种在隐私保护下的去中心化联邦机器学习方法 |
CN112183759A (zh) * | 2019-07-04 | 2021-01-05 | 创新先进技术有限公司 | 模型训练方法、装置及系统 |
CN112464287A (zh) * | 2020-12-12 | 2021-03-09 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
CN113626866A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 |
WO2021259366A1 (en) * | 2020-06-24 | 2021-12-30 | Jingdong Technology Holding Co., Ltd. | Federated doubly stochastic kernel learning on vertical partitioned data |
CN113989036A (zh) * | 2021-12-30 | 2022-01-28 | 百融至信(北京)征信有限公司 | 一种不暴露入模变量的联邦学习预测方法及系统 |
CN114091624A (zh) * | 2022-01-18 | 2022-02-25 | 蓝象智联(杭州)科技有限公司 | 一种无第三方的联邦梯度提升决策树模型训练方法 |
-
2022
- 2022-03-17 CN CN202210263501.3A patent/CN114362948B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN111523674A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置及系统 |
CN112183759A (zh) * | 2019-07-04 | 2021-01-05 | 创新先进技术有限公司 | 模型训练方法、装置及系统 |
CN111600707A (zh) * | 2020-05-15 | 2020-08-28 | 华南师范大学 | 一种在隐私保护下的去中心化联邦机器学习方法 |
WO2021259366A1 (en) * | 2020-06-24 | 2021-12-30 | Jingdong Technology Holding Co., Ltd. | Federated doubly stochastic kernel learning on vertical partitioned data |
US20220004932A1 (en) * | 2020-06-24 | 2022-01-06 | Jingdong Digits Technology Holding Co., Ltd. | Federated doubly stochastic kernel learning on vertical partitioned data |
CN112464287A (zh) * | 2020-12-12 | 2021-03-09 | 同济大学 | 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法 |
CN113626866A (zh) * | 2021-08-12 | 2021-11-09 | 中电积至(海南)信息技术有限公司 | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 |
CN113989036A (zh) * | 2021-12-30 | 2022-01-28 | 百融至信(北京)征信有限公司 | 一种不暴露入模变量的联邦学习预测方法及系统 |
CN114091624A (zh) * | 2022-01-18 | 2022-02-25 | 蓝象智联(杭州)科技有限公司 | 一种无第三方的联邦梯度提升决策树模型训练方法 |
Non-Patent Citations (2)
Title |
---|
刘艺璇等: "联邦学习中的隐私保护技术", 《软件学报》, 14 March 2022 (2022-03-14) * |
强锋等: "联邦学习技术金融应用规范标准的研究与建立", 《第十八届中国标准化论坛论文集》, 21 October 2021 (2021-10-21) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114553395A (zh) * | 2022-04-24 | 2022-05-27 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
CN114553395B (zh) * | 2022-04-24 | 2022-07-26 | 蓝象智联(杭州)科技有限公司 | 一种风控场景下的纵向联邦特征衍生方法 |
CN114662156A (zh) * | 2022-05-25 | 2022-06-24 | 蓝象智联(杭州)科技有限公司 | 一种基于匿名化数据的纵向逻辑回归建模方法 |
CN114662156B (zh) * | 2022-05-25 | 2022-09-06 | 蓝象智联(杭州)科技有限公司 | 一种基于匿名化数据的纵向逻辑回归建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114362948B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114362948B (zh) | 一种联邦衍生特征逻辑回归建模方法 | |
CN110460600B (zh) | 可抵御生成对抗网络攻击的联合深度学习方法 | |
CN113689003B (zh) | 一种安全的去除第三方的混合联邦学习框架及方法 | |
CN110084377A (zh) | 用于构建决策树的方法和装置 | |
CN111178549A (zh) | 保护数据隐私的双方联合训练业务预测模型的方法和装置 | |
CN114401079A (zh) | 多方联合信息价值计算方法、相关设备及存储介质 | |
CN112862001A (zh) | 一种隐私保护下的去中心化数据建模方法 | |
CN116708009A (zh) | 一种基于联邦学习的网络入侵检测方法 | |
CN113779608A (zh) | 多方纵向联邦学习LightGBM训练中基于WOE掩码的数据保护方法 | |
CN115775026B (zh) | 一种基于组织相似度的联邦学习方法 | |
CN114282692A (zh) | 一种纵向联邦学习的模型训练方法及系统 | |
CN116957112A (zh) | 联合模型的训练方法、装置、设备及存储介质 | |
CN114564752A (zh) | 一种基于图联邦的黑名单传播方法 | |
CN116595589B (zh) | 基于秘密共享机制的分布式支持向量机训练方法及系统 | |
CN113962286A (zh) | 一种基于分段函数的去中心化逻辑回归分类预测方法 | |
CN113807736A (zh) | 一种数据质量评估方法、计算机设备及存储介质 | |
Jiao et al. | A blockchain federated learning scheme based on personalized differential privacy and reputation mechanisms | |
CN117609621A (zh) | 用于在多个节点中进行资源推荐的方法 | |
CN114548429B (zh) | 一种安全高效的横向联邦神经网络模型训练方法 | |
CN114662156B (zh) | 一种基于匿名化数据的纵向逻辑回归建模方法 | |
CN114742233B (zh) | 联合训练逻辑回归模型的方法及装置 | |
CN115204374A (zh) | 基于分割神经网络的联邦学习及预测的系统、方法和设备 | |
CN116011597A (zh) | 一种基于图数据的个性化联邦学习方法及装置 | |
CN116341636A (zh) | 联邦学习方法、设备、系统和存储介质 | |
CN114862416A (zh) | 一种联邦学习环境下的跨平台信用评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |