CN114362948B - 一种联邦衍生特征逻辑回归建模方法 - Google Patents

一种联邦衍生特征逻辑回归建模方法 Download PDF

Info

Publication number
CN114362948B
CN114362948B CN202210263501.3A CN202210263501A CN114362948B CN 114362948 B CN114362948 B CN 114362948B CN 202210263501 A CN202210263501 A CN 202210263501A CN 114362948 B CN114362948 B CN 114362948B
Authority
CN
China
Prior art keywords
sample
data set
client
initiator
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210263501.3A
Other languages
English (en)
Other versions
CN114362948A (zh
Inventor
郭梁
裴阳
毛仁歆
石斑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202210263501.3A priority Critical patent/CN114362948B/zh
Publication of CN114362948A publication Critical patent/CN114362948A/zh
Application granted granted Critical
Publication of CN114362948B publication Critical patent/CN114362948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明公开了一种高效的联邦衍生特征逻辑回归建模方法。它包括以下步骤:发起方、参与方选取同样的K个样本,利用秘密分享算法计算出衍生特征;发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,并初始化;发起方、参与方配合计算出每个样本对应的预测值yD,并计算出每个样本对应的差值Δy;发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值;重复上述步骤T次,完成逻辑回归模型建模。本发明可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私。

Description

一种联邦衍生特征逻辑回归建模方法
技术领域
本发明涉及衍生特征逻辑回归建模技术领域,尤其涉及一种联邦衍生特征逻辑回归建模方法。
背景技术
在实际业务中,很多变量没有实际含义,不适合直接建模,如用户地址(多种属性值的分类变量)、用户日消费金额(弱数值变量),而此类变量在做一定的变换或者组合后,往往具有较强的信息价值,对数据敏感性和机器学习实战经验能起到较大的帮助作用,所以实际场景需要对基础特征做一些衍生类的工作,也就是业内常说的如何生成万维数据。
特征衍生常用于金融风控场景。目前,发起方、参与方联合建模时,需要发起方的基础数据与参与方的基础数据采用明文方式进行特征衍生,得到明文的衍生特征后,发起方、参与方利用衍生特征、双方的基础数据进行逻辑回归建模,然而这种建模方法采用明文方式进行,会将自己的数据泄露给对方,无法保护各自的数据隐私。
发起方、参与方也可采用《ABY – A Framework for Efficient Mixed-ProtocolSecure Two-Party Computation》这篇论文的方法,利用秘密分享算法计算发起方的基础特征和参与方的基础特征的联邦衍生特征,发起方、参与方各自保留对应的密文状态的衍生特征分片,但是,现有的逻辑回归建模方法无法使用密文状态的衍生特征分片。
发明内容
本发明为了解决上述技术问题,提供了一种联邦衍生特征逻辑回归建模方法,其可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种联邦衍生特征逻辑回归建模方法,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,样本数据集XA中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,样本数据集XB中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中的每个数据特征对应的权重系数、样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XCA对应的权重系数、衍生特征分片<XCB对应的权重系数;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,并给这些权重系数赋予最新值;
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,并给这些权重系数赋予最新值;
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,完成逻辑回归模型建模。
在本方案中,发起方、参与方选取同样的K个样本用于逻辑回归建模,利用秘密分享算法计算出衍生特征,得到保存在发起方的与每个样本对应的衍生特征分片<XCA、保存在参与方的与每个样本对应的衍生特征分片<XCB。接着,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。发起方、参与方配合计算出每个样本对应的预测值yD,从而可以得到每个样本对应的差值Δy,发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,重复上述步骤T次后,发起方得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,参与方得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,完成逻辑回归模型建模。
在整个建模过程中,发起方、参与方的数据都没有明文出库,衍生特征分片<XCA、衍生特征分片<XCB都是密文状态,发起方、参与方都无法获取对方的数据,也无法获取衍生特征的明文值,保护了双方的数据隐私,避免了数据泄露。本方案利用秘密分享算法生成衍生特征,并将秘密分享生成的衍生特征用于逻辑回归建模,计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。本方案的方法适用于风控场景、营销场景,比如,发起方为金融机构,参与方为运营商,金融机构与运营商之间使用专网通信,采用本方案的方法实现联邦特征衍生、联合建模,用于预测金融机构的金融机构用户等级。
作为优选,所述衍生特征分片<XCA与衍生特征分片<XCB之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
假设发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征f与样本数据集XB中的数据特征e进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB,则满足下述情况种的一种:
f+e=<XCA+<XCB
f-e=<XCA+<XCB
e-f=<XCA+<XCB
f*e=<XCA+<XCB
f/e=<XCA+<XCB
e/f=<XCA+<XCB
作为优选,所述步骤S1包括以下步骤:
发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XCA(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XCB (i)。
每个样本都有唯一对应的标识,发起方采集的K个样本的标识与参与方采集的K个样本的标识一致。
作为优选,所述步骤S2包括以下步骤:
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WCAEA+ WBDB +<WCBEB),
其中,WA=[WA1WA2…WAn],WA表示数据特征XA1、XA2……XAn对应的权重系数组成的向量,WAp为数据特征XAp对应的权重系数,1≤p≤n,
Figure DEST_PATH_IMAGE001
EA =[<XCA(1)<XCA(2)…<XCA(K)],
WB=[WB1WB2…WBm],WB表示数据特征XB1、XB2……XBm对应的权重系数组成的向量,WBq为数据特征XBq对应的权重系数,1≤q≤m,
Figure DEST_PATH_IMAGE002
EB =[<XCB (1) <XCB (2)…<XCB (K)],
<WCA表示衍生特征分片<XCA对应的权重系数,<WCB表示衍生特征分片<XCB对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XCA对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XCB对应的权重系数。
作为优选,所述步骤S3包括以下步骤:
发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC
编号为i的样本的衍生特征对应的预测得分yC(i)=<WCA<XCB (i)+<WCB<XCA(i)+<WCA<XCA(i)+<WCB<XCB (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i))。
作为优选,所述步骤S5包括以下步骤:
发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Figure DEST_PATH_IMAGE003
Y=[Δy(1) Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XCA对应的权重系数<WCA重新赋值的公式如下:
Figure DEST_PATH_IMAGE004
EA =[<XCA(1) <XCA(2)…<XCA(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Figure DEST_PATH_IMAGE005
Y=[Δy(1) Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XCB对应的权重系数<WCB重新赋值的公式如下:
Figure DEST_PATH_IMAGE006
EB =[<XCB (1) <XCB (2)…<XCB (K)]。
作为优选,所述步骤S2还包括以下步骤:发起方和参与方初始化参数T、学习率、乘法三元组。乘法三元组主要用于多方安全计算协议中的乘法计算,它的应用范围为加法和乘法均为线性的秘密分享机制。
本发明的有益效果是:(1)可以在发起方、参与方的数据不出库的情况下完成特征衍生及逻辑回归建模,保护了双方的数据隐私,避免数据泄露。(2)计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。
附图说明
图1是实施例的流程图;
图2是实施例中举例的模型参数表。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,如图1所示,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本(样本为用户样本)对应的样本数据集XA,每个样本都有唯一对应的标识,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,该K个样本的标识与发起方采集的K个样本的标识一致,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的某个数据特征、样本数据集XB中的某个数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XCA(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XCB (i);
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WCAEA+ WBDB +<WCBEB),
其中,WA=[WA1 WA2…WAn],WA表示数据特征XA1、XA2……XAn对应的权重系数组成的向量,WAp为数据特征XAp对应的权重系数,1≤p≤n,
Figure DEST_PATH_IMAGE007
EA =[<XCA(1) <XCA(2)…<XCA(K)],
WB=[WB1 WB2…WBm],WB表示数据特征XB1、XB2……XBm对应的权重系数组成的向量,WBq为数据特征XBq对应的权重系数,1≤q≤m,
Figure DEST_PATH_IMAGE008
EB =[<XCB (1) <XCB (2)…<XCB (K)],
<WCA表示衍生特征分片<XCA对应的权重系数,<WCB表示衍生特征分片<XCB对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XCA对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XCB对应的权重系数;
发起方和参与方初始化参数T、学习率α、乘法三元组;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),并发送给发起方客户端;
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC
编号为i的样本的衍生特征对应的预测得分yC(i)=<WCA<XCB (i)+<WCB<XCA(i)+<WCA<XCA(i)+<WCB<XCB (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i));
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;(发起方客户端拥有每个样本对应的真实值yE
编号为i的样本对应的差值Δy(i)= yD(i)-yE(i),yE(i)表示编号为i的样本对应的真实值;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Figure DEST_PATH_IMAGE009
Y=[Δy(1) Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XCA对应的权重系数<WCA重新赋值的公式如下:
Figure 937434DEST_PATH_IMAGE004
EA =[<XCA(1) <XCA(2)…<XCA(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Figure DEST_PATH_IMAGE010
Y=[Δy(1) Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XCB对应的权重系数<WCB重新赋值的公式如下:
Figure DEST_PATH_IMAGE011
EB =[<XCB (1) <XCB (2)…<XCB (K)];
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,完成纵向逻辑回归模型建模。
在本方案中,发起方、参与方选取同样的K个样本用于逻辑回归建模,利用秘密分享算法计算出衍生特征,得到保存在发起方的与每个样本对应的衍生特征分片<XCA、保存在参与方的与每个样本对应的衍生特征分片<XCB。接着,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。发起方、参与方配合计算出每个样本对应的预测值yD,从而可以得到每个样本对应的差值Δy,发起方、参与方分别根据学习率α、样本个数K、每个样本对应的差值Δy计算出每个数据特征对应的权重系数的最新值、每个衍生特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,重复上述步骤T次后,发起方得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,参与方得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,完成纵向逻辑回归模型建模。
在整个建模过程中,发起方、参与方的数据都没有明文出库,衍生特征分片<XCA、衍生特征分片<XCB都是密文状态,发起方、参与方都无法获取对方的数据,也无法获取衍生特征的明文值,保护了双方的数据隐私,避免了数据泄露。本方案利用秘密分享算法生成衍生特征,并将秘密分享生成的衍生特征用于逻辑回归建模,计算量小,可用于高带宽场景下,无需借助计算加速卡等硬件就能实现海量联邦衍生特征筛选的大规模商业落地。本方案的方法适用于风控场景、营销场景,比如,发起方为金融机构,参与方为运营商,金融机构与运营商之间使用专网通信,采用本方案的方法实现联邦特征衍生、联合建模,用于预测金融机构的金融机构用户等级。
衍生特征分片<XCA与衍生特征分片<XCB之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
假设发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征f与样本数据集XB中的数据特征e进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB,则满足下述情况种的一种:
f+e=<XCA+<XCB
f-e=<XCA+<XCB
e-f=<XCA+<XCB
f*e=<XCA+<XCB
f/e=<XCA+<XCB
e/f=<XCA+<XCB
乘法三元组主要用于多方安全计算协议中的乘法计算,它的应用范围为加法和乘法均为线性的秘密分享机制。
举例说明:
发起方、参与方都采集ID为1、2、3的三个样本,依次编号为1、2、3,发起方、参与方的初始参数如图2所示,学习率α为0.1、样本个数K为3,迭代T轮。
样本数据集XA中的数据特征依次标记为XA1、XA2
样本数据集XA(1)的结构为XA (1)={XA1(1)、XA2(1)}={4、3 };
样本数据集XA (2)的结构为XA (2)={2、1 };
样本数据集XA (3)的结构为XA (3)={3、1 };
样本数据集XB中的数据特征依次标记为XB1、XB2
样本数据集XB (1)的结构为XB (1)={2、3 };
样本数据集XB (2)的结构为XB (2)={2、1 };
样本数据集XB (3)的结构为XB (3)={3、1 };
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WCAEA+ WBDB +<WCBEB);
第一次迭代:
发起方客户端计算出编号为1的样本的样本数据集XA对应的预测得分yA(1)=WA*XA(1)= [1 2] *[2 1]=4;
参与方客户端计算出编号为1的样本的样本数据集XB对应的预测得分yB(1)= [1 2] *[2 1]=4;
发起方客户端、参与方客户端利用秘密分享乘法联邦计算编号为1的样本的衍生特征对应的预测得分yC(1)=1*0.8+2*0.2+1*0.2+2*0.8=3,
发起方客户端根据预测得分yA(1)、预测得分yB(1)、预测得分yC(1)计算出编号为2的样本对应的预测值yD(1)= sigmoid(4+4+3)= sigmoid(11)= 0.999999;
发起方客户端计算编号为1的样本对应的差值Δy(1)=yD(1)-yE(1)= 0.999999-1=-0.000001;
同理,发起方客户端计算出编号为2的样本对应的差值Δy(2)=1,编号为3的样本对应的差值Δy(3)=1,并将差值Δy(1)、Δy(2)、Δy(3)发送给参与方客户端;
发起方客户端给WA1、WA2、<WCA重新赋值:
WA1=1-0.1/3*(-0.000001*2+1*4+1*3)=0.766667;
WA1=1-0.1/3*(-0.000001*1+1*3+1*1)=0.866667;
<WCA=1-0.1/3*(-0.000001*0.2+1*0.3+1*1.1)=0.953333;
参与方客户端给WB1、WB2、<WCB重新赋值:
WB1=1-0.1/3*(-0.000001*2+1*2+1*3)=0.833333;
WB2=1-0.1/3*(-0.000001*1+1*3+1*1)=0.866667;
<WCB =1-0.1/3*(-0.000001*0.8+1*0.7+1*0.9)=0.946667;
重复上述步骤迭代T轮,发起方客户端获得最终的WA1、WA2、<WCA的值,参与方客户端获得最终的WB1、WB2、<WCB的值,完成联邦衍生特征逻辑回归模型建模。

Claims (7)

1.一种联邦衍生特征逻辑回归建模方法,用于金融机构和运营商之间联合风控建模,其特征在于,包括以下步骤:
S1:发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,样本数据集XA中包含若干个数据特征,参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,样本数据集XB中包含若干个数据特征,发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB
S2:发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中的每个数据特征对应的权重系数、样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XCA对应的权重系数、衍生特征分片<XCB对应的权重系数;
S3:发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC,发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD
S4:发起方客户端计算每个样本对应的预测值yD减去对应的真实值yE得到对应的差值Δy,并将差值Δy发送给参与方客户端;
S5:发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,并给这些权重系数赋予最新值;
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,并给这些权重系数赋予最新值;
S6:重复执行S3至S5步骤T次,发起方客户端得到样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,参与方客户端得到样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,完成逻辑回归模型建模。
2.根据权利要求1所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述衍生特征分片<XCA与衍生特征分片<XCB之和为样本数据集XA中的某个数据特征与样本数据集XB中的某个数据特征做加法运算或减法运算或乘法运算或除法运算的结果。
3.根据权利要求1所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S1包括以下步骤:
发起方客户端从自身数据库中采集K个样本对应的样本数据集XA,K个样本依次编号为1,2……K,每个样本对应的样本数据集XA的结构相同,样本数据集XA中包含若干个数据特征,将样本数据集XA中的数据特征依次标记为XA1、XA2……XAn,n为样本数据集XA中包含的数据特征的数量,n≥1,则编号为i的样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},
参与方客户端从自身数据库中采集相同的K个样本对应的样本数据集XB,每个样本的编号与发起方相同样本的编号一致,每个样本对应的样本数据集XB的结构相同,样本数据集XB中包含若干个数据特征,将样本数据集XB中的数据特征依次标记为XB1、XB2……XBm,m为样本数据集XB中包含的数据特征的数量,m≥1,则编号为i的样本对应的样本数据集为XB(i),1≤i≤K,样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBm (i)};
发起方客户端、参与方客户端利用秘密分享算法根据样本数据集XA中的数据特征、样本数据集XB中的数据特征进行特征衍生,得到保存在发起方客户端的与每个样本对应的衍生特征分片<XCA、保存在参与方客户端的与每个样本对应的衍生特征分片<XCB,保存在发起方客户端的编号为i的样本对应的衍生特征分片为<XCA(i),保存在参与方客户端的编号为i的样本对应的衍生特征分片为<XCB (i)。
4.根据权利要求3所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2包括以下步骤:
发起方客户端、参与方客户端分别构建同样的纵向逻辑回归模型:
y=sigmoid(WADA+<WCAEA+ WBDB +<WCBEB),
其中,WA=[WA1WA2…WAn],WAp为数据特征XAp对应的权重系数,1≤p≤n,
Figure 70172DEST_PATH_IMAGE001
EA =[<XCA(1)<XCA(2)…<XCA(K)],
WB=[WB1WB2…WBm],WBq为数据特征XBq对应的权重系数,1≤q≤m,
Figure 518470DEST_PATH_IMAGE002
EB =[<XCB (1)<XCB (2)…<XCB (K)],
<WCA表示衍生特征分片<XCA对应的权重系数,<WCB表示衍生特征分片<XCB对应的权重系数;
发起方客户端初始化样本数据集XA中的每个数据特征对应的权重系数、衍生特征分片<XCA对应的权重系数,参与方客户端初始化样本数据集XB中的每个数据特征对应的权重系数、衍生特征分片<XCB对应的权重系数。
5.根据权利要求4所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S3包括以下步骤:
发起方客户端计算出每个样本的样本数据集XA对应的预测得分yA,编号为i的样本的样本数据集XA对应的预测得分yA(i)=WA*XA(i),
参与方客户端计算出每个样本的样本数据集XB对应的预测得分yB,编号为i的样本的样本数据集XB对应的预测得分yB(i)=WB*XB(i),
发起方客户端、参与方客户端利用秘密分享乘法联邦计算每个样本的衍生特征对应的预测得分yC
编号为i的样本的衍生特征对应的预测得分yC(i)=<WCA<XCB (i)+<WCB<XCA(i)+<WCA<XCA(i)+<WCB<XCB (i),
发起方客户端根据预测得分yA、预测得分yB、预测得分yC计算出每个样本对应的预测值yD,编号为i的样本对应的预测值yD(i)= sigmoid(yA(i)+yB(i)+yC(i))。
6.根据权利要求5所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S5包括以下步骤:
发起方客户端根据学习率α、样本个数K、每个样本对应的差值Δy计算出样本数据集XA中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCA对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XAp对应的权重系数WAp重新赋值的公式如下,1≤p≤n:
Figure 829366DEST_PATH_IMAGE003
Y=[Δy(1)Δy(2)…Δy(K)],
XAp=[XAp(1) XAp(2) …XAp(K)],
其中,Δy(i)表示编号为i的样本对应的差值,1≤i≤K,
给衍生特征分片<XCA对应的权重系数<WCA重新赋值的公式如下:
Figure 755734DEST_PATH_IMAGE004
EA =[<XCA(1)<XCA(2)…<XCA(K)];
参与方客户端根据差值Δy、学习率α、样本个数K计算出样本数据集XB中的每个数据特征对应的权重系数的最新值、衍生特征分片<XCB对应的权重系数的最新值,并给这些权重系数赋予最新值;
给数据特征XBq对应的权重系数WBq重新赋值的公式如下,1≤q≤m:
Figure 835685DEST_PATH_IMAGE005
Y=[Δy(1)Δy(2)…Δy(K)],
XBq=[XBq (1) XBq (2) …XBq (K)],
给衍生特征分片<XCB对应的权重系数<WCB重新赋值的公式如下:
Figure 940039DEST_PATH_IMAGE006
EB =[<XCB (1)<XCB (2)…<XCB (K)]。
7.根据权利要求1所述的一种联邦衍生特征逻辑回归建模方法,其特征在于,所述步骤S2还包括以下步骤:发起方和参与方初始化参数T、学习率、乘法三元组。
CN202210263501.3A 2022-03-17 2022-03-17 一种联邦衍生特征逻辑回归建模方法 Active CN114362948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210263501.3A CN114362948B (zh) 2022-03-17 2022-03-17 一种联邦衍生特征逻辑回归建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210263501.3A CN114362948B (zh) 2022-03-17 2022-03-17 一种联邦衍生特征逻辑回归建模方法

Publications (2)

Publication Number Publication Date
CN114362948A CN114362948A (zh) 2022-04-15
CN114362948B true CN114362948B (zh) 2022-07-12

Family

ID=81094420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210263501.3A Active CN114362948B (zh) 2022-03-17 2022-03-17 一种联邦衍生特征逻辑回归建模方法

Country Status (1)

Country Link
CN (1) CN114362948B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553395B (zh) * 2022-04-24 2022-07-26 蓝象智联(杭州)科技有限公司 一种风控场景下的纵向联邦特征衍生方法
CN114662156B (zh) * 2022-05-25 2022-09-06 蓝象智联(杭州)科技有限公司 一种基于匿名化数据的纵向逻辑回归建模方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN111600707A (zh) * 2020-05-15 2020-08-28 华南师范大学 一种在隐私保护下的去中心化联邦机器学习方法
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
CN113626866A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质
WO2021259366A1 (en) * 2020-06-24 2021-12-30 Jingdong Technology Holding Co., Ltd. Federated doubly stochastic kernel learning on vertical partitioned data
CN113989036A (zh) * 2021-12-30 2022-01-28 百融至信(北京)征信有限公司 一种不暴露入模变量的联邦学习预测方法及系统
CN114091624A (zh) * 2022-01-18 2022-02-25 蓝象智联(杭州)科技有限公司 一种无第三方的联邦梯度提升决策树模型训练方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523674B (zh) * 2019-02-01 2023-08-08 创新先进技术有限公司 模型训练方法、装置及系统
CN112183759B (zh) * 2019-07-04 2024-02-13 创新先进技术有限公司 模型训练方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN111600707A (zh) * 2020-05-15 2020-08-28 华南师范大学 一种在隐私保护下的去中心化联邦机器学习方法
WO2021259366A1 (en) * 2020-06-24 2021-12-30 Jingdong Technology Holding Co., Ltd. Federated doubly stochastic kernel learning on vertical partitioned data
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
CN113626866A (zh) * 2021-08-12 2021-11-09 中电积至(海南)信息技术有限公司 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质
CN113989036A (zh) * 2021-12-30 2022-01-28 百融至信(北京)征信有限公司 一种不暴露入模变量的联邦学习预测方法及系统
CN114091624A (zh) * 2022-01-18 2022-02-25 蓝象智联(杭州)科技有限公司 一种无第三方的联邦梯度提升决策树模型训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘艺璇等.联邦学习中的隐私保护技术.《软件学报》.2022, *
强锋等.联邦学习技术金融应用规范标准的研究与建立.《第十八届中国标准化论坛论文集》.2021, *

Also Published As

Publication number Publication date
CN114362948A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN114362948B (zh) 一种联邦衍生特征逻辑回归建模方法
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN113689003B (zh) 一种安全的去除第三方的混合联邦学习框架及方法
CN110084377A (zh) 用于构建决策树的方法和装置
CN112949535B (zh) 一种基于生成式对抗网络的人脸数据身份去识别方法
CN112862001A (zh) 一种隐私保护下的去中心化数据建模方法
CN114595835B (zh) 基于联邦学习的模型训练方法及装置、设备、存储介质
CN114514519A (zh) 使用异构模型类型和架构的联合学习
CN115392480A (zh) 安全求交、联邦学习模型的训练方法及系统、设备及介质
CN115730333A (zh) 基于秘密分享和同态加密的安全树模型构建方法和装置
CN113779608A (zh) 多方纵向联邦学习LightGBM训练中基于WOE掩码的数据保护方法
CN115481431A (zh) 基于双重扰动的联邦学习对抗推理攻击隐私保护方法
CN116708009A (zh) 一种基于联邦学习的网络入侵检测方法
CN115189878A (zh) 一种基于秘密分享的共享数据排序方法及电子设备
CN115409155A (zh) 基于Transformer增强霍克斯过程的信息级联预测系统及方法
CN114282692A (zh) 一种纵向联邦学习的模型训练方法及系统
CN113807736A (zh) 一种数据质量评估方法、计算机设备及存储介质
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN116957112A (zh) 联合模型的训练方法、装置、设备及存储介质
CN114548429B (zh) 一种安全高效的横向联邦神经网络模型训练方法
CN116011597A (zh) 一种基于图数据的个性化联邦学习方法及装置
CN116091891A (zh) 图像识别方法及系统
CN115310625A (zh) 一种纵向联邦学习推理攻击防御方法
CN114492837A (zh) 联邦模型训练方法及装置
CN113962286A (zh) 一种基于分段函数的去中心化逻辑回归分类预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant