CN114662156B - 一种基于匿名化数据的纵向逻辑回归建模方法 - Google Patents

一种基于匿名化数据的纵向逻辑回归建模方法 Download PDF

Info

Publication number
CN114662156B
CN114662156B CN202210573495.1A CN202210573495A CN114662156B CN 114662156 B CN114662156 B CN 114662156B CN 202210573495 A CN202210573495 A CN 202210573495A CN 114662156 B CN114662156 B CN 114662156B
Authority
CN
China
Prior art keywords
initiator
sample
data set
fragment
anonymous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210573495.1A
Other languages
English (en)
Other versions
CN114662156A (zh
Inventor
裴阳
毛仁歆
刘文博
马煜翔
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lanxiang Zhilian Hangzhou Technology Co ltd
Original Assignee
Lanxiang Zhilian Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lanxiang Zhilian Hangzhou Technology Co ltd filed Critical Lanxiang Zhilian Hangzhou Technology Co ltd
Priority to CN202210573495.1A priority Critical patent/CN114662156B/zh
Publication of CN114662156A publication Critical patent/CN114662156A/zh
Application granted granted Critical
Publication of CN114662156B publication Critical patent/CN114662156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Finance (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于匿名化数据的纵向逻辑回归建模方法。它包括以下步骤:发起方、参与方分别构建同样的纵向逻辑回归模型并初始化;发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB;发起方、参与方分别计算残差分片ΔyA、残差分片ΔyB;发起方、参与方各自计算自身持有的数据特征分片对应的权重系数的最新值并赋值;重复上述步骤T次,完成纵向逻辑回归模型建模。本发明可以使用秘密分享密文状态下的数据特征分片,在建模过程中没有泄露中间结果,大大提高了建模安全性。

Description

一种基于匿名化数据的纵向逻辑回归建模方法
技术领域
本发明涉及逻辑回归建模技术领域,尤其涉及一种基于匿名化数据的纵向逻辑回归建模方法。
背景技术
近些年来,随着云计算以及大数据技术的成熟以及普及,用户无时不刻都在产生数据,而这些数据如果被滥用,对个人隐私、社会安全将会产生极大的危害。企业和机构由于隐私政策限制,诞生了“数据孤岛”,即单独的公司或者机构只拥有部分数据。联邦学习概念应运而生,旨在解决如何在保护数据隐私的前提下,发挥数据作为机器学习建模的“原料”作用。而逻辑回归模型作为基础且重要的机器学习模型,如何去构建联邦学习下的安全逻辑回归模型也成为了关注的焦点。在最新发布的个人信息保护法中,再次强调了个人信息的重要性,除匿名化数据外敏感数据的使用都需要受到监管。
逻辑回归(logistic回归)又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测,金融风控等领域。现有的纵向逻辑回归建模方法在建模过程中会泄漏部分中间计算结果(如:预测值、残差等),存在安全隐患。隐匿集合求交共享数据是在参与双方不泄露任何额外信息的情况下,得到双方持有ID的交集,并将各自ID对应的数据特征通过秘密分享的加法共享给另一方,双方各自保留秘密分享密文状态下的数据特征分片,即不泄露双方的ID信息,也不泄露ID对应的数据特征信息。然而,现有的纵向逻辑回归建模方法无法使用秘密分享密文状态下的数据特征分片。
发明内容
本发明为了解决上述技术问题,提供了一种基于匿名化数据的纵向逻辑回归建模方法,其可以使用秘密分享密文状态下的数据特征分片,在建模过程中没有泄露中间结果,大大提高了建模安全性。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种基于匿名化数据的纵向逻辑回归建模方法,用于金融机构联合风控建模,发起方持有K个匿名样本对应的样本数据集XA及标签值分片yA,样本数据集XA中包含n个秘密分享密文状态下的数据特征分片,参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB,样本数据集XB中包含n个秘密分享密文状态下的数据特征分片,其特征在于,包括以下步骤:
S1:发起方、参与方分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中每个数据特征分片对应的权重系数、样本数据集XB中每个数据特征分片对应的权重系数;
S2:发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,Y=YA+YB
S3:发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的残差分片ΔyA,参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到对应的残差分片ΔyB
S4:发起方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyA计算出样本数据集XA中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
参与方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyB计算出样本数据集XB中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
S5:重复执行S2至S4步骤T次,完成纵向逻辑回归模型建模。
在本方案中,发起方持有的K个匿名样本对应的样本数据集XA及标签值分片yA、参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB是发起方、参与方经过隐匿集合求交分享数据后得到的结果,K个匿名样本为发起方、参与方的K个交集样本,发起方原先每个匿名样本有v个数据特征,v个数据特征通过秘密分享的加法共享给参与方,参与方原先每个匿名样本有w个数据特征,w个数据特征通过秘密分享的加法共享给发起方,v+w=n,这样发起方、参与方都各自拥有n个秘密分享密文状态下的数据特征分片,例如:发起方的匿名样本中有数据特征R,通过秘密分享的加法共享给参与方后,发起方持有数据特征分片R1,参与方持有数据特征分片R2,R= R1+ R2。
首先,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。接着,发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,从而使得发起方可以计算出每个匿名样本对应的残差分片ΔyA,参与方可以计算出每个匿名样本对应的残差分片ΔyB,最后发起方、参与方分别计算各自持有的数据特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,完成了一次纵向逻辑回归模型的迭代,重复执行上述步骤T次,T≥1,完成纵向逻辑回归模型建模,最终,发起方持有样本数据集XA中每个数据特征分片对应的权重系数的最新值,参与方持有样本数据集XB中每个数据特征分片对应的权重系数的最新值。
在整个建模过程中,发起方、参与方各自持有的秘密分享密文状态下的特征数据分片以及在建模过程中产生的预测值、残差等中间结果都没有泄露给对方,大大提高了建模安全性。本方案的方法适用于风控场景、营销场景,比如,发起方、参与方为不同的金融机构,双方之间使用专网通信,采用本方案的方法实现联合建模,用于预测金融机构用户等级。
作为优选,所述K个匿名样本的编号分别为1,2……K,样本数据集XA中的n个数据特征分片依次标记为XA1、XA2……XAn,n≥1,则编号为i的匿名样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},样本数据集XB中的n个数据特征分片依次标记为XB1、XB2……XBn,则编号为i的匿名样本对应的样本数据集为XB(i),样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBn (i)};
所述步骤S2中发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i),发起方得到预测值分片YA(i),参与方得到预测值分片YB(i)的方法包括以下步骤:
N1:发起方、参与方协商生成参数a、参数b、参数c,a*b=c,发起方持有参数分片aA、参数分片bA、参数分片cA,参与方持有参数分片aB、参数分片bB、参数分片cB,a=aA+aB,b=bA+bB,c= cA+cB
N2:发起方计算出WAj-aA、XAj(i)-bA并将其发送给参与方,参与方计算出WBj-aB、XBj(i)-bB并将其发送给发起方;
发起方、参与方都计算出Fj =(XAj(i)-bA)+(XBj(i)-bB),Ej =(WAj-aA) + (WBj-aB),
发起方计算出中间参数分片Z(i)A
Z(i)A= Z(i)A1+Z(i)A2……+Z(i)An
Z(i)Aj=Fj*aA+Ej*bA+cA
参与方计算出中间参数分片Z(i)B
Z(i)B= Z(i)B1+Z(i)B2……+Z(i)Bn
Z(i)Bj=Ej*Fj+Fj*aB+Ej*bB+cB
其中,1≤j≤n,XAj(i)表示编号为i的匿名样本对应的样本数据集为XA(i)中的第j个数据特征分片,XBj(i)表示编号为i的匿名样本对应的样本数据集为XB(i)中的第j个数据特征分片,WAj表示样本数据集XA中的第j个数据特征分片XAj对应的权重系数,WBj表示样本数据集XB中的第j个数据特征分片XBj对应的权重系数
N3:发起方、参与方根据中间参数分片Z(i)A、中间参数分片Z(i)B采用秘密分享的乘法协议计算出各自的预测值分片,发起方得到预测值分片YA(i),参与方得到预测值分片YB(i),
YA(i)+YB(i)满足如下公式:
YA(i)+YB(i)=sigmoid(Z(i)A+Z(i)B),
Figure 814480DEST_PATH_IMAGE001
步骤N2中,发起方计算出WAj-aA、XAj(i)-bA并将其发送给参与方,参与方计算出WBj-aB、XBj(i)-bB并将其发送给发起方,这样发起方没有将WAj、XAj(i)泄漏给参与方,参与方也没有将WBj、XBj(i)泄漏给发起方,大大提高了建模安全性。
步骤N3中,由于秘密分享密文状态下的数据特征分片不支持非线性函数计算,所以采用线性函数拟合sigmoid函数,得到公式:
Figure 200462DEST_PATH_IMAGE002
作为优选,所述步骤N3包括以下步骤:
发起方、参与方采用秘密分享的比较协议比较Z(i)A+Z(i)B与-5、5的大小关系,
当Z(i)A+Z(i)B≤-5时,
YA(i)等于设定值f1,YB(i)等于设定值f2,f1+f2=0;
当Z(i)A+Z(i)B≥5时,
YA(i)等于设定值d1,YB(i)等于设定值d2,d1+d2=1;
当-5<Z(i)A+Z(i)B<5时,
发起方计算出Z(i)A-aA、Z(i)A-bA并将其发送给参与方,
参与方计算出Z(i)B-aB、Z(i)B-bB并将其发送给发起方,
发起方、参与方都计算出P1=(Z(i)A-bA)+(Z(i)B-bB),Q1=(Z(i)A-aA)+(Z(i)B-aB),
发起方计算出G(i)A=P1*aA+Q1*bA+cA
参与方计算出G(i)B=P1*Q1+P1*aB+Q1*bB+cB
发起方计算出G(i)A-aA、Z(i)A-bA并将其发送给参与方,
参与方计算出G(i)B-aB、Z(i)B-bB并将其发送给发起方,
发起方计算出预测值分片YA(i):
YA(i)=0.5*d1+0.197*Z(i)A-0.004*H(i)A
H(i)A=P2*aA+Q2*bA+cA
参与方计算出预测值分片YB(i):
YB(i)=0.5*d2+0.197*Z(i)B-0.004*H(i)B
H(i)B=P2*Q2+P2*aB+Q2*bB+cB
整个计算过程中,发起方没有泄露Z(i)A给参与方,参与方没有泄露Z(i)B给发起方,大大提高了建模安全性。
作为优选,所述步骤S3中发起方计算出编号为i的匿名样本对应的残差分片ΔyA(i)的公式如下:
ΔyA(i)=yA(i)-YA(i),yA(i)表示编号为i的匿名样本对应的标签值分片yA
所述步骤S3中参与方计算出编号为i的匿名样本对应的残差分片ΔyB(i)的公式如下:
ΔyB(i)=yB(i)-YB(i),yB(i)表示编号为i的匿名样本对应的标签值分片yB
作为优选,所述步骤S4中发起方给样本数据集XA中第j个数据特征分片XAj对应的权重系数WAj赋予最新值的公式如下:
Figure 714620DEST_PATH_IMAGE003
所述步骤S4中参与方给样本数据集XB中第j个数据特征分片XBj对应的权重系数WBj赋予最新值的公式如下:
Figure 454037DEST_PATH_IMAGE004
作为优选,所述步骤S1中初始化样本数据集XA中第j个数据特征分片XAj对应的权重系数、样本数据集XB中第j个数据特征分片XBj对应的权重系数的方法如下:
发起方初始化第j个数据特征对应的权重系数Wj,将权重系数Wj拆分为权重系数分片WAj、权重系数分片WBj,将权重系数分片WBj发送给参与方,发起方将权重系数分片WAj作为样本数据集XA中第j个数据特征分片XAj对应的权重系数,参与方将权重系数分片WBj作为样本数据集XB中第j个数据特征分片XBj对应的权重系数。
本发明的有益效果是:可以使用秘密分享密文状态下的数据特征分片,在建模过程中没有泄露中间结果,大大提高了建模安全性。
附图说明
图1是实施例的流程图;
图2是实施例中举例的样本数据图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于匿名化数据的纵向逻辑回归建模方法,用于金融机构联合风控建模,发起方、参与方经过隐匿集合求交共享数据后,发起方持有K个匿名样本对应的样本数据集XA及标签值分片yA,样本数据集XA中包含n个秘密分享密文状态下的数据特征分片,参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB,样本数据集XB中包含n个秘密分享密文状态下的数据特征分片,K个匿名样本的编号分别为1,2……K,样本数据集XA中的n个数据特征分片依次标记为XA1、XA2……XAn,n≥1,则编号为i的匿名样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},样本数据集XB中的n个数据特征分片依次标记为XB1、XB2……XBn,则编号为i的匿名样本对应的样本数据集为XB(i),样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBn (i)},如图1所示,包括以下步骤:
S1:发起方、参与方分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中每个数据特征分片对应的权重系数、样本数据集XB中每个数据特征分片对应的权重系数;
初始化样本数据集XA中第j个数据特征分片XAj对应的权重系数、样本数据集XB中第j个数据特征分片XBj对应的权重系数的方法如下:
发起方初始化第j个数据特征对应的权重系数Wj,将权重系数Wj拆分为权重系数分片WAj、权重系数分片WBj,将权重系数分片WBj发送给参与方,发起方将权重系数分片WAj作为样本数据集XA中第j个数据特征分片XAj对应的权重系数,参与方将权重系数分片WBj作为样本数据集XB中第j个数据特征分片XBj对应的权重系数;
S2:发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,Y=YA+YB
发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i),发起方得到预测值分片YA(i),参与方得到预测值分片YB(i)的方法包括以下步骤:
N1:发起方、参与方协商生成参数a、参数b、参数c,a*b=c,发起方持有参数分片aA、参数分片bA、参数分片cA,参与方持有参数分片aB、参数分片bB、参数分片cB,a=aA+aB,b=bA+bB,c= cA+cB
N2:发起方计算出WAj-aA、XAj(i)-bA并将其发送给参与方,参与方计算出WBj-aB、XBj(i)-bB并将其发送给发起方;
发起方、参与方都计算出Fj =(XAj(i)-bA)+(XBj(i)-bB),Ej =(WAj-aA) + (WBj-aB),
发起方计算出中间参数分片Z(i)A
Z(i)A= Z(i)A1+Z(i)A2……+Z(i)An
Z(i)Aj=Fj*aA+Ej*bA+cA
参与方计算出中间参数分片Z(i)B
Z(i)B= Z(i)B1+Z(i)B2……+Z(i)Bn
Z(i)Bj=Ej*Fj+Fj*aB+Ej*bB+cB
其中,1≤j≤n,XAj(i)表示编号为i的匿名样本对应的样本数据集为XA(i)中的第j个数据特征分片,XBj(i)表示编号为i的匿名样本对应的样本数据集为XB(i)中的第j个数据特征分片,WAj表示样本数据集XA中的第j个数据特征分片XAj对应的权重系数,WBj表示样本数据集XB中的第j个数据特征分片XBj对应的权重系数
N3:发起方、参与方根据中间参数分片Z(i)A、中间参数分片Z(i)B采用秘密分享的乘法协议计算出各自的预测值分片,发起方得到预测值分片YA(i),参与方得到预测值分片YB(i),
YA(i)+YB(i)满足如下公式:
YA(i)+YB(i)=sigmoid(Z(i)A+Z(i)B),
Figure 737251DEST_PATH_IMAGE001
S3:发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的残差分片ΔyA,参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到对应的残差分片ΔyB
发起方计算出编号为i的匿名样本对应的残差分片ΔyA(i)的公式如下:
ΔyA(i)=yA(i)-YA(i),yA(i)表示编号为i的匿名样本对应的标签值分片yA
参与方计算出编号为i的匿名样本对应的残差分片ΔyB(i)的公式如下:
ΔyB(i)=yB(i)-YB(i),yB(i)表示编号为i的匿名样本对应的标签值分片yB
S4:发起方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyA计算出样本数据集XA中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
参与方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyB计算出样本数据集XB中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
发起方给样本数据集XA中第j个数据特征分片XAj对应的权重系数WAj赋予最新值的公式如下:
Figure 153189DEST_PATH_IMAGE005
所述步骤S4中参与方给样本数据集XB中第j个数据特征分片XBj对应的权重系数WBj赋予最新值的公式如下:
Figure 154643DEST_PATH_IMAGE004
S5:重复执行S2至S4步骤T次,T≥1,完成纵向逻辑回归模型建模。
步骤N3包括以下步骤:
发起方、参与方采用秘密分享的比较协议比较Z(i)A+Z(i)B与-5、5的大小关系,
当Z(i)A+Z(i)B≤-5时,
YA(i)等于设定值f1,YB(i)等于设定值f2,f1+f2=0;
当Z(i)A+Z(i)B≥5时,
YA(i)等于设定值d1,YB(i)等于设定值d2,d1+d2=1;
当-5<Z(i)A+Z(i)B<5时,
发起方计算出Z(i)A-aA、Z(i)A-bA并将其发送给参与方,
参与方计算出Z(i)B-aB、Z(i)B-bB并将其发送给发起方,
发起方、参与方都计算出P1=(Z(i)A-bA)+(Z(i)B-bB),Q1=(Z(i)A-aA)+(Z(i)B-aB),
发起方计算出G(i)A=P1*aA+Q1*bA+cA
参与方计算出G(i)B=P1*Q1+P1*aB+Q1*bB+cB
发起方计算出G(i)A-aA、Z(i)A-bA并将其发送给参与方,
参与方计算出G(i)B-aB、Z(i)B-bB并将其发送给发起方,
发起方计算出预测值分片YA(i):
YA(i)=0.5*d1+0.197*Z(i)A-0.004*H(i)A
H(i)A=P2*aA+Q2*bA+cA
参与方计算出预测值分片YB(i):
YB(i)=0.5*d2+0.197*Z(i)B-0.004*H(i)B
H(i)B=P2*Q2+P2*aB+Q2*bB+cB
在本方案中,发起方持有的K个匿名样本对应的样本数据集XA及标签值分片yA、参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB是发起方、参与方经过隐匿集合求交分享数据后得到的结果,K个匿名样本为发起方、参与方的K个交集样本,发起方原先每个匿名样本有v个数据特征,v个数据特征通过秘密分享的加法共享给参与方,参与方原先每个匿名样本有w个数据特征,w个数据特征通过秘密分享的加法共享给发起方,v+w=n,这样发起方、参与方都各自拥有n个秘密分享密文状态下的数据特征分片,例如:发起方的匿名样本中有数据特征R,通过秘密分享的加法共享给参与方后,发起方持有数据特征分片R1,参与方持有数据特征分片R2,R= R1+ R2。
首先,发起方、参与方分别构建同样的纵向逻辑回归模型,并初始化。接着,发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,从而使得发起方可以计算出每个匿名样本对应的残差分片ΔyA,参与方可以计算出每个匿名样本对应的残差分片ΔyB,最后发起方、参与方分别计算各自持有的数据特征分片对应的权重系数的最新值,并给这些权重系数赋予最新值,完成了一次纵向逻辑回归模型的迭代,重复执行上述步骤T次,T≥1,完成纵向逻辑回归模型建模,最终,发起方持有样本数据集XA中每个数据特征分片对应的权重系数的最新值,参与方持有样本数据集XB中每个数据特征分片对应的权重系数的最新值。
步骤N2中,发起方计算出WAj-aA、XAj(i)-bA并将其发送给参与方,参与方计算出WBj-aB、XBj(i)-bB并将其发送给发起方,这样发起方没有将WAj、XAj(i)泄漏给参与方,参与方也没有将WBj、XBj(i)泄漏给发起方,步骤N3中,发起方没有泄露Z(i)A给参与方,参与方没有泄露Z(i)B给发起方,在整个建模过程中,发起方、参与方各自持有的秘密分享密文状态下的特征数据分片以及在建模过程中产生的预测值、残差等中间结果都没有泄露给对方,大大提高了建模安全。本方案的方法适用于风控场景、营销场景,比如,发起方、参与方为不同的金融机构,双方之间使用专网通信,采用本方案的方法实现联合建模,用于预测金融机构用户等级。。
步骤N3中,由于秘密分享密文状态下的数据特征分片不支持非线性函数计算,所以采用线性函数拟合sigmoid函数,得到公式:
Figure 196286DEST_PATH_IMAGE002
举例说明:
如图2所示,初始时,发起方持有四个样本,分别为张三、李七、王五、赵六,每个样本包含有数据特征X1、X2以及标签值y,参与方持有四个样本,分别为张三、李四、王五、刘九,每个样本包含有数据特征X3、X4
发起方、参与方经过隐匿集合求交共享数据后,发起方持有编号为1、2的匿名样本,每个匿名样本包含有数据特征分片XA1、XA2、XA3、XA4以及标签值yA,参与方持有编号为1、2的样本,每个匿名样本包含有数据特征分片XB1、XB2、XB3、XB4以及标签值yB,编号为1的匿名样本与张三样本对应,编号为2的匿名样本与王五样本对应。
以编号为1的匿名样本为例,
发起方持有编号为1的匿名样本对应的样本数据集为XA(1),XA(1)={XA1(1)、XA2(1)、XA3(1)、XA4(1)}={0.1、0.5、2、0.3},持有标签值分片yA(1)=-1;
参与方持有编号为1的匿名样本对应的样本数据集为XB(1),XB(1)={XB1(1)、XB2(1)、XB3(1)、XB4(1)}={0.2、0.5、-1、-0.1},持有标签值分片yB(1)=1;
样本数据集XA(1)与样本数据集为XB(1)相加可以得到发起方、参与方分别持有的张三的数据特征的集合{0.3、1、1、0.2},标签值分片yA(1)与标签值分片yB(1)相加可以得到张三的标签值0。
发起方将数据特征X1、X2 、X3、X4的权重系数W1、W2、W3、W4初始化为1、-1、1、3,并通过秘密分享加法共享给参与方;
发起方持有数据特征分片XA1、XA2、XA3、XA4对应的权重系数WA1、WA2、WA3、WA4分别为2、1、0、2;
参与方持有数据特征分片XB1、XB2、XB3、XB4对应的权重系数WB1、WB2、WB3、WB4分别为-1、-2、1、-5。
发起方生成aA=1、bA=2、cA=3,参与方生成aB=2、bB=1、cB=6,
(aA+aB)* (bA+bB)= (cA+cB),
发起方计算出WA1-aA=2-1=1、XA1(1)-bA=0.1-2=-1.9,并将其发送给参与方,参与方计算出WB1-aB=-1-2=-3、XB1(1)-bB=0.2-1=-0.8,并将其发送给发起方;
发起方、参与方都计算出F1=(XA1(1)-bA)+(XB1(1)-bB)= -1.9-0.8=-2.7,E1 =(WA1-aA) + (WB1-aB) =1-3=-2;
发起方计算出中间参数分片Z(1)A1
Z(1)A1=F1*aA+E1*bA+cA=-2.7*1+-2*2+3=-3.7;
参与方计算出中间参数分片Z(1)B1
Z(1)B1= E1*F1+F1*aB+E1*bB+cB =-2*(-2.7)+ -2.7*2+-2*1+6=4;
Z(1)A1+Z(1)B1=-3.7+4=0.3;
(WA1+WB1)*(XA1(1)+XB1(1))= W1* X1=1*0.3=0.3;
即,Z(1)A1+Z(1)B1=W1* X1
所以,发起方持有的中间参数分片Z(1)A1与参与方持有的中间参数分片Z(1)B1的和等于W1* X1,采用同样方法计算出Z(1)A2、Z(1)B2、Z(1)A3、Z(1)B3、 Z(1)A4、Z(1)B4,得到中间参数分片Z(i)A、Z(i)B
中间参数分片Z(1)A+Z(1)B=W1*X1+W2*X2+ W3*X3+W4*X4
采用同样原理,发起方计算出YA(1),参与方计算出YB(1),通过上述方法计算出的YA(1)、YB(1)会满足YA(1)+YB(1)=Y(1),Y(1)为根据数据特征X1、X2 、X3、X4的明文值与权重系数W1、W2、W3、W4的明文值计算出的预测值。
发起方计算出编号为1的匿名样本的对应的残差分片ΔyA(1)、编号为2的匿名样本的对应的残差分片ΔyA(2),参与方计算出编号为1的匿名样本的对应的残差分片ΔyB(1)、编号为2的匿名样本的对应的残差分片ΔyB(2)。
发起方根据学习率α、匿名样本个数2、残差分片ΔyA(1)、ΔyA(2)计算出权重系数WA1、WA2、WA3、WA4的最新值,给这些权重系数赋予最新值;参与方根据学习率α、匿名样本个数2、残差分片ΔyB(1)、ΔyB(2)计算出权重系数WB1、WB2、WB3、WB4的最新值,给这些权重系数赋予最新值;
重复上述步骤迭代T轮,发起方获得最终的WA1、WA2、WA3、WA4的值,参与方获得最终的WB1、WB2、WB3、WB4的值,完成纵向逻辑回归建模。

Claims (4)

1.一种基于匿名化数据的纵向逻辑回归建模方法,用于金融机构联合风控建模,发起方持有K个匿名样本对应的样本数据集XA及标签值分片yA,样本数据集XA中包含n个秘密分享密文状态下的数据特征分片,参与方持有相同的K个匿名样本对应的样本数据集XB及标签值分片yB,样本数据集XB中包含n个秘密分享密文状态下的数据特征分片,其特征在于,包括以下步骤:
S1:发起方、参与方分别构建同样的纵向逻辑回归模型,初始化样本数据集XA中每个数据特征分片对应的权重系数、样本数据集XB中每个数据特征分片对应的权重系数;
S2:发起方、参与方联合计算出每个匿名样本对应的预测值Y,发起方得到预测值分片YA,参与方得到预测值分片YB,Y=YA+YB
S3:发起方将每个匿名样本对应的标签值分片yA减去对应的预测值分片YA得到对应的残差分片ΔyA,参与方将每个匿名样本对应的标签值分片yB减去对应的预测值分片YB得到对应的残差分片ΔyB
S4:发起方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyA计算出样本数据集XA中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
参与方根据学习率α、匿名样本个数K、每个匿名样本对应的残差分片ΔyB计算出样本数据集XB中每个数据特征分片对应的权重系数的最新值,给这些权重系数赋予最新值;
S5:重复执行S2至S4步骤T次,完成纵向逻辑回归模型建模;
所述K个匿名样本的编号分别为1,2……K,样本数据集XA中的n个数据特征分片依次标记为XA1、XA2……XAn,n≥1,则编号为i的匿名样本对应的样本数据集为XA(i),1≤i≤K,样本数据集XA(i)的结构为XA(i)={XA1(i)、XA2(i)、……XAn(i)},样本数据集XB中的n个数据特征分片依次标记为XB1、XB2……XBn,则编号为i的匿名样本对应的样本数据集为XB(i),样本数据集XB(i)的结构为XB(i)={XB1(i)、XB2(i)、……XBn (i)};
所述步骤S2中发起方、参与方联合计算出编号为i的匿名样本对应的预测值Y(i),发起方得到预测值分片YA(i),参与方得到预测值分片YB(i)的方法包括以下步骤:
N1:发起方、参与方协商生成参数a、参数b、参数c,a*b=c,发起方持有参数分片aA、参数分片bA、参数分片cA,参与方持有参数分片aB、参数分片bB、参数分片cB,a=aA+aB,b=bA+bB,c=cA+cB
N2:发起方计算出WAj-aA、XAj(i)-bA并将其发送给参与方,参与方计算出WBj-aB、XBj(i)-bB并将其发送给发起方;
发起方、参与方都计算出Fj =(XAj(i)-bA)+(XBj(i)-bB),Ej =(WAj-aA) + (WBj-aB),
发起方计算出中间参数分片Z(i)A
Z(i)A= Z(i)A1+Z(i)A2……+Z(i)An
Z(i)Aj=Fj*aA+Ej*bA+cA
参与方计算出中间参数分片Z(i)B
Z(i)B= Z(i)B1+Z(i)B2……+Z(i)Bn
Z(i)Bj=Ej*Fj+Fj*aB+Ej*bB+cB
其中,1≤j≤n,XAj(i)表示编号为i的匿名样本对应的样本数据集为XA(i)中的第j个数据特征分片,XBj(i)表示编号为i的匿名样本对应的样本数据集为XB(i)中的第j个数据特征分片,WAj表示样本数据集XA中的第j个数据特征分片XAj对应的权重系数,WBj表示样本数据集XB中的第j个数据特征分片XBj对应的权重系数;
N3:发起方、参与方根据中间参数分片Z(i)A、中间参数分片Z(i)B采用秘密分享的乘法协议计算出各自的预测值分片,发起方得到预测值分片YA(i),参与方得到预测值分片YB(i),
YA(i)+YB(i)满足如下公式:
YA(i)+YB(i)=sigmoid(Z(i)A+Z(i)B),
Figure DEST_PATH_IMAGE001
2.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法,其特征在于,所述步骤S3中发起方计算出编号为i的匿名样本对应的残差分片ΔyA(i)的公式如下:
ΔyA(i)=yA(i)-YA(i),yA(i)表示编号为i的匿名样本对应的标签值分片yA
所述步骤S3中参与方计算出编号为i的匿名样本对应的残差分片ΔyB(i)的公式如下:
ΔyB(i)=yB(i)-YB(i),yB(i)表示编号为i的匿名样本对应的标签值分片yB
3.根据权利要求2所述的一种基于匿名化数据的纵向逻辑回归建模方法,其特征在于,所述步骤S4中发起方给样本数据集XA中第j个数据特征分片XAj对应的权重系数WAj赋予最新值的公式如下:
Figure 380886DEST_PATH_IMAGE002
所述步骤S4中参与方给样本数据集XB中第j个数据特征分片XBj对应的权重系数WBj赋予最新值的公式如下:
Figure DEST_PATH_IMAGE003
4.根据权利要求1所述的一种基于匿名化数据的纵向逻辑回归建模方法,其特征在于,所述步骤S1中初始化样本数据集XA中第j个数据特征分片XAj对应的权重系数、样本数据集XB中第j个数据特征分片XBj对应的权重系数的方法如下:
发起方初始化第j个数据特征对应的权重系数Wj,将权重系数Wj拆分为权重系数分片WAj、权重系数分片WBj,将权重系数分片WBj发送给参与方,发起方将权重系数分片WAj作为样本数据集XA中第j个数据特征分片XAj对应的权重系数,参与方将权重系数分片WBj作为样本数据集XB中第j个数据特征分片XBj对应的权重系数。
CN202210573495.1A 2022-05-25 2022-05-25 一种基于匿名化数据的纵向逻辑回归建模方法 Active CN114662156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210573495.1A CN114662156B (zh) 2022-05-25 2022-05-25 一种基于匿名化数据的纵向逻辑回归建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210573495.1A CN114662156B (zh) 2022-05-25 2022-05-25 一种基于匿名化数据的纵向逻辑回归建模方法

Publications (2)

Publication Number Publication Date
CN114662156A CN114662156A (zh) 2022-06-24
CN114662156B true CN114662156B (zh) 2022-09-06

Family

ID=82038169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210573495.1A Active CN114662156B (zh) 2022-05-25 2022-05-25 一种基于匿名化数据的纵向逻辑回归建模方法

Country Status (1)

Country Link
CN (1) CN114662156B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
WO2021120888A1 (zh) * 2019-12-20 2021-06-24 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
EP3863003A1 (en) * 2018-10-04 2021-08-11 Nippon Telegraph And Telephone Corporation Hidden sigmoid function calculation system, hidden logistic regression calculation system, hidden sigmoid function calculation device, hidden logistic regression calculation device, hidden sigmoid function calculation method, hidden logistic regression calculation method, and program
CN114362948A (zh) * 2022-03-17 2022-04-15 蓝象智联(杭州)科技有限公司 一种高效的联邦衍生特征逻辑回归建模方法
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3591561A1 (en) * 2018-07-06 2020-01-08 Synergic Partners S.L.U. An anonymized data processing method and computer programs thereof
CN112183757B (zh) * 2019-07-04 2023-10-27 创新先进技术有限公司 模型训练方法、装置及系统
CN111931241B (zh) * 2020-09-23 2021-04-09 支付宝(杭州)信息技术有限公司 基于隐私保护的线性回归特征显著性检验方法、装置
CN114492850A (zh) * 2022-01-26 2022-05-13 深圳市腾讯计算机系统有限公司 基于联邦学习的模型训练方法、设备、介质及程序产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3863003A1 (en) * 2018-10-04 2021-08-11 Nippon Telegraph And Telephone Corporation Hidden sigmoid function calculation system, hidden logistic regression calculation system, hidden sigmoid function calculation device, hidden logistic regression calculation device, hidden sigmoid function calculation method, hidden logistic regression calculation method, and program
WO2021120888A1 (zh) * 2019-12-20 2021-06-24 支付宝(杭州)信息技术有限公司 一种基于隐私数据进行模型训练的方法及系统
CN112464287A (zh) * 2020-12-12 2021-03-09 同济大学 基于秘密共享与联邦学习的多方XGBoost安全预测模型训练方法
CN114362948A (zh) * 2022-03-17 2022-04-15 蓝象智联(杭州)科技有限公司 一种高效的联邦衍生特征逻辑回归建模方法
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Privacy preserving based logistic regression on big data;Yongkai Fan etc.;《Journal of Network and Computer Applications》;20201201;第2-6页 *
隐私保护机器学习的密码学方法;蒋瀚等;《电子与信息学报》;20200515(第05期);第23-33页 *

Also Published As

Publication number Publication date
CN114662156A (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
Naidu et al. A Robust medical data sharing application with a collaborative hypothesis and Elastic net regression model
CN111178549B (zh) 保护数据隐私的双方联合训练业务预测模型的方法和装置
US8468244B2 (en) Digital information infrastructure and method for security designated data and with granular data stores
Pepperell et al. Dispersal of Mycobacterium tuberculosis via the Canadian fur trade
JP2023547562A (ja) 多中心医学診断知識グラフ表示学習方法及びシステム
Wan et al. Privacy-preservation for gradient descent methods
US20100250497A1 (en) Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor
CN112733967A (zh) 联邦学习的模型训练方法、装置、设备及存储介质
Chen et al. Propensity score-integrated composite likelihood approach for augmenting the control arm of a randomized controlled trial by incorporating real-world data
CN114401079B (zh) 多方联合信息价值计算方法、相关设备及存储介质
CN112465627B (zh) 基于区块链和机器学习的金融借贷审核方法及系统
Simon et al. Chromosome abnormalities in ovarian adenocarcinoma: III. Using breakpoint data to infer and test mathematical models for oncogenesis
Wagner et al. Privacy-preserving microbiome analysis using secure computation
CN114362948B (zh) 一种联邦衍生特征逻辑回归建模方法
Vos et al. Enriched biodiversity data as a resource and service
CN112765482A (zh) 产品投放方法、装置、设备及计算机可读介质
Al-Aqrabi et al. Hardware-intrinsic multi-layer security: A new frontier for 5G enabled IIoT
CN116204773A (zh) 一种因果特征的筛选方法、装置、设备及存储介质
CN111724175A (zh) 一种应用逻辑回归建模的市民信用积分评估方法
Blackburn et al. Cooperation among an anonymous group protected Bitcoin during failures of decentralization
CN114971841A (zh) 风险管理方法、风险模型训练方法、装置、设备和介质
CN114662156B (zh) 一种基于匿名化数据的纵向逻辑回归建模方法
Wang et al. Beyond model splitting: Preventing label inference attacks in vertical federated learning with dispersed training
Hutchison Acceptance of electronic monetary exchanges, specifically bitcoin, by information security professionals: A quantitative study using the unified theory of acceptance and use of technology (UTAUT) model
Liu et al. Towards an efficient privacy-preserving decision tree evaluation service in the Internet of Things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant