CN112241537B - 纵向联邦学习建模方法、系统、介质及设备 - Google Patents

纵向联邦学习建模方法、系统、介质及设备 Download PDF

Info

Publication number
CN112241537B
CN112241537B CN202011010911.4A CN202011010911A CN112241537B CN 112241537 B CN112241537 B CN 112241537B CN 202011010911 A CN202011010911 A CN 202011010911A CN 112241537 B CN112241537 B CN 112241537B
Authority
CN
China
Prior art keywords
modeling
participant
intermediate data
encrypted
modeling participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011010911.4A
Other languages
English (en)
Other versions
CN112241537A (zh
Inventor
游海涛
徐华卿
洪晶瑾
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ylz Information Technology Co ltd
Original Assignee
Ylz Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ylz Information Technology Co ltd filed Critical Ylz Information Technology Co ltd
Priority to CN202011010911.4A priority Critical patent/CN112241537B/zh
Publication of CN112241537A publication Critical patent/CN112241537A/zh
Application granted granted Critical
Publication of CN112241537B publication Critical patent/CN112241537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及数据共享技术领域,特别涉及一种纵向联邦学习建模方法、系统、介质及设备,其中,一种纵向联邦学习建模方法,找出建模参与方共有的样本ID,应用于建模参与方包括如下步骤,接收信任第三方发送的公钥,利用公钥对中间数据进行加密;向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;接收运算结果并计算估计向量,用以利用共有的样本ID建立数据模型。与现有技术相比,本发明提供的一种纵向联邦学习建模方法,在保证各建模参与方的数据安全隐私的前提下,充分利用各建模参与方的特征数据共同建模,既能保证数据隐私又能提升模型表现。

Description

纵向联邦学习建模方法、系统、介质及设备
技术领域
本发明涉及数据共享技术领域,特别涉及一种纵向联邦学习建模方法、系统、介质及设备。
背景技术
非线性状态估计技术(Nonlinear State Estimation Technique,NSET)是一种经典的模式识别技术,在工业界常用来解决异常检测问题。其基于海量历史高维样本向量形成的“记忆矩阵”并计算出“认知矩阵”,认知矩阵中蕴含了所有历史样本向量两两之间的某种“非线性模式”,最后只要计算输入样本向量与输出估计向量之间的相似性就可以评估样本异常情况。
但是,NSET也需要大量有效特征才能保证更好的评估效果,如果有几个公司或机构分别想利用自己的数据合作共建一个NSET模型,存在向其他人泄露自己数据的风险。
发明内容
为解决上述现有技术中建模时数据泄露的风险,本发明提供的一种纵向联邦学习建模方法,在建模时可以确保数据的隐私安全性。
第一方面,本申请实施例提供了一种纵向联邦学习建模方法,找出建模参与方共有的样本ID后,应用于建模参与方,所述方法包括:
接收信任第三方发送的公钥,利用公钥对中间数据进行加密;
向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;
接收运算结果并计算估计向量,用以建立数据模型。
进一步地,所述建模参与方包括多个,通过加密实体对齐找出全部所述建模参与方共有的样本ID。
进一步地,所述建模参与方包括第一建模参与方和第二建模参与方,所述中间数据包括第一中间数据和第二中间数据;所述第一建模参与方和所述第二建模参与方分别接收信任第三方发送的公钥;
所述第一建模参与方利用公钥对第一中间数据进行同态加密发送给所述第二建模参与方,所述第二建模参与方在加密的第一中间数据基础上利用公钥对第二中间数据进行同态加密后发送给信任第三方。
进一步地,加密的第一中间数据包括所述第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及所述第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;
加密的第二中间数据包括所述第一建模参与方和所述第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及所述第一建模参与方和所述第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和。
进一步地,所述第一建模参与方计算
Figure GDA0003941312660000021
Figure GDA0003941312660000022
发送给第二建模参与方;所述第二建模参与方计算
Figure GDA0003941312660000023
Figure GDA0003941312660000024
Figure GDA0003941312660000025
Figure GDA0003941312660000031
后将
Figure GDA0003941312660000032
Figure GDA0003941312660000033
发送给信任第三方。
进一步地,所述信任第三方利用私钥对加密的第二中间数据解密并运算,将运算结果发送给所述第一建模参与方和所述第二建模参与方。
进一步地,所述信任第三方利用私钥对
Figure GDA0003941312660000034
Figure GDA0003941312660000035
进行解密进行解密,并计算
Figure GDA0003941312660000036
Figure GDA0003941312660000037
将计算结果发送给第一建模参与方和第二建模参与方。
进一步地,所述第一建模参与方和所述第二建模参与方分别接收运算结果,各自其计算估计向量发送至对方,用以建立数据模型。
进一步地,所述第一建模参与方计算
Figure GDA0003941312660000038
并发送给第二建模参与方,所述第二建模参与方计算
Figure GDA0003941312660000039
并发送给第一建模参与方;所述第一建模参与方和所述第二建模参与方各自计算
Figure GDA00039413126600000310
用以建立数据模型。
第二方面,本申请实施例提供了一种纵向联邦学习建模方法,找出建模参与方共有的样本ID后,应用于信任第三方,所述方法包括:
向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;
接收加密中间数据对其解密并进行运算;
向建模参与方返回运算结果,以使所述建模参与方计算估计向量建立对应的数据模型。
进一步地,所述信任第三方为安全计算节点或权威机关节点。
第三方面,本申请实施例提供了一种纵向联邦学习建模系统,找出建模参与方共有的样本ID后,应用于建模参与方,所述系统包括:
接收模块,用于接收信任第三方发送的公钥,利用公钥对中间数据进行加密;
发送模块,用于向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;
计算模块,用于接收运算结果并计算估计向量,用以建立数据模型。
第四方面,本申请实施例提供了一种纵向联邦学习建模系统,找出建模参与方共有的样本ID后,应用于信任第三方,所述系统包括:
发送模块,用于向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;
接收模块,用于接收加密中间数据对其解密并进行运算;
返回模块,用于向建模参与方返回运算结果,以使所述建模参与方计算估计向量建立对应的数据模型。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如上任一项所述的一种纵向联邦学习建模方法。
第六方面,本申请实施例提供了一种通信设备,包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如上任一项所述的一种纵向联邦学习建模方法。
与现有技术相比,本发明提供的一种纵向联邦学习建模方法,各建模参与方首先找出共有的样本ID,接收信任第三方发送的公钥,利用公钥对中间数据进行加密后发送至信任第三方,信任第三方对其解密并计算,将计算结果返回至各建模参与方,使各建模参与方计算估计向量,利用共有的样本ID建立数据模型;在保证各建模参与方的数据安全隐私的前提下,充分利用各建模参与方的特征数据共同建模,既能保证数据隐私又能提升模型表现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的实施例一建模方法的流程图;
图2为本发明提供的实施例二建模方法的流程图;
图3为本发明提供的实施例三建模系统的结构示意图;
图4为本发明提供的实施例四建模系统的结构示意图;
图5为本发明提供的实施例六通信设备的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,,下面所描述的本发明不同实施方式中所设计的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例一
图1为本申请实施例一提供的纵向联邦学习建模方法,找出建模参与方共有的样本ID,该实施例应用于建模参与方,如图1所示,所述方法包括:
S101:接收信任第三方发送的公钥,利用公钥对中间数据进行加密;
S102:向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;
S103:接收运算结果并计算估计向量,用以建立数据模型。
具体实施时,NEST模型最早由Singer等人提出,目前在核电站传感器校验、电子产品寿命预测等方面均有应用,NEST模型理论推导过程包括:
假设有n个观测变量,n个变量可以写成一个向量形式,称之为观测向量或观测样本:X=[x1,x2,…,xn]T
NEST模型的输入为待估计的观测向量Yobs,输出为估计向量Yest
NEST的记忆矩阵D用于存放历史观测向量,假设有m个历史观测向量,则
Figure GDA0003941312660000061
为了利用记忆矩阵中历史观测向量的线性组合来估计NEST模型的输入观测向量,引入权重向量W:W=[w1,w2,…,wm]T;因此,估计向量Yest为Yest=DW=w1X(1)+w2X(2)+…+wmX(m),即
Figure GDA0003941312660000071
输入观测向量与估计向量之间的残差为
Figure GDA0003941312660000072
残差平方和函数G为
Figure GDA0003941312660000073
利用偏导数求极值的方法得到关于wj(1≤j≤m)的
Figure GDA0003941312660000074
简化为
Figure GDA0003941312660000075
表现为矩阵的形式为:DTDW=DTYobs,其中,
Figure GDA0003941312660000076
考虑DTD可逆,W=(DTD)-1DTYobs,Yest=DW=D(DT·D)-1(DT·Yobs),由于此线性估计存在非随机缺陷,不适用实际应用中样本的随机不确定性,因此,引入非线性运算符
Figure GDA0003941312660000077
Figure GDA0003941312660000078
其中,
Figure GDA0003941312660000079
为认知矩阵,保存了记忆矩阵中样本的空间分布模式;而非线性运算符满足的条件之一为确保认知矩阵
Figure GDA0003941312660000081
非奇异。
本实施例中,NEST模型中认知矩阵
Figure GDA0003941312660000082
非奇异,非线性运算符取欧式距离
Figure GDA0003941312660000083
建模参与方包括多个,建模参与方包括第一建模参与方和第二建模参与方,第一建模参与方和第二建模参与方待估计的观测向量为
Figure GDA0003941312660000084
认知矩阵
Figure GDA0003941312660000085
估计向量为
Figure GDA0003941312660000086
但是,当各建模参与方联合建立NEST模型时,由于数据隐私和安全的原因,各建模参与方不能直接交换数据,而各建模参与方有大量重复ID的样本和少量重复的特征,因此,各建模参与方需要拿出相同ID的样本进行纵向合并,使得各建模参与方均能充分利用对方的特征。
为了保证计算过程中的保密性,首先通过加密实体对齐找出建模参与方共有的样本ID,在加密实体对齐的过程中,各建模参与方对哪些样本ID是对方没有的及对方具体的样本数据均是未知的。
接着,如图1所示,各建模参与方接收信任第三方发送的公钥,用以对中间数据进行加密,本实施例中,信任第三方可以是安全计算节点或权威机关节点,例如政府机关节点;中间数据包括第一中间数据和第二中间数据,第一建模参与方和第二建模参与方分别接收信任第三方发送的公钥;
然后,第一建模参与方利用公钥对第一中间数据进行加密,加密的第一中间数据包括第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;第一建模参与方计算
Figure GDA0003941312660000091
Figure GDA0003941312660000092
发送给第二建模参与方;
第二建模参与方在加密第一中间数据的基础上,利用公钥对第二中间数据进行加密后发送给信任第三方,加密的第二中间数据包括第一建模参与方和第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及第一建模参与方和第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和;
第二建模参与方计算
Figure GDA0003941312660000093
Figure GDA0003941312660000094
Figure GDA0003941312660000095
Figure GDA0003941312660000101
后将
Figure GDA0003941312660000102
Figure GDA0003941312660000103
发送给信任第三方。
较佳地,本实施例中,对第一中间数据和第二中间数据加密采用加法同态加密,[[*]]表示对*进行加法同态加密,明文空间群和密文空间群的二元运算符均取“+”。
接着,信任第三方接收加密的中间数据并利用私钥对
Figure GDA0003941312660000104
Figure GDA0003941312660000105
进行解密,并计算第一建模参与方和第二建模参与方联合的样本向量i和输入观测向量的欧式距离
Figure GDA0003941312660000106
及第一建模参与方和第二建模参与方联合的记忆矩阵中所有样本两两之间的欧式距离
Figure GDA0003941312660000107
将计算结果分别发送给第一建模参与方和第二建模参与方。
然后,第一建模参与方计算
Figure GDA0003941312660000108
并发送给第二建模参与方,第二建模参与方计算
Figure GDA0003941312660000109
并发送给第一建模参与方;
最后,第一建模参与方和第二建模参与方各自计算估计向量
Figure GDA00039413126600001010
用以利用共有的样本ID建立数据模型;第一建模参与方和第二建模参与方在联合建模时,其原始数据和中间数据均处于加密状态,从而确保了在利用共有样本ID建立数据模型时的数据隐私安全性。
优选地,建模参与方包括第一建模参与方、第二建模参与方和第三建模参与方,第一建模参与方、第二建模参与方和第三建模参与方待估计的观测向量为
Figure GDA0003941312660000111
认知矩阵为
Figure GDA0003941312660000112
估计向量为
Figure GDA0003941312660000113
第一建模参与方、第二建模参与方和第三建模参与方分别接收信任第三方发送的公钥,中间数据包括第一中间数据、第二中间数据和第三中间数据,第一建模参与方利用公钥对第一中间数据进行加密;
加密的第一中间数据包括第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;第一建模参与方计算
Figure GDA0003941312660000114
发送给第二建模参与方;
第二建模参与方在加密第一中间数据的基础上,利用公钥对第二中间数据进行加密后发送给第三建模参与方,加密的第二中间数据包括第一建模参与方和第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及第一建模参与方和第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和;
第二建模参与方计算
Figure GDA0003941312660000121
Figure GDA0003941312660000122
Figure GDA0003941312660000123
Figure GDA0003941312660000124
后将
Figure GDA0003941312660000125
Figure GDA0003941312660000126
发送至第三建模参与方;
第三建模参与方在加密第二中间数据基础上,利用公钥对第三中间数据进行加密后发送至信任第三方,加密第三中间数据包括第一建模参与方、第二建模参与方和第三建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及第一建模参与方、第二建模参与方和第三建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和;
第三建模参与方计算
Figure GDA0003941312660000127
Figure GDA0003941312660000128
发送至信任第三方;
接着,信任第三方接收加密的中间数据并利用私钥对
Figure GDA0003941312660000131
Figure GDA0003941312660000132
进行解密,并计算第一建模参与方、第二建模参与方和第三建模参与方联合的样本向量i和输入观测向量的欧式距离
Figure GDA0003941312660000133
及第一建模参与方、第二建模参与方和第三建模参与方联合的记忆矩阵中所有样本两两之间的欧式距离
Figure GDA0003941312660000134
将计算结果分别发送给第一建模参与方、第二建模参与方和第三建模参与方。
然后,第一建模参与方计算
Figure GDA0003941312660000135
并分别发送至第二建模参与方和第三建模参与方,第二建模参与方计算
Figure GDA0003941312660000136
并分别发送给第一建模参与方和第三建模参与方;第三建模参与方计算
Figure GDA0003941312660000137
并分别发送至第一建模参与方和第二建模参与方;
最后,第一建模参与方、第二建模参与方和第三建模参与方各自计算联合的估计向量
Figure GDA0003941312660000138
用以利用共有的样本ID建立数据模型;第一建模参与方、第二建模参与方和第三建模参与方在联合建模时,其原始数据和中间数据均处于加密状态,从而确保了在利用共有样本ID建立数据模型时的数据隐私安全性。
实施例二
如图2所示,本申请实施例二提供的一种纵向联邦学习建模方法,找出建模参与方共有的样本ID,应用于信任第三方,所述方法包括:
S201:向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;
S202:接收加密中间数据对其解密并进行运算;
S203:向建模参与方返回运算结果,以使所述建模参与方计算估计向量,利用共有的样本ID建立数据模型。
具体实施时,信任第三方分别向各建模参与方发送公钥,使各建模参与方利用公钥对中间数据进行加密后返回值信任第三方,信任第三方接收加密中间数据进行解密并计算,向各建模参与方返回运算结果,使各建模参与方计算估计向量,利用共有的样本ID建立数据模型,具体描述参照本申请其他实施例的相关描述,在此不作赘述。
与现有技术相比,本发明提供的一种纵向联邦学习建模方法,各建模参与方首先找出共有的样本ID,接收信任第三方发送的公钥,利用公钥对中间数据进行加密后发送至信任第三方,信任第三方对其解密并计算,将计算结果返回至各建模参与方,使各建模参与方计算估计向量,利用共有的样本ID建立数据模型;在保证各建模参与方的数据安全隐私的前提下,充分利用各建模参与方的特征数据共同建模,既能保证数据隐私又能提升模型表现。
实施例三
如图3所示,本实施例提供的纵向联邦学习建模系统包括接收模块、发送模块和计算模块,上述接收模块、发送模块和计算模块可以实现建模参与方一侧的方法。
具体实施时,接受模块用于接收信任第三方发送的公钥,利用公钥对中间数据进行加密;发送模块用于向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;计算模块用于接收运算结果并计算估计向量,用以建立数据模型。
本申请实施例三的纵向联邦学习建模系统,可以执行上述各方法中建模参与方的技术方案,其实现原理和技术效果类似,在此不再赘述。
实施例四
如图4所示,本实施例提供的纵向联邦学习建模系统包括发送模块、接收模块和返回模块,上述发送模块、接收模块和返回模块可以实现信任第三方一侧的方法。
具体实施时,发送模块用于向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;接收模块用于接收加密中间数据对其解密并进行运算;返回模块用于向建模参与方返回运算结果,以使所述建模参与方计算估计向量建立对应的数据模型。
本申请实施例四的纵向联邦学习建模系统,可以执行上述各方法中信任第三方的技术方案,其实现原理和技术效果类似,在此不再赘述。
实施例五
本申请实施例五提供的计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时可实现上述任一项所述的一种纵向联邦学习建模方法。
具体实施时,计算机可读存储介质为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;计算机可读存储介质还可以包括上述种类的存储器的组合。
实施例六
如图5所示,本申请实施例六提供的通信设备,如图所示,该通信设备包括至少一个处理器及与所述处理器通信连接的存储器,其中所述存储器存储可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述处理器执行如上述方法实施例中描述的对应于建模参与方或信任第三方的方法,具体参见上述方法实施例中的说明。
具体实施时,处理器的数量可以是一个或多个,处理器可以为中央处理器,(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器与处理器可以通过总线或其他方式通信连接,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使处理器执行如上实施例一或实施例二中任一项所述的一种纵向联邦学习建模方法。
实施例七
本申请实施例七提供采用如上任一项所述的一种纵向联邦学习建模方法在公司之间联合建模时的应用,其中,公司包括A公司和B公司,A公司和B公司联合建模时,双方有大量重复样本ID和少量重复的特征,首先通过加密实体对齐找出双方共有的样本ID;
接着,由于用户隐私和数据安全的原因,A公司和B公司不能直接交换数据,为了保证建模过程中的数据隐私性,A公司和B公司分别接收信任第三方发送的公钥,对双方的中间数据进行加密;
然后,A公司利用公钥对其自身的中间数据加密,A公司计算
Figure GDA0003941312660000171
发送给B公司;
B公司在A公司加密的中间数据基础上,利用公钥对其自身的中间数据进行加密,B公司计算
Figure GDA0003941312660000172
Figure GDA0003941312660000173
Figure GDA0003941312660000174
Figure GDA0003941312660000175
后将
Figure GDA0003941312660000176
Figure GDA0003941312660000177
发送给信任第三方。
接着,信任第三方接收加密的中间数据并利用私钥对
Figure GDA0003941312660000178
Figure GDA0003941312660000179
进行解密,并计算A公司和B公司联合的样本向量i和输入观测向量的欧式距离
Figure GDA00039413126600001710
及A公司和B公司联合的记忆矩阵中所有样本两两之间的欧式距离
Figure GDA00039413126600001711
将计算结果分别发送给A公司和B公司。
然后,A公司计算
Figure GDA00039413126600001712
并发送给B公司,B公司计算
Figure GDA00039413126600001713
并发送给A公司;
最后,A公司和B公司各自计算估计向量
Figure GDA0003941312660000181
用以利用共有的样本ID建立数据模型;A公司和B公司在联合建模时,其原始数据和中间数据均处于加密状态,从而确保了在利用共有样本ID建立数据模型时的数据隐私安全性。
与现有技术相比,本发明提供的一种纵向联邦学习建模方法、系统、介质及设备,各建模参与方首先找出共有的样本ID,接收信任第三方发送的公钥,利用公钥对中间数据进行加密后发送至信任第三方,信任第三方对其解密并计算,将计算结果返回至各建模参与方,使各建模参与方计算估计向量,利用共有的样本ID建立数据模型;在保证各建模参与方的数据安全隐私的前提下,充分利用各建模参与方的特征数据共同建模,既能保证数据隐私又能提升模型表现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种纵向联邦学习建模方法,其特征在于,找出建模参与方共有的样本ID,应用于建模参与方,所述方法包括:
接收信任第三方发送的公钥,利用公钥对中间数据进行加密;
向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;
接收运算结果并计算估计向量,用以利用共有的样本ID建立数据模型;
其中,所述建模参与方包括第一建模参与方和第二建模参与方,所述中间数据包括第一中间数据和第二中间数据;所述第一建模参与方和所述第二建模参与方分别接收信任第三方发送的公钥;
所述第一建模参与方利用公钥对第一中间数据进行同态加密发送给所述第二建模参与方,所述第二建模参与方在加密的第一中间数据基础上利用公钥对第二中间数据进行同态加密后发送给信任第三方;
加密的第一中间数据包括所述第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及所述第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;
加密的第二中间数据包括所述第一建模参与方和所述第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及所述第一建模参与方和所述第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和。
2.根据权利要求1所述的一种纵向联邦学习建模方法,其特征在于:所述建模参与方包括多个,通过加密实体对齐找出全部所述建模参与方共有的样本ID。
3.根据权利要求2所述的一种纵向联邦学习建模方法,其特征在于:所述第一建模参与方计算
Figure FDA0003963596310000021
Figure FDA0003963596310000022
发送给第二建模参与方;
所述第二建模参与方计算
Figure FDA0003963596310000023
Figure FDA0003963596310000024
Figure FDA0003963596310000025
Figure FDA0003963596310000026
后将
Figure FDA0003963596310000027
Figure FDA0003963596310000028
发送给信任第三方;
其中,[[*]]表示对*进行加法同态加密,对第一中间数据和第二中间数据加密采用加法同态加密。
4.根据权利要求3所述的一种纵向联邦学习建模方法,其特征在于:所述信任第三方利用私钥对加密的第二中间数据解密并运算,将运算结果发送给所述第一建模参与方和所述第二建模参与方。
5.根据权利要求4所述的一种纵向联邦学习建模方法,其特征在于:所述信任第三方利用私钥对
Figure FDA0003963596310000029
Figure FDA00039635963100000210
进行解密,并计算
Figure FDA00039635963100000211
Figure FDA00039635963100000212
将计算结果发送给第一建模参与方和第二建模参与方。
6.根据权利要求5所述的一种纵向联邦学习建模方法,其特征在于:所述第一建模参与方和所述第二建模参与方分别接收运算结果,各自其计算估计向量发送至对方,用以建立数据模型。
7.根据权利要求6所述的一种纵向联邦学习建模方法,其特征在于:所述第一建模参与方计算
Figure FDA0003963596310000031
并发送给第二建模参与方,所述第二建模参与方计算
Figure FDA0003963596310000032
并发送给第一建模参与方;所述第一建模参与方和所述第二建模参与方各自计算
Figure FDA0003963596310000033
用以建立数据模型。
8.一种纵向联邦学习建模方法,其特征在于,找出建模参与方共有的样本ID,应用于信任第三方,所述方法包括:
向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;
接收加密中间数据对其解密并进行运算;
向建模参与方返回运算结果,以使所述建模参与方计算估计向量,利用共有的样本ID建立数据模型;
其中,所述建模参与方包括第一建模参与方和第二建模参与方,所述中间数据包括第一中间数据和第二中间数据;所述第一建模参与方和所述第二建模参与方分别接收信任第三方发送的公钥;
所述第一建模参与方利用公钥对第一中间数据进行同态加密发送给所述第二建模参与方,所述第二建模参与方在加密的第一中间数据基础上利用公钥对第二中间数据进行同态加密后发送给信任第三方;
加密的第一中间数据包括所述第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及所述第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;
加密的第二中间数据包括所述第一建模参与方和所述第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及所述第一建模参与方和所述第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和。
9.根据权利要求8所述的一种纵向联邦学习建模方法,其特征在于:所述信任第三方为安全计算节点或权威机关节点。
10.一种纵向联邦学习建模系统,其特征在于,找出建模参与方共有的样本ID后,应用于建模参与方,所述系统包括:
接收模块,用于接收信任第三方发送的公钥,利用公钥对中间数据进行加密;
发送模块,用于向信任第三方发送加密中间数据,以使所述信任第三方接收加密中间数据对其解密并运算,向所述建模参与方返回运算结果;
计算模块,用于接收运算结果并计算估计向量,用以建立数据模型;
其中,所述建模参与方包括第一建模参与方和第二建模参与方,所述中间数据包括第一中间数据和第二中间数据;所述第一建模参与方和所述第二建模参与方分别接收信任第三方发送的公钥;
所述第一建模参与方利用公钥对第一中间数据进行同态加密发送给所述第二建模参与方,所述第二建模参与方在加密的第一中间数据基础上利用公钥对第二中间数据进行同态加密后发送给信任第三方;
加密的第一中间数据包括所述第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及所述第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;
加密的第二中间数据包括所述第一建模参与方和所述第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及所述第一建模参与方和所述第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和。
11.一种纵向联邦学习建模系统,其特征在于,找出建模参与方共有的样本ID后,应用于信任第三方,所述系统包括:
发送模块,用于向建模参与方发送公钥,以使各建模参与方利用公钥对中间数据进行加密;
接收模块,用于接收加密中间数据对其解密并进行运算;
返回模块,用于向建模参与方返回运算结果,以使所述建模参与方计算估计向量建立对应的数据模型;
其中,所述建模参与方包括第一建模参与方和第二建模参与方,所述中间数据包括第一中间数据和第二中间数据;所述第一建模参与方和所述第二建模参与方分别接收信任第三方发送的公钥;
所述第一建模参与方利用公钥对第一中间数据进行同态加密发送给所述第二建模参与方,所述第二建模参与方在加密的第一中间数据基础上利用公钥对第二中间数据进行同态加密后发送给信任第三方;
加密的第一中间数据包括所述第一建模参与方记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文、及所述第一建模参与方记忆矩阵中两两样本向量之间的二范数的同态加密的密文;
加密的第二中间数据包括所述第一建模参与方和所述第二建模参与方各自记忆矩阵中样本向量和输入观测向量的二范数的同态加密的密文之和、以及所述第一建模参与方和所述第二建模参与方各自记忆矩阵中两两样本向量之间的二范数的同态加密的密文之和。
12.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机指令,所述计算机被处理器执行时实现如权利要求1-9任一项所述的一种纵向联邦学习建模方法。
13.一种通信设备,其特征在于:包括至少一个处理器、及与所述处理器通信连接的存储器,其中所述存储器存储可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使所述处理器执行如权利要求1-7或8-9任一项所述的一种纵向联邦学习建模方法。
CN202011010911.4A 2020-09-23 2020-09-23 纵向联邦学习建模方法、系统、介质及设备 Active CN112241537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011010911.4A CN112241537B (zh) 2020-09-23 2020-09-23 纵向联邦学习建模方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011010911.4A CN112241537B (zh) 2020-09-23 2020-09-23 纵向联邦学习建模方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN112241537A CN112241537A (zh) 2021-01-19
CN112241537B true CN112241537B (zh) 2023-02-10

Family

ID=74171233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011010911.4A Active CN112241537B (zh) 2020-09-23 2020-09-23 纵向联邦学习建模方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN112241537B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326521A (zh) * 2021-06-11 2021-08-31 杭州煋辰数智科技有限公司 一种基于安全多方计算的数据源联合建模方法
CN113434878B (zh) * 2021-06-25 2023-07-07 平安科技(深圳)有限公司 基于联邦学习的建模及应用方法、装置、设备及存储介质
CN113836559A (zh) * 2021-09-28 2021-12-24 中国银联股份有限公司 一种联邦学习中的样本对齐方法、装置、设备及存储介质
CN113901500B (zh) * 2021-10-19 2024-06-07 平安科技(深圳)有限公司 图拓扑嵌入方法、装置、系统、设备及介质
CN114358433A (zh) * 2022-01-10 2022-04-15 北京理工大学 基于纵向联邦学习工业软件对接的生产计划管理优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165515A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦学习的模型参数获取方法、系统及可读存储介质
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020185973A1 (en) * 2019-03-11 2020-09-17 doc.ai incorporated System and method with federated learning model for medical research applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165515A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦学习的模型参数获取方法、系统及可读存储介质
CN109886417A (zh) * 2019-03-01 2019-06-14 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN111461874A (zh) * 2020-04-13 2020-07-28 浙江大学 一种基于联邦模式的信贷风险控制系统及方法

Also Published As

Publication number Publication date
CN112241537A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN112241537B (zh) 纵向联邦学习建模方法、系统、介质及设备
Chen et al. When homomorphic encryption marries secret sharing: Secure large-scale sparse logistic regression and applications in risk control
EP3688921B1 (en) Method for faster secure multiparty inner product computation with spdz
US9350543B2 (en) Method and system for homomorphicly randomizing an input
Zhou et al. Efficient homomorphic encryption on integer vectors and its applications
CN106534313B (zh) 面向云端数据发布保护安全及隐私的频度测定方法和系统
EP2228942B1 (en) Securing communications sent by a first user to a second user
JP2023500570A (ja) コールドウォレットを用いたデジタルシグニチャ生成
KR20210139344A (ko) 데이터 기반 활동을 수행하는 방법 및 장치
US11804960B2 (en) Distributed symmetric encryption
CN111783129A (zh) 一种保护隐私的数据处理方法及系统
CN112765652B (zh) 叶节点分类权值的确定方法、装置、及设备
CN111859444A (zh) 一种基于属性加密的区块链数据监管方法及系统
CN111783109B (zh) 数据查询方法、系统及存储介质
CN114614970A (zh) 一种基于多计算方和同态加密的隐私数据安全处理方法
CN113792890B (zh) 一种基于联邦学习的模型训练方法及相关设备
CN114640436A (zh) 一种基于隐私保护的分组统计参数计算方法、装置
CN113259084A (zh) 动产质押风险预警方法、装置、计算机设备和存储介质
CN117034338A (zh) 基于隐私保护的分布式文旅数据计算方法
Ramezanian et al. Privacy preserving shortest path queries on directed graph
JP6000188B2 (ja) 鍵交換装置、鍵交換システム、鍵交換方法、およびプログラム
CN113992393B (zh) 用于纵向联邦学习的模型更新的方法、设备、系统和介质
Jegadeesan et al. Secure and Efficient Data Synchronization Techniques for Digital Twins in Fog-Edge Cloud Environments
US20220103534A1 (en) Information processing system and information processing method
Wu et al. Blockchain-based ciphertext access control for data sharing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant