CN115659381A - 联邦学习的woe编码方法、装置、设备及存储介质 - Google Patents

联邦学习的woe编码方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115659381A
CN115659381A CN202211671971.XA CN202211671971A CN115659381A CN 115659381 A CN115659381 A CN 115659381A CN 202211671971 A CN202211671971 A CN 202211671971A CN 115659381 A CN115659381 A CN 115659381A
Authority
CN
China
Prior art keywords
matrix
jth
woe
electronic device
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211671971.XA
Other languages
English (en)
Other versions
CN115659381B (zh
Inventor
蔡超超
张鹏
李大婷
牛子儒
单进勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shudu Technology Co ltd
Original Assignee
Beijing Shudu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shudu Technology Co ltd filed Critical Beijing Shudu Technology Co ltd
Priority to CN202211671971.XA priority Critical patent/CN115659381B/zh
Publication of CN115659381A publication Critical patent/CN115659381A/zh
Application granted granted Critical
Publication of CN115659381B publication Critical patent/CN115659381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种联邦学习的WOE编码方法、装置、设备及存储介质。方法包括:包括:向第二电子设备发送秘钥对中的公钥;利用公钥对第一矩阵进行加密,得到第二矩阵,第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;向第二电子设备发送第二矩阵;接收第二电子设备发送的第六矩阵,第六矩阵的第j列包括与n个样本的第j特征一一对应的n个第四WOE值;利用秘钥对中的私钥解密第六矩阵,得到第七矩阵,第七矩阵的第j列包括与n个样本的第j特征一一对应的n个第五WOE值。本申请可在不泄露样本的标签和样本的特征的分布信息的前提下,安全实现WOE编码。

Description

联邦学习的WOE编码方法、装置、设备及存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种联邦学习的WOE编码方法、装置、设备及存储介质。
背景技术
随着大数据的发展,重视数据隐私和数据安全已经成为世界性的趋势。为在保护数据隐私和数据安全的前提下,实现多参与方的联合建模,引入了联邦学习(FederatedLearning)。在联邦学习中,需要通过证据权重(Weight of Evidence,WOE)值进行特征编码,WOE值用于反映正负样本的分布情况。
在传统的机器学习建模中,可以基于样本的标签(label),通过公式(1)计算出WOE值:
Figure 598095DEST_PATH_IMAGE001
(1)
其中,WOEt表示第t个分箱的WOE值,Badt_sum表示第t个分箱的负样本数量,BadTotal表示全部分箱的负样本数量,Goodt_sum表示第t个分箱的正样本数量,GoodTotal表示全部分箱的正样本数量。
然而,在多参与方的联邦学习中,在只有一个参与方有样本的标签,其他参与方只有样本的特征的分布信息的情况下,如何在保证样本的标签,以及样本的特征的分布信息不泄露的情况下进行WOE编码,是需要亟待解决的。
发明内容
本申请实施例提供一种在联邦学习的WOE编码方法、装置、设备及存储介质,能够在不泄露样本的标签,以及样本的特征的分布信息的情况下,实现联邦学习中的WOE编码。
第一方面,本申请实施例提供一种联邦学习的WOE编码方法,应用于第一电子设备,方法包括:
向第二电子设备发送秘钥对中的公钥;
利用所述公钥对第一矩阵进行加密,得到第二矩阵,其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
向所述第二电子设备发送所述第二矩阵;
接收所述第二电子设备发送的第六矩阵,其中,所述第六矩阵为n×m矩阵,所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵,其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
第二方面,本申请实施例提供一种联邦学习的WOE编码方法,应用于第二电子设备,方法包括:
接收第一电子设备发送的公钥;
接收所述第一电子设备发送的第二矩阵,其中,所述第二矩阵为k×m矩阵,所述第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵,其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;
利用所述公钥加密第五矩阵,得到第六矩阵,其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
向所述第一电子设备发送所述第六矩阵;
生成第八矩阵,其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第三方面,本申请实施例提供了一种联邦学习的WOE编码装置,装置包括:
第一发送模块,用于向第二电子设备发送秘钥对中的公钥;
第一加密模块,用于利用所述公钥对第一矩阵进行加密,得到第二矩阵,其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二发送模块,用于向所述第二电子设备发送所述第二矩阵;
第一接收模块,用于接收所述第二电子设备发送的第六矩阵,其中,所述第六矩阵为n×m矩阵,所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第一解密模块,用于利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵,其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
第四方面,本申请实施例提供了一种联邦学习的WOE编码装置,装置包括:
第三接收模块,用于接收第一电子设备发送的公钥;
第四接收模块,用于接收所述第一电子设备发送的第二矩阵,其中,所述第二矩阵为k×m矩阵,所述第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二确定模块,用于将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵,其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
第一生成模块,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;
第三确定模块,用于利用所述公钥加密第五矩阵,得到第六矩阵,其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第四发送模块,用于向所述第一电子设备发送所述第六矩阵;
第二生成模块,用于生成第八矩阵,其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第五方面,本申请实施例提供了一种联邦学习的WOE编码设备,设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面或第二方面所述的联邦学习的WOE编码方法。
第六方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面或第二方面所述的联邦学习的WOE编码方法。
第七方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面或第二方面所述的联邦学习的WOE编码方法。
在本申请实施例中,在对第二电子设备的特征进行WOE编码时,对于具有样本的标签的第一电子设备,在获取到第二电子设备第j特征的k个分箱(以第j特征对n个样本进行分箱后得到的k个分箱)分别对应的第一WOE值之后,可以利用秘钥对中的公钥对第一WOE值进行加密,得到各分箱对应的第二WOE值,并向第二电子设备发送各分箱对应的WOE值,如此,由于第二WOE值为加密值,可以使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
对于具有样本的特征的第二电子设备,在获取到各分箱的第二WOE值后,可以利用第j特征的分布信息,获取各样本的第j特征的第二WOE值,之后,可以利用各样本的第j特征的第二WOE值,以及第一符号的各样本的第j特征的第一随机数,得到各样本的第j特征的第三WOE值,之后,利用秘钥对的公钥对各样本的第j特征的第三WOE值进行加密,得到各样本的第j特征的第四WOE值,并向第一电子设备发送各样本的第j特征的第四WOE值,如此,由于第四WOE值为加密值,且通过处理第二WOE值和第一随机数得到,可以使得第一电子设备无法反推出第二电子设备中第j特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
之后,第一电子设备可以利用秘钥对的私钥对各样本的第j特征的第三WOE值进行解密,得到各样本的第j特征的第四WOE值;第二电子设备可以利用第二符号(与第一符号相反)的各样本的第j特征的第一随机数,得到各样本的第j特征的第二随机数,如此,可以使得各样本的第j特征的真实WOE值转换为第四WOE值和第二随机数,以秘密碎片的形式分别存储于第一电子设备和第二电子设备。
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE编码,提高了联邦学习的WOE编码的安全性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的联邦学习的WOE编码方法的流程图;
图2是本申请实施例提供的WOE计算方法的流程图;
图3是本申请实施例提供的WOE计算过程中的交互示意图;
图4是本申请实施例提供的联邦学习的WOE编码装置的结构图之一;
图5是本申请实施例提供的联邦学习的WOE编码装置的结构图之二;
图6是本申请实施例提供的联邦学习的WOE编码设备的结构图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请实施例中,第一电子设备可以为联邦学习中具有样本的标签的参与方,第一电子设备也可以称为标签侧、客户(Client)端或Client侧。第二电子设备可以为联邦学习中具有样本的特征,但不具有样本的标签的参与方,第二电子设备也可称为非标签侧、服务(Server)端或Server侧。
样本的标签可以用于表征样本是正样本或负样本。作为一个示例,若某个样本的标签为0,表征该样本是负样本;若某个样本的标签为1,表征该样本是正样本。
第一电子设备和第二电子设备可以包括共同的n个样本,n为大于1的整数。第一电子设备获取有n个样本的标签。
第二电子设备可以具有n个样本中各样本的m个特征,m为正整数。第二电子设备可以以m个特征中的各特征,对n个样本进行分箱,得到n个样本的与m个特征一一对应的m个分箱结果。
可以理解地是,在实际应用中,以不同特征对n个样本进行分箱得到的分箱结果可能相同或不同。分箱结果不同具体可以表现为以下至少一项:分箱个数不同;各分箱包括的样本不同。
为方便描述和理解,在下述描述中,以第二电子设备以各特征对n个样本进行分箱均得到k个分箱为例进行说明,但并不因此限制以各特征对n个样本进行分箱得到的分箱个数相等。以第j特征对n个样本进行分箱得到的k个分箱,可以称为:第j特征的k个分箱。值得注意地是,不管第二电子设备以各特征对n个样本进行分箱得到的分箱个数是相等或不等,本申请实施例可采用相同的方式对第二电子设备的各特征进行WOE编码。WOE编码也可以称为:WOE转化或WOE转码。
每个分箱对应一个WOE值。分箱中各样本对应的WOE值即该分箱对应的WOE值,即对于分箱中的不同样本,其对应的WOE值相等。由于第二电子设备以特征对n个样本进行分箱,因此,第j特征的k个分箱中的第t分箱中各样本对应的WOE值为:样本的第j特征对应的WOE值。
在上述描述中,i可以为小于或等于n的正整数,即样本的标号可以从1开始;j可以为小于或等于m的正整数,即特征的标号可以从1开始;t可以为小于k的自然数,即特征的标号从0开始。可以理解地是,本申请实施例并不限定样本、特征和分箱的起始标号,具体可根据实际情况决定,本申请实施例对此不作限定。
在本申请实施例中,可以基于同态加密实现特征的WOE转码,即可以通过同态加密技术,实现对第二电子设备的特征进行WOE编码时,将各样本的各特征对应的WOE值转化为一对数据,以秘密碎片的方式分别存储于第一电子设备和第二电子设备,用于后续建模阶段。如:将第i样本的第j特征对应的WOE值,即WOEi,j可以转化为:WOEi,j,Client和WOEi,j,Server,WOEi,j,Client存储于第一电子设备,WOEi,j,Server存储于第二电子设备。
具体实现时,可以使用半同态加密方案(如paillier、OU)或全同态加密方案(如 BFV),实现对第二电子设备的特征的WOE编码,具体可根据实际情况决定,本申请实施对此 不作限定。在本申请实施例中,通过
Figure 295662DEST_PATH_IMAGE002
表示同态加密。
下面结合附图,通过一些实施例及其应用场景对本申请实施例提供的联邦学习的WOE编码方法进行详细地说明。
参见图1,图1是本申请实施例提供的联邦学习的WOE编码方法的流程图。如图1所示,联邦学习的WOE编码方法可以包括以下步骤:
步骤101、第一电子设备向第二电子设备发送秘钥对中的公钥。
相应地,第二电子设备接收第一电子设备发送的公钥。
第一电子设备可以生成包括公钥和私钥的秘钥对,并向第二电子设备发送密钥对中的公钥,以实现基于同态加密的WOE转码。
步骤102、第一电子设备利用所述公钥对第一矩阵进行加密,得到第二矩阵。
其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数。
第一矩阵包括第二电子设备的各分箱的真实WOE值,具体地,第一矩阵的第j列包括第二电子设备以第j特征对n个样本进行分箱得到的k个分箱分别对应的真实WOE值,即第一WOE值,因此,在假设第二电子设备以各特征分别对n个样本进行分箱均得到k个分箱的情况下,第一矩阵为k×m矩阵。
本申请实施例并不限定第一电子设备获取第二电子设备的各分箱的真实WOE值的方式,任何可使得第一电子设备获取到第二电子设备的各分箱的真实WOE值的方式均可落入本申请实施例的保护范围之内。
第一电子设备在获取到第二电子设备的各分箱的真实WOE值之后,可以生成第一矩阵,之后,通过同态加密方式,对第二电子设备的特征进行WOE编码。
具体实现时,第一电子设备可以利用公钥对第一矩阵中的各第一WOE值进行同态加密,得到第二矩阵。之后,向第二电子设备发送第二矩阵。
作为一个示例,假设第一矩阵的第j列的第一WOE值如表1所示,那么,第二矩阵的第j列的第二WOE值如表2所示。
表1:第一矩阵的第j列的第一WOE值
Figure 747503DEST_PATH_IMAGE003
表2:第二矩阵的第j列的第二WOE值
Figure 673870DEST_PATH_IMAGE004
步骤103、第一电子设备向所述第二电子设备发送所述第二矩阵。
相应地,第二电子设备接收所述第一电子设备发送的第二矩阵。
由于第二WOE值为加密值,可以使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
步骤104、第二电子设备将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵。
其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
第二电子设备在获取到各特征的k个分箱的第二WOE值后,由于第二电子设备知道各分箱包括的样本,第二电子设备可以基于第二矩阵,获取到各样本的各特征的第二WOE值。
以第i样本和第j特征为例,第二电子设备可以先确定第i样本对应的第j特征的分箱,即确定第i样本属于第j特征的k个分箱中的那个分箱,之后,可以将该分箱对应的第二WOE值,确定为第i样本的第j特征对应的第二WOE值。
在获取到各样本的各特征对应的第二WOE值之后,可以利用各样本的各特征对应的第二WOE值,生成第三矩阵,第三矩阵的第j列包括n个样本的第j特征分别对应的第二WOE值,因此,第三矩阵为n×m矩阵。
步骤105、第二电子设备生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数。
为保证不泄露第二电子设备的样本的特征的分布信息,在本申请实施例中,第二电子设备还可以为各样本的各特征分别生成一个随机数,即第一随机数。
之后,可以利用各样本的各特征对应的第一随机数,生成第四矩阵,第四矩阵的第j列包括n个样本的第j特征分别对应的第一随机数,因此,第四矩阵为n×m矩阵。
步骤106、第二电子设备利用所述公钥加密第五矩阵,得到第六矩阵。
其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值。
第二电子设备在生成第三矩阵和第四矩阵之后,可以利用第三矩阵和第四矩阵,生成第五矩阵,第五矩阵的第j列包括n个样本的第j特征分别对应的第三WOE值,因此,第五矩阵为n×m矩阵。
第i样本的第j特征对应的第三WOE值可以通过第i样本的第j特征对应的第二WOE值和第一随机数计算得到,在第三WOE值的计算公式中,第一随机数位于第二WOE值之后。第一符号可以为加号(+)、减号(-)、乘号(×)或除号(/),具体可根据实际需求决定,本申请实施例对此不作限定。
在一些实施例中,第二电子设备可以将第三矩阵和第四矩阵相加,得到第五矩阵。在此实施例中,第一符号表现为加号(+),第i样本的第j特征对应的第三WOE值=第i样本的第j特征对应的第二WOE值+第i样本的第j特征对应的第一随机数。
在另一些实施例中,第二电子设备可以将第三矩阵减去第四矩阵,得到第五矩阵。在此实施例中,第一符号表现为减号(-),第i样本的第j特征对应的第三WOE值=第i样本的第j特征对应的第二WOE值-第i样本的第j特征对应的第一随机数。
在另一些实施例中,第二电子设备可以将第三矩阵乘以第四矩阵,得到第五矩阵。在此实施例中,第一符号表现为乘号(×),第i样本的第j特征对应的第三WOE值=第i样本的第j特征对应的第二WOE值×第i样本的第j特征对应的第一随机数。
在另一些实施例中,第二电子设备可以将第三矩阵减去第四矩阵,得到第五矩阵。在此实施例中,第一符号表现为除号(/),第i样本的第j特征对应的第三WOE值=第i样本的第j特征对应的第二WOE值/第i样本的第j特征对应的第一随机数。
可见,第i样本的第j特征对应的第三WOE值可以通过拼接第i样本的第j特征对应的第二WOE值,以及第一符号的第i样本的第j特征对应的第一随机数得到,且第一符号的第一随机数位于第二WOE值之后。第一符号可以理解为第二WOE值与第一随机数之间的运算符号。
第二电子设备在获取到第五矩阵之后,可以利用第一电子设备发送的公钥,对第五矩阵进行同态加密,得到第六矩阵。第六矩阵的第j列包括n个样本的第j特征分别对应的第四WOE值,因此,第六矩阵为n×m矩阵。之后,向第一电子设备发送第六矩阵。作为一个示例,假设第二电子设备中以第j特征对n个样本进行分箱后,n个样本对应的分箱,即n个样本的第j特征对应的分箱如表3所示,那么,第三矩阵的第j列对应的第二WOE值如表4所示。
另外,假设第四矩阵的第j列对应的第一随机数如表5所示,同时假设第五矩阵通过第三矩阵与第四矩阵相加得到,那么第六矩阵的第j列对应的第四WOE值如表6所示。
表3:n个样本的第j特征对应的分箱
Figure 393302DEST_PATH_IMAGE005
表4:第三矩阵的第j列对应的第三WOE值
Figure 497656DEST_PATH_IMAGE006
表5:第四矩阵的第j列对应的第一随机数
Figure 561427DEST_PATH_IMAGE007
表6:第六矩阵的第j列对应的第四WOE值
Figure 671246DEST_PATH_IMAGE008
步骤107、第二电子设备向所述第一电子设备发送所述第六矩阵。
相应地,第一电子设备接收所述第二电子设备发送的第六矩阵。
由于第四WOE值为加密值,且通过处理第二WOE值和第一随机数得到,可以使得第一电子设备无法反推出第二电子设备中各特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
步骤108、第一电子设备利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵。
其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
第一电子设备在接收到第二电子设备发送的第六矩阵之后,可以利用私钥对中的私钥对第六矩阵进行同态解密,得到第七矩阵。第七矩阵的第j列包括n个样本的第j特征对应的第五WOE值,因此,第七矩阵为n×m矩阵。
作为一个示例,第七矩阵的第j列对应的第五WOE值可如表7所示。
表7:第七矩阵的第j列对应的第五WOE值
Figure 481070DEST_PATH_IMAGE009
步骤109、第二电子设备生成第八矩阵。
其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第二电子设备在生成第五矩阵之后,可以利用第五矩阵的生成方式,以及第四矩阵,生成第八矩阵。第八矩阵的第j列包括n个样本的第j特征分别对应的第二随机数,因此,第八矩阵为n×m矩阵。
第二符号可以为加号(+)、减号(-)、乘号(×)或除号(/),具体可根据第一符号决定,第二符号与第一符号相反。
具体地,在第一符号为加号(+)时,第二符号为减号(-)。在第一符号为减号(-)时,第二符号为减号(-)。在第一符号为乘号(×)时,第二符号为除号(/)。在第一符号为除号(/)时,第二符号为乘号(×)。
作为一个示例,在第一符号为加号(+),第二符号为减号(-)的情况下,所述第i样本的所述第j特征对应的第三WOE值为:所述第i样本的所述第j特征对应的第二WOE值,以及所述第i样本的所述第j特征对应的第一随机数的和;所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数ri,j的负数,即:﹣ri,j。第八矩阵的第j列对应的第二随机数可以如表8所示。
表8:第七矩阵的第j列对应的第二随机数
Figure 520439DEST_PATH_IMAGE010
若所述第五矩阵中所述第i样本的所述第j特征对应的第三WOE值为:所述第三矩阵中所述第i样本的所述第j特征对应的第二WOE值,减去所述第四矩阵中所述第i样本的所述第j特征对应的第一随机数的差值;所述第i样本的所述第j特征对应的第二随机数即为:ri,j。此情况下,第八矩阵即第四矩阵。
若所述第五矩阵中所述第i样本的所述第j特征对应的第三WOE值为:所述第三矩阵中所述第i样本的所述第j特征对应的第二WOE值,与所述第四矩阵中所述第i样本的所述第j特征对应的第一随机数的乘积;所述第i样本的所述第j特征对应的第二随机数为:/ri,j
若所述第五矩阵中所述第i样本的所述第j特征对应的第三WOE值为:所述第三矩阵中所述第i样本的所述第j特征对应的第二WOE值,除以所述第四矩阵中所述第i样本的所述第j特征对应的第一随机数的商;所述第i样本的所述第j特征对应的第二随机数为:×ri,j
需要说明的是,本申请实施例并不限定步骤107、步骤108和步骤109的执行时序。
第一电子设备在生成第七矩阵之后,可以保存第七矩阵,第二电子设备在生成第八矩阵之后,可以保存第八矩阵,使得各样本的各特征对应的真实WOE值以秘密碎片的方式分别存储于第一电子设备和第二电子设备中,如此,可以利用第七矩阵和第八矩阵进行联邦学习的后续建模阶段。在后续建模阶段中,可以利用第七矩阵和第八矩阵,获取到第二电子设备中各样本的各特征对应的真实WOE值。
在本申请实施例中,WOEi,j,Client表现为第i样本的第j特征对应的第五WOE值,WOEi,j,Server表现为第i样本的第j特征对应的第二随机数。
假设:第i样本的第j特征对应的第五WOE值为WOEj,i,new
在第一符号为加号(+),第二符号为减号(-)的情况下,可以通过公式(2)计算得到WOEi,j
WOEi,j=WOEj,i,new-ri,j (2)
在公式(2)中,WOEj,i,new为WOEi,j,Client,-ri,j 为WOEi,j,Server
在第一符号为减号(-),第二符号为加号(+)的情况下,可以通过公式(3)计算得到WOEi,j
WOEi,j=WOEj,i,new+ri,j (3)
在公式(3)中,WOEj,i,new为WOEi,j,Client,+ri,j 为WOEi,j,Server
在第一符号为乘号(×),第二符号为除号(/)的情况下,可以通过公式(4)计算得到WOEi,j
WOEi,j= WOEj,i,new/ri,j (4)
在公式(4)中,WOEj,i,new为WOEi,j,Client,/ri,j 为WOEi,j,Server
在第一符号为除号(/),第二符号为乘号(×)的情况下,可以通过公式(5)计算得到WOEi,j
WOEi,j= WOEj,i,new×ri,j (5)
在公式(5)中,WOEj,i,new为WOEi,j,Client,×ri,j 为WOEi,j,Server
可见,第i样本的第j特征对应的真实WOE值可以通过拼接第i样本的第j特征对应的第五WOE值以及第二随机数计算得到,第二随机数位于第五WOE值之后。第二符号可以理解为第五WOE值与第一随机数之间的运算符号。在第一符号为加号(+)或减号(-)的情况下,WOEi,j的计算公式可以等效为公式(6):
WOEi,j= WOEi,j,Client+WOEi,j,Server (6)
可见,第一电子设备和第二电子设备可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现第二电子设备的特征的WOE编码,从而可以联邦学习的WOE编码的安全性。
本申请实施例的联邦学习的WOE编码方法,在对第二电子设备的特征进行WOE编码时,对于具有样本的标签的第一电子设备,在获取到第二电子设备以样本的第j特征的k个分箱(以第j特征对n个样本进行分箱后得到的k个分箱)分别对应的第一WOE值之后,可以利用秘钥对中的公钥对第一WOE值进行加密,得到各分箱对应的第二WOE值,并向第二电子设备发送各分箱对应的WOE值,如此,由于第二WOE值为加密值,可以使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
对于具有样本的特征的第二电子设备,在获取到各分箱的第二WOE值后,可以利用第j特征的分布信息,获取各样本的第j特征的第二WOE值,之后,可以利用各样本的第j特征的第二WOE值,以及第一符号的各样本的第j特征的第一随机数,得到各样本的第j特征的第三WOE值,之后,利用秘钥对的公钥对各样本的第j特征的第三WOE值进行加密,得到各样本的第j特征的第四WOE值,并向第一电子设备发送各样本的第j特征的第四WOE值,如此,由于第四WOE值为加密值,且通过处理第二WOE值和第一随机数得到,可以使得第一电子设备无法反推出第二电子设备中第j特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
之后,第一电子设备可以利用秘钥对的私钥对各样本的第j特征的第三WOE值进行解密,得到各样本的第j特征的第四WOE值;第二电子设备可以利用第二符号(与第一符号相反)的各样本的第j特征的第一随机数,得到各样本的第j特征的第二随机数,如此,可以使得各样本的第j特征的真实WOE值转换为第四WOE值和第二随机数,以秘密碎片的形式分别存储于第一电子设备和第二电子设备。
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE编码,提高了联邦学习的WOE编码的安全性。
以下对第一电子设备获取第二电子设备各特征的各分箱的真实WOE值的方式进行说明。
在本申请实施例中,可以通过同态加密技术,实现第一电子设备对第二电子设备各特征的各分箱的真实WOE值的计算。具体实现时,可以使用半同态加密方案(如paillier、OU等),实现对第二电子设备的特征的WOE计算,具体可根据实际情况决定,本申请实施对此不作限定。
如图2所示,WOE计算方法可以包括以下步骤:
步骤201、第一电子设备利用所述公钥加密第一列向量,得到第二列向量。
其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签。
在本申请实施例中,第一电子设备具有n个样本分别对应的标签。第一电子设备可以利用n个样本分别对应的标签,生成第一列向量。
为防止样本的标签的泄露,第一电子设备可以利用公钥对第一列向量进行同态加密,得到第二向量,并执行步骤202。
步骤202、第一电子设备向所述第二电子设备发送所述第二列向量。
相应地,第二电子设备接收所述第一电子设备发送的第二列向量。
由于第二列向量中的标签为加密值,可以使得第二电子设备无法获取到各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
步骤203、第二电子设备利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数。
在本申请实施例中,第二电子设备自行利用第j特征对n个样本进行分箱,因此,第二电子设备知道第j特征的各分箱中包括的样本。基于此,第二电子设备可以利用第j特征的各分箱中各样本对应的第二标签,计算得到第j特征的各分箱的正样本数和负样本数。
本申请实施例并不限定各分箱的正样本数和负样本数的确定方式,任何可利用第二标签,确定分箱的正样本数和负样本数的方式均可落入本申请实施例的保护范围之内。
在一些实施例中,所述利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,可包括:
将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
在本实施例中,具体实现时,可以通过公式(7)计算得到第j特征的第t个分箱的负样本数Badt_sum。通过公式(8)计算得到第j特征的第t个分箱的正样本数Goodt_sum
Badt_sum=sum(第t分箱) (7)
Goodt_sum=count(第t分箱)-Badt_sum (8)
其中,sum(第t分箱)表示:第t分箱的所有样本对应的第二标签之和。count(第t分箱)表示:第t分箱包括的样本个数。
步骤204、第二电子设备利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
为防止泄露第二电子设备中特征的分布信息,第二电子设备可以利用公钥对各分箱的编号、正样本数和负样本数进行同态加密,并执行步骤205。
步骤205、第二电子设备向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
相应地,第一电子设备接收所述第二电子设备发送的目标信息。
由于各分箱的编号、正样本数和负样本数均为加密值,可以使得第一电子设备无法反推出第二电子设备中各分箱的实际正样本数和负样本数,以及各分箱对应的具体编号,从而保证了第二电子设备中样本的特征的分布信息的安全性。
步骤206、第一电子设备利用所述私钥解密所述目标信息。
基于同态加密的特点,第一电子设备可以利用私钥解密得到各分箱的编号、正样本数和负样本数。
步骤207、第一电子设备利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
具体实现时,针对各分箱,可以通过公式(1)或公式(9)计算得到各分箱对应的第一WOE值。
WOEt=ln(Badt_sum /BadTotal)-ln(Goodt_sum /GoodTotal) (9)
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE计算,提高了联邦学习的WOE计算的安全性。
需要说明的是,本申请实施例中介绍的多种可选的实施方式,在彼此不冲突的情况下可以相互结合实现,也可以单独实现,对此本申请实施例不作限定。
为方便理解,示例说明如下:
一、基于半同态加密的WOE计算。
在本申请实施例中,可以通过同态加密技术,进行多参与方WOE值计算。通过上述方式,可以在Client不暴露标签信息,Server不暴露特征的分布信息的情况下,共同计算出WOE值,具体计算流程如下:
步骤一、 Client生成公私秘钥对,将公钥发送给Server。
具体实现时,Client侧可以采用paillier半同态加密算法生成公私钥对,私钥保留,将公钥发送给Server端。
步骤二、Server接收Client公钥。
步骤三、Client将标签列采用公钥进行加密,形成标签向量,并将标签向量发送给Server。
具体实现时,Client可以通过公钥将样本的标签0,1进行同态加密,形成标签同态加密向量,发送给Server。如图3所示。
步骤四、Server接收Client侧发送的标签向量,根据己方特征的分箱情况以及Client侧的样本index,进行箱内的标签求和。求和完成之后,将分箱标签求和结果利用公钥加密后发送给Client。
Server侧接收Client发送过来的样本标签向量,并根据自己的样本分箱信息,对分箱内的加密向量进行如下计算:
Badt_sum=sum(分箱t)
Goodt_sum=count(分箱t)-Badt_sum
Server通过公钥进行加密分箱编号、Badt_sum与Goodt_sum,并发送至Cltent端。
步骤五、Client进行结果解密,基于己方样本好坏样本的总和的计算,计算分箱的WOE值。
Client端接收Server发送分箱编号t,Badt_sum与Goodt_sum的信息,进行解密。并计算己方的BadTotal与GoodTotal。分别计算不同分箱t下的WOE值:ln(Badt_sum/BadTotal)-ln(Goodt_sum/GoodTotal),最终得该特征的分箱对应的WOE值。
基于上述WOE计算流程,既可以在不泄露Client侧标签信息,又不泄露Server侧特征的分布情况,即实现两方WOE值计算。
二、基于同态加密的WOE编码。
在本申请实施例中,可以通过半同态加密技术将每个样本的特征对应的WOE值以秘密碎片的方式存储于Client和Server两端,用于后续建模阶段。
通过半同态加密技术,可以在对Server侧的特征进行WOE转化时,将每一个样本每一个特征的WOE值转化为秘密共享的一对数据(WOEi,j,Client和WOEi,j,Server),其中i=1,2,...n(n为样本数),j=1,2,...,m(m为 Server端的特征数),一些实施例中,可以满足:
WOEi,j=WOEi,j,Client+WOEi,j,Server
Client侧有WOE值,Server有对应特征的分箱信息。WOE转码流程如下:
步骤一、Client侧生成公私密钥对,并发送给Server。
步骤二、Server侧接收Client发送的公钥。
步骤三、Client侧通过公钥对WOE值矩阵加密,发送给Server端。
步骤四、Server侧生成n ×m随机数矩阵。通过公钥对随机数矩阵进行加密。
步骤五、Server接收Client发送过来的WOE值矩阵。
步骤六、Server按照己方样本的分箱编号进行选择对应已第二WOE值,形成n ×m的WOE值矩阵。将随机数矩阵与WOE值矩阵进行相加,得到加入随机数的最终的WOE值矩阵,并发送给Client侧。
步骤七、Client接收n ×m的WOE值矩阵,解密并保存。
步骤八、 Server侧保存n ×m的随机数矩阵。
基于以上的WOE转码流程,Client侧不会暴露标签信息,Server侧不会暴露特征数据的分箱信息,从而安全实现了特征WOE转码。
基于上述实施例提供的联邦学习的WOE编码方法,相应地,本申请还提供了联邦学习的WOE编码装置的具体实现方式。请参见以下实施例。
如图4,本申请实施例提供的联邦学习的WOE编码装置400可包括:
第一发送模块401,用于向第二电子设备发送秘钥对中的公钥;
第一加密模块402,用于利用所述公钥对第一矩阵进行加密,得到第二矩阵,其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二发送模块403,用于向所述第二电子设备发送所述第二矩阵;
第一接收模块404,用于接收所述第二电子设备发送的第六矩阵,其中,所述第六矩阵为n×m矩阵,所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第一解密模块405,用于利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵,其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
在一些实施例中,所述装置还包括:
第二加密模块,用于利用所述公钥加密第一列向量,得到第二列向量,其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
第三发送模块,用于向所述第二电子设备发送所述第二列向量;
第二接收模块,用于接收所述第二电子设备发送的目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
第二解密模块,用于利用所述私钥解密所述目标信息;
第一确定模块,用于利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
本申请实施例提供的联邦学习的WOE编码装置400能够实现方法实施例中第一电子设备实现的各个过程,为避免重复,这里不再赘述。
如图5,本申请实施例提供的联邦学习的WOE编码装置500可包括:
第三接收模块501,用于接收第一电子设备发送的公钥;
第四接收模块502,用于接收所述第一电子设备发送的第二矩阵,其中,所述第二矩阵为k×m矩阵,所述第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二确定模块503,用于将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵,其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
第一生成模块504,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;
第三确定模块505,用于利用所述公钥加密第五矩阵,得到第六矩阵,其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第四发送模块506,用于向所述第一电子设备发送所述第六矩阵;
第二生成模块507,用于生成第八矩阵,其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
在一些实施例中,所述装置还包括:
第四确定模块,用于将所述第三矩阵和所述第四矩阵相加,得到所述第五矩阵;
其中,所述预设条件为:所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数的负数。
在一些实施例中,所述装置还包括:
第五接收模块,用于接收所述第一电子设备发送的第二列向量,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
第五确定模块,用于利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数;
第三加密模块,用于利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
第五发送模块,用于向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
在一些实施例中,所述第五确定模块包括:
第一确定单元,用于将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
第二确定单元,用于将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
本申请实施例提供的联邦学习的WOE编码装置500能够实现方法实施例中第二电子设备实现的各个过程,为避免重复,这里不再赘述。
图6示出了本申请实施例提供的联邦学习的WOE编码的硬件结构图。
在联邦学习的WOE编码设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
存储器可包括只读存储器(Read-Only Memory, ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种联邦学习的WOE编码方法。
在一个示例中,联邦学习的WOE编码设备还可包括通信接口606和总线610。其中,如图6所示,处理器601、存储器602、通信接口606通过总线610连接并完成相互间的通信。
通信接口606,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线610包括硬件、软件或两者,将联邦学习的WOE编码设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的联邦学习的WOE编码方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种联邦学习的WOE编码方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种联邦学习的WOE编码方法,应用于第一电子设备,其特征在于,包括:
向第二电子设备发送秘钥对中的公钥;
利用所述公钥对第一矩阵进行加密,得到第二矩阵,其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
向所述第二电子设备发送所述第二矩阵;
接收所述第二电子设备发送的第六矩阵,其中,所述第六矩阵为n×m矩阵,所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵,其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
2.根据权利要求1所述的方法,其特征在于,所述利用所述公钥对第一矩阵进行加密,得到第二矩阵之前,所述方法还包括:
利用所述公钥加密第一列向量,得到第二列向量,其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
向所述第二电子设备发送所述第二列向量;
接收所述第二电子设备发送的目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
利用所述私钥解密所述目标信息;
利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
3.一种联邦学习的WOE编码方法,应用于第二电子设备,其特征在于,包括:
接收第一电子设备发送的公钥;
接收所述第一电子设备发送的第二矩阵,其中,所述第二矩阵为k×m矩阵,所述第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵,其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;
利用所述公钥加密第五矩阵,得到第六矩阵,其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
向所述第一电子设备发送所述第六矩阵;
生成第八矩阵,其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
4.根据权利要求3所述的方法,其特征在于,所述第i样本的所述第j特征对应的第三WOE值为:所述第i样本的所述第j特征对应的第二WOE值,以及所述第i样本的所述第j特征对应的第一随机数的和;
所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数的负数。
5.根据权利要求3所述的方法,其特征在于,所述接收第一电子设备发送的公钥之后,所述接收所述第一电子设备发送的第二矩阵之前,所述方法还包括:
接收所述第一电子设备发送的第二列向量,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数;
利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,包括:
将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
7.一种联邦学习的WOE编码装置,其特征在于,所述装置包括:
第一发送模块,用于向第二电子设备发送秘钥对中的公钥;
第一加密模块,用于利用所述公钥对第一矩阵进行加密,得到第二矩阵,其中,所述第一矩阵和所述第二矩阵均为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值,所述第二矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为所述第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二发送模块,用于向所述第二电子设备发送所述第二矩阵;
第一接收模块,用于接收所述第二电子设备发送的第六矩阵,其中,所述第六矩阵为n×m矩阵,所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第一解密模块,用于利用所述秘钥对中的私钥解密所述第六矩阵,得到第七矩阵,其中,所述第七矩阵为n×m矩阵,所述第七矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第五WOE值。
8.一种联邦学习的WOE编码装置,其特征在于,所述装置包括:
第三接收模块,用于接收第一电子设备发送的公钥;
第四接收模块,用于接收所述第一电子设备发送的第二矩阵,其中,所述第二矩阵为k×m矩阵,所述第二矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数,m为正整数;
第二确定模块,用于将所述第二矩阵包括的第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第三矩阵,其中,所述第三矩阵为n×m矩阵,所述第三矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数;
第一生成模块,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;
第三确定模块,用于利用所述公钥加密第五矩阵,得到第六矩阵,其中,所述第五矩阵和所述第六矩阵均为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第三WOE值,所述第五矩阵基于所述第三矩阵和所述第四矩阵确定,所述第i样本的所述第j特征对应的第三WOE值由所述第i样本的所述第j特征对应的第二WOE值,以及第一符号的所述第i样本的所述第j特征对应的第一随机数得到;所述第六矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第四WOE值;
第四发送模块,用于向所述第一电子设备发送所述第六矩阵;
第二生成模块,用于生成第八矩阵,其中,所述第八矩阵为n×m矩阵,所述第八矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数,所述第八矩阵基于所述第四矩阵确定,所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
9.一种联邦学习的WOE编码设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1或2所述的联邦学习的WOE编码方法;或,如权利要求3至6中任一项所述的联邦学习的WOE编码方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1或2所述的联邦学习的WOE编码方法;或,如权利要求3至6中任一项所述的联邦学习的WOE编码方法。
CN202211671971.XA 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质 Active CN115659381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211671971.XA CN115659381B (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211671971.XA CN115659381B (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115659381A true CN115659381A (zh) 2023-01-31
CN115659381B CN115659381B (zh) 2023-03-10

Family

ID=85022504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211671971.XA Active CN115659381B (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115659381B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114927A1 (zh) * 2019-12-11 2021-06-17 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113704799A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 分箱数据的处理方法、装置、设备、存储介质及程序产品
CN113722744A (zh) * 2021-09-15 2021-11-30 京东科技信息技术有限公司 用于联邦特征工程的数据处理方法、装置、设备以及介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN115049070A (zh) * 2022-06-06 2022-09-13 京东科技控股股份有限公司 联邦特征工程数据的筛选方法及装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114927A1 (zh) * 2019-12-11 2021-06-17 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113704799A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 分箱数据的处理方法、装置、设备、存储介质及程序产品
CN113722744A (zh) * 2021-09-15 2021-11-30 京东科技信息技术有限公司 用于联邦特征工程的数据处理方法、装置、设备以及介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN115049070A (zh) * 2022-06-06 2022-09-13 京东科技控股股份有限公司 联邦特征工程数据的筛选方法及装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUZHENG HU等: "Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive Privacy Analysis and Beyond" *

Also Published As

Publication number Publication date
CN115659381B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN112906044B (zh) 多方安全计算方法、装置、设备及存储介质
JP6413743B2 (ja) 暗号処理装置、暗号処理方法、及び暗号処理プログラム
WO2014109828A2 (en) Method for secure substring search
CN111555880B (zh) 数据碰撞方法、装置、存储介质及电子设备
CN111368336B (zh) 基于秘密共享的训练方法、装置、电子设备及存储介质
CN111783129A (zh) 一种保护隐私的数据处理方法及系统
US7894608B2 (en) Secure approach to send data from one system to another
CN108549824A (zh) 一种数据脱敏方法及装置
CN114726512B (zh) 数据处理方法和装置
CN107104788B (zh) 终端及其不可抵赖的加密签名方法和装置
CN116561787A (zh) 视觉图像分类模型的训练方法、装置及电子设备
CN117220865A (zh) 经纬度加密方法、经纬度校验方法、装置及可读存储介质
Moon et al. An Efficient Encrypted Floating‐Point Representation Using HEAAN and TFHE
CN111859440B (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
CN115659381B (zh) 联邦学习的woe编码方法、装置、设备及存储介质
WO2023169080A1 (zh) 数据处理
CN115412246B (zh) 不经意传输方法、装置、设备和存储介质
CN114726511B (zh) 数据处理方法和装置
CN113836595B (zh) 两方安全比较的方法、装置和系统
CN115883212A (zh) 信息处理方法、装置、电子设备和存储介质
CN116244719A (zh) 联邦学习的woe编码方法、装置、设备及存储介质
CN115037442B (zh) 一种模型效果检测方法、装置、存储介质及设备
CN115204320B (zh) 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质
Farooq et al. QuantIoT Novel Quantum Resistant Cryptographic Algorithm for Securing IoT Devices: Challenges and Solution
CN114500006B (zh) 查询请求的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant