CN116244719A - 联邦学习的woe编码方法、装置、设备及存储介质 - Google Patents

联邦学习的woe编码方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116244719A
CN116244719A CN202211682685.3A CN202211682685A CN116244719A CN 116244719 A CN116244719 A CN 116244719A CN 202211682685 A CN202211682685 A CN 202211682685A CN 116244719 A CN116244719 A CN 116244719A
Authority
CN
China
Prior art keywords
woe
feature
matrix
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211682685.3A
Other languages
English (en)
Inventor
蔡超超
张鹏
李大婷
牛子儒
单进勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shudu Technology Co ltd
Original Assignee
Beijing Shudu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shudu Technology Co ltd filed Critical Beijing Shudu Technology Co ltd
Priority to CN202211682685.3A priority Critical patent/CN116244719A/zh
Publication of CN116244719A publication Critical patent/CN116244719A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • H04L63/0442Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload wherein the sending and receiving network entities apply asymmetric encryption, i.e. different keys for encryption and decryption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/34Encoding or coding, e.g. Huffman coding or error correction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了一种联邦学习的WOE编码方法、装置、设备及存储介质。方法包括:获取第一矩阵,第j列包括与第j特征的k个分箱对应的k个第一WOE值;利用第一矩阵和第二矩阵,生成与n个样本对应的n个第三矩阵,第二矩阵的第j列包括与n个样本的第j特征对应的n个第一随机数;第i样本对应的第三矩阵的第j列包括与第j特征的k个分箱对应的k个第二WOE值,第二WOE值由第一WOE值,以及第一符号的第一随机数得到;向第二电子设备发送n个第三矩阵;生成第四矩阵,第j列包括与n个样本的第j特征对应的n个第二随机数;第二随机数为第二符号(与第一符号相反)的第一随机数。本申请可在不泄露样本的标签和特征的分布信息的前提下,安全实现WOE编码。

Description

联邦学习的WOE编码方法、装置、设备及存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种联邦学习的WOE编码方法、装置、设备及存储介质。
背景技术
随着大数据的发展,重视数据隐私和数据安全已经成为世界性的趋势。为在保护数据隐私和数据安全的前提下,实现多参与方的联合建模,引入了联邦学习(FederatedLearning)。在联邦学习中,需要通过证据权重(Weight ofEvidence,WOE)值进行特征编码,WOE值用于反映正负样本的分布情况。
在传统的机器学习建模中,可以基于样本的标签(label),通过公式(1)计算出WOE值:
Figure BDA0004018586510000011
其中,WOEt表示第t个分箱的WOE值,Badt_sum表示第t个分箱的负样本数量,BadTotal表示全部分箱的负样本数量,Goodt_sum表示第t个分箱的正样本数量,GoodTotal表示全部分箱的正样本数量。
然而,在多参与方的联邦学习中,在只有一个参与方有样本的标签,其他参与方只有样本的特征的分布信息的情况下,如何在保证样本的标签,以及样本的特征的分布信息不泄露的情况下进行WOE编码,是需要亟待解决的。
发明内容
本申请实施例提供一种在联邦学习的WOE编码方法、装置、设备及存储介质,能够在不泄露样本的标签,以及样本的特征的分布信息的情况下,实现联邦学习中的WOE编码。
第一方面,本申请实施例提供一种联邦学习的WOE编码方法,应用于第一电子设备,方法包括:
获取第一矩阵,其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数;
利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵,其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数;
向所述第二电子设备发送所述n个第三矩阵;
生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第二方面,本申请实施例提供一种联邦学习的WOE编码方法,应用于第二电子设备,方法包括:
接收第一电子设备发送的与n个样本一一对应的n个第三矩阵,其中,所述第三矩阵为k×m矩阵,第i样本对应的第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;
将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵,其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
第三方面,本申请实施例提供了一种联邦学习的WOE编码装置,装置包括:
第一获取模块,用于获取第一矩阵,其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数;
第一生成模块,用于利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵,其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数;
第一发送模块,用于向所述第二电子设备发送所述n个第三矩阵;
第二生成模块,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第四方面,本申请实施例提供了一种联邦学习的WOE编码装置,装置包括:
第二接收模块,用于接收第一电子设备发送的与n个样本一一对应的n个第三矩阵,其中,所述第三矩阵为k×m矩阵,第i样本对应的第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;
第二确定模块,用于将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵,其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
第五方面,本申请实施例提供了一种联邦学习的WOE编码设备,设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如第一方面或第二方面所述的联邦学习的WOE编码方法。
第六方面,本申请实施例提供了一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如第一方面或第二方面所述的联邦学习的WOE编码方法。
第七方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如第一方面或第二方面所述的联邦学习的WOE编码方法。
在本申请实施例中,在对第二电子设备的特征进行WOE编码时,对于具有样本的标签的第一电子设备,可以先获取到第二电子设备第j特征的k个分箱(以第j特征对n个样本进行分箱后得到的k个分箱)分别对应的第一WOE值,以及n个样本的第j特征分别对应的第一随机数。之后,针对各样本,可以利用第j特征的k个分箱分别对应的第一WOE值,以及第一符号的该样本的第j特征对应的第一随机数,得到第j特征的k个分箱分别对应的第二WOE值,进而生成与n个样本一一对应的n个第三矩阵,并向第二电子设备发送n个第三矩阵,其中,各样本对应的第三矩阵的第j列包括利用该样本的第j特征对应的第一随机数得到的第j特征的k个分箱分别对应的第二WOE值。如此,由于第二WOE值为利用第一WOE值和第一随机数得到,可以使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
对于具有样本的特征的第二电子设备,在获取到各分箱的第二WOE值后,可以利用第j特征的分布信息,获取各样本的第j特征的第二WOE值。如此,由于第一电子设备无法知晓第二电子设备选取第j特征的k个分箱中的那个分箱对应的第二WOE值,作为样本的第j特征对应的第二WOE值,可以使得第一电子设备无法反推出第二电子设备中第j特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
之后,第一电子设备可以保存n个样本的第j特征分别对应的第二随机数,即第二符号(与第一符号相反)的n个样本的第j特征分别对应的第一随机数。如此,可以使得各样本的第j特征的真实WOE值转换为第二WOE值和第二随机数,以秘密碎片的形式分别存储于第一电子设备和第二电子设备。
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE编码,提高了联邦学习的WOE编码的安全性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的联邦学习的WOE编码方法的流程图;
图2是本申请实施例提供的WOE计算方法的流程图;
图3是本申请实施例提供的WOE计算过程中的交互示意图;
图4是本申请实施例提供的WOE编码过程中的交互示意图;
图5是本申请实施例提供的联邦学习的WOE编码装置的结构图之一;
图6是本申请实施例提供的联邦学习的WOE编码装置的结构图之二;
图7是本申请实施例提供的联邦学习的WOE编码设备的结构图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请实施例中,第一电子设备可以为联邦学习中具有样本的标签的参与方,第一电子设备也可以称为标签侧、客户(Client)端或Client侧。第二电子设备可以为联邦学习中具有样本的特征,但不具有样本的标签的参与方,第二电子设备也可称为非标签侧、服务(Server)端或Server侧。
样本的标签可以用于表征样本是正样本或负样本。作为一个示例,若某个样本的标签为0,表征该样本是负样本;若某个样本的标签为1,表征该样本是正样本。
第一电子设备和第二电子设备可以包括共同的n个样本,n为大于1的整数。第一电子设备获取有n个样本的标签。
第二电子设备可以具有n个样本中各样本的m个特征,m为正整数。第二电子设备可以以m个特征中的各特征,对n个样本进行分箱,得到n个样本的与m个特征一一对应的m个分箱结果。
可以理解地是,在实际应用中,以不同特征对n个样本进行分箱得到的分箱结果可能相同或不同。分箱结果不同具体可以表现为以下至少一项:分箱个数不同;各分箱包括的样本不同。
为方便描述和理解,在下述描述中,以第二电子设备以各特征对n个样本进行分箱均得到k个分箱为例进行说明,但并不因此限制以各特征对n个样本进行分箱得到的分箱个数相等。以第j特征对n个样本进行分箱得到的k个分箱,可以称为:第j特征的k个分箱。值得注意地是,不管第二电子设备以各特征对n个样本进行分箱得到的分箱个数是相等或不等,本申请实施例可采用相同的方式对第二电子设备的各特征进行WOE编码。WOE编码也可以称为:WOE转化或WOE转码。
每个分箱对应一个WOE值。分箱中各样本对应的WOE值即该分箱对应的WOE值,即对于分箱中的不同样本,其对应的WOE值相等。由于第二电子设备以特征对n个样本进行分箱,因此,第j特征的k个分箱中的第t分箱中各样本对应的WOE值为:样本的第j特征对应的WOE值。
在上述描述中,i可以为小于或等于n的正整数,即样本的标号可以从1开始;j可以为小于或等于m的正整数,即特征的标号可以从1开始;t可以为小于k的自然数,即特征的标号从0开始。可以理解地是,本申请实施例并不限定样本、特征和分箱的起始标号,具体可根据实际情况决定,本申请实施例对此不作限定。
在本申请实施例中,可以基于不经意传输(Oblivious Transfer,OT)实现特征的WOE转码,即可以通过不经意传输协议,实现对第二电子设备的特征进行WOE编码时,将各样本的各特征对应的WOE值转化为一对数据,以秘密碎片的方式分别存储于第一电子设备和第二电子设备,用于后续建模阶段。如:将第i样本的第j特征对应的WOE值,即WOEi,j可以转化为:WOEi,j,Client和WOEi,j,Server,WOEi,j,Client存储于第一电子设备,WOEi,j,Server存储于第二电子设备。
下面结合附图,通过一些实施例及其应用场景对本申请实施例提供的联邦学习的WOE编码方法进行详细地说明。
参见图1,图1是本申请实施例提供的联邦学习的WOE编码方法的流程图。如图1所示,联邦学习的WOE编码方法可以包括以下步骤:
步骤101、第一电子设备获取第一矩阵。
其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数。
第一矩阵包括第二电子设备的各分箱的真实WOE值,具体地,第一矩阵的第j列包括第二电子设备以第j特征对n个样本进行分箱得到的k个分箱分别对应的真实WOE值,即第一WOE值,因此,在假设第二电子设备以各特征分别对n个样本进行分箱均得到k个分箱的情况下,第一矩阵为k×m矩阵。
本申请实施例并不限定第一电子设备获取第二电子设备的各分箱的真实WOE值的方式,任何可使得第一电子设备获取到第二电子设备的各分箱的真实WOE值的方式均可落入本申请实施例的保护范围之内。
作为一个示例,假设第一矩阵的第j列的第一WOE值如表1所示。
表1:第一矩阵的第j列的第一WOE值
分箱编号 第一WOE值
0 WOEj,0
1 WOEj,1
2 WOEj,2
... ...
k-1 WOEj,k-1
步骤102、第一电子设备利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵。
其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数。
为保证不泄露第一电子设备的样本的标签,第一电子设备在执行步骤102之前,可以先为各样本的各特征分别生成一个随机数,即第一随机数。之后,可以利用各样本的各特征对应的第一随机数,生成第二矩阵,第二矩阵的第j列包括n个样本的第j特征分别对应的第一随机数,因此,第二矩阵为n×m矩阵。
第一电子设备在获取到第一矩阵和第二矩阵之后,可以以样本为单位,获取各样本对应的第三矩阵。第i样本对应的第三矩阵的第j列可以包括:利用第j特征的k个分箱分别对应的第一WOE值,以及第一符号的第i样本的第j特征对应的第一随机数得到。因此,第三矩阵为k×m矩阵。
可以理解地是,第i样本对应的第三矩阵中同一列的第二WOE值通过相同的第一随机数处理得到,如:第i样本对应的第三矩阵中的第j列的第二WOE值通过第i样本的第j特征对应的第一随机数处理得到。如此,即使第一电子设备无法知晓第二电子设备以各特征对n个样本进行分箱之后,第i样本属于那个分箱,但第一电子设备可以知晓用于还原第i样本的各特征的真实WOE值的第一随机数,从而可以提高WOE编码的可靠性。
为方便理解,以下以第i样本对应的第三矩阵的生成进行示例说明,可以理解地是,对于其他样本对应的第三矩阵,可以采用同样的方式生成。
第j特征的第t分箱对应的第二WOE值可以通过第j特征的第t分箱对应的第一WOE值,以及第一符号的第i样本的第j特征对应的第一随机数生成。第一符号可以为加号(+)、减号(-)、乘号(×)或除号(/),具体可根据实际需求决定,本申请实施例对此不作限定。
在第一符号表现为加号(+)的情况下,第j特征的第t分箱对应的第二WOE值=第j特征的第t分箱对应的第一WOE值+第i样本的第j特征对应的第一随机数。
在第一符号表现为减号(-)的情况下,第j特征的第t分箱对应的第二WOE值=第j特征的第t分箱对应的第一WOE值-第i样本的第j特征对应的第一随机数。
在第一符号表现为乘号(×)的情况下,第j特征的第t分箱对应的第二WOE值=第j特征的第t分箱对应的第一WOE值×第i样本的第j特征对应的第一随机数。
在第一符号表现为除号(/)的情况下,第j特征的第t分箱对应的第二WOE值=第j特征的第t分箱对应的第一WOE值/第i样本的第j特征对应的第一随机数。
可见,第j特征的第t分箱对应的第二WOE值可以通过拼接第j特征的第t分箱对应的第一WOE值,以及第一符号的第i样本的第j特征对应的第一随机数得到,且第一符号的第一随机数位于第一WOE值之后。第一符号可以理解为第一WOE值与第一随机数之间的运算符号。
作为一个示例,假设第一符号为加号(+),第三矩阵的第j列的第二WOE值如表2所示。
表2:第三矩阵的第j列的第二WOE值
分箱编号 第二WOE值
0 WOEj,0+rj
1 WOEj,1+rj
2 WOEj,2+rj
... ...
k-1 WOEj,k-1+rj
表2中的rj表示第j特征对应的随机数。值得注意地是,表2可以适用于任一样本对应的第三矩阵,对于第i样本对应的第三矩阵,rj表示第i样本的第j特征对应的随机数。
步骤103、第一电子设备向所述第二电子设备发送所述n个第三矩阵。
相应地,第二电子设备接收第一电子设备发送的与n个样本一一对应的n个第三矩阵。
由于第二WOE值为利用第一WOE值和第一随机数得到,可以使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
步骤104、第二电子设备将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵。
其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
由于第二电子设备知晓各分箱包括的样本,如此,第二电子设备在获取到第i样本对应的第三矩阵之后,可以基于第i样本对应的第三矩阵,获取到第i样本的各特征对应的第二WOE值。
以第i样本和第j特征为例,第二电子设备可以先确定第i样本对应的第j特征的分箱,即确定第i样本属于第j特征的k个分箱中的那个分箱,之后,可以将该分箱对应的第二WOE值,确定为第i样本的第j特征对应的第二WOE值。
在获取到各样本的各特征对应的第二WOE值之后,可以利用各样本的各特征对应的第二WOE值,生成第五矩阵,第五矩阵的第j列包括n个样本的第j特征分别对应的第二WOE值,因此,第五矩阵为n×m矩阵。
如此,由于第一电子设备无法知晓第二电子设备选取第j特征的k个分箱中的那个分箱对应的第二WOE值,作为样本的第j特征对应的第二WOE值,可以使得第一电子设备无法反推出第二电子设备中第j特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
作为一个示例,假设n个样本为13个样本,以第j特征对13个样本进行分箱后,13个样本对应的分箱如表3所示,那么,13个样本对应的第二WOE值如表4所示。
表3:13个样本的第j特征对应的分箱
样本索引(index) 分箱编号
1 0
2 0
3 1
4 2
5 2
... ...
11 k-1
12 k-1
13 k-1
表4:第五矩阵的第j列对应的第三WOE值
样本index 分箱编号 第二WOE值
1 0 WOEj,0+r1,j
2 0 WOEj,0+r2,j
3 1 WOEj,1+r3,j
4 2 WOEj,2+r4,j
5 2 WOEj,2+r5,j
... ... ...
11 k-1 WOEj,k-1+r11,j
12 k-1 WOEj,k-1+r12,j
13 k-1 WOEj,k-1+r13,j
在表4中,WOEj,t表示第j特征的第t分箱对应的第一WOE值,ri,j表示第i样本的第j特征对应的第一随机数。
步骤105、第一电子设备生成第四矩阵。
其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
第一电子设备在利用第二矩阵生成第三矩阵之后,可以利用第三矩阵的生成方式,以及第二矩阵,生成第四矩阵。第四矩阵的第j列包括n个样本的第j特征分别对应的第二随机数,因此,第四矩阵为n×m矩阵。
第二符号可以为加号(+)、减号(一)、乘号(×)或除号(/),具体可根据第一符号决定,第二符号与第一符号相反。
具体地,在第一符号为加号(+)时,第二符号为减号(一)。在第一符号为减号(一)时,第二符号为减号(一)。在第一符号为乘号(×)时,第二符号为除号(/)。在第一符号为除号(/)时,第二符号为乘号(×)。
作为一个示例,在第一符号为加号(+),第二符号为减号(一)的情况下,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及所述第i样本的所述第j特征的第一随机数的和;所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数ri,j的负数,即:-ri,j。若所述第j特征的第t分箱对应的第二WOE值为:所述第j特征的所述第t分箱对应的第一WOE值,减去所述第i样本的所述第j特征的第一随机数的差值;所述第i样本的所述第j特征对应的第二随机数即为:ri,j。此情况下,第四矩阵即第二矩阵。
若所述第j特征的第t分箱对应的第二WOE值为:所述第j特征的所述第t分箱对应的第一WOE值,与所述第i样本的所述第j特征的第一随机数的乘积;所述第i样本的所述第j特征对应的第二随机数为:/ri,j
若所述第j特征的第t分箱对应的第二WOE值为:所述第j特征的所述第t分箱对应的第一WOE值,除以所述第i样本的所述第j特征的第一随机数的商;所述第i样本的所述第j特征对应的第二随机数为:×ri,j
需要说明的是,本申请实施例不限定步骤103和步骤105的执行时序。
第一电子设备在生成第四矩阵之后,可以保存第四矩阵,第二电子设备在生成第五矩阵之后,可以保存第五矩阵,使得各样本的各特征对应的真实WOE值以秘密碎片的方式分别存储于第一电子设备和第二电子设备中,如此,可以利用第七矩阵和第八矩阵进行联邦学习的后续建模阶段。在后续建模阶段中,可以利用第七矩阵和第八矩阵,获取到第二电子设备中各样本的各特征对应的真实WOE值。
在本申请实施例中,WOEi,j,Client表现为第i样本的第j特征对应的第二WOE值,WOEi,j,Server表现为第i样本的第j特征对应的第二随机数。
假设:第i样本的第j特征对应的第二WOE值为WOEj,i,new
在第一符号为加号(+),第二符号为减号(-)的情况下,可以通过公式(2)计算得到WOEi,j
WOEi,j=WOEj,i,new-ri,j (2)
在公式(2)中,WOEj,i,new为WOEi,j,Client,-ri,j为WOEi,j,Server
在第一符号为减号(-),第二符号为加号(+)的情况下,可以通过公式(3)计算得到WOEi,j
WOEi,j=WOEj,i,new+ri,j (3)
在公式(3)中,WOEj,i,new为WOEi,j,Client,+ri,j为WOEi,j,Server
在第一符号为乘号(×),第二符号为除号(/)的情况下,可以通过公式(4)计算得到WOEi,j
WOEi,j=WOEj,i,new/ri,j (4)
在公式(4)中,WOEj,i,new为WOEi,j,Client,/ri,j为WOEi,j,Server
在第一符号为除号(/),第二符号为乘号(×)的情况下,可以通过公式(5)计算得到WOEi,j
WOEi,j=WOEj,i,new×ri,j (5)
在公式(5)中,WOEj,i,new为WOEi,j,Client,×ri,j为WOEi,j,Server
可见,第i样本的第j特征对应的真实WOE值可以通过拼接第i样本的第j特征对应的第二WOE值以及第二随机数计算得到,第二随机数位于第二WOE值之后。第二符号可以理解为第二WOE值与第一随机数之间的运算符号。在第一符号为加号(+)或减号(-)的情况下,WOEi,j的计算公式可以等效为公式(6):
WOEi,j=WOEi,j,Client+WOEi,j,Server (6)
可见,第一电子设备和第二电子设备可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现第二电子设备的特征的WOE编码,从而可以联邦学习的WOE编码的安全性。
本申请实施例的联邦学习的WOE编码方法,在对第二电子设备的特征进行WOE编码时,对于具有样本的标签的第一电子设备,可以先获取到第二电子设备第j特征的k个分箱(以第j特征对n个样本进行分箱后得到的k个分箱)分别对应的第一WOE值,以及n个样本的第j特征分别对应的第一随机数。之后,针对各样本,可以利用第j特征的k个分箱分别对应的第一WOE值,以及第一符号的该样本的第j特征对应的第一随机数,得到第j特征的k个分箱分别对应的第二WOE值,进而生成与n个样本一一对应的n个第三矩阵,并向第二电子设备发送n个第三矩阵,其中,各样本对应的第三矩阵的第j列包括利用该样本的第j特征对应的第一随机数得到的第j特征的k个分箱分别对应的第二WOE值。如此,由于第二WOE值为利用第一WOE值和第一随机数得到,可使得第二电子设备无法获取到各分箱的真实WOE值,从而使得第二电子设备无法反推出第一电子设备中各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
对于具有样本的特征的第二电子设备,在获取到各分箱的第二WOE值后,可以利用第j特征的分布信息,获取各样本的第j特征的第二WOE值。如此,由于第一电子设备无法知晓第二电子设备选取第j特征的k个分箱中的那个分箱对应的第二WOE值,作为样本的第j特征对应的第二WOE值,可以使得第一电子设备无法反推出第二电子设备中第j特征的分布信息,从而保证了第二电子设备中样本的特征的分布信息的安全性。
之后,第一电子设备可以保存n个样本的第j特征分别对应的第二随机数,即第二符号(与第一符号相反)的n个样本的第j特征分别对应的第一随机数。如此,可以使得各样本的第j特征的真实WOE值转换为第二WOE值和第二随机数,以秘密碎片的形式分别存储于第一电子设备和第二电子设备。
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE编码,提高了联邦学习的WOE编码的安全性。
以下对第一电子设备获取第二电子设备各特征的各分箱的真实WOE值的方式进行说明。
在本申请实施例中,可以基于同态加密实现特征的WOE计算。即可以通过同态加密技术,实现第一电子设备对第二电子设备各特征的各分箱的真实WOE值的计算。
具体实现时,可以使用半同态加密方案(如paillier、OU等),实现对第二电子设备的特征的WOE计算,具体可根据实际情况决定,本申请实施对此不作限定。在本申请实施例中,通过
Figure BDA0004018586510000151
表示同态加密。
如图2所示,WOE计算方法可以包括以下步骤:
步骤200、生成秘钥对,所述秘钥对包括公钥和私钥。
步骤201、第一电子设备利用所述公钥加密第一列向量,得到第二列向量。
其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签。
在本申请实施例中,第一电子设备具有n个样本分别对应的标签。第一电子设备可以利用n个样本分别对应的标签,生成第一列向量。
为防止样本的标签的泄露,第一电子设备可以利用公钥对第一列向量进行同态加密,得到第二向量,并执行步骤202。
步骤202、第一电子设备向所述第二电子设备发送所述公钥和所述第二列向量。
相应地,第二电子设备接收所述第一电子设备发送的公钥和第二列向量。
由于第二列向量中的标签为加密值,可以使得第二电子设备无法获取到各样本的标签,从而保证了第一电子设备中样本的标签的安全性。
步骤203、第二电子设备利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数。
在本申请实施例中,第二电子设备自行利用第j特征对n个样本进行分箱,因此,第二电子设备知道第j特征的各分箱中包括的样本。基于此,第二电子设备可以利用第j特征的各分箱中各样本对应的第二标签,计算得到第j特征的各分箱的正样本数和负样本数。
本申请实施例并不限定各分箱的正样本数和负样本数的确定方式,任何可利用第二标签,确定分箱的正样本数和负样本数的方式均可落入本申请实施例的保护范围之内。
在一些实施例中,所述利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,可包括:
将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
在本实施例中,具体实现时,可以通过公式(7)计算得到第j特征的第t个分箱的负样本数Badt_sum。通过公式(8)计算得到第j特征的第t个分箱的正样本数Goodt_sum
Badt_sum=sum(第t分箱) (7)
Goodt_sum=count(第t分箱)-Badt_sum (8)
其中,sum(第t分箱)表示:第t分箱的所有样本对应的第二标签之和。count(第t分箱)表示:第t分箱包括的样本个数。
步骤204、第二电子设备利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
为防止泄露第二电子设备中特征的分布信息,第二电子设备可以利用公钥对各分箱的编号、正样本数和负样本数进行同态加密,并执行步骤205。
步骤205、第二电子设备向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
相应地,第一电子设备接收所述第二电子设备发送的目标信息。
由于各分箱的编号、正样本数和负样本数均为加密值,可以使得第一电子设备无法反推出第二电子设备中各分箱的实际正样本数和负样本数,以及各分箱对应的具体编号,从而保证了第二电子设备中样本的特征的分布信息的安全性。
步骤206、第一电子设备利用所述私钥解密所述目标信息。
基于同态加密的特点,第一电子设备可以利用私钥解密得到各分箱的编号、正样本数和负样本数。
步骤207、第一电子设备利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
具体实现时,针对各分箱,可以通过公式(1)或公式(9)计算得到各分箱对应的第一WOE值。
WOEt=ln(Badt_sum/BadTotal)-ln(Goodt_sum/GoodTotal) (9)
可见,本申请实施例可以在不泄露第一电子设备的样本的标签,以及第二电子设备的样本的特征的分布信息的前提下,安全实现了第二电子设备的特征的WOE计算,提高了联邦学习的WOE计算的安全性。
需要说明的是,本申请实施例中介绍的多种可选的实施方式,在彼此不冲突的情况下可以相互结合实现,也可以单独实现,对此本申请实施例不作限定。
为方便理解,示例说明如下:
一、基于半同态加密的WOE计算。
在本申请实施例中,可以通过同态加密技术,进行多参与方WOE值计算。通过上述方式,可以在Client不暴露标签信息,Server不暴露特征的分布信息的情况下,共同计算出WOE值,具体计算流程如下:
步骤一、Client生成公私秘钥对,将公钥发送给Server。
具体实现时,Client侧可以采用paillier半同态加密算法生成公私钥对,私钥保留,将公钥发送给Server端。
步骤二、Server接收Client公钥。
步骤三、Client将标签列采用公钥进行加密,形成标签向量,并将标签向量发送给Server。
具体实现时,Client可以通过公钥将样本的标签0,1进行同态加密,形成标签同态加密向量,发送给Server。如图3所示。
步骤四、Server接收Client侧发送的标签向量,根据己方特征的分箱情况以及Client侧的样本index,进行箱内的标签求和。求和完成之后,将分箱标签求和结果利用公钥加密后发送给Client。
Server侧接收Client发送过来的样本标签向量,并根据自己的样本分箱信息,对分箱内的加密向量进行如下计算:
Badt_sum=sum(分箱t)
Goodt_sum=count(分箱t)-Badt_sum
Server通过公钥进行加密分箱编号、Badt_sum与Goodt_sum,并发送至Client端。
步骤五、Client进行结果解密,基于己方样本好坏样本的总和的计算,计算分箱的WOE值。
Client端接收Server发送分箱编号t,Badt_sum与Goodt_sum的信息,进行解密。并计算己方的BadTotal与GoodTotal。分别计算不同分箱t下的WOE值:ln(Badt_sum/BadTotal)-ln(Goodt_sum/GoodTotal),最终得该特征的分箱对应的WOE值。
基于上述WOE计算流程,既可以在不泄露Client侧标签信息,又不泄露Server侧特征的分布情况,即实现两方WOE值计算。
二、基于不经意传输的WOE编码。
在本申请实施例中,可以通过不经意传输将每个样本的特征对应的WOE值以秘密碎片的方式存储于Client和Server两端,用于后续建模阶段。
通过不经意传输技术,可以在对Server侧的特征进行WOE转化时,将每一个样本每一个特征的WOE值转化为秘密共享的一对数据(WOEi,j,Client和WOEi,j,Server),其中i=1,2,...n(n为样本数),j=1,2,...,m(m为Server端的特征数),一些实施例中,可以满足:
WOEi,j=WOEi,j,Client+WOEi,j,Server
Client侧有WOE值,Server有对应特征的分箱信息。
如图4所示,WOE转码流程如下:
步骤一、Client侧为每一个样本、每一个特征生成一个随机数,构成随机矩阵nxm,n为样本数,m为Server包括的样本特征数。针对第i样本,Client侧将各特征的分箱的WOE值加上第i样本的各特征的第一随机数,形成n个kxm(n为样本个数)。并将矩阵组发送给Server侧。
步骤二、Server侧将分箱index作为选择信号,根据样本的分箱index,进行k选1(1to k)的WOE值选择。
步骤三、Client侧保存随机数矩阵,Server侧保存对应选择的WOE值。
在图4中,以一个样本、第j特征进行举例说明。运行1-to-k OT协议,Client作为OT协议中的发送方角色,输入第j特征的k个分箱对应的第二WOE值,Server作为OT协议方的接收方角色,输入该样本所属的分箱编号t。如此,Server侧可以得到该样本的第j特征的第二WOE值为:WOEj,t+r,而Client侧无法获取到该样本的第j特征的第二WOE值,Client侧的输出为:未知(NA)。
在需要运行大量的1-to-k OT协议的场景下,可以使用OT拓展(OT extension)或静默OT(Silent OT)技术来提升OT协议的执行效率。
基于以上的WOE转码流程,Client侧不会暴露标签信息,Server侧不会暴露特征数据的分箱信息,从而安全实现了特征WOE转码。
基于上述实施例提供的联邦学习的WOE编码方法,相应地,本申请还提供了联邦学习的WOE编码装置的具体实现方式。请参见以下实施例。
如图5,本申请实施例提供的联邦学习的WOE编码装置500可包括:
第一获取模块501,用于获取第一矩阵,其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数;
第一生成模块502,用于利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵,其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数;
第一发送模块503,用于向所述第二电子设备发送所述n个第三矩阵;
第二生成模块504,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
在一些实施例中,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及所述第i样本的所述第j特征的第一随机数的和;
所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数的负数。
在一些实施例中,所述装置还包括:
第三生成模块,用于生成秘钥对,所述秘钥对包括公钥和私钥;
第一加密模块,用于利用所述公钥加密第一列向量,得到第二列向量,其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
第二发送模块,用于向所述第二电子设备发送所述公钥和所述第二列向量;
第一接收模块,用于接收所述第二电子设备发送的目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
第一解密模块,用于利用所述私钥解密所述目标信息;
第一确定模块,用于利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
本申请实施例提供的联邦学习的WOE编码装置500能够实现方法实施例中第一电子设备实现的各个过程,为避免重复,这里不再赘述。
如图6,本申请实施例提供的联邦学习的WOE编码装置600可包括:
第二接收模块601,用于接收第一电子设备发送的与n个样本一一对应的n个第三矩阵,其中,所述第三矩阵为k×m矩阵,第i样本对应的第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值;
第二确定模块602,用于将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵,其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
在一些实施例中,所述装置还包括:
第三接收模块,用于接收所述第一电子设备发送的公钥和第二列向量,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
第三确定模块,用于利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数;
第二加密模块,用于利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
第三发送模块,用于向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
在一些实施例中,所述第三确定模块,包括:
第一确定单元,用于将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
第二确定单元,用于将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
本申请实施例提供的联邦学习的WOE编码装置600能够实现方法实施例中第一电子设备实现的各个过程,为避免重复,这里不再赘述。
图7示出了本申请实施例提供的联邦学习的WOE编码的硬件结构图。
在联邦学习的WOE编码设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关容灾设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。
存储器可包括只读存储器(Read-OnlyMemory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的任意一种联邦学习的WOE编码方法。
在一个示例中,联邦学习的WOE编码设备还可包括通信接口707和总线710。其中,如图7所示,处理器701、存储器702、通信接口707通过总线710连接并完成相互间的通信。
通信接口707,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将联邦学习的WOE编码设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的联邦学习的WOE编码方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种联邦学习的WOE编码方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种联邦学习的WOE编码方法,应用于第一电子设备,其特征在于,包括:
获取第一矩阵,其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数;
利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵,其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数;
向所述第二电子设备发送所述n个第三矩阵;
生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
2.根据权利要求1所述的方法,其特征在于,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及所述第i样本的所述第j特征的第一随机数的和;
所述第i样本的所述第j特征对应的第二随机数为所述第i样本的所述第j特征对应的第一随机数的负数。
3.根据权利要求1所述的方法,其特征在于,所述获取第一矩阵,包括:
生成秘钥对,所述秘钥对包括公钥和私钥;
利用所述公钥加密第一列向量,得到第二列向量,其中,所述第一列向量包括与所述n个样本一一对应的n个第一标签,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
向所述第二电子设备发送所述公钥和所述第二列向量;
接收所述第二电子设备发送的目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
利用所述私钥解密所述目标信息;
利用解密后的所述第j特征的k个分箱的正样本数和负样本数,确定与第j特征的k个分箱一一对应的k个第一WOE值。
4.一种联邦学习的WOE编码方法,应用于第二电子设备,其特征在于,包括:
接收第一电子设备发送的与n个样本一一对应的n个第三矩阵,其中,所述第三矩阵为k×m矩阵,第i样本对应的第三矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;
将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵,其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为所述第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
5.根据权利要求4所述的方法,其特征在于,所述接收第一电子设备发送的与n个样本一一对应的n个第三矩阵之前,所述方法还包括:
接收所述第一电子设备发送的公钥和第二列向量,所述第二列向量包括与所述n个样本一一对应的n个第二标签;
利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,得到所述第j特征的k个分箱的正样本数和负样本数,其中,t为小于k的自然数;
利用所述公钥加密所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数;
向所述第一电子设备发送目标信息,所述目标信息包括加密后的所述第j特征的k个分箱的编号,以及所述第j特征的k个分箱的正样本数和负样本数。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第j特征的第t分箱包括的各样本对应的第二标签,确定所述第j特征的第t分箱的正样本数和负样本数,包括:
将所述第j特征的第t分箱包括的各样本对应的第二标签之和,确定为所述第j特征的第t分箱的负样本数;
将目标值减去所述第j特征的第t分箱的负样本数,得到所述第j特征的第t分箱的正样本数,其中,目标值为所述第j特征的第t分箱包括的样本个数。
7.一种联邦学习的WOE编码装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一矩阵,其中,所述第一矩阵为k×m矩阵,所述第一矩阵的第j列包括与第j特征的k个分箱一一对应的k个第一WOE值;所述第j特征的k个分箱为第二电子设备以第j特征对n个样本进行分箱得到的k个分箱,k和n均为大于1的整数,j为小于或等于m的正整数,m为所述第二电子设备包括的样本的特征个数;
第一生成模块,用于利用所述第一矩阵和第二矩阵,生成与所述n个样本一一对应的n个第三矩阵,其中,所述第二矩阵为n×m矩阵,所述第二矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第一随机数;所述第三矩阵为k×m矩阵,第i样本对应的所述第三矩阵的第j列包括与所述第j特征的k个分箱一一对应的k个第二WOE值,所述第j特征的第t分箱对应的第二WOE值由所述第j特征的所述第t分箱对应的第一WOE值,以及第一符号的所述第i样本的所述第j特征的第一随机数得到;i为小于或等于n的整数,t为小于k的自然数;
第一发送模块,用于向所述第二电子设备发送所述n个第三矩阵;
第二生成模块,用于生成第四矩阵,其中,所述第四矩阵为n×m矩阵,所述第四矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二随机数;所述第i样本的所述第j特征对应的第二随机数为第二符号的所述第i样本的所述第j特征对应的第一随机数;所述第一符号与所述第二符号相反。
8.一种联邦学习的WOE编码装置,其特征在于,所述装置包括:
第二接收模块,用于接收第一电子设备发送的与n个样本一一对应的n个第三矩阵,其中,所述第三矩阵为k×m矩阵,第i样本对应的第三矩阵的第j列包括与第j特征的k个分箱一一对应的k个第二WOE值;
第二确定模块,用于将所述第i样本对应的所述第j特征的分箱的第二WOE值,确定为所述第i样本的所述第j特征对应的第二WOE值,得到第五矩阵,其中,所述第五矩阵为n×m矩阵,所述第五矩阵的第j列包括与所述n个样本的所述第j特征一一对应的n个第二WOE值;所述第i样本对应的所述第j特征的分箱为第二电子设备以所述第j特征对所述n个样本进行分箱后,所述第i样本所在的分箱,i为小于或等于n的正整数。
9.一种联邦学习的WOE编码设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1至3中任一项所述的联邦学习的WOE编码方法;或,如权利要求4至6中任一项所述的联邦学习的WOE编码方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1至3中任一项所述的联邦学习的WOE编码方法;或,如权利要求4至6中任一项所述的联邦学习的WOE编码方法。
CN202211682685.3A 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质 Pending CN116244719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211682685.3A CN116244719A (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211682685.3A CN116244719A (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116244719A true CN116244719A (zh) 2023-06-09

Family

ID=86628619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211682685.3A Pending CN116244719A (zh) 2022-12-26 2022-12-26 联邦学习的woe编码方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116244719A (zh)

Similar Documents

Publication Publication Date Title
US20160234010A1 (en) Method and system for homomorphicly randomizing an input
US20140233727A1 (en) Method for secure substring search
JP6413743B2 (ja) 暗号処理装置、暗号処理方法、及び暗号処理プログラム
CN106953722A (zh) 一种全同态加密的密文查询方法和系统
CN107682151B (zh) 一种gost数字签名生成方法及系统
CN110555933A (zh) 电子投票方法、装置、设备及计算机存储介质
KR102154164B1 (ko) 의사 랜덤 시퀀스 생성 방법 및 데이터 스트림의 코딩 또는 디코딩 방법
CN112532383B (zh) 一种基于秘密分享的隐私保护计算方法
CN111555880A (zh) 数据碰撞方法、装置、存储介质及电子设备
CN108549824A (zh) 一种数据脱敏方法及装置
CN107104788B (zh) 终端及其不可抵赖的加密签名方法和装置
Abuhaiba et al. Image encryption using chaotic map and block chaining
CN116244719A (zh) 联邦学习的woe编码方法、装置、设备及存储介质
Charalampidis et al. Text Encryption Based on a Novel One Dimensional Piecewise Chaotic Map
CN114499845B (zh) 多方安全计算的方法、系统、装置、存储介质及设备
CN115659381B (zh) 联邦学习的woe编码方法、装置、设备及存储介质
CN115412246A (zh) 不经意传输方法、装置、设备和存储介质
KR102067065B1 (ko) 전력 분석 및 전자파 분석에 안전한 메시지 랜덤화 기반의 행렬-벡터 곱 연산 장치, 이를 이용한 암호화 장치 및 방법
CN117978388B (zh) 密钥生成的方法、装置、设备、介质及程序产品
CN115037442B (zh) 一种模型效果检测方法、装置、存储介质及设备
RU2580060C1 (ru) Способ шифрования сообщения, представленного в виде многоразрядного двоичного числа
Farooq et al. QuantIoT Novel Quantum Resistant Cryptographic Algorithm for Securing IoT Devices: Challenges and Solution
CN115204320B (zh) 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质
CN112822026B (zh) 数字签名方法、装置及系统
CN118200049B (zh) 一种金融数据的加密方法、加密装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination