CN113704799A - 分箱数据的处理方法、装置、设备、存储介质及程序产品 - Google Patents

分箱数据的处理方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113704799A
CN113704799A CN202111047842.9A CN202111047842A CN113704799A CN 113704799 A CN113704799 A CN 113704799A CN 202111047842 A CN202111047842 A CN 202111047842A CN 113704799 A CN113704799 A CN 113704799A
Authority
CN
China
Prior art keywords
encrypted
random number
result
box
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111047842.9A
Other languages
English (en)
Inventor
谭明超
马国强
范涛
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111047842.9A priority Critical patent/CN113704799A/zh
Publication of CN113704799A publication Critical patent/CN113704799A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分箱数据的处理方法、装置、设备、存储介质及程序产品,其中方法包括:获取目标变量提供方发送的多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,将相乘结果发送给目标变量提供方,获取目标变量提供方根据相乘结果确定的各个分箱对应的中间结果,根据多个分箱对应的中间结果以及对应的随机数,将加密后的信息价值和/或对证据权重增加随机数后得到的结果发送给目标变量提供方。本发明可以提高求解信息价值和证据权重时的安全性。

Description

分箱数据的处理方法、装置、设备、存储介质及程序产品
技术领域
本发明涉及数据处理技术领域,尤其涉及一种分箱数据的处理方法、装置、设备、存储介质及程序产品。
背景技术
联邦学习能够联合多个机构,在满足用户隐私保护和数据安全的情况下,进行机器学习建模。
在进行联邦学习时,WOE(Weight of Evidence,证据权重)和IV(InformationValue,信息价值)是非常重要的指标,可以用于评估特征变量的预测能力。在实际应用中,一方持有目标变量,另一方持有特征变量,两方交互可以实现WOE和IV的计算,进而完成特征变量的筛选等工作。
但是,若持有目标变量的一方将目标变量进行特殊编码,就有可能从另一方套取特征变量的信息,导致数据泄露,故现有的计算WOE和IV的过程中的安全性较差。
发明内容
本发明的主要目的在于提供一种分箱数据的处理方法、装置、设备、存储介质及程序产品,旨在提高确定证据权重和信息价值时的安全性。
为实现上述目的,本发明提供一种分箱数据的处理方法,应用于特征变量提供方,所述方法包括:
获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量;
根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
可选地,根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,得到多个真实箱,并随机生成多个混淆箱;
根据所述请求信息计算每一分箱对应的加密后的正样本占比和负样本占比;
对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;其中,多个分箱对应的随机数不全相同;
根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
从多个分箱对应的中间结果中,选择所述多个真实箱对应的中间结果;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方。
可选地,在计算证据权重时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数和第二随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数不全相同,所述多个真实箱和所述多个混淆箱的第二随机数不全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括正向对数值和负向对数值之差,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;
将各个真实箱对应的加密后的证据权重与第三随机数相加后再与第四随机数相除,得到加密后的最终结果并发送给目标变量提供方,所述最终结果用于供所述目标变量提供方确定证据权重的变化趋势。
可选地,在计算信息价值时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数、第二随机数和第三随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数、第二随机数、第三随机数均不完全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘,将加密后的正样本占比与负样本占比之差与对应的第三随机数相乘。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差;其中,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,得到加密后的最终结果并发送给目标变量提供方,所述最终结果为所述特征变量的价值信息。
本发明还提供一种分箱数据的处理方法,应用于目标变量提供方,所述方法包括:
向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值;
获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
本发明还提供一种分箱数据的处理装置,应用于特征变量提供方,所述装置包括:
请求信息获取模块,用于获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量;
分箱模块,用于根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果发送模块,用于将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果获取模块,用于获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
本发明还提供一种分箱数据的处理装置,应用于目标变量提供方,所述装置包括:
请求信息发送模块,用于向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果获取模块,用于获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果发送模块,用于将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值;
最终结果获取模块,用于获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
本发明还提供一种分箱数据的处理设备,所述分箱数据的处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分箱数据的处理程序,所述分箱数据的处理程序被所述处理器执行时实现如前述任一项所述的分箱数据的处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有分箱数据的处理程序,所述分箱数据的处理程序被处理器执行时实现如前述任一项所述的分箱数据的处理方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一项所述的分箱数据的处理方法。
本发明提供的分箱数据的处理方法、装置、设备、存储介质及程序产品,可以获取目标变量提供方发送的多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方根据所述相乘结果确定各个分箱对应的中间结果,在获取到所述目标变量提供方发送的各个分箱对应的加密后的中间结果后,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的信息价值和/或对证据权重增加随机数后得到的结果发送给目标变量提供方,从而能够结合随机数以及对数操作计算证据权重的变化趋势和价值信息,有效避免了目标变量提供方通过特殊编码的方式恶意套取特征变量提供方的数据,增加求解信息价值和证据权重时的安全性,提升联邦学习的整体交互安全性。
附图说明
图1为本发明实施例涉及的一种应用场景示意图;
图2为图1所示场景下计算WOE和IV的交互示意图;
图3为图1所示场景下G方恶意攻击时的数据交互示意图;
图4为本发明实施例提供的一种分箱数据的处理方法的流程示意图;
图5为本发明实施例提供的一种WOE变化趋势图;
图6为本发明实施例提供的一种IV分布示意图;
图7为本发明实施例提供的一种增加混淆箱后的交互示意图;
图8为本发明实施例提供的一种计算WOE时的交互示意图;
图9为本发明实施例提供的一种计算IV时的交互示意图;
图10为本发明实施例提供的另一种分箱数据的处理方法的流程示意图;
图11为本发明实施例提供的一种分箱数据的处理装置的结构示意图;
图12为本发明实施例提供的另一种分箱数据的处理装置的结构示意图;
图13为本发明实施例提供的一种分箱数据的处理设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
联邦学习能够在样本数据不出本地的情况下,联合多个机构实现模型的训练。由于样本数据中可能含有多种类型的特征变量,选择哪些特征变量是模型训练的一个关键问题。WOE和IV能够反映特征的预测能力,从而有效衡量其对模型预测结果的贡献,可以用于辅助实现特征变量的筛选。
图1为本发明实施例涉及的一种应用场景示意图。如图1所示,本发明实施例可以应用于金融领域,具体可以用于训练逾期还款预测模型,该模型可以用于预测用户是否会逾期还款,用户对应的特征变量可以有多种,例如存款、月收入、年龄、学历、地区、性别等。
在模型训练之前,可以计算每一种的特征变量对应的WOE和IV,并根据WOE和IV选取至少部分特征变量实现模型训练。
举例来说,假设通过WOE和IV判断出用户的月收入、存款、年龄、学历对是否会逾期有较大影响,而用户所在的地域以及性别对是否会逾期没有太大影响,不同地域的逾期比例比较接近,不同性别的逾期比较也比较接近。那么,可以舍弃性别和地域,将用户的月收入、存款、年龄、学历作为特征变量输入到模型进行训练,从而使得模型有较好的预测能力。
图2为图1所示场景下计算WOE和IV的交互示意图。如图2所示,H方(Host)有数据ID以及对应的特征变量(如月收入、存款、年龄、学历),G方(Guest)有数据ID和对应的目标变量Y(如是否有逾期记录),G方可以将加密后的Y和1-Y发送给H方,H方对数据进行分箱操作后,在每个分箱内对Y和1-Y分别进行求和并发送给G方,图中E表示加密,sum表示求和,G方根据获取到的数据计算WOE和IV。
上述方案虽然能够在加密状态下实现WOE和IV的计算,但是在遇到恶意攻击时可能存在数据泄露风险。例如,当G方发送的目标变量是经过特殊编码的数据时,可以直接套取H方的数据。
图3为图1所示场景下G方恶意攻击时的数据交互示意图。如图3所示,当G方发送的是经过onehot编码(独热编码)的数据,每一数据对应的Y均不相同且每个Y只有一位是有效位,这样,当H方反馈分箱内Y的求和结果后,G方可以根据求和结果确定每个分箱内包含的数据ID。
例如,ID1、ID2、ID3、ID4对应的Y分别为00001、00010、00100、01000,那么,若某一分箱的Y的求和结果为01011,则可以知道ID1、ID2和ID4在该分箱中,再结合后续的WOE等信息,可以构建完整的H方数据,导致数据泄露。
有鉴于此,本发明实施例提供了一种分箱数据的处理方法,H方在获取到Y和1-Y后,可以计算每一分箱对应的正样本占比和负样本占比,并将正样本占比和负样本占比分别与对应的随机数相乘,再将相乘结果发送给G方,G方对所述相乘结果解密后进行对数操作,确定用于计算WOE和IV的中间结果,H方再根据中间结果以及之前相乘时使用的随机数,计算WOE和IV发送给G方。
在增加随机数后,即使Y使用了独热编码,由于随机数的存在,编码被打乱,G方无法根据Y的求和结果直接反推得到每个分箱包含的数据ID,从而能够在WOE和IV的计算过程中,结合随机数以及对数操作的中间结果使G方难以破解H方的数据,有效提高了交互安全性。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图4为本发明实施例提供的一种分箱数据的处理方法的流程示意图。本实施例中方法的执行主体可以为特征变量提供方,例如前述的持有特征变量的H方。如图4所示,所述方法可以包括:
步骤401、获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量。
其中,目标变量提供方可以为持有目标变量的一方,例如前述的G方。目标变量提供方的样本数据包括数据ID以及对应的目标变量Y,特征变量提供方的样本数据包括数据ID以及对应的特征变量,双方可以有相同的数据ID。
表1样本数据示例
Figure BDA0003251665130000081
Figure BDA0003251665130000091
如表1所示,数据ID可以用于标识用户或者用户账户,例如可以为手机号码、身份证号、银行卡号等。
特征变量可以是用于反映用户特征的任意信息如年龄、学历等。目标变量可以是指样本数据的标签,例如1为逾期,0为未逾期。目标变量提供方可以持有表中第1列和第3列的数据,特征变量提供方可以持有表中第1列和第2列的数据。
在计算WOE和IV时,目标变量提供方可以将数据ID的明文、目标变量Y的密文、相反变量(1-Y)的密文发送给特征变量提供方。其中,可以使用同态加密的方式对Y和(1-Y)加密。
步骤402、根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘。
可以理解的是,在一些实施例中,目标变量提供方包含的数据ID与特征变量提供方所包含的数据ID不完全相同,在进行本发明的分箱数据处理前,可以进行样本对齐等操作对数据ID进行筛选。为方便描述,在进行本发明的分箱数据处理时,默认目标变量提供方发起请求时所包含的数据ID与特征变量提供方所包含的数据ID相同。
可选地,可以根据特征变量的范围,对多个数据ID进行分箱操作,例如,可以将年龄划分为五档:20及以下;21-30;31-40;41-50;51及以上。按照这种划分方式对表1中的数据ID进行分箱操作,可以得到五个分箱,序号分别为1至5。
以表1为例,20及以下这一分箱包含ID5、ID8;21-30这一分箱包含ID1、ID6;31-40这一分箱包含ID2、ID9、ID10;41-50这一分箱包含ID3、ID4;51及以上这一分箱包含ID7。
在分箱后,可以针对每个分箱进行计算,得到所述分箱对应的正样本占比和负样本占比。
其中,每一分箱的正样本占比为所述分箱中正样本的数量与全部正样本的总数量的比值,负样本占比为所述分箱中负样本的数量与全部负样本的总数量的比值。所述正样本为对应的目标变量为第一数值的样本数据,所述负样本为对应的目标变量为非第一数值的样本数据。
可选地,第一数值可以为1,所述正样本可以是指Y为1的样本,负样本可以是指Y不为1的样本,即,Y等于0的样本。每一分箱中的正样本的数量可以为该分箱中的数据ID对应的Y的和,全部正样本的总数量可以为全部数据ID对应的Y的和。同理,每一分箱的负样本的数量可以为该分箱中的数据ID对应的(1-Y)的和,全部负样本的总数量可以为全部数据ID对应的(1-Y)的和。
根据加密后的Y和(1-Y),可以得到加密后的正样本占比和加密后的负样本占比,进一步地,可以将加密后的正样本占比和负样本占比分别与对应的随机数相乘,得到加密后的正样本占比与一随机数的相乘结果,以及加密后的负样本占比与另一随机数的相乘结果。
步骤403、将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值。
可选地,目标变量提供方可以将相乘结果进行解密后,通过公式计算中间结果,使得特征变量提供方可以将加密后的中间结果去掉随机数后确定加密后的WOE和IV。
步骤404、获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
在一示例中,可以根据每一分箱对应的中间结果,计算得到该分箱对应的WOE。在计算得到加密后的WOE后,可以将加密后的WOE增加随机数干扰,并将得到的结果发送给目标变量提供方,使得目标变量提供方在解密后仅能得到WOE的变化趋势,而不能直接确定WOE的具体数值,进一步提高了数据安全性。
另一示例中,可以根据多个分箱对应的中间结果,计算特征变量对应的IV。在计算得到加密后的IV后,可以直接将加密后的IV发送给目标变量提供方进行解密,得到明文的IV。IV包含了各个分箱的求和结果,因此仅通过IV很难反推出特征变量提供方的数据。
可选地,目标变量提供方可以展示各种类型的特征变量对应的证据权重的变化趋势和/或信息价值,以使用户根据所述变化趋势和/或信息价值从所述多种类型的特征变量中选择用于进行联邦学习的特征变量。
其中,证据权重的变化趋势可以通过变化趋势图来展现。每种类型的证据权重的变化趋势图中,横轴可以为该类型下各个分箱的序号,纵轴为该类型下各个分箱对应的解密后的最终结果。
图5为本发明实施例提供的一种WOE变化趋势图。如图5所示,对于年龄这一特征变量来说,分箱序号1至5分别代表年龄从小到大的五个区间,纵轴可以为每个分箱对应的WOE与随机数的乘积,与WOE的变化趋势相同。
WOE的变化趋势可以分为多种:单调递增、单调递减、V形变化(先增后减)、无规律变化等。在得到WOE的变化趋势后,可以根据所述变化趋势选择合适的特征变量,例如,可以选择单调递增或者单调递减的特征变量用于模型训练,使得特征变量与模型的输出结果之间呈现一定的变化规律,提高模型的可解释性。
若某一特征变量对应的WOE变化趋势比较平缓,WOE基本不随分箱的不同而变化,说明该特征变量对模型输出结果的影响可能较小,因此可以在模型训练时不考虑或者较少地考虑该特征变量。
图6为本发明实施例提供的一种IV分布示意图。如图6所示,横轴为特征变量,纵轴为每个特征变量对应的IV值,IV值越大,说明对模型输出结果的影响越大,因此可以选择IV较大的前几个特征变量用于模型训练。
在实际应用中,特征变量提供方可以计算WOE和IV中的至少一项并向目标变量提供方发送对应的最终结果,目标变量提供方可以根据IV值选取用于进行模型训练的特征变量,也可以根据WOE变化趋势选取用于进行模型训练的特征变量,也可以结合IV和WOE变化趋势选取特征变量。通过展示IV和WOE变化趋势,能够方便使用者根据IV和WOE变化趋势快速挑选出合适的特征变量构建联邦模型,提高模型训练的整体效率。
本实施例提供的分箱数据的处理方法,可以获取目标变量提供方发送的多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方根据所述相乘结果确定各个分箱对应的中间结果,在获取到所述目标变量提供方发送的各个分箱对应的加密后的中间结果后,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的信息价值和/或对证据权重增加随机数后得到的结果发送给目标变量提供方,从而能够结合随机数以及对数操作计算价值信息和证据权重的变化趋势,有效避免了目标变量提供方通过特殊编码的方式恶意套取特征变量提供方的数据,增加求解信息价值和证据权重时的安全性,提升联邦学习的交互安全性。
在上述实施例提供的技术方案的基础上,还可以增加混淆箱来进一步提高数据安全性。
可选地,根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,并根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,得到多个真实箱,并随机生成多个混淆箱;根据所述请求信息计算每一分箱对应的加密后的正样本占比和负样本占比;对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;其中,多个分箱对应的随机数不全相同。
可以理解的是,本发明实施例中的步骤可以根据实际需要进行顺序调整、合并和删减。例如,在实际应用中,可以先计算正样本占比和负样本占比,再生成随机数,也可以先生成随机数,再计算正样本占比和负样本占比,本发明实施例对此不作限制。
图7为本发明实施例提供的一种增加混淆箱后的交互示意图。如图7所示,目标变量提供方G方和特征变量提供方H方有多个相同的数据ID,G方将多个数据ID以及加密后的Y和加密后的(1-Y)发送给H方,H方根据多个数据ID构建n个真实箱,另外再随机生成k个混淆箱,混淆箱内的数据ID可以是真实的数据ID,但是并不按照分箱规则分布。
对于n+k个分箱中的每一分箱,可以分别计算加密后的正样本占比和负样本占比并发送给G方,每一个分箱反馈的数据在G方看来并无区别,G方不能分辨哪些是真实箱哪些是混淆箱。G方会将n+k个分箱对应的中间结果返回给H方。
相应地,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:从多个分箱对应的中间结果中,选择所述多个真实箱对应的中间结果;根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方。
可选地,H方在向G方发送每个分箱对应的数据时,可以标记每个分箱的序号,在接收到G方反馈的数据时,可以在n+k个分箱中,根据序号确定其中的真实箱,并计算n个真实箱对应的最终结果发送给G方。在发送最终结果时,H方可以对真实箱进行重新编号,以避免透露真实箱的信息。
通过在计算WOE和IV时增加混淆箱,能够使目标变量提供方无法得知收到的多个分箱中,哪些能被真正使用,从而增加了其破译特征变量提供方的数据的难度,进一步增加了WOE和IV求解过程的安全性。
在一种可选的实现方式中,在需要计算WOE时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,可以包括:针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数和第二随机数;对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘。
其中,所述多个真实箱和所述多个混淆箱的第一随机数不全相同,所述多个真实箱和所述多个混淆箱的第二随机数不全相同。
可选地,多个真实箱和多个混淆箱中,各个分箱的第一随机数均不相同,第二随机数也均不相同,且对于每一个分箱来说,该分箱对应的第一随机数和第二随机数也不相同,这样能够最大限度地避免目标变量提供方反推各个分箱对应的数据。
在计算WOE时,通过将正样本占比和负样本占比分别乘以不同的随机数,能够使目标变量提供方难以推测正样本占比和负样本占比的具体数值,进一步提高数据安全性。
相应地,特征变量提供方向目标变量提供方发送的相乘结果可以包括加密后的正样本占比与第一随机数的相乘结果,还包括加密后的负样本占比与第二随机数的相乘结果。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括正向对数值和负向对数值之差,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值。
相应地,根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,可以包括:对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;将各个真实箱对应的加密后的证据权重与第三随机数相加后再与第四随机数相除,得到加密后的最终结果并发送给目标变量提供方,所述最终结果用于供所述目标变量提供方确定证据权重的变化趋势。
可选地,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,可以包括:将所述真实箱对应的中间结果减去第一随机数与第二随机数之比的对数值。
具体来说,WOE等于正样本占比的对数值与负样本占比的对数值之差,由于目标变量提供方返回的中间结果包含了随机数,因此,在中间结果的基础上减去随机数的对数值可以得到正确的WOE,再将加密后的WOE经过第三随机数、第四随机数的干扰后发送给目标变量提供方,使得目标变量提供方得到WOE的变化趋势。
图8为本发明实施例提供的一种计算WOE时的交互示意图。如图8所示,计算WOE可以包括以下步骤:
步骤801、G方向H方发送加密后的Y和1-Y。
具体地,H方可以获取G方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量Y、加密后的相反变量(1-Y)。
步骤802、H方计算每个分箱对应的加密后的A和B。
其中,A为正样本占比,B为负样本占比。可以设置n个真实箱和k个混淆箱,对于n+k个分箱中的每一个分箱均计算对应的A和B。具体可以通过以下公式计算得到:
Figure BDA0003251665130000151
Figure BDA0003251665130000152
其中,Ni为第i个分箱内数据ID的数量,Yj为第j个数据ID对应的Y,(1-Y)j为第j个数据对应的(1-Y),Ytotal为所有数据ID对应的Y的和,(1-Y)total为所有数据ID对应的(1-Y)的和。
步骤803、每个分箱生成两个随机数r1、r2,每个特征变量生成两个随机数r3、r4。
其中,r1、r2、r3、r4可以分别为计算WOE时的第一随机数、第二随机数、第三随机数和第四随机数,各个分箱的r1、r2可以均不相同,各个特征变量的r3、r4也可以均不相同。
步骤804、H方发送加密后的A*r1、B*r2。
其中,对于n+k个分箱中的每一个分箱均发送对应的加密后的A*r1、B*r2。
步骤805、G方计算log(A*r1)-log(B*r2)。
具体地,G方先对加密后的A*r1、B*r2进行解密,得到A*r1、B*r2后,通过对数操作和减法操作计算log(A*r1)-log(B*r2)。
步骤806、G方发送加密后的log(A*r1)-log(B*r2)。
具体地,log(A*r1)-log(B*r2)为计算WOE时对应的中间结果,其中,log(A*r1)为正向对数值,log(B*r2)为负向对数值。在计算得到log(A*r1)-log(B*r2)后,进一步将其加密后发送给H方。
其中,对于真实箱和混淆箱中的每一分箱,都可以返回对应的log(A*r1)-log(B*r2)。
步骤807、H方选取真实箱并计算加密后的log(A*r1)-log(B*r2)-log(r1/r2),得到加密后的WOE。
具体推导过程可以参见公式(3)。
Figure BDA0003251665130000161
步骤808、H方发送加密后的(WOE+r3)/r4。
在其它可选的实现方式中,也可以将加密后的WOE直接除以r4后发送给G方。
步骤809、G方解密后得到WOE的变化趋势。
通过目标变量提供方反馈加密后的正向对数值和负向对数值,并由特征变量提供方根据正向对数值和负向对数值计算最终结果,能够在保障数据安全性的基础上,快速准确地实现WOE的计算,有效提高了WOE计算的效率和准确性。
在一种可选的实现方式中,在需要计算IV时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,可以包括:针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数、第二随机数和第三随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数、第二随机数、第三随机数均不完全相同;对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘,将加密后的正样本占比与负样本占比之差与对应的第三随机数相乘。
其中,所述多个真实箱和所述多个混淆箱的第一随机数不全相同,所述多个真实箱和所述多个混淆箱的第二随机数不全相同,所述多个真实箱和所述多个混淆箱的第三随机数不全相同。
可选地,多个真实箱和多个混淆箱中,各个分箱的第一随机数均不相同,第二随机数也均不相同,第三随机数也均不相同,且对于每一个分箱来说,该分箱对应的第一随机数、第二随机数、第三随机数也不相同,这样能够最大限度地避免目标变量提供方反推各个分箱对应的数据。
特征变量提供方向目标变量提供方发送的相乘结果可以包括:加密后的正样本占比与对应的第一随机数的相乘结果,加密后的负样本占比与对应的第二随机数的相乘结果,加密后的正样本占比与负样本占比之差与对应的第三随机数的相乘结果。
在计算IV时,通过将各个分箱的正样本占比和负样本占比分别乘以不同的随机数,能够有效提高目标变量提供方反推数据的难度,进一步提高数据安全性。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差;其中,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值。
相应地,根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,可以包括:对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,得到加密后的最终结果并发送给目标变量提供方,所述最终结果为所述特征变量的价值信息。
可选地,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,可以包括:计算所述真实箱对应的加密后的正样本占比与加密后的负样本占比之差,得到第一差值,并将所述第一差值与第二差值、第三随机数相乘,得到第一乘积;其中,所述第二差值为第一随机数的对数与第二随机数的对数之差;将所述多个真实箱对应的加密后的中间结果相加,得到第一相加结果,将所述多个真实箱对应的第一乘积相加,得到第二相加结果;将所述第一相加结果与第二相加结果的差值除以第三随机数,从而得到加密后的最终结果并发送给目标变量提供方。
图9为本发明实施例提供的一种计算IV时的交互示意图。如图9所示,计算IV可以包括以下步骤:
步骤901、G方向H方发送加密后的Y和1-Y。
具体的,H方可以获取G方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量Y、加密后的相反变量(1-Y)。
步骤902、H方计算每个分箱对应的加密后的A和B。
其中,A为正样本占比,B为负样本占比。具体计算方法可以参见公式(1)和公式(2)。可以设置n个真实箱和k个混淆箱,对于n+k个分箱中的每一个分箱均计算对应的A和B。
步骤903、每个分箱生成三个随机数r1、r2、r3。
其中,r1、r2、r3可以分别为计算IV时的第一随机数、第二随机数、第三随机数,各个分箱的r1、r2、r3可以均不相同。
需要说明的是,在既计算WOE又计算IV的情况下,WOE对应的第一随机数、第二随机数、第三随机数与IV对应的第一随机数、第二随机数、第三随机数可以相同,也不同。
步骤904、H方发送加密后的A*r1、B*r2、(A-B)*r3。
其中,对于n+k个分箱中的每一个分箱均发送对应的A*r1、B*r2、(A-B)*r3。
步骤905、G方计算IV'。
具体地,G方先对加密后的A*r1、B*r2、(A-B)*r3进行解密,得到A*r1、B*r2、(A-B)*r3后,通过如下公式计算IV'。
IV'=(A-B)*r3(log(A*r1)-log(B*r2)) (4)
其中,IV'为计算IV时对应的中间结果,包括以下三项的乘积:正样本占比与负样本占比之差(A-B)、第三随机数r3、正向对数值和负向对数值之差log(A*r1)-log(B*r2)。
步骤906、G方发送加密后的IV'。
其中,对于真实箱和混淆箱中的每一分箱,都可以返回对应的IV'。
步骤907、H方根据加密后的IV'计算加密后的IV。
具体地,IV'可以通过如下公式进行变形。
Figure BDA0003251665130000181
已知G方返回的数据中某些是混淆箱的数据,可以去掉混淆箱的数据后,对剩余的真实箱进行求和操作。
具体的推导过程如下。
Figure BDA0003251665130000191
由此可得,IV可以通过如下公式计算得到。
Figure BDA0003251665130000192
其中,IV′i、Ai、Bi分别表示第i个真实箱对应的IV'、A、B,n为真实箱的数量。
具体来说,对于多个真实箱中的每一真实箱,可以计算所述真实箱对应的加密后的正样本占比与加密后的负样本占比之差,得到第一差值(Ai-Bi),并将所述第一差值(Ai-Bi)与第二差值(logr1-logr2)、第三随机数r3相乘,得到第一乘积;其中,所述第二差值(logr1-logr2)为第一随机数r1的对数值与第二随机数r2的对数值之差。将所述多个真实箱对应的加密后的中间结果IV′i相加,得到第一相加结果,将所述多个真实箱对应的第一乘积相加,得到第二相加结果。
最后,将所述第一相加结果与第二相加结果的差值除以第三随机数,得到加密后的最终结果,所述最终结果为价值信息IV。
可选地,H方从G方获取到的或者计算得到的数据可以均为加密后的数据,例如,在H方,A、B、logA、logB总以加密的形式存在,当需要将加密后的数据与常数相加或相减时,该常数可以为加密后的常数。
例如,公式中的logr1、logr2可以为加密后的logr1、logr2,由于采用了同态加密的方式,因此加密后相加再解密可以还原出正确的明文数据。可选地,H方可以存储有公钥,G方可以存储有公钥和私钥,H方可以使用公钥对常数进行加密,G方可以使用公钥和私钥进行解密,减少数据泄露风险。
步骤908、H方发送加密后的IV。
步骤909、G方解密后得到IV。
通过目标变量提供方反馈加密后的正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差的乘积,并由特征变量提供方进一步计算最终结果,能够在保障数据安全性的基础上,快速准确地实现IV的计算,有效提高了IV计算的效率和准确性。
在其它可选的实现方式中,也可以不增加混淆箱来实现WOE和IV的计算。分箱操作得到的多个分箱均为真实箱。
可选地,在计算WOE时,将加密后的正样本占比和负样本占比分别与对应的随机数相乘,可以包括:
针对每一分箱,生成所述分箱对应的第一随机数和第二随机数;其中,所述多个分箱的第一随机数不全相同,所述多个分箱的第二随机数不全相同;对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘。
所述中间结果通过对数操作确定,且所述中间结果包括正向对数值和负向对数值之差,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值。
根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:对于每一分箱,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;将各个真实箱对应的加密后的证据权重与第三随机数相加后再与第四随机数相除,得到加密后的最终结果发送给目标变量提供方,所述最终结果用于供所述目标变量提供方确定证据权重的变化趋势。
可选地,在计算IV时,将加密后的正样本占比和负样本占比分别与对应的随机数相乘,可以包括:针对每一分箱,生成所述分箱对应的第一随机数、第二随机数和第三随机数;其中,所述多个分箱的第一随机数、第二随机数、第三随机数均不完全相同;对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘,将加密后的正样本占比与负样本占比之差与对应的第三随机数相乘。
所述中间结果通过对数操作确定,且所述中间结果包括以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差;其中,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值。
根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:对于每一分箱,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,得到加密后的最终结果发送给目标变量提供方,所述最终结果为所述特征变量的价值信息。
可选地,可以计算所述分箱对应的加密后的正样本占比与加密后的负样本占比之差,得到第一差值,并将所述第一差值与第二差值、第三随机数相乘,得到第一乘积;其中,所述第二差值为第一随机数的对数与第二随机数的对数之差;将所述多个分箱对应的加密后的中间结果相加,得到第一相加结果,将所述多个分箱对应的第一乘积相加,得到第二相加结果;将所述第一相加结果与第二相加结果的差值除以第三随机数。
不增加混淆箱时中间结果与最终结果的计算方式与添加混淆箱时的计算方式类似,具体可以参见前述公式,此处不再赘述。
本发明实施例提供的方案可以应用于金融领域,需要训练的模型可以为逾期风险预测模型,用于预测用户是否会逾期还款。特征变量提供方可以存储有多种类型的特征变量,包括但不限于:用户的年龄、学历、性别、职业、爱好、地域、月收入、月支出、存款数额、贷款数额、消费习惯、最近购买或浏览过的商品类型等等。这些特征变量有些与是否会逾期还款有较强的关系,而有些在预测是否会逾期还款时作用不大,可以根据上述各实施例提供的方案,计算各个特征变量的WOE和IV值,并根据WOE和IV值从多种类型的特征变量中选择出用于训练模型的特征变量,以提高模型的性能,提升预测逾期还款的效率和准确率。
在模型训练好后,可以将待分析的用户的特征变量输入到模型中,预测所述用户是否会逾期,或者逾期的可能性大小,进而根据预测结果对用户的贷款额度进行调整,或者采取其它措施。
本发明实施例提供的方案还可以应用于商品推荐领域,需要训练的模型可以为商品推荐模型,用于向用户推荐商品。特征变量提供方可以存储有多种类型的特征变量,包括但不限于:用户的年龄、学历、性别、职业、爱好、地域、月收入、月支出、消费习惯、搜索记录、最近购买或浏览过的商品类型等等。这些特征变量有些与用户购买行为有较强的关系,而有些在预测用户的购买行为时作用不大,可以根据上述各实施例提供的方案,计算各个特征变量的WOE和IV值,并根据WOE和IV值从多种类型的特征变量中选择出用于训练模型的特征变量,以提高模型的性能,提升向用户推荐商品的效果。
当然,本发明实施例提供的方案还可以应用于其它领域,为其它领域的相关模型实现特征变量的挑选,以提升模型性能,此处不再赘述。
图10为本发明实施例提供的另一种分箱数据的处理方法的流程示意图。如图10所示,应用于目标变量提供方,所述方法包括:
步骤1001、向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘。
步骤1002、获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值。
步骤1003、将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值。
步骤1004、获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
可选地,获取到的相乘结果包括多个真实箱的相乘结果和多个混淆箱的相乘结果;其中,所述真实箱是对所述多个数据ID进行分箱操作得到的,所述混淆箱为根据多个数据ID随机生成的;多个分箱对应的随机数不全相同。
可选地,所述中间结果通过对数操作确定。
可选地,针对所述多个真实箱和所述多个混淆箱中的每一分箱,所述相乘结果包括加密后的正样本占比与对应的第一随机数的相乘结果,以及加密后的负样本占比与对应的第二随机数的相乘结果;确定各个分箱对应的中间结果并对中间结果进行加密,包括:
对于每一分箱,计算所述分箱对应的正样本占比与第一随机数的相乘结果的对数值,得到正向对数值,计算所述分箱对应的负样本占比与第二随机数的相乘结果的对数值,得到负向对数值;
对于每一分箱,将所述分箱对应的正向对数值和负向对数值相减,得到所述分箱对应的中间结果并对中间结果进行加密。
可选地,针对所述多个真实箱和所述多个混淆箱中的每一分箱,所述相乘结果包括:加密后的正样本占比与对应的第一随机数的相乘结果,加密后的负样本占比与对应的第二随机数的相乘结果,加密后的正样本占比与负样本占比之差与对应的第三随机数的相乘结果;确定各个分箱对应的中间结果并对中间结果进行加密,包括:
对于每一分箱,计算所述分箱对应的正样本占比与第一随机数的相乘结果的对数值,得到正向对数值,计算所述分箱对应的负样本占比与第二随机数的相乘结果的对数值,得到负向对数值;
对于每一分箱,计算以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差,得到中间结果并对中间结果进行加密。
可选地,从所述特征变量提供方获取到的最终结果包括多种类型的特征变量对应的最终结果;所述方法还包括:
展示各种类型的特征变量对应的证据权重的变化趋势图和/或信息价值,以使用户根据所述变化趋势图和/或信息价值从所述多种类型的特征变量中选择用于进行联邦学习的特征变量;
其中,每种类型的证据权重的变化趋势图中,横轴为该类型下各个分箱的序号,纵轴为该类型下各个分箱对应的解密后的最终结果。
本实施例提供的方法的具体实现原理、过程和有益效果均可以参见前述实施例,此处不再赘述。
图11为本发明实施例提供的一种分箱数据的处理装置的结构示意图。所述分箱数据的处理装置可以应用于特征变量提供方。如图11所示,所述分箱数据的处理装置可以包括:
请求信息获取模块1101,用于获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量;
分箱模块1102,用于根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果发送模块1103,用于将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果获取模块1104,用于获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
可选地,所述分箱模块1102具体用于:
根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,得到多个真实箱,并随机生成多个混淆箱;
根据所述请求信息计算每一分箱对应的加密后的正样本占比和负样本占比;
对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;其中,多个分箱对应的随机数不全相同;
中间结果获取模块1104在根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方时,具体用于:
从多个分箱对应的中间结果中,选择所述多个真实箱对应的中间结果;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方。
可选地,在计算证据权重时,所述分箱模块1102在对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘时,具体用于:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数和第二随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数不全相同,所述多个真实箱和所述多个混淆箱的第二随机数不全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括正向对数值和负向对数值之差,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
所述中间结果获取模块1104在根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方时,具体用于:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;
将各个真实箱对应的加密后的证据权重与第三随机数相加后再与第四随机数相除,得到加密后的最终结果并发送给目标变量提供方,所述最终结果用于供所述目标变量提供方确定证据权重的变化趋势。
可选地,在计算信息价值时,所述分箱模块1102在对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘时,具体用于:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数、第二随机数和第三随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数、第二随机数、第三随机数均不完全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘,将加密后的正样本占比与负样本占比之差与对应的第三随机数相乘。
可选地,所述中间结果通过对数操作确定,且所述中间结果包括以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差;其中,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
所述中间结果获取模块1104在根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方时,具体用于:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,得到加密后的最终结果并发送给目标变量提供方,所述最终结果为所述特征变量的价值信息。
本实施例提供的分箱数据的处理装置,可以用于执行图1至图9所示实施例提供的技术方案,其实现原理和技术效果类似,此处不再赘述。
图12为本发明实施例提供的另一种分箱数据的处理装置的结构示意图。所述分箱数据的处理装置可以应用于目标变量提供方。如图12所示,所述分箱数据的处理装置可以包括:
请求信息发送模块1201,用于向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果获取模块1202,用于获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果发送模块1203,用于将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值;
最终结果获取模块1204,用于获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
可选地,获取到的相乘结果包括多个真实箱的相乘结果和多个混淆箱的相乘结果;其中,所述真实箱是对所述多个数据ID进行分箱操作得到的,所述混淆箱为根据多个数据ID随机生成的;多个分箱对应的随机数不全相同。
可选地,所述中间结果通过对数操作确定。
可选地,针对所述多个真实箱和所述多个混淆箱中的每一分箱,所述相乘结果包括加密后的正样本占比与对应的第一随机数的相乘结果,以及加密后的负样本占比与对应的第二随机数的相乘结果;相乘结果获取模块1202在确定各个分箱对应的中间结果并对中间结果进行加密时,具体用于:
对于每一分箱,计算所述分箱对应的正样本占比与第一随机数的相乘结果的对数值,得到正向对数值,计算所述分箱对应的负样本占比与第二随机数的相乘结果的对数值,得到负向对数值;
对于每一分箱,将所述分箱对应的正向对数值和负向对数值相减,得到所述分箱对应的中间结果并对中间结果进行加密。
可选地,针对所述多个真实箱和所述多个混淆箱中的每一分箱,所述相乘结果包括:加密后的正样本占比与对应的第一随机数的相乘结果,加密后的负样本占比与对应的第二随机数的相乘结果,加密后的正样本占比与负样本占比之差与对应的第三随机数的相乘结果;相乘结果获取模块1202在确定各个分箱对应的中间结果并对中间结果进行加密时,具体用于:
对于每一分箱,计算所述分箱对应的正样本占比与第一随机数的相乘结果的对数值,得到正向对数值,计算所述分箱对应的负样本占比与第二随机数的相乘结果的对数值,得到负向对数值;
对于每一分箱,计算以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差,得到中间结果并对中间结果进行加密。
可选地,从所述特征变量提供方获取到的最终结果包括多种类型的特征变量对应的最终结果;最终结果获取模块1204还用于:
展示各种类型的特征变量对应的证据权重的变化趋势图和/或信息价值,以使用户根据所述变化趋势图和/或信息价值从所述多种类型的特征变量中选择用于进行联邦学习的特征变量;
其中,每种类型的证据权重的变化趋势图中,横轴为该类型下各个分箱的序号,纵轴为该类型下各个分箱对应的解密后的最终结果。
本实施例提供的分箱数据的处理装置,可以用于执行图10所示实施例提供的技术方案,其实现原理和技术效果类似,此处不再赘述。
图13为本发明实施例提供的一种分箱数据的处理设备的结构示意图。如图13所示,所述设备可以包括:存储器1301、处理器1302及存储在所述存储器1301上并可在所述处理器1302上运行的分箱数据的处理程序,所述分箱数据的处理程序被所述处理器1302执行时实现如前述任一实施例所述的分箱数据的处理方法的步骤。
可选地,存储器1301既可以是独立的,也可以跟处理器1302集成在一起。
本实施例提供的设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有分箱数据的处理程序,所述分箱数据的处理程序被处理器执行时实现如前述任一实施例所述的分箱数据的处理方法的步骤。
本发明实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一项所述的分箱数据的处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种分箱数据的处理方法,其特征在于,应用于特征变量提供方,所述方法包括:
获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量;
根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
2.根据权利要求1所述的分箱数据的处理方法,其特征在于,根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,得到多个真实箱,并随机生成多个混淆箱;
根据所述请求信息计算每一分箱对应的加密后的正样本占比和负样本占比;
对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;其中,多个分箱对应的随机数不全相同;
根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
从多个分箱对应的中间结果中,选择所述多个真实箱对应的中间结果;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方。
3.根据权利要求2所述的分箱数据的处理方法,其特征在于,在计算证据权重时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数和第二随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数不全相同,所述多个真实箱和所述多个混淆箱的第二随机数不全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘。
4.根据权利要求3所述的分箱数据的处理方法,其特征在于,所述中间结果通过对数操作确定,且所述中间结果包括正向对数值和负向对数值之差,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;
将各个真实箱对应的加密后的证据权重与第三随机数相加后再与第四随机数相除,得到加密后的最终结果并发送给目标变量提供方,所述最终结果用于供所述目标变量提供方确定证据权重的变化趋势。
5.根据权利要求2所述的分箱数据的处理方法,其特征在于,在计算信息价值时,对每一分箱生成随机数,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘,包括:
针对所述多个真实箱和所述多个混淆箱中的每一分箱,生成所述分箱对应的第一随机数、第二随机数和第三随机数;其中,所述多个真实箱和所述多个混淆箱的第一随机数、第二随机数、第三随机数均不完全相同;
对于每一分箱,将加密后的正样本占比与对应的第一随机数相乘,将加密后的负样本占比与对应的第二随机数相乘,将加密后的正样本占比与负样本占比之差与对应的第三随机数相乘。
6.根据权利要求5所述的分箱数据的处理方法,其特征在于,所述中间结果通过对数操作确定,且所述中间结果包括以下三项的乘积:正样本占比与负样本占比之差、第三随机数、正向对数值和负向对数值之差;其中,所述正向对数值为正样本占比与第一随机数的相乘结果的对数值,所述负向对数值为负样本占比与第二随机数的相乘结果的对数值;
根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,包括:
对于多个真实箱中的每一真实箱,将所述真实箱对应的中间结果消除第一随机数、第二随机数与第三随机数的影响,得到加密后的最终结果并发送给目标变量提供方,所述最终结果为所述特征变量的价值信息。
7.一种分箱数据的处理分箱数据的处理方法,其特征在于,应用于目标变量提供方,所述方法包括:
向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值;
获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
8.一种分箱数据的处理装置,其特征在于,应用于特征变量提供方,所述装置包括:
请求信息获取模块,用于获取目标变量提供方发送的请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量;
分箱模块,用于根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果发送模块,用于将相乘结果发送给所述目标变量提供方,以使所述目标变量提供方对所述相乘结果进行解密后,根据解密后的信息确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果获取模块,用于获取所述目标变量提供方发送的各个分箱对应的加密后的中间结果,根据多个分箱对应的中间结果以及对应的随机数,计算加密后的最终结果并发送给所述目标变量提供方,所述最终结果包括信息价值和/或对证据权重增加随机数后得到的结果,以使所述目标变量提供方对所述最终结果进行解密,得到信息价值,和/或,得到证据权重的变化趋势。
9.一种分箱数据的处理装置,其特征在于,应用于目标变量提供方,所述装置包括:
请求信息发送模块,用于向特征变量提供方发送请求信息,所述请求信息包括多个数据ID以及每个数据ID对应的加密后的目标变量、加密后的相反变量,以使所述特征变量提供方根据本地存储的与所述多个数据ID对应的特征变量,对本地存储的与所述特征变量对应的多个数据ID进行分箱操作,并对每一分箱生成随机数,根据所述请求信息计算每一分箱对应的加密后的正样本占比和加密后的负样本占比,并将加密后的正样本占比和负样本占比分别与对应的随机数相乘;
相乘结果获取模块,用于获取所述特征变量提供方发送的相乘结果,对所述相乘结果进行解密后,确定各个分箱对应的中间结果并对中间结果进行加密;其中,所述中间结果用于计算证据权重和/或信息价值;
中间结果发送模块,用于将各个分箱对应的加密后的中间结果发送给所述特征变量提供方,以使所述特征变量提供方根据多个分箱对应的中间结果,计算加密后的最终结果;其中,所述最终结果包括对证据权重增加随机数后得到的结果和/或信息价值;
最终结果获取模块,用于获取所述特征变量提供方发送的加密后的最终结果,根据所述加密后的最终结果得到证据权重的变化趋势和/或信息价值。
10.一种分箱数据的处理设备,其特征在于,所述分箱数据的处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的分箱数据的处理程序,所述分箱数据的处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的分箱数据的处理方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有分箱数据的处理程序,所述分箱数据的处理程序被处理器执行时实现如权利要求1至7中任一项所述的分箱数据的处理方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的分箱数据的处理方法。
CN202111047842.9A 2021-09-08 2021-09-08 分箱数据的处理方法、装置、设备、存储介质及程序产品 Pending CN113704799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111047842.9A CN113704799A (zh) 2021-09-08 2021-09-08 分箱数据的处理方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111047842.9A CN113704799A (zh) 2021-09-08 2021-09-08 分箱数据的处理方法、装置、设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN113704799A true CN113704799A (zh) 2021-11-26

Family

ID=78659175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111047842.9A Pending CN113704799A (zh) 2021-09-08 2021-09-08 分箱数据的处理方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113704799A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114355853A (zh) * 2021-12-30 2022-04-15 绿盟科技集团股份有限公司 一种工控数据取证方法、装置、电子设备及存储介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN114398671A (zh) * 2021-12-30 2022-04-26 翼健(上海)信息科技有限公司 基于特征工程iv值的隐私计算方法、系统和可读存储介质
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN117278199A (zh) * 2023-10-18 2023-12-22 上海零数众合信息科技有限公司 一种基于同态加密的联邦学习特征筛选方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114355853A (zh) * 2021-12-30 2022-04-15 绿盟科技集团股份有限公司 一种工控数据取证方法、装置、电子设备及存储介质
CN114398671A (zh) * 2021-12-30 2022-04-26 翼健(上海)信息科技有限公司 基于特征工程iv值的隐私计算方法、系统和可读存储介质
CN114355853B (zh) * 2021-12-30 2023-09-19 绿盟科技集团股份有限公司 一种工控数据取证方法、装置、电子设备及存储介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
CN115659381A (zh) * 2022-12-26 2023-01-31 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN115659381B (zh) * 2022-12-26 2023-03-10 北京数牍科技有限公司 联邦学习的woe编码方法、装置、设备及存储介质
CN117278199A (zh) * 2023-10-18 2023-12-22 上海零数众合信息科技有限公司 一种基于同态加密的联邦学习特征筛选方法及系统

Similar Documents

Publication Publication Date Title
CN113704799A (zh) 分箱数据的处理方法、装置、设备、存储介质及程序产品
TWI733106B (zh) 基於模型的預測方法和裝置
US11144918B2 (en) Method, apparatus and electronic device for blockchain transactions
Tang et al. Protecting genomic data analytics in the cloud: state of the art and opportunities
JP5975490B2 (ja) 検索システム、検索方法、およびプログラム
CN113704800A (zh) 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
CN113591133B (zh) 基于差分隐私进行特征处理的方法及装置
EP3230921B1 (en) Multiplicative masking for cryptographic operations
CN111666460A (zh) 基于隐私保护的用户画像生成方法、装置及存储介质
KR20060069452A (ko) 데이터 처리 시스템 및 처리 방법
CN114491590A (zh) 基于联邦因子分解机的同态加密方法、系统、设备及存储介质
Oppermann et al. Secure cloud computing: Reference architecture for measuring instrument under legal control
CN112231561A (zh) 数据处理方法、装置、设备及存储介质
CN112187805B (zh) 押运的加密方法、装置、电子设备及计算机存储介质
CN110443061A (zh) 一种数据加密方法和装置
WO2015186574A1 (ja) 情報システム、統合装置、第一装置、情報処理方法、および記録媒体
CN111401916A (zh) 一种交易风险的识别方法和装置
JPWO2018008547A1 (ja) 秘密計算システム、秘密計算装置、秘密計算方法、およびプログラム
CN114422105A (zh) 联合建模方法、装置、电子设备及存储介质
CN114581216A (zh) 中小微企业贷款风险评估方法、系统、存储设备及终端
US20190004999A1 (en) Information processing device, information processing system, and information processing method, and program
CN114553395A (zh) 一种风控场景下的纵向联邦特征衍生方法
CN112182594A (zh) 一种数据加密方法及装置
Hakuta et al. Cryptographic Technology for Benefiting from Big Data
CN117235801B (zh) 隐私数据的统计方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination