CN116049909B - 联邦特征工程中的特征筛选方法、装置、设备及存储介质 - Google Patents
联邦特征工程中的特征筛选方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116049909B CN116049909B CN202310042361.1A CN202310042361A CN116049909B CN 116049909 B CN116049909 B CN 116049909B CN 202310042361 A CN202310042361 A CN 202310042361A CN 116049909 B CN116049909 B CN 116049909B
- Authority
- CN
- China
- Prior art keywords
- sample
- intersection
- participant
- slice
- owned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
- G06F21/72—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information in cryptographic circuits
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Storage Device Security (AREA)
Abstract
本申请公开了一种联邦特征工程中的特征筛选方法、装置、设备及存储介质,涉及联邦学习技术领域。包括:与第二参与方执行电路隐私集合求交,得到交集分片,交集分片用于表征第一参与方与第二参与方之间的样本交集情况,且交集分片包括第一参与方拥有的第一交集分片以及第二参与方拥有的第二交集分片;与第二参与方通过安全多方计算,对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,特征指标用于评估待分析样本特征对样本分类的预测能力;基于特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。本申请实施例实现了匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。
Description
技术领域
本申请实施例涉及联邦学习技术领域,特别涉及一种联邦特征工程中的特征筛选方法、装置、设备及存储介质。
背景技术
联邦特征工程是数据在两方或多方手中,通过分布式和隐私保护的方式对数据进行特征分析,以此挑选效果更好的特征进行后续建模的技术。
联邦特征工程可以分为横向联邦特征工程和纵向联邦特征工程。其中,横向是指各参与方拥有不同样本空间但是拥有相同的特征空间,纵向是指各个参与方拥有许多相同的样本空间但是拥有不同的特征空间。
相关技术中,纵向联邦算法获得交集信息后,参与各方均能够获取到交集中的元素,容易导致隐私数据泄露。
发明内容
本申请实施例提供了一种联邦特征工程中的特征筛选方法、装置、设备及存储介质,所述技术方案如下。
一方面,本申请实施例提供了一种联邦学习中的特征筛选方法,所述方法由第一参与方执行,所述方法包括:
与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
另一方面,本申请实施例提供了一种联邦学习中的特征筛选装置,所述装置包括:
电路隐私集合求交模块,用于与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
安全多方计算模块,用于与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
特征筛选模块,用于基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的联邦学习中的特征筛选方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如上述方面所述的联邦学习中的特征筛选方法。
另一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上述方面所述的联邦学习中的特征筛选方法。
本申请实施例中,第一参与方和第二参与方通过电路隐私集合求交的方式,得到指示参与方之间样本交集情况的交集分片,由于第一参与方和第二参与方分别持有交集分片的一部分,因此能够避免求交过程中交集样本信息泄露;后续过程中,参与方之间通过安全多方计算对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,进而基于该特征指标筛选出高价值样本特征用于后续联邦学习,实现匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的实施环境的示意图;
图2示出了本申请一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
图3示出了本申请另一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
图4是图3所示联邦学习中的特征筛选过程的实施示意图;
图5示出了本申请再一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
图6是图5所示联邦学习中的特征筛选过程的实施示意图;
图7是本申请一个示例性实施例提供的联邦学习中的特征筛选装置的结构框图;
图8示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了方便理解,下面对本申请实施例中涉及的名词进行说明。
联邦学习(Federated Learning,FL):由谷歌提出的隐私保护+分布式机器学习技术,用于解决当敏感数据存在多个独立的机构、团体、个人手中时,如何在保护隐私的前提下,在虚拟“聚合”的数据之上共同训练全局模型的问题。
联邦特征工程:当数据在两方或多方手中,通过分布式和隐私保护的方式对数据进行特征分析,以此挑选效果更好的特征进行后续建模。联邦特征功能包括横向联邦特征工程和纵向联邦特征工程,其中,横向是指各参与方拥有不同样本空间但是拥有相同的特征空间,纵向则是指各个参与方拥有许多相同的样本空间但是拥有不同的特征空间。本申请实施例中以纵向联邦特征工程为例进行说明。
WOE(Weight of Evidence,证据权重):是对原始变量的一种编码方式,在风控建模中常被作为一种特征变换。
IV(Information Value,信息值):与WOE密切相关的一个指标,用于反映自变量和应变量之间的相关性,常被用于评估变量的预测能力,进而实现变量筛选(即特征筛选)。
SMPC(Secure Multi-party Computation,安全多方计算):是一种当秘密分布式地掌握在多方手中时,安全求解全局问题的技术。
PSI(Private Set Intersection,隐私集合求交):指参与双方通过密码学方式获得双方数据的交集,且不会暴露交集以外的数据元素的技术。
PSI-Circuit(Private Set Intersection Circuit,电路隐私集合求交):是指参与双方输入集合,最终双方只能得到关于交集的分片信息,即数据是否在交集里的布尔分片值,既得不到交集数据,也得不到非交集数据。通过采用不经意可编程伪随机函数(OPPRF)或是不经意伪随机函数(OPRF)实现。
SS(Secret Sharing,秘密分享):通过将秘密分散到各方,每方得到秘密的一部分(即分片(share)),从而避免密码泄露的问题。其中,当超过一定数量的参与方将分片汇总时秘密可以得到还愿。本申请实施例中涉及的秘密分享方式包括算数秘密分享(Arithmetic Secret Sharing)和布尔秘密分享(Boolean Secret Sharing)。
特征分箱:又称为离散分箱或者离散分段,是一种在特征工程中的数据离散化技术,即将连续的数据划分为多个数据量较少的区间。其中,特征分箱采用的方式包括等宽分箱(将数据分为宽度相同的若干等份)以及等频分箱(按照数据的分布情况将数据分为若干等份,每等份区间内的数据量大致相同)。
相关技术中,在纵向联邦特征工程中,通过采用隐私集合求交方式确定多方之间的交集样本,从而基于交集样本对应的特征数据进行特征筛选和建模。然而,相关技术中确定出的交集样本的样本标识(比如ID)通常处于明文状态,即各方均可以获得样本标识。由于该样本标识可能是手机号、证件号一类的隐私数据,因此可能会导致个人信息泄露。
为了避免联邦特征工程过程中各方交集信息泄露,本申请实施例提供的技术方案中,参与方之间通过电路隐私集合求交方式确定样本交集情况,并分别获取一部分交集分片,避免交集样本的信息泄露。后续进行联邦特征工程时,各个参与方基于各自持有的交集分片,通过安全多方计算方式得到样本特征的特征指标,进而基于该特征指标进行特征筛选,实现匿踪联邦特征工程。
如图1所示,其示出了本申请一个示例性实施例示出的实施环境的示意图。该实施环境中包括:第一参与方设备110和第二参与方设备120。
第一参与方设备110和第二参与方设备120是具有联邦学习需求的计算机设备,其可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一些实施例中,第一参与方设备110和第二参与方设备120属于不同机构、团体或个人,并具有各自的隐私数据。比如,第一参与方设备110为第一金融机构的服务器,存储有第一金融机构下帐号的金融数据,第二参与方设备120为第二金融机构的服务器,存储有第二金融机构下帐号的金融数据。
在一些实施例中,第一参与方设备110和第二参与方设备120拥有部分相同的样本空间,但拥有不同的特征空间。比如,第一参与方设备110和第二参与方设备120中存储部分交集帐号,且第一参与方设备110拥有帐号的A、B特征,第二参与方设备120拥有帐号的C、D特征。
在一些实施例中,样本标签以及待分析样本特征可以位于同一参与方,也可以位于不同参与方。比如,第一参与方设备110同时拥有待分析样本特征和样本标签,或者,第一参与方设备110拥有样本标签,而第二参与方设备120拥有待分析样本特征。
第一参与方设备110和第二参与方设备120在进行联邦学习之前,首先需要通过联邦特征工程对样本进行特征分析,从而筛选出效果较好的特征用于后续建模。本申请实施例中,为了保证各个参与方的隐私,第一参与方设备110和第二参与方设备120均遵循电路隐私集合求交以及安全多方计算协议,并通过电路隐私集合求交和安全多方计算确定出待分析样本特征的特征指标。
在一种可能的应用场景下,本申请实施例提供的方案可以用于金融风控产品中。比如,当金融机构需要与移动支付机构构建用于分析帐号信用评分的联邦模型时,由于金融机构与移动支付机构各自的帐号特征数据需要保密,因此双方在建模前可以采用本申请实施例提供的方案匿踪挑选样本特征,进而基于挑选出的样本特征训练联邦模型,提高联邦模型的模型质量。
需要的说明的是,上述实施例仅以联邦特征工程涉及两个参与方为例进行说明,在其他可能的场景下,本申请实施例提供的方案也可以用于三方甚至以上参与方的联邦特征工程。
图2示出了本申请一个示例性实施例提供的联邦学习中的特征筛选方法的流程图。本实施例以该方法用于图1所示的第一参与方设备(下述实施例简化表述为第一参与方)为例进行说明,该方法包括如下步骤。
步骤201,与第二参与方执行电路隐私集合求交,得到交集分片,交集分片用于表征第一参与方与第二参与方之间的样本交集情况,且交集分片包括第一参与方拥有的第一交集分片以及第二参与方拥有的第二交集分片。
在一些实施例中,为了确定参与方之间的样本交集情况,第一参与方和第二参与方在进行电路隐私集合求交时,至少提供各自拥有样本的样本标识。其中,该电路隐私集合求交可以由第一参与方发起,或者,由第二参与方发起,且电路隐私集合求交的发起方为拥有待分析样本特征的一方。
不同于相关技术中,参与双方通过隐私集合求交均可以获取明文的样本交集情况,本申请实施例中,进行电路隐私集合求交后,第一参与方和第二参与方仅获取部分交集分片,即第一参与方和第二参与方基于各自拥有的交集分片无法知悉实际的交集样本,从而起到保护交集隐私的效果。
步骤203,与第二参与方通过安全多方计算,对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,特征指标用于评估待分析样本特征对样本分类的预测能力。
确定出样本交集情况后,第一参与方与第二参与方进一步通过安全多方计算方式,对各自拥有的交集分片进行联邦特征工程处理,从而确定出交集样本所拥有的待分析样本特征的特征指标。
其中,特征指标越好,表明该待分析样本特征对样本分类的影响越明显(越适合用于样本分类),反之,特征指标越差,表明该待分析样本特征对样本分类的影响越不明显(即不适合用于样本分类)。
在一些实施例中,在风控领域,该特征指标可以包括WOE、IV,本申请实施例对特征指标的具体类型不作限定。
由于需要使用分片进行安全多方计算,因此需要使用分片状态下的函数算子,其中,该函数算子需要参与双方对应的输入,且参与双方在获取到对应输出分片外无法获取其他信息。
在一些实施例中,第一参与方与第二参与方通过安全多方计算得到特征指标分片,当需要得到特征指标明文时,第一参与方与第二参与方之间需要相互提供特征指标分片。
步骤205,基于特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
在一些实施例中,当第一参与方具有特征筛选需求时,即基于特征指标确定待分析样本特征是否满足后续联邦学习需求,若满足则保留,若不满足则滤除。
在一种可能的实施方式中,当通过上述步骤得到待分析样本特征的IV时,第一参与方基于IV所属范围进行特征筛选,其中,IV范围与预测能力的对应关系如表一所示。
表一
IV范围 | 预测能力 |
<0.02 | 几乎没有 |
0.02-0.1 | 弱 |
0.1-0.3 | 中等 |
0.3-0.5 | 强 |
>0.5 | 需确认 |
比如,第一参与方筛选出0.3-0.5这一IV范围内的样本特征用于后续联邦学习。
综上所述,本申请实施例中,第一参与方和第二参与方通过电路隐私集合求交的方式,得到指示参与方之间样本交集情况的交集分片,由于第一参与方和第二参与方分别持有交集分片的一部分,因此能够避免求交过程中交集样本信息泄露;后续过程中,参与方之间通过安全多方计算对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,进而基于该特征指标筛选出高价值样本特征用于后续联邦学习,实现匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。
样本标签和待分析样本特征可能位于同一参与方,也可能位于不同参与方。可选的,拥有待分析样本特征的参与方将作为发起方发起电路隐私集合求交,而另一方则作为接受方参与电路隐私集合求交。
在一些实施例中,在第一参与方具有待分析样本特征,且第一参与方具有样本标签的情况下,第一参与方作为发起方与第二参与方执行电路隐私集合求交,得到交集分片;在第二参与方具有待分析样本特征,且第一参与方具有样本标签的情况下,第一参与方作为接受方与第二参与方执行电路隐私集合求交,得到交集分片。
下面采用示例性的实施例分别对上述两种情况下的特征筛选过程进行说明。
图3示出了本申请另一个示例性实施例提供的联邦学习中的特征筛选方法的流程图。本实施例以该方法用于图1所示的第一参与方设备(下述实施例简化表述为第一参与方)为例进行说明,该方法包括如下步骤。
步骤301,作为发起方并以第一样本标识为输入与第二参与方执行电路隐私集合求交,得到交集分片,其中,第一样本标识为第一参与方所拥有样本的样本标识,第二参与方以第二样本标识为输入执行电路隐私集合求交,第二样本标识为第二参与方所拥有样本的样本标识。
当待分析样本特征以及样本标签均位于第一参与方时,第一参与方作为发起方,基于自身拥有的第一样本标识发起电路隐私集合求交,而第二参与方则作为接受方,基于自身拥有的第二样本标识参与电路隐私集合求交。
在一些实施例中,当第一参与方作为发起方时,第一参与方拥有的第一交集分片以及第二参与方拥有的第二交集分片均为以第一参与方的样本顺序表示是否属于交集的布尔分片。
在一个示意性的例子中,如图4所示,当第一参与方和第二参与方分别为P0和P1,双
方各自拥有的样本为ID0与ID1。当第一参与方具有待分析样本特征以及样本标签时(以二分
类为例),参与双方分别输入各自样本的样本标识ID0与ID1后,第一参与方得到第一交集分
片,第二参与方得到第二交集分片。
步骤302,基于第一参与方拥有的样本标签和第一交集分片,以及第二参与方拥有的第二交集分片进行安全多方计算,得到样本分片,样本分片用于表征交集样本中正负样本数量,样本分片包括第一参与方拥有的第一正样本分片和第一负样本分片,以及第二参与方拥有的第二正样本分片和第二负样本分片。
确定出参与方之间的交集样本后,第一参与方和第二参与方进一步通过安全多方计算方式确定交集中的正负样本数量。由于第一参与方拥有样本标签,且交集分片以第一参与方的样本顺序表示,因此在进行安全多方计算时,第一参与方需要以样本标签以及第一交集分片为输入,而第二参与方则以第二交集分片为输入。
在一些实施例中,该样本标签为二分类标签,即y=1表示为正样本,y=0表示为负样本。
在一种可能的实施方式中,基于分片确定交集中正负样本数量的过程可以包括如下步骤。
1、基于样本标签、第一交集分片以及第二交集分片进行逻辑与运算,得到第一布尔分片,第一布尔分片用于以布尔形式指示交集样本中的正负样本。
可选的,该AND函数为逻辑与运算(两个条件的逻辑与运算),可以通过1-out-of-2OT实现。
在一种可能的实施方式中,第一参与方以样本标签和第一交集分片为输入,第二参与方以第二交集分片为输入进行逻辑与运算(AND函数),得到以布尔形式指示交集样本中正负样本的第一布尔分片。
2、将第一布尔分片转换为算数分片并累加,得到样本分片。
由于通过逻辑与运算得到结果为布尔分片(仅能计算与或非等逻辑电路),因此当
需要统计正负样本数量时,需要将布尔分片转换为算数分片并进行加法运算。在一种可能
的实施方式中,可以通过B2A函数将布尔分片转换为算数分片。对于双方布尔分片,表示将布尔分片转换成算数分片。
在一些实施例中,将第一布尔分片转换为算数分片并累加得到正样本分片的过程
可以表示为,等价于明文公式,
其中,yi = =1表示为正样本,qi = =1表示位于交集中;将第一布尔分片转换为算数分片并
累加得到负样本分片的过程可以表示为,等价于明文公
式,其中,yi = =0表示为负样本。
需要说明的是,通过安全多方计算得到样本分片后,第一参与方获得第一正样本分片和第一负样本分片,而第二参与方则获得第二正样本分片和第二负样本分片,以此避免正负样本数量信息泄露。
示意性的,如图4所示,第一参与方输入样本标签Y和第一交集分片,第二参与
方输入第二交集分片进行安全多方计算后,第一参与方获取第一负样本分片和
第一正样本分片,第二参与方获取第二负样本分片和第二正样本分片。
步骤303,基于第一参与方拥有的第一交集分片和样本分箱信息,以及第二参与方拥有的第二交集分片进行安全多方计算,得到分箱分片,样本分箱信息用于表征正负样本在特征分箱中的分布情况,分箱分片用于表征不同特征分箱中正负样本数量,分箱分片包括第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片。
进一步的,第一参与方对待分析样本特征进行特征分箱(或称为特征分层),从而
确定各个特征分箱中正负样本的数量分布情况。对于发起方的第j个特征,假设该特征可以
分为m个特征分箱,且第k个特征分箱的上下界为(lk,rk],则第k个特征分箱中正样本数量可
以表示为,负样本数量可以表示为。
由于第一参与方拥有样本标签以及待分析样本特征,因此在一种可能的实施方式中,第一参与方可以在本地对待分析样本特征进行特征分箱,并基于样本标签以及特征分箱结果确定样本分箱信息。
关于计算分箱分片的具体方式,在一种可能的实施方式中,本步骤可以包括如下子步骤。
1、基于第一交集分片、样本分箱信息以及第二交集分片进行逻辑与运算,得到第二布尔分片,第二布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本。
确定出样本分箱信息后,第一参与方以第一交集分片、样本分箱信息为输入,第二参与方以第二交集分片为输入,通过安全多方运算进行逻辑与运算(AND函数),得到表征位于交集且特征分箱中正负样本的分布情况的第二布尔分片。
2、将第二布尔分片转换为算数分片并累加,得到分箱分片。
由于通过逻辑与运算得到结果为布尔分片(仅能计算与或非等逻辑电路),因此当需要统计正负样本数量时,需要将布尔分片转换为算数分片并进行加法运算。在一种可能的实施方式中,可以通过B2A函数将布尔分片转换为算数分片。
需要说明的是,通过安全多方计算得到分箱分片后,第一参与方获得第一正样本分箱分片和第一负样本分箱分片,而第二参与方则获得第二正样本分箱分片和第二负样本分箱分片,以此避免特征分箱中正负样本数量信息泄露。
示意性的,如图4所示,第一参与方输入样本分箱信息t1i,k、t0i,k和第一交集分片,第二参与方输入第二交集分片进行安全多方计算后,第一参与方获取第一负样
本分箱分片和第一正样本分箱分片,第二参与方获取第二负样本分箱分片和第二正样本分箱分片。
步骤304,基于样本分片以及分箱分片进行安全多方计算,得到待分析样本特征的特征指标。
通过上述步骤得到样本分片以及分箱分片后,第一参与方和第二参与方可以进一步通过安全多方计算,得到待分析样本特征的特征指标。在一种可能的实施方式中,当需要确定待分析样本特征的WOE和IV时,本步骤可以包括如下子步骤。
1、基于样本分片以及分箱分片进行安全多方计算,得到特征分箱的WOE分片,WOE分片包括第一参与方拥有的第一WOE分片以及第二参与方拥有的第二WOE分片。
不同于基于正负样本总数以及各个特征分箱中正负样本数量直接确定WOE,本实施例中,由于第一参与方和第二参与方仅拥有各自的样本分片和分箱分片,因此双方需要通过安全多方计算方式,得到各个特征分箱的WOE分片,且第一参与方和第二参与方均拥有WOE分片的一部分,以此避免WOE数据泄露。
在一些实施例中,计算第k个特征分箱对应WOE分片的过程可以表示为:
2、基于样本分片、分箱分片以及WOE分片进行安全多方计算,得到待分析样本特征的IV分片,IV分片包括第一参与方拥有的第一IV分片以及第二参与方拥有的第二IV分片。
确定出各个特征分箱对应的WOE分片后,第一参与方和第二参与方将各自拥有的样本分片、分箱分片以及WOE分片为输入进行安全多方计算,得到待分析样本特征的IV分片。其中,为了避免IV数据泄露,第一参与方和第二参与方均拥有IV分片的一部分。
在一些实施例中,计算待分析样本特征j的IV分片的过程可以表示为:
其中,上述公式中参数含义可以参考之前公式,此处不作赘述。
示意性的,如图4所示,第一参与方以拥有的第一负样本分片、第一正样本分
片、第一负样本分箱分片、第一正样本分箱分片以及第一WOE分片为输入,第二参与方以拥有的第二负样本分片、第二正样本分片、第
二负样本分箱分片、第二正样本分箱分片以及第二WOE分片为输入,
通过安全多方计算得到第一IV分片以及第二IV分片。
步骤305,基于特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
图5示出了本申请另一个示例性实施例提供的联邦学习中的特征筛选方法的流程图。本实施例以该方法用于图1所示的第一参与方设备(下述实施例简化表述为第一参与方)为例进行说明,该方法包括如下步骤。
步骤501,作为接受方并以第一样本标识和样本标签为输入与第二参与方执行电路隐私集合求交,得到交集分片以及标签分片,其中,第一样本标识为第一参与方所拥有样本的样本标识,第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,第二样本标识为第二参与方所拥有样本的样本标识,标签分片包括第一参与方拥有的第一标签分片以及第二参与方拥有的第二标签分片。
当样本标签和待分析样本特征不在同一参与方的情况下,拥有待分析样本特征的一方将作为发起方,而拥有样本标签的一方则作为接受方。并且,由于经过电路隐私集合求交后得到的交集分片以按照发起方的样本顺序排序,而接受方并不知悉发起方的样本顺序,因此第一参与方作为接受方进行电路隐私集合求交时,需要同时将样本标签作为输入,从而得到标签分片,其中,该标签分片是按照发起方的样本顺序排序的算数分片。
需要说明的是,通过电路隐私集合求交后,第一参与方和第二参与方均得到标签分片的部分,从而避免标签信息泄露。
在一个示意性的例子中,如图6所示,当第一参与方和第二参与方分别为P0和P1,双
方各自拥有的样本为ID0与ID1。当第一参与方具有样本标签(以二分类为例),第二参与方具
有待分析样本特征时,第二参与方作为发起方输入第二样本标识ID1,第一参与方作为接受
方输入第一样本标识ID0和样本标签Y进行电路隐私集合求交,第一参与方得到第一交集分
片和第一标签分片,第二参与方得到第二交集分片和第二标签分片。
步骤502,基于第一参与方拥有的第一交集分片和第一标签分片,以及第二参与方拥有的第二交集分片和第二标签分片进行安全多方计算,得到样本分片,样本分片用于表征交集样本中正负样本数量,样本分片包括第一参与方拥有的第一正样本分片和第一负样本分片,以及第二参与方拥有的第二正样本分片和第二负样本分片。
由于样本标签和待分析样本特征不在同一方,因此第一参与方无法知悉按照第二参与方样本顺序对应的明文标签,导致无法在本地判断正负样本,而需要双方在各自的标签分片上进行计算。
在一种可能的实施方式中,本步骤可以包括如下子步骤。
1、基于第一标签分片和第二标签分片进行比较运算,得到第三布尔分片,第三布尔分片用于以布尔形式指示正负样本。
对于两方算数分片和常数y,,等价于
明文判断x是否等于y。在一些实施例中,第一参与方法和第二参与方基于各自拥有的第一
标签分片和第二标签分片进行比较运算,得到以布尔形式指示正负样本的第三布尔分片。
其中,比较运算可以采用比较函数(Equ函数)。
2、基于第一交集分片、第二交集分片以及第三布尔分片进行逻辑与运算,得到第四布尔分片,第四布尔分片用于以布尔形式指示交集样本中的正负样本。
进一步的,第一参与方和第二参与方基于样本交集情况以及上一步得到的正负样本情况,通过逻辑与运算得到指示交集中正负样本分布情况的第四布尔分片。
可选的,该AND函数为逻辑与运算(两个条件的逻辑与运算),可以通过1-out-of-2OT实现。
3、将第四布尔分片转换为算数分片并累加,得到样本分片。
由于通过逻辑与运算得到结果为布尔分片(仅能计算与或非等逻辑电路),因此当
需要统计正负样本数量时,需要将布尔分片转换为算数分片并进行加法运算。在一种可能
的实施方式中,可以通过B2A函数将布尔分片转换为算数分片。对于双方布尔分片,表示将布尔分片转换成算数分片。
需要说明的是,通过安全多方计算得到样本分片后,第一参与方获得第一正样本分片和第一负样本分片,而第二参与方则获得第二正样本分片和第二负样本分片,以此避免正负样本数量信息泄露。
示意性的,如图6所示,第一参与方输入第一样本分片和第一交集分片,
第二参与方输入第二样本分片和第二交集分片进行安全多方计算后,第一参与
方获取第一负样本分片和第一正样本分片,第二参与方获取第二负样本分片和第二正样本分片。
步骤503,基于第一参与方拥有的第一交集分片和第一标签分片,以及第二参与方拥有的第二交集分片、第二标签分片以及特征分箱进行安全多方计算,得到分箱分片,分箱分片用于表征不同特征分箱中正负样本数量,分箱分片包括第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片。
与上述步骤类似的,由于待分析样本特征不属于第一参与方,因此第一参与方无法基于样本标签在本地进行特征分箱中正负样本判断,而是需要双方基于标签分片进行特征分箱中正负样本的判断。在一种可能的实施方式中,本步骤可以包括如下子步骤。
1、基于第一标签分片和第二标签分片进行比较运算,得到第三布尔分片,第三布尔分片用于以布尔形式指示正负样本。
与确定样本分片过程类似的,第一参与方法和第二参与方基于各自拥有的第一标
签分片和第二标签分片进行比较运算,得到以布尔形式指示正负样本的第三布尔分片。在
一些实施例中,当样本标签为二分类标签时,判断样本是否为正样本可以表示为,判断样本是否为负样本可以表示为。
2、基于第三布尔分片和特征分箱进行逻辑与运算,得到第五布尔分片,第五布尔分片用于以布尔形式指示特征分箱中的正负样本。
进一步的,第一参与方和第二参与方基于特征分箱情况ti,k=(lk<xi,k≤rk)(由第
二参与方本地计算得到),通过AND函数对第三布尔分片以及特征分箱进行逻辑与运算,得
到指示特征分箱中的正负样本分布情况的第五布尔分片。该过程可以表示为以及。
3、基于第五布尔分片、第一交集分片和第二交集分片进行逻辑与运算,得到第六布尔分片,第六布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本。
进一步的,第一参与方和第二参与方基于样本交集情况,通过AND函数对第五布尔分片、第一交集分片和第二交集分片进行逻辑与运算,得到指示位于交集且特征分箱中正负样本分布情况的第六布尔分片。
4、将第六布尔分片转换为算数分片并累加,得到分箱分片。
由于通过逻辑与运算得到结果为布尔分片(仅能计算与或非等逻辑电路),因此当
需要统计正负样本数量时,需要将布尔分片转换为算数分片并进行加法运算。在一些实施
例中,将第六布尔分片转换为算数分片并累加得到正样本分箱分片的过程可以表示为;将第六布尔分片转换为算数分片并累加得
到负样本分箱分片的过程可以表示为。
示意性的,如图6所示,第一参与方输入第一样本分片和第一交集分片,第二参与方输入第二样本分片和第二交集分片进行安全多方计算后,第一参与方获取第一负样本分箱分片和第一正样本分箱分片,第二参与方获取第二负样本分箱分片和第二正样本分箱分片。
步骤504,基于样本分片以及分箱分片进行安全多方计算,得到待分析样本特征的特征指标。
与上述步骤304的过程类似的,通过上述步骤得到样本分片以及分箱分片后,第一参与方和第二参与方可以进一步通过安全多方计算,得到待分析样本特征的WOE和IV。具体计算特征指标的过程本实施例在此不做赘述。
步骤505,基于特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
本步骤的实施方式可以参考上述步骤305,本实施例在此不做赘述。
上述实施例中,基于样本标签以及待分析样本特征的分布情况,动态确定电路隐私集合求交的发起方和接受方,并在不同情况下,基于标签分片以及交集分片实现特征指标计算,避免交集信息以及标签信息的泄露,保证各种场景下特征工程过程中各方隐私数据的安全性。
图7是本申请一个示例性实施例提供的联邦学习中的特征筛选装置的结构框图,该装置包括:
电路隐私集合求交模块701,用于与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
安全多方计算模块702,用于与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
特征筛选模块703,用于基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
可选的,所述电路隐私集合求交模块701,包括:
第一电路隐私集合求交单元,用于在所述第一参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为发起方与所述第二参与方执行电路隐私集合求交,得到所述交集分片;
第二电路隐私集合求交单元,用于在所述第二参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为接受方与所述第二参与方执行电路隐私集合求交,得到所述交集分片。
可选的,第一电路隐私集合求交单元,用于作为发起方并以第一样本标识为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识。
可选的,所述安全多方计算模块702,用于:
基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;
基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,所述样本分箱信息用于表征正负样本在特征分箱中的分布情况,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;
基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。
可选的,所述安全多方计算模块702,用于:
基于所述样本标签、所述第一交集分片以及所述第二交集分片进行逻辑与运算,得到第一布尔分片,所述第一布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第一布尔分片转换为算数分片并累加,得到所述样本分片。
可选的,所述装置还包括特征分箱模块,用于:
对所述待分析样本特征进行特征分箱;
基于所述样本标签以及特征分箱结果确定所述样本分箱信息。
可选的,所述安全多方计算模块702,用于:
基于所述第一交集分片、所述样本分箱信息以及所述第二交集分片进行逻辑与运算,得到第二布尔分片,所述第二布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;
将所述第二布尔分片转换为算数分片并累加,得到所述分箱分片。
可选的,所述第二电路隐私集合求交单元,用于:
作为接受方并以第一样本标识和样本标签为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片以及标签分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识,所述标签分片包括所述第一参与方拥有的第一标签分片以及所述第二参与方拥有的第二标签分片。
可选的,所述安全多方计算模块702,用于:
基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片和所述第二标签分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;
基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片、所述第二标签分片以及特征分箱进行安全多方计算,得到分箱分片,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;
基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。
可选的,所述安全多方计算模块702,用于:
基于所述第一标签分片和所述第二标签分片进行比较运算,得到第三布尔分片,所述第三布尔分片用于以布尔形式指示正负样本;
基于所述第一交集分片、所述第二交集分片以及所述第三布尔分片进行逻辑与运算,得到第四布尔分片,所述第四布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第四布尔分片转换为算数分片并累加,得到所述样本分片。
可选的,所述安全多方计算模块702,用于:
基于所述第一标签分片和所述第二标签分片进行比较运算,得到第三布尔分片,所述第三布尔分片用于以布尔形式指示正负样本;
基于所述第三布尔分片和特征分箱进行逻辑与运算,得到第五布尔分片,所述第五布尔分片用于以布尔形式指示特征分箱中的正负样本;
基于所述第五布尔分片、所述第一交集分片和所述第二交集分片进行逻辑与运算,得到第六布尔分片,所述第六布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;
将所述第六布尔分片转换为算数分片并累加,得到所述分箱分片。
可选的,所述安全多方计算模块702,用于:
基于所述样本分片以及所述分箱分片进行安全多方计算,得到特征分箱的WOE分片,所述WOE分片包括所述第一参与方拥有的第一WOE分片以及所述第二参与方拥有的第二WOE分片;
基于所述样本分片、所述分箱分片以及所述WOE分片进行安全多方计算,得到所述待分析样本特征的IV分片,所述IV分片包括所述第一参与方拥有的第一IV分片以及所述第二参与方拥有的第二IV分片。
综上所述,本申请实施例中,第一参与方和第二参与方通过电路隐私集合求交的方式,得到指示参与方之间样本交集情况的交集分片,由于第一参与方和第二参与方分别持有交集分片的一部分,因此能够避免求交过程中交集样本信息泄露;后续过程中,参与方之间通过安全多方计算对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,进而基于该特征指标筛选出高价值样本特征用于后续联邦学习,实现匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图,该计算机设备可以为上述实施例中的参与方设备。具体来讲:所述计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器802和只读存储器803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元801执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元801执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述实施例所述的联邦学习中的特征筛选方法。
可选地,该计算机可读存储介质可以包括:ROM、RAM、固态硬盘(SSD,Solid StateDrives)或光盘等。其中,RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例所述的联邦学习中的特征筛选方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种联邦学习中的特征筛选方法,其特征在于,所述方法由第一参与方执行,所述方法包括:
在所述第一参与方具有待分析样本特征,且所述第一参与方具有样本标签的情况下,作为发起方并以第一样本标识为输入与第二参与方执行电路隐私集合求交,得到交集分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识;
在第二参与方具有待分析样本特征,且所述第一参与方具有样本标签的情况下,作为接受方并以第一样本标识和样本标签为输入与第二参与方执行电路隐私集合求交,得到交集分片以及标签分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识,所述标签分片包括所述第一参与方拥有的第一标签分片以及所述第二参与方拥有的第二标签分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习;
其中,所述与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,包括:
在所述第一参与方为发起方的情况下,基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,所述样本分箱信息用于表征正负样本在特征分箱中的分布情况,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标;
在所述第一参与方为接受方的情况下,基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片和所述第二标签分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片、所述第二标签分片以及特征分箱进行安全多方计算,得到分箱分片,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,包括:
基于所述样本标签、所述第一交集分片以及所述第二交集分片进行逻辑与运算,得到第一布尔分片,所述第一布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第一布尔分片转换为算数分片并累加,得到所述样本分片。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片之前,所述方法包括:
对所述待分析样本特征进行特征分箱;
基于所述样本标签以及特征分箱结果确定所述样本分箱信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,包括:
基于所述第一交集分片、所述样本分箱信息以及所述第二交集分片进行逻辑与运算,得到第二布尔分片,所述第二布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;
将所述第二布尔分片转换为算数分片并累加,得到所述分箱分片。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片和所述第二标签分片进行安全多方计算,得到样本分片,包括:
基于所述第一标签分片和所述第二标签分片进行比较运算,得到第三布尔分片,所述第三布尔分片用于以布尔形式指示正负样本;
基于所述第一交集分片、所述第二交集分片以及所述第三布尔分片进行逻辑与运算,得到第四布尔分片,所述第四布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第四布尔分片转换为算数分片并累加,得到所述样本分片。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片、所述第二标签分片以及特征分箱进行安全多方计算,得到分箱分片,包括:
基于所述第一标签分片和所述第二标签分片进行比较运算,得到第三布尔分片,所述第三布尔分片用于以布尔形式指示正负样本;
基于所述第三布尔分片和特征分箱进行逻辑与运算,得到第五布尔分片,所述第五布尔分片用于以布尔形式指示特征分箱中的正负样本;
基于所述第五布尔分片、所述第一交集分片和所述第二交集分片进行逻辑与运算,得到第六布尔分片,所述第六布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;
将所述第六布尔分片转换为算数分片并累加,得到所述分箱分片。
7.根据权利要求1所述的方法,其特征在于,所述基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标,包括:
基于所述样本分片以及所述分箱分片进行安全多方计算,得到特征分箱的WOE分片,所述WOE分片包括所述第一参与方拥有的第一WOE分片以及所述第二参与方拥有的第二WOE分片;
基于所述样本分片、所述分箱分片以及所述WOE分片进行安全多方计算,得到所述待分析样本特征的IV分片,所述IV分片包括所述第一参与方拥有的第一IV分片以及所述第二参与方拥有的第二IV分片。
8.一种联邦学习中的特征筛选装置,其特征在于,所述装置包括:
电路隐私集合求交模块,用于在第一参与方具有待分析样本特征,且所述第一参与方具有样本标签的情况下,作为发起方并以第一样本标识为输入与第二参与方执行电路隐私集合求交,得到交集分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识;
在第二参与方具有待分析样本特征,且第一参与方具有样本标签的情况下,作为接受方并以第一样本标识和样本标签为输入与第二参与方执行电路隐私集合求交,得到交集分片以及标签分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识,所述标签分片包括所述第一参与方拥有的第一标签分片以及所述第二参与方拥有的第二标签分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
安全多方计算模块,用于与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
特征筛选模块,用于基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习;
其中,所述安全多方计算模块,用于在所述第一参与方为发起方的情况下,基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,所述样本分箱信息用于表征正负样本在特征分箱中的分布情况,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标;
在所述第一参与方为接受方的情况下,基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片和所述第二标签分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和所述第一标签分片,以及所述第二参与方拥有的所述第二交集分片、所述第二标签分片以及特征分箱进行安全多方计算,得到分箱分片,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器;所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的联邦学习中的特征筛选方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的联邦学习中的特征筛选方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042361.1A CN116049909B (zh) | 2023-01-28 | 2023-01-28 | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042361.1A CN116049909B (zh) | 2023-01-28 | 2023-01-28 | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049909A CN116049909A (zh) | 2023-05-02 |
CN116049909B true CN116049909B (zh) | 2023-06-27 |
Family
ID=86123439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310042361.1A Active CN116049909B (zh) | 2023-01-28 | 2023-01-28 | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049909B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522102A (zh) * | 2023-05-17 | 2023-08-01 | 联洋国融(北京)科技有限公司 | 基于隐私计算动态调整意外险模型数据库的方法及装置 |
CN116522402B (zh) * | 2023-07-04 | 2023-10-13 | 深圳前海环融联易信息科技服务有限公司 | 基于隐私计算的客户识别方法、装置、设备及介质 |
CN117236420B (zh) * | 2023-11-14 | 2024-03-26 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于数据子集的纵向联邦学习异常数据调试方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699386A (zh) * | 2020-12-22 | 2021-04-23 | 杭州趣链科技有限公司 | 隐私数据交集的获取方法、设备、电子装置和存储介质 |
CN112836239A (zh) * | 2021-02-19 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 保护隐私的双方协同确定目标对象数据的方法及装置 |
CN113505894A (zh) * | 2021-06-02 | 2021-10-15 | 北京航空航天大学 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
CN115049070A (zh) * | 2022-06-06 | 2022-09-13 | 京东科技控股股份有限公司 | 联邦特征工程数据的筛选方法及装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259443B (zh) * | 2020-01-16 | 2022-07-01 | 百融云创科技股份有限公司 | 一种基于psi技术保护联邦学习预测阶段隐私的方法 |
CN113868693A (zh) * | 2021-07-27 | 2021-12-31 | 朱玮 | 一种在反洗钱中对数据进行隐私保护的查询方法及系统 |
CN113807415B (zh) * | 2021-08-30 | 2024-06-18 | 中国再保险(集团)股份有限公司 | 联邦特征选择方法、装置、计算机设备和存储介质 |
CN114492605A (zh) * | 2022-01-12 | 2022-05-13 | 杭州博盾习言科技有限公司 | 联邦学习特征选择方法、装置、系统以及电子设备 |
CN114547643B (zh) * | 2022-01-20 | 2024-04-19 | 华东师范大学 | 一种基于同态加密的线性回归纵向联邦学习方法 |
CN114648130B (zh) * | 2022-02-07 | 2024-04-16 | 北京航空航天大学 | 纵向联邦学习方法、装置、电子设备及存储介质 |
CN114580012A (zh) * | 2022-02-10 | 2022-06-03 | 杭州博盾习言科技有限公司 | 基于隐私安全求交和秘密分享的联邦分组统计量计算方法 |
CN114764417B (zh) * | 2022-06-13 | 2022-08-26 | 深圳致星科技有限公司 | 隐私计算、隐私数据及联邦学习的分散式处理方法及装置 |
CN115242371B (zh) * | 2022-06-15 | 2024-04-19 | 华中科技大学 | 差分隐私保护的集合交集及其基数计算方法、装置及系统 |
CN115438370A (zh) * | 2022-08-05 | 2022-12-06 | 北京富算科技有限公司 | 全匿联邦学习模型的训练方法、设备和存储介质 |
CN115392480A (zh) * | 2022-08-05 | 2022-11-25 | 北京富算科技有限公司 | 安全求交、联邦学习模型的训练方法及系统、设备及介质 |
-
2023
- 2023-01-28 CN CN202310042361.1A patent/CN116049909B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699386A (zh) * | 2020-12-22 | 2021-04-23 | 杭州趣链科技有限公司 | 隐私数据交集的获取方法、设备、电子装置和存储介质 |
CN112836239A (zh) * | 2021-02-19 | 2021-05-25 | 支付宝(杭州)信息技术有限公司 | 保护隐私的双方协同确定目标对象数据的方法及装置 |
CN113505894A (zh) * | 2021-06-02 | 2021-10-15 | 北京航空航天大学 | 纵向联邦学习线性回归和逻辑回归模型训练方法及装置 |
CN115049070A (zh) * | 2022-06-06 | 2022-09-13 | 京东科技控股股份有限公司 | 联邦特征工程数据的筛选方法及装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116049909A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116049909B (zh) | 联邦特征工程中的特征筛选方法、装置、设备及存储介质 | |
Naidu et al. | A Robust medical data sharing application with a collaborative hypothesis and Elastic net regression model | |
Dhieb et al. | A secure ai-driven architecture for automated insurance systems: Fraud detection and risk measurement | |
US8549590B1 (en) | Systems and methods for identity authentication using a social network | |
CN110084377A (zh) | 用于构建决策树的方法和装置 | |
Song et al. | Protection of image ROI using chaos-based encryption and DCNN-based object detection | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN112632045A (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
JP2021515271A (ja) | コンピュータにより実施される投票処理およびシステム | |
CN114611128B (zh) | 一种纵向联邦学习方法、装置、系统、设备及存储介质 | |
CN112529101B (zh) | 分类模型的训练方法、装置、电子设备及存储介质 | |
Karthika et al. | IoT using machine learning security enhancement in video steganography allocation for Raspberry Pi | |
CN114282691A (zh) | 一种联邦学习方法、装置、设备、存储介质及计算机程序 | |
CN114492605A (zh) | 联邦学习特征选择方法、装置、系统以及电子设备 | |
CN112163635B (zh) | 基于深度学习的图像分类方法、装置、服务器及介质 | |
CN113807415B (zh) | 联邦特征选择方法、装置、计算机设备和存储介质 | |
Kumar et al. | Automatic detection of fake profiles in online social networks | |
Zhang et al. | Visual object detection for privacy-preserving federated learning | |
Althati et al. | Scalable Machine Learning Solutions for Heterogeneous Data in Distributed Data Platform | |
Yin et al. | Defending against data poisoning attack in federated learning with non-IID data | |
Gheid et al. | An efficient and privacy-preserving similarity evaluation for big data analytics | |
CN116975018A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN116957112A (zh) | 联合模型的训练方法、装置、设备及存储介质 | |
CN114422105A (zh) | 联合建模方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086095 Country of ref document: HK |