CN112861939A - 特征选择方法、设备、可读存储介质及计算机程序产品 - Google Patents

特征选择方法、设备、可读存储介质及计算机程序产品 Download PDF

Info

Publication number
CN112861939A
CN112861939A CN202110105849.5A CN202110105849A CN112861939A CN 112861939 A CN112861939 A CN 112861939A CN 202110105849 A CN202110105849 A CN 202110105849A CN 112861939 A CN112861939 A CN 112861939A
Authority
CN
China
Prior art keywords
sample
feature
global
label
feature selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110105849.5A
Other languages
English (en)
Inventor
谭明超
马国强
吴玙
范涛
魏文斌
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110105849.5A priority Critical patent/CN112861939A/zh
Publication of CN112861939A publication Critical patent/CN112861939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种特征选择方法、设备、可读存储介质及计算机程序产品,所述特征选择方法包括:获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。本申请解决了进行联邦学习时特征选择效果差的技术问题。

Description

特征选择方法、设备、可读存储介质及计算机程序产品
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种特征选择方法、设备、可读存储介质及计算机程序产品。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机技术的不断发展,机器学习模型的应用也越来越广泛,通常在进行建模之前需要进行特征选择,目前,特征选择的方法通常是在本地进行特征分箱后,通过计算IV值来筛选掉区分力差的特征,以达到特征选择的目的,但是,在基于联邦学习的建模场景中,由于需要联合其他参与方的特征或者样本进行建模,若各参与方仅仅在本地进行特征选择,则将导致特征选择获得的样本特征并不适用于联邦学习建模过程,也即,特征选择对联邦学习建模的贡献度较低,特征选择的效果不佳。
发明内容
本申请的主要目的在于提供一种特征选择方法、设备、可读存储介质及计算机程序产品,旨在解决现有技术中进行联邦学习时特征选择效果差的技术问题。
为实现上述目的,本申请提供一种特征选择方法,所述特征选择方法应用于第一设备,所述特征选择方法包括:
获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;
接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;
对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;
将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。
为实现上述目的,本申请还提供一种特征选择方法,所述特征选择方法应用于第二设备,所述特征选择方法包括:
获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至第一设备,以供所述第一设备基于各所述第二设备发送的所述样本标签数据、通过横向联邦学习生成的样本分箱结果以及预设公共样本ID,生成聚合全局标签统计结果;
接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果。
为实现上述目的,本申请还提供一种特征选择方法,所述特征选择方法应用于横向联邦服务器,所述特征选择方法包括:
接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果。
本申请还提供一种特征选择装置,所述特征选择装置为虚拟装置,且所述特征选择装置应用于第一设备,所述特征选择装置包括:
特征分箱模块,用于获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;
标签统计模块,用于接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;
聚合模块,用于对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;
发送模块,用于将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。
为实现上述目的,本申请还提供一种特征选择装置,所述特征选择装置为虚拟装置,且所述特征选择装置应用于第二设备,所述特征选择装置包括:
联邦模块,用于获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至第一设备,以供所述第一设备基于各所述第二设备发送的所述样本标签数据、通过横向联邦学习生成的样本分箱结果以及预设公共样本ID,生成聚合全局标签统计结果;
特征选择模块,用于接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果。
为实现上述目的,本申请还提供一种特征选择装置,所述特征选择装置为虚拟装置,且所述特征选择装置应用于横向联邦服务器,所述特征选择装置包括:
第一确定模块,用于接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收模块,用于接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
第二确定模块,用于基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果。
本申请还提供一种特征选择设备,所述特征选择设备为实体设备,所述特征选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述特征选择方法的程序,所述特征选择方法的程序被处理器执行时可实现如上述的特征选择方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现特征选择方法的程序,所述特征选择方法的程序被处理器执行时实现如上述的特征选择方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的特征选择方法的步骤。
本申请提供了一种特征选择方法、设备、可读存储介质及计算机程序产品,相比于现有技术采用的在本地进行特征分箱后,通过计算IV值来筛选掉区分力差的特征,以达到特征选择的目的的技术手段,本申请首先获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果,进而实现了基于横向联邦学习进行特征分箱的目的,进一步地,接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果,并对各所述全局标签统计结果进行聚合,获得聚合标签统计结果,进而实现了以纵向联邦学习的方式聚合各第二设备的样本标签数据的全局标签统计结果的目的,进而将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行特征选择流程,即可实现结合横向联邦学习和纵向联邦学习进行特征选择的目的,充分利用了横向联邦学习的样本扩展和纵向联邦学习的特征扩展的特性,使得可基于样本数量与特征数量更多的数据信息进行特征选择,进而提升了特征选择的准确性,使得特征选择的结果可同时适用于横向联邦学习场景和纵向联邦学习场景,所以,克服了现有技术中各参与方仅仅在本地进行特征选择,导致特征选择获得的样本特征不适用于联邦学习建模过程,进而导致特征选择的效果不佳的技术缺陷,所以,提升了进行联邦学习时特征选择的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请特征选择方法第一实施例的流程示意图;
图2为本申请特征选择方法第二实施例的流程示意图;
图3为本申请特征选择方法第三实施例的流程示意图;
图4为本申请特征选择方法第四实施例的流程示意图;
图5为本申请实施例中特征选择方法涉及的硬件运行环境的设备结构示意图;
图6为本申请实施例方案涉及的硬件架构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种特征选择方法,在本申请特征选择方法的第一实施例中,参照图1,所述特征选择方法包括:
步骤S10,获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;
在本实施例中,需要说明的是,所述样本特征为样本具备的特性,例如,年龄特征、视觉特征和尺寸特征等,所述样本特征数据为样本特征的样本特征值组成的向量,所述样本特征数据至少包括样本特征的一个特征值,所述第一设备为横向联邦学习的参与设备之一,同时也为纵向联邦学习的参与设备之一,所述样本分箱结果至少包括一样本分箱。
获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果,具体地,获取样本特征对应的各样本特征值,并通过与各目标参与设备进行横向联邦学习,联合各目标参与设备的第二样本特征数据,对各所述样本特征值进行特征分箱,获得所述样本特征对应的各样本分箱,其中,所述目标参与设备为横向联邦学习的参与设备。
在一种实施方式中,所述通过与各目标参与设备进行横向联邦学习,联合各目标参与设备的第二样本特征数据,对各所述样本特征值进行特征分箱的步骤包括:
对所述样本特征数据进行特征分箱,获得特征分箱点数据,且每一所述目标参与设备对各自的第二样本特征数据进行特征分箱,获得各所述第二样本特征数据的第二特征分箱点数据,进而横向联邦服务器接收第一设备发送的特征分箱点数据和各目标参与设备发送的第二特征分箱数据,并将特征分箱数据与各第二特征分箱数据进行聚合,获得聚合特征分箱数据,进而第一设备接收聚合特征分箱数据之后,基于所述聚合特征分箱数据,对所述样本特征数据进行特征分箱,获得所述样本特征对应的各样本分箱,且各目标参与设备基于接收的聚合特征分箱数据,对各自的第二特征分箱数据进行特征分箱,获得各自的样本分箱结果,其中,所述特征分箱数据至少包括一特征分箱点,其中,所述特征分箱点为样本分箱之间的边界分割的样本特征值,所述第二特征分箱数据至少包括一第二特征分箱点,所述聚合特征分箱数据至少包括一聚合特征分箱点,例如,假设所述第一设备存在特征分箱数据为向量(10,20,30),其中,10、20和30均为特征分箱点,目标参与设备A存在第二特征分箱数据为向量(20,30,40),则所述聚合特征分箱数据为向量(15,25,35)。
步骤S20,接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;
在本实施例中,需要说明的是,所述第二设备为具备样本标签的纵向联邦学习的参与设备,各所述第二设备与第一设备进行纵向联邦学习之前,各所述第二设备与所述第一设备进行样本对齐,所述第一设备和各所述第二设备均获得至少一个公共样本的预设公共样本ID,所述预设公共样本ID为公共样本的身份标识。
接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果,具体地,与各所述第二设备进行样本对齐,获得各预设公共样本ID,以供每一所述第二设备获得各预设公共样本ID,并依据各预设公共样本ID,查询各所述预设公共样本ID对应的公共样本的样本标签,并对各所述样本标签进行同态加密,获得各加密样本标签,进而各所述加密样本标签与各所述预设公共样本ID共同作为样本标签数据,其中,所述样本标签数据中包括各所述加密样本标签与各所述预设公共样本ID之间的一一映射关系,所述样本标签包括正样本标签与负样本标签,且在一种实施方式中,所述正样本标签设置为1,所述负样本标签设置为0,在另一种实施方式中,所述正样本标签设置为向量(1,0),所述负样本标签设置为(0,1),进而第一设备接收各所述第二设备发送的样本标签数据,并对每一所述样本标签数据均执行以下步骤:
基于本地存储的各预设公共样本ID,在所述样本标签数据中查询各每一样本分箱中各公共样本对应的加密样本标签,其中,一所述样本分箱中的公共样本可对应一所述样本标签数据中的一加密样本标签,进而获得每一所述样本分箱对应的各加密样本标签,并对每一所述样本分箱中的加密样本标签进行累加,获得每一所述样本分箱对应的加密样本标签统计值,进而基于各所述加密样本标签统计值,生成所述全局标签统计结果。
其中,所述样本分箱结果至少包括一样本分箱,所述全局标签统计结果至少包括一标签统计值,
所述基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成全局标签统计结果的步骤包括:
步骤S21,基于所述预设公共样本ID,查询各所述样本分箱中特征样本在所述样本标签数据中的样本标签表示值;
在本实施例中,需要说明的是,所述样本标签表示值为同态加密的表示的样本标签的值,例如,假设所述样本标签为正样本标签,设置1进行表示,则所述样本标签表示值为同态加密的1,若设置向量(1,0)进行表示,则所述样本标签表示值为同态加密的(1,0),一所述样本标签表示值对应一公共样本,一所述公共样本具备一所述预设公共样本ID。
步骤S22,分别对各所述样本分箱中特征样本对应的所述样本标签表示值进行累加,获得各所述标签统计值。
在本实施例中,需要说明的是,所述样本标签表示值包括正样本标签表示值和负样本标签表示值,所述正样本标签表示值为同态加密的1,对应的正样本标签为1,所述负样本标签表示值为同态加密的1,对应的负样本标签为0。
分别对各所述样本分箱中特征样本对应的所述样本标签表示值进行累加,获得各所述标签统计值,具体地,对每一所述样本分箱中的加密样本标签进行求和,获得每一所述样本分箱对应的加密样本标签统计值,进而对各所述样本分箱对应的分箱样本数量进行同态加密,获得各加密分箱样本数量,进而计算每一所述样本分箱对应的加密分箱样本数量与对应的加密样本标签统计值之差,获得第二加密样本标签统计值,其中,所述加密样本标签统计值为同态加密的统计样本分箱中具备正样本标签的样本的数量,所述第二加密样本标签统计值为同态加密的统计样本分箱中具备负样本标签的样本的数量,其中,所述标签统计值包括加密样本标签统计值和第二加密样本标签统计值。
在另一种实施方式中,所述样本标签表示值包括正样本标签表示值和负样本标签表示值,所述正样本标签表示值为同态加密的(1,0),对应的正样本标签为1,所述负样本标签表示值为同态加密的(0,1),对应的负样本标签为0,所述分别对各所述样本分箱中特征样本对应的所述样本标签表示值进行累加,获得各所述标签统计值的步骤还包括:
对每一所述样本分箱中的加密样本标签中的相同位置的比特位上的数值进行累加,获得每一所述样本分箱对应的标签统计值,其中,所述相同位置为向量中的比特位的排列位置,例如,假设样本分箱A对应的标签统计值为向量(a,b),进而根据同态加密的规则,a表示该向量的第一个比特位同态加密的1的数量,也即,表示样本分箱A中加密的具备正样本标签的样本的数量,b表示该向量的第二个比特位同态加密的1的数量,也即,表示样本分箱A中加密的具备负样本标签的样本的数量。
步骤S30,对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;
在本实施例中,需要说明的是,所述全局标签统计结果至少包括一样本分箱对应的标签统计值,所述聚合标签统计结果至少包括一样本分箱对应的聚合标签统计值。
对各所述全局标签统计结果进行聚合,获得聚合标签统计结果,具体地,基于预设聚合规则,对每一样本分箱对应的各标签统计值进行聚合,获得各所述样本分箱对应的聚合标签统计值,其中,所述预设聚合规则包括求和以及加权平均等。
步骤S40,将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。
在本实施例中,将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程,具体地,将各所述聚合标签统计值发送至各所述第二设备,进而每一所述第二设备均执行以下步骤:
第二设备对各所述聚合标签统计值进行解密,获得各所述样本分箱对应的正样本数量和负样本数量,进而基于各所述样本分箱对应的正样本数量和对应的负样本数量,计算特征评估值,并判断所述特征评估值是否大于预设特征评估阈值,若是,则保留所述特征评估值对应的特征,若否,则剔除所述特征评估值对应的特征,其中,所述特征评估值包括IV值以及WOE值等,其中,所述IV值的计算公式如下:
Figure BDA0002917370840000101
其中,IVi为所述样本分箱的IV值,IV为所述IV值,pyi为第i个样本分箱中具备预设样本标签的样本数量在所有样本分箱中具备预设样本标签的样本数量中的占比,pni为第i个样本分箱中的样本数量在所有样本分箱对应的样本总数中的占比,其中,所述预设样本标签可以为正样本标签或者负样本标签。
本申请实施例提供了一种特征选择方法,相比于现有技术采用的在本地进行特征分箱后,通过计算IV值来筛选掉区分力差的特征,以达到特征选择的目的的技术手段,本申请实施例首先获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果,进而实现了基于横向联邦学习进行特征分箱的目的,进一步地,接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果,并对各所述全局标签统计结果进行聚合,获得聚合标签统计结果,进而实现了以纵向联邦学习的方式聚合各第二设备的样本标签数据的全局标签统计结果的目的,进而将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行特征选择流程,即可实现结合横向联邦学习和纵向联邦学习进行特征选择的目的,充分利用了横向联邦学习的样本扩展和纵向联邦学习的特征扩展的特性,使得可基于样本数量与特征数量更多的数据信息进行特征选择,进而提升了特征选择的准确性,使得特征选择的结果可同时适用于横向联邦学习场景和纵向联邦学习场景,所以,克服了现有技术中各参与方仅仅在本地进行特征选择,导致特征选择获得的样本特征不适用于联邦学习建模过程,进而导致特征选择的效果不佳的技术缺陷,所以,提升了进行联邦学习时特征选择的效果。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,所述对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果的步骤包括:
步骤S11,获取所述样本特征数据对应的样本特征极值和对应的样本数量,并将所述样本特征极值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器确定全局样本特征极值和全局样本数量;
在本实施例中,需要说明的是,所述样本特征数据为需要进行特征选择的样本特征的特征值组成的样本集合,所述样本数量为所述样本特征数据中样本的数量,所述样本特征极值包括样本特征最大值和样本特征最小值,所述样本特征最小值为所述样本特征数据中各样本对应的特征值中的最小特征值,所述样本特征最大值为所述样本特征数据中各样本对应的特征值中的最大特征值,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为横向联邦学习的所有参与方的样本特征数据中各样本对应的特征值中的最小特征值,所述全局最大值为横向联邦学习的所有参与方的样本特征数据中各样本对应的特征值中的最大特征值,所述全局样本数量为横向联邦学习中所有参与方的样本特征数据的样本的总数。
获取所述样本特征数据对应的样本特征极值和对应的样本数量,并将所述样本特征极值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器确定全局样本特征极值和全局样本数量,具体地,获取样本特征数据对应的样本特征最大值、对应的样本特征最小值以及对应的样本数量,并将所述样本特征最大值、所述样本特征最小值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器接收各所述第二设备发送的所述样本特征最大值、所述样本特征最小值和所述样本数量,并在各所述样本特征最大值和各所述样本特征最小值中选取最大的特征值作为全局最大值,在各所述样本特征最大值和各所述样本特征最小值中选取最小的特征值作为全局最小值,并计算各所述样本数量之和,获得全局样本数量。
步骤S12,接收所述横向联邦服务器发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
在本实施例中,接收所述横向联邦服务器发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量,具体地,接收所述横向联邦服务器发送的所述全局最大值和全局最小值,并基于所述全局最大值和全局最小值以及预设样本分箱比例,计算目标特征值,其中,可选地,所述目标特征值可设置为所述预设样本分箱比例与全局极值和的乘积,其中,所述全局极值和为所述全局最大值以及所述全局最小值之和,进而在所述样本特征数据中统计特征值小于所述目标特征值的样本的数量,获得第一样本数量,在所述样本特征数据中统计特征值大于所述目标特征值的样本的数量,获得第二样本数量。
步骤S13,将所述第一样本数量和所述第二样本数量发送至所述横向联邦服务器,以供所述横向联邦服务器基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点;
在本实施例中,将所述第一样本数量和所述第二样本数量发送至所述横向联邦服务器,以供所述横向联邦服务器基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点,具体地,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本总数与全局样本数量,计算第一全局样本比例,基于所述第二样本总数与全局样本数量,计算第二全局样本比例,进而基于所述第一样本比例与所述第二样本比例,判断分位点分布位置,进而基于所述分位点分布位置,确定目标分位点,其中,横向联邦服务器确定目标分位点的步骤具体可参照步骤B10至B40,在此不再赘述。
步骤S14,接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据进行特征分箱,获得所述样本分箱结果。
在本实施例中,需要说明的是,所述目标分位点为样本分箱之间的边界的特征值。
接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据进行特征分箱,获得所述样本分箱结果,具体地,接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据中的各样本特征值划分预设数量的样本分箱,获得各样本分箱,例如,若所述目标分位点的数量为1,则将样本特征值小于所述目标分位点的各样本作为第一样本分箱,将样本特征值不小于所述目标分位点的各样本作为第二样本分箱。
另外地,需要说明的是,各第一设备与横向联邦服务器之间发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第一设备不会互相暴露各自的特征数据,实现了在联合多方进行特征分箱的同时,对各方的隐私进行保护的目的。
本申请实施例提供了一种基于横向联邦学习进行特征分箱的方法,具体地,获取所述样本特征数据对应的样本特征极值和对应的样本数量,并将所述样本特征极值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器确定全局样本特征极值和全局样本数量,并接收所述横向联邦服务器发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量,并将所述第一样本数量和所述第二样本数量发送至所述横向联邦服务器,以供所述横向联邦服务器基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点,并接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据进行特征分箱,获得所述样本分箱结果,进而实现了基于横向联邦学习进行特征分箱的目的,进一步地,接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果,并对各所述全局标签统计结果进行聚合,获得聚合标签统计结果,进而实现了以纵向联邦学习的方式聚合各第二设备的样本标签数据的全局标签统计结果的目的,进而将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行特征选择流程,即可实现结合横向联邦学习和纵向联邦学习进行特征选择的目的,充分利用了横向联邦学习的样本扩展和纵向联邦学习的特征扩展的特性,使得可基于样本数量与特征数量更多的数据信息进行特征选择,进而提升了特征选择的准确性,使得特征选择的结果可同时适用于横向联邦学习场景和纵向联邦学习场景,所以,为克服现有技术中各参与方仅仅在本地进行特征选择,导致特征选择获得的样本特征不适用于联邦学习建模过程,进而导致特征选择的效果不佳的技术缺陷奠定了基础。
进一步地,参照图3,基于本申请中第一实施例和第二实施例,在本申请的另一实施例中,所述特征选择方法应用于第二设备,所述特征选择方法包括:
步骤A10,获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至各第一设备,以供纵向联邦服务器基于各所述第一设备基于所述样本标签数据、获取的样本分箱结果以及所述预设公共样本ID生成的全局标签统计结果,生成聚合全局标签统计结果;
在本实施例中,获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至各第一设备,以供纵向联邦服务器基于各所述第一设备基于所述样本标签数据、获取的样本分箱结果以及所述预设公共样本ID生成的全局标签统计结果,生成聚合全局标签统计结果,具体地,获取样本特征数据中各样本的样本标签,并对各所述样本标签进行同态加密,获得样本标签数据,将各所述样本标签数据发送至各第一设备,以供纵向联邦服务器基于各所述第一设备基于所述样本标签数据、获取的样本分箱结果以及所述预设公共样本ID生成的全局标签统计结果,生成聚合全局标签统计结果,其中,第一设备生成聚合全局标签统计结果的具体过程可参照步骤S10至步骤S30,在此不再赘述。
其中,所述获取样本特征数据对应的各样本标签数据的步骤包括:
获取所述样本特征数据中各特征样本的样本标签,其中,所述样本标签包括正样本标签和负样本标签;
步骤A11,生成各所述正样本标签对应的第一类型标签表示向量和各所述负样本标签对应的第二类型标签表示向量;
在本实施例中,生成各所述正样本标签对应的第一类型标签表示向量和各所述负样本标签对应的第二类型标签表示向量,具体地,对各所述正样本标签和各所述负样本标签分别进行独热编码,获得各所述正样本标签对应的第一类型标签表示向量和各所述负样本标签对应的第二类型标签表示向量,例如假设所述正样本标签为a,则生成的第一类型标签表示向量为(1,0),其中,1表示存在正样本标签,0表示不存在负样本标签,假设所述负样本标签为b,则生成的第一类型标签表示向量为(0,1),其中,0表示不存在正样本标签,1表示存在负样本标签。
步骤A12,对各所述第一类型标签表示向量和各所述第二类型标签表示向量进行同态加密,获得所述样本标签数据。
在本实施例中,需要说明的是,所述样本标签数据至少包括一样本标签表示值,其中,所述样本标签表示值为同态加密的第一类型标签表示向量或者同态加密的第二类型标签表示向量。
步骤A20,接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果。
在本实施例中,接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果,具体地,接收所述第一设备反馈的所述聚合全局标签统计结果,其中,所述聚合全局标签统计结果至少包括一聚合标签统计值,进而对各所述标签统计值进行解密,获得各所述样本分箱对应的正样本数量和对应的负样本数量,进而基于各所述样本分箱对应的正样本数量和对应的负样本数量,计算特征评估值,并判断所述特征评估值是否大于预设特征评估阈值,若是,则保留所述特征评估值对应的特征,若否,则剔除所述特征评估值对应的特征,进而获得目标特征选择结果。其中,所述目标特征选择结果为选择保留样本特征还是剔除样本特征的决策结果,其中,所述特征评估值包括IV值和WOE值,其中,所述IV值的具体计算方法可参照步骤S40中内容,在此不再赘述。
其中,所述样本分箱结果至少包括一样本分箱,所述聚合全局标签统计结果至少包括一所述样本分箱对应的聚合标签统计值,
所述依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果的步骤包括:
步骤A21,基于各所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量;
在本实施例中,需要说明的是,所述聚合标签统计值为聚合标签统计向量,其中,所述聚合标签统计向量为同态加密的表示样本分箱中正负样本数量的向量。
基于各所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量,具体地,对各所述聚合标签统计向量进行解密,获取正负样本数量表示向量,并基于所述正负样本数量表示向量中各比特位上的数值,确定各所述样本分箱中的正样本数量和负样本数量。
其中,所述聚合标签统计值包括聚合标签统计向量,
所述基于所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量的步骤包括:
步骤A211,对各所述聚合标签统计向量进行解密,获得正负样本数量表示向量;
在本实施例中,需要说明的是,所述聚合标签统计向量处于同态加密状态。
步骤A212,基于各所述正负样本数量表示向量中的第一比特位数值,确定各所述样本分箱对应的所述正样本数量;
在本实施例中,基于各所述正负样本数量表示向量中的第一比特位数值,确定各所述样本分箱对应的所述正样本数量,具体地,获取各所述正负样本数量表示向量中位置排列第一的比特位上的数值,获得各样本分箱对应的第一比特位数值,进而将各所述第一比特位数值为对应的样本分箱的正样本数量,其中,所述位置排列为比特位在向量中的排列,例如,假设向量为(a,b),则数值a所在比特位的位置排列第一,数值b所在比特位的位置排列第二。
步骤A213,基于各所述正负样本数量表示向量中的第二比特位数值,确定各所述样本分箱对应的所述负样本数量。
在本实施例中,基于各所述正负样本数量表示向量中的第二比特位数值,确定各所述样本分箱对应的所述负样本数量,具体地,获取各所述正负样本数量表示向量中位置排列第二的比特位上的数值,获得各样本分箱对应的第二比特位数值,进而将各所述第二比特位数值为对应的样本分箱的负样本数量。
步骤A22,基于各所述正样本数量与各所述负样本数量,计算所述样本特征的特征评估值;
在本实施例中,基于各所述正样本数量与各所述负样本数量,通过IV值计算公式计算所述样本特征的特征评估值,其中,所述IV值的具体计算方法可参照步骤S40中内容,在此不再赘述。
步骤A23,基于所述特征评估值,对所述样本特征进行特征选择,获得所述目标特征选择结果。
在本实施例中,基于所述特征评估值,对所述样本特征进行特征选择,获得所述目标特征选择结果,具体地,若所述特征评估值大于预设特征评估阈值,则保留所述样本特征,否则,剔除所述样本特征,获得目标特征选择结果。
本申请实施例提供了一种特征选择方法,相比于现有技术采用的在本地进行特征分箱后,通过计算IV值来筛选掉区分力差的特征,以达到特征选择的目的的技术手段,本申请实施例获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至第一设备,以供所述第一设备基于各所述第二设备发送的所述样本标签数据、通过横向联邦学习生成的样本分箱结果以及预设公共样本ID,生成聚合全局标签统计结果进而接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果,所以实现了结合横向联邦学习和纵向联邦学习进行特征选择的目的,充分利用了横向联邦学习的样本扩展和纵向联邦学习的特征扩展的特性,使得可基于样本数量与特征数量更多的数据信息进行特征选择,进而提升了特征选择的准确性,使得特征选择的结果可同时适用于横向联邦学习场景和纵向联邦学习场景,所以,克服了现有技术中各参与方仅仅在本地进行特征选择,导致特征选择获得的样本特征不适用于联邦学习建模过程,进而导致特征选择的效果不佳的技术缺陷,所以,提升了进行联邦学习时特征选择的效果。
进一步地,参照图4,基于本申请中第一实施例、第二实施例以及第三实施例,在本申请的另一实施例中,所述特征选择方法应用于横向联邦服务器,所述特征选择方法包括:
步骤B10,接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
在本实施例中,需要说明的是,所述样本特征极值包括样本特征最小值和样本特征最大值,所述样本特征最小值为单个参与方中各样本对应的特征值中的最小特征值,所述样本特征最大值为单个参与方中各样本对应的特征值中的最大特征值,所述样本数量为单个参与方中样本的数量,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为所有参与方中各样本对应的特征值中的最小特征值,所述全局最大值未所有参与方中各样本对应的特征值中的最大特征值,所述全局样本数量为所有参与方中样本的总数,例如,假设参与方A中具有100个样本,样本特征最大值为10,样本特征最小值为1,参与方B中具有50个样本,样本特征最大值为20,样本特征最小值为2,则所述全局最大值为20,所述全局最小值为1,全局样本数量为150。
接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量,具体地,接收各第一设备发送的样本特征最小值、样本特征最大值和样本数量,并对各所述样本特征最小值和各所述样本特征最大值进行聚合,以对各所述样本特征最小值和各所述样本特征最大值进行排序,在各所述样本特征最小值和各所述样本特征最大值中选取全局最小值和全局最大值,并对各所述样本数量进行聚合,以计算各所述样本数量之和,获得所述全局样本数量。
步骤B20,将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
在本实施例中,需要说明的是,所述预设样本分箱比例为预先设置好的特征分箱比例,用于对参与方的样本特征数据中的样本进行样本分箱,例如,假设第一设备A的特征值的取值范围为0至100,所述预设样本分箱比例为50%,则特征值取值范围为0至50的各样本为一个分箱,特征值取值范围为50至100的各样本为另一个分箱。
将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,具体地,将所述全局最大值和所述全局最小值均发送至各所述第二设备,以供所述第二设备计算所述全局最大值和所述全局最小值之和,获得全局特征值极值和,进而计算所述全局特征极值和与所述预设样本分箱比例的乘积,获得目标特征值,进而基于所述目标特征值,统计参与方中待分箱样本集中小于所述目标特征值的特征值对应的样本的数量,获得第一样本数量,并统计参与方中待分箱样本集中大于所述目标特征值的特征值对应的样本的数量,获得第二样本数量,其中,所述第一样本数量为单个参数方中的特征值小于所述目标特征值的样本的数量,所述第二样本数量为单个参数方中的特征值大于所述目标特征值的样本的数量。
步骤B30,接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
在本实施例中,需要说明的是,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各第一设备中对应的目标特征点的相对位置,其中,所述目标分位点为进行特征分箱时需要进行确定的分位点,所述目标特征点为基于所述样本特征极值和所述预设样本分箱比例确定的特征点,例如,假设样本特征最大值为100,样本特征最小值为40,预设样本分箱比例为50%,则所述目标特征点对应的特征值为(100+40)*50%=70,也即,特征值70对应的特征点即为目标特征点。
接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,具体地,接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并对各所述第一样本数量进行聚合,以计算各所述第一样本数量之和,获得第一样本总数,对各所述第二样本数量进行聚合,以计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,基于所述第二样本总数和殴全局样本数量,计算第二全局样本比例,进而基于所述第一全局样本比例和所述第二全局样本比例,判定所述分位点分布位置。
其中,其中,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:
步骤B31,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
在本实施例中,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数,具体地,计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数。
步骤B32,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
在本实施例中,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例,具体地,将所述第一样本总数除以所述全局样本数量,获得第一全局样本比例,并将所述第二样本总数除以所述全局样本数量,获得第二全局样本比例。
步骤B33,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
在本实施例中,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置,具体地,计算所述第一全局样本比例和所述第二全局样本比例之间的比值,获得全局目标样本分布比例,并基于所述全局目标样本分布比例和所述预设样本分箱比例,判断所述分位点分布位置。
其中,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:
步骤B331,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
在本实施例中,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例,具体地,计算所述第一全局样本比例与所述第二全局样本比例的比值,获得所述全局目标样本分布比例。
步骤B332,将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
步骤B333,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
在本实施例中,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的左侧位置,具体地,若所述全局目标样本分布比例小于所述预设样本分箱比例,则所述目标分位点对应的特征值大于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的右侧,进而所述分位点分布位置为所述目标特征点的右侧位置。
步骤B334,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
在本实施例中,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置,具体地,所述全局目标样本分布比例大于所述预设样本分箱比例,则所述目标分位点对应的特征值小于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的左侧,进而所述分位点分布位置为所述目标特征点的左侧位置。
步骤B40,基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果。
在本实施例中,基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果,具体地,获取所述分位点分布位置对应的全局目标样本分布比例,并计算所述全局目标样本分布比例与预设样本分箱比例之间的比例误差值,进而将所述比例误差值与预设比例误差阈值进行比对,若所述比例误差值小于所述预设比例误差阈值,则将所述预设样本分箱比例对应的目标特征点作为所述目标分位点,若所述比例误差值大于或者等于所述预设比例误差阈值,则基于所述分位点分布位置,更新所述全局样本特征极值,并基于更新后的全局样本特征极值,重新计算比例误差值,直至所述比例误差值小于所述预设比例误差阈值,获得所述目标分位点,进而将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果,其中,所述第一设备基于目标分位点进行特征分箱的步骤具体可参照步骤S14,在此不再赘述。
其中,所述基于所述分位点分布位置,确定目标分位点的步骤包括:
步骤B41,基于所述分位点分布位置,确定第二全局样本特征极值;
在本实施例中,基于所述分位点分布位置,确定第二全局样本特征极值,具体地,将所述分位点分布位置发生至各所述第一设备,以供所述第一设备基于所述分位点分布位置,判断所述目标分位点是在所述目标特征点的左侧位置还是在所述目标特征点的右侧位置,若所述目标分位点是在所述目标特征点的左侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最大值,将所述样本特征最小值为第二样本特征最小值,若所述目标分位点是在所述目标特征点的右侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最小值,将所述样本特征最大值为第二样本特征最大值,进而将所述第二样本特征最大值、所述第二样本特征最小值发送至所述横向联邦服务器,进而所述横向联邦服务器在接收各所述第一设备发送的所述第二样本特征最大值、所述第二样本特征最小值和所述参与方样本数量之后,对各所述第二样本特征最大值和各所述第二样本特征最小值进行聚合,确定第二全局最小值和第二全局最大值,也即获得所述第二全局样本特征极值。
步骤B42,基于所述第二全局样本特征极值,通过与各所述第一设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
在本实施例中,需要说明的是,所述预设迭代计算接收条件包括当前全局样本比例与预设样本分箱比例之间的比例误差值小于预设比例误差阈值。
基于所述第二全局样本特征极值,通过与各所述第一设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点,具体地,将所述第二全局最大值和所述第二全局最小值发送至各所述第一设备,以供所述第一设备基于所述第二全局最小值、所述第二全局最大值以及预设第二样本分箱比例,确定第二目标特征值,进而基于所述第二目标特征值,统计特征值小于所述第二目标特征值的样本的数量,获得第三样本数量,并基于所述第二目标特征值,统计特征值大于所述第二目标特征值的样本的数量,获得第四样本数量,进而将所述第三样本数量和所述第四样本数量发送至所述横向联邦服务器,进而横向联邦服务器接收各所述第三样本数量和各所述第四样本数量,并对各所述第三样本数量进行聚合,以计算各所述第三样本数量之和,获得第三样本总数,并对各所述第四样本数量进行聚合,以计算各所述第四样本数量之和,获得第四样本总数,进而计算所述第三样本总数与全局样本数量的比值,获得第三全局样本比例,并计算所述第四样本总数与全局样本数量的比值,获得第四全局样本比例,进而基于所述第三样本比例和所述第四样本比例,计算第二全局目标样本分布比例,并计算所述第二全局目标样本分布比例与预设第二样本分箱比例之间的第二比例误差值,并判断所述第二比例误差值是否小于预设比例误差阈值,若所述第二比例误差值小于预设比例误差阈值,则将所述预设第二样本分箱比例对应的第二目标特征点作为所述目标分位点,若所述第二比例误差值不小于预设比例误差阈值,则基于所述第二全局目标样本分布比例,重新确定分位点分布位置,以重新计算第二比例误差值,直至所述第二比例误差值小于预设比例误差阈值,获得所述目标分位点。
本申请实施例提供了一种确定目标分位点的方法,具体地,接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量,并将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,并接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,并基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果,进而第一设备可实现基于横向联邦学习进行特征分箱的目的,进一步地,第一设备接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果,并对各所述全局标签统计结果进行聚合,获得聚合标签统计结果,即可实现以纵向联邦学习的方式聚合各第二设备的样本标签数据的全局标签统计结果的目的,进而将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行特征选择流程,即可实现结合横向联邦学习和纵向联邦学习进行特征选择的目的,充分利用了横向联邦学习的样本扩展和纵向联邦学习的特征扩展的特性,使得可基于样本数量与特征数量更多的数据信息进行特征选择,进而提升了特征选择的准确性,使得特征选择的结果可同时适用于横向联邦学习场景和纵向联邦学习场景,所以,为克服现有技术中各参与方仅仅在本地进行特征选择,导致特征选择获得的样本特征不适用于联邦学习建模过程,进而导致特征选择的效果不佳的技术缺陷奠定了基础。
参照图5,图5是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图5所示,该特征选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该特征选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图5中示出的特征选择设备结构并不构成对特征选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及特征选择程序。操作系统是管理和控制特征选择设备硬件和软件资源的程序,支持特征选择程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征选择系统中其它硬件和软件之间通信。
在图5所示的特征选择设备中,处理器1001用于执行存储器1005中存储的特征选择程序,实现上述任一项所述的特征选择方法的步骤。
本申请特征选择设备具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
参照图5,图5是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图5所示,该特征选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该特征选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图5中示出的特征选择设备结构并不构成对特征选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及特征选择程序。操作系统是管理和控制特征选择设备硬件和软件资源的程序,支持特征选择程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征选择系统中其它硬件和软件之间通信。
在图5所示的特征选择设备中,处理器1001用于执行存储器1005中存储的特征选择程序,实现上述任一项所述的特征选择方法的步骤。
本申请特征选择设备具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种特征选择装置,所述特征选择装置应用于第一设备,所述特征选择装置包括:
特征分箱模块,用于获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;
标签统计模块,用于接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;
聚合模块,用于对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;
发送模块,用于将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。
可选地,所述标签统计模块还用于:
基于所述预设公共样本ID,查询各所述样本分箱中特征样本在所述样本标签数据中的样本标签表示值;
分别对各所述样本分箱中特征样本对应的所述样本标签表示值进行累加,获得各所述标签统计值。
可选地,所述特征分箱模块还用于:
获取所述样本特征数据对应的样本特征极值和对应的样本数量,并将所述样本特征极值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器确定全局样本特征极值和全局样本数量;
接收所述横向联邦服务器发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
将所述第一样本数量和所述第二样本数量发送至所述横向联邦服务器,以供所述横向联邦服务器基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点;
接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据进行特征分箱,获得所述样本分箱结果。
本申请特征选择装置的具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种特征选择装置,所述特征选择装置应用于第二设备,所述特征选择装置包括:
联邦模块,用于获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至第一设备,以供所述第一设备基于各所述第二设备发送的所述样本标签数据、通过横向联邦学习生成的样本分箱结果以及预设公共样本ID,生成聚合全局标签统计结果;
特征选择模块,用于接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果。
可选地,所述特征选择模块还用于:
基于各所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量;
基于各所述正样本数量与各所述负样本数量,计算所述样本特征的特征评估值;
基于所述特征评估值,对所述样本特征进行特征选择,获得所述目标特征选择结果。
可选地,所述特征选择模块还用于:
对各所述聚合标签统计向量进行解密,获得正负样本数量表示向量;
基于各所述正负样本数量表示向量中的第一比特位数值,确定各所述样本分箱对应的所述正样本数量;
基于各所述正负样本数量表示向量中的第二比特位数值,确定各所述样本分箱对应的所述负样本数量。
可选地,所述联邦模块还用于:
获取所述样本特征数据中各特征样本的样本标签,其中,所述样本标签包括正样本标签和负样本标签;
生成各所述正样本标签对应的第一类型标签表示向量和各所述负样本标签对应的第二类型标签表示向量;
对各所述第一类型标签表示向量和各所述第二类型标签表示向量进行同态加密,获得所述样本标签数据。
本申请特征选择装置的具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种特征选择装置,所述特征选择装置应用于横向联邦服务器,所述特征选择装置包括:
第一确定模块,用于接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收模块,用于接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
第二确定模块,用于基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果。
本申请特征选择装置的具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的特征选择方法的步骤。
本申请可读存储介质具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种计算机程序产品,且所述计算机程序产品包括有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的特征选择方法的步骤。
本申请计算机程序产品具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (11)

1.一种特征选择方法,其特征在于,所述特征选择方法应用于第一设备,所述特征选择方法包括:
获取样本特征对应的样本特征数据,并对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果;
接收各第二设备发送的样本标签数据,并基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成各所述第二设备对应的全局标签统计结果;
对各所述全局标签统计结果进行聚合,获得聚合标签统计结果;
将所述聚合标签统计结果发送至反馈至各所述第二设备,以供各所述第二设备基于所述聚合标签统计结果,执行预设特征选择流程。
2.如权利要求1所述特征选择方法,其特征在于,所述样本分箱结果至少包括一样本分箱,所述全局标签统计结果至少包括一标签统计值,
所述基于各所述样本标签数据、所述样本分箱结果以及预设公共样本ID,生成全局标签统计结果的步骤包括:
基于所述预设公共样本ID,查询各所述样本分箱中特征样本在所述样本标签数据中的样本标签表示值;
分别对各所述样本分箱中特征样本对应的所述样本标签表示值进行累加,获得各所述标签统计值。
3.如权利要求1所述特征选择方法,其特征在于,所述对所述样本特征数据进行基于横向联邦学习的特征分箱,获得样本分箱结果的步骤包括:
获取所述样本特征数据对应的样本特征极值和对应的样本数量,并将所述样本特征极值和所述样本数量发送至横向联邦服务器,以供所述横向联邦服务器确定全局样本特征极值和全局样本数量;
接收所述横向联邦服务器发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
将所述第一样本数量和所述第二样本数量发送至所述横向联邦服务器,以供所述横向联邦服务器基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点;
接收所述横向联邦服务器发送的所述目标分位点,并依据所述目标分位点,对所述样本特征数据进行特征分箱,获得所述样本分箱结果。
4.一种特征选择方法,其特征在于,所述特征选择方法应用于第二设备,所述特征选择方法包括:
获取样本特征数据对应的样本标签数据,并将各所述样本标签数据发送至第一设备,以供所述第一设备基于各所述第二设备发送的所述样本标签数据、通过横向联邦学习生成的样本分箱结果以及预设公共样本ID,生成聚合全局标签统计结果;
接收所述第一设备反馈的所述聚合全局标签统计结果,并依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果。
5.如权利要求4所述特征选择方法,其特征在于,所述样本分箱结果至少包括一样本分箱,所述聚合全局标签统计结果至少包括一所述样本分箱对应的聚合标签统计值,
所述依据所述聚合全局标签统计结果,对所述样本特征数据对应的样本特征执行预设特征选择流程,获得目标特征选择结果的步骤包括:
基于各所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量;
基于各所述正样本数量与各所述负样本数量,计算所述样本特征的特征评估值;
基于所述特征评估值,对所述样本特征进行特征选择,获得所述目标特征选择结果。
6.如权利要求5所述特征选择方法,其特征在于,所述聚合标签统计值包括聚合标签统计向量,
所述基于所述聚合标签统计值,确定各所述样本分箱中的正样本数量和负样本数量的步骤包括:
对各所述聚合标签统计向量进行解密,获得正负样本数量表示向量;
基于各所述正负样本数量表示向量中的第一比特位数值,确定各所述样本分箱对应的所述正样本数量;
基于各所述正负样本数量表示向量中的第二比特位数值,确定各所述样本分箱对应的所述负样本数量。
7.如权利要求4所述特征选择方法,其特征在于,所述获取样本特征数据对应的各样本标签数据的步骤包括:
获取所述样本特征数据中各特征样本的样本标签,其中,所述样本标签包括正样本标签和负样本标签;
生成各所述正样本标签对应的第一类型标签表示向量和各所述负样本标签对应的第二类型标签表示向量;
对各所述第一类型标签表示向量和各所述第二类型标签表示向量进行同态加密,获得所述样本标签数据。
8.一种特征选择方法,其特征在于,所述特征选择方法应用于横向联邦服务器,所述特征选择方法包括:
接收各第一设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第一设备,以供各所述第一设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第一设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
基于所述分位点分布位置,确定目标分位点,并将所述目标分位点反馈至各所述第一设备,以供所述第一设备基于所述目标分位点,对所述样本特征极值对应的样本特征数据进行特征分箱,获得样本分箱结果。
9.一种特征选择设备,其特征在于,所述特征选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述特征选择方法的程序,
所述存储器用于存储实现特征选择方法的程序;
所述处理器用于执行实现所述特征选择方法的程序,以实现如权利要求1至3或4至7或8中任一项所述特征选择方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现特征选择方法的程序,所述实现特征选择方法的程序被处理器执行以实现如权利要求1至3或4至7或8中任一项所述特征选择方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3或4至7或8中任一项所述特征选择方法的步骤。
CN202110105849.5A 2021-01-26 2021-01-26 特征选择方法、设备、可读存储介质及计算机程序产品 Pending CN112861939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110105849.5A CN112861939A (zh) 2021-01-26 2021-01-26 特征选择方法、设备、可读存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110105849.5A CN112861939A (zh) 2021-01-26 2021-01-26 特征选择方法、设备、可读存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN112861939A true CN112861939A (zh) 2021-05-28

Family

ID=76009295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110105849.5A Pending CN112861939A (zh) 2021-01-26 2021-01-26 特征选择方法、设备、可读存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN112861939A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质
WO2023040429A1 (zh) * 2021-09-15 2023-03-23 京东科技信息技术有限公司 用于联邦特征工程的数据处理方法、装置、设备以及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807415A (zh) * 2021-08-30 2021-12-17 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质
WO2023040429A1 (zh) * 2021-09-15 2023-03-23 京东科技信息技术有限公司 用于联邦特征工程的数据处理方法、装置、设备以及介质
CN114401079A (zh) * 2022-03-25 2022-04-26 腾讯科技(深圳)有限公司 多方联合信息价值计算方法、相关设备及存储介质

Similar Documents

Publication Publication Date Title
CN112861939A (zh) 特征选择方法、设备、可读存储介质及计算机程序产品
CN108027830A (zh) 用于自动内容验证的系统和方法
CN102880688B (zh) 一种用于对网页进行评估的方法、装置和设备
CN111325353A (zh) 训练数据集的贡献度计算方法、装置、设备及存储介质
US20220245472A1 (en) Data processing method and apparatus, and non-transitory computer readable storage medium
CN111898765A (zh) 特征分箱方法、装置、设备及可读存储介质
CN111507479B (zh) 特征分箱方法、装置、设备及计算机可读存储介质
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN109377508B (zh) 图像处理方法和装置
CN112785002A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN113627085A (zh) 横向联邦学习建模优化方法、设备、介质及程序产品
CN111402120A (zh) 一种标注图像处理方法及装置
CN112668632B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN110473249A (zh) 一种网页用户界面与设计稿的对比方法、装置及终端设备
CN115049070A (zh) 联邦特征工程数据的筛选方法及装置、设备及存储介质
WO2019056496A1 (zh) 图片复审概率区间生成方法及图片复审判定方法
CN112001452B (zh) 特征选择方法、装置、设备及可读存储介质
CN112541635A (zh) 业务数据统计预测方法、装置、计算机设备及存储介质
CN110245684B (zh) 数据处理方法、电子设备和介质
CN113792892A (zh) 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN113869533A (zh) 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN113259333A (zh) 联邦学习数据压缩方法、系统、终端、服务器及存储介质
CN112527602A (zh) 业务数据统计方法、装置、计算机设备及存储介质
CN112836733A (zh) 特征选择方法、设备、可读存储介质及计算机程序产品
CN107623863B (zh) 算法测试方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination