CN111506485A

CN111506485A - 特征分箱方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111506485A
Application number: CN202010296447.3A
Authority: CN
Inventors: 谭明超; 范涛; 马国强; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-07
Anticipated expiration: 2040-04-15
Also published as: CN111506485B

Abstract

本发明公开了一种特征分箱方法、装置、设备及计算机可读存储介质，所述方法包括：接收各所述第二终端发送的待分箱特征的备选分位点，其中，各所述第二终端基于各自的特征数据求取得到各自的所述备选分位点；基于各所述备选分位点确定所述待分箱特征的最终分位点。本发明实现在数据分布在多方，需要多方联合进行特征分箱的场景下，能够在保护数据隐私的情况下完成联合特征分箱，提升了数据安全性，适应于对数据隐私要求严格的应用场景。

Description

特征分箱方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种特征分箱方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

目前，在很多领域需要对特征进行分箱，例如，在机器学习中，特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法，比如，要考察特征与标签之间的相关程度时，iv(Information Value，信息价值)值往往是变量显著性的重要指标，可运用于特征选择之中。

但是，目前，当待分箱特征的特征数据分布存放在多方，需要联合多方进行特征分箱时，各方采用互相发送特征数据的方式来进行联合特征分箱，这种方式会互相暴露各自的数据，若需要对各方的数据进行隐私保护，则无法联合各方进行特征分箱。

发明内容

本发明的主要目的在于提供一种特征分箱方法、装置、设备及计算机可读存储介质，旨在目前联合多方进行特征分箱的方式会暴露各自的数据，无法做到隐私保护的问题。

为实现上述目的，本发明提供一种特征分箱方法，所述特征分箱方法应用于第一终端，所述第一终端与第二终端通信连接，所述特征分箱方法包括以下步骤：

接收各所述第二终端发送的待分箱特征的备选分位点，其中，各所述第二终端基于各自的特征数据求取得到各自的所述备选分位点；

基于各所述备选分位点确定所述待分箱特征的最终分位点。

进一步地，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤包括：

检测各所述备选分位点是否满足预设的数据分布平衡条件；

若各所述备选分位点满足所述数据分布平衡条件，则从各所述备选分位点中选择一个备选分位点作为所述待分箱特征的最终分位点。

进一步地，所述检测各所述备选分位点是否满足预设的数据分布平衡条件的步骤包括：

从各所述备选分位点中确定最大值和最小值；

检测所述最大值与所述最小值的差值是否小于预设阈值，以检测各所述备选分位点是否满足预设的数据分布平衡条件；

所述若各所述备选分位点满足所述数据分布平衡条件，则从各所述备选分位点中确定一个备选分位点作为所述待分箱特征的最终分位点的步骤包括：

若所述差值小于所述预设阈值，则确定各所述备选分位点满足所述数据分布平衡条件，并将所述最大值或所述最小值作为所述待分箱特征的最终分位点。

进一步地，所述检测所述最大值与所述最小值的差值是否小于预设阈值的步骤之后，还包括：

若所述差值大于或等于所述预设阈值，则确定各所述备选分位点不满足所述数据分布平衡条件，并将所述最大值和所述最小值发送给各所述第二终端，以供各所述第二终端确定所述最大值和所述最小值所限定的数值区间，并基于各自特征数据中处于所述数值区间的特征数据求取得到各自新的备选分位点；

接收各所述第二终端发送的所述新的备选分位点，基于各所述新的备选分位点再执行所述步骤：基于各所述备选分位点确定所述待分箱特征的最终分位点。

进一步地，所述第二终端是横向联邦学习中的参与方，所述第一终端是相对于各所述第二终端的第三方，当所述待分箱特征为多个时，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤包括：

并行地基于各待分箱特征对应的备选分位点确定各待分箱特征对应的最终分位点。

进一步地，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤之后，还包括：

将所述待分箱特征的最终分位点发送给各所述第二终端，以供各所述第二终端基于所述最终分位点确定所述待分箱特征的各个分箱，并基于各自特征数据的标签数据确定所述各个分箱分别对应的子正负样本分布；

接收各所述第二终端发送的各所述子正负样本分布，并累计各所述子正负样本分布得到所述各个分箱分别对应的总正负样本分布；

基于所述各个分箱的总正负样本分布计算得到所述待分箱特征对应的特征指标值。

进一步地，所述基于所述各个分箱的总正负样本分布计算得到所述待分箱特征对应的特征指标值的步骤之后，还包括：

根据所述特征指标值确定所述待分箱特征用于建模的可行性评价结果。

为实现上述目的，本发明还提供一种特征分箱装置，所述特征分箱装置部署于第一终端，所述第一终端与第二终端通信连接，所述特征分箱装置包括：

接收模块，用于接收各所述第二终端发送的待分箱特征的备选分位点，其中，各所述第二终端基于各自的特征数据求取得到各自的所述备选分位点；

确定模块，用于基于各所述备选分位点确定所述待分箱特征的最终分位点。

为实现上述目的，本发明还提供一种特征分箱设备，所述特征分箱设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征分箱程序，所述特征分箱程序被所述处理器执行时实现如上所述的特征分箱方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如上所述的特征分箱方法的步骤。

本发明中，通过各个第二终端采用各自的特征数据求取得到各自的备选分位点，并发送给第一终端，由第一终端来基于各个备选分位点，选出待分箱特征的最终分位点，以便基于最终分位点完成对待分箱特征的分箱操作。由于拥有特征数据的各个第二终端是发送备选分位点给第一终端，而不是发送特征数据本身，使得第二终端之间不会互相暴露各自的特征数据，从而实现在数据分布在多方，需要多方联合进行特征分箱的场景下，能够在保护数据隐私的情况下完成联合特征分箱，提升了数据安全性，适应于对数据隐私要求严格的应用场景。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明特征分箱方法第一实施例的流程示意图；

图3为本发明实施例方案涉及的一种特征分箱流程图；

图4为本发明特征分箱装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例特征分箱设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该特征分箱设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对特征分箱设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及特征分箱程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持特征分箱程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与第二终端建立通信连接；而处理器1001可以用于调用存储器1005中存储的特征分箱程序，并执行以下操作：

基于各所述备选分位点确定所述待分箱特征的最终分位点。

检测各所述备选分位点是否满足预设的数据分布平衡条件；

从各所述备选分位点中确定最大值和最小值；

进一步地，所述检测所述最大值与所述最小值的差值是否小于预设阈值的步骤之后，处理器1001可以用于调用存储器1005中存储的特征分箱程序，还执行以下操作：

进一步地，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤之后，处理器1001可以用于调用存储器1005中存储的特征分箱程序，还执行以下操作：

基于上述的结构，提出特征分箱方法的各个实施例。

参照图2，图2为本发明特征分箱方法第一实施例的流程示意图。

本发明实施例提供了特征分箱方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明特征分箱方法应用于第一终端，第一终端与至少一个第二终端通信连接，第一终端和第二终端可以是智能手机、个人计算机和服务器等设备。在本实施例中，特征分箱方法包括：

步骤S10，接收各所述第二终端发送的待分箱特征的备选分位点，其中，各所述第二终端基于各自的特征数据求取得到各自的所述备选分位点；

特征分箱是指对待分箱的特征的各个特征数据，利用某种规则划分分位点。对于处于某两个分位点之间的数值，会被归于这一分箱之中。例如，年龄是一种特征，不同的年龄值是具体的特征数据，要对年龄进行分箱，可以对各个年龄值进行划分，选取一个或多个年龄值作为分位点，将年龄化为多个分箱，选取20岁、40岁和60岁作为分位点，将年龄划分为4个分箱：0～20、20～40、40～60、60以上。分箱的方式有很多种，例如等距分箱和等频分箱等。其中，等距分箱是指对数据进行排序后，找出最大值和最小值，在最大值和最小值之间等距离地划分分位点；等频分箱是指分箱后，使得每个箱中数据的个数大致相等。

预先可以确定一个待分箱特征，对于待分箱特征，各个第二终端中可能分别拥有该待分箱特征的一些特征数据。例如，各个第二终端可以分别拥有一些用户的数据，各个第二终端的数据的特征相同，在用户维度上可能不同，例如，第二终端1拥有用户U1和U2的年龄值、存款额，第二终端2拥有用户U3和U4的年龄值和存款额；各个第二终端基于某个共同的目的，如联合建模的目的，可以联合起来对各个特征进行特征分箱，那么可以将各个特征作为待分箱特征。可以依次将各个特征作为待分箱特征，一个一个地进行分箱。

需要说明的是，第一终端可以是各第二终端中的一个，也即第一终端也可以拥有待分箱特征的一部分特征数据；第一终端也可以是仅执行协调第二终端进行特征分箱的功能的独立第三方；因此，采用第一终端的描述以区别于第二终端。

预先可以确定需要将待分箱特征分成几个分箱，即确定分箱数，进而设置需要确定的分位点的个数，也即设置待确定分位点的个数。若待确定分位点有多个，则各个第二终端可以联合起来分别确定每个待确定分位点。对于各个待确定分位点，各个第二终端可以基于各自的特征数据，求取得到各自的备选分位点。具体地，可以预先确定一个分箱方式。若确定采用等频分箱方式，则第二终端可以计算待确定分位点在本端特征数据中的排位，例如，分箱数是5个，则按照等频分箱原则，在不知道所有特征数据中最大值和最小值的情况下，待确定分位点有6个，对于每一个待确定分位点，第二终端可以计算得到该待确定分位点在本端特征数据中的排位，如本端特征数据的数据量是100条，则6个待确定分位点分别对应的排位是第1位、第21位、第41位、第61位、第81位和第100位。第二终端在计算得到待确定分位点在本地特征数据中的排位后，只需要将本端特征数据按照值的大小进行排序，即可选出处于各个排位的特征数据，作为待确定分位点的备选分位点，例如，选出处于第1位的特征数据作为第一个待确定分位点的备选分位点。

各第二终端可以将求取得到的备选分位点发送给第一终端。需要说明的是，第二终端可以将各个待确定分位点的备选分位点一起发送给第一终端，由第一终端依次或并行地处理各个备选分位点，也可以是一个一个地发送给第一终端。那么对于待分箱特征的某个待确定分位点，第一终端接收到各个第二终端各发送的一个备选分位点，由于各个第二终端中的特征数据不相同，所以各个备选分位点不一定是相同的。

步骤S20，基于各所述备选分位点确定所述待分箱特征的最终分位点。

第一终端在接收到各个备选分位点后，可以基于各个备选分位点确定待分箱特征的最终分位点。具体地，对于待分箱特征的一个待确定分位点来说，第一终端可以从该待确定分位点的各个备选分位点选取一个，作为该待确定分位点的最终分位点，选取方式有多种。例如，在不知道所有特征数据中最大值和最小值的情况下，需要选出所有特征数据中的最小值作为第一个分位点，对于该分位点，各个第二终端是将本端的特征数据中最小的特征数据作为了备选分位点，则第一终端可以将各个备选分位点中的最小值作为最终的分位点，从而确定了待分箱特征的第一个分位点，最大值对应的分位点也可以同理确定。又如，对于中间的待确定分位点，也即不是最大值和最小值的分位点，第一终端可以将待确定分位点的各个备选分位点进行比较，选出各个备选分位点中的中位数，作为该待确定分位点的最终分位点。

在本实施例中，通过各个第二终端采用各自的特征数据求取得到各自的备选分位点，并发送给第一终端，由第一终端来基于各个备选分位点，选出待分箱特征的最终分位点，以便基于最终分位点完成对待分箱特征的分箱操作。由于拥有特征数据的各个第二终端是发送备选分位点给第一终端，而不是发送特征数据本身，使得第二终端之间不会互相暴露各自的特征数据，从而实现在数据分布在多方，需要多方联合进行特征分箱的场景下，能够在保护数据隐私的情况下完成联合特征分箱，提升了数据安全性，适应于对数据隐私要求严格的应用场景。

需要说明的是，当第一终端是独立于各个第二终端的可信第三方设备时，由于第二终端是给作为可信第三方的第一终端发送备选分位点，从而使得第二终端不仅不会暴漏各自的特征数据，第二终端之间还不需要暴漏备选分位点，从而能够更加提高对各方特征数据的隐私保护。

进一步地，基于上述第一实施例，提出本发明特征分箱方法第二实施例，在本实施例中，所述步骤S20包括：

步骤S201，检测各所述备选分位点是否满足预设的数据分布平衡条件；

各个第二终端中的特征数据可能分布不平衡，例如某个第二终端的特征数据偏大，某个第二终端的特征数据偏小，当出现这种情况时，各个第二终端发送的备选分位点可能相差较大，若直接基于各个备选分位点确定一个最终分位点，可能会导致确定的最终分位点不准确，例如达不到等频分箱的要求。因此，在本实施例中，可以预先设置一个数据分布平衡条件，该数据分布平衡条件使得：当各个备选分位点满足该数据分布平衡条件时，说明各个备选分位点相差不是很大，基于备选分位点确定最终分位点在误差允许范围，而当各个备选分位点不满足该数据分布平衡条件时，说明各个备选分位点可能相差较大，各个第二终端中的特征数据分布不平衡，从而使得基于备选分位点确定的最终分位点不在误差允许范围。那么，为实现上述效果，根据具体的情况，数据分布平衡条件可以是多种多样的；例如，可以是设置为各个备选分位点中的最大值与最小值的差值小于一个预设阈值时，确定满足数据分布平衡条件；又如，可以是当备选分位点中各个备选分位点与平均值的差值均小于一个预设阈值时，确定满足数据分布平衡条件。

第一终端在接收到各个第二终端发送的备选分位点后，可检测各个备选分位点是否满足该预设的数据分布平衡条件。

步骤S202，若各所述备选分位点满足所述数据分布平衡条件，则从各所述备选分位点中选择一个备选分位点作为所述待分箱特征的最终分位点。

若各个备选分位点满足该数据分布平衡条件，则第一终端可以从各个备选分位点中选择一个备选分位点作为待分箱特征的最终分位点，由于是满足数据分布平衡条件的，说明各个备选分位点相差不是很大，因此第一终端可以从各个备选分位点中随机选取一个作为最终分位点。并且由于是满足数据平衡条件的情况下，从备选分位点中选择一个作为最终分位点，因此，使得确定的最终分位点是比较准确的，从而克服了当多方数据不平衡时导致的分分位点选取不准问题。

若各备选分位点不满足该数据分布平衡条件，则各个第二终端可以重新在各自的特征数据中再求取一个新的备选分位点，第一终端基于各个第二终端发送的新的备选分位点，再检测是否满足该数据分布平衡条件，直到检测到满足该数据分布平衡条件时，确定得到最终分位点，完成分箱。

进一步地，所述步骤S201包括：

步骤S2011，从各所述备选分位点中确定最大值和最小值；

进一步地，数据分布平衡条件可以是：各个备选分位点中的最大值与最小值的差值小于一个预设阈值时，确定各个备选分位点满足数据分布平衡条件，否则，确定各个备选分位点不满足数据分布平衡条件。

那么，第一终端在接受到各个第二终端发送的备选分位点后，可以从各个备选分位点中确定最大值和最小值，也即，将各个备选分位点进行大小比较，选出最大值和最小值。

步骤S2012，检测所述最大值与所述最小值的差值是否小于预设阈值，以检测各所述备选分位点是否满足预设的数据分布平衡条件；

第一终端检测计算该最大值和该最小值的差值，并检测该差值是否小于一个预设阈值。其中，预设阈值可以根据需要进行设置，若对分位点的准确率要求较高，则预设阈值可以设置得较小，反之可以设置得较大。需要说明的是，差值应当是由最大值减去最小值得到的正数。通过检测差值是否小于预设阈值，来检测各个备选分位点是否满足该数据分布条件。

所述步骤S202包括：

步骤S2021，若所述差值小于所述预设阈值，则确定各所述备选分位点满足所述数据分布平衡条件，并将所述最大值或所述最小值作为所述待分箱特征的最终分位点。

若第一终端检测到该差值小于该预设阈值，则确定各个备选分位点满足该数据分布平衡条件。在确定满足数据分布平衡条件的情况下，第一终端可以从各个备选分位点中选出一个作为最终分位点，如，第一终端可以将该最大值或该最小值作为待分箱特征的最终分位点。

进一步地，所述步骤S2012之后，还包括：

步骤S2013，若所述差值大于或等于所述预设阈值，则确定各所述备选分位点不满足所述数据分布平衡条件，并将所述最大值和所述最小值发送给各所述第二终端，以供各所述第二终端确定所述最大值和所述最小值所限定的数值区间，并基于各自特征数据中处于所述数值区间的特征数据求取得到各自新的备选分位点；

进一步地，若第一终端检测到该差值大于或等于该预设阈值，则确定各个备选分位点不满足该数据分布平衡条件。第一终端可在确定各个备选分位点不满足该数据分布平衡条件的情况下，将该最大值和该最小值发送给各个第二终端。第二终端在接收到最大值和最小值后，确定该最大值和最小值所限定的数值区间，从本端的特征数据中筛选出处于该数值区间的特征数据，从筛选出的特征数据中确定新的备选分位点。具体地，第二终端可以将筛选出的特征数据进行排序，选择排位在中间的特征数据作为新的备选分位点。需要说明的是，若最大值和最小值与上一轮的最大值和最小值相同，则确定的该数值区间不包括首尾两端点。各个第二终端将各自确定的新的备选分位点发送给第一终端。

步骤S2014，接收各所述第二终端发送的所述新的备选分位点，基于各所述新的备选分位点再执行所述步骤：基于各所述备选分位点确定所述待分箱特征的最终分位点。

第一终端接受各个第二终端发送的新的备选分位点，然后基于该新的备选分位点，再执行步骤：基于各所述备选分位点确定所述待分箱特征的最终分位点。也即，第一终端基于新的备选分位点确定待分箱特征的最终分位点，具体地，确定各个新的备选分位点中的最大值和最小值，检测最大值和最小值的差值是否小于该预设阈值，若小于则选择最大值或最小值作为最终分位点，否则，再将最大值和最小值发送给各个第二终端；循环迭代，经过多轮循环后，直到最大值和最小值的差值小于预设阈值时，确定下最终分位点。

在本实施例中，通过第一终端确定各个第二终端发送的备选分位点的最大值和最小值，检测最大值和最小值的差值是否小于预设阈值，若不小于，则将最大值和最小值发送给各个第二终端，供各个第二终端从最大值和最小值所限定范围内的特征数据中确定新的备选分位点；第一终端基于各个第二终端新的备选分位点，再次检测新备选分位点中最大值和最小值的差值是否小于预设阈值；经过多轮迭代，直到第一终端检测到最大值和最小值的差值小于预设阈值时，从新的备选分位点中确定最终分位点。通过第二终端发送备选分位点，第一终端返回最大值和最小值，进而多轮迭代，直到确定最终分位点，避免了将各方的特征数据直接合并导致的数据信息泄露问题；并且，利用多轮迭代的方式，使得最终各个第二终端发送的备选分位点满足数据分布平衡条件，从而克服了当多方数据不平衡时导致的分位点选取不准问题。

进一步地，基于上述第一或第二实施例，提出本发明特征分箱方法第三实施例，在本实施例中，所述第二终端是横向联邦学习中的参与方，所述第一终端是相对于各所述第二终端的第三方，当所述待分箱特征为多个时，所述步骤S20包括：

步骤S203，并行地基于各待分箱特征对应的备选分位点确定各待分箱特征对应的最终分位点。

进一步地，在本实施例中，第二终端可以是横向联邦学习中的参与方，即，多个第二终端联合起来进行横向联邦建模。其中，联邦学习是一个机器学习框架，它允许用户使用分布在不同位置的多个数据集来训练机器学习模型，同时防止数据泄露并遵守严格的数据隐私法规。横向联邦学习根据特征划分数据集，通常在特征重叠多于用户的情况下实现。在横向联邦场景下，各个第二终端拥有不同用户的相同特征下的特征数据。

在本实施例中，在横向联邦场景下，为实现各个参与方在不泄露相互隐私的情况下完成特征分箱，引入作为第三方的第一终端。可以将第二终端中的各个用户特征作为待分箱特征，那么就有多个待分箱特征，第二终端可以按照第一实施例中的方式，分别求取每个待分箱特征的备选分位点，并将备选分位点发送给第一终端。

第一终端在接受到各个第二终端发送的备选分位点后，得到了每个待分箱特征对应的多个备选分位点。第一终端可以并行地基于每个待分箱特征对应的备选分位点，确定该待分箱特征对应的最终分位点，也即，第一终端并行地分别确定各个待分箱特征的最终分位点。第一终端可以采用的并行计算方式有多种，例如，第一终端可以是一个分布式集群，那么可以将不同待分箱特征的分位点确定任务分发至不同的分布式执行机，由各个分布式执行机来并行地处理。

在本实施例中，实现了在横向联邦场景下，既保护横向联邦参与方的数据隐私，有能够联合各个参与方进行特征分箱。并且，还实现了并行地对各个用户特征进行分箱，从而提高了特征分箱效率。

进一步地，如图3所示，为本发明实施例涉及的一种可行的特征分箱流程图。图中的Client端即第二终端，Server端即第一终端。

进一步地，所述步骤S20之后，还包括：

步骤S30，将所述待分箱特征的最终分位点发送给各所述第二终端，以供各所述第二终端基于所述最终分位点确定所述待分箱特征的各个分箱，并基于各自特征数据的标签数据确定所述各个分箱分别对应的子正负样本分布；

进一步地，在一实施例中，第一终端在确定待分箱特征的最终分位点后，可以将最终分位点发送给各个第二终端。

第二终端在接收到最终分位点后，采用最终分位点来确定待分箱特征的各个分箱。需要说明的是，当一个待分箱特征有多个待确定分位点时，第一终端采用相同的方式获得多个待确定分位点的最终分位点，那么第二终端基于多个最终分位点来对待分箱特征进行分箱。例如，待分箱特征有5个最终分位点：0、15、30、40、60，其中，0是待分箱特征的最小值，60是最大值，则将待分箱特征分位4个箱(可设置是否包括区间得前后顶点)：0～15、15～30、30～40、40～60。

第二终端将本端的特征数据分配到各个分箱，也即确定各个特征数据落入哪个箱，就将特征数据分配到哪个箱。在将各个特征数据分配到各个分箱后，对于每一个分箱内的特征数据，统计该特征数据中正样本的数量和负样本的数量，将统计得到的正样本数量和负样本数量作为该分箱的正负样本分布(下面称为子正负样本分布以示区别)。特征数据都对应一个表示该特征数据是正样本还是负样本的标签数据，第二终端可以根据特征数据的标签数据来判断该特征数据是正样本还是负样本。

在得到各个分箱的子正负样本分布后，第二终端将各个子正负样本分布发送给第一终端。

步骤S40，接收各所述第二终端发送的各所述子正负样本分布，并累计各所述子正负样本分布得到所述各个分箱分别对应的总正负样本分布；

第一终端接收第二终端发送的各个分箱的子正负样本分布，也即，第一终端接收到每个分箱对应的多个子正负样本分布。第一终端将一个分箱对应的多个子正负样本分布进行累计，得到各个分箱分别对应的总正负样本分布，其中，累计也即将一个分箱对应的多个子正负样本分布的正样本数量相加，负样本数量相加，得到总正样本数量和总负样本数量。也即，子正负样本分布是一个第二终端的特征数据在一个分箱内的正负样分布情况，总正负样本分布是多个第二终端的特征数据在一个分箱内的正负样本分布情况。

步骤S50，基于所述各个分箱的总正负样本分布计算得到所述待分箱特征对应的特征指标值。

第一终端可以根据各个分箱的总正负样本分布计算得到待分箱特征的特征指标值。其中，特征指标可以是用于评价该待分箱特征是否合适用于建模的指标。例如，特征指标可以是iv(Information Value，信息价值)值，可以是WOE(Weight of Evidence，证据权重)。根据总正负样本分布计算特征指标的方式可以参考现有方式，在此不进行详细赘述。

进一步地，所述步骤S50之后，还包括：

步骤S60，根据所述特征指标值确定所述待分箱特征用于建模的可行性评价结果。

进一步地，第一终端可以根据计算得到的特征指标值确定待分箱特征用于建模的可行性评价结果。具体地，可以预先根据特征指标的定义设置一个阈值区间，当该特征指标值处于该阈值区间时，表示待分箱特征可以用于建模，也即可行性评价结果为可以用于建模，当该特征指标值不处于该阈值区间时，表示待分箱特征不适合用于建模。例如，当特征指标值为iv值时，可设置iv值在0.1～0.5范围内(可包含两端点)时，确定该待分箱特征适合用于建模，即确定该待分箱特征的可行性评价结果是适合用于建模。

在本实施例中，通过第一终端在获得待分箱特征的最终分位点后，将最终分位点发送给各个第二终端，由第二终端基于最终分位点进行分箱、统计各个分箱的子正负样本分布，再有第一终端累计各个子正负样本分布，得到各个分箱的总正负样本分布，基于总正负样本分布计算待分箱特征的特征指标值，基于特征指标值确定待分箱特征用于建模的可行性评价结果。由于各个第二终端在整个过程中，并不会相互暴漏各自的特征数据，因此，实现了在保护各个第二终端中数据隐私的情况下，进行特征选择，以便于找到更加合适的特征用于建模，进而提升后续建模的建模效果。

此外，此外本发明实施例还提出一种特征分箱装置，参照图4，所述特征分箱装置部署于第一终端，所述第一终端与第二终端通信连接，所述特征分箱装置包括：

接收模块10，用于接收各所述第二终端发送的待分箱特征的备选分位点，其中，各所述第二终端基于各自的特征数据求取得到各自的所述备选分位点；

确定模块20，用于基于各所述备选分位点确定所述待分箱特征的最终分位点。

进一步地，所述确定模块20包括：

检测单元，用于检测各所述备选分位点是否满足预设的数据分布平衡条件；

选择单元，用于若各所述备选分位点满足所述数据分布平衡条件，则从各所述备选分位点中选择一个备选分位点作为所述待分箱特征的最终分位点。

进一步地，所述检测单元包括：

确定子单元，用于从各所述备选分位点中确定最大值和最小值；

检测子单元，用于检测所述最大值与所述最小值的差值是否小于预设阈值，以检测各所述备选分位点是否满足预设的数据分布平衡条件；

所述选择单元包括：

选择子单元，用于若所述差值小于所述预设阈值，则确定各所述备选分位点满足所述数据分布平衡条件，并将所述最大值或所述最小值作为所述待分箱特征的最终分位点。

进一步地，所述检测单元还包括：

发送子单元，用于若所述差值大于或等于所述预设阈值，则确定各所述备选分位点不满足所述数据分布平衡条件，并将所述最大值和所述最小值发送给各所述第二终端，以供各所述第二终端确定所述最大值和所述最小值所限定的数值区间，并基于各自特征数据中处于所述数值区间的特征数据求取得到各自新的备选分位点；

接收子单元，用于接收各所述第二终端发送的所述新的备选分位点，基于各所述新的备选分位点再执行所述步骤：基于各所述备选分位点确定所述待分箱特征的最终分位点。

进一步地，所述第二终端是横向联邦学习中的参与方，所述第一终端是相对于各所述第二终端的第三方，当所述待分箱特征为多个时，所述确定模块20包括：

并行确定单元，用于并行地基于各待分箱特征对应的备选分位点确定各待分箱特征对应的最终分位点。

进一步地，所述特征分箱装置还包括：

发送模块，用于将所述待分箱特征的最终分位点发送给各所述第二终端，以供各所述第二终端基于所述最终分位点确定所述待分箱特征的各个分箱，并基于各自特征数据的标签数据确定所述各个分箱分别对应的子正负样本分布；

接收模块，用于接收各所述第二终端发送的各所述子正负样本分布，并累计各所述子正负样本分布得到所述各个分箱分别对应的总正负样本分布；

计算模块，用于基于所述各个分箱的总正负样本分布计算得到所述待分箱特征对应的特征指标值。

进一步地，所述确定模块20还用于：

本发明特征分箱装置的具体实施方式的拓展内容与上述特征分箱方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如下所述的特征分箱方法的步骤。

本发明特征分箱设备和计算机可读存储介质的各实施例，均可参照本发明特征分箱方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征分箱方法，其特征在于，所述特征分箱方法应用于第一终端，所述第一终端与第二终端通信连接，所述特征分箱方法包括以下步骤：

基于各所述备选分位点确定所述待分箱特征的最终分位点。

2.如权利要求1所述的特征分箱方法，其特征在于，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤包括：

检测各所述备选分位点是否满足预设的数据分布平衡条件；

3.如权利要求2所述的特征分箱方法，其特征在于，所述检测各所述备选分位点是否满足预设的数据分布平衡条件的步骤包括：

从各所述备选分位点中确定最大值和最小值；

4.如权利要求3所述的特征分箱方法，其特征在于，所述检测所述最大值与所述最小值的差值是否小于预设阈值的步骤之后，还包括：

5.如权利要求1所述的特征分箱方法，其特征在于，所述第二终端是横向联邦学习中的参与方，所述第一终端是相对于各所述第二终端的第三方，当所述待分箱特征为多个时，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤包括：

6.如权利要求1至5任一项所述的特征分箱方法，其特征在于，所述基于各所述备选分位点确定所述待分箱特征的最终分位点的步骤之后，还包括：

7.如权利要求6所述的特征分箱方法，其特征在于，所述基于所述各个分箱的总正负样本分布计算得到所述待分箱特征对应的特征指标值的步骤之后，还包括：

8.一种特征分箱装置，其特征在于，所述特征分箱装置部署于第一终端，所述第一终端与第二终端通信连接，所述特征分箱装置包括：

9.一种特征分箱设备，其特征在于，所述特征分箱设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征分箱程序，所述特征分箱程序被所述处理器执行时实现如权利要求1至7中任一项所述的特征分箱方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如权利要求1至7中任一项所述的特征分箱方法的步骤。