CN111507479B

CN111507479B - 特征分箱方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111507479B
Application number: CN202010296456.2A
Authority: CN
Inventors: 谭明超; 范涛; 马国强; 陈天健; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2021-08-10
Anticipated expiration: 2040-04-15
Also published as: CN111507479A

Abstract

本发明公开了一种特征分箱方法、装置、设备及计算机可读存储介质，所述方法包括：从待分箱特征的特征数据集中确定支点元素；将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量；根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点。本发明实现了在内存不足、数据量较大的场景之中，也能实现对特征进行分箱。

Description

特征分箱方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种特征分箱方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

目前，在很多领域需要对特征进行分箱，例如，在机器学习中，特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法，比如，要考察特征与标签之间的相关程度时，iv(Information Value，信息价值)值往往是变量显著性的重要指标，可运用于特征选择之中。

等频分箱是指对特征分箱后，使得每个箱中数据的个数大致相等。目前若要对特征进行等频分箱，需要对特征数据进行排序，基于特征数据的排位，从特征数据中选出使得每个箱中数据的个数相等的分位点。然而排序的方式需要维护队列，数据量越大需要维护的队列越大，从而当数据量大于一定程度以后，可能导致内存空间不足的问题，也即目前基于排序的等频分箱方法存在对内存空间损耗过多的问题。

发明内容

本发明的主要目的在于提供一种特征分箱方法、装置、设备及计算机可读存储介质，旨在解决目前基于排序的等频分箱方法存在的对内存空间损耗过多的问题。

为实现上述目的，本发明提供一种特征分箱方法，所述特征分箱方法包括以下步骤：

从待分箱特征的特征数据集中确定支点元素；

将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量；

根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点。

可选地，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤包括：

根据所述目标数据量确定所述支点元素在所述特征数据集中的支点排位；

检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值；

若所述差值小于所述预设误差值，则将所述支点元素作为所述待分箱特征的最终分位点。

可选地，所述检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值的步骤之后，还包括：

若所述差值大于或等于所述预设误差值，则基于所述支点元素过滤所述特征数据集，并从过滤后的特征数据集中确定新的支点元素，基于新的支点元素再执行所述步骤：将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量。

可选地，所述基于所述支点元素过滤所述特征数据集的步骤包括：

检测所述支点排位是否大于所述目标分位点排位；

若所述支点排位大于所述目标分位点排位，则将所述特征数据集中大于所述支点元素的特征数据过滤掉；

若所述支点排位小于所述目标分位点排位，则将所述特征数据集中小于所述支点元素的特征数据过滤掉。

可选地，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量的步骤包括：

将所述支点元素发送给所述各个节点，以供所述各个节点分别统计各自的子特征数据集中小于所述支点元素的特征数据的子数据量；

接收所述各个节点发送的所述子数据量，并累计各所述子数据量得到所述特征数据集中小于所述支点元素的特征数据的总数据量，将所述总数据量作为所述目标数据量。

可选地，所述从待分箱特征的特征数据集中确定支点元素的步骤包括：

从所述特征数据集中按照预设比例抽样，获得抽样数据集；

根据所述预设比例和所述目标分位点排位确定目标抽样排位；

对所述抽样数据集中各个特征数据进行排序，并基于排序结果，从所述抽样数据集中选出排位为所述目标抽样排位的特征数据作为支点元素。

可选地，当所述特征分箱方法应用于纵向联邦学习中的第一数据方时，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤之后，还包括：

接收纵向联邦学习中的第二数据方发送的加密标签数据；

基于所述最终分位点确定所述待分箱特征的各个分箱，并基于所述加密标签数据统计得到所述特征数据集在所述各个分箱的加密正负样本分布；

将所述加密正负样本分布发送给所述第二数据方，以供所述第二数据方对所述加密正负样本分布进行解密得到正负样本分布数据；

接收所述第二数据方发送的所述正负样本分布数据，并基于所述正负样本分布数据计算所述待分箱特征的特征指标值。

为实现上述目的，本发明还提供一种特征分箱装置，所述特征分箱装置包括：

第一确定模块，用于从待分箱特征的特征数据集中确定支点元素；

统计模块，用于将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量；

第二确定模块，用于根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点。

为实现上述目的，本发明还提供一种特征分箱设备，所述特征分箱设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征分箱程序，所述特征分箱程序被所述处理器执行时实现如上所述的特征分箱方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如上所述的特征分箱方法的步骤。

本发明中，通过从待分箱特征的特征数据集中获取支点元素，并将支点元素与特征数据集中的各个特征数据分别进行比较，以得到用于表征该支点元素在特征数据集中的排位的目标数据量，根据目标数据量和预设的目标分位点排位确定待分箱特征的最终分位点，以便基于最终分位点完成对待分箱特征的分箱操作。通过将支点元素与各个特征数据分别比较的方式，获得能够表示该支点元素在特征数据集中的排位的目标数据量，例如，获得特征数据集中小于该支点元素的特征数据的数据量，采用了一种比较的方式获得支点元素的排位，并不需要对特征数据集中的特征数据进行排序和队列维护，无论特征数据集中的特征数据有多少，都只需要存储一个简单数据量，存储空间固定且对内存空间的占用极低，从而可以在内存不足、数据量较大的场景之中，也能实现对特征进行分箱。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明特征分箱方法第一实施例的流程示意图；

图3为本发明实施例方案涉及的一种特征分箱流程图；

图4为本发明特征分箱装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例特征分箱设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该特征分箱设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对特征分箱设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及特征分箱程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持特征分箱程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的特征分箱程序，并执行以下操作：

从待分箱特征的特征数据集中确定支点元素；

进一步地，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤包括：

进一步地，所述检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值的步骤之后，处理器1001可以用于调用存储器1005中存储的特征分箱程序，还执行以下操作：

进一步地，所述基于所述支点元素过滤所述特征数据集的步骤包括：

检测所述支点排位是否大于所述目标分位点排位；

进一步地，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量的步骤包括：

进一步地，所述从待分箱特征的特征数据集中确定支点元素的步骤包括：

从所述特征数据集中按照预设比例抽样，获得抽样数据集；

进一步地，当所述特征分箱方法应用于纵向联邦学习中的第一数据方时，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤之后，处理器1001可以用于调用存储器1005中存储的特征分箱程序，还执行以下操作：

接收纵向联邦学习中的第二数据方发送的加密标签数据；

基于上述的结构，提出特征分箱方法的各个实施例。

参照图2，图2为本发明特征分箱方法第一实施例的流程示意图。

本发明实施例提供了特征分箱方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明特征分箱方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中省略执行主体进行阐述。在本实施例中，特征分箱方法包括：

步骤S10，从待分箱特征的特征数据集中确定支点元素；

特征分箱是指对待分箱的特征的各个特征数据，利用某种规则划分分位点。对于处于某两个分位点之间的数值，会被归于这一分箱之中。例如，年龄是一种特征，不同的年龄值是具体的特征数据，要对年龄进行分箱，可以对各个年龄值进行划分，选取一个或多个年龄值作为分位点，将年龄化为多个分箱，选取20岁、40岁和60岁作为分位点，将年龄划分为4个分箱：0～20、20～40、40～60、60以上。分箱的方式有很多种，例如等距分箱和等频分箱等。其中，等距分箱是指对数据进行排序后，找出最大值和最小值，在最大值和最小值之间等距离地划分分位点；等频分箱是指分箱后，使得每个箱中数据的个数大致相等。

在本实施例中，采用等频分箱的方式对特征进行分箱。预先可以确定一个待分箱特征，待分箱特征对应一个特征数据集，特征数据集中包括多个特征数据，对特征数据集的数据量不限。可以从待分箱特征的特征数据集中确定支点元素，支点元素的个数可以是一个也可以是多个，也即，从特征数据集中选择一个或多个特征数据作为支点元素。需要说明的是，从特征数据集中选择支点元素的方式有多种，例如可以随机选择的方式，即随机抽取一个或多个特征数据作为支点元素。

步骤S20，将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量；

在确定支点元素后，对于某个支点元素，可以将该支点元素与特征数据集中的各个特征数据分别进行比较，在比较过程中，统计得到目标数据量，其中，目标数据量用于表征支点元素在特征数据集中的排位，也即，该目标数据量能够表示支点元素在特征数据集中的排位。

那么具体地，目标数据量可以是特征数据集中大于该支点元素的特征数据的数据量；或者可以是特征数据集中大于所述支点元素的特征数据的数据量；或者可以是特征数据集中大于该支点元素的特征数据的数据量和小于该支点元素的特征数据的数据量，也即，大于和小于对应的两种数据量都统计作为目标数据量。具体地，对于某个支点元素，要统计大于该支点元素的特征数据的数据量，可以将特征数据集中的各个特征数据分别与该支点元素进行比较，进而数出比该支点元素大的特征数据的个数。统计小于该支点元素的特征数据的数据量也同理。需要说明的是，对于等于该支点元素的特征数据，可以预先设置将该特征数据归为大于支点元素的数据或归为小于支点元素的数据。

步骤S30，根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点。

由于是等频分箱，那么最终分位点在特征数据集中的排位之间的间隔是大致相同的，最好是完全等间隔，从而使得每个分箱的数据个数大致相等。基于此，在本实施例中，可以预先设置目标分位点排位，目标分位点排位可以根据特征数据集的数据量大小，以及需要得到的分箱数来确定的，如数据量为100，要分位5个箱，那么每个箱要有20个数据，最终要确定6个分位点，这6个分位点分别对应一个目标分位点排位，分别是：第1位、第21位、第41位、第61位、第81位和第100位。也即，目的要找到特征数据集中处于目标分位点排位的特征数据，或者在允许一定容错率的情况下，找到排位接近目标分位点排位的特征数据。需要说明的是，排位一般是从小到达排序的排位，也可以是从大到小排序的排位，本实施例中是以从小到大排序进行说明的。

在确定目标数据量后，可以根据目标数据量和预设的目标分位点排位来确定待分箱特征的最终分位点。具体地，由于目标数据量用于表征支点元素在特征数据集中的排位，因此，可以根据目标数据量来确定支点元素的排位。例如，目标数据量是特征数据集中小于支点元素的特征数据的数据量时，可以将目标数据量加1后作为支点元素的排位；若目标数据量是特征数据集中大于支点元素的特征数据的数据量时，可以用特征数据集中特征数据的总量减去该目标数据量，将结果作为支点元素的排位。

基于支点元素的排位和目标分位点排位，可以确定待分箱特征的最终分位点，具体确定方式有多种。

例如，可以是当支点元素的排位与目标分位点相同或很接近时，将该支点元素作为最终分位点。

又如，当支点元素的排位比目标分位点排位大，且不接近时，说明排在目标分位点排位的特征数据比支点元素小，为找到该特征数据，可以将特征数据集中小于支点元素的特征数据进行排序，基于各个特征数据的排位，以及支点元素与目标分位点排位的差距，即可确定排在目标分位点排位的特征数据；若支点元素的排位比目标分位点排位大，也可以采用类似的方式确定排在目标分位点排位的特征数据；由于是将小于支点元素的特征数据进行排序，而不是将所有的特征数据进行排序，使得需要维护的排序队列缩短，进而能够减少内存空间的占用；并且，当选取的支点元素有多个时，选出排位与目标分位点排位最接近的两个支点元素，一个比目标分位点排位大，一个比目标分位点排位小，将落入这两个支点元素所构成的数据区间的特征数据进行排序，基于排序结果，以及两个支点元素的排位与目标分位点排位的差距，可以准确地找到处于目标分位点排位的特征数据，提高等频分箱的准确率，并且，采用排位与目标分位点排位最接近的两个支点元素，极大地缩短了需要维护的排序队列，极大地减少了空间占用。

又如，还可以通过多次寻找支点元素的方式，使得支点元素的排位不断地逼近目标分位点排位，实现完全不需要维护排序队列的情况下，找到准确率高的分位点。

在本实施例中，通过从待分箱特征的特征数据集中获取支点元素，并将支点元素与特征数据集中的各个特征数据分别进行比较，以得到用于表征该支点元素在特征数据集中的排位的目标数据量，根据目标数据量和预设的目标分位点排位确定待分箱特征的最终分位点，以便基于最终分位点完成对待分箱特征的分箱操作。通过将支点元素与各个特征数据分别比较的方式，获得能够表示该支点元素在特征数据集中的排位的目标数据量，例如，获得特征数据集中小于该支点元素的特征数据的数据量，采用了一种比较的方式获得支点元素的排位，并不需要对特征数据集中的特征数据进行排序和队列维护，无论特征数据集中的特征数据有多少，都只需要存储一个简单数据量，存储空间固定且对内存空间的占用极低，从而可以在内存不足、数据量较大的场景之中，也能实现对特征进行分箱。

进一步地，基于上述第一实施例，提出本发明特征分箱方法第二实施例，在本实施例中，所述步骤S30包括：

步骤S301，根据所述目标数据量确定所述支点元素在所述特征数据集中的支点排位；

进一步地，在本实施例中，可以根据目标数据量确定支点元素在特征数据集中的排位(以下称为支点排位，以与其他排位进行区分)。具体地，目标数据量是特征数据集中小于支点元素的特征数据的数据量时，可以将目标数据量加1后作为支点元素的支点排位；若目标数据量是特征数据集中大于支点元素的特征数据的数据量时，可以用特征数据集中特征数据的总量减去该目标数据量，将结果作为支点元素的支点排位。

步骤S302，检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值；

在确定支点排位后，可以计算支点排位与预设的目标分位点排位的差值，并检测差值是否小于预设误差值。其中，差值可以是支点排位减去目标分位点排位的结果求绝对值，预设误差值是大于零的数。预设误差值可以根据对等频分箱的容错率要求进行设置，例如，要求容错率较低时，预设误差值可以设置得较小。

步骤S303，若所述差值小于所述预设误差值，则将所述支点元素作为所述待分箱特征的最终分位点。

若检测到该差值小于该预设误差值，则可以将支点元素作为待分箱特征的最终分位点。应该理解的是，当差值为零时，将支点元素作为最终分位点是最准确的，当差值小于预设误差值时，将支点元素作为最终分位点都是在容错范围内的。

若检测到差值大于或等于预设误差值，则可以重新再从特征数据集中选择一个特征数据作为新的支点元素，再次获取该新的支点元素对应的目标数据量和排位，检测该新的支点元素的支点排位与目标分位点排位的差值是否小于该预设误差值。经过多次的寻找，直到最终找到支点排位与目标分位点排位的差值小于预设误差值的支点元素，将该支点元素作为最终分位点。

在本实施例中，通过确定支点元素的支点排位，并检测支点排位与预设的目标分位点排位的差值是否小于预设误差值，若小于则将支点元素作为待分箱特征的最终分位点，实现了提高最终确定的分位点的准确率，提高分箱的准确率。

进一步地，当需要多次选取支点元素时，为了能够快速地找到使得支点排位与目标分位点排位的差值小于预设误差值的支点元素，缩短确定最终分位点的时间，在本实施例中，可进一步地采取基于支点元素过滤特征数据集的方式，具体地，所述步骤S302之后，还包括：

步骤S303，若所述差值大于或等于所述预设误差值，则基于所述支点元素过滤所述特征数据集，并从过滤后的特征数据集中确定新的支点元素，基于新的支点元素再执行所述步骤：将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量。

也即，在本实施例中，若检测到支点排位与目标分位点排位的差值大于或等于该预设误差值时，可以基于支点元素过滤特征数据集，并从过滤后的特征数据集中确定新的支点元素。过滤后的特征数据集相较于原来的特征数据集数据量变少，从而能够缩小寻找合适支点元素(支点排位与目标分位点排位的差值小于预设误差值)的范围，在小范围中寻找合适支点元素的概率，比在大范围中寻找支点元素的概率大，进而能够加快寻找到合适支点元素的速度，从而缩短确定最终分位点的时间，提高特征分箱的效率。

基于支点元素过滤特征数据集的方式可以是：检测支点排位是否大于目标分位点排位；若支点排位大于目标分位点排位，则将特征数据集中大于支点元素的特征数据过滤掉，也即，去掉特征数据集中大于支点元素的特征数据；若支点排位小于目标分位点排位，则将特征数据集中小于支点元素的特征数据过滤掉，也即，去掉特征数据集中小于支点元素的特征数据；保留剩下的特征数据，作为过滤后的特征数据集。需要说明的是，当支点元素有多个时，也可以也可以按照上述方式进行过滤，如，依次的基于各个支点元素进行过滤，将基于上一个支点元素进行过滤后的特征数据集，作为下一个支点元素过滤的基础。

在过滤后的特征数据集中确定新的支点元素的方式可以与第一实施例中从原始特征数据集中获取支点元素的方式相同。

在获取到新的支点元素后，基于新的支点元素，再执行步骤：将支点元素与特征数据集中的各特征数据分别进行比较，以得到用于表征支点元素在特征数据集中排位的目标数据量。也即，再将新的支点元素与特征数据集中的各个特征数据进行比较，得到新的支点元素对应的目标数据量，再基于该目标数据量确定新的支点元素的支点排位，检测该支点排位与目标分位点排位的差值是否小于预设误差值。经过多轮迭代，直到检测到新的支点元素的支点排位与目标分位点的差值小于预设误差值时，将新的支点元素作为最终分位点。

在本实施例中，通过多轮迭代，在特征数据集中确定支点元素，逐渐逼近目标分位点排位，使得无需对特征数据集进行排序，即可确定待分箱特征的最终分位点，从而在数据量较大、内存空间有限的情况下，也能够完成特征分箱；并且，通过多轮迭代，基于支点元素过滤特征数据集的方式，缩短了获取合适支点元素的时间，从而提高了特征分箱效率；并且，通过多轮迭代的方式，使得支点元素的支点排位逐渐逼近目标分位点排位，最终选取在容错范围内的支点元素作为最终分位点，提高了确定的最终分位点的准确率。

进一步地，基于上述第一或第二实施例，提出本发明特征分箱方法第三实施例，在本实施例中，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述步骤S20包括：

步骤S201，将所述支点元素发送给所述各个节点，以供所述各个节点分别统计各自的子特征数据集中小于所述支点元素的特征数据的子数据量；

进一步地，当待分箱特征的特征数据集包括多个子特征数据集，分布于分布式集群的各个节点时，可以将支点元素发送给各个节点。各个节点统计各自的子特征数据集中小于该支点元素的特征数据的数据量(以下称为子数据量以示区分)，各个节点将统计得到的子数据量返回。

步骤S202，接收所述各个节点发送的所述子数据量，并累计各所述子数据量得到所述特征数据集中小于所述支点元素的特征数据的总数据量，将所述总数据量作为所述目标数据量。

接收各个节点发送的子数据量，并累计各个子数据量，得到该特征数据集中小于该支点元素的特征数据的总数据量，将该总数据量作为目标数据量。

需要说明的是，也可以是由各个节点统计各自子特征数据集中大于该支点元素的特征数据的子数据量，进而得到特征数据集中小于该支点元素的特征数据的总数据量。

通过将支点元素分发给分布式集群的各个节点，由各个节点来统计子数据量，使得各个节点无需维护各自子特征数据量的排序队列，从而在节省各个节点的内存空间的情况下实现特征分箱，避免了因数据量过大而可能导致的内存溢出或其他存储问题。

进一步地，所述步骤S10包括：

步骤S101，从所述特征数据集中按照预设比例抽样，获得抽样数据集；

进一步地，为进一步地缩短获得合适支点元素的时间，提高特征分箱效率，在本实施例中，可以从特征数据集中按照预设比例进行抽样，得到抽样数据集。其中，预设比例可以进行预先设置，使得获得的抽样数据集的数据量较小，对抽样数据量进行排序也不会占用过多内存空间。具体地，抽样可以是随机抽样，也即，按照抽样比例，从特征数据集中随机的抽选出一些特征数据组成抽样数据集。例如，特征数据集的数据量是10000条，抽样比例是100：1，则从10000条数据中抽取100条，作为抽样数据集。

步骤S102，根据所述预设比例和所述目标分位点排位确定目标抽样排位；

根据预设比例和目标分位点排位确定目标抽样排位。具体地，目标分位点排位是相对于整个特征数据集而言的，处于目标分位点排位的特征数据最适合作为最终分位点；可以根据预设比例对目标分位点排位进行缩小，获得相对抽样数据集而言的目标抽样排位，由于是采用抽样的方式，所以获得的抽样数据集的数据分布在一定程度上，与整个特征数据集的数据分布是一致的，因此在抽样数据集中处于目标抽样排位的特征数据，很可能接近于处于目标分位点排位的特征数据，从而很可能能够作为最终分位点。具体地，可以将目标分位点排位按照预设比例缩小得到目标抽样排位，例如，目标分位点排位是20001位，预设比例是100：1，则目标抽样排位为201位。

步骤S103，对所述抽样数据集中各个特征数据进行排序，并基于排序结果，从所述抽样数据集中选出排位为所述目标抽样排位的特征数据作为支点元素。

对抽样数据集中各个特征数据进行排序，基于排序结果，选出处于目标抽样排位的特征数据作为支点元素。

在本实施例中，通过对特征数据集进行抽样获得抽样数据集，对抽样数据集进行排序，基于排序结果从抽样数据集中选出处于目标抽样排位的特征数据作为支点元素，缩短了获取合适支点元素的时间，又因为是对抽样数据集进行排序，需要维护的排序队列很小，从而不会占用过多的内存空间。

进一步地，当所述特征分箱方法应用于纵向联邦学习中的第一数据方时，所述步骤S30之后，还包括：

步骤S40，接收纵向联邦学习中的第二数据方发送的加密标签数据；

进一步地，在获取到待分箱特征的最终分位点后，可以通过最终分位点确定待分箱特征的各个分箱，并对各个分箱进行正负样本分布情况的统计，进而基于统计结果计算待分箱特征的特征指标值，基于特征指标值来评估待分箱特征用于建模的可行性。特征指标可以是用于评价该待分箱特征是否合适用于建模的指标。例如，特征指标可以是iv(Information Value，信息价值)值，可以是woe(Weight of Evidence，证据权重)。根据总正负样本分布计算特征指标的方式可以参考现有方式，在此不进行详细赘述。

而当本实施例中的特征分箱方法应用于纵向联邦学习的第一数据方，而特征数据对应的标签数据又存在于纵向联邦学习的第二数据方中时，可以采用隐私保护的方式联合第二数据方来进行待分箱特征的特征指标值的计算，以避免双方互相暴漏各自的特征数据和标签数据。其中，联邦学习是一个机器学习框架，它允许用户使用分布在不同位置的多个数据集来训练机器学习模型，同时防止数据泄露并遵守严格的数据隐私法规。纵向联邦学习在数据集的用户重叠部分较大，而用户特征重叠部分较小的情况下实现，也即，第一数据方和第二数据方分别拥有用户不同特征下的特征数据，第二数据方还拥有用户的标签数据。标签数据能够表示该用户是正样本还是负样本。

具体地，第一数据方可以接收第二数据方发送的加密标签数据。也即，第二数据方可以将标签数据进行加密后发送给第一数据方。加密方式可以采用同态加密方式，同态加密的特点是对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。

步骤S50，基于所述最终分位点确定所述待分箱特征的各个分箱，并基于所述加密标签数据统计得到所述特征数据集在所述各个分箱的加密正负样本分布；

第一数据方可以基于最终分位点确定待分箱特征的各个分箱。需要说明的是，当一个待分箱特征有多个待确定分位点时，第一数据方可采用上述实施例中的方式分别获得多个待确定分位点的最终分位点，基于多个最终分位点来对待分箱特征进行分箱。例如，待分箱特征有5个最终分位点：0、15、30、40、60，其中，0是待分箱特征的最小值，60是最大值，则将待分箱特征分位4个箱(可设置是否包括区间得前后顶点)：0～15、15～30、30～40、40～60。

在分箱后，第一数据方将特征数据集中的特征数据分配到各个分箱，也即确定各个特征数据落入哪个箱，就将特征数据分配到哪个箱。在将各个特征数据分配到各个分箱后，对于每一个分箱内的特征数据，统计该特征数据中正样本的数量和负样本的数量，由于第二数据方发送给第一数据方的是加密标签数据，因此，第一数据方只能够确定各个分箱的特征数据都对应哪些加密标签数据，第一数据方可以将此作为正负样本分布，但是是密文状态的，也即加密正负样本分布。

步骤S60，将所述加密正负样本分布发送给所述第二数据方，以供所述第二数据方对所述加密正负样本分布进行解密得到正负样本分布数据；

第一数据方可以将加密正负样本分布发送给第二数据方。第二数据方对加密正负样本分布进行解密，也即，第二数据方接收到的是各个分箱分别对应了哪些加密标签数据，第二数据方将这些加密标签数据都解密，即可得到各个分箱分别对应了哪些标签数据，而根据标签数据能够判断是负样本还是正样本，从而能够统计得到各个分箱的正样本数量和负样本数量，第二数据方将各个分箱的正样本数量和负样本数量作为正负样本分布数据，发送给第一数据方。需要说明的是，第二数据方可采用与上述加密标签数据的加密方式对应的解密方式进行解密。

步骤S70，接收所述第二数据方发送的所述正负样本分布数据，并基于所述正负样本分布数据计算所述待分箱特征的特征指标值。

第一数据方接收第二数据方发送的正负样本分布数据，并基于正负样本分布数据计算得到待分箱特征的特征指标值。

进一步地，第一数据方可以根据计算得到的特征指标值确定待分箱特征用于建模的可行性评价结果。具体地，可以预先根据特征指标的定义设置一个阈值区间，当该特征指标值处于该阈值区间时，表示待分箱特征可以用于建模，也即可行性评价结果为可以用于建模，当该特征指标值不处于该阈值区间时，表示待分箱特征不适合用于建模。例如，当特征指标值为iv值时，可设置iv值在0.1～0.5范围内(可包含两端点)时，确定该待分箱特征适合用于建模，即确定该待分箱特征的可行性评价结果是适合用于建模。

在本实施例中，在纵向联邦场景下，第一数据方的特征数据对应的标签数据在第二数据方中的情况下，通过第二数据方将加密的标签数据发送给第一数据方，由第一数据方统计得到加密的正负样本分布，然后发送给第二数据方解密，第二数据方加密后返回给第一数据方，使得第一数据方能够基于各个分箱的正负样本分布数据计算待分箱特征的特征指标值，进而依据特征指标值来评估待分箱特征用于建模的可行性，实现了在保护纵向联邦学习中各个数据方的数据隐私的情况下进行特征选择，以便于找到更加合适的特征用于建模，进而提升后续建模的建模效果。

进一步地，如图3所示，为本发明实施例涉及的一种可行的特征分箱流程图。图中，1、在数据(待分箱特征的特征数据)中选取一个支点元素，然后分别并行遍历分布式集群中的每一个节点，分别数出节点中大于和小于该支点元素的特征数据的个数。

2、合并每个节点的结果，获得整个集群中，大于和小于该支点元素的特征数据的个数。

3、基于大于和小于该支点元素的特征数据的个数得到该支点元素的排序(即排位)，评估该支点元素的排序和目标分位点排序的差值，如果差值小于允许误差，则结束，将该支点元素作为分位点，否则进入下一步。

4、如果该支点元素的排序比目标分位点的排序大，则过滤掉集群中所有比支点元素大的特征数据，否则过滤掉集群中所有比支点元素小的特征数据。

5、在剩余的值中，重复1-4步骤，直到找出分位点。

6、后续利用确定的分位点，继续求解纵向联邦情况下的特征iv值和woe值等。

此外，此外本发明实施例还提出一种特征分箱装置，参照图4，所述特征分箱装置包括：

第一确定模块10，用于从待分箱特征的特征数据集中确定支点元素；

统计模块20，用于将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量；

第二确定模块30，用于根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点。

进一步地，所述第二确定模块30包括：

第一确定单元，用于根据所述目标数据量确定所述支点元素在所述特征数据集中的支点排位；

检测单元，用于检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值；

第二确定单元，用于若所述差值小于所述预设误差值，则将所述支点元素作为所述待分箱特征的最终分位点。

进一步地，所述第二确定模块30还包括：

过滤单元，用于若所述差值大于或等于所述预设误差值，则基于所述支点元素过滤所述特征数据集，并从过滤后的特征数据集中确定新的支点元素，基于新的支点元素再执行所述步骤：将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量。

进一步地，所述过滤单元包括：

检测子单元，用于检测所述支点排位是否大于所述目标分位点排位；

第一过滤子单元，用于若所述支点排位大于所述目标分位点排位，则将所述特征数据集中大于所述支点元素的特征数据过滤掉；

第二过滤子单元，用于若所述支点排位小于所述目标分位点排位，则将所述特征数据集中小于所述支点元素的特征数据过滤掉。

进一步地，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述统计模块20包括：

发送单元，用于将所述支点元素发送给所述各个节点，以供所述各个节点分别统计各自的子特征数据集中小于所述支点元素的特征数据的子数据量；

接收单元，用于接收所述各个节点发送的所述子数据量，并累计各所述子数据量得到所述特征数据集中小于所述支点元素的特征数据的总数据量，将所述总数据量作为所述目标数据量。

进一步地，所述第一确定模块10包括：

抽样单元，用于从所述特征数据集中按照预设比例抽样，获得抽样数据集；

第三确定单元，用于根据所述预设比例和所述目标分位点排位确定目标抽样排位；

排序单元，用于对所述抽样数据集中各个特征数据进行排序，并基于排序结果，从所述抽样数据集中选出排位为所述目标抽样排位的特征数据作为支点元素。

进一步地，当所述特征分箱方法应用于纵向联邦学习中的第一数据方时，所述特征分箱装置还包括：

接收模块，用于接收纵向联邦学习中的第二数据方发送的加密标签数据；

统计模块，用于基于所述最终分位点确定所述待分箱特征的各个分箱，并基于所述加密标签数据统计得到所述特征数据集在所述各个分箱的加密正负样本分布；

发送模块，用于将所述加密正负样本分布发送给所述第二数据方，以供所述第二数据方对所述加密正负样本分布进行解密得到正负样本分布数据；

计算模块，用于接收所述第二数据方发送的所述正负样本分布数据，并基于所述正负样本分布数据计算所述待分箱特征的特征指标值。

本发明特征分箱装置的具体实施方式的拓展内容与上述特征分箱方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如下所述的特征分箱方法的步骤。

本发明特征分箱设备和计算机可读存储介质的各实施例，均可参照本发明特征分箱方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种特征分箱方法，其特征在于，所述特征分箱方法包括以下步骤：

从待分箱特征的特征数据集中确定支点元素；

根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点；

其中，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述将所述支点元素与所述特征数据集中的各特征数据分别进行比较，以得到用于表征所述支点元素在所述特征数据集中排位的目标数据量的步骤包括：

2.如权利要求1所述的特征分箱方法，其特征在于，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤包括：

3.如权利要求2所述的特征分箱方法，其特征在于，所述检测所述支点排位和预设的目标分位点排位的差值是否小于预设误差值的步骤之后，还包括：

4.如权利要求3所述的特征分箱方法，其特征在于，所述基于所述支点元素过滤所述特征数据集的步骤包括：

检测所述支点排位是否大于所述目标分位点排位；

5.如权利要求1所述的特征分箱方法，其特征在于，所述从待分箱特征的特征数据集中确定支点元素的步骤包括：

从所述特征数据集中按照预设比例抽样，获得抽样数据集；

6.如权利要求1至5任一项所述的特征分箱方法，其特征在于，当所述特征分箱方法应用于纵向联邦学习中的第一数据方时，所述根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点的步骤之后，还包括：

接收纵向联邦学习中的第二数据方发送的加密标签数据；

7.一种特征分箱装置，其特征在于，所述特征分箱装置包括：

第二确定模块，用于根据所述目标数据量和预设的目标分位点排位确定所述待分箱特征的最终分位点；

其中，当所述特征数据集包括多个子特征数据集，各所述子特征数据集分布于分布式集群的各个节点时，所述统计模块包括：

8.一种特征分箱设备，其特征在于，所述特征分箱设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的特征分箱程序，所述特征分箱程序被所述处理器执行时实现如权利要求1至6中任一项所述的特征分箱方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有特征分箱程序，所述特征分箱程序被处理器执行时实现如权利要求1至6中任一项所述的特征分箱方法的步骤。