CN116244650B

CN116244650B - 特征分箱方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN116244650B
Application number: CN202310531069.6A
Authority: CN
Inventors: 陈立峰; 李腾飞; 卞阳; 杨云波; 尤志强
Original assignee: Beijing Fucun Technology Co ltd
Current assignee: Beijing Fucun Technology Co ltd
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-10-03
Anticipated expiration: 2043-05-12
Also published as: CN116244650A

Abstract

本申请提供了一种特征分箱方法、装置、电子设备和计算机可读存储介质，其中，该方法包括：获取至少两个分箱参与方的用户特征数据集，其中，每一组用户特征数据集包括多项用户特征数据；将至少两个分箱参与方的所述用户特征数据集进行处理，得到至少两个分箱参与方对应的增值特征数据，所述增值特征数据所包含的交集特征数据与处理后的非交集特征数据；根据所述增值特征数据，确定出所述用户特征数据的极值数值；根据所述极值数值，对所述用户特征数据集进行分箱处理。

Description

特征分箱方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种特征分箱方法、装置、电子设备和计算机可读存储介质。

背景技术

针对一些联合作业的场景为例，不同公司平台合作进行活动投放。但是出于隐私保护和监管要求，彼此之间不能共享数据，导致活动信息的投放方获取广告主的客户转化信息，因此无法构建目标人群的用户画像模型，最终影响活动信息投放效果。

而在全匿踪联邦学习建模的场景下，由于不同公司平台中的非交集用户特征不可知，从而无法直观的获取非交集数据的最值，导致用户特征数据分箱困难。

发明内容

本申请的目的在于提供一种特征分箱方法、装置、电子设备和计算机可读存储介质，能够改善用户特征数据分箱困难的问题。

第一方面，本发明提供一种特征分箱方法，包括：

获取至少两个分箱参与方的用户特征数据集，其中，每一组用户特征数据集包括多项用户特征数据；

将至少两个分箱参与方的所述用户特征数据集进行处理，得到至少两个分箱参与方对应的增值特征数据，所述增值特征数据所包含的交集特征数据与处理后的非交集特征数据；

根据所述增值特征数据，确定出所述用户特征数据的极值数值；

根据所述极值数值，对所述用户特征数据集进行分箱处理。

在可选的实施方式中，每一项所述用户特征数据包含多类用户特征；

所述根据所述增值特征数据，确定出所述用户特征数据的极值数值，包括：

针对目标类用户特征，根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，其中，所述目标类用户特征为所述用户特征数据所包含的多类用户特征中的任意一类用户特征；

所述根据所述极值数值，对所述用户特征数据集进行分箱处理，包括：

根据每一类用户特征对应的极值数值，对所述用户特征数据集中的每一类用户特征进行分箱处理。

在可选的实施方式中，所述极值数值包括最大数值；所述根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，包括：

针对所述增值特征数据中的所述目标类用户特征中的第一用户特征和第二用户特征，根据所述第一用户特征以及所述第一用户特征对应的第一隐私集合求交指数，计算出第一对比值，其中，所述第一用户特征与所述第二用户特征为所述目标类用户特征中所有用户特征中的任意两项，所述第一用户特征属于所述交集特征数据时所述第一隐私集合求交指数为第一值，所述第一用户特征属于所述非交集特征数据时所述第一隐私集合求交指数为第二值；

根据所述第二用户特征以及所述第一用户特征对应的第二隐私集合求交指数，计算出第二对比值，其中，所述第二用户特征属于所述交集特征数据时所述第二隐私集合求交指数为第一值，所述第二用户特征属于所述非交集特征数据时所述第二隐私集合求交指数为第二值；

根据所述第一对比值与所述第二对比值，确定出所述第一用户特征与所述第二用户特征匹配的较大值；

根据所述目标类用户特征中的任意两项用户特征匹配的较大值，确定出所述目标类用户特征对应的最大数值。

在可选的实施方式中，所述根据所述第一用户特征以及所述第一用户特征对应的第一隐私集合求交指数，计算出第一对比值，包括：

计算所述第一值与所述第一隐私集合求交指数的第一差值；

计算所述第一差值与第一预设值的乘积，得到第一乘积值；

根据所述第一乘积值与所述第一用户特征计算得到第一对比值。

在可选的实施方式中，所述极值数值包括最小数值；所述根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，包括：

针对所述增值特征数据中的所述目标类用户特征中的第三用户特征和第四用户特征，根据所述第三用户特征以及所述第三用户特征对应的第三隐私集合求交指数，计算出第三对比值，其中，所述第三用户特征与所述第四用户特征为所述目标类用户特征中所有用户特征中的任意两项，所述第三用户特征属于所述交集特征数据时所述第三隐私集合求交指数为第一值，所述第三用户特征属于所述非交集特征数据时所述第三隐私集合求交指数为第二值；

根据所述第四用户特征以及所述第三用户特征对应的第四隐私集合求交指数，计算出第四对比值，其中，所述第四用户特征属于所述交集特征数据时所述第四隐私集合求交指数为第一值，所述第四用户特征属于所述非交集特征数据时所述第四隐私集合求交指数为第二值；

根据所述第三对比值与所述第四对比值，确定出所述第三用户特征与所述第四用户特征匹配的较小值；

根据所述目标类用户特征中的任意两项用户特征匹配的较小值，确定出所述目标类用户特征对应的最小数值。

在可选的实施方式中，所述根据所述第三用户特征以及所述第三用户特征对应的第三隐私集合求交指数，计算出第三对比值，包括：

计算所述第一值与所述第三隐私集合求交指数的第三差值；

计算所述第三差值与第二预设值的乘积，得到第三乘积值；

根据所述第三乘积值与所述第三用户特征计算得到第三对比值。

针对所述增值特征数据中的所述目标类用户特征中的第五用户特征和第六用户特征，对所述第五用户特征与所述第六用户特征进行和运算，得到特征和，其中，所述第五用户特征与所述第六用户特征为所述目标类用户特征中所有用户特征中的任意两项；

对所述第五用户特征对应的第五隐私集合求交指数，以及所述第六用户特征对应的第六隐私集合求交指数进行与运算，得到特征与值；

对所述第五用户特征与所述第六用户特征匹配的较大值，以及所述特征与值进行乘积运算，得到特征乘积；

对所述特征和与所述特征乘积进行差运算，得到确定出所述第五用户特征与所述第六用户特征匹配的较小值；

在可选的实施方式中，所述根据所述极值数值，对所述用户特征数据进行分箱处理，包括：

根据所述极值数值以及预设分箱数，将所述用户特征数据进行等距分箱处理。

第二方面，本发明提供一种特征分箱装置，包括：

获取模块，用于获取至少两个分箱参与方的用户特征数据集，其中，每一组用户特征数据集包括多项用户特征数据；

第一处理模块，用于将至少两个分箱参与方的所述用户特征数据集进行处理，得到至少两个分箱参与方对应的增值特征数据，所述增值特征数据所包含的交集特征数据与处理后的非交集特征数据；

确定模块，用于根据所述增值特征数据，确定出所述用户特征数据的极值数值；

第二处理模块，用于根据所述极值数值，对所述用户特征数据集进行分箱处理。

第三方面，本发明提供一种电子设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。

本申请实施例的有益效果是：通过至少两个分箱参与方的交集特征数据与非交集特征数据的特性计算用户特征数据的极值数值，以此来确定出分箱处理结果，可以考虑到非交集特征数据所存在的隐私性以及交集特征数据的可知性，使确定出的分箱处理结果能够满足至少两个分箱参与方的分箱需求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的方框示意图；

图2为本申请实施例提供的特征分箱方法的流程图；

图3为本申请实施例提供的特征分箱方法的步骤230的部分示意流程图；

图4为本申请实施例提供的特征分箱方法的步骤230的另一部分示意流程图；

图5为本申请实施例提供的特征分箱方法的步骤230的再一部分示意流程图；

图6为本申请实施例提供的特征分箱装置的功能模块示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前随着市场的多样化，越来越多的商业活动采用多公司平台联合的方式实现。以联合营销场景为例，一些证券公司和一些互联网平台合作进行营销活动投放，在此过程中，互联网平台通过负责触达用户，证券公司负责客户转化，双方拥有各自阶段的营销转化数据。但是出于用户安全以及公司平台的隐私保护和监管需求，不同公司平台彼此之间不能共享数据，导致活动信息的投放实现客户转化，因此无法构建目标用户群体的用户画像模型，最终影响联合营销的活动信息的投放效果，并且会对非目标人群造成打扰。

因此出于用户信息安全，以及公司平台内部的信息安全考虑，联邦学习技术随之产生，其可以解决改善上述不同数据源之间的隐私保护需求与联合建模需求的矛盾。

但是，目前的联邦学习对多参与方的用户数据进行安全求交后的用户交集身份信息的保护尚欠缺。而全匿踪联邦训练技术可以降低安全求交结果暴露，从而满足个人信息匿名化的安全合规要求。在联邦学习中，以决策树分类模型为例，对特征数据进行分箱是常用动作，分箱可以帮助树模型快速定位分裂点，从而使模型快速收敛。在当前的纵向联邦学习中，由于无需考虑交集身份信息是否暴露，参与建模的各个数据方可以根据各自的特征进行分箱操作。但是在全匿踪联邦学习建模的场景下，从而无法直观的获取交集数据的最值，导致分箱困难。

基于上述现状，本申请提供了一种特征分箱方法，可以针对存在多方参与方的情况下的数据特征的分箱。

为便于对本实施例进行理解，首先对执行本申请实施例所公开的一种特征分箱方法的电子设备进行介绍。

如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

上述的存储器111与处理器113相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。

其中，存储器111可以是，但不限于，随机存取存储器（Random Access Memory，简称RAM），只读存储器（Read Only Memory，简称ROM），可编程只读存储器（ProgrammableRead-Only Memory，简称PROM），可擦除只读存储器（Erasable Programmable Read-OnlyMemory，简称EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-OnlyMemory，简称EEPROM）等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。

上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本实施例中，该电子设备100可以与需要进行分箱操作的分箱参与方的电子设备进行通信，以获得各个分箱参与方的用户特征数据集。该分箱参与方可以是具有用户数据的平台，例如，证券公司、互联网平台等。

本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述特征分箱方法的实现过程。

请参阅图2，是本申请实施例提供的特征分箱方法的流程图。本实施例提供的特征分箱方法可以应用于上述图1所示的电子设备中，该电子设备可以是需要进行分箱处理的设备。下面将对图2所示的具体流程进行详细阐述。

步骤210，获取至少两个分箱参与方的用户特征数据集。

其中，每一组用户特征数据集包括多项用户特征数据。

可选地，执行特征分箱方法的电子设备可以是不同于分箱参与方的第三方的终端设备。可以通过与各个分箱参与方的控制设备通信的方式获得用户特征数据集。

可选地，在需要进行本实施例提供的特征分箱方法分流程之前，可以先与至少两个分箱参与方所在的控制设备建立通信连接，通过与两个分箱参与方所在的控制设备通信的方式获得至少两个分箱参与方的用户特征数据集。

可选地，执行特征分箱方法的电子设备可以是分箱参与方中的其中一方的终端设备。该电子设备可以与其它分箱参与方的控制设备建立通信连接，以获得其它分箱参与方的用户特征数据集。

本实施例中，在进行特征分箱方法之前，电子设备可以与至少两个分箱参与方的控制设备建立联邦学习网络，通过联邦学习的信息获取方式获得至少两个分箱参与方的用户特征数据集。

每一项用户特征数据用于表征一位用户所对应的用户特征。示例性地，每一项用户特征数据中可以包括多类用户特征，每一类用户特征用来表征该用户的一项特性。例如，可以包含用来表征用户身高的用户特征、用来表征用户年龄的用户特征、用来表征用户消费数据的用户特征、用来表示用户归属地的用户特征等。

步骤220，将至少两个分箱参与方的该用户特征数据集进行处理，得到至少两个分箱参与方对应的增值特征数据。

该增值特征数据所包含的交集特征数据与处理后的非交集特征数据。

本实施例中，将至少两个分箱参与方的该用户特征数据集进行秘密分享技术处理，得到增值特征数据。其中，该增值特征数据中所包含的元素呈秘密分片数据，而非原始的数据明文。就至少两个分箱参与方任意一方参与方而言，不能够获知增值特征数据中的原始数据。

本实施例中，后续对增值特征数据的处理是基于至少两个分箱参与方的安全计算协议下进行的运算。

示例性地，增值特征数据中所包含的处理后的非交集特征数据中的各项用户特征数据中的各项用户特征可以取指定值。增值特征数据中所包含的交集特征数据中的各项用户特征数据中的用户特征可以为步骤210获取的至少两个分箱参与方的用户特征数据集的原始值。

示例性地，可以对两个分箱参与方的用户特征数据集可以是包含多个特征向量的特征矩阵。通过步骤220处理后得到的增值特征数据可以通过特征增广矩阵呈现。

示例性地，每一项用户特征数据至少包含表征用户身份标识（Identitydocument，简称id）的身份用户特征。确定出的特征增广矩阵所包含的用户特征数据的数量为各个分箱参与方的该用户特征数据集所包含的用户特征数据的并集，特征增广矩阵所包含的用户特征类别为各个分箱参与方的该用户特征数据集所包含的用户特征的类别的并集。

可选地，该特征增广矩阵所包含的用户特征类别还可以包含隐私集合求交指数。该特征增广矩阵中包含隐私集合求交（Private Set Intersection，简称PSI），对于身份用户特征存在于各个分箱参与方的，其对应的隐私集合求交指数可以为第一值，对于身份用户特征不存在部分分箱参与方的，其对应的隐私集合求交指数可以为第二值。例如，该第一值可以设置为1，第二值可以设置为0。当然，根据实际需求的不同，该第一值与第二值也可以为其它值。

以仅包含两个分箱参与方为例，若身份用户特征对应的隐私集合求交指数为第一值时，该身份用户特征对应的各类用户特征的取值可以为步骤210获得的至少两个分箱参与方的用户特征数据集中的原始值；若身份用户特征对应的隐私集合求交指数为第二值时，该身份用户特征对应的各类用户特征的取值可以为指定值。例如，该指定值可以为0。

在一个实例中，若步骤210获得了两个分箱参与方:参与方P0和参与方P1，参与方P0和参与方P1的用户特征数据集，分别表示为矩阵一和矩阵二：

矩阵一

其中，该参与方P0的用户特征数据集矩阵一中包含了六项用户特征数据，分别为用户id为：124578、986532、362514、415263、582565以及796413，每一项用户特征数据包含了五类用户特征：id、Y、X1、X2和X3。

矩阵二

其中，该参与方P1的用户特征数据集矩阵二中包含了六项用户特征数据，分别为用户id为：625184、986532、152648、415263、582565以及376895，每一项用户特征数据包含了三类用户特征：id、X4和X5。

由上述两个矩阵可以看出参与方P0与参与方P1包含了三位相同的用户id，分别为：986532、415263和582565。

将矩阵一和矩阵二进行经过秘密分享技术处理后，得到特征增广矩阵。其中，经过秘密分享技术处理矩阵一和矩阵二后得到的是秘密分片数据，并不是原始的数据明文，因此，该特征增广矩阵中的元素为秘密分片数据。特征增广矩阵中的元素可以使用<>表示其为秘密分片数据。其中，在矩阵一所在的数据参与方与矩阵二所在的数据参与方均同意恢复为明文数据时，可以将特征增广矩阵转换成明文数据，否则矩阵一所在的数据参与方或矩阵二所在的数据参与方无法推测实际的值是。

示例性地，该特征增广矩阵可以是如下所示的矩阵三：

其中，经过处理矩阵一和矩阵二后得到的矩阵三中所包含的用户特征数据的数量为9，也就是：用户id为：<124578>、<986532>、<362514>、<415263>、<582565>以及<796413>与用户id为：<625184>、<986532>、<152648>、<415263>、<582565>以及<376895>的并集，用户id为：<124578>、<986532>、<362514>、<415263>、<582565>、<796413>、<625184>、<152648>以及<376895>所对应的用户特征数据。

矩阵三中所包含用户特征的类别为矩阵一所包含的五类用户特征id、Y、X1、X2和X3，与矩阵二所包含的三类用户特征id、X4和X5的并集：id、Y、X1、X2、X3、X4和X5七类用户特征，以及PSI。

其中，在上述实例中，由于用户id为：<124578>、<362514>、以及<796413>仅存在于参与方P0中，因此，在矩阵三中用户id为<124578>、<362514、以及<796413的PSI为<0>，且各项用户特征均为<0>。由于用户id为：<625184、<152648以及<376895仅存在于参与方P1中，因此，在矩阵三中用户id为<625184>、<152648>以及<376895>的PSI为<0>，且各项用户特征均为<0>。由于用户id为：<986532>、<415263>、<582565>同时存在于参与方P0以及参与方P1中，因此，在矩阵三中用户id为<986532>、<415263>以及<582565>的PSI为<1>，且各项用户特征为矩阵一或矩阵二中的原始值。

步骤230，根据该增值特征数据，确定出该用户特征数据的极值数值。

本实施例中，该极值数值可以包括最大数值和最小数值。

其中，交集特征数据中可以包括至少一项用户特征数据，非交集特征数据中可以包含零项、一项或者多项用户特征数据。

本实施例中，每一项该用户特征数据包含多类用户特征。因此，可以针对每一类用户特征确定出其对应的极值数值。

上述的步骤230可以包括：针对目标类用户特征，根据该增值特征数据，计算出该目标类用户特征对应的极值数值，其中，该目标类用户特征为该用户特征数据所包含的多类用户特征中的任意一类用户特征。

示例性地，针对任意一类用户特征，在确定极值数值时，可以仅根据交集特征数据确定出各类用户特征的极值数值。

示例性地，针对任意一类用户特征，在确定极值数值时，可以仅选用特征增广矩阵中该类用户特征中为保留了原始值的用户特征进行确定。以上述的特征增广矩阵为矩阵三为例，可以仅从用户id为<986532>、<415263>以及<582565>所对应的用户特征值确定极值数值。

步骤240，根据该极值数值，对该用户特征数据集进行分箱处理。

可选地，根据每一类用户特征对应的极值数值，对该用户特征数据集中的每一类用户特征进行分箱处理。

例如，针对目标类用户特征，可以根据该目标类用户特征的极值数值，将用户特征数据集进行分箱处理。可选地，可以根据该类用户特征的极值数值，将用户特征数据集进行等距分箱处理。

示例性地，针对任意一类用户特征，可以根据该类用户特征的最大数值和最小数值，划分多个等距区间。然后，将用户特征数据集中的该类用户特征下的所有用户特征划分至多个等距区间，以完成分箱处理。

可选地，在进行分箱之前还可以设定一个分箱数，在进行分箱时，可以将用户特征数据集按照该分箱数进行划分。例如，该步骤240可以包括：根据该极值数值以及预设分箱数，将该用户特征数据进行等距分箱处理。

基于上述的分箱处理，可以避免直接使用非交集的秘密分片确定极值数值，导致分箱失败。

为了使分箱处理能够更简单地被计算出来，下面结合一些计算公式以及计算规则，描述针对极值数值包括最大数值和最小数值的确定过程。

可选地，极值数值包括最大数值。如图3所示，上述的步骤230可以包括步骤231至步骤234。

步骤231，针对该增值特征数据中的该目标类用户特征中的第一用户特征和第二用户特征，根据该第一用户特征以及该第一用户特征对应的第一隐私集合求交指数，计算出第一对比值。

其中，该第一用户特征与该第二用户特征为该目标类用户特征中所有用户特征中的任意两项，该第一用户特征属于该交集特征数据时该第一隐私集合求交指数为第一值，该第一用户特征属于该非交集特征数据时该第一隐私集合求交指数为第二值。

以上述的矩阵三为例，若第一用户特征的用户id为<415263>时，则该第一用户特征第一隐私集合求交指数则为第一值<1>。若第二用户特征的用户id为<625184>，则该第二用户特征第二隐私集合求交指数则为第二值<0>。

可选地，步骤231可以包括：若第一隐私集合求交指数为第一值，则该第一对比值可以取值为第一用户特征，若第一隐私集合求交指数为第二值，则该第一对比值可以取值为第一预设值。该第一预设值可以为一个较小的值。例如，第一预设值可以为-10000、-9999、-9999999、等值。

可选地，步骤231可以包括：计算该第一值与该第一隐私集合求交指数的第一差值；计算该第一差值与第一预设值的乘积，得到第一乘积值；根据该第一乘积值与该第一用户特征计算得到第一对比值。

例如，该第一对比值可以通过以下公式表示：

其中，表示第一用户特征，第一值为</>>，/>表示第一隐私集合求交指数，第一预设值为/>。

在上述公式中，第一预设值取值为。在实际使用中，第一预设值也可以取一个较小的值。

步骤232，根据该第二用户特征以及该第一用户特征对应的第二隐私集合求交指数，计算出第二对比值。

其中，该第二用户特征属于该交集特征数据时该第二隐私集合求交指数为第一值，该第二用户特征属于该非交集特征数据时该第二隐私集合求交指数为第二值。

可选地，步骤232可以包括：若第二隐私集合求交指数为第一值，则该第二对比值可以取值为第二用户特征，若第二隐私集合求交指数为第二值，则该第二对比值可以取值为第一预设值。

可选地，步骤232可以包括：计算该第一值与该第二隐私集合求交指数的第二差值；计算该第二差值与第一预设值的乘积，得到第二乘积值；根据该第二乘积值与该第二用户特征计算得到第二对比值。

例如，该第一对比值可以通过以下公式表示：

其中，表示第二用户特征，第一值为/>，/>表示第二隐私集合求交指数。

步骤233，根据该第一对比值与该第二对比值，确定出该第一用户特征与该第二用户特征匹配的较大值。

示例性地，可以选出第一对比值与该第二对比值中更大的一个值作为第一用户特征与该第二用户特征匹配的较大值。

步骤234，根据该目标类用户特征中的任意两项用户特征匹配的较大值，确定出该目标类用户特征对应的最大数值。

可选地，可以目标类用户特征中的任意两项用户特征匹配的较大值选出最大的一个值，作为该目标类用户特征对应的最大数值。

通过上述处理方式，可以降低非交集特征数据中的用户特征对最大数值确定的影响，可以使得分箱结果能够更好地满足实际需求。

在一种实施方式中，该极值数值包括最小数值；如图4所示，上述的步骤230可以包括：步骤235至步骤238。

步骤235，针对该增值特征数据中的该目标类用户特征中的第三用户特征和第四用户特征，根据该第三用户特征以及该第三用户特征对应的第三隐私集合求交指数，计算出第三对比值。

其中，该第三用户特征与该第四用户特征为该目标类用户特征中所有用户特征中的任意两项，该第三用户特征属于该交集特征数据时该第三隐私集合求交指数为第一值，该第三用户特征属于该非交集特征数据时该第三隐私集合求交指数为第二值。

可选地，步骤235可以包括：若第三隐私集合求交指数为第一值，则该第三对比值可以取值为第三用户特征，若第三隐私集合求交指数为第二值，则该第三对比值可以取值为第二预设值。该第二预设值可以为一个较大的值。例如，第二预设值可以为10000、9999、9999999、等值。

可选地，步骤235可以包括：计算该第一值与该第三隐私集合求交指数的第三差值；计算该第三差值与第二预设值的乘积，得到第三乘积值；根据该第三乘积值与该第三用户特征计算得到第三对比值。

例如，该第一对比值可以通过以下公式表示：

其中，表示第三用户特征，第一值为/>，/>表示第三隐私集合求交指数。

步骤236，根据该第四用户特征以及该第三用户特征对应的第四隐私集合求交指数，计算出第四对比值。

其中，该第四用户特征属于该交集特征数据时该第四隐私集合求交指数为第一值，该第四用户特征属于该非交集特征数据时该第四隐私集合求交指数为第二值。

可选地，步骤236可以包括：若第四隐私集合求交指数为第一值，则该第四对比值可以取值为第四用户特征，若第四隐私集合求交指数为第二值，则该第四对比值可以取值为第二预设值。

可选地，步骤236可以包括：计算该第一值与该第四隐私集合求交指数的第四差值；计算该第四差值与第二预设值的乘积，得到第四乘积值；根据该第四乘积值与该第四用户特征计算得到第四对比值。

例如，该第一对比值可以通过以下公式表示：

其中，表示第四用户特征，第一值为/>，/>表示第四隐私集合求交指数，第二预设值为/>。

在上述公式中，第二预设值取值为。在实际使用中，第二预设值也可以取一个较大的正数。

步骤237，根据该第三对比值与该第四对比值，确定出该第三用户特征与该第四用户特征匹配的较小值。

示例性地，可以选出第三对比值与第四对比值中更小的值作为第三用户特征与该第四用户特征匹配的较小值。

步骤238，根据该目标类用户特征中的任意两项用户特征匹配的较小值，确定出该目标类用户特征对应的最小数值。

可选地，可以从目标类用户特征中的任意两项用户特征匹配的较小值中选出最小的一个值，作为目标类用户特征对应的最小数值。

在另一种实施方式中，极值数值包括最小数值，如图5所示，步骤230可以包括步骤239至步骤2313。

步骤239，针对该增值特征数据中的该目标类用户特征中的第五用户特征和第六用户特征，对该第五用户特征与该第六用户特征进行和运算，得到特征和。

其中，该第五用户特征与该第六用户特征为该目标类用户特征中所有用户特征中的任意两项。

步骤2310，对该第五用户特征对应的第五隐私集合求交指数，以及该第六用户特征对应的第六隐私集合求交指数进行与运算，得到特征与值。

步骤2311，对该第五用户特征与该第六用户特征匹配的较大值，以及该特征与值进行乘积运算，得到特征乘积。

步骤2312，对该特征和与该特征乘积进行差运算，得到确定出该第五用户特征与该第六用户特征匹配的较小值。

步骤2313，根据该目标类用户特征中的任意两项用户特征匹配的较小值，确定出该目标类用户特征对应的最小数值。

示例性地，上述的步骤239至步骤2313可以通过以下公式实现：

;

其中，表示第五用户特征，/>表示第六用户特征，/>表示第五隐私集合求交指数，/>表示第六隐私集合求交指数。

其中，表示第五用户特征与第六用户特征匹配的较大值。该第五用户特征与第六用户特征匹配的较大值的确定方式可以与上述第一用户特征与该第二用户特征的较大值的确定方式相同。

通过上述处理方式，可以降低非交集特征数据中的用户特征对最小数值确定的影响，可以使得分箱结果能够更好地满足实际需求。

基于同一申请构思，本申请实施例中还提供了与特征分箱方法对应的特征分箱装置，由于本申请实施例中的装置解决问题的原理与前述的特征分箱方法实施例相似，因此本实施例中的装置的实施可以参见上述方法的实施例中的描述，重复之处不再赘述。

请参阅图6，是本申请实施例提供的特征分箱装置的功能模块示意图。本实施例中的特征分箱装置中的各个模块用于执行上述方法实施例中的各个步骤。特征分箱装置包括：获取模块310、第一处理模块320、确定模块330和第二处理模块340；其中各个模块的内容如下所示：

获取模块310，用于获取至少两个分箱参与方的用户特征数据集，其中，每一组用户特征数据集包括多项用户特征数据；

第一处理模块320，用于将至少两个分箱参与方的该用户特征数据集进行处理，得到至少两个分箱参与方对应的增值特征数据，该增值特征数据所包含的交集特征数据与处理后的非交集特征数据；

确定模块330，用于根据该增值特征数据，确定出该用户特征数据的极值数值；

第二处理模块340，用于根据该极值数值，对该用户特征数据集进行分箱处理。

一种可能的实施方式中，每一项该用户特征数据包含多类用户特征；确定模块330，用于针对目标类用户特征，根据该增值特征数据，计算出该目标类用户特征对应的极值数值，其中，该目标类用户特征为该用户特征数据所包含的多类用户特征中的任意一类用户特征；

第二处理模块340，用于根据每一类用户特征对应的极值数值，对该用户特征数据集中的每一类用户特征进行分箱处理。

一种可能的实施方式中，该极值数值包括最大数值；上述的确定模块330，包括：第一确定单元；

其中，该第一确定单元，用于针对该增值特征数据中的该目标类用户特征中的第一用户特征和第二用户特征，根据该第一用户特征以及该第一用户特征对应的第一隐私集合求交指数，计算出第一对比值，其中，该第一用户特征与该第二用户特征为该目标类用户特征中所有用户特征中的任意两项，该第一用户特征属于该交集特征数据时该第一隐私集合求交指数为第一值，该第一用户特征属于该非交集特征数据时该第一隐私集合求交指数为第二值；根据该第二用户特征以及该第一用户特征对应的第二隐私集合求交指数，计算出第二对比值，其中，该第二用户特征属于该交集特征数据时该第二隐私集合求交指数为第一值，该第二用户特征属于该非交集特征数据时该第二隐私集合求交指数为第二值；根据该第一对比值与该第二对比值，确定出该第一用户特征与该第二用户特征匹配的较大值；根据该目标类用户特征中的任意两项用户特征匹配的较大值，确定出该目标类用户特征对应的最大数值。

一种可能的实施方式中，该第一确定单元，还用于计算该第一值与该第一隐私集合求交指数的第一差值；计算该第一差值与第一预设值的乘积，得到第一乘积值；根据该第一乘积值与该第一用户特征计算得到第一对比值。

一种可能的实施方式中，该极值数值包括最小数值；上述的确定模块330，包括：第二确定单元；

其中，第二确定单元，用于针对该增值特征数据中的该目标类用户特征中的第三用户特征和第四用户特征，根据该第三用户特征以及该第三用户特征对应的第三隐私集合求交指数，计算出第三对比值，其中，该第三用户特征与该第四用户特征为该目标类用户特征中所有用户特征中的任意两项，该第三用户特征属于该交集特征数据时该第三隐私集合求交指数为第一值，该第三用户特征属于该非交集特征数据时该第三隐私集合求交指数为第二值；根据该第四用户特征以及该第三用户特征对应的第四隐私集合求交指数，计算出第四对比值，其中，该第四用户特征属于该交集特征数据时该第四隐私集合求交指数为第一值，该第四用户特征属于该非交集特征数据时该第四隐私集合求交指数为第二值；根据该第三对比值与该第四对比值，确定出该第三用户特征与该第四用户特征匹配的较小值；根据该目标类用户特征中的任意两项用户特征匹配的较小值，确定出该目标类用户特征对应的最小数值。

一种可能的实施方式中，第二确定单元，还用于计算该第一值与该第三隐私集合求交指数的第三差值；计算该第三差值与第二预设值的乘积，得到第三乘积值；根据该第三乘积值与该第三用户特征计算得到第三对比值。

一种可能的实施方式中，该极值数值包括最小数值；确定模块330，还包括第三确定单元；

该第三确定单元，用于针对该增值特征数据中的该目标类用户特征中的第五用户特征和第六用户特征，对该第五用户特征与该第六用户特征进行和运算，得到特征和，其中，该第五用户特征与该第六用户特征为该目标类用户特征中所有用户特征中的任意两项；对该第五用户特征对应的第五隐私集合求交指数，以及该第六用户特征对应的第六隐私集合求交指数进行与运算，得到特征与值；对该第五用户特征与该第六用户特征匹配的较大值，以及该特征与值进行乘积运算，得到特征乘积；对该特征和与该特征乘积进行差运算，得到确定出该第五用户特征与该第六用户特征匹配的较小值；根据该目标类用户特征中的任意两项用户特征匹配的较小值，确定出该目标类用户特征对应的最小数值。

一种可能的实施方式中，第二处理模块340，用于根据该极值数值以及预设分箱数，将该用户特征数据进行等距分箱处理。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的特征分箱方法的步骤。

本申请实施例所提供的特征分箱方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的特征分箱方法的步骤，具体可参见上述方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种特征分箱方法，其特征在于，包括：

根据所述极值数值，对所述用户特征数据集进行分箱处理；

每一项所述用户特征数据包含多类用户特征；

根据每一类用户特征对应的极值数值，对所述用户特征数据集中的每一类用户特征进行分箱处理；

所述极值数值包括最大数值；所述根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一用户特征以及所述第一用户特征对应的第一隐私集合求交指数，计算出第一对比值，包括：

计算所述第一值与所述第一隐私集合求交指数的第一差值；

计算所述第一差值与第一预设值的乘积，得到第一乘积值；

3.根据权利要求1所述的方法，其特征在于，所述极值数值包括最小数值；所述根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第三用户特征以及所述第三用户特征对应的第三隐私集合求交指数，计算出第三对比值，包括：

计算所述第一值与所述第三隐私集合求交指数的第三差值；

计算所述第三差值与第二预设值的乘积，得到第三乘积值；

5.根据权利要求1所述的方法，其特征在于，所述极值数值包括最小数值；所述根据所述增值特征数据，计算出所述目标类用户特征对应的极值数值，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述极值数值，对所述用户特征数据进行分箱处理，包括：

7.一种特征分箱装置，其特征在于，包括：

确定模块，用于根据所述增值特征数据，确定出所述用户特征数据的极值数值；每一项所述用户特征数据包含多类用户特征；

根据所述目标类用户特征中的任意两项用户特征匹配的较大值，确定出所述目标类用户特征对应的最大数值；

第二处理模块，用于根据所述极值数值，对所述用户特征数据集进行分箱处理；所述根据所述极值数值，对所述用户特征数据集进行分箱处理，包括：

8.一种电子设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法的步骤。