CN114329127B

CN114329127B - 特征分箱方法、装置及存储介质

Info

Publication number: CN114329127B
Application number: CN202111647606.0A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-06-20
Anticipated expiration: 2041-12-30
Also published as: CN114329127A

Abstract

本申请涉及数据处理领域，提供了一种特征分箱方法、装置及存储介质。该方法包括：获取待分箱样本集的非数值特征集合；根据每个非数值特征的特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征进行编码；基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；获取每一候选分箱方式的各个分箱的证据权重；根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱。本申请通过根据特征值对非数值特征进行编码，然后再根据特征编码确定分箱方式，使各种非数值特征都能参与分箱过程；且得到特征编码的数据量小，计算资源消耗低，不影响后续处理效率。

Description

特征分箱方法、装置及存储介质

技术领域

本申请的实施例涉及数据处理领域，更具体地涉及特征分箱方法、装置及存储介质。

背景技术

目前，在很多领域需要对特征进行分箱，例如，在机器学习中，进行特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法，比如，要考察特征与标签之间的相关程度时，IV(Information Value，信息价值)值往往是变量显著性的重要指标，可运用于特征选择之中。

但是，待分箱样本的特征数据往往不是单纯的数值类型数据，还包括很多非数值类型数据，例如性别、学历和爱好等个人信息特征。当前的自动分箱方法往往需要根据特征的数值确定分箱点，即只能根据数值类型的特征进行分箱。如果根据对非数值型数据进行分箱，需要先引入额外的模块对数据进行独热编码。虽然独热编码可以作为非数值型数据的通用编码方式，但在实际运用中，独热编码会使得数据集数据量急剧膨胀，进而影响后续步骤的处理效率。

发明内容

本申请实施例提供一种特征分箱方法、装置及存储介质，对待分箱样本集的非数值特征集合中的所有非数值特征，根据特征类别和特征值进行自动编码，然后再根据特征编码确定分箱方式，使得特征分箱不再受限于样本的特征值类型，即各种非数值类型的特征都能够参与分箱过程，为特征分箱方式提供了更多选择；且基于特征值进行的自动编码得到编码结果的数据量不大于甚至远远小于样本本身的总数量，存储资源占用少，计算资源消耗低，不影响后续步骤的处理效率。

在本申请的第一方面中，提供了一种特征分箱方法，应用于第一终端，包括：

获取待分箱样本集的非数值特征集合，所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征；

根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；

基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

获取每一候选分箱方式的各个分箱的证据权重；

根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；

按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱。

在本申请的第二方面中，提供了一种特征分箱装置，应用于第一终端，包括：

输入输出模块，被配置为获取待分箱样本集的非数值特征集合，所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征；

处理模块，被配置为根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；以及基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

所述输入输出模块，还被配置为获取每一候选分箱方式的各个分箱的证据权重；

所述处理模块，还被配置为根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；以及按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱。

在本申请的第三方面中，提供了计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

在本申请的第四方面中，提供了一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的方法。

根据本申请实施例的特征分箱方法、装置及存储介质，对待分箱样本集的非数值特征集合中的全部非数值特征，根据特征类别和特征值进行自动编码，然后再根据特征编码确定分箱方式，使得特征分箱不再受限于样本的特征值类型，即各种非数值类型的特征都能够参与分箱过程，为特征分箱方式提供了更多选择；且基于特征值进行的自动编码得到编码结果的数据量不大于甚至远远小于样本本身的总数量，存储资源占用少，计算资源消耗低，不影响后续步骤的处理效率。另外，在本申请的一些实施例中，采用全同态加密方式对特征分箱过程中传输的数据进行加密，在提高加密计算性能的同时确保了更强的加密安全性。另外，在本申请的一些实施例中，进行自动分箱之后，还可以继续接收再次分箱指令，有利于用户提供领域知识或先验知识（例如知识图谱），指导分箱过程，得到更符合相关领域应用的分箱结果。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施例，其中：

图1为本申请一些实施例的特征分箱方法的一种实施场景示意图；

图2为本申请一些实施例的特征分箱方法的又一种实施场景示意图；

图3为本申请一个实施例的特征分箱方法的流程示意图；

图4为本申请一实施例提供的特征分箱方法的信令交互图；

图5为本申请一实施例提供的实施特征分箱方法的区块链网络示意图；

图6为本申请又一个实施例的初次自动分箱和再次分箱的各个特征的编码和分箱结果示意图；

图7为本申请一个实施例的特征分箱装置的结构示意图；

图8为本申请一个实施例的一种计算机可读存储介质的结构示意图；

图9为本申请一个实施例中实施特征分箱方法的一种计算设备的结构示意图；

图10为本申请一个实施例中实施特征分箱方法的服务器的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解，给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

本申请的实施例意图根据待分箱样本的非数值特征对各个样本进行分箱，具体根据特征类别和特征值对各个待分箱样本的非数值特征进行自动编码，然后再根据各个待分箱样本的非数值特征对应的多个特征编码确定分箱方式。

其中，特征分箱是特征工程的必要步骤，IV-WoE特征工程方法，或称InformationValue&Weight of Evidence方法，是在金融风控等场景下对结构化数据采用的常用特征工程方法，通常作为人工智能中的机器学习模型的前置特征工程步骤。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面，结合几个实施例对本申请技术方案进行详细的介绍说明。

实施场景总览

请参考图1，其示出了本申请实施例提供的特征分箱方法所涉及的一种实施环境的结构示意图。该实施环境可以包括终端01。该终端01可以为计算机、平板电脑、智能手机等。

终端01可以接收分箱指令，终端01在接收到分箱指令后，采用本申请的特征分箱方法对所述终端01上存储的待分箱样本进行分箱，在分箱完成之后，终端01可以通过网络将分箱结果发送至指定设备；或者终端01还可以通过自身的输入输出接口接收待分箱样本和分箱指令，然后采用本申请的特征分箱方法对所述待分箱样本进行分箱，同样的，在分箱完成之后，终端01可以通过自身的输入输出接口输出分箱结果，或者通过网络将分箱结果发送至指定设备。

图2示出了本申请实施例提供的特征分箱方法所涉及的又一种实施环境的结构示意图。该实施环境可以包括终端01和服务器02。该终端01可以为计算机、平板电脑、智能手机等。该服务器02可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。并且该终端01与服务器02之间可以通过有线或无线网络建立连接。

终端01可以向该服务器02发送待分箱样本，服务器02可以采用本申请的特征分箱方法对所述终端01发送的待分箱样本进行分箱，在分箱完成之后，服务器02可以向终端01反馈分箱结果。

需要说明的是，终端01也可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

示例性方法

下面结合图1的实施场景，参考图3来描述本申请示例性实施例的用于特征分箱的方法，该方法可以适用于计算设备，该计算设备可以是上文列举的实施场景中的终端01，本申请对执行该对特征分箱方法的计算设备的产品形式及结构不作限定。

在本实施方式的一个实施例中，提出一种特征分箱方法，包括：

步骤S110，获取待分箱样本集的非数值特征集合。

在本实施例中，待分箱样本集包括多个待分箱样本，非数值特征集合包括至少一个特征类别的非数值特征，例如性别、学历和爱好等个人信息。由此不能采用现有的数值类型特征的特征分箱方法，如等距划分、等频划分等，直接对样本进行分箱。虽然现有技术中提供了将非数值特征转换为独热编码，然后进行分箱的方式。然而由于独热编码是将样本具有的特征值映射为1，不具有的特征值映射为0，从而构建出一个维度等于特征值数量的庞大向量。由此，通过独热编码的方式对非数值特征进行编码后的数据量过于庞大，对后续的计算效率影响较大。

可以理解的是，虽然本申请的实施例是针对样本中的非数值特征进行编码后分箱。但不代表本申请的实施例中的各个样本中只包括非数值特征，即样本可以既包括数值特征，也包括非数值特征。

另外，在本申请的一个实施例中，所述非数值特征集合包括的至少一个特征类别的非数值特征，是指包括各个样本的某个特征类别的全部非数值特征。例如待分箱样本集包括样本a、样本b和样本c，且各个样本均包括性别特征和学历特征，那么所述非数值特征集合可以包括所有样本的学历特征或所有样本的性别特征或所有样本的学历特征及性别特征。所述非数值特征集合中具体包括哪个特征类别的全部特征，可以根据实际的分箱需求确定，例如希望根据性别特征分箱，那么所述非数值特征集合包括全部样本的性别特征。

在明确非数值特征和样本的定义之后，接下来，执行步骤S120，根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码。

在本实施例中，可以根据待分箱样本的特征值进行编码，将具有相同特征类别非数值特征且特征值相同的样本赋予相同的特征编码，具体来说，在一个实施例中，根据每个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征对应的各个特征编码，包括：

获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数值特征的特征值总数量值。

在本实施例中，所述非数值特征的特征类别指的是特征本身描述的样本的维度，例如可以是学历、性别和爱好等等，相应的学历特征的特征值可以为高中、本科或研究生，其他类别的特征也对应各自的特征值，此处不再赘述。

然后，根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值，确定每一非数值特征的特征编码，其中，具有相同特征类别和特征值的非数值特征的特征编码相同，具有相同特征类别、不同特征值的非数值特征的特征编码不同，具有不同特征类别、相同特征值的非数值特征的特征编码不同。

举例来说，假如待分箱样本为a1,a2和a3，每一个样本均具有各自的学历特征、性别特征和爱好特征，其中样本a1的特征值为{学历：本科；性别：男；爱好：篮球}、a2的特征值为{学历：本科；性别：女；爱好：电影}以及a3的特征值为{学历：研究生；性别：女；爱好：摄影}；可以看出，一共有三类特征，共7种特征值，那么可以预先对各个特征值进行编码：本科-0，研究生-1，男-2，女-3，篮球-4，电影-5，摄影-6；按照上述原则将a1的各个非数值特征编码为{0,2,4}、将a2的各个非数值特征编码为{0,3,5}以及将a3的各个非数值特征编码为{1,3,6}。

考虑到各个非数值特征的数据类型并不相同，例如有些为字符串类型，有些为布尔类型，有些为日期类型等等，不同数据类型的非数值特征在进行编码时不够方便，例如不同的数据类型需要不同的编码处理方式，为了更加方便地进行自动编码，在本申请的一个实施例中，根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值，确定每一非数值特征的特征编码，包括：

将各个非数值特征转换为预设数据类型，得到对应的各个格式化特征数据。

在本实施例中，为了更方便地进行各个非数值特征的自动化编码，可以将各个非数值特征先转换为同样的数据类型，然后就方便对比各个非数值特征的特征值是否相同，例如可以将各个非数值特征变换为字符串类型，然后就可以通过字符串匹配的方式，确定各个非数值特征是否相同。

在将各个非数值特征由各自的源数据类型转换为预设数据类型如字符串类型或数组类型，得到各个格式化特征数据之后，即可以按照一定的顺序对各个格式化特征数据进行排序；例如字符串类型的数据可以通过字符串哈希值进行排序，或者首字母的英文顺序进行排序，各种排序方式此处不一一列举，本领域的技术人员可以根据实际需要进行选择。

接下来，对排序后的各个格式化特征数据，根据所述特征值总数量以及每一格式化特征数据的特征类别和特征值，依次确定每一待编码的格式化特征数据的特征编码。

例如，待分箱样本为a1,a2和a3，每一个样本均具有各自的学历特征、性别特征和爱好特征，其中样本a1的特征值为{学历：本科；性别：男；爱好：篮球}、a2的特征值为{学历：本科；性别：女；爱好：电影}以及a3的特征值为{学历：研究生；性别：女；爱好：摄影}；可以看出，一共有三类特征，共7种特征值，那么可以先将各个特征值转换为字符串类型，然后对各个特征数据进行排序，例如为：男^a1；女^a2；女^a3；本科^a1；本科^a2；篮球^a1；电影^a2；摄影^a3；研究生^a3。接下来，依次进行编码为：男^a1-0；女^a2-1；女^a3-1；本科^a1-2；本科^a2-2；篮球^a1-3；电影^a2-4；摄影^a3-5；研究生^a3-6；由此，各个样本的编码为a1 {2,0,3}、a2 {2,1,4}以及a3 {6,1,5}。

在具体实施时，可以依次获取各个待编码的格式化特征数据，然后再根据上述规则进行编码，若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录，则根据历史记录对所述当前待编码的格式化特征数据进行编码，得到所述当前待编码的格式化特征数据的特征编码；例如，上述示例中，在对女^a3进行编码时，由于其为第二个值为女的性别特征，历史记录中存在特征值匹配的特征女^a2，所以可以获取女^a2的编码值1作为女^a3的编码值。

若当前待编码的格式化特征数据的特征类别未被记录，则获取历史记录中特征编码值最大的一个；将获取到的所述特征编码值进行预设计算，得到所述当前待编码的格式化特征数据的特征编码。

例如，上述示例中，在对男^a1进行编码时，由于其为第一个，所以不会和历史记录匹配，所以可以编码为0；再例如，在对女^a2进行编码时，其也未被记录，即历史记录中不存在匹配的特征值，那么可以获取历史记录中最大的编码值0，然后递增1，即可以编码为1。

若当前待编码的格式化特征数据的特征类别已被记录且对应的特征值未被记录，则获取历史记录中特征编码值最大的一个，将获取到的所述特征编码值进行预设计算，得到所述当前待编码的格式化特征数据的特征编码。

此处的示例与上述示例相同，例如，在对研究生^a3进行编码时，其未被记录，历史记录中存在其他学历特征，但是历史记录中不存在匹配的特征值，那么可以获取历史记录中最大的编码值5，然后递增1，即可以编码为6。

可以理解的是，并不是所有样本都具有完整的特征值，即有些样本可能确实某个类别的特征，相应的特征为空值。由此，在本申请的一个实施例中，可以为空值也预先设置一个编码值。例如可以为-1，即不会影响其他有具体值的特征的编码，其他有具体值的特征的编码在本实施例中从0开始编码，所以设置为-1不会影响，或者还可以是-2或-3等等。

考虑到，编码过程中还有可能会出现一些其他未考虑到的异常，例如出现未曾考虑的特征值，由此，在本实施例中，还可以设置一些为这些异常预留的编码值，例如在空值特征的编码设置为-1时，其他异常特征编码可以设置为-2。同样的，本实施例并不对具体的编码值进行限制，本领域的技术人员可以实现为符合设计原则的各种具体形式。

在对各个非数值特征进行编码之后，即可执行步骤S130，基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

具体来说，在本实施例中，可以根据各个非数值特征的编码值待分箱样本集进行分箱，例如将具有相同编码值的样本划分至同一个分箱中，例如待分箱样本为a1,a2和a3，每一个样本均具有各自的学历特征、性别特征和爱好特征，其中样本a1的特征值为{学历：本科；性别：男；爱好：篮球}、a2的特征值为{学历：本科；性别：女；爱好：电影}以及a3的特征值为{学历：研究生；性别：女；爱好：摄影}；在进行一系列编码操作之后，各个样本的编码为a1 {2,0,3}、a2 {2,1,4}以及a3 {6,1,5}；接下来，将具有相同编码值的样本划分至同一个分箱中，可以得到分箱结果1（学历值相同的分箱）：{a1，a2}和{a3}、分箱结果2（性别值相同的分箱）：{a2，a3}和{a1}。

在得到各种可能的分箱方式之后，即可执行步骤S140，获取每一候选分箱方式的各个分箱的证据权重，以便确定最终的分箱方式，其中证据权重为WOE（Weight ofEvidence）表明自变量相对于因变量的预测能力，通过证据权重衡量分箱方式是否优异的方式可以是：分箱后进行WOE变换，然后使用具有WOE值的自变量运行逻辑回归。如果斜率不是 1 或截距不是ln（非事件的百分比/事件的百分比），则表明分箱算法不好。

另外，根据证据权重可以计算IV(information value)，信息量，IV可以表示预测能力，即：

若 IV 统计量小于 0.02，则对预测没有用；

若 IV 统计量是0.02 到 0.1，则预测能力很弱；

若 IV 统计量是0.1 到 0.3，则预测能力具有中等强度；

若 IV 统计量是0.3 到 0.5，则预测能力强大；

若 IV 统计量>0.5，数值过高，则预测能力可疑，需要检查。

在介绍了如何通过证据权重和信息量确定分箱方式的优劣之后，接下来介绍如何计算证据权重和信息量：

其中，WOE=ln(第i个分箱的负样本数 /负样本总数) -ln(第i个分箱的正样本数/正样本总数)，即第i个分箱的证据权重为

；

其中，Bad _i表示第i个分箱的负样本数，Bad _T表示负样本的总数量，Good _i表示第i个分箱的正样本数，Good _T表示正样本的总数量；分箱中的样本为正样本或负样本可以通过样本的标签确定。

在明确如何计算证据权重之后，接下来介绍如何计算信息量IV：

;

即信息量IV为证据权重的加权计算得到。

在明确如何得到证据权重和信息量，以及如何根据证据权重和信息量确定分箱方式的优劣之后，即可确定一个或多个合适的分箱方式，最后，执行步骤S150，根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式，然后执行步骤S160，按照所述至少一个分箱方式，对各个待分箱样本进行分箱。

考虑到在一些应用场景中，终端设备上可能只存储有样本数据，而没有标签数据，即标签数据与样本数据可能属于不同的数据属主，且各个数据属主不希望在数据处理过程中泄露各方的原始数据；例如，在联邦学习，尤其是纵向联邦学习中，往往包括多个参与方，各个参与方可能分别保存各自的样本数据或特征数据，且希望在不泄露自身数据的前提下共同完成数据处理任务如模型训练。由此，在本申请的一个实施例中，参照图4所示，所述特征分箱方法应用于第一终端，所述第一终端与第二终端通信，获取每一候选分箱方式的各个分箱的证据权重之前，所述方法还包括：

步骤S140-4，接收第二终端发送的同态加密后的多个标签密文，每一标签密文用于表示对应的待分箱样本为正样本或负样本。

在本实施例中，第一终端，即需要进行特征分箱的一方不具有标签，所有需要获取第二终端的标签数据确定各个分箱方式的优劣，所述第二终端不希望泄露自身的标签数据，由此，所述第二终端在将标签数据发送至第一终端之前，对各个标签数据进行加密，所述加密方式可以是MD5、国模算法、半同态加密等各种加密方式。

为了提高加密计算性能的同时确保更强的加密安全性，在本申请的一个实施例中，所述第二终端采用全同态加密算法对所述标签数据进行加密。

其中，同态加密（Homomorphic Encryption）是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出，将这一输出进行解密，其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。全同态加密算法所采用的整体矩阵运算，在加密、运算阶段其效率均优于半同态加密及其他等同效率算法。且全同态加密算法可做到抗量子攻击，以椭圆曲线为基础的半同态加密算法则不包含此特性。

在第一终端获取到各个标签密文之后，接下来执行步骤S140-5，根据所述多个标签密文，统计所述待分箱样本集分别按照各个候选分箱方式分箱后的各个分箱中的正负样本数量，得到统计结果；其中，所述统计结果能够表示按照各个候选分箱方式，分箱得到的各个分箱中的正样本数量和负样本数量。

需要说明的是，在本实施例中，所述统计结果为密文数据，所述第一终端无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负样本，由此，所述第一终端也无法根据统计结果逆向出各个样本可能的标签值，保证了第二终端的标签数据的安全性。

接下来，执行步骤S140-6，将所述统计结果加密后，发送至第二终端，以便所述第二终端计算各个分箱的证据权重。

其中，所述第二终端在接收到加密后的统计结果之后，即可对统计值进行解密，然后按照上述实施例中介绍的计算证据权重和信息量的方式，分别计算各个分箱的据权重和信息量，并以此判断各个分箱的优劣，确定合适的分箱方式，并将合适的分箱方式发送至第一终端。

另外，在本申请的一个实施例中，所述第二终端还可以在计算出各个分箱的证据权重和信息量之后，将最终确定的分箱方式以及对应的证据权重和信息量发送至第一终端，以便第一终端进行后续处理。

接下来，执行步骤S140-10，第一终端接收所述第二终端发送的证据权重符合预设阈值的候选分箱方式以及对应的各个分箱的证据权重。

在本实施例中，考虑了标签数据与样本数据可能属于不同的数据属主，且各个数据属主不希望在数据处理过程中泄露各方的原始数据的情况，标签数据持有方采用全同态加密算法对标签数据进行加密，在提高加密计算性能的同时确保更强的加密安全性；另外，在计算证据权重和信息量时，样本数据持有方根据全同态加密后的标签密文统计各个分箱中的正、负样本数量，无法知晓具体的样本标签以及分箱中的样本分布，保证了标签数据方的数据安全。

本申请的又一实施例中，所述标签密文、加密后的统计结果、证据权重和信息量等数据保存在区块链节点上，区块链（Blockchain）是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

参见图5所示的特征分箱方法的区块链网络示意图，区块链网络中包含参与者节点，参与者节点用于存储基于联邦学习进行数据处理过程中联邦学习节点产生的数据。如图5所示，区块链网络中包含参与者节点1和参与者节点2，联邦学习节点1可以为终端设备，联邦学习节点2也可以为终端设备。联邦学习节点1可以向联邦学习节点2发送密文数据，联邦学习节点2可以基于密文数据计算得到表示各个分箱中的正、负样本数量统计结果。联邦学习节点2可以将统计结果存储至对应的参与者节点2，并向联邦学习节点1发送统计结果，联邦学习节点1可以对加密后的统计结果进行解密，得到各个分箱中的正、负样本数量，并计算各个分箱的证据权重和信息量，并将各个分箱中的正、负样本数量，以及各个分箱的证据权重和信息量存储至与联邦学习节点1对应的参与者节点1中。为了保证区块链网络内的信息互通，区块链网络中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。

对于区块链网络中的每个节点，均具有与其对应的节点标识，而且区块链网络中的每个节点均可以存储有区块链网络中其他节点的节点标识，以便后续根据其他节点的节点标识，将加密生成的区块广播至区块链网络中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP（Internet Protocol，网络之间互联的协议）地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

可选的，所述特征分箱方法可以应用于区块链设备，所述第一终端和所述第二终端为所述区块链设备，所述区块链设备为区块链中的节点，所述标签密文、加密后的统计结果、证据权重和信息量等数据可以保存在区块链节点上。

考虑到，自动分箱虽然能够无监督的得到分箱结果，较为便捷，但是可能无法针对特定的应用领域，得到最佳的分箱结果。由此，在本申请的又一个实施例中，在自动分箱之后，还可以接收再次分箱指令和相关的领域知识，以便适应特定的应用领域得到最佳的分箱结果；具体来说，按照所述至少一个分箱方式，对待分箱样本集进行分箱之后，所述方法还包括：

接收再次分箱指令，所述再次分箱指令包括至少一个分箱点，所述分箱点用于表示待分箱样本的分箱依据特征值。

在本实施例中，所述分箱点可以是第二终端根据自身的标签数据确定的，也可以是相关专业人员根据实际的应用领域确定的，本实施例对此不作限定。

根据所述再次分箱指令，对所述个集合重新进行编码，得到更新后的各个非数值特征更新后的特征编码。

具体来说，若自动分箱编码时，得到的编码结果如图6中（a）所示，其中，空值特征被编码为-1，特征A、B、C···Z分别被编码为0、1、2···N，在接收到再次分箱的指令后，如图6中（b）所示，所述再次分箱指令包括将特征C、E与空值特征合并为同一组，特征A、B合并为同一组，特征D与其他特征的分组保持不变，那么，第一终端根据所述再次分箱指令，将各个特征的编码更新为：空值特征、特征C和特征E全部编码为-1，特征A和特征B编码为两者中较小的编码0，其他特征的编码值不变。

根据更新后的特征编码，对所述待分箱样本集重新分箱。

在本实施例中，在自动分箱之后，还可以接收再次分箱指令和相关的领域知识（例如为人工分箱指令），以便适应特定的应用领域得到最佳的分箱结果。

根据本申请实施例的特征分箱方法，对待分箱样本集的非数值特征集合中的每一非数值特征，根据特征类别和特征值进行自动编码，然后再根据特征编码确定分箱方式，使得特征分箱不再受限于样本的特征值类型，即各种非数值类型的特征都能够参与分箱过程，为特征分箱方式提供了更多选择；且基于特征类别和特征值进行的自动编码得到编码结果的数据量不大于甚至远远小于样本本身的总数量，存储资源占用少，计算资源消耗低，不影响后续步骤的处理效率。另外，在本申请的一些实施例中，采用全同态加密方式对特征分箱过程中传输的数据进行加密，在提高加密计算性能的同时确保了更强的加密安全性。另外，在本申请的一些实施例中，进行自动分箱之后，还可以继续接收再次分箱指令，有利于用户提供领域知识或先验知识（例如知识图谱），指导分箱过程，得到更符合相关领域应用的分箱结果。

示例性装置

在介绍了本申请示例性实施例的特征分箱方法之后，接下来，参考图7对本申请示例性实施例的用于特征分箱的装置，该装置同样可以适用于实施场景所示的计算设备，所述装置70包括：

输入输出模块710，被配置为获取待分箱样本集的非数值特征集合，所述非数值特征集合包括至少一个特征类别的全部待分箱样本的非数值特征；

处理模块720，被配置为根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；以及基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

所述输入输出模块710，还被配置为获取每一候选分箱方式的各个分箱的证据权重；

所述处理模块720，还被配置为根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；以及按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱。

在本申请的一个实施例中，所述输入输出模块710，还被配置为获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数值特征的特征值总数量；以及

根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值，确定每一非数值特征的特征编码，其中，具有相同特征类别和特征值的非数值特征的特征编码相同，具有相同特征类别、不同特征值的非数值特征的特征编码不同，具有不同特征类别、相同特征值的非数值特征的特征编码不同。

在本申请的一个实施例中，所述处理模块720，还被配置为将各个非数值特征转换为预设数据类型，得到对应的各个格式化特征数据；以及对各个格式化特征数据进行排序；以及

对排序后的各个格式化特征数据，根据所述特征值总数量以及每一格式化特征数据的特征类别和特征值，依次确定每一待编码的格式化特征数据的特征编码。

在本申请的一个实施例中，所述处理模块720，还被配置为若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录，则根据历史记录对所述当前待编码的格式化特征数据进行编码，得到所述当前待编码的格式化特征数据的特征编码；以及

若当前待编码的格式化特征数据的特征类别未被记录，则获取历史记录中特征编码值最大的一个，将获取到的所述特征编码值进行预设计算，得到所述当前待编码的格式化特征数据的特征编码；以及

在本申请的一个实施例中，所述特征分箱装置应用于第一终端，所述第一终端与第二终端通信，所述输入输出模块710，还被配置为接收第二终端发送的同态加密后的多个标签密文，每一标签密文用于表示对应的待分箱样本为正样本或负样本；

所述处理模块720，还被配置为根据所述多个标签密文，统计所述待分箱样本集分别按照各个候选分箱方式分箱后的各个分箱中的正负样本数量，得到统计结果；

所述输入输出模块710，还被配置为将所述统计结果加密后，发送至第二终端，以便所述第二终端计算各个分箱的证据权重；以及

接收所述第二终端发送的证据权重符合预设阈值的候选分箱方式以及对应的各个分箱的证据权重。

在本申请的一个实施例中，所述统计结果为密文数据，所述第一终端无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负样本。

在本申请的一个实施例中，所述输入输出模块710，还被配置为接收再次分箱指令，所述再次分箱指令包括至少一个分箱点，所述分箱点用于表示待分箱样本集的分箱依据特征值；

所述处理模块720，还被配置为根据所述再次分箱指令，对所述非数值特征集合重新进行编码，得到各个非数值特征更新后的特征编码；以及

根据更新后的特征编码，对所述待分箱样本集重新分箱。

根据本申请实施例的特征分箱装置，对待分箱样本集的非数值特征集合中的各个非数值特征，根据特征类别和特征值进行自动编码，然后再根据特征编码确定分箱方式，使得特征分箱不再受限于样本的特征值类型，即各种非数值类型的特征都能够参与分箱过程，为特征分箱方式提供了更多选择；且基于特征类别和特征值进行的自动编码得到编码结果的数据量不大于甚至远远小于样本本身的总数量，存储资源占用少，计算资源消耗低，不影响后续步骤的处理效率。另外，在本申请的一些实施例中，采用全同态加密方式对特征分箱过程中传输的数据进行加密，在提高加密计算性能的同时确保了更强的加密安全性。另外，在本申请的一些实施例中，进行自动分箱之后，还可以继续接收再次分箱指令，有利于用户提供领域知识或先验知识（例如知识图谱），指导分箱过程，得到更符合相关领域应用的分箱结果。

示例性介质

在介绍了本申请示例性实施方式的方法和装置之后，接下来，参考图8对本申请示例性实施方式的计算机可读存储介质进行说明，其示出的计算机可读存储介质为光盘80，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取待分箱样本集的非数值特征集合；根据每个非数值特征的特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；获取每一候选分箱方式的各个分箱的证据权重；根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性设备

上面从模块化功能实体的角度对本申请实施例中的特征分箱装置70进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行特征分箱方法的服务器、终端进行描述。需要说明的是，在本申请特征分箱装置实施例的图9所示的输入输出模块910对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出（I/O）接口等，处理模块720对应的实体设备可以为处理器。图7所示的特征分箱装置70可以具有如图9所示的结构，当图7所示的特征分箱装置70具有如图9所示的结构时，图9中的处理单元901和I/O接口905能够实现前述对应该装置的装置实施例提供的处理模块720和输入输出模块710相同或相似的功能，图9中的处理单元901执行上述特征分箱方法时需要调用的计算机程序。

图9示出了适于用来实现本申请实施方式的示例性计算设备90的框图，该计算设备90可以是计算机系统或服务器。图9显示的计算设备90仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算设备90的组件可以包括但不限于：一个或者多个处理器或者处理单元901，系统存储器902，连接不同系统组件（包括系统存储器902和处理单元901）的总线903。

计算设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备90访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器902可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）9021和/或高速缓存存储器9022。计算设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM9023可以用于读写不可移动的、非易失性磁介质（图9中未显示，通常称为“硬盘驱动器”）。尽管未在图9中示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线903相连。系统存储器902中可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组（至少一个）程序模块9024的程序/实用工具9025，可以存储在例如系统存储器902中，且这样的程序模块9024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9024通常执行本申请所描述的实施例中的功能和/或方法。

计算设备90也可以与一个或多个外部设备904（如键盘、指向设备、显示器等）通信。这种通信可以通过输入/输出（I/O）接口905进行。并且，计算设备90还可以通过网络适配器906与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图9所示，网络适配器906通过总线903与计算设备90的其它模块（如处理单元901等）通信。应当明白，尽管图9中未示出，可以结合计算设备90使用其它硬件和/或软件模块。

处理单元901通过运行存储在系统存储器902中的程序，从而执行各种功能应用以及数据处理，例如，获取各个待分箱样本的非数值特征；根据各个非数值特征的特征值对各个非数值特征进行编码，得到与每一非数值特征对应的多个特征编码；基于所述特征编码确定各个待分箱样本的候选分箱方式；获取每一候选分箱方式的各个分箱的证据权重；根据所述证据权重从所述候选分箱方式中确定一个或多个分箱方式，对各个待分箱样本进行分箱。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了特征分箱装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（英文全称：central processing units，英文简称：CPU）1122（例如，一个或一个以上处理器）和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130（例如一个或一个以上海量存储设备）。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1110还可以包括一个或一个以上电源1120，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix, Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器1100的结构。例如，例如上述实施例中由图10所示的特征分箱装置70所执行的步骤可以基于该图10所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取待分箱样本集的非数值特征集合；

中央处理器1122根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；然后基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

接下来，所述输入输出接口1158获取每一候选分箱方式的各个分箱的证据权重；

最后，中央处理器1122根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；并按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理，但是应该理解，本申请并不限于所申请的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种特征分箱方法，包括：

根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；各个非数值特征的特征编码从0开始递增编码得到，具有相同特征类别和特征值的非数值特征的特征编码相同，具有相同特征类别、不同特征值的非数值特征的特征编码不同，具有不同特征类别、相同特征值的非数值特征的特征编码不同；

基于全部特征编码，确定所述待分箱样本集的候选分箱方式；

获取每一候选分箱方式的各个分箱的证据权重；

按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱；

其中，根据每个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征对应的各个特征编码，包括：

获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数值特征的特征值总数量；

根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值，确定每一非数值特征的特征编码，包括：

将各个非数值特征转换为预设数据类型，得到对应的各个格式化特征数据；

对各个格式化特征数据进行排序；

2.如权利要求1所述的特征分箱方法，其中，对排序后的各个格式化特征数据，根据所述特征值总数量以及每一格式化特征数据的特征类别和特征值，依次确定每一待编码的格式化特征数据的特征编码，包括：

若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录，则根据历史记录对所述当前待编码的格式化特征数据进行编码，得到所述当前待编码的格式化特征数据的特征编码；

若当前待编码的格式化特征数据的特征类别未被记录，则获取历史记录中特征编码值最大的一个，将获取到的所述特征编码值进行预设计算，得到所述当前待编码的格式化特征数据的特征编码；

3.如权利要求1或2所述的特征分箱方法，应用于第一终端，所述第一终端与第二终端通信，其中，获取每一候选分箱方式的各个分箱的证据权重之前，所述方法还包括：

接收第二终端发送的同态加密后的多个标签密文，每一标签密文用于表示对应的待分箱样本为正样本或负样本；

根据所述多个标签密文，统计所述待分箱样本集分别按照各个候选分箱方式分箱后的各个分箱中的正负样本数量，得到统计结果；

将所述统计结果加密后，发送至第二终端，以便所述第二终端计算各个分箱的证据权重；

4.如权利要求3所述的特征分箱方法，其中，所述统计结果为密文数据，所述第一终端无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负样本。

5.如权利要求1或2所述的特征分箱方法，其中，按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱之后，所述方法还包括：

接收再次分箱指令，所述再次分箱指令包括至少一个分箱点，所述分箱点用于表示待分箱样本集的分箱依据特征值；

根据所述再次分箱指令，对所述非数值特征集合重新进行编码，得到各个非数值特征更新后的特征编码；

根据更新后的特征编码，对所述待分箱样本集重新分箱。

6.一种特征分箱装置，包括：

处理模块，被配置为根据各个非数值特征的特征类别及特征值对相应非数值特征进行编码，得到与每一非数值特征分别对应的各个特征编码；各个非数值特征的特征编码从0开始递增编码得到，具有相同特征类别和特征值的非数值特征的特征编码相同，具有相同特征类别、不同特征值的非数值特征的特征编码不同，具有不同特征类别、相同特征值的非数值特征的特征编码不同；以及基于全部所述特征编码，确定所述待分箱样本集的候选分箱方式；

所述处理模块，还被配置为根据所述证据权重，从所述候选分箱方式中确定至少一个分箱方式；以及按照所述至少一个分箱方式，对所述待分箱样本集分别进行分箱；

其中，所述输入输出模块，还被配置为获取每一待编码的非数值特征的特征类别和特征值以及非数值特征集合中全部非数值特征的特征值总数量；以及

根据所述特征值总数量以及每一待编码的非数值特征的特征类别和特征值，确定每一非数值特征的特征编码；

其中，所述处理模块，还被配置为将各个非数值特征转换为预设数据类型，得到对应的各个格式化特征数据；以及对各个格式化特征数据进行排序；以及

7.如权利要求6所述的特征分箱装置，其中，所述处理模块，还被配置为若当前待编码的格式化特征数据的特征类别以及对应的特征值已被记录，则根据历史记录对所述当前待编码的格式化特征数据进行编码，得到所述当前待编码的格式化特征数据的特征编码；以及

8.如权利要求6或7所述的特征分箱装置，其中，所述特征分箱装置应用于第一终端，所述第一终端与第二终端通信，所述输入输出模块，还被配置为接收第二终端发送的同态加密后的多个标签密文，每一标签密文用于表示对应的待分箱样本为正样本或负样本；

所述处理模块，还被配置为根据所述多个标签密文，统计所述待分箱样本集分别按照各个候选分箱方式分箱后的各个分箱中的正负样本数量，得到统计结果；

所述输入输出模块，还被配置为将所述统计结果加密后，发送至第二终端，以便所述第二终端计算各个分箱的证据权重；以及

9.如权利要求8所述的特征分箱装置，其中，所述统计结果为密文数据，所述第一终端无法直接基于所述统计结果确定各个分箱中的正负样本数量以及各个样本为正样本或负样本。

10.如权利要求6或7所述的特征分箱装置，其中，所述输入输出模块，还被配置为接收再次分箱指令，所述再次分箱指令包括至少一个分箱点，所述分箱点用于表示待分箱样本集的分箱依据特征值；

所述处理模块，还被配置为根据所述再次分箱指令，对所述非数值特征集合重新进行编码，得到各个非数值特征更新后的特征编码；以及根据更新后的特征编码，对所述待分箱样本集重新分箱。

11.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。

12.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。