CN110084377B

CN110084377B - 用于构建决策树的方法和装置

Info

Publication number: CN110084377B
Application number: CN201910362975.1A
Authority: CN
Inventors: 刘洋; 张钧波; 陈明鑫; 刘颖婷; 郑宇�
Original assignee: Jd Icity Nanjing Technology Co ltd
Current assignee: Jd Icity Nanjing Technology Co ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-09-29
Anticipated expiration: 2039-04-30
Also published as: US20220230071A1; WO2020220823A1; CN110084377A; EP3965023A1; EP3965023A4

Abstract

本公开的实施例公开了用于构建决策树的方法和装置。该方法的一具体实施方式包括：向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求；接收各客户端各自存储的样本的目标类别的属性信息的统计信息；根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息；将分裂点信息发送给至少一个客户端。该实施方式极大地减少了信息交互的内容，做到了保护保护隐私同时又提高了模型的效率。

Description

用于构建决策树的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于构建决策树的方法和装置。

背景技术

人工智能时代下，数据就像是行业发展的能源，人工智能的核心就是让算法能够根据给定的数据学习相应的模型，没有足够有效的数据，人工智能就无法高效地应用到人们的日常生活中。但是另一方面对数据的过度搜集则带来了隐私安全的危机。因此如何在保证个人隐私安全的前提下，合理合法地利用数据为人们提供高效的服务成为了研究的热点。

决策树是机器学习最常用的算法，不同于神经网络的不可解释性，决策树通过特征重要性提供了可靠合理的模型解释，为政府部门、金融行业的决策提供了更加可靠的依据。例如当银行拒绝了一笔贷款申请、政府通过了一项认证，法律要求相应的部门提供可靠的依据，比如依据什么理由拒绝或者通过了申请，利用决策树能给出可靠的依据。而随着数据隐私保护的意识逐渐提高，基于多数据平台联合建模树模型应运而生。现有的联合建树模型虽然是在保护用户隐私的前提下进行建模，但是由于数据分布在不同的平台中，各个平台样本的异质性、数据的不均衡、网络能力的差异都造成了建树过程中通讯成本高昂的问题，直接影响联合建模树模型的性能，在实际应用中对网络通信的压力极大，不能很好满足现有场景的需求。

发明内容

本公开的实施例提出了用于构建决策树的方法和装置。

第一方面，本公开的实施例提供了一种用于构建决策树的方法，应用于控制端，包括：向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求；接收各客户端各自存储的样本的目标类别的属性信息的统计信息；根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息；将分裂点信息发送给至少一个客户端。

在一些实施例中，统计信息包括最大值和最小值，分裂点信息包括分裂值；以及根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，包括：将各客户端各自存储的样本的目标类别的属性信息的最大值和最小值进行整合，得到目标类别的属性信息的系统最大值和系统最小值；在系统最大值和系统最小值之间选择分裂值。

在一些实施例中，统计信息还包括标签统计信息，分裂点信息还包括分裂属性；根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，还包括：对于候选类别集合中的候选类别，根据各客户端各自存储的样本的该候选类别的属性信息的标签统计信息，得到按照该候选类别分裂后的数据不纯度的下降值；将下降值最大的候选类别确定为分裂属性。

在一些实施例中，向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求，包括：若不存在分裂属性，则随机从候选类别集合中选择一个类别作为目标类别；否则，将分裂属性确定为目标类别；向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。

在一些实施例中，该方法还包括：采用加密的方式与至少一个客户端通信。

第二方面，本公开的实施例提供了一种用于构建决策树的方法，应用于客户端，包括：接收控制端发送的用于获取目标类别的属性信息的统计信息的请求；基于目标类别，执行如下建树步骤：向控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收控制端返回的分裂点信息，根据分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若节点满足预设的终止建树条件，输出决策树；若节点不满足预设的终止建树条件，根据分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

在一些实施例中，终止建树条件，包括以下至少一项：控制端所控制的至少一个客户端中的相同节点的样本数目之和小于预定的参数值；或已建立的决策树的深度超过预设的深度值。

在一些实施例中，该方法还包括：若节点的样本数目为空，接收来自样本数目不为空的节点的信息广播继续建决策树。

在一些实施例中，统计信息包括标签统计信息；以及方法还包括：对标签统计信息加密。

在一些实施例中，对标签统计信息加密，包括：采用同态加密的方式对标签统计信息加密。

在一些实施例中，该方法还包括：随机选择不同样本子集生成至少一个决策树；将至少一个决策树组成随机森林模型。

在一些实施例中，该方法还包括：接收待预测用户的用户信息，其中，用户信息包括至少一种属性信息；通过随机森林模型对用户信息进行投票表决，得到待预测用户的标签。

第三方面，本公开的实施例提供了一种用于构建决策树的系统，包括控制端和至少一个客户端，其中，控制端，被配置成实现如第一方面中任一的方法；至少一个客户端，被配置成实现如第二方面中任一的方法。

第四方面，本公开的实施例提供了一种用于构建决策树的装置，应用于控制端，包括：请求单元，被配置成向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求；统计信息接收单元，被配置成接收各客户端各自存储的样本的目标类别的属性信息的统计信息；分裂单元，被配置成根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息；发送单元，被配置成将分裂点信息发送给至少一个客户端。

在一些实施例中，统计信息包括最大值和最小值，分裂点信息包括分裂值；以及分裂单元进一步被配置成：将各客户端各自存储的样本的目标类别的属性信息的最大值和最小值进行整合，得到目标类别的属性信息的系统最大值和系统最小值；在系统最大值和系统最小值之间选择分裂值。

在一些实施例中，统计信息还包括标签统计信息，分裂点信息还包括分裂属性；分裂单元进一步被配置成：对于候选类别集合中的候选类别，根据各客户端各自存储的样本的该候选类别的属性信息的标签统计信息，得到按照该候选类别分裂后的数据不纯度的下降值；将下降值最大的候选类别确定为分裂属性。

在一些实施例中，请求单元进一步被配置成：若不存在分裂属性，则随机从候选类别集合中选择一个类别作为目标类别；否则，将分裂属性确定为目标类别；向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。

在一些实施例中，该装置还包括加解密单元，被配置成：采用加密的方式与所述至少一个客户端通信。

第五方面，本公开的实施例提供了一种用于构建决策树的装置，应用于客户端，包括：请求接收单元，被配置成接收控制端发送的用于获取目标类别的属性信息的统计信息的请求；建树单元，被配置成基于目标类别，执行如下建树步骤：向控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收控制端返回的分裂点信息，根据分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若节点满足预设的终止建树条件，输出决策树；循环单元，被配置成若节点不满足预设的终止建树条件，根据分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

在一些实施例中，建树单元进一步被配置成：若节点的样本数目为空，接收来自样本数目不为空的节点的信息广播继续建决策树。

在一些实施例中，统计信息包括标签统计信息；以及装置还包括加解密单元，被配置成：对标签统计信息加密。

在一些实施例中，加解密单元进一步被配置成：采用同态加密的方式对标签统计信息加密。

在一些实施例中，该装置还包括组合单元，被配置成：随机选择不同样本子集生成至少一个决策树；将至少一个决策树组成随机森林模型。

在一些实施例中，该装置还包括预测单元，被配置成：接收待预测用户的用户信息，其中，用户信息包括至少一种属性信息；通过随机森林模型对用户信息进行投票表决，得到待预测用户的标签。

第六方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一的方法。

第七方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一的方法。

本公开的实施例提供的用于构建决策树的方法和装置，基于多数据平台联合建模树模型的并行预测算法对现有联合建模树模型的建树过程进行了调整，引入了极端随机森林，并进行了改进，极大地减少了信息交互的内容，做到了保护保护隐私同时又提高了模型的效率，让联合建模树模型的广泛落地成为可能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于构建决策树的方法的一个实施例的流程图；

图3是根据本公开的用于构建决策树的方法的又一个实施例的流程图；

图4a、4b是根据本公开的用于构建决策树的方法的分裂点选择的示意图。

图5是根据本公开的用于构建决策树的方法的一个应用场景的示意图；

图6是根据本公开的用于构建决策树的装置的一个实施例的结构示意图；

图7是根据本公开的用于构建决策树的装置的又一个实施例的结构示意图；

图8是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的用于构建决策树的方法或用于构建决策树的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括客户端101、102、103和控制端104。网络用以在客户端101、102、103和控制端104之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用客户端101、102、103通过网络与控制端104交互，以接收或发送消息等。客户端101、102、103上可以存储用于训练决策树的样本。每个样本包括属性信息和标签。可通过神经网络或统计的方法得到属性信息的统计信息和标签的统计信息。其中，标签可加密成密文形式，然后和属性信息的统计信息一起上报给控制端。

决策树(Decision Tree)是一个预测模型。它代表的是对象属性与对象值之间的一种映射关系。树中分叉路径代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有多个输出，可以建立独立的树以处理生成不同的输出。

当多个数据拥有方(例如企业、政府等机构)想要联合他们各自的数据训练机器学习模型时，保证建立统一模型的同时，各方拥有的原数据不出本地。该模型的效果要求和数据聚合模型的效果的差距足够小。

本公开的应用场景是联邦学习之一——横向联邦学习。横向联邦学习要求每个平台所包含的用户特征基本相同，而用户的样本不同。以区域银行贷款业务为例：区域A银行拥有一些客户的年龄信息、资产信息、理财基金产品信息、贷款还款信息等，这些数据存储在客户端101中。区域B银行拥有另外一些客户同样特征的信息，这些数据存储在客户端102中。区域C银行拥有另外一些客户同样特征的信息，这些数据存储在客户端103中.但是A、B、C区域银行各自所拥有的数据都不足以构建一个完整、可靠的判别模型，用来判别是否对某一客户进行贷款。因此A、B和C银行都希望利用对方的数据，进行联合建模，但是由于法律约束，无法将双发的数据聚合到一起，此时在不交互原始数据信息的前提下基于多数据平台的建模是解决该问题的关键方法。

控制端104可以接收客户端101、102、103发送的属性信息的统计信息。控制端104可以对接收到的属性信息的统计信息等数据进行分析等处理(如果是加密的数据则需要解密)，并将处理结果(例如分裂点和分裂属性)反馈给客户端。客户端使用分裂点和分裂属性构建决策树。每个客户端都可随机采用样本的子集生成多个单个决策树，然后这些单个决策树通过投票法集成起来，形成一个随机森林模型。

无论是决策树，还是由此衍生的随机森林和基于树的GBM(梯度提升模型)，都由基础的单棵决策树组成。而在建立决策树的过程中，如何寻找最优分裂点，使得根据当前分裂点分裂后的数据不纯度(可以是基尼系数或者信息增益等)下降的最多，是计算成本最大的。而基于多数据平台的联合建模树模型的并行算法，同样需要在寻找最优分裂点上花费大量时间，因此如何降低寻找最优分裂点的计算成本成为需要解决的问题之一。集成学习中的极端随机森林则将随机性应用到了分裂点的选择上，随机森林的有效性主要体现在对方差的降低，它利用有放回筛选出来的子数据构建出来的多棵决策树进行多数投票来决定最后的预测结果。而极端随机森林则应用了同样的实现，只是它的随机性体现在对分裂点的选择上，并不强调单一决策树的最优分裂点，而是通过多棵决策树进行集成判断，从整体上降低判断的误差。

需要说明的是，控制端可以是硬件，也可以是软件。当控制端为硬件时，可以实现成多个控制端组成的分布式控制端集群，也可以实现成单个控制端。当控制端为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的用于构建决策树的方法可以由客户端101、102、103和控制端104共同执行。相应地，用于构建决策树的装置可以设置于客户端101、102、103和控制端104中。在此不做具体限定。

应该理解，图1中的客户端和控制端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端和控制端。

继续参考图2，示出了根据本公开的用于构建决策树的方法应用于控制端的一个实施例的流程200。该用于构建决策树的方法，包括以下步骤：

步骤201，向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。

在本实施例中，用于构建决策树的方法的执行主体(例如图1所示的控制端)可以通过有线连接方式或者无线连接方式向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。属性信息可包括{年龄，收入}＝{32，22K}等特征。目标类别指的是样本的属性信息的类别，例如，年龄，收入。首次分裂时，可由控制端从候选的多个类别中随机选择一个类别作为目标类别。

可选地，在执行步骤203得到分裂属性后，将分裂属性确定为目标类别。

步骤202，接收各客户端各自存储的样本的目标类别的属性信息的统计信息。

在本实施例中，本公开的方式不需要具体的属性信息，而是属性信息的统计信息。每个客户端只需要将某个属性信息的统计信息发送给控制端，比如：A客户端的数据的年龄特征，它的最大值是60岁，最小值是40岁，B客户端的数据的年龄特征是最小20岁，最大值是50岁，那么A和B只需要分别将这些数据发送到控制端。

统计信息还可包括至少一个类别的标签统计信息。标签统计信息可包括标签数量和标签占比。例如，属于目标类别且属于其它类别的样本的标签数量和标签占比。

可选地，控制端接收到的统计信息可能是加密后的，需要解密后再使用。

步骤203，根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息。

在本实施例中，分裂点信息可包括分裂值和分裂属性。将各客户端各自存储的样本的目标类别的属性信息的最大值和最小值进行整合，得到目标类别的属性信息的系统最大值和系统最小值。在系统最大值和系统最小值之间选择分裂值。可以在系统最大值和系统最小值之间随机选择分裂值。也可将最大值和系统最小值的平均值作为分裂值。或者根据不同客户端上传的最大值、最小值的数量来确定中间值作为分裂值。分裂值的选择方式在此不作限定。如果接收的数据是加密的，则需要控制端解密才能使用。如图4a所示，控制端对接收到的加密数据进行解密并处理，得到系统最小值为20岁，系统最大值是60岁，然后在20到60岁之间随机选择一个分裂值42.4，然后将对应的分裂值下发到各客户端参与的节点中，各客户端根据得到的分裂值进行样本数据的划分。为了保证信息的安全，可将分裂值加密后发给客户端。

上述方案在对属性信息的统计信息进行加密时，除了传统的密钥加密方法之外，可以采用同态加密等其他加密方式，从而避免控制端对数据内容的直接获取。

在本实施例的一些可选的实现方式中，对于候选类别集合中的候选类别，根据各客户端各自存储的样本的该候选类别的属性信息的标签统计信息，得到按照该候选类别分裂后的数据不纯度的下降值。将下降值最大的候选类别确定为分裂属性。

控制端将至少一个客户端上报的标签统计信息进行整合，得到系统标签统计信息。下面以违约标签为例，对于属于目标类别且属于X类别的属性信息的标签统计信息：客户端A上报50个违约、50个不违约、违约比例50％。客户端B上报30个违约、70个不违约、违约比例30％。整合后得到系统标签统计信息80个违约、120个不违约、违约比例40％。对于属于目标类别且属于Y类别的属性信息的标签统计信息：客户端A上报40个违约、60个不违约、违约比例40％。客户端B上报20个违约、80个不违约、违约比例20％。整合后得到系统标签统计信息60个违约、140个不违约、违约比例30％。

不纯度可用基尼值表示，如下所示：

其中Gini表示基尼值，Pi表示类i的数量占比，n表示类别数量。以二分类例子为例，当两类数量相等时，基尼值等于0.5；当节点数据属于同一类时，基尼值等于0。基尼值越大，数据越不纯。

根据目标类别上报的标签统计信息计算初始不纯度。然后再对候选类别集合中的候选类别依次计算预期不纯度。初始不纯度与预期不纯度的差值作为不纯度的下降值。将下降值最大的候选类别确定为分裂属性。具体实现方式可参考现有技术，在此不再赘述。

对于上述例子，根据对于属于目标类别且属于X类别的属性信息的标签统计信息，得到基尼值为1-(0.4^2+0.6^2)＝0.48。根据对于属于目标类别且属于Y类别的属性信息的标签统计信息，得到基尼值为1-(0.3^2+0.7^2)＝0.42。可见，属于目标类别且属于X类别的属性信息的不纯度大于属于目标类别且属于Y类别的属性信息的不纯度。它们的初始不纯度相同，因此，选择不纯度小的Y类别作为分裂属性。

步骤204，将分裂点信息发送给至少一个客户端。

在本实施例中，可将计算出的分裂点信息发送给每个上报统计信息的客户端。由每个客户端根据分裂点信息构建决策树。每个客户端构建的决策树都是一样的。客户端判断出未满足终止建树条件时，仍会分批上报重新划分后的样本的属性信息的统计信息。控制端再执行步骤202-204分批生成分裂点信息后返回给客户端。

继续参考图3，示出了根据本公开的用于构建决策树的方法应用于客户端的一个实施例的流程300。该用于构建决策树的方法，包括以下步骤：

步骤301，接收控制端发送的用于获取目标类别的属性信息的统计信息的请求。

在本实施例中，用于构建决策树的方法的执行主体(例如图1所示的客户端)可以通过有线连接方式或者无线连接方式从控制端接收用于获取目标类别的属性信息的统计信息的请求。性信息可包括{年龄，收入}＝{32，22K}等特征。目标类别指的是样本的属性信息的类别，例如，年龄，收入。可由控制端从候选的多个类别中随机选择一个类别作为首次分裂的目标类别。

基于目标类别，执行如下建树步骤302-306：

步骤302，向控制端发送本地存储的样本的目标类别的属性信息的统计信息。

在本实施例中，本公开的方式不需要具体的属性信息，而是属性信息的统计信息。每个客户端只需要将某个属性信息的统计信息发送大控制端，比如：A客户端的数据的年龄特征，它的最大值是60岁，最小值是40岁，B客户端的数据的年龄特征是最小20岁，最大值是50岁，那么A和B只需要分别将这些数据发送到控制端。

可选地，对于一些容易泄露的信息客户端可采用加密的方式发给控制端。例如，违约标志、贷款标志等标签信息。客户端可将某个类别下的样本的标签的数量和/或比例加密后发送给控制端。例如，客户端A中年龄类别下有20个违约的样本和30个不违约的样本。将统计信息：违约比例40％、20个违约、30个不违约一起加密后发给控制端。客户端也可将所有统计信息一起加密后发给控制端。

步骤303，接收控制端返回的分裂点信息，根据分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树。

在本实施例中，接收步骤203生成的分裂信息。分裂点信息可包括分裂值和分裂属性。根据分裂属性和分裂值将样本重新划分后，再分批上报统计信息。样本的属性信息分为离散型和连续性两种情况，对于离散型的数据，按照属性值进行分裂，每个属性值对应一个分裂节点。对于连续性属性，一般性的做法是对数据按照该属性进行排序，再将数据分成若干区间，如[0,10]、[10,20]、[20,30]…，一个区间对应一个节点，若数据的属性值落入某一区间则该数据就属于其对应的节点。这些节点构成了决策树。控制端继续计算分裂点信息，然后发给客户端，直到满足预设的终止建树条件。

步骤304，判断节点是否满足预设的终止建树条件。

在本实施例中，终止建树条件，包括以下至少一项：控制端所控制的至少一个客户端中的相同节点的样本数目之和小于预定的参数值；或已建立的决策树的深度超过预设的深度值。控制端可获取到每个客户端每个节点下的样本数目，即使某个客户端的某个节点下样本数目为空，也可利用其它客户端该节点下非空的样本数目继续进行建树操作。如图4b所示。样本数目为空的客户端可接收到来自非空样本数目的客户端或者控制端的广播信息，广播信息中包括了分裂点信息。

当满足终止建树的条件之后，参与节点就终止当前平台的建树过程，以确保参与节点建立的决策树相同。

步骤305，若节点满足预设的终止建树条件，输出决策树。

在本实施例中，若节点满足预设的终止建树条件，则得到最终的决策树。使用该最终的决策树进行样本预测时，由于各客户端所建立的决策树结构相同，所以不需要进行信息交互，只需要在本地预测即可。例如，向决策树中输入用户信息：年龄40、收入10K，则可预测出他的标签为违约。

步骤306，若节点不满足预设的终止建树条件，根据分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤302-306。

在本实施例中，重复建树过程，直到建立的节点满足预设的终止建树条件。

在本实施例的一些可选的实现方式中，随机选择不同样本子集生成至少一个决策树。将至少一个决策树组成随机森林模型。随机森林：是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。每次只随机取样本的子集建一个决策树，然后组成多个决策树。例如，客户端有100个样本，分三次根据50个样本分别生成三个决策树，组成随机森林模型。

在本实施例的一些可选的实现方式中，该方法还包括：接收待预测用户的用户信息，其中，用户信息包括至少一种属性信息；通过随机森林模型对所述用户信息进行投票表决，得到所述待预测用户的标签。等到预测时将等预测的信息输入上例所述的三个决策树，分别得到结果，通过投票表决结果，决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)。

本公开的上述实施例提供的方法，基于极端随机森林的联合建模模型，将极端随机森林的随机性引用到联合建模过程中，在确保用户数据隐私性的前提下，利用决策树的结构特征保证了多个参与节点所建造决策树的相同性和唯一性。

继续参见图5，图5是根据本实施例的用于构建决策树的方法的应用场景的一个示意图。在图5的应用场景中，控制端首先从候选类别集合中随机选择一个目标类别(例如，年龄)，然后向参与决策树训练的客户端发送用于获取目标类别的属性信息的统计信息的请求。每个客户端需要将目标类别的属性信息(例如年龄)和标签(例如违约)的统计信息，包含最大值和最小值发送到控制端，控制端在接收到统计信息之后，将统计信息进行整合，得到所有客户端统一属性信息的最大值(上界)和最小值(下界)。然后控制端随机在最大值和最小值之间选择一个数据作为分裂值，并根据统计信息中的标签统计信息计算出分裂属性。并将分裂值和分裂属性组合成分裂点信息下发到所有参与节点上，客户端按照分裂点信息进行决策树的构造。重复建树过程，直到建立的数目满足设定的参数条件。每个客户端可得到单个决策树。每个客户端通过随机选择样本子集，可生成多个决策树，并组成随机森林。使用随机森林来预测用户的标签。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种用于构建决策树的装置应用于控制端的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于构建决策树的装置600包括：请求单元601、统计信息接收单元602、分裂单元603和发送单元604。其中，请求单元601，被配置成向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。统计信息接收单元602，被配置成接收各客户端各自存储的样本的目标类别的属性信息的统计信息。分裂单元603，被配置成根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息。发送单元604，被配置成将分裂点信息发送给至少一个客户端。

在本实施例中，用于构建决策树的装置600的请求单元601、统计信息接收单元602、分裂单元603和发送单元604的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。

在本实施例的一些可选的实现方式中，统计信息包括最大值和最小值，分裂点信息包括分裂值；以及分裂单元603进一步被配置成：将各客户端各自存储的样本的目标类别的属性信息的最大值和最小值进行整合，得到目标类别的属性信息的系统最大值和系统最小值；在系统最大值和系统最小值之间选择分裂值。

在本实施例的一些可选的实现方式中，统计信息还包括标签统计信息，分裂点信息还包括分裂属性；分裂单元603进一步被配置成：对于候选类别集合中的候选类别，根据各客户端各自存储的样本的该候选类别的属性信息的标签统计信息，得到按照该候选类别分裂后的数据不纯度的下降值；将下降值最大的候选类别确定为分裂属性。

在本实施例的一些可选的实现方式中，请求单元601进一步被配置成：若不存在分裂属性，则随机从候选类别集合中选择一个类别作为目标类别；否则，将分裂属性确定为目标类别；向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。

在本实施例的一些可选的实现方式中，装置600还包括加解密单元(附图中未示出)，被配置成：采用加密的方式与至少一个客户端通信。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种用于构建决策树的装置应用于客户端的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于构建决策树的装置700包括：请求接收单元701、建树单元702和循环单元703。其中，请求接收单元701，被配置成接收控制端发送的用于获取目标类别的属性信息的统计信息的请求。建树单元702，被配置成基于目标类别，执行如下建树步骤：向控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收控制端返回的分裂点信息，根据分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若节点满足预设的终止建树条件，输出决策树。循环单元703，被配置成若节点不满足预设的终止建树条件，根据分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

在本实施例的一些可选的实现方式中，终止建树条件，包括以下至少一项：控制端所控制的至少一个客户端中的相同节点的样本数目之和小于预定的参数值；或已建立的决策树的深度超过预设的深度值。

在本实施例的一些可选的实现方式中，建树单元702进一步被配置成：若节点的样本数目为空，接收来自样本数目不为空的节点的信息广播继续建决策树。

在本实施例的一些可选的实现方式中，统计信息包括标签统计信息；以及该装置还包括加解密单元(附图中未示出)，被配置成：对标签统计信息加密。

在本实施例的一些可选的实现方式中，加解密单元进一步被配置成：采用同态加密的方式对标签统计信息加密。

在本实施例的一些可选的实现方式中，装置700还包括组合单元(附图中未示出)，被配置成：随机选择不同样本子集生成至少一个决策树；将至少一个决策树组成随机森林模型。

在本实施例的一些可选的实现方式中，装置700还包括预测单元(附图中未示出)，被配置成：接收待预测用户的用户信息，其中，用户信息包括至少一种属性信息；通过随机森林模型对用户信息进行投票表决，得到待预测用户的标签。

下面参考图8，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的控制端或客户端)800的结构示意图。8示出的终端设备/服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图8中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM 802被安装。在该计算机程序被处理装置801执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求；接收各客户端各自存储的样本的目标类别的属性信息的统计信息；根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息；将分裂点信息发送给至少一个客户端。或者使得该电子设备：接收控制端发送的用于获取目标类别的属性信息的统计信息的请求；基于目标类别，执行如下建树步骤：向控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收控制端返回的分裂点信息，根据分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若节点满足预设的终止建树条件，输出决策树；若节点不满足预设的终止建树条件，根据分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括请求单元、统计信息接收单元、分裂单元和发送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，请求单元还可以被描述为“向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于构建决策树的方法，应用于控制端，包括：

向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求，其中，每个客户端存储的数据的特征相同；

接收各客户端各自存储的样本的目标类别的属性信息的统计信息，其中，统计信息包括至少一个类别的标签统计信息、最大值和最小值，标签统计信息包括标签数量和标签占比；

根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，其中，分裂点信息包括分裂值和分裂属性，分裂值在最大值和最小值之间；

将所述分裂点信息发送给所述至少一个客户端，直到满足预设的终止建树条件，其中，各客户端根据分裂属性和分裂值将样本重新划分后，再分批上报统计信息；

其中，所述终止建树条件，包括以下至少一项：

所述控制端所控制的至少一个客户端中的相同节点的样本数目之和小于预定的参数值；或

已建立的决策树的深度超过预设的深度值。

2.根据权利要求1所述的方法，其中，所述根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，包括：

将各客户端各自存储的样本的目标类别的属性信息的最大值和最小值进行整合，得到目标类别的属性信息的系统最大值和系统最小值；

在所述系统最大值和所述系统最小值之间选择分裂值。

3.根据权利要求2所述的方法，其中，所述统计信息还包括标签统计信息，分裂点信息还包括分裂属性；

所述根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，还包括：

对于候选类别集合中的候选类别，根据各客户端各自存储的样本的该候选类别的属性信息的标签统计信息，得到按照该候选类别分裂后的数据不纯度的下降值；

将下降值最大的候选类别确定为分裂属性。

4.根据权利要求3所述的方法，其中，所述向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求，包括：

若不存在分裂属性，则随机从所述候选类别集合中选择一个类别作为目标类别；

否则，将分裂属性确定为目标类别；

向所述至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求。

5.根据权利要求1所述的方法，其中，所述方法还包括：

采用加密的方式与所述至少一个客户端通信。

6.一种用于构建决策树的方法，应用于客户端，包括：

接收控制端发送的用于获取目标类别的属性信息的统计信息的请求，其中，每个客户端存储的数据的特征相同；

基于所述目标类别，执行如下建树步骤：向所述控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收所述控制端返回的分裂点信息，根据所述分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若所述节点满足预设的终止建树条件，输出所述决策树，其中，统计信息包括至少一个类别的标签统计信息、最大值和最小值，标签统计信息包括标签数量和标签占比，分裂点信息包括分裂值和分裂属性，分裂值在最大值和最小值之间；

若所述节点不满足预设的终止建树条件，根据所述分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

7.根据权利要求6所述的方法，其中，所述终止建树条件，包括以下至少一项：

已建立的决策树的深度超过预设的深度值。

8.根据权利要求6所述的方法，其中，所述方法还包括：

若所述节点的样本数目为空，接收来自样本数目不为空的节点的信息广播继续建决策树。

9.根据权利要求6所述的方法，其中，所述统计信息包括标签统计信息；

以及所述方法还包括：

对所述标签统计信息加密。

10.根据权利要求6-9中任一项所述的方法，其中，所述方法还包括：

随机选择不同样本子集生成至少一个决策树；

将所述至少一个决策树组成随机森林模型。

11.一种用于构建决策树的系统，包括控制端和至少一个客户端，其中，

所述控制端，被配置成实现如权利要求1-5中任一所述的方法；

所述至少一个客户端，被配置成实现如权利要求6-10中任一所述的方法。

12.一种用于构建决策树的装置，应用于控制端，包括：

请求单元，被配置成向至少一个客户端发送用于获取目标类别的属性信息的统计信息的请求，其中，每个客户端存储的数据的特征相同；

统计信息接收单元，被配置成接收各客户端各自存储的样本的目标类别的属性信息的统计信息，其中，统计信息包括至少一个类别的标签统计信息、最大值和最小值，标签统计信息包括标签数量和标签占比；

分裂单元，被配置成根据各客户端各自存储的样本的目标类别的属性信息的统计信息生成分裂点信息，其中，分裂点信息包括分裂值和分裂属性，分裂值在最大值和最小值之间；

发送单元，被配置成将所述分裂点信息发送给所述至少一个客户端，直到满足预设的终止建树条件，其中，各客户端根据分裂属性和分裂值将样本重新划分后，再分批上报统计信息；

其中，所述终止建树条件，包括以下至少一项：

已建立的决策树的深度超过预设的深度值。

13.根据权利要求12所述的装置，其中，所述装置还包括加解密单元，被配置成：

采用加密的方式与所述至少一个客户端通信。

14.一种用于构建决策树的装置，应用于客户端，包括：

请求接收单元，被配置成接收控制端发送的用于获取目标类别的属性信息的统计信息的请求，其中，每个客户端存储的数据的特征相同；

建树单元，被配置成基于所述目标类别，执行如下建树步骤：向所述控制端发送本地存储的样本的目标类别的属性信息的统计信息；接收所述控制端返回的分裂点信息，根据所述分裂点信息将各自存储的样本进行分裂，并存储分裂得到的节点以建立决策树；若所述节点满足预设的终止建树条件，输出所述决策树，其中，统计信息包括至少一个类别的标签统计信息、最大值和最小值，标签统计信息包括标签数量和标签占比，分裂点信息包括分裂值和分裂属性，分裂值在最大值和最小值之间；

循环单元，被配置成若所述节点不满足预设的终止建树条件，根据所述分裂点信息更新目标类别，基于更新后的目标类别继续执行上述建树步骤。

15.根据权利要求14所述的装置，其中，所述统计信息包括标签统计信息；

以及所述装置还包括加解密单元，被配置成：

对所述标签统计信息加密。

16.根据权利要求14或15所述的装置，其中，所述装置还包括组合单元，被配置成：

随机选择不同样本子集生成至少一个决策树；

将所述至少一个决策树组成随机森林模型。

17.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。