CN110782340B

CN110782340B - 决策树模型的交互式建模方法、装置、设备及存储介质

Info

Publication number: CN110782340B
Application number: CN201911024616.1A
Authority: CN
Inventors: 李诗琦; 黄启军; 唐兴兴; 林冰垠; 王跃
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-09-07
Anticipated expiration: 2039-10-25
Also published as: CN110782340A

Abstract

本发明公开了一种决策树模型的交互式建模方法、装置、设备及存储介质，所述方法包括：获取待操作的决策树模型和对决策树模型进行操作的操作任务；根据操作任务对决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；将模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行计算任务；根据各分布式执行机的计算结果得到模型信息，并可视化输出操作后的决策树模型和模型信息。本发明实现了联合存储有决策树模型训练数据的多个分布式执行机进行决策树模型的交互式建模，从而解决了基于单机的交互式建模方式不能利用海量分布式存储的训练数据进行建模的问题。

Description

决策树模型的交互式建模方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种决策树模型的交互式建模方法、装置、设备及存储介质。

背景技术

由于决策树模型具有较好的可解释性，目前决策树模型被广泛应用于诸多领域，如金融机构会使用决策树模型进行风险信贷建模。通常建模的方式并不是单纯的使用机器学习训练生成一颗决策树，而是采用交互式建模型的方式，将决策树模型的建模过程可视化，可以由人工设定节点拆分规则，使得决策树按照预定的规则生长，建模人员通过反复进行交互操作和观察效果，直到得出符合预期的决策树模型。

目前常见的交互式建模工具是基于单机运行的，例如广泛使用的SAS EM工具，单机运行限制了可处理的数据量大小，无法利用海量的分布式存储的训练数据来进行交互式建模。

发明内容

本发明的主要目的在于提供一种决策树模型的交互式建模方法、装置、设备及存储介质，旨在解决目前基于单机的交互式建模方式无法利用海量分布式存储的训练数据来进行交互式建模的问题。

为实现上述目的，本发明提供一种决策树模型的交互式建模方法，所述决策树模型的交互式建模方法包括以下步骤：

获取待操作的决策树模型和对所述决策树模型进行操作的操作任务；

根据所述操作任务对所述决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；

将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务；

根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息。

可选地，所述获取待操作的决策树模型和对所述决策树模型进行操作的操作任务的步骤包括：

接收与本机设备连接的用户端发送的交互操作指令；

根据所述交互操作指令从服务器获取待操作的决策树模型，以及根据所述交互操作指令确定对所述决策树模型进行操作的操作任务；

根据各分布式执行机的计算结果得到所述模型信息的步骤之后，还包括：

将操作后的决策树模型和所述模型信息缓存至所述服务器中；

所述可视化输出操作后的决策树模型和所述模型信息的步骤包括：

将操作后的决策树模型和所述模型信息返回给所述用户端，以供所述用户端可视化输出操作后的决策树模型和所述模型信息。

可选地，当所述操作任务是对所述决策树模型中目标节点的拆分操作、待计算的所述模型信息包括所述拆分操作中拆分规则的拆分增益时，

所述将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务的步骤包括：

将所述拆分操作中的拆分规则发送给各分布式执行机，以供各分布式执行机计算各自的本地数据在所述拆分规则下的统计信息；

所述根据各分布式执行机的计算结果得到所述模型信息的步骤包括：

根据各分布式执行机计算得到的所述统计信息计算所述拆分规则的拆分增益。

可选地，当待计算的所述模型信息还包括所述目标节点的孩子节点的最优拆分点时，

所述根据所述操作任务对所述决策树模型进行操作包括：

按照所述拆分规则生成所述目标节点的新孩子节点；

所述将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务的步骤还包括：

将所述新孩子节点在预设数据特征下各拆分点的数据统计任务发送给各分布式执行机，以供各分布式执行机计算各自本地数据在各所述拆分点下的统计信息；

所述根据各分布式执行机的计算结果得到所述模型信息的步骤还包括：

接收分布式执行机返回的所述新孩子节点在所述预设数据特征各拆分点下的汇总统计信息；

根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点。

可选地，所述根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点的步骤包括：

将所述新孩子节点在不同的所述预设数据特征下的所述汇总统计信息发送给不同的分布式执行机，以供不同的分布式执行机并行计算所述孩子节点在各所述预设数据特征下的最优拆分点。

可选地，所述按照所述拆分规则生成所述目标节点的新孩子节点的步骤之前，还包括：

当检测到所述目标节点是非叶子节点时，删除所述决策树模型中所述目标节点当前的孩子节点。

可选地，所述根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息的步骤之后，还包括：

对操作后的决策树模型计算预设的模型评估指标并可视化输出所述模型评估指标的计算结果。

为实现上述目的，本发明还提供一种决策树模型的交互式建模装置，所述决策树模型的交互式建模装置包括：

获取模块，用于获取待操作的决策树模型和对所述决策树模型进行操作的操作任务；

确定模块，用于根据所述操作任务对所述决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；

分发模块，用于将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务；

输出模块，用于根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息。

为实现上述目的，本发明还提供一种决策树模型的交互式建模设备，所述决策树模型的交互式建模设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的决策树模型的交互式建模程序，所述决策树模型的交互式建模程序被所述处理器执行时实现如上所述的决策树模型的交互式建模方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有决策树模型的交互式建模程序，所述决策树模型的交互式建模程序被处理器执行时实现如上所述的决策树模型的交互式建模方法的步骤。

本发明中，通过获取待操作的决策树模型和对该决策树模型进行操作的操作任务；根据操作任务对该决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；将该模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行该计算任务；根据各分布式执行机的计算结果得到该模型信息，并可视化输出操作后的决策树模型和该模型信息，实现了联合存储有决策树模型训练数据的多个分布式执行机进行决策树模型的交互式建模，从而解决了基于单机的交互式建模方式不能利用海量分布式存储的训练数据进行建模的问题，使得决策树模型的交互式建模过程能够使用到更多的训练数据，从而提升通过交互式建模方式建立的决策树模型的质量。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明决策树模型的交互式建模方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种决策树模型的交互式建模系统架构图；

图4为本发明实施例涉及的一种决策树模型的交互式建模处理流程示意图；

图5为本发明决策树模型的交互式建模装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例决策树模型的交互式建模设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该决策树模型的交互式建模设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对决策树模型的交互式建模设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及决策树模型的交互式建模程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持决策树模型的交互式建模程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与各参与设备建立通信连接；而处理器1001可以用于调用存储器1005中存储的决策树模型的交互式建模程序，并执行以下操作：

进一步地，所述获取待操作的决策树模型和对所述决策树模型进行操作的操作任务的步骤包括：

接收与本机设备连接的用户端发送的交互操作指令；

所述根据各分布式执行机的计算结果得到所述模型信息的步骤之后，处理器1001可以用于调用存储器1005中存储的决策树模型的交互式建模程序，还执行以下操作：

进一步地，当所述操作任务是对所述决策树模型中目标节点的拆分操作、待计算的所述模型信息包括所述拆分操作中拆分规则的拆分增益时，

进一步地，当待计算的所述模型信息还包括所述目标节点的孩子节点的最优拆分点时，

所述根据所述操作任务对所述决策树模型进行操作包括：

按照所述拆分规则生成所述目标节点的新孩子节点；

进一步地，所述根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点的步骤包括：

进一步地，所述按照所述拆分规则生成所述目标节点的新孩子节点的步骤之前，处理器1001可以用于调用存储器1005中存储的决策树模型的交互式建模程序，还执行以下操作：

进一步地，所述根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息的步骤之后，处理器1001可以用于调用存储器1005中存储的决策树模型的交互式建模程序，还执行以下操作：

基于上述的结构，提出决策树模型的交互式建模方法的各个实施例。

参照图2，图2为本发明决策树模型的交互式建模方法第一实施例的流程示意图。

本发明实施例提供了决策树模型的交互式建模方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明决策树模型的交互式建模方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备，为便于描述，以下各实施例中以算法执行端为执行主体进行阐述。在本实施例中，决策树模型的交互式建模方法包括：

步骤S10，获取待操作的决策树模型和对所述决策树模型进行操作的操作任务；

在本实施例中，训练决策树模型的训练数据可以是存储在多个分布式执行机中，也即，每个分布式执行机本地存储有一些训练数据，算法执行端可以是预先与多个分布式执行机建立连接，也可以是算法执行端在需要分布式执行机执行计算任务时，与分布式执行机建立连接。需要说明的是，本实施例对各个分布式执行机的组织方式不作限制。

在交互式建模过程中，用户可以通过对可视化交互界面中显示的决策树模型进行操作，触发交互操作指令，算法执行端可基于交互操作指令确定待操作的决策树模型，以及对决策树模型进行操作的操作任务。其中，根据用户触发的交互操作指令不同，操作任务不同，如用户想要对当前界面显示的决策树模型的某一节点进行剪枝操作，通过交互界面触发交互操作指令，则算法执行端获取到的待操作决策树模型就是当前界面中显示的决策树模型，操作任务是对该节点的剪枝操作。需要说明的是，算法执行端可以是一个服务器，与用户端建立连接，用户通过用户端的可视化交互界面触发交互操作指令，用户端将交互操作指令发送给算法执行端；算法执行端也可以是一个用户端，用户通过算法执行端的可视化交互界面触发交互操作指令。

步骤S20，根据所述操作任务对所述决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；

算法执行端根据操作任务对决策树模型进行操作。具体地，操作任务可以包括对节点进行剪枝、对节点继续拆分、删除节点、导入子树等常规交互操作。根据不同的操作任务，算法执行端对决策树模型进行不同的操作，如当操作任务是对目标节点进行剪枝时，算法执行端将目标节点所有孩子节点的相关信息删除，由于删除目标节点的孩子节点后，目标节点变成了叶子节点，算法执行端可删除目标节点的拆分规则，将目标节点转化为叶子节点。

在对决策树模型进行操作后，算法执行端根据操作后的决策树模型确定待计算的模型信息。具体地，在对决策树模型进行操作后，需要计算操作后的决策树模型的一些模型信息，而根据操作任务不同，需要计算的模型信息可能不同。如当操作任务是对决策树模型的目标节点进行剪枝操作时，操作后的决策树模型目标节点变成了叶子节点，则需要计算的模型信息可以是该目标节点的最优拆分点，以便于用户分析操作后的决策树模型，依据最优拆分点继续对目标节点进行拆分；当操作任务是对决策树模型的目标节点进行拆分操作时，操作后的决策树模型中目标节点有了新的拆分规则和新的孩子节点，则需要计算的模型信息可以包括该目标节点的新拆分规则的拆分增益，以便于用户根据拆分增益分析目标节点的新拆分规则的拆分效果，还可以包括新孩子节点的最优拆分点，以便于用户依据最优拆分点继续对新孩子节点进行拆分。其中，拆分增益是指衡量拆分规则效果的大小值，有多种计算方式，例如Gini增益、Entropy(熵)增益、卡方值和F校验值等，本实施例中不作具体限制。

步骤S30，将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务；

算法执行端在确定待计算的模型信息后，将模型信息的计算任务分发给与本机设备连接的各分布式执行机，也即将计算任务分发给与算法执行端连接的各分布式执行机。各分布式执行机接收到算法执行端发送的计算任务后，采用各自的本地数据执行计算任务，并将计算结果反馈给算法执行端，其中，本地数据即分布式执行机本地存储的用于训练决策树模型的训练数据。根据待计算的模型信息不同，计算任务不同，如待计算的模型信息是目标节点的拆分规则的拆分增益时，计算任务是计算分布式执行机各自本地数据在新拆分规则下的统计信息。其中，统计信息是计算拆分增益的依据，根据决策树模型的建模任务不同统计信息可能不同。

步骤S40，根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息。

根据各分布式执行机的计算结果得到模型信息。具体地，根据计算任务不同、以及根据分布式执行机的组织方式不同，各分布式执行机反馈给算法执行端的计算结果不同。如当计算任务是计算分布式执行机各自本地数据在新拆分规则下的统计信息时，各个分布式执行机可以是将各自计算得到的统计信息作为各自的计算结果返回给算法执行端，算法执行端将各个统计信息进行叠加汇总后，根据汇总后的统计信息计算拆分增益；也可以是各个分布式执行机将各自计算得到的统计信息发送到一个分布式执行机中，由该分布式执行机计算汇总统计信息并将该汇总统计信息返回给算法执行端，算法执行端根据汇总统计信息计算拆分增益；还可以是有该分布式执行机在计算得到汇总统计信息后，根据汇总统计信息计算拆分增益后，将拆分增益返回给算法执行端，算法执行端直接获得拆分增益。

算法执行端得到模型信息后，可视化输出操作后的决策树模型和该模型信息。具体地，算法执行端是服务器时，算法执行端可以对操作后的决策树模型和模型信息进行可视化处理，将可视化处理后的显示信息发送给用户端，由用户端在交互界面中显示该显示信息，供用户在交互界面中直观地分析操作后的决策树模型和模型信息，如对目标节点进行进一步拆分后，通过目标节点新拆分规则的拆分增益，分析目标节点新拆分规则的效果好坏；当算法执行端是用户端时，算法执行端可直接将操作后的决策树模型和模型信息进行可视化处理后，在算法执行端的交互界面中显示操作后的决策树模型和模型信息。

在本实施例中，通过获取待操作的决策树模型和对该决策树模型进行操作的操作任务；根据操作任务对该决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；将该模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行该计算任务；根据各分布式执行机的计算结果得到该模型信息，并可视化输出操作后的决策树模型和该模型信息，实现了联合存储有决策树模型训练数据的多个分布式执行机进行决策树模型的交互式建模，从而解决了基于单机的交互式建模方式不能利用海量分布式存储的训练数据进行建模的问题，使得决策树模型的交互式建模过程能够使用到更多的训练数据，从而提升通过交互式建模方式建立的决策树模型的质量。

进一步地，决策树模型可以用于预测信贷风险，训练数据可以是各个银行机构的用户信贷数据，各个银行机构可以建立合作关系，由各个银行机构的设备构成分布式执行机集群。建模人员通过算法执行端联合各个分布式执行机，利用各银行机构的海量训练数据，建立用于预测信贷风险的决策树模型。在决策树模型训练完成后，可将训练完成的决策树模型部署于各个银行机构，供各个银行机构通过训练完成的决策树模型对银行用户进行信贷风险预测。由于决策树模型是依据各个银行机构的海量训练数据训练得到的，其预测效果要优于通过单个银行机构的训练数据训练得到的决策树模型，并且，整个建模过程是交互式建模过程，使得建模人员可以根据领域经验对决策树模型的生长进行干预，从而进一步提高了决策树模型的预测效果。需要说明的是，本实施例中，决策树模型还可以用于其他预测或分类任务，如天气预测、论文评分等等。

进一步地，步骤S10包括：

步骤S101，接收与本机设备连接的用户端发送的交互操作指令；

在一实施例中，可以预先建立一个系统架构，如图3所示，系统架构由用户端、算法服务器Driver端(算法执行端)、分布式集群和缓存决策树模的服务器(后称缓存服务器)构成，分布式集群中包括多个分布式执行机，用于实现基于分布式存储的训练数据进行决策树模型交互式建模。其中，用户端用于展示决策树模型、模型信息等可视化数据，并且提供用户交互界面接口；用户端在用户基于用户交互界面触发交互操作指令后，与算法服务器建立连接，将交互操作指令发送给算法执行端。其中，交互操作指令可以携带待操作的决策树模型的标识。算法执行端接收用户端发送的交互操作指令。缓存服务器用于缓存当前的决策树模型，系统中可以有多个用户端，即算法执行端可为多个用户端服务，缓存服务器中缓存有多个用户端对于的决策树模型。

步骤S102，根据所述交互操作指令从服务器获取待操作的决策树模型，以及根据所述交互操作指令确定对所述决策树模型进行操作的操作任务；

算法执行端解析交互操作指令，从中提取待操作的决策树模型的标识，并从缓存服务器中加载该标识对应的决策树模型，即获取到待操作的决策树模型，并解析交互式操作指令，确定对决策树模型进行操作的操作任务，如从交互式操作指令中获取待拆分的目标节点的编号以及新的拆分规则。

所述步骤S40之后，还包括：

步骤S50，将操作后的决策树模型和所述模型信息缓存至所述服务器中；

在算法执行端根据分布式执行机的计算结果得到模型信息后，算法执行端将操作后的决策树模型和模型信息缓存至缓存服务器中。

所述步骤S40中可视化输出操作后的决策树模型和所述模型信息的步骤包括：

步骤S401，将操作后的决策树模型和所述模型信息返回给所述用户端，以供所述用户端可视化输出操作后的决策树模型和所述模型信息。

算法执行端将操作后的决策树模型和得到的模型信息返回给用户端，用户端可视化输出操作后的决策树模型和模型信息，以便用户根据用户端的交互界面中显示的操作后的决策树模型和模型信息，分析操作后的决策树模型的效果，作出下一步的交互建模操作，直到建立符合预期的决策树模型。

在本实施例中，通过由用户端将用户触发的交互操作指令发送给算法执行端，通过交互操作执行告诉算法执行端待操作的决策树模型，由算法执行端从缓存服务器中加载出该决策树模型，可以避免用户端与算法执行端以长连接的方式进行交互，一台算法执行端可以处理多个用户端的任务，使得整体架构更加可靠和健壮。

进一步地，基于上述第一实施例，提出本发明决策树模型的交互式建模方法第二实施例，在本发明决策树模型的交互式建模方法第二实施例中，当所述操作任务是对所述决策树模型中目标节点的拆分操作、待计算的所述模型信息包括所述拆分操作中拆分规则的拆分增益时，所述步骤S30包括：

步骤S301，将所述拆分操作中的拆分规则发送给各分布式执行机，以供各分布式执行机计算各自的本地数据在所述拆分规则下的统计信息；

在本实施例中，当操作任务是对决策树模型中目标节点的拆分操作时，拆分操作可包括对目标节点的拆分规则。如用户想要对决策树模型中的一个叶子节点进行继续拆分，则用户可通过交互界面设置对该叶子节点的拆分规则，如对某一个数据特征设置拆分点，则算法执行端获取到的拆分操作中包括用户设置的对该叶子节点的拆分规则。

算法执行端可将决策树模型中目标节点的拆分规则设置为拆分操作中的拆分规则。具体地，当目标节点是叶子节点时，算法执行端为该目标节点创建拆分规则，当目标节点是非叶子节点时，算法执行端对该目标节点的拆分规则进行重新赋值，即将目标节点的拆分规则更新为拆分操作中的新拆分规则。

算法执行端确定的待计算模型信息可以包括拆分操作中该拆分规则的拆分增益。也即，当用户对一个节点设置了新的拆分规则时，需要为用户计算该拆分规则的拆分增益，以帮助用户分析新拆分规则的效果，从而实现交互式建模。

算法执行端在确定待计算的模型信息后，将模型信息的计算任务发送给各个分布式执行机，具体地，当待计算的模型信息是目标节点拆分规则的拆分增益时，计算任务可以是计算分布式执行机各自本地数据在新拆分规则下的统计信息，算法执行端将拆分规则发送各各个分布式执行机，由各个分布式执行机根据拆分规则执行计算任务。

具体地，分布式执行机在获取到目标节点的拆分规则后，可按照拆分规则在本地构建与算法执行端相同的决策树模型，采用本地数据进行决策树推理，确定本地数据中分配到目标节点的数据集；统计数据集在该拆分规则下的统计信息，具体地，统计信息根据决策树模型的建模任务不同而不同；例如，当建模任务是分类任务时，按照拆分规则中数据特征的取值范围和数据集中的标签数据，统计数据集在不同取值范围下不同类别的数据分布，如数据集中包括多个客户的数据，以及每个客户的分类标签：优质客户和非优质客户，统计得到数据集中年龄30岁的优质客户为1000人，非优质客户为100人，年龄40岁的优质客户为500人，非优质客户为80人；当建模任务是回归任务时，按照拆分规则中数据特征的取值范围和标签数据，统计数据集在不同取值范围下标签数据的平均值和方差，如数据集中包括多个客户的数据，以及每个客户的数据标签：借贷数额，统计得到数据集中年龄30岁客户的平均借贷数额为10000，方差为200，年龄40岁客户的平均借贷数额为20000，方差为200。需要说明的是，上述具体例子中的数据仅仅是用于解释说明，并不代表真实场景中的实际统计数据。

所述步骤S40中根据各分布式执行机的计算结果得到所述模型信息的步骤包括：

步骤S402，根据各分布式执行机计算得到的所述统计信息计算所述拆分规则的拆分增益。

算法执行端根据各分布式执行机计算得到的统计信息，计算该拆分规则的拆分增益。具体地，各个分布式执行机可以是将各自计算得到的统计信息作为各自的计算结果返回给算法执行端，算法执行端将各个统计信息进行叠加汇总后，根据汇总后的统计信息计算拆分增益；也可以是各个分布式执行机将各自计算得到的统计信息发送到一个分布式执行机中，由该分布式执行机计算汇总统计信息并将该汇总统计信息返回给算法执行端，算法执行端根据汇总统计信息计算拆分增益。其中，根据决策树模型的建模任务不同，对各个分布式执行机的统计信息进行汇总的方式不同；如当建模任务是分类任务时，直接将各个分布式执行机统计得到的不同取值范围下不同类别的数据分布对应相加，如统计信息1中年龄30岁的优质客户为1000人，统计信息2中年龄30岁的优质客户为2000人，则汇总得到年龄30岁的优质客户为3000人；当建模任务是回归任务时，将各分布式执行机统计到的不同取值范围下数据标签的平均值和方差，对应计算平均值和方差，如统计信息1中年龄30岁的客户人数是200，平均借贷数额为20000，统计信息2中年龄30岁的客户人数是300，平均借贷数额为10000，则汇总得到年龄30岁的客户平均借贷数额为(200*20000+300*10000)/(200+300)＝14000。需要说明的是，计算拆分增益的方式有多种，在本实施例中不作具体限制。

进一步地，基于上述第一和第二实施例，提出本发明决策树模型的交互式建模方法第三实施例，在本发明决策树模型的交互式建模方法第三实施例中，当待计算的所述模型信息还包括所述目标节点的孩子节点的最优拆分点时，所述步骤S20中根据所述操作任务对所述决策树模型进行操作的步骤包括：

步骤S201，按照所述拆分规则生成所述目标节点的新孩子节点；

在本实施例中，当操作任务是对决策树模型的目标节点的拆分操作时，算法执行端可在更新目标节点的拆分规则后，按照该新的拆分规则生成目标节点的新孩子节点。具体地，算法执行端可根据拆分规则中数据特征的拆分点个数，确定新孩子节点的个数，如拆分点的个数是2个时，新孩子节点的个数是3个，分别对应由两个拆分点所划分的三个取值范围。

进一步地，所述步骤S201之前，还包括：

算法执行端在生成目标节点的新孩子节点之前，可检测目标节点是否是非叶子节点，若是非叶子节点，则算法执行端先将目标节点进行剪枝，也即删除该目标节点当前的孩子节点。若目标节点是叶子节点，则不需要对目标节点进行剪枝。

所述步骤S30还包括：

步骤S301，将所述新孩子节点在预设数据特征下各拆分点的数据统计任务发送给各分布式执行机，以供各分布式执行机计算各自本地数据在各所述拆分点下的统计信息；

当操作任务是对决策树模型中目标节点的拆分操作时，算法执行端确定的待计算模型信息还可以包括目标节点孩子节点的最优拆分点。由于用户在对目标节点进行拆分，得到目标节点的新孩子节点后，可能对孩子节点进行继续拆分，因此，算法执行端可以计算目标节点新孩子节点的最优拆分点，供用户依据最优拆分点对新孩子节点进行进一步的拆分。

算法执行端在确定待计算的模型信息后，将模型信息的计算任务发送给各个分布式执行机。具体地，当待计算的模型信息是目标节点孩子节点的最优拆分点时，计算任务可以是新孩子节点在预设数据特征各拆分点下的数据统计任务。其中，预设数据特征可以是用户选择的数据特征，也可以是当前决策树模型的各个节点的拆分规则还未用到的数据特征，也可以是所有的数据特征。算法执行端可以计算每个预设数据特征的最优拆分点，对于每个预设数据特征，算法执行端计算该预设数据特征在不同拆分点下的拆分增益，然后比较不同拆分点的拆分增益，选出效果最好的拆分点，即最优拆分点。因此，计算任务是每个预设数据特征各个拆分点下的数据统计任务，也即计算任务是各个分布式执行机分别统计各种本地数据在不同预设数据特征不同拆分点下的统计信息。

分布式执行机在接收到计算任务后，在本地构建与算法执行端相同的决策树模型，采用本地数据进行决策树推理，确定本地数据中分配到目标节点新孩子节点的数据集；分别统计数据集在不同预设数据特征的不同拆分点下的统计信息，具体的统计计算过程与上述第二实施例中分布式执行机统计数据集在拆分规则下的统计信息的过程类似，在此不再详细赘述。

所述步骤S40中根据各分布式执行机的计算结果得到所述模型信息的步骤还包括：

步骤S403，接收分布式执行机返回的所述新孩子节点在所述预设数据特征各拆分点下的汇总统计信息；

各分布式执行机可以将各自得到的统计信息发送到一个分布式执行机中，由该分布式执行机将统计信息进行汇总，具体地，对各分布式执行机在将不同预设数据特征不同拆分点下的统计信息分别汇总，得到不同预设数据特征不同拆分点下的汇总统计信息，汇总的方式与上述第二实施例中的汇总方式类似，在此不再详细赘述。该分布式执行机将汇总信息返回给算法执行端。

算法执行端接收分布式执行机返回的新孩子节点在预设数据特征各拆分点下的汇总统计信息。需要说明的是，当新孩子节点是多个时，对于多个新孩子节点采取同样的方式，获得每个新孩子节点对应的汇总统计信息。

步骤S404，根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点。

算法执行端在得到新孩子节点在各预设数据特征各拆分点下的汇总统计信息后，计算新孩子节点在各个预设数据特征下的最优拆分点。具体地，对于新孩子节点的一个预设数据特征，算法执行端可分别根据该预设数据特征不同拆分点下的汇总统计信息，计算每个拆分点对应的拆分增益，比较拆分增益，选取效果最优的拆分点作为该预设数据特征的最优拆分点，如当拆分增益数值越大时表示拆分点的效果最优时，可以选择最大的拆分增益对应的拆分点作为最优拆分点。

进一步地，步骤S404包括：

步骤S4041，将所述新孩子节点在不同的所述预设数据特征下的所述汇总统计信息发送给不同的分布式执行机，以供不同的分布式执行机并行计算所述孩子节点在各所述预设数据特征下的最优拆分点。

进一步地，在一实施例中，由于算法执行端需要计算每个新孩子节点在每个预设数据特征不同拆分点下的拆分增益，计算量较大，算法执行端可以将最优拆分点的计算任务分发给不同的分布式执行机并行计算。例如将新孩子节点在不同的预设数据特征下的汇总统计信息发送给不同的分布式执行机，由不同的分布式执行机并行计算不同预设数据特征的最优拆分点，并将计算结果返回给算法执行端，从而提高算法执行端的计算最优拆分点的计算效率，减轻算法执行端的处理负担。

进一步地，在算法执行端得到操作后的决策树模型，以及最优拆分点等模型信息后，算法执行端确定的待计算的模型信息还可包括训练数据在新孩子节点的数据分布。由于训练数据分布式存储与各个分布式执行机中，因此，算法执行端可下发统计任务，各个分布式执行机根据统计任务在本地构建与算法执行端相同的决策树模型，并采用本地数据进行决策树推理，确定本地数据被分配到新孩子节点中的数据条数，并将统计结果返回给算法执行端，算法执行端汇总得到训练数据被分配到新孩子节点的数据条数。

进一步地，步骤S40之后，还可包括：

步骤S60，对操作后的决策树模型计算预设的模型评估指标并可视化输出所述模型评估指标的计算结果。

算法执行端得到操作后的决策树模型后，可以计算预设的模型评估指标，并可视化输出模型评估指标的计算结果，供用户根据模型评估指标来分析操作后的决策树模型的效果。其中，预设的模型评估指标可以是预先进行设置的指标，如KS值(Kolmogorov-Smirnov)、AUC(Area Under the Curve)值等指标。若有验证集，则可以对采用操作后的决策树模型对验证集进行评估，计算评估指标，并可视化输出。

进一步地，在一实施例中，当操作任务是对待操作决策树模型的目标节点的拆分操作时，算法执行端的处理流程如图4所示，其中第三、五、六步骤需要分布式执行机协助完成计算任务。算法执行端从缓存服务器中加载待操作的决策树模型；对决策树模型的目标节点进行剪枝；更新目标节点的拆分规则，并计算新拆分规则的拆分增益；生成目标节点的新孩子节点；计算新孩子节点的最优拆分点；计算新孩子节点的统计信息；计算模型评估指标，如KS值、AUC值；根据操作后的决策树模型，拆分增益、最优拆分点、孩子节点统计信息等模型信息，以及模型评估指标的计算结果，生成可视化信息并输出显示，以帮助用户分析拆分后的决策树模型并决定进一步的交互操作。

此外，此外本发明实施例还提出一种决策树模型的交互式建模装置，参照图5，所述决策树模型的交互式建模装置包括：

获取模块10，用于获取待操作的决策树模型和对所述决策树模型进行操作的操作任务；

确定模块20，用于根据所述操作任务对所述决策树模型进行操作，并根据操作后的决策树模型确定待计算的模型信息；

分发模块30，用于将所述模型信息的计算任务分发给与本机设备连接的各分布式执行机，以供各分布式执行机根据各自的本地数据执行所述计算任务；

输出模块40，用于根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息。

进一步地，所述获取模块10包括：

第一接收单元，用于接收与本机设备连接的用户端发送的交互操作指令；

获取单元，用于根据所述交互操作指令从服务器获取待操作的决策树模型，以及根据所述交互操作指令确定对所述决策树模型进行操作的操作任务；

所述决策树模型的交互式建模装置还包括：

缓存模块，用于将操作后的决策树模型和所述模型信息缓存至所述服务器中；

所述输出模块40包括：

返回单元，用于将操作后的决策树模型和所述模型信息返回给所述用户端，以供所述用户端可视化输出操作后的决策树模型和所述模型信息。

所述分发模块30包括：

第一发送单元，用于将所述拆分操作中的拆分规则发送给各分布式执行机，以供各分布式执行机计算各自的本地数据在所述拆分规则下的统计信息；

所述输出模块40包括：

第一计算单元，用于根据各分布式执行机计算得到的所述统计信息计算所述拆分规则的拆分增益。

所述确定模块20包括：

生成单元，用于按照所述拆分规则生成所述目标节点的新孩子节点；

所述分发模块30还包括：

第二发送单元，用于将所述新孩子节点在预设数据特征下各拆分点的数据统计任务发送给各分布式执行机，以供各分布式执行机计算各自本地数据在各所述拆分点下的统计信息；

所述输出模块40还包括：

第二接收单元，用于接收分布式执行机返回的所述新孩子节点在所述预设数据特征各拆分点下的汇总统计信息；

第二计算单元，用于根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点。

进一步地，所述第二计算单元包括：

发送子单元，用于将所述新孩子节点在不同的所述预设数据特征下的所述汇总统计信息发送给不同的分布式执行机，以供不同的分布式执行机并行计算所述孩子节点在各所述预设数据特征下的最优拆分点。

进一步地，所述确定模块20还包括：

删除单元，用于当检测到所述目标节点是非叶子节点时，删除所述决策树模型中所述目标节点当前的孩子节点。

进一步地，所述决策树模型的交互式建模装置还包括：

计算模块，用于对操作后的决策树模型计算预设的模型评估指标并可视化输出所述模型评估指标的计算结果。

本发明决策树模型的交互式建模装置的具体实施方式的拓展内容与上述决策树模型的交互式建模方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有决策树模型的交互式建模程序，所述决策树模型的交互式建模程序被处理器执行时实现如下所述的决策树模型的交互式建模方法的步骤。

本发明决策树模型的交互式建模设备和计算机可读存储介质的各实施例，均可参照本发明决策树模型的交互式建模方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种决策树模型的交互式建模方法，其特征在于，所述决策树模型的交互式建模方法包括以下步骤：

根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息；

当所述操作任务是对所述决策树模型中目标节点的拆分操作、待计算的所述模型信息包括所述拆分操作中拆分规则的拆分增益时，

2.如权利要求1所述的决策树模型的交互式建模方法，其特征在于，所述获取待操作的决策树模型和对所述决策树模型进行操作的操作任务的步骤包括：

接收与本机设备连接的用户端发送的交互操作指令；

所述根据各分布式执行机的计算结果得到所述模型信息的步骤之后，还包括：

3.如权利要求1所述的决策树模型的交互式建模方法，其特征在于，当待计算的所述模型信息还包括所述目标节点的孩子节点的最优拆分点时，

所述根据所述操作任务对所述决策树模型进行操作包括：

按照所述拆分规则生成所述目标节点的新孩子节点；

4.如权利要求3所述的决策树模型的交互式建模方法，其特征在于，所述根据所述汇总统计信息计算所述新孩子节点在各所述预设数据特征下的最优拆分点的步骤包括：

5.如权利要求3所述的决策树模型的交互式建模方法，其特征在于，所述按照所述拆分规则生成所述目标节点的新孩子节点的步骤之前，还包括：

6.如权利要求1至5任一项所述的决策树模型的交互式建模方法，其特征在于，所述根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息的步骤之后，还包括：

7.一种决策树模型的交互式建模装置，其特征在于，所述决策树模型的交互式建模装置包括：

输出模块，用于根据各分布式执行机的计算结果得到所述模型信息，并可视化输出操作后的决策树模型和所述模型信息；

所述分发模块包括：

所述输出模块包括：

8.一种决策树模型的交互式建模设备，其特征在于，所述决策树模型的交互式建模设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的决策树模型的交互式建模程序，所述决策树模型的交互式建模程序被所述处理器执行时实现如权利要求1至6中任一项所述的决策树模型的交互式建模方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有决策树模型的交互式建模程序，所述决策树模型的交互式建模程序被处理器执行时实现如权利要求1至6中任一项所述的决策树模型的交互式建模方法的步骤。