CN112329874A

CN112329874A - 数据业务的决策方法、装置、电子设备和存储介质

Info

Publication number: CN112329874A
Application number: CN202011264350.0A
Authority: CN
Inventors: 张美琦; 马云龙; 范叶亮
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-05
Anticipated expiration: 2040-11-12
Also published as: CN112329874B

Abstract

本公开提供了一种数据业务的决策方法、装置、电子设备和存储介质，涉及计算机技术领域。其中，数据业务的决策方法包括：获取用于训练模型的特征数据集；通过特征数据集进行模型训练，以生成决策树，决策树的节点中包括决策约束条件和决策结果；基于预设的规则提取参数从决策约束条件中提取第一类约束条件；对不包含第一类约束条件的节点进行剪枝处理；通过剪枝处理后的决策树对业务数据进行预测。通过本公开的技术方案，确定了对决策结果影响大的决策约束条件，有利于简化决策树的决策分支，提高了决策效率、准确性和可靠性。

Description

数据业务的决策方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据业务的决策方法、装置、电子设备和存储介质。

背景技术

决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于或等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。

具体地，决策树是一种树形结构，其中每个内部节点表示一个属性上的决策测试，每个分支代表一个测试输出，每个叶节点代表一种决策类别。

由于每个叶节点中包含至少一个决策约束条件，每个决策约束条件包括一个数据参数和判定阈值，由于决策树的最后一级输出节点多。因此，无法确定对决策结果影响较大的决策约束条件，而且决策树由于节点繁多，决策输出的效率也较低，也会对决策系统造成较大的运算压力。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据业务的决策方法、装置、电子设备和存储介质，至少在一定程度上克服由于相关技术中决策效率低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种数据业务的决策方法，包括：获取用于训练模型的特征数据集；通过特征数据集进行模型训练，以生成决策树，决策树的节点中包括决策约束条件和决策结果；基于预设的规则提取参数从决策约束条件中提取第一类约束条件；对不包含第一类约束条件的节点进行剪枝处理；通过剪枝处理后的决策树对业务数据进行预测。

在本公开的一个实施例中，基于预设的规则提取参数从所述决策约束条件中提取第一类约束条件包括：确定所述决策树的根节点中的样本总量、均方误差和决策差异度；根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件。

在本公开的一个实施例中，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件包括：确定预设的规则提取参数中包含的预设样本占比率；确定决策树的根节点中的样本总量；根据样本总量和预设样本占比率确定预设样本量；判断预设样本量是否小于或等于节点中的样本量；若判定预设样本量小于或等于样本量，则对节点中的决策约束条件进行第一次提取。

在本公开的一个实施例中，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：确定预设的规则提取参数中包含的预设均方误差；确定第一次提取后的决策约束条件的节点中的均方误差；判断预设均方误差是否小于或等于均方误差；若判定预设均方误差小于或等于均方误差，则对节点中的决策约束条件进行第二次提取。

在本公开的一个实施例中，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：确定预设的规则提取参数中包含的预设决策差异度；确定第二次提取后的决策约束条件的节点中的决策差异度；判断预设决策差异度是否大于或等于决策差异度；若判定预设决策差异度大于或等于决策差异度，则对节点中的决策约束条件进行第三次提取；将第三次提取的决策约束条件确定为第一类约束条件。

在本公开的一个实施例中，确定第二次提取后的决策约束条件的节点中的决策差异度包括：确定第二次提取后的决策约束条件的节点的两个子节点；计算两个子节点之间的决策结果之间的差值；将决策结果之间的差值确定为决策差异度。

在本公开的一个实施例中，获取用于训练模型的特征数据集包括：接收客户端的使用记录，并确定所述使用记录中的行为数据和用户画像；根据所述行为数据和用户画像生成用于训练模型的样本数据；对所述用于训练模型的样本数据进行预处理，以得到样本数据集。

在本公开的一个实施例中，所述预处理包括空值插值处理、分类编码处理和异常值删除处理中的至少一种。

在本公开的一个实施例中，所述行为数据包括浏览记录、订单记录、理财记录、支付记录和借贷记录中的至少一种。

在本公开的一个实施例中，所述分类编码处理包括one-hot编码处理、哑编码、频率编码和哈希编码中的至少一种。

在本公开的一个实施例中，获取用于训练模型的特征数据集包括：对用于训练模型的样本数据进行预处理，以得到样本数据集，其中，预处理包括空值插值处理、分类编码处理和异常值删除处理中的至少一种。

在本公开的一个实施例中，获取用于训练模型的特征数据集还包括：计算特征数据集的单个特征信息量，特征信息量包括信息增益、信息价值和证据权重；计算特征数据集中的特征数据之间的相关度，以根据相关度删除相同的特征数据；通过机器学习算法对特征信息量和相关度进行计算，得到特征数据集的权重，并对特征数据集进行权重排序；根据权重排序的结果确定用于训练模型的特征数据集。

在本公开的一个实施例中，通过所述特征数据集进行模型训练，以生成决策树包括：通过分类算法或回归算法对特征数据集进行模型训练，以生成决策树。

根据本公开的另一个方面，提供一种数据业务的决策装置，包括：获取模块，用于获取用于训练模型的特征数据集；训练模块，用于获取通过特征数据集进行模型训练，以生成决策树，决策树的节点中包括决策约束条件和决策结果；规则提取模块，用于获取根据预设的规则提取参数对决策约束条件进行提取，以获得第一类约束条件；剪枝模块，用于对不包含第一类约束条件的节点的决策树进行剪枝处理。

根据本公开的再一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的数据业务的决策方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的数据业务的决策方法。

本公开的实施例所提供的数据业务的决策方案，通过预设的规则提取参数从所述决策约束条件中提取第一类约束条件，即确定了对决策输出结果影响较大的一类约束条件，进一步地确定对输出结果影响大的决策阈值，通过剪枝处理来简化决策树的结构，以提高对业务数据进行预测的效率、可靠性和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A示出本公开实施例中一种数据业务的决策系统的示意图；

图1B示出图1A所示的本公开实施例中一种数据业务的决策方法的示意图；

图1C示出图1A所示的本公开实施例中另一种数据业务的决策方法的示意图；

图1D示出图1A所示的本公开实施例中另一种数据业务的决策方法的示意图；

图2示出本公开实施例中一种数据业务的决策方法的流程图；

图3示出本公开实施例中另一种数据业务的决策方法的流程图；

图4示出本公开实施例中另一种数据业务的决策方法的流程图；

图5示出本公开实施例中另一种数据业务的决策方法的流程图；

图6示出本公开实施例中另一种数据业务的决策方法的流程图；

图7示出本公开实施例中另一种数据业务的决策方法的流程图；

图8示出本公开实施例中另一种数据业务的决策方法的流程图；

图9示出本公开实施例中另一种数据业务的决策方法的流程图；

图10示出本公开实施例中另一种数据业务的决策方法的流程图；

图11示出本公开实施例中一种数据业务的决策装置的示意图；

图12示出本公开图11所示的实施例中一种数据业务的决策方法的示意图；

图13示出本公开图11所示的实施例中一种决策树的示意图；

图14示出本公开实施例中一种电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本申请提供的方案，通过预设的规则提取参数从所述决策约束条件中提取第一类约束条件，即确定了对决策输出结果影响较大的一类约束条件，进一步地确定对输出结果影响大的决策阈值，通过剪枝处理来简化决策树的结构，以提高对业务数据进行预测的效率、可靠性和准确性。

机器学习中，决策树是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示一个对象，而每个分叉路径则代表的一个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来做预测。

从数据产生决策树的机器学习技术叫做决策树学习，通俗说就是决策树。一个决策树包含三种类型的节点：

(1)决策节点：通常用矩形框来表示。

(2)机会节点：通常用圆圈来表示。

(3)终结点：通常用三角形来表示。

决策树学习也是资料探勘中一个普通的方法。每个决策树都表述了一种树型结构，由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于任一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。

本申请实施例提供的方案涉及计算机视觉技术的图形处理和图像识别等技术，具体通过如下实施例进行说明。

如图1A所示，以销售业务场景为例，业务目标依次经过用户特征装置100、特征预处理装置102、关键特征筛选装置104、结构化装置106和自定义装置108处理后输出至业务系统。用户的行为数据包括：浏览记录、订单、理财、支付和信贷等，但不限于此。用户画像包括基础信息和/或兴趣爱好，但不限于此。

(1)用户特征装置100通过对用户数据进行分析，以确定行为数据和/或用户画像，分析数据作为候选特征集112。

(2)特征预处理装置102通过对用户数据进行预处理，以得到标准版特征集114，预处理包括空值处理、类别特征处理和异常数据处理等，但不限于此。

具体地，经过预处理生成标准化特征集，该步骤中的预处理需结合“关键特征筛选装置104”和“结构化装置106”中对特征输入的需要来综合选择，主要预处理方式说明如下：

(2.1)空值处理：对特征中为空的特征进行空值补齐。

(2.2)类别特征：对类别类特征做类别编码，如：one-hot(独热)编码、哑编码、频率编码和哈希编码等，但不限于此。

(2.3)异常数据处理：先基于统计或聚类等方法检测特征中的异常值，后对异常值做处理，处理方法包括删除含有异常值的记录、按缺失值处理或不处理，但不限于此。

(3)关键特征筛选装置104通过对标准化特征集进行进一步的筛选，包括信息熵、相关性+复杂模型特征权重等筛选处理，以得到关键特征集116，具体步骤如图1B所示，包括：

步骤S122，得到标准化特征集114。

步骤S124，信息量统计排序。

步骤S126，模型特征权重计算和排序。

步骤S128，特征间相关性计算。

步骤S130，执行步骤S124后，进行信息熵排序。

步骤S132，执行步骤S124后，进行IV值排序。

步骤S134，执行步骤S126后，进行权重排序。

步骤S136，执行步骤S130得到Top20％特征集A。

步骤S138，执行步骤S132得到Top20％特征集B。

步骤S140，执行步骤S134得到Top20％特征集C。

步骤S142，根据特征集A、特征集B……和特征集C合并，得到特征合集1。

步骤S144，在特征合集1中对高相似(譬如，特征重复率高于50％)特征择其一，以得到特征合集2。

步骤S146，对特征合集2进行专家召回，即得到关键特征集116，专家召回即用户通过前端协议对特征合集2进行编辑处理。

对于影响业务目标(譬如，提升月活跃天数、次日留存、7日留存、活跃时长等)的关键特征筛选，从众多特征中提取那些对目标(分类或回归)识别最有效的特征，从而实现特征空间维数的压缩，即获取一组“少而精”且使分类错误概率小的待征或使回归拟合误差小的特征，具体的筛选方法如下：

(3.1)单个特征信息量：如计算信息增益、IV(信息价值)、WOE(证据权重)等。

(3.2)特征间线性相关性：如使用相关系数，发现重复的、相关性强的特征组，并只选择其中一个特征。

(3.3)基于模型的特征排序：非线性关系可通过机器学习算法如gbdt、xgboost、随机森林等方法，根据目标来建立分类或回归模型，以得到各特征的权重，后根据权重排序得到对目标影响较大的特征集。

本公开使用随机森林作为特征排序模型，主要原因如下：

A模型表征能力强。“传统建模”流程中使用可以学习复杂关系的机器学习算法预测或拟合目标，本公开借鉴表征能力强的随机森林算法用于特征选择，选择出能表征目标的关键特征，后经过“决策树”装置将目标与关键特征间的关系挖掘并表示。

B对特征工程要求少，如可以处理分类类特征和数值型特征，且不需要对特征做归一化等处理，对离群点敏感性弱。

C能处理高维特征数据，且容易并行。

D可根据目标的变化，执行回归算法或者分类算法。

E随机森林为“树”类算法，与本公开中“结构化装置106”使用的是决策树同类，随机森林挑选出的特征，在决策树上有很好的延续性，同时随机森林与决策树在特征工程上的要求类似，便于工程化。

基于以上步骤，结合“单个特征信息量”排序、“基于模型的特征排序”，选择综合排序高的特征，再基于“特征间相关性”保留高相关性特征组中的一个特征，后由业务专家结合业务需求对候选特征进行再次删减或召回。

(4)结构化装置106用于生成决策树，以及进行规则挖掘，以得到候选结构化规则集118。

结构化装置106从“关键特征”中挖掘出使目标变化的结构化规则，

譬如，单规则或组合规则，但不限于此，具体实现步骤如下：

(4.1)单规则如图1C所示，一个特征一次判断组成的决策，决策过程包括：

步骤S148，判断特征A≤阈值a，若是，则执行步骤S150，若否，则执行步骤S152。

步骤S150，确定目标值为y_1。

步骤S152，确定目标值为y_2。

(4.2)组合规则如图1D所示，多个特征或多次判断组合成的决策，决策过程包括：

步骤S148，判断特征A≤阈值a且步骤S154特征B≤阈值b，若是，则执行步骤S156，若否，则执行步骤S158。

步骤S156，确定目标值为y_3。

步骤S158，确定目标值为y_4。

(5)自定义装置108用于进行剪枝装置，以及进行关键规则输出，以得到关键规则集120。

(6)业务系统将关键规则发送至营销系统和产品决策系统110，以实现规则应用，譬如，对于决策约束条件中的阈值进行修正，根据决策约束条件对用户数据进行分类，进而对用户进行定向推送处理。

其中，业务系统根据业务需要决策的目标来定义决策树使用分类或回归过程，譬如以下分类和回归方式：

(6.1)分类类目标：如业务场景为挖掘高、低活跃用户转化关系，挖掘出“低活跃”到“高活跃”的规则，那么该过程需设置成“二分类”决策树建模。

(6.2)回归类目标：如业务需挖掘使得“用户月活跃天数”或“浏览时长”提升的规则，那么该过程需设置成“回归”决策树拟合。

下面，将结合附图及实施例对本示例实施方式中的数据业务的决策方法的各个步骤进行更详细的说明。

图2示出本公开实施例中一种数据业务的决策方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行。在下面的举例说明中，以终端为执行主体进行示例说明。

如图2所示，终端执行数据业务的决策方法，包括以下步骤：

步骤S202，获取用于训练模型的特征数据集。

步骤S204，通过特征数据集进行模型训练，以生成决策树，决策树的节点中包括决策约束条件和决策结果。

步骤S206，基于预设的规则提取参数从决策约束条件中提取第一类约束条件。

步骤S208，对不包含第一类约束条件的节点进行剪枝处理。

步骤S210，通过剪枝处理后的决策树对业务数据进行预测。

在上述实施例中，通过预设的规则提取参数从所述决策约束条件中提取第一类约束条件，即确定了对决策输出结果影响较大的一类约束条件，进一步地确定对输出结果影响大的决策阈值，通过剪枝处理来简化决策树的结构，以提高对业务数据进行预测的效率、可靠性和准确性。

其中，预设的规则提取参数包括预设样本量、预设均方误差和预设决策差异度，并通过对决策树进行遍历，确定第一类预设条件。

其中，决策树由3个主要部分组成，分别为决策节点、分支和叶子节点。决策树最顶部的决策节点是根决策节点，每一个分支都有一个新的决策节点，根决策节点下面是叶子节点。每个决策节点表示一个待分类的数据类别或属性，每个叶子节点表示一种结果。对业务数据进行预测的过程是从根决策节点开始，从上到下，根据数据的分类在每个决策节点给出不同的预测结果。业务数据可以包括客户端的用户行为数据、交互数据等，预测的结果可例如包括决策结果和每种决策结果的概率。

在图2所示的步骤的前提下，如图3所示，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件包括：

步骤S3062，确定所述决策树的根节点中的样本总量、均方误差和决策差异度。

步骤S3064，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件。

在图2所示的步骤的前提下，如图4所示，基于预设的规则提取参数从决策约束条件中提取第一类约束条件包括：

步骤S40642，确定预设的规则提取参数中包含的预设样本占比率。

步骤S40644，确定决策树的根节点中的样本总量。

步骤S40646，根据样本总量和预设样本占比率确定预设样本量。

步骤S40648，判断预设样本量是否小于或等于节点中的样本量，若是，则执行步骤S208，若否，则执行步骤S40646。

步骤S406410，若判定预设样本量小于或等于样本量，则对节点中的决策约束条件进行第一次提取。

在上述实施例中，通过判断预设样本量是否小于或等于节点中的样本量，以保证每个节点中的样本量足够多，也即通过保留样本量大的节点来提取可靠的第一类约束条件。

在图2所示的步骤的前提下，如图5所示，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：

步骤S50642，确定预设的规则提取参数中包含的预设均方误差。

步骤S50644，确定第一次提取后的决策约束条件的节点中的均方误差。

步骤S50646，判断预设均方误差是否小于或等于均方误差，若是，则执行步骤S208，若否，则执行步骤S50644。

步骤S50648，若判定预设均方误差小于或等于均方误差，则对节点中的决策约束条件进行第二次提取。

在上述实施例中，通过判断预设均方误差是否小于或等于均方误差，也即对均方误差较大的节点进行剪枝，而保留均方误差较小的节点用于提取第一类约束条件。

在图2所示的步骤的前提下，如图6所示，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：

步骤S60642，确定预设的规则提取参数中包含的预设决策差异度。

步骤S60644，确定第二次提取后的决策约束条件的节点中的决策差异度。

步骤S60646，判断预设决策差异度是否大于或等于决策差异度，若是，则执行步骤S60648，若否，则执行步骤S60644。

步骤S60648，若判定预设决策差异度大于或等于决策差异度，则对节点中的决策约束条件进行第三次提取。

步骤S606410，将第三次提取的决策约束条件确定为第一类约束条件。

在上述实施例中，通过判断预设决策差异度是否大于或等于决策差异度，即根据最后一级节点的决策偏差，获取决策偏差较大的决策约束条件，进而确定对最后一级节点影响更显著的第一类约束条件。

在图2和图6所示的步骤的前提下，如图7所示，确定第二次提取后的决策约束条件的节点中的决策差异度包括：

步骤S70642，确定第二次提取后的决策约束条件的节点的两个子节点。

步骤S70644，计算两个子节点之间的决策结果之间的差值。

步骤S70646，将决策结果之间的差值确定为决策差异度。

在上述实施例中，计算两个子节点之间的决策结果之间的差值，差值预设为绝对值或正数或负数，进而来基于决策差异度来提取第一类约束条件。

在图2所示的步骤的前提下，如图8所示，获取用于训练模型的特征数据集包括：

步骤S8022，接收客户端的使用记录，并确定所述使用记录中的行为数据和用户画像。

步骤S8024，根据所述行为数据和用户画像生成用于训练模型的样本数据。

步骤S8026，对所述用于训练模型的样本数据进行预处理，以得到样本数据集。

在本公开的一个实施例中，对用于训练模型的样本数据进行预处理，以得到样本数据集，其中，预处理包括空值插值处理、分类编码处理和异常值删除处理中的至少一种。

在上述实施例中，通过对用于训练模型的样本数据进行预处理，以得到样本数据集，提高了决策树的训练效率和可靠性。

在图2所示的步骤的前提下，如图10所示，获取用于训练模型的特征数据集还包括：

步骤S9022，计算特征数据集的单个特征信息量，特征信息量包括信息增益、信息价值和证据权重。

在上述实施例中，越不可能发生的决策结果，其概率值就越小，信息量也就越大，也就是信息越多。比如说“今天肯定会天黑”，实现概率100％，说了和没说差不多，信息量就是0。

其中，信息量＝log2(1/概率)＝log2(概率^-1)＝-log2(概率)，log2是以2为底的对数。

可例如，掷色子每个数有1/6的可能性，即log2(6)＝2.6，1-6的全部可能性，二进制需要3位描述(3>2.6)，抛硬币正反面各1/2可能性，log(2)＝1，二进制用一位即可描述，相比之下，掷色子信息量更大。

步骤S9024，计算特征数据集中的特征数据之间的相关度，以根据相关度删除相同的特征数据。

在上述实施例中，互信息是用来衡量信息之间相关度的指标。当两个信息完全相关时，互信息为1，不相关时为0。可例如，计算用户购买与促销活动这两个信息间的相关性究竟有多高，可以通过互信息这个指标来度量，具体的计算方法为计算熵与条件熵之间的差，即用户购买的熵E(T)减去促销活动出现时用户购买的熵E(T，X)。

步骤S9026，通过机器学习算法对特征信息量和相关度进行计算，得到特征数据集的权重，并对特征数据集进行权重排序。

在上述实施例中，机器学习算法可例如gbdt、xgboost和随机森林等，但不限于此。

步骤S9028，根据权重排序的结果确定用于训练模型的特征数据集。

在上述实施例中，通过计算每个节点的信息增益、信息价值和证据权重，进而根据特征信息量和相关度提取用于训练模型的特征数据集，主要包括信息增益较大、信息价值较大和证据权重较大的特征数据集，以提高训练决策树的可靠性和准确性。

在图2所示的步骤的前提下，如图10所示，通过可所述特征数据集进行模型训练，以生成决策树包括：

步骤S1002，通过分类算法或回归算法对特征数据集进行模型训练，以生成决策树。

下面参照图11来描述根据本公开的这种实施方式的数据业务的决策装置1100。图11所示的数据业务的决策装置1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，数据业务的决策装置1100以硬件模块的形式表现。数据业务的决策装置1100的组件可以包括但不限于：获取模块1102、训练模块1104、规则提取模块1106和剪枝模块1108。

获取模块1102用于，获取用于训练模型的特征数据集。

训练模块1104用于，获取通过所述特征数据集进行模型训练，以生成决策树，所述决策树的节点中包括决策约束条件和决策结果。

规则提取1106用于，获取根据预设的规则提取参数对所述决策约束条件进行提取，以获得第一类约束条件。

剪枝模块1108用于，对不包含所述第一类约束条件的节点的决策树进行剪枝处理。

在“金融app用户月活跃天数提升”场景下，本公开的一个实施例，具体如下：

目标：提升月活跃天数，目标Y取值范围为(0到31天)，生成回归类目标的决策树。

关键特征集：“当月白条提额时间总天数”、“理财产品持有总金额”、“当月操作业务数”、“当月赎回时间总天数”。

训练样本总数(用户)：452303。

关键规则提取装置，根据定义的规则过滤器从结构化的规则树中提取业务关注的关键或重要的规则，可从以下3个方面定义过滤器：

(1)规则影响的用户数，设计过滤器filter_samples(sample_rate＝0)，可根据该过滤器识别能影响大量样本(用户)的规则，其中sample_rate为占样本比率。

(2)规则准确度，设计过滤器filter_mse(mse_value＝100000)，用于识别准确度纯度高的规则，其中mse_value为mse过滤阈值。

(3)规则决策差异度，设计过滤器filter_value(value_diff＝null)，用于识别基于该节点规则，明显提升目标的规则，其value_diff用于设置节点左右节点value值绝对值差阈值。

经决策树算法学习得到结构化的3层规则树(为了展示方便，从10层结构中截取了3层)，预设参数可例如：

(1)Value：该结点的值，也就是落在该结点内的所有样本(用户)的目标值Y的均值。

(2)mse(Mean Squared Error)：均方误差，该节点内每个样本(用户)的目标值与value(均值)之差平方之和。mse可以评价该节点的父节点所代表的规则判断准确度区分度，mse的值越小，说明该父节点代表规则区分性更高。

(3)samples：落在该节点的样本(用户)数，即预设样本量。

结合图12和图13所示，本公开的数据业务的决策方法包括：

如图13所示，构建的决策树的根节点1328中包括：“当月白条提额时间总天数≤5.5”、“mes＝35.179”、“sample＝452303”和“value＝9.181”。

第一级叶子节点包括第一节点1330和第二节点1332。第一节点1330中包括：“理财产品持有总金额＝3746.645”、“mes＝32.469”、“sample＝398815”和“value＝8.519”。第二节点1332中包括：“当月白条提额时间总天数≤7.5”、“mes＝27.592”、“sample＝53488”和“value＝14.114”。

第二级叶子节点包括第三节点1334、第四节点1336、第五节点1338和第六节点1340。第三节点1334中包括：“当月操作业务数≤4.5”、“mes＝26.558”、“sample＝360888”和“value＝7.966”。第四节点1336中包括：“当月理财赎回时间总天数≤2.5”、“mes＝58.315”、“sample＝37927”和“value＝13.788”。第五节点1338中包括：“当月理财赎回时间总天数≤1.5”、“mes＝20.243”、“sample＝33045”和“value＝12.413”。第六节点1340中包括：“当月白条提额时间总天数≤8.5”、“mes＝27.232”、“sample＝20443”和“value＝16.864”。

第三级叶子节点包括第七节点1342、第八节点1344、第九节点1346、第十节点1348、第十一节点1350、第十二节点1352、第十三节点1354、第十四节点1356。第七节点1342中包括：“mes＝22.228”、“sample＝261376”和“value＝7.071”。第八节点1344中包括：“mes＝30.305”、“sample＝99512”和“value＝10.316”。第九节点1346中包括：“mes＝53.681”、“sample＝26918”和“value＝12.327”。第十节点1348中包括：“mes＝51.663”、“sample＝11009”和“value＝17.361”。第十一节点1350中包括：“mes＝17.96”、“sample＝31511”和“value＝12.148”。第十二节点1352中包括：“mes＝36.034”、“sample＝1534”和“value＝17.859”。第十三节点1354中包括：“mes＝21.283”、“sample＝9886”和“value＝15.197”。第十四节点1356中包括：“mes＝27.77”、“sample＝10557”和“value＝18.424”。

基于图12所示的决策树，本公开的数据业务的决策方法的步骤如下：

步骤S1210，获取“金融app用户月活跃天数提升”场景下的决策树。

步骤S1212，输入sample_rate(预设样本占比率)、mse_value(预设均方误差)、value_diff(预设决策差异度)的预设值，分别设置为0.8、35和5。

步骤S1214，由根节点开始遍历决策树。

步骤S1216，判断当前节点samples≥total×sample_rate是否成立，若是，则执行步骤S1218，若否，则执行步骤S1214。在本实施例中，total为452303，sample_rate为0.8，total×sample_rate为361824.4。

步骤S1218，判断当前子节点samples≥total×sample_rate是否成立，若否，则执行步骤S1220，若是，则执行步骤S1214。

步骤S1220，剪枝-保存根节点到当前节点及兄弟节点路径，得到候选子路集。在本实施例中，将第二节点1332所属的分支剪掉。

步骤S1222，判断子路叶子节点mes≥mse_value是否成立，若是，则执行步骤S1224，若否，则执行步骤S1214。在本实施例中，将第四节点1336所属的分支剪掉。

步骤S1224，子树集减树，即删除该子树。

步骤S1226，判断Abs(左叶子value-右叶子value)≤value_diff，若是，则结束，并确定关键规则集，若否，则执行步骤S1214。在本实施例中，将第九节点1346和第十节点1348剪掉。

基于图12所示步骤，得到关键规则“当前白条提额时间总天数<＝5.5”，则活跃天数为8.519，否则活跃天数为14.114。

进一步的，数据业务基于上述关键规则设置可例如，“提高白条提额月次数限制，push提醒提额频率低(小于等于5.5次)用户前往提额”，进而使得该类用户月活跃天数从平均8.519向14.114转换，提升金融app活跃度。

下面参照图14来描述根据本公开的这种实施方式的电子设备1400。图14显示的电子设备1400仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同系统组件(包括存储单元1420和处理单元1410)的总线1430。

其中，存储单元存储有程序代码，程序代码可以被处理单元1410执行，使得处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元1410可以执行如图2至图10中任一项所示的步骤，以及本公开的数据业务的决策方法中限定的其他步骤。

存储单元1420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)14201和/或高速缓存存储单元14202，还可以进一步包括只读存储单元(ROM)14203。

存储单元1420还可以包括具有一组(至少一个)程序模块14205的程序/实用工具14204，这样的程序模块14205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1400也可以与一个或多个外部设备1440(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备1400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种数据业务的决策方法，其特征在于，包括：

获取用于训练模型的特征数据集；

通过所述特征数据集进行模型训练，以生成决策树，所述决策树的节点中包括决策约束条件和决策结果；

基于预设的规则提取参数从所述决策约束条件中提取第一类约束条件；

对不包含所述第一类约束条件的节点进行剪枝处理；

通过所述剪枝处理后的决策树对业务数据进行预测。

2.根据权利要求1所述的数据业务的决策方法，其特征在于，基于预设的规则提取参数从所述决策约束条件中提取第一类约束条件包括：

确定所述决策树的根节点中的样本总量、均方误差和决策差异度；

根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件。

3.根据权利要求2所述的数据业务的决策方法，其特征在于，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件包括：

确定所述预设的规则提取参数中包含的预设样本占比率；

确定所述决策树的根节点中的样本总量；

根据所述样本总量和所述预设样本占比率确定预设样本量；

判断所述预设样本量是否小于或等于所述节点中的样本量；

若判定所述预设样本量小于或等于所述样本量，则对所述节点中的决策约束条件进行第一次提取。

4.根据权利要求3所述的数据业务的决策方法，其特征在于，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：

确定所述预设的规则提取参数中包含的预设均方误差；

确定所述第一次提取后的决策约束条件的节点中的均方误差；

判断所述预设均方误差是否小于或等于所述均方误差；

若判定所述预设均方误差小于或等于所述均方误差，则对所述节点中的决策约束条件进行第二次提取。

5.根据权利要求4所述的数据业务的决策方法，其特征在于，根据所述样本总量、所述均方误差和所述决策差异度，对所述节点中的决策约束条件进行提取，以获取所述第一类约束条件还包括：

确定所述预设的规则提取参数中包含的预设决策差异度；

确定所述第二次提取后的决策约束条件的节点中的决策差异度；

判断所述预设决策差异度是否大于或等于所述决策差异度；

若判定所述预设决策差异度大于或等于所述决策差异度，则对所述节点中的决策约束条件进行第三次提取；

将所述第三次提取的决策约束条件确定为所述第一类约束条件。

6.根据权利要求5所述的数据业务的决策方法，其特征在于，确定所述第二次提取后的决策约束条件的节点中的决策差异度包括：

确定所述第二次提取后的决策约束条件的节点的两个子节点；

计算两个子节点之间的决策结果之间的差值；

将所述决策结果之间的差值确定为所述决策差异度。

7.根据权利要求1-6中任一项所述的数据业务的决策方法，其特征在于，获取用于训练模型的特征数据集包括：

接收客户端的使用记录，并确定所述使用记录中的行为数据和用户画像；

根据所述行为数据和用户画像生成用于训练模型的样本数据；

对所述用于训练模型的样本数据进行预处理，以得到样本数据集。

8.根据权利要求7所述的数据业务的决策方法，其特征在于，

所述预处理包括空值插值处理、分类编码处理和异常值删除处理中的至少一种。

9.根据权利要求7所述的数据业务的决策方法，其特征在于，

所述行为数据包括浏览记录、订单记录、理财记录、支付记录和借贷记录中的至少一种。

10.根据权利要求7所述的数据业务的决策方法，其特征在于，

所述分类编码处理包括one-hot编码处理、哑编码、频率编码和哈希编码中的至少一种。

11.根据权利要求1-6中任一项所述的数据业务的决策方法，其特征在于，获取用于训练模型的特征数据集还包括：

计算所述特征数据集的单个特征信息量，所述特征信息量包括信息增益、信息价值和证据权重；

计算所述特征数据集中的所述特征数据之间的相关度，以根据所述相关度删除相同的特征数据；

通过机器学习算法对所述特征信息量和所述相关度进行计算，得到所述特征数据集的权重，并对所述特征数据集进行权重排序；

根据所述权重排序的结果确定用于训练模型的特征数据集。

12.根据权利要求1-6中任一项所述的数据业务的决策方法，其特征在于，通过所述特征数据集进行模型训练，以生成决策树包括：

通过分类算法或回归算法对所述特征数据集进行模型训练，以生成所述决策树。

13.一种数据业务的决策装置，其特征在于，包括：

获取模块，用于获取用于训练模型的特征数据集；

训练模块，用于获取通过所述特征数据集进行模型训练，以生成决策树，所述决策树的节点中包括决策约束条件和决策结果；

规则提取模块，用于获取根据预设的规则提取参数对所述决策约束条件进行提取，以获得第一类约束条件；

剪枝模块，用于对不包含所述第一类约束条件的节点的决策树进行剪枝处理。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～12中任意一项所述的数据业务的决策方法。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～12中任意一项所述的数据业务的决策方法。