CN111915018A

CN111915018A - 基于gbdt模型的规则提取方法和系统

Info

Publication number: CN111915018A
Application number: CN202010761356.2A
Authority: CN
Inventors: 陈燕; 王萌
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-10

Abstract

提供一种基于GBDT模型的规则提取方法和系统，规则提取方法包括：获取基于特定数据集训练的GBDT模型的描述文件；解析GBDT模型的描述文件，遍历描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

Description

基于GBDT模型的规则提取方法和系统

技术领域

本申请涉及决策树技术，更具体地讲，涉及一种基于GBDT模型的规则提取方法和系统。

背景技术

目前，基于机器学习的方法训练出来的GBDT模型会被保存下来，但是这个模型对于不懂机器学习的人来说相当于黑盒。在实际业务中，业务人员无法直观地了解GBDT模型中所包含的规则。

发明内容

本发明示例性实施例可至少解决上述问题，也可不解决上述问题。

本发明的一个方面，提供一种基于GBDT模型的规则提取方法，包括：获取基于特定数据集训练的GBDT模型的描述文件；解析GBDT模型的描述文件，遍历描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

在一种实施方式中，由机器学习平台中规则提取算子来执行前述各步骤；该方法还包括：通过算子配置界面获取所述规则提取算子的配置信息；响应于启动规则提取算子的操作基于配置信息启动所述规则提取算子，从而由规则提取算子执行前述各步骤。

在一种实施方式中，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，包括：判断决策树中的结点是否为叶子结点；当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，以及继续判断该结点之后的结点是否为叶子结点，直至寻找到为叶子结点的结点；当结点是叶子结点时，确定出该结点所属的决策树的根结点到该叶子结点的规则路径，并将该叶子结点的属性信息添加到规则路径。

在一种实施方式中，当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，包括：当结点不是叶子结点时，判断该结点的特征是否为离散特征；若该结点的特征是离散特征，则将该结点的左子路径的子表达式编辑为特征值等于1，右子路径的子表达式编辑为特征值不等于1；若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值或为空，右子路径的子表达式编辑为特征值大于预设值；或者，若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值，右子路径的子表达式编辑为特征值大于预设值或为空。

在一种实施方式中，该方法在从多规则表达式中选取部分规则表达式作为目标规则表达式进行输出之前，还包括：针对多个规则表达式执行合并，得到多个参考规则表达式。

在一种实施方式中，针对多个规则表达式执行合并，包括：对多个规则表达式中的每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式。

在一种实施方式中，对每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式，包括如下至少一项：当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要小于预设值时，保留该至少两个子表达式中预设值最小的子表达式；当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要大于预设值时，保留该至少两个子表达式中预设值最大的子表达式；当规则表达式的与同一特征相关的至少两个子表达式相同时，保留该至少两个子表达式中的一个子表达式。

在一种实施方式中，针对多个规则表达式执行合并，包括：对多个规则表达式中的至少两个规则表达式进行比较；当至少两个规则表达式中对应的子表达式均相同时，删除该至少两个规则表达式中的一个规则表达式。

在一种实施方式中，从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出，包括：在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式，包括：确定出每个参考规则表达式的AUC值；在多个参考规则表达式中抽取出一部分AUC值较高的参考规则表达式作为目标规则表达进行输出。

在一种实施方式中，确定出每个参考规则表达式的AUC值，包括：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值；和/或，在多个参考规则表达式中抽取出一部分AUC值较高的参考规则表达式作为目标规则表达，包括：对各个参考规则表达式的AUC值进行排序，抽取出AUC值排名在前N位的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值，包括：将多个样本中每个正样本分别与每个负样本组成样本对，形成多个样本对；对于多个参考规则表达式中的任意一个参考规则表达式，若样本落入该参考规则表达式，则将该参考规则表达式的权重作为该样本的评分，若样本未落入该参考规则表达式，将确定该样本的评分为零；确定出每个参考规则表达式对应第一类样本对的数量和第二类样本对的数量，求取第一类样本对的数量与0.5倍的第二类样本对的数量的和值，将该和值除以样本对总数所得到的商值作为该参考规则表达式的AUC值，其中，第一类样本对中正样本的评分大于负样本的评分，第二类样本对中正样本的评分等于负样本的评分。

在一种实施方式中，方法还包括：对于多个参考规则表达式中的任意一个参考规则表达式，将落入该参考规则表达式的正样本与未落入该参考规则表达式的负样本所组成的样本对作为第一类样本对；对于多个参考规则表达式中的任意一个参考规则表达式，将落入该参考规则表达式的正样本与落入该参考规则表达式的负样本组成的样本对作为第二类样本对；对于多个参考规则表达式中的任意一个参考规则表达式，将未落入该参考规则表达式的正样本与未落入该参考规则表达式的负样本组成的样本对作为第二类样本对。

在一种实施方式中，在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式，包括：确定出每个参考规则表达式的样本覆盖率，其中，样本覆盖率是每个参考规则表达式所落入的样本的数量与样本总数的比值；在多个参考规则表达式中抽取出一部分样本覆盖率较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，确定出每个参考规则表达式的样本覆盖率，包括：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式所落入的样本的数量，将每个参考规则表达式所落入的样本的数量与样本总数的比值作为每个参考规则表达式的样本覆盖率；和/或，在多个参考规则表达式中抽取出一部分样本覆盖率较高的参考规则表达式作为目标规则表达，包括：对各个参考规则表达式的样本覆盖率进行排序，抽取出样本覆盖率排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式，包括：确定出每个参考规则表达式的目标占比，其中，目标占比是每个参考规则表达式所落入的正样本的数量与所落入所有样本的数量的比值；在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达。

在一种实施方式中，确定出每个参考规则表达式的目标占比，包括：基于每个参考规则表达式对多个样本的预测结果，确定每个参考规则表达式所落入的样本的数量以及每个参考规则表达式所落入的正样本的数量，将每个参考规则表达式所落入的正样本的数量与所落入的样本的数量的比值作为每个参考规则表达式的目标占比；和/或，在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达，包括：对各个参考规则表达式的目标占比进行排序，抽取出目标占比排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，方法还包括：利用各个目标规则表达式分别对待测样本的进行打分；基于每个目标规则表达式对待测样本的打分确定出待测样本的评分值，展示或输出待测样本的评分值。

在一种实施方式中，利用各个目标规则表达式分别对待测样本的进行打分，包括：确定待测样本的特征是否符合各个目标规则表达式中每个子表达式对应的要求；若待测样本的特征符合目标规则表达式中每个子表达式对应的要求，则将该目标规则表达式的权重作为对待测样本的评分，若待测样本的特征不符合目标规则表达式中至少一个子表达式对应的要求，确定该目标规则表达式对待测样本的评分为零。

在一种实施方式中，待测样本的特征符合目标规则表达式中每个子表达式对应的要求，包括：对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征在待测样本的特征中、且待测样本的特征满足该子表达式，则确定待测样本的特征符合该子表达式的要求；或者，对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征不在待测样本的特征中、且该子表达式允许缺失，则确定待测样本的特征符合该子表达式的要求。

在一种实施方式中，描述文件为JSON文件。

在一种实施方式中，方法还包括：基于多个参考规则表达式对待测样本进行预测得到特征集；将特征集作为训练集输入到逻辑回归模型，利用特征集对逻辑回归模型进行训练，得到二分类融合模型。

本发明的另一个方面，提供一种基于GBDT模型的规则提取系统，包括规则提取模块；规则提取模块被配置为：获取基于特定数据集训练的GBDT模型的描述文件；解析GBDT模型的描述文件，遍历描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

在一种实施方式中，该系统还包括管理模块，管理模块被配置为：通过算子配置界面获取规则提取模块的配置信息；响应于启动规则提取模块的操作基于配置信息启动规则提取模块，从而由规则提取模块执行上述实施例被配置为的各步骤。

在一种实施方式中，规则提取模块被配置为：判断决策树中的结点是否为叶子结点；当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，以及继续判断该结点之后的结点是否为叶子结点，直至寻找到为叶子结点的结点；当结点是叶子结点时，确定出该结点所属的决策树的根结点到该叶子结点的规则路径，并将该叶子结点的属性信息添加到规则路径。

在一种实施方式中，规则提取模块被配置为：当结点不是叶子结点时，判断该结点的特征是否为离散特征；若该结点的特征是离散特征，则将该结点的左子路径的子表达式编辑为特征值等于1，右子路径的子表达式编辑为特征值不等于1；若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值或为空，右子路径的子表达式编辑为特征值大于预设值；或者，若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值，右子路径的子表达式编辑为特征值大于预设值或为空。

在一种实施方式中，规则提取模块被配置为：从多规则表达式中选取部分规则表达式作为目标规则表达式进行输出之前，针对多个规则表达式执行合并，得到多个参考规则表达式。

在一种实施方式中，规则提取模块被配置为：对多个规则表达式中的每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式。

在一种实施方式中，规则提取模块被配置为执行如下步骤中的至少一个步骤：当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要小于预设值时，保留该至少两个子表达式中预设值最小的子表达式；当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要大于预设值时，保留该至少两个子表达式中预设值最大的子表达式；当规则表达式的与同一特征相关的至少两个子表达式相同时，保留该至少两个子表达式中的一个子表达式。

在一种实施方式中，规则提取模块被配置为：对多个规则表达式中的至少两个规则表达式进行比较；当至少两个规则表达式中对应的子表达式均相同时，删除该至少两个规则表达式中的一个规则表达式。

在一种实施方式中，规则提取模块被配置为：在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块被配置为：确定出每个参考规则表达式的AUC值；在多个参考规则表达式中抽取出一部分AUC值较高的参考规则表达式作为目标规则表达进行输出。

在一种实施方式中，规则提取模块被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值；对各个参考规则表达式的AUC值进行排序，抽取出AUC值排名在前N位的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块被配置为：将多个样本中每个正样本分别与每个负样本组成样本对，形成多个样本对；对于多个参考规则表达式中的任意一个参考规则表达式，若样本落入该参考规则表达式，则将该参考规则表达式的权重作为该样本的评分，若样本未落入该参考规则表达式，将确定该样本的评分为零；确定出每个参考规则表达式对应第一类样本对的数量和第二类样本对的数量，求取第一类样本对的数量与0.5倍的第二类样本对的数量的和值，将该和值除以样本对总数所得到的商值作为该参考规则表达式的AUC值，其中，第一类样本对中正样本的评分大于负样本的评分，第二类样本对中正样本的评分等于负样本的评分。

在一种实施方式中，对于多个参考规则表达式中的任意一个参考规则表达式，将落入该参考规则表达式的正样本与未落入该参考规则表达式的负样本所组成的样本对作为第一类样本对；对于多个参考规则表达式中的任意一个参考规则表达式，将落入该参考规则表达式的正样本与落入该参考规则表达式的负样本组成的样本对作为第二类样本对；对于多个参考规则表达式中的任意一个参考规则表达式，将未落入该参考规则表达式的正样本与未落入该参考规则表达式的负样本组成的样本对作为第二类样本对。

在一种实施方式中，规则提取模块被配置为：确定出每个参考规则表达式的样本覆盖率，其中，样本覆盖率是每个参考规则表达式所落入的样本的数量与样本总数的比值；在多个参考规则表达式中抽取出一部分样本覆盖率较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式所落入的样本的数量，将每个参考规则表达式所落入的样本的数量与样本总数的比值作为每个参考规则表达式的样本覆盖率；对各个参考规则表达式的样本覆盖率进行排序，抽取出样本覆盖率排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，规则提取模块被配置为：确定出每个参考规则表达式的目标占比，其中，目标占比是每个参考规则表达式所落入的正样本的数量与所落入所有样本的数量的比值；在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达。

在一种实施方式中，规则提取模块被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定每个参考规则表达式所落入的样本的数量以及每个参考规则表达式所落入的正样本的数量，将每个参考规则表达式所落入的正样本的数量与所落入的样本的数量的比值作为每个参考规则表达式的目标占比；对各个参考规则表达式的目标占比进行排序，抽取出目标占比排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，系统还包括待测样本评分模块，待测样本评分模块被配置为：利用各个目标规则表达式分别对待测样本的进行打分；基于每个目标规则表达式对待测样本的打分确定出待测样本的评分值，展示或输出待测样本的评分值。

在一种实施方式中，待测样本评分模块被配置为：确定待测样本的特征是否符合各个目标规则表达式中每个子表达式对应的要求；若待测样本的特征符合目标规则表达式中每个子表达式对应的要求，则将该目标规则表达式的权重作为对待测样本的评分，若待测样本的特征不符合目标规则表达式中至少一个子表达式对应的要求，确定该目标规则表达式对待测样本的评分为零。

在一种实施方式中，待测样本评分模块被配置为：对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征在待测样本的特征中、且待测样本的特征满足该子表达式，则确定待测样本的特征符合该子表达式的要求；或者，对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征不在待测样本的特征中、且该子表达式允许缺失，则确定待测样本的特征符合该子表达式的要求。

在一种实施方式中，描述文件为JSON文件。

在一种实施方式中，系统还包括模型训练模块，模型训练模块被配置为：基于多个参考规则表达式对待测样本进行预测得到特征集；将特征集作为训练集输入到逻辑回归模型，利用特征集对逻辑回归模型进行训练，得到二分类融合模型。

本发明的另一个方面，提供一种存储计算机程序的计算机可读存储介质，其中，当计算机程序被至少一个计算装置运行时，促使至少一个计算装置执行上述基于GBDT模型的规则提取方法。

本发明的另一个方面，提供一种包括至少一个计算装置和至少一个存储计算机程序的存储装置的系统，其中，计算机程序在被至少一个计算装置运行时，促使至少一个计算装置执行上述基于GBDT模型的规则提取方法。

根据本发明的基于GBDT模型的规则提取方法和系统，可以通过对GBDT模型的描述文件进行解析得到GBDT模型的明文规则表达式，这些明文规则表达式可以直观明了地展现模型的决策路径，具有较强的可读性，有助于用户理解GBDT模型中所包含的规则。

根据本发明的基于GBDT模型的规则提取方法和系统，在得到GBDT模型的多个目标规则表达式后，在无需重新训练GBDT模型的情况下，可以直接利用目标规则表达式来对新的待测样本进行打分，从而实现对新的待测样本的预测。也就是说，在GBDT模型冷启动的情况下，本发明依然可以实现对新的对待测样本的预测，实现了GBDT模型向新样本数据的知识迁移。

附图说明

通过结合附图，从实施例的下面描述中，本公开这些和/或其它方面及优点将会变得清楚，并且更易于理解，其中：

图1是本发明示例性实施例的基于GBDT模型的规则提取方法的流程图。

图2是本发明示例性实施例的构造一颗决策树的从根结点分别到多个叶子结点的规则路径的流程图。

图3是本发明示例性实施例的混淆矩阵。

图4是本发明示例性实施例的确定待测样本的特征是否符合一个目标规则表达式中每个子表达式对应的要求的流程图。

图5是本发明示例性实施例的基于GBDT模型的规则提取系统的框图。

图6是本发明示例性实施例的基于GBDT模型的规则提取的实施场景图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

参照图1，在步骤S110，获取基于特定数据集训练的GBDT模型的描述文件。

GBDT模型是一种机器学习模型，可以基于特定数据集通过机器学习方法训练得到。其中，GBDT是Gradient Boosting Decision Tree的缩写，即梯度提升迭代决策树。对于GBDT模型，每一次建立树模型是在之前建立模型损失函数的梯度下降方向，即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值，去拟合一个回归树。

在GBDT模型的描述文件中可以解析出GBDT模型的规则表达式，因此在获取GBDT模型的规则表达式之前，需要先获取描述文件。在一种实施方式中，描述文件为JSON文件。其中，JSON是Java Script Object Notation的缩写，是一种轻量级的数据交换格式。JSON文件易于人阅读和编写，同时也易于机器解析和生成，它基于Java Script ProgrammingLanguage，Standard ECMA-262 3rd Edition-December 1999的一个子集。

在步骤S120，解析GBDT模型的描述文件，遍历描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径。

每棵决策树中规则路径的数量与该棵决策树所包含的叶子结点的数量相等，通过寻找出决策树中的每个叶子结点，来构造出决策树所有的规则路径。

在一种实施方式中，通过对策树中每个结点的初始化类属性进行分析，确定结点是否为叶子结点，以及确定在每个结点之后继续寻找下一个叶子结点的路径走向。

决策树中结点的初始化类属性可以包括如下至少一项：左子结点、右子结点、特征是否离散、是否为叶子结点以及是否默认路径缺失。

下面以描述文件中的一棵决策树为例，介绍构造出该决策树的从根结点分别到多个叶子结点的规则路径的流程。在一种实施方式中，步骤S120中的构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，包括：

步骤(a1)：判断决策树中的结点是否为叶子结点。当结点不是叶子结点时，执行步骤(a2)；当结点是叶子结点时，执行步骤(a3)。

步骤(a2)：确定出该结点之后的子路径所包含的子表达式，以及继续判断该结点之后的子路径上的结点是否为叶子结点，直至寻找到为叶子结点的结点。

可以理解，通过结点的初始化类属性可以确定出该结点是否为叶子结点，当结点不是叶子结点时，一方面需要确定出该结点之后的子路径所包含的子表达式，这些子表达式实际上就是该结点所属的规则路径中的子表达式，另一方面需要在该结点之后的路径上继续寻找叶子结点，直至寻找到该结点所属的规则路径的叶子结点。

步骤(a3)：确定出该结点所属的决策树的根结点到该叶子结点的规则路径，并将该叶子结点的属性信息添加到规则路径。

可以理解，通过结点的初始化类属性可以确定出该结点是否为叶子结点，当结点是叶子结点时，表明构造出了从根结点到当前的叶子结点的规则路径，之后将该叶子结点的属性信息添加到该规则路径。

在一种实施方式中，可以利用GBDT模型预先对多个样本进行预测，叶子结点的属性信息可以包括多个样本中落入到该叶子结点的样本总数和正样本数。另外，叶子结点的属性信息还可以包括该叶子结点的权重。

在一种实施方式中，一个结点之后的结点包括该结点的左子结点和右子结点。确定出一个结点不是叶子结点后，将该结点的左子结点和右子结点作为下一轮判断过程中新的结点，重新执行步骤(a1)。

在一种实施方式中，步骤(a2)中当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，包括：

步骤(b1)：当结点不是叶子结点时，判断该结点的特征是否为离散特征。若该结点的特征是离散特征，则执行步骤(b2)；若该结点的特征是离散特征，则执行步骤(b3)。

步骤(b2)：将该结点的左子路径的子表达式编辑为特征值等于1(特征值＝＝1)，右子路径的子表达式编辑为特征值不等于1(特征值！＝1)。

步骤(b3)：将该结点的左子路径的子表达式编辑为特征值不大于预设值或为空，右子路径的子表达式编辑为特征值大于预设值；或者，将该结点的左子路径的子表达式编辑为特征值不大于预设值，右子路径的子表达式编辑为特征值大于预设值或为空。

以图2为例，对构造一颗决策树的从根结点分别到多个叶子结点的规则路径的流程进行简单介绍。图2是本发明示例性实施例的构造一颗决策树的从根结点分别到多个叶子结点的规则路径的流程图。

参照图2，从决策树的根结点开始，对根结点之后的每个结点逐个进行判断。在步骤S210，判断结点是否是叶子结点。当结点是叶子结点时，执行步骤S220；当结点不是叶子结点时，执行步骤S230和步骤S240。

在步骤S220，将叶子结点的属性信息添加到规则路径。之后重新执行步骤S210。

叶子结点的属性信息包括落入到该叶子结点的样本总数和正样本数、以及该叶子结点的权重。

在步骤S230，继续遍历结点之后的左子结点和右子结点，将左子结点和右子结点作为下一轮判断过程中新的结点，重新执行步骤S210。

步骤S240，判断结点的特征是否为离散特征。当结点的特征是离散特征时，执行步骤S250；当结点的特征不是离散特征时，执行步骤S260。

在步骤S250，将该结点的左子路径的子表达式编辑为特征值等于1(feature＝＝1)，将结点的右子路径的子表达式编辑为特征值不等于1(feature！＝1)。

在步骤S260，默认结点缺失路径走向，之后将结点的左子路径的子表达式编辑为特征值不大于预设值或为空(feature<＝condition or is none)，右子路径的子表达式编辑为特征值大于预设值(feature>condition)；或者，将结点的左子路径的子表达式编辑为特征值不大于预设值(feature<＝condition)，右子路径的子表达式编辑为特征值大于预设值或为空(feature>condition or is none)。

需要说明的是，feature表示特征值，condition表示预设值，none表示特征值为空。

返回参照图1，在步骤S130，提取多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式。

可以理解，步骤S120的构造规则路径的过程中，可以得到规则路径的多个结点的子表达式。可以将一个规则路径中的所有子表达式合并成一个规则表达式，作为该规则路径的规则表达式。

可以理解，步骤S130可以得到m条长度为d的规则表达式。其中，m为GBDT模型中所有决策树中的叶子结点数量之和，d是GBDT模型的深度。

在步骤S140，从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

根据本发明示例性实施例的基于GBDT模型的规则提取方法，可以通过对GBDT模型的描述文件进行解析得到GBDT模型的明文规则表达式，这些明文规则表达式可以直观明了地展现模型的决策路径，具有较强的可读性，有助于用户理解GBDT模型中所包含的规则。

在一种实施方式中，在步骤S140之前还包括：针对多个规则表达式执行合并，得到多个参考规则表达式。

将多个规则表达式执行合并可以是精简规则表达式的数量，还可以是精简同一个规则表达式中子表达式的数量。

在此需要说明的是，针对多个规则表达式执行合并之后，多个规则表达式中可能只有一部分规则表达式被执行了合并，另一部分规则表达式不需要执行合并。在本发明示例性实施例中，在对多个规则表达式执行完合并后，无论规则表达式是否被执行了合并，将所有保留下来的规则表达式都称为参考规则表达式。

以一个规则表达式中的某两个子表达式为例，这两个子表达式的所表示的取值范围可能是相同的，或者一个子表达式所表示的取值范围可能是另一个子表达式所表示的取值范围的子集，此时可以对两个子表达式进行合并，精简一个规则表达式所包含的子表达式的数量。

在本发明的一种实施方式中，对每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式，可以包括如下至少一项：

当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要小于预设值时，保留该至少两个子表达式中预设值最小的子表达式。

例如，一个规则表达式中有两个与用户年龄相关的子表达式，其中一个子表达式为“年龄<25”，另一个子表达式为“年龄<30”，保留“年龄<25”这个子表达式。

当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要大于预设值时，保留该至少两个子表达式中预设值最大的子表达式。

例如，一个规则表达式中有两个与用户年龄相关的子表达式，其中一个子表达式为“年龄>25”，另一个子表达式为“年龄>30”，保留“年龄>30”这个子表达式。

当规则表达式的与同一特征相关的至少两个子表达式相同时，保留该至少两个子表达式中的一个子表达式。

例如，一个规则表达式中有两个与用户年龄相关的子表达式，其中一个子表达式为“年龄>25”，另一个子表达式也为“年龄>25”，保留这两个子表达式中的其中一个子表达式。

以多个规则表达式中某两个规则表达式为例，其中一个规则表达式的子表达式包括“年龄>25”、“体重<140”以及“身高>160”，另一个规则表达式的子表达式包括“年龄>25”、“体重<140”以及“身高>160”，这两个规则表达式中与年龄相关的子表达式相同、与体重相关的子表达式相同、与身高相关的子表达式相同，则将这两个规则表达式中的一个规则表达式删除，仅保留其中一个规则表达式。

可以通过计算出每个参考规则表达式与重要程度相关的评价参数，根据评价参数确定出多个参考规则表达式的重要程度的差异，进而提取出重要程度较高的参考规则表达式。

例如，评价参数越高表示规则表达式的重要程度越高，可以对多个参考规则表达式的评价参数进行排序，将评价参数排名靠前的一部分参考规则表达式作为目标规则表达式。

可选地，可以利用GBDT模型预先对多个样本进行预测，根据预测数据来计算每个参考规则表达式的评价参数。

下面介绍几种计算参考规则表达式的评价参数、以及根据评价参数确定目标规则表达式的方法。

在一种实施方式中，在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式，包括以下步骤：

步骤(c1)：确定出每个参考规则表达式的AUC值。

AUC是Area Under Curve的缩写，被定义为ROC曲线下与坐标轴围成的面积。在分类器领域(如GBDT模型)，AUC值可以作为模型的评价指标，可以用于二分类任务。

AUC值可以描述一种概率，即随机抽取一对样本(例如一个正样本和一个负样本)，分类器正确判断正样本的得分高于负样本的得分概率。

可以利用GBDT模型预先对多个样本进行预测，根据每个样本的预测得到计算GBDT模型的AUC值，GBDT模型的AUC值可以通过公式(1)计算得到：

pred_pos是一个被GBDT模型预测后的正样本及其预测得分，pred_neg是一个被GBDT模型预测后的负样本及其预测得分，∑pred_pso>pred_neg是正样本的预测得分高于负样本的预测得分的样本对的数量，possitiveNUM是正样本数，negativeNUM是负样本数，possitiveNUM*negativeNUM是样本对总数。

计算GBDT模型的AUC值的具体流程如下：

对一批已知正负的样本集合(假设有N₊个正样本和N_-个负样本)按照预测概率从小到大进行排序，例如正负样本按照GBDT模型的预测得分从小到大排序。对于第j个正样本，假设它的排序为rj，那么说明排在这个正样本前面的样本有(rj-1)个，其中正样本有(j-1)个(因为这个正样本在所有的正样本里面排第j)，所以排在第j个正样本前面(预测得分比第j个正样本的预测得分小)的负样本个数为(rj-j)个。也就是说，对于第j个正样本来说，其得分比随机取的一个负样本大(排序比它靠后)的概率是(rj-j)/N_-。所以，随机取的正样本得分比负样本大的概率(AUC值)可以用以下公式(2)计算得到：

基于计算GBDT模型的基本思想，还可以计算每个参考规则表达式的AUC值。如前文所述，可以利用GBDT模型预先对多个样本进行预测，可以根据预测数据确定出每个参考规则表达式的样本落入情况，根据样本落入情况计算参考规则表达式的AUC值。本说明书的后续内容中将进一步介绍本发明示例性实施例提供的参考规则表达式的AUC值的计算方法。

在此需要说明的是，样本落入一个参考规则表达式，也可以表述为样本落入一个叶子结点，其中，该参考规则表达式是由叶子结点所在规则路径的规则表达式得到的。

在一种实施方式中，步骤(c1)包括：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值。

步骤(c2)：在多个参考规则表达式中抽取出一部分AUC值较高的参考规则表达式作为目标规则表达进行输出。

在这种实施方式中，将AUC值作为参考规则表达式的与重要程度相关的评价参数，步骤(c2)包括：对各个参考规则表达式的AUC值进行排序，抽取出AUC值排名在前N位的参考规则表达式作为目标规则表达式进行输出。其中，N为正整数，N的具体取值可以根据实际的需要而定。

在一种实施方式中，基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值，包括：

步骤(d1)：将多个样本中每个正样本分别与每个负样本组成样本对，形成多个样本对。

可以理解，样本对总数等于正样本总数与负样本总数的乘积。例如，在多个样本中，正样本总数N₊，负样本总数为N_-，则多个样本所形成的样本对总数为N₊N_-。

步骤(d2)：对于多个参考规则表达式中的任意一个参考规则表达式，若样本落入该参考规则表达式，则将该参考规则表达式的权重作为该样本的评分，若样本未落入该参考规则表达式，则将确定该样本的评分为零。

在此需要说明的是，参考规则表达式的权重也可以表述为叶子结点的权重，其中，该参考规则表达式是由该叶子结点所在规则路径的规则表达式得到的。

在此需要说明的是，利用GBDT模型预先对多个样本进行预测时，无论样本实际是正样本还是负样本，当样本落入到一条参考规则表达式时，该样本都被该参考规则表达式预测为正样本，可以将该参考规则表达式的权重作为落入该参考规则表达式的样本的评分。当一个样本未落入某一参考规则表达式时，无论该样本实际是正样本还是负样本，该样本都被该参考规则表达式预测为负样本，该样本的评分为零。基于上述说明可知，一些实际负样本的评分可能大于实际正样本的评分。

在本发明示例性实施例中，当称一个样本为正样本或负样本时，是指该样本实际为正样本或负样本，而不是该样本被预测后所定义成的正样本或负样本。

步骤(d3)：确定出每个参考规则表达式对应第一类样本对的数量和第二类样本对的数量，求取第一类样本对的数量与0.5倍的第二类样本对的数量的和值，将该和值除以样本对总数所得到的商值作为该参考规则表达式的AUC值。

其中，第一类样本对中正样本的评分大于负样本的评分，第二类样本对中正样本的评分等于负样本的评分。

作为示例，步骤(d3)可以用公式(3)表示：

pos_socre表示某一个正样本的评分，neg_socre表示某一个负样本的评分，N₊N_-表示样本对总数。

表示第一类样本的数量，

表示第二类样本的数量。

下面以计算参考规则表达式M的ACU值为例，对第一类样本和第二类样本对进行示例性说明。

在第一类样本对中，正样本是指落入到参考规则表达式M的正样本，负样本是指未落入到参考规则表达式M的负样本，也就是说，正样本的评分是参考规则表达式M的权重，负样本的评分为零。

第二类样本对可以分为两种情况：在第一种情况的第二类样本对中，正样本是指落入到参考规则表达式M的正样本，负样本是指落入到参考规则表达式M的负样本，也就是说，正样本和负样本的评分都是参考规则表达式M的权重；在第二种情况的第二类样本对中，正样本是指未落入到参考规则表达式M的正样本，负样本是指未落入到参考规则表达式M的负样本，也就是说，正样本和负样本的评分都为零。

在一种实施方式中，对于每个参考规则表达式，可以统计落入其中的样本数和正样本数，再结合正样本总数和样本总数，得到参考规则表达式的混淆矩阵，基于混淆矩阵确定出第一类样本对和第二类样本对的数量。

图3是本发明示例性实施例的混淆矩阵。参照图3，以混淆矩阵为参考规则表达式M为例，对混淆矩阵进行介绍。

在混淆矩阵中，TP表示落入到参考规则表达式M的正样本数，FP表示落入到参考规则表达式M的负样本数，FN表示未落入到参考规则表达式M的正样本数，TN表示未落入到参考规则表达式M的负样本数。

由混淆矩阵可知，正样本总数N₊＝TP+FN，负样本总数N_-＝FP+TN，多个样本所形成的样本对总数为(TP+FN)*(FP+TN)，第一类样本对的数量为TP*FN，第一种情况的第二类样本对的数量为TP*FN，第二种情况的第二类样本对的数量为TN*FN，其中，“*”表示乘号。

基于混淆矩阵，可以将公式(3)转换为公式(4)：

步骤(e1)：确定出每个参考规则表达式的样本覆盖率。

在此需要说明的是，样本覆盖率是每个参考规则表达式所落入的样本的数量与样本总数的比值。一个参考规则表达式所落入的样本的数量，是落入到该参考规则表达式中的正样本数和负样本数的和值。

可选地，步骤(e1)可以包括：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式所落入的样本的数量，将每个参考规则表达式所落入的样本的数量与样本总数的比值作为每个参考规则表达式的样本覆盖率。

步骤(e2)：在多个参考规则表达式中抽取出一部分样本覆盖率较高的参考规则表达式作为目标规则表达式进行输出。

在这种实施方式中，将样本覆盖率作为参考规则表达式的与重要程度相关的评价参数。可选地，步骤(e2)可以包括：对各个参考规则表达式的样本覆盖率进行排序，抽取出样本覆盖率排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数，N的具体取值可以根据实际的需要而定。

作为示例，以参考规则表达式M为例，假设样本总数为1000，参考规则表达式M所落入的样本的数量为100，则参考规则表达式的样本覆盖率为10％。利用相同的方法计算出参考规则表达式P、参考规则表达式Q和参考规则表达式L的样本覆盖率分别为15％、22％和17％。抽取出样本覆盖率排名在前1位的参考规则表达式作为目标规则表达式进行输出，因此可以将参考规则表达式Q作为目标规则表达式。

步骤(f1)：确定出每个参考规则表达式的目标占比。

在此需要说明的是，目标占比是每个参考规则表达式所落入的正样本的数量与所落入所有样本的数量的比值。一个参考规则表达式所落入的所有样本的数量，是落入到该参考规则表达式中的正样本数和负样本数的和值。

可选地，步骤(f1)可以包括：基于每个参考规则表达式对多个样本的预测结果，确定每个参考规则表达式所落入的样本的数量以及每个参考规则表达式所落入的正样本的数量，将每个参考规则表达式所落入的正样本的数量与所落入的样本的数量的比值作为每个参考规则表达式的目标占比。

步骤(f2)：在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达。

在这种实施方式中，将目标占比作为参考规则表达式的与重要程度相关的评价参数。可选地，步骤(f2)可以包括：在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达，包括：对各个参考规则表达式的目标占比进行排序，抽取出目标占比排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

作为示例，以参考规则表达式M为例，假设参考规则表达式M所落入的所有样本的数量为100，参考规则表达式M所落入的正样本的数量为80，则参考规则表达式的目标占比为80％。利用相同的方法计算出参考规则表达式P、参考规则表达式Q和参考规则表达式L的样本覆盖率分别为92％、91％和83％。抽取出目标占比排名在前1位的参考规则表达式作为目标规则表达式进行输出，因此可以将参考规则表达式P作为目标规则表达式。

在一种实施方式中，由机器学习平台中规则提取算子来执行前述各步骤。

可以理解，规则提取算子执行的步骤可以包括上述步骤S110、步骤S120、步骤S130和步骤S140，规则提取算子执行的步骤还可以包括上述4个步骤中的各个子步骤。

可选地，规则提取算子来执行前述各步骤可以包括以下流程：通过算子配置界面获取规则提取算子的配置信息；响应于启动规则提取算子的操作基于配置信息启动所述规则提取算子，从而由规则提取算子执行前述各模块所执行的步骤。

可选地，配置信息可以包括期望输出的目标规则表达式的个数、以及是否按照重要程度对目标规则表达式降序排列。例如，若配置信息中设置生成1000个目标规则表达式，且按照重要程度对目标规则表达式降序排列，则规则提取算子输出按照重要程度的打分降序排列的1000条目标规则表达式。在此需要说明的是，如果配置信息中设置的期望输出的目标规则表达式的个数超过了由GBDT模型本身所能生成的目标规则表达式的个数，则规则提取算子输出的目标规则表达式的个数以由GBDT模型本身所能生成的目标规则表达式的个数为准，当然规则提取算子输出的目标规则表达式的个数也可以少于GBDT模型本身所能生成的目标规则表达式的个数。

其中，运行规则提取算子的操作可以在以下场景发生：

场景1：用户在算子仓库(Operator Hub)中运行规则提取算子。算子仓库是机器学习平台中的所有算子的前端展示平台。用户进入算子仓库后可以查看不同类别、不同来源下的算子，点击对应算子即可进入算子详情，在算子详情页会展示算子输入输出等基本信息，点击参数配置详情还会展示算子的参数详细配置方法。

为了让用户快速的判断算子的能力是否满足需求，Operator Hub还提供了算子试运行功能。算子会使用我们内置的数据集进行试运行，用户可以在前端页面查看试运行结果。

场景2：用户在机器学习平台中运行一个有向无环图DAG(Direct AcyclicGraph)，该有向无环图中包括规则提取算子，那么在运行所述有向无环图时会运行到所述规则提取算子。

其中，响应于用户的生成有向无环图的操作，生成相应的有向无环图包括：显示包括节点展示区域和画布区域的第一图形用户界面，其中，所述节点展示区域的节点类型包括数据、样本、模型和算子；

响应于在所述节点展示区域选择节点的操作，在画布区域显示相应节点，以及响应于连接节点的操作，在画布区域中的相应节点之间生成连线，以生成有向无环图。这里的算子是指数据处理算子，不同的算子对应不同的数据处理流程。

在一种实施方式中，基于GBDT模型的规则提取方法还包括以下步骤：

步骤(g1)：利用各个目标规则表达式分别对待测样本的进行打分。

可选地，确定待测样本是否落入目标规则表达式，根据待测样本在目标规则表达式中的落入情况，对待测样本进行打分。

步骤(g2)：基于每个目标规则表达式对待测样本的打分确定出待测样本的评分值，展示或输出待测样本的评分值。

根据本发明示例性实施例的基于GBDT模型的规则提取方法，在得到GBDT模型的多个目标规则表达式后，在无需重新训练GBDT模型的情况下，可以直接利用目标规则表达式来对新的待测样本进行打分，从而实现对新的待测样本的预测。也就是说，在GBDT模型冷启动的情况下，本发明依然可以实现对新的对待测样本的预测，实现了GBDT模型向新样本数据的知识迁移。

例如，在一些实际场景中，新的样本数据量较少或缺失，无法利用新的样本数据对GBDT模型进行训练时，可以直接利用目标规则表达式来对新的待测样本进行打分，从而实现对新的待测样本的预测。

可选地，在得到各个目标规则表达式对待测样本的打分后，将多个打分进行预设的运算，将运算结果作为待测样本的评分值。

可选地，运算结果可以是多个打分的平均值、中位数以及相加后的和值等。

可选地，运算结果是多个打分相加后的和值的sigmod函数值。也就是说，将各个目标规则表达式对待测样本的打分相加后得到打分和值，使用sigmod函数将打分和值归一化到[0，1]区间，将归一化后得到的数值作为待测样本的评分值。

在一种实施方式中，步骤(g1)可以包括：确定待测样本的特征是否符合各个目标规则表达式中每个子表达式对应的要求；若待测样本的特征符合目标规则表达式中每个子表达式对应的要求，则将该目标规则表达式的权重作为对待测样本的打分，若待测样本的特征不符合目标规则表达式中至少一个子表达式对应的要求，确定该目标规则表达式对待测样本的打分为零。

可以理解，当待测样本的特征符合目标规则表达式中每个子表达式对应的要求，表示待测样本落入到该目标规则表达式，将该目标规则表达式的权重作为对待测样本的打分；当待测样本的特征不符合目标规则表达式中每个子表达式对应的要求，表示待测样本未落入到该目标规则表达式，确定该目标规则表达式对待测样本的打分为零。

下面介绍待测样本的特征符合目标规则表达式中对应子表达式对应的要求的情况：

情况1：对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征在待测样本的特征中、且待测样本的特征满足该子表达式，则确定待测样本的特征符合该子表达式的要求。

情况2：对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征不在待测样本的特征中、且该子表达式允许缺失，则确定待测样本的特征符合该子表达式的要求。

对于情况1，假设待测样本K的特征包括年龄、体重和身高，并且待测样本K的年龄为28、体重为130和身高175。目标规则表达式M包括与年龄相关的子表达式、与体重相关的子表达式以及与身高相关的子表达式，3子表达式分别为：“年龄>25”、“体重<140”以及“身高>160”。

目标规则表达式M的子表达式的特征都在待测样本K的特征待测样本中，并且待测样本的年龄、体重和身高，分别满足目标规则表达式M的与年龄相关的子表达式、与体重相关的子表达式以及与身高相关的子表达式，因此确定待测样本K的特征符合目标规则表达式K中每个子表达式对应的要求。

对于情况2，假设待测样本K包括年龄、体重和身高，并且待测样本K的年龄为28、体重为130和身高175。目标规则表达式M包括与年龄相关的子表达式、与体重相关的子表达式、与身高相关的子表达式以及与工作年限相关的子表达式，4子表达式分别为：“年龄>25”、“体重<140”、“身高>160”以及“工作年限>3”。

目标规则表达式M的与年龄相关的子表达式、与体重相关的子表达式以及与身高相关的子表达式的特征都在待测样本K的特征待测样本中，并且待测样本K的年龄、体重和身高，分别满足目标规则表达式M的与年龄相关的子表达式、与体重相关的子表达式以及与身高相关的子表达式。目标规则表达式M的与工作年限相关的子表达式的特征不在待测样本K的特征待测样本中，若与工作年限相关的子表达式允许缺失，则可以确定待测样本K的特征符合目标规则表达式K中每个子表达式对应的要求，表示待测样本K落入到该目标规则表达式M，将该目标规则表达式M的权重作为对待测样本K的打分。

可以理解，若待测样本的特征不符合上述情况1和情况2中的至少一个时，则确定待测样本的特征不符合目标规则表达式中至少一个子表达式对应的要求，表示待测样本未落入到该目标规则表达式，确定该目标规则表达式对待测样本的打分为零。

下面以图4为例，对确定待测样本的特征是否符合一个目标规则表达式中每个子表达式对应的要求的判断过程进行介绍。图4是本发明示例性实施例的确定待测样本的特征是否符合一个目标规则表达式中每个子表达式对应的要求的流程图。

在步骤S310，遍历目标规则表达式中的子表达式。在目标规则表达式中选择一个子表达式，之后执行步骤S320。

在步骤S320，判断子表达式的特征是否在待测样本的特征中。若在，则执行步骤S330；若不在，则执行步骤S340。

在步骤S330，判断待测样本的特征是否满足子表达式对应的要求。若满足，则重新执行步骤S310；若不满足，则结束流程。

在步骤S340，判断子表达式是否允许缺失。若允许缺失，则重新执行步骤S310，；若不允许缺失，则结束流程。

若能顺利遍历目标规则表达式中的每个子表达式，则可以确定待测样本的特征符合目标规则表达式中每个子表达式对应的要求，表示待测样本落入到该目标规则表达式，将该目标规则表达式的权重作为对待测样本的打分。

通过上述流程确定出每个目标规则表达式对待测样本的打分，将各个目标规则表达式对待测样本的打分相加后得到打分和值，使用sigmod函数将打分和值归一化到[0，1]区间，将归一化后得到的数值作为待测样本的评分值。

在一种实施方式中，基于GBDT模型的规则提取方法还包括：基于多个参考规则表达式对待测样本进行预测得到特征集；将特征集作为训练集输入到逻辑回归模型，利用特征集对逻辑回归模型进行训练，得到二分类融合模型。

可选地，多个参考规则表达式对待测样本进行打分，衍生出一个以叶子结点为特征集的one-hot宽表，特征值为0和1，1代表样本数据落入该参考规则表达式，0代表样本数据未落入该参考规则表达式。将特征集作输入到逻辑回归(Logistic Regression，LR)模型进行训练，得到一种具有Stacking思想的二分类融合模型。

图5是本发明的示例性实施例的基于GBDT模型的规则提取系统的框图。

下面就基于GBDT模型的规则提取系统可以具有的功能单元以及各功能单元可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参照图5，本发明的示例性实施例的基于GBDT模型的规则提取系统包括规则提取模块410，规则提取模块410被配置为：获取基于特定数据集训练的GBDT模型的描述文件；解析GBDT模型的描述文件，遍历描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；从多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块410被配置为：判断决策树中的结点是否为叶子结点；当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，以及继续判断该结点之后的结点是否为叶子结点，直至寻找到为叶子结点的结点；当结点是叶子结点时，确定出该结点所属的决策树的根结点到该叶子结点的规则路径，并将该叶子结点的属性信息添加到规则路径。

在一种实施方式中，规则提取模块410被配置为：当结点不是叶子结点时，判断该结点的特征是否为离散特征；若该结点的特征是离散特征，则将该结点的左子路径的子表达式编辑为特征值等于1，右子路径的子表达式编辑为特征值不等于1；若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值或为空，右子路径的子表达式编辑为特征值大于预设值；或者，若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值，右子路径的子表达式编辑为特征值大于预设值或为空。

在一种实施方式中，规则提取模块410被配置为：从多规则表达式中选取部分规则表达式作为目标规则表达式进行输出之前，针对多个规则表达式执行合并，得到多个参考规则表达式。

在一种实施方式中，规则提取模块410被配置为：对多个规则表达式中的每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式。

在一种实施方式中，规则提取模块410被配置为执行如下步骤中的至少一个步骤：当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要小于预设值时，保留该至少两个子表达式中预设值最小的子表达式；当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要大于预设值时，保留该至少两个子表达式中预设值最大的子表达式；当规则表达式的与同一特征相关的至少两个子表达式相同时，保留该至少两个子表达式中的一个子表达式。

在一种实施方式中，规则提取模块410被配置为：对多个规则表达式中的至少两个规则表达式进行比较；当至少两个规则表达式中对应的子表达式均相同时，删除该至少两个规则表达式中的一个规则表达式。

在一种实施方式中，规则提取模块410被配置为：在多个参考规则表达式中，抽取出一部分重要程度较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块410被配置为：确定出每个参考规则表达式的AUC值；在多个参考规则表达式中抽取出一部分AUC值较高的参考规则表达式作为目标规则表达进行输出。

在一种实施方式中，规则提取模块410被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式的AUC值；对各个参考规则表达式的AUC值进行排序，抽取出AUC值排名在前N位的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块410被配置为：将多个样本中每个正样本分别与每个负样本组成样本对，形成多个样本对；对于多个参考规则表达式中的任意一个参考规则表达式，若样本落入该参考规则表达式，则将该参考规则表达式的权重作为该样本的评分，若样本未落入该参考规则表达式，将确定该样本的评分为零；确定出每个参考规则表达式对应第一类样本对的数量和第二类样本对的数量，求取第一类样本对的数量与0.5倍的第二类样本对的数量的和值，将该和值除以样本对总数所得到的商值作为该参考规则表达式的AUC值，其中，第一类样本对中正样本的评分大于负样本的评分，第二类样本对中正样本的评分等于负样本的评分。

在一种实施方式中，规则提取模块410被配置为：确定出每个参考规则表达式的样本覆盖率，其中，样本覆盖率是每个参考规则表达式所落入的样本的数量与样本总数的比值；在多个参考规则表达式中抽取出一部分样本覆盖率较高的参考规则表达式作为目标规则表达式进行输出。

在一种实施方式中，规则提取模块410被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定出每个参考规则表达式所落入的样本的数量，将每个参考规则表达式所落入的样本的数量与样本总数的比值作为每个参考规则表达式的样本覆盖率；对各个参考规则表达式的样本覆盖率进行排序，抽取出样本覆盖率排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，规则提取模块410被配置为：确定出每个参考规则表达式的目标占比，其中，目标占比是每个参考规则表达式所落入的正样本的数量与所落入所有样本的数量的比值；在多个参考规则表达式中抽取出一部分目标占比较高的参考规则表达式作为目标规则表达。

在一种实施方式中，规则提取模块410被配置为执行以下步骤中的至少一个步骤：基于每个参考规则表达式对多个样本的预测结果，确定每个参考规则表达式所落入的样本的数量以及每个参考规则表达式所落入的正样本的数量，将每个参考规则表达式所落入的正样本的数量与所落入的样本的数量的比值作为每个参考规则表达式的目标占比；对各个参考规则表达式的目标占比进行排序，抽取出目标占比排名在前N位的参考规则表达式作为目标规则表达式进行输出，其中，N为正整数。

在一种实施方式中，该系统还包括管理模块440，管理模块被配置440为：通过算子配置界面获取规则提取模块410的配置信息；响应于启动规则提取模块410的操作基于配置信息启动规则提取模块410，从而由规则提取模块410执行上述各实施例中被配置为的各步骤。

在一种实施方式中，系统还包括待测样本评分模块420，待测样本评分模块420被配置为：利用各个目标规则表达式分别对待测样本的进行打分；基于每个目标规则表达式对待测样本的打分确定出待测样本的评分值，展示或输出待测样本的评分值。

在一种实施方式中，待测样本评分模块420被配置为：确定待测样本的特征是否符合各个目标规则表达式中每个子表达式对应的要求；若待测样本的特征符合目标规则表达式中每个子表达式对应的要求，则将该目标规则表达式的权重作为对待测样本的评分，若待测样本的特征不符合目标规则表达式中至少一个子表达式对应的要求，确定该目标规则表达式对待测样本的评分为零。

在一种实施方式中，待测样本评分模块420被配置为：对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征在待测样本的特征中、且待测样本的特征满足该子表达式，则确定待测样本的特征符合该子表达式的要求；或者，对于目标规则表达式中的任意一个子表达式，若目标规则表达式中子表达式的特征不在待测样本的特征中、且该子表达式允许缺失，则确定待测样本的特征符合该子表达式的要求。

在一种实施方式中，描述文件为JSON文件。

在一种实施方式中，系统还包括模型训练模块430，模型训练模块430被配置为：基于多个参考规则表达式对待测样本进行预测得到特征集；将特征集作为训练集输入到逻辑回归模型，利用特征集对逻辑回归模型进行训练，得到二分类融合模型。

图6是示出根据本发明示例性实施例的基于GBDT模型的规则提取方法的实施场景图。在该实施场景中可包括至少一个电子设备510以及至少一个服务器520。至少一个电子设备510可包括计算机设备、智能手机、平板电脑、笔记本电脑等各种类型的可用于执行基于GBDT模型的规则提取方法的电子设备。

电子设备510可以基于GBDT模型的描述文件确定出目标规则表达式进行输出，还可以利用各个目标规则表达式分别对待测样本的进行打分，还可以基于多个参考规则表达式对逻辑回归模型进行训练得到二分类融合模型。

服务器520可以基于GBDT模型的描述文件确定出目标规则表达式进行输出，还可以利用各个目标规则表达式分别对待测样本的进行打分，还可以基于多个参考规则表达式对逻辑回归模型进行训练得到二分类融合模型。

至少一个电子设备510与至少一个服务器520可通过有线或无线网络进行通信，电子设备510和服务器520可以分别完成基于GBDT模型的规则提取方法的一部分步骤。例如，电子设备510可以基于GBDT模型的描述文件确定出目标规则表达式，经确定出的目标规则表达式输出到服务器520，到服务器520可以利用各个目标规则表达式分别对待测样本的进行打分，到服务器520还可以基于多个参考规则表达式对逻辑回归模型进行训练得到二分类融合模型。

以上已参照图1至图5描述了根据本发明示例性实施例的基于GBDT模型的规则提取方法和系统。

图5所示出的基于GBDT模型的规则提取系统中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图1所描述的基于GBDT模型的规则提取方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本发明示例性实施例，可提供存储指令的计算机可读存储介质，其中，当指令被至少一个计算装置运行时，促使至少一个计算装置执行根据本发明基于GBDT模型的规则提取方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本发明示例性实施例的基于GBDT模型的规则提取系统中的各个单元可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图5所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本发明示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本发明示例性实施例的基于GBDT模型的规则提取方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的结点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本发明示例性实施例的基于GBDT模型的规则提取方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本发明示例性实施例的基于GBDT模型的规则提取方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图1所描述的基于GBDT模型的规则提取方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。

根据本发明示例性实施例，至少一个计算装置是根据本发明示例性实施例的用于执行基于GBDT模型的规则提取方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图1所描述的基于GBDT模型的规则提取方法。

以上描述了本发明各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本发明不限于所披露的各示例性实施例。在不偏离本发明范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明保护范围应该以权利要求的范围为准。

Claims

1.一种基于GBDT模型的规则提取方法，其中，包括：

获取基于特定数据集训练的GBDT模型的描述文件；

解析所述GBDT模型的描述文件，遍历所述描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取所述多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；

从所述多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

2.如权利要求1所述的方法，其中，由机器学习平台中规则提取算子来执行前述各步骤；

该方法还包括：通过算子配置界面获取所述规则提取算子的配置信息；响应于启动规则提取算子的操作基于所述配置信息启动所述规则提取算子，从而由所述规则提取算子执行前述各步骤。

3.如权利要求1所述的方法，其中，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，包括：

判断决策树中的结点是否为叶子结点；

当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，以及继续判断该结点之后的结点是否为叶子结点，直至寻找到为叶子结点的结点；

当结点是叶子结点时，确定出该结点所属的决策树的根结点到该叶子结点的规则路径，并将该叶子结点的属性信息添加到规则路径。

4.如权利要求3所述的方法，其中，当结点不是叶子结点时，确定出该结点之后的子路径所包含的子表达式，包括：

当结点不是叶子结点时，判断该结点的特征是否为离散特征；

若该结点的特征是离散特征，则将该结点的左子路径的子表达式编辑为特征值等于1，右子路径的子表达式编辑为特征值不等于1；

若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值或为空，右子路径的子表达式编辑为特征值大于预设值；或者，若该结点的特征不是离散特征，则将该结点的左子路径的子表达式编辑为特征值不大于预设值，右子路径的子表达式编辑为特征值大于预设值或为空。

5.如权利要求1所述的方法，其中，该方法在从所述多规则表达式中选取部分规则表达式作为目标规则表达式进行输出之前，还包括：

针对所述多个规则表达式执行合并，得到多个参考规则表达式。

6.如权利要求1所述的方法，其中，所述针对多个规则表达式执行合并，包括：

对所述多个规则表达式中的每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式。

7.如权利要求6所述的方法，其中，对每个规则表达式中的至少两个子表达式进行比较，根据比较结果选择该规则表达式中需要保留的子表达式，包括如下至少一项：

当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要小于预设值时，保留该至少两个子表达式中预设值最小的子表达式；

当一个规则表达式中与同一特征相关的至少两个子表达式，均表示该同一特征的值需要大于预设值时，保留该至少两个子表达式中预设值最大的子表达式；

8.一种基于GBDT模型的规则提取系统，其中，包括规则提取模块，所述规则提取模块被配置为：

获取基于特定数据集训练的GBDT模型的描述文件；解析所述GBDT模型的描述文件，遍历所述描述文件中的每棵决策树，构造出每棵决策树的从根结点分别到多个叶子结点的规则路径，得到多个规则路径，并提取所述多个规则路径中的每个规则路径所包含的规则表达式，以得到多个规则表达式；从所述多个规则表达式中选取部分规则表达式作为目标规则表达式进行输出。

9.一种存储计算机程序的计算机可读存储介质，其中，当所述计算机程序被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的基于GBDT模型的规则提取方法。

10.一种包括至少一个计算装置和至少一个存储计算机程序的存储装置的系统，其中，所述计算机程序在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的基于GBDT模型的规则提取方法。