CN111861750A

CN111861750A - 一种基于决策树方法的特征衍生系统及可读存储介质

Info

Publication number: CN111861750A
Application number: CN202010711594.2A
Authority: CN
Inventors: 陈建; 龙泳先; 何小雄; 王月月; 徐撼亚; 何侃; 廖博帆
Original assignee: Beijing Ruizhi Tuyuan Technology Co ltd
Current assignee: Beijing Ruizhi Tuyuan Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-10-30

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于决策树方法的特征衍生系统及可读存储介质，包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块，使用时，利用数据源模块获取相关数据，经过数据预处理模块处理之后进入到数据建模模块，观察初始数据集的整体表现效果，并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量，本发明利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果，具有很强市场应用前景。

Description

一种基于决策树方法的特征衍生系统及可读存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于决策树方法的特征衍生系统及可读存储介质。

背景技术

随着近几年个人信贷业务的迅猛发展，政策环境的日新月异，市场竞争的不断加剧，客户境况的瞬息万变，利用大数据方法来对信贷风险进行管理在当前社会环境下显得尤为重要。当前在技术层面遇到的难点主要在于寻找稳定具有可解释性的有用特征。有用的特征才能决定模型的最高效果，各种方法只能在理论层面逼近这个上限，而最新的诸如深度学习的一些方法的痛点在于这类方法的“黑匣”特点使其难以获得直观的容易理解的业务含义，即使这类方法能够在某种数据上提升模型效果，改变数据集或者业务环境之后，模型效果的变化可能就不尽如人意。因此主要的思考方向还在于利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果。

经检索，中国专利申请号为201711309287.6的专利，公开了一种基于决策树的大数据分析方法。本发明基于决策树的大数据分析方法，通过建立决策树，并通过聚类的方法将决策树的层级关系进行明确，利用决策树和信息熵相结合的方法，使得大数据可以从多个层面上得到分析，提高了分析结果的准确度，并且对于新加入的数据，可以直接带入决策树中，分析速度大幅提高，进而提高了政府的判断能力和运作效率。上述专利中的基于决策树的大数据分析方法存在以下不足：无法针对个人信贷业务的各种场景应用，完成依据决策树方法的变量特征衍生。

发明内容

针对现有技术的不足，本发明公开了一种基于决策树方法的特征衍生系统及可读存储介质，用于解决上述现有技术中存在的问题。

本发明通过以下技术方案予以实现：

第一方面，本发明公开一种基于决策树方法的特征衍生系统，其特征在于，包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块，使用时，利用数据源模块获取相关数据，经过数据预处理模块处理之后进入到数据建模模块，观察初始数据集的整体表现效果，并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量。

更进一步的，所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场；

所述数据采集器是在PC端或者移动端，通过API，SDK，JS等软件方式采集到的客户行为信息；

所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易，大宗交易，协议转让，盘后交易等买卖的集中交易数据信息，用户在券商的线上投资平台，投资分析决策系统等投资系统上进行买卖的投资系统数据；

所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好，消费状况等相关情况的数据信息，包括公共号数据，电商站数据和媒体数据；

所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。

更进一步的，所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术；

所述数据清理技术清除数据中的噪声，纠正不一致；

所述数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模；

所述数据集成技术将数据由多个数据源合并成一个一致的数据存储；

所述数据变换技术把数据压缩到较小的区间。

更进一步的，所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测，其中，

所述logistic回归中w和b是待求参数，logistic回归通过函数L将w×x+b对应一个隐状态p，p＝(w×x+b)，然后根据p与1-p的大小决定因变量的值，如果L是logistic函数，就是logistic回归；

logistic回归中的L函数使用sigmoid函数

逻辑回归的损失函数为:

L(y₁,y₂)＝-(y₂log(y₁))+(1-y₂)log(1-y₁)

定义代价函数m个训练样本的损失函数的平均值；

衡量预测结果与真实结果之间的平均错误代价，优化的目标是最小化代价函数J(w,b)，将代价函数最小就能达到使得模型最优的效果，对代价函数的最优化则是通过梯度下降法实现。

更进一步的，所述梯度下降法中，w，b的更新方式为

其中α为学习率learning-rate表示移动步长，梯度

为当前点的斜率，指定了移动方向，梯度下降法是为了寻找极小值，因此是朝梯度的负方向移动，用图像表示为图中曲线为代价函数J，横坐标为w或b，当梯度为正时，经过运算，w朝左更新，靠近曲线的最低点；当梯度为负时，经过运算，w朝右更新，靠近曲线的最低点，直到梯度为0时，到达最小值，得到最优参数w，b使J实现最小值。

更进一步的，所述特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对，若前者有明显提升，则推测这两个特征可能具有潜在的交叉关系；所述决策树方法用于捕捉变量或特征之间的非线性关系。

更进一步的，所述决策树方法中，包括特征选择、决策树的生成和决策树的剪枝，特征选择基于信息增益的方法，所述信息增益中，特征A对训练数据集D的信息增益定义为：

g(D,A)＝H(D)-H(D|A)，

其中H(D)表示集合D的经验熵，H(D|A)表示集合D在特征A的给定条件下的经验熵H(D|A)，具体计算步骤为：

a)计算数据集D的经验熵

b)计算特征A对数据集D的经验条件熵

c)计算信息增益g(D,A)＝H(D)-H(D|A)。

更进一步的，所述决策树方法中，在决策树各个结点上应用信息增益准则来选择特征，递归地构建决策树，从根结点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，以该特征的不同取值建立子结点，再对子结点递归地调用以上的方法，直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止，最后得到一棵决策树。

更进一步的，所述验证模块将新创建的衍生特征加入到已有特征集中，利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性，所述验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断，又有依据回归方法对新生特征在数据层面的进一步验证，若对于整体数据的分类精准率有明显的提升，则认为新生特征具备好的预测能力和稳定性，能够加入到已有特征集中。

第二方面，本发明公开一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行第一方面所述的基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。

本发明的有益效果为：

本发明通过数据源模块多方获取相关数据，经过数据清洗模块的预处理之后，进入到数据建模模块，观察初始数据集的整体表现效果。然后利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量，以提升模型分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于决策树方法的特征衍生系统的原理示意图；

图2是一种基于决策树方法的特征衍生系统的sigmoid函数图像示意图；

图3是一种基于决策树方法的特征衍生系统的决策树算法的模型图；

图4是一种基于决策树方法的特征衍生系统的决策树算法的剪枝示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开如图1所示的一种基于决策树方法的特征衍生系统，包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块，使用时，利用数据源模块获取相关数据，经过数据预处理模块处理之后进入到数据建模模块，观察初始数据集的整体表现效果，并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量。

数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场；

数据采集器是在PC端或者移动端，通过API，SDK，JS等软件方式采集到的客户行为信息；

券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易，大宗交易，协议转让，盘后交易等买卖的集中交易数据信息，用户在券商的线上投资平台，投资分析决策系统等投资系统上进行买卖的投资系统数据；

合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好，消费状况等相关情况的数据信息，包括公共号数据，电商站数据和媒体数据；

第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。

数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术；

数据清理技术清除数据中的噪声，纠正不一致；

数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模；

数据集成技术将数据由多个数据源合并成一个一致的数据存储；

数据变换技术把数据压缩到较小的区间。

数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测，其中，logistic回归中的L函数使用sigmoid函数

逻辑回归的损失函数为:

L(y₁,y₂)＝-(y₂log(y₁))+(1-y₂)log(1-y₁)

定义代价函数m个训练样本的损失函数的平均值；

梯度下降法中，w，b的更新方式为

其中α为学习率learning-rate表示移动步长，梯度

特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对，若前者有明显提升，则推测这两个特征可能具有潜在的交叉关系；所述决策树方法用于捕捉变量或特征之间的非线性关系。

决策树方法中，包括特征选择、决策树的生成和决策树的剪枝，特征选择基于信息增益的方法，所述信息增益中，特征A对训练数据集D的信息增益定义为：

g(D,A)＝H(D)-H(D|A)，

a)计算数据集D的经验熵

b)计算特征A对数据集D的经验条件熵

c)计算信息增益g(D,A)＝H(D)-H(D|A)。

决策树方法中，在决策树各个结点上应用信息增益准则来选择特征，递归地构建决策树，从根结点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，以该特征的不同取值建立子结点，再对子结点递归地调用以上的方法，直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止，最后得到一棵决策树。

验证模块将新创建的衍生特征加入到已有特征集中，利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性。

验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断，又有依据回归方法对新生特征在数据层面的进一步验证，若对于整体数据的分类精准率有明显的提升，则认为新生特征具备好的预测能力和稳定性，能够加入到已有特征集中。

实施例2

本实施例公开一种基于决策树方法的特征衍生系统，包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块；所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场；数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术；数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测；特征衍生模块包括利用决策树方法来寻找具有非线性交叉关系的变量；验证模块与特征衍生模块衔接，对衍生出的新变量进行验证。

数据采集器指在PC端或者移动端，通过API，SDK，JS等软件方式采集到的客户行为信息。

券商业务数据主要有证券交易所以公开、集中的方式进行的集中竞价交易，大宗交易，协议转让，盘后交易等买卖的集中交易数据信息，用户在券商的线上投资平台，投资分析决策系统等投资系统上进行买卖的投资系统数据。

合作方数据主要是与软件开发方存在合作关系的机构所提供的反应客户行为偏好，消费状况等相关情况的数据信息，包括公共号数据，电商站数据，媒体数据等。

第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构、其他数据提供机构。

数据清理技术清除数据中的噪声，纠正不一致；数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模；数据集成技术将数据由多个数据源合并成一个一致的数据存储，如数据仓库；数据变换技术把数据压缩到较小的区间，如0.0到1.0，可以提高设计距离度量的挖掘算法的准确率和效率。

实施例3

本实施例公开一种logistic回归，其中w和b是待求参数，logistic回归通过函数L将w×x+b对应一个隐状态p，p＝(w×x+b)，然后根据p与1-p的大小决定因变量的值，如果L是logistic函数，就是logistic回归。

logistic回归中的L函数使用sigmoid函数

参见图2；

逻辑回归的损失函数为:

L(y₁,y₂)＝-(y₂log(y₁))+(1-y₂)log(1-y₁)

定义代价函数m个训练样本的损失函数的平均值；

梯度下降法中，w，b的更新方式为

其中α为学习率learning-rate表示移动步长，梯度

实施例4

本实施例公开如图3所示的决策树，主要包括特征选择、决策树的生成和决策树的剪枝，特征选择一般基于信息增益的方法。关于信息增益，特征A对训练数据集D的信息增益定义为：

g(D,A)＝H(D)-H(D|A)，

a)计算数据集D的经验熵

b)计算特征A对数据集D的经验条件熵

c)计算信息增益g(D,A)＝H(D)-H(D|A)。

决策树的生成主要使用ID3算法，核心是在决策树各个结点上应用信息增益准则来选择特征，参见图4，递归地构建决策树，具体而言，从根结点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，以该特征的不同取值建立子结点，再对子结点递归地调用以上的方法，直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止，最后得到一棵决策树。

实施例5

本实施例公开一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。

综上，本发明在使用时，通过数据源模块多方获取相关数据，经过数据清洗模块的预处理之后，进入到数据建模模块，观察初始数据集的整体表现效果。然后利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量，以提升模型分类效果。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于决策树方法的特征衍生系统，其特征在于，包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块，使用时，利用数据源模块获取相关数据，经过数据预处理模块处理之后进入到数据建模模块，观察初始数据集的整体表现效果，并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合，构建新的特征，加入到原始特征集中，通过验证模块来对新生变量进行稳定性和可用性方面的验证，最终寻找到稳定可用的衍生变量。

2.根据权利要求1所述的基于决策树方法的特征衍生系统，其特征在于，所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场；

3.根据权利要求1所述的基于决策树方法的特征衍生系统，其特征在于，所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术；

所述数据清理技术清除数据中的噪声，纠正不一致；

所述数据变换技术把数据压缩到较小的区间。

4.根据权利要求1所述的基于决策树方法的特征衍生系统，其特征在于，所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测，其中，

所述logistic回归中w和b是待求参数，logistic回归通过函数L将w×x+b对应一个隐状态p，p＝(w×x+b)，然后根据p与1-p的大小决定因变量的值，如果L是logistic函数，就是logistic回归；logistic回归中的L函数使用sigmoid函数

逻辑回归的损失函数为:

L(y₁,y₂)＝-(y₂log(y₁))+(1-y₂)log(1-y₁)

定义代价函数m个训练样本的损失函数的平均值；

5.根据权利要求4所述的基于决策树方法的特征衍生系统，其特征在于，所述梯度下降法中，w，b的更新方式为

其中α为学习率learning-rate表示移动步长，梯度

6.根据权利要求1所述的基于决策树方法的特征衍生系统，其特征在于，所述特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对，若前者有明显提升，则推测这两个特征可能具有潜在的交叉关系；所述决策树方法用于捕捉变量或特征之间的非线性关系。

7.根据权利要求6所述的基于决策树方法的特征衍生系统，其特征在于，所述决策树方法中，包括特征选择、决策树的生成和决策树的剪枝，特征选择基于信息增益的方法，所述信息增益中，特征A对训练数据集D的信息增益定义为：

g(D,A)＝H(D)-H(D|A)，

a)计算数据集D的经验熵

b)计算特征A对数据集D的经验条件熵

c)计算信息增益g(D,A)＝H(D)-H(D|A)。

8.根据权利要求6所述的基于决策树方法的特征衍生系统，其特征在于，所述决策树方法中，在决策树各个结点上应用信息增益准则来选择特征，递归地构建决策树，从根结点开始，对结点计算所有可能特征的信息增益，选择信息增益最大的特征作为结点的特征，以该特征的不同取值建立子结点，再对子结点递归地调用以上的方法，直到所有特征的信息增益达到选取的阈值或者没有特征可以选择为止，最后得到一棵决策树。

9.根据权利要求6所述的基于决策树方法的特征衍生系统，其特征在于，所述验证模块将新创建的衍生特征加入到已有特征集中，利用评分卡系统来检查新特征是否具有提升预测效果的能力并验证新生特征的稳定性，所述验证模块既有对上一步骤中捕获的可能具有潜在交叉关系的特征关于可解释性的判断，又有依据回归方法对新生特征在数据层面的进一步验证，若对于整体数据的分类精准率有明显的提升，则认为新生特征具备好的预测能力和稳定性，能够加入到已有特征集中。

10.一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述的基于决策树方法的特征衍生系统以寻找到稳定可用的衍生变量。