CN113095501A

CN113095501A - 一种基于深度强化学习的不平衡分类决策树生成方法

Info

Publication number: CN113095501A
Application number: CN202110500508.8A
Authority: CN
Inventors: 温桂铉; 吴开贵
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-09

Abstract

本发明提供一种基于深度强化学习的不平衡分类决策树生成方法，包括以下步骤：步骤(1)：数据预处理；对数据集D包含特征进行依次编号，同时把数据集归一化到[0，1]区间并且提取每个特征的p分位数；步骤(2)：决策树生成过程的状态空间表示；对决策树中的决策节点以及决策树整体进行向量表示；步骤(3)：决策树生成过程的动作空间表示；把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间；步骤(4)：利用常见的不平衡分类评估指标设计奖励函数；步骤(5)：把决策树生成过程建模成标准的马尔可夫决策过程，并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。

Description

一种基于深度强化学习的不平衡分类决策树生成方法

技术领域

本发明属于机器学习领域，涉及一种用于不平衡分类的决策树生成方法，可适用于数据偏斜、特征连续情况下的二分类问题。

背景技术

近十年机器学习算法被广泛应用于实际问题并取得巨大成功。然而，异常检测、疾病诊断和异常行为识别等领域收集的数据通常存在不平衡的问题，这是机器学习算法在实际应用过程中必须要解决的困难之一。更重要的是，少数类样本要比多数类更为重要。例如，在癌症诊断中，健康个体的样本数可以是癌症患者样本的上千倍，但算法的目的是要正确诊断出患有癌症的个体。许多机器学习算法最初提出时并没有考虑数据偏斜的情况，所以这些算法在处理不平衡的分类问题时失效。随着机器学习的发展，解决不平衡分类的算法也陆续提出，总体上可分类两大类：数据层面和算法层面。前者的主要思想是通过不同的重采样技术重新平衡数据的分布，如随机欠采样(RUS)，随机过采样(ROS)和SMOTE等。相比之下，后者则通过给不同的类或样本分配权值或代价调整原始算法，减少类别间样本量造成的偏差。

决策树不仅是机器学习领域最为简单的算法之一，并且拥有良好的解释性。通常，决策树模型的构建过程可以被认为是一个贪心算法，即在每一个决策节点都选择局部最优的特征对数据进行划分。经典决策树算法的划分准则是信息增益(Information Gain,IG),它是一种基于样本不纯度的划分方式。但是因为在信息增益的计算中必须要使用样本类别信息的先验概率，这使得基于信息增益的决策树算法在面临数据不平衡的情况时偏向于多数类，从而降低分类性能。为了改进经典决策树算法无法适用于不平衡分类的缺点，两种新的节点划分准则被提出，分别是海林格距离(Hellinger Distance)和类别置信比例(ClassConfidence Proportion，CCP)。海林格距离是F散度的一种，它能够衡量两个分布之间的相似程度。通过使用各个划分的标准化频率代替类别的先验概率，因此海林格距离是一种对数据分布不敏感的衡量方式。类别置信比例是对C4.5决策树算法的一种改进，它用于代替原算法中的置信度。基于上述两种改进划分准则的决策树算法尽管能在数据不平衡的情况下具有优异的性能表现。但是，基于海林格距离的决策树算法通过计算不同类别条件下的误差生成更高纯度的叶子节点，这会导致算法在平衡数据集上效果欠佳。同样地，基于类别置信比例的决策树算法在面临两种划分的信息增益相同时，应用海林格距离做进一步区分，所以该算法也面临同样的问题。

深度强化学习(Deep Reinforcement Learning,DRL)是深度学习与强化学习的结合，主要用于解决序列决策问题，被广泛应用在机器人控制和游戏领域。在强化学习中，问题通常被建模成一个马尔可夫决策过程(Markov Decision Process，MDP)，它可以表示为一个五元组(S，A，R，T，γ)，其中S和A分别代表状态空间以及动作空间，R是从环境中获得的奖励，T是状态转移概率，γ是折扣率并用于计算智能体未来所能获得的回报。智能体和环境是强化学习中两个重要主体，一个完整的强化学习交互过程可以描述为：智能体在时刻t观测到环境的状态s_t,然后根据自己的策略选择执行动作a_t,接下来环境根据概率p＝P(s_t+1|S＝s_t，A＝a_t)转移到下一时刻的状态s_t+1并反馈給智能体奖励r_t。深度强化学习的目的就是通过控制智能体与环境进行一系列的交互从而学习一个最优策略π，最大化智能体获得的总回报。近些年，鉴于深度强化学习强大的学习能力，研究者们逐渐开始把它与不平衡分类问题相结合并取得一系列成果。目前，两者结合的方式主要有两种。第一，把数据样本按顺序排列，然后数据采样的过程被建模成MDP，进而学习出一个最优采样器。第二，把数据样本按顺序排列，直接把分类过程建模成MDP，学习一个最优分类策略。这两种结合的思路都具有两个缺点。首先，当面临海量数据时，MDP决策链将变得非常长，智能体很容易对过去的信息遗忘。其次，每一次训练都必须将样本排列顺序打乱，并且状态的转移概率本质上属于一个均匀分布，即上一时刻状态s_t转移到下一时刻状态s_t+1与智能体执行的动作a_t没有关系。

发明内容

有鉴于此，本发明的目的在于提供一种能同时很好处理平衡数据和不平衡数据的基于深度强化学习的不平衡分类决策树生成方法。

为了达到上述目的，本发明是这样实现的：一种基于深度强化学习的不平衡分类决策树生成方法，其特征在于，包括以下步骤：步骤(1)：数据预处理；对数据集D包含特征进行依次编号，同时把数据集归一化到[0，1]区间并且提取每个特征的p分位数；步骤(2)：决策树生成过程的状态空间表示；对决策树中的决策节点以及决策树整体进行向量表示；步骤(3)：决策树生成过程的动作空间表示；把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间；步骤(4)：利用常见的不平衡分类评估指标设计奖励函数；步骤(5)：把决策树生成过程建模成标准的马尔可夫决策过程，并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。

其中，所述步骤(1)中对于任意一个包含m个连续特征的数据集D，把特征依次编码为ID＝{1，2，3，...，m}，在把数据集归一化到[0，1]区间后，提取每个特征的n个分位数，得到一个阈值矩阵K

其中k_ij表示第j个特征的第i个分位数，0＜i＜n,0＜i＜m,通常n＝9，即k_·j＝{10％，20％，30％，40％，50％，60％，70％，80％，90％}分位数。

在所述步骤(2)中，针对任意二分类决策树结构，编码时均忽略叶子节点，只对决策节点进行编码。

在所述步骤(2)中，对于一个以第m个特征，阈值k作为划分的决策节点Node_km,它的向量表示为[ID_m，k]，向量化的决策树与原始决策树保持相同的结构。

在所述步骤(3)中，在定义决策树生成的动作空间时，需首先给定满二叉决策树的最大节点数N，并对节点按照层次遍历或先序遍历等方式对节点位置进行编号，节点位置选择的动作空间A_p＝{1，2，...，N}，决策节点操作有添加、删除、修改三种方式，得节点操作选择的动作空间A_o＝{add，delete，update}；再根据步骤(1)对特征的编码ID以及阈值矩阵K，划分特征选择和划分阈值选择的动作空间分别为A_f＝{1，2，...，m}以及A_s＝{1，2，...，n}，最终，决策树生成过程的动作空间A＝{A_p，A_o，A_f，A_s}。

在所述步骤(4)中，奖励函数的设计依赖于生成过程每一棵中间形态决策树分类结果，假设在时刻t,对应的中间形态决策树T_t，可直接使用T_t对数据集D进行分类，根据分类结果应用F-measure、G-mean等常见的不平衡分类评价指标对T_t的分类性能进行评估，得到评估结果score_t。最后score_t与上一时刻的评估结果相减即可得到当前时刻的奖励r_t；将score₀设为0.5或则0，当score₀＝0时，累计奖励则等同于最终决策树模型的评估得分，而score₀＝0.5相当于给最终决策树模型增加一个基准线，即最终决策树模型相比随机分类性能优异多少，

r_t＝score_t-score_t-1。

在所述步骤(5)中，决策树的生成过程对应的马尔可夫决策过程可以描述为如下：在某一时刻t，智能体观测到环境中的决策树T_t并根据自身的策略做出动作a_t＝(a_pt，a_ot，a_ft，a_st)，紧接着环境根据动作a_t对决策树T_t做出更新；环境对T_t的第a_pt位置进行a_ot操作，若a_ot为添加操作，则在a_pt位置添加一个以第a_ft个特征和该特征的第a_st个分位数作为划分的节点；若a_ot为修改操作，则把a_pt位置的节点的划分特征和阈值修改成第a_ft个特征和该特征的第a_st个分位数；若a_ot为删除操作，则直接删除a_pt位置的节点；在更新后，决策树T_t变为T_t+1，并使用T_t+1对数据集D进行分类，同时计算奖励r_t；最终环境反馈给智能体决策树T_t+1和奖励r_t，交互结束的条件是交互次数达到最大值或则累计奖励收敛不再增长。

有益效果：

本发明提出了一种基于深度强化学习的决策树生成方法。该方法解决了现有决策树算法无法同时很好处理平衡数据和不平衡数据的缺陷。在本发明中，使用者能够根据不同的使用场景选择不同的分类器性能评估指标来设计奖励函数，如在数据相对平衡时选择准确率，在数据不平衡时则选择F-measure等。同时，相比于现有的基于深度强化学习解决不平衡分类的方法，本发明通过把决策树的生成过程建模成马尔可夫决策过程，能够很好地避免马尔可夫决策链过长的问题，决策链的长度可由使用者自定义的最大交互次数决定。

附图说明

图1为实例中的流程框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的说明，但本发明并不局限于这些实施方式，任何在本实施例基本精神上的改进或代替，仍属于本发明权利要求所要求保护的范围。

实施例：如图1所示，本实施例提供一种基于深度强化学习的不平衡分类决策树生成方法，其特征在于，包括以下步骤：

步骤(1)：数据预处理；对数据集D包含特征进行依次编号，同时把数据集归一化到[0，1]区间并且提取每个特征的p分位数；

步骤(2)：决策树生成过程的状态空间表示；对决策树中的决策节点以及决策树整体进行向量表示；

步骤(3)：决策树生成过程的动作空间表示；把决策树生成过程中节点位置选择、节点操作选择、划分特征选择以及划分阈值选择对应到马尔可夫决策过程中的动作空间；

步骤(4)：利用常见的不平衡分类评估指标设计奖励函数；

步骤(5)：把决策树生成过程建模成标准的马尔可夫决策过程，并运用已有的深度强化学习算法进行求解最优生成策略和决策树结构。

在所述步骤(1)中对于任意一个包含m个连续特征的数据集D，把特征依次编码为ID＝{1，2，3，...，m}，在把数据集归一化到[0，1]区间后，提取每个特征的n个分位数，得到一个阈值矩阵K

如图1所示，为了保持决策树的结构信息不变，向量化的决策树与原始决策树保持相同的结构。为此，与图像卷积相类似，在算法实现时可运用基于树的卷积层把整个向量化决策树转化为一维特征向量。

在所述步骤(3)中，在定义决策树生成的动作空间时，需首先给定满二叉决策树的最大节点数N，并对节点按照层次遍历或先序遍历等方式对节点位置进行编号，节点位置选择的动作空间A_p＝{1，2，...，N}，常见的决策节点操作有添加、删除、修改三种方式，易得节点操作选择的动作空间A_o＝{add，delete，update}；再根据步骤(1)对特征的编码ID以及阈值矩阵K，划分特征选择和划分阈值选择的动作空间分别为A_f＝{1，2，...，m}以及A_s＝{1，2，...，n}，最终，决策树生成过程的动作空间A＝{A_p，A_o，A_f，A_s}。

r_t＝score_t-score_t-1。

在所述步骤(5)中，决策树的生成过程对应的马尔可夫决策过程可以描述为如下：在某一时刻t，智能体观测到环境中的决策树T_t并根据自身的策略做出动作a_t＝(a_pt，a_ot，a_ft，a_st)，紧接着环境根据动作a_t对决策树T_t做出更新。具体地，环境对T_t的第a_pt位置进行a_ot操作，若a_ot为添加操作，则在a_pt位置添加一个以第a_ft个特征和该特征的第a_st个分位数作为划分的节点；若a_ot为修改操作，则把a_pt位置的节点的划分特征和阈值修改成第a_ft个特征和该特征的第a_st个分位数；若a_ot为删除操作，则直接删除a_pt位置的节点；在更新后，决策树T_t变为T_t+1，并使用T_t+1对数据集D进行分类，同时计算奖励r_t；最终环境反馈给智能体决策树T_t+1和奖励r_t，交互结束的条件是交互次数达到最大值或则累计奖励收敛不再增长。

以下提供一个实例：如图1所示分为以下步骤：

步骤1：初始化

步骤1.1：输入数据集D，最大节点数N，每个特征提取的分位数个数n、探索概率ε、每次采样经验数batch_size、最大迭代次数max-episode以及最大交互次数max_step。

步骤1.2：初始化神经网络Q_π的参数θ，θ^-。

步骤1.3：生成阈值矩阵K，设置episode＝0。

步骤1.4：初始化一棵节点集合为空的决策树，设置step＝0。

步骤2：根据策略π选择动作a_t。

步骤2.1：生成一个[0，1]之间的随机数α。若α＜ε则随机动作a_t，进入步骤3。若α≥ε则进入步骤2.2。

步骤2.2：把t时刻的决策树T_t作为树卷积层的输入，得到状态向量s_t。

步骤2.3：状态向量s_t通过5个不同的全连接层，分别得到状态值V(s)、节点位置选择Advantage向量A(s，a_p)，节点操作选择Advantage向量A(s，a_o)，节点位置选择Advantage向量A(s，a_f)，节点位置选择Advantage向量A(s，a_s)。

步骤2.4：分别计算节点位置选择Q-value向量Q(s，a_p)，节点操作选择Q-value向量Q(s，a_o)，节点位置选择Q-value向量Q(s，a_f)，节点位置选择Q-value向量Q(s，a_s)。

步骤2.5：获得动作a_t。

步骤3：智能体执行a_t。

步骤4：环境返回下一时刻的决策树T_t+1和奖励r_t。

步骤4.1：环境根据智能体的动作a_t更新决策树T_t并生成新的决策树T_t+1。

步骤4.2：使用决策树T_t+1对训练数据集D进行分类,得到分类结果Y_t。

步骤4.3：利用分类结果Y_t和F-measure等合适的指标对决策树T_t+1的性能进行评估并计算奖励r_t，同时判断step是否达到max_step，若是，则done_t＝True，否则done_t＝False。

步骤4.4：输出决策树T_t+1和奖励r_t和结束标志done_t。

步骤5：存储经验并更新网络权重。

步骤5.1：把经验元组(T_t，a_t+1，r_t，T_t+1，done_t)存储到经验池中。

步骤5.2：从经验池中随机采样batch_size组经验B，并计算损失，更新网络Q_π。

步骤6：结束判断。

步骤6.1：episode累加1。

步骤6.2：判断episode是否达到max_episode。若是，则结束并输出T_t和策略网络Q_π。否则进入步骤6.3。

步骤6.3判断done_t＝True，若是则重回步骤1.4。

Claims

1.一种基于深度强化学习的不平衡分类决策树生成方法，其特征在于，包括以下步骤：

步骤(4)：利用常见的不平衡分类评估指标设计奖励函数；

2.如权利要求1所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：步骤(1)中对于任意一个包含m个连续特征的数据集D，把特征依次编码为ID＝{1，2，3，...，m}，在把数据集归一化到[0，1]区间后，提取每个特征的n个分位数，得到一个阈值矩阵K

3.如权利要求2所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(2)中，针对任意二分类决策树结构，编码时均忽略叶子节点，只对决策节点进行编码。

4.如权利要求3所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(2)中，对于一个以第m个特征，阈值k作为划分的决策节点Node_km,它的向量表示为[ID_m，k]，向量化的决策树与原始决策树保持相同的结构。

5.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(3)中，在定义决策树生成的动作空间时，需首先给定满二叉决策树的最大节点数N，并对节点按照层次遍历或先序遍历等方式对节点位置进行编号，节点位置选择的动作空间A_p＝{1，2，...，N}，决策节点操作有添加、删除、修改三种方式，得节点操作选择的动作空间A_o＝{add，delete，update}；再根据步骤(1)对特征的编码ID以及阈值矩阵K，划分特征选择和划分阈值选择的动作空间分别为A_f＝{1，2，...，m}以及A_s＝{1，2，...，n}，最终，决策树生成过程的动作空间A＝{A_p，A_o，A_f，A_s}。

6.如权利要求4所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(4)中，奖励函数的设计依赖于生成过程每一棵中间形态决策树分类结果，假设在时刻t,对应的中间形态决策树T_t，可直接使用T_t对数据集D进行分类，根据分类结果应用F-measure、G-mean等常见的不平衡分类评价指标对T_t的分类性能进行评估，得到评估结果score_t。最后score_t与上一时刻的评估结果相减即可得到当前时刻的奖励r_t；将score₀设为0.5或则0，当score₀＝0时，累计奖励则等同于最终决策树模型的评估得分，而score₀＝0.5相当于给最终决策树模型增加一个基准线，即最终决策树模型相比随机分类性能优异多少，

r_t＝score_t-score_t-1。

7.如权利要求6所述的基于深度强化学习的不平衡分类决策树生成方法，其特征在于：在所述步骤(5)中，决策树的生成过程对应的马尔可夫决策过程可以描述为如下：在某一时刻t，智能体观测到环境中的决策树T_t并根据自身的策略做出动作a_t＝(a_pt，a_ot，a_ft，a_st)，紧接着环境根据动作a_t对决策树T_t做出更新；环境对T_t的第a_pt位置进行a_ot操作，若a_ot为添加操作，则在a_pt位置添加一个以第a_ft个特征和该特征的第a_st个分位数作为划分的节点；若a_ot为修改操作，则把a_pt位置的节点的划分特征和阈值修改成第a_ft个特征和该特征的第a_st个分位数；若a_ot为删除操作，则直接删除a_pt位置的节点；在更新后，决策树T_t变为T_t+1，并使用T_t+1对数据集D进行分类，同时计算奖励r_t；最终环境反馈给智能体决策树T_t+1和奖励r_t，交互结束的条件是交互次数达到最大值或则累计奖励收敛不再增长。