CN108985342A

CN108985342A - 一种基于深度增强学习的不平衡分类方法

Info

Publication number: CN108985342A
Application number: CN201810652374.XA
Authority: CN
Inventors: 陈琼; 戚潇明; 林恩禄
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-12-11

Abstract

本发明公开了一种基于深度增强学习的不平衡分类方法，包括步骤：1)构建智能体的分类任务与交互规则；2)构建智能体的动作空间；3)构建外部环境；4)构建深度神经网络模型；5)训练基于深度增强学习的不平衡分类模型，即用深度神经网络模型学习Q函数。本发明将深度增强学习用于有监督学习中的不平衡分类问题，通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用，使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略，在不平衡二分类和多分类问题中均适用，因而本发明具有实际应用价值，值得推广。

Description

一种基于深度增强学习的不平衡分类方法

技术领域

本发明涉及机器学习中的深度学习、增强学习、不平衡分类的技术领域，尤其是指一种基于深度增强学习的不平衡分类方法。

背景技术

对于不平衡分类问题，通常的解决思路是从数据层和算法层的角度去改善。但是数据层的改善方法会改变训练数据的原始分布特征，重采样后的数据往往不能反映真实数据的分布特征。比如上采样方法对少数类样本的简单复制或者插值生成新样本会导致训练模型对少数类样本过拟合，而下采样方法则会因为对多数类样本的删除而导致数据信息丢失。算法层的方法也存在问题，基于集成学习的方法通常需要训练多个基分类器，训练代价相对较高，而基于代价敏感的学习方式，很难为不同的类别定义准确的惩罚代价。

现实生活中数据分布不平衡的问题客观存在，当少数类样本的总体特征空间无法估计时，数据层和算法层的改进方法都有局限性，很难找到一个通用的方法解决不平衡分类问题。

增强学习不仅具有对已知环境的学习能力，重要的是对未知环境的具有探索能力。将增强学习用于解决不平衡分类问题，其探索学习的能力可以使智能体利用已学会的分类策略评估未知的样本特征，使智能体在不同类型的数据环境和不同不平衡程度的数据环境中学会正确的分类策略。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种行之有效、科学合理的基于深度增强学习的不平衡分类方法，将深度增强学习用以解决有监督学习中的不平衡分类问题，通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用，使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略。本发明提出的方法模型在不平衡二分类和多分类问题中均适用，是一个具有较强鲁棒性的通用模型。

为实现上述目的，本发明所提供的技术方案为：一种基于深度增强学习的不平衡分类方法，包括以下步骤：

1)构建智能体的分类任务与交互规则；

2)构建智能体的动作空间；

3)构建外部环境；

4)构建深度神经网络模型；

5)训练基于深度增强学习的不平衡分类模型，即用深度神经网络模型学习Q函数。

在步骤1)中，构建的分类任务为：智能体依次对环境中的每一个训练样本分类，当分类正确时，智能体从环境获得正回报值，否则智能体获得负回报值；智能体的目标就是在分类任务中获得最多的累计回报；

在不平衡分类任务中，为引导智能体学会对不平衡数据分类的策略，制定智能体与环境的交互规则：如果智能体对少数类样本分类正确，环境给予高额的正回报值以奖励；一旦分类错误，则终止当前分类任务，同时环境给予高额的负回报值以惩罚；如果智能体对多数类样本分类正确，环境给予低额的正回报值以奖励；如果分类错误，环境给予低额的负回报值以惩罚。

在步骤2)中，智能体的动作空间与训练数据的类别对应，对于不平衡N＝2分类问题，定义智能体的动作空间A＝{0,1}，0和1分别代表样本的标签，在t时刻，智能体对每一个样本分类，输出动作a_t，a_t∈A。

在步骤3)中，构建外部环境包括如下步骤：

3-1)构建环境的状态空间

使用训练数据集D＝{＜x_i,y_i＞|i＝1,2,3...}构建外部环境，定义状态空间S为整个训练集的样本空间，并且每个时刻的环境状态s_t唯一对应训练集D的一个样本x_i；

3-2)设置外部环境的回报函数

对于不平衡N＝2分类问题，智能体对少数类样本分类正确时能够获得更多的奖励；分类错误时，获得更多的惩罚；定义训练集中的多数类样本集为D_L，少数类样本集为D_S，训练集样本不平衡的比例为回报函数如下式：

其中，a_t为在t时刻，智能体对每一个样本分类的输出动作；

对于不平衡N>2分类问题，定义标签为k的训练样本集为D_k，|D_k|为标签为k的训练样本数量，定义类别k的不平衡比例为回报函数如下式：

在r_t的表达式中，x_t和y_t是t时刻环境向智能体展示的样本及其标签，λ是常数系数，通常取“1”，当然，也能够根据需要调整其取值；

3-3)构建外部环境的状态转移规则

每当新的一轮分类任务开始时，环境将训练集的所有样本打乱，于每个时刻向智能体展示一个待分类的训练样本x_t；当环境接收到智能体的分类动作时，通过回报函数评价智能体的分类动作的价值，给予智能体即时回报r_t并决定是否状态转移；

对于不平衡N＝2分类问题，样本数量少的类为少数类，另一类为多数类；对于不平衡N>2分类问题，定义数量最少的m个类为少数类，其余类为多数类；当智能体对少类样本错误分类或者完成对所有样本的分类时，终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务，否则，环境当前状态转移至下一个状态，即向智能体展示下一个样本x_t+1。

在步骤4)中，根据不同的数据环境构建不同的神经网络模型，对于文本数据，使用带有Embedding层的深度神经网络模型；对于图片数据，使用带有卷积层和池化层的深度神经网络模型。

在步骤5)中，训练基于深度增强学习的不平衡分类模型，具有如下特征：

①基于价值函数的深度增强学习算法模型；

②在训练模型的过程中，使用验证数据集对模型进行周期性测试，保存最佳分类模型，对于不平衡N＝2分类问题，训练过程中周期性使用验证数据集监控正负类样本的召回率，当正负两类召回率接近相等时，终止训练，保存模型。

本发明与现有技术相比，具有如下优点与有益效果：

1、相比基于重采样的不平衡分类方法，本发明不依赖原始训练数据的分布；相比于集成学习的不平衡分类方法，本发明是一个端到端的高效方法。

2、本发明设计的方法模型是能应用在不同类型数据上的通用模型，对于不同类型的数据使用合适的深度网络模型即可进行不平衡分类策略的学习。

3、本发明设计的回报函数对不同不平衡程度的数据有很强的适应性，在数据分布极度不平衡和少数类样本特征逐渐复杂的情况下，也有很好的分类效果。

4、本发明设计的方法模型可以较好地识别少数类样本，训练过程中，始终保证对少数类样本有较高的召回率。

5、本发明设计的方法可通过调整回报函数对多数类样本和少数类样本分类动作的奖惩值来调整模型对多数类和少数类样本的重视程度，以一种灵活可控的方式完成不平衡分类任务。当数据分布极度不平衡时，可通过适当提高对多数类样本的奖惩值(提高λ的值)，提升模型性能。

6、对于基于深度增强学习的不平衡二分类模型，本发明在训练模型时，使用验证集数据中多数类、少数类样本的召回率评估智能体的性能，较好地追踪模型真实性能的变化，训练出的模型的更加可靠。

附图说明

图1为本发明方法的流程框架图。

图2为本发明的实施例的二分类输入数据的实例图。

图3为本发明的实施例的十分类输入数据的实例图。

图4为本发明训练基于深度增强学习的不平衡分类模型的算法流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于深度增强学习的不平衡分类方法，包括以下步骤：

1)构建智能体的分类任务与交互规则

构建的分类任务为：智能体依次对环境中的每一个训练样本分类，当分类正确时，智能体从环境获得正回报值，否则智能体获得负回报值；智能体的目标就是在分类任务中获得最多的累计回报；

2)构建智能体的动作空间

智能体的动作空间与训练数据的类别对应，对于不平衡N＝2分类问题，定义智能体的动作空间A＝{0,1}，0和1分别代表样本的标签，在t时刻，智能体对每一个样本分类，输出动作a_t，a_t∈A。

3)构建外部环境，包括如下步骤：

3-1)构建环境的状态空间

3-2)设置外部环境的回报函数

其中，a_t为在t时刻，智能体对每一个样本分类的输出动作；

3-3)构建外部环境的状态转移规则

4)构建深度神经网络模型

根据不同的数据环境构建不同的神经网络模型，对于文本数据，使用带有Embedding层的深度神经网络模型；对于图片数据，使用带有卷积层和池化层的深度神经网络模型。

5)训练基于深度增强学习的不平衡分类模型，具有如下特征：

①基于价值函数的深度增强学习算法模型；

以不平衡二分类为例，使用预处理的MNIST数据集对本发明上述方法进行具体说明。对于原始MNIST数据集，设定数字“2”为少数类样本，无放回地随机抽取60张图片，记为正类；其余数字为多数类，一共54000张图片，记为负类；正类和负类的实例图片如图2所示。

在本实例中，所述的基于深度增强学习的不平衡分类方法，包括以下步骤：

1)数字为“2”的图片为少数类样本，为其设定较大的回报值，其余数字的图片为多数类样本，回报值较小；智能体连续决策，对每个训练样本分类并从中获取回报(奖励或惩罚)，智能体的目标就是从分类中获得最多的累计回报。

在不平衡分类任务中，为引导智能体学会对不平衡数据分类的策略，如果智能体对少数类样本分类正确，环境给予较大正回报值以奖励；如果分类错误，则终止当前分类任务，同时环境给予较大负回报值以惩罚。如果智能体对多数类样本分类正确，环境给予较小的正回报值以奖励；如果分类错误，环境给予较小的负回报值以惩罚。

2)定义智能体的动作空间A＝{0,1}，0和1分别代表正类和负类。

3)构建外部环境包括如下步骤：

3-1)构建环境的状态空间。使用训练数据集D＝{＜x_i,y_i＞|i＝1,2,3...}构建外部环境，定义状态空间S为整个训练集的样本空间，并且每个时刻的环境状态s_t唯一对应训练集D的一个样本x_i。

3-2)设置外部环境的回报函数。对于不平衡二分类问题，智能体对少数类样本分类正确时应获得更多的奖励；分类错误时，获得更多的惩罚。定义训练集中的多数类样本集为D_L，少数类样本集为D_S，训练集样本不平衡的比例为ρ＝1/900，λ＝1，回报函数如下式：

3-3)构建外部环境的状态转移规则。每当新的一轮分类任务开始时，环境将训练集的所有样本打乱，于每个时刻向智能体展示一个待分类的训练样本x_t；当环境接收到智能体的分类动作时，通过回报函数评价智能体的分类动作的价值，给予智能体即时回报r_t并决定是否状态转移。

当智能体对少类样本(数字“2”的图片)错误分类或者完成对所有样本的分类时，终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务，否则，环境当前状态转移至下一个状态，即向智能体展示下一个样本x_t+1。

4)构建的卷积神经网络模型参数如表1所示。

表1卷积神经网络参数设置(二分类)

Layer	Width	Height	Depth	Kernel size	Stride
						Input	28	28	1	-	-
Convolution	28	28	32	5	1
						ReLU	28	28	32	-	-
MaxPooling	14	14	32	2	2
						Convolution	14	14	32	5	1
ReLU	14	14	32	-	-
						MaxPooling	7	7	32	2	2
Flatten	1	1	1568	-	-
						FullyConnected	1	1	256	-	-
ReLU	1	1	256	-	-
						FullyConnected	1	1	2	-	-

5)训练基于深度增强学习的不平衡分类模型，具体算法流程如图4所示，具有如下特征：

①使用的深度增强学习模型是Double-DQN模型；

②在模型的训练中，使用线性模拟退火策略，在智能体与环境交互的100000次内，探索的概率ε从1.0均匀衰减至0.1；即时回报的折扣率γ＝0.99；模型训练使用Adam优化器，学习率为0.00025，损失函数为均方误差；对于不平衡二分类问题，训练过程中周期性使用验证数据集监控正负类样本的召回率，当正负两类召回率接近相等时，终止训练，保存模型。在测试阶段，对测试集的G-mean指标的值为0.966。

以不平衡十分类为例，使用预处理的Fashion-MNIST数据集对本发明上述方法进行具体说明。对于原始Fashion-MNIST数据集，设定数字“0”、“1”为少数类样本，“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”为多数类样本，对2种少数类样本分别无放回地随机抽取其原始数量的25％，每个类别各1500张图片；其余数字为多数类，每个类别各6000张图片。少数类和多数类的实例图片如图3所示。

1)数字“0”、“1”为少数类样本，为其设定较大的回报值，其余数字的图片为多数类样本，回报值较小；智能体连续决策，对每个训练样本分类并从中获取回报(奖励或惩罚)，智能体的目标就是从分类中获得最多的累计回报。

2)定义智能体的动作空间A＝{0,1,2,3,4,5,6,7,8,9}。

3)构建外部环境包括如下步骤：

3-2)设置外部环境的回报函数。对于不平衡十分类问题，智能体对少数类样本分类正确时应获得更多的奖励；分类错误时，获得更多的惩罚。定义训练集中的多数类样本集为D_L，少数类样本集为D_S，λ＝1，回报函数如下式：

当智能体对少类样本(数字“0”、“1”的图片)错误分类或者完成对所有样本的分类时，终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务，否则，环境当前状态转移至下一个状态，即向智能体展示下一个样本x_t+1。

4)构建的卷积神经网络模型参数如表2所示。

表2卷积神经网络参数设置(十分类)

Layer	Width	Height	Depth	Kernel size	Stride
						Input	28	28	1	-	-
Convolution	28	28	32	5	1
						ReLU	28	28	32	-	-
MaxPooling	14	14	32	2	2
						Convolution	14	14	32	5	1
ReLU	14	14	32	-	-
						MaxPooling	7	7	32	2	2
Flatten	1	1	1568	-	-
						FullyConnected	1	1	256	-	-
ReLU	1	1	256	-	-
						FullyConnected	1	1	10	-	-

①使用的深度增强学习模型是Double-DQN模型；

②在模型的训练中，使用线性模拟退火策略，在智能体与环境交互的100000次内，探索的概率ε从1.0均匀衰减至0.1；即时回报的折扣率γ＝0.99；模型训练使用Adam优化器，学习率为0.00025，损失函数为均方误差；对于不平衡二分类问题，训练过程中周期性使用验证数据集监控正负类样本的召回率，当正负两类召回率接近相等时，终止训练，保存模型。在测试阶段，对测试集的准确率指标的值为91.5％。

本发明的算法模型使用Python3.5编写，基于深度学习框架Tensorflow和Keras，实验运行的GPU型号为2块NVIDIAGeForce GTX 1080Ti，一共22GB显存。

其它数据的不平衡分类方法类似此方法。

综上所述，本发明利用深度增强学习在策略学习上的优势对不平衡分类问题建模，通过回报函数和交互规则使模型优先关注少数类样本，始终保证对少数类样本的召回率。本发明提出的方法模型在不平衡二分类和多分类问题中均适用，在不同类型的数据环境和不同不平衡程度的数据环境中都能有优秀的分类表现，是一个具有较强鲁棒性的通用模型。因而本发明具有实际应用价值，值得推广。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度增强学习的不平衡分类方法，其特征在于，包括以下步骤：

1)构建智能体的分类任务与交互规则；

2)构建智能体的动作空间；

3)构建外部环境；

4)构建深度神经网络模型；

2.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤1)中，构建的分类任务为：智能体依次对环境中的每一个训练样本分类，当分类正确时，智能体从环境获得正回报值，否则智能体获得负回报值；智能体的目标就是在分类任务中获得最多的累计回报；

3.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤2)中，智能体的动作空间与训练数据的类别对应，对于不平衡N＝2分类问题，定义智能体的动作空间A＝{0,1}，0和1分别代表样本的标签，在t时刻，智能体对每一个样本分类，输出动作a_t，a_t∈A。

4.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤3)中，构建外部环境包括如下步骤：

3-1)构建环境的状态空间

3-2)设置外部环境的回报函数

其中，a_t为在t时刻，智能体对每一个样本分类的输出动作；

3-3)构建外部环境的状态转移规则

5.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤4)中，根据不同的数据环境构建不同的神经网络模型，对于文本数据，使用带有Embedding层的深度神经网络模型；对于图片数据，使用带有卷积层和池化层的深度神经网络模型。

6.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法，其特征在于，在步骤5)中，训练基于深度增强学习的不平衡分类模型，具有如下特征：

①基于价值函数的深度增强学习算法模型；