CN108985342A - 一种基于深度增强学习的不平衡分类方法 - Google Patents

一种基于深度增强学习的不平衡分类方法 Download PDF

Info

Publication number
CN108985342A
CN108985342A CN201810652374.XA CN201810652374A CN108985342A CN 108985342 A CN108985342 A CN 108985342A CN 201810652374 A CN201810652374 A CN 201810652374A CN 108985342 A CN108985342 A CN 108985342A
Authority
CN
China
Prior art keywords
classification
intelligent body
uneven
sample
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810652374.XA
Other languages
English (en)
Inventor
陈琼
戚潇明
林恩禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810652374.XA priority Critical patent/CN108985342A/zh
Publication of CN108985342A publication Critical patent/CN108985342A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度增强学习的不平衡分类方法,包括步骤:1)构建智能体的分类任务与交互规则;2)构建智能体的动作空间;3)构建外部环境;4)构建深度神经网络模型;5)训练基于深度增强学习的不平衡分类模型,即用深度神经网络模型学习Q函数。本发明将深度增强学习用于有监督学习中的不平衡分类问题,通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用,使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略,在不平衡二分类和多分类问题中均适用,因而本发明具有实际应用价值,值得推广。

Description

一种基于深度增强学习的不平衡分类方法
技术领域
本发明涉及机器学习中的深度学习、增强学习、不平衡分类的技术领域,尤其是指一种基于深度增强学习的不平衡分类方法。
背景技术
对于不平衡分类问题,通常的解决思路是从数据层和算法层的角度去改善。但是数据层的改善方法会改变训练数据的原始分布特征,重采样后的数据往往不能反映真实数据的分布特征。比如上采样方法对少数类样本的简单复制或者插值生成新样本会导致训练模型对少数类样本过拟合,而下采样方法则会因为对多数类样本的删除而导致数据信息丢失。算法层的方法也存在问题,基于集成学习的方法通常需要训练多个基分类器,训练代价相对较高,而基于代价敏感的学习方式,很难为不同的类别定义准确的惩罚代价。
现实生活中数据分布不平衡的问题客观存在,当少数类样本的总体特征空间无法估计时,数据层和算法层的改进方法都有局限性,很难找到一个通用的方法解决不平衡分类问题。
增强学习不仅具有对已知环境的学习能力,重要的是对未知环境的具有探索能力。将增强学习用于解决不平衡分类问题,其探索学习的能力可以使智能体利用已学会的分类策略评估未知的样本特征,使智能体在不同类型的数据环境和不同不平衡程度的数据环境中学会正确的分类策略。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种行之有效、科学合理的基于深度增强学习的不平衡分类方法,将深度增强学习用以解决有监督学习中的不平衡分类问题,通过回报函数对少数类样本分类动作给予更高的奖惩值来提高少数类样本特征在分类建模中的作用,使智能体在不同类型的数据环境和不同不平衡程度的数据中学会正确的分类策略。本发明提出的方法模型在不平衡二分类和多分类问题中均适用,是一个具有较强鲁棒性的通用模型。
为实现上述目的,本发明所提供的技术方案为:一种基于深度增强学习的不平衡分类方法,包括以下步骤:
1)构建智能体的分类任务与交互规则;
2)构建智能体的动作空间;
3)构建外部环境;
4)构建深度神经网络模型;
5)训练基于深度增强学习的不平衡分类模型,即用深度神经网络模型学习Q函数。
在步骤1)中,构建的分类任务为:智能体依次对环境中的每一个训练样本分类,当分类正确时,智能体从环境获得正回报值,否则智能体获得负回报值;智能体的目标就是在分类任务中获得最多的累计回报;
在不平衡分类任务中,为引导智能体学会对不平衡数据分类的策略,制定智能体与环境的交互规则:如果智能体对少数类样本分类正确,环境给予高额的正回报值以奖励;一旦分类错误,则终止当前分类任务,同时环境给予高额的负回报值以惩罚;如果智能体对多数类样本分类正确,环境给予低额的正回报值以奖励;如果分类错误,环境给予低额的负回报值以惩罚。
在步骤2)中,智能体的动作空间与训练数据的类别对应,对于不平衡N=2分类问题,定义智能体的动作空间A={0,1},0和1分别代表样本的标签,在t时刻,智能体对每一个样本分类,输出动作at,at∈A。
在步骤3)中,构建外部环境包括如下步骤:
3-1)构建环境的状态空间
使用训练数据集D={<xi,yi>|i=1,2,3...}构建外部环境,定义状态空间S为整个训练集的样本空间,并且每个时刻的环境状态st唯一对应训练集D的一个样本xi
3-2)设置外部环境的回报函数
对于不平衡N=2分类问题,智能体对少数类样本分类正确时能够获得更多的奖励;分类错误时,获得更多的惩罚;定义训练集中的多数类样本集为DL,少数类样本集为DS,训练集样本不平衡的比例为回报函数如下式:
其中,at为在t时刻,智能体对每一个样本分类的输出动作;
对于不平衡N>2分类问题,定义标签为k的训练样本集为Dk,|Dk|为标签为k的训练样本数量,定义类别k的不平衡比例为回报函数如下式:
在rt的表达式中,xt和yt是t时刻环境向智能体展示的样本及其标签,λ是常数系数,通常取“1”,当然,也能够根据需要调整其取值;
3-3)构建外部环境的状态转移规则
每当新的一轮分类任务开始时,环境将训练集的所有样本打乱,于每个时刻向智能体展示一个待分类的训练样本xt;当环境接收到智能体的分类动作时,通过回报函数评价智能体的分类动作的价值,给予智能体即时回报rt并决定是否状态转移;
对于不平衡N=2分类问题,样本数量少的类为少数类,另一类为多数类;对于不平衡N>2分类问题,定义数量最少的m个类为少数类,其余类为多数类;当智能体对少类样本错误分类或者完成对所有样本的分类时,终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务,否则,环境当前状态转移至下一个状态,即向智能体展示下一个样本xt+1
在步骤4)中,根据不同的数据环境构建不同的神经网络模型,对于文本数据,使用带有Embedding层的深度神经网络模型;对于图片数据,使用带有卷积层和池化层的深度神经网络模型。
在步骤5)中,训练基于深度增强学习的不平衡分类模型,具有如下特征:
①基于价值函数的深度增强学习算法模型;
②在训练模型的过程中,使用验证数据集对模型进行周期性测试,保存最佳分类模型,对于不平衡N=2分类问题,训练过程中周期性使用验证数据集监控正负类样本的召回率,当正负两类召回率接近相等时,终止训练,保存模型。
本发明与现有技术相比,具有如下优点与有益效果:
1、相比基于重采样的不平衡分类方法,本发明不依赖原始训练数据的分布;相比于集成学习的不平衡分类方法,本发明是一个端到端的高效方法。
2、本发明设计的方法模型是能应用在不同类型数据上的通用模型,对于不同类型的数据使用合适的深度网络模型即可进行不平衡分类策略的学习。
3、本发明设计的回报函数对不同不平衡程度的数据有很强的适应性,在数据分布极度不平衡和少数类样本特征逐渐复杂的情况下,也有很好的分类效果。
4、本发明设计的方法模型可以较好地识别少数类样本,训练过程中,始终保证对少数类样本有较高的召回率。
5、本发明设计的方法可通过调整回报函数对多数类样本和少数类样本分类动作的奖惩值来调整模型对多数类和少数类样本的重视程度,以一种灵活可控的方式完成不平衡分类任务。当数据分布极度不平衡时,可通过适当提高对多数类样本的奖惩值(提高λ的值),提升模型性能。
6、对于基于深度增强学习的不平衡二分类模型,本发明在训练模型时,使用验证集数据中多数类、少数类样本的召回率评估智能体的性能,较好地追踪模型真实性能的变化,训练出的模型的更加可靠。
附图说明
图1为本发明方法的流程框架图。
图2为本发明的实施例的二分类输入数据的实例图。
图3为本发明的实施例的十分类输入数据的实例图。
图4为本发明训练基于深度增强学习的不平衡分类模型的算法流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于深度增强学习的不平衡分类方法,包括以下步骤:
1)构建智能体的分类任务与交互规则
构建的分类任务为:智能体依次对环境中的每一个训练样本分类,当分类正确时,智能体从环境获得正回报值,否则智能体获得负回报值;智能体的目标就是在分类任务中获得最多的累计回报;
在不平衡分类任务中,为引导智能体学会对不平衡数据分类的策略,制定智能体与环境的交互规则:如果智能体对少数类样本分类正确,环境给予高额的正回报值以奖励;一旦分类错误,则终止当前分类任务,同时环境给予高额的负回报值以惩罚;如果智能体对多数类样本分类正确,环境给予低额的正回报值以奖励;如果分类错误,环境给予低额的负回报值以惩罚。
2)构建智能体的动作空间
智能体的动作空间与训练数据的类别对应,对于不平衡N=2分类问题,定义智能体的动作空间A={0,1},0和1分别代表样本的标签,在t时刻,智能体对每一个样本分类,输出动作at,at∈A。
3)构建外部环境,包括如下步骤:
3-1)构建环境的状态空间
使用训练数据集D={<xi,yi>|i=1,2,3...}构建外部环境,定义状态空间S为整个训练集的样本空间,并且每个时刻的环境状态st唯一对应训练集D的一个样本xi
3-2)设置外部环境的回报函数
对于不平衡N=2分类问题,智能体对少数类样本分类正确时能够获得更多的奖励;分类错误时,获得更多的惩罚;定义训练集中的多数类样本集为DL,少数类样本集为DS,训练集样本不平衡的比例为回报函数如下式:
其中,at为在t时刻,智能体对每一个样本分类的输出动作;
对于不平衡N>2分类问题,定义标签为k的训练样本集为Dk,|Dk|为标签为k的训练样本数量,定义类别k的不平衡比例为回报函数如下式:
在rt的表达式中,xt和yt是t时刻环境向智能体展示的样本及其标签,λ是常数系数,通常取“1”,当然,也能够根据需要调整其取值;
3-3)构建外部环境的状态转移规则
每当新的一轮分类任务开始时,环境将训练集的所有样本打乱,于每个时刻向智能体展示一个待分类的训练样本xt;当环境接收到智能体的分类动作时,通过回报函数评价智能体的分类动作的价值,给予智能体即时回报rt并决定是否状态转移;
对于不平衡N=2分类问题,样本数量少的类为少数类,另一类为多数类;对于不平衡N>2分类问题,定义数量最少的m个类为少数类,其余类为多数类;当智能体对少类样本错误分类或者完成对所有样本的分类时,终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务,否则,环境当前状态转移至下一个状态,即向智能体展示下一个样本xt+1
4)构建深度神经网络模型
根据不同的数据环境构建不同的神经网络模型,对于文本数据,使用带有Embedding层的深度神经网络模型;对于图片数据,使用带有卷积层和池化层的深度神经网络模型。
5)训练基于深度增强学习的不平衡分类模型,具有如下特征:
①基于价值函数的深度增强学习算法模型;
②在训练模型的过程中,使用验证数据集对模型进行周期性测试,保存最佳分类模型,对于不平衡N=2分类问题,训练过程中周期性使用验证数据集监控正负类样本的召回率,当正负两类召回率接近相等时,终止训练,保存模型。
以不平衡二分类为例,使用预处理的MNIST数据集对本发明上述方法进行具体说明。对于原始MNIST数据集,设定数字“2”为少数类样本,无放回地随机抽取60张图片,记为正类;其余数字为多数类,一共54000张图片,记为负类;正类和负类的实例图片如图2所示。
在本实例中,所述的基于深度增强学习的不平衡分类方法,包括以下步骤:
1)数字为“2”的图片为少数类样本,为其设定较大的回报值,其余数字的图片为多数类样本,回报值较小;智能体连续决策,对每个训练样本分类并从中获取回报(奖励或惩罚),智能体的目标就是从分类中获得最多的累计回报。
在不平衡分类任务中,为引导智能体学会对不平衡数据分类的策略,如果智能体对少数类样本分类正确,环境给予较大正回报值以奖励;如果分类错误,则终止当前分类任务,同时环境给予较大负回报值以惩罚。如果智能体对多数类样本分类正确,环境给予较小的正回报值以奖励;如果分类错误,环境给予较小的负回报值以惩罚。
2)定义智能体的动作空间A={0,1},0和1分别代表正类和负类。
3)构建外部环境包括如下步骤:
3-1)构建环境的状态空间。使用训练数据集D={<xi,yi>|i=1,2,3...}构建外部环境,定义状态空间S为整个训练集的样本空间,并且每个时刻的环境状态st唯一对应训练集D的一个样本xi
3-2)设置外部环境的回报函数。对于不平衡二分类问题,智能体对少数类样本分类正确时应获得更多的奖励;分类错误时,获得更多的惩罚。定义训练集中的多数类样本集为DL,少数类样本集为DS,训练集样本不平衡的比例为ρ=1/900,λ=1,回报函数如下式:
3-3)构建外部环境的状态转移规则。每当新的一轮分类任务开始时,环境将训练集的所有样本打乱,于每个时刻向智能体展示一个待分类的训练样本xt;当环境接收到智能体的分类动作时,通过回报函数评价智能体的分类动作的价值,给予智能体即时回报rt并决定是否状态转移。
当智能体对少类样本(数字“2”的图片)错误分类或者完成对所有样本的分类时,终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务,否则,环境当前状态转移至下一个状态,即向智能体展示下一个样本xt+1
4)构建的卷积神经网络模型参数如表1所示。
表1卷积神经网络参数设置(二分类)
Layer Width Height Depth Kernel size Stride
Input 28 28 1 - -
Convolution 28 28 32 5 1
ReLU 28 28 32 - -
MaxPooling 14 14 32 2 2
Convolution 14 14 32 5 1
ReLU 14 14 32 - -
MaxPooling 7 7 32 2 2
Flatten 1 1 1568 - -
FullyConnected 1 1 256 - -
ReLU 1 1 256 - -
FullyConnected 1 1 2 - -
5)训练基于深度增强学习的不平衡分类模型,具体算法流程如图4所示,具有如下特征:
①使用的深度增强学习模型是Double-DQN模型;
②在模型的训练中,使用线性模拟退火策略,在智能体与环境交互的100000次内,探索的概率ε从1.0均匀衰减至0.1;即时回报的折扣率γ=0.99;模型训练使用Adam优化器,学习率为0.00025,损失函数为均方误差;对于不平衡二分类问题,训练过程中周期性使用验证数据集监控正负类样本的召回率,当正负两类召回率接近相等时,终止训练,保存模型。在测试阶段,对测试集的G-mean指标的值为0.966。
以不平衡十分类为例,使用预处理的Fashion-MNIST数据集对本发明上述方法进行具体说明。对于原始Fashion-MNIST数据集,设定数字“0”、“1”为少数类样本,“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”为多数类样本,对2种少数类样本分别无放回地随机抽取其原始数量的25%,每个类别各1500张图片;其余数字为多数类,每个类别各6000张图片。少数类和多数类的实例图片如图3所示。
在本实例中,所述的基于深度增强学习的不平衡分类方法,包括以下步骤:
1)数字“0”、“1”为少数类样本,为其设定较大的回报值,其余数字的图片为多数类样本,回报值较小;智能体连续决策,对每个训练样本分类并从中获取回报(奖励或惩罚),智能体的目标就是从分类中获得最多的累计回报。
在不平衡分类任务中,为引导智能体学会对不平衡数据分类的策略,如果智能体对少数类样本分类正确,环境给予较大正回报值以奖励;如果分类错误,则终止当前分类任务,同时环境给予较大负回报值以惩罚。如果智能体对多数类样本分类正确,环境给予较小的正回报值以奖励;如果分类错误,环境给予较小的负回报值以惩罚。
2)定义智能体的动作空间A={0,1,2,3,4,5,6,7,8,9}。
3)构建外部环境包括如下步骤:
3-1)构建环境的状态空间。使用训练数据集D={<xi,yi>|i=1,2,3...}构建外部环境,定义状态空间S为整个训练集的样本空间,并且每个时刻的环境状态st唯一对应训练集D的一个样本xi
3-2)设置外部环境的回报函数。对于不平衡十分类问题,智能体对少数类样本分类正确时应获得更多的奖励;分类错误时,获得更多的惩罚。定义训练集中的多数类样本集为DL,少数类样本集为DS,λ=1,回报函数如下式:
3-3)构建外部环境的状态转移规则。每当新的一轮分类任务开始时,环境将训练集的所有样本打乱,于每个时刻向智能体展示一个待分类的训练样本xt;当环境接收到智能体的分类动作时,通过回报函数评价智能体的分类动作的价值,给予智能体即时回报rt并决定是否状态转移。
当智能体对少类样本(数字“0”、“1”的图片)错误分类或者完成对所有样本的分类时,终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务,否则,环境当前状态转移至下一个状态,即向智能体展示下一个样本xt+1
4)构建的卷积神经网络模型参数如表2所示。
表2卷积神经网络参数设置(十分类)
Layer Width Height Depth Kernel size Stride
Input 28 28 1 - -
Convolution 28 28 32 5 1
ReLU 28 28 32 - -
MaxPooling 14 14 32 2 2
Convolution 14 14 32 5 1
ReLU 14 14 32 - -
MaxPooling 7 7 32 2 2
Flatten 1 1 1568 - -
FullyConnected 1 1 256 - -
ReLU 1 1 256 - -
FullyConnected 1 1 10 - -
5)训练基于深度增强学习的不平衡分类模型,具体算法流程如图4所示,具有如下特征:
①使用的深度增强学习模型是Double-DQN模型;
②在模型的训练中,使用线性模拟退火策略,在智能体与环境交互的100000次内,探索的概率ε从1.0均匀衰减至0.1;即时回报的折扣率γ=0.99;模型训练使用Adam优化器,学习率为0.00025,损失函数为均方误差;对于不平衡二分类问题,训练过程中周期性使用验证数据集监控正负类样本的召回率,当正负两类召回率接近相等时,终止训练,保存模型。在测试阶段,对测试集的准确率指标的值为91.5%。
本发明的算法模型使用Python3.5编写,基于深度学习框架Tensorflow和Keras,实验运行的GPU型号为2块NVIDIAGeForce GTX 1080Ti,一共22GB显存。
其它数据的不平衡分类方法类似此方法。
综上所述,本发明利用深度增强学习在策略学习上的优势对不平衡分类问题建模,通过回报函数和交互规则使模型优先关注少数类样本,始终保证对少数类样本的召回率。本发明提出的方法模型在不平衡二分类和多分类问题中均适用,在不同类型的数据环境和不同不平衡程度的数据环境中都能有优秀的分类表现,是一个具有较强鲁棒性的通用模型。因而本发明具有实际应用价值,值得推广。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于深度增强学习的不平衡分类方法,其特征在于,包括以下步骤:
1)构建智能体的分类任务与交互规则;
2)构建智能体的动作空间;
3)构建外部环境;
4)构建深度神经网络模型;
5)训练基于深度增强学习的不平衡分类模型,即用深度神经网络模型学习Q函数。
2.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法,其特征在于,在步骤1)中,构建的分类任务为:智能体依次对环境中的每一个训练样本分类,当分类正确时,智能体从环境获得正回报值,否则智能体获得负回报值;智能体的目标就是在分类任务中获得最多的累计回报;
在不平衡分类任务中,为引导智能体学会对不平衡数据分类的策略,制定智能体与环境的交互规则:如果智能体对少数类样本分类正确,环境给予高额的正回报值以奖励;一旦分类错误,则终止当前分类任务,同时环境给予高额的负回报值以惩罚;如果智能体对多数类样本分类正确,环境给予低额的正回报值以奖励;如果分类错误,环境给予低额的负回报值以惩罚。
3.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法,其特征在于,在步骤2)中,智能体的动作空间与训练数据的类别对应,对于不平衡N=2分类问题,定义智能体的动作空间A={0,1},0和1分别代表样本的标签,在t时刻,智能体对每一个样本分类,输出动作at,at∈A。
4.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法,其特征在于,在步骤3)中,构建外部环境包括如下步骤:
3-1)构建环境的状态空间
使用训练数据集D={<xi,yi>|i=1,2,3...}构建外部环境,定义状态空间S为整个训练集的样本空间,并且每个时刻的环境状态st唯一对应训练集D的一个样本xi
3-2)设置外部环境的回报函数
对于不平衡N=2分类问题,智能体对少数类样本分类正确时能够获得更多的奖励;分类错误时,获得更多的惩罚;定义训练集中的多数类样本集为DL,少数类样本集为DS,训练集样本不平衡的比例为回报函数如下式:
其中,at为在t时刻,智能体对每一个样本分类的输出动作;
对于不平衡N>2分类问题,定义标签为k的训练样本集为Dk,|Dk|为标签为k的训练样本数量,定义类别k的不平衡比例为回报函数如下式:
在rt的表达式中,xt和yt是t时刻环境向智能体展示的样本及其标签,λ是常数系数,通常取“1”,当然,也能够根据需要调整其取值;
3-3)构建外部环境的状态转移规则
每当新的一轮分类任务开始时,环境将训练集的所有样本打乱,于每个时刻向智能体展示一个待分类的训练样本xt;当环境接收到智能体的分类动作时,通过回报函数评价智能体的分类动作的价值,给予智能体即时回报rt并决定是否状态转移;
对于不平衡N=2分类问题,样本数量少的类为少数类,另一类为多数类;对于不平衡N>2分类问题,定义数量最少的m个类为少数类,其余类为多数类;当智能体对少类样本错误分类或者完成对所有样本的分类时,终止当前分类任务、环境停止状态转移、重置智能体的累计回报并开始新一轮分类任务,否则,环境当前状态转移至下一个状态,即向智能体展示下一个样本xt+1
5.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法,其特征在于,在步骤4)中,根据不同的数据环境构建不同的神经网络模型,对于文本数据,使用带有Embedding层的深度神经网络模型;对于图片数据,使用带有卷积层和池化层的深度神经网络模型。
6.根据权利要求1所述的一种基于深度增强学习的不平衡分类方法,其特征在于,在步骤5)中,训练基于深度增强学习的不平衡分类模型,具有如下特征:
①基于价值函数的深度增强学习算法模型;
②在训练模型的过程中,使用验证数据集对模型进行周期性测试,保存最佳分类模型,对于不平衡N=2分类问题,训练过程中周期性使用验证数据集监控正负类样本的召回率,当正负两类召回率接近相等时,终止训练,保存模型。
CN201810652374.XA 2018-06-22 2018-06-22 一种基于深度增强学习的不平衡分类方法 Pending CN108985342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810652374.XA CN108985342A (zh) 2018-06-22 2018-06-22 一种基于深度增强学习的不平衡分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810652374.XA CN108985342A (zh) 2018-06-22 2018-06-22 一种基于深度增强学习的不平衡分类方法

Publications (1)

Publication Number Publication Date
CN108985342A true CN108985342A (zh) 2018-12-11

Family

ID=64538167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810652374.XA Pending CN108985342A (zh) 2018-06-22 2018-06-22 一种基于深度增强学习的不平衡分类方法

Country Status (1)

Country Link
CN (1) CN108985342A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949827A (zh) * 2019-03-15 2019-06-28 上海师范大学 一种基于深度学习与强化学习的室内声学行为识别方法
CN110019822A (zh) * 2019-04-16 2019-07-16 中国科学技术大学 一种少样本关系分类方法及系统
CN110133146A (zh) * 2019-05-28 2019-08-16 国网上海市电力公司 一种考虑不平衡数据样本的变压器故障诊断方法及系统
CN110427633A (zh) * 2019-05-05 2019-11-08 东南大学 一种基于深度强化学习的水泥搅拌桩质量评估方法
CN110781942A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种半监督分类方法及系统
CN112633319A (zh) * 2020-11-23 2021-04-09 贵州大学 一种不完备数据集中平衡输入数据类别多目标检测方法
CN112733963A (zh) * 2021-02-01 2021-04-30 中国人民解放军海军航空大学航空作战勤务学院 一种通用图像目标分类方法及系统
CN113255831A (zh) * 2021-06-23 2021-08-13 长沙海信智能系统研究院有限公司 样本处理方法、装置、设备及计算机存储介质
CN113268143A (zh) * 2020-09-29 2021-08-17 中国人民解放军军事科学院国防科技创新研究院 一种基于强化学习的多模态人机交互方法
CN115455177A (zh) * 2022-08-02 2022-12-09 淮阴工学院 基于混合样本空间的不平衡化工文本数据增强方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949827A (zh) * 2019-03-15 2019-06-28 上海师范大学 一种基于深度学习与强化学习的室内声学行为识别方法
CN110019822B (zh) * 2019-04-16 2021-07-06 中国科学技术大学 一种少样本关系分类方法及系统
CN110019822A (zh) * 2019-04-16 2019-07-16 中国科学技术大学 一种少样本关系分类方法及系统
CN110427633A (zh) * 2019-05-05 2019-11-08 东南大学 一种基于深度强化学习的水泥搅拌桩质量评估方法
CN110133146A (zh) * 2019-05-28 2019-08-16 国网上海市电力公司 一种考虑不平衡数据样本的变压器故障诊断方法及系统
CN110781942A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种半监督分类方法及系统
CN110781942B (zh) * 2019-10-18 2021-03-09 中国科学技术大学 一种半监督图像分类方法及系统
CN113268143A (zh) * 2020-09-29 2021-08-17 中国人民解放军军事科学院国防科技创新研究院 一种基于强化学习的多模态人机交互方法
CN112633319A (zh) * 2020-11-23 2021-04-09 贵州大学 一种不完备数据集中平衡输入数据类别多目标检测方法
CN112633319B (zh) * 2020-11-23 2022-11-22 贵州大学 一种不完备数据集中平衡输入数据类别多目标检测方法
CN112733963A (zh) * 2021-02-01 2021-04-30 中国人民解放军海军航空大学航空作战勤务学院 一种通用图像目标分类方法及系统
CN112733963B (zh) * 2021-02-01 2023-02-21 中国人民解放军海军航空大学航空作战勤务学院 一种通用图像目标分类方法及系统
CN113255831A (zh) * 2021-06-23 2021-08-13 长沙海信智能系统研究院有限公司 样本处理方法、装置、设备及计算机存储介质
CN115455177A (zh) * 2022-08-02 2022-12-09 淮阴工学院 基于混合样本空间的不平衡化工文本数据增强方法及装置
CN115455177B (zh) * 2022-08-02 2023-07-21 淮阴工学院 基于混合样本空间的不平衡化工文本数据增强方法及装置

Similar Documents

Publication Publication Date Title
CN108985342A (zh) 一种基于深度增强学习的不平衡分类方法
Jang et al. Learning what and where to transfer
Zeng et al. Deep-reinforcement-learning-based images segmentation for quantitative analysis of gold immunochromatographic strip
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
CN110363282B (zh) 一种基于图卷积网络的网络节点标签主动学习方法和系统
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
Tsai et al. Evolutionary instance selection for text classification
Barman et al. Transfer learning for small dataset
CN113128620B (zh) 一种基于层次关系的半监督领域自适应图片分类方法
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN113689234B (zh) 一种基于深度学习的平台相关的广告点击率预测方法
CN114529819A (zh) 一种基于知识蒸馏学习的生活垃圾图像识别方法
CN111950630A (zh) 基于两阶段迁移学习的小样本工业产品缺陷分类方法
CN112819063B (zh) 一种基于改进的Focal损失函数的图像识别方法
CN106980831A (zh) 基于自编码器的自亲缘关系识别方法
CN112115993A (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN111242131B (zh) 一种智能阅卷中图像识别的方法、存储介质及装置
CN109543749A (zh) 基于深度学习的绘画情感分析方法
CN115439715A (zh) 基于反标签学习的半监督少样本图像分类学习方法及系统
Liu et al. A GreyART system for grey information processing
Zeng [Retracted] Analysis of Learning Ability of Ideological and Political Course Based on BP Neural Network and Improved k‐Means Cluster Algorithm
CN116630718A (zh) 一种基于原型的低扰动的图像类增量学习算法
CN116189130A (zh) 基于图像标注模型的车道线分割方法及装置
CN116071719A (zh) 基于模型动态修正的车道线语义分割方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication