CN112508116A - 分类器生成方法、装置、存储介质及电子设备 - Google Patents
分类器生成方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112508116A CN112508116A CN202011482638.5A CN202011482638A CN112508116A CN 112508116 A CN112508116 A CN 112508116A CN 202011482638 A CN202011482638 A CN 202011482638A CN 112508116 A CN112508116 A CN 112508116A
- Authority
- CN
- China
- Prior art keywords
- nth
- classifier
- data
- integrated
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000005070 sampling Methods 0.000 claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 90
- 238000012795 verification Methods 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 31
- 238000010200 validation analysis Methods 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 10
- 238000010276 construction Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种分类器生成方法、装置、存储介质及电子设备,属于计算机技术领域。所述分类器生成方法包括:获取第n个集成分类器和第n个数据子集,通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,基于所述第n个采样权重生成第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器。故本申请通过构造元采样器,能自动从数据中学习对给定任务提供最优的采样策略,有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种分类器生成方法、装置、存储介质及电子设备。
背景技术
传统的机器学习方法通常假设不同的类别的训练数据量是相同的,并不考虑不同类别样本数量以及标识质量的差异。然而在机器学习系统的实际应用中,所收集到的训练数据经常是类别不平衡的,即在一个数据集中,不同类别样本的数量差异很大,导致表示的质量有很大差别。例如金融欺诈检测(正常账单/欺诈账单),网络入侵检测(正常用户连接/恶意连接),医疗辅助诊断(正常人/患者)等任务中,正负类的样本数量都有很大的差别,其数量差异从几十倍到上千倍不等。由于忽视了类别分布的先验信息,传统机器学习模型在不平衡的数据上难以学习到少数类的模式,甚至会将所有未见数据全部预测为多数类。现有的不平衡学习方法,例如:通过添加或删除数据集中的样本来平衡数据分布或去除噪声的重采样方法,通过给不同的样本分配不同的权重或重要性来修正偏差的重加权方法,以及将重采样或重加权方法嵌入到集成学习框架中的集成学习类方法。这些方法通常基于一些直觉上的观察和假设,而在实际中这些假设一般是不成立的,导致在实际应用中的性能、计算效率、适用性都不尽如人意。因此如何让计算机自动从数据中学习超越手工设计的策略,从而提升机器学习系统在类别不平衡数据上的稳定表现是目前亟待解决的问题。
发明内容
本申请实施例提供了一种分类器生成方法、装置、存储介质及电子设备,通过构造参数化、自适应和可学习的元采样器,能有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。所述技术方案如下:
第一方面,本申请实施例提供了一种分类器生成方法,包括:
获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
基于所述第n个采样权重生成第n+1个数据子集;
将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
在n+1小于或等于阈值时,继续进行迭代。
第二方面,本申请实施例提供了一种分类器生成装置,所述装置包括:
获取模块,用于获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
第一处理模块,用于通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
第二处理模块,用于通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
生成模块,用于基于所述第n个采样权重生成第n+1个数据子集;
组合模块,用于将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
判断模块,用于在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
迭代模块,用于在n+1小于或等于阈值时,继续进行迭代。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
上述分类器生成方法、装置、存储介质及电子设备工作时,获取第n个集成分类器和第n个数据子集,通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,基于所述第n个采样权重生成第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。本申请实施例通过构造参数化、自适应和可学习的元采样器,能够自动地从数据中学习对给定任务提供最优的采样策略,然后有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种元采样器结构示意图;
图2是本申请实施例提供的一种分类器生成方法的流程示意图;
图3是本申请实施例提供的一种分类器生成方法的另一流程示意图;
图4是本申请实施例提供的一种分类器生成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
下面的描述设计附图时,除非另有表示,不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
为了解决上述提到的现有技术的采样方法设计通常基于一些直觉上的观察和假设,而在实际中这些假设经常不成立,导致其可能丢弃含有重要信息的样本(随机欠采样)或者引入无意义的甚至有害的新样本(随机过采样)导致过拟合训练集,以及对噪声敏感、性能不稳定、需要良好定义的距离度量以及较高的计算代价的问题,特提出了一种跨进程通信方法,本申请实施例方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系且安装有摄像头或可旋转摄像头的计算机系统上。该计算机系统可以是智能手机、笔记本电脑、平板电脑等设备的计算机系统。
在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为计算机进行介绍说明。
下面将结合附图2至图3,对本申请实施例提供的分类器生成方法进行详细介绍。
请参见图1,为本申请实施例提供的一种元采样器结构示意图。如图1所述,所述元采样器(Meta-sampler)分为输入(Input)、输入层(Input Layer)、隐藏层(Hidden Layer)和输出(Output),输入层神经元与输入数据元状态(Meta-state)的维度相等,例如:所述元状态为十维向量[7,4,3,1,2,6,5,3,2,4],则输入层维度为10。隐藏层有50个神经元,输出为实数μ的神经网络模型,其中,元采样器用表示,元状态ED表示误差特征,可以将所述元状态用直方图来表示,能更直观表示拟合程度。
请参见图2,为本申请实施例提供了一种分类器生成方法的流程示意图。所述方法可以包括以下步骤:
S201、获取第n个集成分类器和第n个数据子集。
一般的,集成分类器是指通过集成学习法将相互之间具有独立决策能力的基分类器联合起来的的组合分类器,事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力要好,数据子集是指总数据集中的单个子集,n为大于0的整数。例如:计算机将训练好的第10个基分类器与第9个集成分类器进行组合,得到第10个集成分类器,其中,该集成分类器有10个基分类器。计算机在总数据集(十万个数据)中进行欠采样得到第10个数据子集(一万个数据)。
S202、通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数。
一般的,所述第n个数据子集包括第n个训练集和第n个验证集,计算机为了构建通用的采样器,需要找到一种与任务和模型无关的表示,该表示可以为元采样器提供集成训练过程的信息,因此本申请引入了训练误差和验证误差的直方图分布作为整体训练系统的元状态(Meta-State)。计算机获取第n个集成分类器和第n个数据子集后,根据如下公式计算训练误差特征分量:
其中,表示所述训练误差特征的第i个分量,b为预设参数,(x,y)表示一个数据实例,Ft表示第t个集成分类器,t为大于0的整数,D为数据集,|·|运算符表示范数运算,abs()表示取绝对值,根据所有的训练误差特征分量确定所述训练误差特征。然后计算机再通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征,最后根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数。
S203、通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重。
一般的,计算机得到第n个元状态参数后,通过元采样器对所述第n个元状态参数进行计算得到采样参数μ,其中,所述采样参数μ大于等于0小于等于1,将所述采样参数作为高斯函数的期望值确定一维高斯函数,基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重。计算机同时也可以对元采样器进行参数更新,包括:获取所述数据集中的验证集,通过性能评价函数计算所述第n个集成分类器与所述验证集的第一评价系数,通过性能评价函数计算所述第n+1个集成分类器与所述验证集的第二评价系数,计算所述第一评价系数与所述第二评价系数的差值得到泛化性能系数,基于所述泛化性能系数对所述元采样器进行参数更新,所述对所述元采样器进行参数更新为使用强化学习Soft Actor-Critic算法。
S204、基于所述第n个采样权重生成第n+1个数据子集。
一般的,计算机得到第n个采样权重后,确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量,获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集。
S205、将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器。
一般的,基分类器是指任意机器学习模型,不一定是神经网络,可以是决策树、支持向量机等等,一般选择决策树作为基分类器。计算机生成第n+1个数据子集后,将所述第n+1个数据子集分为第n+1个训练集和第n+1个验证集,使用所述第n+1个训练集和所述第n+1个验证集对初始基分类器进行训练得到训练后的第n+1个基分类器,然后将所述第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,其中,所述组合方式采用串行组合形式。
S206、在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器。
一般的,计算机得到第n+1个集成分类器后,要进行判断是否需要继续迭代,通常设置一个超参数来进行判断,本申请实施例中是判断集成分类器中基分类器的个数即n+1是否大于阈值,例如:计算机得到第50个集成分类器,预设阈值为49,则可以确定大于阈值,则将所述第n+1个集成分类器作为目标集成分类器,所述目标集成分类器可以用来对新的数据进行处理,得到分类结果,比不同集成分类器效果更明显。
S207、在n+1小于或等于阈值时,继续进行迭代。
一般的,计算机得到第n+1个集成分类器后,判断出n+1小于或等于阈值时,则继续进行迭代。
由上述内容可知,获取第n个集成分类器和第n个数据子集,通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,基于所述第n个采样权重生成第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。本申请实施例通过构造参数化、自适应和可学习的元采样器,能够自动地从数据中学习对给定任务提供最优的采样策略,然后有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
请参见图3,为本申请实施例提供了一种分类器生成方法的另一流程示意图。该分类器生成方法可以包括以下步骤:
S301、获取第n个集成分类器和第n个数据子集。
一般的,集成分类器是指通过集成学习法将相互之间具有独立决策能力的基分类器联合起来的的组合分类器,事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力要好,数据子集是指总数据集中的单个子集,n为大于0的整数。例如:计算机将训练好的第10个基分类器与第9个集成分类器进行组合,得到第10个集成分类器,其中,该集成分类器有10个基分类器。计算机在总数据集(十万个数据)中进行欠采样得到第10个数据子集(一万个数据)。在一个实施例中当n等于1时,即第一次采集数据生成第1个数据子集,将各数据类型的采样权重设置为等同,即在总数据集中进行随机采样。
S302、根据公式计算训练误差特征分量,根据所有的训练误差特征分量确定所述训练误差特征。
一般的,训练误差特征分量是指对训练集进行训练时产生的误差分布。计算机根据如下公式计算训练误差特征分量:
其中,表示所述训练误差特征的第i个分量,b为预设参数,(x,y)表示一个数据实例,Ft表示第t个集成分类器,t为大于0的整数,D为数据集,|·|运算符表示范数运算,abs()表示取绝对值,根据所有的训练误差特征分量确定所述训练误差特征。为了构建通用的采样器,计算机需要找到一种与任务和模型无关的表示,该表示可以为元采样器提供集成训练过程的信息。为此,本申请实施例引入了训练和验证误差的直方图分布作为整体训练系统的元状态,形式上,给定一个数据实例(x,y)和一个集成分类器Ft(·),分类误差e定义为一个样本x的预测概率与其真实标签y之间的绝对差值,即假设数据集D的误差分布为ED,则直方图近似的误差分布由向量给出,这里预设参数b是直方图中的分桶数,例如:计算机得到所述训练误差特征分量为[1]、[2]、[3]、[4]、[5],则确定所述训练误差特征为[1,2,3,4,5]。
S303、通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征。
一般的,计算机确定所述训练误差特征之后,使用与上述同样的方法步骤通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征,例如:计算机得到所述验证误差特征分量为[9]、[8]、[7]、[6]、[5],则确定所述验证误差特征为[9,8,7,6,5]。
S304、根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数。
一般的,计算机得到验证误差特征后,根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数,可以根据公式来计算,例如:计算机确定所述训练误差特征为[1,2,3,4,5],确定所述验证误差特征为[9,8,7,6,5],则可以确定第25个元状态参数为[1,2,3,4,5,9,8,7,6,5]。直观来说,直方图误差分布反映了给定分类器与数据集D的拟合程度。当b=2时,中给出的是分类器的准确率(accuracy),则给出的是错误分类率(分类阈值为0.5)。在b>2的情况下,它以更精细的粒度显示“简单”样本(误差接近0)和“困难”样本(误差接近1)的分布,因此能够包含更多信息来指导重新采样过程。此外,由于本申请同时考虑了训练和验证集,因此元状态还能够为元采样器提供有关当前学习模型偏差/方差的信息,从而支持其决策。本申请统计训练误差、验证误差、模型误差、模型方差以及元状态的关系,可以发现元状态反映了当前分类器拟合训练集的程度以及其在未见验证数据上的泛化能力。这种表示独立于特定任务的属性(例如:数据集大小,特征空间),因此可以用于支持元采样器以跨不同任务执行自适应重采样。
S305、通过元采样器对所述第n个元状态参数进行计算得到采样参数μ,将所述采样参数作为高斯函数的期望值确定一维高斯函数。
一般的,为了对每条样本单独做出决策而使用复杂的元采样器(例如:设置较大的输出层或使用递归神经网络)非常耗时,元采样器参数单次更新的复杂度为O(|D|)。此外,复杂的模型架构还会带来额外的内存开销和优化难度。为了使元采样器更加简洁高效,本申请使用“高斯函数技巧”简化元采样过程和采样器本身,将复杂度从O(|D|)降低到了O(1)。令表示元采样器,它基于根据输入的元状态s,输出一个标量μ∈[0,1],即然后,本申请对每个实例的预测误差应用高斯函数gμ,σ(·)来决定其采样权重,其中gμ,σ(·)定义为:
其中e为欧拉常数,μ∈[0,1]为采样器的输出即采样参数,σ为超参数。
在一个实施例中,计算机同时也可以对元采样器进行参数更新,包括:获取所述数据集中的验证集,通过性能评价函数计算所述第n个集成分类器与所述验证集的第一评价系数,通过性能评价函数计算所述第n+1个集成分类器与所述验证集的第二评价系数,计算所述第一评价系数与所述第二评价系数的差值得到泛化性能系数,基于所述泛化性能系数对所述元采样器进行参数更新,所述对所述元采样器进行参数更新为使用强化学习SoftActor-Critic算法。本实施例希望元采样器可以直接从数据中学习最合适的采样策略(采样器参数)来优化集成模型最终的泛化性能。注意到在集成训练过程的每次迭代中,都发生了采样器与外部环境的一次互动(interaction),环境提供一个状态s,采样器根据当前状态采取一个动作μ,而后集成模型更新,获得一个新的状态st+1。本申请希望采样器能够从自身与集成训练过程的互动中学习,因此,元采样器训练这个不可微的优化问题可以自然地使用强化学习(reinforcement learning)来解决。
本实施例将集成训练系统看做强化学习中的环境(ENV),其对应的马尔科夫决策过程(MDP)由四元组(s、a、p、r)定义。其中S:R2b以及A:[0,1]分别为连续的状态空间以及动作空间,而p:S×S×A→[0,inf]为未知的状态转移概率,即给定当前状态st以及采取的行动at后,下一个状态st+1在状态空间上的概率分布。更具体地,在每轮强化学习的训练中,我们迭代地训练k个基学习器并形成最终的集成模型Fk(·)。在每个环境步中,ENV提供当前的状态st,元采样器根据st输出动作μ并进行重采样得到新的训练集D’t+1,该训练集被用来训练得到新的基学习器并加入集成模型完成一次更新。从而我们得到一个新的状态st+1。给定一个性能评价函数P(F,D)→R,奖励信号r被设置为一次更新前后,模型的泛化性能(使用测试集来做无偏估计)的差值,即rt=P(Ft+1,Dv)-P(Ft,Dv)。从而本申请元采样器的优化目标为最大化集成模型的最终泛化性能。
S306、基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重。
一般的,计算机确定一维高斯函数后,基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重,例如:计算机通过高斯函数计算得到A数据类型的采样权重为0.2,B数据类型的采样权重为0.3,C数据类型的采样权重为0.5。
S307、确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量。
一般的,计算机计算数据集中各数据类型的第n个采样权重后,确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量,例如:计算机得到A、B和C三种数据类型的采样权重分别为0.2、0.3和0.5,设置总数据集个数为10000,其中A数据类型的为3000,B数据类型的为3000,C数据类型的为4000,数据子集个数为1000,则确定A、B和C三种数据类型的采样数量分别为200、300和500。
S308、获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集。
一般的,计算机确定各数据类型的采样数量后,获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集,例如:A数据类型随机采样500个,B数据类型随机采样300个,C数据类型随机采样200个,将这些数据进行融合得到第18个数据子集。
S309、将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器。
一般的,基分类器是指任意机器学习模型,不一定是神经网络,可以是决策树、支持向量机等等,一般选择决策树作为基分类器。计算机生成第n+1个数据子集后,将所述第n+1个数据子集分为第n+1个训练集和第n+1个验证集,例如:将1000个第33个数据子集分为800的第33个训练集和200个第33个验证集,使用所述第n+1个训练集和所述第n+1个验证集对初始基分类器进行训练得到训练后的第n+1个基分类器,然后将所述第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,其中,所述组合方式采用串行组合形式。
S310、在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。
一般的,计算机得到第n+1个集成分类器后,要进行判断是否需要继续迭代,通常设置一个超参数来进行判断,本申请实施例中是判断集成分类器中基分类器的个数即n+1是否大于阈值,例如:计算机得到第50个集成分类器,预设阈值为49,则可以确定大于阈值,则将所述第n+1个集成分类器作为目标集成分类器,所述目标集成分类器可以用来对新的数据集进行处理,得到分类结果,比不同集成分类器效果更明显,所述元采样器用来对新数据集进行采样处理确定各数据类型的权重。计算机得到第n+1个集成分类器后,判断出n+1小于或等于阈值时,则继续进行迭代。
本申请实施例的方案在执行时,获取第n个集成分类器和第n个数据子集,根据公式计算训练误差特征分量,根据所有的训练误差特征分量确定所述训练误差特征,通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征,根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行计算得到采样参数μ,将所述采样参数作为高斯函数的期望值确定一维高斯函数,基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重,确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量,获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。本申请实施例通过构造参数化、自适应和可学习的元采样器,能够自动地从数据中学习对给定任务提供最优的采样策略,然后有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图4,其示出了本申请一个示例性实施例提供的分类器生成装置的结构示意图,以下简称生成装置4。生成装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。包括:
获取模块401,用于获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
第一处理模块402,用于通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
第二处理模块403,用于通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
生成模块404,用于基于所述第n个采样权重生成第n+1个数据子集;
组合模块405,用于将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
判断模块406,用于在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
迭代模块407,用于在n+1小于或等于阈值时,继续进行迭代。
可选地,所述第一处理模块402,还包括:
计算单元,用于通过所述第n个集成分类器对所述第n个训练集进行处理得到训练误差特征;通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征;根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数。
确定模块,用于根据如下公式计算训练误差特征分量:
其中,表示所述训练误差特征的第i个分量,b为预设参数,(x,y)表示一个数据实例,Ft表示第t个集成分类器,t为大于0的整数,D为数据集,|·|运算符表示范数运算,abs()表示取绝对值;根据所有的训练误差特征分量确定所述训练误差特征。
可选地,所述第二处理模块403,还包括:
计算单元,用于通过元采样器对所述第n个元状态参数进行计算得到采样参数μ;其中,所述采样参数μ大于等于0小于等于1;将所述采样参数作为高斯函数的期望值确定一维高斯函数;基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重。
更新单元,用于获取所述数据集中的验证集;通过性能评价函数计算所述第n个集成分类器与所述验证集的第一评价系数;通过性能评价函数计算所述第n+1个集成分类器与所述验证集的第二评价系数;计算所述第一评价系数与所述第二评价系数的差值得到泛化性能系数;基于所述泛化性能系数对所述元采样器进行参数更新。
可选地,所述生成模块404,还包括:
采样单元,用于确定数据集中各数据类型的第n个采样权重;基于所述各数据类型的第n个采样权重确定各数据类型的采样数量;获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集。
本申请实施例和图2至图3的方法实施例基于同一构思,其带来的技术效果也相同,具体过程可参照图2至图3的方法实施例的描述,此处不再赘述。
所述装置4可以为实现相关功能的现场可编程门阵列(field-programmable gatearray,FPGA),专用集成芯片,系统芯片(system on chip,SoC),中央处理器(centralprocessor unit,CPU),网络处理器(network processor,NP),数字信号处理电路,微控制器(micro controller unit,MCU),还可以采用可编程控制器(programmable logicdevice,PLD)或其他集成芯片。
本申请实施例的方案在执行时,获取第n个集成分类器和第n个数据子集,根据公式计算训练误差特征分量,根据所有的训练误差特征分量确定所述训练误差特征,通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征,根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行计算得到采样参数μ,将所述采样参数作为高斯函数的期望值确定一维高斯函数,基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重,确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量,获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。本申请实施例通过构造参数化、自适应和可学习的元采样器,能够自动地从数据中学习对给定任务提供最优的采样策略,然后有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图2或图3所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模板的控制方法。
请参见图5,为本申请实施例提供了一种电子设备的结构示意图。如图5所示,所述电子设备5可以包括:至少一个处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。
其中,通信总线502用于实现这些组件之间的连接通信。
其中,用户接口503可以包括显示屏(Display)、摄像头(Camera),可选用户接口503还可以包括标准的有线接口、无线接口。
其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个终端500内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行终端500的各种功能和处理数据。可选的,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器501中,单独通过一块芯片进行实现。
其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及分类器生成应用程序。
在图5所示的电子设备500中,用户接口503主要用于为用户提供输入的接口,获取用户输入的数据;而处理器501可以用于调用存储器505中存储的分类器生成应用程序,并具体执行以下操作:
获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
基于所述第n个采样权重生成第n+1个数据子集;
将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
在n+1小于或等于阈值时,继续进行迭代。
在一个实施例中,处理器501执行所述通过所述第n个集成分类器所述对第n个数据子集进行处理得到第n个元状态参数,包括:
通过所述第n个集成分类器对所述第n个训练集进行处理得到训练误差特征;
通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征;
根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数。
在一个实施例中,处理器501执行所述通过所述第n个集成分类器对所述第n个训练集进行处理得到训练误差特征,包括:
根据如下公式计算训练误差特征分量:
根据所有的训练误差特征分量确定所述训练误差特征。
在一个实施例中,处理器501执行所述通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,包括:
通过元采样器对所述第n个元状态参数进行计算得到采样参数μ;其中,所述采样参数μ大于等于0小于等于1;
将所述采样参数作为高斯函数的期望值确定一维高斯函数;
基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重。
在一个实施例中,处理器501执行所述基于所述第n个采样权重生成第n+1个数据子集,包括:
确定数据集中各数据类型的第n个采样权重;
基于所述各数据类型的第n个采样权重确定各数据类型的采样数量;
获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集。
在一个实施例中,处理器501执行所述对元采样器进行参数更新,包括:
获取所述数据集中的验证集;
通过性能评价函数计算所述第n个集成分类器与所述验证集的第一评价系数;
通过性能评价函数计算所述第n+1个集成分类器与所述验证集的第二评价系数;
计算所述第一评价系数与所述第二评价系数的差值得到泛化性能系数;
基于所述泛化性能系数对所述元采样器进行参数更新。
本申请实施例的技术构思和图2或图3的技术构思相同,具体过程可参照图2或图3的方法实施例,此处不再赘述。
在本申请实施例中,获取第n个集成分类器和第n个数据子集,根据公式计算训练误差特征分量,根据所有的训练误差特征分量确定所述训练误差特征,通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征,根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数,通过元采样器对所述第n个元状态参数进行计算得到采样参数μ,将所述采样参数作为高斯函数的期望值确定一维高斯函数,基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重,确定数据集中各数据类型的第n个采样权重,基于所述各数据类型的第n个采样权重确定各数据类型的采样数量,获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集,将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器,在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器,在n+1小于或等于阈值时,继续进行迭代。本申请实施例通过构造参数化、自适应和可学习的元采样器,能够自动地从数据中学习对给定任务提供最优的采样策略,然后有效提升集成学习模型的性能,解决类别不平衡数据上的机器学习效果差的问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种分类器生成方法,其特征在于,所述方法包括:
获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
基于所述第n个采样权重生成第n+1个数据子集;
将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
在n+1小于或等于阈值时,继续进行迭代。
2.根据权利要求1所述方法,其特征在于,所述通过所述第n个集成分类器所述对第n个数据子集进行处理得到第n个元状态参数,包括:
通过所述第n个集成分类器对所述第n个训练集进行处理得到训练误差特征;
通过所述第n个集成分类器对所述第n个验证集进行处理得到验证误差特征;
根据所述训练误差特征和所述验证误差特征计算得到第n个元状态参数。
4.根据权利要求1所述方法,其特征在于,所述通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重,包括:
通过元采样器对所述第n个元状态参数进行计算得到采样参数μ;其中,所述采样参数μ大于等于0小于等于1;
将所述采样参数作为高斯函数的期望值确定一维高斯函数;
基于所述一维高斯函数计算数据集中各数据类型的第n个采样权重。
5.根据权利要求1所述方法,其特征在于,所述基于所述第n个采样权重生成第n+1个数据子集,包括:
确定数据集中各数据类型的第n个采样权重;
基于所述各数据类型的第n个采样权重确定各数据类型的采样数量;
获取所述采样数量的各数据类型并进行组合得到第n+1个数据子集。
6.根据权利要求1所述方法,其特征在于,对元采样器进行参数更新,包括:
获取所述数据集中的验证集;
通过性能评价函数计算所述第n个集成分类器与所述验证集的第一评价系数;
通过性能评价函数计算所述第n+1个集成分类器与所述验证集的第二评价系数;
计算所述第一评价系数与所述第二评价系数的差值得到泛化性能系数;
基于所述泛化性能系数对所述元采样器进行参数更新。
7.根据权利要求6所述方法,其特征在于,所述对所述元采样器进行参数更新为使用强化学习Soft Actor-Critic算法。
8.一种分类器生成装置,其特征在于,包括:
获取模块,用于获取第n个集成分类器和第n个数据子集;其中,n为大于0的整数;
第一处理模块,用于通过所述第n个集成分类器对所述第n个数据子集进行处理得到第n个元状态参数;其中,所述第n个数据子集包括第n个训练集和第n个验证集;
第二处理模块,用于通过元采样器对所述第n个元状态参数进行处理得到第n个采样权重;
生成模块,用于基于所述第n个采样权重生成第n+1个数据子集;
组合模块,用于将训练后的第n+1个基分类器与所述第n个集成分类器进行组合得到第n+1个集成分类器;
判断模块,用于在n+1大于阈值时,将所述第n+1个集成分类器作为目标集成分类器;
迭代模块,用于在n+1小于或等于阈值时,继续进行迭代。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~67任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适用于由所述处理器加载并执行如权利要求1~6任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482638.5A CN112508116A (zh) | 2020-12-15 | 2020-12-15 | 分类器生成方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482638.5A CN112508116A (zh) | 2020-12-15 | 2020-12-15 | 分类器生成方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508116A true CN112508116A (zh) | 2021-03-16 |
Family
ID=74972315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482638.5A Pending CN112508116A (zh) | 2020-12-15 | 2020-12-15 | 分类器生成方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508116A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932713A (zh) * | 2023-06-30 | 2023-10-24 | 北京百度网讯科技有限公司 | 奖励模型训练和奖励值生成方法、装置、设备和介质 |
CN117118689A (zh) * | 2023-08-14 | 2023-11-24 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
-
2020
- 2020-12-15 CN CN202011482638.5A patent/CN112508116A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932713A (zh) * | 2023-06-30 | 2023-10-24 | 北京百度网讯科技有限公司 | 奖励模型训练和奖励值生成方法、装置、设备和介质 |
CN116932713B (zh) * | 2023-06-30 | 2024-05-24 | 北京百度网讯科技有限公司 | 奖励模型训练和奖励值生成方法、装置、设备和介质 |
CN117118689A (zh) * | 2023-08-14 | 2023-11-24 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
CN117118689B (zh) * | 2023-08-14 | 2024-05-17 | 广州科技贸易职业学院 | 一种不平衡数据物联网入侵检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
EP3416105A1 (en) | Information processing method and information processing device | |
WO2019062405A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN112508116A (zh) | 分类器生成方法、装置、存储介质及电子设备 | |
TW202226030A (zh) | 促進持續學習的方法及設備 | |
CN114861910B (zh) | 神经网络模型的压缩方法及装置、设备和介质 | |
CN110569870A (zh) | 基于多粒度标签融合的深度声学场景分类方法及系统 | |
CN115082740B (zh) | 目标检测模型训练方法、目标检测方法、装置、电子设备 | |
WO2021012263A1 (en) | Systems and methods for end-to-end deep reinforcement learning based coreference resolution | |
CN115511779B (zh) | 图像检测方法、装置、电子设备和存储介质 | |
CN114385869A (zh) | 检测数据异常的方法、装置、存储介质及计算机设备 | |
CN113032116A (zh) | 任务时间预测模型的训练方法、任务调度方法及相关装置 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
WO2019062404A1 (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
US20200074277A1 (en) | Fuzzy input for autoencoders | |
CN112463205B (zh) | 基于ai和大数据的应用程序管理方法及人工智能服务器 | |
CN114842476A (zh) | 水印检测方法及装置、模型训练方法及装置 | |
WO2020167156A1 (ru) | Способ отладки обученной рекуррентной нейронной сети | |
CN115618232A (zh) | 数据预测方法、装置、存储介质及电子设备 | |
JP7099254B2 (ja) | 学習方法、学習プログラム及び学習装置 | |
CN114973377A (zh) | 人脸美丽预测方法和装置、电子设备、存储介质 | |
CN113688232A (zh) | 招标文本分类方法、装置、存储介质及终端 | |
CN115713071B (zh) | 用于处理文本的神经网络的训练方法和处理文本的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210316 |
|
RJ01 | Rejection of invention patent application after publication |