CN111860673B - 基于分箱置信度筛选深度森林的机器学习分类方法 - Google Patents

基于分箱置信度筛选深度森林的机器学习分类方法 Download PDF

Info

Publication number
CN111860673B
CN111860673B CN202010738627.2A CN202010738627A CN111860673B CN 111860673 B CN111860673 B CN 111860673B CN 202010738627 A CN202010738627 A CN 202010738627A CN 111860673 B CN111860673 B CN 111860673B
Authority
CN
China
Prior art keywords
confidence
layer
box
accuracy
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010738627.2A
Other languages
English (en)
Other versions
CN111860673A (zh
Inventor
武优西
马鹏飞
崔文峰
成淑惠
赵晓倩
户倩
耿萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202010738627.2A priority Critical patent/CN111860673B/zh
Publication of CN111860673A publication Critical patent/CN111860673A/zh
Application granted granted Critical
Publication of CN111860673B publication Critical patent/CN111860673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Abstract

本发明涉及基于分箱置信度筛选深度森林的机器学习分类方法,针对于现有技术中基于深度置信森林对数据分类效果不佳,精确度不高而提出。这是首次将分箱法应用到深度置信筛选森林的门阈值确定之中。首先确定级联森林的一层,之后依靠实例在这一层的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入箱中,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,提高了深度置信筛选森林对于实例分类的预测精度。

Description

基于分箱置信度筛选深度森林的机器学习分类方法
技术领域
本发明属于机器学习领域,涉及基于分箱置信度筛选深度森林的机器学习分类方法,具体涉及一种分箱置信度筛选深度森林算法对数据特征进行识别从而进行分类的方法。
背景技术
机器学习中的分类是根据数据中不同的特征,将数据进行区分开来,它利用计算机对数据进行分析和计算,把数据规划为若干个类别中的一种,以代替人为的判断。
深度森林是近几年提出的一种独立于深度神经网络之外的深度学习方法,它打破了目前神经网络对深度学习的垄断。它相对比于深度神经网络拥有更少的参数,并且更加容易训练,这使得深度森林拥有更多可研究性。
深度森林主要由两个模块:多粒度扫描,级联森林。多粒度扫描多用于处理图像或维度较高且特征之间存在关联的数据集,它的主要目的是特征的重新表示也就是转换特征,它通过使用多个尺度的滑动窗口对数据特征进行扫描,之后将扫描出来的特征作为新的特征输入完全随机森林或者随机森林最后将它们输出的特征作为转换特征。
级联森林:级联森林模块是深度森林的主要模块,级联森林由多层组成,每一层由一个或者多个随机森林和完全随机森林构成。每一层随机森林和完全随机森林的输出值会作为一个新的特征输入到下一层,这样构成了深度学习的模式。其中完全随机森林和随机森林是由n(参数可调)棵决策树构成的,完全随机森林的每棵决策树随机选择一个特征作为分裂点,分裂到每个叶子节点只有一个类别或者十个样本为止。随机森林的每棵决策树按照Gini系数进行选择特征进行分裂,之后分裂到每个叶子节点只有一个类别或者十个样本为止。
深度置信筛选森林是在深度森林的基础上进行改进,加入了置信度筛选的机制,在时间成本和内存需求上都远远小于深度置信森林。
置信度筛选:每一层完全随机森林或者随机森林对一个实例的预测类别向量中的最大值作为其实例的置信度,根据置信度将级联每层输入的实例划分为两个子集:一个容易预测,一个难以预测。如果一个实例很难预测那么它将经历下一层的预测,相反地,如果一个实例很容易预测,那么它的最终预测值将由当前层产生,所以只有当实例在层数i具有高置信度时才会进入下一层。实验表明,通过降低一个数量级的内存需求和更快的运行时间,深度置信筛选森林能够达到和深度森林相当甚至更好的预测精确度。
置信度筛选的关键是如何确定一个实例是否为容易预测的实例,这需要设定一个门阈值,当实例置信度大于门阈值时为高置信度实例,也就是容易预测的实例,相反地,当实例置信度小于门阈值时为低置信度,低置信度的实例需要经历下一层的训练。那么这个模型的关键就转移到如何设定门阈值,原算法模型门阈值的设定是将实例按照置信度的大小从大到小排列,排列完后设置一个目标准确率,这个目标准确率为想要此模型达到的准确率,最后设定一个指针,指针根据置信度的值由小向大依次遍历,计算当前指向的实例和大于此实例置信度的图像的准确率,若此准确率大于目标准确率,则将此置信度作为门阈值。
上文中的门阈值设定的方法难以避免错误数据堆积的情况,即错误的数据聚集在置信度排列的中下区域,鉴于此情况有必要设计一种改进方法解决上述问题。
发明内容
本发明针对于现有技术中的分类问题是基于深度置信森林对数据分类效果不佳,精确度不高。所以本发明提出一种根据分箱的方法来确定门阈值的深度置信度筛选森林的方法,提高了深度置信筛选森林对于实例分类的预测精度。利用分箱的方法来解决深度置信度筛选中门阈值确定的问题,现有的分箱方法主要是将一些数据离散化、等级化,这是首次将分箱法应用到深度置信筛选森林的门阈值确定之中。首先确定级联森林的一层,之后依靠这一层对每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入箱中,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,完成机器学习样本分类。
本发明提出的分箱方式是在级联层中的深度置信筛选门阈值的设定进行改进。该方法的具体步骤是:
步骤一:获取机器学习分类数据集,并分为训练集数据和测试集数据;
训练阶段将训练集数据分为c个类别,训练集数据的容量为n个实例,n个实例输入级联森林的第一层,每一层的森林数量相同且不固定,每一层所有森林产生的对应实例的预测类别向量取平均值作为该层对应实例的预测类别向量(x1,x2,...xc);
每一层对每一个实例都会产生一个置信度,计算实例在当前层的置信度:
Pi=max(x1,x2,...xc)
其中Pi表示第i个实例的置信度;
步骤二:计算置信度并排列,
首先得到这n个实例在当前层的置信度(P1,P2,...Pn),置信度为实例在当前层预测类别向量中的最大值,(P1,P2,...Pn)的计算公式为:
Figure BDA0002606001860000021
其中M1x1表示为第一个实例预测为第一个类别的概率,Mnxc表示为第n个类别预测为第c个类别的概率;
得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度大小排列的实例顺序(Ma1 Ma2...Man);
步骤三:进行分箱操作,
将每一层的实例按照置信度大小排列的顺序(Ma1 Ma2...Man)分别装入编号为1,2,3...,L的箱子,因为一共有n个实例,所以每个箱子的容量为n/L,取箱子中所有实例准确率的平均值作为此箱的准确率;
步骤四,设置一个指针按照箱子的编号依次向下遍历,直到所指向箱子的下一个箱子的准确率小于目标准确率,目标准确率为想要此模型达到的准确率,找到这个箱子之后就以这个箱子中最后一个实例的置信度作为该层的门阈值;
步骤五:计算门阈值,每一层会产生一个门阈值,得到每一层的门阈值之后依靠门阈值对每一层的实例进行筛选,筛选之后会将实例分为两个部分,置信度大于门阈值Gate的为容易预测的实例,这部分实例会以当前层的预测实例作为最终的预测值;置信度小于门阈值的实例为难以预测的实例,将会继续进入下一层进行训练;达到停止生长的层数停止循环;
步骤六:依靠训练阶段产生的门阈值将测试集分成两类,确定模型准确率,完成机器学习分类。
本发明的优点在于门阈值的设定更加精确,本模型改变了门阈值选择的方式,与原模型门阈值确定的方式相对比而言,本发明的方法会使得筛选的方式更加苛刻,原模型置信度筛选的方式会将一些原本是难以预测的实例当成容易预测的实例输出,而本发明提出的分箱置信度筛选的方式会使得那些难以预测的实例不会被当成容易预测的实例从当前层输出。在原模型中会出现错误数据堆积的问题,例如实例(M1,M2,M3..M12)的预测正确率(预测值和真实标签值是否相同,若相同为1不相同为0),其正确率分别为(1,1,1,1,0,0,1,0,0,1,0,0),因为门阈值的确定处在训练阶段,所以知道实例的真实标签,其中1代表预测正确,0代表预测错误,此时目标准确率为70%,原模型会选择M7的置信度作为门阈值。可以观察到选择M7的置信度作为门阈值并不是最好的选择,而本发明的算法则可以更加精确地跳过M5,M6这些错误实例扎堆的情况,因为在箱子容量为二的情况下M5,M6所属的箱子的准确率为0,所以可以跳过M5,M6这些预测错误的实例,而选择M4的置信度作为门阈值,从而可以使模型达到更好的精确度。实验表明本发明训练的模型精确度更高,而且在相同精确度的情况下消耗的时间更少。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明训练过程中的流程图。
图2为本发明测试过程中的流程图。
图3为原模型深度森林中的多粒度扫描过程示意图。
图4为原模型深度置信度筛选森林中的级联森林结构示意图。
图5为本发明门阈值确定过程中的分箱过程示意图。
具体实施方式
为了更加清楚地介绍本发明的实施过程和本发明相对于置信度筛选模型的优点,下面将结合附图与具体实施对本发明进行详细描述。
本发明的创新点为:一,本发明提出了一种将实例放入箱中,并取箱中所有实例的准确率平均值作为箱子的准确率的方法;二,本发明提出了一种利用上述分箱的方法来确定深度置信度筛选森林的门阈值,利用箱子的准确率来确定置信度筛选中门阈值的方法。这使得深度置信森林在分类精度上有所提高,并且在相同分类准确率的情况下在大部分数据集上训练时间小于原深度置信筛选森林模型。
本发明是在深度置信度筛选森林的基础之上进行改进,加入了一种分箱来确定门阈值的方式,增加了置信度筛选的精确度,提高了模型预测准确率。高维度实例(图像像素高)进入深度置信筛选森林要经历两个模块。一个模块为多粒度扫描,多粒度扫描是一种特征重用的方法,它将高维度的图像进行滑动窗口扫描以发现特征与特征的内在联系,以达到特征重用的效果。第二个模块为级联森林,级联森林是多层的结构,每一层由多个森林构成,每一个随机森林和/或者完全随机森林会对每一个实例产生一个预测的类别向量。根据这些预测类别向量判断实例是否为容易预测的实例,若是则当前层的预测结果作为最终结果,若不是则让实例进入下一层训练,本发明则是在这个过程中进行改进,之后将这些完全随机森林和随机森林对一个实例预测类别向量取平均,作为这一层对这个实例的预测结果,并将这一层的预测结果作为实例的新特征输入到下一层当中。低维度的数据(图像像素很小,或者文本分类)则不需要进入多粒度扫描模块直接进入级联森林模块。
本发明的具体方法如下:
步骤一:训练阶段将训练集数据分为c个类别,将n个实例输入级联森林的第一层,每一层的每个随机森林或者完全随机森林对每一个实例会产生一个预测类别向量,这个预测类别向量表示这些数据一共有c个类别。某实例在此层的预测类别向量计算方式为,每一层所有森林产生的预测类别向量取平均值作为此实例在这一层的预测类别向量,记为(x1,x2,...xc),实例在所有森林预测中为第一个类别的概率为x1,预测为最后一个类别的概率为xc,若是xc的概率最大,则这一层对实例的预测值为类别c。例如这一层有两个森林即一个完全随机森林和一个随机森林,两个森林对某个实例产生的预测类别向量分别为(0.6,0.1,0.4),(0.6,0.2,0.2),则这一层产生对这个实例的预测类别向量为(0.6,0.15,0.3)。在基于分箱深度置信森林模型中每一层的完全随机森林和随机森林的数量相同且不固定,由开始训练模型之前规定,为超参数。计算实例在当前层的置信度,也就是计算实例在当前层的预测类别向量中元素的最大值:
Pi=max(x1,x2,...xc)
其中Pi表示第i个实例的置信度。
步骤二:计算置信度并排列,将每一层输出的实例按照置信度的大小排列,首先得到这n个实例在当前层的置信度(P1,P2,...Pn),置信度为实例在当前层预测类别向量中的最大值,例如:某个实例的预测类别向量为(0.3,0.2,0.5),那么这个图像的置信度为0.5。(P1,P2,...Pn)的计算公式为:
Figure BDA0002606001860000041
其中M1x1表示第一个实例预测为第一个类别的概率,Mnxc表示第n个类别预测为第c个类别的概率。得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度排列的实例顺序:
(Ma1,Ma2...Man)={(Ma1,Ma2...Man)|(Pa1之Pa2...≥Pan)}
其中Ma1为置信度最大的实例,Man为置信度最小的实例,(Pa1≥Pa2...≥Pan)是(P1,P2,...Pn)排序的结果。
步骤三:进行分箱操作,即将每一层的实例按照置信度排列的顺序(Ma1Ma2...Man)分别装入编号为1,2,3...100的箱子,因为一共有n个实例,所以每个箱子的容量为n/100。也可以固定箱子的容量大小,例如:若将箱子的容量设置为100,那么箱子的数量就根据实例的数量而改变,箱子数量在容量为100的情况下为n/100。在这里我们固定箱子数量为100,将按照置信度大小排列的实例按顺序放入箱中:
Figure BDA0002606001860000051
其中bj表示编号为j的箱子(1<j<100),Man表示按照置信度排名为n的实例箱子。取箱子中所有实例准确率的平均值作为此箱的准确率。
步骤四,设置一个指针按照箱子的编号依次向下遍历,直到所指向箱子的下一个箱子的准确率小于目标准确率,目标准确率为想要此模型达到的准确率,找到这个箱子之后就以这个箱子中最后一个实例的置信度作为门阈值:
Figure BDA0002606001860000052
其中p(Mai)为在当前层对实例i分类的预测,即预测值。(pb1,pb2...Pb100)为编号为1-100箱子的准确率,yi表示实例i真实标签,YN表示目标准确率,J表示比目标准确小的箱子中编号的最小值,Pa(n/100×(J-1))表示按照置信度排列编号为(n/100×(J-1))实例的置信度。
步骤五:计算门阈值,每一层会产生一个门阈值,得到每一层的门阈值之后依靠门阈值对每一层的实例进行筛选,筛选之后会将实例分为两个部分。第一个部分是难以预测的实例,这部分实例进入下一层进行训练,第二个部分是容易预测的实例,这部分实例会以当前层的预测实例作为最终的预测值:
YTi={p(Mi)|Pi≥Gate}
依靠当前层的门阈值划分,置信度大于门阈值Gate的为容易预测的实例,YTi表示为实例i最终的预测值,小于门阈值的实例将会继续进入下一层进行训练。
实施例
本实施例基于分箱置信度筛选深度森林的机器学习分类方法,用于MNIST手写体图像数据分类中,具体过程是:
第一步,获取MNIST手写体图像数据集,MNIST数据集包括60000个用于训练的图像,10000个用于测试的图像。每一个图像的像素大小为28×28,图像内容为手写体数字,数据集标签一共有10类分别对应着0-9的数字。获取数据集之后,将MNIST数据集每个图像的28×28的像素点转换成为28×28的数字矩阵,开始进入多粒度扫描。
第二步,多粒度扫描,在训练阶段将数量为60000的图像(M1,M2,...M60000),这些图像分为10个类别,设置数量为3个大小不同的窗口,利用这些窗口对图像进行扫描,3个大小不同的窗口产生3堆扫描结果。这三个窗口的大小分别为2×2,3×3,4×4,每一个窗口对应着一个随机森林和一个完全随机森林,将每个窗口扫描的一个结果输入到对应的完全随机森林和随机森林之中并且产生一个预测类别向量,第1窗口扫描之后产生27×27个新图像,之后将这27×27个扫描出的新图像作为输入值放入多粒度扫描模块的随机森林中,这27×27个图像会产生27×27个预测类别向量,将预测类别向量的数量标记为W1p,那么总的预测结果数量为:Totalp=10×(W1p+W2p+W3p),将Totalp个预测类别向量作为新特征传入级联森林。
第三步,进入级联森林,进入第一层的森林,森林的种类有随机森林和完全随机森林,森林的数量并不确定,在这里以两个森林为例,即一个随机森林和一个完全随机森林,每一个完全随机森林或者随机森林产生一个预测类别向量,将所有的完全随机森林和随机森林产生的预测类别向量取平均作为实例在这一层的预测类别向量。最后第一层对每个实例会产生一个预测类别向量(x0,x1,...x9),这个向量代表着预测为相应类别的概率,若x0=0.7则意味着预测为图像为手写体数字0的概率为0.7,并且预测类别向量中的值相加等于1,其中预测类别向量的维度为分类的类别数量。
第四步:计算置信度,每一层对每一个图像都会产生一个置信度,分别取图像(M1,M2,...M60000)各自在第一层对其的预测类别向量中的最大值作为其置信度,以第i个图像Mi,Mi的置信度Pi(1≤i≤60000)为:
Pi=max(x0,x1..x9)
按照这种方法依次计算得到所有图像在该层置信度(P1,P2,...P60000):
Figure BDA0002606001860000061
其中M1x0代表图像M1预测为手写体0的概率,也就是第一个图像预测为第一个类别的概率,(P1,P2,...P60000)为所有图像在这一层的置信度。在之后的步骤将使用置信度作为区分图像为容易预测图像还是难以预测图像的标准。
第五步:置信度排序。将图像(M1,M2,...M60000)在第一层依靠每个图像的置信度对每个图像进行排序。将计算好的置信度按照由大到小进行排序,得到序列(Pa1,Pa2...Pa60000),其中(Pa1≥Pa2...≥Pa60000),对应着置信度大小的排序,图像也有排序(Ma1,Ma2...Ma60000),其中Man为置信度最小的图像,对应着,Ma1为置信度最大的值。依靠这一步骤得到了一个按照置信度排列的图像顺序:
(Ma1,Ma2...Ma60000)={(Ma1,Ma2...Ma60000)|(Pa1≥Pa2...≥Pa60000)}
第六步:分箱操作,这一步是本发明的关键所在,也是本发明创新所在。设置100个箱子编号为b1-b100(箱子的数量和大小可以根据不同的数量的图像进行改变,这里以100进行举例),在这种情况下每一个箱子容量大小为600,若设置数量为x的箱子那么每个箱子的容量大小为x/100,也可以固定箱子的容量,例如:设置容量为100,那么箱子的数量为n/100,n为实例的数量。这里设置箱子数量为100,根据置信度大小排序好的图像(Ma1,Ma2...Ma60000)按照依靠置信度排列顺序装入箱中。其中,Ma1,Ma2这些置信度最高的600个图像装入编号为1的箱中,Ma60000等600个置信度最低的图像装入编号为100的箱中:
Figure BDA0002606001860000071
第七步:计算箱中图像准确率,在每一个箱中都有数量为600的图像,这些图像在这一层都有预测值,即预测类别向量中概率最大的类别,假设图像预测类别向量为(0.6,0.3,0.1)对应着A,B,C三类的预测概率,那么这个图像就会被预测为A类别,A就为预测值。根据这些图像的真实标签和在这一层的预测值计算这600个图像的准确率。每一个箱子有一个准确率,得到所有箱子的准确率Pb1,Pb2...Pb100,这些准确率就代表了这些箱子中图像的准确率:
Figure BDA0002606001860000072
其中p(Mai)为图像Mai的当前层预测值,yi为其真实标签值。
第八步:确定需要的准确率YN,这是一个超参数,在模型训练之前人为设定,在这里设定错误率下降为三分之一为目标的准确率。例如:准确率为70%,那么错误率就为30%,错误率下降为三分之一就为10%,相应的准确率为90%,那么就以90%作为目标准确率,即YN=0.9。
第九步:确定箱子编号,将箱子按照编号的顺序从1-100依次与目标准确率YN相比较,找到准确率小于YN的箱子,记录箱子编号J,这样找到的J是在所有小于目标准确率的箱子的编号中的最小值。
第十步:确定门阈值,取箱中编号为J的箱子中第一个图像的置信度为门阈值,或者取编号为J-1的箱子中最后一个图像的置信度作为门阈值Gate:
Gate=Pa(600×(J-1))
其中Pa(600×(J-1))表示按照置信度排列编号为(600×(J-1))图像的置信度。
第十一步:筛选图像,依次将图像的置信度与门阈值进行比较,置信度大于门阈值的图像以当前层的预测值作为最终结果输出,置信度小于门阈值的图像则进入下一层继续训练,并且记录这一层的门阈值,在测试阶段按照这个门阈值作为图像筛选标准。
在这里结束第一层的训练,在这一层中主要产生了输出了两个值,一个是输出了在这一层难以训练的图像的预测类别向量,并将这个预测类别向量作为此图像的新特征输入到下一层当中,第二个是对于容易预测的图像将这一层产生的预测类别向量作为最终的预测值:YTi={p(Mi)|Pi≥Gate}
其中YTi图像Mi(1≤i≤60000)的最终预测值,p(Mi)为当前层对Mi的预测值。
第十二步:循环,将此层对于难以预测图像输出的预测类别向量作为这些图像的新特征,并开始循环第三步到第十一步,这里的决定停止生长的层数为超参数,在这里我们设定为两层,也就是说,直到第x层的准确率大于后面两层的准确率就会停止循环。
第十三步:测试,当训练完毕后会建立一个分箱置信度筛选深度森林,之后开始进行测试模型的准确度。当测试集的10000个图像经过多粒度扫描进入每一层随机森林和完全随机森林时,会依靠训练阶段产生的门阈值将图像分成两类,一类为难以预测的图像,将继续进入下一层训练,另一类为容易预测的图像,这些图像以当前层的预测值作为最终预测值。最后输出每个图像的预测值并且将其与真实标签进行对比,从而得到模型的准确率。
本发明的模型在图像分类的准确率上优于原模型,事实证明不仅仅是图像分类优于原模型,在文本分类,和音频处理领域均优于原模型。若将本发明的模型应用在文本分类,与图像分类类似,只不过不用经过多粒度扫描阶段直接将文本特征输入到级联森林之中。
下面是本发明提出的模型和模型在不同数据集中的效果,这些数据集包括图像分类数据集和文本分类数据集,表1是本发明的模型和原模型在达到相同准确率情况下所需要的最快训练时间,Gcforestcs为置信度筛选森林,GCforestbt为分箱置信度筛选森林,可以看出若达到相同的准确率本发明的模型在各种数据集都要比原模型的运行时间快20%左右。
表一
Figure BDA0002606001860000081
表二是在参数相同的情况下本发明的模型和原模型预测准确率的比较,可以看出本模型在图像数据集上优于原模型,只是在一个本文数据集上略微低于原模型。设定每一层有两个森林即一个完全随机森林和一个随机森林,其中在表二中的20代表每一个完全随机森林或者随机森林中有20个决策树。
表二
数据集 Gcforestcs(20) Gcforestbt(20) 准确率差值
Digits(图片) 93.31 95.32 2.01%
Mnist(图片) 97.66 98.47 0.81%
Fashion_mnist(图片) 88.44 89.17 0.73%
Adult(文本) 85.86 86.07 0.21%
Letter(文本) 96.3 96.5 0.2%
Bank(文本) 91.46 91.41 -0.05%
本发明未述及之处适用于现有技术。

Claims (5)

1.一种基于分箱置信度筛选深度森林的机器学习分类方法,其特征在于,获取分类样本数据集,确定级联森林的一层,之后依靠该层每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入多个箱中,每个箱中实例个数相同,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,之后依靠门阈值对相应层的实例进行筛选,完成机器学习样本分类;所述分类样本数据集为MNIST手写体图像数据集,实例指的是MNIST手写体图像数据集中的每个图像,机器学习样本分类指的是MNIST手写体图像分类;
该方法的具体步骤是:
步骤一:获取机器学习分类数据集,并分为训练集数据和测试集数据;
训练阶段将训练集数据分为c个类别,训练集数据的数量为n,n个实例输入级联森林的第一层,每一层的森林数量相同且不固定,每一层所有森林产生的对应实例的预测类别向量取平均值作为该层对应实例的预测类别向量(x1,x2,…xc);
每一层对每一个实例都会产生一个置信度,计算实例在当前层的置信度:
Pi=max(x1,x2,…xc)
其中Pi表示第i个实例的置信度;
步骤二:计算置信度并排列,
首先得到这n个实例在当前层的置信度(P1,P2,…Pn),置信度为实例在当前层预测类别向量中的最大值,(P1,P2,…Pn)的计算公式为:
Figure FDA0003481784440000011
其中M1x1表示为第一个实例预测为第一个类别的概率,Mnxc表示为第n个类别预测为第c个类别的概率;
得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度大小排列的实例顺序(Ma1Ma2…Man):
步骤三:进行分箱操作,
将每一层的实例按照置信度大小排列的顺序(Ma1Ma2…Man)分别装入编号为1,2,3…,L的箱子,因为一共有n个实例,所以每个箱子的容量为n/L,取箱子中所有实例准确率的平均值作为此箱的准确率;
步骤四,设置一个指针按照箱子的编号依次向下遍历,直到所指向箱子的下一个箱子的准确率小于目标准确率,目标准确率为想要此模型达到的准确率,找到这个箱子之后就以这个箱子中最后一个实例的置信度作为该层的门阈值;
步骤五:计算门阈值,每一层会产生一个门阈值,得到每一层的门阈值之后依靠门阈值对每一层的实例进行筛选,筛选之后会将实例分为两个部分,置信度大于门阈值Gate的为容易预测的实例,这部分实例会以当前层的预测实例作为最终的预测值;置信度小于门阈值的实例为难以预测的实例,将会继续进入下一层进行训练;达到停止生长的层数停止循环;
步骤六:依靠训练阶段产生的门阈值将测试集分成两类,确定模型准确率,完成机器学习分类。
2.根据权利要求1所述的方法,其特征在于,步骤三中,固定箱子数量为100,每个箱子的容量为n/100,箱子编号依次记为b1、b2、…、b100,则每个箱子中对应的实例为:
(Ma1,Ma2…Ma(n/100))∈b1
Figure FDA0003481784440000021
Figure FDA0003481784440000022
(Ma((n/100)×99+1),Ma((n/100)×99+2)…Man)∈b100
其中Man表示按照置信度排名为n的实例箱子。
3.根据权利要求2所述的方法,其特征在于,每个箱子的准确率的计算公式为:
Figure FDA0003481784440000023
Figure FDA0003481784440000024
Figure FDA0003481784440000025
Figure FDA0003481784440000026
其中p(Mai)为在当前层对实例i分类的预测,即预测值;(pb1,pb2…Pb100)为编号为1-100箱子的准确率,yi表示为实例i真实标签,YN表示为目标准确率。
4.根据权利要求1所述的方法,其特征在于,决定停止生长的层数设置为两层,即直到第x层的准确率大于后面两层的准确率就会停止循环。
5.根据权利要求1-4任一所述的方法,其特征在于,该方法用于图像分类、文本分类、音频处理分类中。
CN202010738627.2A 2020-07-28 2020-07-28 基于分箱置信度筛选深度森林的机器学习分类方法 Active CN111860673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738627.2A CN111860673B (zh) 2020-07-28 2020-07-28 基于分箱置信度筛选深度森林的机器学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738627.2A CN111860673B (zh) 2020-07-28 2020-07-28 基于分箱置信度筛选深度森林的机器学习分类方法

Publications (2)

Publication Number Publication Date
CN111860673A CN111860673A (zh) 2020-10-30
CN111860673B true CN111860673B (zh) 2022-03-08

Family

ID=72948153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738627.2A Active CN111860673B (zh) 2020-07-28 2020-07-28 基于分箱置信度筛选深度森林的机器学习分类方法

Country Status (1)

Country Link
CN (1) CN111860673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307364B (zh) * 2020-11-25 2021-10-29 哈尔滨工业大学 一种面向人物表征的新闻文本发生地抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN107038449A (zh) * 2016-02-04 2017-08-11 中国移动(深圳)有限公司 一种欺诈用户的识别方法及装置
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN109389177A (zh) * 2018-10-25 2019-02-26 长安大学 一种基于协同级联森林的隧道车辆再识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898811B2 (en) * 2015-05-08 2018-02-20 Kla-Tencor Corporation Method and system for defect classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN107038449A (zh) * 2016-02-04 2017-08-11 中国移动(深圳)有限公司 一种欺诈用户的识别方法及装置
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN109389177A (zh) * 2018-10-25 2019-02-26 长安大学 一种基于协同级联森林的隧道车辆再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于本征维数和置信度的行为序列分割";熊心雨等;《厦门大学学报(自然科学版)》;20130728;全文 *
基于Spark框架的用于金融信贷风险控制的加权随机森林算法;胡婵娟等;《小型微型计算机系统》;20200215(第02期);全文 *

Also Published As

Publication number Publication date
CN111860673A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US20200410660A1 (en) Image segmentation into overlapping tiles
CN111191732A (zh) 一种基于全自动学习的目标检测方法
CN107292097B (zh) 基于特征组的中医主症选择方法
US20210209514A1 (en) Machine learning method for incremental learning and computing device for performing the machine learning method
Tang et al. Classification for overlapping classes using optimized overlapping region detection and soft decision
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
JP2017054331A (ja) 画像分類方法、分類器の構成方法および画像分類装置
CN111325264A (zh) 一种基于熵的多标签数据分类方法
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
CN111985825A (zh) 一种用于滚磨机定向仪的晶面质量评估方法
CN111860673B (zh) 基于分箱置信度筛选深度森林的机器学习分类方法
CN111222575A (zh) 一种基于hrrp目标识别的klxs多模型融合方法及系统
CN110991247B (zh) 一种基于深度学习与nca融合的电子元器件识别方法
US6393413B1 (en) N-tuple or RAM based neural network classification system and method
Yu et al. Towards artificially intelligent recycling Improving image processing for waste classification
CN114782761B (zh) 基于深度学习的智能仓储物料识别方法和系统
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN116152644A (zh) 一种基于人工合成数据和多源迁移学习的长尾物体识别方法
CN115587884A (zh) 一种基于改进的极限学习机的用户贷款违约预测方法
US20040193573A1 (en) Downward hierarchical classification of multivalue data
Cai et al. Fuzzy criteria in multi-objective feature selection for unsupervised learning
CN113065520A (zh) 一种面向多模态数据的遥感图像分类方法
CN113076823A (zh) 一种年龄预测模型的训练方法、年龄预测方法及相关装置
CN113128659A (zh) 神经网络定点化方法、装置、电子设备及可读存储介质
Kimura et al. A Man-Machine Cooperating System Based on the Generalized Reject Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant