CN106056134A - 一种基于Spark的半监督随机森林分类方法 - Google Patents

一种基于Spark的半监督随机森林分类方法 Download PDF

Info

Publication number
CN106056134A
CN106056134A CN201610340166.7A CN201610340166A CN106056134A CN 106056134 A CN106056134 A CN 106056134A CN 201610340166 A CN201610340166 A CN 201610340166A CN 106056134 A CN106056134 A CN 106056134A
Authority
CN
China
Prior art keywords
random forest
training
model
classification
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610340166.7A
Other languages
English (en)
Inventor
李学明
马超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201610340166.7A priority Critical patent/CN106056134A/zh
Publication of CN106056134A publication Critical patent/CN106056134A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark的半监督随机森林分类方法,利用随机森林算法在训练数据集合上采用有放回抽样,列属性上也采用有放回抽样,因此在行方向和列方向都加入了随机性,既保证了决策树的多样性,又不需要进行树剪枝,而且采用投票法决定类别,准确率大大提高。因此,本发明提供的随机森林算法在处理高维数据样本时不需要进行降维。不管是对于稀疏向量和稠密向量随机森林算法都具有很好的效果。经过多组实验验证,本发明提供的半监督学习算法降低了分类模型错误率均值;提升了计算性能。

Description

一种基于Spark的半监督随机森林分类方法
技术领域
本发明涉及机器学习分类算法技术领域,特别是一种spark通用并行框架、Tri-Training半监督分类和分布式随机森林分类算法。
背景技术
分类问题是机器学习领域的范畴,是一种常用的数据分析技术,主要用来确定某目标对象属于哪个预定义的目标类。在许多领域具有广泛的应用,包括数据挖掘、统计学习、神经网络等。机器学习领域,常用的研究方法分为两种,一类是监督学习,另一类是无监督学习。传统的分类模型需要在带标签样本集合的基础上训练得到,属于监督学习。实际应用中,对于数据的标签化工作受到各方面因素的限制,有时甚至需要付出昂贵的代价。而相对于带标签样本,无标签样本数据的获取工作则相对简单,利用无标签样本进行学习的过程,成为无监督学习。而半监督学习(Semi-supervised Learning)则是介于监督学习和无监督学习之间的方法。它是在实际应用的驱动下而产生的一种学习方法,主要研究训练数据中的部分信息缺失的背景下,如何获得具有理想性能和推广能力的学习模型。而半监督分类(Semi-supervised Classification)方法中,从监督学习的角度为出发点,考虑在带标签样本不足的情况下,如何利用无标签样本的信息辅助分类模型的训练,从而提高模型的泛化能力。
目前,半监督学习在不同领域具有广泛应用,从事机器学习领域的学者提出了许多半监督学习方法,主要分为:基于生成式模型、基于直推式学习、基于图模型、协同训练等。对于产生式模型,主要是在模型的优化过程中进行参数的估计,由于一部分参数的估计不需要样本标签信息,因此在参数估计过程中引入无标签数据。基于直推式学习中,研究较多的是直推式支持向量机(Transductive Support Vector Machines),它的核心思想是优化问题,通常只考虑某个特定的数据集,试图最小化分类模型在该数据集上的误差率。基于图模型的方法,是将样本集合看作一个数据邻接图,利用无数据标签信息的需要对该图进行分割。典型方法包括图的最小分割(Graph MinCut),离散马尔可夫随机过程等。协同训练方法是一般化的学习框架,它要求训练数据集包含两个独立且冗余的数据视图,并能够独立训练分类器,并给对方提供本身预测的置信度高的样本进行分类器的重新训练。其中基于协同训练的有Self-Training、Co-Training、Tri-Training、Co-Forest等。然而目前的半监督分类算法都只能以单机模式处理小批量的数据,无法处理大量数据,也无法直接拿到分布式平台(如spark,hadoop)上实现并运行。需要对算法进行改变,以适应大规模分布式集群计算。
发明内容
有鉴于此,本发明的目的是在面对少量有标签数据和大量无标签数据时,利用分布式内存计算平台spark实现一个基于Tri-Training的半监督随机森林算法。以解决人工标记样本成本过高、样本数据过大单机无法快速执行、训练样本过少无法得到具有较高分类准确率的分类模型和无法利用大量廉价无标签数据等问题。
本发明的目的是通过以下技术方案来实现的:
本发明提供的一种基于Spark的半监督随机森林分类方法,包括以下步骤:
S1:将标签训练样本切分为第一二标签训练样本并用第一训练样本训练第一随机森林模型第二随机森林模型和第三随机森林模型
S2:针对第一随机森林根据第二随机森林和第三随机森林对第二标签训练样本进行分类,如果第二随机森林和第三随机森林的分类结果相同且都不等于标签值,则错误数加一;计算标记错误率
S3:根据第二随机森林和第三随机森林对无标签数据集U进行分类,如果分类结果相同则进行类别标注,如果不同则删除,得到带标签数据集
S4:判断错误率是否满足条件:如果是,则进行步骤S6;如果否,则将第一随机森林hi改为第一随机森林的上一轮的值;
S5:设置带标签数据集的初始值:
S6:判断带标签数据集是否满足公式:如果是,则进行步骤S8;如果否,则对第一随机森林hi不做更新;
S7:判断是否满足公式:如果是,则进行步骤S9;如果不满足但满足则进行步骤S10,如果都不满足则第一随机森林hi不做更新;
S8:根据公式计算并重新训练第一随机森林hi
S9:从带标签数据集中无放回抽样,抽出数量满足公式抽出的样本子集作为然后同步骤S9重新训练第一随机森林hi
S10:当第一随机森林模型第二随机森林模型和第三随机森林模型都不进行更新的时候结束半监督学习分类模型训练,否则回到步骤S2继续重复训练;
S11:利用第一随机森林模型第二随机森林模型和第三随机森林模型对测试样本进行分类。
进一步,所述步骤S1中按照以下方式将标签训练样本切分为第一标签训练样本和第二标签训练样本:
所述第一标签训练样本为标签训练样本的70-90%,第二标签训练样本为标签训练样本的30-10%,并用第一标签训练样本反复训练第一随机森林模型第二随机森林模型和第三随机森林模型
进一步,所述步骤S5中按照以下公式来计算带标签数据集的初始值:
其中,表示初始化的新标记无标签数据集,为防止第一次迭代计算时如果大小为0无法满足条件进而无法进行后续计算,利用上述公式初始化大小;因为每一轮计算过程中都要判断需要上一轮的而第0次迭代不存在所以给予人工初始化满足判断条件。
表示;第t轮迭代,利用第t-1轮训练出的随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成然后用训练新的随机森林
表示的标记错误率;
表示随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成数据集 的标记错误率。
进一步,所述标记错误率的取值范围为
由于采用了上述技术方案,本发明具有如下的优点:
本发明提供的随机森林算法在训练数据集合上采用有放回抽样,列属性上也采用有放回抽样,因此在行方向和列方向都加入了随机性,既保证了决策树的多样性,又不需要进行树剪枝,而且采用投票法决定类别,准确率大大提高。因此,本发明提供的随机森林算法在处理高维数据样本时不需要进行降维。不管是对于稀疏向量和稠密向量随机森林算法都具有很好的效果。经过多组实验验证,本发明提供的半监督学习算法降低了分类模型错误率均值;提升了计算性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的基于Spark的半监督随机森林分类算法流程示意图。
图2为本发明的随机森林训练流程示意图。
图3为本发明的分类标签流程示意图。
图4为本发明的随机森林更新迭代流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
实施例1
本发明提供的基于Spark的半监督随机森林分类方法具体原理如下所述:
根据Angluin和Laird的论文噪音学习,如果训练集大小为m,噪音为η,错误率为ε,c是个常量。则满足关系:
m = c ϵ 2 ( 1 - 2 η ) 2 - - - ( 1 )
为了简化计算,有必要计算常量c与错误率平方的商。
μ = c ϵ 2 = m ( 1 - 2 η ) 2 - - - ( 2 )
用U表示无标签数据集,L表示有标签数据集。h1,h2,h3表示三个随机森林模型。
对于h1在第t次tri-training训练循环中,先用h2,h3对U无标签数据集标记,选择标记相同的样本并标记,记为Lt,其标记错误率为然后用L∪Lt表示新训练集,新训练集大小为mt,也可以用|L∪Lt|表示。同理第t-1轮分别表示为Lt-1,L∪Lt-1,mt-1,|L∪Lt-1|。
用η表示原始有标签数据集L的噪音,用ηt表示|L∪Lt|的噪音。则针对h1的第t次训练。
η t = η | L | + e 1 t | L t | | L ∪ L t | - - - ( 3 )
根据公式(2)计算μt
μ t = m t ( 1 - 2 η t ) 2 = | L ∪ L t | ( 1 - 2 η | L | + e 1 t | L t | | L ∪ L t | ) 2 - - - ( 4 )
相同的μt-1可以表示成:
μ t - 1 = m t - 1 ( 1 - 2 η - 1 t ) 2 = | L ∪ L t - 1 | ( 1 - 2 η | L | + e 1 t - 1 | L t - 1 | | L ∪ L t - 1 | ) 2 - - - ( 5 )
因为公式(2)c为常量,所以如果满足μt>μt-1则εt<εt-1,错误率下降。所以得到公式:
| L ∪ L t | ( 1 - 2 η | L | + e 1 t | L t | | L ∪ L t | ) 2 > | L ∪ L t - 1 | ( 1 - 2 η | L | + e 1 t - 1 | L t - 1 | | L ∪ L t - 1 | ) 2 - - - ( 6 )
因为η比较小,而弱分类器错误率至少低于0.5,即所以要满足公式(6)需和|Lt|>|Lt-1|。因为需要每次训练都比上一次训练效果好,新加入的样本标记错误率应小于所以
0 < e 1 t e 1 t - 1 < | L t - 1 | | L t | < 1 - - - ( 7 )
可能出现|Lt|特别大,大出|Lt-1|很多,而也小于但出现所以当|Lt|过大是需要对h2,h3新标记的样本进行抽样得到Lt,大小设为s。
公式(8)的前提条件是Lt-1满足公式(9),只有满足公式(9)的情况下,Lt在抽样之后的大小仍然大于Lt-1
| L t - 1 | > e 1 t e 1 t - 1 - e 1 t - - - ( 9 )
上述是理论依据。其中有一个假设。h2,h3对无标签样本U标记,并选择标记相同的样本,是此标记错误率,但此标记错误率是无法评估的。不过有标签样本和无标签样本是独立同分布的。可以用h2,h3对L有标签样本中的部分样本分类,并计算分类错误率,来模拟此处选择有标签样本L的子集的方法有两种,一种是选择h2,h3上次构建时抽样没有选择到的部分L样本。这种细微化的操作在分布式环境下很难做到或者空间时间消耗过大。另外一种是,在第一次训练之前就取一小部分带标签数据(如L的20%),单独用于计算不用来做分类模型训练。
本实施例提供的基于Spark的半监督随机森林算法的具体步骤如下:
(1)将有标签训练样本切分为两份一份80%,一份20%,并用80%的训练样本反复训练三个随机森林模型,这80%的训练样本即为理论支撑中的L。每次训练是无需对有标签样本进行有放回抽样,因为随机森林的训练已经在行抽样和列属性抽样上加入了随机性。随机森林的训练是基于分布式环境下的改进优化算法。主要实现了三个优化策略:切分点抽样统计、特征装箱、逐层训练。本实施例提供的spark的随机森林算法实现了这三个优化策略,spark随机森林算法为本半监督算法中的一部分,即spark开源的随机森林算法。
(2)使用另一份20%的有标签训练样本。针对每一个随机森林用另外两个随机森林对带标签样本点point分类,如果的分类结果相同且都不等于真实标签值,则错误数加一。计算标记错误率
(3)使用无标签数据集U。针对每个随机森林用另外两个随机森林对无标签数据点分类,如果分类结果相同则进行类别标注,不同则筛选掉,得到带标签的数据集
本实施例的带标签的数据集采用如下方法:若对无标签数据点p的分类都为类c,则将带标签数据<c,p>添加到带标签数据集
(5)针对随机森林如果则进行第(6)步,否则,随机森林hi改为上一轮的随机森林
(6)针对随机森林如果的大小为0(也就是初始化的时候把都设为0,把都设为0.5),则设其中,为了避免第一轮迭代计算时数值太大,无法满足即(8)中公式需要计算带标签数据集的初始值;
其中,表示初始化的新标记无标签数据集,为防止第一次迭代计算时如果大小为0无法满足条件进而无法进行后续计算,利用上述公式初始化大小;因为每一轮计算过程中都要判断需要上一轮的而第0次迭代不存在所以给予人工初始化满足判断条件。
表示;第t轮迭代,利用第t-1轮训练出的随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成然后用训练新的随机森林
表示的标记错误率;
表示随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成数据集 的标记错误率。
(7)针对随机森林如果则进行第(8)步,否则此次随机森林hi不做更新。
(8)针对随机森林如果则进行第(9)步,如果不满足但满足则进行第(10)步,如果都不满足则此次随机森林hi不做更新。
(9)利用重新训练随机森林hi
(10)从数据集中无放回抽样,抽出数量满足公式(8),抽出的样本子集作为然后同第(9)步重新训练随机森林hi
(11)当一轮迭代三个随机森林都不进行更新的时候结束半监督学习分类模型训练。否则回到第(2)步继续训练。
分类预测:
使用训练好的三个随机森林模型对测试样本进行分类投票,票数高的分类类标作为分类结果。
本实施例提供的算法可抽象为无限循环的三个大步骤:选无标签数据、三个森林投票分类、选得票高的当做有标签的数据加上以前的训练数据再次训练更新hi。
是本轮选数据时选出的高得票的。由于在选的时候为了限制训练集的大小,如果过大就不满足了,后面用过大的更新hi就得不到更优的模型,所以本实施例采用无放回的抽取。
数据选好之后随机森林hi是用训练集重新训练更新。使用标准的随机森林算法,随机森林是由多棵决策树构成,每棵决策树在上有放回抽样选取数据点作为训练集(每个决策树的训练集不一样),属于行随机性。每个数据点可能有几个到几十个的属性。随机有放回抽取一部分属性做决策树训练(每个决策树有放回抽取的属性集不一样),属于列随机性;因此行随机性和列随机性是随机森林算法的特性,两个随机性保证了决策树的多样,进而保证了这个森林的多样。
下面结合模型训练流程更详细地说明本发明提供的基于spark的半监督随机森林算法,所述模型训练流程图分三个大步,如图2-4所示,其中图中每个方框代表一个sparkRDD,具体流程图如下:
图2中,L表示有标签的数据集,对L进行切分,LA是L的80%,LB是L的20%。利用LA和spark Mllib机器学习库中的随机森林算法,重复三次训练,训练出随机森林RandomForestA(RFA)、RandomForestB(RFB)、RandomForest(RFC);
图3中,方框都表示spark RDD,point表示数据点,labelA、labelB、labelC分别代表随机森林RFA、RFB、RFC对point分类预测得到的分类标签。Label代表有标签数据集LB中数据点的真实分类标签。首先利用RFA、RFB、RFC分别对所有LB中的point分类得到labelA,labelB,labelC。之后利用spark RDD的操作,RDD转换过滤得到三个分类错误率。
图4中,U表示无标签数据集,先利用RFA、RFB、RFC分别对所有U中的point分类得到labelA,labelB,labelC。然后经过RDD转换过滤分别得到高置信度的数据集,最后根据前述步骤中的条件更新随机森林RFA、RFB、RFC,如果无随机森林得到更新则训练结束,如果有随机森林进行了更新则回到图3所述步骤利用新的随机森林继续迭代计算。
模型构建完成之后分类预测部分使用三个随机森林模型对待分类样本进行投票分类。
本实施例提供的算法主要体现在以下五个方面:
将tri-training半监督分类算法与spark随机森林算法结合实现半监督分类。
使用分布式环境下基于RDD内存计算的方式实现tri-training半监督学习,并在算法步骤有做了一些改进。分布式:(2)(3)(9)(10)多线程:(5)(6)(7)(8)(8)(10)并行计算:(2)(3)(9)(10)。
分布式环境下基于spark的RDD并行化处理。分别表现为:基于多线程并行初始化三个随机森林(线程内部基于RDD分布式计算);基于RDD并行计算基于RDD并行计算基于多线程(线程内部根据理论分析条件和RDD操作)并行更新随机森林模型。
为0时,初始化为
时,说明最新的训练模型相比前一次的训练模型没有减少反而增加了误差,所以hi保存为上一轮的训练模型
本实施例采用MINIST数据库。此数据库是Google实验室的Corinna Cortes和纽约大学柯郎研究所的YannLeCun建立的一个手写数字数据库。含有8100000条带标签数据。类别有10类,特征有784个。数据采用libsvm数据格式。
实验一:使用1600条有标签数据作为训练集LA,400条有标签数据作为训练集LB,98000条无标签数据作为U,100000条带标签数据作为测试集。进行本发明算法的半监督分类学习和训练。并与基于spark的随机森林算法实验进行对比。经过多组实验验证,本发明的半监督学习算法得到的分类模型错误率均值为19.168%。而基于spark的监督随机森林模型的分类错误率为22.86%。本次实验说明本算法性能提升超过百分之三。
实验二:使用1600条有标签数据作为训练集LA,400条有标签数据作为训练集LB,298000条无标签数据作为U,700000条带标签数据作为测试集。经过多次实验本发明的半监督分类模型错误率均值为19.276%。而基于spark的监督随机森林模型错误率为25.24%。性能提升在6%左右。本次实验中,通过不断增加无标签训练集U的大小,观察本发明半监督分类模型的分类错误率变化。实验结果如下表1所示:
表1
实验结果证明了随着训练样本的增加,训练模型分类错误率不断下降。表明本发明的分布式环境下的半监督学习算法能起到预想的效果。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于Spark的半监督随机森林分类方法,其特征在于:包括以下步骤:
S1:将标签训练样本切分为第一二标签训练样本并用第一训练样本训练第一随机森林模型第二随机森林模型和第三随机森林模型
S2:针对第一随机森林根据第二随机森林和第三随机森林对第二标签训练样本进行分类,如果第二随机森林和第三随机森林的分类结果相同且都不等于标签值,则错误数加一;计算标记错误率
S3:根据第二随机森林和第三随机森林对无标签数据集U进行分类,如果分类结果相同则进行类别标注,如果不同则删除,得到带标签数据集
S4:判断错误率是否满足条件:如果是,则进行步骤S6;如果否,则将第一随机森林hi改为第一随机森林的上一轮的值;
S5:设置带标签数据集的初始值:
S6:判断带标签数据集是否满足公式:如果是,则进行步骤S8;如果否,则对第一随机森林hi不做更新;
S7:判断是否满足公式:如果是,则进行步骤S9;如果不满足但满足则进行步骤S10,如果都不满足则第一随机森林hi不做更新;
S8:根据公式计算并重新训练第一随机森林hi
S9:从带标签数据集中无放回抽样,抽出数量满足公式抽出的样本子集作为然后同步骤S9重新训练第一随机森林hi
S10:当第一随机森林模型第二随机森林模型和第三随机森林模型都不进行更新的时候结束半监督学习分类模型训练,否则回到步骤S2继续重复训练;
S11:利用第一随机森林模型第二随机森林模型和第三随机森林模型对测试样本进行分类。
2.如权利要求1所述的基于Spark的半监督随机森林分类方法,其特征在于:所述步骤S1中按照以下方式将标签训练样本切分为第一标签训练样本和第二标签训练样本:
所述第一标签训练样本为标签训练样本的70-90%,第二标签训练样本为标签训练样本的30-10%,并用第一标签训练样本反复训练第一随机森林模型第二随机森林模型和第三随机森林模型
3.如权利要求1所述的基于Spark的半监督随机森林分类方法,其特征在于:所述步骤S5中按照以下公式来计算带标签数据集的初始值:
其中,表示初始化的新标记无标签数据集;
表示;第t轮迭代,利用第t-1轮训练出的随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成然后用训练新的随机森林
表示的标记错误率;
表示随机森林(m≠i≠n)从无标签数据集U中选择高置信度的数据构成数据集的标记错误率。
4.如权利要求1所述的基于Spark的半监督随机森林分类方法,其特征在于:所述标记错误率的取值范围为
CN201610340166.7A 2016-05-20 2016-05-20 一种基于Spark的半监督随机森林分类方法 Pending CN106056134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610340166.7A CN106056134A (zh) 2016-05-20 2016-05-20 一种基于Spark的半监督随机森林分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610340166.7A CN106056134A (zh) 2016-05-20 2016-05-20 一种基于Spark的半监督随机森林分类方法

Publications (1)

Publication Number Publication Date
CN106056134A true CN106056134A (zh) 2016-10-26

Family

ID=57177231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610340166.7A Pending CN106056134A (zh) 2016-05-20 2016-05-20 一种基于Spark的半监督随机森林分类方法

Country Status (1)

Country Link
CN (1) CN106056134A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169525A (zh) * 2017-06-01 2017-09-15 腾云天宇科技(北京)有限公司 一种确定移动终端应用场景的方法、装置和移动终端
CN107358142A (zh) * 2017-05-15 2017-11-17 西安电子科技大学 基于随机森林构图的极化sar图像半监督分类方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109211814A (zh) * 2018-10-29 2019-01-15 中国科学院南京土壤研究所 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN109284776A (zh) * 2018-08-24 2019-01-29 小沃科技有限公司 用于防沉迷系统的基于随机森林的自训练学习系统及方法
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
CN109522788A (zh) * 2018-09-30 2019-03-26 广州地理研究所 基于随机森林分类算法的城市范围提取方法、装置及电子设备
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN110750694A (zh) * 2019-09-29 2020-02-04 支付宝(杭州)信息技术有限公司 数据标注实现方法及装置、电子设备、存储介质
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN113221115A (zh) * 2021-07-09 2021-08-06 四川大学 基于协同学习的可视化恶意软件检测方法
CN114859351A (zh) * 2022-06-10 2022-08-05 重庆地质矿产研究院 一种基于神经网络的地表形变场异常检测的方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358142A (zh) * 2017-05-15 2017-11-17 西安电子科技大学 基于随机森林构图的极化sar图像半监督分类方法
CN107358142B (zh) * 2017-05-15 2020-12-08 西安电子科技大学 基于随机森林构图的极化sar图像半监督分类方法
CN107169525B (zh) * 2017-06-01 2020-05-19 腾云天宇科技(北京)有限公司 一种确定移动终端应用场景的方法、装置和移动终端
CN107169525A (zh) * 2017-06-01 2017-09-15 腾云天宇科技(北京)有限公司 一种确定移动终端应用场景的方法、装置和移动终端
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN107657288B (zh) * 2017-10-26 2020-07-03 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108256052A (zh) * 2018-01-15 2018-07-06 成都初联创智软件有限公司 基于tri-training的汽车行业潜在客户识别方法
CN109284776A (zh) * 2018-08-24 2019-01-29 小沃科技有限公司 用于防沉迷系统的基于随机森林的自训练学习系统及方法
CN109284776B (zh) * 2018-08-24 2022-05-03 小沃科技有限公司 用于防沉迷系统的基于随机森林的自训练学习系统及方法
CN109522788A (zh) * 2018-09-30 2019-03-26 广州地理研究所 基于随机森林分类算法的城市范围提取方法、装置及电子设备
CN109211814A (zh) * 2018-10-29 2019-01-15 中国科学院南京土壤研究所 一种基于三维光谱曲面分区特征的土壤剖面类型识别方法
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
CN109840551B (zh) * 2019-01-14 2022-03-15 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN109840551A (zh) * 2019-01-14 2019-06-04 湖北工业大学 一种用于机器学习模型训练的优化随机森林参数的方法
CN110245235A (zh) * 2019-06-24 2019-09-17 杭州微洱网络科技有限公司 一种基于协同训练的文本分类辅助标注方法
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN110414622B (zh) * 2019-08-06 2022-06-24 广东工业大学 基于半监督学习的分类器训练方法及装置
CN110750694A (zh) * 2019-09-29 2020-02-04 支付宝(杭州)信息技术有限公司 数据标注实现方法及装置、电子设备、存储介质
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN111259933B (zh) * 2020-01-09 2023-06-13 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN113221115A (zh) * 2021-07-09 2021-08-06 四川大学 基于协同学习的可视化恶意软件检测方法
CN114859351A (zh) * 2022-06-10 2022-08-05 重庆地质矿产研究院 一种基于神经网络的地表形变场异常检测的方法

Similar Documents

Publication Publication Date Title
CN106056134A (zh) 一种基于Spark的半监督随机森林分类方法
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
Bouveyron et al. Robust supervised classification with mixture models: Learning from data with uncertain labels
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
Zhao et al. Deep image clustering with category-style representation
CN110807465A (zh) 一种基于通道损失函数的细粒度图像识别方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN115205570B (zh) 一种基于对比学习的无监督跨域目标重识别方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
US8977041B2 (en) Systems and methods for creating a visual vocabulary
CN109165672A (zh) 一种基于渐进式学习的集成分类方法
CN112241475B (zh) 基于维度分析量化器哈希学习的数据检索方法
CN107330448A (zh) 一种基于标记协方差和多标记分类的联合学习方法
Kim et al. Improving discrimination ability of convolutional neural networks by hybrid learning
CN115331752B (zh) 一种能够自适应预测石英形成环境的方法
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
Pelikan et al. Getting the best of both worlds: Discrete and continuous genetic and evolutionary algorithms in concert
CN110009049A (zh) 一种基于自步约束机制的可监督图像分类方法
Yang et al. Unsupervised adaptation of neural networks for chinese handwriting recognition
CN115861902A (zh) 无监督的动作迁移和发现方法、系统、设备和介质
CN110378405A (zh) 基于迁移学习的Adaboost算法的高光谱遥感影像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161026

RJ01 Rejection of invention patent application after publication