CN103150578A - 一种基于半监督学习的支持向量机分类器训练方法 - Google Patents

一种基于半监督学习的支持向量机分类器训练方法 Download PDF

Info

Publication number
CN103150578A
CN103150578A CN 201310121254 CN201310121254A CN103150578A CN 103150578 A CN103150578 A CN 103150578A CN 201310121254 CN201310121254 CN 201310121254 CN 201310121254 A CN201310121254 A CN 201310121254A CN 103150578 A CN103150578 A CN 103150578A
Authority
CN
China
Prior art keywords
sample
sample set
mark
semi
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310121254
Other languages
English (en)
Inventor
冷严
徐新艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN 201310121254 priority Critical patent/CN103150578A/zh
Publication of CN103150578A publication Critical patent/CN103150578A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明具体公开了一种基于半监督学习的支持向量机分类器训练方法,包括如下步骤:步骤1用初始已标注样本集训练一个初始SVM分类器;步骤2从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;步骤3对高置信度样本集S中的每个样本,按照图3所描述的方法判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;步骤4将S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;步骤5用更新的已标注样本集L重新训练SVM分类器;步骤6根据停止准则判断是退出循环还是继续迭代。

Description

一种基于半监督学习的支持向量机分类器训练方法
技术领域
本发明涉及机器学习领域,特别是一种基于半监督学习的支持向量机分类器训练方法。
背景技术
在机器学习领域,为了训练一个具有良好分类性能的分类器,需要用大量已标注样本来参与训练。但是样本的标注工作枯燥无味,且需要耗费人们大量的时间与精力,这使得通过人工标注来获得标注样本的代价昂贵。为了克服这一难题,专家们提出了半监督学习技术。半监督学习是一个循环迭代的过程,具体可分为以下几类:自训练半监督学习、以生成式模型为分类器的半监督学习、直推式支持向量机半监督学习、基于图的半监督学习和协同训练半监督学习。本发明实施例所采用的半监督学习属于自训练半监督学习。
自训练半监督学习的一般流程为:
①用少量初始已标注样本训练一个初始分类器;
②用分类器对未标注样本进行分类;
③从未标注样本集中寻找分类置信度高的样本;
④由机器为这些高置信度的未标注样本自动标注;
⑤将标注后的高置信度样本加入分类器的训练集中,并用更新后的训练集重新训练分类器;
⑥检查是否满足停止准则,不满足则返回②,进入下一轮循环;满足则停止迭代,输出训练好的分类器。
在半监督学习中,采样分类置信度高的样本能确保在机器自动标注时不至于引入太多的标注错误,但是高置信度的样本未必是有用的样本,尤其是对于像支持向量机(SupportVector Machines,SVM)这种判别式分类器来说。对SVM分类器来说,那些远离当前分类面的样本的分类置信度较高。然而,仅仅是分类置信度高还不够,我们希望样本在保证高置信度的同时,其信息含量也要大。所谓信息含量大是指样本对分类训练来说是有用的样本,其对分类器训练的贡献度大。基于此,本发明实施例在高置信度的基础上进一步挖掘样本的信息量,进而提出了一种新的基于半监督学习的支持向量机分类器训练方法。
发明内容
本发明具体公开了一种基于半监督学习的支持向量机分类器训练方法。该方法对于那些远离当前分类面的高置信度样本,进一步挖掘其信息量;然后挑选那些置信度高且信息量大的样本,由机器自动标注后放入已标注样本集中重新训练分类器,以达到加快SVM分类器的收敛,提高SVM分类器的分类性能的目的。
本发明采用的技术方案如下:
一种基于半监督学习的支持向量机分类器训练方法,包括如下步骤:
步骤1用初始已标注样本集训练一个初始SVM分类器;
步骤2用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;
步骤3对高置信度样本集S中的每个样本,判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;
步骤4将高置信度样本集S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;
步骤5用更新的已标注样本集L重新训练SVM分类器;
步骤6根据停止准则判断是退出循环还是继续迭代。
所述的步骤1中,初始已标注样本集的选择方法如下:首先对所有未标注样本进行聚类,得到若干个簇,然后从每个簇中选择距离质心最近的样本进行人工标注,进而形成初始已标注样本集。
所述的步骤2中,寻找置信度高的样本,进而组成高置信度样本集S的方法如下:
支持向量机分类器在每轮迭代训练过程中会不断更新,进而得到新的分类面,把当前这轮迭代后生成的新分类面称为当前分类面;设定一个阈值dth,规定那些距离当前分类面距离大于阈值dth的样本是高置信度样本;由这些高置信度样本组成如下高置信度样本集S:
S={xi|xi∈U,d(xi)>dth}
其中,d(xi)表示样本xi距离当前分类面的距离;通常分类间隔
Figure BDA00003027482700021
被置为1,则
d ( x i ) = | f ( x i ) | | w | | | = | f ( x i ) | .
= | w T φ ( x i ) + b |
所述的步骤3中,判断样本信息量大小的步骤如下:
①从整个样本集中寻找当前分类面的K个最近邻样本x1,x2,...,xK,并求此K个样本到当前分类面距离的平均值,记为Ad1,所述的整个样本集包括已标注样本集L和未标注样本集U,即:
Ad 1 = 1 K Σ i = 1 K d ( x i )
②对高置信度样本xi,为其添加预测类标签后将其放入已标注样本集L中;
③用更新的已标注样本集L重新训练SVM分类器;
④用SVM分类器对已标注样本集L中的人工标注样本进行分类;
⑤观察SVM分类器对人工标注样本的分类是否出现错误,出现分类错误则认为xi的信息量小,将其从S中移除,并重新放回未标注样本集U中;
⑥在⑤中如果没出现分类错误,则从整个样本集中寻找当前分类面的K个最近邻样本,并求此K个样本到当前分类面距离的平均值,记为Ad2;
⑦观察⑥中的K个最近邻样本中是否既包含正类样本也包含负类样本,而且满足Ad2>Ad1,否的话则认为xi是信息量小的样本,将其从S中移除,并重新放回未标注样本集U中;
⑧当在⑤中没有出现分类错误,同时在⑦中,K个最近邻样本中既包含正类样本又包含负类样本,而且满足Ad2>Ad1时,则认为xi是信息量大的样本,将xi保留在S中;
⑨将分类器恢复到重新训练之前的状态。
所述的步骤①和步骤⑥中所述K的具体取值确定方法:要求这K个近邻样本中既要包含正类样本,又要包含负类样本,且正类样本数和负类样本数的比例与根据先验知识已知的正类样本数和负类样本数的比例偏差不能过大;设K个近邻样本中,正类样本的数量为K+,负类样本的数量为K-,根据先验知识已知正类样本数和负类样本数的比例为r,设定阈值α,则上述要求可表述为:
| K + K - - r | < &alpha;
取满足上述要求的K值中的最小正整数值作为K的最终取值。
步骤⑤中是否出现分类错误的判断方法为:人工标注样本的真实标签是已知的,用SVM分类器对人工标注样本进行分类可以得到人工标注样本的预测标签,如果两个标签不一致则表示出现分类错误。
步骤⑨中将分类器恢复到重新训练之前的状态的方法是,将样本xi从已标注样本集L中移除,然后用L重新训练SVM分类器。
所述的步骤6中,停止准则采用的是最大迭代次数法,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代。
本发明的有益效果:
1)基于半监督学习来训练SVM分类器能够大幅度减少人工标注的工作量;
2)在半监督学习的采样过程中,选择置信度高且信息量大的样本能加快SVM分类器的收敛,提高SVM分类器的分类性能。
附图说明
图1是本发明实施例提出的基于半监督学习的支持向量机分类器训练方法的流程图。
图2是从未标注样本集U中寻找分类置信度高的样本,进而生成高置信度样本集S的流程图。
图3是对高置信度样本集S中的样本判断其信息量大小,并将信息量小的样本从高置信度样本集S中移除的结构框图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合附图详细阐述。显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是本发明实施例提出的基于半监督学习的支持向量机分类器训练方法的流程图,具体包括以下六个步骤:(1)用初始已标注样本集训练一个初始SVM分类器;(2)从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;(3)对高置信度样本集S中的每个样本,按照图3所描述的方法判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;(4)将S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;(5)用更新的已标注样本集L重新训练SVM分类器;(6)根据停止准则判断是退出循环还是继续迭代。
下面详细阐述以上六部分内容:
(1)用初始已标注样本集训练一个初始SVM分类器
半监督学习是一个循环迭代的过程,在迭代开始之前首先需要用初始的已标注样本集训练一个初始分类器,以启动整个循环迭代过程。在分类器开始训练之前,所有的样本都是没有标注的。初始已标注样本集是指从所有未标注样本中选择少量样本,由专家人工标注后形成的一个已标注样本集。本实施例采用基于聚类的采样法来选择样本,以生成初始已标注样本集。基于聚类的采样法是指首先对所有未标注样本进行聚类,得到若干个簇,然后从每个簇中选择距离质心最近的样本进行人工标注。基于聚类的采样法所选择的初始已标注样本具有代表性,能为半监督学习提供一个良好的起点,初始已标注样本集的大小可以根据整个样本集的大小和标注专家对标注工作量的接受程度来确定。
已标注样本集用L表示,初始已标注样本集相当于是已标注样本集L的初始值。整个样本集在去除已标注样本后,剩下的样本组成了未标注样本集,用U表示。
下面通过介绍SVM的原理来阐述如何用初始已标注样本集训练初始分类器。
支持向量机(Support Vector Machines,SVM)原理:
SVM是一个两类分类器,其决策函数可以表达为:
f(x)=wTφ(x)+b    (1)
w和b分别表示权值向量和偏斜量。f(x)=wTφ(x)+b=0所表示的超平面即为SVM的分类面。如果训练样本是线性可分的,则φ(x)=x;否则,φ(·)表示一个非线性映射函数,该函数能将训练样本映射到一个高维空间,在此高维空间中,训练样本是线性可分的。
对于两类分类问题,设在d维空间中有一组训练样本xi∈Rdi=1,...,N,样本的类别标签为y∈{+1,-1}。SVM就是要寻找一个最优分类面,使得该分类面既能对训练样本xi∈Rdi=1,...,N正确分类,同时又能最大化分类间隔
Figure BDA00003027482700051
具体可以表述为:
min &omega; , b , &xi; 1 2 &omega; T &omega; + C &Sigma; i = 1 N &xi; i - - - ( 2 )
subject to yiTφ(xi)+b)≥1-ξii≥0,i=1,...,N
其中,ξi代表松弛变量。含有松弛变量的分类是一种软分类。C是惩罚因子,用来控制对松弛变量ξi的惩罚程度。通过拉格朗日乘子法求解公式(2)中的优化问题可得:
&omega; = &Sigma; i = 1 N &alpha; i y i &phi; ( x i ) - - - ( 3 )
其中,αi是拉格朗日乘子。公式(3)中有相当多的αi值会等于0,而那些αi值不等于0的样本被称之为支持向量。将(3)式代入(1)式后可将SVM的决策函数重写为:
f ( x ) = &omega; T &phi; ( x ) + b = &Sigma; i = 1 M &alpha; i y i &phi; ( x i ) T &phi; ( x ) + b - - - ( 4 )
其中,M表示支持向量的个数。φ(xi)Tφ(x)的值可以通过核函数k(xi,x)=φ(xi)Tφ(x)求得,而不需知道映射函数φ(·)的显式表达式。本实施例中我们选用的是径向基核函数,即
k(xi,x)=exp(-γ||xi-x||2)    (5)
公式(2)中的惩罚因子C和公式(5)中的参数γ是通过大家所熟知的交叉验证得到的。
对于任一测试样本x,将其代入SVM分类器,根据公式(4)求得输出值f(x)。f(x)>0,则样本x属于+1类,f(x)<0,则样本x属于-1类。这里的+1类、-1类标签称作用SVM分类器分类得到的预测类标签。
(2)用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S,从未标注样本集U中寻找高置信度样本的流程框图如图2所示。支持向量机分类器在每轮迭代训练过程中会不断更新,进而得到新的分类面,把当前这轮迭代后生成的新分类面称为当前分类面。对SVM分类器来说,那些远离当前分类面的样本的分类置信度较高。为此,我们可以设定一个阈值dth,规定那些距离当前分类面距离大于阈值dth的样本是高置信度样本。由这些高置信度样本组成如下高置信度样本集S:
S={xi|xi∈U,d(xi)>dth}    (6)
其中,d(xi)表示样本xi距离当前分类面的距离。通常分类间隔
Figure BDA00003027482700062
被置为1,则
d ( x i ) = | f ( x i ) | | w | | | = | f ( x i ) | - - - ( 7 )
= | w T &phi; ( x i ) + b |
(3)对高置信度样本集S中的每个样本,按照图3所描述的方法判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中
判断样本信息量大小的方法如图3所示,其具体的执行过程如下:
①从整个样本集(包括已标注样本集L和未标注样本集U)中寻找当前分类面的K个最近邻样本x1,x2,...,xK,并求此K个样本到当前分类面距离的平均值,记为Ad1,即:
Ad 1 = 1 K &Sigma; i = 1 K d ( x i ) - - - ( 8 )
K近邻中K的具体取值我们是这样来确定的:要求这K个近邻样本中既要包含正类样本,又要包含负类样本,且正类样本数和负类样本数的比例与根据先验知识已知的正类样本数和负类样本数的比例偏差不能过大。设K个近邻样本中,正类样本的数量为K+,负类样本的数量为K-,根据先验知识已知正类样本数和负类样本数的比例为r,设定阈值α,则上述要求可表述为:
| K + K - - r | < &alpha; - - - ( 9 )
取满足上述要求的K值中的最小正整数值作为K的最终取值。
②对高置信度样本xi,为其添加预测类标签后将其放入已标注样本集L中;
③用更新的已标注样本集L重新训练SVM分类器;
④用SVM分类器对已标注样本集L中的人工标注样本进行分类;
已标注样本集L中既包含人工标注样本,也包含半监督学习过程中由机器自动标注的样本。注意,这里只是对已标注样本集L中的人工标注样本进行分类。这些人工标注样本也即(1)中所述的初始已标注样本。
⑤观察SVM分类器对人工标注样本的分类是否出现错误,出现分类错误则认为xi的信息量小,将其从S中移除,并重新放回未标注样本集U中;
人工标注样本的真实标签是已知的,用SVM分类器对人工标注样本进行分类可以得到人工标注样本的预测标签,如果两个标签不一致则表示出现分类错误。出现分类错误意味着样本xi在参与SVM分类器的训练以后致使分类器对人工标注样本不能完全正确分类。然而,分类器对人工标注样本能完全正确分类这一点是很重要的,也是必须保证的,因为在(1)中我们已指出这些人工标注样本是通过基于聚类的采样法选择得到的,它们非常有代表性。所以,如果出现分类错误,我们认为样本xi对分类器的训练是无益的,因而将其看作是信息量小的样本。
⑥在⑤中如果没出现分类错误,则从整个样本集(包括已标注样本集L和未标注样本集U)中寻找当前分类面的K个最近邻样本,并求此K个样本到当前分类面距离的平均值,记为Ad2;
⑦观察⑥中的K个最近邻样本中是否既包含正类样本也包含负类样本,而且满足Ad2>Ad1。否的话则认为xi是信息量小的样本,将其从S中移除,并重新放回未标注样本集U中;
⑧当在⑤中没有出现分类错误,同时在⑦中,K个最近邻样本中既包含正类样本又包含负类样本,而且满足Ad2>Ad1时,则认为xi是信息量大的样本,将xi保留在S中;
在⑤中没有出现分类错误意味着将样本xi参与到SVM分类器的训练不会影响到对人工标注样本的正确分类。当⑦中的K个最近邻样本既包含正类样本又包含负类样本,而且满足Ad2>Ad1时,这意味着将样本xi参与到SVM分类器的训练以后,分类面朝向两类之间更加稀疏的区域调节。根据半监督学习的聚类假设“决策边界应当穿过数据分布较为稀疏的区域”可知,样本xi是信息量大的样本。要求K个最近邻样本中既包含正类样本又包含负类样本是因为,如果不同时包含正类样本和负类样本,则很有可能当前的分类面是处于正类或负类的类内部的稀疏区域,而不是处在两类分类边界上的稀疏区域。而要求满足Ad2>Ad1是因为Ad2>Ad1意味着将xi参与到SVM分类器的训练以后,新的分类面与重新训练前的分类面相比,处在了更加稀疏的区域。
⑨将分类器恢复到重新训练之前的状态。
将分类器恢复到重新训练之前的状态是指,将样本xi从已标注样本集L中移除,然后用L重新训练SVM分类器,将其恢复到样本xi参与训练之前的状态。这里之所以要求将分类器恢复到重新训练之前的状态是因为在②、③中,我们将xi添加了预测标签后加入到已标注样本集L中,并且用更新的L重新训练了分类器,而在这一部分,重新训练分类器不是目的,我们只是想通过这种手段来判断样本xi的信息量大小。当判断了xi的信息量大小之后,要求将分类器及时恢复到重新训练之前的状态。
(4)将S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中
经过第(3)步后,S中的剩余样本不但置信度高,而且信息量大。将S中的样本交由机器自动标注后,将其放入已标注样本集L中。
(5)用更新的已标注样本集L重新训练SVM分类器
(6)根据停止准则判断是退出循环还是继续迭代
判断是否满足停止准则,满足则退出循环,输出训练好的SVM分类器;不满足则转入(2),进入下一轮迭代。
停止准则有多种设置方法。本实施例采用的是最大迭代次数法,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代。

Claims (8)

1.一种基于半监督学习的支持向量机分类器训练方法,其特征在于:包括如下步骤:
步骤1用初始已标注样本集训练一个初始SVM分类器;
步骤2用SVM分类器从未标注样本集U中寻找分类置信度高的样本,组成高置信度样本集S;
步骤3对高置信度样本集S中的每个样本,判断其信息量大小,如果信息量小则将其从高置信度样本集S中移除,并重新放回未标注样本集U中;
步骤4将高置信度样本集S中置信度高且信息量大的样本由机器自动标注后加入SVM分类器的已标注样本集L中;
步骤5用更新的已标注样本集L重新训练SVM分类器;
步骤6根据停止准则判断是退出循环还是继续迭代。
2.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤1中,初始已标注样本集的选择方法如下:
首先对所有未标注样本进行聚类,得到若干个簇,然后从每个簇中选择距离质心最近的样本进行人工标注,进而形成初始已标注样本集。
3.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤2中,寻找置信度高的样本,进而组成高置信度样本集S的方法如下:
支持向量机分类器在每轮迭代训练过程中会不断更新,进而得到新的分类面,把当前这轮迭代后生成的新分类面称为当前分类面;设定一个阈值dth,规定那些距离当前分类面距离大于阈值dth的样本是高置信度样本;由这些高置信度样本组成如下高置信度样本集S:
S={xi|xi∈U,d(xi)>dth}
其中,d(xi)表示样本xi距离当前分类面的距离;通常分类间隔
Figure FDA00003027482600011
被置为1,则
d ( x i ) = | f ( x i ) | | w | | | = | f ( x i ) | .
= | w T &phi; ( x i ) + b |
4.如权利要求1所述的一种基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤3中,判断样本信息量大小的步骤如下:
①从整个样本集中寻找当前分类面的K个最近邻样本x1,x2,...,xK,并求此K个样本到当前分类面距离的平均值,记为Ad1,所述的整个样本集包括已标注样本集L和未标注样本集U,即:
Ad 1 = 1 K &Sigma; i = 1 K d ( x i )
②对高置信度样本xi,为其添加预测类标签后将其放入已标注样本集L中;
③用更新的已标注样本集L重新训练SVM分类器;
④用SVM分类器对已标注样本集L中的人工标注样本进行分类;
⑤观察SVM分类器对人工标注样本的分类是否出现错误,出现分类错误则认为xi的信息量小,将其从S中移除,并重新放回未标注样本集U中;
⑥在⑤中如果没出现分类错误,则从整个样本集中寻找当前分类面的K个最近邻样本,并求此K个样本到当前分类面距离的平均值,记为Ad2;
⑦观察⑥中的K个最近邻样本中是否既包含正类样本也包含负类样本,而且满足Ad2>Ad1;否的话则认为xi是信息量小的样本,将其从S中移除,并重新放回未标注样本集U中;
⑧当在⑤中没有出现分类错误,同时在⑦中,K个最近邻样本中既包含正类样本又包含负类样本,而且满足Ad2>Ad1时,则认为xi是信息量大的样本,将xi保留在S中;
⑨将分类器恢复到重新训练之前的状态。
5.如权利要求4所述的基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤①和步骤⑥中所述K的具体取值确定方法:要求这K个近邻样本中既要包含正类样本,又要包含负类样本,且正类样本数和负类样本数的比例与根据先验知识已知的正类样本数和负类样本数的比例偏差不能过大;设K个近邻样本中,正类样本的数量为K+,负类样本的数量为K-,根据先验知识已知正类样本数和负类样本数的比例为r,设定阈值α,则上述要求可表述为:
| K + K - - r | < &alpha;
取满足上述要求的K值中的最小正整数值作为K的最终取值。
6.如权利要求4所述的基于半监督学习的支持向量机分类器训练方法,其特征在于:步骤⑤中是否出现分类错误的判断方法为:人工标注样本的真实标签是已知的,用SVM分类器对人工标注样本进行分类可以得到人工标注样本的预测标签,如果两个标签不一致则表示出现分类错误。
7.如权利要求4所述的基于半监督学习的支持向量机分类器训练方法,其特征在于:步骤⑨中将分类器恢复到重新训练之前的状态的方法是,将样本xi从已标注样本集L中移除,然后用L重新训练SVM分类器。
8.如权利要求1所述的基于半监督学习的支持向量机分类器训练方法,其特征在于:所述的步骤6中,停止准则采用的是最大迭代次数法,即设定迭代次数的最大值,当迭代次数达到此最大值时则停止迭代。
CN 201310121254 2013-04-09 2013-04-09 一种基于半监督学习的支持向量机分类器训练方法 Pending CN103150578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310121254 CN103150578A (zh) 2013-04-09 2013-04-09 一种基于半监督学习的支持向量机分类器训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310121254 CN103150578A (zh) 2013-04-09 2013-04-09 一种基于半监督学习的支持向量机分类器训练方法

Publications (1)

Publication Number Publication Date
CN103150578A true CN103150578A (zh) 2013-06-12

Family

ID=48548640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310121254 Pending CN103150578A (zh) 2013-04-09 2013-04-09 一种基于半监督学习的支持向量机分类器训练方法

Country Status (1)

Country Link
CN (1) CN103150578A (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489003A (zh) * 2013-09-29 2014-01-01 华南理工大学 一种基于云计算的手机图像标注方法
CN103488297A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于脑机接口的在线半监督文字输入系统及方法
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
CN104346751A (zh) * 2014-11-11 2015-02-11 苏州晨川通信科技有限公司 一种半自动算法交易方法
CN104517120A (zh) * 2014-12-04 2015-04-15 西安电子科技大学 基于多路分层正交匹配的遥感图像场景分类方法
CN104573709A (zh) * 2014-12-24 2015-04-29 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN104598923A (zh) * 2015-01-08 2015-05-06 深圳信息职业技术学院 基于score输出值百分比的可控置信机器算法
CN104734894A (zh) * 2013-12-18 2015-06-24 中国移动通信集团甘肃有限公司 一种流量数据筛选方法和装置
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN105224947A (zh) * 2014-06-06 2016-01-06 株式会社理光 分类器训练方法和系统
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN105468805A (zh) * 2014-09-25 2016-04-06 利弗莫尔软件技术公司 数字模拟结果的图形表示的表征
CN105915960A (zh) * 2016-03-31 2016-08-31 广州华多网络科技有限公司 一种用户类型的确定方法及装置
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN107526083A (zh) * 2017-10-18 2017-12-29 国网新疆电力公司电力科学研究院 一种基于天气雷达数据的强对流风力等级预测方法
CN107704878A (zh) * 2017-10-09 2018-02-16 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN107729908A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 一种机器学习分类模型的建立方法、装置及系统
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
WO2018187948A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的局部修复方法
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN109460914A (zh) * 2018-11-05 2019-03-12 云南大学 基于半监督的纠错学习的桥梁健康等级确定方法
CN109544163A (zh) * 2018-11-30 2019-03-29 华青融天(北京)软件股份有限公司 一种用户支付行为的风险控制方法、装置、设备及介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109800788A (zh) * 2018-12-18 2019-05-24 中国海洋大学 一种减少图像分割数据集标注的方法
CN109829497A (zh) * 2019-01-31 2019-05-31 清华四川能源互联网研究院 一种基于监督学习的台区用户识别及判别方法
CN109873774A (zh) * 2019-01-15 2019-06-11 北京邮电大学 一种网络流量识别方法及装置
CN110059781A (zh) * 2019-04-11 2019-07-26 北京信诺必成科技有限公司 奶牛数字化行为识别装置
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN110781906A (zh) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 一种基于半监督支持向量机的n-γ甄别方法
CN110991411A (zh) * 2019-12-20 2020-04-10 谢骏 适用于物流行业的智能单证结构化提取方法
CN111310791A (zh) * 2020-01-17 2020-06-19 电子科技大学 一种基于小样本数目集的动态渐进式自动目标识别方法
CN112699908A (zh) * 2019-10-23 2021-04-23 武汉斗鱼鱼乐网络科技有限公司 标注图片的方法、电子终端、计算机可读存储介质及设备
CN113095442A (zh) * 2021-06-04 2021-07-09 成都信息工程大学 基于半监督学习在多维度雷达数据下的冰雹识别方法
WO2022077917A1 (zh) * 2020-10-14 2022-04-21 平安科技(深圳)有限公司 实例分割模型样本筛选方法、装置、计算机设备及介质
CN116910660A (zh) * 2023-09-07 2023-10-20 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489003B (zh) * 2013-09-29 2017-04-19 华南理工大学 一种基于云计算的手机图像标注方法
CN103489003A (zh) * 2013-09-29 2014-01-01 华南理工大学 一种基于云计算的手机图像标注方法
CN103488297A (zh) * 2013-09-30 2014-01-01 华南理工大学 一种基于脑机接口的在线半监督文字输入系统及方法
CN103488297B (zh) * 2013-09-30 2016-04-13 华南理工大学 一种基于脑机接口的在线半监督文字输入系统及方法
CN104734894A (zh) * 2013-12-18 2015-06-24 中国移动通信集团甘肃有限公司 一种流量数据筛选方法和装置
CN103886330A (zh) * 2014-03-27 2014-06-25 西安电子科技大学 基于半监督svm集成学习的分类方法
CN103886330B (zh) * 2014-03-27 2017-03-01 西安电子科技大学 基于半监督svm集成学习的分类方法
CN105224947B (zh) * 2014-06-06 2018-11-13 株式会社理光 分类器训练方法和系统
CN105224947A (zh) * 2014-06-06 2016-01-06 株式会社理光 分类器训练方法和系统
CN105468805B (zh) * 2014-09-25 2020-03-10 利弗莫尔软件技术公司 一种表征数字模拟结果的图形表示的方法
CN105468805A (zh) * 2014-09-25 2016-04-06 利弗莫尔软件技术公司 数字模拟结果的图形表示的表征
CN104346751A (zh) * 2014-11-11 2015-02-11 苏州晨川通信科技有限公司 一种半自动算法交易方法
CN104517120B (zh) * 2014-12-04 2018-12-25 西安电子科技大学 基于多路分层正交匹配的遥感图像场景分类方法
CN104517120A (zh) * 2014-12-04 2015-04-15 西安电子科技大学 基于多路分层正交匹配的遥感图像场景分类方法
CN104573709B (zh) * 2014-12-24 2018-08-03 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN104573709A (zh) * 2014-12-24 2015-04-29 深圳信息职业技术学院 基于设置总的错分率的可控置信机器算法
CN104598923B (zh) * 2015-01-08 2018-06-22 深圳信息职业技术学院 基于score输出值百分比的可控置信机器分类方法
CN104598923A (zh) * 2015-01-08 2015-05-06 深圳信息职业技术学院 基于score输出值百分比的可控置信机器算法
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN105427129A (zh) * 2015-11-12 2016-03-23 腾讯科技(深圳)有限公司 一种信息的投放方法及系统
CN105915960A (zh) * 2016-03-31 2016-08-31 广州华多网络科技有限公司 一种用户类型的确定方法及装置
CN107729908A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 一种机器学习分类模型的建立方法、装置及系统
CN107729908B (zh) * 2016-08-10 2021-10-15 阿里巴巴集团控股有限公司 一种机器学习分类模型的建立方法、装置及系统
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
WO2018187948A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的局部修复方法
CN107704878A (zh) * 2017-10-09 2018-02-16 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN107704878B (zh) * 2017-10-09 2021-06-22 南京大学 一种基于深度学习的高光谱数据库半自动化建立方法
CN107526083A (zh) * 2017-10-18 2017-12-29 国网新疆电力公司电力科学研究院 一种基于天气雷达数据的强对流风力等级预测方法
CN107526083B (zh) * 2017-10-18 2019-05-31 国网新疆电力公司电力科学研究院 一种基于天气雷达数据的强对流风力等级预测方法
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN110781906A (zh) * 2018-07-31 2020-02-11 中国工程物理研究院电子工程研究所 一种基于半监督支持向量机的n-γ甄别方法
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109543713B (zh) * 2018-10-16 2021-03-26 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109460914A (zh) * 2018-11-05 2019-03-12 云南大学 基于半监督的纠错学习的桥梁健康等级确定方法
CN109544163A (zh) * 2018-11-30 2019-03-29 华青融天(北京)软件股份有限公司 一种用户支付行为的风险控制方法、装置、设备及介质
CN109800788A (zh) * 2018-12-18 2019-05-24 中国海洋大学 一种减少图像分割数据集标注的方法
CN109873774A (zh) * 2019-01-15 2019-06-11 北京邮电大学 一种网络流量识别方法及装置
CN109873774B (zh) * 2019-01-15 2021-01-01 北京邮电大学 一种网络流量识别方法及装置
CN109829497A (zh) * 2019-01-31 2019-05-31 清华四川能源互联网研究院 一种基于监督学习的台区用户识别及判别方法
CN110059781A (zh) * 2019-04-11 2019-07-26 北京信诺必成科技有限公司 奶牛数字化行为识别装置
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN112699908A (zh) * 2019-10-23 2021-04-23 武汉斗鱼鱼乐网络科技有限公司 标注图片的方法、电子终端、计算机可读存储介质及设备
CN110991411A (zh) * 2019-12-20 2020-04-10 谢骏 适用于物流行业的智能单证结构化提取方法
CN111310791A (zh) * 2020-01-17 2020-06-19 电子科技大学 一种基于小样本数目集的动态渐进式自动目标识别方法
WO2022077917A1 (zh) * 2020-10-14 2022-04-21 平安科技(深圳)有限公司 实例分割模型样本筛选方法、装置、计算机设备及介质
CN113095442A (zh) * 2021-06-04 2021-07-09 成都信息工程大学 基于半监督学习在多维度雷达数据下的冰雹识别方法
CN113095442B (zh) * 2021-06-04 2021-09-10 成都信息工程大学 基于半监督学习在多维度雷达数据下的冰雹识别方法
CN116910660A (zh) * 2023-09-07 2023-10-20 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统
CN116910660B (zh) * 2023-09-07 2024-01-23 山东省计算中心(国家超级计算济南中心) 面向不平衡数据的自步半监督集成分类器训练方法及系统

Similar Documents

Publication Publication Date Title
CN103150578A (zh) 一种基于半监督学习的支持向量机分类器训练方法
CN111914644B (zh) 一种基于双模态协同的弱监督时序动作定位方法及系统
Belouadah et al. Scail: Classifier weights scaling for class incremental learning
Hong et al. Cogvideo: Large-scale pretraining for text-to-video generation via transformers
CN106845530B (zh) 字符检测方法和装置
CN108614865B (zh) 基于深度强化学习的个性化学习推荐方法
Adhikari et al. Iterative bounding box annotation for object detection
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN110348580A (zh) 构建gbdt模型的方法、装置及预测方法、装置
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
JP5924713B2 (ja) テキストを分類する方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN109683871A (zh) 基于图像目标检测方法的代码自动生成装置及方法
CN112052818A (zh) 无监督域适应的行人检测方法、系统及存储介质
CN103198052B (zh) 一种基于支持向量机的主动学习方法
CN108241662A (zh) 数据标注的优化方法及装置
CN113033410B (zh) 基于自动数据增强的域泛化行人重识别方法、系统及介质
CN110929885A (zh) 一种面向智慧校园的分布式机器学习模型参数聚合方法
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN105302647A (zh) 一种MapReduce中备份任务推测执行策略的优化方案
CN116452897B (zh) 跨域小样本分类方法、系统、设备及存储介质
CN105912700A (zh) 一种基于tmpp模型的摘要生成方法
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
CN106815211B (zh) 一种基于循环聚焦机制进行文档主题建模的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130612

RJ01 Rejection of invention patent application after publication