CN107545274B - 半监督标签比例学习方法 - Google Patents

半监督标签比例学习方法 Download PDF

Info

Publication number
CN107545274B
CN107545274B CN201710585754.1A CN201710585754A CN107545274B CN 107545274 B CN107545274 B CN 107545274B CN 201710585754 A CN201710585754 A CN 201710585754A CN 107545274 B CN107545274 B CN 107545274B
Authority
CN
China
Prior art keywords
mrow
msup
mtd
mtr
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710585754.1A
Other languages
English (en)
Other versions
CN107545274A (zh
Inventor
徐志洁
张健钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN201710585754.1A priority Critical patent/CN107545274B/zh
Publication of CN107545274A publication Critical patent/CN107545274A/zh
Application granted granted Critical
Publication of CN107545274B publication Critical patent/CN107545274B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了半监督标签比例学习方法,包括:步骤一、提供由多幅数字图像构成的数据集,多幅数字图像分别对应于两个数字,提取每幅数字图像的特征;步骤二、假设训练集由K+1个数据包构成,有标签数据包中类别标签为已知,其他数据包中的数据点没有标签,类别标签比例为已知;步骤三、用训练集中每个数据包中正类样本点所占的比例,计算每个数据包的Yk,并表示Y,再计算数据包的平均值矩阵M;步骤四、用MATLAB中的二次规划优化函数quadprog求解优化问题,得到问题的最优解;步骤五、计算w和b,得到决策函数;步骤六、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负。本发明具有更好的学习性能,其预测准确率更高。

Description

半监督标签比例学习方法
技术领域
本发明涉及机器学习方法,尤其涉及一种半监督标签比例学习方法。
背景技术
根据当前的机器学习基础理论,机器学习分为监督学习,无监督学习和半监督学习三种。在监督学习中,所有样本点的输出均为已知,学习机通过对已知输出样例进行学习,建立输入x与输出y之间的映射关系,从而对新的样本进行分类或预测。在无监督学习中,所有样本点的输出均未提供,学习的目标是要发现数据中的有趣的结构。随着当今社会数字化技术的发展,数据采集和存储的能力大大提高,通过各种调查方式获取无标签的样本相对以前比较容易,但由于需要消耗相当的人力物力和财力,想要得到数量可观的有标签样本则要困难得多。因此在多数的实际情况下,训练集中无标签的实例的数量远远大于有标签实例的数量。如果只使用那些无标签的样本,无监督学习将会浪费掉有标签实例的价值。如果只使用那些少数的有标签样本,那么通过监督学习训练得到的学习模型扩展能力会很差,同时忽略掉了大量未标签实例的作用;所以,研究怎样合理的综合利用有标签样本和无标签样本来提高机器学习能力的半监督学习在许多实际问题中更具实用性。
近年来,标签比例学习成为机器学习领域的一个新的研究课题。它是一种不同于监督学习、无监督学习和半监督学习的一种新的学习框架。在标签比例学习中,样本点以数据包的形式给出,并提供每个数据包中各类样本点的比例,而具体的每个样本点的标签未知,学习的目的是要构造一个决策函数对新的样本点进行分类。标签比例学习在社会科学、医学、计算机科学、隐私保护等领域具有重要的应用价值。例如,已知汇总比例的多地区人口投票行为研究、垃圾邮件过滤、钢筋质量检验等。
然而,当前对于标签比例学习的研究尚不深入,对于现实生活中的实际问题并没有表现出优秀的处理能力。因此,这里提出一种将标签比例学习框架与半监督模型以及逆标定算法结合起来的方法,来解决一些常见的实际问题。
发明内容
针对上述技术问题,本发明设计开发了一种预测准确度更高的半监督标签比例学习方法。
本发明提供的技术方案为:
一种半监督标签比例学习方法,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
s.t.
O≤α≤Cp
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,优化变量α,α*∈RK*∈Rp**∈Rl-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b)。
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
优选的是,所述的半监督标签比例学习方法中,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
优选的是,所述的半监督标签比例学习方法,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
优选的是,所述的半监督标签比例学习方法中,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
本发明所述的半监督标签比例学习方法提出了一种基于支持向量机和逆标定算法的半监督标签比例学习模型,并对其算法进行了研究,本发明中的训练样本以数据包的形式给出,有标签训练样本点包含在一个单独的数据包中,其余数据包中的样本点的类别标签未知,但是提供了每个数据包中各类样本点所占的比例,学习的目标是要确定每个训练样本点的类别标签,并可以对新的样本点进行分类,试验结果表明,相对于标签比例学习模型,本发明具有更好的学习性能,其预测准确率更高。
附图说明
图1为本发明所述的半监督标签比例学习方法的流程图。
图2为实施例中MNIST手写数据集的“5”和“8”的部分样本。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种半监督标签比例学习方法,包括:
一种半监督标签比例学习方法,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
s.t.
0≤α≤Cp
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,优化变量α,α*∈RK*∈Rp**∈Rl-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b)。
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
在一个优选的实施例中,所述的半监督标签比例学习方法中,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
在一个优选的实施例中,为了选择合适的参数和测试最后得到的决策函数的分类能力,所述的半监督标签比例学习方法,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
在一个优选的实施例中,为了评价算法的优劣,所述的半监督标签比例学习方法中,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
现对本发明所述的半监督标签比例学习模型的建立过程进行说明:
考虑二分类的半监督标签比例学习问题,假设训练集T={x1,x2,…,xN}由K+1个数据包构成,即
T=B1∪B2∪…∪BK∪D,
且数据包不相交,即对于任意i≠j,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知。B1,…,BK中的数据点没有标签,但是每个数据包中的类别标签比例为已知,将第k个数据包Bk中的正类样本点所占的比例记为pk,则
其中|·|表示集合中元素的个数,表示xi的未知的真实的类别标签。
学习的目标是寻找一个线性分类函数:
g(x)=wTx+b,
以便用决策函数:
f(x)=sgn(g(x))
推断任意样本x∈Rn相对应的二值标签y的值。
要解决的原始问题可以完整的描述为:
其中,Cp,Cq是惩罚参数,ξ=(ξ1,…ξK)T,η=(η1,…ηl)T,是松弛变量,M=(m1,…mK)T,mk是第k个数据包的样本平均值,ε=(ε1,…εK)T是定义了最小预测精度的参数。
模型(6)的目标函数的第一项使分类间隔最大,第二项使利用公式(3)预测的类标签比例与已知的类标签比例pk尽可能接近,第三项使已知标记的样本尽可能分对。
为了求解该凸二次规划问题,引入它的对偶问题。构造拉格朗日函数如下:
其中,α=(α1,…αK)T,β=(β1,…βl)T,μ=(μ1,…μK)T,ν=(ν1,…νK)T,λ=(λ1,…λl)T是拉格朗日乘子。分别将拉格朗日函数对w,b,ξ,ξ*,η求偏导,并令其等于0,得到KKT条件如下:
由式(8~12)可得:
μ=Cp-α
v=Cp*
λ=Cq
由于Cp,Cq,μ,ν,λ≥0,于是0≤α,α*≤Cp,0≤β≤Cq
根据优化问题的对偶理论,原始问题的对偶问题可以表示为:
s.t.
0≤α≤Cp
0≤α*≤Cp
0≤β≤Cq (13)
令Y=(Y1,Y2,...,Yk)T, (15)
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,β*=(β1,β2,...,βp)T为A中的样本点对应的松弛因子,β**=(βp+1,βp+2,...,βi)T为B中的样本点对应的松弛因子,则问题(12)可以改写为
其中e1,e2,e3为适合维数的全1向量。
最后,经过合并和化简可以将式(16)转变为二次型的形式:
s.t.
0≤α≤Cp
0≤α*≤Cp
0≤β≤Cq
(17)
求解上述优化问题后,得到α,α*,β*,β**的值,w和b可以由如下公式计算:
w=MT(α-α*)+ATβ*-BTβ** (18)
b=yj-wTxj (19)
这里下标j∈{j|0<βj<Cq}。
这样就得到了分类超平面:
wTx+b=0 (20)
对于任意样本x∈Rn,可以用决策函数将其划分为正类或负类,决策函数为:
f(x)=sgn(wTx+b) (21)
为了进一步说明本发明的技术方案,以下提供实施例:
为了验证本方法的有效性,设计试验将本方法与InvCal方法进行比较。采用UCI数据库和MNIST手写数字数据库进行试验。
对于UCI数据库,从中选取5个数据集进行实验,详细信息如表1所示。
表1UCI实验数据
数据集 样本数量 样本属性 样本类别
heart 270 13 2
australian 690 14 2
colic 366 22 2
vote 435 16 2
breast-w 699 9 2
MNIST数据库是包含数字“0”到“9”的手写数字数据库。训练集包含60000个样本点,测试集包含10000个样本点,每个样本点是一个0-9之间的手写数字图像。每个手写数字图像的大小为28×28像素。数据库的构成如表2所示。
表2MNIST数据库的构成
本实施例使用数字“5”和“8”的数据构成一个二分类问题。实验的部分数据如图1所示。
对每一幅数字图像,提取它的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量。
首先将数据集中的样本点的属性标准化到[-1,1],并将数据随机分包,设置每个包的容量为64,随机选择一个数据包作为测试集,将其余数据包作为训练集。计算训练集中每个包的标签比例pk,k=1,…,K,(使用公式(5))进一步计算Yk,并表示Y(使用公式(14,15)),计算数据包的平均值矩阵M(超级实例)。将已知标签的训练包D中的正类点和负类点分别划分到两个矩阵A和B中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值,利用公式(18)和公式(19)计算w和b。用决策函数(21)对测试集中的数据的标签进行预测,计算预测准确率。将上述实验过程重复10次,平均准确率如表2和表3所示。
为了研究训练集中的有标签数据的数量对试验结果的影响,我们调整有标签数据包中数据点的数量,将得到的结果进行对比,并与逆标定方法的结果做比较,其结果见表3和表4。表3和表4中“SSLLP”代表本发明所述半监督标签比例学习方法。
表3UCI数据集实验结果
表4MNIST手写数字“5”和“8”识别实验结果
分析上表所示实验结果可知,半监督标签比例学习模型(SSLLP)在训练集含有部分有标签样本的情况下学习性能明显优于非监督学习模型(InvCal),并且模型预测准确率随着已知标签的数据点的增多也有所提高。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (4)

1.一种半监督标签比例学习方法,其特征在于,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中Y=(Y1,Y2,...,YK)T,再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>min</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mi>&amp;alpha;</mi> <mo>,</mo> <msup> <mi>&amp;alpha;</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>&amp;beta;</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>&amp;beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>*</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>AM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>AM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>AA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>AB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msup> <mi>BM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>&amp;alpha;</mi> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;alpha;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;beta;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>&amp;epsiv;e</mi> <mn>1</mn> <mi>T</mi> </msubsup> <mo>+</mo> <msup> <mi>Y</mi> <mi>T</mi> </msup> <mo>,</mo> <msubsup> <mi>&amp;epsiv;e</mi> <mn>1</mn> <mi>T</mi> </msubsup> <mo>-</mo> <msup> <mi>Y</mi> <mi>T</mi> </msup> <mo>,</mo> <mo>-</mo> <msubsup> <mi>e</mi> <mn>2</mn> <mi>T</mi> </msubsup> <mo>,</mo> <mo>-</mo> <msubsup> <mi>e</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>&amp;alpha;</mi> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;alpha;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;beta;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&amp;beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced>
s.t.
<mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&amp;alpha;</mi> <mi>k</mi> </msub> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>&amp;alpha;</mi> <mi>k</mi> <mo>*</mo> </msubsup> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <mrow> <msub> <mi>&amp;beta;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <mo>=</mo> <mn>0</mn> </mrow>
0≤α≤Cp
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xl)T为D中的负类样本点,优化变量α,α*∈RK,β*∈Rp,β**∈R1-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b);
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
2.如权利要求1所述的半监督标签比例学习方法,其特征在于,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
3.如权利要求1所述的半监督标签比例学习方法,其特征在于,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
4.如权利要求3所述的半监督标签比例学习方法,其特征在于,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
CN201710585754.1A 2017-07-18 2017-07-18 半监督标签比例学习方法 Expired - Fee Related CN107545274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710585754.1A CN107545274B (zh) 2017-07-18 2017-07-18 半监督标签比例学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710585754.1A CN107545274B (zh) 2017-07-18 2017-07-18 半监督标签比例学习方法

Publications (2)

Publication Number Publication Date
CN107545274A CN107545274A (zh) 2018-01-05
CN107545274B true CN107545274B (zh) 2018-05-25

Family

ID=60970673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710585754.1A Expired - Fee Related CN107545274B (zh) 2017-07-18 2017-07-18 半监督标签比例学习方法

Country Status (1)

Country Link
CN (1) CN107545274B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086814B (zh) * 2018-07-23 2021-05-14 腾讯科技(深圳)有限公司 一种数据处理方法、装置及网络设备
CN109919324B (zh) * 2019-03-07 2023-07-25 广东工业大学 基于标签比例学习的迁移学习分类方法、系统及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793510B (zh) * 2014-01-29 2017-10-03 苏州融希信息科技有限公司 一种基于主动学习的分类器构建方法
CN104657744B (zh) * 2015-01-29 2017-10-24 中国科学院信息工程研究所 一种基于非确定主动学习的多分类器训练方法及分类方法
CN104992184B (zh) * 2015-07-02 2018-03-09 东南大学 一种基于半监督极限学习机的多类图像分类方法
CN105894032A (zh) * 2016-04-01 2016-08-24 南京大学 一种针对样本性质提取有效特征的方法
CN106228183A (zh) * 2016-07-18 2016-12-14 北京邮电大学 一种半监督学习分类方法与装置

Also Published As

Publication number Publication date
CN107545274A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
Yang et al. A unified semi-supervised community detection framework using latent space graph regularization
CN104281855B (zh) 基于多任务低秩的高光谱图像分类方法
Zhang et al. Dimension reduction using semi-supervised locally linear embedding for plant leaf classification
Olteanu et al. On-line relational and multiple relational SOM
CN107563428A (zh) 基于生成对抗网络的极化sar图像分类方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN104751191A (zh) 一种稀疏自适应半监督多流形学习的高光谱影像分类方法
Shi et al. Semi-supervised feature selection analysis with structured multi-view sparse regularization
CN103049760B (zh) 基于图像分块和位置加权的稀疏表示目标识别方法
CN105740912A (zh) 基于核范数正则化的低秩图像特征提取的识别方法及系统
CN105718532A (zh) 一种基于多深度网络结构的跨媒体排序方法
CN102982343B (zh) 手写数字识别的增量式模糊支持向量机方法
CN107545274B (zh) 半监督标签比例学习方法
CN106096660A (zh) 基于独立成分分析算法的卷积神经网络
CN109816030A (zh) 一种基于受限玻尔兹曼机的图像分类方法及装置
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN107578063B (zh) 基于快速选取地标点的图像谱聚类方法
CN105023239B (zh) 基于超像素和最大边界分布的高光谱数据降维方法
CN104809468A (zh) 一种基于不定核的多视图分类方法
CN104573714A (zh) 自适应无参数的特征提取方法
Zhang et al. Stochastic simulation of patterns using ISOMAP for dimensionality reduction of training images
CN103310237A (zh) 手写体数字识别方法及系统
CN106778494A (zh) 一种基于sift‑lpp的高光谱遥感影像特征提取方法
Mariette et al. Efficient interpretable variants of online SOM for large dissimilarity data
CN104573727A (zh) 一种手写体数字图像降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180525

Termination date: 20190718

CF01 Termination of patent right due to non-payment of annual fee