CN107545274B - 半监督标签比例学习方法 - Google Patents
半监督标签比例学习方法 Download PDFInfo
- Publication number
- CN107545274B CN107545274B CN201710585754.1A CN201710585754A CN107545274B CN 107545274 B CN107545274 B CN 107545274B CN 201710585754 A CN201710585754 A CN 201710585754A CN 107545274 B CN107545274 B CN 107545274B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msup
- mtd
- mtr
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 13
- 238000002790 cross-validation Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 230000007786 learning performance Effects 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 208000004998 Abdominal Pain Diseases 0.000 description 1
- 208000002881 Colic Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012372 quality testing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了半监督标签比例学习方法,包括:步骤一、提供由多幅数字图像构成的数据集,多幅数字图像分别对应于两个数字,提取每幅数字图像的特征;步骤二、假设训练集由K+1个数据包构成,有标签数据包中类别标签为已知,其他数据包中的数据点没有标签,类别标签比例为已知;步骤三、用训练集中每个数据包中正类样本点所占的比例,计算每个数据包的Yk,并表示Y,再计算数据包的平均值矩阵M;步骤四、用MATLAB中的二次规划优化函数quadprog求解优化问题,得到问题的最优解;步骤五、计算w和b,得到决策函数;步骤六、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负。本发明具有更好的学习性能,其预测准确率更高。
Description
技术领域
本发明涉及机器学习方法,尤其涉及一种半监督标签比例学习方法。
背景技术
根据当前的机器学习基础理论,机器学习分为监督学习,无监督学习和半监督学习三种。在监督学习中,所有样本点的输出均为已知,学习机通过对已知输出样例进行学习,建立输入x与输出y之间的映射关系,从而对新的样本进行分类或预测。在无监督学习中,所有样本点的输出均未提供,学习的目标是要发现数据中的有趣的结构。随着当今社会数字化技术的发展,数据采集和存储的能力大大提高,通过各种调查方式获取无标签的样本相对以前比较容易,但由于需要消耗相当的人力物力和财力,想要得到数量可观的有标签样本则要困难得多。因此在多数的实际情况下,训练集中无标签的实例的数量远远大于有标签实例的数量。如果只使用那些无标签的样本,无监督学习将会浪费掉有标签实例的价值。如果只使用那些少数的有标签样本,那么通过监督学习训练得到的学习模型扩展能力会很差,同时忽略掉了大量未标签实例的作用;所以,研究怎样合理的综合利用有标签样本和无标签样本来提高机器学习能力的半监督学习在许多实际问题中更具实用性。
近年来,标签比例学习成为机器学习领域的一个新的研究课题。它是一种不同于监督学习、无监督学习和半监督学习的一种新的学习框架。在标签比例学习中,样本点以数据包的形式给出,并提供每个数据包中各类样本点的比例,而具体的每个样本点的标签未知,学习的目的是要构造一个决策函数对新的样本点进行分类。标签比例学习在社会科学、医学、计算机科学、隐私保护等领域具有重要的应用价值。例如,已知汇总比例的多地区人口投票行为研究、垃圾邮件过滤、钢筋质量检验等。
然而,当前对于标签比例学习的研究尚不深入,对于现实生活中的实际问题并没有表现出优秀的处理能力。因此,这里提出一种将标签比例学习框架与半监督模型以及逆标定算法结合起来的方法,来解决一些常见的实际问题。
发明内容
针对上述技术问题,本发明设计开发了一种预测准确度更高的半监督标签比例学习方法。
本发明提供的技术方案为:
一种半监督标签比例学习方法,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
s.t.
O≤α≤Cp,
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,优化变量α,α*∈RK,β*∈Rp,β**∈Rl-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**,
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b)。
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
优选的是,所述的半监督标签比例学习方法中,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
优选的是,所述的半监督标签比例学习方法,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
优选的是,所述的半监督标签比例学习方法中,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
本发明所述的半监督标签比例学习方法提出了一种基于支持向量机和逆标定算法的半监督标签比例学习模型,并对其算法进行了研究,本发明中的训练样本以数据包的形式给出,有标签训练样本点包含在一个单独的数据包中,其余数据包中的样本点的类别标签未知,但是提供了每个数据包中各类样本点所占的比例,学习的目标是要确定每个训练样本点的类别标签,并可以对新的样本点进行分类,试验结果表明,相对于标签比例学习模型,本发明具有更好的学习性能,其预测准确率更高。
附图说明
图1为本发明所述的半监督标签比例学习方法的流程图。
图2为实施例中MNIST手写数据集的“5”和“8”的部分样本。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
如图1所示,本发明提供一种半监督标签比例学习方法,包括:
一种半监督标签比例学习方法,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
s.t.
0≤α≤Cp,
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,优化变量α,α*∈RK,β*∈Rp,β**∈Rl-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**,
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b)。
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
在一个优选的实施例中,所述的半监督标签比例学习方法中,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
在一个优选的实施例中,为了选择合适的参数和测试最后得到的决策函数的分类能力,所述的半监督标签比例学习方法,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
在一个优选的实施例中,为了评价算法的优劣,所述的半监督标签比例学习方法中,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
现对本发明所述的半监督标签比例学习模型的建立过程进行说明:
考虑二分类的半监督标签比例学习问题,假设训练集T={x1,x2,…,xN}由K+1个数据包构成,即
T=B1∪B2∪…∪BK∪D,
且数据包不相交,即对于任意i≠j,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知。B1,…,BK中的数据点没有标签,但是每个数据包中的类别标签比例为已知,将第k个数据包Bk中的正类样本点所占的比例记为pk,则
其中|·|表示集合中元素的个数,表示xi的未知的真实的类别标签。
学习的目标是寻找一个线性分类函数:
g(x)=wTx+b,
以便用决策函数:
f(x)=sgn(g(x))
推断任意样本x∈Rn相对应的二值标签y的值。
要解决的原始问题可以完整的描述为:
其中,Cp,Cq是惩罚参数,ξ=(ξ1,…ξK)T,η=(η1,…ηl)T,是松弛变量,M=(m1,…mK)T,mk是第k个数据包的样本平均值,ε=(ε1,…εK)T是定义了最小预测精度的参数。
模型(6)的目标函数的第一项使分类间隔最大,第二项使利用公式(3)预测的类标签比例与已知的类标签比例pk尽可能接近,第三项使已知标记的样本尽可能分对。
为了求解该凸二次规划问题,引入它的对偶问题。构造拉格朗日函数如下:
其中,α=(α1,…αK)T,β=(β1,…βl)T,μ=(μ1,…μK)T,ν=(ν1,…νK)T,λ=(λ1,…λl)T是拉格朗日乘子。分别将拉格朗日函数对w,b,ξ,ξ*,η求偏导,并令其等于0,得到KKT条件如下:
由式(8~12)可得:
μ=Cp-α
v=Cp-α*
λ=Cq-β
由于Cp,Cq,μ,ν,λ≥0,于是0≤α,α*≤Cp,0≤β≤Cq。
根据优化问题的对偶理论,原始问题的对偶问题可以表示为:
s.t.
0≤α≤Cp,
0≤α*≤Cp
0≤β≤Cq (13)
设
令Y=(Y1,Y2,...,Yk)T, (15)
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xi)T为D中的负类样本点,β*=(β1,β2,...,βp)T为A中的样本点对应的松弛因子,β**=(βp+1,βp+2,...,βi)T为B中的样本点对应的松弛因子,则问题(12)可以改写为
其中e1,e2,e3为适合维数的全1向量。
最后,经过合并和化简可以将式(16)转变为二次型的形式:
s.t.
0≤α≤Cp,
0≤α*≤Cp
0≤β≤Cq
(17)
求解上述优化问题后,得到α,α*,β*,β**的值,w和b可以由如下公式计算:
w=MT(α-α*)+ATβ*-BTβ** (18)
b=yj-wTxj (19)
这里下标j∈{j|0<βj<Cq}。
这样就得到了分类超平面:
wTx+b=0 (20)
对于任意样本x∈Rn,可以用决策函数将其划分为正类或负类,决策函数为:
f(x)=sgn(wTx+b) (21)
为了进一步说明本发明的技术方案,以下提供实施例:
为了验证本方法的有效性,设计试验将本方法与InvCal方法进行比较。采用UCI数据库和MNIST手写数字数据库进行试验。
对于UCI数据库,从中选取5个数据集进行实验,详细信息如表1所示。
表1UCI实验数据
数据集 | 样本数量 | 样本属性 | 样本类别 |
heart | 270 | 13 | 2 |
australian | 690 | 14 | 2 |
colic | 366 | 22 | 2 |
vote | 435 | 16 | 2 |
breast-w | 699 | 9 | 2 |
MNIST数据库是包含数字“0”到“9”的手写数字数据库。训练集包含60000个样本点,测试集包含10000个样本点,每个样本点是一个0-9之间的手写数字图像。每个手写数字图像的大小为28×28像素。数据库的构成如表2所示。
表2MNIST数据库的构成
本实施例使用数字“5”和“8”的数据构成一个二分类问题。实验的部分数据如图1所示。
对每一幅数字图像,提取它的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量。
首先将数据集中的样本点的属性标准化到[-1,1],并将数据随机分包,设置每个包的容量为64,随机选择一个数据包作为测试集,将其余数据包作为训练集。计算训练集中每个包的标签比例pk,k=1,…,K,(使用公式(5))进一步计算Yk,并表示Y(使用公式(14,15)),计算数据包的平均值矩阵M(超级实例)。将已知标签的训练包D中的正类点和负类点分别划分到两个矩阵A和B中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值,利用公式(18)和公式(19)计算w和b。用决策函数(21)对测试集中的数据的标签进行预测,计算预测准确率。将上述实验过程重复10次,平均准确率如表2和表3所示。
为了研究训练集中的有标签数据的数量对试验结果的影响,我们调整有标签数据包中数据点的数量,将得到的结果进行对比,并与逆标定方法的结果做比较,其结果见表3和表4。表3和表4中“SSLLP”代表本发明所述半监督标签比例学习方法。
表3UCI数据集实验结果
表4MNIST手写数字“5”和“8”识别实验结果
分析上表所示实验结果可知,半监督标签比例学习模型(SSLLP)在训练集含有部分有标签样本的情况下学习性能明显优于非监督学习模型(InvCal),并且模型预测准确率随着已知标签的数据点的增多也有所提高。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (4)
1.一种半监督标签比例学习方法,其特征在于,包括:
步骤一、提供由多幅数字图像构成的数据集,所述多幅数字图像分别对应于两个数字,提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征,得到120维的特征向量;
步骤二、将数字图像作为数据点,将数据点随机分包,构建训练集;假设训练集T={x1,x2,…,xN}由K+1个数据包构成,T=B1∪B2∪…∪BK∪D,且数据包不相交,其中,D为有标签数据包,对于xi∈D,i=1,…,l,其类别标签yi∈{1,-1}为已知,B1,…,BK中的数据点没有标签,B1,…,BK中的类别标签比例为已知;
步骤三、用训练集中每个数据包中正类样本点所占的比例pk,k=1,…,K,计算每个数据包的Yk,并表示Y,其中Y=(Y1,Y2,...,YK)T,再计算数据包的平均值矩阵M,其中,M=(m1,…mK)T,mk是第k个数据包的样本平均值;
步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中,用MATLAB中的二次规划优化函数quadprog求解优化问题,得到α,α*,β*,β**的最优值;
其中,优化问题按以下方式表述:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>min</mi>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<msup>
<mrow>
<mo>(</mo>
<mi>&alpha;</mi>
<mo>,</mo>
<msup>
<mi>&alpha;</mi>
<mo>*</mo>
</msup>
<mo>,</mo>
<msup>
<mi>&beta;</mi>
<mo>*</mo>
</msup>
<mo>,</mo>
<msup>
<mi>&beta;</mi>
<mrow>
<mo>*</mo>
<mo>*</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>*</mo>
<mfenced open = "(" close = ")">
<mtable>
<mtr>
<mtd>
<mrow>
<msup>
<mi>MM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>MM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>MA</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>MB</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>MM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>MM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>MA</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>MB</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msup>
<mi>AM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>AM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>AA</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>AB</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<msup>
<mi>BM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>BM</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>BA</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
<mtd>
<mrow>
<msup>
<mi>BB</mi>
<mi>T</mi>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mfenced open = "(" close = ")">
<mtable>
<mtr>
<mtd>
<mi>&alpha;</mi>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&alpha;</mi>
<mo>*</mo>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&beta;</mi>
<mo>*</mo>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&beta;</mi>
<mrow>
<mo>*</mo>
<mo>*</mo>
</mrow>
</msup>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>+</mo>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&epsiv;e</mi>
<mn>1</mn>
<mi>T</mi>
</msubsup>
<mo>+</mo>
<msup>
<mi>Y</mi>
<mi>T</mi>
</msup>
<mo>,</mo>
<msubsup>
<mi>&epsiv;e</mi>
<mn>1</mn>
<mi>T</mi>
</msubsup>
<mo>-</mo>
<msup>
<mi>Y</mi>
<mi>T</mi>
</msup>
<mo>,</mo>
<mo>-</mo>
<msubsup>
<mi>e</mi>
<mn>2</mn>
<mi>T</mi>
</msubsup>
<mo>,</mo>
<mo>-</mo>
<msubsup>
<mi>e</mi>
<mn>3</mn>
<mi>T</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mfenced open = "(" close = ")">
<mtable>
<mtr>
<mtd>
<mi>&alpha;</mi>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&alpha;</mi>
<mo>*</mo>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&beta;</mi>
<mo>*</mo>
</msup>
</mtd>
</mtr>
<mtr>
<mtd>
<msup>
<mi>&beta;</mi>
<mrow>
<mo>*</mo>
<mo>*</mo>
</mrow>
</msup>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
s.t.
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>&alpha;</mi>
<mi>k</mi>
</msub>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msubsup>
<mi>&alpha;</mi>
<mi>k</mi>
<mo>*</mo>
</msubsup>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>l</mi>
</munderover>
<mrow>
<msub>
<mi>&beta;</mi>
<mi>i</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>=</mo>
<mn>0</mn>
</mrow>
0≤α≤Cp,
0≤α*≤Cp
0≤β≤Cq
A=(x1,...,xp)T为D中的正类样本点,B=(xp+1,...,xl)T为D中的负类样本点,优化变量α,α*∈RK,β*∈Rp,β**∈R1-p,e1,e2,e3为适合维数的全1向量,ε=(ε1,…εK)T是定义了最小预测精度的参数,Cp,Cq是惩罚参数;
按下列方式计算原始问题的最优解w和b:
w=MT(α-α*)+ATβ*-BTβ**,
b=yj-wTxj,下标j∈{j|0<βj<Cq};
求得决策函数f(x)=sgn(wTx+b);
步骤五、使用决策函数对新的数据点的标签进行预测,判断数据点的标签为正或负,其中,所述决策函数为f(x)=sgn(wTx+b),其中,wTx+b=0代表分类超平面。
2.如权利要求1所述的半监督标签比例学习方法,其特征在于,所述步骤四中,参数Cp和Cq在1,10,100中进行调整,ε在0,0.01,0.1中进行调整,采用k-折交叉确认的方法选择最优参数。
3.如权利要求1所述的半监督标签比例学习方法,其特征在于,还包括:步骤六、从有标签数据包中拿出一部分数据点构造一个测试集,利用测试集测试准确率。
4.如权利要求3所述的半监督标签比例学习方法,其特征在于,所述步骤六中,将有标签数据包随机分成k个互不相交的子集,每次选择一个子集作为测试集,其余作为训练集,根据训练集求出决策函数后,对测试集进行测试,记录错分的样本点数,重复k次后,将错分样本点数的总和除以总样本点数,得到k-折交叉确认误差,将其作为评价算法优劣的数量标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710585754.1A CN107545274B (zh) | 2017-07-18 | 2017-07-18 | 半监督标签比例学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710585754.1A CN107545274B (zh) | 2017-07-18 | 2017-07-18 | 半监督标签比例学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107545274A CN107545274A (zh) | 2018-01-05 |
CN107545274B true CN107545274B (zh) | 2018-05-25 |
Family
ID=60970673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710585754.1A Expired - Fee Related CN107545274B (zh) | 2017-07-18 | 2017-07-18 | 半监督标签比例学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107545274B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086814B (zh) * | 2018-07-23 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及网络设备 |
CN109919324B (zh) * | 2019-03-07 | 2023-07-25 | 广东工业大学 | 基于标签比例学习的迁移学习分类方法、系统及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793510B (zh) * | 2014-01-29 | 2017-10-03 | 苏州融希信息科技有限公司 | 一种基于主动学习的分类器构建方法 |
CN104657744B (zh) * | 2015-01-29 | 2017-10-24 | 中国科学院信息工程研究所 | 一种基于非确定主动学习的多分类器训练方法及分类方法 |
CN104992184B (zh) * | 2015-07-02 | 2018-03-09 | 东南大学 | 一种基于半监督极限学习机的多类图像分类方法 |
CN105894032A (zh) * | 2016-04-01 | 2016-08-24 | 南京大学 | 一种针对样本性质提取有效特征的方法 |
CN106228183A (zh) * | 2016-07-18 | 2016-12-14 | 北京邮电大学 | 一种半监督学习分类方法与装置 |
-
2017
- 2017-07-18 CN CN201710585754.1A patent/CN107545274B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107545274A (zh) | 2018-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khodadadeh et al. | Unsupervised meta-learning for few-shot image classification | |
Wu et al. | Nonnegative matrix factorization with mixed hypergraph regularization for community detection | |
Luo et al. | An inherently nonnegative latent factor model for high-dimensional and sparse matrices from industrial applications | |
Shi et al. | Community detection in social network with pairwisely constrained symmetric non-negative matrix factorization | |
CN104392251B (zh) | 一种基于半监督字典学习的高光谱图像分类方法 | |
US20110202322A1 (en) | Computer Implemented Method for Discovery of Markov Boundaries from Datasets with Hidden Variables | |
CN104751191A (zh) | 一种稀疏自适应半监督多流形学习的高光谱影像分类方法 | |
CN105354595A (zh) | 一种鲁棒视觉图像分类方法及系统 | |
CN103678483A (zh) | 基于自适应概率超图和半监督学习的视频语义分析方法 | |
Chen et al. | Dictionary learning from ambiguously labeled data | |
AlBdairi et al. | Identifying ethnics of people through face recognition: A deep CNN approach | |
CN105046272A (zh) | 一种基于简洁非监督式卷积网络的图像分类方法 | |
Zhen et al. | Kernel truncated regression representation for robust subspace clustering | |
CN107545274B (zh) | 半监督标签比例学习方法 | |
CN103955709A (zh) | 基于加权合成核与tmf的极化sar图像分类方法 | |
Wang et al. | Accelerated manifold embedding for multi-view semi-supervised classification | |
CN109816030A (zh) | 一种基于受限玻尔兹曼机的图像分类方法及装置 | |
CN105046323A (zh) | 一种正则化rbf网络多标签分类方法 | |
Gong et al. | Semi-supervised network embedding with text information | |
Wahid et al. | Rkdos: A relative kernel density-based outlier score | |
CN114004998B (zh) | 基于多视张量积扩散的非监督极化sar图像地物分类方法 | |
Perry et al. | On the statistical detection of clusters in undirected networks | |
Sristi et al. | Disc: Differential spectral clustering of features | |
Chang et al. | Calibrated multi-task subspace learning via binary group structure constraint | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180525 Termination date: 20190718 |
|
CF01 | Termination of patent right due to non-payment of annual fee |