CN107545274B

CN107545274B - 半监督标签比例学习方法

Info

Publication number: CN107545274B
Application number: CN201710585754.1A
Authority: CN
Inventors: 徐志洁; 张健钦
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2018-05-25
Anticipated expiration: 2037-07-18
Also published as: CN107545274A

Abstract

本发明公开了半监督标签比例学习方法，包括：步骤一、提供由多幅数字图像构成的数据集，多幅数字图像分别对应于两个数字，提取每幅数字图像的特征；步骤二、假设训练集由K+1个数据包构成，有标签数据包中类别标签为已知，其他数据包中的数据点没有标签，类别标签比例为已知；步骤三、用训练集中每个数据包中正类样本点所占的比例，计算每个数据包的Y_k，并表示Y，再计算数据包的平均值矩阵M；步骤四、用MATLAB中的二次规划优化函数quadprog求解优化问题，得到问题的最优解；步骤五、计算w和b，得到决策函数；步骤六、使用决策函数对新的数据点的标签进行预测，判断数据点的标签为正或负。本发明具有更好的学习性能，其预测准确率更高。

Description

半监督标签比例学习方法

技术领域

本发明涉及机器学习方法，尤其涉及一种半监督标签比例学习方法。

背景技术

根据当前的机器学习基础理论,机器学习分为监督学习，无监督学习和半监督学习三种。在监督学习中,所有样本点的输出均为已知，学习机通过对已知输出样例进行学习，建立输入x与输出y之间的映射关系，从而对新的样本进行分类或预测。在无监督学习中，所有样本点的输出均未提供，学习的目标是要发现数据中的有趣的结构。随着当今社会数字化技术的发展，数据采集和存储的能力大大提高,通过各种调查方式获取无标签的样本相对以前比较容易,但由于需要消耗相当的人力物力和财力,想要得到数量可观的有标签样本则要困难得多。因此在多数的实际情况下，训练集中无标签的实例的数量远远大于有标签实例的数量。如果只使用那些无标签的样本,无监督学习将会浪费掉有标签实例的价值。如果只使用那些少数的有标签样本,那么通过监督学习训练得到的学习模型扩展能力会很差,同时忽略掉了大量未标签实例的作用；所以，研究怎样合理的综合利用有标签样本和无标签样本来提高机器学习能力的半监督学习在许多实际问题中更具实用性。

近年来，标签比例学习成为机器学习领域的一个新的研究课题。它是一种不同于监督学习、无监督学习和半监督学习的一种新的学习框架。在标签比例学习中，样本点以数据包的形式给出，并提供每个数据包中各类样本点的比例，而具体的每个样本点的标签未知，学习的目的是要构造一个决策函数对新的样本点进行分类。标签比例学习在社会科学、医学、计算机科学、隐私保护等领域具有重要的应用价值。例如，已知汇总比例的多地区人口投票行为研究、垃圾邮件过滤、钢筋质量检验等。

然而，当前对于标签比例学习的研究尚不深入，对于现实生活中的实际问题并没有表现出优秀的处理能力。因此，这里提出一种将标签比例学习框架与半监督模型以及逆标定算法结合起来的方法，来解决一些常见的实际问题。

发明内容

针对上述技术问题，本发明设计开发了一种预测准确度更高的半监督标签比例学习方法。

本发明提供的技术方案为：

一种半监督标签比例学习方法，包括：

步骤一、提供由多幅数字图像构成的数据集，所述多幅数字图像分别对应于两个数字，提取每幅数字图像的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征，得到120维的特征向量；

步骤二、将数字图像作为数据点，将数据点随机分包，构建训练集；假设训练集T＝{x₁,x₂,…,x_N}由K+1个数据包构成，T＝B₁∪B₂∪…∪B_K∪D，且数据包不相交，其中，D为有标签数据包，对于x_i∈D,i＝1,…,l，其类别标签y_i∈{1,-1}为已知，B₁,…,B_K中的数据点没有标签，B₁,…,B_K中的类别标签比例为已知；

步骤三、用训练集中每个数据包中正类样本点所占的比例p_k,k＝1,…,K，计算每个数据包的Y_k，并表示Y，其中再计算数据包的平均值矩阵M，其中，M＝(m₁,…m_K)^T,，m_k是第k个数据包的样本平均值；

步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中，用MATLAB中的二次规划优化函数quadprog求解优化问题，得到α，α*，β*，β**的最优值；

其中，优化问题按以下方式表述：

s.t.

O≤α≤C_p，

0≤α^*≤C_p

0≤β≤C_q

A＝(x₁，...，x_p)^T为D中的正类样本点，B＝(x_p+1，...，x_i)^T为D中的负类样本点，优化变量α,α^*∈R^K,β^*∈R^p,β^**∈R^l-p,e₁,e₂,e₃为适合维数的全1向量，ε＝(ε₁,…ε_K)^T是定义了最小预测精度的参数，C_p，C_q是惩罚参数；

按下列方式计算原始问题的最优解w和b：

w＝M^T(α-α^*)+A^Tβ^*-B^Tβ^**，

b＝y_j-w^Tx_j，下标j∈{j|0＜β_j＜C_q}；

求得决策函数f(x)＝sgn(w^Tx+b)。

步骤五、使用决策函数对新的数据点的标签进行预测，判断数据点的标签为正或负，其中，所述决策函数为f(x)＝sgn(w^Tx+b)，其中，w^Tx+b＝0代表分类超平面。

优选的是，所述的半监督标签比例学习方法中，所述步骤四中，参数C_p和C_q在1，10，100中进行调整，ε在0，0.01，0.1中进行调整，采用k-折交叉确认的方法选择最优参数。

优选的是，所述的半监督标签比例学习方法，还包括：步骤六、从有标签数据包中拿出一部分数据点构造一个测试集，利用测试集测试准确率。

优选的是，所述的半监督标签比例学习方法中，所述步骤六中，将有标签数据包随机分成k个互不相交的子集，每次选择一个子集作为测试集，其余作为训练集，根据训练集求出决策函数后，对测试集进行测试，记录错分的样本点数，重复k次后，将错分样本点数的总和除以总样本点数，得到k-折交叉确认误差，将其作为评价算法优劣的数量标准。

本发明所述的半监督标签比例学习方法提出了一种基于支持向量机和逆标定算法的半监督标签比例学习模型，并对其算法进行了研究，本发明中的训练样本以数据包的形式给出，有标签训练样本点包含在一个单独的数据包中，其余数据包中的样本点的类别标签未知，但是提供了每个数据包中各类样本点所占的比例，学习的目标是要确定每个训练样本点的类别标签，并可以对新的样本点进行分类，试验结果表明，相对于标签比例学习模型，本发明具有更好的学习性能，其预测准确率更高。

附图说明

图1为本发明所述的半监督标签比例学习方法的流程图。

图2为实施例中MNIST手写数据集的“5”和“8”的部分样本。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供一种半监督标签比例学习方法，包括：

一种半监督标签比例学习方法，包括：

其中，优化问题按以下方式表述：

s.t.

0≤α≤C_p，

0≤α^*≤C_p

0≤β≤C_q

按下列方式计算原始问题的最优解w和b：

w＝M^T(α-α^*)+A^Tβ^*-B^Tβ^**，

b＝y_j-w^Tx_j，下标j∈{j|0＜β_j＜C_q}；

求得决策函数f(x)＝sgn(w^Tx+b)。

在一个优选的实施例中，所述的半监督标签比例学习方法中，所述步骤四中，参数C_p和C_q在1，10，100中进行调整，ε在0，0.01，0.1中进行调整，采用k-折交叉确认的方法选择最优参数。

在一个优选的实施例中，为了选择合适的参数和测试最后得到的决策函数的分类能力，所述的半监督标签比例学习方法，还包括：步骤六、从有标签数据包中拿出一部分数据点构造一个测试集，利用测试集测试准确率。

在一个优选的实施例中，为了评价算法的优劣，所述的半监督标签比例学习方法中，所述步骤六中，将有标签数据包随机分成k个互不相交的子集，每次选择一个子集作为测试集，其余作为训练集，根据训练集求出决策函数后，对测试集进行测试，记录错分的样本点数，重复k次后，将错分样本点数的总和除以总样本点数，得到k-折交叉确认误差，将其作为评价算法优劣的数量标准。

现对本发明所述的半监督标签比例学习模型的建立过程进行说明：

考虑二分类的半监督标签比例学习问题，假设训练集T＝{x₁,x₂,…,x_N}由K+1个数据包构成，即

T＝B₁∪B₂∪…∪B_K∪D，

且数据包不相交，即对于任意i≠j,D为有标签数据包，对于x_i∈D,i＝1,…,l,其类别标签y_i∈{1,-1}为已知。B₁,…,B_K中的数据点没有标签，但是每个数据包中的类别标签比例为已知，将第k个数据包B_k中的正类样本点所占的比例记为p_k，则

其中|·|表示集合中元素的个数，表示x_i的未知的真实的类别标签。

学习的目标是寻找一个线性分类函数：

g(x)＝w^Tx+b，

以便用决策函数：

f(x)＝sgn(g(x))

推断任意样本x∈Rⁿ相对应的二值标签y的值。

要解决的原始问题可以完整的描述为：

其中，C_p，C_q是惩罚参数,ξ＝(ξ₁,…ξ_K)^T,η＝(η₁,…η_l)^T,是松弛变量,M＝(m₁,…m_K)^T,m_k是第k个数据包的样本平均值，ε＝(ε₁,…ε_K)^T是定义了最小预测精度的参数。

模型(6)的目标函数的第一项使分类间隔最大，第二项使利用公式(3)预测的类标签比例与已知的类标签比例p_k尽可能接近，第三项使已知标记的样本尽可能分对。

为了求解该凸二次规划问题，引入它的对偶问题。构造拉格朗日函数如下：

其中，α＝(α₁,…α_K)^T,β＝(β₁,…β_l)^T,μ＝(μ₁,…μ_K)^T,ν＝(ν₁,…ν_K)^T,λ＝(λ₁,…λ_l)^T是拉格朗日乘子。分别将拉格朗日函数对w，b，ξ，ξ^*，η求偏导，并令其等于0，得到KKT条件如下：

由式(8～12)可得：

μ＝Cp-α

v＝C_p-α^*

λ＝C_q-β

由于C_p，C_q，μ，ν，λ≥0，于是0≤α，α^*≤C_p，0≤β≤C_q。

根据优化问题的对偶理论，原始问题的对偶问题可以表示为：

s.t.

0≤α≤C_p，

0≤α^*≤C_p

0≤β≤C_q (13)

设

令Y＝(Y₁，Y₂，...，Y_k)^T， (15)

A＝(x₁，...，x_p)^T为D中的正类样本点，B＝(x_p+1，...，x_i)^T为D中的负类样本点，β^*＝(β₁，β₂，...，β_p)^T为A中的样本点对应的松弛因子，β^**＝(β_p+1，β_p+2，...，β_i)^T为B中的样本点对应的松弛因子，则问题(12)可以改写为

其中e₁，e₂，e₃为适合维数的全1向量。

最后，经过合并和化简可以将式(16)转变为二次型的形式：

s.t.

0≤α≤C_p，

0≤α^*≤C_p

0≤β≤C_q

(17)

求解上述优化问题后，得到α，α^*，β^*，β^**的值，w和b可以由如下公式计算：

w＝M^T(α-α^*)+A^Tβ^*-B^Tβ^** (18)

b＝y_j-w^Tx_j (19)

这里下标j∈{j|0＜β_j＜C_q}。

这样就得到了分类超平面：

w^Tx+b＝0 (20)

对于任意样本x∈Rⁿ，可以用决策函数将其划分为正类或负类，决策函数为：

f(x)＝sgn(w^Tx+b) (21)

为了进一步说明本发明的技术方案，以下提供实施例：

为了验证本方法的有效性，设计试验将本方法与InvCal方法进行比较。采用UCI数据库和MNIST手写数字数据库进行试验。

对于UCI数据库，从中选取5个数据集进行实验，详细信息如表1所示。

表1UCI实验数据

数据集	样本数量	样本属性	样本类别
				heart	270	13	2
australian	690	14	2
				colic	366	22	2
vote	435	16	2
				breast-w	699	9	2

MNIST数据库是包含数字“0”到“9”的手写数字数据库。训练集包含60000个样本点，测试集包含10000个样本点，每个样本点是一个0-9之间的手写数字图像。每个手写数字图像的大小为28×28像素。数据库的构成如表2所示。

表2MNIST数据库的构成

本实施例使用数字“5”和“8”的数据构成一个二分类问题。实验的部分数据如图1所示。

对每一幅数字图像，提取它的粗网格特征、比划密度特征、轮廓特征和Kirch边缘特征，得到120维的特征向量。

首先将数据集中的样本点的属性标准化到[-1,1]，并将数据随机分包，设置每个包的容量为64，随机选择一个数据包作为测试集，将其余数据包作为训练集。计算训练集中每个包的标签比例p_k,k＝1,…,K，(使用公式(5))进一步计算Y_k，并表示Y(使用公式(14,15))，计算数据包的平均值矩阵M(超级实例)。将已知标签的训练包D中的正类点和负类点分别划分到两个矩阵A和B中，参数C_p和C_q在1，10，100中进行调整，ε在0，0.01，0.1中进行调整，用MATLAB中的二次规划优化函数quadprog求解优化问题，得到α，α*，β*，β**的最优值，利用公式(18)和公式(19)计算w和b。用决策函数(21)对测试集中的数据的标签进行预测，计算预测准确率。将上述实验过程重复10次，平均准确率如表2和表3所示。

为了研究训练集中的有标签数据的数量对试验结果的影响，我们调整有标签数据包中数据点的数量，将得到的结果进行对比，并与逆标定方法的结果做比较，其结果见表3和表4。表3和表4中“SSLLP”代表本发明所述半监督标签比例学习方法。

表3UCI数据集实验结果

表4MNIST手写数字“5”和“8”识别实验结果

分析上表所示实验结果可知，半监督标签比例学习模型(SSLLP)在训练集含有部分有标签样本的情况下学习性能明显优于非监督学习模型(InvCal)，并且模型预测准确率随着已知标签的数据点的增多也有所提高。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种半监督标签比例学习方法，其特征在于，包括：

步骤二、将数字图像作为数据点，将数据点随机分包，构建训练集；假设训练集T＝{x₁，x₂，…，x_N}由K+1个数据包构成，T＝B₁∪B₂∪…∪B_K∪D，且数据包不相交，其中，D为有标签数据包，对于x_i∈D，i＝1，…，l，其类别标签y_i∈{1，-1}为已知，B₁，…，B_K中的数据点没有标签，B₁，…，B_K中的类别标签比例为已知；

步骤三、用训练集中每个数据包中正类样本点所占的比例p_k，k＝1，…，K，计算每个数据包的Y_k，并表示Y，其中Y＝(Y₁，Y₂，...，Y_K)^T，再计算数据包的平均值矩阵M，其中，M＝(m₁，…m_K)^T，m_k是第k个数据包的样本平均值；

步骤四、将已知标签的训练集D中的正类点和负类点分别划分到两个矩阵A和B中，用MATLAB中的二次规划优化函数quadprog求解优化问题，得到α，α^*，β^*，β^**的最优值；

其中，优化问题按以下方式表述：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>min</mi> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <msup> <mi>&alpha;</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>&beta;</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>&beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>*</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mrow> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>MA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>MB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>AM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <mo>-</mo> <msup> <mi>AM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>AA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>AB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <msup> <mi>BM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BM</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BA</mi> <mi>T</mi> </msup> </mrow> </mtd> <mtd> <mrow> <msup> <mi>BB</mi> <mi>T</mi> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>&alpha;</mi> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&alpha;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&beta;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>&epsiv;e</mi> <mn>1</mn> <mi>T</mi> </msubsup> <mo>+</mo> <msup> <mi>Y</mi> <mi>T</mi> </msup> <mo>,</mo> <msubsup> <mi>&epsiv;e</mi> <mn>1</mn> <mi>T</mi> </msubsup> <mo>-</mo> <msup> <mi>Y</mi> <mi>T</mi> </msup> <mo>,</mo> <mo>-</mo> <msubsup> <mi>e</mi> <mn>2</mn> <mi>T</mi> </msubsup> <mo>,</mo> <mo>-</mo> <msubsup> <mi>e</mi> <mn>3</mn> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <mi>&alpha;</mi> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&alpha;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&beta;</mi> <mo>*</mo> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>&beta;</mi> <mrow> <mo>*</mo> <mo>*</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> </mrow> </mtd> </mtr> </mtable> </mfenced>

s.t.

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>k</mi> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>&alpha;</mi> <mi>k</mi> <mo>*</mo> </msubsup> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <mrow> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <mo>=</mo> <mn>0</mn> </mrow>

0≤α≤C_p，

0≤α^*≤C_p

0≤β≤C_q

A＝(x₁，...，x_p)^T为D中的正类样本点，B＝(x_p+1，...，x_l)^T为D中的负类样本点，优化变量α，α^*∈R^K，β^*∈R^p，β^**∈R^1-p，e₁，e₂，e₃为适合维数的全1向量，ε＝(ε₁，…ε_K)^T是定义了最小预测精度的参数，C_p，C_q是惩罚参数；

按下列方式计算原始问题的最优解w和b：

w＝M^T(α-α^*)+A^Tβ^*-B^Tβ^**，

b＝y_j-w^Tx_j，下标j∈{j|0＜β_j＜C_q}；

求得决策函数f(x)＝sgn(w^Tx+b)；

2.如权利要求1所述的半监督标签比例学习方法，其特征在于，所述步骤四中，参数C_p和C_q在1，10，100中进行调整，ε在0，0.01，0.1中进行调整，采用k-折交叉确认的方法选择最优参数。

3.如权利要求1所述的半监督标签比例学习方法，其特征在于，还包括：步骤六、从有标签数据包中拿出一部分数据点构造一个测试集，利用测试集测试准确率。

4.如权利要求3所述的半监督标签比例学习方法，其特征在于，所述步骤六中，将有标签数据包随机分成k个互不相交的子集，每次选择一个子集作为测试集，其余作为训练集，根据训练集求出决策函数后，对测试集进行测试，记录错分的样本点数，重复k次后，将错分样本点数的总和除以总样本点数，得到k-折交叉确认误差，将其作为评价算法优劣的数量标准。