CN112232398A

CN112232398A - 一种半监督的多类别Boosting分类方法

Info

Publication number: CN112232398A
Application number: CN202011075826.6A
Authority: CN
Inventors: 许淑华; 齐鸣鸣
Original assignee: Wenzhou University Oujiang College
Current assignee: Wenzhou University of Technology
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-15
Anticipated expiration: 2040-10-10
Also published as: CN112232398B

Abstract

本发明涉及一种半监督的多类别Boosting分类方法，把包括标签数据集和无标签数据集的数据集划分为若干个子模块，在数据集上逐列更新边距目标向量,构建具有较好的近似最优边距约束的自调整回归目标；在每个图像块集合上计算稀疏模块化字典；在每个图像块集合上利用基于边距回归目标的模块化稀疏表示学习计算图像块之间的相似性,利用sigmoid加权投票算法把每个图像块集合上学习的相似性结果组合成一个整体；最后根据相似性置信度对无标签数据进行伪标签的分配，按照置信度大小选择一些无标签数据加入训练样本集中对弱分类器进行训练，训练完后把弱分类器组合成最终的分类器，并利用最终的分类器完成测试样本的分类。

Description

一种半监督的多类别Boosting分类方法

技术领域：

本发明涉及图像处理技术领域，具体涉及一种半监督的多类别Boosting分类方法。

背景技术：

随着电子设备的发展，在互联网和日常社会交往中产生的视觉图像数据或非视觉文本数据越来越多。大多数生成的数据是未分类或未标记的，因此很难使用监督方法进行图像和文档分类等操作。因此，半监督学习(SSL)在机器学习和数据挖掘研究中受到越来越多的关注。SSL的核心思想，特别是半监督分类是利用有标签和无标签的数据来学习分类模型。对于给定分类器，半监督Boosting的目标是利用标签数据的监督信息及其与无标签数据之间的关系来提高其分类性能。特别地，在现在Boosting算法中利用无标签数据可以获得更好性能的Boosted分类器。

在半监督Boosting策略中，需要相似度，如图2所示。利用相似度选择可靠的无标签样本训练新的集成(组合)分类器。由于欧氏距离计算简单，大多数策略中使用欧氏距离衡量样本间的相似度。然而，相似度(或距离度量)学习在Boosting任务中起着至关重要的作用，其原因有两个：第一，通常假设两个具有高度相似性的样本属于同一类；其次，由于数据的非线性，欧氏距离不能代表数据的结构非线性关系，特别是在高维空间。在半监督Boosting策略中，使用欧氏距离计算高斯核相似度，然而高斯核相似性中的核宽度如何设置，也是个要解决的问题。

最近，在数据相似性的自适应领域，基于稀疏编码的表示受到广泛的关注，本发明中也使用稀疏表示作为相似度的衡量。在稀疏表示学习中，当构造分类器或其他预测变量时，学习数据的可判别信息和对数据进行有效的可视化表示使得对数据提取信息特征变得更加容易。众所周知，由于传统的稀疏和低秩表示(LRRs)计算量大，不能满足实时应用的要求。此外，学习到的数据表示仍然缺乏捕捉来自不同对象的观察输入的潜在解释因子的可判别属性。而且在很多情况下，图像识别问题会因为图像被遮挡而变得复杂，例如面部图像带了墨镜、头饰、围巾、口罩、面部毛发或手。在这种情况下，使用局部图像信息的识别方法比整体直方图特征具有优势。从遮挡区域提取的特征将丢失，但从未遮挡区域提取的特征不会丢失，并且可能足以对图像进行准确分类。分类决策通常使用最近邻算法、支持向量机或Boosting策略获得。

为了解决上述问题，本发明在半监督Boosting策略中提出了一种边距结构表示的模块化的稀疏表示学习方法(MSPASEMIBOOST)来实现高效、有效地计算图像之间的相似性，本案由此而生。

发明内容：

本发明提供了一种视觉分类方法，实现了一种模块化的基于联合柔性自调整边距目标分析、判别子空间构造和概率图结构自适应的边距视觉表示学习半监督Boosting框架。确保所得到的数据表示法具有明显的判别能力，且具有接近最优的边距，提升了视觉分类的准确性。

为了实现上述目的，本发明所采用的技术方案为：

一种半监督的多类别Boosting分类方法，内容包括如下步骤：

步骤1：把数据集划分为若干个子模块，其中数据集包括标签数据集和无标签数据集；

步骤2：在数据集上逐列更新边距目标向量；

步骤3：在每个图像块集合上计算稀疏模块化字典；

步骤4：在每个图像块集合上利用基于边距回归目标的模块化稀疏表示学习计算图像块之间的相似性；

步骤5：利用sigmoid加权投票算法把每个图像块集合上学习的相似性结果组合成一个整体；

步骤6：根据相似性置信度对无标签数据进行伪标签的分配，按照置信度大小选择一些无标签数据加入训练样本集中并对弱分类器进行训练，训练完后把弱分类器组合成最终的分类器；

步骤7：利用最终的分类器完成测试样本的分类。

进一步，所述步骤1中将数据集X划分为M个子模块，其中包含n_l个标签数据集和n_u个无标签数据集，标签数据集表示为

无标签数据集表示为

进一步，所述步骤2中在数据集上逐列更新边距目标向量的内容包括以下步骤：

输入:数据集X、字典D、真实的类标签编号c，其中c∈{1,...,1,2,...,2,...,C,...,C}，C为数据的总类别数目；

步骤2.1:设表达式如下：W＝D^TX,

g_j＝W_j+1-W_c,其中W_j表示W的第j列，W_c表示W的第c列，用ζ表示学习因子，t和j均表示变量，令ζ＝0,t＝0,j＝1，

其一阶导数

步骤2.2：当j≤C循环；

若j≠c，

若ψ′(ζ)＞0，则ζ＝ζ+g_j,t＝t+1；

j＝j+1；

步骤2.3：ζ＝ζ/(1+t)；

步骤2.4：通过下式逐列更新边距目标向量S的第j列，即S_j：

其中，

Ω(·)表示索引运算符。

输出:边距目标向量S。

进一步，所述步骤3中在每个图像块集合上计算稀疏模块化字典，包含以下步骤：

输入：数据集X，划分为M个子模块，其中n_l个标签数据集，表示为：

n_u个无标签数据集，表示为：

标签矩阵表示为：L＝[L_l；L_u]＝[L_l,1,...,L_l,M；L_u,1,...,L_u,M]，用λ₁、λ₂、γ表示正则化参数，用iter表示迭代次数变量，用J表示近邻数：

步骤3.1：设iter＝0，在数据集X上使用KSVD初始化字典D₁,D₂,...,D_M，S＝L,F和Z是矩阵D的两个分解矩阵，P表示标签数据连接概率矩阵，并将F,Z,P初始值设为单位矩阵，使用X初始化图拉普拉斯矩阵E；

步骤3.2：循环；

步骤3.3：令变量m＝1；

步骤3.4：循环；

步骤3.5：Z＝F^TD_m

步骤3.6：

其中lu＝1,2,...,n_l,n_l+1,...,n_l+n_u，X_lu,m表示数据集X的第lu个数据的第m个模块所构成的矩阵，I表示单位矩阵；

步骤3.7：D_m＝(K-γFF^T)^-1X_lu,mS^T；

步骤3.8：[U,∑,V^T]＝SVD(D_mZ^T)；其中，U和V分别表示奇异值分解后的左奇异向量和右奇异向量，Σ为奇异值组成的对角矩阵；

步骤3.9：F＝UV^T；

步骤3.10：使用权利要求1所述的步骤2逐列更新边距目标向量S；

步骤3.11：使用下式逐行更新P_m的第i行，即P_m,i，P_m表示标签数据连接概率矩阵P的第m个模块：

其中，p_i表示标签数据连接概率矩阵P的第m个模块的第i行，t_i表示标签数据连接概率矩阵P每列之和所构成的主对角线矩阵的第i行，max表示求最大数；

W_i＝D^TX_i，其中，t_i,j表示标签数据连接概率矩阵P每列之和所构成的主对角线矩阵的第i行第j列的值，n表示数据集中数据的总个数，

是t_i按照升序排好序的向量，J表示近邻数，X_i表示数据集X的第i个数据；

步骤3.12：更新E＝diag(sum(P_m))-P_m；

步骤3.13：m＝m+1；

步骤3.14：直到m＞M；

步骤3.15：iter＝iter+1；

步骤3.16：直到iter＞30或满足收敛条件；

输出:稀疏模块化字典D₁,D₂,...,D_M。

进一步，所述步骤4中在每个图像块集合上利用基于边距回归目标的模块化稀疏表示学习计算图像块之间的相似性，以及步骤5中利用sigmoid加权投票算法把每个图像块集合上学习的相似性结果组合成一个整体，具体内容包括如下步骤：

输入:稀疏模块化字典D₁,D₂,...,D_M∈R^d×n,d＜n，R^d×n表示d×n的矩阵，稀疏度sparsity＝8，数据类别总数C，无标签测试样本y，分成M个子模块y₁,y₂,...,y_M，票数A；

步骤5.1：用正交匹配追踪算法求解测试样本y的M个子模块稀疏系数，即

k＝1,2,...,M，其中y_k表示样本y的第k个模块，D_k表示D的第k个模块，*表示矩阵的乘法运算符号；

步骤5.2：利用式

构造类i在测试样本y第k个子模块y_k的子模类系数by_ki，i＝1,2,...C，k＝1,...,M，其中，

为样本y的第k个子模块中第i类训练样本对应的系数；

步骤5.3：构造y_k子模类向量by_k＝[by_k1,by_k2,...,by_kC]；

步骤5.4：使用式

计算样本y的每个子模块y_k的稀疏度sy_k，k＝1,...,M；

步骤5.5：使用式

计算y_k的残差ry_k；

步骤5.6：使用sigmoid函数

计算样本y的每个子模块y_k的稀疏度的可信度权重

k＝1,...,M，其中，s₁和s₂为稀疏度的2个安全阈值；

步骤5.7：使用sigmoid函数

计算样本y的每个子模块y_k的残差的可信度权重

k＝1,...,M，其中，r₁和r₂为残差的2个安全阈值；

步骤5.8：使用式

计算子模块y_k的可信度权重值wy_k；如果y所有子模块的可信度权重全部为0，则设置wy_k＝1；

步骤5.9：计算子模块y_k中测试样本与各类训练样本间的残差，即：

k＝1,2,...,M；

步骤5.10：将测试样本y的第k个子模块的残差ry_1,k,ry_2,k,...,ry_C,k从小到大排序，残差最小的类得到A票数，残差次小的类得到A-1票数，依此类推，直至某类得到1票数，则余下的类别也全都得到1票数；

表示第i类在第k个子模块中获得的票数，i＝1,2,...,C，k＝1,2,...,M；

步骤5.11：通过将测试样本y的所有模块上每类获得的总票数进行加权求和，计算每类获得总票数

步骤5.12：计算

输出:测试样本y的稀疏表示系数

进一步，所述步骤6中根据相似性置信度对无标签数据进行伪标签的分配，按照置信度大小选择一些无标签数据加入训练样本集中并对弱分类器进行训练，训练完后把弱分类器组合成最终的分类器，上述具体内容包括如下步骤：

输入:数据集X，划分为M个子模块，其中具有n_l个标签数据集X_L，具有n_u个无标签数据集X_U；

表示标签数据的标签集，

是向量，

表示标签数据集中第i个数据；若

属于第k类，则

的第k个元素为1，即

其余元素为0，有

H(X)表示分类器,C为数据类别总数；

步骤6.1:分别计算权值：

步骤6.2：初始化分类器H(X)＝0；

步骤6.3：使用权利要求1所述的步骤4求出数据集X的稀疏系数O^lu和无标签数据集X_U的稀疏系数O^uu；

步骤6.4：计算无标签数据x_j归为第k类的置信度，k＝1,2,...,C，即：

其中，x_i和x_j分别表示第i个和第j个无标签数据，j∈{1,2,...,n_u},k∈{1,2,...,C}，

表示标签数据中第i个数据和无标签数据中第j个数据的稀疏系数，

表示第i和第j个无标签数据的稀疏系数；

步骤6.5：把x_j归为置信度最高值所对应的k类,h(x_j)＝[0,...,0,1,0,...,0],即第k位上的值为1,其余为0,并根据p_j,k的绝对值|p_j,k|的大小,抽取前10％的无标签数据放入标签数据X_L中，h(x_j)表示对第j个无标签数据进行分类的结果；

步骤6.6：使用式

计算分类器的权值α,其中，

步骤6.7：更新分类器:H(X)＝H(X)+αh(x_j)；

输出:最终的分类器H(X)。

进一步，所述步骤7中利用最终的分类器完成测试样本的分类内容如下：

首先，根据最终分类器计算测试样本归为第k类的置信度，k＝1,2,...,C；

其次，测试样本的标签就是最大置信度对应的k值。

本发明所公开的视觉分类方法，边距回归目标学习没有使用固定的0-1矩阵作为回归目标，而是直接构建了具有较好的近似最优边距约束的自调整回归目标，可以更准确地测量回归结果；为了捕获具有数据连通性的潜在结构，使用概率图形结构自适应指导边距回归目标的构建，回归结果进一步在数据的判别潜在子空间中进行预测，从而捕捉潜在的相关模式；由此得到的数据表示法具有明显的判别能力，且具有接近最优的边距，进而提升了视觉分类的准确性。

附图说明：

图1为本发明的视觉分类方法的流程示意图；

图2为本发明的视觉分类方法的半监督Boosting策略；

图3为本发明的图像块残差度的权重函数图；

图中：ry_k---图像块k的残差，r₁和r₂---残差的2个安全阈值，

---图像块k的残差的可信度权值；

图4为本发明的图像块稀疏度的权重函数图；

图中sy_k---图像块k的稀疏度，s₁和s₂---稀疏度的2个安全阈值，

---图像块k的稀疏度的可信度权值；

图5为一组本实施例Extended YaleB人脸数据集的示意图；

图6为一组本实施例CMU PIE人脸的示意图；

图7为一组本实施例AR人脸的示意图；

图8为一组本实施例COIL-100数据集的示意图；

图9为本实施例在Extended YaleB人脸集上与其他算法比较的结果图；

图10为本实施例在CMP PIE人脸集上与其他算法比较的结果图；

图11为本实施例在AR人脸集上与其他算法比较的结果图；

图12为本实施例在COIL-100数据集上与其他算法比较的结果图。

具体实施方式：

本实施例公开一种半监督的多类别Boosting分类方法，如图1至图4所示，该方法的内容介绍如下：

步骤1：把数据集X划分为M个子模块，其中包含n_l个标签数据集和n_u个无标签数据集；

标签数据集表示为X_L,即：

无标签数据集表示为X_U，即：

步骤2：在数据集上逐列更新边距目标向量，具体方法如下：

步骤2.1):设表达式如下：W＝D^TX,

其一阶导数

步骤2.2)：当j≤C循环；

若j≠c，

若ψ′(ζ)＞0，则ζ＝ζ+g_j,t＝t+1；

j＝j+1；

步骤2.3)：ζ＝ζ/(1+t)；

步骤2.4)：通过下式逐列更新边距目标向量S的第j列，即S_j：

其中，

Ω(·)表示索引运算符。

输出:边距目标向量S。

步骤3：在每个图像块集合上计算稀疏模块化字典，具体方法如下：

n_u个无标签数据集，表示为：

步骤3.1)：设iter＝0，在数据集X上使用KSVD初始化字典D₁,D₂,...,D_M，S＝L,F和Z是矩阵D的两个分解矩阵，P表示标签数据连接概率矩阵，并将F,Z,P初始值设为单位矩阵，使用X初始化图拉普拉斯矩阵E；

步骤3.2)：循环；

步骤3.3)：令变量m＝1；

步骤3.4)：循环；

步骤3.5)：Z＝F^TD_m

步骤3.6)：

步骤3.7)：D_m＝(K-γFF^T)^-1X_lu,mS^T；

步骤3.8)：[U,∑,V^T]＝SVD(D_mZ^T)；其中，U和V分别表示奇异值分解后的左奇异向量和右奇异向量，Σ为奇异值组成的对角矩阵；

步骤3.9)：F＝UV^T；

步骤3.10)：使用权利要求1所述的步骤2逐列更新边距目标向量S；

步骤3.11)：使用下式逐行更新P_m的第i行，即P_m,i，P_m表示标签数据连接概率矩阵P的第m个模块：

步骤3.12)：更新E＝diag(sum(P_m))-P_m；

步骤3.13)：m＝m+1；

步骤3.14)：直到m＞M；

步骤3.15)：iter＝iter+1；

步骤3.16)：直到iter＞30或满足收敛条件；

输出:稀疏模块化字典D₁,D₂,...,D_M。

上述步骤4和步骤5的具体操作方法详述如下：

步骤5.1)：用正交匹配追踪算法求解测试样本y的M个子模块稀疏系数，即

步骤5.2)：利用式

为样本y的第k个子模块中第i类训练样本对应的系数；

步骤5.3)：构造y_k子模类向量by_k＝[by_k1,by_k2,...,by_kC]；

步骤5.4)：使用式

计算样本y的每个子模块y_k的稀疏度sy_k，k＝1,...,M；

步骤5.5)：使用式

计算y_k的残差ry_k；

步骤5.6)：使用sigmoid函数

计算样本y的每个子模块y_k的稀疏度的可信度权重

k＝1,...,M，其中，s₁和s₂为稀疏度的2个安全阈值；

步骤5.7)：使用sigmoid函数

计算样本y的每个子模块y_k的残差的可信度权重

k＝1,...,M，其中，r₁和r₂为残差的2个安全阈值；

步骤5.8)：使用式

步骤5.9)：计算子模块y_k中测试样本与各类训练样本间的残差，即：

步骤5.10)：将测试样本y的第k个子模块的残差ry_1,k,ry_2,k,...,ry_C,k从小到大排序，残差最小的类得到A票数，残差次小的类得到A-1票数，依此类推，直至某类得到1票数，则余下的类别也全都得到1票数；

步骤5.11)：通过将测试样本y的所有模块上每类获得的总票数进行加权求和，计算每类获得总票数

步骤5.12)：计算

输出:测试样本y的稀疏表示系数

步骤6：根据相似性置信度对无标签数据进行伪标签的分配，按照置信度大小选择一些无标签数据加入训练样本集中并对弱分类器进行训练，训练完后把弱分类器组合成最终的分类器；此步骤具体内容说明如下：

表示标签数据的标签集，

是向量，

表示标签数据集中第i个数据；若

属于第k类，则

的第k个元素为1，即

其余元素为0，有

H(X)表示分类器,C为数据类别总数；

步骤6.1):分别计算权值：

步骤6.2)：初始化分类器H(X)＝0；

步骤6.3)：使用权利要求1所述的步骤4求出数据集X的稀疏系数O^lu和无标签数据集X_U的稀疏系数O^uu；

步骤6.4)：计算无标签数据x_j归为第k类的置信度，k＝1,2,...,C，即：

表示第i和第j个无标签数据的稀疏系数；

步骤6.5)：把x_j归为置信度最高值所对应的k类,h(x_j)＝[0,...,0,1,0,...,0],即第k位上的值为1,其余为0,并根据p_j,k的绝对值|p_j,k|的大小,抽取前10％的无标签数据放入标签数据X_L中，h(x_j)表示对第j个无标签数据进行分类的结果；

步骤6.6)：使用式

计算分类器的权值α,其中，

步骤6.7)：更新分类器:H(X)＝H(X)+αh(x_j)；

输出:最终的分类器H(X)。

步骤7：利用最终的分类器完成测试样本的分类，具体内容如下：

其次，测试样本的标签就是最大置信度对应的k值。

为了验证上述本发明所公开的分类方法其相对于现有其他算法的优越性，本实施例中分别在Extended YaleB人脸集、CMP PIE人脸集、AR人脸集、COIL-100数据集上应用本发明方法与其他算法进行了比较，以下将以实际验证实施例加以展示(如图5至图12所示)。

在对比实施例中，数据集划分的M个子模块中将M设置为9，Extended YaleB数据集类别数C为38，CMU PIE数据集类别数C为68，AR数据集类别数C为126，COIL-100数据集类别数C为100。每种数据集分别进行四次试验，对于Extended YaleB和CMU PIE，从每名受试者中随机选择10、15、20和25张图像作为训练集，其余的图像作为测试集；对于AR数据集，从每名受试者中随机选择8、11、14和17幅图像作为训练集，其余的图像作为测试集；对于COIL-100数据集，随机选择每个对象10、15、20、25张图像作为训练样本，其余图像作为测试样本。按照上述给出的方法进行步骤3时，本实施例中λ₁为0.5，λ₂为0.05，γ为0.05，近邻数J为15。

将本发明所公开的视觉分类方法分别与DLSR算法(S.Xiang,F.Nie,G.Meng,C.Panand C.Zhang,“Discriminative least squares regression for multiclassclassification and feature selection,”IEEE Trans.Neural Netw.Learn.Syst.,vol.23,no.11,pp.1738-1754,Nov.2012,10.1109/TNNLS.2012.2212721)、SLRM算法(L.Jing,L.Yang,J.Yu and M.K.Ng,“Semi-supervised low-rank mapping learning formulti-label classification,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,Boston,MA,USA,2015,pp.1483–1491.)、MSRL算法(Z.Zhang,L.Shao,Y.Xu,L.Liu and JianYang,“Marginal Representation Learning With Graph Structure Self-Adaptation,”IEEE Transactions On Neural Networks And Learning Systems,vol.29,no.10,pp.4645-4659,Dec.2018,10.1109/TNNLS.2017.2772264.)、XGBOOST算法(T.Chen and C,Guestrin,“Xgboost:A scalable tree boosting system,”in Proc.ACM SIGKDDInt.Conf.Knowl.Discovery Data Mining,San Francisco,CA,USA,2016,pp.785–794.)进行了对比，如图9至图12所示，附图中的MSPASEMIBOOST表示采用本发明方法。

由图9所展示实验发现，在Extended YaleB人脸数据集上，本发明方法得到的平均的识别率为97.05％，DLSR方法得到的平均的识别率为92.71％，SLRM方法得到的平均的识别率为89.6％，MSRL方法得到的平均的识别率为94.97％，XGBOOST方法得到的平均的识别率为93.78％，与其他算法相比，采用本发明方法识别率平均提升了大约2％，可以看出本发明方法优于其余方法。

由图10所展示实验发现，在CMU PIE人脸数据集上，本发明方法得到的平均的识别率为94.43％，DLSR方法得到的平均的识别率为90.12％，SLRM方法得到的平均的识别率为88.81％，MSRL方法得到的平均的识别率为92.83％，XGBOOST方法得到的平均的识别率为90.63％，与其他算法相比，采用本发明方法识别率平均提升了大约1.6％，可以看出本发明方法优于其余方法。

由图11所展示实验发现，在AR人脸数据集上，本发明方法得到的平均的识别率为97.72％，DLSR方法得到的平均的识别率为91.88％，SLRM方法得到的平均的识别率为92.11％，MSRL方法得到的平均的识别率为94.87％，XGBOOST方法得到的平均的识别率为92.61％，与其他算法相比，采用本发明方法识别率平均提升了大约3％，可以看出本发明方法优于其余方法。

由图12所展示实验发现，在COIL-100人脸数据集上，本发明方法得到的平均的识别率为96.90％，DLSR方法得到的平均的识别率为88.24％，SLRM方法得到的平均的识别率为89.04％，MSRL方法得到的平均的识别率为93.22％，XGBOOST方法得到的平均的识别率为92.10％，与其他算法相比，采用本发明方法识别率平均提升了大约4％，可以看出本发明方法优于其余方法。

本实施例所展示的一种视觉分类方法，在半监督Boosting框架中利用模块化稀疏表示计算无标签样本与标签样本之间的相似性，无缝地将回归目标的局部一致性和全局一致性合并到一个处理数据表示问题的公共框架中。从数据中学习的边距目标为拟合回归任务提供了足够的灵活性。同时，利用数据的潜在信息进行目标预测。与本发明所述的其他表示方法相比，所述学习数据表示方法具有更强的信息和判别能力。通过迭代优化策略有效地解决了问题。此外，在四个数据集上的实验结果表明，本实施例所述的方法优于其他的数据表示算法，这表明了本实施例所述的方法的有效性。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。