CN104463202B

CN104463202B - 一种多类图像半监督分类方法及系统

Info

Publication number: CN104463202B
Application number: CN201410708851.1A
Authority: CN
Inventors: 张召; 梁雨宸; 李凡长; 张莉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2017-09-19
Anticipated expiration: 2034-11-28
Also published as: CN104463202A

Abstract

本发明公开一种多类图像半监督分类方法及系统，首先对训练集中有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图和归一化的权重，用于表征样本相似性，再初始化一个类标签矩阵，为有效降低“软类别标签”预测标签F中的混合信号对结果的影响，引入l_2,1‑范数正则化，同时对F施加非负与列和为1的约束，确保估计的“软标签”满足概率定义和非负性，最后利用参数权衡相似性度量、初始类别标签和l_2,1‑范数正则化对分类的影响，完成半监督学习建模，取相似性概率的最大值，用于图像类别鉴定，得到分类结果。通过引入l_2,1‑范数正则化，将混合信号对分类的影响降低，使分类精准度有了提高。此外，还可有效对训练集外的数据进行分类，可拓展性好。

Description

一种多类图像半监督分类方法及系统

技术领域

本申请涉及数据挖掘、机器学习及模式分类技术领域，特别是涉及一种多类图像半监督分类方法及系统。

背景技术

随着信息和数据爆炸时代的到来，分类技术成为数据挖掘、模式识别等领域中最重要的研究课题之一。分类主要实现未知类别的数据的归类，在医疗数据分析、信用卡的信用分级和图像分类等领域有着重大的意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。但是真实世界中的数据(例如互联网中的图像)大多是无类别标签的，且样本的人工标定过程非常费时费力且昂贵，使得数据的准确分类有一定难度。最近，基于相似图构造的半监督学习方法在数据挖掘和模式分类等相关领域已经兴起成为强大而流行的有效工具。基于真实世界中的数据特点，半监督学习主要通过有标定样本的类别，和有标签与无标签样本间的相似性，揭示出无标签样本的类别。

近年来，由于基于标签传播理论的学习过程具有简单有效、快速等优点，故已成为半监督学习的典型代表之一。作为一种基于图的半监督学习方法，标签传播根据有标签和无标签样本间的内在关联信息，将有标签样本的标签信息传播给无标签样本，完成无标签样本的类别估计。标签传播用于半监督分类的思想于2002年由Zhu等人提出，因其效率高、复杂度低等优点引起国内外学者广泛关注，并逐渐被证实为一种简单、速度极快、可扩展性强、性能较为稳定的算法，并被广泛的运用在许多领域，如社交网络中的社会关系分析、多媒体信息检索分类等。经典的标签传播算法包括GFHF、LLGC、LNP和SLP等。目前几乎所有的研究都着眼于改进相似图的构建来提高分类性能，也取得了一些成绩。但是现有方法仍有一些缺点，例如，如何有效去除预测得到的“软类别标签”预测矩阵中的混合信号及其对分类结果的影响，以及输出的软类别标签信息是否总是满足概率的定义(即概率和为1与非负)等。

因此，提出一种基于增强型标签传播的多类图像半监督归纳式分类新方法，确保输出结果充分稀疏和满足概率定义，提高算法的适用性和鲁棒性，增强分类性能，是本领域人员亟待解决的问题。

发明内容

有鉴于此，本申请提供一种多类图像半监督分类方法及系统，以自动实现对图像的分类，提高图像分类效率、降低图像分类成本。

为了实现上述目的，本发明实施例提供的技术方案如下：

一种多类图像半监督分类方法，包括：

对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图，计算得到权重系数矩阵,并对所述权重系数矩阵进行对称化、归一化处理；

根据所述训练集中有标签图像样本的类别标签信息，初始化一个类标签矩阵，其中，所述类标签矩阵中额外添加第(c+1)类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数；

引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于所述类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵；

根据所述“软类别标签”预测矩阵表征的相似性概率，预测所述训练集中无标签图像样本的准确类别，得到直推式图像分类结果，训练完成半监督分类建模，生成训练模型；

利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程。

优选的，所述训练集和测试集的生成过程为：

接收图像样本集合，并将图像进行向量化描述；

从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集，其余的图像样本数据作为测试集，其中，所述训练集中包含少量有标签图像样本和适量的无标签图像样本，所述测试集中包含大量无标签的待分类图像样本。

优选的，所述对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图，计算得到权重系数矩阵，对所述权重系数矩阵进行对称化、归一化处理的过程为：

基于所述训练集进行K最近邻搜索，构造近邻图G，找出所述训练集中每个图像样本的K个最近邻的图像样本，所述训练集中的图像样本包括有标签图像样本和无标签图像样本；

采用Locally Linear Embedding(LLE)-重构权的构造方法，计算、衡量近邻图G中的顶点之间的相似性，构造权重系数矩阵；

将所述权重系数矩阵进行各行求和得到一个对角矩阵，其中，所述对角矩阵中的对角元素表征各个顶点在图中的重要性；

将所述权重系数矩阵对称化处理后，利用所述对角矩阵对其进行归一化处理，得到归一化后的权重系数矩阵。

优选的，所述根据所述训练集中有标签图像样本的类别标签信息，初始化一个类标签矩阵的过程为：

初始化定义一个行、列数分别为c+1和N的类标签矩阵Y(所有元素均初始化为0)来表征所述训练集中所有图像样本的原始标签信息，其中，N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即上述的异类或未发现的新颖类样本。

优选的，所述引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于所述类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵的过程为：

对标签传播算法加入l_2,1-范数正则化约束，非负约束，以及列和为一约束，保证基于所述类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程中，传播的标签信息总是非负和足够稀疏的，其中，非负约束具体为：“软类别标签”预测标签矩阵F＝[f₁,f₂,…,f_N]中的元素总是非负的，满足任意f_i≥0；列和为一约束具体为：对F中的任意一个f_i，满足e^Tf_i＝1；

通过迭代过程，图像样本的标签信息得以充分传播，相邻顶点具有相似的标签信息，结果以“软类别标签”形式的预测标签矩阵输出，其中，各列f_i中的元素即为图像样本属于各个类别的概率。

优选的，所述利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签的过程为：

找出所述无标签待分类的图像样本在训练集中的K-近邻，计算用于重构该无标签待分类的图像样本的权重系数向量，再利用该无标签待分类的图像样本的K个近邻的软类别标签，以及重构系数向量，完成样本标签信息的传播过程，估计出该无标签待分类的图像样本的类别标签，其中，K＝7。

一种多类图像半监督分类系统，包括：

第一预处理模块，用于对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图和权重系数矩阵，对所述权重系数矩阵进行对称化、归一化处理；

第二预处理模块，用于根据所述训练集中有标签图像样本的类别标签信息，初始化类标签矩阵，其中，所述类标签矩阵中额外添加第(c+1)类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数；

第一训练模型模块，基于训练集，通过引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于所述类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵；

第二训练模型模块，用于根据所述“软类别标签”预测矩阵表征的相似性概率，预测所述训练集中无标签图像样本的准确类别，得到直推式图像分类结果，训练完成半监督分类建模，生成训练模型；

测试模块，用于利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程。

优选的，还包括集合生成模块，所述集合生成模块用于接收图像样本集合，并将图像进行向量化描述；从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集，其余的图像样本数据作为测试集，其中，所述训练集中包含少量有标签图像样本和适量的无标签图像样本，所述测试集中包含大量无标签的待分类图像样本。

优选的，所述第二预处理模块初始化定义一个行、列数分别为c+1和N的类标签矩阵Y(所有元素均初始化为0)来表征所述训练集中所有图像样本的原始标签信息，其中，N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即上述的异类或未发现的新颖类样本。

优选的，所述测试模块找出所述无标签待分类的图像样本在训练集中的K-近邻，计算用于重构该无标签待分类的图像样本的权重系数向量，再利用该无标签待分类的图像样本的K个近邻的软类别标签，以及重构系数向量，完成样本标签信息的传播过程，估计出该无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程，其中，K＝7。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种多类图像半监督分类方法及系统，通过对有标签和无标签图像样本进行近邻构造，用LLE-重构权构建权重系数矩阵。将权重系数矩阵进行各行求和得到一个对角矩阵(即顶点的权重图)。将权重系数矩阵对称化处理后，用对角矩阵对其进行归一化处理得到归一化后的权重系数矩阵。根据类标签矩阵和归一化后的权重系数矩阵，加入l_2,1-范数正则化约束、非负约束、以及列和为一约束进行标签传播迭代，得到“软类别标签”预测矩阵。预测软标签矩阵中各列最大值揭示对应样本的预测类别。利用训练得到的“软类别标签”预测矩阵，可用于处理训练集以外的数据。通过加入约束，保证了输出的“软类别标签”预测矩阵的充分稀疏性，有效减少了预测矩阵中的混合信号对类别预测结果的影响，并保证了输出的概率为非负，同时增强了标签传播方法的适用性和鲁棒性，提高了分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种多类图像半监督分类方法流程图；

图2为本申请实施例提供的一种多类图像半监督分类系统的结构示意图；

图3中3a-3c为本申请实施例提供的一种归纳样本外的无标签图像样本的用例示意图；

图4为本申请实施例提供的一种多类图像半监督分类方法的标签预测示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种多类图像半监督分类方法及系统，通过对有标签和无标签图像样本进行K-最近邻搜索，构建相似近邻图，采用LLE-重构权表征样本间的相似性，再将重构系数矩阵进行各行求和得到顶点权重图，进而将重构系数矩阵进行对称化、归一化处理。根据重构系数矩阵和初始化的类标签矩阵Y，引入了l_2,1-范数正则化技术，非负约束，以及列和为一的约束进行标签的迭代传播过程，得到“软类别标签”预测矩阵F。软标签预测矩阵F中各列概率的最大值将决定对应样本的类别归属。根据训练得到的软类别标签矩阵，可用于处理训练集外的新数据(如：测试集中的无标签的待分类图像样本)。通过引入l_2,1-范数正则化技术，非负约束，以及列和为一的约束，本发明方法可保证输出的软类标签是充分稀疏的，可有效减少了输出软类标签中的混合信号对分类性能的干扰和影响，并可保证输出的软类别标签满足概率定义和非负性质。因此，方法增强了算法的适用性和鲁棒性。

实施例：

图1为本申请实施例提供的一种多类图像半监督分类方法流程图。

如图1所示，该方法包括：

S101、对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图，计算得到权重系数矩阵,并对权重系数矩阵进行对称化、归一化处理。

本申请实施例提供一种训练集和测试集的生成方法，该方法为：接收图像样本集合，并将图像进行向量化描述；从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集，其余的图像样本数据作为测试集，其中，训练集中包含少量有标签图像样本和适量的无标签图像样本，测试集中包含大量无标签的待分类图像样本。

具体的，本发明共使用了7个数据集，包括1个合成数据集和6个真实图像数据集。6个真实图像数据集包括ORL-YALE,UMIST,Leaf,USPS,PHOS-3D Object和COIL-20。为了进行分类，我们从给定数据集中选取部分数据作为训练集(训练集应包含少量有标签图像样本和适量无标签图像样本)，其余数据(均为测试样本，即：无标签的待分类图像样本)组成测试集。首先根据训练集，训练得到可用于类别鉴定的“软类别标签”预测矩阵，进而实现测试集中的测试样本的分类，通过比较原始数据集提供的测试样本的类别标签和实验预测得到的测试样本的类别标签进行比较，得到数据的分类结果。基于计算高效性考虑，所有真实图像的尺寸被压缩到32×32(像素)。此外，采用原始图像的Histograms of OrientedGradients(HOG)特征进行分类，其中方向直方图箱子数设置为9，cell size设置为16×16，block size设置为2×2。

下面将使用真实数据集中的COIL-20目标图像数据库(即：图像样本集合)作为实施例进行具体实施方式说明。

首先从COIL-20数据集中选出部分数据(包含少量有标签图像样本和适量无标签图像样本)作为训练集，其他数据作为测试集(均为测试样本，即无标签的待分类图像样本)；设选出的训练数据集为X＝[X_L，X_U]∈R^n×(l+u)，其中n是数据的维度，l+u＝N为训练样本的总数量，X_L＝[x₁,x₂,...,x_l]∈R^n×l为训练集中的有标签数据集，X_U＝[x_l+1,x_l+2,...,x_l+u]∈R^n×u为训练样本中的无标签数据集。每个列向量x_i∈Rⁿ代表一个对象图像样本。假设总类别标签数为c，并且每种标签都被包含于有标签数据集X_L中，且有标签数据集X_L中的每个样本有且仅有一个属于标签集{1,2...,c}的标签。在本实施例COIL-20数据集中，数据维度n＝1024,总样本数量＝1440,标签类别数c＝20。

具体的，基于训练集进行K最近邻搜索，构造近邻图G，找出训练集中每个图像样本的K个最近邻的图像样本，训练集中的图像样本包括有标签图像样本和无标签图像样本；采用Locally Linear Embedding(LLE)-重构权的构造方法，计算、衡量近邻图G中的顶点之间的相似性，构造权重系数矩阵；将权重系数矩阵进行各行求和得到一个对角矩阵，其中，对角矩阵中的对角元素表征各个顶点在图中的重要性；将权重系数矩阵对称化处理后，利用对角矩阵对其进行归一化处理，得到归一化后的权重系数矩阵，详细过程如下：

(1)找出每个目标图像样本x_i的K个近邻，构建x_i的K近邻集N(x_i)。在本实施例COIL-20中，K＝7。

(2)样本x_i和x_j之间的相似度通过LLE-重构权进行表征：

其中x_j和x_r均为目标图像样本x_i的近邻。重构系数矩阵即为

(3)对进行对称化处理，具体为：

令为一个对角矩阵，满足则可用于衡量顶点x_i的度(即在图中的重要性)。然后对进行归一化，具体为：

对进行归一化能增大数据密度低的区域的权重，同时减小数据密度高的区域的权重，削弱数据分布密度对权重图构建的影响，有利于处理数据密度差距较大的数据集。

S102、根据训练集中有标签图像样本的类别标签信息，初始化一个类标签矩阵，其中，类标签矩阵中额外添加第(c+1)类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数。

具体的，初始化定义一个行、列数分别为c+1和N的类标签矩阵Y(所有元素均初始化为0)来表征训练集中所有图像样本的原始标签信息，其中，N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即异类或未发现的新颖类样本。

S103、引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵。

具体的，对标签传播算法加入l_2,1-范数正则化约束，非负约束，以及列和为一约束，保证基于类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程中，传播的标签信息总是非负和足够稀疏的，其中，非负约束具体为：“软类别标签”预测标签矩阵F＝[f₁,f₂,…,f_N]中的元素总是非负的，满足任意f_i≥0；列和为一约束具体为：对F中的任意一个f_i，满足e^Tf_i＝1；通过迭代过程，图像样本的标签信息得以充分传播，相邻顶点具有相似的标签信息，结果以“软类别标签”形式的预测标签矩阵输出，其中，各列f_i中的元素即为图像样本属于各个类别的概率。

S104、根据“软类别标签”预测矩阵表征的相似性概率，预测训练集中无标签图像样本的准确类别，得到直推式图像分类结果，训练完成半监督分类建模，生成训练模型。

具体的，步骤S102、步骤S103和步骤S104主要利用训练集中的有标签图像样本和其余无标签图像样本的内在关联，通过直推式标签传播完成对训练集中的无标签图像样本的类别估计与预测，得到可靠的直推式图像分类结果，并训练完成半监督分类建模，为后续的测试样本分类做好准备，详细过程如下：

(1)、针对训练集，初始化一个类标签矩阵Y＝[y₁,y₂,...,y_l+u]∈R^(c+1)×(l+u)，其中，y_i为一个列向量，对应第i个样本。对于训练集中有标签图像样本，如果x_j的标签属于第i类，赋值y_i,j＝1(1≤i≤c)，同列其他元素均等于0，即y_i,j＝0，1≤i≤c+1；对于训练集中无标签图像样本，在i＝c+1处赋值y_i,j＝1，同列其他元素均为0，即y_i,j＝0，1≤i≤c。所得Y即为初始化的原始的类标签矩阵，其中Y的第c+1行是异类或未发现类的检测容器。在本实施例COIL-20中，类别标签总数c＝20。

(2)、基于标签传播算法，引入了l_2,1-范数正则化技术、非负约束，以及列和为一约束。首先定义一个“软类别标签”预测矩阵F，F＝[f₁,f₂,...,f_l+u]∈R^(c+1)×(l+u)，其中f_j(0≤f_j≤1)为一个列向量，其中最大的元素f_i,j决定x_j的类别归属，即argmax_i≤cf_i,j。

定义如下的增强型标签传播模型：

Subj f_i≥0，e^Tf_i＝1 for i＝1,2,...,l+u

其中y_i，i＝1,2,...,l+u，为数据集u的原始标签向量，f_i≥0为非负约束。e为单位阵，e^Tf_i＝1的引入在于限制每个列向量f_i的列元素之和为1，即输出的软类别标签为样本归属各个类别的概率。引入的l_2,1-范数正则化，即作用于“软类别标签”预测矩阵F，将使F中的许多行变成零，实现输出结果充分稀疏。根据输出的“软类别标签”预测矩阵F，我们可以根据每列f_i中的最大元素确定样本的预测标签。在实施例COIL-20中，ψ＝10^-6。

S105、利用训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程。

具体的，找出无标签待分类的图像样本在训练集中的K-近邻，计算用于重构该无标签待分类的图像样本的权重系数向量，再利用该无标签待分类的图像样本的K(K＝7)个近邻的软类别标签，以及重构系数向量，完成样本标签信息的传播过程，估计出该无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程。

该步骤主要根据训练模型的输出结果完成对新来的训练样本外的图像数据(测试样本，也即无标签待分类的图像样本)进行处理和类别预测，参照Linear NeighborhoodPropagation(LNP)算法的归纳过程对测试样本的类别信息进行估计。假设给定测试集中的一个测试样本z，采用局部估计的方法对其标签进行预测，详细过程如下：

(1)用K-近邻的方法，在包含z的样本集合(Z∪X)中找出z的K个近邻，其中，X为训练集。

(2)用步骤S101中的方法，求出z与K个近邻间的权重x_j∈N_k(z)，其中，K＝7。

(3)估计z的类别标签，见下式：

其中，N_k(z)是z在Z∪X中的K-近邻，是z和x_j之间的相似性度量，f(z)即为z的预测类别标签。

在本申请实施例中，可以预先利用步骤S101-S104生成训练模型，进而直接利用预先生成的训练模型执行步骤S105。

本发明公开的一种多类图像半监督分类方法，首先对训练集中有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图和归一化的权重，用于表征样本相似性，再初始化一个类标签矩阵，为了有效降低“软类别标签”预测标签F中的混合信号对结果的影响，引入l_2,1-范数正则化，同时对F施加非负，以及列和为1的约束，确保估计的“软类别标签”满足概率定义和非负性，最后利用参数权衡相似性度量、初始类别标签和l_2,1-范数正则化对分类的影响，完成半监督学习建模，取相似性概率的最大值，用于图像类别鉴定，得到最准确的分类结果。通过引入l_2,1-范数正则化，将混合信号对分类的影响降低，使分类精准度有了提高。此外，本发明方法可有效对训练样本外的数据进行分类，可拓展性好。同时这种新方法增强了算法的适用性和鲁棒性。

参见图2，图2为本申请实施例提供的一种多类图像半监督分类系统的结构示意图。

如图2所示，该系统包括：

第一预处理模块1，用于对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图和权重系数矩阵，对权重系数矩阵进行对称化、归一化处理。

具体的，第一预处理模块用于对训练集中有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图，并计算归一化的重构系数矩阵，详细过程为：

设已有训练集为X＝[X_L，X_U]∈R^n×(l+u)，其中n是数据的维度，l+u＝N为训练样本数量，X_L＝[x₁,x₂,...,x_l]∈R^n×l为训练集中的有标签数据集，X_U＝[x_l+1,x_l+2,...,x_l+u]∈R^n×u为训练集中的无标签数据集。每个列向量x_i∈Rⁿ代表一个样本。假设每种标签都被包含于有标签数据集X_L中，且有标签数据集X_L中的每个训练样本有且仅有一个属于标签集{1,2...,c}的标签。

找出训练集中每个样本的K近邻，样本x_i和x_j之间的相似度定义为：

其中x_j和x_r均为目标图像样本x_i的近邻。重构系数矩阵即为

对矩阵进行对称化处理，即为一个对角矩阵，满足则可用于衡量顶点x_i的度(即在图中的重要性)。然后对进行归一化，具体为：

对进行归一化能减小数据分布密度对权重图构建的影响，有利于处理数据密度差距较大的数据集。

第二预处理模块2，用于根据训练集中有标签图像样本的类别标签信息，初始化类标签矩阵，其中，类标签矩阵中额外添加第(c+1)类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数。

具体的，第二预处理模块初始化定义一个行、列数分别为c+1和N的类标签矩阵Y(所有元素均初始化为0)来表征训练集中所有图像样本的原始标签信息，其中，N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即上述的异类或未发现的新颖类样本，详细过程如下：

初始化训练集的原始的类标签矩阵Y＝[y₁,y₂,...,y_l+u]∈R^(c+1)×(l+u)，其中，y_i为一个列向量，对应第i个样本。对于训练集中有标签图像样本，如果x_j的标签属于第i类，赋值y_i,j＝1(1≤i≤c)，同列其他元素均等于0，即y_i,j＝0，1≤i≤c+1；对于训练集中无标签图像样本，在i＝c+1处赋值y_i,j＝1，同列其他元素均为0，即y_i,j＝0，1≤i≤c。其中Y的第c+1行是异类或未发现类的检测容器。

第一训练模型模块3，基于训练集，通过引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于类标签矩阵及对称化、归一化处理后的权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵。

第二训练模型模块4，用于根据“软类别标签”预测矩阵表征的相似性概率，预测训练集中无标签图像样本的准确类别，得到直推式图像分类结果，训练完成半监督分类建模，生成训练模型。

第一训练模块3和第二训练模块4用于使用权重系数矩阵、类标签矩阵进行标签信息迭代传播过程，得到训练样本中无标签图像样本的类别标签，详细过程为：

基于标签传播算法，我们引入l_2,1-范数正则化约束，非负约束，以及列和为一约束。输出结果为“软类别标签”预测矩阵F，F＝[f₁,f₂,...,f_l+u]∈R^(c+1)×(l+u)，其中f_i(0≤f_i≤1)为一个列向量，其中最大的元素f_i,j确定样本x_j的类别归属，即argmax_i≤cf_i,j。

定义如下增强型标签传播模型：

Subj f_i≥0，e^Tf_i＝1 for i＝1,2,...,l+u

其中y_i，i＝1,2,...,l+u为数据集的原始标签向量，f_i≥0为非负约束。e为单位阵，e^Tf_i＝1的引入在于限制每个列向量f_i的列元素之和为1，即输出的软类别标签可表征样本归属各个类别的概率。引入的l_2,1-范数正则化，即作用于“软类别标签”预测矩阵F，将使F中的许多行变成零，实现输出结果充分稀疏。每列f_i中的最大元素指明了样本的类别标签。

测试模块5，用于利用训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程。

具体的，测试模块找出无标签待分类的图像样本在训练集中的K-近邻，计算用于重构该无标签待分类的图像样本的权重系数向量，再利用该无标签待分类的图像样本的K个近邻的软类别标签，以及重构系数向量，完成样本标签信息的传播过程，估计出该无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程，其中，K＝7。

具体的，测试模块首先对测试样本进行测试前预处理，即找出测试样本在训练集中的近邻，构建局部相似近邻图，然后根据“软类别标签”预测矩阵F和局部相似近邻图，对测试集中的测试样本进行类别标签预测，其中：

对测试样本进行测试前预处理，即找出测试样本在训练集中的近邻，构建局部相似近邻图的过程为：给定测试集中任一测试样本z，在包含z的样本集合(Z∪X)中找出z的K-近邻。根据训练预处理201种的方法，计算出测试样本z与其K个近邻间的权重系数

根据“软类别标签”预测矩阵F和局部相似近邻图，对测试集中的测试样本进行类别标签预测的过程为：

其中，N_k(z)是z在Z∪X中的K近邻，是z和x_j之间的相似性度量，所得f(z)即为z的预测标签。

进一步的，在本申请实施例提供的一种多类图像半监督分类系统中，还包括：集合生成模块，集合生成模块用于接收图像样本集合，并将图像进行向量化描述；从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集，其余的图像样本数据作为测试集，其中，训练集中包含少量有标签图像样本和适量的无标签图像样本，测试集中包含大量无标签的待分类图像样本。

本发明公开的一种多类图像半监督分类系统，首先对训练集中有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图和归一化的权重，用于表征样本相似性，再初始化一个类标签矩阵，为了有效降低“软类别标签”预测标签F中的混合信号对结果的影响，引入l_2,1-范数正则化，同时对F施加非负，以及列和为1的约束，确保估计的“软类别标签”满足概率定义和非负性，最后利用参数权衡相似性度量、初始类别标签和l_2,1-范数正则化对分类的影响，完成半监督学习建模，取相似性概率的最大值，用于图像类别鉴定，得到最准确的分类结果。通过引入l_2,1-范数正则化，将混合信号对分类的影响降低，使分类精准度有了提高。此外，本发明方法可有效对训练样本外的数据进行分类，可拓展性好。同时这种新方法增强了算法的适用性和鲁棒性。

在训练样本上采用网格搜索方式来选择参数，其中近邻数K的取值范围是{3,5,…,15}，参数ψ的取值范围是{10^-8,10^-6,…,10⁶,10⁸}。训练样本和测试样本的挑选是随机的，因此我们重复30次试验。请参阅表1，为本发明与4个经典标签传播算法(即GFHF、LLGC、SLP、LNP)在6个真实图像数据集上的直推式分类结果对比。实验中，数据集被划分为有标签集和无标签集，任务在于通过直推式方式确定无标签图像样本的类别标签。表1给出了30次实验的平均结果(％)和最好结果(％)。参与比较的标签传播算法各自采用默认的参数进行实验。在本发明方法中，参数α_l、α_u一般分别设为0和0.999999。

表1.本发明和传统标签传播算法的正确率对比

请参阅附图3，为本申请实施例提供的一种归纳样本外数据(测试样本)的用例示意图，也即：一种归纳样本外的无标签图像样本的用例示意图。

采用一个2类的合成数据进行可视化实验，从每类中选择2个数据作为训练集中的有标签图像样本，50个作为训练集中的无标签图像样本，其余数据作为待归纳的测试样本。图3左侧图(3a)为原始数据的分布，图3中间图(3b)为训练过程，完成对训练集中的无标签图像样本的直推式估计，图3右侧图(3c)用于归纳测试样本，即归纳式获得测试样本的类别信息。可以看出，本发明方法可有效完成测试样本的估计，即具备有效处理样本外数据的能力。

请参阅附图4，为本申请实施例提供的一种多类图像半监督分类方法的标签预测示意图。

通过实验结果我们可以看出本发明的图像分类效果明显优于传统经典的标签传播算法，具有更高的适用性和鲁棒性。

综上：本发明公开的一种基于标签传播的多类图像半监督分类方法及系统，通过对有标签和无标签图像样本进行相似性学习，使用LLE-重构权构建相似近邻图。将相似近邻图进行各行求和得到顶点权重图。将相似近邻图对称化处理后，用顶点权重图对其进行归一化处理得到权重系数图。根据权重系数图和原始标签矩阵，加入l_2,1-范数正则化约束、非负约束、列和为一约束进行标签传播迭代过程，得到预测软标签矩阵。预测软标签矩阵中各列最大值将指明对应样本的预测类别。根据软标签矩阵得到训练模型，可用于处理样本外的新数据。本发明基于标签传播算法加入上述三种约束，保证了输出的预测矩阵实现充分稀疏，有效减少了软类别标签中混合信号对分类结果的干扰，保证了输出的软类别标签满足概率定义和非负等性质。同时这种新方法增强了算法的适用性和鲁棒性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上仅是本申请的优选实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多类图像半监督分类方法，其特征在于，包括：

根据所述训练集中有标签图像样本的类别标签信息，初始化一个类标签矩阵，其中，所述类标签矩阵中额外添加第c+1类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数；

利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程；

其中，所述对训练集中的有标签图像样本和无标签图像样本进行相似性学习，构造相似近邻图，计算得到权重系数矩阵，对所述权重系数矩阵进行对称化、归一化处理的过程为：

采用Locally Linear Embedding，LLE-重构权的构造方法，计算、衡量近邻图G中的顶点之间的相似性，构造权重系数矩阵；

2.根据权利要求1所述的方法，其特征在于，所述训练集和测试集的生成过程为：

接收图像样本集合，并将图像进行向量化描述；

3.根据权利要求1所述的方法，其特征在于，所述根据所述训练集中有标签图像样本的类别标签信息，初始化一个类标签矩阵的过程为：

初始化定义一个行、列数分别为c+1和N的类标签矩阵Y来表征所述训练集中所有图像样本的原始标签信息，其中，所述类标签矩阵Y中的所有元素均初始化为0；N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即上述的异类或未发现的新颖类样本。

4.根据权利要求3所述的方法，其特征在于，所述引入l_2,1-范数正则化技术，非负约束，以及列和为1的约束，并基于所述类标签矩阵及权重系数矩阵进行非负稀疏标签传播的迭代过程，得到“软类别标签”预测矩阵的过程为：

5.根据权利要求1所述的方法，其特征在于，所述利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签的过程为：

6.一种多类图像半监督分类系统，其特征在于，包括：

第二预处理模块，用于根据所述训练集中有标签图像样本的类别标签信息，初始化类标签矩阵，其中，所述类标签矩阵中额外添加第c+1类用于检测异类/未发现的新颖类，c为有标签图像样本的总类别数；

测试模块，用于利用所述训练模型对测试集中的无标签待分类的图像样本进行类别信息的预测，得到所述测试集中的无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程；

其中，所述第一预处理模块，具体用于：

7.根据权利要求6所述的系统，其特征在于，还包括集合生成模块，所述集合生成模块用于接收图像样本集合，并将图像进行向量化描述；从进行向量化描述后的图像样本集合中选出部分图像样本数据作为训练集，其余的图像样本数据作为测试集，其中，所述训练集中包含少量有标签图像样本和适量的无标签图像样本，所述测试集中包含大量无标签的待分类图像样本。

8.根据权利要求6所述的系统，其特征在于，所述第二预处理模块初始化定义一个行、列数分别为c+1和N的类标签矩阵Y来表征所述训练集中所有图像样本的原始标签信息，其中，所述类标签矩阵Y中的所有元素均初始化为0；N是图像样本的总数；对有标签图像样本，若有标签图像样本x_j属于第i类，令Y(i,j)＝1,其中类别标签i属于集合{1,2,…,c}；对于无标签图像样本，若无标签图像样本x_j属于第c+1类，令Y(i,j)＝1,即上述的异类或未发现的新颖类样本。

9.根据权利要求6所述的系统，其特征在于，所述测试模块找出所述无标签待分类的图像样本在训练集中的K-近邻，计算用于重构该无标签待分类的图像样本的权重系数向量，再利用该无标签待分类的图像样本的K个近邻的软类别标签，以及重构系数向量，完成样本标签信息的传播过程，估计出该无标签待分类的图像样本的类别标签，以实现对训练集以外数据的归纳过程，其中，K＝7。