CN106529604A

CN106529604A - 一种自适应的图像标签鲁棒预测方法及系统

Info

Publication number: CN106529604A
Application number: CN201611059009.5A
Authority: CN
Inventors: 张召; 贾磊; 李凡长; 张莉; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-03-22
Anticipated expiration: 2036-11-24
Also published as: CN106529604B

Abstract

本发明公开了一种自适应的图像标签鲁棒预测方法及系统，为了提高对未知类别标签的待测样本标签的预测，提出将稀疏编码和标签传播集成到一个统一的框架中，实现稀疏重构误差和分类误差联合执行同时达到最小化，这完全区别于传统的标签传播方法将图构造与标签传播分为相互独立的两个步骤；因采用迭代的优化方案计算稀疏编码和软标签矩阵，在每一次迭代中，稀疏编码被作为预测模块的自适应权重用于标签传播，因此避免了在传统图构建的复杂过程中最优近邻及其最优近邻数量的选择难问题；此外，为了增强稀疏性，提出将稀疏编码稀疏和重构误差同时施加L2,1范数正则化约束，通过引入L2,1范数正则化技术，有效提升了系统的预测准确度和鲁棒性。

Description

一种自适应的图像标签鲁棒预测方法及系统

技术领域

本发明涉及模式识别和数据挖掘技术领域，更具体地说，涉及一种自适应的图像标签鲁棒预测方法及系统。

背景技术

随着计算机技术和智能化的不断发展，图像分类技术已经发展成为数据挖掘、机器学习等领域最重要的研究课题之一。分类技术主要用来判断未知类别数据的类别，在医疗数据分析，文本、网页、信用卡评级等领域都有重大意义，将精确的分类技术投入使用将带来巨大的社会与经济效益。基于相似图构造的半监督学习方法因其实用性及有效性，近年来在数据挖掘与模式识别领域引起了广泛关注，已然发展成为实用且普遍的分类工具之一。有多项研究证明监督型学习方法的性能明显优于无监督型学习方法，但在现实世界中，监督数据往往难以获得，且人工标定获得监督信息将耗费大量的时间、人力，从而使实用性大大降低。因此，为了兼顾实用与准确性，半监督学习成为热点问题。半监督型学习主要通过对大量数据中每一类样本中少量数据进行标定，再将监督信息通过相似图传播给未知类别的数据，进而预测出无标签样本的类别。

近年来，基于标签传播理论的学习过程因其简单、有效、快速的优点，成为半监督学习的典型代表之一。标签传播于2002年由Zhu等人提出，一经提出即引起国内外学者的广泛关注，并逐渐被应用在许多领域。标签传播通过对样本之间的相似性进行学习，将有标签样本的监督信息传播给无标签样本，进而估计出无标签样本的类别信息。目前传统的直推式标签传播方法主要通过构造近邻图或者权重矩阵，结合自身初始标签信息和接收部分来自近邻的标签信息预测无标签样本的软标签。然而发明人发现，这些方法都不可避免的需要对近邻数或者一些关键参数进行选择，同时现有方法并不能确保选择的参数是最优的，进而无法确保分类预测的准确度及鲁棒性；极其关键的是，现存的方法全都将整个分类过程划分为权重图构建和标签传播两个独立的过程，并不能保证重构误差和分类误差同时达到最小化，以确保分类预测的准确度及鲁棒性。

综上所述，如何提供一种获得判别性更强的类别标签，提高预测准确度及鲁棒性的技术方案，是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种自适应的图像标签鲁棒预测方法及系统，以获得判别性更强的类别标签，提高预测准确度及鲁棒性。

为了实现上述目的，本发明提供如下技术方案：

一种自适应的图像标签鲁棒预测方法，包括：

获取有标签训练集及无标签训练集，并对所述有标签训练集及所述无标签训练集初始化得到初始标签矩阵，所述有标签训练集包括的为已知类别标签的训练样本，所述无标签训练集包括的为未知类别标签的待测样本；

基于所述初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性；

利用迭代的优化方案对所述框架求解最小化问题，得到预测类别标签矩阵，基于所述预测标签矩阵确定所述待测样本对应的类别标签。

优选的，对所述有标签训练集及所述无标签训练集初始化得到初始标签矩阵，包括：

基于所述有标签训练集中的训练样本利用标签传播方法进行计算，得到所述无标签训练集中所有待测样本的类别标签；

将所述有标签训练集及所述无标签训练集集成到一个矩阵中，得到对应的初始标签矩阵。

优选的，基于所述初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性，包括：

将预测标签矩阵表示为F＝[f₁,f₂,…f_l+u]，其中样本x_i的类别标签与每一列f_i中最大项f_i,j的位置相关联，得到如下向量形式的框架：

其中，X为初始标签矩阵，S为稀疏编码，每一项中的s_i为稀疏重构系数，μ_i表示x_i的调整参数，当样本x_i的类别标签已知时，对应的μ_i＝+∞，当样本x_i的类别标签未知时，对应的μ_i＝0，α和β是对应稀疏编码项的权衡参数，y_i表示x_i的类别标签；

对上述向量形式的框架进行转换，得到如下矩阵形式的框架：

其中，F-FS为流行平滑项，||X-XS||_2,1+β||S||_2,1为稀疏编码项，(F-Y)UV(F-Y)^T为标签拟合项，用于衡量初始标签矩阵与预测标签矩阵的差异程度。

优选的，基于所述预测标签矩阵确定所述待测样本对应的类别标签，包括：

获取任一所述待测样本在所述预测标签矩阵中对应的预测向量，并确定该向量中最大元素对应的位置即为该待测样本的类别标签。

一种自适应的图像标签鲁棒预测系统，包括：

训练预处理模块，用于获取有标签训练集及无标签训练集，并对所述有标签训练集及所述无标签训练集初始化得到初始标签矩阵，所述有标签训练集包括的为已知类别标签的训练样本，所述无标签训练集包括的为未知类别标签的待测样本；

训练模块，用于基于所述初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性；

测试模块，用于利用迭代的优化方案对所述框架求解最小化问题，得到预测类别标签矩阵，基于所述预测标签矩阵确定所述待测样本对应的类别标签。

优选的，所述训练预处理模块包括：

训练预处理单元，用于：基于所述有标签训练集中的训练样本利用标签传播方法进行计算，得到所述无标签训练集中所有待测样本的类别标签；将所述有标签训练集及所述无标签训练集集成到一个矩阵中，得到对应的初始标签矩阵。

优选的，所述训练模块包括：

训练单元，用于：将预测标签矩阵表示为F＝[f₁,f₂,…f_l+u]，其中样本x_i的类别标签与每一列f_i中最大项f_i,j的位置相关联，得到如下向量形式的框架：

以及用于：对上述向量形式的框架进行转换，得到如下矩阵形式的框架：

优选的，所述测试模块包括：

测试单元，用于获取任一所述待测样本在所述预测标签矩阵中对应的预测向量，并确定该向量中最大元素对应的位置即为该待测样本的类别标签。

本发明提供了一种自适应的图像标签鲁棒预测方法及系统，其中该方法包括：获取有标签训练集及无标签训练集，并对所述有标签训练集及所述无标签训练集初始化得到初始标签矩阵，所述有标签训练集包括的为已知类别标签的训练样本，所述无标签训练集包括的为未知类别标签的待测样本；基于所述初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性；利用迭代的优化方案对所述框架求解最小化问题，得到预测类别标签矩阵，基于所述预测标签矩阵确定所述待测样本对应的类别标签。与现有技术相比，本发明公开的上述技术方案，首先获取有标签训练集和无标签训练集，建立初始标签矩阵；为了同时最小化重构误差和分类误差，将稀疏编码与标签传播集成到一个统一的框架中，构建一个全新的模型；在计算自适应权重时，提出对编码系数和重构误差施加L2,1范数正则化约束，增强鲁棒性和预测准确度。最后，利用迭代的优化方案对所述框架求解最小化问题，得到预测类别标签矩阵，并基于该矩阵得到每个待测样本的类别标签。通过建立联合型框架，降低了复杂度，有效确保学习到的稀疏表示是最优的，同时降低了整体误差。通过引入L2,1范数正则化技术，有效提升了学习到的自适应权重的稀疏性，也增强了系统对于数据中噪音和异类数据的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种自适应的图像标签鲁棒预测方法的流程图；

图2为本发明实施例提供的一种自适应的图像标签鲁棒预测方法中图像分割示意图；

图3为本发明实施例提供的一种自适应的图像标签鲁棒预测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种自适应的图像标签鲁棒预测方法的流程图，可以包括以下步骤：

S11：获取有标签训练集及无标签训练集，并对有标签训练集及无标签训练集初始化得到初始标签矩阵，有标签训练集包括的为已知类别标签的训练样本，无标签训练集包括的为未知类别标签的待测样本。

其中，有标签训练集和无标签训练集中包含的样本数量可以根据实际需要进行确定，任一样本的类别标签即与该样本的类别对应的标签。根据有标签训练集及无标签训练集初始化得到对应初始标签矩阵Y＝[y₁,y₂,…,y_l+u]，对于训练样本x_i，假定x_i属于第i类，则y_i,j＝1，反之，y_i，j＝0，对于待测样本x_i，y_i,j＝0。

S12：基于初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性。

S13：利用迭代的优化方案对框架求解最小化问题，得到预测类别标签矩阵，基于预测标签矩阵确定待测样本对应的类别标签。

本发明公开的一种自适应的图像标签鲁棒预测方法，首先获取有标签训练集和无标签训练集，建立初始标签矩阵；为了同时最小化重构误差和分类误差，将稀疏编码与标签传播集成到一个统一的框架中，构建一个全新的模型；在计算自适应权重时，提出对编码系数和重构误差施加L2,1范数正则化约束，增强鲁棒性和预测准确度。最后，利用迭代的优化方案对所述框架求解最小化问题，得到预测类别标签矩阵，并基于该矩阵得到每个待测样本的类别标签。通过建立联合型框架，降低了复杂度，有效确保学习到的稀疏表示是最优的，同时降低了整体误差。通过引入L2,1范数正则化技术，有效提升了学习到的自适应权重的稀疏性，也增强了系统对于数据中噪音和异类数据的鲁棒性。

本发明实施例提供的一种自适应的图像标签鲁棒预测方法，对有标签训练集及无标签训练集初始化得到初始标签矩阵，可以包括：

基于有标签训练集中的训练样本利用标签传播方法进行计算，得到无标签训练集中所有待测样本的类别标签；

将有标签训练集及无标签训练集集成到一个矩阵中，得到对应的初始标签矩阵。

将有标签训练集及无标签训练集集成到一个矩阵中，该矩阵可以表示为其中，n是该矩阵中数据的维度，l是有标签训练集中训练样本的数量，u是无标签训练集中待测样本的数量；其中包含有c(c>2)个类别，有标签训练集和无标签训练集 (任意向量为其中一个样本)，l+u＝N，N为样本的总数量。根据X中训练样本用标签传播方法进行计算，估计得到待测样本的类别标签，代入X中，即将有标签训练集及无标签训练集集成到一个矩阵中，得到对应的初始标签矩阵。而根据X中训练样本用标签传播方法进行计算，估计得到待测样本的类别标签的实现原理与现有技术中对应技术方案的实现原理一致，在此不再赘述。

本发明实施例提供的一种自适应的图像标签鲁棒预测方法，基于初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性，可以包括：

其中，X为初始标签矩阵，S为稀疏编码(或稀疏表示矩阵)，每一项中的s_i为稀疏重构系数，μ_i表示x_i的调整参数，当样本x_i的类别标签已知时，对应的μ_i＝+∞，当样本x_i的类别标签未知时，对应的μ_i＝0，α和β是对应稀疏编码项的权衡参数，y_i表示x_i的类别标签；

其中，F-FS为流行平滑项，||X-XS||_2,1+β||S||_2,1为稀疏编码项，(F-Y)UV(F-Y)^T为标签拟合项，用于衡量初始标签矩阵与预测标签矩阵的差异程度，V为一个对角矩阵。S的L2,1范数，即||S||_2,1能使S的许多行变为零，确保S是稀疏的。

其中，对于S的初始值,可以通过最小化如下公式得到：

K为对应样本数据的近邻参数(即各个样本的近邻数量，在本发明中K值取7，当然还可以根据实际需要进行其他设定)，||·||₂为l₂-范式距离或欧式距离。

由此，联合稀疏重构误差和分类误差，并且同时最小化，可确保学习到的稀疏表示对于自适应的权重构造是最优的；基于提出的统一型框架，本发明还提出对稀疏重构误差和稀疏编码系数施加L2,1范数正则化约束，以达到行稀疏的优点。

需要说明的是，利用迭代的优化方案对框架求解最小化问题，得到预测类别标签矩阵F，具体可以包括：

由于上述公式中包含三个变量，即F、S及V，因此可采取迭代的优化方式进行求解。

首先提出对S进行更新，可归纳为对如下公式进行优化：

其中，||X-XS||_2，1+β||S||_2,1为基于L2,1范数正则化稀疏编码的权重构造，上述公式可转化为对如下几个变量求解：

其中和均为对角矩阵，且定义如下：

由于三个变量相互关联，可采用迭代的优化方案进行求解。先固定F，对S进行求解更新，通过对提出求S偏导数，可得如下问题：

将上述公式设为0，最终通过化简可得到S在第t+1次的迭代更新公式：

利用上述方式求得S的值后，可固定S对F进行求解更新，具体归纳为对如下公式进行优化：

通过对进行求F偏导数，可得如下问题：

对F偏导数公式取0，最终计算得到F在第t+1次时的迭代更新公式：

F_t+1＝(YUV_t)((I-S_t)(I-S_t)^T+UV_t)^-1

V是关于F的一个对角矩阵，F计算得到后可对V进行更新：

最后，因为V和S都是关于F的函数，所以该方法通过对三个变量相互迭代使目标函数得到有效解决，最后得出F。

具体算法如下：

一种基于L2,1范数正则化稀疏编码的自适应近邻传播算法

输入：初始标签矩阵控制参数α，β；

初始化：F＝Y；初始化S的值为LLE-重构权；

当未收敛时：

2).固定F，更新S_t+1:

3).固定S，更新F_t+1:

F_t+1＝(YUV_t)((I-S_t)(I-S_t)^T+UV_t)^-1；

4).固定F，更新V_t：

检查是否收敛：

若sqrt(sum(tmp(:).²))＜tol||iter＞＝maxIter则停止；

否则t＝t+1

输出：预测标签矩阵(F^*←F_t+1)。

本发明实施例提供的一种自适应的图像标签鲁棒预测方法，基于预测标签矩阵确定待测样本对应的类别标签，可以包括：

获取任一待测样本在预测标签矩阵中对应的预测向量，并确定该向量中最大元素对应的位置即为该待测样本的类别标签。

具体来说，最终得到的预测标签矩阵中包括每个待测样本的软标签向量f_i，该向量的最大元素对应的位置即为对应待测样本的归属类别标签，每个待测样本的硬标签可以被归结为argmax_i≤c(f_i)_i，其中表示预测的软标签向量f_i中第i个元素位置。由此，取软标签向量中概率的最大值，用于类别鉴定，得到最准确的分类结果。

本发明在5个真实数据集进行测试，包括MIT face,AR male face,ORL face,Indian male face和Yale face。基于计算高效性考虑，所有真实图片的尺寸被压缩为32X32；在实验中，每张图片对应一个1024维的向量。其中MIT face,AR male face,ORLface,Indian male face和Yale face数据集分别对应有10类、50类、40类、39类和15类样本数据。在实验中，从各个数据集中随机挑选每类的任意几个作为有类别标签的训练样本，而剩余的每类作为无标签的待测样本。这些数据集从多方面收集，因而测试结果具有普遍说明性。请参阅表1，为本发明方法和SparseNP、SLP、LNP、LLGC、LApLDA、GFHF、CD-LNP以及SIS-LP方法在Yale，AR male,Indian male MIT,ORL人脸数据集测试识别结果对比表，给出各方法实验的平均识别率与标准差。本次实验在每类样本随机挑选任意几个样本作为训练集，为增加实验公平性，参与比较方法的实验参数也都仔细挑选。

表1

通过实验结果可以看出本发明提出的方法明显优于传统的标签传播算法，具有更高的分类准确度。

另外，图2为本发明实施例公开的一种自适应的图像标签鲁棒预测方法的图像分割示意图。图像中前景作为正类样本处理(即分割后保持原始前景图像)，背景图像作为负类处理(分割后采用黑色背景)，其中通过交互式人共选取方式选择部分正类样本和部分负类样本数据组成有标签训练集、选择部分数据作为无标签训练集，剩下的样本作为无标签待测数据集合。进而通过本发明提出的自适应图像标签鲁棒预测方法首先采用直推式方式得到无标训练样本的类别信息，进而采用归纳式方式得到剩余无标签待测样本的类别信息，完成图像像素类别预测和像素分割。

本发明实施例还提供了一种自适应的图像标签鲁棒预测系统，如图3所示，可以包括：

训练预处理模块11，用于获取有标签训练集及无标签训练集，并对有标签训练集及无标签训练集初始化得到初始标签矩阵，有标签训练集包括的为已知类别标签的训练样本，无标签训练集包括的为未知类别标签的待测样本；

训练模块12，用于基于初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性；

测试模块13，用于利用迭代的优化方案对框架求解最小化问题，得到预测类别标签矩阵，基于预测标签矩阵确定待测样本对应的类别标签。

本发明实施例提供的一种自适应的图像标签鲁棒预测系统，训练预处理模块可以包括：

训练预处理单元，用于：基于有标签训练集中的训练样本利用标签传播方法进行计算，得到无标签训练集中所有待测样本的类别标签；将有标签训练集及无标签训练集集成到一个矩阵中，得到对应的初始标签矩阵。

本发明实施例提供的一种自适应的图像标签鲁棒预测系统，训练模块可以包括：

本发明实施例提供的一种自适应的图像标签鲁棒预测系统，测试模块可以包括：

测试单元，用于获取任一待测样本在预测标签矩阵中对应的预测向量，并确定该向量中最大元素对应的位置即为该待测样本的类别标签。

本发明实施例提供的一种自适应的图像标签鲁棒预测系统中相关部分的说明请参见本发明实施例提供的一种自适应的图像标签鲁棒预测方法中对应部分的详细说明，在此不再赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自适应的图像标签鲁棒预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述有标签训练集及所述无标签训练集初始化得到初始标签矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述初始标签矩阵，将稀疏编码与标签传播集成到一个统一的框架中，实现稀疏重构误差与分类误差同时最小化，降低整体误差，同时在稀疏编码系数和重构误差施加L2,1范数正则化，提升预测准确度及鲁棒性，包括：

\underset{F, S}{M i n} J (F, S) = Σ_{i = 1}^{N} | | f_{i} - {Fs}_{i} | |_{2}^{2} + Σ_{i = 1}^{N} u_{i} | | f_{i} - y_{i} | |_{2} + α [Σ_{i = 1}^{N} | | x_{i} - {Xs}_{i} | |_{2} + β Σ_{i = 1}^{N} | | s_{i} | |_{2}]

\underset{F, S, V}{M i n} J (F, S, V) = | | F - F S | |_{F}^{2} + t r ((F - Y) U V {(F - Y)}^{T}) + α (| | X - X S | |_{2, 1} + β | | S | |_{2, 1})

4.根据权利要求3所述的方法，其特征在于，基于所述预测标签矩阵确定所述待测样本对应的类别标签，包括：

5.一种自适应的图像标签鲁棒预测系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述训练预处理模块包括：

7.根据权利要求5所述的系统，其特征在于，所述训练模块包括：

\underset{F, S}{M i n} J (F, S) = Σ_{i = 1}^{N} | | f_{i} - {Fs}_{i} | |_{2}^{2} + Σ_{i = 1}^{N} u_{i} | | f_{i} - y_{i} | |_{2} + α [Σ_{i = 1}^{N} | | x_{i} - {Xs}_{i} | |_{2} + β Σ_{i = 1}^{N} | | s_{i} | |_{2}]

\underset{F, S, V}{M i n} J (F, S, V) = | | F - F S | |_{F}^{2} + t r ((F - Y) U V {(F - Y)}^{T}) + α (| | X - X S | |_{2, 1} + β | | S | |_{2, 1})

8.根据权利要求7所述的系统，其特征在于，所述测试模块包括：