CN111709442A

CN111709442A - 一种面向图像分类任务的多层字典学习方法

Info

Publication number: CN111709442A
Application number: CN202010377838.8A
Authority: CN
Inventors: 王立春; 李爽; 王少帆; 孔德慧; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-25

Abstract

一种面向图像分类任务的多层字典学习方法，其能够解除多个字典之间关系定义的局限性，提升字典学习应用于分类问题的精度。这种面向图像分类任务的多层字典学习方法，用于提取图像样本中的类别信息，包括：(1)将多层字典之间的依赖关系定义为残差学习，基于多层残差判别字典学习框架来学习多层字典及分类器；(2)基于步骤(1)学习的多层字典依次计算待分类数据的多轮编码向量，再利用相应的分类器进行分类，加和各分类器预测值得到最终识别结果。

Description

一种面向图像分类任务的多层字典学习方法

技术领域

本发明涉及计算机视觉的技术领域，尤其涉及一种面向图像分类任务的多层字典学习方法。

背景技术

近年来，字典学习算法在图像分类及信号处理邻域受到广泛关注。字典学习，本质上就是寻找合适的稀疏子空间(其基函数通常被称为字典)进行数据的特征表示，以实现高精度的重构或分类。基于Aharon和Elad在2006年提出的KSVD算法，字典学习方法已经广泛应用于图像重构问题(如图像去噪、图像修复、图像超分辨率重建等)并取得很好的效果，这促进了字典学习在图像分类问题上的发展。不同于图像重构问题，图像分类的目标是对样本的标签做出正确的预测，因此如何有效地提取样本中的类别信息成为解决图像分类问题的关键。

为了提升字典方法在分类问题上的表现能力，越来越多的研究者在字典学习的目标函数中加入类别信息，此类模型通常被统称为判别式字典学习(DiscriminativeDictionary Learning，DDL)模型。这种方法最早出现在2010年Zhang等人提出的判别式KSVD(Discriminative KSVD，DKSVD)模型中。DKSVD是在KSVD的基础上引入由样本标签矩阵、分类器和稀疏编码矩阵组成的分类误差项，模型求解过程中字典重构误差项和分类误差项同时优化，达到同时提升线性分类器和字典表达能力的目的。2013年Jang等人提出标签一致KSVD(Label Consistent KSVD，LC-KSVD)方法，该方法在KSVD的基础上引入标签一致项，定义字典与样本标签的相关矩阵为判别稀疏矩阵(其中行由字典原子索引，列由样本索引，字典原子的类别标签与样本的类别标签一致的位置为1，其余位置为0)，稀疏编码矩阵在转换矩阵上的投影与判别稀疏矩阵的差值构成标签一致项，使得通过训练得到的每个字典原子都带有确定的类别标签，从而加强了稀疏编码的判别能力。同时LC-KSVD在DKSVD的启发下引入分类误差项，使得字典面向分类问题进行优化，进而得到良好的识别效果。

随着研究的深入，一些研究者发现尽管DDL模型在图像分类问题上已经取得了很好的效果，但单层字典学习还存在着一系列问题，例如单层字典只能捕捉单一尺度的图片信息，特征提取过程很容易受到原始数据噪声的影响等等。于是Shen等人在2015年提出多层判别字典学习(Multi-Level Discriminative Dictionary Learning，ML-DDL)方法，定义树结构的多层级字典学习模型，基于树结构提取样本不同空间粒度的视觉特性，该方法在大规模分类问题上同时取得了效率和精度的提升。此外，Song等人在2019年提出另一类多层次判别字典学习(Multi-layer Discriminative Dictionary Learning，MDDL)方法。该方法学习得到的多层判别字典具有更强的鲁棒性，编码向量的判别性也随之增强，能够很好地避免原始数据噪声对提取图像特征的影响。同样在2019年，Mahdizadehaghda等人提出一种深度字典学习方法，结合深度网络的思路，利用参数化网络的方法，形成一个面向分类问题的端到端字典学习模型。

以上方法表明多层字典学习的有效性,但大部分多层字典学习方法对于多个字典之间的关系定义具有一定局限性。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种面向图像分类任务的多层字典学习方法，其能够解除多个字典之间关系定义的局限性，提升字典学习应用于分类问题的精度。

本发明的技术方案是：这种面向图像分类任务的多层字典学习方法，用于提取图像样本中的类别信息，包括以下步骤：

(1)将多层字典之间的依赖关系定义为残差学习，基于多层残差判别字典学习框架来学习多层字典及分类器；

(2)基于步骤(1)学习的多层字典依次计算待分类数据的多轮编码向量，再利用相应的分类器进行分类，加和各分类器预测值得到最终识别结果。

本发明将多层字典之间的依赖关系定义为残差学习，基于多层残差判别字典学习框架来学习多层字典及分类器，基于学习的多层字典依次计算待分类数据的多轮编码向量，再利用相应的分类器进行分类，加和各分类器预测值得到最终识别结果，在训练过程中联合训练多个字典及分类器，每个字典及分类器不断拟合前一轮字典及分类器的重构残差从而不断靠近拟合目标，提升识别精度，从而能够解除多个字典之间关系定义的局限性，提升字典学习应用于分类问题的精度。

附图说明

图1示出了在Scene15数据集上目标函数值和迭代次数的关系。

图2是根据本发明的面向图像分类任务的多层字典学习方法的流程图。

具体实施方式

本发明结合集成学习(Ensemble Learning)中的梯度提升方法，将字典之间的依赖关系定义为残差学习，面向分类任务提出一种新的多层判别字典学习模型。

集成学习是通过构建并结合多个学习器来完成学习任务的一种学习方法。集成学习可以依据个体学习器间是否存在依赖关系被划分成两类，一类是个体学习器之间存在强依赖关系，可以串行生成的序列化方法，例如Boosting族算法；另一类是个体学习器之间不存在强依赖关系，可同时生成的并行化方法，例如随机森林，bagging等。梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，是基于集成学习中的Boosting思想形成的一种迭代的决策树算法。GBDT集成多次迭代得到的多棵决策树逼近目标，其中每次迭代都在减少残差的梯度方向建立一颗决策树，即每次学习的目标是之前迭代所建立树的残差，使得每一步的优化变得更加简单。作为一种集成学习方法,GBDT凭借良好的泛化性能受到研究者们的广泛欢迎，例如在Kaggle竞赛中GBDT与LR(Logistic Regression)结合在许多数据集上都取得非常显著的提升效果。在GBDT的基础上，Chen等人在2016年提出XGBoost模型。XGBoost模型在GBDT基础上使用并行分布式计算以加快梯度提升树的运算速度，从而使得模型能够更加高效地计算大规模数据。XGBoost的提出为梯度提升算法的广泛应用提供了时间效率方面的保障。

本发明基于梯度提升的研究思路，融合判别字典的分类优势，提出一种面向图像分类任务的多层残差判别字典学习方法。

如图2所示，这种面向图像分类任务的多层字典学习方法，用于提取图像样本中的类别信息，包括以下步骤：

优选地，所述步骤(1)中，以迭代的方式串行训练多层字典及与其关联的多层分类器，其中层与层之间有强依赖关系，每层的字典及分类器拟合的目标为前一层字典及分类器的重构残差；其中，第t层字典的重构残差指基于前t层字典计算的t个重构样本的和与原始样本的差，第t层分类器的重构残差指基于前t层分类器计算的t个估计标签的和与真实标签的差。

迭代过程中字典原子和稀疏系数的组合不断拟合样本，分类器和稀疏系数的组合不断靠近标签，通过多轮迭代不断地逼近拟合目标，提升字典学习应用于分类问题的精度。实验表明，本发明提出的面向分类任务的多层残差判别字典学习方法可有效提升分类任务的精度。

优选地，所述步骤(1)中，对于给定包含N个样本的集合

最小化式(1)所示的目标函数联合学习字典和分类器，

其中，第一项为重构误差项，x_i为真实样本，

为基于字典与稀疏编码得到的重构样本；第二项为分类误差项，y_i为样本真实标签，

为基于分类器稀疏编码预测的样本标签；l表示误差函数；

本方法通过T轮学习，使得重构样本和重构样本标签不断逼近真实样本和标签，具体到第t轮迭代，式(1)展开为以下形式：

优选地，所述步骤(1)中，

将式(2)的目标函数写成可求解形式，得到式(3)

其中

为第i个训练样本在第t轮迭代的拟合目标；S为样本维度；t为迭代索引，1≤t≤T；

表示第t个字典，K为字典原子数量；

表示第t个分类器，C为类别数；

为第i个样本在第t轮迭代的目标标签向量；

为第i个样本在第t轮迭代的稀疏表示向量，训练集的稀疏表示矩阵记为

θ为稀疏约束参数。

使用梯度提升的方式训练，容易出现模型过拟合现象。所述步骤(1)中，引入针对字典及分类器的正则项，得到第t轮迭代的优化问题如式(4)：

优选地，所述步骤(1)中，用交替方向法对优化问题(4)进行求解，第t轮的具体求解过程描述如下：

(a)初始化字典D^t和稀疏表示矩阵A^t；

使用KSVD的方法，训练样本集合作为输入，训练得到的字典和稀疏系数作为初始的字典和稀疏系数；

(b)固定字典D^t和稀疏表示矩阵A^t，得到式(5)所示求解分类器Q^t的子问题：

写成矩阵形式，如式(6)：

根据优化问题一阶必要条件，求得分类器Q^t：

(c)固定分类器Q^t和字典D^t，得到式(7)所示求解稀疏表示矩阵A^t的子问题：

写成矩阵形式，如式(8)：

用OMP算法求解式(8)，得到稀疏表示矩阵A^t；

(d)固定分类器Q^t和稀疏表示矩阵A^t，得到式(9)所示求解字典D^t的子问题：

写成矩阵形式，如式(10)：

根据优化问题一阶必要条件，求得字典D^t：

优选地，所述步骤(2)中，

对于待分类样本x，第t个测标签向量的具体计算过程如下：

(e)利用步骤(1)得到的第t个字典得到稀疏编码a^t

其中x^t为第t个字典的学习目标，是待分类样本x和前面t-1轮重构结果的差值即

a^t为稀疏编码向量；

用OMP算法求解式(11)得到第t个稀疏编码a^t；

(f)利用步骤(1)得到的第t个分类器对稀疏编码a^t进行投影，如式(12)所示得到第t轮的预测标签向量P^t

P^t＝Q^ta^t (12)

重复步骤(e)及步骤(f)T次，得到T个预测标签向量；对T个分类器的预测结果求和得到待分类样本x的最终预测标签向量P_final：

本发明在三个基于分类任务的图像数据集上进行实验，并且将分类精度与目前主流字典学习模型及其他主流分类模型进行对比，包括判别字典模型DKSVD、LC-KSVD、SRC、FDDL和SVGDL，以及非判别字典学习模型包括HMP、MHMP、DeepSCNet和神经网络模型Places-CNN。

从图1可以看到，随着迭代次数的增加，目标函数值逐渐减小，最终趋于稳定，证明本发明定义的目标函数是可收敛的。

本发明使用三个数据集(Caltech101图像分类数据库、Scene15场景图像分类数据库和MIT)测试所提方法的有效性。

Caltech101图像数据集包括101个语义类别以及一个其他类别，每类约100张图像，共9144张图。每个类别选取30个样本组成训练集合，其余样本组成测试集，得到训练集包含3060张图像，测试集包含6084张图像。本发明利用空间金字塔SPF方法提取图像特征，特征维度为3000维。训练过程学习两轮字典T＝2，字典维度为3030，稀疏约束参数θ＝100,参数γ＝1，参数β＝2，参数μ＝2。本发明提出的方法及对比方法的识别精度如表1所示，可以看出在此数据集上，本发明提出的方法得到最高准确率。

表1

Scene15场景图像数据集包含室内和室外场景共15个语义类别，每类包含210至410张图像。其中图像平均尺寸为250*300。对每个类别随机选取100张图像组成训练集，其余组成测试集合，得到训练集合包含1500张图像，测试集合2985张图像。本发明利用空间金字塔方法SPF提取图像特征，特征维度为3000维。训练过程学习4轮字典T＝4，字典维度为450，稀疏约束参数θ＝50，参数γ＝2，参数β＝2，参数μ＝2。本发明提出的方法及对比方法的识别精度如表2所示，可以看出在此数据集上，本发明提出的方法得到最高准确率。

表2

MIT场景图像数据集包含67个语义类别的室内场景，共6700张RGB图像，本发明选取5360组成训练集合，1340个样本作为测试集合。利用空间金字塔方法SPF提取图像特征，特征维度为3000维。训练过程学习4轮字典T＝4，第一轮字典维度为3350，后三轮字典维度均为2010，稀疏约束参数θ＝100，参数γ＝2，参数β＝2，参数μ＝2。本发明提出的方法及对比方法的识别精度如表3所示，可以看出在此数据集上，本发明提出的方法得到最高准确率。

表3

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种面向图像分类任务的多层字典学习方法，其特征在于：该方法用于提取图像样本中的类别信息，包括以下步骤：

2.根据权利要求1所述的面向图像分类任务的多层字典学习方法，其特征在于：所述步骤(1)中，以迭代的方式串行训练多层字典及与其关联的多层分类器，其中层与层之间有强依赖关系，每层的字典及分类器拟合的目标为前一层字典及分类器的重构残差；其中，第t层字典的重构残差指基于前t层字典计算的t个重构样本的和与原始样本的差，第t层分类器的重构残差指基于前t层分类器计算的t个估计标签的和与真实标签的差。

3.根据权利要求2所述的面向图像分类任务的多层字典学习方法，其特征在于：所述步骤(1)中，对于给定包含N个样本的集合