CN108985371B

CN108985371B - 一种图像多分辨率字典学习方法及其应用

Info

Publication number: CN108985371B
Application number: CN201810750436.0A
Authority: CN
Inventors: 徐勇; 罗笑玲
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2020-04-14
Anticipated expiration: 2038-07-10
Also published as: WO2020010656A1; CN108985371A

Abstract

本发明涉及一种图像多分辨率字典学习方法及其应用，所述方法包括如下步骤：步骤1，将多种分辨率图片输入训练模型；步骤2，通过图片训练得出各种分辨率的字典进行学习。本发明的另一个目的在于将所述图像多分辨率字典学习方法，应用于图像分类和检索，包括如下步骤：S001，输入待分类或检索的图像y；S002，基于多分辨率字典计算图像y的表示系数；S003，计算图像y与训练样例之间的差异度

S004，通过差异度

判断y与哪个训练样本最接近；S005，得到最接近的训练样本后输出类标签或输出检索结果。本发明的方法能够结合多种分辨率图像的字典进行学习和有效地促进字典学习算法的鲁棒性和适应性，且算法简单、易于实现。

Description

一种图像多分辨率字典学习方法及其应用

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像多分辨率字典学习方法及其应用。

背景技术

字典学习是进行数据约减的重要手段。原始的大量数据经过字典学习后可得到冗余信息少、原子数远少于原样例数的字典。基于这样的字典，可以得出任一样例的有效的表示，且得出的表示会十分有利于样例的分类等任务。字典学习在广泛存在的图像数据的表示中得到了有效的应用。

字典学习算法大致可以分为三类：监督字典学习算法，半监督字典学习算法和无监督字典学习算法。其中，监督词典学习算法，将多分类器训练融入词典学习中，以提高分类性能。这些受监督的字典学习算法在分类任务中取得了良好的性能。然而，在许多模式分类问题中，由于标签数据非常昂贵而且非常耗时，因此可能无法获得大量带标签的数据，而标记的训练数据不足对监督字典学习算法是不利的，计算容易发生错误。半监督的字典学习算法，使用标记的训练样本学习特定类字典，然后用它们来预测未标记训练样本的标签。然而，算法没有考虑标记数据和未标记数据的基本几何结构，并且通常不能保留局部结构，因此获得的字典对于分类任务可能不是最佳的。无监督字典学习算法通常基于训练样本的重建误差进行设计，并通过使用树结构稀疏编码字典的原子之间的依赖关系，难以独立计算且算法关系较为复杂

另外，这三种的字典学习算法均假设图像具有单一的分辨率，学习得出的字典往往不能适应实际应用中分辨率可变的情形，需要将每种分辨率的图像中的各个局部块逐个在字典中进行匹配，非常耗时，效率低下，而难以取得图像的鲁棒表示结果，严重影响了字典学习算法的性能以及后续的识别和检测等。为了适应实际中图像的分辨率多变的情况，本发明对字典学习方法做了改进，提出多分辨率字典学习方法。

发明内容

针对现有技术中存在的缺陷或不足，本发明所要解决现有技术中的问题，而提供一种图像多分辨率字典学习方法及其应用，该方法能够结合多种分辨率图像的字典进行学习和有效地促进字典学习算法的鲁棒性和适应性，且算法简单、易于实现，并能有效应用在分类及检索中。

为了实现上述目的，本发明采取的技术方案为提供一种图像多分辨率字典学习方法，所述方法包括如下步骤：

步骤1，将多种分辨率图片输入训练模型；

步骤2，通过图片训练得出各种分辨率的字典进行学习。

作为本发明的进一步改进，所述步骤1中的将多种分辨率图片输入训练模型和所述步骤2中通过图片训练得出各种分辨率的字典进行学习，其过程包括如下步骤：

步骤11，通过令每一种分辨率下的图像数量相同且等于N，设有k种分辨率；

步骤12，令第一种分辨率下所有图像对应的列矢量组成的矩阵为Y₁，第二种所有图像对应的列矢量组成的矩阵为Y₂，第k种分辨率下所有图像对应的列矢量组成的矩阵为Y_k，将每一种分辨率下的所有图像都转换为列矢量组成的矩阵，通过表达公式：

输入训练模型，其中，

为第j种分辨率下的第s个训练样例，且j＝1，...，k，s＝1，...，N；

步骤13，设定图像多分辨率字典学习的目标函数为：

令系数矩阵X＝(x₁，...，x_N)，其中x₁，...，x_N分别为第1至第N个训练样例的表示系数，β＝_0.0001；

步骤14，根据步骤12的设定和步骤13的目标函数求取出字典D₁，...，D_k，用于进行学习；

在所述步骤14中求取字典D₁，...，D_k，需要先求取系数矩阵X，系数矩阵X的求取分为第一次循环计算和第二次或以上循环计算；

其中，第一次循环计算时，向循环函数输入原始字典

后通过公式：

计算系数矩阵X，其中，

为字典

的转置矩阵，I为单位矩阵；

第二次或以上循环计算时，向循环函数输入的字典为上一次循环中更新得出的字典，通过公式

计算系数矩阵X，其中，

为字典Dk的转置矩阵，I为单位矩阵；

其中，所述的原始字典

是将k种分辨率的图像运用KSVD算法进行训练，得出k种分辨率图像的字典

求取

的步骤包括：

步骤41，从样本集Y_i，i＝1，...，k中随机挑选m个样本，作为

的原子，并将系数矩阵X初始化为零矩阵；

步骤42，通过公式

计算出每个样本

的表示系数

组成样本系数矩阵X_init，其中，

表示第i组样本中的第j个样本，T₀表示非零值的个数；

步骤43，保持样本系数矩阵X_init不变，通过如下公式：

来逐列更新字典，其中，k表示字典

第k列的更新，Y_i表示第i组样本，

表示第i组样本对应的字典，

代表第i个字典中的第j列，

代表第i个字典中的第k列，

代表系数矩阵X中的第j行；

步骤44，通过公式

求出E_k；

步骤44，重复步骤42和步骤43，直至

ε为模型收敛时允许的最大差值，停止迭代，得到

作为本发明的进一步改进，在所述步骤13中x₁，...，x_N为字典D₁，...，D_k的表示系数。

作为本发明的进一步改进，在第二次或以上循环计算时，得出更新字典的过程是固定输入的系数矩阵X和保持除D_j之外的所有字典不变后，通过公式：D_j＝(Y_jX^T)(XX^T)^-1计算，得到更新字典D_j，其中j＝1，...，k。

本发明的另一个目的在于提供一种图像多分辨率字典学习方法的应用方法，该应用是将所述图像多分辨率字典学习方法，应用于图像分类和检索中。

作为本发明的进一步改进，应用于分类或检索的应用，包括如下步骤：

S001，输入待分类或检索的图像y；

S002，基于多分辨率字典计算图像y的表示系数；

S003，计算图像y与训练样例之间的差异度d_s；

S004，通过差异度d_s判断y与哪个训练样本最接近；所述差异度d_s通过公式d_s＝||x_d1-x_s||+…+||x_dk-x_s||计算，其中，x_d1，...，x_dk表示图像y关于字典D₁，...，D_k的表示系数，其通过公式

来计算，其中k＝1，...，N，x_s表示第s个训练样例基于多分辨率字典的表示系数；

S005，得到最接近的训练样本后输出类标签或输出检索结果。

作为本发明的进一步改进，所述步骤S002中基于多分辨率字典计算图像_y的表示系数，其包括如下步骤：

S101，输入k中分辨率的训练图像；

S102，通过KSVD算法得到k种分辨率图的初始字典；

S103，根据字典，更新系数矩阵；

S104，根据系数矩阵，更新字典；

S105，判断更新字典是否满足循环停止条件，若满足则步骤S104中的系数矩阵及更新字典为最终的多种分辨率字典以及系数矩阵，输送至步骤S002进行计算；若不满足则返回步骤S103循环更新，直至满足循环停止条件。

本发明的有益效果是：

本发明解决了实际生活中不同分辨率尺度图片识别正确率相对较低的问题，提出使用不同分辨率的图像学习多个字典，即每一种分辨率对应一个字典，并融合多字典进行训练；同时为了增强字典对不同分辨率的鲁棒性和适应性，方法要求学习得出的多个字典具有相似的系数矩阵，且算法简单、易于实现，并能有效应用在分类及检索中。

附图说明

图1是本发明提供的图像多分辨率字典学习方法的应用流程图；

图2是本发明提供的YALEB人脸数据库样本图像集；

图3是本发明提供的三种分别率分辨率图像；

图4是本发明提供的应用本发明的方法的识别率比较图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

本实施例的一种图像多分辨率字典学习方法，该方法包括如下步骤：

步骤1，将多种分辨率图片输入训练模型；

步骤2，通过图片训练得出各种分辨率的字典进行学习。

本实施例中的训练模型采用公知常识的训练模型。该方法为应用前的训练过程，而在步骤1中的将多种分辨率图片输入训练模型和步骤2中通过图片训练得出各种分辨率的字典进行学习，其过程包括如下步骤：

在本实施例中，具体是假设每一种分辨率下的图像数量相同且等于N，并假设有k种分辨率。将每一个图像都转换为列矢量。由于收集的所有图像都用于训练模型以得出字典，因此，在本实施例中收集的所有图像都称为训练样例。

步骤12，令第一种分辨率下所有图像对应的列矢量组成的矩阵为Y₁，第二种所有图像对应的列矢量组成的矩阵为Y₂，......，以此类推，第k种分辨率下所有图像对应的列矢量组成的矩阵为Y_k，将每一种分辨率下的所有图像都转换为列矢量组成的矩阵，通过表达公式：

输入训练模型，其中，

为第j种分辨率下的第s个训练样例，而j＝1，...，k，s＝1，...，N。

步骤13，设定图像多分辨率字典学习的目标函数为：

其中，β＝0.0001，令X＝(x₁，...，x_N)，其中x₁，...，x_N分别为第1至第N个训练样例的表示系数，也是字典D₁，...，D_k的表示系数。

步骤14，根据步骤12的设定和步骤13的目标函数求取出字典D₁，...，D_k，用于进行学习。

步骤14中求取字典D₁，...，D_k前需要先求取系数矩阵X，系数矩阵X的求取分为第一次循环计算和第二次或以上循环计算；

第一次循环计算时，向循环函数输入原始字典

后通过公式：

来计算系数矩阵X，其中，

为字典

的转置矩阵，I为单位矩阵；

第二次或以上循环计算时，向循环函数输入的字典为上一次循环中更新得出的字典，即更新字典，可用D₁，...，D_k表示，后通过公式

来计算系数矩阵X，其中，

为字典D_k的转置矩阵，I为单位矩阵。

优选的，为了便于更好的借助与计算机进行循环计算，本实施例中的循环函数可以通过编写程序来实现循环。

在本实施例中，在第二次或以上循环计算时，得出更新字典的过程是固定输入的系数矩阵X和保持除D_j之外的所有字典不变后，通过公式：D_j＝(Y_jX^T)(XX^T)^-1计算得到更新字典D_j，其中j＝1，...，k。例如，在更新D₁过程中，首先获取输入的样本矩阵Y₁和系数矩阵X，然后通过实现公式D₁＝(Y₁X^T)(XX^T)^-1的计算，得到更新后的D₁。

本实施例中，求取系数矩阵X的过程中的输入的原始字典

是由将k种分辨率的图像运用KSVD算法进行训练，得出k种分辨率图像的字典

而在求取出

的过程步骤包括有：

步骤41，从样本集Y_i(i＝1，...，k)中随机挑选m个样本

作为

的原子，并将系数矩阵X初始化为零矩阵；

步骤42，通过公式

计算出每个样本

的表示系数

组成样本系数矩阵X_init，其中，

表示第i组样本中的第j个样本，T₀表示非零值的个数，是一个非零值。

步骤43，保持样本系数矩阵X_init不变，通过如下公式：

来逐列更新字典，其中，k表示字典

第k列的更新，Y_i表示第i组样本，

表示第i组样本对应的字典，

代表第i个字典中的第j列，

代表第i个字典中的第k列，

代表系数矩阵X中的第j行；

步骤44，通过公式

求出E_k；

步骤44，重复步骤42和步骤43，直至

ε为模型收敛时允许的最大差值，停止迭代，得到

在实施例的图像多分辨率字典学习方法过程中，每一种分辨率对应一个字典，并且通过循环更新字典以实现融合多字典进行训练学习。其中，每一种分辨率对应学习一个字典，能够让模型充分学习到每一种分辨率图像的特征；通过多个字典融合计算出系数矩阵能够反映出每一个图例在多种分辨率下的主要特征表示，能提高模型在多分辨率图像下的适应性以及识别的鲁棒性。

本实施例的另一个目的在于提供一种图像多分辨率字典学习方法的用途，该用途是将图像多分辨率字典学习方法，应用于图像分类和检索中。

在本实施例中，分类或检索的应用，如图1所示，应用过程(应用方法)包括如下步骤：

S001，输入待分类或检索的图像y；

S002，基于多分辨率字典计算图像y的表示系数；

S003，计算图像y与训练样例之间的差异度d_s；

S004，通过差异度d_s判断y与哪个训练样本最接近；差异度d_s通过公式d_s＝||x_d1-x_s||+…+||x_dk-x_s||计算，其中，x_d1，...，x_dk表示图像y关于字典D₁，...，D_k的表示系数，x₁，...，x_N通过公式

来计算，其中k＝1，...，Nx_s表示第s个训练样例基于多分辨率字典的表示系数；

S005，得到最接近的训练样本后输出类标签或输出检索结果。

在步骤S002中基于多分辨率字典计算图像y的表示系数，其包括如下步骤：

S101，输入k中分辨率的训练图像；

S102，通过KSVD算法得到k种分辨率图的初始字典；

S103，根据字典，更新系数矩阵；

S104，根据系数矩阵，更新字典；

在本实施例中，将本实施例的图像多分辨率字典学习方法应用于分类时，需要依据训练样例给出样例图像y的类别。在分类任务中，所有训练样例的类别均是已知的。假设样例图像y与第r个训练样例的差异度最小，则认为样例图像y第r个训练样例属于同一个类别，即将第r个训练样例的类标分配给样例y，在此过程中差异度最小可依据公式d_s＝||x_d1-x_s||+…+||x_dk-x_s||，计算出min_s{d_s}，s＝1...N；并将s的标签分配给样例图像y。

应用于检索时，是依据差异度d_s的大小给出样例图像y关于所有N个训练样例的检索结果。其具体过程是，若样例图像y与第r个训练样例的差异度最小，则判断第r个训练样例为与y最相似的训练样例；若样例y与第q个训练样例的差异度最小，则判断第q个训练样例为与第二最相似的训练样例，以此类推，直到检索得到最佳图像。

对本实施例的方法及应用进行仿真试验：

采用软件MATLAB7.12(R2011a)作为仿真工具，将本发明的方法分别在对如图2和图3所示的a：16x16、b：32x32、c：64x64d三种分辨率图像进行验证，，得到如图4所示的不同原子数下的平均识别率对比图，从图2中可以得出不同分辨率下的最优识别率，如下表1所示：

表1不同分辨率下的最优识别率

从图3为多种分辨率图像，即16x16、32x32、64x64分辨率图像，表1是模型对多种分辨率即16x16、32x32、64x64分辨率图像进行识别的识别率结果，通过对多种分辨率图像的训练，学习出适用于表示多种分辨率图像特征的系数矩阵，能有效提高不同分辨率下的图像平均识别率。

综上所述，本发明解决了实际生活中不同分辨率尺度图片识别正确率相对较低的问题，提出使用不同分辨率的图像学习多个字典，即每一种分辨率对应一个字典，并融合多字典进行训练；同时为了增强字典对不同分辨率的鲁棒性和适应性，方法要求学习得出的多个字典具有相似的系数矩阵，且算法简单、易于实现，并能有效应用在分类及检索中。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。