CN105631478A

CN105631478A - 基于稀疏表示字典学习的植物分类方法

Info

Publication number: CN105631478A
Application number: CN201511004422.7A
Authority: CN
Inventors: 张传雷; 张善文; 杨巨成; 陈亚瑞; 赵希
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-06-01

Abstract

本发明涉及一种基于稀疏表示字典学习的植物分类方法，其技术特点是：初始化参数，包括设置每种植物类别字典的大小、稀疏限定因子和误差容忍参数；针对每类植物叶片图像的训练样本，利用K-SVD算法得到每类叶片图像的超完备字典；将训练后每类叶片图像的超完备字典拼接成一个冗余字典，并对冗余字典的各列进行归一化处理；通过求解最小化范数得到稀疏系数；计算残差并选择差值最小的对应的样本类别为待识别样本最终的识别结果。本发明利用面向类别的字典学习求得超完备字典来计算待识别图像的稀疏表示，减少了算法的计算时间，满足了实时性要求，并且取得了较高的识别率，平均识别率高达95％以上。

Description

基于稀疏表示字典学习的植物分类方法

技术领域

本发明涉及计算机图像处理技术领域，特别是一种基于稀疏表示字典学习的植物分类方法。

背景技术

要保护人类的生存环境，就要保护植物；要保护植物，首先要认识植物。对于植物分类来说，植物的叶、花、果、茎和皮甚至树根等都是植物分类的依据。这些特征都有各自的分类价值。与植物其他的器官相比，由于叶片的颜色、纹理和形状相对稳定，而且对温度、季节的变化不是很敏感，更重要的是植物叶片的存活时间较长，在一年的大部分时间内都可较为方便地采集到，所以常作为植物的识别特征和认识植物的主要参照器官，因此，通过叶片来进行植物分类是一种最直接有效且最简单的方法。近年来，基于计算机的植物自动识别研究引起了广大学者的普遍关注，出现了很多植物识别的方法和系统。其中，大多数是从叶片图像中提取叶片的颜色、形状和纹理等分类特征，然后选择一些对分类贡献很大的特征，再利用合适的分类器识别植物。由于叶片图像的复杂多样性，使得很多基于特征提取的植物分类识别方法在提取哪些特征、选择哪些特征以及选择什么样的分类器时存在一些盲目性；由于叶片图像的颜色形状和纹理对光照、季节和位置等的变化呈现出非线性变化，使得一些基于线性维数约简的识别方法的实用性不高。

针对叶片图像的非线性特点，研究人员提出了多种基于子空间流形学习的植物识别方法，虽然取得了较好的识别效果，但这些方法相对复杂，且对训练集中的含噪声叶片、不完整叶片和遮挡叶片等都比较敏感。稀疏表示(SparseRepresentation,SR)是近年来模式识别领域的一项重要研究成果，是一种基于最小化L₁范数的优化方法，其理论和方法在图像处理、模式识别与机器学习等领域得到了广泛应用，取得了比人工神经网络(NN)和支持向量机(SVM)等方法更好的分类性能。SR的基本思想是在一个训练样本空间内对同一类别的样本可以由训练样本中同类的样本子空间线性表示，因此，当该样本由整个样本空间表示时，其表示的系数一定是稀疏的，而且人们提出了很多方法使得尽可能多的系数为零。Wright等人提出了基于稀疏表示的人脸识别框架，取得了较好的识别效果，该方法将所有人脸图像样本构成一个冗余字典，通过求解待识别的人脸图像在冗余字典中的稀疏表示来识别人脸。由于人脸图像的表示系数大部分为零，而不为零的部分应在同类人脸图像上的表示系数。由此将人脸识别问题转化为一个稀疏表示问题，并可以利用奇异值分解算法对该问题求解。但是，由于该方法将所有的训练图像构建成一个冗余字典，导致了冗余字典的尺寸巨大，使得该方法在稀疏求解时比较耗时。

发明内容

本发明的目的在于克服现有技术的不足，提供一种设计合理、准确率高且处理速度块的基于稀疏表示字典学习的植物分类方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于稀疏表示字典学习的植物分类方法，包括以下步骤：

步骤1、初始化参数，包括设置每种植物类别字典的大小K、稀疏限定因子δ和误差容忍参数ε；

步骤2、针对每类植物叶片图像的训练样本，利用K-SVD算法得到每类叶片图像的超完备字典；

步骤3、将训练后每类叶片图像的超完备字典拼接成一个冗余字典，并对冗余字典的各列进行归一化处理；

步骤4、通过求解最小化范数得到稀疏系数；

步骤5、计算残差并选择差值最小的对应的样本类别为待识别样本最终的识别结果。

而且，所述步骤2是采用基于类的字典学习方法，对同一类的训练样本通过K-SVD算法得到该类别的超完备字典，并进一步压缩该字典，具体方法为：

针对K个不同的植物类别，分别通过K-SVD算法构建相应的字典D₁,D₂,...,D_K，基于K-SVD算法的优化问题表示为：

< D_{i}, X_{i} > = \underset{D_{i}, X_{i}}{argmin} | | G_{i} - D X | |_{2}^{2}, s . t . &ForAll; n, | | x_{n} | |_{0} \leq δ

式中，矩阵中的列为训练集中第i类的所有样本；中的元素为第i类的子字典D_i中的第j列；稀疏限定因子δ为SR的系数中非零分量的数目的上限；

对上式进行迭代求解：在得到的字典D上求稀疏矩阵X，然后根据X找到更好的D，并进行逐列更新D，直到最后收敛。

而且，所述步骤3是采用线性插值的方法进行归一化处理，具体方法为：

采用下式计算所有叶片图像向量中的最大长度l_max：

l_max＝max{l_test,l₁,...,l_L}

式中，L表示在训练集G中所有植物叶片向量的数目，l₁,...,l_L表示每个植物叶片图像向量的长度；

然后，对所有采样值长度小于l_max的叶片图像向量进行长度归一化线性插值，

g (x) = f (x_{0}) \frac{x - x_{1}}{x_{0} - x_{1}} + f (x_{1}) \frac{x - x_{0}}{x_{1} - x_{0}}

式中，f(x₀)和f(x₁)分别表示第x₀和第x₁时刻的采样值，g(x)表示f(x₀)和f(x₁)内插得入第x处的灰度值。

而且，所述步骤4的具体方法为：设y＝Gx，其中是待识别的叶片图像，是由训练图像数据库构建的完备字典，n为训练图像数目，每个训练图像被向量化为1列；当m＜n，矩阵G为过完备字典；是输入图像在过完备字典上的n维稀疏系数；为了识别一幅叶片图像g_k,test所属的植物类别，将训练集中K种植物的所有叶片图像向量一一作为基向量，构成一个字典矩阵G：

式中，n＝n₁+n₂+...+n_K，n_i为第i类植物的叶片图像数目i＝1,2,...,K；

利用字典G表示待识别的g_k,test时，其表示为：

式中，α的系数中只有与第k类对应的不为0，其余的都为0，所以α是一个稀疏向量；为观测噪声，由光照变化、位置变化、遮挡情况下输入叶片图像与训练叶片图像之间的误差引起。

本发明的优点和积极效果是：

1、本发明采用稀疏表示方法并根据字典的冗余特性得到原始样本的自然特性，直接将叶片图像样本作为训练集，省去了从叶片图像中提取分类特征的过程，有效地解决了经典植物分类算法提取和选择分类特征难题。

2、本发明采用将叶片图像向量化后长度归一化线性插值的方法。由于不同叶片图像之间有一定的差别，即使是同一颗树中的多幅叶片图像之间也会有差异，这样导致拍摄的叶片图像的维数大小不一。本方法有效解决了向量化的叶片图像的长度不一致性问题。

3、本发明针对每类植物叶片图像，进行单独的字典学习，得到一个较小的超完备字典，由此计算待识别图像的稀疏表示，该发明可以在植物叶片图像分类的训练阶段离线进行，训练的字典可用来降低植物分类阶段的计算复杂度，提高植物分类的实时性，可满足植物自动识别系统的实时性要求。

附图说明

图1为本发明实施例所采用的20种测试植物叶片示意图；

图2为不同季节、不同光照、不同角度下的15幅叶片图像；

图3为对应图2的对齐和灰度化图像；

图4a为基于SR的输入有效叶片图像的稀疏系数图；

图4b为基于SR的输入有效叶片图像的重构残差图；

图5a为基于SR的输入无效叶片图像的稀疏系数图；

图5b为基于SR的输入无效叶片图像的重构残差图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

步骤1、初始化参数：设置每种植物类别字典的大小K、稀疏限定因子δ和误差容忍参数ε。

以植物叶片图像数据库中包括20类不同的植物类别为例，分别对每种植物所构成的训练集样本进行字典学习，构建每种植物叶片图像的超完备字典D₁,D₂,...,D₂₀。根据字典学习时参数选取对识别算法的影响，分别选择不同字典尺寸大小K的超完备字典和稀疏限定因子δ进行植物分类试验。实际上，当δ取不同值时的识别准确率差别不大，K取值越小，所构建的冗余字典也越小，越有利于实时识别。在本实施例中，选择分类率最大时对应的K和δ作为试验的最佳参数。误差容忍参数为观测噪声，由光照变化、位置变化、遮挡等非理想情况下输入叶片图像与训练叶片图像之间的误差引起。

步骤2、针对每类植物叶片图像的训练样本，利用K-SVD算法得到每类叶片图像的超完备字典。

在本步骤中，采用基于类的字典学习方法，对同一类的训练样本通过K-奇异值分解(K-SVD)，得到该类别的超完备字典，进一步压缩该字典，构成一个元素更少的集合。针对每类叶片图像进行字典学习后，构成的超完备字典能更有效地表示该类叶片图像。

针对K个不同的植物类别，分别通过K-SVD算法构建相应的字典D₁,D₂,...,D_K。基于K-SVD训练算法的优化问题可表示为：

< D_{i}, X_{i} > = \underset{D_{i}, X_{i}}{argmin} | | G_{i} - D X | |_{2}^{2}, s . t . &ForAll; n, | | x_{n} | |_{0} \leq δ - - - (1)

式中，矩阵中的列为训练集中第i类的所有样本；中的元素为第i类的子字典D_i中的第j列；稀疏限定因子δ为SR的系数中非零分量的数目的上限。

式(1)的求解是一个迭代过程，即在得到的字典D上求稀疏矩阵X，然后根据X找到更好的D。逐列更新D，直到最后收敛。

给定训练样本目标字典原子数K和收敛条件，通过下列步骤找到最佳的超完备字典

设置初始字典矩阵且列向量已进行了归一化，设p＝1；

对每个样本g_i(i＝1,2,...,n)，采用正交匹配跟踪算法求解如下最优化问题，得到向量x_i，

\underset{x_{i}}{m i n} {| | g_{i} - {Dx}_{i} | |_{2}^{2}}, s . t . | | x_{i} | |_{0} \leq δ;

对字典矩阵D^(J-1)的每一列按以下各式逐列更新：

定义一组使用了该字典原子的数据样本

计算表示误差矩阵

由E_k选出仅和ω_k相对应的列，得到

对进行K-SVD分解更新的字典列为U的第一列，用V的第一列与Δ(1,1)的乘积更新

若满足收敛条件则停止，否则p＝p+1，继续更新。

步骤3、将训练后每类叶片图像的超完备字典拼接成一个冗余字典，并对字典的各列进行归一化处理。

在本步骤中，将所有叶片图像样本构成一个冗余字典，通过求解待识别的叶片图像在冗余字典中的稀疏表示来识别叶片的。由于图像的表示系数大部分为零，而不为零的部分应在同类图像上的表示系数。由此将图像识别问题转化为一个稀疏表示问题，并可以利用奇异值分解算法对该问题求解。

实际得到的叶片图像向量化后的长度可能不一样。由于冗余字典集G中要求所有向量具有相同的维数，所以本发明要求所有叶片图像样本的数据向量具有相同的维数，因此需要把和待识别g_k,test转换成具有相同维数的一维向量。采用线性插值的方法解决样本采集时长短不一致的问题。计算所有叶片图像向量中的最大长度l_max：

l_max＝max{l_test,l₁,...,l_L}(2)

式中，L表示在训练集G中所有植物叶片向量的数目，l₁,...,l_L表示每个植物叶片图像向量的长度。

对所有采样值长度小于l_max的叶片图像向量进行长度归一化线性插值，即：

g (x) = f (x_{0}) \frac{x - x_{1}}{x_{0} - x_{1}} + f (x_{1}) \frac{x - x_{0}}{x_{1} - x_{0}} - - - (3)

利用上式(3)，使得训练字典集中的植物叶片图像向量和待识别植物叶片图像向量都具有相同的长度。

步骤4、通过求解最小化L₁范数问题得到稀疏系数。

设y＝Gx，其中是待识别的叶片图像，是由训练图像数据库构建的完备字典，n为训练图像数目，每个训练图像被向量化为1列，称为1个原子。当m＜n，矩阵G为过完备字典；是输入图像在过完备字典上的n维稀疏表示，即稀疏系数，即其中大部分系数为0或接近0。为了识别一幅叶片图像g_k,test所属的植物类别，将训练集中K种植物的所有叶片图像向量一一作为基向量，构成一个字典矩阵G：

式中，n＝n₁+n₂+...+n_K，n_i为第i类植物的叶片图像数目i＝1,2,...,K。

考虑到实际计算过程中难免会出现一些误差，所以利用字典G表示待识别的g_k,test时，可用下式(5)表示：

式中，α的系数中只有与第k类对应的不为0，其余的都为0，所以α是一个稀疏向量；为观测噪声，由光照变化、位置变化、遮挡等非理想情况下输入叶片图像与训练叶片图像之间的误差引起。

步骤5、计算残差，选择差值最小的对应的样本类别为待识别样本最终的识别结果。

图4a和图4b给出了基于SR的植物叶片图像的投影系数和重构残差图。图4a为训练集中20种植物、每种植物15幅叶片图像对于待识别叶片图像的投影系数，其中横轴为20种植物训练样本编号，纵轴为基于最小化L₁范数得到的y在训练样本上的投影系数x。可以看出，y在其所属植物类别的训练样本上的投影系数较大，而在其他类别上仅有少数投影系数不为0，而且系数值都比较小，由此表明x的稀疏性。利用x在每个类别上的投影系数近似表示y，得到重建残差，如图4b所示。可以看出，该训练样本的投影残差最小，由此可判定其所属的类别，得到识别结果。

下面对本发明算法的复杂度进行分析：

本发明是将所有训练叶片图像作为SR的冗余字典。在理论上，对于每个待识别的叶片图像，计算其SR的时间复杂度为O(t²n)，n为训练样本数，t为所求系数向量中非零元素的个数。但实际所求的系数向量并非最佳的SR向量，其中包含了很多数值很小的非零向量，使得时间复杂度趋近O(n³)。所以当叶片图像集中训练样本的数目比较大时，基于SR的识别方法的计算复杂度较高，限制了该方法在实时植物识别系统中的应用。为克服SR的计算复杂度，本发明采用K-SVD算法，通过迭代不断修正样本的稀疏编码，实现字典的动态更新，得到能更好地表示样本的字典。在实际应用中，我们根据植物分类系统的实时性要求，采用字典学习方法寻求一个较小且满足条件的超完备字典来计算测试样本的SR，极大减少了算法的计算时间。

下面按照本发明的方法进行试验，进而检验本发明的效果：

将本发明提出的基于SR的植物分类方法在中科院合肥智能机械研究所智能计算试验室公开的叶片图像数据库1.0(http://www.intelengine.cn/dataset/index.html)上进行验证试验。该数据库包含220多类17000多幅植物叶片图像。在试验中，从数据库中选择20种植物叶片图像(见图1)，每种植物选择不同季节、光照和姿态等拍摄条件下的15幅图像。为了说明所提出的方法的有效性，与基于神经网络(BPNN)和支持向量机(SVM)以及流形学习(ML)的植物分类方法进行比较。在MATLAB7.0开发环境下，编程实现BPNN、SVM、ML和本发明提出的植物叶片图像处理和识别方法程序代码。其中，计算机配置是PentiumCPUE53002.60GHZ，内存2GB。SR的求解最小化L₁范数采用MATLAB的K-SVD字典学习的工具包和求解优化问题的SPGL1工具包，BPNN采用MATLAB的NNtoolbox中提供的train和newff等函数，SVM采用提供的LIBSVM。

(1)叶片图像预处理

图2为15幅化香植物彩色叶片图像。从图2可以看出15幅图像之间的颜色、纹理、形状和大小之间存在着很大差异，特别是第5幅叶片与其他叶片的差异很大，采用一些经典的方法很难由叶片图像识别出植物化香。本节试验验证本发明提出的基于SR的植物分类方法的有效性。在试验之前，需要对所有叶片图像进行剪切、对齐、平滑滤波和灰度化等预处理。获取的叶片图像是RGB彩色图像，为了消除叶柄对分类结果的影响，我们人为地去除植物叶柄。叶片在不同季节颜色会有不同，而且同一幅图像因光照角度不同颜色也会存在很大的差别，所以对其进行灰度图转换，将彩色图像转换为灰度图像，消除颜色对分类的干扰。由彩色图像转化为灰度图像的公式如下：

Y＝0.2989R+0.5870G+0.1141B(6)

式中，R、G和B分别表示红、绿、蓝三个分量，Y表示灰度值。

实际采集的叶片图像都含有噪声，本发明采用5阶平滑滤波来滤除干扰噪声。目标叶片图像可能在灰度化后存在孔洞，会对后面的参数提取产生影响，所以对其进行形态学闭运算处理，消除内部孔洞。图3为化香叶片图像经过对齐和灰度化等预处理后的15幅图像。然后把每幅灰度图像(即矩阵)变成向量。

(2)输入图像有效性判断。

一个实用的植物识别算法或系统应该不仅能识别叶片图像，而且能区分非叶片的图像或非植物叶片图像库中的叶片图像。在识别植物前，确认每幅图像是否为有效的叶片图像，特别要保证训练集中的图像都是有效的叶片图像。传统的植物识别方法和系统通常根据一幅输入叶片图像与其他叶片图像的残差判定该图像的有效性，由残差的大小决定接受或拒绝该图像。这类算法一般只能比较输入图像与每个单独一类图像的相似性，而且残差的计算脱离了叶片图像数据库中的其他叶片图像信息。

由SR原理可知，一幅有效图像的稀疏表示系数集中在某一训练样本上；而无效图像的稀疏表示系数分布在多个训练样本上。据此，由训练集中的所有图像计算稀疏系数S(x)：

S (x) = \frac{n \cdot \max_{i} | | δ_{i} (x) | |_{1} / | | x | |_{1} - 1}{n - 1}, &Element; [0, 1] - - - (7)

式中，δ_i(x)∈Rⁿ为一个列向量，其中唯一非零项为x中与第i个对象对应的非零项；n为样本数。

若S(x)＝1，则输入图像可由单个对象的图像表示；若S(x)＝0，则其稀疏表示系数遍布整个样本。在实际使用时，设置一个阈值τ∈(0,1)，若S(x)≥τ，认为输入的叶片图像为有效图像，反之为无效图像。不过很难设置合适的τ值。一般不同的分类问题对应的τ值不同，为此，本发明取默认值0.01。

(3)试验结果

算法测试时将20类叶片图像、每种叶片15幅共300幅分为训练集和测试集2部分。测试集中的叶片图像不会包含在训练集中。采用留一交叉验证(leave-one-validation)和3折交叉验证法(3-foldcrossvalidation)测试本发明所提出的方法的有效性，并与现有的三种植物分类方法进行性能比较。其中，留一交叉验证法是一种无偏差验证法，是把训练集中留一后的所有样本作为冗余字典，则当每类植物的叶片图像很多时，该方法比较耗时。

在试验中，我们选择分类率最大时对应的K和δ作为试验的最佳参数。表1和表2分别为采用留一交叉验证和3折交叉验证法在叶片图像数据库中的相同测试样本情况下，BPNN、SVM、基于监督正交局部保持映射(SOLPP)和本发明方法对20类植物叶片图像的分类结果。表1中列出的时间为测试一个样本所用的平均时间，通过测试样本集运行的总时间除以测试样本数得到。两种方法SFNNC和STC是直接提取分类特征，然后利用BPNN和SVM分类器进行分类。SOLPP是对向量化图像进行维数约简，然后利用K-最近邻分类器识别植物类别。

表1、BPNN、SVM、流形学习(SOLPP)和本发明方法对20类植物叶片图像的分类结果(留一交叉验证)

方法	BPNN	SVM	SOLPP	本发明方法
					分类率	89.15％	89.94％	92.75％	95.71％
运行时间(S)	183	168	137	114

表2、BPNN、SVM、流形学习(SOLPP)和本发明方法对20类植物叶片图像的分类结果(3折交叉验证法)

方法	BPNN	SVM	SOLPP	本发明方法
					分类率	88.52％	89.06％	92.12％	95.04％
运行时间(S)	135	118	105	89

在试验中，为了得到较高的识别率，BPNN和SVM中的多个参数经过若干次优化才能确定。SOLPP是一种监督流形学习方法，该方法充分利用了样本的类别信息和局部结构信息。虽然SOLPP的识别率较高，但该类方法交复杂，而且运行时间较长。本发明提出方法的参数选择较为简单，只需考虑K和δ以及迭代次数，较小的误差和较大的迭代次数可获得较高的分类准确率。也就是说，与BPNN、SVM和SOLPP算法比较，提出的方法具有更强的鲁棒性。

在试验中，为了得到较高的识别率，BP网络和SVM中的多个参数需要经过若干次优化才能确定。而本发明提出方法的参数选择较为简单，只需考虑最小误差和迭代次数，较小的误差和较大的迭代次数可获得较高的分类准确率。也就是说，与BP网络和SVM算法比较，提出的方法具有更强的鲁棒性。另外，稀疏表示方法除可进行分类外，还可根据最大投影系数(图5a及图5b)，判断与测试样本最相似的训练样本，从而判定输入叶片图像的有效性。将本发明所提出的基于类的字典学习应用于植物识别系统中，每个类别的训练过程可以并行来完成，且当系统要增加一个新的类别时，不需要对整个训练数据进行重新训练。

本发明将SR方法应用于植物叶片图像分类中，其将植物分类问题转化为求解待分类图像对于整体训练样本的稀疏表示问题，直接对原始图像进行处理，而不是进行特征提取。该方法利用面向类别的字典学习，来求得一个较小的超完备字典来计算待识别图像的稀疏表示，从而减少算法的计算时间，满足实时性要求。在公开的植物叶片图像数据库上进行测试，结果该方法取得了较高的识别率，平均识别率高达95％以上。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于稀疏表示字典学习的植物分类方法，其特征在于包括以下步骤：

步骤4、通过求解最小化范数得到稀疏系数；

2.根据权利要求1所述的基于稀疏表示字典学习的植物分类方法，其特征在于：所述步骤2是采用基于类的字典学习方法，对同一类的训练样本通过K-SVD算法得到该类别的超完备字典，并进一步压缩该字典，具体方法为：

针对K个不同的植物类别，分别通过K-SVD算法构建相应的字典D₁,D₂,…,D_K，基于K-SVD算法的优化问题表示为：

\begin{matrix} < D_{i}, X_{i} > = \underset{D_{i}, X_{i}}{\arg m i n} | | G_{i} - D X | |_{2}^{2}, & s . t . &ForAll; n, | | x_{n} | |_{0} \leq δ \end{matrix}

3.根据权利要求1所述的基于稀疏表示字典学习的植物分类方法，其特征在于：所述步骤3是采用线性插值的方法进行归一化处理，具体方法为：

采用下式计算所有叶片图像向量中的最大长度l_max：

l_max＝max{l_test,l₁,…,l_L}

式中，L表示在训练集G中所有植物叶片向量的数目，l₁,…,l_L表示每个植物叶片图像向量的长度；

g (x) = f (x_{0}) \frac{x - x_{1}}{x_{0} - x_{1}} + f (x_{1}) \frac{x - x_{0}}{x_{1} - x_{0}}

4.根据权利要求1所述的基于稀疏表示字典学习的植物分类方法，其特征在于：所述步骤4的具体方法为：设y＝Gx，其中是待识别的叶片图像，是由训练图像数据库构建的完备字典，n为训练图像数目，每个训练图像被向量化为1列；当m＜n，矩阵G为过完备字典；是输入图像在过完备字典上的n维稀疏系数；为了识别一幅叶片图像g_k,test所属的植物类别，将训练集中K种植物的所有叶片图像向量一一作为基向量，构成一个字典矩阵G：

G = [G_{1}, G_{2}, L, G_{k}] = {(g_{1, 1}, g_{1, 2}, L, g_{K, n_{K}})}^{T} {&Element;}^{m \times n}

式中，n＝n₁+n₂+…+n_K，n_i为第i类植物的叶片图像数目i＝1,2,...,K；

利用字典G表示待识别的g_k,test时，其表示为：