CN102880638A

CN102880638A - 一种面向植物叶片的多样化图像检索的自适应的鲁棒cmvm特征降维与抽取方法

Info

Publication number: CN102880638A
Application number: CN201210285036XA
Authority: CN
Inventors: 赵仲秋; 黄德双; 马林海; 吴信东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2013-01-16
Anticipated expiration: 2032-08-10
Also published as: CN102880638B

Abstract

本发明公开了一种面向植物叶片的多样化图形检索的自适应的鲁棒CMVM特征降维与抽取方法，从图像流形特征抽取和选择层面展开研究，采用的约束最大差异投影（CMVM）半监督流形降维方法既有保持正类局域“子概念”区分性的能力，又有强化正反类别即“概念”的区分性的能力。本发明提出去除噪声点方法和CMVM强化正类局域保持算法以保持“子概念”的可区分性；提出线性近似法来解决CMVM样本外点学习问题；提出设计多样化检索的“有序”层次最大间隔相关性评价函数来进行CMVM流形参数的选择和图像本征维数的估计；本发明也提出从CMVM特征中挖掘区分正类类内“子概念”的最大差异本征特征方法，以此进行聚类多样化学习，提高了植物图像检索的多样性。

Description

一种面向植物叶片的多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法

技术领域

本发明涉及特征降维和选择方法，特别涉及一种植物叶片多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法。

背景技术

植物是地球上物种数量最多、分布最广泛的生命形式之一，通过光合作用维持着大气中二氧化碳与氧气的平衡。同时，植物是人类的重要食物来源，也是人类生产和生活所必需的资源。此外，植物在水土保持、抑制荒漠和改善气候等方面也起着至关重要的作用。根据统计，地球上大约有400,000 种植物，其中已被植物学家命名和记录在案的约有270,000 种。在我国仅高等植物就有35,000多种，占世界总数的10.5%左右，是世界第二大植物物种资源库。近年来，日益增加的人类生产活动已经严重地破坏了生态环境，据统计，世界上大约有3.4 万种植物物种已处于灭绝的边缘，占世界上已知的27 万种植物的12.6% ，对植物物种的保护已刻不容缓。

近年来，随着计算机硬件性能的不断提高，数字图像采集设备的广泛使用，以及网络的普及应用，大量植物信息已经被数字化，而利用计算机处理数字植物信息可以避免传统研究过程中的工作效率低、工作量大且客观性难以保证等缺点。

基于内容的图像检索通过自动提取图像的视觉特征来描述其内容，其优点是使得图像数据库能够自动进行索引，一般的图像检索技术都着重于提高检索的“概念”相关性，然而，面对海量图像数据，理想情况下，图像检索引擎应该在保证结果“概念”相关性的前提下，尽可能避免向用户提交雷同的检索结果，即有明显的“子概念”区分性，以提高用户的浏览效率，这就是图像的多样化检索技术。图像的多样化检索研究的对象是：如何在图像检索中令新颖的、独特的、非重复冗余的图像在检索结果中排序靠前。

本发明的研究是为了解决植物叶片的多样化图像检索这一重要实际问题，部分研究成果可以拓展应用到普通图像、文本、网页、视频等信息多样化检索领域，有着重要的应用价值，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

有关基于内容的植物叶片的多样化图像检索技术的研究还处于起步阶段，已有的方法都是针对多样化CBIR中的半监督学习问题从检索或者分类器模型方面开展的研究，而对特征抽取模型的研究工作很少；流形学习方法的应用对象是嵌入在高维复杂空间的非线性低维流形上的数据，利用流形学习方法抽取本征特征是进行图像检索的有效手段之一。但是流形学习方法本身还存在着一些问题，常见问题有：（a）流形学习中的监督学习或半监督学习机制；（b）噪声敏感问题；（c）样本外点学习问题；（d）对样本点邻域参数敏感问题；（e）本征维数估计问题等。如果不能很好地解决这些问题，必然会对多样化图像检索产生不利影响；本发明将针对上述问题提出解决方案。

发明内容

本发明的目的是提出一种面向植物叶片的多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法，该方法从图像流形特征抽取和选择层面展开，针对多样化图像检索问题，(1)提出鲁棒CMVM流形算法来解决图像数据中的噪声问题；(2)提出基于线性近似法的CMVM流形样本外点学习方法和本征维数估计方法；(3)提出基于“有序”层次最大间隔相关性静态评价指标的自适应的CMVM流形参数的选择和本征维数的估计方法；(4)提出一种正类类内“子概念”最大差异本征特征选择方法，以更有效地区分“子概念”。

CMVM 算法是基于同一类别的数据点是分布在同一个子流形上，而不同类别的数据点分布在不同的子流形上的假设提出来的。该算法在保证子流形的局域拓扑结构不变的前提下，将不同类别的子流形投影得更分散，提取最适合分类同时又能保持子流形局域结构的特征。

本发明的技术方案是：

一种面向植物叶片的多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法，其特征在于，具体包括以下步骤：

（1）对于植物图像数据集进行预处理；

（2）采用交互式水平集分割方案进行图像分割；

经研究发现，基于阈值的分割方法简单、易实现，但有很大的局限性，仅可以有效处理背景较简单的图像；对于具有复杂背景的叶片图像，基于交互方式的Snake 方法和分水岭方法比较有效，但需要进行大量的交互时间用以设置初始轮廓和标记，效率较低。而水平集方法由于其适于处理复杂的拓扑结构变化、有着较强的曲线逼近能力、分割精度较高等显著特点，因此较为适合处理复杂背景下的植物图像分割，所以本发明中采用水平集方法。

（3）对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行特征降维，其中工作包括：

1）面向多样化CBIR的CMVM流形学习中噪声处理

本发明采用两个步骤来处理高复杂图像数据的噪声对流形学习的影响，即首先用Boxplot箱线图方法去除样本集中的噪声点，然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响。具体如下：

①去除图像数据集中的噪声点。使用局域鲁棒主分量分析（RPCA）方法，设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系，接着采用循环赋权最小均方（IRLS）算法对每一个数据点包括噪声进行赋权优化；然后利用Boxplot统计工具对权值进行分析，将权值为奇异值所对应的点看作噪声点，从原始数据中去掉这些噪声点后再进行后续的流形学习。区别于经典的识别异常值方法，Boxplot箱线图依靠实际数据来绘制，不需要事先假定数据服从某种特定的分布形式，因而在识别高复杂图像数据集中的异常值方面具有一定的优越性。

②消除正类局域内反类噪声样本的影响。CMVM应用到多样化图像检索中，正类局域内的反类噪声样本会使正类子流形产生扭曲或变形，从而不利正类中“子概念”的区分，因此，本发明基于强化正类数据局域结构保持的思想，在原局域约束项的基础上，再添加一个如下正类局域约束项：

J_{L}^{P} = \underset{i, j}{Σ} {| | Y_{i} - Y_{j} | |}^{2} L_{ij}^{P} = 2 tr {Y (D^{P} - L^{P}) Y^{T}}

其中Y_i,Y_j分别为样本X_i,X_j的低维映射坐标；，类别关联标签l_ij在样本X_i,X_j都属于正类时值为1，否则为0，L_ij是局部关系矩阵L中的元素，是样本点X_i,X_j之间的连接权值，它由邻域关系来定义；D^P是对角阵，其元素

，A是线性变换矩阵。

2）基于线性近似法的CMVM流形的样本外点学习和本征维数估计

以线性近似的方式来解决CMVM算法样本外点学习能力的问题，与核化、张量化方法相比，它具有较低的计算成本。线性近似法解决流形学习泛化问题，可以假设高维数据特征空间和低维嵌入之间存在一种线性映射矩阵A，即Y=A^TX，则CMVM中正反类子流形差异目标函数可以表示为：

J_{D} = \underset{i, j}{Σ} H_{ij} {| | Y_{i} - Y_{j} | |}^{2} = 2 tr {Y (Q - H) Y^{T}}

= 2 tr {A^{T} X (Q - H) X^{T} A}

其中H是正反类别关联信息矩阵，H_ij在样本X_i,X_j属于同类时值为0，否则为1，Q是对角阵，Q_ii=∑_jH_ij。因此，本发明中具有局域和正类局域双约束的极值优化问题可以表示为如下公式：

\{\begin{matrix} \max {J_{D}} \\ s . t . tr {A^{T} X (D - L) X^{T} A} = tr {X (D - L) X^{T}} \\ s . t . tr {A^{T} X (D^{P} - L^{P}) X^{T} A} = tr {X (D^{P} - L^{P}) X^{T}} \end{matrix}

可以采用拉普拉斯数乘法将这个双约束极值问题转化为求解广义特征向量问题，以求出线性变换矩阵A。线性近似法中，特征维数可由一定个数的较大特征值之和与所有特征值之和的比值大于给定阈值来估计。

3）面向多样化CBIR的CMVM流形参数选择和本征维数估计

从训练集中分解出认证集，来对样本点邻域参数进行选择；在不同参数的流形空间内，由样本间的距离直接度量或者设计分类器来实施认证集中的图像检索，然后设计“有序”层次MMR函数对检索结果进行评估，以选择最优流形参数。研究中，我们也将基于“有序”层次MMR函数对不同维数的检索结果进行评价，然后利用评价结果与维数的关系对特征维数进行估计，即当本征维数增多而MMR评估值变化缓慢时，当前维数即为本征维数的估计值。

MMR评价函数应该是对在保证检索相关性前提下提高多样性这一“有序”层次需求进行合适的表达，并且需要融合样本的“概念”标签，为此，我们设计“有序”层次MMR评价函数如下：

{MMR}^{(N_{t})} = \frac{1}{N_{t} (N_{t} - 1)} Σ_{i = 1}^{N_{t}} Σ_{j = 1, j &NotEqual; i}^{N_{t}} d (I_{i}, I_{j}) * r (I_{i}) * r (I_{j})

式中N_t表示检索结果图像数；r(I_i)在图像I_i与检索“概念”相关时为1，否则为0，此设置是为了保证图像的相关性；d(I_i,I_j)为表示图像间差异性的距离，可直接由欧氏距离度量，而当各图像具有多个“概念”标签，也可以由图像多“概念”表达向量之间的距离来度量。

可以看出，新设计的MMR评估函数，相关性与差异度的表达具有层次性，即差异度的提高是以相关性为前提的；与已有的MMR函数相比，新的MMR评估函数没有可变参数，具有稳定性。

（4）上述的降维过程完成后，即可进行基于CMVM特征进行图像检索，初步得到具有相关性的检索结果，检索工具可以是支持向量机(SVM)、径向基函数神经网络（RBFNN）或模块分类器。

（5）在CMVM进行特征降维后，利用训练集的正类子集作为聚类认证集从CMVM特征中选择“子概念”最大差异本征特征；当CMVM特征维数较小时，可采用穷举法对特征进行优化选择，以得到“子概念”最大差异本征特征；而当CMVM特征维数较大时，可采用遗传算法（GA）。特征优化选择过程中，基于每个本征特征组合对正类训练集进行聚类，然后对聚类结果进行适应度评价。

为保证能选择出正类类内“子概念”最大差异本征特征，适应度函数设计的准则是以较少的特征维数，获得较大的离散性度量，公式为

或者tr(S_b)/tr(S_w)，

其中S_b为类簇间离散度矩阵，S_w为类簇内离散度矩阵。

（6）然后用聚类算法对检索结果进行重排序Re-ranking；聚类数可以设定为N_t；聚类是基于正类类内“子概念”最大差异本征特征来完成的。

（7）得到最终排序。

本发明的有益效果是：

本发明为解决面向植物叶片图像的多样化图像检索问题，针对多样化CBIR的实际应用，解决CMVM中的噪声干扰、样本外点学习、参数敏感、及本征维数估计等基本问题；提出一个面向植物叶片的多样化CBIR的“子概念”最大差异本征特征选择算法，去除冗余特征，提高了检索多样性和聚类多样化学习的效率；在CMVM特征抽取基础上，提出正类类内“子概念”最大差异本征特征的选择算法，并在对应空间内进行聚类多样化学习；在最大化正反类别子流形之间的差异的同时，又保持了正类子流形上“子概念”区分性这个半监督学习特性，提高了图像检索的多样性，提高了多样化检索的效率。

附图说明：

图1是本发明的具体研究方案图。

图2是本发明中图像分割实现过程。

具体实施方式：

如图1所示，多样化图形检索的自适应的鲁棒CMVM特征抽取和降维方法，具体包括以下步骤：

1）对于植物图像数据集进行预处理；

2）采用交互式水平集分割方案进行图像分割；

（3）对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行降维，其中工作包括：

1）面向多样化CBIR的CMVM流形学习中噪声处理

J_{L}^{P} = \underset{i, j}{Σ} {| | Y_{i} - Y_{j} | |}^{2} L_{ij}^{P} = 2 tr {Y (D^{P} - L^{P}) Y^{T}}

其中Y_i,Y_j分别为样本X_i,X_j的低维映射坐标；

，类别关联标签l_ij在样本X_i,X_j都属于正类时值为1，否则为0，L_ij是局部关系矩阵L中的元素，是样本点X_i,X_j之间的连接权值，它由邻域关系来定义；D^P是对角阵，其元素

，A是线性变换矩阵。

J_{D} = \underset{i, j}{Σ} H_{ij} {| | Y_{i} - Y_{j} | |}^{2} = 2 tr {Y (Q - H) Y^{T}}

= 2 tr {A^{T} X (Q - H) X^{T} A}

\{\begin{matrix} \max {J_{D}} \\ s . t . tr {A^{T} X (D - L) X^{T} A} = tr {X (D - L) X^{T}} \\ s . t . tr {A^{T} X (D^{P} - L^{P}) X^{T} A} = tr {X (D^{P} - L^{P}) X^{T}} \end{matrix}

3）面向多样化CBIR的CMVM流形参数选择和本征维数估计

{MMR}^{(N_{t})} = \frac{1}{N_{t} (N_{t} - 1)} Σ_{i = 1}^{N_{t}} Σ_{j = 1, j &NotEqual; i}^{N_{t}} d (I_{i}, I_{j}) * r (I_{i}) * r (I_{j})

（4）上述降维的过程完成后，基于CMVM特征进行图像检索，初步得到具有相关性的检索结果，检索工具可以是支持向量机(SVM)、径向基函数神经网络（RBFNN）或模块分类器。

（5）在CMVM进行降维后，利用训练集的正类子集作为聚类认证集从CMVM特征中选择“子概念”最大差异本征特征；当CMVM特征维数较小时，采用穷举法对特征进行优化选择，以得到“子概念”最大差异本征特征；而当CMVM特征维数较大时，采用遗传算法（GA）；特征优化选择过程中，基于每个本征特征组合对正类训练集进行聚类，然后对聚类结果进行适应度评价；

或者tr(S_b)/tr(S_w)，

其中S_b为类簇间离散度矩阵， S_w为类簇内离散度矩阵；

（7）得到最终排序。

Claims

1.一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维与抽取方法，其特征在于，具体包括以下步骤：

（1）对于植物图像数据集进行预处理；

（2）采用交互式水平集分割方法进行图像分割；

1）面向多样化CBIR的CMVM流形学习中噪声处理

首先用Boxplot箱线图方法去除样本集中的噪声点，然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响，具体如下：

①去除图像数据集中的噪声点

使用局域鲁棒主分量分析（RPCA）方法，设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系，接着采用循环赋权最小均方（IRLS）算法对每一个数据点包括噪声进行赋权优化；然后利用Boxplot统计工具对权值进行分析，将权值为奇异值所对应的点看作噪声点，从原始数据中去掉这些噪声点后再进行后续的流形学习；

②消除正类局域内反类噪声样本的影响

CMVM应用到多样化图像检索中，正类局域内的反类噪声样本会使正类子流形产生扭曲或变形，从而不利正类中“子概念”的区分，因此，需要在原局域约束项的基础上，再添加一个如下正类局域约束项：

J_{L}^{P} = \underset{i, j}{Σ} {| | Y_{i} - Y_{j} | |}^{2} L_{ij}^{P} = 2 tr {Y (D^{P} - L^{P}) Y^{T}}

其中Y_i,Y_j分别为样本X_i,X_j的低维映射坐标；

，A是线性变换矩阵；

以线性近似的方式来解决CMVM算法样本外点学习能力的问题，假设高维数据特征空间和低维嵌入之间存在一种线性映射矩阵A，即Y=A^TX，则CMVM中正反类子流形差异目标函数可以表示为：

J_{D} = \underset{i, j}{Σ} H_{ij} {| | Y_{i} - Y_{j} | |}^{2} = 2 tr {Y (Q - H) Y^{T}}

= 2 tr {A^{T} X (Q - H) X^{T} A}

其中H是正反类别关联信息矩阵，H_ij在样本X_i,X_j属于同类时值为0，否则为1，Q是对角阵，Q_ii=∑_jH_ij；

具有局域和正类局域双约束的极值优化问题表示为如下公式：

\{\begin{matrix} \max {J_{D}} \\ s . t . tr {A^{T} X (D - L) X^{T} A} = tr {X (D - L) X^{T}} \\ s . t . tr {A^{T} X (D^{P} - L^{P}) X^{T} A} = tr {X (D^{P} - L^{P}) X^{T}} \end{matrix}

采用拉普拉斯数乘法将这个双约束极值问题转化为求解广义特征向量问题，以求出线性变换矩阵A，线性近似法中，特征维数由一定个数的较大特征值之和与所有特征值之和的比值大于给定阈值来估计；

3）面向多样化CBIR的CMVM流形参数选择和本征维数估计

从训练集中分解出认证集，来对样本点邻域参数进行选择；在不同参数的流形空间内，由样本间的距离直接度量或者设计分类器来实施认证集中的图像检索，然后设计“有序”层次MMR函数对检索结果进行评估，以选择最优流形参数，将基于“有序”层次MMR函数对不同维数的检索结果进行评价，然后利用评价结果与维数的关系对特征维数进行估计，即当本征维数增多而MMR评估值变化缓慢时，当前维数即为本征维数的估计值；

MMR评价函数应该是对在保证检索相关性前提下提高多样性这一“有序”层次需求进行合适的表达，并且需要融合样本的“概念”标签，“有序”层次MMR评价函数如下：

{MMR}^{(N_{t})} = \frac{1}{N_{t} (N_{t} - 1)} Σ_{i = 1}^{N_{t}} Σ_{j = 1, j &NotEqual; i}^{N_{t}} d (I_{i}, I_{j}) * r (I_{i}) * r (I_{j})

式中N_t表示检索结果图像数；r(I_i)在图像I_i与检索“概念”相关时为1，否则为0；d(I_i,I_j)为表示图像间差异性的距离，可直接由欧氏距离度量，而当各图像具有多个“概念”标签，也可以由图像多“概念”表达向量之间的距离来度量；

（4）上述的降维过程完成后，即可进行基于CMVM特征进行图像检索，检索工具是支持向量机(SVM)、径向基函数神经网络（RBFNN）或模块分类器；

（5）在CMVM进行特征降维后，利用训练集的正类子集作为聚类认证集从CMVM特征中选择“子概念”最大差异本征特征；当CMVM特征维数较小时，采用穷举法对特征进行优化选择，以得到“子概念”最大差异本征特征；而当CMVM特征维数较大时，采用遗传算法（GA）；特征优化选择过程中，基于每个本征特征组合对正类训练集进行聚类，然后对聚类结果进行适应度评价；

或者tr(S_b)/tr(S_w)，

其中S_b为类簇间离散度矩阵，S_w为类簇内离散度矩阵；

（6）然后用聚类算法对检索结果进行重排序Re-ranking；聚类数设定为N_t，聚类是基于正类类内“子概念”最大差异本征特征来完成的；

（7）得到最终排序。