CN111126485A

CN111126485A - 一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统

Info

Publication number: CN111126485A
Application number: CN201911346450.5A
Authority: CN
Inventors: 徐承俊; 朱国宾; 舒静倩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-08

Abstract

本发明公开了一种基于李群机器学习核函数的Lie‑KFDA场景分类方法和系统，首先获取待处理的遥感数据集，并按比例划分为训练数据文件和测试数据文件；将样本投影到李群流形空间；计算上述每个类别李群样本集的内均值；选择李群机器学习核函数，计算每个类别李群样本的参数值；计算每个类别内均值到空间

中的向量上的投影值；对于测试样本投影到空间

中的向量上；根据与内均值差值的最小值进行类别判定。本发明具有如下优点：(1)本发明具有良好的空间复杂度，不需要设置和存储大量的参数。(2)本发明采用李群内均值加速对测试样本的类别判定。(3)本发明方法可根据不同的数据集分布特点选择不同的李群核函数，具有很好的鲁棒性。

Description

一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统

技术领域

本发明涉及图像处理、场景分类领域，尤其是涉及一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统。

背景技术

场景分类是基于视觉感知原理，发掘出场景影像中某些特定的区域，其中，区域可以是整幅影像或影像中的局部范围(区域)，其最终的目标是根据预先定义的一组或者是若干组语义类别对影像进行标注。场景分类在目标检测、识别、视频监测、土地利用等都具有广泛的实用意义。目前，场景分类已经取得了一定的成果，但是实现分类性能优越、鲁棒性强和计算效率高的场景分类仍然是一项重要研究的课题和挑战。

常用的方法：(1)传统的底层特征方法，提取感兴趣区域中的特征如纹理、颜色和轮廓等，将影像共有的特征直接与有监督的学习训练方法相结合，最后完成识别分类。(2)中层特征方法，主要有语义对象分割、局部和全局的语义建模。该方法将影像划分为有意义的目标区域，接着，使用该区域的语义信息及区域的空间关系进行场景分类。(3)高层特征，主要是深度学习，由学习框架如VGG16等自动完成提取特征学习，该框架主要由卷积层，池化层和全连接层(FC)构成，根据学习到的特征对测试影像进行识别分类。

上述分类方法存在以下不足：(1)底层特征方法对于简单的场景是有效的，当场景复杂时，效果不理想，主要原因是缺乏中间语义的影响描述。(2)中层特征方法存在定义影像语义属性时存在语义不清晰的缺陷，以及特征维度和计算量不适合实时应用。(3)高层特征方法，如深度学习方法则存在大量需要根据经验值进行调整或者需要设置的参数，计算复杂程度高，需要GPU辅助计算，增加硬件的成本，以及特征不具有很好的解释性。

发明内容

本发明提供了一种基于李群机器学习核函数的Lie-KFDA场景分类方法，用以解决上述背景技术中存在的语义缺失或语义不清晰、计算性能差、计算成本高等问题。

为了实现上述目标，本发明一种基于李群机器学习核函数的Lie-KFDA场景分类方法的技术方法的具体步骤如下：

Step1、获取待处理的场景数据集，将所需处理的场景数据集分为训练集和测试集；

Step2、将上述训练集和测试集分别转化为训练数据文件和测试数据文件；

Step3、将所述训练数据文件中图像集投影到李群流形空间，得到李群样本集；

Step4、计算上述每个类别李群样本集的内均值

Step5、选择具体的李群机器学习核函数，计算每个类别李群样本的参数L_i值和L值，L_i是指第i类样本选择对应核函数的均值，L是指所有类别选择对应核函数的总体均值；

Step6、根据所选定的李群机器学习核函数，计算参数值T，T表示样本选择与对应核函数乘积求和的矩阵表示；

Step7、根据Step5和Step6计算Lagrange乘子ρ的值；

Step8、计算每个类别内均值

到目标特征空间

中的投影值

Step9、对于测试数据文件中图像T_test，首先将其投影到目标特征空间

中求测试样本的李群内均值

Step10、根据

对测试数据文件中图像集中的所有测试样本进行类别判定，c表示训练样本总的类别数，T_test表示测试数据文件中图像，即测试样本，c^*表示测试样本对应的类别，

表示Step8中计算得到的投影值。

进一步的，所述Step3中得到李群样本集的具体实现方式如下，

对每个训练数据文件中图像做李群映射：x_ij＝exp(M_ij)，其中，M_ij表示训练数据文件图像集中第i类别的第j个影像，x_ij表示李群训练样本集中第i个分类中第j个样本。

进一步的，所述Step4的具体实现方式如下，

计算每个类别李群样本集的内均值：

其中，x_ij表示李群训练样本集中第i个分类中第j个样本，n_i表示第i个分类中训练样本的个数，一共有c个类别。

进一步的，所述Step5的具体实现方式如下，

Step51，选择李群核函数RBF：

其中x,y表示李群空间两个数据点，σ是带宽；

Step52、计算每个类别李群样本的参数L_i值和L值：

并令L＝(L_i-L_i+1)(L_i-L_i+1)^T,i＝1,2,···,c-1，其中

表示李群核函数RBF，x_j表示第j个样本，

表示第i类的第k个样本，n_i表示第i个分类中训练样本的个数，一共有c个类别。

进一步的，所述Step5的具体实现方式如下，

Step51，选择基于李群样本矩阵的多项式核函数：k_{ernel-LiePolynomial}(x,y)＝[tr(αx^Ty)+c]^d，其中，tr表示矩阵求迹运算，x,y表示李群空间两个数据点，α为斜率，c为常数项，d表示多项式维度，取任意正整数；

Step52、计算每个类别李群样本的参数L_i值和L值：

并令L＝(L_i-L_i+1)(L_i-L_i+1)^T,i＝1,2,···,c-1，其中

表示基于李群样本矩阵的多项式核函数，x_j表示第j个样本，

进一步的，所述Step6的具体实现方式如下，

计算参数值T：

其中K_i表示n×n_i矩阵，且

x_n表示第n个样本，

表示第i类的第m个样本，I表示n×n_i单位矩阵，

表示第i个分类中训练样本中元素全是1的n×n_i矩阵。

进一步的，Step7中计算Lagrange乘子ρ的值：ρ_i＝T^-1(L_i-L_i+1)。

进一步的，Step8中计算每个类别内均值

到目标特征空间

中的投影值：

其中，k表示核函数，

表示

的非线性映射，

ρ_i表示Lagrange乘子，φ(x_i)表示训练样本x_i的非线性映射，x_ij表示李群训练样本集中第i个分类中第j个样本，n_i表示第i个分类中训练样本的个数，一共有c个类别。

进一步的，Step9中

的具体计算公式如下，

其中，k表示核函数，φ(T_test)表示测试样本T_test的非线性映射，

本发明还提供一种基于李群机器学习核函数的Lie-KFDA场景分类系统，包括如下模块：

场景图像数据集读取及处理模块，用于获取待处理的场景数据集，将所需处理的场景数据集分为训练集和测试集；

数据转化模块，用于将上述训练集和测试集分别转化为训练数据文件和测试数据文件；

数据集投影模块，用于将所述训练数据文件中图像集投影到李群流形空间，得到李群样本集；

内均值计算模块，用于计算上述每个类别李群样本集的内均值

李群核函数选择模块，用于选择具体的李群机器学习核函数，计算每个类别李群样本的参数L_i值和L值，L_i是指第i类样本选择对应核函数的均值，L是指所有类别选择对应核函数的总体均值；

参数计算模块，用于根据所选定的李群机器学习核函数，计算参数值T，T表示样本选择与对应核函数乘积求和的矩阵表示；

Lagrange乘子计算模块，用于根据李群核函数选择模块和参数计算模块计算Lagrange乘子ρ的值；

投影计算模块，用于计算每个类别内均值

到目标特征空间

中的投影值

测试样本投影模块，用于对于测试数据文件中图像T_test，首先将其投影到目标特征空间

中求测试样本的李群内均值

判别模块，用于根据

表示投影计算模块中计算得到的投影值。

本发明与现有技术相比，具有的有益效果是：本发明方法通过将非线性可分样本投影到(映射到)高维流形空间，使得样本可分。在分类期间采用李群内均值加速完成位置样本的类别判定。该计算方法时间复杂度和空间复杂度都较传统方法小，此外，本发明方法可根据不同的样本集分布特点选择不同的李群机器学习核函数，从而使得本发明达到更好的分类结果。本发明方法克服了上述方法复杂场景的识别分类，弥补了语义不清晰的缺陷，同时也不需要深度学习的复杂计算、大量参数。可以为今后类似学习提供参考。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面结合附图和实施例对本发明进一步说明。

图1为本发明场景图像类方法流程简图；

图2为本发明在数据集上的准确率柱形图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明的实施例的详细描述并非旨在限制要求包含的本发明的范围，而是仅仅表示本发明的选定实施例。

应注意到：相似的符号在下面附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参照图1，图1为本发明所提供的场景图像分类方法流程简图。

Step1，2010年布朗大学的研究人员创立了SUN Database场景数据库，该数据库包含人工标注的899个场景类别和130519幅场景图像，该数据库已经证明是一个基本无遗漏的场景数据库，对于分类方法的性能验证具有普遍的意义。在本发明中，选择SUN Database中相同的Bedroom、Building、City、Forest、Highway和Mountain，共计6个类别场景作为标准实验数据及，比较本发明与其他经典方法的分类性能。此外，对上述标准数据及进行平滑和添加噪声，构造出新的带噪声的数据集，并加入到训练学习和测试中，在该类数据集上更加准确地评价本发明方法和经典方法的鲁棒性。

Step3、对每个训练数据文件中图像做李群映射：x_ij＝exp(M_ij)，其中，M_ij表示训练数据文件图像集中第i类别的第j个影像，x_ij表示李群训练样本集中第i个分类中第j个样本。

Step4、计算每个类别李群样本集的内均值：

Step5、计算每个类别李群样本的参数L_i值和L值。

进一步的，Step51选择具体的李群机器学习核函数：

(1)李群核函数RBF，下述为该核函数推导证明：

Gauss RBF也称作径向基函数，是使用和应用最多最广泛的核函数之一。该核函数主要针对样本集的同心环分布，将样本集映射到高维空间进行分类，具体的函数表达式为：

其中，x,y表示两个向量，σ是带宽，控制径向作用范围，即控制高斯核函数的局部作用范围。然而，对于李群样本的矩阵不存在减法计算，但是在李群流形空间上，可以使用群运算和群元素的逆运算来解决。具体的如x-¹y(x,y∈G)，对于一般李群的群运算是不满足交换律的，如||x^-1y||≠||y^-1x||，对于矩阵李群，则有||log₂(x^-1y)||_F＝||log₂(y^-1x)||_F。从几何的角度分析，||x-y||表示线性空间中两个数据点x和y之间的欧氏距离，而||log₂(x^-1y)||则表示李群流形空间中两个数据点之间的测地线距离，从而可以发现李群流形空间上数据点x到数据点y之间的测地线距离等于数据点y到数据点x之间的测地线距离，即||log₂(x^-1y)||＝||log₂(y^-1x)||。此外，用该方法求出的距离为非负值，满足了核函数矩阵为对称正定矩阵的条件。

根据上述分析，推导出李群核函数RBF：

其中x,y表示李群空间两个数据点，其他符号与上述含义一致。

(2)李群多项式核函数，下述为该核函数推导证明：

多项式核函数基于向量空间的表达式为：k_ernel(x,y)＝(αx^Ty+c)^d，其中可调参数是斜率α，常数项c和多项式维度d，其他符号与上述含义一致。向量中点积运算满足交换律，矩阵的乘法不满足交换律。所以，基于向量空间表示的多项式核函数不是应用于李群样本矩阵空间表示。

根据矩阵理论知识，在n×n矩阵组成的空间上定义一个内积，即＜x,y＞＝tr(y^hx)，其中tr表示矩阵的求迹计算，y^h表示

即表示y的共轭转置矩阵：

根据矩阵的内积，可以推导出很多矩阵空间表示的几何量。所以，＜x,y＞＝tr(y^hx)＝tr(x^hy)＝＜y,x＞，进一步推导，得到基于李群样本矩阵的多项式核函数：k_{ernel-LiePolynomial}(x,y)＝[tr(αx^Ty)+c]^d，其中，在本发明中令斜率α＝1和c＝1，d表示多项式维度度，取任意正整数。

进一步的，Step52计算每个类别李群样本的参数L_i值和L值，L_i是指第i类样本选择对应核函数的均值，L是指所有类别选择对应核函数的总体均值：

并令L＝(L_i-L_i+1)(L_i-L_i+1)^T,(i＝1,2,···,c-1)，其中

表示核函数，可选择上述李群RBF核函数或李群多项式核函数，x_j表示第j个样本，

表示第i类的第k个样本，其他符号含义与上述一致。

Step6、根据所选定的李群机器学习核函数，计算参数值T，T表示样本选择与对应核函数乘积求和的矩阵表示：

其中K_i表示n×n_i矩阵，且

I表示n×n_i单位矩阵，

表示第i个分类中训练样本中元素全是1的n×n_i矩阵。

Step7、根据Step5和Step6计算Lagrange乘子ρ的值：ρ＝T^-1(L_i-L_i+1)。

Step8、计算每个类别内均值

到空间

中的向量ν上的投影值：

其中，k表示核函数，

表示

的非线性映射，

Step9、对于测试数据文件中图像T_test，首先将其投影到空间

中的向量ν上

值：

Step10、本发明实施例根据

对测试数据文件中图像集中的所有测试样本进行类别判定，c表示训练样本总的类别数，T_test表示测试数据文件中图像(测试样本)，c^*表示测试样本对应的类别，

表示Step8中计算得到的投影值。

表1本发明方法与其他方法进行性能对比

结合表1和图2，图2为在数据集上的准确率柱形图，从表1和图2中我们可以很容易发现本发明方法具有明显的优势，注：表1和图2的测试结果是选择李群多项式核函数得到的，对于不同的数据集可以通过不同的李群核函数进行对比测试。

本发明实施例还提供一种基于Lie-Fisher场景图像的场景分类系统，包括如下模块：

投影计算模块，用于计算每个类别内均值

到目标特征空间

中的投影值

中求测试样本的李群内均值

判别模块，用于根据

表示投影计算模块中计算得到的投影值。

各模块的具体实现和各步骤相应，本发明不予撰述。

以上所述仅为本发明的部分实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种改变。凡在本发明的精神和原则之内，所做的任何改变、等价替换或改进等，均应包含在本发明的包含范围之内。注意，相似的标号和字母在下面的附图中表示类似项。因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进一步定义和解释。