CN113887661A

CN113887661A - 一种基于表示学习重构残差分析的图像集分类方法及系统

Info

Publication number: CN113887661A
Application number: CN202111243560.6A
Authority: CN
Inventors: 高希占; 冯泽明; 牛四杰; 董吉文
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-04
Anticipated expiration: 2041-10-25
Also published as: CN113887661B

Abstract

本发明公开了基于表示学习重构残差分析的图像集分类方法及系统，所述方法利用高斯核函数，将获取的图像集数据的低维特征映射到高维空间中，然后通过构建残差判别分析模型学习一个投影矩阵，使得投影后的图像集特征类内重建残差最小，类间重建残差最大。本发明通过输入来自于视频序列、影集或监控系统的图像集数据；对所述图像集进行数据预处理操作；将获取的图像数据输入到重构残差分析模型进行模型训练，得到最优投影矩阵；基于最优投影矩阵构建新的图像集分类器；将测试图像集输入到分类器中进行分类，得到对应的类别标签。

Description

一种基于表示学习重构残差分析的图像集分类方法及系统

技术领域

本发明涉及计算机视觉与机器学习技术领域，具体提供一种基于表示学习重构残差分析的图像集分类方法及系统。

背景技术

随着电子技术的不断发展，在手机、相机或者是在监控系统中存在大量的集合图像，因此，对图像集分类问题得到深入研究，并且以集合为单位的图像分类问题越来越受到研究人员们的广泛关注。与传统的基于单幅图像的分类任务不同，基于集合的图像分类任务即图像集分类可以为待分类客体提供更加丰富的特征，并可有效减少数据标注的工作量。然而图像集数据在提供丰富判别信息的同时，其内部也存在表情、动作、角度、目标大小等方面的差异，甚至有的图像存在模糊、退化、遮挡等异常，这为图像集分类带来了诸多挑战。

图像集内部提供了丰富的判别信息，如何有效利用这些信息进行建模表示成为图像集分类的挑战之一。一般情况下，图像集分类模型中采用的样本特征，都是简单处理的原始像素，存在信息冗余，异常值多等缺点，给分类带来了很大的困难。此外，在分类过程中，集合间的距离度量方式成为图像集分类的另一个挑战。一般来说，欧氏空间下的最小距离是图像集常用的度量方式，然而，如果模型不能够很好适应集合内变化复杂的状态，会导致学习到的特征判别能力不够，进而导致分类失败。因此，提取有效的判别特征，选择正确的集合度量方式或者改进现有的分类器是改善图像集分类性能的有效途径。目前，在图像集分类方面已经取得了很多成果，根据建模表示方法的不同，这些成果可以分为两类：参数表示模型和非参数表示模型：

(1)参数模型

基于参数模型的方法通常采用概率分布的方式来表示一个集合，然后测量两个分布之间的相似性。然而，参数模型的局限性在于其需要求解一个困难的参数估计问题，而且如果训练图像集与测试图像集之间的统计相关性较弱，其性能会受到较大的影响。

(2)非参数模型

与基于参数模型的方法不同，基于非参数模型的方法并不依赖训练数据与测试数据之间的统计相关性，而是假设图像集为某空间中的子空间，从而使得对图像集建模有了理论依据。非参数模型往往可以获得较高的准确率，因此受到了研究者的高度关注。但是，非参数模型依赖于数学模型，方法众多，比如线性回归方法，非线性流形方法，仿射子空间方法等等，选择不同的模型需要基于不同的空间进行建模，对模型的鲁棒性带来了极大的挑战。

具体来说，稀疏近似最近邻点方法是仿射子空间方法中有代表性的一种方法，其创造性的把凸包建模为无约束条件的模型，但却给优化带来了极大负担。

对偶线性回归分类方法基于线性回归方法对图像集分类进行了探索，具体来说，其定义了一个虚拟人脸空间用来模拟训练集与测试集之间的距离。然而，其忽略了不相关图像集以及大规模图像集给分类带来的影响。

流形判别分析给出了图像集在非线性流形方面的解决思路，即通过最大化流形之间的距离获取流形之间的判别信息，但是其线性映射函数是基于非线性流形学习到的，从而导致学习的结果是次优的。

非参数模型的方法彼此之间也可以相互借鉴，于是，出现了多模型或多空间融合方法，虽然这些方法在一定程度上适应了图像集复杂的内部结构，但是也相应的增加了模型的复杂度。

深度学习拥有强大的特征学习能力，提取的深度特征用于分类时表现出了超高的判别性。然而深度学习模型需要大量数据来进行模型训练，并且其属于黑匣子模型，可解释性较差。

目前关于深度学习的方法大多用于学习高维特征，然后基于简单的分类器进行分类，这样的方法过于依赖训练特征的参数，如果参数次优，以及分类模型性能差，就可能导致分类错误。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种基于表示学习重构残差分析的图像集分类方法及系统，能够在大幅度减少样本特征维数的同时，增强图像集整体模型的判别性。

为实现上述目的，本发明一方面提供了如下技术方案：

基于表示学习重构残差分析的图像集分类方法，所述方法利用高斯核函数，把获取的图像集数据的低维特征映射到高维空间中，然后构建残差判别分析模型学习一个投影矩阵，使得投影后的图像集特征类内重建残差最小，类间重建残差最大。

所述方法通过提供投影矩阵与编码系数联合学习的优化策略，使学习到的投影矩阵具有更强的泛化性能；

所述优化策略分别基于稀疏表示残差分析方法以及协同表示残差分析方法进行优化；

最后基于学习到的投影矩阵，采用图像集分类方法，有效提取图像集中的判别特征，实现高精度的图像集分类。

所述方法的实现包括内容如下：

步骤1，获取可用于计算机识别与处理的视频帧序列，对其进行预处理后得到图像集数据；

步骤2，将所述图像集数据随机分成训练集与测试集，所述训练集中的数据再次随机平均分配为训练集1与验证集用于训练；

步骤3，在非线性空间中，构建目标损失函数模型，寻找最佳投影的方向，使得类间分散性最大，类内聚合度最小；

步骤4，通过协同表示残差分析与投影矩阵联合优化或者稀疏表示残差分析，与所述投影矩阵联合优化，学习到紧凑的有判别力的投影矩阵；

步骤5，根据所述有判别力的投影矩阵，将所述训练集和测试集数据投影到更具有鉴别力的特征空间；构建分类器模型，使用投影后的测试集验证算法更有效。

所述步骤1的实现步骤包括内容如下：

步骤1.1，对监控系统视频、手机、相机储存的集合图像进行目标检测，得到只包含目标区域的图像，并对目标区域进行对齐，裁剪等操作获取相同大小的目标图像；

步骤1.2，将步骤1.1获得的所述目标图像转为灰度图像，然后对其进行直方图均衡化处理，以减轻光照变化产生的影响，最后将每幅图像都拉伸为列向量；

步骤1.3，将步骤1.2获得的所述列向量进行归一化处理，初步减少异常值的影响。

所述步骤2的实现步骤包括内容如下：

步骤2.1，从所述步骤1获取的图像集数据的每个类中随机抽取若干个集合，用于构建训练集；

步骤2.2，把抽取的训练集中的每个图像集随机均分为新的训练集1和验证集，分别记作Gallery set和Validation set，并分别做如下描述：

对于训练集1(Gallery set)，用

表示，其中：c是图像集类的个数，

是第i个图像集，其包含了

张图像

并且

表示在Galleryset中第i个图像集的第j张图像，m是图像的特征维度；

对于验证集(Validation set)，用

表示，同样也包括c个不同的类，其中n^y表示所有验证图像的数量；

步骤2.3，将所有类中剩余的图像集合，构成测试集，记作Probe Set，用于检验模型的性能；记录其中每个图像集合的类标签，记作Test Label。

所述步骤3的实现步骤包括内容如下：

步骤3.1，为了能够处理复杂的真实环境下获取的图像集样本，在本发明中，引入核映射，有关研究表明，经过核函数映射到高维空间的样本会比原始样本特征更具有区分度；首先引入非线性映射函数φ，用来映射数据到高维特征空间

这时，X_i可以表示为：

所述方法假设图像集位于由全体训练图像张成的仿射子空间中，通过使用凸包AH＝{φ(X_i)α_i|∑kα_i，k＝1}来对图像集进行建模表示，其中

重构残差分析的核心在于验证集合可以用来重构φ(X_i)的凸包，进而凸包之间的距离被称为重构残差。然而，这种重构残差是基于非线性映射后的数据进行学习的，其在特征空间中的样本维度过高，不易计算。一般来说，在高维空间中，更有判别性的特征往往存在于低维的特征空间中。因此，进行低维投影是一种可行的方式；

通过设置判别投影矩阵，将非线性数据投影到低维空间中，使得同类图像集之间的重构残差最小，不同类图像集之间的重构残差最大，其中：

所述同类的图像集重构残差表示为：

其中Y_l是与X_l同类的验证集样本，α_l，β_l是第l类的编码系数；

所述不同类的图像集之间的重构残差表示为：

其中，M是所有不同类重构残差距离的数量；

将以上两个模型综合考虑，我们希望S_w的值尽可能地小，S_b地值尽可能地大，所以有：

其中λ是平衡参数，f₁，f₂都是正则化项，并且：

为了保证学习到一个正交的投影矩阵，加入约束P^TP＝I。

所述步骤4的实现步骤包括内容如下：

步骤4.1，为了求出上述公式中的P，α，β，分别在L₁范数和L₂范数的约束下交替更新非线性投影矩阵P以及α，β，求解过程分成以下两步；

第一步，固定α，β，更新P，得到如下新的优化问题：

将该模型采用迹优化策略进行处理，简化之后得如下优化问题：

其中

称为类内散度，

称为类间散度；

对上式进行求解，得到如下的特征值分解问题：

其中W＝[W₁，...，W_d]，γ是对角矩阵；

第二步，固定P，对α，β更新，通过求解下面的等价模型来获得α，β：

其中：

是第i个类的样本的编码系数向量；

是所有验证集合中第i个类对应的编码系数向量；

更进一步，所述步骤4的实现步骤还包括内容如下：

步骤4.2，固定投影矩阵P，执行协同表示残差分析方法，求解如下问题：

其中A_i＝P^Tφ(X_i)，B＝P^Tφ(Y)；在这个公式中，等价的合并了限制条件，更加有利于编码系数的交替更新，使得计算速度加快；其中：z＝[0；1]，

这里的0和1都是向量；

所述协同表示残差分析采用如下的迭代策略进行求解：

如果α_i是固定的，βⁱ的更新：

其中

如果βⁱ是固定的，α_i的更新：

其中

通过W，α，β的交替更新，直到收敛，求得最优的投影矩阵P；

更进一步，所述步骤4的实现步骤还可以包括内容如下：

步骤4.2，除了协同表示残差分析之外，还可以构建稀疏表示残差分析方法，步骤如下：

首先定义P^Tφ(X_i)＝A_i,P^Tφ(Y)＝B，则稀疏表示残差分析方法被定义为：

目前已经存在很多成熟的算法可以对上述优化问题进行求解，在本发明中，选用ADMM算法来优化，上述模型分成以下两个子问题来迭代求解：

子问题：固定1α，更新β

子问题2：固定β，更新α

通过引入辅助变量ζ₁，子问题1通过迭代计算下面的公式进行求解：

其中

是拉格朗日乘子；

同理，通过引入辅助变量ζ₂，子问题2通过迭代计算下面的公式进行求解：

其中θ₂，θ₃都是拉格朗日乘子。

所述步骤5的实现步骤如下：

步骤5.1，为实现更精确的分类，提供一种图像集分类算法，记作RLbRRA-ISCRC，具体模型下：

其中X＝[X₁，...，X_k，...，X_c]，β＝[β₁；β₂；...；β_k；...；β_c]，Q表示某测试图像集合；

步骤5.2，使用最小二乘法对所述模型进行求解，得到最优系数

和

进而计算测试图像集Q到每个训练图像集的距离e_i，并得到测试集Q的类标签：

所述label为测试图像集合的预测类标签。

本发明另一方面，提供一种基于表示学习重构残差分析的图像集分类系统，所述系统包括：

图像集数据的获取和预处理模块：获取用于计算机识别与处理的集合图像数据，并对其进行预处理；

数据划分模块：把获取的图像集数据每类中所有样本平均分配，一半样本作为训练集，一半样本作为验证集；

模型构建模块：构建基于表示学习重构残差的图像集特征学习模型，包括投影矩阵与样本编码系数联合优化的协同表示残差分析模块或者稀疏表示残差分析模块；

模型训练模块：通过所述协同表示残差分析或者稀疏表示残差分析方法模块，学习获得紧凑的有判别力的投影矩阵P；

样本预测模块：根据已经训练好的投影矩阵P，对新的样本数据进行投影，然后基于图像集分类算法进行预测，输出它的类标签。

所述图像集分类算法模型下：

其中X＝[X₁，...，X_k，...，X_c]，β＝[β₁；β₂；...；β_k；...；β_c]，Q表示某测试图像集合。

与现有技术相比，本发明基于表示学习重构残差分析的图像集分类方法及系统具有以下突出的有益效果：

本发明通过输入来自于视频序列、影集或监控系统的图像集数据；对所述图像集进行数据预处理操作；将获取的图像数据输入到重构残差分析模型进行模型训练，得到最优投影矩阵；基于最优投影矩阵构建新的图像集分类器；将测试图像集输入到分类器中进行分类，得到对应的类别标签。通过本发明的技术方案，能够有效提升图像集分类准确率。本发明可以准确计算出测试图像集的类标签，并且在多数情况下，本发明(即图中的SRbRRA和CRbRRA)都实现了最好的分类结果。

附图说明

图1是本发明所述方法实现的流程图；

图2是本发明所述系统的结构图；

图3是本发明模型训练的示意图；

图4是本发明分类流程图。

图5是根据各算法在公开数据库Honda/UCSD中进行实验的分类准确率的柱状图；

图6是在不同图像集合上学习到的虚拟重构图像，以及它们对应的欧氏距离的示意图。

具体实施方式

下面将结合附图和实施例，对本发明作进一步详细说明。

图1是本发明基于表示学习重构残差分析的图像集分类方法的流程图，包括以下步骤：

步骤1，获取可以用于计算机识别与处理的视频帧序列，对其进行预处理后得到图像集数据。

步骤2，将图像集数据随机分成训练集与测试集，训练集中的数据再次随机平均分配为训练集与验证集用于训练。

步骤3，在非线性空间中，构建目标损失函数模型，寻找最佳投影的方向，使得类间分散性最大，类内聚合度最小。

步骤4，通过协同表示残差分析与投影矩阵联合优化，或者稀疏表示残差分析与投影矩阵联合优化，学习到紧凑的有判别力的投影矩阵。

步骤5，根据投影矩阵，将训练集和测试集数据投影到更具有鉴别力的特征空间。构建分类器模型，使用投影后的测试集验证算法的有效性。

图2是本发明基于表示学习重构残差分析的图像集分类系统的结构图，包括：

图像集的获取和预处理模块：获取可以用于计算机识别与处理的集合图像数据，对其进行预处理。

数据划分模块：把获取的图像集数据每类中所有样本平均分配，一半样本作为训练集，一半样本作为验证集。

模型构建模块：构建基于表示学习重构残差的图像集特征学习模型，具体包括投影矩阵与样本编码系数联合优化的协同表示残差分析或者稀疏表示残差分析模块。

模型训练模块：通过协同表示残差分析以及稀疏表示残差分析方法，学习到紧凑的有判别力的投影矩阵P。

样本预测模块：根据已经训练好的投影矩阵P，对新的样本数据进行投影，然后基于新的分类方法RLbRRA-ISCRC进行预测，输出它的类标签。

所述的图像集的获取和预处理模块包括：

从手机，相机，或者监控系统等存在集合类数据的存储容器内获取原始样本，通过目标检测或者手工标注的方法从原始样本中裁剪出要分类的目标。同一目标的样本图像可以构成多个集合，每个集合由多幅图像构成。样本图像可以是人脸，物体，手势等。

对获取的目标样本进行预处理，一般步骤是调整图像大小，将图像拉伸为列向量，最后归一化或者其他处理。

作为本实施例的一种可能的实现方式，所述的数据划分模块包括：

通过图像集获取和预处理模块得到了可用于计算机识别和处理的数据，从这些数据中的每一类中随机选取多个集合，用于构建训练集，剩下的集合用来构建验证集合，两者结合用来训练紧凑有判别力的投影矩阵P。

其中：

所述的模型构建模块包括：

训练集数据以及验证集合中的原始特征作为重构残差分析模型的输入，使用验证集合来重构训练集的凸包，两者的之间的凸包距离成为重构残差，目标是同类图像集之间的重构残差距离最小，不同类图像集之间的重构残差距离最大。然后初步学习到的投影矩阵P，以及训练集数据和全体验证集数据作为协同表示残差分析模型或者稀疏表示残差分析模型的输入，使用全体验证集的非线性投影的特征数据重构某一训练集的低维凸包模型。输出为最优的非线性投影矩阵。

所述的模型训练模块包括：

协同表示残差分析或者稀疏表示残差分析模块：首先将训练集中的每个图像集合建模为凸包，然后使用验证集对其进行重构。对投影矩阵以及表示系数进行协同或者稀疏的联合优化，直到最终收敛。输出为最优的投影矩阵P。

所述的样本预测模块包括：

根据已经训练好的投影矩阵P，对新的集合样本数据进行投影，然后基于新的分类方法RLbRRA-ISCRC进行分类，输出测试图像集的类标签。

算例：

本发明以视频序列，影集，监控系统等获取的多幅图像构成的集合作为输入，采用本发明公开的一种基于表示学习重构残差分析的图像集分类方法进行图像集数据分类。

本算例的训练流程图如图3所示，输入数据是从视频序列，影集，监控系统等获取的多幅图像构成的集合。为了避免数据本身存在的问题对模型的性能和结果造成影响，第一步要对原始图像进行预处理。首先对图像序列进行归一化，有的图像集合在第一步也进行了直方图均衡化的处理，通过某种算法将其排列为一种图像集集合矩阵。第二步，将图像集随机拆分为训练集与验证集合，第三步，基于Fisher原则与线性判别分析的思想，构建一个目标模型，希望能够学习到一个可以将图像集样本映射到低维嵌入空间的投影矩阵，使得该空间中的图像集样本类内的重构距离最小，类间重构距离最大。第四步，通过协同表示残差分析方法或者稀疏表示残差分析方法进行联合优化，学习到紧凑的有判别力的投影矩阵。

本算例的测试流程图如图4所示，在训练完成后使用测试集合进行测试，即将测试集送入RLbRRA-ISCRC分类器中分类，计算测试集合到训练集合的欧氏距离，选择距离最小的目标作为测试集合的类标签。

训练并构建完成分类器后，使用测试集进行测试，得到最终的分类结果，结果如图5及图6所示：

图5展示了所提供的方法在Honda数据库上的分类准确率；

图6可视化了在测试图像集以及训练图像集上学习到的图像集最优的重构图像(即最优凸包)，并计算了测试图像集到每个训练图像集的欧氏距离。

从实验结果可以看出，本发明可以准确计算出测试图像集的类标签，并且在多数情况下，本发明(即图中的SRbRRA和CRbRRA)都实现了最好的分类结果。

以上所述的实施例，只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.基于表示学习重构残差分析的图像集分类方法，其特征在于，所述方法利用高斯核函数，将获取的图像集数据的低维特征映射到高维空间中，然后通过构建残差判别分析模型学习一个投影矩阵，使得投影后的图像集特征类内重建残差最小，类间重建残差最大；

所述方法通过投影矩阵与编码系数联合学习的优化策略，使学习到的投影矩阵具有更强的泛化性能；

所述优化策略分别基于稀疏表示残差分析方法或协同表示残差分析方法进行优化；

最后基于学习到的投影矩阵，采用图像集分类方法，提取图像集中的判别特征，实现高精度的图像集分类。

2.根据权利要求1所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述方法的实现包括内容如下：

步骤4，通过协同表示残差分析与投影矩阵联合优化或者稀疏表示残差分析，与所述投影矩阵联合优化，学习得到紧凑的有判别力的投影矩阵；

步骤5，根据所述投影矩阵，将所述训练集和测试集数据投影到更具有鉴别力的特征空间；构建分类器模型，使用投影后的测试集验证算法更有效。

3.根据权利要求2所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤1的实现步骤包括内容如下：

步骤1.1，对监控系统视频、手机、相机储存的集合图像进行目标检测，得到只包含目标区域的图像，并对目标区域进行对齐，裁剪操作获取相同大小的目标图像；

4.根据权利要求2所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤2的实现步骤包括内容如下：

步骤2.2，把抽取的训练集中的每个图像集随机均分为新的训练集1和验证集，分别做如下描述：

对于训练集1，用

表示，其中：c是图像集类的个数，

是第i个图像集，其包含了

张图像

并且

表示在Gallery set中第i个图像集的第j张图像，m是图像的特征维度；

对于验证集，用

步骤2.3，将所有类中剩余的图像集合，构成测试集，用于检验模型的性能；记录其中每个图像集合的类标签。

5.根据权利要求2所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤3的实现步骤包括内容如下：

步骤3.1，引入核映射，步骤如下：

首先引入非线性映射函数φ，用来映射数据到高维特征空间

其中，X_i表示为：

假设图像集位于由全体训练图像张成的仿射子空间中，通过使用凸包AH＝{φ(X_i)α_i|∑_kα_i，k＝1}来对图像集进行建模表示，其中

所述同类的图像集重构残差表示为：

所述不同类的图像集之间的重构残差表示为：

其中，M是所有不同类重构残差距离的数量；

将以上两个模型综合考虑：

其中λ是平衡参数，f₁，f₂都是正则化项，并且：

加入约束P^TP＝I。

6.根据权利要求5所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤4的实现步骤包括内容如下：

步骤4.1，为了求出上述公式中的P，α，β，分别在L₁范数和L₂范数的约束下交替更新非线性投影矩阵P以及α，β，求解过程分成以下两步：

第一步，固定α，β，更新P，得到如下新的优化问题：

其中

称为类内散度，

称为类间散度；

对上式进行求解，得到如下的特征值分解问题：

其中W＝[W₁，...，W_d]，γ是对角矩阵；

其中：

是第i个类的样本的编码系数向量；

是所有验证集合中第i个类对应的编码系数向量。

7.根据权利要求6所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤4的实现步骤还包括内容如下：

步骤4.2，固定投影矩阵，执行协同表示残差分析方法，求解如下问题：

其中A_i＝P^Tφ(X_i)，B＝P^Tφ(Y)；其中：

其中公式中的0和1都是向量；

所述协同表示残差分析采用如下的迭代策略进行求解：

如果α_i是固定的，βⁱ的更新：

其中

如果βⁱ是固定的，α_i的更新：

其中

通过W，α，β的交替更新，直到收敛，求得最优的投影矩阵。

8.根据权利要求6所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤4的实现步骤还包括内容如下：

步骤4.2，构建稀疏表示残差分析方法，步骤如下：

首先定义P^Tφ(X_i)＝A_i，P^Tφ(Y)＝B，则稀疏表示残差分析方法被定义为：

选用ADMM算法来优化，上述模型分成以下两个子问题来迭代求解：

子问题：固定1α，更新β

子问题2：固定β，更新α

其中

是拉格朗日乘子；

其中θ₂，θ₃都是拉格朗日乘子。

9.根据权利要求2所述的基于表示学习重构残差分析的图像集分类方法，其特征在于，所述步骤5的实现步骤如下：

步骤5.1，提供一种图像集分类算法，具体模型下：

和

所述label为测试图像集合的预测类标签。

10.根据上述任一权利要求的基于表示学习重构残差分析的图像集分类系统，其特征在于，所述系统包括：

样本预测模块：根据已经训练好的投影矩阵P，对新的样本数据进行投影，然后基于图像集分类算法进行预测，输出它的类标签；

所述图像集分类算法模型下：