CN116229179A

CN116229179A - 基于宽度学习系统的双松弛图像分类方法

Info

Publication number: CN116229179A
Application number: CN202310240722.3A
Authority: CN
Inventors: 金军委; 朱显政; 李艳婷; 秦振皓; 董雅涵; 萧扬; 梁静; 孙丽君; 侯惠芳; 赵亮
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-06

Abstract

本发明提出了一种基于宽度学习系统的双松弛图像分类方法，其步骤为：首先，获取特征数据集和对应的类标签矩阵，特征数据集通过标准宽度学习网络生成宽度转换特征；其次，引入双松弛技术和图正则化技术，构建基于宽度转换特征的双松弛图像分类优化目标函数；最后，采用迭代优化求解所述双松弛图像分类优化目标函数，获得分类结果，并对分类结果进行评估。本发明将流形正则化技术应用于宽度学习网络中，并采用双松弛方法获取更大的自由度，从而实现对数据几何结构的挖掘，对类内相似性的学习实现了目标的松弛回归。本发明分类精度更高，训练时间花费相对较少，模型灵活性更高等特点，并且双松弛方法的引入使得模型的判别能力更强。

Description

基于宽度学习系统的双松弛图像分类方法

技术领域

本发明属于计算机视觉技术领域，涉及图像识别分类方法，特别是指一种基于宽度学习系统的双松弛图像分类方法。

背景技术

多类识别任务是人工智能领域最关键的应用之一。深度神经网络的处理方法是通过深化网络层数来提高识别精度。然而，过深的网络在训练大量权值参数时需要依赖于反向传播的梯度下降，而消耗大量的计算资源和时间，且很容易陷入局部最优值的陷阱，导致梯度消失，影响算法的效率。因此，Chen等人提出了一种轻量级神经网络-宽度学习网络(BLS)。其扁平化的网络架构避免了在深度上过度增加网络层数所带来的上述问题。与深度神经网络的不同之处在于，BLS不使用深度神经网络的结构，而是在单个隐层神经网络的基础上来进行构建，横向扩充节点数量，增强特征提取能力来获得更好的特征。通过增加神经元，它可以达到甚至超过与深度神经网络类似的性能。

而宽度学习网络(BroadLearningSystem,BLS)作为一种轻量级神经网络，凭借扁平化的网络架构，虽然实现了相较于深度神经网络所需参数更少、训练时间更短的效果，避免了在深度神经网络上过度增加网络层数所带来的上述问题。但宽度学习网络仍存在以下不足：(1)宽度学习网络BLS采用严格的二元标签标注，使不同类之间的距离大小被严格地固定为

回归目标不够灵活，模型的灵活度较低，难以找到最佳分类间隔。(2)宽度学习网络BLS没有很好的利用数据的几何性质，忽略了数据底层结构，从而无法很好的学习类间的相似性。(3)在基于图正则化的BLS中使用单一的变换矩阵限制了模型在捕捉底层几何结构信息时的识别能力。(4)宽度学习网络BLS学习到的投影矩阵不能准确地将图像特征投影到目标空间中，导致鉴别能力较弱。

由于BLS严格的二元标签的限制严重阻碍了模型的灵活度，而且存在着过拟合，图正则化的加入虽然可以探究数据的潜在几何结构信息，增强模型的性能但运用单个转换矩阵来保留数据的局部结构，不够灵活，无法学习到更好的边距。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种基于宽度学习系统的双松弛图像分类方法，为基于图正则化的BLS提供更大的自由度，解决了单个转换矩阵难以同时完成将样本投射到目标空间和扩大类间缩小类内间距的问题，提高了模型在图像分类任务中的性能。

本发明的技术方案是这样实现的：

一种基于宽度学习系统的双松弛图像分类方法，将流形正则化技术应用于宽度学习网络中并采用双松弛方法获取更大的自由度，从而实现对数据几何结构的挖掘，对类内相似性的学习实现了目标的松弛回归；其步骤如下：

步骤一：获取特征数据集和对应的类标签矩阵，特征数据集通过标准宽度学习网络生成宽度转换特征；

步骤二：引入双松弛技术和图正则化技术，构建基于宽度转换特征的双松弛图像分类优化目标函数；

步骤三：采用迭代优化求解所述双松弛图像分类优化目标函数，获得分类结果，并对分类结果进行评估。

所述宽度转换特征的生成方法为：

S1.1、随机生成权重

与偏置/>

利用线性变换映射函数φ_i(·)从输入数据X中产生N_g组随机映射特征，则第i组映射特征为：

将所有映射特征组合起来，得到：

S1.2、将映射特征输入到增强层，在增强层中输入

随机生成权重/>

与偏置

通过激活函数ξ_i＝tanh(·)得到l组增强节点，其第j组增强节点表示为：

将所有增强节点组合起来，得到：

S1.3、组合所有的映射特征和增强节点，得到最终的宽度转换特征A：

所述基于宽度转换特征的双松弛图像分类优化目标函数为：

其中，P是回归指标，A表示训练样本的宽度转特征矩阵，λ₁、λ₂均表示正则化参数，Q为额外引入的变换矩阵，W表示投影矩阵，||·||_F表示矩阵的Frobenius范数，y_i'表示第i'个样本x_i'的真类索引，

表示P的第i'行第y_i'列项，P_i'j'表示P的第i'行第j'列项，a_i'表示转换特征矩阵的第i'行向量，a_j'表示转换特征矩阵的第j'列向量，M_i'j'表示M的第i'行第j'列项，T表示转置。

所述采用迭代优化求解所述双松弛图像分类优化目标函数的方法为：

将基于宽度转换特征的双松弛图像分类优化目标函数改写为目标函数L(W,P,Q,S)：

其中，tr(·)是迹预算符表示矩阵对角元素之和，D表示计算所得的对角矩阵，M表示样本之间的相似性权重；

S3.1、固定W、Q、S，更新求解标签矩阵P：

若W、Q、S固定，学习到的标签矩阵P可以通过下式得以解决：

其中，F'＝AW；

S3.2、固定W，P，Q，更新S：

此时目标函数L(S)为：

将L(S)对S的导数等于0可得：

其中，σ是一个大于0的常数；

S3.3、固定W，P，S，更新Q：

此时目标函数L(Q)为：

将L(Q)对Q的导数等于0可得：

S3.4、固定P，Q，S，更新W：

此时目标函数L(W)为：

将L(W)对W的导数等于0可得：

S3.5、迭代上述过程，得到P、S、Q、W的最优解。

迭代优化求解的终止条件为：

(obj^(t-1)-obj^(t))≤ε₀；

其中，obj^(t-1)表示t-1轮迭代的目标函数值，obj^(t)表示t轮迭代的目标函数值，ε₀为设定值。

与现有技术相比，本发明产生的有益效果为：

1)本发明以宽度学习网络为主体，需要参数少，网络结构更简单，增强特征提取能力，可以用更少的时间达到与深度神经网络相似的性能。

2)本发明采双松弛约束技术，采用两种松弛方案同时融入到基于图的BLS中，一方面，通过直接从数据中学习标签矩阵并施加间隔约束，提供了更高的自由度；另一方面，图正则化项中的两个矩阵不仅分担了转换的责任，而且有助于解决过拟合问题。

3)本发明采用的嵌入式图结构，通过用图正则化约束输出权值来学习更多的判别性信息，进一步增强了分类能力，并且在Frobenius范数约束下，可以进一步对模型施加约束，防止模型过拟合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明(DRBLS)的流程图；

图2为实验中各个数据库中的一些图片样本：(a)Extended YaleB，(b)CMUPIE，(c)AR，(d)COIL100，(e)Fifteen Scene，(f)MNIST，(g)USPS；

图3为t-SNE算法下，数据二维形式可视化处理图：(a)原始数据，(b)IGBLS转换数据，(c)DRBLS转换数据；

图4为实验中不同数据集上对应训练数下矩阵S的可视化情况：(a)ExtendedYaleB with 10 train，(b)COIL100 with 10 train，(c)Fifteen Scene with 10 train，(d)USPS with 100 train；

图5为DRBLS在手写数字数据库上的识别率和目标函数值与迭代过程的曲线：(a)MNIST with 800 train，(b)USPS with 250 train；

图6为手写数字数据库中不同参数设置下的DRBLS识别率：(a)MNIST，(b)USPS。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

标准宽度学习网络算法：宽度学习网络首先将原始特征数据集通过映射函数生成特征节点，扩展特征节点以生成增强节点，最后将所有的特征节点、增强节点通过输出权重共同连接到输出层。X表示原始特征数据集，φ_i(·)表示生成特征节点映射函数，ξ_j(·)表示生成增强节点激活函数，

与/>

表示生成特征节点中随机生成的适当维度的权重与偏置，/>

与/>

表示生成增强节点的中随机生成的适当维度的权重与偏置。

生成宽度转换特征A：随机生成适当维度的权重

与偏置/>

将所有映射特征组合起来，得到：

将映射特征输入到增强层，在增强层中输入

随机生成权重/>

与偏置/>

通过激活函数ξ_j＝tanh(·)得到l组增强节点，其第j组增强节点表示为：/>

将所有增强节点组合起来，得到：

组合所有的映射特征和增强节点，得到最终的宽度转换特征A：

将宽度转换特征A连接到输出中，优化问题具体表示为：

图正则化的引入可以用来更好地学习数据的几何结构，更好地学习类内相似性。通过用图正则化约束输出权值来学习更多的判别性信息，进一步增强了分类能力，GBLS目标函数的一般形式可以描述为：

其中，E_G表示图正则化项，λ₁、λ₂是正则化参数。E_G可以引入不同的方法进行构建。图正则化BLS模型仍然可以通过在标准BLS的基础上建立特征，有效地从大规模数据中提取特征节点和增强节点，并结合生成宽度变换的特征，以确保优秀的特征提取能力，并保持数据有效性。

为了给标签矩阵提供更多的自由度并避免过拟合问题，直接从数据中学习回归目标，同时约束真类和假类之间的间隔。因此，将BLS的目标函数修改为：

其中，P表示学习到的回归目标，y_i'表示第i'个样本x_i'的真类索引，

表示P的第i'行第y_i'列项，P_i'j'表示P的第i'行第j'列项。引入约束是为了保证真类和假类之间的距离大于固定常数1。因此，满足了模型的判别能力。

而且，式(6)中的投影矩阵W有两个重要的职责。第一个是它应该将样本投影到目标空间。另一个是扩大不同类之间的间隔并且使同类样本之间在目标空间的距离更近。然而，单个变换矩阵很难同时执行这两项任务。因此，引入了一个额外的变换矩阵Q来分担所拥有的W的部分责任，得到：

M_i'j'定义为：

其中，σ表示热核参数，a_i'和a_j'作为向量表示转换特征矩阵的第i'行和j'列。显而易见，两个变换矩阵W和Q的结构应该是相似的。因此，引入矩阵

来捕捉这样一个相似的结构，并定义W＝QS。随后，DRBLS的新目标函数被推导为：/>

显然，如果最优S是单位矩阵，本发明提出的方法就毫无意义。但实际上S的值非常大，这表明了引入另一个变换矩阵的必要性。更进一步，在式(9)中，可以发现第一项和第三项都是凸的。而第二项的凸性可以通过以下两步轻松证明。

1)||W^Ta_i'-Q^Ta_j'||²的第k项即(W^Ta_i'k-Q^Ta_j'k)²是凸的，可通过证明它的Hessian矩阵是半正定的来证明。

2)由于M_i'j'≥0，这样的项也是凸的。因此，式(9)是凸的。

在大多数情况下，图正则化技术可以探索数据的潜在几何结构信息，并增强模型的性能，但基于图的模型，通常使用单个转换矩阵来保留数据的局部结构，但这不够灵活，无法学习到更好的边距。并且标准的BLS使用传统的0-1标签矩阵，对模型的自由度造成了较大限制，而采用标签松弛策略，虽然可以使得回归标矩阵从由0和1组成的矩阵得以改变，取得不错的效果，但这样的策略仍然对目标空间提供了限制，严重降低识别结果。此外，由于方法追求更大的边界，导致了过度拟合问题的存在。因此，采用双松弛的策略来增强模型的灵活性，同时控制类之间的间隔，提供更多的自由度。

双松弛约束从两方面进行，一是直接从数据中学习样本的标签，并约束不同类别之间的距离，二是在图嵌入过程中引入额外的矩阵Q，分担W的部分责任，使得模型自由度得以得到极大的提升，且利于学习到更为合适的间隔，提高了模型的识别能力。目标函数为：

本发明提出了一种基于宽度学习系统的双松弛图像分类方法，利用上述图正则化约束与双松弛化技术相融合，有效提高分类效果；如图1所示，该方法具体步骤包括：

其中，tr(·)是迹预算符表示矩阵对角元素之和，D表示对角矩阵，M表示样本间的相似性权重；D_i'i'是矩阵D的第i'行第i'列的元素，D_i'i'＝∑_i'M_i'j'，优化求解过程具体如下：

S3.1、固定W、Q、S，更新求解标签矩阵P：

若W、Q、S固定，学习到的标签矩阵P可以通过下式得以解决：

其中，F'＝AW；由于式(12)是一个约束二次规划问题，可以分解为n个独立的子问题。也就是说，式(12)可以逐行求解。如果第i'个样本x_i'的真实类别的索引是t，有：

其中，

引入新变量/>

来求解式(13)，其第j'项可以计算为：

其中r_j′≤0表示类i′和类t之间的边界约束满足，r_j′＞0表示类i′和类t之间的边界约束违反。进一步，与回归结果F_i't得到，P_i't＝F_i't+η，其中η表示可以优化的参数。而对于假类，式(14)可以逐个分解为如下形式：

式(15)是一个单变量约束二次规划问题，很容易求解。因此，最优结果为：P_i′j′＝F_i′j′+min(η-r_j′，0)，对于每个P_i′j′有：

根据式(16)，向量p^i′在式(13)中可以通过参数η重新定义，我们将式(14)重写为：

可以通过推导它的一阶导数f′(η)来解决它，并设置f′(η)＝0。因此，最优解为：

/>

其中Π(·)表示指示符。若f′(r_j′)＞0满足，则Π(·)＝1，否则Π(·)＝0。然后，算法1列出了获取最优行向量p^i′的详细步骤。而式(12)中的最优结果P可以通过组合p^i′得到。

S3.2、固定W，P，Q，更新S：

如果变量W、P、Q给定，此时目标函数L(S)为：

将L(S)对S的导数等于0可得：

其中，σ是一个大于0的小常数，来保确解的稳定性。

S3.3、固定W，P，S，更新Q：

固定W、P和S，此时目标函数L(Q)为：

将L(Q)对Q的导数等于0可得：

S3.4、固定P，Q，S，更新W：

固定P，Q，S，此时目标函数L(W)为：

将L(W)对W的导数等于0可得：

S3.5、迭代上述过程，直至达到模型收敛的终止条件，得到P、S、Q、W的最优解。

迭代优化求解的终止条件为：

(obj^(t-1)-obj^(t))≤ε₀ (25)

上述基于宽度学习系统的双松弛图像分类方法算法具体如下：

(1)输入原始特征X和对应的标签Y，每组映射特征N中的特征数量S，映射特征的组数N_g，增强节点数N_e，参数λ₁和λ₂。

(2)随机生成

(3)计算

然后组合所有特征节点得/>

(4)计算H^k＝ξ(ZW_e+β_e)，宽度特征表示为

(5)初始化Q＝W＝(AA^T)^-1 (AY^T)。

(6)根据式(8)计算M和D。

(7)当不收敛时进行下述操作。

(8)根据算法1逐行更新P。

(9)根据式(20)更新S。

(10)根据式(22))更新Q。

(11)根据式(24)更新W。

(12)结束输出投影矩阵W。

实验

将本发明提供的方法在不同的识别任务上进行多个实验，与SVM、DLSR、ReLSR、RLR和BLS等经典方法以及LRDLSR、IDLSR、FDLSR、DRC、RBD-DPL、IGBLS、DGBLS、SN-TSL和MDBLS等常用的分类任务比较方法进行比较，以验证DRBLS方法的有效性。人脸识别任务使用ExtendedYaleB数据库、CMUPIE数据库和AR数据库，物体识别任务使用COIL100数据库，场景识别任务使用FifteenScene数据库，手写体识别任务使用MNIST数据库和USPS数据库。所涉及数据库的统计数据列于表2中。

表2 所用数据库汇总介绍

对本实验中所采用的数据库和实验设置的细节，不同方法在不同识别任务上的实验结果，实验结果分析、收敛性研究、参数敏感性等进行介绍。实验在Intel-i5-12500H2.50GHzCPU,16GB内存的笔记本电脑上进行，平台为MATLAB2018a。

图2为部分数据库的实例(a)为ExtendedYaleB数据库的部分图像，(b)为CMUPIE数据可的部分图像，(c)为AR数据集的部分图像，(d)为COLL100数据集的部分图像，(e)为FifteenScene数据集的部分图像，(f)为MNIST数据集的部分图像，(g)为USPS数据集的部分图像。

表3:在ExtendedYaleB数据库上的实验结果(AVER±STD％)

表4:在CMUPIE数据库上的实验结果(AVER±STD％)

表5:AR数据库上的实验结果(AVER±STD％)

表6:COIL100数据库上的实验结果(AVER±STD％)

表7:FifteenScene数据库上的实验结果(AVER±STD％)

表8:IGBLS和DRBLS在MNIST数据库上的实验结果

表9:IGBLS和DRBLS在USPS数据库上的实验结果

表2到表7体现了上述算法在3种人脸数据集以及场景类别数据集、物体识别数据集、手写数字数据集中的优良表现。

除SVM、BLS和DRC外，其余的比较方法均采用了软标注方法。这些方法取得了有竞争力的结果，特别是在人脸识别任务上，体现了放松标记策略的有效性。然而，与采用ε拖拽技术的方法相比，DRBLS能够取得更好的性能的一个原因是引入了更灵活的标记放松机制，附加的约束项也可以保证适当的间隔，很好地处理过拟合问题。与目前最流行的基于BLS的方法DGBLS和MDBLS相比，IGBLS可以获得较好的性能，其性能低于2％左右。在物体和场景识别任务的实验中，这一差距更小，证明了图嵌入方法可以帮助提高模型的识别能力。DRBLS在图嵌入过程中加入了一个新的矩阵Q，分担投影矩阵W的部分职责。该矩阵为模型提供了更大的自由度，以帮助模型学习更好的边界。这也是DRBLS能够获得最佳结果的另一个原因。图3和图4也验证了在图嵌入过程中引入另一个变换矩阵来学习更好的边距是必要的。因此，DRBLS算法在图像分类任务中是有效的，并能取得优异的性能。

其中，本发明方法(DRBLS)在三个人脸数据集-ExtendedYaleB数据集(表3)、CMUPIE数据集(表4)、AR数据集(表5)上的实验结果表明DRBLS在大多数情况下都能达到最佳的分类精度，尤其表现在训练数据数量较少的情况下。而由在COIL20物体识别数据集(表6)上的训练结果显示可以发现，在大多数情况DRBLS也都能达到最佳的分类精度，但随着训练样本数量的增加，这个数据库上的识别准确率很难有很大的提升。但除了训练数为25时，其表现也为良好，表明本发明方法是合格的，DRBLS仍然可以达到最好的性能训练数据规模较小的物体识别任务。而通过在场景识别任务中流行且具有代表性的数据库FifteenScene数据库(表7)上的实验结果可以发现，当训练数为10和20时，DRBLS可以获得最好的分类结果。在其他情况下，虽然MDBLS是最有效的方法，但DRBLS仍然可以达到令人印象深刻的性能，差距小于0.1％，这也体现了此方法在训练样本较少的情况下具有较强的识别能力。

表8和表9反映的是手写数字识别的结果来探究DRBLS与IGBLS相比所取得的性能改善。表8和表9详细展示了不同训练样本数量下在两个手写数字数据库MNIST和USPS的实验结果，包括参数设置、训练时间和识别准确率。对于网络参数，这两种方法的总节点数几乎没有差异。作为对于正则化参数，DRBLS中的参数相对大于IGBLS中的参数，说明了两个设计项的重要性。从训练时间上看，DRBLS的训练时间略长于IGBLS。其原因有两个：一是，IGBLS没有迭代过程，只需一次伪逆求解即可获得最优解；二是，DRBLS是一个迭代过程，求解Sylvester方程是一个相对耗时的过程；但是它们的训练时间仍然保持在相同的数量级，这表明所设计的优化算法在DRBLS中是高效的。而在识别精度方面，DRBLS优于IGBLS，尤其是在训练样本较少的情况下。因此，通过以上分析，可以得出结论：DRBLS相对于IGBLS已经取得了很大的改进，DRBLS的效率和有效性也得到了成功的验证。

图3展示了原始数据和采用t-SNE算法对IGBLS和DRBLS的原始数据和转换后的数据进行了二维可视化，也直观地表现了DRBLS令人印象深刻的性能，实验采用ExtendedYaleB数据库(含15列)，并对所有样本进行可视化。如图3所示，我们可以看到原始数据的布局是非常混乱和不规则的。这些数据经过IGBLS的处理和转换后变得可分离。然而，一些类别的边界仍然非常模糊。从图3(c)可以看出，DRBLS变换后的数据是高度可分的。与IGBLS转换的数据相比，共享相同标签的数据距离更近，不同类别之间的间隔更大，表明将两种放松思想融合到基于图的BLS中是有效的。

DRBLS通过直接从数据中学习样本标签，并约束不同类别之间的距离并在图嵌入过程中引入额外的矩阵Q，分担W的部分责任来实现双松弛，通过引入新型的矩阵S和

可以用S成功捕获两个矩阵W和Q之间的相似结构。而图4进一步展示了在几个数据库上的实验中对S进行可视化，可以直观地发现，S不是单位矩阵而是块对角矩阵，表明矩阵W和Q中元素之间的对应关系存在。因此，可以确信属于同一类的样本可以因为这样的对应关系而尽可能地接近。换句话说，W的部分责任可以由Q分担，从而学习到更好的边界，说明这样一个相似的结构的有效性毋庸置疑。

图5为在两个手写数字数据库(MNIST、USPS)上DRBLS的识别率和目标函数值与迭代过程的曲线。显然，DRBLS具有很好的收敛性。算法可以在不超过30次甚至更少的迭代中收敛到一个稳定值。识别率也可以随着迭代次数增加逐渐提高直到稳定。因此，此方法的有效性显而易见。

图6表示在两个数据库(MNIST和USPS)上进行各种参数设置DRBLS的识别率，在本次实验中，可以注意到，有三个网络参数(N_s，N_g，N_e)和两个正则化参数(λ₁，λ₂)需要调整。但由于网络参数可以根据网格搜索来决定，并且很难论证参数的敏感性，因此要着重考虑的是正则化参数，实验过程中参数的候选集固定为{10¹，...，10^-7，10^-8}。可以观察到在取得最佳结果时，这两个正则化参数是在一个较大的值区域内选择的，体现了两个正则化项的重要性。两个参数的合理候选集为λ₁∈[10^-5，10^-1]，λ₂∈[10^-5，10¹]。换句话说，λ₂的候选集略大于λ₁其值在大多数情况下也大于λ₁，表明第二正则化项在识别过程中起着更重要的作用，由此可知为图嵌入过程提供更多的自由度是有效的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。