CN114898151A

CN114898151A - 一种基于深度学习与支持向量机融合的图像分类方法

Info

Publication number: CN114898151A
Application number: CN202210523986.5A
Authority: CN
Inventors: 谭暑秋; 潘嘉豪
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-12

Abstract

本发明提供一种基于深度学习与支持向量机融合的图像分类方法，包括在深度学习卷积神经网络中嵌入坐标注意力模块作为特征提取网络，卷积神经网络通过对图像进行卷积以及下采样，提取具有代表性的图像特征，坐标注意力模块通过在两个空间方向聚合特征，以极低的计算开销来捕获位置信息和通道关系，实现增强网络的图像特征表示；将特征提取网络输出的增强图像特征经过全连接层进入支持向量机对提取的图像特征进行图像分类，卷积神经网络利用支持向量机的合页损失函数反向传播训练网络模型，使得卷积神经网络中的梯度可以反向传播，进而学习较低级别的特征。本方法将嵌入坐标注意力机制的卷积神经网络与SVM相融合实现图像分类，提高了图像分类精度。

Description

一种基于深度学习与支持向量机融合的图像分类方法

技术领域

本发明涉及图像分类技术领域，具体涉及一种基于深度学习与支持向量机融合的图像分类方法。

背景技术

图像分类任务是计算机视觉的关键任务之一，也是热门研究方向之一，其目标是根据图像中所反映的不同特征信息划分到不同的特征类别。如何对图像进行准确的分类，实现最小的分类误差，成为了图像分类研究的关键问题。提高图像分类精度能够促进图像分类技术的发展，基于统计学习理论的支持向量机(Support Vector Machine，SVM)是一种基于核的机器学习模型，该模型在模式识别、模式分类、计算机视觉等各个领域的分类效果可观。但是传统的SVM难以处理数量庞大的图像数据，并且难以满足实际的分类精度需求，因此传统SVM不适合庞大复杂的图像分类，而深度学习(Deep Learning，DL)相较于SVM在图像特征学习与分类中有着显著优势。深度学习通过神经网络从图像中自主学习特征，提取出抽象高维的特征，并能紧密连接特征与分类器的关系，突破了SVM在此方面难以解决的问题。

卷积神经网络(Convolutional Neural Network，CNN)是深度学习模型中经典而广泛使用的结构。在上世纪90年代，CNN在手写数字为代表的图像分类与识别取得了良好的效果，达到了人眼识别的精度。在2012年，Krizhevsky等人训练的深度CNN在ImageNet大规模视觉识别挑战赛中获得了最佳图像分类效果，证明了CNN在图像分类中的有效性。

随着卷积神经网络在处理图像特征方面逐渐显现优势，越来越多的学者开始将传统分类方法与深度学习方法相结合。SVM与Softmax是计算机视觉中常见的两种分类器，随着卷积神经网络算法的不断优化与改进，两种分类器的使用也越来越频繁。提取数据的分类是深度学习中最重要的方面之一，SVM可以对预先提取的数据进行分类，并将每个数据给出的具体分数作为评估的基础。有研究表明选择线性SVM代替大多数深度学习模型中的Softmax分类器，将SVM用作CNN的最终分类单元，实现了特征提取到分类的完整流程，在流行的深度学习图像分类数据集上取得了L2-SVM优于Softmax的分类辨别能力；有研究表明采用CNN提取数据特征后进一步使用SVM提取特征并实现分类，在一定程度上提取出了比CNN本身更多的特征，获得更好的精度；有研究表明将稀疏自动编码器与SVM结合，对学习到的原始表征进行重组，获得新的表征，提高了数据的分类精度；有研究表明神经网络中所融合的SVM分类器表现出了稳健的分类精度，并验证了所提模型分类的有效性与客观性；同时还有研究表明将SVM与神经网络结合在例如人体生物、医学影像、遥感等图像分类、识别的诸多领域有着相较于原始神经网络模型解决复杂任务的更高性能，并且能够获得显著的结果。但本申请的发明人经过研究分析发现，现有的CNN采用反向传播算法，在图像特征提取时容易陷入局部最小值或局部最优的问题。

发明内容

针对现有传统SVM不适合处理庞大复杂图像分类，而CNN在图像特征提取时容易陷入局部最优的技术问题，本发明提供一种基于深度学习与支持向量机融合的图像分类方法。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于深度学习与支持向量机融合的图像分类方法，包括以下步骤：

S1、在深度学习卷积神经网络中嵌入坐标注意力模块，将嵌入有坐标注意力模块的卷积神经网络作为特征提取网络，所述卷积神经网络通过对图像进行卷积以及下采样，提取具有代表性的图像特征，所述坐标注意力模块通过在两个空间方向聚合特征，以极低的计算开销来捕获位置信息和通道关系，实现增强网络的图像特征表示；

S2、将特征提取网络输出的增强图像特征经过全连接层进入支持向量机，通过支持向量机对提取的图像特征进行图像分类，提高对图像分类的泛化能力，所述卷积神经网络利用支持向量机的合页损失函数反向传播训练网络模型，使得卷积神经网络中的梯度可以反向传播，进而学习较低级别的特征。

与现有技术相比，本发明提供的基于深度学习与支持向量机融合的图像分类方法，将嵌入有坐标力注意模块的卷积神经网络与支持向量机融合来构成CASVM(CoordinateAttention-Support Vector Machine-Convolutional Neural Network)网络模型，该模型利用卷积神经网络和支持向量机的优点来弥补各自的缺点，即卷积神经网络(CNN)采用反向传播算法容易陷入局部最小值，而支持向量机(SVM)可有效地避免陷入局部最优；但若单独使用SVM进行分类需要较为复杂的步骤，而CNN通过对图像进行卷积以及下采样，可以提取极具代表性的图像特征，引入的坐标注意力模块(Coordinate Attention，CA)能增强图像特征有效信息，因此使用CNN提取图像特征后再由具有优异泛化能力的SVM替换CNN的分类层可以使得图像分类的精度进一步提高，通过大量对比实验表明，本方法可以有效提高图像分类的精度，并且该方法与常规卷积神经网络相比，不仅有较小的开销，而且算法复杂度增加也很小。

进一步，所述步骤S1中的坐标注意力模块包括坐标信息嵌入步骤和坐标注意力生成步骤，所述坐标信息嵌入步骤先将给定的X使用尺寸(H,1)和(1,W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道输入特征图进行编码，之后通过两种变换沿着两个空间方向聚合特征，生成一对方向感知注意力特征图，一个方向感知注意力特征图沿着一个空间方向捕捉长期依赖关系，另一个方向感知注意力特征图保留精确的位置信息；所述坐标注意力生成步骤先是级联坐标信息嵌入步骤产生的两个特征图，然后使用1×1的共享卷积进行变换，生成空间信息在水平与垂直方向的中间特征图，接着将该中间特征图切分为两个单独的张量，最后使用两个1×1的卷积分别将两个单独的张量变换为与输入X相同的通道数，使用Sigmoid作为坐标注意力模块的激活函数。

进一步，所述步骤S1中嵌入的坐标注意力模块位于卷积神经网络的中间层或顶层。

进一步，所述步骤S1中嵌入有坐标注意力模块的卷积神经网络适用于ResNet18、AlexNet、LeNet、MobileNet或VGG网络模型。

进一步，所述步骤S1中嵌入有坐标注意力模块的卷积神经网络适用于ResNet18网络模型，所述坐标注意力模块嵌于ResNet18网络模型中每个残差模块的数据归一化与激活函数之间。

进一步，所述步骤S2中卷积神经网络利用支持向量机的合页损失函数为二分类合页损失函数，该二分类合页损失函数采用下式表示：

L_i＝max(0,1-x_iw^Ty_i)

其中，x_i表示给定的一个训练数据集，x_i∈R^D，i∈(1,2…N)，N表示存在的样例个数，D表示每个样例的维度，xw为线性可分支持向量机的预测值，y为正确分类的类别，y_i∈{-1，+1}，w为支持向量机通过样本可学习到的参数。

进一步，所述步骤S2中卷积神经网络利用支持向量机的合页损失函数为多分类合页损失函数，该多分类合页损失函数采用下式表示：

其中，x_i表示给定的一个训练数据集，x_i∈R^D，i∈(1,2…N)，N表示存在的样例个数，D表示每个样例的维度，xw为线性可分支持向量机的预测值，y为正确分类的类别，y_i∈{-1，+1}，w_j表示参数向量w中的第j个分量，

表示L2范式正则化惩罚，超参数λ为惩罚因子，k为训练数据集中k种样本类别，n为k类别中训练数据集的数据量。

进一步，所述惩罚因子λ的值为0.0001。

进一步，所述方法采用的整个网络模型的学习率设定为0.00001，优化器选用Adam。

进一步，所述方法采用的整个网络模型的主要激活函数为ReLU。

附图说明

图1是本发明实施例提供的一种CNN网络结构示意图。

图2是本发明实施例提供的由通道注意力机制结构示意图。

图3是本发明实施例提供的合页损失示意图。

图4是本发明实施例提供的不同损失函数对网络训练的影响示意图。

图5是本发明实施例提供的不同模型与不同数据集对网络训练的影响图。

图6是本发明实施例提供的不同学习率对网络训练的影响示意图。

图7是本发明实施例提供的注意力机制对训练的影响示意图。

图8是本发明实施例提供的位于不同位置的CA层输出的特征图。

图9是本发明实施例提供的一种CASVM网络模型结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

请参考图1至图3所示，本发明提供一种基于深度学习与支持向量机融合的图像分类方法，包括以下步骤：

作为具体实施例，CNN是一种包含卷积计算的前馈神经网络，其中卷积层用于提取高度抽象性和不变性的图像特征。图像分类中常用CNN有LeNet、AlexNet到如今主流的MobileNet和ResNet等，CNN凭借着超强的学习力，在图像算法领域有着卓越的表现。一个简单的CNN网络结构如图1所示，输入一副32×32像素的图像，经过多个卷积核做卷积滤波后产生C1层的6个特征图，然后将这些特征图分别下采样得到S2层特征图，继续进行卷积核下采样得到C3层和S4层。经过以上操作后，可以得到很多小尺寸的特征图，输入传统的神经网络(Neural Network，NN)中最终完成图像分类的任务。

作为具体实施例，由现有SENet(Squeeze-and-Excitation Networks)为代表的通道注意力机制，如图2(a)所示，通过简单压缩2D特征图建立通道间的相互关系，在模型性能上有显著效果，但SENet在位置信息上的处理有所欠缺。CA在SENet的基础上将位置信息通过嵌入通道注意的方式，建立了现有CBAM(Convolutional Block Attention Module)无法建立的长期依赖关系，实现了保留位置信息的功能。通道注意力机制通常是将输入通过2D全局池化的方式转换为单个特征向量，如图2(b)所示，CA的过程是将通道注意力拆分为两个不同方向的一维特征编码，随后将两个方向的特征进行分别编码，产生一对在位置敏感和方向感知有所提升的特征图，通过互补的方式来增强图像中感兴趣目标的表示。SENet的注意力块分为两个步骤：压缩和激励，分别用于全局信息的收集和捕捉每个通道的重要性，压缩操作可通过下式表示为：

而捕捉通道的激励操作可通过下式表示为：

其中，T₁和T₂表示两个可学习的线性变换，用来捕获每个通道的重要性。

与现有SENet类似，本发明采用的坐标注意力模块CA可认为是一个计算单元，同样可分为坐标信息嵌入(Coordinate Information Embedding，CIE)和坐标注意力生成(Coordinate Attention Generation，CAG)两个步骤。CIE是注意力模块中捕捉精确位置信息并建立空间方向长期依赖关系的关键性操作，具体所述坐标信息嵌入步骤先将给定的X使用尺寸(H,1)和(1,W)的池化核分别沿水平坐标方向和垂直坐标方向对每个通道输入特征图进行编码，即全局池化转化为一对一维特征编码的操作，在高宽分别为H与W的第C个通道的输出需满足下式：

之后通过两种变换沿着两个空间方向聚合特征，生成一对方向感知注意力特征图，与SE模块中的压缩操作截然不同，一个方向感知注意力特征图沿着一个空间方向捕捉长期依赖关系，另一个方向感知注意力特征图保留精确的位置信息，有助于在图像分类中有效地去定位感兴趣的对象。

CAG则是利用CIE产生的全局感受野所拥有精准的位置信息作出转换，生成注意力图。CAG需遵循以下三个要求：第一、转换应该尽可能的简单高效；第二、可以利用所捕捉的位置信息精确定位感兴趣的区域；第三、可以高效地捕捉通道之间的关系。为此，所述坐标注意力生成步骤的第一步操作先是级联坐标信息嵌入步骤产生的两个特征图，然后使用1×1的共享卷积进行变换，即F₁，生成空间信息在水平与垂直方向的中间特征图f∈R^C ^/r×(H+W)；其中，r为下采样比例，f可用下式表示为：

f＝δ(F₁([z^h,z^w]))

其中，δ为非线性激活函数。接着坐标注意力生成步骤的第二步操作是将该中间特征图f切分为两个单独的张量f^h∈R^C/r×H和f^W∈R^C/r×W，最后使用两个1×1的卷积F_h和F_w分别将两个单独的张量f^h和f^w变换为与输入X相同的通道数，获得如下式子：

使用Sigmoid作为坐标注意力模块的激活函数，最后CA的最终输出表达式如下式：

作为具体实施例，请参考图3所示，合页损失(Hinge Loss)是机器学习领域一种损失函数，往往被用作SVM的目标函数。标准的合页损失是专注于二分类问题，例如给定一个训练数据集x_i∈R^D，i∈(1,2…N)，y_i∈{-1，+1}。假设存在N个样例，每个样例的维度是D，xw为线性可分SVM的预测值，y为正确分类的类别，w是分类器通过样本可学习到的参数向量，则其合页损失形式即二分类合页损失函数采用下式表示：

L_i＝max(0,1-x_iw^Ty_i)

针对二分类问题的目标函数，当公式x_iw^Ty_i大于1时损失值为0，即此时的损失函数可判定为正确的分类结果且认为函数间隔大于1。

作为具体实施例，由于SVM可以通过对样本到超平面的距离选择一个阈值来过滤距超平面很远距离样本，这些样本往往是容易被正确分类的样本，由此可拓展至多分类SVM的损失函数。因此，针对单个样本的多分类合页损失形式可采用下式表示：

其中，w_j表示参数向量w中的第j个分量。多分类SVM是将正确分类的预测得分比其它不正确分类预测得分至少高出一个阈值。如果其他分类预测得分低于阈值，则计算损失值。由于w的不唯一性，因此引入正则化惩罚来消除w的模糊性，最常用的正则化惩罚是L2范式。因此多分类SVM损失函数包含正则化惩罚，k分类线性SVM的损失函数即多分类合页损失函数可用下式表示为：

表示L2范式正则化惩罚，超参数λ为惩罚因子，k为训练数据集中k种样本类别，n为k类别中训练数据集的数据量。同时，该式可以看作多分类SVM的损失函数由数据损失加上正则化损失，其中合页损失为数据损失，L2范式为正则化损失。由于L2正则化中的惩罚偏向于较小且相对分散的权重向量，因此L2范式可以提高分类器在图像上的泛化性能，并减少过度拟合。

作为具体实施例，正则化损失里的正则化惩罚因子λ，对相似权重处理有着较为重要的影响，通常来说光滑的曲线更能反映真实的情况。当惩罚因子λ设置偏低时，会导致网络训练出现欠拟合，反之容易过拟合。因此该参数的正确设定有助于消除权重的相似模糊性。本发明通过大量的对比实验，设定惩罚因子λ的值为0.0001。

作为具体实施例，为了更好地体现本发明的有益效果，以下将结合相关参数与现有技术进行对比说明：

(1)数据集的影响与选择

本发明采用的Fashion-Mnist、Cifar10、Animal10三种数据集为10分类的图像数据集，选择CIfar100作为100分类的图像数据集。其中，Fashion-Mnist是一个替代MNIST手写数字集的图像数据集，共有60000张28×28分辨率的灰度图像，现已广泛应用于深度学习模型的基准测试中；Cifar10是普适物体识别的数据集，与Fashion-Mnist有着同样数量32×32的RGB彩色图像。Animal10是Kaggle上总量为26000张十个种类的动物图像，该数据集经过人工审查，但也有一些错误标签用于模拟真实情况，另外本发明将该数据集图像统一尺寸为224×224。CIfar100则是100分类的图像数据集，其分辨率为32×32，用于测试模型在多类别问题中的分类性能。

本发明分别使用CNN+SVM、CNN+CA+SVM(即CASVM)、CNN+Softmax、CNN+CA+Softmax四种模型对图像数据集进行分类对比实验，另本发明所有实验网络模型训练次数均为100次，训练大小为样本数N/128。

由于本发明所使用的数据集大小存在32×32与224×224两种尺寸，针对小尺寸数据集本发明改进了两种CNN结构。一种是基于LeNet的改进模型CNN1，首先将卷积核数量增加并将原5×5的卷积核改为3×3，随后加入Dropout，最后将CA嵌入最后的卷积层。另一种则是基于AlexNet的改进模型CNN2，该模型减少了卷积核数量，将CA嵌入最后的卷积层，然后将全连接层的参数调小。另外本发明实验所使用的CNN结构还包括AlexNet以及ResNet18。

(2)损失函数的影响与选择

损失函数是影响网络学习能力的一个重要因素，本发明在卷积神经网络中所使用的损失函数包括SVM损失以及一般神经网络针对Softmax分类器所使用的交叉熵损失(Categorical Crossentropy Loss)。其中SVM的数据损失函数有Hinge Loss，SquaredHinge Loss以及Categorical Hinge Loss；在应用Hinge Loss与Squared Hinge Loss时采用一对多组建多个SVM模型，解决多分类问题。为了较好地呈现实验结果，将上述四种损失函数分别应用于SVM与Softmax进行反向传播。图4为四种不同损失函数对网络训练的影响，且为AlexNet在Cifar10中所训练的结果。从实验中得知由于SVM并不适用于交叉熵损失，因此训练结果的准确率低，损失值高。但合页损失与交叉熵损失相比，无论是否嵌入注意力机制以及Softmax是否使用交叉熵损失，使用SVM分类或者使用CASVM分类的准确率均高于Softmax。根据图4中对比结果可知，在同一结构内合页损失相较于交叉熵损失误差更低，SVM与Softmax之间性能有一定差异。

由于不同数据以及不同网络模型可能也会对最终的分类结果产生影响，为扩大差异，选用平方合页损失函数并在不嵌入注意力机制情况下选用浅层网络CNN1与较深网络ResNet18来比较两种分类器的性能。图5为CNN1与ResNet18两种网络模型在使用Anima10、Cifar100、Cifar10、Fashion-Mnist四种数据所得到的准确率与损失值。

训练CNN1时将所有数据集的图像统一压缩至32×32，且使用Softmax作为分类的网络模型依然使用交叉熵损失。从图5(a)中可知将CNN1与SVM结合的网络模型在小尺寸数据集上准确率提升较小。从图5(b)中可知ResNet18结合SVM在各数据集上都有一定的提升，其中在100分类以及大尺寸的数据集上有较明显的提升。由此可得SVM分类器的损失函数对网络分类性能有一定提升。

(3)学习率的影响与选择

学习率对网络训练的速度和稳定性有较大的影响，学习率过低可能会导致网络收敛速度变慢，而过高可能会导致网络无法收敛。较高的学习率可能有助于提高网络训练速度，但考虑到低学习率可能会减轻训练难度获得理想结果，故将学习率分别设定为0.01、0.001、0.0001、0.00001来做对比实验，如图6所示。该图网络模型为基于CASVM(Squared_hinge)框架下的CNN1结构，使用Fashion-Mnist作为训练与测试的数据集，得出学习率分别为0.01、0.001、0.0001时对网络训练的影响。通过实验易知，学习率为0.01时测试集准确率不稳定，最终导致误差较大。因此本发明取0.001，0.0001，0.00001三种学习率作为最终的模型比较参数。

(4)优化器的影响与选择

优化器用于对网络中的参数进行调节，更新和计算模型训练和模型输出的网络参数。常用的优化器有Adam、SGD、RMSProp等，Adam结合了Momentum和RMSProp的优点，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。相较于SGD与RMSprop，Adam能够约束学习率，使得每一次学习率都有个确定范围，进而使得参数较为平稳。下表1中显示的是不同优化器对训练的影响。该表使用Animal10作为训练数据集，并在基于CASVM(Squared_hinge)框架下分别应用Adam、SGD、RMSProp优化器来对比准确率与损失值。其中每个优化器都分别使用了CNN1、AlexNet、CNN2、ResNet18四种模型进行比较。显然Adam优化器无论是否在准确率还是损失值上都优于另外两种优化器，故本发明选用Adam作为CASVM的主要优化器。

表1不同优化器对训练的影响

(5)注意力机制的影响与选择

注意力机制的作用是提高网络对图像特征的提取。通常认为在相同结构条件下，加入注意力机制的网络会对图像特征的提取更显著。图7为注意力机制在有着不同损失函数的网络模型中对训练的影响。该图选用Animal10作为训练与测试的数据集，并选用AlexNet结构作为网络模型。其中，网络中所采用的损失函数分别为合页损失函数与交叉熵损失函数。最终，在加入CA后模型的准确率有所提升。通过该图易知，在损失函数一致且都加入CA的情况下，使用SVM分类的网络模型，即CASVM网络模型，比使用Softmax分类有着更高的分类准确率。同时，从图7中可知，无论使用SVM分类还是Softmax分类的网络模型，在加入CA后都会使得准确率有所提升，同时Softmax在使用交叉熵损失情况下引入CA会比未引入CA的SVM分类准确率更高。因此加入注意力对图像分类的准确率通常有较高的提升。

(6)激活函数的影响与选择

激活函数是影响网络学习能力和训练速度的一个重要因素。常见的激活函数有Sigmoid，Tanh，ReLU。在CA模块中使用Sigmoid激活函数将上层传播过来的数值压缩到[0,1]之间，即Sigmoid激活函数输出到有限范围，使得CA模块优化稳定，有助于注意力特征的表示，因此选择Sigmoid作为CA中的激活函数。ReLU是最近几年非常受欢迎的激活函数之一，相比Sigmoid和Tanh，ReLU激活函数能有效缓解梯度消失的问题，且能加快整体网络的收敛速度。因此本发明整个网络模型中主要选择ReLU作为主要的激活函数。

实验结果以及有益效果：

在上述参数对比中比较了Anima10、Cifar100、Cifar10、Fashion-Mnist四种数据集与CNN1、AlexNet、CNN2、ResNet18四种网络模型在不同参数之间交叉结合的结果。从结果中易知一般情况下SVM分类器的损失函数对网络分类性能有一定提升，较低的学习率0.00001可使得模型准确率更加平滑，选择更优的优化器Adam可使得模型精度进一步提高。因此本发明最终选定优化器Adam以及学习率0.00001作为整个网络模型CASVM的主要参数。

作为具体实施例，为了更好地对CA模块的特征提取进行分析，不同位置CA层中的图像特征进行对比分析，其细节如图8所示。

图8为CASVM结合CNN1的特征输出图，图8(a)-(d)分别为Anima10、Fashion-Mnist、Cifar10、Cifar100数据集中随机抽取的一张图像经过模型训练所得的特征图。其中模型的卷积层与CA层都包含64个通道，并且图中的卷积层均为网络模型中第一层卷积。通过对位于不同位置的CA层输出的图像特征比较发现不同通道特征的表现各异，CNN结构中不同卷积核的作用存在较大的差异。图8(a)为CA层位于网络首次卷积层(即底层)之后，通过观察可知特征差异并不明显，从此可得出CA层位于CNN1这样的浅层网络中的第一层卷积层之后时，输出的特征仍然较为详细，包含了诸多的基础视觉特征细节信息。并且从8(a)图里的第三行与第四行可得特征图中包含有部分无关联特征，这些特征对图像分类暂无关键性作用，因此CA层不宜位于网络的首次卷积层之后。由图8(b)和8(c)所示，当CA层位于网络的中间层时，CA层使得特征的边缘轮廓信息的表示、全局信息的表示、纹理信息的表示均有所增强。如图8(d)所示，当CA层位置接近顶层时能够弱化无效的特征，强化有效特征，更有利于分类器提升分类精度。因此，所述步骤S1中嵌入的坐标注意力模块可位于卷积神经网络的中间层或顶层进行设置。

表2图像分类准确率结果比较

判断模型图像分类精度最直观的衡量指标是计算其分类准确率与损失值。为了验证CASVM在图像分类中的优势，如表2所示本发明做了八组对比实验，每组实验模型的基本框架包括如下4种：未嵌入CA并基于SVM分类的模型结构，未嵌入CA并基于Softmax分类的模型结构，嵌入CA并基于SVM分类的模型结构即CASVM，嵌入CA并基于Softmax分类的模型结构。选择以上3种框架与CASVM对比，验证在CNN1、AlexNet、CNN2、ResNet18四种不同的CNN模型中，CASVM的分类精度情况。为验证CASVM的泛化能力，选用Fashion-Mnist、Cifar10、Anima10、Cifar100作为训练与测试的数据集，同时对Animal10数据集图像预处理，详细结果见表2。另外该表使用Softmax作为分类的网络模型，且损失函数均为交叉熵损失。

通过表2中可知，未嵌入CA的CNN+SVM结构在八组图像分类指标中分类准确率最优的有5项。其中选用Cifar10数据集获得1项，即选用基于ResNet18的网络模型，学习率为0.0001时，获得精度0.77。在选用Cifar100数据集时获得两项，即选用基于ResNet18的网络模型，学习率分别为0.0001以及0.00001时，均获得0.58的最高分类精度。在选用Animal10数据集时获得两项，即基于CNN2的网络模型，学习率分别为0.0001以及0.00001时，获得0.74以及0.79的最高分类精度。未嵌入CA的CNN+SVM结构在实验中与其它结构获得相同精度的有12项。其中选用Fashion-Mnist数据集获得4项，即选用网络模型为Resnet18模型，学习率分别为0.001与0.00001时，获得精度分别为0.93与0.94；而学习率为0.0001时，获得两项最优相同精度，均为0.94。当选用Cifar10数据集时可获得4项最优相同精度。即选用基于AlexNet的网络模型，在学习率分别为0.001、0.0001、0.00001时，获得精度分别为0.78、0.83、0.83。选用基于ResNet18的网络模型，在学习率为0.001时，获得精度0.74。当选用Cifar100数据集时可获得2项最优相同精度，即选用基于ResNet18的网络模型，在学习率分别为0.0001与0.00001时，获得精度均为0.58。当选用Animal10数据集时可获得1项最优相同精度，即选用基于CNN2的网络模型，在学习率为0.00001时，获得精度0.79。

CNN+SOFTMAX结构在八组图像分类指标中分类准确率精度最优的只有1项。其中，选用Animal10数据集，并基于CNN2的网络模型，学习率为0.0001时，获得0.74的最高分类精度。CNN+SOFTMAX结构在实验中与其他结构获得相同精度的有2项。其中，选用Cifar10数据集获得1项，即采用基于AlexNet的网络模型，学习率为0.001时，获得精度0.78。选用Animal10数据集获得1项，采用基于CNN2的网络模型，学习率为0.0001时，获得精度0.74。

CASVM结构在八组图像分类指标中分类准确率精度最优的有14项。其中选用Cifar10数据集获得1项，即采用基于ResNet18的网络模型，在学习率为0.00001时，获得精度0.79。选用Cifar100数据集获得1项，即选用基于ResNet18的网络模型，在学习率为0.001时，获得精度0.52。选用Animal10数据集获得12项。即选用基于CNN1的网络模型，在学习率分别为0.001与0.00001时，获得精度分别为0.74与0.8，而在学习率为0.0001时，获得2项精度均为0.77。选用基于AlexNet的网络模型，在学习率分别为0.001与0.0001时，获得精度分别为0.66与0.7；在学习率为0.00001时，获得2项精度均0.73。选用基于CNN2的网络模型，在学习率为0.001时，获得精度0.65。选用基于ResNet18的网络模型，在学习率分别为0.001、0.0001、0.00001时，获得精度分别为0.62、0.84、0.92。CASVM结构在实验中与其它结构获得相同精度的有10项，其中选用Fashion-Mnist数据集获得5项，在学习率为0.001时，获得精度0.93。其中，在学习率分别为0.0001与0.00001时，均获得两项最优相同精度，均为0.94。在选用Cifar10数据集时获得5项最优相同精度。其中，选用基于AlexNet的网络模型，在学习率为0.0001时，获得两项最优相同精度，均为0.83；在学习率为0.00001时，获得精度0.83。选用基于ResNet18的网络模型，在学习率为0.001时，获得两项最优相同精度，均为0.74。在选用Animal10数据集时CASVM获得了实验中最多最优精度，且没有与其他结构相同的最优精度。

表2中CASVM的最低损失值基本低于0.2，在小尺寸数据集Fashion-Mnist中损失值更是低于0.05，在大尺寸数据集Animal10的12项最低损失值中，CASVM最低的有7项，而CNN+Softmax结构在Animal10中的损失值处于0.99-2.25区间。因此可得出的结论是CASVM能够使得损失达到更小，使得基于CASVM结构的CNN模型拟合得更好。

综上所述，CNN+SVM在八组图像分类指标中最优的有5项，与其他结构分类精度相同的有12项。CNN+SOFTMAX在八组图像分类中最优的有1项，与其他结构分类精度相同的有2项。而本发明的CASVM在八组图像分类指标中最优的有14项，与其他结构分类精度相同的有10项，其损失值最低的有16项。CASVM在Animal10大尺寸图像数据集中获得了10项最优指标，而在小尺寸数据集中获得5项，由此得出CASVM应用在大尺寸数据可以获得更高的分类精度。虽然CASVM在小尺寸数据集不如在大尺寸数据集中表现优异，但由于CASVM在小尺寸数据集中有10最优相同精度指标，由此可知小尺寸数据集中的CASVM依然可以使得模型分类精度得到提升。从上述结果可知CASVM在浅层网络中会取得较好的分类精度，但在特定环境中与不嵌入CA使用SVM模型的分类精度相当。在基于深层模型与采用大尺寸图像时，CASVM的优势明显。在使用相同CNN模型情况下，结合Softmax分类的分类精度与训练损失值不及SVM分类，更不及CASVM，再次验证了CASVM在一般环境下，相较于使用Softmax分类有着更好的性能及鲁棒性。

作为具体实施例，所述步骤S1中嵌入有坐标注意力模块的卷积神经网络适用于ResNet18网络模型，所述坐标注意力模块嵌于ResNet18网络模型中每个残差模块的数据归一化与激活函数之间，其结构如图9所示。即本实施例中的CASVM由SVM与引入CA的CNN所构成，以ResNet18为例，具体步骤如下：

(1)首先输入C×H×W大小的图像。其中，C代表特征图的通道数，H代表特征图的高度，W代表特征图的宽度。图像在被送入残差模块1之前先进行一次卷积操作，以尽可能保留特征信息；随后在残差模块1中的最后一次数据归一化之后进入坐标注意力模块(CA)中。

(2)特征图进入CA模块后，分别沿水平和垂直方向平均池化，并将特征图的通道数降到原来的1/r倍。随后通过空间维度的联接和1×1的卷积压缩通道，再通过批量归一化以及非线性编码两个方向的空间信息，分割为两个方向的特征图，再使用1×1卷积获得与输入相同的通道数，通过Sigmiod函数归一化权重。

(3)后续残差模块的设计都如残差模块1所示将坐标注意力模块嵌于数据归一化与激活函数之间，有效地放大图像特征之间的差异，进而更好地区分图像类别。结束残差计算后用两个全连接层来表示划分图像的分类类别。

(4)最后通过多分类SVM损失函数来学习整个网络的参数。

作为具体实施例，本CASVM模型中的CNN不局限于ResNet18，还可适用于Alexnet、LeNet、MobileNet、VGG等网络模型。构成CASVM的其他CNN的结构与ResNet18类似，CNN经过一系列卷积操作后进入CA模块，待CA模块增强图像特征后进入全连接层，再通过SVM分类器实现图像分类。

本CASVM模型通过结合嵌入注意力机制的CNN与SVM的优点来弥补各自的缺点，因此该模型的图像分类结果优于单一分类器。CNN属于经验风险最小化模型，当反向传播算法找到分类超平面时，算法可能容易陷入局部最小值。而SVM属于结构风险最小化模型，通过二次规划问题求解能够有效地避免陷入局部最优。因此SVM的泛化能力优于CNN，将SVM替换CNN输出层可使得图像分类准确率进一步提高。

由于卷积神经网络可对图像进行下采样和卷积操作来提取有代表性的图像特征，然后引入注意力机制增强有效信息。将注意力设定在对分类影响更大的图像区域，进而提取出更强的图像特征。相反，手动设计的特征提取方法难度较大且需要较多的技巧，并且所提取的特征可能并不对所有特征普遍有效。因此深度学习方法可以避免大量人工的参与，并且能够提取出比传统方法更显著的特征，这正是深度学习与支持向量机结合的独特优势。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习与支持向量机融合的图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S1中的坐标注意力模块包括坐标信息嵌入步骤和坐标注意力生成步骤，所述坐标信息嵌入步骤先将给定的X使用尺寸(H,1)和(1,W)的池化核沿着水平坐标方向和竖直坐标方向对每个通道输入特征图进行编码，之后通过两种变换沿着两个空间方向聚合特征，生成一对方向感知注意力特征图，一个方向感知注意力特征图沿着一个空间方向捕捉长期依赖关系，另一个方向感知注意力特征图保留精确的位置信息；所述坐标注意力生成步骤先是级联坐标信息嵌入步骤产生的两个特征图，然后使用1×1的共享卷积进行变换，生成空间信息在水平与垂直方向的中间特征图，接着将该中间特征图切分为两个单独的张量，最后使用两个1×1的卷积分别将两个单独的张量变换为与输入X相同的通道数，使用Sigmoid作为坐标注意力模块的激活函数。

3.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S1中嵌入的坐标注意力模块位于卷积神经网络的中间层或顶层。

4.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S1中嵌入有坐标注意力模块的卷积神经网络适用于ResNet18、AlexNet、LeNet、MobileNet或VGG网络模型。

5.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S1中嵌入有坐标注意力模块的卷积神经网络适用于ResNet18网络模型，所述坐标注意力模块嵌于ResNet18网络模型中每个残差模块的数据归一化与激活函数之间。

6.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S2中卷积神经网络利用支持向量机的合页损失函数为二分类合页损失函数，该二分类合页损失函数采用下式表示：

L_i＝max(0,1-x_iw^Ty_i)

其中，x_i表示给定的一个训练数据集，x_i∈R^D，i∈(1,2…N)，N表示存在的样例个数，D表示每个样例的维度，xw为线性可分支持向量机的预测值，y为正确分类的类别，y_i∈{-1，+1}，w为支持向量机通过样本可学习到的参数向量。

7.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述步骤S2中卷积神经网络利用支持向量机的合页损失函数为多分类合页损失函数，该多分类合页损失函数采用下式表示：

8.根据权利要求7所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述惩罚因子λ的值为0.0001。

9.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述方法采用的整个网络模型的学习率设定为0.00001，优化器选用Adam。

10.根据权利要求1所述的基于深度学习与支持向量机融合的图像分类方法，其特征在于，所述方法采用的整个网络模型的主要激活函数为ReLU。