CN114005002A

CN114005002A - 基于核操作的核全连接神经网络的图像识别方法

Info

Publication number: CN114005002A
Application number: CN202111417368.4A
Authority: CN
Inventors: 韩志; 刘柏辰; 贾慧迪; 唐延东
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-01

Abstract

本发明涉及一致基于核操作的核全连接神经网络的图像识别方法。对于图像分类任务来说，当网络的深度和宽度足够和合适时，分类精度达到饱和。即使增加深度和宽度，饱和度精度也不会提高。本发明中通过提高深度卷积神经网络的非线性能力突破饱和精度。在深度卷积神经网络中，前一层更倾向于提取特征，后一层更倾向于对特征进行分类。因此，我们提高了深度卷积神经网络的最后一层全连接层的非线性能力。最后一层采用核操作将特征隐式映射到高维空间，使网络具有更好的线性可分性。实验结果表明，与基准网络相比，基于核操作的核全连接神经网络具有更高的分类精度和更快的收敛速度。

Description

基于核操作的核全连接神经网络的图像识别方法

技术领域

本发明涉及图像处理，具体说是一种基于核操作的核全连接神经网络的图像识别方法。

背景技术

近年来，深度卷积神经网络在图像分类、目标检测、语义分割、视频标题等一系列计算机视觉任务中取得了巨大的成功。这些任务得益于非常深入的模型。当网络的深度和宽度足够和合适时，深度卷积神经网络的性能趋于饱和，在合适的深度模型中增加更多的层会导致更高的训练误差。ResNet比相应的基线网络更深入，分类精度更高。在CIFAR10数据集上，在深度为110的深度上，ResNet的精度达到了93.57％。然而,深度为1202的ResNet在CIFAR10上的分类准确率仅为92.07％。WRN是ResNet增加宽度的变形，并优于常用的窄而深的ResNet。而WRN在CIFAR10上的分类精度表明，WRN在一定的宽度上达到了最佳的分类精度，保持宽度的增加会导致精度下降。例如，WRN 28-12和WRN 28-10具有相同的深度，WRN28-12的宽度是WRN 28-10的1.44倍。但WRN 28-12的准确率95.67％略低于WRN 28-10的95.83％。这些ResNet在CIFAR10上的实验结果表明，深度卷积神经网络的广度和深度并不一定是最好的。

更深更广的深度卷积神经网络提取了更多的特征却不能带来更好的分类精度的一个原因是：深度卷积神经网络获得更好的性能不仅取决于特征提取的能力，还取决于特征利用的能力。假设一个非常深和宽的深度卷积神经网络提取了各种特征，但深度卷积神经网络可能不能充分利用这些特征，结果就不能达到令人满意的性能。深度学习模型被批评为黑盒，因为深度学习的机制研究较差，很难进行调整。此外，深度卷积神经网络有时非常复杂，很难收敛。当训练数据非常复杂时，即使网络深度和宽度很大，深度卷积神经网络的性能也很差。由于上述缺点，我们不确定提取的特征是否得到充分利用。

对于图像分类任务来说，当网络的深度和宽度足够和合适时，分类精度达到饱和。即使增加深度和宽度，饱和度精度也不会提高。我们发现，如果能提高深度卷积神经网络的非线性能力，可以突破饱和精度，更好的对图像进行识别。

发明内容

针对上述不足，本发明的目的在于通过引入核操作来增强深度卷积神经网络的非线性能力。核函数方法可以隐式地将数据从原始特征空间映射到高维特征空间，在高维特征空间中数据具有更高的线性可分概率。本发明将核方法与深度卷积神经网络相结合有利于提高网络的非线性能力。

为实现上述目的本发明所采用的技术方案是：

基于核操作的核全连接神经网络的图像识别方法，通过对深度神经网络的全连接层添加核操作，提升网络的非线性能力、提高网络的训练效率、加快网络收敛速度，包括以下步骤：

S1、建立基于核操作的核全连接神经网络，包括三个模块：a.基于核操作的核全连接神经网络的卷积层模块，用于从浅到深分层级提取到分布式特征；b.基于核操作的全连接层模块，用于提取高维特征空间中的高级特征，以获得更好的网络非线性能力；c.分类器模块，用于输出图像识别分类标签结果；

S2、建立带有类别标签的数据集并预处理；

S3、设置网络参数，将数据集数据作为输入，采用优化器对网络进行训练，获取优化的基于核操作的核全连接神经网络；

S4、采集待识别图像并预处理，输入优化的基于核操作的核全连接神经网络，获取分类识别结果。

所述深度神经网络采用ResNet或DenseNet或GoogLeNet网络。

所述基于核操作的核全连接神经网络的卷积层模块包括用于从浅到深分层级提取到分布式特征的输入层、卷积层、激活函数、池化层。

所述多项式核函数或高斯核函数。

核函数作用于深度卷积神经网络最后一层全连接层的输入和权重，实现输入和权重间的非线性特征匹配。

所述分类器采用SoftMax分类器。

所述预处理为将数据集的图像数据进行归一化、整形为一维图像像素列向量。

所述优化器为随机梯度下降优化器或Adam优化器。

所述需要设置的网络参数包括：批量大小、动量、动量衰减因子、训练网络轮次数、初始学习率。

本发明具有以下有益效果及优点：

1.核全连接神经网络通过在最后一层全连接层采用核方法将高层全局特征映射到高维特征空间。

2.与基准网络相比，核全连接神经网络的非线性能力有所增加，能更准确的作出图像识别。

3.核全连接层很容易被植入到各种深度神经网络中，并取得更好的识别分类精度和更快的收敛速度，如ResNet、DenseNet和GoogLeNet。

附图说明

图1是本发明方法流程图；

图2是MNIST数据集的训练数据示例；

图3是MNIST数据集单条数据经标准化处理后的像素值；

图4是CIFAR10数据集的训练数据示例

图5是不同宽度、深度的核全连接层的效果对比；

图6是MNIST数据集上的收敛速度对比；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明通过引入核操作来增强深度卷积神经网络的非线性能力。核函数方法可以隐式地将数据从原始特征空间映射到高维特征空间，在高维特征空间中数据具有更高的线性可分概率。我们发现将核方法与深度卷积神经网络相结合有利于提高网络的非线性能力。在深度卷积神经网络中，前一层更倾向于提取特征，后一层更倾向于对特征进行分类。当深度卷积神经网络从浅到深增长时，隐藏层分层级提取到分布式特征。值得一提的是，最后一层全连接层不仅仅在提取高级特征，还作为分类器将学习到的分布式特征表示映射到特征空间。与卷积层提取到的空间信息较弱的局部特征相比，最后一层全连接层提取的特征是包含空间信息的全局特征。因此，本发明在最后一层全连接层采用核方法提取高维特征空间中的高级特征，以获得更好的网络非线性能力。我们将核函数应用于最后一层全连接层的输入特征和权值上，该核函数可以有不同的形式(多项式核或高斯核)。在此基础上，我们将其命名为核全连接层，并提出了核全连接神经网络。

机器学习方法和深度学习方法各有优势。机器学习方法是成熟的、透明的，并针对性能和能效进行了优化；而深度学习方法提供了更高的准确性和通用性，但代价是大量的计算资源。两者的结合对两者都有好处。一方面，深度学习方法自适应地提取不同层次的特征；另一方面，核方法具有显式的分类能力，可以加快分类过程。

1.核全连接层

1.1核全连接层的结构

从早期的单层感知器到多层感知器，所有的隐层都是全连接层。近年来，全连接层仍被广泛应用于最流行的深度神经网络，如ResNet和DenseNet。它们主要用作网络末端的分类器。在深度神经网络中，最后一层全连接层整合特征，并将学习到的分布式特征表示映射到样本空间作为分类器。输入为x、输出为f(x)的全连接层公式为：

f(x)＝w^T·x+b (1)

式中(·)为矩阵乘法运算，w为全连通层参数，x为全连通层输入，b为偏置。式(1)可视为参数w与输入x之间的线性加权。本发明通过对全连接层应用核操作，发明了核全连接层。核全连接层的输出g(x)定义为：

g(x)＝K(w^T,x)+b (2)

其中K(w^T,x)为核操作。

1.2核函数

我们选择不同的核来生成不同的核全连接层，如多项式核：

K(w,x)＝(w^T·x+c)^d (3)

其中c是平衡高阶项比例的平衡因子，d是多项式核的阶数，那么式(2)变为：

g(x)＝(w^T·x+c)^d+b (4)

d越大，非线性程度越高。c是一个非负参数，用来决定不同阶项的比例。c越小，高次项所占比例越大。如果c＝0，则没有线性项，公式(2)就变成：

g(x)＝(w^T·x)^d+b (5)

如果c非常大，非线性项的贡献就很小。

除了多项式核，也可以选择高斯核：

K(w,x)＝exp(-γ||w-x||²) (6)

其中γ为控制决策边界平滑性的超参数，则式(2)变为：

g(x)＝exp(-γ||w-x||²)+b (7)

1.3模型性能

全连接层通过特征匹配来实现分类能力。根据公式(1)，全连接层的第i个元素f_i(x)计算为：

其中<·,·>是两个向量的内积，

是w的第i列，b_i是b的第i个元素，它度量了输入x和参数w之间的相似性，因为

计算了输入x和参数w向量夹角的余弦值。

根据公式(2)，核全连接层输出的第i个元素为：

例如使用阶数为2的多项式核，公式(10)变为：

式中c_i为平衡向量c的第i个元素。除了完成全连接层的线性特征匹配外，核全连接层还通过核操作实现了非线性特征匹配。全局特征集成是全连接层的核心优势，可以大大降低特征定位对分类的影响。根据公式(2)，核全连接层整合了所有的输入信息，保留了这一优势。

1.4继承兼容性

全连接层在大多数深度神经网络中得到了广泛的应用，并在许多框架中都有类，如tensorflow和pytorch。为了与现有的工作兼容，我们实现了一个全连接层类的库，它继承了现有的全连接层类。除了全连接层类中需要设置的参数，如输入特征图的维度、输出特征图的维度、偏置项等，用户额外只需要设置内核参数。由公式(2)可知，核全连接层除了内核参数外，不再引入其他参数。以2次多项式核为例，只引入c作为额外参数。如果我们将c设置为固定值，核全连接层将不再引入额外参数。此外，继承层的运行效率与原始全连接层相似。

2.训练数据集：我们采用MNIST数据集和CIFAR数据集对网络进行端到端的训练。

MNIST数据集是美国国家标准与技术研究院收集整理的大型手写数字数据库,包含60,000个示例的训练集以及10,000个示例的测试集，部分训练数据示例如图2所示。没有标准化处理图片的像素值是在0到255之间的，经过标准化处理后数据的最小值是0,最大值接近1。每条数据是一个长度为784的一维矩阵,为手写图片的784个像素点，如图3所示。

CIFAR数据集由Alex Krizhevsky，Vinod Nair和Geoffrey Hinton收集整理自8000万张微型图像数据集，其中CIFAR数据集又根据所涉及的分类对象数量，可分为CIFAR-10和CIFAR-100。该数据集主要用于深度学习的图像分类，目前已被广泛应用。如图4所示，CIFAR-10数据集包含了飞机、汽车、鸟等10个类别物体的32×32大小的彩色图片，每个类别有6000张图，计算可知，整个数据集一共有6000×10＝60000张图。其中，汽车和卡车尽管都属于车类，但二者在分类时属于不同的类，不存在重叠。汽车主要包括轿车、越野车之类的车；而卡车则只包含大卡车，皮卡车这样的车则不属于上述任意类别。数据集划分了训练集和测试集。训练集一共50000张图，每10000张作为一个批次，每个批次包含了来自10个类别的1000张图片。训练集的批次是随机抽取的各个类中的图像，因此存在某一个类的图像数量多于另一个类的图像数量。测试集一共10000张图，也包含了随机从每个类中抽取的1000张图。Cifar-100数据集就像CIFAR-10，只不过它有100个类，每个类包含600张图像。每个类有500个训练图像和100个测试图像。Cifar-100中的100个类被分成20个超类。每个图像都带有一个“罚”标签(它所属的类)和一个“粗”标签(它所属的超类)。在CIFAR-100中，100个类别可以分类父类和子类。一共有20个父类，其下又分子类。

3.实验过程

3.1实验环境配置

下面的所有实验都是在Nvidia Titan XP的单块显卡上进行的，软件环境为Ubuntu16.04，深度学习框架Pytorch版本为1.0，CUDA版本为10.1，cuDNN版本为7。为了公平比较，我们只是将基准网络的最后一层全连接层替换为核全连接层，其他所有因素保持不变。

3.2网络的宽度与深度

我们评估深度和宽度对网络性能的影响。深度神经网络的深度和宽度是至关重要的。在适当深度的深度网络模型中添加更多的层会导致更高的训练误差，引发模型退化问题。退化问题表明，并非所有的深度神经网络都同样容易优化。此外，我们发现深度神经网络的宽度也很重要。因此，寻找合适的网络配置可能会提高深度神经网络的性能。

我们为核全连接神经网络找到合适的网络结构。我们在CIFAR10数据集上进行评估并选择ResNet作为基准网络，因为ResNet在一定程度上成功地解决了退化问题，并且在很大的深度范围内具有不同的架构。ResNet为ImageNet数据集设计了瓶颈块，我们针对CIFAR数据集设计了一系列深度为10、18、34、50、110的仅使用基本块的ResNet。此外，我们为每个不同的深度搜索最佳宽度。对于所有网络结构，我们将最后一个全连接层替换为核全连接层。我们采用随机梯度下降优化器进行训练，批量大小为64，动量为0.9，动量衰减因子为5×10^-4。我们训练网络200个轮次，初始学习率为0.01，学习率在100,150个轮次时衰减为原来学习率的1/10。

如图5所示，在不同的深度下，网络性能都随着宽度的增加先上升后下降。深度由10上升到18，网络的最佳性能提升，但深度从18逐渐增加至110，网络的性能逐渐下降。综上所述，适当的网络配置对网络性能至关重要，对于ResNet我们推荐深度18和宽度128、256、512、1024的网络架构。

3.3植入代表性网络

我们将我们的核全连接层应用于一些代表性的深度神经网络架构，如LeNet-5、ResNet、DenseNet、GoogLeNet。我们选择核卷积神经网络作为比较，它在这些体系结构上有很大的改进。我们使用MNIST、CIFAR10和CIFAR100数据集进行评估。

对于ResNet实验系列的网络，包括ResNet,核卷积ResNet和核全连接ResNet，我们训练网络200个轮次，初始学习率为0.01，学习率在100,150个轮次时衰减为原学习率的1/10。我们采用随机梯度下降优化器进行训练，批量大小为64，动量为0.9，动量衰减为5×10^-4。对于GoogLeNet实验系列的网络,我们训练GoogLeNet和核卷积GoogLeNet网络200个轮次,初始学习率为0.1。对于核全连接GoogLeNet，我们选择初始学习率为0.01，因为0.1的初始学习速率会导致网络无法训练收敛。学习率在75,125，150轮次时衰减为原学习率的1/10，优化器设置与ResNet的实验相同。对于DenseNet实验系列的网络，我们以0.1的初始学习率训练DenseNet和核卷积DenseNet网络300个轮次，而核全连接DenseNet的初始学习率为0.01，学习率均在150、225个轮次时衰减为原学习率的1/10。优化器设置也与ResNet的实验相同。

我们在表1和表2中展示了ResNet、DenseNet、GoogLeNet在CIFAR10和CIFAR100数据集上的最佳结果及其对应的核卷积网络以及我们的核全连接网络的最佳结果。结果表明，即使基准网络的结果较低，但我们的应用了核全连接层的核全连接网络比核卷积网络的结果高出1％，并远超基准网络。

表1核全连接网络在CIFAR10数据集上的准确率

表2核全连接网络在CIFAR100数据集上的准确率

3.4收敛速度和运行时间

我们在MNIST数据集上使用LeNet-5网络评估收敛速度。MNIST在大多数深度神经网络上的准确率已饱和至100％，因此我们采用DAWN-Bench中提出的评价标准，综合考虑计算效率和精度。它测量测试数据集的验证准确性达到98.5％的时间，这是效率和准确性之间的权衡。我们采用随机梯度下降优化器进行训练，批量大小为128，动量为0.9。我们以0.01的学习率训练网络20个轮次。我们将核全连接LeNet-5与原始的LeNet-5网络和核卷积LeNet-5进行了比较。对于核卷积LeNet-5，我们选择其性能最优的多项式核，并设置超参数d_p＝5和c_p＝1。对于我们的核全连接LeNet-5，我们使用2次的多项式核，并设置不同的参数c来控制不同阶项的比例。如图6所示，我们的核全连接LeNet-5收敛到98.5％的验证准确率，比原始的LeNet-5网络快得多，比核卷积LeNet-5略快。c越小，高阶项所占比例越大，收敛速度越快，这进一步说明高阶项加速了网络的收敛速度。表3显示了每个轮次的训练时间和达到目标的准确率98.5％的总训练时间。表中的时间包括了测试时间和检查点保存时间。

表3 MNIST数据集上的训练时间和收敛速度

在CIFAR10和CIFAR100数据集上，我们用ResNet系列网络和DenseNet系列的网络对训练时间和收敛时间进行评估。我们将核全连接层应用于原始的ResNet和DenseNet，并与核卷积层进行比较。在表4和表5中，虽然核全连接网络的每个轮次的训练时间仅略小于常规网络和核卷积网络，但核全连接网络的收敛速度比常规网络快1.31到1.48倍，比核卷积网络快1.15到1.30倍。

表4 CIFAR10数据集上的训练时间和收敛速度

表5 CIFAR100数据集上的训练时间和收敛速度

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于核操作的核全连接神经网络的图像识别方法，通过对深度神经网络的全连接层添加核操作，提升网络的非线性能力、提高网络的训练效率、加快网络收敛速度，其特征在于，包括以下步骤：

S2、建立带有类别标签的数据集并预处理；

2.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述深度神经网络采用ResNet或DenseNet或GoogLeNet网络。

3.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述基于核操作的核全连接神经网络的卷积层模块包括用于从浅到深分层级提取到分布式特征的输入层、卷积层、激活函数、池化层。

4.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述多项式核函数或高斯核函数。

5.根据权利要求1或4所述的基于核操作的核全连接神经网络，其特征在于，核函数作用于深度卷积神经网络最后一层全连接层的输入和权重，实现输入和权重间的非线性特征匹配。

6.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述分类器采用SoftMax分类器。

7.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述预处理为将数据集的图像数据进行归一化、整形为一维图像像素列向量。

8.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述优化器为随机梯度下降优化器或Adam优化器。

9.根据权利要求1所述的基于核操作的核全连接神经网络，其特征在于，所述需要设置的网络参数包括：批量大小、动量、动量衰减因子、训练网络轮次数、初始学习率。