CN112926723A

CN112926723A - 基于Split LBI算法的自动网络增长方法

Info

Publication number: CN112926723A
Application number: CN201911234579.7A
Authority: CN
Inventors: 付彦伟; 李树昀; 钟祖远
Original assignee: Fuqing Shanghai Intelligent Technology Co ltd; Fudan University
Current assignee: Fuqing Shanghai Intelligent Technology Co ltd; Fudan University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2021-06-08

Abstract

本发明提供一种基于Split LBI算法的自动网络增长方法，能够在训练过程中自动增长卷积神经网络的卷积层和各层卷积核，最终得到参数量较少但是在分类任务中表现很好的神经网络模型的方法。其具体分为两种方法，一是给定神经网络模型层结构的情况下，在训练过程中自动增长各卷积层的卷积核和线性层的线性单元，最终得到训练好的、总参数量比人工设计的模型更少的、训练总代价更少的模型；二是给定一个层数很少的网络结构，训练过程中，先自动增长卷积核来确定各模块的卷积核上限，然后自动增长卷积层，最终得到训练好的、在分类任务上表现很好的模型。

Description

基于Split LBI算法的自动网络增长方法

技术领域

本发明属于图像处理领域以及深度学习领域，涉及用于图像分类的卷积神经网络的结构设计，具体涉及一种基于Split LBI算法的自动网络增长方法。

背景技术

近年来，深卷积神经网络在计算视觉领域取得了不俗的成绩。计算机视觉和机器学习社区解决许多重要任务，如图像分类和图像分割，研究人员设计了许多成功的深层神经网络架构，从只有几个卷积层的神经网络，如LeNet[1]和AlexNet[2]，到10层以上的神经网络，例如VGG[3]和GoogleLenet[4]，甚至有成百上千层的ResNet[5]。在过去，人工设计神经网络结构需要非常强的专业知识、丰富的经验和很多的实验支持。网络的一些关键的超参数，例如层类型(卷积层，池化层等)、卷积层数量和卷积核数量(即，网络深度的宽度)等等。神经网络的表现性能很大程度上取决于总参数的数量、卷积层的数量和各层的卷积核数量，所以这些都是塑造神经网络表达能力的关键的超参数。

在机器学习社区中，大多数研究人员使用自动机器学习方法，例如神经架构自动化搜索(NAS)[6][7]。NAS方法确实在图像分类和对象等许多任务上超过了手工设计的架构，但是NAS的方法需要非常巨大的算力和时间，在很多场合下是不切实际的。此外，为了寻找一个好的架构，各种搜索策略已经被应用，如随机搜索，贝叶斯优化，强化学习，等等。另外也有自动增长神经网络卷积层的方法，但是其中大多数方法也需要大量的计算成本，不便于实际使用。

[1]Yann LeCun,Leon Bottou,Yoshua Bengio,and Patrick Haffner.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998.1

[2]Alex Krizhevsky,Ilya Sutskever,and Geoffrey E.Hinton.Imagenetclassification with deep convolutional neural networks.NIPS,2012.

[3]Karen Simonyan and Andrew Zisserman.Very deep convolutionalnetworks for large-scale image recognition.arXiv preprint arXiv:1409.1556,2014.

[4]Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,and Andrew Rabinovich.Goingdeeper with convolutions.Proceedings of the IEEE conference on computervision and pattern recognition(CVPR),2015.

[5]Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.Deep residuallearning for image recognition.CVPR,2016a.

[6]Barret Zoph and Quoc V Le.Neural architecture search withreinforcement learning.arXiv preprint arXiv:1611.01578,2016.

[7]Barret Zoph,Vijay Vasudevan,Jonathon Shlens,and Quoc V.Le.Learningtransferable architectures for scalable image recognition.Proceedings of theIEEE conference on computer vision and pattern recognition(CVPR),2018.

发明内容

为解决上述问题，基于Split LBI算法提供了一种自动化且高效的增长网络、能够以较小的代价得到参数较少而表现效果好的神经网络模型的方法，本发明采用了如下技术方案：

本发明提供了一种基于Split LBI算法的自动网络增长方法，用于对卷积神经网络中卷积层的卷积核以及线性层的线性单元进行自动化增长，从而在不改变网络结构的情况下优化并训练该卷积神经网络，其特征在于，包括如下步骤：步骤S1，进行初始化操作，该初始化操作包括：将卷积神经网络中的各个卷积层的卷积核初始化为8或16个，将卷积神经网络中的各个线性层的线性单元初始化为64或128，初始化优化器并将要增长的卷积层或线性层输入优化器中，确定增长卷积核或线性单元的稠密阈值，获取训练数据并进行数据增强预处理；步骤S2，通过优化器并利用训练数据对卷积神经网络训练一定的遍历次数；步骤S3，根据卷积神经网络中所有的卷积层或线性层计算稠密程度参数，若稠密程度参数大于稠密阈值则在当前的卷积层或线性层对卷积核或线性单元进行增长从而形成新的卷积神经网络，若稠密程度参数不大于稠密阈值则停止增长；步骤S4，重复步骤S2至步骤S3直至停止增长从而得到增长完成的卷积神经网络；步骤S5，调整优化器的学习率并对增长完成的卷积神经网络训练100次数据遍历从而得到训练完成的卷积神经网络。

本发明还提供了一种基于Split LBI算法的自动网络增长方法，用于对卷积神经网络中卷积层的卷积核以及线性层的线性单元进行自动化增长并对卷积层进行自动化增长，从而优化并训练该卷积神经网络，其特征在于，包括如下步骤：步骤T1，进行初始化操作，该初始化操作包括：将卷积神经网络划分为多个模块，每个模块含有1或2个卷积层，将各个卷积层的卷积核初始化为8或16个并使得每个模块中的卷积层使用相同的卷积核，将卷积神经网络中的各个线性层的线性单元初始化为64或128，初始化优化器并依次将各层卷积层输入优化器中，确定增长卷积核或线性单元的稠密阈值以及增长卷积层的提升阈值，获取训练数据并对该训练数据进行数据增强预处理；步骤T2，通过优化器根据训练数据将卷积神经网络训练一定的遍历次数；步骤T3，根据卷积神经网络中所有的卷积层或线性层计算稠密程度参数，若稠密程度参数大于稠密阈值则在当前的卷积层或线性层对卷积核或线性单元进行增长，若稠密程度参数不大于稠密阈值则停止增长；步骤T4，重复步骤T2至步骤T3直至所有卷积层的卷积核以及所有线性层的线性单元都停止增长；步骤T5，依次选择一个模块并为该模块增长一个或两个卷积层；步骤T6，通过优化器根据训练数据将卷积神经网络训练一定的遍历次数；步骤T7，计算模块增长后的卷积神经网络的模型分类性能，若该模型分类性能的提升幅度没有超过增长阈值则停止增长当前模块的卷积层；步骤T8，重复步骤T5至步骤T7，直到所有模块的卷积层都停止增长；步骤T9，调整优化器的学习率并对卷积神经网络训练100次数据遍历从而得到训练完成的卷积神经网络。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，某层卷积层的稠密程度参数是根据Split LBI算法得到的范数非零的卷积核数量与该层的所有卷积核数量的比值，某线性层的稠密程度参数是根据Split LBI算法得到的范数非零的线性单元数量与该层的所有线性单元数量的比值。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，遍历次数为30或40epochs。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，稠密阈值的取值为0.4或0.5。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，卷积核或线性单元的增长数量为成倍增长。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，优化器为Split LBI优化器。

本发明提供的基于Split LBI算法的自动网络增长方法，还可以具有这样的技术特征，其中，增长阈值的取值为0.2％或0.3％。

发明作用与效果

根据本发明的基于Split LBI算法的自动网络增长方法，由于通过设定稠密程度，因此通过Split LBI算法构建了评价卷积层或线性层稠密程度的度量方式，同时通过将稠密程度参数与预设的稠密阈值进行比对并根据比对结果对各个卷积层/线性层的卷积核/线性单元数量进行调整，从而使得卷积神经网络中各层的卷积核/线性单元能够自动增长直到各层的稠密程度适中。因此通过本发明的自动网络增长方法，可以在给定神经网络模型层结构的情况下，在训练过程中自动增长各卷积层的卷积核和线性层的线性单元，最终得到训练好的、总参数量比人工设计的模型更少的、训练总代价更少的模型，优化了过去人为进行卷积核/线性单元的设定可能不是最佳的数量设定的问题。

另外，本发明的基于Split LBI算法的自动网络增长方法还可以将卷积核/线性单元增长与卷积层增长相结合，在对卷积核/线性单元进行增长的同时，还通过将卷积神经网络划分为多个模块，并对各个模块中的卷积层进行增长，同时通过卷积层增长前后卷积神经网络的模型分类性能的提升幅度与提升阈值进行比对并根据比对结果对各个模块中的卷积层数量进行调整，从而使得卷积神经网络中的卷积层也能自动增长直至卷积神经网络没有更大的增幅。因此通过本发明的自动网络增长方法，还可以对于一个给定的较小的网络结构，在训练过程中，先自动增长卷积核来确定各模块的卷积核上限，然后自动增长卷积层，最终得到训练好的、较大的、在分类任务上表现很好的模型。

附图说明

图1是本发明实施例一中自动网络增长方法的流程图；

图2是本发明实施例二中自动网络增长方法的流程图；以及

图3是本发明实施例二中增长卷积核/线性单元的流程示意图。

具体实施方式

本方法能够增长和训练得到参数量相比人工设计的相同结构的神经网络显著减少而表现不明显降低的卷积神经网络，整个增长与训练过程非常有效率，总计算和时间代价相比其他方法有极大的缩减。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于Split LBI算法的自动网络增长方法作具体阐述。

<实施例一>

本实施例一中，自动网络增长方法对卷积神经网络中卷积层/线性层的卷积核/线性单元进行增长，从而在不改变卷积神经网络的网络结构的情况下完成该卷积神经网络的优化。

本实施例中，卷积神经网络可以是任意结构的具有卷积层以及线性层的网络模型。

图1是本发明实施例一中自动网络增长方法的流程图。

步骤S1，进行初始化操作。该步骤S1包括如下子步骤：

步骤S1-1，将卷积神经网络中的各个卷积层初始化为较少的卷积核，例如8或16个。

步骤S1-2，将卷积神经网络中的各个线性层的线性单元初始化为64或128。

步骤S1-3，初始化优化器并将要增长的卷积层或线性层输入优化器中。本实施例的优化器采用Split LBI优化器。

步骤S1-4，确定增长卷积核/线性单元的稠密阈值，可选0.4或0.5。

步骤S1-5，获取训练数据以及测试数据，并对训练数据进行数据增强预处理。

本实施例中，训练数据以及测试数据选择了CIFAR10数据集，对于其中用于训练的数据，进行了数据增强预处理。该数据增强预处理包括对图像数据进行随机水平翻转、随机裁剪等操作，有助于深度模型对数据语义特征不变性的学习，防止模型过拟合、增强训练模型的鲁棒性。

步骤S2，通过优化器并利用训练数据对卷积神经网络训练一定的遍历次数，该遍历次数为30或40epochs。

步骤S3，根据卷积神经网络中各个卷积层和线性层计算稠密程度参数，其中，某层卷积层的稠密程度是根据Split LBI算法得到的范数非零的卷积核数量与该层的所有卷积核数量的比值，某线性层的稠密程度是根据Split LBI算法得到的范数非零的线性单元数量与该层的所有线性单元数量的比值，若稠密程度参数大于稠密阈值则在当前的卷积层或线性层对卷积核/线性单元进行增长从而形成新的卷积神经网络，若稠密程度参数不大于稠密阈值则停止增长。

本实施例中，若稠密程度参数大于稠密阈值0.4，说明该层(卷积层/线性层)过于稠密，还有空间容纳更多的卷积核，因此该层增加与原有数量相等的卷积核/线性单元(即进行成倍增长)。

本实施例的步骤S3中，在卷积神经网络的卷积核/线性单元被增长后，会形成一个新的卷积神经网络，该新的卷积神经网络继承了上一个卷积神经网络的所有参数。同时，本实施例中，对于网络的各层，进行的是同步增长，即只要某层达到了增长条件，则进行增长，在所有层检查完成之后，才构建新模型(即新的卷积神经网络)和继承参数。

步骤S4，重复步骤S2至步骤S3直至停止增长从而得到增长完成的卷积神经网络。

本实施例中，在步骤S3构建新模型后，重新初始化优化器并进入步骤S2重新通过优化器训练一定的遍历次数。如果卷积神经网络的所有层均没有达到阈值，则停止增长。

步骤S5，调整优化器的学习率并对增长完成的卷积神经网络训练100个数据遍历从而得到训练完成的卷积神经网络。

<实施例二>

本实施例二中，自动网络增长方法对卷积神经网络中卷积层/线性层的卷积核/线性单元进行增长同时还对卷积神经网络的卷积层进行自动增长，从而在实施例一中优化的基础上还优化了卷积神经网络的网络结构。

与实施例一相同，本实施例二中的卷积神经网络可以是任意结构的具有卷积层以及线性层的网络模型。但在本实施例二中，以残差网络ResNet结构为例进行自动网络增长方法的介绍。

图2是本发明实施例二中自动网络增长方法的流程图。

如图2所示，自动网络增长方法包括如下步骤：

步骤T1，进行初始化操作。该步骤T1包括如下子步骤：

步骤T1-1，将卷积神经网络划分为多个模块，每个模块含有1或2个卷积层。

步骤T1-2，将各个卷积层的卷积核初始化为8或16个并使得每个模块中的卷积层使用相同的卷积核。

步骤T1-3，将卷积神经网络中的各个线性层的线性单元初始化为64或128。

步骤T1-4，初始化优化器并依次将各层卷积层输入优化器中。

步骤T1-5，确定增长卷积核或线性单元的稠密阈值，可选0.4或0.5，同时，确定增长卷积层的提升阈值，可选0.2％或0.3％。

步骤T1-6，获取训练数据并对该训练数据进行数据增强预处理。

本实施例二中，上述步骤T1-6与实施例一中的步骤S1-5相同，在此不再赘述。

本实施例中，在步骤T1进行网络结构初始化时，将残差模型分为一个输入卷积层和4个模块，每个模块初始化为2个卷积层，每个卷积层有16的卷积核；同时，还设置增长卷积层的提升阈值为0.2％；设定增长卷积核/线性单元的稠密阈值为0.4。

本实施例中，若卷积神经网络为残差网络，则其模块的划分基于是否进行一次对输出的大小缩减，即每个模块的第一个卷积层进行一次输出的大小缩减，缩减为原来大小的一半；若卷积神经网络为平原网络，则其模块划分则是基于池化层，即以池化层为界，将两个池化层之间的各层作为一个模块。

步骤T2，通过优化器根据训练数据将卷积神经网络训练一定的遍历次数，该遍历次数为30或40epochs。

步骤T3，根据卷积神经网络中各个卷积层和线性层计算稠密程度参数，其中，某层卷积层的稠密程度是根据Split LBI算法得到的范数非零的卷积核数量与该层的所有卷积核数量的比值，某线性层的稠密程度是根据Split LBI算法得到的范数非零的线性单元数量与该层的所有线性单元数量的比值，若稠密程度参数大于稠密阈值则在当前的卷积层或线性层对卷积核或线性单元进行增长，若稠密程度参数不大于稠密阈值则停止增长。

步骤T4，重复步骤T2至步骤T3直至所有卷积层的卷积核以及所有线性层的线性单元都停止增长；

本实施例中，上述步骤T2至步骤T4的过程与实施例中步骤S2至步骤S4的过程一致，在此不在赘述。

如图3所示，通过上述步骤T2至步骤T4，在残差模型的训练过程中每遍历数据集若干次，就对每一层(卷积层或线性层)检查是否符合增长条件并在符合时增长与原来数量一致的卷积核或线性单元，最终得到残差模型的各个模块的卷积核/线性单元数量配置。

步骤T5，依次选择一个模块并为该模块增长一个或两个卷积层，新增的卷积层的卷积核数量与同模块的其他卷积层的卷积核数量相同。

本实施例的步骤S5中，在卷积神经网络的卷积层被增长后，会形成一个新的卷积神经网络，该新的卷积神经网络继承了上一个卷积神经网络的所有参数，而新的层的参数将随机初始化。

步骤T6，通过优化器根据训练数据将卷积神经网络训练一定的遍历次数，该遍历次数为30或40epochs。

步骤T7，计算模块增长后的卷积神经网络的模型分类性能，若该模型分类性能的提升幅度没有超过增长阈值，则说明这个模块已经饱和，因此停止对当前模块进行卷积层的增长。

本实施例中，模型分类性能为卷积神经网络对训练数据(或测试数据)的分类准确率，其提升幅度即新的卷积神经网络的分类准确率减去原卷积神经网络的分类准确率。

步骤T8，重复步骤T5至步骤T7，直到所有模块的卷积层都停止增长。

如图3所示，通过上述步骤T5至步骤T8，在残差模型的训练过程中为每个模块增长卷积层，每遍历数据集若干次就检查增长后的模型的准确率增长量是否符合条件，若不符合则该模块在此后的循环中不再增长。最终得到优化了网络结构的残差网络。

步骤T9，调整优化器的学习率并对步骤T8中停止增长后的卷积神经网络训练100次数据遍历从而得到训练完成的卷积神经网络。

实施例作用与效果

根据本实施例提供的基于Split LBI算法的自动网络增长方法，由于通过设定稠密程度，因此通过Split LBI算法构建了评价卷积层或线性层稠密程度的度量方式，同时通过将稠密程度参数与预设的稠密阈值进行比对并根据比对结果对各个卷积层/线性层的卷积核/线性单元数量进行调整，从而使得卷积神经网络中各层的卷积核/线性单元能够自动增长直到各层的稠密程度适中。因此通过本实施例的自动网络增长方法，可以在给定神经网络模型层结构的情况下，在训练过程中自动增长各卷积层的卷积核和线性层的线性单元，最终得到训练好的、总参数量比人工设计的模型更少的、训练总代价更少的模型，优化了过去人为进行卷积核/线性单元的设定可能不是最佳的数量设定的问题。

另外，本实施例的基于Split LBI算法的自动网络增长方法还可以将卷积核/线性单元增长与卷积层增长相结合，在对卷积核/线性单元进行增长的同时，还通过将卷积神经网络划分为多个模块，并对各个模块中的卷积层进行增长，同时通过卷积层增长前后卷积神经网络的模型分类性能的提升幅度与提升阈值进行比对并根据比对结果对各个模块中的卷积层数量进行调整，从而使得卷积神经网络中的卷积层也能自动增长直至卷积神经网络没有更大的增幅。因此通过本实施例的自动网络增长方法，还可以对于一个给定的较小的网络结构，在训练过程中，先自动增长卷积核来确定各模块的卷积核上限，然后自动增长卷积层，最终得到训练好的、较大的、在分类任务上表现很好的模型。

另外，实施例中，由于卷积核以及线性单元的增长数量为成倍增长，即每次增加与该层原有数量相等的卷积核或线性单元，因此本方法的增长过程能够更加地高效。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于Split LBI算法的自动网络增长方法，用于对卷积神经网络中卷积层的卷积核以及线性层的线性单元进行自动化增长，从而在不改变网络结构的情况下优化并训练该卷积神经网络，其特征在于，包括如下步骤：

步骤S1，进行初始化操作，该初始化操作包括：

将所述卷积神经网络中的各个所述卷积层的卷积核初始化为8或16个，

将所述卷积神经网络中的各个所述线性层的线性单元初始化为64或128，

初始化优化器并将要增长的所述卷积层或所述线性层输入所述优化器中，

确定增长所述卷积核或所述线性单元的稠密阈值，

获取训练数据并进行数据增强预处理；

步骤S2，通过所述优化器并利用所述训练数据对所述卷积神经网络训练一定的遍历次数；

步骤S3，根据所述卷积神经网络中所有的所述卷积层或所述线性层计算稠密程度参数，

若所述稠密程度参数大于所述稠密阈值则在当前的所述卷积层或所述线性层对所述卷积核或所述线性单元进行增长从而形成新的所述卷积神经网络，

若所述稠密程度参数不大于所述稠密阈值则停止增长；

步骤S4，重复所述步骤S2至所述步骤S3直至停止增长从而得到增长完成的所述卷积神经网络；

步骤S5，调整所述优化器的学习率并对增长完成的所述卷积神经网络训练100次数据遍历从而得到训练完成的所述卷积神经网络。

2.一种基于Split LBI算法的自动网络增长方法，用于对卷积神经网络中卷积层的卷积核以及线性层的线性单元进行自动化增长并对卷积层进行自动化增长，从而优化并训练该卷积神经网络，其特征在于，包括如下步骤：

步骤T1，进行初始化操作，该初始化操作包括：

将所述卷积神经网络划分为多个模块，每个所述模块含有1或2个所述卷积层，

将各个所述卷积层的卷积核初始化为8或16个并使得每个所述模块中的所述卷积层使用相同的卷积核，

将所述卷积神经网络中的各个线性层的线性单元初始化为64或128，

初始化优化器并依次将各层所述卷积层输入所述优化器中，

确定增长所述卷积核或所述线性单元的稠密阈值以及增长所述卷积层的提升阈值，

获取训练数据并对该训练数据进行数据增强预处理；

步骤T2，通过所述优化器根据所述训练数据将所述卷积神经网络训练一定的遍历次数；

步骤T3，根据所述卷积神经网络中所有的所述卷积层或所述线性层计算稠密程度参数，

若所述稠密程度参数大于所述稠密阈值则在当前的所述卷积层或所述线性层对所述卷积核或所述线性单元进行增长，

若所述稠密程度参数不大于所述稠密阈值则停止增长；

步骤T4，重复所述步骤T2至所述步骤T3直至所有所述卷积层的所述卷积核以及所有所述线性层的所述线性单元都停止增长；

步骤T5，依次选择一个所述模块并为该模块增长一个或两个卷积层；

步骤T6，通过所述优化器根据所述训练数据将所述卷积神经网络训练一定的遍历次数；

步骤T7，计算所述模块增长后的所述卷积神经网络的模型分类性能，

若该模型分类性能的提升幅度没有超过所述增长阈值则停止增长当前所述模块的卷积层；

步骤T8，重复所述步骤T5至所述步骤T7，直到所有所述模块的所述卷积层都停止增长；

步骤T9，调整所述优化器的学习率并对所述卷积神经网络训练100次数据遍历从而得到训练完成的所述卷积神经网络。

3.根据权利要求1或2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述卷积层的稠密程度参数是根据Split LBI算法得到的范数非零的卷积核数量与该卷积层的所有卷积核数量的比值，

所述线性层的稠密程度参数是根据Split LBI算法得到的范数非零的线性单元数量与该线性层的所有线性单元数量的比值。

4.根据权利要求1或2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述遍历次数为30或40epochs。

5.根据权利要求1或2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述稠密阈值的取值为0.4或0.5。

6.根据权利要求1或2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述卷积核或线性单元的增长数量为成倍增长。

7.根据权利要求1或2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述优化器为Split LBI优化器。

8.根据权利要求2所述的基于Split LBI算法的自动网络增长方法，其特征在于：

其中，所述增长阈值的取值为0.2％或0.3％。