CN113379034B

CN113379034B - 一种基于网络结构搜索技术的神经网络结构优化方法

Info

Publication number: CN113379034B
Application number: CN202110661438.4A
Authority: CN
Inventors: 王中风; 赵世泽; 何鎏璐; 谢逍如; 林军
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2023-10-20
Anticipated expiration: 2041-06-15
Also published as: CN113379034A

Abstract

本申请公开了一种基于网络结构搜索技术的神经网络结构优化方法，包括以下步骤：获取训练样本，将所述训练样本输入初始神经网络，通过搜索算法根据所述训练样本，在所述初始神经网络上依次生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置和对应节点位置的插入深度，对待优化神经网络结构进行优化，得到最优神经网络结构。通过搜索算法自动在初始神经网络结构上构建分支神经网络结构，对其进行优化后，得到最优神经网络分支结构，解决了现有神经网络构建过程中，通过动态计算的模型压缩算法对模型进行压缩，耗费大量人力物力，同时还存在神经网络陷入局部最优，严重影响效率的问题。

Description

一种基于网络结构搜索技术的神经网络结构优化方法

技术领域

本发明涉及神经网络技术领域，特别涉及一种基于网络结构搜索技术的神经网络结构优化方法。

背景技术

近年来深度学习在图像识别、目标检测、语义分割等多个领域都取得了不小的成就，通过训练神经网络，可以实现对样本的特征提取和识别。目前广泛应用的神经网络是通过不断的加深网络的深度来提高模型的精度，但这种方法一方面会极大的增加模型的消耗，占用更多的资源，另一方面也会降低处理样本的速度。神经网络在计算过程中存在着大量的冗余，因此利用这些冗余目前提出了动态计算的模型压缩算法，来对模型进行压缩，一方面降低模型的内存和算力消耗，另一方面加快模型处理样本的速度。根据输入样本的复杂度来自适应的调整神经网络的结构，合理分配计算资源达到减少计算冗余的目的，目前有越来越多的神经网络开始使用动态计算架构。

但现有通过动态计算的模型压缩算法对模型进行压缩，构建神经网络需要耗费大量的人力物力，同时还存在神经网络陷入局部最优的问题，严重影响效率。

发明内容

本申请提供了一种基于网络结构搜索技术的神经网络结构优化方法，以解决在现有神经网络构建过程中，通过动态计算的模型压缩算法对模型进行压缩，需要耗费大量的人力物力，同时还存在神经网络陷入局部最优，严重影响效率的问题。

本申请一种基于网络结构搜索技术的神经网络结构优化方法，其特征在于，所述方法包括以下步骤：

获取训练样本；

将所述训练样本输入初始神经网络；

通过搜索算法根据所述训练样本，在所述初始神经网络上依次生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度；

对所述待优化神经网络结构进行优化，得到最优神经网络结构。

所述通过搜索算法根据所述训练样本，在所述初始神经网络上依次自动生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度，具体包括以下步骤：

在所述初始神经网络上确定插入分支的节点位置；

在所述节点位置确定插入深度；

根据所述节点位置和插入深度连接相应的备选模块，所述备选模块用于叠堆形成所述神经网络的分支神经网络结构；

重复上述步骤，得到若干个具有不同搜索状态的待优化神经网络结构。

所述备选模块的结构特征与所述初始神经网络的结构特征一致。

还包括以下步骤：对所述备选模块的输入维度和输出维度进行调整。

所述分支神经网络结构的长度小于初始神经网络结构长度。

所述对所述分支神经网络结构进行优化，得到优化网络结构，包括以下步骤：

对所述训练样本通过和若干个待优化神经网络结构进行训练，得到若干个训练结果；

计算所述训练结果的计算量；

将训练样本输入初始神经网络训练，得到初始神经网络训练结果；

计算初始神经网络训练结果的计算量；

将所述训练结果的计算量与初始神经网络训练结果的计算量进行比较；

若所述训练结果的计算量小于初始神经网络训练结果的计算量，通过当前训练结果对应的待优化神经网络结构对初始神经网络结构进行替换；

重复上述步骤，直到对所述待优化神经网络结构进行比较，得到最优神经网络结构。

由以上技术方案可知，本申请提供了了一种基于网络结构搜索技术的神经网络结构优化方法，通过搜索算法在初始神经网络结构上构建分支神经网络结构，对其进行优化后，得到最优神经网络分支结构，解决了在现有神经网络构建过程中，通过动态计算的模型压缩算法对模型进行压缩，需要耗费大量的人力物力，同时还存在神经网络陷入局部最优，严重影响效率的问题。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于网络结构搜索技术的神经网络结构优化方法的流程图；

图2为本申请提供的最优神经网络结构示意图；

图3为本申请提供的一种基于网络结构搜索技术的神经网络结构优化方法在一种实施例下的流程图；

图4为本申请提供的一种基于网络结构搜索技术的神经网络结构优化方法在另一种实施例下的流程图；

图5为本申请提供的搜索算法的代码示意图。

具体实施方式

参见图1，本申请提供了一种基于网络结构搜索技术的神经网络结构优化方法，所述方法包括以下步骤：

S100：获取训练样本；

S200：将所述训练样本输入初始神经网络；

S300：通过搜索算法根据所述训练样本，在所述初始神经网络上依次自动生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度；

首先在主干网络上探索合适的分支插入点和分支网络深度，这个过程的主要目的是确定整个网络的拓扑结构。一旦拓扑结构确定，就可以大致确定分支网络的计算量。在这个过程中，指定与主干网络结构最相似的模块作为备选模块，这些备选模块可以组成不同长度的分支网络结构，但分支网络结构的长度不会超过主干网络的总长。更为具体的是，在本申请一实施例中，需要退出的训练样本经过退出点处的分支神经网络结构，即可得到对应的输出。

更为具体的是，所述具有不同搜索状态的神经网络结构的状态距离均等于2，所述状态距离为两个搜索状态中的分支深度差值和插入位置深度的差值的绝对值之和。通过对神经网络结构的状态距离进行有效限定，能够有效降低搜索空间的维度，极大的减少搜索过程的计算量，进一步提升神经网络结构运算效率。

S400：对所述待优化神经网络结构进行优化，得到最优神经网络结构。

参见图2，为本申请一实施例中的最优神经网络结构示意图，所述最优神经网络结构包括初始神经网络结构，以及根据搜索算法在所述初始神经网络结构生成的分支网络结构。所述分支网络结构具有对应的搜索状态，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度。

在本申请一实施例中，这些不同长度的分支网络结构会从主干网络上第一个可以退出的点开始，逐个进行尝试，直到找到网络精度和网络压缩率的综合性能最高的退出节点，此时即视为最优的拓扑结构。

参见图3，在本申请一实施例中，所述通过搜索算法根据所述训练样本，在所述初始神经网络上依次生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度，具体包括以下步骤：

S301：在所述初始神经网络上确定插入分支的节点位置；

S302：在所述节点位置确定插入深度；

S303：根据所述节点位置和插入深度连接相应的备选模块，所述备选模块用于叠堆形成所述神经网络的分支神经网络结构；

S304：重复上述步骤，得到若干个具有不同搜索状态的待优化神经网络结构。

在本申请一实施例中，所述备选模块的结构特征与所述初始神经网络的结构特征一致。需要说明的是，为了保证搜索的效率和搜索结果的性能，在选择搜索的备选模块时需要满足一些要求。考虑到目前主流的神经网络结构往往是大量结构相同的模块堆叠而成，因此我们在选择搜索的备选模块时，也会尽量根据主干网络和目前主流的神经网络结构，选择与它们的结构相一致的模块作为备选模块。例如对于ResNet，我们会尽量选择具有相同结构特征的它的基本组成单位ResBlock作为搜索的备选模块。

在本申请一实施例中，还包括以下步骤：对所述备选模块的输入维度和输出维度进行调整。通过对所述备选模块进行调整，保证所述备选模块与初始神经网络以及其他所述备选模块之间能够进行适配。

在本申请一实施例中，所述分支神经网络结构的长度小于初始神经网络结构长度。

参见图4，在本申请一实施例中，所述对所述分支神经网络结构进行优化，得到优化网络结构，包括以下步骤：

S401：对所述训练样本通过和若干个待优化神经网络结构进行训练，得到若干个训练结果；

S402：计算所述训练结果的计算量；

S403：将训练样本输入初始神经网络训练，得到初始神经网络训练结果；

S404：计算初始神经网络训练结果的计算量；

S405:将所述训练结果的计算量与初始神经网络训练结果的计算量进行比较；

S406：若所述训练结果的计算量小于初始神经网络训练结果的计算量，通过当前训练结果对应的待优化神经网络结构对初始神经网络结构进行替换；

S407：重复上述步骤，直到对所述待优化神经网络结构进行比较，得到最优神经网络结构。

参见图5，展示了所述搜索算法的搜索过程，首先定义初始搜索状态，搜索状态分为两部分，一部分是分支节点插入的位置，另一部分是插入分支的深度。使用(退出节点，深度)的元组来表示网络的一个搜索状态，例如搜索状态(2，3)即为在主干网络上深度为2的节点处插入深度为3的分支网络，初始状态(0，0)则为初始神经网络结构尚未插入分支神经网络结构的状态。根据搜索状态，我们可以确定唯一与之相对应的待优化神经网络结构。之后我们根据搜索状态生成对应的待优化神经网络结构并对其进行训练，记录网络的性能指标。同时将网络此时的搜索状态记为当前的搜索状态，并暂时作为搜索过程中的最佳状态。

此外，我们还定义了网络的两个搜索状态之间的距离，即为两个搜索状态中的分支深度差值和插入位置深度的差值的绝对值之和，如下式所示：

distance＝|depth_i-depth_j|+|exit node_i-exit node_j|

其中depth代表分支网络的深度，exit node则代表分支节点的位置，i和j代表不同的搜索状态。

在搜索过程中，首先遍历所有与初始搜索状态之间距离为2的搜索状态，并对这些状态对应的网络进行训练，得到这些搜索状态对应的网络的计算量，并与初始搜索状态对应的网络的计算量作比较，如果当前搜索状态对应的网络的计算量小于初始状态的计算量，那么则认为当前的搜索状态的性能要高于初始搜索状态，则将当前的搜索状态作为最佳搜索状态进行记录，重复上述的操作直到已经遍历所有与最佳状态距离小于等于2的搜索状态，如果网络的搜索状态不再更新，则停止搜索，将当前的网络结构作为最优的网络结构进行输出。

在本申请一实施例中，通过使用Python在ResNet，ResNext，MobileNetV2等多种神经网络结构上进行了动态计算架构的搜索。我们主要在CIFAR10和CIFAR100数据集上进行网络训练。在精度相同或者更高的前提下，我们主要对比了相比于人工设计该方法提升的压缩率。

其中本方法实现的在CIFAR10上的架构设计与人工设计架构参见表1：

神经网络结构	失误率	计算量(Flops/M)	压缩率提升
				ResNet20	7.79	21.42	47.24
ResNet32	6.76	28.87	58.08
				ResNet44	6.63	39.91	59.55
ResNet50	6.33	41.94	62.34
				ResNet56	6.34	45.17	64.01
ResNet110	6.04	63.85	74.77
				MobileNetV2	5.44	23.63	43.70
ResNet20	7.79	21.42	47.24
				ResNet32	6.76	28.87	58.08

表一而在CIFAR100上与人工设计方案的压缩率对比则参见表2：

神经网络结构	失误率	计算量(Flops/M)	压缩率提升
				ResNext28	27.52	49.08	11.31
ResNext47	26.21	66.86	29.37
				ResNext65	24.97	89.66	33.08
ResNext83	23.96	105.95	38.89
				ResNet20	30.72	29.21	28.05
ResNet32	30.46	39.37	42.87
				ResNet44	28.83	56.54	41.85
ResNet50	28.03	58.06	47.76
				ResNet56	28.08	54.86	56.3

表2

通过上述表格，可以明显看出，通过采用本申请提供的技术方案，可以明显的提升动态计算架构的压缩率，并且随着网络结构复杂度的上升和参数量的增多，网络的压缩率也在不断上升，对于结构最复杂的ResNet110，网络的压缩率可以提高74.77％。

由以上技术方案可知，本申请公开了一种基于网络结构搜索技术的神经网络结构优化方法，包括以下步骤：获取训练样本，将所述训练样本输入初始神经网络，通过搜索算法根据所述训练样本，在所述初始神经网络上依次生成具有不同搜索状态的分支神经网络结构，得到若干个待优化神经网络结构，所述搜索状态包括插入分支的节点位置和对应节点位置的插入深度，对所述待优化神经网络结构进行优化，得到最优神经网络结构。通过搜索算法在初始神经网络结构上构建分支神经网络结构，对其进行自动化优化后，得到最优神经网络分支结构，解决了现有神经网络构建过程中，通过动态计算的模型压缩算法对模型进行压缩，耗费大量人力物力，同时还存在神经网络陷入局部最优，严重影响效率的问题。

Claims

1.一种基于网络结构搜索技术的神经网络结构优化方法，所述方法应用于图像识别，其特征在于，所述方法包括以下步骤：

获取训练样本；

将所述训练样本输入初始神经网络；

在所述初始神经网络上确定插入分支的节点位置；

在所述节点位置确定插入深度；

根据所述节点位置和插入深度连接相应的备选模块，所述备选模块用于叠堆形成神经网络的分支神经网络结构；

重复上述步骤，得到若干个具有不同搜索状态的待优化神经网络结构，所述搜索状态包括插入分支的节点位置以及对应节点位置的插入深度；

依次对所述训练样本通过若干个待优化神经网络结构进行训练，得到若干个训练结果；

计算所述训练结果的计算量；

计算初始神经网络训练结果的计算量；

依次将所述训练结果的计算量与初始神经网络训练结果的计算量进行比较；

2.根据权利要求1所述的基于网络结构搜索技术的神经网络结构优化方法，其特征在于，所述备选模块的结构特征与所述初始神经网络的结构特征一致。

3.根据权利要求2所述的基于网络结构搜索技术的神经网络结构优化方法，其特征在于，还包括以下步骤：对所述备选模块的输入维度和输出维度进行调整。

4.根据权利要求3所述的基于网络结构搜索技术的神经网络结构优化方法，其特征在于，所述分支神经网络结构的长度小于初始神经网络结构长度。