CN114861906A

CN114861906A - 基于神经架构搜索的轻量级多退出点模型的建立方法

Info

Publication number: CN114861906A
Application number: CN202210423171.XA
Authority: CN
Inventors: 王晓飞; 张子桐; 王晓辉; 王勇; 郭鹏天; 李琪; 刘志成; 赵云凤; 仇超
Original assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shandong Electric Power Co Ltd
Current assignee: Tianjin University; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shandong Electric Power Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-05

Abstract

本发明公开了一种基于神经架构搜索的轻量级多退出点模型的建立方法，包括如下步骤：搜集电网图像数据构建样本数据集，将样本数据集划分为训练集和测试集；以树形结构为基础，设计包括主干网络和分支分类器的多退出点模型架构；通过将若干种卷积神经网络进行剪裁并重新组合的方法构建搜索空间，基于图像分类任务以权衡模型分类精度和模型大小为目标建立目标函数；将训练集输入搜索空间中，利用策略梯度的强化学习算法对目标函数进行优化，以多退出点模型架构为基础进行训练获取多退出点模型。本发明能很好地权衡了搜索得到的神经网络的精度和参数大小，实现对电力边缘侧的图像分类模型的压缩。

Description

基于神经架构搜索的轻量级多退出点模型的建立方法

技术领域

本发明属于神经网络技术领域，具体涉及一种基于神经架构搜索的轻量级多退出点模型的建立方法。

背景技术

近年来，深度卷积神经网络在计算机视觉任务上取得了良好的准确性，然而精度的提高往往伴随着对计算和内存成本更高的要求。比如在电力领域，由于其设备的算力不一，因此若想在其场景中部署深度卷积神经网络来对电力领域中的图像进行识别任务，就需要对原始的复杂网络进行一定的轻量化操作。早期的技术如剪枝、知识蒸馏等方法无法动态适应推理过程中的资源消耗，这对复杂多变且计算能力有限的边缘场景提出了严峻的挑战，特别是在一些内存紧张的应用场景中。

针对上述问题，利用神经架构搜索(NeuralArchitecture Search，NAS)得到轻量级的多退出点模型可以权衡精度与模型大小，为电力领域中的计算机视觉任务提供有效的解决方案。然而，多退出点模型设计难度大，人工设计深度卷积神经网络成本很高。传统的多退出点模型都是人工设计，需要考虑出口数量、出口位置、出口结构等因素，且具有较差的时间效率。另外，多退出点模型中的不同出口精度相差较大，早期出口存在精度低的现象，没有很好地实现精度和模型大小的权衡。

发明内容

针对现有技术中的多退出点模型存在精度低、未实现精度和模型大小权衡的技术问题，本发明提出了一种基于神经架构搜索的轻量级多退出点模型的建立方法。为解决以上技术问题，本发明所采用的技术方案如下：

一种基于神经架构搜索的轻量级多退出点模型的建立方法，包括如下步骤：

S1，搜集电网图像数据构建样本数据集，将样本数据集划分为训练集和测试集；

S2，以树形结构为基础，设计包括主干网络和分支分类器的多退出点模型架构；

S3，通过将若干种卷积神经网络进行剪裁并重新组合的方法构建搜索空间，基于图像分类任务以权衡模型分类精度和模型大小为目标建立目标函数；

S4，将训练集输入步骤S3所建立的搜索空间中，利用策略梯度的强化学习算法对目标函数进行优化，以步骤S2建立的多退出点模型架构为基础进行训练获取多退出点模型。

所述步骤S3包括如下步骤：

S3.1，选取若干种卷积神经网络，根据网络结构将卷积神经网络分别剪裁为若干个卷积块；

S3.2，将步骤S3.1所得到的所有卷积块构建为l层的搜索空间，所述搜索空间为有向无环图；

S3.3，基于图像分类任务，以权衡模型分类精度和模型大小为目标建立目标函数。

在步骤S3.3中，所述目标函数的公式为：

目标函数的约束条件为：

式中，ACC(D，m(i，ω))表示多退出点子模型m(i，ω)在样本数据集D上的分类精度，

表示多退出点子模型m(i，ω)的参数量，β为常量，n表示训练总轮数，L_train(m_i，ω)表示多退出点子模型m(i，ω)的训练损失，ω^*表示所有多退出点子模型的模型权重，ω表示单个多退出点子模型的模型权重。

所述步骤S4包括如下步骤：

S4.1，基于长短期记忆网络建立控制器，在步骤S3所建立的搜索空间中搜索最优子图作为多退出点子模型；

S4.2，利用控制器对多退出点子模型进行抽样，利用随机梯度下降法对多退出点子模型的模型权重进行更新，以最小化期望损失函数；

S4.3，将步骤S4.2更新后的模型权重进行固定，将多退出点子模型的验证精度及模型大小设定为奖励函数，以最大化期望奖励为目标，利用测试集对控制器参数进行更新；

S4.4，判断i＜n，其中，i表示当前训练轮数，n表示训练总轮数，如果是，返回步骤S4.2，否则输出训练后的多退出点模型。

在步骤S4.3中，所述奖励函数的公式为：

式中，Acc(m_i，ω)表示多退出点子模型m(i，ω)在测试集上的验证精度，

表示抽样的多退出点子模型m(i，ω)的参数量，R(m_i，ω)表示多退出点子模型m(i，ω)的奖励函数，P表示基线卷积神经网络的参数量。

本发明的有益效果：

使用不同高性能的残差神经网络的卷积块构成搜索空间，提高了多退出点模型的准确性；使用自动搜索的方法构造一个搜索空间，然后在搜索空间中寻找适合的神经网络，实现了设计过程自动化，避免人工设计模型的成本消耗。采用基于强化学习的搜索策略，将网络训练过程中的网络精度以及网络模型大小作为奖励，下一步选择什么样的卷积块作为动作，交替训练控制器和共享网络的参数，很好地权衡了搜索得到的神经网络的精度和参数大小，实现了对电力边缘侧的图像模型的压缩。使用神经架构搜索技术进行网络结构的设计，得到的轻量级多退出点模型能够根据电力领域等边缘场景的需求，灵活地选用网络分支，满足了不同设备对模型大小以及任务精度的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为多退出点模型的示意图。

图2为模型参数量与准确度的关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于神经架构搜索的轻量级多退出点模型的建立方法，如图1所示，包括如下步骤：

S1，搜集电网图像数据构建样本数据集，将样本数据集随机划分为训练集和测试集；

所述样本数据集采用D表示，D＝{l_j}，l_j∈R^x×y×c表示第j幅电网图像，x表示图像的长度，y表示图像的宽度，c表示图像的通道数，R^x×y×c表示图像的规格，即长宽和通道数。

所述多退出点模型架构是一个树形结构，主干网络f_m是树干，其网络层数最多，参数也最多，分支分类器f_a是树的枝干，其网络层数较少，参数也较少。

本实施例中，主干网络和分支分类器均通过神经架构搜索(NeuralArchitectureSearch，NAS)得到，将图像输入训练后模型通过分类器可以产生分类结果。现有设计中一些表现性能较好的网络模型中往往会存在较为复杂的模块，本申请将这些复杂模块替换为简单模块，而这些简单模块也来自于这些网络模型，具体如何替换以及替换成什么模块是由神经架构搜索决定的，可以使得主干网络在保证不降低分类精度的情况下，实现模型轻量的目的。分支分类器网络参数量小并且网络层数少，基于NAS进行多次搜索以形成更多的分支网络构成了多退出点，从而提供了更大的灵活性，更加适应动态推理环境比如样本难度和波动的系统资源。

S3，通过将若干种卷积神经网络进行剪裁并重新组合的方法构建搜索空间，基于图像分类任务以权衡模型分类精度和模型大小为目标建立目标函数，包括如下步骤：

所述卷积神经网络可以选择当前主流的高性能网络如：ResNet(Residual NeuralNetwork，残差神经网络)、ResNeXt和Res2Net，根据网络的不同层数分别进行裁剪，以残差块为单位进行网络划分，形成若干个卷积块。

所述有向无环图中的节点表示卷积块，边表示对应的节点之间的信息流动，因此，l层的搜索空间中的节点总数为H个，每层搜索空间均相当于神经网络的一个卷积层，且每一层具有不同的卷积块，这是由原始神经网络中卷积块在网络中的位置决定的。每一层的搜索空间中有k个节点，每个节点均对应于一个候选残差块(Residual block)，所述候选残差块来自于ResNet、ResNeXt或Res2Net，且H＝k*l。

将整个网络的层数设为l+2层，第一层和最后一层是确定的，分别为输入层和输出层。每一层的搜索都是独立的，因此，该搜索空间中总共有

个网络，具体建立搜索空间的搜索过程时需要考虑选择哪个节点以及哪个节点和前面的哪个节点连接。

本实施例为便于搜索过程中卷积块间的连接，将所有卷积的通道数均设置为256，其中，N表示每一层的卷积块数，C表示搜索空间来自ResNeXt的每一层卷积块的组数，如表1所示为调整通道数后的所有卷积块。

表1搜索空间中的卷积块

S3.3，基于图像分类任务，以权衡模型分类精度和模型大小为目标建立目标函数；

所述图像分类任务是指对电力图像的分类，如在电力领域中，针对安全帽的辨识以及吊车的朝向识别等任务是十分复杂的，需要对这些情况进行分类，图像分类任务的目标函数的公式为：

目标函数的约束条件为：

表示多退出点子模型m(i，ω)也即多退出点子模型m_i的参数量大小，β表示常量，表示设备受资源限制的强度，n表示训练总轮数，L_train(m_i，ω)表示多退出点子模型m(i，ω)的训练损失，ω^*表示所有多退出点子模型的模型权重，ω表示一个子模型的模型权重，通过标准交叉熵得到，用于决定如何执行分类任务。在

中，如果边缘设备资源充足，不需要对模型规模进行限制，将β设置为

这就变成了传统的分类问题。当边缘设备受资源限制较大时，β设置为一个较大值，

S4，将训练集输入步骤S3所建立的搜索空间中，利用策略梯度的强化学习算法对目标函数进行优化，以步骤S2建立的多退出点模型架构为基础进行训练获取多退出点模型，包括如下步骤：

S4.1，基于长短期记忆网络(Long Short-Term Memory，LSTM)建立控制器，在步骤S3所建立的搜索空间中搜索最优子图作为多退出点子模型；

所述控制器是一个具有100个隐藏单元的LSTM。

S4.2，利用控制器对多退出点子模型进行抽样，利用随机梯度下降法(StochasticGradient Descent,SGD)对多退出点子模型的模型权重进行更新，以最小化期望损失函数，进而得到性能更好的子模型；

首先固定控制器的策略π(m，θ)，对于每一个搜索到的多退出点子模型m(i，ω)，使用随机梯度下降法对每一个多退出点子模型的模型权重ω进行更新，从而最小化期望损失函数，同时利用蒙特卡罗估计计算梯度，所述梯度的更新公式为：

式中，L(m，ω)表示从策略π(m，θ)抽样的多退出点子模型m(i，ω)的标准交叉熵损失，交叉熵损失越小，模型效果越好，M表示多退出点子模型的抽样数量，θ表示控制器参数，E_{m～π(m；θ)}[L(m，ω)]表示期望损失函数，本实施例中，

表示从策略π(m，θ)抽样的多退出点子模型m(i，ω)的梯度，

提供了一个无偏估计。

S4.3，将步骤S4.2更新后的模型权重进行固定，将多退出点子模型的验证精度和模型大小设定为奖励函数，以最大化期望奖励为目标，利用测试集对控制器参数进行更新；

所述奖励函数是在测试集上进行计算的，可以防止模型在训练集上的过拟合现象，将对多退出点子模型大小的控制和子模型的验证精度相结合设定奖励函数，奖励函数R(m，ω)的计算公式为：

表示抽样的多退出点子模型m(i，ω)的参数量，R(m_i，ω)表示多退出点子模型m(i，ω)的奖励函数，P表示基线卷积神经网络的参数，所述基线卷积神经网络为ResNet34。

可以保证搜索到的多退出点子模型的大小在卷积神经网络的大小的一半左右，从而得到轻量化的子模型。期望奖励采用E_{m～π(m；θ)}[R(m，ω)]表示。

控制器用来执行每一个动作，即选择每一层的节点以及连接方式，从而生成子模型。在基于策略梯度下降的强化学习方法中，需要更新两组参数，分别是控制器参数θ，和子模型的共享参数ω，也即模型权重。第一阶段先训练子模型的共享参数，第二阶段训练控制器参数，这两个阶段交替进行。同时，策略π(m，θ)计算每一个动作后的策略梯度，沿着梯度方法，控制器逐步调整动作，每一次搜索到性能更好的网络模块以及连接方式，直到得到最优的策略，实现了通过参数更新给出更高的验证准确率也即验证精度以及更小的模型。

S4.4，判断i＜n，如果是，返回步骤S4.2，否则输出训练后的多退出点模型。

如下以电力边缘侧的模型压缩问题作为例子，利用基于神经架构搜索的轻量级多退出点技术进行树形结构的搜索，并与传统的多退出点模型以及视觉模型相比较，得到本方案的技术优势。

由于电力边缘侧的设备通常资源紧张，因而只能供给占用内存小、计算简单的轻量级模型。模型轻量化能够缓解电网边缘侧设备的资源紧张态势，以一种可接受的性能补偿代价来换取更小的模型尺寸，以便于模型能够在电网边缘侧成功训练和运转，完成所需的信息采集、数据分析等任务。因此，在资源受限的电力领域，要想实现准确的数据处理等任务，就需要使用本申请的轻量级多退出点模型实现电力领域的模型压缩，在提供精度保证的同时对模型进行压缩有效减少模型体积。

如图2所示，给出了基于神经架构搜索的轻量级多退出点模型和传统的深度神经网络在图像分类任务上的精度和模型大小的对比图。本申请(NAS with different exits)使用ResNet及其变体(ResNet and its variants)、一些轻量化模型(Lightweightmodels)如MobileNet_v2、ShuffleNet_v2、GoogLeNet、DenseNet进行了对比，可以看到，ResNet及其变体的精度较好，但是其参数量过大，不便于部署在边缘环境中；而其他现有工作中的轻量化模型虽然参数较小，但是其精度下降明显；而本申请搜索到的网络参数分布范围较广，在参数量相同的情况下，本申请的网络精度较高，且精度接近效果最好的ResNet。因此可以说明本申请在保证精度的同时，可以有效减少模型体积，提高资源利用率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经架构搜索的轻量级多退出点模型的建立方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于神经架构搜索的轻量级多退出点模型的建立方法，其特征在于，所述步骤S3包括如下步骤：

3.根据权利要求2所述的基于神经架构搜索的轻量级多退出点模型的建立方法，其特征在于，在步骤S3.3中，所述目标函数的公式为：

目标函数的约束条件为：

4.根据权利要求1所述的基于神经架构搜索的轻量级多退出点模型的建立方法，其特征在于，所述步骤S4包括如下步骤：

5.根据权利要求4所述的基于神经架构搜索的轻量级多退出点模型的建立方法，其特征在于，在步骤S4.3中，所述奖励函数的公式为：