CN112381208A

CN112381208A - 一种深度渐进且逐步寻优的神经网络架构搜索方法与系统

Info

Publication number: CN112381208A
Application number: CN202011268902.5A
Authority: CN
Inventors: 陆顺; 胡瑜
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-19
Anticipated expiration: 2040-11-13
Also published as: CN112381208B

Abstract

本发明提出一种深度渐进且逐步寻优的神经网络架构搜索方法与系统，包括：步骤1、构建包含和不包含下采样操作的第一搜索单元和第二搜索单元，堆叠第一搜索单元和第二搜索单元，形成超网；步骤2、通过梯度下降法搜索得到超网的有向无环图中每个边的每个操作的权重系数，每条边通过选择边对应操作中权重系数最大的操作，得到每条边最终搜得的操作结果，以操作结果分别更新第一搜索单元和第二搜索单元，得到第一更新单元和第二更新单元，堆叠第一更新单元和第二更新单元，得到单模型；步骤3、判断单模型深度是否小于目标模型深度，若是，将预设递增数量的第一搜索单元堆叠至单模型，形成超网，再次执行步骤2，否则将单模型作为神经网络搜索结果。

Description

一种深度渐进且逐步寻优的神经网络架构搜索方法与系统

技术领域

本发明涉及自动化机器学习中神经网络架构搜索领域，尤其涉及一种神经网络深度渐进搜索并逐步寻优的方法与装置。

背景技术

自动化机器学习(Automated Machine Learning，简称Auto-ML)是模型选择、特征抽取和超参数调优的一系列自动化方法，可以实现自动训练有价值的模型。从机器学习角度讲，Auto-ML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用。从自动化角度讲，Auto-ML则可以看作是设计一系列高级的控制系统去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。即使是对经验丰富的机器学习从业者而言，这一自动化过程也可以加快速度。Auto-ML的主要问题可以由三部分构成：特征工程、模型选择、算法选择。

神经网络架构搜索(Neural Architecture Search，简称NAS)主要是面向自动化机器学习中的模型选择类问题。神经网络架构搜索通常涉及学习像层(又可称为“单元”)之类的东西，它们可以通过堆叠一系列重复的单元来构建神经网络模型。通常使用强化学习或进化算法来选择不同的神经网络结构，实现神经网络可以设计神经网络，代表着机器学习的未来方向。NAS是Auto-ML的子领域，根据维度可分为三类：搜索空间、搜索策略和性能评估策略。搜索空间定义了优化问题的复杂度，随着网络结构和超参数的变量定义的不同，不同搜索空间对于神经网络架构搜索的难度来说也不尽相同。搜索策略定义了使用怎样的算法可以快速、准确地找到较优或最优的网络结构参数配置。常见的搜索方法包括：随机搜索、贝叶斯优化、进化算法、强化学习、基于梯度的算法等。性能评估策略类似于工程优化中的代理模型。由于神经网络架构搜索需要验证大量的深度神经网络模型的性能，但是模型的效果非常依赖于训练数据的规模，而大规模数据上的模型训练会非常耗时，从而导致对优化结果的评价将会非常耗时，所以需要一些手段去做近似的评估。当前常用的一种思路是采用一些低保真的训练集来训练模型即借鉴于工程优化中的代理模型思想，如训练更少的轮数，或用原始训练数据的一部分，或用低分辨率的图片，亦或是每一层用更少的滤波器等。用这种低保真的训练集来测试优化算法会大大降低计算时间，因为选择最优的架构并不需要绝对值，只需要有相对值就可以进行排序选优了。

发明内容

发明人在进行神经网络架构搜索的相关研究时，发现现有技术DARTS存在严重的优化差异(包括深度优化差异和离散化差异)，即模型搜索和模型评估的目标存在一定偏差。P-DARTS方法对DARTS的优化差异问题进行了改进，主要是将搜索分为三个阶段，使每个阶段的搜索深度渐进变深，同时在每个搜索阶段结束时，仅保留当前阶段占优势的若干操作，删去冗余操作。但是，P-DARTS的改进方式依然不够鲁棒，搜得模型容易出现跳跃聚集从而导致性能崩塌，需要添加人为先验作为限制约束，并且模型搜索和模型评估过程仍然存在着深度优化差异和离散化差异，没有完全消除。因此，本发明人提出，将搜索分为若干阶段，每个阶段根据硬件限制自适应增加搜索深度，直至最后一个阶段使得搜索模型深度和评估模型深度一致，从而完全消除深度优化差异。同时，每个阶段通过架构搜索得到当前阶段的最优解，进入下一阶段的搜索，从而可进一步削减离散化差异。发明人经过研究发现，经过本方法的改进，不会出现跳跃连接聚集的问题。同时，使用本方法可以完全消除模型的深度优化差异并进一步削减离散化差异。

针对现有技术的不足，本发明提出一种深度渐进且逐步寻优的神经网络架构搜索方法，其他包括：

步骤1、构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元，通过堆叠该第一搜索单元和该第二搜索单元，形成供搜索的超网；

步骤2、通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数，每条边通过选择该边对应操作中权重系数最大的操作，得到每条边最终搜得的操作结果，以该操作结果分别更新该第一搜索单元和该第二搜索单元，得到第一更新单元和第二更新单元，堆叠该第一更新单元和该第二更新单元，得到单模型；

步骤3、判断该单模型深度是否小于目标模型深度，若是，则将预设递增数量的该第一搜索单元堆叠至该单模型，形成供搜索的超网，再次执行该步骤2，否则保存当前单模型作为神经网络搜索结果。

所述的深度渐进且逐步寻优的神经网络架构搜索方法，其他该第一搜索单元和该第二搜索单元均为同一种有向无环图。

所述的深度渐进且逐步寻优的神经网络架构搜索方法，其他该有向无环图包括多个节点，每个节点表示一张特征图，节点间的连接边为由多个待搜索操作构成的混合操作，每条边上的箭头表征信息流向，每条边中的混合操作都带有各自的权重系数α，边的输出特征图即为输入特征图经过操作集合后的加权求和，如下公式所示：

其中，x表示输入节点特征图，O表示候选操作集合，o表示候选操作集合中的某种操作，

为输出节点特征图。

输入节点、中间节点和输出节点，

所述的深度渐进且逐步寻优的神经网络架构搜索方法，其他根据硬件限制，设置该预设递增数量。

所述的深度渐进且逐步寻优的神经网络架构搜索系统，其他该多个节点包括输入节点，中间节点，和输出节点。

本发明还提出了一种深度渐进且逐步寻优的神经网络架构搜索系统，其他包括：

模块1、用于构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元，通过堆叠该第一搜索单元和该第二搜索单元，形成供搜索的超网；

模块2、用于通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数，每条边通过选择该边对应操作中权重系数最大的操作，得到每条边最终搜得的操作结果，以该操作结果分别更新该第一搜索单元和该第二搜索单元，得到第一更新单元和第二更新单元，堆叠该第一更新单元和该第二更新单元，得到单模型；

模块3、用于判断该单模型深度是否小于目标模型深度，若是，则将预设递增数量的该第一搜索单元堆叠至该单模型，形成供搜索的超网，再次执行该步骤2，否则保存当前单模型作为神经网络搜索结果。

所述的深度渐进且逐步寻优的神经网络架构搜索系统，其他该第一搜索单元和该第二搜索单元均为同一种有向无环图。

所述的深度渐进且逐步寻优的神经网络架构搜索系统，其他该有向无环图包括多个节点，每个节点表示一张特征图，节点间的连接边为由多个待搜索操作构成的混合操作，每条边上的箭头表征信息流向，每条边中的混合操作都带有各自的权重系数α，边的输出特征图即为输入特征图经过操作集合后的加权求和，如下公式所示：

为输出节点特征图。

输入节点、中间节点和输出节点，

所述的深度渐进且逐步寻优的神经网络架构搜索系统，其他根据硬件限制，设置该预设递增数量。

附图说明

图1是有向无环图与每条边为混合操作的示意图；

图2是超网深度逐渐逼近单模型的网络深度示意图；

图3是本发明的方法示意图；

图4是本发明的装置示意图。

具体实施方式

当前的神经网络架构搜索方法主要包含基于DARTS搜索空间和基于MobileNet/ShuffleNet Block搜索空间，通常采用基于梯度的搜索策略在小规模数据集(如CIFAR10等)上进行代理搜索，然后将所得模型迁移到大规模数据集(如ImageNet)进行评估。本发明基于当前常用的DARTS搜索空间并采用基于梯度的搜索策略，提出了一种神经网络深度渐进并逐步寻优的架构搜索方法与装置。

第一方面，本申请实施例提供一种神经网络深度渐进搜索并逐步寻优的方法，具体包括两步：用于逐步加深神经网络架构搜索深度的步骤1，和用于继承前序搜得最优解进行后续搜索的步骤2。本申请依次对上述步骤进行如下详细说明。

步骤1、逐步加深神经网络架构搜索深度。

基于DARTS搜索空间的神经网络架构搜索方法通常采用基于梯度的搜索策略在小规模数据集进行代理搜索。在搜索过程中，该类方法通常需要构建两种基础搜索单元，分别为不包含下采样操作的Normal Cell和包含下采样操作的Reduction Cell，通过堆叠以上两种不同的基础搜索单元形成一个可供搜索的神经网络(又可称为“超网”)，这两种搜索单元均为有向无环图，向无环图通常由多个节点构成，例如包括2个输入节点，4个中间节点，1个输出节点。节点与节点之间有连接边，每个连接边是多种操作的集合。这两种搜索单元的结构是一样的，差异在于每个连接边的候选操作集合不同，并且Normal Cell中每个连接边的每种操作均包含下采样，与之相对的Reduction Cell并不带有下采样。这两种不同的基础搜索单元均为一种有向无环图，有向无环图的结构相同，但是其中每条边对应的操作是不同的，如图1所示,其中包括两个输入节点(图中命名为c_k-2和c_k-1)，四个中间节点(图中标号1、2、3、4)，和一个输出节点(图中命名为c_k)，每个节点表示一张特征图，节点间的连接边为一种可搜索的混合操作。每条边包含该搜索空间中的所有候选操作的集合，每条边上的箭头表征信息流向，即从输入特征图经过混合操作集合得到输出特征图。每条边中的混合操作都带有各自的权重系数α(并约束其softmax和为1)，该条边的输出特征图即为输入特征图经过操作集合后的加权求和，如下公式所示，

即为输出节点特征图，α_o ^(ij)表示从节点i到节点j之间的操作o对应的权重系数。o和o’是两个求和符号中的变量，均表示操作。例如，对于每个操作o的权重系数取exp后，都要除以所有o’操作取exp后的值之和。

在搜索过程中，通过梯度下降算法对每条边中每个操作的权重系数α进行不断优化，待搜索结束后，每条边选择系数α最大的操作作为该边最终搜得的操作，从而可以得到搜得的两种基础搜索单元Normal Cell和Reduction Cell。再次通过堆叠搜得的基础搜索单元Normal Cell和Reduction Cell，即可得到该算法搜得的神经网络模型(又可称为“单模型”)。

由于在搜索过程和得到最终神经网络模型过程中都需要通过堆叠基础单元Normal Cell和Reduction Cell，但是现有技术使用的DARTS优化算法在这两次堆叠基础单元的数量并不相同，因此极易导致神经网络架构搜索过程中的优化目标和实际所需的优化目标并不一致。具体来讲，在搜索过程中构建超网和搜索结束时构建单模型所使用的基础单元数量不一致，造成超网和单模型的深度并不相同，从而导致神经网络架构搜索的优化目标与实际目标存在差异，记为“深度优化差异”。因此，本发明提出逐步加深神经网络架构搜索的深度，从而使得超网深度逐渐逼近单模型的网络深度，进而消除二者的深度优化差异。该流程示意图如图2所示。

在超网搜索过程中，本发明提出将单一搜索过程分为多个阶段，每个阶段均可在前一个阶段的基础上逐步加深超网的深度。例如，在第一个搜索阶段，基于当前常用的超网设置参数构建超网，设置超网深度为8，即包含6个Normal Cell和2个Reduction Cell。考虑到Normal Cell在超网和单模型中的数量都更多，对模型性能的影响远大于ReductionCell，并且超网和单模型中通常都只包含两个Reduction Cell。因此，在经过固定轮数搜索训练后，沿用第一个阶段搜得的Reduction Cell而只在当前超网后添加新的可搜索基础单元Normal Cell，也就是图2中本申请得到的20层的Fixed Cells是由2层Reduction Cell和18层Normal Cell组成。在实际搜索过程中，网络目标深度和渐进深度可根据实际情况确定，并不固定。在经过不同的搜索阶段后，超网深度逐渐增加，并在最后的搜索阶段设置超网深度与单模型深度相同，从而可在搜索过程中逐渐减少超网与单模型的深度优化差异，并最终消除该深度优化差异。

同时，在每个不同的搜索阶段，本发明提出新添加的Normal Cell数量可变。因为新添加的Normal Cell会进一步增大超网搜索时的计算机显存占用，所以根据不同的硬件限制，在每个搜索阶段可添加合适数量的Normal Cell来加深超网的深度。从而使得该搜索算法更加灵活，适用场景也更加丰富。

2、继承前序搜得最优解进行后续搜索

随着搜索深度的不断加深，超网模型的参数量会不断增加，对计算机显存的占用会越来越高。同时，另一方面，由于超网中每条边是一组操作的集合，而单模型中的每条边仅代表一种搜得的操作。但是DARTS算法在搜索过程结束后，直接根据每条边中α绝对值的大小保留最终操作，若超网变得越来越深，则会使搜得单模型结构和超网的差异越来越大，通常该问题又称为“离散化差异”。正是基于以上两点，本发明提出在每个搜索阶段，直接继承前序搜得最优解进行后续搜索。

具体来讲，在每个搜索阶段结束时，对当前阶段搜索的基础单元进行操作选择。选择每条边中α绝对值最大的操作，根据DARTS算法的既定规则得到当前阶段搜得的单模型。后续阶段直接使用当前阶段所得到的单模型，而不再对之前已经搜过的基础单元进行搜索。因此，使用该方法一方面能显著降低神经网络搜索过程中深度不断加深对显存的消耗，另一方面还能极大地缓解离散化差异，降低从超网得到最终单模型的精度损失。

第二方面，本发明实施提供一种神经网络深度渐进搜索并逐步寻优的装置，包括以下模块：

A、数据读取及预处理模块：该模块将训练数据根据相应超参数设置划分为训练集合验证集供神经网络架构搜索，将训练集和测试集读入并进行预处理供搜得单模型进行训练和验证；

B、超网构建模块：该模块根据当前的神经网络架构搜索阶段，并基于硬件限制，构建下一阶段可供搜索的不同深度的超参数网络；

C、神经网络架构搜索及优化模块：该模块主要包含两个部分。第一部分用于将经过预处理的训练数据送入超网进行前向传播，并通过反向传播来优化超网中不同候选操作自身的权重参数W；第二部分用于将经过预处理的验证集数据送入超网进行前向传播，并通过反向传播来优化超网中每条边包含的架构参数α；

D、单模型获取模块：该模块仅用于根据当前训练好的超网架构参数，提取搜得的单模型。

E、单模型训练及验证模块：该模块使用经过预处理的训练集对搜得单模型进行训练，优化单模型中的权重参数W，并在测试集上进行前向传播，得到输出与标签进行对比，从而验证该搜得单模型的性能好坏。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

实施例1

图3是本发明提供的一种神经网络深度渐进搜索并逐步寻优的方法，其步骤为：

S11：定义目标数据集和搜索空间，以DARTS搜索空间为例。

S12：根据DARTS算法的定义方式构建有向无环图Normal Cell和Reduction Cell，并根据当前搜索阶段，通过堆叠基础搜索单元构建超参数网络进行搜索。

S13：将训练集图片经过随机剪裁、翻转、归一化后，送入超参数网络中，前向传播后根据标签计算交叉熵损失，并进行反向传播计算梯度，使用SGD优化器依据梯度方向优化超网权重参数W。

S14：将验证集图片经过归一化后，送入超参数网络中，前向传播后根据标签计算交叉熵损失，并进行反向传播计算梯度，使用SGD优化器依据梯度方向优化超网中每条边包含的架构参数α。

S15：当前阶段搜索结束，选择有向无环图中每条边α值最大的操作作为搜得基础单元每条边的最终操作，从而得到当前阶段搜得的基础单元。堆叠当前阶段搜得的基础单元形成当前阶段所得的单模型。

S16：在当前阶段搜得的单模型后，依据硬件限制，添加基础搜索单元NormalCell，形成下一个阶段可供搜索的超网。

S17：重复迭代上述步骤S12-S16，直到超网深度与搜得单模型深度相同为止。

实施例2

本发明实施例还提供一种神经网络深度渐进搜索并逐步寻优的装置，如图4所示，该装置包括：数据读取及预处理模块21、超网构建模块22、神经网络架构搜索及优化模块23、单模型获取模块24、单模型训练及验证模块25。

数据读取及预处理模块21，将训练数据根据相应超参数设置划分为训练集合验证集供神经网络架构搜索，将训练集和测试集读入并进行预处理供搜得单模型进行训练和验证；超网构建模块22，该模块根据当前的神经网络架构搜索阶段，并基于硬件限制，构建下一阶段可供搜索的不同深度的超参数网络；神经网络架构搜索及优化模块23，该模块主要包含两个部分。第一部分用于将经过预处理的训练数据送入超网进行前向传播，并通过反向传播来优化超网中不同候选操作自身的权重参数W；第二部分用于将经过预处理的验证集数据送入超网进行前向传播，并通过反向传播来优化超网中每条边包含的架构参数α；单模型获取模块24，该模块仅用于根据当前训练好的超网架构参数，提取搜得的单模型；单模型训练及验证模块25，该模块使用经过预处理的训练集对搜得单模型进行训练，优化单模型中的权重参数W，并在测试集上进行前向传播，得到输出与标签进行对比，从而验证该搜得单模型的性能好坏。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

为输出节点特征图。

输入节点、中间节点和输出节点，

所述的深度渐进且逐步寻优的神经网络架构搜索系统，其他该多个节点包括输入节点、中间节点和输出节点。

Claims

1.一种深度渐进且逐步寻优的神经网络架构搜索方法，其特征在于，包括：

2.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索方法，其特征在于，该第一搜索单元和该第二搜索单元均为同一结构的有向无环图。

3.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索方法，其特征在于，该有向无环图包括多个节点，每个节点表示一张特征图，节点间的连接边为由多个待搜索操作构成的混合操作，每条边上的箭头表征信息流向，每条边中的混合操作都带有各自的权重系数α，边的输出特征图即为输入特征图经过操作集合后的加权求和，如下公式所示：

为输出节点特征图。

输入节点、中间节点和输出节点。

4.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索方法，其特征在于，根据硬件限制，设置该预设递增数量。

5.如权利要求3所述的深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，该多个节点包括输入节点、中间节点和输出节点。

6.一种深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，包括：

7.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，该第一搜索单元和该第二搜索单元均为同一结构的有向无环图。

8.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，该有向无环图包括多个节点，每个节点表示一张特征图，节点间的连接边为由多个待搜索操作构成的混合操作，每条边上的箭头表征信息流向，每条边中的混合操作都带有各自的权重系数α，边的输出特征图即为输入特征图经过操作集合后的加权求和，如下公式所示：

为输出节点特征图。

输入节点、中间节点和输出节点。

9.如权利要求1所述的深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，根据硬件限制，设置该预设递增数量。

10.如权利要求3所述的深度渐进且逐步寻优的神经网络架构搜索系统，其特征在于，该多个节点包括输入节点、中间节点和输出节点。