CN116721327A

CN116721327A - 一种基于泛化界的神经网络架构搜索方法

Info

Publication number: CN116721327A
Application number: CN202310171264.2A
Authority: CN
Inventors: 刘波; 张思成
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-09-08

Abstract

本发明公开了一种基于泛化界的神经网络架构搜索方法，属于人工智能领域，具体属于深度神经网络架构搜索领域。现有的神经网络架构搜索技术搜索过程代价巨大，需要过多的计算资源并且搜索时间过长，本发明从预测的角度出发，提出了一种将候选网络架构的泛化误差上界作为评价值对网络架构进行比较的方法。方法包括：确定图像处理任务，并确定对图像处理任务选定图像处理的神经网络搜索空间；采样目标候选空间中的网络架构，验证选取评价值的正确性；根据评价指标进行网络架构搜索，得到最优架构；针对最优架构构建完整神经网络架构模型并进行训练，完成图像分类任务。本发明可以在满足一定分类准确度的前提下降低神经网络架构搜索的耗时。

Description

一种基于泛化界的神经网络架构搜索方法

技术领域

本发明涉及人工智能领域，更具体来说是深度学习方向的一种基于泛化界的神经网络架构搜索方法，在图像分类、目标检测和语义分割等任务上均可以应用。

背景技术

深度学习，作为机器学习领域中的一个研究方向，其本质是对观察数据进行分层特征表示，实现将低级特征进一步抽象成高级特征表示，而这一切都是通过神经网络来执行的。但是直到近十年，深度学习才再度成为人工智能研究的焦点领域，这主要得益于计算机算力的增强、大规模的可用数据集以及全新的算法和技术。深度学习在图像的检测与识别，语义分割，语音识别等领域均取得了重大突破，推动人工智能的发展向前迈进一大步。

而深度学习成功的原因可以归功于强大的特征提取能力，其中网络结构的设计对数据特征的表示和最终模型的表现起到了至关重要的作用。为了获取数据的更好的特征表示，研究人员设计了多种多样的复杂的网络架构，早期的神经网络是由研究人员基于先验知识以及专家经验并经过不断试错而得到的，这导致神经网络的性能在很大程度上受限于人为的认知水平，网络结构的设计也很难跳出原有思考模式并设计出一个最优的网络。随着数据量的增大，特征提取网络也越来越深，当面临不同的实际任务时，也需要选择不同的网络结构才能解决，一个很自然的想法就是能否尽量减少人工的干预，设计算法能够自动寻找最合适的网络架构，因此，神经网络架构搜索出现了，即从由众多神经网络组成的搜索空间中搜索出用于指定任务的最优秀的一个神经网络的技术。

早期的一些搜索算法，无论是基于强化学习的方法提出使用控制器来构建候选架构，这些架构会被评估然后根据表现反馈给控制器；还是后面提出的基于进化算法(本质上是一种有向的随机搜索)的算法通过交叉和突变环节在超网中不断发现更加优异的网络，这些方法虽然保证了架构的多样性和最终网络的性能，但是都需要巨大的计算资源并且搜索时间过长，昂贵的代价不是普通的深度学习从业人员所能负担得起的。后面又提出了基于可微分的方法，将之前被视为离散空间的黑盒优化问题的网络结构搜索转化为连续空间的优化问题，采用梯度下降法求解，虽然不需要评估大量架构，但是由于反向传播过程中需要将整个超网放在内存中，因此会占用大量的内存，而且架构缺乏多样性且缺乏解释性。这些方法无疑都限制了神经网络架构搜索的发展与实际的应用。因此，现有的方法还需要改进和提高。

如果从预测的角度来看待神经网络架构搜索过程，不用直接训练而通过尝试预测网络的准确性或者排名，无疑可以大大减少评估过程带来的沉重成本。本发明从神经网络的泛化界出发，以此为指标对初始架构进行评估，来衡量网络架构的最终性能，提出了一种更加高效更加便捷的神经网络架构搜索方法，并且以图像分类任务为例证明了良好效果。

发明内容

当我们使用神经网络架构搜索技术进行特定的机器学习任务，比如说图像分类任务，技术人员往往需要对已有的网络架构进行大量实验，从而选择出性能最优的神经网络架构模型。但是我们不仅希望搜索得到的神经网络结构是最优的，还要尽可能使搜索过程所花费的代价和时间都比较小。搜索过程代价巨大的原因在于需要对海量架构进行训练和评估，并且迭代多次。如果能够减少训练过程，甚至不训练无疑可以大大降低搜索成本。本发明基于此提出了一种免训练的神经网络架构搜索方法，该方法对选取的特定搜索空间中的所有网络架构计算PAC-Bayes bound值来限制泛化误差上界，进而用泛化误差来衡量网络架构的最终性能，搜索得到最佳架构，旨在解决现有技术中神经网络架构搜索耗时长的问题。

本发明专利总体分为四大部分：

(1)设置分类任务的数据集，设置神经网络架构的搜索空间，该空间中包含期望的网络模型。

(2)对搜索空间中的不同候选架构进行采样，计算每一个候选架构的泛化误差上界，以此为评价指标来衡量网络架构性能。

(3)计算不同架构的泛化误差值和最终分类准确率之间的相关系数，验证指标的正确性。

(4)在整个搜索空间中进行搜索，选择出最优的神经网络架构，并且对选出的网络架构进行训练，实现图像分类的任务。

本发明提出的方法具体技术方案如下:

1.选定统一的神经网络架构搜索比较平台NAS-Bench-201搜索空间，该空间是基于cell结构的块状结构，具有固定的搜索空间，并为几乎所有最新的NAS算法提供统一的基准。采用模块重复堆叠的方案，将离散的网络架构连续化松弛，构成连续的搜索空间，该搜索空间中包含所有候选网络模型。搜索空间被建模成有向无环图，代表卷积神经网络中的模块，有向无环图中的节点代表特征图信息，边代表操作。通过设置有向无环图中的节点数量以及操作集合来控制搜索空间的大小。不同架构之间cell块除外的结构设定是一致的，因此cell结构的种类即对应候选结构的种类。具体的，该cell架构中有四个节点和五个相关操作，对节点进行编号，编号靠前的节点都有一条到编号靠后节点的连接边，因此一共有6条边，操作集合为5种操作，包括卷积核为1的卷积操作，卷积核为3的卷积操作，平均池化操作，跳跃连接，以及zero操作。有向无环图中，每个中间节点和其每一个后继中间节点均有5条有向连接边，每条有向连接边代表操作集合中的一种操作，中间节点的特征信息是由其所有前驱节点通过对应有向边操作得到的特征提取结果共同构成。因此，搜索空间被表示成有向无环图总共产生5⁶即15625个cell候选对象，也就是搜索空间中有15625个候选架构。

2.得到特定的搜索空间后针对图像分类任务准备数据集，来验证具体架构在分类任务中的表现。

3.考虑到候选架构数量过多，对候选架构进行采样来计算不同神经网格架构的泛化误差上界，进而计算泛化误差上界的值与神经网络分类效果之间的相关系数。本发明的实验中采样了436个架构，泛化误差上界和最终分类准确率的相关性如附图3所示。

4.验证了所选评价指标的正确性之后，对整个神经网络架构搜索空间进行搜索，每一次选出不同的候选网络架构，计算其泛化误差上界来对架构进行排名，如果候选架构的泛化误差上界小于之前保存的架构，我们认为泛化误差上界小的架构性能优于泛化误差上界更大的架构，因此就更新候选架构，直至整个搜索空间遍历完毕，我们得到了泛化误差上界最小的架构，该候选架构即本轮搜索得到的最优架构。重复固定轮次减小误差，最终得到多轮搜索过后的最优神经网格架构。

5.将搜索出的架构模型作为针对此次图像分类数据集的深度神经网络建模结果。利用深度学习中图像分类的常用优化技巧，训练选出的网络架构，实现图像的分类任务。

6.提供一种终端，所述终端包括处理器、与处理器通信连接的计算机可读存储介质，所述计算机可读存储介质适于存储多条指令，所述处理器适于调用所述计算机可读存储介质中的指令，以执行实现上述任一项所述的基于泛化界的神经网络架构搜索方法的步骤。

有益效果

本发明提出一种基于泛化界的神经网络架构搜索方法，能够搜索到性能更优的神经网络架构模型。与现有技术相比，本发明提供的方法在验证了所选指标的正确性后，用不同架构之间的泛化界衡量不同网络架构模型的性能，最终得到单一的神经网络架构，可以通过免训练的方式实现神经网络架构搜索，在保证搜索出来的网络架构优良性能的同时，显著降低了计算量，减少神经网络架构搜索的巨大消耗。极大地减少了计算资源的浪费，为技术人员节省大量时间。同时，该方法能够为非技术人员或专业能力有限的人员带来便利，更加简单方便地应用到包括图像分类任务在内的其他人工智能领域。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

图1为本发明方法流程图；

图2为特定搜索空间的神经网络结构图；

图3为本发明提供的基于泛化界的神经网络架构搜索方法中评价值的正确性证明图；

图4为本发明搜索算法得到的最优神经网络架构图；

图5为本发明提供的终端的实施例的原理示意图。

具体实施方式：

本发明提出一种基于泛化界的神经网络架构搜索方法，使用到的实验环境资源如下所述，运行在Windows 10系统下，利用python3.8.3和pytorch1.7.0框架实现。为了加速深度神经网络的优化，本发明使用NVIDIAGTX 3080(16G)的GPU，CUDA版本为11.4。

具体实验步骤思路和细节如下：

步骤1：图像分类数据准备。

本发明采用cifar10公开数据集，图像数据来自现实世界，包含60000张大小为32x32的彩色图片，一共有10个类别，分别为飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车，每个类别均有6000张图片。数据集中有50000张图像作为训练集，10000张图像作为测试集。数据集被划分为5个训练块和1个测试块，每个块1万张图片。测试块包含了1000张从每个类别中随机选择的图片。训练块包含随机的剩余图像，但某些训练块可能对于一个类别的包含多于其他类别，训练块包含各个类别的5000张图片。这些类是完全互斥的，即在一个类别中出现的图片不会出现在其它类中。

步骤2：设置神经网络架构搜索空间。

手工设计神经网络的成本高昂并且随着网络架构越来越大和复杂，设计过程也变得越来越困难，从设计架构转向从候选架构中设计搜索算法能够自动发现有效的架构，无疑具有重大的意义。开创性的网络架构搜索(NAS)工作是借助强化学习和遗传算法的思想，这对一些从业者来说仍然是太慢了，尤其是没有巨大的计算资源的实验者。如果在没有任何网络训练的情况下执行神经网络架构搜索算法，对于快速实现具体任务或者比较不同的搜索算法是非常有用的。评估NAS算法有效性的一个主要障碍是搜索空间(所有候选架构的集合)太大，无法进行详尽的评估，目前有多个基准空间。本发明及后续的实验都是在NAS-Bench-201搜索空间基准上进行的，整个空间由15625个网络组成，前文详细介绍了该搜索空间中候选神经网络架构的区别在核心cell结构的不同，此外，搜索空间为三个数据集cifar10、cifar100、ImageNet-16-120(ImageNet下采样16x16，选取120类)提供了使用相同设置的训练日志以及每种结构候选的性能，其中就包括本发明采用的cifar10数据集。此外该搜索空间还提供了不同cell结构的训练性能，如每个训练周期后的训练和测试时间、训练集/验证集/测试集中模型的损失函数和精度、训练后模型参数、模型大小和模型计算量。给NAS算法快速挑选好的cell结构提供了可以查询的API，然后再将好的cell按照一定的规则堆叠成大的结构。主要用途包括：加速NAS算法，使用NAS-Bench-201等NAS算法，正则化进化算法/随机搜索/增强可以在0.1s内完成搜索过程，并给出所发现网络的性能；实时跟踪NAS算法的性能，对于单次NAS算法，使用NAS-Bench-201，可以随时观察当前预测的网络结构的性能，而无需重新训练该结构；公平比较每种NAS算法，不同的方法在重新训练搜索的网络结构时使用不同的超参数/数据增强/规则性等，现在使用NAS-Bench-201的API，每个研究人员都可以公平地比较搜索到的网络结构。

基于此，本发明设定的神经网络搜索空间为NAS-Bench-201基准空间，该空间中的神经网络架构示意图见附图2。

步骤3：采样搜索空间中的架构进行采样，计算不同候选架构的泛化界并且对神经网络的泛化界和性能之间的关系进行验证。

发明的目标是设计一种神经网络架构搜索方法，在初始化时对网络进行评分，以表明其最终训练的准确性，这样就可以取代现有NAS方法中昂贵的训练步骤同时也可以更好的探索现有的NAS方法。

本发明采用的评价神经网络的评价指标是候选架构的泛化界。考虑到选取的搜索空间中候选神经网络架构数量实在过多，我们采样了436个神经网络架构并且依据下文的计算方法对泛化上界进行计算，并使用该泛化界作为本发明提供的评价值对它们进行排名，结果如附图3所示，可以看出，在选定的数据集(CIFAR-10)上，所述评价值和网络的最终精度之间有很强的相关性，证明了本发明提供的评价值的有效性。

具体地，对于采样得到的不同候选网络架构，我们对每一个架构计算其泛化上界，本发明采用的是PAC-Bayesbound值。

为了方便理解，先简单介绍一下神经网络的泛化界和计算PAC-Bayesbound值的原因。

传统机器学习模型或者深度神经网络的泛化能力是表示模型从训练数据集推广到非训练数据集时，模型的性能表现。深度神经网络训练中通常有训练误差，期望误差，泛化误差为训练误差和期望误差之间的差距，模型的泛化能力往往是通过衡量模型的期望误差概率上界来完成的，即限制模型的泛化误差上界。机器学习模型不是通过记忆训练数据获得良好的概括，而是学习与数据生成过程相关联的一些基础规则，从而将该规则从训练数据外推到新的未知的数据中进行很好地概括。根据泛化误差上界定理可以从概率上说明经验风险近似期望风险的可信度，它与参数空间、假设空间的复杂度、稳定性、鲁棒性有关。泛化误差是衡量一个模型推广能力的标准，因此对不同模型计算泛化误差上界有助于选择最佳的模型。而选择PAC-Bayes边界作为本发明的神经网络泛化上界的原因在于：对于连续分类器空间，PAC-Bayes边界在实践中比大部分VC维相关的边界更紧，如在随机神经网络等分类器的应用中，它能够产生更紧的边界；通过更紧的PAC-Bayes边界来指导学习算法的改进，能设计出更好的分类算法，能有效地避免数据的过拟合问题；PAC-Bayes边界实质上实现了对类别假设空间的“平均”，因而基于该边界推导的学习算法，能够获得更好的分类性能。

运用PAC-Bayes理论，我们将深度神经网络看作一个分类器，重点在于研究分类器的参数分布，定义分类器分布真实误差和分类器分布经验误差之后，可以得到PAC-Bayes边界定理，对于所有的样本空间D，分类器c的所有先验分布P(c)和任意的概率δ∈(0,1]：

式中，样本空间为D，样本集为S，KL为KL距离，m代表数据集的数量，上述定理表明，对于分布Q中的任意分类器c，它的经验误差Q_S与真实误差Q_D可以由它的先验分布P(c)与真实分布Q(c)来界定。如果已知分类器的先验分布，并假设其真实分布和先验分布为同一类型，分类边界可以更紧，即分类误差损失更小。

作为第一个简化，我们将PAC-Bayes利用上界定理替换，用其凸替代物替换经验损失，并将Q限制为具有对角协方差结构的多元正态分布族N_ω,s，从而产生如下优化问题：

式中，w为神经网络参数，S_m为数据集，加号前面一项为经验误差。为了获得封闭形式的KL散度，我们选择P为多元正态分布。处于对称性的考虑，我们选择P＝N(0,λI),I为单位矩阵，为了处理λ的选择，我们使用单边界参数从离散集合中最优的选择λ，代价是稍微扩展我们的泛化边界。考虑到P的选择和对并界的连续逼近，我们有以下最小化问题

其中，

式中，ω₀为随机初始权重，b、c为固定参数，实验中选定为100和0.1。因为P和Q都是多元正态分布，KL项可以简化如下：

利用上述PAC-Bayes边界值的计算公式可以对采样得到的436个候选架构计算泛化上界，同时利用搜索空间NAS-Bench-201中的API可以方便地查询到不同架构的最终训练性能。计算它们之间的肯达尔相关系数并绘制散点图如附图3所示，可以证明，用泛化界作为指标对初始网络架构进行评估是很有效的。需要注意的是如果两个属性排名是相同的，肯达尔相关系数为1，两个属性正相关，如果两个属性排名完全相反，肯达尔相关系数为-1，两个属性负相关，如果排名是完全独立的，系数为0。

步骤4：在神经网络架构搜索空间搜索出最优架构。

验证了所选评价指标的正确性之后，对整个神经网络架构搜索空间进行搜索，每一次选出不同的候选网络架构，计算其泛化误差上界来对架构进行排名，如果候选架构的泛化误差上界小于之前保存的架构，我们认为泛化误差上界小的架构性能优于上界更大的架构，因此就更新候选架构，直至整个搜索空间遍历完毕，我们得到了泛化误差上界最小的架构，该候选架构即本轮搜索得到的最优架构。重复固定轮次减小误差，最终得到多轮搜索过后的最优神经网络架构。

步骤5：得到并且训练最优神经网络架构模型，完成图像分类任务。

针对具体数据集(本文为cifar10)，将最优神经网络架构模块(附图4)进行堆叠，构建图像分类任务的神经网络架构模型，最后对每个特征图做全局的平均池化，并进行线性分类，由softmax操作将输出值转为类别概率，得到图像分类结果。

在训练过程中，使用随机剪裁、随机水平翻转和随机遮掩的数据增强技术，损失函数为图像分类任务常用的交叉熵损失函数，利用批量随机梯度下降算法训练2000轮，批量大小为128，确保神经网络架构模型的训练达到收敛。

训练结束后，本发明搜索到的最优神经网络架构模型在cifar10数据集上的分类准确率为92.50％。

相比于现有的方法搜索时间从几天到几百天不等，本方法可以把神经网络架构搜索方法限制在几分钟内。

综上所述，本发明提供了一种基于泛化界的神经网络架构搜索方法，通过计算不同候选网络的泛化上界值作为评价值，评价值反映了神经网络的分类能力，最终搜索得到最优的神经网络架构，可以通过免训练的方式实现神经网络架构搜索，降低计算量，减少神经网络架构搜索的耗时。

基于上述方法，本发明还相应提供了一种终端，如附图5所示，所述终端包括处理器以及存储器。图5仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。所述存储器在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存，在另一些实施例中也可以是所述终端的外部存储设备。所述存储器用于存储安装于所述终端的应用软件及各类数据，所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。存储器上存储有基于泛化的神经网络架构搜索程序，该搜索程序可被处理器所执行，从而实现本发明中基于泛化界的神经网络架构搜索方法。

Claims

1.一种基于泛化界的神经网络架构搜索方法，其特征在于，包括以下步骤：

步骤1：图像分类数据集准备；

步骤2：设置神经网络架构搜索空间，选定NAS-Bench-201基准搜索空间，利用基准空间提供的API和训练日志，加速NAS算法，实时跟踪NAS算法的性能；

步骤3：采样搜索空间中的架构进行采样，计算不同候选架构的泛化界并且对神经网络的泛化界和性能之间的关系进行验证，证明选取评估指标的正确性；

步骤4：在神经网络架构搜索空间中进行搜索，选择出最优架构；

2.根据权利要求1所述的一种基于泛化界的神经网络架构搜索方法，其特征在于，采样计算候选网络架构的泛化上界作为评估指标并且对评价值进行验证，包括：

采样了部分神经网络架构并且对泛化误差上界进行计算；计算泛化误差上界时选取的计算值为PAC-Bayesbound；将深度神经网络看作一个分类器，研究分类器的参数分布，将分类器的后验分布Q限制为具有对角协方差结构的多元正态分布族，为了获得封闭形式的KL散度，选择分类器的后验分布P为多元正态分布。

3.根据权利要求1所述的一种基于泛化界的神经网络架构搜索方法，其特征在于，在神经网络架构搜索空间搜索出最优架构，得到并且训练最优神经网络架构模型，完成图像分类任务，包括：

从候选架构中每次抽样架构，计算不同架构的泛化上界即PAC-Bayesbound对不同架构的性能进行排序，固定轮次多次搜索减小误差最终得到多轮搜索过后的最优神经网络架构；构建出图像分类任务的神经网络架构模型，最后对每个特征图做全局的平均池化，并进行线性分类，由softmax操作将输出值转为类别概率，得到图像分类结果。