CN115620046A

CN115620046A - 一种基于半监督性能预测器的多目标神经架构搜索方法

Info

Publication number: CN115620046A
Application number: CN202211157727.1A
Authority: CN
Inventors: 刘德荣; 肖松毅; 王永华
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-17

Abstract

本发明涉及一种基于半监督性能预测器的多目标神经架构搜索方法，对搜索空间进行编码，将搜索空间中的操作映射为整数，形成样本；采样N个神经网络结构并获取其精度作为初始样本P，训练集成KNN回归模型作为初始半监督预测器；初始样本P产生候选种群P₁，得到P₀训练性能预测器；将父代种群P_t交叉和变异，得到交叉变异子种群P”，将父代种群P_t和交叉变异子种群P”混合并非支配排序；将支配等级低的个体选择发优先选择置信度高的个体加入新一代种群P_t+1，直到种群P_t+1的数量等于种群数量N。提高神经架构搜索的效率，并降低了此预测器的预测误差；使得遗传算法的搜索向具有高预测精度和高置信度的候选网络结构进行，提高搜索到高精度神经网络结构的概率。

Description

一种基于半监督性能预测器的多目标神经架构搜索方法

技术领域

本发明涉及半监督学习领域，更具体地，涉及一种基于半监督性能预测器的多目标神经架构搜索方法。

背景技术

深度神经网络在图像分类、自然语言处理、目标检测等各种实际应用中取得了巨大成功。这主要因为具有深层结构的神经网络的强大的特征提取能力，它可以直接从原始数据中学习有意义的特征，几乎不需要任何明确的特征工程。这使得研究人员能够专注于神经架构的设计。然而，设计神经结构在很大程度上依赖于研究人员的先验知识和经验。目前有前途的卷积神经网络(CNN)模型都是由具有丰富神经网络和图像处理知识的研究人员手动设计的。在实践中，大多数开发者并不具备此类知识。此外，神经网络体系结构通常特定于问题，问题的不同也意味着体系结构的改变。神经架构搜索(NAS)旨在自动化神经网络的架构设计，被认为是解决上述挑战的一种有前途的方法。

NAS在有限的资源下自动化搜索神经体系结构，以最少的人为干预，实现尽可能最佳的性能。NAS的早期工作使用强化学习方法，搜索到的神经结构在图像分类任务中达到了最先进的分类精度。随后，大规模进化的工作再次验证了这个概念的可行性，通过使用进化计算获得了类似的结果。NAS背后的关键技术涉及使用搜索策略，通过比较大量候选神经结构的性能来找到最佳的神经结构。因此，候选神经结构的性能排名非常重要。先前的NAS通常会完全训练候选神经结构，然后根据其在验证集上的性能获得候选神经结构的排名。然而，这种方法非常耗时，因为要训练的候选神经结构太多。大多数研究人员对于如此大的资源消耗是难以接受的。因此，神经架构搜索逐渐转向高效和轻量化。

加速神经架构搜索的一种常见方法是性能预测器。它只需要训练小部分神经网络，将这些带真实精度的神经网络作为训练数据训练性能预测器就能预测其他神经网络的性能，避免了在搜索过程中大量模型的从头训练。然而，监督学习下只有少量数据训练的性能预测器容易过拟合，因此对搜索出的神经网络精度预测不准确。半监督学习将高质量无标签数据作为训练数据训练性能预测器，大大缓解了监督学习的过拟合现象。然而，半监督学习构造的模型性能很大程度上受基础学习器影响，它的性能也会随着无标签数据的加入而减弱。此外现有的性能预测器都是通过筛选高置信度个体保证预测的精度。而进化算法的收敛很大程度上是通过筛选种群中的优秀个体而保证的。性能预测器无法保证预测种群中优秀个体的高置信度，也就无法保证搜索到高精度神经网络。

现有的技术中，中国发明专利公开了一种用于确定配置为执行特定的机器学习任务的任务神经网络的架构的方法。该方法包括：获得数据，该数据指定用于任务神经网络的候选架构的当前集合；对于当前集合中的每个候选架构：使用具有多个性能预测参数的性能预测神经网络来处理指定候选架构的数据，性能预测神经网络被配置为根据性能预测参数的当前值处理指定候选架构的数据以生成性能预测，该性能预测表征具有候选架构的神经网络在关于特定的机器学习任务的训练之后将执行得有多好；以及通过基于当前集合中的候选架构的性能预测来选择当前集合中的一个或多个候选架构来生成候选架构的更新集合，并不能保证预测种群中优秀个体的高置信度，也无法保证搜索到高精度神经网络。

发明内容

本发明为解决现有的性能预测器无法保证预测种群中优秀个体的高置信度，也无法保证搜索到高精度神经网络的技术缺陷，提供了一种基于半监督性能预测器的多目标神经架构搜索方法。

为实现以上发明目的，采用的技术方案是：

一种基于半监督性能预测器的多目标神经架构搜索方法，包括以下步骤：

S1：对搜索空间进行编码，将搜索空间中的操作映射为整数，形成样本；

S2：在样本中随机采样N个神经网络结构并获取其精度以作为初始样本P，进入遗传算法例程前训练两个集成KNN回归模型作为初始半监督预测器；

S3：初始样本P产生候选种群P₁，并通过半监督预测器预测其精度及计算其置信度，将候选种群P₁作为真正的初始种群P₀，得到P₀训练性能预测器；

S4：将父代种群P_t交叉和变异，得到交叉变异子种群P”，P₀训练性能预测器将父代种群P_t和交叉变异子种群P”混合并非支配排序；

S5：根据非支配排序结果，将支配等级低的个体云涌多目标选择发优先选择置信度高的个体加入新一代种群P_t+1，直到新一代种群P_t+1的数量等于种群数量N，到此完成搜索。

上述方案中，为提高神经架构搜索的效率，提出了一种新型的半监督预测器，并通过集成学习和截断操作有效降低了此预测器的预测误差；为此性能预测器构造了预测置信度以衡量预测器的预测精度的准确性，给遗传算法的环境选择提供了选择方向，在进化过程中，将环境选择问题转化为性能预测器的预测置信度和预测精度的多目标选择问题，使得遗传算法的搜索向具有高预测精度和高置信度的候选网络结构进行，提高了搜索到高精度神经网络结构的概率。

优选的，在步骤S1中，所述搜索空间为所有编码后的架构组成的空间，所述搜索空间包括五个功能层，为1×1卷积、3×3卷积、3×3平均池、跳过连接和零。

优选的，在步骤S2中，训练集成KNN回归模型包括以下步骤：

S21：设定训练数据大小为M，集成模型的子模型的总数量N，数据维度为D，同时设定基础模型参数：近邻数量k，距离计算参数分别为p₁、p₂；

S22：取m个数据m<M,取d个维度d<D，构成小训练样本，根据设定的KNN集成模型的近邻数量k和距离计算参数p₁,p₂训练子模型，最后训练得到N个子回归模型；

S23：N个子模型分别对无标记数据进行预测，并将预测结果取平均值，将此平均值作为集成模型的预测结果。

上述方案中，为方便计算，将两个集成KNN模型EnKNN1和EnKNN2作为半监督回归算法的基础模型，并且设定训练数据集大小等于预测数据集大小。集成模型的近邻数量均设定为3，距离计算方式设定：p1为欧式距离和p2为数值p2下的闵可夫斯基距离。半监督性能预测器的预测误差是不可避免的。同时随着训练样本中无标记样本数量不断增加，性能预测器的误差会不断累积。虽然构造了集成KNN模型代替经典的KNN算法，有效地降低了对样本的预测误差。然而，半监督回归是一个不断将高质量的预测候选样本加入训练样本的过程，其预测误差会随着预测样本的加入而增加。因此对半监督预测器进行截断，避免预测误差的增加。即设定每次预测N个候选样本后，构造的半监督预测器将停止预测，然后重新训练。

优选的，在步骤S3中，包括以下步骤：

S31：随机采样N个神经架构并对其进行编码，训练获得其精度；

S32：将N个编码后的神经架构作为训练样本训练EnKNN1和EnKNN2两个回归模型；

S33：产生N个候选样本，EnKNN1和EnKNN2预测候选样本的精度，并预测提升的精读：

S34：若EnKNN1预测样本的最大预测提升大于0，则将具有最大预测提升的样本及其预测精度作为EnKNN2的新训练样本；若EnKNN1预测样本的最大预测提升小于等于0，则没有训练样本被作为预测样本；EnKNN2执行同样的操作；同时将被预测样本从候选样本中删除；

S35：如果EnKNN1的训练样本有增加，则用新训练样本重新训练EnKNN1；如果EnKNN2的训练样本有增加，则用新训练样本重新训练EnKNN2；

S36：当EnKNN1的训练样本有增加时，用EnKNN2计算EnKNN1的新增训练样本的置信度，同时用EnKNN1计算EnKNN2的新增训练样本的置信度；

S37：循环S34、S35、S36，如果P个候选样本都被作为训练样本分别加入EnKNN1和ENKNN2，则P个样本都得到预测，此性能预测器被截断，不再进行预测；如果EnKNN1和ENKNN2的所有预测样本的预测提升都小于0，则这组样本的预测误差大，强制截断此性能预测器；

S38：输出EnKNN1和EnKNN2对候选样本的预测结果及步骤S36中预测结果的置信度；

S39：用原始采样得到的具有真实精度的神经网络训练被截断的EnKNN1和EnKNN2。

优选的，在步骤S33中，预测候选样本的精度通过以下公式：

优选的，在步骤S36中，在为预测样本重新训练模型后，所有标记样本的预测平均偏差。计算公式如下：

其中D_l表示带标签样本数量，f(x)表示x的真实标签，y表示当前预测值。

上述方案中，集成模型一定程度上减少了性能预测器的误差，但仍然是广泛存在的，需要一个置信度描绘性能预测器的预测误差。预测置信度描述了预测因子预测的准确性，与经典半监督回归算法的预测提升有着不同的意义。同时，本发明提出的半监督性能预测器的训练样本包括标记样本和未标记样本。无真实标记的样本的预测结果不准确。因此，本发明构造了一个预测置信度。

优选的，在步骤S4中，对父代种群P_t进行两两交叉，得到交叉种群P’，再对交叉子种群P’进行变异操作，产生交叉变异子种群P”，利用半监督性能预测器预测交叉变异子种群P”的精度并计算精度对应的置信度，之后用P₀训练性能预测器将父代种群P_t和交叉变异子种群P”混合为一个种群P_p，将种群P_p的预测精度和预测置信度作为需要优化的两个目标，并进行非支配排序。

优选的，在步骤S5中，根据非支配排序结果，将支配等级低的个体加入新一代种群P_t+1，当出现新一代种群P_t+1的数量加P的某一层个体的数量大于种群数量N时，将预测置信度作为选择方向，优先选择置信度高的个体加入新一代种群Pt+1，直到新一代种群Pt+1的数量等于种群数量N。

上述方案中，多目标优化涉及到解向量之间的支配关系和帕累托前沿的分析。具有m个目标和n个决策变量的的多目标优化问题可以描述为：

minF_m(x)＝{f₁(x),f₂(x),...,f_m(x)}

s.t.h_u(x)≤0,u＝1,2,...,p

g_v(x)＝0,v＝1,2,...,q

x∈Ω

其中，

决策空间，x∈{x1,x2,……xn}是决策变量的可行域，n是变量的维度。

是目标空间，m是优化目标函数值的个数，fi(x)是第i个目标函数值。当目标个数为2-3个时，称为一般多目标优化问题，当目标个数在4个及以上时，称为高维多目标优化问题。h_u(x)和g_v(x)分别是不等式约束和等式约束，满足约束条件的解称为可行解。绝对最优解需要在满足约束的情况下同时使多个目标最优。但是，由于决策变量在多个目标之间的相互排斥，很难获得绝对最优解一般都是获得最优解集，这组最优解集一般称为Pareto前沿。

优选的，多目标选择方法在预定义的终止条件内循环这两个过程中，当算法结束时输出最后的多目标的最优解集，其中是同时具有高预测精度和高置信度的个体。

Pareto支配：假设p和q是群体NP中的任意两个不同的个体，当满足：

(1)对所有子目标都有fk(p)≤fk(q)(k＝1,2,3,……,m)。

(2)

l∈{1,2,3,……,m}，使fl(p)<fl(q)。其中m是子目标的数量。

称p支配q，表示为p＞q。

Pareto最优解：多目标优化的最优解通常称为Pareto最优解，当目标空间中不存在其他个体支配x时，称x为Pareto最优解。

Pareto前沿：Pareto前沿(PF)是Pareto最优解集在目标空间的投影。

遗传算法通过环境选择在候选群体和亲本群体中保留高质量的个体。换句话说，遗传算法不断探索高质量个体的区域，希望找到最好的个体。基于性能预测器的进化算法(SAEA)也不例外。然而，目前大多数SAEA的环境选择方法都是基于置信度选择的。它保留了对下一代种群具有较高预测置信度的个体，确保了预测的准确性。但是，预测器并不能保证被预测个体既有很高的预测信心，又有很高的精度。这表明SAEA不能保证探索高精度个体所在的区域。在SAEA中，被预测个体需要在高预测置信度和高预测精度之间进行权衡。SAEA算法需要探索更多真实高质量个体所在的区域，同时需要找到更多具有高预测置信度和高质量的个体。将预测置信度和预测精度的选择视为一个多目标优化问题，利用进化过程中的Pareto支配关系筛选出具有高预测置信度和高预测精度的神经网络结构。对于关键个体的选择，为了减少提出的准确度预测器的预测误差，本发明优先考虑具有高预测置信度的个体。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于半监督性能预测器的多目标神经架构搜索方法，为提高神经架构搜索的效率，提出了一种新型的半监督预测器，并通过集成学习和截断操作有效降低了此预测器的预测误差；为此性能预测器构造了预测置信度以衡量预测器的预测精度的准确性，给遗传算法的环境选择提供了选择方向，在进化过程中，将环境选择问题转化为性能预测器的预测置信度和预测精度的多目标选择问题，使得遗传算法的搜索向具有高预测精度和高置信度的候选网络结构进行，提高了搜索到高精度神经网络结构的概率。

附图说明

图1为本发明的方法流程图；

图2为本发明的神经架构搜索方法流程图；

图3为本发明的提出的集成模型示意图；

图4为本发明的提出的半监督性能预测器流程图；

图5为本发明的NAS-Bench 201的搜索空间图；

图6为本发明的pareto前沿收敛曲线图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1～图4所示，一种基于半监督性能预测器的多目标神经架构搜索方法，包括以下步骤：

优选的，如图3所示，在步骤S2中，训练集成KNN回归模型包括以下步骤：

优选的，在步骤S3中，如图4所示，包括以下步骤：

优选的，在步骤S33中，预测候选样本的精度通过以下公式：

minF_m(x)＝{f₁(x),f₂(x),...,f_m(x)}

s.t.h_u(x)≤0,u＝1,2,...,p

g_v(x)＝0,v＝1,2,...,q

x∈Ω

其中，

实施例2

如图5所示，本发明基于测试集NAS-Bench 201，NAS201就是图像分类场景的benchmark，是最流行的NAS基准测试之一。NASBench-201中基于单元的搜索空间表示为DAG，节点表示与操作变换相关的特征映射和边的总和。每个DAG由4个节点和5个相关操作生成：1×1卷积、3×3卷积、3×3平均池、跳过连接和无操作。神经网络的具体结构如图5所示。

为方便遗传算法的搜索和半监督性能预测器的训练，本发明输入的是经过编码的神经网络结构，采用了整数型编码方案对此搜索空间进行编码。将1×1卷积、3×3卷积、3×3平均池、跳过连接和零这5个操作映射到[0-4]的整数空间，输出得到不同的预测效果，在编码方案中不考虑这些操作的参数和属性，避免了人为设定而产生的偏好，结合了半监督学习和进化算法的优势，能够从提升初始样本质量和增强基础模型性能两个方面提高性能预测器的性能，实现高效精准的神经架构性能预测。

实施例3

表1是与其他NAS算法的性能对比；针对三个数据集提供了每个候选架构的训练细节：CIFAR-10、CIFAR-100和ImageNet-16-120上具有200个回合的预训练的验证和测试精度。这个结构中其他变量均被固定。本发明使用不同的随机种子对每种方法进行5次独立试验，并在表中报告平均值和标准差。其中TSNAS-35和TSNAS-50两个算法均为本发明所提出的算法。35表示集成的子模型的数量为35，同样50表示50个子模型集成。表中黑体表示所有算法的最好结果。可以看到相对于其他NAS算法，本发明提出的半监督性能预测器在三个不同的图像数据集都具有最好的表现。

表1 与其他NAS算法的性能对比

为了更加直观地体现模型地预测效果，本发明在搜索过程的1，5，10，15,20这5个回合进行取样，对此算法的pareto前沿进行了可视化。如图6所示，1-20回合的pareto前沿曲线可以看出，所提出的算法有清晰的收敛曲线，说明本发明的多目标选择方法是有效的。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S1中，所述搜索空间为所有编码后的架构组成的空间。

3.根据权利要求2所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，所述搜索空间包括五个功能层，为1×1卷积、3×3卷积、3×3平均池、跳过连接和零。

4.根据权利要求2所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S2中，训练集成KNN回归模型包括以下步骤：

S22：取m个数据m<M,取d个维度d<D，构成小训练样本，根据设定的KNN集成模型的近邻数量k和距离计算参数p₁，p₂训练子模型，最后训练得到N个子回归模型；

5.根据权利要求4所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S3中，包括以下步骤：

6.根据权利要求5所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S33中，预测候选样本的精度通过以下公式：

7.根据权利要求6所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S36中，在为预测样本重新训练模型后，所有标记样本的预测平均偏差。计算公式如下：

8.根据权利要求5所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S4中，对父代种群P_t进行两两交叉，得到交叉种群P’，再对交叉子种群P’进行变异操作，产生交叉变异子种群P”，利用半监督性能预测器预测交叉变异子种群P”的精度并计算精度对应的置信度，之后用P₀训练性能预测器将父代种群P_t和交叉变异子种群P”混合为一个种群P_p，将种群P_p的预测精度和预测置信度作为需要优化的两个目标，并进行非支配排序。

9.根据权利要求8所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，在步骤S5中，根据非支配排序结果，将支配等级低的个体加入新一代种群P_t+1，当出现新一代种群P_t+1的数量加P的某一层个体的数量大于种群数量N时，将预测置信度作为选择方向，优先选择置信度高的个体加入新一代种群P_t+1，直到新一代种群P_t+1的数量等于种群数量N。

10.根据权利要求9所述的一种基于半监督性能预测器的多目标神经架构搜索方法，其特征在于，多目标选择方法在预定义的终止条件内循环这两个过程中，当算法结束时输出最后的多目标的最优解集，其中是同时具有高预测精度和高置信度的个体。