CN116258165A

CN116258165A - 一种融合卷积及自注意力的多目标神经架构搜索方法

Info

Publication number: CN116258165A
Application number: CN202310110687.3A
Authority: CN
Inventors: 曹斌; 郑子豪; 熊波涛; 常玉春; 金云峰; 李耘
Original assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen; Nanjing Tianfu Software Co ltd; Dalian University of Technology; Hebei University of Technology
Current assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen; Nanjing Tianfu Software Co ltd; Dalian University of Technology; Hebei University of Technology
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-06-13

Abstract

本发明属于多目标演化神经架构搜索领域，提出一种融合卷积及自注意力的多目标演化神经架构搜索方法。通过构建改进多目标演化算法，提高神经架构搜索效率，在搜索过程中更快搜索出神经架构个体并保存，兼顾收敛性和多样性；通过构建融合卷积和注意力操作的搜索空间，提高在图像处理任务时的全局和局部信息的处理能力，提高搜索空间的可塑性和个体在不同任务集上的泛化性能；将搜索空间的卷积核大小、层数等决策变量进行编码，作为改进多目标演化算法的种群个体，通过改进多目标演化算法的运行搜索出表现最优的个体，并将其解码为最优的网络架构。本发明有效提高搜索效率并获得性能最好的神经架构。

Description

一种融合卷积及自注意力的多目标神经架构搜索方法

技术领域

本发明涉及多目标演化神经架构搜索领域，尤其涉及一种融合卷积及自注意力的多目标演化神经架构搜索方法。

背景技术

随着大规模数据集的任务的相继提出，卷积神经网络的结构变得越来越复杂，参数也越来越多。这代表着需要占用更多的资源和花费更长的时间。因此，神经架构搜索--Neural Architecture Search(NAS)是近些年提出的针对于特定的任务设计和数据集来使系统在给定的搜索空间内自动寻找并生成最优架构的一种方法，其核心思想就是网络通过强化学习等技术自动找到最优的网络架构从而取代设计者手动设计网络。神经架构搜索方法一般分为基于随机搜索、基于进化算法和基于强化学习。为了提高NAS算法的效率，人们提出了很多方法，从上到下两个层面都有，大多数集中在较低层次，包括权重分担，这就使得遗传算法可以很好地应用到其中进行架构的演化和选择。

自注意力机制和卷积操作是计算机视觉领域的两种主要的技术方法，自注意力机制相比卷积操作要问世的晚，但是一经推出便取得了达到甚至超过传统卷积神经网络的效果。两者主要区别在于卷积主要关注于局部的特征信息，而自注意力机制则对全局信息有很好的利用。最近一些研究学者通过将卷积和注意力融合在一起而推出了一些全新的模型，如《CoAtNet:Marrying Convolution and Attention for All Data Sizes》中Z.Dai等人提出的CoAtNet和《CvT:Introducing Convolutions to Vision Transformers》中H.Wu等人提出的CvT系列模型都是将两者的优势结合起来并取得了超过以往的效果，这对于卷积和自注意力的融合创造了一个良好的开端。之前的搜索空间都是在现有的一些成型的卷积神经网络模型的基础上进行扩展或利用一些卷积操作组合进行搜索空间的搭建。

融合卷积及自注意力的多目标演化神经架构搜索主要考虑以下问题：(1)搜索效率低问题：神经架构搜索通常要在广阔的搜索空间内进行采样，并且对采集到的子网进行评估，需要耗费大量的实践和计算资源，一些搜索任务在多块GPU上要耗费几十天甚至几个月的时间，这对于大多数研究者和普通实验室来说是无法承受的。(2)搜索空间可塑性低问题：在神经架构搜索过程中，如果搜索空间没有足够的深度和完整的连接部分，即使采样和评估过程表现再好，也很难搜索出优秀的个体。因此设计一个可塑性强的搜索空间是非常必要的。(3)搜索结果泛化性差问题：搜索出的理想的个体应该是有很好的泛化性，即针对不同的数据集只需对搜索出的个体进行简单的微调就可以适配数据集。但现在大多数搜索方法搜索出的个体在其他的数据集上进行完全训练后表现效果并不理想。

通过改进后的进化算法对神经网络的结构及参数进行优化。基于改进的演化算法可以在保证神经网络应用效果的前提下最大化的对其进行‘瘦身’。更好平衡搜索个体时的多样性和收敛性继而提升搜索效率。将注意力和卷积模块进行融合而提出网络结构搜索空间，并从中选出性能最好的结构。所搜索出的模型架构在特定数据集上在准确度和模型复杂度上都具有优异的表现。

发明内容

本发明的目标是对多目标演化算法进行改良，使其更加合理化地在搜索过程中选择最优个体，利用多目标演化算法的优势，提高架构搜索的效率。建立融合卷积操作和自注意力机制的新型搜索空间，引入融合参数，更好对搜索出的模型的复杂度和准确率进行平衡。卷积操作和自注意力机制的融合模块可以在模型运行过程中更全面的考虑全局和局部信息，从而提高搜索空间的可塑性，并且增加搜索出的个体的泛化性能。

本发明的技术方案如下：一种融合卷积及自注意力的多目标演化神经架构搜索方法，通过构建改进多目标演化算法，提高神经架构搜索效率，在搜索过程中更快搜索出神经架构个体并保存，兼顾收敛性和多样性；通过构建融合卷积和自注意力操作的搜索空间，提高在图像处理任务时的全局和局部信息的处理能力，提高搜索空间的可塑性和个体在不同任务集上的泛化性能；将搜索空间的卷积核大小、层数等决策变量进行编码，作为改进多目标演化算法的种群个体，通过改进多目标演化算法的运行搜索出表现最优的个体，并将其解码为最优的网络架构。

在演化算法方面，对传统多目标演化算法NSGA-II进行改进，在收敛性能和寻优性能方面都有了较好的提升，改进后的算法流程如图2所示。在搜索空间建构方面，提出融合卷积和自注意力机制的搜索空间。为了在图像分类任务中更好地全面考虑到局部和全局特征信息的处理，将卷积操作和自注意力机制融合在一起组成新型模型主干，如图3所示。基于NSGA-II改进的多目标演化算法对卷积和注意力混合区域进行区域层数及排列顺序进行架构搜索，寻找到性能最好的结构并在特定数据集上进行训练到最优性能。

S1.构建基于NSGA-II改进的多目标演化算法神经架构搜索框架；

S1.1.基于欧式距离的种群均匀初始化；

S1.1.1：对初始种群进行随机初始化，生成T倍预设数量个体；

S1.1.2：设置初始种群的副本，依据决策变量的取值范围，对副本中的个体的决策变量进行归一化；种群中任意个体的决策变量为x_i，其取值范围为[L_si，L_ei]，则进行归一化后的决策变量如下，

S1.1.3：设置参数ρ代表每个个体的欧式距离，n为决策变量个数；

S1.1.4：按照每个个体的ρ值大小进行排列，并根据ρ值从初始种群中均匀选出所需数量的种群个体；

S1.2基于收敛距离和拥挤度的自适应选择策略；

提出基于距离的收敛性指标α：将步骤S1.1.4获得的种群个体支配排序后，种群第一层的所有个体的收敛方向确定为整个种群的收敛方向，α为种群最后一层每个个体到种群第一层所有个体的平均距离；经过快速非支配排序后，第一层的第j个个体各目标值表示为：F_j＝(F_j1，F_j2，…，F_jy)，最后一层第k个个体各目标值表示为：L_k＝(L_k1，L_k2，…，L_ky)；

设第一层共有m个个体，y代表目标函数数量，z代表目标函数，最后一层第k个个体的收敛距离表示为：

β为个体的拥挤度，将拥挤度和收敛距离进行自适应融合后，最终的个体选择标准：

Gen为当前进化代数，maxGen为最大进化代数，每次迭代在最后一层个体中选择

值最大的个体；

S1.3自适应交叉变异算子；

使用种群的最大适应度值f_max和种群的平均适应度值f_avg的差值作为收敛性指标，差值越小代表种群越向中心收拢，收敛性越好；为了进一步保存种群中的优良个体和改变劣质个体，对优良个体采用的交叉概率和变异概率低于劣质个体采用的交叉概率和变异概率；

交叉和变异概率最终表示为：

f_better为在交叉操作中较大适应度个体的适应度值，f为个体目标值；

S1.4引入局部梯度算子；

为了更好的平衡局部搜索和全局搜索，在遗传算法中引入梯度算子来对个体进行局部搜索，并将搜索到的个体目标函数值与原值比较；当个体目标函数值优于原值则代替原值并完成更新，依据种群收敛性指标f_max和f_avg的差值来判定是否进行梯度搜索，当

时进行梯度运算：

对个体每个决策变量产生一个随机扰动，

σX＝{σx₁，σx₂，σx₃，…，σx_n}

各决策变量的梯度向量表示为：

各决策变量的更新表示为：

i∈[1,2,..,n]，λ为步长；设置终止值￡，当

时，梯度更新终止；

S2、基于NSGA-II改进的多目标演化算法输出最优架构：

Step2.1：将决策变量进行个体编码；

Step2.2：在决策变量范围内均匀初始化第一代种群；

Step2.3：进行非支配排序，使用锦标赛选择算法对父代进行选择，并使用自适应交叉和变异算子生成子种群；

Step2.4：子代和父代合并生成新种群，计算种群中所有个体的目标函数值，并判断条件是否满足对种群进行局部搜索条件，当满足条件时，则转至Step2.5，否则转至Step2.6；

Step2.5：使用梯度算子对种群中的每个个体进行局部搜索，根据搜索后的目标值对种群个体进行更新，直到满足搜索终止条件，种群更新完成后转至Step2.6；

Step2.6：对种群进行快速非支配排序，并对选择阶段的最后一层上的所有个体进行拥挤度和收敛距离计算，根据β值进行最终的个体选择，产生新一代父代种群；

Step2.7：判断当前迭代次数是否小于等于最大迭代次数，当满足时，当前迭代次数+1，跳转至Step2.3；否则输出最优解；

Step2.8：将最优架构解码为神经网络架构，并在任务数据集上训练至收敛；

S3、构建融合卷积和自注意力机制的搜索空间；

将卷积操作和自注意力机制融合在一起，搜索空间区域主干为mobilenetv3的形式，其包括自注意力和卷积混合模块；输入特征图经过1×1卷积后，分别进行卷积操作和自注意力操作，最后通过自注意力和卷积混合模块的两个融合参数进行融合；

搜索空间的主体结构为4个串联的block；使用一个3×3的卷积对输入图像进行处理，获取特征图；每个block包含1-4层，随着block层数增加，特征图的维度增加，长宽减小；在每个block的第一层处设置下采样操作，采样设置为2，其余层的输入和输出分辨率保持不变；

在mobilenetv3网络基础上，将自注意力和卷积混合模块替换掉原始卷积核大小为3×3的深度卷积；混合模块具体如下：

输入和输出特征图分别表示为

输入和输出特征图中像素(i,j)处特征张量分别为/>

定义/>

p,s∈[0,1,2....,k-1]为卷积核在(p,s)处权重，q_i,j，k_i,j，v_i,j和W_q分别代表对应输入特征图中像素(i,j)处的查询、键、值和转换矩阵，定义Shift移位操作，shift(f,Δx,Δy)＝f_i+Δx,j+Δy；

卷积操作分为两步；

卷积操作第一步：

卷积操作第二步：

注意力机制分为两步；

注意力机制第一步：q_i,j＝W_qa_i,j,k_i,j＝W_ka_i,j,v_i,j＝W_va_i,j(13)

注意力机制第二步：

卷积操作和自注意力机制的第一部分均是将特征映射到更深的空间，且占据主要浮点数运算和参数数量；卷积操作和自注意力机制的第二部分分别进行两种操作的特征聚合；将卷积操作和自注意力机制的第一部分进行操作共享后，分别进行各自第二部分操作；

自注意力和卷积混合模块的操作步骤如下：

S3.1特征投影

通过3个1×1卷积对输入特征图进行投影操作，并将投影得到的3个特征图分别按照通道数量C平均分为R组；

S3.2特征聚合

S3.2.1自注意力机制分支

S3.2.1.1自注意力线性化

原始注意力机制公式为

空间复杂度为O(N²)，时间复杂度为O(N²d)，N为输入序列长度，d为输入的维度，N大于d，对原始注意力机制公式进行函数分解

Attention(Q,K,V)＝φ(Q)(ψ(K)^TV) (16)

令φ为恒等函数，ψ为softmax，线性化后的自注意力机制公式为

线性化后的空间复杂度为O(Nd)，时间复杂度为O(Nd²)；

S3.2.1.2相对位置编码

使用线性化后的自注意力机制，当输入Q₁和Q₂相同时无法获得局部特征的差异，加入位置编码来引入位置信息，令位置编码矩阵为P，用于表示Q和V之间的关系并引入深度卷积

为哈达玛矩阵乘积；

最终注意力分支输出特征图为

S3.2.2卷积操作分支

S3.2.2.1全连接层

使用全连接层将投影得到的3个特征图转化为N组各k²个特征图；

S3.2.2.2移位操作

对每组k²个特征图进行移位操作，令一组矩阵为L_n，n∈{0,1,...,k²-1}，每个矩阵中，从第一行第一个值按行依次数起，第n个元素设值为1，其余元

素均设值为0，特征图组表示为H，则最终卷积分支输出为：

S3.3最终输出

设置两个融合参数α和β，α和β的取值范围都是[0，0.25，0.5，0.75，1]，两个融合参数分别代表在融合过程中卷积操作部分和自注意力机制部分的融合比例，最终输出表示为：

Output＝α×Atten+β×Conv (21)。

本发明的有益效果：

1.本发明为了在图像分类任务中更好地全面考虑到局部和全局特征信息的处理，将卷积和自注意力融合在一起组成新的模型搜索主干。设置了一个混合模块用来探索卷积模块和自注意力模块之间的关联。

2.本发明针对神经网络而进行改进的多目标演化算法的神经架构搜索方法来对卷积和自注意力混合模块进行区域层数及混合参数确定，并搜索出性能最好的神经架构，有效提高搜索效率。

3.本发明使用基于NSGA-II改进的多目标演化算法来提高神经架构搜索的效率，大大提高了搜索过程中的收敛速度和优秀个体的选中率。构建了融合卷积和自注意力机制的搜索空间，可以很好的平衡局部信息和全局信息的处理。增加了搜索个体的泛化性，且性能和复杂度获得普遍提升。

附图说明

图1为本发明融合卷积及自注意力的多目标演化神经架构搜索方法的流程示意图；

图2为基于NSGA-II改进的多目标演化算法流程图；

图3为混合模块示意图；

图4为搜索空间主干示意图。

具体实施方式

本发明的思路是：通过基于NSGA-II算法进行改进，在收敛性能和寻优性能方面都有了较好的提升。通过引入改进的多目标演化算法来进行卷积模块和基于自注意力机制的模块的神经结构搜索。首先为了在图像分类任务中更好地全面考虑到局部和全局特征信息的处理，将卷积和自注意力融合在一起组成新型的模型主干。用基于遗传算法的神经架构搜索方法来搜索出性能最好的结构。

参见图1，本发明包括以下步骤：

S1.构建基于NSGA-II改进的多目标演化算法的结构搜索框架，包括：

S1.1基于欧式距离的种群均匀初始化

算法在初始运行时个体的分布对算法之后的进展很重要，随机对种群进行初始化会不利于之后的种群的多样性和收敛性的发展，因此提出一种基于欧式距离的种群均匀初始化方法：

Step1.1.1：对初始种群进行随机初始化，生成20倍的预设数量的个体。

Step1.1.2：设置初始种群的副本，依据决策变量的取值范围，对副本中的个体的决策变量进行归一化。种群中任意个体的决策变量为x_i，其取值范围为[L_si，L_ei]，则进行归一化后的决策变量如下，

/>

Step1.1.3：设置参数ρ代表每个个体的欧式距离，m为决策向量总个数

Step1.1.4：按照每个个体的ρ值大小进行排列，并根据ρ值从初始种群中均匀选出所需数量的种群个体。

S1.2基于收敛距离和拥挤度的自适应选择策略

在算法运行过程中，种群的收敛性和多样性都应该关注到，但在早期阶段种群的个体散落在整个目标空间，此时应聚焦于收敛性。到了运行后期，种群个体大部已经聚集在最优解附近，此时更应强调多样性。对此在最后一层选择个体的过程中，除了使用拥挤度来保证选择个体的多样性，还应引入个体的收敛性指标。

在此提出基于距离的收敛性指标α：将步骤S1.1.4获得的种群个体支配排序后，种群第一层的所有个体的收敛方向确定为整个种群的收敛方向，α为种群最后一层每个个体到种群第一层所有个体的平均距离。经过快速非支配排序后，第j个个体各目标值表示为：F_j＝(F_j1，F_j2，…，F_jy)，最后一层第k个个体各目标值表示为：L_k＝(L_k1，L_k2，…，L_ky)。

Gen为当前进化代数，maxGen为最大进化代数，每次迭代在最后一层个体中优先选择

值最大的个体。

S1.3自适应交叉变异算子

我们使用种群的最大适应度值f_max和种群的平均适应度值f_avg的差值作为收敛性指标，差值越小代表种群越向中心收拢，收敛性越好，此时种群应偏向多样性发展，交叉和变异的概率需增大；反之则应减小。为了进一步保存种群中的优良个体和改变劣质个体，对优良个体采用较低的交叉和变异概率，促使其能较好的保存下来；对于较差个体使用较高的交叉变异概率。

对此将自适应的交叉和变异概率表示为：

f_better为在交叉操作中较大适应度个体的适应度值，f为个体目标值。

S1.4引入局部梯度算子

为了更好的平衡局部搜索和全局搜索，在遗传算法中引入梯度算子来对个体进行局部搜索，并将搜索到的个体目标函数值与原值比较，若优于原值则代替原值并完成更新，依据种群收敛性指标f_max和f_avg的差值来判定是否进行梯度搜索，当

时进行梯度运算：

对个体每个决策变量产生一个随机扰动，

σX＝{σx₁，σx₂，σx₃，…，σx_n}

各决策变量的梯度向量近似表示为：

各决策变量的更新表示为：

i∈[1,2,..,n]，λ为步长。设置终止值￡，当

时，梯度更新终止。

基于NSGA-II改进的多目标演化算法流程图如图2所示。

S2、基于NSGA-II改进的多目标演化算法输出最优架构：

Step2.1：将决策变量进行个体编码；

Step2.2：在决策变量范围内均匀初始化第一代种群；

Step2.4：子代和父代合并生成新种群，计算种群中所有个体的目标函数值，并判断条件是否满足对种群进行局部搜索，当满足条件时，则转至Step2.5，否则转至Step2.6；

Step2.8：将最优架构解码为神经网络架构，并在任务数据集上训练至收敛。

S3、构建融合卷积和注意力机制的搜索空间，包括：

大部分的神经网络模型结构设计为多个区域，每个区域设置不同的模块并进行不同次数的迭代。在图像识别任务的整个过程中在前期浅层特征中适合使用卷积操作来进行局部处理，后期则针对深层使用注意力机制进行全局的特征信息操作。但是这样还是将卷积和注意力机制视为两种不同的操作而进行融合，没有更深层次探寻之间的联系。

为此将卷积操作和注意力机制有机融合在一起，区域主干为mobilenetv3的形式，其包括自注意力和卷积的混合模块；输入特征图经过1×1卷积后，分别进行卷积操作和自注意力操作，最后通过自注意力和卷积混合模块的两个融合参数进行融合；

搜索空间主体结构示意图如图3所示。

混合模块结构图如图4所示，操作步骤如下：

S3.1特征投影

S3.2特征聚合

S3.2.1注意力机制分支

S3.2.1.1注意力线性化

原始注意力机制公式为

Attention(Q,K,V) ＝φ(Q)(ψ(K)^TV) (16)

令φ为恒等函数，ψ为softmax，线性化后的注意力机制公式为

线性化后的空间复杂度为O(Nd)，时间复杂度为O(Nd²)；

S3.2.1.2相对位置编码

°为哈达玛矩阵乘积；

最终注意力分支输出特征图为

S3.2.2卷积操作分支

S3.2.2.1全连接层

S3.2.2.2移位操作

对每组k²个特征图进行移位操作，令一组矩阵为L_n，n∈{0,1,...,k²-1}，每个矩阵中，从第一行第一个值按行依次数起，第n个元素设值为1，其余元素均设值为0，特征图组表示为H，则最终卷积分支输出为：

S3.3最终输出

Output ＝ α×Atten + β×Conv (21)。

实施例

首先根据具体环境和条件，基于NSGA-II改进的多目标演化算法进行子网采样的操作。以准确率和模型复杂度为优化目标，设置算法初始种群含有50个体，变异算子的初始变异概率为0.2，交叉算子的初始交叉概率为0.9，最大进化次数设置为7次。使用OxfordFlowers102和Cifar-10数据集对采集到的子网进行不完全训练并在测试集上对性能进行评估验证。然后对结构搜索完毕后选出的个体在数据集上进行完全训练，设置初始学习率为0.1×b/256，其中b为batchsize大小，优化器采用SGD，学习率可以随着epoch迭代次数的增加而自适应的动态变化。将最终的训练结果与其他半自动设计或自动设计出的模型进行性能对比。

TACNetM系列为我们搜索出的架构模型，经过在Cifar-10和Flowers-102数据集上进行完全训练后，最终表现及对比情况如表1所示：

表1模型在数据集表现及对比

从对比结果可以看出，搜索出的4个模型在保证高水平的准确率的同时也保持了低水平的参数量，而且计算速度更快。

Claims

1.一种融合卷积及自注意力的多目标演化神经架构搜索方法，其特征在于，通过构建改进多目标演化算法，提高神经架构搜索效率，在搜索过程中更快搜索出神经架构个体并保存，兼顾收敛性和多样性；通过构建融合卷积和自注意力操作的搜索空间，提高在图像处理任务时的全局和局部信息的处理能力，提高搜索空间的可塑性和个体在不同任务集上的泛化性能；将搜索空间的决策变量进行编码，作为改进多目标演化算法的种群个体，通过改进多目标演化算法的运行搜索出表现最优的个体，并将其解码为最优的网络架构；

S1.构建基于NSGA-II改进的多目标演化算法神经架构搜索框架；

S1.1.基于欧式距离的种群均匀初始化；

S1.1.1：对初始种群进行随机初始化，生成T倍预设数量个体；