CN112508104A - 一种基于快速网络架构搜索的跨任务图像分类方法 - Google Patents
一种基于快速网络架构搜索的跨任务图像分类方法 Download PDFInfo
- Publication number
- CN112508104A CN112508104A CN202011441402.7A CN202011441402A CN112508104A CN 112508104 A CN112508104 A CN 112508104A CN 202011441402 A CN202011441402 A CN 202011441402A CN 112508104 A CN112508104 A CN 112508104A
- Authority
- CN
- China
- Prior art keywords
- network
- task
- population
- individuals
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 32
- 210000000349 chromosome Anatomy 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000035772 mutation Effects 0.000 claims description 10
- 238000000926 separation method Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 210000004027 cell Anatomy 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims description 2
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 2
- 238000013209 evaluation strategy Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100121123 Caenorhabditis elegans gap-1 gene Proteins 0.000 description 1
- 241001655736 Catalpa bignonioides Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于快速网络架构搜索的跨任务图像分类方法,用于在多个图像分类任务中搜索最佳的神经网络架构。具体包括以下步骤,步骤1、获取用于神经网络架构搜索的多任务数据集,步骤2、构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,步骤3、在多任务数据集上进行跨任务搜索,搜索结果包含超级网络和结构种群,步骤4、基于步骤3的搜索结果,在新任务上快速搜索最佳网络架构。本发明适用于多任务但单个任务内图片数量非常少的情况下的神经网络架构自动搜索,相比其他神经网络架构搜索方法,搜索到单任务上分类性能最佳的网络的时间要少30倍。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于快速网络架构搜索的跨任务图像分类方法
背景技术
一个优秀的神经网络架构可以显著性地提高计算机视觉任务(图像分类、目标检测、图像分割等)的效率和准确度。因此,设计高性能的神经网络架构是目前深度学习中的重要研究内容。但是,人工设计网络架构受到专家的先验知识和研究者研究精力的严重限制,已经无法满足当前计算机视觉发展的需要。基于此类现状,提出了神经网络架构搜索(Neural Architecture Search,简称NAS),指在尽可能减少人工干预的条件下,基于既定的搜索空间,以自动化的方式搜索一种最优的神经网络架构。目前,神经网络架构搜索在多个领域(图像分类,图像分割,目标检测和自然语言处理等)上已经取得了优于人工设计的网络架构的结果。
神经网络架构搜索算法一般由搜索空间,搜索策略,性能评估策略三部分构成。搜索空间定义了搜索范围,决定了搜索的速度。结合关于网络架构方面的专家经验,通过减少搜索空间和简化搜索过程,搜索性能可以得到显著提升。评估策略一般按照通常训练方式对一个架构进行训练和验证以获得架构,但评估消耗的计算成本非常昂贵,并且限制了搜索空间。搜索策略定义了怎样去搜索,一般搜索策略有基于强化学习的搜索方法,基于进化算法的搜索方法和基于梯度的搜索方法。在论文Neural architecture search withreinforcement learning(Zoph B,Le Q V.Neural architecture search withreinforcement learning[J/OL].arXiv preprint arXiv:1611.01578,2016.)中Zoph B等人将搜索空间转化为候选项让强化学习的agent去选择,使用RNN作为控制器控制组合选择构成网络架构的过程,然后用 policy gradient优化方法来最大化控制器采样网络的期望奖励,实现了早期的神经网络架构搜索设想,证明了NAS的可行性。但该方法在800块GPU运行3 周到4周,效率严重地下。在论文Darts:Differentiable architecture search(LiuH, Simonyan K,Yang Y.Darts:Differentiable architecture search[J/OL].arXivpreprint arXiv:1806.09055,2018.)中,Liu等人提出一种可微架构搜索算法,将网络架构搜索转化为连续空间的优化问题,因此可以采用梯度下降法求解,将搜索网络结构和优化网络权重参数放在同一个训练过程中,高效地完成神经网络架构搜索任务。在专利(张旭,古博,陈俊周,林梓淇,丁北辰,韩瑜.一种基于卷积核预测的神经网络架构搜索方法[P].广东省:CN111723914A,2020-09-29)中,张旭等公开了一种基于卷积核预测的神经网络架构搜索方法,基于知识蒸馏概念,引入老师网络作为引导,学生网络利用卷积核预测模块预测最优卷积核,实现高效地架构搜索。但是目前大多数神经网络架构搜索方法通常在单个任务上表现良好,但从单个任务搜索得到的网络架构对于多个数据集或者多个学习任务泛化性能非常差。究其原因是,单任务大型数据集能够有效帮助算法区分候选网络的优劣,但是候选网络在多任务的小型数据训练集的结果都是相近的并且大概率过拟合的。
发明内容
本发明克服现有技术的上述缺点,提出一种基于快速网络架构搜索的跨任务图像分类方法。
本发明基于元学习和神经架构搜索(NAS)提出一种新的快速架构搜索方法,完成跨任务的神经网络结构搜索任务。本发明解决了在小规模数据集上如何快速地完成神经架构搜索并得到性能表现优异的网络结构的技术问题。
一种基于快速神经网络架构搜索的跨任务图像分类方法,具体步骤如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,将数据集划分为含有训练数据的Dmtrain和含有测试数据的Dmtest,无论是Dmtrain还是Dmtest,从数据集随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含N 个类别,每类中有K0个训练样本,K1个测试样本,例如第一次抽的任务内是 {1,3,4,6,2},下一次抽取的任务内是{9,5,8,10,12},将N×K0个样本组成的任务训练集的集合称为支持集N×K1个样本组成的任务测试集的集合称为查询集Dmtrain中的单个支持集将作为个体在单个任务内训练的训练集, Dmtrain中的单个支持集则作为个体在单个任务内进行测试的测试集,具体数据集情况如图2所示;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由基本单元块堆叠而成,单元块结构如图3所示,单元块候选操作有3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception 结构。单元块内部则根据搜索空间设置相应的候选操作,每个单元块只选择一种候选操作,使得整个卷积神经网络会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群;
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,总体搜索过程如图4所示;
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集查询集在个体的训练过程中,X表示为输入数据(图片)。此时网络的预测为在第j个任务上的损失可以表示为其中是评估指标(不同的任务可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体在第j个任务上按照式(1.1)更新权重:
参数∈每轮迭代后发生衰减,衰减公式如下,
其中n表示当前训练次数,N表示总训练次数;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新过程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,优化过程如图7所示,当权重参数经过几轮更新之后,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务然后让种群中的每个个体对这批任务分别进行M次更新。为了筛选出能快速收敛的个体,这里M是一个比较小的数(例如10次epoch),然后计算每个个体在这批任务上的性能。为了加快测试速度,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样);
构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤3-2和步骤3-3循环执行直至达到预设循环次数,最终得到对多任务具备良好适应性的超级网络和网络架构种群;
步骤4:在面对新的任务时,直接用在元数据集上搜索得到的元种群作为新任务的初始化种群,然后再基于连续进化算法对元种群进行快速的更新,得到在新任务上最优的网络结构,搜索流程如图8所示,与步骤3的操作不同的是,迁移时的种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化到最后剩下的个体即为最优网络;
进一步地,在步骤3-1中,引入训练并行化,如图9所示,提前将训练任务池分割成K份,设置进程数也为K,然后每个进程在获取属于当前进程的任务和相同的网络结构后,对网络进行少量更新(每个进程的网络参数在更新时不会做跨进程梯度交流),在每个进程上的网络都学习完自身任务后,收集各个进程上网络最后一步更新的梯度,然后对梯度进行平均并分发给各个进程,用于超级网络参数更新;
进一步地,在步骤3-2中,引入测试并行化,如图10所示,类似训练并行化,将测试任务池平均分给K个进程,每个进程上的网络参数更新互不影响,最后仅将每个进程上获取的适应度值做平均,用作某个结构的个体适应度均值。
本发明提供的基于快速网络架构搜索的跨任务图像分类方法,相比现有的神经网络结构搜索方法,带来的有益效果是:
(1)通过在多任务数据集上训练和在任务-样本两层数据集结构进行参数更新策略,使得本发明公开的神经网络架构搜索方法可以学习多个任务的信息来获得对多个任务的良好适应性。
(2)超级网络采用单路径采样(单元块一次只选择一个候选操作)和连续型的进化算法更新神经网络结构参数,大大降低了网络前向推理时需要占用的显存量和计算量。本发明的神经网络架构搜索方法可以直接在需要大分辨率图片作为输入的任务上进行元架构学习。
(3)相较于其他架构搜索方法,本发明引入基于随机森林模型的网络性能预测器,训练并行化和测试并行化方法,在不影响最终结果的情况下,提升了网络搜索效率。
附图说明
图1是本发明的方法示意流程图。
图2是图像分类的多任务数据集示意图
图3是超级网络的单元块以及内部候选操作示意图
图4是总体搜索过程示意图
图5是神经网络权重更新流程图
图6是神经网络结构更新流程图
图7是进化算法优化神经网络结构参数流程图
图8是对新任务做神经网络架构搜索流程图
图9是分布式训练过程并行示意图
图10是分布式测试过程并行示意图
图11是在Cifar-10数据集上搜索到的最优结构。
具体实施方式
为了能够更清楚地理解本发明的目的、特征和优点,下面结合附图和具体实施方式进一步对本发明的技术方案做详细描述。
本发明是一种基于快速网络架构搜索的跨任务图像分类方法,具体过程如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,具体步骤为:本发明实施例的基础数据集为ImageNet-1k,数据集包含1000个类别,总计有120万个训练图像,50,000个验证图像,以及150,000个测试图像,图像大小为224×224,生成包括训练图片的数据集Dmtrain和包括验证图片的Dmtest,无论是Dmtrain还是 Dmtest,从数据集中按10类随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含10个类别,每类中有200个训练样本,50张测试样本,整个训练任务池和测试任务池分别由500个任务和100个任务组成,任务集内图片采用标准的数据增强方法,包括随机裁剪(Random Crop),随机翻转(Horizontal Flip),图像增强;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由20个基本单元块及其他附属层堆叠而成,单元块候选操作为3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception结构,候选操作具体结构如图3所示,超级网络架构如表1所示,
表1超级网络架构表
输入大小 | 单元块 | 通道数 | 重复次数 | 步长 |
224×224×3 | 3×3conv | 16 | 1 | 2 |
112×112×16 | CB | 64 | 4 | 2 |
56×56×64 | CB | 160 | 4 | 2 |
28×28×160 | CB | 320 | 8 | 2 |
14×14×320 | CB | 640 | 4 | 2 |
7×7×640 | 1×1conv | 1024 | 1 | 1 |
7×7×1024 | GAP | - | 1 | - |
1024 | fc | 1000 | 1 | - |
每个单元块在只选择一种候选操作,使得整个卷积神经网会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群,从超级网络中随机采样2048个网络结构,按照每个单元块内操作的编码号将网络结构编码为20位序列,候选操作的编码表如表2所示,网络结构编码后的2048 个个体作为进化算法的初始种群,
表2候选操作编号表
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,整个搜索过程中的训练、测试、进化三步循环迭代50次:
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集查询集在个体的训练过程中,X表示为输入数据,此时网络的预测为在第j个任务上的损失可以表示为其中是评估指标 (不同的任务可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体在第j个任务上按照式(1.1)更新权重,超网学习率α固定设置为0.01,每个任务学习10次:
参数∈初始值设为0.1,每轮迭代后发生衰减,衰减公式如下,
其中n表示当前训练次数,N表示总训练次数,本实例中为50;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新流程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务然后让种群中的每个个体对这批任务分别进行10次更新,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分即准确率,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,发生交叉的个体占到剩余种群个体数量的50%,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样),发生变异的个体数量占到剩余种群个体数量的50%,变异概率为0.1;构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤4:目标数据集为Cifar-10,含10个类别的60000个32×32彩色图像,每个类别6000个图像。搜索时,需要将每张输入图片的大小都会统一设置为 224×224,对数据集做标准数据增强,训练过程采用传统的监督训练方法,损失函数采用交叉熵损失函数,采用随机梯度下降方法更新,学习率固定为0.01,然后将在多任务数据集上搜索得到的最佳种群按照步骤2作为新任务的初始化种群,共2048个网络结构,再基于连续进化算法对种群进行快速的更新,超级网络学习20个epoch,训练方式按照步骤2给出的超级网络和子网更新方法,每 2个epoch进行一次种群更新,每学完一次进行种群进化,种群进化的测试环节同样采用传统的监督测试方法,每次进化按照种群减少策略进行种群减半,种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化过程的超参数设置同步骤3-2,进化到最后剩下的个体即为最优网络;
进一步地,在步骤3-1,3-2中,训练和测试并行化中设置8个进程并行搜索,每个进程的batch size设为4,每个任务学习5次。
神经网络架构的评估指标,包括在计算量限制下,搜索到的最优架构的测试准确率,搜索到最优架构的时间,搜索时占用的现存量。
本发明实例与现有方法在Cifar-10数据集上的搜索效果对比结果如表1所示,在Cifar-10上搜索到的最优结构如图11所示。
表1.各方法在Cifar-10数据集上的搜索结果
从以上实验结果可以得知,通过本发明实施例提供的基于快速神经网络架构搜索的跨任务图像分类方法,在imagenet-1k数据集上搜索得到的神经网络架构集合能够在cifar-10上能够快速进行神经网络架构搜索,并且在搜索时间远远小于其他方法的情况下,本法明实施例的模型相比其他方法的模型的准确率更高。
本说明书实施例所述的内容仅仅是对发明构思实现形式的例举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (3)
1.一种基于快速网络架构搜索的跨任务图像分类方法,具体步骤如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,将数据集划分为含有训练数据的Dmtrain和含有测试数据的Dmtest,无论是Dmtrain还是Dmtest,从数据集随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含N个类别,每类中有K0个训练样本,K1个测试样本,例如第一次抽的任务内是{1,3,4,6,2},下一次抽取的任务内是{9,5,8,10,12},将N×K0个样本组成的任务训练集的集合称为支持集N×K1个样本组成的任务测试集的集合称为查询集Dmtrain中的单个支持集将作为个体在单个任务内训练的训练集,Dmtrain中的单个支持集则作为个体在单个任务内进行测试的测试集,具体数据集情况如图2所示;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由基本单元块堆叠而成,单元块结构如图3所示,单元块候选操作有3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception结构。单元块内部则根据搜索空间设置相应的候选操作,每个单元块只选择一种候选操作,使得整个卷积神经网络会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群;
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,总体搜索过程如图4所示;
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集查询集在个体的训练过程中,X表示为输入数据(图片)。此时网络的预测为在第j个任务上的损失可以表示为其中是评估指标(不同的任务可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体在第j个任务上按照式(1.1)更新权重:
参数∈每轮迭代后发生衰减,衰减公式如下,
其中n表示当前训练次数,N表示总训练次数;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新过程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,优化过程如图7所示,当权重参数经过几轮更新之后,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务然后让种群中的每个个体对这批任务分别进行M次更新。为了筛选出能快速收敛的个体,这里M是一个比较小的数(例如10次epoch),然后计算每个个体在这批任务上的性能。为了加快测试速度,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样);
构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤3-2和步骤3-3循环执行直至达到预设循环次数,最终得到对多任务具备良好适应性的超级网络和网络架构种群;
步骤4:在面对新的任务时,直接用在元数据集上搜索得到的元种群作为新任务的初始化种群,然后再基于连续进化算法对元种群进行快速的更新,得到在新任务上最优的网络结构,搜索流程如图8所示,与步骤3的操作不同的是,迁移时的种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化到最后剩下的个体即为最优网络。
3.根据权利要求1所述的方法,其特征在于,所述的方法在步骤3-2中,引入测试并行化,如图10所示,类似训练并行化,将测试任务池平均分给K个进程,每个进程上的网络参数更新互不影响,最后仅将每个进程上获取的适应度值做平均,用作某个结构的个体适应度均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441402.7A CN112508104A (zh) | 2020-12-08 | 2020-12-08 | 一种基于快速网络架构搜索的跨任务图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011441402.7A CN112508104A (zh) | 2020-12-08 | 2020-12-08 | 一种基于快速网络架构搜索的跨任务图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508104A true CN112508104A (zh) | 2021-03-16 |
Family
ID=74970981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011441402.7A Pending CN112508104A (zh) | 2020-12-08 | 2020-12-08 | 一种基于快速网络架构搜索的跨任务图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508104A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128432A (zh) * | 2021-04-25 | 2021-07-16 | 四川大学 | 一种基于演化计算的多任务神经网络架构搜索方法 |
CN113435590A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 面向边缘计算的重参数神经网络架构搜索方法 |
CN113963167A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 应用于目标检测的方法、装置及计算机程序产品 |
CN114926698A (zh) * | 2022-07-19 | 2022-08-19 | 深圳市南方硅谷半导体股份有限公司 | 基于演化博弈论的神经网络架构搜索的图像分类方法 |
CN114967601A (zh) * | 2021-12-30 | 2022-08-30 | 昆明理工大学 | 一种冰箱箱体双边装配过程的优化调度方法及系统 |
WO2022265573A3 (en) * | 2021-06-15 | 2023-01-12 | Lemon Inc. | Automatically and efficiently generating search spaces for neural network |
CN115620147A (zh) * | 2022-11-29 | 2023-01-17 | 国网山东省电力公司济南供电公司 | 深度卷积神经网络的可微架构搜索方法及装置 |
CN117195951A (zh) * | 2023-09-22 | 2023-12-08 | 东南大学 | 一种基于架构搜索和自知识蒸馏的学习基因继承方法 |
CN117611974A (zh) * | 2024-01-24 | 2024-02-27 | 湘潭大学 | 基于多种群交替进化神经结构搜索的图像识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN111898689A (zh) * | 2020-08-05 | 2020-11-06 | 中南大学 | 一种基于神经网络架构搜索的图像分类方法 |
CN112036512A (zh) * | 2020-11-03 | 2020-12-04 | 浙江大学 | 基于网络裁剪的图像分类神经网络架构搜索方法和装置 |
-
2020
- 2020-12-08 CN CN202011441402.7A patent/CN112508104A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111898689A (zh) * | 2020-08-05 | 2020-11-06 | 中南大学 | 一种基于神经网络架构搜索的图像分类方法 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
CN112036512A (zh) * | 2020-11-03 | 2020-12-04 | 浙江大学 | 基于网络裁剪的图像分类神经网络架构搜索方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113128432A (zh) * | 2021-04-25 | 2021-07-16 | 四川大学 | 一种基于演化计算的多任务神经网络架构搜索方法 |
CN113128432B (zh) * | 2021-04-25 | 2022-09-06 | 四川大学 | 基于演化计算的机器视觉多任务神经网络架构搜索方法 |
WO2022265573A3 (en) * | 2021-06-15 | 2023-01-12 | Lemon Inc. | Automatically and efficiently generating search spaces for neural network |
CN113435590A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 面向边缘计算的重参数神经网络架构搜索方法 |
CN113963167A (zh) * | 2021-10-29 | 2022-01-21 | 北京百度网讯科技有限公司 | 应用于目标检测的方法、装置及计算机程序产品 |
CN114967601A (zh) * | 2021-12-30 | 2022-08-30 | 昆明理工大学 | 一种冰箱箱体双边装配过程的优化调度方法及系统 |
CN114926698B (zh) * | 2022-07-19 | 2022-10-14 | 深圳市南方硅谷半导体股份有限公司 | 基于演化博弈论的神经网络架构搜索的图像分类方法 |
CN114926698A (zh) * | 2022-07-19 | 2022-08-19 | 深圳市南方硅谷半导体股份有限公司 | 基于演化博弈论的神经网络架构搜索的图像分类方法 |
CN115620147A (zh) * | 2022-11-29 | 2023-01-17 | 国网山东省电力公司济南供电公司 | 深度卷积神经网络的可微架构搜索方法及装置 |
CN115620147B (zh) * | 2022-11-29 | 2023-04-07 | 国网山东省电力公司济南供电公司 | 深度卷积神经网络的可微架构搜索方法及装置 |
CN117195951A (zh) * | 2023-09-22 | 2023-12-08 | 东南大学 | 一种基于架构搜索和自知识蒸馏的学习基因继承方法 |
CN117195951B (zh) * | 2023-09-22 | 2024-04-16 | 东南大学 | 一种基于架构搜索和自知识蒸馏的学习基因继承方法 |
CN117611974A (zh) * | 2024-01-24 | 2024-02-27 | 湘潭大学 | 基于多种群交替进化神经结构搜索的图像识别方法及系统 |
CN117611974B (zh) * | 2024-01-24 | 2024-04-16 | 湘潭大学 | 基于多种群交替进化神经结构搜索的图像识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508104A (zh) | 一种基于快速网络架构搜索的跨任务图像分类方法 | |
Cui et al. | A new hyperparameters optimization method for convolutional neural networks | |
CN110728224A (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
CN109948029A (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
CN110175628A (zh) | 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法 | |
CN112465120A (zh) | 一种基于进化方法的快速注意力神经网络架构搜索方法 | |
CN111859790A (zh) | 一种基于图像特征学习的曲线加筋结构布局智能设计方法 | |
CN111898689A (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN114373101A (zh) | 基于进化策略的神经网络架构搜索的图像分类方法 | |
Bakhshi et al. | Fast automatic optimisation of CNN architectures for image classification using genetic algorithm | |
CN113807176B (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN110287985A (zh) | 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法 | |
CN113011091A (zh) | 一种自动分组的多尺度轻量型深度卷积神经网络优化方法 | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
CN113128689A (zh) | 一种调控知识图谱的实体关系路径推理方法及系统 | |
CN115481727A (zh) | 一种基于进化计算的意图识别神经网络生成与优化方法 | |
CN114299344A (zh) | 一种针对图像分类的神经网络结构低成本自动搜索方法 | |
CN114093426B (zh) | 基于基因调控网络构建的标志物筛选方法 | |
CN117611974B (zh) | 基于多种群交替进化神经结构搜索的图像识别方法及系统 | |
CN114241267A (zh) | 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法 | |
CN111445024B (zh) | 一种医学影像识别训练方法 | |
CN113282747A (zh) | 一种基于自动机器学习算法选择的文本分类方法 | |
Zhang et al. | Learning to search efficient densenet with layer-wise pruning | |
CN116611504A (zh) | 一种基于进化的神经架构搜索方法 | |
CN113780146B (zh) | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |