CN112508104A - 一种基于快速网络架构搜索的跨任务图像分类方法 - Google Patents

一种基于快速网络架构搜索的跨任务图像分类方法 Download PDF

Info

Publication number
CN112508104A
CN112508104A CN202011441402.7A CN202011441402A CN112508104A CN 112508104 A CN112508104 A CN 112508104A CN 202011441402 A CN202011441402 A CN 202011441402A CN 112508104 A CN112508104 A CN 112508104A
Authority
CN
China
Prior art keywords
network
task
population
individuals
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011441402.7A
Other languages
English (en)
Inventor
禹鑫燚
戎锦涛
欧林林
张铭扬
林密
何伟琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011441402.7A priority Critical patent/CN112508104A/zh
Publication of CN112508104A publication Critical patent/CN112508104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于快速网络架构搜索的跨任务图像分类方法,用于在多个图像分类任务中搜索最佳的神经网络架构。具体包括以下步骤,步骤1、获取用于神经网络架构搜索的多任务数据集,步骤2、构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,步骤3、在多任务数据集上进行跨任务搜索,搜索结果包含超级网络和结构种群,步骤4、基于步骤3的搜索结果,在新任务上快速搜索最佳网络架构。本发明适用于多任务但单个任务内图片数量非常少的情况下的神经网络架构自动搜索,相比其他神经网络架构搜索方法,搜索到单任务上分类性能最佳的网络的时间要少30倍。

Description

一种基于快速网络架构搜索的跨任务图像分类方法
技术领域
本发明属于计算机视觉领域,涉及一种基于快速网络架构搜索的跨任务图像分类方法
背景技术
一个优秀的神经网络架构可以显著性地提高计算机视觉任务(图像分类、目标检测、图像分割等)的效率和准确度。因此,设计高性能的神经网络架构是目前深度学习中的重要研究内容。但是,人工设计网络架构受到专家的先验知识和研究者研究精力的严重限制,已经无法满足当前计算机视觉发展的需要。基于此类现状,提出了神经网络架构搜索(Neural Architecture Search,简称NAS),指在尽可能减少人工干预的条件下,基于既定的搜索空间,以自动化的方式搜索一种最优的神经网络架构。目前,神经网络架构搜索在多个领域(图像分类,图像分割,目标检测和自然语言处理等)上已经取得了优于人工设计的网络架构的结果。
神经网络架构搜索算法一般由搜索空间,搜索策略,性能评估策略三部分构成。搜索空间定义了搜索范围,决定了搜索的速度。结合关于网络架构方面的专家经验,通过减少搜索空间和简化搜索过程,搜索性能可以得到显著提升。评估策略一般按照通常训练方式对一个架构进行训练和验证以获得架构,但评估消耗的计算成本非常昂贵,并且限制了搜索空间。搜索策略定义了怎样去搜索,一般搜索策略有基于强化学习的搜索方法,基于进化算法的搜索方法和基于梯度的搜索方法。在论文Neural architecture search withreinforcement learning(Zoph B,Le Q V.Neural architecture search withreinforcement learning[J/OL].arXiv preprint arXiv:1611.01578,2016.)中Zoph B等人将搜索空间转化为候选项让强化学习的agent去选择,使用RNN作为控制器控制组合选择构成网络架构的过程,然后用 policy gradient优化方法来最大化控制器采样网络的期望奖励,实现了早期的神经网络架构搜索设想,证明了NAS的可行性。但该方法在800块GPU运行3 周到4周,效率严重地下。在论文Darts:Differentiable architecture search(LiuH, Simonyan K,Yang Y.Darts:Differentiable architecture search[J/OL].arXivpreprint arXiv:1806.09055,2018.)中,Liu等人提出一种可微架构搜索算法,将网络架构搜索转化为连续空间的优化问题,因此可以采用梯度下降法求解,将搜索网络结构和优化网络权重参数放在同一个训练过程中,高效地完成神经网络架构搜索任务。在专利(张旭,古博,陈俊周,林梓淇,丁北辰,韩瑜.一种基于卷积核预测的神经网络架构搜索方法[P].广东省:CN111723914A,2020-09-29)中,张旭等公开了一种基于卷积核预测的神经网络架构搜索方法,基于知识蒸馏概念,引入老师网络作为引导,学生网络利用卷积核预测模块预测最优卷积核,实现高效地架构搜索。但是目前大多数神经网络架构搜索方法通常在单个任务上表现良好,但从单个任务搜索得到的网络架构对于多个数据集或者多个学习任务泛化性能非常差。究其原因是,单任务大型数据集能够有效帮助算法区分候选网络的优劣,但是候选网络在多任务的小型数据训练集的结果都是相近的并且大概率过拟合的。
发明内容
本发明克服现有技术的上述缺点,提出一种基于快速网络架构搜索的跨任务图像分类方法。
本发明基于元学习和神经架构搜索(NAS)提出一种新的快速架构搜索方法,完成跨任务的神经网络结构搜索任务。本发明解决了在小规模数据集上如何快速地完成神经架构搜索并得到性能表现优异的网络结构的技术问题。
一种基于快速神经网络架构搜索的跨任务图像分类方法,具体步骤如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,将数据集划分为含有训练数据的Dmtrain和含有测试数据的Dmtest,无论是Dmtrain还是Dmtest,从数据集随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含N 个类别,每类中有K0个训练样本,K1个测试样本,例如第一次抽的任务内是 {1,3,4,6,2},下一次抽取的任务内是{9,5,8,10,12},将N×K0个样本组成的任务训练集的集合称为支持集
Figure RE-GDA0002934669680000031
N×K1个样本组成的任务测试集的集合称为查询集
Figure RE-GDA0002934669680000032
Dmtrain中的单个支持集
Figure RE-GDA0002934669680000033
将作为个体在单个任务内训练的训练集, Dmtrain中的单个支持集
Figure RE-GDA0002934669680000034
则作为个体在单个任务内进行测试的测试集,具体数据集情况如图2所示;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由基本单元块堆叠而成,单元块结构如图3所示,单元块候选操作有3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception 结构。单元块内部则根据搜索空间设置相应的候选操作,每个单元块只选择一种候选操作,使得整个卷积神经网络会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Figure RE-GDA0002934669680000035
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
Figure RE-GDA0002934669680000036
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群;
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,总体搜索过程如图4所示;
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体
Figure RE-GDA0002934669680000041
其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集
Figure RE-GDA0002934669680000042
查询集
Figure RE-GDA0002934669680000043
在个体
Figure RE-GDA0002934669680000044
的训练过程中,X表示为输入数据(图片)。此时网络的预测为
Figure RE-GDA0002934669680000045
在第j个任务上的损失可以表示为
Figure RE-GDA0002934669680000046
其中
Figure RE-GDA0002934669680000047
是评估指标(不同的任务
Figure RE-GDA0002934669680000048
可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体
Figure RE-GDA0002934669680000049
在第j个任务上按照式(1.1)更新权重:
Figure RE-GDA00029346696800000410
当所有个体在所有任务训练完毕后,计算所有子网络
Figure RE-GDA00029346696800000411
在第m步中获得的差向量,超级网络的权重参数按照式(1.2)更新,得到适应多任务的超级网络:
Figure RE-GDA00029346696800000412
参数∈每轮迭代后发生衰减,衰减公式如下,
Figure RE-GDA00029346696800000413
其中n表示当前训练次数,N表示总训练次数;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新过程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,优化过程如图7所示,当权重参数经过几轮更新之后,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务
Figure RE-GDA00029346696800000414
然后让种群中的每个个体对这批任务分别进行M次更新。为了筛选出能快速收敛的个体,这里M是一个比较小的数(例如10次epoch),然后计算每个个体在这批任务上的性能。为了加快测试速度,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样);
构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤3-2和步骤3-3循环执行直至达到预设循环次数,最终得到对多任务具备良好适应性的超级网络和网络架构种群;
步骤4:在面对新的任务时,直接用在元数据集上搜索得到的元种群作为新任务的初始化种群,然后再基于连续进化算法对元种群进行快速的更新,得到在新任务上最优的网络结构,搜索流程如图8所示,与步骤3的操作不同的是,迁移时的种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化到最后剩下的个体即为最优网络;
进一步地,在步骤3-1中,引入训练并行化,如图9所示,提前将训练任务池分割成K份,设置进程数也为K,然后每个进程在获取属于当前进程的任务和相同的网络结构
Figure RE-GDA0002934669680000051
后,对网络进行少量更新(每个进程的网络参数在更新时不会做跨进程梯度交流),在每个进程上的网络都学习完自身任务后,收集各个进程上网络最后一步更新的梯度,然后对梯度进行平均并分发给各个进程,用于超级网络参数更新;
进一步地,在步骤3-2中,引入测试并行化,如图10所示,类似训练并行化,将测试任务池平均分给K个进程,每个进程上的网络参数更新互不影响,最后仅将每个进程上获取的适应度值做平均,用作某个结构的个体适应度均值。
本发明提供的基于快速网络架构搜索的跨任务图像分类方法,相比现有的神经网络结构搜索方法,带来的有益效果是:
(1)通过在多任务数据集上训练和在任务-样本两层数据集结构进行参数更新策略,使得本发明公开的神经网络架构搜索方法可以学习多个任务的信息来获得对多个任务的良好适应性。
(2)超级网络采用单路径采样(单元块一次只选择一个候选操作)和连续型的进化算法更新神经网络结构参数,大大降低了网络前向推理时需要占用的显存量和计算量。本发明的神经网络架构搜索方法可以直接在需要大分辨率图片作为输入的任务上进行元架构学习。
(3)相较于其他架构搜索方法,本发明引入基于随机森林模型的网络性能预测器,训练并行化和测试并行化方法,在不影响最终结果的情况下,提升了网络搜索效率。
附图说明
图1是本发明的方法示意流程图。
图2是图像分类的多任务数据集示意图
图3是超级网络的单元块以及内部候选操作示意图
图4是总体搜索过程示意图
图5是神经网络权重更新流程图
图6是神经网络结构更新流程图
图7是进化算法优化神经网络结构参数流程图
图8是对新任务做神经网络架构搜索流程图
图9是分布式训练过程并行示意图
图10是分布式测试过程并行示意图
图11是在Cifar-10数据集上搜索到的最优结构。
具体实施方式
为了能够更清楚地理解本发明的目的、特征和优点,下面结合附图和具体实施方式进一步对本发明的技术方案做详细描述。
本发明是一种基于快速网络架构搜索的跨任务图像分类方法,具体过程如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,具体步骤为:本发明实施例的基础数据集为ImageNet-1k,数据集包含1000个类别,总计有120万个训练图像,50,000个验证图像,以及150,000个测试图像,图像大小为224×224,生成包括训练图片的数据集Dmtrain和包括验证图片的Dmtest,无论是Dmtrain还是 Dmtest,从数据集中按10类随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含10个类别,每类中有200个训练样本,50张测试样本,整个训练任务池和测试任务池分别由500个任务和100个任务组成,任务集内图片采用标准的数据增强方法,包括随机裁剪(Random Crop),随机翻转(Horizontal Flip),图像增强;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由20个基本单元块及其他附属层堆叠而成,单元块候选操作为3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception结构,候选操作具体结构如图3所示,超级网络架构如表1所示,
表1超级网络架构表
输入大小 单元块 通道数 重复次数 步长
224×224×3 3×3conv 16 1 2
112×112×16 CB 64 4 2
56×56×64 CB 160 4 2
28×28×160 CB 320 8 2
14×14×320 CB 640 4 2
7×7×640 1×1conv 1024 1 1
7×7×1024 GAP - 1 -
1024 fc 1000 1 -
每个单元块在只选择一种候选操作,使得整个卷积神经网会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Figure RE-GDA0002934669680000081
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
Figure RE-GDA0002934669680000082
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群,从超级网络中随机采样2048个网络结构,按照每个单元块内操作的编码号将网络结构编码为20位序列,候选操作的编码表如表2所示,网络结构编码后的2048 个个体作为进化算法的初始种群,
表2候选操作编号表
Figure RE-GDA0002934669680000083
Figure RE-GDA0002934669680000091
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,整个搜索过程中的训练、测试、进化三步循环迭代50次:
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体
Figure RE-GDA0002934669680000092
其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集
Figure RE-GDA0002934669680000093
查询集
Figure RE-GDA0002934669680000094
在个体
Figure RE-GDA0002934669680000095
的训练过程中,X表示为输入数据,此时网络的预测为
Figure RE-GDA0002934669680000096
在第j个任务上的损失可以表示为
Figure RE-GDA0002934669680000097
其中
Figure RE-GDA0002934669680000098
是评估指标 (不同的任务
Figure RE-GDA0002934669680000099
可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体
Figure RE-GDA00029346696800000910
在第j个任务上按照式(1.1)更新权重,超网学习率α固定设置为0.01,每个任务学习10次:
Figure RE-GDA00029346696800000911
当所有个体在所有任务训练完毕后,计算所有子网络
Figure RE-GDA00029346696800000912
在第10步中获得的差向量,超级网络的权重参数按照式(1.2)有,
Figure RE-GDA00029346696800000913
参数∈初始值设为0.1,每轮迭代后发生衰减,衰减公式如下,
Figure RE-GDA00029346696800000914
其中n表示当前训练次数,N表示总训练次数,本实例中为50;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新流程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务
Figure RE-GDA0002934669680000101
然后让种群中的每个个体对这批任务分别进行10次更新,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分即准确率,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,发生交叉的个体占到剩余种群个体数量的50%,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样),发生变异的个体数量占到剩余种群个体数量的50%,变异概率为0.1;构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤4:目标数据集为Cifar-10,含10个类别的60000个32×32彩色图像,每个类别6000个图像。搜索时,需要将每张输入图片的大小都会统一设置为 224×224,对数据集做标准数据增强,训练过程采用传统的监督训练方法,损失函数采用交叉熵损失函数,采用随机梯度下降方法更新,学习率固定为0.01,然后将在多任务数据集上搜索得到的最佳种群按照步骤2作为新任务的初始化种群,共2048个网络结构,再基于连续进化算法对种群进行快速的更新,超级网络学习20个epoch,训练方式按照步骤2给出的超级网络和子网更新方法,每 2个epoch进行一次种群更新,每学完一次进行种群进化,种群进化的测试环节同样采用传统的监督测试方法,每次进化按照种群减少策略进行种群减半,种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化过程的超参数设置同步骤3-2,进化到最后剩下的个体即为最优网络;
进一步地,在步骤3-1,3-2中,训练和测试并行化中设置8个进程并行搜索,每个进程的batch size设为4,每个任务学习5次。
神经网络架构的评估指标,包括在计算量限制下,搜索到的最优架构的测试准确率,搜索到最优架构的时间,搜索时占用的现存量。
本发明实例与现有方法在Cifar-10数据集上的搜索效果对比结果如表1所示,在Cifar-10上搜索到的最优结构如图11所示。
表1.各方法在Cifar-10数据集上的搜索结果
Figure RE-GDA0002934669680000111
从以上实验结果可以得知,通过本发明实施例提供的基于快速神经网络架构搜索的跨任务图像分类方法,在imagenet-1k数据集上搜索得到的神经网络架构集合能够在cifar-10上能够快速进行神经网络架构搜索,并且在搜索时间远远小于其他方法的情况下,本法明实施例的模型相比其他方法的模型的准确率更高。
本说明书实施例所述的内容仅仅是对发明构思实现形式的例举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (3)

1.一种基于快速网络架构搜索的跨任务图像分类方法,具体步骤如下:
步骤1:获取用于神经网络架构搜索的多任务数据集,将数据集划分为含有训练数据的Dmtrain和含有测试数据的Dmtest,无论是Dmtrain还是Dmtest,从数据集随机采样图片组成任务集,每个任务可以看作一个任务样本实例,样本内包含N个类别,每类中有K0个训练样本,K1个测试样本,例如第一次抽的任务内是{1,3,4,6,2},下一次抽取的任务内是{9,5,8,10,12},将N×K0个样本组成的任务训练集的集合称为支持集
Figure RE-FDA0002934669670000011
N×K1个样本组成的任务测试集的集合称为查询集
Figure RE-FDA0002934669670000012
Dmtrain中的单个支持集
Figure RE-FDA0002934669670000013
将作为个体在单个任务内训练的训练集,Dmtrain中的单个支持集
Figure RE-FDA0002934669670000014
则作为个体在单个任务内进行测试的测试集,具体数据集情况如图2所示;
步骤2:构建一个包含候选网络权重的超级网络和一个由候选网络结构编码而成的结构种群,超级网络由基本单元块堆叠而成,单元块结构如图3所示,单元块候选操作有3×3分离卷积、5×5分离卷积、7×7分离卷积、Xception结构。单元块内部则根据搜索空间设置相应的候选操作,每个单元块只选择一种候选操作,使得整个卷积神经网络会随机组成一种网络结构,在超级网络每一步优化过程中,有且仅有一个子网权重被更新,超级网络的权重更新公式如下:
Figure RE-FDA0002934669670000015
Γ(A)是先验分布,采用均匀采样,W表示超级网络权重,Wa表示a结构的子网权重,子网的权重更新公式如下:
Figure RE-FDA0002934669670000016
将可能生成的网络结构进行编码形成个体,此时所有个体的集合即初始结构种群;
步骤3:在多任务数据集上进行跨任务搜索,搜索结果包含元超级网络和元结构种群,搜索过程包含两个阶段,权重参数更新阶段和结构更新阶段,这两个阶段交替进行,总体搜索过程如图4所示;
步骤3-1:权重参数更新阶段流程如图5所示,超级网络中每个单元随机选择一个候选操作,组成被优化的网络个体
Figure RE-FDA0002934669670000021
其他候选操作组成的个体不会参与优化,个体权重参数Wi,超级网络权重参数W,基于步骤1,得到支持集
Figure RE-FDA0002934669670000022
查询集
Figure RE-FDA0002934669670000023
在个体
Figure RE-FDA0002934669670000024
的训练过程中,X表示为输入数据(图片)。此时网络的预测为
Figure RE-FDA0002934669670000025
在第j个任务上的损失可以表示为
Figure RE-FDA0002934669670000026
其中
Figure RE-FDA0002934669670000027
是评估指标(不同的任务
Figure RE-FDA0002934669670000028
可能不一样),个体网络对每个任务都会经过m次学习,其中m是一个较小的整数,个体
Figure RE-FDA0002934669670000029
在第j个任务上按照式(1.1)更新权重:
Figure RE-FDA00029346696700000210
当所有个体在所有任务训练完毕后,计算所有子网络
Figure RE-FDA00029346696700000211
在第m步中获得的差向量,超级网络的权重参数按照式(1.2)更新,得到适应多任务的超级网络:
Figure RE-FDA00029346696700000212
参数∈每轮迭代后发生衰减,衰减公式如下,
Figure RE-FDA00029346696700000213
其中n表示当前训练次数,N表示总训练次数;
步骤3-2:在权重参数更新的同时,我们使用进化算法更新结构参数A,结构更新过程如图6所示,基于进化算法优化网络结构包括测试、筛选、交叉和变异和构建新种群,优化过程如图7所示,当权重参数经过几轮更新之后,我们对种群中的每个个体进行性能测试,从而保留下部分性能较好的个体用于交叉和变异,从Dmtest中随机抽取一批任务
Figure RE-FDA00029346696700000214
然后让种群中的每个个体对这批任务分别进行M次更新。为了筛选出能快速收敛的个体,这里M是一个比较小的数(例如10次epoch),然后计算每个个体在这批任务上的性能。为了加快测试速度,使用随机森林模型预测种群中每个个体的正确率;
筛选:在经过测试后,每个个体都会有一个性能评分,将评分高的个体保留下来,评分低的个体则被剔除出种群中;
交叉和变异:保留下来的个体有一定概率进行交叉和变异操作,将个体的结构编码视为个体的基因,编码中的单元视为染色体,交叉操作是在保留的种群中选两个个体,两个个体的染色体某一相同位置处被切断,前后两串分别交叉组合形成两个新的染色体,变异操作则是被保留的个体在进行复制时某一部分的染色体有非常小的概率可能会突变为其他的染色体(即复制完后可能跟原来个体一模一样,也可能某一些染色体不一样);
构建新种群:在经过交叉和变异后,继续随机生成一批新的网络结构,补充到种群中维持种群数量不变,跳转到步骤3-1;
步骤3-2和步骤3-3循环执行直至达到预设循环次数,最终得到对多任务具备良好适应性的超级网络和网络架构种群;
步骤4:在面对新的任务时,直接用在元数据集上搜索得到的元种群作为新任务的初始化种群,然后再基于连续进化算法对元种群进行快速的更新,得到在新任务上最优的网络结构,搜索流程如图8所示,与步骤3的操作不同的是,迁移时的种群不再随机产生新个体,而是仅有结构种群中的个体进行交叉变异得到新个体,并且每次进化之后种群的数量都会减少一半,进化到最后剩下的个体即为最优网络。
2.根据权利要求1所述的方法,其特征在于,在步骤3-1中,引入训练并行化,如图9所示,提前将训练任务池分割成K份,设置进程数也为K,然后每个进程在获取属于当前进程的任务和相同的网络结构
Figure RE-FDA0002934669670000031
后,对网络进行少量更新(每个进程的网络参数在更新时不会做跨进程梯度交流),在每个进程上的网络都学习完自身任务后,收集各个进程上网络最后一步更新的梯度,然后对梯度进行平均并分发给各个进程,用于超级网络参数更新。
3.根据权利要求1所述的方法,其特征在于,所述的方法在步骤3-2中,引入测试并行化,如图10所示,类似训练并行化,将测试任务池平均分给K个进程,每个进程上的网络参数更新互不影响,最后仅将每个进程上获取的适应度值做平均,用作某个结构的个体适应度均值。
CN202011441402.7A 2020-12-08 2020-12-08 一种基于快速网络架构搜索的跨任务图像分类方法 Pending CN112508104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011441402.7A CN112508104A (zh) 2020-12-08 2020-12-08 一种基于快速网络架构搜索的跨任务图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011441402.7A CN112508104A (zh) 2020-12-08 2020-12-08 一种基于快速网络架构搜索的跨任务图像分类方法

Publications (1)

Publication Number Publication Date
CN112508104A true CN112508104A (zh) 2021-03-16

Family

ID=74970981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011441402.7A Pending CN112508104A (zh) 2020-12-08 2020-12-08 一种基于快速网络架构搜索的跨任务图像分类方法

Country Status (1)

Country Link
CN (1) CN112508104A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128432A (zh) * 2021-04-25 2021-07-16 四川大学 一种基于演化计算的多任务神经网络架构搜索方法
CN113435590A (zh) * 2021-08-27 2021-09-24 之江实验室 面向边缘计算的重参数神经网络架构搜索方法
CN113963167A (zh) * 2021-10-29 2022-01-21 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN114926698A (zh) * 2022-07-19 2022-08-19 深圳市南方硅谷半导体股份有限公司 基于演化博弈论的神经网络架构搜索的图像分类方法
CN114967601A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种冰箱箱体双边装配过程的优化调度方法及系统
WO2022265573A3 (en) * 2021-06-15 2023-01-12 Lemon Inc. Automatically and efficiently generating search spaces for neural network
CN115620147A (zh) * 2022-11-29 2023-01-17 国网山东省电力公司济南供电公司 深度卷积神经网络的可微架构搜索方法及装置
CN117195951A (zh) * 2023-09-22 2023-12-08 东南大学 一种基于架构搜索和自知识蒸馏的学习基因继承方法
CN117611974A (zh) * 2024-01-24 2024-02-27 湘潭大学 基于多种群交替进化神经结构搜索的图像识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN111898689A (zh) * 2020-08-05 2020-11-06 中南大学 一种基于神经网络架构搜索的图像分类方法
CN112036512A (zh) * 2020-11-03 2020-12-04 浙江大学 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111898689A (zh) * 2020-08-05 2020-11-06 中南大学 一种基于神经网络架构搜索的图像分类方法
CN111814966A (zh) * 2020-08-24 2020-10-23 国网浙江省电力有限公司 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN112036512A (zh) * 2020-11-03 2020-12-04 浙江大学 基于网络裁剪的图像分类神经网络架构搜索方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128432A (zh) * 2021-04-25 2021-07-16 四川大学 一种基于演化计算的多任务神经网络架构搜索方法
CN113128432B (zh) * 2021-04-25 2022-09-06 四川大学 基于演化计算的机器视觉多任务神经网络架构搜索方法
WO2022265573A3 (en) * 2021-06-15 2023-01-12 Lemon Inc. Automatically and efficiently generating search spaces for neural network
CN113435590A (zh) * 2021-08-27 2021-09-24 之江实验室 面向边缘计算的重参数神经网络架构搜索方法
CN113963167A (zh) * 2021-10-29 2022-01-21 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN114967601A (zh) * 2021-12-30 2022-08-30 昆明理工大学 一种冰箱箱体双边装配过程的优化调度方法及系统
CN114926698B (zh) * 2022-07-19 2022-10-14 深圳市南方硅谷半导体股份有限公司 基于演化博弈论的神经网络架构搜索的图像分类方法
CN114926698A (zh) * 2022-07-19 2022-08-19 深圳市南方硅谷半导体股份有限公司 基于演化博弈论的神经网络架构搜索的图像分类方法
CN115620147A (zh) * 2022-11-29 2023-01-17 国网山东省电力公司济南供电公司 深度卷积神经网络的可微架构搜索方法及装置
CN115620147B (zh) * 2022-11-29 2023-04-07 国网山东省电力公司济南供电公司 深度卷积神经网络的可微架构搜索方法及装置
CN117195951A (zh) * 2023-09-22 2023-12-08 东南大学 一种基于架构搜索和自知识蒸馏的学习基因继承方法
CN117195951B (zh) * 2023-09-22 2024-04-16 东南大学 一种基于架构搜索和自知识蒸馏的学习基因继承方法
CN117611974A (zh) * 2024-01-24 2024-02-27 湘潭大学 基于多种群交替进化神经结构搜索的图像识别方法及系统
CN117611974B (zh) * 2024-01-24 2024-04-16 湘潭大学 基于多种群交替进化神经结构搜索的图像识别方法及系统

Similar Documents

Publication Publication Date Title
CN112508104A (zh) 一种基于快速网络架构搜索的跨任务图像分类方法
Cui et al. A new hyperparameters optimization method for convolutional neural networks
CN110728224A (zh) 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN111859790A (zh) 一种基于图像特征学习的曲线加筋结构布局智能设计方法
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN114373101A (zh) 基于进化策略的神经网络架构搜索的图像分类方法
Bakhshi et al. Fast automatic optimisation of CNN architectures for image classification using genetic algorithm
CN113807176B (zh) 一种基于多知识融合的小样本视频行为识别方法
CN110287985A (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
CN113011091A (zh) 一种自动分组的多尺度轻量型深度卷积神经网络优化方法
CN115908909A (zh) 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统
CN113128689A (zh) 一种调控知识图谱的实体关系路径推理方法及系统
CN115481727A (zh) 一种基于进化计算的意图识别神经网络生成与优化方法
CN114299344A (zh) 一种针对图像分类的神经网络结构低成本自动搜索方法
CN114093426B (zh) 基于基因调控网络构建的标志物筛选方法
CN117611974B (zh) 基于多种群交替进化神经结构搜索的图像识别方法及系统
CN114241267A (zh) 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法
CN111445024B (zh) 一种医学影像识别训练方法
CN113282747A (zh) 一种基于自动机器学习算法选择的文本分类方法
Zhang et al. Learning to search efficient densenet with layer-wise pruning
CN116611504A (zh) 一种基于进化的神经架构搜索方法
CN113780146B (zh) 基于轻量化神经架构搜索的高光谱图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination