CN111723914A - 一种基于卷积核预测的神经网络架构搜索方法 - Google Patents

一种基于卷积核预测的神经网络架构搜索方法 Download PDF

Info

Publication number
CN111723914A
CN111723914A CN202010572932.9A CN202010572932A CN111723914A CN 111723914 A CN111723914 A CN 111723914A CN 202010572932 A CN202010572932 A CN 202010572932A CN 111723914 A CN111723914 A CN 111723914A
Authority
CN
China
Prior art keywords
convolution kernel
neural network
network architecture
module
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010572932.9A
Other languages
English (en)
Inventor
张旭
古博
陈俊周
林梓淇
丁北辰
韩瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202010572932.9A priority Critical patent/CN111723914A/zh
Publication of CN111723914A publication Critical patent/CN111723914A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明提供了一种基于卷积核预测的神经网络架构搜索方法,包括:构建一个用于神经网络架构搜索的超级网络,超级网络包括老师网络和学生网络;老师网络为预先训练好的网络,学生网络由多个基本单元组成;将训练集和神经网络架构的编码信息作为输入,对学生网络进行训练,当损失函数收敛到最小值时,预测得到最优卷积核;损失函数是根据老师网络的损失函数和学生网络的损失函数确定的;根据学生网络的损失函数对神经网络架构的编码信息进行更新,得到最优神经网络架构。本发明基于卷积核预测的神经网络架构搜索方法,引入老师网络作为引导,学生网络中的卷积核预测模块能准确预测最优卷积核,极大地提高了搜索效率,且能保证搜索结果全局最优。

Description

一种基于卷积核预测的神经网络架构搜索方法
技术领域
本发明涉及神经网络架构搜索技术领域,尤其是涉及一种基于卷积核预测的神经网络架构搜索方法。
背景技术
设计高效的神经网络架构是深度学习中的重要研究内容,一个优秀的神经网络架构可以有效提高包括图像分类、检测和分割在内的多个任务的效率和精确度,但是人工设计网络架构往往严重依赖于人的经验,同时给相关研究者造成了巨大的负担。基于此,提出了神经网络架构搜索(Neural Architecture Search,简称NAS),通过在既定搜索空间上对神经网络架构自动搜索,得到一个最优的神经网络架构。在许多领域,如图像分类、图像分割、图像检测和自然语言处理等,神经网络架构搜索已经取得了优于人工设计网络架构的结果。
通常,神经网络架构的搜索空间十分巨大,且须对其中每个神经网络架构进行评估才可以确定最优的神经网络架构。同时,为保证评估的准确性,须确保每个神经网络架构中的卷积层都有对应的最优卷积核,因此,搜索效率十分低下。
目前常用的神经网络搜索架构算法包括基于强化学习、基于遗传算法和可微分的网络架构搜索等;其中,基于强化学习算法和遗传算法的神经网络架构搜索方案,通常需要消耗上千GPU/时,计算成本高昂。
由于深度学习中神经网络架构通常包含有多层神经元,所以研究者通常将多个神经元聚合为一个神经单元(例如:MobileNet、ResNet),进而将多个聚合后的神经单元进行堆叠来组成最终的神经网络架构。而在搜索的时候,为提高搜索效率,现存方案中通常将聚合后的神经单元分为两类,进而对这两类神经单元进行搜索,并将搜索得到的两类神经单元进行堆叠构成最终的神经网络架构。基于这种方式的搜索,虽然可有效地提高搜索效率,但是搜索结果通常是局部最优,而非全局最优的;同时,存在搜索结果不稳定的问题,即在相同的数据集和配置下,多次搜索的结果可能不一样。
发明内容
本发明的目的是提供一种基于卷积核预测的神经网络架构搜索方法,以解决神经网络架构搜索中的搜索效率低下、搜索结果不稳定的技术问题。
本发明的目的,可以通过如下技术方案实现:
一种基于卷积核预测的神经网络架构搜索方法,包括:
构建一个用于神经网络架构搜索的超级网络,所述超级网络包括老师网络和学生网络;其中,所述老师网络为预先训练好的网络;所述学生网络由多个基本单元组成,所述学生网络包括卷积核预测模块、卷积核转换模块和基本操作模块;
将训练集作为所述超级网络的输入,将所述神经网络架构的编码信息作为所述卷积核预测模块的输入,将损失函数作为约束条件,对所述学生网络进行训练,当所述损失函数收敛到最小值时,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核;其中,所述损失函数是根据老师网络的损失函数和学生网络的损失函数确定的;
根据所述学生网络的损失函数对所述神经网络架构的编码信息进行更新,当所述学生网络的损失函数收敛到最小值时,可得到最优神经网络架构。
可选地,对所述学生网络进行训练具体为:在迭代训练过程中,所述神经网络架构的编码信息是随机生成的,对所述卷积核预测模块与所述卷积核转换模块中的参数进行更新。
可选地,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核具体为:对所述神经网络架构的编码信息进行特征提取、拼接操作、变形操作后,依次经过第一全连接层、ReLU和第二全连接层,得到7×7的卷积核。
可选地,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核具体为:对所述神经网络架构的编码信息进行特征提取、拼接操作、变形操作后,依次经过第一全连接层、ReLU和第二全连接层,得到7×7的卷积核。
可选地,对所述神经网络架构的编码信息进行特征提取具体为:分别利用单元感知模块、节点感知模块和操作感知模块对所述编码信息进行特征提取。
可选地,对所述卷积核预测模块中的参数进行更新具体为:对所述单元感知模块、所述节点感知模块、所述操作感知模块、所述第一全连接层和所述第二全连接层中的参数进行更新。
可选地,对所述卷积核转换模块中的参数进行更新具体为:对第一转换子模块和第二转换子模块中的参数进行更新;其中,所述卷积核转换模块包括第一转换子模块和第二转换子模块。
可选地,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核之后还包括:利用所述卷积核转换模块对所述最优卷积核进行非线性变换。
可选地,利用所述卷积核转换模块对所述最优卷积核进行非线性变换具体为:根据所述第一转换子模块将7×7的卷积核转换为5×5的卷积核,根据所述第二转换子模块将7×7的卷积核转换为3×3的卷积核。
可选地,根据所述第一转换子模块将7×7的卷积核转换为5×5的卷积核具体为:将7×7的卷积核作为输入,通过卷积操作提取5×5的特征,然后经过变形操作、Linear得到5×5的卷积核。
可选地,根据所述第二转换子模块将7×7的卷积核转换为3×3的卷积核具体为:将7×7的卷积核中心的3×3特征作为输入,然后经过变形操作、Linear得到3×3的卷积核。
本发明提供了一种基于卷积核预测的神经网络架构搜索方法,包括:构建一个用于神经网络架构搜索的超级网络,所述超级网络包括老师网络和学生网络;其中,所述老师网络为预先训练好的网络;所述学生网络由多个基本单元组成,所述学生网络包括卷积核预测模块、卷积核转换模块和基本操作模块;
将训练集作为所述超级网络的输入,将所述神经网络架构的编码信息作为所述卷积核预测模块的输入,将损失函数作为约束条件,对所述学生网络进行训练,当所述损失函数收敛到最小值时,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核;其中,所述损失函数是根据老师网络的损失函数和学生网络的损失函数确定的;根据所述学生网络的损失函数对所述神经网络架构的编码信息进行更新,当所述学生网络的损失函数收敛到最小值时,得到最优神经网络架构。
本发明提供的基于卷积核预测的神经网络架构搜索方法,带来的有益效果是:
(1)通过引入老师网络作为引导,使得学生网络中的卷积核预测模块可以准确地为任意给定的神经网络架构生成对应的最优卷积核,从而反应出每个神经网络架构的真实性能,在每个神经网络架构都有对应的最优卷积核的情况下,通过其在验证集上的精确度对神经网络架构进行排名。同时,由于老师网络的引进,可以使得卷积核预测模块的每次预测结果趋于稳定,有效地减少了其偶然性,从而能保证最终搜索结果的稳定性;
(2)学生网络中的卷积核预测模块和卷积核转换模块通过为给定的神经网络架构准确地预测最优卷积核,有效降低了其他方案中为每个神经网络架构训练卷积核带来的计算开销,极大地提高了神经网络架构搜索的效率;
(3)相较于按照基本单元类别搜索的方法,本发明使得每个基本单元具有独立的参数,并将搜索范围扩展到每个基本单元,保证了搜索结果的全局最优。
附图说明
图1为本发明一种基于卷积核预测的神经网络架构搜索方法的模型框架图;
图2为本发明一种基于卷积核预测的神经网络架构搜索方法的学生网络中基本单元的搜索空间示意图;
图3为本发明一种基于卷积核预测的神经网络架构搜索方法的学生网络中基本单元的节点构成和训练示意图;
图4为本发明一种基于卷积核预测的神经网络架构搜索方法的卷积核预测示意图;
图5为本发明一种基于卷积核预测的神经网络架构搜索方法的单元感知模块示意图;
图6为本发明一种基于卷积核预测的神经网络架构搜索方法的节点感知模块示意图;
图7为本发明一种基于卷积核预测的神经网络架构搜索方法的操作感知模块示意图;
图8为本发明一种基于卷积核预测的神经网络架构搜索方法的卷积核转换模块的方案一示意图;
图9为本发明一种基于卷积核预测的神经网络架构搜索方法的卷积核转换模块的方案二示意图;
图10为本发明一种基于卷积核预测的神经网络架构搜索方法的卷积核转换模块的方案三示意图。
具体实施方式
术语解释:
1、搜索空间中的基本操作:
(1)卷积操作:3×3深度可分离卷积(3×3depthwise-separable conv),5×5深度可分离卷积(5×5depthwise-separable conv),7×7深度可分离卷积(7×7depthwise-separable conv),3×3空洞卷积(3×3dilated-separable conv),5×5空洞卷积(5×5dilated-separable conv),7×7空洞卷积(7×7 dilated-separable conv);
(2)其他操作:3×3最大值池化层(3×3max pooling)、3×3均值池化层(3×3average pooling)、直接连接操作(identity)、零化操作(zero);
2、拼接操作(concat)英文全称为concatenation;
3、倒置残差块:指MobileNetV2中提到的Inverted Residual Block;
4、ReLU:深度学习中常用的一种激活函数;
5、FC:全连接层,全称为fully connected layer;
6、Liner:通常由FC→ReLU→FC三层构成。
本发明实施例提供了一种基于卷积核预测的神经网络架构搜索方法,以解决神经网络架构搜索中的搜索效率低下、搜索结果不稳定的技术问题。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明实施例提供了一种基于卷积核预测的神经网络架构搜索方法,包括:
构建一个用于神经网络架构搜索的超级网络,所述超级网络包括老师网络和学生网络;其中,所述老师网络为预先训练好的网络;所述学生网络由多个基本单元组成,并包括有卷积核预测模块、卷积核转换模块和基本操作模块;
将训练集作为所述超级网络的输入,将所述神经网络架构的编码信息作为所述卷积核预测模块的输入,将损失函数作为约束条件,对所述学生网络进行训练,当所述损失函数收敛到最小值时,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核;其中,所述损失函数是根据老师网络的损失函数和学生网络的损失函数确定的;
根据所述学生网络的损失函数对所述神经网络架构的编码信息进行更新,当所述学生网络的损失函数收敛到最小值时,得到最优神经网络架构。
神经网络架构搜索一般包含有两个阶段:搜索阶段和评估阶段。通常搜索阶段是指在给定数据的情况下,使用既定的搜索策略在既定的搜索空间上进行搜索,最终输出最优网络架构的过程;评估阶段是指利用搜索阶段的输出,也即搜索得到的网络架构,在不同数据集上进行训练和测试,以验证包括精确度、延时以及泛化性等性能的过程。本发明实施例包括搜索框架、搜索空间、搜索策略和结果验证等四方面内容。
请参阅图1,本发明实施例在搜索时,首先构建一个超级网络结构,本发明实施例用于搜索的网络架构框架如图1所示,由老师网络(TeacherNet)和学生网络(StudentHyperNet)两部分构成。整个超级网络架构是由两类基本单元(块)构成:第一类基本单元(块)即常规单元(Normal cell)(常规块(Normal block)),其其输入和输出数据特征的长和宽相同;第二类基本单元(块)即减小化单元(Reduction cell)(减小化块(Reducationblock)),其输入数据特征的长和宽为输出的两倍。
整个网络架构包括老师网络和学生网络,其中,老师网络由多个常规块和减小化块组成,学生网络由多个常规单元和减小化单元组成。图1中箭头表示数据流向;字母n表示连续堆叠n个基本单元(块);KD_loss表示通过计算箭头连接处老师网络中基本块和学生网络中基本单元二者所提取特征的差异得到的损失值。需要特别注意的是,图1中学生网络的基本单元彼此独立,即每个基本单元拥有独立的网络架构参数和卷积核等参数。
在整个网络架构中,老师网络通常是目前人工设计的通用的比较优秀的网络,也即预先训练好的网络。故,老师网络中的基本块通常为人工设计的通用的优秀网络架构中的基本块,因此不具有搜索空间,例如:深度残差网络(ResNetBlock)、密集深度残差网络(DenseNetBlock)或高效神经网络(EfficientNetBlock)等。而学生网络则是具备搜索空间的可供搜索的特殊网络。
其中,学生网络中的基本单元通常具有如图2中所示的搜索空间,使用一个有向图(DAG)来表示每个基本单元的搜索空间,其中灰色方块表示数据特征,称之为节点,记作N;圆圈代表节点之间的基本操作,不同圆圈代表不同的操作,记作o;两个节点之间的可供搜索的操作的集合,记作O,通常所有节点之间拥有一致的可搜索操作集合;实线表示在搜索过程中被保留下来的操作,虚线表示通过搜索舍弃的操作,箭头代表数据流向。同时第i个节点Ni和第j个节点Nj之间的每个操作o有唯一参数
Figure BDA0002550305130000071
与之对应,可通过softmax函数计算得到其权重
Figure BDA0002550305130000072
我们将网络结构中的
Figure BDA0002550305130000073
的集合称之为神经网络架构的编码信息(Encoding Architcture Parameters),记作α;通常,将节点i经过不同的操作加权求和转换至节点j的过程,记作F(Ni),公式如下:
Figure BDA0002550305130000081
其中,每个基本单元在初始搜索时的搜索空间是相同的,但是在搜索过程中其参数是独立更新迭代的。因此,最后的搜索结果中每个基本单元的结构可能是不同的。
本发明实施例利用老师网络来引导学生网络,希望学生网络可以尽可能地学习老师网络的优秀特征,同时也希望学生网络具有自主的学习能力,能够更好地拟合数据。因此,引入了两种损失函数来约束,分别是称之为老师网络的损失函数(KD_loss)和学生网络的损失函数(St_loss)。然后将KD_loss和St_loss组合起来构成最终的损失函数loss:
loss=λSt_loss+(1-λ)KD_loss
其中,λ为St_loss对应系数,可用来调整St_loss和KD_loss的占比。
学生网络是一个超级网络,包含有多个基本单元,每个基本单元的构成如图2所示,然而基本单元中节点之间的卷积操作的卷积核并不是通过训练而是预测得到的。
请参阅图3,学生网络是由卷积核预测模块(PredictionBlock)、卷积核转换模块(Transform)和基本操作模块三个基本部分构成。其中,基本操作模块包括卷积块(Conv3×3,Conv5×5和Conv7×7)以及其他操作(Other ops),每个卷积块代表一组卷积操作(如MobileNetV2中的倒置残差块)。如Conv3×3表示3×3的卷积操作,包括3×3深度可分离卷积和3×3空洞卷积,Conv5×5表示5×5的卷积操作,包括5×5深度可分离卷积和5×5空洞卷积,Conv7×7表示7×7的卷积操作,包括7×7深度可分离卷积和7×7空洞卷积。其他操作主要包括:3×3最大值池化层(3×3 max pooling)、3×3均值池化层(3×3 average pooling)、直接连接操作(identity)和零化操作(zero)。
本发明实施例中,Conv7×7中的卷积核是直接通过卷积核预测模块生成的,而Conv5×5和Conv3×3中的卷积核由Conv7×7中卷积核分别通过Transform7,5和Transform7,3转换而来的。
本发明实施例在训练学习的时候,将原来训练神经网络结构中卷积操作的卷积核转化为训练卷积核预测模块和卷积核转换模块中的参数,具体地,对卷积核预测模块中的单元感知模块、节点感知模块、操作感知模块和两个全连接层中的参数进行更新;对卷积核转换模块中的第一转换子模块和第二转换子模块中的参数进行更新。
本发明实施例,可以准确地为不同神经网络架构生成对应的卷积核,从而可以反应出该架构的真实性能,在每个神经网络架构都有对应的最优卷积核的情况下,通过其在验证集上的精确度对神经网络架构进行排名。
请参阅图4,本发明实施例中,卷积核预测模块以网络架构编码信息作为输入,以卷积块中的卷积核作为输出,具体流程为:神经网络架构的编码信息α(α∈RC×N×O),经过三个感知模块分别提取得到维度为C×N×O的特征,然后将其拼接(concat)在一起,记作F(F∈R3C×N×O)。F依次经过第一个全连接层(FC)、ReLU和第二个全连接层(FC)后输出得到对应卷积层中的卷积核,如图4所示7×7的卷积核。
请参阅图5~7,为了全面提取网络架构的特征,分别利用单元感知模块、节点感知模块和操作感知模块从三个方面对其进行特征提取。
以单元感知模块为例,α经过三个独立的3×3卷积层分别得到特征FA、FB和FC。其中,FB和FC经变形操作(reshape)由维度为C×N×O的张量变换成维度为C×Y的张量,其中Y=N×O,分别记作F′B和F′C。然后,将F′C转置后和F′B矩阵相乘,并将结果归一化(fnorm)处理得到FD。最后,将FD和F′A相乘后得到的结果变形后和α相加得到输出FE,其中F′A是将FA由维度C×N×O的张量变换为Y×C的张量得到,其中Y=N×O。另外,归一化操作fnorm通常为softmax函数或fnorm(x)=x/sum(x),x为张量,sum(x)为张量x中所有元素的和。
其他两个模块和单元感知模块之间的差异体现以下两点:
1)中间变量FD在三个感知模块中形状分别为C×C,N×N和O×O;
2)三个模块中的变形操作需各自对应。
请参阅图4,为减少模型参数量,本发明实施例使用卷积核转换模块将大卷积核转换为所需要的小卷积核,其中,不同基本单元中不同节点之间所使用的转换模块是相互独立的,但是同一基本单元中两个节点之间卷积核转换时使用的模块是相同的。
对于卷积核转换模块,本发明实施例提供了3种实施方案,分别如图8~10所示。
其中,方案一将a×a形状的卷积核依次和a×b,b×a两张量相乘后,经变形操作后输入到Linear中,在此经过变形操作后得到所需的b×b状卷积核。由于方案一中所包含的参数量和计算量均为最小,所以其适用于对计算开销要求极为苛刻的情况,但是由于参数量较少,其表达能力有限。
方案二、方案三的基本结构与前面三个感知模块的结构类似,方案二中采用a×a的卷积核作为输入,通过ConvBlock提取得到b×b形状的特征。
而方案三中在将a×a形状的卷积核转换为b×b时,则是直接使用a×a中心的b×b矩形作为输入。
相较于方案三,方案二中直接以a×a卷积核为输入,最大限度地保证了原卷积核数据特征的丰富性。同时,方案二中的参数量和计算量在三个方案中是最大的,其表达能力也最强。
本发明实施例中利用卷积核转换模块,将7×7的卷积核转换为5×5和3×3的卷积核;实际情况下,卷积核转换模块中的三种方案同时适用于7×7→5×5和7×7→3×3,或者更一般的,适用于a×a→b×b的情况,而并不局限于本发明实施例中所使用的两种转换情况。
本发明实施例提供的基于卷积核预测的神经网络架构搜索方法,在训练过程中,当利用损失函数(loss)进行反向梯度传递时,通过二进制门(gp和gα)来控制是否对学生网络中对应参数进行更新。
卷积核预测模块具体构成如图4所示,其中卷积核预测模块以架构编码信息(α)作为输入,通过3个感知模块(如图5~7所示),拼接操作(concat)、变形操作(reshape)和两个全连接层(使用ReLU连接)后输出对应的7×7卷积核。
同时,为了最大限度地提高搜索效率并且减小计算开销,本发明实施例分别使用第一转换子模块(Transform7,5)和第二转换子模块(Transform7,3),对预测生成的7×7卷积核进行非线性变换,分别得到5×5和3×3的卷积核。其中,卷积核预测模块中的参数使用ωP表示,卷积核转换模块中的参数使用ωT表示。从而,获得与神经网络架构的编码信息α所对应卷积核ωα的过程,用公式表示为ωα=P(ωP,ωT,α)。
基于以上,本发明实施例将网络架构搜索的优化目标,即在给定数据下寻找最优的网络架构的问题细化成两个子问题:
(1)为搜索空间中的任意给定的神经网络架构的编码信息α生成与之对应的最优卷积核
Figure BDA0002550305130000111
Figure BDA0002550305130000112
其中,Lval表示损失函数在验证集上所得的损失值。
(2)搜索空间中的任意神经网络架构具有与之对应的最优卷积核之后,本发明实施例便可以对所有神经网络架构进行公平公正的排名,以求得最优的神经网络架构编码信息α*,进而得到最优的网络架构
Figure BDA0002550305130000113
而评价标准则是寻找在验证集上损失最小的神经网络架构(对应有最优的卷积核):
Figure BDA0002550305130000114
针对子问题(1)的解决方案:
根据前面所述内容,本发明实施例构建起了用于网络架构搜索的超级网络,其目标在于通过卷积核预测模块和转化模块准确地为搜索空间中的任意网络架构生成对应的最优卷积核,以反应每个神经网络架构的真实性能,从而能够对神经网络架构进行排名。所以,本发明实施例需要通过训练超级网络使其学习如何准确地预测网络架构。
首先,将数据集(MiniBatch)作为整个超级网络的输入,同时将神经网络架构的编码信息α作为卷积核预测模块的输入,通过来自学生的损失函数和来自老师的损失函数同时对学生网络进行约束。在此训练过程中,神经网络架构的编码信息α在每一次的循环中是随机生成的,反向梯度传递时对ωP和ωT进行更新(二进制门gP=1打开,gα=0关闭)。直到损失函数loss收敛至最小值时,本发明实施例的卷积核预测模块可以为任意给定的神经网络架构生成对应的最优卷积核。
针对子问题(2)的解决方案:
在解决了问题(1)之后,本发明实施例在计算损失函数时,剔除掉来自老师网络的损失函数,即将λ设置为1,同时只对经网络架构的编码信息α进行更新(gP=0关闭,gα=1打开)。同样,当损失函数loss收敛到最小值时,通过比较最优的编码信息α*来选择节点之间所要保留的T个最大可能性的操作,进而构成最终的神经网络架构
Figure BDA0002550305130000121
通常,在连接到节点Nk的所有操作中保留其中最大的两个编码信息
Figure BDA0002550305130000122
所对应的操作,即T=2。
针对图像分类任务,本发明实施例首先在CIFAR-10数据集上进行搜索,得到最优的网络架构之后,分别将该网络架构在CIFAR-10和ImageNet两个数据集上从零开始训练,并在对应的验证集上进行验证,具体如表1和表2所示:
表1
Figure BDA0002550305130000123
表2
Figure BDA0002550305130000131
从以上实验结果中可以得知,通过本发明实施例提供的基于卷积核预测的神经网络架构搜索方法,搜索得到的神经网络架构在取得相同误差的情况下,可以将最终神经网络架构的参数量和计算量极大地降低;尤其是在CIFAR-10数据集上的结果,本发明实施例中8-cells的模型相对其他模型不仅在精度上得到提升,同时参数量较其他模型减少近40%。该模型十分有利于在移动设备上运行,同时为计算延时要求高的任务提供了实际部署和运行的可能性。
本发明实施例提供的基于卷积核预测的神经网络架构搜索方法,通过引入老师网络作为引导,使得学生网络中的卷积核预测模块可以准确地为任意给定的神经网络架构生成对应的最优卷积核,从而反应出每个神经网络架构的真实性能,在每个神经网络架构都有对应的最优卷积核的情况下,通过其在验证集上的精确度对神经网络架构进行排名。同时,由于老师网络的引进,可以使得卷积核预测模块的每次预测结果趋于稳定,有效地减少了其偶然性,从而保证最终的搜索结果稳定。
本发明实施例中学生网络的卷积核预测模块,能为给定的神经网络架构准确预测出最优卷积核,极大地减少了其他方案中为每个网络架构训练卷积核所带来的计算开销,极大地提高了神经网络架构搜索的效率。
本发明实施例中无需将基本单元分类搜索,相对按照基本单元类别进行搜索的其他方法,本发明实施例中使每个基本单元拥有独立的参数,然后通过对构成神经网络架构的每个基本单元都进行搜索,从而保证了搜索结果是全局最优的。
本发明实施例提供的基于卷积核预测的神经网络架构搜索方法,以神经网络的架构信息为驱动来预测卷积核,通过预测神经网络架构中的卷积核,可以为任意架构生成对应的最优卷积核,进而对神经网络架构中每一层进行搜索,从而得到全局最优的网络架构。
本发明实施例中得到最优网络架构分为两个步骤:
(1)神经网络架构的编码信息随机变化,以训练得到最优的卷积核预测模块,可以为任意的神经网络架构预测其对应的最优卷积核,此时损失函数第一次收敛,但是损失比较大;
(2)在得到最优卷积核预测模块和卷积核转换模块之后,需对神经网络架构的编码信息进行迭代更新以获取最优的网络架构。此时,损失函数会出现第二次收敛的情况,且较第一次收敛损失将大幅降低。
本发明实施例提供的基于卷积核预测的神经网络架构搜索方法,以神经网络的架构信息为驱动来预测卷积核,实现了网络架构的结构信息和卷积核之间的信息交互;利用目前已知的优秀的网络架构来引导预测卷积核,以达到准确预测卷积核的目的;由于本发明实施例中的卷积核预测的高效性,可以对神经网络架构中的每个基本单元进行搜索,从而寻找全局最优的网络架构,而不是局部最优。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于卷积核预测的神经网络架构搜索方法,其特征在于,包括:
构建一个用于神经网络架构搜索的超级网络,所述超级网络包括老师网络和学生网络;其中,所述老师网络为预先训练好的网络;所述学生网络由多个基本单元组成,所述学生网络包括卷积核预测模块、卷积核转换模块和基本操作模块;
将训练集作为所述超级网络的输入,将所述神经网络架构的编码信息作为所述卷积核预测模块的输入,将损失函数作为约束条件,对所述学生网络进行训练,当所述损失函数收敛到最小值时,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核;其中,所述损失函数是根据老师网络的损失函数和学生网络的损失函数确定的;
根据所述学生网络的损失函数对所述神经网络架构的编码信息进行更新,当所述学生网络的损失函数收敛到最小值时,得到最优神经网络架构。
2.根据权利要求1所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,对所述学生网络进行训练具体为:在迭代训练过程中,所述神经网络架构的编码信息是随机生成的,对所述卷积核预测模块与所述卷积核转换模块中的参数进行更新。
3.根据权利要求2所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核具体为:对所述神经网络架构的编码信息进行特征提取、拼接操作、变形操作后,依次经过第一全连接层、ReLU和第二全连接层,得到7×7的卷积核。
4.根据权利要求3所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,对所述神经网络架构的编码信息进行特征提取具体为:分别利用单元感知模块、节点感知模块和操作感知模块对所述编码信息进行特征提取。
5.根据权利要求4所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,对所述卷积核预测模块中的参数进行更新具体为:对所述单元感知模块、所述节点感知模块、所述操作感知模块、所述第一全连接层和所述第二全连接层中的参数进行更新。
6.根据权利要求5所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,对所述卷积核转换模块中的参数进行更新具体为:对第一转换子模块和第二转换子模块中的参数进行更新;其中,所述卷积核转换模块包括第一转换子模块和第二转换子模块。
7.根据权利要求6所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,所述卷积核预测模块预测得到与所述神经网络架构对应的最优卷积核之后还包括:利用所述卷积核转换模块对所述最优卷积核进行非线性变换。
8.根据权利要求7所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,利用所述卷积核转换模块对所述最优卷积核进行非线性变换具体为:根据所述第一转换子模块将7×7的卷积核转换为5×5的卷积核,根据所述第二转换子模块将7×7的卷积核转换为3×3的卷积核。
9.根据权利要求8所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,根据所述第一转换子模块将7×7的卷积核转换为5×5的卷积核具体为:将7×7的卷积核作为输入,通过卷积操作提取5×5的特征,然后经过变形操作、Linear得到5×5的卷积核。
10.根据权利要求9所述的基于卷积核预测的神经网络架构搜索方法,其特征在于,根据所述第二转换子模块将7×7的卷积核转换为3×3的卷积核具体为:将7×7的卷积核中心的3×3特征作为输入,然后经过变形操作、Linear得到3×3的卷积核。
CN202010572932.9A 2020-06-22 2020-06-22 一种基于卷积核预测的神经网络架构搜索方法 Pending CN111723914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010572932.9A CN111723914A (zh) 2020-06-22 2020-06-22 一种基于卷积核预测的神经网络架构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010572932.9A CN111723914A (zh) 2020-06-22 2020-06-22 一种基于卷积核预测的神经网络架构搜索方法

Publications (1)

Publication Number Publication Date
CN111723914A true CN111723914A (zh) 2020-09-29

Family

ID=72569974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010572932.9A Pending CN111723914A (zh) 2020-06-22 2020-06-22 一种基于卷积核预测的神经网络架构搜索方法

Country Status (1)

Country Link
CN (1) CN111723914A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711475A (zh) * 2021-01-20 2021-04-27 上海交通大学 一种基于图卷积神经网络的工作流调度方法及系统
CN112784140A (zh) * 2021-02-03 2021-05-11 浙江工业大学 一种高能效神经网络架构的搜索方法
CN112801215A (zh) * 2021-03-17 2021-05-14 腾讯科技(深圳)有限公司 图像处理模型搜索、图像处理方法、装置和存储介质
CN112926552A (zh) * 2021-04-23 2021-06-08 河南大学 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN113780542A (zh) * 2021-09-08 2021-12-10 北京航空航天大学杭州创新研究院 一种面向fpga的多目标网络结构的构建方法
WO2021259262A1 (zh) * 2020-06-23 2021-12-30 中兴通讯股份有限公司 神经网络的生成方法、设备及计算机可读存储介质
CN115034368A (zh) * 2022-06-10 2022-09-09 小米汽车科技有限公司 车载模型训练方法、装置、电子设备、存储介质及芯片

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021259262A1 (zh) * 2020-06-23 2021-12-30 中兴通讯股份有限公司 神经网络的生成方法、设备及计算机可读存储介质
CN112711475A (zh) * 2021-01-20 2021-04-27 上海交通大学 一种基于图卷积神经网络的工作流调度方法及系统
CN112711475B (zh) * 2021-01-20 2022-09-06 上海交通大学 一种基于图卷积神经网络的工作流调度方法及系统
CN112784140A (zh) * 2021-02-03 2021-05-11 浙江工业大学 一种高能效神经网络架构的搜索方法
CN112784140B (zh) * 2021-02-03 2022-06-21 浙江工业大学 一种高能效神经网络架构的搜索方法
CN112801215A (zh) * 2021-03-17 2021-05-14 腾讯科技(深圳)有限公司 图像处理模型搜索、图像处理方法、装置和存储介质
CN112801215B (zh) * 2021-03-17 2021-07-02 腾讯科技(深圳)有限公司 图像处理模型搜索、图像处理方法、装置和存储介质
CN112926552A (zh) * 2021-04-23 2021-06-08 河南大学 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN113780542A (zh) * 2021-09-08 2021-12-10 北京航空航天大学杭州创新研究院 一种面向fpga的多目标网络结构的构建方法
CN113780542B (zh) * 2021-09-08 2023-09-12 北京航空航天大学杭州创新研究院 一种面向fpga的多目标网络结构的构建方法
CN115034368A (zh) * 2022-06-10 2022-09-09 小米汽车科技有限公司 车载模型训练方法、装置、电子设备、存储介质及芯片
CN115034368B (zh) * 2022-06-10 2023-09-29 小米汽车科技有限公司 车载模型训练方法、装置、电子设备、存储介质及芯片

Similar Documents

Publication Publication Date Title
CN111723914A (zh) 一种基于卷积核预测的神经网络架构搜索方法
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
Chitty-Venkata et al. Neural architecture search for transformers: A survey
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN111651576B (zh) 一种基于迁移学习的多轮阅读理解方法
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
Li et al. Efficient bitwidth search for practical mixed precision neural network
CN115017178A (zh) 数据到文本生成模型的训练方法和装置
Li et al. Can vision transformers perform convolution?
CN115101145A (zh) 一种基于自适应元学习的药物虚拟筛选方法
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
CN111079011A (zh) 一种基于深度学习的信息推荐方法
Stevenson et al. Self-supervised machine learning based approach to orbit modelling applied to space traffic management
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN116054144A (zh) 分布式光伏接入的配电网重构方法、系统及存储介质
CN113590748B (zh) 基于迭代网络组合的情感分类持续学习方法及存储介质
Bi et al. K-means clustering optimizing deep stacked sparse autoencoder
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
CN115481246A (zh) 文本检测模型训练方法以及装置
CN114972959A (zh) 深度学习中样本生成和类内排序损失的遥感图像检索方法
CN113569960A (zh) 基于域适应的小样本图像分类方法及系统
CN113722439A (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN114202669A (zh) 一种用于医疗图像分割的神经网络搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929