CN114219964A - 一种神经网络架构搜索方法、装置及电子设备和存储介质 - Google Patents

一种神经网络架构搜索方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN114219964A
CN114219964A CN202111676417.6A CN202111676417A CN114219964A CN 114219964 A CN114219964 A CN 114219964A CN 202111676417 A CN202111676417 A CN 202111676417A CN 114219964 A CN114219964 A CN 114219964A
Authority
CN
China
Prior art keywords
structural unit
searched
neural network
architecture
internal nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111676417.6A
Other languages
English (en)
Inventor
温东超
赵雅倩
史宏志
崔星辰
葛沅
赵健
张英杰
尹云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN202111676417.6A priority Critical patent/CN114219964A/zh
Publication of CN114219964A publication Critical patent/CN114219964A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种神经网络架构搜索方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取图像分类任务的数据集;其中,数据集包含图像和对应的类别标签;构建图像分类任务的神经网络;其中,神经网络包括依次连接的多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元包括多个内部节点,梯度传输单元包括跳转连接操作或1×1的卷积操作;定义待搜索结构单元中内部节点之间的操作集合;其中,操作集合不包含跳转连接;利用数据集搜索每个结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定梯度传输单元的结构。本申请提高了搜索到的图像分类的神经网络的最佳架构精度。

Description

一种神经网络架构搜索方法、装置及电子设备和存储介质
技术领域
本申请涉及图像分类技术领域,更具体地说,涉及一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
在深度学习领域神经网络架构不断演化,神经网络架构搜索也即确定神经网络的最佳拓扑结构成为神经网络架构设计的主流方法,自动神经网络架构搜索(英文全称:Neural Architecture Search,英文简称:NAS)成为当前的热点研究方向。
在相关技术中,可微分网络架构搜索方法(英文全称:DifferentiableARchiTecture Search,英文简称:DARTS)使用梯度下降方法在可微分搜索空间进行架构搜索。但是,随着搜索迭代次数逐渐增加,DARTS在搜索的过程中会倾向于从搜索空间中优先选择跳转连接(skip connection)。当深度神经网络中包含很多的跳转连接的时候,神经网络的精度会降低,也即导致神经网络的崩塌。
因此,如何提高搜索到的神经网络的最佳架构精度是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质,提高了搜索到的图像分类的神经网络的最佳架构精度。
为实现上述目的,本申请提供了一种神经网络架构搜索方法,包括:
获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
其中,所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。
其中,所述确定所述梯度传输单元的结构,包括:
若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;
若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1×1的卷积操作。
其中,所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。
其中,所述神经网络中第
Figure BDA0003452089840000021
Figure BDA0003452089840000022
个结构单元为降分辨率结构单元,N为所述神经网络中结构单元的数量,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。
其中,所述数据集包括训练集和验证集;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,包括:
利用所述训练集确定所述操作集合中每个操作的权重参数;
利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
将每两个内部节点之间架构参数最大的操作确定为最佳操作。
其中,所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数,包括:
将所述验证集的图像输入所述神经网络中,利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失,并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度,基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
其中,所述架构损失函数为:
Figure BDA0003452089840000031
其中,ω*(α)为在训练集合上得到的最优权重参数,α为架构参数集合,Lval()为在验证集合上的损失值,ω0-1为预定义的超参数,M为神经网络中全部待搜索结构单元中的全部待搜索连接总数,定义包含待搜索操作的两个内部节点为一个待搜索连接,
Figure BDA0003452089840000032
N为第m个待搜索连接的操作总数,σ()为softmax函数,αn为第m个待搜索连接的第n个操作的架构参数,
Figure BDA0003452089840000033
O为操作集合,oi,j和o′i,j为中间节点i与中间节点j之间的操作的输出。
为实现上述目的,本申请提供了一种神经网络架构搜索装置,包括:
获取模块,用于获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
构建模块,用于构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
定义模块,用于定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
搜索模块,用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述神经网络架构搜索方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述神经网络架构搜索方法的步骤。
通过以上方案可知,本申请提供的一种神经网络架构搜索方法,包括:获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
本申请为图像分类任务设计了新的神经网络,其包含多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元中内部节点之间的操作集合不包含跳转连接,在待搜索结构单元中搜索每两个内部节点之间的最佳操作,可以使得内部节点之间不会搜索到跳转连接,避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程,确保深层网络的梯度被有效传输到浅层网络,进一步提高了搜索到的神经网络的最佳架构精度。由此可见,本申请提供的神经网络架构搜索方法,使得图像分类的神经网络随着搜索的迭代次数增加而精度增加,提高了搜索到的图像分类的神经网络的最佳架构精度。本申请还公开了一种神经网络架构搜索装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种神经网络架构搜索方法的流程图;
图2为根据一示例性实施例示出的一种图像分类任务的神经网络的结构图;
图3为根据一示例性实施例示出的另一种神经网络架构搜索方法的流程图;
图4为根据一示例性实施例示出的一种神经网络架构搜索装置的结构图;
图5为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例公开了一种神经网络架构搜索方法,提高了搜索到的图像分类的神经网络的最佳架构精度。
参见图1,根据一示例性实施例示出的一种神经网络架构搜索方法的流程图,如图1所示,包括:
S101:获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
本实施例的目的在于搜索用于图像分类的神经网络的最佳架构,在本步骤中,获取图像分类任务的数据集,其中图像和对应的类别标签,例如对于0到9的数字分类任务,输入数据集包括含有0到9的数字的图像,每个图像的类别标签为其包含的数字。
S102:构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
S103:定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
需要说明的是,对于一般的残差神经网络,包括N个残差块组成,第i+1残差块的输出为Xi+1,Xi+1=fi+1(Xi,Wi+1)+Xi,其中,Xi是第i残差块的输出,Wi+1是第i+1残差块的权重,fi+1指权重为Wi+1的第i+1残差块的操作。假设模型损失为L。可以证明
Figure BDA0003452089840000061
从这个式子中,可以看到浅层网络总是包含深层网络的梯度信息。残差网络的跳转连接缓解了梯度消失现象,使得深度神经网络更容易被训练。因此,当DARTS技术在包含跳转连接的搜索空间中搜索最佳操作(operation)的时候,跳转连接更容易被选中,从而导致搜索过程出现“崩塌”现象。
因此,本实施例构建的图像分类任务的神经网络如图2所示,包括依次连接的多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元。待搜索结构单元中内部节点之间的操作集合O,可以包括卷积(convolution)、最大值池化(max pooling)等操作,例如3×3可分离卷积、5×5可分离卷积、7×7可分离卷积、9×9可分离卷积、3×3卷积、3×3膨胀卷积、5×5膨胀卷积、3×3平均池化、“零”操作等,在此不进行具体限定。需要说明的是,本实施例中的操作集合中不包括跳转连接。
需要说明的是,本实施例对操作的通道数没有限制,既可以是16通道,也可以是32通道或者其他通道数。卷积特征图被补零来保持空间分辨率,本实施例使用ReLU-Conv-BN顺序操作,每个可分离卷积被应用两次。
每个待搜索结构单元是包含N个有序内部节点的有向无环图,其中,内部节点代表特征图,从内部节点i到达内部节点j的边ei,j代表操作,操作的输出定义为oi,j(xi)。内部节点j的值是与之相连的边的输出和,定义为xj=∑i<joi,j(xi)。在内部节点i和内部节点j之间,包含若干个操作,每个操作对应一个架构权重。待搜索结构单元的输出为其中所有内部节点的可分离拼接。梯度传输单元分支包含固定的跳转连接或1×1卷积操作。
神经网络由N个结构单元串联组成,结构单元k的输入节点是结构单元k-1的输出节点。结构单元的输出为其中待搜索结构单元的输出和梯度传输单元的输出之和。
作为一种优选实施方式,所述神经网络中第
Figure BDA0003452089840000071
Figure BDA0003452089840000072
个结构单元为降分辨率结构单元,N为所述神经网络中结构单元的数量,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。在具体实施中,在神经网络的
Figure BDA0003452089840000073
Figure BDA0003452089840000074
处,为神经网络的降分辨率结构单元,在降分辨率结构单元中,连接输入节点的操作的步幅是2,
Figure BDA0003452089840000075
表示下取整。
S104:利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
本实施例提供的神经网络架构搜索方法在待搜索结构单元中搜索每两个内部节点之间的最佳操作,排除跳转连接操作,避免神经网络搜索算法随着搜索迭代次数增多而精度下降,即避免搜索过程出现“崩塌”现象。梯度传输单元用于稳定搜索方法的搜索过程,包括跳转连接操作或1×1的卷积操作,确保在梯度反向传播过程中深层网络的梯度可以被有效传输到浅层网络。
作为一种优选实施方式,所述确定所述梯度传输单元的结构,包括:若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1×1的卷积操作。在具体实施中,当输入特征图的维度和输出维度相同的时候,梯度传输单元为跳转连接。当特征图的维度和输出维度不同的时候,梯度传输单元为1×1的卷积操作。
本申请实施例为图像分类任务设计了新的神经网络,其包含多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元中内部节点之间的操作集合不包含跳转连接,在待搜索结构单元中搜索每两个内部节点之间的最佳操作,可以使得内部节点之间不会搜索到跳转连接,避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程,确保深层网络的梯度被有效传输到浅层网络,进一步提高了搜索到的神经网络的最佳架构精度。由此可见,本申请实施例提供的神经网络架构搜索方法,使得图像分类的神经网络随着搜索的迭代次数增加而精度增加,提高了搜索到的图像分类的神经网络的最佳架构精度。
本申请实施例公开了一种神经网络架构搜索方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图3,根据一示例性实施例示出的另一种神经网络架构搜索方法的流程图,如图3所示,包括:
S201:获取图像分类任务的数据集;其中,所述数据集包括训练集和验证集,所述训练集和所述验证集包含图像和对应的类别标签;
在本实施例中,数据集合被划分为两个子集合:训练集和验证集,其中均包含图像和对应的类别标签,训练集用于训练神经网络的权重参数,验证集用于训练神经网络的架构参数,权重参数指神经网络的操作(例如:3×3卷积操作、5×5卷积操作、可分离卷积操作、膨胀卷积操作等)中的权重。架构参数指代表待搜索操作的重要程度的参数。
S202:构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
在本步骤中,构建图像分类任务的神经网络,初始化权重参数ω、架构参数α和搜索迭代总数E。
S203:定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
S204:利用所述训练集确定所述操作集合中每个操作的权重参数;
S205:利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
作为一种优选实施方式,所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数,包括:将所述验证集的图像输入所述神经网络中,利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失,并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度,基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
其中,所述架构损失函数为:
Figure BDA0003452089840000091
其中,ω*(α)为在训练集合上得到的最优权重参数,α为架构参数集合,Lval()为在验证集合上的损失值,ω0-1为预定义的超参数,M为神经网络中全部待搜索结构单元中的全部待搜索连接总数,定义包含待搜索操作的两个内部节点为一个待搜索连接,
Figure BDA0003452089840000092
N为第m个待搜索连接的操作总数,σ()为softmax函数,αn为第m个待搜索连接的第n个操作的架构参数,
Figure BDA0003452089840000093
O为操作集合,oi,j和o′i,j为中间节点i与中间节点j之间的操作的输出。
为了使得搜索空间连续,本实施例可以将架构权重转化为分类概率:
Figure BDA0003452089840000094
其中,
Figure BDA0003452089840000095
表示混合概率,在训练结束的时候,
Figure BDA0003452089840000096
Figure BDA0003452089840000097
代替。进一步,定义如下的架构参数约束函数L0-1推动架构参数的分类概率值
Figure BDA0003452089840000098
逼近0或者1,从而增加
Figure BDA0003452089840000099
的区分性。
在具体实施中,可以联合学习架构参数和权重参数。分别定义训练损失和评估损失,利用双层优化解下面问题:
Figure BDA00034520898400000910
s.t.ω*(α)=argminωLtrain(ω,α);其中,Ltrain()为在训练集合上的损失值;
Figure BDA00034520898400000911
Figure BDA00034520898400000912
Figure BDA00034520898400000913
从第一次迭代开始,直到迭代数达到E为止,执行下列操作:依据训练集的损失计算梯度
Figure BDA00034520898400000914
更新权重参数ω,从训练集取一组数据(包括图像和类别标签)。这组数据的每个样本经过神经网络得到网络输出值。利用这些输出值和对应的类别标签计算Ltrain(ω,α)。然后,利用反向传播算法计算
Figure BDA00034520898400000915
并更新ω。依据验证集的损失计算梯度
Figure BDA00034520898400000916
更新架构参数α,从验证集取一组数据(包括图像和类别标签)。这组数据的每个样本经过神经网络得到网络输出值。利用这些输出值和对应的类别标签计算
Figure BDA00034520898400000917
然后,利用反向传播算法计算
Figure BDA00034520898400000918
并更新α。
S206:将每两个内部节点之间架构参数最大的操作确定为最佳操作,并确定所述梯度传输单元的结构。
在具体实施中,对于每两个内部节点之间操作,根据对应的架构参数αn的数值,选择架构参数值最大的操作作为两个内部节点之间的操作。进一步的,当输入特征图的维度和输出维度相同的时候,梯度传输单元为跳转连接。当特征图的维度和输出维度不同的时候,梯度传输单元为1×1的卷积操作。
由此可见,本实施例通过架构参数的约束条件约束架构参数的更新步骤,使得架构参数具有更好的区分性,可以推动网络搜索到最优架构精度更高,解决了最优架构难以被选择的问题。
下面对本申请实施例提供的一种神经网络架构搜索装置进行介绍,下文描述的一种神经网络架构搜索装置与上文描述的一种神经网络架构搜索方法可以相互参照。
参见图4,根据一示例性实施例示出的一种神经网络架构搜索装置的结构图,如图4所示,包括:
获取模块401,用于获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
构建模块402,用于构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
定义模块403,用于定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
搜索模块404,用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
本申请实施例为图像分类任务设计了新的神经网络,其包含多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元中内部节点之间的操作集合不包含跳转连接,在待搜索结构单元中搜索每两个内部节点之间的最佳操作,可以使得内部节点之间不会搜索到跳转连接,避免神经网络搜索算法随着搜索迭代次数增多而精度下降。同时利用梯度传输单元稳定算法的搜索过程,确保深层网络的梯度被有效传输到浅层网络,进一步提高了搜索到的神经网络的最佳架构精度。由此可见,本申请实施例提供的神经网络架构搜索装置,使得图像分类的神经网络随着搜索的迭代次数增加而精度增加,提高了搜索到的图像分类的神经网络的最佳架构精度。
在上述实施例的基础上,作为一种优选实施方式,所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。
在上述实施例的基础上,作为一种优选实施方式,若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1×1的卷积操作。
在上述实施例的基础上,作为一种优选实施方式,所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。
在上述实施例的基础上,作为一种优选实施方式,所述神经网络中第
Figure BDA0003452089840000111
Figure BDA0003452089840000112
个结构单元为降分辨率结构单元,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。
在上述实施例的基础上,作为一种优选实施方式,所述数据集包括训练集和验证集;所述搜索模块404包括:
第一确定单元,用于利用所述训练集确定所述操作集合中每个操作的权重参数;
第二确定单元,用于利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
第三确定单元,用于将每两个内部节点之间架构参数最大的操作确定为最佳操作。
在上述实施例的基础上,作为一种优选实施方式,所述第二确定单元具体为将所述验证集的图像输入所述神经网络中,利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失,并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度,基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数的单元;
其中,所述架构损失函数为:
Figure BDA0003452089840000121
其中,ω*(α)为在训练集合上得到的最优权重参数,α为架构参数集合,Lval()为在验证集合上的损失值,ω0-1为预定义的超参数,M为神经网络中全部待搜索结构单元中的全部待搜索连接总数,定义包含待搜索操作的两个内部节点为一个待搜索连接,
Figure BDA0003452089840000122
N为第m个待搜索连接的操作总数,σ()为softmax函数,αn为第m个待搜索连接的第n个操作的架构参数,
Figure BDA0003452089840000123
O为操作集合,oi,j和o′i,j为中间节点i与中间节点j之间的操作的输出。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图5为根据一示例性实施例示出的一种电子设备的结构图,如图5所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的神经网络架构搜索方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种神经网络架构搜索方法,其特征在于,包括:
获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
2.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。
3.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述确定所述梯度传输单元的结构,包括:
若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;
若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1×1的卷积操作。
4.根据权利要求2所述神经网络架构搜索方法,其特征在于,所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。
5.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述神经网络中第
Figure FDA0003452089830000011
Figure FDA0003452089830000012
个结构单元为降分辨率结构单元,N为所述神经网络中结构单元的数量,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。
6.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述数据集包括训练集和验证集;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,包括:
利用所述训练集确定所述操作集合中每个操作的权重参数;
利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
将每两个内部节点之间架构参数最大的操作确定为最佳操作。
7.根据权利要求6所述神经网络架构搜索方法,其特征在于,所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数,包括:
将所述验证集的图像输入所述神经网络中,利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失,并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度,基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
其中,所述架构损失函数为:
Figure FDA0003452089830000021
其中,ω*(α)为在训练集合上得到的最优权重参数,α为架构参数集合,Lval()为在验证集合上的损失值,ω0-1为预定义的超参数,M为神经网络中全部待搜索结构单元中的全部待搜索连接总数,定义包含待搜索操作的两个内部节点为一个待搜索连接,
Figure FDA0003452089830000022
N为第m个待搜索连接的操作总数,σ()为softmax函数,αn为第m个待搜索连接的第n个操作的架构参数,
Figure FDA0003452089830000023
O为操作集合,oi,j和o′i,j为中间节点i与中间节点j之间的操作的输出。
8.一种神经网络架构搜索装置,其特征在于,包括:
获取模块,用于获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
构建模块,用于构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1×1的卷积操作;
定义模块,用于定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
搜索模块,用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述神经网络架构搜索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述神经网络架构搜索方法的步骤。
CN202111676417.6A 2021-12-31 2021-12-31 一种神经网络架构搜索方法、装置及电子设备和存储介质 Pending CN114219964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111676417.6A CN114219964A (zh) 2021-12-31 2021-12-31 一种神经网络架构搜索方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111676417.6A CN114219964A (zh) 2021-12-31 2021-12-31 一种神经网络架构搜索方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114219964A true CN114219964A (zh) 2022-03-22

Family

ID=80707502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111676417.6A Pending CN114219964A (zh) 2021-12-31 2021-12-31 一种神经网络架构搜索方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114219964A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115873A (zh) * 2022-06-08 2022-09-27 中国船舶集团有限公司系统工程研究院 基于可微分网络结构搜索的图像分类方法及装置

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US20190130249A1 (en) Sequence-to-sequence prediction using a neural network model
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
CN112487168B (zh) 知识图谱的语义问答方法、装置、计算机设备及存储介质
Whalen Holophrasm: a neural automated theorem prover for higher-order logic
US11030265B2 (en) Cross-platform data matching method and apparatus, computer device and storage medium
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
US11030411B2 (en) Methods, apparatuses, and devices for generating word vectors
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN112199473A (zh) 一种知识问答系统中的多轮对话方法与装置
CN113535986B (zh) 一种应用于医学知识图谱的数据融合方法及装置
JP2018185771A (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
KR20220013896A (ko) 프로세서의 신경망 아키텍처를 결정하기 위한 방법 및 장치
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN114219964A (zh) 一种神经网络架构搜索方法、装置及电子设备和存储介质
CN110795562A (zh) 图谱优化方法、装置、终端及存储介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
Zheng et al. Character-based parsing with convolutional neural network
CN114911814A (zh) 一种基于知识资源库更新的咨询服务方法及系统
Jindal et al. Efficient web navigation prediction using hybrid models based on multiple evidence combinations
CN111401569B (zh) 超参数优化方法、装置和电子设备
US20210081766A1 (en) Neural networks for multi-label classification of sequential data
CN110059310B (zh) 上位词网络的扩充方法及装置、电子设备、存储介质
CN117973544B (zh) 基于语义距离的文本单位推理方法装置、存储介质和终端
CN114519105B (zh) 一种概念词语确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination