CN112381208B - 一种基于神经网络架构搜索的图片分类方法与系统 - Google Patents
一种基于神经网络架构搜索的图片分类方法与系统 Download PDFInfo
- Publication number
- CN112381208B CN112381208B CN202011268902.5A CN202011268902A CN112381208B CN 112381208 B CN112381208 B CN 112381208B CN 202011268902 A CN202011268902 A CN 202011268902A CN 112381208 B CN112381208 B CN 112381208B
- Authority
- CN
- China
- Prior art keywords
- search
- searching
- super
- unit
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000011478 gradient descent method Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 36
- 238000012795 verification Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 10
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 abstract description 6
- 238000005457 optimization Methods 0.000 description 24
- 238000010801 machine learning Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 108020001568 subdomains Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种深度渐进且逐步寻优的神经网络架构搜索方法与系统,包括:步骤1、构建包含和不包含下采样操作的第一搜索单元和第二搜索单元,堆叠第一搜索单元和第二搜索单元,形成超网;步骤2、通过梯度下降法搜索得到超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以操作结果分别更新第一搜索单元和第二搜索单元,得到第一更新单元和第二更新单元,堆叠第一更新单元和第二更新单元,得到单模型;步骤3、判断单模型深度是否小于目标模型深度,若是,将预设递增数量的第一搜索单元堆叠至单模型,形成超网,再次执行步骤2,否则将单模型作为神经网络搜索结果。
Description
技术领域
本发明涉及自动化机器学习中神经网络架构搜索领域,尤其涉及一种神经网络深度渐进搜索并逐步寻优的方法与装置。
背景技术
自动化机器学习(Automated Machine Learning,简称Auto-ML)是模型选择、特征抽取和超参数调优的一系列自动化方法,可以实现自动训练有价值的模型。从机器学习角度讲,Auto-ML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。但是它强调必须非常容易使用。从自动化角度讲,Auto-ML则可以看作是设计一系列高级的控制系统去操作机器学习模型,使得模型可以自动化地学习到合适的参数和配置而无需人工干预。即使是对经验丰富的机器学习从业者而言,这一自动化过程也可以加快速度。Auto-ML的主要问题可以由三部分构成:特征工程、模型选择、算法选择。
神经网络架构搜索(Neural Architecture Search,简称NAS)主要是面向自动化机器学习中的模型选择类问题。神经网络架构搜索通常涉及学习像层(又可称为“单元”)之类的东西,它们可以通过堆叠一系列重复的单元来构建神经网络模型。通常使用强化学习或进化算法来选择不同的神经网络结构,实现神经网络可以设计神经网络,代表着机器学习的未来方向。NAS是Auto-ML的子领域,根据维度可分为三类:搜索空间、搜索策略和性能评估策略。搜索空间定义了优化问题的复杂度,随着网络结构和超参数的变量定义的不同,不同搜索空间对于神经网络架构搜索的难度来说也不尽相同。搜索策略定义了使用怎样的算法可以快速、准确地找到较优或最优的网络结构参数配置。常见的搜索方法包括:随机搜索、贝叶斯优化、进化算法、强化学习、基于梯度的算法等。性能评估策略类似于工程优化中的代理模型。由于神经网络架构搜索需要验证大量的深度神经网络模型的性能,但是模型的效果非常依赖于训练数据的规模,而大规模数据上的模型训练会非常耗时,从而导致对优化结果的评价将会非常耗时,所以需要一些手段去做近似的评估。当前常用的一种思路是采用一些低保真的训练集来训练模型即借鉴于工程优化中的代理模型思想,如训练更少的轮数,或用原始训练数据的一部分,或用低分辨率的图片,亦或是每一层用更少的滤波器等。用这种低保真的训练集来测试优化算法会大大降低计算时间,因为选择最优的架构并不需要绝对值,只需要有相对值就可以进行排序选优了。
发明内容
发明人在进行神经网络架构搜索的相关研究时,发现现有技术DARTS存在严重的优化差异(包括深度优化差异和离散化差异),即模型搜索和模型评估的目标存在一定偏差。P-DARTS方法对DARTS的优化差异问题进行了改进,主要是将搜索分为三个阶段,使每个阶段的搜索深度渐进变深,同时在每个搜索阶段结束时,仅保留当前阶段占优势的若干操作,删去冗余操作。但是,P-DARTS的改进方式依然不够鲁棒,搜得模型容易出现跳跃聚集从而导致性能崩塌,需要添加人为先验作为限制约束,并且模型搜索和模型评估过程仍然存在着深度优化差异和离散化差异,没有完全消除。因此,本发明人提出,将搜索分为若干阶段,每个阶段根据硬件限制自适应增加搜索深度,直至最后一个阶段使得搜索模型深度和评估模型深度一致,从而完全消除深度优化差异。同时,每个阶段通过架构搜索得到当前阶段的最优解,进入下一阶段的搜索,从而可进一步削减离散化差异。发明人经过研究发现,经过本方法的改进,不会出现跳跃连接聚集的问题。同时,使用本方法可以完全消除模型的深度优化差异并进一步削减离散化差异。
针对现有技术的不足,本发明提出一种基于神经网络架构搜索的图片分类方法,其他包括:
步骤1、构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元,通过堆叠该第一搜索单元和该第二搜索单元,形成供搜索的超网;
步骤2、将训练集图片经过随机剪裁、翻转、归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,依据梯度方向优化超网权重参数W;将验证集图片经过归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择该边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以该操作结果分别更新该第一搜索单元和该第二搜索单元,得到第一更新单元和第二更新单元,堆叠该第一更新单元和该第二更新单元,得到单模型;
步骤3、判断该单模型深度是否小于目标模型深度,若是,则将预设递增数量的该第一搜索单元堆叠至该单模型,形成供搜索的超网,再次执行该步骤2,否则保存当前单模型作为神经网络搜索结果,使用该神经网络搜索结果为待分类图片进行图片分类。
所述的基于神经网络架构搜索的图片分类方法,其他该第一搜索单元和该第二搜索单元均为同一种有向无环图。
所述的基于神经网络架构搜索的图片分类方法,其他该有向无环图包括多个节点,每个节点表示一张特征图,节点间的连接边为由多个待搜索操作构成的混合操作,每条边上的箭头表征信息流向,每条边中的混合操作都带有各自的权重系数α,边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示:
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,为输出节点特征图。
输入节点、中间节点和输出节点,
所述的基于神经网络架构搜索的图片分类方法,其他根据硬件限制,设置该预设递增数量。
所述的基于神经网络架构搜索的图片分类系统,其他该多个节点包括输入节点,中间节点,和输出节点。
本发明还提出了一种基于神经网络架构搜索的图片分类系统,其他包括:
模块1、用于构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元,通过堆叠该第一搜索单元和该第二搜索单元,形成供搜索的超网;
模块2、用于将训练集图片经过随机剪裁、翻转、归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,依据梯度方向优化超网权重参数W;将验证集图片经过归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择该边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以该操作结果分别更新该第一搜索单元和该第二搜索单元,得到第一更新单元和第二更新单元,堆叠该第一更新单元和该第二更新单元,得到单模型;
模块3、用于判断该单模型深度是否小于目标模型深度,若是,则将预设递增数量的该第一搜索单元堆叠至该单模型,形成供搜索的超网,再次执行该步骤2,否则保存当前单模型作为神经网络搜索结果,使用该神经网络搜索结果为待分类图片进行图片分类。
所述的基于神经网络架构搜索的图片分类系统,其他该第一搜索单元和该第二搜索单元均为同一种有向无环图。
所述的基于神经网络架构搜索的图片分类系统,其他该有向无环图包括多个节点,每个节点表示一张特征图,节点间的连接边为由多个待搜索操作构成的混合操作,每条边上的箭头表征信息流向,每条边中的混合操作都带有各自的权重系数α,边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示:
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,为输出节点特征图。
输入节点、中间节点和输出节点,
所述的基于神经网络架构搜索的图片分类系统,其他根据硬件限制,设置该预设递增数量。
所述的基于神经网络架构搜索的图片分类系统,其他该多个节点包括输入节点,中间节点,和输出节点。
附图说明
图1是有向无环图与每条边为混合操作的示意图;
图2是超网深度逐渐逼近单模型的网络深度示意图;
图3是本发明的方法示意图;
图4是本发明的装置示意图。
具体实施方式
当前的神经网络架构搜索方法主要包含基于DARTS搜索空间和基于MobileNet/ShuffleNet Block搜索空间,通常采用基于梯度的搜索策略在小规模数据集(如CIFAR10等)上进行代理搜索,然后将所得模型迁移到大规模数据集(如ImageNet)进行评估。本发明基于当前常用的DARTS搜索空间并采用基于梯度的搜索策略,提出了一种神经网络深度渐进并逐步寻优的架构搜索方法与装置。
第一方面,本申请实施例提供一种神经网络深度渐进搜索并逐步寻优的方法,具体包括两步:用于逐步加深神经网络架构搜索深度的步骤1,和用于继承前序搜得最优解进行后续搜索的步骤2。本申请依次对上述步骤进行如下详细说明。
步骤1、逐步加深神经网络架构搜索深度。
基于DARTS搜索空间的神经网络架构搜索方法通常采用基于梯度的搜索策略在小规模数据集进行代理搜索。在搜索过程中,该类方法通常需要构建两种基础搜索单元,分别为不包含下采样操作的Normal Cell和包含下采样操作的Reduction Cell,通过堆叠以上两种不同的基础搜索单元形成一个可供搜索的神经网络(又可称为“超网”),这两种搜索单元均为有向无环图,向无环图通常由多个节点构成,例如包括2个输入节点,4个中间节点,1个输出节点。节点与节点之间有连接边,每个连接边是多种操作的集合。这两种搜索单元的结构是一样的,差异在于每个连接边的候选操作集合不同,并且Normal Cell中每个连接边的每种操作均包含下采样,与之相对的Reduction Cell并不带有下采样。这两种不同的基础搜索单元均为一种有向无环图,有向无环图的结构相同,但是其中每条边对应的操作是不同的,如图1所示,其中包括两个输入节点(图中命名为ck-2和ck-1),四个中间节点(图中标号1、2、3、4),和一个输出节点(图中命名为ck),每个节点表示一张特征图,节点间的连接边为一种可搜索的混合操作。每条边包含该搜索空间中的所有候选操作的集合,每条边上的箭头表征信息流向,即从输入特征图经过混合操作集合得到输出特征图。每条边中的混合操作都带有各自的权重系数α(并约束其softmax和为1),该条边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示,
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,即为输出节点特征图,αo (ij)表示从节点i到节点j之间的操作o对应的权重系数。o和o’是两个求和符号中的变量,均表示操作。例如,对于每个操作o的权重系数取exp后,都要除以所有o’操作取exp后的值之和。
在搜索过程中,通过梯度下降算法对每条边中每个操作的权重系数α进行不断优化,待搜索结束后,每条边选择系数α最大的操作作为该边最终搜得的操作,从而可以得到搜得的两种基础搜索单元Normal Cell和Reduction Cell。再次通过堆叠搜得的基础搜索单元Normal Cell和Reduction Cell,即可得到该算法搜得的神经网络模型(又可称为“单模型”)。
由于在搜索过程和得到最终神经网络模型过程中都需要通过堆叠基础单元Normal Cell和Reduction Cell,但是现有技术使用的DARTS优化算法在这两次堆叠基础单元的数量并不相同,因此极易导致神经网络架构搜索过程中的优化目标和实际所需的优化目标并不一致。具体来讲,在搜索过程中构建超网和搜索结束时构建单模型所使用的基础单元数量不一致,造成超网和单模型的深度并不相同,从而导致神经网络架构搜索的优化目标与实际目标存在差异,记为“深度优化差异”。因此,本发明提出逐步加深神经网络架构搜索的深度,从而使得超网深度逐渐逼近单模型的网络深度,进而消除二者的深度优化差异。该流程示意图如图2所示。
在超网搜索过程中,本发明提出将单一搜索过程分为多个阶段,每个阶段均可在前一个阶段的基础上逐步加深超网的深度。例如,在第一个搜索阶段,基于当前常用的超网设置参数构建超网,设置超网深度为8,即包含6个Normal Cell和2个Reduction Cell。考虑到Normal Cell在超网和单模型中的数量都更多,对模型性能的影响远大于ReductionCell,并且超网和单模型中通常都只包含两个Reduction Cell。因此,在经过固定轮数搜索训练后,沿用第一个阶段搜得的Reduction Cell而只在当前超网后添加新的可搜索基础单元Normal Cell,也就是图2中本申请得到的20层的Fixed Cells是由2层Reduction Cell和18层Normal Cell组成。在实际搜索过程中,网络目标深度和渐进深度可根据实际情况确定,并不固定。在经过不同的搜索阶段后,超网深度逐渐增加,并在最后的搜索阶段设置超网深度与单模型深度相同,从而可在搜索过程中逐渐减少超网与单模型的深度优化差异,并最终消除该深度优化差异。
同时,在每个不同的搜索阶段,本发明提出新添加的Normal Cell数量可变。因为新添加的Normal Cell会进一步增大超网搜索时的计算机显存占用,所以根据不同的硬件限制,在每个搜索阶段可添加合适数量的Normal Cell来加深超网的深度。从而使得该搜索算法更加灵活,适用场景也更加丰富。
2、继承前序搜得最优解进行后续搜索
随着搜索深度的不断加深,超网模型的参数量会不断增加,对计算机显存的占用会越来越高。同时,另一方面,由于超网中每条边是一组操作的集合,而单模型中的每条边仅代表一种搜得的操作。但是DARTS算法在搜索过程结束后,直接根据每条边中α绝对值的大小保留最终操作,若超网变得越来越深,则会使搜得单模型结构和超网的差异越来越大,通常该问题又称为“离散化差异”。正是基于以上两点,本发明提出在每个搜索阶段,直接继承前序搜得最优解进行后续搜索。
具体来讲,在每个搜索阶段结束时,对当前阶段搜索的基础单元进行操作选择。选择每条边中α绝对值最大的操作,根据DARTS算法的既定规则得到当前阶段搜得的单模型。后续阶段直接使用当前阶段所得到的单模型,而不再对之前已经搜过的基础单元进行搜索。因此,使用该方法一方面能显著降低神经网络搜索过程中深度不断加深对显存的消耗,另一方面还能极大地缓解离散化差异,降低从超网得到最终单模型的精度损失。
第二方面,本发明实施提供一种神经网络深度渐进搜索并逐步寻优的装置,包括以下模块:
A、数据读取及预处理模块:该模块将训练数据根据相应超参数设置划分为训练集合验证集供神经网络架构搜索,将训练集和测试集读入并进行预处理供搜得单模型进行训练和验证;
B、超网构建模块:该模块根据当前的神经网络架构搜索阶段,并基于硬件限制,构建下一阶段可供搜索的不同深度的超参数网络;
C、神经网络架构搜索及优化模块:该模块主要包含两个部分。第一部分用于将经过预处理的训练数据送入超网进行前向传播,并通过反向传播来优化超网中不同候选操作自身的权重参数W;第二部分用于将经过预处理的验证集数据送入超网进行前向传播,并通过反向传播来优化超网中每条边包含的架构参数α;
D、单模型获取模块:该模块仅用于根据当前训练好的超网架构参数,提取搜得的单模型。
E、单模型训练及验证模块:该模块使用经过预处理的训练集对搜得单模型进行训练,优化单模型中的权重参数W,并在测试集上进行前向传播,得到输出与标签进行对比,从而验证该搜得单模型的性能好坏。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
实施例1
图3是本发明提供的一种神经网络深度渐进搜索并逐步寻优的方法,其步骤为:
S11:定义目标数据集和搜索空间,以DARTS搜索空间为例。
S12:根据DARTS算法的定义方式构建有向无环图Normal Cell和Reduction Cell,并根据当前搜索阶段,通过堆叠基础搜索单元构建超参数网络进行搜索。
S13:将训练集图片经过随机剪裁、翻转、归一化后,送入超参数网络中,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,使用SGD优化器依据梯度方向优化超网权重参数W。
S14:将验证集图片经过归一化后,送入超参数网络中,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,使用SGD优化器依据梯度方向优化超网中每条边包含的架构参数α。
S15:当前阶段搜索结束,选择有向无环图中每条边α值最大的操作作为搜得基础单元每条边的最终操作,从而得到当前阶段搜得的基础单元。堆叠当前阶段搜得的基础单元形成当前阶段所得的单模型。
S16:在当前阶段搜得的单模型后,依据硬件限制,添加基础搜索单元NormalCell,形成下一个阶段可供搜索的超网。
S17:重复迭代上述步骤S12-S16,直到超网深度与搜得单模型深度相同为止。
实施例2
本发明实施例还提供一种神经网络深度渐进搜索并逐步寻优的装置,如图4所示,该装置包括:数据读取及预处理模块21、超网构建模块22、神经网络架构搜索及优化模块23、单模型获取模块24、单模型训练及验证模块25。
数据读取及预处理模块21,将训练数据根据相应超参数设置划分为训练集合验证集供神经网络架构搜索,将训练集和测试集读入并进行预处理供搜得单模型进行训练和验证;超网构建模块22,该模块根据当前的神经网络架构搜索阶段,并基于硬件限制,构建下一阶段可供搜索的不同深度的超参数网络;神经网络架构搜索及优化模块23,该模块主要包含两个部分。第一部分用于将经过预处理的训练数据送入超网进行前向传播,并通过反向传播来优化超网中不同候选操作自身的权重参数W;第二部分用于将经过预处理的验证集数据送入超网进行前向传播,并通过反向传播来优化超网中每条边包含的架构参数α;单模型获取模块24,该模块仅用于根据当前训练好的超网架构参数,提取搜得的单模型;单模型训练及验证模块25,该模块使用经过预处理的训练集对搜得单模型进行训练,优化单模型中的权重参数W,并在测试集上进行前向传播,得到输出与标签进行对比,从而验证该搜得单模型的性能好坏。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于神经网络架构搜索的图片分类系统,其他包括:
模块1、用于构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元,通过堆叠该第一搜索单元和该第二搜索单元,形成供搜索的超网;
模块2、用于将训练集图片经过随机剪裁、翻转、归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,依据梯度方向优化超网权重参数W;将验证集图片经过归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择该边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以该操作结果分别更新该第一搜索单元和该第二搜索单元,得到第一更新单元和第二更新单元,堆叠该第一更新单元和该第二更新单元,得到单模型;
模块3、用于判断该单模型深度是否小于目标模型深度,若是,则将预设递增数量的该第一搜索单元堆叠至该单模型,形成供搜索的超网,再次执行该步骤2,否则保存当前单模型作为神经网络搜索结果,使用该神经网络搜索结果为待分类图片进行图片分类。
所述的基于神经网络架构搜索的图片分类系统,其他该第一搜索单元和该第二搜索单元均为同一种有向无环图。
所述的基于神经网络架构搜索的图片分类系统,其他该有向无环图包括多个节点,每个节点表示一张特征图,节点间的连接边为由多个待搜索操作构成的混合操作,每条边上的箭头表征信息流向,每条边中的混合操作都带有各自的权重系数α,边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示:
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,为输出节点特征图。
输入节点、中间节点和输出节点,
所述的基于神经网络架构搜索的图片分类系统,其他根据硬件限制,设置该预设递增数量。
所述的基于神经网络架构搜索的图片分类系统,其他该多个节点包括输入节点、中间节点和输出节点。
Claims (6)
1.一种基于神经网络架构搜索的图片分类方法,其特征在于,包括:
步骤1、构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元,通过堆叠该第一搜索单元和该第二搜索单元,形成供搜索的超网;
步骤2、将训练集图片经过随机剪裁、翻转、归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,依据梯度方向优化超网权重参数W;将验证集图片经过归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择该边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以该操作结果分别更新该第一搜索单元和该第二搜索单元,得到第一更新单元和第二更新单元,堆叠该第一更新单元和该第二更新单元,得到单模型;
步骤3、判断该单模型深度是否小于目标模型深度,若是,则将预设递增数量的该第一搜索单元堆叠至该单模型,形成供搜索的超网,再次执行该步骤2,否则保存当前单模型作为神经网络搜索结果,使用该神经网络搜索结果为待分类图片进行图片分类;
其中该第一搜索单元和该第二搜索单元均为同一结构的有向无环图;
该有向无环图包括多个节点,每个节点表示一张特征图,节点间的连接边为由多个待搜索操作构成的混合操作,每条边上的箭头表征信息流向,每条边中的混合操作都带有各自的权重系数α,边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示:
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,为输出节点特征图。
2.如权利要求1所述的基于神经网络架构搜索的图片分类方法,其特征在于,根据硬件限制,设置该预设递增数量。
3.如权利要求1所述的基于神经网络架构搜索的图片分类方法,其特征在于,该多个节点包括输入节点、中间节点和输出节点。
4.一种基于神经网络架构搜索的图片分类系统,其特征在于,包括:
模块1、用于构建包含下采样操作的第一搜索单元和不包含下采样操作的第二搜索单元,通过堆叠该第一搜索单元和该第二搜索单元,形成供搜索的超网;
模块2、用于将训练集图片经过随机剪裁、翻转、归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,依据梯度方向优化超网权重参数W;将验证集图片经过归一化后,送入该超网,前向传播后根据标签计算交叉熵损失,并进行反向传播计算梯度,通过梯度下降法搜索得到该超网的有向无环图中每个边的每个操作的权重系数,每条边通过选择该边对应操作中权重系数最大的操作,得到每条边最终搜得的操作结果,以该操作结果分别更新该第一搜索单元和该第二搜索单元,得到第一更新单元和第二更新单元,堆叠该第一更新单元和该第二更新单元,得到单模型;
模块3、用于判断该单模型深度是否小于目标模型深度,若是,则将预设递增数量的该第一搜索单元堆叠至该单模型,形成供搜索的超网,再次执行该步骤2,否则保存当前单模型作为神经网络搜索结果,使用该神经网络搜索结果为待分类图片进行图片分类;
其中该第一搜索单元和该第二搜索单元均为同一结构的有向无环图;
该有向无环图包括多个节点,每个节点表示一张特征图,节点间的连接边为由多个待搜索操作构成的混合操作,每条边上的箭头表征信息流向,每条边中的混合操作都带有各自的权重系数α,边的输出特征图即为输入特征图经过操作集合后的加权求和,如下公式所示:
其中,x表示输入节点特征图,O表示候选操作集合,o表示候选操作集合中的某种操作,为输出节点特征图。
5.如权利要求4所述的基于神经网络架构搜索的图片分类系统,其特征在于,根据硬件限制,设置该预设递增数量。
6.如权利要求4所述的基于神经网络架构搜索的图片分类系统,其特征在于,该多个节点包括输入节点、中间节点和输出节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011268902.5A CN112381208B (zh) | 2020-11-13 | 2020-11-13 | 一种基于神经网络架构搜索的图片分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011268902.5A CN112381208B (zh) | 2020-11-13 | 2020-11-13 | 一种基于神经网络架构搜索的图片分类方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112381208A CN112381208A (zh) | 2021-02-19 |
CN112381208B true CN112381208B (zh) | 2023-10-31 |
Family
ID=74582160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011268902.5A Active CN112381208B (zh) | 2020-11-13 | 2020-11-13 | 一种基于神经网络架构搜索的图片分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381208B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297429B (zh) * | 2021-05-24 | 2023-09-29 | 南京大学 | 一种基于神经网络架构搜索的社交网络链路预测方法 |
CN113762469B (zh) * | 2021-08-13 | 2024-05-03 | 北京航空航天大学 | 神经网络结构搜索方法及系统 |
CN113435590B (zh) * | 2021-08-27 | 2021-12-21 | 之江实验室 | 面向边缘计算的重参数神经网络架构搜索方法 |
CN113780146B (zh) * | 2021-09-06 | 2024-05-10 | 西安电子科技大学 | 基于轻量化神经架构搜索的高光谱图像分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553480A (zh) * | 2020-07-10 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 神经网络搜索方法、装置、计算机可读介质及电子设备 |
CN111667057A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 用于搜索模型结构的方法和装置 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003947B2 (en) * | 2019-02-25 | 2021-05-11 | Fair Isaac Corporation | Density based confidence measures of neural networks for reliable predictions |
-
2020
- 2020-11-13 CN CN202011268902.5A patent/CN112381208B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667057A (zh) * | 2020-06-05 | 2020-09-15 | 北京百度网讯科技有限公司 | 用于搜索模型结构的方法和装置 |
CN111553480A (zh) * | 2020-07-10 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 神经网络搜索方法、装置、计算机可读介质及电子设备 |
CN111814966A (zh) * | 2020-08-24 | 2020-10-23 | 国网浙江省电力有限公司 | 神经网络架构搜索方法、神经网络应用方法、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
卞伟伟 ; 邱旭阳 ; 申研 ; .基于神经网络结构搜索的目标识别方法.空军工程大学学报(自然科学版).2020,(04),92-96. * |
Also Published As
Publication number | Publication date |
---|---|
CN112381208A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112381208B (zh) | 一种基于神经网络架构搜索的图片分类方法与系统 | |
CN112487168B (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CN111275172B (zh) | 一种基于搜索空间优化的前馈神经网络结构搜索方法 | |
CN113283426B (zh) | 基于多目标神经网络搜索的嵌入式目标检测模型生成方法 | |
CN111967594A (zh) | 一种神经网络压缩方法、装置、设备及存储介质 | |
CN111047563B (zh) | 一种应用于医学超声图像的神经网络构建方法 | |
CN114419381B (zh) | 一种语义分割方法及应用其的道路积水检测方法和装置 | |
CN109919084B (zh) | 一种基于深度多索引哈希的行人重识别方法 | |
KR20220023825A (ko) | 타깃 모델의 획득 방법 및 장치, 전자 기기 및 저장 매체 | |
CN114299344A (zh) | 一种针对图像分类的神经网络结构低成本自动搜索方法 | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN111767983A (zh) | 基于熵损失函数的离散化可微分神经网络搜索方法 | |
CN113313250B (zh) | 采用混合精度量化与知识蒸馏的神经网络训练方法及系统 | |
CN112348188B (zh) | 模型生成方法及装置、电子设备和存储介质 | |
CN114373092A (zh) | 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法 | |
CN115953902B (zh) | 一种基于多视图时空图卷积网络的交通流预测方法 | |
CN114972959A (zh) | 深度学习中样本生成和类内排序损失的遥感图像检索方法 | |
CN114742199A (zh) | 一种基于注意力机制的神经网络宏架构搜索方法及系统 | |
CN114611668A (zh) | 一种基于异质信息网络随机游走的向量表示学习方法及系统 | |
CN115292509A (zh) | 基于多粒度注意力网络的图立方链接预测方法 | |
Sun et al. | CellNet: An Improved Neural Architecture Search Method for Coal and Gangue Classification | |
CN114358251A (zh) | 基于图价值网络的神经网络架构搜索方法 | |
CN117058000B (zh) | 用于图像超分辨率的神经网络架构搜索方法及装置 | |
CN113313249B (zh) | 一种基于强化学习系统实现的动态集成训练方法 | |
CN113988288A (zh) | 网络模型的训练方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |