CN111488971A - 神经网络模型搜索方法及装置、图像处理方法及装置 - Google Patents
神经网络模型搜索方法及装置、图像处理方法及装置 Download PDFInfo
- Publication number
- CN111488971A CN111488971A CN202010273488.0A CN202010273488A CN111488971A CN 111488971 A CN111488971 A CN 111488971A CN 202010273488 A CN202010273488 A CN 202010273488A CN 111488971 A CN111488971 A CN 111488971A
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- performance
- super
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003062 neural network model Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 207
- 238000011156 evaluation Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 101150062705 Wipf3 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种神经网络模型搜索方法及装置、图像处理方法及装置,涉及神经网络模型搜索领域。具体实现方案为:神经网络模型搜索方法,包括:利用性能预测模型,选取实际训练集;采用实际训练集中的各个子网络多次更新超网络;基于更新后的超网络的超参数,得到实际训练集中的各个子网络的评估性能;采用实际训练集中的各个子网络的评估性能更新性能预测模型,在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成第一搜索结果。逐步提高性能预测模型的预测精确度以及超网络的搜索速度,进而提高了搜索得到子网络的性能,以及搜索子网络的效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及神经网络模型搜索领域。
背景技术
NAS(神经网络架构搜索技术,Neural Architecture Search)的原理是给定一个称为搜索空间的候选神经网络结构集合,用搜索策略从中搜索出最优网络结构。在搜索过程的每次迭代中,从搜索空间产生“样本”即神经网络结构,称为“子网络”。在搜索过程中,对每个子网络进行单独训练。具体的,在搜索空间中得到一个子网络,利用训练数据训练子网络,在验证集上评估子网络的性能,根据评估得到的性能更新超参数,直至超网络停止更新时,得到性能最优的子网络。由于超网络的搜索空间中的所有子网络共享超参数,所以可以同时训练大量子网络,无需对每一个子网络分别进行训练。然而,同时训练大量子网络时,无法保证所有基于超参数的子网络的性能达到最好,与单独对每个子网络进行训练并评估网络模型的性能无法保持一致,导致在超网络的搜索空间中无法搜索得到网络模型性能最优的子网络。
发明内容
本申请实施例提供一种神经网络模型搜索方法,包括:
利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
采用实际训练集中的各个子网络多次更新超网络,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成第一搜索结果。
本申请实施例还提供一种图像处理方法,包括:
利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件,且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
采用实际训练集中的各个子网络多次更新超网络,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成搜索结果;
将待处理的图像输入至搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
本申请实施例还提供一种神经网络模型搜索装置,包括:
实际训练集构建模块,用于利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
超网络更新模块,用于采用实际训练集中的各个子网络多次更新超网络;
第一实际训练集评估模块,用于基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
第一性能预测模型更新模块,用于采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,指示实际训练集获取模块利用更新后的性能预测模型预测超网络的各个子网络的步骤;
第一搜索结果生成模块,用于在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成第一搜索结果。
本申请实施例还提供一种图像处理装置,包括:
图像处理的训练集构建模块,用于利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件,且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
实际训练集评估模块,用于采用实际训练集中的各个子网络多次更新超网络,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
性能预测模型更新模块,用于采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
搜索结果生成模块,用于在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成搜索结果;
图像处理模块,用于将待处理的图像输入至搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
本申请实施例还提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请实施例提供的方法。
本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本申请实施例的方法。
上述申请中的一个实施例具有如下优点或有益效果:超网络在更新的过程中,每一次更新时,并不是利用所有的子网络来更新超网络的超参数,而是利用性能预测模型预测得到性能较好的子网络(实际训练集)来更新超网络的超参数。随着超网络的更新,性能预测模型也随后更新,性能预测模型的预测精确度不断提升,使得对超网络的子网络的性能预测越来越准确。进而利用性能预测模型选取的实际训练集能够更好的更新超网络。基于更新的超网络的超参数评估实际训练集中的各个子网络,采用实际训练集中的各个子网络的评估性能更新性能预测模型。超网络的更新和性能预测模型的更新之间形成正向反馈,相互作用,相互影响,逐步提高性能预测模型的预测精确度以及超网络的搜索速度,进而提高了搜索得到子网络的性能,以及搜索子网络的效率。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请一实施例的一种神经网络模型搜索方法的示意图;
图2是根据本申请另一实施例的一种神经网络模型搜索方法的示意图;
图3是根据本申请另一实施例的一种神经网络模型搜索方法的示意图;
图4是根据本申请一实施例的一种实际训练集构建的方法的示意图;
图5是根据本申请一实施例的一种实际训练集更新超网络的方法的示意图;
图6是根据本申请一实施例的一种第一搜索结果生成方法的示意图;
图7是根据本申请一实施例的一种第二搜索结果生成方法的示意图;
图8是根据本申请一实施例的一种图像处理方法的示意图;
图9是根据本申请一实施例的一种神经网络模型搜索装置的示意图;
图10是根据本申请另一实施例的一种神经网络模型搜索装置的示意图;
图11是根据本申请一实施例的一种实际训练集构建模块的示意图;
图12是根据本申请一实施例的一种超网络更新模块的示意图;
图13是根据本申请一实施例的一种第一搜索结果生成模块的示意图;
图14是根据本申请一实施例的一种第二搜索结果生成模块的示意图;
图15是根据本申请一实施例的一种图像处理装置的示意图;
图16是用来实现本申请实施例一种神经网络模型搜索方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,提供了一种神经网络模型搜索方法示意图,包括如下步骤:
S110:利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
S120:采用实际训练集中的各个子网络多次更新超网络;
S130:基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
S140:采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
S150:在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成第一搜索结果。
一种示例中,超网络的搜索空间中包括多个子网络,超网络的搜索空间中的各个子网络也可以称为超网络的各个子网络。性能预测模型用于对超网络的各个子网络进行性能预测,得到超网络的各个子网络的预测性能。性能预测模型可以采用线性估计模型,例如lasso回归模型、岭回归模型等;也可以采用概率模型,例如,联合高斯分布模型等。
获取性能预测模型的初始化模型参数,得到初始化的性能预测模型。获取超网络的初始化超参数,得到初始化的超网络。利用初始化的性能预测模型预测初始化的超网络的各个子网络,得到初始化的超网络的各个子网络的预测性能。然后,选择预测性能满足第一预设条件的多个子网络,将选取的子网络构成第一个实际训练集。例如,选择预测性能排名靠前的预设个数的子网络,或者是选择预测性能大于第一预设值的子网络,构成实际训练集,来训练超网络。当然,第一预设条件可以根据具体需求进行适应性调整。
上述过程是利用性能预测模型,对超网络的各个子网络进行采样,使得采样倾向于部分子网络(例如,预测性能较好的部分子网络),而不是采样全部子网络。进而,在每次更新超网络的过程中,并没有兼顾所有的子网络,而是利用采样得到的实际训练集更新超网络,能够有效降低计算量。在多次更新超网络的过程中,利用性能预测模型能够逐步的动态更新潜在的优质子网络。
采用第一个实际训练集中的各个子网络多次更新超网络,即超网络的初始化超参数经过多次更新,生成更新后的超网络的超参数。基于更新后的超网络的超参数评估第一个实际训练集中的各个子网络,得到第一个实际训练集中的各个子网络的评估性能。采用第一个实际训练集中的各个子网络的评估性能更新初始化的性能预测模型,得到更新后的性能预测模型。利用更新后的性能预测模型,返回执行步骤S110-S120,继续进行第二轮的更新计算。
经过若干轮次的更新计算后,如果超网络的更新次数达到对应阈值,性能预测模型的更新次数还未达到对应阈值的情况下,基于最终的超网络的超参数评估超网络的各个子网络,得到超网络的各个子网络的最终评估性能。利用超网络的各个子网络的最终评估性能,生成第一搜索结果。如果性能预测模型的更新次数已经达到对应阈值,超网络的更新次数并未达到对应阈值的情况下,获取基于性能预测模型的更新次数已经达到对应阈值时对应的超网络的超参数,作为最终的超网络的超参数。基于最终的超网络的超参数评估超网络的各个子网络,得到超网络的各个子网络的最终评估性能。利用超网络的各个子网络的最终评估性能,生成第一搜索结果。
本实施方式中,超网络在更新的过程中,每一次更新时,并不是利用所有的子网络来更新超网络的超参数,而是利用性能预测模型预测得到性能较好的子网络(实际训练集)来更新超网络的超参数。随着超网络的更新,性能预测模型也随后更新,性能预测模型的预测精确度不断提升,使得对超网络的子网络的性能预测越来越准确。进而利用性能预测模型选取的实际训练集能够更好的更新超网络。基于更新的超网络的超参数评估实际训练集中的各个子网络,采用实际训练集中的各个子网络的评估性能更新性能预测模型。超网络的更新和性能预测模型的更新之间形成正向反馈,相互作用,相互影响,逐步提高性能预测模型的预测精确度以及超网络的搜索速度,进而提高了搜索得到子网络的性能,以及搜索子网络的效率。
在一种实施方式中,如图2所示,还包括:
S160:在超网络的更新次数达到对应阈值、并且性能预测模型的更新次数未达到对应阈值的情况下,基于最终的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的最终评估性能;
S170:实际训练集中的各个子网络的最终评估性能更新性能预测模型,得到最终的性能预测模型;
S180:利用最终的性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的最终预测性能;
S190:利用超网络的各个子网络的最终预测性能生成第二搜索结果。
在一种示例中,在超网络的更新次数达到对应阈值、并且性能预测模型的更新次数未达到对应阈值的情况下,还可以继续更新一次性能预测模型,得到最终的性能预测模型。利用最终的性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的最终预测性能。利用超网络的各个子网络的最终预测性能生成第二搜索结果。逐步提高性能预测模型的预测精确度以及超网络的搜索速度,进而提高了搜索得到子网络的性能,以及搜索子网络的效率。
超网络的更新次数的对应阈值的范围可以包括5万-10万次,性能预测模型的更新次数的对应阈值的范围可以包括200-500次。例如,性能预测模型的更新次数达到300次的时候,预测精度达到较好的效果。超网络的更新次数达到10万次的时候,搜索得到的子网络的性能能够达到最优。
需要指出的是,在超网络的更新次数达到对应阈值、并且性能预测模型的更新次数未达到对应阈值的情况下,得到的第一搜索结果和第二搜索结果,并无明显差异性,仅仅是两种获取搜索结果的不同方式。利用以上两种搜索方式搜索得到的子网络在精度和速度上达到最优,能够与单独训练子网络搜索得到的子网络的性能保持一致,不仅搜索得到的子网络性能能够达到最优,而且提高了搜索效率。
如图3所示,提供了一种具体的实施例,对整个流程做进一步的说明。
S10:利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能;
S20:选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
S30:采用实际训练集中的各个子网络多次更新超网络;
S40:判断超网络的更新次数是否达到对应的阈值a;
S50:如果超网络的更新次数达到对应的阈值a,利用最终的超网络的超参数评估超网络的各个子网络,得到超网络的各个子网络的最终评估性能;
S60:利用超网络的各个子网络的最终评估性能生成第一搜索结果。
例如,从超网络的各个子网络的最终评估性能中选出最大值,作为第一搜索结果。
S70:如果超网络的更新次数没有达到对应的阈值a,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
S80:采用实际训练集中的各个子网络的评估性能更新性能预测模型;
S90:判断性能预测模型的更新次数是否达到对应阈值b;
如果性能预测模型的更新次数没有达到对应阈值b,针对更新后的性能预测模型,返回执行S10-S40;如果超网络的更新次数没有达到对应的阈值a,且性能预测模型的更新次数达到对应阈值b,利用性能预测模型的更新次数达到对应阈值b时,对应的超网络的超参数,作为最终的超网络的超参数,继续执行S50-S60。
S100:如果超网络的更新次数达到对应的阈值a,且性能预测模型的更新次数没有达到对应阈值b,基于最终的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的最终评估性能;
S101:实际训练集中的各个子网络的最终评估性能更新性能预测模型,得到最终的性能预测模型;
S102:利用最终的性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的最终预测性能;
S103:利用超网络的各个子网络的最终预测性能生成第二搜索结果。
在一种实施方式中,如图4所示,S110,包括:
S111:根据超网络的搜索空间构建候选训练集,候选训练集包括多个子网络;
S112:利用性能预测模型,预测候选训练集中的子网络的性能,并根据性能从大到小的顺序,将候选训练集中的子网络进行排序,得到第一子网络序列;
S113:从第一子网络序列中选取满足第一预设条件的多个子网络,构成实际训练集,第一预设条件包括候选训练集中的子网络的预测性能大于第一预设值。
在一种示例中,超网络的搜索空间中包括多个子网络。从搜索空间中可以根据不同的搜索任务,选择部分子网络来构建候选训练集。例如,可以从应用于移动端的卷积神经网络(CNN)模型(轻量级模型MobileNet或MobileNetV2)对应的搜索空间中选择子网络,构建候选训练集。
然后,利用性能预测模型,从候选训练集中选择出预测性能排名靠前的预设个数的子网络,或者预测性能大于第一预设值的子网络,构成实际训练集。性能预测模型每更新一次,就会选择出相应的预测性能较好的子网络,构成实际训练集。性能预测模型更新的次数越多,性能预测模型的预测精度越好,得到的实际训练集的子网络的性能越来越好,进而利用实际训练集更新超网络的效果越来越好,能够搜索得到性能最优的子网络,还提升了搜索效率。
在一种实施方式中,如图5所示,实际训练集包括第一子网络至第N子网络,S120包括:
S121:采用训练数据训练第一子网络,并利用训练完成的第一子网络更新超网络的超参数,得到第一超参数,实际训练集中的全部子网络共享第一超参数;
S122:采用训练数据训练第二子网络,利用训练完成的第二子网络更新第一超参数,得到第二超参数,实际训练集中的全部子网络共享第二超参数;
S123:遍历至第N子网络,利用训练完成的第N子网络更新第N-1超参数,得到第N超参数,N大于或等于1。
一种示例中,利用训练数据可以训练实际训练集中的全部子网络,也可以训练部分子网络,根据实际需求进行适应性调整。
本实施方式提供了一种异步更新超网络的过程。具体的,可以利用训练数据单独训练实际训练集中的一子网络,并利用训练完成的子网络更新超网络的超参数,即训练完成的子网络的模型参数作为更新的超参数,使得其他的子网络都共享更新的超参数。基于更新的超参数训练下一子网络。具体的,利用训练集训练下一子网络时,下一子网络的模型参数为更新的超参数。
还可以提供一种同步更新超网络的过程。具体的,可以同时训练多个子网络,并求取梯度值,计算梯度值的平均值,来更新超网络的超参数。超网络停止更新时,超网络的超参数调整到最优,实际训练集中的子网络共享最优的超参数。
在预设时间段内,或每更新一次超参数的情况下,将验证数据集输入至模型参数为更新的超参数的子网络中,评估子网络的性能,以利用评估得到的子网络的性能更新性能预测模型的模型参数。直至超网络的超参数调整到最优的情况下,利用验证数据集评估具有最优超参数的子网络的性能,以利用评估得到的子网络的性能更新性能预测模型的模型参数。
本实施方式中,超网络的超参数经过多次更新,直至达到对应的阈值,得到最优超参数(例如,第N超参数),使得实际训练集中的子网络共享最优超参数,基于最优超参数评估得到的子网络的性能也达到最优,以利用子网络的最优性能更新性能预测模型,进而提高性能预测模型的预测精度。
在一种实施方式中,如图6所示,S150,包括:
S151:利用最终的超网络的超参数评估超网络的各个子网络,得到超网络的各个子网络的最终评估性能;
S152:根据最终评估性能从大到小的顺序,将超网络的各个子网络进行排序,得到第二子网络序列;
S153:从第二子网络序列中选取满足第二预设条件的子网络,作为第一搜索结果,第二预设条件包括最终评估性能大于第二预设值。
本实施方式中,随着超网络的不断更新,搜索效率不断提高,且搜索得到的子网络的性能越来越好。停止更新后得到最终的超网络,最终的超网络的性能得到最优。在超网络的搜索空间中,利用最终的超网络评估搜索空间的各个子网络,选择性能最好的子网络作为第一搜索结果,保证了搜索得到的子网络有较好的性能。
在一种实施方式中,如图7所示,S190,包括:
S191:利用最终的性能预测模型,预测超网络的各个子网络的性能,得到超网络的各个子网络的最终预测性能;
S192:根据最终预测性能从大到小的顺序,将超网络的各个子网络进行排序,得到第三子网络序列;
S193:从第三子网络序列中选取满足第三预设条件的子网络,作为第二搜索结果,第三预设条件包括最终预测性能大于第三预设值。
本实施方式中,随着性能预测模型不断更新,预测精确度不断提升,使得对候选训练集中子网络的性能预测越来越准确。停止更新后得到的最终的性能预测模型的预测精度达到最优。在超网络的搜索空间中,利用最终的性能预测模型选择性能最好的子网络作为第二搜索结果,保证了搜索得到的子网络有较好的性能。
如图8所示,还提供了一种图像处理方法,包括如下步骤:
S210:利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
S220:采用实际训练集中的各个子网络多次更新超网络,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
S230:采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
S240:在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成搜索结果;
S250:将待处理的图像输入至搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
一种示例中,根据超网络的搜索空间构建候选训练集,候选训练集包括多个子网络。在候选训练集中,选取满足图像处理的硬件约束条件,且预测性能符合第一预设条件的子网络,构成实际训练集。
在构建实际训练集时,不仅要选择预测性能较好的子网络,还要满足硬件约束条件。根据硬件约束条件确定选取的子网络在处理图像时的卷积的组合方式。由于卷积的组合方式非常多,搜索特定的硬件约束条件下最优的卷积的组合方式,能够有效提高子网络处理图像的速度和精度。不同的硬件,选择卷积的组合方式的倾向性不同,例如,CPU倾向于选择群卷积(Group Convolution),GPU倾向于选择普通卷积。
硬件CPU(中央处理器,central processing unit)或者GPU(图形处理器,Graphics Processing Unit)可以利用搜索得到的神经网络模型处理图像。而在利用NAS技术(神经网络架构搜索,Neural Architecture Search)神经网络模型的过程中,加入硬件约束条件,例如,硬件的速度约束条件或者硬件的延时约束条件,针对不同的硬件,都能够搜索得到适应性的神经网络模型,使得神经网络模型处理图像的速度更快,精度更高。
如图9所示,提供了一种神经网络模型搜索装置,包括:
实际训练集构建模块110,用于利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
超网络更新模块120,用于采用实际训练集中的各个子网络多次更新超网络;
第一实际训练集评估模块130,用于基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
第一性能预测模型更新模块140,用于采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,指示实际训练集获取模块110利用更新后的性能预测模型预测超网络的各个子网络的步骤;
第一搜索结果生成模块150,用于在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成第一搜索结果。
在一种实施方式中,如图10所示,还包括:
第二实际训练集评估模块160,用于在超网络的更新次数达到对应阈值、并且性能预测模型的更新次数未达到对应阈值的情况下,基于最终的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的最终评估性能;
第二性能预测模型更新模块170,用于实际训练集中的各个子网络的最终评估性能更新性能预测模型,得到最终的性能预测模型;
子网络性能预测模块180,用于利用最终的性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的最终预测性能;
第二搜索结果生成模块190,用于利用超网络的各个子网络的最终预测性能生成第二搜索结果。
在一种实施方式中,如图11所示,实际训练集构建模块110,包括:
候选训练集构建子模块111,用于根据超网络的搜索空间构建候选训练集,候选训练集包括多个子网络;
第一排序子模块112,用于利用性能预测模型,预测候选训练集中的子网络的性能,并根据性能从大到小的顺序,将候选训练集中的子网络进行排序,得到第一子网络序列;
第一选取子模块113,用于实际训练集从第一子网络序列中选取满足第一预设条件的多个子网络,构成实际训练集,第一预设条件包括候选训练集中的子网络的预测性能大于第一预设值。
在一种实施方式中,如图12所示,实际训练集包括第一子网络至第N子网络,超网络更新模块120,包括:
第一更新子模块121,用于采用训练数据训练第一子网络,并利用训练完成的第一子网络更新超网络的超参数,得到第一超参数,实际训练集中的全部子网络共享第一超参数;
第二更新子模块122,用于采用训练数据训练第二子网络,利用训练完成的第二子网络更新第一超参数,得到第二超参数,实际训练集中的全部子网络共享第二超参数;
第N更新子模块123,用于遍历至第N子网络,利用训练完成的第N子网络更新第N-1超参数,得到第N超参数,N大于或等于1。
在一种实施方式中,如图13所示,第一搜索结果生成模块150,包括:
评估子模块151,用于利用最终的超网络的超参数评估超网络的各个子网络,得到超网络的各个子网络的最终评估性能;
第二排序子模块152,用于根据最终评估性能从大到小的顺序,将超网络的各个子网络进行排序,得到第二子网络序列;
第二选取子模块153,用于从第二子网络序列中选取满足第二预设条件的子网络,作为第一搜索结果,第二预设条件包括最终评估性能大于第二预设值。
在一种实施方式中,如图14所示,第二搜索结果生成模块190,包括:
预测子模块191,用于利用最终的性能预测模型,预测超网络的各个子网络的性能,得到超网络的各个子网络的最终预测性能;
第三排序子模块192,用于根据最终预测性能从大到小的顺序,将超网络的各个子网络进行排序,得到第三子网络序列;
第三选取子模块193,从第三子网络序列中选取满足第三预设条件的子网络,作为第二搜索结果,第三预设条件包括最终预测性能大于第三预设值。
如图15所示,提供了一种图像处理装置,包括:
图像处理的训练集构建模块210,用于利用性能预测模型预测超网络的各个子网络,得到超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件,且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
实际训练集评估模块220,用于采用实际训练集中的各个子网络多次更新超网络,基于更新后的超网络的超参数评估实际训练集中的各个子网络,得到实际训练集中的各个子网络的评估性能;
性能预测模型更新模块230,用于采用实际训练集中的各个子网络的评估性能更新性能预测模型,针对更新后的性能预测模型,返回执行利用性能预测模型预测超网络的各个子网络的步骤;
搜索结果生成模块240,用于在性能预测模型或超网络的更新次数达到对应阈值的情况下,利用超网络的各个子网络的最终评估性能生成搜索结果;
图像处理模块250,用于将待处理的图像输入至搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图16所示,是根据本申请实施例的一种数据迁移方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图16所示,该电子设备包括:一个或多个处理器1601、存储器1602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface,GUI)的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图16中以一个处理器1601为例。
存储器1602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的一种数据迁移方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的一种数据迁移方法。
存储器1602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的一种数据迁移方法对应的程序指令/模块(例如,附图9所示的实际训练集构建模块110、超网络更新模块120、第一实际训练集评估模块130、第一性能预测模型更新模块140、第一搜索结果生成模块150)。处理器1601通过运行存储在存储器1602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的一种数据迁移方法。
存储器1602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种数据迁移方法的电子设备的使用所创建的数据等。此外,存储器1602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1602可选包括相对于处理器1601远程设置的存储器,这些远程存储器可以通过网络连接至上述电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述电子设备还可以包括:输入装置1603和输出装置1604。处理器1601、存储器1602、输入装置1603和输出装置1604可以通过总线或者其他方式连接,图16中以通过总线连接为例。
输入装置1603可接收输入的数字或字符信息,以及产生与上述电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(Liquid Cr16stal Displa16,LCD)、发光二极管(Light Emitting Diode,LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,,超网络在更新的过程中,每一次更新时,并不是利用所有的子网络来更新超网络的超参数,而是利用性能预测模型预测得到性能较好的子网络(实际训练集)来更新超网络的超参数。随着超网络的更新,性能预测模型也随后更新,性能预测模型的预测精确度不断提升,使得对超网络的子网络的性能预测越来越准确。进而利用性能预测模型选取的实际训练集能够更好的更新超网络。基于更新的超网络的超参数评估实际训练集中的各个子网络,采用实际训练集中的各个子网络的评估性能更新性能预测模型。超网络的更新和性能预测模型的更新之间形成正向反馈,相互作用,相互影响,逐步提高性能预测模型的预测精确度以及超网络的搜索速度,进而提高了搜索得到子网络的性能,以及搜索子网络的效率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种神经网络模型搜索方法,其特征在于,包括:
利用性能预测模型预测超网络的各个子网络,得到所述超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
采用所述实际训练集中的各个子网络多次更新所述超网络,基于更新后的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的评估性能;
采用所述实际训练集中的各个子网络的评估性能更新所述性能预测模型,针对更新后的性能预测模型,返回执行所述利用性能预测模型预测超网络的各个子网络的步骤;
在所述性能预测模型或所述超网络的更新次数达到对应阈值的情况下,利用所述超网络的各个子网络的最终评估性能生成第一搜索结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述超网络的更新次数达到对应阈值、并且所述性能预测模型的更新次数未达到对应阈值的情况下,基于最终的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的最终评估性能;
所述实际训练集中的各个子网络的最终评估性能更新所述性能预测模型,得到最终的性能预测模型;
利用所述最终的性能预测模型预测所述超网络的各个子网络,得到所述超网络的各个子网络的最终预测性能;
利用所述超网络的各个子网络的最终预测性能生成第二搜索结果。
3.根据权利要求1所述的方法,其特征在于,利用性能预测模型预测超网络的各个子网络,得到所述超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集,包括:
根据所述超网络的搜索空间构建候选训练集,所述候选训练集包括多个子网络;
利用所述性能预测模型,预测所述候选训练集中的子网络的性能,并根据性能从大到小的顺序,将所述候选训练集中的子网络进行排序,得到第一子网络序列;
从所述第一子网络序列中选取满足所述第一预设条件的多个子网络,构成所述实际训练集,所述第一预设条件包括所述候选训练集中的子网络的预测性能大于第一预设值。
4.根据权利要求1所述的方法,其特征在于,所述实际训练集包括第一子网络至第N子网络,采用所述实际训练集中的各个子网络多次更新所述超网络,包括:
采用训练数据训练所述第一子网络,并利用训练完成的所述第一子网络更新所述超网络的超参数,得到第一超参数,所述实际训练集中的全部子网络共享所述第一超参数;
采用所述训练数据训练第二子网络,利用训练完成的所述第二子网络更新所述第一超参数,得到第二超参数,所述实际训练集中的全部子网络共享所述第二超参数;
遍历至所述第N子网络,利用训练完成的所述第N子网络更新第N-1超参数,得到第N超参数,N大于或等于1。
5.根据权利要求1所述的方法,其特征在于,利用所述超网络的各个子网络的最终评估性能生成第一搜索结果,包括:
利用最终的超网络的超参数评估所述超网络的各个子网络,得到所述超网络的各个子网络的最终评估性能;
根据最终评估性能从大到小的顺序,将所述超网络的各个子网络进行排序,得到第二子网络序列;
从所述第二子网络序列中选取满足第二预设条件的子网络,作为第一搜索结果,所述第二预设条件包括最终评估性能大于第二预设值。
6.根据权利要求2所述的方法,其特征在于,利用所述超网络的各个子网络的最终预测性能生成第二搜索结果,包括:
利用所述最终的性能预测模型,预测所述超网络的各个子网络的性能,得到所述超网络的各个子网络的最终预测性能;
根据最终预测性能从大到小的顺序,将所述超网络的各个子网络进行排序,得到第三子网络序列;
从所述第三子网络序列中选取满足第三预设条件的子网络,作为第二搜索结果,所述第三预设条件包括最终预测性能大于第三预设值。
7.一种图像处理方法,其特征在于,包括:
利用性能预测模型预测超网络的各个子网络,得到所述超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件,且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
采用所述实际训练集中的各个子网络多次更新所述超网络,基于更新后的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的评估性能;
采用所述实际训练集中的各个子网络的评估性能更新所述性能预测模型,针对更新后的性能预测模型,返回执行所述利用性能预测模型预测超网络的各个子网络的步骤;
在所述性能预测模型或所述超网络的更新次数达到对应阈值的情况下,利用所述超网络的各个子网络的最终评估性能生成搜索结果;
将待处理的图像输入至所述搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
8.一种神经网络模型搜索装置,其特征在于,包括:
实际训练集构建模块,用于利用性能预测模型预测超网络的各个子网络,得到所述超网络的各个子网络的预测性能,选取预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
超网络更新模块,用于采用所述实际训练集中的各个子网络多次更新所述超网络;
第一实际训练集评估模块,用于基于更新后的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的评估性能;
第一性能预测模型更新模块,用于采用所述实际训练集中的各个子网络的评估性能更新所述性能预测模型,针对更新后的性能预测模型,指示所述实际训练集获取模块利用更新后的性能预测模型预测超网络的各个子网络的步骤;
第一搜索结果生成模块,用于在所述性能预测模型或所述超网络的更新次数达到对应阈值的情况下,利用所述超网络的各个子网络的最终评估性能生成第一搜索结果。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二实际训练集评估模块,用于在所述超网络的更新次数达到对应阈值、并且所述性能预测模型的更新次数未达到对应阈值的情况下,基于最终的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的最终评估性能;
第二性能预测模型更新模块,用于所述实际训练集中的各个子网络的最终评估性能更新所述性能预测模型,得到最终的性能预测模型;
子网络性能预测模块,用于利用所述最终的性能预测模型预测所述超网络的各个子网络,得到所述超网络的各个子网络的最终预测性能;
第二搜索结果生成模块,用于利用所述超网络的各个子网络的最终预测性能生成第二搜索结果。
10.根据权利要求8所述的装置,其特征在于,所述实际训练集构建模块,包括:
候选训练集构建子模块,用于根据所述超网络的搜索空间构建候选训练集,所述候选训练集包括多个子网络;
第一排序子模块,用于利用所述性能预测模型,预测所述候选训练集中的子网络的性能,并根据性能从大到小的顺序,将所述候选训练集中的子网络进行排序,得到第一子网络序列;
第一选取子模块,用于实际训练集从所述第一子网络序列中选取满足所述第一预设条件的多个子网络,构成所述实际训练集,所述第一预设条件包括所述候选训练集中的子网络的预测性能大于第一预设值。
11.根据权利要求8所述的装置,其特征在于,所述实际训练集包括第一子网络至第N子网络,所述超网络更新模块,包括:
第一更新子模块,用于采用训练数据训练所述第一子网络,并利用训练完成的所述第一子网络更新所述超网络的超参数,得到第一超参数,所述实际训练集中的全部子网络共享所述第一超参数;
第二更新子模块,用于采用所述训练数据训练第二子网络,利用训练完成的所述第二子网络更新所述第一超参数,得到第二超参数,所述实际训练集中的全部子网络共享所述第二超参数;
第N更新子模块,用于遍历至所述第N子网络,利用训练完成的所述第N子网络更新第N-1超参数,得到第N超参数,N大于或等于1。
12.根据权利要求8所述的装置,其特征在于,所述第一搜索结果生成模块,包括:
评估子模块,用于利用最终的超网络的超参数评估所述超网络的各个子网络,得到所述超网络的各个子网络的最终评估性能;
第二排序子模块,用于根据最终评估性能从大到小的顺序,将所述超网络的各个子网络进行排序,得到第二子网络序列;
第二选取子模块,用于从所述第二子网络序列中选取满足第二预设条件的子网络,作为第一搜索结果,所述第二预设条件包括最终评估性能大于第二预设值。
13.根据权利要求9所述的装置,其特征在于,所述第二搜索结果生成模块,包括:
预测子模块,用于利用所述最终的性能预测模型,预测所述超网络的各个子网络的性能,得到所述超网络的各个子网络的最终预测性能;
第三排序子模块,用于根据最终预测性能从大到小的顺序,将所述超网络的各个子网络进行排序,得到第三子网络序列;
第三选取子模块,从所述第三子网络序列中选取满足第三预设条件的子网络,作为第二搜索结果,所述第三预设条件包括最终预测性能大于第三预设值。
14.一种图像处理装置,其特征在于,包括:
图像处理的训练集构建模块,用于利用性能预测模型预测超网络的各个子网络,得到所述超网络的各个子网络的预测性能,选取满足图像处理的硬件约束条件,且预测性能满足第一预设条件的多个子网络,将选取的子网络构成实际训练集;
实际训练集评估模块,用于采用所述实际训练集中的各个子网络多次更新所述超网络,基于更新后的超网络的超参数评估所述实际训练集中的各个子网络,得到所述实际训练集中的各个子网络的评估性能;
性能预测模型更新模块,用于采用所述实际训练集中的各个子网络的评估性能更新所述性能预测模型,针对更新后的性能预测模型,返回执行所述利用性能预测模型预测超网络的各个子网络的步骤;
搜索结果生成模块,用于在所述性能预测模型或所述超网络的更新次数达到对应阈值的情况下,利用所述超网络的各个子网络的最终评估性能生成搜索结果;
图像处理模块,用于将待处理的图像输入至所述搜索结果中的各个子网络中,输出待处理的图像对应的任务标签。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273488.0A CN111488971B (zh) | 2020-04-09 | 2020-04-09 | 神经网络模型搜索方法及装置、图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273488.0A CN111488971B (zh) | 2020-04-09 | 2020-04-09 | 神经网络模型搜索方法及装置、图像处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488971A true CN111488971A (zh) | 2020-08-04 |
CN111488971B CN111488971B (zh) | 2023-10-24 |
Family
ID=71811821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010273488.0A Active CN111488971B (zh) | 2020-04-09 | 2020-04-09 | 神经网络模型搜索方法及装置、图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488971B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116090A (zh) * | 2020-09-28 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 神经网络结构搜索方法、装置、计算机设备及存储介质 |
CN112364981A (zh) * | 2020-11-10 | 2021-02-12 | 南方科技大学 | 一种混合精度神经网络的可微分搜索方法和装置 |
CN112464579A (zh) * | 2021-02-02 | 2021-03-09 | 四川大学 | 基于进化神经网络结构搜索食管癌病变区域识别建模方法 |
CN112949842A (zh) * | 2021-05-13 | 2021-06-11 | 北京市商汤科技开发有限公司 | 神经网络结构搜索方法、装置、计算机设备以及存储介质 |
CN113033784A (zh) * | 2021-04-18 | 2021-06-25 | 沈阳雅译网络技术有限公司 | 一种针对cpu和gpu设备搜索神经网络结构的方法 |
CN114037058A (zh) * | 2021-11-05 | 2022-02-11 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备以及存储介质 |
CN114595759A (zh) * | 2022-03-07 | 2022-06-07 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种护具识别方法、装置、电子设备及存储介质 |
WO2022134926A1 (en) * | 2020-12-22 | 2022-06-30 | International Business Machines Corporation | Multi-level multi-objective automated machine learning |
CN116307405A (zh) * | 2023-05-25 | 2023-06-23 | 日照鲁光电子科技有限公司 | 一种基于生产数据的二极管性能预测方法及系统 |
CN116542293A (zh) * | 2022-01-24 | 2023-08-04 | 美的集团(上海)有限公司 | 一种神经网络结构搜索方法、装置、程序产品及存储介质 |
WO2023174064A1 (zh) * | 2022-03-14 | 2023-09-21 | 华为技术有限公司 | 自动搜索方法、自动搜索的性能预测模型训练方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240041A1 (en) * | 2017-02-22 | 2018-08-23 | Sas Institute Inc. | Distributed hyperparameter tuning system for machine learning |
WO2019152929A1 (en) * | 2018-02-02 | 2019-08-08 | Google Llc | Regularized neural network architecture search |
CN110175671A (zh) * | 2019-04-28 | 2019-08-27 | 华为技术有限公司 | 神经网络的构建方法、图像处理方法及装置 |
CN110210609A (zh) * | 2019-06-12 | 2019-09-06 | 北京百度网讯科技有限公司 | 基于神经框架搜索的模型训练方法、装置以及终端 |
CN110246372A (zh) * | 2019-07-09 | 2019-09-17 | 四川大学 | 航空保障设备的扩展规划方法 |
CN110633797A (zh) * | 2019-09-11 | 2019-12-31 | 北京百度网讯科技有限公司 | 网络模型结构的搜索方法、装置以及电子设备 |
CN110807515A (zh) * | 2019-10-30 | 2020-02-18 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
-
2020
- 2020-04-09 CN CN202010273488.0A patent/CN111488971B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180240041A1 (en) * | 2017-02-22 | 2018-08-23 | Sas Institute Inc. | Distributed hyperparameter tuning system for machine learning |
WO2019152929A1 (en) * | 2018-02-02 | 2019-08-08 | Google Llc | Regularized neural network architecture search |
CN110175671A (zh) * | 2019-04-28 | 2019-08-27 | 华为技术有限公司 | 神经网络的构建方法、图像处理方法及装置 |
CN110210609A (zh) * | 2019-06-12 | 2019-09-06 | 北京百度网讯科技有限公司 | 基于神经框架搜索的模型训练方法、装置以及终端 |
CN110246372A (zh) * | 2019-07-09 | 2019-09-17 | 四川大学 | 航空保障设备的扩展规划方法 |
CN110633797A (zh) * | 2019-09-11 | 2019-12-31 | 北京百度网讯科技有限公司 | 网络模型结构的搜索方法、装置以及电子设备 |
CN110807515A (zh) * | 2019-10-30 | 2020-02-18 | 北京百度网讯科技有限公司 | 模型生成方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116090A (zh) * | 2020-09-28 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 神经网络结构搜索方法、装置、计算机设备及存储介质 |
CN112116090B (zh) * | 2020-09-28 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 神经网络结构搜索方法、装置、计算机设备及存储介质 |
CN112364981A (zh) * | 2020-11-10 | 2021-02-12 | 南方科技大学 | 一种混合精度神经网络的可微分搜索方法和装置 |
CN112364981B (zh) * | 2020-11-10 | 2022-11-22 | 南方科技大学 | 一种混合精度神经网络的可微分搜索方法和装置 |
GB2617741A (en) * | 2020-12-22 | 2023-10-18 | Ibm | Multi-level multi-objective automated machine learning |
WO2022134926A1 (en) * | 2020-12-22 | 2022-06-30 | International Business Machines Corporation | Multi-level multi-objective automated machine learning |
CN112464579B (zh) * | 2021-02-02 | 2021-06-01 | 四川大学 | 基于进化神经网络结构搜索食管癌病变区域识别建模方法 |
CN112464579A (zh) * | 2021-02-02 | 2021-03-09 | 四川大学 | 基于进化神经网络结构搜索食管癌病变区域识别建模方法 |
CN113033784A (zh) * | 2021-04-18 | 2021-06-25 | 沈阳雅译网络技术有限公司 | 一种针对cpu和gpu设备搜索神经网络结构的方法 |
CN112949842B (zh) * | 2021-05-13 | 2021-09-14 | 北京市商汤科技开发有限公司 | 神经网络结构搜索方法、装置、计算机设备以及存储介质 |
CN112949842A (zh) * | 2021-05-13 | 2021-06-11 | 北京市商汤科技开发有限公司 | 神经网络结构搜索方法、装置、计算机设备以及存储介质 |
CN114037058A (zh) * | 2021-11-05 | 2022-02-11 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备以及存储介质 |
CN114037058B (zh) * | 2021-11-05 | 2024-05-17 | 北京百度网讯科技有限公司 | 预训练模型的生成方法、装置、电子设备以及存储介质 |
CN116542293B (zh) * | 2022-01-24 | 2024-07-19 | 美的集团(上海)有限公司 | 一种神经网络结构搜索方法、装置、程序产品及存储介质 |
CN116542293A (zh) * | 2022-01-24 | 2023-08-04 | 美的集团(上海)有限公司 | 一种神经网络结构搜索方法、装置、程序产品及存储介质 |
CN114595759A (zh) * | 2022-03-07 | 2022-06-07 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种护具识别方法、装置、电子设备及存储介质 |
WO2023174064A1 (zh) * | 2022-03-14 | 2023-09-21 | 华为技术有限公司 | 自动搜索方法、自动搜索的性能预测模型训练方法及装置 |
CN116307405B (zh) * | 2023-05-25 | 2023-08-04 | 日照鲁光电子科技有限公司 | 一种基于生产数据的二极管性能预测方法及系统 |
CN116307405A (zh) * | 2023-05-25 | 2023-06-23 | 日照鲁光电子科技有限公司 | 一种基于生产数据的二极管性能预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111488971B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488971B (zh) | 神经网络模型搜索方法及装置、图像处理方法及装置 | |
CN111539479B (zh) | 生成样本数据的方法和装置 | |
CN110633797B (zh) | 网络模型结构的搜索方法、装置以及电子设备 | |
CN111309479A (zh) | 一种任务并行处理的实现方法、装置、设备和介质 | |
US9934344B2 (en) | Enhanced parameter tuning for very-large-scale integration synthesis | |
CN111667057B (zh) | 用于搜索模型结构的方法和装置 | |
CN111563592B (zh) | 基于超网络的神经网络模型生成方法和装置 | |
CN112559870B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN111563593B (zh) | 神经网络模型的训练方法和装置 | |
CN112000450A (zh) | 神经网络架构搜索方法以及装置 | |
CN111582454A (zh) | 生成神经网络模型的方法和装置 | |
CN111652354B (zh) | 用于训练超网络的方法、装置、设备以及存储介质 | |
CN111639753A (zh) | 用于训练超网络的方法、装置、设备以及存储介质 | |
CN111461343A (zh) | 模型参数更新方法及其相关设备 | |
CN111680597A (zh) | 人脸识别模型处理方法、装置、设备和存储介质 | |
US20180322226A1 (en) | Scheduling simultaneous optimization of multiple very-large-scale-integration designs | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN110569973A (zh) | 网络结构的搜索方法、装置以及电子设备 | |
CN111461306B (zh) | 特征评估的方法及装置 | |
CN112819497B (zh) | 转化率预测方法、装置、设备和存储介质 | |
CN111488972A (zh) | 数据迁移方法、装置、电子设备和存储介质 | |
CN111340222B (zh) | 神经网络模型搜索方法、装置以及电子设备 | |
CN111639752B (zh) | 用于训练超网络的方法、装置、设备以及存储介质 | |
CN111523664A (zh) | 超网络参数更新方法、装置和电子设备 | |
CN111522837A (zh) | 用于确定深度神经网络的耗时的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |