CN115374910A - 一种更新深度学习训练超参数的方法、装置及设备 - Google Patents

一种更新深度学习训练超参数的方法、装置及设备 Download PDF

Info

Publication number
CN115374910A
CN115374910A CN202211025162.1A CN202211025162A CN115374910A CN 115374910 A CN115374910 A CN 115374910A CN 202211025162 A CN202211025162 A CN 202211025162A CN 115374910 A CN115374910 A CN 115374910A
Authority
CN
China
Prior art keywords
parameter
updating
hyper
scheduler
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211025162.1A
Other languages
English (en)
Other versions
CN115374910B (zh
Inventor
吕成器
周再达
柳源
杨逸飞
张文蔚
陈恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai AI Innovation Center
Original Assignee
Shanghai AI Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai AI Innovation Center filed Critical Shanghai AI Innovation Center
Priority to CN202211025162.1A priority Critical patent/CN115374910B/zh
Publication of CN115374910A publication Critical patent/CN115374910A/zh
Application granted granted Critical
Publication of CN115374910B publication Critical patent/CN115374910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种更新深度学习训练超参数的方法,其首先构建参数调度器,然后在深度学习训练的每一次迭代时,根据预设的更新频率从参数调度器中调用数值,以更新一个或多个超参数,其中更新的数值通过参数调度器按照预设的参数值更新方法计算得到。通过该参数调度器可为不同的参数调度逻辑提供统一的接口,进而能够根据用户设置的参数名来调整超参数组中的对应参数,进而对超参数组中的任意参数值进行调度。通过调节更新频率,或组合多个参数调度器,还可进一步提高超参数更新的灵活性。

Description

一种更新深度学习训练超参数的方法、装置及设备
技术领域
本发明涉及深度学习技术领域,特别涉及一种更新深度学习训练超参数的方法、装置及设备。
背景技术
目前,深度学习技术已被广泛应用于图像、声音识别及分类等技术领域中。对于图像分类等任务而言,如何加快模型训练过程的收敛、提升训练效率和模型精度至关重要。在模型训练过程中,超参数的设置及更新策略对于模型训练的收敛影响较大。具体来说,深度学习框架迭代一次神经网络通常包括四个步骤:数据处理、神经网络前向计算、反向计算网络参数梯度以及更新网络参数,而在迭代的过程中需要依赖很多超参数,例如学习率、动量、权重衰减系数等,采用不同组合的超参数对神经网络的训练速度及效率的影响各不相同,因此通常需要对训练过程中的各个超参数进行精细的调整,从而使神经网络能够更好的收敛。很多深度学习框架都提供了参数调度的方式,比如PyTorch的学习率调度器LRScheduler。但是,这些调度器通常只能够调整一种超参数,其难以根据需求制定逻辑较为复杂的超参数更新策略。
发明内容
基于现有技术中的部分或全部问题,本发明一方面提供一种更新深度学习训练超参数的方法,包括:
构建参数调度器;以及
在深度学习训练的每一次迭代时,根据预设的更新频率从所述参数调度器中调用数值,以更新一个或多个超参数,其中所述数值通过所述参数调度器按照预设的参数值更新方法计算得到。
进一步地,所述参数调度器包括:
参数名,用于提供需要更新的超参数名称;
参数基准值,用于存储所述需要更新的超参数的初始值;
更新频率,用于确定所述参数调度器的更新频率;
计数器,用于记录已进行的训练轮次和/或迭代次数;以及
参数更新方法。
进一步地,所述参数调度器有多个,所述多个参数调度器相互叠加或拼接,其中每个所述参数调度器用于按照不同或相同的更新频率,采用相同或不同的更新方法更新不同或相同的超参数的数值。
进一步地,所述参数调度器还包括生效区间,用于提供所述参数调度器的生效范围,若当前训练轮次和/或迭代次数不在所述生效区间内,则不更新对应的超参数。
进一步地,所述计数器包括:
全局计数器,用于记录整个训练过程中已进行的训练轮次或迭代次数;以及
生效计数器,用于记录在所述生效区间内已进行的训练轮次或迭代次数。
进一步地,所述预设的更新频率包括:
按训练轮次更新,相应的超参数在模型迭代完训练数据集一轮后更新;以及
按迭代次数更新,相应的超参数在模型完成一次迭代后更新,其中一次迭代包括前向传播、损失计算、反向传播以及网络更新四个步骤。
进一步地,所述预设的参数值更新方法可采用现有的成熟调整方法,也可以由用户自定义得到,。
基于如前所述的方法,本发明另一方面提供一种更新深度学习训练超参数的处理装置,包括:
调用模块,用于构建参数调度器;以及
处理模块,用于通过所述参数调度器,在深度学习训练过程中更新超参数。
本发明还提供一种电子设备,其包括存储器以及处理器,其中所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行如前所述的更新深度学习训练超参数的方法。
本发明还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行如前所述的更新深度学习训练超参数的方法。
本发明提供的一种更新深度学习训练超参数的方法、装置及设备,通过设计一种通用的参数调度器以及参数调度器的接口规范,为不同的参数调度逻辑提供统一的接口,使得其可根据用户设置的参数名来调整超参数组中的对应参数,进而对超参数组中的任意参数值进行调度。所述方法支持调整参数调度器的更新频率和生效区间,进而增强了参数调度器模块的灵活性,使得用户可以适应多个参数调度器任意组合使用,包括但不限于多个调度器的拼接、叠加,灵活组合参数调度方案,进而灵活地控制训练过程中的超参数。
本发明所提供的参数调度器方案可在图像、声音识别或分类等领域中用于实现如下技术效果:通过使用参数调度器将深度学习算法训练过程中的各种超参数的调整方式统一化,标准化。因此,可以方便地设置不同策略的参数调度器,并对其进行组合,以衍生出更多更复杂的参数更新策略,有效降低了深度学习算法的开发难度。标准化的参数调整流程使得在深度学习算法的训练中调整超参数更加便捷和高效,有效的提升了训练的运行速度。
将本发明应用于图像分类等领域时也能够加快模型训练过程的收敛,提升训练效率和模型精度。例如在训练分类算法时,初期使用过大的学习率容易造成算法无法收敛,此时可以添加一个线性增长策略的参数调度器来调整学习率,实现学习率预热。而在训练过程中,使用固定学习率或者余弦退火的学习率策略又容易使算法陷入局部最优,这时可以通过加入多组余弦退火策略的参数调度器来调整学习率和动量,使算法跳出局部最优点,从而提升最终的精度。
附图说明
为进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出本发明一个实施例的一种更新深度学习训练超参数的方法的流程示意图。
具体实施方式
以下的描述中,参考各实施例对本发明进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构或操作以免模糊本发明的发明点。类似地,为了解释的目的,阐述了特定数量和配置,以便提供对本发明的实施例的全面理解。然而,本发明并不限于这些特定细节。
在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
需要说明的是,本发明的实施例以特定顺序对方法步骤进行描述,然而这只是为了阐述该具体实施例,而不是限定各步骤的先后顺序。相反,在本发明的不同实施例中,可根据实际需求来调整各步骤的先后顺序。
由于不同深度学习算法的训练过程中会使用不同的参数调度策略,因此每个算法都会有自己的参数调度逻辑,大部分情况下会使用函数去控制超参数。但如果想要灵活的切换不同的参数调度策略,则需要深度学习训练框架提供参数调度器。但是,目前主流的深度学习框架,如PyTorch,提供的调度器只能够调整学习率这一种超参数,并不能让具有同一逻辑的调度器调度其他的超参数,也不能调整此调度器的更新频率和生效区间。超参数的调度也可以理解为是超参数数值的更新。为了为不同的参数调度逻辑提供统一的接口,进而对超参数组中的任意参数值进行调度,本发明提供一种更新深度学习训练超参数的方法、装置及设备,通过设计的通用的参数调度器以及参数调度器的接口规范,使得参数调度器可以根据用户设置的参数名来调整超参数组中的对应参数,同时,所述参数调度器具有参数更新频率、生效区间这两个属性可以设置,进而用户可以配置多个参数调度器,将其叠加或者拼接,组合成自己想要的参数调度方案,大大提升模型训练效率。
下面结合实施例附图,对本发明的方案做进一步描述。
图1示出本发明一个实施例的一种更新深度学习训练超参数的方法的流程示意图。如图1所示,一种更新深度学习训练超参数的方法,其主要通过构造通用的参数调度器来实现灵活的参数更新策略,所述方法包括:
首先,在步骤101,构造参数调度器。在本发明的实施例中,在深度学习训练开始之前,需要将训练所用的超参数组字典传递给参数调度器的构造函数,以实例化一个或多个参数调度器。在本发明的一个实施例中,所述构造函数用于实例化参数调度器类,其主要参数包括:
参数名,即需要进行调度的超参数的名称,为一个字符串或一系列字符串的列表;以及
超参数组,深度学习训练的训练模型中的一系列超参数,为一个字典:
{key1:value1,key2:value2,…,keyn:valuen},
其中,key1、key2、…、keyn即为超参数的名称,例如学习率、动量、权重衰减系数等,value1、value2、…、valuen则为所述超参数的初始值。
在本发明的一个实施例中,所述构造函数的参数还包括生效区间起始以及生效区间结束,分别指所述参数调度器的生效区间的上下限值,通常为整数类型。
在本发明的一个实施例中,所述参数调度器至少包括以下参数:
参数名,指需要进行调度的超参数的名称,其用于从超参数组中获取对应的超参数。在本发明的一个实施例中,所述参数名为一个字符串,则所述参数调度器仅用于更新一个超参数的值。在本发明的又一个实施例中,所述参数名为一系列字符串的列表,则所述参数调度器可用于更新多个超参数的值;
参数基准值,指存储所述需要更新的超参数的初始值;
是否按轮次更新,控制超参数更新频率的标志,用于决定是按训练轮次更新还是按迭代次数更新。在本发明的一个实施例中,所述参数调度器按训练轮次更新,也就是说相应的超参数在模型迭代完训练数据集一轮后更新一次,通常一次迭代所采用的数据为整个训练数据集中的一小批样本,因此一轮迭代是指逐批进行数据迭代,直至整个训练数据集全部迭代完成。在本发明的又一个实施例中,所述参数调度器按迭代次数更新,相应的超参数在模型完成一次迭代,其中一次迭代包括前向传播、损失计算、反向传播、及网络更新后更新四个步骤;通过灵活组合不用的参数调度器,即可实现不同参数采用不同的更新频率进行更新;
生效区间,指所述参数调度器的生效范围,具体而言,仅当前训练轮次和/或迭代次数在所述生效区间内时,才会采用该参数调度器进行超参数的更新。在本发明的一个实施例中,可以设置所述参数调度器的生效范围:如果是按训练轮次更新,所述生效区间是指从第几个轮次到第几个轮次需要更新超参数;以及如果是按迭代次数更新,则所述生效区间是指从第几次迭代到第几次迭代需要更新超参数;通过灵活组合不用的参数调度器,即可实现根据实际需求在不同阶段更新不同的超参数,进而优化模型训练进程,提升训练效率;以及
计数器,用于记录已进行的训练轮次和/或迭代次数。在本发明的一个实施例中,所述计数器包括全局计数器,其用于记录在整个深度学习训练过程中进行到了第几个训练轮次或迭代次数。在本发明的又一个实施例中,所述计数器还包括生效计数器,其用于记录在生效区间内进行到了第几个训练轮次或迭代次数。
在本发明的一个实施例中,所述参数调度器主要包括两个接口,更新参数接口以及获取参数值接口。所述更新参数接口用于单次执行参数调度器,每调用一次,所述全局计数器累加一次。此外,若所述参数调度器设置有生效区间,则在赋值前,还需判断当前迭代次数是否处于生效区间内,如果是,则将生效计数器累计一次,并调用获取参数值接口计算当前值,然后赋值给超参数组中对应的超参数。所述获取参数值接口用于按参数调度逻辑,根据生效计数器累计的次数计算当前值,即计算相应的超参数的更新数值,其定义了参数调度的逻辑。在本发明的一个实施例中,所述参数调度的逻辑采用现有成熟的调整方法,例如固定值、指数调整法、多项式调整法、多步调整法、OneCycle调整法、余弦退火、线性调整等。在本发明的又一个实施例中,也可以由用户根据实际需求自行定义相应的参数调度逻辑。所述获取参数值接口是参数调度的核心逻辑,所有子类参数调度器都需要重载此接口来实现不同的参数调度逻辑。通过灵活组合不用的参数调度器,可以在不同阶段对同一参数采用不同的更新策略,例如在训练过程中,使用固定学习率或者余弦退火的学习率策略又容易使算法陷入局部最优,这时可以通过加入多组余弦退火策略的参数调度器来调整学习率和动量,使算法跳出局部最优点,从而提升最终的精度,此外,也可针对不同超参数设置不同的更新策略;以及
接下来,在步骤102,超参数更新。在深度学习训练的每一次迭代时,根据预设的更新频率从所述参数调度器中调用数值,以更新一个或多个超参数,其中所述数值通过所述参数调度器按照预设的参数值更新方法计算得到。具体而言,在深度学习训练过程中,会根据参数调度器的更新频率调用所述参数调度器的更新参数接口,此时,所述参数调度器会首先判断自身的更新频率是按迭代次数更新还是按训练轮次更新,若按迭代次数更新,则执行更新参数操作,且全局计数器数值加1,然后根据所述全局计数器中的数值判断当前的迭代次数是否处于自己的生效区间内,若是,则调用获取参数值方法获取计算出来的值,并给对应的超参数赋值;若按训练轮次更新,则首先判断该训练轮次是否结束,若未结束,则不更新超参数,若已结束,及当前为网络更新这一阶段,则执行更新参数操作,且全局计数器数值加1,然后根据所述全局计数器中的数值判断当前的训练轮次是否处于自己的生效区间内,若是,则调用获取参数值方法获取计算出来的值,并给对应的超参数赋值。
由于在深度学习训练中,对于不同的超参数的更新频率需求、更新策略等可能不同,所以,在本发明的一个实施例中,可以根据不同的超参数的更新频率、和/或更新策略实例化多个参数调度器,并根据实际需求将所述多个参数调度器叠加或拼接组成一个列表,进而逐个调用,以实现高度灵活的参数更新策略,在训练的不同阶段采用不同的超参数组合,提升整体训练效率,并能够得到更优的模型精度。应当理解的是,在本发明的实施例中,每个所述参数调度器的更新频率可以相同或不同,其所采用的超参数更新方法也可以相同或不同,其更新的超参数也可以相同或不同。
在本发明的一个实施例中,还提供一种更新深度学习训练超参数的处理装置,以用于实现如前所述的更新深度学习训练超参数的方法,所述处理装置包括调用模块以及处理模块。其中,所述调用模块用于构建参数调度器。所述处理模块则用于通过所述参数调度器,在深度学习训练过程中更新超参数。
在本发明的一个实施例中,还提供一种电子设备,其包括存储器以及处理器,其中所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行如前所述的更新深度学习训练超参数的方法。
在本发明的一个实施例中,还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行如前所述的更新深度学习训练超参数的方法。
本发明提供的一种更新深度学习训练超参数的方法、装置及设备,通过设计一种通用的参数调度器以及参数调度器的接口规范,为不同的参数调度逻辑提供统一的接口,使得其可根据用户设置的参数名来调整超参数组中的对应参数,进而对超参数组中的任意参数值进行调度。所述方法支持调整参数调度器的更新频率和生效区间,进而增强了参数调度器模块的灵活性,使得用户可以适应多个参数调度器任意组合使用,包括但不限于多个调度器的拼接、叠加,灵活组合参数调度方案,进而灵活地控制训练过程中的超参数。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (10)

1.一种更新深度学习训练超参数的方法,其特征在于,包括步骤:
构建参数调度器;以及
在深度学习训练的每一次迭代时,根据预设的更新频率从所述参数调度器中调用数值,以更新一个或多个超参数,其中所述数值通过所述参数调度器按照预设的参数值更新方法计算得到。
2.如权利要求1所述的方法,其特征在于,所述参数调度器包括相互叠加或拼接的参数调度器,其中每个所述参数调度器被配置为按照不同或相同的更新频率,采用相同或不同的参数值更新方法更新不同或相同的超参数的数值。
3.如权利要求1所述的方法,其特征在于,所述参数调度器包括:
参数名,其被配置为提供需要更新的超参数名称;
参数基准值,其被配置为存储所述需要更新的超参数的初始值;
更新频率,其被配置为确定所述参数调度器的更新频率;
计数器,其被配置为记录已进行的训练轮次和/或迭代次数;以及
参数更新方法。
4.如权利要求3所述的方法,其特征在于,所述参数调度器还包括生效区间,其被配置为提供所述参数调度器的生效范围:
若当前训练轮次和/或迭代次数在所述生效区间内,则按照预设的更新频率更新一次对应的超参数;否则
不更新对应的超参数。
5.如权利要求3所述的方法,其特征在于,所述计数器包括:
全局计数器,其被配置为记录整个训练过程中已进行的训练轮次或迭代次数;以及
生效计数器,其被配置为记录在所述生效区间内已进行的训练轮次或迭代次数。
6.如权利要求1所述的方法,其特征在于,所述预设的更新频率包括:
按训练轮次更新,相应的超参数在模型迭代完训练数据集一轮后更新;以及
按迭代次数更新,相应的超参数在模型完成一次迭代后更新,其中一次迭代包括前向传播、损失计算、反向传播以及网络更新四个步骤。
7.如权利要求1所述的方法,其特征在于,所述预设的参数值更新方法为自定义算法。
8.一种更新深度学习训练超参数的处理装置,其特征在于,包括:
调用模块,其被配置为构建参数调度器;以及
处理模块,其被配置为通过所述参数调度器,在深度学习训练过程中更新超参数。
9.一种电子设备,其特征在于,包括存储器以及处理器,其中所述存储器被配置为存储计算机程序,所述计算机程序在所述处理器运行时执行如权利要求1至7任一所述的更新深度学习训练超参数的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序在处理器上运行时执行如权利要求1至7任一所述的更新深度学习训练超参数的方法。
CN202211025162.1A 2022-08-25 2022-08-25 一种更新深度学习训练超参数的方法、装置及设备 Active CN115374910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211025162.1A CN115374910B (zh) 2022-08-25 2022-08-25 一种更新深度学习训练超参数的方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211025162.1A CN115374910B (zh) 2022-08-25 2022-08-25 一种更新深度学习训练超参数的方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115374910A true CN115374910A (zh) 2022-11-22
CN115374910B CN115374910B (zh) 2024-06-28

Family

ID=84068131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211025162.1A Active CN115374910B (zh) 2022-08-25 2022-08-25 一种更新深度学习训练超参数的方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115374910B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830708A (zh) * 2023-12-20 2024-04-05 北京斯年智驾科技有限公司 一种目标检测模型的训练方法、系统、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717251A (zh) * 2013-12-12 2015-06-17 中国科学院深圳先进技术研究院 OpenStack云计算管理平台Cell节点调度方法和系统
US20190392353A1 (en) * 2018-06-21 2019-12-26 International Business Machines Corporation Job Merging for Machine and Deep Learning Hyperparameter Tuning
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质
CN112836796A (zh) * 2021-01-27 2021-05-25 北京理工大学 一种深度学习训练中系统资源和模型超参协同优化的方法
US20220058477A1 (en) * 2020-08-21 2022-02-24 Microsoft Technology Licensing, Llc Hyperparameter Transfer Via the Theory of Infinite-Width Neural Networks
KR20220045286A (ko) * 2020-10-05 2022-04-12 서강대학교산학협력단 클라우드 환경에서 하이퍼 파라미터 최적화 가속을 위한 gpu 스케줄링 프레임워크 및 gpu 스케줄링 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717251A (zh) * 2013-12-12 2015-06-17 中国科学院深圳先进技术研究院 OpenStack云计算管理平台Cell节点调度方法和系统
US20190392353A1 (en) * 2018-06-21 2019-12-26 International Business Machines Corporation Job Merging for Machine and Deep Learning Hyperparameter Tuning
US20220058477A1 (en) * 2020-08-21 2022-02-24 Microsoft Technology Licensing, Llc Hyperparameter Transfer Via the Theory of Infinite-Width Neural Networks
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质
KR20220045286A (ko) * 2020-10-05 2022-04-12 서강대학교산학협력단 클라우드 환경에서 하이퍼 파라미터 최적화 가속을 위한 gpu 스케줄링 프레임워크 및 gpu 스케줄링 방법
CN112836796A (zh) * 2021-01-27 2021-05-25 北京理工大学 一种深度学习训练中系统资源和模型超参协同优化的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE WANG ET AL.: "ScaDO Net: Scaffold-Dense-Octave Net for Brain Structure Segmentation", 《2019 ASSOCIATION FOR COMPUTING MACHINERY》, 26 August 2019 (2019-08-26), pages 143 - 150 *
朱汇龙等: "基于人群的神经网络超参数优化的研究", 《信息技术》, no. 11, 30 November 2018 (2018-11-30), pages 105 - 110 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117830708A (zh) * 2023-12-20 2024-04-05 北京斯年智驾科技有限公司 一种目标检测模型的训练方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN115374910B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
US12008445B2 (en) Black-box optimization using neural networks
CN111353582A (zh) 一种基于粒子群算法的分布式深度学习参数更新方法
CN112717415B (zh) 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
CN109514553B (zh) 一种机器人移动控制的方法、系统及设备
CN115374910B (zh) 一种更新深度学习训练超参数的方法、装置及设备
CN109934330A (zh) 基于多样化种群的果蝇优化算法来构建预测模型的方法
CN112463189B (zh) 基于通信操作稀疏化的分布式深度学习多步延迟更新方法
CN112381218B (zh) 一种用于分布式深度学习训练的本地更新方法
CN112686383B (zh) 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN108323797A (zh) 基于gpr模型的烟支重量控制系统启动位置预测方法及系统
CN115713057A (zh) 基于深度神经网络的模拟集成电路设计参数自动优化方法
CN113268854A (zh) 一种双评价器单执行器的强化学习方法及系统
CN113221390B (zh) 一种排产模型的训练方法和装置
Zhou et al. FastAdaBelief: improving convergence rate for belief-based adaptive optimizers by exploiting strong convexity
CN114675975A (zh) 一种基于强化学习的作业调度方法、装置及设备
CN116205273A (zh) 优化经验存储与经验再利用的多智能体强化学习方法
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
US20220019857A1 (en) Optimization device, method, and program
JPWO2020161935A1 (ja) 学習装置、学習方法、及び、プログラム
CN115795303A (zh) 一种搜索动态学习率的客户端状态识别方法及装置
CN110378464A (zh) 人工智能平台的配置参数的管理方法和装置
CN112861991B (zh) 一种面向神经网络异步训练的学习率调整方法
Teng et al. Modified discrete firefly algorithm combining genetic algorithm for traveling salesman problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant