CN113128680A - 一种神经网络训练方法、系统、设备以及介质 - Google Patents

一种神经网络训练方法、系统、设备以及介质 Download PDF

Info

Publication number
CN113128680A
CN113128680A CN202110269601.2A CN202110269601A CN113128680A CN 113128680 A CN113128680 A CN 113128680A CN 202110269601 A CN202110269601 A CN 202110269601A CN 113128680 A CN113128680 A CN 113128680A
Authority
CN
China
Prior art keywords
hyper
search range
parameter
training
parameter combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110269601.2A
Other languages
English (en)
Other versions
CN113128680B (zh
Inventor
李宝然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110269601.2A priority Critical patent/CN113128680B/zh
Publication of CN113128680A publication Critical patent/CN113128680A/zh
Application granted granted Critical
Publication of CN113128680B publication Critical patent/CN113128680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种神经网络训练方法,包括以下步骤:获取每一个超参数对应的初始搜索范围;利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;利用所述最终的超参数组合对所述模型进行训练。本发明还公开了一种系统、计算机设备以及可读存储介质。

Description

一种神经网络训练方法、系统、设备以及介质
技术领域
本发明涉及深度学习领域,具体涉及一种神经网络训练方法、系统、设备以及存储介质。
背景技术
传统深度学习建模过程中,训练超参数的选择依赖专家知识与经验,存在较高技术门槛;同时,由于数据差异性、模型差异性的存在,即便领域专家也需要消耗大量时间精力对训练超参数进行试验性的调优工作,极大增加了深度学习建模的工作量和开发周期。
现有技术中,为了减少工作量,可以使用超参数搜索算法对深度学习建模训练过程中使用的训练超参数进行搜索。利用算法逻辑获得最好的超参数组合,以此提升训练性能,获得更优模型;超参数搜索算法也可以大幅缩短人工干预训练的程度,减少训练过程中对超参数调优的工作量。
然而现有的超参数搜索算法通常依赖用户设置一个较大的搜索空间以进行搜索,这个搜索空间如果设置不合理,可能会因显存溢出导致训练失败,或者搜索空间过大而效率降低。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种神经网络训练方法,包括以下步骤:
获取每一个超参数对应的初始搜索范围;
利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
利用所述最终的超参数组合对所述模型进行训练。
在一些实施例中,获取每一个超参数对应的初始搜索范围,进一步包括:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
在一些实施例中,根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围,进一步包括:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
在一些实施例中,利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合,进一步包括:
将每一个超参数对应的初始搜索范围随机分为多个子搜索范围;
在所述子搜索范围内进行搜索以得到多组超参数组合。
在一些实施例中,根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围进行再次搜索进而再次得到多组超参数组合,进一步包括:
根据所述训练结果确定每一个超参数对应的子搜索范围,以确定的子搜索范围作为再次搜索的搜索范围。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种神经网络训练系统,包括:
获取模块,配置为获取每一个超参数对应的初始搜索范围;
搜索模块,配置为利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
第一训练模块,配置为利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
确定模块,配置为根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
筛选模块,配置为利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
第二训练模块,配置为利用所述最终的超参数组合对所述模型进行训练。
在一些实施例中,所述获取模块还配置为:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
在一些实施例中,所述获取模块还配置为:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种神经网络训练方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种神经网络训练方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案先在完整搜索空间内进行粗略搜索超参数,探查可能产出更好训练效果的超参数范围,再在该范围内进行更为细粒度的超参数搜索,这样在提升超参数搜索性能的同时,缩短了整体搜索耗时。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的神经网络训练方法的流程示意图;
图2为本发明的实施例提供的神经网络训练系统的结构示意图;
图3为本发明的实施例提供的计算机设备的结构示意图;
图4为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种神经网络训练方法,如图1所示,其可以包括步骤:
S1,获取每一个超参数对应的初始搜索范围;
S2,利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
S3,利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
S4,根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
S5,利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
S6,利用所述最终的超参数组合对所述模型进行训练。
本发明提出的方案先在完整搜索空间内进行粗略搜索超参数,探查可能产出更好训练效果的超参数范围,再在该范围内进行更为细粒度的超参数搜索,这样在提升超参数搜索性能的同时,缩短了整体搜索耗时。
在一些实施例中,步骤S1,获取每一个超参数对应的初始搜索范围中,具体的,每一个超参数都可以预先设置一个搜索范围,该搜索范围可以根据经验设定,也可以通过随机生成的方式得到。
在一些实施例中,S1,获取每一个超参数对应的初始搜索范围,进一步包括:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
具体的,第一类超参数可以是与系统硬件相关的参数,例如批处理大小(batchsize)。对深度学习训练过程,不同批处理大小(batchsize)会产生不同的训练效果;通常batchsize的取值会相对较大,以获得更好的数据并行能力和泛化能力,但较大的batchsize会让模型训练过程占用更多显存资源,对显存较小的显卡,可能因为显存溢出导致训练失败。因此,可以根据模型结构计算批处理大小对应的预设搜索范围中的每一个批处理大小所占用的显存,然后根据系统的内存阈值以及计算得到的显存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。例如,批处理大小预设的搜索范围是(2,128),但是只有当批处理大小为120时对应的占用显存量才不大于系统能够提供的显存阈值,则可以将(2,120)作为批处理大小的初始搜索范围。
在一些实施例中,用户可以设定第一类超参数的上限值,这样,可以先比较用户设置的上限值与预设的搜索范围的最大值的大小,若用户设置的上限值大,则选择从预设的搜索范围中的最大值开始计算占用的显存量,若用户设置的上限值小,则从用户设置的上限值开始计算占用的显存量。
在一些实施例中,根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围,进一步包括:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
具体的,仅通过与系统的显存阈值进行比较,得到的只是计算层面上的batchsize上限数值,但是在实际训练过程中显存会被其让程序占用,因此可以从最大值开始进行一个单轮(epoch)训练过程(其他超参数可以随机选择后保持不变),判断待训练模型使用计算得到的batchsize时,是否会引发显存溢出问题,将第一搜索范围不发生显存溢出的最大值作为初始搜索范围的最大值。例如可以通过捕获log信息判断是否出现显存溢出,若出现则将过大的batchsize从搜索空间中剔除,尝试较小的batchsize,并最终输出使用设备上可用的batchsize大小。
在一些实施例中,利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合,进一步包括:
将每一个超参数对应的初始搜索范围随机分为多个子搜索范围;
在所述子搜索范围内进行搜索以得到多组超参数组合。
在一些实施例中,根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围进行再次搜索进而再次得到多组超参数组合,进一步包括:
根据所述训练结果确定每一个超参数对应的子搜索范围,以确定的子搜索范围作为再次搜索的搜索范围。
具体的,在确定了batchsize范围、学习率(learning rate)范围、学习率衰减率范围、学习率衰减周期范围、动量范围、权重衰减率范围等超参数的初始搜索范围后,可以将初始搜索范围分成多个子搜索范围,在子搜索范围内使用随机搜索、网格搜索等策略,抽样出不同超参组合,形成训练超参数用于模型训练。并且可以通过训练结果确定能得到更好训练效果的子搜索范围,然后在该子搜索范围中确定训练效果最优的一组超参数组合。
在一些实施例中,步骤S6,利用所述最终的超参数组合对所述模型进行训练中,具体的,在对超参搜索范围进行缩小,并在缩小后的超参搜索范围上进行超参搜索,最终得到一组超参数组合后,可以利用该组超参数进行模型训练,并增加训练轮数(epoch)值,以期获得更好的训练效果。为防止过拟合现象发生,还可以将增加epoch后训练的模型,在验证集上与训练性能进行对比,将验证集性能更好的模型作为最终模型输出。
本发明提出的方案先在完整搜索空间内进行粗略搜索超参数,探查可能产出更好训练效果的超参数范围,再在该范围内进行更为细粒度的超参数搜索,这样在提升超参数搜索性能的同时,缩短了整体搜索耗时。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种神经网络训练系统400,如图2所示,包括:
获取模块401,配置为获取每一个超参数对应的初始搜索范围;
搜索模块402,配置为利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
第一训练模块403,配置为利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
确定模块404,配置为根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
筛选模块405,配置为利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
第二训练模块406,配置为利用所述最终的超参数组合对所述模型进行训练。
在一些实施例中,所述获取模块401还配置为:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
在一些实施例中,所述获取模块401还配置为:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种神经网络训练方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种神经网络训练方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种神经网络训练方法,其特征在于,包括以下步骤:
获取每一个超参数对应的初始搜索范围;
利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
利用所述最终的超参数组合对所述模型进行训练。
2.如权利要求1所述的方法,其特征在于,获取每一个超参数对应的初始搜索范围,进一步包括:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
3.如权利要求2所述的方法,其特征在于,根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围,进一步包括:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
4.如权利要求1所述的方法,其特征在于,利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合,进一步包括:
将每一个超参数对应的初始搜索范围随机分为多个子搜索范围;
在所述子搜索范围内进行搜索以得到多组超参数组合。
5.如权利要求4所述的方法,其特征在于,根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内进行再次搜索进而再次得到多组超参数组合,进一步包括:
根据所述训练结果确定每一个超参数对应的子搜索范围,以确定的子搜索范围作为再次搜索的搜索范围。
6.一种神经网络训练系统,其特征在于,包括:
获取模块,配置为获取每一个超参数对应的初始搜索范围;
搜索模块,配置为利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合;
第一训练模块,配置为利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合;
确定模块,配置为根据所述若干个超参数组合确定每一个超参数对应的搜索范围,以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合;
筛选模块,配置为利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合;
第二训练模块,配置为利用所述最终的超参数组合对所述模型进行训练。
7.如权利要求6所述的系统,其特征在于,所述获取模块还配置为:
获取第一类超参数预设的搜索范围;
根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量;
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。
8.如权利要求7所述的系统,其特征在于,所述获取模块还配置为:
根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围;
从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题;
响应于没有出现所述显存溢出问题,将所述第一搜索范围作为所述初始搜索范围;
响应于出现所述显存溢出问题,将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-5任意一项所述的方法的步骤。
CN202110269601.2A 2021-03-12 2021-03-12 一种神经网络训练方法、系统、设备以及介质 Active CN113128680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269601.2A CN113128680B (zh) 2021-03-12 2021-03-12 一种神经网络训练方法、系统、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269601.2A CN113128680B (zh) 2021-03-12 2021-03-12 一种神经网络训练方法、系统、设备以及介质

Publications (2)

Publication Number Publication Date
CN113128680A true CN113128680A (zh) 2021-07-16
CN113128680B CN113128680B (zh) 2022-06-10

Family

ID=76773055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269601.2A Active CN113128680B (zh) 2021-03-12 2021-03-12 一种神经网络训练方法、系统、设备以及介质

Country Status (1)

Country Link
CN (1) CN113128680B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126564A (zh) * 2019-11-27 2020-05-08 东软集团股份有限公司 一种神经网络结构搜索方法、装置及设备
CN111260035A (zh) * 2020-01-19 2020-06-09 苏州浪潮智能科技有限公司 一种EfficientNet的结构参数的搜索方法、系统、设备以及介质
CN111563593A (zh) * 2020-05-08 2020-08-21 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111582374A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 超参数搜索方法、装置、设备以及存储介质
CN111738418A (zh) * 2020-06-19 2020-10-02 北京百度网讯科技有限公司 超网络的训练方法和装置
CN111738477A (zh) * 2019-08-01 2020-10-02 北方工业大学 基于深层特征组合的电网新能源消纳能力预测方法
CN111753964A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 神经网络的训练方法和装置
CN111767990A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 神经网络的处理方法和装置
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质
CN112418392A (zh) * 2020-10-21 2021-02-26 华为技术有限公司 一种神经网络构建方法以及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738477A (zh) * 2019-08-01 2020-10-02 北方工业大学 基于深层特征组合的电网新能源消纳能力预测方法
CN111126564A (zh) * 2019-11-27 2020-05-08 东软集团股份有限公司 一种神经网络结构搜索方法、装置及设备
CN111260035A (zh) * 2020-01-19 2020-06-09 苏州浪潮智能科技有限公司 一种EfficientNet的结构参数的搜索方法、系统、设备以及介质
CN111563593A (zh) * 2020-05-08 2020-08-21 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111582374A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 超参数搜索方法、装置、设备以及存储介质
CN111738418A (zh) * 2020-06-19 2020-10-02 北京百度网讯科技有限公司 超网络的训练方法和装置
CN111753964A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 神经网络的训练方法和装置
CN111767990A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 神经网络的处理方法和装置
CN112232508A (zh) * 2020-09-18 2021-01-15 苏州浪潮智能科技有限公司 一种模型的训练方法、系统、设备以及介质
CN112418392A (zh) * 2020-10-21 2021-02-26 华为技术有限公司 一种神经网络构建方法以及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
PHYU HNIN THIKE等: "An Early Stopping-Based Artificial Neural Network Model for Atmospheric Corrosion Prediction of Carbon Steel", 《COMPUTERS, MATERIALS & CONTINUA》 *
吴莎等: "基于深度神经网络构建风电机组性能模型的超参数选择", 《太阳能》 *
周定宁: "基于仿生优化算法的神经进化方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张选杨: "深度神经网络架构优化与设计", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
方钦: "基于超参数自动优化的压缩神经网络模型研究", 《万方数据知识服务平台》 *
朱汇龙等: "基于人群的神经网络超参数优化的研究", 《信息技术》 *
李甜甜: "基于改进粒子群算法的超参数优化问题的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
邓帅: "基于改进贝叶斯优化算法的CNN超参数优化方法", 《计算机应用研究》 *

Also Published As

Publication number Publication date
CN113128680B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN111126564B (zh) 一种神经网络结构搜索方法、装置及设备
CN111814966A (zh) 神经网络架构搜索方法、神经网络应用方法、设备及存储介质
CN107368891A (zh) 一种深度学习模型的压缩方法和装置
JP7168772B2 (ja) ニューラルネットワーク捜索方法、装置、プロセッサ、電子機器、記憶媒体及びコンピュータプログラム
CN109325516B (zh) 一种面向图像分类的集成学习方法及装置
CN110083728B (zh) 一种优化自动化图片数据清洗质量的方法、装置和系统
CN110378419A (zh) 一种图像集扩充方法、装置、设备及可读存储介质
CN112232508A (zh) 一种模型的训练方法、系统、设备以及介质
CN113886092A (zh) 一种计算图执行方法、装置及相关设备
CN111680085A (zh) 数据处理任务分析方法、装置、电子设备和可读存储介质
CN111737099A (zh) 一种基于高斯分布的数据中心异常检测方法及装置
CN116128036A (zh) 基于云边协同架构的增量学习方法、装置、设备及介质
CN113761026A (zh) 基于条件互信息的特征选择方法、装置、设备和存储介质
CN113128680B (zh) 一种神经网络训练方法、系统、设备以及介质
CN117789754A (zh) 一种音频事件检测模型生成方法、装置、设备及存储介质
CN109218829B (zh) 一种基于傅里叶变换的视频播放量可预测性分类方法
CN109543771A (zh) 一种数据分类的方法及装置
CN117523252A (zh) 一种基于深度学习的页岩孔隙类型检测与分类方法及系统
CN112036567B (zh) 遗传编程方法、装置和计算机可读介质
CN113827980A (zh) 一种流失用户预测方法、装置及计算机可读存储介质
CN112632291B (zh) 本体概念增强的归纳式图谱表征方法
CN115828736B (zh) 一种基于eemd-pe-lstm的短时船舶交通流量预测方法
CN113011383A (zh) 视频标签定义模型构建方法、系统、电子设备及存储介质
CN114418005B (zh) 基于gan网络的游戏地图自动生成方法、装置、介质及设备
CN115560966B (zh) 增强稀疏滤波融合电机关键部件微弱故障诊断方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant