CN113128680A

CN113128680A - 一种神经网络训练方法、系统、设备以及介质

Info

Publication number: CN113128680A
Application number: CN202110269601.2A
Authority: CN
Inventors: 李宝然
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-07-16
Anticipated expiration: 2041-03-12
Also published as: CN113128680B

Abstract

本发明公开了一种神经网络训练方法，包括以下步骤：获取每一个超参数对应的初始搜索范围；利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合；利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合；根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合；利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合；利用所述最终的超参数组合对所述模型进行训练。本发明还公开了一种系统、计算机设备以及可读存储介质。

Description

一种神经网络训练方法、系统、设备以及介质

技术领域

本发明涉及深度学习领域，具体涉及一种神经网络训练方法、系统、设备以及存储介质。

背景技术

传统深度学习建模过程中，训练超参数的选择依赖专家知识与经验，存在较高技术门槛；同时，由于数据差异性、模型差异性的存在，即便领域专家也需要消耗大量时间精力对训练超参数进行试验性的调优工作，极大增加了深度学习建模的工作量和开发周期。

现有技术中，为了减少工作量，可以使用超参数搜索算法对深度学习建模训练过程中使用的训练超参数进行搜索。利用算法逻辑获得最好的超参数组合，以此提升训练性能，获得更优模型；超参数搜索算法也可以大幅缩短人工干预训练的程度，减少训练过程中对超参数调优的工作量。

然而现有的超参数搜索算法通常依赖用户设置一个较大的搜索空间以进行搜索，这个搜索空间如果设置不合理，可能会因显存溢出导致训练失败，或者搜索空间过大而效率降低。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种神经网络训练方法，包括以下步骤：

获取每一个超参数对应的初始搜索范围；

利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合；

利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合；

根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合；

利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合；

利用所述最终的超参数组合对所述模型进行训练。

在一些实施例中，获取每一个超参数对应的初始搜索范围，进一步包括：

获取第一类超参数预设的搜索范围；

根据所述模型的结构计算所述预设的搜索范围内不同取值的第一类超参数对应的内存占用量；

根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。

在一些实施例中，根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围，进一步包括：

根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围得到第一搜索范围；

从所述第一搜索范围中的最大值开始依次进行单轮训练并判断是否出现显存溢出问题；

响应于没有出现所述显存溢出问题，将所述第一搜索范围作为所述初始搜索范围；

响应于出现所述显存溢出问题，将未出现所述显存溢出问题对应的最大值作为所述初始搜索范围的最大值。

在一些实施例中，利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合，进一步包括：

将每一个超参数对应的初始搜索范围随机分为多个子搜索范围；

在所述子搜索范围内进行搜索以得到多组超参数组合。

在一些实施例中，根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围进行再次搜索进而再次得到多组超参数组合，进一步包括：

根据所述训练结果确定每一个超参数对应的子搜索范围，以确定的子搜索范围作为再次搜索的搜索范围。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种神经网络训练系统，包括：

获取模块，配置为获取每一个超参数对应的初始搜索范围；

搜索模块，配置为利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合；

第一训练模块，配置为利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合；

确定模块，配置为根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合；

筛选模块，配置为利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合；

第二训练模块，配置为利用所述最终的超参数组合对所述模型进行训练。

在一些实施例中，所述获取模块还配置为：

获取第一类超参数预设的搜索范围；

在一些实施例中，所述获取模块还配置为：

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种神经网络训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种神经网络训练方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案先在完整搜索空间内进行粗略搜索超参数，探查可能产出更好训练效果的超参数范围，再在该范围内进行更为细粒度的超参数搜索，这样在提升超参数搜索性能的同时，缩短了整体搜索耗时。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的神经网络训练方法的流程示意图；

图2为本发明的实施例提供的神经网络训练系统的结构示意图；

图3为本发明的实施例提供的计算机设备的结构示意图；

图4为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种神经网络训练方法，如图1所示，其可以包括步骤：

S1，获取每一个超参数对应的初始搜索范围；

S2，利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合；

S3，利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合；

S4，根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合；

S5，利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合；

S6，利用所述最终的超参数组合对所述模型进行训练。

本发明提出的方案先在完整搜索空间内进行粗略搜索超参数，探查可能产出更好训练效果的超参数范围，再在该范围内进行更为细粒度的超参数搜索，这样在提升超参数搜索性能的同时，缩短了整体搜索耗时。

在一些实施例中，步骤S1，获取每一个超参数对应的初始搜索范围中，具体的，每一个超参数都可以预先设置一个搜索范围，该搜索范围可以根据经验设定，也可以通过随机生成的方式得到。

在一些实施例中，S1，获取每一个超参数对应的初始搜索范围，进一步包括：

获取第一类超参数预设的搜索范围；

具体的，第一类超参数可以是与系统硬件相关的参数，例如批处理大小(batchsize)。对深度学习训练过程，不同批处理大小(batchsize)会产生不同的训练效果；通常batchsize的取值会相对较大，以获得更好的数据并行能力和泛化能力，但较大的batchsize会让模型训练过程占用更多显存资源，对显存较小的显卡，可能因为显存溢出导致训练失败。因此，可以根据模型结构计算批处理大小对应的预设搜索范围中的每一个批处理大小所占用的显存，然后根据系统的内存阈值以及计算得到的显存占用量筛选所述预设的搜索范围以得到所述初始搜索范围。例如，批处理大小预设的搜索范围是(2，128)，但是只有当批处理大小为120时对应的占用显存量才不大于系统能够提供的显存阈值，则可以将(2，120)作为批处理大小的初始搜索范围。

在一些实施例中，用户可以设定第一类超参数的上限值，这样，可以先比较用户设置的上限值与预设的搜索范围的最大值的大小，若用户设置的上限值大，则选择从预设的搜索范围中的最大值开始计算占用的显存量，若用户设置的上限值小，则从用户设置的上限值开始计算占用的显存量。

具体的，仅通过与系统的显存阈值进行比较，得到的只是计算层面上的batchsize上限数值，但是在实际训练过程中显存会被其让程序占用，因此可以从最大值开始进行一个单轮(epoch)训练过程(其他超参数可以随机选择后保持不变)，判断待训练模型使用计算得到的batchsize时，是否会引发显存溢出问题，将第一搜索范围不发生显存溢出的最大值作为初始搜索范围的最大值。例如可以通过捕获log信息判断是否出现显存溢出，若出现则将过大的batchsize从搜索空间中剔除，尝试较小的batchsize，并最终输出使用设备上可用的batchsize大小。

在所述子搜索范围内进行搜索以得到多组超参数组合。

具体的，在确定了batchsize范围、学习率(learning rate)范围、学习率衰减率范围、学习率衰减周期范围、动量范围、权重衰减率范围等超参数的初始搜索范围后，可以将初始搜索范围分成多个子搜索范围，在子搜索范围内使用随机搜索、网格搜索等策略，抽样出不同超参组合，形成训练超参数用于模型训练。并且可以通过训练结果确定能得到更好训练效果的子搜索范围，然后在该子搜索范围中确定训练效果最优的一组超参数组合。

在一些实施例中，步骤S6，利用所述最终的超参数组合对所述模型进行训练中，具体的，在对超参搜索范围进行缩小，并在缩小后的超参搜索范围上进行超参搜索，最终得到一组超参数组合后，可以利用该组超参数进行模型训练，并增加训练轮数(epoch)值，以期获得更好的训练效果。为防止过拟合现象发生，还可以将增加epoch后训练的模型，在验证集上与训练性能进行对比，将验证集性能更好的模型作为最终模型输出。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种神经网络训练系统400，如图2所示，包括：

获取模块401，配置为获取每一个超参数对应的初始搜索范围；

搜索模块402，配置为利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合；

第一训练模块403，配置为利用所述多组超参数组合对模型进行训练并根据训练结果筛选出若干个超参数组合；

确定模块404，配置为根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内再次进行搜索进而再次得到多组超参数组合；

筛选模块405，配置为利用再次得到的多组超参数组合对模型进行训练并根据训练结果筛选出最终的超参数组合；

第二训练模块406，配置为利用所述最终的超参数组合对所述模型进行训练。

在一些实施例中，所述获取模块401还配置为：

获取第一类超参数预设的搜索范围；

在一些实施例中，所述获取模块401还配置为：

基于同一发明构思，根据本发明的另一个方面，如图3所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种神经网络训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图4所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种神经网络训练方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种神经网络训练方法，其特征在于，包括以下步骤：

获取每一个超参数对应的初始搜索范围；

利用所述最终的超参数组合对所述模型进行训练。

2.如权利要求1所述的方法，其特征在于，获取每一个超参数对应的初始搜索范围，进一步包括：

获取第一类超参数预设的搜索范围；

3.如权利要求2所述的方法，其特征在于，根据系统的内存阈值以及计算得到的内存占用量筛选所述预设的搜索范围以得到所述初始搜索范围，进一步包括：

4.如权利要求1所述的方法，其特征在于，利用预设的搜索策略在每一个所述初始搜索范围中搜索对应的超参数以得到多组超参数组合，进一步包括：

在所述子搜索范围内进行搜索以得到多组超参数组合。

5.如权利要求4所述的方法，其特征在于，根据所述若干个超参数组合确定每一个超参数对应的搜索范围，以再次利用所述预设的搜索策略在每一个所述搜索范围内进行再次搜索进而再次得到多组超参数组合，进一步包括：

6.一种神经网络训练系统，其特征在于，包括：

获取模块，配置为获取每一个超参数对应的初始搜索范围；

7.如权利要求6所述的系统，其特征在于，所述获取模块还配置为：

获取第一类超参数预设的搜索范围；

8.如权利要求7所述的系统，其特征在于，所述获取模块还配置为：

9.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-5任意一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-5任意一项所述的方法的步骤。