CN112052932A

CN112052932A - 超参数的调整方法及装置

Info

Publication number: CN112052932A
Application number: CN202010746477.XA
Authority: CN
Inventors: 孙泽懿; 祝彦森
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-12-08

Abstract

本申请公开了一种超参数的调整方法及装置。该发明包括：构建包括内层模型和外层模型的嵌入式框架，内层模型是基于机器学习算法建立的，外层模型是基于粒子群算法建立的，该外层模型生成粒子群，粒子群中每个粒子指示有内层模型的一组超参数，基于该粒子群代表的超参数训练内层模型，然后获取训练结果的评价值，如果未达到预设条件，将评价值作为外层模型的输入，用于更新粒子群，从而完成内外层的多次迭代，实现对内层模型的超参数的不断调整，最终获取使得内层模型表现最优的超参数组合，解决了相关技术中调整机器学习的超参数效率低，准确度低的问题。

Description

超参数的调整方法及装置

技术领域

本申请涉及机器学习领域，具体而言，涉及一种超参数的调整方法及装置。

背景技术

机器学习的超参数取值对模型效果有重要作用。超参数的选择通常基于算法开发人员的调参经验，对于不同的学习模型，模型训练人员根据各自的使用经验来设置和调整相应的参数值。在某些情况下，算法参数和算法表现之间的关系非常复杂，无法通过简单的策略准确选取较好参数，这样会导致算法运行效果不佳。

机器学习的超参数选择在日常使用中通常是一种基于经验的决定，很难保证所选的超参数是最优或近似最优的组合。对于某些有比较复杂的参数设置的模型来说未必能达到一个比较好的效果，这些参数背后的对算法表现影响的复杂机制可能很难被人工经验所完全识别。

针对相关技术中调整机器学习的超参数效率低，准确度低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种超参数的调整方法及装置，以解决相关技术中调整机器学习的超参数效率低，准确度低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种超参数的调整方法。该发明包括构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法建立，所述外层模型基于粒子群算法建立，所述粒子群中每个粒子指示有所述内层模型的一组超参数；重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

为了实现上述目的，根据本申请的另一方面，提供了一种超参数的调整装置，包括：构建模块，用于构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法，所述外层模型基于粒子群算法，所述粒子群中每个粒子指示有所述内层模型的一组超参数；迭代模块，重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

通过本申请，构建包括内层模型和外层模型的嵌入式框架，内层模型是基于机器学习算法建立的，外层模型是基于粒子群算法建立的，该外层模型生成粒子群，粒子群中每个粒子指示有内层模型的一组超参数，基于该粒子群代表的超参数训练内层模型，然后获取训练结果的评价值，如果未达到预设条件，将评价值作为外层模型的输入，用于更新粒子群，从而完成内外层的多次迭代，实现对内层模型的超参数的不断调整，最终获取使得内层模型表现最优的超参数组合，解决了相关技术中调整机器学习的超参数效率低，准确度低的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的超参数的调整方法的流程图；

图2是根据本申请实施例的嵌入式框架的流程示意图；

图3是根据本申请实施例的超参数的调整装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

粒子群算法：是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。通常认为它是群集智能的一种体现。

根据本申请的实施例，提供了一种超参数的调整方法。

图1是根据本申请实施例的超参数的调整方法的流程图。如图1所示，该发明包括以下步骤：

步骤S101，构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法建立，所述外层模型基于粒子群算法建立，所述粒子群中每个粒子指示有所述内层模型的一组超参数；

内层模型可以是一个需要优化调参的机器学习算法，外层模型主要用于优化内层机器学习算法的超参数。整个模型启动时，外层模型可以随机(或根据一定经验)初始化内层机器学习算法所需要的超参数值，然后内层机器学习算法根据粒子代表的超参数并利用目标数据集去训练并评价该算法的表现。

步骤S102，重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

机器学习算法的表现可以根据算法本身以及使用时具体的需求来定义评价值，比如对一个分类机器学习算法，评价值可以是准确率，也可以是由于误分类导致的经济损失。将内层机器学习算法的评价值定义为外层模型的粒子群算法的适应性函数，粒子群算法根据每一轮迭代中内层算法的评价值并考虑历史表现记录来优化内层机器学习算法的超参数。内外两层迭代交互，直到内层模型的评价值收敛。

本申请是一种自动机器学习算法，它利用优化算法来进行基于算法表现的自动调参，可以保证算法超参数的近似(或局部)最优选择。利用粒子群算法作为优化框架，粒子群算法的优势是它不需要优化目标函数可导，不需要一个显式的函数把算法超参数映射到算法表现。通常求取这种显式函数的复杂度远远大于调参本身。另外粒子群算法本身的参数少，并且容易调整相对于复杂的机器学习算法。

可选地，所述遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，包括：依次基于所述粒子群的每个粒子给定的一组超参数，使用数据集训练所述内层模型；依据预设指标获取所述训练结果的评价值，其中，所述预设指标为训练结束后所述内层模型的处理准确率或误处理造成的经济损失。采用该方案，通过预设指标的计算方式获取每次内层模型的训练结果的评价值。如果内层模型是分类模型，则预设指标为分类准确率，或者误分类造成的经济损失。

可选地，所述将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，包括：将所述评价值作为最新评价值，将所述最新评价值和所述内层模型的历史评价值作为所述外层模型的输入；基于粒子群算法，获取所述外层模型的输出，所述输出为新一代粒子群。采用该方案，外层模型依据最新评价值和历史评价值更新粒子群，从而实现对内层模型的超参数的优化。

具体地，在粒子群算法中，粒子群中包含给定数量的粒子，每个粒子代表一种可能的一组超参数取值，每个粒子在粒子群中的位置好坏由该粒子的适应性函数值来评价。每一轮迭代中，每个粒子在第t+1轮迭代的移动速度

(即该轮迭代中超参数的调整量)首先根据公式1更新，然后根据所得的移动速度，每个粒子将改变自己的位置至

(即迭代完成后该粒子所表示的超参数取值)(见公式2)。

是第t+1轮迭代时粒子i的速度。它由该粒子在前一轮迭代的速度

粒子本身的历史最佳位置

(该粒子运行轨迹中所达成的最佳算法表现时的超参数取值)与其当前位置

(该粒子当前超参数取值)之间的距离，以及整个粒子群的最佳位置Gb^t(粒子群中所有粒子的运行轨迹中所达成的最佳算法表现时的超参数取值)与当前位置

之间的距离来确定。z是惯性权重。c₁和c₂是表示损失权重的两个学习率。r₁和r₂是两个介于0和1之间的随机数。公式1和公式2实际表明了粒子的移动幅度和方向由前一轮的移动幅度和方向、粒子当前位置和该粒子历史最佳位置之间的向量差，以及当前粒子位置和整个粒子群最佳位置之间的向量差共同决定。

可选地，所述预设条件为以下至少之一：迭代次数达到第一目标阈值，其中，在所述外层模型依据所述内层模型的评价值得到新一代粒子群时，迭代次数加一；所述内层模型的训练结果的评价值收敛。内层模型完成一次训练，将评价值反馈至外层模型，外层模型更新一次粒子群，称为完成一次内外迭代，即迭代次数加一。

可选地，通过所述外层模型生成粒子群，包括以下至少之一：随机生成所述粒子群；接受输入信息，以及所述输入信息生成所述粒子群。

图2是根据本申请实施例的嵌入式框架的流程示意图，如图2所示，包括以下步骤：

步骤S201，外层模型生成粒子群，基于该粒子群代表的超参数训练内层模型；

步骤S202，输出该内层模型的训练结果的评价值

步骤S203，判断该评价值是否满足结束条件，在该评价值收敛的情况下，流程结束；如果该评价值未收敛，则转入步骤S204；

步骤S204，外层模型使用该评价值更新粒子群，生成新的超参数，转入步骤S201。

本申请是自动机器学习的一种体现，能够提高算法调参的效率，帮助找到近似最优的算法超参数。当参数和算法表现之间的关系较为复杂，不容易直接描述的时候，本申请能绕开这些问题，直接求取一个近似最优的参数值。特别地，本申请可以帮助当机器学习算法的表现需要用一些非传统的标准(传统标准，比如分类器的准确率)来评价时的调参场景。例如，不同的误分类通常会导致不同的经济损失，把有病的人诊断为健康(有毒蘑菇判为无毒)的后果通常远远严重于把健康的人诊断为有病(无毒的蘑菇判为有毒)。这种情况下，光用准确率来评价算法的表现可能无法使算法在实际应用中达到最好的效果，故可能引入总经济损失来评价算法表现。而不同误分类导致的不同经济损失(算法表现)和相应的误分类学习率(超参数)之间的关系很难直接界定，本申请可以对类似的不同误分类的训练学习率通过优化算法取得近似最优值，而不必去具体研究他们之间的关系。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种超参数的调整装置，需要说明的是，本申请实施例的超参数的额调整装置可以用于执行本申请实施例所提供的用于超参数的调整方法。以下对本申请实施例提供的超参数的调整装置进行介绍。

图3是根据本申请实施例的超参数的调整装置的示意图。如图3所示，该装置包括：

构建模块302，用于构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法，所述外层模型基于粒子群算法，所述粒子群中每个粒子指示有所述内层模型的一组超参数；

迭代模块304，重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

可选地，所述迭代模块304还用于依次基于所述粒子群的每个粒子给定的一组超参数，使用数据集训练所述内层模型；以及用于依据预设指标获取所述训练结果的评价值，其中，所述预设指标为训练结束后所述内层模型的处理准确率或误处理造成的经济损失。

可选地，所述迭代模块304还用于将所述评价值作为最新评价值，将所述最新评价值和所述内层模型的历史评价值作为所述外层模型的输入；以及用于基于粒子群算法，获取所述外层模型的输出，所述输出为新一代粒子群。

可选地，所述预设条件为以下至少之一：迭代次数达到第一目标阈值，其中，在所述外层模型依据所述内层模型的评价值得到新一代粒子群时，迭代次数加一；所述内层模型的训练结果的评价值收敛。

可选地，所述构建模块302通过所述外层模型生成粒子群，包括以下至少之一：随机生成所述粒子群；接受输入信息，以及所述输入信息生成所述粒子群。

本申请实施例提供的超参数的调整装置，通过构建包括内层模型和外层模型的嵌入式框架，内层模型是基于机器学习算法建立的，外层模型是基于粒子群算法建立的，该外层模型生成粒子群，粒子群中每个粒子指示有内层模型的一组超参数，基于该粒子群代表的超参数训练内层模型，然后获取训练结果的评价值，如果未达到预设条件，将评价值作为外层模型的输入，用于更新粒子群，从而完成内外层的多次迭代，实现对内层模型的超参数的不断调整，最终获取使得内层模型表现最优的超参数组合，解决了相关技术中调整机器学习的超参数效率低，准确度低的问题。

所述超参数的调整装置包括处理器和存储器，上述构建模块和迭代模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对内层模型的超参数的不断调整，最终获取使得内层模型表现最优的超参数组合，解决了相关技术中调整机器学习的超参数效率低，准确度低的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述超参数的调整方法。

本申请实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述超参数的调整方法。

本申请实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法建立，所述外层模型基于粒子群算法建立，所述粒子群中每个粒子指示有所述内层模型的一组超参数；重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

可选地，所述遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，包括：依次基于所述粒子群的每个粒子给定的一组超参数，使用数据集训练所述内层模型；依据预设指标获取所述训练结果的评价值，其中，所述预设指标为训练结束后所述内层模型的处理准确率或误处理造成的经济损失。

可选地，所述将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，包括：将所述评价值作为最新评价值，将所述最新评价值和所述内层模型的历史评价值作为所述外层模型的输入；基于粒子群算法，获取所述外层模型的输出，所述输出为新一代粒子群。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种超参数的调整方法，其特征在于，包括：

构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法建立，所述外层模型基于粒子群算法建立，所述粒子群中每个粒子指示有所述内层模型的一组超参数；

重复执行以下步骤直至满足预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

2.根据权利要求1所述的方法，其特征在于，所述遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，包括：

依次基于所述粒子群的每个粒子给定的一组超参数，使用数据集训练所述内层模型；

依据预设指标获取所述训练结果的评价值，其中，所述预设指标为训练结束后所述内层模型的处理准确率或误处理造成的经济损失。

3.根据权利要求1所述的方法，其特征在于，所述将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，包括：

将所述评价值作为最新评价值，将所述最新评价值和所述内层模型的历史评价值作为所述外层模型的输入；

基于粒子群算法，获取所述外层模型的输出，所述输出为新一代粒子群。

4.根据权利要求1所述的方法，其特征在于，所述预设条件为以下至少之一：

迭代次数达到第一目标阈值，其中，在所述外层模型依据所述内层模型的评价值得到新一代粒子群时，迭代次数加一；

所述内层模型的训练结果的评价值收敛。

5.根据权利要求1所述的方法，其特征在于，通过所述外层模型生成粒子群，包括以下至少之一：

随机生成所述粒子群；

接受输入信息，以及所述输入信息生成所述粒子群。

6.一种超参数的调整装置，其特征在于，包括：

构建模块，用于构建包括内层模型和外层模型的嵌入式框架，通过所述外层模型生成粒子群，其中，所述内层模型基于机器学习算法，所述外层模型基于粒子群算法，所述粒子群中每个粒子指示有所述内层模型的一组超参数；

迭代模块，重复执行以下步骤直至满足所述预设条件：遍历所述粒子群，基于每个粒子对应的超参数训练所述内层模型，获取训练结果的评价值，将所述评价值作为所述外层模型的输入，用于更新所述外层模型生成的粒子群，使用更新后的粒子群重新训练所述内层模型。

7.根据权利要求6所述的装置，其特征在于，所述迭代模块还用于依次基于所述粒子群的每个粒子给定的一组超参数，使用数据集训练所述内层模型；

以及用于依据预设指标获取所述训练结果的评价值，其中，所述预设指标为训练结束后所述内层模型的处理准确率或误处理造成的经济损失。

8.根据权利要求6所述的装置，其特征在于，所述迭代模块还用于将所述评价值作为最新评价值，将所述最新评价值和所述内层模型的历史评价值作为所述外层模型的输入；

以及用于基于粒子群算法，获取所述外层模型的输出，所述输出为新一代粒子群。

9.一种“计算机可读存储介质”或“非易失性存储介质”，其特征在于，所述“计算机可读存储介质”或“非易失性存储介质”包括存储的程序，其中，在所述程序运行时控制所述“计算机可读存储介质”或“非易失性存储介质”所在设备执行权利要求1至5中任意一项所述超参数的调整方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至5中任意一项所述超参数的调整方法。