CN110770764A

CN110770764A - 超参数的优化方法及装置

Info

Publication number: CN110770764A
Application number: CN201880038686.XA
Authority: CN
Inventors: 蒋阳; 赵丛; 张李亮
Original assignee: Shenzhen Dajiang Innovations Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd; Shenzhen Dajiang Innovations Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2020-02-07
Also published as: WO2020087281A1

Abstract

提供一种超参数的优化方法与装置，该方法包括：将机器学习需要优化的超参数划分为N组超参数；分别对N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。通过对机器学习需要优化的超参数分组进行贝叶斯优化，一方面可以对超参数实现降维搜索，另一方面可以弱化降维假设的限制。

Description

超参数的优化方法及装置

版权申明

技术领域

本申请涉及计算机技术领域，具体地，涉及一种超参数的优化方法及装置。

背景技术

机器学习算法的参数主要有超参数(Hyper-parameter)和普通参数两类。其中，普通参数可以从数据中学习估计得到；超参数无法从数据中学习估计得到，只能靠人的经验设计指定，超参数是在开始学习过程之前需要设置的参数。超参数定义了关于机器学习模型的更高层次的概念，如复杂性或学习能力。例如，超参数可以包括且不限于：正则项系数、学习率、网络结构、卷积核的宽度和深度等。

超参数的调节对于机器学习算法性能有非常大的影响，然而，超参数的调节是一个黑箱操作(black box)，往往需要算法设计人员经过大量的调试得出，且需要设计人员在该领域有较为深厚的积累，需要花费大量的时间和精力，甚至常常无法得到最优结果，优化效率低。

如果将机器学习的超参数调整过程视作一个未知函数，通过对该未知函数建模并寻找其全局最优解，就可以得到想要的超参数。贝叶斯优化算法(Bayesian OptimizationAlgorithm，BOA)是一种求解未知函数全局最优解的算法。因此，贝叶斯优化算法被提出来用于对机器学习模型的超参数进行调整。

但在一些机器学习的应用场景中，需要优化的超参数的数量可能非常大，导致在高维空间中求解未知函数的全局最优解的难度非常大，往往会卡在局部最优解，无法得到较好的结果。

发明内容

本申请提供一种超参数的优化方法及装置，可以实现对超参数的降维搜索，同时可以弱化限制解空间的假设，从而可以获得较好的超参数的优化结果。

第一方面，提供一种超参数的优化方法，该方法包括：将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数；分别对N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

第二方面，提供一种超参数的优化装置，该装置包括：划分单元，将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数；优化单元，用于分别对N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

第三方面，提供一种处理视频图像的装置，该装置包括存储器和处理器，存储器用于存储指令，处理器用于执行存储器存储的指令，并且对存储器中存储的指令的执行使得处理器执行第一方面提供的优化方法。

第四方面，提供一种芯片，芯片包括处理模块与通信接口，处理模块用于控制通信接口与外部进行通信，处理模块还用于实现第一方面提供的优化方法。

第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被计算机执行时使得计算机实现第一方面提供的优化方法。

第六方面，提供一种包含指令的计算机程序产品，指令被计算机执行时使得计算机实现第一方面提供的优化方法。

本申请提供的方案，通过对机器学习需要优化的超参数分组进行贝叶斯优化，一方面可以对超参数实现降维搜索，另一方面可以弱化降维假设的限制。

附图说明

图1为贝叶斯优化算法的基本原理的示意图。

图2为本申请实施例提供的超参数的优化方法的示意性流程图。

图3为本申请实施例提供的超参数的优化方法的另一示意性流程图。

图4为本申请实施例提供的超参数的优化装置的示意性框图。

图5为本申请实施例提供的超参数的优化装置的另一示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

首先介绍本申请实施例涉及的相关技术及概念。

贝叶斯优化算法(Bayesian Optimization Algorithm，BOA)是一种求解未知函数全局最优解的算法。

贝叶斯优化算法主要面向的问题场景可以通过如下公式进行描述：

S^*＝arg_s∈Dmax f(s)，

其中，D是s的候选集。贝叶斯优化的目标是从D中选择一个s，使得未知函数f(s)的值最小(或最大)。未知函数f(s)可以称为目标函数。

贝叶斯优化算法的大致流程如图1所示，包括如下步骤。

第一步，对目标函数f(s)的函数空间分布做一定的先验假设(prior belief)，即假设f(s)的函数空间分布为先验分布。

先验假设通常使用高斯过程先验(Gaussian process prior)。例如，假设f(s)的函数空间分布为高斯分布(Gaussian distribution)。

应理解，既然需要求出满足条件的s，如果知道了f(s)的函数曲线图，就可以直接算出满足条件的s了。但是f(s)的函数曲线图是未知的，即f(s)的函数空间分布特点是未知的。所以需要对f(s)的函数空间分布做假设，常见的假设是f(s)的函数空间分布满足高斯分布，也就是正态分布。

除了高斯分布，也可以假设f(s)的函数空间分布满足其它概率分布。实际应用中，可以针对不同问题，为f(s)选择适合的概率分布假设。

第一步还包括，获取至少两个采样值，并获得这些采样值对应的至少两个观测值。

假设采样值为s₀、s₁，则观测值为f(s₀)、f(s₁)。

例如，可以通过采样等方式从候选集D中选择采样值为s₀、s₁。

第一步还包括，利用至少两个观测值更新先验分布的平均值和方差，得到后验分布(posterior distribution)。

以f(s)的先验分布为高斯分布为例，将采样值与观测值输入高斯分布模型中，对高斯分布模型的平均值和方差进行修正，以使其接近目标函数f(s)真实的函数空间分布。修正后的高斯分布模型就是f(s)的后验分布。

第二步，利用后验分布构造获取函数(acquisition function)，使用获取函数计算下一个采样值。

以f(s)的函数空间分布为高斯分布为例，第二步的过程具体为，从修正后的高斯分布模型中选择下一个采样值s_i，选择的标准是，相对于候选集D中的其它采样值，假设给高斯分布模型输入(s_i，f(s_i))，会使得高斯分布模型更快、更准确地向目标函数f(s)的真实分布接近，因此我们要寻找有较小平均值和较大方差的地方进行优化。

第二步中提到的获取函数就是将较小(或较大，PS：f(s)是损失函数时这里是较低，如果f(s)表征模型准确性时这里是较高值)平均值和较大方差这两个因素进行综合考虑后推荐下一个采样值。应理解，获取函数的设计为现有技术，本文不作详述。

第三步，获得第二步获得的采样值对应的观测值，根据该观测值判断这个采样值是否是最优解，若是，贝叶斯优化过程结束，若否，转到第四步。

可以将采用值代入目标函数f(s)，计算得到观测值。

第四步，利用第三步获得的观测值继续修正后验分布，转到第二步。即重复执行第二步、第三步、第四步，直至收敛(即在第三步获得最优解)。

前文已述，贝叶斯优化算法可以用于对机器学习模型的超参数进行调整(也可称为优化)。将机器学习的超参数调整过程视为求解贝叶斯优化算法中的最值问题，其中，需要优化的超参数视为s，需要优化的超参数的候选值构成候选集D，然后通过如图1所示的贝叶斯优化流程寻找目标函数的全局最优解，就可以获得优化后的超参数。

在机器学习中，一般将损失函数(loss function)作为目标函数。

损失函数用来估量机器学习模型的预测值与真实值的不一致程度，它可以是一个非负实值函数。假设机器学习模型g()的自变量为X，因变量为Y，以样本(X_i,Y_i)为例，机器学习模型的预测值为g(X_i)，机器学习模型的真实值为Y_i。

常见的损失函数有多种，例如，对数损失函数、平方损失函数(也称为最小二乘法损失函数)、指数损失函数等其它损失函数。

以平方损失函数为例，平方损失(square loss)函数的标准形式如下：

其中，n为样本个数，g(X_i)表示机器学习模型的预测值，Y_i表示机器学习模型的真实值，Y_i-g(X_i)表示机器学习模型的预测值与真实值之间的残差，L(Y,g(X))表示的是样本空间上残差的平方和。

如果将平方损失函数作为贝叶斯优化算法中的目标函数，则贝叶斯优化的目的就是最小化该平方损失函数的值，从而获得优化后的超参数。

在使用贝叶斯优化算法调节超参数的过程中，通常将需要优化的超参数定义为一个多维的向量S，贝叶斯优化的过程就是搜索向量S的最优取值的过程。在一些机器学习的应用场景中，需要优化的超参数的数量可能非常大，导致向量S的维度非常高，在高维空间中求解未知函数的全局最优解的难度非常大，往往会卡在局部最优解，无法得到较好的结果。

现有的解决方案针对高维超参数，将求解未知函数的全局最优解的解空间假设为一个相对低维的解空间，然后直接在假设的低维解空间中进行贝叶斯优化。这使得，由求解未知函数的全局最优解的解空间到相对低维的解空间的假设策略对贝叶斯优化结果的影响很大，如果假设策略不合理，会导致较差的优化结果，从而使得算法不够鲁棒。

本申请提出一种超参数的优化方案，可以实现对超参数的降维搜索，同时可以弱化限制解空间的假设，从而可以获得较好的超参数的优化结果。

图2为本申请实施例提供的超参数的优化方法的示意性流程图。该优化方法包括如下步骤。

S210，获取机器学习需要优化的超参数，需要优化的超参数包括N组超参数，N为大于1的整数。

可选地，机器学习需要优化的超参数可以是预先被划分为N组。

可选地，机器学习需要优化的超参数可以是在需要优化时实时地被划分为N组。

例如，在不同的超参数优化任务中，对需要优化的超参数的分组策略可以不同。

应理解，N组超参数中的每组超参数所包括的超参数的数量小于机器学习中需要优化的超参数的总数量。

S220，分别对N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每一组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

针对每组超参数的贝叶斯优化，可以采用如图1所示的贝叶斯优化算法进行实现，在每组超参数的贝叶斯优化过程中，固定其余组超参数的取值为最新取值。

以对第i组超参数进行贝叶斯优化为例，以其余组超参数为第j(j≠i)组超参数为例，假设在第i组超参数的贝叶斯优化过程开始之前，第j组超参数的取值为Z，则在第i组超参数的贝叶斯优化过程中，固定第j组超参数的取值为最新取值Z。

在对第1组超参数进行贝叶斯优化过程中，其余组超参数的取值可以通过采样的方式确定。

通过多少次贝叶斯优化过程后，获得优化后的超参数，由收敛条件决定。本文对此不作详述。

在本申请中，在每个贝叶斯优化过程中，是在一组超参数对应的解空间上进行贝叶斯优化，由于每组超参数的维度小于机器学习需要优化的超参数的总维度，因此，可以实现对超参数的降维搜索，可以避免最优解卡在局部最优解。

此外，在本申请中，在获得优化后的超参数的过程中，对N组超参数中的每组超参数均进行了贝叶斯优化，换言之，在获得优化的超参数的过程中，机器学习需要优化的每个超参数均通过贝叶斯优化算法进行了优化，因此，可以弱化降维假设的限制。

因此，本申请实施例通过分别对机器学习需要优化的超参数中的N组超参数进行贝叶斯优化，一方面可以对超参数实现降维搜索，另一方面可以弱化降维假设的限制。

在本申请中，机器学习需要优化的N组超参数中的每组超参数包括至少一个超参数。

可选地，N组超参数中每组包括的超参数的数量可以相同，即每组超参数的维度可以相同。

可选地，N组超参数中不同组包括的超参数的数量也可以不同，即不同组超参数的维度可以不完全相同。

应理解，当N组超参数中不同组的维度不完全相同时，贝叶斯优化过程中涉及的后验分布需要拆分成多个子后验分布。

在本申请中，N组超参数的分组策略可以有多种。

可选地，在一些实施例中，N组超参数是对需要优化的超参数进行随机分组得到的。

可选地，在一些实施例中，N组超参数是通过经验对需要优化的超参数进行分组得到的。

可选地，在一些实施例中，N组超参数按照机器学习中的超参数类型进行划分。

超参数可以包括下列中的至少两种：卷积核大小(kernel size)，卷积核数量(kernel num)，卷积步长(stride)，跳线连接(shortcut连接方式)，加和操作(add)和拼接操作(concat)的选择，分支数量，层数(layer num)，迭代次数(epoch)，初始化参数(例如MSRA初始化与Xaiver初始化)，正则项系数，学习率，神经网络结构，神经网络的层数。

N组超参数中不同组超参数的超参数类型可以不完全相同。

可选地，不同组超参数的超参数类型不同。

应理解，分别对超参数类型相同的一组超参数进行贝叶斯优化，在一定程度上，可以提高收敛速度，从而提高超参数的优化效率。

因此，本申请实施例，按照超参数类型将需要优化的超参数分组，然后分别对每组超参数进行优化，这样可以在一定程度上提高超参数的优化效率。

在同一次超参数优化任务中，对需要优化的超参数的分组策略是固定的。

针对不同的超参数优化任务，例如，针对不同应用场景下的超参数优化任务，对需要优化的超参数的分组策略可以不同或相同，本申请对此不作限定，可以根据实际需求而定。

可选地，如图3所示，步骤S220的一种实现方式为：利用至少一轮贝叶斯优化操作，获得优化后的超参数，其中，每一轮贝叶斯优化操作包括：对N组超参数中的第i组超参数进行贝叶斯优化，其中，在对第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N。

在本申请实施例中，在每轮贝叶斯优化操作中均分别对N组超参数进行贝叶斯优化，换言之，在获得优化的超参数的过程中，机器学习需要优化的每个超参数均通过贝叶斯优化算法进行了优化，因此，可以弱化降维假设的限制。

因此，本申请实施例，通过分别对机器学习需要优化的超参数中的N组超参数进行贝叶斯优化，一方面可以对超参数实现降维搜索，另一方面可以弱化降维假设的限制。

应理解，通过多少轮贝叶斯优化操作获得优化后的超参数，可以根据收敛条件决定。

例如，在步骤S220中，执行两轮或三轮或更多轮的贝叶斯优化操作，获得优化后的超参数，其中，每一轮贝叶斯优化操作包括：对N组超参数中的第i组超参数进行贝叶斯优化，其中，在对第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N。

应理解，在每一轮贝叶斯优化操作中，对N组超参数先后分别进行优化，优化顺序的先后可能使得各个超参数组的优化之间存在差异，但是本申请实施例通过执行多轮(即至少不小于两轮)的贝叶斯优化操作，可以在一定程度上弱化这种差异，从而进一步地弱化降维假设的限制。

在每轮贝叶斯优化操作中均分别对N组超参数进行贝叶斯优化的方式可以称为交替优化(alternative optimization)的贝叶斯优化。

本申请实施例将交替优化的思想引入贝叶斯优化的过程中，对于高维度的搜索空间可实现有效降维，弱化现有研究技术中的假设限制，有助于搜索到最优解的超参数。

作为示例，本申请实施例对超参数进行优化的整个流程如下。

将机器学习的超参数调节过程视为目标函数f(S)。赋予目标函数f(S)高斯过程先验，即p(f)＝GP(f；μ；cov)，其中，μ表示期望，cov表示方差，GP表示高斯过程。S表示需要优化的超参数。S∈D，D表示需要优化的超参数S的样本空间。

将需要优化的超参数S划分为N个组：S_i∈D_i，i＝1,2，…，N，N为大于1的整数。

执行如下代码，直至得到最优S。

{for i in N：

{优化超参数S_i至收敛

{固定S_j，j≠i；

从D_i中抽样到采样值，获得观测值；

更新f(S)的后验分布p(f|D_i)＝GP(f；μ_f|Di；cov_f|Di)；

根据后验分布计算获取函数，利用获取函数计算下一个采样值；

}

}。

其中，目标函数f(S)可以为损失函数。

从D_i中抽样到采样值，获得观测值的过程可以为，将该采样值带入目标函数f(S)中，获得该采样值对应的观测值。

可选地，在本申请中，贝叶斯优化的目标函数为损失函数。

例如，贝叶斯优化的目标函数可以为如下任一种：对数损失函数、平方损失函数(也称为最小二乘法损失函数)、指数损失函数。

应理解，在本申请中，贝叶斯优化的目标函数还可以为其它类型的损失函数，这里不再枚举。

应理解，实际应用中，可以根据实际应用的需求，选择一种损失函数作为贝叶斯优化的目标函数。

以平方损失函数为目标函数为例，在本申请一些实施例中，贝叶斯优化的目标函数f(S)如下公式所示：

其中，(X，Y)为样本。g(X)表示机器学习模型，X表示机器学习模型的自变量，Y表示机器学习模型的因变量。n表示样本个数，这里的样本是指(X，Y)的样本。g(X_i)表示机器学习模型的预测值。Y_i表示机器学习模型的真实值。Y_i-g(X_i)表示机器学习模型的预测值与真实值之间的残差。L(Y,g(X))表示的是样本空间上残差的平方和。

可选地，在本申请的一些实施例中，贝叶斯优化的目标函数中使用的样本可以是训练集样本，或者是测试集样本，或者是训练集样本和测试集样本。

例如，以目标函数为如下所示的平方损失函数为例：

其中，(X，Y)为样本。g(X)表示机器学习模型，X表示机器学习模型的自变量，Y表示机器学习模型的因变量。g(X_i)表示机器学习模型的预测值。Y_i表示机器学习模型的真实值。Y_i-g(X_i)表示机器学习模型的预测值与真实值之间的残差。L(Y,g(X))表示的是样本空间上残差的平方和。其中，样本空间为训练集样本空间，n表示训练集中样本的个数。或者，样本空间为测试集样本空间，n表示测试集中样本的个数。或者，样本空间为训练集与测试集构成的样本空间，n表示训练集与测试集样本的总个数。

应理解，超参数的每一个取值，对应一个机器学习模型。换言之，超参数的取值不同，其对应的机器学习模型也不同。因此，在超参数的贝叶斯优化过程中，超参数的取值每更新一次，目标函数中的使用的机器学习模型也要更新。

还应理解，每个超参数的取值对应的机器学习模型可以通过训练得到。例如，可以采用现有的任一种可行的模型训练方法，来训练每个超参数的取值对应的机器学习模型，本申请对此不作限定。

可选地，在本申请的一些实施例中，贝叶斯优化过程中的观测值根据机器学习模型在训练过程中使用的损失函数确定。

例如，在对第i组超参数进行贝叶斯优化的过程中，第i组超参数的一个采样值对应的观测值由如下公式确定：

其中，epoch为第i组超参数的本次取值所对应的机器学习模型的训练轮数，T_loss(j)为该机器学习模型在第j轮训练之后在训练集样本上的损失值，V_loss(j)为该机器学习模型在第j轮训练之后在测试集样本上的损失值，w₁和w₂分别为T_loss(j)与V_loss(j)的权重，w₁和w₂不同时为零。

当w₁为零，w₂不为零时，表示观测值Loss只与机器学习模型在测试集上的损失值有关。

当w₂为零，w₁不为零时，表示观测值Loss只与机器学习模型在训练集上的损失值有关。

当w₁与w₂均不为零时，表示观测值Loss既与机器学习模型在测试集上的损失值有关，还与机器学习模型在训练集上的损失值有关。

可选地，在一些实施例中，在对第i组超参数进行贝叶斯优化的过程中，控制机器学习模型的训练次数小于预设值。

例如，控制机器学习模型的训练次数小于20次。

应理解，在超参数的优化过程中，机器学习模型的收敛时间或机器学习模型的训练次数，直接影响超参数的优化速度。本申请实施例通过限制机器学习模型的训练次数小于预设值，可以提高超参数的优化速度。

在本申请中，假设模型的最终表现与模型训练初期的表现相关。换言之，如果模型训练初期就单调收敛，则该模型的最终表现也是单调收敛；如果模型训练初期就不再单调收敛(即发散)，则该模型的最终表现也不再单调收敛。

基于这个假设，对于每个超参数对应的机器学习模型，控制其训练轮数在预设值之内。

可选地，在一些实施例中，控制第i组超参数每更新一次所对应的机器学习模型的训练次数小于预设值，包括：在第i组超参数每更新一次的取值对应的机器学习模型的训练过程中，采用早停策略，使得机器学习模型的训练次数小于预设值。

例如预设值为20，对于每个超参数对应的机器学习模型，只训练20次就停止。如果训练轮数还不足20次时，机器学习模型已经不再单调收敛，则早停。

如果训练轮数已经满20次，机器学习模型单调收敛，也停止训练。

本申请实施例的方案可以应用于深度学习的超参数调节过程中。

应理解，使用贝叶斯优化搜索深度学习模型的超参数，一般情况下需等到深度学习模型完全收敛才能能到，会导致超参数的优化时间较长。采用本申请实施例提供的方案后，可以有效减少优化超参数所需的时间。

上文主要以步骤220的实现方式为如图3所示的方式为例进行了描述。在本申请中，步骤220的实现方式包括但不限于图3所示的方式。只要在获取优化后的超参数的过程中，分别对N组超参数进行了贝叶斯优化，这样的方案均落入本申请的保护范围。

可选地，步骤S220的另一种实现方式为：先对N组超参数中的前N1组超参数进行至少一轮贝叶斯优化操作，获得优化后的前N1组超参数；然后，对N组超参数中的前N2(N1+N2＝N)组超参数进行至少一轮贝叶斯优化操作，获得优化后的后N2组超参数。其中，对前N1组超参数的每一轮贝叶斯优化操作包括：对该N1组超参数中的第i组超参数进行贝叶斯优化，其中，在对第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N1。对后N2组超参数的每一轮贝叶斯优化操作包括：对该N2组超参数中的第i组超参数进行贝叶斯优化，其中，在对第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N2。

作为示例，假设N等于5，先对第1组超参数和第2组超参数进行如下交替优化，获得优化后的第1组超参数和第2组超参数：执行至少一轮贝叶斯优化操作，每一轮贝叶斯优化操作包括：对第1组超参数进行贝叶斯优化，其过程中，固定其余组超参数的取值为最新取值；对第2组超参数进行贝叶斯优化，其过程中，固定其余组超参数的取值为最新取值。完成第1组超参数和第2组超参数的优化后，再对第3组超参数、第4组超参数和第5组超参数进行如下交替优化，获得优化后的第3组超参数、第4组超参数和第5组超参数：执行至少一轮贝叶斯优化操作，每一轮贝叶斯优化操作包括：对第3组超参数进行贝叶斯优化，其过程中，固定其余组超参数的取值为最新取值；对第4组超参数进行贝叶斯优化，其过程中，固定其余组超参数的取值为最新取值；对第5组超参数进行贝叶斯优化，其过程中，固定其余组超参数的取值为最新取值。

因此，本申请实施例提供的方案，通过对机器学习需要优化的超参数分组进行贝叶斯优化，一方面可以对超参数实现降维搜索，另一方面可以弱化降维假设的限制。

应理解，本申请提供的方案可以应用于优化对象是高维的场景，同样也可以应用于优化对象是低维的场景。

还应理解，本申请提供的方案，可以但不限于机器学习中超参数的优化，还可以应用于其它的需要求解未知函数的全局最优解的场景中。

还应理解，本申请提供的方案的应用场景包括但不限于图像检测、目标追踪或自动机器学习。

上文描述了本申请的方法实施例，下文将描述上文方法实施例对应的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见前面方法实施例，为了简洁，这里不再赘述。

图4为本申请实施例提供的超参数的优化装置400的示意性框图。该装置400包括如下单元。

划分单元410，将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数；

优化单元420，用于分别对N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

可选地，作为一个实施例，优化单元420，用于利用至少一轮贝叶斯优化操作，获得优化后的超参数，其中，每一轮贝叶斯优化操作包括：对N组超参数中的第i组超参数进行贝叶斯优化，其中，在对第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N。

应理解，在每一轮贝叶斯优化操作中，对N组超参数先后分别进行优化，优化顺序的先后可能使得各个超参数组的优化之间存在差异，本申请实施例通过执行多轮的贝叶斯优化操作，可以在一定程度上弱化这种差异，从而进一步地弱化降维假设的限制。

可选地，作为一个实施例，N组超参数按照机器学习中的超参数的类型进行划分。

可选地，作为一个实施例，超参数可以包括下列中的至少两种：卷积核大小(kernel size)，卷积核数量(kernel num)，卷积步长(stride)，跳线连接(shortcut连接方式)，加和操作(add)和拼接操作(concat)的选择，分支数量，层数(layer num)，迭代次数(epoch)，初始化参数(例如MSRA初始化与Xaiver初始化)，正则项系数，学习率，神经网络结构，神经网络的层数。

N组超参数中不同组超参数的超参数类型可以不完全相同。

可选地，不同组超参数的超参数类型不同。

可选地，作为一个实施例，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化的目标函数为损失函数，损失函数使用的样本为训练集样本和/或测试集样本。

可选地，作为一个实施例，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化使用的观测值根据每组超参数对应的机器学习模型在模型训练中使用的损失值确定。

可选地，作为一个实施例，在对每组超参数进行贝叶斯优化的过程中，每组超参数的一个采样值对应的观测值Loss由如下公式确定：

其中，epoch为每组超参数的本次取值所对应的机器学习模型的训练轮数，T_loss(j)为该机器学习模型在第j轮训练之后在训练集样本上的损失值，V_loss(j)为该机器学习模型在第j轮训练之后在测试集样本上的损失值，w₁和w₂分别为T_loss(j)与V_loss(j)的权重，w₁和w₂不同时为零。

可选地，作为一个实施例，优化单元420用于，在对每组超参数进行贝叶斯优化的过程中，控制机器学习模型的训练次数小于预设值。

可选地，作为一个实施例，优化单元420用于，采用早停策略，使得机器学习模型的训练次数小于预设值。

可选地，作为一个实施例，划分单元410用于，根据机器学习的应用场景，将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数。

可选地，作为一个实施例，机器学习模型为深度学习模型。

如图5所示，本申请实施例还提供一种超参数的优化装置500，该装置包括处理器510与存储器520，存储器520用于存储指令，处理器510用于执行存储器520存储的指令，并且对存储器520中存储的指令的执行使得，处理器510用于执行上文方法实施例中的优化方法。

对存储器520中存储的指令的执行使得处理器510用于执行上述实施例中划分单元410和优化单元420执行的动作。

可选地，如图5所示，该装置500还可以包括通信接口530，用于与外部设备交互信号。例如，处理器510用于控制接口530进行接收和/或发送信号。

本申请实施例还提供一种计算机存储介质，其上存储有计算机程序，计算机程序被计算机执行时使得，计算机执行上文方法实施例中的优化方法。

本申请实施例还提供一种包含指令的计算机程序产品，指令被计算机执行时使得计算机执行上文方法实施例中的优化方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种超参数的优化方法，其特征在于，包括：

将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数；

分别对所述N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

2.根据权利要求1所述的优化方法，其特征在于，所述分别对所述N组超参数进行贝叶斯优化，获得优化后的超参数，包括：

利用至少一轮贝叶斯优化操作，获得所述优化后的超参数，其中，每一轮贝叶斯优化操作包括：

对所述N组超参数中的第i组超参数进行贝叶斯优化，其中，在对所述第i组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值，i遍历1，2，…，N。

3.根据权利要求1或2所述的优化方法，其特征在于，所述N组超参数按照机器学习中的超参数的类型进行划分。

4.根据权利要求3所述的优化方法，其特征在于，所述超参数包括下列中的至少两种：卷积核大小，卷积核数量，卷积步长，跳线连接，加和操作和拼接操作的选择，分支数量，层数，迭代次数，初始化参数，正则项系数，学习率，神经网络结构，神经网络的层数。

5.根据权利要求1至4中任一项所述的优化方法，其特征在于，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化的目标函数为损失函数，所述损失函数使用的样本为训练集样本和/或测试集样本。

6.根据权利要求1至5中任一项所述的优化方法，其特征在于，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化使用的观测值根据所述每组超参数对应的机器学习模型在模型训练中使用的损失值确定。

7.根据权利要求6所述的优化方法，其特征在于，在对每组超参数进行贝叶斯优化的过程中，所述每组超参数的一个采样值对应的观测值Loss由如下公式确定：

其中，epoch为所述每组超参数的本次取值所对应的机器学习模型的训练轮数，T_loss(j)为该机器学习模型在第j轮训练之后在训练集样本上的损失值，V_loss(j)为该机器学习模型在第j轮训练之后在测试集样本上的损失值，w₁和w₂分别为T_loss(j)与V_loss(j)的权重，w₁和w₂不同时为零。

8.根据权利要求1至7中任一项所述的优化方法，其特征在于，在对每组超参数进行贝叶斯优化的过程中，控制机器学习模型的训练次数小于预设值。

9.根据权利要求8所述的优化方法，其特征在于，所述控制机器学习模型的训练次数小于预设值，包括：

采用早停策略，使得所述机器学习模型的训练次数小于所述预设值。

10.根据权利要求1至9中任一项所述的优化方法，其特征在于，所述将机器学习需要优化的超参数划分为N组超参数，包括：

根据机器学习的应用场景，将机器学习需要优化的超参数划分为N组超参数。

11.根据权利要求8或9所述的优化方法，其特征在于，所述机器学习模型为深度学习模型。

12.一种超参数的优化装置，其特征在于，包括：

划分单元，将机器学习需要优化的超参数划分为N组超参数，N为大于1的整数；

优化单元，用于分别对所述N组超参数进行贝叶斯优化，获得优化后的超参数，其中，在对每组超参数进行贝叶斯优化的过程中，固定其余组超参数的取值为最新取值。

13.根据权利要求12所述的优化装置，其特征在于，所述优化单元用于，利用至少一轮贝叶斯优化操作，获得优化后的超参数，其中，每一轮贝叶斯优化操作包括：

14.根据权利要求12或13所述的优化装置，其特征在于，所述N组超参数按照机器学习中的超参数的类型进行划分。

15.根据权利要求14所述的优化装置，其特征在于，所述超参数包括下列中的至少两种：卷积核大小，卷积核数量，卷积步长，跳线连接，加和操作和拼接操作的选择，分支数量，层数，迭代次数，初始化参数，正则项系数，学习率，神经网络结构，神经网络的层数。

16.根据权利要求12至15中任一项所述的优化装置，其特征在于，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化的目标函数为损失函数，所述损失函数使用的样本为训练集样本和/或测试集样本。

17.根据权利要求12至16中任一项所述的优化装置，其特征在于，在对每组超参数进行贝叶斯优化的过程中，贝叶斯优化使用的观测值根据所述每组超参数对应的机器学习模型在模型训练中使用的损失值确定。

18.根据权利要求17所述的优化装置，其特征在于，在对每组超参数进行贝叶斯优化的过程中，所述每组超参数的一个采样值对应的观测值Loss由如下公式确定：

19.根据权利要求12至18中任一项所述的优化装置，其特征在于，所述优化单元用于，在对每组超参数进行贝叶斯优化的过程中，控制机器学习模型的训练次数小于预设值。

20.根据权利要求19所述的优化装置，其特征在于，所述优化单元用于，采用早停策略，使得所述机器学习模型的训练次数小于所述预设值。

21.根据权利要求12至20中任一项所述的优化装置，其特征在于，所述划分单元用于，根据机器学习的应用场景，将机器学习需要优化的超参数划分为N组超参数。

22.根据权利要求19或20所述的优化装置，其特征在于，所述机器学习模型为深度学习模型。

23.一种超参数的优化装置，其特征在于，包括：存储器与处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得，所述处理器用于执行如权利要求1至11中任一项所述的优化方法。

24.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机执行时使得，所述计算机执行如权利要求1至11中任一项所述的方法。

25.一种包含指令的计算机程序产品，其特征在于，所述指令被计算机执行时使得计算机执行如权利要求1至11中任一项所述的优化方法。