CN110443364A

CN110443364A - 一种深度神经网络多任务超参数优化方法及装置

Info

Publication number: CN110443364A
Application number: CN201910541450.4A
Authority: CN
Inventors: 骆剑平; 陈娇
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-11-12

Abstract

本发明公开了一种深度神经网络多任务超参数优化方法，首先对每个任务的数据训练集进行模型训练得出多任务学习网络模型，然后对未知区域的所有点进行预测，并对预测结果进行筛选候选点，最终对筛选出的候选点进行评估并将候选点以及候选点的目标函数值添加到数据训练集中再次建立模型、预测、筛选以及评估操作；以此类推，直到达到最大迭代次数，最终从数据训练集中选出目标函数值最大时对应的候选点，也即是多任务学习网络模型中每个任务的超参数组合。本发明通过将径向基神经网络模型替代高斯模型，并与多任务学习结合并应用到贝叶斯优化算法中实现超参数优化，大大降低了超参数优化的计算量。本发明还公开了一种电子设备及存储介质。

Description

一种深度神经网络多任务超参数优化方法及装置

技术领域

本发明涉及超参数优化，尤其涉及一种深度神经网络多任务超参数优化方法、电子设备及存储介质。

背景技术

对于超参数的优化，大部分情况下都是采用人工调参的方式。比如对于比较有经验的专业学者可以根据自己多年的经验来给超参数设置一个比较好的值，或者根据经验不断地训练模型然后调节超参数数值。而对于初学者，就只能花费大量的时间来调节超参数。因此，自动调节超参数受到了广大研究人员的关注，最早的自动调参方法是网格搜索和随机搜索方法。

网格搜索是一种暴力搜索方法，首先需要确定多个超参数的范围，然后通过网格组合出多个候选解，将这些候选解逐个带入神经网络中对模型进行训练，然后选择出能使模型最好的一组解。这种暴力搜索的缺点是会耗费大量的时间和成本并且不一定能找到全局的最优解，而且随着超参数数量的增多，网格搜索的复杂度会呈指数级增长，网格搜索的效率也无法得到提高。

随机搜索算法尽管提供了更有效的解决方案，但是其并未将所有的参数值全部尝试一遍，而是从指定的分布中进行固定数量的采样。如果随机搜索的样本点集足够大，则找到全局最优值或近似值；但是随机搜索也存在缺点，即容易陷入局部最优。

而目前对于超参数优化问题常用的解决办法是使用贝叶斯优化算法，并将高斯过程模型作为代理模型，然后利用采集函数作为搜索的指导函数，选择出最有可能是最优解的点。但是，在随着训练样本的数据量增加时，高斯过程中协方差矩阵的计算量会变得非常大，需要很长的时间，并且现有的使用贝叶斯优化算法是将单个任务进行优化，若存在多个相关任务，无法学习到多个任务之间的相关信息。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种深度神经网络多任务超参数优化方法，其能够解决现有技术中超参数优化计算量大等问题。

本发明的目的之二在于提供一种电子设备，其能够解决现有技术中超参数优化计算量大等问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能够解决现有技术中超参数优化计算量大等问题。

本发明的目的之一采用如下技术方案实现：

一种深度神经网络多任务超参数优化方法，包括以下步骤：

模型训练步骤：根据选取每个任务的数据训练集对多个任务进行模型训练得出多任务学习网络模型；

预测步骤：选取未知区域的任意一点将其输入到多任务学习网络模型中，得出未知区域内每个点所对应每个任务的目标函数值；

筛选步骤：根据粒子群算法以及未知区域中所有点对每个任务的目标函数值进行筛选，进而筛选出每个任务的一个候选点；

评估步骤：将筛选出每个任务的候选点带入到多任务学习网络模型的对应任务中，得到每个候选点的真实目标函数值，然后将每个候选点以及对应的真实目标函数值添加到对应任务的数据训练集中并形成对应任务的新的数据训练集；

迭代步骤：根据所有任务的新的数据集再对所有任务依次执行模型训练步骤、预测步骤、筛选步骤、评估步骤以及迭代步骤；直到达到系统预设的最大迭代次数，根据最后一次评估步骤中所形成的每个任务的新的数据训练集，从该数据训练集中筛选出真实目标函数值最大时所对应的点作为对应任务优化后的超参数组合。

进一步地，模型训练时对于参数的更新采用全局更新策略或局部更新策略。

进一步地，参数的更新采用全局更新策略时，所述模型训练步骤包括：

步骤S11：分别选取每个任务的数据训练集，对每个任务的RBF网络的权值向量进行初始化；并将每个任务的数据训练集输入到对应任务的RBF神经网络中；其中每个任务的RBF神经网络相同；

步骤S12：根据误差反向传播算法更新所有的RBF神经网络中的相似性参数以及权值向量；直到达到迭代停止条件，得出多任务学习网络模型。

进一步地，参数的更新采用局部更新策略时，所述模型训练步骤包括：

步骤S21：选取每个任务的数据训练集，并对每个任务的RBF网络的权值向量进行初始化；

步骤S22：将每个任务的数据训练集输入到对应RBF神经网络中，开始网络训练；

步骤S23：根据网络的前向传播法计算得出每个任务的RBF神经网络对对应任务的预测值、以及输出层误差，然后根据反向传播法计算得出相关层上的两个节点的误差；

步骤S24：根据输出层误差以及相关性层上两个节点的误差更新相似性误差，并同时更新对应任务所对应的RBF神经网络上的权值向量，直到达到停止迭代条件，得出多任务学习网络模型。

进一步地，所述预测步骤具体包括：

步骤S31：从未知区域内选取任意一点，记为未知点；

步骤S32：根据多任务学习网络模型的网络结构图和模型训练过程中选取多个中心点，并将该未知点输入到每个任务的RBF神经网络中，进而计算得出每个任务输入层到隐藏层的映射；

步骤S32：根据多任务学习网络模型的权值向量，以及每个任务输入层到隐藏层的映射，计算出每个任务所对应的RBF神经网络的输出；

步骤S33：根据多任务学习网络模型的相关性参数，根据每个任务所对应的RBF神经网络的输出计算出多任务学习网络模型的输出，即该未知点在每个任务中的目标函数值。

进一步地，所述筛选步骤具体包括：根据未知区域每个点对每个任务的目标函数值计算得出每个任务的EI函数，并将每个任务的EI函数作为粒子群算法的适应度函数，然后根据粒子群算法选取EI函数值最大的点作为每个任务的候选点。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明目的之一所采用的一种深度神经网络多任务超参数优化方法的步骤。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一所采用的一种深度神经网络多任务超参数优化方法的步骤。

相比现有技术，本发明的有益效果在于：

本发明通过将径向基神经网络取代传统的高斯模型，并将径向基神经网络的输出通过一个全连接层连接一起，将多个任务的信息得到共享，进而形成多任务学习神经网络模型，并将该多任务学习神经网络模型应用到贝叶斯优化算法中，实现超参数的优化，不仅可以避免高斯过程中的巨大计算量，还可以加快学习的速度。

附图说明

图1为本发明提供的RBF神经网络结构图；

图2本发明提供的一种深度神经网络多任务超参数优化方法的整体流程图；

图3为本发明提供的多任务学习网络模型的网络结构；

图4为本发明提供的基于多任务学习网络模型的优化算法流程图；

图5为本发明提供的多任务学习网络模型应用于超参数优化方法的框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一：

本发明针对现有的贝叶斯优化算法只能优化单个任务的问题，无法学习到相关任务之间的信息，提出了一种将多任务学习网络模型(Multi-Task Learning,MTL)应用于贝叶斯优化算法中，实现对多个任务同时进行学习，相比于单任务学习的方法，每个任务能够学习到其他相关任务上的相关信息来促进自己学习，学习到更多的特征信息。另外，本发明还通过使用径向基(Radial Basic Function，RBF)神经网络取代传统的高斯模型进行模型的训练，能够减小计算量，加快学习的速度。

也即是说，本发明是将多个任务对应的径向基神经网络的输出通过一个全连接层连接到一起，让多个任务的信息得到共享，然后根据初始数据进行建模，再根据贝叶斯优化算法，通过采集函数的指导选择出下一个最有可能是最优值的点，进行迭代选择出最优的点。使用这种多任务径向基神经网络的方法可以让多个任务之间的信息得到共享，并且避免了高斯过程中的巨大计算量，既能避免高斯过程的巨大计算量还能让任务学习的更好，模型训练的更加准确，应用于贝叶斯优化算法能更好的解决超参数优化问题。

对于RBF神经网络，如图1所示，网络结构分别由输入层、隐藏层、输出层三层组成。也即是，以图1为例：输入层就是x，隐藏层就是输出层就是y，输入层到隐藏层之间的关系为映射关系。输入层：用于将外界的输入变量与内部的神经元进行连接与传输，输入层的感知神经元直接将输入变量传到隐藏层的神经元中。

隐藏层：用于将输入变量映射到隐藏层空间，这个过程是非线性的变换，并且通常需要选择一组径向对称的核函数作为隐藏层神经元的激活函数，且此核函数函数是一种非负非线性的衰减函数。

输出层：隐藏层与输出层之间通过权值连接，从隐藏层到输出层空间变换是线性的。

从图1中可以看到，RBF神经网络总共具有n个隐藏层神经元，1个输出层神经元。假设给RBF神经网络输入一组D维的数据：x＝[x₁,x₂,..,x_D]，也即是输入层；隐藏层到输出层的权值向量为W＝[w₁,w₂,..,w_n]^T，也即是映射关系，径向基函数用表示，也即是隐藏层；网络输出为y，也即是输出层。

根据图1，网络分为两部分：第一部分就是输入层到隐藏层的非线性映射，实现的映射，也就是将D维的输入数据映射到n维空间；第二部分就是隐藏层到输出层的连接，这一层是通过权值向量的线性连接，其本质就是通过计算隐藏层的线性加权和得到网络的输出层的输出。因此，RBF神经网络的输出可表示为：其中，c为基函数的中心点，||·||表示范数，通常为欧几里得范数。

对于超参数优化最主要是在于模型训练的代理模型的选择，目前使用最广泛的是基于高斯核函数的RBF神经网络。对于RBF神经网络来说，当输入变量与核函数的中心点的距离越近，此输入变量对应的隐藏层神经元将会处于激活状态。反之，当输入变量距离核函数的中心点越远，根据核函数高斯函数计算出的输入变量到隐藏层的映射值将接近于0，也即是输入变量对应的隐藏层神经元没有被激活。也即是说：RBF神经网络具有局部逼近特性。若使用高斯过程作为代理模型来解决超参数优化问题，那么随着迭代次数的增加，高斯过程中的协方差矩阵的计算量会变得巨大，因此，为了解决高斯过程的计算量巨大问题，使用RBF神经网络代替高斯过程来实现模型训练，其学习速度更快，计算量也会降低。

对于超参数优化问题，本发明提供了一种深度神经网络多任务超参数优化方法，也即是提出了基于RBF神经网络的多输入多输出的多任务学习网络(The Multi-TaskLearning network with Multi-Input-Multiple-Output based on Radial BasicFunction，MIMO-MT-RBF)模型应用于贝叶斯优化算法，进而实现超参数的优化。如图5所示，将多个任务的超参数优化训练集输入多任务学习网络模型中，最终得出每个任务的最优的超参数组合，本发明将超参数组合也即是一个点的坐标值，比如三维坐标X，Y，X，也即是超参数组合。

如图2所示，本发明提供一种深度神经网络多任务超参数优化方法，具包括以下步骤：

模型训练步骤：根据多个任务以及对应的数据训练集进行模型训练得出多任务学习网络模型。

本发明在模型训练时，首先需要选取每个任务的数据训练集，然后利用RBF神经网络模型进行训练。这里的数据训练集训练数据集是指x和y的集合，每个x对应一个y，也即是点以及点所对应的目标函数值。

对于多任务学习网络模型相对于RBF神经网络模型时，其是有四层组成，分别为输入层、隐藏层、相关性层和输出层，也即是多任务学习网络模型比RBF神经网络模型多了一层相关性层。RBF神经网络模型是针对一个任务进行模型训练，而多任务学习网络模型是针对多个任务进行模型训练，并且在训练的过程中通过相关性层将多个任务的训练得出的参数进行共享，也即是通过相关性层可将多个任务的信息共享，来实现多任务学习网络模型。

如图3所示，在网络模型训练时，主要是针对多任务学习网络模型中隐藏层到相关性层的映射时的参数-权值向量W的计算以及相关性层到输出层的映射时的参数的相似性参数L的计算。

根据参数更新策略的不同，本发明还提出了两种网络模型训练方法：也即是整体更新策略和局部更新策略。

为了方便进行描述模型训练的过程，本实施例将以两个任务为例来说明多任务学习网络模型的训练方法：

(一)整体更新策略方法：

假设现有的数据训练集分别为和

如图3所述中的第一步：步骤S11：当i＝1时，对于任务1，将数据训练集中的x¹输入的RBF神经网络，；以及对于任务2，将数据训练集中的x¹输入RBF神经网络中。对于任务1和任务2来说，RBF神经网络中的数据均相同。

步骤S12：根据误差反向传播算法来更新多任务学习网络模型中的相似性参数L₁₁和L₁₂以及权值向量W₁和W₂。在这个过程中，网络中的权值向量W₁和W₂将会尽可能的拟合任务1。由于只将任务1所对应的数据训练集输入网络，还未输入任务2所对应的数据训练集，因此，此时更新得到的相似性参数L₁₁和L₁₂以及权值向量W₁和W₂能更好的拟合任务1。其中，误差反向传播算法用于更新网络参数。

第二步：步骤S21：依据步骤S11和S12的同样的方法，当i＝2时，对于任务1，将数据训练集中的x²输入的RBF神经网络，；以及对于任务2，将数据训练集中的x²输入RBF神经网络中；

步骤S22：根据误差反向传播算法来更新多任务学习网络模型中的数据训练集相似性参数L₂₁和L₂₂以及权值参数W₁和W₂。

然后依次重复第一步和第二步，直到达到迭代停止条件，完成多任务学习网络模型的训练，并将相似性参数以及权值参数保存。

从图3中可以看到，当任务1的数据集输入RBF神经网络时，两个任务所对应的RBF神经网络的输入数据相同，因此输入层到隐藏层的映射也相同，隐藏层的数据也相同；然后将任务2的数据集输入网络时，而隐藏层既具有任务1的信息也具有任务2的信息，因此信息能够得到共享。当任务1的数据集输入RBF神经网络时，更新得到的权值里面就已经包含任务1的信息，当在输入任务2的数据集时，隐藏层就会得到任务2所对应的信息，因此，隐藏层既具有任务1的信息也具有任务2的信息，多个任务的信息能够得到共享。

在训练时，通过增加一个相关性层，多任务学习网络模型可以将每个任务的特征学习的更加完全。也即是，通过相关性层系数L来连接每个任务所对应的RBF神经网络的输出，获得各任务最后的输出，因此也可以将相关性层参数L理解为任务之间的相关性。

对于任务2来说，在训练时，通过相关性层可共享任务1的训练经验再重新进行训练学习，因此，对于任务2的训练学习过程并不像任务1一样属于白板学习，这样也会促进任务2学习更加地完全。因为网络模型的训练过程是不断地迭代，经过上述过程，就相当于两个任务的数据集交替输入网络，那么就不会出现现有技术中各个任务进行各自训练，而使得训练得到的模型更偏向于某一任务。

(二)局部更新策略：

另外，由于本发明中对于参数更新的方式采用的是误差反向传播算法，并且模型训练的前半部分为将每个任务对应输入RBF神经网络的，因此，本实施例还给出了参数更新的另一方法-局部更新策略，也即是当输入某一任务的数据训练集时，利用误差反向传播算法只更新该任务对应的RBF神经网络中的权值参数W，并不是所有任务的RBF神经网络中的权值参数。

以两个任务为例说明训练步骤如下：

首先获取两个任务的现有的数据训练集和并对每个任务的RBF神经网络进行初始化，比如中心点的选择、网络的初始学习率等。每个任务的RBF神经网络均相同。

步骤S31：对于任务1，将数据训练集输入任务1的RBF神经网络进行任务1的模型训练。

步骤S32：根据前向传播算法计算得到RBF神经网络对任务1的预测值以及输出层误差为然后根据误差反向传播算法计算相关性层上的两个节点h11和h12的误差分别为γ₁₁＝L₁₁δ₁，γ₁₂＝L₁₂δ₁。前向传播算法是逐层计算网络中的每个节点的值。

步骤S33：根据相关性层上的两个节点h11和h12的误差更新相似性参数：L₁₁'＝L₁₁+ηδ₁h₁₁，L₁₂'＝L₁₂+ηδ₁h₁₂。其中，L11、L12是初始值，是预先设定的，η为学习率；δ₁为输出层误差。由于此时的误差是任务1的误差，所以我们只选择更新任务1所对应的RBF神经网络上的权值向量W₁：不更新权值向量W₂。

同样的原理，步骤S34：对于任务2，将现有的数据训练集输入任务2的RBF神经网络，继续训练网络。

步骤S35：与步骤4类似，计算出对任务2而言输出层上误差相似层上的两个节点h21和h22的误差分别为γ₂₁＝L₂₁δ₂，γ₂₂＝L₂₂δ₂。

步骤S36：更新相似性参数：L₂₁'＝L₂₁+ηδ₂h₂₁，L₂₂'＝L₂₂+ηδ₂h₂₂。需要注意的是，接下来我们更新任务2所对应的RBF神经网络上的权值向量W₂：

步骤S37：然后继续执行步骤S31，直到达到迭代停止条件，实现多任务学习网络模型的训练，并且将训练过程中的相关性参数和权值向量保存。其中，迭代停止条件是需要预先设置的，比如设置为最大迭代次数，或者训练误差小于阈值e等。当训练过程的迭代次数达到最大迭代次数或者在某一次更新完成之后网络的训练误差小于设置的阈值，那么就属于达到迭代停止条件，否则就未达到迭代停止条件。

从以上可知，按照局部更新策略的方法对每个RBF神经网络中的权值向量进行迭代更新，这样每个RBF神经网络中的权值向量W中将分别包含各个任务的特征信息，因此相似性层的相似性参数L将更好的学习到任务之间的相关信息。

经过上述模型训练后，得出多任务学习网络模型，因此就需要进行下一步操作，也即是预测步骤：根据多任务学习网络模型对未知区域的任意一点进行预测，进而得出多个候选点。

在预测时，首选选取未知区域，然后对未知区域内的每一个点均进行预测，预测出每个点对应每个任务的目标函数值。本发明还给出了对于未知区域中的一个点进行预测的处理过程：

步骤A1：选取未知区域的一个点x^*。

步骤A2：根据多任务学习网络模型的网络结构图以及在训练过程中选择得出的每个任务的RBF神经网络的核函数的中心点，然后将该点x^*代入到RBF神经网络的核函数中，完成输入层到隐藏层的映射。

也即是

另外，对于中心点的选择是在多任务网络模型训练时确定的，通过使用K均值聚类算法来选择中心点。也即是：首先需要确定中心点的个数n，随机选取n个点作为初始中心点，计算每一个对象与n个中心点的距离，将对象划分到距离最近的中心点类别中，待所有对象划分完毕之后，重新计算每个类别的中心点，然后在将所有对象进行类别划分，重复以上过程，直到所有对象所属的类别不再改变。

步骤A3：根据多任务学习网络模型训练完成的权值向量W以及输入层到隐藏层的映射，计算得出隐藏层的输出为：

步骤A4：根据多任务学习网络模型训练完成的相关性参数矩阵L，计算出点x^*在多任务学习网络模型的目标函数值为：

其中，n和N同样分别代表RBF神经网络的中心点的数量和任务的数量，并且c_j代表第j个中心点。

因此根据上述预测过程，未知区域内每个点：x^*所对应的每个任务的目标函数值对于任意一个输入x^*，通过该多任务学习网络模型均可以将其对应的多个任务的目标函数值预测出来。

筛选步骤：根据预测步骤计算得出未知区域中每个点对应每个任务的目标函数函数值筛选出每个任务的一个候选点。

另外，对于候选点的筛选，本发明使用粒子群算法实现。也即是根据预测步骤中计算得出每个点所对应每个任务的目标函数值计算得出每个点的EI函数值，然后选择出EI函数值最大的点作为每个任务的一个候选点。

其中，在选择EI函数值最大的点时，是根据粒子群算法来实现。也即是，对于每个任务来说，将每个点的EI函数作为粒子群算法的适应度函数，然后使用粒子群算法选择得出所有点中EI函数值最大的点，也即是每个任务的候选点。

其中，EI函数是贝叶斯优化算法中选择下一个候选点的引导函数，计算公式为：

其中，其中，x为候选点；μ(x)为候选点所对应的每个任务的目标函数值的均值；σ(x)为候选点所对应的每个任务的目标函数值的方差；为当前数据中的最佳点；f(x⁺)为当前数据中的最佳目标函数值；Φ(·)和φ(·)分别表示累积分布函数和概率分布函数。

本实施例还结合粒子群算法说明对于每个任务的候选点的筛选处理过程，具体如下：

步骤1：根据每个点的目标函数值计算得出EI函数，并将其作为粒子群算法的适应度函数。同时还需要设置粒子群算法中的各个参数，比如粒子的种群大小(种群大小为种群中粒子的个数，比如设置100个，表示种群中粒子的个数；而粒子就代表未知区域中的未知点)，每个粒子的搜索维度和空间，迭代的最大次数等其他基本参数。

步骤2：将种群中每个粒子的信息初始化，包括位置x和速度v，以及全局最优位置gbest和每个粒子的当前最优位置pbest。

步骤3：开始迭代，使用多任务学习网络模型对每个粒子进行预测，并计算出每个粒子的EI函数值，并将每个粒子的EI函数值与其当前最优位置进行比较，如果粒子的EI函数值大于当前最优位置，那么更新粒子的当前最优位置。

步骤4：将每个粒子的当前最优位置与粒子的全局最优位置进行比较，如果存在某个粒子的当前最优位置更好，那么就用当前最优位置替代全局最优位置gbest。

步骤5：将每个粒子的信息进行更新，继续执行步骤3～步骤5，直到达到停止迭代条件，选取全局最优位置gbest的粒子，也即是候选点。。

评估步骤：对每个任务的候选点进行评估。

由于多任务学习网络模型是将具有不同数据集的多个任务一起训练学习，那么在将多任务学习网络模型应用于贝叶斯优化算法中，对于模型选择出的每个任务的候选点，还需要通过对应任务对候选点进行评估，以保持数据训练集的一致性。

对每个任务的候选点进行评估是指将每个任务的候选点带入到对应任务中，获得每个候选点所对应的真实目标函数值，然后再将每个候选点以及对应的真实目标函数值添加到对应任务的数据训练集中形成新的数据训练集。

迭代步骤：对于评估步骤所形成的新的数据训练集以及多个任务再进行模型建立、预测、筛选、评估以及迭代。直到迭代的次数达到了系统预设值，就最后一次评估时，从每个任务所形成的新的数据训练集中选出真实目标函数值最大的点作为每个任务的超参数组合，也即是最优超参数组合，如图4所示。也即是说，通过初始的数据训练集建立模型，然后再通过未知区域的点添加到初始的数据训练集中再重新建立模型，以此类推，反复将未知点加入到数据训练集，实现对模型的训练，最终可从达到迭代次数后所形成的数据训练集中找出目标函数值最大时所对应的点作为优化的最佳超参数组合。

本发明还通过实验来对本申请所提出的深度神经网络多任务超参数优化方法进行测试。

在本次实验中，选择的神经网络为LeNet-5模型，这是一个现有已经应用于数字识别问题上的卷积神经网络，该模型为我们所优化的对象，也即是说通过本发明可为该模型找到一组最佳的超参数，进而使得该模型在实际应用时，其测量准确率最高。

在本实验中，对于超参数优化实验，总共设置了三个任务，并且设置了三组实验，每个实验的设置如下：

实验1：三个任务的网络结构相同，网络中第二个全连接层的节点数都为1024，但使用不同的数据训练集，3个数据集都是在原始数据训练集中随机挑选10000张图片。

实验2：在实验1的基础上，将三个任务的网络中全连接层的节点个数缩减一半，节点数为512，网络与实验1中的不同，仍然使用不同的数据训练集。

实验3：三个任务使用相同的数据训练集，但是网络结构不同，同样是改变网络中的全连接层的节点个数，三个网络对应的节点个数分别为1024，512，256。其中，每个任务对应于一个LeNet-5模型的神经网络。

对于上述实验中的三个任务，虽然不完全一样，但是由于解决的问题都是数字识别问题，所以任务之间也具有相关性。对于三个任务的数据训练集的选择，原始的MNIST数据训练集中是包括60000个样本数据，测试数据训练集中是包含10000个样本数据。在本章实验中，我们从MNIST数据训练集中随机挑选3组10000张图片作为任务的数据训练集，然后从MNIST测试数据集中随机挑选2000张图片作为本次实验所有任务的测试数据集。

在一个神经网络中有很多个超参数，本次实验我们只挑选了三个指标：学习率、dropout值和网络最后一个全连接层中的偏置作为我们优化的超参数。实验中，我们将学习率的搜索范围设置为(10^-5，10^-3)，dropout值的搜索范围为(0，1)，偏置的搜索范围为(-4，4)。

我们将神经网络的测试准确率作为目标函数值，然后用本文提出的深度神经网络多任务超参数优化方法来寻找一组使得目标函数值最大的点，该点的坐标值也即是超参数。

为了测试公平性，对于单任务模型迭代次数设为100次。每个实验单独运行十次，并统计出十次实验的最优值、最差值以及均值和标准差。实验结果如表1(表格中加一个下划线表示三列结果对比的最优值，两个下划线的表示次优值，Single-RBF表示单任务的模型训练，M1和M2分别表示本专利提出的两种模型训练参数更新方式，整体更新策略以及局部更新策略)。

表1超参数优化实验结果

通过观察表1中的数据，本发明给出的基于多任务学习网络模型的优化算法的两种训练方式(M1为全局更新策略、M2为局部更新策略)对神经网络测试准确率的提升都比单任务模型训练(Single-RBF)的大。

仔细观察实验结果还可以发现，对于单任务模型训练来说，三个任务中会出现某一个任务学习的较好，其他两个任务学习的结果相对差一点。但是通过本发明给出的两种模型训练方式，将多个任务一起学习，其结果三个任务都有提升，并且结果相差也不大。

比如以实验1为例，在单任务网络模型中，任务1的学习效果明显优于任务2和任务3。但是多任务学习网络模型可以将三个任务都学习的较好，任务2和任务3的测试准确率与任务1的非常接近。由此也可看出我们所提出的多任务学习网络模型能够共享信息，从而使任务2和任务3得到任务1中的相关信息来提升自己的学习能力。

实施例二：

本发明还提供了一种电子设备，其包括存储器、处理器以及存储在存储器上并可在处理上运行的计算机程序，所述处理器执行所述程序时实现如文中所述的一种深度神经网络多任务超参数优化方法的步骤。

实施例三：

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如文中所述的一种深度神经网络多任务超参数优化方法的步骤。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种深度神经网络多任务超参数优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种深度神经网络多任务超参数优化方法，其特征在于，模型训练时对于参数的更新采用全局更新策略或局部更新策略。

3.根据权利要求2所述一种深度神经网络多任务超参数优化方法，其特征在于，参数的更新采用全局更新策略时，所述模型训练步骤包括：

4.根据权利要求2所述一种深度神经网络多任务超参数优化方法，其特征在于，参数的更新采用局部更新策略时，所述模型训练步骤包括：

5.根据权利要求3或4所述一种深度神经网络多任务超参数优化方法，其特征在于，所述预测步骤具体包括：

步骤S31：从未知区域内选取任意一点，记为未知点；

6.根据权利要求1所述一种深度神经网络多任务超参数优化方法，其特征在于，所述筛选步骤具体包括：根据未知区域每个点对每个任务的目标函数值计算得出每个任务的EI函数，并将每个任务的EI函数作为粒子群算法的适应度函数，然后根据粒子群算法选取EI函数值最大的点作为每个任务的候选点。

7.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述一种深度神经网络多任务超参数优化方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述一种深度神经网络多任务超参数优化方法的步骤。