CN115587616A

CN115587616A - 网络模型训练方法、装置、存储介质及计算机设备

Info

Publication number: CN115587616A
Application number: CN202211370044.4A
Authority: CN
Inventors: 樊旭; 朱旭阳; 杨争艳; 吴嘉嘉; 殷兵; 谢名亮
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-01-10

Abstract

本申请公开了一种网络模型训练方法、装置、存储介质及计算机设备。该方法包括：获取目标任务的样本数据集，该样本数据集包括训练数据集和验证数据集，获取网络模型的结构搜索空间，根据训练数据集，利用元学习方式学习结构搜索空间中的多个不同第一子网络结构，以得到元学习方式所对应的元神经网络，并利用元神经网络生成结构搜索空间中的具有网络参数的多个不同第二子网络结构，利用验证数据集对多个不同第二子网络结构进行网络结构搜索，以确定目标任务的最优子网络结构，利用训练数据集对最优子网络结构进行训练，以得到目标任务所对应的网络模型，本申请可提高得到目标任务的网络模型的准确性和效率。

Description

网络模型训练方法、装置、存储介质及计算机设备

技术领域

本申请涉及机器学习技术领域，具体涉及一种网络模型训练方法、装置、存储介质及计算机设备。

背景技术

随着深度学习的快速发展，神经网络通过从大规模数据中学习特征，并将结果泛化至未知数据中，在图像、语音、自然语言等多种领域中都获得了成功。然而优异性能的代价是网络规模的扩大，这主要体现在两个方面：1)参数量，以VGG16为例，其参数量超过500MB，而这些参数均需要存储在存储器中并在推理时不断进行读取和写入；2)计算量，神经网络中包含大量的乘加计算，如VGG16中包含超过15G的浮点运算量。这导致将深度神经网络应用在智能手机、穿戴式设备、汽车电子等存储容量和计算能力受限并且具有较高实时性要求的嵌入式设备中成为一个难题，因此，在保证网络结构性能的前提下，如何得到合理的网络结构、降低推理时间等是一个苛待解决的问题。

目前网络结构往往通过结构搜索的方式来搭建。结构搜索基于基础网络结构通过一定方式学习其组合方式以得到候选网络结构，并按照评价策略对候选网络结构进行评估，以得到给定限制下的最优网络结构，但基于学习基础网络结构的组合方式需要巨大的计算资源，且对候选网络结构进行评估时，需要对候选网络结构训练后再进行评估，这需要大量的时间消耗，虽然在对候选网络进行评估时，代理模式和参数共享模型能在一定程度上减少训练所需的时间和计算资源，但是上述两种策略会导致评价不准，甚至可能由于不同子结构之间的参数相互影响，最终影响评估结果，进而影响搜索所得到的网络结构。

总之，现有的结构搜索的方式很难既能保证网络结构的性能，又能提高网络结构的准确性和/或提高得到网络结构的效率。

发明内容

本申请实施例提供一种网络模型训练方法、装置、计算机可读存储介质及计算机设备，可以在保证网络结构的性能下，提高网络结构的准确性和提高得到网络结构的效率。

本申请实施例提供了一种网络模型训练方法，包括：

获取目标任务的样本数据集，所述样本数据集包括训练数据集和验证数据集；

获取网络模型的结构搜索空间，所述结构搜索空间是多个网络单元堆叠而构成的网络结构；

根据所述训练数据集，利用元学习方式学习所述结构搜索空间中的多个不同第一子网络结构，以得到所述元学习方式所对应的元神经网络，并利用所述元神经网络生成所述结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是所述结构搜索空间中的相应网络单元的子集或全集；

利用所述验证数据集对多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构；

利用训练数据集对所述最优子网络结构进行训练，以得到所述目标任务所对应的网络模型。

本申请实施例还提供一种网络模型训练装置，包括：

第一获取模块，用于获取目标任务的样本数据集，所述样本数据集包括训练数据集和验证数据集；

第二获取模块，用于获取网络模型的结构搜索空间，所述结构搜索空间是多个网络单元堆叠而构成的网络结构；

元学习模块，用于根据所述训练数据集，利用元学习方式学习所述结构搜索空间中的多个不同第一子网络结构，以得到所述元学习方式所对应的元神经网络；

第一确定模块，用于利用所述元神经网络生成所述结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是所述结构搜索空间中的相应网络单元的子集或全集；

第二确定模块，用于利用所述验证数据集对多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构；

训练模块，用于利用训练数据集对最优子网络结构进行训练，以得到所述目标任务所对应的网络模型。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的网络模型训练方法中的步骤。

本申请实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如上任一实施例所述的网络模型训练方法中的步骤。

本申请实施例提供的网络模型训练方法、装置、计算机可读存储介质及计算机设备，通过将元学习方式结合在结构搜索空间中以从结构搜索空间中得到具有网络参数的多个第二子网络结构，即具有网络参数的多个候选子网络结构，元学习方式可以对多个不同第一子网络结构进行训练得到元神经网络，再根据元神经网络生成多个第二子网络结构，由于在训练得到元神经网络的过程中学习过多个第一子网络结构，因此根据元神经网络生成的具有网络参数的多个第二子网络结构更具有针对性，更准确，进一步使得最终得到的目标任务的网络模型更准确，此外，本申请实施例中在对多个第二子网络结构进行网络结构搜索，得到最优子网络结构后，再进行训练，只需训练一次以得到目标任务的网络模型，相对于现有技术中，在结构搜索空间中得到候选网络结构之后，需要先对所有候选网络结构进行训练之后再进行评估，以选出最优子网络结构来说，减少了对多个候选网络结构进行训练时间，提高了得到目标任务的网络模型的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的网络模型训练方法的流程示意图。

图2为本申请实施例提供的元神经网络的训练示意图。

图3为本申请实施例提供的另一种元神经网络的训练示意图。

图4为本申请实施例提供的网络模型训练方法的子流程示意图。

图5为本申请实施例提供的网络模型训练方法的子流程示意图。

图6为本申请实施例提供的网络结构搜索的流程示意图。

图7为本申请实施例提供的协同蒸馏训练的示意图。

图8为本申请实施例提供的网络模型训练方法的另一流程示意图。

图9为本申请实施例提供的网络模型训练方法的又一流程示意图。

图10为本申请实施例提供的网络模型训练装置的结构示意图。

图11为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种网络模型训练方法、装置、计算机可读存储介质及计算机设备。具体地，本申请实施例的网络模型训练方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、车载设备等终端设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，还可以是提供云服务、云数据库等基础云计算服务的云服务器。

在正式介绍本申请实施例中的方案之前，再进一步对现有技术中的方案进行说明。当前的结构搜索主要包括三个关键部分：结构搜索空间的定义、搜索策略的设计和神经网络结构性能评价策略的设计。对于特定的深度学习任务先定义各一个结构搜索空间，从结构搜索空间中进行结构搜索采样一组候选网络结构，通过评价策略对候选网络结构进行评价，搜索策略根据评价结果筛迭代筛选符合条件的神经网络集构，最终得到最优结构。

其中，搜索策略是网络结构搜索的核心，负责从结构搜索空间的网络结构和其对应的测评结果中学习，并进行优化，逐步生成更好的候选网络结构。现阶段搜索策略所涉及的主流算法包括：强化学习、进化算法和梯度优化等。评价策略是指网络结构的评价方式，一般指网络结构在指定任务上的精度。

其中，强化学习为当前搜索策略中涉及的主流的搜索算法，该方法将结构搜索视为顺序决策过程，将强化学习中的装药定义为现有的部分受过训练的结构，反馈为评估器对于该状态的评估，而动作为对于网络结构的改变。进化算法则是一种仿生算法，通过对动物行为的模拟搜索出更好的个体，在网络结构搜索中先生成若干个神经网络结构，进行测评作为进化标准，通过进化算法进行筛选和迭代优化，最终得到候选网络结构。梯度优化算法将网络结构利用循环神经网络映射到连续空间中，基于梯度信息优化网络结构编码，利用评估器给出的网络结构精度反向传播更新结构编码，最终得到优化后的候选网络结构。

除了结构搜索的方式之外，还有一种方式可以搭建网络结构，即预训练模型压缩的方式。

预训练模型压缩是在预先给定的预训练模型基础上，通过方法去除冗余的结构的方式获得网络结构，并通过相对微调训练来恢复网络结构的性能，该种方式通常以已经训练好的预训练模型为结构搜索空间，在保持网络性能的前提下保留相对重要的部分参数或结构，最终获得满足条件的网络结构。

网络压缩方案主要包括剪枝和矩阵的低秩分解。剪枝的主要策略是删除网络中不重要的神经元，其中结构化剪枝在工业领域应用最为广泛，该方法直接移除剪枝对象，而不引入新的操作，可以用过权值重组等方式获得规则的网络结构，一般对卷积结构采用结构化剪枝方式获得到较高的压缩率；低秩分解实在神经网络中通过用多个更小的向量来近似权值起到减少参数，寻找更小结构的作用，低秩分解一般应用于全连接层的压缩。

该种方式需要在预训练模型的基础上进行，压缩效果受限于压缩方法和预训练模型本身的结构设计，两者都需要较大的时间成本，而由于网络参数量巨大，不同压缩方法对于对剪枝对象的重要性评判标准不同，可能存在误判，将重要结构删除，而且随着剪枝率的上升，网络性能损失将越来越大，而且网络压缩一般是对于性能有损的，因此预训练模型的性能基本上决定了搜索所得模型结构的上限，而预训练模型的结构本身会限制预训练网络的性能。

可见上述的结构搜索方案以及网络压缩方案很难既能保证网络结构的性能，又能提高网络结构的准确性和/或提高得到网络结构的效率。

因此本申请实施例提供了一种网络模型训练方式、装置、计算机可读存储介质及计算机设备。以下将分别对本申请实施例提供的一种网络模型训练方法、装置、计算机可读存储介质及计算机设备进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

图1为本申请实施例提供的网络模型训练方法的流程示意图，该方法应用于计算机设备中，该方案包括如下步骤。

101，获取目标任务的样本数据集，该样本数据集包括训练数据集和验证数据集。

其中，目标任务可以是图像处理领域、文本处理领域、语音处理领域等任一种领域的任意一种深度学习任务，例如，图像分类任务、文本识别任务、语音识别任务等。针对不同的目标任务，确定不同的结构搜索空间、损失函数和不同的样本数据集。例如，对于猫和狗的图像分类任务和中文文本识别任务来说，对应的结构搜索空间不同、损失函数不同、样本数据集也不相同。

其中，样本数据集中包括训练数据集和验证数据集，训练数据集中包括多个训练样本，验证数据集中包括多个验证样本。其中，训练样本和验证样本都是样本，只不过训练样本用于训练过程，而验证样本用于验证过程。

在一情况下，在获取目标任务的样本数据集之后，将训练数据集中的多个训练样本进行特征提取，以得到每个训练样本的样本特征，将验证数据集中的多个验证样本进行特征提取，以得到每个验证样本的样本特征，将包括每个训练样本的样本特征的集合作为训练数据集，将包括每个验证样本的样本特征的集合作为验证数据集。

在一情况下，若该步骤101中并没有对训练数据集中的多个训练样本进行特征提取，也没有对验证数据集中的多个验证样本进行特征提取，那么在后文中需要先对训练数据集中的每个训练样本进行特征提取以得到样本特征，对验证数据集中的每个验证样本进行特征提取以得到样本特征，之后根据对应的样本特征进行进一步的处理。

102，获取网络模型的结构搜索空间，该结构搜索空间是多个网络单元堆叠而构成的网络结构。

首先构建网络模型的结构搜索空间，该结构搜索空间根据目标任务的不同而不同。结构搜索空间是多个网络单元堆叠而构成的大的网络结构，即结构搜索空间中包括多个网络单元。网络单元可以理解为神经网络中的基本单元，例如，包括卷积层、池化层、全连接层、批量归一化层(Batch Normal)等基本结构，在一些情况下，批量归一化层会紧跟着卷积层或全连接层之后。在处理时将紧跟着卷积层或全连接层之后的批量归一化层看成是对应卷积层或对应全连接层的一部分。通常基于人工经验来设计结构搜索空间，也可以根据模型来自动设计不同目标任务的结构搜索空间。

本申请实施例中的结构搜索空间中限定卷积层中的卷积核大小固定，全连接层层数固定，但每层神经元个数不固定，批量归一化层随卷积层中的通道数量(channles数量)调整对应数量，即若卷积层后面存在批量归一化层，批量归一化层的通道数量与卷积层输出的通道数量有关，具体地，批量归一化层的通道数量与卷积层输出的通道数量相同。因此，本申请实施例中的结构搜索空间是固定的，尤其是卷积层固定，如卷积层的通道数量固定、卷积核大小固定。因此，在利用参数生成器的生成参数来确定卷积层的网络参数时，例如下文中提到的对卷积层进行Resharp操作时，由于卷积层固定，因此方便确定每个卷积层的网络参数。

其中，每一层的通道数量包括输入的通道数量和输出的通道数量，例如，对于一个黑白图像来说，输入的通道数量为1，对于一个彩色黑白图像来说，输入的通道数量为3，将彩色图像输入至卷积层，那么对于卷积层来说，输入的通道数量为3，输出的通道数量可根据卷积层中卷积核的数量来确定。

103，根据训练数据集，利用元学习方式学习结构搜索空间中的多个不同第一子网络结构，以得到元学习方式所对应的元神经网络，并利用元神经网络生成结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是结构搜索空间中的相应网络单元的子集或全集。

其中，元学习(meta-learning)，元学习的意思是学会如何学习。在机器学习中，工作量最大的事情就是调参，针对每一个任务从头开始调参，然后耗费大量的时间去训练并测试效果。因此，元学习是让机器自己学会调参，在遇到相似任务时能够触类旁通、举一反三，不用再从头开始调参，也用不着大量标签数据重新进行训练。

通常的机器学习是针对一个特定的任务找到一个能够实现这个任务的function，例如猫和狗的分类任务。而元学习的目标就是要找到一个Function能够让机器自动学习原来人为确定的一些超参(Hyper-parameter)，如初始化参数、学习速率、网络架构等。这个Function用F_φ表示，F_φ不是针对某一个特定任务的，而是针对一群类似的任务，例如这些任务可能包括猫和狗的分类、橘子和苹果的分类、自行车和摩托车的分类等等。元学习的目标是：利用F_φ找到最优的超参φ，使各任务在超参φ的基础上训练出最优参数后测试得到的损失值的和最小。

本申请实施例中根据训练数据集，利用元学习方式学习结构搜索空间中的多个不同第一子网络结构，以得到元学习方式所对应的元神经网络。

首先构建元神经网络。具体地，根据结构搜索空间中的多个网络单元构建元学习方式所对应的元神经网络。

其中，上述根据结构搜索空间中的多个网络单元构建元学习方式所对应的元神经网络的步骤，包括：为结构搜索空间中的每个网络单元设置通道编码参数，根据结构搜索空间的每个网络单元确定多个预设网络单元；为每个预设网络单元生成参数生成器，根据结构搜索空间中的每个网络单元、参数生成器和通道编码参数来生成元神经网络。

其中，若结构搜索空间中包括批量归一化层，则预设网络单元包括结构搜索空间中的除去批量归一化层的网络单元，若结构搜索空间中不包括批量归一化层，预设网络单元指的是结构搜索空间中的网络单元。

可理解地，元神经网络中包括结构搜索空间，结构搜索空间中的每个网络单元都设置有通道编码参数，结构搜索空间中除去批量归一化层的其他每个网络单元均配置一个参数生成器。其中，由于批量归一化层根据直接相连接的卷积层或者直接相连接的全连接层来确定参数数量，因此无需设置参数生成器。

其中，元学习的目的是为了得到参数生成器中的参数，对应层中的参数生成器用于生成本层的参数，参数生成器可由两层全连接层组成，如图2和图3所示。例如，图2中的第一层、第二层、……、第n层中均包括一个参数生成器，每层中的参数生成器包括两层全连接层。如此，元神经网络中的除去批量归一化层的其他每个网络单元中均包括通道编码参数、参数生成器(两层全连接层)和该层对应的预设网络单元，但对于元神经网络中的批量归一化层不包括参数生成器。例如，对于ResNet结构的卷积层来说，ResNetBlock层中的每一层卷积层包括一个参数生成器。

需要注意的是，在其他一些实施例中，参数生成器还可以包括更多层的全连接层，或者参数生成器还可以为其他层组成。

其中，通道编码参数也可以理解为结构搜索空间中对应层的裁剪比例。

对于元神经网络的每一层，通道编码参数为该层输入保留通道数量c_i'_np和输出保留通道数量c'_oup，与结构搜索空间中的该层的输入通道数量c_inp和输出通道数量据c_oup的比值。例如，对于普通的卷积层，在结构搜索空间中的该层的输入通道数量和输出通道数量分别为16和32，而在元神经网络中该层输入保留通道数量和输出保留通道数量分别为12和24，则通道编码参数的参数值为16/12、32/24等，或者通道编码参数还可以用其他格式来表示。在一实施例中，通道编码参数包括该层输入保留通道数量c'_inp和输出保留通道数量c'_oup、以及结构搜索空间中的该层的输入通道数量c_inp和输出通道数量据c_oup即可，不一定是比值的形式。

由于结构搜索空间中，全连接层的输入通道数量和输出通道数量相同，因此，元神经网络中的全连接层(对应于图3中对应行的最后一个框，该全连接层与参数生成器中的全连接层不同)对应的通道编码参数为该全连接层的输入保留通道数量与结构搜索空间中的该全连接层的输入通道数量的比值，或者全连接层的输出保留通道数据与结构搜索空间中的该全连接层的输出通道数量的比值。在一实施例中，通道编码参数包括全连接层的输入保留通道数量、结构搜索空间中的该全连接层的输入保留通道数量即可，无需用比值的形式。

如图2所示为本申请实施例提供的一种元神经网络的训练示意图。在图2中，以结构搜索空间为全卷积神经网络为例时所构建的元神经网络的训练示意图。其中，每层中的通道编码即指的是通道编码参数。每层中的通道编码参数之后有两个全连接层，该两个全连接层即为参数生成器，即每层中有一个参数生成器。在训练之前，每层的参数生成器之后对应的是该层的预设网络单元，由于是全卷积神经网络，对应的，每层的预设网络单元都为卷积层。如图2中的第一层，分别为通道编码参数、参数生成器和第一个卷积层。需要注意的是，元神经网络中的每层的卷积层的顺序与结构搜索空间中的全卷积神经网络的每层的卷积层的顺序一致。在训练的过程中，由于需要对卷积层执行Reshape操作和Crop操作，所以得到的卷积层_1、卷积层_2、……、卷积层_n(图2中的最后一列)即构成一个第一子网络结构，后文中会对训练过程进行详细介绍。

如图3所示为本申请实施例提供的另一种元神经网络的训练示意图。其中，结构搜索空间中分别包括第一卷积层、第二卷积层、第三卷积层、全连接层等四层。例如，第一层中包括通道编码参数、参数生成器(即两个全连接层)和第一卷积层，第二层中包括通道编码参数、参数生成器和第二卷积层，第四层中包括通道编码参数、参数生成器和全连接层，需要注意的是，该全连接层与结构搜索空间中的全连接层一致，该全连接层并不是参数生成器中的全连接层。其中，元神经网络中的每层的预设网络单元的顺序与结构搜索空间中的网络单元的顺序一致。其中，在训练的过程中，由于需要对卷积层执行Reshape操作和Crop操作，对全连接层(非参数生成器中的全连接层)要进行Crop操作，所以得到的卷积层_1、卷积层_2、卷积层_3、全连接层_1(图3中的最后一列)即构成一个第一子网络结构。

在构建了元学习方式所对应的元神经网络之后，根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数，将具有网络参数的元神经网络作为最终的元神经网络。

其中，如图4所示，所述根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数的步骤，包括如下步骤。

201，确定一组第一裁剪比例，根据第一裁剪比例对元神经网络中的多个预设网络单元进行裁剪处理，以生成第一子网络结构。

其中第一裁剪比例中的“第一”是为了与后文中的提到的“第二”进行区分，这里可以把“第一”去掉来进行理解。一组第一裁剪比例中包括元神经网络中每一层的裁剪比例，每一层的剪裁比例即为元神经网络每层的通道编码参数的参数值；或者也可以为先确定元神经网络每层的通道编码参数的参数值，将多层通道编码参数的参数值作为一组第一裁剪比例。根据每一层的裁剪比例可确定每一层的输入保留通道数量和输出保留通道数量。

需要注意的是，本申请实施例中的剪裁比例等都是未约减的值，例如，16/32、24/56等。同时需要注意的是，前一层的输出保留通道数量与后一层的输入保留通道数量需保持一致。

其中，在训练构建的元神经网络的过程中，采用随机生成网络结构的方式，该网络结构即为第一子网络结构，来对所构建的元神经网络进行训练。

对应地，对于训练数据集中的每一个batch，随机确定每层通道编码参数的参数值，即该组裁剪比例对应的比值/比例是随机确定的，根据该组随机裁剪比例对所构建的元神经网络中的多个预设网络单元进行裁剪处理，以得到一个第一子网络结构。

需要注意的是，一组第一裁剪比例确定一个第一子网络结构。每个第一子网络结构中包括多个子网络单元，每个子网络单元是结构搜索空间中的相应网络单元的子集或全集。

例如，若结构搜索空间中第一层卷积层的输入通道数量为1、输出通道数量为16，第二层卷积层的输入通道数量为16、输出通道数量为32，第三层卷积层的输入通道数量为32、输出通道数量为64，全连接层的输入通道数量为64、输出通道数量为64，批量归一化层的输入通道数量为64，输出通道数量为64。进行随机裁剪之后生成的第一子网络结构的第一层卷积层的输入保留通道数量为1、输出保留通道数量可以为1至16中的任意一个值如为12，第二层卷积层的输入保留通道数量为12、输出保留通道数量可以为12至28中的任意一个值如为24，第三层卷积层的输入保留通道数量为24、输出保留通道数量可以24至56中的任意一个值如为56，全连接层的输入保留通道数量为56、输出保留通道数量也为56，批量归一化层的输入保留通道数量为56、输出保留通道数量也为56。

202，将训练数据集输入至第一子网络结构中。

其中，可以取训练数据集中的一个batch的训练样本输入至第一子网络结构中。其中若训练数据集中的数据为样本特征，则直接将样本特征输入至构建的元神经网络中，若训练数据集中的数据为训练样本，则需要将训练样本进行特征提取，以得到每个训练样本所对应的样本特征，再将样本特征输入至构建的元神经网络中。

203，从参数生成器的参数中截取与第一裁剪比例对应的参数，以得到第一子网络结构的网络参数。

首先，需要生成参数生成器的参数，再从参数生成器的参数中截取与第一裁剪比例对应的参数，将截取的参数作为第一子网络结构的网络参数。

其中，参数生成器的参数可以根据元神经网络中该层的原始参数来确定。

其中，当元神经网络该层对应的是卷积层时，参数生成器根据卷积层的原始参数和卷积核大小生成参数，即参数生成器中的第二个全连接层的输出维度为

其中，w和h为卷积层的卷积核的宽度和高，

表示卷积层原始的输入通道数量和输出通道数量。将参数生成器中的第二个全连接层生成的参数维度转换为

再根据卷积层对应的第一裁剪比例确定输入保留通道数量和输出保留通道数量，从参数生成器中的第二个全连接层生成的参数中提取与输入保留通道和/或输出保留通道数量的对应参数，赋予第一子网络结构对应卷积层的卷积核。

例如，卷积层的原始参数包括原始的输入通道数量16、输出通道数量32和卷积核的大小3*3，利用参数生成器对训练数据集进行处理，以得到参数生成器的输出参数，该输出参数为288(根据32*3*3计算得到)，该输出参数为二维参数，因此首先需要将二维参数映射为卷积层的参数，即图2和图3中的Reshape操作，根据输出通道数量和卷积核的大小来进行Reshape操作，得到32个权重，每个权重对应为3*3。对应卷积层来说，Reshape操作将参数处理为[channels,w,h]，其中，channels即为参数生成器输出通道数量。根据该卷积层对应的第一裁剪比例确定输入保留通道为16、输出保留通道数量也为16，对Reshape操作得到的参数进行Crop处理，即裁剪处理，以得到第一子网络结构对应卷积层的权重，即从Reshape操作中得到的32个权重中进行Crop处理以得到前16个权重，将前16个权重作为第一子网络结构对应的卷积层的权重/网络参数，对应的可表示为[c'_inp,c'_oup,w,h]。

其中，当元神经网络该层对应的是全连接层(结构搜索空间中的全连接层，与参数生成器中的全连接层不同)时，参数生成器的输出参数根据该全连接层的原始参数来确定，即参数生成器中的第二个全连接层的输出维度为

其中，

表示该全连接层原始的输入通道数量和输出通道数量。再根据该全连接层对应的第一裁剪比例确定输入保留通道数量和输出保留通道数量，从参数生成器中的第二个全连接层生成的参数中提取与输入保留通道和/或输出保留通道数量的对应参数，赋予第一子网络结构对应的全连接层，作为第一子网络结构对应的全连接层的网络参数，可表示为[n'_inp,n'_oup]。需要注意的是，当元神经网络该层对应的是全连接层时，只需要进行Crop操作，不进行Reshape操作。

204，利用具有网络参数的第一子网络结构对训练数据集进行处理，以得到目标任务的第一损失值。

具体地，在第一子网络结构的每一层中接收到参数生成器传入的该层的网络参数后，利用该层对输入特征进行处理，并将处理得到的特征传入下一层，作为下一层的输入特征。

例如，上文中从Reshape操作中得到的32个权重中进行Crop处理以得到前16个权重，将前16个权重作为第一子网络结构对应的卷积层的权重/网络参数之后，利用该16个权重对特征图进行处理，以输出16个通道的特征图，将该特征图传入下一层，作为下一层的输入特征。

如图2所示，在卷积层_1对特征图进行特征处理之后，得到的结果传入卷积层_2中，卷积层_2进行特征处理后，将得到的结果传入卷积层_3中，依次前向传播，得到卷积层_n的处理结果，根据卷积层_n的处理结果计算第一损失值，如图2中的Loss。

205，根据第一损失值更新参数生成器的参数。

在反向传播(Backward)的过程中，利用第一损失值来更新参数生成器的参数。

206，确定是否满足训练停止条件。

其中，训练停止条件可以是训练达到预设的轮数，还可以是损失值低于预设损失值，还可以为其他的训练停止条件。

若满足训练停止条件，则执行步骤207，否则，接着执行步骤202，即执行确定一组第一裁剪比例的步骤。

207，停止训练，将参数生成器中的参数作为元神经网络的网络参数。

该实施例中的目的是为了得到元神经网络中的参数生成器中的参数，以得到具有网络参数的元神经网络。

其中，对于同一个卷积层，由于第一裁剪比例的不同，每次前向传播所得到的该卷积层的通道数量可能不同，例如，第一次前向传播时有16个通道数量，第二次前向传播时有12个通道数量，第三次前向传播时有32个通道数量等。

需要注意的是，虽然所构建的元神经网络包括参数生成器和结构搜索空间，但是由于每组第一裁剪比例是随机生成的，因此，每次生成的第一子网络结构是不相同的，本申请实施例中巧妙的利用第一裁剪比例对元神经网络的结构搜索空间进行裁剪，得到多个不同第一子网络结构，该多个不同第一子网络结构相当于现有技术中的多个相似任务；且在确定第一子网络结构的网络参数时，根据Reshape操作和/或Crop操作，可以快速便捷的得到第一子网络结构的网络参数，从而实现对多个不同第一子网络结构进行训练，以得到元神经网络的网络参数。同时需要注意的是，本申请实施例中对多个不同第一子网络结构进行训练时所使用的训练数据集是相同的，与现有技术的多个相似任务使用不同训练数据集不同。

在得到元神经网络之后，利用元神经网络生成结构搜索空间中的具有网络参数的多个不同第二子网络结构的网络参数，以得到多个不同第二子网络结构。

其中，所述利用元神经网络生成结构搜索空间中的具有网络参数的多个不同第二子网络结构的网络参数，以得到多个不同第二子网络结构的步骤，包括：根据多组不同的第二裁剪比例从元神经网络中确定多个不同第二子网络结构；针对每个第二子网络结构，从元神经网络的参数生成器中截取与对应第二裁剪比例匹配的参数，以得到每个第二子网络结构的网络参数，最终得到具有网络参数的多个不同第二子网络结构。

其中，若结构搜索空间中包括批量归一化层，虽然批量归一化层的参数数量由紧挨着的卷积层/全连接层的通道数量确定，但是在生成具有网络参数的多个不同第二子网络结构中，批量归一化层的参数可能会不太准确，因此，在后续操作中可能要重新进行调整，后文中将会涉及到这部分的内容。

其中，对于每一组第二裁剪比例，从元神经网络的结构搜索空间中确定一个第二子网络结构，同时从元神经网络的参数生成器中截取与对应第二裁剪比例匹配的参数，以得到第二子网络结构的网络参数，如此执行多次，以得到具有网络参数的多个不同第二子网络结构。具体地确定第二子网络结构和截取参数生成器的参数与上文中类似，请参看上文中的描述，在此不再赘述。

其中，元神经网络为了得到多个不同第一子网络结构的超参而存在的神经网络结构，但是本申请实施例中巧妙的利用结构搜索空间来构建元神经网络，并利用裁剪比例(第一裁剪比例)来得到结构搜索空间中的多个不同第一子网络结构，同时在训练得到元神经网络的网络参数之后，再次利用裁剪比例(第二裁剪比例)来得到结构搜索空间中的具有网络参数的多个不同第二子网络结构，本申请实施例中巧妙的设计元神经网络，使得通过在一个元神经网络上，利用不同裁剪比例既能学习到多个不同第一神经网络所对应的超参，同时利用该元神经网络得到多个具有网络参数的多个不同第二子网络结构，使得多个不同第二子网络结构中已经学习了多个不同第一子网络结构中的信息。

本申请实施例中的具有网络参数的多个不同第二子网络结构即为候选网络结构。由于通过元学习的方式对不同第一子网络结构进行训练，以得到元神经网络，再根据元神经网络得到多个不同第二子网络结构，由于在训练得到元神经网络的过程中学习过多个第一子网络结构，因此根据元神经网络生成的多个第二子网络结构更具有针对性，更准确，进一步使得最终得到的目标任务的网络模型更准确。

104，利用验证数据集对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定目标任务的最优子网络结构。

对具有网络参数的多个不同第二子网络结构进行网络结构搜索的方法可以有很多种，例如，可采用进化算法、退火算法、蚁群算法和粒子群算法等进行网络结构搜索。其中，网络结构搜索的限制条件可以为网络的参数量，或者为其他的限制条件，或者理解为目标任务的评价指标可以为网络的参数量或者为其他的评价指标，对应地，基于目标任务的评价指标，利用验证数据集对具有网络参数的多个不同第二子网络结构进行性能评估，进而进行网络结构搜索，以确定目标任务的最优子网络结构。

本申请实施例中以进化算法为例来进行说明。

其中，进化算法通常有一个初始种群，种群中的个体与环境交互后获得适应程度，即个体对于当前环境的适应度，然后进行进化。进化后，适应度第的个体会被淘汰，适应度高的个体会被留下来。留下来适应度高的个体会进行杂交和变异行为，部分个体之间进行杂交产生新的个体，交换一部分特征后生成新的个体，称为杂交行为；一部分个体会发生变异，即一部分特征会发生改变，采用这种方法来寻找最优网络结构。

在网络结构搜索中，个体为第二子网络结构的各个层的保留通道数量或者保留通道比例，以保留通道数量为例，个体可以编码为

其中，

为该第二子网络结构第n层保留通道数量，对于全连接层则为该层所保留的节点数，适应度则为第二子网络结构在目标任务上的损失值。

其中，如图5所示，上述步骤104包括如下步骤，具体请结合图6来理解。

301，将验证数据集输入到具有网络参数的多个不同第二子网络结构中进行验证处理，以得到多个不同第二子网络结构对应的多个损失值。

其中，输入多个不同第二子网络结构中的为验证数据集中的多个验证样本的样本特征。将多个验证样本的样本特征输入到多个不同第二子网络结构中，基于目标任务的评价指标，对多个不同第二子网络结构进行验证处理，以得到多个不同第二子网络结构对应的多个损失值，其中，一个第二子网络结构对应一个损失值。

302，将多个损失值进行排序，并设置多个损失值的淘汰阈值。

将多个损失值进行排序，如按照从小到大的顺序进行排序。淘汰阈值可根据需淘汰的第二子网络结构的数量来确定，例如第二子网络结构的数量为32个，需要淘汰18个，则将多个损失值按照从小到大排序后根据前18的损失值来确定淘汰阈值。每一轮淘汰时，需要淘汰的第二子网络结构的数量可以不相同，也可以相同，对应地，由于淘汰阈值根据每次多个损失值排序后的结果来确定，因此，每一轮淘汰时所设置的淘汰阈值不相同。

303，将损失值在淘汰阈值以下的候选第二子网络结构进行杂交和变异，以得到多个新的第二子网络结构，将得到的多个新的第二子网络结构和候选第二子网络结构一起作为下一代迭代的多个不同第二子网络结构。

损失值在淘汰阈值以上的第二子网络结构，其对应的损失值较大，意味着对应的第二子网络结构的效果不好，需要淘汰，而损失值在淘汰阈值以下的第二子网络结构其是较优的第二子网络结构，需要保留，将损失值在淘汰阈值以下的第二子网络结构作为候选第二子网络结构，对候选第二子网络结构进行杂交和变异处理，以得到多个新的第二子网络结构。

其中，杂交处理是指交换两个网络结构之间的同一位置的数据，变异处理是指改变一个网络结构中的一些数据。以子网络结构为三层为例，第一个子网络结构每层保留的通道数量分别为：10、12、15，第二个子网络结构每层保留的通道数量分别为：5、8、15，将第一个子网络结构的12和第二个子网络结构同一位置上的8替换，则为杂交，将第一个子网络结构中随机挑选5个数丢掉，再随机生成5个数，则为变异。

如图6所示，对候选第二子网络结构进行杂交和变异处理之后，利用得到的多个新的第二子网络结构来更新多个第二子网络结构。具体地，将多个新的第二子网络结构和候选第二子网络结构一起作为下一代迭代的多个不同第二子网络结构。例如，第二子网络结构的数量为36个，根据验证数据集淘汰18个第二子网络结构，然后通过杂交和变异生成另外18个新的第二子网络结构，得到36个第二子网络结构，再根据验证数据集对该36个子网络进行淘汰、杂交和变异等。

进行杂交和变异处理的目的是：增加号样本的多样性。

304，确定是否达到迭代终止条件。

迭代终止条件可以是迭代的轮数，还可以是其他的迭代终止条件。

若达到迭代终止条件，则执行步骤305，若未达到迭代终止条件，则接着执行301，即接着进行下一代的迭代。

305，停止迭代，将损失值最小的目标第二子网络结构作为目标任务的最优子网络结构。

该实施例中以进化算法为例来描述如何从多个不同第二子网络结构中得到目标任务的最优子网络结构。

需要注意的是，若结构搜索空间中包括批量归一化层，则得到的第二子网络结构中也包括批量归一化层，对应地，在步骤301之前还包括301a。

301a，利用训练数据集中的部分训练数据对具有网络参数的多个不同第二子网络结构中的批量归一化层进行参数调整，以得到参数调整之后的多个不同第二子网络结构。

由于在生成第二子网络结构的过程中，参数生成器并不能生成批量归一化层的参数，因此批量归一化层的参数可能不准确，在此处需要先对批量归一化层进行参数调整，如图6所示。其中，部分训练数据指的是部分训练样本的样本特征，利用部分训练样本的样本特征对多个不同第二子网络结构中的批量归一化层进行参数调整，以得到参数调整之后的多个不同第二子网络结构。由于只需要特征批量归一化层参数，参数量较少，因此，只需要少量样本特征即可实现，且占用的时间也较少。

上文中的元学习方式的训练为单任务一次性训练，训练的目的是为了解耦网络结构与网络参数之间的关系。即通过元学习方式虽然得到了子网络结构的网络参数，但该网络参数只是为了得到最优子网络结构的需要，在得到最优子网络结构之后，还需要单独对最优子网络结构进行训练，以得到真实可用的网络参数。

元神经网络得到的是粗糙的网络参数，是为了得到最优子网络结构，当得到最优子网络结构之后，训练时是初始化进行训练的。

105，利用训练数据集对最优子网络结构进行训练，以得到目标任务所对应的网络模型。

进行训练的方式可采用任一种训练的方式。

在一情况下，步骤105包括：利用训练数据集对最优子网络结构和结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数；将具有网络参数的最优子网络结构作为目标任务所对应的网络模型。该实施例中，使用蒸馏训练且是协同蒸馏训练的方式来对最优子网络结构进行训练。其中，协同蒸馏训练指的是同时训练最优子网络结构和结构搜索空间对应的网络结构。

需要注意的是，现有技术中，一般是训练好大网络，再利用大网络来训练小网络，但本申请实施例中是协同蒸馏训练，将大网络结构和小网络一起训练，即结构搜索空间的大网络结构(大网络或者大网络结构)和最优子网络结构(小网络或者小网络结构)一起训练，在训练的过程中，小网络的参数学习大网络的参数，即在小网络的训练过程中同时可以学习到大网络对不同样本特征的分类规律，提高训练效率的同时，提高小网络的准确性。

对应的，上述利用训练数据集对最优子网络结构和结构搜索空间对应的网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数的步骤，包括：利用训练数据集对结构搜索空间对应的大网络结构进行训练，并在大网络结构的训练损失值小于训练损失值阈值时，利用训练数据集对大网络结构和最优子网络结构进行蒸馏训练；利用蒸馏训练的蒸馏损失值来更新最优子网络结构的网络参数，同时利用大网络结构的训练损失值来更新大网络结构的网络参数，如此训练以得到最优子网络结构的网络参数。

如图7所示为本申请实施例提供的协同蒸馏训练的示意图。大网络结构在经过m层处理后，得到prediction1，根据prediction1和训练样本的真实标签label计算大网络结构的训练损失值LOSS_大，根据大网络结构的训练损失值LOSS_大来更新大网络结构的网络参数。小网络结构在经过m层处理后，得到prediction2，根据prediction2和大网络结构得到的prediction1计算第一蒸馏损失值Loss₁，同时根据prediction2和训练样本的真实标签label计算第二蒸馏损失值Loss₂，根据第一蒸馏损失值和第二蒸馏损失值确定蒸馏训练的蒸馏损失值LOSS_小，如利用加权求和的方式来确定蒸馏损失值，利用蒸馏损失值来更新小网络结构的网络参数。其中，虽然大网络结构和小网络结构都为m层，但每一层都所对应的通道数量不同，小网络结构每一层的通道数量小于或者等于大网络结构对应层的通道数量。需要注意的是，现有技术中的训练好的大网络结构和待训练的小网络结构的层数可能不同。

当蒸馏损失值达到对应训练停止条件如蒸馏损失值收敛，则停止小网络结构的训练，当大网络结构的训练损失值达到相应条件如训练损失值收敛，则停止大网络结构的训练，还可以是其他训练停止条件。

上述方法实施例中将元学习方式结合在结构搜索空间中，以从结构搜索空间中得到多个第二子网络结构，由于元学习的方式可以对不同第一子网络结构进行训练，以得到元神经网络，再根据元神经网络得到多个第二子网络结构，因此，使得通过元学习方式所确定的第二子网络结构更具有针对性，更准确；此外，在对多个第二子网络结构进行网络结构搜索，得到最优子网络结构后，再进行训练，相对现有的对网络评估时，需要先对所有候选神经网络进行训练之后再进行评估，再选出最优子网络结构来说，本申请实施例由于只需训练最优子网络结构，从而减少了训练时间，提高了得到网络模型的效率。

图8是本申请实施例提供的网络模型训练方法的另一流程示意图，图9是本申请实施例提供的网络模型训练方法的简易流程示意图。请结合图9来理解图8中的步骤，具体地，图8所示方法包括如下步骤。

401，获取目标任务的样本数据集，该样本数据集包括训练数据集和验证数据集。

402，获取网络模型的结构搜索空间，该结构搜索空间是多个网络单元堆叠而构成的网络结构。

403，根据训练数据集，利用元学习方式学习结构搜索空间中的多个不同第一子网络结构，以得到元学习方式所对应的元神经网络，并利用元神经网络生成结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是结构搜索空间中的相应网络单元的子集或全集。

404，根据验证数据集，利用进化算法对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定目标任务的最优子网络结构。

405，将最优子网络结构和结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网参数。

以上步骤401至步骤405请参看上文中对应步骤的描述，在此不再赘述。

406，利用训练数据集对训练得到的最优子网络结构进行对比学习处理，以更新最优子网络结构的网络参数，得到目标任务所对应的网络模型。

对比学习的目的是拉近类内距离，拉远类外距离，采用此方式来优化子网络结构的网络参数。在对比学习中将上文中训练得到的结构搜索空间对应的大网络结构和最优子网络结构分别作为编码器

和编码器

下文中会涉及。

在一实施例中，步骤406，包括如下步骤：根据训练数据集构建无监督对比学习和有监督对比学习的正样例集和负样例集；将无监督对比学习的正样例集和负样例集输入至最优子网络结构和结构搜索空间对应的大网络结构中进行对比学习，以得到无监督对比学习的无监督对比损失值；将有监督对比学习的正样例集和负样例集输入至最优子网络结构和结构搜索空间对应的大网络结构中进行对比学习，以得到有监督对比学习的有监督对比损失值；将无监督对比损失值和有监督对比损失值进行相加处理，以得到总体损失值；根据总体损失值更新最优子网络结构的网络参数，将更新后的子网络结构作为目标任务所对应的网络模型。

首先，根据训练数据集构建正样例和负样例集。包括无监督对比学习的正样例集和负样例集，以及有监督对比学习的正样例集和负样例集。

对于无监督学习，正样例和负样例根据输入训练样本进行划分，如果是同一个训练样本分别输入至大网络结构和小网络结构中进行编码，则将该分别输入至大网络结构中的训练样本和输入至小网络结构中的训练样本作为一对正样例；否则，将训练样本1输入至大网络结构，训练样本2输入至小网络结构，将训练样本1和训练样本2作为一对负样例，即若输入不是同一个样本，则将两个样本作为一对负样例。

对于有监督学习，将训练样本1同时输入至大网络结构和小网络结构中进行编码，分别输出大网络结构的标签(如label)和小网络结构的标签，若两个标签是一致的，那么是正样例，否则，是负样例。

通过上述方法可得到无监督对比学习的正样例集和有监督对比学习的负样例集。下面以正样例集中的一个目标样例

和候选样例集

为例来进行说明如何得到有监督对比损失值。

对于目标样例

输入至

中进行编码，以得到编码结果为

将候选样例集，输入至

中进行编码，以得到编码结果为

其中，

和

为无监督对比学习中的正样例

经过大网络结构和小网络结构进行编码之后得到的编码结果。

根据编码结果来确定无监督对比学习的对比损失值，如下公式(1)所示。

其中，sim(A,B)表示A和B之间的相似度，P(i)为候选样例集中的正样例的编码结果的集合，N为所有候选样例集的编码结果集合，||P(i)||为候选正样例数量，t为对比学习中的参数(temperature parameter)。如当前以目标样例

为例，如此，L_i即为L₀，L₀为计算出来的一个对比损失值，将所有候选正样例都按照公式(1)进行计算，以得到多个对比损失值，将多个对比损失值相加，以得到无监督对比学习的无监督对比损失值。

按照类似的方式得到有监督对比学习的有监督对比损失值。

得到无监督对比损失值和有监督对比损失值之后，将无监督对比损失值和有监督对比损失值进行相加处理，以得到总体损失值，根据总体损失值更新最优子网络结构的网络参数，以得到目标任务所对应的网络模型。

该实施例中，既使用了无监督对比学习，又实用了有监督对比学习，使得最后的总体损失值包含的信息更多，即监督信息更多，利用总体损失值来更新最优子网络结构的网络参数，使得网络参数更准确，效果更好。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

为便于更好的实施本申请实施例的网络模型训练方法，本申请实施例还提供一种网络模型训练装置。请参阅图10，图10为本申请实施例提供的网络模型训练装置的结构示意图。该网络模型训练装置500可以包括第一获取模块501，第二获取模块502，元学习模块503，第一确定模块504，第二确定模块505以及训练模块506。

第一获取模块501，用于获取目标任务的样本数据集，所述样本数据集包括训练数据集和验证数据集。

第二获取模块502，用于获取网络模型的结构搜索空间，所述结构搜索空间是多个网络单元堆叠而构成的网络结构。

元学习模块503，用于根据所述训练数据集，利用元学习方式学习所述结构搜索空间中的多个不同第一子网络结构，以得到所述元学习方式所对应的元神经网络。

第一确定模块504，用于利用所述元神经网络生成所述结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是所述结构搜索空间中的相应网络单元的子集或全集。

第二确定模块505，用于利用所述验证数据集对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构。

训练模块506，用于利用训练数据集对最优子网络结构进行训练，以得到所述目标任务所对应的网络模型。

在一实施例中，元学习模块503，具体用于构建所述元学习方式所对应的元神经网络，所述元神经网络中包括所述结构搜索空间；根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数，将具有网络参数的元神经网络作为最终的元神经网络。

在一实施例中，所述元神经网络中还包括参数生成器，所述元神经网络的所述结构搜索空间中的除去批量归一化层的其他每个网络单元均配置一个参数生成器；元学习模块503，在执行根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数的步骤时，具体执行：确定一组第一裁剪比例，根据所述第一裁剪比例对所述元神经网络的所述结构搜索空间中的多个预设网络单元进行裁剪处理，以生成第一子网络结构；将所述训练数据集输入至所述第一子网络结构中；从所述参数生成器的参数中截取与所述第一裁剪比例对应的参数，以得到所述第一子网络结构的网络参数；利用具有所述网络参数的所述第一子网络结构对所述训练数据集进行处理，以得到所述目标任务的第一损失值；根据所述第一损失值更新所述参数生成器的参数，接着再执行确定一组第一裁剪比例的步骤，直至满足训练停止条件时停止训练，将所述参数生成器中的参数作为所述元神经网络的网络参数。

在一实施例中，第一确定模块504，具体用于根据多组不同的第二裁剪比例从所述元神经网络中确定多个不同第二子网络结构；针对每个第二子网络结构，从所述元神经网络的参数生成器中截取与对应第二裁剪比例匹配的参数，以得到每个第二子网络结构的网络参数，最终得到具有网络参数的多个不同第二子网络结构。

在一实施例中，训练模块506，具体用于利用所述训练数据集对所述最优子网络结构和所述结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数；将具有网络参数的最优子网络结构作为所述目标任务所对应的网络模型。

在一实施例中，训练模块506，在执行利用所述训练数据集对所述最优子网络结构和所述结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数的步骤时，具体执行：利用所述训练数据集对所述结构搜索空间对应的大网络结构进行训练，并在所述大网络结构的训练损失值小于训练损失值阈值时，利用所述训练数据集对所述大网络结构和所述最优子网络结构进行蒸馏训练；利用蒸馏训练的蒸馏损失值来更新所述最优子网络结构的网络参数，同时利用所述大网络结构的训练损失值来更新所述大网络结构的网络参数，如此训练以得到所述最优子网络结构的网络参数。

在一实施例中，第二确定模块505，具体用于将所述验证数据集输入到具有网络参数的多个不同第二子网络结构中进行处理，以得到多个不同第二子网络结构对应的多个损失值；将多个损失值进行排序，并设置多个损失值的淘汰阈值；将损失值在所述淘汰阈值以下的候选第二子网络结构进行杂交和变异，以得到多个新的第二子网络结构，将得到的多个新的第二子网络结构和候选第二子网络结构一起作为下一代迭代的多个不同第二子网络结构，直至达到迭代终止条件，将损失值最小的目标第二子网络结构作为所述目标任务的最优子网络结构。

在一实施例中，第二确定模块505，在用于将所述验证数据集输入多个不同第二子网络结构中进行处理之前，还用于利用所述训练数据集中的部分训练数据对多个不同第二子网络结构中的批量归一化层进行参数调整，以得到参数调整之后的多个不同第二子网络结构。

在一实施例中，如图10所示，所述装置还包括对比学习模块507。对比学习模块507，用于利用所述训练数据集对训练得到的最优子网络结构进行对比学习处理，以更新所述最优子网络结构的网络参数，得到所述目标任务所对应的网络模型。

在一实施例中，对比学习模块507，具体用于根据所述训练数据集构建无监督对比学习和有监督对比学习的正样例集和负样例集；将所述无监督对比学习的正样例集和负样例集输入至最优子网络结构和所述结构搜索空间对应的大网络结构中进行对比学习，以得到无监督对比学习的无监督对比损失值；将所述有监督对比学习的正样例集和负样例集输入至最优子网络结构和所述结构搜索空间对应的大网络结构中进行对比学习，以得到有监督对比学习的有监督对比损失值；将所述无监督对比损失值和所述有监督对比损失值进行相加处理，以得到总体损失值；根据所述总体损失值更新所述最优子网络结构的网络参数，以得到所述目标任务所对应的网络模型。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器。如图11所示，图11为本申请实施例提供的计算机设备的结构示意图。该计算机设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中，处理器601与存储器602电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器601是计算机设备600的控制中心，利用各种接口和线路连接整个计算机设备600的各个部分，通过运行或加载存储在存储器602内的软件程序(计算机程序)和/或模块，以及调用存储在存储器602内的数据，执行计算机设备600的各种功能和处理数据，从而对计算机设备600进行整体监控。

在本申请实施例中，计算机设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

获取目标任务的样本数据集，所述样本数据集包括训练数据集和验证数据集；获取网络模型的结构搜索空间，所述结构搜索空间是多个网络单元堆叠而构成的网络结构；根据所述训练数据集，利用元学习方式学习所述结构搜索空间中的多个不同第一子网络结构，以得到所述元学习方式所对应的元神经网络，并利用所述元神经网络生成所述结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构，其中，每个第一子网络结构和每个第二子网络结构中均包括多个子网络单元，每个子网络单元是所述结构搜索空间中的相应网络单元的子集或全集；利用所述验证数据集对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构；利用训练数据集对所述最优子网络结构进行训练，以得到所述目标任务所对应的网络模型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图11所示，计算机设备600还包括：触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607。其中，处理器601分别与触控显示屏603、射频电路604、音频电路605、输入单元606以及电源607电性连接。本领域技术人员可以理解，图11中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏603可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏603可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器601以确定触摸事件的类型，随后处理器601根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏603而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏603也可以作为输入单元606的一部分实现输入功能。

在本申请实施例中，该触控显示屏603用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路604可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路605可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路605可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路605接收后转换为音频数据，再将音频数据输出处理器601处理后，经射频电路604以发送给比如另一计算机设备，或者将音频数据输出至存储器602以便进一步处理。音频电路605还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元606可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源607用于给计算机设备600的各个部件供电。可选的，电源607可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源607还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图11中未示出，计算机设备600还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种网络模型训练方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种网络模型训练方法中的步骤，因此，可以实现本申请实施例所提供的任一种网络模型训练方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种网络模型训练方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种网络模型训练方法，其特征在于，包括：

利用所述验证数据集对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构；

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练数据集，利用元学习方式学习所述结构搜索空间中的不同第一子网络结构，以得到所述元学习方式所对应的元神经网络的步骤，包括：

构建所述元学习方式所对应的元神经网络，所述元神经网络中包括所述结构搜索空间；

根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数，将具有网络参数的元神经网络作为最终的元神经网络。

3.根据权利要求2所述的方法，其特征在于，所述元神经网络中还包括参数生成器，所述元神经网络的所述结构搜索空间中的除去批量归一化层的其他每个网络单元均配置一个参数生成器；

所述根据多组不同的第一裁剪比例从所述元神经网络的所述结构搜索空间中确定多个不同第一子网络结构，并根据所述训练数据集，利用所述元学习方式对所述多个不同第一子网络结构进行训练，得到所述元神经网络的网络参数的步骤，包括：

确定一组第一裁剪比例，根据所述第一裁剪比例对所述元神经网络的所述结构搜索空间中的多个预设网络单元进行裁剪处理，以生成第一子网络结构；

将所述训练数据集输入至所述第一子网络结构中；

从所述参数生成器的参数中截取与所述第一裁剪比例对应的参数，以得到所述第一子网络结构的网络参数；

利用具有所述网络参数的所述第一子网络结构对所述训练数据集进行处理，以得到所述目标任务的第一损失值；

根据所述第一损失值更新所述参数生成器的参数，接着再执行确定一组第一裁剪比例的步骤，直至满足训练停止条件时停止训练，将所述参数生成器中的参数作为所述元神经网络的网络参数。

4.根据权利要求2所述的方法，其特征在于，所述元神经网络的每一层包括参数生成器，所述利用所述元神经网络生成所述结构搜索空间中的多个不同第二子网络结构的网络参数，以得到具有网络参数的多个不同第二子网络结构的步骤，包括：

根据多组不同的第二裁剪比例从所述元神经网络中确定多个不同第二子网络结构；

针对每个第二子网络结构，从所述元神经网络的参数生成器中截取与对应第二裁剪比例匹配的参数，以得到每个第二子网络结构的网络参数，最终得到具有网络参数的多个不同第二子网络结构。

5.根据权利要求1所述的方法，其特征在于，所述利用训练数据集对最优子网络结构进行训练，以得到所述目标任务所对应的网络模型的步骤，包括：

利用所述训练数据集对所述最优子网络结构和所述结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数；

将具有网络参数的最优子网络结构作为所述目标任务所对应的网络模型。

6.根据权利要求5所述的方法，其特征在于，所述利用所述训练数据集对所述最优子网络结构和所述结构搜索空间对应的大网络结构进行协同蒸馏训练，以得到最优子网络结构的网络参数的步骤，包括：

利用所述训练数据集对所述结构搜索空间对应的大网络结构进行训练，并在所述大网络结构的训练损失值小于训练损失值阈值时，利用所述训练数据集对所述大网络结构和所述最优子网络结构进行蒸馏训练；

利用蒸馏训练的蒸馏损失值来更新所述最优子网络结构的网络参数，同时利用所述大网络结构的训练损失值来更新所述大网络结构的网络参数，如此训练以得到所述最优子网络结构的网络参数。

7.根据权利要求1所述的方法，其特征在于，所述利用所述验证数据集对具有网络参数的多个不同第二子网络结构进行网络结构搜索，以确定所述目标任务的最优子网络结构的步骤，包括：

将所述验证数据集输入到具有网络参数的多个不同第二子网络结构中进行处理，以得到多个不同第二子网络结构对应的多个损失值；

将多个损失值进行排序，并设置多个损失值的淘汰阈值；

将损失值在所述淘汰阈值以下的候选第二子网络结构进行杂交和变异，以得到多个新的第二子网络结构，将得到的多个新的第二子网络结构和候选第二子网络结构一起作为下一代迭代的多个不同第二子网络结构，直至达到迭代终止条件，将损失值最小的目标第二子网络结构作为所述目标任务的最优子网络结构。

8.根据权利要求7所述的方法，其特征在于，在将所述验证数据集输入多个不同第二子网络结构中进行处理的步骤之前，还包括：

利用所述训练数据集中的部分训练数据对多个不同第二子网络结构中的批量归一化层进行参数调整，以得到参数调整之后的多个不同第二子网络结构。

9.根据权利要求1所述的方法，其特征在于，在所述利用训练数据集对最优子网络结构进行训练的步骤之后，还包括：

利用所述训练数据集对训练得到的最优子网络结构进行对比学习处理，以更新所述最优子网络结构的网络参数，得到所述目标任务所对应的网络模型。

10.根据权利要求9所述的方法，其特征在于，所述利用所述训练数据集对训练得到的最优子网络结构进行对比学习处理，以更新所述最优子网络结构的网络参数，得到所述目标任务所对应的网络模型的步骤，包括：

根据所述训练数据集构建无监督对比学习和有监督对比学习的正样例集和负样例集；

将所述无监督对比学习的正样例集和负样例集输入至最优子网络结构和所述结构搜索空间对应的大网络结构中进行对比学习，以得到无监督对比学习的无监督对比损失值；

将所述有监督对比学习的正样例集和负样例集输入至最优子网络结构和所述结构搜索空间对应的大网络结构中进行对比学习，以得到有监督对比学习的有监督对比损失值；

将所述无监督对比损失值和所述有监督对比损失值进行相加处理，以得到总体损失值；

根据所述总体损失值更新所述最优子网络结构的网络参数，以得到所述目标任务所对应的网络模型。

11.一种网络模型训练装置，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-10任一项所述的网络模型训练方法中的步骤。

13.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，执行如权利要求1-10任一项所述的网络模型训练方法中的步骤。