CN111126564B

CN111126564B - 一种神经网络结构搜索方法、装置及设备

Info

Publication number: CN111126564B
Application number: CN201911185743.XA
Authority: CN
Inventors: 侯广健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-08-08
Anticipated expiration: 2039-11-27
Also published as: CN111126564A

Abstract

本申请实施例公开了一种神经网络结构搜索方法、装置及设备，在获取到超参数搜索模型输出的一组超参数之后，先利用该组超参数中的结构超参数，搜索得到当前神经网络基本单元结构，以便根据该当前神经网络基本单元结构建立第一神经网络模型；再利用该组超参数中的训练超参数对第一神经网络模型进行训练，生成第二神经网络模型，并对该第二神经网络模型进行测试得到评估结果，以便基于该评估结果更新超参数搜索模型并重新返回执行获取超参数搜索模型输出的一组超参数的步骤。如此循环搜索直至达到预设停止条件时停止搜索，并将当前的第二神经网络模型确定为目标神经网络模型。如此能够有效地提高神经网络模型的任务执行效果。

Description

一种神经网络结构搜索方法、装置及设备

技术领域

本申请涉及自动化机器学习技术领域，具体涉及一种神经网络结构搜索方法、装置及设备。

背景技术

神经网络模型是实现人工智能的优选方案，一般神经网络模型的构建流程可以包括：(1)对训练验证数据集进行预处理(其中，预处理可以包括数据增强、数据平衡、数据归一化等处理手段)；(2)搭建神经网络模型的网络结构(也就是，确定神经网络模型中节点数、节点操作类型以及节点连接关系等结构信息)；(3)利用训练验证数据集对神经网络模型进行训练及验证，以便获得最终的神经网络模型。

其中，因神经网络模型的网络结构(简称为神经网络结构)对该神经网络模型的任务执行效果有着决定性的作用，使得神经网络结构的恰当与否能够严重影响神经网络模型的任务执行效果，如此使得神经网络结构的搭建过程在构建神经网络模型的过程中占据有重要地位。然而，因神经网络结构是由大量超参数决定的，且大量超参数的确定过程是十分艰难的，使得神经网络结构的搜索过程是困难的。基于此可知，如何实现神经网络结构的搜索是一件亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种神经网络结构搜索方法、装置及设备，能够快速地搜索到恰当的神经网络结构，提高了神经网络结构的搜索效率。

为解决上述问题，本申请实施例提供的技术方案如下：

一种神经网络结构搜索方法，所述方法包括：

获取超参数搜索模型输出的一组超参数，所述超参数包括神经网络基本单元的结构超参数以及神经网络模型的训练超参数；

利用所述结构超参数，搜索得到当前神经网络基本单元结构；

根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型；

对所述第二神经网络模型进行测试，得到评估结果；

根据所述评估结果更新所述超参数搜索模型，重新返回执行所述获取超参数搜索模型输出的一组超参数以及后续步骤，直到达到预设停止条件，将当前的第二神经网络模型确定为目标神经网络模型。

在一种可能的实现方式中，所述利用所述结构超参数，搜索得到当前神经网络基本单元结构，包括：

利用所述结构超参数，迭代第一预设次数搜索得到当前神经网络基本单元结构；

所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型，包括：

根据所述当前神经网络基本单元结构建立第一神经网络模型；

利用所述训练超参数，迭代第二预设次数对所述第一神经网络模型进行训练，生成第二神经网络模型。

在一种可能的实现方式中，所述利用所述结构超参数，迭代第一预设次数搜索得到当前神经网络基本单元结构，包括：

利用所述结构超参数以及第一数据集，迭代第一预设次数搜索得到当前神经网络基本单元结构；

所述利用所述训练超参数，迭代第二预设次数对所述第一神经网络模型进行训练，生成第二神经网络模型，包括：

利用所述训练超参数以及第二数据集，迭代第二预设次数对所述第一神经网络模型进行训练，生成第二神经网络模型；所述第一数据集以及所述第二数据集均为全部数据集合中的一部分且第一数据集以及所述第二数据集包括的数据不同。

在一种可能的实现方式中，第i次执行所述根据所述评估结果更新所述超参数搜索模型，与第i+1次执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型并行执行，i为正整数。

在一种可能的实现方式中，所述获取超参数搜索模型输出的一组超参数，包括：

当第1次或第2次执行所述获取超参数搜索模型输出的一组超参数时，获取初始超参数搜索模型输出的一组超参数；

当第i+2次执行所述获取超参数搜索模型输出的一组超参数时，获取第i次执行所述根据所述评估结果更新所述超参数搜索模型后更新的超参数搜索模型输出的一组超参数。

在一种可能的实现方式中，利用中央处理器执行所述根据所述评估结果更新所述超参数搜索模型，利用图形处理器执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型。

在一种可能的实现方式中，所述方法还包括：

预先确定所述超参数搜索模型的超参数搜索空间，所述超参数搜索空间包括各个所述超参数的选择范围。

在一种可能的实现方式中，所述结构超参数包括神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型以及所述神经网络基本单元的数量中的一个或多个；所述训练超参数包括学习率、批大小以及优化器类型中的一个或多个。

一种神经网络结构搜索装置，所述装置包括：

超参获取单元，用于获取超参数搜索模型输出的一组超参数，所述超参数包括神经网络基本单元的结构超参数以及神经网络模型的训练超参数；

结构搜索单元，用于利用所述结构超参数，搜索得到当前神经网络基本单元结构；

模型生成单元，用于根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型；

模型评估单元，用于对所述第二神经网络模型进行测试，得到评估结果；

模型更新单元，用于根据所述评估结果更新所述超参数搜索模型，由所述超参获取单元重新执行所述获取超参数搜索模型输出的一组超参数，直到达到预设停止条件，将当前的第二神经网络模型确定为目标神经网络模型。

一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的神经网络结构搜索方法。

一种神经网络结构搜索设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的神经网络结构搜索方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中，在获取到超参数搜索模型输出的一组超参数之后，先利用该组超参数中的结构超参数，搜索得到当前神经网络基本单元结构，以便根据该当前神经网络基本单元结构建立第一神经网络模型；再利用该组超参数中的训练超参数对第一神经网络模型进行训练，生成第二神经网络模型，并对该第二神经网络模型进行测试得到评估结果，以便基于该评估结果更新超参数搜索模型并重新返回执行获取超参数搜索模型输出的一组超参数的步骤。如此循环搜索直至达到预设停止条件时停止搜索，并将当前的第二神经网络模型确定为目标神经网络模型。

其中，因用于构建神经网络模型的超参数是由超参数搜索模型输出的，无需人为提供超参数，如此提高了超参数的客观性，从而能够有效地减少人为因素对神经网络模型造成的不良影响，从而能够有效地提高神经网络模型的任务执行效果。另外，因超参数包括神经网络基本单元的结构超参数以及神经网络模型的训练超参数，使得结构超参数和训练超参数是同时进行搜索及更新的，从而使得结构超参数和训练超参数能够在同一个搜索过程中获取，能够有效地提高神经网络模型中超参数的获取效率，从而能够有效地提高神经网络结构的搜索效率。

附图说明

图1为本申请实施例提供的神经网络模型与神经网络基本单元的关系示意图；

图2(a)-(c)为本申请实施例提供的神经网络基本单元中节点之间的连接关系示意图；

图3为本申请实施例提供的神经网络基本单元示意图；

图4为本申请实施例提供的一种神经网络结构搜索方法的流程图；

图5为本申请实施例提供的超参数搜索模型的更新过程和第二神经网络模型的构建过程并行执行示意图；

图6为本申请实施例提供的基于超参数搜索模型的更新过程和第二神经网络模型的构建过程并行执行时的超参数获取示意图；

图7为本申请实施例提供的一种神经网络结构搜索方法的示意图；

图8为本申请实施例提供的一种神经网络结构搜索装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对神经网络结构搜索研究中发现，可以借助当前神经网络基本单元实现神经网络结构的搜索。但是在该实现方式中需要先由技术人员预先提供神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型以及神经网络基本单元的数量等结构超参数，以便后续能够基于这些结构超参数搜索得到神经网络基本单元结构，并基于该神经网络基本单元结构搭建神经网络结构。然而，因不同的应用场景(例如，图像分类、人脸识别、语音翻译等应用场景)需要选用具有不同结构超参数的神经网络基本单元进行神经网络结构的搭建，使得技术人员需要根据每种应用场景来设定适用于该应用场景的神经网络基本单元的结构超参数，从而增加了技术人员的工作量。另外，因人为设定的基本单元的结构超参数主观性较大，使得基于不同技术人员设定的结构超参数所搭建的神经网络结构不同，从而使得该神经网络结构所具有的任务执行效果也不同，如此导致技术人员的技术经验严重影响了神经网络结构的搭建效果。

基于此，本申请实施例提供了一种神经网络结构搜索方法，具体为：在获取到超参数搜索模型输出的一组超参数之后，先利用该组超参数中的结构超参数，搜索得到当前神经网络基本单元结构，以便根据该当前神经网络基本单元结构建立第一神经网络模型；再利用该组超参数中的训练超参数对第一神经网络模型进行训练，生成第二神经网络模型，并对该第二神经网络模型进行测试得到评估结果，以便基于该评估结果更新超参数搜索模型并重新返回执行获取超参数搜索模型输出的一组超参数的步骤。如此循环搜索直至达到预设停止条件时停止搜索，并将当前的第二神经网络模型确定为目标神经网络模型。即，本实施例能够根据超参数搜索模型输出的结构超参数，实现神经网络基本单元结构的搜索以及神经网络模型的网络结构的搜索，无需人为提供结构超参数，提高了结构超参数的客观性，从而能够有效地避免人为因素对神经网络结构的搭建效果造成的不良影响。

为了便于理解和解释本申请实施例提供的神经网络结构搜索方法，下面先结合图1对“神经网络模型”、“神经网络基本单元”和“节点”之间的关系进行介绍。

神经网络模型可以由多个神经网络基本单元堆叠形成，而且神经网络基本单元可以由多个节点构成(如图1所示)。

另外，神经网络基本单元结构可以根据神经网络基本单元中节点数量、节点之间的连接关系以及每个节点的操作类型等结构超参数确定。

其中，神经网络基本单元中节点数量是指神经网络基本单元所包括的节点个数，例如，神经网络基本单元中节点数量可以为12。

节点之间的连接关系是指神经网络基本单元中节点之间的连接关系，例如，节点之间的连接关系可以是图2(a)-(c)中所示的任一种连接关系。需要说明的是，本实施例不限定节点之间的连接关系，且节点之间的连接关系可以根据应用场景具体确定。

神经网络基本单元中节点的操作类型用于表示该节点可以进行的操作，例如，神经网络基本单元中节点的操作类型为以下四种类型中的任一种类型：(1)3×3，5×5，卷积；(2)3×3，5×5，分离卷积；(3)3×3，5×5，膨胀卷积；(4)最大，平均池化。

基于上述内容，下面结合示例对“神经网络模型”、“神经网络基本单元”和“节点”之间的关系进行说明。

作为示例，神经网络模型可以由4个神经网络基本单元堆叠形成，每个神经网络基本单元均包括第一节点、第二节点、第三节点和第四节点，且该4个节点按照图3所示的连接关系进行连接，且第一节点的操作类型为3×3，5×5，卷积；第二节点的操作类型为3×3，5×5，分离卷积；第三节点的操作类型为3×3，5×5，膨胀卷积；第四节点的操作类型为最大，平均池化。

为了便于理解本申请，下面结合附图对本申请实施例提供的一种神经网络结构搜索方法进行说明。

参见图4所示，该图为本申请实施例提供的一种神经网络结构搜索方法的流程图，该方法包括步骤S401-S408：

S401：获取超参数搜索模型输出的一组超参数。

超参数搜索模型用于生成构建神经网络模型时所需的超参数，而且超参数搜索模型一次可以生成并输出一组超参数或多组超参数。

超参数是指构建神经网络模型所需的参数，且超参数可以包括神经网络基本单元的结构超参数以及神经网络模型的训练超参数。

结构超参数是指用于搭建神经网络模型结构时所需的参数，且结构超参数可以包括神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型以及神经网络基本单元的数量中的一个或多个。其中，神经网络基本单元的数量是指神经网络模型所包括的神经网络基本单元的个数。

训练超参数是指用于训练神经网络模型时所需的参数，且训练超参数可以包括学习率、批大小以及优化器类型中的一个或多个。

基于上述内容可知，在本申请实施例中，当超参数搜索模型输出一组超参数或多组超参数之后，可以从超参数搜索模型所输出的超参数中选择一组超参数，以便后续能够基于该组被选择的超参数进行神经网络模型的构建。例如，当超参数搜索模型输出第一组超参数、第二组超参数和第三组超参数之后，可以从这三组超参数中选择第二组超参数，以便后续能够基于第二组超参数进行神经网络模型的构建。

需要说明的是，本申请实施例不限定“获取超参数搜索模型输出的一组超参数”的具体实施方式，也就是不限定“从超参数搜索模型所输出的超参数中选择一组超参数”的具体实施方式，可以随机选择一组超参数，也可以按照预设选择规则(例如，择优选择规则)选择一组超参数等。

S402：利用结构超参数，搜索得到当前神经网络基本单元结构。

本申请实施例中，在获取到结构超参数之后，可以根据结构超参数中的神经网络基本单元中节点数量和/或神经网络基本单元中节点的操作类型，搜索得到当前神经网络基本单元结构。需要说明的是，本申请实施例不限定基本单元结构的搜索方法，例如，步骤S402可以使用强化学习、梯度下降、高效神经网络结构搜索(Efficient NeuralArchitecture Search，ENAS)、可微架构搜索(Differentiable Architecture Search，Darts)等算法对当前神经网络基本单元结构进行搜索。

另外，为了提高当前神经网络基本单元结构的搜索效率，从而提高神经网络结构的搜索效率，本申请实施例还提供了步骤S402的其他具体实施方式，其技术详情请见下文。

S403：根据当前神经网络基本单元结构建立第一神经网络模型。

本申请实施例中，在搜索到当前神经网络基本单元结构之后，可以根据当前神经网络基本单元结构建立第一神经网络模型，该过程具体为：将当前神经网络基本单元按照结构超参数中的神经网络基本单元的数量进行堆叠，得到第一神经网络模型。

S404：利用训练超参数对第一神经网络模型进行训练，生成第二神经网络模型。

本申请实施例中，在获取到依据结构超参数建立的第一神经网络模型之后，可以继续依据训练超参数对该第一神经网络模型进行训练，生成第二神经网络模型，以便后续能够基于第二神经网络模型的评估结果来更新超参数搜索模型。

另外，为了提高第二神经网络模型的训练效率，从而提高神经网络结构的搜索效率，本申请实施例还提供了步骤S404的具体实施方式，其技术详情请见下文。

S405：对第二神经网络模型进行测试，得到评估结果。

本申请实施例中，在获取到第二神经网络模型之后，可以对第二神经网络模型进行测试，得到评估结果，以便后续能够基于该评估结果确定当前的第二神经网络模型的任务执行效果以及更新超参数搜索模型。

S406：判断是否达到预设停止条件，若是，则执行步骤S408；若否，则执行步骤S407。

预设停止条件可以预先设定，尤其可以根据应用场景设定。另外，本申请实施例不限定停止条件，例如，预设停止条件可以为第二神经网络模型对应的评估结果达到第一阈值；也可以为超参数搜索模型的更新次数达到第二阈值；还可以为第二神经网络模型对应的评估结果达到第一阈值或超参数搜索模型的更新次数达到第二阈值。

S407：根据评估结果更新超参数搜索模型，重新返回执行步骤S401。

本申请实施例中，在确定未达到预设停止条件时，则可以根据第二神经网络模型对应的评估结果更新超参数搜索模型，使得更新后的超参数搜索模型能够输出更恰当的超参数。

S408：将当前的第二神经网络模型确定为目标神经网络模型。

本申请实施例中，在确定达到预设停止条件时，则可以确定当前的第二神经网络模型已具有较好地任务执行效果，此时可以将当前的第二神经网络模型确定为目标神经网络模型，以便后续能够利用目标神经网络模型执行相应任务。

基于上述内容可知，在本申请实施例提供的神经网络结构搜索方法中，在获取到超参数搜索模型输出的一组超参数之后，先利用该组超参数中的结构超参数，搜索得到当前神经网络基本单元结构，以便根据该当前神经网络基本单元结构建立第一神经网络模型；再利用该组超参数中的训练超参数对第一神经网络模型进行训练，生成第二神经网络模型，并对该第二神经网络模型进行测试得到评估结果，以便基于该评估结果更新超参数搜索模型并重新返回执行获取超参数搜索模型输出的一组超参数的步骤。如此循环搜索直至达到预设停止条件时停止搜索，并将当前的第二神经网络模型确定为目标神经网络模型。

另外，因执行一次完整的神经网络基本单元结构的搜索过程需要进行较多次数的迭代搜索，使得神经网络基本单元结构的搜索过程耗时较长，从而导致神经网络结构的搜索过程耗时较长。

基于此，在本申请实施例一种可能的实施方式中，为了降低神经网络基本单元结构的搜索耗时，本申请实施例提供了一种搜索当前神经网络基本单元结构(也就是步骤S402)的具体实施方式，具体可以为：利用结构超参数，迭代第一预设次数搜索得到当前神经网络基本单元结构。

其中，第一预设次数可以预先设定，尤其可以根据应用场景、结构搜索效率及结构搜索准确率等设定。例如，第一预设次数可以为20。

在该实施方式中，在获取到结构超参数之后，可以基于结构超参数进行第一预设次数迭代搜索后即可确定当前神经网络基本单元结构，无需进行一次完整的单元结构搜索。也就是，在搜索当前神经网络基本单元结构时，只需依据搜索次数是否达到第一预设次数来确定是否停止单元结构搜索的过程，无需考虑搜索到的当前神经网络基本单元结构是否达到最优。其中，因第一预设次数通常较低，使得只需迭代搜索较少次数即可确定当前神经网络基本单元结构，如此能够有效地提高神经网络基本单元结构的搜索效率，从而能够有效地提高神经网络结构的搜索效率。

另外，因执行一次完整的第一神经网络模型的训练过程需要进行较多次数的迭代训练，使得第一神经网络模型的训练过程耗时较长，从而导致神经网络结构的搜索过程耗时较长。

基于此，在本申请实施例一种可能的实施方式中，为了降低第一神经网络模型的训练耗时，还提供了一种训练第一神经网络模型(也就是步骤S404)的具体实施方式，具体可以为：利用训练超参数，迭代第二预设次数对第一神经网络模型进行训练，生成第二神经网络模型。

其中，第二预设次数可以预先设定，尤其可以根据应用场景、模型训练效率及模型任务执行效果设定。例如，第二预设次数可以为30。

在该实施方式中，在获取到第一神经网络模型之后，可以基于训练超参数对第一神经网络进行第二预设次数的迭代训练后即可得到第二神经网络模型，无需对第一神经网络进行一次完整的训练过程。也就是，在训练第一神经网络模型时，只需依据第一神经网络模型的训练次数是否达到第二预设次数来确定是否停止模型训练过程，无需考虑训练得到的第二神经网络模型的任务执行效果是否达到最高。其中，因第二预设次数通常较低，使得只需迭代训练较少次数即可生成第二神经网络模型，如此能够有效地提高第二神经网络模型的生成效率，从而能够有效地提高神经网络结构的搜索效率。

另外，为了进一步提高神经网络结构的搜索效率，可以只使用数据集合中的部分数据进行当前神经网络基本单元结构的搜索，并使用数据集合中的另一部分数据进行第一神经网络模型的训练。基于此，在本申请实施例一种可能的实施方式中，提供了一种搜索当前神经网络基本单元结构(也就是步骤S402)的具体实施方式和训练第一神经网络模型(也就是步骤S404)的具体实施方式，其具体内容如下：

(1)搜索当前神经网络基本单元结构的具体实施方式为：利用结构超参数以及第一数据集，迭代第一预设次数搜索得到当前神经网络基本单元结构。

(2)训练第一神经网络模型的具体实施方式为：利用所述训练超参数以及第二数据集，迭代第二预设次数对所述第一神经网络模型进行训练，生成第二神经网络模型。

(3)第一数据集以及第二数据集均为全部数据集合中的一部分且第一数据集以及第二数据集包括的数据不同。

基于上述内容可知，在该实施方式中，可以利用全部数据集合中的第一数据集对当前神经网络基本单元结构进行第一预设次数的迭代搜索，得到当前神经网络基本单元结构；而且，还可以利用全部数据集合中的第二数据集对第一神经网络模型进行迭代训练，得到第二神经网络模型。

在该实施方式中，因只需利用全部数据集合中的部分数据来搜索当前神经网络基本单元结构，无需利用全部数据集合中的全部数据，如此能够减少搜索一轮当前神经网络基本单元结构的耗时，从而能够减少确定当前神经网络基本单元结构的耗时，从而能够减少神经网络结构搜索的耗时。同样，因只需利用全部数据集合中的部分数据来训练第一神经网络模型，无需利用全部数据集合中的全部数据，如此能够减少训练一轮第一神经网络模型的耗时，从而能够减少生成第二神经网络模型的耗时，从而能够减少神经网络结构搜索的耗时。

在本申请实施例一种可能的实施方式中，为了进一步提高神经网络结构的搜索效率，可以并行执行超参数搜索模型的更新过程和第二神经网络模型的构建过程，其具体为：第i次执行根据评估结果更新超参数搜索模型，与第i+1次执行根据当前神经网络基本单元结构建立第一神经网络模型，利用训练超参数对第一神经网络模型进行训练，生成第二神经网络模型并行执行，i为正整数。

需要说明的是，为了便于描述，本文将“根据评估结果更新所述超参数搜索模型”简称为超参数搜索模型的更新过程，且“根据当前神经网络基本单元结构建立第一神经网络模型，利用训练超参数对第一神经网络模型进行训练，生成第二神经网络模型”简称为第二神经网络模型的构建过程。

基于上述内容可知，如图5所示，在该实施方式中，第1次超参数搜索模型的更新过程与第2次第二神经网络模型的构建过程是并行执行的，第2次超参数搜索模型的更新过程与第3次第二神经网络模型的构建过程是并行执行的，……(以此类推)。也就是说，在神经网络结构的第一轮搜索过程中无需执行超参数搜索模型的更新过程，而是从神经网络结构的第二轮搜索过程开始才需要执行超参数搜索模型的更新过程。需要说明的是，在图5中，n表示重复搜索神经网络结构的总轮数，且n为正整数。

通过上述描述可知，因超参数搜索模型的更新过程和第二神经网络模型的构建过程是并行处理的，使得在执行超参数搜索模型的更新过程和第二神经网络模型的构建过程时只需消耗一个执行过程的运行时间，如此节省了一个执行过程的运行时间，有效地降低了执行一轮神经网络结构搜索的耗时，从而有效地降低了神经网络结构搜索的耗时，从而提高了神经网络结构的搜索效率。

基于上述实施方式，在本申请实施例一种可能的实施方式中，还提供了一种获取超参数的具体实施方式，其具体可以为：当第1次或第2次执行获取超参数搜索模型输出的一组超参数时，获取初始超参数搜索模型输出的一组超参数；当第i+2次执行获取超参数搜索模型输出的一组超参数时，获取第i次执行根据评估结果更新所述超参数搜索模型后更新的超参数搜索模型输出的一组超参数。需要说明的是，为了便于描述，本文中将“获取超参数搜索模型输出的一组超参数”简称为超参数获取过程。

基于上述内容可知，如图6所示，在该实施方式中，当第1次执行超参数获取过程时，可以获取初始超参数搜索模型输出的一组超参数；当第2次执行超参数获取过程时，可以获取初始超参数搜索模型输出的另一组超参数；当第3次执行超参数获取过程时，可以获取第1次更新后的超参数搜索模型输出的一组超参数；当第4次执行超参数获取过程时，可以获取第2次更新后的超参数搜索模型输出的一组超参数；当第5次执行超参数获取过程时，可以获取第3次更新后的超参数搜索模型输出的一组超参数；……(以此类推)。

另外，在本申请实施例一种可能的实施方式中，可以利用中央处理器执行根据评估结果更新超参数搜索模型，利用图形处理器执行根据当前神经网络基本单元结构建立第一神经网络模型，利用训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型。

也就是，可以利用中央处理器执行超参数搜索模型的更新过程的所有实施方式，且可以利用图形处理器执行第二神经网络模型的构建过程的所有实施方式。其中，因超参数搜索模型的更新过程和第二神经网络模型的构建过程可以由两个不同的处理器执行的，使得超参数搜索模型的更新过程和第二神经网络模型的构建过程可以实现并行处理，从而能够有效地降低了执行一轮神经网络结构搜索的耗时，提高了神经网络结构的搜索效率。

另外，为了能够提高神经网络结构的搜索效率，可以预先设定超参数的搜索范围，以便后续能够在该搜索范围内确定超参数，从而能够避免漫无目的的进行超参数搜索。基于此，在本申请实施例一种可能的实施方式中，神经网络结构搜索方法除了包括上述步骤以外，还可以包括：预先确定超参数搜索模型的超参数搜索空间。

其中，超参数搜索空间包括各个超参数的选择范围。作为示例，当超参数包括神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型、神经网络基本单元的数量、学习率、批大小以及优化器类型时，则超参数搜索空间可以包括神经网络基本单元中节点数量的可选范围(例如，可选范围为[2，20])、神经网络基本单元中节点的操作类型的可选范围(例如，可选范围为：①3×3，5×5，卷积；②3×3，5×5，分离卷积；③3×3，5×5，膨胀卷积；④最大，平均池化)、神经网络基本单元的数量的可选范围(例如，可选范围为[5，10])、学习率的可选范围(例如，[30％，50％])、批大小的可选范围以及优化器类型的可选范围。

基于上述内容可知，在该实施方式中，可以预先确定超参数搜索模型的超参数搜索空间，以便后续超参数搜索模型能够在该超参数搜索空间内搜索超参数，使得超参数搜索模型生成超参数时需要受到超参数搜索空间的约束。其中，因最优超参数存在于超参数搜索空间中，且超参数搜索空间较小，使得约束于超参数搜索空间的超参数搜索模型只需在较小的超参数搜索空间中进行超参数搜索即可，无需考虑超参数搜索空间之外的超参数，减少了超参数搜索模型的搜索范围，从而提高了超参数搜索模型的搜索效率，进而提高了神经网络结构的搜索效率。

基于上述提供的神经网络结构搜索方法的具体实施方式，为了便于理解和解释，下面将以图7所示的神经网络结构搜索方法为例进行整体介绍。

在图7所示的神经网络结构搜索方法中，先确定超参数搜索模型的超参数搜索空间，再基于超参搜索空间进行神经网络结构搜索。其中，基于超参搜索空间进行神经网络结构搜索的具体过程可以为：

(1)超参数搜索模型基于超参搜索空间生成一组或多组超参数，并将生成的超参数输出给结构搜索模型。

(2)结构搜索模型基于输入的一组超参数中的结构超参数以及第一数据集，迭代第一预设次数搜索得到当前神经网络基本单元结构，并利用当前神经网络基本单元结构建立第一神经网络模型。

(3)结构搜索模型基于输入的一组超参数中的训练超参数以及第二数据集，迭代第二预设次数对第一神经网络模型进行训练，生成第二神经网络模型，并对第二神经网络模型进行测试，得到评估结果。

(4)当未达到预设停止条件时，根据评估结果更新超参数搜索模型，重新返回执行(2)-(4)；然而，当达到预设停止条件时，则将当前的第二神经网络模型确定为目标神经网络模型。

以上为本申请实施例提供的神经网络结构搜索方法的一种实施方式，因该实施方式能够实现上文中提及的所有有益效果，为了简要起见，在此不再赘述。

基于上述方法实施例提供的神经网络结构搜索方法，本申请实施例还提供了一种神经网络结构搜索装置，下面将结合附图对该神经网络结构搜索装置进行说明。

参见图8，该图为本申请实施例提供的一种神经网络结构搜索装置的结构示意图。如图8所示，该神经网络结构搜索装置包括：

超参获取单元801，用于获取超参数搜索模型输出的一组超参数，所述超参数包括神经网络基本单元的结构超参数以及神经网络模型的训练超参数；

结构搜索单元802，用于利用所述结构超参数，搜索得到当前神经网络基本单元结构；

模型生成单元803，用于根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型；

模型评估单元804，用于对所述第二神经网络模型进行测试，得到评估结果；

模型更新单元805，用于根据所述评估结果更新所述超参数搜索模型，由所述超参获取单元801重新执行所述获取超参数搜索模型输出的一组超参数，直到达到预设停止条件，将当前的第二神经网络模型确定为目标神经网络模型。

在本申请实施例一种可能的实现方式中，所述结构搜索单元802，具体用于：

所述模型生成单元803，包括：

模型建立子单元，用于根据所述当前神经网络基本单元结构建立第一神经网络模型；

模型训练子单元，用于利用所述训练超参数，迭代第二预设次数对所述第一神经网络模型进行训练，生成第二神经网络模型。

所述模型训练子单元，具体用于：

在本申请实施例一种可能的实现方式中，所述模型更新单元805第i次执行所述根据所述评估结果更新所述超参数搜索模型，与所述模型生成单元803第i+1次执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型并行执行，i为正整数。

在本申请实施例一种可能的实现方式中，所述超参获取单元801，具体用于：

当第i+2次执行所述获取超参数搜索模型输出的一组超参数时，获取所述模型更新单元805第i次执行所述根据所述评估结果更新所述超参数搜索模型后更新的超参数搜索模型输出的一组超参数。

在本申请实施例一种可能的实现方式中，所述模型更新单元805装设于中央处理器，且所述模型生成单元803装设于图形处理器。

在本申请实施例一种可能的实现方式中，所述装置还包括：

空间确定单元，用于预先确定所述超参数搜索模型的超参数搜索空间，所述超参数搜索空间包括各个所述超参数的选择范围。

在本申请实施例一种可能的实现方式中，所述结构超参数包括神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型以及所述神经网络基本单元的数量中的一个或多个；所述训练超参数包括学习率、批大小以及优化器类型中的一个或多个。

另外，本申请实施例还提供了一种神经网络结构搜索设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所述的神经网络结构搜索方法的任一实施方式。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上述实施例所述的神经网络结构搜索方法的任一实施方式。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种神经网络结构搜索方法，其特征在于，所述方法包括：

对所述第二神经网络模型进行测试，得到评估结果；

根据所述评估结果更新所述超参数搜索模型，重新返回执行所述获取超参数搜索模型输出的一组超参数以及后续步骤，直到达到预设停止条件，将当前的第二神经网络模型确定为目标神经网络模型；

第i次执行所述根据所述评估结果更新所述超参数搜索模型，与第i+1次执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型并行执行，i为正整数；

利用中央处理器执行所述根据所述评估结果更新所述超参数搜索模型，利用图形处理器执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述结构超参数，搜索得到当前神经网络基本单元结构，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用所述结构超参数，迭代第一预设次数搜索得到当前神经网络基本单元结构，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取超参数搜索模型输出的一组超参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述结构超参数包括神经网络基本单元中节点数量、神经网络基本单元中节点的操作类型以及所述神经网络基本单元的数量中的一个或多个；所述训练超参数包括学习率、批大小以及优化器类型中的一个或多个。

7.一种神经网络结构搜索装置，其特征在于，所述装置包括：

模型更新单元，用于根据所述评估结果更新所述超参数搜索模型，由所述超参获取单元重新执行所述获取超参数搜索模型输出的一组超参数，直到达到预设停止条件，将当前的第二神经网络模型确定为目标神经网络模型；

所述模型更新单元第i次执行所述根据所述评估结果更新所述超参数搜索模型，与所述模型生成单元第i+1次执行所述根据所述当前神经网络基本单元结构建立第一神经网络模型，利用所述训练超参数对所述第一神经网络模型进行训练，生成第二神经网络模型并行执行，i为正整数；

所述模型更新单元装设于中央处理器，且所述模型生成单元装设于图形处理器。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-6任一项所述的神经网络结构搜索方法。

9.一种神经网络结构搜索设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6任一项所述的神经网络结构搜索方法。