CN115222046A

CN115222046A - 神经网络结构搜索方法、装置、电子设备及存储介质

Info

Publication number: CN115222046A
Application number: CN202210873271.2A
Authority: CN
Inventors: 胡中源; 薛羽
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-21

Abstract

本申请提供了神经网络结构搜索方法、装置、电子设备及存储介质；所述方法包括：获取代理模型和网络结构数据集；基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；确定目标搜索空间；基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果，如此，能够智能地对神经网络结构进行搜索，提高了神经网络结构搜索的效率。

Description

神经网络结构搜索方法、装置、电子设备及存储介质

技术领域

本申请涉及自动化机器学习技术，尤其涉及神经网络结构搜索方法、装置、电子设备及存储介质。

背景技术

随着自动化机器学习技术的快速发展和广泛使用，人们使用自动化机器学习技术进行神经网络结构搜索逐渐成为自动化机器学习技术应用的主流。但是在神经网络结构搜索的过程中，现有的神经网络结构搜索方法是通过人工搜索出性能优异的神经网络结构，或通过强化学习的方式搜索出性能优异神经网络结构，或通过进化计算的方式搜索出性能优异神经网络结构。现有的神经网络结构搜索方法的搜索耗时较长且搜索精度较低，人们更希望减少神经网络结构搜索的时间，提高神经网络结构搜索的效率。

因此，如何智能地对神经网络结构进行搜索，以提高神经网络结构搜索的效率是一直追求的目标。

发明内容

本申请实施例提供了神经网络结构搜索方法、装置、电子设备及存储介质。

根据本申请的第一方面，提供了一种神经网络结构搜索方法，该方法包括：获取代理模型和网络结构数据集；基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；确定目标搜索空间；基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

根据本申请一实施方式，所述网络结构数据集包括网络结构和所述网络结构对应的预测性能；所述目标搜索空间包括N个深度神经网络结构；其中，N为正整数。

根据本申请一实施方式，所述基于所述目标搜索空间和所述第一代理模型，确定第二代理模型，包括：响应于所述目标搜索空间相对于网络结构数据集的搜索空间更新值不满足预设的更新阈值，基于所述目标搜索空间，对所述第一代理模型进行训练，确定第二代理模型；响应于所述目标搜索空间相对于网络结构数据集的搜索空间更新值满足预设的更新阈值，将所述第一代理模型作为第二代理模型。

根据本申请一实施方式，所述基于所述目标搜索空间，对所述第一代理模型进行训练，确定第二代理模型，包括：基于所述第一代理模型，对所述目标搜索空间中的所述深度神经网络结构进行预测，确定所述深度神经网络结构对应的第一预测性能，将第一预测性能作为所述深度神经网络结构对应的适应值；响应于所述适应值满足预设的适应阈值，确定所述适应值对应的所述深度神经网络结构为待训练神经网络结构；对所述待训练神经网络结构进行训练，响应于所述待训练神经网络结构收敛，确定训练至收敛后的神经网络结构和所述训练至收敛后的神经网络结构对应的预测精度；基于所述训练至收敛后的神经网络结构和所述预测精度，训练第一代理模型，确定第二代理模型；将所述训练至收敛后的神经网络结构作为候选深度神经网络结构，并存储至所述候选深度神经网络结构集合。

根据本申请一实施方式，所述基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合，包括：基于所述第二代理模型，对所述目标搜索空间中的所述深度神经网络结构进行预测，确定所述深度神经网络结构对应的第二预测性能；响应于所述第二预测性能满足预设的第一性能阈值，确定所述第二预测性能对应的所述深度神经网络结构为子代父母；基于第一概率，对子代父母进行变异、交叉和复制，确定子代深度神经网络结构，并将子代深度神经网络结构存储至新种群；响应于所述新种群中子代深度神经网络结构的数量满足预设的数量阈值，确定所述新种群为子代网络集合，并增加迭代搜索的迭代周期次数；基于所述子代网络集合和所述迭代搜索，确定所述候选深度神经网络结构集合。

根据本申请一实施方式，所述基于所述子代网络集合和所述迭代搜索，确定所述候选深度神经网络结构集合，包括：响应于所述迭代搜索经过的迭代时间满足预设的迭代时间阈值，则将所述子代网络集合中的子代深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合；或，响应于所述迭代搜索经过的所述迭代周期次数满足预设的迭代周期次数阈值，则将所述子代网络集合中的子代深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合；或，响应于所述迭代搜索中所述深度神经网络结构的第二预测性能满足预设的第二性能阈值，则将所述第二预测性能对应的所述深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合。

根据本申请一实施方式，所述基于所述候选深度神经网络结构集合，确定所述深度神经网络结构的搜索结果，包括：确定所述候选深度神经网络结构集合中的所述候选深度神经网络结构的预测精度；响应于所述预测精度满足预设的搜索精度阈值，确定所述候选深度神经网络结构集合中所述预测精度对应的候选深度神经网络结构为所述深度神经网络结构的搜索结果。

根据本申请的第二方面，提供了一种神经网络结构搜索装置，该神经网络结构搜索装置包括：获取模块，用于获取代理模型和网络结构数据集；预训练模块，用于基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；搜索空间确定模块，用于确定目标搜索空间；代理模型确定模块，用于基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；搜索模块，用于基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；结果模块，用于基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请所述的方法。

本申请实施例的方法，获取代理模型和网络结构数据集；基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；确定目标搜索空间；基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。如此，能够智能地对神经网络结构进行搜索，提高了神经网络结构搜索的效率。

需要理解的是，本申请的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本申请的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本申请实施例提供的神经网络结构搜索方法的处理流程示意图一；

图2示出了本申请实施例提供的神经网络结构搜索方法的一种应用场景图；

图3示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集中神经元堆叠方式的示意图；

图4示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集的神经元结构的示意图；

图5示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集的神经元编码方式的示意图；

图6示出了本申请实施例提供的神经网络结构搜索方法中目标搜索空间的神经元结构的示意图；

图7示出了本申请实施例提供的神经网络结构搜索方法中目标搜索空间的神经元编码方式的示意图；

图8示出了本申请实施例提供的神经网络结构搜索方法的另一种应用场景图；

图9示出了本申请实施例提供的神经网络结构搜索方法的又一种应用场景图；

图10示出了本申请实施例提供的神经网络结构搜索方法的再一种应用场景图；

图11示出了本申请实施例提供的神经网络结构搜索装置的一种可选示意图；

图12示出了本申请实施例提供的电子设备的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例提供的神经网络结构搜索方法中的处理流程进行说明。参见图1，图1是本申请实施例提供的神经网络结构搜索方法的处理流程示意图一，将结合图1示出的步骤S101-S106进行说明。

步骤S101，获取代理模型和网络结构数据集。

在一些实施例中，代理模型可以包括卷积神经网络、循环神经网络和随机森林。代理模型还可以包括其他机器学习预测模型，本申请实施例不作限定。网络结构数据集可以包括：自制的网络结构数据集、NAS-Bench-101网络结构数据集和NAS-Bench-201网络结构数据集。NAS(Neural Architecture Search，神经结构搜索)。网络结构数据集由网络结构和网络结构数据标签组成。其中，网络结构数据标签可以包括网络结构对应的预测性能。网络结构数据集还可以由其他网络结构数据集和其他网络结构数据标签组成，本申请实施例不限定具体的网络结构数据集和网络结构数据标签。其中，网络结构可以包括深度神经网络结构信息，网络结构对应的预测性能可以包括：深度神经网络结构信息对应的预测精度。

在具体实施时，在获取代理模型和网络结构数据集之前，预先建立公用平台，在公用平台上预先训练模型，公用平台采集预先训练模型得到的深度神经网络结构信息，其中，深度神经网络结构信息包括模型结构、模型所使用的数据集、参数量、计算量、精度和训练耗费时间。整理网络结构数据集，将深度神经网络结构信息作为网络结构数据集的数据，以及将深度神经网络结构信息对应的预测精度作为网络结构数据集的数据标签。

步骤S102，基于网络结构数据集，对代理模型进行预训练，确定第一代理模型。

在一些实施例中，第一代理模型可以包括：经过预训练后的代理模型。其中，第一代理模型能够预测深度神经网络的性能。

在具体实施时，首先对网络结构数据集进行编码转换，使得网络结构数据集的编码方式与网络结构数据集的搜索空间、目标搜索空间和代理模型的输入编码方式相同。再将编码转换后的网络结构数据集输入到代理模型中，对代理模型进行预训练，将经过预训练后的代理模型作为第一代理模型。

步骤S103，确定目标搜索空间。

在一些实施例中，目标搜索空间可以包括：N个深度神经网络结构；其中，N为正整数，本申请实施例不限定具体的深度神经网络结构的数量。

在具体实施时，初始化生成N个深度神经网络结构。其中，N为正整数。

步骤S104，基于目标搜索空间和第一代理模型，确定第二代理模型。

在一些实施例中，步骤S104可以包括：步骤S104a，响应于目标搜索空间相对于网络结构数据集的搜索空间更新值不满足预设的更新阈值，基于目标搜索空间，对第一代理模型进行训练，确定第二代理模型；步骤S104b，响应于目标搜索空间相对于网络结构数据集的搜索空间更新值满足预设的更新阈值，将第一代理模型作为第二代理模型。

在一些实施例中，预设的更新阈值可以包括：目标搜索空间相对于网络结构数据集的最大搜索空间更新值。响应于目标搜索空间相对于网络结构数据集的搜索空间更新值大于或等于预设的更新阈值，则确定目标搜索空间相对于网络结构数据集的搜索空间更新值满足预设的更新阈值；响应于目标搜索空间相对于网络结构数据集的搜索空间更新值小于预设的更新阈值，则确定目标搜索空间相对于网络结构数据集的搜索空间更新值不满足预设的更新阈值。第二代理模型可以包括：基于目标搜索空间，对第一代理模型进行训练后，得到的训练后的第一代理模型。第二代理模型还可以包括第一代理模型。其中，第二代理模型能够预测深度神经网络的性能。

针对步骤S104a，在具体实施时，可以包括：响应于目标搜索空间相对于网络结构数据集的搜索空间更新值大于或等于预设的更新阈值，基于第一代理模型，对目标搜索空间中的深度神经网络结构进行预测，确定深度神经网络结构对应的第一预测性能，将第一预测性能作为深度神经网络结构对应的适应值。响应于适应值满足预设的适应阈值，确定适应值对应的深度神经网络结构为待训练神经网络结构。对待训练神经网络结构进行训练，响应于待训练神经网络结构收敛，确定训练至收敛后的神经网络结构和训练至收敛后的神经网络结构对应的预测精度；基于训练至收敛后的神经网络结构和预测精度，训练第一代理模型，确定第二代理模型。将训练至收敛后的神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

在一些实施例中，第一预测性能可以包括：基于第一代理模型预测的深度神经网络结构对应的预测精度。适应阈值可以包括：深度神经网络结构能够作为待训练神经网络结构的最小适应值。响应于适应值大于或等于预设的适应阈值，确定适应值满足预设的适应阈值；响应于适应值小于预设的适应阈值，确定适应值不满足预设的适应阈值。待训练神经网络结构可以包括：满足预设的适应阈值的适应值对应的深度神经网络结构。

在具体实施时，响应于目标搜索空间相对于网络结构数据集的搜索空间更新值大于或等于预设的更新阈值，先将目标搜索空间中的深度神经网络结构输入至第一代理模型，对深度神经网络结构进行性能预测，确定深度神经网络结构对应的预测精度，将预测精度、计算量和参数量中的一项或多项作为深度神经网络结构对应的适应值。响应于适应值大于或等于预设的适应阈值，再确定适应值对应的深度神经网络结构为待训练神经网络结构。

将待训练神经网络结构训练至收敛，确定训练至收敛后的神经网络结构和训练至收敛后的神经网络结构对应的预测精度。然后，将训练至收敛后的神经网络结构和预测精度输入至第一代理模型，对第一代理模型进行训练，将训练后的第一代理模型作为第二代理模型。最后，将训练至收敛后的神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

针对步骤S104b，在具体实施时，可以包括：响应于目标搜索空间相对于网络结构数据集的搜索空间更新值小于预设的更新阈值，直接将第一代理模型作为第二代理模型。

步骤S105，基于第二代理模型和进化算法，对目标搜索空间进行搜索，确定候选深度神经网络结构集合。

在一些实施例中，步骤S105可以包括：基于第二代理模型，对目标搜索空间中的深度神经网络结构进行预测，确定深度神经网络结构对应的第二预测性能；响应于第二预测性能满足预设的第一性能阈值，确定第二预测性能对应的深度神经网络结构为子代父母；基于第一概率，对子代父母进行变异、交叉和复制，确定子代深度神经网络结构，并将子代深度神经网络结构存储至新种群；响应于新种群中子代深度神经网络结构的数量满足预设的数量阈值，确定新种群为子代网络集合，并增加迭代搜索的迭代周期次数。基于子代网络集合，确定候选深度神经网络结构集合。

在一些实施例中，第二预测性能可以包括：基于第二代理模型预测的深度神经网络结构对应的预测精度。预设的第一性能阈值可以包括：预设的能够将第二预测性能对应的深度神经网络结构作为子代父母的最小第二预测性能。响应于第二预测性能大于或等于预设的第一性能阈值，确定第二预测性能满足预设的第一性能阈值；响应于第二预测性能小于预设的第一性能阈值，确定第二预测性能不满足预设的第一性能阈值。第一概率可以包括：预设的随机概率，本申请实施例不限定具体的概率。预设的数量阈值可以包括：预设的新种群中子代深度神经网络结构的数量。响应于新种群中子代深度神经网络结构的数量等于预设的数量阈值，确定新种群中子代深度神经网络结构的数量满足预设的数量阈值。迭代搜索可以包括：从步骤S104开始至步骤S105结束为迭代搜索的一个迭代周期。候选深度神经网络结构集合可以包括：存储候选深度神经网络结构的集合。

针对于基于子代网络集合，确定候选深度神经网络结构集合，在具体实施时，可以包括：响应于迭代搜索经过的迭代时间满足预设的迭代时间阈值，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合；或，响应于迭代搜索经过的迭代周期次数满足预设的迭代周期次数阈值，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合；或，响应于迭代搜索中深度神经网络结构的第二预测性能满足预设的第二性能阈值，则将第二预测性能对应的深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

在一些实施例中，预设的迭代时间阈值可以包括：预设的迭代搜索的迭代时长。响应于迭代搜索经过的迭代时间等于预设的迭代时间阈值，确定新种群中子代深度神经网络结构的数量满足预设的数量阈值。预设的迭代周期次数阈值可以包括：预设的迭代搜索经过的迭代周期次数。响应于迭代搜索经过的迭代周期次数等于预设的迭代周期次数阈值，确定迭代搜索经过的迭代周期次数满足预设的迭代周期次数阈值。预设的第二性能阈值可以包括：预设的能够将第二预测性能对应的深度神经网络结构作为候选深度神经网络结构的最小第二预测性能。响应于迭代搜索中深度神经网络结构的第二预测性能大于或等于预设的第二性能阈值，确定第二预测性能对应的深度神经网络结构为候选深度神经网络结构。

在具体实施时，将目标搜索空间中的深度神经网络结构输入至第二代理模型，对深度神经网络结构进行性能预测，确定深度神经网络结构对应的第二预测性能；响应于第二预测性能大于或等于预设的第一性能阈值，确定第二预测性能对应的深度神经网络结构为子代父母；以预设的随机概率，对子代父母进行变异、交叉和复制，确定子代深度神经网络结构，并将子代深度神经网络结构存储至新种群；响应于新种群中子代深度神经网络结构的数量等于预设的数量阈值，确定新种群为子代网络集合，并增加迭代搜索的迭代周期次数。响应于迭代搜索经过的迭代时间等于预设的迭代搜索的迭代时长，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合；或，响应于迭代搜索经过的迭代周期次数等于预设的迭代周期次数阈值，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合；或，响应于迭代搜索中深度神经网络结构的第二预测性能大于或等于预设的第二性能阈值，则将第二预测性能对应的深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

步骤S106，基于候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

在一些实施例中，步骤S106可以包括：步骤S106a，确定候选深度神经网络结构集合中的候选深度神经网络结构的预测精度。步骤S106b，响应于预测精度满足预设的搜索精度阈值，确定候选深度神经网络结构集合中预测精度对应的候选深度神经网络结构为深度神经网络结构的搜索结果。

在一些实施例中，预测精度可以包括：候选神经网络结构的预测准确度，预测准确度越高，则预测精度越大。预设的搜索精度阈值可以包括：预设的能够作为搜索结果的候选深度神经网络结构对应的最小预测精度。响应于预测精度大于或等于预设的搜索精度阈值，确定预测精度满足预设的搜索精度阈值。候选深度神经网络结构集合可以包括：存储经过迭代搜索得到的候选深度神经网络结构的集合。

在具体实施时，确定候选深度神经网络结构集合中的候选深度神经网络结构的预测精度。响应于预测精度大于或等于预设的搜索精度阈值，将候选深度神经网络结构集合中预测精度对应的候选深度神经网络结构作为深度神经网络结构的搜索结果。

参考图2，本申请实施例提供的神经网络结构搜索方法的一种应用场景，应用于使用代理模型对神经网络结构的性能进行评估。神经网络结构搜索是指给定一个称为搜索空间的候选神经网络结构集合，使用某种策略从候选神经网络结构集合中搜索出性能最高的神经网络结构。神经网络结构的性能基于精度和速度来度量。在具体实施时，从搜索空间中选取神经网络结构，将神经网络结构对应的编码输入到代理模型，使用代理模型对神经网络结构的性能进行评估，代理模型输出神经网络结构对应的性能。

图3示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集中神经元堆叠方式的示意图。

参考图3，本申请实施例提供的神经网络结构搜索方法中网络结构数据集中神经元堆叠方式可以包括：全连接层、平均池化层、下采样层、堆叠块3、堆叠块2、堆叠块1和卷积层。其中，堆叠块2可以包括：神经元2-3、神经元2-2和神经元2-1。箭头表示数据的传输方向，神经元2-1的输出可以作为神经元2-2的输入，神经元2-2的输出可以作为神经元2-3的输入，神经元2-3的输出可以作为下采样层的输入。目标搜索空间中神经元堆叠方式与网络结构数据集中神经元堆叠方式相同。

图4示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集的神经元结构的示意图。

参考图4，本申请实施例提供的神经网络结构搜索方法的NAS-Bench-101网络结构数据集中的cell(神经元)结构。NAS-Bench-101网络结构数据集中的cell结构中包括：节点1、节点2、节点3、节点4、节点5、节点6和节点8。节点1表示cell结构的输入；节点2表示1*1的卷积层；节点3、节点4和节点6均表示3*3的卷积层；节点5表示最大池化；节点8表示cell结构的输出。cell结构的输入可以包括：上一个cell结构的输出。

图5示出了本申请实施例提供的神经网络结构搜索方法中网络结构数据集的神经元编码方式的示意图。

参考图5，使用邻接矩阵表示NAS-Bench-101网络结构数据集中的cell结构中节点连接方式。表格纵轴表示节点1-8，表格横轴表示被连接的节点1-8。表格中的1表示存在连接，表格中的0表示不存在连接。作为示例，节点1与节点2、节点3、节点4和节点5存在连接；节点1与节点1、节点6、节点7和节点8不存在连接。其他节点的连接方式与节点1类似，在此不做赘述。

使用One-hot(独热)编码表示NAS-Bench-101网络结构数据集中的cell结构中节点类型。表格纵轴表示节点1-8，表格横轴表示节点1-8对应的类型。表格中的1表示节点对应的类型，表格中的0表示非节点对应的类型。作为示例，节点1对应的节点类型为第一类；节点2对应的节点类型为第二类；节点3和节点4对应节点类型相同均为第三类。其他节点的连接方式与节点1、节点2、节点3和节点4类似，在此不做赘述。

图6示出了本申请实施例提供的神经网络结构搜索方法中目标搜索空间的神经元结构的示意图。

参考图6，本申请实施例提供的神经网络结构搜索方法的目标搜索空间中的cell结构。目标搜索空间中的cell结构中包括：节点1、节点2、节点3、节点4、节点5、节点6、节点7和节点8。节点1表示cell结构的输入；节点2和节点4均表示3*3的深度可分离卷积；节点3表示1*1的卷积层；节点5表示最大池化；节点6表示3*3的卷积层。节点7表示平均池化；节点8表示cell结构的输出。目标搜索空间在NAS-Bench-101网络结构数据集的基础上增加平均池化层操作和3*3深度可分离卷积层操作，并增加了一个节点7。

图7示出了本申请实施例提供的神经网络结构搜索方法中目标搜索空间的神经元编码方式的示意图。

参考图7，使用邻接矩阵表示目标搜索空间中的cell结构中节点连接方式。表格纵轴表示节点1-8，表格横轴表示被连接的节点1-8。表格中的1表示存在连接，表格中的0表示不存在连接。作为示例，节点4与节点7存在连接；节点4与节点1、节点2、节点3、节点4、节点5、节点6和节点8不存在连接。其他节点的连接方式与节点4类似，在此不做赘述。

使用One-hot(独热)编码表示NAS-Bench-101网络结构数据集中的cell结构中节点类型。表格纵轴表示节点1-8，表格横轴表示节点1-8对应的类型。表格中的1表示节点对应的类型，表格中的0表示非节点对应的类型。作为示例，节点1对应的节点类型为第一类；节点2和节点4对应的节点类型为第四类；节点3对应节点类型相同为第二类。其他节点的连接方式与节点1、节点2、节点3和节点4类似，在此不做赘述。

图8示出了本申请实施例提供的神经网络结构搜索方法的另一种应用场景图。

参考图8，本申请实施例提供的神经网络结构搜索方法的另一种应用场景，应用于基于扩张卷积和LeNet-5卷积神经网络的代理模型，对神经网络结构的性能进行评估。代理模型可以包括：扩张卷积和LeNet-5卷积神经网络。其中，LeNet-5卷积神经网络的输入的结构编码的尺寸为32*32。神经网络结构的结构编码的尺寸为8*8。扩张卷积可以使神经网络结构的结构编码的尺寸扩张至32*32，以适应LeNet-5卷积神经网络的输入。在具体实施时，将神经网络结构对应的结构编码输入到代理模型的扩张卷积中，基于扩张卷积将神经网络结构的结构编码的尺寸扩张至32*32，将扩张后的神经网络结构对应的结构编码输入至LeNet-5卷积神经网络，使用LeNet-5卷积神经网络对神经网络结构的性能进行评估，代理模型输出神经网络结构对应的性能。

图9示出了本申请实施例提供的神经网络结构搜索方法的又一种应用场景图。

参考图9，本申请实施例提供的神经网络结构搜索方法的又一种应用场景，应用于基于预训练后代理模型，确定性能优异的深度神经网络。首先，获取预训练后的代理模型；在目标搜索空间中初始化生成一定数量的个体；个体可以包括：深度神经网络结构。

开始使用进化算法对目标搜索空间搜索的迭代过程。使用预训练后的代理模型预测个体的性能作为适应度。在具体实施时，响应于目标搜索空间相对于网络结构数据集的搜索空间更新值大于或等于预设的更新阈值，先将目标搜索空间中的个体输入至预训练后的代理模型，对个体进行性能预测，确定个体对应的性能。其中性能可以包括预测精度、计算量和参数量中的一项或多项。将个体对应的性能作为个体对应的适应值。

训练个体至收敛，将收敛的个体存放于历史信息中，并基于收敛的个体对预训练后的代理模型进行训练。在具体实施时，响应于适应值大于或等于预设的适应阈值，再确定适应值对应的个体为待训练个体。将待训练个体训练至收敛，确定训练至收敛后的个体和训练至收敛后的个体对应的预测精度。然后，将训练至收敛后的个体和预测精度输入至预训练后的代理模型，对预训练后的代理模型进行训练，将经过训练后的代理模型作为第二代理模型。最后，将训练至收敛后的个体作为候选个体，并存储至历史信息。

使用选择策略从历史信息中选择个体的子代父母，依据一定概率对子代父母进行变异、交叉和复制，生成新个体，并将新个体加入新种群中直至新种群中的个体数目达到设定值。在具体实施时，将历史信息中的候选个体输入至第二代理模型，对候选个体进行性能预测，确定候选个体对应的预测性能；响应于预测性能大于或等于预设的第一性能阈值，确定预测性能对应的候选个体为子代父母；以随机概率，对子代父母进行变异、交叉和复制，确定新个体，并将新个体存储至新种群；响应于新种群中新个体的数量等于预设的数量阈值，将新种群中的新个体存储至历史信息并增加迭代搜索的迭代周期次数。至此为使用进化算法对目标搜索空间搜索的一次迭代过程。

此后，进行下一次迭代过程，如此往复直到迭代搜索达到预设的迭代次数或者达到预设的迭代运行时长。预设的结束条件可以包括：迭代搜索达到预设的迭代次数或者达到预设的迭代运行时长。在具体实施时，响应于迭代搜索经过的迭代时间等于预设的迭代运行时长，则确定历史信息中的个体的预测精度。响应于预测精度大于或等于预设的搜索精度阈值，将历史信息中预测精度对应的个体作为性能优异的个体即性能优异的深度神经网络；或，响应于迭代搜索经过的迭代周期次数等于预设的迭代周期次数阈值，则确定历史信息中的个体的预测精度。响应于预测精度大于或等于预设的搜索精度阈值，将历史信息中预测精度对应的个体作为性能优异的个体即性能优异的深度神经网络。

图10示出了本申请实施例提供的神经网络结构搜索方法的再一种应用场景图。

参考图10，本申请实施例提供的神经网络结构搜索方法的再一种应用场景，应用于基于代理模型的神经网络架构搜索。获取代理模型和基准数据集之前，预先建立公用平台，在公用平台上预先训练模型，公用平台采集预先训练模型得到的深度神经网络结构信息，其中，深度神经网络结构信息包括模型结构、模型所使用的数据集、参数量、计算量、精度和训练耗费时间。整理网络结构数据集，将深度神经网络结构信息作为基准数据集的数据，以及将深度神经网络结构信息对应的预测精度、计算量和参数量中的一项或多项作为基准数据集的数据标签。

基于基准数据集，预训练代理模型。首先对基准数据集进行编码转换，使得基准数据集的编码方式与基准数据集的搜索空间、目标搜索空间和代理模型的输入编码方式相同。再将编码转换后的基准数据集输入到代理模型中，对代理模型进行预训练，将经过预训练后的代理模型作为第一代理模型。

确定目标搜索空间，初始化生成一定数量的深度神经网络结构。

响应于目标搜索空间相对于网络结构数据集的搜索空间更新值大于或等于预设的更新阈值，使用搜索策略，先将目标搜索空间中的深度神经网络结构输入至第一代理模型，对深度神经网络结构进行性能预测，确定深度神经网络结构对应的预测精度、计算量和参数量中的一项或多项，将预测精度、计算量和参数量中的一项或多项作为深度神经网络结构对应的适应值。响应于适应值大于或等于预设的适应阈值，再确定适应值对应的深度神经网络结构为待训练神经网络结构。将待训练神经网络结构训练至收敛，确定训练至收敛后的神经网络结构和训练至收敛后的神经网络结构对应的预测精度。然后，将训练至收敛后的神经网络结构和预测精度输入至第一代理模型，对第一代理模型进行训练，将训练后的第一代理模型作为第二代理模型。最后，将训练至收敛后的神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

将目标搜索空间中的深度神经网络结构输入至第二代理模型，对深度神经网络结构进行性能预测，确定深度神经网络结构对应的第二预测性能；响应于第二预测性能大于或等于预设的第一性能阈值，确定第二预测性能对应的深度神经网络结构为子代父母；以随机概率，对子代父母进行变异、交叉和复制，确定子代深度神经网络结构，并将子代深度神经网络结构存储至新种群；响应于新种群中子代深度神经网络结构的数量等于预设的数量阈值，确定新种群为子代网络集合，并增加迭代搜索的迭代周期次数。

此后，进行下一次迭代过程，如此往复直到迭代搜索达到预设的迭代次数或者达到预设的迭代运行时长。迭代搜索可以包括：从使用搜索策略搜索一定数量的深度神经网络开始至响应于新种群中子代深度神经网络结构的数量等于预设的数量阈值，确定新种群为子代网络集合结束为迭代搜索的一个迭代周期。候选深度神经网络结构集合可以包括：存储候选深度神经网络结构的集合。预设的结束条件可以包括：迭代搜索达到预设的迭代次数或者达到预设的迭代运行时长。

响应于迭代搜索中深度神经网络结构的第二预测性能大于或等于预设的第二性能阈值，则将第二预测性能对应的深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

响应于迭代搜索经过的迭代时间等于预设的迭代运行时长，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合；或，响应于迭代搜索经过的迭代周期次数等于预设的迭代周期次数阈值，则将子代网络集合中的子代深度神经网络结构作为候选深度神经网络结构，并存储至候选深度神经网络结构集合。

确定候选深度神经网络结构集合中的候选深度神经网络结构的预测精度。响应于预测精度大于或等于预设的搜索精度阈值，将候选深度神经网络结构集合中预测精度对应的候选深度神经网络结构作为性能优秀的网络结构。

可以理解，图2、图8、图9和图10的神经网络结构搜索方法的应用场景只是本申请实施例中的部分示例性的实施方式，本申请实施例中神经网络结构搜索方法的应用场景包括但不限于图2、图8、图9和图10所示的神经网络结构搜索方法的应用场景。

本申请实施例的方法，通过预训练代理模型，再将经过预训练的代理模型在目标搜索空间上进行选择性地训练，并在神经网络结构搜索过程中使用代理模型，预测目标搜索空间中深度神经网络的性能，从而节省了神经网络结构搜索过程中模型训练的时间，大大缩短了耗费时间，也降低了神经网络结构搜索对硬件的要求，能够在很短的时间内获得性能优异的深度神经网络。本申请实施例的方法，目标搜索空间在NAS-Bench-101网络结构数据集的基础上增加平均池化层操作和3*3深度可分离卷积层操作，并增加了一个节点，如此，能够扩大深度神经网络结构的搜索空间，进而有助于准确的获取性能优秀的深度神经网络结构。本申请实施例的方法，使用已有的数据集预训练代理模型，使得代理模型在目标搜索空间中仅使用少量数据就能得到充分的训练，有助于提升代理模型的搜索精度和训练速度，进而有助于快速且准确的获取性能优秀的深度神经网络结构。如此，能够智能地对神经网络结构进行搜索，提高了神经网络结构搜索的效率。

因此，相关技术中通过人工搜索出性能优异的神经网络结构，或只通过强化学习的方式搜索出性能优异神经网络结构，或只通过进化计算的方式搜索出性能优异神经网络结构。与相关技术中神经网络结构搜索方法的搜索耗时较长且搜索效率较低，相比，本申请的神经网络结构搜索方法能够减少神经网络结构搜索的时间，进而提高了神经网络结构搜索效率。

下面继续说明本申请实施例提供的神经网络结构搜索装置70的实施为软件模块的示例性结构，在一些实施例中，如图11所示，神经网络结构搜索装置70中的软件模块可以包括：获取模块701，用于获取代理模型和网络结构数据集；预训练模块702，用于基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；搜索空间确定模块703，用于确定目标搜索空间；代理模型确定模块704，用于基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；搜索模块705，用于基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；结果模块706，用于基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本申请实施例提供的神经网络结构搜索装置中未尽的技术细节，可以根据图1至图11中任一附图的说明而理解。

根据本申请的实施例，本申请还提供了一种电子设备和一种非瞬时计算机可读存储介质。

图12示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如神经网络结构搜索方法。例如，在一些实施例中，神经网络结构搜索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的神经网络结构搜索方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行神经网络结构搜索方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种神经网络结构搜索方法，其特征在于，所述方法包括：

获取代理模型和网络结构数据集；

基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；

确定目标搜索空间；

基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；

基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；

基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

2.根据权利要求1所述的方法，其特征在于，

所述网络结构数据集包括网络结构和所述网络结构对应的预测性能；

所述目标搜索空间包括N个深度神经网络结构；其中，N为正整数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标搜索空间和所述第一代理模型，确定第二代理模型，包括：

响应于所述目标搜索空间相对于网络结构数据集的搜索空间更新值不满足预设的更新阈值，基于所述目标搜索空间，对所述第一代理模型进行训练，确定第二代理模型；

响应于所述目标搜索空间相对于网络结构数据集的搜索空间更新值满足预设的更新阈值，将所述第一代理模型作为第二代理模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标搜索空间，对所述第一代理模型进行训练，确定第二代理模型，包括：

基于所述第一代理模型，对所述目标搜索空间中的所述深度神经网络结构进行预测，确定所述深度神经网络结构对应的第一预测性能，将第一预测性能作为所述深度神经网络结构对应的适应值；

响应于所述适应值满足预设的适应阈值，确定所述适应值对应的所述深度神经网络结构为待训练神经网络结构；

对所述待训练神经网络结构进行训练，响应于所述待训练神经网络结构收敛，确定训练至收敛后的神经网络结构和所述训练至收敛后的神经网络结构对应的预测精度；

基于所述训练至收敛后的神经网络结构和所述预测精度，训练第一代理模型，确定第二代理模型；

将所述训练至收敛后的神经网络结构作为候选深度神经网络结构，并存储至所述候选深度神经网络结构集合。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合，包括：

基于所述第二代理模型，对所述目标搜索空间中的所述深度神经网络结构进行预测，确定所述深度神经网络结构对应的第二预测性能；

响应于所述第二预测性能满足预设的第一性能阈值，确定所述第二预测性能对应的所述深度神经网络结构为子代父母；

基于第一概率，对子代父母进行变异、交叉和复制，确定子代深度神经网络结构，并将子代深度神经网络结构存储至新种群；

响应于所述新种群中子代深度神经网络结构的数量满足预设的数量阈值，确定所述新种群为子代网络集合，并增加迭代搜索的迭代周期次数；

基于所述子代网络集合和所述迭代搜索，确定所述候选深度神经网络结构集合。

6.根据权利要求5所述的方法，其特征在于，所述基于所述子代网络集合和所述迭代搜索，确定所述候选深度神经网络结构集合，包括：

响应于所述迭代搜索经过的迭代时间满足预设的迭代时间阈值，则将所述子代网络集合中的子代深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合；

或，响应于所述迭代搜索经过的所述迭代周期次数满足预设的迭代周期次数阈值，则将所述子代网络集合中的子代深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合；

或，响应于所述迭代搜索中所述深度神经网络结构的第二预测性能满足预设的第二性能阈值，则将所述第二预测性能对应的所述深度神经网络结构作为所述候选深度神经网络结构，并存储至所述候选深度神经网络结构集合。

7.根据权利要求6所述的方法，其特征在于，所述基于所述候选深度神经网络结构集合，确定所述深度神经网络结构的搜索结果，包括：

确定所述候选深度神经网络结构集合中的所述候选深度神经网络结构的预测精度；

响应于所述预测精度满足预设的搜索精度阈值，确定所述候选深度神经网络结构集合中所述预测精度对应的候选深度神经网络结构为所述深度神经网络结构的搜索结果。

8.一种神经网络结构搜索装置，其特征在于，所述神经网络结构搜索装置包括：

获取模块，用于获取代理模型和网络结构数据集；

预训练模块，用于基于所述网络结构数据集，对所述代理模型进行预训练，确定第一代理模型；

搜索空间确定模块，用于确定目标搜索空间；

代理模型确定模块，用于基于所述目标搜索空间和所述第一代理模型，确定第二代理模型；

搜索模块，用于基于所述第二代理模型和进化算法，对所述目标搜索空间进行搜索，确定候选深度神经网络结构集合；

结果模块，用于基于所述候选深度神经网络结构集合，确定深度神经网络结构的搜索结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。