CN111914994B

CN111914994B - 多层感知机的生成方法、装置、电子设备及存储介质

Info

Publication number: CN111914994B
Application number: CN202010560645.6A
Authority: CN
Inventors: 希滕; 张刚; 温圣召
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-01-12
Anticipated expiration: 2040-06-18
Also published as: CN111914994A

Abstract

本申请公开了多层感知机的生成方法、装置、电子设备及存储介质，涉及人工智能技术和深度学习领域，可应用于图像处理。具体方案为：先生成感知机搜索空间，再根据感知机搜索空间生成待训练多层感知机；接着，对待训练多层感知机进行训练并进行性能评估，当评估结果不满足评分要求时对待训练多层感知机进行迭代更新，直至评估结果满足评分要求或者对待训练多层感知机的迭代更新次数达到预设迭代次数。通过本申请实现了多层感知机的自动生成，在感知机搜索空间中进行自动搜索以生成多层感知机，可以使得多层感知机中不同隐藏层之间的感知器是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

Description

多层感知机的生成方法、装置、电子设备及存储介质

技术领域

本申请的实施例总体上涉及计算机技术领域，并且更具体地，涉及人工智能技术和深度学习领域，可应用于图像处理。

背景技术

深度学习是机器学习研究中的一个新的领域，其目的在于建立模拟人脑进行分析学习的神经网络。近年来，深度学习技术在计算机视觉、语音识别、自然语言处理等人工智能技术研究的多个方面取得了成功。

深度学习技术中，人工神经网络(Artificial Neural Network，ANN)结构的好坏对最终模型的效果有非常重要的影响。手工设计网络拓扑结构要求设计人员具备丰富的经验并需要多次尝试，且当参数较多时会产生爆炸性的组合，采用常规的随机搜索算法来生成网络结构的方式可行性较低，因此神经网络架构搜索(Neural Architecture Search，NAS)技术逐渐成为深度学习领域的研究热点。

发明内容

本申请提供了一种多层感知机的生成方法、装置、电子设备及存储介质。

根据第一方面，提供了一种多层感知机的生成方法，包括：

获取训练集和验证集，并将所述训练集和所述验证集划分为K个训练子集和K个验证子集，其中，K为正整数；

生成感知机搜索空间，根据所述感知机搜索空间生成待训练多层感知机；

根据所述K个训练子集对所述待训练多层感知机进行训练以生成K个多感知机模型；

分别使用所述K个验证子集对所述K个多感知机模型进行评估以生成所述K个多感知机模型的评分值；以及

根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，直至所述K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数。

根据第二方面，提供了一种多层感知机的生成装置，包括：

获取模块，用于获取训练集和验证集，并将所述训练集和所述验证集划分为K个训练子集和K个验证子集，其中，K为正整数；

第一生成模块，用于生成感知机搜索空间；

第二生成模块，用于根据所述感知机搜索空间生成待训练多层感知机；

训练模块，用于根据所述K个训练子集对所述待训练多层感知机进行训练以生成K个多感知机模型；

验证模块，用于分别使用所述K个验证子集对所述K个多感知机模型进行评估以生成所述K个多感知机模型的评分值；以及

更新模块，用于根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，直至所述K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数。

根据第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的多层感知机的生成方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的多层感知机的生成方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如第一方面所述的多层感知机的生成方法。

本申请提供的多层感知机的生成方法、装置、电子设备及存储介质，存在如下有益效果：

通过生成感知机搜索空间，在感知机搜索空间中进行自动搜索以生成多层感知机，不仅实现了多层感知机的自动生成，还可以使得多层感知机中不同隐藏层之间的感知器是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的多层感知机的生成方法的流程示意图；

图2是根据本申请第二实施例的多层感知机的生成方法的流程示意图；

图3是根据本申请第三实施例的多层感知机的生成方法的流程示意图；

图4是根据本申请第四实施例的多层感知机的生成方法的流程示意图；

图5是根据本申请第五实施例的多层感知机的生成装置的结构示意图；

图6是根据本申请第六实施例的多层感知机的生成装置的结构示意图；

图7是根据本申请第七实施例的多层感知机的生成装置的结构示意图；

图8是根据本申请第八实施例的多层感知机的生成装置的结构示意图；

图9是用来实现本申请实施例的多层感知机的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请的多层感知机的生成方法、装置、电子设备及存储介质。

多层感知机(Multilayer Perceptron，MLP)也叫人工神经网络，除了包括最底层的输入层和最上层的输出层，中间还包括至少一个隐藏层。假设输入层用向量X表示，则与输入层连接的隐藏层的输出为f(W1*X+b1)，其中，W1是权重(也可称为连接系数)，b1是偏置，函数f可以是常用的sigmoid函数或者tanh函数。

目前，在设计生成多层感知机时，多层感知机中隐藏层的个数、每个隐藏层包含的感知器的个数，以及感知器的激活函数都需要人工设计，导致生成的多层感知机很难达到较好的效果。并且，人工设计生成的多层感知机，其层与层之间是全连接的，第L层的每一个感知器均与第L-1层的每一个感知器的输出相连，这很容易导致过拟合现象，使得多层感知机的性能不佳。

比如，多层感知机的第L层有500个感知器，第L-1层有600个感知器，则这两层之间就存在30万个连接，参数组合发生很大程度的膨胀，且随着多层感知机深度的增加，参数组合也随之发生快速、大规模地膨胀，从而使得多层感知机在训练样本中的性能表现地过于优越，导致在验证集中的表现不佳，出现过拟合现象，最终训练得到的多层感知机的性能不佳。

针对上述问题，本申请公开了一种多层感知机的生成方法，通过生成感知机搜索空间，并根据感知机搜索空间生成待训练多层感知机，进而利用获取的K个训练子集对生成的待训练多层感知机进行训练，得到K个多感知机模型，并分别使用获取的K个验证集对K个多感知机模型进行性能评估，得到K个多感知机模型的评分值，当K个多感知机模型的评分值不满足评分要求且未达到预设迭代次数时，对待训练多层感知机进行迭代更新，直至K个多感知机模型的评分值满足评分要求或者迭代次数N到达预设迭代次数，由此，实现了多层感知机的自动生成。本申请的方案，通过在感知机搜索空间中进行自动搜索，并在K个多感知机模型的评分值满足评分要求时停止对待训练多层感知机的迭代更新，保证了训练得到的多感知机模型能够满足评分要求即可，使得多层感知机中不同隐藏层之间的感知器可以是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

图1是根据本申请第一实施例的多层感知机的生成方法的流程示意图，该方法可以由本申请提供的多层感知机的生成装置执行，也可以由本申请提供的电子设备执行，其中，电子设备可以包括但不限于台式电脑、平板电脑等终端设备，也可以是服务器。下面以由本申请提供的多层感知机的生成装置来执行本申请提供的多层感知机的生成方法为例来解释说明本申请，而不能作为对本申请的限制。

如图1所示，该多层感知机的生成方法，可以包括以下步骤：

步骤101，获取训练集和验证集，并将训练集和验证集划分为K个训练子集和K个验证子集，其中，K为正整数。

针对不同的任务，本申请实施例中，可以从不同类型的样本集中获取训练集和验证集。其中，训练集用于模型训练，验证集用于评估训练好的模型的表现如何，即测试训练好的模型的性能。

比如，对于分类任务、目标检测任务、人脸检测任务等图像处理方面的任务，可以从公开的图像数据集中获取大量图像样本作为训练集和验证集，其中，公开的图像数据集比如可以是ImageNet数据集、PASCAL VOC数据集、Labelme数据集，等等，其中，获取的验证集中的图像样本与训练集中的图像样本不同，以保证训练得到的多层感知机的性能和鲁棒性。

又比如，对于语音识别任务，可以从公开的开源语音数据集中获取大量的语音样本作为训练集和验证集，其中，开源语音数据集比如可以是中文数据集、英文数据集等，获取的验证集中的语音数据与训练集中的语音数据不同，以保证训练得到的多层感知机的性能和鲁棒性。

举例而言，以从ImageNet数据集中获取图像样本作为训练集和验证集为例，可以先从ImageNet数据集中获取一个包含大量图像样本的样本集，再按照预设的分配比例，将样本集划分为验证集和训练集。比如，样本集中训练集与验证集的预设的分配比例为8:2，即样本集中80％的图像样本作为训练集，样本集中剩余20％的图像样本作为验证集，则将获取的样本集按照8:2的比例划分为训练集和验证集。

本实施例中，获取了训练集和验证集之后，可以对训练集和验证集进行划分，将训练集划分为K个训练子集，将验证集划分为K个验证子集，其中，K为正整数。

比如，在划分训练集和验证集时，可以将训练集随机地划分为K份，得到K个训练子集，每个训练子集中包含的样本图像的数量可以相同也可以不同；对于验证集的划分，也可以将验证集随机地划分为K份，得到K个验证子集，每个验证子集中包含的样本图像的数量可以相同也可以不同。

需要说明的是，本实施例中，划分得到的训练子集和验证子集的个数相同，比如，将训练集划分为5个训练子集，同样地，也将验证集划分为5个验证子集，每个训练子集对应一个验证子集，以便后续利用验证子集对根据训练子集训练得到的多感知机模型进行性能测试。

在本申请实施例一种可能的实现方式中，为了获取到K个训练子集和K个验证子集，可以先将获取的样本集划分为K份，得到K个样本子集，再针对每个验证子集，按照预设的训练集与验证集的分配比例(比如8：2)，将样本子集划分为训练子集和验证子集，最终得到K个训练子集和K个验证子集，每个训练子集对应一个验证子集。

步骤102，生成感知机搜索空间，根据感知机搜索空间生成待训练多层感知机。

本实施例中，可以预先设计好感知机搜索空间的设计规则，进而根据设计规则生成感知机搜索空间。

比如，感知机搜索空间的设计规则可以约定多层感知机的隐藏层数量，以及约定每个隐藏层包含的感知器数量、每个感知器的激活函数、隐藏层之间感知器的连接开关，通过连接开关，能够设计相邻隐藏层之间的感知器是否连接，并且，当感知器之间的连接开关为开时，设计规则还可以约定该连接开关对应的连接权重，其中，连接权重不受反向传播和激活函数的影响。此外，当连接开关为开时，也可以不赋予该连接开关对应的连接权重，连接权重可以通过后续学习得到。

根据上述设计规则，可以生成满足上述设计规则约定的条件的感知机搜索空间，搜索空间中包含了可生成的多层感知机的所有可能性，也就是说，搜索空间是所有可能的多层感知机的集合，本申请的方案，通过在搜索空间中进行搜索，能够从所有可能的多层感知机中找到性能较好的多层感知机，且找到的多层感知机中，隐藏层之间的感知器可以是非全连接的，从而能够避免过拟合现象。

本实施例中，生成感知机搜索空间后，可以根据感知机搜索空间生成待训练多层感知机。如前文所述，感知机搜索空间中包含了可生成的多层感知机的所有可能，因此，可以从搜索空间中随机地生成一个多层感知机，并将随机生成的多层感知机作为待训练多层感知机。

为了得到网络架构简单且性能满足条件的多层感知机，根据搜索空间生成待训练多层感知机时，也可以先随机地生成一个网络架构最简单的多层感知机作为待训练多层感知机，比如，首次获取的待训练多层感知机的网络架构可以是，每个隐藏层仅有一个感知器与相邻隐藏层的一个感知器连接。

需要说明的是，步骤101-步骤102的执行顺序不分先后，两者可以先后执行，也可以同时执行，本申请仅以步骤102在步骤101之后执行作为示例来解释说明本申请，则不能作为对本申请的限制。

步骤103，根据K个训练子集对待训练多层感知机进行训练以生成K个多感知机模型。

本实施例中，生成了待训练多层感知机之后，即可根据获取的K个训练子集对该待训练多层感知机进行训练，生成K个多感知机模型。

利用每个训练子集对待训练多层感知机进行训练时，将训练子集中包含的样本数据(比如图像样本、语音数据)作为待训练多层感知机的输入，将样本数据的标注结果作为待训练多层感知机的输出，通过不断地迭代更新待训练多层感知机的参数，最终寻找到一组使得损失函数的取值在训练子集上最小的模型参数，训练结束，得到与训练子集对应的多感知机模型。

能够理解的是，K个多感知机模型是利用K个不同的训练子集，对同一个模型结构，即待训练多层感知机，分别进行训练得到的，由于采用的训练子集不同，训练得到的K个多感知机模型包含的参数也不同。

在本申请实施例一种可能的实现方式中，对待训练多层感知机进行训练之前，可以先对待训练多层感知机进行初始化，比如初始化待训练多层感知机的参数，初始化完成后再利用K个训练子集对待训练多层感知机进行训练。

步骤104，分别使用K个验证子集对K个多感知机模型进行评估以生成K个多感知机模型的评分值。

本实施例中，利用K个训练子集对待训练多层感知机进行训练，得到对应的K个多感知机模型之后，对于每个多感知机模型，可以利用与训练得到该多感知机模型时使用的训练子集对应的验证子集，对该多感知机模型进行性能测试，生成该多感知机模型的评分值，依次对每个多感知机模型进行测试，最终得到K个多感知机模型的评分值，共得到K个评分值。

步骤105，根据K个多感知机模型的评分值对待训练多层感知机进行N次迭代更新，直至K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数。

其中，评分要求和预设迭代次数均可以预先设定。比如，评分要求可以设置为K个评分值中的最小值不小于90％，或者，评分要求也可以设置为K个评分值的均值不小于90％，等等；预设迭代次数比如可以设置为30次、40次等。

本实施例中，获得K个多感知机模型的评分值之后，可以根据获得的K个评分值判断是否需要对待训练多层感知机进行迭代更新，并在需要继续迭代更新时，对待训练多层感知机进行迭代更新。

为了防止无限次地在搜索空间中进行搜索，可以预先设定预设迭代次数，当待训练多层感知机的迭代更新次数达到预设迭代次数时，即使当前获取的K个多感知机模型的评分值未满足评分要求，也不再对待训练多层感知机进行迭代更新。

也就是说，本实施例中，获取了K个多感知机模型的评分值之后，可以先判断获取的评分值是否满足评分要求，比如评分要求为K个评分值中的最小值不小于90％，则当K个评分值中的最小值小于90％时，判定不满足评分要求，即当前的多层感知机的性能仍未达到要求，需要在已经进行了N次迭代更新的待训练多层感知机的基础上，对N次迭代更新后的待训练多层感知机进行第N+1次迭代更新，此时，在对待训练多层感知机进行迭代更新之前，先判断当前迭代次数N是否达到预设迭代次数，若N小于预设迭代次数，则执行对待训练多层感知机进行迭代更新的操作。

其中，N为正整数。

需要说明的是，N是指对待训练多层感知机进行迭代更新的次数，对于第一次生成的待训练多层感知机，当利用K个训练子集进行训练得到K个多感知机模型，并利用K个验证子集进行评估得到K个评分值之后，若K个评分值不满足评分要求，则需要对待训练多层感知机进行第一次迭代更新，即此时N等于1；若迭代更新后的待训练多层感知机仍不满足评分要求，则需要对迭代更新后的待训练多层感知机再次进行迭代更新，此时N等于2，以此类推，可以确定待训练多层感知机每次需要迭代更新时的迭代次数N。

本实施例中，对待训练多层感知机进行迭代更新，可以是调整待训练多层感知机的参数，比如调整连接的感知器之间的连接权重；或者，也可以是调整待训练多层感知机中，隐藏层之间的感知器连接个数，比如，将隐藏层中原本仅有一个感知器与相邻隐藏层的感知器连接，调整为有两个感知器或者多个感知器与相邻隐藏层的两个或多个感知器连接；等等，本申请对于迭代更新待训练多层感知机的方式不作限制。

进一步地，对于迭代更新后的待训练多层感知机，再根据K个训练子集对其进行训练，生成K个多感知机模型，并使用K个验证子集对K个多感知机模型进行评估以生成K个多感知机模型的评分值，并根据评分值对迭代更新后的待训练多层感知机再次进行迭代更新。也就是说，对于迭代更新后的待训练多层感知机，重复执行上述步骤103-步骤105，直至K个多感知机模型的评分值满足评分要求或者迭代更新次数N到达预设迭代次数后，搜索结束，得到最终生成的多层感知机。

本实施例的多层感知机的生成方法，通过获取训练集和验证集，并将训练集和验证集划分为K个训练子集和K个验证子集，以及，生成感知机搜索空间，并根据感知机搜索空间生成待训练多层感知机，接着，根据K个训练子集对待训练多层感知机进行训练以生成K个多感知机模型，并分别使用K个验证子集对K个多感知机模型进行评估，以生成K个多感知机模型的评分值，根据K个多感知机模型的评分值对待训练多层感知机进行N次迭代更新，直至K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，由此，实现了多层感知机的自动生成。并且，通过在感知机搜索空间中进行自动搜索，并在K个多感知机模型的评分值满足评分要求时停止对待训练多层感知机的迭代更新，保证了训练得到的多感知机模型能够满足评分要求即可，使得多层感知机中不同隐藏层之间的感知器可以是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

在本申请实施例一种可能的实现方式中，将训练集和验证集划分为K个训练子集和K个验证子集时，可以通过K折交叉划分算法，将训练集和验证集划分为K个训练子集和K个验证子集。

K折交叉划分算法，是指将所有数据集分成K份，每次不重复地取其中一份作为验证子集，其他的K-1份作为训练子集用于训练模型，共得到K组训练子集和验证子集的组合。

举例而言，假设K＝5，本实施例中，将训练集和验证集包含的所有数据随机地划分成K份，每份数据分别编号为1,2,3,4,5，则划分得到的训练子集和验证子集的组合如下：

(1)1,2,3,4作为训练子集，5作为验证子集；

(2)1,2,3,5作为训练子集，4作为验证子集；

(3)1,2,4,5作为训练子集，3作为验证子集；

(4)1,3,4,5作为训练子集，2作为验证子集；

(5)2,3,4,5作为训练子集，1作为验证子集。

可见，经过5折交叉划分算法划分后，得到5个训练子集和与各个训练子集对应的5个验证子集。

由于K折交叉划分算法是将数据随机地划分成K份，每次不重复地选择一份作为验证子集，剩余的K-1份作为验证子集，因此，根据K折交叉划分算法将训练集和验证集划分为K个训练子集和K个验证子集，保证了训练子集和验证子集的随机性，根据训练子集训练得到的多感知机模型，经验证子集评估，能够提高评估结果的准确性，有利于提高最终获取的多层感知机的性能和鲁棒性。

为了更加清楚地描述前述实施例中根据感知机搜索空间生成待训练多层感知机的具体实现过程，下面结合附图2进行详细说明。

图2是根据本申请第二实施例的多层感知机的生成方法的流程示意图。如图2所示，在如图1所示实施例的基础上，步骤102中，根据感知机搜索空间生成待训练多层感知机，可以包括以下步骤：

步骤201，根据感知机搜索空间生成多层感知机序列生成器。

步骤202，根据多层感知机序列生成器生成多层感知机序列。

步骤203，根据多层感知机序列和感知机搜索空间生成待训练多层感知机。

如前文所述，感知机搜索空间是根据预设的设计规则生成的，预设规则定义了所有的可能性，感知机搜索空间即是所有可能性的集合。因此本实施例中，可以根据感知机搜索空间，对感知机序列生成器进行初始化，生成多层感知机序列生成器。

其中，可以随机地对感知机序列生成器进行初始化，感知机搜索空间中的每种可能性即对应一种初始化结果，根据感知机搜索空间随机地进行初始化，能够随机地得到一种多层感知机序列生成器。

多层感知机序列生成器能够生成多层感知机序列，多层感知机序列是用一组序列唯一地对应一种可能性的建模，即多层感知机序列生成器生成唯一对应的一个多层感知机序列。

多层感知机序列能够表示对多层感知机建模所选择的各个隐藏层的感知器的数量，根据多层感知机序列和感知机搜索空间，可以生成待训练多层感知机。

以卷积神经网络为例，多层感知机序列生成器可以直接生成序列如[551,666,321,222]，该序列表示第一层隐藏层选择551个感知器，第二层隐藏层选择666个感知器，第三层隐藏层选择321个感知器，第四层隐藏层选择222个感知器，之后，在生成待训练多层感知机时，从搜索空间中选择一个与上述序列包含的各隐藏层的感知器个数匹配的可能组合作为待训练多层感知机。

为了优化多层感知机序列生成器生成的多层感知机序列，可以将感知机搜索空间中包含的每种感知器之间的可能组合方式进行编码，以便于表达多层感知机序列，多层感知机序列生成器生成多层感知机序列之后，根据感知机搜索空间对多层感知机序列进行解码，得到对应的待训练多层感知机。比如，对于感知机搜索空间中的每种可能性，可以从1开始进行编码，多层感知机序列生成器生成的多层感知机序列为编码数据，比如1，相较于序列[551,666,321,222]等数据要简单地多，之后根据感知机搜索空间中对每种可能性的编码，对多层感知机序列进行解码，即得到多层感知机序列对应的感知器，进而利用感知器生成待训练多层感知机。比如，感知机搜索空间中一种可能的建模[551,666,321,222]对应的编码为5，则获取到多层感知机序列5之后，通过根据感知机搜索空间进行解码，即可确定建模组合方案为[551,666,321,222]，进而选择[551,666,321,222]对应的感知器组合生成待训练多层感知机。

本实施例的多层感知机的生成方法，通过根据感知机搜索空间生成多层感知机序列生成器，接着根据多层感知机序列生成器生成多层感知机序列，进而根据多层感知机序列和感知机搜索空间生成待训练多层感知机，由此，实现了从感知机搜索空间中自动搜索待训练多层感知机，保证了待训练多层感知机的随机性。

图3是根据本申请第三实施例的多层感知机的生成方法的流程示意图。在如图2所示实施例的基础上，如图3所示，步骤105可以包括以下步骤

步骤301，分别获取K个多感知机模型的K个评分值。

步骤302，根据K个多感知机模型的K个评分值生成平均评分值。

本实施例中，对于K个多感知机模型中的任一个模型，利用与训练子集对应的验证子集进行评估，即得到对应的评分值。对于K个多感知机模型，可以得到K个评分值。接着，可以根据K个评分值，计算得到K个评分值的平均评分值。

步骤303，如果平均评分值小于评分要求，且当前迭代次数N小于预设迭代次数，则进一步更新多层感知机序列生成器。

步骤304，通过更新之后的多层感知机序列生成器对待训练多层感知机进行更新。

作为一种示例，评分要求可以是预设的性能标准阈值，比如设置性能标准阈值为90％。本示例中，当K个评分值的平均评分值小于预设的性能标准阈值时，则确定平均评分值不满足评分要求，此时进一步判断当前迭代次数N是否小于预设迭代次数，若当前迭代次数N小于预设迭代次数，则进一步更新多层感知机序列生成器。

本申请实施例中，多层感知机序列生成器可以是神经网络模块，或者，也可以是进化算法模块。针对不同的模块，可以采用不同的方式更新多层感知机序列生成器。

作为一种可能的实现方式，当多层感知机序列生成器为神经网络模块时，可以通过反向传播算法更新多层感知机序列生成器。

作为一种可能的实现方式，当多层感知机序列生成器为进化算法模块时，可以通过种群更新算法更新多层感知机序列生成器。

本实施例中，当多层感知机序列生成器为神经网络模块时，通过反向传播算法更新多层感知机序列生成器，当多层感知机序列生成器为进化算法模块时，通过种群更新算法更新多层感知机序列生成器，由此，针对不同的多层感知机序列生成器，提供了不同的更新方式对多层感知机序列生成器进行更新，提高了方法的灵活性。

接着，对多层感知机序列生成器进行更新之后，即可通过更新之后的多层感知机序列生成器对待训练多层感知机进行更新。如前文所述，多层感知机序列生成器生成唯一对应的多层感知机序列，则更新多层感知机序列生成器之后，根据多层感知机序列生成器生成的多层感知机序列也随之发生变化，因此，根据多层感知机序列和感知机搜索空间生成的待训练多层感知机也随之更新。

本实施例的多层感知机的生成方法，通过分别获取K个多感知机模型的K个评分值，根据K个多感知机模型的K个评分值生成平均评分值，并在平均评分值小于评分要求，且当前迭代次数N小于预设迭代次数时，进一步更新多层感知机序列生成器，进而通过更新之后的多层感知机序列生成器对待训练多层感知机进行更新，由此，实现了在迭代次数未达到预设迭代次数的前提下，根据多感知机模型的平均评分值判断是否对待训练多感知机进行更新，实现了对于不满足评分要求的多感知机模型进行迭代更新，以保证尽可能地获取到满足评分要求的多层感知机，为生成性能佳且鲁棒性好的多层感知机提供了条件。

为了更加清楚地描述前述实施例中生成感知机搜索空间的具体实现过程，下面结合附图4进行详细说明。

图4是根据本申请第四实施例的多层感知机的生成方法的流程示意图，如图4所示，在如图1所示实施例的基础上，步骤102中，生成感知机搜索空间，可以通过以下步骤实现：

步骤401，获取感知机搜索空间所需的隐藏层数量。

其中，隐藏层数量可以根据实际需要生成的多层感知机所包含的隐藏层的数量设置。

步骤402，获取感知机搜索空间所需的每个隐藏层的感知器数量。

其中，每个隐藏层包含的感知器的数量可以根据实际需求设置，各个隐藏层所包含的感知器的数量可以相同，也可以不同，本申请对此不作限制。

步骤403，获取感知机搜索空间所需的每个隐藏层之中感知器的激活函数。

其中，激活函数可以是sigmoid函数、tanh函数等函数。激活函数需要满足如下条件：

(1)连续并可导(允许少数点上不可导)的非线性函数；

(2)激活函数及其导数尽可能的简单，有利于提高网络计算效率；

(3)激活函数的导函数的值域要适当，不能太大也不能太小，否则会影响训练的效率和稳定性。

通过使用激活函数，能够给感知器引入非线性因素，使得多层感知机可以任意逼近任何非线性函数，从而使得多层感知机可以应用到更多的非线性模型中。

步骤404，获取感知机搜索空间所需的隐藏层之间感知器的连接开关以及连接权重。

其中，隐藏层之间的感知器可以是非全连接的，也就是说，并非隐藏层中的每个感知器均需要与相邻隐藏层中的感知器相邻，是否连接可以通过连接开关进行控制，当两个感知器之间的连接开关设置为开时，表明这两个感知器连接，当连接开关设置为关时，表明这两个感知器不连接。

此外，对于相互连接的两个感知器，还可以获取这两个感知器之间的连接权重，通常，连接权重小于1。

步骤405，根据隐藏层数量、每个隐藏层的感知器数量、每个隐藏层之中感知器的激活函数和感知器的连接开关以及连接权重构建感知机搜索空间。

本实施例中，获取了隐藏层数量、每个隐藏层的感知器数量、每个隐藏层中感知器的激活函数，以及隐藏层之间感知器的连接开关和连接权重之后，即可根据隐藏层数量、每个隐藏层的感知器数量、每个隐藏层之中感知器的激活函数，以及感知器的连接开关和连接权重，构建得到感知机搜索空间，感知机搜索空间可以生成满足上述条件的任意多层感知机。

本实施例的多层感知机的生成方法，通过根据获取的感知机搜索空间所需的隐藏层数量、每个隐藏层的感知器数量、每个隐藏层之中感知器的激活函数、隐藏层之间感知器的连接开关以及连接权重，构建感知机搜索空间，为自动搜索生成多层感知机奠定了基础，并且，通过获取连接开关，实现了根据连接开关控制不同隐藏层之间感知器的连接，使得不同隐藏层的感知器可以是非全连接的，从而有利于避免过拟合现象的出现。此外，早期的NAS未限制搜索空间，在搜索时甚至需要七八百块的图形处理器，并训练一个月之久才能获得收敛的模型，所需的硬件设备较多，且搜索速度慢；而本申请中，通过生成感知机搜索空间，以在感知机搜索空间中进行搜索生成多层感知机，感知机搜索空间定义了优化问题的变量，变量规模决定了搜索算法的难度和搜索时间，因此通过定义合理的感知机搜索空间进行搜索，能够加快搜索速度和效率，减少硬件设备的使用，从而节约了硬件成本。

本申请提供的方案可以应用于图像处理中。比如，当多层感知机的输入为深度学习网络所提取的特征时，本申请提供的方案可以应用于图像处理中的分类任务、目标检测任务、人脸检测任务、人脸人体关键点检测任务等任务中。由于通过本申请提供的方案生成的多层感知机具有较好的性能和鲁棒性，从而利用多层感知机完成分类任务、目标检测任务、人脸检测任务等任务时，能够提高任务处理的准确率，对于分类任务，能够提高分类的准确率，对于目标检测任务，能够提高目标检测结果的准确率。

根据本申请的实施例，本申请还提供了一种多层感知机的生成装置。

图5是根据本申请第五实施例的多层感知机的生成装置的结构示意图。如图5所示，该多层感知机的生成装置50包括：获取模块510、第一生成模块520、第二生成模块530、训练模块540、验证模块550以及更新模块560。

其中，获取模块510，用于获取训练集和验证集，并将训练集和验证集划分为K个训练子集和K个验证子集，其中，K为正整数。

在本申请实施例一种可能的实现方式中，获取模块510通过K折交叉划分算法将所述训练集和所述验证集划分为K个训练子集和K个验证子集。

第一生成模块520，用于生成感知机搜索空间。

第二生成模块530，用于根据所述感知机搜索空间生成待训练多层感知机。

训练模块540，用于根据所述K个训练子集对所述待训练多层感知机进行训练以生成K个多感知机模型。

验证模块550，用于分别使用所述K个验证子集对所述K个多感知机模型进行评估以生成所述K个多感知机模型的评分值。

更新模块560，用于根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，直至所述K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数。

在本申请实施例一种可能的实现方式中，如图6所示，在如图5所示实施例的基础上，第二生成模块530包括：

第一生成单元531，用于根据所述感知机搜索空间生成多层感知机序列生成器；

第二生成单元532，用于根据所述多层感知机序列生成器生成多层感知机序列；以及

第三生成单元533，用于根据所述多层感知机序列和所述感知机搜索空间生成所述待训练多层感知机。

在本申请实施例一种可能的实现方式中，如图7所示，在如图6所示实施例的基础上，更新模块560，包括：

评分值获取单元561，用于分别获取所述K个多感知机模型的K个评分值；

计算单元562，用于根据所述K个多感知机模型的K个评分值生成平均评分值；

第一更新单元563，用于如果所述平均评分值小于所述评分要求，或当前迭代次数N小于所述预设迭代次数，则进一步更新所述多层感知机序列生成器；

在本申请实施例一种可能的实现方式中，多层感知机序列生成器为神经网络模块或进化算法模块，第一更新单元563在所述多层感知机序列生成器为所述神经网络模块时，通过反向传播算法更新所述多层感知机序列生成器；在所述多层感知机序列生成器为所述进化算法模块时，通过种群更新算法更新所述多层感知机序列生成器。

第二更新单元564，用于通过更新之后的所述多层感知机序列生成器对所述待训练多层感知机进行更新。

在本申请实施例一种可能的实现方式中，如图8所示，在如图5所示实施例的基础上，第一生成模块520，包括：

第一获取单元521，用于获取所述感知机搜索空间所需的隐藏层数量；

第二获取单元522，用于获取所述感知机搜索空间所需的每个隐藏层的感知器数量；

第三获取单元523，用于获取所述感知机搜索空间所需的每个隐藏层之中感知器的激活函数；

第四获取单元524，用于获取所述感知机搜索空间所需的所述隐藏层之间感知器的连接开关以及连接权重；以及

构建单元525，用于根据所述隐藏层数量、所述每个隐藏层的感知器数量、所述每个隐藏层之中感知器的激活函数和所述感知器的连接开关以及连接权重构建所述感知机搜索空间。

需要说明的是，前述对多层感知机的生成方法的实施例的解释说明，也适用于该实施例的多层感知机的生成装置，其实现原理类似，此处不再赘述。

本申请实施例的多层感知机的生成装置，通过获取训练集和验证集，并将训练集和验证集划分为K个训练子集和K个验证子集，以及，生成感知机搜索空间，并根据感知机搜索空间生成待训练多层感知机，接着，根据K个训练子集对待训练多层感知机进行训练以生成K个多感知机模型，并分别使用K个验证子集对K个多感知机模型进行评估，以生成K个多感知机模型的评分值，根据K个多感知机模型的评分值对待训练多层感知机进行N次迭代更新，直至K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，由此，实现了多层感知机的自动生成。并且，通过在感知机搜索空间中进行自动搜索，并在K个多感知机模型的评分值满足评分要求时停止对待训练多层感知机的迭代更新，保证了训练得到的多感知机模型能够满足评分要求即可，使得多层感知机中不同隐藏层之间的感知器可以是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是用来实现本申请实施例的多层感知机的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的多层感知机的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的多层感知机的生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的多层感知机的生成方法对应的程序指令/模块(例如，附图5所示的获取模块510、第一生成模块520、第二生成模块530、训练模块540、验证模块550以及更新模块560)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多层感知机的生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行多层感知机的生成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行多层感知机的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行多层感知机的生成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与执行多层感知机的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过生成感知机搜索空间，并根据感知机搜索空间生成待训练多层感知机，进而利用获取的K个训练子集对生成的待训练多层感知机进行训练，得到K个多感知机模型，并分别使用获取的K个验证集对K个多感知机模型进行性能评估，得到K个多感知机模型的评分值，当K个多感知机模型的评分值不满足评分要求且未达到预设迭代次数时，对待训练多层感知机进行迭代更新，直至K个多感知机模型的评分值满足评分要求或者迭代次数N到达预设迭代次数，由此，实现了多层感知机的自动生成。并且，通过在感知机搜索空间中进行自动搜索，并在K个多感知机模型的评分值满足评分要求时停止对待训练多层感知机的迭代更新，保证了训练得到的多感知机模型能够满足评分要求即可，使得多层感知机中不同隐藏层之间的感知器可以是非全连接的，从而能够降低过拟合现象出现的概率，保证多感知机模型的性能，提高多感知机模型的鲁棒性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种多层感知机的生成方法，包括：

根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，直至所述K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数；

所述生成感知机搜索空间，包括：

获取所述感知机搜索空间所需的隐藏层数量；

获取所述感知机搜索空间所需的每个隐藏层的感知器数量；

获取所述感知机搜索空间所需的每个隐藏层之中感知器的激活函数；

获取所述感知机搜索空间所需的所述隐藏层之间感知器的连接开关以及连接权重；以及

根据所述隐藏层数量、所述每个隐藏层的感知器数量、所述每个隐藏层之中感知器的激活函数和所述感知器的连接开关以及连接权重构建所述感知机搜索空间。

2.如权利要求1所述的多层感知机的生成方法，其中，所述根据所述感知机搜索空间生成待训练多层感知机，包括：

根据所述感知机搜索空间生成多层感知机序列生成器；

根据所述多层感知机序列生成器生成多层感知机序列；以及

根据所述多层感知机序列和所述感知机搜索空间生成所述待训练多层感知机。

3.如权利要求2所述的多层感知机的生成方法，其中，所述根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，包括：

分别获取所述K个多感知机模型的K个评分值；

根据所述K个多感知机模型的K个评分值生成平均评分值；

如果所述平均评分值小于所述评分要求，且当前迭代次数N小于所述预设迭代次数，则进一步更新所述多层感知机序列生成器；以及

通过更新之后的所述多层感知机序列生成器对所述待训练多层感知机进行更新。

4.如权利要求3所述的多层感知机的生成方法，其中，所述多层感知机序列生成器为神经网络模块或进化算法模块，其中，所述进一步更新所述多层感知机序列生成器，包括：

当所述多层感知机序列生成器为所述神经网络模块时，通过反向传播算法更新所述多层感知机序列生成器；

当所述多层感知机序列生成器为所述进化算法模块时，通过种群更新算法更新所述多层感知机序列生成器。

5.如权利要求1所述的多层感知机的生成方法，其中，所述将所述训练集和所述验证集划分为K个训练子集和K个验证子集，包括：

通过K折交叉划分算法将所述训练集和所述验证集划分为K个训练子集和K个验证子集。

6.一种多层感知机的生成装置，包括：

第一生成模块，用于生成感知机搜索空间；

更新模块，用于根据所述K个多感知机模型的评分值对所述待训练多层感知机进行N次迭代更新，直至所述K个多感知机模型的评分值满足评分要求或者N到达预设迭代次数，其中，N为正整数；

所述第一生成模块，包括：

第一获取单元，用于获取所述感知机搜索空间所需的隐藏层数量；

第二获取单元，用于获取所述感知机搜索空间所需的每个隐藏层的感知器数量；

第三获取单元，用于获取所述感知机搜索空间所需的每个隐藏层之中感知器的激活函数；

第四获取单元，用于获取所述感知机搜索空间所需的所述隐藏层之间感知器的连接开关以及连接权重；以及

构建单元，用于根据所述隐藏层数量、所述每个隐藏层的感知器数量、所述每个隐藏层之中感知器的激活函数和所述感知器的连接开关以及连接权重构建所述感知机搜索空间。

7.如权利要求6所述的多层感知机的生成装置，其中，所述第二生成模块，包括：

第一生成单元，用于根据所述感知机搜索空间生成多层感知机序列生成器；

第二生成单元，用于根据所述多层感知机序列生成器生成多层感知机序列；以及

第三生成单元，用于根据所述多层感知机序列和所述感知机搜索空间生成所述待训练多层感知机。

8.如权利要求7所述的多层感知机的生成装置，其中，所述更新模块，包括：

评分值获取单元，用于分别获取所述K个多感知机模型的K个评分值；

计算单元，用于根据所述K个多感知机模型的K个评分值生成平均评分值；

第一更新单元，用于如果所述平均评分值小于所述评分要求，或当前迭代次数N小于所述预设迭代次数，则进一步更新所述多层感知机序列生成器；以及

第二更新单元，用于通过更新之后的所述多层感知机序列生成器对所述待训练多层感知机进行更新。

9.如权利要求8所述的多层感知机的生成装置，其中，所述多层感知机序列生成器为神经网络模块或进化算法模块，所述第一更新单元在所述多层感知机序列生成器为所述神经网络模块时，通过反向传播算法更新所述多层感知机序列生成器；在所述多层感知机序列生成器为所述进化算法模块时，通过种群更新算法更新所述多层感知机序列生成器。

10.如权利要求6所述的多层感知机的生成装置，其中，所述获取模块通过K折交叉划分算法将所述训练集和所述验证集划分为K个训练子集和K个验证子集。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的多层感知机的生成方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的多层感知机的生成方法。