CN111062485A

CN111062485A - 一种新型automl框架

Info

Publication number: CN111062485A
Application number: CN201911166013.5A
Authority: CN
Inventors: 张玉祺
Original assignee: Shanghai Kedou Electronic Technology Co Ltd
Current assignee: Shanghai Kedou Electronic Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-04-24

Abstract

本发明公开了一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；所述特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；所述模型选择包括两个步骤：选择一个模型，设定它的参数；所述算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡。常用算法选择优化方法包括SGD、L‑BFGS、GD；本发明所述的一种新型AUTOML框架，从机器学习角度讲，AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统；从自动化角度讲，AutoML则可以看作是设计一系列高级的控制系统去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

Description

一种新型AUTOML框架

技术领域

本发明属于人工智能领域，特别涉及一种新型AUTOML框架。

背景技术

简单的说机器学习是实现人工智能的一种手段，而深度学习是在机器学习的发展过程中，发展出来的一个分支，广义上讲它也是机器学习，但是由于其实现机制和原来的机器学习算法有较大的不同，所以发展为一个独立的领域。机器学习和深度学习都是建模的有效工具，只是它们面向的场景有所不同。

所以，AutoML也需要分为两个种类，传统的AutoML和深度AutoML。即传统的AutoML是为了解决传统机器学习的建模问题，它面向的是传统机器学习相关算法，如线性回归、逻辑回归、决策树等等。而深度AutoML更多的是面向深度学习中神经网络的建模。本发明主要研究的就是面向深度学习领域的AutoML。

发明内容

本发明的主要目的在于提供一种新型AUTOML框架，可以有效解决背景技术中的问题。

为实现上述目的，本发明采取的技术方案为：

一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

所述特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；

所述模型选择包括两个步骤：选择一个模型，设定它的参数；

所述算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡，常用算法选择优化方法包括SGD、L-BFGS、GD。

优选的，所述特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

优选的，模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

优选的，将特征工程、模型选择、算法选择步骤整合起来，一个完整的 AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network Architecture Search，自动地学习到最优的网络结构。

优选的，该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。

与现有技术相比，本发明具有如下有益效果：本发明所述的一种新型 AUTOML框架，从机器学习角度讲，AutoML可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统；从自动化角度讲，AutoML则可以看作是设计一系列高级的控制系统去操作机器学习模型，使得模型可以自动化地学习到合适的参数和配置而无需人工干预。

附图说明

图1为本发明新型AUTOML框架整体结构示意图；

图2为本发明的一个cell由rnn生成的过程示意图；

图3为本发明每个optimizer抽象的表达示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

本发明的一种新型AUTOML框架，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

特征工程的目的是自动地发掘并构造相关的特征，且其包含部分特定的特征增强方法；

模型选择包括两个步骤：选择一个模型，设定它的参数；

算法选择的目的是自动地选择出一个优化算法，以便能够达到效率和精度的平衡，常用算法选择优化方法包括SGD、L-BFGS、GD。

特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

将特征工程、模型选择、算法选择步骤整合起来，一个完整的AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network Architecture Search，自动地学习到最优的网络结构。

该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。

需要说明的是该新型AUTOML框架，将AutoML分为传统AutoML，自动调节传统的机器学习算法的参数，比如随机森林，我们来调节它的max_depth, num_trees,criterion等参数。还有一类AutoML，则专注深度学习。这类 AutoML，不妨称之为深度AutoML，与传统AutoML的差别是，现阶段深度 AutoML，会将神经网络的超参数分为两类，一类是与训练有关的超参数，比如learning rate,regularization,momentum等；还有一类超参数，则可以总结为网络结构。对网络结构的超参数自动调节，也叫Neural architecture search(nas)。而针对训练的超参数，也是传统AutoML的自动调节，叫Hyperparameteroptimization(ho)。

5.1贝叶斯优化

贝叶斯优化是一种近似逼近的方法，用各种代理函数来拟合超参数与模型评价之间的关系，然后选择有希望的超参数组合进行迭代，最后得出效果最好的超参数组合。

5.1.1算法流程

1初始化，随机选择若干组参数x，训练模型，得到相应的模型评价指标y

2用代理函数来拟合x,y

3用采集函数来选择最佳的x*

4将x*带入模型，得到新的y，然后进入第2步

5.1.2具体算法

5.1.3特点

需要消耗大量资源及时间。由于需要至少几十次迭代，即需要训练几十次的模型，因而会造成大量资源、时间消耗。基于这个特点，可以说贝叶斯优化算法适合传统AutoML，而不适合深度AutoML，效果不稳定。由于初始化存在随机性，其效果不稳定。也有论文表明，贝叶斯优化算法并不显著优于随机搜索(random search)

5.2Multi-armed Bandit

multi-armed bandit是非常经典的序列决策模型，要解决的问题是平衡“探索”(exploration)和“利用”(exploitation)。这类算法，通过将自动调参问题，转化为bandit问题，配置更多资源给表现更优异的参数模型。

5.2.1具体算法

Hyperband是一个颇具代表的算法。总体思路我们由一个自动调节LeNet 的例子来展示：

Table 1：The values of n_i and r_i for the brackets of HYPERBANDcorresponding to various values of s，when R＝81 and η＝3.

R＝81代表总资源，μμ代表每次筛选的比例，ni代表参数配置的组合数，ri代表资源数，这里代表一个epoch，第一行代表随机得到ni个参数配置，然后经过第ri次迭代之后，根据模型validation loss选择出top k个表现好的模型，继续下一行ri的训练。

5.2.2特点

1Bandit思想还是很重要的，是一类针对资源配置的算法，可以有效避免资源浪费在很差的参数配置上。

2Bandit结合贝叶斯优化，就构成了传统的AutoML的核心

3Bandit同样适合于深度AutoML中nas任务，因为大的学习率，在前期可能确实会加快收敛，但是一段时间后，可能就会震荡了，最后的收敛精度可能就很低。

5.3进化算法

一般的进化算法其实大同小异，差别在如何选择变异，有比较细的变异，比如在Large-Scale Evolution of Image Classifiers这篇文章中，就定义了非常具体的变异，比如有改变通道数量，改变filter大小，改变 stride等等；而在Simple And EfficientArchitecture Search for Convolutional Neural Networks这篇论文中，它的变异，就借鉴了现有公认的比较好的结构，加深网络就用conv-bn-relu3件套，加宽网络加大通道数量，增加skip connection。

这些进化算法在做自动模型选择时，每次迭代都不可避免的需要在整个数据集上跑若干个epoch，而每次迭代都有许多个变异，又需要很多次迭代，导致最后的训练时间太久。

5.3.1fine-tune基础上的进化

Simple And Efficient Architecture Search for Convolutional NeuralNetworks这篇论文提出，我们先用一个成熟的模型去训练(也可以fine-tune训练)，然后在这个模型的基础上去变异，变异之后用fine-tune 训练几个epoch即可。这带来两个好的结果：

1fine tune减少了大量的训练时间

2我们最后拿出来的模型，至少不比成熟模型差

5.3.2辅助网络初始化参数

SMASH:One-Shot Model Architecture Search through

HyperNetworks在这篇论文中，介绍了一种利用辅助网络给不同的网络初始化参数，从而无需重训练的方法。

在一堆待搜索的网络结构中，随机挑选数据和网络结构，用辅助网络负责参数初始化，然后训练用梯度下降训练这个辅助网络。在该辅助网络训练的足够好之后，就可以用它给各个不同的网络初始化参数，然后测试 validation loss，最后挑出最优的网络结构，从头开始正常训练。

该方法通过训练一次辅助网络，避免每个网络都需要训练的情况，使得训练时间大大减小。

强化学习在nas和ho两方面都有应用。

用RNN作为controller，产生网络结构，然后根据收敛精度调节 rnn。

将整个网络分为两种cell，Normal cell和Reduction cell，每个 cell有B个block组成，而一个cell由rnn生成的过程如图2所示：

1.选择一个hidden layer A

2.选择一个hidden layer B

3.为A选择一个op

4.为B选择一个op

5.选择一个结合op

6.重复1-5步骤B次，生成一个cell

该方法现在cifarl0上寻找到两种cell的结构，然后迁移imagenet 上。

1.每个cell有B个block组成，B是人为设定的值，这里被设为了 5；

2.cell的数量及cell的排序顺序都是提前订好的；

因此在这个网络结构的搜索中，模型的探索空间有限，同时它在 cifar10上进行训练，因此它的速度还不错。

5.4.2强化学习-超参数

用RNN作为optimizer的controller，产生optimizer，然后用小的cnn模型训练5个epoch，得到的val_acc作为reward，训练。

将每个optimizer抽象的表达为：

Δw＝λ*b(u₁(op₁)，u₂(op₂))

如图3所示；

最后产生了两类optimizer：

·PowerSign：α^{f(t)*sign(g)*sign(m)}*g.Some sampled

update rules in this family include：

-e^sign(g)*sign(m)*g

-e^{ld*sign(g)*sign(m)}*g

-e^{cd*sign(g)*sign(m)}*g

-2^{sign(g)*sign(m)}*g

·AddSign：(α+f(t)*sign(g)*sign(m))*g.Some

sampled update rules in this family include：

-(1+sign(g)*sign(m))*g

-(1+ld*sign(g)*sign(m))*g

-(1+cd*sign(g)*sign(m))*g

-(2+sign(g)*sign(m))*g

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种新型AUTOML框架，其特征在于，该AUTOML框架由三部分构成：特征工程、模型选择、算法选择；

2.根据权利要求1所述的一种新型AUTOML框架，其特征在于：所述特定的特征增强方法包括特征选择、特征降维、特征生成、以及特征编码。

3.根据权利要求1所述的一种新型AUTOML框架，其特征在于：模型选择相应地，AutoML的目的就是自动选择出一个最合适的模型，并且能够设定好它的最优参数。

4.根据权利要求1所述的一种新型AUTOML框架，其特征在于：将特征工程、模型选择、算法选择步骤整合起来，一个完整的AutoML过程可以分成这么两类：一类是将以上的特征工程、模型选择、算法选择整合成一个完整的pipeline；另一类则是Network ArchitectureSearch，自动地学习到最优的网络结构。

5.根据权利要求1所述的一种新型AUTOML框架，其特征在于：该AUTOML框架还具有模型评估，其具有五种评估方式：直接在目标数据上进行评价，这是被使用最多的策略；当数据样本量非常大时，采样一些样本进行评价；当遇到一些极端情况使得网络表现效果不好时，可以考虑进行early stop；将之前学习过的参数重复利用在新任务上，这在两种任务配置差不多时可用；对于一些可量化的配置，可以用共轭评价法进行。