CN107516135A

CN107516135A - 一种支持多源数据的自动化监督性学习方法

Info

Publication number: CN107516135A
Application number: CN201710576402.XA
Authority: CN
Inventors: 尹建伟; 范子琨; 邓水光; 李莹; 吴健; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-12-26

Abstract

本发明公开了一种支持多源数据的自动化监督性学习方法，包括：(1)数据预处理；(2)特征工程；(3)模型与调节超参；(4)贝叶斯管道优化。本发明方法将传统的数据分析流程自动化，从根本上改进了手动调节机器学习管道的流程，在超参调节和管道优化的高耦合度上，使得系统在监督性学习算法上的扩展性大大提高，并且创新性的提出了使用遗传算法作为机器学习管道的超级参数的调节，大大提高了自动化调节参数的时效；此外，本发明采用贝叶斯优化器对管道算法组合的优化也大大解决了组合空间爆炸的问题，最终结果上提高了自动化监督性学习方法的准确性和时效性。

Description

一种支持多源数据的自动化监督性学习方法

技术领域

本发明属于机器学习技术领域，具体涉及一种支持多源数据的自动化监督性学习方法。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，其中机器学习分为了监督性学习和无监督性学习两种。目前机器学习的发展已经进入全新的阶段，研究的领域也获得空前的扩大，包括专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图象识别、故障诊断、自然语言理解、机器人和博弈等领域。

随着机器学习的发展，机器学习仍然是相对很困难的问题。毫无疑问，通过研究来推进机器学习算法的进步会很困难，这需要创造力、实验以及坚持。由于现成的算法、模型可以很好的为你提供服务，这就阻碍了机器学习的发展。其中机器学习的难题之一就是建立直觉。建立直觉的意思是采用某种工具来应对问题，这就需要知道可用的算法、模型、风险权衡以及每一个限制条件，这时候自动化机器学习成为了人们感兴趣的话题，有了自动化的机器学习，能够自动的选择算法、超参调整、迭代建模以及模型评价，这样就能够解决机器学习过程复杂繁复的工作。

目前自动化机器学习发展刚刚处于起步阶段，大量的研究课题都处于摸索阶段，整个机器学习行业，还没有利用自动化机器学习来简化机器学习流程的产品；另一方面，对于数据科学家来讲，他们大量的重复无聊的调参和对机器学习管道的设计，使得他们急需一个能够减轻他们工作的工具，对于清晰规范的数据集，能够简单的设计调节出一个最佳的机器学习流程。

发明内容

鉴于上述，本发明提供了一种支持多源数据的自动化监督性学习方法，其将传统的数据分析流程自动化，从根本上改进了手动调节机器学习管道的流程，在超参调节和管道优化的高耦合度上，使得系统在监督性学习算法上的扩展性大大提高。

一种支持多源数据的自动化监督性学习方法，包括如下步骤：

(1)对输入的结构化数据进行预处理，得到训练集数据和验证集数据；

(2)根据目标特征利用贝叶斯优化器为结构化数据配置最优的机器学习管道，该管道包含特征工程以及预测模型所确定采用的算子组合；

(3)将训练集数据输入至所述机器学习管道，通过遗传算法以及平衡准确率对该机器学习管道中各算子的超级参数进行调优并保存。

所述步骤(1)中对结构化数据进行预处理的过程依次包括数据转换、数据清洗以及数据划分；其中，数据转换是指将不同格式的结构化数据统一转换为CSV格式并将数据中的具体特征编码成数值形式；数据清洗是指对结构化数据中的缺失值按均值补全并去除其中重复的数据记录；数据划分是指将结构化数据中数据记录分成一份验证集和多份训练集。

所述特征工程依次包括特征预处理、特征构建以及特征选择；其中，特征预处理有5种实施方法：标准化、归一化、正则化、二值化以及不做处理，特征构建有4种实施方法：特征编码、多项式生成、降维以及不做处理，特征选择有3种实施方法：基于单变量的特征选择、基于卡方检验的特征选择以及基于互信息熵的特征选择；每一环节允许有1～3种实施方法共同作用，每一种实施方法至少具有一种算子选择。

所述预测模型采用针对离散值的分类算法或采用针对连续值的回归算法；其中，分类算法又分为二分类和多分类两种，分类算法和回归算法均具有多种算子选择。

所述步骤(2)中利用贝叶斯优化器为结构化数据配置最优的机器学习管道，具体过程如下：

2.1根据目标特征为特征预处理、特征构建、特征选择以及预测模型每一环节设定函数边界，如每一环节只允许有1～3种实施方法共同作用，多分类算法能够实现二分类问题，但二分类算法无法实现多分类问题；

2.2利用贝叶斯优化器中的开源引擎SMAC(Sequential Model-based AlgorithmConfiguration，序列化配置模型算法)建立高斯过程，并从所有可能的算子组合中初始采样50个点，每个点即对应一机器学习管道，这些点均服从多变量的高斯分布；

2.3根据高斯分布的特性计算这些点的均值和方差，并根据以下收获函数AF采样下一批50个点，直至收获函数AF达到最大；

AF＝μ(x)+β^1/2σ(x)

其中：x为由当前采样得到50个点组成的集合，μ(x)和σ(x)分别为集合x的均值和方差，β为权重系数；

2.4对于最终采样得到的50个点，利用验证集数据计算每个点对应的平衡准确率，取平衡准确率最大的点作为最优的机器学习管道。

所述步骤(3)中对机器学习管道中各算子的超级参数进行调优，具体过程如下：

3.1根据各算子超级参数的取值范围，利用开源遗传算法引擎Deap生成100组超参序列作为第一代种群，所述超参序列包含机器学习管道中各算子所有超级参数的具体值；

3.2利用训练集数据分别在这100组超参序列下通过特征工程训练预测模型，并利用验证集数据计算对应预测模型的平衡准确率；

3.3根据平衡准确率对这100组超参序列从大到小进行排列，使用NSGA-II算法从中选取出最优的20组超参序列；

3.4将选取出的20组超参序列复制5份得到100组超参序列，对这100组超参序列按5％、5％、30％、30％、30％进行划分，使其中5％的超参序列与另外5％的超参序列进行杂交，使其中30％的超参序列进行单点变异，使另外30％的超参序列进行插入变异，使剩下30％的超参序列进行收缩变异，经杂交变异后得到的100组超参序列即为第二代种群；

3.5根据步骤3.2～3.4进行迭代并更新每一代的Pareto效率值(Paretoefficiency)，直至找到Pareto最优解所对应的一代种群，并选取这代种群中平衡准确率最大的一组超参序列作为最优结果并保存。

所述平衡准确率的计算表达式为：f＝(x_recall+x_precise)/2；其中，f为平衡准确率，x_recall和x_precise分别为验证集数据输入至预测模型得到的召回率和准确率。

本发明的有益技术效果如下：

(1)本发明引入了多源数据适配方法，整合了数据科学领域常用的几类数据格式，快速转换，降低了数据格式多样性的复杂度；另外本发明引入了一整套自动化数据预处理流程，针对不同类别的数据集统一适配，最大化节省预处理时间以及降低人工干预。

(2)本发明引入了基于遗传算法的超参调节方法，能够实现监督性学习包括分类和回归模型算法中超级参数调节的自动化；此外本发明利用遗传算法优良的剪枝条件，大大降低了参数组合的解空间，从而以时间代价低的方式减少模型超参调节的人工干预。

(3)本发明引入了基于贝叶斯优化器SMAC算法的机器学习管道的自动选择，针对机器学习管道流程并结合SMAC算法的特点，大大提高了管道解空间的求解速度，从而进一步减少人工对于整个机器学习流程的干预，并且针对不同的数据集，本发明提出的方法比随机森林方法提升15％到65％的效率。

附图说明

图1为本发明方法的系统实现结构示意图。

图2为本发明方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1和图2所示，本发明支持多源数据的自动化监督性学习方法，包括如下步骤：

(1)多源数据结构的预处理。

依次对源数据进行格式转换、统计分析、缺失值处理、去重处理、训练集划分和类别确定，输出为统一格式的D_train和D_test。

1.1对不同格式包括CSV、JSON、DAT、Parquet、SAS共5种的源数据进行格式的转换，系统采用的策略为：CSV、JSON、Parquet格式使用Spark SQL库进行转换，其具体使用了基于Dataframe(Spark SQL库的内存数据格式)的内存数据结构来进行转换；而对SAS和DAT格式的转换，主要流程如下：

1.1.1对于SAS和DAT分别使用开源库SASFileReader和DatFileReader将数据分批加载到内存；

1.1.2按行读取数据进来，根据值和分值符号进行提取；

1.1.3对于输入的目标量Y和特征量X，按照第一列是Y，其余列是X的顺序分批次写入到CSV文件中；

1.2对统一的文件进行统计分析，所有分析的值将会被用于进行后面的预处理或特征工程阶段，包括：

1.2.1对文件目标每一个字段的缺失值即为空值(包括“”、“NaN”、“Null”、“None”)，直接求和统计检测；

1.2.2异常点即离群点，实用3σ原则进行检测，即异常值为一组测定值中与平均值的偏差超过3倍标准差的值；如果数据服从正态分布，距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003，其中σ代表标准差，μ代表均值，属于极个别的小概率事件；如果数据不服从正态分布，则使用远离平均值的5倍标准差来描述；

1.2.3均值、方差、中位数、偏度和峰度均使用Pandas开源库进行统计和计算，而数据分布包括了取值类型以及取值类别(离散或连续)。

1.3对缺失值以列为单位进行补全，如果字段的缺失值＞80％，则直接抛弃字段，否则使用均值替代法补全，即对于正常分布的数据可以使用均值代替，如果数据是倾斜的，使用中位数代替，这样做的好处是所有的值都有代替方案，对于一般意义的数据分析这是较好的替代方法；另外，数据倾斜的判断方法使用偏度和峰度来作判断，即以及本实施方式规定|偏度|＞2或者|峰度|＞2的字段认为是数据倾斜的，补全方式使用Imputer函数补全。

1.4对数据进行去重处理，具体对每一行作为整体存入集合中，利用集合的不可重复性进行筛选。

1.5对筛选后的数据进行划分：7:3的比例划分D_train(X训练集和Y训练集)以及D_test(X验证集和Y验证集)，并且将训练集D_train＝{(x₁，y₁)，...，(x_n，y_n)}划分为20份而D_test不做处理，这样的划分能够缩短后面的管道运行时间；

1.6对Y值的分布情况，确定其类别，分别有二分类，多标签分类和回归，返回D_train和D_test；如果Y值为离散型：Y＜2，直接返回错误，Y＝2则为二分类，Y＞3则为多分类；如果Y为连续型：则为回归问题。

(2)特征工程。

特征工程接受步骤(1)返回的D_train和D_test，包括了特征预处理、特征构建和特征选择三个部分；预处理主要为了使数据的纯度较为统一，而特征构建是为了丰富特征的维度，特征选择则是为了消除无关特征，特征工程使用的方法均使用了scikit-learn中的preprocessing包里面的内容，具体地：

2.1进行特征预处理，包括：

2.1.1标准化：其目标在于统一量纲，通过使用标准化目标函数f(x)＝(x⁽ⁱ⁾-μ_x)/σ_x，其中μ_x表示均值，σ_x表示方差，在实施工程中具体函数与超参个数(上标)为：StandardScaler⁽²⁾；

2.1.2归一化：把目标值变到0～1之间，其目标函数为X_norm＝(X-X_min)/(X_max-X_min)，与标准化有相似的作用，其中X_min表示特征值最小值，X_max表示最大值；在实施工程中具体函数与超参个数为：MinMaxScaler⁽¹⁾、MaxAbsScaler⁽¹⁾；

2.1.3正则化：目标在于避免过拟合，使用的目标函数为L1正则化：以及L2正则化：其中C₀代表原始的代价函数，ω代表所有参数的平方的和，n代表训练集的样本大小，λ是正则项系数，权衡正则项与C₀项的比重；在实施工程中具体函数与超参个数为：Normalizer⁽¹⁾；

2.1.4二值化：对布尔值进行0、1编码，在实施工程中具体函数与超参个数为：Binarizer⁽¹⁾；

2.1.5不做处理：在管道中不添加特征预处理。

2.2进行特征构建，包括：

2.2.1基于One-Hot Encoder方法的特征编码方法，在实施工程中具体函数与超参个数为：OneHotEncoder⁽²⁾、DictVectorizer⁽²⁾和FeatureHasher⁽²⁾；

2.2.2基于Polynomial Features生成多项式特征方法，目标函数包括f(x)＝x，f(x)＝x²，f(x₁，…，x_n)＝Πx_i，在实施工程中具体函数与超参个数为：PolynomialFeatures⁽³⁾；

2.2.3降维方法包括PCA(Principal Component Analysis，主成分分析)和ICA(Independent Component CorrelationAlgorithm，独立成分分析)，通过特征编码和多项式生成特征的方法将新扩展的特征组合在一起后，再通过降维方法进行降维，提升训练速度；在实施工程中具体函数与超参个数为：PCA⁽²⁾、KernelPCA⁽⁵⁾、FastICA⁽⁴⁾、TruncatedSVD⁽⁵⁾；

2.2.4不做处理：在管道中不添加特征构建，保留原始特征。

2.3进行特征选择，包括：

2.3.1基于单变量的特征选择，基于单变量的统计测试来选择最佳特征，在实施工程中具体函数与超参个数为：SelectPercentile⁽²⁾、GenericUnivariateSelect⁽³⁾；

2.3.2基于卡方检验的特征选择，在实施工程中具体函数与超参个数为：ChiSqSelector⁽¹⁾；

2.3.3基于互信息熵的特征选择，在这种选择中，系统分别选择20％、30％和50％三种信息熵排序，信息熵的计算公式为：在实施工程中具体函数与超参个数为：RandomizedLasso⁽³⁾、RandomForestRegressor⁽³⁾。

(3)选择预测模型并调节超参。

此部分主要为选择模型，并且装配管道后进行超参的调节，包括了模型选择、组装管道、加载超参以及超参调节(包括构建超参群、计算适应度、NSGAII选择、杂交与变异以及计算Pareto最优解)，具体地：

首先，系统会根据步骤(1)中的类别确定以确定目标量Y为分类模型(二分类/多分类)或是回归模型，算法均取于scikit-learn的classification或是regression包中，然后读取贝叶斯分类器中的管道算子，组装成管道后，对管道中所有算法(包括特征工程的算法和模型选择的算法)进行调参，其中模型包括了以下：

分类算法及其超参个数为：Adaboost Classifier⁽⁴⁾、Bernoulli NB⁽²⁾、DecisionTree⁽⁴⁾、Extra Trees Classifier⁽⁵⁾、Gaussian NB⁽⁶⁾、Gradient Boosting Classifier⁽⁶⁾、K-NearestNeighbors Classifier⁽³⁾、LDA⁽⁴⁾、Lib Linear_SVC⁽⁴⁾、Lib SVM_SVC⁽⁷⁾、Multinomial NB⁽²⁾、Passive Aggressive⁽³⁾、QDA⁽²⁾、Random Forest⁽⁵⁾、SGD⁽¹⁰⁾、GradientBoosting Classifier⁽¹⁰⁾；

回归算法及其超参个数为：Adaboost Regressor⁽⁴⁾、ARD Regression⁽⁶⁾、DecisionTree⁽⁴⁾、Extra Trees Regressor⁽⁵⁾、Gaussian Process⁽³⁾、Gradient Boosting⁽¹¹⁾、K-Nearest Neighbors Regressor⁽³⁾、Lib Linear_SVR⁽⁴⁾、Lib SVM_SVR⁽⁷⁾、Random Forest⁽⁵⁾、Ridge Regression⁽³⁾、SGD⁽¹⁰⁾、XGradient Boosting Regressor⁽¹⁰⁾。

然后，系统会从所有超参的取值范围中选取一组使得这个管道达到最优“平衡预测值”的解记录并返回，具体流程为：

3.1使用开源遗传算法引擎Deap，根据超参取值范围生成默认100组随机的超参群，称为第一代种群；

3.2应用训练数据分别训练这100组超参下的分类模型，而个体适应度函数为“平衡准确率”，计算每一组超参的分类模型的表现；

个体适应度函数中的平衡准确率计算函数为f(x)＝(x_recall+x_precise)/2，x_recall和x_predict的值为使用X验证集运行训练模型得到的Y_predict和目标验证集Y_test比值而得到的预测结果，其中x_recall＝x_right/(x_right+x_{rightButNotFind})，而其中x_precise＝x_right/(x_right+x_wrong)，x_recall代表召回率，x_precise代表准确率，x_right代表预测准确的值，x_{rightButNotFind}代表正确却没有被预测到的值，x_wrong表示错误预测的值。

3.3根据每一代种群的平衡准确率从大到小进行排序，使用NSGA-II算法选择出最优的20组超参；

3.4将最优的20组超参复制成5份，形成新的100组超参成为新一代的超参群作为子代群；

3.5对于子代群，选择其中的5％与另外的5％进行杂交，另外的90％进行随机等概率操作，操作包括单点变异、插入变异和收缩变异三种，每一种出现的概率为1/3；

3.6对于每一代，算法更新非支配Pareto最优解，然后迭代这个过程，选出提高准确率的一支，淘汰降低准确率的一支，直到找到Pareto最优解的超参组，停止并返回最优超参。

Pareto最优解即V-min f(x)＝[f₁(x)，f₂(x)，…，f_n(x)]^T，即使得向量V-min达到极小化，即f_i(x)都尽可能的达到极小值；其中x代表了超参组，f_i(x)代表了每一个超参组在每一个产生下一代过程中的“平衡准确率”的损失值的变化过程(算法保证呈现递减趋势)。

(4)贝叶斯管道优化。

这个部分贯穿步骤(2)和(3)，其中包括了加载方法配置参数，选择/组合管道算子，创建SMAC Scenario以及更新最优解并迭代，具体地：

首先，针对类别和统计分析的结果加载方法以及所有配置参数；

然后，选择或是组合所有的方法进入管道(Pipeline，其负责所有机器学习过程的顺序记录以及运行时的时序控制，使用scikit-learn的Pipeline模块)，具体的流程为：对管道中的每一步列举范围，标准流程为特征预处理-特征构建-特征选择-模型选择，根据类别确定，对每一步的函数确定边界；由于不同的类别之间有排他性，所以只针对每一个类别，确定1～3种方法进行采点使用。

进而创建SMAC的Scenario，具体的流程为：

4.1首先建立高斯过程，这个过程由开源工具SMAC自动完成；

4.2然后初始化对所有的方法进行初始采点50个(由不同的线程保证完成)，称为先验点(即为机器学习管道)，假设其为高斯过程中的一部分，那么这些先验点服从多变量的高斯分布，根据高斯分布的特性，计算出均值和方差(先验点的均值和方差为SMAC对机器学习管道算子的量化评估值，这个量化评估值会对每一个算子之间的距离进行量化计算便于收获函数的取样使用)；

4.3针对这些组合，进行特征预处理，选择模型等操作得出一个解(即这个管道下数据的平衡准确率)，然后根据以下AcquisitionFunction(即收获函数)选取下一批50个的采样点的位置：

其中：μ_t-1和σ_t-1(x)为均值和标准差，β^1/2为一个权重参数。

根据这个公式就可以算出下一次取样的x_t值，然后根据不断的取样，采样到一定数量后，根据高斯过程和收获函数的特性，取样点会趋近最大值即x_max＝argmax(AF)，在找到最大值后(即最优机器学习管道)返回。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种支持多源数据的自动化监督性学习方法，包括如下步骤：

2.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述步骤(1)中对结构化数据进行预处理的过程依次包括数据转换、数据清洗以及数据划分；其中，数据转换是指将不同格式的结构化数据统一转换为CSV格式并将数据中的具体特征编码成数值形式；数据清洗是指对结构化数据中的缺失值按均值补全并去除其中重复的数据记录；数据划分是指将结构化数据中数据记录分成一份验证集和多份训练集。

3.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述特征工程依次包括特征预处理、特征构建以及特征选择；其中，特征预处理有5种实施方法：标准化、归一化、正则化、二值化以及不做处理，特征构建有4种实施方法：特征编码、多项式生成、降维以及不做处理，特征选择有3种实施方法：基于单变量的特征选择、基于卡方检验的特征选择以及基于互信息熵的特征选择；每一环节允许有1～3种实施方法共同作用，每一种实施方法至少具有一种算子选择。

4.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述预测模型采用针对离散值的分类算法或采用针对连续值的回归算法；其中，分类算法又分为二分类和多分类两种，分类算法和回归算法均具有多种算子选择。

5.根据权利要求3所述的自动化监督性学习方法，其特征在于：所述步骤(2)中利用贝叶斯优化器为结构化数据配置最优的机器学习管道，具体过程如下：

2.2利用贝叶斯优化器中的开源引擎SMAC建立高斯过程，并从所有可能的算子组合中初始采样50个点，每个点即对应一机器学习管道，这些点均服从多变量的高斯分布；

AF＝μ(x)+β^1/2σ(x)

6.根据权利要求1所述的自动化监督性学习方法，其特征在于：所述步骤(3)中对机器学习管道中各算子的超级参数进行调优，具体过程如下：

3.5根据步骤3.2～3.4进行迭代并更新每一代的Pareto效率值，直至找到Pareto最优解所对应的一代种群，并选取这代种群中平衡准确率最大的一组超参序列作为最优结果并保存。

7.根据权利要求6所述的自动化监督性学习方法，其特征在于：所述平衡准确率的计算表达式为：f＝(x_recall+x_precise)/2；其中，f为平衡准确率，x_recall和x_precise分别为验证集数据输入至预测模型得到的召回率和准确率。