CN108363714A

CN108363714A - 一种方便数据分析人员使用的集成机器学习的方法及系统

Info

Publication number: CN108363714A
Application number: CN201711393846.6A
Authority: CN
Inventors: 李雪鹏; 翟昶; 于上上; 冯博; 毛智愚
Original assignee: Beijing Letter To Princeton Technology Co Ltd
Current assignee: Beijing Letter To Princeton Technology Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-08-03

Abstract

本发明涉及机器学习技术领域，特别涉及一种方便数据分析人员使用的集成机器学习的方法及系统。所述方法包括以下步骤：(1)数据探索；(2)数据清洗；(3)特征提取；(4)特征选择；(5)样本采样；(6)模型训练；(7)模型优化；(8)模型融合；(9)模型可解释性；(10)自然语言处理。所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块。本发明为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程，用20％的精力完成建模流程，把80％的精力放在对业务的理解和对模型应用上，深度理解业务，更好的实现业务人员对于模型的要求。

Description

一种方便数据分析人员使用的集成机器学习的方法及系统

技术领域

本发明涉及机器学习技术领域，特别涉及一种方便数据分析人员使用的集成机器学习的方法及系统。

背景技术

大数据建模的行业痛点有两个，第一，数据清洗任务繁重且机械，包括数据清洗工作任务重、时间紧张。不同项目的数据清洗功能代码难以复用。第二，建模流程繁琐，包括“建模-评估-调参-评估”的流程耗时并且繁琐。模型融合过程复杂繁琐。传统的机器学习开发人员只用20％的时间理解业务，却把80％的精力用于对数据的清洗、模型的调参等建模工作上，最终模型与业务期望往往差别较大。所有市场上急需推出一款产品，帮助机器学习开发人员简化建模流程，把更多的时间用于业务的理解上，提高工程开发的效率。

发明内容

针对背景技术中的问题，本发明的目的在于提出一种方便数据分析人员使用的集成机器学习的方法及系统。本发明从数据探索、数据清洗、模型建立、模型融合4大点来展示和设计该工具，为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程，用20％的精力完成建模流程，把80％的精力放在对业务的理解和对模型应用上，深度理解业务，更好的实现业务人员对于模型的要求。

为实现上述目的，本发明提出如下技术方案：

一种方便数据分析人员使用的集成机器学习的方法，其特征在于：所述方法包括以下步骤：

(1)数据探索：针对原始数据表，输出各个字段的情况；指定目标字段及特定分析字段列表，输出各个字段与目标字段的关联分析结果；针对原始数据表，提供离群样本检测模板，输出潜在的离群样本点；针对原始数据表，提供二维组合特征探索分析模板，输出潜在的二维特征组合及组合方式；

(2)数据清洗：针对原始数据表，提供常规的数据清洗模板；

(3)特征提取：针对含主键的数据集，含主键的时间序列，蕴含时间先后的记录；

(4)特征选择：使用特征向量和目标值共同决定保留最重要的特征维度。

(5)样本采样：针对原始数据表，按照一定正负样本比例，进行降采样或者过采样或按照主键进行采样；

(6)模型训练：单一模型的训练及测试过程模板，输出训练时长、各项评估指标的值、PR曲线、ROC曲线、重要特征分析、过拟合判断，模型生成报告，输出进度条并预估时间；

(7)模型优化：对多个模型、多个参数列表，进行训练，针对指定的评估指标，选择出最优的模型参数；

(8)模型融合：提供不同样本子集、不同特征集合训练的模型融合工具包；

(9)模型可解释性：通过模型结果的可视化分析、模型结果中组合特征分析等，输出模型解释性信息；

(10)自然语言处理：对语言文字进行分析，统计词频，分析语义。

进一步地，所述步骤(1)的具体过程如下：

首先加载原始数据，第二步进行缺失值分析，之后依次进行异常值分析，数据分布统计，最后根据之前分析结果，自动生成word版本的结果报告。

进一步地，所述步骤(8)的具体过程如下：

首先读取数据，进行数据清洗以及特征选择后，使用多种模型，对数据集依次进行建模，并保存所有建模结果；之后对各模型的结果进行处理，进行投票或是堆栈法进行模型融合，最后输出最优结果。

进一步地，所述步骤(9)的具体过程如下：

加载数据并对数据进行建模处理，之后对建模结果进行展示，然后分析各项特征的权重，最后输出原因报告。

一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块；

所述数据处理模块用于对原始数据集进行统计性的分析，以达到直观表现数据集的整体情况的功能，并对其中影响建模结果的数据进行处理；

所述特征处理模块用于对原始数据进行加工，创建模型可以识别的特征数据；并对创造的特征进行筛选，剔除相关性较小的特征，以提高模型效率；

所述模型处理模块用于模型训练，测试以及结果调优内容；

所述自然语言处理模块用于当原始数据不是表格，而是语言文字时，对语言文字进行初步处理，得到相关表格。

进一步地，所述数据处理模块包含数据探索和数据清洗两个子模块；

数据探索模块包含每个字段信息的情况、字段的关联分析和利群样本点分析；

所述字段的关联分析用于指定目标字段及特定分析字段列表，输出各个字段与目标字段的关联分析结果；

所述利群样本点分析用于提供离群样本检测模板，输出潜在的离群样本点；

数据清洗模块的功能包含删除重复值、缺失值处理、阈值处理、离散化处理、二值化处理、归一化/标准化处理和排序处理。

进一步地，所述特征处理模块包含特征提取和特征选择两个模块；

所述特征提取模块用于对经过清洗的数据进行特征提取，包括根据记录进行特征提取以及根据主键分组后进行特征提取；

所述特征选择模块用于对新特征提取完毕的数据集进行特征选择，选出与目标值相关性最高的特征，删除低相关性的特征。

进一步地，所述模型处理模块包括样本采样模块、模型训练模块、模型参数优化模块、模型融合模块、模型发布模块和模型可解释性模块；

所述样本采样模块用于针对原始数据表，按照一定正负样本比例，进行降采样或者过采样；针对原始数据表，按照主键进行采样；

所述模型训练模块包括对gcForest模型、xgboost模型、RandomForest模型、ExtraTrees模型、GBDT模型和LightGBM模型的训练，用于对各模型进行模型训练及预测，输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选；对各模型进行调参，输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选；

所述模型参数优化模块用于在多种集成算法模型中，不改变正负样本判定阈值的情况下进行模型参数寻优；在多种集成算法模型中，改变正负样本判定阈值的情况下进行模型参数寻优；

所述模型融合模块用于把多种模型结果进行整合，以实现模型的效果调优功能；

所述模型发布模块用于对模型代码本身进行加密，已达到保证代码不被盗用的功能；

所述模型可解释性模块用于通过模型结果的可视化分析、模型结果中组合特征分析，输出模型解释性信息。

进一步地，所述模型融合模块包括投票模块和堆栈模块；

所述投票模块用于在不改变正负样本判定阈值的情况下进行投票；在改变正负样本判定阈值的情况下进行投票；

所述堆栈模块用于根据配置文件结构自动构建堆栈，并且目前可以通过对堆栈构造函数的配置实现市面上基本所有的主流堆栈模式；提供训练，预测，评分预测，模型评分函数帮助用户显式而可控的训练模型；提供堆栈优化函数帮助用户进一步提升已有堆栈的性能。

进一步地，所述自然语言处理模块包括词典生成模块、分词模块和文本特征提取模块；

所述词典生成模块用于生成分词功能需要的词典，词典是分词模块的基础；

所述分词模块用于对成段的语料本身进行处理，处理结果为把语料分解为关键词，根据关键词情况再进行之后的分析；

所述文本特征提取模块用于从语料中提取可以表述语料本身的关键词，或是语义内容。

相对于现有技术，本发明的有益效果如下：

本发明从数据探索、数据清洗、模型建立、模型融合4大点来展示和设计该工具，为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程，用20％的精力完成建模流程，把80％的精力放在对业务的理解和对模型应用上，深度理解业务，更好的实现业务人员对于模型的要求。让更多的技术人员成长为行业专家，建立更符合客户业务需求的大数据模型。让建模技术门槛进一步降低，让更多人有机会成为大数据建模方面的技术专家，降低整个行业的技术成本。

附图说明

图1是本发明的整体的系统框架图。

图2是数据探索流程图。

图3是数据清洗流程图。

图4是特征提取流程图。

图5是特征选择流程图。

图6是样本采样流程图。

图7是模型训练流程图。

图8是参数优化流程图。

图9是模型融合流程图。

图10是模型可解释性流程图。

图11是词典生成流程图。

图12是分词流程图。

图13是文本特征提取流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明的具体实施方案作详细的阐述。这些具体实施方式仅供叙述而并非用来限定本发明的范围或实施原则，本发明的保护范围仍以权利要求为准，包括在此基础上所作出的显而易见的变化或变动等。

本发明结构设计采用spark框架作为基础平台开发，对结构化数据、半结构化数据和非结构化数据进行读取处理。数据通过spark平台的运算，将结果以数据文件、DataFrame和word报告的形式进行输出。

如图1所示，系统的功能包含数据处理、特征处理、模型处理和自然语言处理4个大的功能点，包括数据探索、数据清洗、特征工程、样本采样、模型训练、模型参数优化、模型融合、模型发布、模型可解释性以及自然语言处理等小功能点。

各模块详细设计如下：

1数据处理

本模块包含数据探索和数据清洗两个子模块。

1.1数据探索

本模块功能包含每个字段信息的情况，如缺失值比例、异常值情况、分布情况等等。字段的关联分析，指定目标字段及特定分析字段列表，输出各个字段与目标字段的关联分析结果。利群样本点分析，提供离群样本检测模板，输出潜在的离群样本点。

如图2所示，实现该模块的具体流程为：该模块首先需要加载原始数据。第二步进行缺失值分析，之后依次进行异常值分析，数据分布统计，最后根据之前分析结果，自动生成word版本的结果报告。

本模块中包含以下子模块，使用过程中可以选择全部或部分子模块，以列表方式给出。可使用的子模块包括：数据维度展现，缺失值处理，数值型属性筛选，异常值分析，数值分布分析，目标字段相关性分析。

本模块还有一些参数可供使用者调整：离散值属性个数上限，是否生成报告，是否生成附录。

1.2数据清洗

本模块功能包含：删除重复值、缺失值处理、阈值处理、离散化处理、二值化处理、归一化/标准化处理、排序处理。

如图3所示，实现该模块的具体流程为：首先需要加载原始数据，之后依次进行缺失值处理，异常值处理，离散化处理，归一化处理。最后模块执行结果可以为数据文件，word文档，以及程序中间结果。

详细的处理功能包含给出基本的统计描述，删除重复值，确实值处理(包括丢弃、均值取代、前值填充、后值填充、常值填充)、阈值控制、离散化、二值化、归一化、排序。

本模块还有一些参数可供使用者进行调整：针对不同列采用不同方式的数据清洗配置字典。

2特征处理

本模块功能包含特征工程里的特征提取和特征选择两个模块。

2.1特征提取

对经过清洗的数据进行特征提取，包括：根据记录进行特征提取以及根据主键分组后进行特征提取。

如图4所示，实现该模块的具体流程为：首先需要加载原始数据，然后进行数据预处理，之后依次进行相关性分析，PCA分析，特征向量计算，最后，根据以上分析结果，生成数据文件，word报告，或是程序中间结果数据。

特征生成主要包含以下方式：

(1)自定义统计函数算子，生成新特征的逻辑，对根据条件筛选出的子视图进行新特征计算

(2)采用工具内置的算子生成新特征，包括：'full','mini','efficient'三种模式。其中'full'模式中采用所有算子(耗时最长)，'mini'模式中采用最少数目的统计算子(耗时最短)，'efficient'模式采用较多数量的计算效率高的算子(耗时较长)

2.2特征选择

对新特征(派生特征)提取完毕的数据集进行特征选择，选出与目标值相关性最高的特征，删除低相关性的特征。

如图5所示，实现该模块的具体流程为：首先要获得上一部生成的原始特征数据，之后对这些特征进行选择。再使用算法模型对筛选出的特征进行评估。假如结果不满足要求，则返回特征选择步骤，重新进行特征选择，并再次进行结果评估，直到满足要求。然后保存特征属性，并生成word报告。

该模块会对新特征(派生特征)提取完毕的数据集进行特征选择，选出与目标值相关性最高的特征，删除低相关性的特征。

3模型处理

3.1样本采样

本模块包含的功能有两个，第一，针对原始数据表，按照一定正负样本比例，进行降采样或者过采样。第二，针对原始数据表，按照主键进行采样。

如图6所示，实现该模块有两种不同的流程：

第一种为首先加载原始数据，然后根据正负样本的比例，进行欠采样或者过采样，之后生成新的数据集，并把结果保存为数据文件，并生成报告或者word文档。

第二种为首先加载原始数据，然后根据特定属性作为主键，进行划分出的比例，进行采样，之后生成新的数据集，并把结果保存为数据文件，并生成报告或者word文档。

模块中包含参数用于使用者进行调整，以少数类的样本数量为1时，多数类的比例数，定义域一般为[1,1000]。例如：原来少数类样本：多数类样本比例＝1:1000，定义数值为10的时候，经过欠采样得到的少数类样本：多数类样本比例＝1:10。

3.2模型训练

如图7所示，实现该模块的具体流程为：首先读取数据，进行数据清洗以及特征选择后，进行建模.最后输出建模结果。

其中模型主体包含LightGBM模型、gcForest模型、xgboost模型、随机森林模型、决策树模型和GBDT模型。

3.2.1.gcForest模型

该模型进行训练，主要功能包括：深度森林进行模型训练及预测，输出深度森林训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，模型生成报告可选。对深度森林进行最优参数寻找，输出深度森林最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，模型生成报告可选。

3.2.2.xgboost模型

该模型进行训练，主要功能包括：xgboost进行模型训练及预测，输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。对xgboost进行调参，输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。

3.2.3.随机森林模型

该模型进行训练，主要功能包括：进行模型训练及预测，输出随机森林训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。对randomforest进行调参，输出随机森林最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。过拟合评估包括：1.输出新划分的训练集与测试集的precision score,recallscore,f1 score,并对结果进行bar plot,使其更易观察。2.计算交叉验证集上的precision score,recall score,f1 score。3.改变正负样本比例，观察三种指标变化情况，有助于重新对数据进行处理，重新选择抽样方法。

3.2.4.决策树模型

采用决策树进行模型训练，主要功能包括：决策树进行模型训练及预测，输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。对决策树进行调参，输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。

3.2.5.GBDT模型

采用GBDT进行模型训练，主要功能包括：进行模型训练及预测，输出GBDT训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。对GBDT进行调参，输出GBDT最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。

3.2.6.LightGBM模型

主要功能包括：lightgbm进行模型训练及预测，输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。对lightgbm进行调参，输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线，过拟合评估，模型生成报告可选。

3.3模型参数优化

本模块的功能有两个，第一，多种集成算法模型，不改变正负样本判定阈值的情况下进行模型参数寻优。第二，多种集成算法模型，改变正负样本判定阈值的情况下进行模型参数寻优。

如图8所示，实现该模块的具体流程为：首先读取数据,进行数据清洗以及特征选择后,进行建模.之后对模型的各项参数进行调优,最后输出建模结果.

模块包含两种模式:

多种集成算法模型，不改变正负样本判定阈值的情况下进行模型参数寻优

多种集成算法模型，改变正负样本判定阈值的情况下进行模型参数寻优

3.4模型融合

如图9所示，实现该模块的具体流程为：首先读取数据,进行数据清洗以及特征选择后，使用多种模型，对数据集依次进行建模，并保存所有建模结果。之后对各模型的结果进行处理，进行投票或是堆栈法进行模型融合，最后输出最优结果。

3.4.1.投票

本模块的功能有两点，第一，不改变正负样本判定阈值的情况下进行投票。第二，改变正负样本判定阈值的情况下进行投票。

3.4.2.堆栈

本模块提供如下三种功能：1.根据配置文件结构自动构建堆栈，并且目前可以通过对堆栈构造函数的配置实现市面上基本所有的主流堆栈；2.提供训练，预测，评分等函数帮助用户显式而可控的训练模型；3.提供堆栈优化函数帮助用户进一步提升已有堆栈的性能；

3.5模型发布

使用网站工具http://pyob.oxyry.com/，可将源代码加密其他人难以看懂代码的实现原理。再将经过编译生成的二进制代码交付客户即可。

3.6模型可解释性

如图10所示，实现该模块的具体流程为：加载数据并对数据进行建模处理，之后对建模结果进行展示，然后分析各项特征的权重，最后输出原因报告。

模型可解释性模板，包含以下功能：通过模型结果的可视化分析(如：决策树可视化)、模型结果中组合特征分析等，输出模型解释性信息。

对已经训练好的模型和输入样本进行模型解释，目前可支持文本型(text)和表格型(tabular)数据。对文本型数据，模型通过分析文本中包含的词，给出哪些词对模型的输出结果贡献较高，并输出权重。对表格型数据，模型在输出特征值的周围采样，并分析其预测结果，最终给出对模型输出结果影响较大的特征和其对应权重。

模型解释结果包括一组原因和权重的集合：原因：对于文本型数据，一般是一个出现在样本中的单词，表示这个单词的出现对模型的预测结果有较高影响；对于表格型数据，一般是特征名称(或者经过离散化后的特征所在区间)，表示这个特征对模型输出有较大影响。权重：权重为正表示这个原因和模型预测结果正相关，为负则表示负相关；权重的绝对值表示影响程度的大小。

4自然语言处理

4.1词典生成

工具通过三个指标判断文本片段是否为一个词：出现频率，凝合度和自由度。出现频率可以直观地理解为一个文本片段整体出现在文本中的次数是否多。凝合度是指组成文本片段中的成分搭配在一起的概率，如“AB”是一个文本片段，“AB”的凝合度＝p(“AB”出现的概率)/p(“A”出现的概率)p(“B”出现的概率)。自由度是指它前后可以替换其他词搭配的自由度，可以量化为它左右两边可以搭配的词的数量。

如图11所示，实现该模块的具体流程为：加载原始语料数据，对数据进行词频统计，然后依次进行凝合度计算，自由度计算，最后生成特征词典。

4.2分词

对于中文的文本分析，在生成自定义词典后，用特定语料库的新生成词典和通用词典对文本数据进行分词。指定用户自定义词典的路径和需要切分的文本文件，对文本进行切分。

如图12所示，实现该模块的具体流程为：加载原始语料数据，生成特征词典，对语料进行分词，最后输出分析结果。

4.3文本特征提取

在分词后，对于中文的文本进行向量化。使用向量化方法：'tfidf','counts','hashing'。

如图13所示，实现该模块的具体流程为：加载原始语料数据，生成特征词典，然后进行分词，接着用TF-IDF,或者直接统计，或者哈希方式三种方式的其中一种对分词结果进行分析处理，最终输出分析结论。

Claims

1.一种方便数据分析人员使用的集成机器学习的方法，其特征在于：所述方法包括以下步骤：

(2)数据清洗：针对原始数据表，提供常规的数据清洗模板；

2.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法，其特征在于：

所述步骤(1)的具体过程如下：

3.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法，其特征在于：

所述步骤(8)的具体过程如下：

4.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法，其特征在于：

所述步骤(9)的具体过程如下：

5.一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述模型处理模块用于模型训练，测试以及结果调优内容；

6.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述数据处理模块包含数据探索和数据清洗两个子模块；

7.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述特征处理模块包含特征提取和特征选择两个模块；

8.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述模型处理模块包括样本采样模块、模型训练模块、模型参数优化模块、模型融合模块、模型发布模块和模型可解释性模块；

9.根据权利要求8所述的一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述模型融合模块包括投票模块和堆栈模块；

10.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统，其特征在于：

所述自然语言处理模块包括词典生成模块、分词模块和文本特征提取模块；