CN108363714A - 一种方便数据分析人员使用的集成机器学习的方法及系统 - Google Patents

一种方便数据分析人员使用的集成机器学习的方法及系统 Download PDF

Info

Publication number
CN108363714A
CN108363714A CN201711393846.6A CN201711393846A CN108363714A CN 108363714 A CN108363714 A CN 108363714A CN 201711393846 A CN201711393846 A CN 201711393846A CN 108363714 A CN108363714 A CN 108363714A
Authority
CN
China
Prior art keywords
model
data
feature
module
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711393846.6A
Other languages
English (en)
Inventor
李雪鹏
翟昶
于上上
冯博
毛智愚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Letter To Princeton Technology Co Ltd
Original Assignee
Beijing Letter To Princeton Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Letter To Princeton Technology Co Ltd filed Critical Beijing Letter To Princeton Technology Co Ltd
Priority to CN201711393846.6A priority Critical patent/CN108363714A/zh
Publication of CN108363714A publication Critical patent/CN108363714A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器学习技术领域,特别涉及一种方便数据分析人员使用的集成机器学习的方法及系统。所述方法包括以下步骤:(1)数据探索;(2)数据清洗;(3)特征提取;(4)特征选择;(5)样本采样;(6)模型训练;(7)模型优化;(8)模型融合;(9)模型可解释性;(10)自然语言处理。所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块。本发明为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在对业务的理解和对模型应用上,深度理解业务,更好的实现业务人员对于模型的要求。

Description

一种方便数据分析人员使用的集成机器学习的方法及系统
技术领域
本发明涉及机器学习技术领域,特别涉及一种方便数据分析人员使用的集成机器学习的方法及系统。
背景技术
大数据建模的行业痛点有两个,第一,数据清洗任务繁重且机械,包括数据清洗工作任务重、时间紧张。不同项目的数据清洗功能代码难以复用。第二,建模流程繁琐,包括“建模-评估-调参-评估”的流程耗时并且繁琐。模型融合过程复杂繁琐。传统的机器学习开发人员只用20%的时间理解业务,却把80%的精力用于对数据的清洗、模型的调参等建模工作上,最终模型与业务期望往往差别较大。所有市场上急需推出一款产品,帮助机器学习开发人员简化建模流程,把更多的时间用于业务的理解上,提高工程开发的效率。
发明内容
针对背景技术中的问题,本发明的目的在于提出一种方便数据分析人员使用的集成机器学习的方法及系统。本发明从数据探索、数据清洗、模型建立、模型融合4大点来展示和设计该工具,为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在对业务的理解和对模型应用上,深度理解业务,更好的实现业务人员对于模型的要求。
为实现上述目的,本发明提出如下技术方案:
一种方便数据分析人员使用的集成机器学习的方法,其特征在于:所述方法包括以下步骤:
(1)数据探索:针对原始数据表,输出各个字段的情况;指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果;针对原始数据表,提供离群样本检测模板,输出潜在的离群样本点;针对原始数据表,提供二维组合特征探索分析模板,输出潜在的二维特征组合及组合方式;
(2)数据清洗:针对原始数据表,提供常规的数据清洗模板;
(3)特征提取:针对含主键的数据集,含主键的时间序列,蕴含时间先后的记录;
(4)特征选择:使用特征向量和目标值共同决定保留最重要的特征维度。
(5)样本采样:针对原始数据表,按照一定正负样本比例,进行降采样或者过采样或按照主键进行采样;
(6)模型训练:单一模型的训练及测试过程模板,输出训练时长、各项评估指标的值、PR曲线、ROC曲线、重要特征分析、过拟合判断,模型生成报告,输出进度条并预估时间;
(7)模型优化:对多个模型、多个参数列表,进行训练,针对指定的评估指标,选择出最优的模型参数;
(8)模型融合:提供不同样本子集、不同特征集合训练的模型融合工具包;
(9)模型可解释性:通过模型结果的可视化分析、模型结果中组合特征分析等,输出模型解释性信息;
(10)自然语言处理:对语言文字进行分析,统计词频,分析语义。
进一步地,所述步骤(1)的具体过程如下:
首先加载原始数据,第二步进行缺失值分析,之后依次进行异常值分析,数据分布统计,最后根据之前分析结果,自动生成word版本的结果报告。
进一步地,所述步骤(8)的具体过程如下:
首先读取数据,进行数据清洗以及特征选择后,使用多种模型,对数据集依次进行建模,并保存所有建模结果;之后对各模型的结果进行处理,进行投票或是堆栈法进行模型融合,最后输出最优结果。
进一步地,所述步骤(9)的具体过程如下:
加载数据并对数据进行建模处理,之后对建模结果进行展示,然后分析各项特征的权重,最后输出原因报告。
一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块;
所述数据处理模块用于对原始数据集进行统计性的分析,以达到直观表现数据集的整体情况的功能,并对其中影响建模结果的数据进行处理;
所述特征处理模块用于对原始数据进行加工,创建模型可以识别的特征数据;并对创造的特征进行筛选,剔除相关性较小的特征,以提高模型效率;
所述模型处理模块用于模型训练,测试以及结果调优内容;
所述自然语言处理模块用于当原始数据不是表格,而是语言文字时,对语言文字进行初步处理,得到相关表格。
进一步地,所述数据处理模块包含数据探索和数据清洗两个子模块;
数据探索模块包含每个字段信息的情况、字段的关联分析和利群样本点分析;
所述字段的关联分析用于指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果;
所述利群样本点分析用于提供离群样本检测模板,输出潜在的离群样本点;
数据清洗模块的功能包含删除重复值、缺失值处理、阈值处理、离散化处理、二值化处理、归一化/标准化处理和排序处理。
进一步地,所述特征处理模块包含特征提取和特征选择两个模块;
所述特征提取模块用于对经过清洗的数据进行特征提取,包括根据记录进行特征提取以及根据主键分组后进行特征提取;
所述特征选择模块用于对新特征提取完毕的数据集进行特征选择,选出与目标值相关性最高的特征,删除低相关性的特征。
进一步地,所述模型处理模块包括样本采样模块、模型训练模块、模型参数优化模块、模型融合模块、模型发布模块和模型可解释性模块;
所述样本采样模块用于针对原始数据表,按照一定正负样本比例,进行降采样或者过采样;针对原始数据表,按照主键进行采样;
所述模型训练模块包括对gcForest模型、xgboost模型、RandomForest模型、ExtraTrees模型、GBDT模型和LightGBM模型的训练,用于对各模型进行模型训练及预测,输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选;对各模型进行调参,输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选;
所述模型参数优化模块用于在多种集成算法模型中,不改变正负样本判定阈值的情况下进行模型参数寻优;在多种集成算法模型中,改变正负样本判定阈值的情况下进行模型参数寻优;
所述模型融合模块用于把多种模型结果进行整合,以实现模型的效果调优功能;
所述模型发布模块用于对模型代码本身进行加密,已达到保证代码不被盗用的功能;
所述模型可解释性模块用于通过模型结果的可视化分析、模型结果中组合特征分析,输出模型解释性信息。
进一步地,所述模型融合模块包括投票模块和堆栈模块;
所述投票模块用于在不改变正负样本判定阈值的情况下进行投票;在改变正负样本判定阈值的情况下进行投票;
所述堆栈模块用于根据配置文件结构自动构建堆栈,并且目前可以通过对堆栈构造函数的配置实现市面上基本所有的主流堆栈模式;提供训练,预测,评分预测,模型评分函数帮助用户显式而可控的训练模型;提供堆栈优化函数帮助用户进一步提升已有堆栈的性能。
进一步地,所述自然语言处理模块包括词典生成模块、分词模块和文本特征提取模块;
所述词典生成模块用于生成分词功能需要的词典,词典是分词模块的基础;
所述分词模块用于对成段的语料本身进行处理,处理结果为把语料分解为关键词,根据关键词情况再进行之后的分析;
所述文本特征提取模块用于从语料中提取可以表述语料本身的关键词,或是语义内容。
相对于现有技术,本发明的有益效果如下:
本发明从数据探索、数据清洗、模型建立、模型融合4大点来展示和设计该工具,为机器学习工程师、学生、老师以及机器学习爱好着提供统一的算法建模流程,用20%的精力完成建模流程,把80%的精力放在对业务的理解和对模型应用上,深度理解业务,更好的实现业务人员对于模型的要求。让更多的技术人员成长为行业专家,建立更符合客户业务需求的大数据模型。让建模技术门槛进一步降低,让更多人有机会成为大数据建模方面的技术专家,降低整个行业的技术成本。
附图说明
图1是本发明的整体的系统框架图。
图2是数据探索流程图。
图3是数据清洗流程图。
图4是特征提取流程图。
图5是特征选择流程图。
图6是样本采样流程图。
图7是模型训练流程图。
图8是参数优化流程图。
图9是模型融合流程图。
图10是模型可解释性流程图。
图11是词典生成流程图。
图12是分词流程图。
图13是文本特征提取流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明的具体实施方案作详细的阐述。这些具体实施方式仅供叙述而并非用来限定本发明的范围或实施原则,本发明的保护范围仍以权利要求为准,包括在此基础上所作出的显而易见的变化或变动等。
本发明结构设计采用spark框架作为基础平台开发,对结构化数据、半结构化数据和非结构化数据进行读取处理。数据通过spark平台的运算,将结果以数据文件、DataFrame和word报告的形式进行输出。
如图1所示,系统的功能包含数据处理、特征处理、模型处理和自然语言处理4个大的功能点,包括数据探索、数据清洗、特征工程、样本采样、模型训练、模型参数优化、模型融合、模型发布、模型可解释性以及自然语言处理等小功能点。
各模块详细设计如下:
1数据处理
本模块包含数据探索和数据清洗两个子模块。
1.1数据探索
本模块功能包含每个字段信息的情况,如缺失值比例、异常值情况、分布情况等等。字段的关联分析,指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果。利群样本点分析,提供离群样本检测模板,输出潜在的离群样本点。
如图2所示,实现该模块的具体流程为:该模块首先需要加载原始数据。第二步进行缺失值分析,之后依次进行异常值分析,数据分布统计,最后根据之前分析结果,自动生成word版本的结果报告。
本模块中包含以下子模块,使用过程中可以选择全部或部分子模块,以列表方式给出。可使用的子模块包括:数据维度展现,缺失值处理,数值型属性筛选,异常值分析,数值分布分析,目标字段相关性分析。
本模块还有一些参数可供使用者调整:离散值属性个数上限,是否生成报告,是否生成附录。
1.2数据清洗
本模块功能包含:删除重复值、缺失值处理、阈值处理、离散化处理、二值化处理、归一化/标准化处理、排序处理。
如图3所示,实现该模块的具体流程为:首先需要加载原始数据,之后依次进行缺失值处理,异常值处理,离散化处理,归一化处理。最后模块执行结果可以为数据文件,word文档,以及程序中间结果。
详细的处理功能包含给出基本的统计描述,删除重复值,确实值处理(包括丢弃、均值取代、前值填充、后值填充、常值填充)、阈值控制、离散化、二值化、归一化、排序。
本模块还有一些参数可供使用者进行调整:针对不同列采用不同方式的数据清洗配置字典。
2特征处理
本模块功能包含特征工程里的特征提取和特征选择两个模块。
2.1特征提取
对经过清洗的数据进行特征提取,包括:根据记录进行特征提取以及根据主键分组后进行特征提取。
如图4所示,实现该模块的具体流程为:首先需要加载原始数据,然后进行数据预处理,之后依次进行相关性分析,PCA分析,特征向量计算,最后,根据以上分析结果,生成数据文件,word报告,或是程序中间结果数据。
特征生成主要包含以下方式:
(1)自定义统计函数算子,生成新特征的逻辑,对根据条件筛选出的子视图进行新特征计算
(2)采用工具内置的算子生成新特征,包括:'full','mini','efficient'三种模式。其中'full'模式中采用所有算子(耗时最长),'mini'模式中采用最少数目的统计算子(耗时最短),'efficient'模式采用较多数量的计算效率高的算子(耗时较长)
2.2特征选择
对新特征(派生特征)提取完毕的数据集进行特征选择,选出与目标值相关性最高的特征,删除低相关性的特征。
如图5所示,实现该模块的具体流程为:首先要获得上一部生成的原始特征数据,之后对这些特征进行选择。再使用算法模型对筛选出的特征进行评估。假如结果不满足要求,则返回特征选择步骤,重新进行特征选择,并再次进行结果评估,直到满足要求。然后保存特征属性,并生成word报告。
该模块会对新特征(派生特征)提取完毕的数据集进行特征选择,选出与目标值相关性最高的特征,删除低相关性的特征。
3模型处理
3.1样本采样
本模块包含的功能有两个,第一,针对原始数据表,按照一定正负样本比例,进行降采样或者过采样。第二,针对原始数据表,按照主键进行采样。
如图6所示,实现该模块有两种不同的流程:
第一种为首先加载原始数据,然后根据正负样本的比例,进行欠采样或者过采样,之后生成新的数据集,并把结果保存为数据文件,并生成报告或者word文档。
第二种为首先加载原始数据,然后根据特定属性作为主键,进行划分出的比例,进行采样,之后生成新的数据集,并把结果保存为数据文件,并生成报告或者word文档。
模块中包含参数用于使用者进行调整,以少数类的样本数量为1时,多数类的比例数,定义域一般为[1,1000]。例如:原来少数类样本:多数类样本比例=1:1000,定义数值为10的时候,经过欠采样得到的少数类样本:多数类样本比例=1:10。
3.2模型训练
如图7所示,实现该模块的具体流程为:首先读取数据,进行数据清洗以及特征选择后,进行建模.最后输出建模结果。
其中模型主体包含LightGBM模型、gcForest模型、xgboost模型、随机森林模型、决策树模型和GBDT模型。
3.2.1.gcForest模型
该模型进行训练,主要功能包括:深度森林进行模型训练及预测,输出深度森林训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,模型生成报告可选。对深度森林进行最优参数寻找,输出深度森林最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,模型生成报告可选。
3.2.2.xgboost模型
该模型进行训练,主要功能包括:xgboost进行模型训练及预测,输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。对xgboost进行调参,输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。
3.2.3.随机森林模型
该模型进行训练,主要功能包括:进行模型训练及预测,输出随机森林训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。对randomforest进行调参,输出随机森林最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。过拟合评估包括:1.输出新划分的训练集与测试集的precision score,recallscore,f1 score,并对结果进行bar plot,使其更易观察。2.计算交叉验证集上的precision score,recall score,f1 score。3.改变正负样本比例,观察三种指标变化情况,有助于重新对数据进行处理,重新选择抽样方法。
3.2.4.决策树模型
采用决策树进行模型训练,主要功能包括:决策树进行模型训练及预测,输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。对决策树进行调参,输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。
3.2.5.GBDT模型
采用GBDT进行模型训练,主要功能包括:进行模型训练及预测,输出GBDT训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。对GBDT进行调参,输出GBDT最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。
3.2.6.LightGBM模型
主要功能包括:lightgbm进行模型训练及预测,输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。对lightgbm进行调参,输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选。
3.3模型参数优化
本模块的功能有两个,第一,多种集成算法模型,不改变正负样本判定阈值的情况下进行模型参数寻优。第二,多种集成算法模型,改变正负样本判定阈值的情况下进行模型参数寻优。
如图8所示,实现该模块的具体流程为:首先读取数据,进行数据清洗以及特征选择后,进行建模.之后对模型的各项参数进行调优,最后输出建模结果.
模块包含两种模式:
多种集成算法模型,不改变正负样本判定阈值的情况下进行模型参数寻优
多种集成算法模型,改变正负样本判定阈值的情况下进行模型参数寻优
3.4模型融合
如图9所示,实现该模块的具体流程为:首先读取数据,进行数据清洗以及特征选择后,使用多种模型,对数据集依次进行建模,并保存所有建模结果。之后对各模型的结果进行处理,进行投票或是堆栈法进行模型融合,最后输出最优结果。
3.4.1.投票
本模块的功能有两点,第一,不改变正负样本判定阈值的情况下进行投票。第二,改变正负样本判定阈值的情况下进行投票。
3.4.2.堆栈
本模块提供如下三种功能:1.根据配置文件结构自动构建堆栈,并且目前可以通过对堆栈构造函数的配置实现市面上基本所有的主流堆栈;2.提供训练,预测,评分等函数帮助用户显式而可控的训练模型;3.提供堆栈优化函数帮助用户进一步提升已有堆栈的性能;
3.5模型发布
使用网站工具http://pyob.oxyry.com/,可将源代码加密其他人难以看懂代码的实现原理。再将经过编译生成的二进制代码交付客户即可。
3.6模型可解释性
如图10所示,实现该模块的具体流程为:加载数据并对数据进行建模处理,之后对建模结果进行展示,然后分析各项特征的权重,最后输出原因报告。
模型可解释性模板,包含以下功能:通过模型结果的可视化分析(如:决策树可视化)、模型结果中组合特征分析等,输出模型解释性信息。
对已经训练好的模型和输入样本进行模型解释,目前可支持文本型(text)和表格型(tabular)数据。对文本型数据,模型通过分析文本中包含的词,给出哪些词对模型的输出结果贡献较高,并输出权重。对表格型数据,模型在输出特征值的周围采样,并分析其预测结果,最终给出对模型输出结果影响较大的特征和其对应权重。
模型解释结果包括一组原因和权重的集合:原因:对于文本型数据,一般是一个出现在样本中的单词,表示这个单词的出现对模型的预测结果有较高影响;对于表格型数据,一般是特征名称(或者经过离散化后的特征所在区间),表示这个特征对模型输出有较大影响。权重:权重为正表示这个原因和模型预测结果正相关,为负则表示负相关;权重的绝对值表示影响程度的大小。
4自然语言处理
4.1词典生成
工具通过三个指标判断文本片段是否为一个词:出现频率,凝合度和自由度。出现频率可以直观地理解为一个文本片段整体出现在文本中的次数是否多。凝合度是指组成文本片段中的成分搭配在一起的概率,如“AB”是一个文本片段,“AB”的凝合度=p(“AB”出现的概率)/p(“A”出现的概率)p(“B”出现的概率)。自由度是指它前后可以替换其他词搭配的自由度,可以量化为它左右两边可以搭配的词的数量。
如图11所示,实现该模块的具体流程为:加载原始语料数据,对数据进行词频统计,然后依次进行凝合度计算,自由度计算,最后生成特征词典。
4.2分词
对于中文的文本分析,在生成自定义词典后,用特定语料库的新生成词典和通用词典对文本数据进行分词。指定用户自定义词典的路径和需要切分的文本文件,对文本进行切分。
如图12所示,实现该模块的具体流程为:加载原始语料数据,生成特征词典,对语料进行分词,最后输出分析结果。
4.3文本特征提取
在分词后,对于中文的文本进行向量化。使用向量化方法:'tfidf','counts','hashing'。
如图13所示,实现该模块的具体流程为:加载原始语料数据,生成特征词典,然后进行分词,接着用TF-IDF,或者直接统计,或者哈希方式三种方式的其中一种对分词结果进行分析处理,最终输出分析结论。

Claims (10)

1.一种方便数据分析人员使用的集成机器学习的方法,其特征在于:所述方法包括以下步骤:
(1)数据探索:针对原始数据表,输出各个字段的情况;指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果;针对原始数据表,提供离群样本检测模板,输出潜在的离群样本点;针对原始数据表,提供二维组合特征探索分析模板,输出潜在的二维特征组合及组合方式;
(2)数据清洗:针对原始数据表,提供常规的数据清洗模板;
(3)特征提取:针对含主键的数据集,含主键的时间序列,蕴含时间先后的记录;
(4)特征选择:使用特征向量和目标值共同决定保留最重要的特征维度。
(5)样本采样:针对原始数据表,按照一定正负样本比例,进行降采样或者过采样或按照主键进行采样;
(6)模型训练:单一模型的训练及测试过程模板,输出训练时长、各项评估指标的值、PR曲线、ROC曲线、重要特征分析、过拟合判断,模型生成报告,输出进度条并预估时间;
(7)模型优化:对多个模型、多个参数列表,进行训练,针对指定的评估指标,选择出最优的模型参数;
(8)模型融合:提供不同样本子集、不同特征集合训练的模型融合工具包;
(9)模型可解释性:通过模型结果的可视化分析、模型结果中组合特征分析等,输出模型解释性信息;
(10)自然语言处理:对语言文字进行分析,统计词频,分析语义。
2.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法,其特征在于:
所述步骤(1)的具体过程如下:
首先加载原始数据,第二步进行缺失值分析,之后依次进行异常值分析,数据分布统计,最后根据之前分析结果,自动生成word版本的结果报告。
3.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法,其特征在于:
所述步骤(8)的具体过程如下:
首先读取数据,进行数据清洗以及特征选择后,使用多种模型,对数据集依次进行建模,并保存所有建模结果;之后对各模型的结果进行处理,进行投票或是堆栈法进行模型融合,最后输出最优结果。
4.根据权利要求1所述的一种方便数据分析人员使用的集成机器学习的方法,其特征在于:
所述步骤(9)的具体过程如下:
加载数据并对数据进行建模处理,之后对建模结果进行展示,然后分析各项特征的权重,最后输出原因报告。
5.一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述系统包含数据处理模块、特征处理模块、模型处理模块和自然语言处理模块;
所述数据处理模块用于对原始数据集进行统计性的分析,以达到直观表现数据集的整体情况的功能,并对其中影响建模结果的数据进行处理;
所述特征处理模块用于对原始数据进行加工,创建模型可以识别的特征数据;并对创造的特征进行筛选,剔除相关性较小的特征,以提高模型效率;
所述模型处理模块用于模型训练,测试以及结果调优内容;
所述自然语言处理模块用于当原始数据不是表格,而是语言文字时,对语言文字进行初步处理,得到相关表格。
6.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述数据处理模块包含数据探索和数据清洗两个子模块;
数据探索模块包含每个字段信息的情况、字段的关联分析和利群样本点分析;
所述字段的关联分析用于指定目标字段及特定分析字段列表,输出各个字段与目标字段的关联分析结果;
所述利群样本点分析用于提供离群样本检测模板,输出潜在的离群样本点;
数据清洗模块的功能包含删除重复值、缺失值处理、阈值处理、离散化处理、二值化处理、归一化/标准化处理和排序处理。
7.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述特征处理模块包含特征提取和特征选择两个模块;
所述特征提取模块用于对经过清洗的数据进行特征提取,包括根据记录进行特征提取以及根据主键分组后进行特征提取;
所述特征选择模块用于对新特征提取完毕的数据集进行特征选择,选出与目标值相关性最高的特征,删除低相关性的特征。
8.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述模型处理模块包括样本采样模块、模型训练模块、模型参数优化模块、模型融合模块、模型发布模块和模型可解释性模块;
所述样本采样模块用于针对原始数据表,按照一定正负样本比例,进行降采样或者过采样;针对原始数据表,按照主键进行采样;
所述模型训练模块包括对gcForest模型、xgboost模型、RandomForest模型、ExtraTrees模型、GBDT模型和LightGBM模型的训练,用于对各模型进行模型训练及预测,输出训练精度、训练预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选;对各模型进行调参,输出最优参数、训练精度、调参及预测时间、混淆矩阵、P-R曲线及ROC曲线,过拟合评估,模型生成报告可选;
所述模型参数优化模块用于在多种集成算法模型中,不改变正负样本判定阈值的情况下进行模型参数寻优;在多种集成算法模型中,改变正负样本判定阈值的情况下进行模型参数寻优;
所述模型融合模块用于把多种模型结果进行整合,以实现模型的效果调优功能;
所述模型发布模块用于对模型代码本身进行加密,已达到保证代码不被盗用的功能;
所述模型可解释性模块用于通过模型结果的可视化分析、模型结果中组合特征分析,输出模型解释性信息。
9.根据权利要求8所述的一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述模型融合模块包括投票模块和堆栈模块;
所述投票模块用于在不改变正负样本判定阈值的情况下进行投票;在改变正负样本判定阈值的情况下进行投票;
所述堆栈模块用于根据配置文件结构自动构建堆栈,并且目前可以通过对堆栈构造函数的配置实现市面上基本所有的主流堆栈模式;提供训练,预测,评分预测,模型评分函数帮助用户显式而可控的训练模型;提供堆栈优化函数帮助用户进一步提升已有堆栈的性能。
10.根据权利要求5所述的一种方便数据分析人员使用的集成机器学习的系统,其特征在于:
所述自然语言处理模块包括词典生成模块、分词模块和文本特征提取模块;
所述词典生成模块用于生成分词功能需要的词典,词典是分词模块的基础;
所述分词模块用于对成段的语料本身进行处理,处理结果为把语料分解为关键词,根据关键词情况再进行之后的分析;
所述文本特征提取模块用于从语料中提取可以表述语料本身的关键词,或是语义内容。
CN201711393846.6A 2017-12-21 2017-12-21 一种方便数据分析人员使用的集成机器学习的方法及系统 Pending CN108363714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711393846.6A CN108363714A (zh) 2017-12-21 2017-12-21 一种方便数据分析人员使用的集成机器学习的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711393846.6A CN108363714A (zh) 2017-12-21 2017-12-21 一种方便数据分析人员使用的集成机器学习的方法及系统

Publications (1)

Publication Number Publication Date
CN108363714A true CN108363714A (zh) 2018-08-03

Family

ID=63010543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393846.6A Pending CN108363714A (zh) 2017-12-21 2017-12-21 一种方便数据分析人员使用的集成机器学习的方法及系统

Country Status (1)

Country Link
CN (1) CN108363714A (zh)

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214298A (zh) * 2018-08-09 2019-01-15 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN109285589A (zh) * 2018-10-31 2019-01-29 重庆邮电大学 一种基于Spark大数据平台的铝电解过热度预测方法
CN109460872A (zh) * 2018-11-14 2019-03-12 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
CN109543986A (zh) * 2018-11-16 2019-03-29 湖南数定智能科技有限公司 基于用户画像的监狱罪犯三预风险评估方法及系统
CN109635335A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 驾驶风险预测方法、装置、计算机设备及存储介质
CN109784676A (zh) * 2018-12-25 2019-05-21 杨鑫 数据分析的学习和使用方法、装置及计算机可读存储介质
CN110134040A (zh) * 2019-05-07 2019-08-16 上海电气集团股份有限公司 工业设备的运行数据的处理方法及系统
CN110222339A (zh) * 2019-06-05 2019-09-10 深圳市思迪信息技术股份有限公司 基于改进XGBoost算法的意图识别方法及装置
CN110297850A (zh) * 2019-05-28 2019-10-01 北京奇艺世纪科技有限公司 特征作业集发布方法、装置、电子设备及存储介质
CN110334169A (zh) * 2019-07-01 2019-10-15 清华大学 一种新型地理计算模式
CN110674842A (zh) * 2019-08-26 2020-01-10 明阳智慧能源集团股份公司 一种风电机组主轴轴承故障预测方法
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN110717535A (zh) * 2019-09-30 2020-01-21 北京九章云极科技有限公司 一种基于数据分析处理系统的自动建模方法及系统
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法
CN110880014A (zh) * 2019-10-11 2020-03-13 中国平安财产保险股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN111046957A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 一种模型盗用的检测、模型的训练方法和装置
CN111079937A (zh) * 2019-11-15 2020-04-28 苏州金智渠信息技术有限公司 一种快速建模的方法
CN111102699A (zh) * 2019-12-25 2020-05-05 Tcl华星光电技术有限公司 一种洁净室智能控制系统
CN111126627A (zh) * 2019-12-25 2020-05-08 四川新网银行股份有限公司 基于分离度指数的模型训练系统
CN111200576A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习实现恶意域名识别的方法
CN111340241A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种数据处理方法、系统及装置
CN111354352A (zh) * 2018-12-24 2020-06-30 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN111464485A (zh) * 2019-01-22 2020-07-28 北京金睛云华科技有限公司 一种加密代理流量检测方法和装置
CN111523798A (zh) * 2020-04-21 2020-08-11 武汉市奥拓智能科技有限公司 一种自动建模的方法、装置、系统、及其电子设备
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111897731A (zh) * 2020-08-03 2020-11-06 中关村科学城城市大脑股份有限公司 应用于城市大脑的人工智能模型评测发布系统及方法
CN111931520A (zh) * 2020-10-16 2020-11-13 北京百度网讯科技有限公司 自然语言处理模型的训练方法和装置
CN112200538A (zh) * 2020-10-10 2021-01-08 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN112787878A (zh) * 2019-11-08 2021-05-11 大唐移动通信设备有限公司 一种网络指标的预测方法及电子设备
CN112801304A (zh) * 2021-03-17 2021-05-14 中奥智能工业研究院(南京)有限公司 一种数据自动分析与建模流程
CN113177642A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种针对数据不平衡的自动建模系统
CN113177643A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种基于大数据的自动建模系统
CN113780568A (zh) * 2020-06-09 2021-12-10 子长科技(北京)有限公司 自动模型训练框架、设备、存储介质
CN113887089A (zh) * 2021-11-17 2022-01-04 中冶赛迪重庆信息技术有限公司 线棒材力学性能预测方法及计算机可读存储介质
CN113959973A (zh) * 2021-08-18 2022-01-21 北京工业大学 基于dwi-bpls的药品api预测方法
WO2022134600A1 (zh) * 2020-12-25 2022-06-30 东云睿连(武汉)计算技术有限公司 一种神经网络交互式自动训练系统和方法
CN114841060A (zh) * 2022-04-21 2022-08-02 深圳微言科技有限责任公司 实现自动机器学习的方法及装置
CN115438101A (zh) * 2022-10-13 2022-12-06 中国兵器工业计算机应用技术研究所 一种基于特征形态和数据关系的数据特征构建系统和方法
US11556569B2 (en) 2020-05-12 2023-01-17 International Business Machines Corporation Visualizing machine learning model performance for non-technical users
CN117076861A (zh) * 2023-08-18 2023-11-17 深圳市深国际湾区投资发展有限公司 一种基于数据融合的关务数据处理系统、方法及介质

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214298B (zh) * 2018-08-09 2021-06-08 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN109214298A (zh) * 2018-08-09 2019-01-15 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN109285589A (zh) * 2018-10-31 2019-01-29 重庆邮电大学 一种基于Spark大数据平台的铝电解过热度预测方法
CN109635335B (zh) * 2018-11-12 2024-05-28 平安科技(深圳)有限公司 驾驶风险预测方法、装置、计算机设备及存储介质
CN109635335A (zh) * 2018-11-12 2019-04-16 平安科技(深圳)有限公司 驾驶风险预测方法、装置、计算机设备及存储介质
CN109460872A (zh) * 2018-11-14 2019-03-12 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
CN109543986A (zh) * 2018-11-16 2019-03-29 湖南数定智能科技有限公司 基于用户画像的监狱罪犯三预风险评估方法及系统
CN111200576A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习实现恶意域名识别的方法
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN111354352A (zh) * 2018-12-24 2020-06-30 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN111354352B (zh) * 2018-12-24 2023-07-14 中国科学院声学研究所 一种用于音频检索的模板自动清洗方法及系统
CN109784676A (zh) * 2018-12-25 2019-05-21 杨鑫 数据分析的学习和使用方法、装置及计算机可读存储介质
CN111464485A (zh) * 2019-01-22 2020-07-28 北京金睛云华科技有限公司 一种加密代理流量检测方法和装置
CN110134040B (zh) * 2019-05-07 2021-09-24 上海电气集团股份有限公司 工业设备的运行数据的处理方法及系统
CN110134040A (zh) * 2019-05-07 2019-08-16 上海电气集团股份有限公司 工业设备的运行数据的处理方法及系统
CN110297850A (zh) * 2019-05-28 2019-10-01 北京奇艺世纪科技有限公司 特征作业集发布方法、装置、电子设备及存储介质
CN110222339A (zh) * 2019-06-05 2019-09-10 深圳市思迪信息技术股份有限公司 基于改进XGBoost算法的意图识别方法及装置
CN110334169B (zh) * 2019-07-01 2022-02-18 清华大学 一种新型地理计算装置
CN110334169A (zh) * 2019-07-01 2019-10-15 清华大学 一种新型地理计算模式
CN110674842A (zh) * 2019-08-26 2020-01-10 明阳智慧能源集团股份公司 一种风电机组主轴轴承故障预测方法
CN110851593B (zh) * 2019-09-23 2024-01-05 天津大学 一种基于位置与语义的复值词向量构建方法
CN110851593A (zh) * 2019-09-23 2020-02-28 天津大学 一种基于位置与语义的复值词向量构建方法
CN110674211A (zh) * 2019-09-29 2020-01-10 南京大学 一种Oracle数据库AWR报告的自动解析方法和设备
CN110717535B (zh) * 2019-09-30 2020-09-11 北京九章云极科技有限公司 一种基于数据分析处理系统的自动建模方法及系统
CN110717535A (zh) * 2019-09-30 2020-01-21 北京九章云极科技有限公司 一种基于数据分析处理系统的自动建模方法及系统
CN110880014B (zh) * 2019-10-11 2023-09-05 中国平安财产保险股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN110880014A (zh) * 2019-10-11 2020-03-13 中国平安财产保险股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN110739076A (zh) * 2019-10-29 2020-01-31 上海华东电信研究院 一种医疗人工智能公共训练平台
CN112787878A (zh) * 2019-11-08 2021-05-11 大唐移动通信设备有限公司 一种网络指标的预测方法及电子设备
CN112787878B (zh) * 2019-11-08 2023-03-14 大唐移动通信设备有限公司 一种网络指标的预测方法及电子设备
CN111079937A (zh) * 2019-11-15 2020-04-28 苏州金智渠信息技术有限公司 一种快速建模的方法
CN111046957A (zh) * 2019-12-13 2020-04-21 支付宝(杭州)信息技术有限公司 一种模型盗用的检测、模型的训练方法和装置
CN111126627A (zh) * 2019-12-25 2020-05-08 四川新网银行股份有限公司 基于分离度指数的模型训练系统
CN111102699A (zh) * 2019-12-25 2020-05-05 Tcl华星光电技术有限公司 一种洁净室智能控制系统
CN111126627B (zh) * 2019-12-25 2023-07-04 四川新网银行股份有限公司 基于分离度指数的模型训练系统
CN111523798A (zh) * 2020-04-21 2020-08-11 武汉市奥拓智能科技有限公司 一种自动建模的方法、装置、系统、及其电子设备
CN111523798B (zh) * 2020-04-21 2023-09-01 武汉市奥拓智能科技有限公司 一种自动建模的方法、装置、系统、及其电子设备
US11556569B2 (en) 2020-05-12 2023-01-17 International Business Machines Corporation Visualizing machine learning model performance for non-technical users
CN111340241A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种数据处理方法、系统及装置
CN113780568B (zh) * 2020-06-09 2024-05-14 子长科技(北京)有限公司 自动模型训练系统、设备、存储介质
CN113780568A (zh) * 2020-06-09 2021-12-10 子长科技(北京)有限公司 自动模型训练框架、设备、存储介质
CN111753995A (zh) * 2020-06-23 2020-10-09 华东师范大学 一种基于梯度提升树的局部可解释方法
CN111897731A (zh) * 2020-08-03 2020-11-06 中关村科学城城市大脑股份有限公司 应用于城市大脑的人工智能模型评测发布系统及方法
CN112200538A (zh) * 2020-10-10 2021-01-08 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN111931520B (zh) * 2020-10-16 2021-02-12 北京百度网讯科技有限公司 自然语言处理模型的训练方法和装置
CN111931520A (zh) * 2020-10-16 2020-11-13 北京百度网讯科技有限公司 自然语言处理模型的训练方法和装置
WO2022134600A1 (zh) * 2020-12-25 2022-06-30 东云睿连(武汉)计算技术有限公司 一种神经网络交互式自动训练系统和方法
CN112801304A (zh) * 2021-03-17 2021-05-14 中奥智能工业研究院(南京)有限公司 一种数据自动分析与建模流程
CN113177643A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种基于大数据的自动建模系统
CN113177642A (zh) * 2021-05-24 2021-07-27 北京融七牛信息技术有限公司 一种针对数据不平衡的自动建模系统
CN113959973A (zh) * 2021-08-18 2022-01-21 北京工业大学 基于dwi-bpls的药品api预测方法
CN113887089A (zh) * 2021-11-17 2022-01-04 中冶赛迪重庆信息技术有限公司 线棒材力学性能预测方法及计算机可读存储介质
CN114841060A (zh) * 2022-04-21 2022-08-02 深圳微言科技有限责任公司 实现自动机器学习的方法及装置
CN115438101A (zh) * 2022-10-13 2022-12-06 中国兵器工业计算机应用技术研究所 一种基于特征形态和数据关系的数据特征构建系统和方法
CN115438101B (zh) * 2022-10-13 2023-06-06 中国兵器工业计算机应用技术研究所 一种基于特征形态和数据关系的数据特征构建系统和方法
CN117076861A (zh) * 2023-08-18 2023-11-17 深圳市深国际湾区投资发展有限公司 一种基于数据融合的关务数据处理系统、方法及介质

Similar Documents

Publication Publication Date Title
CN108363714A (zh) 一种方便数据分析人员使用的集成机器学习的方法及系统
CN105160038B (zh) 一种基于审计知识库的数据分析方法及系统
CN104699611B (zh) 一种基于开源软件缺陷代码修改模式的缺陷信息提取方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN106104519B (zh) 短语对收集装置以及计算机可读取的存储介质
CN106649742A (zh) 数据库维护方法和装置
CN107239529A (zh) 一种基于深度学习的舆情热点类别划分方法
CN104199971B (zh) 基于标准知识框架的可视化情报分析方法及系统
CN103207856A (zh) 一种本体概念及层次关系生成方法
CN110825839B (zh) 一种对文本信息中目标的关联关系分析方法
CN109101584A (zh) 一种将深度学习与数学分析相结合的句子分类改进方法
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN106104524A (zh) 复杂谓语模板收集装置以及用于其的计算机程序
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN106649718B (zh) 一种用于pdm系统的大数据采集与处理方法
CN107885744A (zh) 对话式的数据分析
CN110472040A (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN107480435A (zh) 一种应用于临床数据的自动搜索机器学习系统及方法
CN110347820A (zh) 一种电网文本信息匹配的方法、系统和存储介质
CN108897769A (zh) 基于生成式对抗网络实现文本分类数据集扩展方法
CN108536673B (zh) 新闻事件抽取方法及装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN106681980B (zh) 一种垃圾短信分析方法和装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180803