CN112801304A

CN112801304A - 一种数据自动分析与建模流程

Info

Publication number: CN112801304A
Application number: CN202110283956.7A
Authority: CN
Inventors: 王国栋
Original assignee: China Austria Intelligent Industry Research Institute Nanjing Co ltd
Current assignee: China Austria Intelligent Industry Research Institute Nanjing Co ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-05-14
Also published as: WO2022193408A1

Abstract

本发明公开了一种数据自动分析与建模流程，该流程包括以下步骤：S1、将数据管理、数据透视、特征选择、模型搜索、报告生成、模型预测、模型迭代和数据追加8个步骤以及自动机器学习中的超参数搜索、自动特征工程整合简化为一个流程；S2、结合分布式计算、分布式存储、远程过程调用以及浏览器和服务器架构技术，将所述流程实例化为一个系统，且所述流程中的每个步骤分别对应所述系统中相应的功能模块。有益效果：将数据分析及建模封装成一种简单、易操作的流程，大大降低了基于机器学习的数据分析与建模门槛，并通过网页实现交互，既使无机器学习背景的用户，也能训练并选择出最优的模型。

Description

一种数据自动分析与建模流程

技术领域

本发明涉及自动机器学习和数据建模分析领域，具体来说，涉及一种数据自动分析与建模流程。

背景技术

机器学习方法在数据分析与挖掘中的应用越来越广泛，但目前各大公司对数据的分析和挖掘还是靠机器学习专家来完成。既使经验丰富的机器学习专家在分析或挖掘数据时，也需要先从繁琐的数据处理、数据统计分析开始，然后根据经验和数据分布选择算法进行验证和测试，而所选算法是否合适还要靠大量的实验来证明，该过程耗时耗力。同时，常用的机器学习算法都含有一定数量的超参数，如何针对当前数据选择合适的超参数，又是一个繁琐且具有挑战性的工作。

针对上述问题，自动机器学习逐渐受到工业界的重视。各大IT巨头都搭建或者尝试搭建自动机器学习平台，以降低机器学习技术的使用门槛，但流程依然很繁琐，无机器学习知识的用户使用起来依然有难度。同时，已有的开源机器学习平台，如：AutoWeka、Auto-sklearn、TPOT，虽然已经做了较高的封装，但对缺少机器学习知识的用户依然很不友好。

针对上述的相关问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种数据自动分析与建模流程，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种数据自动分析与建模流程，该流程包括以下步骤：

S1、将数据管理、数据透视、特征选择、模型搜索、报告生成、模型预测、模型迭代和数据追加8个步骤以及自动机器学习中的超参数搜索、自动特征工程整合简化为一个流程；

S2、结合分布式计算、分布式存储、远程过程调用以及浏览器和服务器(B/S)架构技术，将所述流程实例化为一个系统，且所述流程中的每个步骤分别对应所述系统中相应的功能模块。

进一步的，所述数据管理实现数据集上传、数据集属性管理、数据集追加和目标列自主选择功能，包括以下步骤：

S111、在数据加载中，引入数据转换层；

S112、通过数据转换层使用策略模式，向前对接不同类型的数据源，向后使用数据类型推断、表头字段推理技术将不同来源的数据格式化，并输出CSV格式文件提供给数据入库模块使用。

进一步的，所述数据透视实现数据分布分析、分析结果图表绘制、数据预处理、特征关联分析及工具集功能，包括以下步骤：

S121、将数据在网页上渲染展示，并根据用户的需求自由组合特征例和目标例进行建模；

S122、根据选择的数据调用非监督学习或监督学习算法对数据进行分析，并以图表的方式展示分析结果。

进一步的，所述特征选择实现重要特征筛选、缺失值补全及异常值检测功能。

进一步的，所述模型搜索实现超参数搜索引擎、元学习引擎、神经网络架构搜索、模型库构建及算法搜索空间定义功能，包括以下步骤：

S141、通过遗传算法为不同模型选定超参数，并在数据集上进行训练；

S142、根据评估结果推荐前十个最好的数据预处理和预测模型；

S143、根据推荐结果，结合使用场景及应用行业自定义算法搜索空间。

进一步的，所述报告生成实现特征分析报告、模型训练报告和模型源代码的生成，包括以下步骤：

S151、通过解析模型代码结构之间的依赖关系，生成模型依赖及组合流程图；

S152、根据模型训练结果和搜索到的最优超参数，生成模型代码，将搜索到的排名前十个模型的源代码打包并生成下载链接；

S153、从模型代码中自动推断模型依赖的包并生成脚本，通过运行脚本自动安装配置模型运行所依赖的环境。

进一步的，所述模型预测包括以下步骤：

S161、通过守护进程动态加载生成的模型文件，并以远程过程调用的方式对外提供服务；

S162、根据输入的预测数据，服务可返回预测结果、评价指标、预测曲线或混淆矩阵。

进一步的，所述模型迭代包括以下步骤：

S171、通过版本控制对每次训练输出的模型进行版本管理，并对同一模型不同参数情况下的性能进行对比。

进一步的，所述数据追加包括以下步骤：

S181、当模型预测结果未达到预期时，进行数据追加、模型调整、模型检索范围扩展及训练特征增减。

进一步的，所述非监督学习算法包括但不限于聚类与主成分分析；所述监督学习算法包括但不限于广义线性回归(logistic)、支持向量机及岭回归。

本发明的有益效果为：通过采用参数搜索、神经网络架构搜索技术以及B/S软件架构，将数据管理、数据透视、特征选择、模型搜索、报告生成、模型预测、模型迭代和数据追加过程以及自动机器学习技术相结合，封装成一种简单、易操作的流程，大大降低了基于机器学习的数据分析与建模门槛，并通过网页实现交互，既使无机器学习背景的用户，也能在默认参数基础上，通过简单的交互操作，训练出最优的模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种数据自动分析与建模流程的流程图；

图2是根据本发明实施例的一种数据自动分析与建模流程的服务方案图；

图3是根据本发明实施例的一种数据自动分析与建模流程的实施架构图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种数据自动分析与建模流程。

现结合附图和具体实施方式对本发明进一步说明，如图1-3所示，根据本发明实施例的数据自动分析与建模流程，该流程包括以下步骤：

在一个实施例中，所述数据管理实现数据集上传、数据集属性管理、数据集追加和目标列自主选择功能，包括以下步骤：

S111、在数据加载中，引入数据转换层；

S112、通过数据转换层使用策略模式，向前对接不同类型的数据源，向后使用数据类型推断、表头字段推理技术将不同来源的数据格式化，并输出CSV格式文件提供给数据入库模块使用，从而实现多源、结构化数据加载和处理。

其中，数据管理支持用户上传csv、zip、rar、xls/xlsx、json、xml等数据格式的文件；支持配置数据源，直接从关系型数据库加载数据并上传；支持从ftp、hdfs中加载数据并上传；支持从指定的URL中加载数据并上传；支持在已有数据的基础上继续追加新的同类型数据；支持目标列自主选择。

在一个实施例中，所述数据透视实现数据分布分析、分析结果图表绘制、数据预处理、特征关联分析及工具集功能，包括以下步骤：

S122、根据选择的数据调用非监督学习或监督学习算法对数据进行分析，并以图表的方式展示预测结果。

其中，数据透视支持选择单列生成概率分布函数、选择两列生成联合概率分布函数；支持选择多列数据或者选择区域数据进行统计图表绘制；支持多种数据的转换工具，如多分类问题转换成二分类问题、样本均衡等。

在一个实施例中，所述特征选择实现重要特征筛选、缺失值补全及异常值检测功能。

其中，特征选择通过统计填充、定值填充、插值填充、模型填充、哑变量填充等方法，对缺失值进行补全；通过简单统计分析、3σ原则、独立随机深林等方法检测数据中的异常值并进行订正；通过LightGBM、XGBoost等方法筛选重要特征。

在一个实施例中，所述模型搜索实现超参数搜索引擎、元学习引擎、神经网络架构搜索、模型库构建及算法搜索空间自定义功能，包括以下步骤：

S141、通过遗传算法为不同模型选定超参数，并在数据及上进行试训练；

在一个实施例中，所述报告生成实现特征分析报告、模型训练报告和模型源代码的生成，包括以下步骤：

S151、通过解析模型代码结构之间的依赖关系，生成模型依赖及组合流程图，并支持以PDF的格式导出，可清晰直观的观察模型之间的关系；

S153、从模型代码中自动推断模型依赖的包并生成脚本，通过运行脚本自动配置模型运行锁依赖的环境。

其中，报告生成还支持源代码以及Python运行环境安装脚本下载；支持模型结构可视化；脚本包括shell或bat脚本。

在一个实施例中，所述模型预测包括以下步骤：

其中，模型预测在数据预处理阶段对输入的数据进行缺失值填充、异常值修订、归一化等处理；输出预测结果以及预测曲线或混淆矩阵。

在一个实施例中，所述模型迭代包括以下步骤：

其中，模型迭代支持在同一个任务上反复进行模型训练和调优，并为每次生成的模型标记上版本号；支持选择特定版本的模型进行导出或预测；并且针对同一个任务，模型搜索完成后，若模型的预测结果未能达到预期，可再次追加数据或调整模型或扩展模型的搜索范围或增减特征，从而实现模型的渐进式寻优。

在一个实施例中，所述数据追加包括以下步骤：

S181、当模型预测结果未达到预期时，进行数据的追加、调整模型、扩展模型的检索范围及增减特性。

在一个实施例中，所述非监督学习算法包括但不限于聚类与主成分分析；所述监督学习算法包括但不限于广义线性回归(logistic)、支持向量机及岭回归。

此外，如图3所示，整个系统包含模型服务、系统代理、分布式协调器、缓存、Websocket服务、业务逻辑处理进程等模块。流程中的各个模块都以服务的方式独立存在，对应这里的模型服务，服务启动后会自动注册到分布式协调器中用于业务处理进程发现并使用。系统代理分布在每台主机上，负责监控每台主机上的服务状态、任务个数以及主机资源使用情况。分布式协调器用于协调个业务主机进程之间的交互，为保证分布式协调器的高可用性、避免单点故障，分布式协调器以集群的方式部署在至少3台及其以上的机器上。缓存用于缓存系统、任务、服务的状态以及任务的执行进度信息。Websocket服务用于传递各业务进程的执行日志到客户端或浏览器，及时的告知用户任务的执行进度、状态等。业务服务负责对整个数据自动分析与建模流程中的各个子流程进行整合，对内连接分布式协调器、缓存，对外提供REST接口供客户端调用。

综上所述，借助于本发明的上述技术方案，通过采用参数搜索、神经网络架构搜索技术以及B/S软件架构，将数据管理、数据透视、特征选择、模型搜索、报告生成、模型预测、模型迭代和数据追加过程以及自动机器学习技术相结合，从而封装成一种简单、易操作的流程，大大降低了基于机器学习的数据分析与建模门槛，并通过网页实现交互，既使无机器学习背景的用户，也能在默认参数基础上，通过简单的交互操作，训练出最优的模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据自动分析与建模流程，其特征在于，该流程包括以下步骤：

S2、结合分布式计算、分布式存储、远程过程调用以及浏览器和服务器架构技术，将所述流程实例化为一个系统，且所述流程中的每个步骤分别对应所述系统中相应的功能模块。

2.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述数据管理实现数据集上传、数据集属性管理、数据集追加和目标列自主选择功能，包括以下步骤：

S111、在数据加载中，引入数据转换层；

3.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述数据透视实现数据分布分析、分析结果图表绘制、数据预处理、特征关联分析及工具集功能，包括以下步骤：

4.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述特征选择实现重要特征筛选、缺失值补全及异常值检测功能。

5.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述模型搜索实现超参数搜索引擎、元学习引擎、神经网络架构搜索、模型库构建及算法搜索空间定义功能，包括以下步骤：

6.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述报告生成实现特征分析报告、模型训练报告和模型源代码的生成，包括以下步骤：

7.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述模型预测包括以下步骤：

S161、通过守护进程动态加载生成的模型文件，并通过远程过程调用的方式对外提供服务；

S162、根据输入的预测数据，服务可返回预测结果、评价指标以及预测曲线或混淆矩阵。

8.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述模型迭代包括以下步骤：

9.根据权利要求1所述的一种数据自动分析与建模流程，其特征在于，所述数据追加包括以下步骤：

10.根据权利要求3所述的一种数据自动分析与建模流程，其特征在于，所述非监督学习算法包括但不限于聚类与主成分分析；所述监督学习算法包括但不限于广义线性回归、支持向量机及岭回归。