CN114841060A

CN114841060A - 实现自动机器学习的方法及装置

Info

Publication number: CN114841060A
Application number: CN202210419664.6A
Authority: CN
Inventors: 韩彧; 苏树清
Original assignee: Shenzhen Weiyan Technology Co ltd
Current assignee: Shenzhen Weiyan Technology Co ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-02

Abstract

本发明涉及自动机器学习技术领域，公开了实现自动机器学习的方法及装置，包括：用户创建数据集，并添加数据特征；选择数据模型开始训练；对模型进行自动调参；部署模型并保存训练好的模型，数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。本发明中，通过用户直接通过数据集合添加特征实现机器学习建模，降低了劳动力成本，相比较现有的人工建模还可以减少人为错误，通过自动执行重复性任务，能够开发更有效的模型，而且将人力从繁琐、反复的算法调优中解放出来，并且通过多种算法实现自动调参，则使装置的实用性更强，满足不同人工智能领域的使用，而且有利于提升工作效率，能够大幅度提升了开发效率。

Description

实现自动机器学习的方法及装置

技术领域

本发明涉及自动机器学习技术领域，具体为实现自动机器学习的方法及装置。

背景技术

自动机器学习(AutoML,AutomatedMachineLearning)，是将机器学习模型开发过程中耗时的反复性任务自动化的过程，业务人员、初学者、数据科学家、分析师和开发人员都可以使用它来生成高度可缩放、高效且高产能的ML模型，同时保证模型的质量。传统的机器学习模型开发是资源密集型的，需要具备丰富的领域知识，并需要花费大量的时间来生成和比较数十个模型。使用自动化机器学习可以缩减生成生产就绪型ML模型所需的时间，同时使工作变得更轻松高效。

目前，自动机器学习只能在单一的某个场景或特定模型内使用，不能够针对不同需求的数据集快速的对机器学习模型进行高效建立，而且对机器学习的模型建立需要耗费巨大的人力物力，使用成本高，并且在建模后需要不断的对参数进行调整，开发成本高，并且费时费力。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明为解决自动机器学习只能在单一的某个场景或特定模型内使用，不能够针对不同需求的数据集快速的对机器学习模型进行高效建立，而且对机器学习的模型建立需要耗费巨大的人力物力，使用成本高，并且在建模后需要不断的对参数进行调整，开发成本高，并且费时费力的问题，提出了实现自动机器学习的方法及装置。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：实现自动机器学习的方法，包括：

用户创建数据集，并添加数据特征；

选择数据模型开始训练；

对模型进行自动调参；

部署模型并保存训练好的模型。

优选的，所述数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。

优选的，所述自动调参包括被调参算法、调参配置和调参模型输出选择。

优选的，所述被调参算法中算法为GBDT二分类。

优选的，所述调参配置的调参算法为GAUSE、SAMPLE、GBDT、EvolutionaryOptimizer、Random search、Grid search、PBT、UserDefine中的任意一种。

优选的，所述调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种。

实现自动机器学习的装置，包括输入模块、分析计算模块、存储模块和输出模块；

所述输入模块，用于导入数据集，并添加数据特征；

所述分析计算模块，用于数据特征工程和模型参数优化；

所述存储模块，用于存储数据库及特征标签，并存储训练好的模型；

所述输出模块，用于输出模型预测。

优选的，所述装置用于实现实现自动机器学习方法。

(三)有益效果

与现有技术对比，本发明具备以下有益效果：

本发明中，通过用户直接通过数据集合添加特征实现机器学习建模，降低了劳动力成本，相比较现有的人工建模还可以减少人为错误，通过自动执行重复性任务，能够开发更有效的模型，而且将人力从繁琐、反复的算法调优中解放出来，并且通过多种算法实现自动调参，则使装置的实用性更强，满足不同人工智能领域的使用，而且有利于提升工作效率，能够大幅度提升了开发效率。

附图说明

图1为本发明中实现自动机器学习的方法的流程示意图；

图2为本发明中自动调参的内部结构示意图；

图3为本发明中调参配置的内部结构示意图；

图4为本发明中实现自动机器学习的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3，实现自动机器学习的方法，包括：

用户创建数据集，并添加数据特征，通过数据特征便于机器学习，实现后续自动地发掘并构造相关的特征，使得模型可以有最优的表现；

选择数据模型开始训练；

对模型进行自动调参，通过自动调参；

部署模型并保存训练好的模型。

进一步的，数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合，数据集每一列代表一个特定变量，每一行都对应于某一成员的数据集的问题，每个数值被称为数据资料，对应于行数，该数据集的数据可能包括一个或多个成员。

进一步的，自动调参包括被调参算法、调参配置和调参模型输出选择，自动调参是通过内置搜索算法，帮助用户实现模型超参数的自动寻优。

进一步的，被调参算法中算法为GBDT二分类，GBDT二分类的原理是设置阈值，如果特征值大于阈值，则为正例，反之为负例。

进一步的，调参配置的调参算法为GAUSE、SAMPLE、GBDT、EvolutionaryOptimizer、Random search、Grid search、PBT、UserDefine中的任意一种；

在Evolutionary Optimizer算法中：

a.随机选定a个参数候选集(探索样本数a)；

b.取其中评估指标较高的n个参数候选集，作为下一轮迭代的参数候选集；

c.继续在这些参数周边的r倍(收敛系数r)标准差范围探索，以探索出新的参数集，来替代上一轮中评估指标靠后的a-n个参数集；

d.根据以上逻辑，迭代m轮(探索次数m)，直到找到最优的参数集合；

根据以上逻辑，最终产生的模型数目为a+(a-n)*m，当n的第一个值为a/2-1，在迭代过程中默认为n/2-1；

在Grid search算法中:

a.将每个参数的取值区间拆成n段(网格拆分数)。

b.在n段里面各随机取出一个随机值。假设有m个参数，就可以组合出n^m组参数。

c.根据nm组参数训练生成nm个模型并进行排序。

进一步的，调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种；

Precision预测为正类的结果中，正确个数的比例：

Precision的意义是判断模型的结果是否“找得对”；

Recall为正类的样本中，正确判断为正类的比例：

Recall的意义是判断模型的结果是否“找得全”；

F1-score是Precision和Recall的调和平均值；

其中，P为Precision，R为Recall；

AUC面积表示ROC曲线下方的面积大小，通过积分计算结果，AUC越大越好；

由于ROC曲线一般在y＝x直线的上方，故AUC一般为0.5～1.0。

请参阅图4，实现自动机器学习的装置，包括输入模块、分析计算模块、存储模块和输出模块；

输入模块，用于导入数据集，并添加数据特征，输入模块的型号为TRICON3008，便于接收从编程器输入的用户程序和数据；

分析计算模块，用于数据特征工程和模型参数优化，分析计算模块的型号为i7-8750H SR3YY 2.2G-9M-BGA，实现机器高效的自动学习，并且运算速度快，工作效率高；

存储模块，用于存储数据库及特征标签，并存储训练好的模型，存储模块的型号为MT8KTF51264HZ-1G9P1，实现了数据库的存储和模型的存储，便于用户后期对模型进行部署和输出；

输出模块，用于输出模型预测，输出模块的型号为6ED1055-1MM00-0BA2。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.实现自动机器学习的方法，包括：

用户创建数据集，并添加数据特征；

选择数据模型开始训练；

对模型进行自动调参；

部署模型并保存训练好的模型。

2.根据权利要求1所述的实现自动机器学习的方法，其特征在于：所述数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。

3.根据权利要求1所述的实现自动机器学习的方法，其特征在于：所述自动调参包括被调参算法、调参配置和调参模型输出选择。

4.根据权利要求3所述的实现自动机器学习的方法，其特征在于：所述被调参算法中算法为GBDT二分类。

5.根据权利要求3所述的实现自动机器学习的方法，其特征在于：所述调参配置的调参算法为GAUSE、SAMPLE、GBDT、Evolutionary Optimizer、Random search、Grid search、PBT、UserDefine中的任意一种。

6.根据权利要求3所述的实现自动机器学习的方法，其特征在于：所述调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种。

7.实现自动机器学习的装置，其特征在于：包括输入模块、分析计算模块、存储模块和输出模块；

所述输入模块，用于导入数据集，并添加数据特征；

所述分析计算模块，用于数据特征工程和模型参数优化；

所述输出模块，用于输出模型预测。

8.根据权利要求7所述的实现自动机器学习的装置，其特征在于：所述装置用于实现如权利要求1至6中任一项所述的实现自动机器学习方法。