CN114841060A - 实现自动机器学习的方法及装置 - Google Patents

实现自动机器学习的方法及装置 Download PDF

Info

Publication number
CN114841060A
CN114841060A CN202210419664.6A CN202210419664A CN114841060A CN 114841060 A CN114841060 A CN 114841060A CN 202210419664 A CN202210419664 A CN 202210419664A CN 114841060 A CN114841060 A CN 114841060A
Authority
CN
China
Prior art keywords
model
machine learning
automatic machine
data
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210419664.6A
Other languages
English (en)
Inventor
韩彧
苏树清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Weiyan Technology Co ltd
Original Assignee
Shenzhen Weiyan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Weiyan Technology Co ltd filed Critical Shenzhen Weiyan Technology Co ltd
Priority to CN202210419664.6A priority Critical patent/CN114841060A/zh
Publication of CN114841060A publication Critical patent/CN114841060A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/02Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自动机器学习技术领域,公开了实现自动机器学习的方法及装置,包括:用户创建数据集,并添加数据特征;选择数据模型开始训练;对模型进行自动调参;部署模型并保存训练好的模型,数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。本发明中,通过用户直接通过数据集合添加特征实现机器学习建模,降低了劳动力成本,相比较现有的人工建模还可以减少人为错误,通过自动执行重复性任务,能够开发更有效的模型,而且将人力从繁琐、反复的算法调优中解放出来,并且通过多种算法实现自动调参,则使装置的实用性更强,满足不同人工智能领域的使用,而且有利于提升工作效率,能够大幅度提升了开发效率。

Description

实现自动机器学习的方法及装置
技术领域
本发明涉及自动机器学习技术领域,具体为实现自动机器学习的方法及装置。
背景技术
自动机器学习(AutoML,AutomatedMachineLearning),是将机器学习模型开发过程中耗时的反复性任务自动化的过程,业务人员、初学者、数据科学家、分析师和开发人员都可以使用它来生成高度可缩放、高效且高产能的ML模型,同时保证模型的质量。传统的机器学习模型开发是资源密集型的,需要具备丰富的领域知识,并需要花费大量的时间来生成和比较数十个模型。使用自动化机器学习可以缩减生成生产就绪型ML模型所需的时间,同时使工作变得更轻松高效。
目前,自动机器学习只能在单一的某个场景或特定模型内使用,不能够针对不同需求的数据集快速的对机器学习模型进行高效建立,而且对机器学习的模型建立需要耗费巨大的人力物力,使用成本高,并且在建模后需要不断的对参数进行调整,开发成本高,并且费时费力。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明为解决自动机器学习只能在单一的某个场景或特定模型内使用,不能够针对不同需求的数据集快速的对机器学习模型进行高效建立,而且对机器学习的模型建立需要耗费巨大的人力物力,使用成本高,并且在建模后需要不断的对参数进行调整,开发成本高,并且费时费力的问题,提出了实现自动机器学习的方法及装置。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:实现自动机器学习的方法,包括:
用户创建数据集,并添加数据特征;
选择数据模型开始训练;
对模型进行自动调参;
部署模型并保存训练好的模型。
优选的,所述数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。
优选的,所述自动调参包括被调参算法、调参配置和调参模型输出选择。
优选的,所述被调参算法中算法为GBDT二分类。
优选的,所述调参配置的调参算法为GAUSE、SAMPLE、GBDT、EvolutionaryOptimizer、Random search、Grid search、PBT、UserDefine中的任意一种。
优选的,所述调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种。
实现自动机器学习的装置,包括输入模块、分析计算模块、存储模块和输出模块;
所述输入模块,用于导入数据集,并添加数据特征;
所述分析计算模块,用于数据特征工程和模型参数优化;
所述存储模块,用于存储数据库及特征标签,并存储训练好的模型;
所述输出模块,用于输出模型预测。
优选的,所述装置用于实现实现自动机器学习方法。
(三)有益效果
与现有技术对比,本发明具备以下有益效果:
本发明中,通过用户直接通过数据集合添加特征实现机器学习建模,降低了劳动力成本,相比较现有的人工建模还可以减少人为错误,通过自动执行重复性任务,能够开发更有效的模型,而且将人力从繁琐、反复的算法调优中解放出来,并且通过多种算法实现自动调参,则使装置的实用性更强,满足不同人工智能领域的使用,而且有利于提升工作效率,能够大幅度提升了开发效率。
附图说明
图1为本发明中实现自动机器学习的方法的流程示意图;
图2为本发明中自动调参的内部结构示意图;
图3为本发明中调参配置的内部结构示意图;
图4为本发明中实现自动机器学习的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图3,实现自动机器学习的方法,包括:
用户创建数据集,并添加数据特征,通过数据特征便于机器学习,实现后续自动地发掘并构造相关的特征,使得模型可以有最优的表现;
选择数据模型开始训练;
对模型进行自动调参,通过自动调参;
部署模型并保存训练好的模型。
进一步的,数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合,数据集每一列代表一个特定变量,每一行都对应于某一成员的数据集的问题,每个数值被称为数据资料,对应于行数,该数据集的数据可能包括一个或多个成员。
进一步的,自动调参包括被调参算法、调参配置和调参模型输出选择,自动调参是通过内置搜索算法,帮助用户实现模型超参数的自动寻优。
进一步的,被调参算法中算法为GBDT二分类,GBDT二分类的原理是设置阈值,如果特征值大于阈值,则为正例,反之为负例。
进一步的,调参配置的调参算法为GAUSE、SAMPLE、GBDT、EvolutionaryOptimizer、Random search、Grid search、PBT、UserDefine中的任意一种;
在Evolutionary Optimizer算法中:
a.随机选定a个参数候选集(探索样本数a);
b.取其中评估指标较高的n个参数候选集,作为下一轮迭代的参数候选集;
c.继续在这些参数周边的r倍(收敛系数r)标准差范围探索,以探索出新的参数集,来替代上一轮中评估指标靠后的a-n个参数集;
d.根据以上逻辑,迭代m轮(探索次数m),直到找到最优的参数集合;
根据以上逻辑,最终产生的模型数目为a+(a-n)*m,当n的第一个值为a/2-1,在迭代过程中默认为n/2-1;
在Grid search算法中:
a.将每个参数的取值区间拆成n段(网格拆分数)。
b.在n段里面各随机取出一个随机值。假设有m个参数,就可以组合出n^m组参数。
c.根据nm组参数训练生成nm个模型并进行排序。
进一步的,调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种;
Precision预测为正类的结果中,正确个数的比例:
Figure BDA0003607039230000041
Precision的意义是判断模型的结果是否“找得对”;
Recall为正类的样本中,正确判断为正类的比例:
Figure BDA0003607039230000042
Recall的意义是判断模型的结果是否“找得全”;
F1-score是Precision和Recall的调和平均值;
Figure BDA0003607039230000051
其中,P为Precision,R为Recall;
AUC面积表示ROC曲线下方的面积大小,通过积分计算结果,AUC越大越好;
由于ROC曲线一般在y=x直线的上方,故AUC一般为0.5~1.0。
请参阅图4,实现自动机器学习的装置,包括输入模块、分析计算模块、存储模块和输出模块;
输入模块,用于导入数据集,并添加数据特征,输入模块的型号为TRICON3008,便于接收从编程器输入的用户程序和数据;
分析计算模块,用于数据特征工程和模型参数优化,分析计算模块的型号为i7-8750H SR3YY 2.2G-9M-BGA,实现机器高效的自动学习,并且运算速度快,工作效率高;
存储模块,用于存储数据库及特征标签,并存储训练好的模型,存储模块的型号为MT8KTF51264HZ-1G9P1,实现了数据库的存储和模型的存储,便于用户后期对模型进行部署和输出;
输出模块,用于输出模型预测,输出模块的型号为6ED1055-1MM00-0BA2。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.实现自动机器学习的方法,包括:
用户创建数据集,并添加数据特征;
选择数据模型开始训练;
对模型进行自动调参;
部署模型并保存训练好的模型。
2.根据权利要求1所述的实现自动机器学习的方法,其特征在于:所述数据集的格式为图片、视频、表格和文本数据中的任意一种或多种组合。
3.根据权利要求1所述的实现自动机器学习的方法,其特征在于:所述自动调参包括被调参算法、调参配置和调参模型输出选择。
4.根据权利要求3所述的实现自动机器学习的方法,其特征在于:所述被调参算法中算法为GBDT二分类。
5.根据权利要求3所述的实现自动机器学习的方法,其特征在于:所述调参配置的调参算法为GAUSE、SAMPLE、GBDT、Evolutionary Optimizer、Random search、Grid search、PBT、UserDefine中的任意一种。
6.根据权利要求3所述的实现自动机器学习的方法,其特征在于:所述调参模型输出选择的评估标准为AUC、F1-score、Precision、Recall中的任意一种。
7.实现自动机器学习的装置,其特征在于:包括输入模块、分析计算模块、存储模块和输出模块;
所述输入模块,用于导入数据集,并添加数据特征;
所述分析计算模块,用于数据特征工程和模型参数优化;
所述存储模块,用于存储数据库及特征标签,并存储训练好的模型;
所述输出模块,用于输出模型预测。
8.根据权利要求7所述的实现自动机器学习的装置,其特征在于:所述装置用于实现如权利要求1至6中任一项所述的实现自动机器学习方法。
CN202210419664.6A 2022-04-21 2022-04-21 实现自动机器学习的方法及装置 Pending CN114841060A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210419664.6A CN114841060A (zh) 2022-04-21 2022-04-21 实现自动机器学习的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210419664.6A CN114841060A (zh) 2022-04-21 2022-04-21 实现自动机器学习的方法及装置

Publications (1)

Publication Number Publication Date
CN114841060A true CN114841060A (zh) 2022-08-02

Family

ID=82565139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210419664.6A Pending CN114841060A (zh) 2022-04-21 2022-04-21 实现自动机器学习的方法及装置

Country Status (1)

Country Link
CN (1) CN114841060A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN111753987A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 机器学习模型的生成方法和装置
CN114219096A (zh) * 2021-11-16 2022-03-22 中国建设银行股份有限公司 一种机器学习算法模型的训练方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363714A (zh) * 2017-12-21 2018-08-03 北京至信普林科技有限公司 一种方便数据分析人员使用的集成机器学习的方法及系统
CN111753987A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 机器学习模型的生成方法和装置
CN114219096A (zh) * 2021-11-16 2022-03-22 中国建设银行股份有限公司 一种机器学习算法模型的训练方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Miao et al. Towards unified data and lifecycle management for deep learning
CN109919685B (zh) 客户流失预测方法、装置、设备及计算机可读存储介质
CN115543639B (zh) 分布式执行深度学习任务的优化方法和分布式系统
CN110110858B (zh) 一种基于强化学习的自动化机器学习方法
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
CN110727506B (zh) 一种基于成本模型的spark参数自动调优方法
CN115795131B (zh) 基于人工智能的电子档案分类方法、装置及电子设备
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
CN110956277A (zh) 一种交互式的迭代建模系统及方法
CN112598134A (zh) 融合人工经验和集成学习策略的机器学习方法及装置
CN111461286A (zh) 基于进化神经网络的Spark参数自动优化系统和方法
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
Zhou et al. On the opportunities of green computing: A survey
CN114580517A (zh) 一种图像识别模型的确定方法及装置
CN114841060A (zh) 实现自动机器学习的方法及装置
CN115983377A (zh) 基于图神经网络的自动学习方法、装置、计算设备及介质
CN115758462A (zh) 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质
CN110175626A (zh) 一种基于云平台下svm图像识别系统及方法
Yuan et al. Research of intelligent reasoning system of Arabidopsis thaliana phenotype based on automated multi-task machine learning
Liu et al. Experience-based optimization: A coevolutionary approach
CN111368069A (zh) 一种图谱推理规则的自动提取方法
CN116991984B (zh) 广域协同与体系知识增强的电子卷宗材料处理方法及系统
CN113127509B (zh) PaaS平台中SQL执行引擎的适配方法及装置
Xu et al. Efficient block pruning based on kernel and feature stablization
Qiao et al. Hierarchical accounting variables forecasting by deep learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination