CN111913715A - 基于微服务的机器学习自动化过程管理及优化系统和方法 - Google Patents

基于微服务的机器学习自动化过程管理及优化系统和方法 Download PDF

Info

Publication number
CN111913715A
CN111913715A CN202010753072.9A CN202010753072A CN111913715A CN 111913715 A CN111913715 A CN 111913715A CN 202010753072 A CN202010753072 A CN 202010753072A CN 111913715 A CN111913715 A CN 111913715A
Authority
CN
China
Prior art keywords
data
service
service unit
model
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010753072.9A
Other languages
English (en)
Inventor
刘峰麟
周迪邦
蒋筱丽
王玺
杜津
徐真
张椿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuce Software Co ltd
Original Assignee
Shanghai Shuce Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuce Software Co ltd filed Critical Shanghai Shuce Software Co ltd
Priority to CN202010753072.9A priority Critical patent/CN111913715A/zh
Publication of CN111913715A publication Critical patent/CN111913715A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供了一种基于微服务的机器学习自动化过程管理及优化系统和方法,包括:数据集、数据处理流构造器、数据处理流服务单元、算法构造器、算法服务单元、模型构造器、模型服务单元、脏数据模型构造器、服务单元编排优化器和容器运行环境。本发明基于类SQL的数据结构转换、数据类型转换、数据映射、数据聚合、数据筛选、数据拆分过程,自动构造面向算法输入的数据转换处理流服务单元,提高了数据处理过程的可读性,降低了后期维护成本。

Description

基于微服务的机器学习自动化过程管理及优化系统和方法
技术领域
本发明涉及汽车行业数据分析技术领域,具体地,涉及一种基于微服务的机器学习自动化过程管理及优化系统和方法。尤其地,涉及一种汽车行业的基于微服务的机器学习自动化过程管理及优化系统和方法。
背景技术
汽车行业大量相关企业缺乏算法模型的服务化封装、管理监控数字化的工具。
近10年由于大数据分布式存储计算技术,并行技术的发展。企业可感知并累积下来数据成指数型增长。越来越多的企业开始着手进行数据挖掘,甚至开始利用复杂的算法模型进行数据分析,期望将这些数据变现,体现价值。
但进行数据挖掘及算法分析的过程需要有各个领域的专业人员的参与协作。目前企业内进行数据挖掘及算法分析过程中会有以下问题:
(1)算法开发环境硬件及软件环境干扰问题:多个算法开发人员往往公用一个开发环境,如果需要同时进行调试及训练,互相间软件依赖会互相干扰,硬件资源互相抢占,需要互相协商资源,手动限制任务资源占用,或者单独开通虚拟机。
(2)算法开发自动化程度低,通用性低:算法开发需要专业人员耗费大量精力和时间去进行数据清洗和参数调优,并且该算法只局限于特定场景,当场景发生变化时需要重新进行开发数据清洗过程及算法程序,费时费力。
(3)算法发布过程复杂:需要专业的微服务程序开发人员手动编写代码进行算法模块的服务化包装,并且进行测试、发布。
(4)算法模型迭代对比过程漫长且操作复杂:算法模型需要人工记录模型结果,手工对比效果,然后不断迭代。
(5)线上算法线下算法服务管理过程繁琐,且服务升级体验差:手工管理算法服务的升级,上线,算法服务回滚等过程,算法服务版本间差异化大,服务管理过程工序繁琐,管理难度大。
专利文献CN110162414A(申请号:201910102655.2)公开了一种基于微服务架构实现人工智能服务的方法及装置,其主要功能点侧重在将模型程序过程拆分为模型执行过程以及数据特征提取过程,将两个过程分别封装为模型微服务、特征微服务,通过不断修改特征数据,提取不同数据特征,复用模型、特征服务本身,从而减少模型服务的开发工作量。与本发明相同的是,都将模型程序封装为微服务。不同的是,本发明是通过封装生成数据处理、算法程序、模型程序的微服务的过程,减少生成微服务过程的开发工作量及技术难度;本发明还包含,使用类SQL语句管理数据处理逻辑,提升数据处理过程逻辑可读性。
专利文献CN107273979A(申请号:201710427869.8)公开了一种基于服务级别来执行机器学习预测的方法及系统,其侧重在利用服务将机器学习的不同样本进行封装管理,然后通过特征设计和模型框架实现具体的机器学习,是针对机器学习人工实现过程的划分抽象,改进了机器学习的服务人工构建过程。与本发明相同的是,都是以服务于方式封装管理机器学习过程。不同的是,本发明是将机器学过程分成数据处理、算法程序、模型程序服务的三个部分,数据处理过程与算法程序、模型程序可以自由组合。
专利文献CN109144724A(申请号:201810840458.6)公开了一种微服务资源调度系统及方法,其主要功能点侧重在通过微服务管理机器学习的训练过程,并通过训练服务并行且独立,以及交叉验证服务模块,评估多个算法的结果进而实现实时预测,提供训练的调度监控,预测服务的定时调度,记录模型训练的参数。与本发明相同的是,都通过服务方式封装了机器学习训练过程,并通过服务并行运行实现训练的交叉试验。不同的是,本发明还包含了不需要训练的模型的交叉试验,以及数据处理过程与模型、算法的混合交叉试验。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于微服务的机器学习自动化过程管理及优化系统和方法。
根据本发明提供的基于微服务的机器学习自动化过程管理及优化系统,包括:
数据集:在数据处理流服务单元中作为被处理数据输入服务单元,在算法服务单元中作为算法训练数据输入服务单元,在模型服务单元中作为特征数据输入服务单元;
数据处理流构造器:管理并生成数据处理流单元;
算法构造器:管理并生成算法服务单元;
模型构造器:管理并生成模型服务单元;
脏数据模型构造器:通过机器学习优化数据处理流服务单元对脏数据的识别过程;
服务单元编排优化器:对数据处理流服务单元、算法服务单元和模型服务单元进行运行编排,自动调整服务参数,执行模拟运行试验,比对运行结果,标记评价标签,供人工参考选择;
容器运行环境:提供数据处理流服务单元、算法服务单元和模型服务单元运行环境及资源。
优选的,所述数据为集存储在存储器上或者通过协议发送的数据集合;
数据集合包括二维表形式的数据集合和可解析为二维表的数据集合。
优选的,所述数据处理流构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,配置数据集处理逻辑生成指定二维表形式的结果数据集,定义脏数据识别规则生成数据处理流单元;
所述数据处理流服务单元:基于数据处理流构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括Kubernetes、docker-compose的容器运行环境。
优选的,所述算法构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,配置算法程序迭代更新配置,生成算法服务单元;
所述算法服务单元:基于算法构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括kubernetes、docker-compose的容器运行环境。
优选的,所述模型构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,选取算法生成模型或配置自定义模型,生成模型服务单元;
所述模型服务单元:基于模型构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括kubernetes、docker-compose的容器运行环境。
优选的,所述脏数据模型构造器:收集、解析脏数据日志信息,构建并训练脏数据模型,对处理流程单元进行数据更新。
优选的,所述服务单元编排优化器:获取数据处理流服务单元、算法服务单元和模型服务单元,选择编排方式,设定期望目标和服务适配关系,生成编排计划集和服务滚动编排计划,发送滚动编排计划到容器运行环境,模拟发送数据集,收集服务过程数据并进行分析,生成服务运行效果报告,匹配效果目标。
优选的,所述容器运行环境包括kubernetes和docker-compose的docker容器运行环境,还包括ELK日志采集服务组件;
通过容器运行环境提供的多docker实例运行机制进行分布式服务计算,通过CUDA提供的docker运行类库进行GPU并行计算。
优选的,数据传输方式包括:
-系统各模块通过数据存储交换数据,所述数据存储包括存储在存储器上,或者缓存在内存中;
-通过协议发送或接收数据进行数据传输,所述协议包括http、https、rpc、kafka、MQTT、TCP和UDP协议。
根据本发明提供的基于微服务的机器学习自动化过程管理及优化方法,包括:
数据处理流构造器的数据处理步骤:读取接收数据集,判断数据集是否为二维表并采取对应措施;
数据处理流服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,加载脏数据识别规则识别模型,将识别的脏数据以日志形式进行打印;
算法构造器的数据处理步骤:读取接收数据集,并判断数据集是否为二维表并采取对应措施以迭代更新配置,生成算法服务单元;
算法服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,将读取的数据以日志形式进行打印;
模型构造器的数据处理步骤:读取接收数据集,判断数据集是否为二维表并采取对应措施,选取算法生成模型和配置自定义模型,生成模型服务单元;
模型服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,将读取的数据以日志形式进行打印;
脏数据模型构造器的数据处理步骤:收集并解析脏数据日志信息,以此构建并训练脏数据识别模型,更新数据处理流程单元;
服务单元编排优化器的数据处理步骤:获取数据处理流服务单元、算法服务单元和模型服务单元,选择编排方式,设定期望目标和服务适配关系,生成编排计划集和服务滚动编排计划,发送滚动编排计划到容器运行环境,模拟发送数据集,收集服务过程数据并进行分析,生成服务运行效果报告,匹配效果目标。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过采用可视化的微服务构建技术,人工交互定义数据处理流服务单元、算法服务单元、模型服务单元,简化从数据到算法再到可用模型服务开发过程,自动构造面向算法输入的数据转换处理流服务单元,提高数据处理过程的可读性,降低后期维护成本;
2、本发明通过采用docker容器的版本管理机制,实现对数据处理程序、算法程序、模型程序的版本管理,实现对数据处理程序、算法程序、模型程序的积累及回溯;
3、本发明通过采用图计算技术自动生成多种服务单元组合运行时序图,通过服务编排技术模拟试验服务单元运行,利用自动机器学习,对数据处理服务单元、算法服务单元、模型服务单元运行过程及效果进行自动分析评价,简化人工通过手工记录或抽取算法历史执行数据,人工分析并对比算法服务有效性信息过程,降低人工试验服务单元运行效果的工作量,减少试验的时间成本;
4、本发明通过采用数据限制条件匹配、迭代更新的脏数据识别模型,进行异常数据标记,实现自动剔除异常数据,自动动态规避异常数据影响算法或模型运行过程,通过人工配置的数据限制条件,标记脏数据数据,通过自动获取历史运行数据、历史脏数据,自动训练更新脏数据识别模型,自动更新脏数据识别方式,实现动态标记脏数据机制。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为系统功能模块关系图;
图2为数据处理流构造器流程图;
图3为数据处理流服务单元流程图;
图4为算法服务构造器流程图;
图5为算法服务单元流程图;
图6为模型服务构造器流程图;
图7为模型服务单元流程图;
图8为脏数据模型构造器流程图;
图9为服务单元编排优化器流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
本系统通过可视化的抽象算法模型及其服务化过程,利用微服务技术实现算法模型的数据预处理过程、模型训练过程、模型参数调整过程、模型对比过程、模型运行过程的程序自动服务化封装,以降低构建模型服务的服务开发技术能力的准入标准、降低算法人员学习服务开发技术的成本,减少人工服务构建的开发工作量。
将算法模型程序微服务化管理,使得算法模型服务可以利用微服务运行平台、微服务容器管理平台的管理能力,降低管理算法模型程序版本、算法模型程序服务运维工作量。通过算法模型微服务的服务编排技术,以及自动遍历生成编排计划,自动执行测试实验,实现数据预处理过程、模型训练过程、模型参数调整过程、模型对比过程、模型运行过程微服务的自动运行编排实验以及结果对比,减少人工进行算法模型服务编排实验以及算法模型服务结果对比的开发工作量。
利用GPU并行计算技术及CPU分布式服务计算技术提供的并发计算能力,并发运行服务编排实验,提升算法模型服务实验速度,减少实验时间。
人工标记脏数据与自迭代优化的脏数据识别模型配合,实现自动优化的脏数据清洗服务,减少数据清洗过程人工调整的工作量。
本系统可实现本地化部署,也可以以SaaS云服务模式实现。
以下是本系统的主要特性:
(1)采用共享数据存储资源池、服务资源池,确保每个客户可以在自己的独立环境与不同数据源、数据访问接口匹配。
(2)无论采用本地化部署、SaaS云服务模式,都可以为每个客户提供独立的模型资源仓库、独立的服务资源、独立的私有数据及文件存储资源。
(3)数据灾备采用分布对象存储及分布式存储集群方式实现高可用。
(4)服务负载管理及高可用通过分布式服务集群加微服务提供动态资源横向伸缩管理,高负载管理。
如图一,是实现本系统功能的最小模型。本系统通过可视化控制台实现对算法模型的管理构建,其主要用于数据处理流单元、算法服务单元、模型服务单元的逻辑定义,以及编排上述服务单元的运行交互顺序,部署执行服务单元。本系统包括以下模块:
一、数据集
指存储在存储器上或者通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据集合,此数据集合包括二维表形式的数据集合以及可以通过人工定义的规则解析为二维表的数据集合。人工定义的规则包括正则表达式,Json数据结构与二维表数据结构对应关系。
二、数据处理流构造器,其用于:
实现配置读取或接收数据集配置信息,读取或接收数据集,配置数据集解析规则生成二维表形式的数据集,配置数据集处理逻辑生成指定二维表形式的结果数据集,定义脏数据识别规则,生成数据处理流单元。
如图二,是实现本模块功能的数据处理流程,步骤如下:
1、配置读取或接收数据集配置信息,其中在存储器上的数据集,数据库数据配置TCP/IP协议连接信息,文件数据配置文件路径;通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据的,配置对应协议信息。
2、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
3、判断读取或接受的数据是否为二维表。是,执行步骤5;否,执行步骤4。
4、配置数据集解析规则生成二维表形式的数据集,非二维表形式的数据需要配置数据集的解析规则,通过解析规则处理数据转换为二维表形式的数据集,将二维表形式的数据缓存在内存中。解析规则包括正则表达式,Json数据结构与二维表数据结构对应关系。
5、配置数据集处理逻辑生成指定二维表形式的结果数据集,包括SQL语句方式、程序片段方式。SQL语句方式,首先读取内存中缓存的二维表形式数据,执行SQL语句,生成新的二维表形式数据并缓存在内存中;程序片段方式,首先读取内存中缓存的二维表形式数据,执行程序片段,生成数据对象,数据对象转换为json,人工配置Json数据结构与二维表数据结构对应关系,依照对应关系将json转换成二维表数据,并缓存在内存中,同时根据人工选择将数据存储在存储器中,或者通过http、https、rpc、kafka、MQTT协议发送数据到指定服务。
6、定义脏数据识别规则,包括设置范围值,正则表达式,自定义识别程序片段,离散度上下限。
7、生成数据处理流单元,将读取数据集的信息存储到配置文件中,同时将解析规则存储到配置文件中,配置数据集处理逻辑生成指定二维表形式的结果数据集功能的配置信息存储在配置文件、SQL存储到配置文件、脏数据识别规则存储到配置文件,程序片段存储到程序片段文件,以上功能(1、2、3中的功能)的执行过程封装在微服务程序中。最终将微服务程序、配置文件、程序片段打包成docker服务镜像,推送到docker容器服务,即生成数据处理流服务单元。其中微服务程序分为CPU用微服务程序、GPU用微服务程序,CPU微服务程序通过调用CPU的类库实现,GPU微服务程序通过调用CUDA类库实现。
三、数据处理流服务单元,其用于:
基于数据处理流构造器生成docker服务镜像,以docker形式启动程序,运行器可以选择Kubernetes、docker-compose等容器运行环境。
如图三,是实现本模块功能的数据处理流程,步骤如下:
1、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
2、读取配置文件,加载配置文件信息,将配置文件信息存储在内存缓存中。
3、解析配置文件,匹配预定义的对象模板转换配置信息,生成配置信息对象。
4、加载脏数据识别规则识别模型,读取脏数据识别规则识别模型文件,匹配模型执行模板程序。
5、加载程序片段,读取程序片段文件,匹配程序片段执行模板程序。
6、依照预设的程序执行流程执行程序过程,依照程序执行流程,按次序调用3、4、5步骤程序执行过程,其中配置文件信息执行数据处理程序过程、脏数据识别限制规则、数据解析规则,模型执行模板程序依据匹配结果调用模型文件,程序片段执行模板程序依据匹配结果调用程序片段。
7、读取或接收的数据集打印到日志,读取的存储器中的数据集或通过例如http、https、rpc、kafka、MQTT协议接收的数据集打印到日志。
8、识别的脏数据打印到日志,步骤6通过脏数据识别限制规则以及模型识别标记的脏数据打印到日志。
9、执行结果打印到日志,步骤6执行过程产生的中间结果打印到日志。
四、算法构造器,其用于:
实现配置读取或接收数据集配置信息,读取或接收数据集,配置数据集解析规则生成二维表形式的数据集,配置算法程序,迭代更新配置,生成算法服务单元。
如图四,是实现本模块功能的数据处理流程,步骤如下:
1、配置读取或接收数据集配置信息,其中在存储器上的数据集,数据库数据配置TCP/IP协议连接信息,文件数据配置文件路径;通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据的,配置对应协议信息。
2、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
3、判断读取或接受的数据是否为二维表。是,执行步骤5;否,执行步骤4。
4、配置数据集解析规则生成二维表形式的数据集,非二维表形式的数据需要配置数据集的解析规则,通过解析规则处理数据转换为二维表形式的数据集,将二维表形式的数据缓存在内存中。解析规则包括正则表达式,Json数据结构与二维表数据结构对应关系。
5、配置算法程序,以程序片段方式配置。首先读取内存中缓存的二维表形式数据,执行程序片段,生成数据对象,数据对象转换为json,人工配置Json数据结构与二维表数据结构对应关系,依照对应关系将json转换成二维表数据,并缓存在内存中,同时根据人工选择将数据存储在存储器中,或者通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送数据到指定服务,最后生成模型程序文件,保存模型文件到存储器。
6、迭代更新配置,选择配置两种触发机制,其一为定时触发,定时执行步骤1-5过程;其二为通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议接收数据触发,设置每接收n次数据触发一次执行过程。
7、生成算法服务单元,将配置信息存储到配置文件,程序片段存储到程序片段文件,以上1-5功能的执行过程封装在微服务程序中。最终将微服务程序配置文件、程序片段文件打包成docker服务镜像,推送到docker容器服务即生成算法服务单元。其中微服务程序分为CPU用微服务程序、GPU用微服务程序,CPU微服务程序通过调用CPU的类库实现,GPU微服务程序通过调用CUDA类库实现。
五、算法服务单元,其用于:
基于算法构造器生成docker服务镜像,以docker形式启动程序,运行器可以选择kubernetes、docker-compose等容器运行环境。
如图五,是实现本模块功能的数据处理流程,步骤如下:
1、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
2、读取配置文件,加载配置文件信息,将配置文件信息存储在内存缓存中。
3、解析配置文件,匹配预定义的对象模板转换配置信息,生成配置信息对象。
4、加载程序片段,读取程序片段文件,匹配程序片段执行模板程序。
5、依照预设的程序执行流程执行程序过程,依照程序执行流程,按次序调用步骤3、4程序执行过程,其中配置信息对象执行数据解析规则、迭代更新触发机制,程序片段执行模板程序依据匹配结果调用程序片段。
6、读取或接收的数据集打印到日志,读取的存储器中的数据集或通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议接收的数据集打印到日志,
7、执行结果打印到日志,步骤5每步执行过程产生的中间结果打印到日志。
六、模型构造器,其用于:
实现配置读取或接收数据集配置信息,读取或接收数据集,配置数据集解析规则生成二维表形式的数据集,选择是否选项算法生成的模型,选取算法生成模型,配置自定义模型,生成模型服务单元。
如图六,是实现本模块功能的数据处理流程,步骤如下:
1、配置读取或接收数据集配置信息,其中在存储器上的数据集,数据库数据配置TCP/IP协议连接信息,文件数据配置文件路径;通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据的,配置对应协议信息。
2、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
3、判断读取或接受的数据是否为二维表。是,执行步骤5;否,执行步骤4。
4、配置数据集解析规则生成二维表形式的数据集,非二维表形式的数据需要配置数据集的解析规则,通过解析规则处理数据转换为二维表形式的数据集,将二维表形式的数据缓存在内存中。解析规则包括正则表达式,Json数据结构与二维表数据结构对应关系。
5、选择是否选项算法生成的模型,选择是,执行步骤6;选择否,执行步骤7。
6、选取算法生成模型,选择算法服务单元运行过程中生成的模型文件,执行步骤8。
7、配置自定义模型,包括上载自定义的模型文件、模型程序片段方式。两种方式执行过程相同,首先读取缓存在内存中的二维表形式数据,执行模型文件或程序片段,生成结果数据对象,数据对象转换为json,人工配置Json数据结构与二维表数据结构对应关系,依照对应关系将json转换成二维表数据,并缓存在内存中,同时根据人工选择将数据存储在存储器中,或者通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送数据到指定服务。
8、生成模型服务单元,将读取数据集功能的规则存储到配置文件中,解析规则存储到配置文件中,模型保存到模型文件,以上功能(1-7中的功能)的执行过程封装在微服务程序中。最终将微服务程序、配置文件、模型文件打包成docker服务镜像,推送到docker容器服务,即生成模型服务单元。其中微服务程序分为CPU用微服务程序、GPU用微服务程序,CPU微服务程序通过调用CPU的类库实现,GPU微服务程序通过调用CUDA类库实现。
七、模型服务单元,其用于:
基于模型构造器生成docker服务镜像,以docker形式启动程序,运行器可以选择kubernetes、docker-compose等容器运行环境。
如图七,是实现本模块功能的数据处理流程,步骤如下:
1、读取或接收数据集,加载读取或接收的数据。其中在存储器上的数据集通过TCP/IP技术读取数据库数据,或通过操作系统的IO接口或特定存储服务的IO接口读取文件两种方式。通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据,使用对应协议接口接收数据集。
2、读取配置文件,加载配置文件信息,将配置文件信息存储在内存缓存中。
3、解析配置文件,匹配预定义的对象模板转换配置信息,生成配置信息对象。
4、加载模型文件,读取模型文件,匹配模型执行模板程序。。
5、依照预设的模型程序执行流程执行程序过程,依照程序执行流程,按次序调用步骤3、4程序执行过程,其中配置信息对象执行数据解析规则,模型执行模板程序依据匹配结果调用模型文件。
6、读取或接收的数据集打印到日志,读取的存储器中的数据集或通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议接收的数据集打印到日志。
7、执行结果打印到日志,步骤5每步执行过程产生的中间结果打印到日志。
八、脏数据模型构造器,其用于:
实现收集脏数据日志信息,解析脏数据日志,收集历史读取或接收数据的日志信息,解析历史读取或接收数据的日志信息,训练脏数据模型功能,保存模型到模型文件,更新数据处理流程单元。
如图八,是实现本模块功能的数据处理流程,步骤如下:
1、收集脏数据日志信息,调用容器运行环境的日志收集服务功能接口,实时接收日志信息,收集数据处理流服务单元脏数据日志。
2、解析脏数据日志,依照脏数据日志格式规则,解析日志,生成脏数据信息,存储脏数据信息到存储器。
3、收集历史读取或接收数据的日志信息,调用容器运行环境的日志收集服务功能接口,实时接收日志信息,收集历史读取或接收数据的日志。
4、解析历史读取或接收数据的日志信息,依照脏数据日志格式规则,解析日志,生成历史读取或接收数据的日志信息,存储历史读取或接收数据的日志信息到存储器。
5、训练脏数据模型功能,调用自动机器学习类库,加载历史数据信息,加载脏数据信息,定时训练脏数据识别算法,生成脏数据识别模型。
6、保存模型到模型文件,将模型输出到文件流并存储到存储器。
7、更新数据处理流程单元,加载上一个版本的数据处理流服务单元docker,加入新的脏数据识别模型文件,生成新版本数据处理流服务单元docker,发送到容器镜像服务。
九、服务单元编排优化器,其用于:
实现获取数据处理流服务单元,获取算法服务单元,获取模型服务单元,选择是否自动编排,人工编排,设定期望目标,设定服务适配关系,生成编排计划集,生成服务滚动编排计划,发送滚动编排计划到容器运行环境,模拟发送数据集,收集服务过程数据,记录数据、分析过程数据,生成服务运行效果报告,匹配效果目标,人工选定发布服务编排计划,发送编排计划到容器运行环境。
如图九,是实现本模块功能的数据处理流程,步骤如下:
1、获取数据处理流服务单元,调用容器镜像服务接口,加载数据处理流服务单元docker镜像信息列表。
2、获取算法服务单元,调用容器镜像服务接口,加载算法服务单元docker信息列表。
3、获取模型服务单元,调用容器镜像服务接口,加载模型服务单元docker信息列表。
4、选择是否自动编排,选择否,执行步骤5;选择是执行步骤6。
5、人工编排,人工上载或配置yaml配置文件,标记人工编排标记。
6、设定期望目标,定义算法服务单元生成的模型的期望条件或模型服务单元的期望条件R2、MSE、RMSE、MeanError、MedianError值。
7、设定服务适配关系,定义数据处理流服务单元与算法服务单元对应关系,定义数据处理流服务单元与模型服务单元对应关系,对应关系为多对多。
8、生成编排计划集,以对应关系为限制条件,进行图计算,计算出所有服务单元运行时序图,将运行排序图转换为yaml服务编排配置文件集。
9、生成服务滚动编排计划,将服务编排配置文件集标号排序,生成滚动排执行计划。
10、发送滚动编排计划到容器运行环境,调用容器运行环境的资源查询接口查询可用资源信息,参照滚动执行计划及可用资源信息依次发送n个服务编排计划。
11、模拟发送数据集,依照各个服务单元数据读取或接收信息配置信息,向需要接收数据的服务单元,通过例如http、https、rpc、kafka、MQTT、TCP、UDP协议发送的数据。
12、收集服务过程数据,调用容器运行环境日志收集服务接口收集运行过程数据(包括运行结果数据)日志。
13、记录数据、分析过程数据,比较运行结果与真实结果,生成R2、MSE、RMSE、MeanError、MedianError评价值。
14、生成服务运行效果报告,将运行结果与真实结果渲染成比对图表,将R2、MSE、RMSE、MeanError、MedianError评价值渲染成比对图表。
15、匹配效果目标,标记推荐编排计划列表,比较与预期设置的差距,生成评价值标签,并标记在每个编排计划信息中。
16、人工选定发布服务编排计划,人工参考编排计划标记信息、评价值信息确定发布编排计划,并生成发布标记在对应编排计划信息中。
17、发送编排计划到容器运行环境,发送编排计划配置文件到容器运行环境,调用容器运行环境服务管理接口启动服务。
十、容器运行环境
指kubernetes、docker-compose等docker容器运行环境,包含例如ELK日志采集服务组件。分布式服务计算能力通过容器运行环境提供的多docker实例运行机制实现,GPU并行计算能力通过CUDA提供的docker运行类库实现。
实施例2:
生产线涂装喷漆车间能耗消耗分析。主要目标分析喷漆车间能耗消耗与哪些可控因素有关,从而动态调整相关因素,减少能耗消耗,节省天然气成本。经本系统处理有以下实施例。
(1)数据预处理过程以及进行模型选定过程,使用此系统。直接进行数据的导入适配,选取历史的能耗分析模型服务。快速度确定场景模型构建可行性,消耗时间为1天,模型R2值小于50%。确定数据范围过小,需要额外数据。历史模拟时间需要一周消耗。减少人工工作量80%。
(2)扩充模拟数据维度后,再次模拟运行,简单人工处理标记干预,运行时间为2天,R2水平达到70%,确定数据维度基本可以满足场景需要,并且分析图表出现明显规则图形,确定场景反向可行性。历史再次模拟时间为一周,人工工作量减少60%。
(3)人工分析模拟结果报告,以及异常数据特征,发现为0数据,将异常数据处理加入模型,继续模拟运行,运行2天,模型拟合75%-80%波动。
(4)人工拟定数据升维、降维规则,设定模型目标拟合度90%目标,并再次扩充外部维度。模拟运行3天,再次调整,再次模拟运行3天,迭代半自动模拟,2周产生了期望模拟结果。
(5)再次分析异常数据及低关联数据特征,结合调研业务数据含义,干预调整,并重新调整1周产生拟合>95%结果,并直接生成模型服务。
历史平均模型确定调整需要需要2-3个月,服务开发构建需要一个月,使用此系统时间总消耗1个月,时间成本和人工都节省65-75%。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于微服务的机器学习自动化过程管理及优化系统,其特征在于,包括:
数据集:在数据处理流服务单元中作为被处理数据输入服务单元,在算法服务单元中作为算法训练数据输入服务单元,在模型服务单元中作为特征数据输入服务单元;
数据处理流构造器:管理并生成数据处理流单元;
算法构造器:管理并生成算法服务单元;
模型构造器:管理并生成模型服务单元;
脏数据模型构造器:通过机器学习优化数据处理流服务单元对脏数据的识别过程;
服务单元编排优化器:对数据处理流服务单元、算法服务单元和模型服务单元进行运行编排,自动调整服务参数,执行模拟运行试验,比对运行结果,标记评价标签,供人工参考选择;
容器运行环境:提供数据处理流服务单元、算法服务单元和模型服务单元运行环境及资源。
2.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述数据为集存储在存储器上或者通过协议发送的数据集合;
数据集合包括二维表形式的数据集合和可解析为二维表的数据集合。
3.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述数据处理流构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,配置数据集处理逻辑生成指定二维表形式的结果数据集,定义脏数据识别规则生成数据处理流单元;
所述数据处理流服务单元:基于数据处理流构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括Kubernetes、docker-compose的容器运行环境。
4.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述算法构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,配置算法程序迭代更新配置,生成算法服务单元;
所述算法服务单元:基于算法构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括kubernetes、docker-compose的容器运行环境。
5.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述模型构造器:读取、接收数据集,配置数据集解析规则生成二维表形式的数据集,选取算法生成模型或配置自定义模型,生成模型服务单元;
所述模型服务单元:基于模型构造器生成docker服务镜像,以docker形式启动程序,运行器选择包括kubernetes、docker-compose的容器运行环境。
6.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述脏数据模型构造器:收集、解析脏数据日志信息,构建并训练脏数据模型,对处理流程单元进行数据更新。
7.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述服务单元编排优化器:获取数据处理流服务单元、算法服务单元和模型服务单元,选择编排方式,设定期望目标和服务适配关系,生成编排计划集和服务滚动编排计划,发送滚动编排计划到容器运行环境,模拟发送数据集,收集服务过程数据并进行分析,生成服务运行效果报告,匹配效果目标。
8.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,所述容器运行环境包括kubernetes和docker-compose的docker容器运行环境,还包括ELK日志采集服务组件;
通过容器运行环境提供的多docker实例运行机制进行分布式服务计算,通过CUDA提供的docker运行类库进行GPU并行计算。
9.根据权利要求1所述的基于微服务的机器学习自动化过程管理及优化系统,其特征在于,数据传输方式包括:
-系统各模块通过数据存储交换数据,所述数据存储包括存储在存储器上,或者缓存在内存中;
-通过协议发送或接收数据进行数据传输,所述协议包括http、https、rpc、kafka、MQTT、TCP和UDP协议。
10.一种基于微服务的机器学习自动化过程管理及优化方法,其特征在于,采用权利要求1-9中任一种或任多种所述的基于微服务的机器学习自动化过程管理及优化系统,包括:
数据处理流构造器的数据处理步骤:读取接收数据集,判断数据集是否为二维表并采取对应措施;
数据处理流服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,加载脏数据识别规则识别模型,将识别的脏数据以日志形式进行打印;
算法构造器的数据处理步骤:读取接收数据集,并判断数据集是否为二维表并采取对应措施以迭代更新配置,生成算法服务单元;
算法服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,将读取的数据以日志形式进行打印;
模型构造器的数据处理步骤:读取接收数据集,判断数据集是否为二维表并采取对应措施,选取算法生成模型和配置自定义模型,生成模型服务单元;
模型服务单元的数据处理步骤:读取接收数据集,读取解析配置文件,将读取的数据以日志形式进行打印;
脏数据模型构造器的数据处理步骤:收集并解析脏数据日志信息,以此构建并训练脏数据识别模型,更新数据处理流程单元;
服务单元编排优化器的数据处理步骤:获取数据处理流服务单元、算法服务单元和模型服务单元,选择编排方式,设定期望目标和服务适配关系,生成编排计划集和服务滚动编排计划,发送滚动编排计划到容器运行环境,模拟发送数据集,收集服务过程数据并进行分析,生成服务运行效果报告,匹配效果目标。
CN202010753072.9A 2020-07-30 2020-07-30 基于微服务的机器学习自动化过程管理及优化系统和方法 Pending CN111913715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753072.9A CN111913715A (zh) 2020-07-30 2020-07-30 基于微服务的机器学习自动化过程管理及优化系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753072.9A CN111913715A (zh) 2020-07-30 2020-07-30 基于微服务的机器学习自动化过程管理及优化系统和方法

Publications (1)

Publication Number Publication Date
CN111913715A true CN111913715A (zh) 2020-11-10

Family

ID=73287973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753072.9A Pending CN111913715A (zh) 2020-07-30 2020-07-30 基于微服务的机器学习自动化过程管理及优化系统和方法

Country Status (1)

Country Link
CN (1) CN111913715A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112799742A (zh) * 2021-02-09 2021-05-14 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN113568658A (zh) * 2021-08-13 2021-10-29 中国科学院西北生态环境资源研究院 多语言地学在线服务方法、装置、存储介质及电子设备
CN114638373A (zh) * 2020-12-15 2022-06-17 Aptiv技术有限公司 管理机器学习环境

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2931710A1 (en) * 2015-05-28 2016-11-28 Sonicu, Llc Tank-in-tank container fill level indicator
CN106250987A (zh) * 2016-07-22 2016-12-21 无锡华云数据技术服务有限公司 一种机器学习方法、装置及大数据平台
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析系统
CN110490334A (zh) * 2019-08-27 2019-11-22 上海丙晟科技有限公司 一种低延迟的机器学习即服务的生成方法
CN110780914A (zh) * 2018-07-31 2020-02-11 中国移动通信集团浙江有限公司 服务发布方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2931710A1 (en) * 2015-05-28 2016-11-28 Sonicu, Llc Tank-in-tank container fill level indicator
CN106250987A (zh) * 2016-07-22 2016-12-21 无锡华云数据技术服务有限公司 一种机器学习方法、装置及大数据平台
CN110780914A (zh) * 2018-07-31 2020-02-11 中国移动通信集团浙江有限公司 服务发布方法及装置
CN110490334A (zh) * 2019-08-27 2019-11-22 上海丙晟科技有限公司 一种低延迟的机器学习即服务的生成方法
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114638373A (zh) * 2020-12-15 2022-06-17 Aptiv技术有限公司 管理机器学习环境
CN112799742A (zh) * 2021-02-09 2021-05-14 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN112799742B (zh) * 2021-02-09 2024-02-13 上海海事大学 一种基于微服务的机器学习实训系统及方法
CN113568658A (zh) * 2021-08-13 2021-10-29 中国科学院西北生态环境资源研究院 多语言地学在线服务方法、装置、存储介质及电子设备
CN113568658B (zh) * 2021-08-13 2023-09-19 中国科学院西北生态环境资源研究院 多语言地学在线服务方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110378463B (zh) 一种人工智能模型标准化训练平台及自动化系统
CN109933306B (zh) 一种基于作业类型识别的自适应混合云计算框架生成方法
CN111913715A (zh) 基于微服务的机器学习自动化过程管理及优化系统和方法
US20200097847A1 (en) Hyperparameter tuning using visual analytics in a data science platform
US20180137431A1 (en) Multimodal, small and big data, machine learing systems and processes
CN108037919A (zh) 一种基于web的可视化大数据工作流配置方法及系统
CN112882810B (zh) 基于超级计算机的高通量任务处理方法
US20210304073A1 (en) Method and system for developing a machine learning model
CN113168564A (zh) 用于生成人工智能模型的方法和系统
CA3089911A1 (en) Method and system for flexible pipeline generation
Panduman et al. A survey of IoT platform comparison for building cyber-physical system architecture
CN111324635A (zh) 工业大数据云平台数据处理方法及系统
CN114546365B (zh) 一种流程可视化的建模方法、服务器、计算机系统及介质
CN116127899A (zh) 芯片设计系统、方法、电子设备和存储介质
Herodotou et al. Automatic performance tuning for distributed data stream processing systems
US20210326761A1 (en) Method and System for Uniform Execution of Feature Extraction
US20210397482A1 (en) Methods and systems for building predictive data models
Sanyal et al. Supercomputer assisted generation of machine learning agents for the calibration of building energy models
CN117235527A (zh) 端到端容器化的大数据模型构建方法、装置、设备及介质
CN110766163B (zh) 用于实施机器学习过程的系统
Alexopoulos et al. Machine learning agents augmented by digital twinning for smart production scheduling
KR102375880B1 (ko) 인공지능 모델 기반의 제조 공정에서의 견적 및 설계도 산출 시스템
CN111324332A (zh) 大数据任务的处理方法及系统、电子设备、存储介质
CN112783740B (zh) 一种基于时间序列特征的服务器性能预测方法及系统
Kumari et al. MetaAnalyser-a concept and toolkit for enablement of digital twin

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110