CN109032579A

CN109032579A - 一种可视化模型在线预测系统

Info

Publication number: CN109032579A
Application number: CN201810738121.4A
Authority: CN
Inventors: 王峰
Original assignee: Wuxi Xuelang Number System Technology Co Ltd
Current assignee: Wuxi Xuelang Number System Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-18

Abstract

本发明公开一种可视化模型在线预测系统，该系统包括：用户选择web input1和web output1作为web服务的输入点和输出点；管理进程接收在线部署请求；部署后，管理进程将产生若干子进程，每个子进程都是一个自定义组件预测进程；web input1接受api请求，执行用户自定义组件预测，输出数据给管理进程，管理进程将数据转发给下一子进程，以此往复；最后，web output1将用户自定义组件预测的标准输入数据在api进行返回。本发明不仅支持可视化进行模型在线部署预测；而且支持模型串联预测。

Description

一种可视化模型在线预测系统

技术领域

本发明涉及模型预测技术领域，尤其涉及一种可视化模型在线预测系统。

背景技术

目前，传统的数据训练和模型预测流程如图1所示：1.数据读取，从一个离线数据源读取数据，用于后续的训练。2.数据清洗，读取的数据中可能有一部分不符合需要，在这里设置规则，不符合规则的数据会被去掉。3.数据拆分，将数据按比例拆分，分别用于训练和预测。4.特征抽取，将数据进行变换，以突出该模式具有代表性特征。5.GBDT分类，分类算法，输入为特征抽取后的数据，经过训练后输出为模型，模型可以用于预测。6.预测，输入为一个模型，还有其他外来数据，输出为预测结果。7.分类评估，使用GBDT分类算法产生的模型和拆分后的另一部分数据作为输入，进行评估运算。输出仍然是模型。如图2所示，算法开发者产生的模型需要通过在线部署的方式部署成为web服务，以API(ApplicationProgramming Interface,应用程序编程接口)的方式提供服务。但是，在整个部署的过程中存在以下难点：1.需要根据算法开发者开发出来的模型和代码等实际情况选择不同的输入点和输出点。即图2中所示的web input 1/web outpu1，web input2/web output2。2.数据通过web input输入后，需要通过‘特征抽取’‘GBDT分类’等节点进行计算，并最终通过weboutput输出。目前Azure ML使用的所有算法都是Azure自己提供的，算法内部提供了全部的训练和预测的功能定义，用户只要设计好了整个算法流程，直接点击在线预测部署即可完成。这样做的缺点是用户无法自定义算法，只能使用Azure提供的算法。其他平台提供的算法在线部署没有提供可视化配置，并且仅提供单一模型部署，不支持多模型串联。其中，Azure是一种灵活和支持互操作的平台，它可以被用来创建云中运行的应用或者通过基于云的特性来加强现有应用。

发明内容

本发明的目的在于通过一种可视化模型在线预测系统，来解决以上背景技术部分提到的问题。

为达此目的，本发明采用以下技术方案：

一种可视化模型在线预测系统，该系统包括：用户选择web input1和web output1作为web服务的输入点和输出点；

管理进程(manager)接收在线部署请求；

部署后，管理进程将产生若干子进程，每个子进程都是一个自定义组件预测进程；

web input1接受api请求，执行用户自定义组件预测，输出数据给管理进程，管理进程将数据转发给下一子进程，以此往复；

最后，web output1将用户自定义组件预测的标准输入数据在api进行返回。

特别地，所述用户自定义组件预测的实现具体包括：一、用户提供user pythonscript，利用user python script加载算法开发者产生的模型到内存，然后根据stdin的标准输入数据进行预测，然后返回结果；二、系统提供python sdk，通过python sdk加载userpython script，接收stdin的标准输入数据和返回stdout的标准输出数据。

特别地，所述Python sdk以进程的方式常驻内存，而不是收到请求后再启动进程。

特别地，所述web input1和web output1使用同一个子进程。

特别地，对于数据拆分逻辑对应的子进程，数据拆分逻辑用于离线训练，在线预测时，只会提供需要进行预测的数据，不需要拆分，用户不需要提供user python script，python sdk直接将stdin作为stdou输出。

本发明提出的可视化模型在线预测系统优点如下：一、支持可视化进行模型在线部署预测；二、支持模型串联预测。

附图说明

图1为传统的数据训练和模型预测流程示意图；

图2为基于web服务的数据训练和模型预测流程示意图；

图3为本发明实施例提供的可视化模型在线预测系统示意图；

图4为本发明实施例提供的用户自定义组件预测的实现流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参照图3所示，图3为本发明实施例提供的可视化模型在线预测系统示意图。

本实施例中可视化模型在线预测系统具体包括：用户选择web input1和weboutput1作为web服务的输入点和输出点。工作时，

管理进程(manager)接收在线部署请求；

在本实施例中，如图4所示，所述用户自定义组件预测的实现具体包括：一、用户提供user python script，利用user python script加载算法开发者产生的模型(图4中model)到内存，然后根据stdin的标准输入数据进行预测，然后返回结果；二、系统提供python sdk，通过python sdk加载user python script，接收stdin的标准输入数据和返回stdout的标准输出数据。其中，Python是一种面向对象的解释型计算机程序设计语言，由荷兰人Guido van Rossum于1989年发明；python sdk指python开发者工具套件；user pythonscript指python脚本文件。在本实施例中，为了确保模型预测的实时性，Python sdk以进程的方式常驻内存，而不是收到请求后再启动进程。

在本实施例中所述web input1和web output1使用同一个子进程。对于数据拆分逻辑对应的子进程，数据拆分逻辑用于离线训练，在线预测时，只会提供需要进行预测的数据，不需要拆分，用户不需要提供user python script，python sdk直接将stdin作为stdou输出。

本发明提出的技术方案优点如下：一、支持可视化进行模型在线部署预测；二、支持模型串联预测。

本领域普通技术人员可以理解实现上述实施例中的全部部分是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种可视化模型在线预测系统，其特征在于，该系统包括：用户选择web input1和web output1作为web服务的输入点和输出点；

管理进程接收在线部署请求；

最后，web output1将用户自定义组件预测的标准输入数据在api返回。

2.根据权利要求1所述的可视化模型在线预测系统，其特征在于，所述用户自定义组件预测的实现具体包括：一、用户提供user python script，利用user python script加载算法开发者产生的模型到内存，然后根据stdin的标准输入数据进行预测，然后返回结果；二、系统提供python sdk，通过python sdk加载user python script，接收stdin的标准输入数据和返回stdout的标准输出数据。

3.根据权利要求2所述的可视化模型在线预测系统，其特征在于，所述Python sdk以进程的方式常驻内存，而不是收到请求后再启动进程。

4.根据权利要求3所述的可视化模型在线预测系统，其特征在于，所述web input1和web output1使用同一个子进程。

5.根据权利要求1至4之一所述的可视化模型在线预测系统，其特征在于，对于数据拆分逻辑对应的子进程，数据拆分逻辑用于离线训练，在线预测时，只会提供需要进行预测的数据，不需要拆分，用户不需要提供user python script，python sdk直接将stdin作为stdou输出。