CN109978062B

CN109978062B - 一种模型在线监控方法及系统

Info

Publication number: CN109978062B
Application number: CN201910245283.9A
Authority: CN
Inventors: 李明; 王清臣
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-02-14
Anticipated expiration: 2039-03-28
Also published as: CN109978062A

Abstract

本发明提供一种模型在线监控方法及系统，属于大数据技术领域，其中一种方法包括：基于当前模型服务获取实时业务数据；基于所述实时业务数据重新训练算法模型；将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对；基于比对结果调整所述当前模型服务；重复执行上述步骤，以对当前在线模型进行实时监控。本发明实施例，基于更新的业务数据不断训练新的算法模型，并将重新训练的算法模型与当前在线模型进行比对，基于比对结果调整所述当前模型服务，从而不断优化模型服务，保证模型服务的准确性。

Description

一种模型在线监控方法及系统

技术领域

本发明涉及大数据技术领域，尤其涉及一种模型在线监控方法及系统。

背景技术

目前，大多数的数据分析系统都是基于训练的算法模型实现数据分析功能。算法模型在训练完成后，只有用于实际的业务场景中才能实现其价值，但是，所述算法模型在实际应用中可能会存在一定的局限性，从而导致该算法模型的准确性较低。

发明内容

有鉴于此，本发明提供一种模型在线监控方法及系统，用于解决目前数据分析系统训练的算法模型的准确性较低的问题。

为解决上述技术问题，第一方面，本发明提供一种模型在线监控方法，包括：

基于当前模型服务获取实时业务数据；

基于所述实时业务数据重新训练算法模型；

将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对；

基于比对结果调整所述当前模型服务；

重复执行上述步骤，以对当前在线模型进行实时监控。

优选的，所述基于当前模型服务获取实时业务数据的步骤之前，还包括：

基于历史数据训练得到原始算法模型，并将所述原始算法模型上线发布为模型服务。

优选的，所述将所述原始算法模型上线发布为模型服务的步骤包括：

识别所述原始算法模型的格式；

确定模型服务的部署策略和调用方式；

构建模型服务镜像，并基于所述部署策略申请发布资源；

基于申请到的发布资源运行所述模型服务镜像，按照识别的格式解析所述原始算法模型，并按照确定的调用方式提供应用原始算法模型的接口。

优选的，在训练所述原始算法模型时，采用手动接入方式接入所述历史数据；所述历史数据的数据源为网络文件系统NFS、分布式文件系统DFS、JDBC数据源、数据仓库、分布式数据库和网络爬虫中的至少之一。

优选的，所述实时业务数据的数据源为应用程序编程接口RESTful API、消息队列、批处理数据中的至少之一。

优选的，所述方法还包括：

将获取的实时业务数据保存为增量数据集。

优选的，在执行基于当前模型服务获取实时业务数据的步骤时，还执行以下步骤：

获取评估数据。

优选的，所述获取评估数据的步骤之后，还包括：

将获取的所述实时业务数据和所述评估数据保存为增量数据集。

优选的，所述基于所述实时业务数据重新训练算法模型的步骤，包括：

每间隔预设时长或当所述增量数据集的数据增量达到预设阈值时，基于所述增量数据集重新训练算法模型。

优选的，所述基于所述实时业务数据重新训练算法模型的步骤，还包括：

每间隔预设时长或当所述增量数据集的数据增量达到预设阈值时，基于历史数据和所述增量数据集重新训练算法模型。

优选的，所述将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对的步骤，包括：

确定至少一种评分指标；

根据所述至少一种评分指标获取所述重新训练的算法模型的第一评分；

根据所述至少一种评分指标获取所述当前在线模型的第二评分；

将所述第一评分与所述第二评分进行比较，输出所述比对结果。

优选的，所述确定至少一种评分指标的步骤包括：

确定比对规则，所述比对规则包括单一指标评分规则和组合指标评分规则；

若是单一指标评分规则，则确定一种所述评分指标；

若是组合指标评分规则，则确定至少两种所述评分指标。

优选的，所述评分指标包括轮廓系数、同质性、完整性、V-measure、曲线下面积、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、确定性系数和绝对均值误差中的至少之一。

优选的，所述基于比对结果调整所述当前模型服务的步骤，包括：

基于比对结果确定冠军模型；

基于所述冠军模型创建新的模型服务替换所述当前模型服务、更新所述当前模型服务的版本，或维持所述当前模型服务不变。

优选的，所述基于比对结果确定冠军模型的步骤，包括：

当所述第一评分优于所述第二评分时，将所述重新训练的算法模型确定为冠军模型；

当所述第二评分优于所述第一评分时，将所述当前在线模型确定为冠军模型。

优选的，所述基于比对结果调整所述当前模型服务的步骤包括：

若所述重新训练的算法模型优于所述当前在线模型，则所述重新训练的算法模型为冠军模型，将所述冠军模型上线发布为模型服务；

若所述当前在线模型优于所述重新训练的算法模型，则所述当前在线模型为冠军模型，维持所述当前模型服务不变。

优选的，所述将所述冠军模型上线发布为模型服务的步骤包括：

新建模型服务，或者，升级所述当前模型服务的版本。

优选的，所述将所述冠军模型上线发布为模型服务的方式为灰度发布、A/B测试和蓝绿发布中的一个。

优选的，所述方法还包括：

在比对过程中，若所述当前在线模型连续优于所述重新训练的算法模型，则更新所述当前在线模型的连续胜出次数；

当所述连续胜出次数大于预设值时，标记当前在线模型。

优选的，所述方法还包括：

基于接收到的下线当前在线模型的指令，关闭所述当前模型服务，终止对所述当前在线模型的监控。

第二方面，本发明还提供一种模型在线监控系统，包括：

数据获取模块，用于基于当前模型服务获取实时业务数据；

重新训练模块，用于基于所述实时业务数据重新训练算法模型；

比对模块，用于将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对；

调整模块，用于基于比对结果调整所述当前模型服务；

控制模块，用于控制所述数据获取模块、所述重新训练模块、所述比对模块和所述调整模块依次重复运行，以对当前在线模型进行实时监控。

优选的，所述系统还包括：

原始算法模型上线模块，用于基于历史数据训练得到原始算法模型，并将所述原始算法模型上线发布为模型服务。

优选的，所述原始算法模型上线模块包括：

模式识别单元，用于识别所述原始算法模型的格式；

确定单元，用于确定模型服务的部署策略和调用方式；

预备单元，用于构建模型服务镜像，并基于所述部署策略申请发布资源；

发布单元，用于基于申请到的发布资源运行所述模型服务镜像，按照识别的格式解析所述原始算法模型，并按照确定的调用方式提供应用原始算法模型的接口。

优选的，所述系统还包括：

第一保存模块，用于将获取的实时业务数据保存为增量数据集。

优选的，所述系统还包括：

评估数据获取模块，用于获取评估数据。

优选的，所述系统还包括：

第二保存模块，用于将获取的所述实时业务数据和所述评估数据保存为增量数据集。

优选的，所述重新训练模块包括：

第一重新训练单元，用于每间隔预设时长或当所述增量数据集的数据增量达到预设阈值时，基于所述增量数据集重新训练算法模型。

优选的，所述重新训练模块包括：

第二重新训练单元，用于每间隔预设时长或当所述增量数据集的数据增量达到预设阈值时，基于历史数据和所述增量数据集重新训练算法模型。

优选的，所述比对模块包括：

指标确定单元，用于确定至少一种评分指标；

第一评分获取单元，用于根据所述至少一种评分指标获取所述重新训练的算法模型的第一评分；

第二评分获取单元，用于根据所述至少一种评分指标获取所述当前在线模型的第二评分；

比较单元，用于将所述第一评分与所述第二评分进行比较，输出所述比对结果。

优选的，所述指标确定单元包括：

比对规则确定子单元，用于确定比对规则，所述比对规则包括单一指标评分规则和组合指标评分规则；

第一确定子单元，用于若是单一指标评分规则，则确定一种所述评分指标；

第二确定子单元，用于若是组合指标评分规则，则确定至少两种所述评分指标。

优选的，所述调整模块包括：

冠军模型确定单元，用于基于比对结果确定冠军模型；

调整单元，用于基于所述冠军模型创建新的模型服务替换所述当前模型服务、更新所述当前模型服务的版本，或维持所述当前模型服务不变。

优选的，所述冠军模型确定单元包括：

第一确定子单元，用于当所述第一评分优于所述第二评分时，将所述重新训练的算法模型确定为冠军模型；

第二确定子单元，用于当所述第二评分优于所述第一评分时，将所述当前在线模型确定为冠军模型。

优选的，所述调整模块包括：

上线单元，用于若所述重新训练的算法模型优于所述当前在线模型，则所述重新训练的算法模型为冠军模型，将所述冠军模型上线发布为模型服务；

维持单元，用于若所述当前在线模型优于所述重新训练的算法模型，则所述当前在线模型为冠军模型，维持所述当前模型服务不变。

优选的，所述上线单元包括：

新建子单元，用于新建模型服务；

或者，

升级子单元，用于升级所述当前模型服务的版本。

优选的，所述系统还包括：

更新模块，用于在比对过程中，若所述当前在线模型连续优于所述重新训练的算法模型，则更新所述当前在线模型的连续胜出次数；

标记模块，用于当所述连续胜出次数大于预设值时，标记所述当前在线模型。

优选的，所述系统还包括：

模型服务下线模块，用于基于接收到的下线当前在线模型的指令，关闭所述当前模型服务，终止对当前在线模型的监控。

第三方面，本发明还提供一种模型在线监控系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述任一种模型在线监控方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种模型在线监控方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例中，在将当前模型服务应用于业务场景实现业务需求时，会通过接入当前模型服务的业务系统，接收持续更新的业务数据，并利用更新的业务数据重新训练算法模型，然后将重新训练的算法模型与当前模型服务对应的当前在线模型进行比对，并基于比对结果调整所述当前模型服务，从而不断优化当前在线的模型服务，保证该模型服务的准确性。

附图说明

图1为本发明实施例中的一种模型在线监控方法的流程示意图；

图2为本发明实施例中的另一种模型在线监控方法的流程示意图；

图3为本发明实施例中的一种模型在线监控系统的结构示意图；

图4为本发明实施例中的另一种模型在线监控系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种模型在线监控方法的流程示意图，包括以下步骤：

步骤11：基于当前模型服务获取实时业务数据；

步骤12：基于所述实时业务数据重新训练算法模型；

步骤13：将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对；

步骤14：基于比对结果调整当前模型服务；

重复执行上述步骤(也即重复执行上述步骤11、步骤12、步骤13和步骤14)，以对所述当前在线模型进行实时监控。

本发明实施例中，在将当前模型服务应用于业务场景实现业务需求时，会通过接入当前模型服务的业务系统接收持续更新的业务数据，并利用更新的业务数据重新训练算法模型，然后将重新训练的算法模型与当前模型服务对应的当前在线模型进行比对，并基于比对结果调整所述当前模型服务，从而不断优化当前模型服务，保证该模型服务的准确性。

下面举例说明上述模型在线监控方法。

需要说明的是，所述当前模型服务对应的当前在线模型可以为原始算法模型，也可以为重新训练出的算法模型。训练原始算法模型使用的是历史数据，也即没有部署模型服务之前搜集的数据。重新训练算法模型时使用的数据可以是原始算法模型上线发布为模型服务之后更新的数据，当然也可以是包括历史数据和原始算法模型上线发布为模型服务之后更新的数据。

因此，可选的，所述基于当前模型服务获取实时业务数据的步骤之前，还包括：

数据分析系统根据实际业务需求(例如得到预测目标值、聚类结果、异常检测结果、语义分析结果等)，采用历史数据训练得到原始算法模型，在该原始算法模型经过审核之后将其上线发布为模型服务，以使得训练得到的原始算法模型能够应用于真实的业务场景中，实现模型的服务化，满足用户的数字化运营战略。具体的，该数据分析系统通过模型服务(包括但不限于应用程序编程接口(Application Programming Interface，简称API)、消息队列或者批处理(Batch))获取业务数据(具体是获取应用该模型服务的业务系统(也即模型服务接收该业务系统的业务数据，并根据业务需求输出相应的结果)的业务数据)，然后通过所述业务数据消费(也即应用或者使用)当前模型服务，基于该算法模型的类型，实现业务需求。其中，算法模型的类型可以按照业务场景划分为：识别信用卡客户群的聚类算法模型，预测客户流失、金融产品推荐预测的分类算法模型，预测保险理赔额度、现金备付的回归算法模型，识别欺诈、异常交易的异常检测模型，基于语义分析、词频分析的语言处理模型等。对应的，基于各个业务场景的业务数据对当前模型服务的消费得到相应的聚类结果、分类结果、回归结果、异常检测结果及语言处理结果。

进一步可选的，所述将所述原始算法模型上线发布为模型服务的步骤包括：

识别所述原始算法模型的格式；

确定模型服务的部署策略和调用方式；

构建模型服务镜像，并基于所述部署策略申请发布资源；

通过对算法模型进行多格式自动解析，自动识别算法模型的格式(模型自动解析只会匹配对应的真实格式，即pmml、pkl、h5其中一种)；确定模型服务的部署策略，即部署模型服务实例个数，每个服务实例使用资源的大小，所述部署策略可以由用户自定义设置，也可以是系统默认的部署策略；确定模型服务的调用方式，可以是超文本传输协议-表述行状态转移Http-Rest接口调用、消息队列mq调用、及批处理batch调用中的至少一种，所述调用方式可以由用户选择，也可以由系统默认选定；服务发布引擎使用算法模型文件及模型解析服务(数据分析系统的自身组件，用于智能识别模型格式)作为源文件构建模型服务镜像(预置了模型服务的镜像)，如镜像构建失败则模型发布失败；按照确定的部署策略，服务发布引擎向发布集群的资源管理中心申请资源，如资源不足则模型发布失败；使用构建的模型服务镜像启动容器，按照识别的算法模型的格式解析算法模型文件，并按照确定的模型服务的调用方式，提供应用该发布的算法模型的接口，模型发布完成。

具体的，本发明实施例中，将所述原始算法模型上线发布(也可以称为部署)为模型服务的过程可以包括：

第一步，把冠军模型文件(例如预测模型标记语言(Predictive Model MarkupLanguage，PMML)格式的模型文件)存储起来，使得能够对冠军模型文件进行管理，包括进行上线和删除，例如存储到共享存储(包括网络存储系统(Network File System，NFS)和分布式文件系统(CEPH)等形式中的至少之一)，其中，采用CEPH进行存储可以采用对象存储方式(对象存储是存储数据和元数据(例如数据的路径)，不需要遍历扫描，可以通过元数据快速定位)。

第二步，把冠军模型信息存储到数据库，冠军模型信息指的是名称、变量、描述等，使得调用信息更方便更轻量级。

第三步，为冠军模型建立一个Docker(一个开源的应用容器引擎)镜像(image)(即容器的镜像文件也即操作系统)，即把所述冠军模型文件用容器(container)封装起来。容器里面的服务把冠军模型文件加载到Docker容器同时会把它解析成Java语言对象，或者容器里面的服务从存储读取Java语言对象，即在解析模型中把模型解析成Java语言对象，存储到合适的存储位置(例如本地文件系统、数据库、对象存储等)，序列化成一个文件(转成二进制)，容器里面的服务从存储读取Java语言对象(即反序列化成Java语言对象)。容器里面的服务是把模型运行起来，提供HTTP((Hyper Text Transfer Protocol，超文本传输协议))服务(API访问接口)。Docker镜像也要存储，例如可以放在registry(即Docker的仓库里)。

另外需要说明的是，模型训练就是通过已知的数据和目标，调节算法的参数。其中，对于原始算法模型来说，已知的数据就是历史数据；对于重新训练的算法模型来说，已知的数据就是接入当前模型服务的业务系统(也即应用当前在线的模型服务的业务系统)持续更新的业务数据(还可以包括评估数据和历史数据中的至少之一)。目标是基于对模型服务所要应用的业务场景的要求的理解确定的。算法就是模型训练中的算法，例如，(1)聚类：K均值聚类算法(K-MEANS，K是指先随机选取K个对象作为初始的聚类中心)、近邻传播、均值偏移、谱聚类、层次聚类、密度噪声、平衡迭代层次聚类等；(2)分类：随机森林、梯度渐进树、极端梯度提升(XGBoost，eXtreme Gradient Boosting)、决策树、临近算法(KNN)、额外随机数、神经网络、逻辑回归、支持向量机、随机梯度下降等；(3)回归：随机森林、梯度渐进树、岭回归、套索回归、XGBoost、决策树、临近算法(KNN)、额外随机数、神经网络、套索路径、逻辑回归、支持向量机、随机梯度下降等。对模型进行训练的过程是一个循环的过程，具体为：

第一步：业务理解，也即对训练出的模型所应用的业务进行分析和理解，确定业务需求(即期望结果)。

第二步：数据预处理，也即对用于训练模型的数据进行预处理。可以采用以下方法中的至少之一对数据进行预处理：无量纲化、归一化、缺失值计算、非法值排除和数据变换等。

第三步：特征选择，筛选用于进行模型训练的数据。

第四步：调整模型参数(即调整算法的参数)，也即根据具体业务场景下的业务需求(例如预测的准确性)调整模型参数。具体可以由用户手动调节，也可以系统自动调节。

第五步：训练模型，就是设定合适的参数，使得模型更好的拟合训练集的数据。其中设定参数可以是用户设定，也可以是系统自动设定，例如系统基于某些业务场景进行设定。

第六步：模型评估，具体可采用交叉验证、调整估计器(estimator)的超参数和通过指标来评估(即通过指标量化预测的质量)中的至少之一评估方法来进行评估。交叉验证的基本思想是在某种意义下将用于训练的数据进行分组,一部分作为训练集，另一部分作为验证集，首先用训练集进行训练，再利用验证集来测试训练得到的模型，作为评价的性能指标。调整估计器的超参数是指调整用来评估模型的估计器的参数。通过指标量化预测的质量是指用当前已有的实际评价指标来评估模型。其中，通过指标来评估，例如计算预测的准确性指标，可以通过将预测数值和实际数值做比较来获得。

第七步：判断是否满足业务需求，如果满足业务需求，则结束训练过程，否则返回第一步，或者返回第四步。

上述模型训练过程可以简化为：模型训练→模型评估→判断是否满足业务需求→调整模型参数→运行模型训练模块→模型评估……。

举例说明，对于客户流失预测模型，例如用决策树算法预测客户流失，设置决策树算法的参数：最大深度、最大叶节点数等，运行模型训练模块进行训练，通过指标来进行结果评估，指标选用准确率，通过模型评估输出决策树算法的准确率为81％，然后进行参数调整重新训练模型，进行模型评估输出决策树算法的准确率为85％，如满足该业务线的要求(期望结果)，则可以对该模型进行部署上线，发布为模型服务。

在训练算法模型时，接入训练数据(训练原始算法模型时的历史数据、重新训练算法模型时增量数据集中的数据)有两种模式：手动接入和自动接入。手动接入模式主要适用于训练原始算法模型，手动接入的数据源(也即历史数据的数据源)可以是网络文件系统(NFS)、分布式文件系统(DFS)、Java(一种计算机编程语言)数据库互联(Java DatabaseConnectivity，简称JDBC)数据源、数据仓库、分布式数据库及网络爬虫等中的至少之一。自动接入模式主要适用于在原始算法模型上线发布为模型服务后重新训练算法模型，自动接入的数据主要来自于消费(也即使用或者应用)模型服务的业务系统，数据源(也即实时业务数据的数据源)可以是RESTful API(REST即Representational State Transfer，表述性状态传递，RESTful API是基于HTTP(Hyper Text Transfer Protocol，超文本传输协议)协议的一种设计规范)、消息队列、批处理数据等中的至少之一。

可选的，所述方法还包括：

将获取的实时业务数据保存为增量数据集。

可选的，在执行基于当前模型服务获取实时业务数据的步骤时，还执行以下步骤：

获取评估数据。

进一步可选的，所述获取评估数据的步骤之后，还包括：

本发明的一些实施例中，所述基于所述实时业务数据重新训练算法模型的步骤，包括：

本发明实施例中，由于业务数据和评估数据持续更新，增量数据集一直处于增量状态，因此可以基于固定频率(如固定时长)重新训练新的算法模型，具体可以是在距离上一次重新训练算法模型的时长达到预设时长时根据所述增量数据集重新训练算法模型；如果是第一次重新训练算法模型，则可以是距离原始算法模型上线发布为模型服务的时长达到预设时长时根据所述增量数据集重新训练算法模型。另外，也可以基于增量数据集的数据增量(也即新增的数据量)重新训练新的算法模型，具体可以是所述增量数据集中，在上一次训练算法模型之后新增的数据量达到预设阈值时根据所述增量数据集重新训练算法模型。

需要说明的是，如果是基于固定时长重新训练新的算法模型，那么第一次重新训练算法模型的时刻可以是在原始算法模型上线发布为模型服务并接入业务数据和评估数据持续预设时长后。如果当前模型服务对应的模型是上一次重新训练的算法模型，那么也可以在距离当前模型服务的上线发布时刻达到预设时长时，重新训练算法模型。也即，本发明实施例中，在基于固定时长重新训练新的算法模型的情况下，时间节点可根据实际情况确定。

另外需要说明的是，如果是基于增量数据集的数据增量来确定重新训练新的算法模型的时机，那么第一次重新训练算法模型的时刻可以是在原始算法模型上线发布为模型服务并接入业务数据和评估数据后，增量数据集中的数据量达到预设阈值时。如果当前模型服务对应的模型是上一次重新训练的算法模型，那么也可以在当前模型服务上线发布后，增量数据集中的数据增量达到预设阈值，就重新训练算法模型。

本发明的另一些实施例中，所述基于所述实时业务数据重新训练算法模型的步骤，还包括：

也即，在重新训练算法模型时所使用的数据，不仅包括原始算法模型上线发布为模型服务之后的增量数据集中的数据，还包括训练原始算法模型时使用的历史数据。从而，重新训练算法模型时使用的数据量更大，重新训练出来的算法模型的性能更好，更符合业务需求。

本发明实施例中，重新训练算法模型的过程与训练原始算法模型的过程基本一致，不过是将更新的评估数据作为验证集，或者将增量数据集拆分为训练集和验证集进行模型训练。

可选的，所述将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对的步骤包括：

确定至少一种评分指标；

将所述第一评分与所述第二评分进行比较，输出比对结果。

进一步可选的，所述确定至少一种评分指标的步骤包括：

若是单一指标评分规则，则确定一种所述评分指标；

若是组合指标评分规则，则确定至少两种所述评分指标。

本发明实施例中，可以采用单一指标评分的评分比对规则，也可以采用组合指标评分的评分比对规则。评分指标可以有以下至少之一：轮廓(Silhouette)系数、同质性(Homogeneity)、完整性(Completeness)、V-measure、曲线下面积(Area Under The Curve，AUC)、准确率、精确率、召回率、F1分数(是统计学中用来衡量二分类模型精确度的一种指标)、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、确定性系数(R2值)、绝对均值误差等。单一指标评分规则，也即只采用上述的任一种评分指标来获取重新训练的算法模型的第一评分和当前在线模型的第二评分。组合指标评分规则，也即采用上述评分指标中的至少两种来获取重新训练的算法模型的第一评分和当前在线模型的第二评分。可选的，在采用组合指标评分时，可为选择的至少两种评分指标分配权重值。

进一步可选的，所述基于所述实时业务数据重新训练算法模型的步骤包括：

在利用实时业务数据重新训练算法模型时，得到至少两个新的算法模型以及各个重新训练的算法模型的评分(具体可以有多项指标的评分)；

根据所述评分从所述至少两个新的算法模型中筛选出最优模型；

所述将所述重新训练的算法模型与所述当前在线模型进行比对的步骤包括：

将所述最优模型与所述当前在线模型进行比对，并输出比对结果。

本发明的一些实施例中，可选的，所述基于比对结果调整所述当前模型服务的步骤，包括：

基于比对结果确定冠军模型；

基于所述冠军模型创建新的模型服务替换所述当前模型服务、更新所述当前模型服务的版本，或维持所述当前模型服务不变。也即当所述冠军模型为当前在线模型时，继续以当前模型服务获取业务数据。

进一步可选的，所述基于比对结果确定冠军模型的步骤，包括：

本发明的另一些实施例中，可选的，所述基于比对结果调整所述当前模型服务的步骤包括：

可选的，所述将所述冠军模型上线发布为模型服务的步骤包括：

新建模型服务，或者，升级当前模型服务的版本。

本发明实施例中，模型服务版本是否升级与模型的特征形状有关，所述特征形状与类型中任一变动均会在以前的模型服务版本上增加版本。所述模型的特征形状指所选的X列，如性别列、收入列、年龄列、职业列等。

进一步可选的，所述将所述冠军模型上线发布为模型服务的方式为灰度发布、A/B测试(也可以称为分组测试)和蓝绿发布中的一个。

冠军模型进行上线部署的方式包括但不限于灰度发布、A/B测试、蓝绿发布等。

其中，灰度发布是指在黑与白之间，能够平滑过渡的一种发布方式。灰度发布是增量发布的一种类型，灰度发布是在原有版本可用的情况下，同时部署一个新版本，测试新版本的性能和表现，以保障整体系统稳定的情况下，尽早发现、调整问题。灰度发布可以保证整体系统的稳定，在初始灰度的时候就可以发现、调整问题，以保证其影响度。

蓝绿发布是最常见的一种零停机时间(0downtime)部署的方式，是一种以可预测的方式发布应用的技术，目的是减少发布过程中服务停止的时间。蓝绿部署原理上很简单，就是通过冗余来解决问题。通常生产环境需要两组配置(蓝绿配置)，一组是active的生产环境的配置(绿配置)，一组是inactive的配置(蓝绿配置)。用户访问的时候，只会让用户访问active的服务器集群。在绿色环境(active)运行当前生产环境中的应用，也就是旧版本应用version1。当你想要升级到version2，在蓝色环境(inactive)中进行操作，即部署新版本应用，并进行测试。如果测试没问题，就可以把负载均衡器/反向代理/路由指向蓝色环境了。随后需要监测新版本应用，也就是version2是否有故障和异常。如果运行良好，就可以删除version1使用的资源。如果运行出现了问题，可以通过负载均衡器指向快速回滚到绿色环境。这种方式的好处在你可以始终很放心的去部署inactive环境，如果出错并不影响生产环境的服务，如果切换后出现问题，也可以在非常短的时间内把再做一次切换，就完成了回滚。而且同时在线的只有一个版本。蓝绿部署无需停机，并且风险较小。

可选的，所述方法还包括：

当所述连续胜出次数大于预设值时，标记所述当前在线模型以供后续作为同类型业务需求的优先匹配模型，减少开发人员在训练同类型业务需求的算法模型时的工作量。

作为其他可选的实施例，所述方法还包括：

若所述当前在线模型优于所述重新训练的算法模型，则更新所述当前在线模型的比对胜出次数；

若所述当前在线模型的比对胜出次数大于预设值，标记所述当前在线模型，以供后续作为同类型业务需求的优先匹配模型，减少开发人员在训练同类型业务需求的算法模型时的工作量。

进一步可选的，在所述当前在线模型优于所述重新训练的算法模型的情况下，保留该重新训练的算法模型相关的训练信息和比对日志。

当然，如果当前在线模型与所述重新训练的算法模型的评分相等，也可以更新当前在线模型的比对胜出次数(或者连续胜出次数)，并保留重新训练的算法模型相关的训练信息和比对日志。

进一步可选的，所述方法还包括：

基于接收到的下线当前在线模型的指令，关闭所述当前模型服务，终止对当前在线模型的监控。

本发明实施例中，在用户选择下线当前模型服务之后，监控状态终止，无需再进行监控。

请参阅图2，图2是本发明实施例提供的另一种模型在线监控方法的流程示意图，包括以下步骤：

步骤21：根据实际业务需求，采用历史数据训练得到原始算法模型Model 0。将该原始算法模型Model 0上线发布为模型服务，以使得该原始算法模型Model 0能够应用于指定业务场景，并接收该业务场景的实时数据(包括业务数据和评估数据)。

步骤22：在原始算法模型Model 0上线发布为模型服务并接入业务数据和评估数据持续指定时长后，利用持续更新的业务数据和评估数据形成的增量数据集重新训练一个新的算法模型Model 1，然后将重新训练得到的新的算法模型Model 1与当前在线的原始算法模型Model 0进行比对，得到冠军模型。

步骤23：如果步骤22中经过比对得到的冠军模型是Model 0，则维持当前模型服务不变；如果冠军模型是Model 1，则基于上线策略将冠军模型Model 1上线发布为新的模型服务或者模型服务的新版本。

步骤24：经过步骤22中同样的指定时长之后，利用持续更新的增量数据集重新训练新的算法模型Model 2，然后将重新训练得到的新的算法模型Model 2与当前在线模型进行比对，得到新的冠军模型。

步骤25：重复步骤23和步骤24(每次重新训练得到的新的算法模型编号(也即Model)加一)，从而使得在线模型服务一直处于监控状态，以提高在线模型服务的性能准确度。

请参阅图3，图3是本发明实施例提供的一种模型在线监控系统的结构示意图，该系统包括：

数据获取模块31，用于基于当前模型服务获取实时业务数据；

重新训练模块32，用于基于所述实时业务数据重新训练算法模型；

比对模块33，用于将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对；

调整模块34，用于基于比对结果调整所述当前模型服务；

控制模块35，用于控制所述数据获取模块、所述重新训练模块、所述比对模块和所述调整模块依次重复运行，以对当前在线模型进行实时监控。

本发明实施例中，在将当前模型服务应用于业务场景实现业务需求的同时，会通过接入当前模型服务的业务系统接收持续更新的业务数据，并利用更新的业务数据重新训练算法模型，然后将重新训练的算法模型与当前模型服务对应的当前在线模型进行比对，并基于比对结果调整所述当前模型服务，从而不断优化当前在线的模型服务，保证该模型服务的准确性。

可选的，所述系统还包括：

可选的，所述原始算法模型上线模块包括：

模式识别单元，用于识别所述原始算法模型的格式；

确定单元，用于确定模型服务的部署策略和调用方式；

可选的，在训练所述原始算法模型时，采用手动接入方式接入所述历史数据；所述历史数据的数据源为网络文件系统NFS、分布式文件系统DFS、JDBC数据源、数据仓库、分布式数据库和网络爬虫中的至少之一。

可选的，所述实时业务数据的数据源为应用程序编程接口RESTful API、消息队列、批处理数据中的至少之一。

可选的，所述系统还包括：

评估数据获取模块，用于获取评估数据。

可选的，所述系统还包括：

可选的，所述重新训练模块32包括：

可选的，所述比对模块33包括：

指标确定单元，用于确定至少一种评分指标；

可选的，所述指标确定单元包括：

可选的，所述评分指标包括轮廓系数、同质性、完整性、V-measure、曲线下面积、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、确定性系数和绝对均值误差中的至少之一。

可选的，所述调整模块34包括：

冠军模型确定单元，用于基于比对结果确定冠军模型；

可选的，所述冠军模型确定单元包括：

可选的，所述调整模块34包括：

可选的，所述上线单元包括：

新建子单元，用于新建模型服务；

或者，

升级子单元，用于升级所述当前模型服务的版本。

可选的，所述将所述冠军模型上线发布为模型服务的方式为灰度发布、A/B测试和蓝绿发布中的一个。

可选的，所述系统还包括：

本发明实施例是与上述方法实施例对应的产品实施例，故在此不再赘述，详细请参阅上述实施例。

请参阅图4，图4是本发明实施例提供的另一种模型在线监控系统的结构示意图，该系统40包括处理器41、存储器42及存储在所述存储器42上并可在所述处理器41上运行的计算机程序；所述处理器41执行所述计算机程序时实现如下步骤：

基于当前模型服务获取实时业务数据；

基于所述实时业务数据重新训练算法模型；

基于比对结果调整所述当前模型服务；

重复执行上述步骤，以对当前在线模型进行实时监控。

可选的，所述处理器41执行所述计算机程序时还可实现如下步骤：

识别所述原始算法模型的格式；

确定模型服务的部署策略和调用方式；

构建模型服务镜像，并基于所述部署策略申请发布资源；

将获取的实时业务数据保存为增量数据集。

获取评估数据。

确定至少一种评分指标；

若是单一指标评分规则，则确定一种所述评分指标；

若是组合指标评分规则，则确定至少两种所述评分指标。

基于比对结果确定冠军模型；

新建模型服务，或者，升级所述当前模型服务的版本。

当所述连续胜出次数大于预设值时，标记所述当前在线模型。

本发明实施例的具体工作过程与上述方法实施例中的一致，且能达到相同的技术效果，故在此不再赘述，详细请参阅上述实施例中方法步骤的说明。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种模型在线监控方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。详细请参阅以上对应实施例中方法步骤的说明。

上述计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型在线监控方法，其特征在于，应用于数据分析系统，所述方法包括：

基于当前模型服务获取实时业务数据；

基于所述实时业务数据重新训练算法模型；

基于比对结果调整所述当前模型服务；

重复执行上述步骤，以对当前在线模型进行实时监控；

所述基于当前模型服务获取实时业务数据的步骤之前，还包括：

根据实际业务需求，基于历史数据训练得到原始算法模型，并将所述原始算法模型上线发布为模型服务；所述实际业务需求包括得到预测目标值、聚类结果、异常检测结果、语义分析结果中的至少之一；

所述方法还包括：基于接收到的用户选择下线当前在线模型的指令，关闭所述当前模型服务，终止对当前在线模型的监控。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始算法模型上线发布为模型服务的步骤包括：

识别所述原始算法模型的格式；

确定模型服务的部署策略和调用方式；

构建模型服务镜像，并基于所述部署策略申请发布资源；

3.根据权利要求1所述的方法，其特征在于，在训练所述原始算法模型时，采用手动接入方式接入所述历史数据；所述历史数据的数据源为网络文件系统NFS、分布式文件系统DFS、JDBC数据源、数据仓库、分布式数据库和网络爬虫中的至少之一。

4.根据权利要求1所述的方法，其特征在于，所述实时业务数据的数据源为应用程序编程接口RESTful API、消息队列、批处理数据中的至少之一。

5.根据权利要求1所述的方法，其特征在于，还包括：

将获取的实时业务数据保存为增量数据集。

6.根据权利要求1所述的方法，其特征在于，在执行基于当前模型服务获取实时业务数据的步骤时，还执行以下步骤：

获取评估数据。

7.根据权利要求6所述的方法，其特征在于，所述获取评估数据的步骤之后，还包括：

8.根据权利要求5或7所述的方法，其特征在于，所述基于所述实时业务数据重新训练算法模型的步骤，包括：

9.根据权利要求5所述的方法，其特征在于，所述基于所述实时业务数据重新训练算法模型的步骤，还包括：

10.根据权利要求1所述的方法，其特征在于，所述将所述重新训练的算法模型与所述当前模型服务对应的当前在线模型进行比对的步骤，包括：

确定至少一种评分指标；

11.根据权利要求10所述的方法，其特征在于，所述确定至少一种评分指标的步骤包括：

若是单一指标评分规则，则确定一种所述评分指标；

若是组合指标评分规则，则确定至少两种所述评分指标。

12.根据权利要求10所述的方法，其特征在于，所述评分指标包括轮廓系数、同质性、完整性、V-measure、曲线下面积、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、确定性系数和绝对均值误差中的至少之一。

13.根据权利要求10所述的方法，其特征在于，所述基于比对结果调整所述当前模型服务的步骤，包括：

基于比对结果确定冠军模型；

14.根据权利要求13所述的方法，其特征在于，所述基于比对结果确定冠军模型的步骤，包括：

15.根据权利要求1所述的方法，其特征在于，所述基于比对结果调整所述当前模型服务的步骤包括：

16.根据权利要求15所述的方法，其特征在于，所述将所述冠军模型上线发布为模型服务的步骤包括：

新建模型服务，或者，升级所述当前模型服务的版本。

17.根据权利要求15所述的方法，其特征在于，所述将所述冠军模型上线发布为模型服务的方式为灰度发布、A/B测试和蓝绿发布中的一个。

18.根据权利要求1所述的方法，其特征在于，还包括：

19.一种模型在线监控系统，其特征在于，设置于数据分析系统中，所述模型在线监控系统包括：

原始算法模型上线模块，用于根据实际业务需求，基于历史数据训练得到原始算法模型，并将所述原始算法模型上线发布为模型服务；所述实际业务需求包括得到预测目标值、聚类结果、异常检测结果、语义分析结果中的至少之一；

数据获取模块，用于基于当前模型服务获取实时业务数据；

调整模块，用于基于比对结果调整所述当前模型服务；

控制模块，用于控制所述数据获取模块、所述重新训练模块、所述比对模块和所述调整模块依次重复运行，以对当前在线模型进行实时监控；

模型服务下线模块，用于基于接收到的用户选择下线当前在线模型的指令，关闭所述当前模型服务，终止对当前在线模型的监控。

20.根据权利要求19所述的系统，其特征在于，所述原始算法模型上线模块包括：

模式识别单元，用于识别所述原始算法模型的格式；

确定单元，用于确定模型服务的部署策略和调用方式；

21.根据权利要求19所述的系统，其特征在于，在训练所述原始算法模型时，采用手动接入方式接入所述历史数据；所述历史数据的数据源为网络文件系统NFS、分布式文件系统DFS、JDBC数据源、数据仓库、分布式数据库和网络爬虫中的至少之一。

22.根据权利要求19所述的系统，其特征在于，所述实时业务数据的数据源为应用程序编程接口RESTful API、消息队列、批处理数据中的至少之一。

23.根据权利要求19所述的系统，其特征在于，还包括：

24.根据权利要求19所述的系统，其特征在于，还包括：

评估数据获取模块，用于获取评估数据。

25.根据权利要求24所述的系统，其特征在于，还包括：

26.根据权利要求23或25所述的系统，其特征在于，所述重新训练模块包括：

27.根据权利要求23所述的系统，其特征在于，所述重新训练模块包括：

28.根据权利要求19所述的系统，其特征在于，所述比对模块包括：

指标确定单元，用于确定至少一种评分指标；

29.根据权利要求28所述的系统，其特征在于，所述指标确定单元包括：

30.根据权利要求28所述的系统，其特征在于，所述评分指标包括轮廓系数、同质性、完整性、V-measure、曲线下面积、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、确定性系数和绝对均值误差中的至少之一。

31.根据权利要求28所述的系统，其特征在于，所述调整模块包括：

冠军模型确定单元，用于基于比对结果确定冠军模型；

32.根据权利要求31所述的系统，其特征在于，所述冠军模型确定单元包括：

33.根据权利要求19所述的系统，其特征在于，所述调整模块包括：

34.根据权利要求33所述的系统，其特征在于，所述上线单元包括：

新建子单元，用于新建模型服务；

或者，

升级子单元，用于升级所述当前模型服务的版本。

35.根据权利要求33所述的系统，其特征在于，所述将所述冠军模型上线发布为模型服务的方式为灰度发布、A/B测试和蓝绿发布中的一个。

36.根据权利要求19所述的系统，其特征在于，还包括：

37.一种模型在线监控系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至18中任一项所述的模型在线监控方法。

38.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至18中任一项所述的模型在线监控方法中的步骤。