CN109299178A

CN109299178A - 一种模型应用方法和数据分析系统

Info

Publication number: CN109299178A
Application number: CN201811161975.7A
Authority: CN
Inventors: 姜琦; 李学峰; 路明奎; 耿迪
Original assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Current assignee: Nine Chapter Yunji Technology Co Ltd Beijing
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-02-01
Anticipated expiration: 2038-09-30
Also published as: CN109299178B

Abstract

本发明提供一种模型应用方法和数据分析系统，该模型应用方法包括：基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务；从所述模型服务的模型中确定最优模型；提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的软件开发工具包。通过上述方式，用户能够通过所述接口或者软件开发工具包应用最优模型，能够确保数据处理的时效性和准确性，满足用户的数字化运营战略。

Description

一种模型应用方法和数据分析系统

技术领域

本发明涉及数据处理领域，尤其涉及一种模型应用方法和数据分析系统。

背景技术

随着科技的发展，各行各业的用户纷纷进行数字化运营战略，从而进行大数据处理与分析。

现有技术中的数据分析系统根据实际业务需求，采用历史数据训练得到模型，然而，训练得到模型后，无法直接将其用于真实的业务场景中，从而，不能确保数据处理的时效性和准确性，不能满足用户的数字化运营战略。

发明内容

有鉴于此，本发明提供一种模型应用方法和数据分析系统，用于解决目前数据分析系统不能确保数据处理的时效性和准确性的问题。

为解决上述技术问题，第一方面，本发明提供一种模型应用方法，包括：

基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务；

从所述模型服务的模型中确定最优模型；

提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的软件开发工具包SDK。

优选的，所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的步骤包括：

检测到用于新建模型服务的用户操作，显示第一界面，所述第一界面包括新建的模型服务的基本信息的输入区域；

根据用户在所述输入区域的输入，生成并保存所述新建的模型服务的基本信息，并显示模型发布界面；

获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

检测到用于选择已有模型服务的用户操作，显示第二界面，所述第二界面包括所述已有模型服务的基本信息；

检测到用于确定待发布的模型的用户操作，显示模型发布界面，获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

优选的，所述获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型的步骤包括：

获取用户在筛选出的模型中选择的模型，作为所述待发布的模型；其中，所述筛选出的模型基于在所述模型发布界面输入的筛选条件得到。

优选的，所述筛选条件包括以下至少之一：模型类型、评价指标和指标参数。

优选的，所述模型类型包括以下至少之一：回归模型、二分类模型、多分类模型和聚类模型。

优选的，所述评价指标包括以下至少之一：轮廓系数、同质性、完整性、V-measure、曲线下面积AUC、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、R2值和绝对均值误差。

优选的，将待发布的模型发布为模型服务的步骤包括：

获取所述已有模型服务的当前版本的模型属性，所述模型属性包括模型类型和模型的特征参数；

若所述待发布的模型的属性与所述模型属性相同，将所述待发布的模型添加到所述模型服务的当前版本；

若所述待发布的模型的属性与所述模型属性不相同，生成新的版本号，将所述待发布的模型发布至所述模型服务的最新版本。

优选的，将待发布的模型发布为模型服务的步骤之后，包括：

将发布成功的模型服务加入至一待审核列表；

若所述发布成功的模型服务通过审核，将所述发布成功的模型服务移动至已通过列表，否则，将所述发布成功的模型服务移动至不通过列表。

优选的，所述从所述模型服务的模型中确定最优模型的步骤包括：

对已通过列表中的模型服务的模型进行测试，根据测试结果，确定所述最优模型。

优选的，所述提供应用所述最优模型的接口的步骤包括：

采用Rest、Mq和/或Batch的调用方式，提供应用所述最优模型的应用程序编程接口API。

优选的，所述模型应用方法还包括：

在提供应用所述最优模型的接口时，对预设监控指标进行监控，以根据预设参数阈值调整所述最优模型对应的模型服务的实例个数。

优选的，所述预设监控指标包括以下至少之一：CPU利用率、内存使用率、网络流量和自定义指标；

所述预设参数阈值包括以下至少之一：所述模型服务的最大数量、所述模型服务的最小数量、所述模型服务的最大实例数。

优选的，所述待发布的模型采用历史数据训练得到。

优选的，在提供应用所述最优模型的接口的步骤之后，还包括：

对所述最优模型的在线服务状态和/或性能准确度进行监控。

优选的，对所述最优模型的性能准确度进行监控的步骤，包括：

基于生产数据对最优模型进行测试，根据测试结果重新确定待发布的模型。

优选的，所述在线服务状态包括以下至少之一：CPU的使用情况、内存的使用情况、GPU的使用情况、所述模型服务的调用时延和所述模型服务的调用成功率。

优选的，所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的步骤之前，还包括：

基于检测到的用于训练模型的用户操作，生成模型训练任务，所述模型训练任务包括：数据处理子任务、特征选择子任务和模型训练子任务；

根据所述历史数据，运行所述模型训练任务，得到用于发布的模型，所述用于发布的模型包括所述待发布的模型。

优选的，所述根据所述历史数据，运行所述模型训练任务，得到用于发布的模型的步骤包括：

用于执行所述数据处理子任务的数据处理模块根据数据处理信息对所述历史数据进行处理，得到第一数据；

用于执行所述特征选择子任务的特征选择模块根据所述第一数据和特征选择信息，确定选择的特征，根据所述选择的特征，得到第二数据；

用于执行所述模型训练子任务的模型训练模块根据所述第二数据和模型训练信息，进行模型训练，得到第三数据；根据所述第一数据、第二数据、第三数据、所述数据处理信息、所述特征选择信息和所述模型训练信息，生成所述用于发布的模型。

将所述历史数据、用于执行所述数据处理子任务的数据处理模块的数据处理信息和用于执行所述特征选择子任务的特征选择模块的特征选择信息传递至用于执行所述模型训练子任务的模型训练模块；

所述模型训练模块根据传递的所述历史数据、所述数据处理信息、所述特征选择信息和所述模型训练信息，进行模型训练，得到所述用于发布的模型。

优选的，所述模型应用方法还包括：

基于检测到的用于显示资源使用信息的用户操作，显示所述资源使用信息，所述资源使用信息包括以下至少之一：已上线模型服务数量、模型服务调用成功率、已发布模型明细、GPU的使用信息、CPU的使用信息、运行的实例的数量。

第二方面，本发明还提供一种数据分析系统，包括：

第一发布单元，用于基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务；

确定单元，用于从所述模型服务的模型中确定最优模型；

提供单元，用于提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的SDK。

优选的，所述第一发布单元，用于检测到用于新建模型服务的用户操作，显示第一界面，所述第一界面包括新建的模型服务的基本信息的输入区域；根据用户在所述输入区域的输入，生成并保存所述新建的模型服务的基本信息，并显示模型发布界面；获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

优选的，所述第一发布单元，用于检测到用于选择已有模型服务的用户操作，显示第二界面，所述第二界面包括所述已有模型服务的基本信息；将所述已有模型服务中的模型，作为所述待发布的模型；或者，检测到用于确定待发布的模型的用户操作，显示模型发布界面，获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

优选的，所述第一发布单元，用于获取用户在筛选出的模型中选择的模型，作为所述待发布的模型；其中，所述筛选出的模型基于在所述模型发布界面输入的筛选条件得到。

优选的，所述第一发布单元，用于获取所述已有模型服务的当前版本的模型属性，所述模型属性包括模型类型和模型的特征参数；若所述待发布的模型的属性与所述模型属性相同，将所述待发布的模型添加到所述模型服务的当前版本；若所述待发布的模型的属性与所述模型属性不相同，生成新的版本号，将所述待发布的模型发布至所述模型服务的最新版本。

优选的，所述数据分析系统还包括：

审核单元，用于将发布成功的模型服务加入至一待审核列表；若所述发布成功的模型服务通过审核，将所述发布成功的模型服务移动至已通过列表，否则，将所述发布成功的模型服务移动至不通过列表。

优选的，所述确定单元，用于对已通过列表中的模型服务的模型进行测试，根据测试结果，确定所述最优模型。

优选的，所述提供单元，用于采用Rest、Mq和/或Batch的调用方式，提供应用所述最优模型的API。

优选的，所述数据分析系统还包括：

第一监控单元，用于在提供应用所述最优模型的接口时，对预设监控指标进行监控，以根据预设参数阈值调整所述最优模型对应的模型服务的实例个数。

优选的，所述待发布的模型采用历史数据训练得到。

优选的，所述的数据分析系统还包括：

第二监控单元，用于对所述最优模型的在线服务状态和/或性能准确度进行监控。

优选的，所述第二监控单元，用于基于生产数据对最优模型进行测试，根据测试结果重新确定待发布的模型。

优选的，所述数据分析系统还包括：

生成单元，用于基于检测到的用于训练模型的用户操作，生成模型训练任务，所述模型训练任务包括：数据处理子任务、特征选择子任务和模型训练子任务；根据所述历史数据，运行所述模型训练任务，得到用于发布的模型，所述用于发布的模型包括所述待发布的模型。

优选的，所述生成单元包括：用于执行所述数据处理子任务的数据处理模块、用于执行所述特征选择子任务的特征选择模块和用于执行所述模型训练子任务的模型训练模块；

所述数据处理模块，用于根据数据处理信息，对所述历史数据进行处理，得到第一数据；

所述特征选择模块，用于根据所述第一数据和特征选择信息，确定选择的特征，根据所述选择的特征，得到第二数据；

所述模型训练模块，用于根据所述第二数据和模型训练信息，进行模型训练，得到第三数据；根据所述第一数据、第二数据、第三数据、所述数据处理信息、所述特征选择信息和所述模型训练信息，生成所述用于发布的模型。

所述数据处理模块，用于将所述历史数据和所述数据处理模块的数据处理信息传递至所述模型训练模块；

所述特征选择模块，用于将所述特征选择模块的特征选择信息传递至所述模型训练模块；

所述模型训练模块，用于根据传递的所述历史数据、所述数据处理信息、所述特征选择信息和所述模型训练模块的模型训练信息，进行模型训练，得到所述用于发布的模型。

优选的，所述数据分析系统还包括：

显示单元，用于基于检测到的用于显示资源使用信息的用户操作，显示所述资源使用信息，所述资源使用信息包括以下至少之一：已上线模型服务数量、模型服务调用成功率、已发布模型明细、GPU的使用信息、CPU的使用信息、运行的实例的数量。

第三方面，本发明还提供一种数据分析系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述的模型应用方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述模型应用方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明实施例中，通过将待发布的模型发布为模型服务，确定出最优模型，提供应用最优模型的接口和/或导出与最优模型对应的软件开发工具包，用户能够通过该接口在线调用最优模型，或者，通过下载该软件开发工具包离线调用最优模型，能够确保数据处理的时效性和准确性，满足用户的数字化运营战略。

附图说明

图1为本发明实施例一的模型应用方法的流程示意图；

图2-6为本发明实施例的将模型发布成模型服务显示的界面示意图；

图7为本发明实施例的导出SDK显示的界面示意图；

图8为本发明实施例的资源使用信息的示意图；

图9为发明实施例二的数据分析系统的结构示意图；

图10为本发明实施例三的数据分析系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一的模型应用方法的流程示意图，包括以下步骤：

步骤11：基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务；

步骤12：从所述模型服务的模型中确定最优模型；

步骤13：提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的软件开发工具包(Software Development Kit，SDK)。

本发明实施例提供的模型应用方法，通过将待发布的模型发布为模型服务，确定出最优模型，提供应用最优模型的接口和/或导出与最优模型对应的软件开发工具包，用户能够通过该接口在线调用最优模型，或者，通过下载该软件开发工具包离线调用最优模型，能够确保数据处理的时效性和准确性，满足用户的数字化运营战略。

本发明实施例中，一模型服务可以包括至少一个版本，每一版本中包括至少一个发布成功的模型。

优选的，所述将待发布的模型发布为模型服务的步骤包括：

将所述待发布的模型发布为所述模型服务的最新版本。

本发明实施例中，若待发布的模型为至少两个，可以将至少两个模型发布至多个模型服务的多个版本。即，将至少两个模型发布至同一个模型服务的同一个版本，或者，不同模型服务的不同版本。

举例来说，经过自动建模，得到3个训练好的模型，可以将这3个训练好的模型都发布为模型服务A的版本0.3；也可以将2个训练好的模型发布为模型服务A的版本0.2，将1个训练好的模型发布为模型服务B的版本0.3。

本发明实施例中，可以通过新建模型服务的方式，或者，选择已有模型服务的方式，将模型发布成模型服务。

新建模型服务为新建一个模型服务的版本，选择要发布的模型，进行从0-1(即从无到有)的模型服务建立。

选择已有模型服务为选择一个已经存在的模型服务，在此基础上提升模型服务的版本，可以在模型服务中增加新版本；或只更新当前版本中的模型，不增加新的版本号信息。

其中，所述模型服务的版本与模型的属性(包括模型类型和模型的特征参数)有关，所述模型类型和特征参数之中任一不同，则增加模型服务的新版本。

具体而言，请参阅图2-3，图2-3是本发明实施例的将模型发布成模型服务显示的界面示意图。若检测到用户点击图2中的“发布成服务”21，弹出界面30。用户可以在界面30上选择是新建模型服务，还是选择已有模型服务，来实现将模型发布成模型服务。

下面针对这两种将模型发布成模型服务的方式分别说明。

1、通过新建模型服务，将模型发布成模型服务。

具体的，所述基于检测到的用于发布模型的用户操作将训练好的模型发布为模型服务的步骤包括：

其中，新建的模型服务的基本信息包括以下至少之一：模型服务的名称、模型服务的简介和模型服务的标签。

具体请参阅图2-4，图4是本发明实施例的将模型发布成模型服务显示的界面示意图。若用户在界面30中选择新建模型服务，显示第一界面40，用户可在第一界面40中的输入区域41中输入新建的模型服务的基本信息，包括输入模型服务的名称、模型服务的简介和/或模型服务的标签。若用户点击“下一步”42，表明用户输入完毕，根据用户的输入，生成并保存新建的模型服务的基本信息，并显示模型发布界面，以供用户选择待发布的模型。

2、通过选择已有模型服务，提升模型服务的版本。

检测到用于确定待发布的模型的用户操作，显示模型发布界面；获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

其中，第二界面中的已有模型服务的基本信息包括以下至少之一：用户选择的已有模型服务的名称、用户选择的已有模型服务的当前版本的版本号、用户选择的已有模型服务的简介、用户选择的已有模型服务的标签和用户选择的已有模型服务的当前版本中模型的属性。

所述已有模型服务的基本信息可以为所述已有模型服务当前版本的基本信息。

所述基本信息不可以修改，可通过自动填充的方式将所述基本信息填充至第二界面中相应的文本框内，智能化程度高，更为方便便捷。

具体请参阅图2和图5，图5是本发明实施例的将模型发布成模型服务显示的界面示意图。若用户在界面30中选择已有模型服务，显示第二界面50，第二界面50中显示有已有模型服务的基本信息：用户选择的模型服务的简介、用户选择的模型服务的当前版本的版本号、用户选择的模型服务的简介和用户选择的模型服务的标签。

若用户点击“下一步”51，显示模型发布界面，供用户选择待发布的模型。

本发明实施例中，所述待发布的模型可以为经过自动建模，得到的训练好的模型；也可以为运行工作流输出的模型；还可以为已有模型服务中的模型；等等，本发明不作限定。

上述1和2中，优选的，所述获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型的步骤包括：

也就是说，用户可以在模型发布界面上采用筛选条件筛选模型，并从筛选出的模型中选择待发布的模型。当然，在其他实施例中，也可以不采用筛选条件，直接在模型发布界面上选择待发布的模型，本发明不作限定。

优选的，所述模型发布界面包括筛选条件的设置区域，所述筛选条件根据用户在所述设置区域的输入确定。

具体请参阅图6，图6是本发明实施例的将模型发布成模型服务显示的界面示意图。模型发布界面60中包括筛选条件的设置区域61，用户可在设置区域61设置筛选条件，如设置模型类型、评价指标和/或指标参数，进行模型筛选。

例如：在图6中，根据用户在设置区域61的输入，确定筛选条件为模型类型为二分类模型，且曲线下面积(Area Under The Curve，AUC)大于或等于0.9，即评价指标为AUC，指标AUC对应的指标参数为0.9。根据该筛选条件，从多个训练好的模型中，筛选出满足该筛选条件的3个模型。筛选出的模型可以以列表的形式呈现，更加清楚、直观，利于用户选择。

用户可选择模型列表中的模型，进行提交，即，将用户在3个筛选出的模型中选择的模型，确定为待分布的模型，发布成相应的模型服务。

本发明实施例中的模型类型可采用多种方式进行划分。

可选的，所述模型类型包括以下至少之一：回归模型、二分类模型、多分类模型和聚类模型。

所述筛选条件可以包括一种或多种模型类型，可根据用户的不同需求进行设定，更加灵活方便。

可选的，所述模型类型按照应用的业务场景划分，所述应用的业务场景包括以下至少之一：对应聚类算法的场景、对应回归算法的场景、对应分类算法的场景、对应异常检测的场景和对应语言处理的场景。

具体而言，所述对应聚类算法的场景可以为识别信用卡客户群的聚类算法场景；所述对应回归算法的场景可以为预测保险理赔额度、现金备付的回归算法场景；所述对应分类算法的场景可以为预测客户流失、金融产品推荐预测的分类算法场景；所述对应异常检测的场景可以为识别欺诈、异常交易的异常检测场景；所述对应语言处理的场景可以为基于语义分析、词频分析的语言处理场景。

所述场景中可以包括一类或多类算法模型，例如：对应回归算法的场景中，包括回归模型；又如：对应异常检测的场景中，包括：聚类模型和孤立森林模型。

优选的，所述评价指标包括以下至少之一：轮廓系数、同质性、完整性、V-measure、AUC、准确率、精确率、召回率、F1分数、对数损失、解释差异分值、均值误差、均方误差、均方根误差、均方根对数误差、R2值和绝对均值误差。

优选的，所述将待发布的模型发布为模型服务的步骤包括：

也就是说，上述2中，已有模型服务的版本是否升级与已有模型服务的当前版本的模型属性(模型类型和模型的特征参数)有关，所述特征参数(如：模型的特征形状)与模型类型中任一变动均会在已有模型服务的当前版本上增加版本。即，若待发布的模型的属性与模型服务的当前版本的模型属性不一致，则在模型服务中增加新版本，并生成新的版本号，将待分布的模型发布至模型服务的最新版本；若一致，则将待发布的模型增加到模型服务的当前版本。

仍以图6为示例，模型的属性包括模型类型和模型的特征形状，模型的特征形状指变量的维度和变量中的列数，如：变量中包括性别列、收入列、年龄列、职业列等。如图6中的随机森林(Random Forest)模型，其模型类型为二分类模型，模型的特征参数具体为模型的特征形状，为{1，25}，其中，1代表变量为一维，25代表该变量共包括25列。

若用户选择的已有模型服务的当前版本中的模型的类型为二分类模型，特征形状为{1，25}。若待发布模型为图6中的随机森林模型，该随机森林模型的属性与已有模型服务的当前版本的模型属性一致，将该随机森林模型增加到模型服务的当前版本中。若待发布模型为图6中的梯度提升树(Gradent Boosting Tree)模型，该梯度提升树模型的特征形状为{1，15}，与已有模型服务的当前版本中的模型的特征形状不同，生成新的版本号，将该梯度提升树模型发布到模型服务的最新版本。

本发明实施例中，当用户在模型发布界面选择某一类型(如二分类模型、多分类模型、回归模型或聚类模型)时，模型列表中可供选择的模型的特征形状可以相同，也可以不同，具体可参照图6中的特征形状列。当两个模型的类型不一致时，相应模型列表中可供选择的模型可能就不同，不再有特征形状对比的意义。

在本发明的一些优选实施例中，将待发布的模型发布为模型服务的步骤之后，包括：

将发布成功的模型服务加入至一待审核列表；

具体而言，模型发布为模型服务后，进入模型管理流程，发布成功的模型服务进入待审核的模型服务列表中，由模型服务处相关模型服务的管理员，进行模型服务通过或不通过的审核，若通过审核，可从通过审核的模型中确定最优模型，也就是说，支持该通过审核的模型上线、支持调用该通过审核的模型等操作，若不通过审核，则不支持相关操作。

而且，不同模型成为同一个模型服务的同一个版本是有条件的：指标分值(如：AUC分值)处于同一范围、源数据一致、变量一致(即变量中的所有特征都相同)。管理员可根据经验、指标分值等进行审核，选择通过或不通过，将通过审核的模型移动至已通过列表，将不通过审核的模型移动至不通过列表。

在本发明的一些优选实施例中，所述从所述模型服务的模型中确定最优模型的步骤包括：

具体而言，可以在生产平台，基于生产数据，采用新的测试集，对模型服务中的多个模型进行测试/评估，从多个模型中选择最优模型，如：利用A/B测试(A/B Testing)进行模型的评估。

其中，A/B Testing指在线上环境可以同时对多个模型再进行A/B测试，筛选出最优模型进行上线。一个模型服务可以部署多个模型(如：最多5个)，筛选出的最优模型只有一个，即上线的只有一个，在部署的5个模型之间可进行A/B测试，经过测试后确定上线的模型。

若已通过列表中的模型服务的模型只有一个时，也可以对该模型测试，当测试结果符合预设条件时，将其确定为最优模型。

在本发明的一些优选实施例中，所述提供应用所述最优模型的接口的步骤包括：

采用Rest、Mq和/或Batch的调用方式，提供应用所述最优模型的接口。

具体的，通过对外提供应用最优模型的接口，用户可通过访问该接口，在线调用该最优模型。

其中，可以默认采用Rest的调用方式提供访问接口。

采用Rest的调用方式，能够支撑基于Http的同步调用场景的访问接口；采用Mq的调用方式，能够支撑异步调用场景的访问接口，解决服务峰值问题，提高服务的可用性级别；采用Batch的调用方式，能够支撑不同场景，主要用于支持大数量级的服务能力，如百万及以上级别。

优选的，所述接口为应用程序编程接口(Application Programming Interface，API)。

其中，API适用在线的场景，安全性高、便于更新，保证模型的时效性。

本发明实施例中，SDK适用离线的场景、大数据平台TB数据量大，通过API访问我方服务器，调用服务器中的最优模型，会导致硬件压力太大，访问网络有延迟，而采用SDK调用服务器中的最优模型，无需访问我方服务器，硬件压力小，配置更灵活。

优选的，所述导出与所述最优模型对应的SDK的步骤包括：

根据检测到的用于导出所述SDK的操作，确定所述SDK对应的信息，所述信息包括以下至少之一：用户定义函数UDF、算子的名称、SDK的包名、SDK的类型和可视化示例；

导出所述SDK。

也就是说，根据用户导出SDK的操作，确定导出的SDK中对应的信息，进而导出SDK。从而，用户可以对SDK进行离线操作，将SDK嵌入在用户自己的软件中，进而调用该最优模型。

具体请参阅图7，图7是本发明实施例的导出SDK显示的界面示意图。用户可在导出SDK界面70中，输入UDF及算子名称、Java包名和/或SDK类型(Hive UDF、Spark UDF和/或Spark RDD算子)，进行提交后，导出与用户的输入操作对应的SDK。

在选择SDK类型时，还支持Hive UDF、Spark UDF、Spark RDD算子的可视化示例(图未示)。

通过导出SDK，能够更好地支撑用户对数据进行批处理，提升数据处理的速度，从而，更好地支撑生产化需求。

由于实际业务系统比训练场景要求高，为提高实际业务系统的稳定性，保证模型真正满足生产化需求，提供模型服务的弹性伸缩。

具体的，所述模型应用方法还包括：

其中，所述预设的监控指标包括以下至少之一：CPU利用率、内存使用率、网络流量和自定义指标；

举例来说，可通过以下两个条件来实现模型服务的弹性伸缩：单个实例对应的CPU使用率，和根据线上资源情况确定的单个模型服务的最大实例数。

可以根据定义的实例扩展个数或缩减个数、实例扩展百分比或缩减百分比(可以是单一指标或组合指标)或模型服务的调用次数，确定模型服务的配置信息(如：调整模型服务中实例的数量)。

例如：单个实例对应的CPU使用率大于或等于80％，自动扩展出另一个实例做负载均衡，如k8s(Kubernetes)扩展实例个数，docker具体运行；当CPU使用率小于或等于20％，自动缩减一个实例；单个容器服务API被调用大于或等于500次，自动扩展出另一个实例，单个容器服务API每秒被调用小于或等于20次，自动缩减一个实例；带宽(即实际流量)每超过10M，自动扩展出另一个实例(即启动一个容器，如docker container)。

其中，根据CPU使用率，自动扩展或缩减实例，所述实例必须是相同功能，基于每一个模型进行扩展，不同实例的功能不同，因而不能扩展不同模型的实例。

本发明实施例中，所述预设的监控指标可以是单一指标，也可以是组合指标，本发明不作限定。

所述预设的监控指标和所述预设的参数阈值可以根据用户需求进行设定，更加灵活方便，且能提升数据处理的速度。

从而，提高了实际业务系统的稳定性，还可以提供模型服务的弹性伸缩，也即根据监控指标，扩展或缩减用于发布模型服务的模型的实例的数量，和/或，调整对外提供的模型服务的数量(即调整接口的个数)。

优选的，所述确定所述模型服务的配置信息的步骤包括：

调整Kubernetes中Pod的副本数，所述Pod为容器的集合，每一所述Pod中的容器相互隔离。

具体而言，弹性伸缩是指适应负载变化，以弹性可伸缩方式提供资源，如：CPU、内存、GPU等。Kubernetes自动弹性伸缩是一种基于资源使用情况自动弹性伸缩工作负载的方法，可根据负载的高低动态调整Pod的副本数，目前Kubernetes提供了API接口实现Pod的弹性伸缩，具体为在Kubernetes中通过自动弹性伸缩的控制器(Horizontal PodAutoscaler，HPA)来实现Pod的自动伸缩，HPA定时从平台监控系统中获取ReplicationController关联Pod的整体资源情况，当策略匹配时，通过Replication Controller来调整Pod的副本数，实现自动伸缩，从而保证业务系统稳定运行。

Pod是容器的集合，在k8s中对运行容器的要求为：容器的主程序需要一直在前台运行，而不是后台运行。当多个应用之间是紧耦合的关系时，可以将多个应用一起放在一个Pod中，同个Pod中的多个容器相互隔离，且多个容器之间互相访问可以通过本地主机(localhost)来通信，通过存储卷来共享文件。

通过容器化的方式，解决了环境之间的隔离，有利于用户更好地隔离模型服务的相关环境的运维问题。

在本发明的一些优选实施例中，所述待发布的模型采用历史数据训练得到。

由于模型存在一个衰退周期，因此，需要不断用新的数据训练模型，进行模型的迭代，以保证模型的时效性，因而，需要存在监控机制和体系，来评估在线模型的性能是否衰减，以保证模型服务的可靠性。

具体的，在提供应用所述最优模型的接口的步骤之后，还包括：

对所述最优模型的在线服务状态和/或性能准确度进行监控。

其中，所述生成数据可以是获取到的实时更新的真实数据或数据集。

具体而言，模型上线后，需要做进一步的监控评估，需要不断更新测试数据(设置为增量的)，可以选择新的测试数据(例如：后续真实数据)和目标列定时做评估，根据评估结果，生成可视化图形，根据模型的评估指标的评分走势(例如准确性较低)，调整最优模型，如：重新训练模型或者替换当前模型。

如：在进行流失预测时，基于1月份的数据训练出流失预测模型后，可以根据2-8月份的实际数据进行模型准确度的测试，若测试结果表明流失预测模型的准确性不能达到要求，可以重新训练模型，并将重新训练得到的模型发布成模型服务，或者，调整筛选条件，选择模型列表中的其他模型，将其他模型发布成模型服务。

可以一直采用后续真实数据作为新的测试数据，对最优模型进行评估，从而进一步确保最优模型的准确性。

其中，所述在线服务状态包括以下至少之一：CPU的使用情况、内存的使用情况、GPU的使用情况、所述模型服务的调用时延和所述模型服务的调用成功率。所述性能准确度指对最优模型的准确度的评估监控。

在模型服务上线后，需要根据初始特征衍生得到的特征，来实现模型预测，而现有的处理方法中，衍生出的特征众多，增加使用模型的难度。例如，一个模型最初选10个特征进行训练，在特征处理时有可能衍生出上百个特征，在模型服务上线后调用该模型时，可能并不希望用最初的10个特征作为参数实现模型预测功能，如果只把模型生产化而未把特征工程生产化，则模型生产化之后，用户可能需要使用衍生之后的上百个特征作为参数实现模型预测，对用户来说难度较大，因而需要进行特征工程生产化。

因此，在本发明的一些优选实施例中，所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的最新版本的步骤之前，还包括：

通过将数据处理与特征选择加入到模型训练中，使得训练好的模型中包含特征工程信息，可以直接使用原始格式数据，便利性好，提高模型进行数据处理的准确性。

现有技术中，特征工程生产化的技术难点在于：代码要写在同一个模块里，怎样把多个步骤融合在一个模块里，要找一个标准化的方法，模型有固有的格式；需要把特征工程生产化中特征处理的过程与模型训练过程紧密结合起来，但是现在的模型训练过程是基于工作流中模块的组合、pipeline的连接实现，有一些处理能够支持到生产化，但是，用户自定义的算子无法放入整个特征处理的pipeline中，即用户自定义的算子得不到生产化的支持；另一层面，当我们把每一个步骤分别通过工作流串接时，每一步训练的过程我们需要保留两个状态，一个是它的算子是什么，另一个是它计算之后生成的参数是什么，最后将计算图及相应的计算图上的参数整合成一个pipeline，存在技术挑战。

本发明实施例中，特征工程生产化为原始数据经由数据处理模块→特征选择模块→模型训练模块处理，得到用于发布的模型(即训练好的模型)的过程。

可选的，所述根据所述历史数据，运行所述模型训练任务，得到用于发布的模型的步骤包括：

也就是说，数据处理模块和特征选择模块可以仅记录文件信息(该文件信息包括历史数据、数据处理模块的数据处理信息和特征选择模块的特征选择信息，不包括训练信息)，传递至模型训练模块，模型训练模块根据传递的文件信息和其自身的模型训练信息，将实际的训练放在模型训练模块中进行统一训练，也即只有模型训练模块使用资源，数据处理模块和特征工程模块不使用资源，不涉及资源资源分配，可以沿用现有标准实现。

其中，特征选择模块可以对第一数据中的初始特征进行衍生，得到一系列衍生后的特征，再从衍生后的特征中确定出选择的特征，能够自动选择特征，无需用户使用众多特征作为参数进行模型预测，降低用户使用的难度，更加智能化，也能进一步提升数据处理的速度。

具体而言，数据处理模块、特征选择模块和模型训练模块都单独训练(该写自己的代码就写自己的代码)，保留每一个模块完成训练时的文件信息(该文件信息包括训练信息，如数据处理信息、特征选择信息和模型训练信息、历史数据、第一数据、第二数据和第三数据)，在全部模块训练完成后，将这些模块的文件信息组装起来，并将所述组装的文件信息解析出来拼成整个pipeline信息，生成训练好的模型。

本发明实施例中，所述数据处理信息可以包括数据处理模块中算子的计算逻辑信息；所述特征选择信息可以包括特征模块中算子的计算逻辑信息；所述模型训练信息可以包括模型训练模块中算子的计算逻辑信息。所述算子的计算逻辑信息可以预先设定好，包括：算子和算子与算子的连接关系等，能够进一步提升计算速度。

优选的，所述根据所述历史数据，运行所述模型训练任务，得到用于发布的模型的步骤还包括：

将所述数据处理信息、所述特征选择信息、所述模型训练信息、所述历史数据、所述第一数据、所述第二数据和所述第三数据存储至数据库和共享存储。

具体而言，在保留每一个模块的文件信息时，同时进行抽象存储和共享存储，也即一份保存在数据库(抽象存储)中，一份保存在统一的共享存储中；保留在共享存储中的文件信息在传递时，数据量一直成递增状态，直至在最后一个模块训练完成后组装起来进行解析；保留在数据库中的文件信息基于提供的API保存在数据库中，主要用于、用户的读取产品的展示以及后续的预测。

本发明实施例中，在自动建模或运行工作流后，将训练好的模型通过新建模型服务或选择已有模型服务发布成模型服务，进入模型服务的待审核列表，由管理员进行审核，审核通过的模型服务进入下一步的筛选流程，筛选(使用新的测试数据对模型进行评估、测试)出最优模型，最后，选择模型服务调用方式(Rest、MQ或Batch)提供应用该筛选出的最优模型的接口，或者，导出与该最优模型对应的SDK。

在本发明的一具体应用场景中，模型的应用方法包括如下步骤：

初始数据→数据处理→特征选择→模型训练→模型服务发布→模型服务审核→确定最优模型→对外接口和/或导出SDK。

具体而言，根据初始数据(如：历史数据)进行自动建模(处理初始数据，选择特征，得到用于发布的模型)，再选择模型(可通过输入筛选条件在用于发布的模型中进行筛选，进而从筛选出的模型中进行选择)发布成模型服务，经管理员审核通过后，从模型服务的模型中确定最优模型，最后，导出应用该最优模型的接口，和/或，导出与该最优模型对应的SDK。

在本发明的一些优选实施例中，所述模型应用方法还包括：

也就是说，当用户需要查询资源使用信息，可以通过应用最优模型的接口对集群硬件资源的使用情况进行统计，并将统计信息展示给用户，如图8所示，图8是本发明实施例的资源使用信息的示意图。

其中，CPU的使用信息包括：集群资源一共有多少，其中使用了多少；运行了几个实例等等信息。

请参阅图9，图9是本发明实施例二的数据分析系统的结构示意图，该数据分析系统90包括：

第一发布单元91，用于基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务；

确定单元92，用于从所述模型服务的模型中确定最优模型；

提供单元93，用于提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的SDK。

本发明实施例提供的数据分析系统，通过将待发布的模型发布为模型服务，确定出最优模型，提供应用最优模型的接口和/或导出与最优模型对应的软件开发工具包，用户能够通过该接口在线调用最优模型，或者，通过下载该软件开发工具包离线调用最优模型，能够确保数据处理的时效性和准确性，满足用户的数字化运营战略。

优选的，所述第一发布单元91，用于检测到用于新建模型服务的用户操作，显示第一界面，所述第一界面包括新建的模型服务的基本信息的输入区域；根据用户在所述输入区域的输入，生成并保存所述新建的模型服务的基本信息，并显示模型发布界面；获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

优选的，所述第一发布单元91，用于检测到用于选择已有模型服务的用户操作，显示第二界面，所述第二界面包括所述已有模型服务的基本信息；将所述已有模型服务中的模型，作为所述待发布的模型；或者，检测到用于确定待发布的模型的用户操作，显示模型发布界面，获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型。

优选的，所述第一发布单元91，用于获取用户在筛选出的模型中选择的模型，作为所述待发布的模型；其中，所述筛选出的模型基于在所述模型发布界面输入的筛选条件得到。

优选的，所述第一发布单元91，用于获取所述已有模型服务的当前版本的模型属性，所述模型属性包括模型类型和模型的特征参数；若所述待发布的模型的属性与所述模型属性相同，将所述待发布的模型添加到所述模型服务的当前版本；若所述待发布的模型的属性与所述模型属性不相同，生成新的版本号，将所述待发布的模型发布至所述模型服务的最新版本。

优选的，所述数据分析系统90还包括：

优选的，所述确定单元92，用于对已通过列表中的模型服务的模型进行测试，根据测试结果，确定所述最优模型。

优选的，所述提供单元93，用于采用Rest、Mq和/或Batch的调用方式，提供应用所述最优模型的API。

优选的，所述数据分析系统90还包括：

优选的，所述待发布的模型采用历史数据训练得到。

优选的，所述数据分析系统还包括：

优选的，所述数据分析系统90还包括：

本发明实施例二的具体工作过程与上述对应实施例一中的一致，故在此不再赘述，详细请参阅以上对应实施例中方法步骤的说明。

请参阅图10，图10是本发明实施例三的数据分析系统的结构示意图，该数据分析系统100包括处理器101、存储器102及存储在所述存储器102上并可在所述处理器101上运行的计算机程序；所述处理器101执行所述计算机程序时实现如下步骤：

从所述模型服务的模型中确定最优模型；

提供应用所述最优模型的接口，和/或，导出与所述最优模型对应的SDK。

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的步骤包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述获取用户在所述模型发布界面上选择的模型，作为所述待发布的模型的步骤包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述将待发布的模型发布为模型服务的步骤包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

将待发布的模型发布为模型服务的步骤之后，包括：

将发布成功的模型服务加入至一待审核列表；

优选的，所述提供应用所述最优模型的接口的步骤包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

优选的，所述待发布的模型采用历史数据训练得到。

优选的，计算机程序被处理器101执行时还可实现如下步骤：

在提供应用所述最优模型的接口的步骤之后，还包括：

对所述最优模型的在线服务状态和/或性能准确度进行监控。

优选的，计算机程序被处理器101执行时还可实现如下步骤：

对所述最优模型的性能准确度进行监控的步骤，包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的步骤之前，还包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述根据所述历史数据，运行所述模型训练任务，得到用于发布的模型的步骤包括：

优选的，计算机程序被处理器101执行时还可实现如下步骤：

所述模型训练模块根据传递的所述历史数据、所述数据处理信息、所述特征选择信息和所述模型训练模块的模型训练信息，进行模型训练，得到所述用于发布的模型。

优选的，计算机程序被处理器101执行时还可实现如下步骤：

本发明实施例三的具体工作过程与上述对应实施例一中的一致，故在此不再赘述，详细请参阅以上对应实施例中方法步骤的说明。

本发明实施例四提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例一中模型应用方法中的步骤。具体工作过程与上述对应实施例一中的一致，故在此不再赘述，详细请参阅以上对应实施例中方法步骤的说明。

上述计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种模型应用方法，其特征在于，包括：

从所述模型服务的模型中确定最优模型；

2.根据权利要求1所述的模型应用方法，其特征在于，将待发布的模型发布为模型服务的步骤之后，包括：

将发布成功的模型服务加入至一待审核列表；

3.根据权利要求1所述的模型应用方法，其特征在于，还包括：

4.根据权利要求1所述的模型应用方法，其特征在于，在提供应用所述最优模型的接口的步骤之后，还包括：

对所述最优模型的在线服务状态和/或性能准确度进行监控。

5.根据权利要求1所述的模型应用方法，其特征在于，所述基于检测到的用于发布模型的用户操作，将待发布的模型发布为模型服务的步骤之前，还包括：

根据历史数据，运行所述模型训练任务，得到用于发布的模型，所述用于发布的模型包括所述待发布的模型。

6.一种数据分析系统，其特征在于，包括：

确定单元，用于从所述模型服务的模型中确定最优模型；

7.根据权利要求6所述的数据分析系统，其特征在于，还包括：

8.根据权利要求6所述的数据分析系统，其特征在于，还包括：

9.根据权利要求6所述的数据分析系统，其特征在于，还包括：

10.根据权利要求6所述的数据分析系统，其特征在于，还包括：

生成单元，用于基于检测到的用于训练模型的用户操作，生成模型训练任务，所述模型训练任务包括：数据处理子任务、特征选择子任务和模型训练子任务；根据历史数据，运行所述模型训练任务，得到用于发布的模型，所述用于发布的模型包括所述待发布的模型。