CN107562859B

CN107562859B - 一种分类模型训练系统及其实现方法

Info

Publication number: CN107562859B
Application number: CN201710756004.6A
Authority: CN
Inventors: 王毅; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2019-10-22
Anticipated expiration: 2037-08-29
Also published as: CN107562859A; WO2019041708A1

Abstract

本发明提供一种分类模型训练系统及其实现方法，所述实现方法包括：S1，创建SPARK算法分类模型训练系统的前端管理展示界面，并定义所述前端管理展示界面的前端交互请求接口；S2，创建SPARK算法分类模型训练系统的后端服务数据源系统；S3，基于所述前端管理展示界面的前端交互请求接口，创建后端服务控制接口，并建立所述后端服务控制接口与所述前端交互请求接口的对应关系；S4，创建所述后端服务控制接口中基于SPARK算法训练和优化分类模型的内部业务逻辑。通过采用本发明提供的分类模型训练系统，能够有效简化分类模型训练的操作流程，从而有效降低开发者劳动强度，提高开发效率。

Description

一种分类模型训练系统及其实现方法

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种分类模型训练系统及其实现方法。

背景技术

目前，使用SPARK算法的机器学习库SPARK.MLlib进行机器学习已成为常用机器学习方式。为了方便快捷地使用SPARK.MLlib进行分类算法模型训练，且由于分类算法属于监督学习，需要提前准备大量带标签的样本，分为训练样本与测试样本，再由SPARK.MLlib利用这些带标签的样本进行分类算法模型的训练，在此过程中需不断调整样本与模型参数来优化分类算法模型。

常用的优化分类模型的方法需要手动不断新增训练样本，以使样本覆盖模型的全部特征，增加分类模型的准确率和召回率。手动新增训练样本和进行模型参数优化，需要花费开发者大量的时间跟精力在数据准备和程序运行上，导致开发效率较低。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种分类模型训练系统及其实现方法，以达到有效简化分类模型训练操作流程，从而有效降低开发者劳动强度及提高开发效率的目的。

第一方面，本发明提供一种分类模型训练系统的实现方法，包括：S1，基于SPARK算法训练分类模型的外部管理需求，创建前端管理展示界面，并基于外部管理与后端服务的交互需求，定义所述前端管理展示界面的前端交互请求接口；S2，基于SPARK算法训练分类模型的内部业务数据需求，创建后端服务数据源系统；S3，基于所述前端管理展示界面的前端交互请求接口，创建后端服务控制接口，并建立所述后端服务控制接口与所述前端交互请求接口的对应关系；S4，创建所述后端服务控制接口的内部业务逻辑，所述内部业务逻辑包括，基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型。

其中，步骤S1中所述创建前端管理展示界面的步骤进一步包括：分别创建分类模型的训练管理界面、优化管理界面和分类模型管理界面；相应的，所述前端交互请求接口包括：前端训练交互请求接口、前端优化交互请求接口和前端模型管理交互请求接口。

其中，所述训练管理界面至少包括：分类模型算法选择界面、分类模型算法参数设置界面、训练数据源设置界面和数据预处理流程设置界面；所述优化管理界面至少包括：分类模型优化策略选择界面、分类模型优化标准设置界面和预测优化数据源设置界面；所述分类模型管理界面至少包括：分类模型版本管理界面和分类模型效果展现界面。

其中，步骤S2中所述创建后端服务数据源系统的步骤进一步包括：S21，导入SPARK算法的机器学习库SPARK-MLlib，并分别创建训练数据源库、预测优化数据源库和模型系统元数据库；S22，将准备好的训练样本数据存入所述训练数据源库，并将预测优化样本数据存入所述预测优化数据源库。

其中，所述S3的步骤进一步包括：S31，基于所述前端训练交互请求接口，创建后端训练管理控制接口，并建立所述前端训练交互请求接口与所述后端训练管理控制接口的对应关系；S32，基于所述前端优化交互请求接口，创建后端优化管理控制接口，并建立所述前端优化交互请求接口与所述后端优化管理控制接口的对应关系；S33，基于所述前端模型管理交互请求接口，创建后端模型管理控制接口，并建立所述前端模型管理交互请求接口与所述后端模型管理控制接口的对应关系。

其中，所述S4的步骤进一步至少包括：S41，创建所述后端训练管理控制接口的内部训练业务逻辑，所述内部训练业务逻辑包括，基于SPARK算法训练分类模型过程的内部业务逻辑流程和所述前端训练交互请求接口，通过调用所述SPARK-MLlib、所述训练数据源库和所述模型系统元数据库，创建初始分类模型，并对所述初始分类模型进行训练，获取待优化分类模型；S42，创建所述后端优化管理控制接口的内部优化业务逻辑，所述内部优化业务逻辑包括，基于SPARK算法优化分类模型过程的内部业务逻辑流程和所述前端优化交互请求接口，通过调用所述SPARK-MLlib、所述预测优化数据源库和所述模型系统元数据库，对所述待优化分类模型进行预测优化，获取所述目标分类模型。

其中，步骤S41中所述创建所述后端训练管理控制接口的内部训练业务逻辑的步骤进一步至少包括：S411，基于数据预处理数据库包含的数据预处理算法，创建各所述数据预处理算法对应的预处理内部业务逻辑；S412，基于SPARK-MLlib包含的分类算法，创建各所述分类算法对应的生成分类模型的内部业务逻辑；S413，基于所述训练管理界面的设置数据，通过调用所述训练数据源库、所述预处理内部业务逻辑和所述生成分类模型的内部业务逻辑，创建训练分类模型的内部业务逻辑。

其中，步骤S42中所述创建所述后端优化管理控制接口的内部优化业务逻辑的步骤进一步包括：S421，基于所述前端优化交互请求接口的请求数据，选定预测优化所述待优化分类模型的预测优化数据源和预测优化约束条件；S422，基于SPARK算法训练分类模型的优化过程内部业务逻辑流程，创建预测优化所述待优化分类模型的数据访问和预测处理实现逻辑；S423，创建预测优化所述待优化分类模型过程的数据纠正内部业务逻辑，所述数据纠正内部业务逻辑包括，基于对所述待优化分类模型的优化结果，提取对分类模型预测错误的记录，进行数据纠正；S424，创建预测优化所述待优化分类模型过程的数据更新内部业务逻辑，所述数据更新内部业务逻辑包括，基于经所述数据纠正的模型系统元数据库，抽取分类模型元导入所述预测优化数据源库下一分区；S425，基于所述预测优化约束条件，创建停止优化分类模型的内部业务逻辑，所述停止优化分类模型的内部业务逻辑包括，重新指定分类模型的预测优化数据源库，创建预测分类模型与数据优化业务逻辑，直至分类模型参数达到所述预测优化约束条件，停止模型优化。

第二方面，本发明提供一种分类模型训练系统，包括：前端管理展示界面、后端服务数据源系统、后端服务控制接口单元和后端服务业务处理单元；其中，所述前端管理展示界面用于进行训练分类模型过程、预测优化分类模型过程和分类模型管理的外部设置管理，所述前端管理展示界面包括前端交互请求接口，用于外部管理与后端服务的信息交互；所述后端服务数据源系统用于根据SPARK算法训练分类模型的内部业务逻辑调用请求，提供SPARK算法的机器学习数据源，训练数据源、预测优化数据源和模型系统元数据库；所述后端服务控制接口单元用于建立所述前端交互请求接口与后端服务业务逻辑调用间的对应关系；所述后端服务业务处理单元用于基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型。

第三方面，本发明提供一种根据如上所述分类模型训练系统的分类模型训练方法，包括：通过所述前端交互请求接口和所述后端服务控制接口单元，获取所述前端管理展示界面输入的分类模型的构建设置数据、训练过程设置数据和优化过程设置数据；基于所述分类模型的构建设置数据，通过所述后端服务业务处理单元内部调用所述SPARK算法的机器学习数据源，构建初始分类模型，并存入所述模型系统元数据库；基于所述分类模型的训练过程设置数据，通过所述后端服务业务处理单元内部调用所述训练数据源，采用SPARK算法对所述初始分类模型进行训练，获取待优化分类模型；基于所述分类模型的优化过程设置数据，通过所述后端服务业务处理单元内部调用所述预测优化数据源，采用SPARK算法对所述待优化分类模型进行预测优化，获取目标分类模型。

本发明提供的一种分类模型训练系统及其实现方法，通过将利用SPARK-MLlib进行分类模型训练过程中的训练数据与模型训练、新增新特征训练样本和优化模型参数进行整合，形成基于SPARK-MLlib的分类模型训练系统，利用所述分类模型训练系统进行分类模型训练，实现只需在前端管理展示界面上创建分类模型工程，指定训练数据源、ETL算法、模型算法、参数等训练模型与优化模型的基本流程，即可实现分类模型的自动创建、训练和预测优化，能够有效简化分类模型训练操作流程，从而有效降低开发者劳动强度，提高开发效率。

附图说明

图1为本发明实施例一种分类模型训练系统的实现方法的流程图；

图2为本发明实施例一种创建后端服务数据源系统的处理过程流程图；

图3为本发明实施例一种创建后端服务控制接口的处理过程流程图；

图4为本发明实施例一种创建后端服务控制接口的内部业务逻辑的处理过程流程图；

图5为本发明实施例一种创建后端训练管理控制接口的内部训练业务逻辑的处理过程流程图；

图6为本发明实施例一种创建后端优化管理控制接口的内部优化业务逻辑的处理过程流程图；

图7为本发明实施例一种分类模型训练系统的结构示意图；

图8为本发明实施例一种后端服务数据源系统的结构示意图；

图9为本发明实施例一种利用本发明分类模型训练系统进行分类模型训练的方法流程图；

图10为本发明实施例一种SPARK算法训练分类模型的处理过程流程图；

图11为本发明实施例一种SPARK算法预测优化分类模型的处理过程流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明实施例的一个方面，本实施例提供一种分类模型训练系统的实现方法，参考图1，为本发明实施例一种分类模型训练系统的实现方法的流程图，包括：

S1，基于SPARK算法训练分类模型的外部管理需求，创建前端管理展示界面，并基于外部管理与后端服务的交互需求，定义所述前端管理展示界面的前端交互请求接口。

可以理解为，本实施例的目标在于建立一个基于SPARK算法的分类模型训练系统，整个系统是一个前端有管理展示界面，后端有服务管理系统的分类模型自动训练和优化系统。用户通过前端的管理展示界面设置分类模型训练的算法和参数，后端服务管理系统根据前端设置调用相应数据源，利用内置的SPARK算法构建分类模型，并调用训练数据源和预测优化数据源进行分类模型的训练和预测优化，获取目标分类模型。

步骤S1中考虑到基于SPARK算法生成分类模型过程、训练分类模型过程和预测优化分类模型过程的外部管理需求，即需要外部准备的数据源、需要设置的算法和参数等，相应的进行前端管理展示界面的创建，并针对每项管理需求在前端管理展示界面上设置管理接口。另外，考虑到前端管理展示界面需要与后端服务管理系统进行数据交互，以将用户设置的算法和参数输入到后端服务管理系统，因此根据外部管理与后端服务的交互需求，在前端管理展示界面中相应的定义前端交互请求接口。

当用户通过前端管理展示界面进行分类模型训练过程的设置时，前端管理展示界面通过前端交互请求接口将用户设置传输到后端服务管理系统。前端管理展示页面采用标准REST API与后端服务管理系统进行交互。

S2，基于SPARK算法训练分类模型的内部业务数据需求，创建后端服务数据源系统。

可以理解为，在进行分类模型的构建、训练和预测优化时，需要调用相应的算法和流程，并用相应的训练和预测优化数据对构建的分类模型进行训练和预测优化。因此本步骤进行提供这些算法、流程和数据的系统的创建。

具体根据进行分类模型构建、训练和预测优化过程需要用到的算法、流程和数据创建相应的系统，在进行基于SPARK算法的分类模型训练系统的创建时，根据SPARK算法需要的算法、流程和数据，即内部业务数据需求，相应的创建各个数据单元，各数据单元的总体即为后端服务数据源系统。

其中可选的，步骤S2中所述创建后端服务数据源系统的进一步处理步骤参考图2，为本发明实施例一种创建后端服务数据源系统的处理过程流程图，包括：

S21，导入SPARK算法的机器学习库SPARK-MLlib，并分别创建训练数据源库、预测优化数据源库和模型系统元数据库；S22，将准备好的训练样本数据存入所述训练数据源库，并将预测优化样本数据存入所述预测优化数据源库。

可以理解为，本步骤进行数据源准备。使用springBoot微服务框架设计后端服务管理系统，系统元数据管理使用MySQL数据库存储，模型训练与优化创建使用SPARK-MLlib创建，训练模型使用到的数据源使用hive存储。基于SPARK算法进行分类模型的训练需用到SPARK算法的机器学习库，因此首先导入SPARK算法的机器学习库SPARK-MLlib，然后分别进行训练数据源准备、模型系统元数据源准备和预测优化数据源准备，即：

其一，进行带标签的训练数据源准备。将手动准备的带标签训练样本数据存储在hive数据库中，创建表中标签列(lable)与数据列(data)，存入的数据库称为训练数据源库。

其二，进行模型系统元数据源(mysql)准备。用来存储模型元数据信息，称为模型系统元数据库(MySQL)。

其三，进行预测优化数据源准备。预测优化样本数据用来不断优化分类模型，称为预测优化数据源(Hive-MySQL)，预测优化数据源为带分区的hive数据表，按天进行分区，存储每天需要预测的数据源。MySQL的预测优化数据源用来与前端管理展示界面交互存储数据，由hive表导入。

S3，基于所述前端管理展示界面的前端交互请求接口，创建后端服务控制接口，并建立所述后端服务控制接口与所述前端交互请求接口的对应关系。

可以理解为，在基于SPARK算法的分类模型训练系统中，后端管理流程控制系统包含控制(Controller)层和服务(Service)层。Controller层主要用于连接前端管理展示界面请求与后端服务数据调用，Service层主要用于创建模型训练与优化过程的实际调用链路。

步骤S3可以理解为Controller层的创建。上述前端管理展示界面请求通过前端管理展示界面的前端交互请求接口传递，当前端管理展示界面通过前端交互请求接口发送请求时，为了使后端服务管理系统能够识别该请求，对应的建立后端服务控制接口，并建立该后端服务控制接口与对应前端交互请求接口的对应关系。

例如，在端管理展示界面定义常见分类模型的url为ip:port/create-model，在后端服务管理系统Controller层中定义CreateModel(Model model)函数并与/create-model建立对应关系。当后端服务接收到前端/create-model请求时即触发调用CreateModel函数。

S4，创建所述后端服务控制接口的内部业务逻辑，所述内部业务逻辑包括，基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型。

可以理解为，根据上述实施例，后端管理流程控制系统包含Controller层和Service层，Service层主要用于创建模型训练与优化过程的实际调用链路，即定义Controller层中定义的接口的具体的实现过程。本步骤通过创建Service层创建后端服务控制接口的内部业务逻辑。

首先创建springBoot入口程序，绑定8180端口，服务启动时监听请求。当有请求时，触发调用对应的业务逻辑。然后定义Controller层中定义的接口的具体的实现过程，该实现过程包括：先基于SPARK算法训练分类模型的业务逻辑需求和上述前端交互请求接口，通过调用后端服务数据源系统，创建初始分类模型；再采用SPARK算法对所述初始模型进行训练和预测优化，获取目标分类模型。例如，在Controller层中定义了createModel(Modelmodel)函数，在service层中定义具体实现createModel函数功能的过程。

本发明实施例提供的一种分类模型训练系统的实现方法，通过创建外部管理的前端管理展示界面，以及后端服务管理的后端服务数据源系统和后端服务业务处理单元，并建立各系统单元间的对应关系，将基于SPARK算法进行分类模型构建、训练和预测优化的处理整合到一个系统中，形成一个基于SPARK-MLlib的在前端管理展示界面进行设置、在后端服务管理系统进行分类模型训练的流程化框架。在利用该系统进行分类模型训练时，只需在前端管理展示界面操作即可完成整个分类模型的训练优化过程，能够有效简化分类模型训练操作流程，从而有效降低开发者劳动强度，提高开发效率。

在一个实施例中，步骤S1中所述创建前端管理展示界面的步骤进一步包括：分别创建分类模型的训练管理界面、优化管理界面和分类模型管理界面；相应的，所述前端交互请求接口包括：前端训练交互请求接口、前端优化交互请求接口和前端模型管理交互请求接口。

可以理解为，在进行分类模型训练时，需要对训练过程和预测优化过程的算法和参数进行设置，同时，为了对分类模型进行管理，需要对管理参数进行设置。因此，在进行前端管理展示界面的创建时，至少需要创建分类模型的训练管理界面、优化管理界面和分类模型管理界面。

同样的，为了与后端服务管理系统进行数据交互，需要在各管理界面设置接口函数，即在训练管理界面设置前端训练交互请求接口，在优化管理界面设置前端优化交互请求接口，在分类模型管理界面设置前端模型管理交互请求接口。

其中可选的，所述训练管理界面至少包括：分类模型算法选择界面、分类模型算法参数设置界面、训练数据源设置界面和数据预处理流程设置界面；所述优化管理界面至少包括：分类模型优化策略选择界面、分类模型优化标准设置界面和预测优化数据源设置界面；所述分类模型管理界面至少包括：分类模型版本管理界面和分类模型效果展现界面。

可以理解为，根据上述实施例，在创建前端管理展示界面时，采用Angularjs与html编写实现代码，首先创建分类模型的训练管理界面、优化管理界面和分类模型管理界面，然后在各管理界面中创建子界面，包括：

在训练管理界面创建分类模型算法选择界面、分类模型算法参数设置界面、训练数据源设置界面和数据预处理流程设置界面，分别用于分类模型算法的选择设置、分类模型算法参数的设置、训练数据源的选择和训练数据的预处理设置；

在优化管理界面创建分类模型优化策略选择界面、分类模型优化标准设置界面和预测优化数据源设置界面，分别用于优化策略选择设置、优化标准设置、和优化数据源选择设置；

在分类模型管理界面创建分类模型版本管理界面和分类模型效果展现界面，分别用于分类模型的版本管理和分类模型的效果展现。

以上选择设置可采用下拉列表选择方式。所有的前端管理展示界面使用post请求与后端服务管理系统进行数据交互。

本发明实施例提供的一种分类模型训练系统的实现方法，通过分别创建分类模型的训练管理界面、优化管理界面和分类模型管理界面，并定义各管理界面的设置子界面，能够方便实现分类模型构建过程、训练过程和预测优化设置的外部设置管理，另外通过下拉选择列表设置分类算法等的设置，使用户只需根据需要选择点击相应的选项，无需手动输入，能够提高工作效率和用户体验。

在另一个实施例中，所述步骤S3的进一步处理步骤参考图3，为本发明实施例一种创建后端服务控制接口的处理过程流程图，包括：

S31，基于所述前端训练交互请求接口，创建后端训练管理控制接口，并建立所述前端训练交互请求接口与所述后端训练管理控制接口的对应关系；S32，基于所述前端优化交互请求接口，创建后端优化管理控制接口，并建立所述前端优化交互请求接口与所述后端优化管理控制接口的对应关系；S33，基于所述前端模型管理交互请求接口，创建后端模型管理控制接口，并建立所述前端模型管理交互请求接口与所述后端模型管理控制接口的对应关系。

可以理解为，根据上述实施例，通过创建后端服务管理系统的Controller层，实现后端服务控制接口的创建，且在前端管理展示界面的创建时，创建了训练管理界面、优化管理界面和分类模型管理界面，且定义了各管理界面的前端交互请求接口。因此在创建后端服务控制接口时，需对应创建后端训练管理控制接口、后端优化管理控制接口和后端模型管理控制接口，并分别建立对应接口之间的对应关系，以便在获取分类模型的各处理阶段顺利调用相应的接口。此外，本实施例中步骤标号S31、S32和S33仅为对各步骤进行区分，不限制对应步骤的实现顺序。

本发明实施例提供的一种分类模型训练系统的实现方法，通过分别对应各前端管理展示界面创建后端服务管理系统的后端服务控制接口，并建立前端与后端的对应关系，能够在接口调用时快速准确的调用对应接口，提高系统处理效率。

在又一个实施例中，所述步骤S4的进一步处理步骤参考图4，为本发明实施例一种创建后端服务控制接口的内部业务逻辑的处理过程流程图，包括：

S41，创建所述后端训练管理控制接口的内部训练业务逻辑，所述内部训练业务逻辑包括，基于SPARK算法训练分类模型过程的内部业务逻辑流程和所述前端训练交互请求接口，通过调用所述SPARK-MLlib、所述训练数据源库和所述模型系统元数据库，创建初始分类模型，并对所述初始分类模型进行训练，获取待优化分类模型。

可以理解为，为了使模型训练系统能够根据前端管理展示界面设置，自行进行分类模型的构建和训练，需对应定义后端训练管理控制接口的内部实现业务逻辑，即内部训练业务逻辑。后端训练管理控制接口的实现过程，即内部训练业务逻辑包括：

根据前端训练交互请求接口数据，按照SPARK算法训练分类模型的处理规则和流程，通过调用SPARK-MLlib构建初始分类模型，并将初始分类模型数据存入模型系统元数据库。然后通过访问训练数据源库获取训练数据源，并用获取的训练数据源训练构建的初始分类模型，经过训练的分类模型即为待优化分类模型。

其中可选的，步骤S41中所述创建所述后端训练管理控制接口的内部训练业务逻辑的进一步处理步骤参考图5，为本发明实施例一种创建后端训练管理控制接口的内部训练业务逻辑的处理过程流程图，至少包括：

S411，基于数据预处理数据库包含的数据预处理算法，创建各所述数据预处理算法对应的预处理内部业务逻辑。

可以理解为，分类模型训练过程中，在用训练数据源进行初始分类模型的训练之前，先对准备好的训练数据源进行预处理，以去除数据中的噪声，更好的适应模型训练。训练模型预处理算法有多种，如数据统一格式、归一化和词替换等。用户可通过前端管理展示界面进行预处理算法选择，后端服务管理系统根据前端选择调用相应的处理逻辑。

因此，需创建前端管理展示界面中包含的预处理算法选项的预处理内部业务逻辑，前端预处理算法选项对应的数据预处理算法都是包含在数据预处理数据库中的，因此只需根据数据预处理数据库中包含的数据预处理算法，创建对应的预处理内部业务逻辑。

S412，基于SPARK-MLlib包含的分类算法，创建各所述分类算法对应的生成分类模型的内部业务逻辑。

可以理解为，与上述步骤同理，基于不同分类算法，构建的分类模型业务实现逻辑不同，所构建的分类模型不同，且对模型的训练过程也不同。为了在用户通过前端管理展示界面设置分类算法和算法参数之后，根据用户选择设置实现对应的分类模型构建和分类模型训练过程，创建各分类算法对应的生成分类模型的内部业务逻辑。具体创建基于SPARK-MLlib的分类模型构建与训练实现业务逻辑，新建朴素贝叶斯、支持向量机和逻辑回归等SPARK-MLlib目前支持的分类算法。

S413，基于所述训练管理界面的设置数据，通过调用所述训练数据源库、所述预处理内部业务逻辑和所述生成分类模型的内部业务逻辑，创建训练分类模型的内部业务逻辑。

可以理解为，步骤S413实现分类模型训练程序的创建。该训练程序具体实现，根据前端训练管理界面的参数设置，创建SPARK程序，读取训练数据源，生成分类模型训练脚本并自动上传到SPARK集群服务器。由系统调用脚本，启动SPARK程序，创建分类模型，并存储分类模型结果到指定的hdfs路径，存储分类模型的系统元数据如模型混淆矩阵、正确率和召回率等指标数据到模型系统元数据库(MySQL)。

S42，创建所述后端优化管理控制接口的内部优化业务逻辑，所述内部优化业务逻辑包括，基于SPARK算法优化分类模型过程的内部业务逻辑流程和所述前端优化交互请求接口，通过调用所述SPARK-MLlib、所述预测优化数据源库和所述模型系统元数据库，对所述待优化分类模型进行预测优化，获取所述目标分类模型。

可以理解为，为了使模型训练系统能够根据前端管理展示界面设置，自行进行待优化分类模型的预测优化，需对应定义后端优化管理控制接口的内部实现业务逻辑，即内部优化业务逻辑。后端优化管理控制接口的实现过程，即内部优化业务逻辑包括：

根据前端优化交互请求接口数据，按照SPARK算法预测优化分类模型的处理规则和流程，通过调用SPARK-MLlib，并访问预测优化数据源库获取预测优化数据源，对待优化分类模型进行预测，再根据预测结果多分类模型进行优化，经过预测优化并达到优化标准的分类模型即为目标分类模型。另外，本实施例中步骤标号S41和S42仅为对各步骤进行区分，不限制对应步骤的实现顺序。

其中可选的，步骤S42中所述创建所述后端优化管理控制接口的内部优化业务逻辑的进一步处理步骤参考图6，为本发明实施例一种创建后端优化管理控制接口的内部优化业务逻辑的处理过程流程图，包括：

S421，基于所述前端优化交互请求接口的请求数据，选定预测优化所述待优化分类模型的预测优化数据源和预测优化约束条件。

可以理解为，对于已经训练完成的分类模型，需要用另外的预测优化数据源对其进行预测，并根据预测结果优化分类模型。本步骤具体创建系统根据前端优化交互请求接口的请求数据，生成分类模型优化策略、指定分类模型的预测优化数据源及需要预测的数据列、创建每天预测任务、指定分类模型最优的参数阈值，即预测优化约束条件以确定分类模型是否需要继续优化的内部业务逻辑。

S422，基于SPARK算法训练分类模型的优化过程内部业务逻辑流程，创建预测优化所述待优化分类模型的数据访问和预测处理实现逻辑。

可以理解为，在进行分类模型的预测优化时，需按照定义的处理流程进行相应数据的访问和预测优化处理步骤。本步骤具体创建系统的预测优化策略，包括：系统读取hdfs路径模型，加载分类模型数据到内存中，从Hive中读取需要预测的源数据，经分类模型进行预测，并将结果写入到模型系统元数据库MySQL中，在系统页面上显示展现预测的结果。

S423，创建预测优化所述待优化分类模型过程的数据纠正内部业务逻辑，所述数据纠正内部业务逻辑包括，基于对所述待优化分类模型的优化结果，提取对分类模型预测错误的记录，进行数据纠正。

可以理解为，在进行分类模型的预测优化过程中，需要在用每组预测数据对模型进行预测之后，记录预测错误的数据，并对预测错误记录的预测数据和模型参数进行纠正。本步骤具体创建预测优化过程的数据纠正策略，包括：纠正预测优化数据，添加新的预测优化样本数据。同时在系统前端管理展示界面查看预测结果，对模型预测错误的记录进行提取并重新纠正，纠正后的分类模型数据存入模型系统元数据库MySQL中。

S424，创建预测优化所述待优化分类模型过程的数据更新内部业务逻辑，所述数据更新内部业务逻辑包括，基于经数据纠正的模型系统元数据库，抽取分类模型元导入所述预测优化数据源库下一分区。

可以理解为，在对分类模型的参数进行纠正之后，即对分类模型进行优化之后，需继续用预测优化数据源对纠正后的分类模型进行预测。本步骤具体创建优化分类模型数据的更新策略，对分类模型数据进行更新，添加新的模型特征到模型系统元数据库MySQL。新的特征数据存入预测优化数据源库MySQL之后，系统调用Sqoop工具抽取MySQL到预测优化数据源(Hive)新的一天分区数据中。

S425，基于所述预测优化约束条件，创建停止优化分类模型的内部业务逻辑，所述停止优化分类模型的内部业务逻辑包括，重新指定分类模型的预测优化数据源库，创建预测分类模型与数据优化业务逻辑，直至分类模型参数达到所述预测优化约束条件，停止模型优化。

可以理解为，在上述步骤对分类模型数据进行纠正，并对预测优化数据源进行更新之后，需继续用更新后的预测优化数据源对纠正后的分类模型进行训练。本步骤创建模型优化停止策略，重新指定分类模型的训练数据源，重复训练分类模型与训练数据优化步骤，直到分类模型参数达到预设的预测优化约束条件，则停止对分类模型的训练，获取目标分类模型。

本发明实施例提供的一种分类模型训练系统的实现方法，通过分别创建分类模型构建、训练和预测优化过程的内部实现业务逻辑，使用户在使用该分类模型训练系统进行分类模型训练时，只需在前端管理展示界面进行数据和参数设置，即可由系统自动完成分类模型的构建训练和预测优化，操作简单，提高开发效率。

作为本发明实施例的另一个方面，本实施例提供一种分类模型训练系统，参考图7，为本发明实施例一种分类模型训练系统的结构示意图，包括：前端管理展示界面1、后端服务数据源系统2、后端服务控制接口单元3和后端服务业务处理单元4。

其中，前端管理展示界面1用于进行训练分类模型过程、预测优化分类模型过程和分类模型管理的外部设置管理，前端管理展示界面1包括前端交互请求接口101，用于外部管理与后端服务的信息交互；后端服务数据源系统2用于根据SPARK算法训练分类模型的内部业务逻辑调用请求，提供SPARK算法的机器学习数据源，训练数据源、预测优化数据源和模型系统元数据库；后端服务控制接口单元3用于建立所述前端交互请求接口与后端服务业务逻辑调用间的对应关系；后端服务业务处理单元4用于基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型。

可以理解为，本实施例的分类模型训练系统包括用于用户进行外部管理设置的前端管理展示界面1、用于后端服务管理的后端服务业务处理单元4、用于为分类模型训练提供数据支持的后端服务数据源系统2以及用于在用户外部管理和后端服务管理之间建立联系的后端服务控制接口单元3。当用户通过前端管理展示界面进行分类模型训练过程的设置时，前端管理展示界面通过前端交互请求接口将用户设置传输到后端服务管理系统。前端管理展示页面采用标准REST API与后端服务管理系统进行交互。

前端管理展示界面请求通过前端交互请求接口传递，当前端管理展示界面通过前端交互请求接口发送请求时，通过对应的后端服务控制接口，后端服务管理系统识别该请求，并由后端服务业务处理单元4调用相应的算法和流程。如进行分类模型的构建、训练和预测优化时，由后端服务业务处理单元4调用相应的训练和预测优化数据对构建的分类模型进行训练和预测优化。

在使用该系统进行分类模型训练时，服务启动时监听请求，当有请求时，触发调用对应的业务逻辑。先基于SPARK算法训练分类模型的业务逻辑需求和上述前端交互请求接口，通过调用后端服务数据源系统，创建初始分类模型；再采用SPARK算法对所述初始模型进行训练和预测优化，获取目标分类模型。

其中一个实施例中，后端服务数据源系统的框架参考图8，为本发明实施例一种后端服务数据源系统的结构示意图，包括：MySQL模型系统元数据库、Hive训练数据源库、MySQL-Hive预测优化数据源库、分类模型系统单元、算法模型单元和SPARK集群。其中，MySQL模型系统元数据库用于存储模型元数据，Hive训练数据源库用于存储训练源数据，MySQL-Hive预测优化数据源库用于存储预测优化数据源。

本发明实施例提供的一种分类模型训练系统，使用户在用其进行分类模型训练时，只需在系统的前端管理展示界面上创建分类模型工程，指定训练数据源、ETL算法、模型算法、参数等训练模型与优化模型的基本流程，后续训练与优化分类模型只需在界面进行选择点击，或者创建定时任务由系统自动执行即可在很短时间内获取目标分类模型，避免重复不断的进行训练样本准备和参数优化，使用户的关注点在算法本身的优化与实现，摆脱以往的花大量精力在数据准备和程序运行上，提高开发效率。

作为本发明实施例的又一个方面，本实施例提供一种根据如上所述分类模型训练系统的分类模型训练方法，参考图9，为本发明实施例一种利用本发明分类模型训练系统进行分类模型训练的方法流程图，包括：

S901，通过所述前端交互请求接口和所述后端服务控制接口单元，获取所述前端管理展示界面输入的分类模型的构建设置数据、训练过程设置数据和优化过程设置数据。

可以理解为，在系统中定义分类模型训练流程，创建分类模型训练工程。用户通过前端管理展示界面选择分类模型使用算法，制定算法参数，选择数据源表，指定表中的label列与数据列，并定义训练数据源的预处理(ETL)流程，对初始数据列进行数据预处理，指定预处理操作如，数据统一格式、归一化和词替换等预处理操作用来去除数据列中的噪声，更好的适应模型训练。后端服务管理系统通过前端交互请求接口和后端服务控制接口单元获取用户的自定义设置数据。

S902，基于所述分类模型的构建设置数据，通过所述后端服务业务处理单元内部调用所述SPARK算法的机器学习数据源，构建初始分类模型，并存入所述模型系统元数据库。

可以理解为，在获取用户自定义设置数据之后，后端服务业务处理单元根据选择的模型算法和训练数据源，创建模型训练脚本并自动上传到SPARK集群服务器。由系统调用脚本，启动SPARK程序，构建初始分类模型，并存储模型结果到指定的hdfs路径，同时存储分类模型数据如模型混淆矩阵、正确率和召回率等指标数据到模型系统元数据库MySQL。

S903，基于所述分类模型的训练过程设置数据，通过所述后端服务业务处理单元内部调用所述训练数据源，采用SPARK算法对所述初始分类模型进行训练，获取待优化分类模型。

可以理解为，参考图10，为本发明实施例一种SPARK算法训练分类模型的处理过程流程图，根据用户通过前端管理展示界面选择的训练数据源和分类模型训练处理参数，后端服务业务处理单元调用Hive库中相应的带标签训练数据源，并将该数据源进行初始化处理。然后用处理后的训练数据源训练上述步骤构建的初始分类模型。将模型训练结果写入模型系统元数据库MySQL，同时将模型预测文件写入系统存储单元，获取待优化分类模型。

S904，基于所述分类模型的优化过程设置数据，通过所述后端服务业务处理单元内部调用所述预测优化数据源，采用SPARK算法对所述待优化分类模型进行预测优化，获取目标分类模型。

可以理解为，参考图11，为本发明实施例一种SPARK算法预测优化分类模型的处理过程流程图，系统根据用户选择指定分类模型的预测优化数据源及需要预测的数据列，创建每天预测任务，指定模型最优的参数阈值，即预测优化约束条件，以确定是否需要对分类模型进行继续优化。

然后，系统读取hdfs路径模型，加载分类模型数据到内存，从Hive中读取需要预测的数据源，经分类模型进行预测，并将预测结果写入模型系统元数据库MySQL，并在前端管理展示界面展现预测结果；

接下来进行分类模型参数的优化，即数据纠正，添加新的训练模型样本。通过前端管理展示界面查看分类模型的预测结果，对模型预测错误的记录进行纠正、提取，并存入模型系统元数据库MySQL。

再然后，针对优化参数后的分类模型，更新训练数据源。添加新的模型特征到训练样本，新的特征数据存入模型系统元数据库MySQL之后，系统调用Sqoop工具抽取MySQL到预测优化数据源(Hive)新的一天分区数据中。

最后，重新指定分类模型的预测优化数据源，重复定义预测优化分类模型的步骤，直到分类模型参数达到指定阈值，停止模型训练，获取目标分类模型。

本发明实施例提供的一种根据如上所述分类模型训练系统的分类模型训练方法，通过在前端管理展示界面对分类模型构建、分类模型训练和分类模型预测优化过程的参数选择和设置，在后端服务管理系统根据该设置自动创建分类模型构建、训练和预测优化处理流程，获取符合设定的目标分类模型，能够有效简化分类模型训练操作流程，从而有效降低开发者劳动强度，提高开发效率。

综上，本发明实施例提供的一种分类模型训练系统及其实现方法，通过将利用SPARK-MLlib进行分类模型训练过程中的训练数据与模型训练、新增新特征训练样本和优化模型参数进行整合，形成基于SPARK-MLlib的分类模型训练系统，利用所述分类模型训练系统进行分类模型训练，实现只需在前端管理展示界面上创建分类模型工程，指定训练数据源、ETL算法、模型算法、参数等训练模型与优化模型的基本流程，即可实现分类模型的自动创建、训练和预测优化，能够有效简化分类模型训练操作流程，从而有效降低开发者劳动强度，提高开发效率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分类模型训练系统的实现方法，其特征在于，包括：

S1，基于SPARK算法训练分类模型的外部管理需求，创建前端管理展示界面，并基于外部管理与后端服务的交互需求，定义所述前端管理展示界面的前端交互请求接口；

S2，基于SPARK算法训练分类模型的内部业务数据需求，创建后端服务数据源系统；

S3，基于所述前端管理展示界面的前端交互请求接口，创建后端服务控制接口，并建立所述后端服务控制接口与所述前端交互请求接口的对应关系；

S4，创建所述后端服务控制接口的内部业务逻辑，所述内部业务逻辑包括，基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型；

其中，步骤S1中所述创建前端管理展示界面的步骤进一步包括：

分别创建分类模型的训练管理界面、优化管理界面和分类模型管理界面；

相应的，所述前端交互请求接口包括：前端训练交互请求接口、前端优化交互请求接口和前端模型管理交互请求接口；

所述训练管理界面至少包括：分类模型算法选择界面、分类模型算法参数设置界面、训练数据源设置界面和数据预处理流程设置界面；

所述优化管理界面至少包括：分类模型优化策略选择界面、分类模型优化标准设置界面和预测优化数据源设置界面；

所述分类模型管理界面至少包括：分类模型版本管理界面和分类模型效果展现界面；

步骤S2中所述创建后端服务数据源系统的步骤进一步包括：

S21，导入SPARK算法的机器学习库SPARK-MLlib，并分别创建训练数据源库、预测优化数据源库和模型系统元数据库；

S22，将准备好的训练样本数据存入所述训练数据源库，并将预测优化样本数据存入所述预测优化数据源库；

所述S3的步骤进一步包括：

S31，基于所述前端训练交互请求接口，创建后端训练管理控制接口，并建立所述前端训练交互请求接口与所述后端训练管理控制接口的对应关系；

S32，基于所述前端优化交互请求接口，创建后端优化管理控制接口，并建立所述前端优化交互请求接口与所述后端优化管理控制接口的对应关系；

S33，基于所述前端模型管理交互请求接口，创建后端模型管理控制接口，并建立所述前端模型管理交互请求接口与所述后端模型管理控制接口的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述S4的步骤进一步至少包括：

S41，创建所述后端训练管理控制接口的内部训练业务逻辑，所述内部训练业务逻辑包括，基于SPARK算法训练分类模型过程的内部业务逻辑流程和所述前端训练交互请求接口，通过调用所述SPARK-MLlib、所述训练数据源库和所述模型系统元数据库，创建初始分类模型，并对所述初始分类模型进行训练，获取待优化分类模型；

3.根据权利要求2所述的方法，其特征在于，步骤S41中所述创建所述后端训练管理控制接口的内部训练业务逻辑的步骤进一步至少包括：

S411，基于数据预处理数据库包含的数据预处理算法，创建各所述数据预处理算法对应的预处理内部业务逻辑；

S412，基于SPARK-MLlib包含的分类算法，创建各所述分类算法对应的生成分类模型的内部业务逻辑；

4.根据权利要求2所述的方法，其特征在于，S42中所述创建所述后端优化管理控制接口的内部优化业务逻辑的步骤进一步包括：

S421，基于所述前端优化交互请求接口的请求数据，选定预测优化所述待优化分类模型的预测优化数据源和预测优化约束条件；

S422，基于SPARK算法训练分类模型的优化过程内部业务逻辑流程，创建预测优化所述待优化分类模型的数据访问和预测处理实现逻辑；

S423，创建预测优化所述待优化分类模型过程的数据纠正内部业务逻辑，所述数据纠正内部业务逻辑包括，基于对所述待优化分类模型的优化结果，提取对分类模型预测错误的记录，进行数据纠正；

S424，创建预测优化所述待优化分类模型过程的数据更新内部业务逻辑，所述数据更新内部业务逻辑包括，基于经所述数据纠正的模型系统元数据库，抽取分类模型元导入所述预测优化数据源库下一分区；

5.一种分类模型训练系统，其特征在于，包括：

前端管理展示界面，用于进行训练分类模型过程、预测优化分类模型过程和分类模型管理的外部设置管理，所述前端管理展示界面包括前端交互请求接口，用于外部管理与后端服务的信息交互；

后端服务数据源系统，用于根据SPARK算法训练分类模型的内部业务逻辑调用请求，提供SPARK算法的机器学习数据源，训练数据源、预测优化数据源和模型系统元数据库；

后端服务控制接口单元，用于建立所述前端交互请求接口与后端服务业务逻辑调用间的对应关系；

后端服务业务处理单元，用于基于SPARK算法训练分类模型的业务逻辑需求和所述前端交互请求接口，通过调用所述后端服务数据源系统，创建初始分类模型，并对所述初始模型进行训练和预测优化，获取目标分类模型；

其中，所述前端管理展示界面包括训练管理界面、优化管理界面和分类模型管理界面，所述前端交互请求接口包括：前端训练交互请求接口、前端优化交互请求接口和前端模型管理交互请求接口；

所述训练管理界面至少包括：分类模型算法选择界面、分类模型算法参数设置界面、训练数据源设置界面和数据预处理流程设置界面；所述优化管理界面至少包括：分类模型优化策略选择界面、分类模型优化标准设置界面和预测优化数据源设置界面；所述分类模型管理界面至少包括：分类模型版本管理界面和分类模型效果展现界面；

所述后端服务数据源系统包括训练数据源库、预测优化数据源库和模型系统元数据库，所述训练数据源库中存有训练样本数据，所述预测优化数据源库中存有预测优化样本数据；

所述后端服务控制接口单元包括后端训练管理控制接口、后端优化管理控制接口和后端模型管理控制接口，所述前端训练交互请求接口与所述后端训练管理控制接口间存在对应关系，所述前端优化交互请求接口与所述后端优化管理控制接口间存在对应关系，所述前端模型管理交互请求接口与所述后端模型管理控制接口间存在对应关系。

6.一种根据权利要求5所述分类模型训练系统的分类模型训练方法，其特征在于，包括：

通过所述前端交互请求接口和所述后端服务控制接口单元，获取所述前端管理展示界面输入的分类模型的构建设置数据、训练过程设置数据和优化过程设置数据；

基于所述分类模型的构建设置数据，通过所述后端服务业务处理单元内部调用所述SPARK算法的机器学习数据源，构建初始分类模型，并存入所述模型系统元数据库；

基于所述分类模型的训练过程设置数据，通过所述后端服务业务处理单元内部调用所述训练数据源，采用SPARK算法对所述初始分类模型进行训练，获取待优化分类模型；

基于所述分类模型的优化过程设置数据，通过所述后端服务业务处理单元内部调用所述预测优化数据源，采用SPARK算法对所述待优化分类模型进行预测优化，获取目标分类模型。