CN108573275B

CN108573275B - 一种在线分类微服务的构建方法

Info

Publication number: CN108573275B
Application number: CN201810188057.7A
Authority: CN
Inventors: 李红; 吕攀; 王成城; 钱广一; 杨国青; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2020-08-25
Anticipated expiration: 2038-03-07
Also published as: CN108573275A

Abstract

本发明公开了一种在线分类微服务的构建方法，相对于传统基于批处理的分类方法(如SMO等)由于每次分类都要对所有训练样本进行计算，具有耗时大和部署困难的问题，不利于模型的在线修改。本发明在线分类微服务构建方法，可以利用实时获取的训练样本对分类器进行更新，同时提高了对数据处理的效率，利用微服务的架构可以对降低部署模型的复杂度，加快模型的上线迭代。

Description

一种在线分类微服务的构建方法

技术领域

本发明属于智能信息处理技术领域，具体涉及一种在线分类微服务的构建方法。

背景技术

传统的批量处理分类方法如SMO(Search Media Optimization，搜索媒体优化)等支持向量机算法，由于分类数据过于庞大，每次分类都需要对所有数据重新进行处理，会因为计算复杂度过高而耗时太多，难以作为线上服务进行发布，因此需要对分类算法的处理步骤进行改进。

在线学习算法与离线学习算法相比，具有收敛速度快和计算内存消耗少的优点，但是分类精度往往不如离线学习算法，因此需要对训练样本进行取舍，通过KKT(KarushKuhn Tucker)条件的判定可以方便地选出对更新分类超平面有帮助的训练样本。同时在线学习面临的问题是部署和集成比较复杂，通常会面临算法模块需要使用Python实现，而业务模块需要使用Java实现，即多语言通信的问题，而微服务恰好可以解决多语言的问题，同时通过将不同模块拆分成服务，可以方便的找出服务间调的瓶颈所在，调整服务内部的设计。

发明内容

鉴于上述，本发明提供了一种在线分类微服务的构建方法，能够对外界收集到的样本数据集进行有选择性的学习。

一种在线分类微服务的构建方法，包括如下步骤：

(1)获取初始样本集，其中每个样本预设有正负标签，进而采用LSSVM(最小二乘支持向量机)分类器对样本集进行分类，得到最优分类超平面f₁，此时超平面f₁将样本集分成两类，这些样本组成了支持向量集SV₁；

(2)获取新的训练样本，通过KKT条件判断该训练样本能否被超平面f₁正确分类：若能，则舍去该训练样本；若不能，则将该训练样本加入到支持向量集SV₁中进行分类训练得到新的超平面f₂；

(3)反复执行步骤(2)，每一次超平面更新后均需要检查之前训练样本的KKT条件，所有不满足KKT条件的训练样本纳入集合T_k并加入到下一次的训练过程中；训练过程分离线训练和线上更新两个阶段，同时对样本数据进行存储。

进一步地，所述训练过程中的离线训练阶段包括对初始样本集进行离线训练，得到超平面f₁，进而将训练模型序列化后得到模型文件；线上更新阶段则在离线训练流程的基础上，搭建算法模型微服务，提供更新模型的POST接口，输入为新增加的训练样本，输出为超平面是否被更新的信息，通过输出结果决定是否对模型文件进行更新，此外线上更新还提供模型预测的POST接口，输入为样本向量，输出为预测的正负值。

进一步地，所述样本数据分为历史数据和实时数据两部分进行存储，历史数据包含了每次支持向量集和超平面更新后不满足KKT条件的训练样本所组成的集合T_k，实时数据则包含了每次传入的新训练样本。

进一步地，所述线上更新阶段采用Python Flask来搭建微服务，提供的是RESTful接口，方便与其他语言(如Java)后台进行通信，同时使用pickle序列化文件将模型持久化。

进一步地，所述步骤(3)中采用MongoDB对历史数据进行存储，由于历史数据量大，且对数据存取速度要求较高，MongoDB更适合作为数据存储部分的实现。

相对于传统基于批处理的分类方法(如SMO等)由于每次分类都要对所有训练样本进行计算，具有耗时大和部署困难的问题，不利于模型的在线修改。本发明在线分类微服务构建方法，可以利用实时获取的训练样本对分类器进行更新，同时提高了对数据处理的效率，利用微服务的架构可以对降低部署模型的复杂度，加快模型的上线迭代。

附图说明

图1为本发明在线分类微服务构建方法的流程示意图。

图2为本发明在线分类微服务的架构示意图。

图3为对全量训练集使用LSSVM和使用本发明在线分类算法的训练耗时对比示意图。

图4为对全量训练集使用LSSVM和使用本发明在线分类算法的分类准确率对比示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1和图2所示，本发明在线分类微服务的构建方法，包括如下步骤：

S1：获取初始样本集，包括样本预设的正负标签，使用LSSVM分类器进行分类。

S2：通过LSSVM算法对样本集进行离线分类，得到最优分类超平面f₁，此时超平面将样本集分成两类，这些样本组成了支持向量SV₁。

LSSVM分类器的判断函数为：

KKT条件是求解α_k的充分必要条件，所以对于线性分类问题而言，可以归结为求解如下的二次凸规划问题：

上式的最优解必须满足如下的KKT条件：

S3：使用Java开发微服务持续获取新的训练样本，并保存在实时的Mongo数据库表中，使用Python Flask来开发算法微服务，提供更新模型的接口和返回分类的接口。

S4：算法微服务使用KKT条件判断该样本能否被超平面f₁正确分类，若不能，跳转到步骤S5；若能，跳转到步骤S7。

S5：若不能，则将该训练样本加入到原来的支持向量集SV₁中，训练得到新的超平面f₂，并将更新后的支持向量保存在Mongo历史表中，方便之后更新。

S6：每一次超平面更新，都需要检查之前训练样本的KKT条件，所有不满足KKT条件的样本集合为T_k，加入到下一次的训练过程中。

S7：直接使用旧的分类超平面和支持向量作为下一次的超平面和支持向量。

S8：若有新的训练样本，则跳转S3，一直持续上述过程，每当第k+1个训练样本(x_k+1，y_k+1)违反了KKT条件，无法被f_k正确分类，就把SV_k和(x_k+1，y_k+1)作为新的训练样本集，寻找新的超平面f_k+1，并将新的训练样本集更新到Mongo历史表中；若没有，则结束上述过程。

上述训练过程分为离线训练和线上更新两个阶段：离线训练即对初始样本集进行离线训练，得到初始超平面f₁，将模型序列化后得到模型文件；线上更新即在离线训练流程的基础上，搭建算法模型微服务，提供更新模型的POST接口，输入参数是增加的新的训练样本，输出是超平面是否更新，通过输出结果决定是否对模型文件进行更新；同时提供模型预测的POST接口，输入是样本向量，输出是预测的正负值。

对于样本数据的存储，则分为历史数据和实时数据两部分，历史数据包含了之前的支持向量集和所有超平面更新后不满足KKT条件的向量集，实时数据包含了当前传入的新的训练样本。

以下我们将全量LSSVM和本发明在线训练算法在UCI MachineLearning上的SkinSegmentation Data Set进行了验证，实验设计如下。

将Skin Segmentation Data Set数据集分为6组，分别是：

1)200行训练集100行验证集

2)500行训练集200行验证集

3)1000行训练集500行验证集

4)2000行训练集1000行验证集

5)5000行训练集2000行验证集

6)10000行训练集5000行验证集

对照组对训练集使用LSSVM算法进行全量训练，而实验组对半数训练集先进行训练，然后对剩余的训练集使用增量方式进行训练，步骤如图1所示，比较两组的训练总耗时和最终验证的准确率。

由图3可见，对照组耗时始终大于实验组一个量级，同时可以看出实验组的耗时基本花在使用LSSVM算法进行初始训练上。

由图4可见，虽然实验组的算法速度更快，但是准确率还是不如全量LSSVM，但在大样本的情况下仍然表现良好，在10000行训练集的情况下也能达到93.28％的准确率。

因此由本实验可知，在合理调整初始训练集的大小后，本发明在线分类算法能够以较快的速度实现较好的分类效果，能够满足在线上进行在线分类的需求。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种在线分类微服务的构建方法，包括如下步骤：

(1)获取初始样本集，其中每个样本预设有正负标签，进而采用LSSVM分类器对样本集进行分类，得到最优分类超平面f₁，此时超平面f₁将样本集分成两类，这些样本组成了支持向量集SV₁；

(3)反复执行步骤(2)，每一次超平面更新后均需要检查之前训练样本的KKT条件，所有不满足KKT条件的训练样本纳入集合T_k并加入到下一次的训练过程中；训练过程分离线训练和线上更新两个阶段，同时对样本数据进行存储；

所述训练过程中的离线训练阶段包括对初始样本集进行离线训练，得到超平面f₁，进而将训练模型序列化后得到模型文件；线上更新阶段则在离线训练流程的基础上，搭建算法模型微服务，提供更新模型的POST接口，输入为新增加的训练样本，输出为超平面是否被更新的信息，通过输出结果决定是否对模型文件进行更新，此外线上更新还提供模型预测的POST接口，输入为样本向量，输出为预测的正负值；

所述样本数据分为历史数据和实时数据两部分进行存储，历史数据包含了每次支持向量集和超平面更新后不满足KKT条件的训练样本所组成的集合T_k，实时数据则包含了每次传入的新训练样本；

所述线上更新阶段采用Python Flask来搭建微服务，提供的是RESTful接口，方便与其他语言后台进行通信，同时使用pickle序列化文件将模型持久化。

2.根据权利要求1所述的构建方法，其特征在于：所述步骤(3)中采用MongoDB对历史数据进行存储。