CN113743425A

CN113743425A - 一种生成分类模型的方法和装置

Info

Publication number: CN113743425A
Application number: CN202010461491.5A
Authority: CN
Inventors: 周默
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-03

Abstract

本发明公开了一种生成分类模型的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取用于训练的第一数据集；根据所述第一数据集构建特征宽表；基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。该实施方式能够基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，提高了生成分类模型的效率。

Description

一种生成分类模型的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种生成分类模型的方法和装置。

背景技术

随着人工智能的兴起与发展，机器学习成为了研究的重点及热点，而二分类问题、多分类问题等分类问题则由于广泛的应用前景成为了机器学习中基础且重要的组成部分。

为解决分类问题，算法工程师常需要基于现有的算法框架花费大量精力编写训练分类模型的程序，且编写的训练分类模型的程序无法重复使用，大幅度降低了分类模型的生成效率。此外，算法工程师在编写训练分类模型的程序之前，还需要基于个人过往经验对分类算法进行选择以及数据集的划分，浪费了大量精力，且由于个人过往经验的局限性无法基于所选择的分类算法及划分后数据集获得较优的分类模型。

发明内容

有鉴于此，本发明实施例提供了一种生成分类模型的方法和装置，能够基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，并基于自动选择的分类算法生成分类模型，提高了生成分类模型的效率。

为实现上述目的，根据本发明实施例的一个方面，提供了一种生成分类模型的方法，包括：

获取用于训练的第一数据集；

根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息；

基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；

基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；

根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。

可选地，所述知识图谱由一个或多个节点及与所述节点相连的一条或多条边构成；其中，

所述节点指示了下述任意一种：目标场景、数据规模、分类问题、分类算法、分类算法对应的参数、数据集划分比例；

所述边指示了下述任意一种：首选、备选、不建议、配置、属于。

可选地，还包括：

在将所述特征宽表划分为训练集、测试集之前，对所述特征宽表中的特征值进行如下一种或多种预处理：相关性检验、One-Hot编码、特征值量纲统一化、特征值归一化。

可选地，还包括：

对预处理后的所述特征宽表中的特征值及对应的标签信息进行格式转换，以使转换后的所述特征值及所述标签信息的格式适用于所述分类算法。

可选地，所述根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型，包括：

加载预先封装有所述分类算法的Docker镜像以启动一个或多个Docker实例；

在所述分类算法支持分布式训练的情况下，将所述训练集、测试集输入所述分类算法对应的分布式计算集群以生成所述分类模型；

在所述分类算法不支持分布式训练的情况下，根据所述Docker实例的数量划分所述训练集、测试集，并基于划分后的所述训练集、测试集执行所述分类算法以生成一个或多个子分类模型，集成所述一个或多个子分类模型以生成分类模型。

可选地，还包括：

启动一个或多个与所述Docker镜像配置相同的Docker容器；

在每一个所述Docker容器中部署一个对应的代理程序，以使所述代理程序将Hadoop分布式文件系统中存储的所述分类模型加载至本地，并在接收到客户端发送的分类请求的情况下，调用所述分类模型以预测所述分类请求中指示的数据的分类结果。

可选地，还包括：

在接收到客户端发送的分类请求的情况下，通过Nginx将所述分类请求分发至一个或多个所述Docker容器对应的代理程序上；

或在接收到客户端发送的分类请求的情况下，通过Dubbo中间件及Hessian协议将所述分类请求分发至一个或多个所述Docker容器对应的代理程序上。

可选地，使用下述任意一种集成算法，集成所述一个或多个子分类模型以生成分类模型：bagging算法、boosting算法、stacking算法。

为实现上述目的，根据本发明实施例的另一个方面，提供了一种生成分类模型的装置，包括：数据集获取模块、特征宽表构建模块、特征宽表划分模块、分类算法确定模块、分类模型生成模块；其中，

所述数据集获取模块，用于获取用于训练的第一数据集；

所述特征宽表构建模块，用于根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息；

所述特征宽表划分模块，用于基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；

所述分类算法确定模块，用于基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；

所述分类模型生成模块，用于根据所述训练集、测试集，使用所述分类算法进行训练以生成所述分类模型。

可选地，所述特征宽表划分模块，还用于，

可选地，所述根据所述训练集、测试集，使用所述分类算法进行训练以生成所述分类模型，包括：

可选地，还包括：分类模型部署模块；其中，所述分类模型部署模块，用于，

启动一个或多个与所述Docker镜像配置相同的Docker容器；

可选地，还包括：分类请求分发模块；其中，所述分类请求分发模块，用于，

或在接收到客户端发送的分类请求的情况下，通过Dubbo中间件及Hessian协议将所述分类据请求负载均衡至一个或多个所述Docker容器对应的代理程序上。

可选地，所述分类模型生成模块，用于使用下述任意一种集成算法，集成所述一个或多个子分类模型以生成分类模型：bagging算法、boosting算法、stacking算法。

为实现上述目的，根据本发明实施例的再一个方面，提供了一种用于生成分类模型的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述生成分类模型的方法中任一所述的方法。

为实现上述目的，根据本发明实施例的又一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述生成分类模型的方法中任一所述的方法。

上述发明中具有如下优点或有益效果：基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，并采用所选择的分类算法对划分后的数据集进行训练以生成分类模型，提高了分类模型的生成效率；此外，在训练分类模型的过程中，通过使用分布式离线训练或bagging算法、stacking算法等集成学习算法进一步提高了分类模型的训练效率及训练效果；在此基础上，基于Docker容器技术实现了分类模型的快速线上部署，以在接收到客户端的分类请求时基于分类模型预测分类结果；更进一步地，通过Nginx或Dubbo中间件等实现了分类请求向多个含有代理程序的Docker容器上的分配，提高了分类模型的应用效率。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的生成分类模型的方法的主要流程的示意图；

图2是根据本发明实施例的知识图谱示意图；

图3是根据本发明实施例的另一生成分类模型的方法的主要流程的示意图；

图4是根据本发明实施例的分类模型训练方法的主要流程的示意图；

图5是根据本发明实施例的分类模型部署方法的主要流程的示意图；

图6是根据本发明实施例的生成分类模型的装置的主要模块的示意图；

图7是本发明实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的生成分类模型的方法的主要流程的示意图，如图1所示，该生成分类模型的方法具体可以包括的步骤如下：

步骤S101，获取用于训练的第一数据集。

第一数据集是指根据实际需求获取的任何可以用于进行机器学习的数据。如判断肿瘤是良性还是恶性、判断患者年龄、判断用户性别等。具体地，以判断用户是否会购买某个商品为例进行说明，这是一个典型的二分类问题，则对应的第一数据集指示了一个或多个用户的历史行为，以及用户是否购买过商品等，并以购买过商品的用户为正样本，未购买过商品的样品为负样本进行机器学习训练，以生成可以基于用户历史行为预测用户是否购买商品的分类模型。

步骤S102，根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息。

如下表1所示，该特征宽表中包括了M个样本，每一个样本均具有N个特征且每一个样本对应的N个特征取值的不同，对应的标签信息(Lable)亦不同。其中，标签为1的样本即为正样本，而标签为0的样本则为负样本。具体地，仍以基于用户历史行为判断用户是否购买过商品为例进行说明，则每一个样本对一个的特征包括但不限于：用户点击的商品、用户浏览的商品、用户加入购物车的商品、用户收藏的商品、用户近一个月的购买次数等。

表1特征宽表示例

特征1	特征2	特征3	……	特征N	标签
						data11	data12	data13	……	data1N	1
data21	data22	data23	……	data2N	0
						data31	data32	data33	……	data3N	0
……	……	……	……	……	……
						dataM1	dataM2	dataM3		dataMn	1

在此基础上，为避免特征宽表中的特征数据存在多重共线性、量纲不统一等问题导致在后续训练分类模型出现无法收敛或特征权值不均衡等问题，进而影响生成的分类模型的质量，在将所述特征宽表划分为训练集、测试集之前，对所述特征宽表中的特征值进行如下一种或多种预处理：相关性检验、One-Hot编码、特征值量纲统一化、特征值归一化。其中，相关性检验是指确定不同特征之间是否相关以及相关的程度，如通过绘制相关性矩阵热度图判断不同特征之间的相关度，以判断是否需要删除部分特征。One-Hot编码又称一位有效编码，其方法是使用n位状态寄存器来对n个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候其中只有一位有效；如此，通过对城市名称、学校名称等离散特征进行One-Hot编码后，编码后的特征具有连续性。特征值归一化则是指将特征值映射到0-1范围内。特征值量纲统一化则是指采用相同的量纲以为消除量纲对取值的影响，如180cm、1.8m均统一为1.8m或180cm。

此外，由于不同的分类算法或者算法框架适用的数据格式是不相同的，因而在对特征宽表进行预处理后，还需将特征宽表中的特征值及对应的标签信息进行格式转换，以使转换后的所述特征值及所述标签信息的格式适用于所述分类算法。如以Pythson常用框架NumPy框架为例，则可将特征值及对应的标签信息的格式转换为DataFrame格式即一种表格型的数据结构。

步骤S103，基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集。具体地，以基于知识谱图获取的训练集：测试集＝1:1为例进行说明，则需要将如表1所示的特征宽表中的样本平均分为两部分，一部分用作训练集，另一部分用作测试集。

所述知识图谱由一个或多个节点及与所述节点相连的一条或多条边构成；其中，所述节点指示了下述任意一种：目标场景、数据规模、分类问题、分类算法、分类算法对应的参数、数据集划分比例；所述边指示了下述任意一种：首选、备选、不建议、配置、属于。可以理解的是，知识图谱是根据过往经验而建立的，可以根据实际需求建立不同的知识图谱，如根据目标场景的不同分别建立不通的知识图谱，如预测用户年龄的知识图谱、预测用户性别的知识图谱等。因而在根据知识谱图确定特征宽表的划分比例之前，需要根据目标场景确定对应的预先构建的知识图谱，然后基于知识图谱确定划分比例以采用随机划分、排序划分等策略，生成满足需求的训练集、测试集。在数据集规模不足的情况下还采用交叉组合的方式划分各数据集。值得注意的是，除却将特征宽表划分为训练集、测试集以外，还可以根据实际需求将特征宽表划分为训练集、测试集、验证集。

如图2所示的知识图谱，该知识图谱适用的目标场景为预测用户是否购买某个商品，涉及的分类问题为二分类问题，数据规模为千万级别，可采用的分类算法包括GBDT(GradientBoostingDecisionTree)算法、RandomForest算法、XGBoost(eXtreme GradientBoosting)算法等，且RandomForest算法或XGBoost算法对应的训练集与测试集的比例为1:1。其中，不同的分类算法对应的通用参数不同，如GBDT算法对应通用参数为树深度且优选取值为3，而XGBoost算法的通用参数则为迭代次数且优选取值为10000。可以理解的是，分类算法的通用参数是指为使用分类算法进行分类模型训练之前确定的树深度、迭代次数等参数，而非在使用分类算法进行分类模型训练之后才能确定的学习目标参数，如损失函数、softmax交叉熵等。

步骤S104，基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数。

仍参见图2，则优选的分类算法为XGBoost算法，且XGBoost算法对应的通用参数迭代次数的优选取值为10000。基于此，则可以采用XGBoost算法对划分后的训练集进行训练，并采用测试集进行优化以生成分类模型。此外，在基于知识图谱确定的通用参数的基础上，还可以提供手动修正模式对知识图谱给出的通用参数进行调整。如此，可以在提高分类模型生成的基础上，兼顾个性化需求，提高生成的分类模型的适用范围。

步骤S105，根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。

具体地，所述根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型，包括：加载预先封装有所述分类算法的Docker镜像以启动一个或多个Docker实例；在所述分类算法支持分布式训练的情况下，将所述训练集、测试集输入所述分类算法对应的分布式计算集群以生成所述分类模型；在所述分类算法不支持分布式训练的情况下，根据所述Docker实例的数量划分所述训练集、测试集，并基于划分后的所述训练集、测试集执行所述分类算法以生成一个或多个子分类模型，集成所述一个或多个子分类模型以生成分类模型。如此，可以通过分布式训练或集成算法的方式，提高分类模型的质量及生成效率。所谓Docker则是指一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。

更进一步地，可使用下述任意一种集成算法，集成所述一个或多个子分类模型以生成分类模型：bagging算法、boosting算法、stacking算法。可以理解的是，在使用bagging算法、boosting算法、stacking算法等集成算法进行分类模型训练时，可以根据实际需求选用下述任一种方式生成分类模型：(1)将训练集、测试集划分为多个不同的训练子集、测试子集，使用同一分类算法对不同的训练子集进行训练并采用对应的测试子集进行验证以生成多个子分类模型，集成子分类模型以生成分类模型；(2)使用不同的分类算法对相同的训练集进行训练并采用测试集进行验证的方式生成多个子分类模型，集成不同分类算对应的子分类模型以生成分类模型。在生成分类模型以后，将分类模型存储至Hadoop分布式文件系统(HDFS)，以便于从Hadoop分布式文件系统中加载分类模型并进行线上部署。

在此基础上，在生成分类模型之后，还包括：启动一个或多个与所述Docker镜像配置相同的Docker容器；在每一个所述Docker容器中部署一个对应的代理程序，以使所述代理程序将Hadoop分布式文件系统中存储的所述分类模型加载至本地，并在接收到客户端发送的分类请求的情况下，调用所述分类模型以预测所述分类请求中指示的数据的分类结果。可以理解的是，Docker容器中的代理程序在接收到客户端的分类请求时，可以将分类请求中指示的数据进行格式转换，以使数据格式适用于分类模型，并将转换后的数据输入至分类模型中以预测分类结果，从而实现了分类模型的线上部署，并向客户端提供分类预测服务。

可以理解的是，随着客户端发送的分类请求的增加，当分类请求数量过大或存在分类模型高并发调用时，直接将分类请求发送至Docker容器对应的代理程序上可能会造成Docker容器资源浪费或崩溃，因此，在接收到分类请求时，需要将分类请求负载均衡至一个或多个Docker容器对应的代理程序上，以提升对分类请求的处理效率。

在一种可选的实施方式中，还包括：在接收到客户端发送的分类请求的情况下，通过Nginx将所述分类请求分发至一个或多个所述Docker容器对应的代理程序上；或在接收到客户端发送的分类请求的情况下，通过Dubbo中间件及Hessian协议将所述分类请求分发至一个或多个所述Docker容器对应的代理程序上。其中，Nginx是指一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。Hessian是由caucho提供的一个基于binary-RPC实现的远程通讯library，支持Java、Flash、Flex、python、c++、Ruby、ObjectC等多种语言，可用于实现跨语言通信及交互。Dubbo中间件则是一种现代的分布式服务框架，使用Java的Interface作为服务契约，通过注册中心来完成服务的注册和发现，远程通讯的细节也是通过代理类来屏蔽。

具体地，在通过基于HTTP协议提供分类模型调用服务的情况下，在接收到客户端发送的分类请求时，可基于Nginx的反向代理功能，采用Round-Robin的方式将分类请求依次轮询到一个或多个Docker容器的代理程序上，以使代理服务调用分类模型并返回分类请求指示的数据的分类结果。如此，通过轮询的方式实现了对分类请求的负载均衡。

在基于Socket提供分类模型调用服务的情况下，为处于Python环境中的分类模型的执行程序封装一层基于Hessian协议的Server程序，以使该Server程序可以直接调用分类模型进行分类预测；同时，基于Dubbo中间件为处于Java环境中的代理程序中，创建一个Client程序，以使该Client程序可以通过Hessian协议调用Server程序并获取返回分类模型预测的分类结果，为Client程序启动一个Provider程序，并注册到服务中心Registry中，供外部的一个或多个客户端调用注册到服务中心中的一个或多个Provider程序。如此，在接收到客户端发送的分类请求的情况下，通过客户端对注册到服务中心的一个或多个Provider程序的选择性调用，以及通过Hessian协议实现的Client程序对Server程序的选择性调用，实现了将分类请求分发至一个或多个Docker容器对应的代理程序上。

值得注意的是，在分发分类请求的过程中，还通过使用Hessian协议实现了Java语言编写的代理程序对Python构建的分类模型的调用，在支持跨语言交互的同时保证了良好的通信性能。

基于上述实施例，基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，并采用所选择的分类算法对划分后的数据集进行训练以生成分类模型，提高了分类模型的生成效率；此外，在训练分类模型的过程中，通过使用分布式离线训练或bagging算法、stacking算法等集成学习算法进一步提高了分类模型的训练效率及训练效果；在此基础上，基于Docker容器技术实现了分类模型的快速线上部署，以在接收到客户端的分类请求时基于分类模型预测分类结果；更进一步地，通过Nginx或Dubbo中间件等实现了分类请求向多个含有代理程序的Docker容器上的分配，提高了分类模型的应用效率。

参见图3，在上述实施例的基础上，本发明实施例提供了另一种更生成分类模型的方法，该方法具体可以包括的步骤如下：

步骤S301，获取用于训练的第一数据集。

步骤S302，根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息。

步骤S303，对所述特征宽表中的特征值进行预处理。预处理包括下述一种或多种：相关性检验、One-Hot编码、特征值量纲统一化、特征值归一化。

步骤S304，对预处理后的所述特征宽表中的特征值及对应的标签信息进行格式转换，以使转换后的所述特征值及所述标签信息的格式适用于所述分类算法。

步骤S305，基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集。也即是说，根据划分比例将经过预处理以及格式转换的特征宽表中划分为训练集、测试集。

步骤S306，基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数。

步骤S307，根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。

参见图4，在上述实施例的基础上，本发明实施例提供了一种分类模型的训练方法，该方法具体可以包括的步骤如下：

步骤S401，加载预先封装有所述分类算法的Docker镜像以启动一个或多个Docker实例。

步骤S402，判断所述分类算法是否支持分布式训练；若分类算法支持分布式训练则继续执行下述步骤S403，若分类算法不支持分布式训练则继续执行下述步骤S404。

步骤S403，将所述训练集、测试集输入所述分类算法对应的分布式计算集群以生成所述分类模型。

步骤S404，根据所述Docker实例的数量划分所述训练集、测试集。具体地，以Docker实例的数量为10为例进行说明，则将训练集、测试集对应地划分为10个训练子集以及与训练子集对应的10个测试子集(参见表2)。

表2划分后的训练子集、测试子集示例

训练子集1	测试子集1
		训练子集2	测试子集2
训练子集3	测试子集3
		训练子集4	测试子集4
训练子集5	测试子集5
		训练子集6	测试子集6
训练子集7	测试子集7
		训练子集8	测试子集8
训练子集9	测试子集9
		训练子集10	测试子集10

步骤S405，基于划分后的所述训练集、测试集执行所述分类算法以生成一个或多个子分类模型。仍参见表2，在训练生成子分类模型的过程中，一个Docker实例基于其中的训练子集1、测试子集1执行分类算法生成一个子分类模型，一个Docker实例其中的训练子集2、测试子集2执行分类算法生成一个子分类模型，以此类推，10个Docker实例可以生成10个子分类模型，然后采用集成算法将10个子分类模型集成为一个分类模型。

步骤S406，集成所述一个或多个子分类模型以生成分类模型。

参见图5，在上述实施例的基础上，本发明实施例提供了一种分类模型的部署方法，该方法具体可以包括的步骤如下：

步骤S501，启动一个或多个与所述Docker镜像配置相同的Docker容器。

步骤S502，在每一个所述Docker容器中部署一个对应的代理程序，以使所述代理程序将Hadoop分布式文件系统中存储的所述分类模型加载至本地。

步骤S503，在接收到客户端发送的分类请求的情况下，通过Nginx或Dubbo中间件及Hessian协议将所述分类请求分发至一个或多个所述Docker容器对应的代理程序上，以调用所述分类模型预测所述分类请求中指示的数据的分类结果。

参见图6，在上述实施例的基础上，本发明实施例提供了一种生成分类模型的装置，包括：数据集获取模块601、特征宽表构建模块602、特征宽表划分模块603、分类算法确定模块604、分类模型生成模块605；其中，

所述数据集获取模块601，用于获取用于训练的第一数据集；

所述特征宽表构建模块602，用于根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息；

所述特征宽表划分模块603，用于基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；

所述分类算法确定模块604，用于基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；

所述分类模型生成模块605，用于根据所述训练集、测试集，使用所述分类算法进行训练以生成所述分类模型。

在一种可选的实施方式中，所述知识图谱由一个或多个节点及与所述节点相连的一条或多条边构成；其中，

在一种可选的实施方式中，所述特征宽表划分模块603，还用于，

在一种可选的实施方式中，所述根据所述训练集、测试集，使用所述分类算法进行训练以生成所述分类模型，包括：

在一种可选的实施方式中，还包括：分类模型部署模块606；其中，所述分类模型部署模块606，用于，

启动一个或多个与所述Docker镜像配置相同的Docker容器；

在一种可选的实施方式中，还包括：分类请求分发模块607；其中，所述分类请求分发模块607，用于，

在一种可选的实施方式中，所述分类模型生成模块605，用于使用下述任意一种集成算法，集成所述一个或多个子分类模型以生成分类模型：bagging算法、boosting算法、stacking算法。

图7示出了可以应用本发明实施例的生成分类模型的方法或生成分类模型的装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器705交互，以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的生成分类模型的方法一般由服务器705执行，相应地，生成分类模型的装置一般设置于服务器705中。

应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块可以设置在处理器中，例如，可以描述为：一种处理器包括数据集获取模块、特征宽表构建模块、特征宽表划分模块、分类算法确定模块、分类模型生成模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据集获取模块还可以被描述为“用于获取用于训练的第一数据集的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取用于训练的第一数据集；根据所述第一数据集构建特征宽表，所述特征宽表指示了一个或多个样本对应的一个或多个特征值以及标签信息；基于预先构建的知识图谱，根据当前目标场景、所述特征宽表的数据规模，确定所述特征宽表对应的划分比例，以将所述特征宽表划分为训练集、测试集；基于所述知识图谱，根据所述当前目标场景、当前分类问题，确定分类算法，以及所述分类算法对应的一个或多个通用参数；根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型。

根据本发明实施例的技术方案，基于知识图谱自动进行数据集的划分以及分类算法、分类算法通用参数的选择，并采用所选择的分类算法对划分后的数据集进行训练以生成分类模型，提高了分类模型的生成效率；此外，在训练分类模型的过程中，通过使用分布式离线训练或bagging算法、stacking算法等集成学习算法进一步提高了分类模型的训练效率及训练效果；在此基础上，基于Docker容器技术实现了分类模型的快速线上部署，以在接收到客户端的分类请求时基于分类模型预测分类结果；更进一步地，通过Nginx或Dubbo中间件等实现了分类请求向多个含有代理程序的Docker容器上的分配，提高了分类模型的应用效率。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种生成分类模型的方法，其特征在于，包括：

获取用于训练的第一数据集；

2.根据权利要求1所述的生成分类模型的方法，其特征在于，

所述知识图谱由一个或多个节点及与所述节点相连的一条或多条边构成；其中，

3.根据权利要求1所述的生成分类模型的方法，其特征在于，还包括：

4.根据权利要求3所述的生成分类模型的方法，其特征在于，还包括：

5.根据权利要求2所述的生成分类模型的方法，其特征在于，所述根据所述训练集、测试集，使用所述分类算法进行训练以生成分类模型，包括：

6.根据权利要求5所述的生成分类模型的方法，其特征在于，还包括：

启动一个或多个与所述Docker镜像配置相同的Docker容器；

7.根据权利要求6所述的生成分类模型的方法，其特征在于，还包括：

8.根据权利要求5所述的生成分类模型的方法，其特征在于，

使用下述任意一种集成算法，集成所述一个或多个子分类模型以生成分类模型：bagging算法、boosting算法、stacking算法。

9.一种生成分类模型的装置，其特征在于，包括：数据集获取模块、特征宽表构建模块、特征宽表划分模块、分类算法确定模块、分类模型生成模块；其中，

所述数据集获取模块，用于获取用于训练的第一数据集；

10.一种用于生成分类模型的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。