CN112561000A

CN112561000A - 基于组合模型的分类方法、装置、设备及存储介质

Info

Publication number: CN112561000A
Application number: CN202110196084.0A
Authority: CN
Inventors: 钟子宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-03-26
Anticipated expiration: 2041-02-22
Also published as: CN112561000B

Abstract

本申请提供一种基于组合模型的分类方法、装置、设备及存储介质，可应用于社交、游戏、多媒体、车联、驾驶、购物等分类领域。包括获取m组训练样本和n组预测数据；通过m组训练样本对m个模型进行训练，得到m个目标模型；根据目标模型、目标模型对应的第一训练样本组和第一训练样本组的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签；根据各个训练样本的第一分类标签和各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差；根据m个目标模型和m个目标模型各自对应的分类标签方差得到组合模型；根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到每个预测数据的分类标签，以提高分类方法的精确度。

Description

基于组合模型的分类方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能（Artificial Intelligence, AI）技术领域，尤其涉及一种基于组合模型的分类方法、装置、设备及存储介质。

背景技术

目前许多场景都涉及到了分类方法，例如：在向用户推荐多种商品的场景中就涉及到分类方法，即通过分类方法确定用户对每种商品是否感兴趣，如果确定用户对某商品感兴趣，则向该用户推荐该商品，否则，则不向用户推荐该商品。

上述分类方法是基于统一模型进行的，例如：针对多个商品，采用统一模型，以确定用户对每个商品是否感兴趣。而这种统一模型是通过各个商品对应的训练样本训练得到的，该训练样本包括：用户特征、商品特征和分类标签。然而，由于每种商品的特性不同，因此通过统一模型得到的分类结果可能会将用户需要而得分较低的商品剔除掉，从而产生了较大的误分类情况。

发明内容

本申请提供一种基于组合模型的分类方法、装置、设备及存储介质，从而可以提高分类方法的精确度。

第一方面，本申请提供一种基于组合模型的分类方法，包括：获取m组训练样本和n组预测数据，m和n均为正整数；分别通过m组训练样本对m个模型进行训练，以得到m个目标模型；针对m个目标模型中的任一个目标模型，根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签；并根据各个训练样本的第一分类标签和第一训练样本组中各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差；根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型；根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签。

第二方面，本申请提供一种基于组合模型的分类装置，包括：第一获取模块、训练模块、第一处理模块、第二处理模块和第三处理模块，其中，第一获取模块用于获取m组训练样本和n组预测数据，m和n均为正整数；训练模块用于分别通过m组训练样本对m个模型进行训练，以得到m个目标模型；第一处理模块用于针对m个目标模型中的任一个目标模型，根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签；并根据各个训练样本的第一分类标签和第一训练样本组中各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差；第二处理模块用于根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型；第三处理模块用于根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签。

第三方面，提供了一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面的方法。

在本申请中，电子设备可以对m个模型进行分组独立训练，并根据m个训练后的目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。最后，根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签，从而可以提高分类方法的精度，例如在向用户推荐多种商品的场景下，这种分组训练模型，并对模型进行组合，基于组合模型的分类方法可以避免剔除掉用户需要而得分较低的商品，从而提高了分类方法的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于组合模型的分类方法的流程图；

图2为本申请实施例提供的另一种基于组合模型的分类方法的流程图；

图3为本申请实施例提供的向用户推荐多种商品的场景下的分类过程的示意图；

图4为本申请实施例提供的一种基于组合模型的分类装置的示意图；

图5是本申请实施例提供的电子设备500的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

如上所述，现有的分类方法是基于统一模型进行的，例如：针对多个商品，采用统一模型，以确定用户对每个商品是否感兴趣。而这种统一模型是通过各个商品对应的训练样本训练得到的。然而，由于每种商品的特性不同，因此通过统一模型得到的分类结果可能会将用户需要而得分较低的商品剔除掉，从而产生了较大的误分类情况。

为了解决上述技术问题，在本申请中，针对每个模型进行分组独立训练，并将训练后的目标模型进行组合，得到组合模型，最后，在预测阶段，使用该组合模型，以得到预测数据的分类标签。

示例性的，本申请的应用场景可以是以下任一种，但不限于此：向用户推荐多种商品的场景、预流失场景、流失挽回场景、CTR预估、用户兴趣预测、车道堵塞预测等。

向用户推荐多种商品的场景（即用户兴趣预测场景）：即通过分类方法确定用户对每种商品是否感兴趣，如果确定用户对某商品感兴趣，则向该用户推荐该商品，否则，则不向用户推荐该商品。

预流失场景：T-1期用户在电商内活跃，T期该用户不活跃，则称该用户为流失用户，记为1；否则记为0。预测用户的流失概率的场景，称为预流失场景。

流失挽回场景：T-2期用户在电商内活跃，T-1期该用户不活跃，T期该用户在电商内活跃，则称为回流用户，记为1；否则记为0。预测用户的回流概率的场景，称为流失挽回场景。

点击率（Click Through Rate，CTR）预估场景：用户点击商品，记为1，不点击记为0，预测用户的点击概率的场景记为CTR预估场景。

车道堵塞预测场景：每一段路如果行车速度小于预设速度，则称为堵塞，记为1；否则记为0；对路段堵塞概率的预测称为车道堵塞预测场景。

下面针对本申请技术方案进行详细阐述：

实施例1

图1为本申请实施例提供的一种基于组合模型的分类方法的流程图，该方法的执行主体可以是台式电脑、笔记本、手机、车载终端等智能电子设备，也可以是电子设备中的处理器，本申请对此不做限制，如图1所示，该方法包括如下步骤：

S110：获取m组训练样本和n组预测数据，m和n均为正整数。

S120：分别通过m组训练样本对m个模型进行训练，以得到m个目标模型。

S130：针对m个目标模型中的任一个目标模型，根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签。并根据各个训练样本的第一分类标签和第一训练样本组中各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差。

S140：根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。

S150：根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签。

可选的，m组训练样本可以是T-1时期的样本，n组预测数据可以是T时期的样本。

可选的，在向用户推荐多种商品的场景下，任一个训练样本包括：用户特征、商品特征和分类标签。而预测数据包括：用户特征和商品特征。

可选的，用户特征包括以下至少一项，但不限于此：性别、年龄、地域等基础属性数据；点击、评论、收藏、加购、退订、付费、领券、退订、退货、分享等活跃属性数据；消费金额、充值次数、充值天数、首次充值距离当前时间天数间隔等充值属性数据；用户领取优惠券类型（数量、次数、价值）、使用优惠券类型（数量、价值）、过期优惠券类型（数量、价值）等优惠券属性。

可选的，商品特征包括以下至少一项，但不限于此：商品颜色、品牌、尺码、类别、材质、风格、成分含量、材质成分组成等属性、单价、CTR、优惠幅度等。

可选的，分类标签取值可以为1或者0，其中，在不同的应用场景下，这两种取值有其具有的表达意义，例如，在向用户推荐多种商品的场景下，1表示用户对某商品感兴趣，0表示用户对某商品不感兴趣。或者，1表示用户对某商品进行了点击且收藏，或者，表示用户对某商品点击且加入购物车。0表示用户对某商品进行了点击但未收藏，或者，表示用户对某商品点击但未加入购物车。

可选的，在电子设备获取到m组训练样本{Train₁, Train₂,…, Train_m }之后，可以将m组训练样本存放至m个集群中。

应理解，m组训练样本与m个模型一一对应，例如：在向用户推荐多种商品的场景下，任一训练样本组对应一种商品，且该商品对应一个模型。

可选的，在通过任一训练样本组对对应的模型进行训练时，可以对该训练样本组进行样本均衡、特征去相关处理等样本数据处理。

可选的，电子设备可以使用逻辑回归模型（Logistic Regression，LR）进行模型训练，通过梯度下降法得到训练后的目标模型。

应理解的是，在本申请中，模型也可以被理解为模型的权重向量。例如：第i个模型可以用W_i表示。其中，权重向量指的是由模型的参数构成的向量。

可选的，如上所述，对于任一训练样本，其包括分类标签，那么针对m个模型中的任一个模型，将该模型对应的第一训练样本组中各个训练样本自身包括的分类标签称为各个训练样本的第二分类标签。

可选的，针对任一个模型，电子设备可以将该模型、该模型对应的第一训练样本组输入至LR模型中，以得到第一训练样本组中各个训练样本的得分概率。

应理解的是，本申请不限于采用LR模型来确定各个训练样本的得分概率。

应理解，电子设备可以通过如下可选方式确定训练样本的第一分类标签，但不限于此：

一种可选方式，针对第一训练样本组中的任一训练样本，若该训练样本的得分概率大于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为1。若训练样本的得分概率小于或等于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为0。例如：在向用户推荐多种商品的场景下，1表示用户对某商品感兴趣，0表示用户对某商品不感兴趣。

另一种可选方式，针对第一训练样本组中的任一训练样本，若该训练样本的得分概率小于或等于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为1。若训练样本的得分概率大于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为0。例如：在向用户推荐多种商品的场景下，0表示用户对某商品感兴趣，1表示用户对某商品不感兴趣。

进一步地，在得到第一训练样本组中各个训练样本包括的第一分类标签和第二分类标签之后，电子设备可以采用方差计算公式计算该模型对应的分类标签方差。假设将第i个模型对应的分类标签方差记为s_i，基于此，电子设备可以获取到m个训练后的目标模型和它们分别对应的分类标签方差，记为：

。

可选的，电子设备对m个目标模型各自对应的分类标签方差按照由小到大的顺序进行重排；对m个目标模型按照由大到小的顺序进行重排；对重排后的m个目标模型各自对应的分类标签方差和重排后的m个目标模型依次相乘并相加，以得到第一求和结果；对m个目标模型各自对应的分类标签方差求和，以得到第二求和结果；对第一求和结果和第二求和结果作商，以得到组合模型。具体可以通过如下公式确定组合模型：

其中，

表示组合模型，

表示m个目标模型中第i个模型对应的分类标签方差，

是对

由小到大重排之后的分类标签方差，

是

对应的目标模型。

应理解的是，从上面的公式可以看出，分类标签方差最小的目标模型

与其相乘的是最大的分类标签方差

，以此类推，分类标签方差最大的目标模型

与其相乘的是最小的分类标签方差

，而分类标签方差越小，则表示该模型的准确度越高，相反，分类标签方差越大，则表示该模型的准确度越低。从而得到组合模型的准确度最佳。

可选的，在得到组合模型之后，针对n组预测数据中的任一个预测数据组，电子设备可以将该预测数据组和组合模型输入LR模型中，以得到预测数据组中各个预测数据的得分概率。

应理解，电子设备可以通过如下可选方式确定预测数据的分类标签，但不限于此：

一种可选方式，若该预测数据的得分概率大于预测数据组对应的分类阈值，则确定预测数据的分类标签为1。若该预测数据的得分概率小于或等于预测数据组对应的分类阈值，则确定该预测数据的分类标签为0。例如：在向用户推荐多种商品的场景下，1表示用户对某商品感兴趣，0表示用户对某商品不感兴趣。

另一种可选方式，若该预测数据的得分概率小于或等于预测数据组对应的分类阈值，则确定预测数据的分类标签为1。若预测数据的得分概率大于预测数据组对应的分类阈值，则确定预测数据的分类标签为0。例如：在向用户推荐多种商品的场景下，0表示用户对某商品感兴趣，1表示用户对某商品不感兴趣。

进一步地，在向用户推荐多种商品的场景下，电子设备在得到n组预测数据中每个预测数据的分类标签之后，可以向对应用户推荐分类标签为1的商品。

综上，在本申请中，电子设备可以对m个模型进行分组独立训练，并根据m个训练后的目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。最后，根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签，从而可以提高分类方法的精度，例如在向用户推荐多种商品的场景下，这种分组训练模型，并对模型进行组合，基于组合模型的分类方法可以避免剔除掉用户需要而得分较低的商品，从而提高了分类方法的准确度。

进一步地，本申请采用的组合模型是最小损失组合模型，从而可以减少模型组合带来的信息损失。

实施例2

可选的，在本申请中，分类阈值可以是固定的，也可以是动态计算得到的，本申请对此不做限制。

下面将重点阐述动态计算分类阈值的方法。应理解的是，下面主要针对模型训练过程中涉及的动态计算分类阈值的方法进行示例性说明，而模型测试过程和预测过程中涉及的动态计算分类阈值的方法可以参考训练过程中的动态计算分类阈值的方法，本申请对此不再赘述。

可选的，上述第一训练样本组对应的分类阈值可以通过如下公式确定：

其中，

表示第一训练样本组对应的分类阈值，

表示第一训练样本组中训练样本的数量、

表示该第训练样本组对应的模型，假设为第i个模型、

表示第一训练样本组的均值向量。

应理解的是，上述第一训练样本组对应的分类阈值不限于通过上述公式计算得到，也可以对上面公式进行变形，并通过变形后的公式计算分类阈值。

综上，在本申请中，可以采用复合二项分布动态计算分类阈值，以自动计算每组样本对应的分类阈值，从而也可以进一步提高分类方法的准确度。

实施例3

可选的，电子设备在对m个模型训练完成之后，还可以通过m组测试样本分别对m个训练后的目标模型进行测试。基于此，当对m个目标模型测试成功时，电子设备才根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。而当对m个目标模型中任一个模型测试失败时，电子设备会重新获取测试失败的模型对应的训练样本组，以继续对该模型进行训练，并重新获取该模型对应的测试样本组，继续对该模型进行测试，直到所有模型测试成功。

可选的，电子设备获取到组合模型之后，也可以对该组合模型进行测试，当对组合模型测试成功时，才执行预测过程。而当该组合模型测试失败时，电子设备会重新获取m组训练样本和n组测试样本，以执行模型的训练过程和测试过程，直到得到的组合模型测试成功。

下面将对m个模型的测试过程和对组合模型的测试过程结合至上述分类方法中，以对该分类方法进行说明：

图2为本申请实施例提供的另一种基于组合模型的分类方法的流程图，该方法的执行主体可以是台式电脑、笔记本、手机、车载终端等智能电子设备，也可以是电子设备中的处理器，本申请对此不做限制，如图2所示，该方法包括如下步骤：

S210：获取m组训练样本和n组预测数据，m和n均为正整数。

S220：分别通过m组训练样本对m个模型进行训练，以得到m个目标模型。

S230：针对m个目标模型中的任一个目标模型，根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签。并根据各个训练样本的第一分类标签和第一训练样本组中各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差。

S240：获取m组测试样本。

S250：分别通过m组测试样本对m个目标模型进行测试。

S260：当对m个目标模型测试成功时，根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。

S270：从m组测试样本中获取预设比例的第二测试样本组。

S280：通过第二测试样本组测试组合模型。

S290：当对组合模型测试成功时，根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签。

应理解的是，S210至S230、S260、S290可参考实施例1的解释说明，本申请对此不再赘述。

针对S240和S250进行如下说明：

应理解的是，在本申请中，S240可以与S210同时执行，也可以先执行S210，再执行S240，或者，先执行S240，再执行S210，总之，本申请对S210和S240的执行顺序不做限制。

下面以同时执行S210和S240进行示例性说明：

可选的，电子设备可以先获取多个样本数据，将样本数据划分为m组，并对每组样本数据按照一定比例随机划分为训练样本和测试样本，例如：训练样本：测试样本=8:2，即按8:2的比例随机切分训练样本和测试样本。得到m组训练样本和测试样本{(Train₁,Test₁), (Train₂,Test₂),…, (Train_m,Test_m)}。

可选的，在电子设备获取到m组测试样本后，可以针对m个目标模型中的任一目标模型，将该目标模型对应的第一测试样本组和该模型输入LR模型中，以得到第一测试样本组中各个测试样本的得分概率。

应理解的是，本申请不限于采用LR模型来确定各个测试样本的得分概率。

应理解，电子设备可以通过如下可选方式确定得到第一测试样本组中各个测试样本的分类标签，但不限于此：

一种可选方式，若该测试样本的得分概率大于第一测试样本组对应的分类阈值，则确定该测试样本的分类标签为1。若该测试样本的得分概率小于或等于第一测试样本组对应的分类阈值，则确定该测试样本的分类标签为0。例如：在向用户推荐多种商品的场景下，1表示用户对某商品感兴趣，0表示用户对某商品不感兴趣。

另一种可选方式，若该测试样本的得分概率小于或等于第一测试样本组对应的分类阈值，则确定测试样本的分类标签为1。若测试样本的得分概率大于第一测试样本组对应的分类阈值，则确定测试样本的分类标签为0。例如：在向用户推荐多种商品的场景下，0表示用户对某商品感兴趣，1表示用户对某商品不感兴趣。

可选的，在电子设备获取到第一测试样本组中各个测试样本的分类标签之后，可以确定该模型关于测评指标的测试结果。

可选的，测试指标为以下至少一项，但不限于此：查全率、查准率和ROC曲线下与坐标轴围成的面积（Area Under Curve，AUC）。

需要说明的是，在S260中，所谓“对m个目标模型测试成功”指的是m个目标模型关于测评指标达标，例如：测试指标是查全率，那么所谓“对m个目标模型测试成功”指的是m个目标模型关于查全率全部达标，例如都大于预设查全率。

应理解的是，电子设备可以并行上述m个目标模型进行测试，当然，也可以不并行进行测试，本申请对此不做限制。

针对S270和S280进行如下说明：

可选的，S270中的预设比例可以是80%、60%或者50%，本申请对此不做限制。

可选的，电子设备可以将第二测试样本组和组合模型输入LR模型中，以得到第二测试样本组中各个测试样本的得分概率。

应理解，电子设备可以通过如下可选方式确定得到第二测试样本组中各个测试样本的分类标签，但不限于此：

一种可选方式，若该测试样本的得分概率大于第二测试样本组对应的分类阈值，则确定该测试样本的分类标签为1。若该测试样本的得分概率小于或等于第二测试样本组对应的分类阈值，则确定该测试样本的分类标签为0。例如：在向用户推荐多种商品的场景下，1表示用户对某商品感兴趣，0表示用户对某商品不感兴趣。

另一种可选方式，若该测试样本的得分概率小于或等于第二测试样本组对应的分类阈值，则确定测试样本的分类标签为1。若测试样本的得分概率大于第二测试样本组对应的分类阈值，则确定测试样本的分类标签为0。例如：在向用户推荐多种商品的场景下，0表示用户对某商品感兴趣，1表示用户对某商品不感兴趣。

可选的，在电子设备获取到第二测试样本组中各个测试样本的分类标签之后，可以确定组合模型关于测评指标的测试结果。

可选的，测试指标为以下至少一项，但不限于此：查全率、查准率和AUC。

需要说明的是，在S290中，所谓“对组合模型测试成功”指的是组合模型关于测评指标达标，例如：测试指标是查全率，那么所谓“对组合模型测试成功”指的组合模型关于查全率全部达标，例如该组合模型的查全率大于预设查全率。

综上，在本申请中，电子设备可以对m个目标模型进行测试，只有在对m个目标模型测试成功后，才生成组合模型。此外，电子设备还可以对组合模型进行测试，只有在对该组合模型测试成功后，才进行预测阶段，基于此，可以提高分类方法的准确度。

实施例4

下面将结合向用户推荐多种商品的场景对上述分类过程进行说明：

图3为本申请实施例提供的向用户推荐多种商品的场景下的分类过程的示意图，如图3所示，电子设备在获取到数据源后，即T-1时期的样本数据和T时期的样本数据后，将样本数据划分为m组，电子设备可以对每种样本数据按照一定比例随机划分为训练样本和测试样本。进一步地，电子设备可以通过对应的训练样本组训练对应的分组模型，例如：分组1中的训练样本用于训练对应的分组模型1……分组m中的训练样本用于训练对应的分组模型m；再通过对应的测试样本组训练对应的分组模型，例如：分组1中的测试样本用于测试对应的分组模型1……分组m中的测试样本用于测试对应的分组模型m。当对m个目标模型测试成功时，电子设备才进行模型组合，得到组合模型；当对m个目标模型中任一个模型测试失败时，电子设备会重新获取测试失败的模型对应的训练样本组，以继续对该模型进行训练，并重新获取该模型对应的测试样本组，继续对该模型进行测试，直到所有模型测试成功。更进一步地，电子设备获取到组合模型之后，也可以对该组合模型进行测试，当组合模型评估达标时，才执行预测过程。而当该组合模型评估不达标时，电子设备会重新获取m组训练样本和n组测试样本，以执行模型的训练过程和测试过程，直到得到的组合模型测试成功。在预测阶段，电子设备可以得到n组预测数据，通过组合模型进行预测，得到每个预测数据组中每个预测数据的得分概率，而每个预测数据组对应有自己的分类阈值，最后，电子设备对每个预测数据的得分概率和对应的分类阈值进行比较，得到每个预测数据的分类标签，基于此，电子设备可以向分类标签为1的用户推荐对应的商品。

总之，通过本申请提供的分类方法可以提高分类方法的准确度，当该分类方法应用在向用户推荐多种商品的场景中时，可以提高商品推荐的精确度，从而可以提高用户体验感。

实施例5

图4为本申请实施例提供的一种基于组合模型的分类装置的示意图，如图4所示，该装置包括：

第一获取模块401，用于获取m组训练样本和n组预测数据，m和n均为正整数。

训练模块402，用于通过m组训练样本对m个模型分别进行训练，以得到m个目标模型。

第一处理模块403，用于针对m个目标模型中的任一个目标模型，根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签。并根据各个训练样本的第一分类标签和第一训练样本组中各个训练样本包括的第二分类标签，得到目标模型对应的分类标签方差。

第二处理模块404，用于根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。

第三处理模块405，用于根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签。

可选的，该装置还包括：确定模块406，用于在第一处理模块403根据目标模型、目标模型对应的第一训练样本组和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签之前，根据目标模型、第一训练样本组的均值向量和第一训练样本组中训练样本的数量，确定第一训练样本组对应的分类阈值。

可选的，第一训练样本组对应的分类阈值通过如下公式确定：

其中，

表示第一训练样本组对应的分类阈值，

表示第一训练样本组中训练样本的数量、

表示该第训练样本组对应的模型，假设为第i个模型、

表示第一训练样本组的均值向量。

可选的，第一处理模块403具体用于：针对m个目标模型中的任一个目标模型，将目标模型对应的第一训练样本组和模型LR模型中，以得到第一训练样本组中各个训练样本的得分概率。根据第一训练样本组中各个训练样本的得分概率和第一训练样本组对应的分类阈值，得到第一训练样本组中各个训练样本的第一分类标签。

可选的，第一处理模块403具体用于：针对第一训练样本组中的任一训练样本，若训练样本的得分概率大于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为1。若训练样本的得分概率小于或等于第一训练样本组对应的分类阈值，则确定训练样本的第一分类标签为0。

可选的，第二处理模块404具体用于：对m个目标模型各自对应的分类标签方差按照由小到大的顺序进行重排；对m个目标模型按照由大到小的顺序进行重排；对重排后的m个目标模型各自对应的分类标签方差和重排后的m个目标模型依次相乘并相加，以得到第一求和结果；对m个目标模型各自对应的分类标签方差求和，以得到第二求和结果；对第一求和结果和第二求和结果作商，以得到组合模型。

可选的，组合模型通过如下公式确定：

其中，

表示组合模型，

表示m个目标模型中第i个模型对应的分类标签方差，

是对

由小到大重排之后的分类标签方差，

是

对应的目标模型。

可选的，该装置还包括：第二获取模块407和第一测试模块408，其中，第二获取模块407和第一测试模块408分别用于在第二处理模块404根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型之前获取m组测试样本，以及，分别通过m组测试样本对m个目标模型进行测试。

相应的，第二处理模块404具体用于：当对m个目标模型测试成功时，根据m个目标模型和m个目标模型各自对应的分类标签方差，得到组合模型。

可选的，第一测试模块408具体用于：针对m个目标模型中的任一目标模型，将目标模型对应的第一测试样本组和目标模型输入LR模型中，以得到第一测试样本组中各个测试样本的得分概率。根据第一测试样本组中各个测试样本的得分概率和第一测试样本组对应的分类阈值，得到第一测试样本组中各个测试样本的分类标签。根据第一测试样本组中各个测试样本的分类标签确定目标模型关于至少一个测试指标的测试结果。

可选的，该装置还包括：第三获取模块409和第二测试模块410，其分别用于：在第三处理模块405，根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签之前，从m组测试样本中获取预设比例的第二测试样本组以及通过第二测试样本组测试组合模型。

可选的，第二测试模块410具体用于：将第二测试样本组和组合模型输入LR模型中，以得到第二测试样本组中各个测试样本的得分概率。根据第二测试样本组中各个测试样本的得分概率和第二测试样本组对应的分类阈值，得到第二测试样本组中各个测试样本的分类标签。根据第二测试样本组中各个测试样本的分类标签确定组合模型关于至少一个测试指标的测试结果。

可选的，第三处理模块405具体用于：针对n组预测数据中的任一个预测数据组，将预测数据组和组合模型输入LR模型中，以得到预测数据组中各个预测数据的得分概率。根据预测数据组中各个预测数据的得分概率和预测数据组对应的分类阈值，得到预测数据组中各个预测数据的分类标签。

可选的，该装置还包括：推荐模块411，用于在第三处理模块405根据n组预测数据、组合模型和n组预测数据分别对应的分类阈值，得到n组预测数据中每个预测数据的分类标签之后，根据n组预测数据中每个预测数据的分类标签，向用户推荐m个模型对应的商品。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图4所示的装置400可以执行图1-3对应的方法实施例，并且装置400中的各个模块的前述和其它操作和/或功能分别为了实现图1-3中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置400。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

实施例6

图5是本申请实施例提供的电子设备500的示意性框图。

如图5所示，该电子设备500可包括：

存储器510和处理器520，该存储器510用于存储计算机程序，并将该程序代码传输给该处理器520。换言之，该处理器520可以从存储器510中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器520可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器520可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器510包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器510中，并由该处理器520执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图5所示，该电子设备还可包括：

收发器530，该收发器530可连接至该处理器520或存储器510。

其中，处理器520可以控制该收发器530与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器530可以包括发射机和接收机。收发器530还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种基于组合模型的分类方法，其特征在于，包括：

获取m组训练样本和n组预测数据，m和n均为正整数；

通过所述m组训练样本对m个模型分别进行训练，以得到m个目标模型；

针对所述m个目标模型中的任一个目标模型，根据所述目标模型、所述目标模型对应的第一训练样本组和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签；并根据所述各个训练样本的第一分类标签和所述第一训练样本组中各个训练样本包括的第二分类标签，得到所述目标模型对应的分类标签方差；

根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型；

根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标模型、所述目标模型对应的第一训练样本组和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签之前，还包括：

根据所述目标模型、所述第一训练样本组的均值向量和所述第一训练样本组中训练样本的数量，确定所述第一训练样本组对应的分类阈值。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标模型、所述目标模型对应的第一训练样本组和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签，包括：

针对所述m个目标模型中的任一个目标模型，将所述目标模型对应的第一训练样本组和所述目标模型输入逻辑回归LR模型中，以得到所述第一训练样本组中各个训练样本的得分概率；

根据所述第一训练样本组中各个训练样本的得分概率和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一训练样本组中各个训练样本的得分概率和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签，包括：

针对所述第一训练样本组中的任一训练样本，若所述训练样本的得分概率大于所述第一训练样本组对应的分类阈值，则确定所述训练样本的第一分类标签为1；

若所述训练样本的得分概率小于或等于所述第一训练样本组对应的分类阈值，则确定所述训练样本的第一分类标签为0。

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型，包括：

对所述m个目标模型各自对应的分类标签方差按照由小到大的顺序进行重排；

对所述m个目标模型按照由大到小的顺序进行重排；

对重排后的所述m个目标模型各自对应的分类标签方差和重排后的所述m个目标模型依次相乘并相加，以得到第一求和结果；

对所述m个目标模型各自对应的分类标签方差求和，以得到第二求和结果；

对所述第一求和结果和所述第二求和结果作商，以得到所述组合模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型之前，还包括：

获取m组测试样本；

分别通过所述m组测试样本对所述m个目标模型进行测试；

所述根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型，包括：

当对所述m个目标模型测试成功时，根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型。

7.根据权利要求6所述的方法，其特征在于，所述分别通过所述m组测试样本对所述m个目标模型进行测试，包括：

针对所述m个目标模型中的任一目标模型，将所述目标模型对应的第一测试样本组和所述目标模型输入LR模型中，以得到所述第一测试样本组中各个测试样本的得分概率；

根据所述第一测试样本组中各个测试样本的得分概率和所述第一测试样本组对应的分类阈值，得到所述第一测试样本组中各个测试样本的分类标签；

根据所述第一测试样本组中各个测试样本的分类标签确定所述目标模型关于至少一个测试指标的测试结果。

8.根据权利要求6或7所述的方法，其特征在于，所述根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签之前，还包括：

从所述m组测试样本中获取预设比例的第二测试样本组；

通过所述第二测试样本组测试所述组合模型；

所述根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签，包括：

当对所述组合模型测试成功时，根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签。

9.根据权利要求8所述的方法，其特征在于，所述通过所述第二测试样本组测试所述组合模型，包括：

将所述第二测试样本组和所述组合模型输入LR模型中，以得到所述第二测试样本组中各个测试样本的得分概率；

根据所述第二测试样本组中各个测试样本的得分概率和所述第二测试样本组对应的分类阈值，得到所述第二测试样本组中各个测试样本的分类标签；

根据所述第二测试样本组中各个测试样本的分类标签确定所述组合模型关于至少一个测试指标的测试结果。

10.根据权利要求1或2所述的方法，其特征在于，所述根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签，包括：

针对所述n组预测数据中的任一个预测数据组，将所述预测数据组和所述组合模型输入LR模型中，以得到所述预测数据组中各个预测数据的得分概率；

根据所述预测数据组中各个预测数据的得分概率和所述预测数据组对应的分类阈值，得到所述预测数据组中各个预测数据的分类标签。

11.根据权利要求1或2所述的方法，其特征在于，所述m个模型对应m种商品；所述根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签之后，还包括：

根据所述n组预测数据中每个预测数据的分类标签，向用户推荐所述m个模型对应的商品。

12.一种基于组合模型的分类装置，其特征在于，包括：

第一获取模块，用于获取m组训练样本和n组预测数据，m和n均为正整数；

训练模块，用于通过所述m组训练样本对m个模型分别进行训练，以得到m个目标模型；

第一处理模块，用于针对所述m个目标模型中的任一个目标模型，根据所述目标模型、所述目标模型对应的第一训练样本组和所述第一训练样本组对应的分类阈值，得到所述第一训练样本组中各个训练样本的第一分类标签；并根据所述各个训练样本的第一分类标签和所述第一训练样本组中各个训练样本包括的第二分类标签，得到所述目标模型对应的分类标签方差；

第二处理模块，用于根据所述m个目标模型和所述m个目标模型各自对应的分类标签方差，得到组合模型；

第三处理模块，用于根据所述n组预测数据、所述组合模型和所述n组预测数据分别对应的分类阈值，得到所述n组预测数据中每个预测数据的分类标签。

13.一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至11中任一项所述的方法。