CN112288455A

CN112288455A - 标签生成方法及装置、计算机可读存储介质、电子设备

Info

Publication number: CN112288455A
Application number: CN202010023741.7A
Authority: CN
Inventors: 王颖帅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-01-29
Anticipated expiration: 2040-01-09
Also published as: CN112288455B

Abstract

本公开属于数据处理技术领域，涉及一种标签生成方法及装置、计算机可读存储介质、电子设备。该方法包括：获取用户的消费数据和与消费数据对应的分类参数，并根据消费数据和分类参数生成用户的用户标签信息；提取消费数据的目标数据特征，并将目标数据特征输入至预先训练好的机器学习模型中，以得到用户的预测标签信息；对用户标签信息与预设标签信息进行融合处理，生成用户的目标标签信息。本公开一方面，从多个维度生成目标标签信息，包含的信息更加丰富，生成的目标标签信息的实时性更好，提高了预测目标标签信息的准确度和效率；另一方面，精准划分用户等级，为用户精准推荐对应商品，实现了用户等级的自动分类，减少了人工操作成本。

Description

标签生成方法及装置、计算机可读存储介质、电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种标签生成方法与标签生成装置、计算机可读存储介质及电子设备。

背景技术

随着大数据和互联网的发展，越来越多的用户喜欢网上购物。如何快速抓住用户需求，从大量数据中挖掘用户感兴趣的商品，并且个性化地展示给用户，是电商网站一直追求的目标。用户购买力的细粒度预测，是体现用户兴趣点的关键因素。

现有技术中，用户购买力直接通过用户的消费金额划分，业务规则简单，不能多维度考虑用户特征，比如用户信用度、用户成长值、用户活跃度等，因此计算出的用户等级所包含的内容不够丰富，准确度不高。

鉴于此，本领域亟需开发一种新的标签生成方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种标签生成方法、标签生成装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的用户等级不准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种标签生成方法，所述方法包括：获取用户的消费数据和与所述消费数据对应的分类参数，并根据所述消费数据和所述分类参数生成所述用户的用户标签信息；提取所述消费数据的目标数据特征，并将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息；对所述用户标签信息与所述预设标签信息进行融合处理，生成所述用户的目标标签信息。

在本发明的一种示例性实施例中，所述根据所述消费数据和所述分类参数生成所述用户的用户标签信息，包括：根据所述分类参数确定多个分类区间，并在所述多个分类区间中确定所述消费数据所在的目标分类区间；根据所述目标分类区间生成所述用户的待处理用户标签信息，并获取所述多个分类区间的用户个数；根据所述用户个数对所述多个分类区间进行合并处理，并根据合并处理结果和所述待处理用户标签信息确定所述用户的用户标签信息。

在本发明的一种示例性实施例中，所述根据所述分类参数确定多个分类区间，并在所述多个分类区间中确定所述消费数据所在的目标分类区间，包括：根据所述分类参数确定多个分类区间，并根据所述分类参数对聚类模型进行初始化处理；将所述消费数据输入初始化处理后的所述聚类模型中，以得到所述消费数据所在的目标分类区间。

在本发明的一种示例性实施例中，所述根据合并处理结果和所述待处理用户标签信息确定所述用户的用户标签信息，包括：若根据所述合并处理结果确定所述待处理用户标签信息未变更，将所述待处理用户标签信息确定为所述用户的用户标签信息；若根据所述合并处理结果确定待处理用户标签信息变更，根据所述待处理用户标签信息生成所述用户的用户标签信息。

在本发明的一种示例性实施例中，所述提取所述消费数据的目标数据特征，包括：提取所述消费数据的数据特征，并将所述数据特征输入至所述机器学习模型中得到所述数据特征的特征分值；根据所述特征分值在所述数据特征中确定待处理数据特征，并对所述待处理数据特征进行分箱处理得到目标数据特征。

在本发明的一种示例性实施例中，所述将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息，包括：对所述消费数据进行类别平衡处理，生成类别平衡数据；将与所述类别平衡数据对应的所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息。

在本发明的一种示例性实施例中，在所述将与所述类别平衡数据对应的所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息之前，所述方法还包括：获取训练所述机器学习模型的数据特征样本以及与所述数据特征样本对应的标签信息样本；将所述数据特征样本输入至一待训练机器学习模型，以获取所述待训练机器学习模型输出的与所述数据特征样本对应的标签信息；若所述标签信息与所述标签信息样本不匹配，对所述待训练机器学习模型的参数进行调整，以使所述标签信息与所述标签信息样本相同。

根据本发明实施例的第二个方面，提供一种标签生成装置，所述装置包括：数据获取模块，被配置为获取用户的消费数据和与所述消费数据对应的分类参数，并根据所述消费数据和所述分类参数生成所述用户的用户标签信息；特征提取模块，被配置为提取所述消费数据的目标数据特征，并将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息；标签生成模块，被配置为将所述用户标签信息与所述预设标签信息进行融合处理，生成所述用户的目标标签信息。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的标签生成方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的标签生成方法。

由上述技术方案可知，本发明示例性实施例中的标签生成方法、标签生成装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，通过对生成的用户标签信息和机器学习模型输出的预测标签信息进行融合处理，实现生成用户最终的目标标签信息的功能。一方面，从多个维度生成用户的目标标签信息，包含的信息更加丰富，生成的目标标签信息的实时性更好，提高了预测目标标签信息的准确度和效率；另一方面，根据目标标签信息精准划分用户等级，为用户精准推荐对应商品，增加用户购物粘度，实现了用户等级的自动分类，减少了人工操作成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种标签生成方法的流程图；

图2示意性示出本公开示例性实施例中生成用户标签信息的方法的流程示意图；

图3示意性示出本公开示例性实施例中确定目标分类区间的方法的流程示意图；

图4示意性示出本公开示例性实施例中生成用户标签信息的方法的流程示意图；

图5示意性示出本公开示例性实施例中提取目标数据特征的方法的流程示意图；

图6示意性示出本公开示例性实施例中得到预测标签信息的方法的流程示意图；

图7示意性示出本公开示例性实施例中训练机器学习模型的方法的流程示意图；

图8示意性示出本公开示例性实施例中在应用场景中标签生成方法的流程示意图；

图9示意性示出本公开示例性实施例中根据随机采样数据生成预测模型的方法的流程示意图；

图10示意性示出本公开示例性实施例中优化预训练模型的方法的流程示意图；

图11示意性示出本公开示例性实施例中一种标签生成装置的结构示意图；

图12示意性示出本公开示例性实施例中一种用于实现标签生成方法的电子设备；

图13示意性示出本公开示例性实施例中一种用于实现标签生成方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种标签生成方法，应用于大数据库。图1示出了标签生成方法的流程图，如图1所示，标签生成方法至少包括以下步骤：

步骤S110.获取用户的消费数据和与消费数据对应的分类参数，并根据消费数据和分类参数生成所述用户的用户标签信息。

步骤S120.提取消费数据的目标数据特征，并将目标数据特征输入至预先训练好的机器学习模型中，以得到用户的预测标签信息。

步骤S130.对用户标签信息与预设标签信息进行融合处理，生成用户的目标标签信息。

在本公开的示例性实施例中，通过对生成的用户标签信息和机器学习模型输出的预测标签信息进行融合处理，实现生成用户最终的目标标签信息的功能。一方面，从多个维度生成用户的目标标签信息，包含的信息更加丰富，生成的目标标签信息的实时性更好，提高了预测目标标签信息的准确度和效率；另一方面，根据目标标签信息精准划分用户等级，为用户精准推荐对应商品，增加用户购物粘度，实现了用户等级的自动分类，减少了人工操作成本。

下面对标签生成方法的各个步骤进行详细说明。

在步骤S110中，获取用户的消费数据和与消费数据对应的分类参数，并根据消费数据和分类参数生成所述用户的用户标签信息。

在本公开的示例性实施例中，举例而言，消费数据可以是用户在预设时间段内的消费金额，预设时间段的单位可以是日、月、年等，例如预设时间段可以是一个月、一年等。除此之外，消费数据还可以是用户在预设时间段内的成交商品量等，本示例性实施例对此不做特殊限定。其中，分类参数可以是可以是根据消费数据划定的类别临界点。举例而言，当1-100元划分为一个类别，将100-200元划分为一个类别时，可以确定分类参数可以是1、100和200，本示例性实施例对此不做特殊限定。

在可选的实施例中，图2示出了生成用户标签信息的方法的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，根据分类参数确定多个分类区间，并在多个分类区间中确定消费数据所在的目标分类区间。举例而言，当分类参数分别为1、100和200时，可以确定对应的分类区间为1-100和100-200。并且，当用户的消费金额为150元时，可以确定所在的目标分类区间为100-200。值得说明的是，为了提高用户标签信息的细粒度预测，可以将分类测试设置得较小，也可以根据实际情况进行设置，本示例性实施例对此不做特殊限定。

在可选的实施例中，图3示出了确定目标分类区间的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，根据分类参数确定多个分类区间，并根据分类参数对聚类模型进行初始化处理。其中，该聚类模型可以是高斯混合聚类模型，也可以是其他聚类模型，本示例性实施例对此不做特殊限定。当聚类模型为高斯混合聚类模型时，可以将设置的分类参数，亦即类别临界点作为高斯混合聚类的初始点，赋值给高斯混合聚类模型。除此之外，还要初始化高斯混合聚类模型的其他参数，例如聚类分组个数、协方差矩阵类型、最大期望算法(Expec tation-Maximization algorithm,简称EM算法)的收敛阈值、EM算法最大迭代次数和初始化模型聚类中心的方法等。

在步骤S320中，将消费数据输入至初始化处理后的聚类模型中，以得到消费数据所在的目标分类区间。在使用高斯混合聚类模型时，可以调用fit方法获取模型的结果信息，例如每个聚类分组的比重、每个高斯分布的均值点、每个高斯分布的协方差矩阵和EM算法是否收敛等。进一步的，根据这些信息可以确定消费数据所在的目标分类区间。

在本示例性实施例中，通过聚类模型可以确定消费数据所在的目标分类区间，确定速度快，并且确定出的目标分类区间基本无偏差，准确度极高。

在步骤S220中，根据目标分类区间生成用户的待处理用户标签信息，并获取多个分类区间的用户个数。举例而言，待处理用户标签信息可以是将用户所属的目标分类区间的区间值作为标签信息，也可以是根据用户所属的目标分类区间预设的标签信息，本示例性实施例对此不做特殊限定。并且，为对用户的消费金额进行等深分桶处理，亦即确定在各个分类区间中的用户个数是基本相等的，因此，可以获取各个分类区间包括的用户个数。

在步骤S230中，根据用户个数对多个分类区间进行合并处理，并根据合并处理结果和待处理用户标签信息确定用户的用户标签信息。举例而言，当1-100元之间的用户个数为500个，100-200元之间的用户个数为900个，200-300元之间的用户个数为4000个，为使各个分类区间的用户个数达到同一数量级，可以将1-100元和100-200元的分类区间进行合并处理，亦即合并处理结果为生成1-200、200-300的新的分类区间，且1-200元的分类区间的用户个数为1400个，200-300元之间的用户个数为4000个。

在可选的实施例中，图4示出了生成用户标签信息的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，若根据合并处理结果确定待处理用户标签信息未变更，将待处理用户标签信息确定为用户的用户标签信息。举例而言，当将1-100和100-200的分类区间合并处理生成分类区间1-200，且200-300元的分类区间未合并处理时，可以确定200-300元的分类区间中用户的待处理用户标签信息无需变更，因此保持原本的待处理用户标签信息作为新的用户标签信息即可。

在步骤S420中，若根据合并处理结果确定待处理用户标签信息变更，根据待处理用户标签信息生成用户的用户标签信息。举例而言，当将1-100和100-200的分类区间合并处理生成分类区间1-200，且200-300元的分类区间未合并处理时，可以确定1-100和100-200的分类区间中用户的待处理用户标签信息需要根据新的分类区间1-200生成对应的用户标签信息。

在本示例性实施例中，通过合并处理结果可以实现生成用户标签信息的功能，生成方式简单可控，确保用户标签信息的等深分桶，提高目标用户标签信息的准确度。

在步骤S120中，提取消费数据的目标数据特征，并将目标数据特征输入至预先训练好的机器学习模型中，以得到用户的预测标签信息。

在本公开的一种示例性实施例中，图5示出了提取目标数据特征的方法的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，提取消费数据的数据特征，并将数据特征输入至机器学习模型中得到数据特征的特征分值。举例而言，数据特征可以包括与消费数据相关的两方面的特征，分别是观察窗口成交总额(Gross MerchandiseVolume，简称GMV)的主要特征和观察窗口时序特征。其中，观察窗口GMV特征包括用户累计一年自营订单量、用户累计一年总GMV、观察窗口最后90天的总订单量、用户在观察窗口末点是否为钻石用户、用户在观察窗口最后30天的GMV、用户在观察窗口的等级是否变化、用户累计一年购买的商品个数、用户在观察窗口的最后60天的订单优惠后总金额、观察窗口内复购的三级品类的GMV以及用户在观察窗口累计评级商品总数与累计购买商品总数之比等；观察窗口时序特征包括用户累计一年的购物天数、用户在观察窗口的最后两个月的购物天数、用户在观察窗口的最后一个月的浏览天数、用户购物首单至今的天数和用户在观察窗口末单距今的天数等。

举例而言，该机器学习模型可以是极端梯度提升模型(eXtreme GradientBoosting，简称Xgboost模型)。Xgboost模型是基于Xgboost算法建立的一种机器学习模型。Xgboost算法是一种梯度增强算法，常见的梯度增强算法的代表是梯度提升决策树(Gradient Boosting Decision Tree，简称GBDT)，而Xgboost算法是梯度增强算法的一种高效表现形式，相较于传统的梯度增强算法，Xgboost模型具备以下优点：考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，大大提升了梯度增强算法的效率；特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然增强算法的迭代必须串行，但是在处理每个特征列的时候可以并行；考虑到当数据量比较大，内存不够用时能够有效的利用磁盘，可以结合多线程、数据压缩和分片的方法尽可能提高算法的效率。

使用Xgboost模型计算数据特征的特征分值的好处是在提升树被创建后，可以相对直接地得到每个数据特征的重要性得分，亦即特征分值。一般来说，重要性分数可以衡量该数据特征在Xgboost模型中的提升决策树构建的价值，一个数据特征越多的被用来在模型中构建决策树，它的重要性就相对越高。特征分值是通过对特征数据集中的每个数据特征进行计算，并进行排序得到。在单个决策树中通过每个数据特征正分裂点改进性能度量的量来计算数据特征的重要性，由节点负责加权和记录次数。也就说一个数据特征对分裂点改进性能度量越大(越靠近根节点)，权值越大；被越多提升树所选择，该数据特征越重要。最终将一个数据特征在所有提升树中的结果进行加权平均计算，得到特征分值。

在步骤S520中，根据特征分值在数据特征中确定待处理数据特征，并对待处理数据特征进行分箱处理得到目标数据特征。在得到每个数据特征对应的数据分值之后，可以从中选出重要性排序在前711个的数据特征作为待处理数据特征。除此之外，也可以根据实际情况选择其他数目的数据特征作为待处理数据特征，本示例性实施例对此不做特殊限定。

在得到待处理数据特征之后，还可以对其中的取值范围大、分布情况不理想的待处理数据特征进行分箱处理。分箱处理是一种局部平滑方法，是指通过考察“邻居”(周围的值)来平滑存储数据的值，用“箱的深度”表示不同的箱里有相同个数的数据，用“箱的宽度”来表示每个箱值的取值区间，并且具有降低异常数据对模型的影响，提升模型稳定性的功能。具体的，可以对单个待处理数据特征整体做100分位数，将相邻两个分位数之间取值为一箱，编号为1-100，并且用分箱编号替换原始值，以实现待处理数据特征的离散化，得到目标数据特征。

在本示例性实施例中，通过对数据特征进行预处理可以得到对应的目标数据特征，提升数据特征选择的准确性和高效性。

进一步的，可以将目标数据特征输入至预先训练好的机器学习模型中，得到用户的预测标签信息。图6示出了得到预测标签信息的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610中，对消费数据进行类别平衡处理，生成类别平衡数据。为了确保目标标签信息下的数据是均衡的，并保证模型训练的准确度，可以对消费数据做类别平衡处理。该类别平衡处理是针对类别不平衡的消费数据进行的处理过程，其中，类别不平衡指的是不同类别的训练样例数差别很大，可能是不同数量级上的差别，因此需要进行类别平衡处理。具体的，可以通过对消费数据的复制操作或者是机器学习模型的搭建来实现对消费数据的类别平衡处理，得到对应的类别平衡数据。

在步骤S620中，将与类别平衡数据对应的目标数据特征输入至预先训练好的机器学习模型中，以得到用户的预测标签信息。在这之前，可以对待训练的机器学习模型进行训练。图7示出了训练机器学习模型的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，获取训练机器学习模型的数据特征样本以及与数据特征样本对应的标签信息样本。其中，该数据特征样本和对应的标签信息样本可以是在已知标签信息的数据特征和标签信息的集合中选取的。

在步骤S720中，将数据特征样本输入至一待训练机器学习模型，以获取待训练机器学习模型输出的与数据特征样本对应的标签信息。其中，该待训练机器学习模型可以是Xgboost模型，也可以是其他机器学习模型，本示例性实施例对此不做特殊限定。

在步骤S730中，若标签信息与标签信息样本不匹配，对待训练机器学习模型的参数进行调整，以使标签信息与标签信息样本相同。待训练机器学习模型输出标签信息之后，可以将标签信息与标签信息样本进行匹配，判断输出的标签信息和标签信息样本是否相同，进而根据匹配结果判定待训练机器学习模型是否已经完成训练。当标签信息与标签信息样本不匹配时，表明待训练机器学习模型未训练好，因此可以迭代训练多轮，并对待训练机器学习模型的参数进行调整直到模型收敛到最好参数，以使标签信息与标签信息样本相同，完成待训练机器学习模型的训练。具体的，训练完成后的参数组合可以有Xgboost模型的迭代轮数取值为1000、迭代步长取值为0.01、样本整体的采样比例为1.0、每棵树特征的采样比例为0.7、树的深度为12、生成一个叶子节点所需要的最少样本权重为1.0、L2正则化参数设置为0.1、L1正则化参数未0.5、目标函数的激活函数为softmax函数、损失函数的类型为mlogloss、集成树模型的方式为gbtree、树的生成方式为gpu_hist和特征直方图的分裂数为63。

在本示例性实施例中，对机器学习模型的完整训练保证了预测标签信息输出的准确性，进一步的，对确定的目标标签信息的准确性提供了保证，对预测用户的消费等级提供了强有力的保证。

因此，在待训练机器学习模型训练好之后，将目标数据特征输入至预先训练好的机器学习模型中，可以得到机器学习模型输出的用户的预测标签信息。

在步骤S130中，对用户标签信息与预设标签信息进行融合处理，生成用户的目标标签信息。

在本公开的一种示例性实施例中，具体的，对用户标签信息和预测标签信息的融合处理方式可以将用户标签信息与预测标签信息进行比对，并将与用户标签信息差距较大的预测标签信息剔除出去。举例而言，若用户的用户标签信息为等级19，而预测标签信息为等级2，因此，可以将该用户的预测标签信息剔除。将所有不准确的预测标签信息剔除之后，可以将剩余的准确的预测标签信息确定为目标标签信息。值得说明的是，该目标标签信息可以是预测的用户的消费等级标签信息，也可以是其他标签信息，本示例性实施例对此不做特殊限定。

下面结合一应用场景对本公开实施例中的标签生成方法做出详细说明。

图8示出了应用场景中的标签生成方法的流程示意图，如图8所示，在步骤S810中，列举出了四种应用该标签生成方法的业务背景。其中，第一种业务背景是个性化推荐应用，比如发现好货、排行榜和焦点图等都是个性化推荐场景。在个性化推荐中，用户希望看到符合自己品味且感兴趣的商品，因此可以应用到该标签生成方法预测用户的购买力。第二种业务背景是用户画像应用。用户画像可以包括用户的多种信息，例如自然属性，包括性别、年龄、地域、教育水平、出生日期、职业和星座等，还可以是社会属性，包括婚姻状态、家庭情况、社交渠道等，还可以是消费行为，包括收入、购买力、购物渠道、已购买商品和活跃度等，还可以是生活习惯，包括运动健身、作息时间、购物集中时间等，也可以是兴趣特征，包括兴趣爱好、收藏内容、品牌偏好和产品偏好等。因此，对用户的购买力预测也是用户画像的重要组成部分。第三种业务背景是引擎召回应用。电商的推荐引擎是重要的基础框架，可以分为召回层和排序层。在召回层召回特征的时候，应用标签生成方法预测用户购买力是显著性很高的一个引子。第四种业务背景是Plus增量GMV应用。在Plus增量GMV项目中，需要建模非Plus状态用户的年度GMV预测，在预测模型的构建中，应用标签生成方法预测用户购买力等级是重要的特征。

在步骤S820中，对目标数据特征进行的特征工程。其中，包括提取用户消费数据的观察窗口GMV特征和观察窗口时序特征，并计算得到对应的观察窗口GMV特征和观察窗口时序特征的特征重要性分值，进一步对根据特征分值确定出来的待处理数据特征进行特征分箱预处理，得到目标数据特征。

在步骤S830中，使用高斯混合聚类算法打标签。首先，初始化高斯混合聚类模型的参数，包括聚类分组个数、协方差矩阵类型、最大期望算法(Expectation-Maximizationalgorithm,简称EM算法)的收敛阈值、EM算法最大迭代次数和初始化模型聚类中心的方法等；然后使用fit方法获取模型的结果信息，例如每个聚类分组的比重、每个高斯分布的均值点、每个高斯分布的协方差矩阵和EM算法是否收敛等；接下来在策略分桶处理过程中，按照用户的消费金额进行等深分桶，亦即每个桶里的用户数量相同；最后，根据业务经验可以认为确定类别临界点作为高斯混合聚类模型的初始点，并赋值给聚类算法。

在步骤S840中，对采样策略进行优化处理。首先，随机采样可以是从海量线上数据中随机采样构造训练数据。具体的，图9示出了根据随机采样数据生成预测模型的方法的流程示意图，如图9所示，在步骤S910中，从全体样本，例如一亿八千万条线上数据中随机采集四百万生成随机采样数据集；在步骤S920中，通过随机采样数据集训练机器学习模型，生成对应的预测模型。该预测模型可以是Xgboost模型，也可以是其他机器学习模型，本示例性实施例对此不做特殊限定。然后，本应用场景中可以将用户购买力分为20个等级，亦即打上20个标签。具体的，在根据步骤S920生成预测模型之后，可能还存在特征稀疏且特征值分布不合理等问题，因此可以将该预测模型作为预训练模型，进行进一步的优化。图10示出了优化预训练模型的方法的流程示意图，如图10所示，在步骤S1010中，通过预训练模型生成用户的预测标签信息；在步骤S1020中，获取全体样本中已标注用户标签信息的全体样本真实值；在步骤S1030中，将预测标签信息与用户标签信息进行合并处理，亦即对用户标签信息和预测标签信息的融合处理方式可以将用户标签信息与预测标签信息进行比对，并将与用户标签信息差距较大的预测标签信息剔除出去，生成优化采样数据集。在步骤S1040中，对Xgboost模型进行训练，生成对应的预测模型。

并且，为了模型训练的准确度，可以在使用Xgboost模型预测之前，对训练数据进行类别平衡处理，使得每个标签信息下的数据都是二十万条。

在步骤S850中，对Xgboost模型建模。在机器学习时，一般可以将样本分成三个独立的部分，分别是训练集、验证集和测试集。其中，训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，测试集检验最终选择最优的模型的性能如何。机器学习模型可以是通过各种机器学习算法训练得到的，用于根据待校验数据获得目标校验规则的模型。在对Xgboost模型的训练过程中，可以对Xgboost的参数进行调试，得到当前参数组合分别是Xgboost模型的迭代轮数取值为1000、迭代步长取值为0.01、样本整体的采样比例为1.0、每棵树特征的采样比例为0.7、树的深度为12、生成一个叶子节点所需要的最少样本权重为1.0、L2正则化参数设置为0.1、L1正则化参数未0.5、目标函数的激活函数为softmax函数、损失函数的类型为mlogloss、集成树模型的方式为gbtree、树的生成方式为gpu_hist和特征直方图的分裂数为63。在初始调试模型参数后，可以迭代训练多轮，不断更新参数直到Xgboost模型收敛到最好参数。并且，可以将模型中确定的最好参数保存到指定文件中，在预测真实线上数据的时候，加载模型导入即可。

在步骤S860中，对生成的目标标签信息进行线上评测。评测主要分为两种：(1)生成分桶的策略/算法评测，主要是基于连续两年的分桶建立对应关系，理想关系为：用户下一年分桶与当前年份分桶大概率一致。(2)预测分桶评测：比较所预测的未来年度分桶与未来年度真实分桶。并且，评测主要有以下四种输出，分别是输出当前年份真实分桶在下一年真实分桶上的分布；输出当前年份真实分桶在所预测的下一年真实分桶的分布；输出所预测的下一年分桶在下一年真实分桶的分布和预测结果的准确率，亦即每个分桶上的准确率。具体的，可以使用预测结果的准确率评测用户购买力等级标签的算法；使用当前年份真实分桶在所预测的下一年真实分桶的分布和预测的下一年分桶在下一年真实分桶的分布分析预测结果的准确性；使用当前年份真实分桶在下一年真实分桶上的分布评测生成分桶的策略。

此外，在本公开的示例性实施例中，还提供一种标签生成装置。图11示出了标签生成装置的结构示意图，如图11所示，标签生成装置1100可以包括：数据获取模块1110、特征提取模块1120、标签生成模块1130。

其中：

数据获取模块1110，被配置为获取用户的消费数据和与消费数据对应的分类参数，并根据消费数据和分类参数生成用户的用户标签信息；特征提取模块1120，被配置为提取消费数据的目标数据特征，并将目标数据特征输入至预先训练好的机器学习模型中，以得到用户的预测标签信息；标签生成模块1130，被配置为将用户标签信息与预设标签信息进行融合处理，生成用户的目标标签信息。

上述标签生成装置的具体细节已经在对应的标签生成方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及标签生成装置1100的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图12来描述根据本发明的这种实施例的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1221和/或高速缓存存储单元1222，还可以进一步包括只读存储单元(ROM)1223。

存储单元1220还可以包括具有一组(至少一个)程序模块1225的程序/实用工具1224，这样的程序模块1225包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1200也可以与一个或多个外部设备1400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1240通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图13所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种标签生成方法，其特征在于，所述方法包括：

获取用户的消费数据和与所述消费数据对应的分类参数，并根据所述消费数据和所述分类参数生成所述用户的用户标签信息；

提取所述消费数据的目标数据特征，并将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息；

对所述用户标签信息与所述预设标签信息进行融合处理，生成所述用户的目标标签信息。

2.根据权利要求1所述的标签生成方法，其特征在于，所述根据所述消费数据和所述分类参数生成所述用户的用户标签信息，包括：

根据所述分类参数确定多个分类区间，并在所述多个分类区间中确定所述消费数据所在的目标分类区间；

根据所述目标分类区间生成所述用户的待处理用户标签信息，并获取所述多个分类区间的用户个数；

根据所述用户个数对所述多个分类区间进行合并处理，并根据合并处理结果和所述待处理用户标签信息确定所述用户的用户标签信息。

3.根据权利要求2所述的标签生成方法，其特征在于，所述根据所述分类参数确定多个分类区间，并在所述多个分类区间中确定所述消费数据所在的目标分类区间，包括：

根据所述分类参数确定多个分类区间，并根据所述分类参数对聚类模型进行初始化处理；

将所述消费数据输入初始化处理后的所述聚类模型中，以得到所述消费数据所在的目标分类区间。

4.根据权利要求2所述的标签生成方法，其特征在于，所述根据合并处理结果和所述待处理用户标签信息确定所述用户的用户标签信息，包括：

若根据所述合并处理结果确定所述待处理用户标签信息未变更，将所述待处理用户标签信息确定为所述用户的用户标签信息；

若根据所述合并处理结果确定待处理用户标签信息变更，根据所述待处理用户标签信息生成所述用户的用户标签信息。

5.根据权利要求1所述的标签生成方法，其特征在于，所述提取所述消费数据的目标数据特征，包括：

提取所述消费数据的数据特征，并将所述数据特征输入至所述机器学习模型中得到所述数据特征的特征分值；

根据所述特征分值在所述数据特征中确定待处理数据特征，并对所述待处理数据特征进行分箱处理得到目标数据特征。

6.根据权利要求1所述的标签生成方法，其特征在于，所述将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息，包括：

对所述消费数据进行类别平衡处理，生成类别平衡数据；

将与所述类别平衡数据对应的所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息。

7.根据权利要求6所述的标签生成方法，其特征在于，在所述将与所述类别平衡数据对应的所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息之前，所述方法还包括：

获取训练所述机器学习模型的数据特征样本以及与所述数据特征样本对应的标签信息样本；

将所述数据特征样本输入至一待训练机器学习模型，以获取所述待训练机器学习模型输出的与所述数据特征样本对应的标签信息；

若所述标签信息与所述标签信息样本不匹配，对所述待训练机器学习模型的参数进行调整，以使所述标签信息与所述标签信息样本相同。

8.一种标签生成装置，其特征在于，包括：

数据获取模块，被配置为获取用户的消费数据和与所述消费数据对应的分类参数，并根据所述消费数据和所述分类参数生成所述用户的用户标签信息；

特征提取模块，被配置为提取所述消费数据的目标数据特征，并将所述目标数据特征输入至预先训练好的机器学习模型中，以得到所述用户的预测标签信息；

标签生成模块，被配置为将所述用户标签信息与所述预设标签信息进行融合处理，生成所述用户的目标标签信息。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的标签生成方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的标签生成方法。