CN116975752A

CN116975752A - 用户标签的预测方法、装置、电子设备及计算机程序产品

Info

Publication number: CN116975752A
Application number: CN202210412440.2A
Authority: CN
Inventors: 方海贝; 赵雨; 樊巧云; 陆天珺
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-10-31

Abstract

本申请涉及计算机技术领域，提供一种用户标签的预测方法、装置、电子设备及计算机程序产品。所述方法包括：获取目标用户的网络指标数据；将目标用户的网络指标数据输入到集成模型中的深度森林模型，获取目标用户对应的中间指标数据；将中间指标数据输入到集成模型中的逻辑回归模型，获取目标用户对应的目标标签；所述目标用户对应的中间指标数据是基于所述深度森林模型中每一层的输出确定的。本申请实施例通过将目标用户的网络指标数据输入到集成模型中深度森林模型，基于深度森林模型中每一层的输出确定中间指标数据，可以提高中间指标数据的数量，输入到集成模型中逻辑回归模型，可以获取目标标签，提高用户标签预测的精确度。

Description

用户标签的预测方法、装置、电子设备及计算机程序产品

技术领域

本申请涉及计算机技术领域，具体涉及一种用户标签的预测方法、装置、电子设备及计算机程序产品。

背景技术

随着运营商大数据采集、存储和处理能力的提升，积累了维度广、连续性好和数据准确度高的用户数据，能够基于用户数据从基础信息、交往圈信息和上网行为信息等维度构建用户画像。基于运营商提供的底层数据和金融企业提供的样本标签，可以建立预测模型。

基于集成模型可以对用户标签进行预测，但相关技术中的集成模型的上层模型输出的指标数量有限，导致模型预测的精确度不高。

发明内容

本申请实施例提供一种用户标签的预测方法、装置、电子设备及计算机程序产品，用以解决相关技术中模型预测的精确度不高的技术问题。

第一方面，本申请实施例提供一种用户标签的预测方法，包括：

获取目标用户的网络指标数据；

将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据；

将所述目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，获取所述目标用户对应的目标标签；

所述集成模型包括深度森林模型和逻辑回归模型，所述目标用户对应的中间指标数据是基于所述深度森林模型中每一层的输出确定的。

可选地，在一个实施例中，所述将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据，包括：

将所述目标用户的网络指标数据输入到深度森林模型的第一层对应的学习器，获取所述第一层对应的中间指标数据；

对于所述深度森林模型中每一个目标层，将所述目标层的前一层对应的中间指标数据输入所述目标层对应的学习器，获取所述目标层对应的中间指标数据；

基于所述深度森林模型中每一层分别对应的中间指标数据，确定所述目标用户对应的中间指标数据；

其中，所述目标层为所述深度森林模型中除所述第一层之外的其他层。

可选地，在一个实施例中，所述深度森林模型的第一层包括一个或多个学习器，所述将所述目标用户的网络指标数据输入到深度森林模型的第一层对应的学习器，获取所述第一层对应的中间指标数据，包括：

将所述目标用户的网络指标数据输入到所述第一层的每一个学习器，获取所述第一层的每一个学习器分别对应的中间指标数据；

基于所述第一层的每一个学习器分别对应的中间指标数据和所述第一层的每一个学习器对应的编号，确定所述第一层对应的中间指标数据。

可选地，在一个实施例中，所述目标层包括一个或多个学习器，所述将所述目标层的前一层对应的中间指标数据输入所述目标层对应的学习器，获取所述目标层对应的中间指标数据，包括：

将所述目标层的前一层对应的中间指标数据输入到所述目标层的每一个学习器，获取所述目标层的每一个学习器分别对应的中间指标数据；

基于所述目标层的每一个学习器分别对应的中间指标数据和所述目标层的每一个学习器对应的编号，确定所述目标层应的中间指标数据。

可选地，在一个实施例中，所述学习器为以下任一模型：

梯度提升模型LightGBM；

随机森林模型；

极端随机森林模型。

可选地，在一个实施例中，所述深度森林模型通过如下方式构建：

对历史用户指标数据进行预处理，获取所述历史用户指标数据对应的初始指标宽表；

基于所述初始指标宽表、历史用户金融标签和第一评估指标，对初始的深度森林模型进行训练，获取所述深度森林模型；

所述第一评估指标为受试者工作特性曲线ROC下的面积，所述深度森林模型对应的所述第一评估指标大于或等于70％。

可选地，在一个实施例中，所述逻辑回归模型通过如下方式构建：

将所述初始指标宽表中的数据输入到所述深度森林模型，获取中间指标宽表；

基于所述中间指标宽表、历史用户金融标签和第二评估指标，对初始的逻辑回归模型进行训练，获取所述逻辑回归模型；

所述第二评估指标为受试者工作特性曲线ROC下的面积。

可选地，在一个实施例中，所述基于所述中间指标宽表、历史用户金融标签和第二评估指标，对初始的逻辑回归模型进行训练，获取所述逻辑回归模型，包括：

获取所述初始的逻辑回归模型的调优参数；

基于所述中间指标宽表、所述历史用户金融标签、所述第二评估指标和所述调优参数，对所述初始的逻辑回归模型进行训练，获取所述逻辑回归模型。

第二方面，本申请实施例提供一种用户标签的预测装置，包括：

第一获取模块，用于获取目标用户的网络指标数据；

第二获取模块，用于将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据；

第三获取模块，用于将所述目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，获取所述目标用户对应的目标标签；

第三方面，本申请实施例提供一种电子设备，包括处理器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述的用户标签的预测方法的步骤。

第四方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的用户标签的预测方法的步骤。

本申请实施例提供的用户标签的预测方法、装置、电子设备及计算机程序产品，通过将目标用户的网络指标数据输入到集成模型中深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的用户标签的预测方法的流程示意图之一；

图2是本申请实施例提供的用户标签的预测方法的流程示意图之二；

图3是本申请实施例提供的用户标签的预测方法的流程示意图之三；

图4是本申请实施例提供的用户标签的预测方法的流程示意图之四；

图5是相关技术提供的模型效果的示意图；

图6是本申请实施例提供的模型效果的示意图；

图7是本申请实施例提供的用户标签的预测装置的结构示意图；

图8是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了便于更加清晰地理解本申请各实施例，首先对一些相关的背景知识进行如下介绍。

基于运营商提供的底层数据和相关企业提供的样本标签，建立预测模型的过程，涉及特征工程、模型训练调优等方面，其中：

(1)特征工程方面；

特征工程方面，主要包括业务场景数据特征工程和数学衍生特征工程两方面，其中业务场景特征工程主要对基础数据进行重定义和衍生：例如，通过用户周期性接收公积金短信，定义用户稳定工作标签；通过用户集团网信息，进行业务分类，定义用户行业等级等。在数学衍生特征方面，通过对历史数据均值、方差、趋势、同比环比分析等进行数据衍生：例如通过用户近3个月的数据分析获得用户手机软件(Application，APP)使用稳定性等。

在特征工程方面，由于业务和数学相关衍生过程，需要参考业务专家定义，在此基础上进行规则定义和编码实现。在实际应用中，业务专家定义指标数量往往有限，除此之外，经过业务和数学衍生的指标需要进行有效性和标签关联度过滤等，因此过程较复杂，耗时较长。

(2)模型训练和调优方面；

在模型训练和调优方面，主要分为主流模型和行业特有模型两方面，其中主流模型包括逻辑回归、随机森林、极致梯度提升(eXtreme Gradient Boosting，XGBoost)和神经网络等机器学习算法，结合五折交叉验证和参数网格调优等调优算法进行样本数据的模型训练；行业特有模型，包括评分卡模型、信用分数(Fico)模型等具有行业特色模型进行模型训练。完成模型训练和调优后，在全量用户数据上进行预测，从而挖掘高价值潜在用户。除此之外，通过模型融合和迭代，衍生了多种集成模型，包括梯度提升决策树(GradientBoosting Decision Tree，GBDT)算法与逻辑回归(Logistic regression，LR) 模型融合、深度学习算法与LR模型融合生成宽且深(Wide-Depth) 模型算法等。

在模型调优方面，相关技术中采用的网格搜索需要对模型进行多次训练，尤其是以神经网络的深度学习方面，模型调优需要较高的技巧和经验。同时伴生的同一算法在不同数据上的参数差异巨大，从而难以实现模型架构的复用。

在模型准确率方面，随着业务场景日渐复杂，采用单一机器学习算法(包括XGBoost、梯度提升模型(Light Gradient Boosting Machine，LightGBM)等集成学习算法)往往表现欠佳。尽管存在GBDT和LR 融合、深度学习和LR融合等融合方案，一方面多模型融合会导致模型调参难度增加，另一方面上层模型贡献指标数量有限(GBDT以叶子节点作为后续模型输入、深度模型以最后一层节点为输出等)。

为了克服上述缺陷，本申请提供一种用户标签的预测方法、装置、电子设备及计算机程序产品，通过深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，提高用户标签预测的精确度。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的用户标签的预测方法的流程示意图之一，如图1所示，本申请实施例提供一种用户标签的预测方法，该方法的执行主体可以是电子设备，该方法可以包括：

步骤101，获取目标用户的网络指标数据；

具体地，可以通过电信运营商的数据库，获取目标用户的网络指标数据。

可选地，目标用户的网络指标数据可以是电信运营商基于向目标用户提供的各类业务服务获取的，目标用户的网络指标数据可以表征用户的特征，通过对目标用户的网络指标数据进行分析可以获取更多的用户特征。

例如，目标用户的网络指标数据可以是目标用户的人口学属性相关的数据、目标用户的交往圈数据或目标用户的上网行为数据等。

步骤102，将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据；

具体地，在获取到目标用户的网络指标数据之后，可以将目标用户的网络指标数据输入到集成模型中的深度森林模型，深度森林模型可以对目标用户的网络指标数据进行分析处理，基于深度森林模型中每一层的输出可以确定目标用户对应的中间指标数据。

步骤103，将所述目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，获取所述目标用户对应的目标标签；

具体地，在获取到目标用户对应的中间指标数据之后，可以将目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，逻辑回归模型可以对目标用户对应的中间指标数据进行分析处理，获取关于目标用户的预测结果，也即目标用户对应的目标标签。

可以理解的是，在特征工程方面，由于深度森林各层均以随机森林或LightGBM等模型作为学习器，因此可以实现自动化的指标数据分组、指标数据交叉以及高阶指标数据衍生等，并且各层的输出是与样本标签强相关指标数据，能够有效降低特征衍生和特征筛选的工作量。

可以理解的是，相关技术中集成模型的神经网络只有最后一层以样本标签作为更新，而之前各层以下一层梯度传递得到，因而能够用于模型融合的只有神经网络最后一层的输出，而在深度森林中，每一层的输出均可以提供给逻辑回归模型，入模变量大大增加，提高用户标签预测的精确度。

本申请实施例提供的用户标签的预测方法，通过将目标用户的网络指标数据输入到集成模型中深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

可选地，图2是本申请实施例提供的用户标签的预测方法的流程示意图之二，如图2所示，所述将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据，包括：

步骤201，将所述目标用户的网络指标数据输入到深度森林模型的第一层对应的学习器，获取所述第一层对应的中间指标数据；

具体地，在获取到目标用户的网络指标数据之后，可以将目标用户的网络指标数据输入到深度森林模型的第一层，进而通过第一层中的学习器可以对目标用户的网络指标数据进行分析处理，获取第一层对应的中间指标数据，其中，第一层对应的中间指标数据可以用于表征目标用户的特征。

步骤202，对于所述深度森林模型中每一个目标层，将所述目标层的前一层对应的中间指标数据输入所述目标层对应的学习器，获取所述目标层对应的中间指标数据；

其中，所述目标层为所述深度森林模型中除所述第一层之外的其他层；

具体地，在获取到第一层对应的中间指标数据之后，深度森林模型中的每一个目标层可以将其前一层对应的中间指标数据输入到目标层，进而通过目标层的学习器可以对其前一层对应的中间指标数据进行分析处理，获取目标层对应的中间指标数据，深度森林模型可以包括一个或多个目标层，进而通过深度森林模型中的每一个目标层，可以获取每一个目标层对应的中间指标数据，其中，每一个目标层对应的中间指标数据可以用于表征目标用户的特征。

步骤203，基于所述深度森林模型中每一层分别对应的中间指标数据，确定所述目标用户对应的中间指标数据。

具体地，在获取到每一个目标层对应的中间指标数据之后，可以将深度森林模型中每一层分别对应的中间指标数据作为目标用户对应的中间指标数据，进而可以将目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，逻辑回归模型可以对目标用户对应的中间指标数据进行分析处理，获取关于目标用户的预测结果，也即目标用户对应的目标标签。

因此，基于深度森林模型的第一层可以获取对应的中间指标数据，基于深度森林模型的每一个目标层可以获取每一个目标层对应的中间指标数据，进而可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

可选地，图3是本申请实施例提供的用户标签的预测方法的流程示意图之三，如图3所示，所述深度森林模型的第一层包括一个或多个学习器，所述将所述目标用户的网络指标数据输入到深度森林模型的第一层对应的学习器，获取所述第一层对应的中间指标数据，包括：

步骤301，将所述目标用户的网络指标数据输入到所述第一层的每一个学习器，获取所述第一层的每一个学习器分别对应的中间指标数据；

具体地，在获取到目标用户的网络指标数据之后，可以将目标用户的网络指标数据输入到深度森林模型的第一层，第一层包括一个或多个学习器，第一层中的每一个学习器均可以对目标用户的网络指标数据进行分析处理，获取第一层的每一个学习器分别对应的中间指标数据，其中，每一个学习器分别对应的中间指标数据可以用于表征目标用户的特征。

步骤302，基于所述第一层的每一个学习器分别对应的中间指标数据和所述第一层的每一个学习器对应的编号，确定所述第一层对应的中间指标数据。

具体地，在获取到第一层的每一个学习器分别对应的中间指标数据之后，可以按照第一层的每一个学习器对应的编号，对第一层的每一个学习器分别对应的中间指标数据进行封装，获取第一层对应的中间指标数据；

具体地，在获取到第一层对应的中间指标数据之后，深度森林模型中的每一个目标层可以将其前一层对应的中间指标数据输入到目标层，进而通过目标层的学习器可以对其前一层对应的中间指标数据进行分析处理，获取目标层对应的中间指标数据，深度森林模型可以包括一个或多个目标层，进而通过深度森林模型中的每一个目标层，可以获取每一个目标层对应的中间指标数据，其中，每一个目标层对应的中间指标数据可以用于表征目标用户的特征；

可选地，图4是本申请实施例提供的用户标签的预测方法的流程示意图之四，如图4所示，所述目标层包括一个或多个学习器，所述将所述目标层的前一层对应的中间指标数据输入所述目标层对应的学习器，获取所述目标层对应的中间指标数据，包括：

步骤401，将所述目标层的前一层对应的中间指标数据输入到所述目标层的每一个学习器，获取所述目标层的每一个学习器分别对应的中间指标数据；

具体地，在获取到目标用户的网络指标数据之后，可以将目标用户的网络指标数据输入到深度森林模型的第一层，进而通过第一层中的学习器可以对目标用户的网络指标数据进行分析处理，获取第一层对应的中间指标数据，其中，第一层对应的中间指标数据可以用于表征目标用户的特征；

具体地，在获取到第一层对应的中间指标数据之后，对于深度森林模型中每一个目标层，可以将目标用户的网络指标数据输入到深度森林模型的目标层，目标层包括一个或多个学习器，目标层中的每一个学习器均可以对目标用户的网络指标数据进行分析处理，获取目标层的每一个学习器分别对应的中间指标数据，其中，每一个学习器分别对应的中间指标数据可以用于表征目标用户的特征。

步骤402，基于所述目标层的每一个学习器分别对应的中间指标数据和所述目标层的每一个学习器对应的编号，确定所述目标层应的中间指标数据。

具体地，在获取到目标层的每一个学习器分别对应的中间指标数据之后，可以按照目标层的每一个学习器对应的编号，对目标层的每一个学习器分别对应的中间指标数据进行封装，获取目标层对应的中间指标数据；

可选地，对于深度森林模型(固化的深度森林模型)，可以获取模型对应的层数。

可选地，在深度森林模型包括m层的情况下，可以针对深度森林模型中的第i层，第i层中可以包括n个学习器，获取第i层中每一个学习器的输出，进而可以按第i层中每一个学习器对应的编号 (Identity document，ID)，对第i层中每一个学习器的输出的中间指标数据进行拼接，获取第i层对应的中间指标数据，其中m和i均为整数，i的取值范围可以是0≤i≤(m-1)。

例如，对于二分类场景，每个学习器可以分别输出一个代表正负概率的二维数组，可以基于一个大小为n×2的数组，将第j个学习器(0≤j≤(n-1))的输出放置于该数组中的2j和(2j+1)的位置，按照每一个学习器对应的ID，可以依次调用学习器，进而获得第i层的全部输出。

例如，对于d分类场景，d可以是大于或等于2的整数，可以基于一个大小为n×d的数组，将第j个学习器(0≤j≤(n-1))的输出可以放置于该数组中的d×j到(d×j+d-1)的位置，按照每一个学习器对应的ID，可以依次调用学习器，进而获得第i层的全部输出。

可选地，所述学习器为以下任一模型：

梯度提升模型LightGBM；

随机森林模型；

极端随机森林模型。

可选地，深度森林模型的某一层中的一个或多个学习器，可以相同类型的模型。

例如，深度森林模型的某一层中的一个或多个学习器，可以均是LightGBM。

例如，深度森林模型的某一层中的一个或多个学习器，可以均是随机森林模型。

例如，深度森林模型的某一层中的一个或多个学习器，可以均是极端随机森林模型。

可以理解的是，深度森林的每一层可以由随机森林或LightGBM等学习器组成，每一层生成的中间指标数据为每一层中各个学习器生成的预测结果。由于各个学习器独立自动对指标数据进行处理，并且具有实现多指标的交叉融合以及内嵌的特征筛选功能，因此各层生成的中间指标数据都是与样本标签具有强相关关系的，可以降低指标衍生和过滤的工作量。

可选地，所述深度森林模型通过如下方式构建：

具体地，可以基于历史用户指标数据和历史用户金融标签对初始的深度森林模型进行有监督的训练，获取训练好的深度森林模型；

具体地，对历史用户指标数据进行预处理，可以获取历史用户指标数据对应的初始指标宽表，进而可以基于初始指标宽表和历史用户金融标签对初始的深度森林模型进行有监督的训练，并以第一评估指标作为模型训练的评估指标，经过一次或多次的迭代训练，直至深度森林模型对应的第一评估指标大于或等于70％，进而可以获取深度森林模型。

可选地，对历史用户指标数据进行预处理的过程可以包括：对历史用户指标数据进行数据格式转换、空值处理、异常值处理以及进行离散类型指标数据的one-hot编码等特征工程。

可选地，初始的深度森林模型可以是采用默认参数的深度森林模型。

可选地，对初始的深度森林模型进行训练的过程中，在模型准确率过低的情况下，可以先增大深度森林的最大深度，当深度增大改善不明显时再增加各层的学习器数量以及增加各个子学习器的树个数等。

可选地，对初始的深度森林模型进行训练的过程中，在模型存在过拟合的情况下，可以先减少各层的学习器数量以减少各个子学习器的树个数等，再减少深度森林的最大深度。

可以理解的是，相比于深度学习或单一的GBDT模型等，深度森林由于其自适应的深度生长模式，相关参数的数量较少，各个学习器与深度森林自适应参数具有一定的互补作用：即如果单个学习器参数准确率不高，则深度森林对应的深度自动增大，反之深度相对减小，因此能够不使用网格搜索等调优算法，通过有限次的尝试获得一个相对准确的模型。

可以理解的是，由于深度森林的自适应生长特点，因此固化的深度森林模型的层数往往小于深度森林模型训练过程中指定的最大模型层数。

可选地，在深度森林模型训练的终止条件方面，由于深度森林模型主要以提供各层结果输出到LR模型为主，因此模型的准确率要求不高，AUC达到70％即认为深度森林模型可用，进而可以停止对深度森林模型的训练，其中AUC是受试者工作特性曲线(ReceiverOperating Characteristic Curve，ROC)下的面积。

可选地，在完成对深度森林模型的训练之后，可以对深度森林模型进行序列化输出，对深度森林模型进行固化，固化的深度森林模型可以用于对用户的指标数据进行处理，获取中间指标数据。

可以理解的是，在调参方面，由于深度森林具有自适应的增长模式，因而深度森林算法相比于神经网络等模型调参过程较为简单，一般对主要参数进行有限次的尝试便能够得到一个较好的模型，因此集成模型的调参复杂度与单一采用LR模型的复杂度区别不大。

可以理解的是，在模型精确度方面，由于深度森林各层均可以将样本标签作为训练目标，因此其各层的输出均可以作为LR模型的输入，相比于GBDT或者深度学习，生成的衍生指标数量较多，而且深度森林层内各个学习器具有一定差异性，因此集成效果更好，提高用户标签预测的精确度。

因此，基于历史用户指标数据和历史用户金融标签可以对初始的深度森林模型进行有监督的训练，获取训练好的深度森林模型，通过将目标用户的网络指标数据输入到集成模型中的深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

可选地，所述逻辑回归模型通过如下方式构建：

所述第二评估指标为受试者工作特性曲线ROC下的面积。

具体地，对历史用户指标数据进行预处理，可以获取历史用户指标数据对应的初始指标宽表，进而可以将初始指标宽表中的数据输入到深度森林模型，获取中间指标宽表，进而可以基于中间指标宽表和历史用户金融标签对初始的逻辑回归模型进行有监督的训练，并通过第二评估指标对模型训练进行评估，经过一次或多次的迭代训练，可以获取逻辑回归模型。

可以理解的是，由于深度森林模型的每一层生成的中间指标数据都是与样本标签具有强相关关系的，因而可以将各层生成的中间指标数据直接作为逻辑回归模型的输入，不需要进行其他复杂转换。

可选地，初始的逻辑回归模型可以是采用默认参数的逻辑回归模型。

可选地，可以采用AUC数值作为逻辑回归模型效果的评估指标。

因此，基于中间指标宽表和历史用户金融标签可以对初始的逻辑回归模型进行有监督的训练，获取训练好的逻辑回归模型，通过将目标用户的网络指标数据输入到集成模型中的深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

可选地，所述基于所述中间指标宽表、历史用户金融标签和第二评估指标，对初始的逻辑回归模型进行训练，获取所述逻辑回归模型，包括：

获取所述初始的逻辑回归模型的调优参数；

具体地，对历史用户指标数据进行预处理，可以获取历史用户指标数据对应的初始指标宽表，进而可以将初始指标宽表中的数据输入到深度森林模型，获取中间指标宽表，进而可以获取初始的逻辑回归模型的调优参数，在获取调优参数之后，可以基于中间指标宽表、历史用户金融标签和调优参数对初始的逻辑回归模型进行有监督的训练，并通过第二评估指标对模型训练进行评估，经过一次或多次的迭代训练，可以获取逻辑回归模型。

可选地，可以通过五折交叉验证法或网格寻优算法，对LR模型进行调优，获取初始的逻辑回归模型的调优参数，主要调优参数可以包括：正则化类型(L1，L2)、模型优化器(随机梯度下降(Stochastic Gradient Descent，SGD)、拟牛顿法(LBFGS))以及正则化参数等。

例如，可以先初始化正则化类型(L1，L2)、模型优化器(SGD、 LBFGS)以及正则化参数序列，再依次对多组备选参数进行迭代模型训练，获取模型在验证集的表现，进而在多组备选参数中选取验证集表现最优的一组参数作为最优模型参数，也即初始的逻辑回归模型的调优参数。

可选地，在完成对逻辑回归模型的训练之后，可以对逻辑回归模型进行序列化输出，对逻辑回归模型进行固化，固化的逻辑回归模型可以用于对深度森林模型输出的中间指标数据进行处理，获取预测的用户标签。

图5是相关技术提供的模型效果的示意图，图6是本申请实施例提供的模型效果的示意图，可以基于历史用户指标数据和历史用户金融标签对，对模型的准确率方面进行比较，如图5和图6所示，给出了传统的基于GBDT和LR的集成模型和本申请实施例中模型的表现，其中FPR表示负样本中的错判率，TPR表示判对样本中的正样本率，图5和图6中的坐标系图的横轴的单位为百分率，图5和图6中的坐标系图的纵轴的单位为百分率。

可见，相比于传统的基于GBDT和LR的集成模型，本申请实施例中的模型，模型风险区分能力(Kolmogorov-Smirnov，KS)值可以提升0.33，AUC可以提升0.2，精确率召回率(Precision Recall，PR) 曲线具有更高的覆盖面积(未进行样本均衡)，在模型的线下衡量标准(ROC曲线下各部分的面积之和)上具有明显优势。

下面对本申请实施例提供的用户标签的预测装置进行描述，下文描述的用户标签的预测装置与上文描述的用户标签的预测方法可相互对应参照。

图7是本申请实施例提供的用户标签的预测装置的结构示意图，如图7所示，所述装置包括：第一获取模块701、第二获取模块702 和第三获取模块703，其中：

第一获取模块701，用于获取目标用户的网络指标数据；

第二获取模块702，用于将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据；

第三获取模块703，用于将所述目标用户对应的中间指标数据输入到集成模型中的逻辑回归模型，获取所述目标用户对应的目标标签；

本申请实施例提供的用户标签的预测装置，通过将目标用户的网络指标数据输入到集成模型中深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度。

可选地，所述第二获取模块具体用于：

可选地，所述学习器为以下任一模型：

梯度提升模型LightGBM；

随机森林模型；

极端随机森林模型。

可选地，所述第一训练模块用于：

可选地，所述装置还包括第二训练模块，所述第二训练模块用于：

所述第二评估指标为受试者工作特性曲线ROC下的面积。

可选地，所述第二训练模块具体用于：

获取所述初始的逻辑回归模型的调优参数；

本申请实施例提供的用户标签的预测装置，通过将目标用户的网络指标数据输入到集成模型中深度森林模型，可以基于深度森林模型中每一层的输出确定目标用户对应的中间指标数据，可以提高中间指标数据的数量，进而将目标用户对应的中间指标数据输入到集成模型中逻辑回归模型，可以获取目标用户对应的目标标签，提高用户标签预测的精确度

图8是本申请实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口 (Communication Interface)820、存储器(memory)830和通信总线 840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行用户标签的预测方法的步骤，例如包括：

获取目标用户的网络指标数据；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各实施例所提供的用户标签的预测方法的步骤，例如包括：

获取目标用户的网络指标数据；

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行上述各实施例提供的方法的步骤，例如包括：

获取目标用户的网络指标数据；

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD 等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用户标签的预测方法，其特征在于，包括：

获取目标用户的网络指标数据；

2.根据权利要求1所述的用户标签的预测方法，其特征在于，所述将所述目标用户的网络指标数据输入到集成模型中的深度森林模型，获取所述目标用户对应的中间指标数据，包括：

3.根据权利要求2所述的用户标签的预测方法，其特征在于，所述深度森林模型的第一层包括一个或多个学习器，所述将所述目标用户的网络指标数据输入到深度森林模型的第一层对应的学习器，获取所述第一层对应的中间指标数据，包括：

4.根据权利要求2所述的用户标签的预测方法，其特征在于，所述目标层包括一个或多个学习器，所述将所述目标层的前一层对应的中间指标数据输入所述目标层对应的学习器，获取所述目标层对应的中间指标数据，包括：

5.根据权利要求2-4任一项所述的用户标签的预测方法，其特征在于，所述学习器为以下任一模型：

梯度提升模型LightGBM；

随机森林模型；

极端随机森林模型。

6.根据权利要求1-4任一项所述的用户标签的预测方法，其特征在于，所述深度森林模型通过如下方式构建：

7.根据权利要求1-4任一项所述的用户标签的预测方法，其特征在于，所述逻辑回归模型通过如下方式构建：

所述第二评估指标为受试者工作特性曲线ROC下的面积。

8.根据权利要求7所述的用户标签的预测方法，其特征在于，所述基于所述中间指标宽表、历史用户金融标签和第二评估指标，对初始的逻辑回归模型进行训练，获取所述逻辑回归模型，包括：

获取所述初始的逻辑回归模型的调优参数；

9.一种用户标签的预测装置，其特征在于，包括：

第一获取模块，用于获取目标用户的网络指标数据；

10.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的用户标签的预测方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的用户标签的预测方法的步骤。