CN109886349B

CN109886349B - 一种基于多模型融合的用户分类方法

Info

Publication number: CN109886349B
Application number: CN201910155106.1A
Authority: CN
Inventors: 冯诗炀; 程序; 段银春
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-11-19
Anticipated expiration: 2039-02-28
Also published as: CN109886349A

Abstract

本发明公开了一种基于多模型融合的用户分类方法，属于机器学习技术领域，解决传统模型分类存在维度少、精度低、迭代复杂。本发明获取包含用户特征的数据集，并进行处理；基于XGBoost算法和两个不同的Y值交叉区间设置，选择不同的衍生方法对处理后的数据集中的特征进行衍生，并将数据集特征与所有衍生后的特征作为新的数据集输入两个XGBoost模型进行训练和调优，调优后的两个XGBoost模型输出各训练集样本在每颗树的叶子节点编号；根据叶子节点编号集训练One‑hot编码，将每个XGBoost模型输出的叶子节点编号通过训练好的One‑hot编码转换，得到各训练集样本对应的所有LR特征，再基于所有训练集样本对应的LR特征，训练调优LR模型；得到XGBoost+LR融合模型对用户进行分类。本发明用于基于多模型融合对用户进行分类。

Description

一种基于多模型融合的用户分类方法

技术领域

一种基于多模型融合的用户分类方法，用于基于多模型融合对用户进行分类，属于机器学习技术领域。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习是人工智能的一个子集，也是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。机器学习分类三种：监督学习、非监督学习和强化学习。近年来，机器学习技术得到飞速的发展，在信息识别、推荐引擎等领域都取得了出色的应用效果，大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。

目前，传统的模型分类，是以专家经验驱动，结合事后统计分析得到专家评分卡。专家评分卡，主要是基于传统的逻辑回归，用于识别不同场景下不同级别的人群。但是，专家评分卡存在维度少、精度低、迭代困难等问题。

Facebook在2014年的文章介绍了通过GBDT解决LR的特征组合问题，该文献主要研究了如何挖掘特征信息使特征对于模型的贡献程度最大，该文献发现，使用GBDT能作为一种很好的feature transformation的工具，可以把GBDT中的每棵树作为一种类别的feature，把一个instance经过GBDT的流程(即从根节点一直往下分叉到一个特定的叶子节点)作为一个instance的特征组合的过程，最后将结果放到LR模型训练，增强LR的表达能力。此文献不虽然可以GBDT解决LR的问题，但并没有说明其可以分类，且不支持线性分类器和列抽样，不能很好的控制过拟合等问题。

申请文件“CN201711326271-一种基于多模型堆栈融合的社交媒体用户人口属性预测方法”中也提及了多模型的融合，技术内容是“通过利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练，分别得出一份stacking特征。训练得到的三份stacking特征上，结合TFIDF特征之外的其他特征作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户属性类别的结果。存在以下不中之处：

一、机器学习模型的训练特征需要与标签值具有较低的相关性。特征与标签之间的相关性低，意味着特征包含的信息熵高，高信息熵的特征包含的信息量越充分，但“CN201711326271”申请将模型训练后输出的类别预测概率作为二级模型的入模特征，而这部分的特征与标签之间的相关性较强(用二分类举例的话即分类标签为1的概率越接近1，分类标签为0的概率越靠近0)，对后续模型训练的意义不大，反而增加了模型复杂度，导致泛化能力下降，使结果的精度受到损失，仅能根据特定场景的数据样本得到该数据样本分布空间下的模型，不足以应对不同场景的使用，特别是在样本量不充分的情况下。

二、二级模型中，训练样本中由一级模型得到的特征对二级模型本身要实现的目的不能很好的解释，即偏向对一级模型的权重考虑，未参考到每个模型的权重。因为二级模型的训练数据并不是整个数据集分布空间的一个子集(由一级模型得到的概率特征不属于数据分布空间，该概率特征与标签值的分布相似)，而是由包含标签值信息的分布特征构成，即该二级模型使用了包含标签值信息的数据来训练模型。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于多模型融合的用户分类方法，解决传统模型分类存在维度少、精度低、迭代复杂、不能较好地处理数据稀疏以及单变量区分弱的问题；解决最现有多模融合中一级模型得到的特征与标签之间的相关性较强，对后续模型训练未起到帮助，还造成泛化能力较低，且偏向对一级模型的权重考虑，未参考到每个模型的权重，从而造成分类效果差的问题。

为了达到上述目的，本发明采用如下技术方案：

一种基于多模型融合的用户分类方法，其特征在于，包括如下步骤：

S1、获取包含用户特征的数据集，并进行处理；

S2、基于XGBoost算法和两个不同的Y值交叉区间设置，选择不同的衍生方法对处理后的数据集中的特征进行衍生，并将数据集特征与所有衍生后的特征作为新的数据集输入两个XGBoost模型进行训练和调优，调优后的两个XGBoost模型输出各训练集样本在每颗树的叶子节点编号；

S3、根据叶子节点编号集训练One-hot编码，将每个XGBoost模型输出的叶子节点编号通过训练好的One-hot编码转换，得到各训练集样本对应的所有LR特征，再基于所有训练集样本对应的LR特征，训练调优LR模型；

S4、步骤S2中两个调优后的XGBoost模型和对应的步骤S3中得到的调优后的LR模型，为得到XGBoost+LR融合模型；

S5、基于XGBoost+LR融合模型，分别通过XGBoost+LR单模型对获取的用户特征进行用户分类，再结合两个用户分类进行最终分类。

进一步，所述步骤S1中的处理包括：对数据集进行数据清洗及重塑，即依次进行数据集合并、数据集去重及删除不适用特征。

进一步，所述步骤S2的具体步骤为：

S2.1、基于XGBoost算法和两个不同的Y值交叉区间设置，并利用网格搜索寻找两个XGBoost模型的最优参数，其中，一个XGBoost模型为模型1，另一个XGBoost模型为模型2，交叉区间是指模型1的目标类用户群和灰度类用户群是模型2的目标类用户群，模型1的非目标类用户群为模型2的灰度类用户群；

S2.2、模型1采用one-hot、PCA降维或t-SNE降维中的一种方法对处理后的数据集中的特征进行衍生，模型2采用RFM模型、离散化分箱中的一种方法对处理后的数据集中的特征进行衍生；

S2.3、数据集特征分别与对应模型1和模型2做出的所有衍生后的特征作为新的数据集，将新的数据集进行重要性排序后，采用SelectKBest特征选取方法从排序后的特征中选择前N1个特征作为训练集样本输入模型1进行训练，采用Feature Importance特征选取方法从排序后的特征中选择前N2个特征作为训练集样本输入模型2进行训练；

S2.4、从新的数据集选取测试集及验证集对不同参数得到的训练好的XGBoost模型进行测试和验证，选择最优参数所对应的XGBoost模型，即得到调优后的模型1和模型2；

S2.5、调优后的模型1和模型2分别输出训练集样本在每颗树的叶子节点编号。

进一步，所述步骤S2.3中训练的具体步骤为：将训练集输入XGBoost模型，即将训练集中所有的训练集样本输入XGBoost模型，添加一棵树，根据树对训练集中的特征进行分裂，若生长成的树满足参数的要求，训练完成，得到训练好的XGBoost模型，否则添加一棵树，再对上一次分裂的树进行分裂。

进一步，所述步骤3的具体步骤包括：

S3.1通过计算最大数的叶子结点编号，即实现两个调优后的XGBoost模型全遍历，再分别计算两个叶子节点编号集，计算公式如下：

OHE_train＝(list(leaves_max)*N_trees)^T，

其中，depth_max为调优后的XGBoost模型设置树的最大深度，leaves_max为调优后的XGBoost模型最大的叶子节点个数，N_trees为调优后的XGBoost模型设置的迭代次数，OHE_train为调优后的XGBoost模型中所有树的叶子节点编号构成的叶子节点编号集；

S3.2、用两个叶子节点编号集分别训练One-hot编码，得到两个训练后的One-hot编码；

S3.3、每个XGBoost模型输出的叶子节点编号通过对应的训练后的One-hot编码转换，将转换后的结果经过离散化处理，得到两个调优后XGBoost模型所对应的所有LR特征；

S3.4、根据两个调优后XGBoost模型所对应的所有LR特征，分别训练调优LR模型，得到两个调优后的LR模型。

进一步，所述步骤S4得到XGBoost+LR融合模型后，将XGBoost+LR融合模型进行存储，输出PKL文件，PKL文件用于步骤S5调用。

进一步，所述步骤S6中得到两个用户分类后，将两个用户分类分别进行高斯模型变换，得到最终的两个用户分数，再结合最终的两个用户分数进行最终分类。

进一步，结合两个用户分类或结合最终的两个用户分数进行最终分类，是指将两个用户分类或最终的两个用户分数以列联的方式表示在二维区间上。

本发明同现有技术相比，其有益效果表现在：

一、本发明基于通过对要分析的用户数据从多角度衍生出多维度大数据，采用了XGBoost+LR融合模型，提高了维度、精度、降低了迭代复杂、能较好地处理数据稀疏以及单变量区分弱的问题；

二、本发明得到的一级模型得到的特征与标签之间的相关性较弱，对后续模型训练能起到很大帮助，泛化能力强，且考虑到每个模型的权重；

三、本发明对列联模型(即XGBoost+LR融合模型)的输出，通过高斯变换，可拉开分类的距离(即把相靠近的两类用户分离远一些)，提升多分类用户的识别精度；

四、本发明能很好的对灰度用户进行识别，且不过出现过拟合现象；

五、本发明计算最大数叶子结点编号，能实现调优后的XGBoost模型中所有决策树的全遍历，即One-hot训练到所有的叶子节点编号，使新的不同于训练集的用户群有更准确的编码。

附图说明

图1为本发明中XGBoost+LR融合模型训练流程图；

图2为本发明中获取的数据集分数原始分布示意图，

图3为本发明中获取的数据集分数改进高斯模型的分布示意图；

图4为本发明中XGBoost+LR融合模型的AUC及KS图；

图5为采用CatBoost融合模型的全量数据集模型列联效果；

图6为采用CatBoost融合模型的验证集列联模型效果；

图7为本发明XGBoost+LR融合模型的全量数据集模型列联效果；

图8为本发明XGBoost+LR融合模型的验证集列联模型效果；

图9为本发明中两个不同的Y值交叉区间设置的示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

实施例

XGBoost+LR融合模型处理流程包含两个流程，每一流程都包括数据准备、特征工程、模型训练及结果输出等4个过程，如图1所示，如：数据准备(即数据处理)步骤主要是对数据集进行清洗和重塑；特征工程针对用户多维度特征做了衍生，并通过特征重要性进行选取，将排名前100的特征分别传入两个XGBoost模型，遍历400棵树后，记录训练集样本在每颗树的叶子节点编号(指调优后的XGBoost模型中，训练集样本在每颗树的叶子节点编号)，并通过One-hot编码转换，得到了该样本对应的所有LR特征，接着，训练调优LR模型，输出模型结果，即对结果进行改进的高斯变换。具体步骤如下：

S1、获取包含用户特征的数据集(即图中的FJ数据集)，并进行处理，数据集包括社交特征、多头情况、行为偏好等维度，也可是其它维度的信息，该数据集用于XGBoost模型训练、模型验证以及模型测试；具体步骤包括：对数据集进行数据清洗及重塑，即依次进行数据集合并、数据集去重及删除不适用特征；

S2、基于XGBoost算法和两个不同的Y值交叉区间设置，选择不同的衍生方法对处理后的数据集中的特征进行衍生，并将数据集特征与所有衍生后的特征作为新的数据集输入两个XGBoost模型进行训练和调优，调优后的两个XGBoost模型输出各训练集样本在每颗树的叶子节点编号；具体步骤为：

特征衍生，如：对个人基本信息从年龄、婚姻状况、学历、生活城市等特征进行了离散化及数字化编码。对个人社交特征主要从社交活跃度、联系人关系网络、黑名单等维度，构建了RFM模型，输出了权重类特征。对个人行为偏好，基于APP使用情况，电商消费记录，信用卡消费流水等维度进行统计类衍生，评估消费能力及消费偏好。衍生方法还可选择本案中未提及的方式。

S2.3、数据集特征分别与对应模型1和模型2做出的所有衍生后的特征作为新的数据集，将新的数据集进行重要性排序后，采用SelectKBest特征选取方法从排序后的特征中选择前N1个特征作为训练集样本输入模型1进行训练，采用Feature Importance特征选取方法从排序后的特征中选择前N2个特征作为训练集样本输入模型2进行训练；其中，训练集：验证集：测试集为6:3:1

训练的具体步骤为：将训练集输入XGBoost模型，即将训练集中所有的训练集样本输入XGBoost模型，添加一棵树，根据树对训练集中的特征进行分裂，若生长成的树满足参数的要求，训练完成，得到训练好的XGBoost模型，否则添加一棵树，再对上一次分裂的树进行分裂。

XGBoost模型(即XGBoost算法)的思想就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当训练完成得到k棵树，则预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

本发明异于传统XGBoost模型输出的二分类概率值，因本发明是通过控制迭代次数，构建最优的m棵决策树群(指调优后的XGBoost模型中的树)，输出每棵决策树叶子结点位置(即叶子结点编号)，得到1*m维向量。

S3、根据叶子节点编号集训练One-hot，将每个XGBoost模型输出的叶子节点编号通过训练好的One-hot编码转换，得到各训练集样本对应的所有LR特征，再基于所有训练集样本对应的LR特征，训练调优LR模型；具体步骤包括：

OHE_train＝(list(leaves_max)*N_trees)^T，

S3.2、用两个叶子节点编号集分别训练One-hot，得到两个训练后的One-hot；

本发明在训练OneHotEncoder(即One-hot)上有改进，已有的方法是将训练集和验证集的叶子结点进行OneHotEncoder训练，这种方法在样本量较少的情况下，无法完全遍历所有叶子结点，本发明针对这种情况进行了改进，通过计算最大数(所有树)叶子结点编号，实现决策树全遍历，将遍历后的叶子节点编号进行OneHotEncoder训练，并将训练集OneHotEncoder转换，把结果作为LR的入模向量特征。

S4、步骤S2中两个调优后的XGBoost模型和对应的步骤S3中得到的调优后的LR模型，为得到XGBoost+LR融合模型。

一种基于多模型融合的用户分类方法，

基于PKL文件中的XGBoost+LR融合模型，分别通过XGBoost+LR单模型对获取的用户特征进行用户分类，再结合两个用户分类进行最终分类；

进一步，两个用户分类结果分别进行高斯模型变换，得到最终的两个用户分数，再结合最终的两个用户分数进行最终分类；

结合两个用户分类或结合最终的两个用户分数进行最终分类，是指将两个用户分类或最终的两个用户分数以列联的方式表示在二维区间上。

实施例

考虑模型的稳定性和泛化能力，通过对模型输出概率进行线性转换，最终映射到0-900分，输出用户分类。使用线性转换(900*proba)的分数，如图4所示。

获取大量的用户的社交特征、多头情况、行为偏好等维度特征调用基于PKL文件中的XGBoost+LR融合模型，分别通过XGBoost+LR单模型对获取的用户特征进行用户分类，得到I类(即目标类用户群)平均分为：606.19分，II类用户(即非目标类用户群)平均分为：305.26分，I类/II类用户平均分的差别为300.93分，I类/II类用户在在评分上区分效果显著。

此外，基于线性转换(即高斯模型变换)，本方案采用了改进高斯模型进行了非线性变换，如图3所示。同样映射到0-900分，不同用户群的区分度进一步拉开，I类用户平均分为601.06分，II类用户平均分为：278.86分，I类/II类用户平均分的差别为322.2分，平均分差相较于线性变换，拉大了107.15分，对比图3与图2可得，I类/II类用户在分布上区分明显，II类用户集中在分布图的左端，I类用户集中在分布图的右端，通过高斯模型变换，使得各用户群辨识度更高。其中，采用高斯模型进行计算的公式为：

其中，p为LR模型输出的结果；

根据上述XGBoost+LR融合模型和高斯模型联合方案，将LR模型输出结果经过高斯变换后，效果如下：相较传统机器学习模型，根据上述专利方案步骤建模得到的模型分类效果有优异的性能表现。对I类用户的识别率在90％以上。在II类用户的识别效果上同样表现优异，识别率在94％以上。

本次模型算法使用XGBoost+LR融合模型，在模型评价指标上得到了优异的结果。通过模型在训练集与验证集上的评分，通过验证集与训练集评分之差得到模型没有出现过拟合。

XGBoost模型验证集AUC为0.807，KS为0.462；XGBoost+LR融合模型验证集AUC为0.800，KS为0.459；从训练集、测试集及验证集的PSI指数看，均小于0.1，模型稳定性强。

XGBoost+LR融合模型在评分高低分段都有不错的表现，将80.947％的II类用户集中在500分(含)以下分数段，将72.437％的I类用户集中在500分以上的分数段中。

XGBoost+LR融合模型列联效果：LR属于线性模型，容易并行化，可以轻松处理上亿条数据，但是学习能力十分有限，需要大量的特征工程来增加模型的学习能力，而XGBoost能够自动发现有效的特征及特征组合，弥补LR的不足，XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。

XGBoost+LR单模型分析：从单模型效果来看，验证集上AUC达到了0.78以上，KS达到了0.4以上，树深均设置在2层，训练集和验证集的差异控制在0.1左右，单模型高低分段在识别各类别客户精度较高，过拟合现象在合理范围内，所以XGBoost+LR融合模型完全未出现过似合的现象。

模型融合方案采用双模型列联，通过比较不同的模型组合最终决定模型性能的优劣。

在实验中，采用了两个CatBoost模型进行列联，得到全量数据集列联结果，如下图5所示的结果。从图中可得，用户集中在列联表的对角线上，越接近于对角线，用户数量越高，虽然两个模型在Y值设置，特征工程及数据预处理(指得是特征工程,对应数据的衍生和选择)上有差异，但其表现相似度较高(即分类区间的相似度较高)，对于同类用户评价接近一致，没有较好的区分度。

同理，验证集列联效果也表现出一致的分布，如下图6所示的结果。

综上可得，CatBoost模型在精度和泛化上表现较好，能够准确识别I/II类用户，但对于III类用户识别能力较弱(指灰度用户)，即未入模的用户数据，模型未能学习到用户特征属性，且列联区分度较差。

在实验中，对多个列联进行了测试，采用两个CatBoost模型进行列联，达到的效果与本案所采用的XGBoost+LR融合模型效果最接近，但在灰度用户识别方面较弱，区分度较差。

本方案采用两个XGBoost+LR模型进行列联融合，得到全量数据集列联结果，如图7所示的结果。从图中可得，列联表上的用户分布相对均匀，模型之间相似度适中，列联表现较好。

同理，验证集列联效果也表现出一致的分布，用户群分布相对分散，如图8所示的结果。

综上可得，XGBoost+LR融合模型在参数调优的条件下，精度和泛化上表现较好，能够准确识别各类别客户，模型列联分布均匀，表现较好。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种基于多模型融合的用户分类方法，其特征在于，包括如下步骤：

S1、获取包含用户特征的数据集，并进行处理，其中，数据集包括数据集特征，即为数据集中所有用户特征，用户特征包括基本信息、社交特征、多头情况、行为偏好，基本信息包括年龄、婚姻状况、学历和生活城市；社交特征包括社交活跃度、联系人关系网络和黑名单，行为偏好包括基于APP使用情况，电商消费记录和信用卡消费流水；

2.根据权利要求1所述的一种基于多模型融合的用户分类方法，其特征在于，所述步骤S1中的处理包括：对数据集进行数据清洗及重塑，即依次进行数据集合并、数据集去重及删除不适用特征。

3.根据权利要求1或2所述的一种基于多模型融合的用户分类方法，其特征在于，所述步骤S2的具体步骤为：

4.根据权利要求3所述的一种基于多模型融合的用户分类方法，其特征在于，所述步骤S2.3中训练的具体步骤为：将训练集输入XGBoost模型，即将训练集中所有的训练集样本输入XGBoost模型，添加一棵树，根据树对训练集中的特征进行分裂，若生长成的树满足参数的要求，训练完成，得到训练好的XGBoost模型，否则添加一棵树，再对上一次分裂的树进行分裂。

5.根据权利要求2所述的一种基于多模型融合的用户分类方法，其特征在于，所述步骤3的具体步骤包括：

OHE_train＝(list(leaves_max)*N_trees)^T，

6.根据权利要求1所述的一种基于多模型融合的用户分类方法，其特征在于，所述步骤S4得到XGBoost+LR融合模型后，将XGBoost+LR融合模型进行存储，输出PKL文件，PKL文件用于步骤S5调用。

7.根据权利要求1所述的一种基于多模型融合的用户分类方法，其特征在于：所述步骤S6中得到两个用户分类后，将两个用户分类分别进行高斯模型变换，得到最终的两个用户分数，再结合最终的两个用户分数进行最终分类。

8.根据权利要求7所述的一种基于多模型融合的用户分类方法，其特征在于：结合两个用户分类或结合最终的两个用户分数进行最终分类，是指将两个用户分类或最终的两个用户分数以列联的方式表示在二维区间上。