CN114820050A

CN114820050A - 一种多模型融合的用户属性预测方法

Info

Publication number: CN114820050A
Application number: CN202210380743.0A
Authority: CN
Inventors: 黎才茂; 陈秋红; 林昊; 侯玉权; 李�浩
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-29

Abstract

本发明公开了一种基于Stacking多模型融合的用户属性预测方法,包括数据收集、特征工程、模型训练、交叉验证和精度评价；在数据收集中获取用户的广告点击浏览记录并将数据进行清洗以及分割；在特征工程中使用特征相关性热力图显示各特征之间的相关性并使用XGBoost算法得到各特征重要性排名，结合特征的相关性和重要性排名对特征进行筛选；在模型训练过程中使用逻辑回归、随机森林、极限树、XGBoost算法作为Stacking模型的第一层，使用LightGBM作为Stacking模型的第二层对特征进行训练；交叉验证时使用五折交叉验证方式；精度评价过程中使用准确率、召回率、F1值以及精确率对预测结果进行评价；本发明能对广告用户的性别和年龄进行预测。

Description

一种多模型融合的用户属性预测方法

技术领域

本发明属于机器学习领域，涉及一种多模型融合的用户属性预测方法。

背景技术

随着网络技术的快速发展，网络广告成为商家宣传的主要方式之一；在网络上发布广告，传播速度更快、传播范围更广，比线下发布广告的效率更高，因此网络上充满了各式各样的广告；在广告定向中，用户的搜索内容、浏览记录和基础属性等有着重要作用，其中基础属性性别、年龄至关重要，但并非所有用户都愿意公开自己的年龄、性别信息，因此会导致用户的基础属性数据缺失，就需要利用现有数据及相关算法进行预测。

目前现有研究主要采用 SVM、贝叶斯等传统机器学习方法，集成学习作为机器学习的重要部分也逐渐被应用于用户属性预测领域；现有的用户属性预测方法大多通过分析用户的搜索、浏览等互联网行为数据，结合贝叶斯网络算法、随机森林、SVM等单一机器学习算法对用户的性别及年龄进行预测；也有学者以微博用户为研究对象，基于用户昵称、标签、微博文本等对用户的性别、年龄进行预测推测，但其准确率仅为 73.6%；还有的预测方法将LightGBM和FM等算法融合，分析智能手机 App 安装和使用情况，预测用户的基础属性，最终其对性别的预测准确率为67.65%。

综上所述，目前对于广告用户的性别、年龄预测还处于起步阶段，大多使用朴素贝叶斯或者支持向量机等机器学习常用的算法，并且算法较为单一，导致对属性的预测效果不佳。

发明内容

为解决现有技术在广告用户属性预测的不足，本发明提供了一种用户属性预测方法。有效提升了用户属性预测效果较差的问题，技术方案如下：

一种基于Stacking多模型融合的用户属性预测方法主要步骤如下：

（1）对用户的浏览记录进行数值化处理得到训练样本，并将数据集划分为训练集和测试集；

（2）对特征相关性进行分析以及重要性排名，剔除掉相关性高，并重要性排名较低的特征，实现对特征的筛选；

（3）将处理好的数据集输入到基于Stacking的多算法模型中进行训练，实现多层次、多算法的融合学习；

（4）采用五折交叉验证的方式对模型进行训练，最大程度的减少过拟合；

（5）将测试集输入到预测模型中得到预测结果，并得到用户年龄和性别征准确率、召回率、F1值和精确度等性能指标；

（6）对Stacking第一层的元分类器逻辑回归、随机森林、极限树和XGBoost算法进行随机组合得到14组对比模型，分别将数据集输入到14个模型中进行训练，结合本方法的模型对比15个模型的准确率、召回率、F1值和精确度等性能指标，验证模型预测的效果。

附图说明

为了更清楚的说明本发明的具体技术方案，下面将对本发明中涉及的附图进行说明。

图 1 是训练流程图；

图 2 是特征相关性热力图；

图 3 是特征重要性排名图；

图 4 是Stacking的流程图；

图 5 是多模型-LightGBM模型图。

具体实施方式

下面结合附图对本发明进行说明。

本发明提出了一种基于Stacking多模型融合的用户属性预测方法，该方法可以解决用户基础属性年龄、性别数据缺失的问题，可以运用于用户画像以及后续的个性化推荐中，能够有效提高用户画像准确率，提高广告的投放效果。

从用户对广告的点击历史中，获取用户的浏览日志数据并进行预处理；将所处理数据使用热力图进行相关性分析以及使用XGBoost算法对特征重要性进行排名，实现对特征的筛选；筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征；将数据输入到模型中进行训练以及预测。

本发明的具体操作流程如下：

（1）提取用户的广告浏览记录，并对数据进行处理，得到用户id、年龄、性别、日期、点击次数，被点击的广告的信息包括素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id等11个用户特征，以此为基础，并将数据集分为训练集和测试集；

（2）首先使用热力图多11个特征进行相关性分析，得到的结果如图3所示，其次使用XGBoost算法对11个特征进行重要性排名，排名结果如图4所示，筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征；

（3）整个训练过程采用五折交叉验证的方式进行训练，五折交叉验证就是将训练集等分成五份，其中的四折作训练集，另外一折为测试集，重复训练五次得到和原训练集相同长度的预测值，然后作为Stage2 模型的训练集。同样的，真正的测试数据集也重复五次，用经过训练集训练好的Stage1模型作预测，预测值取平均后作为第二层的测试数据，经过第二层模型预测后得到最终输出结果，Stacking模型的整体框架如图2所示；

（4）选择逻辑回归、随机森林、极限树和XGBoost算法作为Stacking模型的第一层，选择LightGBM作为Stacking模型的第二层，模型的结构如图5所示，将训练集输入到模型中进行训练，保存得到的第一层训练结果，作为新的训练集输入到第二层模型中进行训练，将第一层训练得到的测试集取平均，得到新的测试集，并将其作为新的测试集输入到第二层模型中，最后得到预测结果。

Claims

1.一种多模型融合的用户属性预测方法,包括以下步骤：

（1）数据采集：对广告用户的点击浏览历史进行记录，对浏览记录进行数值化处理得到训练样本，并将所述训练集划分为用于训练和测试的训练集和测试集；

（2）特征工程：使用热力图对和特征之间的相关性进行分析，并使用XGBoost算法对各特征进行重要性排名，剔除掉相关性高，并重要性排名较低的特征，实现对特征的筛选；

（3）模型训练：将逻辑回归、随机森林、极限树和XGBoost算法作为Stacking模型第一层的元分类器对数据，使用LightGBM作为Stacking模型第二层的元分类器进行训练，实现多层次、多算法的融合学习；

（4）交叉验证：采用五折交叉验证的方式对模型进行训练，最大程度的减少过拟合；

（5）精度评价：将测试集输入到预测模型中得到预测结果，并得到用户年龄和性别征准确率、召回率、F1值和精确度等性能指标；

（6）消融实验：对Stacking第一层的元分类器逻辑回归、随机森林、极限树和XGBoost算法进行随机组合得到14组对比模型，分别将数据集输入到14个模型中进行训练，结合本方法的模型对比15个模型的准确率、召回率、F1值和精确度等性能指标，验证模型预测的效果。