CN114820050A - 一种多模型融合的用户属性预测方法 - Google Patents

一种多模型融合的用户属性预测方法 Download PDF

Info

Publication number
CN114820050A
CN114820050A CN202210380743.0A CN202210380743A CN114820050A CN 114820050 A CN114820050 A CN 114820050A CN 202210380743 A CN202210380743 A CN 202210380743A CN 114820050 A CN114820050 A CN 114820050A
Authority
CN
China
Prior art keywords
model
algorithm
training
accuracy
stacking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210380743.0A
Other languages
English (en)
Inventor
黎才茂
陈秋红
林昊
侯玉权
李�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202210380743.0A priority Critical patent/CN114820050A/zh
Publication of CN114820050A publication Critical patent/CN114820050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Stacking多模型融合的用户属性预测方法,包括数据收集、特征工程、模型训练、交叉验证和精度评价;在数据收集中获取用户的广告点击浏览记录并将数据进行清洗以及分割;在特征工程中使用特征相关性热力图显示各特征之间的相关性并使用XGBoost算法得到各特征重要性排名,结合特征的相关性和重要性排名对特征进行筛选;在模型训练过程中使用逻辑回归、随机森林、极限树、XGBoost算法作为Stacking模型的第一层,使用LightGBM作为Stacking模型的第二层对特征进行训练;交叉验证时使用五折交叉验证方式;精度评价过程中使用准确率、召回率、F1值以及精确率对预测结果进行评价;本发明能对广告用户的性别和年龄进行预测。

Description

一种多模型融合的用户属性预测方法
技术领域
本发明属于机器学习领域,涉及一种多模型融合的用户属性预测方法。
背景技术
随着网络技术的快速发展,网络广告成为商家宣传的主要方式之一;在网络上发布广告,传播速度更快、传播范围更广,比线下发布广告的效率更高,因此网络上充满了各式各样的广告;在广告定向中,用户的搜索内容、浏览记录和基础属性等有着重要作用,其中基础属性性别、年龄至关重要,但并非所有用户都愿意公开自己的年龄、性别信息,因此会导致用户的基础属性数据缺失,就需要利用现有数据及相关算法进行预测。
目前现有研究主要采用 SVM、贝叶斯等传统机器学习方法,集成学习作为机器学习的重要部分也逐渐被应用于用户属性预测领域;现有的用户属性预测方法大多通过分析用户的搜索、浏览等互联网行为数据,结合贝叶斯网络算法、随机森林、SVM等单一机器学习算法对用户的性别及年龄进行预测;也有学者以微博用户为研究对象,基于用户昵称、标签、微博文本等对用户的性别、年龄进行预测推测,但其准确率仅为 73.6%;还有的预测方法将LightGBM和FM等算法融合,分析智能手机 App 安装和使用情况,预测用户的基础属性,最终其对性别的预测准确率为67.65%。
综上所述,目前对于广告用户的性别、年龄预测还处于起步阶段,大多使用朴素贝叶斯或者支持向量机等机器学习常用的算法,并且算法较为单一,导致对属性的预测效果不佳。
发明内容
为解决现有技术在广告用户属性预测的不足,本发明提供了一种用户属性预测方法。有效提升了用户属性预测效果较差的问题,技术方案如下:
一种基于Stacking多模型融合的用户属性预测方法主要步骤如下:
(1)对用户的浏览记录进行数值化处理得到训练样本,并将数据集划分为训练集和测试集;
(2)对特征相关性进行分析以及重要性排名,剔除掉相关性高,并重要性排名较低的特征,实现对特征的筛选;
(3)将处理好的数据集输入到基于Stacking的多算法模型中进行训练,实现多层次、多算法的融合学习;
(4)采用五折交叉验证的方式对模型进行训练,最大程度的减少过拟合;
(5)将测试集输入到预测模型中得到预测结果,并得到用户年龄和性别征准确率、召回率、F1值和精确度等性能指标;
(6)对Stacking第一层的元分类器逻辑回归、随机森林、极限树和XGBoost算法进行随机组合得到14组对比模型,分别将数据集输入到14个模型中进行训练,结合本方法的模型对比15个模型的准确率、召回率、F1值和精确度等性能指标,验证模型预测的效果。
附图说明
为了更清楚的说明本发明的具体技术方案,下面将对本发明中涉及的附图进行说明。
图 1 是训练流程图;
图 2 是特征相关性热力图;
图 3 是特征重要性排名图;
图 4 是Stacking的流程图;
图 5 是多模型-LightGBM模型图。
具体实施方式
下面结合附图对本发明进行说明。
本发明提出了一种基于Stacking多模型融合的用户属性预测方法,该方法可以解决用户基础属性年龄、性别数据缺失的问题,可以运用于用户画像以及后续的个性化推荐中,能够有效提高用户画像准确率,提高广告的投放效果。
从用户对广告的点击历史中,获取用户的浏览日志数据并进行预处理;将所处理数据使用热力图进行相关性分析以及使用XGBoost算法对特征重要性进行排名,实现对特征的筛选;筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征;将数据输入到模型中进行训练以及预测。
本发明的具体操作流程如下:
(1)提取用户的广告浏览记录,并对数据进行处理,得到用户id、年龄、性别、日期、点击次数,被点击的广告的信息包括素材 id、广告 id、产品 id、产品类目 id、广告主id、广告主行业 id等11个用户特征,以此为基础,并将数据集分为训练集和测试集;
(2)首先使用热力图多11个特征进行相关性分析,得到的结果如图3所示,其次使用XGBoost算法对11个特征进行重要性排名,排名结果如图4所示,筛选后得到的特征包括用户id、产品 id、广告主id、广告主行业 id、年龄、点击次数以及性别等7个特征;
(3)整个训练过程采用五折交叉验证的方式进行训练,五折交叉验证就是将训练集等分成五份,其中的四折作训练集,另外一折为测试集,重复训练五次得到和原训练集相同长度的预测值,然后作为Stage2 模型的训练集。同样的,真正的测试数据集也重复五次,用经过训练集训练好的Stage1模型作预测,预测值取平均后作为第二层的测试数据,经过第二层模型预测后得到最终输出结果,Stacking模型的整体框架如图2所示;
(4)选择逻辑回归、随机森林、极限树和XGBoost算法作为Stacking模型的第一层,选择LightGBM作为Stacking模型的第二层,模型的结构如图5所示,将训练集输入到模型中进行训练,保存得到的第一层训练结果,作为新的训练集输入到第二层模型中进行训练,将第一层训练得到的测试集取平均,得到新的测试集,并将其作为新的测试集输入到第二层模型中,最后得到预测结果。

Claims (1)

1.一种多模型融合的用户属性预测方法,包括以下步骤:
(1)数据采集:对广告用户的点击浏览历史进行记录,对浏览记录进行数值化处理得到训练样本,并将所述训练集划分为用于训练和测试的训练集和测试集;
(2)特征工程:使用热力图对和特征之间的相关性进行分析,并使用XGBoost算法对各特征进行重要性排名,剔除掉相关性高,并重要性排名较低的特征,实现对特征的筛选;
(3)模型训练:将逻辑回归、随机森林、极限树和XGBoost算法作为Stacking模型第一层的元分类器对数据,使用LightGBM作为Stacking模型第二层的元分类器进行训练,实现多层次、多算法的融合学习;
(4)交叉验证:采用五折交叉验证的方式对模型进行训练,最大程度的减少过拟合;
(5)精度评价:将测试集输入到预测模型中得到预测结果,并得到用户年龄和性别征准确率、召回率、F1值和精确度等性能指标;
(6)消融实验:对Stacking第一层的元分类器逻辑回归、随机森林、极限树和XGBoost算法进行随机组合得到14组对比模型,分别将数据集输入到14个模型中进行训练,结合本方法的模型对比15个模型的准确率、召回率、F1值和精确度等性能指标,验证模型预测的效果。
CN202210380743.0A 2022-04-12 2022-04-12 一种多模型融合的用户属性预测方法 Pending CN114820050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380743.0A CN114820050A (zh) 2022-04-12 2022-04-12 一种多模型融合的用户属性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380743.0A CN114820050A (zh) 2022-04-12 2022-04-12 一种多模型融合的用户属性预测方法

Publications (1)

Publication Number Publication Date
CN114820050A true CN114820050A (zh) 2022-07-29

Family

ID=82535624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380743.0A Pending CN114820050A (zh) 2022-04-12 2022-04-12 一种多模型融合的用户属性预测方法

Country Status (1)

Country Link
CN (1) CN114820050A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271271A (zh) * 2022-09-29 2022-11-01 华北理工大学 基于Stacking的学生成绩预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115271271A (zh) * 2022-09-29 2022-11-01 华北理工大学 基于Stacking的学生成绩预测方法

Similar Documents

Publication Publication Date Title
CN107562818B (zh) 信息推荐系统及方法
TWI591556B (zh) Search engine results sorting method and system
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
WO2015055094A1 (zh) 筛选条件提供方法、装置和搜索方法、装置
CN104077407B (zh) 一种智能数据搜索系统及方法
WO2007070199A1 (en) Advertising keyword cross-selling
CN104391883B (zh) 一种基于迁移学习的在线广告受众排序方法
WO2015089860A1 (zh) 基于用户参与的搜索引擎排序方法
CN105426514A (zh) 个性化的移动应用app推荐方法
CN111177538A (zh) 一种基于无监督权值计算的用户兴趣标签构建方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN110647678A (zh) 一种基于用户性格标签的推荐方法
Hossen et al. Hotel review analysis for the prediction of business using deep learning approach
CN108664558A (zh) 一种面向大规模用户的网络电视个性化推荐服务方法
CN101986301B (zh) 一种基于逆邻分析的协作过滤推荐系统及方法
CN114820050A (zh) 一种多模型融合的用户属性预测方法
Kaur Web content classification: a survey
Jiang et al. Durable product review mining for customer segmentation
US20130332440A1 (en) Refinements in Document Analysis
Alamsyah et al. A Comparison of Indonesia’ s E-Commerce Sentiment Analysis for Marketing Intelligence Effort (case study of Bukalapak, Tokopedia and Elevenia)
CN115712777A (zh) 一种基于逻辑回归的文献推荐系统的排序方法
Özyirmidokuz et al. Analyzing customer complaints: a web text mining application
US20220222715A1 (en) System and method for detecting and analyzing discussion points from written reviews
Feng et al. Retracted: Recommendation Algorithm Based on Tag Time Weighting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication