CN108090607A

CN108090607A - 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

Info

Publication number: CN108090607A
Application number: CN201711326271.6A
Authority: CN
Inventors: 郑子彬; 吴垚明; 陈亮
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-05-29

Abstract

本发明涉及一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，对用户的性别、年龄、地区三个人口属性进行预测。三个人口属性的预测均经过以下步骤：S1、用户特征提取；S2、模型训练；S3、多模型融合得出预测结果；本发明中特征的提取不只针对用户微博的文本内容，还涉及到统计类特征、时间信息类特征以及社交关系特征，保证了预测的准确度。采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合，能有效地降低泛化误差，大大提高预测的准确率。

Description

一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

技术领域

本发明涉及模型预测的技术领域，尤其涉及到一个基于多模型堆栈融合的社交媒体用户人口属性预测方法。

背景技术

随着我国信息化进程的不断推进，网络技术的不断发展，互联网、通信终端加快融入现代生活，微博、微信朋友圈等社交媒体作为一种新的媒体方式出现在人们的生活，并以迅猛的速度发展，并逐渐成为一种独立的、新的信息交流和传播方式，并不断改变着人们的生活。社交媒体迅速发展，在为人们提供社交便利的同时，也对广告媒体产生了巨大的冲击和影响。广告媒体如何利用社交媒体用户的特点，通过挖掘用户在社交媒体上面的行为偏好对用户的隐含特征如性别、年龄、地区等进行挖掘，根据挖掘出来的用户特征，更有针对性地投放广告，提高广告命中率，是广告媒体最关注的问题。

现有的社交媒体用户人口属性预测研究主要是针对用户所发博文的文本内容进行研究，常用的技术有K近邻算法、SVM、贝叶斯等方法，但是存在着以下一些问题：

1、由于社交媒体上所发布的内容中有大量广告、分享、新闻等用户原创的内容，只针对文本进行挖掘会有较大的误差。

2、数据高维问题。传统的文本分类方法一般是提取文本的TFIDF特征，维度可高达数十万维，对于传统的SVM分类模型会造成训练时间极长，不能有效收敛的问题。

3、数据存在不平衡的问题，微博用户大部分性别为男性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多模型堆栈融合的社交媒体用户人口属性预测方法。

为实现上述目的，本发明所提供的技术方案为：

对用户的性别、年龄、地区三个人口属性进行预测，三个人口属性的预测均经过以下步骤：

S1、用户特征提取：

性别特征提取：男性和女性在用词、关注话题等方面会存在一些偏好，比如男性用户会比较偏向与关注科技信息、体育资讯等方面的话题，女性用户则会较多关注护肤、美容等话题。利用TFIDF思想，把每个用户所发的博文视为一个文档，其中的每个词语作为一个词，最终得到多维的TFIDF特征，最终通过卡方检验选取出前多维TFIDF特征。除了TFIDF特征外，还抽取了用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数等统计类特征。男女性用户一天内在社交媒体上的活跃时间段分布也有很大差异，于是提取了各时间段用户所发博文数量的时间信息类特征。

年龄特征提取：不同年龄段的用户的社交关系存在很大的差异，用户的社交圈子通常大部分都是同一年龄段的用户，因此年龄特征提取除了上述用到的经过卡方检验筛选后的TFIDF特征、统计类特征、时间信息类特征外还加入了用户的社交关系特征。

地区特征提取：地区特征包括上述的TFIDF特征、统计类特征、时间信息类特征、社交关系特征外还加入了用户所发博文中包含的省、市名。因为现代社交媒体有着定位、签到功能，当用户使用签到功能时博文文本中就会出现用户所在地的省市名，因此该类特征也能很好地描述用户的地区信息。

S2、模型训练：

逻辑回归模型(LR)：是一种简单高效的线性模型，在实际应用中十分广泛快速，并且能够轻易地训练大规模数据，在很好地拟合模型的前提下，模型的解释度也能够很好地兼顾。

随机森林模型(RF)：随机森林模型是Bagging组合模型中的一种，通过随机抽取样本数据、抽取特征来用多颗决策树来进行预测，最后结果由这些决策树的预测结果的共同组合来决定。多个决策树基分类器可以是若分类器，但是其组合结果的预测能力往往很强，同时，因为是随机抽取数据、特征进行训练多颗决策树，因此也能有效地降低过拟合。

XGBoost模型(XGB)：XGBoost模型是Boosting组合模型中的一种，对训练损失做了二阶的泰勒展开，并在目标函数之外加入了正则项约束就能整体求最优解；XGBoost还有速度快，可移植，少写代码，克容错的优点。

本步骤中通过逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练，分别得出一份stacking特征；具体过程为：

先将TFIDF特征训练数据随机划分成五份，用相同模型训练四块训练集，并预测剩下的一块训练集各个类别的概率，并循环五次，得到每一块训练集的各个类别的概率；然后把五份预测出来的概率拼接起来得到训练集的stacking特征；最后采用训练得到的五个模型对测试集做预测，并对五个预测结果取均值得到测试集的stacking特征。

一份stacking特征中包括训练集的stacking特征以及测试集的stacking特征。

S3、多模型融合得出预测结果：

在步骤S2训练得到的三份stacking特征上，结合TFIDF特征之外的其他特征作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户属性类别的结果。

进一步地，TFIDF特征提取过程为：把每个用户所发的博文视为一个文档，其中的每个词语作为一个词，然后计算出文档中每个词的TFIDF值，得出多维的TFIDF特征，最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出。

TFIDF是衡量某个词W的区分能力的一个重要特征，其主要思想是：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。

进一步地，社交关系特征提取具体步骤如下：

利用所有用户的粉丝关注关系构造一个有向的社交网络图，边的方向为用户指向其粉丝，训练Graph Embedding模型得到多维用户的embedding特征向量；该GraphEmbedding模型以某个用户为起点，通过随机游走遍历社交网络图，抽取出一系列相关的用户，把这一系列相关用户的集合视为一个文档，其中每个用户视为一个词，再通过word2vec算法来训练出每个用户的向量，学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度；两个节点间连线的权重越大，结点越相似；两个结点的共同邻居越多，结点越相似。

进一步地，统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计；时间信息类特征具体为各时间段用户所发的博文数、工作日发博数占比、日均发博数量。

与现有技术相比，本方案原理如下：

本方案经过用户特征提取、模型训练、多模型融合这三个步骤，基于用户的TFIDF特征、统计类特征、时间信息类特征以及社交关系特征，通过多模型堆栈融合的方式对用户的性别、年龄、地区三个人口属性特征进行预测。

与现有技术相比，本方案优点如下：

1、特征的提取不只针对用户微博的文本内容，还涉及到统计类特征、时间信息类特征以及社交关系特征，保证了预测的准确度。

2、采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合，能有效地降低泛化误差，大大提高预测的准确率。

附图说明

图1为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行性别预测的基本流程框架；

图2为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行年龄预测的基本流程框架；

图3为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行地区预测的基本流程框架。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

本实施例所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法：

如图1所示，进行性别属性预测时，具体步骤如下：

a1、进行TFIDF特征、统计类特征以及时间信息类特征的提取；

其中，进行TFIDF特征提取时，把每个用户所发的博文视为一个文档，其中的每个词语作为一个词，然后计算出文档中每个词的TFIDF值，得出多维的TFIDF特征，最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出；

统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计；

时间信息类特征具体为统计用户在7:00～9:00,9:00～12:00，12:00～14:00,14:00～17:00,17:00～20:00,20:00～23:00,23:00～2:00,2:00～5:00,5:00～7:00这几个时间段里所发的博文数、工作日发博数占比、日均发博数量。

a2、利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练，分别得出一份stacking特征。

逻辑回归模型、随机森林模型以及XGBoost模型各训练得出一份stacking特征的具体过程均如下：

先将TFIDF特征训练数据随机划分成五份，用相同模型训练四块训练集，并预测剩下的一块训练集各个类别的概率，并循环五次，得到每一块训练集的各个类别的概率；然后把五份预测出来的概率拼接起来得到训练集的stacking特征；最后采用训练得到的五个模型对测试集做预测，并对五个预测结果取均值得到测试集的stacking特征。(一份stacking特征中包括训练集的stacking特征以及测试集的stacking特征)

a3、在步骤a2训练得到的三份stacking特征上，结合统计类特征以及时间信息类特征作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户性别属性的结果。

如图2所示，进行年龄属性预测时，具体步骤如下：

b1、进行TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取；

其中，进行TFIDF特征、统计类特征、时间信息类特征的提取与上述性别属性预测过程中TFIDF特征、统计类特征、时间信息类特征的提取一致；

社交关系特征提取具体步骤如下：

b2、利用逻辑回归模型、随机森林模型以及XGBoost模型对TFIDF特征进行训练，得出三份stacking特征。

b3、在步骤b2训练得到的三份stacking特征上，结合统计类特征、时间信息类特征以及社交关系特征作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户年龄属性的结果。

如图3所示，进行地区属性预测时，具体步骤如下：

c1、进行TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取；

其中，进行TFIDF特征、统计类特征、时间信息类特征、社交关系特征的提取与上述年龄属性预测过程中TFIDF特征、统计类特征、时间信息类特征、社交关系特征的提取一致；

c2、利用逻辑回归模型、随机森林模型以及XGBoost模型对TFIDF特征进行训练，得出三份stacking特征。

c3、在步骤c2训练得到的三份stacking特征上，结合统计类特征、时间信息类特征、社交关系特征以及该发博文用户的所在地的省市名称作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户地区属性的结果。

通过本实施例得到的年龄属性、性别属性、地区属性的预测结果，准确率能分别达到为0.648、0.883、0.727。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，对用户的性别、年龄、地区三个人口属性进行预测，其特征在于：所述三个人口属性的预测均经过以下步骤：

S1、用户特征提取；

S2、模型训练；

S3、多模型融合得出预测结果；

所述步骤S1中：

进行性别属性预测时，性别特征提取包括TFIDF特征、统计类特征以及时间信息类特征的提取；

进行年龄属性预测时，年龄特征提取包括TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取；

进行地区属性预测时，地区特征提取包括TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取；

所述步骤S2中：

所述步骤S2模型训练包括逻辑回归模型、随机森林模型以及XGBoost模型，通过利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练，分别得出一份stacking特征。

2.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，其特征在于：

所述步骤S3多模型融合得出预测结果，在步骤S2训练得到的三份stacking特征上，结合TFIDF特征之外的其他特征作为第二层模型的特征，然后再对新的特征进行模型的训练，得到用户属性类别的结果。

3.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，其特征在于：

所述TFIDF特征提取过程为：把每个用户所发的博文视为一个文档，其中的每个词语作为一个词，然后计算出文档中每个词的TFIDF值，得出多维的TFIDF特征，最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出。

4.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，其特征在于：

所述社交关系特征提取具体步骤如下：

利用所有用户的粉丝关注关系构造一个有向的社交网络图，边的方向为用户指向其粉丝，训练Graph Embedding模型得到多维用户的embedding特征向量；该Graph Embedding模型以某个用户为起点，通过随机游走遍历社交网络图，抽取出一系列相关的用户，把这一系列相关用户的集合视为一个文档，其中每个用户视为一个词，再通过word2vec算法来训练出每个用户的向量，学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度；两个节点间连线的权重越大，结点越相似；两个结点的共同邻居越多，结点越相似。

5.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，其特征在于：

所述统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计；

所述时间信息类特征具体为各时间段用户所发的博文数、工作日发博数占比、日均发博数量。

6.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法，其特征在于：所述步骤S2中，逻辑回归模型、随机森林模型以及XGBoost模型各训练得出一份stacking特征的具体过程均如下：