CN108090607A - 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 - Google Patents

一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 Download PDF

Info

Publication number
CN108090607A
CN108090607A CN201711326271.6A CN201711326271A CN108090607A CN 108090607 A CN108090607 A CN 108090607A CN 201711326271 A CN201711326271 A CN 201711326271A CN 108090607 A CN108090607 A CN 108090607A
Authority
CN
China
Prior art keywords
user
feature
model
tfidf
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711326271.6A
Other languages
English (en)
Inventor
郑子彬
吴垚明
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201711326271.6A priority Critical patent/CN108090607A/zh
Publication of CN108090607A publication Critical patent/CN108090607A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测。三个人口属性的预测均经过以下步骤:S1、用户特征提取;S2、模型训练;S3、多模型融合得出预测结果;本发明中特征的提取不只针对用户微博的文本内容,还涉及到统计类特征、时间信息类特征以及社交关系特征,保证了预测的准确度。采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合,能有效地降低泛化误差,大大提高预测的准确率。

Description

一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
技术领域
本发明涉及模型预测的技术领域,尤其涉及到一个基于多模型堆栈融合的社交媒体用户人口属性预测方法。
背景技术
随着我国信息化进程的不断推进,网络技术的不断发展,互联网、通信终端加快融入现代生活,微博、微信朋友圈等社交媒体作为一种新的媒体方式出现在人们的生活,并以迅猛的速度发展,并逐渐成为一种独立的、新的信息交流和传播方式,并不断改变着人们的生活。社交媒体迅速发展,在为人们提供社交便利的同时,也对广告媒体产生了巨大的冲击和影响。广告媒体如何利用社交媒体用户的特点,通过挖掘用户在社交媒体上面的行为偏好对用户的隐含特征如性别、年龄、地区等进行挖掘,根据挖掘出来的用户特征,更有针对性地投放广告,提高广告命中率,是广告媒体最关注的问题。
现有的社交媒体用户人口属性预测研究主要是针对用户所发博文的文本内容进行研究,常用的技术有K近邻算法、SVM、贝叶斯等方法,但是存在着以下一些问题:
1、由于社交媒体上所发布的内容中有大量广告、分享、新闻等用户原创的内容,只针对文本进行挖掘会有较大的误差。
2、数据高维问题。传统的文本分类方法一般是提取文本的TFIDF特征,维度可高达数十万维,对于传统的SVM分类模型会造成训练时间极长,不能有效收敛的问题。
3、数据存在不平衡的问题,微博用户大部分性别为男性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多模型堆栈融合的社交媒体用户人口属性预测方法。
为实现上述目的,本发明所提供的技术方案为:
对用户的性别、年龄、地区三个人口属性进行预测,三个人口属性的预测均经过以下步骤:
S1、用户特征提取:
性别特征提取:男性和女性在用词、关注话题等方面会存在一些偏好,比如男性用户会比较偏向与关注科技信息、体育资讯等方面的话题,女性用户则会较多关注护肤、美容等话题。利用TFIDF思想,把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,最终得到多维的TFIDF特征,最终通过卡方检验选取出前多维TFIDF特征。除了TFIDF特征外,还抽取了用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数等统计类特征。男女性用户一天内在社交媒体上的活跃时间段分布也有很大差异,于是提取了各时间段用户所发博文数量的时间信息类特征。
年龄特征提取:不同年龄段的用户的社交关系存在很大的差异,用户的社交圈子通常大部分都是同一年龄段的用户,因此年龄特征提取除了上述用到的经过卡方检验筛选后的TFIDF特征、统计类特征、时间信息类特征外还加入了用户的社交关系特征。
地区特征提取:地区特征包括上述的TFIDF特征、统计类特征、时间信息类特征、社交关系特征外还加入了用户所发博文中包含的省、市名。因为现代社交媒体有着定位、签到功能,当用户使用签到功能时博文文本中就会出现用户所在地的省市名,因此该类特征也能很好地描述用户的地区信息。
S2、模型训练:
逻辑回归模型(LR):是一种简单高效的线性模型,在实际应用中十分广泛快速,并且能够轻易地训练大规模数据,在很好地拟合模型的前提下,模型的解释度也能够很好地兼顾。
随机森林模型(RF):随机森林模型是Bagging组合模型中的一种,通过随机抽取样本数据、抽取特征来用多颗决策树来进行预测,最后结果由这些决策树的预测结果的共同组合来决定。多个决策树基分类器可以是若分类器,但是其组合结果的预测能力往往很强,同时,因为是随机抽取数据、特征进行训练多颗决策树,因此也能有效地降低过拟合。
XGBoost模型(XGB):XGBoost模型是Boosting组合模型中的一种,对训练损失做了二阶的泰勒展开,并在目标函数之外加入了正则项约束就能整体求最优解;XGBoost还有速度快,可移植,少写代码,克容错的优点。
本步骤中通过逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练,分别得出一份stacking特征;具体过程为:
先将TFIDF特征训练数据随机划分成五份,用相同模型训练四块训练集,并预测剩下的一块训练集各个类别的概率,并循环五次,得到每一块训练集的各个类别的概率;然后把五份预测出来的概率拼接起来得到训练集的stacking特征;最后采用训练得到的五个模型对测试集做预测,并对五个预测结果取均值得到测试集的stacking特征。
一份stacking特征中包括训练集的stacking特征以及测试集的stacking特征。
S3、多模型融合得出预测结果:
在步骤S2训练得到的三份stacking特征上,结合TFIDF特征之外的其他特征作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户属性类别的结果。
进一步地,TFIDF特征提取过程为:把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,然后计算出文档中每个词的TFIDF值,得出多维的TFIDF特征,最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出。
TFIDF是衡量某个词W的区分能力的一个重要特征,其主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
进一步地,社交关系特征提取具体步骤如下:
利用所有用户的粉丝关注关系构造一个有向的社交网络图,边的方向为用户指向其粉丝,训练Graph Embedding模型得到多维用户的embedding特征向量;该GraphEmbedding模型以某个用户为起点,通过随机游走遍历社交网络图,抽取出一系列相关的用户,把这一系列相关用户的集合视为一个文档,其中每个用户视为一个词,再通过word2vec算法来训练出每个用户的向量,学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度;两个节点间连线的权重越大,结点越相似;两个结点的共同邻居越多,结点越相似。
进一步地,统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计;时间信息类特征具体为各时间段用户所发的博文数、工作日发博数占比、日均发博数量。
与现有技术相比,本方案原理如下:
本方案经过用户特征提取、模型训练、多模型融合这三个步骤,基于用户的TFIDF特征、统计类特征、时间信息类特征以及社交关系特征,通过多模型堆栈融合的方式对用户的性别、年龄、地区三个人口属性特征进行预测。
与现有技术相比,本方案优点如下:
1、特征的提取不只针对用户微博的文本内容,还涉及到统计类特征、时间信息类特征以及社交关系特征,保证了预测的准确度。
2、采取多模型堆栈融合的方式来对逻辑回归、随机森林以及XGBoost三个模型进行融合,能有效地降低泛化误差,大大提高预测的准确率。
附图说明
图1为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行性别预测的基本流程框架;
图2为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行年龄预测的基本流程框架;
图3为本发明一种基于多模型堆栈融合的社交媒体用户人口属性预测方法中进行地区预测的基本流程框架。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
本实施例所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法:
如图1所示,进行性别属性预测时,具体步骤如下:
a1、进行TFIDF特征、统计类特征以及时间信息类特征的提取;
其中,进行TFIDF特征提取时,把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,然后计算出文档中每个词的TFIDF值,得出多维的TFIDF特征,最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出;
统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计;
时间信息类特征具体为统计用户在7:00~9:00,9:00~12:00,12:00~14:00,14:00~17:00,17:00~20:00,20:00~23:00,23:00~2:00,2:00~5:00,5:00~7:00这几个时间段里所发的博文数、工作日发博数占比、日均发博数量。
a2、利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练,分别得出一份stacking特征。
逻辑回归模型、随机森林模型以及XGBoost模型各训练得出一份stacking特征的具体过程均如下:
先将TFIDF特征训练数据随机划分成五份,用相同模型训练四块训练集,并预测剩下的一块训练集各个类别的概率,并循环五次,得到每一块训练集的各个类别的概率;然后把五份预测出来的概率拼接起来得到训练集的stacking特征;最后采用训练得到的五个模型对测试集做预测,并对五个预测结果取均值得到测试集的stacking特征。(一份stacking特征中包括训练集的stacking特征以及测试集的stacking特征)
a3、在步骤a2训练得到的三份stacking特征上,结合统计类特征以及时间信息类特征作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户性别属性的结果。
如图2所示,进行年龄属性预测时,具体步骤如下:
b1、进行TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取;
其中,进行TFIDF特征、统计类特征、时间信息类特征的提取与上述性别属性预测过程中TFIDF特征、统计类特征、时间信息类特征的提取一致;
社交关系特征提取具体步骤如下:
利用所有用户的粉丝关注关系构造一个有向的社交网络图,边的方向为用户指向其粉丝,训练Graph Embedding模型得到多维用户的embedding特征向量;该GraphEmbedding模型以某个用户为起点,通过随机游走遍历社交网络图,抽取出一系列相关的用户,把这一系列相关用户的集合视为一个文档,其中每个用户视为一个词,再通过word2vec算法来训练出每个用户的向量,学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度;两个节点间连线的权重越大,结点越相似;两个结点的共同邻居越多,结点越相似。
b2、利用逻辑回归模型、随机森林模型以及XGBoost模型对TFIDF特征进行训练,得出三份stacking特征。
b3、在步骤b2训练得到的三份stacking特征上,结合统计类特征、时间信息类特征以及社交关系特征作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户年龄属性的结果。
如图3所示,进行地区属性预测时,具体步骤如下:
c1、进行TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取;
其中,进行TFIDF特征、统计类特征、时间信息类特征、社交关系特征的提取与上述年龄属性预测过程中TFIDF特征、统计类特征、时间信息类特征、社交关系特征的提取一致;
c2、利用逻辑回归模型、随机森林模型以及XGBoost模型对TFIDF特征进行训练,得出三份stacking特征。
c3、在步骤c2训练得到的三份stacking特征上,结合统计类特征、时间信息类特征、社交关系特征以及该发博文用户的所在地的省市名称作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户地区属性的结果。
通过本实施例得到的年龄属性、性别属性、地区属性的预测结果,准确率能分别达到为0.648、0.883、0.727。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,对用户的性别、年龄、地区三个人口属性进行预测,其特征在于:所述三个人口属性的预测均经过以下步骤:
S1、用户特征提取;
S2、模型训练;
S3、多模型融合得出预测结果;
所述步骤S1中:
进行性别属性预测时,性别特征提取包括TFIDF特征、统计类特征以及时间信息类特征的提取;
进行年龄属性预测时,年龄特征提取包括TFIDF特征、统计类特征、时间信息类特征以及社交关系特征的提取;
进行地区属性预测时,地区特征提取包括TFIDF特征、统计类特征、时间信息类特征、社交关系特征以及用户所发博文中包含的省、市名的提取;
所述步骤S2中:
所述步骤S2模型训练包括逻辑回归模型、随机森林模型以及XGBoost模型,通过利用逻辑回归模型、随机森林模型以及XGBoost模型分别对TFIDF特征进行训练,分别得出一份stacking特征。
2.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述步骤S3多模型融合得出预测结果,在步骤S2训练得到的三份stacking特征上,结合TFIDF特征之外的其他特征作为第二层模型的特征,然后再对新的特征进行模型的训练,得到用户属性类别的结果。
3.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述TFIDF特征提取过程为:把每个用户所发的博文视为一个文档,其中的每个词语作为一个词,然后计算出文档中每个词的TFIDF值,得出多维的TFIDF特征,最后提取的TFIDF特征从该多维的TFIDF特征经过卡方检验筛选后得出。
4.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述社交关系特征提取具体步骤如下:
利用所有用户的粉丝关注关系构造一个有向的社交网络图,边的方向为用户指向其粉丝,训练Graph Embedding模型得到多维用户的embedding特征向量;该Graph Embedding模型以某个用户为起点,通过随机游走遍历社交网络图,抽取出一系列相关的用户,把这一系列相关用户的集合视为一个文档,其中每个用户视为一个词,再通过word2vec算法来训练出每个用户的向量,学习出用户的embedding特征向量的相似度用来衡量用户间的关系紧密程度;两个节点间连线的权重越大,结点越相似;两个结点的共同邻居越多,结点越相似。
5.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:
所述统计类特征包括用户所发博文总数、博文被转发数、评论数、平均词数以及粉丝数的统计;
所述时间信息类特征具体为各时间段用户所发的博文数、工作日发博数占比、日均发博数量。
6.根据权利要求1所述的一种基于多模型堆栈融合的社交媒体用户人口属性预测方法,其特征在于:所述步骤S2中,逻辑回归模型、随机森林模型以及XGBoost模型各训练得出一份stacking特征的具体过程均如下:
先将TFIDF特征训练数据随机划分成五份,用相同模型训练四块训练集,并预测剩下的一块训练集各个类别的概率,并循环五次,得到每一块训练集的各个类别的概率;然后把五份预测出来的概率拼接起来得到训练集的stacking特征;最后采用训练得到的五个模型对测试集做预测,并对五个预测结果取均值得到测试集的stacking特征。
CN201711326271.6A 2017-12-13 2017-12-13 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法 Pending CN108090607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711326271.6A CN108090607A (zh) 2017-12-13 2017-12-13 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711326271.6A CN108090607A (zh) 2017-12-13 2017-12-13 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

Publications (1)

Publication Number Publication Date
CN108090607A true CN108090607A (zh) 2018-05-29

Family

ID=62175262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711326271.6A Pending CN108090607A (zh) 2017-12-13 2017-12-13 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法

Country Status (1)

Country Link
CN (1) CN108090607A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877905A (zh) * 2018-06-12 2018-11-23 中南大学 一种基于Xgboost框架的医院门诊就诊量预测方法
CN109145175A (zh) * 2018-09-03 2019-01-04 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测方法
CN109241227A (zh) * 2018-09-03 2019-01-18 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测建模方法
CN109272165A (zh) * 2018-09-30 2019-01-25 江苏满运软件科技有限公司 注册概率预估方法、装置、存储介质及电子设备
CN109472462A (zh) * 2018-10-18 2019-03-15 中山大学 一种基于多模型堆栈融合的项目风险评级方法及装置
CN109886349A (zh) * 2019-02-28 2019-06-14 成都新希望金融信息有限公司 一种基于多模型融合的用户分类方法
CN109903142A (zh) * 2019-03-21 2019-06-18 中国联合网络通信集团有限公司 一种流量包匹配方法及装置
CN110222339A (zh) * 2019-06-05 2019-09-10 深圳市思迪信息技术股份有限公司 基于改进XGBoost算法的意图识别方法及装置
CN110245269A (zh) * 2019-05-06 2019-09-17 阿里巴巴集团控股有限公司 获取关系网络图中节点的动态嵌入向量的方法和装置
CN110674188A (zh) * 2019-09-27 2020-01-10 支付宝(杭州)信息技术有限公司 一种特征提取方法、装置及设备
CN111045716A (zh) * 2019-11-04 2020-04-21 中山大学 一种基于异构数据的相关补丁推荐方法
CN111125486A (zh) * 2019-12-23 2020-05-08 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN111143552A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN112084402A (zh) * 2020-08-24 2020-12-15 浙江云合数据科技有限责任公司 一种分析应用程序使用数据预测用户属性的方法
CN113052635A (zh) * 2021-03-30 2021-06-29 北京明略昭辉科技有限公司 人口属性标签预测方法、系统、计算机设备和存储介质
US11100167B2 (en) 2019-05-06 2021-08-24 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113807978A (zh) * 2021-09-07 2021-12-17 中国船舶重工集团公司第七0九研究所 基于注意力图神经网络的隐藏社群属性获取方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317822A (zh) * 2014-09-29 2015-01-28 新浪网技术(中国)有限公司 网络用户的人口属性预测方法和装置
CN106096653A (zh) * 2016-06-12 2016-11-09 中国科学院自动化研究所 基于跨平台用户社交多媒体行为的人口属性推断方法
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317822A (zh) * 2014-09-29 2015-01-28 新浪网技术(中国)有限公司 网络用户的人口属性预测方法和装置
CN106096653A (zh) * 2016-06-12 2016-11-09 中国科学院自动化研究所 基于跨平台用户社交多媒体行为的人口属性推断方法
CN107330445A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 用户属性的预测方法和装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108877905B (zh) * 2018-06-12 2020-11-10 中南大学 一种基于Xgboost框架的医院门诊就诊量预测方法
CN108877905A (zh) * 2018-06-12 2018-11-23 中南大学 一种基于Xgboost框架的医院门诊就诊量预测方法
CN109145175A (zh) * 2018-09-03 2019-01-04 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测方法
CN109241227A (zh) * 2018-09-03 2019-01-18 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测建模方法
CN109145175B (zh) * 2018-09-03 2023-05-30 成都卡普数据服务有限责任公司 基于stacking集成学习算法的时空数据预测方法
CN109272165A (zh) * 2018-09-30 2019-01-25 江苏满运软件科技有限公司 注册概率预估方法、装置、存储介质及电子设备
CN109272165B (zh) * 2018-09-30 2021-04-20 满帮信息咨询有限公司 注册概率预估方法、装置、存储介质及电子设备
CN109472462A (zh) * 2018-10-18 2019-03-15 中山大学 一种基于多模型堆栈融合的项目风险评级方法及装置
CN109472462B (zh) * 2018-10-18 2022-02-01 中山大学 一种基于多模型堆栈融合的项目风险评级方法及装置
CN109886349A (zh) * 2019-02-28 2019-06-14 成都新希望金融信息有限公司 一种基于多模型融合的用户分类方法
CN109886349B (zh) * 2019-02-28 2019-11-19 成都新希望金融信息有限公司 一种基于多模型融合的用户分类方法
CN109903142A (zh) * 2019-03-21 2019-06-18 中国联合网络通信集团有限公司 一种流量包匹配方法及装置
US11100167B2 (en) 2019-05-06 2021-08-24 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs
US11288318B2 (en) 2019-05-06 2022-03-29 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs
CN110245269A (zh) * 2019-05-06 2019-09-17 阿里巴巴集团控股有限公司 获取关系网络图中节点的动态嵌入向量的方法和装置
CN110222339A (zh) * 2019-06-05 2019-09-10 深圳市思迪信息技术股份有限公司 基于改进XGBoost算法的意图识别方法及装置
CN110674188A (zh) * 2019-09-27 2020-01-10 支付宝(杭州)信息技术有限公司 一种特征提取方法、装置及设备
CN111045716B (zh) * 2019-11-04 2022-02-22 中山大学 一种基于异构数据的相关补丁推荐方法
CN111045716A (zh) * 2019-11-04 2020-04-21 中山大学 一种基于异构数据的相关补丁推荐方法
CN111143552A (zh) * 2019-12-05 2020-05-12 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN111125486B (zh) * 2019-12-23 2022-11-25 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN111125486A (zh) * 2019-12-23 2020-05-08 重庆邮电大学 一种基于多特征的微博用户属性分析方法
CN112084402A (zh) * 2020-08-24 2020-12-15 浙江云合数据科技有限责任公司 一种分析应用程序使用数据预测用户属性的方法
CN113052635A (zh) * 2021-03-30 2021-06-29 北京明略昭辉科技有限公司 人口属性标签预测方法、系统、计算机设备和存储介质
CN113704502A (zh) * 2021-08-27 2021-11-26 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113704502B (zh) * 2021-08-27 2023-04-21 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113807978A (zh) * 2021-09-07 2021-12-17 中国船舶重工集团公司第七0九研究所 基于注意力图神经网络的隐藏社群属性获取方法与系统

Similar Documents

Publication Publication Date Title
CN108090607A (zh) 一种基于多模型堆栈融合的社交媒体用户人口属性预测方法
Liu et al. TASC: Topic-adaptive sentiment classification on dynamic tweets
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
Sun et al. Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN104182389B (zh) 一种基于语义的大数据分析商业智能服务系统
Yang et al. Mave: A product dataset for multi-source attribute value extraction
TWI356315B (en) Method and system for constructing data tag based
CN106940732A (zh) 一种面向微博的疑似水军发现方法
Gao et al. Network model of knowledge diffusion
CN107357793A (zh) 信息推荐方法和装置
CN108897784A (zh) 一个基于社交媒体的突发事件多维分析系统
Yu et al. Data fusion oriented graph convolution network model for rumor detection
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
WO2023155508A1 (zh) 一种基于图卷积神经网络和知识库的论文相关性分析方法
Tran et al. Aspect extraction with bidirectional GRU and CRF
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
CN112487161A (zh) 一种面向企业需求的专家推荐方法、装置、介质及设备
Asgari-Chenaghlu et al. Topicbert: A transformer transfer learning based memory-graph approach for multimodal streaming social media topic detection
CN106919997A (zh) 一种基于lda的电子商务的用户消费预测方法
Ma et al. A time-series based aggregation scheme for topic detection in Weibo short texts
CN106649380A (zh) 一种基于标签的热点推荐方法及系统
Avigdor-Elgrabli et al. Structural clustering of machine-generated mail
Hossain et al. Social networking sites data analysis using NLP and ML to predict depression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication