CN108460499B - 一种融合用户时间信息的微博客用户影响力排名方法 - Google Patents

一种融合用户时间信息的微博客用户影响力排名方法 Download PDF

Info

Publication number
CN108460499B
CN108460499B CN201810281738.8A CN201810281738A CN108460499B CN 108460499 B CN108460499 B CN 108460499B CN 201810281738 A CN201810281738 A CN 201810281738A CN 108460499 B CN108460499 B CN 108460499B
Authority
CN
China
Prior art keywords
user
influence
users
tensor
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810281738.8A
Other languages
English (en)
Other versions
CN108460499A (zh
Inventor
廖祥文
陈国龙
张凌鹰
杨定达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810281738.8A priority Critical patent/CN108460499B/zh
Publication of CN108460499A publication Critical patent/CN108460499A/zh
Application granted granted Critical
Publication of CN108460499B publication Critical patent/CN108460499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合用户时间信息的微博客用户影响力排名方法,包括步骤:(1)对微博客用户进行特征化处理;(2)根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;(3)对潜在有影响力用户集构建特定话题领域下的张量影响力模型;(4)利用张量分解重构新的张量影响力模型;(5)根据重构的张量影响力模型预测用户的影响力得分;(6)根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。本发明方法可提高特定话题领域下用户影响力预测精度。

Description

一种融合用户时间信息的微博客用户影响力排名方法
技术领域
本发明涉及用户影响力分析技术领域,尤其涉及一种融合用户时间信息的微博客用户影响力排名方法。
背景技术
当前,有很多技术方法可用于用户影响力分析。传统的用户影响力分析方法主要基于统计用户的特征数据度量用户的影响力。在一般的微博客中,系统都会记录用户不同的特征数据,这些特征数据包括了粉丝数、关注者数、发表文章数、评论数、转发数等。通过分析和挖掘隐藏在此类特征数据之后的分布和规律,就能够获得用户潜在的影响力指标。该类方法统计方法直观,计算过程较为简单,有较好的普适性,但由于选取的多为用户的直观特征,并不能挖掘潜藏在网络结构或用户交互信息背后的影响力信息。
当前,存在着一些基于网络结构的影响力分析方法。在社交媒介尤其是微博客媒介中存在大量用户间的交互行为,研究者们通常根据这些交互行为构建社交网络。在这个社交网络中,节点表示一个独立的用户或一群同类用户,网络中的边则表示用户间的交互关系,如相互评论的关系、粉丝与被粉者的关系等。研究者通过衡量节点与边的网络重要程度获得节点用户的社会影响力值。这类方法相比基于用户特征数据的影响力分析方法能够较好的反应用户在网络中的特定信息。
当前,还存在着一些基于交互话题信息的的影响力分析方法。近年来研究表明,在用户的社交活动中,信息多以话题的形式产生和传播,从话题角度能够更加细致的度量用户的影响力。该类方法多利用LDA模型等话题模型计算所有推文的所属话题,并利推文的话题信息构建用户的话题特征,在特定话题下计算用户影响力排名。
然而,目前特定话题下的影响力模型研究往往忽略了隐藏在用户行为中的时间特征,而这些时间特征通常与用户的信息扩散能力密切相关,用户信息扩散能力的大小直接影响用户在社交媒介中的影响力。因此,人们希望找到一种更加高效、细致的以及能够融合用户时间等特征的张量影响力分析方法,进而提高用户影响力排序预测精度和减少预测的时间消耗。
发明内容
针对上述现有技术不足,本发明提供一种融合用户时间信息的微博客用户影响力排名方法,通过聚类得到潜在的有影响力用户,以这些潜在有影响力用户的特征为基础构建张量模型,最后,利用融合时间特征的张量影响力分析方法计算用户影响力排名,以进一步提高特定话题领域下用户影响力预测精度。
为实现上述目的,本发明的技术方案是:一种融合用户时间信息的微博客用户影响力排名方法,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。
进一步地,所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;
定义
Figure BDA0001614845940000021
为微博中发布文章的用户集合,其中n表示发布文章的用户数,所有n个用户发布的文章与时间的二元组集合用
D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用
Figure BDA0001614845940000022
表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为
P={P1,P2,…,Pm};
用户
Figure BDA0001614845940000031
的评论反应率
Figure BDA0001614845940000032
计算如下:
Figure BDA0001614845940000033
Figure BDA0001614845940000034
Figure BDA00016148459400000325
Figure BDA0001614845940000035
其中,t为给定的时间窗口,
Figure BDA0001614845940000036
表示粉丝用户
Figure BDA0001614845940000037
对用户
Figure BDA0001614845940000038
的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户
Figure BDA0001614845940000039
发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
用户
Figure BDA00016148459400000310
的粉丝评论观点倾向
Figure BDA00016148459400000311
计算如下:
Figure BDA00016148459400000312
其中,
Figure BDA00016148459400000313
是一个指示函数,当
Figure BDA00016148459400000314
Figure BDA00016148459400000315
有过观点为正面或中性的评论时,
Figure BDA00016148459400000316
的值为1,其余情况为-1;每个粉丝具体的评论倾向性从文档集D中获得;用户
Figure BDA00016148459400000317
的粉丝活跃度
Figure BDA00016148459400000318
计算如下:
Figure BDA00016148459400000319
其中,Pj表示粉丝用户
Figure BDA00016148459400000320
发表的文章数;
用户
Figure BDA00016148459400000321
的网络中心度
Figure BDA00016148459400000322
计算如下:
Figure BDA00016148459400000323
其中,fj表示粉丝用户
Figure BDA00016148459400000324
的粉丝数。
进一步地,所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示
Figure BDA0001614845940000041
Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
Figure BDA0001614845940000042
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
Figure BDA0001614845940000043
其中,η是学习率,
Figure BDA0001614845940000044
表示连接权wij的梯度,其计算公式如下:
Figure BDA0001614845940000045
则wij (t+1)=wij (t)-η(wij (t)yei2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
Figure BDA0001614845940000046
其中,
Figure BDA0001614845940000047
是一个关于Cs的指示函数,如果样本ya所属的聚类的中心是Cs,那么其结果为1,反之为0,分母
Figure BDA0001614845940000048
(Y)是一个计数函数,其结果表示当前更新轮次中,输入样本在簇类中心为Cs的簇中的个数。
进一步地,所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
Figure BDA0001614845940000051
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
进一步地,所述张量的片数为3,即粉丝评论观点倾向张量片,粉丝活跃度张量片和用户网络中心度张量片,计算过程如下:
粉丝评论观点倾向张量片表示粉丝用户
Figure BDA0001614845940000052
对潜在有影响力的用户集U′P中的用户的评论极性的具体情况,该张量片中的每一个元素计算如下:
Xij1=O(ucj)δ(cu=ucj)δ(pu=upi)
粉丝活跃度张量片表示粉丝用户
Figure BDA0001614845940000053
对对潜在有影响力的用户集U′P中用户的活跃度的贡献情况,该张量片中的每一个元素计算如下:
Figure BDA0001614845940000054
用户网络中心度张量片表示粉丝用户
Figure BDA0001614845940000055
的粉丝数的情况,该张量片中的每一个元素计算如下:
Figure BDA0001614845940000056
ucj∈Uc,upi∈U′P
进一步地,所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量
X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
Figure BDA0001614845940000057
对应的CP分解最优化目标函数为:
minλ,A,B,C Lρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
Figure BDA0001614845940000061
对A求导,有
Figure BDA0001614845940000062
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC 公式(4-17)
Y(.,B,C)=X(1)Z1 公式(4-18)
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
Figure BDA0001614845940000063
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
Figure BDA0001614845940000064
C的更新规则与B相同。
进一步地,所述步骤S5具体包括:
计算用户粉丝评论观点倾向强度Io:对于用户
Figure BDA0001614845940000065
其粉丝评论观点倾向影响力得分为:
Figure BDA0001614845940000066
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
Figure BDA0001614845940000071
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
Figure BDA0001614845940000072
其中,
Figure BDA0001614845940000075
为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
Figure BDA0001614845940000076
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量
G=[g1,g2,...,gn];
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,eT),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
Figure BDA0001614845940000073
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素。
(3)用户ui的话题相似性指标Si,计算公式如下:
Figure BDA0001614845940000074
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。
进一步地,所述设定阈值为0.25。
与现有技术相比,本发明具有有益效果:
(1)在聚类过程中,可以过滤发表大量广告而影响能力较低的营销号,得到潜在有影响力的用户簇;
(2)在张量分解过程中,引入用户时间特征矩阵的约束,进一步提高信息扩散能力较强的用户的影响力。
附图说明
图1是本发明工作流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,一种融合用户时间信息的微博客用户影响力排名方法,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出。
所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;
定义
Figure BDA0001614845940000081
为微博中发布文章的用户集合,其中n表示发布文章的用户数,所有n个用户发布的文章与时间的二元组集合用
D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用
Figure BDA0001614845940000091
表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为P={P1,P2,…,Pm};
用户在网络中的信息扩散能力是用户社会影响力度量的一个重要因素,信息扩散能力强的用户发表的文章能够在短时间内获得大量用户的关注。用户
Figure BDA0001614845940000092
的评论反应率
Figure BDA0001614845940000093
计算如下:
Figure BDA0001614845940000094
Figure BDA0001614845940000095
Figure BDA00016148459400000921
Figure BDA0001614845940000096
其中,t为给定的时间窗口,
Figure BDA0001614845940000097
表示粉丝用户
Figure BDA0001614845940000098
对用户
Figure BDA0001614845940000099
的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户
Figure BDA00016148459400000910
发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
每位粉丝用户在对用户
Figure BDA00016148459400000911
发表的文章进行评论时,会展现出一定的评论观点极性,利用情感词典的方法计算
Figure BDA00016148459400000912
的每条评论的评论观点极性,然后,通过聚合用户
Figure BDA00016148459400000913
所有评论的观点极性,可以计算得到用户
Figure BDA00016148459400000914
在网络中的全局观点倾向,用户
Figure BDA00016148459400000915
的粉丝评论观点倾向
Figure BDA00016148459400000916
计算如下:
Figure BDA00016148459400000917
其中,
Figure BDA00016148459400000918
是一个指示函数,当
Figure BDA00016148459400000919
Figure BDA00016148459400000920
有过观点为正面或中性的评论时,
Figure BDA0001614845940000101
的值为1,其余情况为-1;每个粉丝具体的评论倾向性从文档集D中获得;将基础用户
Figure BDA0001614845940000102
的一个评论用户
Figure BDA0001614845940000103
所发表的文章数作为该评论用户的活跃度指数,聚合所有评论用户
Figure BDA0001614845940000104
的活跃度可以得到
Figure BDA0001614845940000105
的粉丝活跃度,用户
Figure BDA0001614845940000106
的粉丝活跃度
Figure BDA0001614845940000107
计算如下:
Figure BDA0001614845940000108
其中,Pj表示粉丝用户
Figure BDA0001614845940000109
发表的文章数;
网络中心度表明用户
Figure BDA00016148459400001010
邻居节点即粉丝的个数和
Figure BDA00016148459400001011
所能扩散的范围,用户
Figure BDA00016148459400001012
的网络中心度
Figure BDA00016148459400001013
计算如下:
Figure BDA00016148459400001014
其中,fj表示粉丝用户
Figure BDA00016148459400001015
的粉丝数。
用户的影响力分析可以表示为:给定话题a,找到一个映射关系Infa(Up,Uc,Fc,Pc,D)→(Ip,Io,Il,Iv),通过聚合Ip,Io,Il,Iv这四个用户特征值得到用户总体影响力值
Figure BDA00016148459400001017
并在此影响力估计值的基础上对用户进行排序得到最终的影响力排名。
所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示
Figure BDA00016148459400001018
Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
Figure BDA00016148459400001016
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
Figure BDA0001614845940000111
其中,η是学习率,
Figure BDA0001614845940000112
表示连接权wij的梯度,其计算公式如下:
Figure BDA0001614845940000113
则wij (t+1)=wij (t)-η(wij (t)yei 2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
Figure BDA0001614845940000114
其中,
Figure BDA0001614845940000115
是一个关于Cs的指示函数,如果样本ya所属的聚类的中心是Cs,那么其结果为1,反之为0,分母
Figure BDA0001614845940000116
是一个计数函数,其结果表示当前更新轮次中,输入样本在簇类中心为Cs的簇中的个数。
所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
Figure BDA0001614845940000117
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
进一步地,所述张量的片数为3,即粉丝评论观点倾向张量片,粉丝活跃度张量片和用户网络中心度张量片,计算过程如下:
粉丝评论观点倾向张量片表示粉丝用户
Figure BDA0001614845940000121
对潜在有影响力的用户集U′P中的用户的评论极性的具体情况,该张量片中的每一个元素计算如下:
Xij1=O(ucj)δ(cu=ucj)δ(pu=upi)
粉丝活跃度张量片表示粉丝用户
Figure BDA0001614845940000122
对对潜在有影响力的用户集U′P中用户的活跃度的贡献情况,拥有越高活跃度的用户对他人的影响力贡献也较多,该张量片中的每一个元素计算如下:
Figure BDA0001614845940000123
用户网络中心度张量片表示粉丝用户
Figure BDA0001614845940000124
的粉丝数的情况,在微博客社交媒介中,用户间的相互关注关系构成了一个庞大的社交网络,在这个网络中,节点表示用户,关注关系构成节点间的有向边。在该网络中,网络中心度通常以节点在网络中扩散能力衡量[1]。通常情况下,影响力高的用户在网络中拥有较高的中心度,其在网络中潜在的扩散能力也较强。该张量片中的每一个元素计算如下:
Figure BDA0001614845940000125
ucj∈Uc,upi∈U′P
所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
Figure BDA0001614845940000126
对应的CP分解最优化目标函数为:
minλ,A,B,C Lρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,在张量分解重构的过程中,利用该约束条件,提高信息扩散能力较大的用户的影响力值,而降低发表大量文章但其文章扩散能力较小的营销号等用户的影响力值。用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
Figure BDA0001614845940000131
对A求导,有
Figure BDA0001614845940000132
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC 公式(4-17)
Y(.,B,C)=X(1)Z1 公式(4-18)
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
Figure BDA0001614845940000133
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
Figure BDA0001614845940000134
C的更新规则与B相同。
所述步骤S5具体包括:
计算用户粉丝评论观点倾向强度Io:对于用户
Figure BDA0001614845940000137
其粉丝评论观点倾向影响力得分为:
Figure BDA0001614845940000135
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
Figure BDA0001614845940000136
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
Figure BDA0001614845940000141
其中,
Figure BDA0001614845940000142
为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
Figure BDA0001614845940000144
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量G=[g1,g2,...,gn];以话题“法律”为例,选取508个相关用户2016-10-31至2016-12-01期间共6992篇文档,利用LDA模型计算得到这508个用户的话题潜在词向量T,向量中包含的词共计170个,部分话题词如表1所示:
表1
法律 律师 法院 司法 规定 社会 案件 发布
管理 合同 咨询 责任 法治 诉讼 制度 案例
法官 依法 纠纷 犯罪 赔偿 意见 事件 刑事
行政 离婚 警方 财产 违法 事故 法学 判决
风险 法庭 认定 政法 普法 审理 审判
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,e|T|),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
Figure BDA0001614845940000143
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素。
(3)用户ui的话题相似性指标Si,计算公式如下:
Figure BDA0001614845940000151
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。设定阈值通常设置为0.25。
本发明实验在新浪微博数据集的四个话题上利用基于用户簇的张量用户影响力分析方法预测用户的影响力得分并得到其最终的影响力排名。实验结果表明,基于用户簇的张量影响力分析模型不仅能够较好的预测高影响力的用户,预测准确率相比基准实验有一定的提升,同时,该模型在所有话题上的平均预测准确率也要高于基准实验,证明其预测效果要好于基准实验。
为保证实验结果的稳定性,所有实验都独立进行10次,并使用t检验比较实验结果的差异性,具体的p-value将在实验中给出,同时,为了更好的体现本发明所提出的方法在度量用户社会影响力上的有效性,本发明设置的基准实验如下:
(1)TwitterRank:TwitterRank以用户间通过评论与被评论形成交互关系,并以此交互关系与用户发表的文章为基础,计算特定话题下的用户影响力得分。
(2)OOLAM:与TwitterRank类似,用户间通过评论与被评论形成交互关系。
(3)HF_CP_ALS:该方法在张量观点影响力模型的分解过程中考虑了话题的约束性问题,并且其张量元素始终保持非负约束。
本发明方法实验在进行张量分解前,首先需要确定张量潜在因子矩阵的维数R,R越大,分解重构出的张量对原始张量的拟合效果越好,即分解精度指标RN越小,然而过大的R值将导致分解的时空复杂度无法接受,因此,根据已有文献的经验,将R定为10。另一方面,本发明实验采用固定学习率η=0.1的方法进行随机梯度下降。同时,对于所有采用张量分解的方法,当迭代过程中RN的变化值小于1×10-5的量级时,即结束迭代过程。
采用用户影响力排序准确率指标P@k、单一话题下用户影响力平均排序准确率指标AP、所有话题下用户影响力平均排序准确率均值指标MAP三个指标度量用户社会影响力排序准确率,
Figure BDA0001614845940000152
其中,Ak为人工标注排序后的用户影响力top-k用户集,Bk为实验排序后的用户影响力top-k用户集。该指标表明两个排序集合的吻合程度,值越大,表明越吻合。
Figure BDA0001614845940000161
其中,i表示不同准确率的选取位置,n表示用户的总数,该指标反映了单一话题下模型预测的性能。
Figure BDA0001614845940000162
其中a表示某一话题,ca表示话题总数。由MAP计算公式可知,MAP指的是多个查询的平均准确率(AP)的平均值,反映了模型在多个话题下的总体预测性能。可以看出,MAP值越高,模型预测出来的用户影响力排名精度越高,说明预测效果越好,反之,MAP值越低,说明预测效果越差。
实验结果如表2、表3所示。
表2
Figure BDA0001614845940000163
表3
Figure BDA0001614845940000164
表2给出了本发明提出的基于用户簇的张量影响力分析方法与基准实验方法在P@k上的对比值,利用t检验方法计算得到各方法独立10次实验的p-value值均小于0.05,由此可知,各方法的实验结果是显著的。
实验结果可知,本发明方法相比TwitterRank方法提升明显,说明活跃度越高、在越短时间内能够聚集越多评论的用户的影响力越高,该结论更加符合真实的影响力评价;本发明方法相比OOLAM方法,在P@k预测精度上至少提升10%,这也反应了拥有较高信息扩散能力和高话题相似性的用户,其拥有更大的可能获得更高的影响力值。HF_CP_ALS在张量分解过程中未考虑用户的时间特征,因此,拥有较高信息扩散能力的用户未能通过该方法充分获取较高的影响力值。
由表3可知,本发明方法的单一话题下用户影响力平均排序准确率指标AP值除了在话题“篮球”上略低于方法OOLAM外,其余均好于基准实验方法。总体上,本发明方法的所有话题下的用户影响力平均排序准确率均值指标MAP相比所有基准实验,至少提升3.4%。
综上所述,本发明提出的方法在用户影响力预测性能上要好于基准实验方法。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.一种融合用户时间信息的微博客用户影响力排名方法,其特征在于,包括以下步骤:
步骤S1:对微博客用户进行特征化处理;
步骤S2:根据微博客用户特征对所有用户集进行聚类,得到微博客中的潜在有影响力用户集;
步骤S3:对潜在有影响力用户集构建特定话题领域下的张量影响力模型;
步骤S4:对张量影响力模型进行分解,在张量分解的过程中加入考虑与用户信息扩散能力相关的时间特征约束,重构新的张量影响力模型;
步骤S5:根据重构的张量影响力模型预测用户的影响力得分;
步骤S6:根据用户的影响力得分从高到低排序,得到用户的影响力排名结果并输出;
其中,所述步骤S2具体包括:
定义聚类模块的每个聚类输入样本为ya=[ya1,ya2,ya3,ya4],其中,ya1、ya2、ya3和ya4分别表示
Figure FDA0003330628580000014
Il(upi)和Ic(upi),指定聚类模型的聚类中心Cf,其中f是所有聚类中心的个数,每个聚类中心也对应四个特征,Cs=[cs1,cs2,cs3,cs4],对于聚类模型,有如下损失函数:
Figure FDA0003330628580000011
其中,Y为输入样本集合,Y={y1,y2,...,ye},e表示输入样本的个数,下标i表示样本中的特征位置,下标j表示权重所在网络的层序,wij是网络聚类模型中不同层间的链接权,Cs是输入样例ya当前所属的聚类中心,在聚类过程中采用随机梯度下降法对每一个连接权wij的权值进行更新,更新过程如下:
Figure FDA0003330628580000012
其中,η是学习率,
Figure FDA0003330628580000013
表示连接权wij的梯度,其计算公式如下:
Figure FDA0003330628580000021
则wij (t+1)=wij (t)-η(wij (t)yei 2-yeicsi)
在每一轮权值更新结束时,对每一个聚类中心进行更新,更新规则如下:
Figure FDA0003330628580000022
其中,
Figure FDA0003330628580000023
是一个关于Cs的指示函数,如果样本ya所属的聚类的中心是Cs,那么其结果为1,反之为0,分母
Figure FDA0003330628580000024
是一个计数函数,其结果表示当前更新轮次中,输入样本在簇类中心为Cs的簇中的个数。
2.根据权利要求1所述的微博客用户影响力排名方法,其特征在于,所述步骤S1中特征化处理指根据微博客信息将用户特征化,包括以下特征:粉丝评论反应率特征、粉丝评论观点倾向特征、粉丝活跃度特征和用户网络中心度特征;定义
Figure FDA0003330628580000025
为微博中发布文章的用户集合,其中n表示发布文章的用户数,所有n个用户发布的文章与时间的二元组集合用D={(d1,t1),(d2,t2),…,(dq,tq)}表示,其中q表示数据集中包含的文章总数,每篇文章的评论内容与时间的二元组集合为di={(c1,t1),(c2,t2),…,(cr,tw)},其中w表示文章di所包含的评论个数,对应的,在所有发布文章的n个用户的q篇文章上进行评论的粉丝用户集合用
Figure FDA0003330628580000026
表示,其中m表示所有进行过评论的粉丝用户数,每个粉丝用户关联着他们的一些特征属性集,其中粉丝用户的粉丝数集合定义为F={f1,f2,…,fm},粉丝用户发表的文章数集合为P={P1,P2,…,Pm};
用户
Figure FDA0003330628580000027
的评论反应率
Figure FDA0003330628580000028
计算如下:
Figure FDA0003330628580000029
Figure FDA0003330628580000031
Figure FDA0003330628580000032
Figure FDA0003330628580000033
其中,t为给定的时间窗口,
Figure FDA0003330628580000034
表示粉丝用户
Figure FDA00033306285800000322
对用户
Figure FDA00033306285800000323
的评论的时延,pu为发表文章的用户,cu为发表评论的用户,δ(x=y)是一个指示函数,当x=y时,为1,反之为0;每个用户
Figure FDA0003330628580000035
发表文章的时间及其粉丝对该文章进行评论的时间从文档集D中获得;
用户
Figure FDA0003330628580000036
的粉丝评论观点倾向
Figure FDA0003330628580000037
计算如下:
Figure FDA0003330628580000038
其中,
Figure FDA0003330628580000039
是一个指示函数,当
Figure FDA00033306285800000310
Figure FDA00033306285800000311
有过观点为正面或中性的评论时,
Figure FDA00033306285800000312
的值为1,其余情况为-1;每个粉丝具体的评论倾向性从文档集D中获得;用户
Figure FDA00033306285800000313
的粉丝活跃度
Figure FDA00033306285800000314
计算如下:
Figure FDA00033306285800000315
其中,Pj表示粉丝用户
Figure FDA00033306285800000316
发表的文章数;
用户
Figure FDA00033306285800000317
的网络中心度
Figure FDA00033306285800000319
计算如下:
Figure FDA00033306285800000320
其中,fj表示粉丝用户
Figure FDA00033306285800000321
的粉丝数。
3.根据权利要求2所述的微博客用户影响力排名方法,其特征在于,所述步骤S3具体包括:
在聚类后的每一个类簇被标记为一个指定的潜在有影响力用户集,选择包含最多的潜在有影响力的用户簇作为张量影响力模型的用户来源,定义这个用户子集为U′P,其中,U′P∈UP,定义一个三阶张量X∈RI×J×K表示用户影响力模型,它的rank-R CP分解表示为:
Figure FDA0003330628580000041
其中,A∈RI×R,B∈RJ×R,C∈RK×R是张量潜在因子矩阵,张量的每个元素Xijk分别表示用户upi与其粉丝用户ucj在第k个方面的影响力值大小,I表示U′P中包含的用户个数,J表示进行评论的粉丝用户的个数,K表示张量中考虑的用户影响力特征的个数,即张量的片数。
4.根据权利要求3所述的微博客用户影响力排名方法,其特征在于,所述张量的片数为3,即粉丝评论观点倾向张量片,粉丝活跃度张量片和用户网络中心度张量片,计算过程如下:
粉丝评论观点倾向张量片表示粉丝用户
Figure FDA0003330628580000047
对潜在有影响力的用户集U′P中的用户的评论极性的具体情况,该张量片中的每一个元素计算如下:
Xij1=O(ucj)δ(cu=ucj)δ(pu=upi)
粉丝活跃度张量片表示粉丝用户
Figure FDA0003330628580000042
对对潜在有影响力的用户集U′P中用户的活跃度的贡献情况,该张量片中的每一个元素计算如下:
Figure FDA0003330628580000043
用户网络中心度张量片表示粉丝用户
Figure FDA0003330628580000044
的粉丝数的情况,该张量片中的每一个元素计算如下:
Figure FDA0003330628580000045
ucj∈Uc,upi∈U′P
5.根据权利要求3所述的微博客用户影响力排名方法,其特征在于,所述步骤S4具体包括:
基于随机梯度下降法对三阶张量X∈RI×J×K进行分解,对于三阶张量X∈RI×J×K,其加入时间特征约束后的CP分解损失函数为:
Figure FDA0003330628580000046
对应的CP分解最优化目标函数为:
minλ,A,B,CLρ(X;A,B,C)
在张量模型X∈RI×J×K分解过程中的用户潜在特征矩阵A中加入时间特征约束矩阵Q,用户的时间特征约束矩阵Q为一个对角矩阵,其每个元素计算公式如下:
Figure FDA0003330628580000051
对A求导,有
Figure FDA0003330628580000052
T(B,C)和Y(.,B,C)计算方法如下:
T(B,C)=BTBCTC
Y(.,B,C)=X(1)Z1
其中,X(1)为张量X的一模展开,Z1=C⊙B,同理可求得T(A,C)、T(A,B)、Y(A,.,C)、Y(A,B,.),符号⊙表示矩阵的Khatri–Rao积,
对A有以下更新规则:
Figure FDA0003330628580000053
其中,η表示更新速率;I为单位矩阵;上标t表明时刻;
对B有以下更新规则:
Figure FDA0003330628580000056
C的更新规则与B相同。
6.根据权利要求4所述的微博客用户影响力排名方法,其特征在于,所述步骤S5具体包括:
计算用户粉丝评论观点倾向强度Io:对于用户
Figure FDA0003330628580000054
其粉丝评论观点倾向影响力得分为:
Figure FDA0003330628580000055
其中,r表示所有对upi进行评论的用户总数;
计算用户粉丝活跃度Il:对于用户upi,其粉丝活跃度影响力得分为:
Figure FDA0003330628580000061
计算用户的网络中心度Iv:对于用户upi,其网络中心度影响力得分为:
Figure FDA0003330628580000062
其中,
Figure FDA0003330628580000063
为预测出的新的张量,采用min-max对用户每个影响力得分在各自的影响力因子内进行归一化处理,聚合三个统一量纲的影响力因子与话题相似性指标Si,得到用户的最终的影响力值I,对于用户upi,其最终影响力为:
Figure FDA0003330628580000064
所述话题相似性指标Si计算如下:
(1)给定所有用户的文档集合,在确定要生成的话题个数后和每个话题包含的词的个数后,通过LDA模型计算出话题的潜在词向量G=[g1,g2,...,gn];
(2)以潜在词向量为基础,将每个用户发表过的相关话题的所有文章看作一篇总文章,计算G中每个词是否在这篇总文章中出现,对于每个用户,得到一个包含|T|个特征的用户特征向量E(e1,e2,…,e|T|),采用向量的余弦相似度公式计算用户间的相似性,具体计算公式如下:
Figure FDA0003330628580000066
其中,|T|表示词向量的大小;e1k表示用户1的用户特征向量里的第k个元素,e2k表示用户2的用户特征向量里的第k个元素;
(3)用户ui的话题相似性指标Si,计算公式如下:
Figure FDA0003330628580000065
其中,n是需要计算影响力的用户数,δ(x)是一个指示函数,当x大于设定阈值时,δ(x)的值为1,反之为0。
7.根据权利要求6所述的微博客用户影响力排名方法,其特征在于,所述设定阈值为0.25。
CN201810281738.8A 2018-04-02 2018-04-02 一种融合用户时间信息的微博客用户影响力排名方法 Active CN108460499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810281738.8A CN108460499B (zh) 2018-04-02 2018-04-02 一种融合用户时间信息的微博客用户影响力排名方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810281738.8A CN108460499B (zh) 2018-04-02 2018-04-02 一种融合用户时间信息的微博客用户影响力排名方法

Publications (2)

Publication Number Publication Date
CN108460499A CN108460499A (zh) 2018-08-28
CN108460499B true CN108460499B (zh) 2022-03-08

Family

ID=63237112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810281738.8A Active CN108460499B (zh) 2018-04-02 2018-04-02 一种融合用户时间信息的微博客用户影响力排名方法

Country Status (1)

Country Link
CN (1) CN108460499B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451332B (zh) * 2018-11-16 2021-11-09 武汉斗鱼网络科技有限公司 一种用户属性标记方法、装置、计算机设备及介质
CN110059240A (zh) * 2019-03-20 2019-07-26 重庆邮电大学 一种基于影响等级的网络用户责任指数计算方法
CN110110013B (zh) * 2019-05-10 2020-03-24 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法
CN112182395B (zh) * 2020-10-10 2023-08-29 深圳市万佳安物联科技股份有限公司 一种基于时间序列的金融服务个性化推荐装置和方法
CN114580427A (zh) * 2021-12-29 2022-06-03 北京邮电大学 自媒体用户选择方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872343A (zh) * 2009-04-24 2010-10-27 罗彤 半监督式的海量数据层次分类方法
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN105260474A (zh) * 2015-10-29 2016-01-20 俞定国 一种基于信息交互网络的微博用户影响力计算方法
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107578392A (zh) * 2017-09-25 2018-01-12 华北电力大学 一种基于残余插值的卷积神经网络去马赛克算法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872343A (zh) * 2009-04-24 2010-10-27 罗彤 半监督式的海量数据层次分类方法
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN104598565A (zh) * 2015-01-09 2015-05-06 国家电网公司 一种基于随机梯度下降算法的k均值大规模数据聚类方法
CN105260474A (zh) * 2015-10-29 2016-01-20 俞定国 一种基于信息交互网络的微博用户影响力计算方法
CN106022865A (zh) * 2016-05-10 2016-10-12 江苏大学 一种基于评分和用户行为的商品推荐方法
CN106782511A (zh) * 2016-12-22 2017-05-31 太原理工大学 修正线性深度自编码网络语音识别方法
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107578392A (zh) * 2017-09-25 2018-01-12 华北电力大学 一种基于残余插值的卷积神经网络去马赛克算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
some properties relating to stochastic gradient desent methods;wang baobin .etc;《数学杂志》;20110131;第1-4页 *
廖祥文等.融合时间特征的社交媒介用户影响力分析.《山东大学学报(理学版)》.2018,第53卷(第3期),第1-12页. *
融合时间特征的社交媒介用户影响力分析;廖祥文等;《山东大学学报(理学版)》;20180125;第53卷(第3期);第1-12页 *

Also Published As

Publication number Publication date
CN108460499A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108460499B (zh) 一种融合用户时间信息的微博客用户影响力排名方法
Lai et al. Content analysis of social media: A grounded theory approach
Gates et al. A Monte Carlo evaluation of weighted community detection algorithms
Radicchi et al. Diffusion of scientific credits and the ranking of scientists
Zhao et al. Ranking themes on co-word networks: Exploring the relationships among different metrics
CN108038627B (zh) 一种对象评估方法及装置
Gustafsson et al. Comparison and validation of community structures in complex networks
CN106557558B (zh) 一种数据分析方法及装置
Bauman et al. Discovering Contextual Information from User Reviews for Recommendation Purposes.
CN103150333A (zh) 微博媒体中的意见领袖识别方法
CN102955813B (zh) 一种信息搜索方法和系统
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
Song et al. Rt^ 2m: Real-time twitter trend mining system
Kang et al. LA-CTR: A limited attention collaborative topic regression for social media
Park et al. An opinion-driven decision-support framework for benchmarking hotel service
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
Hidayatillah et al. Levels of political participation based on naive bayes classifier
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
Pandey et al. Twitter-based opinion mining for flight service utilizing machine learning
CN108154380A (zh) 基于大规模评分数据对用户进行商品在线实时推荐的方法
Hao et al. Sentiment diffusion of public opinions about hot events: based on complex network
Subramani et al. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction
CN111598645A (zh) 一种融合随机森林与协同过滤二手房推荐方法
Yamamoto et al. Two phase extraction method for extracting real life tweets using lda
Keerthi Chandra et al. Collective embedding with feature importance: A unified approach for spatiotemporal network embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant