CN106991160B - 一种基于用户影响力以及内容的微博传播预测方法 - Google Patents

一种基于用户影响力以及内容的微博传播预测方法 Download PDF

Info

Publication number
CN106991160B
CN106991160B CN201710203904.8A CN201710203904A CN106991160B CN 106991160 B CN106991160 B CN 106991160B CN 201710203904 A CN201710203904 A CN 201710203904A CN 106991160 B CN106991160 B CN 106991160B
Authority
CN
China
Prior art keywords
microblog
user
forwarding
fan
microblogs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710203904.8A
Other languages
English (en)
Other versions
CN106991160A (zh
Inventor
郭晓东
刘金硕
王丽娜
章岚昕
杨广益
陈煜森
李扬眉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201710203904.8A priority Critical patent/CN106991160B/zh
Publication of CN106991160A publication Critical patent/CN106991160A/zh
Application granted granted Critical
Publication of CN106991160B publication Critical patent/CN106991160B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文发明涉及一种基于用户影响力以及内容的微博传播预测方法,流程如下:1.利用scrapy技术对两个用户的个人信息和他们之间的转发关系及转发微博进行爬取。2.利用RankPage影响力分析技术提取用户影响力,形成用户权威预测因子。3.采用单位时间粉丝转发微博在所有发表微博的百分比,提取粉丝转发活跃度预测因子。4.采用TF‑IDF词语权重技术对微博内容进行重要性分析,提取微博重要性预测因子。5.利用滚雪球的抽样方法将提取到的转发关系划分成10折微博转发训练集和微博忽略训练集6.利用有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。利用本发明可以提高针对新浪微博特定粉丝转发微博预测的准确度。

Description

一种基于用户影响力以及内容的微博传播预测方法
技术领域
本发明涉及计算机学科中的数据挖掘,scrapy框架、HTML数据包分析、机器学习、计算机网络和概率论与数理统计等,尤其是一种基于用户影响力以及内容的微博传播预测方法。
背景技术
Scrapy框架是利用python语言开发的一个成熟、快速、高层次的web抓取框架,提供了多种类型的基类爬虫,用来从网页上提取结构化信息。PageRank网页排名技术是一种根据网络之间相互的超链接来计算网页等级的技术,如今这种技术大都用来计算网络结构中节点的重要性。TF-IDF技术是一种信息检索的统计方法,用来评估数据挖掘领域中一个字词对于一个文本集或者一个语料库的重要程度。
微博网络可以被理解为一个独立的平台,使得每个微博用户可以通过浏览、分享、收集有用或有趣的信息建立联系。在微博网络中,大量的微博用户通过关注的方式建立好友关系。并且通过微博将信息共享出去来不断扩大自己的好友交流圈和粉丝团,最终形成海量的复杂的微博网络关系。
快速发展的新浪微博网络为信息的分享交流提供了快速传播的途径,逐渐成为网络上信息传播的一个重要的平台,甚至产生了社交媒体(Social-media)这一新概念。目前研究现状来看,传统的信息传播模式已经有了比较成熟的传播理论,但对于微博网络中的信息传播预测的研究分析还没有得到足够的重视。
发明内容
本发明主要是解决现有技术所存在的技术问题;提供了一种从基础数据爬取、预测因子提取、训练集划分、机器学习模型训练四个方面来实现粉丝转发微博的预测,较好地提升了预测精确度的一种基于用户影响力以及内容的微博传播预测方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取。抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
Figure GDA0002482792060000021
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子。
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的转发活跃度预测因子。经过实验测试,N在取6的时候有最好的实验效果。
步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:
Figure GDA0002482792060000031
其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑j tf(dj)。将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子。
步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折。通过实验测试,M取10折数据划分具有最好的效率。
步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络基于公式:
Figure GDA0002482792060000032
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率。在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
本发明创造性的提出了一种基于用户影响力以及内容的微博传播预测方法,整个方法流程概括如下:
基础数据爬取:根据获得的用户ID,从特定的新浪微博网址上提取用户个人信息,用户之间微博转发关系,用户转发微博的正文内容。
预测因子提取:从提取到的数据中分析得出,用户权威性预测因子,粉丝转发活跃度预测因子,微博内容重要性预测因子,根据这三个预测因子综合对训练集标注。
训练集划分:合理的数据集划分,合理的采样方法,合理的交叉验证将训练集分为微博转发集和微博忽略集可以显著提高预测模型的准确度。
机器学习:利用WEKA平台,采用有监督的贝叶斯网络对训练集训练,直至贝叶斯网络参数收敛。
在上述的一种基于用户影响力以及内容的微博传播预测方法,所述步骤5具体包括:先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点,依次类推。因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖。将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
在上述的一种基于用户影响力以及内容的微博传播预测方法,还包括一个验证贝叶斯模型的步骤,通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型,对于这个模型的,验证贝叶斯模型效果的具体方法是:用8次抽样来训练,用剩下2次抽样来验证分类器效果。反复进行交叉验证,即变换训练样例与验证样例。
因此,本发明具有如下优点:1.该爬虫方法获得原创微博更全面的信息传播过程,包括转发微博,转发用户,用户评论等。2.通过PageRank算法找到信息传播过程中的关键节点,从而获得信息传播的关键路径。3.通过在分类器中加入时间段活跃度因子,可以提高分类器精度。4.使用滚雪球抽样方法,提高训练集抽取速度且不失一般性。5.使用TF-IDF计算微博重要性,提高预测新浪微博特定粉丝转发微博的准确度。
附图说明
图1是本发明中的scrapy框架的工作流程图。
图2是本发明中的PageRank技术概念示意图。
图3是本发明中的TF-IDF技术工作示意图。
图4是本发明中的贝叶斯网络工作示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
一、首先介绍一下本发明的整个方法流程,包括:
步骤1:scrapy程序创建分布式spiders,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息(http://weibo.cn/attgroup/opening?uid=id)、用户与粉丝之间的转发关系、转发微博(http://weibo.cn/id/profile?filter=1&page=1)进行信息抓取。抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2:利用PageRank技术来计算用户在微博网络中的权威程度,计算公式为:
Figure GDA0002482792060000061
其中Vi表示用户ID;
F(Vi)表示用户的粉丝ID集合;
L(Vj)表示用户的关注其他用户数;
a为传播阻尼系数,表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度,取值范围(0,1);
从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子。
步骤3:将一天平均分为6个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于6个不同时间段的转发活跃度预测因子。
步骤4:采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:
Figure GDA0002482792060000062
其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑jtf(dj)。将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子。
步骤5:利用滚雪球的抽样方法将提取到的转发关系数据划分成10折。具体做法为,先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点,依次类推。因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖。
将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
步骤6:在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络是一个简单的条件概率模型,公式可以简单的被表示为:
Figure GDA0002482792060000071
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率。在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
评估方法是,用8次抽样来训练,用剩下2次抽样来验证分类器效果。反复进行交叉验证,即变换训练样例与验证样例。
二、下面以微博名人高晓松的微博转发预测为例,详细介绍采用上述方法的具体预测流程。
以下环境作为测试平台为例来说明:Intel Core i5-4460@3.20GHz,内存为8GB。在该平台下,对高晓松的一条微博进行转发预测并测试其预测准确率。
图1是本发明中的Scrapy框架工作流程图,本发明采用Windows+Scrapy+Mysql+WEKA综合平台来实现微博转发预测。
首先由Scrapy控制中心启动爬虫,根据步骤1,爬虫向下载器发送Requests请求,下载器从互联网上下载网页资源,交由爬虫解析处理,爬虫从网页数据资源上提取出高晓松的个人信息,高晓松的微博以及高晓松微博的转发关系等,利用物件中间件存放到数据库中。
关于利用PageRank技术计算用户权威值的策略,图2为其概念图。
这个概念图显示出这个算法两个最重要的核心:如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是说PageRank值会相对较高;如果一个PageRank值很高的网页链接到一个其他的网页,那么被连接的网页的PageRank值会相应提高。根据步骤2的公式可以计算出高晓松在新浪微博中的权威度。
关于TF-IDF技术计算微博正文重要性,图3是本发明中步骤4所涉及的微博文本计算模型,通过统计词频TF和逆文档频率IDF可以计算出此条微博正文的热度,从而更好地预测该热度的微博是否更容易被转发。
关于滚雪球采样是指随机抽取一个节点对其实施访问,在从次节点出发收集其他节点的调查数据数据,因为抽取到的转发关系是庞大的。宏观计算浪费计算机资源并且对转发预测的增益很少。故而采用10折滚雪球采样生成微博转发训练集和微博忽略训练集。
关于贝叶斯网络使用,图4是贝叶斯网络的工作原理,在传播过程中,转发预测转换为条件概率模型,高晓松粉丝的粉丝转发预测要基于高晓松粉丝的转发概率,采取合理的转发预测模型,可以显著地提高转发预测的精度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (3)

1.一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取;抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
Figure FDA0002482792050000011
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率;其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子;
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有转发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的粉丝时间段活跃度预测因子;
步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:
Figure FDA0002482792050000021
其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量;微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑jtf(dj);将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子;
步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折;
步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子;进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛;贝叶斯网络基于公式:
Figure FDA0002482792050000022
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率;在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
2.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,所述步骤5具体包括:先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例;然后再从未被选取的样例中随机选择一些节点,依次类推;因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖;将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
3.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,还包括一个验证贝叶斯模型的步骤,通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型,对于这个模型的,验证贝叶斯模型效果的具体方法是:用8次抽样来训练,用剩下2次抽样来验证分类器效果;反复进行交叉验证,即变换训练样例与验证样例。
CN201710203904.8A 2017-03-30 2017-03-30 一种基于用户影响力以及内容的微博传播预测方法 Expired - Fee Related CN106991160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203904.8A CN106991160B (zh) 2017-03-30 2017-03-30 一种基于用户影响力以及内容的微博传播预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203904.8A CN106991160B (zh) 2017-03-30 2017-03-30 一种基于用户影响力以及内容的微博传播预测方法

Publications (2)

Publication Number Publication Date
CN106991160A CN106991160A (zh) 2017-07-28
CN106991160B true CN106991160B (zh) 2020-07-24

Family

ID=59412332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203904.8A Expired - Fee Related CN106991160B (zh) 2017-03-30 2017-03-30 一种基于用户影响力以及内容的微博传播预测方法

Country Status (1)

Country Link
CN (1) CN106991160B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784387B (zh) * 2017-09-18 2021-10-08 国家计算机网络与信息安全管理中心 一种微博事件信息传播的连续动态预测方法
CN107784327A (zh) * 2017-10-27 2018-03-09 天津理工大学 一种基于gn的个性化社区发现方法
CN107908700A (zh) * 2017-11-06 2018-04-13 余帝乾 一种微博用户行为分析预测的方法
CN107798141B (zh) * 2017-11-24 2021-07-20 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN108182640A (zh) * 2017-12-29 2018-06-19 山东浪潮云服务信息科技有限公司 一种基于用户行为传播模型求解影响力最大化问题的方法
CN108647247A (zh) * 2018-04-16 2018-10-12 国家计算机网络与信息安全管理中心 基于改进PageRank算法的微博信息传播关键节点识别方法
CN109492924B (zh) * 2018-11-21 2022-05-17 哈尔滨工程大学 一种基于微博用户自身和行为价值二阶的影响力评估方法
CN109492776B (zh) * 2018-11-21 2022-05-17 哈尔滨工程大学 基于主动学习的微博流行度预测方法
CN109670032A (zh) * 2019-01-09 2019-04-23 合肥工业大学 一种基于神经网络的微博正向影响力排行方法
CN111126758B (zh) * 2019-11-15 2023-09-29 中南大学 一种学术团队影响力传播预测方法、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
CN106503858A (zh) * 2016-10-28 2017-03-15 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN106547901A (zh) * 2016-11-08 2017-03-29 周口师范学院 一种基于能量优化的微博用户转发行为预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305284B2 (en) * 2010-05-23 2016-04-05 Technion Research & Development Foundation Limited Methods and systems for managing a multi participant event
US20140358930A1 (en) * 2013-05-29 2014-12-04 University Of Southern California Classifying message content based on rebroadcast diversity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945279A (zh) * 2012-11-14 2013-02-27 清华大学 微博用户影响力的评估方法及装置
CN104123352A (zh) * 2014-07-10 2014-10-29 西安理工大学 面向微博的话题层次用户影响力度量方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
CN106503858A (zh) * 2016-10-28 2017-03-15 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN106547901A (zh) * 2016-11-08 2017-03-29 周口师范学院 一种基于能量优化的微博用户转发行为预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于用户模型的微博文本推荐算法研究;徐天一;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03(2017)期);第I139-231页 *
微博用户转发行为及情感预测研究;马莹莹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第02(2015)期);第I138-6079页 *
社交媒体中微博转发的预测模型研究;刘刚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08(2015)期);第I139-309页 *

Also Published As

Publication number Publication date
CN106991160A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN106991160B (zh) 一种基于用户影响力以及内容的微博传播预测方法
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
CN107862022B (zh) 文化资源推荐系统
Gao et al. Self-paced network embedding
Olmezogullari et al. Pattern2Vec: Representation of clickstream data sequences for learning user navigational behavior
CN104899324B (zh) 一种基于idc有害信息监测系统的样本训练系统
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
Abdolazimi et al. Mapreduce preprocess of big graphs for rapid connected components detection
US20180046628A1 (en) Ranking social media content
CN110555154B (zh) 一种面向主题的信息检索方法
US11232156B1 (en) Seed expansion in social network using graph neural network
Wahsheh et al. A link and content hybrid approach for Arabic web spam detection
CN115952343A (zh) 一种基于多关系图卷积网络的社交机器人检测方法
JP2014160345A (ja) 閲覧行動予測装置、閲覧行動学習装置、閲覧行動予測方法、閲覧行動学習方法及びプログラム
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
Shu et al. Automatic extraction of web page text information based on network topology coincidence degree
Bhat et al. Browser simulation-based crawler for online social network profile extraction
Naveed et al. ATT: Analyzing temporal dynamics of topics and authors in social media
CN110175289B (zh) 基于余弦相似度协同过滤的混合推荐方法
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP6739379B2 (ja) 情報処理装置、情報処理方法、プログラム、および広告情報処理システム
Liu et al. Identifying user clicks based on dependency graph
CN110413909B (zh) 基于机器学习的大规模嵌入式设备在线固件智能识别方法
Vasanthakumar et al. PTMIB: Profiling top most influential blogger using content based data mining approach
Li et al. Research of network data mining based on reliability source under big data environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200724

Termination date: 20210330

CF01 Termination of patent right due to non-payment of annual fee