CN106991160B - 一种基于用户影响力以及内容的微博传播预测方法 - Google Patents
一种基于用户影响力以及内容的微博传播预测方法 Download PDFInfo
- Publication number
- CN106991160B CN106991160B CN201710203904.8A CN201710203904A CN106991160B CN 106991160 B CN106991160 B CN 106991160B CN 201710203904 A CN201710203904 A CN 201710203904A CN 106991160 B CN106991160 B CN 106991160B
- Authority
- CN
- China
- Prior art keywords
- microblog
- user
- forwarding
- fan
- microblogs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000000694 effects Effects 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 235000019013 Viburnum opulus Nutrition 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 244000071378 Viburnum opulus Species 0.000 claims description 6
- 241000288113 Gallirallus australis Species 0.000 claims description 5
- 244000097202 Rathbunia alamosensis Species 0.000 claims description 4
- 235000009776 Rathbunia alamosensis Nutrition 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 3
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 abstract description 4
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 8
- 235000011613 Pinus brutia Nutrition 0.000 description 8
- 241000018646 Pinus brutia Species 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文发明涉及一种基于用户影响力以及内容的微博传播预测方法,流程如下:1.利用scrapy技术对两个用户的个人信息和他们之间的转发关系及转发微博进行爬取。2.利用RankPage影响力分析技术提取用户影响力,形成用户权威预测因子。3.采用单位时间粉丝转发微博在所有发表微博的百分比,提取粉丝转发活跃度预测因子。4.采用TF‑IDF词语权重技术对微博内容进行重要性分析,提取微博重要性预测因子。5.利用滚雪球的抽样方法将提取到的转发关系划分成10折微博转发训练集和微博忽略训练集6.利用有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。利用本发明可以提高针对新浪微博特定粉丝转发微博预测的准确度。
Description
技术领域
本发明涉及计算机学科中的数据挖掘,scrapy框架、HTML数据包分析、机器学习、计算机网络和概率论与数理统计等,尤其是一种基于用户影响力以及内容的微博传播预测方法。
背景技术
Scrapy框架是利用python语言开发的一个成熟、快速、高层次的web抓取框架,提供了多种类型的基类爬虫,用来从网页上提取结构化信息。PageRank网页排名技术是一种根据网络之间相互的超链接来计算网页等级的技术,如今这种技术大都用来计算网络结构中节点的重要性。TF-IDF技术是一种信息检索的统计方法,用来评估数据挖掘领域中一个字词对于一个文本集或者一个语料库的重要程度。
微博网络可以被理解为一个独立的平台,使得每个微博用户可以通过浏览、分享、收集有用或有趣的信息建立联系。在微博网络中,大量的微博用户通过关注的方式建立好友关系。并且通过微博将信息共享出去来不断扩大自己的好友交流圈和粉丝团,最终形成海量的复杂的微博网络关系。
快速发展的新浪微博网络为信息的分享交流提供了快速传播的途径,逐渐成为网络上信息传播的一个重要的平台,甚至产生了社交媒体(Social-media)这一新概念。目前研究现状来看,传统的信息传播模式已经有了比较成熟的传播理论,但对于微博网络中的信息传播预测的研究分析还没有得到足够的重视。
发明内容
本发明主要是解决现有技术所存在的技术问题;提供了一种从基础数据爬取、预测因子提取、训练集划分、机器学习模型训练四个方面来实现粉丝转发微博的预测,较好地提升了预测精确度的一种基于用户影响力以及内容的微博传播预测方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取。抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子。
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的转发活跃度预测因子。经过实验测试,N在取6的时候有最好的实验效果。
步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑j tf(dj)。将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子。
步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折。通过实验测试,M取10折数据划分具有最好的效率。
步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络基于公式:
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率。在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
本发明创造性的提出了一种基于用户影响力以及内容的微博传播预测方法,整个方法流程概括如下:
基础数据爬取:根据获得的用户ID,从特定的新浪微博网址上提取用户个人信息,用户之间微博转发关系,用户转发微博的正文内容。
预测因子提取:从提取到的数据中分析得出,用户权威性预测因子,粉丝转发活跃度预测因子,微博内容重要性预测因子,根据这三个预测因子综合对训练集标注。
训练集划分:合理的数据集划分,合理的采样方法,合理的交叉验证将训练集分为微博转发集和微博忽略集可以显著提高预测模型的准确度。
机器学习:利用WEKA平台,采用有监督的贝叶斯网络对训练集训练,直至贝叶斯网络参数收敛。
在上述的一种基于用户影响力以及内容的微博传播预测方法,所述步骤5具体包括:先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点,依次类推。因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖。将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
在上述的一种基于用户影响力以及内容的微博传播预测方法,还包括一个验证贝叶斯模型的步骤,通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型,对于这个模型的,验证贝叶斯模型效果的具体方法是:用8次抽样来训练,用剩下2次抽样来验证分类器效果。反复进行交叉验证,即变换训练样例与验证样例。
因此,本发明具有如下优点:1.该爬虫方法获得原创微博更全面的信息传播过程,包括转发微博,转发用户,用户评论等。2.通过PageRank算法找到信息传播过程中的关键节点,从而获得信息传播的关键路径。3.通过在分类器中加入时间段活跃度因子,可以提高分类器精度。4.使用滚雪球抽样方法,提高训练集抽取速度且不失一般性。5.使用TF-IDF计算微博重要性,提高预测新浪微博特定粉丝转发微博的准确度。
附图说明
图1是本发明中的scrapy框架的工作流程图。
图2是本发明中的PageRank技术概念示意图。
图3是本发明中的TF-IDF技术工作示意图。
图4是本发明中的贝叶斯网络工作示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
一、首先介绍一下本发明的整个方法流程,包括:
步骤1:scrapy程序创建分布式spiders,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息(http://weibo.cn/attgroup/opening?uid=id)、用户与粉丝之间的转发关系、转发微博(http://weibo.cn/id/profile?filter=1&page=1)进行信息抓取。抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2:利用PageRank技术来计算用户在微博网络中的权威程度,计算公式为:
其中Vi表示用户ID;
F(Vi)表示用户的粉丝ID集合;
L(Vj)表示用户的关注其他用户数;
a为传播阻尼系数,表示该用户随机关注其他用户的概率。其大小影响迭代算法的效果和收敛速度,取值范围(0,1);
从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子。
步骤3:将一天平均分为6个时间段,采用单个时间段粉丝转发微博占粉丝所有抓发微博中百分比的计算方法,计算出粉丝关于6个不同时间段的转发活跃度预测因子。
步骤4:采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量。微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑jtf(dj)。将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子。
步骤5:利用滚雪球的抽样方法将提取到的转发关系数据划分成10折。具体做法为,先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例。然后再从为被选取的样例中随机选择一些节点,依次类推。因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖。
将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
步骤6:在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子。进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛。贝叶斯网络是一个简单的条件概率模型,公式可以简单的被表示为:
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率。在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
评估方法是,用8次抽样来训练,用剩下2次抽样来验证分类器效果。反复进行交叉验证,即变换训练样例与验证样例。
二、下面以微博名人高晓松的微博转发预测为例,详细介绍采用上述方法的具体预测流程。
以下环境作为测试平台为例来说明:Intel Core i5-4460@3.20GHz,内存为8GB。在该平台下,对高晓松的一条微博进行转发预测并测试其预测准确率。
图1是本发明中的Scrapy框架工作流程图,本发明采用Windows+Scrapy+Mysql+WEKA综合平台来实现微博转发预测。
首先由Scrapy控制中心启动爬虫,根据步骤1,爬虫向下载器发送Requests请求,下载器从互联网上下载网页资源,交由爬虫解析处理,爬虫从网页数据资源上提取出高晓松的个人信息,高晓松的微博以及高晓松微博的转发关系等,利用物件中间件存放到数据库中。
关于利用PageRank技术计算用户权威值的策略,图2为其概念图。
这个概念图显示出这个算法两个最重要的核心:如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是说PageRank值会相对较高;如果一个PageRank值很高的网页链接到一个其他的网页,那么被连接的网页的PageRank值会相应提高。根据步骤2的公式可以计算出高晓松在新浪微博中的权威度。
关于TF-IDF技术计算微博正文重要性,图3是本发明中步骤4所涉及的微博文本计算模型,通过统计词频TF和逆文档频率IDF可以计算出此条微博正文的热度,从而更好地预测该热度的微博是否更容易被转发。
关于滚雪球采样是指随机抽取一个节点对其实施访问,在从次节点出发收集其他节点的调查数据数据,因为抽取到的转发关系是庞大的。宏观计算浪费计算机资源并且对转发预测的增益很少。故而采用10折滚雪球采样生成微博转发训练集和微博忽略训练集。
关于贝叶斯网络使用,图4是贝叶斯网络的工作原理,在传播过程中,转发预测转换为条件概率模型,高晓松粉丝的粉丝转发预测要基于高晓松粉丝的转发概率,采取合理的转发预测模型,可以显著地提高转发预测的精度。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.一种基于用户影响力以及内容的微博传播预测方法,其特征在于,包括:
步骤1、基于scrapy模块创建分布式爬虫,利用输入的用户和其粉丝的新浪微博ID对该用户和粉丝的个人信息、用户与粉丝之间的转发关系、转发微博进行信息抓取;抓取的信息包括,用户方面:用户名、用户新浪ID、用户新浪微博标签、待预测微博正文内容、待预测微博发布时间、用户粉丝数量,用户关注;粉丝方面:粉丝名、粉丝新浪ID、粉丝的新浪标签、粉丝微博总数、粉丝转发用户的微博数以及转发时间;
步骤2、基于PageRank模块来计算用户在微博网络中的权威程度,计算公式为:
其中Vi表示用户ID;F(Vi)表示用户的粉丝ID集合;L(Vj)表示用户的关注其他用户数;a为传播阻尼系数,表示该用户随机关注其他用户的概率;其大小影响迭代算法的效果和收敛速度,取值范围(0,1);从抓取到的用户关系网络结构数据中计算用户PageRank值,进行归一化处理,形成用户权威预测因子;
步骤3、将一天平均分为N个时间段,采用单个时间段粉丝转发微博占粉丝所有转发微博中百分比的计算方法,计算出粉丝关于N个不同时间段的粉丝时间段活跃度预测因子;
步骤4、采用TF-IDF词语权重技术对微博内容进行重要性分析,计算公式如下:其中:nw表示d在微博w中出现的次数;N表示所有微博集合W中包含的微博总数;nd表示所有微博集合W中包含词语d的微博数量;微博w的TF-IDF计算值就可以用微博w中出现的所有词语的TF-IDF值之和来表示:tf(w)=∑jtf(dj);将计算得到的TF-IDF值进行归一化,即提取到的微博重要性预测因子;
步骤5、利用滚雪球的抽样方法将提取到的转发关系数据划分成M折;
步骤6、在每一次的抽取的样例中,将已转发微博标记为微博转发训练集,即正向训练集;将未被转发的微博标记为未转发训练集,即负向训练集;利用WEKA平台提供的分类器API,贝叶斯网络训练网络标注特征值依次为,微博重要性预测因子、粉丝时间段活跃度预测因子、原微博用户权威性预测因子;进行有监督的贝叶斯网络对训练集进行训练,直至分类器参数收敛;贝叶斯网络基于公式:
其中,P(B∩A)表示A与B的联合概率,联合概率表示两个事件共同发生的概率;P(B)是B的边缘概率,边缘概率又称先验概率,是B事件发生的概率;在预测错误的先验概率B发生的情况下,找出最大概率P(A|B)的值就是可以最大概率地预测微博转发。
2.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,所述步骤5具体包括:先在未被选取的样例中随机选择一些节点,然后再用简单的宽度优先搜索算法,从选中的用户节点扩展成一个节点范围,这个节点范围就可以被作为一个完整的抽样样例;然后再从未被选取的样例中随机选择一些节点,依次类推;因为网络结构的信息是十分庞大的,所以10次滚雪球抽样基本不会相互覆盖;将已转发微博标记为微博转发训练集,将未转发微博标记为微博忽略训练集。
3.根据权利要求1所述的一种基于用户影响力以及内容的微博传播预测方法,其特征在于,还包括一个验证贝叶斯模型的步骤,通过步骤1-6得到一个成熟的可用于预测的贝叶斯模型,对于这个模型的,验证贝叶斯模型效果的具体方法是:用8次抽样来训练,用剩下2次抽样来验证分类器效果;反复进行交叉验证,即变换训练样例与验证样例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710203904.8A CN106991160B (zh) | 2017-03-30 | 2017-03-30 | 一种基于用户影响力以及内容的微博传播预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710203904.8A CN106991160B (zh) | 2017-03-30 | 2017-03-30 | 一种基于用户影响力以及内容的微博传播预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106991160A CN106991160A (zh) | 2017-07-28 |
CN106991160B true CN106991160B (zh) | 2020-07-24 |
Family
ID=59412332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710203904.8A Expired - Fee Related CN106991160B (zh) | 2017-03-30 | 2017-03-30 | 一种基于用户影响力以及内容的微博传播预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991160B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784387B (zh) * | 2017-09-18 | 2021-10-08 | 国家计算机网络与信息安全管理中心 | 一种微博事件信息传播的连续动态预测方法 |
CN107784327A (zh) * | 2017-10-27 | 2018-03-09 | 天津理工大学 | 一种基于gn的个性化社区发现方法 |
CN107908700A (zh) * | 2017-11-06 | 2018-04-13 | 余帝乾 | 一种微博用户行为分析预测的方法 |
CN107798141B (zh) * | 2017-11-24 | 2021-07-20 | 广州数说故事信息科技有限公司 | 一种基于统计指标的迭代运算的确定用户标签方法 |
CN108182640A (zh) * | 2017-12-29 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种基于用户行为传播模型求解影响力最大化问题的方法 |
CN108647247A (zh) * | 2018-04-16 | 2018-10-12 | 国家计算机网络与信息安全管理中心 | 基于改进PageRank算法的微博信息传播关键节点识别方法 |
CN109492924B (zh) * | 2018-11-21 | 2022-05-17 | 哈尔滨工程大学 | 一种基于微博用户自身和行为价值二阶的影响力评估方法 |
CN109492776B (zh) * | 2018-11-21 | 2022-05-17 | 哈尔滨工程大学 | 基于主动学习的微博流行度预测方法 |
CN109670032A (zh) * | 2019-01-09 | 2019-04-23 | 合肥工业大学 | 一种基于神经网络的微博正向影响力排行方法 |
CN111126758B (zh) * | 2019-11-15 | 2023-09-29 | 中南大学 | 一种学术团队影响力传播预测方法、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106503858A (zh) * | 2016-10-28 | 2017-03-15 | 中国科学院计算技术研究所 | 一种训练用于预测社交网络用户转发消息的模型的方法 |
CN106547901A (zh) * | 2016-11-08 | 2017-03-29 | 周口师范学院 | 一种基于能量优化的微博用户转发行为预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9305284B2 (en) * | 2010-05-23 | 2016-04-05 | Technion Research & Development Foundation Limited | Methods and systems for managing a multi participant event |
US20140358930A1 (en) * | 2013-05-29 | 2014-12-04 | University Of Southern California | Classifying message content based on rebroadcast diversity |
-
2017
- 2017-03-30 CN CN201710203904.8A patent/CN106991160B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945279A (zh) * | 2012-11-14 | 2013-02-27 | 清华大学 | 微博用户影响力的评估方法及装置 |
CN104123352A (zh) * | 2014-07-10 | 2014-10-29 | 西安理工大学 | 面向微博的话题层次用户影响力度量方法 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN106503858A (zh) * | 2016-10-28 | 2017-03-15 | 中国科学院计算技术研究所 | 一种训练用于预测社交网络用户转发消息的模型的方法 |
CN106547901A (zh) * | 2016-11-08 | 2017-03-29 | 周口师范学院 | 一种基于能量优化的微博用户转发行为预测方法 |
Non-Patent Citations (3)
Title |
---|
基于用户模型的微博文本推荐算法研究;徐天一;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第03(2017)期);第I139-231页 * |
微博用户转发行为及情感预测研究;马莹莹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第02(2015)期);第I138-6079页 * |
社交媒体中微博转发的预测模型研究;刘刚;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08(2015)期);第I139-309页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106991160A (zh) | 2017-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991160B (zh) | 一种基于用户影响力以及内容的微博传播预测方法 | |
Li et al. | Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment | |
CN107862022B (zh) | 文化资源推荐系统 | |
Gao et al. | Self-paced network embedding | |
Olmezogullari et al. | Pattern2Vec: Representation of clickstream data sequences for learning user navigational behavior | |
CN104899324B (zh) | 一种基于idc有害信息监测系统的样本训练系统 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
Abdolazimi et al. | Mapreduce preprocess of big graphs for rapid connected components detection | |
US20180046628A1 (en) | Ranking social media content | |
CN110555154B (zh) | 一种面向主题的信息检索方法 | |
US11232156B1 (en) | Seed expansion in social network using graph neural network | |
Wahsheh et al. | A link and content hybrid approach for Arabic web spam detection | |
CN115952343A (zh) | 一种基于多关系图卷积网络的社交机器人检测方法 | |
JP2014160345A (ja) | 閲覧行動予測装置、閲覧行動学習装置、閲覧行動予測方法、閲覧行動学習方法及びプログラム | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
Shu et al. | Automatic extraction of web page text information based on network topology coincidence degree | |
Bhat et al. | Browser simulation-based crawler for online social network profile extraction | |
Naveed et al. | ATT: Analyzing temporal dynamics of topics and authors in social media | |
CN110175289B (zh) | 基于余弦相似度协同过滤的混合推荐方法 | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
JP6739379B2 (ja) | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム | |
Liu et al. | Identifying user clicks based on dependency graph | |
CN110413909B (zh) | 基于机器学习的大规模嵌入式设备在线固件智能识别方法 | |
Vasanthakumar et al. | PTMIB: Profiling top most influential blogger using content based data mining approach | |
Li et al. | Research of network data mining based on reliability source under big data environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200724 Termination date: 20210330 |
|
CF01 | Termination of patent right due to non-payment of annual fee |