CN107784387B - 一种微博事件信息传播的连续动态预测方法 - Google Patents

一种微博事件信息传播的连续动态预测方法 Download PDF

Info

Publication number
CN107784387B
CN107784387B CN201710843010.5A CN201710843010A CN107784387B CN 107784387 B CN107784387 B CN 107784387B CN 201710843010 A CN201710843010 A CN 201710843010A CN 107784387 B CN107784387 B CN 107784387B
Authority
CN
China
Prior art keywords
microblog
event
microblogs
time period
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710843010.5A
Other languages
English (en)
Other versions
CN107784387A (zh
Inventor
赵忠华
吴俊杰
赵志云
鲁骁
袁昆
袁钟怡
郭鲁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201710843010.5A priority Critical patent/CN107784387B/zh
Publication of CN107784387A publication Critical patent/CN107784387A/zh
Application granted granted Critical
Publication of CN107784387B publication Critical patent/CN107784387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种微博事件信息传播的连续动态预测方法,属于数据挖掘领域。针对新浪微博,在目前给定传播信息的基础上,试图预测下一阶段的微博总数量;按小时划分事件传播,利用事件从发生到当前时间段内传播特征,如微博量、参与人数、微博情绪等,基于GBDT模型预测下一小时内事件微博传播的总数。本发明预测模型中最优时间段长度和微博特征组合,是在全面衡量各特征的贡献度和相关性的基础上筛选出来的,不仅能够有效提高模型预测精度,平均模型精度超过70%,还能减小计算复杂性,避免无用计算,有效支持针对事件的预警和干预措施。

Description

一种微博事件信息传播的连续动态预测方法
技术领域
本发明属于数据挖掘领域,涉及一种微博事件信息传播的连续动态预测方法。
背景技术
近年来,随着互联网技术的广泛渗透和创新发展,以微博为代表的社会化媒体广泛而深入地融入人们生活的每个层面。社会化媒体成为人们查找信息、表达观点和沟通交流的重要平台。
基于Twitter研究表明,社交媒体的属性更贴近于事件网络,而非社交属性。社交网络中信息来源的多样性、事件的突发性和传播的广泛性,使事件分析和传播预测应用广泛,如政治敏感事件监控、新闻热点发现、商业舆情分析、股市舆情波动等,一直都是业界关注的重点。特别的,针对社交网络中某些特殊事件的传播预测,能够对事件下一步的传播态势进行预估,为及早的事件预警和传播干预提供决策。因此,针对微博中事件传播预测具有重要的网络安全意义和经济价值。
然而目前学术界里对微博传播是否可预测仍然是一个争论性话题,并且针对社交网络中的传播预测大都是基于单条微博或者级联进行传播预测,现有技术在预测微博传播量值的研究中,主要有三种方法:ARIMA模型、多元线性回归和KNN模型。
ARIMA模型包括AR模型(自回归过程)、MA模型(移动平均过程)和整合部分,能够基于时间序列的过去和现在预测未来。多元线性回归模型认为未来传播量与最近几天量值有高度相关性,基于临近几天的传播量预测未来。KNN模型也是K最邻近结点算法,利用K个与模型微博传播形态最为接近的训练样本,使用其未来值的平均值作为当前的预测值。然而这些预测模型都是针对单条微博进行评估,并且在模型考虑因变量时并没有全面综合考虑特征的相关性和共线性。
虽然也有大量研究工作将社交网络传播预测问题转化成一个二分类或多分类问题,通过提取微博传播过程中的上下文信息、内容特征、传播网络等多特征,并按微博传播量将其进行流行度分类,如0为一类,1-100为一类,100-10000为一类,10000以上为一类,构建基于logistic regression模型或者分类树的分类器进行训练学习;然而这种分类或回归方法只能针对单条微博给出极为粗糙的传播规模预测,并不能在实际应用。
研究表明在给定一定传播信息的基础上预测最终规模和发展趋势仍然具有相当大的困难,或者需要大量人物背景信息和完善的传播信息,这在实际应用场合中是难以实现的。
发明内容
本发明针对微博社交网络中,事件信息传播难以预测的问题上,提出了一种微博事件信息传播的连续动态预测方法,即根据事件从开始到目前的所有传播信息,预测下一时间段的传播量值。
具体步骤如下:
步骤一、以关键词匹配的模式收集网络中每个事件对应的微博数据,并存入数据库中;
每个事件以关键词定义,用关键词在新浪全量的微博数据中进行匹配,获取事件对应的微博数据;每条微博数据包括:微博内容、发布时间、发布者id、发布者粉丝数和微博类型等,并存入数据库中。
步骤二、针对某事件,按照该事件的每条微博数据的发布时间,以一个小时为时间段进行划分,统计每个时间段内的事件微博特征;
将获取的某事件样本数据,按照发布时间的先后将该事件对应的所有微博进行排序,以最早一条微博时间作为时间起始时间,并按小时统计每个小时内的事件微博特征。
事件微博特征包括:微博总数;参与人数;总粉丝数(发布者粉丝数之和);总关注数(发布者关注数);原创微博数及占比情况;转发微博数及占比情况;评论微博数以及占比情况;积极微博数及占比情况;中性微博数及占比情况;消极微博数及占比情况;粉丝数在10w以上的原创微博数;粉丝数在10w以上的转发微博数;原创微博发布所在的小时数统计;转发微博发布所在的小时数统计。
步骤三、采用网格搜索策略,优化紧邻时间段长度,同时筛选紧邻时间段内每个时间段里的重要微博特征,作为预测模型的输入;
紧邻时间段长度是指当前时间段往前倒推的若干时间段,初始值为1个,最大为8个。
筛选每个时间段里的重要微博特征过程如下:
首先,针对某个时间段,利用紧邻时间段长度以及每个时间段里所有的事件微博特征作为预测模型的输入,当前时间段的微博总数作为对应输出;
然后,分别做出输出的微博总数与输入的每个事件微博特征之间的散点图,从散点图上观测每个事件微博特征与微博总数之间是否具有相同的变化趋势;如果有,保留该事件微博特征;否则删除该事件微博特征。
最后,从保留的各事件微博特征之间,任选两两相比,判断选中的两个事件微博特征之间是否具有线性相关关系,如果有,说明这两个事件特征之间存有共线性,任意剔除其中一个进行筛选。
步骤四、针对当前时间段,将预测模型的输入和当前时间段微博总数作为一组训练样本放入训练集中;
预测模型的输入为步骤三中的紧邻时间段长度值以及筛选后的紧邻时间段内每个时间段里的重要微博特征;当前时间段微博总数为预测目标;使用滑动窗口的形式提取各训练样本组成训练集。
步骤五、采用五折交叉检验方法,将训练集进行随机五折划分,从中选择4折训练基于GBDT的预测模型;
步骤六、训练集中剩余一折样本作为测试样本,依次输入到训练好的GBDT预测模型中进行传播预测,输出各测试样本对应预测的微博总数;
步骤七、判断各测试样本经过预测模型输出的微博总数与各自在训练集中对应的微博总数的差距是否满足±20绝对误差或者±20%相对误差,如果是,该测试样本的预测正确;否则,该测试样本的预测错误;
步骤八、在当前预测模型输入下,利用各测试样本的预测结果计算预测模型的精度;
步骤九、检查网格搜索是否完成,如果是,在所有训练完的预测模型中,选择最高预测精度对应的当前的紧邻时间段长度以及输入的重要微博特征为最优结果;否则返回步骤三,采用网格搜索策略对GBDT模型的输入进行更改;
具体改变包括以下三种:
1)、仅更改紧邻时间段长度,同时每个时间段对应的事件微博特征不变;
2)、仅筛选每个时间段对应的事件微博特征,同时紧邻时间段长度不变;
3)、同时更改紧邻时间段长度和筛选每个时间段对应的事件微博特征。
本发明的优势在于:
1)、一种微博事件信息传播的连续动态预测方法,是第一种针对事件级别的传播预测方法,能够有效支持针对事件的预警和干预措施。
2)、一种微博事件信息传播的连续动态预测方法,预测模型中最优时间段长度和微博特征组合,是在全面衡量各特征的贡献度和相关性的基础上筛选出来的,不仅能够有效提高模型预测精度,还能减小计算复杂性,避免无用计算。
3)、一种微博事件信息传播的连续动态预测方法,不同于文献中常用的使用传播量值的对数的均方根误差作为评价标准,而是采用更贴近实际应用的、使用传播量值进行评价,平均模型精度超过70%,能够达到实际应用水平,可以用力支撑网络舆情分析和预测。
附图说明
图1为本发明一种微博事件信息传播的连续动态预测方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方法进行详细说明。
本发明针对新浪微博,在目前给定传播信息的基础上,试图预测下一阶段的微博总数量;构建了一种基于GBDT(Gradient Boosting Decision Tree)模型的微博事件信息传播的连续动态预测方法,该方法按小时划分事件传播,利用事件从发生到当前时间段内传播特征,如微博量、参与人数、微博情绪等,预测下一小时内事件微博传播的总数。
如图1所示,具体步骤如下:
步骤一、以关键词匹配的模式收集网络中每个事件对应的微博数据,并存入数据库中;
每个事件以关键词定义,用关键词在新浪全量的微博数据中进行匹配,获取事件对应的微博数据;每条微博数据包括:微博内容、发布时间、发布者id、发布者粉丝数和微博类型等,并存入数据库中。
本发明预测的对象是微博中传播的事件,不是针对单条微博或者级联;事件以一组关键词定义,如“美国空袭叙利亚”事件,可以由关键词“美国(美军)”、“空袭”、“叙利亚”组成,使用这些关键词在新浪全量的微博数据中进行关键词匹配,获取对应微博内容、发布时间、发布者id、微博类型等数据信息,存入数据库中。
本发明共收集162个事件,以事件发生之时起,以事件传播的日累积量低于500为止,每个事件传播时间为3-7天不等。
步骤二、针对某事件,按照该事件的每条微博数据中的发布时间,以一个小时为时间段进行划分,统计每个时间段内的事件微博特征;
本发明预测目标是连续动态预测,因此将获取的每个事件数据进行预处理:按照发布时间的先后将每个事件对应的所有微博进行排序,以最早一条微博时间作为时间起始时间,按最小粒度1小时进行划分,统计1小时时间段内的事件微博特征。
此外还构建基于情感图标的微博短文本情感分类器,对每一条微博进行情感分类,包括积极、中性和消极。
针对每1小时内事件微博情况进行统计特征,组成事件传播的时间序列数据;事件微博特征包括:微博总数;参与人数;总粉丝数(发布者粉丝数之和);总关注数(发布者关注数);原创微博数及占比情况;转发微博数及占比情况;评论微博数以及占比情况;积极微博数及占比情况;中性微博数及占比情况;消极微博数及占比情况;粉丝数在10w以上的原创微博数;粉丝数在10w以上的转发微博数;原创微博发布所在的小时数统计;转发微博发布所在的小时数统计。
步骤三、采用网格搜索策略,优化紧邻时间段长度,同时筛选紧邻时间段内每个时间段里的重要微博特征,作为预测模型的输入;
紧邻时间段长度是指当前时间段往前倒推的若干时间段,初始值为1个,最大为8个。
筛选每个时间段里的重要微博特征过程如下:
首先,针对某个时间段,利用紧邻时间段长度以及每个时间段里所有的事件微博特征作为预测模型的输入,当前时间段的微博总数作为对应输出;
然后,分别做出输出的微博总数与输入的每个事件微博特征之间的散点图,从散点图上观测每个事件微博特征与微博总数之间是否具有相同的变化趋势;如果有,保留该事件微博特征;否则删除该事件微博特征。
最后,从保留的各事件微博特征之间,任选两两相比,判断选中的两个事件微博特征之间是否具有线性相关关系,如果有,说明这两个事件特征之间存有共线性,任意剔除其中一个进行筛选。
由于模型预测精度与紧邻时间段长度和筛选后的事件微博特征有关,因此本发明采用基于网格搜索策略寻找最优紧邻时间段长度和重要事件微博特征组合;
步骤四、针对当前时间段,将预测模型的输入和当前时间段微博总数作为一组训练样本放入训练集中;
以当前时间段往前倒推几个小时的时间段内能够提取的微博特征为输入,以下一小时的事件微博量作为输出,构成一组训练样本。为保证所有训练样本的一致性,初步选择利用前1个时间段内的各个特征预测下一时间段的微博量,也就是初始选择GBDT预测模型的输入包括:紧邻时间段长度为当前时间段倒推的1个时间段,以及筛选后的紧邻时间段内每个时间段里的重要微博特征;当前时间段微博总数为预测目标;使用滑动窗口的形式提取各训练样本组成训练集。
步骤五、按照五折交叉检验的方法进行模型训练,即将训练集进行随机五折划分,从中选择4份训练基于GBDT的预测模型;
考虑到事件传播具有爆发期和消退期的特征,将训练集划分成两部分分别训练模型:如果最近当前和上一时间段内微博总数的偏差大于-0.2倍的上一时间段的微博量,则认为传播处于爆发期,否则认为处于消退期。
经过五折交叉检验处理后爆发期有10419个训练样本,2605个测试样本;消退期有7508个训练样本,1878个测试样本。模型使用GBDT的回归树模型,使用200棵树,每棵树有8层。
步骤六、训练集中剩余一折样本作为测试样本,依次输入到训练好的GBDT预测模型中进行传播预测,输出各测试样本对应预测的微博总数;
步骤七、判断各测试样本经过预测模型输出的微博总数与各自在训练集中对应的微博总数的差距是否满足±20绝对误差或者±20%相对误差,如果是,该测试样本的预测正确;否则,该测试样本的预测错误;
步骤八、在当前预测模型输入下,利用各测试样本的预测结果计算预测模型的精度;
精度值为预测正确的测试样本数与总的测试样本数之间的比值;
步骤九、检查网格搜索是否完成,如果是,在所有训练完的预测模型中,选择最高预测精度对应的当前的紧邻时间段长度以及输入的事件微博特征为最优结果;否则返回步骤三,采用网格搜索策略对GBDT模型的输入进行更改;
具体改变包括以下三种:
1)、仅更改紧邻时间段长度,同时每个时间段对应的事件微博特征不变;
2)、仅筛选每个时间段对应的事件微博特征,同时紧邻时间段长度不变;
3)、同时更改紧邻时间段长度和筛选每个时间段对应的事件微博特征。
将更改的紧邻时间段长度和事件微博特征作为模型的输入,返回步骤三。
经过实验结果发现,大部分事件微博特征对传播预测没有什么影响,并且也不需要利用至多8个时间段内的所有特征,而是可以缩减到7个特征和最多两个时间段,分别是:当前阶段转发微博数、评论微博数、积极微博数、消极微博数、微博总数、参与用户数和上一阶段的消极微博数。
本发明采用GBDT模型对搜集的新浪微博进行预测后,结果是:预测值在真值附近±20%浮动,或者±20。经测试,爆发期的预测精度为66.23%,消退期预测精度为78.65%。

Claims (5)

1.一种微博事件信息传播的连续动态预测方法,其特征在于,具体步骤如下:
步骤一、以关键词匹配的模式收集网络中每个事件对应的微博数据,并存入数据库中;
每个事件以关键词定义,用关键词在新浪全量的微博数据中进行匹配,获取事件对应的微博数据,并存入数据库中;
步骤二、针对某事件,按照该事件的每条微博数据的发布时间,以一个小时为时间段进行划分,统计每个时间段内的事件微博特征;
将获取的某事件样本数据,按照发布时间的先后将该事件对应的所有微博进行排序,以最早一条微博时间作为时间起始时间,并按小时统计每个小时内的事件微博特征;
步骤三、采用网格搜索策略,优化紧邻时间段长度,同时筛选紧邻时间段内每个时间段里的重要微博特征,作为预测模型的输入;
紧邻时间段长度是指当前时间段往前倒推的若干时间段;
步骤四、针对当前时间段,将预测模型的输入和当前时间段微博总数作为一组训练样本放入训练集中;
预测模型的输入为紧邻时间段长度值以及筛选后的紧邻时间段内每个时间段里的重要微博特征;当前时间段微博总数为预测目标;使用滑动窗口的形式提取各训练样本组成训练集;
步骤五、采用五折交叉检验方法,将训练集进行随机五折划分,从中选择4折训练基于GBDT的预测模型;
步骤六、训练集中剩余一折样本作为测试样本,依次输入到训练好的GBDT预测模型中进行传播预测,输出各测试样本对应预测的微博总数;
步骤七、判断各测试样本经过预测模型输出的微博总数与各自在训练集中对应的微博总数的差距是否满足±20绝对误差或者±20%相对误差,如果是,该测试样本的预测正确;否则,该测试样本的预测错误;
步骤八、在当前预测模型输入下,利用各测试样本的预测结果计算预测模型的精度;
步骤九、检查网格搜索是否完成,如果是,在所有训练完的预测模型中,选择最高预测精度对应的当前的紧邻时间段长度以及输入的重要微博特征为最优结果;否则返回步骤三,采用网格搜索策略对GBDT模型的输入进行更改;
具体改变包括以下三种:
1)、仅更改紧邻时间段长度,同时每个时间段对应的事件微博特征不变;
2)、仅筛选每个时间段对应的事件微博特征,同时紧邻时间段长度不变;
3)、同时更改紧邻时间段长度和筛选每个时间段对应的事件微博特征。
2.如权利要求1所述的一种微博事件信息传播的连续动态预测方法,其特征在于,步骤一中所述的微博数据包括:微博内容、发布时间、发布者id、发布者粉丝数和微博类型。
3.如权利要求1所述的一种微博事件信息传播的连续动态预测方法,其特征在于,步骤二中所述的事件微博特征包括:微博总数,参与人数,总粉丝数,总关注数,原创微博数及占比情况,转发微博数及占比情况,评论微博数以及占比情况,积极微博数及占比情况,中性微博数及占比情况,消极微博数及占比情况,粉丝数在10w以上的原创微博数,粉丝数在10w以上的转发微博数,原创微博发布所在的小时数统计,转发微博发布所在的小时数统计。
4.如权利要求1所述的一种微博事件信息传播的连续动态预测方法,其特征在于,所述的步骤三中,紧邻时间段长度初始值为1个,最大为8个;
筛选每个时间段里的重要微博特征过程如下:
首先,针对某个时间段,利用紧邻时间段长度以及每个时间段里所有的事件微博特征作为预测模型的输入,当前时间段的微博总数作为对应输出;
然后,分别做出输出的微博总数与输入的每个事件微博特征之间的散点图,从散点图上观测每个事件微博特征与微博总数之间是否具有相同的变化趋势;如果有,保留该事件微博特征;否则删除该事件微博特征;
最后,从保留的各事件微博特征之间,任选两两相比,判断选中的两个事件微博特征之间是否具有线性相关关系,如果有,说明这两个事件特征之间存有共线性,任意剔除其中一个进行筛选。
5.如权利要求4所述的一种微博事件信息传播的连续动态预测方法,其特征在于,所述的事件微博特征,包括7个特征,分别为:当前阶段转发微博数、评论微博数、积极微博数、消极微博数、微博总数、参与用户数和上一阶段的消极微博数。
CN201710843010.5A 2017-09-18 2017-09-18 一种微博事件信息传播的连续动态预测方法 Active CN107784387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710843010.5A CN107784387B (zh) 2017-09-18 2017-09-18 一种微博事件信息传播的连续动态预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710843010.5A CN107784387B (zh) 2017-09-18 2017-09-18 一种微博事件信息传播的连续动态预测方法

Publications (2)

Publication Number Publication Date
CN107784387A CN107784387A (zh) 2018-03-09
CN107784387B true CN107784387B (zh) 2021-10-08

Family

ID=61437603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710843010.5A Active CN107784387B (zh) 2017-09-18 2017-09-18 一种微博事件信息传播的连续动态预测方法

Country Status (1)

Country Link
CN (1) CN107784387B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108989802B (zh) * 2018-08-14 2020-05-19 华中科技大学 一种利用帧间关系的hevc视频流的质量估计方法及系统
CN111161443A (zh) * 2019-01-17 2020-05-15 浙江诸暨美数信息科技有限公司 一种基于历史数据的巡逻路径设置方法
CN109981343A (zh) * 2019-02-18 2019-07-05 国家计算机网络与信息安全管理中心 基于传播加速度的微博传播流行度预测方法及装置
CN111159166A (zh) * 2019-12-27 2020-05-15 沃民高新科技(北京)股份有限公司 事件的预测方法及装置、存储介质及处理器
CN113609193A (zh) * 2021-08-11 2021-11-05 中国工商银行股份有限公司 训练用于预测客户交易行为的预测模型的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473437B2 (en) * 2010-12-17 2013-06-25 Microsoft Corporation Information propagation probability for a social network
CN102394798B (zh) * 2011-11-16 2014-12-31 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
CN106681989A (zh) * 2015-11-09 2017-05-17 郑州大学 一种预测微博转发概率的方法
CN106557551A (zh) * 2016-10-27 2017-04-05 西南石油大学 基于微博事件聚类建模的微博传播规模预测方法和系统
CN106991160B (zh) * 2017-03-30 2020-07-24 武汉大学 一种基于用户影响力以及内容的微博传播预测方法

Also Published As

Publication number Publication date
CN107784387A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN107784387B (zh) 一种微博事件信息传播的连续动态预测方法
Aïvodji et al. Fairwashing: the risk of rationalization
Filho et al. Twitter population sample bias and its impact on predictive outcomes: a case study on elections
CN113807616B (zh) 基于时空注意力和异构图卷积网络的信息扩散预测系统
CN108304867A (zh) 面向社交网络的信息流行度预测方法及系统
CN114091443B (zh) 基于深度学习的网络信息传播指标体系构建及评估方法
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN105893637A (zh) 大规模微博异构信息网络中的链接预测方法
Bao et al. sonLP: social network link prediction by principal component regression
Mathews et al. The nature and origin of heavy tails in retweet activity
CN103413054A (zh) 基于用户计算机交互事件的网瘾检测装置及方法
Gliwa et al. Models of social groups in blogosphere based on information about comment addressees and sentiments
CN105677925B (zh) 数据库用户数据处理方法和装置
Kalampokis et al. On predicting election results using twitter and linked open data: the case of the UK 2010 election
CN115470991A (zh) 基于用户短时情感和演化博弈的网络谣言传播预测方法
Bródka A method for group extraction and analysis in multilayer social networks
Hasan et al. Using social sensing to discover trends in public emotion
Vigier et al. A model for the prediction of “diseases” of firms by means of fuzzy relations
Kan et al. A time decoupling approach for studying forum dynamics
CN116228447A (zh) 一种互联网信息传播用户角色识别方法及计算机可读介质
CN116842829A (zh) 基于电力营销多源数据分析的知识抽取与建模方法
Kumar et al. Popularity Measuring and Prediction Mining of IPL Team Using Machine Learning
CN104503959B (zh) 预测用户情感倾向的方法和设备
CN114742274A (zh) 一种社交网络信息扩散预测方法
CN114092216A (zh) 企业信贷评级方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant