CN106257459B - 一种基于关键用户的微博信息传播预测方法 - Google Patents
一种基于关键用户的微博信息传播预测方法 Download PDFInfo
- Publication number
- CN106257459B CN106257459B CN201610629837.1A CN201610629837A CN106257459B CN 106257459 B CN106257459 B CN 106257459B CN 201610629837 A CN201610629837 A CN 201610629837A CN 106257459 B CN106257459 B CN 106257459B
- Authority
- CN
- China
- Prior art keywords
- user
- key
- prediction
- key user
- time window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供的是一种基于关键用户的微博信息传播预测方法。步骤1:数据采集;步骤2:数据处理;步骤3:利用线性模型预测;步骤4:基于关键用户挖掘的模型调整,进行后续预测。本发明的方法,利用从微博网络上获取的消息的用户转发数据,通过基于关键用户的动态线性模型来预测未来信息传播的状态,并在预测的过程中实时的挖掘关键用户,在新增关键用户的基础上对线性模型进行改进。
Description
技术领域
本发明涉及的是一种网络分析方法,具体地说是一种微博信息传播预测方法。
背景技术
随着社会网络的飞速发展,人类进入了自媒体时代。微博网络作为典型的社交媒体平台,其140字的短文本信息发送方式以及多种的交互模式,使其成为人们获取信息、分享信息、传播信息的重要平台。由于微博网络具有数据量大、信息碎片化严重、交互多样性、信息传播快等特性,通过系统审核或人工实时监控,并不能有效地限制社交网络舆情危机信息的传播。因此微博除了成为民众表达关切和诉求的窗口之外,也成为了虚假信息、流言蛮语滋生的平台。
针对在特定的网络舆情事件中可能产生微博负面舆情危机的问题,在负面舆情被大规模传播之前需要对特定热点舆情事件中的微博消息的传播进行预测。在负面信息大规模爆发之前进行有效地处理是社会网络舆情安全研究所必须解决的问题。社交网络中的网络舆情传播通常是由一个或多个用户协同来进行大规模扩散的。因此在研究社交网络舆情传播预测的过程中,如何针对影响信息传播的关键用户来动态调整传播预测模型,是社交网络舆情信息传播预测的重要环节。
与本发明相关的公开报道包括:
[1]WANG Jing,LIU Zhijing,ZHAO Hui,“Micro-blogs Entity RecognitionBased on DSTCRF”,Chinese Journal of Electronics,Vol.23,No.1,pp 147-150,2014;
[2]YANG Zhen,FAN Kefeng,LAI Yingxu,GAO Kaiming and WANG Yong,“ShortTexts Classification Through Reference Document Expansion”,Chinese Journal ofElectronics,Vol.23,No.2,2014;
[3]Yang Z,Guo J,Cai K,Tang J,Li J,Zhang L,et al.,Understandingretweeting behaviors in social networks.Proceedings of the 19th ACMinternational conference on Information and knowledge management;2010:ACM.1633-1636 p;
[4]Peng H-K,Zhu J,Piao D,Yan R,Zhang Y,Retweet modeling usingconditional random fields.Data Mining Workshops(ICDMW),2011 IEEE 11thInternational Conference on;2011:IEEE.336-343 p;
[5]Zaman TR,Herbrich R,Van Gael J,Stern D,Predicting informationspreading in twitter.Workshop on computational social science and the wisdomof crowds,nips;2010:Citeseer.17599-17601 p;
[6]Kupavskii A,Ostroumova L,Umnov A,Usachev S,Serdyukov P,Gusev G,etal.,Prediction of retweet cascade size over time.Proceedings of the 21st ACMinternational conference on Information and knowledge management;2012:ACM.2335-2338 p;
[7]Cheng J,Adamic L,Dow PA,Kleinberg JM,Leskovec J,Can cascades bepredicted?Proceedings of the 23rd international conference on World wide web;2014:ACM.925-936 p;
[8]Zhao Q,Erdogdu MA,He HY,Rajaraman A,Leskovec J,SEISMIC:A Self-Exciting Point Process Model for Predicting Tweet Popularity.Proceedings ofthe 21th ACM SIGKDD International Conference on Knowledge Discovery and DataMining;2015:ACM.1513-1522 p;
[9]Yang J,Leskovec J,Modeling information diffusion in implicitnetworks.Data Mining(ICDM),2010IEEE 10th International Conference on;2010:IEEE.599-608p;
[10]Wang CX,Guan XH,Qin Tao,Zhou YD.Modeling Opinion Leader’sInfluence in Microblog Message Propagation and Its Application.Journal ofSoftware,2015,26(6)。
发明内容
本发明的目的在于提供一种具有准确的预测效果,并可以挖掘影响预测性能的关键用户的基于关键用户的微博信息传播预测方法。
本发明的目的是这样实现的:
步骤1:数据采集;
步骤2:数据处理;
步骤3:利用线性模型预测;
步骤4:基于关键用户挖掘的模型调整,进行后续预测。
本发明还可以包括:
1、所述数据采集具体包括:
步骤1.1:在微博网络中实时获取给定消息id的转发用户;
步骤1.2:获取微博用户的配置信息,所述配置信息包括关注数、粉丝数。
2、所述数据处理具体包括:
步骤2.1:根据给定的时间间隔将步骤1.1与1.2所获得的数据划分为多个时间窗口;
步骤2.2:选取前k个时间窗口作为训练数据窗口,第k+1时间窗口为预测窗口。
3、所述利用线性模型预测具体包括:
步骤3.1:首先根据训练集的时间窗口内用户的转发量确定时间窗口内的关键用户;
步骤3.2:根据用户的转发数对线性函数进行拟合,迭代的确定线性函数的待估参数值,确定预测函数;
步骤3.3:将预测时间窗口的窗口值代入预测函数,生成预测值。
4、所述基于关键用户挖掘的模型调整具体包括:
步骤4.1:根据预测值和实际值的差异确定是否需要进行关键用户检测;
步骤4.2:当预测差异大于阈值时,根据该时间窗口的用户转发数确定关键用户;
步骤4.3:利用关键用户的粉丝数,以及之前其他关键用户的粉丝数来确定关键用户的数值,来对线性模型进行调整。
步骤4.4:利用新生成的线性模型对下一时间窗口进行预测。
本发明提出了一种基于消息传播中的关键用户的动态线性预测模型,该模型在预测的同时检查影响预测准确性的关键用户,通过关键用户动态调整线性预测模型。
本发明的方法,利用从微博网络上获取的消息的用户转发数据,通过基于关键用户的动态线性模型来预测未来信息传播的状态,并在预测的过程中实时的挖掘关键用户,在新增关键用户的基础上对线性模型进行改进。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出一种基于关键用户的微博信息传播预测方法,该技术主要考虑信息传播预测过程中关键用户出现导致预测失准的问题,来对传统的线性预测模型进行改进。并取得了良好的预测效果。
2、本发明能够有效的针对微博类的大规模社会网络,具有较为准确的预测效果,并可以挖掘影响预测性能的关键用户。
附图说明
图1是本发明的总体流程图。
图2是本发明的线性模型的具体示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
结合图1,本发明的基于关键用户的微博信息传播预测方法的具体实现步骤如下:
步骤101:数据采集;
步骤102:数据处理;
步骤103:线性模型预测;
步骤104:基于关键用户挖掘的模型调整。
步骤101中,其所述数据采集的步骤包括:
在微博网络中实时获取给定消息id的转发用户;
获取微博用户的配置信息,关注数、粉丝数等;
所述步骤102中,其所述数据处理的步骤包括:
根据给定的时间间隔将微博数据划分为多个时间窗口;
选取前k个时间窗口作为训练数据窗口,第k+1时间窗口为预测窗口;
所述步骤103中,其所述线性模型预测的步骤为:
首先根据训练集的时间窗口内用户的转发量确定时间窗口内的关键用户;
根据用户的转发数对线性函数进行拟合,迭代的确定线性函数的待估参数值,确定预测函数。
将预测时间窗口的窗口值代入预测函数,生成预测值。
所述步骤104中,其所述的基于关键用户挖掘的模型调整:
根据预测值和实际值的差异确定是否需要进行关键用户检测;
当预测差异大于阈值时,根据该时间窗口的用户转发数确定关键用户;
利用关键用户的粉丝数,以及之前其他关键用户的粉丝数来确定关键用户的数值,来对线性模型进行调整。
利用新生成的线性模型对下一时间窗口进行预测。
在步骤101中,数据采集是指从微博网络实时获取微博转发用户数据。
在步骤102中,数据处理是指将获取的微博转发数据按固定时间间隔划分时间窗口。
将微博消息oid为相同值的微博微博消息按照消息的时间,以固定的时间间隔L划分为N个微博窗口ms,ms=[win1,…,winj,…,winL],winj为第j个微博窗口,且满足
在步骤103中,线性模型预测是指根据给定的训练时间窗口训练线性模型对下一个时间窗口进行预测。
在线性预测模型预测的过程中仅考虑关键用户对转发规模具有影响如图2所示,并根据图2建立公式(1)。公式主要由三部分组成,本发明考虑微博消息制造者作为第一个关键用户与其他的关键用户的影响效果是不同的,因此使用参数at,bt对两类关键用户进行区分。然后是用dt来调节其他节点带来的部分消息转发影响。
其中表示t时刻用户ui的预测转发量,表示m消息在t时刻的关键用户集合。
根据公式需求,首先确定发布用户为第一个关键用户,然后根据训练集中用户的被转发数确定训练集关键用户,最后通过公式(1)进行预测。
在步骤104中,初始候选集合选取,是指根据预测值和实际值得差异性来确定是否进行关键用户挖掘并根据关键用户改进线性模型。
在消息的传播过程中,训练集中的关键用户通常很容易被确定,但当预测时间窗口中出现关键用户后,预测算法的准确性被关键用户干扰后,导致预测准确度下降。因此本发明将关键用户作为微博转发规模预测准确度的重要因素。当关键用户出现在预测时间窗口内时,预测算法会产生相应的预测偏差,因此本发明定义Key_Thrseshold作为关键用户存在阈值,其公式如所示:
当Key_Thrseshold<θ时,证明该时间窗口内不存在影响预测的关键用户,当Key_Thrseshold≥θ时并且R_Fact(t)-R_Precdit(t)≥10表明该预测时间窗内可能存在影响预测的关键用户,需要对该时间窗口进行关键用户挖掘。Key_Thrseshold≥θ表明预测算法和实际值有较大的差异,R_Fact(t)-R_Precdit(t)≥10为了避免小于10的转发规模影响阈值计算。同时当Key_Thrseshold≤-θ时,表明之前窗口可能有部分的关键用户失效,需要删除关键用户影响。
首先根据该时间窗口中的用户自身转发数进行用户排序,生成排序集合依次的将集合中的用户添加到下列公式中,直到满足下列公式为止。
通过找到的关键用户集合对线性模型进行动态的调整,来进行下一步的预测。
Claims (3)
1.一种基于关键用户的微博信息传播预测方法,包括如下步骤,
步骤1:数据采集;
步骤2:数据处理;
步骤3:利用线性模型预测;
步骤4:基于关键用户挖掘的模型调整,进行后续预测;
其特征是:
在步骤3中,线性模型预测是指根据给定的训练时间窗口训练线性模型对下一个时间窗口进行预测,
在线性预测模型预测的过程中仅考虑关键用户对转发规模具有影响,并建立公式(1),公式(1)由三部分组成,考虑微博消息制造者作为第一个关键用户与其他的关键用户的影响效果的不同,使用参数at,bt对两类关键用户进行区分,然后是用dt来调节其他节点带来的部分消息转发影响,
其中表示t时刻用户ui的预测转发量,表示m消息在t时刻的关键用户集合,
首先确定发布用户为第一个关键用户,然后根据训练集中用户的被转发数确定训练集关键用户,最后通过公式(1)进行预测;
在步骤4中,初始候选集合选取,是指根据预测值和实际值的差异性来确定是否进行关键用户挖掘并根据关键用户改进线性模型,
在消息的传播过程中,将关键用户作为微博转发规模预测准确度的重要因素,当关键用户出现在预测时间窗口内时,会产生相应的预测偏差,定义Key_Thrseshold作为关键用户存在阈值,其公式如所示:
当Key_Thrseshold<θ时,证明该时间窗口内不存在影响预测的关键用户,当Key_Thrseshold≥θ时并且R_Fact(t)-R_Precdit(t)≥10表明该预测时间窗内可能存在影响预测的关键用户,需要对该时间窗口进行关键用户挖掘,Key_Thrseshold≥θ表明预测算法和实际值有较大的差异,同时当Key_Thrseshold≤-θ时,表明之前窗口可能有部分的关键用户失效,需要删除关键用户影响,
首先根据该时间窗口中的用户自身转发数进行用户排序,生成排序集合依次的将集合中的用户添加到下列公式中,直到满足下列公式为止,
通过找到的关键用户集合对线性模型进行动态的调整,来进行下一步的预测。
2.根据权利要求1所述的基于关键用户的微博信息传播预测方法,其特征是所述数据采集具体包括:
步骤1.1:在微博网络中实时获取给定消息id的转发用户;
步骤1.2:获取微博用户的配置信息,所述配置信息包括关注数、粉丝数。
3.根据权利要求2所述的基于关键用户的微博信息传播预测方法,其特征是所述数据处理具体包括:
步骤2.1:根据给定的时间间隔将步骤1.1与1.2所获得的数据划分为多个时间窗口;
步骤2.2:选取前k个时间窗口作为训练数据窗口,第k+1时间窗口为预测窗口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610629837.1A CN106257459B (zh) | 2016-08-03 | 2016-08-03 | 一种基于关键用户的微博信息传播预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610629837.1A CN106257459B (zh) | 2016-08-03 | 2016-08-03 | 一种基于关键用户的微博信息传播预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106257459A CN106257459A (zh) | 2016-12-28 |
CN106257459B true CN106257459B (zh) | 2019-11-01 |
Family
ID=57714135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610629837.1A Active CN106257459B (zh) | 2016-08-03 | 2016-08-03 | 一种基于关键用户的微博信息传播预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106257459B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609717B (zh) * | 2017-10-12 | 2020-10-20 | 南京航空航天大学 | 社交网络中一种基于Kalman滤波器的帖子转发量预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104915397A (zh) * | 2015-05-28 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博传播趋势预测方法及装置 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN105608625A (zh) * | 2016-01-04 | 2016-05-25 | 哈尔滨工程大学 | 一种基于微博用户质量的信息影响力评估方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142963B (zh) * | 2013-06-09 | 2018-05-15 | 腾讯科技(北京)有限公司 | 一种微博定向发布的方法、系统及客户端 |
-
2016
- 2016-08-03 CN CN201610629837.1A patent/CN106257459B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182457A (zh) * | 2014-07-14 | 2014-12-03 | 上海交通大学 | 在社交网络中基于泊松过程模型的事件流行度预测方法 |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
CN104915397A (zh) * | 2015-05-28 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博传播趋势预测方法及装置 |
CN105608625A (zh) * | 2016-01-04 | 2016-05-25 | 哈尔滨工程大学 | 一种基于微博用户质量的信息影响力评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106257459A (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103150374B (zh) | 一种识别微博异常用户的方法和系统 | |
Bourigault et al. | Representation learning for information diffusion through social networks: an embedded cascade model | |
Yu et al. | From micro to macro: Uncovering and predicting information cascading process with behavioral dynamics | |
Galuba et al. | Outtweeting the {Twitterers—predicting} information cascades in microblogs | |
Dickens et al. | Learning stochastic models of information flow | |
CN104537096A (zh) | 一种基于微博消息传播树的微博消息影响力度量方法 | |
CN103530402A (zh) | 一种基于改进的PageRank的微博关键用户识别方法 | |
CN105893637A (zh) | 大规模微博异构信息网络中的链接预测方法 | |
CN104166726B (zh) | 一种面向微博文本流的突发关键词检测方法 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Yu et al. | Fast budgeted influence maximization over multi-action event logs | |
Kumar et al. | Information propagation in interaction networks | |
CN106257459B (zh) | 一种基于关键用户的微博信息传播预测方法 | |
Mashayekhi et al. | Weighted estimation of information diffusion probabilities for independent cascade model | |
CN105589916A (zh) | 显式和隐式兴趣知识的提取方法 | |
CN109492924B (zh) | 一种基于微博用户自身和行为价值二阶的影响力评估方法 | |
Abdullahi et al. | Global convergence analysis of a new hybrid conjugate gradient method for unconstrained optimization problems | |
CN103618702B (zh) | 社会网络信息传播态势感知方法及系统 | |
CN103336865B (zh) | 一种动态通信网络构建方法及装置 | |
Seufert et al. | More than topology: Joint topology and attribute sampling and generation of social network graphs | |
Fang et al. | Active exploration: simultaneous sampling and labeling for large graphs | |
Zhang et al. | Research on evolution dynamics of urban rail transit network based on allometric growth relationship | |
Zhang et al. | How to count thumb-ups and thumb-downs: user-rating based ranking of items from an axiomatic perspective | |
Du et al. | Microblog bursty feature detection based on dynamics model | |
WO2015154641A1 (zh) | 一种业务并发性预测方法与预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |