CN104008150A - 一种对社交网络信息传播趋势预测的方法及系统 - Google Patents
一种对社交网络信息传播趋势预测的方法及系统 Download PDFInfo
- Publication number
- CN104008150A CN104008150A CN201410213602.5A CN201410213602A CN104008150A CN 104008150 A CN104008150 A CN 104008150A CN 201410213602 A CN201410213602 A CN 201410213602A CN 104008150 A CN104008150 A CN 104008150A
- Authority
- CN
- China
- Prior art keywords
- information
- data
- social network
- class
- subscriber
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000005540 biological transmission Effects 0.000 title abstract 8
- 238000009826 distribution Methods 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000009499 grossing Methods 0.000 claims abstract description 7
- 230000006854 communication Effects 0.000 claims description 58
- 238000004891 communication Methods 0.000 claims description 57
- 230000000644 propagated effect Effects 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 18
- 238000009792 diffusion process Methods 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 6
- 241000270322 Lepidosauria Species 0.000 claims description 5
- 238000000151 deposition Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 206010027336 Menstruation delayed Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种对社交网络信息传播趋势预测的方法及系统,包括获取社交网络中的信息数据和用户数据,利用用户数据计算出用户类别分布向量;对信息数据进行归一化处理;利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出信息传播趋势的预测点,绘制信息传播趋势线;将通过K-SC算法得到的若干基本信息传播曲线与信息传播趋势线拟合,获取信息传播趋势预测线的后续趋势线;本发明能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助;同时本发明的系统在运行时内存代价低,拥有很高的效率,拥有独立性和可移植性。
Description
技术领域
本发明涉及社交网络中的信息传播领域,尤其涉及一种对社交网络信息传播趋势预测的方法及系统。
背景技术
目前,网络已经成为人获取信息的重要途径,尤其是随着各种社交网站的快速崛起,更方便的信息获取和更快速的信息传播随之而来。更多的信息利用网络来到人们面前,更多的问题也就会出现。社交网络已经形成了庞大的线上社会群体,构建了密切的线上人际关系。然而,这种前所未有的信息传播优势和巨大的影响力,怎样最大化的突起其优势,摒弃其缺点,让社交网络这个线上社会充满正能量成为此方法的动力和目标。
社交网络上的信息传播不同于信件、口头、报纸等传统的信息传播,社交网络中的信息传播具有以下几方面的突出特征,第一,具有很强的实时性,科技的进步,信息的发出者很容易将看到的重大事件用最快的时间向外传播,例如:2009年1月15日的美国哈尔逊河坠机时间,不到15分钟,Twitter中已经广泛传播,而纽约日报的报道却在15小时之后。第二,拥有较强的群体性,社交网络的信息发布变得随心所欲,不同的人出于一些目的会发布一些具有煽动性的信息,而这些信息广泛传播将会引发群体性。第三,信息更新周期性变小,由于信息的大量发布,信息的来源越来越广,所以信息在传播中逐渐被新的信息所取代,周期性变小。
信息传播的趋势预测结合社交网络上信息传播的特点,会有效的解决很多问题,本发明要解决的主要是以下两个方面的问题:
第一,信息的及时推送,现在各大社交网站以及网民对信息的及时推送需求越来越高,能够根据信息的传播趋势来推送信息,会得到很好的实时性效果。让信息更准,更快的推送到需求人面前。
第二,网络舆情控制,网络信息具有很强的群体性和突发性,如果能将舆情信息提前发现和有效的控制,就会避免很多的群体性事件,将线上的社会变得更加和谐,稳定。
能够及早的发现信息传播中的变化,尽早的对信息的传播趋势做出预测成为了信息实时推送和社会网络舆情监测的主要部分。目前,对信息推送和舆情传播都是采用的监测方法,设置一个阀值,当信息的某些参数大于这个阀值时,就会定义为推送信息或者舆情信息。这些方法相对粗糙,信息的实时特征很难得到保证。
发明内容
本发明所要解决的技术问题是提供一种可实时、有效、快速对社交网络信息传播趋势预测的方法及系统,用于解决现有技术中存在的在社交网络信息传播过程中,热点发现滞后,信息推送以及网络舆情监测难以实现实时性等问题。
本发明解决上述技术问题的技术方案如下:一种对社交网络信息传播趋势预测的方法,包括如下步骤:
步骤1:获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
步骤2:从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
步骤3:从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
步骤4:利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
步骤5:将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到的当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
本发明的有益效果是:本发明充分考虑了社交网络信息的实时性,利用当前信息的部分传播趋势,与K-SC中所得到的信息传播曲线进行拟合,K-SC的传播曲线是对完整的信息传播曲线模式的一个类别划分,因此根据部分当前信息传播曲线利用趋势预测,能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,步骤1中获取社交网络中的信息数据和用户数据时,根据不同类型的社交网站采取不同的数据获取方式;对于以文本形式体现的社交网络,采用网络爬虫获取所需的信息数据与用户数据,对于短文本类的社交网络,使用平台提供的API获取所需的信息数据与用户数据。
进一步,步骤1中获取信息数据时,获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;获取用户数据时,获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
进一步,步骤2的具体实现为:
步骤2.1:从数据库中获取用户数据,根据用户数据获取用户对信息做出反应的时间;
步骤2.2:采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
步骤2.3:利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
进一步,步骤5的具体实现为:
步骤5.1:通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
步骤5.2:将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当前信息传播曲线进行拟合;
步骤5.3:找到与当前信息传播曲线拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势线。
本发明解决上述技术问题的另一技术方案如下:一种对社交网络信息传播趋势预测的系统,包括数据获取模块、数据库模块、用户数据处理模块、信息数据处理模块、当前信息传播曲线计算模块和信息传播趋势线预测模块;
所述数据获取模块,其用于获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
所述数据库模块,其用于存放归一化的信息数据及用户数据;
所述用户数据处理模块,其用于从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
所述信息数据处理模块,其用于从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
所述当前信息传播曲线计算模块,其用于利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
所述信息传播趋势线预测模块,其用于将通过K-SC算法得到的若干基本信息传播曲线与当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
本发明的有益效果是:本发明的系统在运行时内存代价低,拥有很高的效率,拥有独立性和可移植性;本发明能够对信息传播趋势做出及早的预测,对信息的及时推送,和网络的舆情及时控制都有很大的帮助。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述数据获取模块包括信息数据获取单元和用户数据获取单元;
所述信息数据获取单元,其用于获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;
所述用户数据获取单元,其用于获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
进一步,所述用户数据处理模块包括数据时间间隔统计单元、社交网络用户类别统计单元和用户类别分布向量计算单元;
所述数据时间间隔统计单元,根据用户数据获取用户对信息做出反应的时间;
所述社交网络用户类别统计单元,其用于采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
用户类别分布向量计算单元,其用于利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
进一步,所述信息传播趋势线预测模块包括基本信息传播曲线聚类单元和信息传播趋势预测单元;
所述基本信息传播曲线聚类单元,其用于通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
所述信息传播趋势预测单元步骤,其用于将基本信息传播曲线与当前信息传播曲线进行拟合,找到与预测值拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势预测趋势线。
附图说明
图1为本发明所述一种对社交网络信息传播趋势预测的方法流程图;
图2为本发明所述一种对社交网络信息传播趋势预测的系统框图;
图3为本发明所述数据获取模块结构框图;
图4为本发明所述用户数据处理模块结构框图;
图5为本发明所述信息传播趋势线预测模块结构框图。
附图中,各标号所代表的部件列表如下:
1、数据获取模块,2、数据库模块,3、用户数据处理模块,4、信息数据处理模块,5、当前信息传播曲线计算模块,6、信息传播趋势线预测模块,11、信息数据获取单元,12、用户数据获取单元,31、数据时间间隔统计单元,32、社交网络用户类别统计单元,33和用户类别分布向量计算单元,,61、基本信息传播曲线聚类单元,62、和信息传播趋势预测单元62。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种对社交网络信息传播趋势预测的方法,包括如下步骤:
步骤1:获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
步骤2:从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
步骤3:从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
步骤4:利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
步骤5:将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到的当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
所述步骤2和步骤3的执行没有先后顺序限制。
其中,步骤1中获取社交网络中的信息数据和用户数据时,根据不同类型的社交网站采取不同的数据获取方式;对于以文本形式体现的社交网络,采用网络爬虫获取所需的信息数据与用户数据,对于短文本类的社交网络,使用平台提供的API获取所需的信息数据与用户数据。
步骤1中获取信息数据时,获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;获取用户数据时,获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
步骤2的具体实现为:
步骤2.1:从数据库中获取用户数据,根据用户数据获取用户对信息做出反应的时间;
步骤2.2:采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
步骤2.3:利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
所述的Rogers的创新扩散理论是根据生活中人们对采纳新事物的时间,把创新的采用者分为创新者、早期采用者、早期大多数、晚期大多数和落后者。创新者是勇敢的先行者,自觉推动创新,创新交流中发挥重要作用。早期采用者是受人尊敬的社会人士,是公众意见领袖,但行为谨慎。早期大多数是有思想的一群人,也比较谨慎,但他们较之普通人群更愿意、更早地接受变革。晚期大多数是持怀疑态度的一群人,只有当社会大众普遍接受了新鲜事物的时候,才会采用。落后者是保守传统的一群人,习惯于因循守旧,对新鲜事物吹毛求疵,只有当新的发展成为主流、成为传统时,才会被动接受。
步骤4中移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。移动平均法适用于即期预测。当产品需求既不快速增长也不快速下降,且不存在季节性因素时,移动平均法能有效地消除预测中的随机波动,是非常有用的。
步骤5的具体实现为:
步骤5.1:通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
步骤5.2:将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当前信息传播曲线进行拟合;
步骤5.3:找到与当前信息传播曲线拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势线。
这里所提到K-SC算法是来自斯坦福大学的Jaewon Yang等人采用聚类方法,对社交网络中的信息进行分析,从而找到了6种基本社交网络信息的时序传播模式。
如图2所示,一种对社交网络信息传播趋势预测的系统,包括数据获取模块1、数据库模块2、用户数据处理模块3、信息数据处理模块4、当前信息传播曲线计算模块5和信息传播趋势线预测模块6;
所述数据获取模块1,其用于获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
所述数据库模块2,其用于存放归一化的信息数据及用户数据;
所述用户数据处理模块3,其用于从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
所述信息数据处理模块4,其用于从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
所述当前信息传播曲线计算模块5,其用于利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
所述信息传播趋势线预测模块6,其用于将通过K-SC算法得到的若干基本信息传播曲线与当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
如图3所示,所述数据获取模块1包括信息数据获取单元11和用户数据获取单元12;
所述信息数据获取单元11,其用于获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;
所述用户数据获取单元12,其用于获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
如图4所示,所述用户数据处理模块3包括数据时间间隔统计单元31、社交网络用户类别统计单元32和用户类别分布向量计算单元33;
所述数据时间间隔统计单元31,根据用户数据获取用户对信息做出反应的时间;
所述社交网络用户类别统计单元32,其用于采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
用户类别分布向量计算单元33,其用于利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
如图5所示,所述信息传播趋势线预测模块6包括基本信息传播曲线聚类单元61和信息传播趋势预测单元62;
所述基本信息传播曲线聚类单元61,其用于通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
所述信息传播趋势预测单元步骤62,其用于将基本信息传播曲线与当前信息传播曲线进行拟合,找到与预测值拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势预测趋势线。
本发明以天涯论坛为例,对于上述步骤具体实施步骤描述如下:
天涯论坛是开放性的BBS平台,目前论坛所给的API接口还不是足够完善,没有达到实际要求,其本身又是以网页html为主,所以本实施例,采用网络爬虫的方式来获取信息数据和用户数据。
第一,获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中。
准备过程:在32位windows7平台下安装配置Microsoft SQL Server2008数据库,编写网络爬虫程序TYCrawler。
1)通过在主机上设置爬取启动时间来执行爬虫程序TYCrawler。对于信息数据,每个帖子都有自己独有的ID,所以不用对信息的URL进行去重操作。爬取符合条件并被加入待爬取队列的URL。对于用户数据,由于一个用户可以对一个帖子进行多次回复,所以在爬取用户数据的时候,要建立一个已爬取的用户表,每次对要爬取的用户进行判断。
用正则表达式来选择符合爬取要求的URL,并将符合的URL加入到Wait_URL队列,利用JSoup的对抓取的html进行解析。其中,getWait_URL(URL)函数是获取符合待爬取的URL,getInfo(Post_ID)函数功能是爬取给定ID帖子的全部特征信息,包括标题、内容、点击量、回复量、回复时间等。getReply_ID(Post_ID)函数功能是获取回复帖子的用户ID。最终将信息数据存入到SQL Server2008数据库中。
TYCrawler定义如下:
2)SQL Server2008数据库的设计。信息数据和用户数据的设计字段如下:
信息数据:ID(帖子ID),text(帖子内容),click(点击量),reply(回复量),time(发帖时间)。
用户数据:ID(用户ID),PostID(回复帖子ID),text(回复内容),floor(回复楼层),time(回复时间)。
这里,函数void TYCrawler()的定义只是起到示例和说明作用,本领域普通技术人员应该理解,可以在现有的操作系统平台上使用已有的任何编程语言来实现该函数的功能,即获取信息数据和用户数据。
第二,利用Gaussian Logit Curve模型求解出用户类别的分布,计算出Diffusion_Info向量。这里Gaussian Logit Curve模型是在创新扩散理论的基础上提出来的,创新扩散理论中把群体分为了5类,而Gaussian LogitCurve模型求解就是这几类用户的分布。
在本实施例中,首先要根据用户数据统计出时间特征,getTime_Span(time)函数实现。利用Gaussian Logit Curve进行时间数据处理,求解出用户类别分布。将用户类别分布结合创新扩散理论,计算出Diffusion_Info向量值。函数getDiffusion_Info()实现这个过程。
getDiffusion_Info()主要定义如下:
getDiffusion_Info(){
数据库读取用户数据,提取时间集合T;
利用getTime_Span(time)函数统计出时间特征;
对时间进行Gaussian Logit Curve模型方法处理;
利用函数getDiffusion_Info()计算出Diffusion_Info向量;
返回Diffusion_Info;
函数结束;
}
第三,利用生成的Diffusion_Info用户类别分布向量和移动均值法对信息数据进行计算,得出预测点值。
这里采用加权移动平均法求解信息传播的预测点,因为每一种社交网络,由于服务的内容不同,所以用户类别的分布是有所差异的,时间上对信息传播的影响也是不同的。加入Diffusion_Info向量可以解决这个问题。
加权移动平均法的计算公式如下:
Ft=w1At-1+w2At-2+w3At-3+…+wnAt-n式中,w1是第t-1期实际的权重;w2为第t-2期实际的权重;wn是第t-n期实际的权重;n为预测的时期数;其中w1+w2+…+wn=1。
第四,利用K-SC算法中几种信息传播曲线对预测值进行拟合,求解出信息传播趋势预测曲线。具体实现函数为Trend_Pre(ID)定义如下:
本发明充分考虑了社交网络信息的实时性,利用当前信息的部分传播趋势,与K-SC中所得到的信息传播曲线进行拟合,K-SC的传播曲线是对完整的信息传播曲线模式的一个类别划分,因此根据部分当前信息传播曲线利用趋势预测,能够尽早的对信息传播能力进行估计,减少了传统方法的滞后性,对信息及时推送和社交网络的舆情及时控制提供了帮助。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种对社交网络信息传播趋势预测的方法,其特征在于,包括如下步骤:
步骤1:获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
步骤2:从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
步骤3:从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
步骤4:利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
步骤5:将通过K-SC算法得到的若干基本信息传播曲线与步骤4中得到的当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
2.根据权利要求1所述一种对社交网络信息传播趋势预测的方法,其特征在于,步骤1中获取社交网络中的信息数据和用户数据时,根据不同类型的社交网站采取不同的数据获取方式;对于以文本形式体现的社交网络,采用网络爬虫获取所需的信息数据与用户数据,对于短文本类的社交网络,使用平台提供的API获取所需的信息数据与用户数据。
3.根据权利要求1所述一种对社交网络信息传播趋势预测的方法,其特征在于,步骤1中获取信息数据时,获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;获取用户数据时,获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
4.根据权利要求1所述一种对社交网络信息传播趋势预测的方法,其特征在于,步骤2的具体实现为:
步骤2.1:从数据库中获取用户数据,根据用户数据获取用户对信息做出反应的时间;
步骤2.2:采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
步骤2.3:利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
5.根据权利要求1所述一种对社交网络信息传播趋势预测的方法,其特征在于,步骤5的具体实现为:
步骤5.1:通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
步骤5.2:将通过K-SC算法得到的基本信息传播曲线与步骤4得到的当前信息传播曲线进行拟合;
步骤5.3:找到与当前信息传播曲线拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势线。
6.一种对社交网络信息传播趋势预测的系统,其特征在于,包括数据获取模块、数据库模块、用户数据处理模块、信息数据处理模块、当前信息传播曲线计算模块和信息传播趋势线预测模块;
所述数据获取模块,其用于获取社交网络中的信息数据和用户数据,并将信息数据和用户数据存入到数据库中;
所述数据库模块,其用于存放归一化的信息数据及用户数据;
所述用户数据处理模块,其用于从数据库获取用户数据,统计出用户类别及用户类别在不同社交网站的分布情况,进而计算出Diffusion_Info用户类别分布向量;
所述信息数据处理模块,其用于从数据库获取信息数据,将信息传播趋势以时间间隔进行统计,得到的时序序列作为信息传播中热度趋势特征,将不同的社交网络平台信息数据进行归一化处理;
所述当前信息传播曲线计算模块,其用于利用移动平均方法对归一化的信息数据进行平滑处理,结合Diffusion-Info用户类别分布向量计算出当前信息传播点,绘制当前信息传播曲线;
所述信息传播趋势线预测模块,其用于将通过K-SC算法得到的若干基本信息传播曲线与当前信息传播曲线拟合,取拟合差值最小的基本信息传播曲线为社交网络信息传播趋势线。
7.根据权利要求6所述一种对社交网络信息传播趋势预测的系统,其特征在于,所述数据获取模块包括信息数据获取单元和用户数据获取单元;
所述信息数据获取单元,其用于获取信息的基本特征数据,将噪音数据去除,以统一形式存入数据库;
所述用户数据获取单元,其用于获取用户对信息做出反应的时间数据,记录其采纳信息的时间,存入数据库。
8.根据权利要求6所述一种对社交网络信息传播趋势预测的系统,其特征在于,所述用户数据处理模块包括数据时间间隔统计单元、社交网络用户类别统计单元和用户类别分布向量计算单元;
所述数据时间间隔统计单元,根据用户数据获取用户对信息做出反应的时间;
所述社交网络用户类别统计单元,其用于采用Gaussian Logit Curve模型方法,将用户对信息做出反应时间进行统计,计算得出每种社交网络用户类别分布;
用户类别分布向量计算单元,其用于利用用户类别分布结合Rogers创新扩散理论,计算得出Diffusion_Info用户类别分布向量。
9.根据权利要求6所述一种对社交网络信息传播趋势预测的系统,其特征在于,所述信息传播趋势线预测模块包括基本信息传播曲线聚类单元和信息传播趋势预测单元;
所述基本信息传播曲线聚类单元,其用于通过K-SC算法将社交网络上的信息传播聚类成若干种基本信息传播曲线;
所述信息传播趋势预测单元步骤,其用于将基本信息传播曲线与当前信息传播曲线进行拟合,找到与预测值拟合度最高的基本信息传播曲线,即为社交网络信息传播趋势预测趋势线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410213602.5A CN104008150B (zh) | 2014-05-20 | 2014-05-20 | 一种对社交网络信息传播趋势预测的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410213602.5A CN104008150B (zh) | 2014-05-20 | 2014-05-20 | 一种对社交网络信息传播趋势预测的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104008150A true CN104008150A (zh) | 2014-08-27 |
CN104008150B CN104008150B (zh) | 2017-07-07 |
Family
ID=51368807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410213602.5A Expired - Fee Related CN104008150B (zh) | 2014-05-20 | 2014-05-20 | 一种对社交网络信息传播趋势预测的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008150B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
CN106372437A (zh) * | 2016-09-07 | 2017-02-01 | 北京邮电大学 | 一种信息扩散预测的方法和装置 |
CN110661696A (zh) * | 2019-08-30 | 2020-01-07 | 浙江工业大学 | 一种基于梯度信息的消息传播控制方法 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN112348279A (zh) * | 2020-11-18 | 2021-02-09 | 武汉大学 | 资讯传播趋势的预测方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
CN102012929A (zh) * | 2010-11-26 | 2011-04-13 | 北京交通大学 | 网络舆情预测方法及系统 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
-
2014
- 2014-05-20 CN CN201410213602.5A patent/CN104008150B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
CN102012929A (zh) * | 2010-11-26 | 2011-04-13 | 北京交通大学 | 网络舆情预测方法及系统 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
YANG J: "Patterns of Temporal Variation in Online Media", 《PROC OF THE 4TH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281882A (zh) * | 2014-09-16 | 2015-01-14 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
CN104281882B (zh) * | 2014-09-16 | 2017-09-15 | 中国科学院信息工程研究所 | 基于用户特征的预测社交网络信息流行度的方法及系统 |
CN106372437A (zh) * | 2016-09-07 | 2017-02-01 | 北京邮电大学 | 一种信息扩散预测的方法和装置 |
CN106372437B (zh) * | 2016-09-07 | 2019-03-29 | 北京邮电大学 | 一种信息扩散预测的方法和装置 |
CN110661696A (zh) * | 2019-08-30 | 2020-01-07 | 浙江工业大学 | 一种基于梯度信息的消息传播控制方法 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN112348279A (zh) * | 2020-11-18 | 2021-02-09 | 武汉大学 | 资讯传播趋势的预测方法、装置、电子设备和存储介质 |
CN112348279B (zh) * | 2020-11-18 | 2024-04-05 | 武汉大学 | 资讯传播趋势的预测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104008150B (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fekri et al. | Distributed load forecasting using smart meter data: Federated learning with Recurrent Neural Networks | |
Yu et al. | A survey of point-of-interest recommendation in location-based social networks | |
Yin et al. | LCARS: A spatial item recommender system | |
CN104008150A (zh) | 一种对社交网络信息传播趋势预测的方法及系统 | |
CN105787104A (zh) | 用户属性信息的获取方法和装置 | |
Rahmani et al. | Category-aware location embedding for point-of-interest recommendation | |
CN102999588A (zh) | 一种多媒体应用的推荐方法和系统 | |
CN104281882A (zh) | 基于用户特征的预测社交网络信息流行度的方法及系统 | |
US9147161B2 (en) | Determining geo-locations of users from user activities | |
CN103838819A (zh) | 一种信息发布方法及系统 | |
Rabie et al. | Smart electrical grids based on cloud, IoT, and big data technologies: state of the art | |
CN102750320A (zh) | 一种网络视频实时关注度的计算方法、装置和系统 | |
CN109635186A (zh) | 一种基于Lambda架构的实时推荐方法 | |
Zhang et al. | Optimizing video caching at the edge: A hybrid multi-point process approach | |
Genov et al. | Forecasting flexibility of charging of electric vehicles: Tree and cluster-based methods | |
CN110347923B (zh) | 一种可回溯的快速裂变式构建用户画像的方法 | |
Gao et al. | A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction | |
Zhang et al. | A novel user behavior analysis and prediction algorithm based on mobile social environment | |
CN110222273B (zh) | 基于地理社区的社交网络中的商业点推广方法和系统 | |
CN114637903A (zh) | 一种针对定向目标数据拓展的舆情数据采集系统 | |
CN111242368A (zh) | 一种基于场景推演的物流配送调度算法 | |
US20240107125A1 (en) | System and method for modelling access requests to multi-channel content sharing platforms | |
Li et al. | Twitter data mining for the social awareness of emerging technologies | |
Aldhyani et al. | An integrated model for prediction of loading packets in network traffic | |
Zhang et al. | Daily tourism forecasting through a novel method based on principal component analysis, grey wolf optimizer, and extreme learning machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170707 |