CN106776841B - 一种互联网舆情事件传播指数的获取方法和系统 - Google Patents
一种互联网舆情事件传播指数的获取方法和系统 Download PDFInfo
- Publication number
- CN106776841B CN106776841B CN201611064180.5A CN201611064180A CN106776841B CN 106776841 B CN106776841 B CN 106776841B CN 201611064180 A CN201611064180 A CN 201611064180A CN 106776841 B CN106776841 B CN 106776841B
- Authority
- CN
- China
- Prior art keywords
- event
- propagation
- index
- public sentiment
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 35
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 229910052729 chemical element Inorganic materials 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 12
- 238000011002 quantification Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000233805 Phoenix Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种互联网舆情事件传播指数的获取方法,所述获取方法为:1、输入舆情事件;2、采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;3、对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;4、通过文章传播指数提取舆情事件传播轨迹关键信息;5、通过舆情事件传播轨迹关键信息构建最终模型。本发明模型更为精确、更能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种互联网舆情事件传播指数的获取方法和系统。
背景技术
互联网舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式。以网络为载体,以事件为核心,广大网民情感、态度、意见、观点的表达、传播与互动,以及后续影响力的集合。通过互联网传播公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。互联网舆情的表现方式多种多样,例如:新闻评论、论坛帖子、微博博文、微信文章等。近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。同时,随着我国正处的改革关键期、矛盾突发期诸种问题冲突的叠合积聚,网络舆情已经成为当前社会和谐度和稳定度的标志,成为领导和社会各界的关注焦点。
舆情事件传播指数是通过对互联网中各种类型媒体所发布的信息进行独立的第三方观察,形成量化统计和定性分析,并结合算法推导、归纳总结而最终形成的一套网络舆情传播指数体系,从而实现对网络舆情的科学收集、分析研判和预警对策一整套科学规范的工作体系。
目前,对于舆情事件的传播量化已有一定的方案,但存在监测媒体源不够全面,模型未切合实际、未能反应事件动态变化等问题,本专利申请针对目前方案的缺点,提出一种不同于现有方案的全新传播指数量化模型。
现有技术方案一:基于指定站点的单媒体源文章基础要素计算
在申请号为【201310525071.9】,标题为:《一种网络舆情事件的热度分析方法及系统》的专利中,提出了此种计算方法。该方法对指定网站的文章进行采集、保存。通过聚类,形成不同的话题事件,针对话题事件内的文章,提取文章的基本传播要素,如阅读数、回复数等,进行加权计算,得到单篇文章的传播指数,再对所有文章的指数进行累计,得到最终的传播指数。
该方法存在明显的缺点。其一:该方法的数据范围存在明显缺陷,仅依靠指定的少数站点进行判断,未能实现全网监控。其二:随着微博、微信、微视等为代表的自媒体和以数字媒体、手机报、门户网站等为代表的新媒体空前繁荣发展,舆情的传播呈现多种媒体源交叉传播的特点,仅监控采集普通网站站点明显未符合当前舆情的传播特点。其三:该方法的指数模型也存在较大问题,舆情事件并非静态的数据信息,一个事件的形成、发展、爆发、衰退都受时间的影响,而该方案未考虑这些因素。
现有技术方案二:基于样本库的多媒体源文章基础要素计算
在申请号为【201510042230.9】,标题为:《一种舆情热度的快速计算方法》的专利中,提出了此种计算方法。该发明提出一种在信息量不完整的情况下采取对部分媒体源(新闻、论坛、微博)的采集、存储,形成基础的样本库,基于该基础样本库构建指数模型,对所涉及的媒体单独计算指数,各媒体源指数模型之间互不相关,对各个媒体源指数进行相加,即为最终的指数。
相较于方案一,现有方案二的优点是:引入了多媒体源的指数计算方式,使指数计算精度较高,同时,不断累积的样本库,对于指数模型的构建起到不断优化的作用。但是该方法依然存在如下缺点。其一:在当前的新媒体繁荣发展的前提下,微博、微信、电子报等媒体源越来越受关注,已成为网民发表舆论的首选场景,而该方法中,纳入计算的媒体源却未包含微信、电子报等媒体,因此,基础样本库数据构成不够严谨,缺少现实意义。其二:未能解决方案一中同样出现的,忽略舆情事件动态变化的因素。其三:该发明最终的传播指数来自于各个媒体源指数的加权总和,同时各个媒体源的传播指数却是互相独立的,而在实际情况中,舆情事件的传播存在着跨媒体源的传播路径,例如用户将舆情信息从论坛分享至微博,各媒体源指数应与传播路径、传播时间息息相关。
综上所述,目前对于舆情传播指数的计算已存在相应的方案,但现有方案均存在模块构建较为简单、未能解决跨媒体源传播的复杂情况、媒体源不够全面等问题。同时,应注意到,舆情传播并发是一种动态的事件,其模型的建立,应能反应舆情事件的形成、发展、爆发、高峰、衰落等生命周期,同时,应能体现出事件传播中跨媒体源传播的影响因素,而在现有方案中,均未能达到上述要求。
发明内容
本发明要解决的技术问题之一,在于提供一种互联网舆情事件传播指数的获取方法,能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。
本发明问题之一是这样实现的:一种互联网舆情事件传播指数的获取方法,所述获取方法包括如下步骤:步骤1、输入舆情事件;
步骤2、采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;
步骤3、对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
步骤4、通过文章传播指数提取舆情事件传播轨迹关键信息;
步骤5、通过舆情事件传播轨迹关键信息构建最终模型。
进一步的,所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
进一步的,所述步骤3中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;
不同的媒体源根据不同的传播学要素采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1
g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
进一步的,取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C。
进一步的,所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
本发明要解决的技术问题之二,在于提供一种互联网舆情事件传播指数的获取系统,能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。
本发明问题之二是这样实现的:一种互联网舆情事件传播指数的获取系统,所述获取系统包括输入模块、采集模块、分析模块、提取模块、以及构建模型模块;
所述输入模块,用于输入舆情事件;
所述采集模块,采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;
所述分析模块,对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
所述提取模块,通过文章传播指数提取舆情事件传播轨迹关键信息;
所述构建模型模块通过舆情事件传播轨迹关键信息构建最终模型。
进一步的,所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
进一步的,所述分析模块中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;
不同的媒体源根据不同的传播学要素采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1
g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
进一步的,所述提取模块具体为:取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C。
进一步的,所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
本发明具有如下优点:1、本发明对舆情事件的传播指数做出了较为精确的量化。相比于现有的基于文章基本要素构建的指数模型,本发明模型更为精确、更能反映舆情事件从生成、发展、爆发、高峰期、衰弱、结束等整个生命周期的发展态势。
2.本发明提出的舆情事件传播轨迹的构建,包括舆情事件传播中的重要因素的提取,可对当前复杂网络舆情环境下舆情事件的跨媒体源传播做一个清晰的展示;对事件的未来走势、跨媒体传播路径、事件持续影响时间做出预测、对舆情的管控措施提供富有显示意义效果的指导依据。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法总体流程示意图。
图2为本发明系统结构示意图。
具体实施方式
请参阅图1所示,一种互联网舆情事件传播指数的获取方法,所述获取方法包括如下步骤:步骤1、输入舆情事件;
步骤2、采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
步骤3、对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
步骤4、通过文章传播指数提取舆情事件传播轨迹关键信息;
步骤5、通过舆情事件传播轨迹关键信息构建最终模型。
其中,所述步骤3中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;如媒体源指数:微博取值为3.5,微信取值3,新闻取值2,贴吧取值1.5,其余取值1。
不同的媒体源根据不同的传播学要素(如:阅读数、回复数、转发数、点赞数),采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1
g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
所述步骤4具体为:取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C。
所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
区别于传统的现有技术方案中仅考虑文章基本要素的模型算法,该模型综合考虑各媒体源单篇最大得分、事件有效传播时间、事件有效舆情文章数量、传播媒体源数量、文章篇均得分等因素,符合舆情事件传播的传播学理论、体现出舆情事件的爆发点、事件的持续时间、事件的跨媒体源传播等特点。
参阅图2所示,本发明的一种互联网舆情事件传播指数的获取系统,所述获取系统包括输入模块、采集模块、分析模块、提取模块、以及构建模型模块;
所述输入模块,用于输入舆情事件;
所述采集模块,采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
所述分析模块,对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
所述提取模块,通过文章传播指数提取舆情事件传播轨迹关键信息;
所述构建模型模块通过舆情事件传播轨迹关键信息构建最终模型。
所述分析模块中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;如媒体源指数:微博取值为3.5,微信取值3,新闻取值2,贴吧取值1.5,其余取值1。
不同的媒体源根据不同的传播学要素(如:阅读数、回复数、转发数、点赞数),采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1
g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
所述提取模块具体为:取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C。
所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
总之,本发明通过分析采集到的主流媒体源的该事件的舆情文章,形成该事件的跨媒体源传播轨迹,基于该传播轨迹,提取传播学要素,构造传播指数模型,从而得到该事件的传播指数。
相较于现有方案,本发明具有如下优点:
优点1:度量的媒体源更为全面,涵括目前主流的各种媒体源。
采集当前的主流媒体源:新闻、博客、论坛、贴吧、微博、微信、电子报、主流新闻APP(网易新闻、腾讯新闻、凤凰新闻、今日头条、一点资讯等)、浏览器推荐新闻(UC浏览器、百度浏览器、QQ浏览器等)进行监控采集,并结合当前用户习惯由PC端转移到移动终端的特点,对移动终端主流相关媒体源进行了采集。
优点2:首次提出结合传播学理论形成舆情事件传播轨迹,基于传播轨迹构建指数模型,指数模型吻合舆情事件发展事态,更具现实意义。
首次提出基于传播学理论,构建舆情事件传播轨迹。通过传播轨迹,分析事件传播的爆发期、高峰期、传播媒体源、有效传播时间,基于事件传播的要素进行模型的构建。而已有方案中均未考虑事件传播的传播学要素、现实意义,仅是对舆情文章的基础要素做相应的分析计算,不具有任何现实意义,未能体现舆情事件的传播态势、未对事件作出符合现实意义的度量。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (6)
1.一种互联网舆情事件传播指数的获取方法,其特征在于:所述获取方法包括如下步骤:步骤1、输入舆情事件;
步骤2、采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;
步骤3、对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
步骤4、通过文章传播指数提取舆情事件传播轨迹关键信息;
步骤5、通过舆情事件传播轨迹关键信息构建最终模型;
所述步骤4具体为:取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C;
所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
2.根据权利要求1所述的一种互联网舆情事件传播指数的获取方法,其特征在于:所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
3.根据权利要求1所述的一种互联网舆情事件传播指数的获取方法,其特征在于:所述步骤3中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;
不同的媒体源根据不同的传播学要素采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1, g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
4.一种互联网舆情事件传播指数的获取系统,其特征在于:所述获取系统包括输入模块、采集模块、分析模块、提取模块、以及构建模型模块;
所述输入模块,用于输入舆情事件;
所述采集模块,采集在各个媒体源中抓取该舆情事件的相关舆情文章,并存入舆情事件分析库;
所述分析模块,对该舆情事件的所有舆情文章进行分析,以文章的发布时间先后对所有媒体源文章进行排序,形成舆情事件传播轨迹,同时,对每一篇文章进行单文章传播指数计算;
所述提取模块,通过文章传播指数提取舆情事件传播轨迹关键信息;
所述构建模型模块通过舆情事件传播轨迹关键信息构建最终模型;
所述提取模块具体为:取得整个事件中单篇指数最高的文章,此为舆情事件传播指数峰值,记为Smax,该舆情事件,记为Tmiddle;
获得事件的有效传播时间T,定义事件传播衰弱指数为1/10;取发生时间小于Tmiddle,且得分小于Smax/10的最小时间作为事件有效开始传播时间Tstart;同理,取发生时间大于Tmiddle,且得分大于Smax/10的最大时间作为事件有效结束传播时间Tend;得到舆情事件有效传播时间:T=Tend–Tstart,在T时间内的舆情文章总数量记为C;
所述最终模型为
其中:EPI为事件最终的传播指数;
SMi为舆情事件中单个媒体源单篇最高得分;
Mc为该事件有效传播时间内传播轨迹所跨越的媒体源数量;
T为该事件传播的有效时间;
C为该事件有效时间内的舆情文章总数量;
Si为第i篇文章单篇传播指数得分。
5.根据权利要求4所述的一种互联网舆情事件传播指数的获取系统,其特征在于:所述媒体源包括:新闻、博客、论坛、贴吧、微博、微信、电子报、或者主流新闻APP。
6.根据权利要求4所述的一种互联网舆情事件传播指数的获取系统,其特征在于:所述分析模块中对每一篇文章进行单文章传播指数计算,具体为:
针对不同的媒体源,结合当前媒体源的流行趋势,采取不同的媒体源指数;
不同的媒体源根据不同的传播学要素采用不同的量化方式:
新闻、论坛、贴吧类型计算模型为:
NPI=[30%×r1+70%×c]×m1×g1
其中NPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
m1为媒体源指数,新闻m1取值2,贴吧m1取值1.5,论坛取值1
g1为在同类媒体源下排名权重
博客类型计算模型为:
BPI=[10%×r1+40%c1+50%×r2]×m1×g1
其中BPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
m1为媒体源指数,博客m1取值1
g1为在同类媒体源下排名权重
微博类计算模型为:
WPI=[10%×r1+40%×c+40%×r2+10%×(40%×c2+60%×r3)]×m1×g1
其中WPI为单篇文章传播指数:
r1为文章阅读数
c为评论数
r2为转发数
c2为转发微博中评论总数
r3为转发微博中转发总数
m1为媒体源指数,微博的m1为3.5
g1为在同类媒体源下排名权重
微信类计算模型为:
WPI=[20%×r+70%×a+10%ln(f+1)]×m1×r1
其中WPI为单篇文章传播指数:
r1为文章阅读数
a为点赞数
f为等价粉丝数
m1为媒体源指数,微信的m1为3
g1为在同类媒体源下排名权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611064180.5A CN106776841B (zh) | 2016-11-28 | 2016-11-28 | 一种互联网舆情事件传播指数的获取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611064180.5A CN106776841B (zh) | 2016-11-28 | 2016-11-28 | 一种互联网舆情事件传播指数的获取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106776841A CN106776841A (zh) | 2017-05-31 |
CN106776841B true CN106776841B (zh) | 2020-04-21 |
Family
ID=58904501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611064180.5A Active CN106776841B (zh) | 2016-11-28 | 2016-11-28 | 一种互联网舆情事件传播指数的获取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776841B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273488B (zh) * | 2017-06-13 | 2019-08-20 | 武汉大学 | 一种现实空间活动与网络空间行为时空联动作用评价方法 |
CN107463686A (zh) * | 2017-08-10 | 2017-12-12 | 深圳市腾讯计算机系统有限公司 | 一种计算网络舆情热度的方法及装置 |
CN107798112A (zh) * | 2017-11-02 | 2018-03-13 | 国影(北京)科技有限责任公司 | 一种舆情信息处理方法及装置 |
CN108256740B (zh) * | 2017-12-22 | 2021-03-16 | 北京智慧星光信息技术有限公司 | 一种获取互联网信息传播指标的控制方法 |
CN110110188A (zh) * | 2018-01-30 | 2019-08-09 | 江苏博智软件科技股份有限公司 | 一种基于云计算技术的网络舆情监测系统 |
CN108733763B (zh) * | 2018-04-16 | 2022-05-17 | 国家计算机网络与信息安全管理中心 | 基于微博热门事件计算关键节点的方法及装置 |
CN108765178A (zh) * | 2018-04-23 | 2018-11-06 | 华侨大学 | 玩具缺陷事件的互联网传播影响力的评估方法 |
CN108763337A (zh) * | 2018-05-14 | 2018-11-06 | 苏州闻道网络科技股份有限公司 | 用于确定影响力指数的方法及其装置 |
CN109255015A (zh) * | 2018-06-29 | 2019-01-22 | 中译语通科技股份有限公司 | 一种评价热点事件价值度的方法 |
CN109241429A (zh) * | 2018-09-05 | 2019-01-18 | 食品安全与营养(贵州)信息科技有限公司 | 一种食品安全舆情监控方法及系统 |
CN109670046A (zh) * | 2018-11-12 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种舆情监控方法、存储介质和终端设备 |
CN110334263A (zh) * | 2019-07-05 | 2019-10-15 | 北京国创动力文化传媒有限公司 | 一种区块链项目舆情监控方法以及装置 |
CN110837608B (zh) * | 2019-11-07 | 2024-04-12 | 中科天玑数据科技股份有限公司 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
CN111581477A (zh) * | 2020-04-30 | 2020-08-25 | 中国传媒大学 | 一种基于信息传播的融媒体舆情引导分析方法 |
CN111815413A (zh) * | 2020-07-09 | 2020-10-23 | 湖南数客星球信息技术有限公司 | 一种基于热点事件的大数据商品预测系统及方法 |
CN112559679B (zh) * | 2020-11-19 | 2024-06-21 | 北京易标智科技有限公司 | 政法新媒体传播力的检测方法、装置、设备及存储介质 |
CN112528196B (zh) * | 2020-11-20 | 2023-06-23 | 四川新网银行股份有限公司 | 一种互联网舆情热度指数实时生成自动监测系统及方法 |
CN112613296B (zh) * | 2020-12-07 | 2024-07-19 | 深圳价值在线信息科技股份有限公司 | 新闻的重要程度获取方法、装置、终端设备及存储介质 |
CN112579920B (zh) * | 2020-12-09 | 2023-06-20 | 成都中科大旗软件股份有限公司 | 一种基于事件实现跨时空传播分析方法 |
CN112632364A (zh) * | 2021-03-09 | 2021-04-09 | 中译语通科技股份有限公司 | 新闻传播速度测评方法和系统 |
CN113360661B (zh) * | 2021-08-11 | 2021-11-12 | 太极计算机股份有限公司 | 多租户的媒体大数据应用云服务平台 |
CN113704636A (zh) * | 2021-08-23 | 2021-11-26 | 福建亿榕信息技术有限公司 | 一种基于信息传播的融媒体舆情分析方法 |
CN115878761B (zh) * | 2023-03-02 | 2023-05-09 | 湖南蚁坊软件股份有限公司 | 事件脉络生成方法、设备及介质 |
CN117076751B (zh) * | 2023-10-10 | 2024-01-16 | 西安康奈网络科技有限公司 | 一种基于多维特征分析的舆情事件发展趋势判断系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8355972B2 (en) * | 2007-04-17 | 2013-01-15 | Intellectspace Corporation | Systems and methods for displaying information about financial markets |
CN101409634B (zh) * | 2007-10-10 | 2011-04-13 | 中国科学院自动化研究所 | 基于信息检索的互联网新闻影响力定量分析工具及方法 |
CN101826090A (zh) * | 2009-09-15 | 2010-09-08 | 电子科技大学 | 基于最优模型的web舆情趋势预测方法 |
CN101853261A (zh) * | 2009-11-23 | 2010-10-06 | 电子科技大学 | 一种基于社会网络的网络舆情行为分析方法 |
CN101819585A (zh) * | 2010-03-29 | 2010-09-01 | 哈尔滨工程大学 | 一种论坛事件传播图的构建装置及构建方法 |
CN103186600B (zh) * | 2011-12-28 | 2016-03-16 | 北大方正集团有限公司 | 互联网舆情的专题分析方法和装置 |
CN104537096A (zh) * | 2015-01-09 | 2015-04-22 | 哈尔滨工程大学 | 一种基于微博消息传播树的微博消息影响力度量方法 |
CN104933129B (zh) * | 2015-06-12 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 基于微博的事件脉络获取方法和系统 |
CN104915446B (zh) * | 2015-06-29 | 2019-01-29 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN105183743A (zh) * | 2015-06-29 | 2015-12-23 | 临沂大学 | 一种微博舆情传播范围预测的方法 |
CN106980692B (zh) * | 2016-05-30 | 2020-12-08 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
-
2016
- 2016-11-28 CN CN201611064180.5A patent/CN106776841B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106776841A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776841B (zh) | 一种互联网舆情事件传播指数的获取方法和系统 | |
Gloor et al. | Web science 2.0: Identifying trends through semantic social network analysis | |
CN102394798B (zh) | 一种基于多元特征的微博信息传播行为预测方法及系统 | |
CN104145264A (zh) | 用于通过社交网络进行情绪检测、测量和规格化的系统和方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN111178586A (zh) | 网络爱国舆情事件跟踪、预测和疏导方法 | |
US9245035B2 (en) | Information processing system, information processing method, program, and non-transitory information storage medium | |
WO2017084205A1 (zh) | 一种网络用户身份认证方法及系统 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103218412B (zh) | 舆情信息处理方法与装置 | |
CN103927297A (zh) | 基于证据理论的中文微博可信度评估方法 | |
CN104965931A (zh) | 一种基于大数据的舆情分析方法 | |
CN105138577A (zh) | 一种基于大数据的事件演化分析方法 | |
CN104035972A (zh) | 一种基于微博的知识推荐方法与系统 | |
CN104133897A (zh) | 一种基于话题影响力的微博话题溯源方法 | |
Cardon et al. | Two Paths of Glory—Structural Positions and Trajectories of Websites within Their Topical Territory | |
Zhang et al. | Joint monitoring of post-sales online review processes based on a distribution-free EWMA scheme | |
CN116244513A (zh) | 随机群组poi推荐方法、系统、设备及存储介质 | |
Liu et al. | Detecting collusive spamming activities in community question answering | |
CN109885656A (zh) | 基于量化热度的微博转发预测方法及装置 | |
CN110347923B (zh) | 一种可回溯的快速裂变式构建用户画像的方法 | |
Yang et al. | DUAPM: An effective dynamic micro-blogging user activity prediction model towards cyber-physical-social systems | |
CN106294621B (zh) | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 | |
Chakraborty et al. | Clustering of web sessions by FOGSAA | |
Batura | Methods of social networks analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |