CN105389389A - 一种网络舆情传播态势媒体联动分析方法 - Google Patents

一种网络舆情传播态势媒体联动分析方法 Download PDF

Info

Publication number
CN105389389A
CN105389389A CN201510926525.2A CN201510926525A CN105389389A CN 105389389 A CN105389389 A CN 105389389A CN 201510926525 A CN201510926525 A CN 201510926525A CN 105389389 A CN105389389 A CN 105389389A
Authority
CN
China
Prior art keywords
website
influence power
index
article
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510926525.2A
Other languages
English (en)
Other versions
CN105389389B (zh
Inventor
周银行
胡淦
郑中华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Original Assignee
ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD filed Critical ANHUI BORYOU INFORMATION TECHNOLOGY CO LTD
Priority to CN201510926525.2A priority Critical patent/CN105389389B/zh
Publication of CN105389389A publication Critical patent/CN105389389A/zh
Application granted granted Critical
Publication of CN105389389B publication Critical patent/CN105389389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络舆情传播态势媒体联动分析方法,包括以下步骤:(1)网络信息收集和索引;(2)网站影响力的加权估算;(3)相关主题文章检索;(4)舆情联动趋势分析。本发明通过采集互联网信息,进行信息抽取和索引后,使用网站的历史影响力(原创性,阅读量、转载量、评论量以及网站存在时间等影响力指标)对检索出来的每个时间段出现的文章数量进行加权统计,实现了对舆情传播态势的联动分析。

Description

一种网络舆情传播态势媒体联动分析方法
技术领域
本发明涉及一种网络舆情传播态势媒体联动分析方法。
背景技术
根据CNNIC今年的最新统计,我国现已有网民6.49亿;手机网民规模达5.57亿,网站335万个,域名总数为2060万个。网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。因此,如何精准的预测网络舆情的传播态势去积极化解网络舆论危机显得越来越重要。
目前已经有一些技术能够对网络舆情的传播态势进行分析和评估。其中有很大一部分是通过统计一定时期内相关的舆情事件或细化主题的相关信息传播扩散状况,如通过统计不同的统计期内相关主题的网页页面数量,从而形成在一段较长时间内连续的网页页面变化走势;还有部分是通过网页转载关系等单一因子来分析网络舆情传播态势的。不同厂家的业务背景在技术上形成了各自的特色,但普遍存在着一些明显的不足,主要体现在:
1)单纯统计所有站点的网站页面总数量,即认为所有站点重要度相同,忽略了站点的影响力差异,导致统计结果无法客观反映出站点联动时不同站点的差异性。
2)单纯的对新闻,论坛,微博进行独立分析,忽略了不同互联网媒体间的互动,无法进行不同媒体联动的舆情分析,为分析的结果带来了不准确性。
发明内容
本发明要解决的技术问题是提供一种网络舆情传播态势媒体联动分析方法。
为了解决上述技术问题,本发明采用的技术方案是,一种网络舆情传播态势媒体联动分析方法,包括以下步骤:
(1)网络信息收集和索引
使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;
(2)网站影响力的加权估算
基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;
其中:
所述原创性指网站内容是指作者首创,非抄袭的内容;
所述阅读量指网络用户对当前网站内容的浏览量;
所述转载量指的是当前网站内容被转载的次数;
所述评论量指网络用户对当前网站内容的评论数;
(3)相关主题文章检索
用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;
(4)舆情联动趋势分析
根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。
作为优选,步骤(1)中所述网页预处理算法包括以下步骤:
对网页中的内容进行预处理时,会先创建一个预处理对象,预处理对象调用本地的自然语言解析脚本对网页中的正文进行信息预处理;
所述的本地的自然语言解析脚本主要包含了对自然语言的噪音的过滤、信息的归约以及变换。
本发明的有益效果是:
通过采集互联网信息,进行信息抽取和索引后,使用网站的历史影响力(考虑原创性,阅读量、转载量、评论量以及网站存在时间等影响力指标)对检索出来的每个时间段出现的文章数量进行加权统计,实现了对舆情传播态势的联动分析。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的流程
图2是本发明实施例的索引倒排表结构。
图3是运用现有的舆情态势分析方法(没有考虑到媒体差异)的舆情分析
图4是本发明实施例的进行媒体(站点)联动分析的舆情分析
具体实施方式
如图1所示,一种网络舆情传播态势媒体联动分析方法的具体步骤如下:
一、网页信息采集和索引
该采集过程具体步骤如下:
1、规划好要监测的网站,并将网站入口加入到监测队列中去。
2、选取一个网站入口进行下载,抽取出相关正文URL后,将其放入到待下载队列中。
3、从待下载队列中选取一个URL进行下载,完成后识别出相关的网页编码,并按照预先设定的模板进行标题、发文时间、作者、正文、点击数、回复数、是否转载等关键字段的抽取。
4、将抽取后的标题、正文文本、时间、作者字段直接发送到索引模块。同时将站点名、点击数、评论数、是否转载字段信息发送到联动站点分析模块。
索引过程具体步骤如下:
1、接收到采集模块发送信息后,分词组件对标题和正文文本进行分词处理,把文档分词一个一个单独的词元,并去掉标点符号和停用词。
2、语言处理组件对词元进行处理,对于英语,变成小写;单词变成词根形式。
3、索引组件对处理后的词建立词典,对词典按字母顺序进行排序,并按照词->文档列表的结构建立倒排表。倒排表结构如图2所示(数字为文档编号)。
二、站点影响力的加权估算
该过程需完成对存储信息的统计分析,具体过程如下:
1、分发模块接收到采集和索引模块发送的字段信息后,根据站点名将该信息发送到响应的站点统计模块。
2、站点统计模块初始化页面总数量(N)、页面总点击数(C)、页面总转载量(Re)、页面总评论数(R)、原创数量(I)为0。接收到分发模块发送的页面信息后,执行累加操作如下:
N=N+n,C=C+c,Re=Re+re,R=R+r,I=I+i。
其中c、re、r、i、t分别为该页面的点击数量、转载数量、评论数量、是否原创(当为原创时,i为1,否则为0)。
3、站点统计模块完成每个站点的影响力计算,包括计算单个页面的平均点击量(CR)、平均转载量(ReR)、平均评论量(RR)、平均原创比率(IR)。定义:CR=C/N,ReR=Re/N,RR=R/N,IR=I/N。
4、对每个站点的平均点击量、平均转载量、平均评论量、平均原创比例进行归一化处理。具体方法如下:
CR ′ = C R - min C R max C R - min C R * ( n e w _ max C R - n e w _ min C R ) + n e w _ min C R - - - ( 1 )
R e R ′ = R e R - min R e R max R e R - min R e R * ( n e w _ max R e R - n e w _ min R e R ) + n e w _ min R e R - - - ( 2 )
RR ′ = R R - min R R max R R - min R R * ( n e w _ max R R - n e w _ min R R ) + n e w _ min R R - - - ( 3 )
IR ′ = I R - min I R max I R - min I R * ( n e w _ max I R - n e w _ min I R ) + n e w _ min I R - - - ( 4 )
其中:
maxCR为所有站点的最大CR值,minCR为所有站点中的最小的CR值,new_maxCR=1,new_minCR=0;
为所有站点的最大ReR值,为所有站点中的最小的ReR值, n e w _ max R e R = 1 , n e w _ min R e R = 0 ;
maxRR为所有站点的最大RR值,minRR为所有站点中的最小的RR值,new_maxRR=1,new_minRR=0;
maxIR为所有站点最大的原创比率,minIR为所有站点最小的原创比率,new_maxIR=1,new_minIR=0。
5、基于CR′,ReR′,RR′,IR′对每个站点进行影响力计算,具体计算公式如下:
S = W C R CR ′ + W R e R R e R ′ + W R R RR ′ + W I R IR ′ , 根据经验,WCR可以取值为0.50,取值为0.15,WRR取值为0.25,WIR取值为0.1。
6、将上述计算出的每个站点的影响力数据存入站点影响力数据库。
该步骤完成用户指定主题的信息检索,并返回相关查询结果。具体过程如下:
1)对用户输入的主题查询语句进行词法分析,并生成关键字组合。
2)对查询关键字组合进行同义词扩展。
3)根据查询语句的语法规则(包括时间范围,关键词之间的与、或、非组合)建立语法分析树。
4)根据解析后的结果对索引进行查询,并对查询结果按照与、或、非进行合并操作,并得到查询结果列表。
5)对查询结果按时间进行排序,并以时间范围为条件,按照时间段(小时,天,月)进行数量统计。
三、舆情联动趋势分析
该步骤基于上述步骤结果,生成舆情发展趋势分析。其中横轴为时间轴,纵轴为文章加权数量值,每一个统计时间间隔均对应一个加权值,表示该段时间间隔内的文档加权总数量值。具体计算公式如下:
其中w为该段时间间隔内的文档加权数量值,N表示该段时间内相关主题的文章总数,Si表示第i篇文章所在站点的影响力因子。
实施案例
假定要监测某一特定时间(该特定时间需要把事件的开始时间和结束时间排除)内(2014年5月30日-2014年6月1日)对山东正式施行“单独两孩”全面取消“准生证”主题进行发展趋势联动分析。以下表1、2、3为不同站点的主题收录情况:
表1:2014-05-30站点主题收录情况
表2:2014-05-31日站点主题收录情况
表3:2014-06-01日站点主题收录情况
根据上述表1、2、3记载的数据,进行计算。
1.先对单个页面各影响力因子取均值,XR=X/N(其中,X为影响力因子,N为页面总数)
①对东方网的各影响力因子取均值:
平均点击量 C R = 101 13 = 7.77
平均转载量 R e R = 63 13 = 4.85
平均评论量 R R = 79 13 = 6.08
平均原创比 I R = 7 13 = 0.54
②对人民网-安徽的各影响力因子取均值:
平均点击量 C R = 692 72 = 9.61
平均转载量 R e R = 483 72 = 6.71
平均评论量 R R = 589 72 = 8.18
平均原创比 I R = 50 72 = 0.69
③对新浪网的各影响力因子取均值:
平均点击量 C R = 1969 272 = 6.13
平均转载量 R e R = 1524 272 = 5.60
平均评论量 R R = 1753 272 = 6.44
平均原创比 I R = 145 272 = 0.53
④对新华网的各影响力因子取均值:
平均点击量 C R = 919 167 = 5.50
平均转载量 R e R = 749 167 = 4.49
平均评论量 R R = 810 167 = 4.85
平均原创比 I R = 65 167 = 0.39
⑤对中国江苏网的各影响力因子取均值:
平均点击量 C R = 252 58 = 4.34
平均转载量 R e R = 160 58 = 2.76
平均评论量 R R = 150 58 = 2.59
平均原创比 I R = 23 58 = 0.40
⑥对网易新闻的各影响力因子取均值:
平均点击量 C R = 377 135 = 2.79
平均转载量 R e R = 238 135 = 1.76
平均评论量 R R = 252 135 = 1.87
平均原创比 I R = 50 135 = 0.37
⑦对齐鲁网的各影响力因子取均值:
平均点击量 C R = 177 51 = 3.47
平均转载量 R e R = 87 51 = 1.71
平均评论量 R R = 119 51 = 2.33
平均原创比 I R = 20 51 = 0.39
⑧对西部网的各影响力因子取均值:
平均点击量 C R = 208 48 = 4.33
平均转载量 R e R = 95 48 = 1.98
平均评论量 R R = 126 48 = 2.63
平均原创比 I R = 21 48 = 0.44
⑨对川北在线网的各影响力因子取均值:
平均点击量 C R = 139 24 = 5.79
平均转载量 R e R = 72 24 = 3.00
平均评论量 R R = 92 24 = 3.83
平均原创比 I R = 13 24 = 0.54
⑩对潍坊传媒网的各影响力因子取均值:
平均点击量 C R = 135 17 = 7.94
平均转载量 R e R = 77 17 = 4.53
平均评论量 R R = 86 17 = 5.06
平均原创比 I R = 9 17 = 0.53
2.归一化处理, XR ′ = X R - min X R max X R - min X R * ( n e w _ max X R - n e w _ min X R ) + n e w _ min X R
其中,X为站点的影响力指标,XR为当前站点单一影响力指标的均值,maxXR为所有站点单一影响力中最大的指标的占比,minXR为所有站点单一影响力中最小指标的占比,new_maxXR=1,new_minXR=0。
1)对东方网的各影响力因子均值归一化处理:
CR ′ = 7.77 - 4 27 - 4 ( 1 - 0 ) + 0 = 0.16
R e R ′ = 4.85 - 3 19 - 3 ( 1 - 0 ) + 0 = 0.12
RR ′ = 6.08 - 1 23 - 1 ( 1 - 0 ) + 0 = 0.23
IR ′ = 0.54 - 0 4 - 0 ( 1 - 0 ) + 0 = 0.14
2)对人民网-安徽的各影响力因子均值归一化处理:
CR ′ = 9.61 - 7 24 - 7 ( 1 - 0 ) + 0 = 0.15
R e R ′ = 6.71 - 2 15 - 2 ( 1 - 0 ) + 0 = 0.36
RR ′ = 8.18 - 6 19 - 6 ( 1 - 0 ) + 0 = 0.17
IR ′ = 0.69 - 0 17 - 0 ( 1 - 0 ) + 0 = 0.04
3)对新浪网的各影响力因子均值归一化处理:
CR ′ = 6.13 - 4 43 - 4 ( 1 - 0 ) + 0 = 0.06
R e R ′ = 5.60 - 4 47 - 4 ( 1 - 0 ) + 0 = 0.04
RR ′ = 6.44 - 3 38 - 3 ( 1 - 0 ) + 0 = 0.10
IR ′ = 0.53 - 0 13 - 0 ( 1 - 0 ) + 0 = 0.04
4)对新华网的各影响力因子均值归一化处理:
CR ′ = 5.5 - 2 27 - 2 ( 1 - 0 ) + 0 = 0.14
R e R ′ = 4.49 - 2 20 - 2 ( 1 - 0 ) + 0 = 0.14
RR ′ = 4.85 - 1 25 - 1 ( 1 - 0 ) + 0 = 0.16
IR ′ = 0.39 - 0 6 - 0 ( 1 - 0 ) + 0 = 0.07
5)对中国江苏网的各影响力因子均值归一化处理:
CR ′ = 4.34 - 2 23 - 2 ( 1 - 0 ) + 0 = 0.11
R e R ′ = 2.76 - 0 19 - 0 ( 1 - 0 ) + 0 = 0.15
RR ′ = 2.59 - 0 24 - 0 ( 1 - 0 ) + 0 = 0.11
IR ′ = 0.40 - 0 5 - 0 ( 1 - 0 ) + 0 = 0.08
6)对网易新闻的各影响力因子均值归一化处理:
CR ′ = 2.79 - 0 21 - 0 ( 1 - 0 ) + 0 = 0.13
R e R ′ = 1.76 - 0 27 - 0 ( 1 - 0 ) + 0 = 0.07
RR ′ = 1.87 - 1 32 - 1 ( 1 - 0 ) + 0 = 0.03
IR ′ = 0.37 - 0 17 - 0 ( 1 - 0 ) + 0 = 0.02
7)对齐鲁网的各影响力因子均值归一化处理:
CR ′ = 3.47 - 1 17 - 1 ( 1 - 0 ) + 0 = 0.15
R e R ′ = 1.71 - 0 15 - 0 ( 1 - 0 ) + 0 = 0.11
RR ′ = 2.33 - 1 9 - 1 ( 1 - 0 ) + 0 = 0.17
IR ′ = 0.39 - 0 5 - 0 ( 1 - 0 ) + 0 = 0.08
8)对西部网的各影响力因子均值归一化处理:
CR ′ = 4.33 - 2 15 - 2 ( 1 - 0 ) + 0 = 0.18
R e R ′ = 1.98 - 0 9 - 0 ( 1 - 0 ) + 0 = 0.22
RR ′ = 2.63 - 0 12 - 0 ( 1 - 0 ) + 0 = 0.22
IR ′ = 0.44 - 0 3 - 0 ( 1 - 0 ) + 0 = 0.15
9)对川北在线网的各影响力因子均值归一化处理:
CR ′ = 5.79 - 2 14 - 2 ( 1 - 0 ) + 0 = 0.32
R e R ′ = 3 - 1 12 - 1 ( 1 - 0 ) + 0 = 0.18
RR ′ = 3.83 - 1 7 - 1 ( 1 - 0 ) + 0 = 0.47
IR ′ = 0.54 - 0 4 - 0 ( 1 - 0 ) + 0 = 0.14
10)对潍坊传媒网的各影响力因子均值归一化处理:
CR ′ = 7.94 - 1 17 - 1 ( 1 - 0 ) + 0 = 0.43
R e R ′ = 4.53 - 2 13 - 2 ( 1 - 0 ) + 0 = 0.23
RR ′ = 5.06 - 1 12 - 1 ( 1 - 0 ) + 0 = 0.37
IR ′ = 0.53 - 0 4 - 0 ( 1 - 0 ) + 0 = 0.13
3.基于归一化处理后的数据对每个站点进行影响力计算,具体计算公式如下: S = W C R CR ′ + W R e R R e R ′ + W R R RR ′ + W I R IR ′ , 根据实践经验,WCR可以取值为0.50,可以取值为0.15,WRR可以取值0.25,WIR可以取值0.1.
1)东方网站点影响力计算:
S=0.50*0.16+0.15*0.12+0.25*0.23+0.1*0.14=0.17
2)人民网-安徽站点影响力计算:
S=0.50*0.15+0.15*0.36+0.25*0.17+0.1*0.04=0.18
3)新浪网站点影响力计算:
S=0.50*0.06+0.15*0.04+0.25*0.10+0.1*0.04=0.07
4)新华网站点影响力计算:
S=0.50*0.14+0.15*0.14+0.25*0.16+0.1*0.07=0.14
5)中国江苏网站点影响力计算:
S=0.50*0.11+0.15*0.15+0.25*0.11+0.1*0.08=0.11
6)网易新闻站点影响力计算:
S=0.50*0.13+0.15*0.07+0.25*0.03+0.1*0.02=0.09
7)齐鲁站点影响力计算:
S=0.50*0.15+0.15*0.11+0.25*0.17+0.1*0.08=0.14
8)西部网站点影响力计算:
S=0.50*0.18+0.15*0.22+0.25*0.22+0.1*0.15=0.19
9)川北在线站点影响力计算:
S=0.50*0.32+0.15*0.18+0.25*0.47+0.1*0.14=0.32
10)潍坊传媒网站点影响力计算:
S=0.50*0.43+0.15*0.23+0.25*0.37+0.1*0.13=0.36
4、舆情联动趋势分析,其中w为该段时间间隔内的文档加权数量值,N表示该段时间内相关主题的文章总数,Si表示第i篇文章所在站点的影响力因子。
1)2014-05-30日站点趋势分析计算:
w=0.17*101+0.18*692=141
2)2014-05-31日站点趋势分析计算:
w=0.07*1969+0.14*919+0.11*252=294
3)2014-06-1日站点趋势分析计算:
w=0.09*377+0.14*177+0.19*208+0.32*139+0.36*135=191
以上三天的文章数与趋势分析值表:
时间 文章数量 趋势分析值
2014-05-30 6 141
2014-05-31 13 294
2014-06-01 16 191
根据上述数据使用本实施例的方法可以得到的主题趋势分析如4所示,可以看出该主题处于降温态势态势。而根据已有方法得到的绘制图如图3所示,表明该主题处于持续升温态势。同传统方法相比,本实施例的方法考虑到站点影响力的差异,实现了舆情的站点联动趋势分析。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (4)

1.一种网络舆情传播态势媒体联动分析方法,包括以下步骤:
(1)网络信息收集和索引
使用网络信息采集雷达采集网站发布的互联网信息,该信息通常为html格式,运用网页预处理算法对正文中的标题,发表时间,正文进行数据提取,并将抽取后的数据发送到索引模块,索引模块在对上述字段进行分词处理后,建立倒排索引,实现文本的检索;
(2)网站影响力的加权估算
基于上述采集数据,采用考虑原创性、阅读量、转载量、评论量的影响力指标对网站的影响力进行加权计算,对每个网站的综合影响力进行打分,该分数作为后续统计分析时的站点权重;
其中:
所述原创性指网站内容是指作者首创,非抄袭的内容;
所述阅读量指网络用户对当前网站内容的浏览量;
所述转载量指的是当前网站内容被转载的次数;
所述评论量指网络用户对当前网站内容的评论数;
(3)相关主题文章检索
用户根据相应的关注主题设定相关的高级布尔查询表达式,系统根据用户设定的表达式进行信息检索,查询出所有和该主题有关的文章信息;
(4)舆情联动趋势分析
根据用户设定的统计时间间隔,计算出每个时间段文章加权总数量值的变化情况,即文章总数量由单篇文章的权重累加得出,然后对计算得到的权重值按照设定标准划分为四个层次,由低到高分别为无联动、弱联动、中级联动以及强联动,在坐标轴中绘制出统计坐标,横轴为时间轴,纵轴为文章加权数量值,每个坐标值表示在当前时间点和前一个时间点之间互联网中出现的相关文章的加权值,每个坐标值所在层为当前的联动级别。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述网页预处理算法包括以下步骤:
对网页中的内容进行预处理时,会先创建一个预处理对象,预处理对象调用本地的自然语言解析脚本对网页中的正文进行信息预处理;
所述的本地的自然语言解析脚本主要包含了对自然语言的噪音的过滤、信息的归约以及变换。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中是先对原始数据进行归一化处理,然后再对归一化处理后的数据进行加权计算。
4.根据权利要求3所述,其特征在于,归一化处理计算公式为:
XR ′ = X R - min X R max X R - min X R * ( n e w _ max X R - n e w _ min X R ) + n e w _ min X R
其中,X为站点的影响力指标,XR为当前站点单一影响力指标的均值,maxXR为所有站点单一影响力中最大指标的占比,minXR为所有站点单一影响力中最小指标占比,new_maxXR=1,new_minXR=0。
CN201510926525.2A 2015-12-10 2015-12-10 一种网络舆情传播态势媒体联动分析方法 Active CN105389389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510926525.2A CN105389389B (zh) 2015-12-10 2015-12-10 一种网络舆情传播态势媒体联动分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510926525.2A CN105389389B (zh) 2015-12-10 2015-12-10 一种网络舆情传播态势媒体联动分析方法

Publications (2)

Publication Number Publication Date
CN105389389A true CN105389389A (zh) 2016-03-09
CN105389389B CN105389389B (zh) 2018-09-25

Family

ID=55421679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510926525.2A Active CN105389389B (zh) 2015-12-10 2015-12-10 一种网络舆情传播态势媒体联动分析方法

Country Status (1)

Country Link
CN (1) CN105389389B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106844700A (zh) * 2017-02-03 2017-06-13 山东浪潮商用系统有限公司 一种基于Sorl的问税系统
CN107133310A (zh) * 2017-04-28 2017-09-05 安徽博约信息科技股份有限公司 僵尸网站的检测方法
CN107656938A (zh) * 2016-07-26 2018-02-02 北京搜狗科技发展有限公司 一种推荐方法和装置、一种用于推荐的装置
CN107943905A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种热点话题分析方法及系统
CN108256740A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种获取互联网信息传播指标的控制方法
CN110334263A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目舆情监控方法以及装置
WO2020057237A1 (zh) * 2018-09-20 2020-03-26 上海雅高文化传播有限公司 适用于关注对象的影响力检测方法、电子终端及存储介质
CN112711691A (zh) * 2021-01-08 2021-04-27 深圳市网联安瑞网络科技有限公司 网络舆情引导效果数据信息处理方法、系统、终端及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187559A1 (en) * 2008-01-17 2009-07-23 Peter Gloor Method of analyzing unstructured documents to predict asset value performance
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104063456A (zh) * 2014-06-25 2014-09-24 红麦聚信(北京)软件技术有限公司 基于向量查询的自媒体传播图谱分析方法和装置
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090187559A1 (en) * 2008-01-17 2009-07-23 Peter Gloor Method of analyzing unstructured documents to predict asset value performance
CN103309960A (zh) * 2013-05-29 2013-09-18 亿赞普(北京)科技有限公司 一种网络舆情事件多维信息提取的方法及装置
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104063456A (zh) * 2014-06-25 2014-09-24 红麦聚信(北京)软件技术有限公司 基于向量查询的自媒体传播图谱分析方法和装置
CN104408083A (zh) * 2014-10-27 2015-03-11 六盘水职业技术学院 一种社会化媒体分析系统
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付文达 等: "网络舆情情报联动机制研究", 《武警学院学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN107656938A (zh) * 2016-07-26 2018-02-02 北京搜狗科技发展有限公司 一种推荐方法和装置、一种用于推荐的装置
CN106598944B (zh) * 2016-11-25 2019-03-19 中国民航大学 一种民航安保舆情情感分析方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106844700A (zh) * 2017-02-03 2017-06-13 山东浪潮商用系统有限公司 一种基于Sorl的问税系统
CN107133310A (zh) * 2017-04-28 2017-09-05 安徽博约信息科技股份有限公司 僵尸网站的检测方法
CN107943905A (zh) * 2017-11-17 2018-04-20 北京锐安科技有限公司 一种热点话题分析方法及系统
CN108256740A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种获取互联网信息传播指标的控制方法
CN108256740B (zh) * 2017-12-22 2021-03-16 北京智慧星光信息技术有限公司 一种获取互联网信息传播指标的控制方法
WO2020057237A1 (zh) * 2018-09-20 2020-03-26 上海雅高文化传播有限公司 适用于关注对象的影响力检测方法、电子终端及存储介质
CN110334263A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目舆情监控方法以及装置
CN112711691A (zh) * 2021-01-08 2021-04-27 深圳市网联安瑞网络科技有限公司 网络舆情引导效果数据信息处理方法、系统、终端及介质
CN112711691B (zh) * 2021-01-08 2024-04-30 深圳市网联安瑞网络科技有限公司 网络舆情引导效果数据信息处理方法、系统、终端及介质

Also Published As

Publication number Publication date
CN105389389B (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
CN105389389A (zh) 一种网络舆情传播态势媒体联动分析方法
CN103399891B (zh) 网络内容自动推荐方法、装置和系统
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN105389307A (zh) 语句意图类别识别方法及装置
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
CN107368515A (zh) 应用程序页面推荐方法及系统
CN111639183B (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN104008109A (zh) 基于用户兴趣的Web信息推送服务系统
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN103186574A (zh) 一种搜索结果的生成方法和装置
CN103049470A (zh) 基于情感相关度的观点检索方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN103177036A (zh) 一种标签自动提取方法和系统
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN105183765A (zh) 一种基于大数据的话题抽取方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN104199938A (zh) 基于rss的农用土地信息发送方法和系统
Chang et al. Improving recency ranking using twitter data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 230000 A509 room, University Science Park, 602 Mount Huangshan Road, Hefei hi tech Zone, Anhui, China

Applicant after: Anhui boyue information Polytron Technologies Inc

Address before: 230001 C2008 room, University Science Park, 602 Mount Huangshan Road, Hefei hi tech Zone, Anhui, China

Applicant before: Anhui Boryou Information Technology Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Network public opinion transmission situation media linked analysis method

Effective date of registration: 20190709

Granted publication date: 20180925

Pledgee: Hefei merchants bank innovation Avenue Branch

Pledgor: Anhui boyue information Polytron Technologies Inc

Registration number: 2019340000376

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200727

Granted publication date: 20180925

Pledgee: Hefei merchants bank innovation Avenue Branch

Pledgor: ANHUI BORYOU INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2019340000376