CN101853261A - 一种基于社会网络的网络舆情行为分析方法 - Google Patents

一种基于社会网络的网络舆情行为分析方法 Download PDF

Info

Publication number
CN101853261A
CN101853261A CN200910216306A CN200910216306A CN101853261A CN 101853261 A CN101853261 A CN 101853261A CN 200910216306 A CN200910216306 A CN 200910216306A CN 200910216306 A CN200910216306 A CN 200910216306A CN 101853261 A CN101853261 A CN 101853261A
Authority
CN
China
Prior art keywords
network
public
opinion
incident
public sentiment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910216306A
Other languages
English (en)
Inventor
高辉
傅彦
曾奉尧
胡家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN200910216306A priority Critical patent/CN101853261A/zh
Publication of CN101853261A publication Critical patent/CN101853261A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社会网络的网络舆情行为分析方法,首先基于网络新闻或者帖子之间的相似度建立起一个网络舆情事件社会网络,然后通过分析社会网络参数随时间的变化以及参数之间的对比,自动的实现网络舆情的识别和网络舆情事件紧急程度的评估,方便相关政府部门更有效的监控和管理网络舆论。本发明通过网络舆情行为分析的方式不但可以有效地发现网络中的舆情信息,还可以对网络舆情事件的紧急程度分级进行有效的评估,弥补了以往舆情系统只能从文字内容方面分析舆情,而不能做网络舆情行为分析的不足。

Description

一种基于社会网络的网络舆情行为分析方法
技术领域
本发明涉及网络信息处理技术领域,具体来讲,涉及一种基于社会网络的基于社会网络的网络舆情行为分析方法。
背景技术
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何准确的识别网络舆情信息并加于及时监测和有效引导,对维护社会稳定、促进国家发展具有重要的现实意义,也是构建和谐网络的应有内涵。因此,对网络信息中的舆情信息进行及时准确的识别和对舆情事件紧急程度的进行评估具有重要的意义,甚至可以被认为是网络舆情监控系统的核心。
社会网络分析是社会科学中的一个独特视角,它是建立在如下假设基础上的:在互动的单位之间存在的关系非常重要。自从人类学家Barnes在1954年首次使用“社会网络”理论来分析挪威某渔村的社会结构以来,社会网络分析被视为是研究社会结构的最简单明朗、最具有说服力的研究视角之一。社会网络分析在早期社会研究中仅限于微网研究,即小群体内部结构和人际关系研究,目前已发展成大规模的宏网研究,从而使社会网络分析成为结构性与概念性较强理论研究的有力工具,并使微观研究与宏观研究有机地结合起来。
网络舆情社会网络是基于某个网络舆情事件相关文档集而建立的社会网络模型。在该社会网络模型中每篇文档为一个顶点,文档与文档之间的相似度达到一定阈值则在文档各自代表的顶点之间连一条边,权重为文档之间的相似度,该社会网络模型为无向有权图。网络舆情行为是网络舆情事件的复杂性在网络舆情社会网络中的体现,通过分析该社会网络模型各个网络参数随时间的变化及网络参数之间的对比可度量网络舆情行为的变化。网络舆情社会网络分析是研究网络舆情的简单明朗的研究视角之一,为分析网络舆情事件复杂性提供了有力工具,并使得通过分析网络舆情行为来识别网络舆情成为可能。
目前已经有很多单位针对舆情监控提出了一些不同的解决方案。
谷尼国际软件开发的Goonie互联网舆情监控系统通过对互联网海量信息自动获取,自动聚类,主题检测,专题聚焦,实现网络舆情监测和新闻专题追踪,形成简报、分析报告等结果,为全面掌握舆情动态提供分析依据。该系统通过内容抽取识别,相似性去重等技术,可以获取网络中的热点话题和敏感话题,可以根据统计等策略,分析在不同时间内人们对不同主题的关注程度,并预测事件的发展趋势。
北京拓尔思信息技术股份有限公司开发的TRS网络舆情监控系统采用多种技术,实现对舆情信息的精准和全面采集,同时综合运用大规模文档智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理。
北大方正技术研究院开发的方正智思网络舆情互联网信息监控分析系统整合互联网搜索技术及信息智能处理技术等,通过对网络信息进行自动抓取,自动分类聚类,主题检测,专题聚焦等方法,实现网络舆情监控和新闻专题追踪等功能。
中科点击开发的军犬网络舆情监控系统使用强大的采集软件,对数千网站进行监控,可以自动获取舆情信息的热度,并生成报表,同时可以获取热点主题的浏览量,回复数,并跟踪发帖人,对舆情信息进行管理,标注和分类,并根据重要性对舆情信息进一步筛选和过滤。
通过对上面几个国内知名的舆情监控系统的分析发现:目前国内的舆情监控系统都将重点放在舆情的准确发现和分类归类方面,而对于如何刻画某个舆情事件中的舆情行为和分析舆情行为的变化并没有做深入的研究。这些监控系统对于舆情的发现可能会有很好的效果,因此适合给有关机构提供分析和咨询,但是由于其侧重于从文字内容方面发现和分类舆情,不能刻画某个舆情事件中的舆情行为和分析舆情行为的变化,如何及时准确地刻画网络舆情行为和分析网络舆情行为的变化成为一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能及时准确地了解网络舆论的基于社会网络的网络舆情行为分析方法。
为实现本发明目的,本发明的基于社会网络的网络舆情行为分析方法,包括以下步骤:
(1)、从互联网中采集网页文本并对其预处理,得到的文档存放到网页信息数据库;
(2)、对网页信息数据库中的文档进行聚类;
(3)、基于网页信息数据库中同一类别相关文档之间的关系建立待分析的网络舆情事件社会网络;
(4)、计算网络舆情事件社会网络参数随时间变化过程的数据并绘制网络参数曲线;
(5)、从网络参数曲线中切取出网络舆情事件的主爆发周期;
(6)、基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估;
(7)、输出结果;
进一步,为使本发明获得更好的发明效果,在上述步骤1中,通过网络爬虫从互联网中采集网页文本;通过信息提取单元对网页文本进行解析预处理,获取的标题、正文和发布时间信息组装成文档存放到网页信息数据库。
进一步,为使本发明获得更好的发明效果,在上述步骤2中,所述的对信息数据库中的文档进行聚类,具体做法是:
步骤201计算文档之间的相似度,根据如下公式:
Cos ( X , Y ) = Σ i x i * y i ( Σ i x i 2 ) * ( Σ i y i 2 ) - - - ( 1 )
其中X,Y为文档,xi 2,yi 2分别对应的X,Y的特征向量。考虑到每一个文档代表的是一个类,每个类可能大小不同,那么它们所代表的权重也应该相应做出调整,调整的过程通过步骤202实现。
步骤202计算文档之间的吸引力,根据如下公式:
F = mM r 2 - - - ( 2 )
其中F代表文档之间的吸引力,m、M分别代表参与运算的两个文档所代表的类的总帖子数,r为文档之间相似度的倒数。
这样就能够求出所有文档与其它的文档的相似度。为了方便后续的计算,采用步骤203对结果进行标准化,得到两点之间的距离R。
步骤203首先计算所有吸引力的均值ave。对于所有低于ave的吸引力R=0,所有高于ave的值利用如下公式进行计算处理:
R = ave F - - - ( 3 )
这样处理之后,能够保证,所有的距离R的值都为0到1之间,并且吸引力越大,距离出来的值就越小,文档就越相似。在得到了两点之间的距离之后就可以构造网络了。
进一步,为使本发明获得更好的发明效果,在上述步骤3中,所述的建立待分析的网络舆情事件社会网络,具体做法是:
步骤301在构造网络之前,首先需要对文档按照时间序列化,为了消除随机波动,对每天的文档进行滑动平均
N i = Σ j = i j + k n j k - - - ( 4 )
其中Ni代表第i天的文档数
步骤302网络中,每一个节点代表一个文档,如果两点之间的距离大于0,那么两点之存在一条边(无向边),并且边的权值为两点之间的距离。遍历每个节点直至完成网络构建。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的网络参数指的是自定义的网络参数,定义如下:
网络参数1:节点数量,反应当前时间网络上新增了多少关于所分析的事件的帖子。
网络参数2:网络直径,反应当前时间网络上新增帖子所构成的网络中,两点之前最短路径的最大值。
网络参数3:网络密度,反应当前时间网络上新增帖子所构成的网络中,实际存在的边与同等节点数量的完全图中的边的比。
网络参数4:簇系数,又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数。随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例。
网络参数5:结构熵,熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的计算网络舆情事件社会网络参数随时间变化过程的数据,具体做法是:
步骤401计算网络密度:网络密度是当前节点间存在的边数于同等数目节点的完全图中的边的比值。网络密度越大,说明网络中内容相似的节点越多。网络密度采用以下公式计算:
ND = S n ( n - 1 ) - - - ( 5 )
其中ND为网络密度,n为节点数,S为实际的边数。
步骤402计算网络直径:反应当前时间,网络上新增帖子所构成的网络中,两点之间最短路径的最大值。网络直径的实际意义反应的是相关新闻中内容差距最大的两篇文档之间的“距离”。
步骤403计算簇系数:又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数。随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例。簇系数根据以下公式进行计算:
C i = 2 e i k i ( k i - 1 ) - - - ( 6 )
其中ki表示节点的度数,ei表示结点的邻结点之间实际存在的边数,随机网络的簇系数C为所有结点簇系数的算术平均值,即:
C = 1 N Σ i = 1 n C i - - - ( 7 )
步骤404计算结构熵:熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。定义T时刻传播网络的结构熵为:
H ( t ) = Σ k = 1 n ( t ) - 1 p ( k , t ) log 2 p ( k , t ) - - - ( 8 )
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的绘制网络参数曲线,做法是分别计算搜集各个参数在某个时间段内的数据,绘制成相应的数据曲线。
进一步,为使本发明获得更好的发明效果,在上述步骤5中,所述的从网络参数曲线中切取出网络舆情事件的主爆发周期,目的是为了区分出不同的帖子数爆发周期,从而对每一个周期进行单独分析,该步骤为图1中的步骤ST5,具体流程图为图2。具体步骤如下:
步骤501遍历原始曲线,保留那些明显的转折点,用直线把这些转折点连起来形成折线图;
选择这些转折点的做法是:开始和结尾的点首先被选为关键点,然后从一个关键点开始,尝试用直线连接它和它后面的每一个点,直到中间有点与这条直线的距离超过给定的值d时,那个超出范围的点就被认为是一个新的关键点。接下来从这个新的关键点开始,重复上面的过程,直到曲线最后一个点。
步骤502在折线图上寻找每个周期开始和结束的位置,在折线图上遍历可以避免无关起伏的干扰;
步骤5021确认周期的开始
判断标准:当一段直线的斜率超过人为给定的阈值L时就判定周期开始。
步骤5022确认周期的结束
判断标准:周期开始后,满足下列两个条件之一就判断周期结束:
条件一.趋势的起伏在一个给定的标准范围d内,即选择转折点时给定的d,针对具体情况可以适当调整,并且这种平稳已经至少持续了一个给定的时间跨度minT,同时曲线的当前高度不应该高于周期开始时的2倍;
条件二.周期的长度已经超过了给定的最大限度maxT。
步骤503根据步骤5.22得到的周期的开始和结束位置切取周期。
后续的分析全是基于该步得到的周期进行的分析。如果得到多个周期,则分析整个曲线最大值所在的周期;如果存在多个最大值差别不大的周期,则使用结构熵判断主要爆发周期。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情为满足如下两个条件的网络事件:
条件一.参与讨论的新闻或者帖子数激增。
条件二.参与讨论的人发表的独立的观点。
所表现出来的网络行为是:帖子或者报道的新闻数量激增,同时网络密度下降,即网络密度变化与帖子数量变化负相关。
如果存在大量的帖子,但是都是通过转载的形式出现的话。那么表现在网络密度的形式,网络密度不变或者增加,这种情况明显不属于舆情,所以利用帖子数和网络密度两个条件来定义是否是舆情。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情事件紧急程度指的是自定义的紧急程度,定义如下:
红色舆情:是指参与讨论的帖子内容基本一致,并且负面意见居多,反政府,反社会,或者带有极端煽动性,甚至有可能引起更大规模的反动舆论浪潮的舆情。这类舆情危害性最大,需要立即处理。
橙色舆情:是指有大量的帖子参与讨论的舆情事件,且内容差距比较大,并且很有可能多次爆发的舆情。这类舆情由于没有形成统一的负面意见,所以危害性要小于红色舆情。但是由于很可能再次爆发,无法控制有可能向红色舆情转变,所以需要引导,从而将舆论引向正轨。
黄色舆情:是指有大量帖子参与,但是没有形成统一负面意见,有可能再次爆发舆情,但是可能性相对小于橙色舆情。所以危害性要小于橙色舆情,但是依然需要关注。
绿色舆情:是指有大量民众参与,但是形成了统一的正面意见,或者对事件的讨论进入尾声,很难再度爆发的舆情。这类舆情危害性很小。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情行为特征库指的是通过大量的网络舆情事件观察和实验总结出来的四个网络参数规则,这些规则可用来对网络舆情事件进行分类和识别,具体参数规则内容是:
参数规则1.网络密度、通过观察爆发阶段网络密度的值来判断事件的属性。当网络密度范围为:
a)0-0.2之间称为广泛讨论事件。对应的实际情况是,大量的帖子或者新闻,从各个不同的角度讨论整个事件,说明时间引起了广泛的关注和讨论。
b)0.2-0.5之间称为平衡事件。对应实际情况是:对事件的讨论比较集中,虽然存在各个不同的版本,但是内容上比较一致。
c)0.5以上,称为内容统一事件。对应的实际情况是:对事件的讨论趋于统一。如果结合观点分析,当观点为正时,为绿色舆情事件;当观点为负时,为红色舆情事件。
参数规则2.网络直径、通过观察爆发阶段网络直径的变化可以判断出时间的部分属性。网络直径对应的实际意义是:当前的左右帖子中,相关的帖子里内容区别最大两个帖子。在爆发阶段,网络直径有两种情况:
a)维持稳定:对于维持稳定的情况,称为能量释放完全事件。也就是说,没有新的内容出现,那么之后,不容易出现再次爆发的情况。
b)发生波动:对于出现波动的情况,称为能量不完全释放事件。也就是说,继续出现新观点,或者旧观点的消亡。那么之后容易出现再次爆发的情况。
参数规则3.簇系数、簇系数反应的是“抱团”的程度,在爆发期间,簇系数的变化分为两种情况:
a)维持稳定,说明事件内部没有出现观点倾向性的变化。
b)发生增长,说明抱团程度加剧,证明事件内部观点开始发生集中。
参数规则4.结构熵、结构熵反应的是度分布的问稳定程度。结构熵越高,说明能量分布越均衡。在多次爆发的事件中,如果帖子数量在波峰都差不多,可以利用结构熵来判断主爆发。结构熵最高的波峰,为主爆发。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估,该步骤为图1中的步骤ST6,具体流程图为图3,具体做法如下:
步骤601:考察帖子数量爆发时网络密度的变化情况,
a)网络密度变化趋势与帖子数量变化趋势正相关,那么定义为非舆情事件,并且结束分析。
b)网络密度变化趋势与帖子数量变化趋势负相关,那么定义为舆情事件,并且进入步骤602分析。
步骤602:结合网络舆情行为特征库分析网络密度;
步骤6021:考察爆发期网络密度的值,
a)网络密度的值小于0.2,属于广泛讨论事件,需要结合网络参数进一步分析。
b)网密度值高于0.5,定义为内容统一事件,结合观点分析,如果观点分析为负。那么定义为红色舆情事件,如果观点分析为正,定义为绿色舆情事件。
c)网络密度介于0.2-0.5那么进入步骤603分析。
步骤6022:当判断该事件为广泛讨论事件的时候,就根据爆发期间网络直径和簇系数的变化来区分舆情的紧急程度。
a)网络直径和簇系数不发生明显变化,那么认为该事件讨论范围和讨论的集群不再发生变化,可以理解为事件进入到发展阶段的末期,定义为黄色舆情事件。
b)网络直径和簇系数发生了明显的变化,可以认为事件发展并没有进入到末期,仍需要重点关注,定义为橙色舆情事件。
步骤603:首先区分是否是多次爆发的舆情,如果是多次爆发的舆情,利用结构熵找到主爆发,结构熵最大的一个爆发区间为主爆发区间;如果是单次爆发时间跳过这一步。直接进入步骤604。
步骤604:根据爆发期间网络直径和簇系数的变化来区分舆情的紧急程度。
a)网络直径和簇系数不发生明显变化,认为该事件讨论范围和讨论的集群不再发生变化,可以理解为事件进入到发展阶段的末期,不再会发生大幅的波动或者下一轮的爆发。定义为绿色舆情
b)网络直径发生变化,簇系数没有发生明显变化,认为,该时间的讨论范围在继续变化,那么事件发展还没有进入末期,之后又可能再次爆发。定义为黄色舆情。
c)网络直径和簇系数都发生了明显的变化,说明事件的讨论范围和观点集群都在发生变化,那么认为该事件极有可能再度爆发。定义为橙色舆情。
本发明提出了一种基于社会网络的网络舆情行为分析方法,首先基于网络新闻或者帖子之间的相似度建立起一个社会网络,然后通过分析社会网络参数随时间的变化,以及参数之间的对比,自动的实现网络舆情的识别和网络舆情事件紧急程度的评估,使得政府能够更有效的监控和管理网络舆论。本发明通过网络舆情行为分析的方式不但可以有效地发现网络中的舆情信息,还可以对网络舆情事件的紧急程度评估进行有效的评估,弥补了以往舆情系统只能从文字内容方面分析舆情,而不能做网络舆情行为分析的不足。
附图说明
图1是本发明一种基于社会网络的网络舆情行为分析方法的整体流程图;
图2是图1所示的基于社会网络的网络舆情行为分析方法中,步骤ST5切取周期的流程图;
图3是图1所示的基于社会网络的网络舆情行为分析方法中,步骤ST6参数分析的流程图;
图4是具体实例杭州飙车案例中的节点趋势和网络密度趋势对比图;
图5是具体实例杭州飙车案例中的网络直径趋势图;
图6是具体实例杭州飙车案例中的簇系数趋势图;
图7是具体实例某某某出访案例中的节点趋势和网络密度趋势对比图;
图8是具体实例贵州习水案例中的节点趋势和网络密度趋势对比图;
图9是具体实例贵州习水案例中的网络直径趋势图;
图10是具体实例贵州习水案例中的簇系数趋势图;
具体实施方式
为进一步理解本发明的基于社会网络的网络舆情行为分析方法,下面列举具体实例进行详细说明。
首先从互联网中通过爬虫采集网页文档并对其预处理,然后对得到的信息文档进行聚类,聚类结果包含三个网络事件文档集:杭州飙车案文档集、某某某出访文档集和贵州习水案文档集。
分别针对这三个网络事件进行构建社会网络、计算网络参数、绘制参数曲线、切取曲线主爆发周期(斜率阈值为3)等步骤得到各自的节点趋势和网络密度趋势对比图、网络直径趋势图和簇系数趋势图,接下来结合舆情行为特征库里面的参数规则进行后续的网络舆情行为分析。
具体实例1:杭州飙车案
事件回顾:
2009年5月7日在杭州发生的一起交通事故,在杭州文二西路上,一名走人行横道线过马路的行人被一辆超速行驶跑车撞死,事后,杭州交警部门在新闻发布会表示肇事车辆的时速在70码左右,该报告已经宣布立即引起普遍怀疑,70码一词迅速在网络流传开来。最终,警方调查出该车速在100码左右。
舆情行为分析:
1)如图4所示,既杭州飙车案例节点趋势图和网络密度趋势图,容易看出,节点数量在5月7日左右开始爆发,同时网络密度开始下降,因此可以判断其为舆情事件;
2)如图4所示,既杭州飙车案例网络密度趋势图,爆发期的网络密度介于0.2-0.5之间(后期的增长是因为帖子数量的减少,所以定性问噪声),可以判断事件为值得关注事件;
3)如图5所示,既杭州飙车案例网络直径趋势图,根据网络网络直径出现变化,定性为能量不完全释放事件;
4)如图6所示,既杭州飙车案案例簇系数趋势图,根据簇系数发生变化(上涨)说明事件的观点集团化倾向加深,所以定义为橙色舆情事件。
具体实例2:某某某出访
事件回顾:
某某某,作为国家领导人,有很多相关的新闻,但是不能作为舆情存在,网络行为也很好的验证了该观点。
舆情行为分析:
如图7所示,既某某某出访案例中的节点趋势和网络趋势对比图,爆发点的贴子数和网络密度保持相同的增长趋势,故为非舆情事件。
具体实例3:贵州习水案
事件回顾:
2007年10月始,犯罪嫌疑人使用暴力胁迫等手段逼迫少女卖淫。该事件与2008年10月被爆出,由于存在公职人员参与以及定罪问题,引起了社会的广泛热议。
舆情行为分析:
1)如图8所示,既贵州习水案例中的节点趋势和网络密度趋势对比图,在帖子数量爆发的时候,网络密度是一个下降的过程,满足舆情的定义的条件,该事件可以定性为舆情事件。
2)如图8所示,由于事件爆发期,网络密度基本低于0.2,可以定性为广泛讨论事件。
3)如图9和图10所示,网络直径和簇系数在爆发期基本维持不变,满足事件发展末期的特性,故可以定性为黄色舆情事件。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (7)

1.一种基于社会网络的网络舆情行为分析方法,包括以下步骤:
(1)、从互联网中采集网页文本并对其预处理,得到的文档存放到网页信息数据库;
(2)、对网页信息数据库中的文档进行聚类;
(3)、基于网页信息数据库中同一类别相关文档之间的关系建立待分析的网络舆情事件社会网络;
(4)、计算网络舆情事件社会网络参数随时间变化过程的数据并绘制网络参数曲线;
(5)、从网络参数曲线中切取出网络舆情事件的主爆发周期;
(6)、基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估;
(7)、输出结果。
2.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(1)的具体实现方法为:通过网络爬虫从互联网中采集网页文本;通过信息提取单元对网页文本进行解析预处理,获取的标题、正文和发布时间信息组装成文档存放到网页信息数据库。
3.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(4)所述的网络参数指的是自定义的网络参数,定义如下:
网络参数1:节点数量,反应当前时间网络上新增了多少关于所分析的事件的帖子;
网络参数2:网络直径,反应当前时间网络上新增帖子所构成的网络中,两点之前最短路径的最大值;
网络参数3:网络密度,反应当前时间网络上新增帖子所构成的网络中,实际存在的边与同等节点数量的完全图中的边的比;
网络参数4:簇系数,又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数,随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例;
网络参数5:结构熵,熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。
4.根据权利要求1或3所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(4)所述的计算网络舆情事件社会网络参数随时间变化过程的数据,具体做法是:
步骤4.1计算网络密度:网络密度是当前节点间存在的边数于同等数目节点的完全图中的边的比值,网络密度越大,说明网络中内容相似的节点越多,网络密度采用以下公式计算:
ND = S n ( n - 1 )
其中ND为网络密度,n为节点数,S为实际的边数;
步骤4.2计算网络直径:反应当前时间,网络上新增帖子所构成的网络中,两点之间最短路径的最大值,网络直径的实际意义反应的是相关新闻中内容差距最大的两篇文档之间的“距离”;
步骤4.3计算簇系数:又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数,簇系数根据以下公式进行计算:
C i = 2 e i k i ( k i - 1 )
其中ki表示节点的度数,ei表示结点的邻结点之间实际存在的边数,随机网络的簇系数C为所有结点簇系数的算术平均值,即:
C = 1 N Σ i = 1 n C i
步骤4.4计算结构熵:熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀,定义T时刻传播网络的结构熵为:
H ( t ) = Σ k = 1 n ( t ) - 1 p ( k , t ) log 2 p ( k , t )
5.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情为满足如下两个条件的网络事件:1、参与讨论的新闻或者帖子数激增;2、参与讨论的人发表的独立的观点;所表现出来的网络行为是:帖子或者报道的新闻数量激增,同时网络密度下降,即网络密度变化与帖子数量变化负相关。
6.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情事件紧急程度指的是自定义的紧急程度,定义如下:
红色舆情:是指参与讨论的帖子内容基本一致,并且负面意见居多,反政府,反社会,或者带有极端煽动性,甚至有可能引起更大规模的反动舆论浪潮的舆情,这类舆情危害性最大,需要立即处理;
橙色舆情:是指有大量的帖子参与讨论的舆情事件,且内容差距比较大,并且很有可能多次爆发的舆情,这类舆情由于没有形成统一的负面意见,所以危害性要小于红色舆情,但是由于很可能再次爆发,无法控制有可能向红色舆情转变,所以需要引导,从而将舆论引向正轨;
黄色舆情:是指有大量帖子参与,但是没有形成统一负面意见,有可能再次爆发舆情,但是可能性相对小于橙色舆情,所以危害性要小于橙色舆情,但是依然需要关注;
绿色舆情:是指有大量民众参与,但是形成了统一的正面意见,或者对事件的讨论进入尾声,很难再度爆发的舆情,这类舆情危害性很小。
7.根据权利要求1或6所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情行为特征库,指的是通过大量的网络舆情事件观察和实验总结出来的四个网络参数规则,这些规则用来对网络舆情事件进行分类和识别,具体参数规则内容是:
参数规则1.网络密度、通过观察爆发阶段网络密度的值来判断事件的属性,当网络密度范围为:
a)0-0.2之间称为广泛讨论事件,对应的实际情况是,大量的帖子或者新闻,从各个不同的角度讨论整个事件,说明时间引起了广泛的关注和讨论,
b)0.2-0.5之间称为平衡事件,对应实际情况是:对事件的讨论比较集中,虽然存在不同的版本,但是内容上比较一致,
c)0.5以上,称为内容统一事件,对应的实际情况是:对事件的讨论趋于统一,如果结合观点分析,当观点为正时,为绿色舆情事件;当观点为负时,为红色舆情事件,
参数规则2.网络直径、通过观察爆发阶段网络直径的变化可以判断出时间的部分属性,网络直径对应的实际意义是:当前的左右帖子中,相关的帖子里内容区别最大两个帖子,在爆发阶段,网络直径有两种情况:
a)维持稳定:对于维持稳定的情况,称为能量释放完全事件,也就是说,没有新的内容出现,那么之后,不容易出现再次爆发的情况,
b)发生波动:对于出现波动的情况,称为能量不完全释放事件,也就是说,继续出现新观点,或者旧观点的消亡,那么之后容易出现再次爆发的情况,
参数规则3.簇系数、簇系数反应的是“抱团”的程度,在爆发期间,簇系数的变化分为两种情况:
a)维持稳定,说明事件内部没有出现观点倾向性的变化,
b)发生增长,说明抱团程度加剧,证明事件内部观点开始发生集中,
参数规则4.结构熵、结构熵反应的是度分布的问稳定程度,结构熵越高,说明能量分布越均衡,在多次爆发的事件中,如果帖子数量在波峰都差不多,可以利用结构熵来判断主爆发,结构熵最高的波峰,为主爆发。
CN200910216306A 2009-11-23 2009-11-23 一种基于社会网络的网络舆情行为分析方法 Pending CN101853261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910216306A CN101853261A (zh) 2009-11-23 2009-11-23 一种基于社会网络的网络舆情行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910216306A CN101853261A (zh) 2009-11-23 2009-11-23 一种基于社会网络的网络舆情行为分析方法

Publications (1)

Publication Number Publication Date
CN101853261A true CN101853261A (zh) 2010-10-06

Family

ID=42804756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910216306A Pending CN101853261A (zh) 2009-11-23 2009-11-23 一种基于社会网络的网络舆情行为分析方法

Country Status (1)

Country Link
CN (1) CN101853261A (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214227A (zh) * 2011-06-23 2011-10-12 华南理工大学 基于互联网层次结构存储的自动舆情监控方法
CN102314489A (zh) * 2011-08-15 2012-01-11 哈尔滨工业大学 网络论坛中舆论领袖分析方法
WO2012083856A1 (zh) * 2010-12-21 2012-06-28 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102929918A (zh) * 2012-09-20 2013-02-13 西北工业大学 虚假网络舆情识别方法
CN102968452A (zh) * 2012-10-25 2013-03-13 北京腾逸科技发展有限公司 网络舆情信息统计方法及系统
CN103186599A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网新闻的监控方法和装置
CN103324662A (zh) * 2013-04-18 2013-09-25 中国科学院计算技术研究所 社会媒体事件的动态观点演变的可视化方法及设备
CN103631897A (zh) * 2013-11-20 2014-03-12 华为技术有限公司 一种大数据分析方法及装置
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
EP2795839A4 (en) * 2011-12-21 2015-07-29 Engagement Labs Inc SYSTEM AND METHOD FOR MEASURING AND IMPROVING THE EFFICIENCY OF CAMPAIGNS IN SOCIAL MEDIA
CN104866561A (zh) * 2015-05-19 2015-08-26 国家计算机网络与信息安全管理中心 一种挖掘微博话题趋势发起人的方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN104951869A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于工作流的舆情监控方法及装置
CN105245362A (zh) * 2015-09-14 2016-01-13 河南工业大学 一种sdn环境中重要节点信息采集方法
CN106156192A (zh) * 2015-04-21 2016-11-23 北大方正集团有限公司 舆情数据聚类方法和舆情数据聚类系统
CN106250552A (zh) * 2011-08-09 2016-12-21 微软技术许可有限责任公司 在搜索引擎结果页面上聚集web页面
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN107197384A (zh) * 2017-05-27 2017-09-22 北京光年无限科技有限公司 应用于视频直播平台的虚拟机器人多模态交互方法和系统
CN107330076A (zh) * 2017-07-01 2017-11-07 岳小玲 一种网络舆情信息展示系统及方法
CN107515893A (zh) * 2017-07-07 2017-12-26 南京理工大学 基于soar模型的网络舆情预测方法
US9996852B2 (en) 2011-12-21 2018-06-12 Engagement Labs Inc./Laboratoires Engagement Inc. System and method for measuring and improving the efficiency of social media campaigns
CN108255832A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 舆情处理系统及方法
CN108520337A (zh) * 2018-03-22 2018-09-11 清华大学深圳研究生院 一种基于网络风险熵差的谣言风险评估方法
CN108536757A (zh) * 2018-03-19 2018-09-14 武汉大学 一种基于用户历史网络潜在有害主题引导方法
CN108763335A (zh) * 2018-05-12 2018-11-06 苏州华必讯信息科技有限公司 一种基于社会网络的网络舆情行为分析方法
CN110008334A (zh) * 2017-08-04 2019-07-12 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN111414550A (zh) * 2019-11-07 2020-07-14 成都国腾实业集团有限公司 基于灰色关联分析的网络舆情热度值定量识别方法
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112199585A (zh) * 2020-09-29 2021-01-08 黑龙江省网络空间研究中心 一种基于数据挖掘技术的网络舆情突发热点事件发现方法
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN114169738A (zh) * 2021-12-02 2022-03-11 天津大学 一种基于价值驱动的平台算法进行行为分析系统
CN116308721A (zh) * 2023-05-11 2023-06-23 菏泽市市场监管监测中心 一种信息监督管理方法、装置、电子设备及存储介质

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012083856A1 (zh) * 2010-12-21 2012-06-28 北大方正集团有限公司 一种处理舆情话题的方法、装置和系统
CN102214227A (zh) * 2011-06-23 2011-10-12 华南理工大学 基于互联网层次结构存储的自动舆情监控方法
CN102214227B (zh) * 2011-06-23 2013-03-20 华南理工大学 基于互联网层次结构存储的自动舆情监控方法
CN106250552A (zh) * 2011-08-09 2016-12-21 微软技术许可有限责任公司 在搜索引擎结果页面上聚集web页面
CN106250552B (zh) * 2011-08-09 2020-02-07 微软技术许可有限责任公司 在搜索引擎结果页面上聚集web页面
CN102314489A (zh) * 2011-08-15 2012-01-11 哈尔滨工业大学 网络论坛中舆论领袖分析方法
CN102314489B (zh) * 2011-08-15 2017-02-15 哈尔滨工业大学 网络论坛中舆论领袖分析方法
EP2795839A4 (en) * 2011-12-21 2015-07-29 Engagement Labs Inc SYSTEM AND METHOD FOR MEASURING AND IMPROVING THE EFFICIENCY OF CAMPAIGNS IN SOCIAL MEDIA
US9996852B2 (en) 2011-12-21 2018-06-12 Engagement Labs Inc./Laboratoires Engagement Inc. System and method for measuring and improving the efficiency of social media campaigns
CN103186599A (zh) * 2011-12-28 2013-07-03 北大方正集团有限公司 互联网新闻的监控方法和装置
CN103186599B (zh) * 2011-12-28 2016-04-20 北大方正集团有限公司 互联网新闻的监控方法和装置
CN102929918B (zh) * 2012-09-20 2015-11-18 西北工业大学 虚假网络舆情识别方法
CN102929918A (zh) * 2012-09-20 2013-02-13 西北工业大学 虚假网络舆情识别方法
CN102968452A (zh) * 2012-10-25 2013-03-13 北京腾逸科技发展有限公司 网络舆情信息统计方法及系统
CN103324662A (zh) * 2013-04-18 2013-09-25 中国科学院计算技术研究所 社会媒体事件的动态观点演变的可视化方法及设备
CN103631897A (zh) * 2013-11-20 2014-03-12 华为技术有限公司 一种大数据分析方法及装置
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法
CN106156192A (zh) * 2015-04-21 2016-11-23 北大方正集团有限公司 舆情数据聚类方法和舆情数据聚类系统
CN104866561A (zh) * 2015-05-19 2015-08-26 国家计算机网络与信息安全管理中心 一种挖掘微博话题趋势发起人的方法
CN104866561B (zh) * 2015-05-19 2018-09-07 国家计算机网络与信息安全管理中心 一种挖掘微博话题趋势发起人的方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN104951869A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于工作流的舆情监控方法及装置
CN105245362B (zh) * 2015-09-14 2018-07-03 河南工业大学 一种sdn环境中重要节点信息采集方法
CN105245362A (zh) * 2015-09-14 2016-01-13 河南工业大学 一种sdn环境中重要节点信息采集方法
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN108255832A (zh) * 2016-12-28 2018-07-06 航天信息股份有限公司 舆情处理系统及方法
CN107197384A (zh) * 2017-05-27 2017-09-22 北京光年无限科技有限公司 应用于视频直播平台的虚拟机器人多模态交互方法和系统
CN107197384B (zh) * 2017-05-27 2019-08-02 北京光年无限科技有限公司 应用于视频直播平台的虚拟机器人多模态交互方法和系统
CN107330076B (zh) * 2017-07-01 2021-04-06 岳小玲 一种网络舆情信息展示系统及方法
CN107330076A (zh) * 2017-07-01 2017-11-07 岳小玲 一种网络舆情信息展示系统及方法
CN107515893A (zh) * 2017-07-07 2017-12-26 南京理工大学 基于soar模型的网络舆情预测方法
CN110008334A (zh) * 2017-08-04 2019-07-12 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质
CN108536757A (zh) * 2018-03-19 2018-09-14 武汉大学 一种基于用户历史网络潜在有害主题引导方法
CN108536757B (zh) * 2018-03-19 2022-04-01 武汉大学 一种基于用户历史网络潜在有害主题引导方法
CN108520337B (zh) * 2018-03-22 2021-09-24 清华大学深圳研究生院 一种基于网络风险熵差的谣言风险评估方法
CN108520337A (zh) * 2018-03-22 2018-09-11 清华大学深圳研究生院 一种基于网络风险熵差的谣言风险评估方法
CN108763335A (zh) * 2018-05-12 2018-11-06 苏州华必讯信息科技有限公司 一种基于社会网络的网络舆情行为分析方法
CN110929145A (zh) * 2019-10-17 2020-03-27 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN110929145B (zh) * 2019-10-17 2023-07-21 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN111414550A (zh) * 2019-11-07 2020-07-14 成都国腾实业集团有限公司 基于灰色关联分析的网络舆情热度值定量识别方法
CN111125548A (zh) * 2019-12-31 2020-05-08 北京金堤科技有限公司 舆论监督方法和装置、电子设备和存储介质
CN111784492A (zh) * 2020-07-10 2020-10-16 讯飞智元信息科技有限公司 舆情分析和财务预警方法、装置、电子设备和存储介质
CN112199585A (zh) * 2020-09-29 2021-01-08 黑龙江省网络空间研究中心 一种基于数据挖掘技术的网络舆情突发热点事件发现方法
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN112612944B (zh) * 2020-12-07 2024-05-31 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及系统
CN114169738A (zh) * 2021-12-02 2022-03-11 天津大学 一种基于价值驱动的平台算法进行行为分析系统
CN114169738B (zh) * 2021-12-02 2024-08-02 天津大学 一种基于价值驱动的平台算法进行行为分析系统
CN116308721A (zh) * 2023-05-11 2023-06-23 菏泽市市场监管监测中心 一种信息监督管理方法、装置、电子设备及存储介质
CN116308721B (zh) * 2023-05-11 2023-10-20 菏泽市市场监管监测中心 一种信息监督管理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101853261A (zh) 一种基于社会网络的网络舆情行为分析方法
Al Najada et al. Big vehicular traffic data mining: Towards accident and congestion prevention
CN108564515A (zh) 一种基于区块链的生态价值共享方法及系统
CN101819573B (zh) 一种自适应的网络舆情识别方法
Wang et al. The model of early warning for China's marine ecology-economy symbiosis security
Wang et al. Total orders of extended hesitant fuzzy linguistic term sets: definitions, generations and applications
CN114580706A (zh) 基于gru-lstm神经网络的电力金融业务风控方法及系统
Wang et al. Online rumor propagation of social media on NIMBY conflict: Temporal patterns, frameworks and rumor-mongers
CN104464321A (zh) 一种基于交通运行指数发展态势的智能交通诱导方法
Gao et al. Multiple-stakeholders’ game and decision-making behaviors in green management of megaprojects
CN103838806B (zh) 一种社会网络用户参与主题行为分析方法
CN103729553A (zh) 一种基于贝叶斯网络学习的城市安全复杂事件分类控制方法
CN115115159B (zh) 基于tf-idf与模糊贝叶斯网络的风险预测方法
Wu et al. Multi-agent modeling and analysis of EV users' travel willingness based on an integrated causal/statistical/behavioral model
CN117097619B (zh) 一种车路云协同的通算存资源优化配置方法及系统
Zhihan et al. Complexity problems handled by big data technology
Fesenfeld Glimmers of hope: a global Green New Deal is feasible
CN104933529A (zh) 废弃烟丝对卷烟单箱能耗影响的分析系统及分析方法
Fang et al. Social Risk Early Warning of Environmental Damage of Large‐Scale Construction Projects in China Based on Network Governance and LSTM Model
Xu et al. A deep transfer NOx emission inversion model of diesel vehicles with multisource external influence
He et al. Life cycle identification and analysis of microblog hot topics
Li Research on financial risk prediction and prevention countermeasures based on big data
Yuan et al. Research on network public opinion analysis platform architecture based on big data
CN110083701A (zh) 一种基于平均影响力的网络空间群体性事件预警系统
Qian et al. Research on multi-source data fusion in the field of atmospheric environmental monitoring

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101006