CN108763335A - 一种基于社会网络的网络舆情行为分析方法 - Google Patents

一种基于社会网络的网络舆情行为分析方法 Download PDF

Info

Publication number
CN108763335A
CN108763335A CN201810451700.0A CN201810451700A CN108763335A CN 108763335 A CN108763335 A CN 108763335A CN 201810451700 A CN201810451700 A CN 201810451700A CN 108763335 A CN108763335 A CN 108763335A
Authority
CN
China
Prior art keywords
network
public
mrow
opinion
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810451700.0A
Other languages
English (en)
Inventor
赖超华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Hua Bi Mdt Infotech Ltd
Original Assignee
Suzhou Hua Bi Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Hua Bi Mdt Infotech Ltd filed Critical Suzhou Hua Bi Mdt Infotech Ltd
Priority to CN201810451700.0A priority Critical patent/CN108763335A/zh
Publication of CN108763335A publication Critical patent/CN108763335A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社会网络的网络舆情行为分析方法,首先基于网络新闻或者帖子之间的相似度建立起一个网络舆情事件社会网络,然后通过分析社会网络参数随时间的变化以及参数之间的对比,自动的实现网络舆情的识别和网络舆情事件紧急程度的评估,方便相关政府部门更有效的监控和管理网络舆论。本发明通过网络舆情行为分析的方式不但可以有效地发现网络中的舆情信息,还可以对网络舆情事件的紧急程度分级进行有效的评估,弥补了以往舆情系统只能从文字内容方面分析舆情,而不能做网络舆情行为分析的不足。

Description

一种基于社会网络的网络舆情行为分析方法
技术领域
本发明涉及网络信息处理技术领域,具体来讲,涉及一种基于社会网络的基于社会网络的网络舆情行为分析方法。
背景技术
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。如何才能准确的识别网络舆情信息并加于及时监测和有效引导,因此,对网络信息中的舆情信息进行及时准确的识别和对舆情事件紧急程度的进行评估具有重要的意义,甚至可以被认为是网络舆情监控系统的核心。
社会网络分析是社会科学中的一个独特视角,它是建立在如下假设基础上的:在互动的单位之间存在的关系非常重要。社会网络分析在早期社会研究中仅限于微网研究,即小群体内部结构和人际关系研究,目前已发展成大规模的宏网研究,从而使社会网络分析成为结构性与概念性较强理论研究的有力工具,并使微观研究与宏观研究有机地结合起来。
网络舆情社会网络是基于某个网络舆情事件相关文档集而建立的社会网络模型。在该社会网络模型中每篇文档为一个顶点,文档与文档之间的相似度达到一定阈值则在文档各自代表的顶点之间连一条边,权重为文档之间的相似度,该社会网络模型为无向有权图。网络舆情行为是网络舆情事件的复杂性在网络舆情社会网络中的体现,通过分析该社会网络模型各个网络参数随时间的变化及网络参数之间的对比可度量网络舆情行为的变化。网络舆情社会网络分析是研究网络舆情的简单明朗的研究视角之一,为分析网络舆情事件复杂性提供了有力工具,并使得通过分析网络舆情行为来识别网络舆情成为可能。
目前国内的舆情监控系统都将重点放在舆情的准确发现和分类归类方面,而对于如何刻画某个舆情事件中的舆情行为和分析舆情行为的变化并没有做深入的研究。这些监控系统对于舆情的发现可能会有很好的效果,因此适合给有关机构提供分析和咨询,但是由于其侧重于从文字内容方面发现和分类舆情,不能刻画某个舆情事件中的舆情行为和分析舆情行为的变化,如何及时准确地刻画网络舆情行为和分析网络舆情行为的变化成为一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能及时准确地了解网络舆论的基于社会网络的网络舆情行为分析方法。
为实现本发明目的,本发明的基于社会网络的网络舆情行为分析方法,包括以下步骤:
(1)、从互联网中采集网页文本并对其预处理,得到的文档存放到网页信息数据库;
(2)、对网页信息数据库中的文档进行聚类;
(3)、基于网页信息数据库中同一类别相关文档之间的关系建立待分析的网络舆情事件社会网络;
(4)、计算网络舆情事件社会网络参数随时间变化过程的数据并绘制网络参数曲线;
(5)、从网络参数曲线中切取出网络舆情事件的主爆发周期;
(6)、基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估;
(7)、输出结果;
进一步,为使本发明获得更好的发明效果,在上述步骤1中,通过网络爬虫从互联网中采集网页文本;通过信息提取单元对网页文本进行解析预处理,获取的标题、正文和发布时间信息组装成文档存放到网页信息数据库。
进一步,为使本发明获得更好的发明效果,在上述步骤2中,所述的对信息数据库中的文档进行聚类,具体做法是:
步骤201计算文档之间的相似度,根据如下公式:
<math><mrow><mi>Cos</mi><mrow><mo>(</mo><mi>X</mi><mo>,</mo><mi>Y</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>&Sigma;</mi><mi>i</mi></munder><msub><mi>x</mi><mi>i</mi></msub><mo>*</mo><msub><mi>y</mi><mi>i</mi></msub></mrow><msqrt><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msubsup><mi>x</mi><mi>i</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><msubsup><mi>y</mi><mi>i</mi><mn>2</mn></msubsup><mo>)</mo></mrow></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>
其中X,Y为文档,xi2,yi2分别对应的X,Y的特征向量。考虑到每一个文档代表的是一个类,每个类可能大小不同,那么它们所代表的权重也应该相应做出调整,调整的过程通过步骤202实现。
步骤202计算文档之间的吸引力,根据如下公式:
<math><mrow><mi>F</mi><mo>=</mo><mfrac><mi>mM</mi><msup><mi>r</mi><mn>2</mn></msup></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>
其中F代表文档之间的吸引力,m、M分别代表参与运算的两个文档所代表的类的总帖子数,r为文档之间相似度的倒数。
这样就能够求出所有文档与其它的文档的相似度。为了方便后续的计算,采用步骤203对结果进行标准化,得到两点之间的距离R。
步骤203首先计算所有吸引力的均值ave。对于所有低于ave的吸引力R=0,所有高于ave的值利用如下公式进行计算处理:
<math><mrow><mi>R</mi><mo>=</mo><mfrac><mi>ave</mi><mi>F</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow></math>
这样处理之后,能够保证,所有的距离R的值都为0到1之间,并且吸引力越大,距离出来的值就越小,文档就越相似。在得到了两点之间的距离之后就可以构造网络了。
进一步,为使本发明获得更好的发明效果,在上述步骤3中,所述的建立待分析的网络舆情事件社会网络,具体做法是:
步骤301在构造网络之前,首先需要对文档按照时间序列化,为了消除随机波动,对每天的文档进行滑动平均
<math><mrow><msub><mi>N</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mi>i</mi></mrow><mrow><mi>j</mi><mo>+</mo><mi>k</mi></mrow></munderover><msub><mi>n</mi><mi>j</mi></msub></mrow><mi>k</mi></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>
其中Ni代表第i天的文档数
步骤302网络中,每一个节点代表一个文档,如果两点之间的距离大于0,那么两点之存在一条边(无向边),并且边的权值为两点之间的距离。遍历每个节点直至完成网络构建。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的网络参数指的是自定义的网络参数,定义如下:
网络参数1:节点数量,反应当前时间网络上新增了多少关于所分析的事件的帖子。
网络参数2:网络直径,反应当前时间网络上新增帖子所构成的网络中,两点之前最短路径的最大值。
网络参数3:网络密度,反应当前时间网络上新增帖子所构成的网络中,实际存在的边与同等节点数量的完全图中的边的比。
网络参数4:簇系数,又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数。随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例。
网络参数5:结构熵,熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的计算网络舆情事件社会网络参数随时间变化过程的数据,具体做法是:
步骤401计算网络密度:网络密度是当前节点间存在的边数于同等数目节点的完全图中的边的比值。网络密度越大,说明网络中内容相似的节点越多。网络密度采用以下公式计算:
<math><mrow><mi>ND</mi><mo>=</mo><mfrac><mi>S</mi><mrow><mi>n</mi><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow></math>
其中ND为网络密度,n为节点数,S为实际的边数。
步骤402计算网络直径:反应当前时间,网络上新增帖子所构成的网络中,两点之间最短路径的最大值。网络直径的实际意义反应的是相关新闻中内容差距最大的两篇文档之间的“距离”。
步骤403计算簇系数:又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数。随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例。簇系数根据以下公式进行计算:
<math><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mn>2</mn><msub><mi>e</mi><mi>i</mi></msub></mrow><mrow><msub><mi>k</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>k</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow></math>
其中ki表示节点的度数,ei表示结点的邻结点之间实际存在的边数,随机网络的簇系数C为所有结点簇系数的算术平均值,即:
<math><mrow><mi>C</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>C</mi><mi>i</mi></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow></math>
步骤404计算结构熵:熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。定义T时刻传播网络的结构熵为:
<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>n</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow></math>
进一步,为使本发明获得更好的发明效果,在上述步骤4中,所述的绘制网络参数曲线,做法是分别计算搜集各个参数在某个时间段内的数据,绘制成相应的数据曲线。
进一步,为使本发明获得更好的发明效果,在上述步骤5中,所述的从网络参数曲线中切取出网络舆情事件的主爆发周期,目的是为了区分出不同的帖子数爆发周期,从而对每一个周期进行单独分析,该步骤为图1中的步骤ST5,具体流程图为图2。具体步骤如下:
步骤501遍历原始曲线,保留那些明显的转折点,用直线把这些转折点连起来形成折线图;
选择这些转折点的做法是:开始和结尾的点首先被选为关键点,然后从一个关键点开始,尝试用直线连接它和它后面的每一个点,直到中间有点与这条直线的距离超过给定的值d时,那个超出范围的点就被认为是一个新的关键点。接下来从这个新的关键点开始,重复上面的过程,直到曲线最后一个点。
步骤502在折线图上寻找每个周期开始和结束的位置,在折线图上遍历可以避免无关起伏的干扰;
步骤5021确认周期的开始
判断标准:当一段直线的斜率超过人为给定的阈值L时就判定周期开始。
步骤5022确认周期的结束
判断标准:周期开始后,满足下列两个条件之一就判断周期结束:
条件一.趋势的起伏在一个给定的标准范围d内,即选择转折点时给定的d,针对具体情况可以适当调整,并且这种平稳已经至少持续了一个给定的时间跨度minT,同时曲线的当前高度不应该高于周期开始时的2倍;
条件二.周期的长度已经超过了给定的最大限度maxT。
步骤503根据步骤5.22得到的周期的开始和结束位置切取周期。
后续的分析全是基于该步得到的周期进行的分析。如果得到多个周期,则分析整个曲线最大值所在的周期;如果存在多个最大值差别不大的周期,则使用结构熵判断主要爆发周期。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情为满足如下两个条件的网络事件:
条件一.参与讨论的新闻或者帖子数激增。
条件二.参与讨论的人发表的独立的观点。
所表现出来的网络行为是:帖子或者报道的新闻数量激增,同时网络密度下降,即网络密度变化与帖子数量变化负相关。
如果存在大量的帖子,但是都是通过转载的形式出现的话。那么表现在网络密度的形式,网络密度不变或者增加,这种情况明显不属于舆情,所以利用帖子数和网络密度两个条件来定义是否是舆情。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情事件紧急程度指的是自定义的紧急程度,定义如下:
红色舆情:是指参与讨论的帖子内容基本一致,并且负面意见居多,有可能引起更大规模的反动舆论浪潮的舆情。这类舆情危害性最大,需要立即处理。
橙色舆情:是指有大量的帖子参与讨论的舆情事件,且内容差距比较大,并且很有可能多次爆发的舆情。这类舆情由于没有形成统一的负面意见,所以危害性要小于红色舆情。但是由于很可能再次爆发,无法控制有可能向红色舆情转变,所以需要引导,从而将舆论引向正轨。
黄色舆情:是指有大量帖子参与,但是没有形成统一负面意见,有可能再次爆发舆情,但是可能性相对小于橙色舆情。所以危害性要小于橙色舆情,但是依然需要关注。
绿色舆情:是指有大量民众参与,但是形成了统一的正面意见,或者对事件的讨论进入尾声,很难再度爆发的舆情。这类舆情危害性很小。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的网络舆情行为特征库指的是通过大量的网络舆情事件观察和实验总结出来的四个网络参数规则,这些规则可用来对网络舆情事件进行分类和识别,具体参数规则内容是:
参数规则1.网络密度、通过观察爆发阶段网络密度的值来判断事件的属性。当网络密度范围为:
a)0-0.2之间称为广泛讨论事件。对应的实际情况是,大量的帖子或者新闻,从各个不同的角度讨论整个事件,说明时间引起了广泛的关注和讨论。
b)0.2-0.5之间称为平衡事件。对应实际情况是:对事件的讨论比较集中,虽然存在各个不同的版本,但是内容上比较一致。
c)0.5以上,称为内容统一事件。对应的实际情况是:对事件的讨论趋于统一。如果结合观点分析,当观点为正时,为绿色舆情事件;当观点为负时,为红色舆情事件。
参数规则2.网络直径、通过观察爆发阶段网络直径的变化可以判断出时间的部分属性。网络直径对应的实际意义是:当前的左右帖子中,相关的帖子里内容区别最大两个帖子。在爆发阶段,网络直径有两种情况:
a)维持稳定:对于维持稳定的情况,称为能量释放完全事件。也就是说,没有新的内容出现,那么之后,不容易出现再次爆发的情况。
b)发生波动:对于出现波动的情况,称为能量不完全释放事件。也就是说,继续出现新观点,或者旧观点的消亡。那么之后容易出现再次爆发的情况。
参数规则3.簇系数、簇系数反应的是“抱团”的程度,在爆发期间,簇系数的变化分为两种情况:
a)维持稳定,说明事件内部没有出现观点倾向性的变化。
b)发生增长,说明抱团程度加剧,证明事件内部观点开始发生集中。
参数规则4.结构熵、结构熵反应的是度分布的问稳定程度。结构熵越高,说明能量分布越均衡。在多次爆发的事件中,如果帖子数量在波峰都差不多,可以利用结构熵来判断主爆发。结构熵最高的波峰,为主爆发。
进一步,为使本发明获得更好的发明效果,在上述步骤6中,所述的基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估,该步骤为图1中的步骤ST6,具体流程图为图3,具体做法如下:
步骤601:考察帖子数量爆发时网络密度的变化情况,
a)网络密度变化趋势与帖子数量变化趋势正相关,那么定义为非舆情事件,并且结束分析。
b)网络密度变化趋势与帖子数量变化趋势负相关,那么定义为舆情事件,并且进入步骤602分析。
步骤602:结合网络舆情行为特征库分析网络密度;
步骤6021:考察爆发期网络密度的值,
a)网络密度的值小于0.2,属于广泛讨论事件,需要结合网络参数进一步分析。
b)网密度值高于0.5,定义为内容统一事件,结合观点分析,如果观点分析为负。那么定义为红色舆情事件,如果观点分析为正,定义为绿色舆情事件。
c)网络密度介于0.2-0.5那么进入步骤603分析。
步骤6022:当判断该事件为广泛讨论事件的时候,就根据爆发期间网络直径和簇系数的变化来区分舆情的紧急程度。
a)网络直径和簇系数不发生明显变化,那么认为该事件讨论范围和讨论的集群不再发生变化,可以理解为事件进入到发展阶段的末期,定义为黄色舆情事件。
b)网络直径和簇系数发生了明显的变化,可以认为事件发展并没有进入到末期,仍需要重点关注,定义为橙色舆情事件。
步骤603:首先区分是否是多次爆发的舆情,如果是多次爆发的舆情,利用结构熵找到主爆发,结构熵最大的一个爆发区间为主爆发区间;如果是单次爆发时间跳过这一步。直接进入步骤604。
步骤604:根据爆发期间网络直径和簇系数的变化来区分舆情的紧急程度。
a)网络直径和簇系数不发生明显变化,认为该事件讨论范围和讨论的集群不再发生变化,可以理解为事件进入到发展阶段的末期,不再会发生大幅的波动或者下一轮的爆发。定义为绿色舆情
b)网络直径发生变化,簇系数没有发生明显变化,认为,该时间的讨论范围在继续变化,那么事件发展还没有进入末期,之后又可能再次爆发。定义为黄色舆情。
c)网络直径和簇系数都发生了明显的变化,说明事件的讨论范围和观点集群都在发生变化,那么认为该事件极有可能再度爆发。定义为橙色舆情。
本发明提出了一种基于社会网络的网络舆情行为分析方法,首先基于网络新闻或者帖子之间的相似度建立起一个社会网络,然后通过分析社会网络参数随时间的变化,以及参数之间的对比,自动的实现网络舆情的识别和网络舆情事件紧急程度的评估,使得政府能够更有效的监控和管理网络舆论。本发明通过网络舆情行为分析的方式不但可以有效地发现网络中的舆情信息,还可以对网络舆情事件的紧急程度评估进行有效的评估,弥补了以往舆情系统只能从文字内容方面分析舆情,而不能做网络舆情行为分析的不足。
附图说明
图1是本发明一种基于社会网络的网络舆情行为分析方法的整体流程图。
图2是图1所示的基于社会网络的网络舆情行为分析方法中,步骤ST5切取周期的流程图。
图3是图1所示的基于社会网络的网络舆情行为分析方法中,步骤ST6参数分析的流程图。
具体实施方式
为进一步理解本发明的基于社会网络的网络舆情行为分析方法,下面列举具体实例进行详细说明。
首先从互联网中通过爬虫采集网页文档并对其预处理,然后对得到的信息文档进行聚类,聚类结果包含三个网络事件文档集:杭州飙车案文档集、某某某出访文档集和贵州习水案文档集。
分别针对这三个网络事件进行构建社会网络、计算网络参数、绘制参数曲线、切取曲线主爆发周期(斜率阈值为3)等步骤得到各自的节点趋势和网络密度趋势对比图、网络直径趋势图和簇系数趋势图,特征库里面的参数规则进行后续的网络舆情行为分析。

Claims (7)

1.一种基于社会网络的网络舆情行为分析方法,包括以下步骤:
(1)、从互联网中采集网页文本并对其预处理,得到的文档存放到网页信息数据库;
(2)、对网页信息数据库中的文档进行聚类;
(3)、基于网页信息数据库中同一类别相关文档之间的关系建立待分析的网络舆情事件社会网络;
(4)、计算网络舆情事件社会网络参数随时间变化过程的数据并绘制网络参数曲线;
(5)、从网络参数曲线中切取出网络舆情事件的主爆发周期;
(6)、基于网络舆情行为特征库和主爆发周期的参数曲线进行网络舆情识别和网络舆情事件紧急程度评估;
(7)、输出结果。
2.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(1)的具体实现方法为:通过网络爬虫从互联网中采集网页文本;通过信息提取单元对网页文本进行解析预处理,获取的标题、正文和发布时间信息组装成文档存放到网页信息数据库。
3.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(4)所述的网络参数指的是自定义的网络参数,定义如下:
网络参数1:节点数量,反应当前时间网络上新增了多少关于所分析的事件的帖子;
网络参数2:网络直径,反应当前时间网络上新增帖子所构成的网络中,两点之前最短路径的最大值;
网络参数3:网络密度,反应当前时间网络上新增帖子所构成的网络中,实际存在的边与同等节点数量的完全图中的边的比;
网络参数4:簇系数,又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数,随机图中的结点的簇系数以描述的是随机网络中与该结点直接相连的结点之间的连接关系,即与该结点直接相邻的结点间实际存在的边数目占最大可能存在的边数的比例;
网络参数5:结构熵,熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀。
4.根据权利要求1或3所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(4)所述的计算网络舆情事件社会网络参数随时间变化过程的数据,具体做法是:
步骤4.1计算网络密度:网络密度是当前节点间存在的边数于同等数目节点的完全图中的边的比值,网络密度越大,说明网络中内容相似的节点越多,网络密度采用以下公式计算:
<math><mrow><mi>ND</mi><mo>=</mo><mfrac><mi>S</mi><mrow><mi>n</mi><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac></mrow></math>
其中ND为网络密度,n为节点数,S为实际的边数;
步骤4.2计算网络直径:反应当前时间,网络上新增帖子所构成的网络中,两点之间最短路径的最大值,网络直径的实际意义反应的是相关新闻中内容差距最大的两篇文档之间的“距离”;
步骤4.3计算簇系数:又称作聚集系数,它衡量的是随机网络的集团化程度,是随机网络的一个重要参数,簇系数根据以下公式进行计算:
<math><mrow><msub><mi>C</mi><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mn>2</mn><msub><mi>e</mi><mi>i</mi></msub></mrow><mrow><msub><mi>k</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>k</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac></mrow></math>
其中ki表示节点的度数,ei表示结点的邻结点之间实际存在的边数,随机网络的簇系数C为所有结点簇系数的算术平均值,即:
<math><mrow><mi>C</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>C</mi><mi>i</mi></msub></mrow></math>
步骤4.4计算结构熵:熵是系统能量的一种度量,可以表示系统所处的状态是否稳定以及其变化的方向,熵越大,系统能量分布越均匀,定义T时刻传播网络的结构熵为:
<math><mrow><mi>H</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>n</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn></mrow></munderover><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow></math>。
5.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情为满足如下两个条件的网络事件:1、参与讨论的新闻或者帖子数激增;2、参与讨论的人发表的独立的观点;所表现出来的网络行为是:帖子或者报道的新闻数量激增,同时网络密度下降,即网络密度变化与帖子数量变化负相关。
6.根据权利要求1所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情事件紧急程度指的是自定义的紧急程度,定义如下:
红色舆情:是指参与讨论的帖子内容基本一致,并且负面意见居多,有可能引起更大规模的反动舆论浪潮的舆情,这类舆情危害性最大,需要立即处理;
橙色舆情:是指有大量的帖子参与讨论的舆情事件,且内容差距比较大,并且很有可能多次爆发的舆情,这类舆情由于没有形成统一的负面意见,所以危害性要小于红色舆情,但是由于很可能再次爆发,无法控制有可能向红色舆情转变,所以需要引导,从而将舆论引向正轨;
黄色舆情:是指有大量帖子参与,但是没有形成统一负面意见,有可能再次爆发舆情,但是可能性相对小于橙色舆情,所以危害性要小于橙色舆情,但是依然需要关注;
绿色舆情:是指有大量民众参与,但是形成了统一的正面意见,或者对事件的讨论进入尾声,很难再度爆发的舆情,这类舆情危害性很小。
7.根据权利要求1或6所述的一种基于社会网络的网络舆情行为分析方法,其特征在于,步骤(6)所述的网络舆情行为特征库,指的是通过大量的网络舆情事件观察和实验总结出来的四个网络参数规则,这些规则用来对网络舆情事件进行分类和识别,具体参数规则内容是:
参数规则1.网络密度、通过观察爆发阶段网络密度的值来判断事件的属性,当网络密度范围为:
a)0-0.2之间称为广泛讨论事件,对应的实际情况是,大量的帖子或者新闻,从各个不同的角度讨论整个事件,说明时间引起了广泛的关注和讨论,
b)0.2-0.5之间称为平衡事件,对应实际情况是:对事件的讨论比较集中,虽然存在不同的版本,但是内容上比较一致,
c)0.5以上,称为内容统一事件,对应的实际情况是:对事件的讨论趋于统一,如果结合观点分析,当观点为正时,为绿色舆情事件;当观点为负时,为红色舆情事件,
参数规则2.网络直径、通过观察爆发阶段网络直径的变化可以判断出时间的部分属性,网络直径对应的实际意义是:当前的左右帖子中,相关的帖子里内容区别最大两个帖子,在爆发阶段,网络直径有两种情况:
a)维持稳定:对于维持稳定的情况,称为能量释放完全事件,也就是说,没有新的内容出现,那么之后,不容易出现再次爆发的情况,
b)发生波动:对于出现波动的情况,称为能量不完全释放事件,也就是说,继续出现新观点,或者旧观点的消亡,那么之后容易出现再次爆发的情况,
参数规则3.簇系数、簇系数反应的是“抱团”的程度,在爆发期间,簇系数的变化分为两种情况:
a)维持稳定,说明事件内部没有出现观点倾向性的变化,
b)发生增长,说明抱团程度加剧,证明事件内部观点开始发生集中,
参数规则4.结构熵、结构熵反应的是度分布的问稳定程度,结构熵越高,说明能量分布越均衡,在多次爆发的事件中,如果帖子数量在波峰都差不多,可以利用结构熵来判断主爆发,结构熵最高的波峰,为主爆发。
CN201810451700.0A 2018-05-12 2018-05-12 一种基于社会网络的网络舆情行为分析方法 Withdrawn CN108763335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810451700.0A CN108763335A (zh) 2018-05-12 2018-05-12 一种基于社会网络的网络舆情行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810451700.0A CN108763335A (zh) 2018-05-12 2018-05-12 一种基于社会网络的网络舆情行为分析方法

Publications (1)

Publication Number Publication Date
CN108763335A true CN108763335A (zh) 2018-11-06

Family

ID=64010431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810451700.0A Withdrawn CN108763335A (zh) 2018-05-12 2018-05-12 一种基于社会网络的网络舆情行为分析方法

Country Status (1)

Country Link
CN (1) CN108763335A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN103279887A (zh) * 2013-04-26 2013-09-04 华东师范大学 一种基于信息理论的微博传播可视化分析方法与系统
CN103838806A (zh) * 2013-10-10 2014-06-04 哈尔滨工程大学 一种社会网络用户参与主题行为分析方法
CN105183743A (zh) * 2015-06-29 2015-12-23 临沂大学 一种微博舆情传播范围预测的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853261A (zh) * 2009-11-23 2010-10-06 电子科技大学 一种基于社会网络的网络舆情行为分析方法
CN103279887A (zh) * 2013-04-26 2013-09-04 华东师范大学 一种基于信息理论的微博传播可视化分析方法与系统
CN103838806A (zh) * 2013-10-10 2014-06-04 哈尔滨工程大学 一种社会网络用户参与主题行为分析方法
CN105183743A (zh) * 2015-06-29 2015-12-23 临沂大学 一种微博舆情传播范围预测的方法

Similar Documents

Publication Publication Date Title
Yu et al. From micro to macro: Uncovering and predicting information cascading process with behavioral dynamics
CN101853261A (zh) 一种基于社会网络的网络舆情行为分析方法
CN104216954B (zh) 突发事件话题状态的预测装置及预测方法
CN104991956B (zh) 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
Ghosh et al. A framework for quantitative analysis of cascades on networks
Jin et al. An improved ID3 decision tree algorithm
Bigonha et al. Sentiment-based influence detection on Twitter
CN110825948B (zh) 基于促谣-辟谣消息和表示学习的谣言传播控制方法
US10535041B2 (en) System and method of predicting community member responsiveness
CN112256981B (zh) 一种基于线性和非线性传播的谣言检测方法
CN103179198B (zh) 基于多关系网络的话题影响力个体挖掘方法
CN103426042A (zh) 社交网络的分组方法及系统
Li et al. Novel user influence measurement based on user interaction in microblog
Wang et al. Online rumor propagation of social media on NIMBY conflict: Temporal patterns, frameworks and rumor-mongers
CN115222303B (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN103838806B (zh) 一种社会网络用户参与主题行为分析方法
CN108833139A (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN104881797A (zh) 特征属性的构建方法
Xu et al. DEA evaluation method based on interval intuitionistic Bayesian network and its application in enterprise logistics
CN103793747A (zh) 网络内容安全管理中一种敏感信息模板构建方法
CN116307724A (zh) 一种基于复杂网络的产业链风险传播方法和系统
Sun et al. Large-scale group classification decision making method and its application with trust–interest dual factors in social network
Ye et al. Hofa: Twitter bot detection with homophily-oriented augmentation and frequency adaptive attention
CN112860973A (zh) 基于社交网络分析的组织健康评估方法
CN108763335A (zh) 一种基于社会网络的网络舆情行为分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181106

WW01 Invention patent application withdrawn after publication