CN101408883B

CN101408883B - 一种网络舆情观点收集方法

Info

Publication number: CN101408883B
Application number: CN2008101476452A
Authority: CN
Inventors: 高辉; 傅彦; 佘莉; 田军伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2008-11-24
Filing date: 2008-11-24
Publication date: 2010-09-01
Anticipated expiration: 2028-11-24
Also published as: CN101408883A

Abstract

本发明公开了一种网络舆情观点收集方法，通过在网络论坛中提取热点词，根据热点词提取相关的信息文档，构成该热点词相关的热点事件文档集，并对其中的关键句进行聚类，得到某一热点事件的多个观点主题句集，然后通过建立不同类别的情感词库，对观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，得到某一热点事件的网络舆情观点，从而实现了网络舆情观点的收集。本发明不但可以有效地发现网络中的舆情信息，还可以针对具体的舆情信息能及时准确地提取网民观点，弥补了以往舆情系统只能发现舆情信息，而不能做观点分析的不足。

Description

一种网络舆情观点收集方法

技术领域

本发明涉及网络信息处理技术领域，具体来讲，涉及一种网络舆情观点收集方法。

背景技术

网络舆情

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点，主要通过BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点，越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量，会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善，负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说，如何加强对网络舆论的及时监测、有效引导，以及对网络舆论危机的积极化解，对维护社会稳定、促进国家发展具有重要的现实意义，也是创建和谐社会的应有内涵。

因此，对网络舆情观点进行收集具有相当重要的意义，在一个热点事件的发展过程中网民观点起着至关重要的作用，甚至可以被认为是网络舆情的核心。

目前已经有很多单位针对舆情监控提出了一些不同的解决方案。

谷尼国际软件开发的Goonie互联网舆情监控系统通过对互联网海量信息自动获取，自动聚类，主题检测，专题聚焦，实现网络舆情监测和新闻专题追踪，形成简报、分析报告等结果，为全面掌握舆情动态提供分析依据。该系统通过内容抽取识别，相似性去重等技术，可以获取网络中的热点话题和敏感话题，可以根据统计等策略，分析在不同时间内人们对不同主题的关注程度，并预测事件的发展趋势。

中科点击开发的军犬网络舆情监控系统使用强大的采集软件，对数千网站进行监控，可以自动获取舆情信息的热度，并生成报表，同时可以获取热点主题的浏览量，回复数，并跟踪发帖人，对舆情信息进行管理，标注和分类，并根据重要性对舆情信息进一步筛选和过滤。

北京拓尔思信息技术股份有限公司开发的TRS网络舆情监控系统采用多种技术，实现对舆情信息的精准和全面采集，同时综合运用大规模文本智能挖掘技术，实现对海量舆情信息的准确、高效分析和管理。

北大方正技术研究院开发的方正智思网络舆情互联网信息监控分析系统整合互联网搜索技术及信息智能处理技术等，通过对网络信息进行自动抓取，自动分类聚类，主题检测，专题聚焦等方法，实现网络舆情监控和新闻专题追踪等功能。

通过对上面几个国内知名的舆情监控系统的分析发现：目前国内的舆情监控系统都将重点放在舆情的准确发现和分类归类方面，而对于某个舆情事件中人们所持的观点和看法并没有做深入的研究。这些监控系统对于舆情的发现可能会有很好的效果，因此适合给有关机构提供分析和咨询，但是由于其侧重于发现和分类方面，不能及时准确地了解网民的观点，如何及时准确地收集网民对热点事件的观点成为一个亟待解决的问题。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种能及时准确地了解网民观点的网络舆情观点收集方法。

为实现上述目的，本发明的网络舆情观点收集方法，包括以下步骤：

(1)、从网络论坛中抓取网页，将其信息文档保存到爬虫数据库中；

(2)、从爬虫数据库中的信息文档中提取出热点词，根据热点词，提取热点词相关的信息文档，构成该热点词相关的热点事件文档集；

(3)、在热点事件文档集中，提取信息文档中的关键句，构成关键句集，在提取关键句过程中，在该关键句句末添加网民的身份标记，以标记该关键句的所属用户；

(4)、对关键句集中的关键句进行聚类，对聚类结果按每类句子数目对其排序，取最高的前M类，形成M类观点主题句集；

(5)、建立不同类别的情感词库，情感词库中的每一个词语对应一个权值，对M类观点主题句集分别标注其对应的情感词库，然后依据情感词库，分别对M类观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，从而得到某一热点事件的网络舆情观点。

本发明通过在网络论坛中提取热点词，根据热点词提取相关的信息文档，构成该热点词相关的热点事件文档集，并对其中的关键句进行聚类，得到某一热点事件的多个观点主题句集，然后通过建立不同类别的情感词库，对观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，得到某一热点事件的网络舆情观点，从而实现了网络舆情观点的收集。本发明不但可以有效地发现网络中的舆情信息，还可以针对具体的舆情信息能及时准确地提取网民观点，弥补了以往舆情系统只能发现舆情信息，而不能做观点分析的不足。

附图说明

图1是本发明网络舆情观点收集方法一种具体实施方式的整体流程图；

图2是图1所示的网络舆情观点收集方法中，步骤ST2热点事件文档集提取流程图；

图3是图1所示的网络舆情观点收集方法中，步骤ST3关键句集提取流程图；

图4是图1所示的网络舆情观点收集方法中，步骤ST5观点提取流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，需要特别提醒注意的是，在以下的描述中，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这儿将被忽略。

图1是本发明网络舆情观点收集方法一种具体实施方式的整体流程图。

在本实施例中，网络舆情观点收集方法包括以下步骤：

(1)、从网络论坛中抓取网页，将其信息文档保存到爬虫数据库中。在本实施例中，根据需要抓取网页的网络论坛建立网络论坛列表，网络爬虫，即定时定量地抓取网页，下载符合要求的信息文档并保存到爬虫数据库中。该步骤为图1中的步骤ST1，目的是提取需要的信息文档；

(2)、从爬虫数据库中的信息文档中提取出热点词，根据热点词，提取热点词相关的信息文档，构成该热点词相关的热点事件文档集；该步骤为图1中的步骤ST2，经过步骤ST2后得到热点事件文档集；

(3)、在热点事件文档集中，提取信息文档中的关键句，构成关键句集，在提取关键句过程中，在该关键句句末添加网民的身份标记，以标记该关键句的所属用户；该步骤为图1中的步骤ST3，经过步骤ST3后得到关键句集；

(4)、对关键句集中的关键句进行聚类，对聚类结果按每类句子数目对其排序，取最高的前M类，形成M类观点主题句集；该步骤为图1中的步骤ST4，经过步骤ST4后得到观点主题句集；

(5)、建立不同类别的情感词库，情感词库中的每一个词语对应一个权值，对M类观点主题句集分别标注其对应的情感词库，然后依据情感词库，分别对M类观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，从而得到某一热点事件的网络舆情观点；该步骤为图1中的步骤ST5，经过步骤ST5后得到某一热点事件的网络舆情观点。

图2是图1所示的网络舆情观点收集方法中，步骤ST2热点事件文档集提取流程图。在本实施例中，步骤ST2包括两个步骤，即步骤ST201，提取热点词和步骤ST202，查找出每个热点词相对应的所有文档。

步骤ST201：从信息文档中提取出所有的热点词，形成热点词列表，其中的一个热点词对应一个热点事件。

以往热点词多是基于词频来提取，即只考虑了词语的流行性。而在实际的论坛中，很多时候话题会出现漂移的现象：即一个话题讨论到后面转到了另外的话题上，这时通过词频就不能准确地反映网民的关注对象和态度。在本实施例中，热点词的提取考虑了词语的流行性和时事性两个方面。其中流行性是指词语在信息文档中的频度，而时事性则考虑的是一段时间内词语频度的变化情况，通过这两个属性的结合可以准确地找到当前的热点词。

词语流行性的算法如下：

W_{j} = Σ_{c = 1}^{N} \frac{F_{jc}}{\sqrt{Σ_{k = 1}^{K} F_{kc}^{2}}} e^{(\frac{n_{jc}}{N_{c}})}

其中，W_j表示词语j的流行性权重，F_jc是词语j在论坛c中出现的次数，n_jc是论坛c中包含了词语j的文档数目，N_c是论坛c中的文档总数，K是论坛c中使用的词语总数，F_kc是词语k在论坛c中出现的次数，而N是论坛数。在本实施例中，网络论坛为新浪、搜狐等网络论坛。

词语时事性的算法如下：

首先要计算词语j在论坛c中的关联度，一个词语j在特定的时间段内在某一特定论坛上出现的频率越高，其权重越大。词语j在论坛c中的关联度可通过卡方公式来计算：

W_{j, c} = \frac{(A + B + C + D) \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中，A是词语j在时间段S中在论坛c中出现的次数，B是词语j在时间段S中在其他论坛出现的次数，C是词语j在时间段S以外在论坛c上出现的次数，D是词语j在时间段S以外在其他论坛出现的次数。

词-语时事性的权重通过如下公式计算：

V_{j} = \sqrt{\frac{1}{N} Σ_{c = 1}^{N} \ln {(W_{j, c} - \overset{&OverBar;}{W_{j, c}})}^{2}}

其中N为媒体数；

词语j的权重定义为上述两项的加权和：

WT_j＝α*W_j+(1-α)*V_j

其中α为调整参数，用于调整流行性和时事性的比例，是一经验常量。

根据词语j的权重，在信息文档中提取词语，提取的词语即为热点词，形成热点词列表。

步骤ST202：依据热点词列表中的热点词，从爬虫数据库中查找包含某一热点词的所有信息文档，构成该热点词相关的热点事件文档集。在本实施例中，提取出的热点词有多个，所以形成多个热点事件文档集，。

图3是图1所示的网络舆情观点收集方法中，步骤ST3关键句集提取流程图。在本实施例中，步骤ST3关键句集提取包括两个步骤，即步骤ST301，提取关键词并过滤和步骤ST302，匹配搜索关键词所在句子。

步骤ST301：在热点事件文档集中，提取关键词并进行过滤，得到关键词列表。

在本实施例中，关键词主要是通过基于词频统计的方法来提取，方法同步骤ST201所述的词语流行性的算法，提取后按照计算得到的权重对词语进行排序，对排序靠前的关键词进行人工过滤，滤出其中不需要的噪声词，过滤后剩下的关键词构成该热点事件的关键词列表。

步骤302：利用关键词列表在热点事件文档集中匹配搜索关键词所在的句子，得到关键句集。

在拆分句子时，在该关键句句末添加网民的身份标记，以标记该关键句的所属用户，以便于后续步骤情感倾向值的计算。

在本实施例中，步骤ST4：对关键句集中的关键句进行聚类，具体方法为：

将关键句中的名词和动名词挑选出来作为特征词，每个特征词作为特征向量的一维，如果关键句中含有该特征词，则该维特征值取1，否则取0。由此得到每个关键句的特征向量。

得到每个关键句的特征向量后，计算任意两个关键句

之间的相似度，相似度是通过对特征向量采取余弦相似度的算法得到的：

sim (\overset{&RightArrow;}{i}, \overset{&RightArrow;}{j}) = \frac{\overset{&RightArrow;}{i} \cdot \overset{&RightArrow;}{j}}{| \overset{&RightArrow;}{i} | | \overset{&RightArrow;}{j} |}

两个向量之间的相似度越大，表明两个关键句越相似，其属于同一类别，即观点主题的概率就越大。

根据该相似度

对关键句进行聚类，这些类别中可能存在一个或多个类讨论的是相同主题的内容，但是通过聚类时的阈值设定，可以尽量保证同一个类别中的关键句都是针对同一个观点主题。

对聚类结果按每类句子数目对其排序，取最高的前M类，形成M类观点主题句集。

在本实施例中，步骤ST5观点提取包括以下步骤：

步骤ST501：建立不同类别的情感词库，情感词库中的每一个词语对应一个权值。考虑情感词的权值在不同观点主题下是不同的，情感词库采用分类存储的方式，包含教育、食品等不同类别。以下是一个情感词库的构成列表：

类型	标签	权值	词语举例
类型	标签	权值	词语举例	褒义形容词	aj	1	好，美丽
贬义形容词	dj	-1	差，丑陋	褒义形容词	aj	1	好，美丽
贬义形容词	dj	-1	差，丑陋	强烈副词	ad	2	极大地
普通副词	dd	0.5	较好地	强烈副词	ad	2	极大地
普通副词	dd	0.5	较好地	褒义动词	av	1	推动，促进
贬义动词	dv	-1	导致，破坏	褒义动词	av	1	推动，促进
贬义动词	dv	-1	导致，破坏	褒义名词	an	1	快乐，优点
贬义名词	dn	-1	人渣，缺点	褒义名词	an	1	快乐，优点
贬义名词	dn	-1	人渣，缺点	转义词语	mr	-1	没有，不

表1

步骤ST502：对M类观点主题句集分别标注其对应的情感词库，然后依据情感词库，分别对M类观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值。

若所提取的情感词在对应的情感词库中不存在，就将其放到候选情感词库中，对候选词库进行手工筛选并标注情感倾向权值，将符合要求的情感词添加到情感词库中的相应类别中，因此情感词库是动态增长的。

关键句的情感倾向是通过句中标记的情感词的权值来计算，计算规则如下：

首先将句中相邻的相同词性的情感词，包括形容词、动词、名词和副词进行合并，合并方法是对词语的权值应用加法规则；

然后对下面几种情况采用乘法规则进行合并：

1)相邻的转义词语之间采用乘法规则；

2)副词和其修饰的形容词采用乘法规则；

3)副词和其修饰的动词采用乘法规则；

4)形容词和其修饰的名词采用乘法规则；

最后将剩下的权值应用加法规则得到一个关键句的情感倾向值。

步骤ST503：依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，从而得到某一热点事件的网络舆情观点。

1)计算每个网民对抽象观点的情感倾向值

根据关键句末尾的网民的身份标记可以找到属于某个用户，即网民的所有关键句集，根据情感倾向值计算规则得到每一个关键句的情感倾向值，将该网民所有的关键句情感倾向值相加得到最终的结果p_i(i∈P，P为用户集)为该网民的情感倾向值。

2)将1)中得到的每个网民的情感倾向值p_i添加到统计结果中，最终得到该网民对某一热点事件的一个观点主题的态度。每个网民对一个观点主题只能投一票，投票规则如下：

其中，p_i是根据表1所示的情感词库依据步骤ST502的方法计算得到的，按照此方法可以得到M个观点主题下网民的情感倾向值。

步骤ST504：将M个观点主题中相同内容的观点进行合并，并从而得到某个舆情事件的所有主要观点及网民的态度。

具体实例

为进一步理解本发明的网络舆情观点收集方法，下面举一具体实例：

(1)：从新浪，网易，搜狐三大主流网站的论坛抓取网页，将信息文档保存到爬虫数据库中

(2)：从爬虫数据库中的信息文档中选出热点事件文档集：

首先使用基于流行性和时事性结合的算法从信息文档中提取热点词，最终提取了“三聚氰胺”、“三鹿奶粉”等50个热点词。从信息文档中分别将50个热点词的对应文档抽取出来，50个热点事件文档集；

(3)：针对每一热点事件文档集，取出其中的关键句集合：

以热点事件中的“三鹿奶粉”事件为例，使用词频统计的方法从“三鹿奶粉”热点事件文档集中提取关键词，该算法将文档中提取的每个关键词赋予一个权值，对该权值进行排序，取前100个关键词，然后进行手工过滤，滤出其中不需要的噪声词，最终得到：“三鹿奶粉”、“三聚氰胺”、“监管不力”等80个关键词。然后使用这80个关键词匹配“三鹿奶粉”热点事件文档集的句子，将包含关键词的句子抽取出来，抽取过程中在句子末尾添加其所属用户的网民的身份标记，抽取出的所有句子构成了“三鹿奶粉”热点事件的关键句集；

步骤4：对“三鹿奶粉”热点事件的关键句集进行聚类，将聚类结果按每类句子的数目进行排序，取最高的前10类，这10类中包含数目最多的有3242个关键句，数目最少的有840个关键句。

步骤5：获取这10类中的抽象观点及网民支持或反对程度：

以其中的第一类为例，首先标注其所属类别为食品类，其观点主题为“完善食品监管机制”，提取该类别下的特征词，即名词和情感词，即形容词、副词和动词等，如：“监管机制”、“管理体系”、“相当差”、“极不完善”、“太危险了”等词语。查找词库中食品类是否包含了提取的情感词，若包含，则不做处理；否则，将情感词添加到候选词库中，待所有情感词添加完毕，对候选词库进行人工筛选，将符合该类别特征的情感词添加到情感词库的食品类中。情感词库是按照分类存储的方式进行存储，其中包含教育、食品等类别。每个类别中的词按照词性进行分类存储，每个类别具有一个权值，如表1所示。然后根据情感词库标注关键句，分析该类中每个关键句的情感倾向值，将一个用户，即网民发言的所有情感倾向值相加，可以得到一个用户的情感倾向值，对所有人的情感倾向值进行综合统计从而得到最终的结果。

将10个观点主题中相同内容的观点进行合并，在“三鹿奶粉”热点事件中，有四个观点主题：

1)完善食品监管机制；

2)政府必须公开处理此类事件的处理过程和结果；

3)构建和完善政府的责任分管机制；

4)加强道德和法律方面的教育。

通过对网民发言的分析，可以看到43％的人参与了观点1)的讨论，参与讨论的人中，90％的人表达了消极负面的意见，即表示目前的食品监管机制很差，亟待完善；9％的人参与了观点2)的讨论，其中30％的人认为政府处理此类时间比较公开，60％的人表达了负面意见，即希望政府可以进一步公开处理类似的舆情事件；21％的人参与了观点3)的讨论，其中68％的人表达负面意见，希望政府可以加强相关的管理，完善责任；16％的人参与了观点4)的讨论，其中80％的人表达负面意见，即认为道德和法律相关教育有待加强。

一般可以认为超过75％的人支持的观点为舆情观点，通过对舆情观点的研究可以及时准确地了解网民关注的热点和态度，从而为有关部门的决策和对舆情事件的处理和后续工作提供优先级排序，保证有关部门可以快速准确地处理舆情事件。同时根据网民关注的热点和态度，我们还可以进一步研究网民的受教育水平等综合素质。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种网络舆情观点收集方法，包括以下步骤：

(5)、建立不同类别的情感词库，情感词库中的每一个词语对应一个权值，对M类观点主题句集分别标注其对应的情感词库，然后依据情感词库，分别对M类观点主题句集中的关键句的情感词进行情感标记，然后根据情感标记计算出每个关键句的情感倾向值，再依据关键句的网民的身份标记，计算出每个网民在该观点主题下的情感倾向值，从而得到某一热点事件的网络舆情观点；

其中，所述的根据情感标记计算出每个关键句的情感倾向值为通过关键句中标记的情感词的权值来计算，计算规则如下：

然后对下面几种情况采用乘法规则进行合并：

1)相邻的转义词语之间采用乘法规则；

2)副词和其修饰的形容词采用乘法规则；

3)副词和其修饰的动词采用乘法规则；

4)形容词和其修饰的名词采用乘法规则；

2.根据权利要求1所述的网络舆情观点收集方法，其特征在于，步骤(2)所述的提取出热点词，其步骤为：

首先计算出词语流行性权重和时事性权重，然后根据词语流行性权重和时事性权重在信息文档中提取词语，提取的词语即为热点词；

所述的词语流行性权重的计算方法为：