CN104899335A

CN104899335A - 一种对网络舆情信息进行情感分类的方法

Info

Publication number: CN104899335A
Application number: CN201510359172.2A
Authority: CN
Inventors: 刘念
Original assignee: Sichuan You Lian Information Technology Co Ltd
Current assignee: Sichuan You Lian Information Technology Co Ltd
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2015-09-09

Abstract

本发明公开了一种对网络舆情信息进行情感分类的方法，包括以下步骤：(1)对网络舆情信息的文章进行中文分词；(2)将分词后的词汇输入神经网络；(3)计算出所述文章的正负面性完成情感分类。本发明的方法采用了中文分词系统对网络舆情信息的目标文章进行中文分词，采用神经网络进行情感分类，分类有效性和准确率高，适用于网上海量舆情信息的情感自动分类处理。

Description

一种对网络舆情信息进行情感分类的方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种对网络舆情信息进行情感分类的方法。

背景技术

互联网舆情,或者称为网络舆情,是一个伴随着近半个多世纪计算机信息技术的发展和近二十年互联网的出现和普及而逐渐浮出水面的一个全新概念。互联网舆情由两个概念结合而成--互联网(Internet)和舆情(Public Opinion)。

互联网的开放性、全球性、即时性、广泛性、海量性、互动性、平等性、低成本性和多媒体性等诸多特点决定了对于普通民众而言,遍布全球每一个角落的、触手可及的互联网是最佳的观点表达和传播媒介,愈来愈多的普通民众倾向于通过网络,而不是报纸(newspaper)、杂志(magazine)、广播(broadcast)或电视(television),来表达自己在自由言论方面的诉求。

根据针对我国的实际情况所展开的相关分析和研宄可知,我国国内的互联网舆情的表现形式和承载平台主要有以下四种:

(1)BBS论坛,包括社会论坛(天涯)、高校论坛(水木)、主题论坛(强国论坛)和地方论坛(深圳人)等等；

(2)博客,包括新浪博客、百度空间、搜狐博客、北邮人博客、腾讯空间等在内的各式各样的个人博客和名人博客；

(3)新闻及新闻跟帖,包括新浪新闻、搜狐新闻、腾讯新闻、网易新闻等大塑门户网站的新闻栏目及每条新闻后面的跟帖和回复；

(4)微博和社交网络,包括新浪微博、搜狐微博、新华微博、腾讯微博等微博和幵心网、人人网等SNS社交网络平台上网民的言论、评论、回复、转发、分享等内容。

近年来，网络舆情对政治生活秩序和社会稳定的影响与日俱增，一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，网络舆情突发事件如果处理不当，极有可能诱发民众的不良情绪，引发群众的违规和过激行为，进而对社会稳定构成威胁。此外企业自身的舆情信息的正负面性判别对于企业本身有着重要意义。对于网络舆情的上述特点，对现实中出现的各种网络舆论，应能做出及时反馈，防微杜渐，防患于未然。因此，必须利用现代信息技术对网络舆情予以分析，从而进行控制和引导。由于网上的信息量十分巨大，仅依靠人工的方法难以应对网上海量信息的收集和处理，需要自动化的网络舆情分析方法，及时应对网络舆情。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种基于对网络舆情信息进行情感分类的方法，采用汉语词法分析系统——ICTCLAS对文本进行分词，保留名词，动词和形容词来作为特征，以χ²统计来选择特征，然后用BP神经网络分类器进行情感分类。

为了实现上述发明目的，本发明提供了以下技术方案：

一种对网络舆情信息进行情感分类的方法，包括以下步骤：

(1)对网络舆情信息的文章进行中文分词；

(2)将分词后的词汇输入神经网络；

(3)计算出所述文章的正负面性完成情感分类。

优选的，所述中文分词采用ICTCLAC中文分词系统。

优选的，所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词，保留名词、动词和形容词作为特征。

优选的，所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词，保留名词、动词和形容词作为特征之后、输入神经网络之前还包括特征选择步骤。

优选的，所述特征选择步骤具体为：采用文档频率、χ2统计、信息增益或互信息方法，选择所需的特征作为神经网络的输入。

优选的，所述神经网络为BP神经网络。

优选的，所述BP神经网络为3层或大于3层的前馈型BP网络。

优选的，所述BP神经网络为经过训练的BP神经网络，所述训练步骤如下：

a.通过网络爬虫技术爬取网络舆情信息的文章；

b.对爬取的文章通过ICTCLAC中文分词系统进行分词；

c.分词后采用χ²统计法进行文本特征选择，选择所需的中文词汇；

d.将爬取的文章进行文章正负面性的人工判别，判别文章是正面的，负面的，还是中性的；

e.将χ²统计法后选择的中文词汇出现的数量作为神经网络的输入，文章正负面性的判别结果作为神经网络的输出，对神经网络进行训练，计算出神经网络的各层权值。

与现有技术相比，本发明的有益效果：

1.本发明的方法采用了ICTCLAC中文分词系统对网络舆情信息的目标文章进行中文分词，χ²统计法进行特征选取，大大降低了文本特征空间的维数，提高了自动分类的效率；

2.本发明的方法采用BP神经网络进行情感分类，神经网络的各层权值可通过网络爬虫技术爬取网上文章进行训练得到，分类有效性和准确率高。

附图说明

图1为本发明BP神经网络的训练过程

图2为本发明方法的情感分类过程

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

如图2所示，本发明的对网络舆情信息进行情感分类的方法步骤如下：

(1)采用ICTCLAC中文分词系统对网络舆情信息的目标文章进行中文分词；

(2)将分词后的词汇按照BP神经网络的输入需求对每一个输入赋值；

(3)计算出所述文章的正负面性得到情感分类结果。

对目标文章进行情感分类前首先要对文章进行文本预处理，文本预处理主要包括分词处理，去停用词两个部分。为把文本形式化地表示，采用向量空间模型(Vector Space Model)把文本表示成N维向量，用词来表示文本的向量。中文是连续的字符串，为了抽取文本的词条，这就需要对中文文本进行分词处理。去停用词主要是去除那些对文章内容没有意义的词。由于在文章中名字、动词、形容词是最具有实际意义的词。这里采用中国科学院计算技术研究所的汉语词法分析系统ICTCLAS，该系统在分词的同时可以对词性进行标记。因此可以通过词性标记来去除无实际意义的词(助词、数词、语气词等等)，从而保留了能体现文章主题的词(名词、动词、形容词)。

为了提高情感分类效率可以进一步对ICTCLAS中文分词后的名词、动词、形容词作为特征进行特征选择，特征选择是一个降维的过程，即选取对文本分类最有意义的特征项从而减少特征空间的维数。虽然预处理后文本特征空间的维数有了一定的减少，但是仍然还是一个高维的特征空间。这么巨大的维度会导致后面自动分类的效率低下和分类效果的不佳等问题。特征选择的作用就很好的解决了这个问题从而保证分类的效率和效果。常用的特征选择方法有：文档频率(DF)、χ²统计(CHI)、信息增益(IG)、互信息(MI)等。本文我们采用χ²统计方法来做文本的特征选择。

χ²统计也称CHI平方统计,简称为CHI统计,因为英文单词Chi即表示希腊字母χ。CHI统计评估函数假定特征项t和文档类别c之间具有类似一阶自由度的χ²分布,度量了特征项t和文档类别c之间的相关程度，t和c之间χ²统计值χ²(t,c)计算公式如下：

公式中N表示文档集合的文档总数，A表示包含t且属于c类的文档频数，B表示包含t且不属于c类的文档频数，C表示不包含t且属于c类的文档频数，D表示不包含t且不属于c类的文档频数。CHI评估方法认为特征项t对文档类别C的χ²(t,c)统计值越高，其与该类之间的相关性就越大，表示的类别信息量就多。

在完成了中文分词和特征选择之后，采用BP神经网络对文本进行分类。

本发明的方法对舆情信息的判别过程分为BP神经网络的训练过程和BP神经网络的判别过程，具体如下：

BP神经网络的训练过程如图1所示，首先对某一专题的文章通过BBS论坛，博客，新闻等渠道通过网络爬虫技术爬取，对于爬取的文章通过ICTCLAC中文分词系统进行分词，分词后采用χ²统计(CHI)法进行文本特征选择，选择所需的中文词汇，将爬取的文章进行人工判断，判断文章是正面的，负面的，还是中性的，将χ²统计(CHI)法后选择的中文词汇出现的数量作为神经网络的输入，文章正负面性的判别结果作为神经网络的输出，对神经网络进行训练，计算出各层神经网络的权值，可以选择3层或3层以上的前馈型BP神经网络。

BP神经网络的判别过程是对一篇态度未知的文章进行正负面性态度的判别。首先对该文章进行中文分词，然后将分词后的词汇按照神经网络的输入需求对每一个输入赋值，最后计算出该文章的正负面性。

实验结果与分析：

(1)实验所用的语料是一个舆情项目给定的，其组成结构有200篇进行评论的文章，并人工将其每篇文章分为正面，负面和中性的，在训练数据和测试数据时，进行随机的二八分。

(2)实验评价标准

文本分类结果的有效性通常采用三个指标进行评估：精确率(Precision，简记为P)、召回率(Recall，简记为R)和F1值。

准确率定义公式：

召回率定义公式：

其中，a：正确判为该类的文本数目；b：错误判为该类的文本数目；c：原本属于该类但是错判的文本数目。

为了将准确率和召回率综合地考虑，常用的综合方法就是采用F1值，其定义公式如下：

(3)实验结果

从上表得到的分类结果可以看出，本发明的基于BP神经网络的对网络舆情进行情感分类方法，准确率高；且该方法经过中文分词和特征选择大大降低了文本特征空间的维度，分类效率较高，完全适用于网上海量舆情信息的及时情感分类处理。

Claims

1.一种对网络舆情信息进行情感分类的方法，其特征在于，包括以下步骤：

(1)对网络舆情信息的文章进行中文分词；

(2)将分词后的词汇输入神经网络；

(3)计算出所述文章的正负面性完成情感分类。

2.根据权利要求1所述的对网络舆情信息进行情感分类的方法，其特征在于，所述中文分词采用ICTCLAC中文分词系统。

3.根据权利要求2所述的对网络舆情信息进行情感分类的方法，其特征在于，所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词，保留名词、动词和形容词作为特征。

4.根据权利要求3所述的对网络舆情信息进行情感分类的方法，其特征在于，所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词，保留名词、动词和形容词作为特征之后、输入神经网络之前还包括特征选择步骤。

5.根据权利要求4所述的对网络舆情信息进行情感分类的方法，其特征在于，所述特征选择步骤具体为：采用文档频率、χ²统计、信息增益或互信息方法，选择所需的特征作为神经网络的输入。

6.根据权利要求1所述的对网络舆情信息进行情感分类的方法，其特征在于，所述神经网络为BP神经网络。

7.根据权利要求6所述的对网络舆情信息进行情感分类的方法，其特征在于，所述BP神经网络为3层或大于3层的前馈型BP神经网络。

8.根据权利要求6所述的对网络舆情信息进行情感分类的方法，其特征在于，所述BP神经网络为经过训练的BP神经网络，所述训练步骤如下：

a.通过网络爬虫技术爬取网络舆情信息的文章；

b.对爬取的文章通过ICTCLAC中文分词系统进行分词；