CN104899335A - 一种对网络舆情信息进行情感分类的方法 - Google Patents
一种对网络舆情信息进行情感分类的方法 Download PDFInfo
- Publication number
- CN104899335A CN104899335A CN201510359172.2A CN201510359172A CN104899335A CN 104899335 A CN104899335 A CN 104899335A CN 201510359172 A CN201510359172 A CN 201510359172A CN 104899335 A CN104899335 A CN 104899335A
- Authority
- CN
- China
- Prior art keywords
- neural network
- article
- network
- public sentiment
- carried out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种对网络舆情信息进行情感分类的方法,包括以下步骤:(1)对网络舆情信息的文章进行中文分词;(2)将分词后的词汇输入神经网络;(3)计算出所述文章的正负面性完成情感分类。本发明的方法采用了中文分词系统对网络舆情信息的目标文章进行中文分词,采用神经网络进行情感分类,分类有效性和准确率高,适用于网上海量舆情信息的情感自动分类处理。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种对网络舆情信息进行情感分类的方法。
背景技术
互联网舆情,或者称为网络舆情,是一个伴随着近半个多世纪计算机信息技术的发展和近二十年互联网的出现和普及而逐渐浮出水面的一个全新概念。互联网舆情由两个概念结合而成--互联网(Internet)和舆情(Public Opinion)。
互联网的开放性、全球性、即时性、广泛性、海量性、互动性、平等性、低成本性和多媒体性等诸多特点决定了对于普通民众而言,遍布全球每一个角落的、触手可及的互联网是最佳的观点表达和传播媒介,愈来愈多的普通民众倾向于通过网络,而不是报纸(newspaper)、杂志(magazine)、广播(broadcast)或电视(television),来表达自己在自由言论方面的诉求。
根据针对我国的实际情况所展开的相关分析和研宄可知,我国国内的互联网舆情的表现形式和承载平台主要有以下四种:
(1)BBS论坛,包括社会论坛(天涯)、高校论坛(水木)、主题论坛(强国论坛)和地方论坛(深圳人)等等;
(2)博客,包括新浪博客、百度空间、搜狐博客、北邮人博客、腾讯空间等在内的各式各样的个人博客和名人博客;
(3)新闻及新闻跟帖,包括新浪新闻、搜狐新闻、腾讯新闻、网易新闻等大塑门户网站的新闻栏目及每条新闻后面的跟帖和回复;
(4)微博和社交网络,包括新浪微博、搜狐微博、新华微博、腾讯微博等微博和幵心网、人人网等SNS社交网络平台上网民的言论、评论、回复、转发、分享等内容。
近年来,网络舆情对政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定构成威胁。此外企业自身的舆情信息的正负面性判别对于企业本身有着重要意义。对于网络舆情的上述特点,对现实中出现的各种网络舆论,应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要自动化的网络舆情分析方法,及时应对网络舆情。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于对网络舆情信息进行情感分类的方法,采用汉语词法分析系统——ICTCLAS对文本进行分词,保留名词,动词和形容词来作为特征,以χ2统计来选择特征,然后用BP神经网络分类器进行情感分类。
为了实现上述发明目的,本发明提供了以下技术方案:
一种对网络舆情信息进行情感分类的方法,包括以下步骤:
(1)对网络舆情信息的文章进行中文分词;
(2)将分词后的词汇输入神经网络;
(3)计算出所述文章的正负面性完成情感分类。
优选的,所述中文分词采用ICTCLAC中文分词系统。
优选的,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征。
优选的,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征之后、输入神经网络之前还包括特征选择步骤。
优选的,所述特征选择步骤具体为:采用文档频率、χ2统计、信息增益或互信息方法,选择所需的特征作为神经网络的输入。
优选的,所述神经网络为BP神经网络。
优选的,所述BP神经网络为3层或大于3层的前馈型BP网络。
优选的,所述BP神经网络为经过训练的BP神经网络,所述训练步骤如下:
a.通过网络爬虫技术爬取网络舆情信息的文章;
b.对爬取的文章通过ICTCLAC中文分词系统进行分词;
c.分词后采用χ2统计法进行文本特征选择,选择所需的中文词汇;
d.将爬取的文章进行文章正负面性的人工判别,判别文章是正面的,负面的,还是中性的;
e.将χ2统计法后选择的中文词汇出现的数量作为神经网络的输入,文章正负面性的判别结果作为神经网络的输出,对神经网络进行训练,计算出神经网络的各层权值。
与现有技术相比,本发明的有益效果:
1.本发明的方法采用了ICTCLAC中文分词系统对网络舆情信息的目标文章进行中文分词,χ2统计法进行特征选取,大大降低了文本特征空间的维数,提高了自动分类的效率;
2.本发明的方法采用BP神经网络进行情感分类,神经网络的各层权值可通过网络爬虫技术爬取网上文章进行训练得到,分类有效性和准确率高。
附图说明
图1为本发明BP神经网络的训练过程
图2为本发明方法的情感分类过程
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图2所示,本发明的对网络舆情信息进行情感分类的方法步骤如下:
(1)采用ICTCLAC中文分词系统对网络舆情信息的目标文章进行中文分词;
(2)将分词后的词汇按照BP神经网络的输入需求对每一个输入赋值;
(3)计算出所述文章的正负面性得到情感分类结果。
对目标文章进行情感分类前首先要对文章进行文本预处理,文本预处理主要包括分词处理,去停用词两个部分。为把文本形式化地表示,采用向量空间模型(Vector Space Model)把文本表示成N维向量,用词来表示文本的向量。中文是连续的字符串,为了抽取文本的词条,这就需要对中文文本进行分词处理。去停用词主要是去除那些对文章内容没有意义的词。由于在文章中名字、动词、形容词是最具有实际意义的词。这里采用中国科学院计算技术研究所的汉语词法分析系统ICTCLAS,该系统在分词的同时可以对词性进行标记。因此可以通过词性标记来去除无实际意义的词(助词、数词、语气词等等),从而保留了能体现文章主题的词(名词、动词、形容词)。
为了提高情感分类效率可以进一步对ICTCLAS中文分词后的名词、动词、形容词作为特征进行特征选择,特征选择是一个降维的过程,即选取对文本分类最有意义的特征项从而减少特征空间的维数。虽然预处理后文本特征空间的维数有了一定的减少,但是仍然还是一个高维的特征空间。这么巨大的维度会导致后面自动分类的效率低下和分类效果的不佳等问题。特征选择的作用就很好的解决了这个问题从而保证分类的效率和效果。常用的特征选择方法有:文档频率(DF)、χ2统计(CHI)、信息增益(IG)、互信息(MI)等。本文我们采用χ2统计方法来做文本的特征选择。
χ2统计也称CHI平方统计,简称为CHI统计,因为英文单词Chi即表示希腊字母χ。CHI统计评估函数假定特征项t和文档类别c之间具有类似一阶自由度的χ2分布,度量了特征项t和文档类别c之间的相关程度,t和c之间χ2统计值χ2(t,c)计算公式如下:
公式中N表示文档集合的文档总数,A表示包含t且属于c类的文档频数,B表示包含t且不属于c类的文档频数,C表示不包含t且属于c类的文档频数,D表示不包含t且不属于c类的文档频数。CHI评估方法认为特征项t对文档类别C的χ2(t,c)统计值越高,其与该类之间的相关性就越大,表示的类别信息量就多。
在完成了中文分词和特征选择之后,采用BP神经网络对文本进行分类。
本发明的方法对舆情信息的判别过程分为BP神经网络的训练过程和BP神经网络的判别过程,具体如下:
BP神经网络的训练过程如图1所示,首先对某一专题的文章通过BBS论坛,博客,新闻等渠道通过网络爬虫技术爬取,对于爬取的文章通过ICTCLAC中文分词系统进行分词,分词后采用χ2统计(CHI)法进行文本特征选择,选择所需的中文词汇,将爬取的文章进行人工判断,判断文章是正面的,负面的,还是中性的,将χ2统计(CHI)法后选择的中文词汇出现的数量作为神经网络的输入,文章正负面性的判别结果作为神经网络的输出,对神经网络进行训练,计算出各层神经网络的权值,可以选择3层或3层以上的前馈型BP神经网络。
BP神经网络的判别过程是对一篇态度未知的文章进行正负面性态度的判别。首先对该文章进行中文分词,然后将分词后的词汇按照神经网络的输入需求对每一个输入赋值,最后计算出该文章的正负面性。
实验结果与分析:
(1)实验所用的语料是一个舆情项目给定的,其组成结构有200篇进行评论的文章,并人工将其每篇文章分为正面,负面和中性的,在训练数据和测试数据时,进行随机的二八分。
(2)实验评价标准
文本分类结果的有效性通常采用三个指标进行评估:精确率(Precision,简记为P)、召回率(Recall,简记为R)和F1值。
准确率定义公式:
召回率定义公式:
其中,a:正确判为该类的文本数目;b:错误判为该类的文本数目;c:原本属于该类但是错判的文本数目。
为了将准确率和召回率综合地考虑,常用的综合方法就是采用F1值,其定义公式如下:
(3)实验结果
从上表得到的分类结果可以看出,本发明的基于BP神经网络的对网络舆情进行情感分类方法,准确率高;且该方法经过中文分词和特征选择大大降低了文本特征空间的维度,分类效率较高,完全适用于网上海量舆情信息的及时情感分类处理。
Claims (8)
1.一种对网络舆情信息进行情感分类的方法,其特征在于,包括以下步骤:
(1)对网络舆情信息的文章进行中文分词;
(2)将分词后的词汇输入神经网络;
(3)计算出所述文章的正负面性完成情感分类。
2.根据权利要求1所述的对网络舆情信息进行情感分类的方法,其特征在于,所述中文分词采用ICTCLAC中文分词系统。
3.根据权利要求2所述的对网络舆情信息进行情感分类的方法,其特征在于,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征。
4.根据权利要求3所述的对网络舆情信息进行情感分类的方法,其特征在于,所述中文分词采用ICTCLAC中文分词系统对所述文章进行分词,保留名词、动词和形容词作为特征之后、输入神经网络之前还包括特征选择步骤。
5.根据权利要求4所述的对网络舆情信息进行情感分类的方法,其特征在于,所述特征选择步骤具体为:采用文档频率、χ2统计、信息增益或互信息方法,选择所需的特征作为神经网络的输入。
6.根据权利要求1所述的对网络舆情信息进行情感分类的方法,其特征在于,所述神经网络为BP神经网络。
7.根据权利要求6所述的对网络舆情信息进行情感分类的方法,其特征在于,所述BP神经网络为3层或大于3层的前馈型BP神经网络。
8.根据权利要求6所述的对网络舆情信息进行情感分类的方法,其特征在于,所述BP神经网络为经过训练的BP神经网络,所述训练步骤如下:
a.通过网络爬虫技术爬取网络舆情信息的文章;
b.对爬取的文章通过ICTCLAC中文分词系统进行分词;
c.分词后采用χ2统计法进行文本特征选择,选择所需的中文词汇;
d.将爬取的文章进行文章正负面性的人工判别,判别文章是正面的,负面的,还是中性的;
e.将χ2统计法后选择的中文词汇出现的数量作为神经网络的输入,文章正负面性的判别结果作为神经网络的输出,对神经网络进行训练,计算出神经网络的各层权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359172.2A CN104899335A (zh) | 2015-06-25 | 2015-06-25 | 一种对网络舆情信息进行情感分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510359172.2A CN104899335A (zh) | 2015-06-25 | 2015-06-25 | 一种对网络舆情信息进行情感分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104899335A true CN104899335A (zh) | 2015-09-09 |
Family
ID=54031997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510359172.2A Pending CN104899335A (zh) | 2015-06-25 | 2015-06-25 | 一种对网络舆情信息进行情感分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104899335A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573983A (zh) * | 2015-12-17 | 2016-05-11 | 清华大学 | 基于主题模型的微博用户情绪层次化分类方法和分类系统 |
CN106202372A (zh) * | 2016-07-08 | 2016-12-07 | 中国电子科技网络信息安全有限公司 | 一种网络文本信息情感分类的方法 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
CN107563929A (zh) * | 2017-07-27 | 2018-01-09 | 杭州中奥科技有限公司 | 一种基于人物特性分析的多维度警报器 |
CN107704513A (zh) * | 2017-08-31 | 2018-02-16 | 四川长虹电器股份有限公司 | 一种网络舆情监控方法及系统 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
CN109299374A (zh) * | 2018-10-24 | 2019-02-01 | 重庆理工大学 | 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统 |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN110705276A (zh) * | 2019-09-26 | 2020-01-17 | 中电万维信息技术有限责任公司 | 基于神经网络监控网络舆情的方法、装置及存储介质 |
CN112560469A (zh) * | 2020-12-29 | 2021-03-26 | 珠海横琴博易数据技术有限公司 | 一种自动化中文文本主题探索的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
-
2015
- 2015-06-25 CN CN201510359172.2A patent/CN104899335A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN104504150A (zh) * | 2015-01-09 | 2015-04-08 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析系统及方法 |
Non-Patent Citations (3)
Title |
---|
扎德罗津尼(ZADROZNY. P.)等: "《Splunk大数据分析》", 31 May 2015 * |
李弼程等主编: "《模式识别原理与应用》", 29 February 2008 * |
马刚主编: "《基于语义的Web数据挖掘》", 31 January 2014 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573983A (zh) * | 2015-12-17 | 2016-05-11 | 清华大学 | 基于主题模型的微博用户情绪层次化分类方法和分类系统 |
CN106202372A (zh) * | 2016-07-08 | 2016-12-07 | 中国电子科技网络信息安全有限公司 | 一种网络文本信息情感分类的方法 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
CN107563929A (zh) * | 2017-07-27 | 2018-01-09 | 杭州中奥科技有限公司 | 一种基于人物特性分析的多维度警报器 |
CN107704513A (zh) * | 2017-08-31 | 2018-02-16 | 四川长虹电器股份有限公司 | 一种网络舆情监控方法及系统 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
WO2019205318A1 (zh) * | 2018-04-25 | 2019-10-31 | 平安科技(深圳)有限公司 | 舆情信息分类方法、装置、计算机设备和存储介质 |
CN109299374A (zh) * | 2018-10-24 | 2019-02-01 | 重庆理工大学 | 基于人工神经网络的在线社交网络信息传播与舆情演化正向构建方法和系统 |
CN110705276A (zh) * | 2019-09-26 | 2020-01-17 | 中电万维信息技术有限责任公司 | 基于神经网络监控网络舆情的方法、装置及存储介质 |
CN112560469A (zh) * | 2020-12-29 | 2021-03-26 | 珠海横琴博易数据技术有限公司 | 一种自动化中文文本主题探索的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN103761239B (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN105045857A (zh) | 一种社交网络谣言识别方法及系统 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN103729474B (zh) | 用于识别论坛用户马甲账号的方法和系统 | |
Zhang et al. | Encoding conversation context for neural keyphrase extraction from microblog posts | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
Pilehvar et al. | Card-660: Cambridge rare word dataset-a reliable benchmark for infrequent word representation models | |
CN102096680A (zh) | 信息有效性分析的方法和装置 | |
CN103984771B (zh) | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
Nithyanand et al. | Measuring offensive speech in online political discourse | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN105893484A (zh) | 一种基于文本特征和行为特征的微博Spammer识别方法 | |
CN102567534B (zh) | 互动产品用户生成内容拦截系统及其拦截方法 | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN107305545A (zh) | 一种基于文本倾向性分析的网络意见领袖的识别方法 | |
CN105787662A (zh) | 基于属性的移动应用软件性能预测方法 | |
CN110287314A (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN109214445A (zh) | 一种基于人工智能的多标签分类方法 | |
Cui et al. | Personalized microblog recommendation using sentimental features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150909 |
|
RJ01 | Rejection of invention patent application after publication |