CN109002473B - 一种基于词向量与词性的情感分析方法 - Google Patents

一种基于词向量与词性的情感分析方法 Download PDF

Info

Publication number
CN109002473B
CN109002473B CN201810609313.5A CN201810609313A CN109002473B CN 109002473 B CN109002473 B CN 109002473B CN 201810609313 A CN201810609313 A CN 201810609313A CN 109002473 B CN109002473 B CN 109002473B
Authority
CN
China
Prior art keywords
microblog
word
words
corpus
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810609313.5A
Other languages
English (en)
Other versions
CN109002473A (zh
Inventor
刘春凤
张妍
于健
喻梅
徐天一
曹雅茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810609313.5A priority Critical patent/CN109002473B/zh
Publication of CN109002473A publication Critical patent/CN109002473A/zh
Application granted granted Critical
Publication of CN109002473B publication Critical patent/CN109002473B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于词向量与词性的情感分析方法,包括:获取原始微博语料库,并将原始微博语料库中的中文语料信息与语料标签信息进行匹配;去除微博文本对情感分析没有积极作用或造成干扰的特殊符号;将预处理后的文本根据词语的词性进行处理,构成原始特征集合;计算微博数据中词语的TF‑IDF值,再根据TF‑IDF提取特征词;计算词语的TF‑IDF值,将词典中每条数据都由一个词语及其对应的词向量组成;将特征词与词向量字典结合,组成特征词与词向量字典;计算每一条文本微博数据的向量,最后得到所有微博数据的向量;根据训练数据建立各自的微博数据情感分类模型,进行情感分析。

Description

一种基于词向量与词性的情感分析方法
技术领域
本发明涉及自然语言处理、数据挖掘、文本分析、计算语言学和机器学习领域,涉及文本预处理技术、特征提取技术、情感分析技术和机器学习分类技术,尤其是一种基于词向量与词性的情感分析方法。
背景技术
目前,中文微博情感分析方法可以分为两大类:基于情感词典的微博情感分析方法和基于机器学习的微博情感分析方法。基于情感词典的微博情感分析方法主要根据情感词典,将一条微博语句的情感极性值之和作为该条语句的情感极性,可分为词语特征级、句子级情感判别,该方法主要的优点是粒度细、分析准确。
但受到自然语言处理技术及相关抽取技术的限制,对语句中各语义成分及其对应关系的不能很好的识别。在中文有着丰富的语义表达,很多情感都是隐含的,比如:“我昨天吃了这道菜,今天就拉肚子了”。这句话没有一个情感词,但表达的是消极的情绪。所以基于情感词典的分析方法忽视了非情感词语对情感分析结果的影响,因而无法进行准确的分类。
基于机器学习的微博情感分类方法多使用分类模型如:支持向量机(SupportVector Machine,SVM)、朴素贝叶斯、最大熵模型等,选取文本中有利于情感极性分类的词或短语等作为特征,训练集语料的大小和质量、特征提取的好坏将直接决定分类器的好坏。特征工程是此类方法的核心,情感分类任务中常用到的特征有n-gram(大词汇连续语音识别中常用的一种语言模型)特征、句法特征、TF-IDF(一种用于信息检索与数据挖掘的常用加权技术)特征等。
其中,TF-IDF特征提取方法是通过TF-IDF模型就能将一个文本进行向量化。优点是简单快速,结果比较符合实际情况。但这个模型存在一定的缺点,TF-IDF是忽略了词之间相关性,该方法无法考虑词语的语义信息,因而提取到的特征会对最终的情感分析结果产生影响。
发明内容
本发明提供了一种基于词向量与词性的情感分析方法,本发明能有效克服传统情感分析方法中不能充分考虑词语词性及语义信息对情感分析结果的影响的问题,将词性与语义进行结合,详见下文描述:
一种基于词向量与词性的情感分析方法,所述方法包括以下步骤:
获取原始微博语料库,并将原始微博语料库中的中文语料信息与语料标签信息进行匹配,每条语料信息对应一个标签信息;去除微博文本对情感分析没有积极作用或造成干扰的特殊符号。
将预处理后的文本根据词语的词性进行处理,筛选出需要的形容词、动词和否定词,构成原始特征集合;
计算词频,然后计算逆向文件频率,最后计算微博数据中词语的TF-IDF值,再根据TF-IDF提取特征词;
计算词语的TF-IDF值,将词典中每条数据都由一个词语及其对应的词向量组成;将特征词与词向量字典结合,组成特征词与词向量字典;
将每条文本微博数据的文本的所有特征词组合,生成每一条文本微博数据的向量,最后得到所有微博数据的向量;
根据训练数据建立各自的微博数据情感分类模型,分别使用朴素贝叶斯分类器、最近邻分类器、随机森林分类器和支持向量机分类器进行情感分析。
所述每条语料信息对应一个标签信息具体为:
如果语料信息的情感积极,则标记为1;否则,标记为0。
本发明提供的技术方案的有益效果是:
1、在实验预处理阶段,针对使用情感词典无法准确分类的问题,通过词性过滤方法处理实验数据集,并明显地提高了情感分析的实验效果。
2、在特征提取阶段,针对传统语言模型无法存储词语语义信息的问题,利用Word2Vec将词语映射到向量空间,转换成词向量。将TF-IDF特征提取方法与词向量相结合,既充分地考虑了词语的语义信息,又可以控制词向量的维度,该方法可以显著的提高自然语言处理任务的时间性能。
3、本发明可以更好的结合微博数据深层次的挖掘用户的需求,了解用户的情感倾向,为用户提供个性化服务。
附图说明
图1为基于词向量与词性的情感分析方法的流程图;
图2为不同分类器对实验效果影响的示意图;
图3为不同情感分析方法对实验效果影响的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
参见图1,本发明实施例提供了一种基于词向量与词性的情感分析方法,该方法包括以下步骤:
101:整理原始语料库;
该步骤101具体包括:取已有的原始微博语料库,并将微博语料库中的中文语料信息与语料标签信息进行匹配。
102:数据预处理;
去除微博文本对情感分析没有积极作用或造成干扰的特殊符号,如网址、@标记、转发标记“//”以及内容标记信息“#内容#”等。
103:将预处理后的文本进行根据词语的词性进行处理,筛选出需要的形容词、动词和否定词,构成原始特征集合。
104:计算词语的TF-IDF值,并利用词语的TF-IDF值提取特征词;
105:用Word2Vec处理语料库,获得词向量字典;
106:将特征词与词向量字典结合,组成特征词与词向量字典;
107:将每条文本微博数据的文本的所有特征词组合,生成每一条文本微博数据的向量,最后得到所有微博数据的向量;
108:利用分类器对微博数据生成的向量建立微博数据情感分类模型。
在一个实施例中,步骤101对整理原始微博语料库,具体步骤如下:
获取原始微博语料库,并将原始微博语料库中的语料信息Data与语料标签信息Senti_Label进行匹配,每条语料信息对应一个标签信息。如果语料信息的情感积极,则标记为1;否则,标记为0。
在一个实施例中,步骤102进行数据预处理,具体步骤如下:
依次去除原始微博语料库中的重复微博、去除@、URL和#等特殊符号、去除微博中的英文内容进行中文分词,去除停用词,并进行词性标注。
在一个实施例中,步骤103对预处理后微博文本进行词性过滤,具体步骤如下:
将预处理后的文本根据词语的词性,筛选出需要的形容词、动词、否定词等词语特征项,过滤掉对情感分析结果无意义的副词、量词、连词以及介词等词语。
在一个实施例中,步骤104提取微博词语的特征词,具体步骤如下:
首先计算词频,然后计算逆向文件频率,最后计算微博数据中词语的TF-IDF值。再根据TF-IDF提取特征词。
在一个实施例中,步骤105处理微博数据语料库,得到词向量字典,具体步骤如下:
利用Word2Vec工具,将该词典中每条数据都由一个词语及其对应的词向量组成。如词语“喜欢”对应的200维词向量。
在一个实施例中,步骤106生成的词向量字典组合,构成特征词向量字典。
在一个实施例中,步骤108对微博数据进行情感分类,具体步骤如下:
根据训练数据建立各自的微博数据情感分类模型,分别使用朴素贝叶斯分类器、最近邻分类器、随机森林分类器和支持向量机分类器进行情感分析。
综上所述,本发明实施例能有效克服传统情感分析方法中不能充分考虑词语词性及语义信息对情感分析结果的影响的问题,将词性与语义进行结合。
实施例2
下面结合具体的实例、数学公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:首先需要获取原始微博语料库,然后对原始微博语料库进行整理,将原始微博语料库中的语料信息Data与语料标签信息Senti_Label进行匹配,每条语料信息对应一个标签信息。如果语料信息为积极,则标记为1;否则,标记为0。
202:进行原始微博语料库的数据预处理;
从原始微博语料库中依次去除重复微博、@、URL和#等特殊符号、英文内容,接着使用BostonNLP对微博文本进行分词处理,并标记词语词性,去除无意义的停用词,最后将分词结果中的每个词语标注一个正确词性。
203:将预处理后的微博语料库进行词性过滤;
将步骤202中的文本预处理结果根据词语的词性进行处理,筛选出需要的形容词、动词、否定词等词语特征项,将剩余词语构成原始特征集合。经过词性过滤的原始微博语料库只保留了形容词、动词和否定词。
204:计算词语的TF-IDF值;
首先计算词频,然后计算逆向文件频率,,最后计算微博数据中词语的TF-IDF值。
205:利用词语的TF-IDF值大小提取特征词;
206:用Word2Vec处理语料库,获得词向量字典,该词向量字典中每条数据都由一个词语及其对应的词向量组成。
207:将得到的特征词与词语向量字典组合,构成特征词语向量字典;
208:计算每一条文本微博数据的向量,如公式(1)至(2)所示。
一条微博数据的第i个特征词的特征向量为vec(wordi),如公式(1)所示。
vec(wordi)=[v1,v2,......,v200] (1)
其中,vi表示向量vec(wordi)第i维的数据值,vec(wordi)的维度为200;该条微博数据所对应的向量vector(graph)如公式(2)所示。
Figure BDA0001695172450000051
其中,n为该条微博数据中特征词的数目。
209:使用SVM进行情感分析,核函数采用径向基核函数,调节支持SVM中的参数C和gamma,可以使微博数据的情感分析实验得到最佳效果。
综上所述,本发明实施例可以更好的结合微博数据深层次的挖掘用户的需求,了解用户的情感倾向,为用户提供个性化服务。
实施例3
下面结合具体的实验数据、图2和图3对实施例1和2中的方案进行可行性验证,详见下文描述:
首先通过实验分别验证了朴素贝叶斯分类器、最近邻分类器、支持向量机分类器和随机森林分类器对实验效果的影响,并通过使用准确率(Accuracy)、召回率(RecallRate)、F值(F-measure)、精确率(Precision)作为评价准则对实验结果进行评价,如图2所示,实验结果证明支持向量机分类器在该微博数据集上的情感分类具有较好的结果。
在图2中,可以看出,使用SVM的Accuracy、Recal、F值、Precision比贝叶斯分类器、最近邻分类器和随机森林分类器的高。
接着,在使用支持向量机进行情感分析的前提下分析了不同特征提取方法对情感分析实验效果的影响,TF-IDF+Word2Vec特征提取模型与TF-IDF特征提取模型相比,如表1所示,Accuracy高了0.3086%,F值高了0.1251%,Precision高了0.3366%。TF-IDF+Word2Vec特征提取模型与Word2Vec模型相比,Accuracy高了0.6173%,Recall高了1655%,F值高了0.3379%,Precision高了0.4608%。基于TF-IDF与词向量的特征提取方法(TF-IDF+Word2Vec)能够取得较好的情感分类效果。
表1不同特征提取方法的实验效果对比
Figure BDA0001695172450000061
最后,对比不同情感分析方法对实验效果的影响,如图3所示,基于词向量与词性的情感分析方法(Sentiment Analysis Algorithm based on Word Vector and POS,SA2-WV&POS)与ILAR-TC方法相比,在准确率、召回率、F值以及精确率方面的效果更好,证明了词性过滤对情感分析实验结果能够产生积极作用。
在图3中,SA2-WV&POS比ILAR-TC方法在实验准确率、召回率、F值及精确率方面有显著的提高,对微博数据的情感分析具有积极意义。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于词向量与词性的情感分析方法,其特征在于,所述方法包括以下步骤:
获取原始微博语料库,并将原始微博语料库中的中文语料信息与语料标签信息进行匹配,每条语料信息对应一个标签信息;去除微博文本对情感分析没有积极作用或造成干扰的特殊符号;
将预处理后的文本根据词语的词性进行处理,筛选出需要的形容词、动词和否定词,过滤掉对情感分析结果无意义的副词、量词、连词以及介词,构成原始特征集合;
计算词频,然后计算逆向文件频率,最后计算微博数据中词语的TF-IDF值,再根据TF-IDF提取特征词;
用Word2Vec处理语料计算词语的TF-IDF值,将词典中每条数据都由一个词语及其对应的词向量组成;将特征词与词向量字典结合,组成特征词与词向量字典;
将每条文本微博数据的文本的所有特征词组合,生成每一条文本微博数据的向量,最后得到所有微博数据的向量;
根据训练数据建立各自的微博数据情感分类模型,分别使用朴素贝叶斯分类器、最近邻分类器、随机森林分类器和支持向量机分类器进行情感分析;
所述每条语料信息对应一个标签信息具体为:如果语料信息的情感积极,则标记为1;否则,标记为0;
所述去除微博文本对情感分析没有积极作用或造成干扰的特殊符号为:依次去除原始微博语料库中的重复微博、去除@、URL和#等特殊符号、去除微博中的英文内容进行中文分词,去除停用词,并进行词性标注;
其中,微博数据的向量为:
一条微博数据的第i个特征词的特征向量为vec(wordi):
vec(wordi)=[v1,v2,......,v200]
其中,vi表示向量vec(wordi)第i维的数据值,vec(wordi)的维度为200;该条微博数据所对应的向量vector(graph)如下式:
Figure FDA0003351807830000011
其中,n为该条微博数据中特征词的数目。
CN201810609313.5A 2018-06-13 2018-06-13 一种基于词向量与词性的情感分析方法 Expired - Fee Related CN109002473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810609313.5A CN109002473B (zh) 2018-06-13 2018-06-13 一种基于词向量与词性的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810609313.5A CN109002473B (zh) 2018-06-13 2018-06-13 一种基于词向量与词性的情感分析方法

Publications (2)

Publication Number Publication Date
CN109002473A CN109002473A (zh) 2018-12-14
CN109002473B true CN109002473B (zh) 2022-02-11

Family

ID=64601354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810609313.5A Expired - Fee Related CN109002473B (zh) 2018-06-13 2018-06-13 一种基于词向量与词性的情感分析方法

Country Status (1)

Country Link
CN (1) CN109002473B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857862B (zh) * 2019-01-04 2024-04-19 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及介质
CN111597329B (zh) * 2019-02-19 2023-09-19 新方正控股发展有限责任公司 一种基于多语种的情感分类方法及系统
CN110120265B (zh) * 2019-04-29 2023-03-31 天津大学 基于多维特征和模型融合的提高预测血尿酸精度的方法
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN110598611B (zh) * 2019-08-30 2023-06-09 深圳智慧林网络科技有限公司 看护系统、基于看护系统的病人看护方法和可读存储介质
CN111753525B (zh) * 2020-05-21 2023-11-10 浙江口碑网络技术有限公司 文本分类方法、装置及设备
CN111797198A (zh) * 2020-06-14 2020-10-20 武汉大学 一种从文本中识别软件体系结构坏味道讨论的方法
CN112328790A (zh) * 2020-11-06 2021-02-05 渤海大学 语料库的快速文本分类方法
CN112836049B (zh) * 2021-01-28 2023-04-07 杭州网易智企科技有限公司 一种文本分类方法、装置、介质和计算设备
CN113111653B (zh) * 2021-04-07 2023-06-02 同济大学 一种基于Word2Vec和句法依存树的文本特征构造方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN108021660A (zh) * 2017-12-04 2018-05-11 中国人民解放军国防科技大学 一种基于迁移学习的话题自适应的微博情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106528642A (zh) * 2016-10-13 2017-03-22 广东广业开元科技有限公司 一种基于tf‑idf特征提取的短文本分类方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN108021660A (zh) * 2017-12-04 2018-05-11 中国人民解放军国防科技大学 一种基于迁移学习的话题自适应的微博情感分析方法

Also Published As

Publication number Publication date
CN109002473A (zh) 2018-12-14

Similar Documents

Publication Publication Date Title
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN107480200B (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
Rahimi et al. An overview on extractive text summarization
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN112699686A (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
CN113254586B (zh) 一种基于深度学习的无监督文本检索方法
Yadav et al. Sentiment analysis of reviews using an augmented dictionary approach
CN112528653B (zh) 短文本实体识别方法和系统
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN114139537A (zh) 词向量的生成方法及装置
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Amin et al. Kurdish Language Sentiment Analysis: Problems and Challenges
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN114912446A (zh) 一种关键词抽取方法、装置及储存介质
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Ma et al. Chinese Text Similarity Algorithm Based on Part-of-Speech Tagging and Word Vector Model.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220211