CN108108462A

CN108108462A - 一种基于特征分类的文本情感分析方法

Info

Publication number: CN108108462A
Application number: CN201711477206.3A
Authority: CN
Inventors: 霍华; 常国沁; 李成; 吕靖
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-01

Abstract

本发明是一种基于特征分类的文本情感分析方法，包含如下步骤：对文本进行基本的预处理；对文本进行特征选择；对特征进行权重计算并对所求权重进行归一化处理；将特征和权重生成特征向量，并划分出测试集与训练集；采用朴素贝叶斯构建分类器并对训练集进行训练；使用分类器对测试集进行分析并判断其情感倾向，同时计算分类的精确率，召回率和F值。本发明有益效果：本发明针对现有方法没有将情感词考虑到特征选择与权重计算的缺点进行了改进，增加了情感词在特征中的比重，并有效的提升了情感分析的正确率。

Description

一种基于特征分类的文本情感分析方法

技术领域

本发明涉及智能信息处理技术领域，具体地说是一种基于特征分类的文本情感分析方法。

背景技术

随着互联网的快速发展，网络的功能越来越全面，使用也越来越便捷，其中移动互联网的迅猛发展与手机用户的大规模增长，各种功能的APP也在这瞬息万变的网络环下不断的发展与更替。Twitter、Facebook、微博等社交平台由于其具有即时性与便捷性等优点，在飞速发展的网络空间也快速的崛起，并逐步由单一web端逐步向以移动端为主的双平台发展。微博评论与实时短文本中有许多都包含用户个人的情感与倾向，对用户进行个性化推荐以及网络舆情的监控都具有十分重要的意义，如何借用计算机技术获取和分析这些评论中的情感信息吸引了广大专家学者的竞相研究，其中涉及人工智能、自然语言处理、数据分析与挖掘等多重领域。

传统的文本情感分类方法在特征选择与权重计算的过程中常用点互信息或信息熵来选择文本特征，或者单纯的通过词频或反文档词频来计算权重，这些特征选择与权重计算的算法在进行单纯的文本分类可以取得很好的效果，但使用在判断文本情感倾向性时并没有考虑到情感词与修饰词的影响，无法使文本情感分类达到更好的分类效果。

发明内容

本发明所要解决的技术问题是提供一种基于特征分类的文本情感分析方法，解决目前现有方法中忽略情感词影响的问题，提高文本情感分析的正确率。

本发明为解决上述技术问题所采用的技术方案是：一种基于特征分类的文本情感分析方法，包括以下步骤：

步骤一、对文本进行预处理；

步骤二、对步骤一预处理后的文本进行特征选择，具体方法为：

(1)采用以下公式进行特征选择：NCHI(t,c)＝CHI(t,c)×f(t)，其中

t表示特征项，c表示类别，f表示特征词t的频数，A表示包含特征t且属于类别c的文本数目，B表示包含特征t但不属于类别c的文本数目，C表示不包含特征t但属于类别c的文本数目，D表示即不包含特征t也不属于类别c的文本数目；

(2)选择合适的特征维度；

步骤三、对步骤二选择的特征进行权重计算并对计算得到的权重进行归一化处理；

步骤四、将步骤三得到的特征和权重生成特征向量，并划分测试集与训练集；

步骤五、采用朴素贝叶斯构建分类器并对训练集进行训练；

步骤六、使用分类器对测试集进行分析并判断其情感倾向，同时计算分类的精确率、召回率和F值。

优选的，所述对文本进行预处理的方法为：

步骤1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理；

步骤1.2、对文本进行分词处理；

步骤1.3、整理归纳得到常用的停用词，构建符合情感分类的停用词表，并对文本进行去除停用词的处理。

优选的，所述步骤1.1中对文本进行数据清理包括：(1)删除话题；(2)删除提到的人；(3)删除回复；(4)删除来源，(5)删除链接。

优选的，所述步骤三中，对特征进行权重计算，公式为：

其中，D_k表示第k个分类中文档的总数，tf_ik表示特征词t_i在文档D_k中出现的次数，即词频，d_ik表示D_k中包含特征词t_i的文档数目，f₁(t_i)表示特征词t_i是否为情感词，若为情感词则值为1，若为非情感词则为0；f₂(t_i)表示特征词t_i是否为修饰词，若为修饰词则值为1，若为非修饰词则值为0。

优选的，所述步骤三中，对计算得到的权重进行归一化处理的方法为：使用线性函数对所求权重进行归一化处理，将权重映射到[0,1]之间，归一化公式为：其中X^*为归一化后的数据，X为原始数据，X_max、X_max分别为原始数据集的最大值和最小值。

优选的，所述步骤四中，将特征和权重生成特征向量，并划分测试集与训练集的具体方法为：

步骤4.1、将选择的特征与计算的权重输入到特征向量中，文本d的一个n维向量为d′＝[(t₁,w₁),(t₂,w₂),(t₃,w₃),……(t_n,w_n)]，其中t_i表示文本的第n个特征，w_i表示第n个特征的权重；

步骤4.2、将特征向量划分训练集与测试集，其中90％为训练集，10％为测试集。

优选的，所述特征维度选择5950。

本发明的有益效果是：本发明的文本情感分析方法在分析并得到网络文本的情感倾向时考虑到情感词与修饰词的影响，具有较高的精确率，通过特征选择与权重计算的算法计算出的权重相对于传统算法对文本情感分析有较好的识别效果，在特征选择的过程中考虑的也更为周全，同时具有一定的普适性，对其他形式的文本情感分析也有较好的效果。

附图说明

图1为本发明所涉及的文本情感分析方法的流程示意图；

图2为本发明实验权重维度选择图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式(实施例)进行描述，使本领域的技术人员能够更好地理解本发明。

一种基于特征分类的文本情感分析方法，包括以下步骤：

步骤一、对文本进行基本的预处理，包括：

1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理，因为网络中收集的文本除包含用户的评论之外还包含话题等其他信息，具体为：(1)删除话题，例如：清理前：这是荣耀手机#极限少女养成营#，她们去鸟巢滑行，清理后：这是荣耀手机，她们去鸟巢滑行；(2)删除提到的人，例如：清理前：@三木摄影全球旅拍用镜头诠释西藏的神秘，清理后：用镜头诠释西藏的神秘；(3)删除回复，例如：倍感欣慰//蒙牛是很差劲，清理后：倍感欣慰；(4)删除来源，例如：清理前：湖北大学的研究生廖可富，1年申请16项发明专利，目前已拿到9项专利证书(武汉晚报)，清理后：湖北大学的研究生廖可富，1年申请16项发明专利，目前已拿到9项专利证书；(5)删除链接，例如：清理前：今天，给大家支两招https://mp.weixin.qq.com，清理后：今天，给大家支两招。

1.2由于中文的特殊性，为了更方便的提取文本中的特征，对文本进行分词处理。

1.3中文中常有一些为了连贯句子而出现的停用词，这些词语通常不具有情感倾向，通过整理归纳常用的几种停用词表，构建一个新的更符合情感分类的新停用词表，并对文本进行去停用词的处理。

步骤二、采用公式NCHI(t,c)＝CHI(t,c)×f(t)对文本进行特征选择，公式中，t表示特征项，c表示类别，f表示特征词t的频数，A表示包含特征t且属于类别c的文本数目，B表示包含特征t但不属于类别c的文本数目，C表示不包含特征t但属于类别c的文本数目，D表示即不包含特征t也不属于类别c的文本数目；然后通过实验选择合适的特征维度。

步骤三、采用公式对特征进行权重计算，其中D_k表示第k个分类中文档的总数，tf_ik表示特征词t_i在文档D_k中出现的次数，即词频，d_ik表示D_k中包含特征词t_i的文档数目，f₁(t_i)表示特征词t_i是否为情感词，若为情感词则值为1，若为非情感词则为0；f₂(t_i)表示特征词t_i是否为修饰词，若为修饰词则值为1，若为非修饰词则值为0。

步骤四、使用线性函数归一化对步骤三所求权重进行归一化处理，将权重映射到[0,1]之间，其归一化公式为其中X^*为归一化后的数据，X为原始数据，X_max、X_max分别为原始数据集的最大值和最小值。

步骤五、将选择的特征与计算的权重输入到特征向量中，文本d的一个n维向量为d′＝[(t₁,w₁),(t₂,w₂),(t₃,w₃),……(t_n,w_n)]，其中t_i表示文本的第n个特征，w_i表示第n个特征的权重；将特征向量划分训练集与测试集，其中90％为训练集，10％为测试集。

步骤六、采用朴素贝叶斯构建分类器并对训练集进行训练。

步骤七、使用分类器对测试集进行分析并判断其情感倾向，同时计算分类的精确率P，召回率R和F值，其公式分别为：其中TP表示标记为积极的句子被正确判断为积极类的数量，FN表示标记为你积极的句子被错误判断为消极的数量，FP表示标记为消极被错误判断为积极类的句子数量，TN表示标记为消极被正确判断为消极类的句子数量。

Claims

1.一种基于特征分类的文本情感分析方法，其特征在于：包括以下步骤：

步骤一、对文本进行预处理；

(1)采用以下公式进行特征选择：NCHI(t,c)＝CHI(t,c)×f(t)，其中

(2)选择合适的特征维度；

步骤五、采用朴素贝叶斯构建分类器并对训练集进行训练；

2.根据权利要求1所述的一种基于特征分类的文本情感分析方法，其特征在于：所述对文本进行预处理的方法为：

步骤1.2、对文本进行分词处理；

3.根据权利要求2所述的一种基于特征分类的文本情感分析方法，其特征在于：所述步骤1.1中对文本进行数据清理包括：(1)删除话题；(2)删除提到的人；(3)删除回复；(4)删除来源，(5)删除链接。

4.根据权利要求1所述的一种基于特征分类的文本情感分析方法，其特征在于：所述步骤三中，对特征进行权重计算，公式为：其中，D_k表示第k个分类中文档的总数，tf_ik表示特征词t_i在文档D_k中出现的次数，即词频，d_ik表示D_k中包含特征词t_i的文档数目，f₁(t_i)表示特征词t_i是否为情感词，若为情感词则值为1，若为非情感词则为0；f₂(t_i)表示特征词t_i是否为修饰词，若为修饰词则值为1，若为非修饰词则值为0。

5.根据权利要求1所述的一种基于特征分类的文本情感分析方法，其特征在于：所述步骤三中，对计算得到的权重进行归一化处理的方法为：使用线性函数对所求权重进行归一化处理，将权重映射到[0,1]之间，归一化公式为：其中X^*为归一化后的数据，X为原始数据，X_max、X_max分别为原始数据集的最大值和最小值。

6.根据权利要求1所述的一种基于特征分类的文本情感分析方法，其特征在于：所述步骤四中，将特征和权重生成特征向量，并划分测试集与训练集的具体方法为：

7.根据权利要求1所述的一种基于特征分类的文本情感分析方法，其特征在于：所述特征维度选择5950。