CN109388800A

CN109388800A - 一种基于加窗词向量特征的短文本情感分析方法

Info

Publication number: CN109388800A
Application number: CN201811156163.3A
Authority: CN
Inventors: 申亚博; 马勇; 顾明亮; 赵冬梅; 申影利; 李世党; 魏明生
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-02-26
Anticipated expiration: 2038-09-30
Also published as: CN109388800B

Abstract

一种基于加窗词向量特征的短文本情感分析方法，涉及自然语言处理技术，包括步骤：文本预处理、特征提取、词向量训练、词向量转换、加窗操作、分类器建模、分类器加权融合。本发明的一种基于加窗词向量特征的短文本情感分析方法，提出一种对词向量加窗的方法，使用不同窗长对词向量进行加窗操作，从而将情感时序变化过程加入词向量中得到组合特征，比传统直接使用词向量的方法更加有效；通过对组合特征进行建模训练，针对不同窗长的组合特征使用不同的分类器，最后使用网格搜索寻找最佳权重组合，将每一个分类器的分类概率与权重融合得出最终结果，相比于单独使用单一的分类器具有更好的效果。

Description

一种基于加窗词向量特征的短文本情感分析方法

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于加窗词向量特征的短文本情感分析方法。

背景技术

近年来互联网技术以及自媒体飞速发展，网络平台上的各类用户言论越来越多，导致网络数据呈爆炸式增长，对这些数据的有效分析具有很大的市场价值。如对某产品的评论数据分析既可以给消费者提供更加全面的决策参考，也可以帮助生产商了解产品的市场口碑，灵活地对产品进行修饰以提高产品质量。而如何从海量数据中提取有用的情感信息，例如文本情感分析，正是现在自然语言处理领域的研究热点。

文本情感分析旨在分析文本的语义倾向性，挖掘出文本包含的情感倾向。传统的文本情感分析一般分为基于词典的方法和基于机器学习的方法。前者主要依托语言学的研究成果，利用现有的情感词典对文本进行情感分析。后者主要依靠人工标注的语料，从语料中提取有效的特征训练分类器，从而实现文本的情感分析任务。利用词典的方法需要人工构建情感词典，成本较高。而传统的机器学习方法多使用one-hot独热编码表示文本向量形式，但是独热编码存在维度灾难的可能。因为传统文本情感分析方法的这些缺陷，迫切地需要寻求更为切实有效的解决方法。随着深度学习在自然语言处理领域的发展，Mikolov提出Word2Vec框架，既能够解决维度问题，也可以表示出词语之间相似度。但是，目前使用词向量的方法多是直接将词向量作为模型输入，未能考虑情感时序变化过程。

发明内容

本发明的目的在于提供一种基于加窗词向量特征的短文本情感分析方法，以提高提高短文本情感分析的识别率。

为实现以上发明目的，本发明的技术方案如下：

一种基于加窗词向量特征的短文本情感分析方法，包括步骤：

S1、词向量训练：对大规模语料进行预处理，再对预处理后的大语料进行词向量训练，得到一定维度的词向量；

S2、特征提取：对待分析文本进行预处理，选择文本情感分类中的若干特征，对特征进行筛选，选出最具有区分能力的特征；

S3、词向量转换：将步骤S2得到的数据转换为由步骤S1中的词向量所组成的文本向量；

S4、加窗操作：对文本向量中的词向量进行加窗操作，形成新的组合维度；

S5、独立分类器建模：对步骤S4中加窗后的词向量进行建模训练，得出各自的识别率；

S6、分类器加权融合：使用网格搜索方法寻找最优的权重组合，将权重与对应的分类器判定概率相乘求和，得到最终分析结果。

作为本发明进一步改进的技术方案，所述步骤S1具体包括：

词向量训练：对大规模语料进行预处理，采用Word2Vec工具对预处理后的大语料进行词向量训练得到一定维度的词向量。

作为本发明进一步改进的技术方案，所述步骤S2具体包括：

特征提取：对待分析文本进行预处理，先选择文本情感分类中的一元词特征、句法特征和基于词典的特征，再对特征进行筛选，选出最具有区分能力的特征。

作为本发明进一步改进的技术方案，所述步骤S2中的对特征进行筛选所采用的方法为IG、MI方法。

作为本发明进一步改进的技术方案，所述步骤S4具体包括：

加窗操作：对文本向量中的词向量进行加窗操作，形成新的组合维度，其中窗长从2到7。

与现有技术相比，本发明的有益效果：本发明的一种基于加窗词向量特征的短文本情感分析方法，提出一种对词向量加窗的方法，使用不同窗长对词向量进行加窗操作，从而将情感时序变化过程加入词向量中得到组合特征，比传统直接使用词向量的方法更加有效；通过对组合特征进行建模训练，针对不同窗长的组合特征使用不同的分类器，最后使用网格搜索寻找最佳权重组合，将每一个分类器的分类概率与权重融合得出最终结果，相比于单独使用单一的分类器具有更好的效果。

附图说明

图1为本发明实施例中的基于加窗词向量特征的短文本情感分析方法的流程图；

图2为本发明实施例中的加窗操作模块解析图；

图3为本发明实施例中的分类器独立建模及分类器融合模块解析图。

具体实施方式：

下面参照附图对本发明做进一步描述。

实施例

如图1所示，本发明的短文本情感分析方法包括步骤：文本预处理、特征提取、词向量训练、词向量转换、加窗操作、分类器建模、分类器加权融合。

文本预处理旨在对实验语料和大规模语料文本，进行繁简转换和去特殊符号，并使用结巴分词工具对其进行分词和词性标注，从而实现快速有效的清洗文本，并且对文本中一些和情感分类以及领域无关的停用词也需将之过滤掉，得到预处理后的文本数据。

特征提取环节中，先选出文本的一元词特征、句法特征和基于词典的特征，再采用IG、MI方法对特征进行筛选，从而降低维度，并选出最具有区分能力的特征，得到提取特征后的文本数据，采用信息增益(Information Gain,IG)，互信息(Mutual Information,MI)方法对特征进行筛选，不仅可以降低维度，也能够选出最具有区分能力的特征。

信息增益是信息论中的概念，用来计算特征的出现与否对文本分类贡献信息量。它利用信息熵的原理，可以通过计算特征在文本中出现前后的信息熵差值获得，计算公式如下：

其中Entropy(S)表示特征w_i没有出现时的信息熵，Entropy(S_i)表示特征w_i出现后的信息熵，p(c_j)表示文档属于类c_j的概率，p(w_i)表示特征w_i出现在文档中的概率，p(c_j/w_i)表示含有特征w_i的文档属于类c_j的条件概率，表示不含特征w_i的文档概率，表示不含特征w_i的文档属于类c_j的条件概率。

互信息是计算语言模型分析时使用的方法，在文本分类中，用来度量特征对类别、的依赖程度，计算公式如下：

其中表示含有特征的文档属于类的概率，表示特征出现在文档中的概率，表示一个稳定属于类的概率。

词向量训练环节用于对大规模语料进行词向量训练，本实例中采用15G的训练语料，使用Word2Vec工具进行训练，分别训练100维、200维、300维、400维的词向量进行对比实验。

词向量转换环节用于将特征提取模块02得到的实验文本数据转换为词向量训练模块03得到的相应维度的词向量，该环节采用一个现有的可执行文件即可实现。

加窗操作环节用于对一定维度的词向量进行加窗操作，本实例中采用的窗长为2到7六种，从而得到六种不同组合维度的特征。

假设某文本有7个词语时，使用窗长为2的加窗操作，每两个词组合成一个特征，窗移为1个词，在词语有7个的情况下加窗后，由原来简单的7个词语变成6个组合型特征，当使用100维度词向量表示文本时，加窗后的组合维度由原来的100维变成200维，而当使用200维度词向量表示文本时，加窗后的组合维度就由原来的200维变成400维。后面加窗操作以此类推。

分类器建模环节用于对加窗后得到的不同组合维度的特征，进行建模分类，本实例中即是对六种不同组合维度的特征各自独立建模分类。本实例中分类器的建模采用Python环境下scikit-learn库中的支持向量机(SVC)和逻辑回归模型(Logisticregression,LR)，而SVC核函数又分为rbf和poly两种，六个分类器各自采用一种分类器参数，得到各自的识别结果，可以分别输出识别率进行对比。

分类器加权融合环节用于对六个分类器的识别结果加上权重再相加之后得到最终的识别结果，本实例中，使用网格搜索方法寻找最优的权重组合，最后将权重与对应的分类器判定概率相乘求和，得到最后分类结果。最终分类结果计算公式如下：

公式(3)中，P_ij表示每个分类器对每一个文本的预测概率，N表示文本数量，W_i表示每个分类器权重，P_j表示每一个文本的最终预测概率，由公式(3)计算可得。

如图2所示，本实例中选取的特征词经过词向量转换获得文本向量表示形式，然后对词向量进行加窗操作，本实验分别使用窗长为2、3、4、5、6、7，一共获得6种不同维度的特征作为分类器输入。实例中假设某文本有7个词语，使用窗长为2的加窗操作时，每两个词组合成一个特征，窗移为1个词，在词语有7个的情况下加窗后，由原来简单的7个词语变成6个组合型特征，当使用100维度词向量表示文本时，加窗后的组合维度由原来的100维变成200维，而当使用200维度词向量表示文本时，加窗后的组合维度就由原来的200维变成400维。后面窗长的加窗操作以此类推。

图3为本发明实施例的分类器独立建模及分类器融合模块解析图。SVM是一种机器学习的分类方法，在许多分类问题中获得很好的效果。本实例中使用了Python环境下scikit-learn库中的支持向量机(SVC)和逻辑回归模型(Logistic regression,LR)进行分类、融合。

本实例使用独立的分类器对通过加窗得到的特征进行建模训练，其中SVM采用两种参数设置，一种是核函数为rbf，一种是核函数为poly。经过不断的实验，从而确定每个分类器最好的参数选择。进行实验时得到的模型参数设置如表1所示。

表1模型参数设置

需要说明的是，表1中SVC^①表示核函数是rbf，gamma＝1；SVC^②表示核函数是poly，degree＝1，gamma＝1，coef0＝10；LR表示是逻辑回归模型，参数默认。

实验的评价标准采用文本分类的常用指标：查准率P、召回率R、F1值以及正确率Acc。实验时不同窗长和维度在相应分类器模型参数下的分类效果(采用Acc指标)如表2所示。

表2不同窗长和维度在相应分类器模型参数下的分类效果

由各分类器的分类效果，依表3设定权重范围在(0,0.5)，步长为0.05，使用网格搜索方法寻找最优权重组合，最终获得各权重值。将各分类器对文本的判定概率与对应权重相乘后求和得到最终融合结果。

表3模型权重设置表

按公式(3)将权重与对应的分类器判定概率相乘求和，得到最后融合分类结果，如表4所示。与基准分类结果相对比，可发现性能大大提升。

表4融合分类结果

Claims

1.一种基于加窗词向量特征的短文本情感分析方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于加窗词向量特征的短文本情感分析方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求1所述的一种基于加窗词向量特征的短文本情感分析方法，其特征在于，所述步骤S2具体包括：

4.根据权利要求1或3所述的一种基于加窗词向量特征的短文本情感分析方法，其特征在于，所述步骤S2中的对特征进行筛选所采用的方法为IG、MI方法。

5.根据权利要求1所述的一种基于加窗词向量特征的短文本情感分析方法，其特征在于，所述步骤S4具体包括：