CN115525763A

CN115525763A - 基于改进so-pmi算法和融合词向量的情感分析方法

Info

Publication number: CN115525763A
Application number: CN202211306207.2A
Authority: CN
Inventors: 申明磊; 姚若彤
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2022-12-27

Abstract

本发明公开了一种基于改进SO‑PMI算法和融合词向量的情感分析方法，包括：构建领域情感词典，所述领域情感词典包括评价对象词典、否定词典、程度副词词典、积极情感词典、消极情感词典，其中，所述积极情感词典、消极情感词典通过改进后的SO‑PMI算法计算确定；利用word2vec模型对语料库中的文本进行训练生成原始词向量；利用构建的情感词典将情感词划分为5个维度，构建情感向量；将原始词向量与情感向量进行融合，生成融合情感信息的词向量。本发明将构建的多个含情感倾向与强度的词典进行情感向量化表示，并与初始word2vec词向量进行拼接构成融合情感信息的词向量表示，包含情感信息的词向量输入到分类算法中进行情感分析其分类准确性更高。

Description

基于改进SO-PMI算法和融合词向量的情感分析方法

技术领域

本发明涉及一种NLP自然语言处理领域，具体为一种基于改进SO-PMI算法和融合词向量的情感分析方法。

背景技术

在情感分类任务中，情感词典完备度以及特征提取的优劣性对分类性能有很大的影响。在对基于情感词典的情感分析任务中，需要根据不同领域下的不同任务去构建相对应的情感词典与对应的语义规则，对于不同领域尚未有完备的情感词典，对于当下流行词典更新速度快等特点，需要合适的算法实现自动构建情感词典；在对于深度神经网络模型的情感分析中，需要将预处理后的数据通过文本表示模型转换为计算机可以识别的形式，而后输入到分类模型中进行情感倾向判断，在对文本进行表示的模型中，一般流程为通过不同的文本表示模型转化为词向量表示，但只考虑到与上下文之间的关联关系，根据前后文学习编码嵌入，往往没有考虑到词语本身的情感信息。

发明内容

本发明的目的在于提供一种基于改进SO-PMI算法和融合词向量的情感分析方法。

实现本发明目的的技术解决方案为：一种基于改进SO-PMI算法和融合词向量的情感分析方法，具体步骤为：

步骤1：构建领域情感词典，所述领域情感词典包括评价对象词典、否定词典、程度副词词典、积极情感词典、消极情感词典，其中，所述积极情感词典、消极情感词典通过改进后的SO-PMI算法计算确定；

步骤2：利用word2vec模型对语料库中的文本进行训练生成原始词向量；

步骤3：利用构建的情感词典将情感词划分为5个维度，构建情感向量；

步骤4：将原始词向量与情感向量进行融合，生成融合情感信息的词向量。

优选地，构建领域情感词典的具体方法为：

步骤1.1：构建通用基础词典，所述通用基础词典包括通用基础积极情感词典和通用基础消极情感词典；

步骤1.2：将网络情感词典加入通用基础词典，扩充通用基础积极情感词典和通用基础消极情感词典；

步骤1.3：利用收集到的领域网络评论文本构建领域评论情感词典，

步骤1.4：构建程度词典，所述程度词典包括若干程度副词；

步骤1.5：构建否定词典；

步骤1.6：构建评价对象词典，所述评价对象词典包括若干被评价词语所修饰的主题。

优选地，构建通用基础词典的具体方法为：将多个情感词典中的正向情感词、负向情感词以及程度副词相结合形成通用的情感词集；

对通用的情感词集中的情感词汇进行筛选，去除其中情感极性相反的词汇，将不同词典中的正面评价词语或者褒义词进行合并去重，形成一个新的通用基础词典的积极情感词典，将不同词典中的负面评价词语或者贬义词进行合并去重形成消极情感词典，组合形成通用基础情感词典

优选地，利用收集到的领域网络评论文本构建领域评论情感词典的具体方法为：对收集到的领域评论语料库进行预处理，根据统计的词频选择候选词汇，选择频次高于设定量且具有情感极性的积极情感词和消极情感词各若干个；

将领域评论语料库分词形成的词汇与步骤1.2中的基础情感词典做差集运算，形成候选情感词汇，采用改进后的SO-PMI算法计算候选词汇的情感极性，构建领域评论情感词典。

优选地，采用改进后的SO-PMI算法计算候选词汇的情感极性的具体方法为：

式中，d_i表示两词汇在文档中的平均共现距离，n表示各基准词集中词汇总数，count(word,pword)表示候选词汇word与褒义基准词pword在训练语料中共同出现的文本总数，count(word,nword)表示候选词汇word与贬义基准词pword在训练语料中共同出现的文本总数，SO-PMI(word)<0：负面倾向，即消极情感词；SO-PMI(word)＝0：中性倾向，即该词不是情感词；SO-PMI(word)>0：正面倾向，即积极情感词。

优选地，将原始词向量与情感向量进行融合，生成融合情感信息的词向量的具体方法为：

将word2vec模型生成的词向量作为基础词向量B，并与生成的情感词向量E进行向量拼接融合，组成一个新的融合情感信息的词向量X，表示为X＝[B；E]。

本发明与现有技术相比，其显著优点为：本发明采用改进的SO-PMI算法进行情感词典的扩展，在对种子词进行情感倾向互信息量计算时，将共现距离计入考虑范围以此确定窗口大小，并加入拉普拉斯平滑避免零概率问题；本发明对基础情感词典与流行词词典处理后构建融合的基础情感词典，并通过改进SO-PMI算法对融合基础情感词典进行扩充，扩展的领域情感词典情感词覆盖率较基础词典有了较大提升；本发明将构建的多个含情感倾向与强度的词典进行情感向量化表示，并与初始word2vec词向量进行拼接构成融合情感信息的词向量表示，包含情感信息的词向量输入到分类算法中进行情感分析其分类准确性更高。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为基于改进SO-PMI算法的某领域情感词典构建过程。

图2为构建某领域情感词典的规模。

图3为CBOW模型和Skip-Gram模型的结构。

图4为融合情感的词向量模型。

图5为部分手机评论中的正面评论。

图6为部分手机评论中的负面评论。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

图1为基于改进SO-PMI算法融合词向量的情感词典的构建流程。对应于本发明的一种基于SO-PMI算法的融合词向量的情感分析方法，其包含以下步骤：

在某些实施例中，使用多个情感词典中的情感词汇进行筛选，去除情感意义比较多或极性相反的词汇，对正向情感词进行合并去重，生成新-的通用基础词典，同理可形成消极情感词典；对搜狗拼音输入法中的网络流行词集进行筛选，若不在情感词典中，就进行扩充；对不同领域的文本构建专属情感词典；例如手机评价领域情感词典。

进一步的实施例中，构建领域情感词典的具体方法为：

在某些实施例中，使用了多个情感词典(如知网情感词典，清华大学中文褒贬义词典)中的正向情感词、负向情感词以及程度副词相结合形成通用的情感词集。首先对三个词典中的情感词汇进行筛选，去除其中情感意义比较多或情感极性相反的词汇，之后将知网情感词典(HOWNET)中的中文正面评价词语以及清华大学李军中文褒贬义词典(TSING)中的褒义词进行合并去重，形成一个新的通用基础词典的积极情感词典，同理可形成消极情感词典，最后组合形成通用基础情感词典。这种组合的方法可以很好的扩展基础词典，并且能够有效的提高工作效率。

新兴的网络流行词汇在通用的基础词典中是没有的，但是有些却对文本的情感极性判断有很大的影响，因此需要将网络流行词中含有情感信息的词汇扩充至情感词典中，提高情感词典的适用性。本发明使用搜狗拼音输入法网络流行新词词集，共包含19309个词条，由于这个词集中含有很多无用的词条，因此人工筛选一遍，保留了5427个词条，看这些词是否已经存在于情感词典中，如果不在就将其加入到词典中，扩充情感词典。

步骤1.3：利用收集到的领域网络评论文本构建领域评论情感词典；

仅使用上述基础情感词典的情感词来判断句子情感倾向是不够的，由于各领域的情感词汇是有所差异的，所以领域情感词典的适用性较差，很少有发布的标注好的领域情感词典，因此需要在实际应用过程中进行构建。如对收集到的手机网络评论文本构建一个专属手机评论情感词典。首先，对收集到的手机评论语料库进行预处理，根据统计的词频选择候选词汇，由人工选择频次较高且具有较强情感极性的积极情感词和消极情感词各20个。之后将手机评论语料库分词形成的词汇与基础情感词典做差集运算，形成候选情感词汇，最后采用改进后的SO-PMI算法计算候选词汇的情感极性，构建手机评论领域情感词典。将上述构建的3种词典合并组合成一个完整的专属于手机评论领域的基础情感词典，该词典中包含有积极情感词汇5471个，消极情感词汇9843个。

本发明中使用的改进的SO-PMI算法具体为：

在PMI的基础上增加感情倾向(sentiment Orientation，SO)计算。

使用点互信息法(PMI)计算词汇之间相似性，来判断两个词之间的相似性，值越大表明词汇的相关性越大；反之，如果值为0，则表明两词汇独立。增加情感倾向(sentimentOrientation，SO)计算，计算一个词的情感倾向性。SO-PMI算法基本思想是根据选出的一组通用的褒义词和贬义词，这些词的情感倾向必须很明显且具有领域代表性，形成基准词，分别计算每个词分别和这些基准词之间PMI的差值，根据计算的差值来判断词的情感倾向性，当差值<0时为负面倾向，差值＝0时为中性倾向，差值>0为正面倾向。具体为：

计算出词汇关联程度的点互信息量PMI：

其中，p(word_i)，p(word_j)分别表示词汇word_i和word_j在文本中出现的概率，p(word_i,word_j)表示两个词汇同时出现在文本的概率，若PMI值越大表示两词汇相关性越大，共现程度越高；若为0，表示两词汇独立；若值小于0，说明两词汇不相关。实际应用中，样本数量较大，经常使用语料库来计算词汇关联的紧密程度，计算公式为：

d_g(word)表示文档中含有词语word的文档在语料库中的数目，N表示整个语料库所含有的文档总数。

增加情感倾向(SO)计算：

SO-PMI根据选出的一组通用的褒义词和贬义词，形成基准词，可以用p-word和n-word表示。计算一个词word分别和p-word和n-word之间PMI值的差值，根据差值判断word的情感倾向性。

SO-PMI(word)＝∑_{pword∈pwords}PMI(word,pword)-∑_{nword∈nwords}PMI(word,nword)

通常会将0设置为SO-PMI算法的阈值，SO-PMI值主要有3种状态：

SO-PMI(word)<0：负面倾向，即消极情感词；

SO-PMI(word)＝0：中性倾向，即该词不是情感词；

SO-PMI(word)>0：正面倾向，即积极情感词；

利用SO-PMI算法根据计算所得值，判断候选词是积极情感词还是消极情感词，然后根据其情感倾向性将其归入对应的情感词典中，以此来扩充原有的情感词典。基于统计的SO-PMI算法计算了两个词语之间的相似性，其中基准词的数量不用很多，减少了人工编辑知识库的成本，利用基准词来计算语料库中词语的情感倾向性，可形成领域情感词典，节约了成本，也比较有实际意义。

对结果进行平滑处理，加入共线距离来解决窗口大小问题。

原始SO-PMI算法完全依赖语料来决定词语的倾向性，当出现候选词汇与情感基准词汇同时出现在一个文本中，会使得到的词语的情感倾向值为零，不能正确判断候选词汇的情感倾向，通过加入拉普拉斯平滑可以有效避免零概率问题；在计算距离时，需要确定窗口大小，窗口大小影响最后结果的准确率和召回率，通过引入共现距离来改进窗口大小问题。具体为：

使用加法平滑即拉普拉斯平滑来避免零概率问题。

假定训练样本很大时，每个分量x的计数加1造成的估计概率变化可以忽略不计，但可以方便有效的避免零概率。用点互信息法计算词语间相关性时，词汇在文本中出现的概率值大多都是用频率值进行估计，因此在计算词word与基准词pword的互信息值的公式可以表示为：

其中N表示训练预料中文本总数，count(word,pword)表示词word与基准词pword在训练预料中共同出现的文本总数。

引入拉普拉斯平滑后可以改进为：

同理计算词word与基准词nword的互信息，则词word的SO-PMI值的计算公式如下：

其中n表示各基准词集中词汇总数，一般情况下，为了方便计算，收集的积极基准词与消极基准词的个数应相同。

)加入共现距离

加入平均共现距离的SO-PMI算法的计算公式为

其中d_i表示两词汇在文档中的平均共现距离。

结合拉普拉斯平滑后的SO-PMI算法方式为：

最后根据改进SO-PMI算法计算所得值的大小来判断候选词的情感极性。

步骤1.4：构建程度词典，所述程度词典包括若干程度副词；

程度副词是一个形容词或副词，对情感词的情感极性有一定的加强或者削弱的作用，一般用于情感词前，对句子的情感极性判断有重要的影响。例如“手机很不错，运行非常流畅”，这里面就包含两个程度副词“很”和“非常”，其中“非常”对手机的运行速度“流畅”的情感程度起到了加强的作用。因此在对整个句子进行情感倾向性判断时需要考虑程度副词所带来的影响，因此需要考虑引入程度副词词典。本发明使用知网情感词典(HOWNET)中的程度副词词典，共有188个。

步骤1.5：构建否定词典；

否定词本身不带有情感倾向性，主要用于修饰情感词，它与词典副词不同的是，程度副词主要影响情感词的情感倾向性的强度，而否定词是对其所修饰的情感词的情感倾向性进行颠倒，即它修饰的是个积极情感词，那么加入否定词后整个词的情感倾向性就为消极的了。这里还包括双重否定和多重否定，当一个句子中拥有的否定词数量为偶数时，否定词对整个句子的情感倾向性不产生影响。在实际生活中运用到的否定词很好，因此就直接采用人工收集的方法构建否定词典，词典中共包含60个否定词。

在一篇评论文本中总会存在被评价词语所修饰的主题，该主题就被称为评价对象。大多数的评价对象都是名词或者名词短语，例如手机评论中的“系统”、“相机”、“信号”等词语。评价对象是情感信息的一个重要组成部分，对情感分析有重要的影响。由于只针对手机领域的评价对象，因此采用人工收集的方法构建了评价对象词典，其中共包含34个，之后再用同义词词林进行扩展，最终词典中共包含74个词。

将以上构建的各种情感词典进行汇总，得到的最终手机评论领域情感词典的规模如图2所示。

使用word2vec模型里的CBOW和Skip-gram模型来将语料库中的文本训练成原始词向量，使得文本中的每个词由特定维度的实数向量来表示。CBOW模型通过目标单词上下文推测出可能出现的单词，通过训练语料获得语料的词向量；Skip-gram模型的输入为单一的中心词，之后经过映射层的训练，最后输出的为这个中心词的上下文。

使用Word2vec模型生成的词向量可以作为数据提取的特征向量表示，输入到其他情感分类算法中进行情感分析。图3为Word2Vec模型中选取的两种模型，CBOW模型是通过目标单词的上下文推测出可能出现的单词，通过训练语料，调整模型参数，获得语料的词向量；Skip-gram模型的输入为单一的中心词，之后经过映射层的训练，最后输出的为这个中心词的上下文，在大规模的数据集中Skip-Gram model训练速度快。使用Word2vec模型生成的词向量可以作为其他复杂的神经网络模型的预处理部分，即可作为原始数据提取的特征向量，并作为情感分类算法的输入来进行情感分析。

在进行文本情感分析时需要着重考虑其中所包含的情感信息，不能像传统的文本分类任务可以忽略情感信息，因为情感分析的目标就是要判断整个文本所表达的情感倾向性。要将情感信息在分类的过程中考虑进去，可以采用在现有基础词向量的同时加入情感因素，本发明所采用的方法就是在Word2vec模型生成词向量的同时加入情感信息，利用本发明构建好的领域情感词典，构建情感向量表示。具体方法是：利用构建的情感词典将情感词划分为5个维度，分别为评价对象词典、否定词典、程度副词词典、积极情感词典、消极情感词典，将情感信息以5维向量的形式表示，该词存在于那个词典中，该位置就为1，其余位置置0，相当于one-hot编码形式。

使用word2vec模型进行文本词向量的生成，使得文本中每个词由特定维度的实数向量表示，在原有基础上，加入情感因素，得到的词向量可以衡量词语间相似性的同时可以包含情感信息。

有了word2vec生成的词向量和情感信息后，需要考虑如何将两者有效的结合，让他们同时作为后续情感分类模型的特征向量输入，将情感信息有效的融入到词向量中。本发明将word2vec模型生成的词向量作为基础词向量B，并与生成的情感词向量E进行向量拼接融合，可以把情感信息考虑在内，组成一个新的融合情感信息的词向量X，表示为X＝[B；E]。其结构如图4所示。这种将情感信息与语义信息相融合的方法对情感分类准确率有显著提高。

图5和图6是经过python爬虫后从网络上收集的关于手机领域的评论数据集，分别为正面和负面的数据集。

为了比较基于情感词典和词向量融合得到的扩展词向量与传统词向量技术得到的特征词向量在手机评论领域情感分类的影响，设置了几组对比实验：Glove词向量CBOW词向量、Skip-gram词向量、ED-CBOW词向量(基于情感词典和CBOW词向量融合得到的扩展词向量，其中ED表示Emotion Dictionary)以及ED-Skip-gram词向量(基于情感词典和Skip-gram词向量融合得到的扩展词向量)对情感分类结果的影响。首先将语料库中评论信息进行预处理操作，其中分词操作将生成的领域情感词典导入提高分词准确性，预处理后训练生成融合词向量。为了简化实验，突出对比几个词向量模型的实验结果，这里选择支持向量机作为分类器，表1展示了在词向量维度为100维时，手机评论数据集中在不同词向量模型下在情感分类任务中的表现。其中分别列出了积极(Pos)、消极(Neg)以及整体测试集的准确率P、召回率R和F1值。由表可以看出，相较于Glove词向量、CBOW词向量、Skip-gram词向量，本发明提出的ED-CBOW词向量模型和ED-Skip-gram词向量模型具有较好的优势。ED-CBOW词向量模型的整体准确率为0.830，召回率为0.826、F1值为0.827，较CBOW词向量模型分别提高0.048、0.048、0.047；ED-Skip-gram词向量模型整体准确率0.847，召回率为0.827、F1值为0.837，较Skip-gram词向量模型分别提高0.046、0.035、0.041。同时ED-Skip-gram词向量模型的F1值达到同等条件下最好的效果，因此，证明了本发明提出的情感词典和词向量技术相融合的方法是较好的。如果单独来看某一类的话，可以看出ED-Skip-gram词向量模型在积极类和消极类中取得的准确率都最高，说明了该词向量模型下包含了更多的利于情感分类的语义信息。当在Word2vec词向量模型中加入5维度的情感特征时，使得扩充的词向量具有了情感信息，即最后形成的词向量特征既包含语义语法信息又包含情感信息。

表1

需要指出的是，上述较佳实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，具体步骤为：

2.根据权利要求1所述的基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，构建领域情感词典的具体方法为：

步骤1.4：构建程度词典，所述程度词典包括若干程度副词；

步骤1.5：构建否定词典；

3.根据权利要求2所述的基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，构建通用基础词典的具体方法为：将多个情感词典中的正向情感词、负向情感词以及程度副词相结合形成通用的情感词集；

对通用的情感词集中的情感词汇进行筛选，去除其中情感极性相反的词汇，将不同词典中的正面评价词语或者褒义词进行合并去重，形成一个新的通用基础词典的积极情感词典，将不同词典中的负面评价词语或者贬义词进行合并去重形成消极情感词典，组合形成通用基础情感词典。

4.根据权利要求2所述的基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，利用收集到的领域网络评论文本构建领域评论情感词典的具体方法为：对收集到的领域评论语料库进行预处理，根据统计的词频选择候选词汇，选择频次高于设定量且具有情感极性的积极情感词和消极情感词各若干个；

5.根据权利要求4所述的基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，采用改进后的SO-PMI算法计算候选词汇的情感极性的具体方法为：

6.根据权利要求1所述的基于改进SO-PMI算法和融合词向量的情感分析方法，其特征在于，将原始词向量与情感向量进行融合，生成融合情感信息的词向量的具体方法为：