CN108733653B

CN108733653B - 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

Info

Publication number: CN108733653B
Application number: CN201810481860.XA
Authority: CN
Inventors: 李瑞轩; 文坤梅; 黄伟; 李玉华; 辜希武; 昝杰; 龚晶
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2020-07-10
Anticipated expiration: 2038-05-18
Also published as: CN108733653A

Abstract

本发明公开了一种基于融合词性和语义信息的Skip‑gram模型的情感分析方法，包括：数据预处理、词性信息建模、词向量表示、语义信息建模、情感分析五个步骤。其中数据预处理包括过滤、分词、词性标注；词性信息建模包含基于上下文对词性信息建模；词向量表示模块在融合词性信息的Skip‑gram模型上进行向量训练；语义信息建模模块包括融合情感语义信息的文本表示。同现有技术相比，本发明考虑了单词的词性信息及情感语义信息，且在对单词的词性信息建模和融合语义信息的基础上,充分利用单词的词性信息帮助词向量训练以及情感语义先验信息帮助文本向量的学习，使得表示的文本向量更加符合语言学特征，对于情感分析有很好的结果。

Description

一种基于融合词性和语义信息的Skip-gram模型的情感分析方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于融合词性和语义信息的Skip-gram模型的情感分析方法。

背景技术

随着电子商务的发展，商品评论文本的情感分析与挖掘对于研究商品口碑、进行商品推荐都具有重要的价值，评论数据已成为企业提高商品质量和提升服务的重要数据源。

随着深度学习在音频、图像、视频领域所取得的巨大成就，用深度学习中的神经网络模型融合传统的机器学习模型，用低维度并能度量单词间的语义关联度的词向量替代传统词袋模型中采用的One-hot向量，在情感分析(Sentiment Analysis)、命名实体识别、机器翻译以及词性标注等多种自然语言处理任务中，相比于传统机器学习方法都取得了优越的性能表现。在处理中文文本时，分词后的单词是具有独特语义含义的最小单位。通过一定词法、语法规则将单词与上下文一起构成了短语、句子，而其上下文也是由多个单词构成的。在自然语言处理(Natural language processing，NLP)中，涉及到处理句子及文章，独立语义的单词表示的好坏直接影响模型的性能和质量。对于文本情感分类任务，单词的情感语义信息是影响商品评论情感的重要因素，合理利用单词的情感先验能够提高商品文本情感分析的准确度。单词向量合成文本向量的过程中，不同语义的单词对于文本向量的影响程度不同，例如：名词“苹果”和主观单词“喜欢”中，主观单词“喜欢”对于商品评论文本情感倾向有较大的影响。

Bengio等人提出了一种神经网络语言模型(Neural Network Language Model，NNLM)表示词向量的方法，该方法通过学习器将词表征为固定长度的向量，这些向量组成词向量空间，词与词之间的语义相似度通过坐标距离衡量，克服了one-hot表示方式的维灾、稀疏性等缺点；Bengio等人采用经典的三层前馈神经网络直接对n-gram语言模型进行求解，期间通过考虑投影层与输出层之间神经元相连的情形减少迭代次数，最后用softmax函数归一化得到词汇表每个单词的概率，并获取中间产物-词向量；Mikolov等人首次使用循环神经网络做语言模型，循环神经网络能够充分利用上下文词信息，将输出词频|V|分组为

均摊，时间复杂度为

通过这种方式学到的词向量几乎能够和词向量(上下文语义表示)的定义契合；Gittens等人证明当单词满足足Zipf分布时，通过Skip-Gram负采样训练的词向量具有矢量可加性的原因，并引入了KL-divergence相似度，证明了一系列上下文单词C₁,...,C_m和单词c对其它单词w而言具有相同的意义，即

Socher等人使用句法分析器构建句法树，树中的每个叶子节点代表单词，通过叶子节点合成子树-对应短语，网络合成的语义也表示为对应短语的语义，最终合成整个树；Kalchbrenner等人提出了动态卷积神经网络为句子建模，该模型在句子线性序列上使用动态K大池化技术，将输入句子合并为图，因为该模型没有依赖句子树的解析，所以模型适用性更强；Qian等人提出了基于语言正则的LSTM情感分析模型，模型的核心为在句子邻接的位置分别建立非情感正则、情感正则、否定正则、强度正则，之后作者为缓解否定和强度单词长度跨度问题将正则信息加入双向LSTM；Deriu等人扩充了单层的卷积神经网络到两层的卷积层、池化层，利用多种语言中的弱监督数据集训练卷积神经网络，验证在跨语言情感分析中预训练网络的重要性。

综上所述，目前已有的情感分析研究工作大都集中在提出不同的深度神经网络模型用于情感分析，模型改进上多集中于修改模型结构减少模型复杂度，其他的工作主要是进行跨语言的情感分析研究，而既融合词性信息的词向量训练又综合情感语义信息的情感分析工作很少，对于词性信息利用也不太合理，大多是通过选取词性的方式而不是将词性信息融入词向量模型。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有技术情感分析方法未考虑词性信息的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于融合词性和语义信息的Skip-gram模型的情感分析方法，该方法包括以下步骤：

步骤1.评论语料库预处理，得到文本训练集；

步骤2.基于文本训练集构建综合词性关联关系权重矩阵Z_n×n,n为词性的数量；

步骤3.基于综合词性关联关系权重矩阵Z_n×n，融合词性信息建立Skip-gram模型，基于该模型将文本训练集中每个单词转化为对应的词向量，得到词向量训练集；

步骤4.基于词向量训练集，将评论语料库中的每个评论文档，在由词向量组成文档向量的过程中，加入语言学语义信息，得到文档向量数据集；

步骤5.采用分类算法对文档向量数据集进行分类，实现情感分析。

具体地，预处理包括：过滤、分词、词性标注。

具体地，步骤2包括以下步骤：

步骤2.1.定义词性权重矩阵PW_n×n，根据不同词性对对于情感极性的影响人为赋值矩阵元素PW_ij，其中，PW_ij表示词性i-词性j词性对对于情感极性的影响权重，n为词性的数量；

2.2基于文本训练集构建词性关联矩阵M_n×n，矩阵元素M_ij的取值为词性i-词性j词性对在文本训练集中的出现频率；

2.3基于词性权重矩阵PW_n×n和词性关联矩阵M_n×n，计算综合词性关联关系权重矩阵Z_n×n，其计算公式如下：

Z_n×n＝M_n×n*PW_n×n (1)。

具体地，步骤3包括以下步骤：

3.1基于综合词性关联关系权重矩阵Z_n×n，融合词性信息建立Skip-gram模型，该模型采用负采样优化，目标函数表示如下：

其中，w为当前单词，C为文本训练集；

表示上下文单词；Context(w)表示上下文；

u表示负采样成功的单词，NEG(w)表示从语料库采样的负样本集；

标签L^w(u)表示负采样成功的概率函数，在负采样过程中，已知上下文Context(w)的条件下，采样到w为正采样，非w为负采样，L^w(u)的计算公式如下：

将词性信息融合进sigmoid单分类判别函数，计算公式如下：

其中，

表示上下文Context(w)中任一单词

的词向量的转置；θ^u表示分类器的参数，为优化目标函数后待求的参数，用于辅助求解最优化问题的向量；负采样单词u的词性为i，上下文任一单词为

的词性为j，单词u和

的词性关联关系为Z_ij，Z_ij表示综合词性关联关系权重矩阵第i行第j列元素；

3.2对整个文本训练集进行优化，使得目标函数最大，求解得到单词

的词向量

具体地，步骤4中使用权重加权法，在由词向量组成文档向量的过程中，入语言学语义信息，计算公式如下：

其中，v(D)表示文档向量，v(w)表示单词向量，D表示评论文档，SD表示情感词典，λ代表单词向量v(w)合成文档向量v(D)的权重。

可选地，步骤5之后，分别选取准确率、召回率、F1作为分类效果的评估指标来验证情感分析方法的有效性。

第二方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图情感分析方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明通过自定义词性影响权重矩阵、文本数据集统计构建词性关联矩阵，可以充分利用词性信息进行建模。

(2)本发明将词性信息融入基础Skip-Gram模型，使得模型包含丰富的语言学信息，并通过负采样加速模型训练过程。

(3)本发明利用情感语义先验信息生成文本向量，使得最终向量包含词性、语义信息，在情感分类任务中取得了良好的结果。

附图说明

图1为本发明实施例提供的一种基于融合词性和语义信息的Skip-gram模型的情感分析方法流程示意图。

图2为本发明实施例提供基于负采样优化策略的词性的增强Skip-gram算法伪代码示意图。

图3为本发明实施例提供的语义权重文档向量合成算法伪代码示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中语料库为网上下载的大众点评、京东等电子商务的中文商品评论数据集，该评论数据集主要为顾客对于商家的评论，数据集具有真实、客观性。

图1为本发明实施例提供的一种基于融合词性和语义信息的Skip-gram模型的情感分析方法流程示意图。如图1所示，该方法包括：

步骤1.评论语料库预处理，得到文本训练集。

具体包含以下步骤：

1.1对评论语料库中每个评论文档进行无用信息过滤；

利用java文件处理方法将多余无用的信息过滤掉，多余无用的信息包括：XML标签，HTTP链接和图片链接；空格，“、”，“@”、“#”，“$”等特殊字符。

例如，对于评论“派件太快了，第一次被这样的速度惊呆，超开心！”，经过步骤1.1之后，得到“派件太快了，第一次被这样的速度惊呆，超开心！”，滤掉了空格。

1.2对过滤后的评论语料库中每个评论文档进行分词和词性标注，得到文本训练集；

对于单词w_i，词性标注为p_i，单词和词性构成对应的单词-词性对<w_i,p_i>。

例如，“派件太快了，第一次被这样的速度惊呆，超开心！”分词后得到{派件太快了第一次被这样的速度惊呆超开心}，对其词性标注后，得到{派件-n,太快了-adj,第一次-adv,被-v,这样的-adj,速度-n,惊呆-v,超-adv>,开心-adj}，n、adj、adv、v为标注的词性。

可选用现有的中文自然语言处理的工具进行分词和标注，比如Hanlp，该工具中文词性标注兼容性良好，同时满足《ICTPOS3.0汉语词性标记集》和《现代汉语语料库加工规范——词语切分与词性标注》标注要求，词性标注过程中做到词性大类与小类同时标注，标注尽可能详尽。

因为需要使得词向量包含尽可能多的语料信息，所以将词性标注信息转化为对应的数学符号进行描述，将词的词性信息直接融入模型，因此词性建模作为必要的过程。

具体包括以下步骤：

词性和词性之间对于情感影响具有不同的权重，例如，形容词-形容词词性对对于情感的影响可能更加强烈，赋值可能大一些；名词-名词词性对对于情感的影响可能更加强烈，赋值可能小一些。

例如，词性数量为两种——动词和形容词，词性权重矩阵

其中，1代表动词与动词对于情感影响的权重，2代表动词与形容词对于情感影响的权重；3代表形容词与动词对于情感影响的权重，4代表形容词与形容词对于情感影响的权重。

2.2基于文本训练集构建词性关联矩阵M_n×n，矩阵元素M_ij的取值为词性i-词性j词性对在文本训练集中的出现频率。

针对不同的语料库，词性对于情感极性的影响还和语料相关，不同的语料词性频率占比千差万别，即语料中的词性也对于情感倾向起着至关重要的作用。

例如，对于单词“太快了”、“这样的”、“开心”，存在三个单词对“太快乐-这样的”、“太快了-开心”、“这样的-开心”。这三个单词对的词性对均为“形容词-形容词”，统计词性对“形容词-形容词”在整个语料库中出现的频率，将频率作为“形容词-形容词”词性对的影响权重。

Z_n×n＝M_n×n*PW_n×n (1)

词性权重矩阵PW_n×n是一种情感影响重要程度的先验信息，词性关联矩阵M_n×n是语料变化的统计信息，可以理解为一种条件信息。根据这两类信息计算综合词性影响权重信息，得到综合词性关联关系权重矩阵。

词向量表示基于分布假设“一个单词的语义信息由单词的上下文决定”，核心观点是通过词的上下文、词与词之间的词性语义关系进行词向量的建模。

对词性信息进行建模后，已经将语言信息转化为数学符号信息，为词性加入模型提供了可能性。在已有Skip-Gram模型的基础上加入词性等自然语言特性增强词向量的学习，得到一种基于负采样的词性与位置信息增强Skip-gram模型。该模型的输入为当前单词w和上下文Context(w)，输出为上下文单词

的词向量

对于整个文本训练集而言，需要定义一个目标函数，训练整个文本训练集，使得目标函数的概率最大。

图2为本发明实施例提供基于负采样优化策略的词性的增强Skip-gram算法伪代码示意图。如图2所示，步骤3具体包括以下步骤：

其中，w为当前单词，C为文本训练集；

表示上下文单词；Context(w)表示上下文；

标签L^w(u)表示负采样成功的概率函数，在负采样过程中，已知上下文Context(w)的条件下，采样到w为正采样，非w为负采样。L^w(u)的计算公式如下：

将词性信息融合进sigmoid单分类判别函数，计算公式如下：

其中，

表示上下文Context(w)中任一单词

的词性为j，单词u和

的词性关联关系为Z_ij，Z_ij表示综合词性关联关系权重矩阵第i行第j列元素。

例如，已知当前单词w为“第一次”，则Context(w)＝{派件,太快了，被，这样的，速度，惊呆，超，开心}。单词“第一次”为正样本，此时单词“第一次”的标签为1，对于其他单词如“派件”、“太快了”、“被”、“这样的”、“速度”、“惊呆”、“超”、“开心”等就是负样本，其标签为0。

的词向量

目标函数最大，实际上是求L′＝L^w(u)·log[f_neg]+(1-L^w(u))·log[1-f_neg](6)的最优解。分别求L′关于参数θ^u、

和Z_ij的梯度，求得更新迭代公式，遍历整个文本训练集获取对应的中间产物-词向量

每个单词对应一个词向量。

首先计算L′关于θ^u的梯度，计算公式如下：

参数θ^u的迭代更新公式如下：

再考虑计算L′关于词向量

的梯度变化，计算公式如下：

词向量的迭代更新过程如下：

最后计算L′对于Z_ij的梯度，计算公式如下：

关联权重的更新公式如下：

步骤4.基于词向量训练集，将评论语料库中的每个评论文档，在由词向量组成文档向量的过程中，加入语言学语义信息，得到文档向量数据集。

为充分利用已有的研究成果，本方法选取尽可能多的情感词典作为语言学语义信息，尽量保证情感词典的完整性。在由词向量组成文档向量的过程中，如何加入语言学语义信息，本发明使用权重加权法，计算公式如下：

其中，v(D)表示文档向量，v(w)表示单词向量，D表示评论文档，SD表示情感词典，λ代表单词向量v(w)合成文档向量v(D)的权重，整个过程如图3所示。

如果评论文档中出现了情感词典中的先验词语，认为该向量对于文档的情感倾向影响大，为合成文档向量赋予一定的权重信息，否者把该词当做普通词语对待，进行单词向量的简单加和。每一篇文档对应一个文档向量。

本发明综合选取了清华大学中文褒贬义词典、台湾大学NTUSD简体中文情感词典和知网Hownet情感词典，总共包含了12000个positive情感单词和15000个negative单词。

分类算法是现有的经典分类算法，例如，Adboost、GBDT、SVM、Decision Tree、Random Forest等。

分别选取准确率(Precision)、召回率(Recall)、F1作为分类效果的评估指标来验证情感分析方法的有效性。

实验结果表明，在加入了词性和情感语义信息后能够显著提升情感分析的效果，分类准确率、召回率、F1值都有一定程度的提高。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于融合词性和语义信息的Skip-gram模型的情感分析方法，其特征在于，该方法包括以下步骤：

步骤1.评论语料库预处理，得到文本训练集；

步骤5.采用分类算法对文档向量数据集进行分类，实现情感分析；

步骤2包括以下步骤：

步骤2.1.定义词性权重矩阵PW_n×n，根据不同词性对对于情感极性的影响人为赋值矩阵元素PW_ij，其中，PW_ij表示词性i-词性j词性对对于情感极性的影响权重；

Z_n×n＝M_n×n*PW_n×n (1)

步骤3包括以下步骤：

其中，w为当前单词，C为文本训练集；

表示上下文单词；Context(w)表示上下文；

将词性信息融合进sigmoid单分类判别函数，计算公式如下：

其中，

表示上下文Context(w)中任一单词

的词性为j，单词u和

的词向量

2.如权利要求1所述的情感分析方法，其特征在于，预处理包括：过滤、分词、词性标注。

3.如权利要求1所述的情感分析方法，其特征在于，步骤4中使用权重加权法，在由词向量组成文档向量的过程中，加入语言学语义信息，计算公式如下：

4.如权利要求1所述的情感分析方法，其特征在于，步骤5之后，分别选取准确率、召回率、F1作为分类效果的评估指标来验证情感分析方法的有效性。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的情感分析方法。