CN111221962B

CN111221962B - 一种基于新词扩展与复杂句式扩展的文本情感分析方法

Info

Publication number: CN111221962B
Application number: CN201911127095.2A
Authority: CN
Inventors: 刘洪涛; 孙桂
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2023-05-26
Anticipated expiration: 2039-11-18
Also published as: CN111221962A

Abstract

本发明请求保护一种基于新词扩展与复杂句式扩展的文本情感分析方法，包括步骤：S1，首先根据已有的情感词典构建基础词典，对已有词典进行清理和筛选；S2，对导入的中文语料进行数据清理，并根据基础情感词典对特定领域的情感词进行扩充；S3，在已有的方法的基础上，综合词频、词性和相似度计算，发现特定领域的新词并添加到基础词典中；S4，对中文句式结构进行分析，总结归纳出句式模型，并通过不同的模型来判断句子情感极性；S5，得出适合本方法的算法选择器，综合词典和句式模型得出句子极性结果。本发明相较于传统的情感词典+机器学习方法，专注于在特定领域的短文本句子情感识别，无论是准确率还是召回率都得到明显提高。

Description

一种基于新词扩展与复杂句式扩展的文本情感分析方法

技术领域

本发明属于文本分类情感分析领域，特别是涉及特定领域短文本情感分类的分析方法。

背景技术

交互的便捷使网络成为了人们越来越喜欢表达自己观点和相互交流的主要方式之一。网络上产生的主观性文本包含大量有用情感信息。越来越多的人们习惯在这些平台上表达自身积极、中立或者消极的情绪,以及对使用产品的偏好。因此各种购物网站、微博、论坛等平台的评论会成为消费者做出购买决策的依据。

由于网络评价信息非常庞大，依靠人工的方法是不可行的，效率非常低并且也难以找出真正有价值的信息，因此，快速对这些信息进行有效的处理及分析是当前的迫切需求。怎样把蕴含文本里的情感信息挖掘出来，通过相应技术对网络评论进行情感倾向性判别是当下的研究热点。

当前现有的文本情绪分析和情感分类的研究，只是添加了日常网络用语，却忽略了特定的词语在不同的语境下有不同的含义，忽略了特定的情境背景。另外各个社交平台评论语料中短文本较多，中文句式较随意，复杂句式结构也给句子情感极性的判断增加了难度。

鉴于以上问题，本研究主要解决两方面的内容：特定领域的新词扩展和基于情感词组的复杂句式模型。第一方面采用《知网》公开词典，利用Word2Vec词向量方法进行词性和词频筛选，将新词扩展集中在较小特定领域，在通过词向量之间的相似度计算，得出近义词组，解决了一些日常用语在不同背景下含义不同的问题；第二方面在关联词分类和情感词组的基础上构建句式模型，解决了中文短文本在结构和语义方面的问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于新词扩展与复杂句式扩展的文本情感分析方法。本发明的技术方案如下：

一种基于新词扩展与复杂句式扩展的文本情感分析方法，其包括以下步骤：

S1，首先计算机根据网络公开的情感词典，如知网HowNet情感词典和台湾大学简体中文情感词典相结合构建本发明所需的基础词典，并对两个词典中的重复词和偏义词进行清理和筛选；

S2，计算机获取社交平台中文预料，对中文语料进行数据清理，并根据基础情感词典对特定领域的情感词进行扩充；

S3，在Word2Vec词向量的基础上，综合词频、词性和相似度计算，获取领域新词来扩展基础词典；

S4，通过人工对照8种中文复杂句式结构进行分析，总结归纳出基于情感词组情感极性的通用句式模型，将输入的句子划分为不同的模型来判断句子情感极性；

S5，计算机采用朴素贝叶斯算法分类器，综合词典和句式模型得出句子极性结果。

进一步的，所述步骤S1计算构建基础情感词典的步骤具体为：

基础情感词典的构建本文采取知网Hownet词典和台湾大学简体中文情感词典相结合，并将两个词典进行去重，共取得正向情感词3646个，负向情感词9530个，否定词31个。

进一步的，所述步骤S2数据清理的步骤包括：

(1)剔除html格式代码，清除URL链接；

(2)剔除用户名；

(3)利用结巴分词对文本评论进行分词处理，同时手动加入领域专有名词；

(4)选择常用的停用词表对已分词文本进行去停用词处理；

处理完的文本数据设置为DataFrame数据格式，并将正、负极性的文本加入类别标签，分别用+1和-1表示。

进一步的，步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下：

输入：特定领域评论数据集；

输出：完整的情感词典；

在步骤S2的基础上对数据做如下操作：

第一步：进行词性统计，选出名词、动词、形容词和副词；

第二步：在所选词性统计基础上进行词频统计，按照词频的高低进行排序，并人工选出情感倾向比较明显的正面种子词和负面种子词；

第三步：通过Word2Vec训练已清理好的语料数据集，得到语料中单词的词向量；

第四步：通过词向量计算单词与正、负面种子词之间的余弦值，并按照高低排序选取n个近义词作为候选词；

第五步：将特定领域确定情感倾向的候选词与基础情感词典合并，得到完整的情感词典。

进一步的，所述Word2vec采用一个三层的神经网络，输入层-投影层-输出层，CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和，再根据建立对数线性类器以及上下词汇的训练结果，CBOW就能够对中心词正确地进行预测，CBOW利用目标词w_(t)前后各c个词去预测前当词，令(Context(w),w)作为训练样本，Context(w)表示w前后各c个词语组成；

a、输入层：当前词w_(t)的前后的2c个词语向量是输入，令m作为整个句子所包含词的数量，V(Context(w)₁)，V(Context(w)₂)...V(Context(w)_2c)∈Rm；b、投影层：向量Xw为该2c个词语向量的累加和，也就是

c、输出层：一棵Huffman树，树的叶子节点就是训练文本中所包含的词汇，权值为每个词汇在训练文本中出现的频数。

进一步的，所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度，找到近义词组，余弦相似度算法为：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似；余弦值接近于0，夹角趋于90度，表明两个向量越不相似；

二维空间中余弦函数的公式：

x₁、x₂分别表示两个向量的横坐标，y₁、y₂分别表示两个向量的纵坐标，多维空间余弦函数的公式为：

x_i、y_i表示多维空间中多个向量的横纵坐标值；

本文根据计算得到的余弦相似度高低排序，选取与每个情感种子词最相近的10个近义词组构成候选词集。

进一步的，所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤：利用Word2Vec对语料集进行词向量训练，按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取，程度副词来源于《知网》情感分析用词语集，词典内数据格式有两列，一列是程度副词，另一列是程度值；一方面构造情感词组，本研究中定义情感词组为一个个短语，即由否定词、程度副词和情感词构成，结构如下：

P＝W_n*N+W_d+W_s (1)

其中，P代表短语即情感词组；W_n表示否定词，N表示否定词个数；W_d表示程度副词，W_s表示情感词；

另一方面基于情感词组构造特征词序列来进行情感倾向的判断：设定第一类，第二类，第三类关联词分别为W1，W2，W3，复杂句式判断规则总结如下：

W₁+P+W_po/W_ne+其他 (2)

W₁+P+W_po/W_ne+？ (3)

W₂/W₃+P+W_po/W_ne+其他 (4)

正向词W_po极性值+1，负向词W_ne极性值-1，偶数否定词极性乘以+1，奇数否定词极性乘以-1；P的极性值S_p由式(1)计算；(5)

句式匹配过程如下：

输入：情感词典，模型关联词典，否定词典，数据文本；

输出：文本评论的情感类别；

第一步：将分词文本与3类词典进行单词匹配，将短文本中情感词、程度副词、否定词找出构造情感短语词组，结合关联词构造句式模型；

第二步：遍历特征词序列，如果前句中发现第一类关联词W1，继续向后遍历

(1)若后面没有其他关联词,根据规则2,5；

(2)若后半句无其他关联词有“？”，判定为反问句，根据式3判断

第三步：遍历特征词序列，如果发现W2：

遍历后句，若有关联词，根据规则4,5判定整句情感倾向；

第四步：遍历特征词序列，若发现W3，前后表一致，按照规则4,5判定整句情感倾向。

进一步的，所述步骤S5中关于机器学习算法分类器选择朴素贝叶斯作为分类器。

本发明的优点及有益效果如下：

1.本发明将新词扩展加入到对特定领域的文本情感分析中，在原有基本情感词典的基础上添加一批特定领域的网络新词。由于词语在不同语境背景下会有不同的含义，传统词典不在具有普适性，因此本文利用Word2vec词向量的方法扩充领域情感词，以提高对特定领域短评的情感识别。本发明以酒店评论作为数据集，包含酒店评论中获取的新词的情感词典与加入普通网络新词的词典相比，前者更具有针对性，对句子情感极性的识别也更加准确。

2.针对中文复杂的句式结构，本研究提出复杂句式模型并在扩展词典的基础上与机器学习方法相结合进一步提高识别文本情感倾向的准确率。对于短文本评论中存在各类复杂句式的情况下，句式和句法有很大的随意性，本研究在8种复杂句式的基础上总结的句式模型分类器更适合短文本情感分类。

3.对于分类器的选择，本发明利用另外的数据集进行准确率对比，得出适用于本模型和方法的分类器，使得实验结果更加准确。

附图说明

图1是本发明提供优选实施例实验整体流程图；

图2为word2vec CBOW模型；

图3为本研究分类模型；

图4为新词发现‘舒服’的近义词组。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

S1：构建基础情感词典，采用知网HowNet情感词典和台湾大学简体中文情感词典相结合来构建基础情感词典，并将两个词典进行去重，共取得正向情感词3646个，负向情感词9530个。否定词31个。

S2：通过以下步骤进行数据清理

(1)剔除html格式代码，清除URL链接；

(2)剔除用户名。用户名称中会含有情感极性的词，会影响句子的极性判断；

(3)利用结巴分词对文本评论进行分词处理，同时手动加入领域专有名词以提高分词的准确率；

(4)选择常用的停用词表对已分词文本进行去停用词处理。

处理完的文本数据设置为DataFrame数据格式方便使用，并将正、负极性的文本加入类别标签，分别用+1和-1表示。

S3：数据清理完成后，就要在此基础上进行特定领域的新词扩充。

通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下：

输入：特定领域评论数据集；

输出：完整的情感词典；

在步骤S2的基础上对数据做如下操作：

第一步：进行词性统计，选出名词、动词、形容词和副词等；

Word2vec采用一个三层的神经网络如图1所示：输入层-投影层-输出层。CBOW从输入层到投影层的过程就是将上下文向量进行加权求和，再根据建立对数线性类器以及上下词汇的训练结果，CBOW就能够对中心词正确地进行预测。CBOW利用词w_(t)前后各c(这里c＝2)个词去预测前当词。令(Context(w),w)作为训练样本，Context(w)表示w前后各c个词组成。

a、输入层：当前目标词w_(t)的前后的2c个词向量是输入，令m作为整个句子所包含词的数量，V(Context(w)₁)，V(Context(w)₂)...V(Context(w)_2c)∈R^m。b、投影层：向量X_w为该2c个词向量的累加和，也就是

第四步：通过词向量计算单词与正、负面种子词之间的余弦值，并按照高低排序选取n个词语作为候选词；

得到情感种子词后利用Word2Vec计算与种子词的余弦相似度，找到近义词组。余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似；余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

二维空间中余弦函数的公式：

多维空间余弦函数的公式为：

本文根据计算得到的余弦相似度高低排序，选取与每个情感种子词最相近的10个近义词组构成候选词集，例如正面情感种子词“舒服”的近义词组如图2所示。

通过以上五个步骤可以得到特定领域的新词，并完成对基础情感词典的扩充。本文选取的特定领域的语料集是酒店评论语料，扩充该领域消极情感词371个，积极情感词408个。最后得到完整的情感词典，褒义词4054个，贬义词9901个。

S4：新词扩充完成后就要对中文复杂句式进行建模。本文利用Word2Vec对语料集进行词向量训练，按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取。程度副词来源于《知网》情感分析用词语集，词典内数据格式有两列，一列是程度副词，另一列是程度值；一方面构造情感词组，本研究中定义情感词组为一个个短语，即由否定词、程度副词和情感词构成，结构如下：

P＝W_n*N+W_d+W_s (1)

其中，P代表短语即情感词组；W_n表示否定词，N表示否定词个数；W_d表示程度副词，W_s表示情感词。

W₁+P+W_po/W_ne+其他 (2)

W₁+P+W_po/W_ne+？ (3)

W₂/W₃+P+W_po/W_ne+其他 (4)

正向词W_po极性值+1，负向词W_ne极性值-1，偶数否定词极性乘以+1，奇数否定词极性乘以-1；P的极性值S_p由式(1)计算。 (5)

句式匹配过程如下：

输入：情感词典，模型关联词典，否定词典，数据文本；

输出：文本评论的情感类别；

(1)若后面没有其他关联词,根据规则2,5；

第三步：遍历特征词序列，如果发现W2：

遍历后句(若有关联词)，根据规则4,5判定整句情感倾向；

S5：扩展词典和句式模型搭建好之后就选择合适的分类器进行实验。关于分类器的选择，现在研究中比较著名的分类算法有决策树、随机森林、支持向量机和朴素贝叶斯等等。为了对比不同分类器的分类效果，本研究通过选择另外一个数据集利用以上提到的分类器进行实验，来确定哪一个分类器更好并将其作为复杂句式分类器算法。

数据来源：分类器对比选择的实验数据集来自搜狗实验室公开数据集新闻分类数据，包含国内、国外、体育、社会、娱乐等18个新闻频道。为了实验的可行性，我门选取了部分数据，数据规模为5000条，4个特征，部分数据如下图3所示。评价标准为分类准确率P。

准确率即预测正确的结果占总样本的百分比，表达式如下：

其中，TP表示预测为1，实际为1，预测正确；TN表示预测为0，实际为0，预测正确；FP表示预测为1，实际为0，预测错误；FN表示预测为0，实际为1，预测错误。根据实验结果得出朴素贝叶斯的准确率最高，所以选择朴素贝叶斯作为分类器。

该基于新词扩展与复杂句式扩展的文本情感分析方法，不仅可以在特定领域的文本情感识别方面提高准确率，而且基于本发明的句式模型对于短文本的情感极性识别实用性更强。这为以后自然语言处理，在中文文本分类情感识别方面提供了一种更加高效的方法。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于新词扩展与复杂句式扩展的文本情感分析方法，其特征在于，包括以下步骤：

S1，首先计算机根据网络公开的情感词典，知网HowNet情感词典和台湾大学简体中文情感词典相结合构建所需的基础词典，并对两个词典中的重复词和偏义词进行清理和筛选；

S5，计算机采用朴素贝叶斯算法分类器，综合词典和句式模型得出句子极性结果；

步骤S3中通过Word2Vec方法获取领域新词来扩展基础词典的具体过程描述如下：

输入：特定领域评论数据集；

输出：完整的情感词典；

在步骤S2的基础上对数据做如下操作：

第一步：进行词性统计，选出名词、动词、形容词和副词；

第五步：将特定领域确定情感倾向的候选词与基础情感词典合并，得到完整的情感词典；

所述Word2Vec采用一个三层的神经网络，输入层-投影层-输出层，CBOW连续词袋模型从输入层到投影层的过程就是将上下文向量进行加权求和，再根据建立对数线性分类器以及上下词汇的训练结果，CBOW就能够对中心词正确地进行预测，CBOW利用目标词w前后各c个词去预测前当词，令(Context(w),w)作为训练样本，Context(w)表示w前后各c个词语组成；

a、输入层：当前词w的前后的2c个词语向量是输入，令m作为整个句子所包含词的数量，V(Context(w)₁)，V(Context(w)₂)...V(Context(w)_2c)∈R^m；

b、投影层：向量X_w为该2c个词语向量的累加和，也就是

c、输出层：一棵Huffman树，树的叶子节点就是训练文本中所包含的词汇，权值为每个词汇在训练文本中出现的频数；

所述第四步得到情感种子词利用Word2Vec计算与种子词的余弦相似度，找到近义词组，余弦相似度算法为：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似；余弦值接近于0，夹角趋于90度，表明两个向量越不相似；

二维空间中余弦函数的公式：

x₁、x₂分别表示两个向量的横坐标，y₁、y₂分别表示两个向量的纵坐标，

多维空间余弦函数的公式为：

x_i、y_i表示多维空间中多个向量的横纵坐标值；

本文根据计算得到的余弦相似度高低排序，选取与每个情感种子词最相近的10个近义词组构成候选词集；

所述步骤S4中关于基于中文情感词组复杂句式模型的构建包括步骤：利用Word2Vec对语料集进行词向量训练，按照已经构造好的复杂句式模型分别对基础情感词典、领域情感词典、关联词表、否定词表、程度副词表进行特征提取，程度副词来源于《知网》情感分析用词语集，词典内数据格式有两列，一列是程度副词，另一列是程度值；一方面构造情感词组，本研究中定义情感词组为一个个短语，即由否定词、程度副词和情感词构成，结构如下：

P＝W_n*N+W_d+W_s (1)

W₁+P+W_po/W_ne+其他 (2)

W₁+P+W_po/W_ne+？ (3)

W₂/W₃+P+W_po/W_ne+其他 (4)

正向词W_po极性值+1，负向词W_ne极性值-1，偶数否定词极性乘以+1，奇数否定词极性乘以-1；P的极性值S_p由式(1)计算；

句式匹配过程如下：

输入：情感词典，模型关联词典，否定词典，数据文本；

输出：文本评论的情感类别；

(1)若后面没有其他关联词,根据规则2,5；

第三步：遍历特征词序列，如果发现W2：

遍历后句，若有关联词，根据规则4,5判定整句情感倾向；

第四步：遍历特征词序列，若发现W3，前后表述一致，按照规则4,5判定整句情感倾向。

2.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法，其特征在于，所述步骤S1计算构建基础情感词典的步骤具体为：

基础情感词典的构建采取知网Hownet词典和台湾大学简体中文情感词典相结合，并将两个词典进行去重，共取得正向情感词3646个，负向情感词9530个，否定词31个。

3.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法，其特征在于，所述步骤S2数据清理的步骤包括：

(1)剔除html格式代码，清除URL链接；

(2)剔除用户名；

(4)选择常用的停用词表对已分词文本进行去停用词处理；

4.根据权利要求1所述的一种基于新词扩展与复杂句式扩展的文本情感分析方法，其特征在于，所述步骤S5中关于机器学习算法分类器选择朴素贝叶斯作为分类器。