CN109858034A

CN109858034A - 一种基于注意力模型和情感词典的文本情感分类方法

Info

Publication number: CN109858034A
Application number: CN201910136963.7A
Authority: CN
Inventors: 刘金硕; 杨广益; 邓娟; 李晨曦; 李扬眉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-07
Anticipated expiration: 2039-02-25
Also published as: CN109858034B

Abstract

本发明公开了一种基于注意力模型和情感词典的文本情感分类方法，首先获取需要进行情感分类的目标文本数据集，一部分用作训练集，另一部分作为测试集；并对目标文本数据集进行预处理，生成情感词典；然后基于情感词典，获取对文本数据具有情感表达作用的情感特征；接着获取文本中各词语的词向量，基于词向量和情感特征，计算目标文本的情感特征向量E₁；最后基于注意力模型，通过目标文本的情感特征向量获取情感分类结果。本发明通过构建注意力模型，结合情感词典，能进行快速准确的文本情感分类。

Description

一种基于注意力模型和情感词典的文本情感分类方法

技术领域

本发明属于计算机信息处理技术领域，涉及一种文本情感分类方法，具体涉及一种基于注意力模型和情感词典的文本情感分类方法。

背景技术

随着近年来移动互联网技术的快速发展，社交网络用户量逐年增长，人们在社交方在网络上进行的信息交互活动日趋频繁，也更倾向于在社交网络平台上发布带有情感态度的内容。由于中文的语义语法特性以及网络流行语更新迅速，传统的文本情感分类方法不能满足当下对情感分析内容的挖掘需求。

文本情感分类的目的是利用情感分析技术，对包含用户表示的观点、喜好、情感等主观性文本进行识别检测。现有的技术中，分类方法主要分类两种：第一种是基于规则的情感分类，基于手工建立的情感词典和外部资源库生成情感分类模板，然后利用模板匹配来完成分类任务；第二种是基于统计的情感分类方法，该方法在语料库的基础上以机器学习的手段进行特征抽取和分类研究。

但是在上述现有技术中，基于规则的情感分类方法无法应对目前网络日渐增长的衍生词汇，因此分类效果不够理想；基于统计的情感分类方法，由于中文表达形式的多样性和复杂性，该方法存在特征表达困难所照成的语义缺失问题。同时，上述技术没有考虑到分类的时效性，对于不同粒度和长度的文本，不能够达到需要的效果。

发明内容

本发明针对社交网络上带有大量频繁衍生词的情感内容而不能有效地进行情感分类的难题，提供了一种基于注意力模型和情感词典的文本情感分类方法，通过构建注意力模型，结合情感词典，进行快速准确的文本情感分类。

本发明所采用的技术方案是：一种基于注意力模型和情感词典的文本情感分类方法，其特征在于，包括以下步骤：

步骤1：获取需要进行情感分类的目标文本数据集，一部分用作训练集，另一部分作为测试集；并对目标文本数据集进行预处理，生成情感词典；

步骤2：基于情感词典，获取对文本数据具有情感表达作用的情感特征；

步骤3：获取文本中各词语的词向量，基于词向量和情感特征，计算目标文本的情感特征向量E₁；

步骤4：基于注意力模型，通过目标文本的情感特征向量获取情感分类结果。

本发明具有如下优点：

(1)速度快，能够根据文本结构，基于注意力模型中的层次方法进行特征选择，通过并行加速方式快速得到文本的情感分类结果；

(2)准确性高，能够结合网络衍生词，正确识别出用户的情感倾向；

(3)通用性强，能够根据不同领域的情感词典，针对性地对不同领域的文本进行分类。

附图说明

图1是本发明实施例中流程图；

图2是本发明实施例中情感词典生成流程图；

图3是本发明实施例中情感特征构建流程图；

图4是本发明实施例中情感特征向量构建流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明针对社交网络上大量带有更新迅速的衍生词的情感内容不能有效地进行情感分类的难题，通过情感词聚类产生文本的情感特征，利用注意力模型和情感词典，进行快速准确的文本情感分类。

请见图1，本发明提供的一种基于注意力模型和情感词典的文本情感分类方法，包括以下步骤：

请见图2，步骤1的具体实现包括以下子步骤：

步骤1.1：对需要进行情感分类的目标文本进行分词；

步骤1.2：利用目标文本数据集，分别统计hownet或wordnet词典中的情感词语在目标文本数据集中出现的频次，按照频次进行降序排序；分别选择排序后前k个词(k为可调参数，可根据实际的数据集规模进行调整；本实施例中k设置为了200)分别构建正向情感词典和负向情感词典，记为P和N，初始化后的P和N分别有k个词；

步骤1.3：计算分词后获得的各个单词在训练集中出现的词频和情感词的共现频率，基于公式计算PMI(w,e)；其中，PMI(w,e)表示词语w和e的pmi值，w表示目标词汇，e表示情感词典中的某个情感词，Pw代表目标词汇w的词频，pe代表情感词e的词频，Pwe代表w和e的共现频率；

步骤1.4：基于PMI(w,e)，利用DPMI算法获取训练集中的词语情感值，记为DPMI(w)，根据阈值T和DPMI(w)将词语加入对应的情感词典；

DPMI(w)＝∑d(w,e⁺)PMI(w,e⁺)-∑d(w,e^-)PMI(w,e^-)；

其中，e⁺和e^-分别属于正向情感词典和负向情感中的词；d(w,e)为词w和词e在文本中的距离因子，两词相聚越远，则相关性越弱；距离因子是词语距离的倒数，词语距离是文本中词语w和词语e中间相隔的词语数目；当DPMI(w)<T时，将词语作为候选正向情感词，加入到正向情感词典中；当DPMI(w)<-T时，将词语作为候选负向情感词，加入到负向情感词典中。

步骤1.5：基于训练所需的迭代次数，更新P和N；最终生成包括P和N在内的情感词典。

请见图3，步骤2的具体实现包括以下子步骤：

步骤2.1：计算情感词典中所有情感词的情感系数X；

对于给定目标词语w，预处理过程中已对词语w所属情感倾向和类别进行了标记，其中类别记为L；则：

1.在类别为L的文档中，存在目标词语w的文本数，记为A；

2.在类别非L文档中，存在w的文本数，记为B；

3.在类别为L的文档中，不存在w的文本数，记为C；

4.在类别非L文档中，不存在w的文本数，记为D；

M为文档总数M＝A+B+C+D；

步骤2.2：设置阈值T，基于情感系数X过滤情感词典中的噪音词语；

当情感系数X的值小于阈值T的时候，X所对应的目标词语，情感表达能力不足，应将其从对应的情感词典中去除；

步骤2.3：采用k-means算法分别对正向情感词典和负向情感词典进行聚类，聚类个数记为k；聚类产生的类，就是情感特征；

步骤2.4：获取两个情感词之间的语义相似度ρ；

式中，W₁、W₂为目标情感词1和目标情感词2的词向量。

请见图4，步骤3的具体实现包括以下子步骤：

步骤3.1：基于词向量工具，获取文本中各词语的词向量；

步骤3.2：给定一个可调参数，用于限定情感词与修饰词的距离，记为窗口；统计窗口内与目标情感词相关的修饰词，为情感词设置权重；其中，相关的修饰词，是指在句子范围内与情感词相匹配的修饰词；

修饰词中的形容词、修饰语名词和连词是目标词的左上下文特征，需过单向遍历获取权重；修饰词中的副词是目标词的左上文特征和右上下文特征，需通过双向遍历获取权重。

步骤3.3：结合词向量与情感特征，采用向量拼接的方式，得到情感特征向量E₁。

步骤4：基于注意力模型，通过目标文本的情感特征向量获取情感分类结果；

步骤4的具体实现包括以下子步骤：

步骤4.1：构建四层注意力模型；

四层注意力模型：包括标题、标题加上第一个/最后一个句子加主题、标题加上前3段和最后一段、全文的其余部分；

采取不同的层时，所需的数据量是不同的，层数越大，文本处理粒度越细，数据量越大，因此形成的向量的维度也越大；在选取注意力模型层的时候，确定了计算量，也即计算出了向量维度；

步骤4.2：根据文本的段落结构，将经过维度计算的情感特征向量作为TextCNN分类模型(用于进行文本分类的卷积神经网络模型(Convolutional neural network))的输入；

步骤4.2：基于统计递归单元SRU，对文本处理进行并行加速计算；

步骤4.3：根据从输出结果中选择概率最大的值所在类别作为目标文本的情感分类结果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于注意力模型和情感词典的文本情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.1：对需要进行情感分类的目标文本进行分词；

步骤1.2：利用目标文本数据集，分别统计hownet或wordnet词典中的情感词语在目标文本数据集中出现的频次，按照频次进行降序排序；分别选择排序后前k个词分别构建正向情感词典和负向情感词典，记为P和N，初始化后的P和N分别有k个词；

3.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于：步骤1.4中，

DPMI(w)＝∑d(w,e⁺)PMI(w,e⁺)-∑d(w,e^-)PMI(w,e^-)；

4.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：计算情感词典中所有情感词的情感系数X；

1.在类别为L的文档中，存在目标词语w的文本数，记为A；

2.在类别非L文档中，存在w的文本数，记为B；

3.在类别为L的文档中，不存在w的文本数，记为C；

4.在类别非L文档中，不存在w的文本数，记为D；

M为文档总数M＝A+B+C+D；

步骤2.4：获取两个情感词之间的语义相似度ρ；

式中，W₁、W₂为目标情感词1和目标情感词2的词向量。

5.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：基于词向量工具，获取文本中各词语的词向量；

6.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于：步骤3.2中，修饰词中的形容词、修饰语名词和连词是目标词的左上下文特征，需过单向遍历获取权重；修饰词中的副词是目标词的左上文特征和右上下文特征，需通过双向遍历获取权重。

7.根据权利要求1所述的基于注意力模型和情感词典的文本情感分类方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.1：构建四层注意力模型；

所述四层注意力模型：包括标题、标题加上第一个/最后一个句子加主题、标题加上前3段和最后一段、全文的其余部分；

步骤4.2：根据文本的段落结构，将经过维度计算的情感特征向量作为TextCNN分类模型的输入；