CN108804612B

CN108804612B - 一种基于对偶神经网络模型的文本情感分类方法

Info

Publication number: CN108804612B
Application number: CN201810539239.4A
Authority: CN
Inventors: 夏睿; 郑士梁
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2021-11-02
Anticipated expiration: 2038-05-30
Also published as: CN108804612A

Abstract

本发明公开了一种基于对偶神经网络模型的文本情感分类方法，包括以下步骤：步骤一、对评论文本进行中文分词及停词过滤；步骤二、构造原始训练集，并使用提出的反转规则对原始训练集进行情感反转，得到反转训练集；步骤三、使用步骤二中得到的原始训练集和反转训练集对模型进行训练；步骤四、对测试数据进行与步骤一相同的预处理，构造反义测试文本；步骤五、使用情感分类模型，对反义测试文本进行情感分类；本发明从文本的正面对文本进行表示，同时利用反义词典对文本进行情感反转，能够利用情感词典知识对文本进行更准确的情感表示；通过对偶模型框架，各种文本表示神经网络都可以用来表示原始文本和反转文本，模型十分灵活，提高准确性。

Description

一种基于对偶神经网络模型的文本情感分类方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种基于对偶神经网络模型的文本情感分类方法。

背景技术

在互联网快速发展的前提下，越来越多的人被纳入到互联网中。人们在网上获取资讯、购买商品、分享生活，产生了大量的文本数据面向评论文本的观点挖掘和情感分析技术，不仅是自然语言处理和情感分析领域的学术前沿问题和热点研究问题，也是应用领域亟待解决的重要问题，具有不可估量的应用价值和社会意义，同时也具有很大的挑战。

传统方法中使用人来对文本进行情感的判断，不仅需要昂贵的人力成本，效率也很低。近几年里，已经有一些机器学习的方法来尝试解决这个问题，比如逻辑回归模型、支持向量机模型、神经网络模型等，然而之前的模型对文本的情感语义表示、情感识别的正确率上还有很大的提升空间。

基于此，针对上述现状中存在的问题，相较于传统的谣言立场检测方法，本发明提出一种能够提高正确率的基于对偶神经网络模型的文本情感分类方法。

发明内容

为了解决上述现有技术的问题，本发明提供一种能够提高正确率的基于对偶神经网络模型的文本情感分类方法。

本发明解决其技术问题所采用的技术方案是：

一种基于对偶神经网络模型的文本情感分类方法，包括以下步骤：

步骤一、获取评论文本，对评论文本进行中文分词及停词过滤；

步骤二、通过情感标注构造形式为<文本，情感>的原始训练集，并使用提出的反转规则对原始训练集进行情感反转，构造形式为<反义文本，反义情感>的反转训练集；

步骤三、构建基于对偶神经网络的情感分类模型，并使用步骤二中得到的原始训练集和反转训练集对模型进行训练；

步骤四、对测试数据进行与步骤一相同的预处理，利用步骤二提出的反转规则对原始测试文本构造反义测试文本；

步骤五、使用步骤三中的情感分类模型，对步骤四得到的反义测试文本进行情感分类。

进一步地，所述步骤一具体为：

a、首先将网页爬虫爬取的评论语料进行HTML解析，筛选出相关评论文本，得到评论文本集；

b、使用NLPIR分词系统对评论文本进行中文分词，然后在已有的停用词表基础上，加入英文字符、数字、标点符号，构造出适合用于中文文本的停用词表，并对中文分词后的词语进行停用词过滤。

更进一步地，已有停用词表包括“哈工大停用词表”、“四川大学机器学习智能实验室停用词表”和“百度停用词表”。

进一步地，所述步骤二中的反转规则具体为：

S1、文本反转：如果存在否定词，需要先检测否定词的有效范围，所有否定词有效范围之外的情感词替换成其反义词；在否定词的有效范围内，否定词被移除，情感词保留下来；

S2、情感反转：对于每一个原始训练样本，情感标签被替换成其反义标签。

进一步地，所述步骤三中，基于对偶神经网络的情感分类模型由四部分组成：输入层、表示层、全连接层和分类层。

更进一步地，所述输入层由原始文本和反转文本两部分组成，文本中的词用词向量进行初始化，词向量使用Word2vec工具对预处理后的文本训练得到；

所述表示层由对应于输入层的两部分组成，分别对原始输入文本和反转输入文本进行编码表示；

所述全连接层拼接在表示层上，使原始文本向量和反转文本向量都与全连接层的神经元相连，全连接层得到输入的低维表示向量r；

所述分类层使用Softmax函数对上一步得到的表示r进行分类得到，所述Softmax函数为p＝softmax(W·r+b)，其中，W和b为权重参数。

更进一步地，所述表示层的编码表示使用卷积神经网络、循环神经网络和层次注意力神经网络模型中的一种或几种对输入文本进行表示。

更进一步地，利用有监督的方式最小化损失函数来对模型进行训练，使用得到的训练集对模型进行训练，学习得到神经网络分类模型的参数，模型的损失函数为：

其中，

表示第i个样本是否属于第j个类别，当第i个样本属于第j个类别时取值为1否则为0；h_j(x_i)表示第i个样本属于第j个类别类别的概率。

与现有技术相比，本发明的有益效果是：

本发明不仅从文本的正面对文本进行表示，同时利用反义词典对文本进行情感反转，对文本从反面进行表示，能够利用情感词典知识对文本进行更准确的情感表示；通过对偶模型框架，各种文本表示神经网络都可以用来表示原始文本和反转文本，模型十分灵活，同时这种对偶模型框架提高了预测属性情感类别的准确性。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种基于对偶神经网络模型的文本情感分类方法，包括以下步骤：

在上述技术方案中，步骤四中，对测试数据进行与步骤一相同的预处理，所述预处理即为中文分词和停词过滤。

具体实施时，所述步骤一具体为：

具体实施时，已有停用词表包括“哈工大停用词表”、“四川大学机器学习智能实验室停用词表”和“百度停用词表”。

具体实施时，所述步骤二中的反转规则具体为：

S2、情感反转：对于每一个原始训练样本，情感标签被替换成其反义标签，比如“贬义”替换成“褒义”，“褒义”替换成“贬义”。

具体实施时，所述步骤三中，基于对偶神经网络的情感分类模型由四部分组成：输入层、表示层、全连接层和分类层。

具体实施时，所述输入层由原始文本和反转文本两部分组成，文本中的词用词向量进行初始化，词向量使用Word2vec工具对预处理后的文本训练得到；

具体实施时，所述表示层的编码表示使用卷积神经网络、循环神经网络和层次注意力神经网络模型中的一种或几种对输入文本进行表示。

具体实施时，利用有监督的方式最小化损失函数来对模型进行训练，使用得到的训练集对模型进行训练，学习得到神经网络分类模型的参数，模型的损失函数为：

其中，

作为本发明的一个实施例：

1、以商品评论文本为例，首先获取商品评论数据，进行HTML解析，筛选出评论文本，分词后去除停用词；

2、标注评论文本的情感标签，并适用反转规则构造反转样本，比如：

原始样本：“我不喜欢这本书。它太无聊了。”，情感类别为消极；

反转样本：“我喜欢这本书。它太有趣了。”，情感类别为积极。

3.在训练阶段，把<文本，情感>原始样本和<反义文本，反义情感>反转样本同时送入模型进行训练，得到情感分类模型，用于测试时评断测试文本的情感类别；在测试阶段，输入原始样本和反转样本，得到原始样本相关的情感类别。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于对偶神经网络模型的文本情感分类方法，其特征在于，包括以下步骤：

步骤三、构建基于对偶神经网络的情感分类模型，并使用步骤二中得到的原始训练集和反转训练集对模型进行训练；利用有监督的方式最小化损失函数来对模型进行训练，使用得到的训练集对模型进行训练，学习得到神经网络分类模型的参数，模型的损失函数为：

其中，

表示第i个样本是否属于第j个类别，当第i个样本属于第j个类别时取值为1否则为0；h_j(x_i)表示第i个样本属于第j个类别类别的概率；

2.根据权利要求1所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于，所述步骤一具体为：

3.根据权利要求2所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于：已有停用词表包括“哈工大停用词表”、“四川大学机器学习智能实验室停用词表”和“百度停用词表”。

4.根据权利要求1所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于，所述步骤二中的反转规则具体为：

5.根据权利要求1所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于：所述步骤三中，基于对偶神经网络的情感分类模型由四部分组成：输入层、表示层、全连接层和分类层。

6.根据权利要求5所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于：所述输入层由原始文本和反转文本两部分组成，文本中的词用词向量进行初始化，词向量使用Word2vec工具对预处理后的文本训练得到；

7.根据权利要求6所述的一种基于对偶神经网络模型的文本情感分类方法，其特征在于：所述表示层的编码表示使用卷积神经网络、循环神经网络和层次注意力神经网络模型中的一种或几种对输入文本进行表示。