CN112182227A

CN112182227A - 基于transD知识图嵌入的文本情感分类系统及方法

Info

Publication number: CN112182227A
Application number: CN202011139509.6A
Authority: CN
Inventors: 廖祥文; 徐庆; 王强; 林诚燕; 张艳茹
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-05

Abstract

本发明涉及一种基于transD知识图嵌入的文本情感分类系统，包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块；所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接；所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。本发明能够从外部知识库中学习更准确的同义词表示，最终获得更准确的评论情感极性。

Description

基于transD知识图嵌入的文本情感分类系统及方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于transD知识图嵌入的文本情感分类系统及方法。

背景技术

文本情感分类(sentiment classification)是近年来观点挖掘领域的热点研究方向之一，受到了国内外学者的广泛关注。文本情感分类的研究目标是根据人们生成的文本来分析其观点或者情感极性。随着在线评论网站的爆炸式增长，对网络上大量附有情感的文本进行分类，对电子商务中的决策和舆情监控等有着重要的意义。目前，研究人员对于文本情感分类已经开展了许多研究并且取得了一定的成果。

文本情感分类是情感分析领域中的一项基本任务，成为自然语言处理领域中吸引人的研究任务，针对文本情感分类有以下意义：（1）舆情分析：准时、准确地收集群众的意见，让商家和政府能及时做出相应调整；（2）用户的意见反馈，用户对产品的喜好反应了产品的优劣；（3）优化产品价格，企业能够依据用户对产品的喜好合理的制定价格。当前，国内外研究人员针对文本情感分类提出的方法主要分为以下三大类：

基于情感词典的文本情感分类方法。这类方法主要依据情感词典中包含的短语和词汇的情感倾向及强度信息，对文本中出现过的情感词汇进行匹配，进而计算出文本的情感极性。但是随着 Web2.0 和社交网络的发展，信息量和新兴词语剧增，对于情感词典的构建和维护面临着巨大挑战，因此，该类方法存在较大的局限性。（2）基于机器学习的文本情感分类方法。这类方法通过从文本中筛选出一组具有统计意义的特征，然后使用机器学习算法构建分类模型，从而判断文本的情感极性。该类方法大多数都是通过人工设计语义和语法特征，利用从文本中提取出来的特征进行分类。但是这些模型的性能极大程度依赖于设计出来的特征的质量，需要耗费很大的人力、物力和财力，且泛化能力差。（3）基于深度学习的文本情感分类方法。随着词嵌入技术和深度学习理论的发展，基于深度学习的表示模型引起了学者们的关注，并在情感分类任务上取得了较大的进展。

目前研究人员利用深度学习的方法生成文档表示进行情感分类取得不错的效果，但是现有的模型仍然存在着一个缺点：这些模型通常仅输入文本或者单词序列，忽略了许多外部知识，未能考虑到一个单词可能在不同的语境下所表示出的不同语义信息，导致预测性能较低。

发明内容

有鉴于此，本发明的目的在于提供一种基于transD知识图嵌入的文本情感分类系统及方法，能够从外部知识库中学习更准确的同义词表示，最终获得更准确的评论情感极性。

为实现上述目的，本发明采用如下技术方案：

一种基于transD知识图嵌入的文本情感分类系统，包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块；所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接；所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。

进一步的，所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块；所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接；所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。

一种基于transD知识图嵌入的文本情感分类方法，包括以下步骤：

步骤S1:获取评论文本数据，并对数据进行预处理后分别输入融合用户信息分层注意力模块和融合产品信息分层注意力模块；

步骤S2:所述预处理后的文本数据在融合用户信息分层注意力模块和融合产品信息分层注意力模块分别进行步骤S3-S6的处理：

步骤S3:根据预处理后的文本数据，形成句子中各个词的初步向量表示；

步骤S4:将步骤S3得到的初步向量表示，分别形成包含用户、产品信息的句子表示和包含同义词信息的句子表示；

步骤S5:根据步骤S4得到的句子表示，对句子的向量进行训练进一步得到更优的向量表示；

步骤S6:根据更优的向量表示，加入注意力机制，让不同句子有不同的权重，形成高质量的评论向量表示；

步骤S7：根据分别得到的评论向量表示，利用分类函数得到最终的情感分类结果。

进一步的，所述预处理具体为：

步骤S11:过滤掉文本中网页链接；

步骤S12:过滤掉评论中第N个短句后的评论；

步骤S13:过滤掉短句评论中第m个单词后的单词。

进一步的，所述步骤S3具体为：

步骤S31:给定一个句子的词序列

，将词通过词嵌入方法映射到向量中，嵌入矩阵为

;

步骤S32:使用一个双向循环神经网络BiLSTM通过汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并。

进一步的，s所述双向循环神经网络BiLSTM包括一个向前的网络LSTM

，用来从

到

读取句子

；还有一个向后的网络LSTM

，用来从

到

读取句子

；通过连接向前隐藏状态

和向后隐藏状态

，得到词

的隐藏表示

，它包含了句子中围绕词

的总体信息，也即

。

进一步的，所述步骤S4具体为：

通过用户信息u或产品信息p和上一层词级别编码层的输出

h，作为该层的输入；用u与p和词上下文向量hit之间的相似性来衡量词的重要性，并通过softmax函数来归一化该重要性权重

a；最后使用各个词的权重和来作为句子

的表示；

将经过transD知识图嵌入后的WordNet同义词实体通过非线性映射到单词空间，将单词嵌入表示同义词实体嵌入看作CNN不同通道进行卷积，保持单词和同义词实体之间联系，得到包含同义词信息的句子表示s。

本发明与现有技术相比具有以下有益效果：

本发明能够从外部知识库中学习更准确的同义词表示，最终获得更准确的评论情感极性。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于transD知识图嵌入的文本情感分类系统，包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块；所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接；所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。

所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块；所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接；所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。

在本实施例中，各模块具体如下：

1）数据预处理模块

评论中包含了丰富的信息但同时也夹杂了一定的噪声，因此对数据集进行预处理，主要进行以下几个方面的操作：

（1）过滤掉微博文本中网页链接。如“http://t.cn”。

（2）过滤掉评论中第40个短句后的评论。

（3）过滤掉短句评论中第50个单词后的单词。

2）词序列编码模块

词序列编码模块完成对词语的初步向量化。

给定一个句子的词序列

，首先将词通过词嵌入方法映射到向量中，嵌入矩阵为

，使用一个双向循环神经网络BiLSTM通过汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并，双向循环神经网络BiLSTM包括一个向前的网络LSTM

，用来从

到

读取句子

；还有一个向后的网络LSTM

，用来从

到

读取句子

。通过连接向前隐藏状态

和向后隐藏状态

，得到词

的隐藏表示

，它包含了句子中围绕词

的总体信息，也即

。

3）词语级别注意力模块

词语级别注意力模块借助词注意力来加强词的向量表示。

对于一个句子的表示，并不是其中所有的词都是有相同的贡献（权重），有些词是较重要的；有些词是不重要的或可以忽略的。因此我们引入词级别注意力机制来提取出句子中重要的词，并融合用户、产品信息，聚合它们信息的表示来形成句子向量表示。通过用户信息u或产品信息p和上一层词级别编码层的输出

a；最后使用各个词的权重和来作为句子

的表示。

4）外部知识融合模块

5）句子级别编码模块

句子级别编码模何根据词语层的输出向量来完成句子向量的表示，将句子表示s和句子

的表示相结合作为新的句子向量表示。

基于上一层词级别注意力层的输出向量融合后得到的

作为输入向量的，该层是基于句子向量的，使用双向循环神经网络BiLSTM来编码句子，使得话题的表示更加高效

。

6）句子级别注意力模块

句子级别注意力模块用于根据句子注意力机制来完成句子的高质量向量表示。经过上一层句子级别编码层得到句子的表示

h之后，该层计算中引入用户、产品，获得融入用户、产品信息的评论表示向量。

7）情感类别预测模块

情感类别预测模块，根据在经过上面四层的计算之后得到向量d，这是话题的高质量的表示，可以用来作为分类的特征。使用softmax来预测评论的情感极性，并得到预测概率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于transD知识图嵌入的文本情感分类系统，其特征在于，包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块；所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接；所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。

2.根据权利要求1所述的基于transD知识图嵌入的文本情感分类系统，其特征在于，所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块；所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接；所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。

3.一种基于transD知识图嵌入的文本情感分类方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的基于transD知识图嵌入的文本情感分类方法，其特征在于，所述预处理具体为：

步骤S11:过滤掉文本中网页链接；

步骤S12:过滤掉评论中第N个短句后的评论；

步骤S13:过滤掉短句评论中第m个单词后的单词。

5.根据权利要求3所述的基于transD知识图嵌入的文本情感分类方法，其特征在于，所述步骤S3具体为：

步骤S31:给定一个句子的词序列