CN113254648A

CN113254648A - 一种基于多层次图池化的文本情感分析方法

Info

Publication number: CN113254648A
Application number: CN202110689751.9A
Authority: CN
Inventors: 黄斐然; 贝元琛; 刘冠
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-08-13
Anticipated expiration: 2041-06-22
Also published as: CN113254648B; US20220405480A1; US11687728B2

Abstract

本发明公开了一种基于多层次图池化的文本情感分析方法，该方法包括下述步骤：对目标文本进行预处理；将词节点之间的共现点互信息作为词节点之间的边权，为每个文本单独建图；建立多层次图池化模型，门控图神经网络层传递低阶节点信息；第一图自注意力池化层进行初步图池化操作，采用Readout函数提取低阶特征；第二图自注意力池化层再进行图池化操作，通过计算图中各节点的注意力分数对图结构进行剪枝更新，采用Readout函数提取文本图的高阶特征表示；通过特征融合函数得到多层次的最终向量表示；选取最大概率值所对应的情感类别作为文本最终的情感类别输出。本发明从多方面多层次同时挖掘文本特征信息，获得更精准的情感分析效果。

Description

一种基于多层次图池化的文本情感分析方法

技术领域

本发明涉及文本情感分析技术领域，具体涉及一种基于多层次图池化的文本情感分析方法。

背景技术

近年来，互联网及其附属产业飞速发展，互联网上的信息量飞速增长，网络上每天都会产生呈现大数据特征的以文本为主的海量数据，如何对这些海量的文本数据进行快速分类及分析是当前亟待解决的难题。文本的情感表达体现了人们对文本的理解和感情倾向，是对文本信息高层次的抽象。文本情感分析是对文本进行分类、分析的一个重要任务，如对社交网络中微博、博客的内容进行情感挖掘有利于舆情分析，对电商平台的用户商品评论进行情感分析有助于平台的精准营销推荐和消费者更好地了解产品。因此，运用有效的情感分析技术，从大量文本数据中提取出蕴含的有效情感信息，进而挖掘分析出用户的真实情感及所表达的内容特征，具有极大的运用价值，使得文本情感分析成为计算机自然语言处理领域的一个热点研究方向。

现有基于机器学习的文本情感分析技术中，大多是以循环神经网络及其变体或一维卷积神经网络作为基础模块的序列模型，这类序列模型在局部连续的词序列中能较好地捕获到词义信息，但可能会忽略具有非连续性和长距离语义的全局词共现，对于文本特征的挖掘不够充分，没有挖掘到文本结构特征并且没有关注到文本中的重点情感信息，具有一定的局限性；同时，文本中的情感信息是较为高阶的抽象信息，若挖掘的特征信息不够充分，会影响到最终情感分析的效果。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于多层次图池化的文本情感分析方法，以对文本建图的角度出发，从多方面多层次同时挖掘文本特征信息，从而获得更精准的情感分析效果。

本发明的第二目的在提供一种基于多层次图池化的文本情感分析系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于多层次图池化的文本情感分析方法，包括下述步骤：

对目标文本进行预处理，所述预处理包括：去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示；

文本建图：设定固定长度的滑动窗口在文本词序列上滑动，计算词节点与词节点之间的共现点互信息，将词节点之间的共现点互信息作为词节点之间的边权，在两词之间进行连边，为每个文本单独建图；

建立多层次图池化模型，所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层；

所述门控图神经网络层与第一图自注意力池化层连接，所述第一图自注意力池化层与图卷积层连接，所述图卷积层与第二图自注意力池化层连接；

所述门控图神经网络层传递低阶的节点信息；所述第一图自注意力池化层进行初步图池化操作，采用Readout函数提取低阶特征；所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算；所述第二图自注意力池化层再进行图池化操作，通过计算图中各节点的注意力分数对图结构进行剪枝更新，采用Readout函数提取文本图的高阶特征表示；

特征融合：对得到的各层次文本图向量表示，通过特征融合函数得到多层次的最终向量表示；

情感类别输出：将多层次的最终向量表示作为输入，经过线性全连接层和softmax分类层得到情感类别概率分布，选取最大概率值所对应的情感类别作为文本最终的情感类别输出。

作为优选的技术方案，所述去除噪声信息采用正则表达式过滤噪声信息；

所述分词处理的具体步骤包括：对噪声信息去除后的文本数据，采用分词工具进行分词，将文本序列转换为分词后对应的词列表；

所述去除停用词的具体步骤包括：对分词后对应的词列表，通过停用词表进行停用词处理，得到停用词去除后的词列表；

所述训练数值向量化的文本表示的具体步骤包括：采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量，在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。

作为优选的技术方案，所述计算词节点与词节点之间的共现点互信息，具体计算公式为：

其中，PMI(i,j)表示词节点与词节点之间的共现点互信息，N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数，N(i)为包含词节点i的滑动窗口数，N(j)为包含词节点j的滑动窗口数，N为滑动完整个文本所用的滑动窗口数。

作为优选的技术方案，所述门控图神经网络层传递低阶的节点信息，具体步骤包括：

所述门控图神经网络层设有重置门和更新门，所述重置门在一次信息传递中的计算公式为：

其中，

为当前的中心节点特征向量，

为中心节点的各个邻居节点的特征向量，

为经过重置门后的特征信息，K为当前中心节点的邻居节点总数，

、

和W、U为可训练权重矩阵，

为sigmoid激活函数，

为Hadamard乘积运算；

所述更新门在一次信息传递中的计算公式为：

其中，

为当前的中心节点经过以上重置门和更新门的节点信息传递和聚合后得到的特征向量，

和

为可训练权重矩阵；

每一次参数更新时，每个节点接收相邻节点的信息，又向相邻节点发送信息，基于GRU在文本序列中的信息传递实现信息在文本图中的传递，输出更新后的文本图向量表示。

作为优选的技术方案，所述通过计算图中各节点的注意力分数对图结构进行剪枝更新，具体步骤包括：

基于图卷积计算注意力分数，具体计算公式为：

其中，

表示可训练参数矩阵，

为正则化邻接矩阵，D为度矩阵，

为带自环的邻接矩阵，X为文本图特征向量，

为激活函数；

计算各节点注意力分数选择top-k节点保留，更新图拓扑结构。

作为优选的技术方案，所述图卷积层的具体计算公式为：

其中，

为带自环的归一化拉普拉斯矩阵，X和

分别为信息传递前后的图节点特征矩阵，W为可训练权重矩阵，

为激活函数。

作为优选的技术方案，所述Readout函数具体计算公式为：

其中G为整个图的向量表示，

为节点i的向量表示，Concat为向量拼接函数，max为最大值函数，N为图中的节点总数。

为了达到上述第二目的，本发明采用以下技术方案：

一种基于多层次图池化的文本情感分析系统，包括：文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块；

所述文本预处理模块用于对目标文本进行预处理，所述预处理包括：去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示；

所述文本建图模块用于为每个文本单独建图，设定固定长度的滑动窗口在文本词序列上滑动，计算词节点与词节点之间的共现点互信息，将词节点之间的共现点互信息作为词节点之间的边权，在两词之间进行连边；

所述多层次图池化模型构建模块用于建立多层次图池化模型，所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层；

所述特征融合模块用于特征融合，对得到的各层次文本图向量表示，通过特征融合函数得到多层次的最终向量表示；

所述情感类别输出模块用于输出情感类别，将多层次的最终向量表示作为输入，经过线性全连接层和softmax分类层得到情感类别概率分布，选取最大概率值所对应的情感类别作为文本最终的情感类别输出。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于多层次图池化的文本情感分析方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于多层次图池化的文本情感分析方法。

本发明与现有技术相比，具有如下优点和有益效果：

（1）本发明对文本从图模型角度进行建模，相较于基于序列的建模方式，更充分的考虑到了具有非连续性和长距离语义的全局词共现信息，同时图结构本身也蕴含了更丰富的文本结构信息，能够挖掘到更多有效情感信息。

（2）本发明融合多层次的特征向量能够通过多层次的图池化操作同时挖掘到低阶的具体特征和高阶的抽象特征，并且结合图注意力机制不断关注到文本图中的关键信息，同时对较不重要的节点进行剪枝，能很好的防止接下来更深层次的特征提取发生过拟合，提高模型的情感分析准确性和健壮性。

附图说明

图1为本发明基于多层次图池化的文本情感分析方法的流程示意图；

图2为本发明多层次图池化模型的整体结构示意图；

图3为本发明门控图神经网络层的工作示意图；

图4为本发明图自注意力池化层的工作示意图；

图5为本发明图卷积网络层的工作示意图；

图6为本发明Readout函数的工作示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种基于多层次图池化的文本情感分析方法，包括下述步骤：

S1：文本预处理

对目标文本进行预处理，具体包括去除对情感分析任务无关的噪声信息、进行分词处理、去除文本中的停用词、训练数值向量化的文本表示。

步骤S1对文本数据预处理，具体包括以下子步骤：

S11：去除噪声信息

通过正则表达式对文本数据进行预处理，将与情感分析任务无关的噪声信息过滤，如URL，乱码字符等，得到去除噪声信息的文本数据；

S12：分词处理

对噪声信息去除后的文本数据，采用分词工具进行分词，将文本序列转换为分词后对应的词列表。

S13：去除停用词

对分词后对应的词列表，通过停用词表进行停用词处理，得到停用词去除后的词列表。

S14：训练数值向量化的文本表示

采用word2vec词特征嵌入训练得到文本对应词列表的初始词嵌入向量，然后在每个词向量中加上表示词位置向量得到融合了词位置信息的词嵌入向量。

S2：文本建图

采用多层次图池化模型进行文本情感分析，首先需要对文本建图，具体构造方式为：对于给定文本D，通过设定的长度为L的滑动窗口在文本词序列上从头开始向后移动至扫描完整个文本，计算整个过程中词节点与词节点之间的共现点互信息（Point mutualinformation, PMI），作为词节点之间的边权。

具体地，词节点间的共现点互信息的计算过程为：设在滑动窗口的整个滑动过程中，N(i,j)为同时包含词节点i和词节点j的共现滑动窗口数，N(i)为包含词节点i的滑动窗口数，N(j)为包含词节点j的滑动窗口数，N为滑动完整个文本所用的滑动窗口数,则词节点i和词节点j的共现点互信息PMI的计算方式如下：

对每个文本D单独建图，对于文本D中的各个词，若两词之间没有共现过，则不连边；若词之间有共现，则通过上述共现点互信息PMI值的计算作为两词之间的边权在两词之间连边，完成文本建图。

S3：建立多层次图池化模型

如图2所示，将所建立的文本图向量输入多层次图池化模型，具体依次会经过：门控图神经网络层、图自注意力池化层、图卷积层和图自注意力池化层。

本实施例使用的多层次图池化方法是将图池化引入文本情感分析领域，与当前主要的基于语言序列的模型相比，从图模型的角度考虑更加丰富的文本语义和结构信息，并通过多层次的图池化和Readout操作，逐渐提取从低阶到高阶的特征再进行融合，提高模型的情感分析准确性。

其中在经过门控图神经网络层进行低阶的节点信息传递后，先通过第一图自注意力池化层对图进行初步的图池化操作，保留图中较重要节点并对图结构进行更新，此时再通过设定的Readout函数提取出低阶特征，接下来再通过图卷积层进行进一步更深层次的节点信息传递和聚合，得到更高阶的抽象的语义特征，再通过第二图自注意力池化层再进行图池化运算进一步保留注意力分数较高的对情感分析目标较重要的节点并对图结构进行进一步剪枝更新，再次通过Readout函数读出文本图的高阶特征表示，最后读出的图低阶特征和图高阶特征通过S4步骤的特征融合算法进行融合。

步骤S3建立了多层次图池化模型，具体包括以下子步骤：

S31：门控图神经网络层

如图3所示，门控图神经网络层的作用过程：将文本图向量作为输入，在全图的节点间信息传播采用循环神经网络变体门控循环单元(Gate Recurrent Unit, GRU)的原理，设置重置门和更新门，其中重置门主要决定邻域节点中有多少信息要遗忘，而更新门帮助模型决定要将多少邻居节点的信息传递到当前节点并和当前节点进行信息聚合。

具体地，重置门在一次信息传递中的计算公式为：

其中，

为当前的中心节点特征向量，

为中心节点的各个邻居节点的特征向量，

、

和W、U为可训练权重矩阵，

为sigmoid激活函数，

为Hadamard乘积运算。

更新门在重置门运算的基础上，在一次信息传递中的计算公式为：

其中，

为中心节点的各个邻居节点的特征向量，

为经过上述重置门后的特征信息，K为当前中心节点的邻居节点总数，

和

为可训练权重矩阵，

为sigmoid激活函数，

为Hadamard乘积运算。

实现每一次参数更新时，每个节点既接收相邻节点的信息，又向相邻节点发送信息，利用GRU在文本序列中信息传递原理实现信息在文本图中的传递，输出一个更新后的文本图向量表示。

S32：图自注意力池化层

如图4所示，图自注意力池化层的作用过程：图自注意力池化层将其直接连接的上一层模型运算的输出向量作为输入，本层的目的是通过计算图中各节点的注意力分数筛选出带来关键情感特征的节点，删除掉注意力分数较低的较无关的节点并更新图的拓扑结构，同时避免接下来的深层次层可能出现的过拟合。该层采用自注意力机制来区分要删除的节点和要保留的节点，其中的自注意力机制基于图卷积计算注意力分数，由于基于图卷积的算子同时使用了图节点特征向量矩阵和正则化邻接矩阵进行运算，因此这种方法同时考虑了节点特征和文本图的拓扑结构信息，图卷积计算注意力分数的具体公式为：

其中，

是该层的可训练参数矩阵，

为正则化邻接矩阵，D为度矩阵，

为带自环的邻接矩阵，X为文本图特征向量，

为激活函数。通过计算各节点注意力分数选择top-k节点保留，删除注意力分数低的节点并更新图的拓扑结构。

S33：图卷积层

如图5所示，图卷积层的作用过程：将经过第一图自注意力池化层后的文本图向量作为输入，由于此层的图卷积算子同时使用了图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与运算，因此该层也对词节点的属性信息和图的结构信息同时学习，共同得到更高阶的节点特征表示。

具体地，图卷积层的运算公式为：

其中，

为带自环的归一化拉普拉斯矩阵，X和

为激活函数。

S34：Readout函数

如图6所示，Readout函数的作用过程：Readout函数融合整个文本图的各词节点向量表示得到整个图的向量表示，作为该文本的最终向量表示。Readout函数的具体计算为：

其中G为整个图的向量表示，

为节点i的向量表示，Concat为向量拼接函数，max为最大值函数，N为图中的节点总数。Readout函数的目的是同时提取图中各节点的特性信息和共性信息。在所述模型中两次经过图自注意力池化层后都会通过Readout函数得到该层次的文本图向量表示，表征了整个文本图在当前层次的特性信息和共性信息，通过多个Readout函数得到了从低阶到高阶多个层次的文本图向量。

S4：特征融合

对得到的各层次文本图向量表示，通过特征融合函数得到多层次的最终向量表示，特征融合函数的具体计算公式为：

其中F为特征融合后的最终向量表示，

为第k个层次的Readout函数得到的文本图向量，k为总层次数，Concat为向量拼接函数。

S5：情感类别输出

将特征融合得到的最终向量表示作为输入，经过线性全连接层对向量进行线性变换后，再输入softmax分类层得到情感类别概率分布，选取最大概率值所对应的情感类别作为文本最终的情感类别输出。

实施例2

本实施例提供一种基于多层次图池化的文本情感分析系统，包括：文本预处理模块、文本建图模块、多层次图池化模型构建模块、特征融合模块和情感类别输出模块；

在本实施例中，文本预处理模块用于对目标文本进行预处理，所述预处理包括：去除噪声信息、分词处理、去除停用词和训练数值向量化的文本表示；

在本实施例中，文本建图模块用于为每个文本单独建图，设定固定长度的滑动窗口在文本词序列上滑动，计算词节点与词节点之间的共现点互信息，将词节点之间的共现点互信息作为词节点之间的边权，在两词之间进行连边；

在本实施例中，多层次图池化模型构建模块用于建立多层次图池化模型，所述多层次图池化模型包括门控图神经网络层、第一图自注意力池化层、图卷积层和第二图自注意力池化层；

在本实施例中，门控图神经网络层与第一图自注意力池化层连接，所述第一图自注意力池化层与图卷积层连接，所述图卷积层与第二图自注意力池化层连接；

在本实施例中，门控图神经网络层传递低阶的节点信息；所述第一图自注意力池化层进行初步图池化操作，采用Readout函数提取低阶特征；所述图卷积层的算子同时采用图的节点特征向量矩阵和图的归一化拉普拉斯矩阵参与计算；所述第二图自注意力池化层再进行图池化操作，通过计算图中各节点的注意力分数对图结构进行剪枝更新，采用Readout函数提取文本图的高阶特征表示；

在本实施例中，特征融合模块用于特征融合，对得到的各层次文本图向量表示，通过特征融合函数得到多层次的最终向量表示；

在本实施例中，情感类别输出模块用于输出情感类别，将多层次的最终向量表示作为输入，经过线性全连接层和softmax分类层得到情感类别概率分布，选取最大概率值所对应的情感类别作为文本最终的情感类别输出。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于多层次图池化的文本情感分析方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于多层次图池化的文本情感分析方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。