CN114297391B

CN114297391B - 一种基于文本图神经网络的社交文本情感分类方法和系统

Info

Publication number: CN114297391B
Application number: CN202210003449.8A
Authority: CN
Inventors: 曹建军; 皮德常; 翁年凤; 胥萌; 丁鲲; 袁震; 江春
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2024-02-02
Anticipated expiration: 2042-01-04
Also published as: CN114297391A

Abstract

本发明公开了一种基于文本图神经网络的社交文本情感分类方法和系统，属于自然语言处理技术领域。包括接收目标文本，并去除所接收的文本中的异常值；利用BERT模型获取所述目标文本的词嵌入；获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征；将所述目标文本的词嵌入和情感极性特征进行拼接，形成初始词向量；将所述目标文本构建为文本图结构，将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类。本发明既考虑了言论中的上下文特征，又考虑了言论之间的相互关系，使得情感分类更加准确。

Description

一种基于文本图神经网络的社交文本情感分类方法和系统

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于文本图神经网络的社交文本情感分类方法和系统。

背景技术

关于社交媒体言论的情感分析，国内外进行了大量的研究和探索。目前针对社交媒体言论情感分类的方法可以分为两类：基于语义词典的情感分析法和基于机器学习的情感分类法。

情感词是指带有情感倾向的词语，社交媒体的情感词判别方法可以分为利用词典计算相似度的方法、基于大规模语料库的统计方法。

基于情感词典的判别方法是利用词典直接判别相应词语的极性，同时也可以通过语义相似度计算对词的极性进行判断。基于情感词典的判别难度在于情感词典的构建。中文里有较多的一词多义的现象，且在不同的语境下表达的意义可能相反。单词的情感通常会随着它们出现的语境而变化，并且可能会遇到词典未涵盖的新单词，特别是在快速且不断变化的社交媒体环境中。因此，不少研究通过更新词典(如收集新词、添加表情元素)或动态构建单词的情感分数，从而改进情感分析的结果。

基于统计的方法主要通过对大规模语料中的词汇进行情感特征分析，再通过机器学习模型对词汇的情感极性进行判别。基于统计的方法利用在大规模语料中挖掘的语言学规则特征，以机器学习模型对词汇的情感极性进行判别。机器学习的方法可以分为两大类：监督和非监督学习技术。这两类方法都依赖于选择和提取用于情感分析的适当特征。在特征集中，自然语言处理技术起着非常重要的作用，比较典型的特征包括n-gram、词性特征、情感词特征、句法模式、位置特征、概念特征和修辞特征等。基于监督的学习技术中，支持向量机、朴素贝叶斯、最大熵是一些常用的算法。但由于缺乏完整标注的语料库，一些研究相继提出了半监督和无监督的学习方法。此外，结合有监督和无监督技术，或者词典的混合方法，近来也被广泛应用于情感分类，甚至表现更胜于单独使用词典或者机器学习的方法。

深度学习方法，受大脑神经系统的启发，对自然语言处理、语音识别和计算机视觉等一系列应用产生了巨大的影响，也成功用于情感分析的研究。与机器学习不同，深度学习模型不依赖于特征提取器，因为这些特征是在训练过程中直接学习的。这项工作的主要思想是使用类似word2vec的词嵌入工具将单词嵌入神经网络模型作为学习特征，以训练和分类情感。随着深度学习日益增长的研究热度，这项技术迅速用于情感分析，其表现也超过了传统方法。深度学习模型的优点是准确度高，但也存在一些明显的缺点，例如训练耗时，且无法解释最终决策的语义等。

例如，深度神经网络的输入是独立的言论，通过注意力机制将长距离词语之间的上下文特征融合在一起，但忽略了言论之间的关联特征，同时这类深度学习方法不可解释。

发明内容

技术问题：针对上述问题，本发明提供了一种基于文本图神经网络的社交文本情感分类方法和系统，既考虑了言论中的上下文特征，又考虑了言论之间的相互关系，使得情感分类更加准确。

技术方案：本发明的第一方面，提供一种基于文本图神经网络的社交文本情感分类方法，其特征在于，包括：

接收目标文本，并去除所接收的文本中的异常值；

利用BERT模型获取所述目标文本的词嵌入；

获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征；

将所述目标文本的词嵌入和情感极性特征进行拼接，形成初始词向量；

将所述目标文本构建为文本图结构，将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类。

进一步地，所述获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征包括：

根据停止词对目标文本进行分词，然后根据SentiWordnet情感词典获取每个单词的情感分数；

根据单词的每种词性内意思的排序，按照顺序赋予每个意思权重为1/k；其中，k为单词在SentiWordnet中的排序；

对每个单词在其词性内所有的分数进行加权计算，得到该单词的情感得分，计算公式为：

其中，score(w⁺)为该单词的积极分数，score(w^-)为该单词的消极分数，n为该单词在SentiWordnet词典中的含义总数。

进一步地，所述将目标文本构建为文本图结构的方法包括：

对目标文本进行滑动窗口截取，计算语料中单词与单词之间的词共现信息；

将目标文本中的每个单词作为节点，单词之间的边采用单词与单词之间的词共现信息来表示，同时单词与自身连接。

进一步地，所述的利用文本图神经网络消息传递机制进行特征提取的方法为：

首先生成节点信息，生成信息的公式为：

其中是节点v在t+1时间步所接收到的信息，N(v)是节点v的所有邻接点，/>是节点v在t时间步的特征向量，e_vw是节点v和w的边特征，M_t是消息函数；

然后对节点进行更新，更新公式为：

其中U_t是节点更新函数，该函数把原节点状态和信息/>作为输入，得到新的节点状态/>

最后读出特征，公式为：

其中是最终的输出向量，R是读取函数，G是文本图。

进一步地，所述方法还包括对图神经网络进行训练，采用如下损失函数：

loss＝-(y·log(y′)+(1-y)·log(1-y′))

其中，y′是模型预测样本为正例的概率，y是样本标签。

第二方面，本发明提供一种基于文本图神经网络的社交文本情感分类系统，所述系统根据任一所述的基于文本图神经网络的社交文本情感分类方法对社交文本进行情感分类，包括：

数据接收模块，其配置成接收目标文本，并去除所接收的文本中的异常值；

词嵌入获取模块，其配置成利用BERT模型获取所述目标文本的词嵌入；

情感极性特征获取模块，其配置成获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征；

向量拼接模块，其配置成将所述目标文本的词嵌入和情感极性特征进行拼接，形成初始词向量；

特征提取分类模块，其配置成将所述目标文本构建为文本图结构，将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类。

进一步地，所述特征提取分类模块包括：

文本图构建模块，其配置成将所述目标文本构建为文本图结构；

特征提取模块，其配置成将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取；

特征分类模块，其配置成将提取的特征进行情感分类。

进一步地，所述特征提取模块包括：

生成信息模块，其配置成根据如下公式生成信息，

节点更新模块，其配置成根据如下公式进行对节点进行更新：

特征读取模块，其配置成根据如下公式读出特征：

其中是最终的输出向量，R是读取函数，G是文本图。

进一步地，所述情感极性特征获取模块进行情感极性特征提取时包括：

根据单词的每个词性意思的排序，按照顺序赋予该词性意思权重为1/k；k为单词在SentiWordnet中的排序；

进一步地，所述系统还包括训练模块，其配置成根据如下损失函数对图神经网络进行训练：

loss＝-(y·log(y′)+(1-y)·log(1-y′))

其中，y′是模型预测样本为正例的概率，y是样本标签。

本发明与现有技术相比，具有以下优点：使用SentiWordnet情感词典源获取每个单词的情感得分作为单词的情感初始词嵌入，这样使得情感分类的结果更接近人类真实情感特征。使用图神经网络来提取特征，为每个输入文本单独构建一个图，文本中的单词作为图中的节点，同时使用滑动窗口，使文本中的每个单词只与它的几个邻居单词产生联系。单词的表示和单词之间的边权重全局共享，通过图的消息传递机制进行全局更新。利用本发明，既考虑了言论中的上下文特征，又考虑了言论之间的相互关系，有效地克服了现有技术中存在的问题，使得情感分类更加准确。

附图说明

图1为本发明的实施例中基于文本图神经网络的社交文本情感分类方法的流程图；

图2为本发明的实施例中一个构建成文本图的过程图；

图3为本发明的实施例中基于文本图神经网络的社交文本情感分类系统的框图；

图4为本发明的实施例中特征提取分类模块的框图；

图5为本发明的实施例中特征提取模块的框图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。图1示出了本发明的实施例中基于文本图神经网络的社交文本情感分类方法的流程图。结合图1所示，本发明的实施例中，该方法包括如下步骤：

步骤S100：接收目标文本，并去除所接收的文本中的异常值；在本发明的实施例中，目标文本主要是一些句子、段落等，去除的主要是文本中的频率较低的词，以及标点符号和网址链接等。

步骤S200：利用BERT模型获取所述目标文本的词嵌入，所谓词嵌入是指将一个词语转换为一个向量表示。

首先说明一下BERT编码器。BERT本质上是通过在海量的语料基础上运行自监督学习方法为单词学习一个好的特征表示，本发明利用BERT(Bidirectional EncoderRepresentation from Transformers)编码器提取句子的特征。BERT的模型架构基于多层双向转换编码，它不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model。该模型有以下主要优点：

1)采用MLM对双向的transformers进行预训练，生成深层的双向语言表征。

2)预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中使用。

在本发明的实施例中，将BERT用于获取词嵌入，fine-tune不是使用BERT的唯一方法，本发明使用预训练的BERT来创建语境化的词嵌入，将这些词嵌入用在本发明的模型中，本发明对比了不同层，将最后四层连接起来作为词嵌入。

在本发明的事实例中在利用BERT进行编码时采用了正弦位置编码。单词在句子中的位置以及排列顺序是非常重要的，它们不仅是一个句子的语法结构的组成部分，更是表达语义的重要概念。一个单词在句子中的位置不同，其语义可能就会发生变化。

本发明的实施例中采用正弦位置编码的原因如下：(1)它能为每个时间步输出一个独一无二的编码。(2)对不同长度的句子，任何两个时间步之间的距离保持一致。(3)能够泛化到更长的句子，它的值是有界的。

给定一个长度为n的输入序列，a表示词在序列中的位置，表示a位置对应的向量，d是向量的维度。/>是生成位置向量/>的函数，位置向量/>的定义如下：

式(1)中，频率w_j定义如下：

从函数定义中可以看出，频率沿向量维度而减小。位置编码是一个包含每个频率的正弦和余弦对。

式(3)中，d是能被2整除的数。

将位置编码和初始词向量相加，在初始词向量中融入位置信息，对于句子中的每一个词w_a，其对应的初始词向量为ψ(w_a)，则新的词向量表示为：

式(4)中，位置向量的维度等于初始词向量ψ(w_a)的维度。

步骤S300：获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词进行情感分数，以每个单词的最终得分作为单词的情感极性特征。

在本发明的实施例中，采用了一种新的方法情感极性特征提取方法，该方法使用了著名的情感词典源SentiWordnet。因为一个单词有很多种词性和意思，比如‘good’，作为名词有4种含义，作为形容词有21种含义，作为副词有2种含义。在SentiWordnet中，一个单词在一种词性内的意思的顺序越靠前，该意思越能代表该单词的主要意思，根据单词的每种词性内意思的排序，按照顺序赋予每个意思权重为1/k，其中，k为单词在SentiWordnet中的排序，也就是第一个意思1的权重，第二个意思1/2的权重，以此类推，然后对该单词在该词性内所有的分数进行加权计算，得到最终该单词的情感得分。

使用时，我们先根据停止词表对一个句子进行分词，然后分析每个单词的词性标签，根据词性标签获得这个单词的积极分数和消极分数，最终分数为积极分减消极分。具体表示为：

式(5)中，score(w⁺)为该单词的积极分数，score(w^-)为该单词的消极分数，k为单词在SentiWordnet中的排序，n为该单词在SentiWordnet词典中的含义总数。

步骤S400：将所述目标文本的词嵌入和情感极性特征进行拼接，形成初始词向量。在本发明的实施例中，通过将单词的情感极性特征加入到词嵌入中，换句话讲，也就是将每个单词的得分作为情感特征加入单词的词嵌入中。

步骤S500：将所述目标文本构建为文本图结构，将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类。

对于每一个句子s∈R^p×q，p表示句子中单词数量，q表示单词的嵌入维度，本发明使用BERT预训练词向量作为单词的初始嵌入，并且在训练过程中更新这些嵌入。在本发明的实施例中，首先对目标文本进行滑动窗口截取，计算语料中单词与单词之间的词共现信息；并将目标文本中的每个单词作为节点，单词之间的边采用单词与单词之间的词共现信息来表示，同时单词与自身连接。图2描述了将一个句子构建成文本图的过程。

为每个句子生成一张文本图，句子中的单词作为节点，每个单词与它左右相邻的k个单词相连，因为自身的语义很关键，所以每个单词自我连接。为了得到更丰富的词共现信息，本发明的实施例中，对所有语料进行滑动窗口截取，假设窗口大小为z，句子长度为l，则每个句子产生的窗口数量采用公式(6)表示：

在本发明的实施例中，窗口产生的大量语料计算单词与单词的词共现信息。pmi(词共现信息)表示词语之间的语义相关性，其计算公式(7)如下：

式(7)中，p(i)表示单词i在所有窗口中出现的概率，p(j)表示单词j在所有窗口中出现的概率，p(i,j)表示单词i和单词j在所有窗口中同时出现的概率。

本发明的实施例中，以每个词的一阶邻居为例，每个单词将与其左右邻接的一个词相连，如never所示为二阶邻居相连。在进行训练时，本发明的实施例中是为每个句子生成一张图，所以本发明可以用很少的内存和更快的速度进行训练和预测。

在利用文本图神经网络消息传递机制进行特征提取时，对于节点v，生成信息的公式为：

其中是节点v在t+1时间步所接收到的信息，N(v)是节点v的所有邻接点，/>是节点v在t时间步的特征向量，e_vw是节点v和w的边特征，M_t是消息函数。

生成信息后，就需要对节点进行更新，更新公式为：

最后读出特征，公式为：

其中是最终的输出向量，R是读取函数，G是文本图。

在本发明的实施例中，给出了构建文本图的算法过程，如表1所示：

表1构建文本图的算法过程

表1中，第1行定义p(i)表示单词i在所有窗口中出现的概率，第2行定义文本图中边的集合，第3行定义文本图中点的集合，第4行定义文本图中边与边的权重矩阵，第5行初始化pmi为二位数组。第6-10行计算句子中单词之间的pmi，第11-19行为点集中添加节点，为边集中添加边，为权重矩阵中添加权重，第20行返回整个文本图结构。

当提取到特证后，将所提取的特征进行情感分类。在本发明的实施例中，利用一个"高纬度数*分类类别数"的全连接层进行降维，然后用softmax进行激活输出，即可以完成情感分类。

在利用图神经网络进行分类时，需要对图神经网络进行训练，因为在本发明的实施例中，是一个二分类任务，所以损失函数使用二分类交叉熵损失：

式(11)中y′是模型预测样本为正例的概率，y是样本标签。使用Adam优化器进行训练，第一个epoch进行warmup，先用10^-3的学习率训练50个epoch，然后再用10^-4的学习率继续训练到最优。

本发明的第二方面，提供一种基于文本图神经网络的社交文本情感分类系统，该系统根据所提供的任一种基于文本图神经网络的社交文本情感分类方法对社交文本进行情感分类，如图3所示，该系统包括：

情感极性特征获取模块，其配置成获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词进行情感分数，以每个单词的最终得分作为单词的情感极性特征；对于该模块在进行情感极性特征提取时，按照分类方法中步骤S300的过程具体实现；

特征提取分类模块，其配置成将所述目标文本构建为文本图结构，将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类。对于该模块，按照分类方法中步骤S500的过程具体实现。

进一步地，如图4所示，特征提取分类模块包括：

分类模块，其配置成将提取的特征进行情感分类。

进一步地，如图5所示，特征提取模块包括：

生成信息模块，其配置成根据如下公式生成信息，

特征读取模块，其配置成根据如下公式读出特征，读出特征的公式为：

其中是最终的输出向量，R是读取函数,G是文本图。

为了对网络模型进行训练，该系统还包括训练模块，其配置成根据如下损失函数对图神经网络进行训练：

loss＝-(y·log(y′)+(1-y)·log(1-y′))

其中，y′是模型预测样本为正例的概率，y是样本标签。

对于上述的各功能模块，其具体功能的实现与所提供的方法种对应部分相同，此处就不再赘述。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于文本图神经网络的社交文本情感分类方法，其特征在于，包括：

接收目标文本，并去除所接收的文本中的异常值；

利用BERT模型获取所述目标文本的词嵌入；

获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征：根据停止词对目标文本进行分词，然后根据SentiWordnet情感词典获取每个单词的情感分数；根据单词的每种词性内意思的排序，按照顺序赋予每个意思权重为1/k；其中，k为单词在SentiWordnet中的排序；对每个单词在其词性内所有的分数进行加权计算，得到该单词的情感得分，计算公式为：

其中，score(w⁺)为该单词的积极分数，score(w^-)为该单词的消极分数，n为该单词在SentiWordnet词典中的含义总数；

将所述目标文本构建为文本图结构：对目标文本进行滑动窗口截取，计算语料中单词与单词之间的词共现信息；将目标文本中的每个单词作为节点，单词之间的边采用单词与单词之间的词共现信息来表示，同时单词与自身连接；

将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类；

所述利用文本图神经网络消息传递机制进行特征提取的方法为：

首先生成节点信息，生成信息的公式为：

其中，是节点v在t+1时间步所接收到的信息，N(v)是节点v的所有邻接点，/>是节点v在t时间步的特征向量，e_vw是节点v和w的边特征，M_t是消息函数；

然后对节点进行更新，更新公式为：

其中，U_t是节点更新函数，该函数把原节点状态和信息/>作为输入，得到新的节点状态/>

最后读出特征，公式为：

其中，是最终的输出向量，R是读取函数，G是文本图；

其中，对文本图神经网络进行训练，采用如下损失函数：

loss＝-(y·log(y′)+(1-y)·log(1-y′))

其中，y′是模型预测样本为正例的概率，y是样本标签。

2.一种基于文本图神经网络的社交文本情感分类系统，其特征在于，包括：

情感极性特征获取模块，其配置成获取所述目标文本的情感极性特征，利用SentiWordnet情感字典源计算目标文本的每个单词的情感分数，以每个单词的最终得分作为单词的情感极性特征：根据停止词对目标文本进行分词，然后根据SentiWordnet情感词典获取每个单词的情感分数；根据单词的每个词性意思的排序，按照顺序赋予该词性意思权重为1/k；k为单词在SentiWordnet中的排序；

文本图构建模块，其配置成将所述目标文本构建为文本图结构：对目标文本进行滑动窗口截取，计算语料中单词与单词之间的词共现信息；将目标文本中的每个单词作为节点，单词之间的边采用单词与单词之间的词共现信息来表示，同时单词与自身连接；

特征提取分类模块，其配置成将所述初始词向量作为文本图的节点初始特征，然后利用文本图神经网络消息传递机制进行特征提取，最后将提取的特征进行情感分类；

所述特征提取分类模块包括：

生成信息模块，其配置成根据如下公式生成节点信息，

其中，是节点v在t+1时间步所接收到的信息，N(v)是节点v的所有邻接点，h′_v是节点v在t时间步的特征向量，e_vw是节点v和w的边特征，M_t是消息函数；

节点更新模块，其配置成根据如下公式对节点进行更新：

特征读取模块，其配置成根据如下公式读出特征：

其中，是最终的输出向量，R是读取函数，G是文本图；

训练模块，其配置成根据如下损失函数对文本图神经网络进行训练：

loss＝-(y·log(y′)+(1-y)·log(1-y′))

其中，y′是模型预测样本为正例的概率，y是样本标签。