CN110991190B

CN110991190B - 一种文档主题增强系统、文本情绪预测系统和方法

Info

Publication number: CN110991190B
Application number: CN201911212020.4A
Authority: CN
Inventors: 王邦; 汪畅
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-29
Anticipated expiration: 2039-11-29
Also published as: CN110991190A

Abstract

本发明公开了一种文档主题增强系统、文本情绪预测系统和方法，属于自然语言处理领域。包括：主题获取模块，用于通过神经主题模型，获取文档的主题向量；单词向量转化模块，用于将文档中各个单词转化为向量；上下文向量转化模块，用于通过自注意力网络，将文档中各个单词的向量转化为各自的上下文向量；文档向量获取模块，用于通过主题注意力机制，将文档中各个单词的上下文向量与该文档的主题向量融合，得到该文档的向量；文档特征向量获取模块，用于通过融合门网络，将文档的向量与该文档的主题向量再次融合，得到该文档的特征向量。本发明将神经主题模型和自注意力网络融合到统一的神经网络框架中，有利于提升文本情绪预测的准确性。

Description

一种文档主题增强系统、文本情绪预测系统和方法

技术领域

本发明属于自然语言处理领域，更具体地，涉及一种文档主题增强系统、文本情绪预测系统和方法。

背景技术

随着互联网技术的快速发展，网上每天会产生越来越多的文本内容，例如：在线新闻报道、用户评论等等。依靠人力对这些大量的文本进行分析会耗费大量人力和时间，如何让机器自动地进行情绪预测就显得尤为重要。情绪预测技术在公众舆情分析、文本分类、新闻推荐等许多领域具有重大的应用价值。针对情绪预测这项技术，现在已经开发出了多种方法，大致可以分为基于单词的方法、基于主题的方法和基于神经网络的方法。

基于单词的方法直接利用单词级别的情绪特征(如：情绪词典)，去发现单词与情绪之间的对应关系。基于各个单词的情绪特点进而推断整个文本的情绪。这类方法虽然操作简单，但无法处理不同语境下有些单词会表达不同的情绪的情况。基于主题的方法试图通过挖掘主题和情绪的关系来改善前述问题。这类方法通常会在已有的主题模型(例如：Latent Dirichlet Allocation)的基础上，建立一个带有情绪层的潜在主题模型，给主题和情绪之间的关系建模。其中，一个主题指的是语料库中所有单词的概率分布。这类方法的缺点是忽略了文本的语义信息。近年来，许多基于神经网络的方法被提出，它们利用卷积神经网络或循环神经网络等提取文档语义特征并生成文档的向量表示。这类方法给情绪预测性能带来了很大的提升，同时也具备无需特征工程的优点。

情绪预测方面已有的工作表明主题和语义信息对于情绪预测都是有效的，但是现在很少有方法在一个神经网络模型中同时利用主题信息与语义信息，或者它们将主题建模组件和语义学习组件分开训练，使得网络模型无法以端到端的方式联合提取文本的主题和语义。同时，很多神经网络模型具有运行速度慢的劣势。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种文档主题增强系统、文本情绪预测系统和方法，其目的在于提升文本情绪预测的准确性，同时加快情绪预测神经网络模型的运行速度。

为实现上述目的，按照本发明的第一方面，提供了一种文档主题增强系统，所述文档主题增强系统包括：

主题获取模块，用于通过神经主题模型，获取文档的主题向量；

单词向量转化模块，用于将文档中各个单词转化为向量；

上下文向量转化模块，用于通过自注意力网络，将文档中各个单词的向量转化为各自的上下文向量；

文档向量获取模块，用于通过主题注意力机制，将文档中各个单词的上下文向量与该文档的主题向量融合，得到该文档的向量；

文档特征向量获取模块，用于通过融合门网络，将文档的向量与该文档的主题向量再次融合，得到该文档的特征向量。

具体地，神经主题模型采用基于变分自编码器的神经主题模型，分为编码器和解码器两个部分，编码器用于将文档的词袋向量转化为主题概率分布，解码器用于将主题概率分布转化为重构的文档词袋向量。

具体地，解码器包括依次串联的：1个主题嵌入层、1个主题单词嵌入层和1个softmax层；

主题嵌入层将文档的主题概率分布向量θ映射为主题向量v_t＝W^(te)θ；

主题单词嵌入层和softmax层将文档主题向量v_t映射为重构的文档词袋向量

其中，

表示主题嵌入层的可学习参数，d_t表示主题嵌入层输出的维度，K表示神经主题模型中的主题个数；

表示主题单词嵌入层的可学习参数，V表示训练文档组成的语料库对应的字典长度。

具体地，自注意力网络采用多维自注意力网络，包括以下处理：

首先，各个单词的向量x_i被1个全连接层转化到隐藏状态h_i＝tanh(W^(h)X_i+b^(h))；

其次，对于第i个单词，计算其与该文档中各个单词之间的对齐分数f(h_i，h_j)＝σ(W^(s)h_i+U^(s)h_j+b^(s))；

然后，基于f(h_i,h_j)计算该文档中各个单词对于合成第i个单词的上下文向量的权重

最后，计算第i个单词的上下文向量

其中，

表示全连接层可学习的参数；σ(·)表示ELU激活函数，

表示多维自注意力机制的可学习参数；N代表文档中包含的单词总数；⊙表示向量元素对应相乘，d_W表示单词的向量x_i的维度，d_t表示文档的主题向量的维度。

具体地，主题注意力机制包括以下处理：

首先，将待预测文档的主题向量v_t转化为隐藏状态h_t＝W^(t)v_t+b^(t)；

其次，计算h_t与该文档各个单词之间的对齐分数

然后，将f(z_i,h_t)归一化，得到各个单词对于合成文档向量的权重

最后，合成文档向量

其中，

表示主题注意力机制的可学习参数，

表示第i个单词的上下文向量，N代表文档中包含的单词总数，d_t表示文档的主题向量的维度。

具体地，融合门网络基于文档向量v_d和文档的主题向量v_t，计算得到v_d和v_t合成文档特征向量的权重，基于所得到的权重对v_d和v_t加权求和，得到文档的最终文档特征向量v_f，具体操作如下：

g＝sigmoid(W^(f)v_d+U^(f)v_t+b^(f))

v_f＝g⊙v_d+(1-g)⊙v_t

其中，

表示融合门网络的可学习参数，d_t表示文档的主题向量的维度，1-g表示1和向量里每个数相减，⊙表示向量元素对应相乘。

为实现上述目的，按照本发明的第二方面，提供了一种文本情绪预测系统，该文本情绪预测系统包括：

如第一方面所述的文档主题增强系统，用于获取待预测文档的主题增强后特征向量；

文档情绪预测模块，用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布；

文档主题增强系统和文档情绪预测模块在训练阶段被执行端到端的整体训练。

具体地，该文档在各个情绪类别上的概率分布的计算公式如下：

其中，v_f表示待预测文档的特征向量，

表示文档情绪预测模块的可学习参数，E表示情绪类别数，d_t表示文档的主题向量的维度。

具体地，损失函数为：

其中，

为神经主题模型的损失，

为情绪预测的损失，λ为超参数，用于平衡神经主题模型的损失和情绪预测的损失，μ₁,∑₁分别表示预设的先验狄利克雷分布的均值和方差，K表示神经主题模型中的主题个数；均值向量μ₀和方差向量∑₀分别表示后验主题概率分布的均值和方差，tr()表示矩阵的迹，

表示期望值，∈表示采样自标准正态分布的随机变量，x_BOW表示文档的词袋向量，

表示重构的文档词袋向量，E表示情绪类别数，

为预测的情绪概率分布，y为实际的情绪概率分布。

为实现上述目的，按照本发明的第三方面，提供了一种文本情绪预测方法，该方法包括以下步骤：

S1.将训练集中的文档分批输入到如第一方面所述的文档主题增强系统和文档情绪预测模块中，文档情绪预测模块用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布，得到该文档的情绪预测结果；

S2.基于预测结果和真实结果，根据预先设置的损失函数计算损失值；

S3.更新网络和文档情绪预测模块的所有可学习参数，以减小损失值；

S4.重复步骤S1～S3，直到最小化损失值或使得损失值在某一阈值以下；

S5.将待预测文档输入到已训练好的文档主题增强系统和文档情绪预测模块中，得到待预测文档的情绪预测结果。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的文档主题增强系统，将神经主题模型和自注意力网络融合到统一的神经网络框架中，神经主题模型增强了文档向量中的主题信息，主题注意力机制融合了主题信息和语义信息，使得文本情绪预测的过程同时利用了文本主题信息和语义信息并使这两类信息有效融合到最终生成的文档特征向量中，因此有利于提升文本情绪预测的准确性。

(2)本发明所提供的文本情绪预测方法，由于采用了以运算快为特点的神经主题模型和自注意力网络，自注意力网络的可学习参数少，可并行；神经主题模型一旦训练好，对于新来的文档不需要重新更新模型参数，因此同样具备运算速度快、训练时间短的优点。

(3)本发明所提供的文本情绪预测方法，将主题建模和语义学习这两个任务同时进行，不仅能保证有效提升文本情绪预测的准确性，同时在语义学习的监督下，还能促进主题建模性能的提升，让模型学习到更高质量的主题。

(4)本发明所提供的文本情绪预测方法，利用了神经主题模型的可扩展性，将其与自注意力网络合并到一个神经网络框架中，使得整个网络模型能够被端到端地整体训练，而无需单独训练主题模型，因此能够有效简化训练流程。

附图说明

图1为本发明实施例提供的一种文档主题增强系统结构示意图；

图2为本发明实施例提供的单词向量转化模块转化过程示意图；

图3为本发明实施例提供的一种基于上述的文档主题增强系统的文本情绪预测系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种文档主题增强系统，所述文档主题增强系统包括：

主题获取模块，用于通过神经主题模型，获取文档的主题向量。

单词向量转化模块，用于将文档中各个单词转化为向量。

上下文向量转化模块，用于通过自注意力网络，将文档中各个单词的向量转化为各自的上下文向量。

文档向量获取模块，用于通过主题注意力机制，将文档中各个单词的上下文向量与该文档的主题向量融合，得到该文档的向量。

首先建立一个主题模型，然后从建立好的主题模型中获取待预测文档的主题向量(记作v_t)，可以是主题概率分布向量，也可以是由主题概率分布向量进一步计算得到的隐藏向量。

优选地，所述神经主题模型采用基于变分自编码器的神经主题模型，(记作NTM)，其结构图如图1左侧部分所示，分为编码器和解码器两个部分，所述编码器用于将文档的词袋向量转化为主题概率分布，所述解码器用于将主题概率分布转化为重构的文档词袋向量。

神经主题模型NTM的输入为文档的词袋向量，设训练文档组成的语料库对应的字典长度为V，则每个文档的词袋向量是一个V维的向量：

x_BOW＝[x₁，x₂，...，x_V]

其中，x_BOW的第i个值x_i表示字典中的第i个单词在文档中出现的次数。

编码器包含依次串联的：2个串联的全连接层、2个并联的输出维度为神经主题模型中的主题个数K的全连接层、重采样层和softmax层。

串联的两个全连接层将文档的词袋向量转化为一个隐藏向量π：

π＝softplus(W⁽²⁾(softplus(W⁽¹⁾x_BOW+b⁽¹⁾))+b⁽²⁾)

其中，softplus为激活函数，W⁽¹⁾、W⁽²⁾、b⁽¹⁾、b⁽²⁾为网络中可学习的参数。

d₁是前一个全连接层的输出维度，d₂是后一个全连接层的输出维度。

随后，使用两个不同的全连接层(2个并联的全连接层)分别作用在π上，分别获得均值向量μ₀和方差向量∑₀，它们分别表示后验主题概率分布的均值和方差：

μ₀＝W^(μ)π+b^(μ)

∑₀＝W^(∑)π+b^(∑)

其中，W^(μ)、W^(∑)、b^(μ)、b^(∑)为网络中可学习的参数。μ₀、∑₀均是K维的向量，K表示神经主题模型中的主题个数，

基于均值向量μ₀和方差向量∑₀，则重采样层和softmax层可以计算出输入文档的主题概率分布向量θ：

其中，∈表示采样自标准正态分布的随机变量，θ是一个K维的向量，表示主题概率分布。至此编码器部分完成。

优选地，所述解码器包括依次串联的：1个主题嵌入层、1个主题单词嵌入层和1个softmax层；

所述主题嵌入层将文档的主题概率分布向量θ映射为主题向量v_t＝W^(te)θ；

所述主题单词嵌入层和softmax层将文档主题向量v_t映射为重构的文档词袋向量

其中，

解码器引入主体向量v_t，用于主题注意力机制，从而得到主题增强的文档向量。

整个神经主题模型的损失函数定义如下：

其中，μ₁,∑₁分别表示预设的先验狄利克雷分布的均值和方差，K表示主题个数，tr()表示矩阵的迹，

表示期望值。在最后对整个主题增强自注意力网络的训练中，需要使

尽可能小。

如图2所示，本发明中所述单词向量转化模块表示分为词向量和位置向量。其中，词向量

从预先训练好的词向量模型中得到，位置向量

为随机初始化。即文档的第i个单词的向量表示

其中，

为第i个单词的词向量，

为第i个单词的位置向量，i＝1,2,…N，N为待预测文档的单词总数，x_i、

均为d_w维的向量。

优选地，所述自注意力网络采用多维自注意力网络，其会学习各个单词的上下文语义信息，并为每个单词生成一个包含上下文语义信息的上下文向量(记作z_i，第i个单词的上下文向量)，其包含了单词的上下文信息。

具体包括以下处理：

首先，各个单词的向量x_i被1个全连接层转化到隐藏状态h_i＝tanh(W^(h)x_i+b^(h))。

其次，对于第i个单词，使用多维自注意力机制，计算其与该文档中各个单词之间的对齐分数f(h_i,h_j)＝σ(W^(s)h_i+U^(s)h_j+b^(s))。f(h_i,h_j)越大，表示第j个单词和第i个单词的相关性越大，对于合成第i个单词的上下文向量越重要。

最后，计算第i个单词的上下文向量

其中，

表示全连接层可学习的参数；σ(·)表示ELU激活函数，

表示多维自注意力机制的可学习参数；N代表文档中包含的单词总数；⊙表示向量元素对应相乘，d_W表示单词的向量x_i的维度，d_t表示文档的主题向量的维度。所述上下文向量包含了单词的上下文语义信息。

优选地，所述主题注意力机制包括以下处理：

首先，将待预测文档的主题向量v_t转化为隐藏状态h_t＝W^(t)v_t+b^(t)。

其次，计算h_t与该文档各个单词之间的对齐分数

对齐分数越大，表示单词对于表达文档主题越重要。

最后，合成文档向量

其中，

表示主题注意力机制的可学习参数，

融合门网络的优点在于可以自适应地学习文档向量v_d和主题向量v_t的重要程度，通过加权求和的方式获得最终文档特征向量v_f。优选地，所述融合门网络基于所述文档向量v_d和文档的主题向量v_t，计算得到v_d和v_t合成文档特征向量的权重，基于所得到的权重对v_d和v_t加权求和，得到文档的最终文档特征向量v_f，具体操作如下：

g＝sigmoid(W^(f)v_d+U^(f)v_t+b^(f))

v_f＝g⊙v_d+(1-g)⊙v_t

其中，

表示融合门网络的可学习参数，d_t表示文档的主题向量的维度。

如图3所示，本发明提供了一种基于上述的文档主题增强系统的文本情绪预测系统，该系统包括：

文档主题增强系统，用于获取待预测文档的主题增强后特征向量。

文档情绪预测模块，用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布。

所述文档主题增强系统和文档情绪预测模块在训练阶段被执行端到端的整体训练。

所述文档情绪预测模块由一层全连接层组成。所述全连接层的输入是所述最终文档特征向量v_f，输出是一个维度和情绪类别数相等的向量。然后将所得到的向量使用softmax归一化得到所述待预测文档在各个情绪类别上的概率分布

优选地，该文档在各个情绪类别上的概率分布的计算公式如下：

其中，v_f表示待预测文档的特征向量，

E表示情绪类别数，d_t表示文档的主题向量的维度。

优选地，损失函数为：

其中，

为神经主题模型的损失，

表示重构的文档词袋向量，E表示情绪类别数，

为预测的情绪概率分布，y为实际的情绪概率分布。

将语料库分为训练集和验证集，所述语料库中各个文档的情绪概率分布已知。然后利用以下步骤进行所述文档主题增强系统的训练和验证。

本发明提供了一种基于上述的文档主题增强系统的文本情绪预测方法，该方法包括以下步骤：

S1.将训练集中的文档分批输入到所述文档主题增强系统和文档情绪预测模块中，所述文档情绪预测模块用于将待预测文档的主题增强后特征向量转化为该文档在各个情绪类别上的概率分布，得到该文档的情绪预测结果。

S2.基于预测结果和真实结果，根据预先设置的损失函数计算损失值。

S3.更新所述文档主题增强系统和文档情绪预测模块的所有可学习参数，以减小所述损失值。

在本发明实施例中，更新参数所用的优化器为Adam优化器。

S4.重复步骤S1～S3，直到最小化所述损失值或使得所述损失值在某一阈值以下。

应用实例

以新浪新闻数据集作为语料库，用于验证本发明所提供的基于文档主题增强系统的文本情绪预测方法的性能；单词输入层采用基于中文维基百科数据库的预训练word2vec词向量模型；上下文向量合成层采用多维自注意力网络；文档向量合成层采用主题注意力机制；最终文档特征向量合成层采用融合门网络。所使用的新浪新闻数据集包含从2016年1月到12月发布的总共5258篇热点新闻，新闻来自新浪新闻网站。每篇新闻对应6类情绪标签的读者投票数：感动、愤怒、同情、悲伤、惊讶和新奇。将每篇新闻对应的投票数归一化，则得到其对应的情绪概率分布。数据集中发布自1月至6月的3109篇新闻被用作训练集，验证集为剩余的2149篇新闻。

表1示出了该数据集的详细统计信息。

表1

表2示出了文档主题增强系统中所有超参数的设置情况。

表2

更新参数所使用的优化器为Adam优化器。

为验证本发明能够有效提高文本情绪预测的准确性，分别测试使用以下3种方法(a)-(c)进行文本情绪预测的准确性。方法(a)为本发明实施例提供的文本情绪预测方法，方法(b)和(c)为在方法(a)的基础上稍作修改后形成的方法。方法(a)-(c)分别是：

(a)本发明实施例提供的基于文档主题增强系统的文本情绪预测方法；

(b)在方法(a)的基础上移除最终文档特征向量层，直接将文档向量合成层的结果输入到情绪预测层进行情绪预测，其余结构不变；

(c)在方法(a)的基础上修改文档向量合成层，将主题注意力机制修改为传统的基于多层感知机的注意力机制，即将主题向量vt替换为一个具有相同维度的随机初始化的向量q，且向量q在网络训练的过程中得到更新。其余结构不变。

另外，目前在此新浪新闻数据集上表现得最好的文本情绪预测方法为Gated DR-G-T，目前被广泛用于情感分类的一个方法为AttBiLSTM(带有注意力机制的双向长短期记忆网络)，分别记为方法(d)和方法(e)。

表3示出了方法(a)-(e)的情绪分类准确性，采用的评价指标为精度和平均皮尔逊相关系数。精度描述最主要情绪被正确预测的新闻数量占总新闻数量的比重，平均皮尔逊相关系数描述预测的情绪概率分布与真实的情绪概率分布之间的平均相似程度。从表中可以看出，方法(a)在所有比较的方法中取得最好的精度和最好的平均皮尔逊相关系数，且与现有的最佳方法(d)相比，具有明显的优势，如精度提升了2.54％。方法(a)和当前被广泛用于情感分类的方法(e)相比，同样具有很大的性能提升。另外，将方法(a)和方法(b)、方法(c)相比，方法(a)取得了更好地预测结果。这分别说明最终文档特征向量合成层、主题注意力机制对于提升文本情绪预测性能是有帮助的。

方法	精度	平均皮尔逊相关系数
			a	67.74％	0.7440
b	67.22％	0.7360
			c	67.14％	0.7376
d	65.20％	0.71
			e	62.95％	0.6814

表3

表4示出了方法(a)、方法(d)、方法(e)三种方法在训练网络阶段耗时情况上的比较。从表中可以看出，本发明实施例提供的方法(a)所需耗时最短，说明方法(a)具有最快的运行速度。具体的讲，方法(a)的训练速度是当前此数据集上的最佳方法(d)的约38倍。同时，方法(a)相比方法(d)和(e)也具有更少的参数量，方法(a)的参数量约只有后者的一半。

方法	参数量	每个epoch的训练时间(秒)
			a	0.09M	77
d	0.20M	2969
			e	0.16M	97

表4

表5示出了三种方法在主题建模性能上的比较。这三种方法分别是：本发明实施例提供的方法(a)、方法(a)中的神经主题模型NTM和传统主题模型LDA。表中可视化了这三种方法学习到的所有主题中关于“医院”的一个主题。从表中可以看出，本发明实施例提供的方法(a)学习到的主题具有最好的质量，说明方法(a)的主题建模性能最佳。具体地，在传统主题模型LDA学习的主题中，含有较多的(5个)与“医院”无关的主题单词：“孩子”、“儿子”、“母亲”、“派出所”、“警方”；在方法(a)中的神经主题模型NTM学习的主题中，含有2个非主题单词：“张春玲”、“张榜”，1个与“医院”无关的主题单词：“痛苦”；而在方法(a)学习的主题中，只有2个与“医院”无关的主题单词：“老人”、“公安机关”，没有非主题单词出现。另外，方法(a)学习到的主题比只用方法(a)中的神经主题模型NTM进行主题建模学习到的主题的质量要好，这说明将主题建模和语义学习两个任务同时进行，会促进主题建模的性能。

方法	关于“医院”的主题下的概率最高的10个单词
		LDA	医院 <u>孩子儿子母亲 </u>患者医生手术 <u>派出所 </u>治疗 <u>警方</u>
NTM	医院医生康复 <u>张春玲 </u>治疗病 <u>痛苦 </u>儿科医生器官 <u>张榜</u>
		方法a	医院医生手术治疗患者 <u>老人 </u>护士病病情 <u>公安机关</u>

表5

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。