CN107357899B

CN107357899B - 基于和积网络深度自动编码器的短文本情感分析方法

Info

Publication number: CN107357899B
Application number: CN201710573654.7A
Authority: CN
Inventors: 王生生; 张航; 赖永
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2020-05-22
Anticipated expiration: 2037-07-14
Also published as: CN107357899A

Abstract

本发明公开一种基于和积网络深度自动编码器的短文本情感分析方法，该方法包括以下步骤：一、预处理短文本数据；二、利用doc2vec模型训练句向量；三、利用和积网络深度编码器对句向量进行编码，得到句向量的分层抽象特征；四、利用最大积网络深度解码器对分层抽象特征解码，将解码后的特征与原始句向量特征对比，计算重构误差。调整和积网络深度自动编码器参数使得重构误差最小。得到最优的和积网络深度编码器，由它获得最优分层抽象特征；五、利用最优分层抽象特征进行在线结构学习生成一个和积网络结构，使用少量带标签的短文本数据微调和积网络，使用在线参数学习算法不断调整网络参数，输入测试集，由训练好的和积网络获得情感分类类别。

Description

基于和积网络深度自动编码器的短文本情感分析方法

技术领域

本发明涉及和积网络和短文本情感分析。

背景技术

随着社交网络的不断发展，人们更愿意通过社交网络来表达自己的观点，从而通过对用户在线评论了解用户的情感倾向得到了学术界的广泛关注。但这些用户的在线评论都是字数较少的短文本。短文本提供的信息量少，口语化严重，提升了情感分析的难度。

当前大多数基于有监督学习短文本情感分析的研究都取得了不错的成绩,依赖于大量人工标注的数据，使得基于有监督学习的系统需要付出很高的标注代价。相反的，无监督学习不需要人工标注数据训练模型，是降低标注代价的解决方案，但由于其完全依赖算法学习结果，往往效果不佳，难以达到实际要求。而半监督学习则是采取综合利用少量已标注样本和大量未标注样本来提高学习性能的机器学习方法，它兼顾了人工标注成本和学习效果，被视为一种折中方案。

目前，深度自动编码器在半监督短文本情感分析领域取得了突破性进展，深度自动编码器的应用免去了人工提取数据特征的巨大工作量，提高了特征提取的效率，降低了原始输入的维数，得到数据的逆向映射特征，展现了从少数类标样本和大量无标签数据中学习输入数据本质特征的强大能力，并将学习到的特征分层表示。但深度自动编码器也存在很多局限性：1.其结构都是由不同类型的建模单元堆叠而成，这些建模单元均有理论缺陷，所以它们构建的深度结构不完善。2.其无监督逐层贪心训练只是在一定程度上解决了局部最小问题，没有全局优化，随着隐藏层数的增加，梯度稀释越发严重，其训练极其繁琐，需要很多技巧。3.其模型结构往往是固定的，其未考虑短文本数据本身的关联性，无法完美拟合不同类型的短文本数据。和积网络(Sum-Product Networks)是一种新型深度概率前馈神经网络模型，其结构的递归概率语义具有强大的理论支持，由其构成的深度结构很完善。和积网络能够容易的学习网络结构与参数，训练时间远快于现有的深度自动编码器。和积网络模型的结构学习能很好的拟合数据的表示，不同于现有的深度自动编码器需利用一个先验结构。基于和积网络模型的这些优点，本文提出改进和积网络模型用作深度编码器，提出替换Sum结点为Max结点的最大积网络(Max-Product Networks)模型用作深度解码器。

综上所述，我们提出的基于和积网络深度自动编码器的短文本情感分析方法。首先，预处理在线爬取的短文本数据，然后利用doc2vec模型预训练短文本句向量，再通过和积网络深度自动编码器对句向量提取分层抽象特征，最后将提取的分层抽象特征向量利用和积网络进行情感分析。

发明内容：

为解决现有的深度自动编码器的局限性，如模型建模单元存在理论缺陷，模型训练困难，模型结构单一无法拟合不同类型的短文本数据等。本发明提出了一种基于和积网络深度自动编码器的短文本情感分析方法，发明内容主要包括：本短文本情感分析的流程框架，预处理在线爬取的短文本数据，改进和积网络作为深度编码器，提出替换和积网络中Sum节点为Max节点的最大积网络作为深度解码器，以及将和积网络应用到短文本情感分析领域。

一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：至少包括以下步骤：

步骤一、预处理在线爬取的短文本数据；

采用Porter算法、正则表达式方法等对在线爬取的无标签短文本数据进行预处理。

步骤二、利用doc2vec模型训练句向量；

采用doc2vec模型对步骤一获得的短文本数据进行训练得到句向量。

步骤三、提出使用和积网络在线结构学习算法对步骤二得到的句向量进行在线结构学习，得到一个和积网络深度编码器。使用所得到的和积网络深度编码器对步骤二获得的句向量进行编码，得到句向量的分层抽象特征。

步骤四、构建最大积网络深度解码器，对步骤三得到的分层抽象特征进行解码。将解码后的特征与步骤二输入和积网络深度编码器的句向量特征对比，计算重构误差。调整和积网络深度自动编码器参数使得重构误差最小。最终，得到最优的和积网络深度编码器，并由它获得最优分层抽象特征。

步骤五、利用由步骤四得到的最优分层抽象特征进行在线结构学习生成一个和积网络模型，使用少量带标签的短文本数据微调和积网络模型，和积网络模型使用其在线参数学习算法不断调整优化网络参数。输入测试集，由训练好的和积网络模型获得情感分类类别。

有益效果：

与现有技术相比，采用本发明所述的设计方案，可以达到以下技术效果：

1、对在线爬取的短文本数据进行预处理操作，能有效规范口语化严重的短文本数据并有效降低短文本特征集大小，预处理后的短文本数据能更好的训练句向量。

2、和积网络深度编码器可使用其在线结构学习算法从输入的句向量中生成其网络结构并对句向量提取分层抽象特征，该方法考虑了句向量间原有的相关信息，因此该方法比现有深度编码器使用一个先验结构提取句向量特征能更好拟合不同类型的句向量并且可提取更优的分层抽象特征。

3、使用最大积网络深度编码器对和积网络深度编码器提取的分层抽象特征进行解码，该方法比现有深度解码器的解码速度更快且具有更优的特征还原性。

4、利用和积网络深度编码器得到的最优分层抽象特征进行在线结构学习得到一个和积网络，使用少量带标签的短文本数据有监督微调和积网络。分类层采用和积网络比现有深度自动编码器分类层采用支持向量机能得到更高的情感分类准确率且模型具有更好的鲁棒性。

附图说明：

图1.方法框架流程图

图2.和积网络深度自动编码器示意图

图3.三层和积网络模型示意图

图4.和积网络在线结构学习示意图

具体实施方式：

步骤一、预处理在线爬取的短文本数据；

收集短文本数据分为两部分：第一部分是利用Python具有网页爬取功能的BeautifulSoup库在线爬取无标签短文本数据。例：使用BeautifulSoup和Twiiter API在线爬取微博短文本数据，在IMDb电影评论网站爬取电影评论短文本数据等。第二部分是收集公开的带标签的短文本数据。对获得的短文本数据使用使用Porter算法提取词干；对重复字符、用户句柄、链接、表情符号、话题标签等特殊文本采用正则表达式方法替换为简洁表示；通过距离标定方法通过标记到左右两侧最邻近的显式否定词的距离来实现对否定词进行检测。

步骤二、利用doc2vec模型训练句向量；

利用步骤一得到的大量无标签短文本数据使用doc2vec模型训练这些短文本的句向量。Doc2vec模型是基于Word2vec模型的基础上发展而来的方法，它可以将一段句子表征为实数值向量。Doc2vec是用来得到词和文本深层特征的浅层模型，它不但考虑到了各词之间的语义关系，而且也考虑到了词与词之间的顺序，能够很好的表示出词与文本的特征。Doc2vec用到两个重要的模型--PV-DB0W和PV-DM模型，针对PV-DB0W和PV-DM两种模型又给出了两套算法--Hierarchical Softmax和Negative Sampling。本文使用基于Hierarchical Softmax算法的PV-DM模型。PV-DM模型的输入是一个长度可变的段落(Paragraph Id)和该段落中的所有单词(Words)，本文中的Paragraph Id代表的是情感文本。输出是根据Paragraph Id和Words预测出的句向量。

步骤三、利用提出的和积网络深度编码器对输入的句向量进行编码，提取分层抽象特征；

(1)利用步骤二Doc2vec模型预训练好的句向量使用和积网络深度编码器的在线结构学习算法生成其深度结构。其在线结构学习算法通过检测输入连续变量的相关性修改Product节点以代表这些联系，自底向上的递增构造和积网络结构，其算法的核心是分裂法，在线结构学习的过程中，每次新加入的数据，在不符合某一条件的情况下，会导致乘积结点做出变更。具体来说，会创造出多变量叶节点或者混合模型。这种结构学习算法只对数据一次扫描构造其结构，该方法很好地拟合流文本数据建模。和积网络深度编码器在线结构学习算法步骤如下：

Step1：首先，当一个Product节点被创建，假设在Product节点下的变量范围独立；

Algorithm 1createFactorModel(范围)

Input：范围(一组变量)

Output：全分解的和积网络

Step2：自底向上的递增构造和积网络结构；

Algorithm 2createMixtureSPNs(root,child₁,child₂)

Input：两个合并孩子节点的和积网络

Output：新的和积网络模型

remove child₁ and child₂ from root；

component₁←创建一个Product节点；

add child₁ and child₂作为component₁的儿子节点；

n_component1←n_root；

jointScope←scope(child₁)∪scope(child₂)；

component₂←createFactorModel(jointscope)；

n_component2←0；

mixture←创建一个Sum节点；

add child₁ and child₂作为mixture的儿子节点；

n_mixture←n_root；

add mixture作为root的孩子节点；

return root；

(2)和积网络深度编码器对输入的句向量编码，得到句向量的分层抽象特征。

随机变量

上的和积网络模型S可以看作为一个带根节点的有向无环可计算图模型。定义如果n为叶子结点，其可以表示一个分布φ_n，它的范围表示为

如果n为内部节点，w_n表示Sum节点下的非负权值，ch(n)表示n节点的孩子节点。假设S有效，以X＝x作为网络输入，其根节点输出有效估计P(X＝x)。此外，对于每一个节点n，S_n表示以n为根节点的子网网络。这样，一个在n的有效范围内的概率分布pwn可以表示为：sc(n)＝∪_c∈ch(n)sc(c)，节点n输出值表示为：S_n(x_|sc(n))。

考虑编码一个样本xⁱ～X到一个连续的d维嵌入空间

利用和积网络表示一个函数f_S:X→E_X。理解和积网络为一个人工神经网络，给一组和积网络的节点

构造一个嵌入：

每一个嵌入特征都可以表示为一个节点范围的边际分布。因此，这样构造的嵌入是由适当的概率密度的集合引起的几何空间中的一个点。和积网络节点也可以看作是通过节点范围给出的子空间运行的基于部分的过滤器。Sum节点可以解释为通过共享相同范围的过滤器的加权平均值构建的过滤器，并且Product节点可以被看作是非重叠作用域上的过滤器的组合。从和积网络学习算法的内部机制的角度来看，每个过滤器捕获数据的子群和子空间的不同方面。因此，范围信息引起了不同抽象级别的过滤器层次。

步骤四、构建最大积网络深度解码器，对步骤三得到的分层抽象特征进行解码。将解码后的特征与步骤二输入和积网络深度编码器的句向量特征对比，计算重构误差。调整和积网络深度自动编码器参数使得重构误差最小。最终，得到最优的和积网络深度编码器，并由它获得最优分层抽象特征。；

(1)在解码阶段，我们需要找到一个反函数g:E_X→X，例如：

本文替换和积网络模型的Sum节点作为Max节点，自根节点向下选取权值边与节点值乘积最大的路径传播，新模型最大积网络可有效进行最有可能解释(MPE)推理。至此，我们探索一个最大积网络M，设计gM模拟一个算法来计算M上的MPE概率查询任务。注意到如果一个样本xⁱ被完全观察，计算M(xⁱ)，该过程为一级或网络中自上而下的最大路径，该路径可由一组范围划分X的叶子结点通过一个类维特比(Viterbi-like)算法追踪。因此，如果整个嵌入

是有效的，按照以上最大路径的方式到达叶子结点，我们可获得一个

(对原编码的最有可能解释)。我们通过极小化L₁距离：

来刻画对叶子节点定义一个解码状态，激活值编码表示：

并非所有的eⁱ组件都是有效的，如果丢失的组件与其子组件可用的节点相关联，则可以将其完全解码。开可以通过一种前向传播的方法估计M中的这些未激活节点来弥补。否则，我们建议通过应用MPE推断来丢失要估算的节点n的激活，估计M_n(xⁱ)。例如，当处理内嵌嵌入时，我们通过它们的MPE状态估算叶节点值。

步骤五、利用由步骤四得到的最优分层抽象特征进行在线结构学习生成一个和积网络模型，使用少量带标签的短文本数据微调和积网络模型，和积网络模型使用其在线参数学习算法不断调整优化网络参数。输入测试集，由训练好的和积网络模型获得情感分类类别。。

(1)和积网络在线参数学习

通过一些小批量(mini-batch)数据点输入，SPNs模型的在线学习算法通过从根节点到叶子节点更新和积网络的参数和更新网络结构。SPNs模型通过跟踪运行充分统计量来更新Sum节点下的非负权值参数与叶子结点的分布参数。假设SPNs模型在每一个节点都有一个计数n_c(初始值为1)，当每一个数据点被接收，这些数据点的似然函数就可以通过计算每一个节点得到，然后SPNs模型的参数通过一种递归自上而下的方式从根节点更新。当一个Sum节点被穿过，它的计数加1并且其具有最高似然值的孩子节点加1。一个Sum节点s和它其中一个儿子节点c的连接权值w_s,c可以被估计为：

w_s,c＝n_c/n_s (3)

n_c位Sum节点的计数，n_c为孩子节点的计数。因为Product节点没有权值边，增加其似然值的方法就是增加其儿子节点似然值。通过递归增加Product节点每一个孩子计数，递归更新每个孩子节点子树权值。

(2)带标签短文本数据微调和积网络分类器

为了实现情感分类，通过有少量标签样本对分类和积模型进行有监督微调训练。分类和积模型也采用步骤三在线结构学习方法，其参数学习采用和积在线参数学习方法：在整个过程中为每一个和积网络结点维护一个计数值，通过正向传播的过程，将符合要求的哪些结点的计数值增加，并且每次都规定，和节点的权值，即和积网络模型中的参数值更新为：

ω_s,c＝n_child+1/n_c+#children (4)

直到分类和积网络模型训练完毕。

(3)输入测试集，可由训练好的和积网络模型获得输出情感分类类别。

我们利用和积网络的MAP(Maximum a Posteriori)推理方式，对输入的测试集的数据进行预测。MAP推理指的是，在给定若干变量后，求出未给定的变量的取值，使得整个概率最大。假设我们有一组测试数据为[x₁,x₂,…x₁₀₀,Lable]，分类SPNs模型的101个变量记为X₁,X₂,…X₁₀₀,Y，那么用和积网络预测标签的过程，实质上就是求：

arg max_YS(X₁＝x₁,X₂＝x₂,…X₁₀₀＝x₁₀₀,Y＝？) (5)

我们只要将Y＝0与Y＝1的正负情感标签分别传入和积网络的叶节点中，经过推理比较两个值的大小，取最大者，记为该测试数据的分类标签。这样，我们就可以得到每一条测试数据的预测值Y，经过统计预测值和真实标签的差异，可以得到分类的准确率。

Claims

1.一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：至少包括以下步骤：

步骤一、预处理在线爬取的短文本数据；

采用Porter算法、正则表达式方法对在线爬取的无标签短文本数据进行预处理；

步骤二、利用doc2vec模型训练句向量；

采用doc2vec模型对步骤一获得的短文本数据进行训练得到句向量；

步骤三、提出使用和积网络在线结构学习算法对步骤二得到的句向量进行在线结构学习，得到一个和积网络深度编码器；使用所得到的和积网络深度编码器对步骤二获得的句向量进行编码，得到句向量的分层抽象特征；

步骤四、构建最大积网络深度解码器，对步骤三得到的分层抽象特征进行解码；将解码后的特征与步骤二输入和积网络深度编码器的句向量特征对比，计算重构误差；调整和积网络深度自动编码器参数使得重构误差最小；最终，得到最优的和积网络深度编码器，并由它获得最优分层抽象特征；

步骤五、利用由步骤四得到的最优分层抽象特征进行在线结构学习生成一个和积网络模型，使用少量带标签的短文本数据微调和积网络模型，和积网络模型使用其在线参数学习算法不断调整优化网络参数；输入测试集，由训练好的和积网络模型获得情感分类类别。

2.根据权利要求1所述的一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：步骤一中采用如下方法对在线爬取的短文本数据进行预处理：使用Porter算法提取词干；对重复字符、用户句柄、链接、表情符号、话题标签采用正则表达式方法替换为简洁表示；通过距离标定方法对否定词进行检测，上述预处理操作能规范短文本集并降低特征集的大小。

3.根据权利要求1所述的一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：所述步骤三中利用和积网络的在线结构学习算法对步骤二得到的句向量进行一次扫描并以节点分裂的方法自底向上构造出一个和积网络深度编码器，使用所得到的和积网络深度编码器对步骤二获得的句向量进行编码，将句向量逐层编码到低维的嵌入空间，由此得到句向量的分层抽象特征，使用和积网络在线结构学习算法生成一个和积网络深度编码器的方法考虑了输入数据之间的相关信息，比现有使用一个先验结构深度编码器能更好的拟合不同类型的短文本数据，使用和积网络深度编码器对句向量进行编码可得到相对于现有深度编码器更优的分层抽象特征且使用和积网络深度编码器编码速度更快。

4.根据权利要求1所述的一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：所述步骤四中利用替换和积网络深度编码器中Sum节点为Max节点的方法构建最大积网络深度解码器，使用最大积网络深度解码器对步骤三得到的分层抽象特征进行解码，然后将解码后的特征与步骤二输入和积网络深度编码器的句向量特征对比，通过测量L₁距离的方法计算重构误差，调整和积网络深度自动编码器参数使得重构误差最小，最后得到最优的和积网络深度编码器，并由它获得句向量的最优分层抽象特征，使用最大积网络深度解码器对分层抽象特征进行解码的方法比现有的深度解码器的解码过程具有更优的特征还原性与更快的解码速度。

5.根据权利要求1所述的一种基于和积网络深度自动编码器的短文本情感分析方法，其特征在于：所述步骤五中利用步骤四得到的最优分层抽象特征进行和积网络的在线结构学习算法得到一个和积网络模型，使用少量带标签的短文本数据有监督微调和积网络模型，使用和积网络在线参数学习算法训练网络参数，训练好和积网络模型网络参数之后，输入短文本测试数据，利用和积网络的最大后验概率MAP推理方法，可对输入的测试数据进行情感预测，和积网络深度自动编码器分类层采用和积网络模型对测试数据进行情感分析比现有深度自动编码器分类层采用支持向量机进行情感分析能得到更高的分类准确率和更好的模型鲁棒性。