CN109189919B

CN109189919B - 文本多视角情感分类的方法、系统、终端及存储介质

Info

Publication number: CN109189919B
Application number: CN201810852616.XA
Authority: CN
Inventors: 曾子倩; 周文轩; 刘昕; 宋阳秋
Original assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Current assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2020-11-13
Anticipated expiration: 2038-07-27
Also published as: CN109189919A

Abstract

本发明公开了一种文本多视角情感分类方法、系统、终端及存储介质，所述方法包括：分别获取文本中的视角词‑情感词词组及文档表示；将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布；将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率；通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性。能够解决多视角情感分类方法中使用人工标注费时费力，以及较难获得人工标注的问题。

Description

文本多视角情感分类的方法、系统、终端及存储介质

技术领域

本发明涉及情感分析领域，尤其涉及一种文本多视角情感分类方法、系统、终端及存储介质。

背景技术

随着互联网的发展，淘宝、携程等各种购物、旅游网站或者APP应用上产生了大量用户的评论或留言，这些评论或留言表达了用户的多种情感倾向，如赞美、批评、厌恶、喜欢；目前也有越来越多的用户在细节方面进行评论，比如衣服色差大、尺码不标准、酒店前台服务差、附近很容易打到车等，这些评论有的是句子级别的，有的达到文档级。通过分析这些评论或者留言文本中的情感倾向，对文本内容进行情感分类，得到趋势性信息，对用户、商家乃至政府部门都是非常有价值的。

当前社交媒体的评论评分多是采用一笔交易或产品的总分数或者星级，没有给用户提供多个不同视角的评分，或者用户本身可能也很少去提交所有视角的评分。然而实际应用中，客户很希望能够快速地得到关于一个产品或者服务不同视角的评分，从而决定是否购买该产品或者服务。

现有技术中的文本情感分类，多是通过人工标注的数据进行监督学习，从而获取分类结果，这样不但消耗较多人力成本，而且效率也不高。特别是针对多视角的情感分类，当某些视角的评分是缺失的时候，标注变得很难实现。

发明内容

针对上述问题，本发明的目的在于提供一种文本多视角情感分类的方法、系统、终端及存储介质，能够解决上述使用人工标注费时费力，以及较难获得人工标注的问题。

本发明提供了一种文本多视角情感分类的方法，其特征在于，包括如下步骤：

分别获取文本中的视角词-情感词词组及文档表示；

将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布；

将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率；

通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性。

优选地，所述获取文本中的文档表示具体实现步骤为：

设置视角变量；

利用等级LSTM神经网络方法通过所述视角变量处理所述文本，选取与所述视角变量关联的词和句子；其中，所述等级LSTM神经网络方法为将多层LSTM神经网络结构中第(i-1)层LSTM神经网络的t时刻的隐藏层输出作为第i层LSTM神经网络的t时刻的输入的改进LSTM神经网络方法；

利用所述关联的词和句子进行迭代处理，获取级联的文档变量；

确定所述级联的文档变量为所述文本的文档表示。

优选地，所述将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布的具体实现步骤为：

设置编码器对文档表示x进行编码，估算视角a的情感极性R_a的分布，表示为q(R_a|x)；

其中，采用Softmax函数对所述文档表示x进行分类，获取所述视角a的情感极性；设置r_a为所述情感极性R_a的概率值，表示可能的情感极性，通过公式(1)建立模型估算类r_a，

其中

为与视角a的情感类r_a关联的变量，r′_a为可能的情感极性。

优选地，所述将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率的具体实现步骤为：

设置解码器通过公式(2)由已知的视角词ω_a与情感极性r_a估算出与所述视角词ω_a对应的情感词ω_s的概率值，

其中ω′_s是词汇表中情感词的随机采样，

是与情感词ω_s、视角词ω_a和情感极性r_a相关联的打分函数，所述打分函数采用公式(3)表示的语义优选函数，

其中w_s是情感词ω_s的嵌入变量，

是与r_a有关的变量，P是从文档中提取的组的集合，K_a是视角a的种子关键词集合，I(.)是指示函数，其中I(true)＝1，I(false)＝0。

优选地，所述通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性的具体实现步骤为：

考虑到解码器中视角词与情感极性，以及情感词同时出现，整合情感极性r_a来计算似然，使得变异函数能够并入编码器来限定似然的最低下界，假设视角词ω_a和情感极性r_a是独立的，通过应用公式(4)所示的Jensen不等式限定似然的下界，

由于p(r_a)是连续的，从公式(4)中移出p(r_a)项得到公式(5)所示的新的目标函数，

使用公式(6)所示的目标函数公式代替公式5中的logP(ω_s|r_a，ω_a)，

其中ω′_s是词汇表中情感词的随机采样，σ是sigmoid函数，则最终的目标函数被重写为公式(7)表示，

其中α为能够调整期望和熵到相同尺度的超参数；

计算所述最终的目标函数来确定所述视角对应的情感极性。

优选地，所述获取文本中的视角词-情感词词组具体实现步骤为：通过依赖句法树规则分别选取视角词-情感词词组，其中所述依赖句法树规则包括下述规则中的至少一项：

1)满足语法相关形容词修饰；

2)满足语法相关名词性主语，头部为形容词，尾部为名词；

3)满足语法相关直接宾语；

4)满足语法相关分句补语；

6)满足包括隐含表示视角的形容词。

优选地，设置调整期望和熵为同一尺度的参数α为α＝{0，0.01，0.1，1}。

本发明还提供了一种文本多视角情感分类的系统，其特征在于，包括：

信息获取单元，用于分别获取文本中的视角词-情感词词组及文档表示；

编码处理单元，用于将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布；

解码处理单元，用于将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率；

学习单元，用于通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性。

本发明还提供了一种终端，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现所述的文本多视角情感分类方法。

本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行所述的文本多视角情感分类方法。

在本发明实施例中，使用基于依赖句法结果的较少的规则来提取视角词及视角词相关的情感词，然后使用离散状态变分自编码框架(DVAE)来学习提取的文档表示，生成情感极性的离散概率分布，然后基于一个视角词与生成的情感极性离散概率分布预测所述视角词对应的情感词的概率。本发明实施例使用的监督只基于简单的规则，并不是用户或者领域专家标注的数据，同样获得了不亚于采用监督方法实现的预测结果。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供文本多视角情感分类方法的流程示意图。

图2是本发明实施例提供文本多视角情感分类方法模型示意图。

图3是本发明实施例中文本、提取的视角词、情感词的统计数据图。

图4是本发明实施例提供文本多视角情感分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

文档级多视角情感分类(DMSC)旨在预测由描绘一个或多个视角的的几条语句组成的文档每一视角的情感评分。通常，文档级情感分类由监督学习方法实现，现有方法采用每个视角的种子来提取视角相关的语句，使用生成模型来描述视角相关评分的生成过程，然后使用回归模型来汇集不同视角的评分。然而，这些方法重度依赖于视角相关语句的提取。生成过程假设文本是词袋，忽略了视角和情感词之间的依赖关系。更重要的是，生成过程假设全部评分依据多个视角的评分汇集，这使得当用户只关注一个特定的罕见的视角时将不可应用。

以下将对本发明的实现过程及原理进行详细的描述。

请参阅图1，本发明提供了一种文本多视角情感分类方法，其可由具有计算处理能力的终端设备(如服务器等)来执行，包括如下步骤：

S101，分别获取文本中的视角词-情感词词组及文档表示；

在本发明实施例中，所述社交媒体可为淘宝、携程、TripAdvisor、BeerAdvocate等大型社交平台网站，用户可以在这些社交媒体的平台上发表自然语言文本，例如发表评论、文章或者更新自己的生活状态等，这些文本将是文档级的。

在本发明实施例中，所述获取文本中的文档表示具体实现步骤为：采用深度学习方法来学习文档表示，设置视角关键词变量，在等级LSTM结构中利用所述视角关键词变量处理文档来选取关联的词和句子，利用所述关联的词和句子迭代处理所述视角关键词变量，获得级联的文档变量作为所述文本的文档表示。

文档表示也可以通过传统特征提取方法实现，采用传统情感分类方式使用一个高维稀疏变量来表示一个文档，这些稀疏特征基于词袋、n元、和/或词典特征。

在本发明实施例中，所述生成视角-情感词组具体实现步骤为：通过依赖句法树规则分别选取视角词-情感词词组，其中所述依赖句法树规则包括下述规则中的至少一项：

1，提取满足语法相关形容词修饰，比如短语“very good price”，提取出“price”和“good”作为视角词-情感词词组；

2，提取满足语法相关名词性主语，头部为形容词，尾部为名词，比如句子“theroom is small”，提取出“room”和“small”作为视角词-情感词词组；

3，提取满足语法相关直接宾语，头部为下列词之一“like,dislike,love,hate”，比如句子“I like the smell”，提取出“smell”和“like”作为视角词-情感词词组；

4，提取满足语法相关分句补语，头部为下列词之一“seem,look,feel,smell,taste”，比如句子“This beer tastes spicy”，提取出“taste”和“spicy”作为视角词-情感词词组；

5,如果句子中包括一些形容词隐含地按时一些视角，我们手动地指派它们到相应的视角，一些形容词可以作为视角也可以作为情感词，比如，句子“very tasty,drinkable”，前述规则不能提取任何组，但是我们知道它包含视角词-情感词词组，比如“taste-tasty”，其他形容词如clean(for cleanliness),flavorful(for taste),smelly(for smell)也落入该规则。

简单地说，通过一些视角关键词种子，使用依存句法来提取大量相关的情感词。视角词-情感词词组对于预测基于视角的情感极性很有效，比如，语句“There are a lot ofgreat restaurants close to the hotel”，提取出视角词-情感词词组“restaurant-good”，那么视角“location”的情感极性则更可能是正面的，因此，使用组信息到模型中，将能够训练大量种类的这种容易获取到的组来训练一个巨型模型。

前4个规则能被应用到任何一个数据库，然而最后一个是本地依赖的要求人工来识别这些特殊形容词。

在提取出潜在的视角词-情感词词组之后，将所述组分配到不同的视角作为监督信号。选取一些种子词来描述每一视角，然后机选提取出的视角(或情感)与视角种子词之间的相似度，将该组分配到与其具有最高相似度的一个种子词所属的视角，其中使用的相似度是由word2vec训练的两个词嵌入的余弦相似度。

S102，将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布；

设置编码器对文档表示x进行编码，估算视角a的情感极性R_a的分布，表示为q(R_a|x)；采用Softmax函数对文档表示进行分类，获取一个视角的评分，利用逻辑回归方法判断所述文档表示的一个视角的情感极性是正面或是负面，编码器输出为q(positive|x)和q(negative|x)；

其中，设置r_a为随机变量R_a的概率值，表示情感极性概率值，通过公式(1)建立模型估算类r_a的概率值，

其中

为与视角a的情感类r_a关联的变量，r′_a为可能的情感极性。

S103，将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率。

设置解码器通过公式(2)估算给出视角词ω_a和情感评分r_a时，视角词ω_a相应的情感词ω_s的概率值，

其中ω′_s是词汇表中情感词的随机采样，

是与情感词ω_s、视角词ω_a和情感极性r_a相关联的打分函数，采用公式(3)表示的语义优选函数，

其中w_s是情感词ω_s的嵌入变量，

是与r_a有关的变量，P是从文档中提取的组的集合，K_a是视角a的种子关键词集合，I(·)是指示函数，其中I(true)＝1，I(false)＝0。

解码器意味着给出视角词ω_a和情感评分r_a时，将最大化与它们高相关的情感词的概率。比如，视角词“price”相关的“good”对于视角“value”的情感词是“positive”，视角词“traffic”相关的“terrible”通常对于视角“location”的情感为“negative”。

S104，通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性。

建立模型的目标为求解未给出情感极性的视角词ω_a相应的情感词ω_s的最大似然。假设解码器中情感词和视角词与情感极性同时出现，整合情感极性r_a来计算似然，使得变异函数能够并入编码器来限定似然的最低下界，假设视角词ω_a和情感极性r_a是独立的，通过应用公式(4)所示的Jensen不等式限定似然的更低下界，

其中α为能够调整期望和熵到相同尺度的超参数；

计算所述最终的目标函数来确定所述视角对应的情感极性。

由于这个目标函数被

W_s，

参数化，文档编码器使用的所有参数生成x，我们可以使用随机梯度上升来同时最优化他们。实际上，我们可以训练不同的视角分别地或者将多个视角分成多个任务学习设置同时训练他们，文档表示的参数能够被分享。

优选地，设置调整期望和熵为同一尺度的参数α为0.1。

由图2可知，本发明基于变分自编码方法建立的模型包括编码器和解码器，将文档表示输入到编码器中，输出为两种情感极性：正面和负面，再将生成的情感极性的分布、视角词-情感词词组输入到解码器中，估算视角词对应的情感词的概率值。

为了说明本发明实施例的有效性，如图3所示，展示了一些通过TripAdvisor和BeerAdvocate数据库试验的结果。其中，该实验是依据本发明的优选实施例进行实验。通过TripAdvisor和BeerAdvocate数据库来评估本发明所使用的模型，分别包括7个视角(value，room，location，cleanliness，check in/front desk，service，and business)和4个视角(feel，look，smell，taste)，预处理数据后，两个数据集都按比例8∶1∶1被分成train/development/test集，可以利用development数据集来调整各自的超参数。

TripAdvisor和BeerAdvocate数据库的评分分别为1-5，0-5。在BeerAdvocate数据库中，0星很少，所以也将评分认为是1-5。转化原始评分标准到二值评分标准：1和2星被认为是负面的，3星被忽略，4和5星认为是正面的，数据挑选完成后，全局评分中负面评论的数量与全局评分中正面评论的数量相等。

在二值情感分类中，需要区分正面和负面两者的极性，在训练过程中考虑到不知道什么状态是正面的，什么状态是负面的，因此采用Hungarian算法来解决测试时期的分配问题，获取每个视角的平均情感分类精度。

优选地，采用注意力模型作为文档的表示。

采用Theano来实现本发明的模型，采用适应性学习速率方法，优选地采用ADADELTA方法来更新参数。为避免过度拟合，提出在编码器和解码器中设置权重延迟和丢弃，正则化系数和丢弃率分别被设置为10^-3和0.3。负面样本的数量和模型中的a被设置为10和0.1，对于每一个文档及每一个视角，大量的视角词-情感词词组被提取，与视角相关的解码器将同时预测5个视角词-情感词词组，这5个视角词-情感词词组被偏向的选取，一组被选取的概率与情感词的频率成比例，影响度为-0.25，即低频率情感词相比高频率的情感词更可能地被选取。

请参阅图4，本发明还提供了一种文本多视角情感分类系统，包括：

本发明还提供了一种终端，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的文本多视角情感分类方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的文本多视角情感分类方法。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种文本多视角情感分类的方法，其特征在于，包括如下步骤：

分别获取文本中的视角词-情感词词组及文档表示；其中，所述文档表示具体实现步骤为：设置视角变量；利用等级LSTM神经网络方法通过所述视角变量处理所述文本，选取与所述视角变量关联的词和句子；利用所述关联的词和句子进行迭代处理，获取级联的文档变量；确定所述级联的文档变量为所述文本的文档表示；

2.根据权利要求1所述的文本多视角情感分类的方法，其特征在于，所述等级LSTM神经网络方法为将多层LSTM神经网络结构中第(i-1)层LSTM神经网络的t时刻的隐藏层输出作为第i层LSTM神经网络的t时刻的输入的改进LSTM神经网络方法。

3.根据权利要求1或2所述的文本多视角情感分类的方法，其特征在于，

所述将所述文档表示输入到通过变分自编码器VAE方法建立的编码器中，生成视角的情感极性离散概率分布的具体实现步骤为：

其中

为与视角a的情感类r_a关联的变量，r′_a为可能的情感极性。

4.根据权利要求1所述的文本多视角情感分类的方法，其特征在于，

所述将所述视角词和所述情感极性离散概率分布输入到通过变分自编码器VAE方法建立的解码器中，生成所述视角词对应的情感词概率的具体实现步骤为：

其中ω′_s是词汇表中情感词的随机采样，

其中w_s是情感词ω_s的嵌入变量，

5.根据权利要求1所述的文本多视角情感分类的方法，其特征在于，

所述通过最小化变分边界同时学习所述编码器和所述解码器，生成所述视角对应的情感极性的具体实现步骤为：

使用公式(6)所示的目标函数公式代替公式5中的logP(ω_s|r_a,ω_a)，

其中α为能够调整期望和熵到相同尺度的超参数；

计算所述最终的目标函数来确定所述视角对应的情感极性。

6.根据权利要求1所述的文本多视角情感分类的方法，其特征在于，

所述获取文本中的视角词-情感词词组具体实现步骤为：通过依赖句法树规则分别选取视角词-情感词词组，其中所述依赖句法树规则包括下述规则中的至少一项：

1)满足语法相关形容词修饰；

2)满足语法相关名词性主语，头部为形容词，尾部为名词；

3)满足语法相关直接宾语；

4)满足语法相关分句补语；

5)满足包括隐含表示视角的形容词。

7.根据权利要求4所述的文本多视角情感分类的方法，其特征在于，

设置调整期望和熵为同一尺度的参数α为α＝{0,0.01,0.1,1}。

8.一种文本多视角情感分类的系统，其特征在于，包括：

信息获取单元，用于分别获取文本中的视角词-情感词词组及文档表示；其中，所述文档表示具体实现步骤为：设置视角变量；利用等级LSTM神经网络方法通过所述视角变量处理所述文本，选取与所述视角变量关联的词和句子；利用所述关联的词和句子进行迭代处理，获取级联的文档变量；确定所述级联的文档变量为所述文本的文档表示；

9.一种终端，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的文本多视角情感分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的文本多视角情感分类方法。