CN111414476A

CN111414476A - 一种基于多任务学习的属性级情感分析方法

Info

Publication number: CN111414476A
Application number: CN202010153639.9A
Authority: CN
Inventors: 徐冰; 赵铁军; 杨沐昀; 张耀杰; 朱聪慧; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-14

Abstract

本发明是一种基于多任务学习的属性级情感分析方法。本发明通过构建多个任务的学习模型，实现属性词抽取及其情感极性判断两个子任务的一站式完成，提高系统性能。通过构建属性词平均长度预测辅助任务降低模型属性词抽取的难度；通过构建情感词抽取和词语级情感极性分类辅助任务增强属性词情感极性判断能力；通过构建文档级文本的情感极性分类和领域分类辅助任务从较大规模语料中引入有效的语义信息；通过显式构建属性词抽取和属性词情感极性判别的特征交互单元使模型能学习到两个子任务之间的相关信息。通过实验验证本发明已达到较优的属性级情感分析性能。

Description

一种基于多任务学习的属性级情感分析方法

技术领域

本发明涉及情感分析技术领域，是一种基于多任务学习的属性级情感分析方法。

背景技术

随着互联网电子商务的发展，人们经常在博客、论坛、社交网络、在线评论、电子商务平台中对于某些事物主动表达自己的心情、情感或态度，由此产生的主观性评论文本数量迅速增长。情感分析技术为大量的非结构化主观性文本的分析提供了重要技术手段。在情感分析任务中属性级情感分析是一个重要研究课题，侧重分析在一段非结构化主观性评论中对不同实体或属性其作者所表达的积极或消极情感。例如句子“我觉得屏幕很好，但内存太小了”，作者分别表达了对“屏幕”的积极情感和对“内存”的消极情感，在情感分析系统中通过这种细粒度的属性级情感分析技术能有效提高情感分析结果的准确性和系统实用性。

属性级情感分析任务主要包括属性词抽取、情感词抽取、属性的情感极性分类等子任务，近几年在属性级情感分析各任务上以深度学习研究方法为主。，目前大多数的研究方法主要是针对属性级情感分析的某一项子任务，由于属性词、情感词及情感词极性之间存在语义上的相关性，显然这种分步解决方式会丢失一部分有用的语义信息，将使神经网络在训练模型时产生错误累积，导致系统的精确度降低。因此，在本发明中，提出通过多任务学习模型把以上各子任务有效融合，同时解决属性词、情感词抽取任务并判断其情感极性。

发明内容

本发明为提供一种基于多任务的学习模型，构建辅助任务，并显式构建特征交互，一站式解决属性词抽取和属性的情感极性分类两步任务的方法，以满足需要同时完成两步任务的需求，并提高模型精度，本发明提供了一种基于多任务学习的属性级情感分析方法，本发明提供了以下技术方案：

一种基于多任务学习的属性级情感分析方法，包括以下步骤：

步骤1：获取属性级情感分析的训练样本，根据属性词加情感词的联合抽取任务和属性词的情感极性预测任务生成相应的两种序列标签；根据属性词计算每个样本句子属性词平均长度预测任务；获取句中每个词的情感极性预测任务；获取用于文档级文本情感极性预测任务的训练样本，并对所述训练样本进行预处理；

步骤2：将预处理后的所述训练样本的文本映射为通用词向量和领域词向量，并进行拼接，将拼接后的词向量输入到双向LSTM模型，得到文本序列编码，文本序列中每个token词或字对应一个编码向量；

步骤3：将步骤2中获得的文本序列编码输入到两个参数独立的卷积神经网络中，分别作为属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果；

步骤4：将步骤3得到的属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果分别做最大池化得到两个向量编码，通过一个全连接层后分别得到属性词平均长度预测结果，用于两个句子属性词平均长度预测任务；

步骤5：将步骤3得到的属性词加情感词的联合抽取任务的编码结果的文本序列中每个token词或字对应的编码向量，通过全连接层计算得到情感词极性预测结果，用于句中每个词的情感极性预测任务；

步骤6：将步骤3得到的属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果同时输入特征交互单元中，计算交互信息后分别输出新的属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果；

步骤7：使用CRF模型分别对属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果进行解码，分别得到属性词加情感词的预测序列标签，及属性词情感极性的预测序列标签；

步骤8：将预处理后的用于文档级文本情感极性预测任务的文本映射为通用词向量和领域词向量并拼接，和用于文档级文本的领域分类任务的文本仅映射为通用词向量，分别输入到与步骤2中双向LSTM模型中，分别得到文本序列编码；

步骤9：将步骤8得到两个文本序列编码分别输入到两个卷积神经网络中，分别得到卷积神经网络编码结果；

步骤10：随机初始化两个可训练的权值矩阵，与步骤9得到的两个卷积神经网络编码结果分别计算注意力权重，将编码结果沿序列维度加权和，得到最终文本向量编码；所述向量编码通过全连接层计算后得到预测结果；

步骤11：将属性词加情感词的联合抽取任务、属性词的情感极性预测任务、句子属性词平均长度预测任务和句中每个词的情感极性预测任务计算的损失作为第一部分损失，文档级文本情感极性预测任务和文档级文本的领域分类任务的损失作为第二部分损失，进行交替学习优化。

优选地，所述训练样本进行预处理具体为：使用正则匹配对文本中日期、价格、网址、邮箱的统一替换；特殊符号和标点符号的分割；英文文本大写转小写；中文文本分词。

优选地，所述步骤2中将预处理后的所述训练样本的文本s＝[w₁，w₂，...，w_L]映射为通用词向量

和领域词向量

拼接后输入到一个双向LSTM序列编码模型中，输出文本序列编码，所述文本序列编码表示

优选地，所述骤3中将文本序列编码h_S输入到两个参数独立的卷积神经网络中组件中，所述参数独立的卷积神经网络中组件的卷积计算公式为：

其中，l为卷积神经网络层数，r为不同卷积窗口大小标识，

和

为随机初始化的可训练参数，d_S是共享特征维度，d₁是卷积神经网络组件的filter数，filter窗口大小为奇数，移动步长为1，f为ReLU激活函数，卷积过程中，第i个token的表示通过其本身及其相邻的2c个词得到，即左边c个词右边c个词，不够的补0向量，使每层卷积后序列长度不变，仍和每个词位置对应，然后得到属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果

和

优选地，所述步骤4中将属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果h_AOE和h_AS沿序列方向做最大池化操作，用于句子属性词平均长度预测任务，通过下式表示用于句子属性词平均长度预测任务：

其中，

是最大池化的结果，

为随机初始化的可训练参数，σ是sigmoid激活函数，最后得到长度预测

和

计算句子属性词平均长度预测任务的均方差损失，通过下式表示句子属性词平均长度预测任务的均方差损失：

其中，

为句子属性词平均长度预测任务的均方差损失，

为样本真实属性词平均长度。

优选地，所述步骤5中取属性词加情感词的联合抽取任务的编码结果中每个token的向量编码

与随机初始化的可训练参数

做点积，其中C_w为情感类别数，并通过归一化函数softmax得到各个情感类别的预测概率，取概率最大的为预测类别，通过下式取概率最大的为预测类别：

采用交叉熵损失函数计算每个token的损失，样本的损失为每个token损失的平均，通过下式表示每个token的损失：

其中，L_WSE为每个token的损失，

为token真实情感类别，

I为one-hot映射函数，即

优选地，所述步骤6具体为：

步骤6.1：将步骤3中得到的属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果输入到特征交互计算单元中，得到形状大小不变的输出，其中S_{AOE，AS}是交互式attention的权重矩阵，通过下式得到形状大小不变的输出：

其中,

为形状大小不变的输出，

为随机初始化可训练参数，K是一个可设定的超参数，f为tanh激活函数，

为随机初始化可训练参数；

步骤6.2：与形状大小不变的输出做点积后得到标量

最终得到两个权重矩阵

和

更新h_AOE和h_AS，通过下式表示更新h_AOE和h_AS的过程：

h_AOE＝h_AOE+softmax_row(S_AOE)h_AS

h_AS＝h_AS+softmax_row(S_AS)h_AOE。

优选地，所述步骤7中用CRF模型分别对属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果进行解码，得到属性词加情感词的预测序列标签，及属性词情感极性的预测序列标签，通过下式表示CRF模型对数似然损失：

其中，L为CRF模型对数似然损失，p(y|h；W^(c)，b^(c))是CRF模型的概率函数，W^(c)，b^(c)是可训练参数，得到得到属性词加情感词的预测序列标签L_AOE和属性词情感极性的预测序列标签L_AS。

优选地，所述步骤8中预处理后的用于文档级文本情感极性预测任务的文本s＝[w₁，w₂，...，w_L]输入步骤2中双向LSTM序列编码模型中，得到共享特征表示

文档级文本情感极性预测任务、文档级文本的领域分类任务、属性词加情感词的联合抽取任务、属性词的情感极性预测任务使用的共享特征编码器双向LSTM均是共享参数的。

优选地，所述步骤9中将步骤8得到两个文本序列编码分别输入到两个卷积神经网络中得到的不同共享特征表示输入到两个不共享参数的卷积神经网络组件中，卷积神经网络组件同步骤3，最后得到的卷积神经网络编码结果分别为

和

优选地，所述步骤10中利用attention机制将卷积神经网络编码结果向量

进行加权和操作，计算公式为：

其中，α_DS和α_DD分别是文档级文本情感极性预测任务和文档级文本的领域分类任务attention得分的归一化权重，

和

分别是文档级文本情感极性预测任务和文档级文本的领域分类任务attention加权和的结果，

和

分别是文档级文本情感极性预测任务和文档级文本的领域分类任务顶层分类器输出的各个类别的归一化概率，

和

分别是文档级文本情感极性预测任务和文档级文本的领域分类任务的预测结果

及

是可训练参数，C_ds和C_dd分别是文档级文本情感极性类别数和领域类别数，σ是sigmoid激活函数；

进行交叉熵损失计算，通过下式表示交叉熵损失计算结果：

其中，L_DS为交叉熵损失计算结果，I为one-hot映射函数，

为真实类别标签。

优选地，所述步骤11具体为：

步骤11.1：将属性词加情感词的联合抽取任务、属性词的情感极性预测任务、句子属性词平均长度预测任务和句中每个词的情感极性预测任务计算的损失作为第一部分损失，文档级文本情感极性预测任务和文档级文本的领域分类任务的损失作为第二部分损失，通过下式表示第一部分损失和第二部分损失：

L_d＝L_DS+L_DD

其中，L_a为第一部分损失，L_d为第二部分损失；

步骤11.2：进行交替学习优化，定义一个预训练轮次数pre-epoch对文档级文本分类任务做训练，完成后再定义正式训练轮次数epoch，对属性级文本分析进行训练，且在分批量训练时，定义一个比率r，当batch-index除以r的余数为0时进行一个批次的文档级文本分类任务的训练。

本发明具有以下有益效果：

本发明通过构建多个任务的学习模型，实现属性词抽取及其情感极性判断两个子任务的一站式完成，提高系统性能。通过构建属性词平均长度预测辅助任务降低模型属性词抽取的难度；通过构建情感词抽取和词语级情感极性分类辅助任务增强属性词情感极性判断能力；通过构建文档级文本的情感极性分类和领域分类辅助任务从较大规模语料中引入有效的语义信息；通过显式构建属性词抽取和属性词情感极性判别的特征交互单元使模型能学习到两个子任务之间的相关信息。通过实验验证本发明已达到较优的属性级情感分析性能。

附图说明

图1为基于多任务学习的属性级情感分析结构图；

图2为DE-CNN组件的结构图；

图3为特征交互计算单元的结构图；

图4为优化训练流程图流程图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

本发明提供一种基于多任务学习的属性级情感分析方法，包括以下步骤：

所述训练样本进行预处理具体为：使用正则匹配对文本中日期、价格、网址、邮箱的统一替换；特殊符号和标点符号的分割；英文文本大写转小写；中文文本分词。

所述步骤2中将预处理后的所述训练样本的文本s＝[w₁，w₂，...，w_L]映射为通用词向量

和领域词向量

所述骤3中将文本序列编码h_S输入到两个参数独立的卷积神经网络中组件中，所述参数独立的卷积神经网络中组件的卷积计算公式为：

其中，l为卷积神经网络层数，r为不同卷积窗口大小标识，

和

和

所述步骤4中将属性词加情感词的联合抽取任务和属性词的情感极性预测任务的编码结果h_AOE和h_AS沿序列方向做最大池化操作，用于句子属性词平均长度预测任务，通过下式表示用于句子属性词平均长度预测任务：

其中，

是最大池化的结果，

和

其中，

为句子属性词平均长度预测任务的均方差损失，

为样本真实属性词平均长度。

步骤5：将步骤3得到的属性词加情感词的联合抽取任务的编码结果的文本序列每个token词或字对应的编码向量，通过全连接层计算得到情感词极性预测结果，用于句中每个词的情感极性预测任务；

所述步骤5中取属性词加情感词的联合抽取任务的编码结果中每个token的向量编码

与随机初始化的可训练参数

其中，L_WSE为每个token的损失，

为token真实情感类别，

I为one-hot映射函数，即

所述步骤6具体为：

其中,

为形状大小不变的输出，

为随机初始化可训练参数；

步骤6.2：与形状大小不变的输出做点积后得到标量

最终得到两个权重矩阵

和

更新h_AOE和h_AS，通过下式表示更新h_AOE和h_AS的过程：

h_AOE＝h_AOE+softmax_row(S_AOE)h_AS

h_AS＝h_AS+softmaxr_ow(S_AS)h_AOE。

所述步骤7中用CRF模型分别对属性词加情感词的联合抽取任务和属性词的情感极性预测任务编码结果进行解码，得到属性词加情感词的预测序列标签，及属性词情感极性的预测序列标签，通过下式表示CRF模型对数似然损失：

所述步骤8中预处理后的用于文档级文本情感极性预测任务的文本s＝[w₁，w₂，...，w_L]输入步骤2中双向LSTM序列编码模型中，得到共享特征表示

所述步骤9中将步骤8得到两个文本序列编码分别输入到两个卷积神经网络中得到的不同共享特征表示输入到两个不共享参数的卷积神经网络组件中，卷积神经网络组件同步骤3，最后得到的卷积神经网络编码结果分别为

和

所述步骤10中利用attention机制将卷积神经网络编码结果向量h_{DS，DD}进行加权和操作，计算公式为：

和

和

和

分别是文档级文本情感极性预测任务和文档级文本的领域分类任务的预测结果，

及

进行交叉熵损失计算，通过下式表示交叉熵损失计算结果：

其中，L_DS为交叉熵损失计算结果，I为one-hot映射函数，

为真实类别标签。

所述步骤11具体为：

L_d＝L_DS+L_DD

其中，L_a为第一部分损失，L_d为第二部分损失；

步骤11.2：进行交替学习优化，定义一个预训练轮次数pre-epoch对文档级文本分类任务做训练，完成后再定义正式训练轮次数epoch，对属性级文本分析进行训练，且在分批量训练时，定义一个比率r，当batch-index除以r的余数为0时进行一个批次的文档级文本分类任务的训练。步骤1：建立四阶电力系统混沌数学模型，对四阶电力系统混沌数学模型进行简化后建立受控系统；

具体实施例二：

本发明的整体模型结构，及其工作过程，如图1所示

步骤一：首先对原始文本进行预处理，包括使用正则匹配对文本中日期、价格、网址、邮箱的统一替换；特殊符号和标点符号的分割；英文文本大写转小写；中文文本分词。并根据带标签的属性级情感分析数据生成AOE任务标注、AS任务标注、每个句子属性词平均长度、每个单词情感极性的标注。所述的AOE任务(Aspect-Opinion Extraction)即属性词加情感词的联合抽取任务；所述的AS任务(Aspect Sentiment)即属性词的情感极性预测任务；所述的ALE任务(Aspect Length Enhancement)即句子属性词平均长度预测任务；所述的WSE任务(Word Sentiment Enhancement)即句中每个词的情感极性预测任务；所述的DS任务(Document Sentiment)即文档级文本情感极性预测任务；所述的DD任务(DocumentDomain)即文档级文本的领域分类任务。

步骤二：将预处理后的用于属性级情感分析的文本s＝[w₁，w₂，...，w_L]映射为通用词向量

和领域词向量

拼接后输入到一个双向LSTM序列编码模型中，将其视为一个特征编码器，输出共享特征表示

可选的，本实施例中通用词向量维度为300，领域词向量维度为100，仍由Hu Xu等人提供。使用的双向LSTM中，单向隐藏层大小为256，即d_S＝512。

步骤三：将共享特征表示h_s输入到两个不共享参数的CNN组件中(AOE和AS任务部分)，CNN组件结构如图2所示。卷积计算公式为：

其中l为CNN层数，r为不同卷积窗口大小标识。

和

为随机初始化的可训练参数，d_S是共享特征维度，d₁是CNN组件的filter数，filter窗口大小为奇数，移动步长为1，f为ReLU激活函数。卷积过程中，第i个token的表示通过它本身及其相邻的2c个词得到，即左边c个词右边c个词，不够的补0向量，使每层卷积后序列长度不变，仍和每个词位置对应。然后得到AOE和AS的编码结果

可选的，本实施例中AOE的CNN组件层数为3，AS、DS、DD的CNN组件层数均为1。所有CNN组件都是包含窗口大小为5的256个filter，即d₁＝d₂＝256。

步骤四：将h_AOE和h_AS沿序列方向做最大池化操作，用于ALE任务，即：

其中

是最大池化的结果，

和

这时我们可以计算ALE回归任务的均方差损失：

其中

为样本真实属性词平均长度。

步骤五：取h_AS中每个token的向量编码

与随机初始化的可训练参数

做点积，其中C_w为情感类别数，并通过归一化函数softmax得到各个情感类别的预测概率，取概率最大的为预测类别：

使用交叉熵损失函数计算每个token的损失，样本的损失为每个token损失的平均：

其中

为token真实情感类别，

I为one-hot映射函数，即

可选的，本实施例token情感类别包括{POS,NEG,NONE}三类，即C_w＝3。

步骤六：将步骤三中得到的h_AOE和h_AS编码结果输入到特征交互计算单元中，得到形状大小不变的输出，即更新后的

和

h_AOE编码中将融入属性词情感极性信息，h_AS编码中将融入属性词和情感词信息。特征交互计算单元如图3所示，其中S_{AOE，AS}是交互式attention的权重矩阵，计算公式如下：

其中

为随机初始化可训练参数，K是一个可设定的超参数，这种张量操作可看作多个双向线性操作，能模拟两个向量间更复杂的组合。f为tanh激活函数，

为随机初始化可训练参数，与上述结果做点积后得到标量

最终得到两个权重矩阵

和

更新h_AOE和h_AS的方式为：

h_AOE＝h_AOE+softmax_row(S_AOE)h_AS

h_AS＝h_AS+softmax_row(S_AS)h_AOE

步骤七：用CRF解码h_{AOE，AS}得到最终AOE和AS的标注序列。CRF对数似然损失：

其中p(y|h；W^(c)，b^(c))是CRF的概率函数，W^(c)，b^(c)是可训练参数。得到L_AOE和L_AS。

步骤八：分别将用于情感极性分类(DS)和领域分类(DD)的文档级文本s＝[w₁，w₂，...，w_L]输入到与步骤二共享参数的双向LSTM序列编码模型中，得到共享特征表示

(这里为了便于描述和理解，使用与属性级情感分析文本相同的符号)。DS、DD及AOE、AS使用的共享特征编码器双向LSTM均是共享参数的。

步骤九：将DS和DD得到的不同共享特征表示输入到两个不共享参数的CNN组件中，CNN组件同步骤三。最后得到的编码结果分别为

和

步骤十：利用attention机制将h_{DS，DD}进行加权和操作，计算公式为：

其中

及

是可训练参数，C_ds和C_dd分别是文档级文本情感极性类别数和领域类别数。σ是sigmoid激活函数。交叉熵损失计算为：

其中I为one-hot映射函数，

为真实类别标签。

可选的，本实施例中DS任务文档级文本情感极性包括{POS,NEG,NEU}三类，DD任务文档级文本领域包括{Lap,Res}，即笔记本电脑和餐厅两类。

步骤十一：将AOE、AS、ALE、WSE任务计算的损失作为第一部分损失，DS、DD任务的损失作为第二部分损失，具体定义为：

L_d＝L_DS+L_DD

模型优化时的训练规则如图4流程图所示，先定义一个预训练轮次数pre-epoch对文档级文本分类任务做训练，完成后再定义正式训练轮次数epoch，对属性级文本分析进行训练，且在分批量(mini-batch)训练时，定义一个比率r，当batch-index除以r的余数为0时进行一个批次的文档级文本分类任务的训练。

可选的，本实施例中，在embedding层和每个CNN层后添加dropout值为0.5，学习率为1e-4，使用Adam优化器。mini-batch大小为32，pre-epoch大小为5，epoch固定80。

2.实施例数据及评估指标介绍

本实施例中，AOE和AS任务使用SemEvel-2014 Task 4提供的用于属性级情感分析的笔记本电脑评论英文数据，可用于属性词抽取及属性词情感极性分类任务。

DS和DD任务使用的数据，一个来自Yelp餐厅领域，一个来自Amazon电子领域的数据集，在做DS任务时，使用的Amazon电子领域的数据集做情感极性分类，包括30,000条类别完全均衡的文本；在做DD任务时，使用两个数据集合起来的60,000条文本做领域二分类，类别仍完全均衡。

属性级情感分析数据集的具体分布情况见表1：

表1：属性级情感分析数据中各情感极性属性词数和情感词数统计

本发明采用精确率(precision)、召回率(recall)、F1分(F1-score)评估属性词抽取的性能和属性词抽取及其情感极性判断两步任务的性能。抽取的属性词完全匹配才视为属性词抽取任务的正确样例；抽取的属性词完全匹配且情感预测准确才视为两步任务的正确样例。

3.实验结果

属性词抽取实验结果如表2所示，属性词抽取及其情感极性判断两步任务实验结果如表3所示。

表2：属性词抽取实验结果

表3：属性词抽取及其情感极性判断两步任务实验结果

BiLSTM+CRF模型和BERT模型在完成两步任务时，使用复合标签{B-pos,I-pos,B-neg,I-neg,B-neu,I-neu,B-con,I-con,O}做序列标注任务。MNN、DOER、IMN是三个多任务模型。

以上所述仅是一种基于多任务学习的属性级情感分析方法的优选实施方式，一种基于多任务学习的属性级情感分析方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。