CN111611375B

CN111611375B - 一种基于深度学习和转折关系的文本情感分类方法

Info

Publication number: CN111611375B
Application number: CN202010243977.1A
Authority: CN
Inventors: 牛建伟; 高艺伟; 赵晓轲; 谷飞
Original assignee: Beihang University; CERNET Corp
Current assignee: Beihang University; CERNET Corp
Priority date: 2019-07-03
Filing date: 2020-03-31
Publication date: 2022-06-07
Anticipated expiration: 2040-03-31
Also published as: CN111611375A

Abstract

本发明提出一种基于深度学习和转折关系的文本情感分类方法，属于自然语言处理、人工智能领域。本发明包括如下步骤：文本和属性编码模块对输入的文本和多个属性进行处理；文本特征提取模块对文本进行语义上下文特征提取；文本和属性交互模块使用神经网络和多注意力机制对文本和属性进行交互计算，获取针对属性的文本向量表示；分类模块将针对属性的文本向量映射到类别向量，得到类别的概率分布；损失函数设计和模型训练模块使用交叉熵损失函数和转折损失函数进行模型训练，得到情感识别模型。本发明通过设置的新型损失函数，来辅助抑制错误偏好的判断，实现针对特定属性的文本准确分类，提高了情感识别的准确率。

Description

一种基于深度学习和转折关系的文本情感分类方法

技术领域

本发明涉及一种基于深度学习和转折关系的文本情感分类方法，属于自然语言处理、人工智能领域。

背景技术

随着互联网技术的快速发展及广泛普及，网络社交平台，如博客、微博、推特、脸书、论坛等形式网站或应用，作为分享和交流工具已经深入人们的生活，能够让人们交流知识、情感或分享自己对时事的观点及生活状态，尤其智能移动设备的普及使得几乎所有人都可以注册一个账号然后在上面进行分享、评论和转发等。因此，每天都会产生大量的带有主观信息的文本数据。

情感分析是自然语言处理领域的研究热门方向之一，与社会大众联系紧密，甚至会涉及安全问题，从九十年代就开始有相关研究。主观信息往往带有情感倾向，或者高兴，或者悲伤，或者愤怒，甚至会极端愤怒。这种主观信息或客观事件能够通过网络社交平台快速蔓延，引发大范围网民的情感共鸣，可能造成事件的不可控。因此，企事业单位往往设立舆情监测部门对网络主观信息进行采集并统计分析，以发现影响范围广的事件。此外，企业也可以通过电商网站上对某产品的评论，判断产品的欢迎程度及改进方向，辅助进行营销。还有研究表明利用情感判别分析互联网上股民的情绪对预测股票趋势有辅助作用。

文本的情感分析问题往往被转化为一个分类问题进行处理。目前，情感分析按照模型机制可分为基于浅层学习的方法和基于深度学习的方法两种类型。基于浅层学习的情感分析方法是通过在情感词典上利用浅层学习方法构造分类器的方式来实现情感分类，其中，有研究表明情感词典可面向领域构造来提升识别精度，但该方法是往往针对特定范围或任务的，不利于扩展。基于深度学习的情感分析方法是通过数据集训练深度网络而实现“端到端”的情感分类，其中，数据集的构造和网络的结构均能影响情感分类性能。针对特定属性的情感分析，是指预先指定一个属性，判断文本在该属性上所表达的情感，如文本“thefood is delicious,but the service is bad.”，对于属性“food”，文本情感倾向是正向的；而对于属性“service”，文本情感倾向是负向的。针对特定属性的深度学习情感模型研究主要是基于长短期记忆LSTM(Long Short-Term Memory)和注意力机制的融合方法。目前有学者将单文本的多个属性的类别判断为相同倾向，使得多个不完全相同类别属性的预测准确率很低；同时，尚未见到同一个文本中多个属性之间的关系被纳入研究。

发明内容

针对现有技术中容易将同一个文本不同属性类别判断为相同类别的偏好，存在对同一个文本中多个不完全相同类别属性的预测准确率很低的问题，本发明提出了一种基于深度学习和转折关系的文本情感分类方法。

本发明提供的基于深度学习和转折关系的文本情感分类方法，对应的文本情感分类模型包括文本和属性编码模块、文本特征提取模块、文本和属性交互模块、分类模块、损失函数设计和模型训练模块。所述方法实现步骤包括如下五个步骤：

步骤1：文本和属性编码模块对输入的文本和给定的属性进行分词和去除停用词处理，将得到文本和属性的单词根据预先准备的词向量文件映射为低维实数向量；

步骤2：文本特征提取模块使用LSTM循环神经网络捕捉文本单词间的上下文语义关系；

步骤3：文本和属性交互模块使用神经网络和多attention机制对文本和属性进行交互计算，获取针对属性的文本向量表示；

文本和属性交互模块根据各词贡献的不同，使用attention模型计算其对于指定属性的权重，同时根据各词距属性的位置得到位置权重，然后融合这两种权重，再将文本中所有单词加权求和，得到文本针对给定属性的交互特征；使用MemNet多次更新属性的向量表示并将更新后的属性的向量表示与文本交互，最后得到一个低维的带有属性信息的文本向量表示。

步骤4：分类模块对步骤3得到的文本向量表示，使用一个全连接网络层进行非线性计算，将其映射到类别向量，并使用softmax函数对类别向量进行归一化，得到各属性的类别的概率分布。

步骤5：损失函数设计和模型训练模块使用交叉熵损失函数和转折损失函数作为分类模型的总的损失函数，对情感识别分类模型进行训练，训练得到最优模型来对文本进行情感识别。

所述的总的损失函数L_fin＝J(θ)+L_adv；其中，J(θ)为交叉熵损失函数，L_adv为转折损失函数；θ为分类模型的待优化参数集合；

转折损失函数

其中，num为一个文本中含有转折关系的属性对的个数，

分别表示输入的文本S的第i个属性、第j个属性，

表示属性

的相似度。

本发明方法与现有技术相比，具有以下优势和积极效果：

(1)现有技术通常假设同一个文本多个属性具有相同的情感倾向，但这多与事实相悖，故识别准确率较低。在本发明方法中，对文本的多个属性区分对待，利用多attention机制和位置关系提取各属性的交互特征，从而获得文本中各属性的不同情感倾向概率或程度，提高了情感识别的准确率。

(2)本发明设计了一种新型损失函数，用于训练调整模型的参数。本发明的损失函数在交叉熵函数的同时增加了一个转折损失函数。转折损失函数能够表达属性间的转折关系，在模型训练时能协同获取不同情感倾向的相对趋向。对于同一个文本中存在转折关系的2个属性，通过计算转折损失，使得这2个属性的类别趋向于不同。本发明通过设置的新型损失函数，来辅助抑制错误偏好的判断，实现针对特定属性的文本准确分类。

附图说明

图1是本发明的基于深度学习和转折关系的文本情感分类方法的实现示意图；

图2是LSTM网络的架构图；

图3是本发明实施例中文本和属性交互的流程图；

图4是训练过程转折损失变化情况示意图；

图5是本发明实施例中attention结果可视化对比图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

本发明的基于深度学习和转折关系的文本情感分类方法，对于输入的一个文本和多个指定的属性，利用属性之间的转折关系，引入转折损失函数，抑制将同一个文本多个属性的类别判断为相同的偏好，从而达到提高模型识别准确率的效果。

如图1所示，本发明的基于深度学习和转折关系的文本情感分类方法，所使用的文本情感分类识别模型，从整体上，包含有文本和属性编码模块、文本特征提取模块、文本和属性交互模块、分类模块以及损失函数设计和模型训练模块等功能模块。这些功能通过计算机程序实现，具体各模块的用途将在下面文本情感分类方法中说明。

本发明的基于深度学习和融合转折关系的文本情感分类方法，分以下5个步骤来说明。

步骤1：文本和属性编码模块对输入的文本和多个属性进行处理，处理包括：分词，去除停用词，使用词向量矩阵对文本和属性的词向量进行映射和编码。

文本的处理基本以词为最小单位，所以需要先对文本进行分词；由于一些词对文本的含义没有作用，还需要去掉这些停用词。本发明实施例中，首先使用nltk分词工具对输入的文本和属性进行分词。预先准备停用词列表，用于去除文本中所有出现的停用词。停用词是指为提高计算效率和节省存储空间而需要忽略的字或词。

将待分类的文本和预先指定的多个属性输入文本和属性编码模块，文本和属性编码模块对文本和属性进行分词和去除停用词后，得到形式化的表示如下：

设输入一个句子S＝(w₁，w₂，...，w_n)，包含n个单词，w_i表示第i个单词，i＝1,2,…n；预先指定该句子中包含的M个属性，属性集

表示第j个属性，j＝1,2,…M。属性通常是句子的子序列。设属性

包含k个单词，w_jk表示属性

中的单词。n、M、k均为正整数。

自然语言处理深度学习神经网络方法中的输入一般是词向量，因此要预先准备一个词向量文件，将文本和属性中的单词一一映射为一个低维的实数向量。

使用词向量矩阵E∈R^V*m对文本和属性中的单词进行映射，其中，m是词向量的维度，V是词表的大小，R表示实数集。词表由训练数据集中的所有词构成。词向量矩阵使用预训练的Glove词向量文件进行初始化。对于不在预训练词向量文件中的单词，通过均匀分布进行向量初始化，参数选择为[-0.01,0.01]。由于网络中的计算需要所有输入实例的文本长度相同，因此定义了一个最大长度maxlen。对于一个长度小于maxlen的文本，使用一个符号“pad”来进行补充，“pad”同样作为一个词且其向量表示在训练过程中进行更新。对于长度超过maxlen的文本，把超过的部分剪切掉即可。使用词向量文本将文本和属性中的单词映射为相应的低维实数向量。

如图1所示，将S＝(w₁，w₂，...，w_n)进行映射后得到一个向量(v₁，v₂，...，v_n)，v_i表示句子的第i个单词向量，i＝1,2,…n。将M个属性单词进行映射后得到一个向量

是将第m个属性的所有单词向量平均得到的词向量，m＝1,2,…M。

步骤2：文本特征提取模块对文本进行语义上下文特征提取。

由于文本中每个单词之间存在语义关系，所以需要捕捉每个单词的上下文关系。对文本和属性的单词进行词向量映射之后，在此步骤使用LSTM循环神经网络对文本单词进行计算，提取文本单词间的上下文语义特征，即上下文关系。

如图2所示，对文本的单词向量(v₁，v₂，...，v_n)，使用LSTM循环神经网络计算文本特征的方式表示为：

h_t＝LSTM(h_t-1，v_t)

其中，v_t为文本S中的第t个单词的实数向量，h_t-1为LSTM循环神经网络对文本S中的第t-1个单词计算的文本特征。本发明实施例中，设置h₀为零向量。

对文本S的向量(v₁，v₂，...，v_n)进行特征提取得到特征向量(h₁，h₂，...，h_n)。

LSTM网络结构的重复单元是由忘记门、输入门和输出门三个门结构组成的，整体上有四个步骤。如图2所示，将(h_t-1，v_t)输入LSTM网络，首先，利用忘记门f_t决定丢弃的信息，其中f_t表示h_t-1和v_t的sigmoid计算单元。其次，利用输入门i_t和候选细胞c_in_t决定要添加的新信息。其中，i_t由h_t-1和v_t的sigmoid层组成，c_in_t由h_t-1和v_t的tanh层组成。然后，利用旧细胞信息c_t-1、忘记门f_t、输入门i_t和候选细胞c_in_t计算新细胞信息c_t。最后，利用输出门d_t和细胞信息c_t的tanh层输出值相乘得到最终单元输出h_t，其中h_t由h_t-1和v_t的sigmoid层组成，获得输出判断条件。

步骤3：文本和属性交互模块使用神经网络对文本和属性进行交互计算，获取针对属性的文本向量表示。

文本和属性交互模块使用Memory network和多attention机制对文本中属性提取交互特征。首先，根据各词贡献的不同，使用attention模型计算其对于指定属性的权重，同时根据各词距属性的位置得到位置权重，然后融合这两种权重。使用MemNet多次更新属性的表示并将更新后的属性表示与文本交互，最后得到一个低维的带有属性信息的文本向量表示。

如图3所示，使用神经网络MemNet和attention机制对文本和属性进行交互，其中，hop1、hop2、hop3为三个运算单元，Linear表示线性加权和运算，location attention表示属性单词的位置权重分布

首先，对第m个属性，将属性表示为所有单词的向量平均

然后对通过步骤2得到的文本语义特征和属性进行attention计算，获得文本中每个单词相对此属性的权重分布。文本中第i个单词特征h_i对于第m个属性的权重表示为

计算如下：

其中，

表示第t个单词特征h_t对于第m个属性的相关性；W表示attention层权重。由计算的每个单词对于第m个属性的贡献值或权重

得到向量

此外，考虑到距离属性越近的单词，位置权重越高，本发明对文本中每个单词计算相对于属性的位置权重分布，在attention的基础上增加一个单词的位置权重分布

表示为：

其中，

是属性

的位置，即属性对应的句子子序列在整个句子序列中的位置；

是单词w_i所在的位置，i＝1……n，L是句子的实际长度。对于隶属于属性的单词，权重设置为0。若属性有多个单词，则根据文本单词在属性的哪边决定使用属性的哪边的边界位置。可以看出，若单词距离属性越近，则

取值越大。

将位置权重分布和前面得到的attention属性权重分布进行相乘，得到最后的权重表示为：

所得到的

就是最终计算的第i个单词对于第m个属性的权重。

获得权重分布后，对文本中所有单词进行加权相加，获得带有属性信息的文本向量表示，即针对第m个属性的交互特征

为：

如图3所示，对属性表示进行多次更新和文本进行交互。具体计算方法为将得到的加权的文本表示

与属性的向量

进行相加，作为下一层的属性表示与文本单词进行交互：

依据上式，更新属性的向量

输入神经网络下一层，利用更新后的属性向量

再次计算文本针对属性的交互特征，最终神经网络输出对属性向量进行多次更新和文本进行交互的文本向量表示，即最终输出多次迭代计算的

步骤4：分类模块将步骤3得到的针对属性的文本向量映射到类别向量，得到类别的概率分布。

分类模块使用全连接层将文本向量表示映射到类别向量，并使用softmax函数对类别向量进行归一化得到类别的概率分布

其中，W_o和b_o分别表示权重向量和偏置。

表示第m个属性的文本向量表示

的情感分类概率向量，设有C个情感类别，则

是一个维度C的向量，记录每个类别的概率值。

步骤5：损失函数设计和模型训练模块使用交叉熵损失函数和转折损失函数进行模型训练，进行情感识别。

本步骤的创新之处在于损失函数的设计，在分类经常使用到的交叉熵损失函数的基础上，增加了一种转折损失函数。交叉熵损失函数对预测结果和真实结果进行交叉熵计算，使得预测结果接近真实结果。对于同一个文本中存在转折关系的两个属性，通过计算转折损失，使得这两个属性的类别趋向于不同。

第一种损失函数是分类中经常使用到的交叉熵损失函数，计算真实标签和预测标签的交叉熵损失。交叉熵损失J(θ)的具体计算过程为：

其中，g代表真实的数据标签，C为情感类别数量，

表示属性

是否为第c种情感类别；

表示第m个属性的文本向量表示

属于第c种情感分类的概率；θ为超参，表示所有参数变量，包括LSTM网络的参数、attention层的权重参数和softmax函数中的参数；μ为权重系数，用于防止过拟合。

第二种损失函数是转折损失。为了抑制模型将同一文本的多个不同属性被误判为同一情感倾向，本发明利用属性之间的转折关系设计了一种转折损失，当同一个文本间的2个属性之间存在转折词时，使得这2个属性的类别尽可能不同。利用转折损失可以辅助训练模型，调节模型参数，同时抑制上述的模型偏好。转折损失表示为L_adv，计算如下：

其中，num为一个文本中含有转折关系的属性对的个数，

表示属性

的相似度，其中

分别是属性

的类别概率分布；||.||表示取向量的模。

在训练过程中转折损失的变化情况如图4所示，纵向坐标代表损失值，横向坐标代表样本个数。从图4中看出，转折损失一直在减小然后趋于收敛。

总的损失函数L_fin为：

L_fin＝J(θ)+L_adv

使用总的损失函数训练模型，并获得训练得到的最优模型来对文本进行情感识别。

本发明方法在训练识别模型时，输入的每个训练样本包括：句子、给定属性、每个属性的情感分类标签。例如，句子S包含2个属性，则测试时的输入实例表示为

其中p₁，p₂表示

和

的情感倾向类别的表示为

利用损失函数L_fin来训练超参θ，获得最优的文本情感分类的识别模型。训练时，将句子和属性输入文本和属性编码模块，得到文本和属性的词向量，再利用文本特征提取模块对文本的词向量提取文本特征向量，利用文本和属性交互模块对文本单词的文本特征向量和属性词向量进行交互计算，获得文本针对各属性的交互特征，分类模块对交互特征进行计算输出属性的情感分类概率分布。通过损失函数能计算得到当前模型的损失值。训练模型使得总的损失函数值最小，此时得到训练好的模型。在利用训练好的识别模型进行文本情感分类时，输入文本和属性到文本和属性编码模块，由分类模块输出各属性的情感分类概率。

为了充分验证本发明方法的性能，利用评测会议semeval2014task4中的数据集进行测试。该数据集包括Laptop(便携计算机)和Restaurant(餐馆)这2个领域，每个领域提供了相应的训练集和测试集。同时为突出本发明优势，准备了hard数据集，在该数据集中各文本含有多个不完全相同类别的属性。分类准确率的对比结果如表1所示。

表1不同模型准确率对比

其中，MemNet是本发明未考虑转折损失的模型，MemNetAR是本发明带有转折损失的模型。LSTM(长短期记忆网络)、AT-LSTM(基于注意力机制的LSTM)和IAN(InteractiveAttention Networks)是已有模型。结果表明，本发明方法在hard数据集上效果明显，达到既定目标，提升了文本情感倾向的准确率。表1中，Total一列代表在总体数据集上的情感识别准确率，Hard一列代表在hard数据集上的情感识别准确率。

此外，对于模型MemNet和模型MemNetAR的attention计算结果，也就是针对指定属性文本中单词的贡献分布，如图5所示，其中颜色越深权重越大。图5表明了MemNetAR模型能较好的筛选出影响属性情感的单词。图5所示示例的句子为“comments about fried foodcorrect but other dishes including lamb entree quite good”，其在目标属性为“dishes”或“lamb entree”时“good”的权重都很高，即模型使用了转折信息。

Claims

1.一种基于深度学习和转折关系的文本情感分类方法，其特征在于，建立文本情感分类模型，模型包括文本和属性编码模块、文本特征提取模块、文本和属性交互模块、分类模块、损失函数设计和模型训练模块；所述的方法实现步骤包括：

步骤1：文本和属性编码模块对输入的文本和给定的属性进行分词和去除停用词处理，将得到文本和属性的单词根据预先准备的词向量文件映射为实数向量；

步骤2：文本特征提取模块使用LSTM循环神经网络计算文本的每个单词向量的文本特征，提取文本单词间的上下文语义关系；

步骤3：文本和属性交互模块使用神经网络和多attention机制对文本和属性进行交互计算，获取文本针对各属性的交互特征；

文本和属性交互模块中，(1)对每个给定的属性，一方面使用attention模型计算各单词对于属性的权重，另一方面计算各单词相对于属性的位置权重，然后将计算的两种权重融合，再将文本中所有单词加权求和，得到文本针对属性的交互特征；(2)使用神经网络更新属性的向量表示和文本进行交互，最后输出各属性的文本向量表示；

步骤4：分类模块对步骤3输出的文本向量表示，使用一个全连接网络层进行非线性计算，映射到类别向量，并使用softmax函数对类别向量进行归一化，得到各属性的类别的概率分布；

步骤5：损失函数设计和模型训练模块采用交叉熵损失函数和转折损失函数作为分类模型的总的损失函数，对分类模型进行训练，训练得到最优模型来对文本进行情感识别；

转折损失函数