CN111506700B

CN111506700B - 基于上下文感知嵌入的细粒度情感分析方法

Info

Publication number: CN111506700B
Application number: CN202010214894.XA
Authority: CN
Inventors: 姜明; 王晶晶; 张旻; 汤景凡
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-01-19
Anticipated expiration: 2040-03-24
Also published as: CN111506700A

Abstract

本发明公开了一种基于上下文感知嵌入的细粒度情感分析方法。本发明步骤：1、对需要进行情感分析的数据文本进行预处理；2、将处理好的数据文本输入预训练模型中，获得固定长度的句子向量；3、将句子向量输入胶囊网络的WordCaps层，通过动态路由算法，利用平方欧几里得损失函数获取方面类型对应的极度相似的相关上下文信息；4、将相关上下文信息与方面词结合，得到重构的方面类型；5、将重构的方面向量输入胶囊网络的ApsectCaps层，通过动态路由算法进行情感分析，得到不同方面的情感极性。本发明利用带有高度相关性的上下文信息的方面向量作为输入，能更加准确的提取指定方面词的情感词，从而有效的提高情感分析的准确性。

Description

基于上下文感知嵌入的细粒度情感分析方法

技术领域

本发明涉及情感分类领域，具体涉及一种基于上下文感知嵌入的细粒度情感分析方法。

背景技术

基于方面的情感分析任务(ABSA)旨在推断句子中不同方面的情感极性，比如正面情感、负面情感、中性情感等。它是情感分析任务中的细粒度任务。

尽管以前的工作取得了显着的进步，但它们通常利用独立的上下文向量或随机初始化的向量来表示方面类型，这就会丢失语义信息并忽略特定的方面与上下文之间的相互依赖性。

发明内容

本发明的目的是针对现有的细粒度情感分析的不足，提供了一种基于上下文感知嵌入的细粒度情感分析方法。本发明先使用两层胶囊网络进行训练，首先，胶囊网络的第一层用于提取相关上下文信息，使用平方欧几里得损失函数替换原有的损失函数，从而得到与方面词高度相关联的相关上下文信息。然后，将高度相关的上下文信息与方面类型结合得到重构的方面类型，并作为第二层胶囊网络的初始输入，使用动态路由算法进行情感分析。

本发明具体实现步骤如下：

步骤1、对需要进行情感分析的数据文本进行预处理；

步骤2、将处理好的数据文本输入预训练模型中，获得固定长度的句子向量；

步骤3、将句子向量输入胶囊网络的WordCaps层，通过动态路由算法，利用平方欧几里得损失函数获取方面类型对应的极度相似的相关上下文信息；

步骤4、将相关上下文信息与方面词结合，得到重构的方面类型；

步骤5、将重构的方面向量输入胶囊网络的ApsectCaps层，通过动态路由算法进行情感分析，得到不同方面的情感极性；

步骤1具体实现如下：

1.1.将在整个数据文本的语料库中仅出现一次的单词删除并使用UNK标记进行替换；

1.2.删除少于5个单词的句子。

进一步的，步骤2具体实现如下：

2.1.用BERT词向量模型将每一条句子表示为句子向量形式h_t＝{w₁,w₂…w_n}，n是句子长度即该句子对应的单词的个数。

进一步的，步骤3具体实现如下：

3.1.将输入的句子向量中的每个单词w_i都分别当做一个胶囊，从而组成胶囊网络的第一层，也就是WordCaps层；使用激活函数得到每个胶囊的预测向量，该预测向量表示WordCaps层的第t个胶囊属于AspectCaps层的第i个胶囊的可能性，该预测向量的公式可表示为：

其中，t∈{1,2,...,n},表示句子的单词个数即胶囊的个数，σ表示激活函数，

和

是需要通过训练学习的参数；D_A和D_H是已知参数，其中D_A表示AspectCaps层的预测向量的维度；

3.2.从WordCaps层到AspectCaps层动态路由每个单词的预测向量，通过预测概率来确定每个方面类型对应的上下文信息s_i,所述的方面类型是指胶囊对应的类型，每个胶囊对应一个方面类型；

所述的上下文信息s_i的公式可表示为：

其中，c_i|t是WordCaps层第t个胶囊和AspectCaps层第i个胶囊之间的协议值，是动态路由自动学习的参数；

3.3.对于确定第i个方面类型对应的上下文信息s_i，使用的损失函数为平方欧几里得损失函数，其公式为：

其中，K指代AspectCaps层的方面类型的数量；a_i表示给定的数据文本每个单词对应的真实的方面类型。

进一步的，步骤4具体实现如下：

4.1.对于得到的上下文信息s_i，将其与对应的方面类型进行重构，其公式可表示为：

其中，

为最终的方面类型，α是超参数，表示为控制方面类型和上下文信息之间影响的参数。

进一步的，步骤5具体实现如下：

5.1.将最终的方面类型

进行挤压，使方面类型

的长度在[0,1]区间，其公式可表示为：

5.2.将挤压得到的向量u_a使用激活函数得到方面胶囊，组成胶囊网络的第二层即AspectCaps层，其公式可表示为：

其中，p∈{1,2,3},表示不同的极性，这里极性共有3种，分别是：积极、消极和中立；且积极、消极以及中立这3种不同的极性构成胶囊网络的第三层，即情感分类器；σ表示激活函数，

和

是需要通过训练学习的参数；

5.3.利用动态路由算法对AspectCaps层的方面胶囊进行情感极性分类，其公式可表示为：

其中，DYNAMIC ROUTING表示动态路由算法，与步骤3的3.2中使用的动态路由算法相同；iter_intent表示动态路由的迭代次数；

5.4.情感分类器的结果所采用的损失函数为边界损失函数，其公式可表示为：

其中，

表示AspectCaps层的第i个方面类型的真实情感极性，当第i个方面类型属于情感分类器的第j个情感极性时，

本发明的优点及有益效果如下：

本发明主要为了解决对评论文本的细粒度情感分类问题。现有的方法依靠随机初始化来表示方面类型初始输入向量，这就导致方面类型的向量表示脱离的上下文，使得情感分类的准确率较低。本发明使用两层胶囊网络进行训练，胶囊网络的第一层用于提取上下文特征，得到与方面词高度相关联的上下文特征信息。并将高度相关的上下文信息与方面词结合得到重构的方面向量，作为第二层胶囊网络的初始输入，这就解决了初始的方面向量脱离上下文信息的问题。同时，结合动态路由算法进行情感分析，从而有效的提高情感分析的准确性。

本发明利用带有高度相关性的上下文信息的方面向量作为输入的方法，可以更加准确的提取指定方面词的情感词，从而有效的提高情感分析的准确性。

附图说明

图1是本发明所述方法的流程框图。

图2是本发明所述模型方法的架构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，基于上下文感知嵌入的细粒度情感分析方法，包括以下步骤：

步骤1、对需要进行情感分析的数据文本进行预处理；

步骤1具体实现如下：

1.2.删除少于5个单词的句子。

所述的步骤2具体实现如下：

所述的步骤3具体实现如下：

和

所述的上下文信息s_i的公式可表示为：

所述的步骤4具体实现如下：

其中，

所述的步骤5具体实现如下：

5.1.将最终的方面类型

进行挤压，使方面类型

的长度在[0,1]区间，其公式可表示为：

和

是需要通过训练学习的参数；

其中，