CN110046353A

CN110046353A - 一种基于多语言层次机制的方面级情感分析方法

Info

Publication number: CN110046353A
Application number: CN201910324300.8A
Authority: CN
Inventors: 黄贤英; 刘广峰; 刘小洋; 范海波
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2019-07-23
Anticipated expiration: 2039-04-22
Also published as: CN110046353B

Abstract

本发明提出了一种基于多语言层次机制的方面级情感分析方法，其特征在于，包括以下步骤：S1，将输入文本转化为向量表示；S2，获取输入文本中不同句子之间的时序关系，并获取方面词在单个句子中的局部特征和在整个句子中的长距离依赖关系；S3，基于分类特征来判别输入文本中不同方面的情感极性，将情感极性进行终端展示。本发明能够提高了情感分析的准确度和训练效率，并将情感展现在终端上。

Description

一种基于多语言层次机制的方面级情感分析方法

技术领域

本发明属于社交网络的人文计算技术领域，具体涉及一种基于多语言层次机制的方面级情感分析算法，主要用于但不限于用户评论情感计算和人机交互领域，主要涉及技术包括文本数据处理、词嵌入处理以及模型特征抽取。

背景技术

如今互联网的兴起趋势不可阻挡，随之带动了社交平台和电商网站的兴起，从而使得人们可以自由地对自己感兴趣的事物发表蕴含自己情感倾向的观点。针对用户的情感观点表达进行情感分析不仅可以促进政府的舆情监管、企业的营销决策等应用平台的发展，甚至对于当前火热的人机对话系统的发展也有一定的帮助作用。

为了针对社交网络中的评论文本进行高效且准确的情感分析，分析算法至关重要。当前该方面级情感分析方法以下缺陷与不足：

1、基于机器学习的情感分析方法需要依赖专家的专业认知以及大量的人工特征构建工作导致模型训练效率低下、模型泛化能力弱。

2、针对多语言文本，针对每一种语言进行特征表示，其表示工作较为复杂，且忽略了未登入词这个问题。

3、用户评论文本中往往涉及多个评价方面，且不同方面往往对应不同的情感极性，然而现有网络模型无法充分获取同一评论中句子间的相互关系以及不同方面在整个评论中的依赖关系。

针对以上问题，在对情感分析进行深入研究后，本专利提出了一种新的情感分析算法，即基于多语言层次机制的方面级情感分析算法，提高了情感分析的准确度和训练效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于多语言层次机制的方面级情感分析方法。

为了实现本发明的上述目的，本发明提供了一种基于多语言层次机制的方面级情感分析方法，包括以下步骤：

S1，将输入文本转化为向量表示；

S2，获取输入文本中不同句子之间的时序关系，并获取方面词在单个句子中的局部特征和在整个句子中的长距离依赖关系；

S3，基于分类特征来判别输入文本中不同方面的情感极性，将用户评论的情感展示出来。

在本发明的一种优选实施方式中，步骤S1包括：

对每一个用户评论进行主题词提取，并将所有主题词出现的次数由大到小排列，取前A₁个主题词保存，所述A₁为正整数；

将用户评论对应的主题词映射为一个m维的连续值向量；

并将用户评论对应的方面词映射为一个m维的连续值向量。

在本发明的一种优选实施方式中，步骤S2包括以下步骤：

S21，对输入文本进行词嵌入操作；

S22，对于长度为d的独立区域r_k，将独立区域r_k中每一个词语映射为一个m维的连续值向量，得到每一个区域的向量表示，

将用户评论中的每一个独立区域作为卷积神经网络的输入，然后使用长度为l的卷积核对独立区域r_k做卷积操作：

N_k＝f(w·r_k+b)，

其中，f()为非线性激活函数，w为卷积核权重，b为偏置项，对每一个区域通过卷积操作可以得到独立区域r_k的特征图N：

对于每一个区域，采用max-pooling方法进行局部特征的下采样，提取每一个特征图N最重要的特征信息：

N＝max-pooling(N)，

经过词向量模型得到的句子词向量信息以及区域CNN输出的特征信息，按下述步骤进行执行：

第一步，使用词语层网络将方面向量和主题向量分别与LSTM网络的上一个神经单元的隐藏层输出结合作为下一个LSTM神经单元的输入：

其中U和T分别为对应隐藏层输出的权重矩阵，W_α和W_β分别为方面词向量α和主题词向量β的权重矩阵；为正向LSTM网络函数；反向LSTM网络函数；为正向LSTM网络的上一个神经单元的隐藏层输出，为正向LSTM网络的神经单元的隐藏层输出，e_aspect为方面词对应的深度特征，e_topic为主题词对应的深度特征；

为反向LSTM网络的上一个神经单元的隐藏层输出，为反向LSTM网络的神经单元的隐藏层输出；

第二步，将区域CNN的输出按句子的先后顺序形成序列化矩阵和将词语层 Bi-LSTM网络的最终输出结合作为句子层双向LSTM网络的输入：

其中h_L、h_L′分别为词语层两个LSTM网络最后一层LSTM单元的输出，为简单拼接操作，N为提取特征图最重要的特征信息；

通过两个LSTM网络生成对应的隐藏状态输出P＝{P₁,P₂,P₃,…,P_k}、 Q＝{Q₁,Q₂,Q₃,…,Q_k}，P₁，Q₁为两个LSTM网络第一层输出，P₂，Q₂为两个LSTM 网络第二层输出，P₃，Q₃为两个LSTM网络第三层输出，P_k，Q_k为两个LSTM网络最后一层输出，将其最后一层LSTM网络输出进行拼接所得到的向量即为本文所需要的情感分类向量：

在本发明的一种优选实施方式中，步骤S1包括以下步骤：

S11，对于输入句子的每个词w_ζ，ζ为词在句子中的序号，使用一个预训练的词查找表E，将其表示为一个低维向量

其中，为词w_ζ的one-hot编码；

S12，使用字符级别的卷积神经网络得到词语对应的字符向量表示；首先使用一个预定义的字符查找表，将输入词中的每一个字符映射为一个低维的字符向量；这样每个单词可表示为一个字符矩阵；然后将字符矩阵作为卷积神经网络的输入，得到每个词在字符级别的词嵌入；使用C[i:j]表示矩阵C第i行到第j行之间所有行构成的子矩阵；卷积神经网络使用一个维度为h×ψ的滤波器，在大小为h个字符的窗口上进行卷积，产生一个特征序列c：

c_ξ＝f(w·C[ξ:ξ+h-1]+b)，

其中，f()为非线性激活函数，w为卷积核权重，b为偏置项；然后使用 max-pooling对特征序列求最大值，得到该滤波器产生的特征最后使用n个滤波器产生n个特征，将这n个特征进行拼接得到词；

S13，使用门机制来自适应地选择最合适的融合方式，得到词语的最终向量表示：

其中，G₁、G₂、G₃和G₄为变换参数，将字符级别的词向量变换到与相同维度的空间中，得到σ()为sigmoid函数，g为门权重值，用来衡量与的重要性，最终得到每个词w_ζ的向量表示

在本发明的一种优选实施方式中，步骤S3中，情感极性的计算方法为：

y＝softmax(W·C+b)，

其中W为权重矩阵，b为偏置项，softmax()为softmax函数。

在本发明的一种优选实施方式中，还包括对情感极性计算交叉熵，情感极性交叉熵的计算方法为：

其中，Y为训练集样本集合，O为类别标签集合，为待分类句子的实际类别，为待分类句子的预测类别，λ||θ||²为交叉熵的正则项，λ为正则参数、θ为正则算子，|| ||为范数。

综上所述，由于采用了上述技术方案，本发明能够提高了情感分析的准确度和训练效率，并将情感展现在终端上。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为基于多语言层次机制的方面级情感分析算法的模型架构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件；下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制；

该算法包括如下步骤：

(1)利用gensim对每一个用户评论进行主题词提取并取结果中的前5个主题词保存，以及进行方面词提取。本文将用户评论对应的主题词映射为一个m维的连续值向量，即β∈R^m，其中β为主题词对应的词向量值，m为词向量维度。并将句子中每一个方面词映射为一个m维的连续值向量，即α∈R^m，其中α为方面词对应的词向量值。

(2)针对输入文本进行词嵌入操作，分为三个步骤：

第一步，对于输入句子的每个词w_ζ，ζ为词在句子中的序号，使用一个预训练的词查找表E，E∈R^|V|×m，将其表示为一个低维向量

其中，|V|为预训练的词查找表大小，为词w_i的one-hot编码，针对英文文本，本文使用斯坦福发布的维度为200的词向量glove.6B.200d.txt，作为预训练的英文词查找表。针对中文文本，本文使用腾讯AILab发布的维度为200的词向量Tencent_AILab_ChineseEmbedding.tar，作为预训练的中文词查找表。对于法语文本，本文使用frWac工具获取相应的单词查找表。对于其他语言的文本，本文使用 Leipzig CorporaCollection获取相应的单词查找表。

第二步，使用字符级别的卷积神经网络得到词语对应的字符向量表示。首先使用一个预定义的字符查找表，将输入词中的每一个字符映射为一个低维的字符向量 j为字符在词中的序号。这样每个单词可表示为一个字符矩阵其中，C∈R^ψ×s，ψ为字符向量的维度，s为词w_ζ的维度。然后将字符矩阵C作为卷积神经网络的输入，得到每个词在字符集别的词嵌入。使用C[i:j]表示矩阵C第i行到第j行之间所有行构成的子矩阵。卷积神经网络使用一个维度为h×ψ的滤波器，在大小为h个字符的窗口上进行卷积，产生一个特征序列c， c∈R^s-h+1：

c_ξ＝f(w·C[ξ:ξ+h-1]+b)，

其中，f()为非线性激活函数，w为卷积核权重，b为偏置项。然后使用 max-pooling对特征序列求最大值，得到该滤波器产生的特征最后使用n个滤波器产生n个特征，将这n个特征进行拼接得到词，在字符级别的向量表示：

第三步，使用门机制来自适应地选择最合适的融合方式，得到词语的最终向量表示：

其中，G₁，G₂，G₃和G₄为变换参数，等价于G₁∈R^m×n，G₂∈R^m，G₃∈R^2m，G₄∈R，将字符级别的词向量变换到与相同维度的空间中，得到σ()为sigmoid函数， g为门权重值，g∈R，用来衡量与的重要性。最终得到每个词w_ζ的向量表示即为图1中WordEmbedding层的输出。

(3)对于长度为d的独立区域r_k，k为独立区域的序号，本文将独立区域r_k中每一个词语映射为一个m维的连续值向量，得到每一个区域的向量表示 r_k＝{W₁,W₂,W₃,…,W_d}，W₁、W₂、W₃、……、W_d分别为独立区域r_k中每一个词语映射的m维的连续值向量；其中W_μ∈R^m，μ＝1,2,3,...,d。将一个用户评论中的每一个独立区域作为卷积神经网络的输入，然后使用长度为l的卷积核对独立区域r_k做卷积操作：

N_k＝f(w·r_k+b)

其中w为卷积核权重，f()为非线性激活函数，w∈R^m×l；b为偏置项，b∈R。对每一个区域通过卷积操作可以得到独立区域r_k的特征图N，N∈R^d-l+1：

N＝[N1,N2,N3,…,Nk]，

对于每一个区域，本文采用max-pooling方法进行局部特征的下采样，提取每一个特征图N最重要的特征信息：

N＝max-pooling(N)，

对于有k个卷积核的窗口则为：

N＝[N1,N2,N3,…,Nk]，

(4)针对经过词向量模型得到的句子词向量信息以及区域CNN输出的特征信息，按下述步骤进行执行：

其中U和T分别为对应隐藏层输出的权重矩阵，W_α和W_β分别为方面词向量α和主题词向量β的权重矩阵，{W_α,W_β}∈R^m×m；为正向LSTM网络函数；反向LSTM网络函数；为正向 LSTM网络的上一个神经单元的隐藏层输出，为正向LSTM网络的神经单元的隐藏层输出，e_aspect为方面词对应的深度特征，e_topic为主题词对应的深度特征；

为反向LSTM网络的上一个神经单元的隐藏层输出，为反向LSTM网络的神经单元的隐藏层输出。

其中h_L、h_L′分别为词语层两个LSTM网络最后一层LSTM单元的输出，为简单拼接操作，N为提取特征图最重要的特征信息。

通过这种方式既可以使模型在训练过程中高度关注特定方面在整个评论中的特征信息，也可以有效挖掘句子之间的依赖关系。

(5)使用softmax函数对句子层Bi-LSTM网络的输出进行处理，得到待分类句子的情感极性：

y＝softmax(W·C+b)

其中W为权重矩阵，b为偏置，softmax()为softmax函数。

使用反向传播算法来训练网络模型，在训练过程中使用最小化交叉熵损失作为优化目标，交叉熵公式如下所示：

在本实施方式中，R^|V|×m，R^|V|，R^ψ，R^h×ψ，R^s-h+1，R^m×n，R^2m，R^d-l+1中，R 为实数空间，R的上标为维度。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于多语言层次机制的方面级情感分析方法，其特征在于，包括以下步骤：

S1，将输入文本转化为向量表示；

2.根据权利要求1所述的基于多语言层次机制的方面级情感分析方法，其特征在于，步骤S1包括：

将用户评论对应的主题词映射为一个m维的连续值向量；

并将用户评论对应的方面词映射为一个m维的连续值向量。

3.根据权利要求1所述的基于多语言层次机制的方面级情感分析方法，其特征在于，步骤S2包括以下步骤：

S21，对输入文本进行词嵌入操作；

N_k＝f(w·r_k+b)，

N＝max-pooling(N)，

其中U和T分别为对应隐藏层输出的权重矩阵，W_α和W_β分别为方面词向量α和主题词向量β的权重矩阵；为正向LSTM网络函数；为反向LSTM网络函数；为正向LSTM网络的上一个神经单元的隐藏层输出，为正向LSTM网络的神经单元的隐藏层输出，e_aspect为方面词对应的深度特征，e_topic为主题词对应的深度特征；

第二步，将区域CNN的输出按句子的先后顺序形成序列化矩阵和将词语层Bi-LSTM网络的最终输出结合作为句子层双向LSTM网络的输入：

通过两个LSTM网络生成对应的隐藏状态输出P＝{P₁,P₂,P₃,…,P_k}、Q＝{Q₁,Q₂,Q₃,…,Q_k}，P₁，Q₁为两个LSTM网络第一层输出，P₂，Q₂为两个LSTM网络第二层输出，P₃，Q₃为两个LSTM网络第三层输出，P_k，Q_k为两个LSTM网络最后一层输出，将其最后一层LSTM网络输出进行拼接所得到的向量即为本文所需要的情感分类向量：

4.根据权利要求1所述的基于多语言层次机制的方面级情感分析方法，其特征在于，步骤S1包括以下步骤：

其中，v_wζ为词w_ζ的one-hot编码；

c_ξ＝f(w·C[ξ:ξ+h-1]+b)，

其中，f()为非线性激活函数，w为卷积核权重，b为偏置项；然后使用max-pooling对特征序列求最大值，得到该滤波器产生的特征最后使用n个滤波器产生n个特征，将这n个特征进行拼接得到词；

5.根据权利要求1所述的基于多语言层次机制的方面级情感分析方法，其特征在于，步骤S3中，情感极性的计算方法为：

y＝softmax(W·C+b)，

其中W为权重矩阵，b为偏置项，softmax()为softmax函数。

6.根据权利要求5所述的基于多语言层次机制的方面级情感分析方法，其特征在于，还包括对情感极性计算交叉熵，情感极性交叉熵的计算方法为：