CN109933795A

CN109933795A - 基于上下文-情感词向量的文本情感分析系统

Info

Publication number: CN109933795A
Application number: CN201910207069.4A
Authority: CN
Inventors: 金悦媛; 饶若楠
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-06-25
Anticipated expiration: 2039-03-19
Also published as: CN109933795B

Abstract

一种基于上下文‑情感词向量的文本情感分析系统，包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，本发明实现了通用语料预训练模型得到的上下文词向量与目标语料情感词向量的结合，可以得到具有多语义和情感信息的上下文‑情感词向量。并用Tree‑LSTM组合上下文‑情感词向量，将句法成分结构信息融入到向量表示中，最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。

Description

基于上下文-情感词向量的文本情感分析系统

技术领域

本发明涉及的是一种语义处理领域的技术，具体是一种基于上下文-情感词向量和Tree-LSTM的文本情感分析系统。

背景技术

基于深度学习的文本情感分析系统通常采用预训练模型(如word2vec，glove)来得到词向量(word embedding)，再将词向量输入到下游模型(如RNN,CNN)得到句子向量，最后利用分类器得到句子的情感极性类别(如积极，中立，消极)。上述词向量预训练模型存在以下问题：一方面word2vec只能捕获到静态词向量，即每个单词在不同上下文中的表示是相同的。而现实中单词的语义是与上下文紧密相关的。另一方面word2vec词向量只能表示单词通用的语义，不能捕获到情感极性信息，例如good和bad的情感词性相反，但其词向量很相似。

近年来，ELMO、GPT、BERT等预训练模型可以得到上下文相关的词向量，并依赖于微调(fine-tune)技术来调整模型。对于情感分析任务，这样捕获到的上下文词向量仍会缺乏部分情感信息。

情感词典是一个包含单词及其情感值的词典，以情感词典作为辅助信息细化词向量可以得到具有情感信息的词向量。此方法仅曾被用于调整静态词向量，未被尝试用于上下文词向量。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于上下文-情感词向量的文本情感分析系统。

本发明是通过以下技术方案实现的：

本发明包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析(Standford-Parser,PCFG)方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词，并通过字符词典对组成每个单词的字符的转换成字符对应的索引号(ID)；词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型(CNN-BIG-LSTM)，根据组成单词的字符的索引号，通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量；预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型，根据上下文无关词向量得到BiLSTM神经元的隐状态，即上下文词向量；情感细化单元通过情感词典调整上下文无关词向量得到情感词向量，并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量；情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型，并根据上下文-情感词向量得到句子的情感分类结果。

所述的字符词典是指一个包含文本单词中所有可能出现的字符，如26个英文字母。字符词典中每个字符对应一个唯一的索引号(ID)。假设词典的大小为|O|。

所述的情感词典中每一行存储单词及其对应的情感值(Valence)和激励值(Arousal)，其中情感值的取值范围在1-9之间，值越大表示越积极。

所述的情感词向量是指：通过情感词典的分数值调整上下文词向量，使其与情感值相近的单词的词向量更相似，而远离情感值相反的单词的词向量。

所述的树状LSTM模型兼具LSTM在处理序列数据上的优点且树状结构符合句子语法，可以捕捉到短语信息。

本发明涉及一种根据上述系统的上下文-情感词向量和Tree-LSTM的文本情感分类方法，通过对语言模型进行通用语料预训练再用于对输入的句子进行处理得到上下文词向量，再用Standford-Parser解析句子得到句法结构分析树，然后对上下文无关词向量进行情感细化得到情感词向量，并学习权重对上下文词向量和情感词向量的线性组合，进而得到上下文-情感词向量以联合表示单词的语义和情感，再将上下文-情感词向量输入Tree-LSTM中，根据句法结构分析树组合单词得到句子的向量表示，最后通过softmax分类后得到输入的句子的情感分类。

所述的语言模型为CNN-BIG-LSTM，该模型根据输入的句子输出其概率分布，即给定一个长度为n的句子，语言模型建模关于整个句子在通用语料中出现的概率分布P(w₁,w₂,…w_n)。

所述的通用语料预训练是指：将通用语料(如维基百科，百度百科，新闻等无标签文本)输入到预处理单元，得到单词的字符ID表示o_i；将字符ID表示o_i输入词向量单元，得到单词的上下文无关词向量表示e_i；将词向量表示e_i输入预训练单元，以语言模型为任务训练两层BiLSTM，用Adam算法优化模型参数，直到收敛。

技术效果

与现有技术相比，本发明实现了通用语料预训练模型得到的上下文词向量与目标语料情感词向量的结合，可以得到具有多语义和情感信息的上下文-情感词向量。并用Tree-LSTM组合上下文-情感词向量，将句法成分结构信息融入到向量表示中，最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。

附图说明

图1为本发明结构流程示意图；

图2为本发明词向量单元CNN-BIG-LSTM模型图；

图3为本发明预训练单元两层biLSTM模型图；

图4为本发明情感分类器单元Tree-LSTM模型图。

具体实施方式

如图1所示，本发明包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析(Standford-Parser,PCFG)方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词，并通过字符词典对组成每个单词的字符的转换成字符对应的索引号(ID)；词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型(CNN-BIG-LSTM)，根据组成单词的字符的索引号，通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量；预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型，根据上下文无关词向量得到BiLSTM神经元的隐状态，即上下文词向量；情感细化单元通过情感词典调整上下文无关词向量得到情感词向量，并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量；情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型，并根据上下文-情感词向量得到句子的情感分类结果。

所述的输入的句子包括：通用语料和任务语料文本，当单词v_i由[c₁,…,c_k]的字符序列组成，字符集为O，则单词v_i的字符ID表示第j列表示第j个字符的ID表示，预处理单元将句法结构分析输出到情感分类器单元，将字符ID表示o_i输出到词向量单元；所述的预处理单元包括：句法分析模块、字符映射模块其中：句法分析模块用Stanford-Parser处理句子输出句法分析树，字符映射模块利用字符词典将句子的每个单词的字符映射成对应的ID。

所述的词向量单元包括：字符嵌入模块和字符CNN模块，其中：字符嵌入模块利用字符嵌入矩阵Q处理字符ID，输出单词字符嵌入表示。字符CNN模块与字符嵌入相连并输出单词的上下文无关向量。

如图2所示，所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量：当句子s＝[v₁,…v_i…,v_m]的每个单词v_i(i＝1,…,m)经过预处理单元处理得到的字符ID表示(k表示vi的字符个数)，字符嵌入模块中有字符嵌入矩阵Q，当每个字符的嵌入表示维度等于d，那么(|O|为字符字典的大小)，则对于给定单词v_i，通过查看Q可以得到v_i的字符嵌入表示为第j行表示第j个字符的嵌入表示。这里，|O|设置为262，d设置为16。

为了得到词向量，需要对每个单词的字符嵌入使用2048个n元(n-gram)卷积过滤器来提取特征。当一个过滤器f_i的大小等于那么卷积得到结果为然后用最大池化提取重要特征，得到特征维度为再用Tanh函数对特征进行非线性变换。最后将每个经过卷积池化的特征连接在一起，经过2个highway层和1个512维的线性投影层，得到每个单词的上下文无关向量表示e_i，

如图3所示，所述的预训练单元是基于MatthewE.Peters等人提出的ELMO模型，它是一个两层双向BiLSTM，通过大规模通用语料以无监督方式训练两层BiLSTM语言模型。

所述的预训练单元包括：前向LSTM模块、后向LSTM模块和softmax模块，其中：前向LSTM模块处理上下文无关词向量输出前向隐状态，后向LSTM模块处理上下文无关词向量输出后向隐状态，softmax模块与前向LSTM模块和后向LSTM模块相连输出单词的概率分布。

所述的预训练单元依次进行通用语料预训练和获取目标语料上下文向量，具体包括：

①将通用语料经过词向量单元得到的上下文无关词向量E输入两层BiLSTM结构的语言模型进行训练：当输入的文本s＝[v₁,…,v_m]包含m个单词，前向语言模型计算给定前t-1个单词(v₁,…,v_t-1)的条件下，第t个单词v_t的概率分布：p(v_t|v₁,…,v_t-1)。则文本s的概率为：

后向语言模型则是根据v_t后面的单词来预测其概率分布：单词v_i的上下文无关向量为e_i，将e_i传递给biLSTM模型，则会在每个biLSTM层得到得到v_i的隐状态表示和其中：j＝1,2；是前向LSTM计算得到的单词v_i的上文相关表示，是后向LSTM计算得到的v_i的下文相关表示。v_i的概率分布根据softmax函数计算得到：其中：Θ_s为模型参数，前后向LSTM的神经元个数均设置为512。

所述的biLSTM模型的损失函数为：其中：和分别表示前向和后向LSTM层的参数。使用大规模通用语料训练此预训练模型，并用Adam算法优化模型参数，直到收敛。

②将目标语料经过词向量单元得到的上下文无关词向量E输入预训练单元中已训练好的biLSTM模型。对于从biLSTM模型中获得其上下文相关表示和(j＝1,2)，然后连接成一个向量当j＝0时，h_i,0＝e_i；否则，然后预处理单元输出R＝{R₁,…,R_m}。

所述的情感细化单元基于词向量细化方法，利用情感词典(比如英文情感词典E-ANEW)对词向量单元输出的词向量进行情感细化调整，然后输出调整后的词向量。情感词典中的每个单词有对应的情感值Valence和激励值Arousal。Valence的取值范围在1-9之间，值越大表示越积极。

所述的情感细化单元包括：相似度计算模块和词向量细化模块，其中：相似度计算模块处理上下文无关词向量并选择与其最相似的k个词向量，词向量细化模块与相似度计算模块相连并输出细化后的词向量。

所述的情感细化具体是指：首先将情感词典的单词经过预处理后输入词向量单元，获得情感词典中每个单词对应的词向量，记为集合S；然后将目标语料经过词向量单元得到的上下文无关词向量E输入情感细化单元，若e_i∈S，则计算e_i与S中其他词的相似度并按降序排序；前k个相似度最高的单词组成集合S_i；本实施例中k为10，计算e_i与s的情感值Valence的绝对值差，并按升序排序；调整e_i词向量，得到e′_i,使得e′_i与其k个邻近单词的距离最小化，并且e′_i与e_i的距离最小化；即目标函数为：其中：dist(x,y)是计算x与y相似度的相似度函数，α与β是控制向量e′_i移动的两个超参数，这里α，β均设置为0.1；令目标函数对e_i求导结果等于0，可以求解得到情感词向量e′_i，多次迭代直到收敛，若则e′_i＝e_i。

如图4所示，所述的情感分类器单元是基于Tree-LSTM模型的分类器，该情感分类器单元包括：词向量组合模块、Tree-LSTM模块以及softmax模块，其中：词向量组合模块处理上下文词向量和情感词向量与Tree-LSTM模块相连并传输上下文-情感词向量，Tree-LSTM模块根据句法结构处理上下文-情感词向量与softmax模块相连并输出隐状态，softmax模块处理隐状态并输出句子的类别信息。

所述的情感分类具体是指：首先将预训练单元输出的上下文词向量R_i与情感词向量e′_i连接在一起，得到：当j＝3时，h_i,3＝e_i；然后学习一个关于[R_i；e′_i]的线性组合函数：上下文-情感词向量其中：Θ_z＝[γ；s_j]，s_j是经过softmax归一化的权重参数，表示上下文词向量和情感词向量分别占的比重，γ是一个缩放因子；然后将Z_i输入到Tree-LSTM中，根据句法结构建Tree-LSTM模型，最上层LSTM输出的隐状态h经过softmax函数后计算得到句子的情感分类结果目标函数为负对数似然函数：其中：E_i表示文本E中第i个句子，y_i表示第i个句子的情感标签，表示Tree-LSTM的预测分类结果，Θ＝[Θ_z；Θ_tree-lstm；W]是情感分类器单元的参数，°符号表示element-wise乘法；通过随机梯度下降优化模型直到参数收敛。

与现有技术相比，本发明实现了通用语料预训练模型得到的上下文词向量与目标语料情感细化词向量的结合，可以得到具有多语义和情感信息的上下文-情感词向量。并用Tree-LSTM组合词向量，将句法成分结构信息融入到向量表示中，最后可以得到具有语义、情感和结构特征的句子向量用于情感分类。其中，情感分类器单元中的词向量组合模块是关键技术体现。在多分类情感分析任务中，模型评估效果主要以分类准确率为主。与现有方法做对比，本发明的分类准确率提高约3％。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于上下文-情感词向量的文本情感分析系统，其特征在于，包括：预处理单元、词向量单元、预训练单元、情感细化单元和情感分类器单元，其中：预处理单元通过概率上下文无关文解析方法跟据输入句子的单词分析得到句子的句法结构分析树用于对句子分词，并通过字符词典对组成每个单词的字符的转换成字符对应的索引号；词向量单元采用基于字符卷积神经网络和长短时记忆网络的适用于大规模语料的语言模型，根据组成单词的字符的索引号，通过多个过滤器对字符嵌入卷积得到该单词的上下文无关词向量；预训练单元采用经过通用语料预训练的两层BiLSTM的语言模型，根据上下文无关词向量得到BiLSTM神经元的隐状态，即上下文词向量；情感细化单元通过情感词典调整上下文无关词向量得到情感词向量，并将预训练单元的上下文词向量和情感词向量组合得到上下文-情感词向量；情感分类器单元跟据预处理单元的句法结构分析树构建树状LSTM模型，并根据上下文-情感词向量得到句子的情感分类结果。

2.根据权利要求1所述的系统，其特征是，所述的情感词典中每一行存储单词及其对应的情感值和激励值，其中情感值的取值范围在1-9之间，值越大表示越积极；

3.根据权利要求1所述的系统，其特征是，所述的词向量单元包括：字符嵌入模块和字符CNN模块，其中：字符嵌入模块利用字符嵌入矩阵Q处理字符ID，输出单词字符嵌入表示，字符CNN模块与字符嵌入相连并输出单词的上下文无关向量；

所述的词向量单元采用CNN-BIG-LSTM模型得到每个单词的上下文无关词向量：当句子s＝[v₁，...v_i...，v_m]的每个单词v_i，i＝1，...，m经过预处理单元处理得到的字符ID表示，k表示v_i的字符个数，字符嵌入模块中有字符嵌入矩阵Q，当每个字符的嵌入表示维度等于d，那么|O|为字符字典的大小，则对于给定单词v_i，通过查看Q可以得到v_i的字符嵌入表示为第j行表示第j个字符的嵌入表示。

4.根据权利要求1所述的系统，其特征是，所述的预训练单元包括：前向LSTM模块、后向LSTM模块和softmax模块，其中：前向LSTM模块处理上下文无关词向量输出前向隐状态，后向LSTM模块处理上下文无关词向量输出后向隐状态，softmax模块与前向LSTM模块和后向LSTM模块相连输出单词的概率分布。

5.根据权利要求1或4所述的系统，其特征是，所述的预训练单元依次进行通用语料预训练和获取目标语料上下文向量，具体包括：

①将通用语料经过词向量单元得到的上下文无关词向量E输入两层BiLSTM结构的语言模型进行训练：当输入的文本s＝[v₁，...，v_m]包含m个单词，前向语言模型计算给定前t-1个单词(v₁，...，v_t-1)的条件下，第t个单词v_t的概率分布：p(v_t|v₁，...，v_t-1)；则文本s的概率为：

后向语言模型则是根据v_t后面的单词来预测其概率分布：单词v_i的上下文无关向量为e_i，将e_i传递给biLSTM模型，则会在每个biLSTM层得到得到v_i的隐状态表示和其中：j＝1，2；是前向LSTM计算得到的单词v_i的上文相关表示，是后向LSTM计算得到的v_i的下文相关表示；v_i的概率分布根据softmax函数计算得到：其中：Θ_s为模型参数；

②将目标语料经过词向量单元得到的上下文无关词向量E输入预训练单元中已训练好的biLSTM模型；对于从biLSTM模型中获得其上下文相关表示和(j＝1，2)，然后连接成一个向量当j＝0时，h_i，0＝e_i；否则，然后预处理单元输出R＝{R₁，...，R_m}。

6.根据权利要求1所述的系统，其特征是，所述的情感细化单元包括：相似度计算模块和词向量细化模块，其中：相似度计算模块处理上下文无关词向量并选择与其最相似的k个词向量，词向量细化模块与相似度计算模块相连并输出细化后的词向量。

7.根据权利要求6所述的系统，其特征是，所述的情感细化具体是指：首先将情感词典的单词经过预处理后输入词向量单元，获得情感词典中每个单词对应的词向量，记为集合s；然后将目标语料经过词向量单元得到的上下文无关词向量E输入情感细化单元，若e_i∈S，则计算e_i与S中其他词的相似度并按降序排序；前k个相似度最高的单词组成集合S_i；本实施例中k为10，计算e_i与s的情感值Valence的绝对值差，并按升序排序；调整e_i词向量，得到e′_i，使得e′_i与其k个邻近单词的距离最小化，并且e′_i与e_i的距离最小化；即目标函数为：argmin_e′ 其中：dist(x，y)是计算x与y相似度的相似度函数，α与β是控制向量e′_i移动的两个超参数，这里α，β均设置为0.1；令目标函数对e_i求导结果等于0，得到情感词向量e′_i，多次迭代直到收敛，若则e′_i＝e_i。

8.根据权利要求1所述的系统，其特征是，所述的情感分类器单元包括：词向量组合模块、Tree-LSTM模块以及softmax模块，其中：词向量组合模块处理上下文词向量和情感词向量与Tree-LSTM模块相连并传输上下文-情感词向量，Tree-LSTM模块根据句法结构处理上下文-情感词向量与softmax模块相连并输出隐状态，softmax模块处理隐状态并输出句子的类别信息。

9.根据权利要求8所述的系统，其特征是，所述的情感分类具体是指：首先将预训练单元输出的上下文词向量R_i与情感词向量e′_i连接在一起，得到：当j＝3时，h_i，3＝e_i；然后学习一个关于[R_i；e′_i]的线性组合函数：上下文-情感词向量其中：Θ_z＝[γ；s_j]，s_j是经过softmax归一化的权重参数，表示上下文词向量和情感词向量分别占的比重，Y是一个缩放因子；然后将Z_i输入到Tree-LSTM中，根据句法结构建Tree-LSTM模型，最上层LSTM输出的隐状态h经过softmax函数后计算得到句子的情感分类结果目标函数为负对数似然函数：其中：E_i表示文本E中第i个句子，y_i表示第i个句子的情感标签，表示Tree-LSTM的预测分类结果，Θ＝[Θ_z；Θ_tree-lstm；W]是情感分类器单元的参数，ο符号表示element-wise乘法；通过随机梯度下降优化模型直到参数收敛。

10.一种根据上述任一权利要求所述系统的上下文-情感词向量和Tree-LSTM的文本情感分类方法，其特征在于，通过对语言模型进行通用语料预训练再用于对输入的句子进行处理得到上下文词向量，再用Standford-Parser解析句子得到句法结构分析树，然后对上下文无关词向量进行情感细化得到情感词向量，并学习权重对上下文词向量和情感词向量的线性组合，进而得到上下文-情感词向量以联合表示单词的语义和情感，再将上下文-情感词向量输入Tree-LSTM中，根据句法结构分析树组合单词得到句子的向量表示，最后通过softmax分类后得到输入的句子的情感分类。