CN113609849A

CN113609849A - 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法

Info

Publication number: CN113609849A
Application number: CN202110765525.4A
Authority: CN
Inventors: 仁庆道尔吉; 张倩; 张文静; 刘馨远; 张毕力格图; 郎佳珺; 苏依拉; 李雷孝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-05

Abstract

本发明公开了一种融合先验知识模型的蒙古语多模态细粒度情感分析方法，对含有表情符的中文和蒙古语情感语料库进行预处理；分别将经过预处理得到的文本词和表情符转换为动态词向量；引入注意力机制对文本词量和表情符词向量拼接的词向量进行细粒度情感分析；并分别创建蒙古语情感词典和表情符的情感词典将二者提取的特征作为模型最终提取的情感特征；将融入先验知识的模型在大规模中文及蒙古语语料上进行预训练，得到融合先验知识模型的蒙古语多模态细粒度情感分析模型；将该模型的分析结果与单一网络分析方法的分析结果就每个情感类别的准确率、精确率、召回率和F1值进行对比和评价，达到提高蒙古语文本情感分析性能的目的。

Description

一种融合先验知识模型的蒙古语多模态细粒度情感分析方法

技术领域

本发明属于人工智能技术领域，特别涉及一种融合先验知识模型的蒙古语多模态细粒度情感分析方法。

背景技术

随着互联网技术的快速发展，越来越多的人开始在社交平台诸如微博、论坛、影视网站、购物网站等平台发表各种言论，以此来分享自己的心情、观点和意见。特别的是，随着网络技术的快速发展，表情符逐渐发展为一种有别于文本、图像、视频一种新的数据形式，在情感分析领域发挥着重要作用。用户发表的文本、表情符等信息可能包含不同的感情色彩：有开心的或是喜爱的；悲伤的亦或是愤怒的。情感分析的核心是将一段文本所表达的情感准确的分为 happiness、like、sadness、surprise、disgust、fear、anger七个类别。

随着人工智能的崛起，深度学习方法得到了广泛的关注，因其模型具有强大的特征学习能力，所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说，现有的情感分析方法存在以下三点不足。其一，由于蒙古语词汇丰富形态变化多，就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象，而大量未登录词的存在严重影响情感分析的准确率。其二，当前情感分析主要对文本数据进行分析，对于含有表情符的数据一般在数据清洗阶段将表情符等重要信息做了删除处理，不能充分表情符这一情感分析重要特征。其三，目前单一的神经网络模型在解决情感分析时分类效率有限，局限于某些特征数据信息。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合先验知识模型的蒙古语多模态细粒度情感分析方法，具有以下三个特点：第一，将中文的jieba分词和字符对编码BPE技术结合对数据进行分词，并利用词向量修正方法，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题；第二，通过预训练模型分别将文本和表情符表示成向量的形式，并将二者拼接成向量作为每条数据的向量特征，以充分利用原始数据中的文本和表情符的情感特征，达到多方位分析情感目标的目的；第三，通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识，充分利用了蒙古语情感词汇及含有情感表情符的重要情感特征，以提高蒙古语文本情感分析的质量。

为了实现上述目的，本发明采用的技术方案是：

一种融合先验知识模型的蒙古语多模态细粒度情感分析方法，包括如下步骤：

步骤1：对含有表情符的中文和蒙古语情感语料库进行预处理；

步骤2：通过机器翻译技术将含有表情符的中文语料翻译成蒙古语语料；

步骤3：用融合jieba分词和正则化的BPE分词技术对蒙古语语料进行分词；

步骤4：将分词得到的蒙古语文本语料和表情符表示成动态词向量并将二者拼接成新的词向量；

步骤5：引入注意力机制对新的词向量分配不同的权重，有侧重点地提取情感特征。

步骤6：分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识；

步骤7：将融合先验知识的模型在大规模的语料进行预训练，得到融合先验知识模型的蒙古语多模态细粒度情感分析模型；

步骤8：将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

所述步骤1中，预处理是对所获取的语料进行数据清洗，包括移除用户名信息、移除URLS、移除特殊字符等步骤。

所述步骤2中，由于蒙古语语料信息不足，将已获取的含有表情符的中文语料进行机器翻译转化成蒙古语语料，达到扩充蒙古语预料的目的。

所述步骤3中，采用jieba分词和正则化的字节对编码技术(BPE)分词技术对预处理的语料信息进行切分操作，利用GloVe模型将文本语料和表情符训练生成对应的词向量，二者拼接形成新的词向量，并对新的词向量采用贪心处理方式进一步发现未登录词，修正切分结果。

所述利用GloVe训练生成词向量的目标函数J(W)为：

其中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，F(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

其中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数， X_i＝∑_jX_ij；

对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_i+1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

W_i＝null

所述步骤4中，利用python编译器TensorFlow框架里面的拼接方法，将生成了文本词向量和表情符词向量进行拼接操作，得到新的词向量new_wordvector：

new_wordvector ＝tensorflow.concat([Text_wordvector，emoji_wordvector]，1)

利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

其中m为原分词结果Y中的词向量的个数，n为修正后的切分结果

中的词向量的个数。

所述步骤5中，使用注意力机制对编码器所有时间步的隐藏状态做加权平均来得到背景变量，解码器在每一时间步调整这些权重，即注意力权重。设输入序列的索引t，输出序列索引t′，即在时间步t′的隐藏状态为：

s_t′＝g(y_t′-1，c，s_t′-1)

其中，y_t′-1是上一时间步t′-1的输出y_t′-1的表征，且任一时间步t′使用相同的背景变量c。

首先，函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的隐藏状态计算softmax运算的输入，softmax运算输出概率分布并对编码器各个时间步的隐藏状态做加权平均，从而得到背景变量。令编码器在时间步t的隐藏状态为h_t，且总时间步数为T，那么解码器在时间步t′的背景变量为所有编码器隐藏状态的加权平均：

其中给定t′时，权重a_t′t在t＝1，...，T的值是一个概率分布，可以使用 softmax运算，得到概率分布：

其中，e_t′t同时取决于解码器的时间步t′和编码器的时间步t，设解码器在时间步t′-1的隐藏状态s_t′-1与编码器在时间步t的隐藏状态h_t为输入，通过函数 a计算e_t′t：

e_t′t＝a(s_t′-1，h_t)

所述步骤6中，分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中，文本情感词典包含happiness、like、sadness、surprise、disgust、fear、 anger七种情感的情感词语，如，喜悦、欢喜、笑眯眯、欢天喜地等词汇属于文本情感库里happiness的情感类别，气愤、恼火、大发雷霆、七窍生烟等词汇属于文本情感库里anger的情感类别，

等表情符属于表情符情感词典库里happiness的情感类别。

所述步骤7中，使用融合先验知识的预训练模型RoBERT及XLNet中的ELMO 方法将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量，其中所述ELMO模型为一个双层双向的LSTM训练语言模型，一个词得到三个嵌入值，在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。

所述步骤8中，准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc 表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN 表示实际为负例，且被模型预测为负例的样本数，所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

与现有技术相比，本发明的有益效果是：

(1)本发明中文语料通过机器翻译成蒙古语语料，采用Jieba分词和正则化的 BPE技术相结合以及词向量修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。

(2)本发明通过预训练模型分别将文本和表情符表示成向量的形式，并将二者拼接成向量作为每条数据的向量特征，以充分利用原始数据中的文本和表情符的情感特征，达到多方位分析情感目标的目的。

(3)本发明通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识，充分利用了蒙古语情感词汇及含有情感表情符的重要情感特征，以提高蒙古语文本情感分析的质量。

附图说明

图1是实现一种融合先验知识模型的蒙古语多模态细粒度情感分析方法的流程图。

图2是文本词向量和表情符词向量拼接结构图。

图3是注意力机制模型结构图。

图4是ELMO模型结构图。

图5是融合先验知识模型的蒙古语多模态细粒度情感分析示意图

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1-2所示，本发明一种融合先验知识模型的蒙古语多模态细粒度情感分析方法，过程如下：

第一步：对中文和蒙古语情感文本语料库进行预处理，预处理是对所获取的语料进行数据清洗，包括移除用户名信息、移除URLS、移除特殊字符等步骤。

第二步：由于蒙古语语料信息不足，将已获取的含有表情符的中文语料进行机器翻译转化成蒙古语语料，达到扩充蒙古语预料的目的。

第三步：在进行模型训练之前，应对情感文本语料库进行预处理。本发明使用中文的jieba分词和正则化的字节对编码技术(BPE)对语料进行切分操作，其中jiaba分词主要用于处理中文语料，而BPE分词技术主要用于处理英文语料，但对于蒙古语这样的小语种来说，没有特定的分词技术，从字符构成、实验分析等角度表明，使用中文的jieba分词和正则化的字节对编码技术(BPE)对语料进行切分操作效率更高，其中，jieba分词主要通过词典来进行分词及词性标注，分词的结果优劣将很大程度上取决于词典，BPE技术是用一个没有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程，所以通过对蒙古语词汇进行词干和词缀的切分，能够让高频词保留至词典中，而低频词被切分为更小粒度的子单元，从而缓解数据稀疏，减少未登录词。具体步骤为：

1、将语料库中所有字符加入字典中作为初始化字典，把所有单词变成字符分割的形式，并在末尾加入标记，方便在输入句子后回复分词信息；

2、对语料中的字符对计数，找出次数最多的字符对(A，B)，并在语料中将其用“AB”代替，从而在字典中增加键值“AB”，此步骤称为合并操作；

3、对上一步操作迭代n次，直到已经进行了一定数量的合并操作；

4、字典由字符、词素和词语等组成，此时字典大小＝初始字典大小+合并操作次数n。

随着互联网的发展使得新词不断涌现，只基于词频而不考虑词的语法、语义信息的切分方法准确率不高。因此，为了提升切分性能，在采用jieba分词和正则化的BPE分词环节之后，本发明选择使用GloVe模型训练生成词向量，并使用词向量结果贪心地发现未登录词，修正切分结果。

GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需要根据语料构建词语的共现矩阵，共现矩阵统计的是词语在给定中心词和窗口大小的限制环境下的共现次数，因此在一定程度上可以表达词语之间的关系。由于共现频数是在整个语料库中进行统计的，不只是针对一句话或者一段语料，所以具有全局性。对于表达意义相近的词而言，它们之间的“距离”也较其他的词更近。

使用GloVe模型得到的词向量进行切分修正的基本原理为：如果词w_i和词w_j同时出现的频率较高，那么二者以较大的概率可以组合成新词w_iw_j。通过GloVe 模型生成的词向量具有以下性质：如果词w_i和词w_j有很大可能可以组成新词 w_iw_j，那么这两个词对应的词向量W_i和W_j之间的夹角θ的余弦值会接近1。

根据上述原理，可以采用如下贪婪方法进行修正，具体步骤为：

1、将通过jieba分词和正则化的BPE分词技术切分好的词转换为词向量，使用GloVe模型训练词向量的目标函数为：

式中，W为词向量矩阵，W∈R^|V|*d，|V|表示词的数量，d表示词向量维数；X_ij表示词w_j在词w_i的语境下出现的次数，W_i表示词w_i的词向量，W_j表示词w_j的词向量，f(X_ij)是权重项，用于去除低频项噪声，其表达式如下：

式中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数， X_i＝∑_jX_ij；

2、对于原分词结果Y＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

3、若该夹角余弦值大于预先给定的阈值λ，则认为词w_i和词w_i+1组成新词，组合后的词向量为二者加和归一化的结果，计算公式为：

W_i＝null

4、利用python编译器TensorFlow框架里面的拼接方法，将生成了文本词向量和表情符词向量进行拼接操作，得到新的词向量new_wordvector：

new_wordvector ＝tensorflow.concat([Text_wordvector，emoji_wordvector]，1)

5、利用该新词的词向量继续进行贪心地匹配，直到句子结束，得到修正后的切分结果

中的词向量的个数。

第四步：分别将经过预处理得到的文本词转换为动态词向量，表情符转换为动态词向量。

本发明使用预训练模型中的ELMO方法将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量。如图4所示，ELMO模型为一个双层双向的LSTM训练语言模型，每一个词向量经过ELMO模型都会得到三个嵌入向量：最底层的向量表示单词特征；第一层的双向LSTM表示句法特征；第二层的双向LSTM表示语义特征，最终通过权重矩阵来调整这三个向量。ELMO通过多层词向量的融合动态的调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义等在内的多层次信息，更好地解决一词多义问题。第五步：使用注意力机制对编码器所有时间步的隐藏状态做加权平均来得到背景变量，解码器在每一时间步调整这些权重，即注意力权重。设输入序列的索引t，输出序列索引t′，即在时间步t′的隐藏状态为：

s_t′＝g(y_t′-1，c，s_t′-1)

如图3所示，首先，函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的隐藏状态计算softmax运算的输入，softmax运算输出概率分布并对编码器各个时间步的隐藏状态做加权平均，从而得到背景变量。令编码器在时间步t的隐藏状态为h_t，且总时间步数为T，那么解码器在时间步t′的背景变量为所有编码器隐藏状态的加权平均：

e_t′t＝a(s_t′-1，h_t)

第六步：分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中，文本情感词典包含happiness、like、sadness、surprise、disgust、fear、anger 七种情感的情感词语，如，喜悦、欢喜、笑眯眯、欢天喜地等词汇属于文本情感库里happiness的情感类别，气愤、恼火、大发雷霆、七窍生烟等词汇属于文本情感库里anger的情感类别，

等表情符属于表情符情感词典库里happiness的情感类别。

第七步：本发明采用融合先验知识的预训练模型，其中预训练模型分别为 FOPK+RoBERT、FOPK+XLNet，其本质是一个双向的LSTM网络，LSTM网络充分利用上下文信息抽取到高层的抽象特征。LSTM神经网络按照句子输入的顺序读取输入X＝x₁x₂…x_n，x₁表示输入的第1个词向量，x_j表示输入的第j个词向量，并计算出隐层状态(h₁h₂…h_n)，h₁表示隐层状态的第1个语义向量元素， h_j表示隐层状态的第j个语义向量元素。

LSTM网络中包含一个记忆单元C和三个门结构：遗忘门f、输入门i和输出门 o，用于控制信息的传递和遗忘。LSTM网络结构如图5所示，x_t是当前时刻的输入，h_t-1是上一时刻隐藏层的状态。遗忘门决定了上一时刻的记忆单元有多少保留到当前时刻，输入门决定了当前时刻的输入有多少保留到当前时刻，输出门控制记忆单元有多少可以被输出。LSTM网络的关键就是单元状态，是在图上方贯穿运行的那条水平线，它类似于一个传送带，可以控制信息传递给下一时刻。LSTM的计算步骤为：

1、保留上一时刻的信息，即决定上一时刻的单元状态C_t-1有多少保留到当前时刻C_t。这个决定由遗忘门来控制，它会根据上一时刻的输出h_t-1和当前输入x_t产生一个0到1的f_t值，来决定是否让上一时刻的记忆单元信息C_t-1保留或部分保留。f_t值的计算公式为：

f_t＝σ(W_fhh_t-1+W_fxx_t+b_f)

其中，W_fh和W_fx为权重矩阵；b_f为偏移值；σ为sigmoid激活函数。若f_t的值为 0，则表示完全遗忘；若f_t的值为0-1之间，则表示部分保留；若f_t的值为1，则表示完全保留。

2、产生需要更新的新信息，即决定当前时刻网络的输入x_t有多少保留到当前时刻C_t。这一步包含两部分，第一部分是输入门决定什么值需要更新，表示要以多大概率来更新信息；第二部分是创建一个新的候选值向量

表示现在的全部信息。i_t和

值的计算公式为：

i_t＝σ(W_ihh_t-1+W_ixx_t+b_i)

其中，W_ih、W_ix、W_ch和W_cx为权重矩阵；b_i和b_c为偏移值；σ为sigmoid激活函数；tanh为双曲正切函数。输入门i_t控制当前时刻的候选状态

有多少信息需要保存，若i_t的值为0，则表示完全遗忘；若i_t的值为0-1之间，则表示部分保留；若i_t的值为1，则表示完全保留。

3、更新单元状态。将第一步和第二步结合起来，丢掉不需要的信息并添加新信息。新的单元状态C_t的计算公式为：

4、输出信息，即当前单元状态C_t有多少被输出。

o_t＝σ(W_ohh_t-1+W_oxx_t+b_o)

h_t＝o_t⊙tanh(C_t)

其中，W_oh和W_ox为权重矩阵；b_o为偏移值；σ为sigmoid激活函数；tanh为双曲正切函数。

使用LSTM被普遍认为可以缓解梯度消失和信息遗忘的问题，从而更好地建模长距离语义。但是，注意到在LSTM中，当前的输入和前一步隐藏层的状态是相互独立的，它们只在门中进行交互，在这之前缺乏交互，这就可能会导致上下文信息的丢失。图4是ELMO模型结构图，图5是融合先验知识模型的蒙古语多模态细粒度情感分析示意图。

第八步：将将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价，以达到提高蒙古语文本情感分析性能的目的。

其中准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc表示准确率，指的是在预测所有样本中，预测为正例样本，实际为正例样本，预测为负例样本。实际为负例样本的比例，P表示精确率，指的是在预测为正例的样本中，实际为正例所占的比例，R表示召回率，指的是在实际的正例样本中，预测为正例所占的比例，通常情况下，精确率和召回率是相互矛盾的，即提高一个指标会导致另一个指标的下降。F1表示F1值，为了权衡精确率和召回率，F1 值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例，且被模型预测为正例的样本数量；FN(False Negative)表示被模型预测为负例，但实际上为正例的样本数量；FP(False Positive)表示被模型预测为正例，但实际上为负例的样本数量；TN(True Negative)表示实际为负例，且被模型预测为负例的样本数，精确率、召回率和F1值的分数越高说明情感分析模型性能越好。表1给出了计算中所需的混淆矩阵：

表1混淆矩阵

	预测为正例	预测为负例
			实际为正例	TP	FN
预测为负例	FP	TN

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，包括如下步骤：

步骤5：引入注意力机制对新的词向量分配不同的权重，有侧重点地提取情感特征；

步骤8：将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价。

2.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述步骤1中，预处理是对所获取的语料进行数据清洗，包括移除用户名信息、移除URLS、移除特殊字符的步骤；所述步骤2中，通过已获取的含有表情符的中文语料进行机器翻译转化成蒙古语语料。

3.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，采用jieba分词和正则化的字节对编码技术分词技术对预处理的语料信息进行切分操作，利用GloVe模型将文本语料和表情符训练生成对应的词向量，二者拼接形成新的词向量，并对新的词向量采用贪心处理方式进一步发现未登录词，修正切分结果。

4.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述利用GloVe训练生成词向量的目标函数J(W)为：

其中，X_max为X_i中的最大值，X_i表示在词w_i的语境下出现的所有的词的次数，X_i＝∑_jX_ij；

对于原分词结果γ＝w₁w₂…w_m，从头开始比较当前词w_i的词向量W_i与下一个词w_i+1的词向量W_i+1的夹角余弦值，夹角余弦值公式为：

利用python编译器TensorFlow框架里面的拼接方法，将生成了文本词向量和表情符词向量进行拼接操作，得到新的词向量new_wordvector：

new_wordvector

＝tensorflow.concat([Text_wordvector，emoji_wordvector]，1)

中的词向量的个数。

5.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述步骤5中，使用注意力机制对编码器所有时间步的隐藏状态做加权平均来得到背景变量，解码器在每一时间步调整这些权重，即注意力权重。设输入序列的索引t，输出序列索引t′，即在时间步t′的隐藏状态为：

s_t′＝g(y_t′-1，c，s_t′-1)

其中，y_t′-1是上一时间步t′-1的输出y_t′-1的表征，且任一时间步t′使用相同的背景变量c；

首先，函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的隐藏状态计算softmax运算的输入，softmax运算输出概率分布并对编码器各个时间步的隐藏状态做加权平均，从而得到背景变量；令编码器在时间步t的隐藏状态为h_t，且总时间步数为T，那么解码器在时间步t′的背景变量为所有编码器隐藏状态的加权平均：

其中给定t′时，权重a_t′t在t＝1，...，T的值是一个概率分布，可以使用softmax运算，得到概率分布：

其中，e_t′t同时取决于解码器的时间步t′和编码器的时间步t，设解码器在时间步t′-1的隐藏状态s_t′-1与编码器在时间步t的隐藏状态h_t为输入，通过函数a计算e_t′t：

e_t′t＝a(s_t′-1，h_t)。

6.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述步骤6中，分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。

7.根据权利要求5所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，其特征在于，所述步骤7中，使用融合先验知识的预训练模型FOPK+RoBERT及FOPK+XLNet中的ELMO方法将经过预处理得到的词转换为计算机能识别和处理的语言，即动态词向量，其中所述ELMO模型为一个双层双向的LSTM训练语言模型，一个词得到三个嵌入值，在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示，最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。

8.根据权利要求6或7所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，采用集成模型的思想，将融合文本情感词典和表情符情感词典的先验知识预训练FOPK+RoBERT和FOPK+XLNet模型作为最终情感分析模型，提取相关情感特征。

9.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述步骤7中，利用大规模蒙古文多模态情感语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵，将大规模情感分析模型中训练好的网络参数权重迁移到特定蒙古语多模态情感分析模型中进行初始化，最后再利用蒙古语情感文本语料对模型进行进一步的训练。

10.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法，其特征在于，所述步骤8中，准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。