CN113609849A - 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 - Google Patents
一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 Download PDFInfo
- Publication number
- CN113609849A CN113609849A CN202110765525.4A CN202110765525A CN113609849A CN 113609849 A CN113609849 A CN 113609849A CN 202110765525 A CN202110765525 A CN 202110765525A CN 113609849 A CN113609849 A CN 113609849A
- Authority
- CN
- China
- Prior art keywords
- mongolian
- word
- model
- emotion
- priori knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 97
- 238000004458 analytical method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 98
- 230000014509 gene expression Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000003012 network analysis Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 40
- 238000005516 engineering process Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 10
- 239000000463 material Substances 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合先验知识模型的蒙古语多模态细粒度情感分析方法,对含有表情符的中文和蒙古语情感语料库进行预处理;分别将经过预处理得到的文本词和表情符转换为动态词向量;引入注意力机制对文本词量和表情符词向量拼接的词向量进行细粒度情感分析;并分别创建蒙古语情感词典和表情符的情感词典将二者提取的特征作为模型最终提取的情感特征;将融入先验知识的模型在大规模中文及蒙古语语料上进行预训练,得到融合先验知识模型的蒙古语多模态细粒度情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就每个情感类别的准确率、精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种融合先验知识模型的蒙古语 多模态细粒度情感分析方法。
背景技术
随着互联网技术的快速发展,越来越多的人开始在社交平台诸如微博、论 坛、影视网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点 和意见。特别的是,随着网络技术的快速发展,表情符逐渐发展为一种有别于 文本、图像、视频一种新的数据形式,在情感分析领域发挥着重要作用。用户 发表的文本、表情符等信息可能包含不同的感情色彩:有开心的或是喜爱的; 悲伤的亦或是愤怒的。情感分析的核心是将一段文本所表达的情感准确的分为 happiness、like、sadness、surprise、disgust、fear、anger七个类别。
随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的 特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语 这样的小语种来说,现有的情感分析方法存在以下三点不足。其一,由于蒙古 语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现了严重的 未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。其二,当 前情感分析主要对文本数据进行分析,对于含有表情符的数据一般在数据清洗 阶段将表情符等重要信息做了删除处理,不能充分表情符这一情感分析重要特 征。其三,目前单一的神经网络模型在解决情感分析时分类效率有限,局限于 某些特征数据信息。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合先验知识 模型的蒙古语多模态细粒度情感分析方法,具有以下三个特点:第一,将中文 的jieba分词和字符对编码BPE技术结合对数据进行分词,并利用词向量修正方 法,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第二,通过预 训练模型分别将文本和表情符表示成向量的形式,并将二者拼接成向量作为每 条数据的向量特征,以充分利用原始数据中的文本和表情符的情感特征,达到 多方位分析情感目标的目的;第三,通过构建蒙古语情感词典和表情符的情感 词典作为预训练模型的先验知识,充分利用了蒙古语情感词汇及含有情感表情 符的重要情感特征,以提高蒙古语文本情感分析的质量。
为了实现上述目的,本发明采用的技术方案是:
一种融合先验知识模型的蒙古语多模态细粒度情感分析方法,包括如下步骤:
步骤1:对含有表情符的中文和蒙古语情感语料库进行预处理;
步骤2:通过机器翻译技术将含有表情符的中文语料翻译成蒙古语语料;
步骤3:用融合jieba分词和正则化的BPE分词技术对蒙古语语料进行分词;
步骤4:将分词得到的蒙古语文本语料和表情符表示成动态词向量并将二者拼接成新的词向量;
步骤5:引入注意力机制对新的词向量分配不同的权重,有侧重点地提取情感特征。
步骤6:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识;
步骤7:将融合先验知识的模型在大规模的语料进行预训练,得到融合先验知识模型的蒙古语多模态细粒度情感分析模型;
步骤8:将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评 价,以达到提高蒙古语文本情感分析性能的目的。
所述步骤1中,预处理是对所获取的语料进行数据清洗,包括移除用户名信息、 移除URLS、移除特殊字符等步骤。
所述步骤2中,由于蒙古语语料信息不足,将已获取的含有表情符的中文语料 进行机器翻译转化成蒙古语语料,达到扩充蒙古语预料的目的。
所述步骤3中,采用jieba分词和正则化的字节对编码技术(BPE)分词技术对 预处理的语料信息进行切分操作,利用GloVe模型将文本语料和表情符训练生 成对应的词向量,二者拼接形成新的词向量,并对新的词向量采用贪心处理方 式进一步发现未登录词,修正切分结果。
所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词 向量,F(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数, Xi=∑jXij;
对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个 词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后 的词向量为二者加和归一化的结果,计算公式为:
所述步骤4中,利用python编译器TensorFlow框架里面的拼接方法,将生成了 文本词向量和表情符词向量进行拼接操作,得到新的词向量new_wordvector:
new_wordvector =tensorflow.concat([Text_wordvector,emoji_wordvector],1)
所述步骤5中,使用注意力机制对编码器所有时间步的隐藏状态做加权平均来 得到背景变量,解码器在每一时间步调整这些权重,即注意力权重。设输入序 列的索引t,输出序列索引t′,即在时间步t′的隐藏状态为:
st′=g(yt′-1,c,st′-1)
其中,yt′-1是上一时间步t′-1的输出yt′-1的表征,且任一时间步t′使用相同的 背景变量c。
首先,函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的 隐藏状态计算softmax运算的输入,softmax运算输出概率分布并对编码器各 个时间步的隐藏状态做加权平均,从而得到背景变量。令编码器在时间步t的隐 藏状态为ht,且总时间步数为T,那么解码器在时间步t′的背景变量为所有编码 器隐藏状态的加权平均:
其中给定t′时,权重at′t在t=1,...,T的值是一个概率分布,可以使用 softmax运算,得到概率分布:
其中,et′t同时取决于解码器的时间步t′和编码器的时间步t,设解码器在时 间步t′-1的隐藏状态st′-1与编码器在时间步t的隐藏状态ht为输入,通过函数 a计算et′t:
et′t=a(st′-1,ht)
所述步骤6中,分别创建蒙古语情感词典和表情符的情感词典作为模型的先验 知识。其中,文本情感词典包含happiness、like、sadness、surprise、disgust、fear、 anger七种情感的情感词语,如,喜悦、欢喜、笑眯眯、欢天喜地等词汇属于文 本情感库里happiness的情感类别,气愤、恼火、大发雷霆、七窍生烟等词汇属 于文本情感库里anger的情感类别, 等表情符属于表情符情感词典库里happiness的情感类别。
所述步骤7中,使用融合先验知识的预训练模型RoBERT及XLNet中的ELMO 方法将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量, 其中所述ELMO模型为一个双层双向的LSTM训练语言模型,一个词得到三个 嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最 终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
所述步骤8中,准确率的计算公式精确率的计算公式为 召回率的计算公式为F1值的计算公式为其中Acc 表示准确率,P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正 例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为 正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN 表示实际为负例,且被模型预测为负例的样本数,所述准确率、精确率、召回 率和F1值的分数越高说明情感分析模型性能越好。
与现有技术相比,本发明的有益效果是:
(1)本发明中文语料通过机器翻译成蒙古语语料,采用Jieba分词和正则化的 BPE技术相结合以及词向量修正方法结合,更好的缓解因蒙古语语法的复杂性 而出现的未登录词问题。
(2)本发明通过预训练模型分别将文本和表情符表示成向量的形式,并将二者 拼接成向量作为每条数据的向量特征,以充分利用原始数据中的文本和表情符 的情感特征,达到多方位分析情感目标的目的。
(3)本发明通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识,充分利用了蒙古语情感词汇及含有情感表情符的重要情感特征,以提 高蒙古语文本情感分析的质量。
附图说明
图1是实现一种融合先验知识模型的蒙古语多模态细粒度情感分析方法的流程图。
图2是文本词向量和表情符词向量拼接结构图。
图3是注意力机制模型结构图。
图4是ELMO模型结构图。
图5是融合先验知识模型的蒙古语多模态细粒度情感分析示意图
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1-2所示,本发明一种融合先验知识模型的蒙古语多模态细粒度情感分析方法,过程如下:
第一步:对中文和蒙古语情感文本语料库进行预处理,预处理是对所获取的语 料进行数据清洗,包括移除用户名信息、移除URLS、移除特殊字符等步骤。
第二步:由于蒙古语语料信息不足,将已获取的含有表情符的中文语料进行机 器翻译转化成蒙古语语料,达到扩充蒙古语预料的目的。
第三步:在进行模型训练之前,应对情感文本语料库进行预处理。本发明使用 中文的jieba分词和正则化的字节对编码技术(BPE)对语料进行切分操作,其 中jiaba分词主要用于处理中文语料,而BPE分词技术主要用于处理英文语料, 但对于蒙古语这样的小语种来说,没有特定的分词技术,从字符构成、实验分 析等角度表明,使用中文的jieba分词和正则化的字节对编码技术(BPE)对语 料进行切分操作效率更高,其中,jieba分词主要通过词典来进行分词及词性标 注,分词的结果优劣将很大程度上取决于词典,BPE技术是用一个没有在这个 字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程, 所以通过对蒙古语词汇进行词干和词缀的切分,能够让高频词保留至词典中, 而低频词被切分为更小粒度的子单元,从而缓解数据稀疏,减少未登录词。具 体步骤为:
1、将语料库中所有字符加入字典中作为初始化字典,把所有单词变成字符分割的形式,并在末尾加入标记,方便在输入句子后回复分词信息;
2、对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;
3、对上一步操作迭代n次,直到已经进行了一定数量的合并操作;
4、字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并操作 次数n。
随着互联网的发展使得新词不断涌现,只基于词频而不考虑词的语法、语义信 息的切分方法准确率不高。因此,为了提升切分性能,在采用jieba分词和正则 化的BPE分词环节之后,本发明选择使用GloVe模型训练生成词向量,并使用 词向量结果贪心地发现未登录词,修正切分结果。
GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需 要根据语料构建词语的共现矩阵,共现矩阵统计的是词语在给定中心词和窗口 大小的限制环境下的共现次数,因此在一定程度上可以表达词语之间的关系。 由于共现频数是在整个语料库中进行统计的,不只是针对一句话或者一段语料, 所以具有全局性。对于表达意义相近的词而言,它们之间的“距离”也较其他的词 更近。
使用GloVe模型得到的词向量进行切分修正的基本原理为:如果词wi和词wj同 时出现的频率较高,那么二者以较大的概率可以组合成新词wiwj。通过GloVe 模型生成的词向量具有以下性质:如果词wi和词wj有很大可能可以组成新词 wiwj,那么这两个词对应的词向量Wi和Wj之间的夹角θ的余弦值会接近1。
根据上述原理,可以采用如下贪婪方法进行修正,具体步骤为:
1、将通过jieba分词和正则化的BPE分词技术切分好的词转换为词向量,使用GloVe模型训练词向量的目标函数为:
式中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词 向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
式中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数, Xi=∑jXij;
2、对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一 个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
3、若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合 后的词向量为二者加和归一化的结果,计算公式为:
4、利用python编译器TensorFlow框架里面的拼接方法,将生成了文本词向量 和表情符词向量进行拼接操作,得到新的词向量new_wordvector:
new_wordvector =tensorflow.concat([Text_wordvector,emoji_wordvector],1)
第四步:分别将经过预处理得到的文本词转换为动态词向量,表情符转换为动 态词向量。
本发明使用预训练模型中的ELMO方法将经过预处理得到的词转换为计算机能 识别和处理的语言,即动态词向量。如图4所示,ELMO模型为一个双层双向 的LSTM训练语言模型,每一个词向量经过ELMO模型都会得到三个嵌入向量: 最底层的向量表示单词特征;第一层的双向LSTM表示句法特征;第二层的双 向LSTM表示语义特征,最终通过权重矩阵来调整这三个向量。ELMO通过多 层词向量的融合动态的调整同一词在不同上下文环境中的表示,最终得到的词 向量能够兼顾包括句法、语义等在内的多层次信息,更好地解决一词多义问题。 第五步:使用注意力机制对编码器所有时间步的隐藏状态做加权平均来得到背景变量,解码器在每一时间步调整这些权重,即注意力权重。设输入序列的索 引t,输出序列索引t′,即在时间步t′的隐藏状态为:
st′=g(yt′-1,c,st′-1)
其中,yt′-1是上一时间步t′-1的输出yt′-1的表征,且任一时间步t′使用相同的 背景变量c。
如图3所示,首先,函数a根据解码器在时间步1的隐藏状态和编码器在各 个时间步的隐藏状态计算softmax运算的输入,softmax运算输出概率分布并 对编码器各个时间步的隐藏状态做加权平均,从而得到背景变量。令编码器在 时间步t的隐藏状态为ht,且总时间步数为T,那么解码器在时间步t′的背景变 量为所有编码器隐藏状态的加权平均:
其中给定t′时,权重at′t在t=1,...,T的值是一个概率分布,可以使用 softmax运算,得到概率分布:
其中,et′t同时取决于解码器的时间步t′和编码器的时间步t,设解码器在时 间步t′-1的隐藏状态st′-1与编码器在时间步t的隐藏状态ht为输入,通过函数 a计算et′t:
et′t=a(st′-1,ht)
第六步:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。 其中,文本情感词典包含happiness、like、sadness、surprise、disgust、fear、anger 七种情感的情感词语,如,喜悦、欢喜、笑眯眯、欢天喜地等词汇属于文本情 感库里happiness的情感类别,气愤、恼火、大发雷霆、七窍生烟等词汇属于文 本情感库里anger的情感类别, 等表情符属于表情符情感词典库里happiness的情感类别。
第七步:本发明采用融合先验知识的预训练模型,其中预训练模型分别为 FOPK+RoBERT、FOPK+XLNet,其本质是一个双向的LSTM网络,LSTM网络 充分利用上下文信息抽取到高层的抽象特征。LSTM神经网络按照句子输入的 顺序读取输入X=x1x2…xn,x1表示输入的第1个词向量,xj表示输入的第j个 词向量,并计算出隐层状态(h1h2…hn),h1表示隐层状态的第1个语义向量元素, hj表示隐层状态的第j个语义向量元素。
LSTM网络中包含一个记忆单元C和三个门结构:遗忘门f、输入门i和输出门 o,用于控制信息的传递和遗忘。LSTM网络结构如图5所示,xt是当前时刻的 输入,ht-1是上一时刻隐藏层的状态。遗忘门决定了上一时刻的记忆单元有多少 保留到当前时刻,输入门决定了当前时刻的输入有多少保留到当前时刻,输出 门控制记忆单元有多少可以被输出。LSTM网络的关键就是单元状态,是在图上 方贯穿运行的那条水平线,它类似于一个传送带,可以控制信息传递给下一时 刻。LSTM的计算步骤为:
1、保留上一时刻的信息,即决定上一时刻的单元状态Ct-1有多少保留到当前时 刻Ct。这个决定由遗忘门来控制,它会根据上一时刻的输出ht-1和当前输入xt产生一个0到1的ft值,来决定是否让上一时刻的记忆单元信息Ct-1保留或部分 保留。ft值的计算公式为:
ft=σ(Wfhht-1+Wfxxt+bf)
其中,Wfh和Wfx为权重矩阵;bf为偏移值;σ为sigmoid激活函数。若ft的值为 0,则表示完全遗忘;若ft的值为0-1之间,则表示部分保留;若ft的值为1,则 表示完全保留。
2、产生需要更新的新信息,即决定当前时刻网络的输入xt有多少保留到当前时刻Ct。这一步包含两部分,第一部分是输入门决定什么值需要更新,表示要以 多大概率来更新信息;第二部分是创建一个新的候选值向量表示现在的全部 信息。it和值的计算公式为:
it=σ(Wihht-1+Wixxt+bi)
其中,Wih、Wix、Wch和Wcx为权重矩阵;bi和bc为偏移值;σ为sigmoid激活函 数;tanh为双曲正切函数。输入门it控制当前时刻的候选状态有多少信息需要 保存,若it的值为0,则表示完全遗忘;若it的值为0-1之间,则表示部分保留; 若it的值为1,则表示完全保留。
3、更新单元状态。将第一步和第二步结合起来,丢掉不需要的信息并添加新信息。新的单元状态Ct的计算公式为:
4、输出信息,即当前单元状态Ct有多少被输出。
ot=σ(Wohht-1+Woxxt+bo)
ht=ot⊙tanh(Ct)
其中,Woh和Wox为权重矩阵;bo为偏移值;σ为sigmoid激活函数;tanh为双 曲正切函数。
使用LSTM被普遍认为可以缓解梯度消失和信息遗忘的问题,从而更好地建模 长距离语义。但是,注意到在LSTM中,当前的输入和前一步隐藏层的状态是 相互独立的,它们只在门中进行交互,在这之前缺乏交互,这就可能会导致上 下文信息的丢失。图4是ELMO模型结构图,图5是融合先验知识模型的蒙古 语多模态细粒度情感分析示意图。
第八步:将将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比 和评价,以达到提高蒙古语文本情感分析性能的目的。
其中准确率的计算公式精确率的计算公式为召 回率的计算公式为F1值的计算公式为其中Acc表示准 确率,指的是在预测所有样本中,预测为正例样本,实际为正例样本,预测为 负例样本。实际为负例样本的比例,P表示精确率,指的是在预测为正例的样本 中,实际为正例所占的比例,R表示召回率,指的是在实际的正例样本中,预测 为正例所占的比例,通常情况下,精确率和召回率是相互矛盾的,即提高一个 指标会导致另一个指标的下降。F1表示F1值,为了权衡精确率和召回率,F1 值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例,且被 模型预测为正例的样本数量;FN(False Negative)表示被模型预测为负例,但 实际上为正例的样本数量;FP(False Positive)表示被模型预测为正例,但实际 上为负例的样本数量;TN(True Negative)表示实际为负例,且被模型预测为 负例的样本数,精确率、召回率和F1值的分数越高说明情感分析模型性能越好。 表1给出了计算中所需的混淆矩阵:
表1混淆矩阵
预测为正例 | 预测为负例 | |
实际为正例 | TP | FN |
预测为负例 | FP | TN |
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员 来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部 分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、 等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,包括如下步骤:
步骤1:对含有表情符的中文和蒙古语情感语料库进行预处理;
步骤2:通过机器翻译技术将含有表情符的中文语料翻译成蒙古语语料;
步骤3:用融合jieba分词和正则化的BPE分词技术对蒙古语语料进行分词;
步骤4:将分词得到的蒙古语文本语料和表情符表示成动态词向量并将二者拼接成新的词向量;
步骤5:引入注意力机制对新的词向量分配不同的权重,有侧重点地提取情感特征;
步骤6:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识;
步骤7:将融合先验知识的模型在大规模的语料进行预训练,得到融合先验知识模型的蒙古语多模态细粒度情感分析模型;
步骤8:将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价。
2.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述步骤1中,预处理是对所获取的语料进行数据清洗,包括移除用户名信息、移除URLS、移除特殊字符的步骤;所述步骤2中,通过已获取的含有表情符的中文语料进行机器翻译转化成蒙古语语料。
3.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,采用jieba分词和正则化的字节对编码技术分词技术对预处理的语料信息进行切分操作,利用GloVe模型将文本语料和表情符训练生成对应的词向量,二者拼接形成新的词向量,并对新的词向量采用贪心处理方式进一步发现未登录词,修正切分结果。
4.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果γ=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
利用python编译器TensorFlow框架里面的拼接方法,将生成了文本词向量和表情符词向量进行拼接操作,得到新的词向量new_wordvector:
new_wordvector
=tensorflow.concat([Text_wordvector,emoji_wordvector],1)
5.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述步骤5中,使用注意力机制对编码器所有时间步的隐藏状态做加权平均来得到背景变量,解码器在每一时间步调整这些权重,即注意力权重。设输入序列的索引t,输出序列索引t′,即在时间步t′的隐藏状态为:
st′=g(yt′-1,c,st′-1)
其中,yt′-1是上一时间步t′-1的输出yt′-1的表征,且任一时间步t′使用相同的背景变量c;
首先,函数a根据解码器在时间步1的隐藏状态和编码器在各个时间步的隐藏状态计算softmax运算的输入,softmax运算输出概率分布并对编码器各个时间步的隐藏状态做加权平均,从而得到背景变量;令编码器在时间步t的隐藏状态为ht,且总时间步数为T,那么解码器在时间步t′的背景变量为所有编码器隐藏状态的加权平均:
其中给定t′时,权重at′t在t=1,...,T的值是一个概率分布,可以使用softmax运算,得到概率分布:
其中,et′t同时取决于解码器的时间步t′和编码器的时间步t,设解码器在时间步t′-1的隐藏状态st′-1与编码器在时间步t的隐藏状态ht为输入,通过函数a计算et′t:
et′t=a(st′-1,ht)。
6.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述步骤6中,分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。
7.根据权利要求5所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,其特征在于,所述步骤7中,使用融合先验知识的预训练模型FOPK+RoBERT及FOPK+XLNet中的ELMO方法将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量,其中所述ELMO模型为一个双层双向的LSTM训练语言模型,一个词得到三个嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
8.根据权利要求6或7所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,采用集成模型的思想,将融合文本情感词典和表情符情感词典的先验知识预训练FOPK+RoBERT和FOPK+XLNet模型作为最终情感分析模型,提取相关情感特征。
9.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述步骤7中,利用大规模蒙古文多模态情感语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将大规模情感分析模型中训练好的网络参数权重迁移到特定蒙古语多模态情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765525.4A CN113609849A (zh) | 2021-07-07 | 2021-07-07 | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765525.4A CN113609849A (zh) | 2021-07-07 | 2021-07-07 | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609849A true CN113609849A (zh) | 2021-11-05 |
Family
ID=78337349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765525.4A Pending CN113609849A (zh) | 2021-07-07 | 2021-07-07 | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609849A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153973A (zh) * | 2021-12-07 | 2022-03-08 | 内蒙古工业大学 | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 |
CN115204183A (zh) * | 2022-09-19 | 2022-10-18 | 华南师范大学 | 基于知识增强的双通道情感分析方法、装置以及设备 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN112101047A (zh) * | 2020-08-07 | 2020-12-18 | 江苏金陵科技集团有限公司 | 一种面向小语种包含精确术语匹配的机器翻译方法 |
CN112163607A (zh) * | 2020-09-17 | 2021-01-01 | 平顶山学院 | 基于多维度和多层次联合建模的网络社会媒体情感分类方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
-
2021
- 2021-07-07 CN CN202110765525.4A patent/CN113609849A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN112101047A (zh) * | 2020-08-07 | 2020-12-18 | 江苏金陵科技集团有限公司 | 一种面向小语种包含精确术语匹配的机器翻译方法 |
CN112163607A (zh) * | 2020-09-17 | 2021-01-01 | 平顶山学院 | 基于多维度和多层次联合建模的网络社会媒体情感分类方法 |
CN112541364A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 融合多层次语言特征知识的汉越神经机器翻译的方法 |
Non-Patent Citations (2)
Title |
---|
DZMITRY BAHDANAU等: "NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE", 《ICLR 2015》, pages 1 - 15 * |
许峰等: "基于深度神经网络模型的中文分词方案", 哈尔滨工程大学学报》, vol. 40, no. 9, pages 1662 - 1666 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153973A (zh) * | 2021-12-07 | 2022-03-08 | 内蒙古工业大学 | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 |
CN115204183A (zh) * | 2022-09-19 | 2022-10-18 | 华南师范大学 | 基于知识增强的双通道情感分析方法、装置以及设备 |
CN115204183B (zh) * | 2022-09-19 | 2022-12-27 | 华南师范大学 | 基于知识增强的双通道情感分析方法、装置以及设备 |
CN116738359A (zh) * | 2023-05-23 | 2023-09-12 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
Zhang et al. | A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109308353B (zh) | 词嵌入模型的训练方法及装置 | |
CN113609849A (zh) | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN108415906B (zh) | 基于领域自动识别篇章机器翻译方法、机器翻译系统 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN109858034B (zh) | 一种基于注意力模型和情感词典的文本情感分类方法 | |
WO2023134083A1 (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
Satapathy et al. | Seq2seq deep learning models for microtext normalization | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112818118A (zh) | 基于反向翻译的中文幽默分类模型 | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
CN114153973A (zh) | 基于t-m bert预训练模型的蒙古语多模态情感分析方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN115292485A (zh) | 一种基于SKEP-ERNIE-BiGRU网络模型结构的情感分类方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211105 |