CN113377901B - 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 - Google Patents
一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 Download PDFInfo
- Publication number
- CN113377901B CN113377901B CN202110533016.9A CN202110533016A CN113377901B CN 113377901 B CN113377901 B CN 113377901B CN 202110533016 A CN202110533016 A CN 202110533016A CN 113377901 B CN113377901 B CN 113377901B
- Authority
- CN
- China
- Prior art keywords
- emotion
- text
- mongolian
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 109
- 238000004458 analytical method Methods 0.000 title claims abstract description 77
- 239000013598 vector Substances 0.000 claims abstract description 85
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013526 transfer learning Methods 0.000 claims abstract description 6
- 238000003012 network analysis Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000014759 maintenance of location Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,对中文和蒙古语情感文本语料库进行预处理;将经过预处理得到的词转换为动态词向量;由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;将二者提取的特征拼接作为模型最终提取的情感特征;采用迁移学习策略将大规模中文情感文本语料作为训练集,并将训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,利用预处理的蒙古语情感文本语料训练得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于多尺寸CNN和LSTM 模型的蒙古语文本情感分析方法。
背景技术
随着互联网技术的快速发展,越来越多的人开始在诸如微博、论坛、影视网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点和意见。并且用户发表的这些内容可能包含不同的感情色彩:有积极的或是消极的;支持的亦或是反对的。情感分析的核心是将一段文本所表达的情感分为正向和负向两类,其研究价值在商品评论及推荐、舆情监控、信息预测等方面已经得到了充分的体现。
随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说,现有的文本情感分析方法存在以下三点不足。其一,由于蒙古语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。其二,深度学习作为一种数据驱动的方法,只有当训练语料库达到一定的要求,深度学习模型才会表现出较好的分析效果。但可以收集到的蒙古语语料资源相对较少,因此无法满足深度神经网络模型训练的要求。其三,目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性,不能同时提取文本的局部和全局信息,导致分类效果不佳。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,具有以下三个特点:第一,将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第二,将提取局部特征的多尺寸CNN网络和提取文本序列特征的mLSTM网络融合,以提高蒙古语文本情感分析的质量;第三,采用迁移学习策略将大量中文情感文本语料训练得到网络参数权重迁移至蒙古语文本情感分析模型中,再利用蒙古语情感文本语料训练得到蒙古语文本情感分析模型,从而解决蒙古语语料库不足的问题,达到提升蒙古语文本情感分析性能的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN 网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
所述步骤1中,预处理是使用字节对编码技术(BPE)对语料进行切分操作,然后利用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果。
所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
所述步骤2中,使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量,其中所述ELMO模型为一个双层双向的 LSTM训练语言模型,一个词得到三个嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
所述步骤3中,将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,判定正面/负面情感。
所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取, CNN在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务,文本的最小粒度是词,所以卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征;通过卷积核的滑动遍历数据集后,得到n-h+1个特征,并组合成一个特征集合 C=[c1c2…cn-h+1],其中n是词向量的个数,h是卷积核大小;使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,其交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl通常表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的 LSTM;mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量 outputmLSTM=[h1h2…hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出。
本发明采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
其中,outputfinal为模型最终提取的情感特征。
所述步骤4中,利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
所述步骤5中,精确率的计算公式为召回率的计算公式为F1值的计算公式为其中P表示精确率,R表示召回率, F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
与现有技术相比,本发明的有益效果是:
(1)本发明将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。
(2)本发明将提取局部特征的多尺寸CNN网络和提取文本序列特征的 mLSTM网络融合,并行的网络结构从局部和全局两个方面提取特征,以提高蒙古语文本情感分析的质量。
(3)本发明使用迁移学习策略把在中文文本情感分析模型中训练好的参数权重迁移到蒙古语文本情感分析模型中,在一定程度上缓解了蒙古语语料库不足的问题,达到提升蒙古语文本情感分析性能的目标。
附图说明
图1是实现基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法的流程图。
图2是ELMO模型结构图。
图3多尺寸CNN-mLSTM并行网络结构图。
图4多尺寸CNN网络结构图。
图5是LSTM网络结构图。
图6是mLSTM网络交互方式示意图。
图7是迁移学习策略示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,过程如下:
第一步:对中文和蒙古语情感文本语料库进行预处理。
在进行模型训练之前,应对情感文本语料库进行预处理。本发明使用字节对编码技术(BPE)对语料进行切分操作,由于BPE技术是用一个没有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程,所以通过对蒙古语词汇进行词干和词缀的切分,能够让高频词保留至词典中,而低频词被切分为更小粒度的子单元,从而缓解数据稀疏,减少未登录词。具体步骤为:
1、将语料库中所有字符加入字典中作为初始化字典,把所有单词变成字符分割的形式,并在末尾加入标记,方便在输入句子后回复分词信息;
2、对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;
3、对上一步操作迭代n次,直到已经进行了一定数量的合并操作;
4、字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并操作次数n。
随着互联网的发展使得新词不断涌现,只基于词频而不考虑词的语法、语义信息的切分方法准确率不高,例如将切分成 因此,为了提升切分性能,在BPE环节之后,本发明选择使用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果。
GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需要根据语料构建词语的共现矩阵,共现矩阵统计的是词语在给定中心词和窗口大小的限制环境下的共现次数,因此在一定程度上可以表达词语之间的关系。由于共现频数是在整个语料库中进行统计的,不只是针对一句话或者一段语料,所以具有全局性。对于表达意义相近的词而言,它们之间的“距离”也较其他的词更近。例如“人民政府”一词周围的词语有“市政府”,“政府”,“行政”等;“科学研究”一词周围的词语有“科研”,“科学技术”,“研究”等。通过GloVe模型训练得到的词向量包含良好的语法、语义信息。
使用GloVe模型得到的词向量进行切分修正的基本原理为:如果词wi和词 wj同时出现的频率较高,那么二者以较大的概率可以组合成新词wiwj。通过 GloVe模型生成的词向量具有以下性质:如果词wi和词wj有很大可能可以组成新词wiwj,那么这两个词对应的词向量Wi和Wj之间的夹角θ的余弦值会接近1。
根据上述原理,可以采用如下贪婪方法进行修正,具体步骤为:
1、将通过BPE技术切分好的词转换为词向量,使用GloVe模型训练词向量的目标函数为:
式中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
式中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
2、对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
3、若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
第二步:将经过预处理得到的词转换为动态词向量。
本发明使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量。如图2所示,ELMO模型为一个双层双向的LSTM训练语言模型,每一个词向量经过ELMO模型都会得到三个嵌入向量:最底层的向量表示单词特征;第一层的双向LSTM表示句法特征;第二层的双向LSTM 表示语义特征,最终通过权重矩阵来调整这三个向量。ELMO通过多层词向量的融合动态的调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义等在内的多层次信息,更好地解决一词多义问题。
第三步:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型,模型结构如图3所示。其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM则用于提取文本序列特征,从而更好地建模长距离语义。
CNN可以在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务,文本的最小粒度是词,所以卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征。多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取,使得卷积核有更广阔的视野。例如:“我不是特别喜欢这部电影”,文本带有明显的负面色彩,为了详细捕捉到短句信息:“特别喜欢”这个特征,需要较小尺寸的卷积核,但是为了捕捉到长句信息:“不是特别喜欢”又必须使用较大尺寸的卷积核。如图4所示的多个尺寸的卷积核同时进行卷积,获取到不同尺度的特征。多尺寸CNN网通过卷积核的滑动遍历数据集后,可以得到n-h+1个特征,这些组合成一个特征集合C=[c1c2…cn-h+1],其中n是词向量的个数,h是卷积核大小。而使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
LSTM网络充分利用上下文信息抽取到高层的抽象特征。LSTM神经网络按照句子输入的顺序读取输入X=x1x2…xn,x1表示输入的第1个词向量,xj表示输入的第j个词向量,并计算出隐层状态(h1h2…hn),h1表示隐层状态的第1个语义向量元素,hj表示隐层状态的第j个语义向量元素。
LSTM网络中包含一个记忆单元C和三个门结构:遗忘门f、输入门i和输出门o,用于控制信息的传递和遗忘。LSTM网络结构如图5所示,xt是当前时刻的输入,ht-1是上一时刻隐藏层的状态。遗忘门决定了上一时刻的记忆单元有多少保留到当前时刻,输入门决定了当前时刻的输入有多少保留到当前时刻,输出门控制记忆单元有多少可以被输出。LSTM网络的关键就是单元状态,是在图上方贯穿运行的那条水平线,它类似于一个传送带,可以控制信息传递给下一时刻。LSTM的计算步骤为:
1、保留上一时刻的信息,即决定上一时刻的单元状态Ct-1有多少保留到当前时刻Ct。这个决定由遗忘门来控制,它会根据上一时刻的输出ht-1和当前输入xt产生一个0到1的ft值,来决定是否让上一时刻的记忆单元信息Ct-1保留或部分保留。ft值的计算公式为:
ft=σ(Wfhht-1+Wfxxt+bf)
其中,Wfh和Wfx为权重矩阵;bf为偏移值;σ为sigmoid激活函数。若ft的值为0,则表示完全遗忘;若ft的值为0-1之间,则表示部分保留;若ft的值为 1,则表示完全保留。
2、产生需要更新的新信息,即决定当前时刻网络的输入xt有多少保留到当前时刻Ct。这一步包含两部分,第一部分是输入门决定什么值需要更新,表示要以多大概率来更新信息;第二部分是创建一个新的候选值向量表示现在的全部信息。it和值的计算公式为:
it=σ(Wihht-1+Wixxt+bi)
其中,Wih、Wix、Wch和Wcx为权重矩阵;bi和bc为偏移值;σ为sigmoid激活函数;tanh为双曲正切函数。输入门it控制当前时刻的候选状态有多少信息需要保存,若it的值为0,则表示完全遗忘;若it的值为0-1之间,则表示部分保留;若it的值为1,则表示完全保留。
3、更新单元状态。将第一步和第二步结合起来,丢掉不需要的信息并添加新信息。新的单元状态Ct的计算公式为:
4、输出信息,即当前单元状态Ct有多少被输出。
ot=σ(Wohht-1+Woxxt+bo)
ht=ot⊙tanh(Ct)
其中,Woh和Wox为权重矩阵;bo为偏移值;σ为sigmoid激活函数;tanh 为双曲正切函数。
使用LSTM被普遍认为可以缓解梯度消失和信息遗忘的问题,从而更好地建模长距离语义。但是,注意到在LSTM中,当前的输入和前一步隐藏层的状态是相互独立的,它们只在门中进行交互,在这之前缺乏交互,这就可能会导致上下文信息的丢失。
mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,图6展示了多轮交互的过程,其具体的交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl通常表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的 LSTM。
mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量 outputmLSTM=[h1h2…hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出。
文本向量分别进入多尺寸CNN网络和mLSTM网络学习后,本发明采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
式中,outputfinal为模型最终提取的情感特征。通过将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,从而可以判定正面/负面情感。
通过并行网络结构从局部和全局两个方面进行特征提取,可提高蒙古语文本情感分析的质量。
第四步:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型。
深度学习作为一种数据驱动的方法,只有当训练语料库达到一定的要求,深度学习模型才会表现出较好的分析效果。但少数民族地区可以收集到的语料资源相对较少,因此无法满足深度神经网络模型训练的要求。迁移学习策略将训练模型A获取的知识存储下来,应用于新的任务中,即对模型B的训练,以达到提高模型B性能的目的,图7为迁移学习策略示意图。本发明利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
第五步:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
表1给出了计算中所需的混淆矩阵:
表1混淆矩阵
预测为正例 | 预测为负例 | |
实际为正例 | TP | FN |
预测为负例 | FP | TN |
其中精确率的计算公式为召回率的计算公式为F1 值的计算公式为其中P表示精确率,指的是在预测为正例的样本中,实际为正例所占的比例,R表示召回率,指的是在实际的正例样本中,预测为正例所占的比例,通常情况下,精确率和召回率是相互矛盾的,即提高一个指标会导致另一个指标的下降。F1表示F1值,为了权衡精确率和召回率,F1值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例,且被模型预测为正例的样本数量;FN(False Negative)表示被模型预测为负例,但实际上为正例的样本数量;FP(False Positive)表示被模型预测为正例,但实际上为负例的样本数量;TN(True Negative)表示实际为负例,且被模型预测为负例的样本数,精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
Claims (5)
1.一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
所述预处理是使用字节对编码技术对语料进行切分操作,然后利用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果;
所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果Y=w1 w2 … wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
其中,将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,判定正面/负面情感;
所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取,卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征,通过卷积核的滑动遍历数据集后,得到n-h+1个特征,并组合成一个特征集合C=[c1 c2 … cn-h+1],其中n是词向量的个数,h是卷积核大小;使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,其交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的LSTM;mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量outputmLSTM=[h1 h2 … hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
2.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,所述步骤2中,使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量,其中所述ELMO模型为一个双层双向的LSTM训练语言模型,一个词得到三个嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
3.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
其中,outputfinal为模型最终提取的情感特征。
4.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,所述步骤4中,利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110533016.9A CN113377901B (zh) | 2021-05-17 | 2021-05-17 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110533016.9A CN113377901B (zh) | 2021-05-17 | 2021-05-17 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377901A CN113377901A (zh) | 2021-09-10 |
CN113377901B true CN113377901B (zh) | 2022-08-19 |
Family
ID=77571065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110533016.9A Expired - Fee Related CN113377901B (zh) | 2021-05-17 | 2021-05-17 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377901B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738359B (zh) * | 2023-05-23 | 2024-07-09 | 内蒙古工业大学 | 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN110287320A (zh) * | 2019-06-25 | 2019-09-27 | 北京工业大学 | 一种结合注意力机制的深度学习多分类情感分析模型 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105957518B (zh) * | 2016-06-16 | 2019-05-31 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN108875021A (zh) * | 2017-11-10 | 2018-11-23 | 云南大学 | 一种基于区域cnn-lstm的情感分析方法 |
KR102008845B1 (ko) * | 2017-11-30 | 2019-10-21 | 굿모니터링 주식회사 | 비정형 데이터의 카테고리 자동분류 방법 |
CN109376775B (zh) * | 2018-10-11 | 2021-08-17 | 南开大学 | 在线新闻多模态情感分析方法 |
CN109508462B (zh) * | 2018-10-25 | 2020-07-17 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN109902177B (zh) * | 2019-02-28 | 2022-11-29 | 上海理工大学 | 基于双通道卷积记忆神经网络的文本情感分析方法 |
US20200364303A1 (en) * | 2019-05-15 | 2020-11-19 | Nvidia Corporation | Grammar transfer using one or more neural networks |
CN110334187A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于迁移学习的缅语情感分析方法及装置 |
CN111339772B (zh) * | 2020-03-16 | 2023-11-14 | 大连外国语大学 | 俄语文本情感分析方法、电子设备和存储介质 |
-
2021
- 2021-05-17 CN CN202110533016.9A patent/CN113377901B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110287320A (zh) * | 2019-06-25 | 2019-09-27 | 北京工业大学 | 一种结合注意力机制的深度学习多分类情感分析模型 |
CN111767741A (zh) * | 2020-06-30 | 2020-10-13 | 福建农林大学 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113377901A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN107025284B (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109308353B (zh) | 词嵌入模型的训练方法及装置 | |
CN111563164A (zh) | 一种基于图神经网络的特定目标情感分类方法 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN109190126B (zh) | 词嵌入模型的训练方法及装置 | |
CN110889282B (zh) | 一种基于深度学习的文本情感分析方法 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN111666752B (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
CN113609849A (zh) | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
Tao et al. | News text classification based on an improved convolutional neural network | |
CN112199503A (zh) | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220819 |
|
CF01 | Termination of patent right due to non-payment of annual fee |