CN113377901B - 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 - Google Patents

一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 Download PDF

Info

Publication number
CN113377901B
CN113377901B CN202110533016.9A CN202110533016A CN113377901B CN 113377901 B CN113377901 B CN 113377901B CN 202110533016 A CN202110533016 A CN 202110533016A CN 113377901 B CN113377901 B CN 113377901B
Authority
CN
China
Prior art keywords
emotion
text
mongolian
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110533016.9A
Other languages
English (en)
Other versions
CN113377901A (zh
Inventor
仁庆道尔吉
尹玉娟
麻泽蕊
李媛
程坤
苏依拉
李雷孝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202110533016.9A priority Critical patent/CN113377901B/zh
Publication of CN113377901A publication Critical patent/CN113377901A/zh
Application granted granted Critical
Publication of CN113377901B publication Critical patent/CN113377901B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,对中文和蒙古语情感文本语料库进行预处理;将经过预处理得到的词转换为动态词向量;由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;将二者提取的特征拼接作为模型最终提取的情感特征;采用迁移学习策略将大规模中文情感文本语料作为训练集,并将训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,利用预处理的蒙古语情感文本语料训练得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。

Description

一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法
技术领域
本发明属于人工智能技术领域,特别涉及一种基于多尺寸CNN和LSTM 模型的蒙古语文本情感分析方法。
背景技术
随着互联网技术的快速发展,越来越多的人开始在诸如微博、论坛、影视网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点和意见。并且用户发表的这些内容可能包含不同的感情色彩:有积极的或是消极的;支持的亦或是反对的。情感分析的核心是将一段文本所表达的情感分为正向和负向两类,其研究价值在商品评论及推荐、舆情监控、信息预测等方面已经得到了充分的体现。
随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说,现有的文本情感分析方法存在以下三点不足。其一,由于蒙古语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。其二,深度学习作为一种数据驱动的方法,只有当训练语料库达到一定的要求,深度学习模型才会表现出较好的分析效果。但可以收集到的蒙古语语料资源相对较少,因此无法满足深度神经网络模型训练的要求。其三,目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性,不能同时提取文本的局部和全局信息,导致分类效果不佳。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,具有以下三个特点:第一,将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第二,将提取局部特征的多尺寸CNN网络和提取文本序列特征的mLSTM网络融合,以提高蒙古语文本情感分析的质量;第三,采用迁移学习策略将大量中文情感文本语料训练得到网络参数权重迁移至蒙古语文本情感分析模型中,再利用蒙古语情感文本语料训练得到蒙古语文本情感分析模型,从而解决蒙古语语料库不足的问题,达到提升蒙古语文本情感分析性能的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN 网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
所述步骤1中,预处理是使用字节对编码技术(BPE)对语料进行切分操作,然后利用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果。
所述利用GloVe训练生成词向量的目标函数J(W)为:
Figure RE-GDA0003159522040000031
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
Figure RE-GDA0003159522040000032
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij
对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
Figure RE-GDA0003159522040000033
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
Wi=null
Figure RE-GDA0003159522040000034
利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果
Figure RE-GDA0003159522040000035
其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果
Figure RE-GDA0003159522040000036
中的词向量的个数。
所述步骤2中,使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量,其中所述ELMO模型为一个双层双向的 LSTM训练语言模型,一个词得到三个嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
所述步骤3中,将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,判定正面/负面情感。
所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取, CNN在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务,文本的最小粒度是词,所以卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征;通过卷积核的滑动遍历数据集后,得到n-h+1个特征,并组合成一个特征集合 C=[c1c2…cn-h+1],其中n是词向量的个数,h是卷积核大小;使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出
Figure RE-GDA0003159522040000041
不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
Figure RE-GDA0003159522040000042
Figure RE-GDA0003159522040000043
所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,其交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl通常表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的 LSTM;mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量 outputmLSTM=[h1h2…hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出。
本发明采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
其中,outputfinal为模型最终提取的情感特征。
所述步骤4中,利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
所述步骤5中,精确率的计算公式为
Figure RE-GDA0003159522040000051
召回率的计算公式为
Figure RE-GDA0003159522040000052
F1值的计算公式为
Figure RE-GDA0003159522040000053
其中P表示精确率,R表示召回率, F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
与现有技术相比,本发明的有益效果是:
(1)本发明将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。
(2)本发明将提取局部特征的多尺寸CNN网络和提取文本序列特征的 mLSTM网络融合,并行的网络结构从局部和全局两个方面提取特征,以提高蒙古语文本情感分析的质量。
(3)本发明使用迁移学习策略把在中文文本情感分析模型中训练好的参数权重迁移到蒙古语文本情感分析模型中,在一定程度上缓解了蒙古语语料库不足的问题,达到提升蒙古语文本情感分析性能的目标。
附图说明
图1是实现基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法的流程图。
图2是ELMO模型结构图。
图3多尺寸CNN-mLSTM并行网络结构图。
图4多尺寸CNN网络结构图。
图5是LSTM网络结构图。
图6是mLSTM网络交互方式示意图。
图7是迁移学习策略示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,过程如下:
第一步:对中文和蒙古语情感文本语料库进行预处理。
在进行模型训练之前,应对情感文本语料库进行预处理。本发明使用字节对编码技术(BPE)对语料进行切分操作,由于BPE技术是用一个没有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭代过程,所以通过对蒙古语词汇进行词干和词缀的切分,能够让高频词保留至词典中,而低频词被切分为更小粒度的子单元,从而缓解数据稀疏,减少未登录词。具体步骤为:
1、将语料库中所有字符加入字典中作为初始化字典,把所有单词变成字符分割的形式,并在末尾加入标记,方便在输入句子后回复分词信息;
2、对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;
3、对上一步操作迭代n次,直到已经进行了一定数量的合并操作;
4、字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并操作次数n。
随着互联网的发展使得新词不断涌现,只基于词频而不考虑词的语法、语义信息的切分方法准确率不高,例如将
Figure RE-GDA0003159522040000071
切分成
Figure RE-GDA0003159522040000072
Figure RE-GDA0003159522040000073
因此,为了提升切分性能,在BPE环节之后,本发明选择使用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果。
GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模型需要根据语料构建词语的共现矩阵,共现矩阵统计的是词语在给定中心词和窗口大小的限制环境下的共现次数,因此在一定程度上可以表达词语之间的关系。由于共现频数是在整个语料库中进行统计的,不只是针对一句话或者一段语料,所以具有全局性。对于表达意义相近的词而言,它们之间的“距离”也较其他的词更近。例如“人民政府”一词周围的词语有“市政府”,“政府”,“行政”等;“科学研究”一词周围的词语有“科研”,“科学技术”,“研究”等。通过GloVe模型训练得到的词向量包含良好的语法、语义信息。
使用GloVe模型得到的词向量进行切分修正的基本原理为:如果词wi和词 wj同时出现的频率较高,那么二者以较大的概率可以组合成新词wiwj。通过 GloVe模型生成的词向量具有以下性质:如果词wi和词wj有很大可能可以组成新词wiwj,那么这两个词对应的词向量Wi和Wj之间的夹角θ的余弦值会接近1。
根据上述原理,可以采用如下贪婪方法进行修正,具体步骤为:
1、将通过BPE技术切分好的词转换为词向量,使用GloVe模型训练词向量的目标函数为:
Figure RE-GDA0003159522040000074
式中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
Figure RE-GDA0003159522040000075
式中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij
2、对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
Figure RE-GDA0003159522040000081
3、若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
Wi=null
Figure RE-GDA0003159522040000082
4、利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果
Figure RE-GDA0003159522040000083
其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果
Figure RE-GDA0003159522040000084
中的词向量的个数。
第二步:将经过预处理得到的词转换为动态词向量。
本发明使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量。如图2所示,ELMO模型为一个双层双向的LSTM训练语言模型,每一个词向量经过ELMO模型都会得到三个嵌入向量:最底层的向量表示单词特征;第一层的双向LSTM表示句法特征;第二层的双向LSTM 表示语义特征,最终通过权重矩阵来调整这三个向量。ELMO通过多层词向量的融合动态的调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义等在内的多层次信息,更好地解决一词多义问题。
第三步:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型,模型结构如图3所示。其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM则用于提取文本序列特征,从而更好地建模长距离语义。
CNN可以在无需人为干预的情况下自动学习到文本的隐藏特征进行情感分析任务,文本的最小粒度是词,所以卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征。多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取,使得卷积核有更广阔的视野。例如:“我不是特别喜欢这部电影”,文本带有明显的负面色彩,为了详细捕捉到短句信息:“特别喜欢”这个特征,需要较小尺寸的卷积核,但是为了捕捉到长句信息:“不是特别喜欢”又必须使用较大尺寸的卷积核。如图4所示的多个尺寸的卷积核同时进行卷积,获取到不同尺度的特征。多尺寸CNN网通过卷积核的滑动遍历数据集后,可以得到n-h+1个特征,这些组合成一个特征集合C=[c1c2…cn-h+1],其中n是词向量的个数,h是卷积核大小。而使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出
Figure RE-GDA0003159522040000091
不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
Figure RE-GDA0003159522040000092
LSTM网络充分利用上下文信息抽取到高层的抽象特征。LSTM神经网络按照句子输入的顺序读取输入X=x1x2…xn,x1表示输入的第1个词向量,xj表示输入的第j个词向量,并计算出隐层状态(h1h2…hn),h1表示隐层状态的第1个语义向量元素,hj表示隐层状态的第j个语义向量元素。
LSTM网络中包含一个记忆单元C和三个门结构:遗忘门f、输入门i和输出门o,用于控制信息的传递和遗忘。LSTM网络结构如图5所示,xt是当前时刻的输入,ht-1是上一时刻隐藏层的状态。遗忘门决定了上一时刻的记忆单元有多少保留到当前时刻,输入门决定了当前时刻的输入有多少保留到当前时刻,输出门控制记忆单元有多少可以被输出。LSTM网络的关键就是单元状态,是在图上方贯穿运行的那条水平线,它类似于一个传送带,可以控制信息传递给下一时刻。LSTM的计算步骤为:
1、保留上一时刻的信息,即决定上一时刻的单元状态Ct-1有多少保留到当前时刻Ct。这个决定由遗忘门来控制,它会根据上一时刻的输出ht-1和当前输入xt产生一个0到1的ft值,来决定是否让上一时刻的记忆单元信息Ct-1保留或部分保留。ft值的计算公式为:
ft=σ(Wfhht-1+Wfxxt+bf)
其中,Wfh和Wfx为权重矩阵;bf为偏移值;σ为sigmoid激活函数。若ft的值为0,则表示完全遗忘;若ft的值为0-1之间,则表示部分保留;若ft的值为 1,则表示完全保留。
2、产生需要更新的新信息,即决定当前时刻网络的输入xt有多少保留到当前时刻Ct。这一步包含两部分,第一部分是输入门决定什么值需要更新,表示要以多大概率来更新信息;第二部分是创建一个新的候选值向量
Figure RE-GDA0003159522040000101
表示现在的全部信息。it
Figure RE-GDA0003159522040000102
值的计算公式为:
it=σ(Wihht-1+Wixxt+bi)
Figure RE-GDA0003159522040000103
其中,Wih、Wix、Wch和Wcx为权重矩阵;bi和bc为偏移值;σ为sigmoid激活函数;tanh为双曲正切函数。输入门it控制当前时刻的候选状态
Figure RE-GDA0003159522040000104
有多少信息需要保存,若it的值为0,则表示完全遗忘;若it的值为0-1之间,则表示部分保留;若it的值为1,则表示完全保留。
3、更新单元状态。将第一步和第二步结合起来,丢掉不需要的信息并添加新信息。新的单元状态Ct的计算公式为:
Figure RE-GDA0003159522040000105
4、输出信息,即当前单元状态Ct有多少被输出。
ot=σ(Wohht-1+Woxxt+bo)
ht=ot⊙tanh(Ct)
其中,Woh和Wox为权重矩阵;bo为偏移值;σ为sigmoid激活函数;tanh 为双曲正切函数。
使用LSTM被普遍认为可以缓解梯度消失和信息遗忘的问题,从而更好地建模长距离语义。但是,注意到在LSTM中,当前的输入和前一步隐藏层的状态是相互独立的,它们只在门中进行交互,在这之前缺乏交互,这就可能会导致上下文信息的丢失。
mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,图6展示了多轮交互的过程,其具体的交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl通常表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的 LSTM。
mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量 outputmLSTM=[h1h2…hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出。
文本向量分别进入多尺寸CNN网络和mLSTM网络学习后,本发明采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
式中,outputfinal为模型最终提取的情感特征。通过将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,从而可以判定正面/负面情感。
通过并行网络结构从局部和全局两个方面进行特征提取,可提高蒙古语文本情感分析的质量。
第四步:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN 和LSTM模型的蒙古语文本情感分析模型。
深度学习作为一种数据驱动的方法,只有当训练语料库达到一定的要求,深度学习模型才会表现出较好的分析效果。但少数民族地区可以收集到的语料资源相对较少,因此无法满足深度神经网络模型训练的要求。迁移学习策略将训练模型A获取的知识存储下来,应用于新的任务中,即对模型B的训练,以达到提高模型B性能的目的,图7为迁移学习策略示意图。本发明利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
第五步:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
表1给出了计算中所需的混淆矩阵:
表1混淆矩阵
预测为正例 预测为负例
实际为正例 TP FN
预测为负例 FP TN
其中精确率的计算公式为
Figure RE-GDA0003159522040000121
召回率的计算公式为
Figure RE-GDA0003159522040000122
F1 值的计算公式为
Figure RE-GDA0003159522040000123
其中P表示精确率,指的是在预测为正例的样本中,实际为正例所占的比例,R表示召回率,指的是在实际的正例样本中,预测为正例所占的比例,通常情况下,精确率和召回率是相互矛盾的,即提高一个指标会导致另一个指标的下降。F1表示F1值,为了权衡精确率和召回率,F1值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例,且被模型预测为正例的样本数量;FN(False Negative)表示被模型预测为负例,但实际上为正例的样本数量;FP(False Positive)表示被模型预测为正例,但实际上为负例的样本数量;TN(True Negative)表示实际为负例,且被模型预测为负例的样本数,精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

Claims (5)

1.一种基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,包括如下步骤:
步骤1:对中文和蒙古语情感文本语料库进行预处理;
所述预处理是使用字节对编码技术对语料进行切分操作,然后利用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未登录词,修正切分结果;
所述利用GloVe训练生成词向量的目标函数J(W)为:
Figure FDA0003748953270000011
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
Figure FDA0003748953270000012
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij
对于原分词结果Y=w1 w2 … wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
Figure FDA0003748953270000013
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
Wi=null
Figure FDA0003748953270000014
利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果
Figure FDA0003748953270000015
其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果
Figure FDA0003748953270000021
和的词向量的个数;
步骤2:将经过预处理得到的词转换为动态词向量;
步骤3:由多尺寸CNN网络和mLSTM网络并联组成蒙古语文本情感分析模型;其中多尺寸CNN网络用于有效地捕捉不同位置的情感信息,进而获取文本的局部情感特征;mLSTM用于提取文本序列特征,从而更好地建模长距离语义;在蒙古语文本情感分析模型中采用集成模型的思想,将多尺寸CNN网络和mLSTM网络提取的特征拼接,作为模型最终提取的情感特征;
其中,将拼接得到的特征向量输入到蒙古语文本情感分析模型的全连接层中,使用softmax函数进行概率计算,得到最终的分析结果,判定正面/负面情感;
所述多尺寸CNN网络采用多种不同尺寸的卷积核进行局部情感特征提取,卷积核的宽度等于词向量的维度,利用不同高度的卷积核对文本所对应的词向量矩阵进行多次卷积,得到文本特征,通过卷积核的滑动遍历数据集后,得到n-h+1个特征,并组合成一个特征集合C=[c1 c2 … cn-h+1],其中n是词向量的个数,h是卷积核大小;使用多个卷积核提取文本数据中的多个特征时,若卷积核数量为k,则得到k个特征集合,对卷积层中的每一个特征集合进行最大池化操作选出集合中的最大值作为当前神经元的输出
Figure FDA0003748953270000022
不同尺寸的卷积核提取文本矩阵中不同位置的文本特征,对不同尺寸卷积核输出的特征进行特征融合得到融合特征
Figure FDA0003748953270000023
所述mLSTM网络通过将当前输入和前一步隐藏层的状态进行多轮交互后再进入LSTM中计算以更好的提取文本的序列特征,其交互公式为:
xl=2σ(Qlhl-1)⊙xl-2,for odd l∈[1…r]
hl=2σ(Rlxl-1)⊙hl-2,for even l∈[1…r]
上式中,x-1=x,为当前时刻的输入;h0=hprev,为上一步LSTM隐藏层的状态;Ql和Rl为随机初始化的矩阵,为减少附加模型参数的数量,Ql和Rl表现为低秩矩阵的乘积;轮数r是一个超参数,如果r=0,则为普通的LSTM;mLSTM接收词向量矩阵之后,利用LSTM单元生成特征向量outputmLSTM=[h1 h2 … hn],其中,h1为第一个LSTM单元的输出,hn为最后一个LSTM单元的输出;
步骤4:采用迁移学习策略将大规模中文情感文本语料作为训练集,并将其训练得到的神经网络参数权重迁移至蒙古语文本情感分析模型中作为初始参数,再利用经过预处理的蒙古语情感文本语料训练模型,得到基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型;
步骤5:将基于多尺寸CNN和LSTM模型的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
2.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,所述步骤2中,使用ELMO模型将经过预处理得到的词转换为计算机能识别和处理的语言,即动态词向量,其中所述ELMO模型为一个双层双向的LSTM训练语言模型,一个词得到三个嵌入值,在词嵌入的过程中动态地调整同一词在不同上下文环境中的表示,最终得到的词向量能够兼顾包括句法、语义在内的多层次信息。
3.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,采用集成模型的思想,将多尺寸CNN网络提取的情感特征outputCNN和mLSTM网络提取的情感特征outputmLSTM拼接,作为模型最终提取的情感特征,表达如下:
outputfinal=[outputCNNoutputmLSTM]
其中,outputfinal为模型最终提取的情感特征。
4.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,所述步骤4中,利用大规模中文情感文本语料训练神经网络学到的网络参数权重为神经网络各结点联接的参数矩阵,将在中文文本情感分析模型中训练好的网络参数权重迁移到蒙古语文本情感分析模型中进行初始化,最后再利用蒙古语情感文本语料对模型进行进一步的训练。
5.根据权利要求1所述基于多尺寸CNN和LSTM模型的蒙古语文本情感分析方法,其特征在于,所述步骤5中,精确率的计算公式为
Figure FDA0003748953270000041
召回率的计算公式为
Figure FDA0003748953270000042
F1值的计算公式为
Figure FDA0003748953270000043
其中P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
CN202110533016.9A 2021-05-17 2021-05-17 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 Expired - Fee Related CN113377901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110533016.9A CN113377901B (zh) 2021-05-17 2021-05-17 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110533016.9A CN113377901B (zh) 2021-05-17 2021-05-17 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法

Publications (2)

Publication Number Publication Date
CN113377901A CN113377901A (zh) 2021-09-10
CN113377901B true CN113377901B (zh) 2022-08-19

Family

ID=77571065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110533016.9A Expired - Fee Related CN113377901B (zh) 2021-05-17 2021-05-17 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法

Country Status (1)

Country Link
CN (1) CN113377901B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738359B (zh) * 2023-05-23 2024-07-09 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN111767741A (zh) * 2020-06-30 2020-10-13 福建农林大学 一种基于深度学习和tfidf算法的文本情感分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957518B (zh) * 2016-06-16 2019-05-31 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN108875021A (zh) * 2017-11-10 2018-11-23 云南大学 一种基于区域cnn-lstm的情感分析方法
KR102008845B1 (ko) * 2017-11-30 2019-10-21 굿모니터링 주식회사 비정형 데이터의 카테고리 자동분류 방법
CN109376775B (zh) * 2018-10-11 2021-08-17 南开大学 在线新闻多模态情感分析方法
CN109508462B (zh) * 2018-10-25 2020-07-17 内蒙古工业大学 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
CN109902177B (zh) * 2019-02-28 2022-11-29 上海理工大学 基于双通道卷积记忆神经网络的文本情感分析方法
US20200364303A1 (en) * 2019-05-15 2020-11-19 Nvidia Corporation Grammar transfer using one or more neural networks
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN111339772B (zh) * 2020-03-16 2023-11-14 大连外国语大学 俄语文本情感分析方法、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN111767741A (zh) * 2020-06-30 2020-10-13 福建农林大学 一种基于深度学习和tfidf算法的文本情感分析方法

Also Published As

Publication number Publication date
CN113377901A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
CN112001185B (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN107025284B (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN109308353B (zh) 词嵌入模型的训练方法及装置
CN111563164A (zh) 一种基于图神经网络的特定目标情感分类方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN109190126B (zh) 词嵌入模型的训练方法及装置
CN110889282B (zh) 一种基于深度学习的文本情感分析方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111666752B (zh) 一种基于关键词注意力机制的电路教材实体关系抽取方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN109271636B (zh) 词嵌入模型的训练方法及装置
CN113609849A (zh) 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
Tao et al. News text classification based on an improved convolutional neural network
CN112199503A (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220819

CF01 Termination of patent right due to non-payment of annual fee