CN113779966A - 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 - Google Patents

一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 Download PDF

Info

Publication number
CN113779966A
CN113779966A CN202111069944.0A CN202111069944A CN113779966A CN 113779966 A CN113779966 A CN 113779966A CN 202111069944 A CN202111069944 A CN 202111069944A CN 113779966 A CN113779966 A CN 113779966A
Authority
CN
China
Prior art keywords
vector
layer
vectors
lstm
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111069944.0A
Other languages
English (en)
Inventor
苏依拉
韩春晖
郭晨雨
朱苏东
仁庆道尔吉
吉亚图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202111069944.0A priority Critical patent/CN113779966A/zh
Publication of CN113779966A publication Critical patent/CN113779966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力的双向CNN‑RNN深度模型的蒙文情感分析方法,主要针对普通DNN模型训练时间开销过大,以及特征提取层的特征空间维度过高、梯度爆发等问题,将以前的单向序列深度模型改进为双向CNN‑RNN情感分析深度模型,其中RNN模型采用变体LSTM和GRU,将注意力机制从RNN模型内部分割开来,将循环神经网络处理后的结果输入注意力模型,以达到提高舆情检测效率、提升情感分析准确度的目的。

Description

一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析 方法
技术领域
本发明属于人工智能与自然语言处理(NLP)技术领域,涉及舆情检测以及情感分析,特别涉及一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法。
背景技术
情感分析是近十年来自然语言处理和数据挖掘领域的一个研究热点,通常采用普通的DNN模型来进行情绪分析,以获得有希望的结果。但是DNN模型的序列长度具有任意性,导致了高位的特征向量空间重复性高的结果。
当下基于注意力机制的BERT已经成为NLP任务的预训练的起点,基于静态嵌入的模式成为了过去式。但是BERT模型也有一定的缺点,预训练过程时间开销大,收敛得比left-to-right模型要慢。
另有基于注意力的RNN模型,虽然其舆情检测领域的表现良好,但是由于其引入了多头注意力机制,所以在训练过程中会产生超参数化问题。不仅如此,高维的向量空间会使模型有过拟合的问题,甚至陷入局部收敛。学习率预热阶段实际上有助于避免这个问题。在优化的初始化阶段,学习率必须设置为一个恰当的值,并进行不断的尝试,选取最优值。所以,本发明创新性地引用了RNN的变体LSTM和GRU,将RNN框架与注意力机制分隔开来,这样不仅避免了超参数化,而且由于注意力模型的输入是双向LSTM层与双向RNN层的输出进行特征联合所得到的向量,所以序列词汇向量表征考虑了上下文之间的依赖关系。
同时,对于蒙古语等小语种,其语料匮乏,进行情感分析的难度更大。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,主要针对普通DNN模型训练时间开销过大,以及特征提取层的特征空间维度过高、梯度爆发等问题,将以前的单向序列深度模型改进为双向CNN-RNN情感分析深度模型,其中RNN模型采用变体LSTM和GRU,将注意力机制从RNN模型内部分割开来,将循环神经网络处理后的结果输入注意力模型,以达到提高舆情检测效率、提升情感分析准确度的目的。
为了实现上述目的,本发明采用的技术方案是:
一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,其特征在于,包括如下步骤:
第一步,用输入层读取待分析的蒙语句子w,将其拆分成n个词汇向量w1,w2,w3,...wn-1,wn,将所述词汇向量全部传入预先训练好的Glove模型(google提出的词嵌入模型)进行训练,Glove模型中的Glove嵌入注释矩阵为
Figure BDA0003259818110000021
e为嵌入维度,
Figure BDA0003259818110000025
为实数域向量空间,Wg用于嵌入注释向量
Figure BDA0003259818110000022
得到静态词嵌入向量ct,即:
ct=Wgwt,t∈[1,m]
m为填充长度,wt为第t个词汇向量;
第二步,将静态词嵌入向量ct输入到两个并行的双向LSTM层和双向GRU层(双向LSTM与双向GRU均为双向RNN的变种,双向LSTM层由正向长短期记忆网络和反向长短期记忆网络组成,双向GRU层由正向门控循环单元和反向门控循环单元组成)中,用来处理任意长度的序列,并提取前向和后向的长相关性,以使LSTM和GRU层里的隐藏层对静态词嵌入向量ct进行处理后能够记住这些序列,得到新的词向量,公式如下:
Figure BDA0003259818110000023
Figure BDA0003259818110000024
Figure BDA0003259818110000031
Figure BDA0003259818110000032
其中,
Figure BDA0003259818110000033
为静态词嵌入向量ct经过正向LSTM层得到的词向量,
Figure BDA0003259818110000034
为静态词嵌入向量ct经过反向LSTM层得到的词向量,
Figure BDA0003259818110000035
为静态词嵌入向量ct经过正向GRU层得到的词向量,
Figure BDA0003259818110000036
为静态词嵌入向量ct经过反向GRU层得到的词向量;
第三步,将新的词向量
Figure BDA0003259818110000037
Figure BDA0003259818110000038
进行特征联合,即,将前向神经网络提取的特征信息和后向神经网络提取的特征信息进行融合,连接前向和后向上下文来获得特征向量
Figure BDA0003259818110000039
Figure BDA00032598181100000310
公式如下:
Figure BDA00032598181100000311
Figure BDA00032598181100000312
第四步,将特征向量
Figure BDA00032598181100000313
Figure BDA00032598181100000314
分别输入到两个独立的注意力模型中,注意力模型和每个词汇的特征向量一一进行交互,提取信息词并修改特征向量,从而计算出
Figure BDA00032598181100000315
的隐藏表征向量
Figure BDA00032598181100000316
Figure BDA00032598181100000317
的隐藏表征向量
Figure BDA00032598181100000318
使用隐藏表征向量
Figure BDA00032598181100000319
与上下文向量
Figure BDA00032598181100000320
进行相似性运算得到
Figure BDA00032598181100000321
的重要性系数,使用隐藏表征向量
Figure BDA00032598181100000322
与上下文向量
Figure BDA00032598181100000323
进行相似性运算得到
Figure BDA00032598181100000324
的重要性系数,然后分别运用softmax运算进行归一化得到重要性权重
Figure BDA00032598181100000325
Figure BDA00032598181100000326
分别将
Figure BDA00032598181100000327
Figure BDA00032598181100000328
进行加权和聚合得到注释向量sLSTM和sGRU,注释向量sLSTM和sGRU用于总结注释中单词的所有信息,公式如下:
Figure BDA00032598181100000329
Figure BDA00032598181100000330
Figure BDA00032598181100000331
Figure BDA00032598181100000332
Figure BDA0003259818110000041
Figure BDA0003259818110000042
其中
Figure BDA0003259818110000043
是注意力模型自己学习到的参数;
第五步,将注释向量sLSTM和sGRU分别输入到两个独立的CNN分支(卷积神经网络)中,其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层,四个卷积层通过各自的线性滤波器提取注释单词向量sLSTM和sGRU的局部特征,降低输入数据的维数,输出四个特征图向量,将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作,得到八个最终表征向量Lci=[lc1,lc2,...,lcf],i∈[1,8],f为滤波器数量;
第六步,将最终表征向量连接,形成最终文档向量Lc=[lc1,lc2,...,lc8];
第七步,将最终文档向量Lc输入全连接层,全连接层将最终文档向量Lc转换成高层情感表征hd,公式如下:
hd=Relu(Wdhp+bd)
其中hp是通过对池化层的串联应用批处理规范化而获得的隐藏表征,Wd和bd是全连接层在训练过程中学习的参数;
第八步,将高层情感表征hd传到具有sigmoid函数的输出层进行二值分类,通过分类的输出得到正面或者负面的结果,判断蒙语句子w的情感。
现有技术大多采用深度神经网络模型来处理情感分析任务,以获得有希望的结果。而现有用于情感分析的各种神经结构中,长短期记忆模型(LSTM,RNN变体)和选通递归单元(GRU,RNN变体)采用的最多,尽管这些模型能够处理任意长度的序列,但在深度神经网络的特征提取层中使用它们会使特征空间具有高维性。这种模型的另一个缺点是,它们认为不同的特征同样重要,本发明基于注意力的双向CNN-RNN深度模型则可解决上述问题。通过利用独立的双向LSTM层和GRU层,基于注意力的双向CNN-RNN将通过考虑两个方向上的时间信息流来提取过去和未来的上下文。此外,注意力机制被应用与双向CNN-RNN模型的输出,或多或少地强调不同的单词。为了降低特征的维数并提取位置不变的局部特征,双向CNN-RNN模型利用卷积和池机制,与普通的两个用于情绪分析的DNN结果进行比较,双向CNN-RNN模型在情感分析结果分类实验方面取得了先进的结果。
附图说明
图1是基于注意力的双向RNN-CNN深度模型示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明为一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,其采用了词嵌入模型、两个分别独立的LSTM模型GRU模型、注意力模型和卷积神经网络模型,其中词嵌入模型(Glove)充当了编码器的作用。
参考图1,本发明基于注意力的双向CNN-RNN深度模型在架构上由输入层、词嵌入层、双向RNN层、拼接层、注意力模型、卷积层、全连接层和输出层组成。
输入层主要是用来接收蒙语句子w,并将其拆分为多个词汇向量。情感分析首先要将源语言转换成计算机能够理解的向量或者矩阵,即将词映射为实数域向量,即词嵌入(Word Embedding)技术。本发明的词嵌入层采用静态词嵌入,通过使用googole的glove模型来处理输入的词汇向量,glove模型采用了平方损失,并通过词向量拟合预先训练基于整个数据集计算得到的全局统计信息。但是glove模型得到的带有注释的词汇向量是静态的,与上下文无关。情感分析应该与上下文进行结合,所以本发明又引入了两个独立的双向LSTM层与双向GRU层。
双向循环神经网络涉及复制网络中的第一个循环层,使得有两层并排,然后将输入序列原样提供给第一层的输入,并将输入序列的反向副本提供给第二层。即,将正向状态的部分和反向状态的部分分割成正常的循环神经网络单元。双向提供序列的使用情感分析领域是合理的,因为有证据表明整个话语的上下文用于解释所说的内容而不是线性解释。即双向网络比单向网络更有意义,情感分析需要双向RNN层来捕捉上下文之间的依赖。注意力模型中一系列的归一化及其他操作主要是为了将双向RNN层中得到的词特征向量进行注释。这样更便于后续的CNN层提取局部特征进行分类。
CNN层主要用于局部特征的捕捉,全连接层主要进行矩阵相乘的操作降低维度从而获取结果进行最终的二值分类。
这些层组合在一起形成了本发明基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,完整步骤如下:
一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,其特征在于,包括如下步骤:
第一步,用输入层读取待分析的蒙语句子w,将其拆分成n个词汇向量w1,w2,w3,...wn-1,wn,将这些词汇向量全部传入预先训练好的利用基于语境化的预训练词嵌入模型Glove(google提出的词嵌入模型)进行训练,通过归一化的方法,将待分析的蒙语句子w转换为机器可以识别的静态词嵌入向量。
具体地,Glove模型中的Glove嵌入注释矩阵为
Figure BDA0003259818110000061
e为嵌入维度,
Figure BDA0003259818110000062
为实数域向量空间,Wg用于嵌入注释向量
Figure BDA0003259818110000063
得到静态词嵌入向量ct,即:
ct=Wgwt,t∈[1,m]
m为填充长度,wt为第t个词汇向量;
本发明的拆分采用词组对照法,首先把蒙语句子w中出现的词组标注出来,然后再将蒙语句子w分解为多个词组进行标注,表示为:w1,w2,w3......wn→w,w1,w2,w3......wn表示蒙语句子w的词组,例如:上下文句子为“我七点钟到台湾大学”,“我七点钟到台湾大学”又可以切分为“w1=我”、“w2=七点钟”、“w3=到”、“w4=台湾大学”四个词组。在蒙语语境将句子分解成词组的切分方法相同,并且子词组可以与源词组相关联。
第二步,将静态词嵌入向量ct输入到两个并行的双向LSTM层和双向GRU层(双向LSTM与双向GRU均为双向RNN的变种,双向LSTM层由正向长短期记忆网络和反向长短期记忆网络组成,双向GRU层由正向门控循环单元和反向门控循环单元组成)中,用来处理任意长度的序列,并提取前向和后向的长相关性,以使LSTM和GRU层里的隐藏层对静态词嵌入向量ct进行处理后能够记住这些序列,得到新的词向量,公式如下:
Figure BDA0003259818110000071
Figure BDA0003259818110000072
Figure BDA0003259818110000073
Figure BDA0003259818110000074
其中,
Figure BDA0003259818110000075
为静态词嵌入向量ct经过正向LSTM层得到的词向量,
Figure BDA0003259818110000076
为静态词嵌入向量ct经过反向LSTM层得到的词向量,
Figure BDA0003259818110000077
为静态词嵌入向量ct经过正向GRU层得到的词向量,
Figure BDA0003259818110000078
为静态词嵌入向量ct经过反向GRU层得到的词向量。
在本步骤中,没有直接使用RNN(循环神经网络),而是使用两个并行的RNN的变体LSTM和GRU,从而可以处理RNN面临的消失/爆炸问题。LSTM与其他类型的RNN一样,根据当前时间步长的输入和前一时间步长的输出生成其输出,并将当前输出发送到下一时间步长,用于提取相关性。
其中,双向长短期记忆网络中,中间隐藏层公式为:
Figure BDA0003259818110000079
Figure BDA00032598181100000710
其中
Figure BDA00032598181100000711
为正向输出向量,
Figure BDA00032598181100000712
为反向输出向量。
或者,双向长短期记忆网络中,每个记忆单元内设置有一个层sigmoid函数,用于对输入输出进行判别,以此来进行双向累加运算。最终得到新的词汇向量。
即,情感分析不包含学习率处理阶段,在词嵌入层的输出中应用分别独立的LSTM和GRU提取n-gram特征,然后将这些特征用作CNN层的输入,并进行单标签多类分类。
第三步,将新的词向量
Figure BDA0003259818110000081
Figure BDA0003259818110000082
进行特征联合,即,将前向神经网络提取的特征信息和后向神经网络提取的特征信息进行融合,连接前向和后向上下文来获得特征向量
Figure BDA0003259818110000083
Figure BDA0003259818110000084
公式如下:
Figure BDA0003259818110000085
Figure BDA0003259818110000086
第四步,将特征向量
Figure BDA0003259818110000087
Figure BDA0003259818110000088
分别输入到两个独立的注意力模型中,注意力模型和每个词汇的特征向量一一进行交互,提取信息词并修改特征向量,从而计算出
Figure BDA0003259818110000089
的隐藏表征向量
Figure BDA00032598181100000810
Figure BDA00032598181100000811
的隐藏表征向量
Figure BDA00032598181100000812
使用隐藏表征向量
Figure BDA00032598181100000813
与上下文向量
Figure BDA00032598181100000814
进行相似性运算得到
Figure BDA00032598181100000815
的重要性系数,使用隐藏表征向量
Figure BDA00032598181100000816
与上下文向量
Figure BDA00032598181100000817
进行相似性运算得到
Figure BDA00032598181100000818
的重要性系数,然后分别运用softmax运算进行归一化得到重要性权重
Figure BDA00032598181100000819
Figure BDA00032598181100000820
分别将
Figure BDA00032598181100000821
Figure BDA00032598181100000822
进行加权和聚合得到注释向量sLSTM和sGRU,注释向量sLSTM和sGRU用于总结注释中单词的所有信息,公式如下:
Figure BDA00032598181100000823
Figure BDA00032598181100000824
Figure BDA00032598181100000825
Figure BDA00032598181100000826
Figure BDA00032598181100000827
Figure BDA00032598181100000828
其中
Figure BDA00032598181100000829
是注意力模型自己学习到的参数。
第五步,将注释向量sLSTM和sGRU分别输入到两个独立的CNN分支(卷积神经网络)中,其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层,四个卷积层通过各自的线性滤波器提取注释单词向量sLSTM和sGRU的局部特征,降低输入数据的维数,输出四个特征图向量,将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作,得到八个最终表征向量Lci=[lc1,lc2,...,lcf],i∈[1,8],f为滤波器数量。
第六步,将最终表征向量连接,形成最终文档向量Lc=[lc1,lc2,...,lc8]。
第七步,将最终文档向量Lc输入全连接层,全连接层将最终文档向量Lc转换成高层情感表征hd,公式如下:
hd=Relu(Wdhp+bd)
其中hp是通过对池化层的串联应用批处理规范化而获得的隐藏表征,Wd和bd是全连接层在训练过程中学习的参数;
第八步,将高层情感表征hd传到具有sigmoid函数的输出层进行二值分类,通过分类的输出得到正面或者负面的结果,判断蒙语句子w的情感。
在本发明一个具体的实施例中,首先运用网络爬虫的方式在新华网蒙古文网站爬虫获取了蒙文数据集,该数据集包括来自伊利集团的175283条产品评论,以及来自骑士乳业的87995条产品评论。
把这些产品评论的数据集集丢进基于注意力的双向CNN-RNN模型中,输入层对这些蒙语评论句子进行编码,编码后的新的数据集由很多个句子向量即蒙语句子w构成,将这些向量传入输入层,输入层将w拆分成w1,w2,w3......wn。然后传入词嵌入模型Glove中进行静态词嵌入,然后Glove模型将输出的新的词向量进行特征融合后传入两个独立的双向RNN层进行一系列与上下文相关的操作以及softmax运算,分别输出两个注释向量,将注释向量传入CNN层进行局部特征提取得到八个最终表征向量,将最终表征向量连接生成文档向量Lc后通过全连接层,全连接层将文档向量Lc转化成高层情感表征hd,将高层情感表征进行二值分类最终的输出结果为:伊利集团评论数据集为1(正向情感),骑士乳业评论数据集为0(负面情感),并且多次实验该模型的loss在0.238-0.319之间,误差方面明显优于普通的深度循环神经网络。

Claims (1)

1.一种基于注意力的双向CNN-RNN深度模型的蒙文情感分析方法,其特征在于,包括如下步骤:
第一步,用输入层读取待分析的蒙语句子w,将其拆分成n个词汇向量w1,w2,w3,...wn-1,wn,将所述词汇向量全部传入预先训练好的Glove模型进行训练,Glove模型中的Glove嵌入注释矩阵为
Figure FDA0003259818100000011
Figure FDA0003259818100000012
为实数域向量空间,e为嵌入维度,Wg用于嵌入注释向量
Figure FDA0003259818100000013
得到静态词嵌入向量ct,即:
ct=Wgwt,t∈[1,m]
m为填充长度,wt为第t个词汇向量;
第二步,将静态词嵌入向量ct输入到两个并行的双向LSTM层和双向GRU层中,用来处理任意长度的序列,并提取前向和后向的长相关性,以使LSTM和GRU层里的隐藏层对静态词嵌入向量ct进行处理后能够记住这些序列,得到新的词向量,公式如下:
Figure FDA0003259818100000014
Figure FDA0003259818100000015
Figure FDA0003259818100000016
Figure FDA0003259818100000017
其中,
Figure FDA0003259818100000018
为静态词嵌入向量ct经过正向LSTM层得到的词向量,
Figure FDA0003259818100000019
为静态词嵌入向量ct经过反向LSTM层得到的词向量,
Figure FDA00032598181000000110
为静态词嵌入向量ct经过正向GRU层得到的词向量,
Figure FDA00032598181000000111
为静态词嵌入向量ct经过反向GRU层得到的词向量;
第三步,将新的词向量
Figure FDA00032598181000000112
Figure FDA00032598181000000113
进行特征联合,获得特征向量
Figure FDA00032598181000000114
Figure FDA00032598181000000115
公式如下:
Figure FDA00032598181000000116
Figure FDA0003259818100000021
第四步,将特征向量
Figure FDA0003259818100000022
Figure FDA0003259818100000023
分别输入到两个独立的注意力模型中,注意力模型和每个词汇的特征向量一一进行交互,提取信息词并修改特征向量,从而计算出
Figure FDA0003259818100000024
的隐藏表征向量
Figure FDA0003259818100000025
Figure FDA0003259818100000026
的隐藏表征向量
Figure FDA0003259818100000027
使用隐藏表征向量
Figure FDA0003259818100000028
与上下文向量
Figure FDA0003259818100000029
进行相似性运算得到
Figure FDA00032598181000000210
的重要性系数,使用隐藏表征向量
Figure FDA00032598181000000211
与上下文向量
Figure FDA00032598181000000212
进行相似性运算得到
Figure FDA00032598181000000213
的重要性系数,然后分别运用softmax运算进行归一化得到重要性权重
Figure FDA00032598181000000214
Figure FDA00032598181000000215
分别将
Figure FDA00032598181000000216
Figure FDA00032598181000000217
进行加权和聚合得到注释向量sLSTM和sGRU,注释向量sLSTM和sGRU用于总结注释中单词的所有信息,公式如下:
Figure FDA00032598181000000218
Figure FDA00032598181000000219
Figure FDA00032598181000000220
Figure FDA00032598181000000221
Figure FDA00032598181000000222
Figure FDA00032598181000000223
其中
Figure FDA00032598181000000224
是注意力模型自己学习到的参数;
第五步,将注释向量sLSTM和sGRU分别输入到两个独立的CNN分支中,其中每个CNN分支分别采用两个具有不同内核大小的并行卷积层,四个卷积层通过各自的线性滤波器提取注释单词向量sLSTM和sGRU的局部特征,降低输入数据的维数,输出四个特征图向量,将四个特征图向量分别放入最大池化层和平均池化层进行下采样操作,得到八个最终表征向量Lci=[lc1,lc2,...,lcf],i∈[1,8],f为滤波器数量;
第六步,将最终表征向量连接,形成最终文档向量Lc=[lc1,lc2,...,lc8];
第七步,将最终文档向量Lc输入全连接层,全连接层将最终文档向量Lc转换成高层情感表征hd,公式如下:
hd=Relu(Wdhp+bd)
其中hp是通过对池化层的串联应用批处理规范化而获得的隐藏表征,Wd和bd是全连接层在训练过程中学习的参数;
第八步,将高层情感表征hd传到具有sigmoid函数的输出层进行二值分类,通过分类的输出得到正面或者负面的结果,判断蒙语句子w的情感。
CN202111069944.0A 2021-09-13 2021-09-13 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 Pending CN113779966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111069944.0A CN113779966A (zh) 2021-09-13 2021-09-13 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111069944.0A CN113779966A (zh) 2021-09-13 2021-09-13 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Publications (1)

Publication Number Publication Date
CN113779966A true CN113779966A (zh) 2021-12-10

Family

ID=78843148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111069944.0A Pending CN113779966A (zh) 2021-09-13 2021-09-13 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法

Country Status (1)

Country Link
CN (1) CN113779966A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990562A (zh) * 2019-10-29 2020-04-10 新智认知数字科技股份有限公司 警情分类方法及其系统
CN110990562B (zh) * 2019-10-29 2022-08-26 新智认知数字科技股份有限公司 警情分类方法及其系统
CN117993868A (zh) * 2024-04-02 2024-05-07 国网山东省电力公司济宁供电公司 基于双模态注意力的电网工程项目审计预警方法及系统

Similar Documents

Publication Publication Date Title
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN108717574B (zh) 一种基于连词标记和强化学习的自然语言推理方法
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN109325231B (zh) 一种多任务模型生成词向量的方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113779966A (zh) 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法
CN114496105A (zh) 一种基于多语义网络的单步逆合成方法及系统
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN117610567A (zh) 一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN115544260A (zh) 用于文本情感分析的对比优化编解码模型及方法
CN113177120B (zh) 一种基于中文文本分类的情报快速整编方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211210