CN114153973A - 基于t-m bert预训练模型的蒙古语多模态情感分析方法 - Google Patents

基于t-m bert预训练模型的蒙古语多模态情感分析方法 Download PDF

Info

Publication number
CN114153973A
CN114153973A CN202111489025.9A CN202111489025A CN114153973A CN 114153973 A CN114153973 A CN 114153973A CN 202111489025 A CN202111489025 A CN 202111489025A CN 114153973 A CN114153973 A CN 114153973A
Authority
CN
China
Prior art keywords
mongolian
emotion
vector
network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111489025.9A
Other languages
English (en)
Inventor
仁庆道尔吉
张倩
萨和雅
代钦
锡林格日勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202111489025.9A priority Critical patent/CN114153973A/zh
Publication of CN114153973A publication Critical patent/CN114153973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于T‑M BERT预训练模型的蒙古语多模态情感分析方法,对含有文本、表情符和GIF短视频的中文情感语料进行神经机器翻译和人工校正处理,获得蒙古语情感语料;对蒙古语文本、表情符,使用T‑M BERT提取情感特征;针对蒙古语GIF短视频,使用G‑Transformer提取情感特征;引入注意力机制动态调整文本、表情符和GIF短视频权重信息,得到最终的情感特征。采用Softmax函数对情感特征进行分类,获得最终的蒙古语多模态情感分析模型,并得出情感分类结果。最后,将该模型的分析结果与单个网络的分析结果就每个情感类别的准确率、精确率、召回率和F1值进行对比和评价,达到提高分析和舆情预测性能的目的。

Description

基于T-M BERT预训练模型的蒙古语多模态情感分析方法
技术领域
本发明属于人工智能技术领域,特别涉及一种基于T-M BERT(TraditionalMongolian Bidirectional Encoder Representation from Transformers,T-M BERT)预训练模型的蒙古语多模态情感分析方法。
背景技术
随着互联网技术的迅猛发展,人们在互联网中的参与度越来越高。网络用户生成的数据包罗万象,包含文本、表情符号、短视频等多种数据形式。在信息化时代下,丰富的信息传播渠道,给网民发布带有个人情绪的观点和意见提供便利,使得网络舆论具有很好的交互作用。而一些负面情绪会产生消极影响甚至引发群体恐慌。
随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说,现有的情感分析方法存在以下三点不足。其一,由于蒙古语词汇丰富、形态变化多样,造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。其二,当前情感分析主要对文本数据进行分析,对于其他模态的数据形式如表情符和GIF短视频一般在数据清洗阶段将其重要信息做了删除处理,不能充分利用多种模态情感特征,导致情感分析过于单一化,片面化。其三,传统的神经网络模型在解决情感分析时分类效率有限,而由于蒙古语语料短缺等原因,目前预训练模型并没有在蒙古语情感分析领域得到充分的研究。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于T-MBERT预训练模型的蒙古语多模态情感分析方法,具有以下三个特点:第一,针对蒙古语文本和表情符特征,将采用正则化的蒙古语分词技术对数据进行分词,并利用蒙古语情感词典和表情符词典对训练得到的Vocab词典修正,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第二,通过采用T-MBERT和G-Transformer两种网络分别学习蒙古语文本、表情符和GIF短视频三种模态的情感特征。从全方位、深层次、多角度分析网络舆论的情感倾向及趋势;第三,通过使用百万级的无标签的蒙古语语料训练Vocab词典,从而构建针对蒙古语的T-MBERT预训练模型,学习蒙古语的深层语义知识,以提高蒙古语情感分析的效率。本发明在针对蒙古语语言的商品评论及推荐、舆情监控、信息预测等方面具有充分的研究价值。
为了实现上述目的,本发明采用的技术方案是:
基于T-M BERT预训练模型的蒙古语多模态情感分析方法,包括如下步骤:
步骤1:对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理,得到蒙古语多模态情感语料;
步骤2:针对蒙古语文本和表情符的情感分类模型,经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后,使用T-M BERT网络对蒙古语文本和表情符提取情感特征;
步骤3:针对GIF短视频的情感分类模型,经过语料预处理、关键帧提取、局部特征处理、全局特征处理等步骤后,使用G-Transformer网络对GIF短视频提取情感特征;
步骤4:引入注意力机制动态调整文本、表情符和GIF短视频权重信息,将提取的特征作为最终的情感特征;
步骤5:采用Softmax函数对最终的情感特征进行分类,获得蒙古语多模态情感分析模型,并得到最终的分类结果;
步骤6:将T-M BERT网络和G-Transformer网络并行得到的蒙古语多模态情感分析模型的分析结果与单个网络分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语多模态情感分析和舆情预测性能的目的。
具体地,所述步骤1中,采用网络爬虫技术获取中文多模态情感语料;然后将其转化成蒙古语多模态情感语料,并进行人工校正处理,达到扩充蒙古语语料的目的。
具体地,所述步骤2,语料预处理包括:移除用户名信息、移除特殊字符、错别字纠正;蒙古语分词是采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作;构建Vocab字典是利用蒙古语文本和表情符词典修正切分操作后的蒙古语多模态情感语料,得到最终的蒙古语Vocab词典;转换蒙古语词向量是根据蒙古语Vocab词典,训练T-MBERT自编码的词向量;最后,放入T-M BERT网络训练提取蒙古语文本和表情符情感特征。
具体地,用条件语句判断所述蒙古语文本和表情符词典中的标记是否在Vocab词典中出现,如未出现则将其加入到Vocab词典中,并逐渐更新Vocab词典,通过扩展情感词典的方式进一步扩充蒙古语情感特征;
所述T-M BERT网络的编码方式,由token词向量vt、情感向量vE、位置向量vp三部分组成,通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v:
v=vt+vE+vp
其中,vt,vE和vp三种向量的大小均为N×e,N表示输入的蒙古语文本和表情符序列最大长度,e表示词向量维度;
vt表示token词向量,作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示,具体计算公式如下:
vt=etWt
式中,Wt表示可训练的token词向量矩阵,et表示token词向量的编码;
vE表示情感向量,作用是通过标记来确定情感特征的信息,利用情感向量矩阵WE将情感编码eE转换为实值向量,得到情感向量vE为:
vE=eEWE
式中,WE表示可训练的情感向量矩阵,eE表示情感向量的编码;
vp表示位置向量,作用是用来编码每个词的绝对位置,将输入序列中的每个词按照下标顺序依次转换为位置独热编码,并利用位置向量矩阵Wp将位置独热编码ep转换为实值向量,得到的位置向量vp为:
vp=epWp
式中,Wp表示可训练的位置向量矩阵,ep表示位置向量编码;
所述T-M BERT网络的结构中,引入一个情感标记掩盖层,随机对情感标记以不同的概率进行掩盖,并遵循以下规则:以80%的概率替换为[MSAK]标记;以10%的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记(这里的蒙古语文本和表情符情感词典作为先验情感特征的数据源);以10%的概率保持原词不变。
具体地,所述步骤3中,语料预处理包括:移除无效的链接或者GIF短视频,移除GIF短视频中的冗余帧;关键帧提取和局部特征处理是采用ResNet3D网络获取GIF视频短期局部时空情感特征,并提取关键帧;最后,通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模,从而得到GIF短视频二维长期时空情感特征。
具体地,所述ResNet3D网络由多个残差块堆叠而成,其中,残差块主要由两部分组成,一部分是通过引入恒等映射,在输入与输出之间建立了直接的关联通道,即快捷连接,另一部分是ReLu连接,其函数表达式为:
F(x)=W1σ(W2x)
式中,σ为非线性激活函数Relu,W1表示输入x的权重矩阵参数,W2表示激活函数的权重参数,残差块的输出为:
y=F(x,Wi)+x
当残差结构的输入特征图的通道数和输出特征图的通道数相同时,直接使用x来相加,而当输入与输出的通道数不相同时,通过使用1×1的卷积来表示Wj映射,从而使输入与输出通道数相同:
y=F(x,Wi)+Wjx
x为GIF短视频在残差结构上的输入、Wj表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、Wi表示输入特征的权重矩阵、F(x,Wi)表示输入序列的情感特征;
当使用残差思想网络达到最优时,继续增加网络深度,残差映射的输入将被置零,数据通过恒等映射输出,即可保证网络模型始终处于最优的一个状态,继续加深网络将不会影响网络的性能;
所述G-Transformer网络由多个Transformer块组成,所述Transformer块中包含用于关注重点词汇特征信息的自注意力机制,其输入为n个向量组成的序列x1,x2,…,xn,输出为每个向量对应的新向量表示y1,y2,…,yn,其中所有向量的大小均为d,那么yi的计算公式为:
Figure BDA0003397708070000051
式中,j是输入的蒙古语文本和表情符序列的索引值,aij是xi与xj之间的注意力权重,xi和xj分别表示输入的蒙古文和表情符序列中第i、j个字符的向量、yi是经过注意力机制调整后的输入序列各向量表示。
具体地,所述使用G-Transformer网络对GIF短视频提取情感特征的方法如下:首先,采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧;其次,将关键帧切分为固定大小的片段;然后,使用ResNet3D将每个片段转换成特征向量,并提取局部特征;最后,对每个片段进行位置编码,放入G-Transformer网络中训练获取全局情感特征信息。
具体地,所述步骤4方法如下:首先,将所有情感特征
Figure BDA0003397708070000052
输入到注意力网络,m=2,分别代表蒙古语文本和表情符情感特征以及GIF短视频情感特征,然后,通过特征加权累加得到最终的情感特征
Figure BDA0003397708070000053
计算的表达式为:
Figure BDA0003397708070000054
βm=softmax(Pm)
Figure BDA0003397708070000061
其中,Pm为隐藏单元状态,
Figure BDA0003397708070000062
为权重和偏置,βm是归一化得到的向量,
Figure BDA0003397708070000063
为βm的转置,作为计算最终情感特征
Figure BDA0003397708070000064
的权重参数。
具体地,所述步骤5中,对所述最终的情感特征
Figure BDA0003397708070000065
进行分类:
Figure BDA0003397708070000066
其中,Wl、bl表示全连接层的权重和偏置,Wsoft、bsoft表示softmax分类的权重和偏置,Ei代表最终数据的情感分类结果。
具体地,所述步骤6中,准确率的计算公式
Figure BDA0003397708070000067
精确率的计算公式为
Figure BDA0003397708070000068
召回率的计算公式为
Figure BDA0003397708070000069
F1值的计算公式为
Figure BDA00033977080700000610
其中Acc表示准确率,P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
与现有技术相比,本发明的有益效果是:
(1)本发明中文语料通过网络爬虫技术获得,通过神经机器翻译技术译成蒙古语情感语料,并进一步通过人工校正从而保证情感语料的可信度。本发明采用正则化的蒙古语分词技术以及蒙古语情感词典和表情符词典修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。
(2)本发明通过采用T-M BERT和G-Transformer两种网络分别学习蒙古语文本、表情符和GIF短视频三种模态的情感特征。从全方位、深层次、多角度分析网络舆论的情感倾向及趋势。
(3)本发明通过使用百万级的无标签的蒙古语语料训练Vocab词典,从而构建针对蒙古语的T-M BERT预训练模型,学习蒙古语的深层语义知识,以提高蒙古语情感分析的效率。
附图说明
图1是实现一种基于T-M BERT预训练模型的蒙古语多模态情感分析方法的流程图。
图2是T-M BERT模型的自编码词向量示意图。
图3是T-M BERT模型网络结构图。
图4是T-M BERT网络掩码示意图。
图5是残差网络示意图。
图6是Transformer块结构图。
图7是G-Transformer结构图。
图8是本发明实施例中T-M BERT、LSTM、Fasttext三个基于深度学习算法在10个训练周期中的准确率变化趋势比较示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种基于T-M BERT预训练模型的蒙古语多模态情感分析方法,过程如下:
步骤1:对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理,得到蒙古语多模态情感语料。
由于蒙古语多模态情感语料信息不足,本发明采用网络爬虫技术来获取丰富的中文多模态情感语料。然后,将已获取的含有文本、表情符和GIF短视频链接的中文语料借助神经机器翻译技术将其转化成蒙古语多模态情感语料,并进行人工校正处理,达到扩充蒙古语语料的目的。
步骤2:针对蒙古语文本和表情符的情感分类模型,经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后,使用T-M BERT网络对蒙古语文本和表情符提取情感特征。
首先,语料预处理包括:移除用户名信息、移除特殊字符、错别字纠正等步骤;其次,采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作,并利用蒙古语文本和表情符词典修正,得到最终的蒙古语Vocab词典;然后,根据蒙古语Vocab词典,训练T-M BERT自编码的词向量;最后放入T-M BERT网络里训练提取蒙古语文本和表情符情感特征。具体介绍如下:
1、Mongolian-regularization蒙古语分词技术
具体的Mongolian-regularization蒙古语分词技术算法的伪代码如表1所示:
表1 Mongolian-regularization算法伪代码
Figure BDA0003397708070000081
其过程描述为:首先,对特定蒙古语词按照空格进行多次分割;然后使得到的词汇表保持原始,同时更改分段过程;最后每个蒙古语切分字段进行合并,并在每个合并步骤中以特定的概率随机删除,该步骤的主要目的是为同一蒙古语词提供了多个分段结果。从解决蒙古语文本情感分析中未登录词的问题的角度,提升情感分析模型的效率。
current_split1为蒙古语语料用空格分隔得到的最初的分词结果,merges表示任意蒙古语词根词缀合并得到新的蒙古语字或词,p表示随意丢弃词根词缀合并得到的蒙古语字或词的概率可能,current_split2为该算法得到的最终分词结果。
蒙古语文本情感词典如表2所示,表情符情感词典表3所示。
表2蒙古语情感词词典部分示例
Figure BDA0003397708070000091
表3是表情符情感字典部分示例
Figure BDA0003397708070000092
表2中的蒙古语对应的中文含义如表4所示,分别把蒙古语情感分为七个大类(第二列),每个类别对应不同的情感词(第三列),每种情感对应具体的情感例词(第四列)。
表4蒙古语情感词词典示例的中文翻译
Figure BDA0003397708070000101
用条件语句进行判断蒙古语文本和表情符词典中的标记是否在Vocab词典中出现,如未出现则将其加入到Vocab词典中,并逐渐更新Vocab词典,通过扩展情感词典的方式进一步扩充蒙古语情感特征。
本发明采用的Mongolian-regularization蒙古语分词技术,在充分考虑了蒙古语词根词缀复杂的组合情况的基础上,引入了正则化和词典校正的思想,不仅可以在一定程度上减少蒙古语词切分复杂度,还可以提升切分的准确率。
2、T-M BERT网络的编码方式
T-M BERT网络的编码方式由token词向量vt、情感向量vE、位置向量vp三部分组成,如图2所示,如
Figure BDA0003397708070000111
这句话的中文意思是“我今天很高兴啊
Figure BDA0003397708070000112
”,分别将其转为token词向量、情感向量和位置向量。其中,[CLS]句子开始分隔符标记,[SEP]为句子结束分隔符标记。En表示该词不是情感特征词标记,Ey表示该词是情感特征词标记。词向量(Token Embeddings)、情感向量(Emotion Embeddings)和位置向量(Position Embeddings),通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v:
v=vt+vE+vp
其中,vt,vE和vp三种向量的大小均为N×e,N表示输入的蒙古语文本和表情符序列最大长度,e表示词向量维度。
vt表示token词向量(Token Embeddings),作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示,具体计算公式如下:
vt=etWt
式中,Wt表示可训练的token词向量矩阵,et表示token词向量的编码。
vE表示情感向量(Emotion Embeddings),作用是通过标记来确定情感特征的信息,利用情感向量矩阵WE将情感编码eE转换为实值向量,得到情感向量vE为:
vE=eEWE
式中,WE表示可训练的情感向量矩阵,eE表示情感向量的编码。
vp表示位置向量(Position Embeddings),作用是用来编码每个词的绝对位置,将输入序列中的每个词按照下标顺序依次转换为位置独热编码,并利用位置向量矩阵Wp将位置独热编码ep转换为实值向量,得到的位置向量vp为:
vp=epWp
式中,Wp表示可训练的位置向量矩阵,ep表示位置向量编码。
3、T-M BERT网络
T-M BERT网络的结构图如图3,与其他语言的BERT模型不同的是,这里引入一个情感标记掩盖层(Emotion marker layer)的概念,随机对情感标记以不同的概率进行掩盖,并遵循以下规则:以80%的概率替换为[MSAK]标记;以10%的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记(这里的蒙古语文本和表情符情感词典作为先验情感特征的数据源);以10%的概率保持原词不变。
本发明T-M BERT网络针对情感分析任务对BERT网络做了两方面改进:①将段向量(Segment Encoding)替换为情感向量(Emotion Encoding),传统的BERT网络里段向量的主要作用是用来判断语料的上下段位置信息。针对情感分析任务本发明提出情感向量的概念,通过重点标记情感特征标记,使的网络模型充分且重点学习情感特征,从而提升情感分析效率。②参考图4,将随机掩码替换为情感掩码,传统的BERT网络里随机掩码是对所有词进行随机掩盖并预测。本发明提出情感掩码的概念,对情感标记在一定概率上进行掩盖,并重点预测该标记信息,达到深层学习情感语义的目的。
步骤3:针对GIF短视频的情感分类模型,经过语料预处理、关键帧提取、局部特征处理、全局特征处理等步骤后,使用G-Transformer网络对GIF短视频提取情感特征;
具体地,首先,对获得的GIF短视频情感语料进行预处理操作,包括:移除无效的链接或者GIF短视频,移除GIF短视频中的冗余帧等操作;然后,采用ResNet3D网络获取视频短期局部时空情感特征,并提取关键帧;最后,通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模,从而得到GIF短视频二维长期时空情感特征。具体介绍如下:
1、提取局部特征的ResNet3D网络
ResNet3D网络由多个残差块堆叠而成,参考图5,残差块主要由两部分组成,一部分是通过引入恒等映射,在输入与输出之间建立了直接的关联通道,即快捷连接,另一部分是ReLu连接,其函数表达式为:
F(x)=W1σ(W2x)
式中,σ为非线性激活函数Relu,W1表示输入x的权重矩阵参数,W2表示激活函数的权重参数,残差块的输出为:
y=F(x,Wi)+x
当残差结构的输入特征图的通道数和输出特征图的通道数相同时,直接使用x来相加,而当输入与输出的通道数不相同时,通过使用1×1的卷积来表示Wj映射,从而使输入与输出通道数相同:
y=F(x,Wi)+Wjx
x为GIF短视频在残差结构上的输入、Wj表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、Wi表示输入特征的权重矩阵、F(x,Wi)表示输入序列的情感特征。
当使用残差思想网络达到最优时,继续增加网络深度,残差映射的输入将被置零,数据通过恒等映射输出,即可保证网络模型始终处于最优的一个状态,继续加深网络将不会影响网络的性能;
2、Transformer及自注意力机制
G-Transformer网络由多个Transformer块组成。其中Transformer块结构图如图6所示,每个Transformer块分别由注意力机制(Self Attention)、归一化层(LayerNormal)、多层感知机(MLP)所构成,Transformer块中包含用于关注重点词汇特征信息的自注意力机制,自注意力机制用来关注重点词汇特征信息。其输入为n个向量组成的序列x1,x2,…,xn,输出为每个向量对应的新向量表示y1,y2,…,yn,其中所有向量的大小均为d,那么yi的计算公式为:
Figure BDA0003397708070000131
式中,j是输入的蒙古语文本和表情符序列的索引值,aii是xi与xj之间的注意力权重,xi和xj分别表示输入的蒙古文和表情符序列中第i、j个字符的向量、yi是经过注意力机制调整后的输入序列各向量表示。
3、提取全局特征的G-Transformer网络
G-Transformer网络如图7所示,其对GIF短视频提取情感特征的方法:首先,采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧;其次,将关键帧切分为固定大小的片段;然后,使用ResNet3D将每个片段转换成特征向量,并提取局部特征;最后,对每个片段进行位置编码,放入G-Transformer网络中训练获取全局情感特征信息。
步骤4:引入注意力机制动态调整文本、表情符和GIF短视频权重信息,将提取的特征作为最终的情感特征。
具体地,首先,将所有情感特征
Figure BDA0003397708070000141
输入到注意力网络,m=2,分别代表蒙古语文本和表情符情感特征以及GIF短视频情感特征,然后,通过特征加权累加得到最终的情感特征
Figure BDA0003397708070000142
计算的表达式为:
Figure BDA0003397708070000143
βm=softmax(Pm)
Figure BDA0003397708070000144
其中,Pm为隐藏单元状态,
Figure BDA0003397708070000145
为权重和偏置,βm是归一化得到的向量。
Figure BDA0003397708070000146
为βm的转置,作为计算最终情感特征
Figure BDA0003397708070000147
的权重参数。
本发明G-Transformer网络针对GIF短视频做了重点改进,充分结合了ResNet3D学习局部特征信息的优点以及Transformer网络获取全局特征信息的优势,构建了能够重点分析GIF短视频特征的情感分析网络,从而扩展了蒙古语情感分析业务能力。
步骤5:采用Softmax函数对最终的情感特征进行分类,获得蒙古语多模态情感分析模型,并得到最终的分类结果。
该步骤主要是对得到的最终情感特征
Figure BDA0003397708070000148
进行情感分类:
Figure BDA0003397708070000149
其中,Wl、bl表示全连接层的权重和偏置,Wsoft、bsoft表示softmax分类的权重和偏置,Ei代表最终数据的情感分类结果。
步骤6:将T-M BERT网络和G-Transformer网络并行得到的蒙古语多模态情感分析模型的分析结果与单个网络分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语多模态情感分析和舆情预测性能的目的。
其中,准确率的计算公式
Figure BDA0003397708070000151
精确率的计算公式为
Figure BDA0003397708070000152
召回率的计算公式为
Figure BDA0003397708070000153
F1值的计算公式为
Figure BDA0003397708070000154
其中Acc表示准确率,P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。如表5所示,给出了计算中所需的混淆矩阵。
表5混淆矩阵表
预测为正例 预测为负例
实际为正例 TP FN
预测为负例 FP TN
为验证本发明所提方法的有效性,针对蒙古文文本数据做了以下实验。该实验自建的两个蒙古文数据集为依托。数据集1中包含好、恶、怒、乐、哀、惊、惧七个情感类别,共53940条数据。数据集2中包含积极、消极两个情感类别,共25371条数据。所有实验均选用各数据集每个类别数据的90%作为训练集,剩余的10%作为测试集。首先,对每条数据进行数据清洗并删除无关数据,其次,采用Mongolian-regularization分词方式对蒙古文数据进行分词处理并转换成词向量,每个词向量维度是300。然后,利用本发明所提的T-MBERT情感分类算法对该数据集信息进行情感分类。最后,通过与基于机器学习的情感分类算法极限梯度提升(Extreme Gradient Boosting,XGBoost)、多项式贝叶斯分类器(Multinomial
Figure BDA0003397708070000162
Bayes)、支持向量机(Support Vector Machines,SVM)以及基于深度学习的情感分类算法长短期记忆网络(Long Short-Term Memory,LSTM)、快速文本分类(FastText)等算法进行对比,并在分类准确率指标上评价。实验结果如表6所示:
表6实验结果
Figure BDA0003397708070000161
由上表可以看出本实验所提的T-M BERT蒙古文情感分类方法在蒙古文七分类和二分类数据集上表现良好,情感分类准确率优于当前使用的基于机器学习和基于深度学习的情感分类方法。
为了进一步说明本发明中所提的T-M BERT情感分类算法收敛情况,图8中分别展示了T-M BERT、LSTM、Fasttext三个基于深度学习算法在10个训练周期中的准确率变化趋势。由图中可以看出,本发明所提的T-M BERT蒙古文情感分类算法能够在较短的训练周期内情感分类准确率能够达到优于LSTM、FastText情感分类算法的效果。以上实验能够充分证明本发明所提方法的有效性,该方法能够为蒙古文情感分析和舆情预测任务提供理论及实践参考。

Claims (10)

1.基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,包括如下步骤:
步骤1:对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理,得到蒙古语多模态情感语料;
步骤2:针对蒙古语文本和表情符的情感分类模型,经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后,使用T-M BERT网络对蒙古语文本和表情符提取情感特征;
步骤3:针对GIF短视频的情感分类模型,经过语料预处理、关键帧提取、局部特征处理、全局特征处理后,使用G-Transformer网络对GIF短视频提取情感特征;
步骤4:引入注意力机制动态调整文本、表情符和GIF短视频权重信息,将提取的特征作为最终的情感特征;
步骤5:采用Softmax函数对最终的情感特征进行分类,获得蒙古语多模态情感分析模型,并得到最终的分类结果;
步骤6:将T-M BERT网络和G-Transformer网络并行得到的蒙古语多模态情感分析模型的分析结果与单个网络分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语多模态情感分析和舆情预测性能的目的。
2.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤1中,采用网络爬虫技术获取中文多模态情感语料;然后将其转化成蒙古语多模态情感语料,并进行人工校正处理,达到扩充蒙古语语料的目的。
3.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤2,语料预处理包括:移除用户名信息、移除特殊字符、错别字纠正;蒙古语分词是采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作;构建Vocab字典是利用蒙古语文本和表情符词典修正切分操作后的蒙古语多模态情感语料,得到最终的蒙古语Vocab词典;转换蒙古语词向量是根据蒙古语Vocab词典,训练T-M BERT自编码的词向量;最后,放入T-M BERT网络训练提取蒙古语文本和表情符情感特征。
4.根据权利要求3所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,用条件语句判断所述蒙古语文本和表情符词典中的标记是否在Vocab词典中出现,如未出现则将其加入到Vocab词典中,并逐渐更新Vocab词典,通过扩展情感词典的方式进一步扩充蒙古语情感特征;
所述T-M BERT网络的编码方式,由token词向量vt、情感向量vE、位置向量vp三部分组成,通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v:
v=vt+vE+vp
其中,vt,vE和vp三种向量的大小均为N×e,N表示输入的蒙古语文本和表情符序列最大长度,e表示词向量维度;
vt表示token词向量,作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示,具体计算公式如下:
vt=etWt
式中,Wt表示可训练的token词向量矩阵,et表示token词向量的编码;
vE表示情感向量,作用是通过标记来确定情感特征的信息,利用情感向量矩阵WE将情感编码eE转换为实值向量,得到情感向量vE为:
vE=eEWE
式中,WE表示可训练的情感向量矩阵,eE表示情感向量的编码;
vp表示位置向量,作用是用来编码每个词的绝对位置,将输入序列中的每个词按照下标顺序依次转换为位置独热编码,并利用位置向量矩阵Wp将位置独热编码ep转换为实值向量,得到的位置向量vp为:
vp=epWp
式中,Wp表示可训练的位置向量矩阵,ep表示位置向量编码;
所述T-M BERT网络的结构中,引入一个情感标记掩盖层,随机对情感标记以不同的概率进行掩盖,并遵循以下规则:以80%的概率替换为[MSAK]标记;以10%的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记;以10%的概率保持原词不变。
5.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤3中,语料预处理包括:移除无效的链接或者GIF短视频,移除GIF短视频中的冗余帧;关键帧提取和局部特征处理是采用ResNet3D网络获取GIF视频短期局部时空情感特征,并提取关键帧;最后,通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模,从而得到GIF短视频二维长期时空情感特征。
6.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述ResNet3D网络由多个残差块堆叠而成,其中,残差块主要由两部分组成,一部分是通过引入恒等映射,在输入与输出之间建立了直接的关联通道,即快捷连接,另一部分是ReLu连接,其函数表达式为:
F(x)=W1σ(W2x)
式中,σ为非线性激活函数Relu,W1表示输入x的权重矩阵参数,W2表示激活函数的权重参数,残差块的输出为:
y=F(x,Wi)+x
当残差结构的输入特征图的通道数和输出特征图的通道数相同时,直接使用x来相加,而当输入与输出的通道数不相同时,通过使用1×1的卷积来表示Wj映射,从而使输入与输出通道数相同:
y=F(x,Wi)+Wjx
x为GIF短视频在残差结构上的输入、Wj表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、Wi表示输入特征的权重矩阵、F(x,Wi)表示输入序列的情感特征;
当使用残差思想网络达到最优时,继续增加网络深度,残差映射的输入将被置零,数据通过恒等映射输出,即可保证网络模型始终处于最优的一个状态,继续加深网络将不会影响网络的性能;
所述G-Transformer网络由多个Transformer块组成,所述Transformer块中包含用于关注重点词汇特征信息的自注意力机制,其输入为n个向量组成的序列x1,x2,...,xn,输出为每个向量对应的新向量表示y1,y2,...,yn,其中所有向量的大小均为d,那么yi的计算公式为:
Figure FDA0003397708060000041
式中,j是输入的蒙古语文本和表情符序列的索引值,aij是xi与xj之间的注意力权重,xi和xj分别表示输入的蒙古文和表情符序列中第i、j个字符的向量、yi是经过注意力机制调整后的输入序列各向量表示。
7.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述使用G-Transformer网络对GIF短视频提取情感特征的方法如下:首先,采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧;其次,将关键帧切分为固定大小的片段;然后,使用ResNet3D将每个片段转换成特征向量,并提取局部特征;最后,对每个片段进行位置编码,放入G-Transformer网络中训练获取全局情感特征信息。
8.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤4方法如下:首先,将所有情感特征
Figure FDA0003397708060000043
输入到注意力网络,m=2,分别代表蒙古语文本和表情符情感特征以及GIF短视频情感特征,然后,通过特征加权累加得到最终的情感特征
Figure FDA0003397708060000044
计算的表达式为:
Figure FDA0003397708060000042
βm=softmax(Pm)
Figure FDA0003397708060000051
其中,Pm为隐藏单元状态,
Figure FDA0003397708060000052
为权重和偏置,βm是归一化得到的向量,
Figure FDA0003397708060000053
为βm的转置,作为计算最终情感特征
Figure FDA0003397708060000054
的权重参数。
9.根据权利要求8所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤5中,对所述最终的情感特征
Figure FDA0003397708060000055
进行分类:
Figure FDA0003397708060000056
其中,Wl、bl表示全连接层的权重和偏置,Wsoft、bsoft表示softmax分类的权重和偏置,Ei代表最终数据的情感分类结果。
10.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法,其特征在于,所述步骤6中,准确率的计算公式
Figure FDA0003397708060000057
精确率的计算公式为
Figure FDA0003397708060000058
召回率的计算公式为
Figure FDA0003397708060000059
F1值的计算公式为
Figure FDA00033977080600000510
其中Acc表示准确率,P表示精确率,R表示召回率,F1表示F1值,TP表示实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例,但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。
CN202111489025.9A 2021-12-07 2021-12-07 基于t-m bert预训练模型的蒙古语多模态情感分析方法 Pending CN114153973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111489025.9A CN114153973A (zh) 2021-12-07 2021-12-07 基于t-m bert预训练模型的蒙古语多模态情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111489025.9A CN114153973A (zh) 2021-12-07 2021-12-07 基于t-m bert预训练模型的蒙古语多模态情感分析方法

Publications (1)

Publication Number Publication Date
CN114153973A true CN114153973A (zh) 2022-03-08

Family

ID=80453372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111489025.9A Pending CN114153973A (zh) 2021-12-07 2021-12-07 基于t-m bert预训练模型的蒙古语多模态情感分析方法

Country Status (1)

Country Link
CN (1) CN114153973A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580445A (zh) * 2022-03-10 2022-06-03 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114936562A (zh) * 2022-04-26 2022-08-23 哈尔滨理工大学 一种基于Transformer模型的中文文本情感分析方法
CN115587215A (zh) * 2022-10-18 2023-01-10 河南大学 一种基于语句通顺性的残断汉简图像缀合方法
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137636A1 (en) * 2009-12-02 2011-06-09 Janya, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
KR20170001490A (ko) * 2015-06-26 2017-01-04 삼성전자주식회사 전자 장치 및 생체 센서를 이용한 전자 장치의 기능 제어 방법
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
WO2021135457A1 (zh) * 2020-08-06 2021-07-08 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
KR102306344B1 (ko) * 2021-03-17 2021-09-28 남지원 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113609849A (zh) * 2021-07-07 2021-11-05 内蒙古工业大学 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137636A1 (en) * 2009-12-02 2011-06-09 Janya, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
KR20170001490A (ko) * 2015-06-26 2017-01-04 삼성전자주식회사 전자 장치 및 생체 센서를 이용한 전자 장치의 기능 제어 방법
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
WO2021135457A1 (zh) * 2020-08-06 2021-07-08 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
KR102306344B1 (ko) * 2021-03-17 2021-09-28 남지원 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
CN113609849A (zh) * 2021-07-07 2021-11-05 内蒙古工业大学 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法
CN113569559A (zh) * 2021-07-23 2021-10-29 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
HAO TIAN等: "SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis", 《ACL2020》 *
SIQI HAN等: "Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network", 《 2021 INTERNATIONAL CONFERENCE ON COMMUNICATIONS, INFORMATION SYSTEM AND COMPUTER ENGINEERING (CISCE)》 *
ZHILIANG PENG等: "Conformer: Local Features Coupling Global Representations for Visual Recognition", 《ICCV2021》 *
丁革建等: "《LAMP开发实践教程高等职业院校规划教材》", 中国铁道出版社, pages: 188 *
林明亮: "融合文本信息的短标注视频情感分析", 《中国优秀硕士全文数据库 信息科技辑》 *
肖慧辉等: "基于Transformer 的证件图像无检测文字识别", 《信息技术》 *
赖雪梅等: "基于注意力机制的特征融合-双向门控循环单元多模态情感分析", 《计算机应用》 *
邬建志: "基于BERT的文本情感识别及应用研究——以电影评论为对象", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580445A (zh) * 2022-03-10 2022-06-03 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114580445B (zh) * 2022-03-10 2023-03-10 昆明理工大学 基于领域感知的掩码子结构的多领域自适应神经机器翻译方法
CN114936562A (zh) * 2022-04-26 2022-08-23 哈尔滨理工大学 一种基于Transformer模型的中文文本情感分析方法
CN115587215A (zh) * 2022-10-18 2023-01-10 河南大学 一种基于语句通顺性的残断汉简图像缀合方法
CN115587215B (zh) * 2022-10-18 2023-10-20 河南大学 一种基于语句通顺性的残断汉简图像缀合方法
CN116738359A (zh) * 2023-05-23 2023-09-12 内蒙古工业大学 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Similar Documents

Publication Publication Date Title
CN106484674B (zh) 一种基于深度学习的中文电子病历概念抽取方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110263325B (zh) 中文分词系统
CN112632997A (zh) 基于BERT和Word2Vec向量融合的中文实体识别方法
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN110413768B (zh) 一种文章题目自动生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN111177376A (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN114781392A (zh) 一种基于bert改进模型的文本情感分析方法
Zhang et al. A hybrid text normalization system using multi-head self-attention for mandarin
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination