CN114153973A

CN114153973A - 基于t-m bert预训练模型的蒙古语多模态情感分析方法

Info

Publication number: CN114153973A
Application number: CN202111489025.9A
Authority: CN
Inventors: 仁庆道尔吉; 张倩; 萨和雅; 代钦; 锡林格日勒
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-08

Abstract

一种基于T‑M BERT预训练模型的蒙古语多模态情感分析方法，对含有文本、表情符和GIF短视频的中文情感语料进行神经机器翻译和人工校正处理，获得蒙古语情感语料；对蒙古语文本、表情符，使用T‑M BERT提取情感特征；针对蒙古语GIF短视频，使用G‑Transformer提取情感特征；引入注意力机制动态调整文本、表情符和GIF短视频权重信息，得到最终的情感特征。采用Softmax函数对情感特征进行分类，获得最终的蒙古语多模态情感分析模型，并得出情感分类结果。最后，将该模型的分析结果与单个网络的分析结果就每个情感类别的准确率、精确率、召回率和F1值进行对比和评价，达到提高分析和舆情预测性能的目的。

Description

基于T-M BERT预训练模型的蒙古语多模态情感分析方法

技术领域

本发明属于人工智能技术领域，特别涉及一种基于T-M BERT(TraditionalMongolian Bidirectional Encoder Representation from Transformers，T-M BERT)预训练模型的蒙古语多模态情感分析方法。

背景技术

随着互联网技术的迅猛发展，人们在互联网中的参与度越来越高。网络用户生成的数据包罗万象，包含文本、表情符号、短视频等多种数据形式。在信息化时代下，丰富的信息传播渠道，给网民发布带有个人情绪的观点和意见提供便利，使得网络舆论具有很好的交互作用。而一些负面情绪会产生消极影响甚至引发群体恐慌。

随着人工智能的崛起，深度学习方法得到了广泛的关注，因其模型具有强大的特征学习能力，所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说，现有的情感分析方法存在以下三点不足。其一，由于蒙古语词汇丰富、形态变化多样，造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象，而大量未登录词的存在严重影响情感分析的准确率。其二，当前情感分析主要对文本数据进行分析，对于其他模态的数据形式如表情符和GIF短视频一般在数据清洗阶段将其重要信息做了删除处理，不能充分利用多种模态情感特征，导致情感分析过于单一化，片面化。其三，传统的神经网络模型在解决情感分析时分类效率有限，而由于蒙古语语料短缺等原因，目前预训练模型并没有在蒙古语情感分析领域得到充分的研究。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于T-MBERT预训练模型的蒙古语多模态情感分析方法，具有以下三个特点：第一，针对蒙古语文本和表情符特征，将采用正则化的蒙古语分词技术对数据进行分词，并利用蒙古语情感词典和表情符词典对训练得到的Vocab词典修正，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题；第二，通过采用T-MBERT和G-Transformer两种网络分别学习蒙古语文本、表情符和GIF短视频三种模态的情感特征。从全方位、深层次、多角度分析网络舆论的情感倾向及趋势；第三，通过使用百万级的无标签的蒙古语语料训练Vocab词典，从而构建针对蒙古语的T-MBERT预训练模型，学习蒙古语的深层语义知识，以提高蒙古语情感分析的效率。本发明在针对蒙古语语言的商品评论及推荐、舆情监控、信息预测等方面具有充分的研究价值。

为了实现上述目的，本发明采用的技术方案是：

基于T-M BERT预训练模型的蒙古语多模态情感分析方法，包括如下步骤：

步骤1：对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理，得到蒙古语多模态情感语料；

步骤2：针对蒙古语文本和表情符的情感分类模型，经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后，使用T-M BERT网络对蒙古语文本和表情符提取情感特征；

步骤3：针对GIF短视频的情感分类模型，经过语料预处理、关键帧提取、局部特征处理、全局特征处理等步骤后，使用G-Transformer网络对GIF短视频提取情感特征；

步骤4：引入注意力机制动态调整文本、表情符和GIF短视频权重信息，将提取的特征作为最终的情感特征；

步骤5：采用Softmax函数对最终的情感特征进行分类，获得蒙古语多模态情感分析模型，并得到最终的分类结果；

步骤6：将T-M BERT网络和G-Transformer网络并行得到的蒙古语多模态情感分析模型的分析结果与单个网络分析结果就准确率、精确率、召回率和F1值进行对比和评价，以达到提高蒙古语多模态情感分析和舆情预测性能的目的。

具体地，所述步骤1中，采用网络爬虫技术获取中文多模态情感语料；然后将其转化成蒙古语多模态情感语料，并进行人工校正处理，达到扩充蒙古语语料的目的。

具体地，所述步骤2，语料预处理包括：移除用户名信息、移除特殊字符、错别字纠正；蒙古语分词是采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作；构建Vocab字典是利用蒙古语文本和表情符词典修正切分操作后的蒙古语多模态情感语料，得到最终的蒙古语Vocab词典；转换蒙古语词向量是根据蒙古语Vocab词典，训练T-MBERT自编码的词向量；最后，放入T-M BERT网络训练提取蒙古语文本和表情符情感特征。

具体地，用条件语句判断所述蒙古语文本和表情符词典中的标记是否在Vocab词典中出现，如未出现则将其加入到Vocab词典中，并逐渐更新Vocab词典，通过扩展情感词典的方式进一步扩充蒙古语情感特征；

所述T-M BERT网络的编码方式，由token词向量v^t、情感向量v^E、位置向量v^p三部分组成，通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v：

v＝v^t+v^E+v^p

其中，v^t，v^E和v^p三种向量的大小均为N×e，N表示输入的蒙古语文本和表情符序列最大长度，e表示词向量维度；

v^t表示token词向量，作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示，具体计算公式如下：

v^t＝e^tW^t

式中，W^t表示可训练的token词向量矩阵，e^t表示token词向量的编码；

v^E表示情感向量，作用是通过标记来确定情感特征的信息，利用情感向量矩阵W^E将情感编码e^E转换为实值向量，得到情感向量v^E为：

v^E＝e^EW^E

式中，W^E表示可训练的情感向量矩阵，e^E表示情感向量的编码；

v^p表示位置向量，作用是用来编码每个词的绝对位置，将输入序列中的每个词按照下标顺序依次转换为位置独热编码，并利用位置向量矩阵W^p将位置独热编码e^p转换为实值向量，得到的位置向量v^p为：

v^p＝e^pW^p

式中，W^p表示可训练的位置向量矩阵，e^p表示位置向量编码；

所述T-M BERT网络的结构中，引入一个情感标记掩盖层，随机对情感标记以不同的概率进行掩盖，并遵循以下规则：以80％的概率替换为[MSAK]标记；以10％的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记(这里的蒙古语文本和表情符情感词典作为先验情感特征的数据源)；以10％的概率保持原词不变。

具体地，所述步骤3中，语料预处理包括：移除无效的链接或者GIF短视频，移除GIF短视频中的冗余帧；关键帧提取和局部特征处理是采用ResNet3D网络获取GIF视频短期局部时空情感特征，并提取关键帧；最后，通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模，从而得到GIF短视频二维长期时空情感特征。

具体地，所述ResNet3D网络由多个残差块堆叠而成，其中，残差块主要由两部分组成，一部分是通过引入恒等映射，在输入与输出之间建立了直接的关联通道，即快捷连接，另一部分是ReLu连接，其函数表达式为：

F(x)＝W₁σ(W₂x)

式中，σ为非线性激活函数Relu，W₁表示输入x的权重矩阵参数，W₂表示激活函数的权重参数，残差块的输出为：

y＝F(x,W_i)+x

当残差结构的输入特征图的通道数和输出特征图的通道数相同时，直接使用x来相加，而当输入与输出的通道数不相同时，通过使用1×1的卷积来表示W_j映射，从而使输入与输出通道数相同：

y＝F(x,W_i)+W_jx

x为GIF短视频在残差结构上的输入、W_j表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、W_i表示输入特征的权重矩阵、F(x,W_i)表示输入序列的情感特征；

当使用残差思想网络达到最优时，继续增加网络深度，残差映射的输入将被置零，数据通过恒等映射输出，即可保证网络模型始终处于最优的一个状态，继续加深网络将不会影响网络的性能；

所述G-Transformer网络由多个Transformer块组成，所述Transformer块中包含用于关注重点词汇特征信息的自注意力机制，其输入为n个向量组成的序列x₁,x₂,…,x_n，输出为每个向量对应的新向量表示y₁,y₂,…,y_n，其中所有向量的大小均为d，那么y_i的计算公式为：

式中，j是输入的蒙古语文本和表情符序列的索引值，a_ij是x_i与x_j之间的注意力权重，x_i和x_j分别表示输入的蒙古文和表情符序列中第i、j个字符的向量、y_i是经过注意力机制调整后的输入序列各向量表示。

具体地，所述使用G-Transformer网络对GIF短视频提取情感特征的方法如下：首先，采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧；其次，将关键帧切分为固定大小的片段；然后，使用ResNet3D将每个片段转换成特征向量，并提取局部特征；最后，对每个片段进行位置编码，放入G-Transformer网络中训练获取全局情感特征信息。

具体地，所述步骤4方法如下：首先，将所有情感特征

输入到注意力网络，m＝2，分别代表蒙古语文本和表情符情感特征以及GIF短视频情感特征，然后，通过特征加权累加得到最终的情感特征

计算的表达式为：

β_m＝softmax(P_m)

其中，P_m为隐藏单元状态，

为权重和偏置，β_m是归一化得到的向量，

为β_m的转置，作为计算最终情感特征

的权重参数。

具体地，所述步骤5中，对所述最终的情感特征

进行分类：

其中，W_l、b_l表示全连接层的权重和偏置，W_soft、b_soft表示softmax分类的权重和偏置，E_i代表最终数据的情感分类结果。

具体地，所述步骤6中，准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

与现有技术相比，本发明的有益效果是：

(1)本发明中文语料通过网络爬虫技术获得，通过神经机器翻译技术译成蒙古语情感语料，并进一步通过人工校正从而保证情感语料的可信度。本发明采用正则化的蒙古语分词技术以及蒙古语情感词典和表情符词典修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。

(2)本发明通过采用T-M BERT和G-Transformer两种网络分别学习蒙古语文本、表情符和GIF短视频三种模态的情感特征。从全方位、深层次、多角度分析网络舆论的情感倾向及趋势。

(3)本发明通过使用百万级的无标签的蒙古语语料训练Vocab词典，从而构建针对蒙古语的T-M BERT预训练模型，学习蒙古语的深层语义知识，以提高蒙古语情感分析的效率。

附图说明

图1是实现一种基于T-M BERT预训练模型的蒙古语多模态情感分析方法的流程图。

图2是T-M BERT模型的自编码词向量示意图。

图3是T-M BERT模型网络结构图。

图4是T-M BERT网络掩码示意图。

图5是残差网络示意图。

图6是Transformer块结构图。

图7是G-Transformer结构图。

图8是本发明实施例中T-M BERT、LSTM、Fasttext三个基于深度学习算法在10个训练周期中的准确率变化趋势比较示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于T-M BERT预训练模型的蒙古语多模态情感分析方法，过程如下：

步骤1：对含有文本、表情符和GIF短视频的中文情感语料库进行神经机器翻译和人工校正处理，得到蒙古语多模态情感语料。

由于蒙古语多模态情感语料信息不足，本发明采用网络爬虫技术来获取丰富的中文多模态情感语料。然后，将已获取的含有文本、表情符和GIF短视频链接的中文语料借助神经机器翻译技术将其转化成蒙古语多模态情感语料，并进行人工校正处理，达到扩充蒙古语语料的目的。

步骤2：针对蒙古语文本和表情符的情感分类模型，经过语料预处理、蒙古语分词、构建Vocab字典、转换蒙古语词向量处理后，使用T-M BERT网络对蒙古语文本和表情符提取情感特征。

首先，语料预处理包括：移除用户名信息、移除特殊字符、错别字纠正等步骤；其次，采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作，并利用蒙古语文本和表情符词典修正，得到最终的蒙古语Vocab词典；然后，根据蒙古语Vocab词典，训练T-M BERT自编码的词向量；最后放入T-M BERT网络里训练提取蒙古语文本和表情符情感特征。具体介绍如下：

1、Mongolian-regularization蒙古语分词技术

具体的Mongolian-regularization蒙古语分词技术算法的伪代码如表1所示：

表1 Mongolian-regularization算法伪代码

其过程描述为：首先，对特定蒙古语词按照空格进行多次分割；然后使得到的词汇表保持原始，同时更改分段过程；最后每个蒙古语切分字段进行合并，并在每个合并步骤中以特定的概率随机删除，该步骤的主要目的是为同一蒙古语词提供了多个分段结果。从解决蒙古语文本情感分析中未登录词的问题的角度，提升情感分析模型的效率。

current_split¹为蒙古语语料用空格分隔得到的最初的分词结果，merges表示任意蒙古语词根词缀合并得到新的蒙古语字或词，p表示随意丢弃词根词缀合并得到的蒙古语字或词的概率可能，current_split²为该算法得到的最终分词结果。

蒙古语文本情感词典如表2所示，表情符情感词典表3所示。

表2蒙古语情感词词典部分示例

表3是表情符情感字典部分示例

表2中的蒙古语对应的中文含义如表4所示，分别把蒙古语情感分为七个大类(第二列)，每个类别对应不同的情感词(第三列)，每种情感对应具体的情感例词(第四列)。

表4蒙古语情感词词典示例的中文翻译

用条件语句进行判断蒙古语文本和表情符词典中的标记是否在Vocab词典中出现，如未出现则将其加入到Vocab词典中，并逐渐更新Vocab词典，通过扩展情感词典的方式进一步扩充蒙古语情感特征。

本发明采用的Mongolian-regularization蒙古语分词技术，在充分考虑了蒙古语词根词缀复杂的组合情况的基础上，引入了正则化和词典校正的思想，不仅可以在一定程度上减少蒙古语词切分复杂度，还可以提升切分的准确率。

2、T-M BERT网络的编码方式

T-M BERT网络的编码方式由token词向量v^t、情感向量v^E、位置向量v^p三部分组成，如图2所示，如

这句话的中文意思是“我今天很高兴啊

”，分别将其转为token词向量、情感向量和位置向量。其中，[CLS]句子开始分隔符标记，[SEP]为句子结束分隔符标记。E_n表示该词不是情感特征词标记，E_y表示该词是情感特征词标记。词向量(Token Embeddings)、情感向量(Emotion Embeddings)和位置向量(Position Embeddings)，通过下列公式计算蒙古语文本和表情符的输入序列对应的向量表示v：

v＝v^t+v^E+v^p

其中，v^t，v^E和v^p三种向量的大小均为N×e，N表示输入的蒙古语文本和表情符序列最大长度，e表示词向量维度。

v^t表示token词向量(Token Embeddings)，作用是通过词向量矩阵将输入的文本和表情符特征转化为实值向量表示，具体计算公式如下：

v^t＝e^tW^t

式中，W^t表示可训练的token词向量矩阵，e^t表示token词向量的编码。

v^E表示情感向量(Emotion Embeddings)，作用是通过标记来确定情感特征的信息，利用情感向量矩阵W^E将情感编码e^E转换为实值向量，得到情感向量v^E为：

v^E＝e^EW^E

式中，W^E表示可训练的情感向量矩阵，e^E表示情感向量的编码。

v^p表示位置向量(Position Embeddings)，作用是用来编码每个词的绝对位置，将输入序列中的每个词按照下标顺序依次转换为位置独热编码，并利用位置向量矩阵W^p将位置独热编码e^p转换为实值向量，得到的位置向量v^p为：

v^p＝e^pW^p

式中，W^p表示可训练的位置向量矩阵，e^p表示位置向量编码。

3、T-M BERT网络

T-M BERT网络的结构图如图3，与其他语言的BERT模型不同的是，这里引入一个情感标记掩盖层(Emotion marker layer)的概念，随机对情感标记以不同的概率进行掩盖，并遵循以下规则：以80％的概率替换为[MSAK]标记；以10％的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记(这里的蒙古语文本和表情符情感词典作为先验情感特征的数据源)；以10％的概率保持原词不变。

本发明T-M BERT网络针对情感分析任务对BERT网络做了两方面改进：①将段向量(Segment Encoding)替换为情感向量(Emotion Encoding)，传统的BERT网络里段向量的主要作用是用来判断语料的上下段位置信息。针对情感分析任务本发明提出情感向量的概念，通过重点标记情感特征标记，使的网络模型充分且重点学习情感特征，从而提升情感分析效率。②参考图4，将随机掩码替换为情感掩码，传统的BERT网络里随机掩码是对所有词进行随机掩盖并预测。本发明提出情感掩码的概念，对情感标记在一定概率上进行掩盖，并重点预测该标记信息，达到深层学习情感语义的目的。

具体地，首先，对获得的GIF短视频情感语料进行预处理操作，包括：移除无效的链接或者GIF短视频，移除GIF短视频中的冗余帧等操作；然后，采用ResNet3D网络获取视频短期局部时空情感特征，并提取关键帧；最后，通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模，从而得到GIF短视频二维长期时空情感特征。具体介绍如下：

1、提取局部特征的ResNet3D网络

ResNet3D网络由多个残差块堆叠而成，参考图5，残差块主要由两部分组成，一部分是通过引入恒等映射，在输入与输出之间建立了直接的关联通道，即快捷连接，另一部分是ReLu连接，其函数表达式为：

F(x)＝W₁σ(W₂x)

y＝F(x,W_i)+x

y＝F(x,W_i)+W_jx

x为GIF短视频在残差结构上的输入、W_j表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、W_i表示输入特征的权重矩阵、F(x,W_i)表示输入序列的情感特征。

2、Transformer及自注意力机制

G-Transformer网络由多个Transformer块组成。其中Transformer块结构图如图6所示，每个Transformer块分别由注意力机制(Self Attention)、归一化层(LayerNormal)、多层感知机(MLP)所构成，Transformer块中包含用于关注重点词汇特征信息的自注意力机制，自注意力机制用来关注重点词汇特征信息。其输入为n个向量组成的序列x₁,x₂,…,x_n，输出为每个向量对应的新向量表示y₁,y₂,…,y_n，其中所有向量的大小均为d，那么y_i的计算公式为：

式中，j是输入的蒙古语文本和表情符序列的索引值，a_ii是x_i与x_j之间的注意力权重，x_i和x_j分别表示输入的蒙古文和表情符序列中第i、j个字符的向量、y_i是经过注意力机制调整后的输入序列各向量表示。

3、提取全局特征的G-Transformer网络

G-Transformer网络如图7所示，其对GIF短视频提取情感特征的方法：首先，采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧；其次，将关键帧切分为固定大小的片段；然后，使用ResNet3D将每个片段转换成特征向量，并提取局部特征；最后，对每个片段进行位置编码，放入G-Transformer网络中训练获取全局情感特征信息。

步骤4：引入注意力机制动态调整文本、表情符和GIF短视频权重信息，将提取的特征作为最终的情感特征。

具体地，首先，将所有情感特征

计算的表达式为：

β_m＝softmax(P_m)

其中，P_m为隐藏单元状态，

为权重和偏置，β_m是归一化得到的向量。

为β_m的转置，作为计算最终情感特征

的权重参数。

本发明G-Transformer网络针对GIF短视频做了重点改进，充分结合了ResNet3D学习局部特征信息的优点以及Transformer网络获取全局特征信息的优势，构建了能够重点分析GIF短视频特征的情感分析网络，从而扩展了蒙古语情感分析业务能力。

步骤5：采用Softmax函数对最终的情感特征进行分类，获得蒙古语多模态情感分析模型，并得到最终的分类结果。

该步骤主要是对得到的最终情感特征

进行情感分类：

其中，准确率的计算公式

精确率的计算公式为

召回率的计算公式为

F1值的计算公式为

其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量；FN表示被模型预测为负例，但实际上为正例的样本数量；FP表示被模型预测为正例，但实际上为负例的样本数量；TN表示实际为负例，且被模型预测为负例的样本数，准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。如表5所示，给出了计算中所需的混淆矩阵。

表5混淆矩阵表

	预测为正例	预测为负例
			实际为正例	TP	FN
预测为负例	FP	TN

为验证本发明所提方法的有效性，针对蒙古文文本数据做了以下实验。该实验自建的两个蒙古文数据集为依托。数据集1中包含好、恶、怒、乐、哀、惊、惧七个情感类别，共53940条数据。数据集2中包含积极、消极两个情感类别，共25371条数据。所有实验均选用各数据集每个类别数据的90％作为训练集，剩余的10％作为测试集。首先，对每条数据进行数据清洗并删除无关数据，其次，采用Mongolian-regularization分词方式对蒙古文数据进行分词处理并转换成词向量，每个词向量维度是300。然后，利用本发明所提的T-MBERT情感分类算法对该数据集信息进行情感分类。最后，通过与基于机器学习的情感分类算法极限梯度提升(Extreme Gradient Boosting,XGBoost)、多项式贝叶斯分类器(Multinomial

Bayes)、支持向量机(Support Vector Machines，SVM)以及基于深度学习的情感分类算法长短期记忆网络(Long Short-Term Memory,LSTM)、快速文本分类(FastText)等算法进行对比，并在分类准确率指标上评价。实验结果如表6所示：

表6实验结果

由上表可以看出本实验所提的T-M BERT蒙古文情感分类方法在蒙古文七分类和二分类数据集上表现良好，情感分类准确率优于当前使用的基于机器学习和基于深度学习的情感分类方法。

为了进一步说明本发明中所提的T-M BERT情感分类算法收敛情况，图8中分别展示了T-M BERT、LSTM、Fasttext三个基于深度学习算法在10个训练周期中的准确率变化趋势。由图中可以看出，本发明所提的T-M BERT蒙古文情感分类算法能够在较短的训练周期内情感分类准确率能够达到优于LSTM、FastText情感分类算法的效果。以上实验能够充分证明本发明所提方法的有效性，该方法能够为蒙古文情感分析和舆情预测任务提供理论及实践参考。

Claims

1.基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，包括如下步骤：

步骤3：针对GIF短视频的情感分类模型，经过语料预处理、关键帧提取、局部特征处理、全局特征处理后，使用G-Transformer网络对GIF短视频提取情感特征；

2.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述步骤1中，采用网络爬虫技术获取中文多模态情感语料；然后将其转化成蒙古语多模态情感语料，并进行人工校正处理，达到扩充蒙古语语料的目的。

3.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述步骤2，语料预处理包括：移除用户名信息、移除特殊字符、错别字纠正；蒙古语分词是采用Mongolian-regularization蒙古语分词技术对预处理得到的蒙古语多模态情感语料进行切分操作；构建Vocab字典是利用蒙古语文本和表情符词典修正切分操作后的蒙古语多模态情感语料，得到最终的蒙古语Vocab词典；转换蒙古语词向量是根据蒙古语Vocab词典，训练T-M BERT自编码的词向量；最后，放入T-M BERT网络训练提取蒙古语文本和表情符情感特征。

4.根据权利要求3所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，用条件语句判断所述蒙古语文本和表情符词典中的标记是否在Vocab词典中出现，如未出现则将其加入到Vocab词典中，并逐渐更新Vocab词典，通过扩展情感词典的方式进一步扩充蒙古语情感特征；

v＝v^t+v^E+v^p

v^t＝e^tW^t

v^E＝e^EW^E

v^p＝e^pW^p

所述T-M BERT网络的结构中，引入一个情感标记掩盖层，随机对情感标记以不同的概率进行掩盖，并遵循以下规则：以80％的概率替换为[MSAK]标记；以10％的概率替换为蒙古语情感词典或表情符情感词典中的任意一个情感标记；以10％的概率保持原词不变。

5.根据权利要求1所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述步骤3中，语料预处理包括：移除无效的链接或者GIF短视频，移除GIF短视频中的冗余帧；关键帧提取和局部特征处理是采用ResNet3D网络获取GIF视频短期局部时空情感特征，并提取关键帧；最后，通过G-Transformer网络对GIF短视频的连续情感特征进行长期建模，从而得到GIF短视频二维长期时空情感特征。

6.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述ResNet3D网络由多个残差块堆叠而成，其中，残差块主要由两部分组成，一部分是通过引入恒等映射，在输入与输出之间建立了直接的关联通道，即快捷连接，另一部分是ReLu连接，其函数表达式为：

F(x)＝W₁σ(W₂x)

y＝F(x，W_i)+x

y＝F(x，W_i)+W_jx

x为GIF短视频在残差结构上的输入、W_j表示通过卷积使得输入特征和输出特征通道数相同的矩阵权重参数、W_i表示输入特征的权重矩阵、F(x，W_i)表示输入序列的情感特征；

所述G-Transformer网络由多个Transformer块组成，所述Transformer块中包含用于关注重点词汇特征信息的自注意力机制，其输入为n个向量组成的序列x₁，x₂，...，x_n，输出为每个向量对应的新向量表示y₁，y₂，...，y_n，其中所有向量的大小均为d，那么y_i的计算公式为：

7.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述使用G-Transformer网络对GIF短视频提取情感特征的方法如下：首先，采用基于镜头边界的方法提取GIF短视频的首尾帧作为关键帧；其次，将关键帧切分为固定大小的片段；然后，使用ResNet3D将每个片段转换成特征向量，并提取局部特征；最后，对每个片段进行位置编码，放入G-Transformer网络中训练获取全局情感特征信息。

8.根据权利要求5所述基于T-M BERT预训练模型的蒙古语多模态情感分析方法，其特征在于，所述步骤4方法如下：首先，将所有情感特征