CN116738359A

CN116738359A - 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

Info

Publication number: CN116738359A
Application number: CN202310586171.6A
Authority: CN
Inventors: 仁庆道尔吉; 赫瑞凤; 吉亚图; 刘娜; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-12
Anticipated expiration: 2043-05-23
Also published as: CN116738359B

Abstract

一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，对含有文本、短视频和音频的中文视频数据集进行机器翻译，得到蒙古语多模态情感语料，使用XLNet预训练模型和GCN提取文本情感特征，使用残差SSD网络和高分辨率表示网络HRNet提取视频情感特征，使用双向门控网络BiGRU提取音频情感特征；引入多头注意力机制，动态调整权重信息，将提取的特征作为最终的情感特征；采用Softmax函数对最终的情感特征进行分类，得到最终的分类结果。本发明能够克服由于蒙古语语料短缺带来情感分析不准确问题，并进一步提升对蒙古语的分析和舆情预测能力。

Description

基于预训练模型和高分辨网络的蒙古语多模态情感分析方法

技术领域

本发明属于人工智能技术领域，涉及自然语言处理，特别涉及一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法。

背景技术

随着互联网技术的迅速发展，网络已经成为了人们传播和发布各种信息、发表各种想法的主要手段。网络用户产生的数据林林总总各式各样，包括文字、音频、视频等多种数据形式。用户在各种平台记录、分享，传达着她们的情绪，

这些信息、想法的发布或多或少都带有用户的个人情感倾向，有着大量的情绪信息。多模态信息给用户带来更多的感官效果，用户随之发布的信息也提供了宝贵的蕴含情绪信息的资源。

随着人工智能的崛起，深度学习方法得到了广泛的关注，因其模型具有强大的特征学习能力，所以逐渐成为了解决情感分类问题的重要方法。但对于蒙古语这样的小语种来说，现有的情感分析方法存在以下三点不足。其一，由于蒙古语词汇丰富形态变化多，就造成了在蒙古语文本情感分析过程中出现了严重的未登录词现象，而大量未登录词的存在严重影响情感分析的准确率。其二，深度学习作为一种数据驱动的方法，只有当训练语料库达到一定的要求，深度学习模型才会表现出较好的分析效果。但可以收集到的蒙古语语料资源相对较少，因此无法满足深度神经网络模型训练的要求。其三，传统的神经网络模型在解决情感分析时分类效率有限，而由于蒙古语语料短缺等原因，目前预训练模型并没有在蒙古语情感分析领域得到充分的研究。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，以期克服由于蒙古语语料短缺带来情感分析不准确问题，并进一步提升对蒙古语的分析和舆情预测能力。

为了实现上述目的，本发明采用的技术方案是：

一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，包括如下步骤：

步骤1：对含有文本、短视频和音频的中文视频数据集进行机器翻译，得到蒙古语多模态情感语料；所述短视频中包含人脸，所述音频中包含人类语音；

步骤2：对蒙古语多模态情感语料中的蒙古语文本，利用文本情感分析模型提取文本情感特征；所述文本情感分析模型，使用Wordpiece分词技术将文本编码为单词向量，然后使用XLNet预训练模型和GCN提取文本情感特征；

步骤3：对蒙古语多模态情感语料中的蒙古语短视频，利用视频情感分析模型提取视频情感特征；所述视频情感分析模型，使用残差SSD网络和高分辨率表示网络HRNet提取视频情感特征；

步骤4：对蒙古语多模态情感语料中的蒙古语音频，利用音频情感分析模型提取音频情感特征；所述音频情感分析模型使用双向门控网络BiGRU提取音频情感特征；

步骤5：引入多头注意力机制，动态调整所述文本情感特征、所述视频情感特征和所述音频情感特征的权重信息，将提取的特征作为最终的情感特征；

步骤6：采用Softmax函数对最终的情感特征进行分类，得到最终的分类结果。

在一个实施例中，所述步骤1，将含有文本、音频和短视频的中文视频数据集进行提取得到文本、短视频和音频一一对应的数据，并通过神经机器翻译和人工校正处理，得到文本、短视频和音频一一对应的蒙古语多模态情感语料。

在一个实施例中，所述步骤2，对蒙古语文本进行语料预处理后，先使用Wordpiece分词技术，提取词的索引和词向量，建立索引字典和向量字典，转换为数组；然后以所述数组为XLNet预训练模型的输入，提取特征向量S_XLNet；对蒙古语文本，若句子中的某个词与其他词存在依存关系，则赋值为1；若不存在依存关系，则赋值为0，得到一个稀疏的邻接矩阵A，利用G＝{V，E}表示基于邻接矩阵A所构建的句法依赖图，V表示一个句子中节点的集合；E表示词和词之间依存关系的集合；将S_XLNet和邻接矩阵A共同作为图卷积神经网络GCN的输入，所得的输出即为文本情感特征F_T。

与现有技术相比，本发明的有益效果是：

(1)对含有文本、视觉和音频的中文视频数据集进行神经机器翻译和人工校正处理，得到蒙古语多模态情感语料。本发明采用Wordpiece分词技术以及蒙古语情感词典修正方法结合，更好的缓解因蒙古语语法的复杂性而出现的未登录词问题。

(2)本发明通过采用XLNet和GCN、残差SSD网络和HRNet、BiGRU分别学习蒙古语文本、短视频和音频三种模态的情感特征。从全方位、深层次、多角度进行情感分析。

(3)本发明通过使用多头注意力机制调整文字情感特征、视觉情感特征和音频情感特征的权重，获得更丰富的情感特征，提高情感分析模型的可信度和精确性。

附图说明

图1是本发明基于预训练模型和高分辨率网络的蒙古语多模态情感分析方法的流程图。

图2是XLNet结构示意图。

图3是基于预训练模型的蒙古语文本情感分析模型示意图。

图4是残差块示意图。

图5是残差SSD网络示意图。

图6是连接来自所有分辨率的(上采样)表示的HRNetV2模型示意图。

图7是短视频情感特征提取流程图。

图8是GRU隐藏状态结构图。

图9是GRU结构图。

图10是基于BiGRU的音频情感分析模型示意图。

图11是基于多头注意力机制的蒙古语多模态情感特征融合模型。

图12是本发明实施例在10个训练周期中的准确率变化趋势。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，过程如下：

步骤1：对含有文本、短视频和音频的中文视频数据集进行机器翻译，得到蒙古语多模态情感语料。其中短视频中一般应包括人脸，音频中则应包括人类语音。

由于蒙古语多模态情感语料信息不足，本发明对含有文本、短视频和音频的中文视频数据集进行提取得到文本、短视频和音频一一对应的数据，并通过神经机器翻译和人工校正处理，得到文本、短视频和音频一一对应的蒙古语多模态情感语料，达到扩充蒙古语语料的目的。示例地，短视频可采用GIF格式，占用空间小。

步骤2：对蒙古语多模态情感语料中的蒙古语文本，利用文本情感分析模型提取文本情感特征。所述文本情感分析模型，使用Wordpiece分词技术将文本编码为单词向量，然后使用XLNet预训练模型和GCN提取文本情感特征。

具体地，在本步骤中：

首先，对语料进行预处理，然后使用Wordpiece分词技术训练数据，提取词的索引和词向量，建立索引字典和向量字典，转换为数组，作为XLNet预训练模型的输入。

其次，利用XLNet预训练模型提取特征向量S_XLNet。

考虑到在标注数据很少的情况下，通过神经网络训练出的模型往往精度有限，而预训练可以很好地解决这个问题，并能对一词多义进行建模。因此基于XLNet构建蒙古语的预训练模型。XLNet是卡内基梅隆大学和谷歌研究人员在2019年开发的，应用置换语言建模目标来整合自回归(AR)和自动编码(AE)语言建模的优势，通过在输入序列分解顺序的所有排列上最大化期望似然，预先训练以学习双向上下文。在XLNet模型中，所有的记号都是随机预测的。参考图2，基于XLNet的特征提取以位置和特征极性为输入，输出为特征向量，过程可描述如下：

1)使用WordPiece词汇表为预处理阶段的每个输出词设置预定义的词ID。

2)将特殊标记放在序列的开始[CLS]和结束[SEP]处

3)将每个标记转换为向量表示

4)计算其输入的位置编码，见式(1-1)和(1-2)

5)由公式(1-3)计算自注意力

其中W^Q为查询矩阵，W^K为键矩阵，W^V为值矩阵，d_k为键向量的维度，Softmax为用于将得分归一化为概率值的函数。

6)在通过单层的感知之前将多注意总结为一个自注意

7)基于排列在目标词之前的词来预测目标词，见式(1-4)，其中XLNet允许从所有位置收集更多信息。

XLNet＝log(p(X_Zt|X_Z＜t)) (1-4)

8)使用编码标记的输出[CLS]，将编码输出设置为类别，在这些类别下，所有值均由公式(1-5)中所示的概率分布确定：

P(N|Emb)＝f(C^T·M^C) (1-5)

其中C^T是前馈激活函数，M^C是用于将函数映射到N个类的矩阵。

句法也是自然语言处理中的基础性工作，它分析句子的句法结构(主谓宾结构)和词汇间的依存关系(并列，从属等)。随着深度学习在NLP中的使用，句法分析已经变得不是非常必要。但是，蒙古语句法结构复杂，且标注样本较少，句法分析仍可以发挥出很大的作用。因此研究句法分析依然是很有必要的。本发明将XLNet和GCN结合，使模型能够利用句子的句法结构信息。Kpif等提出句子中的每个词与其本身相邻接，即邻接矩阵中的对角线元素均赋值为1。

对本发明的蒙古语文本，基于依存句法树中的依存关系，若句子中的某个词与其他词存在依存关系，则赋值为1。若不存在依存关系，则赋值为0，得到一个稀疏的邻接矩阵A。利用G＝{V，E}表示基于邻接矩阵A所构建的句法依赖图，V表示一个句子中节点的集合。E表示词和词之间依存关系的集合。将S_XLNet和邻接矩阵A共同作为图卷积神经网络GCN的输入，GCN对使用注意力机制所得的特征表示S_XLNet和邻接矩阵A进行卷积，得Z_i，即文本情感特征F_T：

其中ReLU代表激活函数；A为依赖句法关系构建的邻接矩阵；为A的度矩阵，W_C为GCN中的权重矩阵。

本发明采用集成模型的思想，将XLNet预训练模型提取的特征S_XLNet和根据文本构造的句法分析图得到的稀疏的邻接矩阵共同作为图卷积神经网络GCN的输入，所得的输出作为模型最终提取的文本情感特征F_T，模型可参考图3所示。

本步骤中，针对蒙古语文本特征，采用分词技术对数据进行分词，使用预训练模型提取出的特征和根据文本构造的句法分析图所提取的邻接矩阵共同输入图卷积神经网络中进行融合，能更好地缓解因蒙古语语法的复杂性而出现的未登录词问题，以提高蒙古语文本情感分析的质量。

步骤3：对蒙古语多模态情感语料中的蒙古语短视频，利用视频情感分析模型提取视频情感特征。所述视频情感分析模型，使用残差SSD网络和高分辨率表示网络HRNet提取视频情感特征。

参考图4和图5，本步骤中，对蒙古语短视频，首先基于残差SSD网络获取视频局部时空情感特征，再通过语义上更丰富，空间上更精确的HRNet对其进行建模实现面部关键点检测，从而得到二维时空情感特征，接着在二维时空情感特征的基础上利用卷积神经网络再次学习深层特征得视频情感特征F_V。

残差网络是许多残差块堆积到一起之后形成一种较深的网络结构。残差块可以用来跳过对模型精度提升效果欠佳的层的训练。在SSD算法中采用ResNet作为基础网络，既具有加深神经网络层数提升模型效果，且对其它数据集泛化能力较强的作用，又可以允许网络更深，使得模型更小但又具有较强的表征能力。之后将产生的输出经过处理作为高分辨率表示网络HRNet的输入。HRNet并行连接高到低卷积流。它在整个过程中保持高分辨率表示，从第一阶段的高分辨率子网开始，从高分辨率到低分辨率依次添加子网，形成多个阶段，将多分辨率子网并行连接，并在整个过程中重复交换并行多分辨率子网中的信息，进行重复的多尺度融合来生成具有强位置敏感性的可靠高分辨率表示。

示例地，HRNet使用HRNetV2，参考图6，通过双线性上采样重新调整低分辨率表示，而不改变高分辨率的通道数量，并连接四个表示，然后进行1×1卷积以混合四个表示。将由残差SSD网络初步提取的局部时空情感特征作为HRNet的输入，不断融合不同尺度的信息得最终的视觉情感特征F_V，过程可参考图7。

本步骤中，将提取短期局部时空情感特征的残差SSD网络和提取高分辨率表示的HRNet网络融合，以提高蒙古语短视频情感分析的质量。

步骤4：对蒙古语多模态情感语料中的蒙古语音频，利用音频情感分析模型提取音频情感特征。所述音频情感分析模型使用双向门控网络BiGRU提取音频情感特征。

语音情感分析任务中的音频片段处理是一个序列任务。音频信号不仅具有复杂的空间特征，而且具有丰富的时间特征。音频信号的顺序对模型分析其情感特征非常重要。语音情感分析通过采集说话人的语音信号，并对原始信号预处理后再进行特征提取与分类，为减弱采集信号时由于声音采集设备差异引入的噪声等，需对语音信号进行提高语音高频部分的预加重、切割较长的语音信号为固定长度的分帧等预处理操作。在语音信号分帧后，每一帧的起始位置和终止位置都会出现间断，切分的帧数越多，与原始信号之间的误差值越大。

对蒙古语音频，本发明首先使用OPENSMILE提取低级语音特征。这些特征包括12个梅尔频率倒谱系数(MFCCs，Mel-scaleFrequency Cepstral Coefficients)、音调跟踪、浊音/浊音分割特征、声门源参数和峰值斜率参数。一般来说，梅尔频率倒谱系数是原始音频的准确表示。MFCC即梅尔频率倒谱系数，是音频的时域信号经过FFT变换成频谱，再映射在梅尔频率上，再经过IDFT变换过程中的0-L个系数(L通常取12-16)。因此本发明使用梅尔频率倒谱系数作为音频情感分析模型的输入。

然后，基于XLNet将提取出的梅尔频率倒谱系数编码为固定长度的离散序列作为BiGRU的输入。由于多模态特征融合需要对数据进行矩阵操作，以确保与文本特征长度相同，故音频特征的不满所需步长的部分缺失部分设为0。

最后使用双向门控网络(BiGRU，Bidirectional Gate Recurrent Unit)提取合适的音频情感特征F_A，用于后续模态融合。

参考图8和图9，GRU(Gated Recurrent Unit)是一种特殊循环神经网络(RNN)，由两个循环神经网络(RNN)组成，充当编码器和解码器对。编码器将变长源序列映射到定长向量，解码器将向量表示映射回变长目标序列。在给定源序列的情况下，两个网络联合训练以最大化目标序列的条件概率。为了解决标准RNN的梯度消失问题，GRU使用了更新门(updategate)与重置门(reset gate)。基本上，这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。

GRU中重置门r_t的计算方法如下：

r_i＝σ([W_rx]_j+[U_rh_＜t-1＞]_j) (1-7)

类似地，更新门z_j由下式计算：

z_i＝σ([W_zx]_j+[U_zh_＜t-1＞]_j) (1-8)

隐藏状态计算公式为：

其中，

在这个公式中，当复位门接近0时，隐藏状态被强制忽略之前的隐藏状态，并使用当前输入重置。这有效地允许隐藏状态删除将来发现不相关的任何信息，从而允许更紧凑的表示。

由于每个隐藏单元都有单独的重置和更新门，每个隐藏单元将学习在不同的时间尺度上捕获依赖关系。那些学会捕获短期依赖关系的单元将倾向于具有频繁活动的重置门，但那些捕获长期依赖关系的单元将具有大部分活动的更新门。将基于BiGRU的音频情感分析模型得到的输出作为音频情感特征FA，过程可参考图10所示。

本步骤中，基于BiGRU能够提取蒙古语音频复杂的空间特征和丰富的时间特征。

步骤5：引入多头注意力机制，动态调整所述文本情感特征、所述视频情感特征和所述音频情感特征的权重信息，将提取的特征作为最终的情感特征。

网络中的情感数据复杂多样，各模态情感特征的贡献程度对最后的情感分类会产生直接的影响。为了反映不同情感特征向量的重要性，本发明拟在特征融合层采用跨模态分层融合的方式捕捉对话语境中最有效的词汇，从而获得更准确的情感语义向量表示。参考图11，以文本情感特征F_T、音频情感特征FA和视觉情感特征F_V作为输入。对于多模态交互，本发明使用外积表示视觉-文本(VT)、声学-文本(AT)和声学-视觉(AV)特征。

F_T＝{t₁，t₂，...，t_n}，F_A＝{a₁，a₂，...，a_n}，F_V＝{v₁，v₂，...，v_n}，n

为样本数量。t_n、a_n、v_n分别表示第n个文本情感特征、第n个音频情感特征和第n个视频情感特征。任意两个模态的张量融合是外积。根据F_T、F_A和F_V可以学习AV特征矩阵F_AV、AT特征矩阵F_AT和VT特征矩阵F_VT，如式(1-11)所示。

其中，VT表示视觉-文本，AT表示声学-文本，AV表示声学-视觉，表示点积运算。

为了获得维数一致的特征，使用ReLU激活函数作用于F_AV、F_AT和F_VT，变换后的特征如式(1-12)所示。其中W_AV、W_AT、W_VT为可学习的变换矩阵，b_AV、b_AT、b_VT为偏置矩阵。

为了进一步提取深层特征，将和/>输入到共享层以减少存储空间，共享层意味着用于训练这三个成对特征的参数是共享的。如式(1-13)所示，得到模态间相互作用特征，表示为H_S，其中S∈{AV，AT，VT}，FC为全连通层，θ为可学习参数矩阵。

为了进行模态间信息交互，计算成对模态的贡献，并从不同表示子空间中捕获相关信息，将提取的跨模态相互作用特征进行拼接，如式(1-14)所示。D表示多模态特征，包括多种模态的所有特征，concat表示拼接。

D＝concat(H_AV，H_AT，H_VT) (1-14)

对特征矩阵D、H_AV、H_AT、H_VT进行多头线性投影，并映射到具有相同维数d_m的空间，如下式(1-15)所示。

其中W_D1，W_D2为多模态特征D的不同的投影矩阵，W_Q为AV、AT、VT的投影矩阵，i为不同投影空间中运算的指标，对不同的双峰特征使用相同的参数矩阵以减少参数数量和内存消耗。在获得不同投影空间的特征后，利用注意机制探索成对模态之间的互补关系。AV、AT、VT注意力机制应用如下式所示：

其中为采用不同投影矩阵对多模态特征D进行投影运算后的投影矩阵，/>为对不同的双峰特征使用相同的参数矩阵/>的运算结果。

为了得到分配注意后的成对模态间特征表示，将每个头部的AV、AT和VT注意分别进行级联并进行线性层变换。如式(1-17)所示，W_O为权重参数。

其中，W_O为权重参数，h为投影空间指标。

综上，将基于XLNet的蒙古语文本情感分析模型和短视频情感分析网络模型做并行处理，采用跨模态特征融合的方式动态分配文本情感特征、视频情感特征和音频情感特征的权重得到最终的情感特征。将此多模态特征融合模型作为最终的蒙古语多模态情感分析模型。

本步骤采用多头注意力机制从不同层面考虑相关性，给予注意力层的输出包含有不同子空间中的编码表示信息，从而增强模型的表达能力。

步骤7：将基于预训练模型和高分辨表示的蒙古语多模态情感分析模型的分析结果单独的文本情感分析模型、短视频情感分析模型和音频情感分析模型的分析结果就准确率、精确率、召回率和F1值进行对比和评价，以达到提高蒙古语多模态情感分析和舆情预测性能的目的。

具体地，准确率的计算公式精确率的计算公式为召回率的计算公式为/>F1值的计算公式为/>其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值，TP表示实际为正例，且被模型预测为正例的样本数量。FN表示被模型预测为负例，但实际上为正例的样本数量。FP表示被模型预测为正例，但实际上为负例的样本数量。TN表示实际为负例，且被模型预测为负例的样本数，所述准确率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

如表1所示，给出了计算中所需的混淆矩阵。

表2混淆矩阵表

	预测为正例	预测为负例
			实际为正例	TP	FN
预测为负例	FP	TN

案例1：为证明本发明所提方法的有效性，针对中文视频数据集进行提取并通过神经机器翻译和人工校正处理得到的蒙古语文本情感语料做了以下实验。

文本情感语料数据集中包含积极、消极两个情感类别，共1836条数据。实验选用每个类别数据的80％作为训练集，剩余的20％作为测试集。首先，对每条数据进行数据清洗并删除无关数据，其次，采用分词方式对数据进行分词处理并转换成词向量，每个词向量维度是768。然后，利用本发明所提的文本情感分析模型对该数据集信息进行情感分类。最后，在分类准确率指标上评价。在10个训练周期中的准确率变化趋势如图12所示。可以看出分类准确率由上图可以看出，本发明所提的文本情感分析模型能够在较短的训练周期内情感分类准确率就能够达到大于0.7的效果。以上实验能够充分证明本发明所提方法的有效性，该方法能够为蒙古文情感分析任务提供理论及实践参考。

Claims

1.一种基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述步骤1，将含有文本、音频和短视频的中文视频数据集进行提取得到文本、短视频和音频一一对应的数据，并通过神经机器翻译和人工校正处理，得到文本、短视频和音频一一对应的蒙古语多模态情感语料。

3.根据权利要求1所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述步骤2，对蒙古语文本进行语料预处理后，先使用Wordpiece分词技术，提取词的索引和词向量，建立索引字典和向量字典，转换为数组；然后以所述数组为XLNet预训练模型的输入，提取特征向量S_XLNet；对蒙古语文本，若句子中的某个词与其他词存在依存关系，则赋值为1；若不存在依存关系，则赋值为0，得到一个稀疏的邻接矩阵A，利用G＝{V，E}表示基于邻接矩阵A所构建的句法依赖图，V表示一个句子中节点的集合；E表示词和词之间依存关系的集合；将S_XLNet和邻接矩阵A共同作为图卷积神经网络GCN的输入，所得的输出即为文本情感特征F_T。

4.根据权利要求3所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，在GCN中，对使用注意力机制所得的特征向量S_XLNet和邻接矩阵A进行卷积，得Z_i，即文本情感特征F_T：

5.根据权利要求1所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述步骤3，对蒙古语短视频，首先基于残差SSD网络获取视频局部时空情感特征，再通过HRNet对其进行建模实现面部关键点检测，从而得到二维时空情感特征，接着在二维时空情感特征的基础上利用卷积神经网络再次学习深层特征得视频情感特征F_V。

6.根据权利要求5所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述HRNet为HRNetV2，通过双线性上采样重新调整低分辨率表示，而不改变高分辨率的通道数量，并连接四个表示，然后进行1×1卷积以混合四个表示；将由残差SSD网络初步提取的局部时空情感特征作为HRNet的输入，不断融合不同尺度的信息得最终的视觉情感特征F_V。

7.根据权利要求1所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述步骤4，对蒙古语音频，首先使用OPENSMILE提取低级语音特征，将其中的梅尔频率倒谱系数作为音频情感分析模型的输入；

然后基于XLNet将提取出的梅尔频率倒谱系数编码为固定长度的离散序列作为BiGRU的输入；

最后使用BiGRU提取音频情感特征F_A。

8.根据权利要求1所述基于预训练模型和高分辨网络的蒙古语多模态情感分析方法，其特征在于，所述步骤5，根据F_T、F_A和F_V，学习AV特征矩阵F_AV、AT特征矩阵F_AT和VT特征矩阵F_VT，如下所示：

其中，VT表示视觉-文本，AT表示声学-文本，AV表示声学-视觉，表示点积运算；F_T＝{t₁,t₂，…，t_n}，F_A＝{a₁,a₂，…，a_n}，F_V＝{v₁,v₂，…，v_n}，n为样本数量；t_n、a_n、v_n分别表示第n个文本情感特征、第n个音频情感特征和第n个视频情感特征；

使用ReLU激活函数作用于F_AV、F_AT和F_VT，变换后的特征如下所示：

其中W_AV、W_AT、W_VT为可学习的变换矩阵，b_AV、b_AT、b_VT为偏置矩阵；

将和/>输入到共享层以减少存储空间，得到模态间相互作用特征H_S，如下所示：

其中S∈{AV,AT,VT}，FC为全连通层，θ为可学习参数矩阵；

将提取的模态间相互作用特征进行拼接，如下：

D＝concat(H_AV,H_AT,H_VT)

D表示多模态特征，包括多种模态的所有特征，concat表示拼接；

对D、H_AV、H_AT、H_VT进行多头线性投影，并映射到具有相同维数d_m的空间，如下：

其中W_D1,W_D2为多模态特征D的不同的投影矩阵，W_Q为AV、AT、VT的投影矩阵，i为不同投影空间中运算的指标，对不同的双峰特征使用相同的参数矩阵

AV、AT、VT注意力机制应用如下：

其中为采用不同投影矩阵对多模态特征D进行投影运算后的投影矩阵，为对不同的双峰特征使用相同的参数矩阵/>的运算结果；

将每个头部的AV、AT和VT注意分别进行级联并进行线性层变换，如下：

其中，W_O为权重参数矩阵，h为投影空间指标。