CN117688936B

CN117688936B - 一种图文融合的低秩多模态融合情感分析方法

Info

Publication number: CN117688936B
Application number: CN202410158289.3A
Authority: CN
Inventors: 易文龙; 黄暄; 刘木华; 杨文姬; 熊焕亮; 殷华; 徐亦璐
Original assignee: Jiangxi Agricultural University
Current assignee: Jiangxi Agricultural University
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-04-19
Anticipated expiration: 2044-02-04
Also published as: CN117688936A

Abstract

本发明涉及一种图文融合的低秩多模态融合情感分析方法，本发明获取网络平台用户意见图文对数据并制作用户意见图文对数据集；使用双向编码表征模型提取用户意见图文对中的文本特征；使用结构重参数化视觉几何组模型提取用户意见图文对中的图像特征；通过多模态特征融合层对提取出的文本特征和图像特征进行低秩多模态融合，得到多模态融合特征：将多模态融合特征输入情感分类器中进行三分类预测，获取到最终用户情感预测。本发明通过多模态特征融合层对提取出的文本特征和图像特征进行低秩多模态融合，提升了用户意见图文对情感预测的准确性，有效解决了单一模态下情感识别的混淆性，提高了情感模型预测的效果和性能。

Description

一种图文融合的低秩多模态融合情感分析方法

技术领域

本发明属于自然语言处理情感分析领域，具体涉及一种图文融合的低秩多模态融合情感分析方法。

背景技术

情感分析技术作为自然语言处理的一项重点技术，旨在通过用户发表的各类信息推理出其想要表达的情感极性，主要用于识别和提取音频、图像或文本中的情感倾向、态度和情绪。在过去二十年的时间中，研究人员一直在研究如何为机器赋予认知能力，使得人工智能可以像人类一样识别、分析和表达情感和情绪，此项技术不仅可以为电商产业提供用户对产品、服务和活动评价的商业价值，还可以为社交平台精准预测用户情感提供帮助。

随着互联网的普及和社交媒体平台的迅速发展，大量表达个人观点的图像和文本相结合的数据开始大量被用户所发表，仅基于单一角度信息进行情感分析已经不能满足精准预测用户评论情感的要求，在传统的单模态情感分析方法中，通常仅采取某一种信息作为分析对象，如单一文本、图像、音频等，在大量的单一数据源中识别和判断用户情感，然而基于单一角度对用户情感进行分析，会存在无法全面考虑到用户的真实情感的问题，由此提出了多模态情感分析技术。多模态研究旨在通过融合不同的模态来最大程度地减少信息损失和语义混淆，结合音频、视觉或文本等等多模态信息提高情感预测的准确性，然而多模态情感分析存在多方面的研究难点，比如巨大的数据量和日益增长的数据多模态化；在使用张量进行多模态融合时，通常会受到指数增长的限制和内存成本的缺陷，严重影响模型的适用等都是目前情感分析研究难以攻克的障碍。在多模态信息进行特征融合的过程中通常使用张量进行处理，这往往会收到指数增长的限制和内存成本的缺陷，并且还会影响分析模型的适用性。

发明内容

为解决单一模态判断用户情感的局限性和在多模态特征融合时产生的张量维度冗余现象，本发明目的是提出一种图文融合的低秩多模态融合情感分析方法，结合双向编码表征模型和结构重参数化视觉几何组模型对文本和图像两类模态进行特征提取，采取一种低秩多模态融合方法进行特征融合，再结合池化、激活函数等操作传入情感分类层中，最终实现在多模态情况下对用户意见图文对的情感分析预测。

本发明通过下述技术方案实现。一种图文融合的低秩多模态融合情感分析方法，步骤如下：

步骤一：对网络平台用户意见图文对的数据集进行预处理操作，将数据集分为积极、消极和中性三分类标签，所述用户意见图文对包括用户意见文本数据和图像数据；

步骤二：对用户意见图文对的数据集进行统一标签对齐处理，得到处理好的用户意见图文对数据集；

步骤三：使用双向编码表征模型提取用户意见图文对中的文本特征；

步骤四：使用结构重参数化视觉几何组模型提取用户意见图文对中的图像特征；

步骤五：通过多模态特征融合层对提取出的文本特征和图像特征进行低秩多模态融合，得到多模态融合特征：

对文本特征和图像特征用1扩充维度获得扩充后的文本模态特征和图像模态特征；

对文本模态特征和图像模态特征进行外积处理得到高维张量；

将高维张量与各模态所获取的低秩因子进行像素级乘法，得到多模态融合特征；

步骤六：将多模态融合特征输入情感分类器中进行三分类预测，获取到最终用户情感预测。

进一步优选，使用双向编码表征模型提取用户意见图文对中的文本特征的过程如下：

获取到实例化后的双向编码表征模型的分词处理器，将输入的用户意见图文对中的每条用户意见文本数据进行切分，分词处理器将每条用户意见文本数据拆分为分词集合，获取到每条意见文本数据的分词列表数据；分词列表数据经过双向编码表征模型的词嵌入层和编码层处理，得到编码后的每条用户意见文本数据的分词编码列表数据，包括索引嵌入矩阵、序列顺承关系矩阵和标识矩阵；在获取每条用户意见文本数据的分词编码列表数据后，通过调整双向编码表征模型中填充和截断参数对分词进行维度调整，最后通过设置参数将分词编码列表数据转化为张量数据，在提取每条用户意见文本数据的分词编码列表数据后，结合使用自注意力机制，获取到每条用户意见文本数据的分词权重列表。

进一步优选，所述结构重参数化视觉几何组模型（RepVGG）分为两个阶段执行，分别为训练阶段和推理阶段；在训练阶段使用多分支结构，将21层的规模为3×3卷积层进行堆积处理，并具体分为5个阶段，每个阶段中分别包含[1,2,3,14,1]层，其中第一层设置了步长为2的降采样，每个卷积层使用ReLU作为激活函数，并且在每个卷积层中都添加一个规模为1×1卷积层分支和恒等映射分支，3×3卷积层、1×1卷积层分支和恒等映射分支构成了多分支结构；在推理阶段中使用单分支结构，仅由3×3卷积层和ReLU层线性堆叠而成。

进一步优选，使用结构重参数化视觉几何组模型提取用户意见图文对中的图像特征的过程为：首先调用Python图像处理库初步读取图像数据，并使用Transformer库进行形状重塑处理，将图像统一划分为长宽比为224:224的图像像素序列，获取到图像像素序列后，输入到结构重参数化视觉几何组模型中进行训练，在初始化结构重参数化视觉几何组模型时，将图像像素序列G使用Python中的维度转换方法进行维度扩张，使得图像像素序列重塑为能够传入结构重参数化视觉几何组模型的输入；使用结构重参数化视觉几何组模型对输入进行结构重参数化的多分支结构到单分支结构的变形，在推理阶段内进行多分支的权重与偏置的融合，采取线性运算的计算方式提取图像特征，得到图像特征后，图像特征与用户意见文本数据的分词权重列表进行聚合计算，最终获得特定文本下的图像区域特征。

进一步优选，图像特征与用户意见文本数据的分词权重列表进行聚合计算的过程如下：

；

其中，表示结合特定文本权重获取的第i个图像区域特征，分别表示第i个图像区域特征的第1,2,…,n个图像区域特征像素点，表示的转置，表示第i张图像经过结构重参数化视觉几何组模型推理阶段处理后的图像特征，表示第i条用户意见文本数据的分词权重列表，表示第i条用户意见文本数据第j个分词的权重，表示第 i个图像特征第j个像素点。

进一步优选，所述对文本特征和图像特征用1扩充维度获得扩充后的文本模态特征和图像模态特征的过程如下：

；

其中，表示结合特定文本权重获取的第i个图像区域特征，表示第i条用户意见文本数据的分词编码列表数据，表示视觉方面的扩充了1维度的图像模态特征，表示语言方面的扩充了1维度的文本模态特征，将扩充后的图像模态特征与文本模态特征统一表示为，其中M表示单模态数量，m表示单模态编号，表示单模态扩充维度后的张量。

进一步优选，所述对文本模态特征和图像模态特征进行外积处理得到高维张量的具体计算过程如下：

；

其中，表示高维张量，后，d₁，d₂，…，d_m分别表示张量为1，2，…，m阶；表示外积操作，表示单模态扩充维度后的张量，表示一种数域表述，表示是m 阶张量。

进一步优选，所述将高维张量与各模态所获取的低秩因子进行像素级乘法，得到多模态融合特征，过程如下：

将高维张量输入线性层中，产生一个多模态融合特征，具体计算过程如下：

；

其中h表示多模态融合特征，表示高维张量转换为多模态融合特征所需低秩权重矩阵，表示偏移量；采取并行分解的方式，将低秩权重矩阵分解为M组与单模态相关的低秩因子，且所获取的高维张量也可以分解为；将低秩权重矩阵视为r个阶张量，每个M阶张量表示为：

；

其中，R表示能够使低秩权重矩阵分解成立的最小秩，表示第m个单模态特征的低秩权重矩阵分解后的第i个低秩因子，k表示分解后的阶数；通过人为设定固定的秩得到后，利用高维张量的秩分解低秩因子向量集合，对多模态融合特征进行重新排列，使多模态融合特征变为与模态个数相关的特征，接着令第m个单模态的低秩因子集合，分别表示第m个单模态阶数为1, 2,…,d_h的第i个低秩因子，得到重建后的低秩权重矩阵：

；

根据低秩权重矩阵的分解，并且已知，对多模态融合特征进行重新推算：

；

其中表示一系列张量的元素积，共包括图像和文本两种模态，则：

；

其中表示第v个单模态为图像模态的第i个低秩因子，表示第个单模态为文本模态的第i个低秩因子。

步骤一所述数据集包括MVSA-Single数据集和MVSA-Multi数据集；其中MVSA-Single数据集是由一位标注者对每个样本进行情感标签标注，针对MVSA-Single数据集，删除数据集中标注情感正负极性不同的用户意见图文对，在剩余的部分中，若存在图像和文本的情感标注中有一方为中性，则选择另一方积极或消极的标签作为该用户意见图文对的情感标签；MVSA-Multi数据集是由三位标注者对每个样本进行情感标签标注，针对MVSA-Multi数据集，统计在三位标注者中情感极性标注出现次数最多的一项作为单一模态的真实标签，当三位标注者中至少存在两个同一确切的标签时，该条用户意见图文对才被认为是有效的，当文本和图像标签一致时，保留该条用户意见图文对，当文本和图像出现两种标签各出现高于两次的情况时，删除该条用户意见图文对，当文本和图像出现一个标签为积极或消极，另一个标签为中性时，认为该条用户意见图文对的情感极性为积极或消极。

进一步优选，步骤六所述情感分类器为全连接层，使用全连接层对多模态融合特征进行情感预测，设置输出特征通道为3，满足预测用户意见图文对中三类情感极性。

本发明结合双向编码表征模型（BERT）和结构重参数化视觉几何组模型（RepVGG）对用户意见图文对进行特征提取、并使用低秩多模态融合方法（Low-rank Mudal Fusion ）进行多模态情感分析。通过结合使用神经网络对图像和文本数据进行特征抽取，提升了对用户意见图文对情感预测的准确性将张量和权重并行进行分解，利用单模态的低阶因子执行多模态融合，避免了计算高维张量而造成的内存开销和计算难度，将指数级的时间复杂度降低到了线性，提高模型训练的鲁棒性和泛化能力，在一定程度上解决了单一模态下情感识别的混淆性，并且通过降低特征结合为张量过程中所产生多余维度的缺陷影响提高了模型情感预测的效果和性能。

附图说明

图1是本发明的流程图；

图2是本发明框架结构示意图；

图3是图像特征提取示意图；

图4是低秩多模态融合过程示意图。

具体实施方式

下面结合附图和实施例进一步详细说明本发明。

参照图1和图2，一种图文融合的低秩多模态融合情感分析方法，步骤如下：

步骤一：对网络平台用户意见图文对 (MVSA)的两类数据集(MVSA-Single和MVSA-Multi)采取投票机制进行预处理操作，数据集分为积极、消极和中性三分类标签，所述用户意见图文对包括用户意见文本数据和图像数据。其中MVSA-Single数据集是由一位标注者对每个样本进行情感标签标注，共包括4869条用户意见图文对；MVSA-Multi数据集是由三位标注者对每个样本进行情感标签标注，共包括19600条用户意见图文对。针对MVSA-Single数据集，删除数据集中标注情感正负极性不同的用户意见图文对，在剩余的部分中，若存在图像和文本的情感标注中有一方为中性，则选择另一方积极或消极的标签作为该用户意见图文对的情感标签；针对MVSA-Multi数据集，采取改进后的投票机制，统计在三位标注者中情感极性标注出现次数最多的一项作为单一模态的真实标签，当三位标注者中至少存在两个同一确切的标签时，该条用户意见图文对才被认为是有效的，当文本和图像标签一致时，保留该条用户意见图文对，当文本和图像出现两种标签各出现两次以上（不包括两次）的情况时，删除该条用户意见图文对，当文本和图像出现一个标签为积极（或消极），另一个标签为中性时，认为该条用户意见图文对的情感极性为积极（或消极）。经过以上处理，最终获取到4511条MVSA-Single用户意见图文对和16779条MVSA-Multi用户意见图文对。具体用户意见图文对样本情况如表1所示：

表1

步骤二：对用户意见图文对的两类数据集进行统一标签对齐处理，得到处理好的用户意见图文对数据集。数据集中包括“积极”、“消极”和“中性”三种文字标注，将其转换为对应“2”、“0”和“1”的三种数字标签，从中获取到用户意见图文对与情感标注对应的“图像-文本-情感标注”，使用随机切割函数(random_split())对情感标注集进行切分，按照8：1：1的比例分割为训练集：验证集：测试集。

步骤三：使用双向编码表征模型提取用户意见图文对中的文本特征。参照图2，首先通过引入用于自然语言处理的Python第三方库Transformers库，调取公共的from_ pretrained()实例化方法初始化双向编码表征模型，为后续抽取文本特征作准备。获取到实例化后的双向编码表征模型的分词处理器，将输入的用户意见图文对中的用户意见文本数据进行切分，其中分别表示第1,2,…,c条用户意见文本数据。分词处理器将每条用户意见文本数据拆分为分词集合，获取到每条意见文本数据的分词列表数据，具体过程如公式（1）所示：

（1）；

其中，E_i表示第i条用户意见文本数据的分词列表数据，E_i={[e₁,e₂,…,e_n]}，其中i表示对应用户意见文本数据编号，i∈1，2,…,c；e₁,e₂,…,e_n分别表示第i条用户意见文本数据中的第1,2,…,n个分词，Token为分词处理器，并且在每条用户意见文本数据的开头和结尾处自动添加分类字符[CLS]和终止字符标志[SEP]。分词列表数据经过双向编码表征模型的词嵌入层和编码层处理，得到编码后的每条用户意见文本数据的分词编码列表数据，包括索引嵌入矩阵、序列顺承关系矩阵和标识矩阵，具体过程如公式（2）所示：

（2）；

其中，表示第i条用户意见文本数据的分词编码列表数据，分别表示第i条用户意见文本数据中第1,2,…,n个分词编码表征；表示第i条用户意见文本数据分词索引构成的索引嵌入矩阵，p₁,p₂…,p_n分别表示第i条用户意见文本数据中第1,2,…,n个分词的索引编码表征；表示第i条用户意见文本数据经过处理后的序列顺承关系矩阵，分别表示第1,2,…,n个标识分词所从属序列的位置编码；表示分词经过注意力机制标注过后的标识矩阵，分别表示第1,2,…,n个分词的注意力标识编码表征。

在获取每条用户意见文本数据的分词编码列表数据后，通过调整双向编码表征模型中填充（padding）和截断（truncation）参数对分词进行维度调整，最后通过设置参数（return_tensor）将分词编码列表数据转化为张量数据，由于所使用的数据集中图像与文本内容关联性较差的因素，本发明在提取到用户意见文本数据的分词编码列表数据后结合使用自注意力机制，获取第i条用户意见文本数据的分词权重列表，分别表示第1,2,…,n个分词的权重，为后续与图像特征融合和情感分析作准备；

步骤四：使用结构重参数化视觉几何组模型提取用户意见图文对中的图像特征。本发明主要采用结构重参数化视觉几何组模型（RepVGG）提取用户意见图文对中的图像特征，参照图2和图3，结构重参数化视觉几何组模型（RepVGG）分为两个阶段执行，分别为训练阶段和推理阶段。在训练阶段使用多分支结构，将21层的规模为3×3卷积层进行堆积处理，并具体分为5个阶段，每个阶段中分别包含[1,2,3,14,1]层，其中第一层设置了步长为2的降采样，每个卷积层使用ReLU()作为激活函数，并且在每个卷积层中都添加一个规模为1×1卷积层分支和恒等映射分支，这两种分支可以称为残差结构，为网络模型增加了多条梯度流动的路径，能够使得模型效果更加收敛，以上所提到的3×3卷积层、1×1卷积层分支和恒等映射分支构成了多分支结构；在推理阶段中使用单分支结构，仅由规模为3×3卷积层和ReLU层线性堆叠而成。

本发明使用的结构重参数化视觉几何组模型的预训练模型为RepVGG_A2，采取用户意见图文对中的图像信息，将3分支网络进行等价转换简化为单分支网络，利用卷积核的可加性将卷积层（卷积层+批归一化层）转换为仅带一个偏置的卷积层，然后将3个卷积以中心点为基准进行相加，将3个卷积合并为1个处理。提取过程中首先调用Python图像处理库 (PIL)初步读取图像数据，并使用Transformer库进行形状重塑处理，将图像统一划分为长宽比为224:224的图像像素序列G，第i个图像的图像像素序列表示为，其中g₁, g₂,…,g_u分别表示第1,2,..,u个图像像素表征。获取到图像像素序列后，输入到结构重参数化视觉几何组模型中进行训练，在初始化结构重参数化视觉几何组模型时，将图像像素序列G使用Python中的维度转换方法（permute）进行维度扩张，使得图像像素序列重塑为能够传入结构重参数化视觉几何组模型的输入，具体过程如公式（3）所示：

（3）；

其中premute()表示维度转换方法，，其中M⁽¹⁾表示结构重参数化视觉几何组模型的输入，表示图像存储格式的规则，其中N表示这批图像的张数，表示通道数，表示图像在竖直方向的像素个数，表示图像在水平方向的像素个数。使用结构重参数化视觉几何组模型对输入M⁽¹⁾进行结构重参数化的多分支结构到单分支结构的变形，具体可以分为3个步骤，首先将规模为1×1卷积层分支和恒等映射分支转换为能够与规模3×3卷积层匹配的3×3卷积，其中1×1的卷积可以直接使用填充参数（pad）扩增为3×3规模，恒等映射分支的作用主要是使得结构重参数化视觉几何组模型的输入和输出保持一致，主要通过使用调整权重参数的卷积和调取批归一化层的学习参数实现此目的，具体过程如公式（4）所示：

（4）；

其中表示结构重参数化视觉几何组模型多分支结构下的输出；表示3×3 的卷积操作；表示1×1卷积操作；分别表示在规模为3×3卷积层后的批归一化层(BN)的均值、标准差、尺度因子和偏置，同理，分别表示在规模为1×1卷积层后的批归一化层(BN)的均值、标准差、尺度因子和偏置；分别表示与恒等映射为一组的批归一化层（BN）的均值、标准差、尺度因子和偏置。将两类残差结构都转换为3×3维度后，需要在每个分支将卷积层和批归一化层进行融合以达到降低分支的目的，首先已知卷积操作如公式（5）所示：

（5）；

其中x表示输入的特征向量，W表示卷积层的权重，b表示卷积层的偏置。批归一化层（BN）所进行的操作可以由公式（6）所示：

（6）；

其中，表示批归一化层的尺度因子，表示批归一化层的均值，表示批归一化层的标准差，表示批归一化层的偏置，表示批归一化层调整模型结构的学习参数。此时将卷积带入批归一化层中，并且将在之前进行维度扩充时所获得带入公式（7）中进行计算：

（7）；

其中BN表示批归一化，Conv表示卷积，可以将公式（7）化简，得到公式（8）：

（8）；

表示3×3卷积和批归一化层进行融合，通过公式（8）将每个分支中的3× 3卷积和批归一化层进行融合，能够获取到每个分支中融合后的权重和偏置，已知每个多分支结构中共存在3类分支，其中包括3×3的卷积操作、1×1的卷积操作和恒等映射操作。3类分支权重矩阵表示为W={W₁,W₂,W₃}，W₁表示3×3的卷积操作权重，W₂表示1×1的卷积操作权重，W₃表示恒等映射操作权重。偏置矩阵表示为{b₁,b₂,b₃}, b₁表示3×3的卷积操作的偏置， b₂表示1×1的卷积操作的偏置，b₃表示恒等映射操作的偏置。在推理阶段内进行多分支的权重与偏置的融合，采取线性运算的计算方式，最终提取出图像特征。具体过程如公式（9）所示：

（9）；

其中,表示第i张图像经过结构重参数化视觉几何组模型推理阶段处理后的图像特征，分别表示第i个图像特征中第1,2,…,n个像素点。得到图像特征后，与步骤三中所取得的用户意见文本数据的分词权重列表进行聚合计算，最终获得特定文本下的图像区域特征，具体过程如公式（10）所示：

（10）；

其中，表示结合特定文本权重获取的第i个图像区域特征，分别表示第i个图像区域特征的第1,2,…,n个图像区域特征像素点，表示的转置，表示第i 条用户意见文本数据第j个分词的权重，表示第i个图像特征第j个像素点。

步骤五：通过多模态特征融合层对提取出的文本特征和图像特征进行低秩多模态融合，得到多模态融合特征；

本实施例对于多模态融合的目标主要是将单模态的表征整合为一个紧凑的多模态表征，针对上述所阐述的风险，采取一种低秩多模态融合方法进行分析，参照图4，实现过程主要如下：

将高维张量与各模态所获取的低秩因子进行像素级乘法，得到多模态融合特征。

本实施例中，对文本特征和图像特征用1扩充维度获得扩充后的文本模态特征和图像模态特征的具体如公式（11）和公式（12）所示：

（11）；

（12）；

其中表示视觉（Vision）方面的扩充了1维度的图像模态特征，表示语言（Language）方面的扩充了1维度的文本模态特征，将扩充后的图像模态特征与文本模态特征统一表示为，其中M表示单模态数量，m表示单模态编号，表示单模态扩充维度后的张量。

本实施例中，对文本模态特征和图像模态特征进行外积处理得到高维张量的具体计算过程如公式（13）和公式（14）所示：

（13）；

（14）；

本实施例所述将高维张量与各模态所获取的低秩因子进行像素级乘法，得到多模态融合特征，其过程如下：

将高维张量输入线性层中，产生一个多模态融合特征，具体计算过程如公式（15）所示：

（15）；

其中h表示多模态融合特征，表示高维张量转换为多模态融合特征所需低秩权重矩阵，表示偏移量。此时因为多个高维张量的计算相乘造成大量的计算消耗，故采取并行分解的方式，将低秩权重矩阵分解为M组与单模态相关的低秩因子，且所获取的高维张量也可以分解为；将低秩权重矩阵视为r个阶张量，每个M阶张量表示为，具体设置为公式(16)所示：

(16)；

其中，R表示能够使低秩权重矩阵分解成立的最小秩，表示第m个单模态特征的低秩权重矩阵分解后的第i个低秩因子，k表示分解后的阶数；通过人为设定固定的秩得到后，利用高维张量的秩分解低秩因子向量集合，对多模态融合特征进行重新排列，使多模态融合特征变为与模态个数相关的特征，接着令第m个单模态的低秩因子集合，分别表示第m个单模态阶数为1, 2,…,d_h的第i个低秩因子，由此可以得到重建后的低秩权重矩阵，具体如公式（17）所示：

（17）；

根据低秩权重矩阵的分解，并且已知，可以化解公式（15）进行重新推算，具体计算过程如公式（18）所示：

（18）；

其中表示一系列张量的元素积，在本发明中共包括图像和文本两种模态，具体实施过程如公式（19）所示：

（19）；

其中表示第v个单模态为图像模态的第i个低秩因子，表示第个单模态为文本模态的第i个低秩因子。所得多模态融合特征，分别表示多模态融合特征的第1,2,…,n个特征。

本实施例在进行多模态融合时，为了充分利用异质数据的互补性，通过计算单个模态的笛卡尔积获取到对应文本模态特征和图像模态特征，再将文本模态特征和图像模态特征进行外积计算，可以获取到高维张量，这样既保证了多模态间的特征，还保证了各单模态中的特征，得到高维张量后，通过一个线性层产生一个向量表示，线性层中包含权重和偏移量，为取得单模态笛卡尔积后的文本模态特征和图像模态特征和线性层中的权重张量进行了大量的计算，需要显式地创建一个高维张量，不仅会导致模态数据呈指数级增长导致内存消耗，还会使得模型面临过度拟合的风险。为了解决这一问题，本发明采取了一种并行分解策略，通过获取多模态外积后得到的高维张量和线性处理中设置的低秩权重矩阵，结合使用最小最低的能使得这两种张量分解有效的秩度进行分解，从而降低张量爆炸带来的计算冗余。

本实施例中，步骤六所述情感分类器为全连接层，使用全连接层对多模态融合特征进行情感预测，设置输出特征通道为3，满足预测用户意见图文对中三类情感极性（积极、消极和中性）。为预测和比较本发明构建模型的性能，分别选取了当前比较热门的多模态模型进行性能评估，并且选取准确率和F1-score作为模型评估指标。具体结果如表2所示：

表2

由表2可以看出，本发明所提出的BERT-RepVGG结合低秩多模态融合方法的模型，与近年来对于多模态融合研究提出的模型（如表2所示）进行比较，在效果上均取得了最优值，其中根据对比方法中效果最好的CoMN方法，本发明所提出的模型在MVSA-Single数据集上准确性和F1-score分别提高了4.74%和4.35%，在MVSA-Multi数据集上分别实现了4.94%和3.81%的性能提升。为了进一步验证BERT-RepVGG结合低秩多模态融合方法的模型的优越性，还实现了对单一模态（图像和文本信息）的模型预测比较，具体结果如表3所示：

表3

由表3结果可以看出，在所有模块组成上多模态融合的预测效果取得最优，去除任意一个模态都会造成较差性能。相比于在仅保留文本信息进行情感分析的情况下，本发明提出的BERT-RepVGG结合低秩多模态融合方法的模型在MVSA两个数据集上取得了较好提升，在MVSA-Single数据集上准确性和F1-score都提升了9%和18.76%，在MVSA-Multi数据集上准确性和F1-score分别提升了13.45%和12.61%；在仅保留图像信息进行情感预测的情况下，本发明提出的多模态模型在MVSA-Single数据集上准确性和F1-score提升了1.85%和9.73%，在MVSA-Multi数据集上准确性和F1-score提升了8.88%和9.36%。综上所述，可以看出本发明所提出的结合图像和文本形成的用户意见图文对信息进行多模态情感分析的模型性能是卓越的。

针对本发明使用的低秩多模态融合方法，也采取对比其他特征融合方法的实验效果进行模型评估，进行了在保持抽取文本和图像信息模型不变的情况下变换融合策略的实验。一方面是仅对文本特征和图像特征简单地拼接在一起传入模型中进行预测；另一方面是在获取图像模态特征时结合了基于自注意力机制得到的用户意见文本数据分词权重列表，增强了图像与文本之间的关联性，并且在低秩多模态融合中，单模态特征自身进行外积处理，也丰富了图像与文本自身信息的完整度，从而获取到多模态融合特征再传入情感分类器中进行预测，具体结果如表4所示。

表4

由表4可以看出，本发明所提出的BERT-RepVGG结合低秩多模态融合方法的模型在两类数据集上取得了良好的效果，其中在MVSA-Single数据集上，本发明模型的准确性和F1-score比起简单拼接和自注意力机制分别提升了8.25%、4%和11.11%、3.53%；在MVSA-Multi数据集上，本发明所提出的BERT-RepVGG结合低秩多模态融合方法的模型的准确性和F1-score比起特征拼接和自注意力机制拼接分别提升了15.26%、5.36%和2.65%、10.93%。由此可见，本发明使用的低秩多模态融合方法不仅避免了计算高维张量而造成的内存开销，还使得模型训练效果了有了显著提升，能够取得更加准确的情感预测结果。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该本发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图文融合的低秩多模态融合情感分析方法，其特征在于，步骤如下：

步骤六：将多模态融合特征输入情感分类器中进行三分类预测，获取到最终用户情感预测；

其中，使用结构重参数化视觉几何组模型提取用户意见图文对中的图像特征的过程为：首先调用Python图像处理库初步读取图像数据，并使用Transformer库进行形状重塑处理，将图像统一划分为图像像素序列，获取到图像像素序列后，输入到结构重参数化视觉几何组模型中进行训练，在初始化结构重参数化视觉几何组模型时，将图像像素序列G使用Python中的维度转换方法进行维度扩张，使得图像像素序列重塑为能够传入结构重参数化视觉几何组模型的输入；使用结构重参数化视觉几何组模型对输入进行结构重参数化的多分支结构到单分支结构的变形，在推理阶段内进行多分支的权重与偏置的融合，采取线性运算的计算方式提取图像特征，得到图像特征后，图像特征与用户意见文本数据的分词权重列表进行聚合计算，最终获得特定文本下的图像区域特征；

图像特征与用户意见文本数据的分词权重列表进行聚合计算的过程如下：

；

其中，表示结合特定文本权重获取的第i个图像区域特征，/>分别表示第i个图像区域特征的第1,2,…,n个图像区域特征像素点，/>表示/>的转置，/>表示第i张图像经过结构重参数化视觉几何组模型推理阶段处理后的图像特征，/>表示第i条用户意见文本数据的分词权重列表，/>表示第i条用户意见文本数据第j个分词的权重，/>表示第i个图像特征第j个像素点。

2.根据权利要求1所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，使用双向编码表征模型提取用户意见图文对中的文本特征的过程如下：

3.根据权利要求1所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，所述结构重参数化视觉几何组模型分为两个阶段执行，分别为训练阶段和推理阶段；在训练阶段使用多分支结构，将21层的规模为3×3卷积层进行堆积处理，并具体分为5个阶段，每个阶段中分别包含[1,2,3,14,1]层，其中第一层设置了步长为2的降采样，每个卷积层使用ReLU作为激活函数，并且在每个卷积层中都添加一个规模为1×1卷积层分支和恒等映射分支，3×3卷积层、1×1卷积层分支和恒等映射分支构成了多分支结构；在推理阶段中使用单分支结构，仅由3×3卷积层和ReLU层线性堆叠而成。

4.根据权利要求1所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，所述对文本特征和图像特征用1扩充维度获得扩充后的文本模态特征和图像模态特征的过程如下：

；

其中，表示结合特定文本权重获取的第i个图像区域特征，/>表示第i条用户意见文本数据的分词编码列表数据，/>表示视觉方面的扩充了1维度的图像模态特征，/>表示语言方面的扩充了1维度的文本模态特征，将扩充后的图像模态特征与文本模态特征统一表示为/>，其中M表示单模态数量，m表示单模态编号，/>表示单模态扩充维度后的张量。

5.根据权利要求4所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，所述对文本模态特征和图像模态特征进行外积处理得到高维张量的具体计算过程如下：

；

其中，表示高维张量，/>后，d₁，d₂，…，d_m分别表示张量为1，2，…，m阶；/>表示外积操作，/>表示一种数域表述，/>表示/>是m阶张量。

6.根据权利要求5所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，所述将高维张量与各模态所获取的低秩因子进行像素级乘法，得到多模态融合特征，过程如下：

；

其中h表示多模态融合特征，表示高维张量/>转换为多模态融合特征所需低秩权重矩阵，/>表示偏移量；采取并行分解的方式，将低秩权重矩阵/>分解为M组与单模态相关的低秩因子，且所获取的高维张量/>也可以分解为/>；将低秩权重矩阵/>视为r个/>阶张量，每个M阶张量表示为/>；

以R表示能够使低秩权重矩阵分解成立的最小秩，/>表示第m个单模态特征的低秩权重矩阵/>分解后的第i个低秩因子，k表示分解后/>的阶数；通过人为设定固定的秩得到/>后，利用高维张量的秩分解低秩因子向量集合/>，对多模态融合特征进行重新排列，使多模态融合特征变为与模态个数相关的特征，接着令第m个单模态的低秩因子集合/>，/>分别表示第m个单模态阶数为1,2,…,d_h的第i个低秩因子，得到重建后的低秩权重矩阵：

；

根据低秩权重矩阵的分解，并且已知/>，对多模态融合特征进行重新推算：

；

其中表示第v个单模态为图像模态的第i个低秩因子，/>表示第/>个单模态为文本模态的第i个低秩因子。

7.根据权利要求1所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，步骤一所述数据集包括MVSA-Single数据集和MVSA-Multi数据集；其中MVSA-Single数据集是由一位标注者对每个样本进行情感标签标注，针对MVSA-Single数据集，删除数据集中标注情感正负极性不同的用户意见图文对，在剩余的部分中，若存在图像和文本的情感标注中有一方为中性，则选择另一方积极或消极的标签作为对应用户意见图文对的情感标签；MVSA-Multi数据集是由三位标注者对每个样本进行情感标签标注，针对MVSA-Multi数据集，统计在三位标注者中情感极性标注出现次数最多的一项作为单一模态的真实标签，当三位标注者中至少存在两个同一确切的标签时，对应用户意见图文对才被认为是有效的，当文本和图像标签一致时，保留对应用户意见图文对，当文本和图像出现两种标签各出现高于两次的情况时，删除对应用户意见图文对，当文本和图像出现一个标签为积极或消极，另一个标签为中性时，认为对应用户意见图文对的情感极性为积极或消极。

8.根据权利要求1所述的一种图文融合的低秩多模态融合情感分析方法，其特征在于，步骤六所述情感分类器为全连接层，使用全连接层对多模态融合特征进行情感预测，设置输出特征通道为3，满足预测用户意见图文对中三类情感极性。