CN113158875B

CN113158875B - 基于多模态交互融合网络的图文情感分析方法及系统

Info

Publication number: CN113158875B
Application number: CN202110412323.1A
Authority: CN
Inventors: 甘臣权; 冯庆东; 付祥; 张祖凡
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-07-01
Anticipated expiration: 2041-04-16
Also published as: CN113158875A

Abstract

本发明涉及一种基于多模态交互融合网络的图文情感分析方法及系统，属于人工智能领域，包括对图文进行预处理，分离出文本和图像，并采用词嵌入技术处理文本，采用图像处理技术处理图像；使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块，使用深度卷积网络构建视觉特征提取模块；设计面向图文的多模态交互融合网络，并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性；融合不同粒度的图文特征，并通过多层感知机获取图文情感倾向；使用交叉熵作为损失函数，并使用带有热启动的Adam优化器训练模型。

Description

基于多模态交互融合网络的图文情感分析方法及系统

技术领域

本发明属于人工智能领域，涉及一种基于多模态交互融合网络的图文情感分析方法及系统。

背景技术

随着互联网技术的快速发展，互联网中的信息逐渐从单模态向多模态转变，包含图像、文本和语言的多模态信息比例不断增加，导致现有的情感分析方法面临着新的挑战和机遇。事实上，在多模态信息中，不同模态之间存在相关性，对这些相关性的挖掘，有助于提高情感判别能力。虽然目前多模态情感分析取得了不错的进展，但是与单模态情感分析相比，还是有不小差距。

图文情感分析是指通过对图像、文本两种模态数据分析、融合并推理出情感倾向的过程，与文本情感分析、图像情感分析以及多模态特征融合等技术息息相关。目前，已有大量国内外研究人员提出了一系列图文情感分析方法，可大致分为基于前期融合的方法、基于中期融合的方法和基于后期融合的方法。基于前期融合的方法将不同模态信息集成到一个表示中，以判别情感倾向；基于中期融合的方法采用深度学习模型融合不同模态特征；基于后期融合的方法则通过不同模态数据的情感决策计算情感倾向。虽然以上方法通过深度学习技术和不同的特征融合策略取得了不错的情感分析性能，但对不同模态特征之间的相关性研究仍显得不够充分。

此外，由于自然语言的复杂性和多义性、情感的长期依赖性以及不同模态数据之间的异构性，使得准确地判别情感变得极其复杂。因此，现存的图文情感分析模型仍面临着许多困难和挑战，主要体现在对不同模态之间特征的一致性、互补性和差异性的建模问题。现有图文情感分析技术仍存在诸多不足，对不同模态特征，未充分探讨不同模态之间的互补性、一致性和差异性，使得特征出现噪音、信息冗余或信息缺失，从而影响情感分析性能。

随着计算机设备的不断优化和深度学习的持续发展，大量相关技术(如词嵌入和注意力机制等)和神经网络模型(如卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Networks，RNN)等)已被研究学者成功应用到情感分析任务中。不同于传统情感分析方法，基于深度学习的情感分析方法解决了基于手工特征的方法对专家知识的限制问题，以及基于浅层学习的方法对复杂函数的表达能力和对复杂任务的处理能力有限的问题，并能提高文本处理效率，降低分析成本。因此，基于深度学习的情感分析技术受到人们广泛关注。

发明内容

有鉴于此，本发明的目的在于提供一种具有高效率、高精度情感分析能力的图文情感分析模型。

为达到上述目的，本发明提供如下技术方案：

一方面，本发明提供一种基于多模态交互融合网络的图文情感分析方法，包括以下步骤：

步骤一：对图文进行预处理，分离出文本和图像，并采用词嵌入技术处理文本，采用图像处理技术处理图像；

步骤二：使用空洞卷积神经网络、双向长短时记忆网络和注意力机制构建文本特征提取模块，使用深度卷积网络构建视觉特征提取模块；

步骤三：设计面向图文的多模态交互融合网络，并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性；

步骤四：融合不同粒度的图文特征，并通过多层感知机获取图文情感倾向；

步骤五：使用交叉熵作为损失函数，并使用带有热启动的Adam优化器训练模型。

进一步，步骤一中所述的对图文进行预处理，具体包括以下步骤：

对于输入的图文对，采用词嵌入技术将输入文本映射为向量表示；输入的长度限制为k，如果单词的数量大于k，则将文本剪切为k，同时使用零填充来扩展少于k个单词的文本，每个文本表示如下：

式中，T_in∈R^k×d代表模型的输入且d表示词向量的维数；将所有图像转换为大小为224×224，通道为RGB的图像。

进一步，步骤二中所述的文本特征提取模块，是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构，以提取不同尺度的高层文本特征和原始文本特征，并使用多头注意力机制突出全局特征中的情感相关特征；所述的视觉特征提取模块，是使用 101层的残差网络，即ResNet101模型提取视觉特征，并采用全局池化策略和全连接层映射得到视觉特征。

进一步，步骤二中构建所述文本特征提取模块具体包括以下步骤：

对于每个文本信息T_in，首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征，接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息，计算公式如下：

式中，i∈[1,n+1]，

和

分别代表空洞卷积的输出和可训练参数，

和

分别代表BiLSTM的输出和可训练参数；

在融合高层特征和原始上下文特征之前，使用自注意机制去除特征中的冗余信息，表示如下：

式中，

和

分别代表注意力机制的输出和可训练参数；

接着将所有特征融合：

最后，通过多头注意力机制突出融合后的全局特征中情感相关的重要特征：

T_m＝MultiHead(Τ^a；θ^m)W^m

式中，W^m和θ^m代表多头注意力机制的可训练参数；

接着使用全连接层获取文本特征：

T＝T_mW_T+B_T

式中，W_T和B_T分别代表全连接层的可训练参数和偏置参数。

进一步，步骤二中构建所述视觉特征提取模块具体包括以下步骤：

对于输入的图文对，首先使用预处理方法将所有图像转换为相同的格式；

接着使用深度卷积神经网络、池化层和全连接层提取视觉特征，具体公式如下：

P_c＝deepCNNs(P_in；θ^d)

P_a＝GAP(P_c)

P＝P_aW_p+b_p

式中，P_in代表图文对中预处理后的图像输入，θ^d代表深度卷积神经网络中的可训练参数， GAP(·)代表全局平均池化策略，W_p、b_p分别代表全连接层的可训练权重和偏置参数。

进一步，步骤三中所述的设计面向图文的多模态交互融合网络，具体包括以下步骤：

对于文本特征T和视觉特征P，通过多模态交互融合网络获取交互后的图文特征X，

S301：通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互，具体公式如下：

i_T＝σ(TW_iT+b_iT)

i_P＝σ(PW_iP+b_iP)

式中，σ(·)代表Sigmoid激活函数，W_r、b_r代表可训练权重和偏置，通过i_T和i_P确定文本特征和视觉特征中哪些相关信息将参与特征交互过程；

S302：将文本特征T和视觉特征P映射到输入空间，具体如下：

e_T＝TW_eT+b_eT

e_P＝PW_eP+b_eP

式中，W_r、b_r代表可训练权重和偏置，e_T、e_P代表输入空间中的文本特征和视觉特征

S303：得到文本特征和视觉特征中的有效交互信息：

e'_T＝e_T*i_T

e'_P＝e_P*i_P

式中，e'_T和e'_P分别代表有效文本交互特征和有效视觉交互特征。

S304：将文本特征和视觉特征，以及有效的文本交互特征和视觉交互特征，输入到交互空间中，通过余弦相似度计算不同模态特征之间的相关性：

式中，α_p2t代表视觉特征与文本特征的相似性，α_t2p代表文本特征与视觉特征的相似性。

S305：将输入的文本特征和视觉特征映射到输出空间，计算备选的输出特征：

式中，

和

表示输出空间中的备选文本特征和备选视觉特征，

和

表示可训练权重，

和

表示可训练偏置；

S306：根据有效交互特征得到注意力加权向量，用于去除输出特征中的冗余信息：

A_T＝softmax(e'_T)

A_P＝softmax(e'_P)

S307：根据以上信息建模特征之间的互补性和一致性，并得到有效特征和互补特征，输出空间中交互后的特征表示为：

式中，C_T和C_P代表输出空间中交互后的文本和视觉特征；

S308：通过输出门的门控机制确定输出哪些图文信息，并建模特征之间的差异性，以消除特征中的冗余信息：

O_T＝σ(TW_oT+b_oT)

O_P＝σ(PW_oP+b_oP)

式中，O_T和O_P代表多模态交互融合模块，W_oT和W_oP表示可训练权重，b_oT和b_oP表示可训练偏置；

S309：根据输出门和输出空间中的特征，可得到输出特征：

T'＝O_T*tanh(C_T)

P'＝O_P*tanh(C_P)

式中，T'和P'为输出的文本特征和视觉特征；

S310：融合h个交互融合模块的输出并生成图文特征：

式中，W^r代表可训练权重，[,]代表串联操作。

进一步，所述步骤四中，通过多模态交互融合网络获得交互后的图文特征后，使用带有一个隐含层的多层感知机计算情感倾向概率分布，具体公式如下：

H＝tanh(XW_H+b_H)

P＝softmax(HW_P+b_P)

式中，W_r和b_r代表多层感知机的可训练权重和偏置。

进一步，步骤五中，使用反向传播算法训练模型，通过最小化损失函数优化模型，交叉熵作为基础损失函数，对于第i类情感真实极性分布y_i与预测结果

损失函数表示为：

其中，n代表类别数。

另一方面，本发明提供一种基于多模态交互融合网络的图文情感分析系统，包括数据预处理模块、文本特征提取模块和视觉特征提取模块、多模态交互融合模块和情感分析模块；

所述数据预处理模块通过文本数据使用词嵌入技术训练词向量，并将文本映射为词向量矩阵，将训练语料进行分词，然后使用skip-gram模式训练词向量，得到词嵌入矩阵，接着将文本映射为对应的词向量矩阵；

所述文本特征提取模块和视觉特征提取模块使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征，利用双向LSTM提取文本的原始上下文特征，利用多通道模型，融合不同视距的上下文特征和原始上下文特征，通过局部注意力机制对各通道的特征进行加权，生成全局特征；

所述多模态交互融合模块利用全局注意力模块突出全局特征中的重要信息，再使用 Top-K池化策略对特征进行筛选；

所述情感分析模块通过两个全连接层和一个激活层得到文本的情感概率分布，并使用自适应加权损失函数，使模型自动关注难以分类和训练样本少的类别，以提高模型的分类性能。

本发明的有益效果在于：本发明能够提取信息表征丰富的文本特征，通过预训练的深度卷积神经网络提取视觉特征，增强了特征表达，使用多个多模态交互融合网络建模多粒度相关性，从而更准确地分析图文所表达的情感。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于多模态交互融合网络的图文情感分析方法流程图；

图2为本发明所述基于多模态交互融合网络的图文情感分析系统模型图；

图3为多模态交互融合模块结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供一种基于多模态交互融合网络的图文情感分析方法，包括以下步骤：

对于输入的图文对，采用词嵌入技术将输入文本映射为向量表示。具体来说，为了使不同的文本适合模型输入，输入的长度被限制为k，如果单词的数量大于k，则将文本剪切为k，同时使用零填充来扩展少于k个单词的文本。因此，每个文本都可以表示如下：

式中，T_in∈R^k×d代表模型的输入且d表示词向量的维数。

对于输入的图文对，将输入图像预处理为大小为224×224，通道为RGB的图像。

对于每个文本信息T_in，首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征，接着将高层特征和原始特征分别输入到BiLSTM中学习上下文信息。计算公式如下：

式中，i∈[1,n+1]，

和

分别代表空洞卷积的输出和可训练参数，同样地，

和

分别代表BiLSTM的输出和可训练参数。

在融合高层特征和原始上下文特征之前，使用自注意机制去除特征中的冗余信息，可表示如下：

式中，

和

分别代表注意力机制的输出和可训练参数。接着将所有特征融合：

T_m＝MultiHead(Τ^a；θ^m)W^m

式中，W^m和θ^m代表多头注意力机制的可训练参数。

接着使用全连接层获取文本特征：

T＝T_mW_T+B_T

式中，W_T和B_T分别代表全连接层的可训练参数和偏置参数。

在图文对中，图像与情感也息息相关。通过提取视觉特征，并建立视觉特征与文本特征之间的联系，可以更有效地判别图文对的情感倾向。对于输入的图文对，首先使用预处理方法将所有图像转换为相同的格式，例如图像宽度、高度和通道数。接着使用深度卷积神经网络、池化层和全连接层提取视觉特征，具体公式如下：

P_c＝deepCNNs(P_in；θ^d)

P_a＝GAP(P_c)

P＝P_aW_p+b_p

为建模视觉特征和文本特征之间的相关性，有效地挖掘两种模态特征之间的内在联系，设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合，并提取文本特征和视觉特征之间的互补性、一致性和差异性，以丰富图文特征表达，提高模型的情感分析性能。

对于文本特征T和视觉特征P，通过多模态交互融合模块获取交互后的图文特征X。具体来说，首先通过输入门的门控机制控制文本特征和视觉特征中的相关信息参与特征交互，具体公式如下：

i_T＝σ(TW_iT+b_iT)

i_P＝σ(PW_iP+b_iP)

式中，σ(·)代表Sigmoid激活函数，W_r、b_r代表可训练权重和偏置

通过i_T和i_P确定文本特征和视觉特征中哪些相关信息将参与特征交互过程，接着将文本特征T和视觉特征P映射到输入空间，具体如下：

e_T＝TW_eT+b_eT

e_P＝PW_eP+b_eP

然后可以得到文本特征和视觉特征中的有效交互信息：

e'_T＝e_T*i_T

e'_P＝e_P*i_P

然后，将文本特征和视觉特征，以及有效的文本交互特征和视觉交互特征，输入到交互空间中，通过余弦相似度计算不同模态特征之间的相关性：

然后，将输入的文本特征和视觉特征映射到输出空间，计算备选的输出特征：

式中，

和

表示输出空间中的备选文本特征和备选视觉特征，

和

表示可训练权重，

和

表示可训练偏置。

根据有效交互特征得到注意力加权向量，用于去除输出特征中的冗余信息。

A_T＝softmax(e'_T)

A_P＝softmax(e'_P)

其次，根据以上信息可以建模特征之间的互补性和一致性，并得到有效特征和互补特征。那么，输出空间中交互后的特征可以表示为：

式中，C_T和C_P代表输出空间中交互后的文本和视觉特征。

最后，通过输出门的门控机制确定输出哪些图文信息，并建模特征之间的差异性，以消除特征中的冗余信息：

O_T＝σ(TW_oT+b_oT)

O_P＝σ(PW_oP+b_oP)

式中，O_T和O_P代表多模态交互融合模块，W_oT和W_oP表示可训练权重，b_oT和b_oP表示可训练偏置。

根据输出门和输出空间中的特征，可以得到输出特征：

T'＝O_T*tanh(C_T)

P'＝O_P*tanh(C_P)

式中，T'和P'为输出的文本特征和视觉特征。

最后，融合h个交互融合模块的输出并生成图文特征：

式中，W^r代表可训练权重。

在上述部分，通过多模态交互融合模块获得了交互后的图文特征，然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下：

H＝tanh(XW_H+b_H)

P＝softmax(HW_P+b_P)

式中，W_r和b_r代表多层感知机的可训练权重和偏置。

使用反向传播算法训练模型，通过最小化损失函数优化模型，交叉熵作为基础损失函数，对于第i类情感真实极性分布y_i与预测结果

损失函数表示为：

其中，n代表类别数。

图2为本发明的系统模型图，下面结合附图进行说明，包括以下几个模块：

模块一：通过文本数据使用词嵌入技术训练词向量，并将文本映射为词向量矩阵，将训练语料进行分词，然后使用skip-gram模式训练词向量，得到词嵌入矩阵，接着将文本映射为对应的词向量矩阵；

模块二：使用空洞CNN和双向LSTM通过词向量矩阵提取文本的高层上下文特征，利用双向LSTM提取文本的原始上下文特征，利用多通道模型，融合不同视距的上下文特征和原始上下文特征，通过局部注意力机制对各通道的特征进行加权，生成全局特征；

模块三：利用全局注意力模块突出全局特征中的重要信息，最后使用Top-K池化策略对特征进行筛选；

模块四：通过两个全连接层和一个激活层得到文本的情感概率分布，并使用自适应加权损失函数，使模型自动关注难以分类和训练样本少的类别，以提高模型的分类性能。

可选的，模块一具体包括：

数据预处理模块。将输入图像预处理为大小为224×224，通道为RGB的图像。对于输入的图文对，采用词嵌入技术将输入文本映射为向量表示。具体来说，为了使不同的文本适合模型输入，输入的长度被限制为k，如果单词的数量大于k，则将文本剪切为k，同时使用零填充来扩展少于k个单词的文本。因此，每个文本都可以表示如下：

式中，T_in∈R^k×d代表模型的输入且d表示词向量的维数。

可选的，模块二具体包括：

文本特征提取模块和视觉特征提取模块。对于每个文本信息T_in，首先将其输入n个具有不同扩张速率的空洞卷积以获取高层特征，接着将高层特征和原始特征分别输入到BiLSTM 中学习上下文信息。计算公式如下：

式中，i∈[1,n+1]，

和

分别代表空洞卷积的输出和可训练参数，同样地，

和

分别代表BiLSTM的输出和可训练参数。

式中，

和

T_m＝MultiHead(Τ^a；θ^m)W^m

式中，W^m和θ^m代表多头注意力机制的可训练参数。

接着使用全连接层获取文本特征：

T＝T_mW_T+B_T

式中，W_T和B_T分别代表全连接层的可训练参数和偏置参数。

P_c＝deepCNNs(P_in；θ^d)

P_a＝GAP(P_c)

P＝P_aW_p+b_p

可选的，模块三具体包括：

多模态交互融合模块。如图3所示，为建模视觉特征和文本特征之间的相关性，有效地挖掘两种模态特征之间的内在联系，设计一种基于门控机制的多模态交互融合模块。该模块通过门控机制控制视觉特征和文本特征交互融合，并提取文本特征和视觉特征之间的互补性、一致性和差异性，以丰富图文特征表达，提高模型的情感分析性能。

i_T＝σ(TW_iT+b_iT)

i_P＝σ(PW_iP+b_iP)

式中，σ(·)代表Sigmoid激活函数，W_r、b_r代表可训练权重和偏置。

e_T＝TW_eT+b_eT

e_P＝PW_eP+b_eP

然后可以得到文本特征和视觉特征中的有效交互信息：

e'_T＝e_T*i_T

e'_P＝e_P*i_P

式中，

和

表示输出空间中的备选文本特征和备选视觉特征，

和

表示可训练权重，

和

表示可训练偏置。

A_T＝softmax(e'_T)

A_P＝softmax(e'_P)

式中，C_T和C_P代表输出空间中交互后的文本和视觉特征。

O_T＝σ(TW_oT+b_oT)

O_P＝σ(PW_oP+b_oP)

根据输出门和输出空间中的特征，可以得到输出特征：

T'＝O_T*tanh(C_T)

P'＝O_P*tanh(C_P)

式中，T'和P'为输出的文本特征和视觉特征。

最后，融合h个交互融合模块的输出并生成图文特征：

式中，W^r代表可训练权重。

可选的，模块四具体包括：

情感分析模块。通过多模态交互融合模块获得了交互后的图文特征，然后使用带有一个隐含层的多层感知机计算情感倾向概率分布。具体公式如下：

H＝tanh(XW_H+b_H)

P＝softmax(HW_P+b_P)

式中，W_r和b_r代表多层感知机的可训练权重和偏置。

使用反向传播算法训练模型，通过最小化损失函数优化模型。采用交叉熵作为基础损失函数。对于第i类情感真实极性分布y_i与预测结果

损失函数可表示为：

其中，n代表类别数。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多模态交互融合网络的图文情感分析方法，其特征在于：包括以下步骤：

步骤三：设计面向图文的多模态交互融合网络，并采用多个具有不同神经元的多模态交互融合网络建模不同粒度的图文相关性；所述设计面向图文的多模态交互融合网络，具体包括以下步骤：

对于文本特征T和视觉特征P，通过多模态交互融合网络获取交互后的图文特征X；

i_T＝σ(TW_iT+b_iT)

i_P＝σ(PW_iP+b_iP)

S302：将文本特征T和视觉特征P映射到输入空间，具体如下：

e_T＝TW_eT+b_eT

e_P＝PW_eP+b_eP

S303：得到文本特征和视觉特征中的有效交互信息：

e'_T＝e_T*i_T

e'_P＝e_P*i_P

式中，e'_T和e'_P分别代表有效文本交互特征和有效视觉交互特征；

式中，α_p2t代表视觉特征与文本特征的相似性，α_t2p代表文本特征与视觉特征的相似性；

式中，

和

表示输出空间中的备选文本特征和备选视觉特征，

和

表示可训练权重，

和

表示可训练偏置；

A_T＝softmax(e'_T)

A_P＝softmax(e'_P)

式中，C_T和C_P代表输出空间中交互后的文本和视觉特征；

O_T＝σ(TW_oT+b_oT)

O_P＝σ(PW_oP+b_oP)

S309：根据输出门和输出空间中的特征，可得到输出特征：

T'＝O_T*tanh(C_T)

P'＝O_P*tanh(C_P)

式中，T'和P'为输出的文本特征和视觉特征；

S310：融合h个交互融合模块的输出并生成图文特征：

式中，W^r代表可训练权重，[,]代表串联操作；

2.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法，其特征在于：步骤一中所述的对图文进行预处理，具体包括以下步骤：

3.根据权利要求1所述的基于多模态交互融合网络的图文情感分析方法，其特征在于：步骤二中所述的文本特征提取模块，是使用不同扩张率的空洞卷积、双向长短时记忆和自注意力机制构建多通道结构，以提取不同尺度的高层文本特征和原始文本特征，并使用多头注意力机制突出全局特征中的情感相关特征；所述的视觉特征提取模块，是使用101层的残差网络，即ResNet101模型提取视觉特征，并采用全局池化策略和全连接层映射得到视觉特征。

4.根据权利要求3所述的基于多模态交互融合网络的图文情感分析方法，其特征在于：步骤二中构建所述文本特征提取模块具体包括以下步骤：