CN115239937B

CN115239937B - 一种跨模态情感预测方法

Info

Publication number: CN115239937B
Application number: CN202211161450.XA
Authority: CN
Inventors: 杨燕; 王杰; 谢朱洋; 张凡
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2022-12-20
Anticipated expiration: 2042-09-23
Also published as: CN115239937A

Abstract

本发明公开了一种跨模态情感预测方法，涉及自然语言信息处理技术领域。其主要步骤如下：（1）对跨模态图片文本数据进行预处理；（2）构建神经网络跨模态情感预测模型，包括构建图像‑文本编码模块，跨模态对齐模块，跨模态融合模块，跨模态关联性学习模块和情感分类模块；（3）在训练集上训练神经网络跨模态情感预测模型；（4）分别在验证集、测试集上对神经网络跨模态情感预测模型进行验证和测试。

Description

一种跨模态情感预测方法

技术领域

本发明涉及自然语言信息处理技术领域，尤其涉及一种跨模态情感预测方法。

背景技术

随着社交媒体和互联网技术的飞速发展，Twitter、微博等社交网络平台已成为用户发布内容的重要方式。人们倾向于将图像和文本一起发布以表达他们的情感或意见，因此越来越多的推文同时具有文本和视觉内容。传统情感分析只考虑了文本内容而忽略了视觉模态的作用，这给社交媒体分析和情感预测带来新的挑战。基于此，跨模态情感预测近年来受到了广泛关注，它旨在从文本和图像等跨模态数据中确定人们对主题或商品的情感极性。

迄今为止，国内外研究人员提出了一系列跨模态情感预测的方法，大致都遵循“先抽取再融合”的范式。即，先分别抽取文本和视觉内容的单模态特征，再使用不同的融合策略聚合这些特征用以情感预测。通过对现有的专利及相关技术的检索发现，现有的与跨模态情感预测有关的方法有：

（1）耿玉水,张康,赵晶,刘建鑫,李文骁. 一种基于张量融合网络的社交媒体情感分析方法及系统[P].提出了一种基于张量融合网络的社交媒体情感分析方法。该方法首先分别提取多模态信息的文本特征和图像特征，然后使用张量融合方法将文本特征和图像特征进行融合得到多模态特征。最后将多模态特征输入全连接层完成情感分类。

（2）丁健宇,祁云嵩,马崟桓,赵呈祥. 基于特征融合的多模态社交媒体情感分析方法[P].提出了一种基于特征融合的多模态社交媒体情感分析方法。该方法采用多头注意力机制提取文本情感特征，采用深度残差网络提取图像情感特征，最后将两种特征拼接起来进行情感分类计算。

（3）甘臣权,冯庆东,付祥,张祖凡. 基于多模态交互融合网络的图文情感分析方法及系统[P].提出了一种基于多模态交互融合网络的图文情感分析方法及系统。该系统采用空洞卷积神经网络、LSTM和注意力机制构建文本特征提取模块，使用深度卷积网络构建视觉特征提取模块，并采用多个具有不同神经元的多模态交互网络建模不同粒度的图文特征。最后通过多层感知机获取图文情感倾向。

可以看出现有的跨模态情感分析方法虽然取得了不错的效果，但依然存在着以下不足：（1）大多数方法忽略了模态之间的关联性，即单模态蕴含的情感可能彼此不一致，这会导致多模态情感预测效果不佳。（2）大部分方法只聚焦于不同模态的融合，而忽略了不同模态之间的对齐。（3）大多数方法仅使用简单的相加、拼接对不同模态特征进行融合，难以建模跨模态之间的复杂语义交互。

鉴于以上陈述的已有方案的不足，本发明旨在提供更简单的、更完善的方案，并使之克服现有技术的以上缺点。

发明内容

本发明的目的是提供一种跨模态情感预测方法，它能有效地解决多模态情感预测更加准确的技术问题。

本发明的目的是通过以下技术方案来实现的：

1. 一种跨模态情感预测方法，包括以下步骤：

步骤一、对待分析的跨模态情感的图片、文本数据进行预处理：

(1)将每张输入图片转换为大小为224×224像素的图像，记为

；

(2)将文本数据的每个输入句子通过插入两个特殊标记进行预处理，即将[CLS]添加到句子开头，[SEP]附加到句子末尾，记为

；

(3)将预处理后的图像文本数据按照8:1:1的比例划分为训练集、验证集和测试集；

步骤二、构建神经网络跨模态情感预测模型：

(1)构建图像-文本编码模块：

使用预训练模型ResNet作为视觉编码器，对步骤一中预处理后的图像

，进行编码获得图像特征

；

使用预训练模型BERT作为文本编码器，对步骤一中预处理后的文本

，进行编码获得文本特征

；

(2)构建跨模态对齐模块：

根据图像特征

和文本特征

构建正负样本，具体地，首先将预处理后的图像、文本数据分为两个以上的批次，对同一批次内的图文输入对

进行样本分类，将来自相同输入对的图文特征记为正样本

，来自不同输入对的图文特征记为负样本

；

将每个输入对

导入并经过两个不同的全连接层，得到对齐后的图文特征向量

，并以此计算对比损失函数

；

(3)构建跨模态融合模块：

利用多头注意力机制融合图文特征向量

，得到融合后的跨模态特征

,即：

。其中，

表示多头注意力机制，包括层归一化和残差连接；

(4)构建跨模态关联性学习模块：

对于对齐后的图像特征向量

和文本特征向量

，分别构建两个变分自编码器

和

，即：

其中，

表示训练集大小，

表示第

个样本；

定义跨模态关联分数

为

和

的语义距离，即：

其中，

表示KL散度，

表示文本到图像的关联分数，

表示图像到文本的关联分数。

(5)构建情感分类模块：

将文本特征向量

与跨模态特征

按照关联分数

进行拼接，得到最终的情感特征

，即：

。将情感特征

传入到带有一个隐含层的多层感知机，获得情感倾向的概率分布，并计算分类损失函数

；

步骤三、训练神经网络跨模态情感预测模型：

神经网络跨模态情感预测模型的训练数据是采用步骤一所述的训练集中的数据，训练目标是最小化整体损失函数

，并使用Adam优化器优化网络参数；神经网络跨模态情感预测模型的整体损失函数

，由分类损失函数

和对比损失函数

加权求和而成，即：

。其中，

为超参数；

步骤四、验证和测试神经网络跨模态情感预测模型：

采用步骤一中预处理后的验证集，对神经网络跨模态情感预测模型进行验证，选取超参数对神经网络跨模态情感预测模型进行优化；再将步骤一所述的测试集中的图像文本数据，输入到经过训练和验证后的神经网络跨模态情感预测模型中，即可进行跨模态情感预测并获得情感倾向。

与现有技术相比，本发明的优点和效果是：

（1）该发明提出了一个基于对比学习的跨模态对齐模块，能够缩小不同模态之间的语义鸿沟。（2）该发明提出的跨模态关联性学习模块，充分利用了不同模态之间语义信息的差异性，提高了模型预测的精度。（3）该发明提出的框架能够扩展到其他相关的多模态问题，具有一定的普适性。

附图说明

图1为本发明的流程示意图，

图2为本发明的整体框架示意图。

具体实施方式

以下结合附图实施对本发明作进一步详细描述。

如图1所示，本发明提出了一种跨模态情感预测方法，由以下步骤组成：

步骤一、对待分析的跨模态图片、文本数据进行预处理：

(1)将每张输入图片转换为大小为224×224像素的图像，记为

；

步骤二、构建神经网络跨模态情感预测模型：

(1)构建图像-文本编码模块：

，进行编码获得图像特征

；

，进行编码获得文本特征

；

(2)构建跨模态对齐模块：

根据图像特征

和文本特征

进行样本分类，将来自相同输入对的图像文本特征记为正样本

，来自不同输入对的图像文本特征记为负样本

；

如图2所示，将每个输入对

经过两个不同的全连接层（MLP），得到对齐后的图文特征向量

，并计算对比损失函数

；

损失函数

的详细推导如下：

首先，计算批次中第

个正样本对的图像到文本对比损失函数，即

其中，

表示

和

之间的余弦相似度，

表示温度系数，

表示第

个样本对；

然后，计算批次中第

个正样本对的文本到图像对比损失函数，即

最后，将以上两个函数相加得到对比损失函数

，即：

其中，

为超参数。

(3)构建跨模态融合模块：

利用多头注意力机制融合图文特征向量

，得到融合后的跨模态表示

,即：

。其中，

表示多头注意力机制，包括层归一化和残差连接；

(4)构建跨模态关联性学习模块：

对于对齐后的图像特征向量

和文本特征向量

，分别构建两个变分自编码器（VAE），即：

定义跨模态关联分数

为

和

的语义距离，即：

其中，

表示KL散度，

表示文本到图像的关联分数，

表示图像到文本的关联分数。

(5)构建情感分类模块：

将文本特征向量

与跨模态表示

按照关联分数

进行拼接，得到最终的情感特征

，即：

。将情感特征

；

步骤三、训练神经网络跨模态情感预测模型：

，由分类损失函数

和对比损失函数

加权求和而成，

即：

其中，

为超参数；

步骤四、验证和测试神经网络跨模态情感预测模型：

对本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。

Claims

1.一种跨模态情感预测方法，其特征在于：所述跨模态情感预测方法包括以下步骤：

(1)将每张输入图片转换为大小为224×224像素的图像，记为

；

；

步骤二、构建神经网络跨模态情感预测模型：

(1)构建图像-文本编码模块：

，进行编码获得图像特征

；

，进行编码获得文本特征

；

(2)构建跨模态对齐模块：

根据图像特征

和文本特征

进行样本分类，将来自相同输入对的图文特征记为正样本

，来自不同输入对的图文特征记为负样本

；

将每个输入对

，并以此计算对比损失函数

；

(3)构建跨模态融合模块：

利用多头注意力机制融合图文特征向量

，得到融合后的跨模态特征

,即：

；其中，

表示多头注意力机制，包括层归一化和残差连接；

(4)构建跨模态关联性学习模块：

对于对齐后的图像特征向量

和文本特征向量

，分别构建两个变分自编码器

和

，即：

其中，

表示训练集大小，

表示训练集中图像的隐含变量，

表示训练集中文本的隐含变量，

表示第

个样本中图像的后验分布，

表示第

个样本中文本的后验分布；

定义第

个样本中图像特征和文本特征之间的跨模态关联分数

，即：

其中，

表示KL散度，

表示第

个样本中文本特征到图像特征的关联分数，

表示第

个样本中图像特征到文本特征的关联分数；

(5)构建情感分类模块：

将文本特征向量

与跨模态特征

按照关联分数

进行拼接，得到最终的情感特征

，即：

；将情感特征

；

步骤三、训练神经网络跨模态情感预测模型：

，由分类损失函数

和对比损失函数

加权求和而成，

即：

其中，

为超参数；

步骤四、验证和测试神经网络跨模态情感预测模型：