CN115186683B

CN115186683B - 一种基于跨模态翻译的属性级多模态情感分类方法

Info

Publication number: CN115186683B
Application number: CN202210836512.6A
Authority: CN
Inventors: 赵妍妍; 杨浩; 车万翔; 秦兵
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-05-23
Anticipated expiration: 2042-07-15
Also published as: CN115186683A

Abstract

一种基于跨模态翻译的属性级多模态情感分类方法，涉及自然语言处理技术领域，针对现有技术在属性级多模态情感分析任务上预测准确率低的问题，本申请提出了一种简单但有效的人脸敏感的跨模态翻译方法，在不需要额外训练图像情感描述生成模型的情况下，通过引入人脸信息生成人脸表情描述补全图片情感信号，实现了更精准的属性级多模态情感预测。

Description

一种基于跨模态翻译的属性级多模态情感分类方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于跨模态翻译的属性级多模态情感分类方法。

背景技术

属性级多模态情感分析旨在从多模态数据中识别目标属性的情感，近年来在多媒体和自然语言处理领域引起了广泛关注。尽管最近基于文本的属性级情感分析取得了成功，但现有的多模态属性级情感分析模型主要侧重于利用图像中的对象级语义信息，而忽略了显式的利用来自图像的情感线索，尤其是面部情感。如何提取视觉情感线索并将其与文本内容对齐融合是目前解决属性级多模态情感分析任务的关键挑战。关于属性级多模态情感分析任务的早期工作将图像内容视为与文本具有相同地位的独立输入，并侧重于对齐和融合从单模态预训练模型中提取的视觉和文本特征嵌入。然而，这类隐式捕获图像中的情感信息的方法很难回答视觉情感来自与图像中的那一部分，因而并不具有可解释性。此外我们认为由于数据规模限制，模型在没有额外约束的情况下容易学习到因为额外输入所带来的bias而不是真正的视觉情感线索。最近，有工作在特征级融合的过程中考虑到了图像中的对象级语义信息，也有学者提出一种基于跨模态翻译的方法，通过将图片信息转换为文本描述实现跨模态翻译，跨模态翻译模型承担了图文对齐任务。然而，上述方法都忽视了从图像模态中显式的挖掘情感线索，这导致了模型在属性级多模态情感分析任务上预测准确率低。如何在保留语义信息的情况下补全图片模态的情感信息是提升属性级多模态情感分析效果的关键问题。

发明内容

本发明的目的是：针对现有技术在属性级多模态情感分析任务上预测准确率低的问题，提出一种基于跨模态翻译的属性级多模态情感分类方法。

本发明为了解决上述技术问题采取的技术方案是：

一种基于跨模态翻译的属性级多模态情感分类方法，包括以下步骤；

步骤一：获取多模态社交媒体数据，所述多模态社交媒体数据包括目标评价属性、英文文本以及单张图片；

步骤二：基于多模态社交媒体数据中的单张图片，识别并切分出图片中的全部人脸，若图片中含有人脸，则执行步骤三，若图片中不含有人脸，则生成图片人脸描述，并执行步骤十；

步骤三：获取图片中人脸的面部属性信息；

步骤四：将图片中人脸的面部属性信息转化为面部描述文本；

步骤五：判断图片中人脸为单张人脸或多张人脸，若为单张人脸，则根据面部描述文本生成图片人脸描述，并执行步骤十，若为多张人脸，则将目标评价属性与步骤四中的面部描述文本进行拼接后，得到句子，之后将句子进行编码，得到文本向量表示；

步骤六：将多模态社交媒体数据中的单张图片进行编码，得到图片向量表示；

步骤七：计算图片向量表示与文本向量表示的余弦相似度，并选取余弦相似度最高的文本向量表示对应的面部描述文本；

步骤八：针对步骤七中得到的面部描述文本，仅保留表情预测信息以及目标评价属性；

步骤九：将面部描述文本中表情预测信息以及目标评价属性进行拼接，得到图片人脸描述；

步骤十：基于多模态社交媒体数据中的单张图片，生成关于图片场景信息的中性文本描述；

步骤十一：将多模态社交媒体数据中的目标评价属性与英文文本进行拼接，得到新句子，并将新句子分别与图片人脸描述和关于图片场景信息的中性文本描述进行拼接，并将拼接结果分别利用预训练语言模型进行处理，得到包含人脸描述信息的句子表示和包含场景信息的句子表示；

步骤十二：将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合，得到多模态融合表示；

步骤十三：将多模态融合表示送入线性分类层得到对于目标评价属性的情感分类预测结果。

进一步的，所述识别并切分出图像中的全部人脸通过面部识别模型DeepFace进行。

进一步的，所述图片中人脸的面部属性信息通过DeepFace工具中人脸属性预测模型得到。

进一步的，所述面部属性信息包括：年龄、人种、性别、表情预测信息及置信度；

其中，年龄为0～120的整数预测，性别为男女二分类预测，表情为愤怒、恐惧、中立、悲伤、厌恶、快乐和惊讶七分类预测。

进一步的，所述句子进行编码通过预训练图文模型CLIP的文本编码器进行，图片进行编码通过预训练图文模型CLIP的图像编码器进行，表示为：

H_D&A＝Text_Encoder(concat(D，A))

H_V＝Image_Encoder(V)

其中concat为文本拼接函数，Text_Encoder为预训练图文模型CLIP的文本编码器，Image_Encoder为预训练图文模型CLIP的图像编码器，A为目标评价属性，D为面部描述文本，V代表图像，H_D&A和H_V分别代表输出的编码表示。

进一步的，所述步骤七中图片向量表示与文本向量表示的余弦相似度通过L2正则化得到，表示为：

H′_D&A＝L2_Normalize(H_D&A·W_D&A)

H′_V＝L2_Normalize(H_V·W_V)

L＝(H′_V·(H′_D&A)^T)*e^t

其中，W_D&A和W_V是可学习权重，t是CLIP模型中的温度标度，e是自然对数的底，L为图文向量的余弦相似度，H’_D&A和H′_V分别为经过L2正则化后的中间向量表示。

进一步的，所述关于图片场景信息的中性文本描述通过图片描述生成模型得到，表示为：

C＝Caption_Transformer(V)

其中，C为关于图片场景信息的中性文本描述，Caption_Transformer为预训练的图文生成模型，V代表图片。

进一步的，所述步骤十二中将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合通过门控机制进行。

进一步的，所述门控机制具体表示为：

p(y|H)＝softmax(WH+b)

其中

和/>

分别代表两个预训练的语言模型输出的句子级向量，W_D∈R^768×768、W_C∈R^768×768、W∈R^768×3、b_g∈R⁷⁶⁸和b∈R³是可学习的参数，g_t为门控权值，H为多模态融合向量表示，σ是非线性变换函数tanh，soTtmax为多分类激活函数，p(y|H)代表对于情感极性y的条件预测概率。

本发明的有益效果是：

本申请提出了一种简单但有效的人脸敏感的跨模态翻译方法，在不需要额外训练图像情感描述生成模型的情况下，通过引入人脸信息生成人脸表情描述补全图片情感信号，实现了更精准的属性级多模态情感预测。

附图说明

图1为人脸面部表情描述生成模版图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种基于跨模态翻译的属性级多模态情感分类方法，包括：

步骤一：获取输入模型的多模态社交媒体数据，每条数据由一段包含目标评价属性的英文文本及单张图片构成；

步骤二：将输入图片送入面部识别模型，识别并切分出图像中全部人脸，若无人脸则返回空值；

步骤三：若无人脸则跳转至步骤九，将识别出的每张人脸分别送入人脸属性预测模型，得到关于该人脸的年龄、人种、性别、表情预测信息及置信度。其中年龄为0～120的整数预测，性别为男女二分类预测，表情为愤怒、恐惧、中立、悲伤、厌恶、快乐和惊讶七分类预测。

步骤四：通过人工模版将上述面部属性信息转化为面部描述文本。

步骤五：若当前图片包含单张人脸，跳转至步骤九。将目标评价属性与步骤四中识别出的面部描述文本拼接构成新句子，送入预训练图文模型的文本编码器得到文本嵌入表示。

步骤六：将输入图片送入预训练图文模型的图像编码器得到图像嵌入表示。

步骤七：经过L2正则化后，计算图像嵌入表示与每个来自面部描述文本的文本嵌入表示的余弦相似度，选取相似度最高的面部描述文本作为当前目标评价属性最相关的人脸表情信息。

步骤八：改写与当前目标评价属性最相关的人脸描述文本，仅保留目标评价属性及人脸表情预测结果。

步骤九：生成图片人脸描述，将同一图片下所有人脸描述文本拼接。

步骤十：将输入图片送入图片描述生成模型生成关于图片场景信息的中性文本描述。

步骤十一：将输入文本与目标评价属性拼接成新句子，并与人脸描述文本和场景信息文本分别拼接送入两个预训练语言模型得到包含多模态信息的句子表示。

步骤十二：利用门控机制融合包含人脸描述信息的预训练模型输出特征和包含场景信息的预训练模型输出特征，得到最终的多模态融合表示。

步骤十三：将多模态融合表示送入线性分类层得到对于目标评价属性的情感极性预测。

本申请在属性级多模态情感分析的两个经典数据集(Twitter2015和Twitter2017数据集)上进行模型训练和测试。Twitter2015和Twitter2017数据集分别收集了不同时间段Twitter网站中用户公开发表的推文数据，这些推文对文本内容中提到的评价属性和每个评价属性的情感极性进行了标注。数据集划分与统计信息如表1所示：

表1Twitter2015和Twitter2017数据集统计信息

本申请将模型学习率设置为5e-5，预先训练的模型注意力头设置为12，dropout设置为0.1，批量大小设置为16，微调轮次设置为8，最大文本长度为256。本申请报告了所有模型5次独立训练的平均结果。所有模型都是基于Pytorh和NVIDIATeslaV100 GPU实现的。

本申请与以下模型进行了比较，并在表2中报告了准确性和宏观F1分数。本申请比较了图像单一模态下的方法：直接使用ResNet模型输出的图像视觉特征进行情感预测。以及基于文本单模态下的模型：(1)LSTM。(2)MGAM，一个多粒度注意力网络，它在多个层次上融合了目标和文本。(3)BERT，代表性的预训练语言模型具有很强的文本表示能力，可以学习两个任意输入之间的对齐。此外，多模态比较模型包括：(1)MIMN，多交互记忆网络学习跨模态和自模态的交互影响。(2)ESAFN，一个实体敏感的注意力和融合网络。(3)VilBERT，一种预训练的视觉语言模型，目标方面连接到输入文本。(4)TomBERT模拟了视觉和文本表示之间的跨模式交互，并采用目标图像(TI)匹配层来获得目标敏感视觉。(5)CapBERT，一种基于BERT的方法，将图像翻译为字幕，并通过辅助句将字幕与输入文本方面对融合。(6)CapBERT DE，将CapBERT模型中的BERT替换为BERTweet。(7)VLP-MABSA，专注于细粒度情感分析任务的预训练视觉语言模型。

表2模型实验结果

本申请提出的方法远超image-only和text-only的模型，对比强基线模型TomBERT和CapBERT也有明显提升，证明本申请提出的方法能够有效利用图像中的人脸表情作为情感线索。并且也展示出本申请提出的视觉情感线索与目标评价属性匹配的方法对判断图文Twitter中目标评价属性的情感是有效的。MIMN和ESAFN模型明显弱于其他基于预训练的方法。而图文预训练模型VilBERT的效果也弱于TomBERT、CapBERT等基于BERT的方法，原因可能是BERT模型有更强的文本建模能力。在Twitter-2017数据集上本申请的De版本方法相比于CapBERT-DE的F1提升为1.77％，远超在Twitter-2015数据集上的0.4％，本申请认为主要原因是Twitter-2017数据集包含更多人脸信息。然而，这种现象在base版本的比较中差距不大，本申请认为是受限于语言模型的能力。本申请提出的方法取得比CapBERT-DE更好的效果，且均强于基于base版本的模型。展现出本发明提出的方法在更强的语言模型下表现更好，这源于融合阶段依赖语言模型的上下文建模能力，更强的语言模型能力更强。本申请提出的方法在两个经典数据集上达到了最佳效果，证明了本申请提出的方法能够有效提升属性级多模态情感计算的效果。

属性级多模态情感分析的任务可以形式化为：给定一组多模态样本S{X₁,X₂,...,X_|S|}，其中|S|是样本数。对于每个样本，本申请得到一个图像V∈R^3×H×W，其中3，H，W表示通道的数量、图像的高度和宽度，以及一个包含N个词的文字内容T＝{w₁，w₂，...，w_N}，其中包含一个作为目标评价属性的M个词的子序列A＝{w₁，w₂，...，w_M}。本发明是基于深度学习的情感分类模型，以预测每个样本X＝(V，T，A)的正、负、中性的情绪标签y。

该模型由三个模块组成：人脸敏感的图像到情感文本的翻译模块、目标评价属性敏感的对齐和修改模块以及基于门控机制的多模态融合模块。对于给定的多模态推文X＝(V，T，A)，本申请将视觉输入V送入人脸敏感图像到情感文本翻译模块，以生成人脸描述D＝{D₁，D₂，...，D_I}，其中I是视觉输入中包含的人脸表情数量，而D_i＝{w₁，w₂，...，w_K}表示一个包含K个词的句子。本模块的重点是提取图像中包含丰富情感线索的面部表情并将其文本化。首先，本模块识别图片中的全部人脸，并利用DeepFace工具预测四项人脸属性：Age、Gender、Race、Emotion。随后，利用置信度超过阈值的人脸属性生成人脸面部表情描述，生成模版如图1所示：

随后，由于视觉输入V可能包含多个面部表情，因此有必要将目标评价属性A与相关面部描述D_A进行匹配。在目标评价属性敏感对齐和修改模块中，本申请计算目标评价属性A拼接上每个人脸描述D_i的新句子与图像输入V之间的余弦相似性。鉴于属性级多模态情感分析任务不包含直接的图像-文本对齐监督，并且属性级多模态情感分析任务的数据集大小限制了模型通过对比学习学习细粒度对齐，因此有必要引入外部图像-文本对齐知识。为此，本申请应用CLIP模型来执行这种细粒度对齐。本申请使用在大规模图像-文本对数据集上预训练的CLIP模型的文本编码器Text_Encoder和图像编码器Image_Encoder分别编码与目标评价属性相连的人脸描述concat(D，A)和图像V。得到的特征嵌入分别如下：

H_D&A＝Text_Encoder(concat(D，A))

H_V＝Image_Encoder(V)

然后，本申请将两个模态下的输出特征嵌入到相同的特征空间中。通过L2归一化，本申请计算了这些特征嵌入的余弦相似性L。然后，本申请选择并重写与当前图像相似度最高的人脸描述，作为当前方面的文本化视觉情感线索。重新绘制的人脸描述仅保留预测人脸属性的目标方面和表情。

H′_D&A＝L2_Normalize(H_D&A·W_D&A)

H′_V＝L2_Normalize(H_V·W_V)

L＝(H′_V·(H’_D&A)^T)*e^t

其中，W_D&A和W_V是可学习权重，t是CLIP模型中的温度标度，e为自然对数的底。然后本申请根据这些相似性分数选择并重写人脸描述D_A，仅保留目标评价属性和表情信息。此外，考虑到图像场景可以补充额外的语义信息，本申请采用预训练的图像描述生成模型(Caption_Transformer)为场景C＝{w₁，w₂，...，w_I}生成图像场景描述，其中J表示图像场景描述的长度。

C＝Caption_Transformer(V)

最后，在基于门控机制的多模态融合模块中，本申请利用两个预训练的语言模型对人脸描述和图像场景描述进行建模，并采用门机制进行特征融合和去噪。门控单元的输出通过线性层完成对目标评价属性的情感预测。

p(y|H)＝s0ftmax(WH+b)

其中

和/>

分别代表两个预训练的语言模型输出的句子级向量，W_D∈R^768×768，W_C∈R^768×768，W∈R^768×3，b_g∈R⁷⁶⁸和b∈R³是可学习的参数，σ是非线性变换函数tanh。

本申请可应用于分析社交媒体平台(如Twitter、Facebook)上用户发表的多模态内容的情感极性。例如Twitter平台中，通过收集用户公开的海量推文，应用本发明训练的多模态情感模型可判断每条数据中用户所表达的情感极性(积极、消极、中性)。根据得到的自动化判别结果可以识别不同国家不同地区不同时间海量用户的情感。本发明所提出的方法可在Pytorh环境下的单张NVIDIA TeslaV100GPU显卡上实现训练，并可以部署到基于CPU的包含Pytorh环境下。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于包括以下步骤；

步骤三：获取图片中人脸的面部属性信息；

步骤十三：将多模态融合表示送入线性分类层得到对于目标评价属性的情感分类预测结果；

所述步骤十二中将包含人脸描述信息的句子表示和包含场景信息的句子表示进行融合通过门控机制进行；

所述门控机制具体表示为：

p(y|H)＝softmax(WH+b)

其中

和/>

分别代表两个预训练的语言模型输出的句子级向量，W_D∈R^768×768、W_C∈R^768×768、W∈R^768×3、b_g∈R⁷⁶⁸和b∈R³是可学习的参数，g_t为门控权值，H为多模态融合向量表示，σ是非线性变换函数tanh，softmax为多分类激活函数，p(y|H)代表对于情感极性y的条件预测概率。

2.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述识别并切分出图像中的全部人脸通过面部识别模型DeepFace进行。

3.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述图片中人脸的面部属性信息通过DeepFace工具中人脸属性预测模型得到。

4.根据权利要求3所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述面部属性信息包括：年龄、人种、性别、表情预测信息及置信度；

5.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述句子进行编码通过预训练图文模型CLIP的文本编码器进行，图片进行编码通过预训练图文模型CLIP的图像编码器进行，表示为：

H_D&A＝Text_Encoder(concat(D，A))

H_V＝Image_Encoder(V)

6.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述步骤七中图片向量表示与文本向量表示的余弦相似度通过L2正则化得到，表示为：

H’_D&A＝L2_Normalize(H_D&A·W_D&A)

H’_V＝L2_Normalize(H_V·W_V)

L＝(H’_V·(H’_D&A)^T)*e^t

其中，W_D&A和W_V是可学习权重，t是CLIP模型中的温度标度，e是自然对数的底，L为图文向量的余弦相似度，H’_D&A和H’_V分别为经过L2正则化后的中间向量表示。

7.根据权利要求1所述的一种基于跨模态翻译的属性级多模态情感分类方法，其特征在于所述关于图片场景信息的中性文本描述通过图片描述生成模型得到，表示为：

C＝Caption_Transformer(V)