CN115063709A

CN115063709A - 基于跨模态注意与分层融合的多模态情感分析方法及系统

Info

Publication number: CN115063709A
Application number: CN202210390047.8A
Authority: CN
Inventors: 孙涛; 权志邦
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-09-16

Abstract

本发明提出了基于跨模态注意与分层融合的多模态情感分析方法及系统，提取待分析视频中的文本特征、视觉特征和声学特征；将文本特征与声学特征、文本特征与视觉特征交叉注意，获得声学模态表征和视觉模态表征；门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息，得到一维向量，用于情感分析预测；本发明基于分布匹配思想，使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息，对三个特征对组合进行模态间交互信息提取，并通过门控机制剔除冗余信息，以实现有效的多模态表征融合。

Description

基于跨模态注意与分层融合的多模态情感分析方法及系统

技术领域

本发明属于领域，尤其涉及基于跨模态注意与分层融合的多模态情感分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

每天，我们身边会产生庞大而有意义的信息，这些信息大多数在网络中产生，而社交媒体又是网络中信息的集中地带，其中涵盖许多与我们生活密切相关的话题、观点、情感和情绪。多模态情感分析(MSA)一直是自然语言处理中活跃的分支领域，广泛应用于政府选举、智慧医疗和聊天机器人推荐等领域。相较于传统情感分析，MSA利用多种信号源(摘录的原始文本、声学以及视觉)对特定对象在特定时间段内表达的情感进行预测。MSA的两个挑战：1)如何对不同模式之间的互动进行建模，特别是互补性和补充性信息(supplementaryand complementary information)；2)在视觉和听觉模式中的缺失值、错位等情况下的数据的融合。

最近几年，研究人员设计了复杂的融合模型；Zadeh等人设计了张量融合网络，利用笛卡尔积融合三种模态的特征向量；Tasi等人设计了多模态transformer，将所有模态一并进行处理，以得到预测的情感分数；虽然这些方法取得了不错的效果，但也存在一个不容忽视的问题：忽略了不同模态之间的差异性，导致在模态表征获取阶段损失关键预测信息；Hazarika等人设计了一种模态特定和模态不变的特征空间，将两种类型的表示结合几种损失，借助距离等评估模型效果；Yu等人使用多任务形式，在训练阶段引入模态标签自动生成模块，以辅助主任务通道，节省了人工标注时间，进而提高效率；虽然这些研究取得了令人振奋的结果，但他们缺乏在模态融合阶段的模态间信息交互，导致冗余信息被保留至最终预测阶段，影响模型性能和准确性。

发明内容

为克服上述现有技术的不足，本发明提供了基于跨模态注意与分层融合的多模态情感分析方法及系统，使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息，对三个表征进行模态间交互信息提取，并通过门控机制剔除冗余信息，以实现有效的多模态表征融合，从而改善融合结果，提高情感分析的准确性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于跨模态注意与分层融合的多模态情感分析方法；

基于跨模态注意与分层融合的多模态情感分析方法，包括：

提取待分析视频中的文本特征、视觉特征和声学特征；

将文本特征与声学特征、文本特征与视觉特征交叉注意，获得声学模态表征和视觉模态表征；

门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息，得到一维向量；

将一维向量作为情感得分，进行情感标签预测，得到分析结果。

进一步的，使用预先训练的12层BERT从待分析视频中提取文本特征；

选择BERT最后一层的第一个词向量作为最终提取的文本特征。

进一步的，所述声学特征和视觉特征，使用预先训练的工具包对待分析视频进行处理，获得初始的视觉特征和声学特征，具体步骤为：

通过一维时间卷积获取声学特征和视觉特征；

将时间信息通过位置嵌入到特征中。

进一步的，所述交叉注意，是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合，提取感兴趣的特征。

进一步的，交叉注意的具体步骤为：

并行注意力计算，对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归；

获取头部，对并行注意力的输出进行加权平均；

拼接所有头部，进行多头自注意力连接，得到声学模态表征和视觉模态表征。

进一步的，声学模态表征、视觉模态表征和文本特征两两拼接，输入到双向门控循环网络中，不同模态信息充分交互，通过门控机制有效剔除表征中的冗余信息和不相关信息，得到三种表征。

进一步的，用两层的RELU激活函数对拼接后的三种表征进行处理，得到最终的一维向量，用于情感分析预测。

本发明第二方面提供了基于跨模态注意与分层融合的多模态情感分析系统。

基于跨模态注意与分层融合的多模态情感分析系统，包括：特征提取模块、交叉注意模块和门控循环分层融合网络模块；

特征提取模块，被配置为：提取待分析视频中的文本特征、视觉特征和声学特征；

交叉注意模块，被配置为：将文本特征与声学特征、文本特征与视觉特征交叉注意，获得声学模态表征和视觉模态表征；

门控循环分层融合网络模块，被配置为：门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息，得到一维向量。

分析预测模块，将一维向量作为情感得分，进行情感标签预测，得到分析结果。

本发明第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。

本发明第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明基于分布匹配思想，使模态在时间交互阶段获得对整体情感取向具有协同作用的表征信息，对3个双峰对组合进行模态间交互信息提取，并通过门控机制剔除冗余信息，以实现有效的多模态表征融合。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的分层门控循环网络；

图3为第二个实施例的系统结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提出的总体思路：

基于视频中文本、视觉和声学三个模态进行情感分析，首先提取三个特征后，将文本分别与视觉和声学进行交叉注意，获取模态之间的差异性，然后对三个特征进行两两拼接融合，提取模态间交互信息，剔除冗余信息，得到的完善准确融合信息，输入到RELU激活函数，得到情感得分。

实施例一

本实施例公开了基于跨模态注意与分层融合的多模态情感分析方法；

如图1所示，基于跨模态注意与分层融合的多模态情感分析方法，包括：

S1：提取待分析视频中的文本特征、视觉特征和声学特征；

S2：将文本特征与声学特征、文本特征与视觉特征交叉注意，获得声学模态表征和视觉模态表征；

S3：门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息，得到一维向量；

S4：将一维向量作为情感得分，进行情感标签预测，得到分析结果。

S1步骤中，先从待分析的视频中获取文本序列、视频序列和音频序列，然后分别输入到文本通道、视频通道和音频通道中提取特征：

文本通道，采用预先训练的BERT对其高维语义进行提取，选择最后一层的第一个词向量f_t作为最终提取的特征，公式如下：

其中，U_t表示文本的初始序列,θ_t ^bert表示BERT预训练模型的超参数，

表示文本的特征空间，d是空间维度，t是文本。

声学与视觉通道，使用预先训练的工具包对原始数据进行处理，学习足够感知与时间信息，获得初始的向量特征，具体步骤为：

1)一维时间卷积：将初始序列送入一维时间卷积,公式如下：

其中，Conv1D(·)是一维时间卷积函数，k_m是模态m使用的卷积核的大小，U_m是m模态的输入序列，d是公共维度，T_m表示模态m的话语长度，m∈{a,v}，a是声学模态，v是视觉模态。

2)位置嵌入：为了使序列具备时间信息，将位置嵌入(PE)括充到

公式如下：

目的是计算每个位置索引的嵌入，其中，PE(·)代表位置嵌入函数，T_m表示模态m的话语长度，d是公共维度，m∈{a,v}。

S2步骤中，对提取的特征进行跨模态交叉注意，获取声学和视觉模态的潜在表征信息，对整体情感取向具有协同作用，具体步骤为：

1)并行注意力计算，对声学、视觉特征的Query向量和文本特征的Key和Value向量进行逻辑回归，公式如下：

其中Q_a，Q_v分别代表声学、视觉模态的Query向量，K_t、V_t分别代表文本模态的Key和Value向量,softmax(·)代表softmax函数，d_h代表模态的维度,T表示转置。

2)获取头部，对并行注意力的输出进行加权平均；每个注意力的输出被称为头部head，第i个头部的计算公式为：

这里

是计算第i个m模态的head时Q_m的权重矩阵；

是计算第i个m模态的head时K_m的权重矩阵；

是计算第i个m模态的head时V_m的权重矩阵；用于将矩阵线性投影到特定空间中，其中m∈{a,v}。

3)拼接所有头部，进行多头自注意力连接，得到声学模态表征和视觉模态表征，公式如下：

是拼接m模态的head之后所乘的权重矩阵，n表示使用的自注意力head的个数，n＝10，Concat(·)为拼接操作，m∈{a,v}。

通过以上三个步骤得到音频模态

和视频模态

的表征，总公式如下：

其中，

代表交叉注意力模块所需的主要超参数。

S3步骤，即通过门控循环分层融合网络得到完整准确的一维向量；以往的研究,在获取到有效的表征之后，大多数直接将模态表征进行拼接以用于最终预测，这其中会将冗余信息添加进来，影响最终的预测结果。为了让表征中的冗余信息被有效剔除，如图2所示，本发明设计了一个门控循环融合网络，对三种表征的两两组合进行处理，并送入门控循环分层融合网络中，以获取三个特征对之间的交互信息，具体步骤如下：

1)将得到的三种模态表征两两组合，公式如下：

其中，

f_t分别是与文本跨模态交叉注意后的声学表征、与文本跨模态交叉注意后的视觉表征和文本表征。

2)送入双向门控循环网络中，得到三种交互表征，公式如下：

其中，Bi-GRU(·)代表双向门控循环单元网络，θ^gru表示门控循环单元网络的超参数。

3)在将三个交互表征拼接后，将他们投影到低维特征空间

中：

f_s＝concat(f_t-a,f_t-v,f_a-v) (16)

其中，

是参数矩阵，ReLU是ReLU激活函数，

代表元素乘，

为偏置量。

最后，使用融合表示

对多模态情感进行预测：

其中，

是参数矩阵，ReLU是ReLU激活函数，

代表元素乘，

为偏置量。

S4步骤中，将一维向量y′作为情感得分，进行情感标签预测，得到分析结果。

优选的,标签得分规则设定为：情感得分为(0-3]时，是积极情感；得分为[-3-0)时，是消极情感；当得分为0时，为中性情感。

实施例二

本实施例公开了基于跨模态注意与分层融合的多模态情感分析系统；

如图3所示，基于跨模态注意与分层融合的多模态情感分析系统，包括：特征提取模块、交叉注意模块，门控循环分层融合网络模块和分析预测模块；

分析预测模块，被配置为：将一维向量作为情感得分，进行情感标签预测，得到分析结果。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。

实施例四

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，

提取待分析视频中的文本特征、视觉特征和声学特征；

2.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，使用预先训练的12层BERT从待分析视频中提取文本特征；

选择BERT最后一层的第一个词向量作为最终提取的文本特征。

3.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，所述声学特征和视觉特征，使用预先训练的工具包对待分析视频进行处理，获得初始的视觉特征和声学特征，具体步骤为：

通过一维时间卷积获取声学特征和视觉特征；

将位置信息嵌入到特征中。

4.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，所述交叉注意，是将文本特征分别与声学特征和视觉特征进行跨模态交叉融合，提取感兴趣的特征。

5.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，交叉注意的具体步骤为：

获取头部，对并行注意力的输出进行加权平均；

6.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，声学模态表征、视觉模态表征和文本特征两两拼接，输入到双向门控循环网络中，不同模态信息充分交互，通过门控机制有效剔除表征中的冗余信息和不相关信息，得到三种交互表征。

7.如权利要求1所述的基于跨模态注意与分层融合的多模态情感分析方法，其特征在于，用两层的RELU激活函数对拼接后的三种交互表征进行处理，得到最终的一维向量，用于情感分析预测。

8.基于跨模态注意与分层融合的多模态情感分析系统，其特征在于：包括：特征提取模块、交叉注意模块和门控循环分层融合网络模块；

门控循环分层融合网络模块，被配置为：门控循环分层融合网络对声学模态表征、视觉模态表征和文本特征两两交互提取信息，得到一维向量；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于跨模态注意与分层融合的多模态情感分析方法中的步骤。