CN114973044A

CN114973044A - 一种基于双模态信息增强多头注意力的视频情感分析方法

Info

Publication number: CN114973044A
Application number: CN202110195691.5A
Authority: CN
Inventors: 彭俊杰; 吴廷; 郑藏智; 马传帅
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-08-30
Anticipated expiration: 2041-02-22
Also published as: CN114973044B

Abstract

本发明涉及一种基于双模态信息增强多头注意力的视频情感分析方法，包括：对视频进行预处理；从预处理后的数据中获取单模态原始特征；基于单模态原始特征，进一步获取单模态深层特征，其中，单模态深层特征包括文本深层特征、音频深层特征和视频深层特征；根据单模态深层特征，提取出单模态间的交互信息，即得到双模态信息；从不同特征子空间计算双模态注意力，获取双模态间的交互信息；将双模态信息与双模态间交互信息进行融合及分类预测，得到对应的情感分析预测结果。与现有技术相比，本发明在提取单模态特征后，利用其获取模态间的交互信息，再进一步得到不同交互信息的独立性和一致性信息，从而进行有效的特征融合和准确的情感预测。

Description

一种基于双模态信息增强多头注意力的视频情感分析方法

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种基于双模态信息增强多头注意力的视频情感分析方法。

背景技术

情感分析是自然语言处理领域的一个基本任务，传统的情感分析方法主要是基于文本进行的单模态情感分析；随着人们表达方式的多样化，产生了大量的非静态数据如语音、视频，这些数据包含了丰富的情感信息，由此产生的多模态情感分析能够帮助计算机更好地学习了解人们的心理状态以及情感趋向。目前基于单模态的情感分析技术已经得到广泛研究和应用，如智能客服，推荐系统中；基于多模态数据的情感分析工作还有待进一步研究，其面临的主要困难是模态内部信息提取和模态间交互信息提取，即单模态特征提取和多模态融合。

其中，针对文本的情感分析可分为三种：基于情感词典的方法、机器学习方法和深度学习方法。基于情感词典的方法是使用适合于数据集的相应词典来进行文本分类，这种方法依赖于人工、且分类性能依赖于词典的质量；基于机器学习的方法包括使用一些有监督或无监督的机器学习分类算法，如朴素贝叶斯、支持向量机、决策树、随机森林等，这些方法在一定程度上依赖于特征工程、且在数据量较大的时候效率低；基于深度学习的方法则大多能取得不错的效果，比如LSTM(Long Short-Term Memory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)、注意力机制、Transformer、BERT等都在文本学习上有着广泛的应用，BERT在很多自然语言处理任务上的性能也是达到SOTA。

针对语音的情感分析首先需要对语音特征进行提取，其中谱特征、韵律特征和音质特征最为常用。目前也有一些开源的库可以提取出这些与情感相关的特征如openSMILE，LibROSA，COVAREP等，然后设计神经网络来对提取的特征进行深度学习。

针对视频的情感分析则包含了文本、语音还有面部表情的识别。解决该问题的常规做法是，首先进行单模态特征提取，对于面部特征可以使用开源库OpenFace2.0等，也可以使用3D-CNN，VGG(Visual Geometry Group，超分辨率测试序列)等神经网络；然后进行多模态融合，目前已有的一些融合方法主要是特征层融合和决策层融合，基于特征层融合的方法较多，但是不能充分提取模态内部的交互信息，而基于决策层融合的方法则不能充分提取模态间的交互信息，由此，研究者提出了张量融合、动态记忆网络以及基于注意力机制的方法，但是这些方法仅考虑提取单模态内部重要特征，或是以其他模态信息作为监督信息来提高模态内部特征提取的有效性，而在实际场景中，不同的模态的交互程度是不同的，另一个模态可以弥补当前模态的不足，并且两个模态融合之后的特征对最终的情感决策的贡献不同，例如，有些人说话音量很高，但面部表情是开心的，那么结合这两个模态可以判断该人是高兴的，但若说出的内容是表达不满的，那么结合声音和文本可以判断该人是愤怒的。因此如何权衡两两模态交互之后所提供的信息，从而使计算机能够准确识别出人的情感，是当前视频情感分析中亟需解决的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双模态信息增强多头注意力的视频情感分析方法，以可靠权衡不同双模态的贡献度、提高视频情感分析识别结果的准确度。

本发明的目的可以通过以下技术方案来实现：一种基于双模态信息增强多头注意力的视频情感分析方法，包括以下步骤：

S1、对视频进行预处理：从视频中分离出音频，并对音频进行转录，得到相应文本，之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理；

S2、从预处理后的数据中获取单模态原始特征：采用BERT模型从文本中获取句子向量，并利用第三方工具提取出音频特征和视频特征；

S3、基于单模态原始特征，进一步获取单模态深层特征，其中，单模态深层特征包括文本深层特征、音频深层特征和视频深层特征；

S4、根据单模态深层特征，提取出单模态间的交互信息，即得到双模态信息；

S5、从不同特征子空间计算双模态注意力，获取双模态间的交互信息；

S6、将双模态信息与双模态间交互信息进行融合及分类预测，得到对应的情感分析预测结果。

进一步地，所述步骤S3具体包括以下步骤：

S31、基于句子向量，将所有句子的长度调整为长度一致，得到长度统一的句子表示；

将长度统一的句子表示输入LSTM中，得到提取了上下文关系的文本深层特征；

S32、在特征维上，对音频特征所有的帧向量取平均，得到平均后的音频特征；

将平均后的音频特征输入三层深度神经网络中，得到音频深层特征；

S33、在特征维上，对视频特征所有的帧向量取平均，得到平均后的视频特征；

将平均后的视频特征输入三层深度神经网络中，得到视频深层特征。

进一步地，所述文本深层特征具体为：

其中，t_i为文本深层特征，

为长度统一的句子表示，W_i为文本深度特征提取过程中所用的权重参数。

进一步地，所述音频深层特征具体为：

其中，a_i为音频深层特征，

为平均后的音频特征，W_i'为音频深层特征提取过程中所用的权重参数。

进一步地，所述视频深层特征具体为：

其中，v_i为视频深层特征，

为平均后的视频特征，W'_i'为视频深层特征提取过程中所用的权重参数。

进一步地，所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和文本的融合信息，所述声音和视频的融合信息具体为：

R_A＝{a₁,a₂,...,a_N}

R_V＝{v₁,v₂,...,v_N}

其中，R_AV为声音和视频的融合信息，R_A为音频深层特征集合，R_V为视频深层特征集合，N为视频数量；

所述声音和文本的融合信息具体为：

R_T＝{t₁,t₂,...,t_N}

其中，R_AT为声音和文本的融合信息，R_T为文本深层特征集合；

所述视频和文本的融合信息具体为：

其中，R_VT为视频和文本的融合信息。

进一步地，所述步骤S5具体包括以下步骤：

S51、使用两层相同维度的全连接层，以获得双模态信息交互特征，其中，两层相同维度的全连接层包括第一层独立全连接层和第二层共享全连接层；

S52、结合多头注意力机制，首先将双模态信息交互特征拼接得到多模态特征D，以作为键X和值Y的输入；

之后分别将各双模态信息交互特征作为查询Q的输入，并分别经过线性变换得到对应的双模态特征，与键X和值Y对应的多模态特征也经过相应的线性变换得到对应的双模态特征；

再将各双模态特征与多模态特征D中所有双模态特征进行交互，并使用softmax函数对交互结果进行归一化处理，以计算得到多模态特征中各双模态特征的注意力；

最后将每个注意头计算出的双模态特征的注意力进行拼接和线性层变换，以得到分配了注意力的双模态特征，即为双模态间交互信息。

进一步地，所述双模态信息交互特征具体为：

H_AV＝FC_1-AV(R_AV)

H_AT＝FC_1-AT(R_AT)

H_VT＝FC_1-VT(R_VT)

其中，

分别为音频与视频双模态交互特征、音频与文本双模态交互特征、视频与文本双模态交互特征，FC₂为第二层共享全连接层，FC_1-AV、FC_1-AT、FC_1-VT分别为第一层对应于各双模态信息的独立全连接层，H_AV、H_AT、H_VT分别为FC_1-AV、FC_1-AT、FC_1-VT对应输出的值。

进一步地，所述双模态间交互信息具体为：

其中，q为X的维度，n是注意头的个数，对应n个线性变换层，W_Q、W_X、W_Y分别为查询Q、键X、值Y对应的线性层参数矩阵，W_O为权重参数，Att_AV(Q_AV,D,D)、Att_AT(Q_AT,D,D)、Att_VT(Q_VT,D,D)分别为音频与视频双模态间交互信息、音频与文本双模态间交互信息、视频与文本双模态间交互信息，

分别为第h个注意力头中音频与视频双模态特征的注意力、音频与文本双模态特征的注意力、视频与文本双模态特征的注意力。

进一步地，所述步骤S6中情感分析预测结果具体为：

其中，

为情感分析预测结果，C_M为多模态情感分类器。

与现有技术相比，本发明具有以下优点：

一、本发明首先从视频中提取出不同单模态特征，利用不同单模态特征以获取单模态间的交互信息，再进一步获取双模态间交互信息，以此同时考虑了模态内部信息和模态间信息提取，增强了双模态间的信息交互，通过融合单模态间交互信息和双模态间交互信息，能够实现有效的特征融合，从而提高后续分类预测结果的准确性。

二、本发明利用拓展的多头注意力增强不同双模态间的特征交互，并通过注意力分配来权衡不同双模态的贡献度，本发明在获取单模态内部特征的同时能够充分提取模态间的交互信息，基于该交互信息计算双模态的贡献度，得到分配了注意力的双模态特征，通过计算双模态特征贡献度量化了不同模态的交互程度，从而得到了高质量的特征，有利于准确地进行情感分析预测。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的模型结构示意图；

图3为双模态交互过程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于双模态信息增强多头注意力的视频情感分析方法，包括以下步骤：

(1)对视频数据进行预处理，包括音频分离和视频分帧处理，具体是使用第三方工具进行预处理，并对视频分帧处理后进行人脸检测与对齐。

(2)使用开源方法，从预处理后的数据中提取出文本、音频和人脸原始特征。

(3)使用深度学习方法，基于原始特征，进一步提取出文本、音频和人脸深层特征。

(4)获取模态间交互信息，具体使用张量融合增强了模态间交互，并利用权重共享减少了参数量。

(5)获取双模态间交互信息，具体是通过从不同的特征表示子空间计算双模态特征在整体特征上的注意力分值。

(6)多模态融合和预测，具体是融合模态间的交互信息和双模态间的交互信息，并将该信息输入到分类器中，以实现情感分析预测。

本实施例中，令U＝{u₁,u₂,u₃...,u_N}为一系列的视频片段。对于u_i，在单模态特征提取阶段，首先将视频中的音频分离出来，然后进行视频分帧和人脸检测与对齐；之后利用BERT得到文本的句子向量，第三方工具提取音频特征和人脸特征；由于文本存在上下文关系，音频和视频存在时序关系，利用神经网络对上一步提取的单模态特征进行建模，得到单模态深层特征；基于单模态深层特征，提取出单模态间的交互信息，即为双模态信息；为增强双模态间的交互，从不同特征子空间计算双模态注意力，从而获取双模态间的交互信息；最后融合所获得模态间交互信息和双模态间交互信息，输入分类器进行情感预测。

如图2所示，本发明的模型架构图分成4个部分：单模态特征提取层、模态间交互信息提取层、双模态间交互信息提取层和预测层。模型以视频的话语段序列作为输入，经过特征提取网络提取单模态特征，然后进入模态间交互信息提取层，分别提取声音和视频、声音和文本、视频和文本的交互信息。双模态间交互信息提取层分别通过三个拓展的多头注意力进行不同双模态间的交互，并在不同的特征子空间计算双模态注意力，以得到双模态间的交互特征，预测层对所有交互信息进行融合然后进行情感预测。

在单模态特征提取层，需要分别提取出文本、音频和人脸特征。以话语段u_i为例，文本特征提取过程：经过BERT的句子表示为s_i，由于不同视频中的句子所包含的词的数量不同，对长度过短句子，在句子末尾填充字符，对长度过长的句子取其前L个词向量，最后使得所有句子的长度为L，L是所有话语段对应的文本序列长度的均值与一定倍数的标准差的加和。由此得到新的句子表示

后，将其输入到LSTM网络中得到提取了上下文关系的文本特征，如公式(1)所示，其中W_i为可训练的权重参数，利用BERT的优势，避免了中文分词工具不准确对句子语义关系的影响，同时利用LSTM捕捉词序列之间的上下文依赖关系。

音频特征提取过程：利用LibROSA库提取音频特征表示为f_i。由于音频是时间帧序列数据，每个音频包含不同的帧数量。对于帧长较短的音频，进行帧向量填充，对于帧长较长的音频，取其前L'个帧向量，使所有音频的帧长度都为L'，L'是所有音频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度，在特征维上对所有的帧向量取平均，得到新的音频特征表示

然后输入到三层深度神经网络中提取深层特征a_i，如公式(2)所示，其中W_i'为可训练的权重参数。

视频特征提取过程：首先利用第三方工具得到每个视频中出现的人脸部分的图像序列后，输入到OpenFace2.0中提取初始特征，表示为g_i。由于视频是时间帧序列数据，每个视频包含不同的帧数量。对于帧长较短的视频，进行帧向量填充，对帧长较长的视频，取其前L”个帧向量，使所有视频的帧长度都为L”，L”是所有视频对应的帧序列长度的均值与一定倍数的标准差的加和。为了减少计算维度，在特征维上对所有的帧向量取平均，得到新的视频特征表示

然后输入到三层深度神经网络中提取深层特征v_i，如公式(3)所示，其中W_i”为可训练的权重参数。

在模态间交互信息提取层，分别获取声音(A)和视频(V)的融合信息，声音(A)和文本(T)的融合信息，视频(V)和文本(T)的融合信息。将包含声音和视频模态的表示为AV，声音和文本两个模态的表示为AT，视频和文本的表示为VT。它们是基于单模态信息融合的双模态信息。对于所有视频提取单模态特征之后，将其特征表示为R_T＝{t₁,t₂,...,t_N}，R_A＝{a₁,a₂,...,a_N}，R_V＝{v₁,v₂,...,v_N}。模态间交互信息的计算如式(4)。

两个模态融合的信息获取为两个独立模态特征表示的二阶笛卡尔积。为了能够适应下一层的计算，本发明分别使用两层相同维度的全连接层将其转为相同的维度，其中前一层是独立的，后一层是共享的，以减少参数量并获得更多相似信息。如(5)、(6)所示，双模态交互后的特征

H_AV＝FC_1-AV(R_AV)，H_AT＝FC_1-AT(R_AT)，H_VT＝FC_1-VT(R_VT) (5)

在双模态间交互信息提取层，其中，Attention函数的本质可以被描述为一个查询(Q)到一系列键(X)-值(Y)对的映射，在NLP(Natural Language Processing，自然语言处理)中，常见的设置是键和值是一样的。多头注意力机制在传统的注意力机制上引入了放缩点积和多头计算，该方法能够在不同特征子空间上捕获相关信息，随后被应用到更多其他的NLP任务。更具体地，在多头注意力结构中，每个头的Q，X，Y首先经过线性变换，如式(7)(8)(9)所示。然后计算放缩点积注意力，如式(10)所示，然后将所有头的注意力进行拼接，再进行一次线性变换得到的值作为多头注意力，如(11)所示。

MultHead(Q,X,Y)＝Concat(Att¹,Att²,...,Attⁿ)×W_O (11)

其中，q为X的维度，n是注意头的个数，对应n个线性变换层，W_Q、W_X、W_Y、W_O分别为Q，X，Y和最后一步对应的线性层参数矩阵。

为了进行双模态之间的交互，计算双模态贡献度，并从不同的表示子空间捕捉相关信息，首先将模态间交互特征拼接得到多模态特征D，作为X和Y的输入，如式(12)所示，然后分别将声音和视频交互后的特征

声音和文本交互后的特征

视频和文本交互后的特征

作为Q的输入，记为Q_AV、Q_AT、Q_VT。双模态交互过程如图3所示，Q_AV，Q_AT，Q_VT和D经过线性变换得到对应的特征，然后AV与D中的AV、AT、VT进行交互，AT和VT也是如此，得到三组值。使用softmax函数对这些值进行归一化后，据此计算AV，AT，VT在D中的注意力，注意力计算公式如(13)、(14)、(15)所示。最后分别拼接每个头计算出的AV，AT，VT注意力并经过一个线性层变换得到分配了注意力的双模态特征表示，如(16)，(17)，(18)所示，W_O为权重参数。在这整个过程中AV，AT，VT共享参数，由此可以减少参数量和存储空间。

在预测层，首先对模态间交互信息和双模态间交互信息进行拼接，然后输入到多模态情感分类器C_M中，C_M使用三层DNN(Deep Neural Networks，深度神经网络)来生成输出，如(19)所示。

综上所述，本发明在提取单模态特征后，利用其获取模态间的交互信息，再进一步得到不同交互信息的独立性和一致性信息，从而进行有效的特征融合和准确的情感预测。由于同时考虑了模态内部信息和模态间信息提取，并基于多头注意力机制增强了双模态间的信息交互，通过计算双模态特征贡献度，有效地量化了不同模态的交互程度，从而得到了高质量的特征，保证了情感分析预测的准确性。