CN111275085B

CN111275085B - 基于注意力融合的在线短视频多模态情感识别方法

Info

Publication number: CN111275085B
Application number: CN202010043993.6A
Authority: CN
Inventors: 唐宏; 赖雪梅; 陈虹羽; 李珊珊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2022-09-13
Anticipated expiration: 2040-01-15
Also published as: CN111275085A

Abstract

本发明涉及自然语言处理、深度学习、多模态情感分析领域，特别涉及一种基于注意力融合的在线短视频多模态情感识别方法，该方法包括：获取短视频中的各个单模特征；采用双向GRU分别对上述特征进行预处理，得到模态内部信息；结合模态内部信息和模态之间的交互作用，得到各个高级模态特征；根据注意力机制确定各模态的贡献程度，得到总特征向量，并输入到softmax函数中，得到基于注意力融合的双向GRU多模态情感识别模型；训练该模型，将待识别的短视频输入到训练好的模型中，得到情感识别结果；本发明很好的融合了各单模态特征，有效挖掘视频中所表达的情感信息，从而提升了多模态情感识别的准确率及效率。

Description

基于注意力融合的在线短视频多模态情感识别方法

技术领域

本发明涉及自然语言处理、深度学习、多模态情感分析领域，特别涉及一种基于注意力融合的在线短视频多模态情感识别方法。

背景技术

随着互联网的广泛普及，手机网民规模不断扩大，越来越多的人通过互联网进行沟通交流，因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息，这些评论信息表达了人们的情感色彩和情感倾向。但是随着通信技术的进步和新兴社交媒体(如抖音、秒拍、快手等)的迅速崛起，在线短视频受到了人们越来越多的关注，人们习惯通过拍短视频来表达自己的情感或观点。随着短视频数量的增加及人们言论自由的权利，有些人通过短视频发表积极的言论，而有些人却利用短视频散播消极的言论，当消极言论过多时，就意味着社会矛盾有爆发的可能，相关部门需提前采取行动解决可能存在的矛盾。但是网上发布的短视频数量众多，仅仅依靠人工辨别一段短视频是积极或消极的显然应付不过来，由于情感可以从人的面部表情、声音、韵律和身体姿态中提取出来，所以在这种情况下，有必要建立一个对在线短视频进行多模态情感识别的系统。随着深度学习算法的快速发展，利用人工智能技术和自然语言处理领域的相关技术来进行多模态情感识别可以很大程度改善和提高舆情监控的效率。

对于多模态情感识别，其挑战之一在于如何考虑短视频中所有话语之间的相互依赖关系。视频中的话语都是在不同时间以特定顺序说出来的，所以视频可以看作是一系列话语，视频的序列话语很大程度上与上下文相关，从而影响彼此的情感分布，以前的方法大都忽略了每个话语的上下文信息。多模态情感识别的第二个挑战在于如何更好地对模态内部信息和模态之间的交互作用进行建模，即如何更好地将各模态信息进行有效融合。目前多模态融合策略主要有特征层融合和决策层融合两种。特征层融合，也称早融合，即在信息输入时直接将多种模态信息进行拼接操作。虽然此方法简单易操作，但是却不能将从不同模态获得的冲突或冗余信息过滤掉，并且容易忽略模态间的动态关系。决策层融合，也称晚融合，即对每种模态信息单独做训练，考虑模态的内在信息，然后进行决策投票。虽然此种方法充分考虑了各模态特征的差异性，但是却难以学习到模态之间的相互联系。

发明内容

为解决以上现有技术问题，本发明提出了一种基于注意力融合的在线短视频多模态情感识别方法，该方法步骤包括：

S1：获取短视频中的各单模特征，即文本特征、语音特征以及图像特征；

S2：采用双向GRU网络分别对各单模特征进行预处理，得到各个单模初级特征，即初级文本特征、初级语音特征和初级图像特征；

S3：结合模态内部的各个单模初级特征和各模态之间的交互作用，得到高级文本特征、高级语音特征和高级图像特征；

S4：根据注意力机制确定各模态的贡献程度，得到总特征向量，将总特征向量输入到softmax函数中，得到基于注意力融合的双向GRU多模态情感识别模型；

S5：对基于注意力融合的双向GRU多模态情感识别模型进行优化训练，将待识别的短视频输入到训练好的模型中，得到该短视频的情感识别结果；

S6：根据得到的情感识别结果，控制该短视频是否进行上传。

优选的，获取短视频中的各单模特征的步骤包括：

S11：使用CNN提取视频中每个话语的文本特征，得到视频i中话语j的文本特征表示

S12：使用openSMILE提取视频中每个话语的语音特征，得到视频i中话语j的语音特征表示

S13：使用3D-CNN提取视频中每个话语的图像特征，得到视频i中话语j的图像特征表示

S14：获取视频i中的最大话语长度L_i以及各单模特征的维度k_m，将模态m的每个话语采用一个特征向量

表示，并将所有话语的特征向量存放于集合

中；即

优选的，获取初级文本特征、初级语音特征和初级图像特征的步骤包括：将文本特征

语音特征

以及图像特征

分别输入到各自的双向GRU模型中，得到初级文本特征

初级语音特征

以及初级图像特征

进一步的，双向GRU模型由更新门z_t和重置门r_t组成，更新门z_t决定是否要将隐藏状态更新为新的状态，重置门r_t决定是否要将之前的状态忘记；

双向GRU网络输出数据的大小为d_m维，每个话语的特征向量

输入双向GRU网络，双向GRU网络的计算公式为：

其中，

表示向量拼接操作，则模态m中所有话语经过双向GRU后的矩阵为：

优选的，获取各模态的高级特征的步骤包括：

S31：将初级文本特征

初级语音特征

和初级图像特征

同时输入到一个共享的双向GRU网络层，得到具有交互作用的文本特征

语音特征

和图像特征

S32：将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合，得到高级文本特征

高级语音特征

以及高级图像特征

优选的，构建基于注意力融合的双向GRU多模态情感识别模型的步骤包括：

S41：根据注意力机制确定各模态的贡献程度，得到总特征向量F_i ^*；

S42：将总特征向量输入softmax函数中，得到基于注意力融合的双向GRU多模态情感识别模型。

优选的，得到短视频的情感识别结果使用的方法包括：使用分类交叉熵函数与Adam优化器对上诉模型进行训练优化，将待识别的短视频输入该模型，得到其情感识别结果。

本发明采用双向GRU网络，充分考虑了短视频中各模态上下文相互依赖关系的影响，提高了情感分类性能；本发明将模态内部信息和模态之间的交互作用相结合，对多模态信息进行了有效的融合；本发明采用了注意力机制来确定各个模态的贡献程度，得到基于注意力融合的双向GRU多模态情感识别模型，能够实现在线短视频较好的情感识别效果。

附图说明

图1为本发明的总体流程图；

图2为本发明采用的GRU机制图；

图3为本发明的双向GRU模型结构图；

图4为本发明的基于注意力融合的双向GRU多模态情感识别模型。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于注意力融合的在线短视频多模态情感识别方法，如图1所示，该方法步骤包括：

其中，GRU表示门循环单元，softmax表示归一化指数函数。

在提取短视频的特征时，每段短视频可以看作一系列具有上下文关系的话语，共有N段短视频，其中任意视频i的最大话语长度为L_i，对于视频i中的任意话语j，采用不同的特征提取方法分别提取各单模态特征，提取单模态特征的过程包括：

S14：假设各单模态特征有k_m维，对于模态m的每个话语可由一个特征向量表示：

将一段视频中所有话语的特征向量存放于集合

中得到：

其中，CNN表示双层神经网络模型，openSMILE表示语音特征提取模型，3D-CNN表示三维神经网络模型，m∈{T,A,V}，T代表文本、A代表语音、V代表图像，

表示集合

的维度是L_i×k_m维。

CNN表示双层神经网络模型，该模型的卷积具有局部特征提取的功能。在本实施例中，将视频i中的每个话语表示为组成单词向量的连接，最后被表示为一个维度为[50,300]的词向量矩阵，将其作为CNN的输入层；其中CNN有2个卷积层，第一个卷积层有2个大小分别为3、4的卷积核，每个卷积核有50个特征图，第二个卷积层有1个大小为2的卷积核，该卷积核有100个特征图；卷积层之间是窗口大小为2*2的最大池化层；最后是大小为500维的全连接层，并使用非线性整流单元ReLU作为激活函数，将全连接层的激活值作为话语的文本特征表示。

openSMILE是一个高度封装的语音特征提取工具，不仅可以提取基础的语音特征，而且还可以提取重要的情感特征参数。在本实施例中，以30Hz帧速率和100ms的滑动窗口来提取音频特征；为了识别语音样本，使用z标准化技术对语音样本进行归一化处理，并对语音强度进行阈值处理。openSMILE提取的特征由若干低级描述因子(LLD)组成，如梅尔频率倒谱系数MFCC、语音强度、音高，以及它们的统计量，如均值、根二次均值等。

3D-CNN表示三维神经网络模型，相比普通的卷积神经网络多了一个时间维度，使提取到的情感特征含有丰富的时序信息。在本实施例中，对所有的视频文件进行读取，获取到每段视频的总帧数，然后对每段视频平均取十帧，作为整段视频的表示。3D-CNN不仅可以学习每一帧的相关特征，还可以学习给定连续帧数之间的变化，将整段视频的表示作为3D-CNN的输入层；使用三维卷积滤波器，与2D-CNN类似，该滤波器可以在视频中滑动并生成输出，此处滤波器大小为5*5*5；对卷积层输出使用窗口大小为3*3*3的最大池化层；最后是大小为300维的全连接层，使用线性整流单元ReLU作为激活函数，将全连接层的激活值作为视频i中每个话语的图像特征表示。

采用双向GRU确定各模态中上下文的相互依赖关系并得到各模态的初级特征表示，其步骤包括：

S21：将文本特征

输入到双向GRU_T中，得到初级文本特征

S22：将语音特征

输入到双向GRU_A中，得到初级语音特征

S23：将图像特征

输入到双向GRU_V中，得到初级图像特征

其中，GRU模型由更新门z_t和重置门r_t构成，其机制如图2所示。更新门z_t决定是否要将隐藏状态更新为新的状态，z_t的值越大，表明前一时刻的状态信息代入越多；重置门r_t决定是否要将之前的状态忘记，r_t的值越小，表明前一时刻的状态信息被忘掉得越多。双向GRU具有参数少、训练快的优点，而且能够记住句子中上下文的长期依赖关系，在进行情感分类的时候可以通过双向GRU来考虑上下文的信息。

采用双向GRU捕捉各模态中所有话语的上下文的相互依赖关系，如图3所示，包括：

将矩阵

作为双向GRU_m的输入，假设GRU_m的输出大小为d_m维，每个话语的特征向量

都使用以下公式通过GRU_m单元：

其中，

是视频i中模态m的第t个话语的特征表示，

为话语t的候选隐藏状态，

为话语t的隐藏层状态，δ为Sigmoid激活函数，以上公式中各个符号代表的具体含义如表1所示：

表1符号含义汇总

输入的特征通过双向GRU的计算公式为：

话语

经过双向GRU_m后的隐藏层输出表示为：

其中，

表示向量拼接操作，则模态m中所有话语经过双向GRU_m后的矩阵表示为：

将双向GRU_m的输出作为视频i中模态m的初级特征向量。

其中，m表示是模态类型，且m∈{T,A,V}，T代表文本、A代表语音、V代表图像，L_i表示视频i中的最大话语长度，t表示视频i中的第t个话语，

为视频i中模态m的第t个话语的特征表示，

表示话语

经过双向GRU网络后的隐藏层输出，

表示前向GRU计算，

表示后向GRU计算，

表示矩阵

的维度是L_i×2d_m维，

表示模态m的初级特征。

将模态内部信息和模态之间的交互作用进行建模并得到各模态的高级特征表示，包括：

S31：将初级文本特征

初级语音特征

和初级图像特征

语音特征

和图像特征

高级语音特征

以及高级图像特征

融合的公式包括：

其中，

表示向量拼接操作。

多模态情感分析的核心在于有效地对模态内部信息和模态之间的交互作用进行建模。在本实施例中，模态内部信息由各自的双向GRU输出丰富的各模态初级特征表示；模态之间的交互作用利用各模态初级特征表示对单模态和三模态的相互作用进行建模。

视频i中具有交互作用的各单模态特征包括：

将矩阵

输入双向GRU中，双向GRU输出D维数据，将文本、语音和图像三种模态信息输入一个共享的双向GRU网络，得到交互作用后的数据，其计算公式包括：

视频i中模态m的所有话语经过双向GRU后的矩阵表示为：

得到具有交互作用的文本特征

语音特征

和图像特征

其中，

表示

经过共享双向GRU网络层后得到的具有交互作用的信息，

表示话语

经过双向GRU网络后的隐藏层输出，

表示前向GRU计算，

表示后向GRU计算，

表示向量拼接操作，

表示视频i中模态m的所有话语经过双向GRU网络后的矩阵表示，

表示

的维度为2D维，L_i表示视频i中的最大话语长度，t表示视频i中的第t个话语，

表示矩阵

的维度为L_i×2D维。

人们在进行情感表达的时候，每个模态所占的比例不一样，并非所有的模态对情感分类都同样重要，有些人喜欢用浮夸的表情来表达自己的喜好，而有些人更倾向于用音调的高低来进行情感的表达，所以提取到的情感特征对最后的情感分类会产生直接的影响。注意力机制(Attention Mechanism)能将注意力集中在与分类对象相关的最重要部分。通过注意力机制可以给每一个模态输出一个注意力分数，比较重要的模态对最后情感分类的结果影响较大，所以分配的注意力权重大，这样就能体现不同模态特征对最后情感分类结果的影响程度。

如图4所示，构建基于注意力融合的双向GRU多模态情感识别模型的过程包括：

将模态m的高级特征

输入到注意力网络，且模态m所占的注意力权重为α_m，通过加权累加得到最后用于分类的总特征向量

计算的表达示为：

其中，P_m为

的隐藏单元状态，

是权重参数，

为偏置项，α_m是经归一化后的权重向量，

为待学习的参数。

将总特征向量作为softmax函数的输入，包括：

将注意力机制输出的总特征向量

作为softmax函数的输入进行情感分类：

其中，W_soft为softnax层的权重矩阵，b_soft为softnax层的偏置项，y表示所有的真实标签，c为情感种类值(这里c＝class，为0或1，即分为消极或积极)，

为预测类的概率，y[c]表示预测类的真实标签，class表示总的情感种类值。

使用分类交叉熵函数与Adam优化器对基于注意力融合的双向GRU多模态情感识别模型进行训练优化。

在训练过程中，将分类交叉熵函数作为训练的损失函数Loss，其损失函数的表达式为：

其中，N为样本的数量，i为样本的索引，c为类值，C表示总的情感种类值，y_ic表示第i个样本c类的真实标签，且

表示第i个样本预测为c类的概率，并使用Adam优化器来优化网络学习参数，采用Dropout来防止过拟合；其中，Adam表示适应性矩估计，Dropout表示深度神经网络层的一种选择层。在完成模型的训练之后，将所需要识别的短视频输入模型之中，即可对短视频中表达的情感进行识别，当识别到的消极情感过多时，取消该短视频的上传并提醒相关部门提前采取行动解决可能存在的矛盾，进而维护社会的安定。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，包括：

S3：结合模态内部的各个单模初级特征和各模态之间的交互作用，得到高级文本特征、高级语音特征和高级图像特征；具体步骤包括：

S31：将初级文本特征

初级语音特征

和初级图像特征

同时输入到一个共享的双向GRU网络，得到具有交互作用的文本特征

语音特征

和图像特征

S32：将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合，得到高级文本特征F_i ^T、高级语音特征F_i ^A以及高级图像特征F_i ^V；

S6：根据得到的情感识别结果，控制该短视频是否进行上传；

其中，GRU表示门循环单元，softmax表示归一化指数函数。

2.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，所述获取短视频中的各单模特征的步骤包括：

S11：使用CNN提取视频中每个话语的文本特征，得到视频i中话语j的文本特征

S12：使用openSMILE提取视频中每个话语的语音特征，得到视频i中话语j的语音特征

S13：使用3D-CNN提取视频中每个话语的图像特征，得到视频i中话语j的图像特征

表示，并将所有话语的特征向量存放于集合

中；即

表示集合

的维度是L_i×k_m维。

3.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，获取初级文本特征、初级语音特征和初级图像特征的过程包括：

将文本特征

语音特征

以及图像特征

分别输入到各自的双向GRU网络中，得到初级文本特征

初级语音特征

以及初级图像特征

4.根据权利要求3所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，所述双向GRU网络由更新门z_t和重置门r_t组成，更新门z_t决定是否要将隐藏状态更新为新的状态，重置门r_t决定是否要将之前的状态忘记；

双向GRU网络输出数据的大小为d_m维，每个话语的特征向量

输入双向GRU网络，双向GRU网络的计算公式为：

其中，

为视频i中模态m的第t个话语的特征表示，

表示话语

经过双向GRU网络后的隐藏层输出，

表示前向GRU计算，

表示后向GRU计算，

表示矩阵

的维度是L_i×2d_m维，

表示模态m的初级特征。

5.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，得到具有交互作用的各单模态特征包括：

将矩阵

视频i中模态m的所有话语经过双向GRU后的矩阵表示为：

得到具有交互作用的文本特征

语音特征

和图像特征

其中，

表示

经过共享双向GRU网络层后得到的具有交互作用的信息，

表示话语

经过双向GRU网络后的隐藏层输出，

表示前向GRU计算，

表示后向GRU计算，

表示向量拼接操作，

表示视频i中模态m的所有话语经过双向GRU网络后的矩阵，

表示

表示矩阵

的维度为L_i×2D维。

6.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，构建基于注意力融合的双向GRU多模态情感识别模型的步骤包括：

S42：将总特征向量输入softmax函数中，得到基于注意力融合的双向GRU 多模态情感识别模型。

7.根据权利要求6所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，根据注意力机制确定各模态的贡献程度包括：

将模态m的高级特征F_i ^m输入到注意力网络，且模态m所占的注意力权重为α_m，通过加权累加得到最后用于分类的总特征向量F_i ^*，其计算的表达示为：

其中，P_m为F_i ^m的隐藏单元状态，

是权重参数，

为偏置项，α_m是经归一化后的权重向量，

为待学习的参数。

8.根据权利要求6所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，所述将总特征向量输入softmax函数中的过程包括：

将注意力机制输出的总特征向量F_i ^*作为softmax函数的输入进行情感分类：

y＝softmax(W_soft·F_i ^*+b_soft)

其中，W_soft为softnax层的权重矩阵，b_soft为softnax层的偏置项，y表示所有的真实标签，c为情感种类值，y为预测类的概率，y[c]表示预测类的真实标签，class表示总的情感种类值。

9.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，得到短视频的情感识别结果使用的方法包括：使用分类交叉熵函数与Adam优化器对基于注意力融合的双向GRU多模态情感识别模型进行训练优化，将待识别的短视频输入该模型，得到其情感识别结果；Adam表示适应性矩估计。