CN116167014A

CN116167014A - 一种基于视觉和语音的多模态关联型情感识别方法及系统

Info

Publication number: CN116167014A
Application number: CN202310167361.4A
Authority: CN
Inventors: 刘天亮; 李凯; 刘浏; 戴修斌; 鲍秉坤
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-26

Abstract

本发明公开了一种基于视觉和语音的多模态关联型情感识别方法及系统，在视觉数据部分，提取指定数量的图像帧并调节为统一分辨率，利用3D卷积神经网络提取时序特征，得到指定尺寸的特征图；利用带滑动窗口的自注意力神经网络提取空间特征，将输出的特征图利用全局平均池化处理为指定大小的一维向量，得到视觉深层情感特征。在语音数据部分，使用声学分析框架提取声学特征，利用自注意力网络提取语音深层情感特征。最后将视觉和语音深层情感特征进行特征级融合，再通过分类器得到情感类型。本发明能够有效的提取视频数据在时间和空间维度的情感信息，并将视觉信息与语音信息相融合，提高了情感分类的识别效率与准确率。

Description

一种基于视觉和语音的多模态关联型情感识别方法及系统

技术领域

本发明属于计算机情感计算领域，尤其涉及一种基于视觉和语音的多模态关联型情感识别方法及系统。

背景技术

随着互联网的飞速发展，流畅自然的人机交互系统成为了研究热点，这无疑要求人机交互要像人际交往一样，机器要能理解人的情感和真实意图并能做出相应的回复。情感计算研究就是试图创建一种能感知、识别和理解人的情感，并针对性的做出智能、灵敏、友好反应的计算系统。总的来说就是要让计算机拥有像人一样的观察能力、理解能力和表达能力，是计算机能够像人类一样与用户进行带有情感的交互。想要实现上述内容必须做好情感计算两个主要任务的研究：识别用户的情感，生成带有情感的回复。本专利主要完成识别用户情感的任务。

传统方法一般采用手工设计特征的方法进行情感识别，经过多年的发展也取得了一定的成果，但是手工设计特征往往需要较大的工作量，且识别性能难以突破瓶颈。随着深度学习的蓬勃发展，卷积神经网络被大量应用的情感识别任务中，一般来说通过堆叠各种复杂的网络模型，能取得较高的识别率，但是通常需要消耗大量的计算资源。多头自注意力近几年在自然语言处理领域取得了很大的成功，最近也出现了很多工作将多头自注意力网络应用在计算机视觉领域，试图推出能在计算机视觉领域和自然语言处理领域通用的骨干网络模型，伴随着计算机算力的飞速增长，这类工作也取得了不输卷积神经网络的显著成果。文献[Dosovitskiy,Alexey,et al."An image is worth 16x16 words:Transformersfor image recognition at scale."2020.]可以说是将多头自注意力应用到视觉领域的开山之作，该模型将图像按指定尺寸切分为多个图像块，每个图像块经线性映射为一维向量，从而适应了多头自注意力模型的输入要求，在视觉领域的各种任务上取得了极为先进的效果。[Liu.Z,Lin.Y,Cao.Y,Hu.H,Wei.Y,and Zhang.Z,"Swin transformer:hierarchical vision transformer using shifted windows."2021]提出了带有滑动窗口的自注意力模型，原始数据通过模型逐步降低数据尺寸，让模型拥有了类似CNN的感受野，从而提升了多尺寸信息的提取性能，滑动窗口巧妙的实现了全局信息的提取，同时相较原始多头自注意力模型大大降低了参数量。

中国专利申请“一种基于视觉和语言的标注关联型视频情感识别方法及系统”(专利申请号CN202210511572.0，公开号CN114882412A)，提出将图像块9等分然后利用C3D进行时序特征提取，利用CNN对空间特征进行提取，再分别送入到多头自注意力神经网络中进一步提取空间维度和时间维度上的情感特征并进行级联，最后结合文本情感特征进行情感分类。这种方法通过两组卷积神经网络加多头注意力模型的形式提取视觉信息，导致参数量巨大，模型难以训练且容易出现过拟合现象。

尽管多头自注意力模型网络在自然语言处理领域取得了很大的成功，且在计算机视觉领域有了很多的尝试，但是在视频情感分类领域，仍然存在着很多挑战。第一，现在大部分工作集中在单帧图像任务上，视频数据由多帧连续图像组成，且前后之间有很大相关性，设计合适的网络以提取视频数据所蕴含的视觉信息非常重要；第二，现实生活中的视频数据往往由图像帧、文本字幕、语音数据等多种模态的数据同时组成，需要有效的提取并融合不同模态所蕴含的情感信息并加以分类；第三，语音数据通常是一段连续的音频数据，语音数据的基本特征提取通常需要一定的先验知识。

发明内容

本发明针对现有技术的不足，提供了一种基于视觉和语音的多模态关联型情感识别方法及系统，在充分提取视频数据的时间维度与空间维度情感信息的同时，融合语音数据所蕴含的情感信息，实现了对短视频数据的情感分类。

为了实现上述功能，本发明采用如下技术方案：

一种基于视觉和语音的多模态关联型情感识别方法，包括以下步骤：

S1、对短视频样本的视频流进行预处理，分割出指定数量的图像帧，并将图像帧的分辨率统一调整为指定大小。

S2、利用C3D网络(Convolution 3D,3D卷积神经网络)对步骤S1中的图像帧进行时序特征进行提取，得到指定尺寸的特征图；将该特征图输入到带有滑动窗口的自注意力神经网络中，在时间维的基础上进一步对空间维信息进行提取，得到具有时空特征信息的视觉深层情感特征向量。

S3、将与短视频内容相对应的语音数据，使用COVAREP声学分析框架提取语音数据的声学特征，再利用自注意力网络进一步提取语音数据的深层情感特征向量。

S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合，再将融合后的特征向量通过全连接网络，进一步利用Softmax作为分类器对情感进行分类，得到完整的情感识别模型；

S5、根据步骤S4得到的完整情感识别模型，利用输出的情感概率分布矩阵计算交叉熵损失函数，并使用梯度下降法作为优化方法，通过反向传播不断迭代训练网络，得到训练完成的完整网络模型。

S6、将待识别的短视频输入步骤S5得到的网络模型，进行情感分类的识别。

进一步，步骤S1具体内容为：从短视频样本视频流的首帧开始等间隔抽取其中F幅图像帧，不足F帧时，对最后一帧采用过采样的方法进行填补；将得到图像帧的分辨率统一调整为M×M。

进一步，步骤S2具体步骤为：

S201、将步骤S1中提取出来的F幅M×M图像帧送入3D卷积神经网络中进行时序特征的提取，输出为指定尺寸大小的特征图。

S202、将特征图输入到带有滑动窗口的自注意力网络中，在指定大小的窗口下进行原始自注意力计算，窗口向右和向下滑动，滑动距离为窗口宽度的一半，进行窗口滑动后的自注意力计算，随后设置另一个大小的窗口进行原始自注意力计算，窗口再次向右和向下滑动，滑动距离为窗口宽度的一半，进行窗口滑动后的自注意力计算，提取空间维的信息，输出指定尺寸为N×N×C大小的特征图。自注意力计算公式如下：

其中Q,K,V分别代表查询、键和值矩阵，X为自注意力网络的输入序列，W^Q,W^K,W^V为训练所得，d代表查询向量的维度，B代表相对位置偏差矩阵。

S203、将步骤S202中输出的特征图进行全局平均池化操作，得到具有时空特征信息的C×1维特征向量。

进一步，步骤S3具体步骤为：

S301、利用COVAREP声学分析框架提取语音数据韵律、音质和频谱三个方面的声学特征，得到

其中T_a表示音频的分段帧数，A_i表示第i帧的声学特征向量，/>

d为每帧音频数据提取出的声学特征向量的维度。

S302、提取出的声学特征维度为(T_a,d)，在提取出的声学特征中嵌入位置信息并加入维度为(1,d)的类别标记向量，组成维度为(T_a+1,d)的特征序列并输入自注意力网络中，计算出语音数据的深层情感特征向量。

进一步，步骤S4具体步骤为：

S401、将步骤S2中提取的视觉深层情感特征向量Feature_v和S3中提取的语音深层情感特征向量Feature_a直接进行拼接，得到特定维的融合特征向量F_va：

其中，

表示视觉特征向量第i维度的数值，/>

表示语音特征向量第j维的数值，V和A的大小分别表示视觉与语音特征向量的维度大小。

S402、将融合特征向量F_va输入全连接层网络中，进一步利用Softmax分类器对情感进行分类：

其中，J为情感类目；Score_i为第i类情感预测得分，i＝1,2,...,J；x_i为分类器输入向量x第i维上的数值。

Softmax分类器通过将向量指数归一化的形式计算各类情感的得分，得到情感分布概率矩阵为P＝[Socre₁,Socre₂,…,Socre_J]。

S403、根据情感分布概率矩阵，选定最大概率的Score的下标对应的类别为最终结果。

进一步，步骤S5中使用交叉熵损失函数的具体公式如下：

其中，J代表情感类目；Score_i为第i类情感预测得分；y_i代表样本数据的真实标签，类别正确时y值为1其余均为0。

进一步，本发明还提供一种基于视觉和语音的多模态关联型情感识别系统，包括：

视频流分割模块，用于将视频数据的视频流进行分割，得到指定数量的图像帧，并将这些图像帧的分辨率调整为统一的指定大小。

视觉特征提取模块，用于提取视频数据的时空特征信息，获得视频数据的深层情感特征向量。

语音特征提取模块，用于提取视频数据对应的语音数据中的情感特征向量。

融合特征情感得分计算模块，用于将视觉情感特征向量和语音情感特征向量以串联拼接的形式进行特征融合，再将融合后的向量输入全连接层网络，使用Softmax作为分类器计算出各个情感的得分，得到情感分布概率矩阵，将得分最高的情感作为最终分类结果。

视觉和语音网络模型训练模块，用于对完整的网络模型，依据情感分布概率矩阵计算交叉熵损失函数值，并使用梯度下降法作为优化方法，通过反向传播不断迭代训练网络，得到训练完成的完整网络模型。

进一步，视觉特征提取模块包括时序特征提取模块单元和空间特征提取模块单元，其中：

时序特征提取模块单元，被配置以执行以下动作：利用3D卷积神经网络提取出所选图像帧的时序特征，得到特定尺寸的特征图。

空间特征提取模块单元，被配置以执行以下动作：将时序特征提取模块输出的特征图输入到有滑动窗口的自注意力神经网络中，通过原始自注意力计算和窗口滑动后的自注意力计算提出空间特征，得到特定尺寸的特征图。

进一步，语音特征提取模块包括声学特征提取模块单元和语音情感特征提取模块单元，其中：

声学特征提取模块单元，被配置以执行以下动作：利用COVAREP声学分析框提取语音数据韵律、音质和频谱三个方面的声学特征，得到A＝{A₁,A₂,...,A_i,...,A_Ta}，其中T_a表示音频的分段帧数，A_i表示第i帧的声学特征向量，

d为每帧音频数据提取出的声学特征向量的维度。

语音情感特征提取模块单元，被配置以执行以下动作：对声学特征提取模块单元中提取出的声学特征嵌入位置信息并加入维度为(1,d)的类别标记向量，组成维度为(T_a+1,d)的特征序列，输入到自注意力网络中，提取语音数据的深层情感特征向量。

进一步，本发明还提供一种电子设备，其特征在于，包括一台包含存储器和处理器的计算设备，并且计算机存在可读存储介质，可读存储介质中存储着可在处理器上运行的程序，所述计算机程序被处理器执行时实现前文所述的基于视觉和语音的多模态关联型情感识别方法的步骤。

本发明采用以上技术方案，与现有技术相比，其显著技术效果如下：

(1)本发明使用C3D结合带有滑动窗口的自注意力网络对提取视频数据的深层视觉情感特征信息，可以有效的从时间维度和空间维度对情感信息进行提取，带有滑动窗口的注意力模型能高效的提取出局部以及全局的空间信息，变感受野对多尺度的数据更为友好且降低了模型的参数量；

(2)本发明利用COVAREP声学分析框提取语音数据韵律、音质和频谱三个方面的声学特征，提高了特征提取效率，进一步使用注意力模型提取语音数据的深层情感特征信息，提高了情感识别的准确率与效率；

(3)本发明融合了视觉与语音情感特征提取模块，提取出了数据样本的视觉特征和语音特征，充分融合了视觉情感信息和语音情感信息，两种模态信息的融合填补了一定的信息差，实现了多模态数据的充分利用。

附图说明

图1是本发明的整体步骤流程图。

图2是本发明的情感识别系统结构图。

具体实施方式

下面结合附图对本发明的具体实施技术方案做进一步说明：

如图1所示，本发明实施例公开了一种基于视觉和语音的多模态关联型情感识别方法，具体包括如下步骤：

S1、从短视频样本视频流的首帧开始等间隔抽取其中16幅图像帧，不足16帧时，对最后一帧采用过采样的方法进行填补。将得到图像帧的分辨率统一调整为224×224。本实例使用CMU-MOSEI数据集作为数据来源。

S2、利用C3D网络对步骤S1中的图像帧进行时序特征进行提取，得到指定尺寸的特征图；将该特征图输入到带有滑动窗口的自注意力神经网络中，在时间维的基础上进一步对空间维信息进行提取，得到具有时空特征信息的视觉深层情感特征向量。具体步骤为：

S201、将步骤S1中提取出来的16幅224×224图像帧送入C3D网络中进行时序特征的提取，输出尺寸大小为56×56×4的特征图。C3D网络由三层卷积层、三层池化层交替连接组成，卷积核大小均为3×3×3，四层卷积层按照先后顺序分别使用2、4、4个卷积核，均使用Relu函数进行激活，前两个池化核大小为2×2×2，最后一个大小为1×1×4，采用最大池化策略。

S202、将特征图输入到带有滑动窗口的自注意力网络中，在窗口大小为4×4下进行原始自注意力计算，窗口向右滑动2并向下滑动4，进行窗口滑动后的自注意力计算，随后在窗口大小为8×8下进行原始自注意力计算，窗口再次向右滑动2和向下滑动4，进行窗口滑动后的自注意力计算，提取空间维的信息，输出尺寸为7×7×256大小的特征图。自注意力计算公式如下：

/>

其中Q,K,V分别代表查询、键和值矩阵，X为自注意力网络的输入序列，两个操作单元的输入序列分别为196个64维向量和49个256维向量，W^Q,W^K,W^V为训练所得，d代表查询向量的维度，B代表相对位置偏差矩阵，d和B的取值由每次具体的计算决定。

S203、将步骤S202中输出的特征图进行全局平均池化操作，得到具有时空特征信息的256×1维特征向量。

S3、将与短视频内容相对应的wav格式的语音数据，使用COVAREP声学分析框架提取语音数据的声学特征，再利用自注意力网络进一步提取语音数据的深层情感特征向量，维度为74×1。具体步骤为：

S301、利用COVAREP声学分析框架提取语音数据韵律、音质和频谱三个方面的声学特征，得到A＝{A₁,A₂,…,A_i,…,A₁₂₈}，A_i表示第i帧的声学特征向量，音频数据分段帧数为128，

提取出的声学特征向量维度为74。

S302、提取出的声学特征维度为(128,74)，在提取出的声学特征中嵌入位置信息并加入维度为(1,74)的类别标记向量，组成维度为(129,74)的特征序列并输入自注意力网络中，计算出语音数据的深层情感特征向量。

S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合，再将融合后的特征向量通过全连接网络，进一步利用Softmax作为分类器对情感进行分类，得到完整的情感识别模型。具体步骤为：

其中，

表示视觉特征向量第i维度的数值，/>

S402、将融合特征向量F_va输入全连接层网络中，全连接层第一层包含1024个节点，第二层包含256个节点，使用Relu激活函数，进一步利用Softmax分类器对情感进行分类：

其中，J为情感类目，包含六种情感，分别是高兴，悲伤，生气，恐惧，厌恶，惊讶；Score_i为第i类情感预测得分，i＝1,2,...,6；x_i为分类器输入向量x第i维上的数值。

Softmax分类器通过将向量指数归一化的形式计算各类情感的得分，得到情感分布概率矩阵为P＝[Socre₁,Socre₂,…,Socre₆]，具体情况如表1所示：

表1不同下标对应的情感类目

S5、根据步骤S4得到的完整情感识别模型，利用输出的情感概率分布矩阵计算交叉熵损失函数，并使用梯度下降法作为优化方法，通过反向传播不断迭代训练网络，得到训练完成的完整的视觉-语音双模态情感识别模型。交叉熵损失函数的具体公式如下：

其中，J代表情感类目，包含六种情感，分别是高兴，悲伤，生气，恐惧，厌恶，惊讶；Score_i为第i类情感预测得分；y_i代表样本数据的真实标签，类别正确时y值为1其余均为0。

如图2所示，本发明实施例还提出一种基于视觉和语音的多模态关联型情感识别系统，包括：频流分割模块、视觉特征提取模块、语音特征提取模块、融合特征情感得分计算模块和视觉和语音网络模型训练模块。

需要说明的是，上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

上述基于视觉和语音的多模态关联型情感识别方法及系统实施例，其技术原理、所解决的技术问题及产生的技术效果与方法实施例相似，属于同一发明构思，具体实施细节及有关说明，可以参考前述的基于视觉和语音的多模态关联型情感识别方法实施例中的对应过程，在此不再赘述。

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。

基于相同的发明构思，本发明实施例还提供一种电子设备，包括一台包含存储器和处理器的计算设备，并且计算机存在可读存储介质，可读存储介质中存储着可在处理器上运行的程序时实现前文所述的基于视觉和语音的多模态关联型情感识别方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于视觉和语音的多模态关联型情感识别方法，其特征在于，包括：

S1、对短视频样本的视频流进行预处理，分割出指定数量的图像帧，并将图像帧的分辨率统一调整为指定大小；

S2、利用3D卷积神经网络对步骤S1中的图像帧进行时序特征进行提取，得到指定尺寸的特征图；将该特征图输入到带有滑动窗口的自注意力神经网络中，在时间维的基础上进一步对空间维信息进行提取，得到具有时空特征信息的视觉深层情感特征向量；

S3、将与短视频内容相对应的语音数据，使用COVAREP声学分析框架提取语音数据的声学特征，再利用自注意力网络进一步提取语音数据的深层情感特征向量；

S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合，再将融合后的特征向量通过全连接网络，进一步利用Softmax对情感进行分类，得到完整的情感识别模型；

S5、根据步骤S4得到的完整情感识别模型，利用输出的情感概率分布矩阵计算交叉熵损失函数，并使用梯度下降法作为优化方法，通过反向传播不断迭代训练网络，得到训练完成的完整网络模型；

2.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法，其特征在于，步骤S1具体内容为：从短视频样本视频流的首帧开始等间隔抽取其中F幅图像帧，不足F帧时，对最后一帧采用过采样的方法进行填补；将得到图像帧的分辨率统一调整为M×M。

3.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法，其特征在于，步骤S2具体步骤为：

S201、将步骤S1中提取出来的F幅M×M图像帧送入3D卷积神经网络中进行时序特征的提取，输出为指定尺寸大小的特征图；

S202、将特征图输入到带有滑动窗口的自注意力网络中，在指定大小的窗口下进行原始自注意力计算，窗口向右和向下滑动，滑动距离为窗口宽度的一半，进行窗口滑动后的自注意力计算，随后设置另一个大小的窗口进行原始自注意力计算，窗口再次向右和向下滑动，滑动距离为窗口宽度的一半，进行窗口滑动后的自注意力计算，从而提取空间维的信息，输出指定尺寸为N×N×C大小的特征图；其中，自注意力计算公式如下：