CN116167014A - 一种基于视觉和语音的多模态关联型情感识别方法及系统 - Google Patents

一种基于视觉和语音的多模态关联型情感识别方法及系统 Download PDF

Info

Publication number
CN116167014A
CN116167014A CN202310167361.4A CN202310167361A CN116167014A CN 116167014 A CN116167014 A CN 116167014A CN 202310167361 A CN202310167361 A CN 202310167361A CN 116167014 A CN116167014 A CN 116167014A
Authority
CN
China
Prior art keywords
emotion
feature
voice
extracting
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310167361.4A
Other languages
English (en)
Inventor
刘天亮
李凯
刘浏
戴修斌
鲍秉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310167361.4A priority Critical patent/CN116167014A/zh
Publication of CN116167014A publication Critical patent/CN116167014A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉和语音的多模态关联型情感识别方法及系统,在视觉数据部分,提取指定数量的图像帧并调节为统一分辨率,利用3D卷积神经网络提取时序特征,得到指定尺寸的特征图;利用带滑动窗口的自注意力神经网络提取空间特征,将输出的特征图利用全局平均池化处理为指定大小的一维向量,得到视觉深层情感特征。在语音数据部分,使用声学分析框架提取声学特征,利用自注意力网络提取语音深层情感特征。最后将视觉和语音深层情感特征进行特征级融合,再通过分类器得到情感类型。本发明能够有效的提取视频数据在时间和空间维度的情感信息,并将视觉信息与语音信息相融合,提高了情感分类的识别效率与准确率。

Description

一种基于视觉和语音的多模态关联型情感识别方法及系统
技术领域
本发明属于计算机情感计算领域,尤其涉及一种基于视觉和语音的多模态关联型情感识别方法及系统。
背景技术
随着互联网的飞速发展,流畅自然的人机交互系统成为了研究热点,这无疑要求人机交互要像人际交往一样,机器要能理解人的情感和真实意图并能做出相应的回复。情感计算研究就是试图创建一种能感知、识别和理解人的情感,并针对性的做出智能、灵敏、友好反应的计算系统。总的来说就是要让计算机拥有像人一样的观察能力、理解能力和表达能力,是计算机能够像人类一样与用户进行带有情感的交互。想要实现上述内容必须做好情感计算两个主要任务的研究:识别用户的情感,生成带有情感的回复。本专利主要完成识别用户情感的任务。
传统方法一般采用手工设计特征的方法进行情感识别,经过多年的发展也取得了一定的成果,但是手工设计特征往往需要较大的工作量,且识别性能难以突破瓶颈。随着深度学习的蓬勃发展,卷积神经网络被大量应用的情感识别任务中,一般来说通过堆叠各种复杂的网络模型,能取得较高的识别率,但是通常需要消耗大量的计算资源。多头自注意力近几年在自然语言处理领域取得了很大的成功,最近也出现了很多工作将多头自注意力网络应用在计算机视觉领域,试图推出能在计算机视觉领域和自然语言处理领域通用的骨干网络模型,伴随着计算机算力的飞速增长,这类工作也取得了不输卷积神经网络的显著成果。文献[Dosovitskiy,Alexey,et al."An image is worth 16x16 words:Transformersfor image recognition at scale."2020.]可以说是将多头自注意力应用到视觉领域的开山之作,该模型将图像按指定尺寸切分为多个图像块,每个图像块经线性映射为一维向量,从而适应了多头自注意力模型的输入要求,在视觉领域的各种任务上取得了极为先进的效果。[Liu.Z,Lin.Y,Cao.Y,Hu.H,Wei.Y,and Zhang.Z,"Swin transformer:hierarchical vision transformer using shifted windows."2021]提出了带有滑动窗口的自注意力模型,原始数据通过模型逐步降低数据尺寸,让模型拥有了类似CNN的感受野,从而提升了多尺寸信息的提取性能,滑动窗口巧妙的实现了全局信息的提取,同时相较原始多头自注意力模型大大降低了参数量。
中国专利申请“一种基于视觉和语言的标注关联型视频情感识别方法及系统”(专利申请号CN202210511572.0,公开号CN114882412A),提出将图像块9等分然后利用C3D进行时序特征提取,利用CNN对空间特征进行提取,再分别送入到多头自注意力神经网络中进一步提取空间维度和时间维度上的情感特征并进行级联,最后结合文本情感特征进行情感分类。这种方法通过两组卷积神经网络加多头注意力模型的形式提取视觉信息,导致参数量巨大,模型难以训练且容易出现过拟合现象。
尽管多头自注意力模型网络在自然语言处理领域取得了很大的成功,且在计算机视觉领域有了很多的尝试,但是在视频情感分类领域,仍然存在着很多挑战。第一,现在大部分工作集中在单帧图像任务上,视频数据由多帧连续图像组成,且前后之间有很大相关性,设计合适的网络以提取视频数据所蕴含的视觉信息非常重要;第二,现实生活中的视频数据往往由图像帧、文本字幕、语音数据等多种模态的数据同时组成,需要有效的提取并融合不同模态所蕴含的情感信息并加以分类;第三,语音数据通常是一段连续的音频数据,语音数据的基本特征提取通常需要一定的先验知识。
发明内容
本发明针对现有技术的不足,提供了一种基于视觉和语音的多模态关联型情感识别方法及系统,在充分提取视频数据的时间维度与空间维度情感信息的同时,融合语音数据所蕴含的情感信息,实现了对短视频数据的情感分类。
为了实现上述功能,本发明采用如下技术方案:
一种基于视觉和语音的多模态关联型情感识别方法,包括以下步骤:
S1、对短视频样本的视频流进行预处理,分割出指定数量的图像帧,并将图像帧的分辨率统一调整为指定大小。
S2、利用C3D网络(Convolution 3D,3D卷积神经网络)对步骤S1中的图像帧进行时序特征进行提取,得到指定尺寸的特征图;将该特征图输入到带有滑动窗口的自注意力神经网络中,在时间维的基础上进一步对空间维信息进行提取,得到具有时空特征信息的视觉深层情感特征向量。
S3、将与短视频内容相对应的语音数据,使用COVAREP声学分析框架提取语音数据的声学特征,再利用自注意力网络进一步提取语音数据的深层情感特征向量。
S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合,再将融合后的特征向量通过全连接网络,进一步利用Softmax作为分类器对情感进行分类,得到完整的情感识别模型;
S5、根据步骤S4得到的完整情感识别模型,利用输出的情感概率分布矩阵计算交叉熵损失函数,并使用梯度下降法作为优化方法,通过反向传播不断迭代训练网络,得到训练完成的完整网络模型。
S6、将待识别的短视频输入步骤S5得到的网络模型,进行情感分类的识别。
进一步,步骤S1具体内容为:从短视频样本视频流的首帧开始等间隔抽取其中F幅图像帧,不足F帧时,对最后一帧采用过采样的方法进行填补;将得到图像帧的分辨率统一调整为M×M。
进一步,步骤S2具体步骤为:
S201、将步骤S1中提取出来的F幅M×M图像帧送入3D卷积神经网络中进行时序特征的提取,输出为指定尺寸大小的特征图。
S202、将特征图输入到带有滑动窗口的自注意力网络中,在指定大小的窗口下进行原始自注意力计算,窗口向右和向下滑动,滑动距离为窗口宽度的一半,进行窗口滑动后的自注意力计算,随后设置另一个大小的窗口进行原始自注意力计算,窗口再次向右和向下滑动,滑动距离为窗口宽度的一半,进行窗口滑动后的自注意力计算,提取空间维的信息,输出指定尺寸为N×N×C大小的特征图。自注意力计算公式如下:
Figure BDA0004096334800000031
Figure BDA0004096334800000032
其中Q,K,V分别代表查询、键和值矩阵,X为自注意力网络的输入序列,WQ,WK,WV为训练所得,d代表查询向量的维度,B代表相对位置偏差矩阵。
S203、将步骤S202中输出的特征图进行全局平均池化操作,得到具有时空特征信息的C×1维特征向量。
进一步,步骤S3具体步骤为:
S301、利用COVAREP声学分析框架提取语音数据韵律、音质和频谱三个方面的声学特征,得到
Figure BDA0004096334800000041
其中Ta表示音频的分段帧数,Ai表示第i帧的声学特征向量,/>
Figure BDA0004096334800000042
d为每帧音频数据提取出的声学特征向量的维度。
S302、提取出的声学特征维度为(Ta,d),在提取出的声学特征中嵌入位置信息并加入维度为(1,d)的类别标记向量,组成维度为(Ta+1,d)的特征序列并输入自注意力网络中,计算出语音数据的深层情感特征向量。
进一步,步骤S4具体步骤为:
S401、将步骤S2中提取的视觉深层情感特征向量Featurev和S3中提取的语音深层情感特征向量Featurea直接进行拼接,得到特定维的融合特征向量Fva
Figure BDA0004096334800000043
Figure BDA0004096334800000044
其中,
Figure BDA0004096334800000045
表示视觉特征向量第i维度的数值,/>
Figure BDA0004096334800000046
表示语音特征向量第j维的数值,V和A的大小分别表示视觉与语音特征向量的维度大小。
S402、将融合特征向量Fva输入全连接层网络中,进一步利用Softmax分类器对情感进行分类:
Figure BDA0004096334800000047
其中,J为情感类目;Scorei为第i类情感预测得分,i=1,2,...,J;xi为分类器输入向量x第i维上的数值。
Softmax分类器通过将向量指数归一化的形式计算各类情感的得分,得到情感分布概率矩阵为P=[Socre1,Socre2,…,SocreJ]。
S403、根据情感分布概率矩阵,选定最大概率的Score的下标对应的类别为最终结果。
进一步,步骤S5中使用交叉熵损失函数的具体公式如下:
Figure BDA0004096334800000051
其中,J代表情感类目;Scorei为第i类情感预测得分;yi代表样本数据的真实标签,类别正确时y值为1其余均为0。
进一步,本发明还提供一种基于视觉和语音的多模态关联型情感识别系统,包括:
视频流分割模块,用于将视频数据的视频流进行分割,得到指定数量的图像帧,并将这些图像帧的分辨率调整为统一的指定大小。
视觉特征提取模块,用于提取视频数据的时空特征信息,获得视频数据的深层情感特征向量。
语音特征提取模块,用于提取视频数据对应的语音数据中的情感特征向量。
融合特征情感得分计算模块,用于将视觉情感特征向量和语音情感特征向量以串联拼接的形式进行特征融合,再将融合后的向量输入全连接层网络,使用Softmax作为分类器计算出各个情感的得分,得到情感分布概率矩阵,将得分最高的情感作为最终分类结果。
视觉和语音网络模型训练模块,用于对完整的网络模型,依据情感分布概率矩阵计算交叉熵损失函数值,并使用梯度下降法作为优化方法,通过反向传播不断迭代训练网络,得到训练完成的完整网络模型。
进一步,视觉特征提取模块包括时序特征提取模块单元和空间特征提取模块单元,其中:
时序特征提取模块单元,被配置以执行以下动作:利用3D卷积神经网络提取出所选图像帧的时序特征,得到特定尺寸的特征图。
空间特征提取模块单元,被配置以执行以下动作:将时序特征提取模块输出的特征图输入到有滑动窗口的自注意力神经网络中,通过原始自注意力计算和窗口滑动后的自注意力计算提出空间特征,得到特定尺寸的特征图。
进一步,语音特征提取模块包括声学特征提取模块单元和语音情感特征提取模块单元,其中:
声学特征提取模块单元,被配置以执行以下动作:利用COVAREP声学分析框提取语音数据韵律、音质和频谱三个方面的声学特征,得到A={A1,A2,...,Ai,...,ATa},其中Ta表示音频的分段帧数,Ai表示第i帧的声学特征向量,
Figure BDA0004096334800000061
d为每帧音频数据提取出的声学特征向量的维度。
语音情感特征提取模块单元,被配置以执行以下动作:对声学特征提取模块单元中提取出的声学特征嵌入位置信息并加入维度为(1,d)的类别标记向量,组成维度为(Ta+1,d)的特征序列,输入到自注意力网络中,提取语音数据的深层情感特征向量。
进一步,本发明还提供一种电子设备,其特征在于,包括一台包含存储器和处理器的计算设备,并且计算机存在可读存储介质,可读存储介质中存储着可在处理器上运行的程序,所述计算机程序被处理器执行时实现前文所述的基于视觉和语音的多模态关联型情感识别方法的步骤。
本发明采用以上技术方案,与现有技术相比,其显著技术效果如下:
(1)本发明使用C3D结合带有滑动窗口的自注意力网络对提取视频数据的深层视觉情感特征信息,可以有效的从时间维度和空间维度对情感信息进行提取,带有滑动窗口的注意力模型能高效的提取出局部以及全局的空间信息,变感受野对多尺度的数据更为友好且降低了模型的参数量;
(2)本发明利用COVAREP声学分析框提取语音数据韵律、音质和频谱三个方面的声学特征,提高了特征提取效率,进一步使用注意力模型提取语音数据的深层情感特征信息,提高了情感识别的准确率与效率;
(3)本发明融合了视觉与语音情感特征提取模块,提取出了数据样本的视觉特征和语音特征,充分融合了视觉情感信息和语音情感信息,两种模态信息的融合填补了一定的信息差,实现了多模态数据的充分利用。
附图说明
图1是本发明的整体步骤流程图。
图2是本发明的情感识别系统结构图。
具体实施方式
下面结合附图对本发明的具体实施技术方案做进一步说明:
如图1所示,本发明实施例公开了一种基于视觉和语音的多模态关联型情感识别方法,具体包括如下步骤:
S1、从短视频样本视频流的首帧开始等间隔抽取其中16幅图像帧,不足16帧时,对最后一帧采用过采样的方法进行填补。将得到图像帧的分辨率统一调整为224×224。本实例使用CMU-MOSEI数据集作为数据来源。
S2、利用C3D网络对步骤S1中的图像帧进行时序特征进行提取,得到指定尺寸的特征图;将该特征图输入到带有滑动窗口的自注意力神经网络中,在时间维的基础上进一步对空间维信息进行提取,得到具有时空特征信息的视觉深层情感特征向量。具体步骤为:
S201、将步骤S1中提取出来的16幅224×224图像帧送入C3D网络中进行时序特征的提取,输出尺寸大小为56×56×4的特征图。C3D网络由三层卷积层、三层池化层交替连接组成,卷积核大小均为3×3×3,四层卷积层按照先后顺序分别使用2、4、4个卷积核,均使用Relu函数进行激活,前两个池化核大小为2×2×2,最后一个大小为1×1×4,采用最大池化策略。
S202、将特征图输入到带有滑动窗口的自注意力网络中,在窗口大小为4×4下进行原始自注意力计算,窗口向右滑动2并向下滑动4,进行窗口滑动后的自注意力计算,随后在窗口大小为8×8下进行原始自注意力计算,窗口再次向右滑动2和向下滑动4,进行窗口滑动后的自注意力计算,提取空间维的信息,输出尺寸为7×7×256大小的特征图。自注意力计算公式如下:
Figure BDA0004096334800000071
Figure BDA0004096334800000072
/>
其中Q,K,V分别代表查询、键和值矩阵,X为自注意力网络的输入序列,两个操作单元的输入序列分别为196个64维向量和49个256维向量,WQ,WK,WV为训练所得,d代表查询向量的维度,B代表相对位置偏差矩阵,d和B的取值由每次具体的计算决定。
S203、将步骤S202中输出的特征图进行全局平均池化操作,得到具有时空特征信息的256×1维特征向量。
S3、将与短视频内容相对应的wav格式的语音数据,使用COVAREP声学分析框架提取语音数据的声学特征,再利用自注意力网络进一步提取语音数据的深层情感特征向量,维度为74×1。具体步骤为:
S301、利用COVAREP声学分析框架提取语音数据韵律、音质和频谱三个方面的声学特征,得到A={A1,A2,…,Ai,…,A128},Ai表示第i帧的声学特征向量,音频数据分段帧数为128,
Figure BDA0004096334800000081
提取出的声学特征向量维度为74。
S302、提取出的声学特征维度为(128,74),在提取出的声学特征中嵌入位置信息并加入维度为(1,74)的类别标记向量,组成维度为(129,74)的特征序列并输入自注意力网络中,计算出语音数据的深层情感特征向量。
S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合,再将融合后的特征向量通过全连接网络,进一步利用Softmax作为分类器对情感进行分类,得到完整的情感识别模型。具体步骤为:
S401、将步骤S2中提取的视觉深层情感特征向量Featurev和S3中提取的语音深层情感特征向量Featurea直接进行拼接,得到特定维的融合特征向量Fva
Figure BDA0004096334800000082
Figure BDA0004096334800000083
其中,
Figure BDA0004096334800000084
表示视觉特征向量第i维度的数值,/>
Figure BDA0004096334800000085
表示语音特征向量第j维的数值,V和A的大小分别表示视觉与语音特征向量的维度大小。
S402、将融合特征向量Fva输入全连接层网络中,全连接层第一层包含1024个节点,第二层包含256个节点,使用Relu激活函数,进一步利用Softmax分类器对情感进行分类:
Figure BDA0004096334800000086
其中,J为情感类目,包含六种情感,分别是高兴,悲伤,生气,恐惧,厌恶,惊讶;Scorei为第i类情感预测得分,i=1,2,...,6;xi为分类器输入向量x第i维上的数值。
Softmax分类器通过将向量指数归一化的形式计算各类情感的得分,得到情感分布概率矩阵为P=[Socre1,Socre2,…,Socre6],具体情况如表1所示:
表1不同下标对应的情感类目
Figure BDA0004096334800000091
S403、根据情感分布概率矩阵,选定最大概率的Score的下标对应的类别为最终结果。
S5、根据步骤S4得到的完整情感识别模型,利用输出的情感概率分布矩阵计算交叉熵损失函数,并使用梯度下降法作为优化方法,通过反向传播不断迭代训练网络,得到训练完成的完整的视觉-语音双模态情感识别模型。交叉熵损失函数的具体公式如下:
Figure BDA0004096334800000092
其中,J代表情感类目,包含六种情感,分别是高兴,悲伤,生气,恐惧,厌恶,惊讶;Scorei为第i类情感预测得分;yi代表样本数据的真实标签,类别正确时y值为1其余均为0。
S6、将待识别的短视频输入步骤S5得到的网络模型,进行情感分类的识别。
如图2所示,本发明实施例还提出一种基于视觉和语音的多模态关联型情感识别系统,包括:频流分割模块、视觉特征提取模块、语音特征提取模块、融合特征情感得分计算模块和视觉和语音网络模型训练模块。
需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述基于视觉和语音的多模态关联型情感识别方法及系统实施例,其技术原理、所解决的技术问题及产生的技术效果与方法实施例相似,属于同一发明构思,具体实施细节及有关说明,可以参考前述的基于视觉和语音的多模态关联型情感识别方法实施例中的对应过程,在此不再赘述。
本领域技术人员可以理解,可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
基于相同的发明构思,本发明实施例还提供一种电子设备,包括一台包含存储器和处理器的计算设备,并且计算机存在可读存储介质,可读存储介质中存储着可在处理器上运行的程序时实现前文所述的基于视觉和语音的多模态关联型情感识别方法。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种基于视觉和语音的多模态关联型情感识别方法,其特征在于,包括:
S1、对短视频样本的视频流进行预处理,分割出指定数量的图像帧,并将图像帧的分辨率统一调整为指定大小;
S2、利用3D卷积神经网络对步骤S1中的图像帧进行时序特征进行提取,得到指定尺寸的特征图;将该特征图输入到带有滑动窗口的自注意力神经网络中,在时间维的基础上进一步对空间维信息进行提取,得到具有时空特征信息的视觉深层情感特征向量;
S3、将与短视频内容相对应的语音数据,使用COVAREP声学分析框架提取语音数据的声学特征,再利用自注意力网络进一步提取语音数据的深层情感特征向量;
S4、将步骤S2和S3中分别提取出的视觉深层情感特征向量和语音深层情感特征向量以串联拼接的形式进行特征级融合,再将融合后的特征向量通过全连接网络,进一步利用Softmax对情感进行分类,得到完整的情感识别模型;
S5、根据步骤S4得到的完整情感识别模型,利用输出的情感概率分布矩阵计算交叉熵损失函数,并使用梯度下降法作为优化方法,通过反向传播不断迭代训练网络,得到训练完成的完整网络模型;
S6、将待识别的短视频输入步骤S5得到的网络模型,进行情感分类的识别。
2.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法,其特征在于,步骤S1具体内容为:从短视频样本视频流的首帧开始等间隔抽取其中F幅图像帧,不足F帧时,对最后一帧采用过采样的方法进行填补;将得到图像帧的分辨率统一调整为M×M。
3.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法,其特征在于,步骤S2具体步骤为:
S201、将步骤S1中提取出来的F幅M×M图像帧送入3D卷积神经网络中进行时序特征的提取,输出为指定尺寸大小的特征图;
S202、将特征图输入到带有滑动窗口的自注意力网络中,在指定大小的窗口下进行原始自注意力计算,窗口向右和向下滑动,滑动距离为窗口宽度的一半,进行窗口滑动后的自注意力计算,随后设置另一个大小的窗口进行原始自注意力计算,窗口再次向右和向下滑动,滑动距离为窗口宽度的一半,进行窗口滑动后的自注意力计算,从而提取空间维的信息,输出指定尺寸为N×N×C大小的特征图;其中,自注意力计算公式如下:
Figure FDA0004096334790000021
Figure FDA0004096334790000022
其中,Q,K,V分别表示查询、键和值矩阵,X为自注意力网络的输入序列,WQ,WK,WV为训练所得,d表示查询向量的维度,B表示相对位置偏差矩阵;
S203、将步骤S202中输出的特征图进行全局平均池化操作,得到具有时空特征信息的C×1维特征向量。
4.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法,其特征在于,步骤S3具体步骤为:
S301、利用COVAREP声学分析框架提取语音数据韵律、音质和频谱三个方面的声学特征,得到A={A1,A2,...,Ai,...,ATa},其中Ta表示音频的分段帧数,Ai表示第i帧的声学特征向量,
Figure FDA0004096334790000023
d为每帧音频数据提取出的声学特征向量的维度;
S302、提取出的声学特征维度为(Ta,d),在提取出的声学特征中嵌入位置信息并加入维度为(1,d)的类别标记向量,组成维度为(Ta+1,d)的特征序列并输入自注意力网络中,计算出语音数据的深层情感特征向量。
5.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法,其特征在于,步骤S4具体步骤为:
S401、将步骤S2中提取的视觉深层情感特征向量Featurev和S3中提取的语音深层情感特征向量Featurea直接进行拼接,得到特定维的融合特征向量Fva
Figure FDA0004096334790000024
Figure FDA0004096334790000025
其中,fi v表示视觉特征向量第i维度的数值,
Figure FDA0004096334790000026
表示语音特征向量第j维的数值,V和A的大小分别表示视觉与语音特征向量的维度大小;
S402、将融合特征向量Fva输入全连接层网络中,进一步利用Softmax分类器对情感进行分类:
Figure FDA0004096334790000031
其中,J为情感类目;Scorei为第i类情感预测得分,i=1,2,...,J;xi为分类器输入向量x第i维上的数值;
Softmax分类器通过将向量指数归一化的形式计算各类情感的得分,得到情感分布概率矩阵为P=[Socre1,Socre2,…,SocreJ];
S403、根据情感分布概率矩阵,选定最大概率的Score的下标对应的类别为最终结果。
6.根据权利要求1所述的基于视觉和语音的多模态关联型情感识别方法,其特征在于,步骤S5中使用交叉熵损失函数的具体公式如下:
Figure FDA0004096334790000032
其中,J代表情感类目;Scorei为第i类情感预测得分;yi代表样本数据的真实标签,类别正确时y值为1其余均为0。
7.一种基于视觉和语音的多模态关联型情感识别系统,其特征在于,包括:
视频流分割模块,用于将视频数据的视频流进行分割,得到指定数量的图像帧,并将这些图像帧的分辨率调整为统一的指定大小;
视觉特征提取模块,用于提取视频数据的时空特征信息,获得视频数据的深层情感特征向量;
语音特征提取模块,用于提取视频数据对应的语音数据中的情感特征向量;
融合特征情感得分计算模块,用于将视觉情感特征向量和语音情感特征向量以串联拼接的形式进行特征融合,再将融合后的向量输入全连接层网络,使用Softmax作为分类器计算出各个情感的得分,得到情感分布概率矩阵,将得分最高的情感作为最终分类结果;
视觉和语音网络模型训练模块,用于对完整的网络模型,依据情感分布概率矩阵计算交叉熵损失函数值,并使用梯度下降法作为优化方法,通过反向传播不断迭代训练网络,得到训练完成的完整网络模型。
8.根据权利要求7所述的基于视觉和语音的多模态关联型情感识别系统,其特征在于,视觉特征提取模块包括时序特征提取模块单元和空间特征提取模块单元,其中:
时序特征提取模块单元,被配置以执行以下动作:利用3D卷积神经网络提取出所选图像帧的时序特征,得到特定尺寸的特征图;
空间特征提取模块单元,被配置以执行以下动作:将时序特征提取模块输出的特征图输入到有滑动窗口的自注意力神经网络中,通过原始自注意力计算和窗口滑动后的自注意力计算提出空间特征,得到特定尺寸的特征图。
9.根据权利要求7所述的基于视觉和语音的多模态关联型情感识别系统,其特征在于,语音特征提取模块包括声学特征提取模块单元和语音情感特征提取模块单元,其中:
声学特征提取模块单元,被配置以执行以下动作:利用COVAREP声学分析框提取语音数据韵律、音质和频谱三个方面的声学特征,得到A={A1,A2,...,Ai,...,ATa},其中Ta表示音频的分段帧数,Ai表示第i帧的声学特征向量,
Figure FDA0004096334790000041
d为每帧音频数据提取出的声学特征向量的维度;
语音情感特征提取模块单元,被配置以执行以下动作:对声学特征提取模块单元中提取出的声学特征嵌入位置信息并加入维度为(1,d)的类别标记向量,组成维度为(Ta+1,d)的特征序列,输入到自注意力网络中,提取语音数据的深层情感特征向量。
10.一种电子设备,其特征在于,包括一台包含存储器和处理器的计算设备,并且计算机存在可读存储介质,可读存储介质中存储着可在处理器上运行的程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的基于视觉和语音的多模态关联型情感识别方法。
CN202310167361.4A 2023-02-27 2023-02-27 一种基于视觉和语音的多模态关联型情感识别方法及系统 Pending CN116167014A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310167361.4A CN116167014A (zh) 2023-02-27 2023-02-27 一种基于视觉和语音的多模态关联型情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310167361.4A CN116167014A (zh) 2023-02-27 2023-02-27 一种基于视觉和语音的多模态关联型情感识别方法及系统

Publications (1)

Publication Number Publication Date
CN116167014A true CN116167014A (zh) 2023-05-26

Family

ID=86421742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310167361.4A Pending CN116167014A (zh) 2023-02-27 2023-02-27 一种基于视觉和语音的多模态关联型情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN116167014A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058597A (zh) * 2023-10-12 2023-11-14 清华大学 一种基于音视频的维度情感识别方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058597A (zh) * 2023-10-12 2023-11-14 清华大学 一种基于音视频的维度情感识别方法、系统、设备及介质
CN117058597B (zh) * 2023-10-12 2024-01-05 清华大学 一种基于音视频的维度情感识别方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN110688502B (zh) 一种基于深度哈希和量化的图像检索方法及存储介质
CN109492529A (zh) 一种多尺度特征提取及全局特征融合的人脸表情识别方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN116167014A (zh) 一种基于视觉和语音的多模态关联型情感识别方法及系统
CN116258989A (zh) 基于文本与视觉的时空关联型多模态情感识别方法、系统
CN116580278A (zh) 一种基于多注意力机制的唇语识别方法、设备及存储介质
CN114743014A (zh) 基于多头自注意力的激光点云特征提取方法及装置
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN114911967A (zh) 一种基于自适应域增强的三维模型草图检索方法
CN115080699A (zh) 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN111626298B (zh) 一种实时图像语义分割装置及分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination