CN113408385B - 一种音视频多模态情感分类方法及系统 - Google Patents

一种音视频多模态情感分类方法及系统 Download PDF

Info

Publication number
CN113408385B
CN113408385B CN202110646620.2A CN202110646620A CN113408385B CN 113408385 B CN113408385 B CN 113408385B CN 202110646620 A CN202110646620 A CN 202110646620A CN 113408385 B CN113408385 B CN 113408385B
Authority
CN
China
Prior art keywords
audio
network
text
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110646620.2A
Other languages
English (en)
Other versions
CN113408385A (zh
Inventor
岑敬伦
李志鹏
青春美
罗万相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110646620.2A priority Critical patent/CN113408385B/zh
Publication of CN113408385A publication Critical patent/CN113408385A/zh
Application granted granted Critical
Publication of CN113408385B publication Critical patent/CN113408385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及语音和图像处理、模式识别领域,为一种音视频多模态情感分类方法及系统,其方法包括步骤:对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;将提取到的视觉模态特征、音频特征及文本特征进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。本发明能够对跨模态之间的情感信息进行有效的整合,对视频、音频及文本进行时空高维度上的特征提取,拼接成多模态特征向量,再融合学习并进行情感分类。

Description

一种音视频多模态情感分类方法及系统
技术领域
本发明涉及语音和图像处理、模式识别领域,具体为一种基于开源深度学习框架的音视频多模态情感分类方法及系统。
背景技术
随着5G时代的到来,在现有的以短视频为代表的新兴互联网娱乐产业发展的基础上,网速制约的解除将使短视频进一步成为新的主流信息载体。随之而来的是以视频为载体的数据量的爆炸式增长,“信息过载”已经成为了不可避免的问题。基于信息内容的个性化推荐系统正起着越来越重要的作用,因而对于视频的标签化描述和分类的需求也日益加剧。其次,由于4G、5G网络的不断普及以及活跃在线用户数量的增加,网络上出现的视频质量良莠不齐,对音视频等多媒体文件的审查工作尤为重要,智能的音视频自动化分类系统将会对互联网信息的过滤工作带来极大的帮助。
与此同时,在这种“信息过载”的现状下,好的个性化推荐将能够很好的提升用户体验,提高用户使用产品的效率。对于自媒体社交平台而言,这意味着能更好的留住用户,进一步扩大竞争优势。情感作为音视频等多媒体文件中一项重要的分类依据,在个性化推荐系统的分类参考上起着重要的作用,因为对此类基于情感的分类算法的需求日益增大。
一个智能化的视频平台的高层次目标需要的是能理解用户的情感,实现能为用户提供基于情感的筛选功能以及更加个性化的内容推荐功能,为青少年模式提供自动过滤恐惧、悲伤等负面情感视频内容的过滤功能等。因此视频情感分析在视频创作全民化的现今有着重要的社会意义。
现有的视频情感分析大多是以复杂的神经网络为基础进行的,对视频中语音和表情信息进行提取和分析。对音视频中的人脸表情特征、语音信息和文本信息特征的主流提取方法主要包括人脸表情的变化特征、人脸关键点位置、语音相关的频谱特性、韵律特征、峰值、均值、过零率、文本的词向量特征等。
于2020年6月5日公开的发明申请CN111242155A,公开了一种基于多模深度学习的双模态情感识别方法,使用两个深度卷积神经网络进行高层特征提取,采用全连接层构成的融合网络,实现对音视频情感信息的融合。该方法能够构建出高层次的音视频特征表示来用于情感分类,使得该发明能够提高音视频情感识别的性能。
尽管如此,该项发明申请在数据处理方式、特征的提取与表达、模态间的时间关联性等方面仍存在些许的不足之处:
1、该项发明申请在特征的提取上,只采用了深度卷积神经网络对人脸的表情图片及语音的语谱图进行高层次的特征提取。对于人脸的表情而言,微笑的表情变化差异不足以体现于高层特征中。
2、对于视频的感情而言,视频中的人物在情感的表达与决定性上占有绝大部分的权重。该发明申请只将整体特征输入到卷积神经网络中,通过卷积来提取高维特征,缺少对内容局部的关注。
3、该项发明申请所提出的双模态的情感识别方法中,只用到了音频与人脸表情信息。对于音频特征的提取做法为单个音频样本提取一个特征,而对于每一张关键帧图片都提取人脸表情特征。在时间维度上,音频为一段时间内的连续变化而图片则为离散的关键帧。
4、对于音视频而言(尤其是对话中),语音的文本信息最能表达出情感,因而在音视频的多模态融合情感识别中,语音文本中的信息不应该被忽略。
5、该项发明申请中,对音视频原始数据的处理并没有统一的做法,在音视频的数据处理中,数据的格式、内容等都有很大区别。例如视频中可能不出现人脸,则无法按照该项发明申请所述方法进行人脸特征的提取。
发明内容
为解决现有技术所存在的技术问题,本发明提供一种音视频多模态情感分类方法及系统,能够对跨模态之间的情感信息进行有效的整合,采用ViT(Vision Transformer)网络、循环神经网络(LSTM)及路径积分网络(Signature)分别对视频、音频及文本进行时空高维度上的特征提取,将三个模态所提取的高级特征进行维度上的拼接获得多模态的特征向量,最后采用TFN张量融合网络对学习到的特征向量进行融合学习并进行情感分类。
根据本发明的音视频多模态情感分类方法,包括以下步骤:
S1、对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;
S2、构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;
S3、将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。
根据本发明的音视频多模态情感分类系统,包括:
数据预处理模块,用于对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;
情感特征提取模块,用于构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;
特征融合及分类模块,将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。
本发明将包含音频视频的多媒体文件输入网络,通过网络内部的计算,更高效准确地实现对于视频内容的多模态情感分析,有助于计算机实现对于人类情感的理解,从而提高软件的服务质量,进一步提升用户的使用体验。与现有技术相比,本发明具有如下优点和有益效果:
1、在人脸表情识别当中采用了路径积分等方法,把握了人脸关键点序列随时间变化的细节,不仅关注了整体也注意到了局部,能够更加准确的把握人脸表情细微变化中体现的情感,将路径积分应用于人脸关键点上进行情感计算,充分挖掘了路径积分算法的潜力,在一定程度上简化了运算开销的同时提高了识别的准确度,对实际应用有重大意义,开创了一个全新的视频情感识别方向。
2、将图片整体切分为块,输入到ViT网络中,通过注意力机制,既提高了对主要信息的比重,忽略了不必要的冗余信息,也简化了原有神经网络结构,在此基础上进行多模态融合。也就是说,本发明采取了注意力机制,增强了网络对于视频内容局部的关注,使得网络在捕获人物的情感表达的同时,不仅局限于人物,也能注意到除了人物本身之外的其他音频视频细节,使得对于信息的取舍更加合理,降低了冗余信息的影响而提高了主要信息的权重,使得网络在之后的多模态融合中能够取得更好的效果,也在一定程度上提高了网络的信息处理效率。
3、使用了语音切割的方式,以视频中图片关键帧的时间戳为基准,截取了该时间戳前后一段时间的语音信号,即在所选取的图片关键帧时刻前后一定范围内对音频进行切片,将连续的音频信号与连续的视频信号相统一,保证了音频与图片在时间维度上的统一性,提高了网络对于情感分析中时间维度的准确度,更加贴合人类同时结合视觉和听觉处理信息的习惯,提高了系统对于情感分析的准确度。
4、引入了文字情感分析模块,增加了网络获取的信息的维度,让视频中出现语音不止停留在声音层面,把语音中文本的信息也加入了网络信息处理的过程中,使得网络能够更加准确的分析对话中说话者的情感;也使得网络能够在一定程度上对非对话类的视频有一定的情感分析能力,拓展了网络能够应用的范畴。在本发明的优选实施例中,可通过开源的语音转文本API(Deepspeech),将语音转换为文本,通过将文本转换为词向量特征输入到融合网络中,以增强网络性能。
5、考虑了不同的视频内容,通过人脸检测模块,对于有人脸的视频,采取人脸特征点提取进行表情识别,而对于无人脸的视频,则采取卷积神经网络的方式进行图片高层次的特征提取。也就是说,本发明增加了人脸识别模块,使得网络能够应用于没有人脸出现的视频中,提高了网络的鲁棒性,也使得对音频视频的数据处理能够具有统一性,可由此进一步部署为端到端应用。
附图说明
图1是本发明实施例中多模态情感分类方法的流程示意图;
图2是本发明实施例中多模态情感分类系统的结构框架图。
具体实施方式
下面将结合本发明的附图和实施例,对本发明的技术方案作进一步描述,但本发明的实施方式并不限于此。
实施例1
如图1所示,本实施例中音视频多模态情感分类方法,包括以下步骤:
S1、对原始视频数据的处理与计算
从输入的原始视频片段中获取关键帧和音频信号;对于每一关键帧,将帧图片缩放后输入到人脸检测模块中,若帧图片中不包含人脸,则将帧图片进行等大小的切分;若帧图片中包含人脸,则使用旷视Face++开源API提取人脸的关键点;对音频信号进行梅尔频谱图计算以及MFCC(梅尔频率倒谱系数)的计算,使用开源语音转文本工具包Deepspeech将音频转换为文本,由Transformers(自注意力变换网络)中提供的相关函数将文本转换为词向量并根据文本语句结构生成分句符号。
在本实施例中步骤S1具体包括以下步骤:
S11、视频数据处理与计算
从一段视频片段中提取关键帧,对每一关键帧进行特征提取:将帧图片缩放成维度为(W,H,C)的矩阵,利用级联分类器检测帧图片中有无人脸;对于无人脸的帧图片,将帧图片切分成大小为(P,P)的图片块,并将切分后的图片块展平拼接,得到
Figure BDA0003109336560000041
的特征矩阵;对于有人脸的帧图片,使用旷视Face++开源API提取人脸的68个关键点,得到相应的(1,68)人脸特征矩阵;对视频片段中每一关键帧进行上述特征提取后,进行时间上的拼接,获得视觉特征样本Vi;。
对K段视频片段均进行上述特征提取步骤,得到K个视频数据样本,记为{V1,V2,V3,…,Vk}。
S12、音频数据处理与计算
以16KHz采样率对原始视频片段进行采样,得到音频信号。对第i段音频信号进行特征提取,获得相应的音频特征样本:对音频信号进行梅尔频谱图计算,分别由512个快速傅里叶变换点与1024个快速傅里叶变换点的短时傅里叶变换来计算获得,帧长是快速傅里叶变换点的50%,记为特征Mi1,梅尔通道数是快速傅里叶变换点的25%,记为特征Mi2;对音频信号进行截断,时间阈值为7.5s,小于时间阈值的音频信号使用周期性延拓的方法,使用开源音频特征提取工具Opensmile,计算出13维的梅尔频率倒谱系数,对其(即梅尔频率倒谱系数)在时间轴上进行一阶差分系数和二阶差分系数求导,获得39维的MFCC特征向量,记为特征Mi3;将三个特征进行拼接,得到相应的音频数据样本Ai={Mi1,Mi2,Mi3}。
对K段音频信号均进行上述特征提取,得到K个音频数据样本,记为{A1,A2,A3,…,Ak}。
S13、文本数据处理与计算
从音频信号中获取文本,使用开源的语音转文本工具DeepSpeech2.0,将第i段音频信号转换为文本,并得到对应的文本词向量与分句符号,形成该段音频信号对应的文本特征样本,记为Ti。其中,文本向词向量的转换采取了Transformers库中的内置函数来实现,将起始标识符、文本、中止标识符按顺序拼接后,输入到Transformers框架中的text_to_sequence函数,来获得文本词向量;采用补零的方式来获得与文本词向量具有相同长度L的分句词向量特征,其中分句符号表示词位于整体文本中单句层级的位置,首句中所有词的分句符号均为0,次句中为1,依此类推。
对K段音频信号均进行上述文本转换过程,得到K个文本特征样本,记为{T1,T2,T3,…,Tk}。
S2、构建情感特征提取网络
本发明使用Pytorch深度学习框架进行网络的搭建与训练。对于关键帧图片,搭建ViT网络、路径积分(Signature)网络和长短期记忆(LSTM)网络,对无人脸的图片经过ViT网络提取特征,对有人脸的图片进行人脸表情特征提取,以及时间维度上的特征提取;其中时间维度上的特征指的是对关键帧中的每一帧图片,对有人脸图片或者无人脸图片都提取了特征之后,每一帧的特征组合成一个时间序列特征,再通过LSTM网络提取时间维度上的特征。对于音频特征,构建了卷积神经网络、循环神经网络、路径积分网络的双层网络模型,对采集到的音频特征进行深层次的长时间序列上的时空维度建模。对于文本特征的提取,构建了预训练BERT微调网络,将文本转化为词向量并经由attention+transformer结构与预训练BERT微调网络进行文本层面句级情感特征的提取与分析。
本步骤中,特征提取网络包括帧图片序列特征提取网络、音频特征提取网络、文本特征提取网络,具体结构分别如下:
帧图片序列特征提取网络主要包括Vit网络、路径积分网络和LSTM网络。其中,Vit网络主要分为编码器部分和多层感知机部分(MLP),
Figure BDA0003109336560000061
张P2C的图片块输入到编码器中,通过一个多头的注意力模块获取内容局部的关注,最后经过多层感知机部分增加非线性,Vit网络输出取多层感知机MLP的头部接到全连接层。路径积分网络用于计算人脸关键点连线的路径特征,路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分,选定合适的截断阶数NT,将计算得到路径积分的特征同样接到全连接层中输出特征。将视频片段中所有的帧序列输入到上述Vit网络、路径积分网络后,沿时间维度对上述输出特征进行拼接,通过LSTM网络获取时间序列特征的时空特征,最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征FVi
音频特征提取网络由双层模型组合而成,包括两个独立的神经网络组,分别称为Con-LSTM模块、Sig模块。其中,Con-LSTM模块包括两个独立的卷积块和双序列的LSTM(Dual-LSTM),两个独立的卷积块输入矩阵为音频数据样本Ai={Mi1,Mi2,Mi3}中的梅尔频谱图特征Mi1、Mi2;两个梅尔频谱图特征Mi1、Mi2分别输入Con-LSTM模块两个独立的卷积块中,每个卷积块由两个卷积层与最大池化层组成;两个卷积块输出即为梅尔频谱图的高层次特征。由于两个卷积块输出的特征维度具有不同的时间步长T1,T2(T1≈T2),对T1序列取相邻时间的平均值,使得序列T1,T2具有相同的时间步长T3;将具有相同步长的两序列输送至双序列的LSTM中,分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模,提取更深层次的时空维度特征Qi1。Sig模块的输入矩阵为音频数据样本Ai={Mi1,Mi2,Mi3}中的梅尔频谱图特征Mi3,输入到路径积分模块中,通过在时间维度上计算带截断的路径积分值得到深层次特征Qi2。将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接,作为多模态情感分析中的音频特征,记为FAi={Qi1,Qi2}。
文本特征提取网络由Transformer提供的预训练BERT网络经调整获得。经步骤S13处理后的文本词向量以及分句符号的输入长度固定为L,输入到由多个Transformer块构成BERT网络中。每个Transformer块包括编码器以及后续的全连接层、Softmax层。利用Transformer中的多头注意力机制来提取文本中的相关特征。文本词向量在输入BERT网络后,按照单词顺序依次送入各个Transformer块中,生成第一层特征;第一层特征由全连接层输送给第二层的Nm个Transformer块中,提取高层信息特征,经历Mm层提取后最终将特征输送给全连接层获取输出向量,作为多模态情感分析中的文本特征,记为FTi
S3、特征融合与分类网络
将三个模态分别提取到的高级特征(即视觉模态特征、音频特征及文本特征)通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后经过全连接层与Softmax层进行分类输出多模态情感分类概率结果。
融合网络为TFN(TensorFusionNetwork)张量融合网络,输入为多模态特征F={FV,FA,FT},并以三重笛卡尔积定义为如下矢量:
Figure BDA0003109336560000071
对以上矢量进行外积运算:
Figure BDA0003109336560000072
以三模态的情感信息相互作用,进行外积运算形成高维特征矩阵,最后展平输入到全连接层中,最后Softmax进行分类输出,得到融合的情感分类结果。
本发明在单模态特征基础上添加额外的一维,并通过矩阵外积的运算,将携带单模态特征的数据点映射到高一维空间中以包含三模态融合特征的数据点,得到高维度的三模态融合情感特征。相比于常见的拼接方法,本发明能够增强模态间的互相关性,增强模态间的融合深度。得到的多模态高维特征经过展平后,可经过全连接层进行降维,最后利用分类器进行分类输出。本方法采用深度学习中最为常见的Softmax分类器,计算较为简单的同时可以直接输出各情感类别的分类概率。
实施例2
与实施例1基于相同的发明构思,本实施例提供一种音视频多模态情感分类系统,如图2所示,包括:
数据预处理模块,用于实现实施例1的步骤S1,对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;
情感特征提取模块,用于实现实施例1的步骤S2,构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;
特征融合及分类模块,用于实现实施例1的步骤S3,将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果。
图2中,ViT指ViT(Vision Transformer)网络,Signature指路径积分模块,LSTM指长短期记忆卷积神经网络,BRET指双向编码Transformer网络,Conv指卷积块,Fc指全连接层。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种音视频多模态情感分类方法,其特征在于,包括以下步骤:
S1、对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;
S2、构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;
S3、将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果;
步骤S1包括:
S11、视频数据处理与计算
从一段原始视频数据中提取关键帧,对每一关键帧进行特征提取:将帧图片缩放成维度为(W,H,C)的矩阵,检测帧图片中有无人脸;对于无人脸的帧图片,将帧图片切分成大小为(P,P)的图片块,并将切分后的图片块展平拼接,得到
Figure FDA0003596161840000011
的特征矩阵;对于有人脸的帧图片,提取人脸的多个关键点,得到相应的人脸特征矩阵;对每一关键帧进行上述特征提取后,进行时间上的拼接,获得视觉特征样本Vi
对K段原始视频数据均进行上述特征提取步骤,得到K个视频数据样本,记为{V1,V2,V3,…,Vk};
S12、音频数据处理与计算
对原始视频数据进行采样,得到音频信号;对第i段音频信号进行特征提取,获得相应的音频特征样本:对音频信号进行梅尔频谱图计算,帧长记为特征Mi1,梅尔通道数记为特征Mi2;设定时间阈值,对音频信号进行截断,小于时间阈值的音频信号使用周期性延拓的方法,使用开源音频特征提取工具计算出倒谱系数,对其在时间轴上进行一阶差分系数和二阶差分系数求导,获得MFCC特征向量,记为特征Mi3;将三个特征进行拼接,得到相应的音频数据样本Ai={Mi1,Mi2,Mi3};
对K段音频信号均进行上述特征提取,得到K个音频数据样本,记为{A1,A2,A3,…,Ak};
S13、文本数据处理与计算
将第i段音频信号转换为文本,并得到对应的文本词向量与分句符号,形成该段音频信号对应的文本特征样本,记为Ti;采用补零的方式来获得与文本词向量具有相同长度的分句词向量特征,其中分句符号表示词位于整体文本中单句层级的位置;
对K段音频信号均进行上述文本转换过程,得到K个文本特征样本,记为{T1,T2,T3,…,Tk};
步骤S2中特征提取网络包括帧图片序列特征提取网络,帧图片序列特征提取网络包括Vit网络、路径积分网络和LSTM网络;其中,Vit网络分为编码器和多层感知机,
Figure FDA0003596161840000012
张P2C 的图片块输入到编码器中,通过多头注意力模块获取内容局部的关注,最后经过多层感知机增加非线性,Vit网络输出取多层感知机的头部接到全连接层;路径积分网络用于计算人脸关键点连线的路径特征,路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分,选定合适的截断阶数NT,将计算得到路径积分的特征同样接到全连接层中输出特征;将视频数据中所有的帧序列输入到Vit网络、路径积分网络后,沿时间维度对上述输出特征进行拼接,通过LSTM网络获取时间序列特征的时空特征,最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征FVi
2.根据权利要求1所述的音视频多模态情感分类方法,其特征在于,步骤S2中特征提取网络包括音频特征提取网络,音频特征提取网络包括独立的Con-LSTM模块、Sig模块;其中,Con-LSTM模块包括两个独立的卷积块和双序列的LSTM,两个独立的卷积块的输入矩阵为梅尔频谱图特征Mi1、Mi2,获得具有相同步长的两个序列后输送至双序列的LSTM中以分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模,提取深层次的时空维度特征Qi1;Sig模块的输入矩阵为梅尔频谱图特征Mi3,输入到路径积分模块中,通过在时间维度上计算带截断的路径积分值得到深层次特征Qi2;将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接,作为多模态情感分析中的音频特征,记为FAi={Qi1,Qi2}。
3.根据权利要求1所述的音视频多模态情感分类方法,其特征在于,步骤S2中特征提取网络包括文本特征提取网络,经步骤S13处理后的文本词向量以及分句符号的输入长度固定为L,输入到由多个Transformer块构成BERT网络中;每个Transformer块包括编码器、全连接层、Softmax层;利用Transformer中的多头注意力机制来提取文本中的相关特征;文本词向量在输入BERT网络后,按照单词顺序依次送入各个Transformer块中,生成第一层特征;第一层特征由全连接层输送给第二层的Nm个Transformer块中,提取高层信息特征,经历Mm层提取后最终将特征输送给全连接层获取输出向量,作为多模态情感分析中的文本特征,记为FTi
4.根据权利要求1所述的音视频多模态情感分类方法,其特征在于,步骤S3中融合网络为TFN张量融合网络,输入为多模态特征F={FV,FA,FT},并以三重笛卡尔积定义为如下矢量:
Figure FDA0003596161840000021
对以上矢量进行外积运算:
Figure FDA0003596161840000022
以三模态的情感信息相互作用,进行外积运算形成高维特征矩阵,最后展平输入到全连接层中,最后Softmax进行分类输出,得到融合的情感分类结果。
5.一种音视频多模态情感分类系统,其特征在于,包括:
数据预处理模块,用于对原始视频数据的处理与计算,得到视频数据样本、音频数据样本及文本特征样本;
情感特征提取模块,用于构建情感特征提取网络,分别对视频数据样本、音频数据样本及文本特征样本进行特征提取,获得多模态中的视觉模态特征、音频特征及文本特征;
特征融合及分类模块,将提取到的视觉模态特征、音频特征及文本特征通过全连接层进行维度统一,输入到张量融合网络中进行融合学习,最后进行分类输出多模态情感分类概率结果;
数据预处理模块包括:
视频数据处理与计算模块,用于从一段原始视频数据中提取关键帧,对每一关键帧进行特征提取:将帧图片缩放成维度为(W,H,C)的矩阵,检测帧图片中有无人脸;对于无人脸的帧图片,将帧图片切分成大小为(P,P)的图片块,并将切分后的图片块展平拼接,得到
Figure FDA0003596161840000031
的特征矩阵;对于有人脸的帧图片,提取人脸的多个关键点,得到相应的人脸特征矩阵;对每一关键帧进行上述特征提取后,进行时间上的拼接,获得视觉特征样本Vi;对K段原始视频数据均进行上述特征提取,得到K个视频数据样本,记为{V1,V2,V3,…,Vk};
音频数据处理与计算模块,用于对原始视频数据进行采样,得到音频信号;对第i段音频信号进行特征提取,获得相应的音频特征样本:对音频信号进行梅尔频谱图计算,帧长记为特征Mi1,梅尔通道数记为特征Mi2;设定时间阈值,对音频信号进行截断,小于时间阈值的音频信号使用周期性延拓的方法,使用开源音频特征提取工具计算出倒谱系数,对其在时间轴上进行一阶差分系数和二阶差分系数求导,获得MFCC特征向量,记为特征Mi3;将三个特征进行拼接,得到相应的音频数据样本Ai={Mi1,Mi2,Mi3};对K段音频信号均进行上述特征提取,得到K个音频数据样本,记为{A1,A2,A3,…,Ak};
文本数据处理与计算模块,用于将第i段音频信号转换为文本,并得到对应的文本词向量与分句符号,形成该段音频信号对应的文本特征样本,记为Ti;采用补零的方式来获得与文本词向量具有相同长度的分句词向量特征,其中分句符号表示词位于整体文本中单句层级的位置;对K段音频信号均进行上述文本转换过程,得到K个文本特征样本,记为{T1,T2,T3,…,Tk};
情感特征提取模块包括:
帧图片序列特征提取网络,帧图片序列特征提取网络包括Vit网络、路径积分网络和LSTM网络;其中,Vit网络分为编码器和多层感知机,
Figure FDA0003596161840000041
张P2C的图片块输入到编码器中,通过多头注意力模块获取内容局部的关注,最后经过多层感知机增加非线性,Vit网络输出取多层感知机的头部接到全连接层;路径积分网络用于计算人脸关键点连线的路径特征,路径积分网络中的路径积分模块分别对关键点序列沿平面二位坐标轴进行空间上的路径积分,选定合适的截断阶数NT,将计算得到路径积分的特征同样接到全连接层中输出特征;将视频数据中所有的帧序列输入到Vit网络、路径积分网络后,沿时间维度对上述输出特征进行拼接,通过LSTM网络获取时间序列特征的时空特征,最后将LSTM网络输出接到全连接层获得多模态中的视觉模态特征FVi
音频特征提取网络,音频特征提取网络包括独立的Con-LSTM模块、Sig模块;其中,Con-LSTM模块包括两个独立的卷积块和双序列的LSTM,两个独立的卷积块的输入矩阵为梅尔频谱图特征Mi1、Mi2,获得具有相同步长的两个序列后输送至双序列的LSTM中以分别对梅尔频谱图特征中的时间域与频率域进行时空上的建模,提取深层次的时空维度特征Qi1;Sig模块的输入矩阵为梅尔频谱图特征Mi3,输入到路径积分模块中,通过在时间维度上计算带截断的路径积分值得到深层次特征Qi2;将Con-LSTM模块与Sig模块分别采集到的深层次特征拼接,作为多模态情感分析中的音频特征,记为FAi={Qi1,Qi2};
文本特征提取网络,经文本数据处理与计算模块处理后的文本词向量以及分句符号的输入长度固定为L,输入到由多个Transformer块构成BERT网络中;每个Transformer块包括编码器、全连接层、Softmax层;利用Transformer中的多头注意力机制来提取文本中的相关特征;文本词向量在输入BERT网络后,按照单词顺序依次送入各个Transformer块中,生成第一层特征;第一层特征由全连接层输送给第二层的Nm个Transformer块中,提取高层信息特征,经历Mm层提取后最终将特征输送给全连接层获取输出向量,作为多模态情感分析中的文本特征,记为FTi
6.根据权利要求5所述的音视频多模态情感分类系统,其特征在于,特征融合及分类模块中融合网络为TFN张量融合网络,输入为多模态特征F={FV,FA,FT},并以三重笛卡尔积定义为如下矢量:
Figure FDA0003596161840000042
对以上矢量进行外积运算:
Figure FDA0003596161840000043
以三模态的情感信息相互作用,进行外积运算形成高维特征矩阵,最后展平输入到全连接层中,最后Softmax进行分类输出,得到融合的情感分类结果。
CN202110646620.2A 2021-06-10 2021-06-10 一种音视频多模态情感分类方法及系统 Active CN113408385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110646620.2A CN113408385B (zh) 2021-06-10 2021-06-10 一种音视频多模态情感分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110646620.2A CN113408385B (zh) 2021-06-10 2021-06-10 一种音视频多模态情感分类方法及系统

Publications (2)

Publication Number Publication Date
CN113408385A CN113408385A (zh) 2021-09-17
CN113408385B true CN113408385B (zh) 2022-06-14

Family

ID=77683386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110646620.2A Active CN113408385B (zh) 2021-06-10 2021-06-10 一种音视频多模态情感分类方法及系统

Country Status (1)

Country Link
CN (1) CN113408385B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837072A (zh) * 2021-09-24 2021-12-24 厦门大学 一种融合多维信息的说话人情绪感知方法
CN113806609B (zh) * 2021-09-26 2022-07-12 郑州轻工业大学 一种基于mit和fsm的多模态情感分析方法
CN113763519B (zh) * 2021-11-09 2022-02-08 江苏原力数字科技股份有限公司 一种基于深度学习的语音驱动3d人物面部表情方法
CN114170585B (zh) * 2021-11-16 2023-03-24 广西中科曙光云计算有限公司 危险驾驶行为的识别方法、装置、电子设备及存储介质
CN113822382B (zh) * 2021-11-22 2022-02-15 平安科技(深圳)有限公司 基于多模态特征表示的课程分类方法、装置、设备及介质
CN113850247B (zh) * 2021-12-01 2022-02-08 环球数科集团有限公司 一种融合文本信息的旅游视频情感分析系统
CN114373455A (zh) * 2021-12-08 2022-04-19 北京声智科技有限公司 情感识别方法、装置、电子设备及存储介质
CN114510960A (zh) * 2021-12-28 2022-05-17 齐鲁工业大学 一种分布式光纤传感器系统模式识别的方法
CN114429659B (zh) * 2022-01-25 2024-10-15 上海大学 一种基于自注意力的卒中患者表情识别方法及系统
CN114443899A (zh) * 2022-01-28 2022-05-06 腾讯科技(深圳)有限公司 视频分类方法、装置、设备及介质
CN114926716B (zh) * 2022-04-08 2024-07-19 山东师范大学 一种学习参与度识别方法、装置、设备及可读存储介质
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN114973062B (zh) * 2022-04-25 2024-08-20 西安电子科技大学 基于Transformer的多模态情感分析方法
CN114898429B (zh) * 2022-05-10 2023-05-30 电子科技大学 一种热红外-可见光跨模态人脸识别的方法
CN114999006A (zh) * 2022-05-20 2022-09-02 南京邮电大学 基于不确定性估计的多模态情感分析方法、装置及设备
CN115171717B (zh) * 2022-07-05 2024-09-27 清华大学深圳国际研究生院 一种音视频语音分离方法和系统
CN115376187A (zh) * 2022-08-12 2022-11-22 之江实验室 一种多人机交互场景下说话对象检测装置及方法
CN115169507B (zh) * 2022-09-08 2023-05-19 华中科技大学 类脑多模态情感识别网络、识别方法及情感机器人
CN115424108B (zh) * 2022-11-08 2023-03-28 四川大学 一种基于视听融合感知的认知功能障碍评测方法
CN115690552A (zh) * 2022-12-30 2023-02-03 智慧眼科技股份有限公司 多意图识别方法、装置、计算机设备及存储介质
CN116108176A (zh) * 2022-12-31 2023-05-12 青岛海尔电冰箱有限公司 基于多模态深度学习的文本分类方法、设备及存储介质
CN116631380B (zh) * 2023-07-24 2023-11-07 之江实验室 一种音视频多模态的关键词唤醒方法及装置
CN116701708B (zh) * 2023-07-27 2023-11-17 上海蜜度信息技术有限公司 多模态增强的视频分类方法、系统、存储介质及电子设备
CN117056863B (zh) * 2023-10-10 2023-12-26 湖南承希科技有限公司 一种基于多模态数据融合的大数据处理方法
CN118470809B (zh) * 2023-10-30 2024-09-27 杭州名光微电子科技有限公司 融合人脸和活体掌静脉的对象识别系统及其方法
CN117174092B (zh) * 2023-11-02 2024-01-26 北京语言大学 基于声纹识别与多模态分析的移动语料转写方法及装置
CN117217807B (zh) * 2023-11-08 2024-01-26 四川智筹科技有限公司 一种基于多模态高维特征的不良资产估值方法
CN117639986B (zh) * 2023-11-29 2024-08-06 东营市无线电监测站 一种应用于市域监测的基于深度学习的调频广播信号频谱监测方法及系统
CN117765322B (zh) * 2023-12-25 2024-07-05 中国科学技术大学 一种基于多模态数据可解释深度学习的分类系统
CN118279805B (zh) * 2024-05-29 2024-10-01 吉林大学 一种基于多模态的远程情感识别方法
CN118380020A (zh) * 2024-06-21 2024-07-23 吉林大学 一种基于多模态的审讯对象情绪变化的识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及系统
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190265955A1 (en) * 2016-07-21 2019-08-29 Ramot At Tel-Aviv University Ltd. Method and system for comparing sequences
CN109376775B (zh) * 2018-10-11 2021-08-17 南开大学 在线新闻多模态情感分析方法
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及系统
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于人脸多模态的视频分类算法的设计与实现;李丹锦;《电子设计工程》;20181231;第26卷(第24期);第150-153页 *

Also Published As

Publication number Publication date
CN113408385A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
CN112489635B (zh) 一种基于增强注意力机制的多模态情感识别方法
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN111048062B (zh) 语音合成方法及设备
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
US10375534B2 (en) Video transmission and sharing over ultra-low bitrate wireless communication channel
WO2023222088A1 (zh) 语音识别与分类方法和装置
US11837252B2 (en) Speech emotion recognition method and system based on fused population information
WO2023222089A1 (zh) 基于深度学习的物品分类方法和装置
CN1860504A (zh) 用于视听内容合成的系统和方法
CN104541324A (zh) 一种使用动态贝叶斯网络模型的语音识别系统和方法
WO2023222090A1 (zh) 基于深度学习的信息推送方法和装置
CN111461173A (zh) 一种基于注意力机制的多说话人聚类系统及方法
WO2024140434A1 (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
WO2024140430A1 (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
CN114973044A (zh) 一种基于双模态信息增强多头注意力的视频情感分析方法
CN113837072A (zh) 一种融合多维信息的说话人情绪感知方法
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN114944149A (zh) 语音识别方法、语音识别设备及计算机可读存储介质
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
JP2020134719A (ja) 翻訳装置、翻訳方法、および翻訳プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant