CN116167015A - 一种基于联合交叉注意力机制的维度情感分析方法 - Google Patents
一种基于联合交叉注意力机制的维度情感分析方法 Download PDFInfo
- Publication number
- CN116167015A CN116167015A CN202310175401.XA CN202310175401A CN116167015A CN 116167015 A CN116167015 A CN 116167015A CN 202310175401 A CN202310175401 A CN 202310175401A CN 116167015 A CN116167015 A CN 116167015A
- Authority
- CN
- China
- Prior art keywords
- feature matrix
- matrix
- feature
- visual
- auditory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 173
- 230000000007 visual effect Effects 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008909 emotion recognition Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Child & Adolescent Psychology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于联合交叉注意力机制的维度情感分析方法,包括如下步骤:获取原始视频进行预处理,得到人脸图像数据和音频数据;基于Resnet50模型和时序深度卷积神经网络,对人脸图像数据进行特征提取,得到视觉特征矩阵;基于VGGish模型和时序深度卷积神经网络,对音频数据进行特征提取,得到听觉特征矩阵;将视觉特征矩阵和听觉特征矩阵输入到联合交叉注意力的特征融合模块与全连接层,得到分析结果。本发明通过引入联合交叉注意力机制和时序深度卷积神经网络,对特征提取以及多模态的特征融合方式进行了改进,完善了时间序列建模任务的处理,并且同时考虑了模态内以及模态间特征的相关性,有效提高了维度情感分析的准确率。
Description
技术领域
本发明涉及一种基于联合交叉注意力机制的维度情感分析方法,属于情感分析技术领域。
背景技术
人类主要通过面部表情、肢体动作以及语言表达情感,通过视觉感知外部世界。情感表达是交流沟通的有效方式,是人与人之间相互理解的基础。随着人工智能和计算机视觉的快速发展,对视频以及图像中人的情感研究已成为研究热点。未来的人机交互将更加智能、便捷,计算机可以感知、判断人类情感和情绪变化,然后基于此去做出智能、高效的反应,满足人类的日常需求。
目前情感识别领域主要有两个研究方向:一种是离散的情感识别,将人的情感分为固定类别的离散情绪标签,包括:高兴、愤怒、悲伤、惊讶、平静等;另一种是连续的情感识别,将人的情感用两个维度去进行表示,即愉悦,唤醒两个维度,其中愉悦维度表示情感的强度,唤醒维度表示情感的极性,因为这种方式可以更加细致地描述人的情感状态,近年来对连续情感的识别成为了研究热点。
近年来,通过音视频多模态进行连续维度情感识别已经取得了一些成果,许多研究表明基于多模态的识别方式性能优于单模态,因此,如何选取恰当的特征融合方式成为了多模态的研究难点和热点。传统的特征融合方式往往局限于前期融合(特征级融合)和后期融合(决策级融合),但是前者容易导致特征维数过高,得到的模型泛化能力差;对于后者,融合时的输入是不同特征回归后的结果,难以挖掘模态之间的互补性。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于联合交叉注意力机制的维度情感分析方法,通过引入联合交叉注意力机制和时序深度卷积神经网络,对特征提取以及多模态的特征融合方式进行了改进,完善了时间序列建模任务的处理,并且同时考虑了模态内以及模态间特征的相关性,有效提高了维度情感分析的准确率。
为达到上述目的,本发明是采用下述技术方案实现的:
本发明公开了一种基于联合交叉注意力机制的维度情感分析方法,包括如下步骤:
获取原始视频;
对所述原始视频进行预处理,得到人脸图像数据和音频数据;
基于预设的第一提取模块,对所述人脸图像数据进行特征提取,得到视觉特征矩阵;
基于预设的第二提取模块,对所述音频数据进行特征提取,得到听觉特征矩阵;
将所述视觉特征矩阵和听觉特征矩阵输入到预设的分析模块,得到分析结果;
其中,所述第一提取模块包括Resnet50模型和时序深度卷积神经网络;所述第二提取模块包括VGGish模型和时序深度卷积神经网络;所述分析模块包括基于联合交叉注意力的特征融合模块与全连接层。
进一步的,所述预处理的步骤如下:
逐帧提取所述原始视频中的人脸图像,得到所述原始视频的人脸图像数据;其中,每一视频帧的人脸图像的尺寸为40*40*3;
对所述原始视频进行格式转化,得到所述原始视频的音频数据;其中,所述音频数据的格式为单声道wav格式。
进一步的,所述第一提取模块的提取步骤如下:
基于Resnet50模型,逐帧提取所述原始视频的人脸图像数据的特征,得到第一特征矩阵;
将所述第一特征矩阵输入时序深度卷积神经网络,得到第二特征矩阵;
对所述第二特征矩阵进行转置操作,得到视觉特征矩阵。
进一步的,所述第一特征矩阵包括所有视频帧人脸图像数据的特征向量;
所述第一特征矩阵表示为N*512维的特征矩阵,所述第二特征矩阵表示为N*128维的特征矩阵,所述视觉特征矩阵表示为128*N维的特征矩阵;其中,N代表视频帧的数量。
进一步的,所述第二提取模块的提取步骤如下:
基于VGGish模型,逐帧提取所述原始视频的音频数据的特征,得到第三特征矩阵;
将所述第三特征矩阵输入时序深度卷积神经网络,得到第四特征矩阵;
对所述第四特征矩阵进行转置操作,得到听觉特征矩阵。
进一步的,所述第三特征矩阵包括所有视频帧音频数据的特征向量;
所述第三特征矩阵表示为N*128维的特征矩阵,所述第四特征矩阵表示为N*32维的特征矩阵,所述听觉特征矩阵表示为32*N维的特征矩阵;其中,N代表视频帧的数量。
进一步的,所述基于联合交叉注意力的特征融合模块的特征融合步骤如下:
将所述视觉特征矩阵和听觉特征矩阵进行拼接,得到联合表征矩阵;
根据所述联合表征矩阵,分别计算得到视觉模态的联合相关矩阵和听觉模态的联合相关矩阵;
根据所述视觉模态的联合相关矩阵,基于softmax函数、加权运算和特征融合,得到融合视觉特征矩阵;
根据所述听觉模态的联合相关矩阵,基于softmax函数、加权运算和特征融合,得到融合听觉特征矩阵;
将所述融合视觉特征矩阵和融合听觉特征矩阵进行拼接,得到融合特征。
进一步的,所述融合视觉特征矩阵的获取步骤如下:
根据所述视觉模态的联合相关矩阵,基于softmax函数进行运算,得到视觉模态的权重矩阵;
根据所述视觉模态的权重矩阵对视觉特征矩阵进行加权,得到视觉注意力加权特征矩阵;
将所述视觉注意力加权特征矩阵与视觉特征矩阵进行融合,得到融合视觉特征矩阵。
进一步的,所述融合听觉特征矩阵的获取步骤如下:
根据所述听觉模态的联合相关矩阵,基于softmax函数进行运算,得到听觉模态的权重矩阵;
根据所述听觉模态的权重矩阵对听觉特征矩阵进行加权,得到听觉注意力加权特征矩阵;
将所述听觉注意力加权特征矩阵与听觉特征矩阵进行融合,得到融合听觉特征矩阵。
进一步的,所述全连接层的方法步骤如下:
根据所述融合特征,得到愉悦度和唤醒度的逐帧预测值;
根据所述愉悦度和唤醒度的逐帧预测值,得到分析结果。
与现有技术相比,本发明所达到的有益效果:
本发明的一种基于联合交叉注意力机制的维度情感分析方法,一方面基于联合交叉注意力的特征融合模块,发挥了多模态相比于单模态的优势,既能利用模态之间特征的相关性,也能利用模态内特征的相关性。另一方面,通过引入时序深度卷积神经网络,更好的处理时间序列建模任务,通过多层网络结构,获取足够大的感受野,同时得益于大规模并行处理的优势,可以节省大量时间。
附图说明
图1是一种基于联合交叉注意力机制的维度情感分析方法的流程图;
图2是基于联合交叉注意力的特征融合模块的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本实施例公开了一种基于联合交叉注意力机制的维度情感分析方法,包括如下步骤:
获取原始视频;
对原始视频进行预处理,得到人脸图像数据和音频数据;
基于预设的第一提取模块,对人脸图像数据进行特征提取,得到视觉特征矩阵;
基于预设的第二提取模块,对音频数据进行特征提取,得到听觉特征矩阵;
将视觉特征矩阵和听觉特征矩阵输入到预设的分析模块,得到分析结果。
其中,第一提取模块包括Resnet50模型和时序深度卷积神经网络;第二提取模块包括VGGish模型和时序深度卷积神经网络;分析模块包括基于联合交叉注意力的特征融合模块与全连接层。
本发明的技术构思为:一方面基于联合交叉注意力的特征融合模块,发挥了多模态相比于单模态的优势,既能利用模态之间特征的相关性,也能利用模态内特征的相关性。另一方面,通过引入时序深度卷积神经网络,更好的处理时间序列建模任务,通过多层网络结构,获取足够大的感受野,同时得益于大规模并行处理的优势,可以节省大量时间。
如图1所示,具体步骤如下:
步骤一。
对输入的原始视频进行数据的预处理,用于后续视觉和听觉特征的提取,具体步骤如下:
1.1使用Openface工具逐帧提取原始视频中的人脸图像,得到原始视频的人脸图像数据;其中,每一视频帧的人脸图像的尺寸为40*40*3;
1.2使用FFmpeg对原始视频进行格式转化,得到原始视频的音频数据;其中,音频数据的格式为单声道wav格式。FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。
步骤二。
本步骤采用两个分支分别提取视觉特征和听觉特征,采用第一提取模块,即Resnet50模型组合时序深度卷积神经网络提取视觉特征,采用第二提取模块,即VGGish模型组合时序深度卷积神经网络提取听觉特征,具体分步骤如下:
2.1第一提取模块的提取步骤如下:
基于Resnet50模型,逐帧提取原始视频的人脸图像数据的特征,得到第一特征矩阵;将第一特征矩阵输入时序深度卷积神经网络,得到第二特征矩阵;对第二特征矩阵进行转置操作,得到视觉特征矩阵。
具体如下。
基于Resnet50模型,逐帧提取原始视频的人脸图像数据的特征,获取每一视频帧人脸图像数据的1*512维特征向量,用xi表示第i帧人脸图像的1*512维特征向量,用第一特征矩阵X1表示所有视频帧人脸图像的特征向量构成的N*512维的特征矩阵,其中,N代表帧的数量。
将第一特征矩阵X1输入时序深度卷积神经网络(TCN),获取每帧1*128维的时空特征向量,所有帧的特征向量构成N*128维的第二特征矩阵。
对得到的第二特征矩阵进行转置操作,得到128*N维的视觉特征矩阵Xv。
其中,Resnet50模型已在MS-CELEB-1M数据集上预训练好并在FER+数据集上调整完成。
2.2第二提取模块的提取步骤如下:
基于VGGish模型,逐帧提取原始视频的音频数据的特征,得到第三特征矩阵;将第三特征矩阵输入时序深度卷积神经网络,得到第四特征矩阵;对第四特征矩阵进行转置操作,得到听觉特征矩阵。
具体如下。
基于VGGish模型,逐帧提取原始视频的音频数据的特征,获取每一视频帧音频数据的1*128维特征向量,用第三特征矩阵Y1表示所有视频帧音频数据的特征向量构成的N*128维的特征矩阵,其中,N代表帧的数量。
将第三特征矩阵Y1输入时序深度卷积神经网络(TCN),获取每帧1*32维的时空特征向量,所有帧音频的特征向量构成N*32维的第四特征矩阵。
对得到的第四特征矩阵进行转置操作,得到32*N维的听觉特征矩阵Xa。
步骤三。
根据步骤二得到的两个模态的特征矩阵,即视觉特征矩阵和听觉特征矩阵输入到基于联合交叉注意力的特征融合模块,得到融合后的特征输入全连接层,获得分析结果,如图2所示,具体分步骤如下:
3.1将步骤二得到的视觉特征矩阵Xv和听觉特征矩阵Xa,通过直接拼接的方式得到两个模态特征的联合表征矩阵J。
3.8为了防止在基于联合交叉注意力机制的融合过程中,视觉模态原始的特征被过度抑制,通过如下方式来计算最终的融合视觉特征矩阵:
其中,Xatt-v表示融合视觉特征矩阵;tanh表示双曲正切函数。
3.9为了防止在基于联合交叉注意力机制的融合过程中,听觉模态原始的特征被过度抑制,通过如下方式来计算最终的融合听觉特征矩阵:
其中,Xatt-a表示融合听觉特征矩阵。
需要说明的是,本实施例所涉及的所有网络及模块的参数为最优参数。通过获取网上公开的Aff-wild2数据集来进行网络及模块的参数训练,其中,Aff-wild2是维度情感识别领域比较权威的数据集,共包含548条选自Youtube的视频。
本发明通过引入联合交叉注意力机制和时序深度卷积神经网络,对特征提取以及多模态的特征融合方式进行了改进,完善了是时间序列建模任务的处理,并且同时考虑了模态内以及模态间特征的相关性,有效提高了维度情感识别的准确率。
本发明利用视觉特征和听觉特征的联合表征以及设置的可学习的权重矩阵,做到了同时考虑模态之间特征的相关性以及模态内特征的相关性,能够有效提升维度情感预测的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于联合交叉注意力机制的维度情感分析方法,其特征是,包括如下步骤:
获取原始视频;
对所述原始视频进行预处理,得到人脸图像数据和音频数据;
基于预设的第一提取模块,对所述人脸图像数据进行特征提取,得到视觉特征矩阵;
基于预设的第二提取模块,对所述音频数据进行特征提取,得到听觉特征矩阵;
将所述视觉特征矩阵和听觉特征矩阵输入到预设的分析模块,得到分析结果;
其中,所述第一提取模块包括Resnet50模型和时序深度卷积神经网络;所述第二提取模块包括VGGish模型和时序深度卷积神经网络;所述分析模块包括基于联合交叉注意力的特征融合模块与全连接层。
2.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述预处理的步骤如下:
逐帧提取所述原始视频中的人脸图像,得到所述原始视频的人脸图像数据;其中,每一视频帧的人脸图像的尺寸为40*40*3;
对所述原始视频进行格式转化,得到所述原始视频的音频数据;其中,所述音频数据的格式为单声道wav格式。
3.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述第一提取模块的提取步骤如下:
基于Resnet50模型,逐帧提取所述原始视频的人脸图像数据的特征,得到第一特征矩阵;
将所述第一特征矩阵输入时序深度卷积神经网络,得到第二特征矩阵;
对所述第二特征矩阵进行转置操作,得到视觉特征矩阵。
4.根据权利要求3所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述第一特征矩阵包括所有视频帧人脸图像数据的特征向量;
所述第一特征矩阵表示为N*512维的特征矩阵,所述第二特征矩阵表示为N*128维的特征矩阵,所述视觉特征矩阵表示为128*N维的特征矩阵;其中,N代表视频帧的数量。
5.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述第二提取模块的提取步骤如下:
基于VGGish模型,逐帧提取所述原始视频的音频数据的特征,得到第三特征矩阵;
将所述第三特征矩阵输入时序深度卷积神经网络,得到第四特征矩阵;
对所述第四特征矩阵进行转置操作,得到听觉特征矩阵。
6.根据权利要求5所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述第三特征矩阵包括所有视频帧音频数据的特征向量;
所述第三特征矩阵表示为N*128维的特征矩阵,所述第四特征矩阵表示为N*32维的特征矩阵,所述听觉特征矩阵表示为32*N维的特征矩阵;其中,N代表视频帧的数量。
7.根据权利要求1所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述基于联合交叉注意力的特征融合模块的特征融合步骤如下:
将所述视觉特征矩阵和听觉特征矩阵进行拼接,得到联合表征矩阵;
根据所述联合表征矩阵,分别计算得到视觉模态的联合相关矩阵和听觉模态的联合相关矩阵;
根据所述视觉模态的联合相关矩阵,基于softmax函数、加权运算和特征融合,得到融合视觉特征矩阵;
根据所述听觉模态的联合相关矩阵,基于softmax函数、加权运算和特征融合,得到融合听觉特征矩阵;
将所述融合视觉特征矩阵和融合听觉特征矩阵进行拼接,得到融合特征。
8.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述融合视觉特征矩阵的获取步骤如下:
根据所述视觉模态的联合相关矩阵,基于softmax函数进行运算,得到视觉模态的权重矩阵;
根据所述视觉模态的权重矩阵对视觉特征矩阵进行加权,得到视觉注意力加权特征矩阵;
将所述视觉注意力加权特征矩阵与视觉特征矩阵进行融合,得到融合视觉特征矩阵。
9.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述融合听觉特征矩阵的获取步骤如下:
根据所述听觉模态的联合相关矩阵,基于softmax函数进行运算,得到听觉模态的权重矩阵;
根据所述听觉模态的权重矩阵对听觉特征矩阵进行加权,得到听觉注意力加权特征矩阵;
将所述听觉注意力加权特征矩阵与听觉特征矩阵进行融合,得到融合听觉特征矩阵。
10.根据权利要求7所述的基于联合交叉注意力机制的维度情感分析方法,其特征是,所述全连接层的方法步骤如下:
根据所述融合特征,得到愉悦度和唤醒度的逐帧预测值;
根据所述愉悦度和唤醒度的逐帧预测值,得到分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175401.XA CN116167015A (zh) | 2023-02-28 | 2023-02-28 | 一种基于联合交叉注意力机制的维度情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175401.XA CN116167015A (zh) | 2023-02-28 | 2023-02-28 | 一种基于联合交叉注意力机制的维度情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116167015A true CN116167015A (zh) | 2023-05-26 |
Family
ID=86411278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310175401.XA Pending CN116167015A (zh) | 2023-02-28 | 2023-02-28 | 一种基于联合交叉注意力机制的维度情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116167015A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556084A (zh) * | 2023-12-27 | 2024-02-13 | 环球数科集团有限公司 | 一种基于多模态的视频情感分析系统 |
-
2023
- 2023-02-28 CN CN202310175401.XA patent/CN116167015A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556084A (zh) * | 2023-12-27 | 2024-02-13 | 环球数科集团有限公司 | 一种基于多模态的视频情感分析系统 |
CN117556084B (zh) * | 2023-12-27 | 2024-03-26 | 环球数科集团有限公司 | 一种基于多模态的视频情感分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN113033452B (zh) | 融合通道注意力和选择性特征融合机制的唇语识别方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN115858726A (zh) | 基于互信息方法表示的多阶段多模态情感分析方法 | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN114241606A (zh) | 一种基于自适应集学习预测的人物交互检测方法 | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN116244473B (zh) | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 | |
CN113254713B (zh) | 基于视频内容生成情感曲线的多源情感计算系统及方法 | |
CN113269068B (zh) | 一种基于多模态特征调节与嵌入表示增强的手势识别方法 | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
CN117315765A (zh) | 一种增强时空特征的动作识别方法 | |
KR20210035535A (ko) | 뇌 연결성 학습 방법 및 이를 위한 시스템 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 | |
CN116542292B (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN117115312B (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
CN116975602A (zh) | 一种基于多模态信息双重融合的ar互动情感识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |