CN112597841B - 一种基于门机制多模态融合的情感分析方法 - Google Patents
一种基于门机制多模态融合的情感分析方法 Download PDFInfo
- Publication number
- CN112597841B CN112597841B CN202011468475.5A CN202011468475A CN112597841B CN 112597841 B CN112597841 B CN 112597841B CN 202011468475 A CN202011468475 A CN 202011468475A CN 112597841 B CN112597841 B CN 112597841B
- Authority
- CN
- China
- Prior art keywords
- modal
- text
- video
- mode
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 title claims abstract description 11
- 230000008909 emotion recognition Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 53
- 230000003993 interaction Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及到多模态情感分析领域,提出了一种基于门机制多模态融合的情感分析方法,具体为:首先获取多模态情感分析数据,针对不同模态特点提取特征表示;通过不同模态特征的表示获得每个模态特征对应的模态信息门;使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;拼接不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。本发明可以更好地增强主体情感表达模态的作用,削弱冗余情感表达模态的负面影响,帮助多模态特征情感识别更加精确。
Description
技术领域
本发明涉及多模态情感分析领域,具体为一种基于门机制多模态融合的情感分析方法。
背景技术
情感对于人类的感知、记忆、学习、创造、决策和社交都有很重要的作用,情感识别与理解技术也是人机交互的基础性技术之一。情感识别的本质是利用计算机对人类的情感状态进行自动识别、判断和分类的过程。相对于单模态情感识别,多模态将不同模态的信息特征进行互补融合,从而能够更加全面且准确地识别出情感类别。正因如此,多模态融合的情感识别研究正日益受到重视,目前的研究热点已经从单模态转移到实际应用场合下的多模态情感识别。如何进行有效的多模态情感识别具有重要的应用价值,充满了挑战性。
当前的研究中,现有的多模态特征融合策略都是偏浅层的特征融合方案,没有衡量不同模态间的差异性和互补性对最终融合结果造成的影响,容易造成联合特征表达的判别性不足导致最终情感识别效果不佳,难以具体应用。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种基于门机制多模态融合的情感分析方法,其具体技术方案如下。
一种基于门机制多模态融合的情感分析方法,包含以下步骤:
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示;
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门;
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。
进一步的,所述步骤1具体包括:
步骤1.1,通过采集一般电影、电视剧视频数据,对视频数据进行剪辑并进行人工情感标注,分离出其中对应单模态数据:通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过所述人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据。
步骤1.2,根据采集得到的不同模态的数据的特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量;
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht;
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,得到语音模态特征向量表示ha。
进一步的,所述步骤2具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数。
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例。
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例。
进一步的,所述步骤3具体包括:
使用Softmax分别对文本模态门Gt、视频模态门Gv和语音模态门Ga进行归一化得到新的模态门其中代表在最终模态融合中不同模态所占的比例大小;然后使用tanh激活函数得到临时模态表示,文本最终模态表示为语音最终模态表示为视频最终模态表示为
在本发明中,针对各个模态不同的特点,使用对应的特征提取方法,提取最适合于情感识别的特征,如视频模态主要是三层特征提取,包括关键帧画面抽取、人脸特征抽取、时序特征建模,能充分考虑视模态特点来获取最终模态表示;文本模态使用字符级特征抽取和序列级特征抽取,能较好地获取深度语义特征;通过所提特征抽取步骤,能够较好地保证抽取模态特征的完整性,以及降低模态特征的冗余性,最终达到较好的融合效果,保证后续情感分类精度。并且构建特定的模态门辅助各模态表示融合,在多模态融合时,不同模态对最后情感分类贡献不同,模态门可以有效控制各模态在模态融合时流入的信息,计算各模态的权重比例,增强贡献较大地模态占比,减小贡献较小地模态占比,保证融合后的情感识别效果。
附图说明
图1为本发明的基于门机制多模态融合的情感分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,一种基于门机制多模态融合的情感分析方法,包含以下步骤;
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示,具体包括:
步骤1.1,本实施例从国内视频网站下载了32部电影、15部电视剧,在utterance对话片段进行切割,所述对话片段的定义是在某一场景下,两个人对某一事件,连续交流产生的一段对话;并且为了保证后续情感识别效果,做出以下限制,包括:有较强背景音乐或其他噪音的片段,不收录;浮夸演技和表达,严重与现实情绪表达相悖,不收录;
对切割的utterance进行人工情感标注,标注出每个utterance对应的情感标签,所述情感标签包括正面情感和负面情感;分离出切割的utterance的视频数据中的对应单模态数据,即通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过所述人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据。
步骤1.2,本实例根据所述步骤1.1得到的不同模态的数据特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量,其中向量长度为709;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量,其中所述ConvLSTM应用在具有时序关系的图像上,对于捕捉图像特征更为有效,表达式如下:
it=σ(Wiixt+bif+Whfht-1+bhf)
ft=σ(Wifxt+bif+Whfht-1+bhf)
gt=tanh(Wigxt+big+Whght-1+bhg)
ot=σ(Wioxt+bio+Whoht-1+bho)
ct=ftct-1+itgt
ht=ottanh(ct)
其中it、ft、ot分别代表输入门、遗忘门、输出门,中间的各项参数代表的是做卷积操作需要的可训练参数,得到视频模态特征向量hv,维度是128。
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht,维度为128。
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,提取的特征为mfcc特征、Chroma特征、Zero Crossing Rate(过零率)等;再通过三层前馈神经网络,得到语音模态特征向量表示ha,维度为64。
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门,具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数。
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例。
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例。
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示。
具体的,使用Softmax对各模态门进行归一化得到新的模态门其中代表在最终模态融合中不同模态所占的比例大小;然后使用tanh激活函数得到临时模态表示,文本最终模态表示为语音最终模态表示为视频最终模态表示为
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类;
Claims (3)
1.一种基于门机制多模态融合的情感分析方法,其特征在于,包含以下步骤;
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示,具体包括:
步骤1.1,通过采集一般电影、电视剧视频数据,对视频数据进行剪辑并进行人工情感标注,分离出其中对应单模态数据:通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据;
步骤1.2,根据采集得到的不同模态的数据的特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量;
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht;
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,得到语音模态特征向量表示ha;
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门,具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数;
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例;
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例;
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468475.5A CN112597841B (zh) | 2020-12-14 | 2020-12-14 | 一种基于门机制多模态融合的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468475.5A CN112597841B (zh) | 2020-12-14 | 2020-12-14 | 一种基于门机制多模态融合的情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597841A CN112597841A (zh) | 2021-04-02 |
CN112597841B true CN112597841B (zh) | 2023-04-18 |
Family
ID=75195112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011468475.5A Active CN112597841B (zh) | 2020-12-14 | 2020-12-14 | 一种基于门机制多模态融合的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597841B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111954B (zh) * | 2021-04-20 | 2022-10-11 | 网易(杭州)网络有限公司 | 一种用户类别判定方法、装置、存储介质及服务器 |
CN113947702B (zh) * | 2021-09-15 | 2024-09-27 | 复旦大学 | 一种基于情境感知的多模态情感识别方法和系统 |
CN113837265B (zh) * | 2021-09-22 | 2024-08-27 | 湖南工业大学 | 基于联合域分离表示分层图融合网络的多模态情感分析方法 |
CN113571097B (zh) * | 2021-09-28 | 2022-01-18 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN114339450B (zh) * | 2022-03-11 | 2022-07-15 | 中国科学技术大学 | 视频评论生成方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017136938A1 (en) * | 2016-02-10 | 2017-08-17 | Tandemlaunch Inc. | A quality adaptive multimodal affect recognition system for user-centric multimedia indexing |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102090171B1 (ko) * | 2018-04-13 | 2020-03-17 | 인하대학교 산학협력단 | 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법 |
WO2019204186A1 (en) * | 2018-04-18 | 2019-10-24 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN110188343B (zh) * | 2019-04-22 | 2023-01-31 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN111128368B (zh) * | 2019-10-31 | 2023-04-07 | 东南大学 | 基于视频表情行为分析的孤独症谱系障碍自动检测方法及装置 |
CN111026847B (zh) * | 2019-12-09 | 2022-04-26 | 北京邮电大学 | 一种基于注意力网络和长短期记忆网络的文本情感识别方法 |
CN111564164A (zh) * | 2020-04-01 | 2020-08-21 | 中国电力科学研究院有限公司 | 一种多模态情感识别方法及装置 |
-
2020
- 2020-12-14 CN CN202011468475.5A patent/CN112597841B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017136938A1 (en) * | 2016-02-10 | 2017-08-17 | Tandemlaunch Inc. | A quality adaptive multimodal affect recognition system for user-centric multimedia indexing |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN111178389A (zh) * | 2019-12-06 | 2020-05-19 | 杭州电子科技大学 | 基于多通道张量池化的多模态深度分层融合情感分析方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
Non-Patent Citations (1)
Title |
---|
吴良庆 ; 刘启元 ; 张栋 ; 王建成 ; 李寿山 ; 周国栋 ; .基于情感信息辅助的多模态情绪识别.北京大学学报(自然科学版).2020,第56卷(第1期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112597841A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN111898670B (zh) | 多模态情感识别方法、装置、设备及存储介质 | |
Shashidhar et al. | Combining audio and visual speech recognition using LSTM and deep convolutional neural network | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
Hao et al. | A survey of research on lipreading technology | |
Stappen et al. | Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild | |
CN115964467A (zh) | 一种融合视觉情境的富语义对话生成方法 | |
CN112579762B (zh) | 一种基于语义、情感惯性和情感共性的对话情感分析方法 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
Alisamir et al. | On the Evolution of Speech Representations for Affective Computing: A brief history and critical overview | |
CN114463688A (zh) | 一种跨模态上下文编码的对话情感识别方法及系统 | |
CN115858726A (zh) | 基于互信息方法表示的多阶段多模态情感分析方法 | |
CN115964638A (zh) | 多模态社交数据情感分类方法、系统、终端、设备及应用 | |
CN116129013A (zh) | 一种生成虚拟人动画视频的方法、装置及存储介质 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
Pu et al. | Review on research progress of machine lip reading | |
Huang et al. | CALLip: Lipreading using contrastive and attribute learning | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 | |
Choudhury et al. | Review of Various Machine Learning and Deep Learning Techniques for Audio Visual Automatic Speech Recognition | |
Sajid et al. | Multimodal emotion recognition using deep convolution and recurrent network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |