CN112597841B - 一种基于门机制多模态融合的情感分析方法 - Google Patents

一种基于门机制多模态融合的情感分析方法 Download PDF

Info

Publication number
CN112597841B
CN112597841B CN202011468475.5A CN202011468475A CN112597841B CN 112597841 B CN112597841 B CN 112597841B CN 202011468475 A CN202011468475 A CN 202011468475A CN 112597841 B CN112597841 B CN 112597841B
Authority
CN
China
Prior art keywords
modal
text
video
mode
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011468475.5A
Other languages
English (en)
Other versions
CN112597841A (zh
Inventor
李太豪
廖龙飞
刘昱龙
裴冠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202011468475.5A priority Critical patent/CN112597841B/zh
Publication of CN112597841A publication Critical patent/CN112597841A/zh
Application granted granted Critical
Publication of CN112597841B publication Critical patent/CN112597841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及到多模态情感分析领域,提出了一种基于门机制多模态融合的情感分析方法,具体为:首先获取多模态情感分析数据,针对不同模态特点提取特征表示;通过不同模态特征的表示获得每个模态特征对应的模态信息门;使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;拼接不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。本发明可以更好地增强主体情感表达模态的作用,削弱冗余情感表达模态的负面影响,帮助多模态特征情感识别更加精确。

Description

一种基于门机制多模态融合的情感分析方法
技术领域
本发明涉及多模态情感分析领域,具体为一种基于门机制多模态融合的情感分析方法。
背景技术
情感对于人类的感知、记忆、学习、创造、决策和社交都有很重要的作用,情感识别与理解技术也是人机交互的基础性技术之一。情感识别的本质是利用计算机对人类的情感状态进行自动识别、判断和分类的过程。相对于单模态情感识别,多模态将不同模态的信息特征进行互补融合,从而能够更加全面且准确地识别出情感类别。正因如此,多模态融合的情感识别研究正日益受到重视,目前的研究热点已经从单模态转移到实际应用场合下的多模态情感识别。如何进行有效的多模态情感识别具有重要的应用价值,充满了挑战性。
当前的研究中,现有的多模态特征融合策略都是偏浅层的特征融合方案,没有衡量不同模态间的差异性和互补性对最终融合结果造成的影响,容易造成联合特征表达的判别性不足导致最终情感识别效果不佳,难以具体应用。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了一种基于门机制多模态融合的情感分析方法,其具体技术方案如下。
一种基于门机制多模态融合的情感分析方法,包含以下步骤:
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示;
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门;
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。
进一步的,所述步骤1具体包括:
步骤1.1,通过采集一般电影、电视剧视频数据,对视频数据进行剪辑并进行人工情感标注,分离出其中对应单模态数据:通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过所述人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据。
步骤1.2,根据采集得到的不同模态的数据的特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量;
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,得到语音模态特征向量表示ha
进一步的,所述步骤2具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Figure BDA0002834387550000031
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数。
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Figure BDA0002834387550000032
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例。
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Figure BDA0002834387550000033
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例。
进一步的,所述步骤3具体包括:
使用Softmax分别对文本模态门Gt、视频模态门Gv和语音模态门Ga进行归一化得到新的模态门
Figure BDA0002834387550000041
其中
Figure BDA0002834387550000042
代表在最终模态融合中不同模态所占的比例大小;然后使用tanh激活函数得到临时模态表示,文本最终模态表示为
Figure BDA0002834387550000043
语音最终模态表示为
Figure BDA0002834387550000044
视频最终模态表示为
Figure BDA0002834387550000045
进一步的,所述步骤4具体包括:通过对文本最终模态、语音最终模态和视频最终模态进行加权求和得到:
Figure BDA0002834387550000046
然后通过softmax函数获得最终情感分类结果。
在本发明中,针对各个模态不同的特点,使用对应的特征提取方法,提取最适合于情感识别的特征,如视频模态主要是三层特征提取,包括关键帧画面抽取、人脸特征抽取、时序特征建模,能充分考虑视模态特点来获取最终模态表示;文本模态使用字符级特征抽取和序列级特征抽取,能较好地获取深度语义特征;通过所提特征抽取步骤,能够较好地保证抽取模态特征的完整性,以及降低模态特征的冗余性,最终达到较好的融合效果,保证后续情感分类精度。并且构建特定的模态门辅助各模态表示融合,在多模态融合时,不同模态对最后情感分类贡献不同,模态门可以有效控制各模态在模态融合时流入的信息,计算各模态的权重比例,增强贡献较大地模态占比,减小贡献较小地模态占比,保证融合后的情感识别效果。
附图说明
图1为本发明的基于门机制多模态融合的情感分析方法的流程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,一种基于门机制多模态融合的情感分析方法,包含以下步骤;
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示,具体包括:
步骤1.1,本实施例从国内视频网站下载了32部电影、15部电视剧,在utterance对话片段进行切割,所述对话片段的定义是在某一场景下,两个人对某一事件,连续交流产生的一段对话;并且为了保证后续情感识别效果,做出以下限制,包括:有较强背景音乐或其他噪音的片段,不收录;浮夸演技和表达,严重与现实情绪表达相悖,不收录;
对切割的utterance进行人工情感标注,标注出每个utterance对应的情感标签,所述情感标签包括正面情感和负面情感;分离出切割的utterance的视频数据中的对应单模态数据,即通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过所述人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据。
步骤1.2,本实例根据所述步骤1.1得到的不同模态的数据特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量,其中向量长度为709;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量,其中所述ConvLSTM应用在具有时序关系的图像上,对于捕捉图像特征更为有效,表达式如下:
it=σ(Wiixt+bif+Whfht-1+bhf)
ft=σ(Wifxt+bif+Whfht-1+bhf)
gt=tanh(Wigxt+big+Whght-1+bhg)
ot=σ(Wioxt+bio+Whoht-1+bho)
ct=ftct-1+itgt
ht=ottanh(ct)
其中it、ft、ot分别代表输入门、遗忘门、输出门,中间的各项参数代表的是做卷积操作需要的可训练参数,得到视频模态特征向量hv,维度是128。
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht,维度为128。
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,提取的特征为mfcc特征、Chroma特征、Zero Crossing Rate(过零率)等;再通过三层前馈神经网络,得到语音模态特征向量表示ha,维度为64。
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门,具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Figure BDA0002834387550000071
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数。
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Figure BDA0002834387550000072
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例。
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Figure BDA0002834387550000073
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例。
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示。
具体的,使用Softmax对各模态门进行归一化得到新的模态门
Figure BDA0002834387550000081
其中
Figure BDA0002834387550000082
代表在最终模态融合中不同模态所占的比例大小;然后使用tanh激活函数得到临时模态表示,文本最终模态表示为
Figure BDA0002834387550000083
语音最终模态表示为
Figure BDA0002834387550000084
视频最终模态表示为
Figure BDA0002834387550000085
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类;
具体的,通过对步骤3中得到的各模态最终表示进行加权求和得到:
Figure BDA0002834387550000086
然后通过softmax函数获得最终情感分类结果。

Claims (3)

1.一种基于门机制多模态融合的情感分析方法,其特征在于,包含以下步骤;
步骤1,获取多模态情感分析数据,根据不同模态的数据特点,提取出不同模态的特征表示,具体包括:
步骤1.1,通过采集一般电影、电视剧视频数据,对视频数据进行剪辑并进行人工情感标注,分离出其中对应单模态数据:通过字幕分离出文本模态数据,通过声音分离出语音模态数据,最后和视频模态数据一一对应,然后通过人工标注情感,得到多模态数据对应情感标签;或采集现有的带有情感标记的多模态数据集,包括视频模态数据、文本模态数据以及语音模态数据;
步骤1.2,根据采集得到的不同模态的数据的特点,提取不同模态的特征表示,具体为:
对于视频模态数据,首先使用开源工具ffmpeg将视频数据进行帧采样,设置采样率为30,得到采样帧集合IMG={img1,img2,...,imgn},imgi代表第i张图像帧;
然后通过MTCNN对采样帧集合的每一张图像进行人脸识别操作,MTCNN包含三个子网络P-Net、R-Net、O-Net,先获取大量候选目标框后选择出最符合的人脸目标区域,得到F={f1,f2,...,fn},其中F代表抽取的人脸图像集合,fi代表第i张人脸图像;再使用OpenFace对人脸图像进行人脸特征抽取,生成对应的特征向量,得到结果V={v1,v2,...,vn},V代表人脸特征集合,vi代表第i个特征向量;
最后通过ConvLSTM对人脸特征集合进行编码,获得最后隐层表示hv,代表视频模态特征向量;
对于文本模态数据,首先对输入文本进行字符级清洗,去除停用词,之后通过预训练的中文BERT模型得到文本的语义表示,对得到的语义表示进行padding操作,通过计算出文本平均的长度n,把超过n长度的文本进行截断,低于n长度的文本进行补全,得到词向量集合W={w1,w2,...,wn},wi代表第i个词向量,使用Bi-LSTM对padding后的词向量集合进行特征提取,得到文本模态特征向量ht
对于语音模态数据,使用开源工具ffmpeg从视频中抽取出来,再通过python库librosa进行特征提取,得到语音模态特征向量表示ha
步骤2,对获取的不同模态特征表示,获取其对应的模态信息门,具体包括:
步骤2.1,使用文本模态特征向量ht作为主要特征输入,视频模态特征向量hv、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与视频模态与语音模态进行信息交互,得到文本交互信息输出HT,然后使用sigmoid函数把HT映射到0到1之间,得到文本模态门Gt,文本模态门代表了文本模态表示需要保留的信息比例,Gt的大小代表文本模态信息对最后情感识别的比重高低,具体为:
Figure FDA0004061966400000021
Gt=sigmoid(HT)
其中HT代表文本模态门信息编码,Wta代表文本模态特征与语音模态特征交互参数,Wtv代表文本模态特征与视频模态特征交互参数;
步骤2.2,使用视频模态特征向量hv作为主要特征输入,文本模态特征向量ht、语音模态特征向量ha作为辅助特征输入,来构建文本模态门,通过与文本模态与语音模态进行信息交互,得到视频交互信息输出HV,然后使用sigmoid函数把HV映射到0到1之间,得到视频模态门Gv,具体为:
Figure FDA0004061966400000022
Gv=sigmoid(HV)
其中HV代表视频模态门信息编码,Wva代表视频模态特征与语音模态特征交互参数,Wvt代表视频模态特征与文本模态特征交互参数,Gv为视频模态门信息,范围在[0,1]之间,代表了视频模态表示需要保留的信息比例;
步骤2.3,使用语音模态特征向量ha作为主要特征输入,文本模态特征向量ht、视频模态特征向量hv作为辅助特征输入,来构建语音模态门,通过与文本模态与视频模态进行信息交互,得到语音交互信息输出HA,然后使用sigmoid函数把HA映射到0到1之间,得到语音模态门Ga,具体为:
Figure FDA0004061966400000031
Ga=sigmoid(HA)
其中HA代表语音模态门信息编码,Wav代表语音模态特征与视频模态特征交互参数,Wat代表语音模态特征与文本模态特征交互参数,Ga为语音模态门信息,范围在[0,1]之间,代表了语音模态表示需要保留的信息比例;
步骤3,使用不同模态信息门对各模态进行模态增强,丰富模态信息表示;
步骤4,通过不同模态表示得到多模态融合表示,使用多模态融合表示进行情感分类。
2.如权利要求1所述的一种基于门机制多模态融合的情感分析方法,其特征在于,所述步骤3具体包括:
使用Softmax分别对文本模态门Gt、视频模态门Gv和语音模态门Ga进行归一化得到新的模态门
Figure FDA0004061966400000032
其中
Figure FDA0004061966400000033
代表在最终模态融合中不同模态所占的比例大小;然后使用tanh激活函数得到临时模态表示,文本最终模态表示为
Figure FDA0004061966400000034
语音最终模态表示为
Figure FDA0004061966400000035
视频最终模态表示为
Figure FDA0004061966400000036
3.如权利要求2所述的一种基于门机制多模态融合的情感分析方法,其特征在于,所述步骤4具体包括:
通过对文本最终模态、语音最终模态和视频最终模态进行加权求和得到:
Figure FDA0004061966400000037
然后通过softmax函数获得最终情感分类结果。
CN202011468475.5A 2020-12-14 2020-12-14 一种基于门机制多模态融合的情感分析方法 Active CN112597841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011468475.5A CN112597841B (zh) 2020-12-14 2020-12-14 一种基于门机制多模态融合的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011468475.5A CN112597841B (zh) 2020-12-14 2020-12-14 一种基于门机制多模态融合的情感分析方法

Publications (2)

Publication Number Publication Date
CN112597841A CN112597841A (zh) 2021-04-02
CN112597841B true CN112597841B (zh) 2023-04-18

Family

ID=75195112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011468475.5A Active CN112597841B (zh) 2020-12-14 2020-12-14 一种基于门机制多模态融合的情感分析方法

Country Status (1)

Country Link
CN (1) CN112597841B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111954B (zh) * 2021-04-20 2022-10-11 网易(杭州)网络有限公司 一种用户类别判定方法、装置、存储介质及服务器
CN113947702B (zh) * 2021-09-15 2024-09-27 复旦大学 一种基于情境感知的多模态情感识别方法和系统
CN113837265B (zh) * 2021-09-22 2024-08-27 湖南工业大学 基于联合域分离表示分层图融合网络的多模态情感分析方法
CN113571097B (zh) * 2021-09-28 2022-01-18 之江实验室 一种说话人自适应的多视角对话情感识别方法及系统
CN114339450B (zh) * 2022-03-11 2022-07-15 中国科学技术大学 视频评论生成方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136938A1 (en) * 2016-02-10 2017-08-17 Tandemlaunch Inc. A quality adaptive multimodal affect recognition system for user-centric multimedia indexing
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102090171B1 (ko) * 2018-04-13 2020-03-17 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
WO2019204186A1 (en) * 2018-04-18 2019-10-24 Sony Interactive Entertainment Inc. Integrated understanding of user characteristics by multimodal processing
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN110188343B (zh) * 2019-04-22 2023-01-31 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN111128368B (zh) * 2019-10-31 2023-04-07 东南大学 基于视频表情行为分析的孤独症谱系障碍自动检测方法及装置
CN111026847B (zh) * 2019-12-09 2022-04-26 北京邮电大学 一种基于注意力网络和长短期记忆网络的文本情感识别方法
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136938A1 (en) * 2016-02-10 2017-08-17 Tandemlaunch Inc. A quality adaptive multimodal affect recognition system for user-centric multimedia indexing
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴良庆 ; 刘启元 ; 张栋 ; 王建成 ; 李寿山 ; 周国栋 ; .基于情感信息辅助的多模态情绪识别.北京大学学报(自然科学版).2020,第56卷(第1期),全文. *

Also Published As

Publication number Publication date
CN112597841A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN111523534B (zh) 一种图像描述的方法
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
Shashidhar et al. Combining audio and visual speech recognition using LSTM and deep convolutional neural network
CN115329779B (zh) 一种多人对话情感识别方法
Hao et al. A survey of research on lipreading technology
Stappen et al. Muse 2020 challenge and workshop: Multimodal sentiment analysis, emotion-target engagement and trustworthiness detection in real-life media: Emotional car reviews in-the-wild
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN112579762B (zh) 一种基于语义、情感惯性和情感共性的对话情感分析方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Alisamir et al. On the Evolution of Speech Representations for Affective Computing: A brief history and critical overview
CN114463688A (zh) 一种跨模态上下文编码的对话情感识别方法及系统
CN115858726A (zh) 基于互信息方法表示的多阶段多模态情感分析方法
CN115964638A (zh) 多模态社交数据情感分类方法、系统、终端、设备及应用
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
Pu et al. Review on research progress of machine lip reading
Huang et al. CALLip: Lipreading using contrastive and attribute learning
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
CN116860943A (zh) 对话风格感知与主题引导的多轮对话方法及系统
Choudhury et al. Review of Various Machine Learning and Deep Learning Techniques for Audio Visual Automatic Speech Recognition
Sajid et al. Multimodal emotion recognition using deep convolution and recurrent network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant