CN110188343B - 基于融合注意力网络的多模态情感识别方法 - Google Patents

基于融合注意力网络的多模态情感识别方法 Download PDF

Info

Publication number
CN110188343B
CN110188343B CN201910324053.1A CN201910324053A CN110188343B CN 110188343 B CN110188343 B CN 110188343B CN 201910324053 A CN201910324053 A CN 201910324053A CN 110188343 B CN110188343 B CN 110188343B
Authority
CN
China
Prior art keywords
network
state information
audio
mode
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910324053.1A
Other languages
English (en)
Other versions
CN110188343A (zh
Inventor
宦若虹
鲍晟霖
葛罗棋
谢超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910324053.1A priority Critical patent/CN110188343B/zh
Publication of CN110188343A publication Critical patent/CN110188343A/zh
Application granted granted Critical
Publication of CN110188343B publication Critical patent/CN110188343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

一种基于融合注意力网络的多模态情感识别方法,提取文本、视觉和音频三个模态的高维特征并按字级对齐和归一化处理,然后输入至双向门控循环单元网络进行训练,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息计算多模态间状态信息的相关度,再计算多个模态每一时刻的注意力分布,即每一时刻状态信息的权重参数,将三个模态子网络的状态信息和对应的权重参数加权平均得到融合特征向量作为全连接网络的输入,将待识别的文本、视觉和音频输入训练后各个模态的双向门控循环单元网络,得到最终的情感强度输出。本发明能克服多模态融合时各模态的权重一致性问题,提高多模态融合下的情感识别准确率。

Description

基于融合注意力网络的多模态情感识别方法
技术领域
本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域,尤其涉及一种多模态情感识别方法。
背景技术
情感识别是自然语言处理领域的一个研究热点,情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。多模态情感识别研究已经在多种任务中取得了巨大进步,成为人工智能的新兴研究领域。利用人类的面部表情、语音语调和身体姿态等信息来识别人类的情感是一个有趣而富有挑战性的问题。在涉及到视频的多模态情感识别研究中,常常将文本、视觉和音频作为主要的多模态信息,多模态融合的目的是将多种模态信息结合起来,利用异构数据的互补性,提供更鲁棒的预测,提高识别的正确率和可靠性。多模态融合的一个重要挑战是如何将融合扩展到多种模态,同时保持合理的模型复杂性。
多模态融合通常是在特征层进行的,将多个高维特征通过运算使之成为一个融合特征,之后将其输入到模型中进行训练。在线性特征融合中,从每一时刻三个模态得到的状态信息特征中提取融合特征向量,不同时刻的融合特征向量相互独立而不再是序列数据,然后输入到线性融合模型中进行学习。典型的线性融合方法包括最后一个时间步长的编码状态信息线性融合、最大状态信息线性融合和平均状态信息线性融合。上述三种线性提取融合特征向量方式的不合理之处在于多模态融合时各模态的权重一致性问题,即从状态信息输出中挑选特殊的状态信息作为编码状态信息,只考虑到任何一个状态信息本身都会对最终的情感强度输出产生一定的影响,没有考虑到每一个状态信息产生的重要程度并不相同。
发明内容
为了克服多模态融合时各模态的权重一致性问题,本发明提出基于融合注意力网络的多模态情感识别方法,该方法能实时地计算多个模态每一时刻的注意力分布,作为对应状态信息的权重参数,使网络模型可以实时地学习多模态上下文信息,提高多模态融合下的情感识别的准确率。
本发明解决其技术问题所采用的技术方案是:
一种基于融合注意力网络的多模态情感识别方法,所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练;
步骤4,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息
Figure BDA0002035710310000031
Figure BDA0002035710310000032
其中,
Figure BDA0002035710310000033
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA0002035710310000034
和后向状态输出
Figure BDA00020357103100000321
Figure BDA0002035710310000035
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA0002035710310000036
和后向状态输出
Figure BDA00020357103100000320
Figure BDA0002035710310000037
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA0002035710310000038
和后向状态输出
Figure BDA0002035710310000039
步骤5,计算多模态间状态信息的相关度si,如式(1)所示:
Figure BDA00020357103100000310
其中
Figure BDA00020357103100000311
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与
Figure BDA00020357103100000312
相关的权重参数,
Figure BDA00020357103100000313
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与
Figure BDA00020357103100000314
相关的权重参数,
Figure BDA00020357103100000315
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与
Figure BDA00020357103100000316
相关的权重参数,b1是与
Figure BDA00020357103100000317
Figure BDA00020357103100000318
相关的偏差,tanh是激活函数,V是多模态融合的权重参数,b2是多模态融合的偏差;
步骤6,根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,权重参数αi计算如式(2)所示:
Figure BDA00020357103100000319
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数;
步骤7,三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
Figure BDA0002035710310000041
其中,Tl为意见发言视频中的单词数,
Figure BDA0002035710310000042
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure BDA0002035710310000043
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure BDA0002035710310000044
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
进一步,所述步骤1的过程为:提取文本特征为
Figure BDA0002035710310000045
其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为
Figure BDA0002035710310000046
其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure BDA0002035710310000047
使用COVAREP声学分析框架提取COVAREP音频特征为
Figure BDA0002035710310000048
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure BDA0002035710310000049
更进一步,所述步骤2的过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
本发明的有益效果主要表现在:使用注意力机制来处理多模态每一时刻上下文状态的变化,克服多模态融合时各模态的权重一致性问题,实时地计算多个模态下每一时刻的注意力分布,使网络模型可以实时地学习多模态上下文信息,从而提高多模态融合下的情感识别的准确率。
附图说明
图1为本发明的一种基于融合注意力网络的多模态情感识别方法流程图。
图2为文本特征输入双向门控循环单元网络的网络结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参照图1和图2,一种基于融合注意力网络的多模态情感识别方法,包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征,过程为:
提取文本特征为
Figure BDA0002035710310000061
其中Tl是意见发言视频中的单词数,本实施例中,Tl=20,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为
Figure BDA0002035710310000062
其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure BDA0002035710310000063
本实施例中,p=46;使用COVAREP声学分析框架提取COVAREP音频特征为
Figure BDA0002035710310000064
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure BDA0002035710310000065
本实施例中,q=74。
步骤2,对三个模态高维特征字级对齐并归一化处理,过程为:
文本模态提取的Glove特征的维度是(20,300),视频模态提取的FACET特征的维度是(Tv,46),音频模态提取的COVAREP特征的维度是(Ta,74),其中,20是意见发言视频中的单词数,Tv是视频的总帧数,46为视觉特征个数,Ta是音频的分段帧数,74为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20,即文本高维特征维度为(20,300),视觉高维特征维度为(20,46),音频高维特征的维度是(20,74);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
步骤3,双向门控循环单元网络(Bi-GRU)学习,过程为:
将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入,以文本模态网络为例,文本特征
Figure BDA0002035710310000071
输入到双向门控循环单元网络中,lt表示300维Glove单词嵌入向量特征,定义
Figure BDA0002035710310000072
为双向门控循环单元网络前向计算时的计算公式,
Figure BDA0002035710310000073
为双向门控循环单元网络后向计算时的计算公式,可得文本模态网络的计算公式如下所示:
Figure BDA0002035710310000074
其中
Figure BDA0002035710310000075
Figure BDA0002035710310000076
分别作为双向门控循环单元网络在t时刻的前向状态输出和后向状态输出,
Figure BDA0002035710310000077
为t-1时刻的前向状态输出,
Figure BDA0002035710310000078
为t+1时刻的后向状态输出,网络结构图如附图2所示。
步骤4,提取单模态子网络输出的状态信息
提取三个单模态子网络中的双向门控循环单元网络输出的状态信息
Figure BDA0002035710310000079
Figure BDA00020357103100000710
其中,
Figure BDA00020357103100000711
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA00020357103100000712
和后向状态输出
Figure BDA00020357103100000715
Figure BDA00020357103100000713
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA00020357103100000714
和后向状态输出
Figure BDA00020357103100000815
Figure BDA0002035710310000081
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure BDA0002035710310000082
和后向状态输出
Figure BDA0002035710310000083
步骤5,计算多模态间状态信息的相关度
计算多模态间状态信息的相关度si,如式(1)所示:
Figure BDA0002035710310000084
其中
Figure BDA0002035710310000085
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与
Figure BDA0002035710310000086
相关的权重参数,本实施例中,Wt维度为512*1,
Figure BDA0002035710310000087
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与
Figure BDA0002035710310000088
相关的权重参数,本实施例中,Wv维度为32*1,
Figure BDA0002035710310000089
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与
Figure BDA00020357103100000810
相关的权重参数,本实施例中,Wa维度为32*1,b1是与
Figure BDA00020357103100000811
Figure BDA00020357103100000812
Figure BDA00020357103100000813
相关的偏差,本实施例中,b1维度为20*1且每个元素均0,tanh是激活函数,V是多模态融合的权重参数,本实施例中,V的维度是16*20,b2是多模态融合的偏差,本实施例中,b2的维度是16*20且每个元素均为0;
步骤6,计算多个模态每一时刻的注意力分布
根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,具体的权重参数αi计算如式(2)所示:
Figure BDA00020357103100000814
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数,本实施例中,Tl=20;
步骤7,计算融合特征向量
三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
Figure BDA0002035710310000091
其中,Tl为意见发言视频中的单词数,本实施例中,Tl=20,
Figure BDA0002035710310000092
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure BDA0002035710310000093
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure BDA0002035710310000094
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
表1是在CMU-MOSI数据集下基于融合注意力网络的多模态情感识别结果,包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1指标来衡量识别性能,七元情感分类采用准确率来衡量识别性能,情感强度回归采用平均绝对差值MAE和皮尔逊积矩相关系数γ来衡量识别性能。
Figure BDA0002035710310000095
表1
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims (3)

1.一种基于融合注意力网络的多模态情感识别方法,其特征在于:所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练;
步骤4,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息
Figure FDA0002035710300000011
Figure FDA0002035710300000012
其中,
Figure FDA0002035710300000013
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure FDA0002035710300000014
和后向状态输出
Figure FDA0002035710300000015
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure FDA0002035710300000016
和后向状态输出
Figure FDA0002035710300000017
Figure FDA0002035710300000018
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
Figure FDA0002035710300000019
和后向状态输出
Figure FDA00020357103000000110
步骤5,计算多模态间状态信息的相关度si,如式(1)所示:
Figure FDA00020357103000000111
其中
Figure FDA00020357103000000112
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与
Figure FDA00020357103000000113
相关的权重参数,
Figure FDA00020357103000000114
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与
Figure FDA00020357103000000115
相关的权重参数,
Figure FDA0002035710300000021
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与
Figure FDA0002035710300000022
相关的权重参数,b1是与
Figure FDA0002035710300000023
Figure FDA0002035710300000024
相关的偏差,tanh是激活函数,V是多模态融合的权重参数,b2是多模态融合的偏差;
步骤6,根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,权重参数αi计算如式(2)所示:
Figure FDA0002035710300000025
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数;
步骤7,三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
Figure FDA0002035710300000026
其中,Tl为意见发言视频中的单词数,
Figure FDA0002035710300000027
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure FDA0002035710300000028
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
Figure FDA0002035710300000029
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
2.如权利要求1所述的基于融合注意力网络的多模态情感识别方法,其特征在于:所述步骤1的过程为:提取文本特征为
Figure FDA0002035710300000031
其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为
Figure FDA0002035710300000032
其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为
Figure FDA0002035710300000033
使用COVAREP声学分析框架提取COVAREP音频特征为
Figure FDA0002035710300000034
其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
Figure FDA0002035710300000035
3.如权利要求1或2所述的基于融合注意力网络的多模态情感识别方法,其特征在于:所述步骤2的过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
CN201910324053.1A 2019-04-22 2019-04-22 基于融合注意力网络的多模态情感识别方法 Active CN110188343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910324053.1A CN110188343B (zh) 2019-04-22 2019-04-22 基于融合注意力网络的多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910324053.1A CN110188343B (zh) 2019-04-22 2019-04-22 基于融合注意力网络的多模态情感识别方法

Publications (2)

Publication Number Publication Date
CN110188343A CN110188343A (zh) 2019-08-30
CN110188343B true CN110188343B (zh) 2023-01-31

Family

ID=67714859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910324053.1A Active CN110188343B (zh) 2019-04-22 2019-04-22 基于融合注意力网络的多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN110188343B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091044B (zh) * 2019-10-25 2022-04-01 武汉大学 一种面向网约车的车内危险场景识别方法
CN111164601B (zh) * 2019-12-30 2023-07-18 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN111259188B (zh) * 2020-01-19 2023-07-25 成都潜在人工智能科技有限公司 一种基于seq2seq网络的歌词对齐方法及系统
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111276131B (zh) * 2020-01-22 2021-01-12 厦门大学 一种基于深度神经网络的多类声学特征整合方法和系统
CN111246256B (zh) * 2020-02-21 2021-05-25 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN111680541B (zh) * 2020-04-14 2022-06-21 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111553295B (zh) * 2020-05-01 2023-05-09 北京邮电大学 基于自注意力机制的多模态情感识别方法
CN111898670B (zh) * 2020-07-24 2024-04-05 深圳市声希科技有限公司 多模态情感识别方法、装置、设备及存储介质
CN113269277B (zh) * 2020-07-27 2023-07-25 西北工业大学 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN113177147B (zh) * 2020-08-13 2022-05-17 阿里巴巴集团控股有限公司 对象、机器模型处理方法、装置、设备和存储介质
CN111832581B (zh) * 2020-09-21 2021-01-29 平安科技(深圳)有限公司 肺部特征识别方法、装置、计算机设备及存储介质
CN111931795B (zh) * 2020-09-25 2020-12-25 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN112418172A (zh) * 2020-12-11 2021-02-26 苏州元启创人工智能科技有限公司 基于多模信息智能处理单元的多模信息融合情感分析方法
CN112597841B (zh) * 2020-12-14 2023-04-18 之江实验室 一种基于门机制多模态融合的情感分析方法
CN113158727A (zh) * 2020-12-31 2021-07-23 长春理工大学 一种基于视频和语音信息的双模态融合情绪识别方法
CN112331337B (zh) 2021-01-04 2021-04-16 中国科学院自动化研究所 自动抑郁检测方法、装置、设备
CN112784798B (zh) * 2021-02-01 2022-11-08 东南大学 一种基于特征-时间注意力机制的多模态情感识别方法
CN112560830B (zh) 2021-02-26 2021-05-25 中国科学院自动化研究所 多模态维度情感识别方法
CN113420807A (zh) * 2021-06-22 2021-09-21 哈尔滨理工大学 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN113643723B (zh) * 2021-06-29 2023-07-25 重庆邮电大学 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN113270086B (zh) 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
CN113688938B (zh) * 2021-09-07 2023-07-28 北京百度网讯科技有限公司 确定对象情感的方法、训练情感分类模型的方法及装置
CN115034227B (zh) * 2022-06-28 2024-04-19 西安交通大学 一种基于多模态互注意融合的渐进式多任务情感分析方法
CN115239937B (zh) * 2022-09-23 2022-12-20 西南交通大学 一种跨模态情感预测方法
CN115544279B (zh) * 2022-10-11 2024-01-26 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN116563751B (zh) * 2023-04-19 2024-02-06 湖北工业大学 一种基于注意力机制的多模态情感分析方法及系统
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及系统
CN117150320B (zh) * 2023-10-31 2024-03-08 中国传媒大学 对话数字人情感风格相似度评价方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN109147826A (zh) * 2018-08-22 2019-01-04 平安科技(深圳)有限公司 音乐情感识别方法、装置、计算机设备及计算机存储介质
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN109147826A (zh) * 2018-08-22 2019-01-04 平安科技(深圳)有限公司 音乐情感识别方法、装置、计算机设备及计算机存储介质
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义分析的情感计算技术研究进展;饶元 等;《软件学报》;20180314;第29卷(第8期);第2397-2426页 *

Also Published As

Publication number Publication date
CN110188343A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108805087B (zh) 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108805089B (zh) 基于多模态的情绪识别方法
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108805088B (zh) 基于多模态情绪识别系统的生理信号分析子系统
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN111275085A (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN110147548B (zh) 基于双向门控循环单元网络和新型网络初始化的情感识别方法
CN111292765B (zh) 一种融合多个深度学习模型的双模态情感识别方法
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113592251B (zh) 一种多模态融合的教态分析系统
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
CN116701996A (zh) 基于多元损失函数的多模态情感分析方法、系统、设备及介质
CN116775873A (zh) 一种多模态对话情感识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
Du et al. Multimodal emotion recognition based on feature fusion and residual connection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant