CN110188343A - 基于融合注意力网络的多模态情感识别方法 - Google Patents
基于融合注意力网络的多模态情感识别方法 Download PDFInfo
- Publication number
- CN110188343A CN110188343A CN201910324053.1A CN201910324053A CN110188343A CN 110188343 A CN110188343 A CN 110188343A CN 201910324053 A CN201910324053 A CN 201910324053A CN 110188343 A CN110188343 A CN 110188343A
- Authority
- CN
- China
- Prior art keywords
- network
- mode
- feature
- audio
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于融合注意力网络的多模态情感识别方法,提取文本、视觉和音频三个模态的高维特征并按字级对齐和归一化处理,然后输入至双向门控循环单元网络进行训练,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息计算多模态间状态信息的相关度,再计算多个模态每一时刻的注意力分布,即每一时刻状态信息的权重参数,将三个模态子网络的状态信息和对应的权重参数加权平均得到融合特征向量作为全连接网络的输入,将待识别的文本、视觉和音频输入训练后各个模态的双向门控循环单元网络,得到最终的情感强度输出。本发明能克服多模态融合时各模态的权重一致性问题,提高多模态融合下的情感识别准确率。
Description
技术领域
本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域,尤其涉及一种多模态情感识别方法。
背景技术
情感识别是自然语言处理领域的一个研究热点,情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。多模态情感识别研究已经在多种任务中取得了巨大进步,成为人工智能的新兴研究领域。利用人类的面部表情、语音语调和身体姿态等信息来识别人类的情感是一个有趣而富有挑战性的问题。在涉及到视频的多模态情感识别研究中,常常将文本、视觉和音频作为主要的多模态信息,多模态融合的目的是将多种模态信息结合起来,利用异构数据的互补性,提供更鲁棒的预测,提高识别的正确率和可靠性。多模态融合的一个重要挑战是如何将融合扩展到多种模态,同时保持合理的模型复杂性。
多模态融合通常是在特征层进行的,将多个高维特征通过运算使之成为一个融合特征,之后将其输入到模型中进行训练。在线性特征融合中,从每一时刻三个模态得到的状态信息特征中提取融合特征向量,不同时刻的融合特征向量相互独立而不再是序列数据,然后输入到线性融合模型中进行学习。典型的线性融合方法包括最后一个时间步长的编码状态信息线性融合、最大状态信息线性融合和平均状态信息线性融合。上述三种线性提取融合特征向量方式的不合理之处在于多模态融合时各模态的权重一致性问题,即从状态信息输出中挑选特殊的状态信息作为编码状态信息,只考虑到任何一个状态信息本身都会对最终的情感强度输出产生一定的影响,没有考虑到每一个状态信息产生的重要程度并不相同。
发明内容
为了克服多模态融合时各模态的权重一致性问题,本发明提出基于融合注意力网络的多模态情感识别方法,该方法能实时地计算多个模态每一时刻的注意力分布,作为对应状态信息的权重参数,使网络模型可以实时地学习多模态上下文信息,提高多模态融合下的情感识别的准确率。
本发明解决其技术问题所采用的技术方案是:
一种基于融合注意力网络的多模态情感识别方法,所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练;
步骤4,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出 是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出 是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出
步骤5,计算多模态间状态信息的相关度si,如式(1)所示:
其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与相关的权重参数,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与相关的权重参数,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与相关的权重参数,b1是与和相关的偏差,tanh是激活函数,V是多模态融合的权重参数,b2是多模态融合的偏差;
步骤6,根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,权重参数αi计算如式(2)所示:
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数;
步骤7,三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
其中,Tl为意见发言视频中的单词数,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
进一步,所述步骤1的过程为:提取文本特征为其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为使用COVAREP声学分析框架提取COVAREP音频特征为其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
更进一步,所述步骤2的过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
本发明的有益效果主要表现在:使用注意力机制来处理多模态每一时刻上下文状态的变化,克服多模态融合时各模态的权重一致性问题,实时地计算多个模态下每一时刻的注意力分布,使网络模型可以实时地学习多模态上下文信息,从而提高多模态融合下的情感识别的准确率。
附图说明
图1为本发明的一种基于融合注意力网络的多模态情感识别方法流程图。
图2为文本特征输入双向门控循环单元网络的网络结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参照图1和图2,一种基于融合注意力网络的多模态情感识别方法,包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征,过程为:
提取文本特征为其中Tl是意见发言视频中的单词数,本实施例中,Tl=20,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为本实施例中,p=46;使用COVAREP声学分析框架提取COVAREP音频特征为其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为本实施例中,q=74。
步骤2,对三个模态高维特征字级对齐并归一化处理,过程为:
文本模态提取的Glove特征的维度是(20,300),视频模态提取的FACET特征的维度是(Tv,46),音频模态提取的COVAREP特征的维度是(Ta,74),其中,20是意见发言视频中的单词数,Tv是视频的总帧数,46为视觉特征个数,Ta是音频的分段帧数,74为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20,即文本高维特征维度为(20,300),视觉高维特征维度为(20,46),音频高维特征的维度是(20,74);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
步骤3,双向门控循环单元网络(Bi-GRU)学习,过程为:
将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入,以文本模态网络为例,文本特征输入到双向门控循环单元网络中,lt表示300维Glove单词嵌入向量特征,定义为双向门控循环单元网络前向计算时的计算公式,为双向门控循环单元网络后向计算时的计算公式,可得文本模态网络的计算公式如下所示:
其中和分别作为双向门控循环单元网络在t时刻的前向状态输出和后向状态输出,为t-1时刻的前向状态输出,为t+1时刻的后向状态输出,网络结构图如附图2所示。
步骤4,提取单模态子网络输出的状态信息
提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出 是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出 是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出
步骤5,计算多模态间状态信息的相关度
计算多模态间状态信息的相关度si,如式(1)所示:
其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与相关的权重参数,本实施例中,Wt维度为512*1,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与相关的权重参数,本实施例中,Wv维度为32*1,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与相关的权重参数,本实施例中,Wa维度为32*1,b1是与 和相关的偏差,本实施例中,b1维度为20*1且每个元素均0,tanh是激活函数,V是多模态融合的权重参数,本实施例中,V的维度是16*20,b2是多模态融合的偏差,本实施例中,b2的维度是16*20且每个元素均为0;
步骤6,计算多个模态每一时刻的注意力分布
根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,具体的权重参数αi计算如式(2)所示:
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数,本实施例中,Tl=20;
步骤7,计算融合特征向量
三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
其中,Tl为意见发言视频中的单词数,本实施例中,Tl=20,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
表1是在CMU-MOSI数据集下基于融合注意力网络的多模态情感识别结果,包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1指标来衡量识别性能,七元情感分类采用准确率来衡量识别性能,情感强度回归采用平均绝对差值MAE和皮尔逊积矩相关系数γ来衡量识别性能。
表1
显而易见,在不偏离本发明的真实精神和范围的前提下,在此描述的本发明可以有许多变化。因此,所有对于本领域技术人员来说显而易见的改变,都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。
Claims (3)
1.一种基于融合注意力网络的多模态情感识别方法,其特征在于:所述方法包括以下步骤:
步骤1,提取文本、视觉和音频三个模态的高维特征;
步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;
步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练;
步骤4,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出 是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出和后向状态输出
步骤5,计算多模态间状态信息的相关度si,如式(1)所示:
其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与相关的权重参数,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与相关的权重参数,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与相关的权重参数,b1是与和相关的偏差,tanh是激活函数,V是多模态融合的权重参数,b2是多模态融合的偏差;
步骤6,根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,权重参数αi计算如式(2)所示:
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数;
步骤7,三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
其中,Tl为意见发言视频中的单词数,是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;
步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
2.如权利要求1所述的基于融合注意力网络的多模态情感识别方法,其特征在于:所述步骤1的过程为:提取文本特征为其中Tl是意见发言视频中的单词数,lt表示300维Glove单词嵌入向量特征;使用FACET面部表情分析框架提取FACET视觉特征为其中,Tv是视频的总帧数,在第j帧提取的p个视觉特征为使用COVAREP声学分析框架提取COVAREP音频特征为其中,Ta是音频的分段帧数,在第j帧提取的q个声学特征为
3.如权利要求1或2所述的基于融合注意力网络的多模态情感识别方法,其特征在于:所述步骤2的过程为:文本模态提取的Glove特征的维度是(Tl,300),视频模态提取的FACET特征的维度是(Tv,p),音频模态提取的COVAREP特征的维度是(Ta,q),其中,Tl是意见发言视频中的单词数,Tv是视频的总帧数,p为视觉特征个数,Ta是音频的分段帧数,q为声学特征个数,将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段Tl个单词进行对齐,记录第i个单词发言的开始时间和结束时间,分别从视觉和音频模态中提取该段时间中所有帧的高维特征,根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征;此时文本、视觉和音频三个模态的高维特征已对齐,定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数Tl,即文本高维特征维度为(Tl,300),视觉高维特征维度为(Tl,p),音频高维特征的维度是(Tl,q);对文本、视觉和音频三个模态的高维特征进行归一化处理,归一化处理为分别找到三个模态高维特征的最大值,三个模态的高维特征分别除以该模态下特征的最大值,将特征数据映射到0到1范围之内的小数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324053.1A CN110188343B (zh) | 2019-04-22 | 2019-04-22 | 基于融合注意力网络的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324053.1A CN110188343B (zh) | 2019-04-22 | 2019-04-22 | 基于融合注意力网络的多模态情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188343A true CN110188343A (zh) | 2019-08-30 |
CN110188343B CN110188343B (zh) | 2023-01-31 |
Family
ID=67714859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910324053.1A Active CN110188343B (zh) | 2019-04-22 | 2019-04-22 | 基于融合注意力网络的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188343B (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091044A (zh) * | 2019-10-25 | 2020-05-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN111274372A (zh) * | 2020-01-15 | 2020-06-12 | 上海浦东发展银行股份有限公司 | 用于人机交互的方法、电子设备和计算机可读存储介质 |
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111832581A (zh) * | 2020-09-21 | 2020-10-27 | 平安科技(深圳)有限公司 | 肺部特征识别方法、装置、计算机设备及存储介质 |
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN112331337A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112597841A (zh) * | 2020-12-14 | 2021-04-02 | 之江实验室 | 一种基于门机制多模态融合的情感分析方法 |
CN112784798A (zh) * | 2021-02-01 | 2021-05-11 | 东南大学 | 一种基于特征-时间注意力机制的多模态情感识别方法 |
CN113158727A (zh) * | 2020-12-31 | 2021-07-23 | 长春理工大学 | 一种基于视频和语音信息的双模态融合情绪识别方法 |
CN113177147A (zh) * | 2020-08-13 | 2021-07-27 | 阿里巴巴集团控股有限公司 | 对象、机器模型处理方法、装置、设备和存储介质 |
CN113269277A (zh) * | 2020-07-27 | 2021-08-17 | 西北工业大学 | 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN113688938A (zh) * | 2021-09-07 | 2021-11-23 | 北京百度网讯科技有限公司 | 确定对象情感的方法、训练情感分类模型的方法及装置 |
CN113849646A (zh) * | 2021-09-28 | 2021-12-28 | 西安邮电大学 | 一种文本情感分析方法 |
US11281945B1 (en) | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN115034227A (zh) * | 2022-06-28 | 2022-09-09 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN116563751A (zh) * | 2023-04-19 | 2023-08-08 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
CN116994069A (zh) * | 2023-09-22 | 2023-11-03 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN117150320A (zh) * | 2023-10-31 | 2023-12-01 | 中国传媒大学 | 对话数字人情感风格相似度评价方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
-
2019
- 2019-04-22 CN CN201910324053.1A patent/CN110188343B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109508375A (zh) * | 2018-11-19 | 2019-03-22 | 重庆邮电大学 | 一种基于多模态融合的社交情感分类方法 |
Non-Patent Citations (1)
Title |
---|
饶元 等: "基于语义分析的情感计算技术研究进展", 《软件学报》 * |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091044A (zh) * | 2019-10-25 | 2020-05-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
CN111091044B (zh) * | 2019-10-25 | 2022-04-01 | 武汉大学 | 一种面向网约车的车内危险场景识别方法 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111274372A (zh) * | 2020-01-15 | 2020-06-12 | 上海浦东发展银行股份有限公司 | 用于人机交互的方法、电子设备和计算机可读存储介质 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111274440A (zh) * | 2020-01-19 | 2020-06-12 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111259188A (zh) * | 2020-01-19 | 2020-06-09 | 成都嗨翻屋科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN111274440B (zh) * | 2020-01-19 | 2022-03-25 | 浙江工商大学 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
CN111259188B (zh) * | 2020-01-19 | 2023-07-25 | 成都潜在人工智能科技有限公司 | 一种基于seq2seq网络的歌词对齐方法及系统 |
CN111276131A (zh) * | 2020-01-22 | 2020-06-12 | 厦门大学 | 一种基于深度神经网络的多类声学特征整合方法和系统 |
CN111246256A (zh) * | 2020-02-21 | 2020-06-05 | 华南理工大学 | 基于多模态视频内容和多任务学习的视频推荐方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111680541B (zh) * | 2020-04-14 | 2022-06-21 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN111553295B (zh) * | 2020-05-01 | 2023-05-09 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN111898670B (zh) * | 2020-07-24 | 2024-04-05 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN113269277B (zh) * | 2020-07-27 | 2023-07-25 | 西北工业大学 | 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 |
CN113269277A (zh) * | 2020-07-27 | 2021-08-17 | 西北工业大学 | 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 |
CN113177147A (zh) * | 2020-08-13 | 2021-07-27 | 阿里巴巴集团控股有限公司 | 对象、机器模型处理方法、装置、设备和存储介质 |
CN111832581A (zh) * | 2020-09-21 | 2020-10-27 | 平安科技(深圳)有限公司 | 肺部特征识别方法、装置、计算机设备及存储介质 |
CN111832581B (zh) * | 2020-09-21 | 2021-01-29 | 平安科技(深圳)有限公司 | 肺部特征识别方法、装置、计算机设备及存储介质 |
CN111931795A (zh) * | 2020-09-25 | 2020-11-13 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN111931795B (zh) * | 2020-09-25 | 2020-12-25 | 湖南大学 | 基于子空间稀疏特征融合的多模态情感识别方法及系统 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112597841A (zh) * | 2020-12-14 | 2021-04-02 | 之江实验室 | 一种基于门机制多模态融合的情感分析方法 |
CN113158727A (zh) * | 2020-12-31 | 2021-07-23 | 长春理工大学 | 一种基于视频和语音信息的双模态融合情绪识别方法 |
US11266338B1 (en) | 2021-01-04 | 2022-03-08 | Institute Of Automation, Chinese Academy Of Sciences | Automatic depression detection method and device, and equipment |
CN112331337A (zh) * | 2021-01-04 | 2021-02-05 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
CN112331337B (zh) * | 2021-01-04 | 2021-04-16 | 中国科学院自动化研究所 | 自动抑郁检测方法、装置、设备 |
CN112784798B (zh) * | 2021-02-01 | 2022-11-08 | 东南大学 | 一种基于特征-时间注意力机制的多模态情感识别方法 |
CN112784798A (zh) * | 2021-02-01 | 2021-05-11 | 东南大学 | 一种基于特征-时间注意力机制的多模态情感识别方法 |
US11281945B1 (en) | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN113643723B (zh) * | 2021-06-29 | 2023-07-25 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN113270086A (zh) * | 2021-07-19 | 2021-08-17 | 中国科学院自动化研究所 | 一种融合多模态语义不变性的语音识别文本增强系统 |
US11488586B1 (en) | 2021-07-19 | 2022-11-01 | Institute Of Automation, Chinese Academy Of Sciences | System for speech recognition text enhancement fusing multi-modal semantic invariance |
CN113688938B (zh) * | 2021-09-07 | 2023-07-28 | 北京百度网讯科技有限公司 | 确定对象情感的方法、训练情感分类模型的方法及装置 |
CN113688938A (zh) * | 2021-09-07 | 2021-11-23 | 北京百度网讯科技有限公司 | 确定对象情感的方法、训练情感分类模型的方法及装置 |
CN113849646A (zh) * | 2021-09-28 | 2021-12-28 | 西安邮电大学 | 一种文本情感分析方法 |
CN115034227A (zh) * | 2022-06-28 | 2022-09-09 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN115034227B (zh) * | 2022-06-28 | 2024-04-19 | 西安交通大学 | 一种基于多模态互注意融合的渐进式多任务情感分析方法 |
CN115239937B (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115544279A (zh) * | 2022-10-11 | 2022-12-30 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN115544279B (zh) * | 2022-10-11 | 2024-01-26 | 合肥工业大学 | 一种基于协同注意力的多模态情感分类方法及其应用 |
CN116563751A (zh) * | 2023-04-19 | 2023-08-08 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
CN116563751B (zh) * | 2023-04-19 | 2024-02-06 | 湖北工业大学 | 一种基于注意力机制的多模态情感分析方法及系统 |
CN116994069A (zh) * | 2023-09-22 | 2023-11-03 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN116994069B (zh) * | 2023-09-22 | 2023-12-22 | 武汉纺织大学 | 一种基于多模态信息的图像解析方法及系统 |
CN117150320A (zh) * | 2023-10-31 | 2023-12-01 | 中国传媒大学 | 对话数字人情感风格相似度评价方法及系统 |
CN117150320B (zh) * | 2023-10-31 | 2024-03-08 | 中国传媒大学 | 对话数字人情感风格相似度评价方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110188343B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188343A (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN109508669B (zh) | 一种基于生成式对抗网络的人脸表情识别方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN107679526B (zh) | 一种人脸微表情识别方法 | |
Dong et al. | Automatic age estimation based on deep learning algorithm | |
CN110147548B (zh) | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN111292765B (zh) | 一种融合多个深度学习模型的双模态情感识别方法 | |
CN112699774A (zh) | 视频中人物的情绪识别方法及装置、计算机设备及介质 | |
CN110459225A (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN113312483A (zh) | 一种基于自注意力机制和BiGRU的文本分类方法 | |
CN111028319A (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
Cangea et al. | Xflow: Cross-modal deep neural networks for audiovisual classification | |
CN111242155A (zh) | 一种基于多模深度学习的双模态情感识别方法 | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
CN110610138A (zh) | 一种基于卷积神经网络的面部情感分析方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN109284378A (zh) | 一种面向知识图谱的关系分类方法 | |
CN113239690A (zh) | 基于Bert与全连接神经网络融合的中文文本意图识别方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN111723649B (zh) | 一种基于语义分解的短视频事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |