CN113269277A - 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 - Google Patents

基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 Download PDF

Info

Publication number
CN113269277A
CN113269277A CN202110759965.9A CN202110759965A CN113269277A CN 113269277 A CN113269277 A CN 113269277A CN 202110759965 A CN202110759965 A CN 202110759965A CN 113269277 A CN113269277 A CN 113269277A
Authority
CN
China
Prior art keywords
different modes
modal
time sequence
mode
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110759965.9A
Other languages
English (en)
Other versions
CN113269277B (zh
Inventor
陈海丰
蒋冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Publication of CN113269277A publication Critical patent/CN113269277A/zh
Application granted granted Critical
Publication of CN113269277B publication Critical patent/CN113269277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明采用时序深度卷积神经网络(TCN)、自注意力Transformer编码器(Transformer Encoder)以及多模态多头注意力机制(Multi‑modal Multi‑head Attention),涉及一种从多模态(听觉、视觉)时序信息中对连续维度情感进行估计的模型和识别方法。该方法对不同模态输入的特征,得到不同模态的嵌入特征表达;而后将不同模态的嵌入特征表达作为输入,利用多模态Transformer编码器得到不同模态的高级表征;最后将不同模态的高级特征表达作为输入,计算出每一时刻的情感状态值。本发明更加关注时序上过去某些关键时刻对当前情绪状态的影响,排除长远情感信息带来的干扰,使得模型鲁棒性提高。同时,该发明通过在模型中同时修正时序上下文依赖关系和多模态交互融合关系的方法,明显的提高了连续维度情感估计的准确度。

Description

基于Transformer编码器和多头多模态注意力的连续维度情 感识别方法
技术领域
本发明采用时序深度卷积神经网络(TCN)、自注意力Transformer编码器(Transformer Encoder)以及多模态多头注意力机制(Multi-modal Multi-headAttention),涉及一种从多模态(听觉、视觉)时序信息中对连续维度情感进行估计的模型和识别方法。
背景技术
自动情感识别领域近年来越来越受到人们的关注,如在人机交互领域中,机器可以自动识别被观测者的情绪,并做出相应的反应。目前情感识别领域主要分为两类,一种是离散的情感识别,即将人的情感分类为高兴,悲伤,生气等等几种常见状态;另外一种是连续的情感识别,它将人的情感状态用两个维度进行表示,其中Arousal表示兴奋程度,Valence表示愉悦程度。正是因为连续情感可以更加精细描述人的情感状态,近年来对连续情感的识别成为了研究的热点。
在过去几年中,通过音视频多模态来进行连续维度情感估计已经取得了许多重要的成果,并且大量的研究已经证明了基于多模态的连续情感识别方法效果要优于单模态的方法。文献“Multimodal Continuous Emotion Recognition with Data AugmentationUsing Recurrent Neural Networks,20188th AVEC,pp57-64”公开了一种基于音频和视频的多模态连续维度情感估计方法。此方法使用经典的LSTM作为时序模型,得到时域上下文的依赖,并完成时间序列上的回归,得到每一时刻情感状态arousal/valence的估计。另外在多模态融合上,该方法使用了两种经典的融合方法,即特征融合和决策融合。但是,这种模型在连续维度情感估计阶段,由于LSTM模型在获取时域上下文依赖时对每一帧都进行了同样的处理,无法得到有重点的选则关键的上下文依赖信息,使得模型受到了一定的局限,导致对连续维度情感估计的准确率降低,泛化性能差,无法达到精度的要求;另外在多模态融合阶段,该方法受限与特征种类多,且无法动态实时的关注到重要模态的信息的限制,导致模型计算量大,且影响了模型的估计准确率,因此该方法具有一定的局限性且难以推广。
目前研究学者已经在连续维度情感估计模型中取得了一定的成果,然而由于情感的复杂性和个体差异性,连续维度情感估计仍然面临以下挑战:
1)“关键帧”问题。在长时序的连续维度情感估计任务中,每一时刻的情感状态与最近时刻的情感状态具有强相关性,且和某些关键时刻的情感信息具有更强的相关性,同时,每一时刻的情感状态和很久之前的情感信息可能关系较小。在过去的连续维度情感估计研究中,在对每一时刻的情感状态进行估计时,过去的情感信息都是以同等重要的方式进行处理,导致了模型难以获取关键的上下文信息,影响了模型的泛化能力和准确度。
2)“多模态融合”问题。传统的多模态融合方法往往都局限于前期特征融合和后期决策融合两种方式,但是前期特征融合往往会导致特征维数高,容易过拟合,导致模型泛化能力差;对于后期决策融合,因为决策融合时的输入是不同特征回归后的结果,决策融合时并未考虑不同特征之前的互补关系,因此决策融合方法往往难以挖掘不同模态之前的互补性。
综上所述,现有的连续维度情感估计方法受到了时序模型的限制,难以发觉关键的时间上下文信息,另外在多模态融合时,大量多模态信息难以有效融合,容易造成连续维度情感估计精度低,泛化能力差等问题。
发明内容
为了解决上面提到的这些问题,本发明设计了一种基于时序卷积神经网络(TCN),Transformer编码器(Transformer Encoder)、多模态多头注意力(MMA)的多模态连续维度情感估计模型及其识别方法,本发明的创新点如下:
1)对长时序情感状态估计中时域上下文依赖,首先引入Transformer编码器的多头时序注意力模块来获取时域中信息的上下文依赖关系,为了排除时域上很久之前的信息带来的干扰,使模型更加关注最近一段时间中有效的上下文信息,本发明提出使用实时的掩码信息,作用于计算时序上的注意力关系,可以有效的解决时域上下文关系中的关键帧问题。
2)提出了多模态多头注意力模块,在时序中每一时刻,每一个模态的信息都可以动态与其它模态进行交互,获取来自于其它模态中的互补的信息,完成了不同时刻不同模态重要性的判断和多模态信息的融合。提出的多模态多头注意力可以当作子模块与Transformer编码器中的时序注意力模态一起使用,将原来的Transformer编码器从时序上扩展到了多模态。
3)提出一套完整的多模态连续维度情感估计模型,该模型共包含三个子网络:①特征嵌入网络,利用TCN提取不同模态的短时序特征表达,作为多模态时序编码器网络的输入;②多模态时序编码器网络,使用嵌入了多模态多头注意力的Transformer编码器,从输入的短时多模态特征,编码得到融合了时序上下文信息和多模态互补信息的高级特征表达;③推理网络,从多模态Transformer编码器输出的高级特征推理出当前情感状态。
本发明解决其技术问题所采用的技术方案:时序卷积网络(TCN),Transformer编码器及和多头多模态注意力所组成的多模态连续维度情感识别模型,其特点如图1所示,该模型包括三个按先后顺序依次执行的子网络。具体的,本发明提出的基于Transformer编码器和多头多模态注意力的连续维度情感识别方法包括如下步骤:
步骤一、对不同模态输入的特征,得到不同模态的嵌入特征表达(图1-InputEmbedding Sub-network)。本发明中,将不同模态下提出的特征首先输入到不同的时序卷积网络中,得到不同模态下的短时特征表达,并利用正弦位置编码器(SinusoidalPosition Encoding)生成不同时刻的信息,与短时特征表达在时序上按位相加得到不同模态的嵌入特征表达。
步骤二、将不同模态的嵌入特征表达作为输入,利用多模态Transformer编码器得到不同模态的高级表征(图1-Multi-modal Encoder Sub-network)。多模态Transformer编码器迭代使用三个子模块进行特征的学习,第一个是多模态多头注意力模块,第二个是时序多头注意力模块,第三个是前向传播模块,三个模块串联起来按顺序依次执行,最后将包含三个模块的多模态Transformer编码器迭代使用多次,其中多模态多头注意力模块可以对不同模态的特征进行动态的交互融合,其编码得到的不同模态的特征再输入时序多头注意力模块,获取时域中上下文的依赖,然后将编码了多模态和时序信息的特征输入前向传播模块进行非线性变化。通过对多模态Transformer编码器迭代使用,可以逐渐的修正多模态交互融合和时序上下文的依赖关系。
步骤三、将不同模态的高级特征表达作为输入,计算出每一时刻的情感状态值。推理网络把多模态Transformer编码器输出的每一时刻的多模态特征拼接在一起,输入全连接层(Fully Connect Layer)计出每一时刻的情感状态值(图1-Inference Sub-network)。
本发明的有益效果是:通过使用Transformer编码器的时序多头注意力和实时的掩码信息对不同模态进行时域上下文信息的编码,可以更加的关注时序上过去某些关键时刻对当前情绪状态的影响,排除长远情感信息带来的干扰,使得模型鲁棒性提高。同时,该发明提出了一种多模态多头注意力模块,可以有效的嵌入到Transformer编码器中,从而挖掘了每一时刻下不同模态的关键信息。最后通过将时序注意力模块和多模态注意力模块联合迭代使用,可以逐步的修正不同模块的注意力信息,挖掘了有效的时序上下文和多模态信息。这种在模型中同时修正时序上下文依赖关系和多模态交互融合关系的方法,明显的提高了连续维度情感估计的准确度。
附图说明
图1是本发明提出模型结构框图;
具体实施方式
以下通过具体的实例对本发明的技术实施流程做进一步说明。
1、不同模态的嵌入特征表达。
本发明首先对每一模态的特征,使用1D卷积神经网络提取出30维的短时特征表达,然后使用位置编码器生成30维的不同位置的特征表达,然后将短时特征表达和位置特征表达进行按位相加,最后对每一模态得到30维的嵌入特征表达。
2、多模态Transformer编码器提取高级表征。
多模态Transformer编码器共包含3个顺序执行的子模块,下面对每一个子模块的实施做进一步说明。
a)多模态多头注意力模块(Multi-modal Multi-head Attention)
多模态多头注意力模块主要用于获取多个模态之前的交互融合,如给定
Figure BDA0003149185590000051
是模态j在t时刻下的特征向量,
Figure BDA0003149185590000052
是t时刻下所有模态组成的特征集合,因为多模态多头注意力基于自我注意力机制,因此我们定义Kj=Vj=Qj,然后我们将Qj,Kj,Vj利用线性投影到多个子空间中,并计算在每一个时刻下,不同模态特征之前的注意力权值,然后加权得到每一个模态下新的特征向量,最后所有子空间下的特征向量串联起来再次经过线性投影得到最后的特征表示。整个多模态多头注意力模块的计算公式如下:
Figure BDA0003149185590000053
Figure BDA0003149185590000054
Figure BDA0003149185590000055
Figure BDA0003149185590000056
Figure BDA0003149185590000057
Figure BDA0003149185590000058
b)时序多头注意力模块(Temporal Multi-head Attention)
时序多头注意力模块主要用于获取单个模态下时序上下文的依赖,如给定模态Modalityj,我们定义
Figure BDA0003149185590000059
是时刻t下模态j的特征向量,
Figure BDA00031491855900000510
是整个视频序列的特征集合,因为时序注意力基于自我注意力机制,因此我们定义Kj=Vj=Qj,然后我们将Qj,Kj,Vj利用线性投影到多个子空间中,并在每一个子空间计算每一个模态中,时序上不同时刻的注意力权值,并加权得到每个子空间下每一时刻的特征向量,最后将所有子空间中的特征向量串联起来再次线性投影得到最后的特征表示。整个时序注意力模块的计算公式如下:
Figure BDA0003149185590000061
Figure BDA0003149185590000062
Figure BDA0003149185590000063
Figure BDA0003149185590000064
Figure BDA0003149185590000065
其中注意力(Attention)计算公式如下:
Figure BDA0003149185590000066
Attention(Q,K,V)=AV
为了添加实时的掩码信息,将掩码矩阵M与上式计算出来的注意力矩阵A相乘,计算公式如下:
A=MA
c)前向传播模块
通过b),我们得到了各模态下的特征表示,该特征表示融合了来自不同模态的信息及时间上下文信息,前向传播模块包括了两个线性映射和一个RELU非线性激活函数,其计算公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
其中x为不同模态输入的特征序列,该前向传播模块可以提高模型的非线性拟合能力,使得模型更高得到更好的准确率。
3、前向推理网络估计情感状态
由2中我们得到了不同模态下的特征表达,每一个模态下的特征表达融合了来自不同模态的信息以及时序上下文的信息,然后我们将不同模态的特征表征串联在一起,通过一个全连接层进行线性映射,进行最终的情感状态估计。
本发明主要设计了多模态多头注意力模块,并将其插入到Transformer编码器中,将该编码器扩展为可以同时为多模态特征获取时序上下文依赖关系的模型,利用该模型,实现了一个连续维度情感估计的框架。经过对本发明在国际公开的连续维度情感识别数据库RECOLA(Remote Collaborative and Affective Interactions Database)上进行的实验检验,以对情感维度Arousal估计的CCC(Concordance Correlation Coefficient)值可以达到0.872,对情感维度Valence估计的CCC值可以达到0.714。
具体算例如下,比如对视频音频两个模态,其输入的特征序列分别表示为
Figure BDA0003149185590000071
Figure BDA0003149185590000072
其中n表示特征序列的长度。多模态特征序列Xvideo,Xaudio按顺序依次执行发明内容中的三个步骤,具体如下:
步骤一,对不同模态的输入Xvideo和Xaudio,分别用不同的1D时序卷积神经网络计算,得到编码了短时特征表达的特征Xvideo,l和Xaudio,l,然后利用正弦位置编码器生成位置向量P=[P1,...Pn],与多模态的短时特征Xvideo,l和Xaudio,l按位相加得到输出
Figure BDA0003149185590000073
Figure BDA0003149185590000074
步骤二,步骤二中包含迭代重复执行N次的三个按顺序执行的模块,在第一次迭代时,将步骤一的输出Xvideo,l,p和Xaudio,l,p作为第一个子模块的输入,第一个子模块(多模态多头注意力)首先将其复制为Qvideo,Kvideo,Vvideo和Qaudio,Kaudio,Vaudio,然后重新组织生成新的Q,K,V,其中
Figure BDA0003149185590000075
并按公式MultiHead(Qt,Kt,Vt)对新组织的Q,K,V计算每一个时刻t下多模态特征之前的依赖关系,得到第一次迭代的输出Xv'ideo和X'audio并送入到第二个子模块(时序多头注意力),第二个子模块首先将其复制为Qvideo,Kvideo,Vvideo和Qaudio,Kaudio,Vaudio,然后按公式MultiHead(Qj,Kj,Vj)计算每一个模态j在时序上的依赖关系,得到输出Xvideo和X'a'udio,并送入到第三个子模块(前向传播模块),第三个模块对不同模态的输入,按照公式
Figure BDA0003149185590000076
计算每个模态j中每一个时刻t下的特征,进行非线性变换,得到输出X″′video和X″′audio。第三个子模块的第一次迭代的输出X″′video和X″′audio然后作为输入重新输入到第一个子模块进行下次迭代,每一次迭代顺序运行三个子模块,共迭代N次,直到迭代结束得到步骤二的输出,我们将其表示为
Figure BDA0003149185590000077
Figure BDA0003149185590000078
步骤三将步骤二的输出在每一个时刻进行拼接,得到
Figure BDA0003149185590000081
其中
Figure BDA0003149185590000082
最后对每一个时刻的
Figure BDA0003149185590000083
利用一个全连接层计算得到最后的情感状态值。

Claims (1)

1.基于Transformer编码器和多头多模态注意力的连续维度情感识别方法,包括如下步骤:
步骤一、对不同模态输入的特征,得到不同模态的嵌入特征表达;
将不同模态下提出的特征首先输入到不同的时序卷积网络中,得到不同模态下的短时特征表达,并利用正弦位置编码器生成不同时刻的信息,与短时特征表达在时序上按位相加得到不同模态的嵌入特征表达;
步骤二、将不同模态的嵌入特征表达作为输入,利用多模态Transformer编码器得到不同模态的高级表征;
多模态Transformer编码器迭代使用三个子模块进行特征的学习,第一个是多模态多头注意力模块,第二个是时序多头注意力模块,第三个是前向传播模块,三个模块串联起来按顺序依次执行,最后将包含三个模块的多模态Transformer编码器迭代使用多次,其中多模态多头注意力模块可以对不同模态的特征进行动态的交互融合,其编码得到的不同模态的特征再输入时序多头注意力模块,获取时域中上下文的依赖,然后将编码了多模态和时序信息的特征输入前向传播模块进行非线性变化;通过对多模态Transformer编码器迭代使用,逐渐的修正多模态交互融合和时序上下文的依赖关系;
步骤三、将不同模态的高级特征表达作为输入,计算出每一时刻的情感状态值;
推理网络把多模态Transformer编码器输出的每一时刻的多模态特征拼接在一起,输入全连接层计出每一时刻的情感状态值。
CN202110759965.9A 2020-07-27 2021-07-06 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法 Active CN113269277B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010733299 2020-07-27
CN2020107332997 2020-07-27

Publications (2)

Publication Number Publication Date
CN113269277A true CN113269277A (zh) 2021-08-17
CN113269277B CN113269277B (zh) 2023-07-25

Family

ID=77236388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110759965.9A Active CN113269277B (zh) 2020-07-27 2021-07-06 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法

Country Status (1)

Country Link
CN (1) CN113269277B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986005A (zh) * 2021-10-13 2022-01-28 电子科技大学 基于集成学习的多模态融合视线估计框架
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002270A1 (en) * 2002-05-05 2004-01-01 Courtney William L. Variable-displacement variable-ballast life raft inflated and maintained by a manual pneumatic and or hydraulic lever-amplified torque pump through a range of dedicated fittaments
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN109919205A (zh) * 2019-02-25 2019-06-21 华南理工大学 基于多头自注意力机制的卷积回声状态网络时序分类方法
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111368536A (zh) * 2018-12-07 2020-07-03 北京三星通信技术研究有限公司 自然语言处理方法及其设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040002270A1 (en) * 2002-05-05 2004-01-01 Courtney William L. Variable-displacement variable-ballast life raft inflated and maintained by a manual pneumatic and or hydraulic lever-amplified torque pump through a range of dedicated fittaments
US20190130273A1 (en) * 2017-10-27 2019-05-02 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
CN109543824A (zh) * 2018-11-30 2019-03-29 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
CN111368536A (zh) * 2018-12-07 2020-07-03 北京三星通信技术研究有限公司 自然语言处理方法及其设备和存储介质
CN109919205A (zh) * 2019-02-25 2019-06-21 华南理工大学 基于多头自注意力机制的卷积回声状态网络时序分类方法
CN110188343A (zh) * 2019-04-22 2019-08-30 浙江工业大学 基于融合注意力网络的多模态情感识别方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111275085A (zh) * 2020-01-15 2020-06-12 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EMRE AKSAN等: "Attention, please: A Spatio-temporal Transformer for 3D Human Motion Prediction", 《ARXIV:2004.08692V1 [CS.CV] 18 APR 2020》 *
JIAN HUANG等: "MULTIMODAL TRANSFORMER FUSION FOR CONTINUOUS EMOTION RECOGNITION", 《 ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
陈珂等: "基于情感词典和 Transformer 模型的情感分析算法研究", 《南京邮电大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986005A (zh) * 2021-10-13 2022-01-28 电子科技大学 基于集成学习的多模态融合视线估计框架
CN113986005B (zh) * 2021-10-13 2023-07-07 电子科技大学 基于集成学习的多模态融合视线估计框架
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法

Also Published As

Publication number Publication date
CN113269277B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
US11281945B1 (en) Multimodal dimensional emotion recognition method
Brock et al. Neural photo editing with introspective adversarial networks
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN113762322A (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN109002852A (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108009573B (zh) 一种机器人情绪模型生成方法、情绪模型以及交互方法
CN113269277A (zh) 基于Transformer编码器和多头多模态注意力的连续维度情感识别方法
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN114880441A (zh) 视觉内容生成方法、装置、系统、设备和介质
CN113516133A (zh) 一种多模态图像分类方法及系统
Ye et al. Audio-driven stylized gesture generation with flow-based model
CN117079299A (zh) 数据处理方法、装置、电子设备及存储介质
CN117436480A (zh) 一种Mindspore框架下的大模型及推荐方法
CN117315070A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN117094365A (zh) 图文生成模型的训练方法、装置、电子设备及介质
CN116030537A (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
CN112612936B (zh) 一种基于对偶转换网络的多模态情感分类方法
CN114547276A (zh) 基于三通道图神经网络的会话推荐方法
Sun et al. PattGAN: Pluralistic Facial Attribute Editing
CN111476867A (zh) 一种基于变分自编码和生成对抗网络的手绘草图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant