CN111753549B - 一种基于注意力机制的多模态情感特征学习、识别方法 - Google Patents

一种基于注意力机制的多模态情感特征学习、识别方法 Download PDF

Info

Publication number
CN111753549B
CN111753549B CN202010441528.8A CN202010441528A CN111753549B CN 111753549 B CN111753549 B CN 111753549B CN 202010441528 A CN202010441528 A CN 202010441528A CN 111753549 B CN111753549 B CN 111753549B
Authority
CN
China
Prior art keywords
emotion
features
audio
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010441528.8A
Other languages
English (en)
Other versions
CN111753549A (zh
Inventor
薛艳飞
张建明
毛启容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010441528.8A priority Critical patent/CN111753549B/zh
Publication of CN111753549A publication Critical patent/CN111753549A/zh
Application granted granted Critical
Publication of CN111753549B publication Critical patent/CN111753549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于注意力机制的多模态情感特征学习、识别方法,对音频、文本样本进行特征提取,得到FBank声学特征和词向量特征;将得到的特征分别作为音频情感特征编码器和文本情感特征编码器的原始输入特征,通过编码器提取不同模态的情感语义特征;对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;将四种特征融合之后进行分类即可得到对应的情感类别。本发明解决了传统多模态情感识别中模态内情感无关因素和模态间情感语义不一致导致的情感识别率低的问题,能够有效地提高多模态情感识别准确率。

Description

一种基于注意力机制的多模态情感特征学习、识别方法
技术领域
本发明属于情感计算领域,具体涉及一种基于注意力机制的多模态情感特征学习、识别方法。
背景技术
在人们的日常交互中,情感往往扮演着非常重要的角色,情感信息的感知有助于人们理解彼此的心理状态和行为。同样,情感信息对于维持人类和机器之间的长期交互至关重要,自动语音情感识别是桥接人类和计算机之间沟通鸿沟的一种有效方法。随着互联网的快速发展和普及,人们对人机交互系统提出了更高的要求,人们期望与之交互的机器也具有类似于人的观察、理解和生成情感特征的能力。因此,基于语音和文本的多模态情感识别对于改善智能人机交互系统的用户体验至关重要,也是当前备受研究者们追捧的研究热点。
在R.Li等人,题为“Towards Discriminative Representation Learning forSpeech Emotion Recognition”的论文中,通过多头自注意力机制和上下文感知的注意力LSTM学习情感显著的特征表示,但该方法没有考虑语音和文本模态间的相互依赖关系。在S.Yoon等人,题为“Attentive Modality Hopping Mechanism for Speech EmotionRecognition”的论文中,利用模态跳变注意力机制对模态之间的依赖关系进行建模,通过融合音频、视频、文本三个模态对齐的情感特征来提高识别率,但忽略了单模态特有情感特征对识别率的影响。由于不同模态之间既存在各自的情感特性,即单模态独立特征,又存在多模态交互关系,即多模态交互特征。因此,如何利用单模态特征和多模态交互特征,高效地抽取文本、语音及其相互依赖的情感特征对多模态情感识别至关重要。
虽然传统的多模态情感识别方法通过融合不同模态的情感特征对最后的情感识别有一定的促进作用,但是大多数多模态情感识别方法没有综合考虑单模态特有的情感特性和多模态之间相互依赖关系对情感识别的影响。因此,本发明为了克服现有技术的缺陷,通过基于模态内注意力和模态跳变意力机制的深度神经网络对多模态情感特征进行学习得到:情感显著的音频特征、情感显著的文本特征、语义对齐的音频特征和语义对齐的文本特征,对这些特征进行融合可以得到多模态之间互补的情感信息。
发明内容
针对现有技术中存在的问题和不足,本发明提出了一种基于注意力机制的多模态情感特征学习、识别方法,训练得到的模型不受情感无关因素的干扰且能更高效地提取不同模态之间的情感依赖关系,从而高效地识别多模态的情感状态。
一种基于注意力机制的多模态情感特征学习、识别方法,包括以下步骤:
S1,预处理和特征提取:分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征。
S2,情感特征编码器学习:分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取,进而得到音频情感语义特征和文本情感语义特征/>
S3,情感显著特征的学习:对音频情感语义特征和文本情感语义特征/>分别使用模态内的注意力机制ESAM进行情感显著特征的提取,分别对/>和/>的输出特征/>和/>分配权重系数并对输出特征加权求和得到音频情感显著特征/>和文本情感显著特征/>
S4,语义对齐的情感特征学习:对和/>分别使用模态间的注意力机制MHAM进行模态间情感语义对齐;使用/>为/>分配模态间情感相关的权重系数,并对/>加权表征得到语义对齐的音频特征/>使用/>为/>分配模态间情感相关的权重系数,并对加权表征得到语义对齐的文本特征/>
S5,模型训练:将音频情感显著特征文本情感显著特征/>语义对齐的音频特征/>和语义对齐的文本特征/>融合得到最终的多模态情感特征将Hmixed送入分类器中进行情感分类得到多模态样本的情感类别。
进一步,所述步骤S1中,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
进一步,步骤S1中,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
进一步,所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成;将FBank声学特征输入CBiLSTM,通过两层卷积神经网络提取FBank声学特征中情感相关的特征,并将该特征作为双向长短时记忆网络层的输入特征,进行上下文依赖的情感语义特征的提取,得到音频情感语义特征
进一步,所述文本情感特征编码器BiLSTM是由两层双向长短时记忆网络构成,将词向量特征输入BiLSTM,对词向量特征进行上下文相关的情感语义特征的提取,得到文本情感语义特征
进一步,分别采用神经网络自动学习得到和/>中每个输出特征/>和/>对应的权重系数/>和/>基于所得的权重系数分别对输出特征/>和/>加权求和,得到相应的音频情感显著特征/>和文本情感显著特征/>
进一步,所述步骤S4中分别采用跨模态连接的神经网络层自动学习得到输出特征和/>对应的权重系数/>和/>基于所得的权重系数分别对输出特征/>和/>加权求和得到相应的语义对齐的音频特征/>和语义对齐的文本特征/>
进一步,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
本发明具有有益效果
本发明的基于注意力机制的多模态情感特征学习、识别统一框架,通过引入模态内注意力机制,对情感特征编码器提取的情感语义特征进行情感显著特征的学习,使得模型免受情感无关特征的干扰;通过引入模态间注意力机制,对情感语义特征进行模态间的对齐,增强模型对模态交互特征的提取能力。本发明解决了传统多模态情感识别中单模态情感无关特征的影响和多模态情感交互特征抽取能力弱导致的情感识别率低的问题,能够有效地提高多模态情感识别的准确率。
附图说明
图1是本发明一种基于注意力机制的多模态情感特征学习、识别流程图;
图2是本发明所构建的音频模态情感注意力机制结构图;
图3是本发明所构建的文本模态情感注意力机制结构图;
图4是本发明所构建的音频模态跳变注意力机制结构图;
图5是本发明所构建的文本模态跳变注意力机制结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1给出了本发明的总体思路。首先,分别对音频模态的样本、文本模态的样本进行预处理和特征提取,得到音频样本的FBank声学特征和文本样本的词向量特征;其次,将得到的原始特征分别作为音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM的原始输入特征,通过对应的编码器可以提取不同模态的情感语义特征;然后,对得到的情感语义特征分别进行音频注意力、模态跳变注意力和文本注意力学习,提取情感显著的音频特征、语义对齐的音频特征、语义对齐的文本特征和情感显著的文本特征四种互补的情感特征;最后,将四种特征融合之后进行分类即可得到对应的情感类别。具体的实施步骤如下:
步骤一,预处理和特征提取:针对音频模态的样本数据,首先对原始音频信号依次进行预加重、分帧、加窗的预处理,帧长为25ms,帧移为15ms。将预处理后的音频信号依次经过快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换得到音频信号对应的FBank声学特征。其中,梅尔滤波器组的尺度为40,最终产生40×L维的FBank声学特征,L为音频样本的帧个数。
针对文本模态的样本数据,采用Google的预训练词向量模型GoogleNews对文本数据进行词向量特征的提取,最终产生300×N维的词向量特征,N为词向量长度。
步骤二,情感特征编码器学习:针对音频和文本模态的数据分别构建音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM。其中,音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成。其中,两层卷积神经网络层的卷积核大小分别为7×7和20×7、特征图个数为128,卷积层之后依次连接了批归一化层、ReLU非线性激活层和最大池化层,最大池化层的核尺寸分别为2×2和1×5。通过卷积操作将得到74×128维的中间情感表征序列M=[m1,m2,...,mn,...,mN],mn为特征图第n个位置的特征向量,通过两层卷积神经网络层提取FBank声学特征中情感相关的特征,并将该特征作为长短时记忆网络(Long-Short Term Memory,LSTM)层的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,...,hn,...,hN)。
fn=σ(Wfmn+Ufhn-1+bf) (1)
in=σ(Wimn+Uihn-1+bi) (2)
on=σ(Womn+Uohn-1+bo) (3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;mn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号。
在音频编码器CBiLSTM中,使用两层双向长短时记忆网络(Bidirectional Long-Short Term Memory,BiLSTM)对输入的中间序列特征M进行时序关系建模。BiLSTM的隐向量表征分别来自正向和反向LSTM(使用和/>表示),每层LSTM的隐藏层节点数为128,同时使用非线性激活可以得到最终的隐向量/>N个时间步的输出序列共同组成音频情感语义特征/>
同样,将文本模态的词向量特征作为文本情感特征编码器BiLSTM的输入特征,表示为X=[x1,x2,...,xn,...,xN],xn为第n个词向量特征;双向长短时记忆网络通过与音频模态相同的计算方式计算得到文本情感语义特征其中,/>为文本情感语义特征的第n个特征分量。
步骤三,情感显著特征的学习:在对音频和文本编码器生成的所有情感语义特征和/>进行情感分类时,每个时间步的输出特征对于情感识别任务通常并不都是同等重要的。因此,引入模态内注意力机制可以使模型专注于序列中情感显著特征的学习,从而提升情感识别的性能。在不同模态的特征编码器中,使用情感注意力机制对步骤二提取的特征序列进行情感相关的加权表征。图2和图3分别描述了音频模态和文本模态情感显著特征的学习过程,对于音频模态提取的音频情感语义特征/>情感注意力层首先计算序列中第n时间步对应的输出特征/>的权重/>计算方式如公式(6)所示。
其中,exp为以自然常数e为底的指数函数,W为可训练的参数。音频情感显著特征/>是输入序列的加权之和,是对一段语音整体的情感表征,其加权求和的方法如公式(7)所示。
对于文本模态提取的文本情感语义特征情感注意力层首先计算序列中第n时间步对应输出特征/>的权重/>计算方式如公式(8)所示。
其中,W为可训练的参数。文本情感显著特征/>是输入序列的加权之和,是对文本词向量整体的情感表征,其加权求和的方法如公式(9)所示。
最后,将得到的情感显著特征送入下一层进行多模态情感融合。
步骤四,模态交互情感特征学习:使用模态跳变注意力机制MHAM对文本和音频模态间的情感依赖关系进行建模。图4和图5分别描述了音频模态和文本模态的模态交互情感特征学习过程,步骤二提取的音频情感语义特征经过公式(10)计算得到语义对齐的音频情感特征/>
同样,步骤二提取的文本情感语义特征经过公式(11)计算得到语义对齐的文本情感特征/>
步骤五,模型训练:通过以上步骤可以得到情感显著的特征和模态间语义对齐的情感特征/>将其融合得到最终的多模态情感特征将Hmixed输入到全连接层进行情感分类得到多模态样本的情感类别。通过softmax激活函数得到模型最终预测的七类情感类别并采用公式(12)所示的多分类交叉熵损失函数对模型参数进行训练。
其中,为模型预测的情感类别的概率向量,yj,c为第j个样本的真实情感标签,为模型预测第j个样本属于第c类的概率,W和b分别为分类器的可训练权重和偏置向量,为目标函数,C是类别个数,N为训练样本数。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别对音频模态的样本、文本模态的样本依次进行预处理和特征提取,得到对应的FBank声学特征和词向量特征;分别将FBank声学特征和词向量特征对应输入音频情感特征编码器CBiLSTM和文本情感特征编码器BiLSTM进行情感语义特征的提取得到音频情感语义特征和文本情感语义特征/>
和/>分别使用模态内的注意力机制ESAM进行情感显著特征的提取得到音频情感显著特征/>和文本情感显著特征/>
和/>分别使用模态间的注意力机制MHAM进行模态间情感语义对齐,得到语义对齐的音频特征/>和语义对齐的文本特征/>
和/>融合得到最终的多模态情感特征将Hmixed送入分类器中进行情感分类得到多模态样本的情感类别。
2.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对音频模态的样本进行预处理和特征提取的方法为:先对音频样本依次进行预加重、分帧、加窗的预处理;然后对预处理后的音频样本依次进行快速傅里叶变换、频谱能量计算、梅尔滤波和对数能量转换处理后得到音频样本的FBank特征。
3.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,对文本模态的样本进行预处理和特征提取的方法为:采用Google预训练的GoogleNews词向量模型抽取文本样本对应的词向量特征。
4.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,所述音频情感特征编码器CBiLSTM是由两层卷积神经网络层和两层双向长短时记忆网络构成;将FBank声学特征输入CBiLSTM,通过两层卷积神经网络提取FBank声学特征中情感相关的特征,并将该特征作为双向长短时记忆网络层的输入特征,进行上下文依赖的情感语义特征的提取,得到音频情感语义特征
5.根据权利要求1所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,所述文本情感特征编码器BiLSTM是由两层双向长短时记忆网络构成,将词向量特征输入BiLSTM,对词向量特征进行上下文相关的情感语义特征的提取,得到文本情感语义特征
6.根据权利要求4或5所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别采用神经网络自动学习得到和/>中每个输出特征/>和/>对应的权重系数/>和/>基于所得的权重系数分别对输出特征/>和/>加权求和,得到相应的音频情感显著特征/>和文本情感显著特征/>
7.根据权利要求6所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,分别采用跨模态连接的神经网络层自动学习得到输出特征和/>对应的权重系数和/>基于所得的权重系数分别对输出特征/>和/>加权求和得到相应的语义对齐的音频特征/>和语义对齐的文本特征/>
8.根据权利要求7所述的一种基于注意力机制的多模态情感特征学习、识别方法,其特征在于,采用特征拼接的方式对多模态情感特征进行融合,然后使用包含与情感类别数相同的神经元节点个数的输出层对多模态情感特征进行分类,得到对应样本所属的情感类别。
CN202010441528.8A 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法 Active CN111753549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010441528.8A CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010441528.8A CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Publications (2)

Publication Number Publication Date
CN111753549A CN111753549A (zh) 2020-10-09
CN111753549B true CN111753549B (zh) 2023-07-21

Family

ID=72673523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010441528.8A Active CN111753549B (zh) 2020-05-22 2020-05-22 一种基于注意力机制的多模态情感特征学习、识别方法

Country Status (1)

Country Link
CN (1) CN111753549B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447189A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质
CN112508077B (zh) * 2020-12-02 2023-01-03 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及系统
CN112700796B (zh) * 2020-12-21 2022-09-23 北京工业大学 一种基于交互式注意力模型的语音情感识别方法
CN112633364B (zh) * 2020-12-21 2024-04-05 上海海事大学 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN112733546A (zh) * 2020-12-28 2021-04-30 科大讯飞股份有限公司 表情符号生成方法、装置、电子设备及存储介质
CN112765323B (zh) * 2021-01-24 2021-08-17 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN112818861B (zh) * 2021-02-02 2022-07-26 南京邮电大学 一种基于多模态上下文语义特征的情感分类方法及系统
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112559835B (zh) * 2021-02-23 2021-09-14 中国科学院自动化研究所 多模态情感识别方法
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN112905844B (zh) * 2021-03-23 2022-03-15 广东工业大学 一种视频语音检索方法
CN113177136B (zh) * 2021-04-27 2022-04-22 桂林电子科技大学 基于注意力的音频和歌词的多模态音乐风格分类方法
CN113312530B (zh) * 2021-06-09 2022-02-15 哈尔滨工业大学 一种以文本为核心的多模态情感分类方法
CN113435496B (zh) * 2021-06-24 2022-09-02 湖南大学 一种基于注意力机制的自适应融合的多模态情感分类方法
CN113657115B (zh) * 2021-07-21 2023-06-30 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113314119B (zh) * 2021-07-27 2021-12-03 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN115239937B (zh) * 2022-09-23 2022-12-20 西南交通大学 一种跨模态情感预测方法
CN116403564B (zh) * 2023-05-15 2023-09-26 清华大学 一种音频编辑方法及装置、电子设备及存储介质
CN117234369B (zh) * 2023-08-21 2024-06-21 华院计算技术(上海)股份有限公司 数字人交互方法及系统、计算机可读存储介质、数字人设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469560A (zh) * 2016-07-27 2017-03-01 江苏大学 一种基于无监督域适应的语音情感识别方法
CN107346328A (zh) * 2017-05-25 2017-11-14 北京大学 一种基于多粒度层级网络的跨模态关联学习方法
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN111178389A (zh) * 2019-12-06 2020-05-19 杭州电子科技大学 基于多通道张量池化的多模态深度分层融合情感分析方法
CN111164601A (zh) * 2019-12-30 2020-05-15 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Tensor Fusion Network for Multimodal Sentiment Analysis;Amir Zadeh;《Computation and Language》;1-12 *
面向多模态高层语义的歧视情感检测;王耀煊;《中国优秀硕士学位论文全文数据库信息科技辑》(第1期);I138-1543 *

Also Published As

Publication number Publication date
CN111753549A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN111753549B (zh) 一种基于注意力机制的多模态情感特征学习、识别方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
Latif et al. Deep representation learning in speech processing: Challenges, recent advances, and future trends
Hatami et al. Classification of time-series images using deep convolutional neural networks
Chiu et al. Enabling intelligent environment by the design of emotionally aware virtual assistant: A case of smart campus
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN111581967B (zh) 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
Chen et al. Deep neural networks for multi-class sentiment classification
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
Ikram et al. American sign language recognition using convolutional neural network
Xue et al. Intent-enhanced attentive Bert capsule network for zero-shot intention detection
CN117291185A (zh) 任务处理方法、实体识别方法及任务处理的数据处理方法
Kiran et al. Multi-stage transfer learning for fake news detection using AWD-LSTM network
CN116561584A (zh) 基于变分量子电路的语音隐私推断方法、装置及存储介质
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN114282094A (zh) 一种资源排序方法、装置、电子设备和存储介质
Ning et al. The development trend of intelligent speech interaction
Mahmoudi et al. RNN and LSTM models for Arabic speech commands recognition using PyTorch and GPU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant