CN113257281A - 一种对多模态情绪识别进行层次不确定性量化估计的方法 - Google Patents

一种对多模态情绪识别进行层次不确定性量化估计的方法 Download PDF

Info

Publication number
CN113257281A
CN113257281A CN202110747678.6A CN202110747678A CN113257281A CN 113257281 A CN113257281 A CN 113257281A CN 202110747678 A CN202110747678 A CN 202110747678A CN 113257281 A CN113257281 A CN 113257281A
Authority
CN
China
Prior art keywords
mode
modal
uncertainty
emotion
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110747678.6A
Other languages
English (en)
Other versions
CN113257281B (zh
Inventor
陈飞宇
邵杰
朱安婕
欧阳德强
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202110747678.6A priority Critical patent/CN113257281B/zh
Publication of CN113257281A publication Critical patent/CN113257281A/zh
Application granted granted Critical
Publication of CN113257281B publication Critical patent/CN113257281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对多模态情绪识别进行层次不确定性量化估计的方法,通过构建权重共享三元网络模型,并通过模型中多模态条件层归一化模块提取当前各模态语句的全局状态特征;利用模型中源自适应噪声干扰注意力模块结合之前轮次的全局状态特征得到上下文关系向量,结合前一轮次各单模态语句更新说话者状态,并利用模型中情绪神经网络单元提取更新后说话者状态特征,得到各单模态情绪表征,最终利用模型中基于胶囊的预测层对各单模态情绪表征进行融合、预测;本发明通过引入上下文层级不确定性和模态层级不确定性,完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统量化估计不确定性的能力,提高估计的可靠性,改进情感计算模型的性能。

Description

一种对多模态情绪识别进行层次不确定性量化估计的方法
技术领域
本发明涉及多模态情绪识别技术领域,具体涉及一种对多模态情绪识别进行层次不确定性量化估计的方法。
背景技术
情绪识别(Emotion Recognition)是情感计算研究中最基础也最重要的领域,旨在赋予机器以发现和理解人类情感状态并做出相应响应的能力,即通过对人的面部表情、语音语调、文本内容或者身体生理信号等各种模态数据的学习,识别出人类的情绪状态。会话中的情绪识别(Emotion Recognition in Conversation)则进一步探索在交互会话中互相影响转变的情绪并对其进行准确建模。情绪识别研究对来自不同领域的很多应用大有益处,例如智能人机交互系统,智能业务和客户服务系统以及远程医疗系统。
针对会话中的情绪识别问题,研究者们提出了很多方法,例如改进模态融合方法,使用注意力机制、记忆网络以及图网络等。现存的工作主要致力于对多模态关系、上下文关系、以及说话者的自我及互相影响这三方面进行建模,但是这些系统都没有尝试对其预测结果的不确定性和可靠性进行量化估计。
神经网络常被诟病的一大缺点在于,它时常会表现得过于自信,使得其输出结果的可靠性降低。而估计模型预测的不确定性可以提供一个衡量其可靠性的量化指标。不确定性估计能反映模型对其预测结果的信心以及这些预测结果的可靠性,这对于情感智能体至关重要,尤其是在容错能力较低的情况下(例如抑郁症检测)。因此有必要赋予情绪识别系统以量化估计不确定性的能力,进一步提高情感计算模型的性能。
发明内容
针对现有技术中的上述不足,本发明提供了一种对多模态情绪识别进行层次不确定性量化估计的方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。
该方案的进一步有益效果为:
1、模态参数在每个模态分支间实现共享;
2、完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统以量化估计不确定性的能力;
3、提高层次不确定性量化估计的可靠性,改进情感计算模型的性能;
4、通过源与查询的共同贡献,获得更好的注意力机制性能;
5、有针对性的提高模型的鲁棒性与泛化能力;
6、加强每个分支传播开始处的细粒度跨膜态嵌入。
进一步地,
所述全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将所述全局状态特征传输到所述源自适应噪声干扰注意力模块;
所述多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的层归一化;
所述源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将所述上下文关系向量传输到所述说话者神经网络单元;
所述说话者神经网络单元用于结合所述当前轮次各单模态语句以及所述上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到所述情绪神经网络单元;
所述情绪神经网络单元用于对所述更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将所述各单模态情绪表征传输到所述基于胶囊网络的预测层;
所述基于胶囊网络的预测层用于对所述各单模态情绪表征进行含有不确定性估计的融合与情绪模态预测。
该进一步有益效果为:
权重共享三元网络模型便于探索模态的同变性与不变性,捕捉模态间的关系并学习其中的平衡关系,从而对模态不变性进行建模。
进一步地,所述步骤S2具体为:
将当前轮次会话中各单模态语句输入所述全局神经网络单元中进行特征提取,并通过所述多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
该进一步有益效果为:
在全局神经网络提取状态特征时,构建多模态条件层归一化模块,通过嵌入额外学习参数,优化原始归一层方法,在源模态的监督下操作目标模态传播,引导信息相应地平移、缩放,进行归一化处理,通过将单模态语义细节嵌入另一个模态分支有助于提高模型对同变性的学习,从而与权重共享中着重于探索不变性的设计进行互补。
进一步地,所述步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声;
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
Figure 100002_DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE004
为噪声干扰的注意力权重,t为当前轮次,
Figure 100002_DEST_PATH_IMAGE006
为当前输入查询语句,
Figure 100002_DEST_PATH_IMAGE008
为当前输入查询语句的转置,
Figure 100002_DEST_PATH_IMAGE010
为可学习网络参数,
Figure 100002_DEST_PATH_IMAGE012
为前t-1轮的全局状态特征,
Figure 100002_DEST_PATH_IMAGE014
为加性高斯噪声;
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
Figure 100002_DEST_PATH_IMAGE016
其中,
Figure 100002_DEST_PATH_IMAGE018
为上下文关系向量。
该进一步有益效果为:
通过在细粒度的上下文层级上对不确定性进行建模,有针对性的提高模型的鲁棒性与泛化能力。
进一步地,所述步骤S32中加性高斯噪声
Figure DEST_PATH_IMAGE020
表示为:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE024
为预设参数,
Figure 100002_DEST_PATH_IMAGE026
Figure 380169DEST_PATH_IMAGE024
参数化的均值,
Figure 100002_DEST_PATH_IMAGE028
Figure 94047DEST_PATH_IMAGE024
参数化的标准方差,
Figure 100002_DEST_PATH_IMAGE030
为用于产生噪声的网络的参数。
该进一步有益效果为:
将均值和方差建模得到与源相关的函数,从而使得基于给定的源和查询实例,使得具有较大方差的嘈杂注意力能够反映出模型不确定的区域。
进一步地,所述步骤S4具体为:
利用所述说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:
Figure 100002_DEST_PATH_IMAGE032
其中,
Figure 100002_DEST_PATH_IMAGE034
为说话者神经网络单元,
Figure 100002_DEST_PATH_IMAGE036
是更新后的说话者
Figure 100002_DEST_PATH_IMAGE038
在第
Figure 100002_DEST_PATH_IMAGE040
轮的状态。
该进一步有益效果为:
说话者状态传播和存储各个参与者在对话中的状态,使模型能够了解不同说话者的特定表达模式。
进一步地,所述步骤S5具体为:
利用所述情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:
Figure 100002_DEST_PATH_IMAGE042
其中,
Figure 100002_DEST_PATH_IMAGE044
为当前轮次的单模态情绪表征,
Figure 100002_DEST_PATH_IMAGE046
为上一轮次的单模态情绪表征,
Figure 100002_DEST_PATH_IMAGE048
是情绪神经网络单元。
该进一步有益效果为:
由于上下文对判断语句
Figure 100002_DEST_PATH_IMAGE050
的情绪十分重要,通过第t-1轮的单模态情绪表征
Figure 100002_DEST_PATH_IMAGE052
将微调后的来自说话者状态
Figure 100002_DEST_PATH_IMAGE054
的情绪相关的上下文信息传播到情绪表征
Figure 100002_DEST_PATH_IMAGE056
,建立了说话者状态和其他会话人之间的联系。
进一步地,所述步骤S6具体包括以下分步骤:
S61、利用所述基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
Figure 100002_DEST_PATH_IMAGE058
其中,
Figure 100002_DEST_PATH_IMAGE060
为类别概率值,
Figure DEST_PATH_IMAGE062
为归一化指数函数,
Figure 100002_DEST_PATH_IMAGE064
为可学习网络参数,
Figure 100002_DEST_PATH_IMAGE066
为融合后的单模态情绪表征,
Figure 100002_DEST_PATH_IMAGE068
为胶囊网络,
Figure DEST_PATH_IMAGE070
分别为当前轮次的文本、视觉以及声音单模态情绪表征。
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
Figure DEST_PATH_IMAGE074
其中,
Figure DEST_PATH_IMAGE076
是当前输入查询语句u t 的预测标签,
Figure DEST_PATH_IMAGE078
表示第k个类别的概率值。
该进一步有益效果为:
胶囊网络的基本单位为胶囊,即神经元的向量,其构造使其具有为每个类别维护独特参数以聚合特征从而保留额外信息的能力。利用胶囊网络对复杂的模态关系进行蒸馏,学习多种模态的交互效果,捕捉可能具有多个极性(如在冲突模态中)或模棱两可的情感的复杂模态级别的信息,提高预测结果的可靠性。
附图说明
图1为本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法步骤示意图;
图2为本发明提供的权重共享三元网络结构示意图;
图3为本发明提供的多模态条件层归一化模块MCLN结构示意图;
图4为本发明中步骤S3的分步骤;
图5为本发明提供的源自适应噪声干扰注意力模块SANPA 结构示意图;
图6为本发明中步骤S6的分步骤;
图7为本发明提供的基于胶囊网络的向量级dropout结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1、图2所示,本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤S1至步骤S6:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
本实施例中,
全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将全局状态特征传输到源自适应噪声干扰注意力模块;
多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的归一化;
源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将上下文关系向量传输到说话者神经网络单元;
说话者神经网络单元用于结合当前轮次各单模态语句以及上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到情绪神经网络单元;
情绪神经网络单元用于对更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将各单模态情绪表征传输到基于胶囊网络的预测层;
基于胶囊网络的预测层用于对各单模态情绪表征进行含有不确定性估计的融合融合与情绪模态预测。
实际中,权重共享三元网络模型以DialogueRNN模型作为每个三元组分支的基础架构,分别使用全局神经网络单元、情绪神经网络单元以及说话者神经网络单元来捕获情绪动态,并结合注意力机制获得当前输入查询语句的上下文关系向量,完成情绪模态预测。
本发明中会话语句的情绪主要取决于:1)目标语句的上下文;2)目标语句的多模态信息的联合效应;分别为上下文依赖层级和多模态融合层级两个细粒度的级别上量化估计不确定性;权重共享三元网络模型保证了探索模态的同变性与不变性,权重共享三元网络模型中全局神经网络单元、情绪神经网络单元以及说话者神经网络单元都以循环方式工作,并且参数在每个模态分支间共享,每个模态均在分支中传播,以单独获得单模态情绪状态,然后将其融合并馈送到胶囊网络层中进行融合并做最终预测。
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
如图3所示,本实施例中,步骤S2具体为:
将当前轮次会话中各单模态语句输入全局神经网络单元中进行特征提取,并通过多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
实际中,异步交换的双人会话中的N个语句
Figure DEST_PATH_IMAGE080
的情绪,其中每个语句
Figure DEST_PATH_IMAGE082
都包含多种模态:文本模态
Figure DEST_PATH_IMAGE084
,视觉模态
Figure DEST_PATH_IMAGE086
和声音模态
Figure DEST_PATH_IMAGE088
,利用权重共享三元网络模型的全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,得到当前各模态语句的全局特征,其中权重共享设计着重挖掘模态间的不变性。
本发明为了探索模态间的同变性,进一步加强每个分支传播开始处的细粒度跨模态嵌入,构建了多模态条件层归一化模块,通过在原始的层归一化法上添加额外学习参数,得到条件层归一化法,表示为:
Figure DEST_PATH_IMAGE090
其中,
Figure DEST_PATH_IMAGE092
为目标模态的全局特征,
Figure DEST_PATH_IMAGE094
为源模态条件,
Figure DEST_PATH_IMAGE096
为目标模态,
Figure DEST_PATH_IMAGE098
为源模态,
Figure DEST_PATH_IMAGE100
分别为文本模态、声音模态以及视觉模态,
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE104
分别为与目标模态的全局特征
Figure DEST_PATH_IMAGE106
相关的增益和偏差,
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE110
分别为同一网络层中所有隐藏单元上的均值和标准差,
Figure DEST_PATH_IMAGE112
为数值极小的常数,用于避免除零,
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
分别为条件层归一化的学习参数,分别表示为:
Figure DEST_PATH_IMAGE118
其中,
Figure DEST_PATH_IMAGE120
Figure DEST_PATH_IMAGE122
分别为两个单层的全连接神经网络。
原始的层归一化方法(LN)根据隐藏层中的神经元对目标模态的全局特征
Figure DEST_PATH_IMAGE124
进行归一化,本发明中将原始的层归一化方法进行改进,给定来自源模态的条件
Figure DEST_PATH_IMAGE126
,条件层归一化学习一组额外的学习参数
Figure DEST_PATH_IMAGE128
Figure DEST_PATH_IMAGE130
,得到条件层归一化方法(CLN)从而在源模态的监督下操作目标模态的特征图;由于现有的大多数使用条件归一化的工作,都是在双模态情境中设定的,本发明中将条件层归一化方法(CLN)调整为适应多模态设置的任务,构造多模态条件层归一化模块(MCLN),进一步加强每个分支传播开始处的细粒度跨模态嵌入,通过一种模态信息相应地重新平移、缩放另一模态的特征。
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
实际中,本发明将上下文定义为源,将参与计算注意力的目标语句定义为查询,在以源为特征的条件高斯分布中采样,将采样的噪声注入softmax函数之前的注意力权重值中,对各单模态语句的全局状态特征施加注意力特征,将方差更大的噪声分配给不确定度更大的区域,即有较大方差的嘈杂注意力能反映模型不确定的区域,得到当前各单模态语句具有的不确定性感知的上下文关系向量,保证源和查询的联合贡献。
如图4、图5所示,本实施例中,步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声,表示为:
Figure DEST_PATH_IMAGE132
其中,
Figure DEST_PATH_IMAGE134
为预设参数,
Figure DEST_PATH_IMAGE136
Figure 503530DEST_PATH_IMAGE134
参数化的均值,
Figure DEST_PATH_IMAGE138
Figure 695477DEST_PATH_IMAGE134
参数化的标准方差,
Figure DEST_PATH_IMAGE140
为用于产生噪声的网络的参数,该参数具有各向同性的高斯先验,均值和精度
Figure DEST_PATH_IMAGE142
为零;
实际中,本发明中并非在零均值、固定方差的高斯分布中采样,而是将均值
Figure DEST_PATH_IMAGE144
和方差
Figure DEST_PATH_IMAGE146
建模得到与源相关的函数,从而使得基于给定的源和查询实例,使得具有较大方差的嘈杂注意力能够反映出模型不确定区域;
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
Figure DEST_PATH_IMAGE148
其中,
Figure DEST_PATH_IMAGE150
为噪声干扰的注意力权重,t为当前轮次,
Figure DEST_PATH_IMAGE152
为当前输入查询语句,
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE156
为当前输入查询语句的转置,
Figure DEST_PATH_IMAGE158
为可学习网络参数,
Figure DEST_PATH_IMAGE160
Figure DEST_PATH_IMAGE162
为前t-1轮的全局状态特征,即为上下文源向量,
Figure DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE166
为加性高斯噪声,
Figure DEST_PATH_IMAGE168
分别为输入查询语句与全局状态的特征维度;
实际中,本发明中源自适应噪声干扰注意力模块围绕噪声注入的思想,精准针对每个模态和对话回合中的上下文注意力,没有将噪声注入网络权重,而是将噪声注入注意力的源和查询的乘积,即归一化之前的注意力权重中。
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
Figure DEST_PATH_IMAGE170
其中,
Figure DEST_PATH_IMAGE172
为上下文关系向量。
实际中,在当前轮次t,该模块根据当前语句
Figure DEST_PATH_IMAGE174
和之前的t-1轮全局状态
Figure DEST_PATH_IMAGE176
学习嘈杂的注意力值,因此,所获得的上下文向量
Figure DEST_PATH_IMAGE178
具有不确定性感知,并能将学习到的不确定性传播到后续网络层以及到最终的单模态情感表征
Figure DEST_PATH_IMAGE180
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
本实施例中,步骤S4具体为:
利用说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:
Figure DEST_PATH_IMAGE182
其中,
Figure DEST_PATH_IMAGE184
为说话者神经网络单元,
Figure DEST_PATH_IMAGE186
是更新后的说话者
Figure DEST_PATH_IMAGE188
在第t轮的状态,
Figure DEST_PATH_IMAGE190
为上一轮次的说话者状态。
实际中,利用说话者神经网络单元
Figure DEST_PATH_IMAGE192
根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,对于当前轮次的倾听者状态
Figure DEST_PATH_IMAGE194
与上一轮次的倾听者状态保持一致,即不进行更新,表示为:
Figure DEST_PATH_IMAGE196
其中,m为会话参与者。
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
本实施例中,步骤S5具体为:
利用情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:
Figure DEST_PATH_IMAGE198
其中,
Figure DEST_PATH_IMAGE200
为当前轮次的单模态情绪表征,
Figure DEST_PATH_IMAGE202
为上一轮次的单模态情绪表征,
Figure DEST_PATH_IMAGE204
是情绪神经网络单元。
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。
如图6、图7所示,本实施例中,步骤S6具体包括以下分步骤:
S61、利用基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
Figure DEST_PATH_IMAGE206
其中,
Figure DEST_PATH_IMAGE208
为类别概率值,
Figure DEST_PATH_IMAGE210
为归一化指数函数,
Figure DEST_PATH_IMAGE212
为可学习网络参数,
Figure DEST_PATH_IMAGE214
为融合后的单模态情绪表征,
Figure DEST_PATH_IMAGE216
为胶囊网络,
Figure DEST_PATH_IMAGE218
分别为当前轮次的文本、视觉以及声音单模态情绪表征。
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
Figure 785881DEST_PATH_IMAGE074
其中,
Figure DEST_PATH_IMAGE221
是当前输入查询语句u t 的预测标签,
Figure DEST_PATH_IMAGE223
表示第k个类别的概率值。
实际中,蒙特卡洛丢弃MC-dropout等同于最小化真实后验与其近似值之间的KL散度,而仅需要在测试阶段使用dropout和采样。因此,本发明中调整蒙特卡洛丢弃MC-dropout使其适应胶囊网络,执行模态层级不确定性估计;
在获得单模态情感表征并进行含有不确定性估计的融合之后,模态层级不确定性使用蒙特卡洛丢弃MC-dropout在预测层中建模,将dropout应用进CapsNet中不是本领域中常用的手段,因为标准dropout方法丢弃随机的参数为元素,而在CapsNet的基本组成部分中参数为向量,因此胶囊网络需要向量级别的dropout而不是元素级别,因此本发明中在模型中采用向量级dropout。
本发明中采用通用数据集IEMOCAP和AVEC进行验证。在IEMOCAP上进行情绪分类,使用F1和准确率(accuracy)进行评价,而在AVEC上进行情绪回归,使用平均绝对误差(MeanAbsolute Error,简称MAE)和皮尔逊相关系数(Pearson correlationCoefficient,简写为r)进行评价,采用三种模态,即文本,视频和音频。首先使用预先提取的单模态特征,遵循先前工作中相同的提取程序,与其他噪声注入方法相同,本发明中设计的源自适应噪声干扰注意力模块SANPA仅在训练中使用,在测试过程中被标准注意力所取代。对于胶囊网络CapsNet而言,胶囊的数量为5,每个胶囊的尺寸为150。路由的数量设置为1,在压榨过程之前应用向量级dropout;测试阶段,对预测进行25次抽样来测量不确定性,并给出平均结果,dropout值在IEMOCAP上设置为0.4,在AVEC上设置为0.2。
如表1所示,在数据集IEMOCAP上,本发明提供的模型在准确性和F1得分方面均优于其他方法。尤其是,在多模态设定中,本发明提供的模型优于使用的基础架构DialogueRNN,并在精确度上提升2.22%,在F1得分上提升2.46%。在AVEC数据集上,除了“Power”属性的平均绝对误差(MAE)以外,我们的模型在所有其他指标上均优于以前的方法,并且,我们提出的HU-Dialogue在所有四个属性上产生的皮尔逊相关系数(r)明显较高,以及在其他三个属性上的MAE误差明显较低。
表1与主流模型有效方法间比较
Figure DEST_PATH_IMAGE225
本发明提出了多种变体结构,通过删除组成模块来探索HU-Dialogue各个模块的有效性。如表2所示,显示了对这些变体模型的评估,其中,对于采用蒙特卡洛丢弃MC-dropout的变体,在测试过程中,通过25次Monte Carlo采样对结果进行平均,其中WS表示权重共享。
表2 多种变体结构模型的评估
Figure DEST_PATH_IMAGE227
1)权重共享 vs非共享。
变体1-6为每个模态保留一个分支,且使用权重非共享结构。在IEMOCAP上,除变量7的准确率和变量11的F1分数外,权重共享模型(分别对应变量7-12)皆取得更好的性能。总的来说,共享权重可使F1分数平均提高0.37%,准确性平均提高0.54%。在AVEC上,皮尔逊相关系数(r)在所有四个属性上都有改善。我们认为,这是由于权重共享结构能够捕获潜在的模态关联,学习微妙的平衡以及对模态之间的不变性进行建模。
2)CapsNet中dropout的作用。
变体4和10遵循胶囊网络CapsNet的传统,即不使用dropout,而变体5和11中采用了向量级dropout(表示为vec-dropout)。从表2中可以明显看出,在两个数据集上,vec-dropout略有提高性能,而应用蒙特卡洛丢弃MC-dropout(变量6和12)带来更大的改进,唯一的例外是IEMOCAP上非共享设置(变量6)的准确度。具体而言,IEMOCAP上的F1得分提高了1%以上,AVEC的所有四个属性的皮尔逊相关系数(r)结果也得到了显著改善。
3)MCLN的作用。
变体1、2、7和8不使用MCLN,而变体3、4、9和10提供了相应的使用MCLN的模型比较。在IEMOCAP上,可以观察到F1分数平均提高了0.83%,准确度平均提高了1.25%。在AVEC上,使用MCLN在所有四个属性上均获得了更高的r结果,其中“Power”属性对MCLN的敏感度最低,而“Arousal”属性的受益最大。还应注意的是,使用权重共享的变体模型(9和10)比非共享的变体(3和4)获得更多的相对改进。这证实了我们的假设,即MCLN和权重共享结构是相互补充的,分别探索了同变性和不变性。
如表3所示,完全连接模式(MCLN-FC)和顺序模式(MCLN-SQ,如图2所示)的影响。可以看出,在两个指标上,MCLN-SQ均明显优于MCLN-FC,并且当采用蒙特卡洛丢弃MC-dropout时,差距会更大。
表3 额外的IEMOCAP数据集上的针对MCLN模式的消融研究
Figure DEST_PATH_IMAGE229
4)SANPA的作用。
变体1、3、7和9使用标准注意力模块,而变体2、4、8和10对应替换为SANPA模块。在IEMOCAP上,使用SANPA的方法在两个指标上均获得更好的性能。在AVEC上,同样地,SANPA在所有属性上的表现都超过了标准注意力方法,如表4所示,带有UA的HU-Dialogue略优于标准注意力模块,但依旧低于本发明所提供的SANPA模块,其中,UA是另一种不确定性注意力机制,UA为注意力权重值学习一个后验分布,而本发明中在以源为特征的条件高斯分布中采样,并将采样的噪声注入到softmax函数之前的注意力权重值中,SANPA保证源和查询的联合贡献,而UA方法仅依赖于源而不依赖于查询。
表4 准确率及F1分数对比
Figure DEST_PATH_IMAGE231
本发明还通过使用期望校准误差(ECE)作为指标来评估校准不确定度。其中,预测置信度的概念被引入来表示与预测的类别标签相关的概率,期望校准误差ECE根据M个间隔区间来估计准确性和置信度(confidence)之间的差异:
Figure DEST_PATH_IMAGE233
由于此经验指标仅适用于分类设置,因此仅对IEMOCAP进行评估。如表5所示,结果基于四次测试取平均值,可知本发明所提出的模型的预期校准误差(ECE)远低于使用的基础架构。在没有任何不确定性感知模块的情况下(表2中的变量9),本发明所提出的HU-Dialogue的平均ECE为0.402,比DialogueRNN(0.423)的校准程度略高。当使用SANPA时,ECE值下降3.7%至0.365。同样,在CapsNet中应用蒙特卡洛丢弃MC-dropout可以进一步产生更好的校准,与基线DialogueRNN相比,本发明所提供的HU-Dialogue将ECE降低了8.5%至0.338,充分证明了本发明所提供的模型能够估计不确定性并提高可靠性。
表5预期校准误差对比
Figure DEST_PATH_IMAGE235
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,包括以下步骤:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中得到的单模态情绪表征进行含有不确定性估计的融合并进行情绪模态预测。
2.据权利要求1所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,
所述全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将所述全局状态特征传输到所述源自适应噪声干扰注意力模块;
所述多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的层归一化;
所述源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将所述上下文关系向量传输到所述说话者神经网络单元;
所述说话者神经网络单元用于结合所述当前轮次各单模态语句以及所述上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到所述情绪神经网络单元;
所述情绪神经网络单元用于对所述更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将所述各单模态情绪表征传输到所述基于胶囊网络的预测层;
所述基于胶囊网络的预测层用于对所述各单模态情绪表征进行含有不确定性估计的融合与情绪模态预测。
3.根据权利要求2所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S2具体为:
将当前轮次会话中各单模态语句输入所述全局神经网络单元中进行特征提取,并通过所述多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
4.根据权利要求3所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声;
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
为噪声干扰的注意力权重,t为当前轮次,
Figure DEST_PATH_IMAGE006
为当前输入查询语句,
Figure DEST_PATH_IMAGE008
为当前输入查询语句的转置,
Figure DEST_PATH_IMAGE010
为可学习网络参数,
Figure DEST_PATH_IMAGE012
为前t-1轮的全局状态特征,
Figure DEST_PATH_IMAGE014
为加性高斯噪声;
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
为上下文关系向量。
5.根据权利要求4所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S32中加性高斯噪声
Figure DEST_PATH_IMAGE019
表示为:
Figure DEST_PATH_IMAGE021
其中,
Figure DEST_PATH_IMAGE023
为预设参数,
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
参数化的均值,
Figure DEST_PATH_IMAGE028
Figure 117941DEST_PATH_IMAGE026
参数化的标准方差,
Figure DEST_PATH_IMAGE030
为用于产生噪声的网络的参数。
6.根据权利要求5所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S4具体为:
利用所述说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
为说话者神经网络单元,
Figure DEST_PATH_IMAGE036
是更新后的说话者
Figure DEST_PATH_IMAGE038
在第t轮的状态。
7.根据权利要求6所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S5具体为:
利用所述情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:
Figure DEST_PATH_IMAGE040
其中,
Figure DEST_PATH_IMAGE042
为当前轮次的单模态情绪表征,
Figure DEST_PATH_IMAGE044
为上一轮次的单模态情绪表征,
Figure DEST_PATH_IMAGE046
是情绪神经网络单元。
8.根据权利要求7所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S6具体包括以下分步骤:
S61、利用所述基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
Figure DEST_PATH_IMAGE048
其中,
Figure DEST_PATH_IMAGE050
为类别概率值,
Figure DEST_PATH_IMAGE052
为归一化指数函数,
Figure DEST_PATH_IMAGE054
为可学习网络参数,
Figure DEST_PATH_IMAGE056
为融合后的单模态情绪表征,
Figure DEST_PATH_IMAGE058
为胶囊网络,
Figure DEST_PATH_IMAGE060
分别为当前轮次的文本、视觉以及声音单模态情绪表征;
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
Figure DEST_PATH_IMAGE064
其中,
Figure DEST_PATH_IMAGE066
是当前输入查询语句u t 的预测标签,
Figure DEST_PATH_IMAGE068
表示第k个类别的概率值。
CN202110747678.6A 2021-07-02 2021-07-02 一种对多模态情绪识别进行层次不确定性量化估计的方法 Active CN113257281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110747678.6A CN113257281B (zh) 2021-07-02 2021-07-02 一种对多模态情绪识别进行层次不确定性量化估计的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110747678.6A CN113257281B (zh) 2021-07-02 2021-07-02 一种对多模态情绪识别进行层次不确定性量化估计的方法

Publications (2)

Publication Number Publication Date
CN113257281A true CN113257281A (zh) 2021-08-13
CN113257281B CN113257281B (zh) 2021-09-21

Family

ID=77190447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110747678.6A Active CN113257281B (zh) 2021-07-02 2021-07-02 一种对多模态情绪识别进行层次不确定性量化估计的方法

Country Status (1)

Country Link
CN (1) CN113257281B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118200A (zh) * 2021-09-24 2022-03-01 杭州电子科技大学 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582042A (zh) * 2020-04-15 2020-08-25 五邑大学 一种校园安全管理方法、系统、装置和存储介质
CN111651604A (zh) * 2020-06-04 2020-09-11 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法和相关装置
US20200320365A1 (en) * 2019-04-03 2020-10-08 HIA Technologies Inc. Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character in an Augmented Environment
CN112231477A (zh) * 2020-10-20 2021-01-15 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112380872A (zh) * 2020-11-27 2021-02-19 深圳市慧择时代科技有限公司 一种目标实体的情感倾向确定方法及装置
CN112562725A (zh) * 2020-12-09 2021-03-26 山西财经大学 基于语谱图和胶囊网络的混合语音情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320365A1 (en) * 2019-04-03 2020-10-08 HIA Technologies Inc. Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character in an Augmented Environment
CN111582042A (zh) * 2020-04-15 2020-08-25 五邑大学 一种校园安全管理方法、系统、装置和存储介质
CN111651604A (zh) * 2020-06-04 2020-09-11 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法和相关装置
CN112231477A (zh) * 2020-10-20 2021-01-15 淮阴工学院 一种基于改进胶囊网络的文本分类方法
CN112380872A (zh) * 2020-11-27 2021-02-19 深圳市慧择时代科技有限公司 一种目标实体的情感倾向确定方法及装置
CN112562725A (zh) * 2020-12-09 2021-03-26 山西财经大学 基于语谱图和胶囊网络的混合语音情感分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIAXING LIU等: ""Speech Emotion Recognition with Local-Global Aware Deep Representation Learning"", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
NGOC-HUYNH HO等: ""Multimodal Approach of Speech Emotion"", 《IEEE ACCESS》 *
林悦 等: ""基于胶囊网络的跨领域情感分类方法"", 《南京信息工程大学学报(自然科学版) 》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118200A (zh) * 2021-09-24 2022-03-01 杭州电子科技大学 一种基于注意力引导双向胶囊网络的多模态情感分类方法

Also Published As

Publication number Publication date
CN113257281B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
CN111368609B (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
WO2021103761A1 (zh) 化合物的性质分析方法、模型训练方法、装置及存储介质
Han et al. Prediction-based learning for continuous emotion recognition in speech
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
US11721333B2 (en) Electronic apparatus and control method thereof
CN106875940B (zh) 一种基于神经网络的机器自学习构建知识图谱训练方法
Sun et al. Dynamic emotion modelling and anomaly detection in conversation based on emotional transition tensor
CN114550705B (zh) 对话推荐方法、模型的训练方法、装置、设备及介质
US20210012766A1 (en) Voice conversation analysis method and apparatus using artificial intelligence
KR102697095B1 (ko) Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
Chen et al. Modeling hierarchical uncertainty for multimodal emotion recognition in conversation
Spaulding et al. Frustratingly easy personalization for real-time affect interpretation of facial expression
CN111159279B (zh) 一种模型可视化方法、设备及存储介质
CN113257281B (zh) 一种对多模态情绪识别进行层次不确定性量化估计的方法
WO2022141142A1 (zh) 一种确定目标音视频的方法及系统
Hirano et al. Recognizing social signals with weakly supervised multitask learning for multimodal dialogue systems
Wu et al. AB-GRU: An attention-based bidirectional GRU model for multimodal sentiment fusion and analysis
CN116956856A (zh) 一种数据处理方法、装置、存储介质和电子设备
Du et al. Multimodal emotion recognition based on feature fusion and residual connection
CN112364258B (zh) 基于图谱的推荐方法、系统、存储介质及电子设备
CN115545738A (zh) 一种推荐方法及相关装置
Raju et al. Continuous multi-modal emotion prediction in video based on recurrent neural network variants with attention

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant