CN113257281A - 一种对多模态情绪识别进行层次不确定性量化估计的方法 - Google Patents
一种对多模态情绪识别进行层次不确定性量化估计的方法 Download PDFInfo
- Publication number
- CN113257281A CN113257281A CN202110747678.6A CN202110747678A CN113257281A CN 113257281 A CN113257281 A CN 113257281A CN 202110747678 A CN202110747678 A CN 202110747678A CN 113257281 A CN113257281 A CN 113257281A
- Authority
- CN
- China
- Prior art keywords
- mode
- modal
- uncertainty
- emotion
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 63
- 238000013528 artificial neural network Methods 0.000 claims abstract description 60
- 238000010606 normalization Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 40
- 239000002775 capsule Substances 0.000 claims abstract description 30
- 230000002996 emotional effect Effects 0.000 claims abstract description 29
- 230000003044 adaptive effect Effects 0.000 claims abstract description 9
- 238000012512 characterization method Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 11
- 239000000654 additive Substances 0.000 claims description 10
- 230000000996 additive effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 43
- 238000010586 diagram Methods 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种对多模态情绪识别进行层次不确定性量化估计的方法,通过构建权重共享三元网络模型,并通过模型中多模态条件层归一化模块提取当前各模态语句的全局状态特征;利用模型中源自适应噪声干扰注意力模块结合之前轮次的全局状态特征得到上下文关系向量,结合前一轮次各单模态语句更新说话者状态,并利用模型中情绪神经网络单元提取更新后说话者状态特征,得到各单模态情绪表征,最终利用模型中基于胶囊的预测层对各单模态情绪表征进行融合、预测;本发明通过引入上下文层级不确定性和模态层级不确定性,完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统量化估计不确定性的能力,提高估计的可靠性,改进情感计算模型的性能。
Description
技术领域
本发明涉及多模态情绪识别技术领域,具体涉及一种对多模态情绪识别进行层次不确定性量化估计的方法。
背景技术
情绪识别(Emotion Recognition)是情感计算研究中最基础也最重要的领域,旨在赋予机器以发现和理解人类情感状态并做出相应响应的能力,即通过对人的面部表情、语音语调、文本内容或者身体生理信号等各种模态数据的学习,识别出人类的情绪状态。会话中的情绪识别(Emotion Recognition in Conversation)则进一步探索在交互会话中互相影响转变的情绪并对其进行准确建模。情绪识别研究对来自不同领域的很多应用大有益处,例如智能人机交互系统,智能业务和客户服务系统以及远程医疗系统。
针对会话中的情绪识别问题,研究者们提出了很多方法,例如改进模态融合方法,使用注意力机制、记忆网络以及图网络等。现存的工作主要致力于对多模态关系、上下文关系、以及说话者的自我及互相影响这三方面进行建模,但是这些系统都没有尝试对其预测结果的不确定性和可靠性进行量化估计。
神经网络常被诟病的一大缺点在于,它时常会表现得过于自信,使得其输出结果的可靠性降低。而估计模型预测的不确定性可以提供一个衡量其可靠性的量化指标。不确定性估计能反映模型对其预测结果的信心以及这些预测结果的可靠性,这对于情感智能体至关重要,尤其是在容错能力较低的情况下(例如抑郁症检测)。因此有必要赋予情绪识别系统以量化估计不确定性的能力,进一步提高情感计算模型的性能。
发明内容
针对现有技术中的上述不足,本发明提供了一种对多模态情绪识别进行层次不确定性量化估计的方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。
该方案的进一步有益效果为:
1、模态参数在每个模态分支间实现共享;
2、完成对预测结果不确定性与可靠性的量化估计,赋予情绪识别系统以量化估计不确定性的能力;
3、提高层次不确定性量化估计的可靠性,改进情感计算模型的性能;
4、通过源与查询的共同贡献,获得更好的注意力机制性能;
5、有针对性的提高模型的鲁棒性与泛化能力;
6、加强每个分支传播开始处的细粒度跨膜态嵌入。
进一步地,
所述全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将所述全局状态特征传输到所述源自适应噪声干扰注意力模块;
所述多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的层归一化;
所述源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将所述上下文关系向量传输到所述说话者神经网络单元;
所述说话者神经网络单元用于结合所述当前轮次各单模态语句以及所述上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到所述情绪神经网络单元;
所述情绪神经网络单元用于对所述更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将所述各单模态情绪表征传输到所述基于胶囊网络的预测层;
所述基于胶囊网络的预测层用于对所述各单模态情绪表征进行含有不确定性估计的融合与情绪模态预测。
该进一步有益效果为:
权重共享三元网络模型便于探索模态的同变性与不变性,捕捉模态间的关系并学习其中的平衡关系,从而对模态不变性进行建模。
进一步地,所述步骤S2具体为:
将当前轮次会话中各单模态语句输入所述全局神经网络单元中进行特征提取,并通过所述多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
该进一步有益效果为:
在全局神经网络提取状态特征时,构建多模态条件层归一化模块,通过嵌入额外学习参数,优化原始归一层方法,在源模态的监督下操作目标模态传播,引导信息相应地平移、缩放,进行归一化处理,通过将单模态语义细节嵌入另一个模态分支有助于提高模型对同变性的学习,从而与权重共享中着重于探索不变性的设计进行互补。
进一步地,所述步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声;
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
该进一步有益效果为:
通过在细粒度的上下文层级上对不确定性进行建模,有针对性的提高模型的鲁棒性与泛化能力。
该进一步有益效果为:
将均值和方差建模得到与源相关的函数,从而使得基于给定的源和查询实例,使得具有较大方差的嘈杂注意力能够反映出模型不确定的区域。
进一步地,所述步骤S4具体为:
利用所述说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:
该进一步有益效果为:
说话者状态传播和存储各个参与者在对话中的状态,使模型能够了解不同说话者的特定表达模式。
进一步地,所述步骤S5具体为:
利用所述情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:
该进一步有益效果为:
进一步地,所述步骤S6具体包括以下分步骤:
S61、利用所述基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
该进一步有益效果为:
胶囊网络的基本单位为胶囊,即神经元的向量,其构造使其具有为每个类别维护独特参数以聚合特征从而保留额外信息的能力。利用胶囊网络对复杂的模态关系进行蒸馏,学习多种模态的交互效果,捕捉可能具有多个极性(如在冲突模态中)或模棱两可的情感的复杂模态级别的信息,提高预测结果的可靠性。
附图说明
图1为本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法步骤示意图;
图2为本发明提供的权重共享三元网络结构示意图;
图3为本发明提供的多模态条件层归一化模块MCLN结构示意图;
图4为本发明中步骤S3的分步骤;
图5为本发明提供的源自适应噪声干扰注意力模块SANPA 结构示意图;
图6为本发明中步骤S6的分步骤;
图7为本发明提供的基于胶囊网络的向量级dropout结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1、图2所示,本发明提供的一种对多模态情绪识别进行层次不确定性量化估计的方法,包括以下步骤S1至步骤S6:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
本实施例中,
全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将全局状态特征传输到源自适应噪声干扰注意力模块;
多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的归一化;
源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将上下文关系向量传输到说话者神经网络单元;
说话者神经网络单元用于结合当前轮次各单模态语句以及上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到情绪神经网络单元;
情绪神经网络单元用于对更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将各单模态情绪表征传输到基于胶囊网络的预测层;
基于胶囊网络的预测层用于对各单模态情绪表征进行含有不确定性估计的融合融合与情绪模态预测。
实际中,权重共享三元网络模型以DialogueRNN模型作为每个三元组分支的基础架构,分别使用全局神经网络单元、情绪神经网络单元以及说话者神经网络单元来捕获情绪动态,并结合注意力机制获得当前输入查询语句的上下文关系向量,完成情绪模态预测。
本发明中会话语句的情绪主要取决于:1)目标语句的上下文;2)目标语句的多模态信息的联合效应;分别为上下文依赖层级和多模态融合层级两个细粒度的级别上量化估计不确定性;权重共享三元网络模型保证了探索模态的同变性与不变性,权重共享三元网络模型中全局神经网络单元、情绪神经网络单元以及说话者神经网络单元都以循环方式工作,并且参数在每个模态分支间共享,每个模态均在分支中传播,以单独获得单模态情绪状态,然后将其融合并馈送到胶囊网络层中进行融合并做最终预测。
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
如图3所示,本实施例中,步骤S2具体为:
将当前轮次会话中各单模态语句输入全局神经网络单元中进行特征提取,并通过多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
实际中,异步交换的双人会话中的N个语句的情绪,其中每个语句都包含多种模态:文本模态,视觉模态和声音模态,利用权重共享三元网络模型的全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,得到当前各模态语句的全局特征,其中权重共享设计着重挖掘模态间的不变性。
本发明为了探索模态间的同变性,进一步加强每个分支传播开始处的细粒度跨模态嵌入,构建了多模态条件层归一化模块,通过在原始的层归一化法上添加额外学习参数,得到条件层归一化法,表示为:
其中,为目标模态的全局特征,为源模态条件,为目标模态,为源模态,分别为文本模态、声音模态以及视觉模态,与分别为与目标模态的全局特征相关的增益和偏差,与分别为同一网络层中所有隐藏单元上的均值和标准差,为数值极小的常数,用于避免除零,与分别为条件层归一化的学习参数,分别表示为:
原始的层归一化方法(LN)根据隐藏层中的神经元对目标模态的全局特征进行归一化,本发明中将原始的层归一化方法进行改进,给定来自源模态的条件,条件层归一化学习一组额外的学习参数与,得到条件层归一化方法(CLN)从而在源模态的监督下操作目标模态的特征图;由于现有的大多数使用条件归一化的工作,都是在双模态情境中设定的,本发明中将条件层归一化方法(CLN)调整为适应多模态设置的任务,构造多模态条件层归一化模块(MCLN),进一步加强每个分支传播开始处的细粒度跨模态嵌入,通过一种模态信息相应地重新平移、缩放另一模态的特征。
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
实际中,本发明将上下文定义为源,将参与计算注意力的目标语句定义为查询,在以源为特征的条件高斯分布中采样,将采样的噪声注入softmax函数之前的注意力权重值中,对各单模态语句的全局状态特征施加注意力特征,将方差更大的噪声分配给不确定度更大的区域,即有较大方差的嘈杂注意力能反映模型不确定的区域,得到当前各单模态语句具有的不确定性感知的上下文关系向量,保证源和查询的联合贡献。
如图4、图5所示,本实施例中,步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声,表示为:
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
其中,为噪声干扰的注意力权重,t为当前轮次,为当前输入查询语句,,为当前输入查询语句的转置,为可学习网络参数,,为前t-1轮的全局状态特征,即为上下文源向量,,为加性高斯噪声,分别为输入查询语句与全局状态的特征维度;
实际中,本发明中源自适应噪声干扰注意力模块围绕噪声注入的思想,精准针对每个模态和对话回合中的上下文注意力,没有将噪声注入网络权重,而是将噪声注入注意力的源和查询的乘积,即归一化之前的注意力权重中。
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
本实施例中,步骤S4具体为:
利用说话者神经网络单元根据步骤S4中上下文关系向量与当前轮次各单模态语句更新说话者状态特征,表示为:
其中,m为会话参与者。
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
本实施例中,步骤S5具体为:
利用情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到单模态情绪表征,表示为:
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中单模态情绪表征进行含有不确定性估计的融合,并进行情绪模态预测。
如图6、图7所示,本实施例中,步骤S6具体包括以下分步骤:
S61、利用基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
实际中,蒙特卡洛丢弃MC-dropout等同于最小化真实后验与其近似值之间的KL散度,而仅需要在测试阶段使用dropout和采样。因此,本发明中调整蒙特卡洛丢弃MC-dropout使其适应胶囊网络,执行模态层级不确定性估计;
在获得单模态情感表征并进行含有不确定性估计的融合之后,模态层级不确定性使用蒙特卡洛丢弃MC-dropout在预测层中建模,将dropout应用进CapsNet中不是本领域中常用的手段,因为标准dropout方法丢弃随机的参数为元素,而在CapsNet的基本组成部分中参数为向量,因此胶囊网络需要向量级别的dropout而不是元素级别,因此本发明中在模型中采用向量级dropout。
本发明中采用通用数据集IEMOCAP和AVEC进行验证。在IEMOCAP上进行情绪分类,使用F1和准确率(accuracy)进行评价,而在AVEC上进行情绪回归,使用平均绝对误差(MeanAbsolute Error,简称MAE)和皮尔逊相关系数(Pearson correlationCoefficient,简写为r)进行评价,采用三种模态,即文本,视频和音频。首先使用预先提取的单模态特征,遵循先前工作中相同的提取程序,与其他噪声注入方法相同,本发明中设计的源自适应噪声干扰注意力模块SANPA仅在训练中使用,在测试过程中被标准注意力所取代。对于胶囊网络CapsNet而言,胶囊的数量为5,每个胶囊的尺寸为150。路由的数量设置为1,在压榨过程之前应用向量级dropout;测试阶段,对预测进行25次抽样来测量不确定性,并给出平均结果,dropout值在IEMOCAP上设置为0.4,在AVEC上设置为0.2。
如表1所示,在数据集IEMOCAP上,本发明提供的模型在准确性和F1得分方面均优于其他方法。尤其是,在多模态设定中,本发明提供的模型优于使用的基础架构DialogueRNN,并在精确度上提升2.22%,在F1得分上提升2.46%。在AVEC数据集上,除了“Power”属性的平均绝对误差(MAE)以外,我们的模型在所有其他指标上均优于以前的方法,并且,我们提出的HU-Dialogue在所有四个属性上产生的皮尔逊相关系数(r)明显较高,以及在其他三个属性上的MAE误差明显较低。
表1与主流模型有效方法间比较
本发明提出了多种变体结构,通过删除组成模块来探索HU-Dialogue各个模块的有效性。如表2所示,显示了对这些变体模型的评估,其中,对于采用蒙特卡洛丢弃MC-dropout的变体,在测试过程中,通过25次Monte Carlo采样对结果进行平均,其中WS表示权重共享。
表2 多种变体结构模型的评估
1)权重共享 vs非共享。
变体1-6为每个模态保留一个分支,且使用权重非共享结构。在IEMOCAP上,除变量7的准确率和变量11的F1分数外,权重共享模型(分别对应变量7-12)皆取得更好的性能。总的来说,共享权重可使F1分数平均提高0.37%,准确性平均提高0.54%。在AVEC上,皮尔逊相关系数(r)在所有四个属性上都有改善。我们认为,这是由于权重共享结构能够捕获潜在的模态关联,学习微妙的平衡以及对模态之间的不变性进行建模。
2)CapsNet中dropout的作用。
变体4和10遵循胶囊网络CapsNet的传统,即不使用dropout,而变体5和11中采用了向量级dropout(表示为vec-dropout)。从表2中可以明显看出,在两个数据集上,vec-dropout略有提高性能,而应用蒙特卡洛丢弃MC-dropout(变量6和12)带来更大的改进,唯一的例外是IEMOCAP上非共享设置(变量6)的准确度。具体而言,IEMOCAP上的F1得分提高了1%以上,AVEC的所有四个属性的皮尔逊相关系数(r)结果也得到了显著改善。
3)MCLN的作用。
变体1、2、7和8不使用MCLN,而变体3、4、9和10提供了相应的使用MCLN的模型比较。在IEMOCAP上,可以观察到F1分数平均提高了0.83%,准确度平均提高了1.25%。在AVEC上,使用MCLN在所有四个属性上均获得了更高的r结果,其中“Power”属性对MCLN的敏感度最低,而“Arousal”属性的受益最大。还应注意的是,使用权重共享的变体模型(9和10)比非共享的变体(3和4)获得更多的相对改进。这证实了我们的假设,即MCLN和权重共享结构是相互补充的,分别探索了同变性和不变性。
如表3所示,完全连接模式(MCLN-FC)和顺序模式(MCLN-SQ,如图2所示)的影响。可以看出,在两个指标上,MCLN-SQ均明显优于MCLN-FC,并且当采用蒙特卡洛丢弃MC-dropout时,差距会更大。
表3 额外的IEMOCAP数据集上的针对MCLN模式的消融研究
4)SANPA的作用。
变体1、3、7和9使用标准注意力模块,而变体2、4、8和10对应替换为SANPA模块。在IEMOCAP上,使用SANPA的方法在两个指标上均获得更好的性能。在AVEC上,同样地,SANPA在所有属性上的表现都超过了标准注意力方法,如表4所示,带有UA的HU-Dialogue略优于标准注意力模块,但依旧低于本发明所提供的SANPA模块,其中,UA是另一种不确定性注意力机制,UA为注意力权重值学习一个后验分布,而本发明中在以源为特征的条件高斯分布中采样,并将采样的噪声注入到softmax函数之前的注意力权重值中,SANPA保证源和查询的联合贡献,而UA方法仅依赖于源而不依赖于查询。
表4 准确率及F1分数对比
本发明还通过使用期望校准误差(ECE)作为指标来评估校准不确定度。其中,预测置信度的概念被引入来表示与预测的类别标签相关的概率,期望校准误差ECE根据M个间隔区间来估计准确性和置信度(confidence)之间的差异:
由于此经验指标仅适用于分类设置,因此仅对IEMOCAP进行评估。如表5所示,结果基于四次测试取平均值,可知本发明所提出的模型的预期校准误差(ECE)远低于使用的基础架构。在没有任何不确定性感知模块的情况下(表2中的变量9),本发明所提出的HU-Dialogue的平均ECE为0.402,比DialogueRNN(0.423)的校准程度略高。当使用SANPA时,ECE值下降3.7%至0.365。同样,在CapsNet中应用蒙特卡洛丢弃MC-dropout可以进一步产生更好的校准,与基线DialogueRNN相比,本发明所提供的HU-Dialogue将ECE降低了8.5%至0.338,充分证明了本发明所提供的模型能够估计不确定性并提高可靠性。
表5预期校准误差对比
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (8)
1.一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,包括以下步骤:
S1、构建包括全局神经网络单元、情绪神经网络单元、说话者神经网络单元、多模态条件层归一化模块、源自适应噪声干扰注意力模块以及基于胶囊网络的预测层的权重共享三元网络模型;
S2、利用步骤S1中全局神经网络单元对当前轮次会话中各单模态语句进行特征提取,并通过步骤S1中多模态条件层归一化模块对提取的全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征;
S3、利用步骤S1中源自适应噪声干扰注意力模块,对之前轮次会话中各单模态语句的全局状态特征施加注意力,得到当前各单模态语句的具有不确定性感知的上下文关系向量;
S4、利用步骤S1中说话者神经网络单元根据步骤S3中上下文关系向量与当前轮次各单模态语句更新说话者状态特征;
S5、利用步骤S1中情绪神经网络单元对步骤S4中更新后的说话者状态特征进行特征提取,得到各单模态情绪表征;
S6、利用步骤S1中基于胶囊网络预测层对步骤S5中得到的单模态情绪表征进行含有不确定性估计的融合并进行情绪模态预测。
2.据权利要求1所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,
所述全局神经网络单元用于提取当前轮次会话中各单模态语句的全局特征并作跨模态引导的层归一化处理,得到全局状态特征,然后将所述全局状态特征传输到所述源自适应噪声干扰注意力模块;
所述多模态条件层归一化模块用于对各单模态语句的全局特征进行跨模态引导的层归一化;
所述源自适应噪声干扰注意力模块用于结合之前轮次会话中各单模态语句的全局状态特征,得到具有不确定性感知的上下文关系向量,并将所述上下文关系向量传输到所述说话者神经网络单元;
所述说话者神经网络单元用于结合所述当前轮次各单模态语句以及所述上下文关系向量更新说话者状态特征,并将更新后的说话者状态传输到所述情绪神经网络单元;
所述情绪神经网络单元用于对所述更新后的说话者状态进行特征提取,得到各单模态情绪表征,并将所述各单模态情绪表征传输到所述基于胶囊网络的预测层;
所述基于胶囊网络的预测层用于对所述各单模态情绪表征进行含有不确定性估计的融合与情绪模态预测。
3.根据权利要求2所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S2具体为:
将当前轮次会话中各单模态语句输入所述全局神经网络单元中进行特征提取,并通过所述多模态条件层归一化模块维持一个单向序列,利用当前轮次会话中各单模态语句依次引导另一模态的全局状态特征进行缩放与平移,对全局特征进行跨模态引导的层归一化,得到当前各模态语句的全局状态特征。
4.根据权利要求3所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S3具体包括以下分步骤:
S31、利用源自适应噪声干扰注意力模块根据当前输入查询语句的均值与方差构建加性高斯噪声;
S32、将步骤S31中加性高斯噪声注入注意力机制中归一化前的注意力权重,计算噪声干扰的注意力权重,表示为:
S33、利用步骤S32中噪声干扰的注意力权重与之前轮次会话中各单模态语句的全局状态特征计算上下文关系向量,表示为:
8.根据权利要求7所述的一种对多模态情绪识别进行层次不确定性量化估计的方法,其特征在于,所述步骤S6具体包括以下分步骤:
S61、利用所述基于胶囊的预测层对步骤S5得到的单模态情绪表征进行含有不确定性估计的融合,得到融合后的单模态情绪表征;
S62、结合向量级dropout法将步骤S61中融合后的单模态情绪表征进行模态层级不确定性估计,表示为:
S63、利用步骤S62得到的模态层级不确定性估计进行情绪模态预测,表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747678.6A CN113257281B (zh) | 2021-07-02 | 2021-07-02 | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110747678.6A CN113257281B (zh) | 2021-07-02 | 2021-07-02 | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257281A true CN113257281A (zh) | 2021-08-13 |
CN113257281B CN113257281B (zh) | 2021-09-21 |
Family
ID=77190447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110747678.6A Active CN113257281B (zh) | 2021-07-02 | 2021-07-02 | 一种对多模态情绪识别进行层次不确定性量化估计的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257281B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118200A (zh) * | 2021-09-24 | 2022-03-01 | 杭州电子科技大学 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582042A (zh) * | 2020-04-15 | 2020-08-25 | 五邑大学 | 一种校园安全管理方法、系统、装置和存储介质 |
CN111651604A (zh) * | 2020-06-04 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的情感分类方法和相关装置 |
US20200320365A1 (en) * | 2019-04-03 | 2020-10-08 | HIA Technologies Inc. | Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character in an Augmented Environment |
CN112231477A (zh) * | 2020-10-20 | 2021-01-15 | 淮阴工学院 | 一种基于改进胶囊网络的文本分类方法 |
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN112562725A (zh) * | 2020-12-09 | 2021-03-26 | 山西财经大学 | 基于语谱图和胶囊网络的混合语音情感分类方法 |
-
2021
- 2021-07-02 CN CN202110747678.6A patent/CN113257281B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320365A1 (en) * | 2019-04-03 | 2020-10-08 | HIA Technologies Inc. | Computer System and Method for Facilitating an Interactive Conversational Session with a Digital Conversational Character in an Augmented Environment |
CN111582042A (zh) * | 2020-04-15 | 2020-08-25 | 五邑大学 | 一种校园安全管理方法、系统、装置和存储介质 |
CN111651604A (zh) * | 2020-06-04 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的情感分类方法和相关装置 |
CN112231477A (zh) * | 2020-10-20 | 2021-01-15 | 淮阴工学院 | 一种基于改进胶囊网络的文本分类方法 |
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN112562725A (zh) * | 2020-12-09 | 2021-03-26 | 山西财经大学 | 基于语谱图和胶囊网络的混合语音情感分类方法 |
Non-Patent Citations (3)
Title |
---|
JIAXING LIU等: ""Speech Emotion Recognition with Local-Global Aware Deep Representation Learning"", 《ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
NGOC-HUYNH HO等: ""Multimodal Approach of Speech Emotion"", 《IEEE ACCESS》 * |
林悦 等: ""基于胶囊网络的跨领域情感分类方法"", 《南京信息工程大学学报(自然科学版) 》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118200A (zh) * | 2021-09-24 | 2022-03-01 | 杭州电子科技大学 | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113257281B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zadeh et al. | Memory fusion network for multi-view sequential learning | |
CN111368609B (zh) | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 | |
WO2021103761A1 (zh) | 化合物的性质分析方法、模型训练方法、装置及存储介质 | |
Han et al. | Prediction-based learning for continuous emotion recognition in speech | |
Wen et al. | Dynamic interactive multiview memory network for emotion recognition in conversation | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
US11721333B2 (en) | Electronic apparatus and control method thereof | |
CN106875940B (zh) | 一种基于神经网络的机器自学习构建知识图谱训练方法 | |
Sun et al. | Dynamic emotion modelling and anomaly detection in conversation based on emotional transition tensor | |
CN114550705B (zh) | 对话推荐方法、模型的训练方法、装置、设备及介质 | |
US20210012766A1 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
KR102697095B1 (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
Chen et al. | Modeling hierarchical uncertainty for multimodal emotion recognition in conversation | |
Spaulding et al. | Frustratingly easy personalization for real-time affect interpretation of facial expression | |
CN111159279B (zh) | 一种模型可视化方法、设备及存储介质 | |
CN113257281B (zh) | 一种对多模态情绪识别进行层次不确定性量化估计的方法 | |
WO2022141142A1 (zh) | 一种确定目标音视频的方法及系统 | |
Hirano et al. | Recognizing social signals with weakly supervised multitask learning for multimodal dialogue systems | |
Wu et al. | AB-GRU: An attention-based bidirectional GRU model for multimodal sentiment fusion and analysis | |
CN116956856A (zh) | 一种数据处理方法、装置、存储介质和电子设备 | |
Du et al. | Multimodal emotion recognition based on feature fusion and residual connection | |
CN112364258B (zh) | 基于图谱的推荐方法、系统、存储介质及电子设备 | |
CN115545738A (zh) | 一种推荐方法及相关装置 | |
Raju et al. | Continuous multi-modal emotion prediction in video based on recurrent neural network variants with attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |