CN116089906B - 基于动态上下文表示和模态融合的多模态分类方法及系统 - Google Patents

基于动态上下文表示和模态融合的多模态分类方法及系统 Download PDF

Info

Publication number
CN116089906B
CN116089906B CN202310232058.8A CN202310232058A CN116089906B CN 116089906 B CN116089906 B CN 116089906B CN 202310232058 A CN202310232058 A CN 202310232058A CN 116089906 B CN116089906 B CN 116089906B
Authority
CN
China
Prior art keywords
fusion
features
mode
modes
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310232058.8A
Other languages
English (en)
Other versions
CN116089906A (zh
Inventor
吴建龙
杨浩哲
高先强
聂礼强
甘甜
丁宁
姜飞俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Maojing Artificial Intelligence Technology Co ltd
Shandong University
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Zhejiang Maojing Artificial Intelligence Technology Co ltd
Shandong University
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Maojing Artificial Intelligence Technology Co ltd, Shandong University, Shenzhen Graduate School Harbin Institute of Technology filed Critical Zhejiang Maojing Artificial Intelligence Technology Co ltd
Priority to CN202310232058.8A priority Critical patent/CN116089906B/zh
Publication of CN116089906A publication Critical patent/CN116089906A/zh
Application granted granted Critical
Publication of CN116089906B publication Critical patent/CN116089906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理中的对话情感识别技术领域,提供了一种基于动态上下文表示和模态融合的多模态分类方法及系统,其解决了每个模态的特征未得到充分的分析,也没有根据其特性进行针对性地处理的问题。其中,基于动态上下文表示和模态融合的多模态分类方法将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征。其提高了最终识别任务类别的准确性。

Description

基于动态上下文表示和模态融合的多模态分类方法及系统
技术领域
本发明涉及自然语言处理中的对话信息识别技术领域,尤其涉及一种基于动态上下文表示和模态融合的多模态分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
多模态分类是指利用多种类型的数据来源,如文本、图像、音频等,对一个对象或事件进行分类的过程。在现代计算机技术和机器学习的发展中,多模态分类已经变得越来越重要。通过整合来自多个感官的信息,可以更准确地理解和描述复杂的现实世界。例如,当处理社交媒体的文本时,机器通过同事考虑文本、图像、视频、语音等多方面的信息,可以更好的理解用户发出的消息。不同的模态数据通过互相补充,让机器可以更好地理解文本信息的上下文和情感含义。多模态分类可以广泛应用到多个领域,其中一个应用示例是多模态对话情感分类。
例如:对话情感分类(ERC)长期以来一直是多模态分类和自然语言处理(NLP)领域中一个活跃的话题。作为人类日常交流的重要组成部分,识别和追踪对话中说话者的情绪状态对人机交互、对话分析和视频理解等领域的发展至关重要,存在广泛的潜在应用价值。随着流媒体服务的发展,许多对话情感识别数据集,如IEMOCAP,MELD为相关的研究工作提供了一个新平台。对话情感识别的一个关键点是如何有效利用对话的上下文信息,最近提出的一些方法包括DialogueRNN和DialogueGCN。前者提出了一种基于RNN的上下文信息融合方法,该方法在整个对话过程中保持对各个说话者状态的跟踪;后者提出了一个基于图神经网络(GNN)的模型,在其中使用上下文滑动窗口来捕获上下文信息。
其中,在对话情感识别任务中,现有工作大体上可以根据其所使用的模态信息分为两类:单模态方法和多模态方法。单模态方法只使用文本模态的信息来完成情感识别的任务,而多模态方法则融合了文本、视觉和听觉三个模态的信息。例如,COGMEN除了使用一个基于图神经网络的架构来模拟对话中的依赖关系之外,还使用Transformer编码器来融合多种模态信息;MMGCN基于一个图卷积网络来融合多模态信息和长距离语境上下文信息。然而,尽管以上方法同时使用了多模态交互和语境信息,但其模态交互的实现方式仍旧十分简单:COGMEN只是简单地将不同模态的特征拼接起来,MMGCN几乎以同样的方式处理不同的模态。这样使得多模态数据集中的每个模态的特征都没有得到充分的分析,也没有根据其特性进行针对性地处理,最终降低了任务识别的准确性。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于动态上下文表示和模态融合的多模态分类方法及系统,其对多模态过程中不同模态信息量不一致进行了区分和针对性处理,减少了模态融合过程中信息量较少的模态带来的噪音,能够提高最终识别任务类别的准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于动态上下文表示和模态融合的多模态分类方法。
一种基于动态上下文表示和模态融合的多模态分类方法,其包括:
获取对话信息,提取所述对话信息中的所有模态的特征;
将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;
将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征;
基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别;
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征。
此处需要说明的是,动态路径选择方法可看成一个模型,这个预先定义的特征就是动态路径选择方法模型里的参数,动态路径选择方法模型接收多个输入后会和这个预先定义的特征计算相似度,加权求和,输出融合后(即加权求和后)的特征。
作为一种实施方式,所述对话信息中的模态包括声音模态、文本模态和视频模态。
作为一种实施方式,在每个模态的特征进行全局上下文表征的过程中,通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并,将合并的特征通过线性映射得到全局上下文表示特征。
作为一种实施方式,将每个模态的特征进行局部上下文表征的过程中,使用双向GRU 网络提取局部特征。
作为一种实施方式,将每个模态的特征进行直接映射表征的过程中,使用线性映射层提取特征。
作为一种实施方式,将所有模态的初始融合特征执行全融合处理的过程中,沿特征维度对所有模态的初始融合特征执行连接操作,并通过线性映射层控制维度。
作为一种实施方式,将所有模态的初始融合特征执行部分融合处理的过程中,首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征,随后与各个模态的初始融合特征一起通过注意力机制加权融合,得到局部融合模块的多模态融合特征。
作为一种实施方式,将所有模态的初始融合特征执行带偏融合处理的过程中,基于预先确定的主模态和辅助模态,将辅助模态分别和主模态进行融合,再对融合得到的特征再进行融合得到带偏融合结果。
本发明的第二个方面提供了一种基于动态上下文表示和模态融合的多模态分类系统。
一种基于动态上下文表示和模态融合的多模态分类系统,其包括:
特征提取模块,其用于获取对话信息,提取所述对话信息中的所有模态的特征;
特征表征模块,其用于将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;
模态交互模块,其用于:
将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征;
对话信息分类模块,其用于基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别;
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征。
作为一种实施方式,所述对话信息中的模态包括声音模态、文本模态和视频模态。
与现有技术相比,本发明的有益效果是:
(1)本发明使用全局上下文表征、局部上下文表征和直接映射表征分别表征每个模态的特征,针对性的提高了句子上下文表示过程中的判别性,还利用全融合、部分融合和带偏融合处理对多模态过程中不同模态信息量不一致进行了区分和针对性处理,减少了模态融合过程中信息量较少的模态带来的噪音。
(2)本发明提出动态路径选择方法,有效的融合多个相同阶段且信息互补的特征,使得特征判别性增强,网络鲁棒性增强,任务分类精度大大提高。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的多种上下文依赖关系;
图2是本发明实施例的基于动态上下文表示和模态融合的多模态分类方法的流程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明以对话信息的情感分类为例,如具体地,将对话信息的情感类别分为:兴奋、生气、沮丧和中性这四类情绪。
此处可以理解的是,本领域技术人员可根据实际情况,将对话信息的情感类别分成其他类型,并不影响本申请的整体方案的实施及其达到的效果,此处不再详述。
下面具体结合图1和图2来详细说明本发明的基于动态上下文表示和模态融合的多模态分类方法的过程。
根据图1可看出,本实施例的对话过程中不同的上下文依赖类型主要包括:无依赖的独立对话、依赖短距离上下文可推断的对话和依赖长距离上下文可推断的对话。
另外,本实施例在模态融合过程中的不同的模态间信息关系类型主要包括:平凡情况下的多模态一致类型、带噪音情况下的部分模态缺失类型和主辅模态信息量不一致类型。
参照图2,本实施例的基于动态上下文表示和模态融合的多模态分类方法的具体过程包括:
步骤1:获取对话信息,提取所述对话信息中的所有模态的特征。
在步骤1中,获取的对话信息包括若干段对话,每段对话由多条话语组成,每条话语由多个模态特征组成。其中,模态包括声音模态、文本模态和视频模态。也就是说,每条话语由多个模态特征包括声音特征、文本特征和视频特征。
此处还需要说明的是,本实施例的对话信息均经对话所属者同意,且通过合法途径获得的。
步骤2:将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征。
将上下文的信息融合到语句的特征中十分重要,但是不同的语句与其他语句之间建立依赖的需求不同。这会包含三种情况:需要依赖相邻上下文,需要依赖长距离的语句或两者兼具。同时,对一些语句来说,可能其不需要融合上下文也足够模型对其做出判断。因此,将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征来考虑上述几种情况。
在步骤2中的全局上下文表征具体过程为:
一段对话可能讨论多个话题,不同的话题可能会有不同的情感氛围。当前对话时的情感依托于在之前可能较长时间前提出该话题的语句的情感,这是一种长距离的情感依赖关系。针对这种关系,本实施例采用全局上下文表征。
在具体实施过程中,在每个模态的特征进行全局上下文表征的过程中,通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并,将合并的特征通过线性映射得到全局上下文表示特征。
记一段对话为
Figure SMS_2
,其中/>
Figure SMS_5
表示对话中的第/>
Figure SMS_7
句话,/>
Figure SMS_3
为对话的数量。对于多模态对话数据,进一步可将多模态对话数据拆分为声音、文本、视频特征,其中,声音、文本、视频特征分别为/>
Figure SMS_6
,则对话中的第/>
Figure SMS_8
句话可表示为/>
Figure SMS_9
,其中/>
Figure SMS_1
的维度分别为/>
Figure SMS_4
本实施例通过多头自注意力机制来提取每个模态特征的全局上下文表示特征。首先介绍自注意力机制。对任意输入
Figure SMS_10
,/>
Figure SMS_11
是特征矩阵,/>
Figure SMS_12
,首先通过以下公式得到向量矩阵/>
Figure SMS_13
Figure SMS_14
Figure SMS_15
Figure SMS_16
其中
Figure SMS_17
,为向量矩阵参数。随后,自注意力操作首先通过向量矩阵
Figure SMS_18
和向量矩阵/>
Figure SMS_19
计算注意力图,随后该注意力图与向量矩阵/>
Figure SMS_20
通过加权运算得到最终的输出。该过程可以通过以下的公式描述:
Figure SMS_21
其中,
Figure SMS_22
表示注意力机制函数;/>
Figure SMS_23
表示归一化指数函数;T表示矩阵的转置操作,/>
Figure SMS_24
表示对向量矩阵K的转置矩阵。/>
Figure SMS_25
表示K的特征维度。
现在引入多头自注意力机制。对于 Attention 操作中得到的
Figure SMS_26
,分别将其沿特征维度拆分成/>
Figure SMS_27
部分,多头自注意力机制对其中的每部分单独计算自注意力操作后再合并,并通过线性映射得到最后的输出/>
Figure SMS_28
。该过程可以由以下公式描述:
Figure SMS_29
其中
Figure SMS_30
表示多头注意力机制函数,/>
Figure SMS_31
表示连接函数;
Figure SMS_32
,/>
Figure SMS_33
表示第/>
Figure SMS_34
个注意力机制。/>
Figure SMS_35
表示连接函数中的参数。
对任意模态的对话特征
Figure SMS_36
,本实施例首先通过多头自注意力机制提取中间表示。再通过添加残差链接、/>
Figure SMS_37
层、FeedForward层得到最终的全局上下文表示特征/>
Figure SMS_38
,该过程整体可以被描述为:
Figure SMS_39
Figure SMS_40
Figure SMS_41
其中,
Figure SMS_42
,是全连接操作中的参数,/>
Figure SMS_43
是二维矩阵,/>
Figure SMS_44
是一维向量。/>
Figure SMS_45
和/>
Figure SMS_46
为/>
Figure SMS_47
操作函数中的参数,/>
Figure SMS_48
为激活函数。
多人对话时,一个人回复时的情感可能会受到另一个人的影响,这是一种在局部范围内发生的情感依赖。针对这种依赖关系,本实施例采用局部上下文表征。
在具体实施过程中,将每个模态的特征进行局部上下文表征的过程中,使用双向GRU 网络提取局部特征。
对任意模态的输入
Figure SMS_49
,局部上下文表示特征/>
Figure SMS_50
通过以下的方式计算:
Figure SMS_51
其中,右箭头表示前向GRU操作,左箭头表示后向GRU 操作,两者合并为双向GRU网络。
对一些明显表露出情感的语句,使用全局或局部信息都可能导致在该语句的情感预测中引入不必要的噪音,此时不需要进行上下文的表示,对话提取特征过程中各个句子互相独立,这样进行直接映射表征。
在具体实施过程中,将每个模态的特征进行直接映射表征的过程中,使用线性映射层提取特征。
使用线性映射层提取特征
Figure SMS_52
,该公式表示为:
Figure SMS_53
其中,
Figure SMS_54
,均是线性映射层的参数。
步骤3:将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征。
给定多模态特征
Figure SMS_55
,模态编码器以多模态特征为输入,并输出一个融合后的模态特征/>
Figure SMS_56
。使用多模态特征的模型效果好于使用单模态特征的模型的原因是不同模态特征的信息之间存在互补性,通过有效利用模态间的信息互补,融合后的多模态特征通常具有更好的判别性,使得情感识别模型能够做出更准确的预测。但是。不同模态具有的信息量有可能不同,实际的数据中也可能会存在模态缺失或没有信息量的情况,因此模态融合的过程需要将这些情况进行区分。
在具体实施过程中,将所有模态的初始融合特征执行全融合处理的过程中,沿特征维度对所有模态的初始融合特征执行连接操作,并通过线性映射层控制维度。
对所有模态互相补充,自身包含的信息量相对等同的理想情况,
对给定的多模态特征
Figure SMS_57
,全融合模块沿特征维度对这三个特征执行 Concat操作,并通过线性映射层控制维度。融合后的模态特征/>
Figure SMS_58
为:
Figure SMS_59
其中,
Figure SMS_60
,均是线性映射层的参数。
多模态场景下,某些数据的部分模态可能会存在缺失,或者无效、带噪音的情况,此时全融合方式得到的特征中会无法避免的降低特征判别性,对此,本实施例采用部分融合处理方法。
在具体实施过程中,将所有模态的初始融合特征执行部分融合处理的过程中,首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征,随后与各个模态的初始融合特征一起通过注意力机制加权融合,得到局部融合模块的多模态融合特征。
对给定的多模态特征
Figure SMS_61
,局部融合模块首先将其两两进行融合得到双模态特征,随后与各个模态的初始融合特征一起通过注意力机制加权融合,得到局部融合模块的多模态融合特征/>
Figure SMS_62
具体的,对任意两个模态
Figure SMS_63
、/>
Figure SMS_64
、/>
Figure SMS_65
,本实施例首先将其沿特征维度进行Concat,随后通过线性映射层将其维度映射为和原来的单模态特征维度,得到/>
Figure SMS_66
。以/>
Figure SMS_67
为例,该过程表示为:
Figure SMS_68
其中,
Figure SMS_69
。随后,依次按该过程得到/>
Figure SMS_70
。最后,引入注意力机制,定义特征/>
Figure SMS_71
,部分模态融合特征和单模态特征/>
Figure SMS_72
,计算定义特征/>
Figure SMS_73
和这些特征的注意力图,并和相应的特征计算加权和,得到最终的局部融合特征/>
Figure SMS_74
,该过程用公式表示为:
Figure SMS_75
其中,
Figure SMS_76
表示归一化指数函数;T表示矩阵的转置操作,/>
Figure SMS_77
表示对向量矩阵K的转置矩阵。/>
Figure SMS_78
表示向量矩阵K的特征维度。
除了模态缺失的情况外,在实验中还发现,不同模态的信息量整体上存在差异,这主要表现为文本包含了主要信息,而声音和视频仅包含了部分辅助信息,对于这种情况,本实施例采用带偏融合处理方法。
在具体实施过程中,将所有模态的初始融合特征执行带偏融合处理的过程中,基于预先确定的主模态和辅助模态,将辅助模态分别和主模态进行融合,再对融合得到的特征再进行融合得到带偏融合结果。
对多模态特征
Figure SMS_81
,带偏融合以文本对应的模态特征/>
Figure SMS_82
为主模态,其余的
Figure SMS_85
为辅助模态分别和主模态进行融合得到/>
Figure SMS_80
,最后再对这两个特征进行融合得到最后该模块的多模态融合特征/>
Figure SMS_84
。以/>
Figure SMS_86
为例,本发明基于残差连接的思想得到融合模态/>
Figure SMS_87
。具体的,令/>
Figure SMS_79
为残差连接中的主干,/>
Figure SMS_83
为待学习的残差,通过一层线性映射层后和主干特征相加。该过程用公式表示为:
Figure SMS_88
在用同样的方式得到
Figure SMS_89
后,本文提出了局部的多头自注意力机制用于提取该模块最终的多模态融合特征。下面详细介绍局部多头自注意力机制。
对给定的输入特征
Figure SMS_90
,定义超参数/>
Figure SMS_91
,与/>
Figure SMS_92
相关的二值向量/>
Figure SMS_93
,/>
Figure SMS_94
中第j个元素的值为:
Figure SMS_95
输入特征
Figure SMS_96
的注意力遮罩向量/>
Figure SMS_97
。再将/>
Figure SMS_98
沿特征维度 Concat 后的特征作为该局部多头自注意力操作的输入,最终通过残差连接、
Figure SMS_99
、线性映射得到最终的带偏多模态融合特征/>
Figure SMS_100
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征。
下面以
Figure SMS_101
操作来表示动态路径选择方法。/>
Figure SMS_102
与给定的三个特征/>
Figure SMS_103
的最后一维的特征维度相同,从而可以进行矩阵操作。
对给定的三个特征
Figure SMS_104
,最终的融合特征/>
Figure SMS_105
,其中/>
Figure SMS_106
操作使用定义特征/>
Figure SMS_107
,计算/>
Figure SMS_108
和输入特征的注意力图,并和相应的特征计算加权和,得到最终的加权融合特征,该过程用公式表示为:
Figure SMS_109
在上下文表示阶段,以
Figure SMS_110
为例,该阶段得到的三种上下文表示特征分别为
Figure SMS_111
,并最终通过模块融合得到/>
Figure SMS_112
。相同的方式可以获得/>
Figure SMS_113
,分别作为/>
Figure SMS_114
的上下文表示特征。在模态融合阶段,三个不同的融合模块分别以三个模态特征作为输入,分别得到/>
Figure SMS_115
后,通过模块融合得到/>
Figure SMS_116
,用于最后的分类特征。
步骤4:基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别。
此处需要说明的是,本领域技术人员可根据实际情况来具体设置对话信息的情感类别,比如悲伤、喜悦、惊吓等。
对每个对话
Figure SMS_117
,模型最终得到的特征为/>
Figure SMS_118
,本实施例使用线性映射层得到该特征对应的类别特征/>
Figure SMS_119
。令整个模型为/>
Figure SMS_120
,/>
Figure SMS_121
为模型的参数,最终本发明根据对应的真实标签
Figure SMS_122
,其中,i=1,2,…,n;计算交叉熵/>
Figure SMS_123
,用公式表示为:
Figure SMS_124
此外,在模态融合过程,本发明还计算了对比损失。
为了提高多模态特征的判别性,使模型更充分利用模态特征之间的互补性,本实施例在模态融合过程的三个子模块部分引入了有监督对比损失。对相同维度的特征
Figure SMS_125
中的子元素/>
Figure SMS_126
,相同维度的特征/>
Figure SMS_127
中的子元素/>
Figure SMS_128
的对比损失子函数/>
Figure SMS_129
通过以下的公式计算:
Figure SMS_130
其中
Figure SMS_131
用于计算两个向量的余弦相似度。相同维度的特征/>
Figure SMS_132
的对比损失函数/>
Figure SMS_133
通过以下公式计算:
Figure SMS_134
对比损失分别对在全融合阶段的三个单模态特征两两之间,部分融合模块的三个双模态特征两两之间,带偏融合模块的两个双模态特征之间计算,总计这七个部分的对比损失,得到最终对比损失函数。
最终的损失
Figure SMS_135
由两部分组成,表示为:
Figure SMS_136
最终模型通过端到端的方式训练整个模型参数。
在表1中,在四个多模态情感分类数据集上对比了本发明与其他多模态情感分类算法的F1-score值,可以观察到在所有数据集上本方法均达到了最优的结果。表1中的英文缩写含义如下:
CIM:论文缩写 Multi-task Learning for Multi-modal Emotion Recognitionand Sentiment Analysis ;
MMGCN:论文缩写Multimodal Fusion via Deep Graph Convolution Networkfor Emotion Recognition in Conversation ;
COGMEN:论文缩写COntextualized GNN based Multimodal Emotionrecognition;
IEMOCAP-4:IEMOCAP是数据集,4 表示该数据集的4分类实验设置;
IEMOCAP-6:IEMOCAP的6分类实验设置;
MELD:数据集,取自老友记片段;
MOSEI:数据集,取自各大自媒体平台(如 YouTube)。
表 1 本发明和现有多模态情感分类算法在三个多模态对话数据集的四个实验指标上的F1-score值对比
Figure SMS_137
其中,本实施例的该基于动态上下文表示和模态融合的多模态分类方法可应用到使用深度学习方法的情感识别系统或子系统中需要情感识别的系统中。
此处还需说明的是,本实施例的该基于动态上下文表示和模态融合的多模态分类方法也可在人机对话系统中会被应用。
在一个或多个实施例中,提供了一种基于动态上下文表示和模态融合的多模态分类系统,其包括:
特征提取模块,其用于获取对话信息,提取所述对话信息中的所有模态的特征;
特征表征模块,其用于将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;
模态交互模块,其用于:
将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征;
对话信息分类模块,其用于基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别;
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征。
其中,所述对话信息中的模态包括声音模态、文本模态和视频模态。
此处需要说明的是,本实施例中的各个模块与上述基于动态上下文表示和模态融合的多模态分类方法中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
在一个或多个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于动态上下文表示和模态融合的多模态分类方法中的步骤。
在一个或多个实施例中,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于动态上下文表示和模态融合的多模态分类方法中的步骤。
本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于动态上下文表示和模态融合的多模态分类方法,其特征在于,包括:
获取对话信息,提取所述对话信息中的所有模态的特征;
将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;
将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征;
基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别;
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征;
在每个模态的特征进行全局上下文表征的过程中,通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并,将合并的特征通过线性映射得到全局上下文表示特征;
将每个模态的特征进行局部上下文表征的过程中,使用双向 GRU 网络提取局部特征;
将每个模态的特征进行直接映射表征的过程中,使用线性映射层提取特征;
将所有模态的初始融合特征执行全融合处理的过程中,沿特征维度对所有模态的初始融合特征执行连接操作,并通过线性映射层控制维度;
将所有模态的初始融合特征执行部分融合处理的过程中,首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征,随后与各个模态的初始融合特征一起通过注意力机制加权融合,得到局部融合模块的多模态融合特征;
将所有模态的初始融合特征执行带偏融合处理的过程中,基于预先确定的主模态和辅助模态,将辅助模态分别和主模态进行融合,再对融合得到的特征再进行融合得到带偏融合结果。
2.如权利要求1所述的基于动态上下文表示和模态融合的多模态分类方法,其特征在于,所述对话信息中的模态包括声音模态、文本模态和视频模态。
3.基于动态上下文表示和模态融合的多模态分类系统,其特征在于,包括:
特征提取模块,其用于获取对话信息,提取所述对话信息中的所有模态的特征;
特征表征模块,其用于将每个模态的特征分别进行全局上下文表征、局部上下文表征和直接映射表征,再根据动态路径选择方法融合上述表征,得到每个模态的初始融合特征;
模态交互模块,其用于:
将所有模态的初始融合特征分别执行全融合、部分融合和带偏融合处理,得到全融合结果、部分融合结果和带偏融合结果,再通过动态路径选择方法融合,得到最终用于分类的多模态融合特征;
对话信息分类模块,其用于基于最终用于分类的多模态融合特征及分类器,得到所述对话信息的情感类别;
其中,所述动态路径选择方法为:基于注意力机制以及预先定义的特征,加权融合所有输入特征;
其中,在每个模态的特征进行全局上下文表征的过程中,通过多头自注意力机制对每个模态特征的向量矩阵单独计算自注意力操作后再合并,将合并的特征通过线性映射得到全局上下文表示特征;
将每个模态的特征进行局部上下文表征的过程中,使用双向 GRU 网络提取局部特征;
将每个模态的特征进行直接映射表征的过程中,使用线性映射层提取特征;
将所有模态的初始融合特征执行全融合处理的过程中,沿特征维度对所有模态的初始融合特征执行连接操作,并通过线性映射层控制维度;
将所有模态的初始融合特征执行部分融合处理的过程中,首先将所有模态的初始融合特征中的任意两个分别进行融合得到双模态特征,随后与各个模态的初始融合特征一起通过注意力机制加权融合,得到局部融合模块的多模态融合特征;
将所有模态的初始融合特征执行带偏融合处理的过程中,基于预先确定的主模态和辅助模态,将辅助模态分别和主模态进行融合,再对融合得到的特征再进行融合得到带偏融合结果。
4.如权利要求3所述的基于动态上下文表示和模态融合的多模态分类系统,其特征在于,所述对话信息中的模态包括声音模态、文本模态和视频模态。
CN202310232058.8A 2023-03-13 2023-03-13 基于动态上下文表示和模态融合的多模态分类方法及系统 Active CN116089906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310232058.8A CN116089906B (zh) 2023-03-13 2023-03-13 基于动态上下文表示和模态融合的多模态分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310232058.8A CN116089906B (zh) 2023-03-13 2023-03-13 基于动态上下文表示和模态融合的多模态分类方法及系统

Publications (2)

Publication Number Publication Date
CN116089906A CN116089906A (zh) 2023-05-09
CN116089906B true CN116089906B (zh) 2023-06-16

Family

ID=86212208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310232058.8A Active CN116089906B (zh) 2023-03-13 2023-03-13 基于动态上下文表示和模态融合的多模态分类方法及系统

Country Status (1)

Country Link
CN (1) CN116089906B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115169333A (zh) * 2022-07-07 2022-10-11 腾讯科技(武汉)有限公司 文本的实体识别方法、装置、设备、存储介质及程序产品
CN115203409A (zh) * 2022-06-27 2022-10-18 北京理工大学 一种基于门控融合和多任务学习的视频情感分类方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365433B1 (ko) * 2020-10-23 2022-02-21 서울대학교산학협력단 교차 어텐션 모델 기반 감정 인식 방법 및 장치
CN112348075B (zh) * 2020-11-02 2022-09-20 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112819052B (zh) * 2021-01-25 2021-12-24 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质
CN112560503B (zh) * 2021-02-19 2021-07-02 中国科学院自动化研究所 融合深度特征和时序模型的语义情感分析方法
US11687621B2 (en) * 2021-03-29 2023-06-27 International Business Machines Corporation Multi-modal fusion techniques considering inter-modality correlations and computer model uncertainty
CN113270086B (zh) * 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
CN114330551A (zh) * 2021-12-29 2022-04-12 食品安全与营养(贵州)信息科技有限公司 基于多任务学习和注意力层融合的多模态情感分析方法
CN114419509B (zh) * 2022-01-24 2023-04-18 烟台大学 一种多模态情感分析方法、装置及电子设备
CN114722838A (zh) * 2022-04-11 2022-07-08 天津大学 基于常识感知和层次化多任务学习的对话情感识别方法
CN115329779B (zh) * 2022-08-10 2023-10-13 天津大学 一种多人对话情感识别方法
CN115730203A (zh) * 2022-11-25 2023-03-03 安徽财经大学 一种基于全局感知跨模态特征融合网络的语音情感识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203409A (zh) * 2022-06-27 2022-10-18 北京理工大学 一种基于门控融合和多任务学习的视频情感分类方法
CN115169333A (zh) * 2022-07-07 2022-10-11 腾讯科技(武汉)有限公司 文本的实体识别方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN116089906A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
CN110704641B (zh) 一种万级意图分类方法、装置、存储介质及电子设备
KR102535338B1 (ko) 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
Shashidhar et al. Combining audio and visual speech recognition using LSTM and deep convolutional neural network
CN113591902A (zh) 基于多模态预训练模型的跨模态理解与生成方法和装置
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN115690553B (zh) 一种基于多模态对话内容联合建模的情感分析方法及系统
CN116070169A (zh) 模型训练方法、装置、电子设备及存储介质
Liang et al. Computational modeling of human multimodal language: The mosei dataset and interpretable dynamic fusion
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN117892237B (zh) 一种基于超图神经网络的多模态对话情绪识别方法及系统
CN112860871A (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN114676259B (zh) 一种基于因果感知交互网络的对话情绪识别方法
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN115858726A (zh) 基于互信息方法表示的多阶段多模态情感分析方法
Khan et al. MSER: Multimodal speech emotion recognition using cross-attention with deep fusion
CN114494969A (zh) 基于多模语音信息互补与门控制的情绪识别方法
CN116089906B (zh) 基于动态上下文表示和模态融合的多模态分类方法及系统
CN114969195B (zh) 对话内容挖掘方法和对话内容评估模型的生成方法
Bai et al. Low-rank multimodal fusion algorithm based on context modeling
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Fodor et al. Multimodal Sentiment and Personality Perception Under Speech: A Comparison of Transformer-based Architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant