CN118260711A - 一种多模态的情感识别方法及装置 - Google Patents

一种多模态的情感识别方法及装置 Download PDF

Info

Publication number
CN118260711A
CN118260711A CN202410306278.5A CN202410306278A CN118260711A CN 118260711 A CN118260711 A CN 118260711A CN 202410306278 A CN202410306278 A CN 202410306278A CN 118260711 A CN118260711 A CN 118260711A
Authority
CN
China
Prior art keywords
mode
feature
modal
node
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410306278.5A
Other languages
English (en)
Inventor
孙铭杰
吴俊劼
陆圣杰
俞思悦
张冰峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202410306278.5A priority Critical patent/CN118260711A/zh
Publication of CN118260711A publication Critical patent/CN118260711A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及情感识别技术领域,尤其是指一种多模态的情感识别方法及装置,包括:构建多模态情感识别模型;对多模态情感对话数据分别进行单模态特征编码;建立各模态的话语依赖图、心理依赖图和语义关系图,并依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,输入至多模态特征融合器中的多模态注意力层;利用情感分类器得到预测的情感标签。本发明通过构建多个类型的依赖图,实现了利用图卷积网络建立多模态的上下文依赖关系,更好地捕捉了不同模态之间和同一模态内的丰富关系,提高了多模态情感识别模型对关联信息的利用效果,从而提高了情感识别的准确性。

Description

一种多模态的情感识别方法及装置
技术领域
本发明涉及情感识别技术领域,尤其是指一种多模态的情感识别方法及装置。
背景技术
近年来,随着多模态数据的广泛应用,多模态情感识别(MERMC)成为人工智能领域的一个热门研究方向。MERMC旨在通过分析文本、音频和视觉等多种模态的数据,自动识别和理解人类情感。
传统的情感识别方法主要关注单一模态的情感分析,例如仅使用文本或音频进行情感分析。这些方法虽然在特定模态上取得了一定的成功,但未能充分利用多模态数据的信息。
然而,实际场景中的多模态数据能提供更为丰富的信息,引起技术人员对MERMC的广泛关注。部分现有技术尝试通过简单的模态融合方法,例如张量融合网络、门控机制和组合策略等,将来自不同模态的特征进行简单拼接或加权融合。然而,这种简单的融合方法在复杂和非结构化的多方对话中存在一定的局限性,无法捕捉多样性的上下文依赖关系。部分现有技术探索了图卷积网络(GCN)在多模态情感识别中的应用,通常使用图卷积网络建立单一模态的上下文依赖关系,但无法有效解决多模态数据中的交互性和一致性问题。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中无法在考虑多模态数据中的上下文依赖关系的同时解决多模态数据中的交互性和一致性的问题。
为解决上述技术问题,本发明提供了一种多模态的情感识别方法,包括:
构建多模态情感识别模型,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器;
收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码,得到文本特征序列、音频特征序列和视觉特征序列;
将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:
对文本特征序列进行结构建模,各模态根据结构建模的结果构建各模态的话语依赖图;
对文本特征序列进行话者建模,各模态根据话者建模的结果构建各模态的心理依赖图;
对文本特征序列、音频特征序列和视觉特征序列分别进行语义建模,各模态根据其对应的语义建模结果构建各模态的语义关系图;
将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征;以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层;
将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签。
在本发明的一个实施例中,所述模态提取器包括文本特征提取器、音频特征提取器和视觉特征提取器;所述文本特征提取器采用文本嵌入技术,包括预训练的词嵌入模型或Transformer模型;所述音频特征提取器采用声学特征提取方法,包括Me l频谱图或梅尔频率倒谱系数;所述视觉特征提取器包括预训练的卷积神经网络模型。
在本发明的一个实施例中,所述将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:
依据文本特征序列进行结构建模,采用预训练的会话解析器确定文本模态下当前话语与历史话语之间的关系,得到三元组cui,rij,uj>,以便表示不同节点话语之间的交互,其中ui和uj分别表示节点i和节点j的话语,rij表示节点i和节点j的话语之间的结构关系;各模态根据结构建模得到的三元组<ui,rij,uj>构建各模态的话语依赖图,所述话语依赖图中不同节点之间的边连接和边关系依据对应节点之间的结构关系rij建立;
依据文本特征序列进行话者建模,采用社交常识知识库确定文本模态下当前话语的话者行为的意图或反应表示,得到三元组<ui,r'ij,uj>,以便表示不同节点话者之间的交互,其中r'ij表示节点i和节点j的话者之间的心理关系;各模态根据话者建模得到的三元组<ui,r'ij,uj>构建各模态的心理依赖图,所述心理依赖图中不同节点之间的边连接和边关系依据对应节点之间的心理关系r'ij建立;
依据文本特征序列、音频特征序列和视觉特征序列对各模态分别进行语义建模,采用余弦相似度量同模态内不同节点的话语语义之间的相似性,得到语义相似性分数;根据各模态当前节点的话语与对话中其他节点的话语之间的语义相似性分数构建各模态的相似矩阵;各模态根据其对应的语义建模得到的相似矩阵构建各模态的语义关系图,所述语义关系图中不同节点之间的边连接和边关系依据相似矩阵中对应节点之间的语义相似性分数建立。
在本发明的一个实施例中,所述语义相似性分数的公式为:
其中,m为模态,包括音频模态a、视觉模态v和文本模态t,为m模态下节点i和节点j之间的语义相似性分数,为m模态下节点i的特征向量,为m模态下节点j的特征向量,arccos为反余弦函数,为特征向量的L2范数,为特征向量的L2范数。
在本发明的一个实施例中,所述将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征,公式为:
其中,为模态m下建模类型为x节点i的预测模态特征,x为建模类型,包括结构建模、话者建模和语义建模,m为模态,包括音频模态a、视觉模态v和文本模态t;σ为Sigmoid激活函数;为模态m下建模类型为x节点i的隐藏表示;的权重矩阵;r∈Rm表示r属于模态m之一;与节点i的邻居节点的集合,所述邻居节点为与节点i属于同一对话的其他节点;为归一化常数,为模态m下建模类型为x节点i的邻居节点的隐藏表示,的权重矩阵。
在本发明的一个实施例中,所述将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征,公式为:
其中,为节点i的模态m的融合特征,m为模态,包括音频模态a、视觉模态v和文本模态t;为模态m下建模类型为结构建模节点i的融合特征,为模态m下建模类型为话者建模节点i的融合特征,为模态m下建模类型为语义建模节点i的融合特征,表示拼接操作。
在本发明的一个实施例中,所述以文本模态特征作为查询特征,以音频模态特征作为键特征,以视觉模态特征作为值特征,输入至多模态特征融合器中的多模态注意力层,公式包括:
ei=MMA(Qi,Ki,Vi)
其中,Qi为节点i的查询特征,为节点i的文本模态融合特征,为节点i的查询权重矩阵;Ki为节点i的键特征,为节点i的音频模态融合特征,为节点i的键权重矩阵;Vi为节点i的值特征,为节点i的视觉模态融合特征,为节点i的值权重矩阵;MMA为多模态注意力层,ei为节点i在多模态注意力层的输出特征。
在本发明的一个实施例中,所述将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签,公式包括:
e'i=ReLU(Wrlei+brl)
Pi=softmax(Wsmaxe′i+bsmax)
其中,ei为节点i在多模态注意力层的输出特征,ReLU(·)为ReLU激活函数,Wrl为ReLU激活的权重矩阵,brl为ReLU激活的偏差项,e'i为节点i在ReLU激活函数的输出特征;softmax(·)为softmax函数,Wsmax为softmax函数的权重矩阵,bsmax为softmax函数的偏差项,Pi为节点i的预测情感标签的概率分布,λ为Pi取最大时的下标值;为节点i的预测情感标签。
在本发明的一个实施例中,所述多模态情感识别模型的损失函数为:
其中,L为多模态情感识别模型的损失函数,S为对话的总数量,Z(s)为对话s中的节点数量,Ps,z为对话s中节点z的预测情感标签,为损失函数中的交叉熵项,表示预测的情感标签概率分布与真实标签之间的差异,es,z为对话s中节点z在多模态注意力层的输出特征,η||θ||2为L2正则化项,用于控制模型的复杂度,η和θ为正则化器的超参数。
本发明还提供了一种多模态的情感识别装置,包括:
模型构建模块,用于构建多模态情感识别模型,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器;
特征提取模块,用于收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码,得到文本特征序列、音频特征序列和视觉特征序列;
多元依赖图生成模块,用于将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:对文本特征序列进行结构建模,各模态根据结构建模的结果构建各模态的话语依赖图;对文本特征序列进行话者建模,各模态根据话者建模的结果构建各模态的心理依赖图,对文本特征序列、音频特征序列和视觉特征序列分别进行语义建模,各模态根据其对应的语义建模结果构建各模态的语义关系图;
跨模态融合模块,用于将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征;以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层;
分类模块,用于将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签。
本发明的上述技术方案相比现有技术具有以下有益效果:
本发明所述的一种多模态的情感识别方法,通过提取对话数据中文本、音频和视觉多个模态的特征信息,构建多模态情感识别模型对对话数据中的情感信息进行识别。所述多模态情感识别模型的多变量依赖编码器对文本特征、音频特征和视觉特征进行结构建模、话者建模和语义建模,建立各模态的话语依赖图、心理依赖图和语义关系图,更好地捕捉同一模态内的丰富关系,提高对不同模态之间关系识别的全面性和准确性。所述多模态情感识别模型的多模态特征融合器利用图卷积网络,将多个依赖图中的信息传播和聚合,使得每个节点都能够包含来自其他节点的上下文信息,有助于更好地理解整个对话的语境和心理状态,从而提高了模态之间的信息一致性和相关性。并且通过引入多模态注意力机制,使得模型能够自适应地关注不同模态中更重要的信息,有助于提高对话中情感信息的关注度,从而改善情感分类性能,提高情感分类的准确性。
综上所述,本发明通过构建多个类型的依赖图,实现了利用图卷积网络建立多模态的上下文依赖关系,更好地捕捉了不同模态之间和同一模态内的丰富关系,提高了多模态情感识别模型对关联信息的利用效果,从而提高了情感识别的准确性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明一种多模态的情感识别方法的流程图;
图2是本发明多模态情感识别模型的结构图;
图3是本发明一种多模态的情感识别方法与现有技术的效果对比图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,本发明提供了一种多模态的情感识别方法,通过构建多模态情感识别模型对多模态情感对话数据中的情感进行识别。参照图2所示,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器。具体步骤包括:
收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,确保数据集具有多样性,涵盖不同场景、说话风格和情感表达。
所述多模态情感对话数据在数据集中已具有完成划分的节点,为各个节点标注情感类别,并确保标注准确一致,以建立情感分类的训练目标。
对多模态情感对话数据中的文本进行分词、去停用词、词嵌入等预处理。
将经过预处理后的文本以及音频、视觉数据输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码。所述模态提取器包括文本特征提取器、音频特征提取器和视觉特征提取器。
所述文本特征提取器采用文本嵌入技术,包括预训练的词嵌入模型,如Word2Vec、GloVe,或Transformer模型,如BERT、GPT,将每个单词映射到高维的向量表示。
所述音频特征提取器采用声学特征提取方法,包括Mel频谱图或梅尔频率倒谱系数(MFCC),用于捕捉音频信号的频谱信息,为模型提供有关音频内容的信息。
所述视觉特征提取器采用预训练卷积神经网络(CNN)提取图像的特征,如ResNet、Inception等模型可以用于提取图像中的高级特征,这些特征可以被用作视觉模态的表示。
以文本模态为例,对文本数据进行预处理,公式为:
其中,[CLS]为特殊的标识,追加到语句的开始用于产生整句的特征,为第i个节点的原始文本数据,UT为文本输入序列;
将文本输入序列UT输入至文本提取器,公式为:
HT=TextEncoder(UT)
其中,TextEncoder为文本提取器,HT为文本特征序列。
若直接将模态提取器输出的文本特征序列、音频特征序列和视觉特征序列组成图的结构,这些图虽然能够捕捉语句之间的关系,但仍然受限于图学习固有的协议,即集成局部邻域的消息进行传播阻止了对话中语句之间的上下文和说话者信息交互。为此,本发明将文本特征序列、音频特征序列和视觉特征序列多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,具体包括:
依据文本特征序列进行结构建模,采用预训练的会话解析器确定文本模态下当前话语与历史话语之间的关系,得到三元组<ui,rij,uj>,以便表示不同节点话语之间的交互,其中ui和uj分别表示节点i和节点j的话语,rij表示节点i和节点j的话语之间的结构关系;各模态根据结构建模得到的三元组<ui,rij,uj>构建各模态的话语依赖图,所述话语依赖图中不同节点之间的边连接和边关系依据对应节点之间的结构关系rij建立,以构建不同模态下的有向图。
依据文本特征序列进行话者建模,采用社交常识知识库确定文本模态下当前话语的话者行为的意图或反应表示,得到三元组<ui,r'ij,uj>,以便表示不同节点话者之间的交互,其中r'ij表示节点i和节点j的话者之间的心理关系;各模态根据话者建模得到的三元组<ui,r'ij,uj>构建各模态的心理依赖图,所述心理依赖图中不同节点之间的边连接和边关系依据对应节点之间的心理关系r'ij建立,以构建不同模态下的有向图。
依据文本特征序列、音频特征序列和视觉特征序列对各模态分别进行语义建模,采用余弦相似度量同模态内不同节点的话语语义之间的相似性,得到语义相似性分数;根据各模态当前节点的话语与对话中其他节点的话语之间的语义相似性分数构建各模态的相似矩阵;各模态根据其对应的语义建模得到的相似矩阵构建各模态的语义关系图,所述语义关系图中不同节点之间的边连接和边关系依据相似矩阵中对应节点之间的语义相似性分数建立,以构建不同模态下的有向图。
计算所述语义相似性分数的公式为:
其中,m为模态,包括音频模态a、视觉模态v和文本模态t,为m模态下节点i和节点j之间的语义相似性分数,为m模态下节点i的特征向量,为m模态下节点j的特征向量,arccos为反余弦函数,为特征向量的L2范数,为特征向量的L2范数。
所述多变量依赖编码器利用每个模态内上下文依赖性的多样性进行上下文建模,采用结构建模来捕获不同话语之间的深层结构表示,采用话者建模来捕获不同话者之间的心理活动,采用语义建模捕获不同话语语义之间的联系,提供了多模态情感对话数据中多元复杂的依赖关系。
由于不同模态之间的信息融合是一个复杂的问题,为了确保跨多个模式在交叉模态表示学习中的模式表示的语义一致性,本发明提出多模态特征融合器,用于将从文本模态中捕获的先验信息传递到音频和视觉模态中,有效且高效地融合各模态的信息,保持不同模态的语义一致性。
由于传统的深度学习模型在处理非欧几里得结构的多模态数据时表现较差,本发明引入图卷积网络,有助于更好地处理多模态数据的非欧几里得结构,从而提高多模态情感识别模型对复杂关系的建模能力。
将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,以聚合和传播语句节点之间的各种不同依赖关系,得到各模态不同类型的预测模态特征,公式为:
其中,为模态m下建模类型为x节点i的预测模态特征,x为建模类型,包括结构建模、话者建模和语义建模,m为模态,包括音频模态a、视觉模态v和文本模态t;σ为Sigmoid激活函数;为模态m下建模类型为x节点i的隐藏表示;的权重矩阵;r∈Rm表示r属于模态m之一;与节点i的邻居节点的集合,所述邻居节点为与节点i属于同一对话的其他节点;为归一化常数,为模态m下建模类型为x节点i的邻居节点的隐藏表示,的权重矩阵。
经过图卷积网络后得到九个预测模态特征,分别为文本模态下建模类型为结构建模节点i的预测模态特征文本模态下建模类型为话者建模节点i的预测模态特征文本模态下建模类型为语义建模节点i的预测模态特征音频模态下建模类型为结构建模节点i的预测模态特征音频模态下建模类型为话者建模节点i的预测模态特征音频模态下建模类型为语义建模节点i的预测模态特征视觉模态下建模类型为结构建模节点i的预测模态特征视觉模态下建模类型为话者建模节点i的预测模态特征视觉模态下建模类型为语义建模节点i的预测模态特征
本发明利用图卷积网络进行信息聚合和传播,其输出包含了对话中的上下文信息和依赖关系,有助于确保多元依赖图中对每个语句节点考虑跨模态关系,从而更全面地理解情感的上下文关系。
将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征音频模态融合特征视觉模态融合特征公式为:
其中,为节点i的模态m的融合特征,m为模态,包括音频模态a、视觉模态v和文本模态t;为模态m下建模类型为结构建模节点i的融合特征,为模态m下建模类型为话者建模节点i的融合特征,为模态m下建模类型为语义建模节点i的融合特征,表示拼接操作。
为使多模态情感识别模型能够自适应地关注不同模态中更重要的信息,本发明引入多模态注意力机制,即以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层,公式包括:
ei=MMA(Qi,Ki,Vi)
其中,Qi为节点i的查询特征,为节点i的文本模态融合特征,为节点i的查询权重矩阵;Ki为节点i的键特征,为节点i的音频模态融合特征,为节点i的键权重矩阵;Vi为节点i的值特征,为节点i的视觉模态融合特征,为节点i的值权重矩阵;MMA为多模态注意力层,ei为节点i在多模态注意力层的输出特征。
所述多模态注意力层有助于提高对话中情感信息的关注度,从而改善情感分类性能。多模态注意力层的输出特征包含了对话中多模态信息的融合表示。
将多模态注意力层的输出特征输入多模态情感识别模型的情感分类器,得到预测的情感标签。
所述情感分类器包括多个全连接层和Softmax输出层。所述全连接层是一个密集连接的神经网络层,目的是通过学习权重和偏差来将特征向量映射到情感标签的空间。通常在全连接层后面添加激活函数,是为了引入非线性关系,例如ReLU(Rectified LinearUnit)或Sigmoid激活函数,有助于模型学习更复杂的特征表示。最后,通过Softmax层进行多类别情感标签的概率归一化。Softmax函数将模型输出的原始分数转换为概率分布,使得每个情感标签的概率都在0到1之间,并且概率和为1。
所述情感分类器中的具体公式包括:
e'i=ReLU(Wrlei+brl)
Pi=softmax(Wsmaxe′i+bsmax)
其中,ei为节点i在多模态注意力层的输出特征,ReLU(·)为ReLU激活函数,Wrl为ReLU激活的权重矩阵,brl为ReLU激活的偏差项,e'i为节点i在ReLU激活函数的输出特征;softmax(·)为softmax函数,Wsmax为softmax函数的权重矩阵,bsmax为softmax函数的偏差项,Pi为节点i的预测情感标签的概率分布,λ为Pi取最大时的下标值;为节点i的预测情感标签。
所述多模态情感识别模型的训练过程包括:
将多模态情感对话数据作为数据集,划分为训练集、验证集和测试集,并确保每个集合中的数据分布均匀,以避免模型过度拟合。
对多模态情感识别模型的权重进行初始化,选择适当的初始化策略以加速收敛。
选择适当的损失函数:本发明选择情感分类任务中常用的交叉熵损失函数作为损失函数,公式为:
其中,L为情感识别模型的损失函数,S为对话的总数量,Z(s)为对话s中的节点数量,Ps,z为对话s中节点z的预测情感标签,为损失函数中的交叉熵项,表示预测的情感标签概率分布与真实标签之间的差异,es,z为对话s中节点z在多模态注意力层的输出特征,η||θ||2为L2正则化项,用于控制模型的复杂度,η和θ为正则化器的超参数。
选择适当的优化器,例如Adam优化器,以便有效地调整模型参数。
将训练集输入多模态情感识别模型,确保数据输入的格式与模型期望的格式相匹配。
在训练数据上进行前向传播和反向传播,通过梯度下降更新模型参数,确保在训练集上最小化损失函数。
使用学习率调度器,根据训练的进度动态调整学习率,以提高训练效果。
在训练过程中使用验证集来监控多模态情感识别模型的性能,并在验证集上评估模型,防止过拟合。
定期保存模型的权重,以便在需要时进行恢复或继续训练。
根据验证集的性能,调整模型的超参数,如隐藏层大小、学习率等。
当模型在验证集上达到满意的性能时,终止训练。
使用测试集评估最终训练好的模型的性能,确保多模态情感识别模型在未见过的数据上也能有效泛化。
参照图3本发明与现有技术的效果对比图所示,本发明所述的一种多模态的情感识别方法,通过提取对话数据中文本、音频和视觉多个模态的特征信息,构建多模态情感识别模型对对话数据中的情感信息进行识别。所述多模态情感识别模型的多变量依赖编码器对文本特征、音频特征和视觉特征进行结构建模、话者建模和语义建模,建立各模态的话语依赖图、心理依赖图和语义关系图,更好地捕捉同一模态内的丰富关系,提高对不同模态之间关系识别的全面性和准确性。所述多模态情感识别模型的多模态特征融合器利用图卷积网络,将多个依赖图中的信息传播和聚合,使得每个节点都能够包含来自其他节点的上下文信息,有助于更好地理解整个对话的语境和心理状态,从而提高了模态之间的信息一致性和相关性。并且通过引入多模态注意力机制,使得模型能够自适应地关注不同模态中更重要的信息,有助于提高对话中情感信息的关注度,从而改善情感分类性能,提高情感分类的准确性。
综上所述,本发明通过构建多个类型的依赖图,实现了利用图卷积网络建立多模态的上下文依赖关系,更好地捕捉了不同模态之间和同一模态内的丰富关系,提高了多模态情感识别模型对关联信息的利用效果,从而提高了情感识别的准确性。
本发明还提供了一种多模态的情感识别装置,包括:
模型构建模块,用于构建多模态情感识别模型,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器;
特征提取模块,用于收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码,得到文本特征序列、音频特征序列和视觉特征序列;
多元依赖图生成模块,用于将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:对文本特征序列进行结构建模,各模态根据结构建模的结果构建各模态的话语依赖图;对文本特征序列进行话者建模,各模态根据话者建模的结果构建各模态的心理依赖图,对文本特征序列、音频特征序列和视觉特征序列分别进行语义建模,各模态根据其对应的语义建模结果构建各模态的语义关系图;
跨模态融合模块,用于将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征;以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层;
分类模块,用于将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种多模态的情感识别方法,其特征在于,包括:
构建多模态情感识别模型,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器;
收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码,得到文本特征序列、音频特征序列和视觉特征序列;
将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:
对文本特征序列进行结构建模,各模态根据结构建模的结果构建各模态的话语依赖图;
对文本特征序列进行话者建模,各模态根据话者建模的结果构建各模态的心理依赖图;
对文本特征序列、音频特征序列和视觉特征序列分别进行语义建模,各模态根据其对应的语义建模结果构建各模态的语义关系图;
将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征;以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层;
将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签。
2.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述模态提取器包括文本特征提取器、音频特征提取器和视觉特征提取器;所述文本特征提取器采用文本嵌入技术,包括预训练的词嵌入模型或Transformer模型;所述音频特征提取器采用声学特征提取方法,包括Mel频谱图或梅尔频率倒谱系数;所述视觉特征提取器包括预训练的卷积神经网络模型。
3.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:
依据文本特征序列进行结构建模,采用预训练的会话解析器确定文本模态下当前话语与历史话语之间的关系,得到三元组<ui,rij,uj>,以便表示不同节点话语之间的交互,其中ui和uj分别表示节点i和节点j的话语,rij表示节点i和节点j的话语之间的结构关系;各模态根据结构建模得到的三元组<ui,rij,uj>构建各模态的话语依赖图,所述话语依赖图中不同节点之间的边连接和边关系依据对应节点之间的结构关系rij建立;
依据文本特征序列进行话者建模,采用社交常识知识库确定文本模态下当前话语的话者行为的意图或反应表示,得到三元组<ui,r'ij,uj>,以便表示不同节点话者之间的交互,其中r'ij表示节点i和节点j的话者之间的心理关系;各模态根据话者建模得到的三元组<ui,r'ij,uj>构建各模态的心理依赖图,所述心理依赖图中不同节点之间的边连接和边关系依据对应节点之间的心理关系r'ij建立;
依据文本特征序列、音频特征序列和视觉特征序列对各模态分别进行语义建模,采用余弦相似度量同模态内不同节点的话语语义之间的相似性,得到语义相似性分数;根据各模态当前节点的话语与对话中其他节点的话语之间的语义相似性分数构建各模态的相似矩阵;各模态根据其对应的语义建模得到的相似矩阵构建各模态的语义关系图,所述语义关系图中不同节点之间的边连接和边关系依据相似矩阵中对应节点之间的语义相似性分数建立。
4.根据权利要求3所述的一种多模态的情感识别方法,其特征在于,所述语义相似性分数的公式为:
其中,m为模态,包括音频模态a、视觉模态v和文本模态t,为m模态下节点i和节点j之间的语义相似性分数,为m模态下节点i的特征向量,为m模态下节点j的特征向量,arccos为反余弦函数,为特征向量的L2范数,为特征向量的L2范数。
5.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征,公式为:
其中,为模态m下建模类型为x节点i的预测模态特征,x为建模类型,包括结构建模、话者建模和语义建模,m为模态,包括音频模态a、视觉模态v和文本模态t;σ为Sigmoid激活函数;为模态m下建模类型为x节点i的隐藏表示;的权重矩阵;r∈Rm表示r属于模态m之一;与节点i的邻居节点的集合,所述邻居节点为与节点i属于同一对话的其他节点;为归一化常数,为模态m下建模类型为x节点i的邻居节点的隐藏表示,的权重矩阵。
6.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征,公式为:
其中,为节点i的模态m的融合特征,m为模态,包括音频模态a、视觉模态v和文本模态t;为模态m下建模类型为结构建模节点i的融合特征,为模态m下建模类型为话者建模节点i的融合特征,为模态m下建模类型为语义建模节点i的融合特征,表示拼接操作。
7.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述以文本模态特征作为查询特征,以音频模态特征作为键特征,以视觉模态特征作为值特征,输入至多模态特征融合器中的多模态注意力层,公式包括:
ei=MMA(Qi,Ki,Vi)
其中,Qi为节点i的查询特征,为节点i的文本模态融合特征,为节点i的查询权重矩阵;Ki为节点i的键特征,为节点i的音频模态融合特征,为节点i的键权重矩阵;Vi为节点i的值特征,为节点i的视觉模态融合特征,为节点i的值权重矩阵;MMA为多模态注意力层,ei为节点i在多模态注意力层的输出特征。
8.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签,公式包括:
e'i=ReLU(Wrlei+brl)
Pi=softmax(Wsmaxe′i+bsmax)
其中,ei为节点i在多模态注意力层的输出特征,ReLU(·)为ReLU激活函数,Wrl为ReLU激活的权重矩阵,brl为ReLU激活的偏差项,e'i为节点i在ReLU激活函数的输出特征;softmax(·)为softmax函数,Wsmax为softmax函数的权重矩阵,bsmax为softmax函数的偏差项,Pi为节点i的预测情感标签的概率分布,λ为Pi取最大时的下标值;为节点i的预测情感标签。
9.根据权利要求1所述的一种多模态的情感识别方法,其特征在于,所述多模态情感识别模型的损失函数为:
其中,L为多模态情感识别模型的损失函数,S为对话的总数量,Z(s)为对话s中的节点数量,Ps,z为对话s中节点z的预测情感标签,为损失函数中的交叉熵项,表示预测的情感标签概率分布与真实标签之间的差异,es,z为对话s中节点z在多模态注意力层的输出特征,η||θ||2为L2正则化项,用于控制模型的复杂度,η和θ为正则化器的超参数。
10.一种多模态的情感识别装置,其特征在于,包括:
模型构建模块,用于构建多模态情感识别模型,所述多模态情感识别模型的结构包括模态提取器、多变量依赖编码器、多模态特征融合器和情感分类器;
特征提取模块,用于收集包含文本模态、音频模态和视觉模态的多模态情感对话数据,输入多模态情感识别模型的模态提取器,对多模态情感对话数据分别进行单模态特征编码,得到文本特征序列、音频特征序列和视觉特征序列;
多元依赖图生成模块,用于将文本特征序列、音频特征序列和视觉特征序列输入多变量依赖编码器,建立各模态的话语依赖图、心理依赖图和语义关系图,包括:对文本特征序列进行结构建模,各模态根据结构建模的结果构建各模态的话语依赖图;对文本特征序列进行话者建模,各模态根据话者建模的结果构建各模态的心理依赖图,对文本特征序列、音频特征序列和视觉特征序列分别进行语义建模,各模态根据其对应的语义建模结果构建各模态的语义关系图;
跨模态融合模块,用于将各模态的话语依赖图、心理依赖图和语义关系图输入多模态特征融合器,依次进行图卷积操作,得到各模态不同类型的预测模态特征;将属于同一模态的不同类型的预测模态特征进行特征融合,得到文本模态融合特征、音频模态融合特征、视觉模态融合特征;以文本模态融合特征作为查询特征,以音频模态融合特征作为键特征,以视觉模态融合特征作为值特征,输入至多模态特征融合器中的多模态注意力层;
分类模块,用于将多模态注意力层的输出特征输入情感分类器,得到预测的情感标签。
CN202410306278.5A 2024-03-18 2024-03-18 一种多模态的情感识别方法及装置 Pending CN118260711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410306278.5A CN118260711A (zh) 2024-03-18 2024-03-18 一种多模态的情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410306278.5A CN118260711A (zh) 2024-03-18 2024-03-18 一种多模态的情感识别方法及装置

Publications (1)

Publication Number Publication Date
CN118260711A true CN118260711A (zh) 2024-06-28

Family

ID=91608260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410306278.5A Pending CN118260711A (zh) 2024-03-18 2024-03-18 一种多模态的情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN118260711A (zh)

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
Tripathi et al. Deep learning based emotion recognition system using speech features and transcriptions
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN112214591B (zh) 一种对话预测的方法及装置
Shen et al. WISE: Word-Level Interaction-Based Multimodal Fusion for Speech Emotion Recognition.
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
Banjara et al. Nepali speech recognition using cnn and sequence models
CN112150103B (zh) 一种日程设置方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination