CN116010874A

CN116010874A - 基于深度学习多模态深尺度情感特征融合的情感识别方法

Info

Publication number: CN116010874A
Application number: CN202211385396.7A
Authority: CN
Inventors: 赵政道; 王宇华
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-04-25

Abstract

本发明涉及一种基于深度学习多模态深尺度情感特征融合的情感识别方法。输入wav格式的一段语音及转录文本，利用ME模块分别通过BERT、ECAPA‑TDNN、huBERT预训练模型得到它的通用文本特征、说话人特征以及通用语音特征；利用DST模块在多层次、深尺度的特征范围对情感相关特征进行凝练和提取；利用MT模块对多模态信息的互相关信息进行计算，并在话语级特征表示中引入说话人特征得到说话人相关的情态特征；利用MFC模块对多模态互信息、说话人相关特征、深尺度情感特征进行注意力加权，输出情感识别结果矩阵；最终输出情感识别矩阵中概率最大的情感类别，完成对一段语音及转录文本的情感识别。本发明用以提高人机交互中多模态情感识别任务的情感识别效率。

Description

基于深度学习多模态深尺度情感特征融合的情感识别方法

技术领域

本发明属于多模态情感识别领域，具体涉及一种基于深度学习多模态深尺度情感特征融合的情感识别方法。

背景技术

多模态情感识别(Multimodal Emotion Recognition,MER)是指处理多媒体资源并检测其情感状态，是情感计算中一个非常活跃的研究课题，近年来得到了广泛的研究。随着人工智能(Artificial Intelligent,AI)的迅速发展，在人机交互(Human-ComputerInteraction,HCI)领域研究如何提高自动人机应用体验已变得越来越流行。如果在人工智能产品与人的交互过程中，能够准确把握人们当前的情绪状态并获得相应的反应，用户对人工智能产品的体验可能会得到一定程度的改善。因此，情感识别在人机交互中起着至关重要的作用，可以有效地与机器进行交互。考虑到其在商品推荐、舆论监测、人机对话等方面的重要意义。多模态情感识别无疑是一个有价值的研究领域。

在过去的几十年中，为了提高多模态情绪识别的性能，人们付出了更多的努力来研究有价值和有效的方法。早期，研究人员主要应用各种概率统计模型(如隐马尔可夫模型和高斯混合模型)对话语的情感状态进行分类。在他们的方法中，使用语音信号的自然基音和能量轮廓的衍生特征，通过高斯混合模型组织话语的全局统计框架来完成情感状态分类。近年来，由于深度神经网络(Deep Neural Network,DNN)显著的特征提取和数据拟合性能，各种DNN结构被应用于多模态情感识别。通常，这些方法包括两个阶段：1)一个预处理系统从多媒体资源中计算低级描述符，并提取鲁棒的通用多模态嵌入。2)一个多模态融合机制将多模态情感相关特征聚合为话语级表征。与传统方法相比，DNN在从丰富的数据中提取情感特征方面更为可行，在区分情感方面更为有效。然而，一些限制尚未解决，包括：(1)数据稀缺性。多媒体语料库中存在一个常见的数据稀缺问题。DNN强大的拟合能力容易受到噪声信息的干扰，而情感标记数据不足，尤其是数据分布不平衡，增加了噪声污染周期的影响。(2)难以区分的情感特征。语音和文本由多个小分数组成。利用深层次和细粒度特征的切实可行的方法是兼容地建模话语情感状态的关键。(3)脆弱的多模态互相关信息。在应用中，语音和文本的嵌入长度通常是不一致的，并且在片段级出现了缺乏融合多模态特征的情况，这限制了在深尺度方面提取互信息。

发明内容

本发明提供一种基于深度学习多模态深尺度情感特征融合的情感识别方法，用以提高人机交互中多模态情感识别任务的情感识别效率。

本发明提供一种电子设备。

本发明提供一种非临时性计算机可读存储介质。

本发明通过以下技术方案实现：

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述实现方法包括以下步骤：

步骤1：输入wav格式的一段语音及转录文本，利用ME模块分别通过BERT、ECAPA-TDNN、huBERT预训练模型得到它的通用文本特征、说话人特征以及通用语音特征；

步骤2：利用DST模块在多层次、深尺度的特征范围对步骤1得到的文本特征和语音特征进行情感相关特征的凝练和提取，得到多模态深尺度情感特征；

步骤3：利用MT模块对步骤1得到的多模态信息的进行互相关信息计算，并在话语级特征表示中引入说话人特征得到说话人相关的多模态互相关情态特征；

步骤4：利用MFC模块对步骤2多模态深尺度情感特征、步骤3说话人特征相关的多模态互相关情态特征进行注意力加权，计算并输出情感识别结果矩阵；

步骤5：利用SoftMax函数计算步骤4得到的结果矩阵的情感识别概率矩阵，输出最大概率置信的情感类别，实现对多模态信息的情感识别。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤1具体包括以下步骤：

步骤1.1：通过录音设备收集人的语音波形信息，获得wav格式的语音文件；

步骤1.2：利用ASR自动语音识别系统，完成对步骤1.1语音文件进行文本转录，得到语音的文本转录文件；

步骤1.3：利用huBERT、ECAPA-TDNN预训练模型对步骤1.1语音文件进行通用语音特征提取和说话人特征提取；

步骤1.4：利用BERT预训练模型对步骤1.2文本转录文件进行通用文本特征提取。

步骤1.5：对步骤1.3通用语音特征和说话人特征和步骤1.4通用文本特征进行拼接，生成多模态信息数据集。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤2具体包括以下步骤：

步骤2.1：基于步骤1生成的多模态信息数据集，对语音和文本特征进行共享权重的特征缩放，获得深尺度特征数据集；

步骤2.2：对步骤2.1深尺度特征数据集利用Transformer encoder结构进行特征提取，分别构建和捕获文本与语音信息的细粒度与深尺度的情感相关特征；

步骤2.3：重复步骤2.1与步骤2.2所述操作，拼接步骤2.2情感相关特征，得到多层次、深尺度情感特征集；

步骤2.4：利用统计学方法，对步骤2.3情感特征集计算最大池化和平均池化特征，拼接得到多模态深尺度情感特征。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤3具体包括以下步骤：

步骤3.1：基于步骤1生成的多模态信息数据集，利用多头自注意力机制计算语音、文本的多模态互相关信息；

步骤3.2：利用共享权重的Transformer结构对语音、文本数据进行情感特征提取；

步骤3.3：利用统计学方法，使用最大池化和平均池化方法降维并拼接说话人特征、步骤3.1互相关信息、步骤3.2情感特征，得到说话人相关的多模态互信息情态特征。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤4包括以下步骤，

步骤4.1：拼接步骤2多模态深尺度情感特征矩阵和步骤3多模态互信息情态特征矩阵得到情感识别矩阵；

步骤4.2：利用注意力机制，计算基于步骤4.1情感识别矩阵的注意力加权分数；

步骤4.3：将注意力加权分数和步骤4.1情感识别矩阵进行点积计算，得到情感识别结果矩阵。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤5包括以下步骤：

步骤5.1：利用SoftMax函数对步骤4生成的情感识别结果矩阵进行数据缩放，得到情感识别概率矩阵。

步骤5.2：基于步骤5.1的情感识别概率矩阵，输出最大情感概率的情感类别，作为情感识别结果。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤2.1共享权重特征缩放具体为，

利用一维卷积将步骤1语音和文本信息的数据维度和数据长度进行缩放对齐；

利用双层共享权重的门控循环神经网络同时对语音和文本进行时序上加权，生成注意力对齐的语音和文本数据信息。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，所述步骤3.1计算多模态互信息具体为，

利用多头自注意力机制，其中以语音信息作为查询，以文本信息作为键和值，计算多头注意力作为语音对文本的互信息；

利用多头自注意力机制，其中以文本信息作为查询，以语音信息作为键和值，计算多头注意力作为文本对语音的互信息。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述中任一所述的实现方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述中任一所述的实现方法。

本发明的有益效果是：

本发明能够有效的组织多模态情感数据信息，利用深尺度、多层次的多模态情感特征实现情感识别。

本发明利用预训练模型生成鲁棒、通用的多模态嵌入表示，提高了情感识别方法的扩展性和移植性。

本发明利用说话人特征增强多模态互信息特征的情感相关性，提高多模态情感识别性能。

附图说明

图1是本发明的架构示意图。

图2是本发明的DST模块示意图。

图3是本发明的MT模块示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

多模态情感识别目前主要受限于标记数据较少，训练时难以克服噪声带来的过拟合影响；同时目前主流的情感识别模型所提取的情感特征仍然不够具有区分性，中性和其他情感的混淆情况十分严重，主要是受限于情感识别任务的难度和辅助决策的副语言信息利用度不够；此外多模态信息的融合方法也不够完善，不同数据长度的语音和文本信息产生交互受到了明显的限制。基于上述问题的存在，本发明主要解决情感识别的数据稀少、特征稀疏、融合层次不足的问题，具体方法主要包括以下几个阶段：

多模态情感特征提取阶段。

为了提取通用且鲁棒的特征表示，增强模型拟合数据的表现，减轻标记数据量不够所导致的噪声污染问题。本发明采用通用的、健壮的预训练嵌入来避免数据稀缺问题。此外，深尺度特征提取模块DST利用注意力对齐来自多媒体资源的情感相关时段，然后通过Transformer结构捕获细粒度特征。接下来，互相关信息提取模块MT专门用于提取与说话人相关的多模态互相关信息。

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，在多模态情感特征提取阶段，主要分为以下的几个部分：

进一步的，所述步骤1具体包括以下步骤：

进一步的，所述步骤2具体包括以下步骤：

进一步的，所述步骤3具体包括以下步骤：

多模态情感识别阶段

一种基于深度学习多模态深尺度情感特征融合的情感识别方法，在多模态情感识别阶段，主要分为以下的几个部分：

进一步地，所述步骤4包括以下步骤：

进一步地，所述步骤5包括以下步骤：

在下文的详细描述中，将参照形成本说明书一部分的附图。如图1所示，基于深度学习多模态深尺度情感特征融合的情感识别方法主要包含了两个阶段：多模态情感特征提取阶段和多模态情感识别阶段。多模态情感特征提取阶段中主要包含了多模态深尺度情感特征提取和多模态互相关情态特征提取。其目的是在多层次、深尺度的特征范围内，更有效的提取情感相关特征，同时有效对齐多模态信息，利用说话人相关的互相关信息来增强情感识别性能。多模态情感识别阶段是基于生成的情感特征用来更加凸显情感相关性和完成特定话语的情感识别任务。

其中多模态情感特征提取阶段主要包含了三个步骤：数据预处理阶段，多模态深尺度情感特征提取阶段、多模态互相关情态特征提取阶段。

多模态情感特征提取阶段。

步骤1：数据预处理阶段，输入wav格式的一段语音及转录文本，利用ME模块分别通过BERT、ECAPA-TDNN、huBERT预训练模型得到它的通用文本特征T'、说话人特征S以及通用语音特征A'；

所述步骤1具体包括以下步骤：

步骤1.1：通过录音设备收集人的语音波形信息，采样频率16000HZ，每一句话被单独保存，获得以wav格式存储的语音波形文件A。

步骤1.2：利用ASR自动语音识别系统读入连续的wav格式的文件A，完成对步骤1.1语音文件A的自动语音识别，得到连续语音的文本转录文件T。

步骤1.3：利用huBERT、ECAPA-TDNN预训练模型对步骤1.1语音文件进行通用语音特征提取和说话人特征提取，其中语音特征的预训练模型是利用掩码语言模型训练的，通过遮掩一段语音中的15％片段，让模型能够根据特征还原语音中被遮掩的部分，以此提取到通用和鲁棒的语音特征表示。将连续语音文件输入到huBERT预训练模型中得到语音特征A'，将连续语音文件输入到ECAPA-TDNN模型中得到说话人特征S。

步骤1.4：利用BERT预训练模型对步骤1.2文本转录文件T进行通用文本特征提取，预训练的目标与步骤1.3中相似，将15％比例的单词随机替换成其他单词或者掩码，让模型能够基于训练的特征还原出被掩盖的单词信息，从而得到文本的通用特征T'。

步骤1.5：对步骤1.3通用语音特征A'和说话人特征S和步骤1.4通用文本特征T'进行拼接，生成多模态信息数据集

n代表语料库的文件数量。

步骤2：多模态深尺度情感特征提取阶段，如图2所示，利用DST模块在多层次、深尺度的特征范围对步骤1得到的文本特征T'和语音特征A'进行情感相关特征的凝练和提取，得到多模态深尺度情感特征D和H。

所述步骤2具体包括以下步骤：

步骤2.1：基于步骤1生成的多模态信息数据集

对语音和文本特征进行共享权重的特征缩放，特征维度缩放通过CNN1D完成，公(式)如(1)所示：

T'＝CNN1D(T'). (1)

特别的，CNN1D中采用的卷积核大小为1x1，步长为1。通过一维卷积算法能够将A'和T'的特征维度大小、序列长度缩放到一致。此外，为了能够将多模态的信息互相融合利用，不同模态的信息需要进行数据对齐，否则模型将会错误的学习到不对等的信息之间的关系而忽略的相关情感词语的联系。本发明权重缩放方法主要使用共享权重的双层的门控循环神经网络GRU来实现注意力加权的多模态信息对齐方式，公式如(2)所示：

其中GRU每一个时间步产生的输出是由语音和文本的前置信息同时决定，而又同时作用到当前的时间步输入的信息上，通过共享权重的方式，每一个时间步的语音和文本基于过往信息来共同加权进行情感相关性的对齐，这样拥有相同情感显著的特征区域能够在多模态信息中得到良好的体现。由此我们得到深尺度特征数据集

步骤2.2：对步骤2.1深尺度特征数据集

利用Transformerencoder结构进行特征提取，分别构建和捕获文本与语音信息的细粒度与深尺度的情感相关特征，公式如(3)所示：

H＝L(G_T+σ(W^T(L(G_T+Attn(G_T)))+b)). (3)

其中Attn代表自注意力机制的缩写，W和b是可学习参数，自注意力机制公式如(4)所示：

Q＝W_QX,

K＝W_KX,

V＝W_VX,

其中Q、K、V代表输入的query、key和value，X为输入的语音特征A'与文本特征T'。

步骤2.3：重复步骤2.1与步骤2.2所述操作，拼接步骤2.2情感相关特征，得到多层次、深尺度情感特征集

N代表重复的次数；

步骤2.4：利用统计学方法，对步骤2.3情感特征集

计算最大池化MaxPool和平均池化AvgPool的降维特征，拼接得到多模态深尺度情感特征B。

步骤3：多模态互相关情态特征提取阶段，如图3所示，利用MT模块对步骤1得到的多模态数据集

进行互相关信息计算，并在话语级特征表示中引入说话人特征S得到说话人相关的多模态互相关情态特征U。

所述步骤3具体包括以下步骤：

步骤3.1：基于步骤1生成的多模态信息数据集

利用多头自注意力机制Attn，公式如(5)所示：

计算语音、文本的多模态互相关信息C_AT、C_TA，它们分别代表了基于语音信息的特征集合中与文本信息相关联的部分，和基于文本信息的特征集合中与语音信息相关联的部分。本发明利用MT模块有效的构建多模态之间的互信息关系，利用这种依赖和相关性将情感特征进一步突显出来，公式如(6)所示：

C_AT＝L(T+σ(W^T(L(T+Attn(T,A)))+b)). (6)

步骤3.2：利用共享权重的Transformer结构对语音、文本数据的情感特征C进行提取，对于非对齐的多模态信息，我们不仅仅需要计算他们之间的互相关特征集合，也同时需要关注于双模态信息之间的构造特征。与DST模块不同，本发明的MT模块中引入了共享权重的Transformer结构，借助于强大的自注意力机制计算，我们期望它能够将多模态信息不同模态的特征并集合中的多模态特征交集给提取出来，这个特征交集代表了模态间相互作用的特征范围，在此范围中进一步进行特征提取更能够减少噪声的影响，同时有助于提高情感识别的性能，公式如(7)所示：

C＝Transformer(Concat(A,T)). (7)

步骤3.3：利用统计学方法，使用平均池化AvgPool降维并拼接说话人特征、步骤3.1互相关信息C_AT、C_TA和步骤3.2情感特征C，得到说话人相关的多模态互信息情态特征U，公式如(8)所示：

U＝Concat(AvgPool(S,C,_ATC_TA,C)) (8)

多模态情感识别阶段。

步骤4：利用MFC模块对步骤1的语音特征A'、文本特征T'、步骤2多模态深尺度情感特征B、步骤3说话人特征相关的多模态互相关情态特征U进行注意力加权，计算并输出情感识别结果矩阵P。

所述步骤4包括以下步骤：

步骤4.1：拼接步骤1的语音特征A'、文本特征T'、步骤2多模态深尺度情感特征矩阵B和步骤3多模态互信息情态特征矩阵U得到情感识别矩阵O，公式如(9)所示：

O＝Concat(B,U,A',T') (9)

步骤4.2：利用注意力机制，计算基于步骤4.1情感识别矩阵O的注意力加权分数α，公式如(10)所示：

α＝sigmoid(W^TO) (10)

步骤4.3：将注意力加权分数α和步骤4.1情感识别矩阵O进行点积计算，得到情感识别结果矩阵P，公式如(11)所示：

P＝α^TO (11)

步骤5：利用SoftMax函数计算步骤4得到的结果矩阵P的情感识别概率矩阵P'，输出最大概率置信的情感类别emo，实现对多模态信息的情感识别。

所述步骤5包括以下步骤：

步骤5.1：利用SoftMax函数对步骤4生成的情感识别结果矩阵P进行维度缩放，得到情感识别概率矩阵P'，公式如(12)所示:

P'＝σ(W^TP+b) (12)

步骤5.2：基于步骤5.1的情感识别概率矩阵P'，输出最大情感概率的情感类别emo，作为情感识别结果，公式如13所示：

emo＝MAX(P') (13)。

Claims

1.一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述实现方法包括以下步骤：

2.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤1具体包括以下步骤：

3.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤2具体包括以下步骤：

4.根据权利要求3所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤2.1共享权重特征缩放具体为，

5.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤3具体包括以下步骤：

6.根据权利要求5所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤3.1计算多模态互信息具体为，

7.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤4具体为，

8.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法，其特征在于，所述步骤5包括以下步骤：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-8中任一所述的实现方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一所述的实现方法。