CN111898670A

CN111898670A - 多模态情感识别方法、装置、设备及存储介质

Info

Publication number: CN111898670A
Application number: CN202010727888.4A
Authority: CN
Inventors: 刘鹏飞; 李坤; 蒙美玲
Original assignee: Speechx Ltd
Current assignee: Speechx Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-06
Anticipated expiration: 2040-07-24
Also published as: CN111898670B

Abstract

本发明属于情感识别技术领域，公开了一种多模态情感识别方法、装置、设备及存储介质。该方法包括：获取待识别语音音频的语音特征和文本特征；对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息；对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息；根据所述目标待识别信息进行情感识别，得到情感识别结果。通过上述方式，对语音特征和文本特征进行了相关性对齐，得到更具识别性的双向对齐特征，并对双向对齐的特征信息进行了融合，为情感识别提供了更具有区分性的待识别信息，提高情感识别结果的准确性。

Description

多模态情感识别方法、装置、设备及存储介质

技术领域

本发明涉及情感识别技术领域，尤其涉及一种多模态情感识别方法、装置、设备及存储介质。

背景技术

情感识别是任何情感感知的人机交互系统的核心组成部分，如智能虚拟助手和情感对话系统。情感识别器通常用于分析语音、文本或图像。例如，语言情感识别器的目标是识别语言中所包含的情感，通常是根据一系列的情感类别，如快乐、愤怒、悲伤和中性。然而，这是一项艰巨的任务，因为情感表现为会话话语、语音内容、韵律特征等多种因素。现有技术中，仅根据语音声学特征，或者仅根据语音文本中的离散字序列，很难预测语音的真实情感，造成情感识别结果准确性不高。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种多模态情感识别方法、装置、设备及存储介质，旨在解决现有技术情感识别结果准确性不高的技术问题。

为实现上述目的，本发明提供了一种多模态情感识别方法，所述方法包括以下步骤：

获取待识别语音音频的语音特征和文本特征；

对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息；

对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息；

根据所述目标待识别信息进行情感识别，得到情感识别结果。

优选地，获取待识别语音音频的语音特征的步骤，具体包括：

获取待识别语音音频的语音序列；

将所述语音序列输入至第一卷积神经网络，以对所述语音序列进行编码，获得语音向量序列；

将所述语音向量序列输入至第一双向长短期记忆网络，以对所述语音向量序列进行编码，获得双向语音向量特征；

对所述双向语音向量特征进行拼接，获得语音特征；

相应的，获取待识别语音音频的文本特征的步骤，具体包括：

获取待识别语音音频的文本序列；

将所述文本序列输入至第二卷积神经网络，以对所述文本序列进行编码，获得文本向量序列；

将所述文本向量序列输入至第二双向长短期记忆网络，以对所述文本向量序列进行编码，获得双向文本向量特征；

对所述双向文本向量特征进行拼接，获得文本特征。

优选地，所述对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息的步骤，具体包括：

根据所述目标语音信息与所述目标文本信息生成目标特征；

获取所述第一双向长短期记忆网络的隐藏层输出的语音信息和所述第二双向长短期记忆网络的隐藏层输出的文本信息；

根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征；

对所述目标特征和隐藏层特征进行融合，得到目标待识别信息。

优选地，所述根据所述目标语音信息与所述目标文本信息生成目标特征的步骤，具体包括：

根据目标语音信息和所述目标文本信息通过预设分组门控融合层得到目标组门控贡献值；

获取所述目标语音信息对应的目标语音信息权重；

获取所述目标文本信息对应的目标文本信息权重；

根据所述目标语音信息、所述目标文本信息、所述目标语音信息权重、所述目标文本信息权重以及所述目标组门控贡献生成目标特征。

优选地，所述根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征的步骤，具体包括：

根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息通过预设分组门控融合层得到隐藏组门控贡献值；

获取所述隐藏层输出的语音信息对应的隐藏层语音信息权重；

获取所述隐藏层输出的文本信息对应的隐藏层文本信息权重；

根据所述隐藏层输出的语音信息、所述隐藏层输出的文本信息、所述隐藏层语音信息权重、所述隐藏层文本信息权重以及所述隐藏组门控贡献生成隐藏层特征。

优选地，所述对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息的步骤，具体包括：

获取所述语音特征对应于所述文本特征的语音注意力权重；

根据所述语音注意力权重对所述语音特征进行调整，得到调整后的语音特征；

将所述调整后的语音特征输入至平均池化层，获得与所述文本特征对齐的目标语音信息；

获取所述文本特征对应于所述语音特征的文本注意力权重；

根据所述文本注意力权重对所述文本特征进行调整，得到调整后的文本特征；

将所述调整后的文本特征输入至平均池化层，获得与所述语音特征对齐的目标文本信息。

优选地，所述根据所述目标待识别信息进行情感识别，得到情感识别结果的步骤，具体包括：

对所述目标待识别信息进行线性变换，得到非线性语音信息；

通过预设分类器对所述非线性语音信息进行分类，得到情感分类结果。

此外，为实现上述目的，本发明还提出一种多模态情感识别装置，所述多模态情感识别装置包括：

获取模块，用于获取待识别语音音频的语音特征和文本特征；

对齐模块，用于对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息；

融合模块，用于对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息；

识别模块，用于根据所述目标待识别信息进行情感识别，得到情感识别结果。

此外，为实现上述目的，本发明还提出一种多模态情感识别设备，所述多模态情感识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多模态情感识别程序，所述多模态情感识别程序配置为实现如上文所述的多模态情感识别方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有多模态情感识别程序，所述多模态情感识别程序被处理器执行时实现如上文所述的多模态情感识别方法的步骤。

本发明获取待识别语音音频的语音特征和文本特征，对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息，对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息，根据所述目标待识别信息进行情感识别，得到情感识别结果。通过上述方式，对语音特征和文本特征进行了相关性对齐，得到更具识别性的双向对齐特征，并对双向对齐的特征信息进行了融合，为情感识别提供了更具有区分性的待识别信息，提高情感识别结果的准确性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的多模态情感识别设备的结构示意图；

图2为本发明多模态情感识别方法第一实施例的流程示意图；

图3为本发明多模态情感识别方法一实施例中分组门控融合层的信号示意图；

图4为本发明多模态情感识别方法第二实施例的流程示意图；

图5为本发明多模态情感识别方法第三实施例的流程示意图；

图6为本发明多模态情感识别方法第四实施例的流程示意图；

图7为本发明多模态情感识别方法一实施例中多模态情感识别网络的结构示意图；

图8为本发明多模态情感识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的多模态情感识别设备的结构示意图。

如图1所示，该多模态情感识别设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对多模态情感识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多模态情感识别程序。

在图1所示的多模态情感识别设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明多模态情感识别设备中的处理器1001、存储器1005可以设置在多模态情感识别设备中，所述多模态情感识别设备通过处理器1001调用存储器1005中存储的多模态情感识别程序，并执行本发明实施例提供的多模态情感识别方法。

本发明实施例提供了一种多模态情感识别方法，参照图2，图2为本发明多模态情感识别方法第一实施例的流程示意图。

本实施例中，所述多模态情感识别方法包括以下步骤：

步骤S10：获取待识别语音音频的语音特征和文本特征。

需要说明的是，本实施例的执行主体是所述多模态情感识别设备，所述多模态情感识别设备可以是个人计算机或服务器等终端设备，还可为其他可实现相同或相似功能的设备，本实施例对此不加以限制。

可以理解的是，语音特征可为语速特征、语调特征或者停顿特征等，文本特征可为文字内容信息等，所述语音特征和所述文本特征为向量序列，保持了时间顺序，包含随时间变化的全局依赖关系，本实施例通过卷积神经网络和双向长短期记忆网络对语音序列和文本序列进行编码，以获取待识别语音音频的语音特征和文本特征，也可以使用其他方式获取，本实施例对此不加以限制。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其层级结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见网络结构。在常见网络结构中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此池化层在有些情况下可能不被认为是独立的层。通常，卷积有助于找到特定的局部图像特征(如边缘)，池化的本质，其实是采样，池化层又称为下采样或者欠采样，它的主要功能是对于特征进行降维，压缩数据和参数量，避免过拟合。

需要说明的是，双向长短期记忆网络(Bi-directional Long Short-TermMemory，Bi-LSTM)可以携带上下文的信息，通过双向长短期记忆网络对语音序列和文本序列进行编码，能使得到的语音特征和所述文本特征保持时间顺序。

需要说明的是，本实施例提出的方法是在建模和训练之后进行的，所用到的网络模型和网络模型的参数为预先训练得到的，所述训练过程具体包括：

获取训练集语音音频的样本语音特征和样本文本特征，并标注每个样本语音特征和样本文本特征组对应的目标情感；定义训练的情感识别网络的结构、损失函数和终止条件；将所述样本语音特征和样本文本特征及其对应的目标情感输入至所述情感识别网络进行训练，获得训练好的各网络层参数和情感识别网络，从而提高识别效率。

步骤S20：对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息。

可以理解的是，与所述文本特征对齐的目标语音信息是指与文本特征中单词根据时间对齐的语音帧数，与所述语音特征对齐的目标文本信息是指与语音特征中语音帧数根据时间对齐的单词。

需要说明的是，本实施例通过将所述语音特征和所述文本特征输入至基于注意力机制的双向对齐网络完成对所述语音特征和所述文本特征进行相关性对齐的操作。

基于注意力机制对所述语音特征和所述文本特征进行双向对齐，去除冗余特征，得到能高效识别情感的目标语音信息和目标文本信息，提高目标语音信息和目标文本信息识别的准确性。注意力机制的原理是，当人在看东西时，当前时刻关注的一定是当前正在看的这样东西的某个地方，当目光移到别处时，注意力随着目光的移动也在转移，这意味着，当人注意到某个目标或某个场景时，该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。人脑的注意力机制，是一种资源分配机制，在某个特定时刻，注意力总是集中在画面中的某个焦点部分，而对其它部分视而不见。

步骤S30：对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息。

可以理解的是，对所述目标语音信息与所述目标文本信息进行融合为将目标语音信息与目标文本信息根据对应的权重信息进行整合，得到包含语音和文本相关的目标待识别信息。

在具体实现中，将所述目标语音信息与所述目标文本信息输入至分组门控融合层，以完成对所述目标语音信息与所述目标文本信息的融合，分组门控融合层参照图3，图3为分组门控融合层的信号示意图，将a_s和a_t作为目标组，将h_s和h_t作为隐藏层组，输入至分组门控融合层，通过预设权重对a_s和a_t进行非线性变换，通过预设权重对h_s和h_t进行非线性变换，分别获得目标特征与隐藏层特征，通过将目标特征与隐藏层特征相加得到目标待识别信息。图3中，a_s为目标语音信息，a_t为目标文本信息，h_s为隐藏层输出的语音信息，h_t为隐藏层输出的文本信息，tanh为双曲正切非线性变换，σ是sigmoid型函数，⊙为元素积，p_s,p_t,q_s,q_t分别是a_s,a_t,h_s,h_t的非线性变换的后的特征信息，z_p为目标组非线性变换后的特征信息，z_q为隐藏层组非线性变换后的特征信息，h为目标待识别信息。

步骤S40：根据所述目标待识别信息进行情感识别，得到情感识别结果。

所述根据所述目标待识别信息进行情感识别，得到情感识别结果的步骤，具体包括：对所述目标待识别信息进行线性变换，得到非线性语音信息；通过预设分类器对所述非线性语音信息进行分类，得到情感分类结果。

需要说明的是，通过公式(1)对所述目标待识别信息进行线性变换，得到非线性语音信息。

g＝ReLu(W_gh) (1)

其中，g为非线性语音信息，h为目标待识别信息，W_g为非线性变换的权重。

可以理解的是，ReLu函数的表达式为y＝max(x,0)，在x大于0，输出就是输入，而在x小于0时，输出就保持为0。

在本实施例中，使用softmax分类器所述非线性语音信息进行分类，具体地，通过公式(2)对所述非线性语音信息进行分类，得到情感分类结果。

其中，g为非线性语音信息，W_e为分类权重值，

为情感分类结果。

可以理解的是，在网络训练过程中，将公式(3)最小化负对数似然函数作为softmax分类器对应的损失函数，通过训练得到最小的损失函数，以得到更精确的分类结果。

其中，L为最小化负对数似然函数，N为训练过程中样本总数，C是情感分类类别总数。

可以理解的是，在训练过程中，如果对应的真实情感标签为c，则y_i,c＝1，否则y_i,c＝0。

本实施例通过获取待识别语音音频的语音特征和文本特征，对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息，对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息，根据所述目标待识别信息进行情感识别，得到情感识别结果。通过上述方式，对语音特征和文本特征进行了相关性对齐，得到更具识别性的双向对齐特征，并对双向对齐的特征信息进行了融合，为情感识别提供了更具有区分性的待识别信息，提高情感识别结果的准确性。

参考图4，图4为发明多模态情感识别方法第二实施例的流程示意图。

基于上述第一实施例，本实施例多模态情感识别方法在所述步骤S10，具体包括：

步骤S101：获取待识别语音音频的语音序列。

需要说明的是，语音中的每一帧对应一个特征向量，在本实施例中，从语音模态中提取Mel谱图和梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCCs)作为声学特征，语音信号表示为向量{x₁,…,x_N}的序列，记作待识别语音音频的语音序列。

步骤S102：将所述语音序列输入至第一卷积神经网络，以对所述语音序列进行编码，获得语音向量序列。

需要说明的是，通过公式(4)对所述语音序列进行编码，获得语音向量序列。

p_i＝CNN([x₁,…,x_N]),i∈{1,…,K} (4)

其中，p_i为语音向量序列，{x₁,…,x_N}为待识别语音音频的语音序列，CNN表示卷积神经网络层算法。

在本实施例中，通过第一卷积神经网络的卷积层和最大池化层对所述语音序列进行编码，获得语音向量序列。

步骤S103：将所述语音向量序列输入至第一双向长短期记忆网络，以对所述语音向量序列进行编码，获得双向语音向量特征。

需要说明的是，通过公式(5)和公式(6)对所述语音向量序列进行编码，获得双向语音向量特征。

其中，

为前向语音向量特征，

为后向语音向量特征，p_i为语音向量序列，

表示前向长短期记忆网络算法，

表示后向长短期记忆网络算法。

步骤S104：对所述双向语音向量特征进行拼接，获得语音特征。

需要说明的是，通过公式(7)对所述双向语音向量特征进行拼接，获得语音特征。

其中，

为前向语音向量特征，

为

对应的后向语音向量特征，s_i为语音特征。

步骤S105：获取待识别语音音频的文本序列。

需要说明的是，对于待识别语音音频，可以获取相应的人工转写标注，可以通过自动语音识别软件获得标注，以获得文本编码，本实施例对此不加以限制。单词级或字符级嵌入向量都可以用来表示文本，在本实施例中，采用单词级嵌入向量来表示每句话中的每个单词。对于文本编码，每个句子表示为向量{e₁,…,e_M}的序列，记作文本序列，其中M是句子中的单词数，e_j是第j个单词的单词嵌入。

步骤S106：将所述文本序列输入至第二卷积神经网络，以对所述文本序列进行编码，获得文本向量序列。

需要说明的是，通过公式(8)对所述文本序列进行编码，获得文本向量序列。

q_j＝CNN([e₁,…,e_M]),j∈{1,…,L} (8)

其中，q_j为语音向量序列，{e₁,…,e_M}为待识别语音音频的语音序列，CNN表示卷积神经网络层算法。

在本实施例中，通过第二卷积神经网络的卷积层和最大池化层对所述文本序列进行编码，获得文本向量序列。

步骤S107：将所述文本向量序列输入至第二双向长短期记忆网络，以对所述文本向量序列进行编码，获得双向文本向量特征。

需要说明的是，通过公式(9)和公式(10)对所述文本向量序列进行编码，获得双向文本向量特征。

其中，

为前向文本向量特征，

为后向文本向量特征，q_j为文本向量序列，

表示前向长短期记忆网络算法，

表示后向长短期记忆网络算法。

步骤S108：对所述双向文本向量特征进行拼接，获得文本特征。

需要说明的是，通过公式(11)对所述双向文本向量特征进行拼接，获得文本特征。

其中，

为前向文本向量特征，

为

对应的后向文本向量特征，t_j为文本特征。

本实施例通过获取有时间顺序的语音特征和文本特征，引入卷积神经网络和双向长短期记忆网络，对待识别语音音频的语音序列和文本序列进行编码处理，得到具有识别性的语音特征和文本特征，通过对语音特征和文本特征进行对齐和融合，提高情感识别结果的准确性。

参考图5，图5为本发明多模态情感识别方法第三实施例的流程示意图。

基于上述第一实施例和第二实施例，本实施例多模态情感识别方法在所述步骤S30，具体包括：

步骤S301：根据所述目标语音信息与所述目标文本信息生成目标特征。

可以理解的是，本实施例通过将所述目标语音信息和所述目标文本信息作为一组，将隐藏层输出的语音信息和隐藏层输出的文本信息作为一组，输入至分组门控融合层，获得目标特征和隐藏层特征，通过将目标特征和隐藏层特征相加得到目标待识别信息。

需要说明的是，所述根据所述目标语音信息与所述目标文本信息生成目标特征的步骤，具体包括：根据目标语音信息和所述目标文本信息通过预设分组门控融合层得到目标组门控贡献值；获取所述目标语音信息对应的目标语音信息权重；获取所述目标文本信息对应的目标文本信息权重；根据所述目标语音信息、所述目标文本信息、所述目标语音信息权重、所述目标文本信息权重以及所述目标组门控贡献生成目标特征。

具体地，通过公式(12)对所述目标语音信息进行双曲正切非线性转换，通过公式(13)对所述目标文本信息进行双曲正切非线性转换，并通过公式(14)和公式(15)计算得到目标特征。

h₁＝z_p⊙p_s+(1-z_p)⊙p_t (15)

其中，a_s为目标语音信息，a_t为目标文本信息，

分别是a_s,a_t的非线性变换的权重，

是目标组门控贡献值，p_s,p_t分别是a_s,a_t的非线性变换的后的特征信息，z_p为目标组非线性变换后的特征信息，z_q为隐藏层组非线性变换后的特征信息，σ是sigmoid型函数，⊙为元素积，h₁为目标特征。

步骤S302：获取所述第一双向长短期记忆网络的隐藏层输出的语音信息和所述第二双向长短期记忆网络的隐藏层输出的文本信息。

在本实施例中，获取第一双向长短期记忆网络层最后一个隐藏状态，记作隐藏层输出的语音信息，获取第二双向长短期记忆网络层最后一个隐藏状态，记作隐藏层输出的文本信息。

步骤S303：根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征。

需要说明的是，所述根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征的步骤，具体包括：根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息通过预设分组门控融合层得到隐藏组门控贡献值；获取所述隐藏层输出的语音信息对应的隐藏层语音信息权重；获取所述隐藏层输出的文本信息对应的隐藏层文本信息权重；根据所述隐藏层输出的语音信息、所述隐藏层输出的文本信息、所述隐藏层语音信息权重、所述隐藏层文本信息权重以及所述隐藏组门控贡献值生成隐藏层特征。

具体地，通过公式(16)对所述隐藏层输出的语音信息进行双曲正切非线性转换，通过公式(17)对所述隐藏层输出的文本信息进行双曲正切非线性转换，并通过公式(18)和公式(19)计算得到隐藏层特征。

h₂＝z_q⊙q_s+(1-z_q)⊙q_t (19)

其中，h_s为隐藏层输出的语音信息，h_t为隐藏层输出的文本信息，

分别是a_s,a_t的非线性变换的权重，

是隐藏组门控贡献值，q_s,q_t分别是h_s,h_t的非线性变换的后的特征信息，z_q为隐藏层组非线性变换后的特征信息，σ是sigmoid型函数，⊙为元素积，h₂为隐藏层特征。

步骤S304：对所述目标特征和隐藏层特征进行融合，得到目标待识别信息。

具体地，通过公式(20)对所述目标特征和隐藏层特征进行融合，得到目标待识别信息。

其中，a_s为目标语音信息，a_t为目标文本信息，h_s为隐藏层输出的语音信息，h_t为隐藏层输出的文本信息，

分别是a_s,a_t,h_s,h_t的非线性变换的权重，

分别是目标组门控贡献值和隐藏组门控贡献值，p_s,p_t,q_s,q_t分别是a_s,a_t,h_s,h_t的非线性变换的后的特征信息，z_p为目标组非线性变换后的特征信息，z_q为隐藏层组非线性变换后的特征信息，σ是sigmoid型函数，⊙为元素积，h为目标待识别信息。

本实施例通过对所述目标语音信息与所述目标文本信息进行了融合，同时提出获取隐藏层输出的语音信息和隐藏层输出的文本信息，消除双向对齐对语音特征和文本特征的影响，对多种情感识别特征因素进行融合，使情感识别达到最佳性能，为情感识别提供了更具有区分性的待识别信息，提高情感识别结果的准确性。

参考图6，图6为本发明多模态情感识别方法第四实施例的流程示意图。

基于上述第一实施例，本实施例多模态情感识别方法在所述步骤S20，具体包括：

步骤S201：获取所述语音特征对应于所述文本特征的语音注意力权重。

需要说明的是，本实施例中，将获取得到的待识别语音音频的语音特征和文本特征输入至基于注意力机制的双向对齐网络，计算任意时序中文本特征与任意时序中语音特征之间的相关性，可采用的方法有点积、Cosine相似性和多层神经网络(Multi-LayerPerceptron，MLP)。对所述相关性数值进行归一化处理，得到每帧语音与单词对应的语音注意力权重。

本实施例获取所述语音特征对应于所述文本特征的语音注意力权重的过程，具体包括：

将所述语音特征记为{s₁,…,s_K}，将所述文本特征记为{t₁,…,t_L}，其中{s₁,…,s_K}保持了i∈{1,…,K}的时间顺序，{t₁,…,t_L}保持了j∈{1,…,L}的时间顺序。

通过公式(21)计算第i个语音特征和第j个文本特征之间的相关性。

其中，s_i为第i个语音特征，t_j为第j个文本特征，a_j,i为第i个语音特征和第j个文本特征之间的相关性。

通过公式(22)对第i个语音特征和第j个文本特征之间的相关性a_j,i进行归一化处理，得到第i个语音特征和第j个文本特征之间的注意权重。

其中，a_j,i为第i个语音特征和第j个文本特征之间的相关性，a_j,k为第k个语音特征和第j个文本特征之间的相关性，α_j,i为第i个语音特征和第j个文本特征之间的语音注意力权重。

最终，得到语音注意力权重{α_j,1,…,α_j,K}。

步骤S202：根据所述语音注意力权重对所述语音特征进行调整，得到调整后的语音特征。

需要说明的是，调整过程是将所述语音特征{s₁,…,s_K}调整为所述文本特征{t₁,…,t_L}对齐的特征，通过公式(23)，根据所述语音注意力权重对所述语音特征进行加权求和得到所述调整后的语音特征。

其中，α_j,k为第k个语音特征和第j个文本特征之间的语音注意力权重，s_k为第k个语音特征，

为第j个文本特征对应的调整后的语音特征。

最终，得到调整后的语音特征

例如，获取一语音特征{s₁,…,s_K}，其中，K＝10，获取一文本特征{t₁,…,t_L}，L＝5,通过公式(23)对语音特征{s₁,…,s_K}进行加权求和计算后，得到调整后的语音特征为

其中，L＝5。

步骤S203：将所述调整后的语音特征输入至平均池化层，获得与所述文本特征对齐的目标语音信息。

需要说明的是，将调整后的语音特征

输入至平均池化层，通过公式(24)进行计算，得到与所述文本特征对齐的目标语音信息。

其中，a_s为与所述文本特征对齐的目标语音信息，

为所述调整后的语音特征。

步骤S204：获取所述文本特征对应于所述语音特征的文本注意力权重。

本实施例获取所述文本特征对应于所述语音特征的文本注意力权重的过程，具体包括：

通过公式(25)计算第j个文本特征和第i个语音特征之间的相关性。

其中，s_i为第i个语音特征，t_j为第j个文本特征，b_i,j为第j个文本特征和第i个语音特征之间的相关性。

通过公式(26)对第j个文本特征和第i个语音特征之间的相关性b_i,j进行归一化处理，得到第j个文本特征和第i个语音特征之间的注意权重。

其中，b_i,j为第j个文本特征和第i个语音特征之间的相关性，b_i,l为第l个文本特征和第i个语音特征之间的相关性，β_i,l为第l个文本特征和第i个语音特征之间的语音注意力权重。

最终，得到语音注意力权重{β_i,1,…,β_i,L}。

步骤S205：根据所述文本注意力权重对所述文本特征进行调整，得到调整后的文本特征。

需要说明的是，调整过程是将所述文本特征{t₁,…,t_L}调整为所述语音特征{s₁,…,s_K}对齐的特征，通过公式(27)，根据所述文本注意力权重对所述文本特征进行加权求和得到所述调整后的文本特征。

其中，β_i,l为第l个文本特征和第i个语音特征之间的语音注意力权重，t_l为第l个文本特征，

为第i个语音特征对应的调整后的文本特征。

最终，得到调整后的文本特征

步骤S206：将所述调整后的文本特征输入至平均池化层，获得与所述语音特征对齐的目标文本信息。

需要说明的是，将调整后的文本特征

输入至平均池化层，通过公式(28)进行计算，得到与所述语音特征对齐的目标文本信息。

其中，a_t为与所述语音特征对齐的目标文本信息，

为所述调整后的文本特征。

参照图7，图7为多模态情感识别网络的结构示意图，在本实施例中，通过CNN-LSTM编码器中的卷积神经网络和双向长短期记忆网络获取待识别语音音频的语音特征和文本特征，通过双向对齐网络对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息，通过分组门控对齐网络对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息，根据所述目标待识别信息进行情感识别，得到情感识别结果。

为评价上述多模态情感识别方法中各步骤对情感识别结果准确性的影响，对多模态情感识别网络进行评估，具体实验过程如下：

使用IEMOCAP数据集进行5折交叉验证，该数据集由5个会话组成，每个会话由一名男性与一名女性对话。使用4个会话作为训练集1，剩下的会话作为测试集。使用包含快乐、愤怒、悲伤和中性四个情感类别的子集。随机选择5％的语音作为验证集。

需要说明的是，IEMOCAP数据集是：交互式情绪二元运动捕捉数据库，是一个动作、多模式和多峰值的数据库。它包含大约12小时的视听数据，包括视频、语音、面部运动捕捉、文本转录。它由两个阶段组成，参与者在其中执行即兴表演或脚本场景，特别是选择以引出情感表达。IEMOCAP数据库由多个注释员注释成类别标签，如愤怒、快乐、悲伤、中立，以及维度标签，如配价、激活和支配。

从语音模态中提取Mel谱图和MFCCs作为声学特征。语音中的每一帧对应一个特征向量，该特征向量由26维Mel谱图、13维MFCCs及其一级δ组成52维向量。将语音的最大长度设置为7.5秒，较长的语句被剪切为7.5秒，较短的语句补零填充。对于IEMOCAP数据集中的每个语音，都有相应的人工转写标注，这些标注也可以通过自动语音识别软件获得。单词级或字符级嵌入向量都可以用来表示文本。在IEMOCAP数据集中，采用单词级嵌入向量来表示每句话中的每个单词，并使用预先训练好的300维Glove向量来初始化词嵌入向量。

本实施例提出的多模态情感识别网络模型为基于门控双向对齐网络的情感识别模型，记作GBAN模型。使用Xavier初始化方法初始化GBAN模型中的所有网络权值，并将学习率设置为0.0001，使用Adam训练算法进行训练。为了减少过度拟合，在分组门控融合层中放置了速率为0.5的dropout层，并将网络权值上的L2正则化系数设置为0.01。采用两种广泛使用的评估指标：加权准确度(WA)，未加权准确度(UA)，加权准确度指的是总体分类准确度，未加权准确度指的是情感类别的平均召回率。采用的方法是首先计算每个交叉的度量值，然后给出所有交叉的平均精度。

使用两个单独的CNN-LSTM编码器对语音序列和本文序列分别进行编码，其中第一双向LSTM层的最后一个隐藏状态可用于将语音特征表示为h_s，第二双向LSTM层的最后一个隐藏状态可用于将文本特征表示为h_t。采用双向对齐网络，得到了语音特征和文本特征的注意力对齐的目标语音信息a_s和目标文本信息a_t。通过比较h_s、h_t、a_s、a_t的加权准确性(WA)，评估h_s、h_t、a_s、a_t在情感分类中的辨别能力，如表1所示，表1为在IEMOCAP数据集上情感分类中的不同特征信息的比较结果(5重交叉验证)。a_s为目标语音信息，a_t为目标文本信息，h_s为隐藏层输出的语音信息，h_t为隐藏层输出的文本信息。

在语音和文本的所有交叉折上，注意对齐的目标语音信息和目标文本信息的识别效果显著优于隐藏层输出的语音信息和隐藏层输出的文本信息的识别效果。由于目标语音信息a_s和目标文本信息a_t都从另一模态中获取额外信息，相互进行了对齐，这是与另一模态对齐的特征信息优于其对应的单独模态特征信息的原因。目标文本信息a_t的识别效果优于所有其他特征信息，这表明了对齐方向对情感识别很重要。目标文本信息a_t优于目标语音信息a_s的原因可能归因于同一表达，语音帧和文本序列有太大的区别，其中帧的数目高达750帧，而文本序列可能由大约20个单词组成。由于语音序列太长，注意力对齐的语音表示a_s不如目标文本信息a_t有效。

交叉	h<sub>s</sub>	h<sub>t</sub>	a<sub>s</sub>	a<sub>t</sub>
					1	0.5860	0.6285	0.6476	0.6762
2	0.6384	0.7060	0.6728	0.7368
					3	0.5920	0.5860	0.6150	0.6420
4	0.6936	0.6494	0.6948	0.7289
					5	0.6030	0.6497	0.6561	0.6815
平均值	0.6226	0.6439	0.6573	0.6931

表1

从语音和文本中提取到的多种不同的特征信息，可采用多种信息融合方法进行融合，如简单拼接、张量融合网络(Tensor Fusion Layer，TFL)、门控多模态单元(gatedmultimodal units，GMU)，本实施例采用的是分组门控融合层(group gated fusion，GGF)。将本实施例采用的分组门控融合层融合方法与简单拼接方法Concat-1、简单拼接方法Concat-2、张量融合网络TFL以及门控多模态单元GMU进行精确度比较，在IEMOCAP数据集上的精确度比较结果如表2所示。表2为基于IEMOCAP数据集的情感分类信息融合方法精确度比较结果(5折交叉验证)。a_s为目标语音信息，a_t为目标文本信息，h_s为隐藏层输出的语音信息，h_t为隐藏层输出的文本信息。其中，简单拼接方法Concat-1是将目标语音信息a_s与目标文本信息a_t简单拼接，简单拼接方法Concat-2是将a_s、a_t、h_s和h_t简单拼接。

分组门控融合层在2、4和5的交叉折上获得了最好的精度，并且优于所有其他方法。通过分析，Concat-1在对两种特征信息进行拼接融合时，精确度低于TFL和GMU，Concat-2在对四种特征信息进行拼接融合时，精确度低于GGF，由于IEMOCAP数据集相对较小，简单拼接方法也能实现学习数据中的模态，但是本实施例提出的分组门控融合层能更有效的提升精确度，原因是能自动学习每个分组内特征信息的非线性变换sigmoid型函数的权重。

表2

将本实施例提出的基于门控双向对齐网络的情感识别模型与现有的公开方法进行比较。所有的实验都使用5重交叉验证，并保留一个会话数据集作为测试集。CNN-Att为一种基于卷积神经网络的纯语音模型，LSTM-Att为一种基于长短期记忆网络的纯语音模型，Self-Att为一种基于注意力机制的纯语音模型，Att-LSTM为一种基于长短期记忆网络的单向对齐多模态情感识别模型，BiAtt-Concat为基于简单拼接方法和双向对齐多模态情感识别模型，BiAtt-TFL为基于张量融合网络的双向对齐多模态情感识别模型，BiAtt-GMU为基于门控多模态单元的双向对齐多模态情感识别模型，GBAN为本实施例提出的基于门控双向对齐网络的情感识别模型。表3为基于IEMOCAP数据集的模型精确度比较结果(S：语音，T：文本)。WA为加权准确度，UA为未加权准确度。

表3

同时使用语音和文本的多模态方法优于仅使用语音的方法。Att-LSTM模型中只采用语音和文本之间的单向对齐，其性能低于基于双向对齐的其他模型。本实施例提出的基于门控双向对齐网络的情感识别模型在IEMOCAP数据集中的加权准确度和未加权准确度方面有最佳性能。

本实施例通过对所述语音特征和所述文本特征进行了相关性对齐，得到与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息，解决了文本特征与语音特征不对齐造成的情感识别错误的问题，使文本特征与语音特征具有更好的识别性，从而提高情感识别结果的准确性。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有多模态情感识别程序，所述多模态情感识别程序被处理器执行时实现如上文所述的多模态情感识别方法的步骤。

参照图8，图8为本发明多模态情感识别装置第一实施例的结构框图。

如图8所示，本发明实施例提出的多模态情感识别装置包括：

获取模块10：用于获取待识别语音音频的语音特征和文本特征。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此池化层在有些情况下可能不被认为是独立的层。通常，卷积有助于找到特定的局部图像特征(如边缘)，池化的本质，其实是采样，池化层又成为下采样或者欠采样，它的主要功能是对于特征进行降维，压缩数据和参数量，避免过拟合。

需要说明的是，Bi-LSTM可以携带下文的信息，通过双向长短期记忆网络对语音序列和文本序列进行编码，能使得到的语音特征和所述文本特征保持时间顺序。

对齐模块20：用于对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息。

融合模块30：用于对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息。

在具体实现中，将所述目标语音信息与所述目标文本信息输入至分组门控融合层，以完成对所述目标语音信息与所述目标文本信息的融合。

识别模块40：用于根据所述目标待识别信息进行情感识别，得到情感识别结果。

g＝ReLu(W_gh) (1)

其中，g为非线性语音信息，W_e为分类权重值，

为情感分类结果。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

在一实施例中，所述获取模块10，还用于获取待识别语音音频的语音序列；

对所述双向语音向量特征进行拼接，获得语音特征；

所述获取模块10，还用于获取待识别语音音频的文本序列；

对所述双向文本向量特征进行拼接，获得文本特征。

在一实施例中，所述融合模块30，还用于根据所述目标语音信息与所述目标文本信息生成目标特征；

在一实施例中，所述融合模块30，还用于根据目标语音信息和所述目标文本信息通过预设分组门控融合层得到目标组门控贡献值；

获取所述目标语音信息对应的目标语音信息权重；

获取所述目标文本信息对应的目标文本信息权重；

在一实施例中，所述融合模块30，还用于根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息通过预设分组门控融合层得到隐藏组门控贡献值；

根据所述隐藏层输出的语音信息、所述隐藏层输出的文本信息、所述隐藏层语音信息权重、所述隐藏层文本信息权重以及所述隐藏组门控贡献值生成隐藏层特征。

在一实施例中，所述对齐模块20，还用于获取所述语音特征对应于所述文本特征的语音注意力权重；

获取所述文本特征对应于所述语音特征的文本注意力权重；

在一实施例中，所述识别模块40，还用于对所述目标待识别信息进行线性变换，得到非线性语音信息；

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的多模态情感识别方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多模态情感识别方法，其特征在于，所述多模态情感识别方法包括：

获取待识别语音音频的语音特征和文本特征；

2.如权利要求1所述的多模态情感识别方法，其特征在于，获取待识别语音音频的语音特征的步骤，具体包括：

获取待识别语音音频的语音序列；

对所述双向语音向量特征进行拼接，获得语音特征；

获取待识别语音音频的文本序列；

对所述双向文本向量特征进行拼接，获得文本特征。

3.如权利要求2所述的多模态情感识别方法，其特征在于，所述对所述目标语音信息与所述目标文本信息进行融合，获得目标待识别信息的步骤，具体包括：

根据所述目标语音信息与所述目标文本信息生成目标特征；

4.如权利要求3所述的多模态情感识别方法，其特征在于，所述根据所述目标语音信息与所述目标文本信息生成目标特征的步骤，具体包括：

获取所述目标语音信息对应的目标语音信息权重；

获取所述目标文本信息对应的目标文本信息权重；

5.如权利要求3所述的多模态情感识别方法，其特征在于，所述根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征的步骤，具体包括：

6.如权利要求1至5中任一项所述的多模态情感识别方法，其特征在于，所述对所述语音特征和所述文本特征进行相关性对齐，获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息的步骤，具体包括：

获取所述语音特征对应于所述文本特征的语音注意力权重；

获取所述文本特征对应于所述语音特征的文本注意力权重；

7.如权利要求1所述的多模态情感识别方法，其特征在于，所述根据所述目标待识别信息进行情感识别，得到情感识别结果的步骤，具体包括：

8.一种多模态情感识别装置，其特征在于，所述多模态情感识别装置包括：

9.一种多模态情感识别设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多模态情感识别程序，所述多模态情感识别程序配置为实现如权利要求1至7中任一项所述的多模态情感识别方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有多模态情感识别程序，所述多模态情感识别程序被处理器执行时实现如权利要求1至7任一项所述的多模态情感识别方法的步骤。