CN116310983A

CN116310983A - 多模态情感识别方法及装置

Info

Publication number: CN116310983A
Application number: CN202310263531.9A
Authority: CN
Inventors: 刘唱; 张锦元; 林晓锐; 杨洁琼
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-23

Abstract

本申请提供了一种多模态情感识别方法及装置，可用于金融领域或其他领域，该方法包括：获取视频数据样本及实际情感标签；根据视频数据样本在多个模态的原始数据和各个模态的单模态情感学习模型，得到各个模态的单模态特征数据和情感特征数据；根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；将情感特征数据、情感预测数据和实际情感标签代入整体损失函数，调整各个模型的参数，当整体损失函数值最小时完成模型的训练，整体损失函数包括：多模态情感识别模型和各个单模态情感学习模型的损失函数；获取待识别视频数据，根据训练完成的多模态情感识别模型，确定情感识别结果。本申请能够提高多模态情感识别的准确性。

Description

多模态情感识别方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种多模态情感识别方法及装置。

背景技术

近年来，随着人机交互技术的发展，人们对机器智能化的追求和期许越来越迫切，如何让机器更像人类、更能理解人的情感和需求，成为众多研究学者关注的热点问题。情感识别是让机器感知人类情绪，理解人类情感的重要研究领域。为了让识别更加准确，研究者们正在尝试将更多的情感信号融合，结合语音、文本、面部表情等多模态的情感识别成为大家的关注焦点。多模态情感识别是在人机交互的过程中，使计算机能够更好地了解用户的情感和注意力表达，通过结合不同的生理信号处理分析用户情感。

尽管多模态情感识别取得了一定的进展，但依然面临一些问题。由于不同模态的采样频率和表示形式是完全不同的，忽略了模态之间细粒度水平的交互，影响情感识别的准确性，是亟待解决的一个关键问题。

发明内容

针对现有技术中的至少一个问题，本申请提出了一种多模态情感识别方法及装置，能够提高多模态情感识别的准确性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种多模态情感识别方法，包括：

获取视频数据样本及其对应的实际情感标签；

根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据；

根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；

将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数，调整所述多模态情感识别模型和各个单模态情感学习模型的参数，当所述整体损失函数值最小时完成所述多模态情感识别模型的训练，所述整体损失函数包括：所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数；

获取待识别视频数据，根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果。

进一步地，所述根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据，包括：

应用循环神经网络-双向的门控循环神经网络模型，对所述视频数据样本在各个模态的原始数据分别进行编码，得到各个模态的单模态特征数据；

基于各个模态的单模态特征数据和注意力函数，得到各个模态的注意力结果；

将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层，应用归一化指数函数处理所述全连接层的输出数据，得到该模态的情感特征数据。

进一步地，所述根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据，包括：

应用各个模态的单模态特征数据进行模态交互处理，得到时间水平交互下的特征数据以及语句水平交互下的特征数据；

基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理，得到情感预测数据。

进一步地，所述应用各个模态的单模态特征数据进行模态交互处理，得到时间水平交互下的特征数据以及语句水平交互下的特征数据，包括：

应用各个模态的单模态特征数据进行时间水平的模态交互处理，得到时间水平交互下的特征数据；

应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据。

进一步地，所述应用各个模态的单模态特征数据进行时间水平的模态交互处理，得到时间水平交互下的特征数据，包括：

根据任意两个模态的单模态特征数据，得到所述两个模态的第一相关性矩阵；

根据所述两个模态的第一相关性矩阵和归一化指数函数，得到时间水平交互下所述两个模态中的一个对另一个的影响；

根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响，确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据；

根据注意力函数和所述两个模态中的一个的融合特征数据，确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果；

根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作，得到所述时间水平交互下的特征数据。

进一步地，所述应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据，包括：

根据任意两个模态的注意力结果，得到所述两个模态的第二相关性矩阵；

根据所述两个模态的第二相关性矩阵和归一化指数函数，得到语句水平交互下所述两个模态中的一个对另一个的影响；

根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响，确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据；

根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作，得到所述语句水平交互下的特征数据。

进一步地，所述整体损失函数L_overall如下：

其中，

表示所述多模态情感识别模型对应的损失函数，

表示不同模态对应的单模态情感学习模型各自的损失函数。

第二方面，本申请提供一种多模态情感识别装置，包括：

获取样本模块，用于获取视频数据样本及其对应的实际情感标签；

单模态情感学习模块，用于根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据；

情感预测模块，用于根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；

训练模块，用于将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数，调整所述多模态情感识别模型和各个单模态情感学习模型的参数，当所述整体损失函数值最小时完成所述多模态情感识别模型的训练，所述整体损失函数包括：所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数；

情感识别模块，用于获取待识别视频数据，根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果。

进一步地，所述单模态情感学习模块，包括：

编码模块，用于应用循环神经网络-双向的门控循环神经网络模型，对所述视频数据样本在各个模态的原始数据分别进行编码，得到各个模态的单模态特征数据；

注意力处理子模块，用于基于各个模态的单模态特征数据和注意力函数，得到各个模态的注意力结果；

归一化处理子模块，用于将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层，应用归一化指数函数处理所述全连接层的输出数据，得到该模态的情感特征数据。

进一步地，所述情感预测模块包括：

模态交互子模块，用于应用各个模态的单模态特征数据进行模态交互处理，得到时间水平交互下的特征数据以及语句水平交互下的特征数据；

情感推理子模块，用于基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理，得到情感预测数据。

进一步地，所述模态交互子模块，包括：

时间水平模态交互单元，用于应用各个模态的单模态特征数据进行时间水平的模态交互处理，得到时间水平交互下的特征数据；

语句水平模态交互单元，用于应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据。

进一步地，所述时间水平模态交互单元具体用于：

进一步地，所述语句水平模态交互单元具体用于：

具体地，所述整体损失函数L_overall可以如下：

其中，

表示所述多模态情感识别模型对应的损失函数，

表示不同模态对应的单模态情感学习模型各自的损失函数。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的多模态情感识别方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的多模态情感识别方法。

由上述技术方案可知，本申请提供一种多模态情感识别方法及装置。其中，该方法包括：获取视频数据样本及其对应的实际情感标签；根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据；根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数，调整所述多模态情感识别模型和各个单模态情感学习模型的参数，当所述整体损失函数值最小时完成所述多模态情感识别模型的训练，所述整体损失函数包括：所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数；获取待识别视频数据，根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果，能够提高多模态情感识别的准确性；具体地，可以通过对图像信息进行序列学习，建立时间顺序模型进行语义信息的提取，能够使得图像数据更好的与语音数据和文本数据融合；可以结合语音、文本和表情的序列学习特征形成多阶段的交互网络，实现不同模态信息在不同阶段的关联，从而形成更丰富的多模态空间信息进行情感识别；可以针对性地将表情信息补充到文本和语音特征中去，防止图像信息成为其他模态信息的干扰，有效的提高模型整体的识别性能；可以学习不同模态的多种水平的特征表示，对表情信息动态的融合到文本和语音中具有重要意义，且可以提高多种模态特征表示的判别性，有利于提高情感识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的多模态情感识别方法的第一流程示意图；

图2是本申请实施例中的多模态情感识别方法的第二流程示意图；

图3是本申请实施例中的多模态情感识别方法的第三流程示意图；

图4是本申请应用实例中的多模态情感识别方法的框架图；

图5是本申请实施例中多模态情感识别装置的结构示意图；

图6是本申请应用实例中多模态情感识别装置的结构示意图；

图7为本申请实施例的电子设备的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，还存在比如语音和文本作为序列数据，在模态处理和融合的过程中会有更高的贴合度和适应度，但图像信息与二者呈现的形式差别较大，融合起来也更加难以协调的问题。当前融入表情识别的多模态模型均是直接用预训练模型对图像数据进行学习，抽象学习出一个高水平语义表示直接与其他模态进行交互。这种方式忽略了模态之间细粒度水平的交互，使表情信息失去时间维度的含义，从而无法有效的与其他模态进行情感识别。如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性，提高情感识别的准确性，是亟待解决的一个关键问题。

基于此，为了使图像信息更好的与语音和文本融合，本申请提出一种多模态情感识别方法及装置，可以实现细粒度特征融合的多模态情感识别，对表情进行不同水平的特征提取，递进的补充到语音和文本的时间水平和语句水平的特征中。

需要说明的是，本申请公开的多模态情感识别方法及装置可用于金融技术领域，也可用于除金融技术领域之外的任意领域，本申请公开的多模态情感识别方法及装置的应用领域不做限定。本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。

具体通过下述各个实施例进行说明。

为了提高多模态情感识别的准确性，本实施例提供一种执行主体是多模态情感识别装置的多模态情感识别方法，该多模态情感识别装置包括但不限于服务器，如图1所示，该方法具体包含有如下内容：

步骤100：获取视频数据样本及其对应的实际情感标签。

具体地，所述视频数据样本可以为批量；一个视频数据样本可以为一段视频；所述实际情感标签可以包括：高兴、害怕、伤心和吃惊等反映视频数据样本真实情感的标签。

步骤200：根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据。

具体地，所述模态可以表示信息的来源或形式；所述多个模态的原始数据可以表示单词、帧和图像。

优选的，可以从单个视频数据样本中按照等长的时间间隔均匀地抽取出5帧具有人脸的图像，利用openface人脸识别模型将每张人脸提出成112×112大小的图像

作为原始图像特征数据。将语音从视频数据样本中分离出，通过25ms汉明窗口和10ms移帧进行分帧操作，对每一帧的数据计算26维度的log_Mel filter bank特征，随后计算其一阶导数和二阶导数形成78维的声学特征

作为原始语音特征数据，N为样本数目，f为帧的数目。将语音转录出的文本，用预训练好的Bert模型进行词向量编码，形成768维的文本特征

作为原始语音特征数据，d为单词数目。

步骤300：根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据。

具体地，通过应用多模态情感识别模型可以实现模态之间细粒度水平的交互。

步骤400：将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数，调整所述多模态情感识别模型和各个单模态情感学习模型的参数，当所述整体损失函数值最小时完成所述多模态情感识别模型的训练，所述整体损失函数包括：所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数；

具体地，可以将整体损失函数加入到模型训练过程中，利用梯度下降算法进行迭代，直至达到最大迭代次数或模型收敛。

步骤500：获取待识别视频数据，根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果。

具体地，所述情感识别结果可以是高兴、害怕、伤心和吃惊等。

为了进一步提高单模态情感学习的可靠性，如图2所示，在本申请一个实施例中，步骤200包括：

步骤201：应用循环神经网络-双向的门控循环神经网络模型，对所述视频数据样本在各个模态的原始数据分别进行编码，得到各个模态的单模态特征数据。

步骤202：基于各个模态的单模态特征数据和注意力函数，得到各个模态的注意力结果。

步骤203：将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层，应用归一化指数函数处理所述全连接层的输出数据，得到该模态的情感特征数据。

具体地，对于文本模态s和语音模态t来说，所述循环神经网络-双向的门控循环神经网络模型可以如下所示：

其中，

表示第i个视频数据样本在模态E对应的第j个原始数据，

表示第i个视频数据样本在模态E对应的第j个原始数据对应的单模态特征数据，[·,·]表示张量拼接操作，(E∈M＝s,t)。可以将视频数据样本在模态E对应的第j个原始数据对应的单模态特征数据确定为模态E对应的单模态特征数据。例如，若模态E为文字，则

表示第i个视频数据样本对应的第j个单词。

具体地，所述注意力函数可以如下所示：

Α(·)的具体过程如下所示：

其中，θ_E、V^T、W和b表示参数，T表示第i个视频数据样本中的原始数据数目，

表示第i个视频数据样本在模态E对应的注意力结果，

包含第i个视频数据样本中每个单词/帧的加权作用。

具体地，可以对图像模态的原始数据分别进行2D卷积和3D卷积，得到序列特征

和全局特征：

其中，

表示第i个视频数据样本对应的第j个图像，ζ和η表示参数。

应用序列特征和循环神经网络-双向的门控循环神经网络模型，得到图像模态的单模态特征数据：

其中，

表示第i个视频数据样本在图像模态的第j个原始数据对应的单模态特征数据，可以将在图像模态的第j个原始数据对应的单模态特征数据确定为图像模态对应的单模态特征数据。

将

送入注意力机制中进行学习得到视觉特征U^v′：

其中，θ_v是的相关参数。将

和

拼接在一起作为图像模态的注意力学习结果

将其送入全连接层进行情感分类得到：

其中，

可以表示第i个视频数据样本在模态F分到第c类的概率。模态F对应的单模态情感学习模型的损失函数

可以如下所示：

其中，C表示视频数据类别的总数；y_ic表示第i个视频数据样本的实际情感标签，即第i个视频数据样本属于第c类；N表示样本总数；MLP(·)表示全连接层；softmax(·)表示归一化指数函数；

表示模态F的注意力结果，(F∈M＝s,t,v)。

为了实现模态之间细粒度水平的交互，提高情感识别的准确性，如图3所示，在本申请一个实施例中，步骤300包括：

步骤310：应用各个模态的单模态特征数据进行模态交互处理，得到时间水平交互下的特征数据以及语句水平交互下的特征数据。

步骤320：基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理，得到情感预测数据。

具体地，可以将所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行特征融合，将特征融合结果输入多模态情感识别模型的全连接层，应用归一化指数函数处理所述全连接层的输出数据，得到情感预测数据P_ic，如下公式所示：

U_pi＝[U_tli,U_uli]

将其送入全连接层进行情感分类得到：

P_ic＝softmax(MLP(U_pi))

所述多模态情感识别模型对应的损失函数可以如下所示：

为了实现模态之间细粒度水平的交互，提高情感识别的准确性，在本申请一个实施例中，步骤310包括：

步骤311：应用各个模态的单模态特征数据进行时间水平的模态交互处理，得到时间水平交互下的特征数据；

步骤312：应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据。

为了实现模态之间时间水平的交互，提高情感识别的准确性，在本申请一个实施例中，步骤311包括：

步骤3111：根据任意两个模态的单模态特征数据，得到所述两个模态的第一相关性矩阵。

步骤3112：根据所述两个模态的第一相关性矩阵和归一化指数函数，得到时间水平交互下所述两个模态中的一个对另一个的影响。

步骤3113：根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响，确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据。

步骤3114：根据注意力函数和所述两个模态中的一个的融合特征数据，确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果。

步骤3115：根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作，得到所述时间水平交互下的特征数据。

具体地，可以根据下列公式，得到时间水平交互下模态B到模态A对应的注意力结果

其中，

表示模态A的单模态特征数据,

表示模态B的单模态特征数据(A、B∈M＝s,t,v且A≠B)，s表示语音模态，t表示文本模态，v表示图像模态，

表示模态A和模态B之间的第一相关性矩阵，A(·)表示注意力函数，θ_A←B表示参数，

表示时间水平交互下模态B对模态A的影响，

表示时间水平交互下模态B到模态A的融合特征数据，

表示时间水平交互下模态B到模态A对应的注意力结果。基于上述公式，可以得到

和

可以根据时间水平交互下文本模态到语音模态对应的注意力结果

语音模态到文本模态对应的注意力结果

图像模态到语音模态对应的注意力结果

以及图像模态到语音模态对应的注意力结果

进行张量拼接操作，得到所述时间水平交互下的特征数据U_tli，

为了实现模态之间语句水平的交互，提高情感识别的准确性，在本申请一个实施例中，步骤312，包括：

步骤3121：根据任意两个模态的注意力结果，得到所述两个模态的第二相关性矩阵。

步骤3122：根据所述两个模态的第二相关性矩阵和归一化指数函数，得到语句水平交互下所述两个模态中的一个对另一个的影响。

步骤3123：根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响，确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据。

步骤3124：根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作，得到所述语句水平交互下的特征数据。

具体地，可以根据下列公式，得到语句水平交互下模态A到模态B对应的信息融合结果：

其中，

表示模态A的注意力结果,

表示模态B的注意力结果(A、B∈M＝s,t,v且A≠B),

表示根据实际需要将

拓展一维后的结果，

表示根据实际需要将

拓展一维后的结果，s表示语音模态，t表示文本模态，v表示图像模态，

表示模态A和模态B之间的第二相关性矩阵，

表示语句水平交互下模态B对模态A的影响，

表示语句水平交互下模态B到模态A的融合特征数据，

可以是以

为元素的矩阵。基于上述公式，可以得到

和

可以根据语句水平交互下文本模态到语音模态对应的信息融合结果

语音模态到文本模态对应的信息融合结果

图像模态到语音模态对应的信息融合结果

以及图像模态到文本模态

对应的信息融合结果进行张量拼接操作，得到所述语句水平交互下的特征数据U_uli，

具体地，所述整体损失函数L_overall可以如下：

其中，

表示所述多模态情感识别模型对应的损失函数，

表示不同模态对应的单模态情感学习模型各自的损失函数。

为了进一步说明本方案，本申请提供一种多模态情感识别方法的应用实例，具体描述如下：

步骤1：数据预处理。可以从单个情绪视频段样本中按照等长的时间间隔均匀地抽取出5帧具有人脸的图像，利用openface人脸识别模型将每张人脸提出成112×112大小的图像

将语音从视频中分离出，通过25ms汉明窗口和10ms移帧进行分帧操作，对每一帧的数据计算26维度的log_Mel filter bank特征，随后计算其一阶导数和二阶导数形成78维的声学特征

其中f为帧的数目。将语音转录出的文本，用预训练好的Bert模型进行词向量编码，形成768维的文本特征

d为单词数目。

步骤2：模态特征编码。对于文本和语音数据，采用循环神经网Bi-GRU进行编码：

其中，

表示第i个样本的第j个单词，

表示第i个样本的第j个帧，

和

是经过Bi-GRU学习后的新的特征空间中的表示，hd为GRU的隐层单元数目。[·,·]表示张量拼接操作。针对图像数据，将5帧人脸图片分别做2D卷积和3D卷积，分别得到具有单张人脸的序列特征

和全局特征

S^v＝Cov2D(X^v；ζ)

U^v＝Cov3D(X^v；η)

其中Cov2D(·)和Cov3D(·)表示Resnet18网络在2D和3D卷积下的操作，ζ和η是网络相关的参数。对单张时序人脸特征用Bi-GRU做时序学习得到

步骤3：时间水平交互。计算两个模态A和模态B(A、B∈M＝{s,t,v}且A≠B)的相关性矩阵：

R^AB＝(H^A)^T(H^B)

(a≠b且a、b∈{d,f,5})，然后可以得到模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响：

其中，

通过下式将模态B中的信息补充到模态A中去：

H^A←B＝W^A←BH^B+H^A.

其中，

通过以上方式，可以得到时间水平的融合特征H^s←t，H^s→t，H^s ^←v以及H^t←v，利用注意力机制A(·)可以得到相应的语句水平的特征：

相应的，

和

作为时间水平交互下的语句水平的特征用作情感预测的基础

步骤4：语句水平交互。将时间水平的编码特征送入注意力函数A(·)中，计算每个单词/帧/图像对全局信息的影响，得到语句水平的文本特征

语音特征

和视觉特征：

U^t＝A(H^t；θ_t),

U^s＝A(H^s；θ_s),

U^v′＝A(H^v；θ_v),

θ_t、θ_s和θ_v是相应参数。对于语句水平的交互，采用同样关系矩阵计算方式，先计算单模态中语句水平特征的相关性：

E^AB＝(U^A)^T(U^B),

其中，

从而可以得到语句水平下，模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响：

其中，

通过下式将模态B中的信息补充到模态A中去：

其中

和

则作为语句水平交互下的特征

步骤5：损失函数构建。将单模态语句水平的特征送入全连接层后用情感标签约束得到分类损失：

C为情感的类别总数，y_i是样本标签。MLP(·)表示全连接层而softmax(·)是归一化指数函数。对于视觉特征来说，将U^v和U^v拼接在一起作为表情的情感识别特征：

整合时间水平和语句水平交互融合后的特征进行情感预测。将时间水平交互下的特征与语句水平交互下的特征进行聚合U_p＝[U_sl,U_ul]进行情感预测：

P＝softmax(MLP(U_p))

对应的损失函数为：

通过联合上述过程中的损失函数，得到如下的整体损失函数：

将L_overall加入到模型训练过程中，利用梯度下降算法进行迭代，直至达到最大迭代次数或模型收敛。整体的方案框架图如图4所示。模型训练过程得到情感预测数据与情感识别过程得到情感预测数据的方式相同，在根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果时，可以参照步骤1至步骤4的描述，得到待识别视频数据对应的情感预测数据，将情感预测数据输入训练完成的多模态情感识别模型的全连接层，应用归一化指数函数处理所述全连接层的输出数据，得到训练完成的多模态情感识别模型的输出结果，基于该输出结果确定所述待识别视频数据对应的情感识别结果。

在一种举例中，在多模态公共数据集IEMOCAP上的实验结果(Accuracy)如表1所示。

表1

其中，0.596、0.673、0.501、0.748、0.613、0.711和0.774依次表示对视频数据进行语音Audio模态，文本Text模态，视觉Visual模态，语音和文本结合模态，语音和视觉结合模态，文本和视觉结合模态，语音、文本和视觉结合模态进行情感识别得到的实验结果。

从软件层面来说，为了提高多模态情感识别的准确性，本申请提供一种用于实现所述多模态情感识别方法中全部或部分内容的多模态情感识别装置的实施例，参见图5，所述多模态情感识别装置具体包含有如下内容：

获取样本模块51，用于获取视频数据样本及其对应的实际情感标签；

单模态情感学习模块52，用于根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据；

情感预测模块53，用于根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；

训练模块54，用于将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数，调整所述多模态情感识别模型和各个单模态情感学习模型的参数，当所述整体损失函数值最小时完成所述多模态情感识别模型的训练，所述整体损失函数包括：所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数；

情感识别模块55，用于获取待识别视频数据，根据训练完成的多模态情感识别模型和所述待识别视频数据，确定所述待识别视频数据对应的情感识别结果。

在本申请一个实施例中，所述单模态情感学习模块，包括：

在本申请一个实施例中，所述情感预测模块包括：

在本申请一个实施例中，所述模态交互子模块，包括：

语句平模态交互单元，用于应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据。

在本申请一个实施例中，所述时间水平模态交互单元具体用于：

在本申请一个实施例中，所述语句平模态交互单元具体用于：

具体地，所述整体损失函数L_overall可以如下：

其中，

表示所述多模态情感识别模型对应的损失函数，

表示不同模态对应的单模态情感学习模型各自的损失函数。

本说明书提供的多模态情感识别装置的实施例具体可以用于执行上述多模态情感识别方法的实施例的处理流程，其功能在此不再赘述，可以参照上述多模态情感识别方法实施例的详细描述。

为了进一步说明本方案，如图6所示，本申请提供一种多模态情感识别装置的应用实例，具体包含有：

数据预处理模块，用于从视频中分离出文本、语音和视频数据，通过相关的特征提取得到声学特征

文本特征

以及图像信息

其中N为样本数目，f为帧的数目，其中f为帧的数目，78和768是特征编码维度，5为一个样本视频提取的画面帧的数目。所述数据预处理模块实现的功能可以相当于上述获取样本模块实现的功能。

单模态情感学习模块，用于对于文本和语音数据，采用循环神经网络-双向的门控循环神经网络(bidirectional gated recurrent unit，Bi-GRU)进行编码：

其中

表示第i个样本的第j个单词/帧，

和

是经过Bi-GRU学习后的新的特征空间中的表示，hd为GRU的隐层单元数目。[·,·]表示张量拼接操作。将上述特征送入注意力函数A(·)中，计算每个单词/帧对全局信息的影响，得到语句水平的文本特征

和语音特征

U^t＝A(H^t；θ_t),

U^s＝A(H^s；θ_s),

θ_t和θ_s是相应参数。A(·)的具体过程如下所示，对如输入的第t个单词/帧水平h_t∈H，现做映射：

c_t＝V^Ttanh(Wh_t+b),

V^T，W和b为相应的参数。计算每一个单词/帧在所有数据中的权重：

其中T∈{f,d}。加权后，语句水平的特征

为：

u中含有一句话中每个单词/帧的加权作用。送入全连接层后用情感标签约束得到分类损失：

C为情感的类别总数，y_i是样本标签。MLP(·)表示全连接层而softmax(·)是归一化指数函数。

针对图像数据，将5帧人脸图片分别做2D卷积核3D卷积，分别得到具有单张人脸的序列特征

和全局特征

S^v＝Cov2D(X^v；ζ)

U^v＝Cov3D(X^v；η)

将H^v送入注意力机制中进行学习得到时序模型学习到的视觉特征U^v′：

U^v′＝A(H^v；θ_v)

θ_v是的相关参数。因此，将U^v′和U^v拼接在一起作为表情的情感识别特征：

模态交互模块，模态交互包含了时间水平的交互和语句水平的交互。时间水平的交互是在模态数据具备时间序列信息时进行的交互，主要体现在文本特征与语音特征之间的两两交互和表情特征对语音和文本的单方面的影响。具体如下。

首先计算两个模态A和模态B(A、B∈M＝{s,t,v}且A≠B)的相关性矩阵：

R^AB＝(H^A)^T(H^B)

(a≠b且a、b∈{d,f,5})然后可以得到模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响：

其中

通过下式将模态B中的信息补充到模态A中去：

H^A←B＝W^A←BH^B+H^A

其中

通过以上方式，可以得到时间水平的融合特征H^s←t，H^t←s，H^s←v以及H^t←v，利用注意力机制可以得到相应的语句水平的特征：

相应的，

和

作为时间水平交互下的语句水平的特征用作情感预测的基础

对于语句水平的交互，采用同样的方式，先计算单模态中语句水平特征的相关性：

E^AB＝(U^A)^T(U^B)

其中

其中

通过下式将模态B中的信息补充到模态A中去：

其中

和

则作为语句水平交互下的特征

情感推理模块，用于整合时间水平和语句水平交互融合后的特征进行情感预测。将时间水平交互下的特征与语句水平交互下的特征进行聚合U_p＝[U_sl,U_ul]进行情感预测：

P＝softmax(MLP(U_p))

对应的损失函数为：

结合上述过程中的损失函数，得到如下的整体损失函数：

将L_overall加入到模型训练过程中，利用梯度下降算法进行迭代，直至达到最大迭代次数或模型收敛，可以应用训练完成的多模态情感识别模型进行情感识别。模态交互模块和情感推理模块结合实现的功能可以相当于上述情感预测模块和训练模块结合实现的功能。

从硬件层面来说，为了提高多模态情感识别的准确性，本申请提供一种用于实现所述多模态情感识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述多模态情感识别装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述多模态情感识别方法的实施例及用于实现所述多模态情感识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图7是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，多模态情感识别功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤100：获取视频数据样本及其对应的实际情感标签；

步骤200：根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据；

步骤300：根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据；

从上述描述可知，本申请的实施例提供的电子设备，能够提高多模态情感识别的准确性。

在另一个实施方式中，多模态情感识别装置可以与中央处理器9100分开配置，例如可以将多模态情感识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现多模态情感识别功能。

如图7所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图7中所示的所有部件；此外，电子设备9600还可以包括图7中没有示出的部件，可以参考现有技术。

如图7所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高多模态情感识别的准确性。

本申请的实施例还提供能够实现上述实施例中的多模态情感识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的多模态情感识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤100：获取视频数据样本及其对应的实际情感标签；

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高多模态情感识别的准确性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多模态情感识别方法，其特征在于，包括：

获取视频数据样本及其对应的实际情感标签；

2.根据权利要求1所述的多模态情感识别方法，其特征在于，所述根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据，得到各个模态的单模态特征数据和情感特征数据，包括：

3.根据权利要求1所述的多模态情感识别方法，其特征在于，所述根据多模态情感识别模型和各个模态的原始数据，得到情感预测数据，包括：

4.根据权利要求3所述的多模态情感识别方法，其特征在于，所述应用各个模态的单模态特征数据进行模态交互处理，得到时间水平交互下的特征数据以及语句水平交互下的特征数据，包括：

5.根据权利要求4所述的多模态情感识别方法，其特征在于，所述应用各个模态的单模态特征数据进行时间水平的模态交互处理，得到时间水平交互下的特征数据，包括：

6.根据权利要求4所述的多模态情感识别方法，其特征在于，所述应用各个模态的单模态特征数据进行语句水平的模态交互处理，得到语句水平交互下的特征数据，包括：

7.根据权利要求1所述的多模态情感识别方法，其特征在于，所述整体损失函数L_overall如下：

其中，

表示所述多模态情感识别模型对应的损失函数，

表示不同模态对应的单模态情感学习模型各自的损失函数。

8.一种多模态情感识别装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的多模态情感识别方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至7任一项所述的多模态情感识别方法。