CN116935277A

CN116935277A - 多模态情感识别方法及装置

Info

Publication number: CN116935277A
Application number: CN202310906016.8A
Authority: CN
Inventors: 刘唱; 张锦元; 林晓锐; 杨洁琼
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-24

Abstract

本申请提供了一种多模态情感识别方法及装置，可用于金融领域或其他领域，该方法包括：获取待识别视频数据；对待识别视频数据进行跨模态交互处理，得到待识别视频数据在多个模态对应的交互后特征数据；根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定待识别视频数据对应的多模态情感识别结果；其中，训练完成的多模态情感识别模型是应用整体损失函数训练得到的，整体损失函数包括：松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及多模态情感识别模型对应的损失函数。本申请通过对待识别视频数据进行跨模态交互处理，可以在考虑模态的交互特征的同时考虑模态独有特征，进而能够提高情感识别的准确性。

Description

多模态情感识别方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种多模态情感识别方法及装置。

背景技术

情感在信息起着重要作用，也是人类最大的心理需求之一。近年来，多模态情感识别已经成为一个活跃的研究领域，在人机交互、数字金融和智能医疗等领域中有着重要应用。人类的情感表达通常是自然语言、面部表情和声学行为的混合体现。不同的模态可以提供丰富的信息来帮助机器理解人类的情感和意图。

现有的多模态情感识别方法已经取得了一定的进展，但在融合过程中仍存在模态异构性带来的挑战。每个模态在表达情感时有着其独有特征，例如：文本模态包含有信息量稠密的语义信息，语音模态具有丰富的语调变化，面部表情存在不同器官组合，这些特性的组合中揭示了不同方面的情感信息。

现有方法大多将研究的重点聚焦于不同模态的一致性信息上，如训练共享的编码器或在联合空间中拉近不同模态的数据分布，忽略了对模态独有特征的考虑，观察情感表达的角度较少，限制了情感识别的准确性。

发明内容

针对现有技术中的至少一个问题，本申请提出了一种多模态情感识别方法及装置，通过对待识别视频数据进行跨模态交互处理，可以在考虑模态的交互特征的同时考虑模态独有特征，进而能够提高情感识别的准确性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种多模态情感识别方法，包括：

获取待识别视频数据；

对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据；

根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定所述待识别视频数据对应的多模态情感识别结果；

其中，所述训练完成的多模态情感识别模型是应用整体损失函数训练得到的，所述整体损失函数包括：松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数。

在一个实施例中，所述对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据，包括：

从所述待识别视频数据中提取得到各个模态的原始特征数据；

根据长短期记忆网络、线性投影层、基于注意力机制的池化函数以及各个模态的原始特征数据，得到所述待识别视频数据在多个模态各自对应的特征数据；

利用基于交叉注意力机制的交互计算方法和各个模态各自对应的特征数据，确定所述待识别视频数据在各个模态对应的交互后特征数据。

在一个实施例中，所述的多模态情感识别方法，还包括：

获取视频数据样本对应的情感识别数据，所述情感识别数据包括：该视频数据样本在多个模态的特征数据以及该视频数据样本对应的真实情感标签；

基于所述情感识别数据和整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

在一个实施例中，所述基于所述情感识别数据和整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型，包括：

对各个模态的特征数据分别进行基于交叉注意力机制的交互处理，得到各个模态对应的交互处理结果；

根据松弛监督聚类模型和各个模态对应的交互处理结果，确定多个簇的簇中心；

根据基于类别原型的模态判别性语义学习方法、各个模态对应的交互处理结果和所述真实情感标签，确定各个模态的特征表示和类别原型；

根据多模态情感识别模型和各个模态对应的交互处理结果，得到情感预测数据；

将各个簇的簇中心、各个模态的特征表示、类别原型、所述情感预测数据以及真实情感标签代入所述整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

在一个实施例中，所述根据松弛监督聚类模型和各个模态对应的交互处理结果，确定多个簇的簇中心，包括：

将各个模态对应的交互处理结果投影到同一特征空间；

根据松弛监督聚类算法对同一特征空间的交互处理结果进行聚类处理，得到多个簇的簇中心。

在一个实施例中，所述根据基于类别原型的模态判别性语义学习方法、各个模态对应的交互处理结果和所述真实情感标签，确定各个模态的特征表示和类别原型，包括：

将各个模态对应的交互处理结果投影到不同的特征空间，得到各个模态的特征表示；

根据所述真实情感标签，确定每个模态对应的类别原型。

在一个实施例中，所述预设的约束条件包括：

利用梯度下降算法更新所述整体损失函数，直至达到预设的最大迭代次数或所述多模态情感识别模型收敛。

在一个实施例中，所述整体损失函数是由所述松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数相加得到的。

第二方面，本申请提供一种多模态情感识别装置，包括：

获取模块，用于获取待识别视频数据；

跨模态交互模块，用于对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据；

确定模块，用于根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定所述待识别视频数据对应的多模态情感识别结果；

在一个实施例中，所述跨模态交互模块包括：

提取单元，用于从所述待识别视频数据中提取得到各个模态的原始特征数据；

得到单元，用于根据长短期记忆网络、线性投影层、基于注意力机制的池化函数以及各个模态的原始特征数据，得到所述待识别视频数据在多个模态各自对应的特征数据；

确定单元，用于利用基于交叉注意力机制的交互计算方法和各个模态各自对应的特征数据，确定所述待识别视频数据在各个模态对应的交互后特征数据。

在一个实施例中，所述的多模态情感识别装置还包括：

获取样本模块，用于获取视频数据样本对应的情感识别数据，所述情感识别数据包括：该视频数据样本在多个模态的特征数据以及该视频数据样本对应的真实情感标签；

训练模块，用于基于所述情感识别数据和整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

在一个实施例中，所述训练模块包括：

交互处理单元，用于对各个模态的特征数据分别进行基于交叉注意力机制的交互处理，得到各个模态对应的交互处理结果；

聚类单元，用于根据松弛监督聚类模型和各个模态对应的交互处理结果，确定多个簇的簇中心；

确定类别原型单元，用于根据基于类别原型的模态判别性语义学习方法、各个模态对应的交互处理结果和所述真实情感标签，确定各个模态的特征表示和类别原型；

预测单元，用于根据多模态情感识别模型和各个模态对应的交互处理结果，得到情感预测数据；

训练单元，用于将各个簇的簇中心、各个模态的特征表示、类别原型、所述情感预测数据以及真实情感标签代入所述整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

在一个实施例中，所述聚类单元具体用于：

将各个模态对应的交互处理结果投影到同一特征空间；

在一个实施例中，所述确定类别原型单元具体用于：

根据所述真实情感标签，确定每个模态对应的类别原型。

在一个实施例中，所述预设的约束条件包括：

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的多模态情感识别方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述的多模态情感识别方法。

由上述技术方案可知，本申请提供一种多模态情感识别方法及装置。其中，该方法包括：获取待识别视频数据；对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据；根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定所述待识别视频数据对应的多模态情感识别结果；其中，所述训练完成的多模态情感识别模型是应用整体损失函数训练得到的，所述整体损失函数包括：松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数，通过对待识别视频数据进行跨模态交互处理，可以在考虑模态的交互特征的同时考虑模态独有特征，进而能够提高接下来情感识别的准确性；具体地，能够学习多模态序列信号的时序信息，通过语句级特征的跨模态交互，高效地获得多模态的特征表示；结合多模态交互特征，通过多层次判别性语义学习方法，可以提升模态内与模态间特征的判别性，以及模态内同类特征的紧致性；针对多模态数据固有的异构性问题，采用松弛聚类约束，在进行多模态特征语义对齐过程中引入松弛量，在提升特征表示判别性的同时，允许模型适度容忍多模态数据带来的类内差异，有利于提高情感识别的准确率；可以学习保留模态差异的多模态特征表示，对考虑模态异构性的多模态特征对齐融合方法具有重要意义，且可以提高特征表示的判别性，有利于提高多模态情感识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的多模态情感识别方法的第一流程示意图；

图2是本申请实施例中的多模态情感识别方法的第二流程示意图；

图3是本申请实施例中的多模态情感识别方法的第三流程示意图；

图4是本申请一种举例中的多模态情感识别方法的逻辑框图；

图5是本申请实施例中的多模态情感识别装置的结构示意图；

图6为本申请实施例的电子设备的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高情感识别的准确率，研究者们尝试结合从各种生理或行为中采集的信号进行研究，其中融合文本、语音、面部表情等在自然交际场景中最常出现的多模态情感识别是大家的研究重点。每个模态在表达情感时有着其独特属性和表现形式。如何在保持模态特性的同时提取特征并将这些特征在情感语义层面进行关联，是亟待解决的关键问题。为了解决上述现有技术中存在的问题，本申请考虑提出一种多模态情感识别方法及装置，在保持模态特性的同时提取特征并将这些特征在情感语义层面进行关联。具体而言，在单模态层面，为每个模态挖掘独立的类别原型，学习以单模态信息为主导的判别性语义特征；在多模态层面，使用松弛聚类，在不采用强约束条件下，实现了不同模态语义的一致性，保留了不同模态的差异性。

需要说明的是，本申请公开的多模态情感识别方法及装置可用于金融技术领域，也可用于除金融技术领域之外的任意领域，本申请公开的多模态情感识别方法及装置的应用领域不做限定。本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。本公开所获取的相关信息(包括但不限于视频数据样本)和数据(包括但不限于待识别视频数据)，均为经用户授权或者经过各方充分授权的信息和数据，并提供有相应的操作入口，供用户选择授权或者拒绝。

具体通过下述各个实施例进行说明。

为了提高情感识别的准确性，本实施例提供一种执行主体是多模态情感识别装置的多模态情感识别方法，该多模态情感识别装置包括但不限于服务器，如图1所示，该方法具体包含有如下内容：

步骤100：获取待识别视频数据。

具体地，所述待识别视频数据可以为一段视频。

步骤200：对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据。

具体地，所述模态可以表示信息的来源或形式，如，语音、文本、视觉等。

步骤300：根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定所述待识别视频数据对应的多模态情感识别结果；其中，所述训练完成的多模态情感识别模型是应用整体损失函数训练得到的，所述整体损失函数包括：松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数。

具体地，所述多模态情感识别结果可以为该段视频对应的情感识别结果，如，高兴、害怕、伤心和吃惊等。所述整体损失函数可以是由所述松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数相加得到的。

为了提高确定交互后特征数据的可靠性，在本申请一个实施例中，步骤200包括：

步骤201：从所述待识别视频数据中提取得到各个模态的原始特征数据。

具体地，各个模态的原始特征数据可以包括：视觉特征、语音特征、文本特征，如，单词、帧和图像。

举例来说，可以从视频中提取视觉数据，以100ms的时间间隔获得人脸表情图像，利用openface人脸识别模型将每张人脸提出50维人脸动作单元构成视觉特征将语音从视频中分离出，通过25ms汉明窗口和10ms移帧进行分帧操作，对每一帧的数据计算33维度的log_Mel filter bank特征，形成语音特征将语音转录出文本，利用预训练好的BERT模型进行词嵌入编码，构成768维文本特征其中f_m为对应的序列长度，m∈{t,s,v}表示不同模态。

步骤202：根据长短期记忆网络、线性投影层、基于注意力机制的池化函数以及各个模态的原始特征数据，得到所述待识别视频数据在多个模态各自对应的特征数据。

具体地，对于文本、语音、视觉特征，可以利用长短期记忆网络LSTM进行编码：

其中，模态m∈{t,s,v}，表示m模态的原始特征数据，是经过LSTM学习序列信息后的特征。将上述特征送入一个线性投影层，统一不同模态的特征维度，方便后续的多模态融合。之后使用基于注意力机制的池化函数Pool(·)提取语句水平的特征语句水平的特征Z^m可以相当于m模态的对应的特征数据：

其中，θ^m是相应的参数。池化函数Pool(·)的具体过程如下，对于原始特征数据先做映射：

ο_t＝V^Ttanh(Wx_t+b),

其中，v，W和b为可学习参数。之后使用指数归一化计算权重并相加：

其中softmax(·)为归一化指数函数。

步骤203：利用基于交叉注意力机制的交互计算方法和各个模态各自对应的特征数据，确定所述待识别视频数据在各个模态对应的交互后特征数据。

具体地，基于交叉注意力机制的交互计算方法可以如下所示：

其中，拼接的跨模态交互特征，H^m为模态m交互后的特征即上述交互后特征数据，该特征既包括模态特有的信息，也包括跨模态的交互信息，将用于后续的多模态语义对齐学习过程中。

为了提高多模态情感识别模型训练的可靠性，如图2所示，在本申请一个实施例中，在步骤300之前还包括：

步骤001：获取视频数据样本对应的情感识别数据，所述情感识别数据包括：该视频数据样本在多个模态的特征数据以及该视频数据样本对应的真实情感标签。

具体地，所述视频数据样本可以为批量；一个视频数据样本可以为一段视频；所述真实情感标签可以包括：高兴、害怕、伤心和吃惊等反映视频数据样本真实情感的标签。

步骤002：基于所述情感识别数据和整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

具体地，所述预设的约束条件可以包括：利用梯度下降算法更新所述整体损失函数，直至达到预设的最大迭代次数或所述多模态情感识别模型收敛。

为了提高获得视频数据样本对应的情感识别数据的可靠性，在本申请一个实施例中，步骤001包括：

获取视频数据样本及其对应的真实情感标签；从所述视频数据样本中提取得到各个模态的原始特征数据；根据长短期记忆网络、线性投影层、基于注意力机制的池化函数以及各个模态的原始特征数据，得到各自的特征数据。可以参照得到所述待识别视频数据在多个模态各自对应的特征数据的方式。

为了进一步提高多模态情感识别模型训练的可靠性，如图3所示，在本申请一个实施例中，步骤002包括：

步骤020：对各个模态的特征数据分别进行基于交叉注意力机制的交互处理，得到各个模态对应的交互处理结果。

以文本模态为例，首先获得其需要交互的模态特征对C_t：

C_t＝concat(Z^s,Z^v),

其中，为文本模态的特征数据Z^t要交互的特征，Z^s、Z^v分别表示语音模态的特征数据，Z^v表示视觉模态的特征数据，concat(·)为拼接操作。基于交叉注意力机制的交互方法计算如下：

其中，为模态m交互后的特征，可以相当于m模态对应的交互处理结果，该特征既包括模态特有的信息，也包括跨模态的交互信息，将用于后续的多模态语义对齐学习过程中。

步骤021：根据松弛监督聚类模型和各个模态对应的交互处理结果，确定多个簇的簇中心。

步骤022：根据基于类别原型的模态判别性语义学习方法、各个模态对应的交互处理结果和所述真实情感标签，确定各个模态的特征表示和类别原型。

步骤023：根据多模态情感识别模型和各个模态对应的交互处理结果，得到情感预测数据。

具体地，可以将经过多层次判别性语义约束的多模态特征拼接后进行情感预测：

e＝softmax(MLP(H)),

其中，H＝concat(H^t,H^s,H^v)。

进一步地，所述多模态情感识别模型对应的损失函数可以如下所示：

步骤024：将各个簇的簇中心、各个模态的特征表示、类别原型、所述情感预测数据以及真实情感标签代入所述整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型。

为了提高确定簇中心的可靠性，进而提高情感识别的准确性，在本申请一个实施例中，步骤021包括：

步骤0211：将各个模态对应的交互处理结果投影到同一特征空间。

步骤0212：根据松弛监督聚类算法对同一特征空间的交互处理结果进行聚类处理，得到多个簇的簇中心。

具体地，可以利用松弛聚类多模态判别性语义学习方法，得到多个簇的簇中心。首先需要将各个模态对应的交互处理结果投影到同一个特征空间：

f＝I(H^m；θ_I),

其中，为投影到共享空间的特征表示，可以相当于上述同一特征空间的交互处理结果，共享编码器I(·；θ_I)为多层感知机，对于不同模态其参数均为θ_I。

相比于传统样本到标签的映射关系，所提出的软聚类损失以组为单位将不同模态同一情感类别的样本相互拉近，在提升特征表示判别性的同时，允许模型适度容忍细微的类内差异，以提高模型在不同情况下的鲁棒性和泛化能力。

对于一个训练批次中的一个类的样本(情感标签用y_i表示)，假设其包含n个样本特征。由于存在文本、语音、视觉3个模态，则在当前训练批次中总共包含3n个特征表示。采用DBSCAN聚类算法将这些特征表示分为l_yi个簇(group)：假设表示当前批次中情感标签为y_i的样本的第j个样本特征表示，则第k个簇的簇中心可以表示为：

其中，为指示函数，表示第k个簇C_k中的所有样本特征的数量。由此可以得到的所有簇中心。

松弛监督聚类模型对应的损失函数可以如下所示：

其中，N_I表示一个训练批次中的某一情感类别中学习到簇的个数，N_k为情感类别总数，和分别表示情感标签为y_i的情感的第j个簇中心和所有簇中心的均值(情感类别中心)，M是两个情感类别中心之间的最小间隔。

为了提高确定各个模态的特征表示和类别原型的准确性，在本申请一个实施例中，步骤022包括：

步骤0221：将各个模态对应的交互处理结果投影到不同的特征空间，得到各个模态的特征表示。

具体地，可以将文本、语音、视觉单模态特征H^m作为输入，采用不同的多层感知机将不同模态的特征投影到不同的特征空间。投影后的特征可表示为：

f_m＝S_m(H^m；θ_m),

其中，为投影到模态特有空间的特征表示，根据不同的模态，学习不同参数θ_m的S_m(·；θ_m)。

步骤0222：根据所述真实情感标签，确定每个模态对应的类别原型。

具体地，分别为每个模态学习一组类别原型，其中类别原型的数量是每个数据集的情感类别数量N_k，每个原型的维度与样本提取的特征维度相同，均为d。

基于类别原型的损失函数可以如下所示：

其中，是第m个模态第k类中第i个样本的特征表示，y_k表示其对应的标签，表示第m个模态y_k的类别原型，M为衡量类间最小间隔的超参数。

类别原型是随着训练过程学习更新的，其在n+1次迭代时更新方式如下：

其中，为n+1次迭代的特征原型，η为学习率。

为了使得提取的多模态特征在保留模态特性的同时更好的表达情感类别，本申请提供一种多模态情感识别方法的应用实例，将提取的特征在单模态层面进行语义学习，并在多模态一致性学习时使用松弛聚类约束，在保留模态差异余量的同时进行多模态特征的聚合，具体描述如下：

步骤1：单模态特征提取。从视频中分离出文本、语音、视觉数据，使用相关的特征提取方法从文本、语音、视觉数据中提取得到文本特征声学特征视觉特征其中为N样本数目，f为帧数，d为特征维度。

步骤2：单模态特征提取。对于文本、语音、视觉特征，采用长短期记忆网络(longshort-term memory，LSTM)进行编码：

其中，模态m∈{t,s,v}，表示m模态第i个样本的特征，是经过LSTM学习序列信息后的特征。将上述特征送入一个线性投影层：

其中，此操作将不同模态的特征统一为d维，方便后续的多模态融合。之后使用基于注意力机制的池化函数Pool(·)提取语句水平的特征

其中，语句水平代表的是特征学习粒度。对于视觉模态，语句水平可以表示一句话对应的多个表情图像所学出的特征表示。池化函数Pool(·)的具体操作是计算每一帧级别特征的重要性，并通过注意力加权进行结合：

其中，V，W和b为可学习参数即深度网络中训练的参数，softmax(·)为归一化指数函数。

步骤3：跨模态交互。由于单模态特征存在其固有的异构性，为了进行多模态特征的融合，首先要学习模态的交互信息。采用交叉注意力机制来捕捉多模态语句级别特征之间的交互。具体如下：

基于交叉注意力机制的交互方法计算如下：

其中，拼接的跨模态交互特征，为模态m交互后的特征，该特征既包括模态特有的信息，也包括跨模态的交互信息，将用于后续的多模态语义对齐学习过程中。

以文本特征为例，首先获得其需要交互的模态特征对C_t：

C_t＝concat(Z^s,Z^v), (6)

其中，为文本特征Z^t要交互的特征，Z^s、Z^v分别表示语音特征和视觉特征，concat(·)为拼接操作。

也就是说，由于单模态特征存在其固有的异构性，为了在模态判别性学习时，结合其他模态的信息，可以学习模态的交互信息，采用交叉注意力机制来捕捉多模态语句级别特征之间的交互。

步骤4：基于松弛聚类多模态判别性语义学习技术。将多模态特征投影到同一个特征空间，使用松弛聚类约束在保留模态差异的同时实现跨模态语义一致性的学习。

使用共享编码器将不同模态的特征投影到同一个特征空间，可表示为：

f＝I(H^m；θ_I), (7)

其中，为投影到共享空间的特征表示，共享编码器I(·；θ_I)为多层感知机，对于不同模态其参数均为θ_I。

相比于传统样本到标签的映射关系，所提出的松弛聚类损失以组为单位将不同模态同一情感类别的样本相互拉近，在提升特征表示判别性的同时，允许模型适度容忍细微的类内差异，以提高模型在不同情况下的鲁棒性和泛化能力。

对于一个训练批次中的一个类的样本(情感标签用y_i表示)，假设其包含n个样本特征。由于存在文本、语音、视觉3个模态，则在当前训练批次中总共包含3n个特征表示。采用松弛DBSCAN聚类算法将这些特征表示分为个簇(group)：假设表示当前批次中情感标签为y_i的样本的第j个样本特征表示，则第k个簇的簇中心可以表示为：

其中，为指示函数，表示第k个簇C_k中的所有样本特征的数量。由此基于得到的所有簇中心，松弛监督聚类中心损失计算如下：

其中，N_I表示一个训练批次中的某一情感类别中学习到簇的个数，N_k为情感类别总数，和分别表示情感标签为y_i的情感的第j个簇中心和所有簇中心的均值(情感类别中心)，M是两个情感类别中心之间的最小间隔。在一个训练批次中，DBSCAN算法将同一情感类别不同模态的所有特征划分为同一类别时，停止聚类损失的约束。而常用的中心损失会持续地迫使属于同一类情感不同模态的样本向着该类的中心靠近，忽视了不同模态之间客观存在的异构性，容易造成模型在训练集上过拟合。

步骤5：利用类别原型的模态判别性语义学习方式，学习紧致的相同模态相同类别的特征表示。具体步骤如下：

将文本、语音、视觉单模态特征H^m作为输入，采用不同的多层感知机将不同模态的特征投影到不同的特征空间：

f_m＝S_m(H^m；θ_m), (10)

设计基于类别原型的损失函数L_DS，提高各模态的特征表示的判别性和紧致性，减小同类特征表示之间的差异性。根据情感类别标签，分别为每个模态学习一组类别原型，以挖掘最具代表性的情感类别特征，更好的保留情感类别信息。其中类别原型的数量是每个数据集的情感类别数量N_k，每个原型的维度与样本提取的特征维度相同，均为d。损失函数L_DS计算如下：

其中，是第m个模态第k类中第i个样本的特征表示，y_k表示其对应的标签，表示第m个模态y_k的类别原型，M为衡量类间最小间隔的超参数，超参数可以根据实际需要预先设定。

其中，为n+1次迭代的特征原型，η为学习率。

步骤6：情感推理。整合多模态特征表示进行情感预测，即将经过多层次判别性语义约束的多模态特征拼接后进行情感预测。将文本、语音、视觉模态提取的特征进行聚合H＝concat(H^t,H^s,H^v)进行情感预测：

e＝softmax(MLP(H)). (13)

对应的损失函数为：

联合上述过程中的损失函数，得到如下的整体损失函数：

L_overall＝L_task+L_DS+L_scc. (15)

将L_overall加入到模型训练过程中，利用梯度下降算法进行迭代，直至达到最大迭代次数或模型收敛。在一种举例中，多模态情感识别方法的逻辑框图可以如图4所示。

步骤7：应用训练完成的多模态情感识别模型进行多模态情感识别。

从软件层面来说，为了提高情感识别的准确性，本申请提供一种用于实现所述多模态情感识别方法中全部或部分内容的多模态情感识别装置的实施例，参见图5，所述多模态情感识别装置具体包含有如下内容：

获取模块01，用于获取待识别视频数据；

跨模态交互模块02，用于对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据；

确定模块03，用于根据训练完成的多模态情感识别模型和各个模态对应的交互后特征数据，确定所述待识别视频数据对应的多模态情感识别结果；其中，所述训练完成的多模态情感识别模型是应用整体损失函数训练得到的，所述整体损失函数包括：松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数。

在一个实施例中，所述跨模态交互模块包括：

在一个实施例中，所述的多模态情感识别装置还包括：

在一个实施例中，所述训练模块包括：

在一个实施例中，所述聚类单元具体用于：

将各个模态对应的交互处理结果投影到同一特征空间；

在一个实施例中，所述确定类别原型单元具体用于：

根据所述真实情感标签，确定每个模态对应的类别原型。

在一个实施例中，所述预设的约束条件包括：

本说明书提供的多模态情感识别装置的实施例具体可以用于执行上述多模态情感识别方法的实施例的处理流程，其功能在此不再赘述，可以参照上述多模态情感识别方法实施例的详细描述。

从硬件层面来说，为了提高情感识别的准确性，本申请提供一种用于实现所述多模态情感识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述多模态情感识别装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述多模态情感识别方法的实施例及用于实现所述多模态情感识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图6为本申请实施例的电子设备9600的系统构成的示意框图。如图6所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图6是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，多模态情感识别功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤100：获取待识别视频数据。

从上述描述可知，本申请的实施例提供的电子设备，能够提高情感识别的准确性。

在另一个实施方式中，多模态情感识别装置可以与中央处理器9100分开配置，例如可以将多模态情感识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现多模态情感识别功能。

如图6所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图6中所示的所有部件；此外，电子设备9600还可以包括图6中没有示出的部件，可以参考现有技术。

如图6所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，能够提高情感识别的准确性。

本申请的实施例还提供能够实现上述实施例中的多模态情感识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的多模态情感识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤100：获取待识别视频数据。

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够提高情感识别的准确性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多模态情感识别方法，其特征在于，包括：

获取待识别视频数据；

2.根据权利要求1所述的多模态情感识别方法，其特征在于，所述对所述待识别视频数据进行跨模态交互处理，得到所述待识别视频数据在多个模态对应的交互后特征数据，包括：

3.根据权利要求1所述的多模态情感识别方法，其特征在于，还包括：

4.根据权利要求3所述的多模态情感识别方法，其特征在于，所述基于所述情感识别数据和整体损失函数，对多模态情感识别模型进行训练，直至所述整体损失函数满足预设的约束条件，得到训练完成的多模态情感识别模型，包括：

5.根据权利要求4所述的多模态情感识别方法，其特征在于，所述根据松弛监督聚类模型和各个模态对应的交互处理结果，确定多个簇的簇中心，包括：

将各个模态对应的交互处理结果投影到同一特征空间；

6.根据权利要求4所述的多模态情感识别方法，其特征在于，所述根据基于类别原型的模态判别性语义学习方法、各个模态对应的交互处理结果和所述真实情感标签，确定各个模态的特征表示和类别原型，包括：

根据所述真实情感标签，确定每个模态对应的类别原型。

7.根据权利要求3所述的多模态情感识别方法，其特征在于，所述预设的约束条件包括：

8.根据权利要求1所述的多模态情感识别方法，其特征在于，所述整体损失函数是由所述松弛监督聚类模型对应的损失函数、基于类别原型的损失函数以及所述多模态情感识别模型对应的损失函数相加得到的。

9.一种多模态情感识别装置，其特征在于，包括：

获取模块，用于获取待识别视频数据；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的多模态情感识别方法。

11.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至8任一项所述的多模态情感识别方法。