CN114912502B

CN114912502B - 一种基于表情与语音的双模态深度半监督情感分类方法

Info

Publication number: CN114912502B
Application number: CN202111626210.8A
Authority: CN
Inventors: 奚晨; 杨立扬; 宫敏; 成国强
Original assignee: Tianyi Digital Life Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2024-03-29
Anticipated expiration: 2041-12-28
Also published as: CN114912502A

Abstract

本公开提出了一种用于识别情感的方法。该方法包括：获取样本，该样本至少包括表情数据和语音数据；以及使用情感识别模型基于该样本的表情数据和语音数据来确定样本的情感类别标记。情感识别模型是基于双模态使用半监督学习算法来训练的。根据本公开的情感识别方法在使用表情模态的基础上，引入了语音模态，改善了单一模态在训练模时的错误叠加问题，能够应对单一模态的干扰和噪声，同时也提高了分类准确度。

Description

一种基于表情与语音的双模态深度半监督情感分类方法

技术领域

本申请涉及深度学习技术领域，并且更具体地涉及基于双模态半监督学习的情感识别方法和设备。

背景技术

为计算机赋予识别、理解、表达和适应人的情感的能力有助于建立和谐的人机交互环境。计算机对传感器采集的信号进行处理和分析并由此得出人所感受的情感状态，此类行为可被称为情感识别。

随着计算机图像处理技术的不断发展，计算机基于图像(例如，静态图像、动态图像或姿势等，诸如包括面部表情的图片)进行情感识别的能力也不断提高。在基于表情的情感识别方法中常常使用深度学习方法，其中表情识别学习模型可基于数字化表情图像或者一段表情视频序列。由于各种表情本身体现在各个特征点上的差别并不是很大，因此表情分析对于人脸的表情特征提取的准确性和有效性要求比较高(例如，嘴巴张开并不代表就是笑，也有可能是哭和惊讶等)，由此选取有效特征点并准确提取所选特征点可能存在挑战。为了提升情感识别的准确度，完成准确情感标识的大量表情样本集是必不可少，然而获取这样的训练集也可能是困难的。此外，输入训练出的模型的表情图像数据本身的误差和噪声也可能影响识别准确度。

目前的情感识别方法或多或少存在一些技术瓶颈。因此，迫切需要改进的情感识别方法。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以作为稍后给出的更加详细的描述之序。

目前，情感识别常常借助于图像识别技术。例如，可基于表情(例如，面部表情)来实现。在基于表情识别情感的过程中，由于各种表情本身体现在各个特征点上的差别并不是很大，选取有效特征点并准确提取所选特征点可能存在挑战。为了提升情感识别的准确度，完成准确情感标识的大量表情样本集是必不可少，然而获取这样的训练集也可能是困难的。此外，输入训练出的模型的表情图像数据本身的误差和噪声也可能影响识别准确度。

为了解决上述问题中的一个或多个问题，本公开提出了基于双模态半监督学习的情感识别方法和设备。

根据本公开的一个方面，一种用于训练情感识别模型的方法可包括以下步骤：

S1：获取包括有标记样本和无标记样本的数据集，数据集中的每个样本至少包括表情数据和语音数据；

S2：构建表情模型f()以及语音模型g()；

S3：基于有标记样本来训练f()和g()以得到初始表情模型f₀()和初始语音模型g₀()；

S4：使用初始表情模型f₀()来提取表情的样本特征F_e并使用初始语音模型g₀()来提取语音的样本特征F_v；

S5：基于表情的样本特征F_e来确定表情的伪标记矩阵Z_e并基于语音的样本特征F_v来确定语音的伪标记矩阵Z_v；

S6：基于表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v来确定新伪标记矩阵Z；

S7：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始语音模型g₀()直至收敛得到最终语音模型g_n()；

S8：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始表情模型f₀()直至收敛得到最终表情模型f_n()；以及

S9：将最终表情模型g_n()与最终语音模型f_n()进行融合，以获得情感识别模型。

根据本公开的进一步实施例，步骤S2可进一步包括：基于预训练的图片分类模型来构建表情模型f()，其中表情模型f()的初始参数为预训练的图片分类模型的预训练参数；以及基于LSTM模型来构建语音模型g()，其中语音模型g()的初始参数为随机参数。

根据本公开的进一步实施例，步骤S5可进一步包括：

S51：基于表情的样本特征F_e来获得表情的邻接矩阵W_e并基于语音的样本特征F_v来获得语音的邻接矩阵W_v；

S52：基于表情的邻接矩阵W_e根据标记传播算法来获得表情的伪标记矩阵Z_e并基于语音的邻接矩阵W_v来获得语音的伪标记矩阵Z_v。

根据本公开的进一步实施例，步骤S6可进一步包括：将表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v的熵值加权得到新伪标记矩阵Z。

根据本公开的进一步实施例，该方法可进一步包括：

S7：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练g₀()直至收敛得到g_n()；以及

S8：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练f₀()直至收敛得到f_n()。

根据本公开的替换实施例，该方法可进一步包括：

S7：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练f₀()直至收敛得到f_n()；以及

S8：使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练g₀()直至收敛得到g_n()。

根据本公开的进一步实施例，步骤S9可进一步包括：将f_n()与g_n()分别预测的表情标记向量和语音标记向量的熵值加权进行融合，以获得最终标记向量。

根据本公开的一个方面，一种用于识别情感的方法可包括：获取样本，样本至少包括表情数据和语音数据；以及使用执行如上的方法训练的情感识别模型基于样本的表情数据和语音数据来确定样本的情感类别标记。

根据本公开的一个方面，一种用于训练情感分类模型的设备可包括：存储器；以及处理器，处理器与存储器耦合并被配置成执行上述方法来训练情感识别模型。

根据本公开的一个方面，一种用于识别情感的设备可包括：存储器；以及处理器，处理器与存储器耦合并被配置成：获取样本，样本至少包括表情数据和语音数据；以及使用执行上述方法训练得到的情感识别模型基于样本的表情数据和语音数据来确定样本的情感类别标记。

根据本公开的情感识别方法在使用表情模态的基础上，引入了语音模态，改善了单一模态在训练模时的错误叠加问题，能够应对单一模态的干扰和噪声，同时也提高了分类准确度。

提供本公开的内容是为了以简化的形式来介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本公开的内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。各实施例的其他方面、特征和/或优点将部分地在下面的描述中阐述，并且将部分地从描述中显而易见，或者可以通过本公开的实践来学习。

附图说明

为了能详细地理解本公开的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本公开的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。在附图中，类似附图标记始终作类似的标识。要注意，所描述的附图只是示意性的并且是非限制性的。在附图中，一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。

图1解说了根据本公开的实施例的用于训练情感识别模型的流程示意图；

图2示出了根据本公开的实施例的训练数据集的示图；

图3示出了根据本公开的实施例的示例LSTM模型的结构示意图；

图4解说了根据本公开的实施例的用于训练情感识别模型的方法的流程图；

图5解说了根据本公开的实施例的用于识别情感的方法的流程图；

图6解说了根据本公开的实施例的用于训练情感识别模型的系统的框图；

图7解说了根据本公开的实施例的用于识别情感的系统的框图；以及

图8示出了根据本公开的各实施例的包括用于训练情感识别模型的系统的设备的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开的进一步详细说明。在以下详细描述中，阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其他示例性实施例中，没有详细描述公知的结构或处理步骤，以避免不必要地模糊本公开的概念。

在本说明书中，除非另有说明，否则通过本说明书使用的术语“A或B”指的是“A和B”和“A或B”，而不是指A和B是排他性的。

情感识别常常借助于图像识别技术，例如，可使用深度学习方法基于表情(例如，面部表情)来实现。在基于表情识别情感的过程中，由于各种表情本身体现在各个特征点上的差别并不是很大，选取有效特征点并准确提取所选特征点可能存在挑战。为了提升情感识别的准确度，完成准确情感标识的大量表情样本集是必不可少，然而获取这样的训练集也可能是困难的。此外，输入训练出的模型的表情图像数据本身的误差和噪声也可能影响识别准确度。

根据本公开的基于双模态半监督学习的情感识别方法可包括：获取双模态样本；以及使用情感识别模型基于双模态样本(例如，表情和语音两种模态)来确定样本的情感类别标记，其中情感识别模型是基于有标记双模态样本和无标记双模态进行半监督学习获得的，具体学习过程将在以下具体阐述。本领域技术人员将领会，虽然以下以表情和语音这两种模态作为示例进行阐述，但是根据本公开的情感识别方法也可以基于表情、语音、或其他模态(例如，姿态、文本、脑电、生理参数等)中的至少两者。优选地，根据本公开的情感识别方法可基于采用不同的识别技术的至少两种模态，例如，基于使用图像检测技术的表情模态以及基于使用语音检测技术的语音模态。根据本公开的情感识别方法在使用表情模态的基础上，引入了语音模态，改善了单一模态在训练模时的错误叠加问题，能够应对单一模态的干扰和噪声，同时也提高了分类准确度。以下结合附图来具体阐述。

图1解说了根据本公开的实施例的用于通过半监督学习训练基于双模态的情感识别模型的过程100示意图。

在开始训练情感识别模型之前，可以获取训练数据集。训练数据集可包括有标记样本集和无标记样本集。图2示出了根据本公开的实施例的训练数据集200的示图。如图2所示，该训练数据集中的每个样本至少具有两个模态，例如，具有表情模态和语音模态。例如，表情模态数据可以是包括表情的图片或视频序列，而语音模态数据可以是音频等。在一些可选情形中，具有表情和语音双模态的数据集可以为有音频的视频序列。以下以基于表情和语音两种模态作为示例来训练情感识别模型，本领域技术人员将领会，也可基于其他模型来训练情感识别模型，如以上所阐述的。值得注意的是，训练数据集可包括少量有标记样本和大量无标记样本。众所周知，采集无标记样板的成本比采集有标记样本的成本低得多。根据本公开的训练方法能够在少量有标记样本的基础上结合大量无标记样本提升模型性能。

在一个实施例中，可为表情模态构建表情模型f()，以用于处理表情模态数据。例如，表情模型f()可以从选自现有神经网络模型，诸如VGGFace、Resnet模型等。f()的初始参数可以为所选模型的预训练参数。随后可基于有标记样本来训练f()以得到初始表情模型f₀()。在一个示例中，表情模型f()可包括f()卷积层和f()全连接层。

在一个实施例中，可为语音模态构建语音模型g()，以用于处理语音模态数据。例如，语音模型g()可以基于LSTM模型来构建，其中LSTM模型的初始参数可以为随机参数。随后可基于有标记样本来训练g()以得到初始语音模型g₀()。作为示例，图3示出了为语音模态构建的示例LSTM模型300的结构示意图。例如，如图3所示，示例LSTM模型300可包括LSTM层1、LSTM层2和全连接层，其中LSTM模型300的输入可以为语音数据，而LSTM模型300的输出可以为标记向量。

在获得训练数据集并构建表情模型f₀()和语音模型g₀()之后，可基于表情模型f₀()、语音模型g₀()通过半监督学习来训练情感识别模型。

在一个实施例中，继续参照1，初始表情模型f₀()可从所接收到样本中的表情数据中提取出表情模态的样本特征F_e。同样地，初始语音模型g₀()可从所接收样本中的语音数据中提取出语音模态的样本特征F_v。随后可通过半监督学习分别基于表情的样本特征F_e和语音的样本特征F_v来确定表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v。例如，可通过基于图的半监督学习分别基于表情的样本特征F_e和语音的样本特征F_v来确定表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v。基于图的半监督学习的过程具体如下所述。

在一个示例中，可基于表情的样本特征F_e来获得其邻接矩阵W_e，并且可基于语音的样本特征F_v来获得其邻接矩阵W_v。例如，设特征矩阵F＝[f₁,f₂,…f_n]，n为样本数，则第i个样本与第j个样本的相似度可被定义为：

其中w_ij是对应的邻接矩阵的第i行第j列的元素，NN_k()为k近邻选取操作。

在一个示例中，可根据表情的邻接矩阵W_e来构建图G_e＝(V_e,E_e,W_e,)，并且可根据语音的邻接矩阵W_v来构建图G_v＝(V_v,E_v,W_v,)，其中V、E、W分别为图的顶点、边、权重。在此基础上，根据标记传播算法获得相应的伪标记矩阵Z_e和Z_v。以下以表情模态为例来具体阐述计算伪标记矩阵的过程。

在一个示例中，根据表情的邻接矩阵W_e获得伪标记矩阵Z_e的标记传播算法具体如下。基于表情的邻接矩阵W_e构造标签传播矩阵S＝D^1/2WD^-1/2，其中：

而D^1/2可通过D^-1/2来获得。由此，可得到传播矩阵S，其大小可以为n×c，则Z_e＝(I-αS)^-1Y，其中α∈[0,1)，矩阵Y的大小可以为n×c，I为单位矩阵，n为训练样本总数，c为类别总数，矩阵Y中的第i行第j列的元素y_ij可以为：

其中y_i为第i个样本的标记对应的数值。例如，在有标记样本中，y_i为整数且y_i∈[1,c]，l为有标记样本的数目，Y的前l行就是l个有标记样本的标记的onehot编码，得到的矩阵Z_e为表情的伪标记矩阵。同样，可获得语音的伪标记矩阵Zv。本领域技术人员将领会，为了便于解说，以上标记传播算法作为示例描述了从从邻接矩阵获得伪标记矩阵的具体过程，也可以使用其他方法从邻接矩阵获得伪标记矩阵，而不脱离本公开的范围。

在一个示例中，在获得表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v之后，可基于表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v来确定新伪标记矩阵Z。例如，可将表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v的熵值加权得到新伪标记矩阵Z。例如，新伪标记矩阵Z可以为

h_i＝H(z_vi)+H(z_ei)，

其中z_i是Z的第i行(即，第i个样本)的伪标记，而z_vi、z_ei分别为矩阵Z_v、Z_e的第i行向量。

在一种情形中，在获得新伪标记矩阵Z之后，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始语音模型g₀()直至收敛得到最终语音模型g_n()。随后，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始表情模型f₀()直至收敛得到最终表情模型f_n()。例如，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记重复半监督学习和两种模态的伪标记矩阵融合过程来迭代地训练g₀()直至收敛得到g_n()。随后，同样地，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记重复半监督学习和两种模态的伪标记矩阵融合过程来迭代训练f₀()直至收敛得到f_n()。

在替换情形中，在获得新伪标记矩阵Z之后，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记重复半监督学习和两种模态的伪标记矩阵融合过程来迭代训练f₀()直至收敛得到f_n()。随后，同样地，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记重复半监督学习和两种模态的伪标记矩阵融合过程来迭代地训练g₀()直至收敛得到g_n()。本领域技术人员将领会，虽然图1中示出了首先训练语音模型g₀()并且随后训练表情模型f₀()，但是在本公开的训练方法中也可以首先训练表情模型f₀()并且随后训练语音模型g₀()，本申请并不对此进行限定。表情模型f₀()和语音模型g₀()训练顺序可视训练场景、样本状态等各种具体情况来确定。

在一个示例中，在获得最终表情模型f_n()和最终语音模型g_n()之后，可将最终表情模型f_n()与最终语音模型g_n()进行融合以获得情感识别模型。例如，可将f_n()与g_n()分别预测的表情标记向量和语音标记向量的熵值加权进行融合以最终标记向量，由此可得到情感识别模型。参照图1，当预测待测新样本时，假设将待测新样本的表情模态输入最终表情模型f_n()得到的标记向量为并将待测新样本的语音模态输入最终语音模型g_n()得到标记向量为/>则最终预测的标记向量/>例如可以为：

最终预测的标记向量中的值即为对应标记类别的概率，由此可获得最终情感识别模型。

图4解说了根据本公开的实施例的用于训练情感识别模型的方法400的流程图。如图4中所示，在一些方面，用于训练情感识别模型的方法400可包括以下步骤：

S1，可获取包括有标记样本和无标记样本的数据集。数据集中的每个样本例如包括表情和语音两种模态。在一些情形中，数据集可包括少量有标记样本和大量无标记样本。

S2，可构建表情模型f()以及语音模型g()。在一些情形中，可基于预训练的图片分类模型来构建表情模型f()，其中表情模型f()的初始参数可以为预训练的图片分类模型的预训练参数。在一些情形中，可基于LSTM模型构建语音模型g()，其中语音模型g()的初始参数可以为随机参数。

S3，可基于有标记样本来训练f()和g()以得到初始表情模型f₀()和初始语音模型g₀()。

S4，可使用初始表情模型f₀()来提取表情的样本特征F_e并使用初始语音模型g0()来提取语音的样本特征F_v。

S5，可基于表情的样本特征F_e来确定表情的伪标记矩阵Z_e并基于语音的样本特征F_v来确定语音的伪标记矩阵Z_v。在一个实施例中，在S51，可基于表情的样本特征F_e来获得表情的邻接矩阵W_e并基于语音的样本特征F_v来获得语音的邻接矩阵Wv；并且随后在S53，可基于表情的邻接矩阵W_e根据标记传播算法来获得表情的伪标记矩阵Z_e并基于语音的邻接矩阵Wv来获得语音的伪标记矩阵Z_v。

S6，可基于表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v来确定新伪标记矩阵Z。例如，可将表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v的熵值加权得到新伪标记矩阵Z。

S7，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始语音模型g₀()直至收敛得到最终语音模型g_n()。

S8，可使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始表情模型f₀()直至收敛得到最终表情模型g_n()。在一些情形中，步骤S7和步骤S8的顺序可以可任选地互换，这取决于具体训练场景。

S9，可将最终表情模型g_n()与最终语音模型g₀()进行融合，以获得情感识别模型。例如，可将f_n()与g_n()分别预测的表情标记向量和语音标记向量的熵值加权进行融合以获得最终标记向量。

图5解说了根据本公开的实施例的用于识别情感的方法500的流程图。如图5中所示，在一些方面，用于训练情感识别模型的方法500可包括：获取至少包括表情数据和语音数据的样本；以及使用执行如图4中所述的方法训练得到的情感识别模型基于样本的表情数据和语音数据来确定样本的情感类别标记。

图6解说了根据本公开的各方面的用于训练情感识别模型的系统600的框图。参照图6，系统600可包括：获取模块605、构建模块610、训练模块615、特征提取模块620、确定模块625和融合模块630。

在一个实施例中，获取模块605可被配置成获取包括有标记样本和无标记样本的数据集；构建模块610可被配置成构建表情模型f()以及语音模型g()。训练模块615可被配置成基于有标记样本来训练f()和g()以得到初始表情模型f₀()和初始语音模型g₀()。特征提取模块620可被配置成使用初始表情模型f₀()来提取表情的样本特征F_e并使用初始语音模型g₀()来提取语音的样本特征F_v。确定模块625可被配置成基于表情的样本特征F_e来确定表情的伪标记矩阵Z_e并基于语音的样本特征F_v来确定语音的伪标记矩阵Z_v。融合模块630可被配置成将表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v融合，以获得新伪标记矩阵Z。训练模块615可被进一步配置成使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始语音模型g₀()直至收敛得到最终语音模型g_n()；以及使用数据集中的所有样本基于新伪标记矩阵Z中的伪标记来训练初始表情模型f₀()直至收敛得到最终表情模型f_n()。融合模块630可被进一步配置成将最终表情模型g_n()与最终语音模型f_n()进行融合，以获得情感识别模型。

图7解说了根据本公开的各方面的用于双模态样本来识别情感的系统700的框图。参照图7，系统700包括：获取模块705和确定模块710。

在一个实施例中，获取模块705可被配置成双模态样本。确定模块710可被配置成使用训练得到的情感识别模型基于双模态样本来确定样本的情感类别标记。

图8示出了根据本公开的各方面的包括用于基于双模态样本来识别情感的系统的设备800的框图。该设备示出了一般硬件环境，可在其中根据本公开的示例性实施例应用本公开。

现在将参照图8描述设备800，其是可以应用于本公开的各方面的硬件设备的示例性实施例。设备800可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理(PDA)、智能电话、或其任何组合。上述系统可以全部或至少部分地由设备800或类似设备或系统实现。

设备800可包括可能经由一个或多个接口与总线802连接或与总线802通信的元件。例如，设备800可包括总线802、一个或多个输入设备805、一个或多个输出设备810、一个或多个处理器815、以及一个或多个存储器820等。

处理器815可以是任何类型的处理器，并且可包括但不限于通用处理器和/或专用处理器(例如特殊处理芯片)、智能硬件设备(例如，通用处理器、DSP、CPU、微控制器、ASIC、FPGA、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件、或其任何组合)。在一些情形中，处理器815可被配置成使用存储器控制器来操作存储器阵列。在其他情形中，存储器控制器(未示出)可被集成到处理器815中。处理器815可被配置成执行存储器中所储存的计算机可读指令以执行本文中所描述的各种功能。

存储器820可以是可实现数据存储的任何存储设备。存储器820可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其他磁介质、光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。存储器820可存储包括计算机可读指令的计算机可执行软件825，这些指令在被执行时使得处理器执行本文中所描述的各种功能。存储器820可以具有用于实现本文中所描述的各种功能的各种数据/指令/代码。

软件825可被存储于存储器820中，包括但不限于操作系统、一个或多个应用程序、驱动器和/或其他数据和代码。用以执行本文中所描述的各种功能的指令可被包括在一个或多个应用程序中，并且上述设备800的各单元可由处理器815读取并执行一个或多个应用程序的指令来实现。在一些情形中，软件825可以是不能由处理器直接执行的，而是可以(例如，在被编译和执行时)使计算机执行本文中所描述的各功能。

输入设备805可以是可以向计算设备输入信息的任何类型的设备。

输出设备810可以是可以输出信息的任何类型的输出设备。

可选实施例

在开始训练情感识别模型之前，可以获取训练数据集。训练数据集可包括有标记样本集和无标记样本集，其中有标记样本集可以选择MOUD数据集，每个样本拥有Arousal与Valence两个维度的标记，每个维度的类别数为3，分别为积极、中立、消极情感，而无标记样本集可以自行从网络上采集视频样本。在一个示例中，可以将已有样本集的标记移除而制作为无标记样本。

在一个示例中，可基于VGGFace模型为表情模态构建表情模型f()，以用于处理表情模态数据，f()的初始参数可以为预训练VGGFace模型的预训练参数。随后可基于有标记样本来训练f()以得到初始表情模型f₀()。VGGFace模型f()可包括f()卷积层和f()全连接层。在处理表情模态数据时，可从原视频中的帧每隔2帧采样一帧，共保留32帧，制作成大小为224×224×3×32的输入。

此外，可基于LSTM模型为语音模态构建语音模型g()，以用于处理语音模态数据，其中LSTM模型的初始参数可以为随机参数。随后可基于有标记样本来训练g()以得到初始语音模型g₀()。LSTM模型300的结构示意图如图3所示，其中LSTM模型300可包括LSTM层1、LSTM层2和全连接层，其中LSTM模型300的输入可以为语音数据，而LSTM模型300的输出可以为标记向量。在处理语音模态数据时，可将双声道语音去除一个变为单通道，以10240Hz为重采样频率，以250ms为时间步长将每个语音样本分帧为大小256×20，并去除多余的语音帧。可使用如图3中所示的LSTM模型，其中第一层的输入大小可以为256×20，LSTM层1单元数量可以为128，层2的数量可以为64，激活函数可选择tanh，将第二层的输出展平作为样本的语音特征。

以上两个神经网络模型均有全连接层用于输出分类信息。在训练时，框架可以选择Pytorch，批次大小可以选择32，优化器可以选择SGD，学习率可以选择0.0001。

首先固定表情模型f₀()，使用表情模型f₀()从接收到的样本中的表情数据中提取出表情模态的样本特征F_e，并使用初始语音模型g₀()从接收到的样本中的表情数据中提取出语音模态的样本特征F_v。随后，可基于表情的样本特征F_e来获得其邻接矩阵W_e，并且可基于语音的样本特征F_v来获得其邻接矩阵W_v，其中表情模态特征是指样本经过模型的最后一层卷积层的输出，而语音模态特征是指样本经过LSTM层2输出的展平结果。将所有的样本都经过上述操作后，得到的F_e、F_v的大小可以分别为n×n₁、n×n₂，其中n为训练数据集的样本总数，n₁、n₂分别为对应的特征维数。设特征矩阵F＝[f₁,f₂,…f_n]，邻接矩阵可选择余弦相似度来构建，第i个样本与第j个样本的相似度可被定义为：

其中w_ij是对应的邻接矩阵的第i行第j列的元素，NN_k()为k近邻选取操作。接着，可基于标签传播算法、熵值加权融合等步骤进行训练，如图1中所述，此处不再赘述。最终预测的标记向量中的值即为对应标记类别的概率，由此可获得最终情感识别模型。

本领域技术人员可以从上述实施例中清楚地了解到本公开可以通过具有必要硬件的软件或者通过硬件，固件等来实现。基于这样的理解，本公开的实施例可以部分地以软件形式实现。计算机软件可以存储在可读存储介质中，例如软盘，硬盘，光盘或计算机的闪存。计算机软件包括一系列指令，以使计算机(例如，个人计算机，服务站或网络终端)执行根据本公开的各个实施例的方法或其一部分。

以上描述了根据本公开的基于双模态识别情感的方法和设备。相对现有技术中的情感识别方法而言，本公开的方法和设备至少具有以下优点：

(1)将深度半监督学习算法应用于情感识别领域。当前的情感识别模型主要以神经网络模型为主，神经网络模型的训练需要大量的有标记样本，而大部分情感分类数据集的有标记样本较少，导致难以训练具有较高鲁棒性的模型。此外，采集无标记样本的成本比采集有标记样本的成本低很多。使用深度半监督学习算法能够在少量有标记样本的基础上结合大量无标记样本来提升训练模型的鲁棒性。

(2)使用深度半监督学习算法将基于单模态的情感识别扩展为基于双模态的情感识别有利于缓解单模态数据中的噪声对模型训练的不利影响。汲取多个模态的有效信息能够剔除各个单模态中引入的噪声，同时还能够综合各个模态之间的相关特性，获取不同模态的互补信息。

(3)在计算伪标记与标记向量时使用了基于熵值加权的融合方法，从而能够根据两个标记的熵值计算权重，熵值大的标记权重较小，熵值小的标记权重较大，由此能够有效地提升融合后标记的置信度。

在整个说明书中已经参照“实施例”，意味着特定描述的特征、结构或特性包括在至少一个实施例中。因此，这些短语的使用可以不仅仅指代一个实施例。此外，所描述的特征、结构或特性可以在一个或多个实施例中以任何合适的方式组合。

然而，相关领域的技术人员可以认识到，可以在没有一个或多个具体细节的情况下或者利用其他方法、资源、材料等来实践这些实施例。在其他情况下，众所周知的结构、资源，或者仅仅为了观察实施例的模糊方面而未详细示出或描述操作。

虽然已经说明和描述了实施例和应用，但是应该理解，实施例不限于上述精确配置和资源。在不脱离所要求保护的实施例的范围的情况下，可以在本文公开的方法和系统的布置，操作和细节中进行对本领域技术人员显而易见的各种修改、替换和改进。

本公开的一种实现(1)可以是一种用于训练情感识别模型的方法。该方法可包括以下步骤：

S2：构建表情模型f()以及语音模型g()；

可存在上述方法(1)的一些实现(2)，其中步骤S2可进一步包括：基于预训练的图片分类模型来构建表情模型f()，其中表情模型f()的初始参数为预训练的图片分类模型的预训练参数；以及基于LSTM模型来构建语音模型g()，其中语音模型g()的初始参数为随机参数。

可存在上述方法(1)的一些实现(3)，其中步骤S5可进一步包括：

可存在上述方法(1)的一些实现(4)，其中步骤S6可进一步包括：将表情的伪标记矩阵Z_e和语音的伪标记矩阵Z_v的熵值加权得到新伪标记矩阵Z。

可存在上述方法(1)的一些实现(5)，其中该方法可进一步包括：

可存在上述方法(1)的一些实现(6)，其中该方法可进一步包括：

可存在上述方法(1)的一些实现(7)，其中步骤S9可进一步包括：将f_n()与g_n()分别预测的表情标记向量和语音标记向量的熵值加权进行融合，以获得最终标记向量。

一种实现(8)可以是一种用于识别情感的方法。该方法可包括：获取样本，样本至少包括表情数据和语音数据；以及使用执行如上的方法训练的情感识别模型基于样本的表情数据和语音数据来确定样本的情感类别标记。

一种实现(9)可以是一种用于训练情感分类模型的设备可包括：存储器；以及处理器，处理器与存储器耦合并被配置成执行上述方法来训练情感识别模型。

一种实现(10)可以是一种用于识别情感的设备可包括：存储器；以及处理器，处理器与存储器耦合并被配置成：获取样本，样本至少包括表情数据和语音数据；以及使用执行上述方法训练得到的情感识别模型基于样本的表情数据和语音数据来确定样本的情感类别标记。

Claims

1.一种用于训练情感识别模型的方法，所述方法包括以下步骤：

S1：获取包括有标记样本和无标记样本的数据集，所述数据集中的每个样本至少包括表情数据和语音数据；

S2：构建表情模型f()以及语音模型g()；

S3：基于所述有标记样本来训练所述f()和所述g()以得到初始表情模型f₀()和初始语音模型g₀()；

S4：使用所述初始表情模型f₀()来提取表情的样本特征F_e并使用所述初始语音模型g₀()来提取语音的样本特征F_v；

S5：基于所述表情的样本特征F_e来确定表情的伪标记矩阵Z_e并基于所述语音的样本特征F_v来确定语音的伪标记矩阵Z_v；

S6：基于所述表情的伪标记矩阵Z_e和所述语音的伪标记矩阵Z_v来确定新伪标记矩阵Z；

S7：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记来训练所述初始语音模型g₀()直至收敛得到最终语音模型g_n()；

S8：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记来训练所述初始表情模型f₀()直至收敛得到最终表情模型f_n()；以及

S9：将所述最终表情模型g_n()与所述最终语音模型f_n()进行融合，以获得所述情感识别模型。

2.如权利要求1所述的方法，其特征在于，步骤S2进一步包括：

基于预训练的图片分类模型来构建所述表情模型f()，其中所述表情模型f()的初始参数为所述预训练的图片分类模型的预训练参数；以及

基于LSTM模型来构建所述语音模型g()，其中所述语音模型g()的初始参数为随机参数。

3.如权利要求1所述的方法，其特征在于，步骤S5进一步包括：

S51：基于所述表情的样本特征F_e来获得表情的邻接矩阵W_e并基于所述语音的样本特征F_v来获得语音的邻接矩阵W_v；

S52：基于所述表情的邻接矩阵W_e根据标记传播算法来获得所述表情的伪标记矩阵Z_e并基于所述语音的邻接矩阵W_v来获得所述语音的伪标记矩阵Z_v。

4.如权利要求1所述的方法，其特征在于，步骤S6进一步包括：

将所述表情的伪标记矩阵Z_e和所述语音的伪标记矩阵Z_v的熵值加权得到新伪标记矩阵Z。

5.如权利要求1所述的方法，其特征在于，进一步包括：

S7：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练所述g₀()直至收敛得到g_n()；以及

S8：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练所述f₀()直至收敛得到f_n()。

6.如权利要求1所述的方法，其特征在于，进一步包括：

S7：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练所述f₀()直至收敛得到f_n()；以及

S8：使用所述数据集中的所有样本基于所述新伪标记矩阵Z中的伪标记基于步骤S4-S6来迭代训练所述g₀()直至收敛得到g_n()。

7.如权利要求1所述的方法，其特征在于，步骤S9进一步包括：

将所述f_n()与所述g_n()分别预测的表情标记向量和语音标记向量的熵值加权进行融合，以获得最终标记向量。

8.一种用于识别情感的方法，所述方法包括：

获取样本，所述样本至少包括表情数据和语音数据；以及

使用执行如权利要求1至7中的任一项所述的方法训练得到的情感识别模型基于所述样本的表情数据和语音数据来确定所述样本的情感类别标记。

9.一种用于训练情感分类模型的设备，所述设备包括：

存储器；以及

处理器，所述处理器与所述存储器耦合并被配置成执行如权利要求1至7中的任一项所述的方法来训练情感识别模型。

10.一种用于识别情感的设备，所述设备包括：

存储器；以及

处理器，所述处理器与所述存储器耦合并被配置成：

获取样本，所述样本至少包括表情数据和语音数据；以及