CN114639155A

CN114639155A - 情感识别方法、装置、存储介质、及处理器

Info

Publication number: CN114639155A
Application number: CN202210361942.7A
Authority: CN
Inventors: 黎明欣; 饶宇熹; 王远楷; 宁博
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-06-17

Abstract

本申请公开了一种情感识别方法、装置、存储介质、及处理器。涉及人工智能领域，该方法包括：获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果。通过本申请，解决了相关技术中情感识别结果不准确的问题。

Description

情感识别方法、装置、存储介质、及处理器

技术领域

本申请涉及人工智能领域，具体而言，涉及一种情感识别方法、装置、存储介质、及处理器。

背景技术

随着计算机视觉技术的飞速发展，人机交互逐渐得到重视，情感识别作为人机交互的重要部分，也开始受到广泛关注，如何使用计算机快速识别人类情感成为计算机视觉领域的研究热点。

目前国内外对于情感识别的方法主要分为基于单一模态的识别和基于多模态的识别。基于单一模态情感识别是指采集并分析单一通道的信息，最后通过一定的技术手段获得被测试者的情感状态的一种方法，这种方法存在一点的局限性；基于多模态的方法则是融合多个通道的信息进行情感判断，其主流的融合方式包括决策级融合方式。

决策级融合方式使用不同的分类器对不同的情感表达方式进行建模，最后把每个分类器的识别结果融合在一起。其实现方式是，使用不同的模块分别处理音频和视频特征，求出各自对应的识别率，最后根据比例评分机制和相应的权重分配策略得到最终的识别结果。

但是，现有的决策融合方式存在以下不足：一、不同分类器结果所占的比例和权重没有严格的依据和统一的标准，同一项目不同研究者按照不同的比例和权重往往得到不一样的结果；二、决策融合方式侧重对识别结果的融合，而忽略的不同通道特征之间的内在联系。

因此，基于上述不足，现有情感识别方法存在识别结果不准确的问题。

针对相关技术中情感识别结果不准确的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种情感识别方法、装置、存储介质、及处理器，以解决相关技术中情感识别结果不准确的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种情感识别方法。该方法包括：获取目标对象的待识别人脸图像和待识别语音信息；确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征；将所述人脸特征和所述语音特征进行融合，得到融合特征；基于特征融合分类模型对所述融合特征进行分析，得到融合分类数值，其中，所述特征融合分类模型是由多组融合分类数据通过机器学习训练出的，所述多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于所述融合分类数值确定所述目标对象的情感识别结果。

可选地，基于所述融合分类数值确定所述目标对象的情感识别结果包括：判断所述融合分类数值是否不小于预定阈值；在所述融合分类数值不小于预定阈值的情况下，基于所述融合分类数值确定所述目标对象的情感识别结果；在所述融合分类数值小于预定阈值的情况下，基于人脸分类模型分析所述人脸特征得到人脸分类数值，基于语音分类模型分析所述语音特征得到语音分类数值；基于所述融合分类数值、所述人脸分类数值和所述语音分类数值，确定所述目标对象的情感识别结果，其中，所述人脸分类模型是由多组人脸分类数据通过机器学习训练出的，所述多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，所述语音分类模型是由多组语音分类数据通过机器学习训练出的，所述多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

可选地，获取目标对象的待识别人脸图像和待识别语音信息包括：获取所述目标对象的待识别视频；将所述待识别视频分解为图像帧序列和语音信号；利用人脸检测算法对所述图像帧序列进行预处理，得到所述待识别人脸图像；利用梅尔频率倒谱系数对所述语音信号进行预处理，得到所述待识别语音信息。

可选地，利用人脸检测算法对所述图像帧序列进行预处理，得到所述待识别人脸图像包括：将所述图像帧序列输入预设人脸识别模型，识别所述图像帧序列中各图像的人脸区域，其中，所述预设人脸识别模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；在所述图像帧序列的各图像中，剪裁出所述人脸区域作为待识别人脸图像。

可选地，利用梅尔频率倒谱系数对所述语音信号进行预处理，得到所述待识别语音信息包括：对所述语音信号进行预加重、分帧和加窗，得到至少一个分析窗；通过快速傅里叶变换，得到每个所述分析窗的频谱；对所述频谱进行梅尔滤波得到梅尔频谱；将所述梅尔频谱进行倒谱分析，得到梅尔频谱系数；确定所述梅尔频谱系数为所述待识别语音信息。

可选地，确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征包括：利用人脸特征提取模型提取所述待识别人脸图像的人脸特征，其中，训练所述人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数centerloss确定，所述软最大损失函数softmax loss和中心损失函数center loss的比重通过预设的超参数控制；利用语音特征提取模型提取所述待识别语音信息的语音特征，其中，训练所述语音特征提取模型的损失函数为交叉熵损失函数。

可选地，将所述人脸特征和所述语音特征进行融合，得到融合特征包括：获取所述人脸特征提取模型的最后一层全连接层的第一输出特征向量；获取所述语音特征提取模型的最后一层全连接层的第二输出特征向量；对所述第一输出特征向量和所述第二输出特征向量进行降维；利用卷积操作对降维后的所述第一输出特征向量和所述第二输出特征向量进行计算，确定所述融合特征。

为了实现上述目的，根据本申请的另一方面，提供了一种情感识别装置。该装置包括：获取单元，用于获取目标对象的待识别人脸图像和待识别语音信息；第一确定单元，用于确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征；融合单元，用于将所述人脸特征和所述语音特征进行融合，得到融合特征；分析单元，用于基于特征融合分类模型对所述融合特征进行分析，得到融合分类数值，其中，所述特征融合分类模型是由多组融合分类数据通过机器学习训练出的，所述多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；第二确定单元，用于基于所述融合分类数值确定所述目标对象的情感识别结果。

为了实现上述目的，根据本申请的一个方面，提供了一种处理器。该处理器用于运行程序，其中，所述程序运行时执行上述所述的情感识别方法。

为了实现上述目的，根据本申请的一个方面，提供了一种电子设备。该电子设备包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述所述的情感识别方法。

通过本申请，采用以下步骤：获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果；解决了相关技术中情感识别结果不准确的问题，进而基于融合特征的融合分类数值确定情感识别结果，实现了基于特征融合后的量化数值确定情感识别结果，取得了提高情感识别结果的准确性的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的一种情感识别方法的流程图；

图2是根据本申请实施例提供的一种基于神经网络的语音和面部表情双模态情感融合识别方法的示意图；

图3是根据本申请实施例的一种情感识别装置的示意图；

图4是根据本申请实施例的一种电子设备的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合优选的实施步骤对本发明进行说明，图1是根据本申请实施例提供的一种情感识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取目标对象的待识别人脸图像和待识别语音信息；

步骤S104，确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；

步骤S106，将人脸特征和语音特征进行融合，得到融合特征；

步骤S108，基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；

步骤S110，基于融合分类数值确定目标对象的情感识别结果。

本申请实施例提供的情感识别方法，通过获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果；解决了相关技术中情感识别结果不准确的问题，进而基于融合特征的融合分类数值确定情感识别结果，实现了基于特征融合后的量化数值确定情感识别结果，取得了提高情感识别结果的准确性的效果。

在上述步骤S102中，目标对象可以是需要识别的对象，待识别人脸图像为目标对象的人脸图像，待识别语音信息为目标对象的语音信息。

在上述步骤S106中，融合分类数值用于表示融合特征属于某项情感分类的概率，其中，融合分类数值具有对应的情感分类，例如融合分类数值可以表示目标对象属于正向情感的概率。

例如，情感分类包括正向情感和负向情感，融合分类数值表示目标对象属于正向情感的概率，进而在基于特征融合分类模型对融合特征进行分析，确定目标对象属于正向情感的概率为60％，则60％即该目标对象的融合分类数值。

可选地，融合分类数值越高，表示目标对象的情感属于该融合分类数值对应情感分类的概率越大，其情感识别结果也就越准确。

作为一种可选的实施例，基于融合分类数值确定目标对象的情感识别结果包括：判断融合分类数值是否不小于预定阈值；在融合分类数值不小于预定阈值的情况下，基于融合分类数值确定目标对象的情感识别结果；在融合分类数值小于预定阈值的情况下，基于人脸分类模型分析人脸特征得到人脸分类数值，基于语音分类模型分析语音特征得到语音分类数值；基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果，其中，人脸分类模型是由多组人脸分类数据通过机器学习训练出的，多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，语音分类模型是由多组语音分类数据通过机器学习训练出的，多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

可选地，在融合分类数值不小于预定阈值的情况下，表示目标对象的情感更贴近该融合分类数值对应的情感分类，则可以该情感分类作为目标对象的情感识别结果，从而得到准确的情感识别结果。

可选地，在融合分类数值小于预定阈值的情况下，说明目标对象的情感属于该融合分类数值对应的情感分类的可能性较低，因此，在需要确定目标对象的情感识别结果的情况下，就需要使用决策融合的方式，基于人脸识别结果的人脸分类数值、语音识别结果的语音分类数值、以及融合分类数值共同确定目标对象的情感识别结果，从而得到准确的情感识别结果。

可选地，人脸分类模型用于确定人脸特征对应的人脸分类数值。

可选地，人脸分类数值用于表示人脸特征属于某项情感分类的概率，其中，人脸分类数值具有对应的情感分类，例如人脸分类数值可以表示目标对象属于正向情感的概率。

可选地，语音分类模型用于确定语音特征对应的语音分类数值。

可选地，语音分类数值用于表示语音特征属于某项情感分类的概率，其中，语音分类数值具有对应的情感分类，例如语音分类数值可以表示目标对象属于正向情感的概率。

作为一种可选的实施例，基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果包括：根据融合分类数值、人脸分类数值和语音分类数值的乘积确定情感识别结果。

可选地，基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果的表达式为：p＝p_f*p_v*p_m，其中，P为情感识别结果，用于表示目标对象属于目标情感分类的概率；p_f为人脸分类数值，用于表示人脸特征属于目标情感分类的概率；p_v为语音分类数值，用于表示语音特征属于目标情感分类的概率，p_m为融合分类数值，用于表示融合特征属于目标情感分类的概率。

作为一种可选的实施例，获取目标对象的待识别人脸图像和待识别语音信息包括：获取目标对象的待识别视频；将待识别视频分解为图像帧序列和语音信号；利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像；利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息。

本发明上述实施例，目标对象的待识别视频中包括：目标对象的人脸图像和目标对象的语音信号，通过对待识别视频进行分解，可以对待识别视频进行图像和语音分解，将待识别视频分解为图像帧序列和语音信号，然后利用人脸检测算法对图像帧序列进行预处理，从图像帧序列中得到待识别人脸图像；利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息，从而得到目标对象的待识别人脸图像和待识别语音信息。

可选地，语音信号可以保持为MP3格式。

作为一种可选的实施例，利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像包括：将图像帧序列输入预设人脸识别模型，识别图像帧序列中各图像的人脸区域，其中，预设人脸识别模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；在图像帧序列的各图像中，剪裁出人脸区域作为待识别人脸图像。

需要说明的是，人脸图像为包括人脸的图像，人脸区域用于表示人脸部分在图像中的尺寸，突出人脸特征。例如，人脸区域可以是图像中人脸所在的矩形区域。

可选地，利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像包括：使用人脸检测算法对图像帧序列进行人脸定位，并通过裁剪、缩放等方式将人脸图像统一处理成尺寸为M x M像素。

作为一种可选的实施例，利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息包括：对语音信号进行预加重、分帧和加窗，得到至少一个分析窗；通过快速傅里叶变换，得到每个分析窗的频谱；对频谱进行梅尔滤波得到梅尔频谱；将梅尔频谱进行倒谱分析，得到梅尔频谱系数；确定梅尔频谱系数为待识别语音信息。

本发明上述实施例，利用梅尔频率倒谱系数MFCC提取语音信号中的语音特征包括：对语音信号进行预加重、分帧和加窗；通过快速傅里叶变换FFT得到每一个分析窗的频谱；将上述频谱利用Mel滤波得到Mel频谱；将Mel频谱进行倒谱分析，得到Mel频谱系数可以作为MFCC特征，即待识别语音信息。

作为一种可选的实施例，确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征包括：利用人脸特征提取模型提取待识别人脸图像的人脸特征，其中，训练人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数center loss确定，软最大损失函数softmax loss和中心损失函数center loss的比重通过预设的超参数控制；利用语音特征提取模型提取待识别语音信息的语音特征，其中，训练语音特征提取模型的损失函数为交叉熵损失函数。

可选地，训练人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数center loss确定，表达式为：

中心损失函数center loss

软最大损失函数softmax loss

L＝L_C+λL_s；

其中λ为超参数，用于控制软最大损失函数softmax loss和中心损失函数centerloss的比重，x_i为第i个样本提取的特征，c_yi表示样本i所对应的类别的所有样本特征的平均特征，或者说第y_i个类别样本特征的中心点，m表示样本个数。

需要说明的是，在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

可选地，训练语音特征提取模型的损失函数为交叉熵损失函数，表达式为：

其中，m为类别的数量，y_ic∈[0，1]，如果样本i的真实类别等于c取1，否则取0，p_ic为观测样本i属于类别c的预测概率。

作为一种可选的实施例，将人脸特征和语音特征进行融合，得到融合特征包括：获取人脸特征提取模型的最后一层全连接层的第一输出特征向量；获取语音特征提取模型的最后一层全连接层的第二输出特征向量；对第一输出特征向量和第二输出特征向量进行降维；利用卷积操作对降维后的第一输出特征向量和第二输出特征向量进行计算，确定融合特征。

可选地，人脸特征和语音特征进行融合，得到融合特征，用公式表示如下：

其中，

表示草绘/流算法count sketch降维操作，h和s为该操作的参数，h用来随机选择特征向量中的元素，s用来随机选择是否将元素变成负数，*表示卷积操作。

本发明还提供了一种优选实施例，该优选实施例提供了一种基于神经网络的语音和面部表情双模态情感融合识别方法。

图2是根据本申请实施例提供的一种基于神经网络的语音和面部表情双模态情感融合识别方法的示意图，如图2所示，包括步骤如下：

步骤S1，将待识别视频进行音频和图像帧的提取：

可选地，将待识别的视频分解成图像帧序列，并将视频中的语音信号提取出来保持为MP3格式。

步骤S2，人脸图像预处理。

可选地，使用人脸检测算法Viola&Jones将步骤S1中得到的图像帧序列进行人脸定位，并通过裁剪、缩放等方式将人脸图像统一处理成尺寸为M x M像素。

步骤S3，语音信号预处理.

可选地，利用梅尔频率倒谱系数MFCC提取步骤S1中语音信号的语音特征，包括：对语音信号进行预加重、分帧和加窗；通过快速傅里叶变换FFT得到每一个分析窗的频谱；将上述频谱利用Mel滤波得到Mel频谱；将Mel频谱进行倒谱分析，得到Mel频谱系数可以作为MFCC特征，即待识别语音信息。

步骤S4，人脸图像的特征提取。

可选地，利用残差网络ResNet提取步骤S2得到的人脸图像的人脸特征。

可选地，残差网络ResNet所采用的损失函数为软最大损失函数softmax loss结合中心损失函数center loss，表达式如下：

L＝L_c+λL_s，其中，L_c为中心损失函数center loss，L_s为软最大损失函数softmaxloss，λ为超参数，用于控制两者的比重；

其中，x_i为第i个样本提取的特征，c_yi表示样本i所对应的类别的所有样本特征的平均特征，或者说第y_i个类别样本特征的中心点，m表示样本个数。

步骤S5，语音信号的特征提取。

可选地，利用普通一维卷积神经网络进一步提取步骤S3得到的MFCC特征(即待识别语音信息)。

可选地，模型训练采用的损失函数为交叉熵损失函数(Cross Entropy LossFunction)，表达式如下：

步骤S6，特征融合。

可选地，使用草绘/流算法count sketch方法，对步骤S4人脸特征提取模型最后一层全连接层(激活函数作用之前)的输出特征向量x和步骤S5语音特征提取模型最后一层全连接层(激活函数作用之前)的输出特征向量y进行降维，然后用卷积操作对两个特征向量进行计算得到融合特征，用公式表示如下：

其中，

表示count sketch降维操作，h和s为该操作的参数，h用来随机选择特征向量中的元素，s用来随机选择是否将元素变成负数，*表示卷积操作。

可选地，将融合后的特征输入长短时记忆网络(Long Short Term MemoryNetwork,LSTM)进一步学习，然后得到特征融合分类模型的分类结果。

步骤S6，人脸分类模型、语音分类模型和特征融合分类模型在决策上的融合得到待识别对象的最终情感识别结果。

可选地，在步骤S6特征融合分类模型得到的分类结果(即融合分类数值)大于等于预定阈值α的情况下，直接使用特征融合分类模型的分类结果作为最终的识别结果。

步骤S41，使用人脸分类模型对步骤S4的人脸特征进行分析，得到人脸分类模型的结果p_f(即人脸分类数值)。

步骤S51，使用语音分类模型对步骤S5的语音特征进行分析，得到语音分类模型的结果p_v(即语音分类数值)。

可选地，在步骤S6得到的分类结果(即融合分类数值)小于预定阈值α的情况下，使用决策方式融合步骤S41人脸分类模型的结果p_f(即人脸分类数值)、步骤S51语音分类模型的结果p_v(即语音分类数值)和步骤S6特征融合分类模型得到的分类结果p_m(融合分类数值)，得到最终的识别结果，融合的表达式如下：p＝p_f*p_v*p_m。

可选地，模型最终的识别表达式为：

本发明使用在图像领域应用十分成功的卷积申请网络CNN进行语音和面部表情特征提取，能够避免人工选取特征时主观因素的影响；使用特征融合和决策融合的方式进行模型融合，能够有效利用人脸特征和语音特征之间的内在联系，提高感情识别的准确性和可靠性。

本发明克服了现有双模态情感识别技术的不足，提供一种实现简单，可迁移性强，能够有效利用不同通道特征之间内在联系的方法。

本发明提供一种基于神经网络的语音和面部表情双模态情感融合识别方法，该方法使用神经网络提取语音和面部表情特征，能够对人工选取特征的方法做出改进；最后使用特征融合和决策融合两种方式结合的方法进行模型融合。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种情感识别装置，需要说明的是，本申请实施例的情感识别装置可以用于执行本申请实施例所提供的用于情感识别方法。以下对本申请实施例提供的情感识别装置进行介绍。

图3是根据本申请实施例的一种情感识别装置的示意图。如图3所示，该装置包括：获取单元31，用于获取目标对象的待识别人脸图像和待识别语音信息；第一确定单元33，用于确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；融合单元35，用于将人脸特征和语音特征进行融合，得到融合特征；分析单元37，用于基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；第二确定单元39，用于基于融合分类数值确定目标对象的情感识别结果。

需要说明的是，该实施例中的获取单元31可以用于执行本申请实施例中的步骤S102，该实施例中的第一确定单元33可以用于执行本申请实施例中的步骤S104，该实施例中的融合单元35可以用于执行本申请实施例中的步骤S106，该实施例中的分析单元37可以用于执行本申请实施例中的步骤S108，该实施例中的第二确定单元39可以用于执行本申请实施例中的步骤S110。上述单元与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

作为一种可选的实施例，第二确定单元包括：判断模块，用于判断融合分类数值是否不小于预定阈值；第一确定模块，用于在融合分类数值不小于预定阈值的情况下，基于融合分类数值确定目标对象的情感识别结果；第二确定模块，用于在融合分类数值小于预定阈值的情况下，基于人脸分类模型分析人脸特征得到人脸分类数值，基于语音分类模型分析语音特征得到语音分类数值；基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果，其中，人脸分类模型是由多组人脸分类数据通过机器学习训练出的，多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，语音分类模型是由多组语音分类数据通过机器学习训练出的，多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

作为一种可选的实施例，获取单元包括：获取模块，用于获取目标对象的待识别视频；分解模块，用于将待识别视频分解为图像帧序列和语音信号；第一预处理模块，用于利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像；第二预处理模块，用于利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息。

作为一种可选的实施例，第一预处理模块包括：识别模块，用于将图像帧序列输入预设人脸识别模型，识别图像帧序列中各图像的人脸区域，其中，预设人脸识别模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；剪裁模块，用于在图像帧序列的各图像中，剪裁出人脸区域作为待识别人脸图像。

作为一种可选的实施例，第二预处理模块包括：第一处理模块，用于对语音信号进行预加重、分帧和加窗，得到至少一个分析窗；第二处理模块，用于通过快速傅里叶变换，得到每个分析窗的频谱；第三处理模块，用于对频谱进行梅尔滤波得到梅尔频谱；分析模块，用于将梅尔频谱进行倒谱分析，得到梅尔频谱系数；第一确定模块，用于确定梅尔频谱系数为待识别语音信息。

作为一种可选的实施例，第一确定单元包括：第一提取模块，用于利用人脸特征提取模型提取待识别人脸图像的人脸特征，其中，训练人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数center loss确定，软最大损失函数softmaxloss和中心损失函数center loss的比重通过预设的超参数控制；第二提取模块，用于利用语音特征提取模型提取待识别语音信息的语音特征，其中，训练语音特征提取模型的损失函数为交叉熵损失函数。

作为一种可选的实施例，融合单元包括：第一获取模块，用于获取人脸特征提取模型的最后一层全连接层的第一输出特征向量；第二获取模块，用于获取语音特征提取模型的最后一层全连接层的第二输出特征向量；降维模块，用于对第一输出特征向量和第二输出特征向量进行降维；第二确定模块，用于利用卷积操作对降维后的第一输出特征向量和第二输出特征向量进行计算，确定融合特征。

本申请实施例提供的情感识别装置，通过获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果；解决了相关技术中情感识别结果不准确的问题，进而基于融合特征的融合分类数值确定情感识别结果，实现了基于特征融合后的量化数值确定情感识别结果，取得了提高情感识别结果的准确性的效果。

所述情感识别装置包括处理器和存储器，上述各单元和模块均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来基于融合特征的融合分类数值确定情感识别结果。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现所述情感识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述情感识别方法。

图4是根据本申请实施例的一种电子设备的示意图。如图4所示，本发明实施例提供了一种电子设备40，设备包括处理器403、存储器401及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果。

可选地，处理器执行程序时实现以下步骤：判断融合分类数值是否不小于预定阈值；在融合分类数值不小于预定阈值的情况下，基于融合分类数值确定目标对象的情感识别结果；在融合分类数值小于预定阈值的情况下，基于人脸分类模型分析人脸特征得到人脸分类数值，基于语音分类模型分析语音特征得到语音分类数值；基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果，其中，人脸分类模型是由多组人脸分类数据通过机器学习训练出的，多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，语音分类模型是由多组语音分类数据通过机器学习训练出的，多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

可选地，处理器执行程序时实现以下步骤：获取目标对象的待识别视频；将待识别视频分解为图像帧序列和语音信号；利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像；利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息。

可选地，处理器执行程序时实现以下步骤：将图像帧序列输入预设人脸识别模型，识别图像帧序列中各图像的人脸区域，其中，预设人脸识别模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；在图像帧序列的各图像中，剪裁出人脸区域作为待识别人脸图像。

可选地，处理器执行程序时实现以下步骤：对语音信号进行预加重、分帧和加窗，得到至少一个分析窗；通过快速傅里叶变换，得到每个分析窗的频谱；对频谱进行梅尔滤波得到梅尔频谱；将梅尔频谱进行倒谱分析，得到梅尔频谱系数；确定梅尔频谱系数为待识别语音信息。

可选地，处理器执行程序时实现以下步骤：利用人脸特征提取模型提取待识别人脸图像的人脸特征，其中，训练人脸特征提取模型的损失函数基于软最大损失函数softmaxloss和中心损失函数center loss确定，软最大损失函数softmax loss和中心损失函数center loss的比重通过预设的超参数控制；利用语音特征提取模型提取待识别语音信息的语音特征，其中，训练语音特征提取模型的损失函数为交叉熵损失函数。

可选地，处理器执行程序时实现以下步骤：获取人脸特征提取模型的最后一层全连接层的第一输出特征向量；获取语音特征提取模型的最后一层全连接层的第二输出特征向量；对第一输出特征向量和第二输出特征向量进行降维；利用卷积操作对降维后的第一输出特征向量和第二输出特征向量进行计算，确定融合特征。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标对象的待识别人脸图像和待识别语音信息；确定待识别人脸图像中的人脸特征和待识别语音信息中的语音特征；将人脸特征和语音特征进行融合，得到融合特征；基于特征融合分类模型对融合特征进行分析，得到融合分类数值，其中，特征融合分类模型是由多组融合分类数据通过机器学习训练出的，多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；基于融合分类数值确定目标对象的情感识别结果。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：判断融合分类数值是否不小于预定阈值；在融合分类数值不小于预定阈值的情况下，基于融合分类数值确定目标对象的情感识别结果；在融合分类数值小于预定阈值的情况下，基于人脸分类模型分析人脸特征得到人脸分类数值，基于语音分类模型分析语音特征得到语音分类数值；基于融合分类数值、人脸分类数值和语音分类数值，确定目标对象的情感识别结果，其中，人脸分类模型是由多组人脸分类数据通过机器学习训练出的，多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，语音分类模型是由多组语音分类数据通过机器学习训练出的，多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标对象的待识别视频；将待识别视频分解为图像帧序列和语音信号；利用人脸检测算法对图像帧序列进行预处理，得到待识别人脸图像；利用梅尔频率倒谱系数对语音信号进行预处理，得到待识别语音信息。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：将图像帧序列输入预设人脸识别模型，识别图像帧序列中各图像的人脸区域，其中，预设人脸识别模型为使用多组数据通过机器学习训练出的，多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；在图像帧序列的各图像中，剪裁出人脸区域作为待识别人脸图像。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：对语音信号进行预加重、分帧和加窗，得到至少一个分析窗；通过快速傅里叶变换，得到每个分析窗的频谱；对频谱进行梅尔滤波得到梅尔频谱；将梅尔频谱进行倒谱分析，得到梅尔频谱系数；确定梅尔频谱系数为待识别语音信息。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：利用人脸特征提取模型提取待识别人脸图像的人脸特征，其中，训练人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数center loss确定，软最大损失函数softmax loss和中心损失函数center loss的比重通过预设的超参数控制；利用语音特征提取模型提取待识别语音信息的语音特征，其中，训练语音特征提取模型的损失函数为交叉熵损失函数。

可选地，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取人脸特征提取模型的最后一层全连接层的第一输出特征向量；获取语音特征提取模型的最后一层全连接层的第二输出特征向量；对第一输出特征向量和第二输出特征向量进行降维；利用卷积操作对降维后的第一输出特征向量和第二输出特征向量进行计算，确定融合特征。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种情感识别方法，其特征在于，包括：

获取目标对象的待识别人脸图像和待识别语音信息；

确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征；

将所述人脸特征和所述语音特征进行融合，得到融合特征；

基于特征融合分类模型对所述融合特征进行分析，得到融合分类数值，其中，所述特征融合分类模型是由多组融合分类数据通过机器学习训练出的，所述多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；

基于所述融合分类数值确定所述目标对象的情感识别结果。

2.根据权利要求1所述的方法，其特征在于，基于所述融合分类数值确定所述目标对象的情感识别结果包括：

判断所述融合分类数值是否不小于预定阈值；

在所述融合分类数值不小于预定阈值的情况下，基于所述融合分类数值确定所述目标对象的情感识别结果；

在所述融合分类数值小于预定阈值的情况下，基于人脸分类模型分析所述人脸特征得到人脸分类数值，基于语音分类模型分析所述语音特征得到语音分类数值；基于所述融合分类数值、所述人脸分类数值和所述语音分类数值，确定所述目标对象的情感识别结果，其中，所述人脸分类模型是由多组人脸分类数据通过机器学习训练出的，所述多组人脸分类数据中的每组人脸分类数据均包括：人脸特征和标定的人脸分类数值，所述语音分类模型是由多组语音分类数据通过机器学习训练出的，所述多组语音分类数据中的每组语音分类数据均包括：语音特征和标定的语音分类数值。

3.根据权利要求1所述的方法，其特征在于，获取目标对象的待识别人脸图像和待识别语音信息包括：

获取所述目标对象的待识别视频；

将所述待识别视频分解为图像帧序列和语音信号；

利用人脸检测算法对所述图像帧序列进行预处理，得到所述待识别人脸图像；

利用梅尔频率倒谱系数对所述语音信号进行预处理，得到所述待识别语音信息。

4.根据权利要求3所述的方法，其特征在于，利用人脸检测算法对所述图像帧序列进行预处理，得到所述待识别人脸图像包括：

将所述图像帧序列输入预设人脸识别模型，识别所述图像帧序列中各图像的人脸区域，其中，所述预设人脸识别模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：人脸图像和人脸图像中已标定的人脸区域；

在所述图像帧序列的各图像中，剪裁出所述人脸区域作为所述待识别人脸图像。

5.根据权利要求3所述的方法，其特征在于，利用梅尔频率倒谱系数对所述语音信号进行预处理，得到所述待识别语音信息包括：

对所述语音信号进行预加重、分帧和加窗，得到至少一个分析窗；

通过快速傅里叶变换，得到每个所述分析窗的频谱；

对所述频谱进行梅尔滤波得到梅尔频谱；

将所述梅尔频谱进行倒谱分析，得到梅尔频谱系数；

确定所述梅尔频谱系数为所述待识别语音信息。

6.根据权利要求1所述的方法，其特征在于，确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征包括：

利用人脸特征提取模型提取所述待识别人脸图像的人脸特征，其中，训练所述人脸特征提取模型的损失函数基于软最大损失函数softmax loss和中心损失函数center loss确定，所述软最大损失函数softmax loss和中心损失函数center loss的比重通过预设的超参数控制；

利用语音特征提取模型提取所述待识别语音信息的语音特征，其中，训练所述语音特征提取模型的损失函数为交叉熵损失函数。

7.根据权利要求6所述的方法，其特征在于，将所述人脸特征和所述语音特征进行融合，得到融合特征包括：

获取所述人脸特征提取模型的最后一层全连接层的第一输出特征向量；

获取所述语音特征提取模型的最后一层全连接层的第二输出特征向量；

对所述第一输出特征向量和所述第二输出特征向量进行降维；

利用卷积操作对降维后的所述第一输出特征向量和所述第二输出特征向量进行计算，确定所述融合特征。

8.一种情感识别装置，其特征在于，包括：

获取单元，用于获取目标对象的待识别人脸图像和待识别语音信息；

第一确定单元，用于确定所述待识别人脸图像中的人脸特征和所述待识别语音信息中的语音特征；

融合单元，用于将所述人脸特征和所述语音特征进行融合，得到融合特征；

分析单元，用于基于特征融合分类模型对所述融合特征进行分析，得到融合分类数值，其中，所述特征融合分类模型是由多组融合分类数据通过机器学习训练出的，所述多组融合分类数据中的每组融合分类数据均包括：融合特征和标定的融合分类数值；

第二确定单元，用于基于所述融合分类数值确定所述目标对象的情感识别结果。

9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的情感识别方法。

10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的情感识别方法。