CN111523389A

CN111523389A - 情绪智能识别方法、装置、电子设备及存储介质

Info

Publication number: CN111523389A
Application number: CN202010216979.1A
Authority: CN
Inventors: 王海平
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2020-08-11

Abstract

本发明涉及人工智能技术领域，揭露了一种情绪智能识别的方法，包括：获取用户的人脸图像和语音数据；对所述人脸图像进行表情特征提取，得到表情特征图像；对所述语音数据进行声纹特征提取，得到声纹特征；通过预先训练完成的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果；通过预先训练完成的声纹情绪识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果；利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，根据所述融合值识别出所述用户的情绪。本发明还提出一种情绪智能识别装置、电子设备以及一种计算机可读存储介质。本发明可以实现情绪的智能识别。

Description

情绪智能识别方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种情绪智能识别的方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，人工智能主要利用指纹，脸，声音，眼睛等生物特征帮助人类处理的包括学习，推理，规划，感知，语言识别和机器人控制等领域的任务，用以弥补了人脑的思考强度。但是目前人工智能缺乏对人类情绪识别领域的研究发掘，比如保险行业，教育行业的撒谎等情绪。目前的情绪识别技术是根据人的心跳等生理指标数据的变化来识别一个人的情绪，在很多场景下，人们的心跳等生理指标数据不能轻易获取，导致情绪识别受限。

发明内容

本发明提供一种情绪智能识别的方法、装置、电子设备及计算机可读存储介质，其主要目的在于结合人脸表情和声纹特征的测谎结果，智能化识别出用户的情绪。

为实现上述目的，本发明提供的一种情绪智能识别方法，包括：

获取用户的人脸图像和语音数据；

对所述人脸图像进行表情特征提取，得到表情特征图像；

对所述语音数据进行声纹特征提取，得到声纹特征；

通过预先训练完成的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果；

通过预先训练完成的的声纹情绪识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果；

利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值；

根据所述融合值识别出所述用户的情绪。

可选地，在对所述人脸图像进行表情特征提取之前，该方法还包括：

将所述人脸图像转换执行灰度转换操作，得到灰度人脸图像；

对所述灰度人脸图像进行减噪及消除孤立噪声点处理；

对执行了减噪及消除孤立噪声点后的所述灰度人脸图像进行对比度增强；

将对比度增强后的所述灰度人脸图像进行阈值化操作。

可选地，所述对所述语音数据进行声纹特征提取，得到声纹特征，包括：

对所述语音数据进行预加重操作，采用加窗的方法对预加重后的所述语音数据进行分帧，得到标准语音数据；

将所述标准语音数据转换为语音频率；

计算所述语音频率的维度参数，根据所述维度参数生成所述声纹特征。

可选地，所述计算所述语音频率的维度参数，包括：

利用下述公式计算所述语音频率的维度参数：

其中，d(n)表示语音频率的维度参数，i表示语音频率的帧率，n表示语音频率的振幅，B(f)表示语音频率，k表示当前标准语音帧与前后标准语音帧的线性组合。

可选地，对所述人脸情绪识别模型的训练包括：

A：通过所述人脸情绪识别模型的输入层接收预先收集的人脸表情图像及对应的标签；

B：通过所述人脸情绪识别模型的卷积层对所述人脸表情图像进行卷积操作，得到所述人脸表情图像的特征向量；

C：利用所述人脸情绪识别模型的池化层对所述特征向量进行池化操作，通过所述激活层的激活函数对池化后的所述特征向量进行计算，得到训练值；

D：利用所述人脸情绪识别模型的全连接层的损失函数计算所述训练值和所述标签的损失函数值；

E：若所述损失函数值大于预设的第一阈值时，对所述人脸情绪识别模型的参数进行调整，并返回上述的B，直至所述损失函数值不大于所述预设的第一阈值时，得到所述预先训练完成的的人脸情绪识别模型。

可选地，所述损失函数包括：

其中，L(s)表示损失函数值，s表示训练值表示标签的误差值，k为预先收集人脸表情图像的数量，y_i表示标签，y′_i表示训练值。

可选地，所述利用预构建的关联融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，包括：

利用下述公式计算所述融合值：

其中，f(x，a)表示融合值，k表示融合的类别数量，x表示表情特征图和声纹特征中的特征矢量，

表示第一情绪测试结果的矢量，

表示第二情绪测试结果的矢量，ɑ表示权重参数(a∈(0,1))。

为了解决上述问题，本发明还提供一种情绪智能识别装置，所述装置包括：

获取模块，用于获取用户的人脸图像和语音数据；

提取模块，用于对所述人脸图像进行表情特征提取，得到表情特征图像，对所述语音数据进行声纹特征提取，得到声纹特征；

测试模块，用于通过预先训练完成的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果，通过预先训练完成的声纹情绪识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果；

融合模块，用于利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，根据所述融合值识别出所述用户的情绪。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的情绪智能识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的情绪智能识别方法。

本发明实施例通过对获取用户的人脸图像和语音数据进行特征提取，生成表情特征图像和声纹特征，保障了后续测谎识别的数据准确性，结合预先训练的人脸情绪模型和声纹情绪模型对所述表情特征图像和声纹特征进行情绪测试，得到第一情绪测试结果和第二情绪测试结果，实现了情绪测试的智能化，并将所述第一情绪测试结果和第二情绪测试结果进行融合，根据所述融合值判断所述用户的情绪，保证了情绪识别的准确性。因此本发明提出的情绪智能识别的方法、装置及计算机可读存储介质，可以智能化和精确的识别出用户的情绪。

附图说明

图1为本发明一实施例提供的情绪智能识别方法的流程示意图；

图2为本发明一实施例提供的情绪智能识别方法的模块示意图；

图3为本发明一实施例提供的情绪智能识别方法的电子设备的内部结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种情绪智能识别的方法。参照图1所示，为本发明一实施例提供的情绪智能识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，情绪智能识别的方法包括：

S1、获取用户的人脸图像和语音数据。

在本发明的至少一个实施例中，所述用户的人脸图像和语音数据可以通过与该用户进行视频和语音通话获取得到。例如，对于保险公司来说，通过核保系统、理赔系统的视频通话工具和语音通话工具可以实时获取到用户的人脸图像和语音数据。

S2、对所述人脸图像进行表情特征提取，得到表情特征图像。

在本发明的至少一个实施例中，在识别所述人脸图像的表情特征之前，还包括对所述人脸图像进行预处理操作，以改善人脸图像的质量、消除噪声以及统一图像灰度值和尺寸。

详细地，所述预处理操作包括：通过各比例法将所述人脸图像执行灰度转换操作，得到灰度人脸图像；利用高斯滤波对所述灰度人脸图像进行减噪；采用中值滤波对减噪后的所述灰度人脸图像进行消除孤立噪声点，并利用对比度增强对消除孤立噪声点后的所述灰度人脸图像进行对比度增强；根据OTSU算法将对比度增强后的所述灰度人脸图像进行阈值化操作。

较佳地，本发明实施例所述对所述人脸图像进行表情特征提取的方法包括：基于静态图像的表情特征提取、基于动态图像的表情提取以及基于深度学习模型的图像表情特征提取。其中，所述表情特征包括：开兴、难过、伤心、恐慌等等。

详细地，本发明实施例所述基于静态图像的特征提取方法包括：主元分析法、独立分量分析法、线性判别分析法、Gabor小波法以及LBP算子法等；所述基于动态图像的表情提取方法包括：光流法、模型法以及几何法等；以及所述基于深度学习模型的图像表情特征提取方法包括：直接法、映射法以及残差法等。

例如，通过几何法对所述人脸图像进行表情特征提取包括：对人脸图像的关键部位，例如眼睛、嘴巴以及眉毛等进行定位，并测量所述关键部位的形状、大小及相互比例，将测量结果与实际人脸的形状、大小及相互比例做比对，根据比对结果确定人脸的表情特征，进而实现表情特征的提取。

S3、对所述语音数据进行声纹特征提取，得到声纹特征。

由于语音数据集中的语音信号是一种非平稳的时变信号，它携带着各种信息，例如背景噪声、人声等，较佳地，本发明实施例在对所述语音数据进行声纹特征提取之前，还包括：将所述语音数据进行预处理操作，得到标准语音数据，以提取只包含人声的语音。

较佳地，本发明实施例中，所述预处理操作包括：对所述语音数据进行预加重操作，以增强语音数据的高分辨率，采用加窗的方法对预加重后的所述语音数据进行分帧，以筛选出所述语音数据中的背景声，得到只包含人声的语音，即所述标准语音数据。所述加窗的方法为：汉明窗加窗法。

进一步地，本发明实施例通过差分技术对所述标准语音数据进行声纹特征提取，得到所述声纹特征。

所述差分技术包括：将所述标准语音数据转换为语音频率；计算所述语音频率的维度参数，根据所述维度参数生成所述标准语音数据的声纹特征。所述维度参数包括：语调、语速等，所述声纹特征包括：平和、连贯以及甜美等。例如，将某用户的语音转换语音频率为70-100HZ范围内，根据其语音频率计算出该用户的语调、语速等维度参数，从而可以判断出该用户语音的声纹特征为：平和。

较佳地，本发明实施例通过如下公式将所述标准语音数据转换为语音频率：

其中，B(f)表示语音频率，f表示标准语音数据的预期频率。

进一步地，本发明较佳实例通过如下公式计算所述语音频率的维度参数：

其中，d(n)表示语音频率的维度参数，i表示语音频率的帧率，n表示语音频率的振幅，B(f)表示语音频率，k表示当前标准语音帧与前后标准语音帧的线性组合，通常取值为2，表示当前语音帧与前后2个语音帧的线性组合。

S4、通过预先训练完成的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果。

在本发明的至少一个实施例中，所述预先训练完成的人脸情绪识别模型是利用预先收集大量的人脸表情图像及对应的标签进行训练得到，比如人在说慌时人脸表情会慌张，眼神会不自觉的东张西望等表情特征，于是，本发明实施例将神色慌张、眼神慌张等人脸表情特征建立说谎的标签；人在没有说谎时，人脸面部神色会表现的很平静，眼神平静等表情特征，于是，本发明实施例将神色平静、眼神平静等人脸表情特征建立没有说谎的标签。

详细地，本发明实施例中，所述人脸情绪识别模型包括输入层、卷积层、池化层、全连接层以及输出层，以及所述人脸情绪识别模型的训练过程包括：通过所述输入层接收所述预先收集的人脸表情图像及对应的标签，通过所述卷积层对所述人脸表情图像进行卷积操作，得到所述人脸表情图像的特征向量，利用所述池化层对所述特征向量进行池化操作，通过所述激活层的激活函数对池化后的所述特征向量进行计算，得到训练值，并利用全连接层的损失函数计算所述训练值和所述标签的损失函数值，若所述损失函数值大于预设的第一阈值时，对所述人脸情绪识别模型的参数进行调整，直至所述损失函数值不大于所述预设的第一阈值时，得到所述预先训练完成的的人脸情绪识别模型。优选地，本发明实施例所述预设的第一阈值为0.1。

本发明实施例中，所述激活函数包括：

其中，O_j表示激活层第j个神经元的训练值，I_j表示激活层第j个神经元的输入值，t表示激活层神经元的总量，e为无限不循环小数。

本发明实施例中，所述损失函数包括：

进一步地，本发明实施例将所述表情特征图像输入至所述预先训练好的人脸情绪模型中进行情绪测试，得到第一情绪测试结果。

S5、通过预先训练完成的声纹情绪识别模型对所述声纹特征集进行情绪测试，得到第二情绪测试结果。

在本发明的至少一个实施例中，所述预先训练完成的声纹情绪识别模型是通过预先收集大量的声纹特征及对应的标签进行训练得到，比如人在说慌时语速吞吞吐吐、语调高低差异很大等声纹特征，于是，本发明实施例将语速吞吐、语调差异很大等声纹特征建立说谎的标签；人在没有说谎时语速会很平和、语调连贯等声纹特征，于是，本发明实施例将语速平和、语调连贯等声纹特征建立没有说谎的标签。

详细地，本发明实施例中，所述声纹情绪识别模型也包括输入层、卷积层、池化层、全连接层以及输出层，所述声纹情绪识别模型训练过程与上述人脸情绪识别模型训练过程的步骤实现原理相同，在此不再赘述。

进一步地，本发明实施例将所述声纹特征输入至所述预先训练完成的声纹情绪模型中进行情绪测试，得到第二情绪测试结果。

S6、利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值。

在本发明的至少一个实施例中，所述预构建的关联融合模型包括：

表示第一情绪测试结果的矢量，

表示第二情绪测试结果的矢量，ɑ表示权重参数(a∈(0,1))。

S7、根据所述融合值识别出所述用户的情绪。

若所述融合值大于所述预设的融合值，识别出所述用户的情绪为说谎，例如，预设的融合值为3，得到的融合值4，则识别出所述用户情绪为说谎。若所述融合值不大于所述预设的融合值，识别出所述用户的情绪没有说谎，例如，预设的融合值为3，得到的融合值2，则识别出所述用户的情绪为没有说谎。

基于上述的实施方式，将人脸表情特征和声纹特征的测谎结果进行结合，判断用户的情绪，实现了情绪识别的智能化和精确度。

如图2所示，是本发明情绪智能识别装置的功能模块图。

本发明所述情绪智能识别的存储100可以安装于电子设备中。根据实现的功能，所述情绪智能识别装置可以包括获取模块101、提取模块102、测试模块103以及融合模块104。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述获取模块101，用于获取用户的人脸图像和语音数据；

所述提取模块102，用于对所述人脸图像进行表情特征提取，得到表情特征图像，对所述语音数据进行声纹特征提取，得到声纹特征；

所述测试模块103，用于通过预先训练好的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果，通过预先训练好的声纹情绪识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果；

所述融合模块104，用于利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，根据所述融合值识别出所述用户的情绪。

详细地，所述情绪智能识别装置各模块的具体实施步骤如下：

所述获取模块101获取用户的人脸图像和语音数据。

所述提取模块102对所述人脸图像进行表情特征提取，得到表情特征图像，对所述语音数据进行声纹特征提取，得到声纹特征。

在本发明的至少一个实施例中，在识别所述人脸图像的表情特征之前，所述提取模块102还对所述人脸图像进行预处理操作，以改善人脸图像的质量、消除噪声以及统一图像灰度值和尺寸。

进一步地，所述提取模块102通过差分技术对所述标准语音数据进行声纹特征提取，得到所述声纹特征。

较佳地，本发明实施例所述提取模块102通过如下公式将所述标准语音数据转换为语音频率：

其中，B(f)表示语音频率，f表示标准语音数据的预期频率。

进一步地，本发明较佳实例所述提取模块102通过如下公式计算所述语音频率的维度参数：

所述测试模块103通过预先训练好的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果，通过预先训练好的声纹情绪识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果。

本发明实施例中，所述激活函数包括：

本发明实施例中，所述损失函数包括：

进一步地，本发明实施例所述测试模块103将所述表情特征图像输入至所述预先训练好的人脸情绪模型中进行情绪测试，得到第一情绪测试结果。

进一步地，本发明实施例所述测试模块103将所述声纹特征输入至所述预先训练完成的声纹情绪模型中进行情绪测试，得到第二情绪测试结果。

所述融合模块104利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，根据所述融合值判断所述用户的情绪。

表示第一情绪测试结果的矢量，

表示第二情绪测试结果的矢量，ɑ表示权重参数(a∈(0,1))。

进一步地，所述融合模块104判断所述融合值是否大于预设的融合值。若所述融合值大于所述预设的融合值，所述融合模块104识别出所述用户情绪为说谎，例如，预设的融合值为3，得到的融合值4，则识别出所述用户的情绪没有说谎；若所述融合值不大于所述预设的融合值，所述融合模块104识别出所述用户没有情绪，例如，预设的融合值为3，得到的融合值2，则识别出所述用户的情绪没有说谎。

如图3所示，是本发明实现情绪智能识别的方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如情绪智能识别程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如情绪智能识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如情绪智能识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的情绪智能识别程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

获取用户的人脸图像和语音数据；

对所述人脸图像进行表情特征提取，得到表情特征图像；

对所述语音数据进行声纹特征提取，得到声纹特征；

根据所述融合值识别出所述用户的情绪。

具体地，所述处理器10对上述指令的具体实现方法可参考图1实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种情绪智能识别方法，其特征在于，所述方法包括：

获取用户的人脸图像和语音数据；

对所述人脸图像进行表情特征提取，得到表情特征图像；

对所述语音数据进行声纹特征提取，得到声纹特征；

根据所述融合值识别出所述用户的情绪。

2.如权利要求1所述的情绪智能识别方法，其特征在于，在对所述人脸图像进行表情特征提取之前，该方法还包括：

对所述灰度人脸图像进行减噪及消除孤立噪声点处理；

将对比度增强后的所述灰度人脸图像进行阈值化操作。

3.如权利要求1所述的情绪智能识别方法，其特征在于，所述对所述语音数据进行声纹特征提取，得到声纹特征，包括：

将所述标准语音数据转换为语音频率；

4.如权利要求3所述的情绪智能识别方法，其特征在于，所述计算所述语音频率的维度参数，包括：

利用下述公式计算所述语音频率的维度参数：

5.如权利要求1所述的情绪智能识别方法，其特征在于，该方法还包括对所述情绪情绪识别模型的训练，所述训练包括：

6.如权利要求5所述的情绪智能识别方法，其特征在于，所述损失函数包括：

7.如权利要求1至6中任意一项所述的情绪智能识别方法，其特征在于，所述利用预构建的关联融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，包括：

利用下述公式计算所述融合值：

表示第一情绪测试结果的矢量，

表示第二情绪测试结果的矢量，α表示权重参数(a∈(0，1))。

8.一种情绪智能识别装置，其特征在于，所述装置包括：

获取模块，用于获取用户的人脸图像和语音数据；

测试模块，用于通过预先训练完成的人脸情绪识别模型对所述表情特征图像进行情绪测试，得到第一情绪测试结果，通过预先训练完成的声纹人脸识别模型对所述声纹特征进行情绪测试，得到第二情绪测试结果；

融合模块，用于利用预构建的融合模型将所述第一说话测试结果与所述第二测试结果进行融合，得到融合值，根据所述融合值判断所述用户的情绪。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的情绪智能识别方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的情绪智能识别方法。