CN110399837B

CN110399837B - 用户情绪识别方法、装置以及计算机可读存储介质

Info

Publication number: CN110399837B
Application number: CN201910679946.8A
Authority: CN
Inventors: 阿德旺; 金大鹏; 殷燕
Original assignee: Shenzhen Zhihuilin Network Technology Co ltd
Current assignee: Shenzhen Zhihuilin Network Technology Co ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2024-01-05
Anticipated expiration: 2039-07-25
Also published as: CN110399837A

Abstract

本发明公开了一种用户情绪识别方法，该情绪识别方法包括以下步骤：获取用户的人脸图像和语音信息；根据所述人脸图像关键点的位置信息确定所述用户的第一情绪状态；根据所述语音信息确定所述用户的第二情绪状态；根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态。本发明还公开了一种用户情绪识别装置和计算机可读存储介质。本发明提高通过结合人脸图像关键点的位置信息和语音信息识别用户的情绪化状态，从而提高情绪识别的准确率。

Description

用户情绪识别方法、装置以及计算机可读存储介质

技术领域

本发明涉及机器人及物联网技术领域，尤其涉及一种用户情绪识别方法、装置以及计算机可读存储介质。

背景技术

在很多场景中情绪识别是很有必要的，目前的机器人能够对不同年龄层的人进行简单的陪伴，例如老年陪护的机器人家庭医生以及青少年配合机器人，需要目机器人能够读懂陪伴对象的情绪变化，目前的情绪识别主要采用人脸图像来进行情绪识别，人类的情绪识别是非常复杂的，采用单一的人脸图像识别可能会产生误判，从而导致识别的准确率较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种用户情绪识别方法、装置以及计算机可读存储介质，旨在解决提高情绪识别的准确率的技术问题。

为实现上述目的，本发明提供一种用户情绪识别方法，所述用户情绪识别方法包括以下步骤：

获取用户的人脸图像和语音信息；

根据所述人脸图像预设关键点的位置信息确定所述用户的第一情绪状态；

根据所述语音信息确定所述用户的第二情绪状态；

根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态。

可选地，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态的步骤包括：

判断所述第一情绪状态与所述第二情绪状态是否相同；

当所述第一情绪状态与所述第二情绪状态相同时，则将所述第一情绪状态或所述第二情绪状态作为所述用户最终的情绪状态。

当所述第一情绪状态与所述第二情绪状态不相同时，判断所述第一情绪状态和所述第二情绪状态是否包含有消极情绪状态；

若是，则将包含有消极情绪状态的情绪状态作为所述用户最终的情绪状态；

若否，则根据所述第一情绪状态的第一权值以及所述第二情绪状态的第二权值计算得到所述用户最终的情绪状态。

可选地，根据所述人脸图像预设关键点的位置信息确定所述用户的第一情绪状态的步骤包括：

根据所述人脸图像建立人脸三维坐标模型；

根据所述人脸三维坐标模型确定所述多个预设关键点对应的坐标值，并根据所述坐标值计算每两个所述关键点之间的距离信息；

将所述距离信息与对应预设的距离信息进行比较，根据比较结果确定所述用户的第一情绪状态。

根据预先划分的人脸图像区域获取每个区域对应的预设关键点的位置信息；

根据获取的位置信息计算每个区域对应的局部情绪状态；

根据各个局部情绪状态确定所述用户的第一情绪状态。

可选地，所述根据所述语音信息确定所述用户的第二情绪状态的步骤包括：

对所述语音信息进行分析得到文本特征和语调特征；

将所述文本特征与文本数据库预存的信息进行匹配，得到第一匹配结果；

将所述语调特征与语调数据库预存的信息进行匹配，得到第二匹配结果；

结合所述第一匹配结果和所述第二匹配结果，得到所述用户的第二情绪状态。

可选地，所述将所述语调特征与语调数据库预存的信息进行匹配，得到第二匹配结果的步骤包括：

判断所述第一匹配结果与所述文本数据库预存的信息是否匹配；

若是，则根据所述第一匹配结果调出第一语调数据库，将所述第一语调数据库作为语调数据库；

若否，则调出第二语调数据库，将所述第二语调数据库作为语调数据库；

根据所述语调特征和所述语调数据库，得到所述第二匹配结果。

可选地，所述根据所述语调特征和所述语调数据库，得到所述第二匹配结果的步骤包括：

根据所述语调数据库调出语音情绪状态判断模型；

将所述第二匹配结果与所述语音情绪状态判断模型进行比对，得到所述用户的第二情绪状态。

为实现上述目的，本发明还提供一种用户情绪识别装置，所述用户情绪识别装置包括存储器、处理器及存储在存储器上并可在处理器上运行的用户情绪识别程序，所述处理器执行所述用户情绪识别程序时实现上述的用户情绪识别方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用户情绪识别程序，所述用户情绪识别程序被处理器执行上述的用户情绪识别方法的步骤。

本发明实施例提出的一种用户情绪识别方法，通过结合人脸图像和语音信息识别用户最终的情绪状态，通过多维数据实现更精确的用户情绪数据分析，克服了单一指标用作情绪识别可能导致的误判，提高了情绪识别的准确性。

附图说明

图1为本发明用户情绪识别方法一实施例的流程示意图；

图2为本发明确定用户最终的情绪状态的一实施例流程示意图；

图3为本发明确定用户最终的情绪状态的另一实施例流程示意图；

图4为本发明确定第一情绪状态的一实施例的流程示意图；

图5为本发明确定第一情绪状态的另一实施例的流程示意图；

图6为本发明根据语音信息确定用户第二情绪状态的流程示意图；

图7为本发明得到第一匹配结果的流程示意图；

图8为本发明得到第二匹配结果的流程示意图；

图9为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取用户的人脸图像和语音信息；根据所述人脸图像关键点的位置信息确定所述用户的第一情绪状态；根据所述语音信息确定所述用户的第二情绪状态；根据所述第一情绪状态和第二情绪状态确定所述用户最终的情绪状态。

由于目前的情绪识别主要采用人脸图像来进行情绪识别，人类的情绪识别是非常复杂的，采用单一的人脸图像识别可能会产生误判，从而导致识别的准确率较低。

如图9所示，图9是本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。电子设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图9中示出的终端结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图9所示，作为一种计算机可读存储介质的存储器1005中可以包括图像获取模块、语音信息获取模块、处理模块以及用户情绪识别应用程序。

参照图1，本发明的一实施例提供一种用户情绪识别方法，所述用户情绪识别方法包括步骤：

S10，获取用户的人脸图像和语音信息；

在本实施例中，利用客户端采集用户的人脸图像和语音信息，客户端可以是看护机器人，利用看护机器的摄像头和麦克风分别采集人脸图像和语音信息。客户端可以对人脸图像以及语音信息进行预处理。具体地，例如可以对人脸图像进行灰度化处理、归一化处理以及亮度校正等，使得人脸特征更加突出，并削弱外部光源的人脸图像的干扰，还可以对采集的图像进行降噪处理，减少外界信号的干扰。为了仅仅获取用户的语音信息，需要将其他的声音过滤掉，尽量过滤掉环境噪声，减少其他声音的干扰。

S20，根据所述人脸图像预设关键点的位置信息确定所述用户的第一情绪状态；

人的情绪变化时，面部表情也会随着变化，例如人在微笑时，嘴角有上扬，眼睛会眯起来，脸颊的肌肉也会发生变化；生气的时候会皱眉，嘴角会撅起来等，当然，除了这些能够明显看到的变化，还有一些小的变化，根据人脸图像的这些变化确定关键点，具体地，关键点可以是额头、眉毛、眼睛、鼻子、脸颊、耳朵等等。确定人脸图像中的关键点，根据人脸图像中的关键点的位置的变化确定用户的第一情绪状态。

S30，根据所述语音信息确定所述用户的第二情绪状态；

人的语音信息中包含着人的情绪，例如，高兴时，通常语速较快，音量较大；悲伤时，通常语速缓慢，音量较小。在语音情绪识别中使用的特征参数有基频率、能量、语速、共振峰频率、单个音节持续时间、音节之间的停顿时间、梅尔倒谱系数等等，本实施例根据语音信息的特征确定用户的第二情绪状态，可以通过这些特征的一种或多种来表征，本实施例中对语音特征的种类和数量不做限制。

S40，根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态。

人在某些场合下会掩饰或假装出某种情绪，例如，根据人脸图像确定的第一情绪状态是开心，但是根据语音信息确定的第一情绪状态是忧伤，因此结合人脸图像中关键点的位置信息和语音信息分析用户的情绪状态，减小误判的可能性。

本发明实施例通过分析不同情绪状态下人脸图像的关键点的位置信息的变化确定用户的第一情绪状态，并根据语音信息确定用户的第二情绪状态，结合人脸图像和语音信息识别用户的最终情绪状态，通过两个维度实现更精确的情感认知，克服了单一指标用作情绪识别而导致的误判，提高了情绪识别的准确性。

参照图2，所述根据所述第一情绪状态和第二情绪状态确定所述用户最终的情绪状态的步骤包括：

S41，判断所述第一情绪状态与所述第二情绪状态是否相同；

S42，当所述第一情绪状态与所述第二情绪状态相同时，则所述第一情绪状态或所述第二情绪状态作为所述用户最终的情绪状态。

通常将情绪状态主要分为三类：积极情绪、消极情绪和中立情绪，例如积极情绪包含开心、兴奋、欣赏等，消极情绪包含愤怒、生气、憎恨等，中立情绪表现出面无表情。当第一情绪状态和第二情绪状态属于相同类别时，该用户的最终情绪状态就为该相同的情绪状态。例如，当第一情绪状态为消极，第二情绪状态也为消极，那么判断该用户的情绪状态为消极。但是考虑到积极情绪内包含多种情绪，可以在进一步根据人脸图像关键点的位置信息和语音信息对用户情绪做进一步的识别。例如，当根据判断用户情绪为消极极情绪时，可以进一步确定用户是生气还是焦虑等。

参照图3，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态的步骤还包括：

S43，当所述第一情绪状态与所述第二情绪状态不相同时，判断所述第一情绪状态和所述第二情绪状态是否包含有消极情绪状态；

S44，若是，则将包含有消极情绪状态的情绪状态作为所述用户最终的情绪状态；

S45，若否，则根据所述第一情绪状态的第一权值以及所述第二情绪状态的第二权值计算得到所述用户最终的情绪状态。

在一实施例中，只要第一情绪状态或所述第二情绪状态其中一个含有消极情绪，那么该用户当前的情绪状态便是消极情绪，由于人大多数情况下都处于积极情绪或中立情绪状态，并且当人在积极情绪或中立情绪状态时，脸部通常不会显现出消极状态，因此当局部情绪状态是否中包含有消极情绪时，表明此时用户需要一定的关怀。机器人可以根据该消极情绪判断用户接下来的行动，从而对用户采取沟通安慰或者通过将该结果传输给其家人，提醒其家人近期需要多多关注用户的状况。当每一区域内都不包含消极情绪时，根据每一区域所占的比重计算最用的数值，将该数值与预先存储的情绪状态判断模型进行比对，得到用户最终的情绪状态。

当第一情绪状态与所述第二情绪状态都不包含消极情绪状态时，通过设置人脸图像对应的第一权值和语音信息对应的第二权值来识别最终情绪状态，因为在不同场景下用户的人脸图像和语音信息对真实情绪状态的影响权重不同。例如，人脸图像对应的第一权值为X，人脸图像识别的第一情绪状态值为a，语音信息对应的第二权值为Y，语音信息识别的第一情绪状态值为b，那么得到的结果S＝aX+bY。将结果S与预先存储的情绪状态判断模型进行比对，得到用户最终的情绪状态。具体的，情绪状态判断模型预先根据三类情绪状态设置预设阈值，每一预设阈值范围与情绪状态一一对应，将S与预设阈值比较，即可得到所述用户最终的情绪状态。

需要是说明的是，情绪状态判断模型是预先设置的，情绪状态判断模型可以通过RNN(循环神经网络)进行深度学习，该情绪状态判断模型能够结合用户的记录喜欢或者其他规则做出一个明确的判断，即根据用户的情绪变化，对情绪状态判断模型进行调整，以根据该用户的情绪变化生成情绪状态判断模型，从而提高情绪识别的准确性，即预设阈值可以根据不同的场景进行调整，将S与预设阈值进行比较，根据其落入的范围确定用户最终的情绪状态。

情绪状态判断模型具体的生成过程为：获取预先采样情绪状态为积极情绪、消极情绪以及中立情绪对应的人脸图像和语音信息的特征信息，将采样的特征信息输入卷积神经网络以及深层神经网络DNN进行训练，得到情绪状态判断模型。

参照图4，根据所述人脸图像关键点的位置信息确定所述用户的第一情绪状态的步骤包括：

S21，根据所述人脸图像建立人脸三维坐标模型；

S22，根据所述人脸三维坐标模型确定所述预设关键点对应的坐标值，并根据所述坐标值计算每两个所述关键点之间的距离信息；

S23，将所述距离信息与对应预设的距离信息进行比较，根据比较结果确定所述用户的第一情绪状态。

在一实施例中，可以利用人脸检测技术确定人脸图像的横向宽度、纵向高度以及深度(沿鼻子的高度方向)，以此可以确定出人脸图像的三维(长、宽、高)范围，根据此建立三维坐标模型，那么每个器官的每个关键点都会对应于在三维坐标模型中的不同位置，以此确定关键点的坐标值。例如，以人脸的中心为原点，横向为x轴，纵向为y轴，深度方向为z轴，建立三维坐标模型，根据三维坐标模型计算出关键点的距离信息。需要说明的是，每个器官可以选取多个关键点，具体根据实际需要进行设置。

具体地，对于成对出现的器官，例如眼睛、耳朵、脸颊、眉毛等，可以分别在二者都选取一个关键点，例如在每只眼睛各取一个关键点；对于不成对出现的器官，例鼻子、嘴巴等，可以在这些器官中选取两个关键点，例如嘴巴靠近人中位置与嘴角。例如，人在生气或高兴的时候，两个眉毛之间的距离会发生变化，那么分别在两个眉毛各选一个关键点，根据这两个关键点计算出两个眉毛之间的距离。当然，关键点也可以选取同一眉毛的不同位置，例如在同一眉毛的眉角和眉峰各选取一个关键点，并计算出这两个关键点之间的距离。

参照图5，根据所述人脸图像预设关键点的位置信息确定所述用户的第一情绪状态的步骤包括：

S201，根据预先划分的人脸图像区域获取每个区域对应的预设关键点的位置信息；

用户在表现一些情绪的时候，脸部的某些区域会出现佯装的现象，例如人在发怒时，嘴巴、眉毛等可能表现出微笑，而眼睛却显示出了愤怒，此时若将将整张脸与标准人脸模型比对，就会出现以偏概全的问题，造成情绪识别的误差。为了减少情绪识别误差，需要对人脸图像进行区域划分。例如，将人脸图像划分为上中下三个区域，上部区域为眼睛以上，包括眼睛、眉毛、额头；中间区域为眼睛和嘴巴之间的区域，包括脸颊、耳朵和鼻子等；下部区域为鼻子以下的区域，包括嘴巴和下颌等，当然划分区域不仅限于这种方式。每个区域预设关键点的数量可以不同，例如人类微小的变化都会带来眼睛和眉毛的变化，那么就会在上部区域多设置几个关键点，以此提高情绪识别的准确性。

S202，根据获取的位置信息计算每个区域对应的局部情绪状态；

每一区域内包含有不同的预设关键点，将每一区域内预设关键点的位置信息分别与面部情绪状态判断模型进行比对，从而得到每一区域对应的局部情绪状态。位置信息包含关键点之间的距离信息以及关键点的位置变化，例如在生气或高兴的时候，两个眉毛之间的距离(横向宽度)会发生变化，眉毛的高度也会发生变化，根据这些距离信息确定人脸上部区域的情绪状态。

S203，根据各个局部情绪状态确定所述用户的第一情绪状态。

具体地，判断每一所述局部情绪状态是否中包含消极情绪；若是，则将所述消极情绪作为所述用户的情绪状态；当每一区域内都不包含消极情绪时，根据每一区域所占的比重计算最终的数值，将该数值与预先存储的情绪状态判断模型进行比对，得到所述用户最终的情绪状态。

参照图6，所述根据所述语音信息确定所述用户的第二情绪状态的步骤包括：

S31，对所述语音信息进行分析得到文本特征和语调特征；

S32，将所述文本特征与文本数据库预存的信息进行匹配，得到第一匹配结果；

S33，将所述语调特征与语调数据库预存的信息进行匹配，得到第二匹配结果；

S34，结合所述第一匹配结果和所述第二匹配结果，得到所述用户的第二情绪状态。

在现实生活中，说话人既可以通过由语调产生的不同韵律来表达自己不同的情绪状态，也可以通过言语中的文本信息来表达。语调是语言中抑扬顿挫的旋律模式，具体说来，它反映的是语音中音高、音长、音强等方面变化的旋律特征。我们说话时声音有高低、轻重、长短之分，语速有快慢之别，语流有连贯、停顿的变化，所有这些，都是语调的具体体现。听话人需要联合韵律特征和词汇两方面信息，才能准确判断说话人的情绪和意图。本实施例中，根据文本特征和语调特征分别得到文本和语调对应的第一匹配结果和第二匹配结果，可以理解的是，结合第一匹配结果和第二匹配结果的不同权重计算出用户的第二情绪状态。

参照图7，所述将所述语调特征与语调数据库预存的信息进行匹配，得到第二匹配结果的步骤包括：

S321，判断所述第一匹配结果与所述文本数据库预存的信息是否匹配；

S322，若是，则根据所述第一匹配结果调出第一语调数据库，将所述第一语调数据库作为语调数据库；

S323，若否，则调出第二语调数据库，将所述第二语调数据库作为语调数据库；

S324，根据所述语调特征和所述语调数据库，得到所述第二匹配结果。

同样的文本特征，语调不同，意思就会不同，有时甚至会相差千里。多数情况下这两个情绪通道会表达一致的情绪信息，但也有例外，比如用不同的方式说“真棒！”，表达的可能是表扬，也可能是讽刺。由于特定的文本特征对应有特定的几种语调特征，但是也有例外。若是将一个文本特征与较大范围的语调数据库进行比较，时间会较长，识别效率低。因此，先判断第一匹配结果与所述文本数据库的是否匹配，由于文本数据库与第一语调数据路一一对应，若是匹配就调出与该文本数据库对应的第一语调数据库，从该第一语调数据库中找到与用户语音信息中的语调特征匹配度最高的语调特征，即得到第二匹配结果。当所述第一匹配结果与所述文本数据库预存的信息不对应时，则调出第二数据库，第二数据库的信息量大于第一语调数据库，从较大的信息量中找到与用户语音信息中的语调特征匹配度最高的语调特征。

参照图8，所述根据所述语调特征和所述语调数据库，得到所述第二匹配结果的步骤包括：

S3241，根据所述语调数据库调出语音情绪状态判断模型；

S3242，将所述第二匹配结果与所述语音情绪状态判断模型进行比对，得到所述用户的第二情绪状态。

在找到与用户语音信息中的语调特征匹配度最高的语调特征后，调出语音情绪状态判断模型，语音情绪状态判断模型中包含有与不同的语调对应的情绪状态，从而根据该语音情绪状态判断模型，识别出与该相似度最高的语调特征对应的第二情绪状态。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

为实现上述目的，本发明还提供一种用户情绪识别装置，所述用户情绪识别装置包括存储器、处理器及可存储在处理器上的用户情绪识别程序，所述处理器执行上述的用户情绪识别方法的步骤。

在识别用户情绪时，在本地进行人脸图像和语音信息的预处理，并获取人脸图像的关键点的位置信息以及语音信息的文本特征和语调特征，再通过网络位置信息、文本特征和语调特征上传到云端数据库，将位置信息与情绪状态判断模型进行比对，得出结果，再将结果反馈给终端，该终端进行预处理，有利于减轻数据传输的压力以及云端数据库的处理压力。

本发明的用户情绪识别装置的具体实施例与上述用户情绪识别方法的实施例基本相同，不再赘述。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用户情绪识别程序，所述用户情绪识别程序被处理器执行上述的用户情绪识别方法的步骤。本发明的计算机可读存储介质的具体实施例与上述的用户情绪识别方法的实施例基本相同，不再赘述。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户情绪识别方法，其特征在于，包括以下步骤：

获取用户的人脸图像和语音信息；

根据人脸图像预设关键点的位置信息确定所述用户的第一情绪状态；

根据所述语音信息确定所述用户的第二情绪状态；

根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态；

其中，所述根据人脸图像预设关键点的位置信息确定所述用户的第一情绪状态的步骤包括：

根据获取的位置信息计算每个区域对应的局部情绪状态；

根据各个局部情绪状态确定所述用户的第一情绪状态；

其中，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态之前，还包括：

获取预先采样情绪状态为积极情绪、消极情绪以及中立情绪对应的人脸图像和语音信息的特征信息，将采样的特征信息输入卷积神经网络以及深层神经网络DNN进行训练，并根据用户的情绪变化进行调整，生成情绪状态判断模型；

或者，所述根据人脸图像预设关键点的位置信息确定所述用户的第一情绪状态的步骤，还包括：

通过人脸检测技术确定所述人脸图像的横向宽度、纵向高度以及深度，根据所述横向宽度、所述纵向高度和所述深度确定所述人脸图像的三维范围，以所述人脸图像的人脸中心为原点，横向为x轴，纵向为y轴，深度方向为z轴建立人脸三维坐标模型；根据所述人脸三维坐标模型确定所述预设关键点对应的坐标值，并根据所述坐标值计算每两个所述关键点之间的距离信息；将所述距离信息与对应预设的距离信息进行比较，根据比较结果确定所述用户的第一情绪状态；

其中，所述根据所述语音信息确定所述用户的第二情绪状态的步骤包括：

对所述语音信息进行分析得到文本特征和语调特征；将所述文本特征与文本数据库预存的信息进行匹配，得到第一匹配结果；判断所述第一匹配结果与所述文本数据库预存的信息是否匹配；若是，则根据所述第一匹配结果调出第一语调数据库，将所述第一语调数据库作为语调数据库；若否，则调出第二语调数据库，将所述第二语调数据库作为语调数据库；根据所述语调特征和所述语调数据库，得到第二匹配结果；结合所述第一匹配结果和所述第二匹配结果，得到所述用户的第二情绪状态；

其中，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态，包括：

当第一情绪状态与所述第二情绪状态不包含消极情绪状态时，通过设置人脸图像对应的第一权值和语音信息对应的第二权值识别最终情绪状态；其中，以人脸图像对应的第一权值为X，人脸图像识别的第一情绪状态值为a，语音信息对应的第二权值为Y，语音信息识别的第一情绪状态值为b，获得结果S＝aX+bY；将所述结果S与所述情绪状态判断模型进行比对，得到用户最终的情绪状态。

2.根据权利要求1所述的用户情绪识别方法，其特征在于，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态的步骤包括：

判断所述第一情绪状态与所述第二情绪状态是否相同；

3.根据权利要求2所述的用户情绪识别方法，其特征在于，所述根据所述第一情绪状态和所述第二情绪状态确定所述用户最终的情绪状态的步骤包括：

4.如权利要求1所述用户情绪识别方法，其特征在于，所述根据所述语调特征和所述语调数据库，得到所述第二匹配结果的步骤包括：

根据所述语调数据库调出语音情绪状态判断模型；

5.一种用户情绪识别装置，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的用户情绪识别程序，所述处理器执行所述用户情绪识别程序时实现权利要求1-4任一所述的用户情绪识别方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用户情绪识别程序，所述用户情绪识别程序被处理器执行如权利要求1至4中任一项所述的用户情绪识别方法的步骤。