CN112541425A

CN112541425A - 情绪检测方法、装置、介质及电子设备

Info

Publication number: CN112541425A
Application number: CN202011435243.XA
Authority: CN
Inventors: 张致恺; 杨聪; 张运辉
Original assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Current assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-23
Anticipated expiration: 2040-12-10
Also published as: CN112541425B

Abstract

公开了一种情绪检测方法、装置、介质及设备，其中的方法包括：从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的脸部区域的图像块序列；确定所述图像块序列对应的脸部特征向量；根据所述脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度；根据所述多个置信度，确定所述多个视频帧中的目标对象的情绪。本公开有利于提高情绪检测的易用性，而且通过针对检测出目标对象的情绪，采取听觉调节、嗅觉调节以及视觉调节等措施，有利于提高移动设备的行驶安全。

Description

情绪检测方法、装置、介质及电子设备

技术领域

本公开涉及计算机视觉技术，尤其是涉及一种情绪检测方法、情绪检测装置、存储介质以及电子设备。

背景技术

在驾驶领域中，由于移动设备的驾驶员以及乘客等人员的某些情绪，会对移动设备的安全行驶产生影响，因此，对驾驶员以及乘客等人员进行情绪检测，并根据检测获得的情绪，及时采取相应的措施，以尽可能平复相关人员的情绪，从而降低情绪对移动设备的安全行驶的影响，是非常必要。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种情绪检测方法、装置、存储介质以及电子设备。

根据本公开实施例的一个方面，提供了一种情绪检测方法，包括：从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的图像块序列；确定所述图像块序列对应的脸部特征向量；根据所述脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度；根据所述多个置信度，确定所述多个视频帧中的目标对象的情绪。

根据本公开实施例的另一个方面，提供了一种情绪检测装置，包括：获取图像块模块，用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的图像块序列；获取特征向量模块，用于确定所述获取图像块模块获得的图像块序列对应的脸部特征向量；获取置信度模块，用于根据所述获取特征向量模块获得的脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度；确定情绪模块，用于根据所述获取置信度模块获得的多个置信度，确定所述多个视频帧中的目标对象的情绪。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于实现上述方法。

根据本公开实施例的再一个方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述方法。

基于本公开上述实施例提供的一种情绪检测方法和装置，通过从设置于移动设备中的摄像装置采集的视频帧中，提取位于移动设备内的驾驶员或者乘客等目标对象的脸部区域的图像块序列，并从图像块序列中获得脸部特征向量，由于目标对象的情绪变化往往会通过脸部呈现，因此，本公开获得的脸部特征向量可以展现出目标对象的情绪特征，从而本公开利用脸部特征向量可以获得目标对象的情绪分别属于多个预设情绪类别的置信度，由于该置信度可以反映出多个视频帧中的目标对象的情绪倾向，因此，本公开可以在不采用温度传感器以及心跳传感器等专用设备的情况下，基于包含有目标对象的脸部区域的图像块序列，及时准确的确定出视频中的目标对象的情绪。由此可知，本公开提供的技术方案有利于提高情绪检测的易用性以及准确性，而且通过针对检测出目标对象的情绪，采取听觉调节、嗅觉调节以及视觉调节等措施，有利于提高移动设备的行驶安全。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开的车辆中的DMS结构一个实施例的示意图；

图2为本公开的情绪检测方法一个实施例的流程图；

图3为本公开的利用图像块的脸部特征向量实现情绪检测一实施例的流程图；

图4为本公开的确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度一实施例的流程图；

图5为本公开的确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度一更具体实施例的流程图；

图6为本公开的确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度另一更具体实施例的流程图；

图7为本公开的确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度的另一实施例的示意图；

图8为本公开的情绪检测装置一个实施例的结构示意图；

图9是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，目前，通常是采用传感器等专用设备来检测目标对象的情绪的。例如，通过设置温度传感器以及心跳传感器等专用设备来检测目标对象的情绪。

在实际应用中，设置传感器等专用设备，不仅可能会带来成本上升问题，还会给情绪检测的易用性带来困扰，例如，心跳传感器通常需要与目标对象的身体相接触，心跳传感器不仅可能会给目标对象带来不便，而且，如果目标对象忘记佩带心跳传感器，则无法对目标对象进行情绪检测。

出于疲劳检测以及行车记录等因素，在车辆等移动设备中安装摄像装置已经较为普遍。如果能够利用移动设备中安装的摄像装置采集获得的视频帧，实现目标对象的情绪检测，则有利于在不增加额外设备的情况下，便捷的实现目标对象的情绪检测。

示例性概述

本公开的情绪检测的技术方案可以适用于多种场景中。例如，本公开提供的情绪检测的技术方案可以适用于DMS(Driver Monitor System，驾驶员监控系统)应用中。一个例子如图1所示。

下面结合图1，对本公开的情绪检测技术的应用进行说明。

图1中，一车辆中配置有至少一摄像装置100以及DMS101，摄像装置100采集获得的视频帧，可以实时地提供给DMS101。在驾驶员处于该车辆的驾驶位置时，驾驶员的脸部应位于摄像装置100的视场范围内，即摄像装置100采集获得的视频通常包括驾驶员的脸部(如正脸等)。

DMS101至少包含有接收模块1011、情绪检测装置1012以及情绪调控模块1013。接收模块1011在接收到摄像装置100实时传输来的视频帧后，触发情绪检测装置1012对其接收到的视频帧进行情绪检测处理。情绪检测装置1012确定每一时间窗口(如2秒等)中的多个视频帧中的目标对象的情绪。如果情绪检测装置1012确定出的目标对象的情绪为不利于车辆安全行驶的情绪时，则情绪调控模块1013可以通过实施听觉调节、嗅觉调节以及视觉调节等措施，使目标对象的情绪得到缓解，从而保证车辆的安全行驶。

其中的不利于车辆安全行驶的情绪可以为悲伤或者生气等消极情绪。其中的听觉调节措施可以包括开启音乐播放功能以及开启安慰语音播放功能等。其中的嗅觉调节措施可以包括散发预定香氛气味功能等。其中的视觉调节措施可以包括开启笑脸视频播放功能以及开启灯光闪烁功能等。

另外，本公开提供的情绪检测的技术方案还可以适用于IMS(In-cabinMonitoring System，客舱监测系统)应用中。例如，本公开可以利用车辆中的IMS检测车辆的副驾驶位置处或者车辆后排位置处的人员的情绪，从而有利于尽可能的避免副驾驶位置处的人员或者车辆后排位置处的人员的消极情绪对驾驶员的影响。本公开提供的技术方案适用于IMS应用中的具体实现过程，与上述适用于DMS应用中的具体实现过程基本相同，在此不再详细说明。

示例性方法

图2为本公开的情绪检测方法一个实施例的流程图。如图2所示的方法包括步骤：S200、S201、S202以及S203。下面对各步骤分别进行说明。

S200、从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的脸部区域的图像块序列。

本公开中的移动设备可以是指能够载人的交通工具，例如，私人汽车以及公共交通工具等。本公开中的目标对象通常是指移动设备的驾驶员，当然，目标对象也可以是移动设备中的其他人，如位于副驾驶位置处的人员以及公共交通工具中的乘客等。

在目标对象为移动设备的驾驶员的情况下，本公开中的摄像装置可以安装在移动设备的转向柱或者驾驶员所在侧的A柱等位置处。摄像装置的安装位置应确保位于驾驶位置处的驾驶员的面部(如正脸)位于摄像装置的视场范围内。在目标对象为移动设备中的乘客的情况下，摄像装置的安装位置可以根据实际需求设置，例如，摄像装置可以安装在移动设备的副驾驶所在侧的A柱等位置处，以保证位于副驾驶位置处的乘客的面部(如正脸)位于摄像装置的视场范围内。再例如，摄像装置可以安装在移动设备的B柱或者前排座椅背面等位置处，以保证位于后排的乘客的面部(如正脸)位于摄像装置的视场范围内。另外，移动设备中可以安装多个摄像装置，以实现对驾驶员以及至少一乘客进行实时拍摄，从而可以基于各摄像装置采集获得的视频帧实现对驾驶员以及至少一乘客的情绪检测。

本公开中的摄像装置可以是基于RGB(Red Green Blue，红绿蓝)的摄像装置或者基于IR(Infrared Radiation，红外线)的摄像装置等。另外，该摄像装置可以是单目摄像装置或双目摄像装置等。

本公开中的多个视频帧可以是一个预定时间窗口(如n秒，n为正数)中的所有视频帧；也可以是从一个预定时间窗口中的所有视频帧中挑选出来的多个视频帧；例如，从一个预定时间窗口中的所有视频帧中挑选出的包含有目标对象的面部的多个视频帧。

本公开可以通过对多个视频帧分别进行图像识别等处理，获得各视频帧中的包含有目标对象的脸部区域的图像块，从而获得图像块序列。这里的脸部区域通常是指包含有脸部的至少一器官的区域。在一个例子中，本公开的图像块可以为包含有眉毛、眼睛、鼻子、嘴巴以及耳朵等面部器官的图像块。

S201、确定图像块序列对应的脸部特征向量。

本公开可以利用神经网络处理单元等方式，对图像块序列进行特征提取操作，从而获得图像块序列对应的脸部特征向量，该脸部特征向量可以是指由用于描述脸部特征的多个向量元素所形成的一维数组。本公开中的神经网络处理单元可以为用于执行神经网络所包含的算法的CPU(Central Processing Unit，中央处理单元)、GPU(GraphicsProcessing Unit，图像处理单元)、BPU(BrainProcessingUnit，脑处理单元)等数据处理单元。本公开中的图像块序列对应的脸部特征向量可以包括：图像块序列中的各图像块各自的脸部特征向量。

在一个例子中，本公开可以将图像块序列中的每一图像块分别作为输入，先后提供给用于提取特征的神经网络处理单元，从而先后获得每一图像块的脸部特征向量，所有图像块的脸部特征向量即图像块序列对应的脸部特征向量。这里的用于提取特征的神经网络可以为卷积神经网络等。

S202、根据脸部特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度。

本公开的预设情绪类别可以包括但不限于：高兴(happy)、悲伤(sad)、生气(angry)、厌恶(disgust)、惊讶(surprise)、害怕(fear)以及中性(neutral)中的至少一个。

本公开中的目标对象的情绪属于一预设情绪类别的置信度可以是指目标对象的情绪属于一预设情绪类别的可能性。步骤S202最终获得的多个置信度的数量通常与多个预设情绪类别的数量相关，例如，步骤S202最终获得的多个置信度的数量通常与多个预设情绪类别的数量相同。即如果多个预设情绪类别的数量为n(n为大于1的整数)，则步骤S202最终获得n个置信度。

在一个例子中，对于图像块序列中的任一脸部区域的图像块而言，本公开可以对该图像块的脸部特征向量进行情绪识别处理，从而获得该图像块对应的视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，即获得一组置信度(如一组置信度包括n个置信度)，从而本公开可以获得图像块序列所包含的m(m为大于1的整数)个图像块各自对应的一组置信度，即获得m组置信度(如n×m个置信度)之后，本公开可以根据图像块序列中的各图像块各自对应的一组置信度，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，即最终获得多个置信度(如n个置信度)。

S203、根据多个置信度，确定多个视频帧中的目标对象的情绪。

本公开最终确定出的多个视频帧中的目标对象的情绪通常为预设情绪类别中的一个类别。本公开可以利用预先针对置信度设置的条件，对多个置信度分别进行置信度是否满足条件的判断，并根据判断结果，将满足条件的置信度所对应的预设情绪类别，作为多个视频帧中的目标对象的情绪。

本公开通过从设置于移动设备中的摄像装置采集的视频帧中，提取位于移动设备内的驾驶员或者乘客等目标对象的脸部区域的图像块序列，并从图像块序列中获得脸部特征向量，由于目标对象的情绪变化往往会通过脸部呈现，因此，本公开获得的脸部特征向量可以展现出目标对象的情绪特征，从而本公开利用脸部特征向量可以获得目标对象的情绪分别属于多个预设情绪类别的置信度，由于该置信度可以反映出多个视频帧中的目标对象的情绪倾向，因此，本公开可以在不采用温度传感器以及心跳传感器等专用设备的情况下，基于包含有目标对象的脸部区域的图像块序列，准确的确定出视频中的目标对象的情绪。由此可知，本公开提供的技术方案有利于提高情绪检测的易用性以及准确性，通过针对检测出目标对象的情绪，采取听觉调节、嗅觉调节以及视觉调节等措施，有利于提高移动设备的行驶安全。

在一个可选示例中，本公开可以对多个视频帧分别进行人脸识别处理，获得多个视频帧中的目标对象的人脸标识，并将从多个视频帧中获得的具有相同人脸标识的脸部区域的图像块，作为一个图像块序列。本公开可以利用用于人脸识别的神经网络处理单元，对多个视频帧分别进行人脸识别处理，从而可以根据该神经网络处理单元输出的信息，获得每一个视频帧中的至少一目标对象的人脸标识。该用于人脸识别的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。

本公开通过基于人脸识别方式获得图像块序列，可以实现对视频帧中的多个目标对象中的一个特定目标对象进行情绪检测，也可以实现对视频帧中的多个目标对象分别进行情绪检测。

在一个可选示例中，本公开可以采用串行脸部区域检测方式，获得图像块序列。例如，本公开中的各视频帧均具有各自的采集时间(即设置于移动设备中的摄像装置采集并生成视频帧的时间)，本公开可以根据各视频帧的采集时间的先后顺序，对各视频帧顺序进行脸部区域检测，从而先后获得从各视频帧中提取出的包含有目标对象的脸部区域的图像块，进而获得一图像块序列。一个更具体的例子，本公开可以将设置于移动设备中的摄像装置实时采集的视频帧，分别作为输入，顺序通过移动设备来执行用于脸部检测的模型的运算，并根据该模型的计算结果，顺序获得各视频帧的脸部检测结果，即获得各视频帧中的目标对象的脸部区域，本公开可以对各视频帧中的脸部区域进行扩展处理，例如，脸部区域的长和宽各扩展n1(n1为大于1的整数，如n1为10等偶数)个像素，获得各视频中的脸部扩展区域，从而可以从各视频帧中剪切出脸部扩展区域，从而获得由多个脸部扩展图像块形成的图像块序列。

由于摄像装置实时采集的视频帧可以形成基于时间的视频流，因此，本公开通过采用串行检测，有利于实时的获得图像块，从而有利于及时的获得图像块序列，进而有利于提高情绪检测的实时性。

在一个可选示例中，本公开可以采用并行脸部区域检测方式，获得图像块序列。例如，本公开可以一次性同时获得多个视频帧，本公开可以对获得的各视频帧同时进行脸部区域检测，从而并行的获得从各视频帧中提取出的包含有目标对象的脸部区域的图像块，进而获得图像块序列。一个更为具体的例子，本公开在接收到设置于移动设备中的摄像装置传输来的一视频帧包时，可以将该视频帧包中的多个视频帧分别作为输入，通过移动设备并行执行多个用于脸部检测的模型的运算，并根据每一个用于脸部检测的模型的计算结果，获得各视频帧的脸部检测结果，例如，同时获得各视频帧中的目标对象的脸部区域，本公开可以对各视频帧中的脸部区域同时进行扩展处理，例如，脸部区域的长和宽各扩展n1个像素，获得各视频中的脸部扩展区域，从而本公开可以从各视频帧中同时剪切出脸部扩展区域，从而获得由多个脸部扩展图像块形成的图像块序列。

由于摄像装置实时采集的视频帧可以通过视频帧包的方式输出，因此，本公开通过采用并行检测，有利于在减少延迟的情况下，及时获得图像块序列，从而有利于提高情绪检测的实时性。

在一个可选示例中，本公开利用图像块的脸部特征向量实现情绪检测的一个例子，如图3所示。

图3中，S300、对图像块序列中的各图像块分别进行脸部特征提取处理，获得各图像块的脸部特征向量。

可选的，本公开可以将图像块序列中的每一图像块分别作为输入，提供(如同时提供或者先后提供)给用于提取特征的神经网络处理单元，并根据该用于提取特征的神经网络处理单元的输出，获得每一图像块的脸部特征向量。本公开中的用于提取特征的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。

S301、根据各图像块的脸部特征向量，获得各图像块各自对应的多个置信度。

可选的，本公开可以将每一图像块的脸部特征向量分别作为输入，先后提供给用于情绪分类的神经网络处理单元，根据该用于情绪分类的神经网络处理单元的输出，获得每一图像块各自对应多个置信度。例如，预设情绪类别包括上述步骤S202中列举的7种，本公开可以利用用于情绪分类的神经网络处理单元，获得每一个图像块各自对应的7个置信度，且一图像块对应的7个置信度为一组置信度。需要说明的是，用于提取特征的神经网络处理单元与用于情绪分类的神经网络处理单元可以由同一个神经网络处理单元实现，如由同一BPU实现或者同一GPU实现。同理，本公开实施例所涉及到的用于执行不同操作的神经网络处理单元可以由同一个神经网络处理单元实现，下述不再一一说明。

S302、根据各图像块各自对应的多个置信度，确定多个视频帧中的目标对象的情绪。

可选的，本公开可以对各图像块各自对应的多个置信度进行计算处理，从而获得图像块序列对应的置信度。图像块序列对应的置信度即多个视频帧对应的置信度。本公开可以根据图像块序列对应的置信度，确定多个视频帧中的目标对象的情绪，多个视频帧中的目标对象的情绪即图像块序列中的目标对象的情绪。

可选的，上述对多个置信度的计算处理可以是置信度均值处理。具体的，针对任一预设情绪类型而言，计算各图像块各自对应的多个置信度中的所有该预设情绪类型的置信度的均值，从而获得该预设情绪类型的置信度均值，该置信度均值表示多个视频帧中的目标对象的情绪属于该预设情绪类型的概率。在针对每一种预设情绪类型分别进行置信度均值计算后，本公开可以从所有置信度均值中选取数值最高的置信度均值，并判断该数值最高的置信度均值与预设阈值(如0.75或者0.7等)的大小关系是否满足预定条件(如判断数值最高的置信度均值是否达到预设阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的情绪为该数值最高的置信度均值所对应的预设情绪类型；如果不满足预定条件，则本次未成功识别出多个视频帧中的目标对象的情绪。

可选的，上述对多个置信度的计算处理可以是置信度加权处理。具体的，针对任一预设情绪类型而言，根据每一视频帧各自对应的权值，计算各图像块各自对应的多个置信度中的所有该预设情绪类型的置信度的加权平均值，从而获得该预设情绪类型的置信度加权平均值，该置信度加权平均值表示多个视频帧中的目标对象的情绪属于该预设情绪类型的概率。在针对每一种预设情绪类型分别进行置信度加权平均值计算后，本公开可以从所有置信度加权平均值中选取数值最高的置信度加权平均值，并判断该数值最高的置信度加权平均值与预设阈值的大小关系是否满足预定条件(如判断数值最高的置信度加权平均值是否达到预设阈值等)，如果满足预定条件，则确定多个视频帧中的目标对象的情绪为该数值最高的置信度加权平均值所对应的预设情绪类型；如果不满足预定条件，则本次未成功识别出多个视频帧中的目标对象的情绪。

可选的，各视频帧各自对应的权值可以根据各视频帧的采集时间设置，一个例子，采集时间在先的视频帧对应的权值不小于采集时间在后的视频帧对应的权值。由于人的情绪往往是在开始阶段表现的较为强烈，且在后续阶段强烈情绪表现会逐渐减弱，因此，本公开通过根据各视频帧的采集时间设置各视频帧各自对应的权值，实际上是基于表情随时间的衰减来设置各视频帧各自对应的权值，从而有利于提高本公开最终确定出的多个视频帧对应的置信度的准确性。

可选的，在设置各视频帧各自对应的权值时，也可以考虑视频帧的图像清晰程度、以及视频帧中的目标对象的人脸偏转程度等因素，从而有利于避免清晰度不佳的视频帧或者大角度偏转的面部对最终确定出的多个视频帧对应的置信度的准确性的影响。

本公开通过利用多个图像块各自对应的多个置信度，确定多个视频帧中的目标对象的情绪，可以实现对多个视频帧中的目标对象的情绪的平滑处理，从而不仅有利于避免利用单个视频帧确定目标对象的情绪的不准确现象，而且，还能避免情绪跳变现象，进而有利于提高目标对象的情绪的准确性。

在一个可选示例中，本公开不仅可以利用图像块序列对应的脸部特征向量来确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度(如上述图3所示的流程)，还可以利用图像块序列对应的脸部特征向量和辅助特征向量一起，来确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。一个具体的例子，如图4所示。

图4中，S400、根据图像块序列，获取图像块序列对应的目标对象的辅助特征向量。

可选的，本公开中的辅助特征向量可以是指与脸部特征向量结合起来，能够更准确的反映目标对象的情绪的特征向量。也就是说，虽然单独利用辅助特征向量往往无法准确的确定出目标对象的情绪，但是，利用辅助特征向量来协助脸部特征向量，往往可以更准确的确定出目标对象的情绪。在一个例子中，辅助特征向量反映可以包括：关键点特征向量、头部姿态特征向量、以及人口统计学属性特征向量等中的至少一个。

可选的，本公开中的关键点特征向量可以是指从关键点信息中提取出的特征向量，其中的关键点信息可以是指从图像块中提取出的关键点信息。本公开中的关键点特征向量可以为：脸部关键点特征向量，本公开中的关键点特征向量也可以为至少一器官关键点特征向量。本公开中的关键点特征向量还可以为：脸部关键点特征向量和至少一器官关键点特征向量。

可选的，本公开可以根据图像块序列，获取各图像块中的目标对象的脸部关键点，从而获得多组脸部关键点，之后，本公开可以获取各组脸部关键点各自对应的关键点特征向量。

在一个例子中，本公开可以利用用于关键点识别的神经网络处理单元，来获取图像块序列中的每一图像块中的目标对象的脸部关键点，且从一图像块中获得的目标对象的脸部关键点可以认为是一组脸部关键点，之后，本公开可以利用用于提取关键点特征的神经网络处理单元，来获取各组脸部关键点各自对应的关键点特征向量。

一个更具体的例子，本公开可以将每一图像块分别作为输入信息，先后提供给用于关键点识别的神经网络处理单元，经由该神经网络处理单元执行脸部关键点识别处理，本公开可以根据该神经网络处理单元的输出信息，先后获得每一图像块中的目标对象的脸部关键点。本公开也可以将每一图像块分别作为输入信息，同时提供给多个用于关键点识别的神经网络处理单元，经由每一个神经网络处理单元分别针对一图像执行脸部关键点识别处理，本公开可以根据各神经网络处理单元的输出信息，同时获得每一图像块中的目标对象的脸部关键点。这里的脸部关键点可以包括：脸部关键点的标号以及脸部关键点在图像块中的坐标信息等。本公开可以对脸部关键点进行标准化处理(如归一化处理)，使脸部关键点在图像块中的坐标信息的取值属于预定范围，如属于-1至1之间。该标准化处理也可以认为是坐标系转换处理，即初始坐标系为图像块的二维坐标系，目标坐标系为以目标对象的脸部中心点为原点，以-1和1为最大坐标值的二维坐标系。之后，本公开可以将各组标准化处理后的脸部关键点分别作为输入，先后提供给一用于提取脸部关键点特征的神经网络处理单元，并根据该神经网络处理单元的输出，先后获得各组脸部关键点各自对应的关键点特征向量。当然，本公开也可以将各组标准化处理后的脸部关键点分别作为输入，同时提供给多个用于提取脸部关键点特征的神经网络处理单元，经由每一个神经网络处理单元分别针对一组标准化处理后的脸部关键点执行特征向量提取处理，本公开可以根据各神经网络处理单元的输出，同时获得各组脸部关键点各自对应的关键点特征向量。本公开中的用于关键点识别的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。本公开中的用于提取脸部关键点特征的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。

在另一个例子中，本公开可以利用用于关键点识别的神经网络处理单元，来获取图像块序列中的每一图像块中的目标对象的脸部关键点，从一图像块中获得的目标对象的脸部关键点可以认为是一组脸部关键点，之后，本公开可以从每一组脸部关键点中获得获取位于脸部的至少一器官的关键点，从而可以获得多组器官关键点，之后，本公开可以利用用于提取器官关键点特征的神经网络处理单元，来获取各组器官关键点各自对应的器官关键点特征向量。

一个更具体的例子，本公开可以将每一图像块分别作为输入信息，先后提供给用于关键点识别的神经网络处理单元，经由该神经网络处理单元执行脸部关键点识别处理，本公开可以根据该神经网络处理单元的输出信息，先后获得每一图像块中的目标对象的脸部关键点。本公开也可以将每一图像块分别作为输入信息，同时提供给多个用于关键点识别的神经网络处理单元，经由每一个神经网络处理单元分别针对一图像执行脸部关键点识别处理，本公开可以根据各神经网络处理单元的输出信息，同时获得每一图像块中的目标对象的脸部关键点。这里的脸部关键点可以包括：脸部关键点的标号以及脸部关键点在图像块中的坐标信息等。本公开可以对脸部关键点进行标准化处理(如归一化处理)，使脸部关键点在图像块中的坐标信息的取值属于预定范围，如属于-1至1之间。该标准化处理也可以认为是坐标系转换处理，即初始坐标系为图像块的二维坐标系，目标坐标系为以目标对象的脸部中心点为原点，以-1和1为最大坐标值的二维坐标系。之后，本公开可以根据脸部关键点的标号，从每一组脸部关键点中识别出眼睛、鼻子、嘴巴以及耳朵等器官的器官关键点，本公开可以从每一组脸部关键点中选取出n2(n2为大于0的整数)个器官的器官关键点，且从一组脸部关键点中选取出的任一器官的器官关键点被作为一组器官关键点，一组器官关键点通常包括多个器官关键点。在一个例子中，本公开从一组脸部关键点中分别选取出眼睛关键点、嘴巴关键点以及鼻子关键点，从而获得三组器官关键点。再后，本公开可以将各组器官关键点分别作为输入，先后提供给一用于提取器官关键点特征的神经网络处理单元，经由该神经网络处理单元执行特征向量提取处理，并根据该神经网络处理单元的输出信息，获得各组器官关键点各自对应的器官关键点特征向量。本公开也可以将各组器官关键点分别作为输入，同时提供给多个用于提取器官关键点特征的神经网络处理单元，经由各神经网络处理单元执行特征向量提取处理，并根据各神经网络处理单元的输出信息，同时获得各组器官关键点各自对应的器官关键点特征向量。本公开中的用于关键点识别的神经网络可以为至少包含有卷积层、池化层及全连接层等的卷积神经网络。本公开中的用于提取器官关键点特征的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。

另一个更具体的例子，本公开可以将每一图像块分别作为输入信息，先后提供给用于关键点识别的神经网络处理单元，经由该神经网络处理单元执行脸部关键点识别处理，本公开可以根据该神经网络处理单元的输出信息，先后获得每一图像块中的目标对象的脸部关键点。本公开也可以将每一图像块分别作为输入信息，同时提供给多个用于关键点识别的神经网络处理单元，经由神经网络处理单元分别针对一图像执行脸部关键点识别处理，本公开可以根据各神经网络处理单元的输出信息，同时获得每一图像块中的目标对象的脸部关键点。这里的脸部关键点可以包括：脸部关键点的标号以及脸部关键点在图像块中的坐标信息等。本公开可以根据脸部关键点的标号，从每一组脸部关键点中识别出眼睛、嘴巴以及耳朵等器官的器官关键点，本公开可以从每一组脸部关键点中选取出n2(n2为大于0的整数)个器官的器官关键点，且从一组脸部关键点中选取出的任一器官的器官关键点被作为一组器官关键点，一组器官关键点通常包括多个器官关键点。在一个例子中，本公开从一组脸部关键点中分别选取出眼睛关键点、嘴巴关键点和鼻子关键点，从而获得三组器官关键点。本公开可以对每一组器官关键点分别进行标准化处理。该标准化处理也可以认为是坐标系转换处理，即初始坐标系为图像块的二维坐标系，目标坐标系为以目标对象的器官中心点为原点，以-1和1为最大坐标值的二维坐标系。之后，本公开可以将各组标准化处理后的器官关键点分别作为输入，先后提供给一用于提取器官关键点特征的神经网络处理单元，经由该神经网络处理单元执行特征向量提取处理，并根据该神经网络处理单元的输出信息，获得各组器官关键点各自对应的器官关键点特征向量。本公开也可以将各组标准化处理后的器官关键点分别作为输入，同时提供给多个用于提取器官关键点特征的神经网络处理单元，经由神经网络处理单元分别执行特征向量提取处理，并根据神经网络处理单元的输出信息，同时获得各组标准化处理后的器官关键点各自对应的器官关键点特征向量。本公开中的用于关键点识别的神经网络可以为至少包含有卷积层、池化层及全连接层等的卷积神经网络。本公开中的用于提取器官关键点特征的神经网络可以为至少包含有卷积层、池化层以及全连接层等的卷积神经网络。

可选的，本公开中的头部姿态特征向量可以是指通过对头部姿态信息进行编码获得的特征向量。头部姿态特征向量的长度(即头部姿态特征向量所包含的向量元素的数量)可以与脸部特征向量的长度相同，也可以与脸部特征向量的长度不相同。其中的头部姿态信息可以包括：Yaw(围绕Y轴旋转的偏航角)、Roll(围绕Z轴旋转的翻滚角)以及Pitch(围绕X轴旋转的俯仰角)等。

可选的，对于图像块序列中的任一图像块而言，本公开可以利用用于提取头部姿态信息的神经网络处理单元，来获取该图像块中的目标对象的头部姿态信息，本公开从一图像块中获得的目标对象的头部姿态信息可以认为是一组头部姿态信息，本公开可以获得每一图像块各自对应的一组头部姿态信息，从而获得多组头部姿态信息。之后，本公开可以利用用于提取头部姿态特征的神经网络处理单元(如编码器等)来获取各组头部姿态信息各自对应的头部姿态特征向量。例如，本公开可以直接将各组头部姿态信息分别作为输入，先后提供给一用于提取头部姿态特征的神经网络处理单元，并根据该神经网络处理单元的输出，先后获得各组头部姿态信息各自对应的头部姿态特征向量。再例如，本公开可以直接将各组头部姿态信息分别作为输入，同时提供给多个用于提取头部姿态特征的神经网络处理单元，并根据各神经网络处理单元的输出，同时获得各组头部姿态信息各自对应的头部姿态特征向量。再例如，本公开可以先对各组头部姿态信息分别进行归一化处理，使各组头部姿态信息中的各元素的取值均属于-1和1之间，然后，本公开再将归一化处理后的各组头部姿态信息分别作为输入，先后提供给一用于提取头部姿态特征的神经网络处理单元，并根据该神经网络处理单元的输出，先后获得各组头部姿态信息各自对应的头部姿态特征向量。再例如，本公开可以先对各组头部姿态信息分别进行归一化处理，使各组头部姿态信息中的各元素的取值均属于-1和1之间，然后，本公开再将归一化处理后的各组头部姿态信息分别作为输入，同时提供给多个用于提取头部姿态特征的神经网络处理单元，并根据各神经网络处理单元的输出，同时获得各组头部姿态信息各自对应的头部姿态特征向量。

可选的，本公开中的人口统计学属性特征向量可以是指通过对人口统计学属性信息进行编码获得的特征向量。人口统计学属性特征向量的长度(即人口统计学属性特征向量所包含的向量元素的数量)可以与脸部特征向量的长度相同，也可以与脸部特征向量的长度不相同。本公开中的人口统计学属性特征向量可以包括：性别特征向量以及年龄特征向量等中的至少一个。也就是说，本公开的人口统计学属性信息可以包括：性别以及年龄中的至少一个。对于图像块序列中的任一图像块而言，本公开可以利用用于提取人口统计学属性的神经网络处理单元，来获取该图像块中的目标对象的人口统计学属性信息，本公开从一图像块中获得的目标对象的人口统计学属性信息可以认为是一组人口统计学属性信息，本公开可以获得每一图像块各自对应的一组人口统计学属性信息，从而获得多组人口统计学属性信息。之后，本公开可以利用用于提取人口统计学属性特征的神经网络处理单元(如编码器等)来获取各组人口统计学属性信息各自对应的人口统计学属性特征向量。例如，本公开可以直接将各组人口统计学属性信息分别作为输入，先后提供给一用于提取人口统计学属性特征的神经网络处理单元，并根据该神经网络处理单元的输出，先后获得各组人口统计学属性信息各自对应的人口统计学属性特征向量。再例如，本公开可以直接将各组人口统计学属性信息分别作为输入，同时提供给多个用于提取人口统计学属性特征的神经网络处理单元，并根据各神经网络处理单元的输出，同时获得各组人口统计学属性信息各自对应的人口统计学属性特征向量。再例如，本公开可以先对各组人口统计学属性信息分别进行归一化处理，使各组人口统计学属性信息中的各元素的取值均属于-1和1之间，然后，本公开再将归一化处理后的各组人口统计学属性信息分别作为输入，先后提供给一用于提取人口统计学属性特征的神经网络处理单元，并根据该神经网络处理单元的输出，获得各组人口统计学属性信息各自对应的人口统计学属性特征向量。再例如，本公开可以先对各组人口统计学属性信息分别进行归一化处理，使各组人口统计学属性信息中的各元素的取值均属于-1和1之间，然后，本公开再将归一化处理后的各组人口统计学属性信息分别作为输入，同时提供给多个用于提取人口统计学属性特征的神经网络处理单元，并根据各神经网络处理单元的输出，同时获得各组人口统计学属性信息各自对应的人口统计学属性特征向量。

S401、根据脸部特征向量和辅助特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度。

可选的，本公开可以将各图像块的脸部特征向量和辅助特征向量一起作为输入，提供给用于情绪分类的神经网络处理单元，本公开可以根据该用于情绪分类的神经网络处理单元的输出，获得每一个图像块各自对应多个置信度。例如，预设情绪类别包括7种，本公开可以利用用于情绪分类的神经网络处理单元对每一个图像块分别执行神经网络运算，获得每一个图像块各自对应的7个置信度。

可选的，本公开可以对各图像块各自对应的多个置信度进行计算处理，从而获得图像块序列对应的多个置信度，例如，最终获得7个置信度。本公开可以利用均值计算或者权值计算等处理方式，获得图像块序列对应的多个置信度，具体可以参见上述实施例中针对S302的描述，在此不再重复说明。

由于本公开的辅助特征向量与目标对象的情绪存在关联，因此，本公开通过将辅助特征向量和脸部特征向量结合起来，确定目标对象的情绪分别属于多个预设情绪类别的置信度，有利于提高最终取得的置信度的准确性，从而有利于提高情绪检测的准确性。

由于人的情绪往往可以通过眼睛、嘴巴以及鼻子等器官的形状表现出来，因此，目标对象的位于面部的同一器官的不同脸部关键点之间的位置关系通常与情绪具有一定的关系，从而本公开从关键点信息中提取出的关键点特征向量(如脸部关键点特征向量和/或至少一器官关键点特征向量)，可以辅助性的反应目标对象的情绪。由此可知，本公开在利用脸部特征向量获得目标对象的情绪分别属于多个预设情绪类别的置信度的过程中，通过加入从关键点信息中提取出的关键点特征向量，有助于更准确的确定出目标对象的情绪分别属于多个预设情绪类别的置信度，从而有助于提高情绪检测的准确性。

由于人的情绪往往会与头部姿态存在一定的关系，因此，本公开通过对头部姿态信息进行特征提取处理而获得的头部姿态特征向量，可以辅助性的反应目标对象的情绪。由此可知，本公开在利用脸部特征向量获得目标对象的情绪分别属于多个预设情绪类别的置信度的过程中，通过加入头部姿态特征向量，有助于更准确的确定出目标对象的情绪分别属于多个预设情绪类别的置信度，从而有助于提高情绪检测的准确性。

对于同一情绪而言，由于人的性别以及年龄等人口统计学属性的不同，会导致该情绪的表现方式有所差别，因此，本公开通过对人口统计学属性信息进行特征提取处理而获得的人口统计学属性特征向量，可以辅助性的反应目标对象的情绪。由此可知，本公开在利用脸部特征向量获得目标对象的情绪分别属于多个预设情绪类别的置信度的过程中，通过加入人口统计学属性特征向量，有助于更准确的确定出目标对象的情绪分别属于多个预设情绪类别的置信度，从而有助于提高情绪检测的准确性。

在一个可选示例中，本公开根据脸部特征向量和辅助特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度的一个例子，如图5所示。

图5中，S500、对脸部特征向量和辅助特征向量进行融合处理，获得多个视频帧各自对应的融合特征向量。

可选的，本公开中的对脸部特征向量和辅助特征向量进行融合处理可以是指使脸部特征向量和辅助特征向量形成一个特征向量的处理。例如，融合处理可以为特征向量拼接处理，也可以为特征向量相加处理等。

可选的，在脸部特征向量所包含的向量元素的数量与辅助特征向量所包含向量元素的数量相同的情况下，本公开可以对脸部特征向量和辅助特征向量进行拼接处理或者相加处理，且拼接处理或者相加处理的结果即为融合特征向量。

可选的，在脸部特征向量所包含的向量元素的数量与辅助特征向量所包含向量元素的数量不相同的情况下，本公开可以对脸部特征向量和辅助特征向量进行拼接处理，且拼接处理的结果即为融合特征向量。

在第一个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量和脸部关键点特征向量进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

在第二个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量和至少一器官关键点特征向量(如眼睛关键点特征向量、鼻子关键点特征向量和嘴巴关键点特征向量中的至少一个)进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

在第三个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量和头部姿态特征向量进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

在第四个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量和人口统计学属性特征向量进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

在第五个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量与至少一器官关键点特征向量、头部姿态特征向量和人口统计学属性特征向量中的任意两个进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

在第六个具体例子中，本公开可以将图像块序列中的每一个图像块的脸部特征向量、至少一器官关键点特征向量、头部姿态特征向量、以及人口统计学属性特征向量进行融合处理，获得各图像块的融合特征向量，即各视频帧各自对应的融合特征向量。

S501、对于多个视频帧中的任一视频帧，对该视频帧对应的融合特征向量进行情绪类别分类处理，获得该视频帧中的目标对象的情绪分别属于多个预设情绪类别的一组置信度。

可选的，本公开可以将各视频帧各自对应的融合特征向量分别作为输入，提供给用于情绪分类的神经网络处理单元，并根据该用于情绪分类的神经网络处理单元的输出，获得每一个图像块或者每一个视频帧各自对应多个置信度，且一个图像块或者一个视频帧对应的多个置信度被作为一组置信度。例如，预设情绪类别包括7种，本公开可以利用用于情绪分类的神经网络处理单元，获得各图像块各自对应的7个置信度，一个图像块对应的7个置信度被作为一组置信度。

S502、根据多个视频帧各自对应的一组置信度，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

可选的，本公开可以对多个视频帧各自对应的一组置信度进行计算处理，从而获得多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

可选的，上述对多个视频帧各自对应的一组置信度的计算处理可以是基于同一预设情绪类别的置信度均值处理。具体的，针对任一预设情绪类型而言，计算各组置信度中的所有该预设情绪类型的置信度的均值，从而获得该预设情绪类型的置信度均值，该置信度均值表示多个视频帧中的目标对象的情绪属于该预设情绪类型的概率。在针对每一种预设情绪类型分别进行置信度均值计算后，本公开最终获得一组置信度，该组置信度包括各预设情绪类型各自对应的置信度均值。

可选的，上述对多个视频帧各自对应的一组置信度的计算处理可以是置信度加权处理。具体的，针对任一预设情绪类型而言，计算各组置信度中的所有该预设情绪类型的置信度的加权平均值，从而获得该预设情绪类型的置信度加权平均值，该置信度加权平均值表示多个视频帧中的目标对象的情绪属于该预设情绪类型的概率。在针对每一种预设情绪类型分别进行置信度加权平均值计算后，本公开最终获得一组置信度，该组置信度包括各预设情绪类型各自对应的置信度加权平均。

可选的，各视频帧各自对应的权值可以根据各视频帧的采集时间设置，一个例子，采集时间在先的视频帧对应的权值不小于采集时间在后的视频帧对应的权值。由于人的情绪往往是开始阶段表现的较为强烈，且强烈的表现会在后续阶段逐渐减弱，因此，本公开通过基于表情随时间的衰减来设置各视频帧各自对应的权值，有利于提高最终确定出的多个视频帧对应的置信度的准确性。另外，在设置各视频帧各自对应的权值时，也可以考虑视频帧的清晰程度、视频帧中的目标对象的头部偏转程度等因素，从而有利于避免清晰度不佳的视频帧或者大角度偏转的面部对最终确定出的多个视频帧对应的置信度的准确性的影响。

由于本公开的辅助特征向量与目标对象的情绪存在关联，因此，本公开通过对辅助特征向量和脸部特征向量进行融合处理，使融合特征向量可以从多个角度来表示目标对象的情绪，从而使本公开确定出的目标对象的情绪分别属于多个预设情绪类别的置信度，可以更准确的反映目标对象的情绪倾向，进而有利于提高情绪检测的准确性。

在一个可选示例中，本公开根据脸部特征向量和辅助特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度的另一个例子，如图6所示。

图6中，S600、对脸部特征向量和辅助特征信息进行融合处理，获得多个视频帧各自对应的融合特征向量。

步骤S600的具体内容可以参见上述实施例中针对S500的描述，在此不再重复说明。

S601、对多个视频帧各自对应的融合特征向量进行基于时序的情绪类别分类处理，获得多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

可选的，本公开中的对多个视频帧各自对应的融合特征向量进行基于时序的情绪类别分类处理可以包括：在时序上，对多个视频帧各自对应的融合特征向量进行卷积处理等。本公开可以利用RNN(Recurrent Neural Networks，循环神经网络)处理单元对融合特征向量进行基于时序的情绪类别分类处理，经由RNN处理单元对输入信息进行处理，从而本公开可以根据RNN处理单元的输出，获得多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。本公开中的RNN可以为LSTM(Long-Short Term Memory，长短期记忆)神经网络等。

本公开通过对多个视频帧各自对应的融合特征向量进行基于时序的情绪类别分类处理，为获得置信度提供了另一种实现方式，利于提高情绪检测的灵活性。

本公开获得多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度的一个例子，如图7所示。

图7中，假设一个时间窗内的视频帧的数量为z，则本公开可以从一个时间窗内的z个视频帧中分别获得包含有目标对象的脸部区域的图像块，从而获得z个图像块，即图像块1、图像块2、……以及图像块z。假设本公开有s种预设情绪类型。本公开可以对z个图像块分别进行特征向量提取处理，例如，将z个图像块同时提供给z个用于提取特征的神经网络处理单元，从而可以获得z个图像块各自对应的脸部特征向量，之后。本公开可以对z个图像块各自对应的脸部特征向量进行基于时序的情绪类别分类处理，例如，将z个图像块各自对应的脸部特征向量分别作为输入，先后提供给RNN处理单元，RNN处理单元在针对每一个图像块对应的脸部特征向量进行情绪类别分类处理时，均会考虑时序上的前一个图像块对应的脸部特征向量的情绪类别分类处理的结果，从而RNN处理单元在针对最后一个图像块对应的脸部特征向量进行情绪类别分类处理，所输出的s个置信度(即置信度1、置信度2、置信度3、……以及置信度s，s为大于1的整数)即为本公开最终获得的多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

需要特别说明的是，图7所示的实施例还可以将脸部特征向量和辅助特征向量进行融合处理，并对融合处理后的融合特征向量进行情绪类别分类处理，从而有利于提高情绪类别分类处理的灵活性。

示例性装置

图8为本公开的情绪检测装置一个实施例的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例。如图8所示的装置主要包括：获取图像块模块800、获取特征向量模块801、获取置信度模块802以及确定情绪模块803。

获取图像块模块800用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的图像块序列。

获取特征向量模块801用于确定获取图像块模块800获得的图像块序列对应的脸部特征向量。

获取置信度模块802用于根据获取特征向量模块801获得的脸部特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度。

确定情绪模块803用于根据获取置信度模块802获得的多个置信度，确定多个视频帧中的目标对象的情绪。

可选的，获取图像块模块800可以进一步用于根据设置于移动设备中的摄像装置采集获得的多个视频帧各自的采集时间顺序，对所述多个视频帧依次进行脸部区域检测，获得所述多个视频帧中的包含有所述目标对象的脸部区域的图像块序列。

可选的，获取置信度模块802可以包括：第一子模块8021以及第二子模块8022。其中的第一子模块8021用于根据图像块序列，获取图像块序列对应的目标对象的辅助特征向量。其中的第二子模块8022用于根据脸部特征向量和辅助特征向量，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度。

可选的，第一子模块8021可以包括：第一单元80211、第二单元80212以及第三单元80213中的至少一个。其中的第一单元80211用于根据图像块序列，获取图像块序列中的目标对象的脸部关键点，获得多组脸部关键点，并获取多组脸部关键点各自对应的关键点特征向量。其中的第二单元80212用于根据图像块序列，获取图像块序列中的目标对象的头部姿态信息，获得多组头部姿态信息，并获取多组头部姿态信息各自对应的头部姿态特征向量。其中的第三单元80213用于根据图像块序列，获取图像块序列中的目标对象的人口统计学属性信息，获得多组人口统计学属性信息，并获取多组人口统计学属性信息各自对应的人口统计学属性特征向量。其中，每一辅助特征向量包括：关键点特征向量、头部姿态特征向量以及人口统计学属性特征向量中的至少一个。

可选的，第一单元80211获取多组脸部关键点各自对应的关键点特征向量的过程可以为：对多组脸部关键点分别进行脸部关键点特征提取处理，获得多组脸部关键点各自对应的脸部关键点特征向量。第一单元80211获取多组脸部关键点各自对应的关键点特征向量的过程也可以为：获取多组脸部关键点中的位于脸部的至少一器官的关键点，获得多个视频帧各自对应的至少一组器官关键点，对多个视频帧各自对应的至少一组器官关键点分别进行器官关键点特征提取处理，获取多个视频帧各自对应的至少一器官关键点特征向量。

可选的，第二子模块8022可以包括：第四单元80221、第五单元80222以及第六单元80223。其中的第四单元80221用于对脸部特征向量和辅助特征向量进行融合处理，获得多个视频帧各自对应的融合特征向量。其中的第五单元80222用于对于多个视频帧中的任一视频帧，对该视频帧对应的融合特征向量进行情绪类别分类处理，获得该视频帧中的目标对象的情绪分别属于多个预设情绪类别的一组置信度。其中的第六单元80223用于根据多个视频帧各自对应的一组置信度，确定多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

可选的，第六单元80223可以进一步用于对多个视频帧各自对应的一组置信度中的同一预设情绪类别的置信度进行均值计算，获得多个预设情绪类型各自对应的置信度均值。第六单元80223也可以进一步用于根据多个视频帧各自对应的权值，对多个视频帧各自对应的一组置信度中的同一预设情绪类别的置信度进行加权平均计算，获得多个预设情绪类型各自对应的置信度加权值。其中，采集时间在后的视频帧对应的权值，不高于采集时间在线的视频帧对应的权值。

可选的，获取置信度模块802可以包括：第三子模块8023以及第四子模块8024。其中的第三子模块8023用于对脸部特征向量和辅助特征信息进行融合处理，获得多个视频帧各自对应的融合特征向量。其中的第四子模块8024用于对多个视频帧各自对应的融合特征向量进行基于时序的情绪类别分类处理，获得多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

示例性电子设备

下面参考图9来描述根据本公开实施例的电子设备。图9示出了根据本公开实施例的电子设备的框图。如图9所示，电子设备91包括一个或多个处理器911和存储器912。

处理器911可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备91中的其他组件以执行期望的功能。

存储器912可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器911可以运行所述程序指令，以实现上文所述的本公开的各个实施例的情绪检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备91还可以包括：输入装置913以及输出装置914等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备913还可以包括例如键盘、鼠标等等。该输出装置914可以向外部输出各种信息。该输出设备914可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备91中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备91还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的情绪检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的情绪检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种情绪检测方法，包括：

从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的脸部区域的图像块序列；

确定所述图像块序列对应的脸部特征向量；

根据所述脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度；

根据所述多个置信度，确定所述多个视频帧中的目标对象的情绪。

2.根据权利要求1所述的方法，其中，所述从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的脸部区域的图像块序列，包括：

根据设置于移动设备中的摄像装置采集获得的多个视频帧各自的采集时间顺序，对所述多个视频帧依次进行脸部区域检测，获得所述多个视频帧中的包含有所述目标对象的脸部区域的图像块序列。

3.根据权利要求1或2所述的方法，其中，所述根据所述脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度，包括：

根据所述图像块序列，获取所述图像块序列对应的目标对象的辅助特征向量；

根据所述脸部特征向量和所述辅助特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度。

4.根据权利要求3所述的方法，其中，所述根据所述图像块序列，获取所述图像块序列对应的目标对象的辅助特征向量，包括下述至少之一：

根据所述图像块序列，获取所述图像块序列中的目标对象的脸部关键点，获得多组脸部关键点，并获取所述多组脸部关键点各自对应的关键点特征向量；

根据所述图像块序列，获取所述图像块序列中的目标对象的头部姿态信息，获得多组头部姿态信息，并获取所述多组头部姿态信息各自对应的头部姿态特征向量；

根据所述图像块序列，获取所述图像块序列中的目标对象的人口统计学属性信息，获得多组人口统计学属性信息，并获取所述多组人口统计学属性信息各自对应的人口统计学属性特征向量；

其中，每一辅助特征向量包括：关键点特征向量、头部姿态特征向量以及人口统计学属性特征向量中的至少一个。

5.根据权利要求4所述的方法，其中，所述获取所述多组脸部关键点各自对应的关键点特征向量，包括：

对所述多组脸部关键点分别进行脸部关键点特征提取处理，获得所述多组脸部关键点各自对应的脸部关键点特征向量；

和/或者

所述获取所述多组脸部关键点各自对应的关键点特征向量，包括：

获取所述多组脸部关键点中的位于脸部的至少一器官的关键点，获得所述多个视频帧各自对应的至少一组器官关键点；

对所述多个视频帧各自对应的至少一组器官关键点分别进行器官关键点特征提取处理，获取所述多个视频帧各自对应的至少一器官关键点特征向量。

6.根据权利要求3至5中任一项所述的方法，其中，所述根据所述脸部特征向量和所述辅助特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，包括：

对所述脸部特征向量和所述辅助特征向量进行融合处理，获得所述多个视频帧各自对应的融合特征向量；

对于所述多个视频帧中的任一视频帧，对该视频帧对应的融合特征向量进行情绪类别分类处理，获得该视频帧中的目标对象的情绪分别属于多个预设情绪类别的一组置信度；

根据所述多个视频帧各自对应的一组置信度，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

7.根据权利要求3至5中任一项所述的方法，其中，所述根据所述脸部特征向量和所述辅助特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，包括：

对所述脸部特征向量和所述辅助特征信息进行融合处理，获得所述多个视频帧各自对应的融合特征向量；

对所述多个视频帧各自对应的融合特征向量进行基于时序的情绪类别分类处理，获得所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度。

8.一种情绪检测装置，包括：

获取图像块模块，用于从设置于移动设备中的摄像装置采集获得的多个视频帧中，获取包含有目标对象的图像块序列；

获取特征向量模块，用于确定所述获取图像块模块获得的图像块序列对应的脸部特征向量；

获取置信度模块，用于根据所述获取特征向量模块获得的脸部特征向量，确定所述多个视频帧中的目标对象的情绪分别属于多个预设情绪类别的置信度，获得多个置信度；

确定情绪模块，用于根据所述获取置信度模块获得的多个置信度，确定所述多个视频帧中的目标对象的情绪。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一项所述的方法。