CN108509941B

CN108509941B - 情绪信息生成方法和装置

Info

Publication number: CN108509941B
Application number: CN201810361555.7A
Authority: CN
Inventors: 施皓; 张亚军
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd; Jingdong Technology Holding Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2020-09-01
Anticipated expiration: 2038-04-20
Also published as: CN108509941A

Abstract

本申请实施例公开了情绪信息生成方法和装置。该方法的一具体实施方式包括：获取目标视频，其中，上述目标视频中包括人脸图像；对上述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析；根据统计分析结果生成上述目标视频拍摄时间段内上述目标视频中人脸图像所对应人的情绪信息。该实施方式实现了情绪信息的生成。

Description

情绪信息生成方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及情绪信息生成方法和装置。

背景技术

情绪是基于人的个体本能的需要自发产生的身体与心理状态。具有自发性、不可控性、无意识性、人类共通性、以个体为中心性、短时性等特征。

对情绪进行分析有着重要意义，在多个领域有着十分广泛的应用。例如，在现有的服务评价系统中，例如银行或者电信领域，经常会要求用户在服务完成以后，对服务质量进行评价，而服务质量会直接影响用户情绪。在金融领域，风控人员通过识别客户回答不同问题时候的表情变化，可以辅助风控和反欺诈。在零售领域，通过观察顾客在某些商品或者某些广告前的情绪变化，可以评估商品的受欢迎程度或者评估广告效果。在教育行业，可以对师生的表情进行分析，得出学生的视线关注情况、上课情绪等，从而改进教学方法，促成孩子专注度的形成与高效学习。

发明内容

本申请实施例提出了情绪信息生成方法和装置。

第一方面，本申请实施例提供了一种情绪信息生成方法，该方法包括：获取目标视频，其中，上述目标视频中包括人脸图像；对上述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析；根据统计分析结果生成上述目标视频拍摄时间段内上述目标视频中人脸图像所对应人的情绪信息。

在一些实施例中，上述方法还包括：在上述目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示；对上述目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

在一些实施例中，上述对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，包括：将检测和追踪到的人脸图像导入预先建立的表情识别模型，得到人脸图像的表情识别结果，其中，上述表情识别模型用于表征人脸图像和表情识别结果的对应关系。

在一些实施例中，上述表情识别模型为神经网络，上述神经网络包括输入网络、中间网络和输出网络，上述输入网络、中间网络和输出网络包括可分离卷积层和激活函数层；以及上述神经网络是通过以下方式训练得到的：获取样本集，其中，样本包括样本人脸图像和样本人脸图像所对应人脸的表情，样本人脸图像包括第一样本人脸图像和由第一样本人脸图像经处理得到的第二样本人脸图像；将上述样本集中的样本的样本人脸图像作为输入，将与输入的样本人脸图像所对应人脸的表情作为输出，训练得到上述神经网络。

在一些实施例中，上述表情识别结果包括表情和表情强度，表情包括开心、难过、惊讶、正常、生气、厌恶和害怕；以及上述根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，包括：对于同一人脸标识符对应的至少一张人脸图像，在上述目标视频拍摄时间段内统计以下信息：统计上述至少一张人脸图像的表情识别结果中表情“开心”对应的表情强度的第一强度均值；统计上述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值；统计上述至少一张人脸图像的表情识别结果中表情“生气”和“难过”对应的表情强度之和的第三强度均值。

在一些实施例中，上述根据统计分析结果生成上述目标视频拍摄时间段内上述目标视频中人脸图像所对应人的情绪信息，包括：对于每一人脸标识符，执行以下信息生成过程：响应于确定该人脸标识符对应的第一强度均值大于预设的强度阈值，以及该人脸标识符对应的第一人脸图像在上述目标视频中出现的时长大于预设的时长阈值，将“开心”作为该人脸标识符对应的人脸的情绪信息，其中，第一人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“开心”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第二强度均值大于上述强度阈值，以及该人脸标识符对应的第二人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第三强度均值大于上述强度阈值，以及该人脸标识符对应的第三人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“难过”作为该人脸标识符对应的人脸的情绪信息，其中，第三人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“生气”和“难过”的表情强度之和大于上述强度阈值的人脸图像。

在一些实施例中，在根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析之前，上述方法还包括：对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果对人脸标识符进行统一。

第二方面，本申请实施例提供了一种情绪信息生成装置，上述装置包括：获取单元，被配置成获取目标视频，其中，上述目标视频中包括人脸图像；识别单元，被配置成对上述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；统计单元，被配置成根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析；生成单元，被配置成根据统计分析结果生成上述目标视频拍摄时间段内上述目标视频中人脸图像所对应人的情绪信息。

在一些实施例中，上述装置还包括：第一推送单元，被配置成在上述目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示；第二推送单元，被配置成对上述目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

在一些实施例中，上述识别单元进一步被配置成：将检测和追踪到的人脸图像导入预先建立的表情识别模型，得到人脸图像的表情识别结果，其中，上述表情识别模型用于表征人脸图像和表情识别结果的对应关系。

在一些实施例中，上述表情识别模型为神经网络，上述神经网络包括输入网络、中间网络和输出网络，上述输入网络、中间网络和输出网络包括可分离卷积层和激活函数层；以及上述装置还包括训练单元，上述训练单元被配置成：获取样本集，其中，样本包括样本人脸图像和样本人脸图像所对应人脸的表情，样本人脸图像包括第一样本人脸图像和由第一样本人脸图像经处理得到的第二样本人脸图像；将上述样本集中的样本的样本人脸图像作为输入，将与输入的样本人脸图像所对应人脸的表情作为输出，训练得到上述神经网络。

在一些实施例中，上述表情识别结果包括表情和表情强度，表情包括开心、难过、惊讶、正常、生气、厌恶和害怕；以及上述统计单元进一步被配置成：对于同一人脸标识符对应的至少一张人脸图像，在上述目标视频拍摄时间段内统计以下信息：统计上述至少一张人脸图像的表情识别结果中表情“开心”对应的表情强度的第一强度均值；统计上述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值；统计上述至少一张人脸图像的表情识别结果中表情“生气”和“难过”对应的表情强度之和的第三强度均值。

在一些实施例中，上述生成单元进一步被配置成：对于每一人脸标识符，执行以下信息生成过程：响应于确定该人脸标识符对应的第一强度均值大于预设的强度阈值，以及该人脸标识符对应的第一人脸图像在上述目标视频中出现的时长大于预设的时长阈值，将“开心”作为该人脸标识符对应的人脸的情绪信息，其中，第一人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“开心”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第二强度均值大于上述强度阈值，以及该人脸标识符对应的第二人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第三强度均值大于上述强度阈值，以及该人脸标识符对应的第三人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“难过”作为该人脸标识符对应的人脸的情绪信息，其中，第三人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“生气”和“难过”的表情强度之和大于上述强度阈值的人脸图像。

在一些实施例中，上述装置还包括统一单元，上述统一单元被配置成：对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果对人脸标识符进行统一。

第三方面，本申请实施例提供了一种服务器，该服务器包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的情绪信息生成方法和装置，对目标视频中的人脸图像进行检测和追踪，并对检测和追踪到的人脸图像进行表情识别，而后根据人脸标识符对目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，最后根据统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息，从而实现了情绪信息的生成。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的情绪信息生成方法的一个实施例的流程图；

图3是本申请的表情识别模型的网络结构的示意图；

图4是根据本申请的情绪信息生成方法的一个应用场景的示意图；

图5是根据本申请的情绪信息生成方法的又一个实施例的流程图；

图6是根据本申请的情绪信息生成方法的显示界面的示意图；

图7是根据本申请的情绪信息生成装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的情绪信息生成方法或情绪信息生成装置的示例性系统架构100。

如图1所示，系统架构100可以包括视频采集设备101，网络102、103，服务器104和终端设备105。网络102用以在视频采集设备101和服务器104之间提供通信链路的介质，网络103用以在服务器104和终端设备105之间提供通信链路的介质。网络102、103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

视频采集设备101可以将采集的视频通过网络102发送给服务器104，由服务器104进行分析处理，并将分析处理结果通过网络103发送给终端设备105，由终端设备105进行显示。

视频采集设备101可以是能够采集视频的各种电子设备，例如，摄像头。

服务器104可以是提供各种服务的服务器，例如对视频采集设备101采集的视频等数据进行分析等处理，并将处理结果反馈给终端设备105。

终端设备105可以是具有显示屏并且支持数据接收和显示的各种电子设备，例如，电子屏幕。

需要说明的是，本申请实施例所提供的情绪信息生成方法一般由服务器104执行，相应地，情绪信息生成装置一般设置于服务器104中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的视频采集设备、终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的视频采集设备、终端设备、网络和服务器。

继续参考图2，示出了根据本申请的情绪信息生成方法的一个实施例的流程200。该情绪信息生成方法，包括以下步骤：

步骤201，获取目标视频。

在本实施例中，情绪信息生成方法的执行主体(例如图1所示的服务器104)可以通过有线连接方式或者无线连接方式获取视频采集设备(例如图1所示的视频采集设备101)采集的目标视频。其中，目标视频中可以包括人脸图像，在这里，上述人脸图像可以是指目标视频的视频帧中所包括的人脸的图像。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

步骤202，对目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果。

在本实施例中，基于步骤201中得到的目标视频，上述执行主体可以对上述目标视频中的人脸图像进行检测和追踪。上述执行主体还可以对检测和追踪到的人脸图像进行表情识别，得到表情识别结果。其中，追踪得到的同一人的人脸图像对应同一人脸标识符。作为示例，首先，上述执行主体可以检测目标视频的视频帧中的人脸图像，当初次检测到一个人的人脸图像时，可以为该人的人脸图像分配一个唯一的人脸标识符。之后，上述执行主体可以利用人脸追踪算法从后续视频帧中对该人的人脸图像进行追踪，从而得到该人的多张人脸图像。然后，上述执行主体可以对得到的人脸图像进行表情识别，得到表情识别结果。例如，上述执行主体可以采用基于模板的匹配方法、基于神经网络的方法、基于概率模型的方法或基于支持向量机的方法等对人脸图像进行表情识别。

在本实施例的一些可选的实现方式中，上述对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，可以具体包括以下内容：将检测和追踪到的人脸图像导入预先建立的表情识别模型，得到人脸图像的表情识别结果，其中，上述表情识别模型可以用于表征人脸图像和表情识别结果的对应关系。作为示例，上述表情识别模型可以包括特征提取部分和对应关系表，其中，上述特征提取部分可以用于提取人脸图像的特征，从而得到人脸图像的特征向量。上述对应关系表可以存储有多个特征向量与表情识别结果的对应关系，上述对应关系表可以是技术人员基于对大量的特征向量和表情识别结果的统计而预先制定的。这样，上述表情识别模型可以首先对导入的人脸图像进行特征提取得到目标特征向量。之后，将目标特征向量与对应关系表中的多个特征向量依次进行比较，若该对应关系表中的一个特征向量与目标特征向量相同或相似，则将该对应关系表中的该特征向量对应的表情识别结果作为目标特征向量的表情识别结果。

在一些可选的实现方式中，上述表情识别模型可以为神经网络，上述神经网络可以包括输入网络、中间网络和输出网络，上述输入网络、中间网络和输出网络可以包括可分离卷积层和激活函数层。作为示例，上述神经网络的网络结构可以如图3所示，在图3所示的网络结构中输入网络可以由卷积层、可分离卷积层、激活函数层、最大池化层以及跨层连接构成，中间网络可以由可分离卷积层、激活函数层以及跨层连接构成，输出网络可以由可分离卷积层、激活函数层、最大池化层、全局平均池化层、全连接层、逻辑回归函数以及跨层连接构成。

在这里，上述神经网络可以是上述执行主体或者其他用于训练上述神经网络的执行主体通过以下方式训练得到的：

首先，获取样本集，其中，上述样本集中的样本可以包括样本人脸图像和样本人脸图像所对应人脸的表情，其中，样本人脸图像可以包括第一样本人脸图像和由第一样本人脸图像经处理得到的第二样本人脸图像。作为示例，第一样本人脸图像可以是指通过图像采集设备(例如，相机)直接采集的人脸图像，将第一样本人脸图像进行左右反转、按预设角度旋转或者改变对比度等处理可以得到第二样本人脸图像。在这里，对图像进行左右反转可以是指对图像中的像素进行左右反转，以高度为h和宽度为w的图像为例，以该图像的左下角为原点(0,0)，假设某一点像素坐标为(h1,w1)，那么该图像进行左右反转之后，该点的像素坐标变为(h1,w-w1)。在本实现方式中，通过生成第二样本人脸图像可以增大样本集中的数据量，使训练得到的神经网络的性能更好。需要说明的是，在这里还可以对样本人脸图像进行均值化、归一化等预处理，对图像进行均值化、归一化等预处理是目前广泛研究和应用的公知技术，在此不再赘述。

然后，可以将上述样本集中的样本的样本人脸图像作为输入，将与输入的样本人脸图像所对应人脸的表情作为输出，训练得到上述神经网络。作为示例，在训练上述神经网络时，首先，可以将样本人脸图像作为初始神经网络的输入，得到所输入的样本人脸图像对应的预测表情。在这里，初始神经网络可以是指未经训练或未训练完成的神经网络。其次，将样本人脸图像对应的预测表情与对应的表情进行比较，根据比较结果确定上述初始神经网络是否达到预设条件，例如，该预设条件可以是指样本人脸图像对应的预测表情与对应的表情之间的差异小于预设的差异阈值。然后，响应于确定达到预设条件，可以将上述初始神经网络确定为训练完成的神经网络。最后，响应于确定未达到预设条件，可以调整初始神经网络的网络参数，以及使用未用过的样本继续执行上述训练过程。作为示例，可以采用反向传播算法(Back Propgation Algorithm，BP算法)和梯度下降法对上述初始神经网络的网络参数进行调整。需要说明的是，反向传播算法和梯度下降法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤203，根据人脸标识符，对目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析。

在本实施例中，上述执行主体可以根据人脸标识符确定哪些人脸图像为同一人的人脸图像，之后，对目标视频拍摄时间段内同一人对应的表情识别结果进行统计分析。

在本实施例的一些可选的实现方式中，在上述步骤203之前，上述情绪信息生成方法还可以包括以下步骤：对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果对人脸标识符进行统一。实践中，在对某个人的人脸图像进行追踪的时候，可能会因为一些影响因素导致追踪的人脸图像丢失，此时，执行主体再次在后续视频帧检测到该人的人脸图像时，会为检测到的该人的人脸图像再次分配一个唯一的人脸标识符。这种情况下，同一人的人脸图像会对应两个人脸标识符，为了避免这种情况对后续处理的准确性的影响，上述执行主体可以对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果确定不同人脸标识符对应的多张人脸图像是否为同一人的人脸图像。响应于确定不同人脸标识符对应的多张人脸图像为同一人的人脸图像，将上述不同人脸标识符进行统一，即将上述不同人脸标识符使用同一人脸标识符代替。在这里，导致追踪的人脸图像丢失的影响因素包括但不限于：目标视频拍摄时的光线因素、人脸姿态因素(例如，人脸的垂直或者左右角度等)、人脸遮挡因素等等。本实现方式可以有效消除人脸图像追踪失误所导致的不利影响，使生成的情绪信息更加准确。

步骤204，根据统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息。

在本实施例中，上述执行主体可以根据步骤203的统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息。

在本实施例的一些可选的实现方式中，上述表情识别结果可以包括表情和表情强度，其中，表情可以包括开心、难过、惊讶、正常、生气、厌恶和害怕。作为示例，上述表情识别结果可以为一个七维向量，该七维向量中的每一个维度表示一种表情，该维度对应的值为表情强度，表情强度可以是指所识别人脸图像所对应人脸的表情为该维度所表示的表情的概率。例如，某个表情识别结果可以为(开心：0.099，难过：0.101，惊讶：0.098，正常：0.400，生气：0.102，厌恶：0.097，害怕：0.103)。

在本实现方式中，上述步骤203可以具体包括以下内容：

对于同一人脸标识符对应的至少一张人脸图像，在上述目标视频拍摄时间段内统计以下信息：首先，上述执行主体可以统计上述至少一张人脸图像的表情识别结果中表情“开心”对应的表情强度的第一强度均值。其次，上述执行主体可以统计上述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值。最后，上述执行主体可以统计上述至少一张人脸图像的表情识别结果中表情“生气”和“难过”对应的表情强度之和的第三强度均值。

在一些可选的实现方式中，上述步骤204可以具体包括如下内容：

对于每一人脸标识符，上述执行主体可以执行以下信息生成过程：

首先，响应于确定该人脸标识符对应的第一强度均值大于预设的强度阈值，以及该人脸标识符对应的第一人脸图像在上述目标视频中出现的时长大于预设的时长阈值，将“开心”作为该人脸标识符对应的人脸的情绪信息，其中，第一人脸图像可以为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“开心”的表情强度大于上述强度阈值的人脸图像。在这里，上述强度阈值和上述时长阈值可以根据实际需要进行设置。

其次，响应于确定该人脸标识符对应的第二强度均值大于上述强度阈值，以及该人脸标识符对应的第二人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像可以为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于上述强度阈值的人脸图像。

最后，响应于确定该人脸标识符对应的第三强度均值大于上述强度阈值，以及该人脸标识符对应的第三人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“难过”作为该人脸标识符对应的人脸的情绪信息，其中，第三人脸图像可以为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“生气”和“难过”的表情强度之和大于上述强度阈值的人脸图像。

继续参见图4，图4是根据本实施例的情绪信息生成方法的应用场景的一个示意图。图4中以银行的场景为例，需要办理银行业务的用户坐在柜台前的座位上办理业务，此时，架设在座位旁边的摄像头401可以拍摄该用户的视频作为目标视频，并将目标视频发送给服务器402。服务器402获取目标视频，并对目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符。之后，服务器402可以根据人脸标识符，对目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析。最后，服务器402可以根据统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应用户的情绪信息，根据用户的情绪信息可以分析得到银行员工的服务质量。

本申请的上述实施例提供的方法通过对目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，并根据统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息，从而实现了情绪信息的生成。

进一步参考图5，其示出了情绪信息生成方法的又一个实施例的流程500。该情绪信息生成方法的流程500，包括以下步骤：

步骤501，获取目标视频。

在本实施例中，在本实施例中，情绪信息生成方法的执行主体(例如图1所示的服务器104)可以通过有线连接方式或者无线连接方式获取视频采集设备(例如图1所示的视频采集设备101)采集的目标视频，其中，目标视频中可以包括人脸图像，在这里，上述人脸图像可以是指目标视频的视频帧中所包括的人脸的图像。

步骤502，对目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果。

在本实施例中，基于步骤501中得到的目标视频，上述执行主体可以对上述目标视频中的人脸图像进行检测和追踪。上述执行主体还可以对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符。

步骤503，根据人脸标识符，对目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析。

步骤504，根据统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息。

在本实施例中，上述执行主体可以根据步骤503的统计分析结果生成目标视频拍摄时间段内目标视频中人脸图像所对应人的情绪信息。

步骤505，在目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示。

在本实施例中，在上述目标视频的拍摄过程中，上述执行主体可以实时接收视频采集设备采集的视频帧，并对当前所拍摄视频帧中的人脸图像进行表情识别，得到表情识别结果。上述执行主体还可以向用于显示信息的终端设备推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供上述终端设备进行显示。

步骤506，对目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

在本实施例中，上述执行主体还可以对目标视频中预设时间段内不同的人的情绪信息进行统计分析，并将统计分析结果推送给上述终端设备，以供上述终端设备进行显示。

如图6所示，图6为终端设备所显示的界面的示意图，其中，界面的左上角部分示出了当前所拍摄的视频帧，该视频帧中显示了所占面积最大的三张人脸图像的表情识别结果。需要说明的是，可以根据实际需要在界面中显示视频帧中任意多张人脸图像的表情识别结果，此处不做限定。作为示例，界面的左下角部分示出了设定时间段内(例如，当日的零点到当前时间)目标视频中出现的人脸图像的表情识别结果中各种表情的表情强度的平均值的曲线图，其中，曲线图的横轴表示时间，纵轴表示表情强度。界面的右上角部分示出了设定时间段内(例如，当日的零点到当前时间)目标视频中不同的人的情绪信息的统计分析结果的第一种表示方式，在这里，可以直接将情绪信息的统计结果进行显示，例如，直接显示情绪信息为“开心”的用户数量的统计值，情绪信息为“正常”的用户数量的统计值等，也可以根据情绪信息确定各个用户的满意度(例如，满意度可以包括非常满意、满意、一般、不满意和非常不满意等)，然后再对用户数量进行统计，就会如界面的右上角部分所示。界面的右下角部分示出了设定时间段内(例如，当日的零点到当前时间)目标视频中不同的人的情绪信息的统计分析结果的第二种表示方式，该方式为柱状图的方式。需要说明的是，图6中终端设备的界面所显示的信息展示形式仅仅是示意性的，而非对终端设备的界面所显示的信息展示形式的限定。实际使用中，可以根据实际需要设置终端设备所显示信息的展示形式。

从图5中可以看出，与图2对应的实施例相比，本实施例中的情绪信息生成方法的流程500突出了对视频帧、表情识别结果、情绪信息统计分析结果等信息的显示，从而实现了表情识别结果、情绪信息统计分析结果等的直观表示，有利于后续人员对信息的高效获取。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种情绪信息生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的情绪信息生成装置700包括：获取单元701、识别单元702、统计单元703和生成单元704。其中，获取单元701被配置成获取目标视频，其中，上述目标视频中包括人脸图像；识别单元702被配置成对上述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；统计单元703被配置成根据人脸标识符，对上述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析；生成单元704被配置成根据统计分析结果生成上述目标视频拍摄时间段内上述目标视频中人脸图像所对应人的情绪信息。

在本实施例中，情绪信息生成装置700的获取单元701、识别单元702、统计单元703和生成单元704的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置700还包括：第一推送单元(图中未示出)，被配置成在上述目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示。第二推送单元(图中未示出)，被配置成对上述目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

在本实施例的一些可选的实现方式中，上述识别单元702进一步被配置成：将检测和追踪到的人脸图像导入预先建立的表情识别模型，得到人脸图像的表情识别结果，其中，上述表情识别模型用于表征人脸图像和表情识别结果的对应关系。

在本实施例的一些可选的实现方式中，上述表情识别模型为神经网络，上述神经网络包括输入网络、中间网络和输出网络，上述输入网络、中间网络和输出网络包括可分离卷积层和激活函数层。以及上述装置700还包括训练单元(图中未示出)，上述训练单元被配置成：获取样本集，其中，样本包括样本人脸图像和样本人脸图像所对应人脸的表情，样本人脸图像包括第一样本人脸图像和由第一样本人脸图像经处理得到的第二样本人脸图像。将上述样本集中的样本的样本人脸图像作为输入，将与输入的样本人脸图像所对应人脸的表情作为输出，训练得到上述神经网络。

在本实施例的一些可选的实现方式中，上述表情识别结果包括表情和表情强度，表情包括开心、难过、惊讶、正常、生气、厌恶和害怕。以及上述统计单元703进一步被配置成：对于同一人脸标识符对应的至少一张人脸图像，在上述目标视频拍摄时间段内统计以下信息：统计上述至少一张人脸图像的表情识别结果中表情“开心”对应的表情强度的第一强度均值；统计上述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值；统计上述至少一张人脸图像的表情识别结果中表情“生气”和“难过”对应的表情强度之和的第三强度均值。

在本实施例的一些可选的实现方式中，上述生成单元704进一步被配置成：对于每一人脸标识符，执行以下信息生成过程：响应于确定该人脸标识符对应的第一强度均值大于预设的强度阈值，以及该人脸标识符对应的第一人脸图像在上述目标视频中出现的时长大于预设的时长阈值，将“开心”作为该人脸标识符对应的人脸的情绪信息，其中，第一人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“开心”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第二强度均值大于上述强度阈值，以及该人脸标识符对应的第二人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于上述强度阈值的人脸图像；响应于确定该人脸标识符对应的第三强度均值大于上述强度阈值，以及该人脸标识符对应的第三人脸图像在上述目标视频中出现的时长大于上述时长阈值，将“难过”作为该人脸标识符对应的人脸的情绪信息，其中，第三人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“生气”和“难过”的表情强度之和大于上述强度阈值的人脸图像。

在本实施例的一些可选的实现方式中，上述装置700还包括统一单元(图中未示出)，上述统一单元被配置成：对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果对人脸标识符进行统一。

下面参考图8，其示出了适于用来实现本申请实施例的服务器的计算机系统800的结构示意图。图8示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU，Central Processing Unit)801，其可以根据存储在只读存储器(ROM，Read Only Memory)802中的程序或者从存储部分806加载到随机访问存储器(RAM，Random Access Memory)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O，Input/Output)接口805也连接至总线804。

以下部件连接至I/O接口805：包括硬盘等的存储部分806；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分807。通信部分807经由诸如因特网的网络执行通信处理。驱动器808也根据需要连接至I/O接口805。可拆卸介质809，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器808上，以便于从其上读出的计算机程序根据需要被安装入存储部分806。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分807从网络上被下载和安装，和/或从可拆卸介质809被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、识别单元、统计单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取目标视频的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取目标视频，其中，所述目标视频中包括人脸图像；对所述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；根据人脸标识符，对所述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析；根据统计分析结果生成所述目标视频拍摄时间段内所述目标视频中人脸图像所对应人的情绪信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种情绪信息生成方法，包括：

获取目标视频，其中，所述目标视频中包括人脸图像；

对所述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；

根据人脸标识符，对所述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，包括：对于同一人脸标识符对应的至少一张人脸图像，在所述目标视频拍摄时间段内统计以下信息：统计所述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值，其中，所述表情识别结果包括表情和表情强度，表情包括正常，其中，第二强度均值为同一人脸标识符对应的至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的强度均值；

根据统计分析结果生成所述目标视频拍摄时间段内所述目标视频中人脸图像所对应人的情绪信息，包括：对于每一人脸标识符，执行以下信息生成过程：响应于确定该人脸标识符对应的第二强度均值大于预设的强度阈值，以及该人脸标识符对应的第二人脸图像在所述目标视频中出现的时长大于预设的时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于所述强度阈值的人脸图像。

2.根据权利要求1所述的方法，其中，所述方法还包括：

在所述目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示；

对所述目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

3.根据权利要求1所述的方法，其中，所述对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，包括：

将检测和追踪到的人脸图像导入预先建立的表情识别模型，得到人脸图像的表情识别结果，其中，所述表情识别模型用于表征人脸图像和表情识别结果的对应关系。

4.根据权利要求3所述的方法，其中，所述表情识别模型为神经网络，所述神经网络包括输入网络、中间网络和输出网络，所述输入网络、中间网络和输出网络包括可分离卷积层和激活函数层；以及

所述神经网络是通过以下方式训练得到的：

获取样本集，其中，样本包括样本人脸图像和样本人脸图像所对应人脸的表情，样本人脸图像包括第一样本人脸图像和由第一样本人脸图像经处理得到的第二样本人脸图像；

将所述样本集中的样本的样本人脸图像作为输入，将与输入的样本人脸图像所对应人脸的表情作为输出，训练得到所述神经网络。

5.根据权利要求1所述的方法，其中，表情包括开心、难过、惊讶、生气、厌恶和害怕；以及

所述根据人脸标识符，对所述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，包括：

对于同一人脸标识符对应的至少一张人脸图像，在所述目标视频拍摄时间段内统计以下信息：

统计所述至少一张人脸图像的表情识别结果中表情“开心”对应的表情强度的第一强度均值；

统计所述至少一张人脸图像的表情识别结果中表情“生气”和“难过”对应的表情强度之和的第三强度均值。

6.根据权利要求5所述的方法，其中，所述根据统计分析结果生成所述目标视频拍摄时间段内所述目标视频中人脸图像所对应人的情绪信息，包括：

对于每一人脸标识符，执行以下信息生成过程：

响应于确定该人脸标识符对应的第一强度均值大于预设的强度阈值，以及该人脸标识符对应的第一人脸图像在所述目标视频中出现的时长大于预设的时长阈值，将“开心”作为该人脸标识符对应的人脸的情绪信息，其中，第一人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“开心”的表情强度大于所述强度阈值的人脸图像；

响应于确定该人脸标识符对应的第三强度均值大于所述强度阈值，以及该人脸标识符对应的第三人脸图像在所述目标视频中出现的时长大于所述时长阈值，将“难过”作为该人脸标识符对应的人脸的情绪信息，其中，第三人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“生气”和“难过”的表情强度之和大于所述强度阈值的人脸图像。

7.根据权利要求1-6任一项所述的方法，其中，在根据人脸标识符，对所述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析之前，所述方法还包括：

对不同人脸标识符对应的人脸图像进行人脸识别，根据人脸识别结果对人脸标识符进行统一。

8.一种情绪信息生成装置，包括：

获取单元，被配置成获取目标视频，其中，所述目标视频中包括人脸图像；

识别单元，被配置成对所述目标视频中的人脸图像进行检测和追踪，对检测和追踪到的人脸图像进行表情识别，得到表情识别结果，其中，追踪得到的同一人的人脸图像对应同一人脸标识符；

统计单元，被配置成根据人脸标识符，对所述目标视频拍摄时间段内同一人的人脸图像对应的表情识别结果进行统计分析，所述统计单元进一步被配置成：对于同一人脸标识符对应的至少一张人脸图像，在所述目标视频拍摄时间段内统计以下信息：统计所述至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的第二强度均值，其中，所述表情识别结果包括表情和表情强度，表情包括正常，其中，第二强度均值为同一人脸标识符对应的至少一张人脸图像的表情识别结果中表情“正常”对应的表情强度的强度均值；

生成单元，被配置成根据统计分析结果生成所述目标视频拍摄时间段内所述目标视频中人脸图像所对应人的情绪信息，所述生成单元进一步被配置成：对于每一人脸标识符，执行以下信息生成过程：响应于确定该人脸标识符对应的第二强度均值大于预设的强度阈值，以及该人脸标识符对应的第二人脸图像在所述目标视频中出现的时长大于预设的时长阈值，将“正常”作为该人脸标识符对应的人脸的情绪信息，其中，第二人脸图像为该人脸标识符对应的至少一张人脸图像中的、表情识别结果中表情“正常”的表情强度大于所述强度阈值的人脸图像。

9.根据权利要求8所述的装置，其中，所述装置还包括：

第一推送单元，被配置成在所述目标视频的拍摄过程中，推送当前所拍摄的视频帧，以及当前所拍摄视频帧中人脸图像的表情识别结果，以供显示；

第二推送单元，被配置成对所述目标视频中预设时间段内不同的人的情绪信息进行统计分析，以及将统计分析结果进行推送，以供显示。

10.根据权利要求8所述的装置，其中，所述识别单元进一步被配置成：

11.根据权利要求10所述的装置，其中，所述表情识别模型为神经网络，所述神经网络包括输入网络、中间网络和输出网络，所述输入网络、中间网络和输出网络包括可分离卷积层和激活函数层；以及

所述装置还包括训练单元，所述训练单元被配置成：

12.根据权利要求8所述的装置，其中，表情包括开心、难过、惊讶、生气、厌恶和害怕；以及

所述统计单元进一步被配置成：

13.根据权利要求12所述的装置，其中，所述生成单元进一步被配置成：

对于每一人脸标识符，执行以下信息生成过程：

14.根据权利要求8-13任一所述的装置，其中，所述装置还包括统一单元，所述统一单元被配置成：

15.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。