CN117789277A

CN117789277A - 表情识别方法、装置、电子设备及存储介质

Info

Publication number: CN117789277A
Application number: CN202410164157.1A
Authority: CN
Inventors: 胡文骏; 蒋召
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-03-29

Abstract

本申请涉及图像处理技术领域，提供了一种表情识别方法、装置、电子设备及存储介质。该方法通过获取人脸图片，使用特征提取网络提取得到人脸图片的人脸特征，利用第一局部预测分支、全局预测分支和第二局部预测分支对人脸特征进行并行预测，得到第一局部预测结果、全局预测结果和第二局部预测结果，最后对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情，无需额外添加数据即可实现高精度人脸表情识别。同时通过在局部预测分支进行特征空间划分，并在各特征空间中进行独立预测，最后将独立预测结果与全局预测结果融合得到识别结果，提升了预测模型的鲁棒性，在遮挡条件下仍能实现高精度表情识别。

Description

表情识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种表情识别方法、装置、电子设备及存储介质。

背景技术

目前，表情识别任务在常规场景下的识别效果越来越好。但是在复杂场景下，因为姿势或者遮挡的影响，常常导致关键点特征丢失，进而造成误识别等问题。

为了解决姿势或者遮挡对表情识别任务的影响，相关技术提出了从数据角度出发，构建大量多角度数据和大量遮挡数据来解决上述问题的方案。这种解决方案需要额外构建数据，资源消耗较大，且计算复杂度较高，影响了用户体验。

发明内容

有鉴于此，本申请实施例提供了一种表情识别方法、装置、电子设备及存储介质，以解决现有技术中表情识别精度不高的问题。

本申请实施例的第一方面，提供了一种表情识别方法，包括：

获取人脸图片；

使用特征提取网络提取人脸图片中的人脸特征；

将人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果，其中，第一局部预测分支包括N个第一特征空间，N个第一特征空间根据第一局部预测分支中卷积核的宽度对人脸特征切分得到，第二局部预测分支包括M个第二特征空间，M个第二特征空间根据第二局部预测分支中卷积核的高度对人脸特征切分得到，N和M均为大于1的正整数；

对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

本申请实施例的第二方面，提供了一种表情识别装置，包括：

获取模块，被配置为获取人脸图片；

特征提取模块，被配置为使用特征提取网络提取人脸图片中的人脸特征；

预测模块，被配置为将人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果，其中，第一局部预测分支包括N个第一特征空间，N个第一特征空间根据第一局部预测分支中卷积核的宽度对人脸特征切分得到，第二局部预测分支包括M个第二特征空间，M个第二特征空间根据第二局部预测分支中卷积核的高度对人脸特征切分得到，N和M均为大于1的正整数；

融合模块，被配置为对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例通过获取人脸图片，使用特征提取网络提取得到人脸图片的人脸特征，利用第一局部预测分支、全局预测分支和第二局部预测分支对人脸特征进行并行预测，得到第一局部预测结果、全局预测结果和第二局部预测结果，最后对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情，无需额外添加数据即可实现高精度人脸表情识别。同时通过在局部预测分支进行特征空间划分，并在各特征空间中进行独立预测，最后将独立预测结果与全局预测结果融合得到识别结果，提升了预测模型的鲁棒性，在遮挡条件下仍能实现高精度表情识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图。

图2是本申请实施例提供的一种表情识别方法的流程示意图。

图3是本申请实施例提供的将人脸特征输入第一局部预测分支，预测得到第一局部预测结果的方法的流程示意图。

图4是本申请实施例提供的将人脸特征输入第二局部预测分支，预测得到第二局部预测结果的方法的流程示意图。

图5是本申请实施例提供的将人脸特征输入全局预测分支，预测得到全局预测结果的方法的流程示意图。

图6是本申请实施例提供的一种表情识别算法的训练方法的流程示意图。

图7是本申请实施例提供的并行预测分支的结构示意图。

图8是本申请实施例提供的一种表情识别装置的示意图。

图9是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种表情识别方法和装置。

图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本申请实施例对此不作限制。

终端设备1、2和3可用于获取图像。进一步的，终端设备1、2和3还可以经由网络5与服务器4建立通信连接，以将获取的图像发送至服务器，并自服务器接收识别结果。需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

上文提及，在复杂场景下，因为姿势或者遮挡的影响，常常导致关键点特征丢失，进而造成表情识别任务出现误识别等问题。为了解决姿势或者遮挡对表情识别任务的影响，相关技术提出了从数据角度出发，构建大量多角度数据和大量遮挡数据来解决上述问题的方案。这种解决方案需要额外构建数据，资源消耗较大，且计算复杂度较高，影响了用户体验。

鉴于此，本申请实施例提供了一种表情识别方法，通过获取人脸图片，使用特征提取网络提取得到人脸图片的人脸特征，利用第一局部预测分支、全局预测分支和第二局部预测分支对人脸特征进行并行预测，得到第一局部预测结果、全局预测结果和第二局部预测结果，最后对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情，无需额外添加数据即可实现高精度人脸表情识别。同时通过在局部预测分支进行特征空间划分，并在各特征空间中进行独立预测，最后将独立预测结果与全局预测结果融合得到识别结果，提升了预测模型的鲁棒性，在遮挡条件下仍能实现高精度表情识别。

图2是本申请实施例提供的一种表情识别方法的流程示意图。图2的表情识别方法可以由图1的服务器执行。如图2所示，该表情识别方法包括如下步骤：

在步骤S201中，获取人脸图片。

在步骤S202中，使用特征提取网络提取人脸图片中的人脸特征。

在步骤S203中，将人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果。

其中，第一局部预测分支包括N个第一特征空间，该N个第一特征空间根据第一局部预测分支中卷积核的宽度对人脸特征切分得到，第二局部预测分支包括M个第二特征空间，该M个第二特征空间根据第二局部预测分支中卷积核的高度对人脸特征切分得到，N和M均为大于1的正整数。

在步骤S204中，对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

本申请实施例中，该方法可以由服务器执行。在一些实施方式中，该方法也可以由具备一定处理能力的终端执行。

本申请实施例中，可以首先获取人脸图像，该人脸为待识别表情的人脸。可以使用特征提取网络提取人脸图片中的人脸特征。其中，特征提取网络的初始化参数可以选用通用人脸识别网络参数，因此，通过特征提取网络提取得到的为通用人脸特征。

本申请实施例中，可以将提取的人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果。也就是说，可以使用第一局部预测分支、全局预测分支和第二局部预测分支，针对输入的人脸特征并行对人脸表情进行预测，分别得到第一局部预测结果、全局预测结果和第二局部预测结果。

其中，第一局部预测分支包括N个第一特征空间，该N个第一特征空间根据第一局部预测分支中卷积核的宽度对人脸特征切分得到。在该N个第一特征空间中分别执行预测操作，可以得到包括N个子空间预测结果的第一局部预测结果。同时，第二局部预测分支包括M个第二特征空间，该M个第二特征空间根据第二局部预测分支中卷积核的高度对人脸特征切分得到。在该M个第二特征空间中分别执行预测操作，可以得到包括M个子空间预测结果的第二局部预测结果。

通过采用宽度和高度切分对人脸特征进行划分，在不同的预测分支得到多个不同的特征空间，并在各特征空间中对特征进行独立处理的方式，相比相关技术中根据人脸结构切分的方式，划分得到的每个特征空间能够获取的信息更丰富，对信息的丢失更少，所以精度更高。

本申请实施例中，在各预测分支完成预测得到预测结果后，可以对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。其中，融合结果可以是预测得到的人脸表情为预设K类表情中每一类表情的概率，基于融合结果确定人脸表情可以是，确定最大概率对应的表情为该人脸图像中的人脸表情。

根据本申请实施例提供的技术方案，通过获取人脸图片，使用特征提取网络提取得到人脸图片的人脸特征，利用第一局部预测分支、全局预测分支和第二局部预测分支对人脸特征进行并行预测，得到第一局部预测结果、全局预测结果和第二局部预测结果，最后对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情，无需额外添加数据即可实现高精度人脸表情识别。同时通过在局部预测分支进行特征空间划分，并在各特征空间中进行独立预测，最后将独立预测结果与全局预测结果融合得到识别结果，提升了预测模型的鲁棒性，在遮挡条件下仍能实现高精度表情识别。

本申请实施例中，在进行表情识别之前，还可以首先获取训练数据，该训练数据包括训练用的人脸图像以及图像标签，该图像标签为训练用的人脸图像中的真实人脸表情。对训练数据中的人脸图像执行提取人脸特征，使用第一局部预测分支、全局预测分支和第二局部预测分支并行预测人脸表情，得到第一局部预测结果、全局预测结果和第二局部预测结果，对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情的步骤，并将确定的人脸表情与图像标签进行对比，得到损失值。在该损失值不满足预设阈值要求时更新特征提取模块和各并行预测分支中的网络参数，并使用更新后的特征提取模块再次执行提取人脸特征的步骤，使用更新后的各并行预测分支中再次执行并行预测人脸表情，并将各分支的预测结果融合确定人脸表情，以及基于确定的人脸表情与图像标签计算得到损失值的步骤，直至损失值满足预设阈值要求。也就是说，本申请实施例中使用的特征提取网络和各并行预测分支均为训练好的网络模块。

图3是本申请实施例提供的将人脸特征输入第一局部预测分支，预测得到第一局部预测结果的方法的流程示意图。如图3所示，该方法包括如下步骤：

在步骤S301中，在第一卷积层对人脸特征进行特征变换。

在步骤S302中，根据第一卷积层中卷积核的宽度对特征变换后的人脸特征进行切分，得到N个不同的特征空间。

在步骤S303中，在N个不同的特征空间中分别执行平均池化处理。

在步骤S304中，将N个不同特征空间中池化处理后的特征使用第一全连接层进行特征变换。

在步骤S305中，将使用第一全连接层进行特征变换后的特征输入第一分类层，得到第一局部预测结果。

本申请实施例中，第一局部预测分支可以包括第一卷积层、宽度切分层、第一平均池化层、第一全连接层和第一分类层。人脸特征输入该第一局部预测分支后，可以首先由第一卷积层进行特征变换，然后在宽度切分层对变换后的特征进行切分处理，具体的，可以根据第一卷积层中卷积核的宽度对特征变换后的人脸特征进行切分，得到N个不同的特征空间。随后，在该N个不同的特征空间中分别执行平均池化操作，并将N个不同特征空间中池化处理后的特征使用第一全连接层进行特征变换。最后，将使用第一全连接层进行特征变换后的特征输入第一分类层，得到第一局部预测结果。

图4是本申请实施例提供的将人脸特征输入第二局部预测分支，预测得到第二局部预测结果的方法的流程示意图。如图4所示，该方法包括如下步骤：

在步骤S401中，在第二卷积层对人脸特征进行特征变换。

在步骤S402中，根据第二卷积层中卷积核的高度对特征变换后的人脸特征进行切分，得到M个不同的特征空间。

在步骤S403中，在M个不同的特征空间中分别执行平均池化处理。

在步骤S404中，将M个不同特征空间中池化处理后的特征使用第二全连接层进行特征变换。

在步骤S405中，将使用第二全连接层进行特征变换后的特征输入第二分类层，得到第二局部预测结果。

本申请实施例中，第二局部预测分支可以包括第二卷积层、高度切分层、第二平均池化层、第二全连接层和第二分类层。人脸特征输入该第二局部预测分支后，可以首先由第二卷积层进行特征变换，然后在高度切分层对变换后的特征进行切分处理，具体的，可以根据第二卷积层中卷积核的高度对特征变换后的人脸特征进行切分，得到M个不同的特征空间。随后，在该M个不同的特征空间中分别执行平均池化操作，并将M个不同特征空间中池化处理后的特征使用第二全连接层进行特征变换。最后，将使用第二全连接层进行特征变换后的特征输入第二分类层，得到第二局部预测结果。其中，第一卷积层和第二卷积层的卷积核大小可以相同。在另一些实施方式中，第一卷积层和第二卷积层的卷积核大小可以不同。

图5是本申请实施例提供的将人脸特征输入全局预测分支，预测得到全局预测结果的方法的流程示意图。如图5所示，该方法包括如下步骤：

在步骤S501中，在第三卷积层对人脸特征进行特征变换。

在步骤S502中，对特征变换后的特征执行平均池化处理。

在步骤S503中，将平均池化处理后的特征使用第三全连接层进行特征变换。

在步骤S504中，将使用第三全连接层进行特征变换后的特征输入第三分类层，得到全局预测结果。

本申请实施例中，全局预测分支可以包括第三卷积层、第三平均池化层、第三全连接层和第三分类层。人脸特征输入该全局预测分支后，可以首先由第三卷积层进行特征变换，然后在第三平均池化层中执行平均池化操作，并将池化处理后的特征使用第三全连接层进行特征变换。最后，将使用第三全连接层进行特征变换后的特征输入第三分类层，得到全局预测结果。

本申请实施例中，第一局部预测结果可以包括N个子空间预测结果，第二局部预测结果可以包括M个子空间预测结果。也就是说，在第一局部预测分支，由于将人脸特征划分成了N个独立的特征空间，因此可以得到N个子空间预测结果。同样的，在第二局部预测分支，由于将人脸特征划分成了M个独立的特征空间，因此可以得到M个子空间预测结果。

本申请实施例中，在对第一局部预测结果、全局预测结果和第二局部预测结果进行融合时，可以采用两层融合策略。即，首先对第一局部预测结果中的N个子空间预测结果进行融合，得到第一局部融合预测结果。同时对第二局部预测结果中的M个子空间预测结果进行融合，得到第二局部融合预测结果。这是第一层融合策略。接下来，对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果。这是第二次融合策略。

也就是说，对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，可以包括：确定第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果；确定第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果；对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果。

本申请实施例中，第一局部预测结果和第二局部预测结果中的每个子空间预测结果，以及全局预测结果中的每个子空间预测结果，均包括K个预测置信度，其中，K个预测置信度为人脸图像中人脸表情分别为K个不同种类表情的概率，K为大于1的正整数。

本申请实施例中，确定第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果，可以是：计算第一局部预测结果的各子空间预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的平均值，得到K个第一融合概率。然后将K个第一融合概率组合，得到第一局部融合预测结果。

本申请实施例中，确定第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果，可以是：计算第二局部预测结果的各子空间预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的平均值，得到K个第二融合概率。然后将K个第二融合概率组合，得到第二局部融合预测结果。

本申请实施例中，对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果，可以是：计算第一局部融合预测结果、全局预测结果和第二局部融合预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的加权平均值，得到K个第三融合概率。然后将K个第三融合概率组合，得到融合结果。

一示例中，若在第一局部预测分支，按照宽度切分为9个块，即N＝9，每个块输出一个子空间预测结果，且每个子空间预测结果包括6个预测置信度，即K＝6此时可以计算该9个块的子空间预测结果中，每一表情对应的预测置信度的平均值，得到6个平均预测置信度，即6个第一融合概率。将该6个第一融合概率组合即可得到第一局部融合预测结果。采用类似的处理方式可以得到第二局部预测分支中的6个平均预测置信度，即6个第二融合概率。并将该6个第二融合概率组合得到第二局部融合预测结果。最后，对第一局部融合预测结果、全局预测结果和第二局部融合预测结果中每一表情对应的预测置信度进行加权求和计算，可以得到6个第三融合概率，并将该6个第三融合概率组合得到最终的融合预测结果。

在本申请实施例的一个优选实施方式中，在对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果时，第一局部融合预测结果、全局预测结果和第二局部融合预测结果的权重可以分别是0.2、0.5和0.3。

图6是本申请实施例提供的一种表情识别算法的训练方法的流程示意图。如图6所示，在对本申请实施例提供的表情识别算法进行训练时，可以首先输入人脸图片，然后用特征提取网络提取图片中的人脸特征。其中特征提取网络的初始化参数选用的是人脸识别网络的参数，因此均是提取人脸通用结构，接下来将提取的人脸特征送入并行预测分支，该分支内部把特征空间进行了划分，在不同子空间进行了预测。并行预测分支可以输出第一局部预测结果、全局预测结果和第二局部预测结果，这些预测结果表示在不同子空间的输出。接着把不同的预测结果进行融合，融合方式可以是把不同类别上的置信度取平均。再根据标签和综合预测结果计算损失，最后根据损失反向更新网络参数，并迭代执行以上步骤，直至损失满足预设条件要求。。

图7是本申请实施例提供的并行预测分支的结构示意图。如图7所示，该并行预测模块包括3个分支，分别是第一局部预测分支、全局预测分支和第二局部预测分支，每个分支的结果都会输出。

其中，第一局部预测分支包括卷积层、宽度切分层、平均池化层、全连接层和分类层。人脸特征输入第一局部预测分支后，首先用卷积层对特征进行变换，然后按照宽度进行切分，切分为不同的特征空间，接下来在不同的特征空间执行平均池化，然后进行全连接层特征变换，然后用分类层输出分类结果，该分类结果为第一局部预测结果，其为不同表情类别和其对应的置信度。

全局预测分支包括卷积层、平均池化层、全连接层和分类层。人脸特征输入全局预测分支后，进行正常的表情预测处理，即首先用卷积层进行特征变换，然后进行平均池化，接下来经过全连接层和分类层输出全局预测结果。

第二局部预测分支卷积层、高度切分层、平均池化层、全连接层和分类层。人脸特征输入第二局部预测分支后，首先用卷积层对原始特征进行变换，然后按照特征图高度进行切分，切分后在不同特征空间进行平均池化，然后经过全连接层、卷积层的处理，输出第二局部预测结果。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图8是本申请实施例提供的一种表情识别装置的示意图。如图8所示，该表情识别装置包括：

获取模块801，被配置为获取人脸图片。

特征提取模块802，被配置为使用特征提取网络提取人脸图片中的人脸特征。

预测模块803，被配置为将人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果，其中，第一局部预测分支包括N个第一特征空间，N个第一特征空间根据第一局部预测分支中卷积核的宽度对人脸特征切分得到，第二局部预测分支包括M个第二特征空间，M个第二特征空间根据第二局部预测分支中卷积核的高度对人脸特征切分得到，N和M均为大于1的正整数。

融合模块804，被配置为对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

本申请实施例中，将人脸特征输入第一局部预测分支，预测得到第一局部预测结果，包括：在第一卷积层对人脸特征进行特征变换；根据第一卷积层中卷积核的宽度对特征变换后的人脸特征进行切分，得到N个不同的特征空间；在N个不同的特征空间中分别执行平均池化处理；将N个不同特征空间中池化处理后的特征使用第一全连接层进行特征变换；将使用第一全连接层进行特征变换后的特征输入第一分类层，得到第一局部预测结果。

本申请实施例中，将人脸特征输入第二局部预测分支，预测得到第二局部预测结果，包括：在第二卷积层对人脸特征进行特征变换；根据第二卷积层中卷积核的高度对特征变换后的人脸特征进行切分，得到M个不同的特征空间；在M个不同的特征空间中分别执行平均池化处理；将M个不同特征空间中池化处理后的特征使用第二全连接层进行特征变换；将使用第二全连接层进行特征变换后的特征输入第二分类层，得到第二局部预测结果。

本申请实施例中，将人脸特征输入全局预测分支，预测得到全局预测结果，包括：在第三卷积层对人脸特征进行特征变换；对特征变换后的特征执行平均池化处理；将平均池化处理后的特征使用第三全连接层进行特征变换；将使用第三全连接层进行特征变换后的特征输入第三分类层，得到全局预测结果。

本申请实施例中，第一局部预测结果包括N个子空间预测结果，第二局部预测结果包括M个子空间预测结果；对第一局部预测结果、全局预测结果和第二局部预测结果进行融合，包括：确定第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果；确定第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果；对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果。

本申请实施例中，第一局部预测结果和第二局部预测结果中的每个子空间预测结果，以及全局预测结果中的每个子空间预测结果，均包括K个预测置信度，其中，K个预测置信度为人脸图像中人脸表情分别为K个不同种类表情的概率，K为大于1的正整数；确定第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果，包括：计算第一局部预测结果的各子空间预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的平均值，得到K个第一融合概率；将K个第一融合概率组合，得到第一局部融合预测结果；确定第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果，包括：计算第二局部预测结果的各子空间预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的平均值，得到K个第二融合概率；将K个第二融合概率组合，得到第二局部融合预测结果；对第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到融合结果，包括：计算第一局部融合预测结果、全局预测结果和第二局部融合预测结果中，人脸表情为K个不同种类表情中同一种类表情的概率的加权平均值，得到K个第三融合概率；将K个第三融合概率组合，得到融合结果。

本申请实施例中，第一局部融合预测结果、全局预测结果和第二局部融合预测结果的权重分别为0.2、0.5和0.3。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图9是本申请实施例提供的电子设备的示意图。如图9所示，该实施例的电子设备9包括：处理器901、存储器902以及存储在该存储器902中并且可在处理器901上运行的计算机程序903。处理器901执行计算机程序903时实现上述各个方法实施例中的步骤。或者，处理器901执行计算机程序903时实现上述各装置实施例中各模块/单元的功能。

电子设备9可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备9可以包括但不仅限于处理器901和存储器902。本领域技术人员可以理解，图9仅仅是电子设备9的示例，并不构成对电子设备9的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器901可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器902可以是电子设备9的内部存储单元，例如，电子设备9的硬盘或内存。存储器902也可以是电子设备9的外部存储设备，例如，电子设备9上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。存储器902还可以既包括电子设备9的内部存储单元也包括外部存储设备。存储器902用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种表情识别方法，其特征在于，包括：

获取人脸图片；

使用特征提取网络提取所述人脸图片中的人脸特征；

将所述人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果，其中，所述第一局部预测分支包括N个第一特征空间，所述N个第一特征空间根据第一局部预测分支中卷积核的宽度对所述人脸特征切分得到，所述第二局部预测分支包括M个第二特征空间，所述M个第二特征空间根据第二局部预测分支中卷积核的高度对所述人脸特征切分得到，N和M均为大于1的正整数；

对所述第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

2.根据权利要求1所述的方法，其特征在于，将人脸特征输入第一局部预测分支，预测得到第一局部预测结果，包括：

在第一卷积层对所述人脸特征进行特征变换；

根据所述第一卷积层中卷积核的宽度对所述特征变换后的人脸特征进行切分，得到N个不同的特征空间；

在所述N个不同的特征空间中分别执行平均池化处理；

将所述N个不同特征空间中池化处理后的特征使用第一全连接层进行特征变换；

将使用第一全连接层进行特征变换后的特征输入第一分类层，得到所述第一局部预测结果。

3.根据权利要求1所述的方法，其特征在于，将人脸特征输入第二局部预测分支，预测得到第二局部预测结果，包括：

在第二卷积层对所述人脸特征进行特征变换；

根据所述第二卷积层中卷积核的高度对所述特征变换后的人脸特征进行切分，得到M个不同的特征空间；

在所述M个不同的特征空间中分别执行平均池化处理；

将所述M个不同特征空间中池化处理后的特征使用第二全连接层进行特征变换；

将使用第二全连接层进行特征变换后的特征输入第二分类层，得到所述第二局部预测结果。

4.根据权利要求1所述的方法，其特征在于，将人脸特征输入全局预测分支，预测得到全局预测结果，包括：

在第三卷积层对所述人脸特征进行特征变换；

对所述特征变换后的特征执行平均池化处理；

将所述平均池化处理后的特征使用第三全连接层进行特征变换；

将使用第三全连接层进行特征变换后的特征输入第三分类层，得到所述全局预测结果。

5.根据权利要求1所述的方法，其特征在于，所述第一局部预测结果包括N个子空间预测结果，所述第二局部预测结果包括M个子空间预测结果；

所述对所述第一局部预测结果、全局预测结果和第二局部预测结果进行融合，包括：

确定所述第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果；

确定所述第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果；

对所述第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到所述融合结果。

6.根据权利要求5所述的方法，其特征在于，所述第一局部预测结果和第二局部预测结果中的每个子空间预测结果，以及所述全局预测结果中的每个子空间预测结果，均包括K个预测置信度，其中，所述K个预测置信度为所述人脸图像中人脸表情分别为K个不同种类表情的概率，K为大于1的正整数；

所述确定所述第一局部预测结果中的N个子空间预测结果的平均值为第一局部融合预测结果，包括：

计算第一局部预测结果的各子空间预测结果中，人脸表情为所述K个不同种类表情中同一种类表情的概率的平均值，得到K个第一融合概率；

将所述K个第一融合概率组合，得到所述第一局部融合预测结果；

所述确定所述第二局部预测结果中的M个子空间预测结果的平均值为第二局部融合预测结果，包括：

计算第二局部预测结果的各子空间预测结果中，人脸表情为所述K个不同种类表情中同一种类表情的概率的平均值，得到K个第二融合概率；

将所述K个第二融合概率组合，得到所述第二局部融合预测结果；

对所述第一局部融合预测结果、全局预测结果和第二局部融合预测结果进行加权平均处理，得到所述融合结果，包括：

计算第一局部融合预测结果、全局预测结果和第二局部融合预测结果中，人脸表情为所述K个不同种类表情中同一种类表情的概率的加权平均值，得到K个第三融合概率；

将所述K个第三融合概率组合，得到所述融合结果。

7.根据权利要求5所述的方法，其特征在于，所述第一局部融合预测结果、全局预测结果和第二局部融合预测结果的权重分别为0.2、0.5和0.3。

8.一种表情识别装置，其特征在于，包括：

获取模块，被配置为获取人脸图片；

特征提取模块，被配置为使用特征提取网络提取所述人脸图片中的人脸特征；

预测模块，被配置为将所述人脸特征分别输入第一局部预测分支、全局预测分支和第二局部预测分支，预测得到第一局部预测结果、全局预测结果和第二局部预测结果，其中，所述第一局部预测分支包括N个第一特征空间，所述N个第一特征空间根据第一局部预测分支中卷积核的宽度对所述人脸特征切分得到，所述第二局部预测分支包括M个第二特征空间，所述M个第二特征空间根据第二局部预测分支中卷积核的高度对所述人脸特征切分得到，N和M均为大于1的正整数；

融合模块，被配置为对所述第一局部预测结果、全局预测结果和第二局部预测结果进行融合，基于融合结果确定人脸表情。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。