CN110909595A

CN110909595A - 面部动作识别模型训练方法、面部动作识别方法

Info

Publication number: CN110909595A
Application number: CN201910969549.4A
Authority: CN
Inventors: 罗琳耀; 徐国强; 邱寒
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-24
Anticipated expiration: 2039-10-12
Also published as: WO2021068325A1; CN110909595B

Abstract

本申请涉及一种基于神经网络的面部动作识别模型训练方法、面部动作识别方法、计算机设备和存储介质。所述方法包括：获取面部动作识别数据集，面部动作图像识别数据集中包括多种面部动作图像；将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像；基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集；将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。采用本方法能够提升面部动作识别模型识别的准确率。

Description

面部动作识别模型训练方法、面部动作识别方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种面部动作识别模型训练方法、面部动作识别方法、计算机设备和存储介质。

背景技术

人脸识别又称为面部识别，面部动作识别则是指能够识别人脸面部具体动作表情。现有技术中，为了得到更好的识别效果，通常使用训练好的神经网络模型作为面部动作识别模型进行面部动作识别。

然而，由于传统训练面部动作识别模型的训练数据都是从开源上获取，数据量不仅有限，而且大部分数据的特征是相同的，特征比较单一，从而导致模型识别的准确率下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型准确率的面部动作识别模型训练方法、面部动作识别方法、计算机设备和存储介质。

一种面部动作识别模型训练方法，所述方法包括：

获取面部动作识别数据集，面部动作图像识别数据集中包括多种面部动作图像；

将所述面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用所述多任务卷积神经网络对所述面部动作图像进行面部检测，得到多个对应的面部特征图像；

基于预设规则分别对所述面部特征图像添加黑块，得到的图像作为训练图像集；

将所述训练图像集输入预设的待训练神经网络，以对所述待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在其中一个实施例中，所述基于预设规则分别对所述面部特征图像添加黑块，得到的图像作为训练图像集，包括：

分别为所述面部特征图像生成对应的随机数，根据所述随机数确定对应的面部特征图像是否添加图像；

若根据所述随机数确定添加图像，则基于所述随机数与对应的面部特征图像，确定黑块信息；

根据所述黑块信息，在对应的面部特征图像上添加黑块，得到的图像作为训练图像集。

在其中一个实施例中，所述基于预设规则分别对所述面部特征图像添加黑块，得到的图像作为训练图像集之前，包括：

将所述面部特征图像进行数据增强，得到数据增强后的面部特征图像。

在其中一个实施例中，所述将所述面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用所述多任务卷积神经网络对所述面部动作图像进行面部检测，得到面部特征图像，包括：

将所述面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；

利用多任务卷积神经网络对所述图像金字塔进行特征提取和边框标定，得到第一特征图；

过滤所述第一特征图中标定的边框，获得第二特征图，根据所述第二特征图得到面部特征图像。

在其中一个实施例中，所述将所述训练图像集输入预设的待训练神经网络，以对所述待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：

初始化所述待训练神经网络的网络参数；

将所述训练图像集按批量输入至所述待训练神经网络，所述待训练神经网络基于预设的第一学习率进行训练，得到所述待训练神经网络的网络参数的梯度值；

根据所述梯度值更新所述待训练神经网络的网络参数，得到已更新网络参数的神经网络；

将已更新网络参数的神经网络作为待训练神经网络，并返回将所述训练图像集按批量输入至所述待训练神经网络步骤，直至所述待训练神经网络的损失函数收敛为止，将损失函数收敛的待训练神经网络作为面部动作识别模型。

初始化所述待训练神经网络的网络参数；

将所述训练图像集按批量输入至所述待训练神经网络，所述待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在其中一个实施例中，所述将所述训练图像集按批量输入至所述待训练神经网络，所述待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：

将所述训练图像集按批量输入至待训练神经网络，所述待训练神经网络基于所述第一学习率和第二学习率进行第一阶段训练，将第一阶段训练好的神经网络作为初始面部动作识别模型；

将所述训练图像集按批量输入至所述初始面部动作识别模型，所述初始面部动作识别模型基于预设的第二学习率进行第二阶段训练，将第二阶段训练好的初始面部动作识别模型作为面部动作识别模型。

一种面部动作识别方法，所述方法包括：

获取待识别面部动作图像；

利用上述任意一项所述的面部动作识别模型训练方法所训练的面部动作识别模型，对所述待识别面部动作图像进行面部动作识别，得到识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任意一项所述的面部动作识别模型训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任意一项所述的面部动作识别模型训练方法的步骤。

上述面部动作识别模型训练方法、面部动作识别方法、计算机设备和存储介质，获取包括多种面部动作图像的面部动作识别数据集后，通过多任务卷积神经网络对各面部动作识别数据集中的面部动作图像进行面部检测，得到多种对应的面部特征图像，从而确定各面部图像的图像特征，实现图像特征的自动标注。然后，基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集，从而确保训练样本的多样性。将训练图像集输入预设的待训练神经网络对待训练神经网络进行训练，得到面部动作识别模型，从而确保提高神经网络的鲁棒性，提升面部动作识别模型识别的准确率。

附图说明

图1为一个实施例中面部动作识别模型训练方法的应用场景图；

图2为一个实施例中面部动作识别模型训练方法的流程示意图；

图3为另一个实施例中面部动作识别模型训练方法的流程示意图；

图4为一个实施例中得到面部特征图像步骤的流程示意图；

图5为一个实施例中面部动作识别模型训练装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的面部动作识别模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104接收终端102发送的模型训练指令，服务器104响应模型训练指令获取面部动作识别数据集，面部动作图像识别数据集中包括多种面部动作图像。服务器104将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像。服务器104基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集。服务器104将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种面部动作识别模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取面部动作识别数据集，面部动作图像识别数据集中包括多种面部动作图像。

其中，面部动作识别数据集为包括多张面部动作图像的集合，可以理解为，面部动作数据集中的面部动作图像为多种不同类型的图像，例如包括不同表情动作、不同性别、不同年龄、不同造型以及不同颜色等等。面部动作识别数据集中的面部动作图像可以为人工预先采集存储在数据库中，也可以利用爬虫从开源数据库上获取。

具体地，当用户有训练面部动作识别模型需求时，通过操作终端向服务器下发模型训练指令。当服务器接收到模型训练指令之后，响应模型训练指令从数据库中获取预先存储的面部动作识别数据集。或者，利用模型训练指令中携带的URL(Uniform ResourceLocator，统一资源定位符)链接从开源上爬虫获取面部动作识别数据集。

步骤S204，将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像。

其中，多任务卷积神经网络(Multi-task convolutional neural network，Mtcnn)是用于人脸检测的神经网络。Mtcnn可分为三大部分，分别为P-Net(ProposalNetwork，提案网络)、R-Net(Refine Network，优化网络)和O-Net(Output Network，输出网络)三层网络结构。P-Net基本的构造是一个全连接神经网络，R-Net基本的构造是一个卷积神经网络，R-Net相比于P-Net来说，增加了一个全连接层，因此R-Net对于输入数据的筛选会更加严格。R-Net而O-Net是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征点进行回归，最终输出包括面部特征点的面部特征图像。

具体地，当服务器获取到面部动作识别数据集后，调用预设的多任务卷积神经网络。将面部动作识别数据集中的各面部动作图像分别输入至多任务卷积神经网络，面部动作图像依次经过多任务卷积神经网络的P-Net、R-Net和O-Net进行检测，得到对应的面部特征图像。即P-Net输出的图像作为R-Net的输入，R-Net输出的图像作为O-Net的输入。可以理解为，由于面部动作识别数据集中包括多种不同的面部动作图像，以及每张面部动作图像均能得到对应的面部特征图像，则最终得到的面部特征图像同样多种不同的图像，且每种面部特征图像都有对应的面部动作图像。

步骤S206，基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集。

其中，预设规则是指存储有用于指示如何添加黑块的规则的文件。黑块是指颜色为黑色或者灰色的遮挡图形，即灰度值在0-50之间。其中，当灰度值为0的时候，黑块的颜色为全黑色。黑块可以理解为各种形状不一致的图形。例如，黑块可以为三角形、圆形、正方形或者不规则形状。训练数据集则是指添加了黑块的面部特征图像的集合，即训练数据集中包括多张已经添加黑块的面部特征图像。或者，为了增加数据的多样性，训练数据集中可以包括已经添加黑块的面部特征图像，以及确定不添加黑块的面部特征图像，即包括包含黑块和不包含黑块两种类型的面部特征图像。

在一个实施例中，基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集，包括：分别为面部特征图像生成对应的随机数，根据随机数确定对应的面部特征图像是否添加图像；若根据随机数确定添加图像，则基于随机数与对应的面部特征图像，确定黑块信息；根据黑块信息，在对应的面部特征图像上添加黑块，得到的图像作为训练图像集。

其中，随机数是指随机生成的数值，随机数的范围为0～1，通过随机数确定是否添加黑块。黑块信息包括黑块覆盖位置、覆盖角度以及颜色。

具体地，当获取到面部特征图像之后，服务器随机生成0～1的随机数。将生成的随机数与预设随机数进行比较，当生成的随机数大于等于预设随机数时，则确定为该面部特征图像添加黑块，反之则不添加黑块。例如，面部特征图像包括图像1、图像2以及图像3，则随机生成一个随机数1作为决定图像1是否被添加黑块的随机数。当图像1添加黑块后或者确定不添加黑块后，再次生成一个随机数2作为决定图像2是否被添加黑块的随机数。同理，图像3的随机数在图像2添加黑块之后或者确定不添加黑块后生成。当确定为面部特征图像添加黑块之后，获取该面部特征图像的像素、预设的角度、以及预设的灰度值。将随机数与面部特征图像的像素相乘、与预设角度相乘以及与预设灰度值相乘，从而确定黑块信息，即黑块的位置、角度和颜色。即，将生成的随机数分别与像素、预设的角度以及预设的灰度值进行相乘，得到的三个值分别表示黑块的位置、角度和颜色。确定黑块信息后，即根据黑块信息生成对应的黑块以及将黑块覆盖到面部特征图像上。其中，预设随机数为0.7，即生成的随机数若大于等于0.7，则表示添加黑块，若小于0.7则表示不添加黑块。

在本实施例中，由于传统训练面部动作的数据量过少，且大部分数据集属于无遮挡状态。然而，在实际应用场景中，通常都会遇到面部被遮挡的情况，例如口罩、帽子以及手部动作都会造成一定遮挡。因此以这种无遮挡数据进行训练的面部动作识别模型与实际应用场景不同，使得模型在实际应用中的准确率不高。因此通过对获取到的多种不同的面部特征图像随机添加不同的黑块，使得被添加了黑块的面部特征图像通过黑块遮挡图像中的部分特征，从而保证多样性的训练数据，从而通过无遮挡图像以及有遮挡图像训练神经网络，能够提高神经网络的鲁棒性以及提高模型的准确率。

步骤S208，将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。

具体地，将获取的训练图像集按批量输入至预设的神经网络中，使得神经网络学习训练图像集中各面部特征图像的特征，从而完成训练。将基于训练图像集训练好的神经网络作为面部动作识别模型。其中，本实施例中预设的神经网络模型为ResNet50网络结构。

上述面部动作识别模型训练方法、装置、计算机设备和存储介质，获取面部动作识别数据集后，通过多任务卷积神经网络对面部动作识别数据集中的面部动作图像进行面部检测，得到面部特征图像，从而确定各面部图像的图像特征，实现图像特征的自动标注。然后，基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集，从而确保训练样本的多样性。将训练图像集输入预设的待训练神经网络对待训练神经网络进行训练，得到面部动作识别模型，从而确保提高神经网络的鲁棒性，提升面部动作识别模型识别的准确率。

在一个实施例中，如图3所示，提供另一种面部动作识别模型训练方法，在步骤S206，基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集之前，还包括步骤S205，将面部特征图像进行数据增强，得到数据增强后的面部特征图像。

具体地，在基于预设规则对面部特征图像添加黑块之前，将面部特征图像进行数据增强。数据增强是指基本常用的数据增强方法，包括但不限于旋转改变图像的朝向、沿着水平或者垂直方向翻转变换、按照比例放大或者缩小、对比度变换等等。即，将面部特征图像进行数据增强后，得到面部特征图像以及与其对应的数据增强后的面部特征图像。然后，为原始的面部特征图像、以及经过数据增强的面部特征图像分别生成对应的随机数，用于确定其是否需要添加黑块，从而保证训练数据的多样性。在本实施例中，由于传统大多训练以及使用人脸识别模型较多，因此对于面部动作识别模型的数据量较少，通过数据增强可以增强训练面部动作识别模型的数据量。

在一个实施例中，如图4所示，将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像，包括以下步骤：

步骤S402，将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔。

其中，图像金字塔是指通过不同尺寸的图像构建成的金字塔，可以理解为，最底层的图像的尺寸最大，最上层的图像的尺寸最小，即每一张图像的尺寸大于上一层的图像的尺寸，小于下一层的图像的尺寸，从而构造出图像金字塔。

具体地，对面部动作图像进行缩放处理，即缩小或者放大处理，得到该面部动作图像对应的尺寸不一致的面部动作图像。将尺寸不一致的面部特征图像按照尺寸从大到小叠加排序得到对应的图像金字塔。面部动作识别数据集中的各面部动作图像均进行缩放处理，得到对应的图像金字塔。可以理解为，每张面部动作图像均有对应的图像金字塔。

步骤S404，利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图。

具体地，将利用多任务卷积神经网络中的P-Net对图像金字塔进行初步特征提取与边框标定，得到包括多个标定边框的特征图。通过对该特征图进行Bounding-BoxRegression(边框回归向量)调整边框和使用NMS(非极大值抑制)进行大部分边框的过滤，也就是合并重叠的边框，从而得到第一特征图像。其中，Bounding-Box Regression的作用是网络预测得到边框进行微调，使其接近真实值。而NMS就是抑制不是极大值的元素，使用该方法可以快速去掉重合度很高且标定相对不准确的边框。

步骤S406，过滤所述第一特征图中标定的边框，获得第二特征图，根据所述第二特征图得到面部特征图像。

具体地，由于在面部特征图像经过P-Net之后，会输出的第一特征图还是留下了许多预测窗口。因此，将第一特征图输入至R-Net，通过R-Net对第一特征图进行大部分的边框进行过滤，确定候选边框。同样的，进一步对候选边框进行Bounding-Box Regression(边框回归)调整边框和使用NMS(非极大值抑制)，从而得到只包括一个边框的第二特征图。也就是说，利用R-Net进一步优化预测结果。最后，将R-Net输出的第二特征图输入至O-Net中，利用O-Net对只包括一个边框的第二特征图进行更进一步的特征提取，最终输出包括人脸标定的五个特征点的面部特征图像。其中，五个特征点分别为左眼、有眼、鼻子、左嘴角和右嘴角。在本实施例中，通过多任务卷积神经网络进行检测得到包括特征点的面部特征图像，无需人工手动进行特征点的标注。

在一个实施例中，将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型，具体包括：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率进行训练，得到待训练神经网络的网络参数的梯度值；根据梯度值更新待训练神经网络的网络参数，得到已更新网络参数的神经网络；将已更新网络参数的神经网络作为待训练神经网络，并返回将训练图像集按批量输入至待训练神经网络步骤，直至待训练神经网络的损失函数收敛为止，将损失函数收敛的待训练神经网络作为面部动作识别模型。

具体地，利用Xavier方法初始预设待训练神经网络中每一层的网络参数，其中，Xavier是一种很有效的神经网络初始化的方法。确定好待训练神经网络的初始网络参数后，将训练图像集按批量(batch)输入至待训练神经网络。即将训练图像集中的面部特征图像按batch分批输入至神经网络，在本实施例中，batch优选为128。可以理解为，将训练图像集中的面部特征图像128张为一批方式输入至网络参数初始化后的待训练神经网络中，待训练神经网络中的特征层和分类层基于预设的第一学习率对输入的面部特征图像进行前向传播，得到对应的输出值。其中，第一学习率为预先设置好的，第一学习率固定为0.001，可以理解为，待训练神经网络中的特征层和分类层均使用第一学习率。待训练神经网络根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对网络参数进行更新。然后，将下一批面部特征图像输入至网络参数更新后的待训练神经网络，待训练神经网络同样基于该第一学习率，重新进行训练。即输入第二批面部特征图像，待训练神经网络基于第一学习率，再次对输入的面部特征图像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新网络参数。重复上述步骤进行迭代训练，直到损失函数收敛为止。可以理解为，若损失函数一直不收敛，则表示神经网络的各个网络参数并未达到最优值，即还需要进行训练，而损失函数收敛，则表示神经网络到了最优，可以将该神经网络作为面部动作识别模型投入使用。也就是说，当第二批面部特征图像训练完成后，若损失函数还未收敛，即可在第二次更新网络参数后再次输入第三批面部特征图像，一直到损失函数收敛为止。损失函数收敛可以理解为损失函数计算的损失值趋向于0，趋向于0则表示神经网络的预测值和期望值越接近，表示神经网络训练完成。其中，预设的待训练神经网络的网络结构为优化的ResNet50模型，与传统ResNet50模型的区别在于将最后一层全连接层更换成输出通道为12的全连接层。而输出值包括预测值和真实标签，基于预测值和真实标签，以及损失函数计算损失值。在本实施例中，损失函数优选binary cross entropy loss(二元交叉熵损失)函数，进行训练所使用的优化器为adam优化器。

在另一个实施例中，将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型，具体包括：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型。

具体地，利用InsightFace和Xavier初始化方法对待训练神经网络进行网络参数的初始化，其中，InsightFace是一种人脸识别模型。即，通过InsightFace预训练模型的参数初始化本实施例中待训练神经网络中特征层的网络参数，利用Xavier初始化方法初始化本实施例中待训练神经网络中分类层的网络参数。可以理解为，待训练神经网络的全连接层使用Xavier初始化方法进行网络参数的初始化，其他层的网络参数则初始化为InsightFace预训练模型的参数，即将InsightFace预训练模型的参数迁移到待训练神经网络中。当待训练神经网络的网络参数初始化后，将训练图像集按批量(batch)输入至待训练神经网络。即将训练图像集中的面部特征图像按batch分批输入至神经网络，在本实施例中，batch优选为128。可以理解为，将训练图像集中的面部特征图像128张为一批方式输入至网络参数初始化后的待训练神经网络中。待训练网络基于预设的第一学习率和第二学习率，分阶段进行训练。第一学习率为0.001，第二学习率为0.0001。其中，在本实施例中，待训练神经网络的网络结构同样优化的ResNet50模型，即将传统ResNet50模型最后一层全连接层更换成输出通道为12的全连接层。优化器同样使用adam优化器，损失函数优选binarycross entropy loss(二元交叉熵损失)函数。

在一个实施例中，将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：将训练图像集按批量输入至待训练神经网络，待训练神经网络基于第一学习率和第二学习率进行第一阶段训练，将第一阶段训练好的待训练神经网络作为初始面部动作识别模型；将训练图像集按批量输入至初始面部动作识别模型，初始面部动作识别模型基于预设的第二学习率进行第二阶段训练，将第二阶段训练好的初始面部动作识别模型作为面部动作识别模型。

其中，第一学习率为待训练神经网络中的分类层的学习率，即全连接层的学习率。第二学习率为待训练神经网络中的特征层的学习率，即除全连接层以外其他层的学习率。

具体地，将训练图像集中的面部特征图像按批量输入至待训练神经网络，首先从训练图像集中按批量选择第一批面部特征图像输入至待训练神经网络，待训练神经网络中的特征层基于第二学习率，以及分类层基于第一学习率对面部特征图像进行前向传播，得到对应的输出值。待训练神经网络根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对网络参数进行更新。然后，将下一批面部特征图像输入至网络参数更新后的待训练神经网络，待训练神经网络中的分类层同样基于第一学习率、特征层同样基于第二学习率，重新进行训练。即，输入第二批面部特征图像至已更新网络参数的待训练神经网络，待训练神经网络中的特征层基于第二学习率，分类层基于第一学习率对再次对输入的面部特征图像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新网络参数。重复上述步骤进行迭代训练，直到损失函数收敛为止，将损失函数收敛后得到的待训练神经网络作为初始面部动作识别模型。

进一步，得到初始面部动作识别模型之后，进行第二阶段的训练。即，重新将训练图像集中的面部特征图像按批量输入至初始面部动作识别模型，初始面部动作识别模型中的特征层和全连接层均基于第二学习率对面部特征图像进行前向传播，得到对应的输出值。初始面部动作识别模型根据预设的损失函数以及对应的输出值计算本次训练的损失值，基于损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对初始面部动作识别模型中的网络参数进行更新。同样的，将下一批面部特征图像输入至网络参数更新后的初始面部动作识别模型，初始面部动作识别模型中的特征层和分类层均基于第二学习率，重新进行训练。即，输入第二批面部特征图像至已更新网络参数的初始面部动作识别模型，初始面部动作识别模型中的特征层和分类层基于第二学习率再次对输入的面部特征图像进行前向传播，同样得到对应的输出值并计算损失值之后进行反向传播再次更新初始面部动作识别模型的网络参数。重复上述步骤进行迭代训练，直到初始面部动作识别模型的损失函数收敛为止，将损失函数收敛后得到的初始面部动作识别模型作为最终的面部动作识别模型。在本实施例中，由于传统训练面部动作的训练数据较少，通常会导致模型训练时过拟合以及收敛速度过慢。本实例从InsightFace中迁移得到特征层的网络参数，并且特征层和分类层使用不同的学习率，不仅能够使得模型特征提取层的参数倾向于人脸识别参数，同时加快了分类层的收敛速度。

在一个实施例中，当经过训练得到面部动作识别模型之后，即可利用该面部动作识别模型进行面部动作识别。具体地，获取待识别面部动作图像，将待识别面部动作图像输入至该面部动作识别模型。该面部动作识别模型通过对待识别面部动作图像进行特征提取，以及对特征进行分类后确定待识别面部动作图像中面部的动作，例如不同的面部动作表情、张嘴、闭眼等动作。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种面部动作识别模型训练装置，包括：获取模块502、标注模块504、添加模块506和训练模块508，其中：

获取模块502，用于获取面部动作识别数据集，面部动作图像识别数据集中包括多种面部动作图像。

标注模块504，用于将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像。

添加模块506，用于基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集。

训练模块508，用于将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在一个实施例中，添加模块506还用于分别为面部特征图像生成对应的随机数，根据随机数确定对应的面部特征图像是否添加图像；若根据随机数确定添加图像，则基于随机数与对应的面部特征图像，确定黑块信息；根据黑块信息，在对应的面部特征图像上添加黑块，得到的图像作为训练图像集。

在一个实施例中，面部动作识别模型训练装置还包括数据增强模块，用于将面部特征图像进行数据增强，得到数据增强后的面部特征图像。

在一个实施例中，标注模块504还用于将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤所述第一特征图中标定的边框，获得第二特征图，根据所述第二特征图得到面部特征图像。

在一个实施例中，训练模块508还用于初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率进行训练，得到待训练神经网络的网络参数的梯度值；根据梯度值更新待训练神经网络的网络参数，得到已更新网络参数的神经网络；将已更新网络参数的神经网络作为待训练神经网络，并返回将训练图像集按批量输入至待训练神经网络步骤，直至待训练神经网络的损失函数收敛为止，将损失函数收敛的待训练神经网络作为面部动作识别模型。

在一个实施例中，训练模块508还用于初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在一个实施例中，训练模块508还用于将训练图像集按批量输入至待训练神经网络，待训练神经网络基于第一学习率和第二学习率进行第一阶段训练，将第一阶段训练好的待训练神经网络作为初始面部动作识别模型；将训练图像集按批量输入至初始面部动作识别模型，初始面部动作识别模型基于预设的第二学习率进行第二阶段训练，将第二阶段训练好的初始面部动作识别模型作为面部动作识别模型。

关于面部动作识别模型训练装置的具体限定可以参见上文中对于面部动作识别模型训练方法的限定，在此不再赘述。上述面部动作识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面部动作识别模型训练方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用多任务卷积神经网络对面部动作图像进行面部检测，得到多种对应的面部特征图像；

基于预设规则分别对面部特征图像添加黑块，得到的图像作为训练图像集；

将训练图像集输入预设的待训练神经网络，以对待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别为面部特征图像生成对应的随机数，根据随机数确定对应的面部特征图像是否添加图像；若根据随机数确定添加图像，则基于随机数与对应的面部特征图像，确定黑块信息；根据黑块信息，在对应的面部特征图像上添加黑块，得到的图像作为训练图像集。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将面部特征图像进行数据增强，得到数据增强后的面部特征图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤所述第一特征图中标定的边框，获得第二特征图，根据所述第二特征图得到面部特征图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率进行训练，得到待训练神经网络的网络参数的梯度值；根据梯度值更新待训练神经网络的网络参数，得到已更新网络参数的神经网络；将已更新网络参数的神经网络作为待训练神经网络，并返回将训练图像集按批量输入至待训练神经网络步骤，直至待训练神经网络的损失函数收敛为止，将损失函数收敛的待训练神经网络作为面部动作识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将训练图像集按批量输入至待训练神经网络，待训练神经网络基于第一学习率和第二学习率进行第一阶段训练，将第一阶段训练好的待训练神经网络作为初始面部动作识别模型；将训练图像集按批量输入至初始面部动作识别模型，初始面部动作识别模型基于预设的第二学习率进行第二阶段训练，将第二阶段训练好的初始面部动作识别模型作为面部动作识别模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别为面部特征图像生成对应的随机数，根据随机数确定对应的面部特征图像是否添加图像；若根据随机数确定添加图像，则基于随机数与对应的面部特征图像，确定黑块信息；根据黑块信息，在对应的面部特征图像上添加黑块，得到的图像作为训练图像集。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将面部特征图像进行数据增强，得到数据增强后的面部特征图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤所述第一特征图中标定的边框，获得第二特征图，根据所述第二特征图得到面部特征图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率进行训练，得到待训练神经网络的网络参数的梯度值；根据梯度值更新待训练神经网络的网络参数，得到已更新网络参数的神经网络；将已更新网络参数的神经网络作为待训练神经网络，并返回将训练图像集按批量输入至待训练神经网络步骤，直至待训练神经网络的损失函数收敛为止，将损失函数收敛的待训练神经网络作为面部动作识别模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：初始化待训练神经网络的网络参数；将训练图像集按批量输入至待训练神经网络，待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将训练图像集按批量输入至待训练神经网络，待训练神经网络基于第一学习率和第二学习率进行第一阶段训练，将第一阶段训练好的待训练神经网络作为初始面部动作识别模型；将训练图像集按批量输入至初始面部动作识别模型，初始面部动作识别模型基于预设的第二学习率进行第二阶段训练，将第二阶段训练好的初始面部动作识别模型作为面部动作识别模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面部动作识别模型训练方法，所述方法包括：

获取面部动作识别数据集，所述面部动作图像识别数据集中包括多种面部动作图像；

将所述面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用所述多任务卷积神经网络对所述面部动作图像进行面部检测，得到多种对应的面部特征图像；

2.根据权利要求1所述的方法，其特征在于，所述基于预设规则分别对所述面部特征图像添加黑块，得到的图像作为训练图像集，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于预设规则分别对所述面部特征图像添加黑块，得到的图像作为训练图像集之前，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述面部动作识别数据集中的各面部动作图像输入至预设的多任务卷积神经网络，以利用所述多任务卷积神经网络对所述面部动作图像进行面部检测，得到面部特征图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述训练图像集输入预设的待训练神经网络，以对所述待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：

初始化所述待训练神经网络的网络参数；

6.根据权利要求1所述的方法，其特征在于，所述将所述训练图像集输入预设的待训练神经网络，以对所述待训练神经网络进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：

初始化所述待训练神经网络的网络参数；

7.根据权利要求6所述的方法，其特征在于，所述将所述训练图像集按批量输入至所述待训练神经网络，所述待训练神经网络基于预设的第一学习率和第二学习率进行训练，将训练好的待训练神经网络作为面部动作识别模型，包括：

8.一种面部动作识别方法，其特征在于，所述方法包括：

获取待识别面部动作图像；

利用权利要求1-7任意一项所述的面部动作识别模型训练方法所训练的面部动作识别模型，对所述待识别面部动作图像进行面部动作识别，得到识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。