CN113947803B

CN113947803B - 模型训练、用于人脸识别的样本数据生成方法及电子设备

Info

Publication number: CN113947803B
Application number: CN202111575705.2A
Authority: CN
Inventors: 李立业; 吴坚; 朱海涛; 付贤强
Original assignee: Beijing Dilusense Technology Co Ltd; Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-25
Anticipated expiration: 2041-12-22
Also published as: CN113947803A

Abstract

本发明实施例涉及人脸识别领域，公开了一种模型训练、用于人脸识别的样本数据生成方法及电子设备，通过获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像；以同一人脸的第一标准深度图像作为图像样本、相同表情类型的第二标准深度图像和第三标准深度图像依次作为图像样本的第一特征标签和第二特征标签；基于图像样本、第一特征标签和第二特征标签联合训练第一特征提取模型和第二特征提取模型，以最终得到输入为人脸未戴口罩下自然表情、输出为戴口罩下非自然表情的特征提取模型。基于本方案中的模型所生成的特征向量，可以生成用于人脸识别的戴口罩人脸深度图像。

Description

模型训练、用于人脸识别的样本数据生成方法及电子设备

技术领域

本发明涉及人脸识别领域，特别涉及一种模型训练、用于人脸识别的样本数据生成方法及电子设备。

背景技术

目前，深度学习的快速发展与完善以及各种场景中对人脸识别的需求的增加，人脸识别技术取得了巨大的进步，并被广泛应用于小区，商场，写字楼等场所以实现非接触式监控和安全认证。

人脸识别主要依赖于对人脸数据的采集和匹配，对戴口罩人脸识别主要依靠深度学习网络对数据进行训练和匹配得到稳定的识别模型，对模型的训练需要前期输入大量的戴口罩人脸数据，现有技术中，主要通过现场录制拍摄的方式采集数据，然而由于戴口罩人脸存在大量关键点被遮挡，采集到的数据识别度极差，难以用于对识别模型的训练。因此，现有技术中，能够用于人脸识别模型训练的戴口罩人脸数据较为缺乏。

发明内容

本发明实施方式的目的在于提供一种模型训练、用于人脸识别的样本数据生成方法及电子设备，能够基于未戴口罩的人脸的深度信息批量生成戴口罩人脸的深度信息，从而形成可用于模型训练的大量的戴口罩人脸的深度图像。

为解决上述技术问题，本发明的实施方式提供了一种模型训练方法，包括：

获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像，所述非自然表情的表情类型为多个；以同一人脸的所述第一标准深度图像作为图像样本，以该同一人脸的相同表情类型的所述第二标准深度图像和所述第三标准深度图像依次作为所述图像样本的第一特征标签和第二特征标签；

对所述图像样本、所述第一特征标签和所述第二特征标签进行相同的格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量；

以所述样本向量作为输入，添加非自然表情后所述图像样本的多个第一特征向量作为输出，构建第一特征提取模型；所述样本向量与所述第一特征向量的长度相同，所述第一特征向量的数量与所述非自然表情的表情类型数相同；

以所述第一特征向量作为输入，添加同类型的非自然表情且佩戴口罩后所述图像样本的第二特征向量作为输出，构建第二特征提取模型；所述第一特征向量与所述第二特征向量的长度和数量均相同；

对所述第一特征提取模型和所述第二特征提取模型进行联合训练，所述联合训练时的损失函数基于所述第一特征提取模型输出的所述第一特征向量与相同表情类型的所述第一特征标签向量之间的第一损失，以及所述第二特征提取模型输出的所述第二特征向量与相同表情类型的所述第二特征标签向量之间的第二损失构建。

本发明的实施方式还提供了一种用于人脸识别的样本数据生成方法，包括：

获取人脸未戴口罩下自然表情的第四标准深度图像；

对所述第四标准深度图像进行格式转换，得到一维的检测向量；

采用如上所述的模型训练方法联合训练得到的第一特征提取模型和第二特征提取模型，对所述检测向量依次进行处理，得到所述检测向量对应的添加非自然表情且佩戴口罩后的多个第二特征向量；

对所述检测向量对应的每个所述第二特征向量进行格式反转换，得到所述添加非自然表情且佩戴口罩后的多张人脸深度图像。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的模型训练方法，以及如上所述的用于人脸识别的样本数据生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的模型训练方法，以及如上所述的用于人脸识别的样本数据生成方法。

本发明实施方式相对于现有技术而言，通过获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像，非自然表情的表情类型为多个；以同一人脸的第一标准深度图像作为图像样本，以该同一人脸的相同表情类型的第二标准深度图像和第三标准深度图像依次作为图像样本的第一特征标签和第二特征标签；对图像样本、第一特征标签和第二特征标签进行相同的格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量；以样本向量作为输入，添加非自然表情后图像样本的多个第一特征向量作为输出，构建第一特征提取模型；样本向量与第一特征向量的长度相同，第一特征向量的数量与非自然表情的表情类型数相同；以第一特征向量作为输入，添加同类型的非自然表情且佩戴口罩后图像样本的第二特征向量作为输出，构建第二特征提取模型；第一特征向量与第二特征向量的长度和数量均相同；对第一特征提取模型和第二特征提取模型进行联合训练，联合训练时的损失函数基于第一特征提取模型输出的第一特征向量与相同表情类型的第一特征标签向量之间的第一损失，以及第二特征提取模型输出的第二特征向量与相同表情类型的第二特征标签向量之间的第二损失构建。本方案基于人脸的相对的深度信息，构建出人脸未戴口罩下自然表情、未戴口罩下非自然表情，和戴口罩下非自然表情的标准深度图像，并以其中第一个标准深度图像作为图像样本，后两者作为图像样本对应的特征标签；通过图像样本对第一特征提取模型进行训练，以学习人脸在标准状态下，从未戴口罩的自然表情到未戴口罩的多种非自然表情过程的人脸深度信息变化，得到多个第一特征向量；然后再通过多个第一特征向量对第二特征提取模型进行训练，以学习从未戴口罩的多种非自然表情到戴口罩的多种非自然表情过程的人脸深度信息变化，得到多个第二特征向量；通过训练得到的模型，可以直接根据人脸未戴口罩下自然表情的标准深度图像批量得到人脸戴口罩的多个非自然表情的特征向量，进而通过特征向量还原相应的标准深度图像，实现用于人脸识别的戴口罩人脸深度图像的批量生产。

附图说明

图1是根据本发明实施方式的模型训练方法的具体流程图一；

图2是根据本发明实施方式的第一特征提取模型的结构示意图；

图3是根据本发明实施方式的第二特征提取模型的结构图示意图；

图4是根据本发明实施方式的模型训练方法的具体流程图二；

图5是根据本发明实施方式的用于人脸识别的样本数据生成方法的具体流程图；

图6是根据本发明实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的一实施方式涉及一种模型训练方法，如图1所示，本实施例提供的模型训练方法，包括如下步骤。

步骤101：获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像，非自然表情的表情类型为多个。

具体地，可以使用深度相机采集人脸深度图像。在实际场景中，不同人拍摄深度图时的环境条件、状态不完全相同，同一人在不同时间拍摄深度图时的状态也不同。为了得到较好的图像样本及其标签的对应关系，以及使不同图像样本之间具有可比性，本实施例对原始采集的人脸深度图像进行标准化，得到统一标准状态下的深度图像，记为“标准深度图像”。

所谓标准深度图像的定义为：图像的尺寸固定、图像中人脸的面部姿态端正可以允许有自然表情或者非自然表情（如微笑、愤怒、忧伤等多种表情类型），人脸区域覆盖整个图像区域。

需要说明的是，本实施例中涉及的标准深度图像中的深度信息均为相对深度信息，其作用是使得不同人脸和/或不同状态下拍摄的各深度图像能够对齐有可比性。例如，可以人脸区域中未被口罩遮挡的任一关键点（如额头中间位置）作为参考位置，将该位置的相对深度值设置为0，其他位置的相对深度值可以是该其他位置相对于参考位置的原始深度的差值。例如：参考位置的原始深度值为5、内眼角的原始深度值为4，则内眼角的相对深度值为-1。

步骤102：以同一人脸的第一标准深度图像作为图像样本，以该同一人脸的相同表情类型的第二标准深度图像和第三标准深度图像依次作为图像样本的第一特征标签和第二特征标签。

在得到同一人脸的第一标准深度图像、以及该同一人脸在某相同表情类型下的第二标准深度图像和第三标准深度图像后，可以同一人脸的第一标准深度图像作为图像样本、相同表情类型下的第二标准深度图像和第三标准深度图像作为该图像样本对应的两个特征标签，其中第二标准深度图像记为第一特征标签、第三标准深度图像记为第二特征标签。例如，将同一人脸（人的身份）在一次采集的一组未戴口罩下自然表情，相同表情类型的未戴口罩下非自然表情和戴口罩下非自然表情的三张深度图像中，未戴口罩下自然表情的深度图像所对应的标准深度图像作为图像样本、相同表情类型的未戴口罩下非自然表情和戴口罩下非自然表情的深度图像所对应的标准深度图像依次作为该图像样本对应的第一特征标签和第二特征标签。在对获取的标准深度图像进行标注时，需将同一人的未戴口罩下自然表情，相同表情类型的未戴口罩下非自然表情和戴口罩下非自然表情的标准深度图像标注记作同一例样本，以方便训练模型时可以使用同一例样本中的未戴口罩下自然表情的标准深度图像作为训练样本（图像样本），另外两个相同表情类型的未戴口罩下非自然表情和戴口罩下非自然表情的标准深度图像作为相应的第一特征标签和第二特征标签进行训练。

为使后续模型训练拥有更高的泛化性能，需要采集200个人（人脸）以上的深度图像来构建图像样本及其第一特征标签和第二特征标签。被采集人员需要轻微转动头部，以采集不同姿态下的人脸深度图像。

步骤103：对图像样本、第一特征标签和第二特征标签进行相同的格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量。

具体地，由于图像样本、第一特征标签和第二特征标签均是二维深度信息，为方便模型训练可将二维的图像样本、第一特征标签和第二特征标签进行格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量。其中，本实施例对格式转换的具体方法不做限定。

在一个例子中，可通过如下过程实现格式转换，即：分别将图像样本及其第一特征标签和第二特征标签中的深度值，按在图像中的行顺序或列顺序展开，得到一维向量；其中，图像样本展开后的一维向量为样本向量、第一特征标签展开后的一维向量为第一特征标签向量、第二特征标签展开后的一维向量为第二特征标签向量。

具体地，对于图像样本，可以图像样本中各像素点的深度值按其在图像中的行顺序或列顺序展开，得到一维的向量作为样本向量，样本向量的长度为样本图像所包含的像素点数。同理，对于第一特征标签（第一特征标签图像），可以第一特征标签中各像素点的深度值按其在图像中的行顺序或列顺序展开，得到一维的向量作为第一特征标签向量，第一特征标签向量的长度为第一特征标签图像所包含的像素点数。同理，对于第二特征标签（第二特征标签图像），可以第二特征标签中各像素点的深度值按其在图像中的行顺序或列顺序展开，得到一维的向量作为第二特征标签向量，第二特征标签向量的长度为第二特征标签图像所包含的像素点数。

其中，按行展开的一维向量形如（第一行像素点深度值，第二行像素点深度值，……，最后一行像素点深度值），按列展开的一维向量形如（第一列像素点深度值，第二列像素点深度值，……，最后一列像素点深度值）。

步骤104：以样本向量作为输入，添加非自然表情后图像样本的多个第一特征向量作为输出，构建第一特征提取模型；样本向量与第一特征向量的长度相同，第一特征向量的数量与非自然表情的表情类型数相同。

具体地，可以采用常规的深度学习网络E1（简称“模型E1”）作为第一特征提取模型，模型E1的可训练参数记为 W_E1。模型E1的输入为上述样本向量、模型E1的输出为描述添加非自然表情后图像样本的多个第一特征向量。在特征提取过程中，向量的长度未发生改变，即样本向量与第一特征向量的长度相同。但是向量的数量发生改变，即输入为一个向量（样本向量），输出为多个向量（第一特征向量），其这多个向量的数量与预先定义的非自然表情的表情类型数相同。换言之，模型E1的作用，就是学习从同一人脸的未戴口罩下自然表情到该同一人脸的未戴口罩下非自然表情（多个表情类型）的人脸深度的信息变化。

在一个例子中，第一特征提取模型可包括：第一加密模型和第一解密模型；相应地，构建第一特征提取模型的过程可包括如下步骤。

步骤一：以样本向量作为输入，一维的第三特征向量作为输出，构建第一加密模型。

具体地，可以采用常规的深度学习网络作为第一加密模型的网络结构。该第一加密模型的输入为上述样本向量、第一加密模型的输出为对样本向量压缩后得到的第三特征向量。在加密过程中，向量的长度被压缩，即第三特征向量的长度小于样本向量的长度。例如将第三特征向量的长度设定为固定值128位。

在一个例子中，如图2所示，该第一加密模型可包括：前后依次串接的第一卷积层、第一池化层、第一全连接层和第二全连接层；第一卷积层的输入为第一加密模型的输入，第二全连接层的输出为第一加密模型的输出。

具体地，样本向量依次经第一卷积层和第一池化层后被提取出图像样本中的深度信息特征，同时实现向量长度压缩；然后依次进入第一全连接层和第二全连接层后输出固定长度的一维向量作为第三特征向量。

步骤二：以第一加密模型输出的第三特征向量作为输入，与表情类型数相同的多个第一特征向量作为输出，构建第一解密模型。

具体地，可以采用常规的深度学习网络作为第一解密模型的网络结构。该第一解密模型的输入为第一加密模型输出的第三特征向量、第一解密模型的输出定义为样本向量对应的增加与表情类型数相同的多种非自然表情后的多个一维向量，即：上述第一特征向量。由此可见第一解密模型的作用是将第三特征向量尽可能还原为图像样本对应的第一特征标签，即未戴口罩下非自然表情的第二标准深度图像经格式转换后的第一特征标签向量。在解密过程中，向量的长度被扩充，即第一特征向量的长度大于第三特征向量的长度，且第一特征向量与样本向量的长度相同，也即第一特征向量与第一特征标签向量的长度相同，从而更方便后续对这两个向量计算损失。同时，在解密过程中，向量的数量发生改变，即每一个第三特征向量经解密过程后都对应输出多个（同非自然表情的表情类型数）第一特征向量，用于对应多个表情类型的非自然表情。

在一个例子中，如图2所示，该第一解密模型可包括：前后依次串接的第三全连接层和第四全连接层；第三全连接层的输入为第一解密模型的输入，第四全连接层的输出为第一解密模型的输出。

具体地，第一加密模型输出的第三特征向量依次经第三全连接层和第四全连接层后，向量长度被扩充还原到与样本向量和第一特征标签向量相同的长度，同时向量的数量也变为非自然表情的表情类型数。

步骤105：以第一特征向量作为输入，添加同类型的非自然表情且佩戴口罩后图像样本的第二特征向量作为输出，构建第二特征提取模型；第一特征向量与第二特征向量的长度和数量均相同。

具体地，可以采用常规的深度学习网络E2（简称“模型E2”）作为第二特征提取模型，模型E2的可训练参数记为 W_E2。模型E2的输入为上述第一特征提取模型E1输出的多个第一特征向量，模型E2的输出为描述添加与第一特征向量相同的表情类型的非自然表情、并且佩戴口罩后图像样本的多个第二特征向量。在特征提取过程中，向量的长度未发生改变，即第一特征向量与第二特征向量的长度相同。同时，向量的数量也未发生改变，即每一个第一特征向量经特征提取过程后都对应输出一个第二特征向量，且该第二特征向量与该第一特征向量具有属于同一个表情类型的非自然表情。换言之，模型E2的作用，就是学习从同一人脸的某个非自然表情下未戴口罩到该同一人脸的同一非自然表情下戴口罩的人脸深度（多个表情类型）的信息变化。

在一个例子中，第二特征提取模型可包括：第二加密模型和第二解密模型；相应地，构建第二特征提取模型的过程可包括如下步骤。

步骤一：以第一解密模型输出的与表情类型数相同的多个第一特征向量作为输入，与表情类型数相同的多个第四特征向量作为输出，构建第二加密模型。

具体地，可以采用常规的深度学习网络作为第二加密模型的网络结构。该第二加密模型的输入为上述第一解密模型一次性输出的多个第一特征向量、第二加密模型的输出为对多个第一特征向量分别压缩后得到的多个第四特征向量。在加密过程中，向量的长度被压缩，即第四特征向量的长度小于第一特征向量的长度。例如将第四特征向量的长度设定为固定值128位。

在一个例子中，如图3所示，该第二加密模型可包括：前后依次串接的第二卷积层、第二池化层、第五全连接层和第六全连接层；第二卷积层的输入为第二加密模型的输入，第六全连接层的输出为第二加密模型的输出。

具体地，从第一个特征提取模型输出的多个第一特征向量依次经第二卷积层和第二池化层后被提取出第一特征向量中的深度信息特征，同时实现向量长度压缩；然后依次进入第五全连接层和第六全连接层后输出固定长度的多个一维向量作为多个第四特征向量。

步骤二：以第二加密模型输出的与表情类型数相同的多个第四特征向量作为输入，与表情类型数相同的多个第二特征向量作为输出，构建第二解密模型。

具体地，可以采用常规的深度学习网络作为第二解密模型的网络结构。该第二解密模型的输入为第二加密模型输出的第四特征向量、第二解密模型的输出定义为样本向量对应的增加与表情类型数相同的多种非自然表情，且佩戴口罩后的多个一维向量，即：上述第二特征向量。由此可见第二解密模型的作用是将第四特征向量尽可能还原为图像样本对应的第二特征标签，即戴口罩下非自然表情的第二标准深度图像经格式转换后的第二特征标签向量。在解密过程中，向量的长度被扩充，即第二特征向量的长度大于第四特征向量的长度，且第二特征向量与样本向量的长度相同，也即第二特征向量与第二特征标签向量的长度相同，从而更方便后续对这两个向量计算损失。同时，在解密过程中，向量的数量未发生改变，即每一个第四特征向量经解密过程后都对应输出一个第二特征向量，且该第四特征向量与该第二特征向量具有属于同一个表情类型的非自然表情。

在一个例子中，如图3所示，该第二解密模型可包括：前后依次串接的第七全连接层和第八全连接层；第七全连接层的输入为第二解密模型的输入，第八全连接层的输出为第二解密模型的输出。

具体地，第二加密模型输出的第四特征向量依次经第七全连接层和第八全连接层后，向量长度被扩充还原到与样本向量和第二特征标签向量相同的长度。

步骤106：对第一特征提取模型和第二特征提取模型进行联合训练，联合训练时的损失函数基于第一特征提取模型输出的第一特征向量与相同表情类型的第一特征标签向量之间的第一损失，以及第二特征提取模型输出的第二特征向量与相同表情类型的第二特征标签向量之间的第二损失构建。

具体地，利用图像样本对上述搭建的第一特征提取模型（模型E1）和第二特征提取模型（模型E2）进行联合训练，直到满足收敛条件。收敛条件可包括损失值小于某个预先设定的较小的值，或者迭代超过最大预设次数等。训练过程满足收敛条件后，即得到训练完成后的特征提取模型和分类器。

其中，在进行联合训练时的损失函数可以基于第一特征提取模型输出的第一特征向量与该第一特征向量对应的第一特征标签向量之间的第一损失，以及第二特征提取模型输出的第二特征向量与该第二特征向量对应的第二特征标签向量之间的第二损失构建。

下面将分别对第一损失和第二损失的构建方法进行说明。

第一损失的构建过程可通过如下步骤实现。

通过如下公式计算第一损失：

…………………………（1）

其中，L_E1(W_E1)为第一损失，n为向量长度，

为第一特征标签向量g₁中排序为i的元素值，

为第一特征向量p₁中排序为i的元素值。

这里，向量中排序为i的元素值即对应标准深度图像中第i个像素点的深度值。

此外，在构建第一损失的损失函数（公式（1））之前，需对第一特征向量和第一特征标签向量进行归一化。例如将两个向量归一化到0~1之间，以达到相似比对的效果。

第一损失可以对第一特征提取模型E1的可训练参数W_E1进行约束，使其沿着某一第一特征标签下的第一特征向量与该第一特征标签下的第一特征标签向量相似度高，与非该第一特征标签下的第一特征标签向量相似度低的方向训练模型E1中的可训练参数W_E1。

第二损失的构建过程可通过如下步骤实现。

通过公式（2）计算第二损失：

………………………（2）

其中，L_E2(W_E2)为第二损失，n为向量长度，

为第二特征标签向量g₂中排序为i的元素值，

为第二特征向量p₂中排序为i的元素值。

此外，在构建第二损失的损失函数（公式（2））之前，需对第二特征向量和第二特征标签向量进行归一化。例如将两个向量归一化到0~1之间，以达到相似比对的效果。

第二损失可以对第二特征提取模型E2的可训练参数W_E2进行约束，使其沿着某一第二特征标签下的第二特征向量与该第二特征标签下的第二特征标签向量相似度高，与非该第二特征标签下的第二特征标签向量相似度低的方向训练模型E2中的可训练参数W_E2。

在此基础上，在对第一特征提取模型和第二特征提取模型进行联合训练时，所采用的联合训练时的损失函数可通过公式（3）构建。

………………………（3）

其中，loss_all为联合训练时的损失值，L_E1(W_E1)为第一损失，L_E2(W_E2)为第二损失。

具体地，采用公式（3）计算联合训练的损失时，依据常规的深度学习网络优化方法优化模型E1和模型E2的参数（W_E1、W_E2），即：

。

与相关技术相比，本实施例通过获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像，非自然表情的表情类型为多个；以同一人脸的第一标准深度图像作为图像样本，以该同一人脸的相同表情类型的第二标准深度图像和第三标准深度图像依次作为图像样本的第一特征标签和第二特征标签；对图像样本、第一特征标签和第二特征标签进行相同的格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量；以样本向量作为输入，添加非自然表情后图像样本的多个第一特征向量作为输出，构建第一特征提取模型；样本向量与第一特征向量的长度相同，第一特征向量的数量与非自然表情的表情类型数相同；以第一特征向量作为输入，添加同类型的非自然表情且佩戴口罩后图像样本的第二特征向量作为输出，构建第二特征提取模型；第一特征向量与第二特征向量的长度和数量均相同；对第一特征提取模型和第二特征提取模型进行联合训练，联合训练时的损失函数基于第一特征提取模型输出的第一特征向量与相同表情类型的第一特征标签向量之间的第一损失，以及第二特征提取模型输出的第二特征向量与相同表情类型的第二特征标签向量之间的第二损失构建。本方案基于人脸的相对的深度信息，构建出人脸未戴口罩下自然表情、未戴口罩下非自然表情，和戴口罩下非自然表情的标准深度图像，并以其中第一个标准深度图像作为图像样本，后两者作为图像样本对应的特征标签；通过图像样本对第一特征提取模型进行训练，以学习人脸在标准状态下，从未戴口罩的自然表情到未戴口罩的多种非自然表情过程的人脸深度信息变化，得到多个第一特征向量；然后再通过多个第一特征向量对第二特征提取模型进行训练，以学习从未戴口罩的多种非自然表情到戴口罩的多种非自然表情过程的人脸深度信息变化，得到多个第二特征向量；通过训练得到的模型，可以直接根据人脸未戴口罩下自然表情的标准深度图像批量得到人脸戴口罩的多个非自然表情的特征向量，进而通过特征向量还原相应的标准深度图像，实现用于人脸识别的戴口罩人脸深度图像的批量生产。

本发明的另一实施方式涉及一种模型训练方法，该模型训练方法是对图1所示的模型训练方法的改进，改进之处在于：对获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像的过程进行细化。如图4所示，上述步骤101可包括如下子步骤。

子步骤1011：获取人脸未戴口罩下自然表情、未戴口罩下非自然表情，和戴口罩下非自然表情的原始深度图像。

具体地，可以使用深度相机采集人脸深度图像，在一次采集的人脸深度图像中将同一个人未戴口罩下自然表情，同一表情类型的未戴口罩下非自然表情和戴口罩下非自然表情的三种状态下的三张人脸深度图像作为一组深度图像。针对每组深度图像，要求被拍摄者的同一表情类型下的人脸面部表情，以及一组内的姿态特征应尽可能一致，唯一的区别仅限于戴口罩与未戴口罩的区别，以及自然表情和非自然表情的区别。这样在同等的拍摄条件下，拍摄出的三张深度图像的区别，理论上仅限于口罩遮挡区域的深度信息、以及表情位置的深度信息的不同，而其他区域的深度信息相同。

子步骤1012：从原始深度图像中框选出人脸区域，并将人脸区域中人脸角度调整为正脸姿态。

具体地，对原始深度图像进行人脸识别，得到人脸区域（未戴口罩状态下的人脸所在位置，戴口罩状态下的人脸+口罩所在位置），并将其用矩形框选出来。之后，将人脸区域中人脸角度调整为正脸姿态。

本实施例中对人脸区域中人脸角度的评估，以及将人脸角度调整为正脸姿态的方法不做限定。

在一个例子中，可通过如下步骤实现将人脸区域中人脸角度调整为正脸姿态。

步骤一：将预先设置的正脸深度模板旋转得到不同角度，并计算不同角度下正脸深度模板与人脸区域之间深度图的欧氏距离，取欧氏距离最小的角度作为人脸区域的欧拉角度。

具体地，可以预先采集大量的正姿态人脸深度图，对这些正姿态人脸深度图使用最小二乘法拟合形成一个正脸深度模板，取出对应人脸关键点。然后将正脸深度模板不断旋转获得不同角度，并计算不同角度下正脸深度模板与上述得到的人脸区域的深度图之间的欧氏距离，欧氏距离值最小时所对应的正脸深度模板的旋转角度即为人脸区域中人脸角度，即人脸区域的欧拉角度。其中，为了减少计算量，在计算两个深度图之间的欧氏距离时，可以选择两个深度图中对应的人脸关键点计算最小欧氏距离。对于戴口罩的人脸深度图，可以在评估出口罩遮挡的部分人脸关键点的位置之后，计算对应的人脸关键点之间的欧氏距离。

步骤二：将人脸区域中人脸角度反向旋转欧拉角度，得到正脸姿态下的人脸区域。

具体地，在得到人脸区域中人脸角度（欧拉角度）后，可以将该人脸反向旋转该欧拉角度，从而得到正脸姿态下的人脸区域。

其中，人脸旋转对应的旋转矩阵公式为：

建立坐标系将深度图横坐标设为x轴，纵坐标设为y轴，深度值作为z轴，人脸姿态表示的欧拉角为[θx,θy,θz]。将深度图像右乘相应旋转矩阵（R _x(θ)、R _y(θ)、R _z(θ)），即可将人脸角度转换为正脸，即：

绕x轴旋转：

………………………（4）

绕y轴旋转：

………………………（5）

绕z轴旋转：

………………………（6）

其中，公式（4）、（5）、（6）中的θ将依次对应为θx、θy和θz。

子步骤1013：将正脸姿态下的人脸区域调整为统一预设尺寸，形成与原始深度图像相对应的标准深度图像。

具体地，在得到正脸姿态下的人脸区域后，可将该正脸姿态下的人脸区域对应的图像尺寸进行缩放调整，以使其具有统一预设的相同尺寸，从而形成与原始深度图像相对应的标准深度图像。即人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像。

与相关技术比较，本实施例通过获取人脸未戴口罩下自然表情、未戴口罩下非自然表情，和戴口罩下非自然表情的原始深度图像；从原始深度图像中框选出人脸区域，并将人脸区域中人脸角度调整为正脸姿态；将正脸姿态下的人脸区域调整为统一预设尺寸，形成与原始深度图像相对应的标准深度图像，从而快速得到各原始深度图像对应的标准深度图像。

本发明的一实施方式涉及一种用于人脸识别的样本数据生成方法，该方法基于上述实施方式中的模型训练方法实现。如图5所示，本实施例提供的用于人脸识别的样本数据生成方法，包括如下步骤。

步骤201：获取人脸未戴口罩下自然表情的第四标准深度图像。

具体地，针对任一人脸，获取该人脸未戴口罩下自然表情的原始深度图像，然后通过采用与步骤101中获取未戴口罩下自然表情的第一标准深度图像相同的处理过程，得到该人脸未戴口罩下自然表情的标准深度图像。本实施例中将任一待生成戴口罩人脸深度图像的未戴口罩下自然表情的标准深度图像记为“第四标准深度图像”。

步骤202：对第四标准深度图像进行格式转换，得到一维的检测向量。

具体地，针对第四标准深度图像，通过采用与步骤103中相同的处理过程，对第四标准深度图像进行相同的格式转换，得到一维向量，并将该一维向量记为“检测向量”。

步骤203：采用模型训练方法联合训练得到的第一特征提取模型和第二特征提取模型，对检测向量依次进行处理，得到检测向量对应的添加非自然表情且佩戴口罩后的多个第二特征向量。

具体地，针对第四标准深度图像，通过上述实施方式中的训练方法训练得到的第一特征提取模型和第二特征提取模型，依次对其相应的检测向量进行处理，得到第二特征提取模型输出的多个第二特征向量。每一个第二特征向量对应为第四标准深度图像中人脸在多个表情类型下戴口罩后的标准深度图像所对应的特征向量。

步骤204：对检测向量对应的每个第二特征向量进行格式反转换，得到添加非自然表情且佩戴口罩后的多张人脸深度图像。

具体地，通过对每个第二特征向量采用与步骤103中格式转换相反的操作，即将一维的向量展开为二维的深度图像，向量中每个元素的值即为二维的深度图像中，相应像素点的深度值，从而还原出二维的深度图像。每张深度图像即为添加一种表情类型的非自然表情且佩戴口罩后的人脸深度图像。

本发明实施方式相对于现有技术而言，通过获取人脸未戴口罩下自然表情的第四标准深度图像；对第四标准深度图像进行格式转换，得到一维的检测向量；采用模型训练方法联合训练得到的第一特征提取模型和第二特征提取模型，对检测向量依次进行处理，得到检测向量对应的添加非自然表情且佩戴口罩后的多个第二特征向量；对检测向量对应的每个第二特征向量进行格式反转换，得到添加非自然表情且佩戴口罩后的多张人脸深度图像，从而实现用于人脸识别的戴口罩人脸深度图像的批量生产。

本发明的另一实施方式涉及一种电子设备，如图6所示，包括至少一个处理器302；以及，与至少一个处理器302通信连接的存储器301；其中，存储器301存储有可被至少一个处理器302执行的指令，指令被至少一个处理器302执行，以使至少一个处理器302能够执行上述任一方法实施例。

其中，存储器301和处理器302采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器302和存储器301的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器302处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器302。

处理器302负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器301可以被用于存储处理器302在执行操作时所使用的数据。

本发明的另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一特征提取模型包括：第一加密模型和第一解密模型；所述以所述样本向量作为输入，添加非自然表情后所述图像样本的第一特征向量作为输出，构建第一特征提取模型，包括：

以所述样本向量作为输入，一维的第三特征向量作为输出，构建所述第一加密模型；

以所述第一加密模型输出的所述第三特征向量作为输入，与所述表情类型数相同的多个所述第一特征向量作为输出，构建所述第一解密模型。

3.根据权利要求2所述的方法，其特征在于，所述第二特征提取模型包括：第二加密模型和第二解密模型；所述以所述第一特征向量作为输入，添加同类型的非自然表情且佩戴口罩后所述图像样本的第二特征向量作为输出，构建第二特征提取模型，包括：

以所述第一解密模型输出的与所述表情类型数相同的多个所述第一特征向量作为输入，与所述表情类型数相同的多个第四特征向量作为输出，构建所述第二加密模型；

以所述第二加密模型输出的与所述表情类型数相同的多个所述第四特征向量作为输入，与所述表情类型数相同的多个所述第二特征向量作为输出，构建所述第二解密模型。

4.根据权利要求1所述的方法，其特征在于，所述获取人脸未戴口罩下自然表情的第一标准深度图像、未戴口罩下非自然表情的第二标准深度图像，和戴口罩下非自然表情的第三标准深度图像，包括：

获取人脸未戴口罩下自然表情、未戴口罩下非自然表情，和戴口罩下非自然表情的原始深度图像；

从所述原始深度图像中框选出人脸区域，并将所述人脸区域中人脸角度调整为正脸姿态；

将所述正脸姿态下的所述人脸区域调整为统一预设尺寸，形成与所述原始深度图像相对应的标准深度图像。

5.根据权利要求4所述的方法，其特征在于，所述将所述人脸区域中人脸方向调整为正脸姿态，包括：

将预先设置的正脸深度模板旋转得到不同角度，并计算不同角度下所述正脸深度模板与所述人脸区域之间深度图的欧氏距离，取所述欧氏距离最小的所述角度作为所述人脸区域的欧拉角度；

将所述人脸区域中人脸角度反向旋转所述欧拉角度，得到正脸姿态下的所述人脸区域。

6.根据权利要求1所述的方法，其特征在于，所述对所述图像样本、所述第一特征标签和所述第二特征标签进行相同的格式转换，分别得到一维的样本向量、第一特征标签向量和第二特征标签向量，包括：

分别将所述图像样本及其所述第一特征标签和所述第二特征标签中的深度值，按在图像中的行顺序或列顺序展开，得到一维向量；其中，所述图像样本展开后的一维向量为所述样本向量、所述第一特征标签展开后的一维向量为所述第一特征标签向量、所述第二特征标签展开后的一维向量为所述第二特征标签向量。

7.根据权利要求3所述的方法，其特征在于，所述第一加密模型包括：前后依次串接的第一卷积层、第一池化层、第一全连接层和第二全连接层；所述第一卷积层的输入为所述第一加密模型的输入，所述第二全连接层的输出为所述第一加密模型的输出；

所述第一解密模型包括：前后依次串接的第三全连接层和第四全连接层；所述第三全连接层的输入为所述第一解密模型的输入，所述第四全连接层的输出为所述第一解密模型的输出；

所述第二加密模型包括：前后依次串接的第二卷积层、第二池化层、第五全连接层和第六全连接层；所述第二卷积层的输入为所述第二加密模型的输入，所述第六全连接层的输出为所述第二加密模型的输出；

所述第二解密模型包括：前后依次串接的第七全连接层和第八全连接层；所述第七全连接层的输入为所述第二解密模型的输入，所述第八全连接层的输出为所述第二解密模型的输出。

8.根据权利要求1所述的方法，其特征在于，所述第一损失通过如下方法构建：

通过如下公式计算所述第一损失：

其中，L_E1(W_E1)为所述第一损失，n为向量长度，

为所述第一特征标签向量g₁中排序为i的元素值，

为所述第一特征向量p₁中排序为i的元素值。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

在构建所述第一损失的损失函数之前，对所述第一特征向量和所述第一特征标签向量进行归一化。

10.根据权利要求1所述的方法，其特征在于，所述第二损失通过如下方法构建：

通过如下公式计算所述第二损失：

其中，L_E2(W_E2)为所述第二损失，n为向量长度，

为所述第二特征标签向量g₂中排序为i的元素值，

为所述第二特征向量p₂中排序为i的元素值。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

在构建所述第二损失的损失函数之前，对所述第二特征向量和所述第二特征标签向量进行归一化。

12.一种用于人脸识别的样本数据生成方法，其特征在于，包括：

获取人脸未戴口罩下自然表情的第四标准深度图像；

采用如权利要求1-11中任一项所述的模型训练方法联合训练得到的第一特征提取模型和第二特征提取模型，对所述检测向量依次进行处理，得到所述检测向量对应的添加非自然表情且佩戴口罩后的多个第二特征向量；

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至11中任一项所述的模型训练方法，以及如权利要求12所述的用于人脸识别的样本数据生成方法。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的模型训练方法，以及如权利要求12所述的用于人脸识别的样本数据生成方法。