CN113673476B

CN113673476B - 人脸识别模型训练方法、装置、存储介质与电子设备

Info

Publication number: CN113673476B
Application number: CN202111028028.2A
Authority: CN
Inventors: 王希予; 张立平; 毛伟; 王启立; 裴积全
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-11-07
Anticipated expiration: 2041-09-02
Also published as: CN113673476A

Abstract

本公开提供了一种人脸识别模型训练方法、装置、存储介质与电子设备，涉及人工智能技术领域。所述人脸识别模型训练方法包括：接收第一设备发送的人脸识别参考模型；根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型；利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型；将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，并接收第一设备发送的聚合子模型；根据聚合子模型更新人脸识别模型。本公开提高了训练得到的人脸识别模型的识别精准度。

Description

人脸识别模型训练方法、装置、存储介质与电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种人脸识别模型训练方法、人脸识别模型训练装置、计算机可读存储介质和电子设备。

背景技术

随着机器学习技术的发展，基于机器学习的人脸识别技术已经被广泛的应用于社会生活的各个方面。

人脸识别技术通常利用样本人脸图像训练人脸识别模型，在实际应用中，可以利用训练好的人脸识别模型对待识别图像进行处理，得到人脸识别结果。

相关技术中，在确定样本数据集时，可以选择多种类型的样本人脸图像，如不同人种、不同性别、佩戴眼镜和未佩戴眼镜等各种样本人脸图像，以利用具备丰富类型的样本数据集训练得到更高泛化能力的人脸识别模型。

发明内容

本公开提供了一种人脸识别模型训练方法、人脸识别模型训练装置、计算机可读存储介质与电子设备，进而至少在一定程度上提高训练得到的人脸识别模型的泛化能力和识别精准度。

根据本公开的第一方面，提供一种人脸识别模型训练方法，所述方法应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述方法应用于任一所述第二设备中，所述方法包括：

接收所述第一设备发送的人脸识别参考模型，所述人脸识别参考模型包括人脸特征提取子模型；

根据本第二设备配置的人脸识别任务子模型和所述人脸特征提取子模型，生成所述本第二设备的待训练的人脸识别模型；

利用所述本第二设备的训练集对所述人脸识别模型进行训练，得到更新后的人脸识别模型；

将所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备，并接收所述第一设备发送的聚合子模型，所述聚合子模型为所述第一设备根据每个所述第二设备发送的更新后的人脸特征提取子模型确定的；

根据所述聚合子模型更新所述人脸识别模型。

根据本公开的第二方面，提供一种人脸识别模型训练方法，所述方法应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述方法应用于所述第一设备中，所述方法包括：

向每个所述第二设备发送人脸识别参考模型，以使每个所述第二设备根据本第二设备配置的人脸识别任务子模型和所述人脸识别参考模型中的人脸特征提取子模型，生成每个所述第二设备的待训练的人脸识别模型，利用每个所述第二设备的训练集对所述人脸识别模型进行训练，得到更新后的人脸识别模型，将所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备；

接收每个所述第二设备发送的更新后人脸识别模型中的人脸特征提取子模型；

根据多个所述更新后的人脸特征提取子模型得到聚合子模型；

将所述聚合子模型发送至每个所述第二设备，以使所述第二设备根据所述聚合子模型更新所述人脸识别模型。

根据本公开的第三方面，提供一种人脸识别模型训练装置，所述装置应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述装置应用于任一所述第二设备中，所述装置包括：

第一接收模块，被配置为接收所述第一设备发送的人脸识别参考模型，所述人脸识别参考模型包括人脸特征提取子模型；

模型生成模块，被配置为根据本第二设备配置的人脸识别任务子模型和所述人脸特征提取子模型，生成所述本第二设备的待训练的人脸识别模型；

模型训练模块，被配置为利用所述本第二设备的训练集对所述人脸识别模型进行训练，得到更新后的人脸识别模型；

处理模块，被配置为将所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备，并接收所述第一设备发送的聚合子模型，所述聚合子模型为所述第一设备根据每个所述第二设备发送的更新后的人脸特征提取子模型确定的；

更新模块，被配置为根据所述聚合子模型更新所述人脸识别模型。

根据本公开的第四方面，提供一种人脸识别模型训练装置，所述装置应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述装置应用于所述第一设备中，所述装置包括：

第二发送模块，被配置为向每个所述第二设备发送人脸识别参考模型，以使每个所述第二设备根据本第二设备配置的人脸识别任务子模型和所述人脸识别参考模型中的人脸特征提取子模型，生成每个所述第二设备的待训练的人脸识别模型，利用每个所述第二设备的训练集对所述人脸识别模型进行训练，得到更新后的人脸识别模型，将所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备；

第二接收模块，被配置为接收每个所述第二设备发送的更新后人脸识别模型中的人脸特征提取子模型；

聚合模块，被配置为根据多个所述更新后的人脸特征提取子模型得到聚合子模型；

所述第二发送模块，还被配置为将所述聚合子模型发送至每个所述第二设备，以使所述第二设备根据所述聚合子模型更新所述人脸识别模型。

根据本公开的第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。

根据本公开的第六方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行第一方面的方法。

本公开的技术方案具有以下有益效果：

提供了一种人脸识别模型训练的实现方案，可以协同多个第二设备完成人脸识别模型的训练，由于多个第二设备可以提供具有丰富样本人脸图像类型的训练集，可以提升最终确定的人脸识别模型的泛化能力，且每个第二设备中的训练集不进行交换或者融合，可以防止出现隐私泄露的问题，由于可以利用本第二设备配置的人脸识别任务子模型生成待训练的人脸识别模型，可以提升最终得到的人脸识别模型与本第二设备中的人脸图像的适配度，提升图像识别结果的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种人脸识别模型训练系统的示意性架构图；

图2示出本示例性实施方式中一种人脸识别模型训练方法的流程图；

图3示出本示例性实施方式中一种确定更新后的人脸识别模型方法的流程示意图；

图4示出本示例性实施方式中一种人脸识别模型训练方法的流程图；

图5示出本示例性实施方式中一种人脸识别模型训练方法的交互流程图；

图6示出本示例性实施方式中一种人脸识别模型训练装置的结构示意图；

图7示出本示例性实施方式中一种人脸识别模型训练装置的结构示意图；

图8示出本示例性实施方式中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例性实施方式。然而，示例性实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

相关技术中，出现了人脸识别模型的训练方案。通常可以获取包括样本人脸图像的训练集，利用训练集对待训练的人脸识别模型进行迭代训练，直至人脸识别模型收敛，得到训练好的人脸识别模型。

通常情况下，为了使训练好的人脸识别模型具有较强的泛化能力，需要获取不同类型的样本人脸图像，例如，需要获取不同人种的样本人脸图像、不同性别的样本人脸图像、佩戴眼镜和未佩戴眼镜等各种类型的样本人脸图像，但是，获取具有较高类型丰富度的训练集通常会涉及隐私泄露问题以及成本问题，通常情况下获取的训练集的样本人脸图像的类型丰富程度普遍不高，利用这种样本人脸图像的类型丰富程度普遍不高训练得到的人脸识别模型的泛化能力弱，导致利用人脸识别模型得到的人脸识别结果的精准度低。

鉴于上述问题，本公开的示例性实施方式提供一种人脸识别模型训练方法。该人脸识别模型训练方法可以是基于联邦学习的人脸识别模型训练方法，该人脸识别模型训练方法的应用场景包括但不限于：在模型训练过程中，以第一设备作为模型训练过程监控设备，以多个第二设备作为模型训练任务执行设备，其中，样本人脸图像是每个第二设备中的训练集中的样本人脸图像，由于可以控制多个第二设备共同参与人脸识别模型训练过程，可以提高样本人脸图像的丰富程度，同时降低训练集的获取成本，且在模型训练过程中，第一设备与第二设备之间，第二设备与第二设备之间无需交换或者融合样本人脸图像，可以规避人脸识别模型训练过程中容易出现的隐私泄露问题。

为了实现上述人脸识别模型训练方法，本公开的示例性实施方式提供一种人脸识别模型训练系统。图1示出了该业务处理系统的示意性架构图。如图1所示，人脸识别模型训练系统100可以包括第一设备110与多个第二设备120。其中，第一设备110可以是模型训练过程的控制设备。第二设备120可以是模型训练任务的执行设备，第一设备110与第二设备120可以建立网络连接，其中，第一设备110和第二设备120可以是服务器，服务器可以是一台服务器，也可以是多台服务器组成的服务器集群，本公开对于服务器的具体架构不做限定。

其中，第一设备110可以向每个第二设备120发送人脸识别参考模型，第二设备120可以根据本第二设备配置的人脸识别任务子模型和接收到的人脸识别参考模型中的人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型；利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型；将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备110，第一设备110可以接收每个第二设备120发送的更新后人脸识别模型中的人脸特征提取子模型，根据多个更新后的人脸特征提取子模型得到聚合子模型；并将聚合子模型发送至每个第二设备120，每个第二设备120接收到第一设备110发送的聚合子模型后，根据聚合子模型更新人脸识别模型。优选的，第二设备120中可以包括多个GPU(Graphic Processing Unit，图形处理器)，第二设备可以为每个GPU开启模型训练进程，每个模型训练进程可以利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型，以提高人脸识别模型的训练效率。例如，该第二设备120中的图形处理器的型号可以为NVIDIA Tesla V100 16GB。

进一步的，第一设备110在将聚合子模型发送至每个第二设备120后，还需要判断是否满足模型训练停止条件，若第一设备110确定满足模型训练停止条件，则向每个第二设备120发送模型停止训练指令，每个第二设备120确定训练得到的人脸识别模型为，根据聚合子模型更新人脸识别模型得到的人脸识别模型；若第一设备110确定未满足模型训练停止条件，则向每个第二设备120继续发送模型训练指令，每个第二设备120再次接收到模型训练指令后，继续执行利用本第二设备的训练集对根据聚合子模型更新人脸识别模型得到的人脸识别模型进行训练，得到再次更新后的人脸识别模型；将再次更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备110，第一设备110可以接收每个第二设备120发送的再次更新后人脸识别模型中的人脸特征提取子模型，根据多个再次更新后的人脸特征提取子模型得到更新后的聚合子模型；并将更新后的聚合子模型发送至每个第二设备120，每个第二设备120接收到第一设备110发送的聚合子模型后，先根据更新后的聚合子模型更新人脸识别模型，第一设备110可以继续判断是否满足模型训练停止条件，若第一设备110确定满足模型训练停止条件，则向每个第二设备120发送模型停止训练指令，若第一设备110确定未满足模型训练停止条件，则向每个第二设备120再次发送模型训练指令，每个第二设备120可以对根据更新后的聚合子模型更新人脸识别模型得到的人脸识别模型再次进行迭代训练；直至第一设备110确定满足模型训练停止条件，向每个第二设备120发送模型停止训练指令，确定人脸识别模型训练完毕。

下面从第二设备的角度，对人脸识别模型训练方法进行说明。图2示出了由多个第二设备中任一第二设备(本文中将作为执行主体的第二设备称为本第二设备)执行的人脸识别模型训练方法的示例性流程，可以包括步骤S201至S205：

步骤S201、接收第一设备发送的人脸识别参考模型。

其中，人脸识别参考模型为用于进行训练人脸识别模型的基础模型，该人脸识别参考模型包括人脸特征提取子模型。

步骤S202、根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型。

其中，人脸识别任务子模型用于对人脸特征提取子模型提取的人脸特征进行特征识别，得到识别结果。

步骤S203、利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型。

步骤S204、将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，并接收第一设备发送的聚合子模型。

其中，聚合子模型为第一设备根据每个第二设备发送的更新后的人脸特征提取子模型确定的。

步骤S205、根据聚合子模型更新人脸识别模型。

综上所述，本公开实施例中提供的人脸识别模型训练方法，可以协同多个第二设备完成人脸识别模型的训练，由于多个第二设备可以提供具有丰富样本人脸图像类型的训练集，可以提升最终确定的人脸识别模型的泛化能力，且每个第二设备中的训练集不进行交换或者融合，可以防止出现隐私泄露的问题，由于可以利用本第二设备配置的人脸识别任务子模型生成待训练的人脸识别模型，可以提升最终得到的人脸识别模型与本第二设备中的人脸图像的适配度，提升图像识别结果的准确度。

在上述步骤S201中，本第二设备可以接收第一设备发送的人脸识别参考模型。

在本公开实施例中，人脸识别参考模型为用于进行训练人脸识别模型的基础模型，该人脸识别参考模型包括人脸特征提取子模型，该人脸特征提取子模型包括多个网络层，该网络层可以包括卷积层，与卷积层连接的激活函数层和池化层。

其中，本第二设备接收第一设备发送的人脸识别参考模型的过程可以包括：在人脸识别模型训练开始时刻，多个第二设备可以向第一设备发送连接状态检测请求，第一设备在接收到每个第二设备发送的连接状态检测请求后，可以判断第二设备和第一设备的连接状态是否正常，若确定第二设备和第一设备的连接状态正常，则可以向第一设备发送人脸识别参考模型；若确定第二设备和第一设备连接状态异常，则可以向第一设备发送连接请求，请求与第二设备重新建立连接，在第一设备与第二设备建立连接后，向第二设备发送人脸识别参考模型，其中，本第二设备可以接收第一设备发送的人脸识别参考模型，可以保证每个参与人脸识别模型训练的第二设备都能成功接收人脸识别参考模型。该人脸识别参考模型可以是SphereFace36模型或者ResNet模型，人脸识别模型训练开始时刻可以基于实际需要确定，本公开实施例对此不作限定。

在上述步骤S202中，本第二设备可以根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型。

在本公开实施例中，人脸识别任务子模型用于对人脸特征提取子模型提取的人脸特征进行特征识别，得到识别结果，人脸识别任务子模型是本第二设备中配置的模型，该人脸识别任务子模型可以包括全连接层。

需要说明的是，在本公开实施例中，为了保证人脸识别模型训练过程中的使用的训练集不涉及隐私泄露的问题，每个第二设备中的训练集不会与其他第二设备中的训练集进行交换或者融合，每个第二设备中的待训练的人脸识别模型的人脸识别任务子模型，可以只需对本第二设备中的样本人脸图像进行特征识别，因此，每个第二设备中可以配置本第二设备中的人脸识别任务子模型，其中，人脸识别任务子模型的尺寸可以基于第二设备中的训练集的样本类型确定。

其中，本第二设备根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型的过程可以包括：解析人脸识别参考模型获取第一设备发送的人脸识别参考模型中的人脸特征提取子模型，获取本第二设备中配置的人脸识别任务子模型，组合人脸特征提取子模型和人脸识别任务子模型，得到本第二设备的待训练的人脸识别模型。

可选的，为了加快人脸识别模型的训练过程和防止模型过拟合，本第二设备在生成本第二设备的待训练的人脸识别模型的过程中，还可以为人脸特征提取子模型配置批量标准化(Batch Normalization，BN)网络层。

在一种可选的实施方式中，本第二设备在确定生成本第二设备的待训练的人脸识别模型后，可以向第一设备发送模型建立完成信息，第一设备在接收到每个第二设备发送的模型建立完成信息后，同时向每个第二设备发送模型训练指令，可以控制多个第二设备同时开始人脸识别模型的训练过程，提高模型训练效率。

在上述步骤S203中，本第二设备可以利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型。

在本公开实施例中，为了提高人脸识别模型的训练效率，第二设备通常可以将待训练的人脸识别模型进行多次迭代训练，得到更新后的人脸识别模型，将得到的更新后的人脸识别模型发送至第一设备进行聚合；且第二设备在对待训练的人脸识别模型进行多次迭代训练过程中，可以在待训练的人脸识别模型开始训练后的预设次数的迭代训练过程中，只更新人脸识别任务子模型的参数，不更新人脸特征提取子模型的参数，可以在提升人脸识别模型训练效率的基础上，进一步训练得到的人脸识别模型的识别精准度。其中，预设次数可以基于实际需要确定，本公开实施例对此不作限定，子模型的参数可以包括子模型中各网络层的权重。

如图3所示，本第二设备利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型的过程可以包括步骤S301至步骤S302：

步骤S301、利用训练集和对人脸识别模型进行预设次数的迭代训练，并固定人脸特征提取子模型的参数，以更新人脸识别任务子模型的参数，得到初步更新后的人脸识别模型。

在本公开实施例中，第一设备在向每个第二设备发送人脸识别参考模型的过程中，还需要向每个第二设备发送本次人脸识别模型训练过程中的模型训练参数，模型训练参数用于控制待训练的人脸识别模型的训练过程，该模型训练参数可以包括人脸识别模型训练过程中使用的损失函数类型(loss)，优化函数类型(optimizer)，每次迭代训练的样本人脸图像数量(batchsize)，学习率(lr)、接收到模型训练指令后，在对人脸识别模型进行迭代训练过程中的最大迭代次数(max_nr_batches)以及模型的暂时存储频率(save_step)等。其中，模型的暂时缓存频率用于表示迭代训练save_step次后存储一次模型。其中，模型训练参数可以基于实际需要确定，本公开实施例对此不作限定。

在本步骤S301中，利用训练集对人脸识别模型进行预设次数的迭代训练，并固定人脸特征提取子模型的参数，以更新人脸识别任务子模型的参数，得到初步更新后的人脸识别模型的过程可以是：在训练集中加载batchsize张样本人脸图像，对样本人脸图像进行人脸检测，获取样本人脸区域，将样本人脸区域输入待训练的人脸识别模型中，得到识别结果，根据优化函数类型确定损失函数的梯度，根据学习率和损失函数的梯度调整人脸识别任务子模型的参数，实现利用训练集对人脸识别模型进行一次的迭代训练过程，重复上述过程预设次数，得到初步更新后的人脸识别模型。

步骤S302、利用训练集对初步更新后的人脸识别模型进行迭代训练，以更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数，得到更新后的人脸识别模型。

在本步骤S302中，利用训练集对初步更新后的人脸识别模型进行迭代训练，以更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数，得到更新后的人脸识别模型的过程可以包括：利用训练集对初步更新后的人脸识别模型进行目标次数的迭代训练，以更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数，得到更新后的人脸识别模型，目标次数为最大迭代次数与预设次数的差值，其中，最大迭代次数为解析接收到的第一设备发送的模型训练参数获取的。由于可以控制每个第二设备对其中的待训练的人脸识别模型迭代训练相同的次数后，将得到的更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备进行聚合，可以保证每个第二设备的训练条件一致，提升最终确定的人脸识别模型的识别精准度。

可以理解的是，在本公开实施例中，利用训练集对初步更新后的人脸识别模型进行每一次的迭代训练的过程，可以参考上述实施例中利用训练集对人脸识别模型进行每一次的迭代训练过程，本公开实施例对此不作赘述，其中，利用训练集对初步更新后的人脸识别模型进行每一次的迭代训练的过程中，在模型参数更新阶段，更新的是人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数。

在一种可选的实施方式中，本第二设备可以在其设备中开启多个模型训练进程，利用多个模型训练进行共同参与到人脸识别模型的模型训练过程中，可以进一步加快人脸识别模型的训练效率，在上述步骤S203中，本第二设备利用本第二设备的训练集对人脸识别模型进行训练的过程可以是：通过在本第二设备上开启的多个模型训练进程，分别利用训练集对人脸识别模型进行训练。

其中，通过在本第二设备上开启的多个模型训练进程，分别利用训练集对人脸识别模型进行训练的过程可以包括：通过每个模型训练进程训练人脸识别模型，得到每个模型训练进程输出的人脸识别模型的梯度值；根据每个模型训练进程输出的梯度值确定聚合梯度值；根据聚合梯度值更新人脸识别模型的参数，重复执行上述每个模型训练进程利用训练集训练人脸识别模型，更新人脸识别模型的参数的过程，直至得到更新后的人脸识别模型，其中，人脸识别模型的梯度值是根据损失函数确定的，损失函数是是解析接收到的第一设备发送的模型训练参数获取的，优选的，每个模型训练进程可以利用训练集中的部分样本人脸图像训练人脸识别模型，且每个模型训练进程获取用于训练与本训练进程对应的人脸识别模型的部分样本人脸图像不重合，可以进一步提高人脸识别模型的训练效率。其中，聚合梯度值可以是每个模型训练进程输出的梯度值的和值。

可以理解的是，在本公开实施例中，根据更新后的梯度值，更新人脸识别模型的参数的过程中，在人脸识别模型开始训练后的预设次数的迭代过程中，只根据聚合梯度值，更新人脸识别模型中的人脸识别任务子模型的参数，并在后续的人脸识别模型迭代训练过程中，每个模型训练进程可以根据聚合梯度值，更新人脸识别模型中的人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数。

在上述步骤S204中，本第二设备可以将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，并接收第一设备发送的聚合子模型。

其中，本第二设备将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，并接收第一设备发送的聚合子模型的过程可以包括：提取本第二设备中更新后的人脸识别模型中的人脸特征提取子模型，将更新后的人脸特征提取子模型发送至第一设备，第一设备可以在接收到每个第二设备发送的更新后人脸识别模型中的人脸特征提取子模型后；根据多个更新后的人脸特征提取子模型得到聚合子模型；将聚合子模型发送至每个第二设备。其中，第一设备可以利用FedAvg算法处理多个更新后的人脸特征提取子模型得到聚合子模型。其中，本第二设备还可以将与更新后的人脸识别模型对应的损失函数值发送至第一设备，便于第一设备记录每个第二设备得到更新后的人脸识别时的损失函数值。

可选的，若本第二设备更新后的人脸识别模型中，人脸特征提取子模型包括BN层，则本第二设备向第一设备发送的更新后的人脸识别模型中的人脸特征提取子模型中不包括BN层，可以防止出现由于第一设备在确定聚合子模型的过程中将BN层的参数聚合导致的模型识别精准度下降的问题。

在上述步骤S205中，本第二设备可以根据聚合子模型更新人脸识别模型。

其中，本第二设备可以根据聚合子模型更新人脸识别模型的过程可以包括：用接收到的聚合子模型替换本第二设备中上述步骤S203中获得的更新后的人脸识别模型中的人脸特征提取子模型，或者，本第二设备可以解析聚合子模型，获取聚合子模型的参数，利用聚合子模型的参数替换上述步骤S203中获得的更新后的人脸识别模型中的人脸特征提取子模型。

进一步的，第一设备在将聚合子模型发送至每个第二设备后，还需要判断是否满足模型训练停止条件，若第一设备确定满足模型训练停止条件，则向每个第二设备发送模型停止训练指令，每个第二设备确定训练得到的人脸识别模型为根据聚合子模型更新人脸识别模型得到的人脸识别模型；若第一设备确定未满足模型训练停止条件，则向每个第二设备继续发送模型训练指令，每个第二设备再次接收到模型训练指令后，可以按照与上述步骤S203中相同的过程，继续利用本第二设备的训练集对根据聚合子模型更新人脸识别模型得到的人脸识别模型进行训练，得到再次更新后的人脸识别模型，并将再次更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，接收第一设备利用每个第二设备发送的再次更新后的人脸识别模型中的人脸特征提取子模型，得到的更新后的聚合子模型，并按照上述步骤S205中相同的过程，更新人脸识别模型，直至接收到第一设备发送的模型停止训练指令，确定人脸识别模型训练完毕。其中，模型训练停止条件可以是第一设备对每个第二设备发送的更新后人脸特征提取子模型的聚合次数，或者，模型训练停止条件可以是每个第二设备在人脸识别模型训练过程中的迭代总次数。可以理解的是，该模型训练停止条件可以基于实际需要确定，本公开实施例对此不作限定。

示例的，假设人脸识别参考模型为SphereFace36模型，训练集为Webface人脸数据集和Msceleb人脸数据集，测试集为LFW人脸数据集、AgeDB30人脸数据集和CFP_FP人脸数据集，利用训练集得到在四种不同训练条件下的人脸识别模型，利用测试集对每个训练好的人脸识别模型进行测试得到的测试结果，该测试结果表示人脸识别模型对测试集中的样本人脸图像的识别结果的准确率，如表1所示，

表1

其中，最大迭代次数为第二设备接收到模型训练指令后，对待训练人脸识别模型进行训练，得到更新后的人脸识别模型的过程中，对待训练的人脸识别模型的迭代训练次数，参数交换次数为第二设备向第一设备发送更新后的人脸识别模型中的人脸特征提取子模型的次数，迭代总次数为模型训练截止时，第二设备中的待训练的人脸识别模型的全部迭代训练次数，例如，编号为1的人脸识别模型在训练过程中，第二设备将SphereFace36模型发送至每个第二设备后，第二设备生成本第二设备的待训练的人脸识别模型后，将待训练的人脸识别模型迭代训练一次后，得到更新后的人脸识别模型，可以向第一设备发送更新后的人脸识别模型，由于第一设备中的迭代总次数为20万次，则第一设备需要向第二设备继续发送模型训练指令，并重复上述过程20万次，得到最终的人脸识别模型。

其中，编号1和编号3的人脸识别模型在训练过程中，在人脸识别模型的参数更新阶段，采用第一种参数更新策略，编号2和编号4的人脸识别模型在训练过程中，在人脸识别模型的参数更新阶段，采用第二种参数更新策略，其中，第一种参数更新策略为更新人脸识别模型的所有网络层的参数，第二种参数更新策略为在人脸识别模型开始训练后的预设次数的迭代训练过程中，在更新人脸识别模型的参数时，固定人脸特征提取子模型的参数，只更新人脸识别任务子模型的参数；在预设次数之后的迭代训练过程中，在更新人脸识别模型的参数时，更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数。

由三个测试集的测试结果可知，当最大迭代次数较小时，对应的编号1和编号2的人脸识别模型的测试结果差距较小，但是，当最大迭代次数较小时，对应编号3和编号4的人脸识别模型的测试结果差距较大，且采用第二种参数更新策略训练得到的人脸识别模型的识别精准度高于第一种参数更新策略训练得到的人脸识别模型。

下面从第一设备的角度，对人脸识别模型训练方法进行说明。图4示出了由第一设备执行的人脸识别模型训练方法的示例性流程，可以包括步骤S401至步骤S404：

步骤S401、向每个第二设备发送人脸识别参考模型。

在本步骤S401中，第一设备可以向每个第二设备发送人脸识别参考模型，每个第二设备在接收到第一设备发送的人脸识别参考模型后，可以根据本第二设备配置的人脸识别任务子模型和人脸识别参考模型中的人脸特征提取子模型，生成每个第二设备的待训练的人脸识别模型，利用每个第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型，并将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备。

步骤S402、接收每个第二设备发送的更新后人脸识别模型中的人脸特征提取子模型。

步骤S403、根据多个更新后的人脸特征提取子模型得到聚合子模型。

在本步骤S403中，第一设备根据多个更新后的人脸特征提取子模型得到聚合子模型的过程可以包括：第一设备可以利用FedAvg算法处理多个更新后的人脸特征提取子模型，得到聚合子模型。

步骤S404、将聚合子模型发送至每个第二设备。

在本步骤S404中，第一设备可以将聚合子模型发送至每个第二设备，以使第二设备根据聚合子模型更新人脸识别模型。

进一步的，第一设备在将聚合子模型发送至每个第二设备后，还需要判断是否满足模型训练停止条件，若第一设备确定满足模型训练停止条件，则向每个第二设备发送模型停止训练指令，每个第二设备确定训练得到的人脸识别模型为，根据聚合子模型更新人脸识别模型得到的人脸识别模型；若第一设备确定未满足模型训练停止条件，则向每个第二设备继续发送模型训练指令，以使每个第二设备对更新后的人脸识别模型再次进行迭代训练，直至确定满足模型训练停止条件，向每个第二设备发送模型停止训练指令。

本公开提供一种人脸识别模型训练方法的交互流程，如图5所示，该方法可以包括步骤S501至步骤S508：

步骤S501、每个第二设备向第一设备发送连接状态检测请求。

步骤S502、若第一设备根据接状态检测请求确定第二设备与第一设备的连接状态正常，则向第二设备发送人脸识别参考模型。

步骤S503、第二设备根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型，向第一设备发送模型建立完成信息。

步骤S504、第一设备在接收到每个第二设备发送的模型建立完成信息后，向每个第二设备发送模型训练指令。

步骤S505、第二设备利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型，将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备。

步骤S506、第一设备根据每个第二设备发送的多个更新后的人脸特征提取子模型得到聚合子模型，将聚合子模型发送至每个第二设备。

步骤S507、第二设备根据聚合子模型更新人脸识别模型。

步骤S508、第一设备确定满足模型训练停止条件后，向每个第二设备发送模型停止训练指令。

本公开实施例提供一种人脸识别模型训练装置，该人脸识别模型训练装置应用于人脸识别模型训练系统，人脸识别模型训练系统包括第一设备和多个第二设备，该人脸识别模型训练装置应用于任一第二设备中，如图6所示，该人脸识别模型训练装置600包括：

第一接收模块601，被配置为接收第一设备发送的人脸识别参考模型，人脸识别参考模型包括人脸特征提取子模型；

模型生成模块602，被配置为根据本第二设备配置的人脸识别任务子模型和人脸特征提取子模型，生成本第二设备的待训练的人脸识别模型；

模型训练模块603，被配置为利用本第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型；

处理模块604，被配置为将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备，并接收第一设备发送的聚合子模型，聚合子模型为第一设备根据每个第二设备发送的更新后的人脸特征提取子模型确定的；

更新模块605，被配置为根据聚合子模型更新人脸识别模型。

可选的，模型训练模块603，被配置为：

利用训练集和对人脸识别模型进行预设次数的迭代训练，并固定人脸特征提取子模型的参数，以更新人脸识别任务子模型的参数，得到初步更新后的人脸识别模型；

利用训练集对初步更新后的人脸识别模型进行迭代训练，以更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数，得到更新后的人脸识别模型。

可选的，模型训练模块603，被配置为：

利用训练集对初步更新后的人脸识别模型进行目标次数的迭代训练，以更新人脸特征提取子模型的参数，或者更新人脸特征提取子模型与人脸识别任务子模型的参数，得到更新后的人脸识别模型，目标次数为最大迭代次数与预设次数的差值，最大迭代次数为解析接收到的第一设备发送的模型训练参数获取的。

可选的，模型训练模块603，被配置为：

通过在本第二设备上开启的多个模型训练进程，分别利用训练集对人脸识别模型进行训练。

可选的，模型训练模块603，被配置为：

通过每个模型训练进程训练人脸识别模型，得到每个模型训练进程输出的人脸识别模型的梯度值；

根据每个模型训练进程输出的梯度值确定聚合梯度值；

根据聚合梯度值更新人脸识别模型的参数。

可选的，处理模块604，被配置为：

将任一更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备。

可选的，如图6所示，人脸识别模型训练装置600还包括：

模型确定模块606，被配置为若接收到第一设备发送的模型停止训练指令，则确定人脸识别模型为根据聚合子模型更新人脸识别模型得到的人脸识别模型。

本公开实施例提供一种人脸识别模型训练装置，该人脸识别模型训练装置应用于人脸识别模型训练系统，人脸识别模型训练系统包括第一设备和多个第二设备，该人脸识别模型训练装置应用于第一设备中，如图7所示，该人脸识别模型训练装置700包括：

第二发送模块701，被配置为向每个第二设备发送人脸识别参考模型，以使每个第二设备根据本第二设备配置的人脸识别任务子模型和人脸识别参考模型中的人脸特征提取子模型，生成每个第二设备的待训练的人脸识别模型，利用每个第二设备的训练集对人脸识别模型进行训练，得到更新后的人脸识别模型，将更新后的人脸识别模型中的人脸特征提取子模型发送至第一设备；

第二接收模块702，被配置为接收每个第二设备发送的更新后人脸识别模型中的人脸特征提取子模型；

聚合模块703，被配置为根据多个更新后的人脸特征提取子模型得到聚合子模型；

第二发送模块701，还被配置为将聚合子模型发送至每个第二设备，以使第二设备根据聚合子模型更新人脸识别模型。

可选的，如图7所示，该人脸识别模型训练装置700还包括：

第三发送模块704，被配置为若确定满足模型训练停止条件，则向每个第二设备发送模型停止训练指令，以使每个第二设备确定人脸识别模型为根据聚合子模型更新人脸识别模型得到的人脸识别模型。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供了一种电子设备，可以是第一设备或者第二设备。下面参考图8对该电子设备进行说明。应当理解，图8显示的电子设备800仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。

其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元810可以执行如图2所示的方法步骤等。

存储单元820可以包括易失性存储单元，例如随机存取存储单元(RAM)821和/或高速缓存存储单元822，还可以进一步包括只读存储单元(ROM)823。

存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824，这样的程序模块825包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以包括数据总线、地址总线和控制总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口840进行。电子设备800还可以通过网络适配器850与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器850通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种人脸识别模型训练方法，其特征在于，所述方法应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述方法应用于任一所述第二设备中，所述方法包括：

根据所述聚合子模型更新所述人脸识别模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述本第二设备的训练集对所述人脸识别模型进行训练，得到更新后的人脸识别模型，包括：

利用所述训练集和对所述人脸识别模型进行预设次数的迭代训练，并固定所述人脸特征提取子模型的参数，以更新所述人脸识别任务子模型的参数，得到初步更新后的人脸识别模型；

利用所述训练集对所述初步更新后的人脸识别模型进行迭代训练，以更新所述人脸特征提取子模型的参数，或者更新所述人脸特征提取子模型与所述人脸识别任务子模型的参数，得到更新后的人脸识别模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述训练集对所述初步更新后的人脸识别模型进行迭代训练，以更新所述人脸特征提取子模型的参数，或者更新所述人脸特征提取子模型与所述人脸识别任务子模型的参数，得到更新后的人脸识别模型，包括：

利用所述训练集对所述初步更新后的人脸识别模型进行目标次数的迭代训练，以更新所述人脸特征提取子模型的参数，或者更新所述人脸特征提取子模型与所述人脸识别任务子模型的参数，得到更新后的人脸识别模型，所述目标次数为最大迭代次数与所述预设次数的差值，所述最大迭代次数为解析接收到的所述第一设备发送的模型训练参数获取的。

4.根据权利要求1所述的方法，其特征在于，所述利用所述本第二设备的训练集对所述人脸识别模型进行训练，包括：

通过在所述本第二设备上开启的多个模型训练进程，分别利用所述训练集对所述人脸识别模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述通过在所述本第二设备上开启的多个模型训练进程，分别利用所述训练集对所述人脸识别模型进行训练，包括：

通过每个所述模型训练进程训练所述人脸识别模型，得到每个所述模型训练进程输出的所述人脸识别模型的梯度值；

根据每个所述模型训练进程输出的所述梯度值确定聚合梯度值；

根据所述聚合梯度值更新所述人脸识别模型的参数。

6.根据权利要求5所述的方法，其特征在于，所述将所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备，包括：

将任一所述更新后的人脸识别模型中的人脸特征提取子模型发送至所述第一设备。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若接收到所述第一设备发送的模型停止训练指令，则确定人脸识别模型为根据所述聚合子模型更新所述人脸识别模型得到的人脸识别模型。

8.一种人脸识别模型训练方法，其特征在于，所述方法应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述方法应用于所述第一设备中，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

若确定满足模型训练停止条件，则向每个所述第二设备发送模型停止训练指令，以使每个所述第二设备确定人脸识别模型为根据所述聚合子模型更新所述人脸识别模型得到的人脸识别模型。

10.一种人脸识别模型训练装置，其特征在于，所述装置应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述装置应用于任一所述第二设备中，所述装置包括：

11.一种人脸识别模型训练装置，其特征在于，所述装置应用于人脸识别模型训练系统，所述人脸识别模型训练系统包括第一设备和多个第二设备，所述装置应用于所述第一设备中，所述装置包括：

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至9任一项所述的方法。