CN112861659A

CN112861659A - 一种图像模型训练方法、装置及电子设备、存储介质

Info

Publication number: CN112861659A
Application number: CN202110087937.7A
Authority: CN
Inventors: 陈丹; 陆进; 陈斌; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-28
Anticipated expiration: 2041-01-22
Also published as: WO2022156061A1; CN112861659B

Abstract

本申请实施例公开了一种图像模型训练方法、装置及电子设备、存储介质，应用于人工智能技术领域，其中方法包括：获取图像处理模型，基于图像训练集对图像处理模型中质量模块和一个以上的处理模块进行联合训练，处理模块与质量模块对应的图像服务任务关联；依照联合训练得到的质量模块确定图像质量评分模型。在训练过程中可以借助与图像服务任务对象关联的处理模块对质量模块的图片质量训练进行辅助监督，并基于联合训练得到的质量模块得到最终的图像质量评分模型，有利于提高图像质量评分模型进行图像质量评分的准确度。本申请涉及区块链技术，如可将图像质量评分模型存储至区块链中，以用于图像质量评分等场景。

Description

一种图像模型训练方法、装置及电子设备、存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像模型训练方法、装置及电子设备、存储介质。

背景技术

图像处理是一种采用计算机对图像进行分析，以达到所需结果的技术；在图像处理技术领域中，图像的质量得分预测是一个尤其重要的研究课题。随着神经网络模型的研究推进，通过模型对图像进行质量得分预测从而得到图像的质量得分的方法逐渐受到了广泛认可。由此可见，如何通过模型训练得到性能完善的模型对后续图像质量得分预测的准确性尤其重要。

发明内容

本申请实施例提供了一种图像模型训练方法、装置及电子设备、存储介质，有利于提高图像质量评分模型进行图像质量评分的准确度。

一方面，本申请实施例提供了一种图像模型训练方法，所述方法包括：

获取图像处理模型，所述图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，所述处理模块与所述质量模块对应的图像服务任务关联；

基于图像训练集对所述质量模块和所述一个以上的处理模块进行联合训练；

依照所述联合训练得到的质量模块确定图像质量评分模型，所述图像质量评分模型用于确定输入图像的质量得分。

在一个实施例中，所述一个以上的处理模块包括：人脸识别模块和活体检测模块，所述联合训练包括第一联合训练和第二联合训练，所述图像训练集包括第一图像训练集和第二图像训练集，所述基于图像训练集对所述质量模块和一个以上的所述处理模块进行联合训练的具体实施方式为：

依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练；

依照第二训练图像集对活体检测模块和质量模块进行第二联合训练。

在一个实施例中，所述第一训练图像集包括多个用户各自对应的人脸训练图像，每个用户对应的人脸训练图像包括第一类质量的人脸训练图像和第二类质量的人脸训练图像，所述依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练的具体实施方式为：

从第一训练图像集中获取第一目标用户对应的目标人脸训练图像；其中，所述第一目标用户为多个用户中的任一用户；

将所述目标人脸训练图像输入所述图像处理模型，通过所述骨干网络提取所述目标人脸训练图像的图像特征，得到所述目标人脸训练图像的第一初始特征图；

将所述第一初始特征图输入所述人脸识别模块和所述质量模块，通过所述人脸识别模块提取识别特征图，并根据所述识别特征图对所述目标人脸训练图像进行人脸识别，依照人脸识别结果确定所述人脸识别模块的损失函数的值loss1；

调用所述质量模块确定所述目标人脸训练图像的质量得分，并根据所述质量得分对所述识别特征图进行加权处理，得到共享特征图；

基于所述共享特征图计算所述质量模块的损失函数的值loss2；

按照减小第一目标损失值的方向，更新所述图像处理模型中除所述活体检测模块以外模块的网络参数，所述第一目标损失值为所述loss1和所述loss2之和；

根据更新后的网络参数对初始图像处理模型进行迭代训练，直至所述loss1和所述loss2达到收敛状态，得到第一图像处理模型。

在一个实施例中，所述得到第一图像处理模型之后，第二训练图像集包括多个用户各自对应的活体训练图像，每个用户对应的活体训练图像包括第一活体类别的活体训练图像和第二活体类别的活体训练图像，所述依照第二训练图像集对活体检测模块和质量模块进行第二联合训练的具体实施方式为：

从第二训练图像集中获取第二目标用户对应的目标活体训练图像；其中，所述第二目标用户为多个用户中的任一用户；

将所述目标人脸训练图像输入所述第一图像处理模型，通过所述第一图像处理模型中的骨干网络提取所述目标活体训练图像的图像特征，得到所述目标活体训练图像的第二初始特征图；

将所述第二初始特征图输入所述活体检测模块和所述质量模块，通过所述活体检测模块提取检测特征图，并根据所述检测特征图对所述目标活体训练图像进行活体检测，依照活体检测结果确定所述活体检测模块的损失函数的值loss3；

调用所述第一图像处理模型中的所述质量模块确定所述目标人脸训练图像的质量得分，并根据所述质量得分对所述检测特征图进行加权处理，得到所述目标活体训练图像对应的活体共享特征图；

基于活体共享特征图计算所述质量模块的损失函数的值loss4；

按照减小第二目标损失值的方向，更新所述第一图像处理模型中除所述骨干网络和所述人脸识别模块以外模块的网络参数，所述第二目标损失值为所述loss3和所述loss4之和；

根据更新后的网络参数对所述第一图像处理模型进行迭代训练，直至所述loss3和所述loss4达到收敛状态，得到第二图像处理模型。

在一个实施例中，所述依照所述联合训练得到的质量模块确定图像质量评分模型的具体实施方式为：

将所述第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络；

基于所述目标质量模块和目标骨干网络，构建图像质量评分模型。

在一个实施例中，所述得到第二图像处理模型之后，所述方法还包括：

向所述第二图像处理模型输入新的图像，对所述第二图像处理模型中的骨干网络、人脸识别模块和活体检测模块进行冻结处理；

依照所述新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型。

在一个实施例中，所述依照所述新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型之后，所述将所述第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络的具体实施方式为：

将所述调整后的第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络。

另一方面，本申请实施例提供了一种图像模型训练装置，包括：

获取单元，用于获取图像处理模型，所述图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，所述处理模块与所述质量模块对应的图像服务任务对象关联；

处理单元，用于基于图像训练集对所述质量模块和所述一个以上的处理模块进行联合训练；

所述处理单元，还用于依照所述联合训练得到的质量模块确定图像质量评分模型，所述图像质量评分模型用于确定输入图像的质量得分。

再一方面，本申请实施例提供了一种电子设备，包括处理器、存储装置和通信接口，所述处理器、存储装置和通信接口相互连接，其中，所述存储装置用于存储支持终端执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：获取图像处理模型，图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，处理模块与质量模块对应的图像服务任务关联；基于图像训练集对质量模块和一个以上的处理模块进行联合训练；依照联合训练得到的质量模块确定图像质量评分模型。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述图像模型训练方法。

本申请实施例，可以获取图像处理模型，图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，处理模块与质量模块对应的图像服务任务关联；基于图像训练集对质量模块和一个以上的处理模块进行联合训练；依照联合训练得到的质量模块确定图像质量评分模型。在训练过程中可以借助与图像服务任务对象关联的处理模块对质量模块的图片质量训练进行辅助监督，并基于联合训练得到的质量模块得到最终的图像质量评分模型，有利于提高图像质量评分模型进行图像质量评分的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的一种图像处理模型的结构示意图；

图2是本申请实施例的一种骨干网络的结构示意图；

图3是本申请实施例的一种图像模型训练方法的流程示意图；

图4是本申请实施例的另一种图像模型训练方法的流程示意图；

图5是本申请实施例的另一种图像处理模型的结构示意图；

图6是本申请实施例的一种图像模型训练装置的结构示意图；

图7是本申请实施例的一种电子设备的结构示意图。

具体实施方式

目前，对于图像评价模型的训练通常采用标注有质量得分的训练图像对图像质量评价模型进行训练，后续训练好的图像质量评价模型可以直接确定输入图像的质量得分。但目前图像质量评价模型的训练完全忽略了图像质量评价与其对应的图像服务任务对象，使得实际应用过程中，图像质量评价模型确定的输入图像的质量得分，准确性低下。以图像质量评价模型对应的图像服务任务对象为人脸识别为例，由于人脸图像质量涉及的因素较多，质量高低是一个综合性的定义，难以通过单一方面描述清楚，相应地，对训练图像的质量得分无法给出准确的定义，通过一个标注不准确的训练图像训练出的图像质量评价模型，其准确度自然大大折扣。

为了解决上述问题，增加图像质量评分与其对应图像服务任务对象的关联性，从而提高模型进行图像质量评分的准确度，本申请实施提出了一种图像处理模型，该图像处理模型包括骨干网络、质量模块、以及一个以上的处理模块，该处理模块与质量模块对应的图像服务任务对象关联。

参见图1所示：图像处理模型可包括骨干网络、质量模块、以及m(m为大于0的整数，例如1、2、3等等)个处理模块。其中，骨干网络主要用于提取输入图像的图像特征，得到初始特征图，并将初始特征图输入质量模块和各处理模块。示例性地，该骨干网络可以包括多个残差块结构，每个残差块的网络结构可以参见图2所示的。

每个处理模块对应一种图像服务任务对象，假设图像服务任务对象为人脸识别，那么对应的处理模块，可以为人脸识别模块，用于对输入的人脸图像进行人脸识别，以确定输入的人脸图像中的人脸是哪一个用户(即目标用户)的人脸，其输出结果可以为目标用户的标识(例如ID)。示例性地，人脸识别模块的网络结构可以为：取ResNext50网络，去掉ResNext50网最后的全局平均池化层(Average Pooling层)，在最后接两个全连接层(fc)，第一个全连接层fc1用于输出特征图(为了便于区别本申请实施例提及的各种特征图，此处的特征图在本申请实施例中可以统称为识别特征图，该识别特征图例如可以为512维特征)，第二全连接层fc2用于输出输入的人脸图像属于各个类别的分数，其中，一个类别对应一个用户，分数最高的类别即为输入的人脸图像中人脸所属的目标用户。

假设图像服务任务对象为活体识别，那么对应的处理模块可以为活体检测模块，该活体检测模块用于检测输入图像所包括的对象为活体还是非活体，其中，活体可以理解为具有生命体征的对象；非活体则相反。例如，拍摄真人得到的人脸图像，可以划分为活体；拍摄包含真人照片得到的人脸图像，可以划分为非活体。示例性地，活体检测模块的网络结构可以为：采用MobileNetV3-Small网络结构。MobileNetV3-Small中倒数第二层卷积输出的特征图，为了便于区分，在本申请实施例中可以统称为检测特征图，该检测特征图例如可以为1024维特征，MobileNetV3-Small中最后一层卷积层用于依照上一层输入的检测特征图进行二分类处理，确定输入图像对应对象属于活体和非活体这两类的得分，得分最高的类别即为输入图像对应对象所属的活体类别(活体或者非活体)

质量模块，用于评价输入图像的质量得分，输出结果可以为输入图像的质量得分。示例性地，质量模块的模型结构可以为：采用轻量级网络MobileNet中深度可分离卷积(由Depthwise卷积和Pointwise卷积两部分组成)，经过5个深度可分离卷积层后得到最后的特征图，然后接全局平均池化层和一个全连接层。最后经过Sigmoid(Sigmoid函数常被用作神经网络的激活函数，将变量映射到0，1之间。)转化为0-1之间的数值，即为单张图的质量得分。

在一个实施例中，在获取到上述图像处理模型之后，可以基于图像训练集对图像处理模型中的质量模块和各处理模块进行联合训练，并依照联合训练得到的质量模块确定图像质量评分模型，该图像质量评分模型用于确定输入图像的质量得分。示例性地，该图像质量评分模型可以如图1中虚线框中的模块组成。采用这样的训练方式，在训练过程中可以借助与图像服务任务对象关联的任务(例如人脸识别和活体检测)对质量模块的图片质量训练进行辅助监督，并基于联合训练得到的质量模块得到最终的图像质量评分模型，可以使得图像质量评分模型在进行图像质量评分时，增加图像质量评分与其对应图像服务任务对象的关联性，从而提高图像质量评分模型进行图像质量评分的准确度。

需要说明的是，图1只是示意性地表征图像处理模型的模型结构，并不对本发明实施例所提出的图像处理模型的模型结构进行限定。除此以外，上述处理模块除了人脸识别模块和活体检测模块，还可以结合具体的图像服务任务对象进行相应地拓展，例如图像服务任务对象为自动化驾驶，那么处理模块还可以包括路径识别模块、环境识别模块等等。

基于上述的图像处理模型的模型结构，本申请实施例提出了一种图像模型训练方法，该方法可以由电子设备执行，此处的电子设备可以为服务器或者终端，该终端可以包括但不限于：平板电脑、膝上计算机、笔记本电脑以及台式电脑，等等。请参见图3所示，该模型训练方法可包括以下步骤S301-S303：

S301、获取图像处理模型，该图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，该处理模块与质量模块对应的图像服务任务对象关联。在一个实施例中，可以预先构建图像处理模型，示例性，该图像处理模型可以如图1所示。

S302：基于图像训练集对质量模块和一个以上的处理模块进行联合训练。

S303：依照联合训练得到的质量模块确定图像质量评分模型，该图像质量评分模型用于确定输入图像的质量得分。

其中，上述处理模块与质量模块对应的图像服务任务，或者也可以理解为最终的图像质量评分模型对应的图像服务任务，也即，图像质量评分模型评价任一单张图像的质量得分，那么这个拥有质量得分的单张图像后续将应用于怎样的图像任务，如人脸识别模型的训练(即人脸识别)或者活体检测模型的训练(即活体识别)等等。采用高质量的图像进行模型训练，有利于提高所训练模型后续使用的准确度。因此，本申请实施例可以结合与质量模块对应的图像服务任务关联的处理模块，对质量模块进行辅助监督，并基于训练得到的质量模块构建图像质量评分模型。使得图像质量评分模型在实际应用过程中，所得到的图像质量评分结果，更符合其对应的图像服务任务对图像质量的评价标准(例如人脸识别中图像质量更加关注的因素包括：饱和度、清晰度、光照、姿态、遮挡、浓彩以及夸张表情等)，有利于提高图像质量评分模型对图像质量的评分准确度。

请参见图4，本申请实施例提出了另一种图像模型训练方法，请参见图4所示，该图像模型训练方法可包括以下步骤S401-S404：

S401、获取图像处理模型，该图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，该一个以上的处理模块包括：人脸识别模块和活体检测模块。

S402：依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练。

具体实现中，依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练，包括：从第一训练图像集中获取第一目标用户对应的目标人脸训练图像；其中，第一目标用户为多个用户中的任一用户。进一步地，将目标人脸训练图像输入图像处理模型，通过骨干网络提取目标人脸训练图像的图像特征，得到目标人脸训练图像的第一初始特征图，将第一初始特征图输入人脸识别模块和质量模块，通过人脸识别模块提取识别特征图，并根据识别特征图对目标人脸训练图像进行人脸识别，依照人脸识别结果确定人脸识别模块的损失函数的值loss1。进一步地，调用质量模块确定目标人脸训练图像的质量得分，并根据质量得分对识别特征图进行加权处理，得到共享特征图，基于共享特征图计算质量模块的损失函数的值loss2，按照减小第一目标损失值的方向，更新图像处理模型中除活体检测模块以外模块的网络参数，该第一目标损失值为loss1和所述loss2之和。进一步地，根据更新后的网络参数对初始图像处理模型进行迭代训练，直至loss1和loss2达到收敛状态，得到第一图像处理模型。

其中，第一训练图像集包括多个用户各自对应的人脸训练图像，每个用户对应的人脸训练图像包括第一类质量的人脸训练图像和第二类质量的人脸训练图像。在一个实施例中，一个用户对一个标识(例如ID)，每个用户对应的人脸训练图像包括不同图片质量的L1(该L1为大于0的整数)张人脸图像，该L1是根据实验数据预先确定。例如，在准备第一训练图像集时，可以要求每个ID包含图片数要大于八张图片(即同一个人的不同图片多于8张)，且图片质量不同(每个ID中包含模糊、大角度等质量欠佳图及正常优质图片)。其中，模糊、大角度等质量欠佳的图像均可以归类为第一类质量的图像；正常优质的图像归类为第二类质量的图像。

在一个实施例中，在依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练的过程中，每一次训练，可以输入同一个ID的L1张人脸图像(即一个用户对应的人脸训练图像)。示例性地，假设图像处理模型参见图5所示，人脸识别模块的网络结构为：取ResNext50网络，去掉ResNext50网最后的全局平均池化层(Average Pooling层)，在最后接两个全连接层(fc)，第一个全连接层fc1用于输出识别特征图，(该识别特征图例如可以为512维特征)，第二全连接层fc2用于输出输入的人脸图像属于各个类别的分数，质量模块的模型结构为：采用轻量级网络MobileNet中深度可分离卷积(由Depthwise卷积和Pointwise卷积两部分组成)，经过5个深度可分离卷积层后得到最后的特征图，然后接全局平均池化层和一个全连接层，最后经过Sigmoid(Sigmoid函数常被用作神经网络的激活函数，将变量映射到0，1之间。)转化为0-1之间的数值，即为单张图的质量得分。第一联合训练过程中，只训练人脸识别模块和质量模块，活体检测模块的网络参数不进行更新。以一次训练为例，其具体训练过程为：

一次训练向图像处理模型输入第一目标用户对应的所有目标人脸训练图像，经过骨干网络进行特征提取之后，得到所有目标人脸训练图像的第一初始特征图，作为人脸识别模块和质量模块的输入。经过人脸识别模块后得到所有目标人脸训练图像的512维特征图(即上述识别特征图)，存入特征池中。特征池中存入的512维特征图有两个作用，一是直接经过人脸识别模块的第二个全连接层fc2，利用人脸识别模块对应的第一损失函数(例如softmaxloss)做人脸识别模块的监督训练(该步为通常的人脸识别模块的训练过程，具体可以为：根据识别特征图对目标人脸训练图像进行人脸识别，通过第一损失函数依照人脸识别结果确定人脸识别模块的损失函数的值loss1)，二是留给质量模块复用。

一次训练输入的第一目标用户对应的所有目标人脸训练图像经过质量模块后得到各目标人脸训练图像的质量得分，依照各目标人脸训练图像的质量得分确定各自对应的加权系数。其中，确定加权系数时，可以由于质量得分的数值属于0-1，可以直接将质量得分确定为加权系数。或者，可以依照质量得分越高对应加权系数越高的原则重新分配加权系数，对此不作具体限定。

进一步地，在确定各目标人脸训练图像的加权系数后，可以依照各目标人脸训练图像的加权系数，对各目标人脸训练图像的识别特征图进行加权处理，从而得到一个共享特征图。示例性地，假设第一目标用户对应的所有目标人脸训练图像包括：图像1、图像2、图像3、图像4、图像5、图像6、图像7和图像8，各目标人脸训练图像、加权系数和识别特征图三者之间的对应关系如表1所示，那么共享特征图为：

(0.05*P1+0.1*P2+0.1*P3+0.5*P4+0.1*P5+0.05*P6+0.05*P7+0.05*P8)。

表1

人脸训练图像	加权系数	识别特征图
			图像1	0.05	识别特征图1(记为P1)
图像2	0.1	识别特征图2(记为P2)
			图像3	0.1	识别特征图3(记为P3)
图像4	0.5	识别特征图4(记为P4)
			图像5	0.1	识别特征图5(记为P5)
图像6	0.05	识别特征图6(记为P6)
			图像7	0.05	识别特征图7(记为P7)
图像8	0.05	识别特征图8(记为P8)

进一步地，在得到共享特征图之后，可以将共享特征图输入质量模块中的全连接层，全连接层可以依照该共享特征图进行分类处理，确定该共享特征图属于各个ID(或者可以理解为各个用户)的得分，得分最高的ID即为最终的分类结果。可以通过质量模块对应的第二损失函数，依照该分类结果与第一目标用户的ID之间的差异，计算质量模块当前损失函数的值loss2。其中，第一联合训练阶段的总loss(即第一目标损失值)等于人脸识别模块和质量模块两个分支的loss之和(即上述loss1+loss2)。第一联合训练阶段可以采用梯度下降法按照减小第一目标损失值的方向，优化总loss更新图像处理模型中除活体检测模块以外模块的网络参数。以此类推，可以依照上述相同的训练方式，输入其它用户对应的人脸训练图像继续对人脸识别模块和质量模块进行第一联合训练，优化总loss，直到两个分支的loss(即loss1和loss2))均达到收敛状态，暂停第一联合训练。

S403：依照第二训练图像集对活体检测模块和质量模块进行第二联合训练。

在一个实施例中，得到第一图像处理模型之后，第二训练图像集包括多个用户各自对应的活体训练图像，每个用户对应的活体训练图像包括第一活体类别的活体训练图像和第二活体类别的活体训练图像，依照第二训练图像集对活体检测模块和质量模块进行第二联合训练，包括：从第二训练图像集中获取第二目标用户对应的目标活体训练图像；其中，第二目标用户为多个用户中的任一用户。将目标人脸训练图像输入第一图像处理模型，通过第一图像处理模型中的骨干网络提取目标活体训练图像的图像特征，得到目标活体训练图像的第二初始特征图，将第二初始特征图输入活体检测模块和质量模块，通过活体检测模块提取检测特征图，并根据检测特征图对目标活体训练图像进行活体检测，依照活体检测结果确定活体检测模块的损失函数的值loss3，调用第一图像处理模型中的质量模块确定目标人脸训练图像的质量得分，并根据质量得分对检测特征图进行加权处理，得到目标活体训练图像对应的活体共享特征图。进一步地，基于活体共享特征图计算质量模块的损失函数的值loss4，按照减小第二目标损失值的方向，更新第一图像处理模型中除骨干网络和人脸识别模块以外模块的网络参数，该第二目标损失值为所述loss3和所述loss4之和，根据更新后的网络参数对第一图像处理模型进行迭代训练，直至loss3和loss4达到收敛状态，得到第二图像处理模型。其中，上述第一类活体类别和第二类活体类别可以分别指活体和非活体。

其中，活体检测模块对应的第三损失函数可以采用常用的Softmax Loss，也可以采用ArcFace loss，其中，Softmax Loss和ArcFace loss均用于做二分类。质量模块对应的第二损失函数可以采用常用的SoftmaxLoss、ArcFace loss，也可以采用三元数组函数Triplet loss。

作为一种可行的方式，当质量模块对应的第二损失函数为Softmax Loss或者ArcFace loss时，那么在准备训练数据(即第二训练图像集)时，可以从视频流中采集活体数据集(包含活体图像和非活体图像)，要求每个用户对应至少4张活体或者4张非活体图像。在进行第二联合训练时，每次训练可以输入同一用户对应的活体训练图像(例如第二目标用户(记为ID1)的4张活体图片+4张非活体图片)。每一个用户对应一个标识(例如ID)。

作为另一种可行的方式，当质量模块对应的第二损失函数为Triplet loss时，那么在准备训练数据(即第二训练图像集)时，仍然可以要求每个用户对应至少4张活体或者4张非活体图像。在进行第二联合训练时，假设求每个用户对应有4张活体或者4张非活体图像，以一次训练为例，一次训练输入的图像可以包括：第二目标用户对应的两张活体图和两张非活体图可以作为Anchor图，第二目标用户对应剩余的2张活体图和2张非活体图可以作为Positive图，另一个用户(记为ID2)的四张图(两张活体和两张非活体)可以作为Negative图。每一个用户对应一个标识(例如ID)。

其中，第二联合训练过程与上述第一联合训练过程相似。当质量模块对应的第二损失函数为Softmax Loss或者ArcFace loss时，第二联合训练过程中，只训练活体检测模块和质量模块，人脸识别模块和骨干网络的网络参数不进行更新。以一次训练为例，其具体训练过程为：

一次训练向第一图像处理模型(即第一联合训练完成后的图像处理模型)输入第二目标用户对应的所有目标活体训练图像，经过骨干网络进行特征提取之后，得到所有目标活体训练图像的第二初始特征图，作为活体检测模块和质量模块的输入。经过活体检测模块后得到所有目标活体训练图像的1024维特征图(即上述检测特征图)，存入活体检测模块对应的特征池中。活体检测模块对应的特征池中存入的1024维特征图有两个作用，一是直接经过活体检测模块，利用活体检测模块对应的第三损失函数(例如softmaxloss或者ArcFace loss)做活体识别模块的监督训练(该步为通常的活体检测模块的训练过程，具体可以为：通过第三损失函数依照活体检测结果确定活体检测模块的损失函数的值loss3)，二是留给质量模块复用。

一次训练输入的第二目标用户对应的所有目标活体训练图像经过质量模块后得到各目标活体训练图像的质量得分，依照各目标活体训练图像的质量得分确定各自对应的加权系数。其中，确定加权系数时，可以由于质量得分的数值属于0-1，可以直接将质量得分确定为加权系数。或者，可以依照质量得分越高对应加权系数越高的原则重新分配加权系数，对此不作具体限定。

进一步地，在确定各目标活体训练图像的加权系数后，可以依照各目标活体训练图像的加权系数，对各目标活体训练图像的检测特征图进行加权处理，从而得到一个活体共享特征图。

进一步地，在得到活体共享特征图之后，可以将活体共享特征图输入质量模块中的全连接层，全连接层可以依照该活体共享特征图进行分类处理，确定该活体共享特征图属于各个ID(或者可以理解为各个用户)的得分，得分最高的ID即为最终的分类结果。可以通过质量模块对应的第二损失函数，依照该分类结果与第二目标用户的ID之间的差异，计算质量模块当前损失函数的值loss4。其中，第二联合训练阶段的总loss(即第二目标损失值)等于活体检测模块和质量模块两个分支的loss之和(即上述loss3+loss4)。第二联合训练阶段可以采用梯度下降法按照减小第二目标损失值的方向，优化总loss更新图像处理模型中除骨干网络和人脸识别模块以外模块的网络参数。以此类推，可以依照上述相同的训练方式，输入其它用户对应的活体训练图像继续对活体检测模块和质量模块进行第二联合训练，优化总loss，直到两个分支的loss(即loss3和loss4))均达到收敛状态，暂停第二联合训练。

或者，在另一个实施例中，以质量模块对应的第二损失函数为Tripletloss、活体模块对应的第三损失函数为ArcFace loss为例进行说明，具体地：活体模块对应特征池中的特征有两个用途，一是直接用于活体检测监督采用ArcFace loss做活体和非活体的二分类，二是用质量得分作为加权系数对特征池中的Anchor、Positive、Negative中的三个特征做加权处理，求得三个加权后的特征图，然后计算Triplet loss。该阶段总loss等于两部分loss之和。在第二联合训练过程中，会冻结Backbone部分和识别分支的网络的参数，并采用梯度下降法进行训练，优化总Loss，直到两部分loss都不再下降达到收敛状态，则停止训练。

可以理解的是，第一联合训练和第二联合训练的先后顺序不进行限定，可以依照上述内容先进行第一联合训练再进行第二联合训练。也可以先对活体检测模块和质量模块进行联合训练，再对人脸识别模块和质量模块进行联合训练。

在一个实施例中，在进行第一联合训练和第二联合训练，得到第二图像处理模型之后，还可以向第二图像处理模型输入新的图像，对第二图像处理模型中的骨干网络、人脸识别模块和活体检测模块进行冻结处理，依照新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型。

具体实现中，可以依照固定学习率和新的图像对第二图像处理模型进行微调，后续可以基于微调后的模型生成图像质量评分模型。具体地，在微调阶段，冻结骨干网络、人脸识别模块和活体模块，只微调质量模块。其中，所谓的冻结，是指在训练阶段不更新对应的网络参数。具体的微调过程为：对第二图像处理模型输入一张新的图像，输入一张新的图像后，第二图像处理模型中的人脸识别模块可以提取512维特征图，质量模块可以依照该新的图像的质量得分，对512维特征图进行加权处理，依照加权后的特征图求损失函数的值，记为loss5。另一方面，质量模块可以该新的图像的质量得分，对活体检测模块传来的1024维特征图进行加权处理，依照加权后的特征图求损失函数的值，记为loss6，总loss＝loss5+loss6，设置一个较小的初始学习率(base_lr)，只做微调，例如base_lr＝e-5，从而防止网络震荡。每次按照总loss减小的方向，依照base_lr更新第二图像处理模型中质量模块的网络参数，以此类推，输入其它图像对第二图像处理模型进行迭代训练，直至总loss基本不再发生变化，则停止训练，从而完成模型微调。

在一个实施例中，依照新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型之后，将第二图像处理模型中的质量模块和骨干模块，分别确定为经过第一联合训练和第二联合训练后得到的目标质量模块和目标骨干网络，包括：将调整后的第二图像处理模型中的质量模块和骨干模块，分别确定为经过第一联合训练和第二联合训练后得到的目标质量模块和目标骨干网络。

S404：依照进行第一联合训练和第二联合训练后得到的质量模块确定图像质量评分模型，该图像质量评分模型用于确定输入图像的质量得分。

在一个实施例中，依照联合训练得到的质量模块确定图像质量评分模型，包括：将第二图像处理模型中的质量模块和骨干模块，分别确定为经过第一联合训练和第二联合训练后得到的目标质量模块和目标骨干网络，基于目标质量模块和目标骨干网络，构建图像质量评分模型。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图6，是本申请实施例的一种图像模型训练装置的结构示意图。

本申请实施例的所述装置的一个实现方式中，所述装置包括如下结构。

获取单元60，用于获取图像处理模型，所述图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，所述处理模块与所述质量模块对应的图像服务任务对象关联；

处理单元61，用于基于图像训练集对所述质量模块和所述一个以上的处理模块进行联合训练；

所述处理单元61，还用于依照所述联合训练得到的质量模块确定图像质量评分模型，所述图像质量评分模型用于确定输入图像的质量得分。

在一个实施例中，所述一个以上的处理模块包括：人脸识别模块和活体检测模块，所述联合训练包括第一联合训练和第二联合训练，所述图像训练集包括第一图像训练集和第二图像训练集，处理单元61，具体用于：

在一个实施例中，所述第一训练图像集包括多个用户各自对应的人脸训练图像，每个用户对应的人脸训练图像包括第一类质量的人脸训练图像和第二类质量的人脸训练图像，处理单元61，还具体用于：

在一个实施例中，所述得到第一图像处理模型之后，第二训练图像集包括多个用户各自对应的活体训练图像，每个用户对应的活体训练图像包括第一活体类别的活体训练图像和第二活体类别的活体训练图像，处理单元61，还具体用于：

在一个实施例中，处理单元61，还具体用于：

在一个实施例中，所述依照所述新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型之后，处理单元61，还具体用于：将所述调整后的第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络。

再请参见图7，是本申请实施例的一种电子设备的结构示意图，本申请实施例的所述电子设备包括供电模块等结构，并包括处理器701、存储装置702以及通信接口703。所述处理器701、存储装置702以及通信接口703之间可以交互数据，由处理器701实现相应的图像模型训练功能。

所述存储装置702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储装置702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；所述存储装置702还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器701(central processing unit，CPU)。在一个实施例中，所述处理器701还可以是图形处理器701(Graphics Processing Unit，GPU)。所述处理器701也可以是由CPU和GPU的组合。在所述电子设备中，可以根据需要包括多个CPU和GPU进行相应的图像模型训练。在一个实施例中，所述存储装置702用于存储程序指令。所述处理器701可以调用所述程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，所述电子设备的所述处理器701，调用所述存储装置702中存储的程序指令，用于获取图像处理模型，所述图像处理模型包括：骨干网络、质量模块、以及一个以上的处理模块，所述处理模块与所述质量模块对应的图像服务任务关联；基于图像训练集对所述质量模块和所述一个以上的处理模块进行联合训练；依照所述联合训练得到的质量模块确定图像质量评分模型，所述图像质量评分模型用于确定输入图像的质量得分。

在一个实施例中，所述一个以上的处理模块包括：人脸识别模块和活体检测模块，所述联合训练包括第一联合训练和第二联合训练，所述图像训练集包括第一图像训练集和第二图像训练集，处理器701，具体用于：

在一个实施例中，所述第一训练图像集包括多个用户各自对应的人脸训练图像，每个用户对应的人脸训练图像包括第一类质量的人脸训练图像和第二类质量的人脸训练图像，处理器701，还具体用于：

在一个实施例中，所述得到第一图像处理模型之后，第二训练图像集包括多个用户各自对应的活体训练图像，每个用户对应的活体训练图像包括第一活体类别的活体训练图像和第二活体类别的活体训练图像，处理器701，还具体用于：

在一个实施例中，处理器701，还具体用于：

在一个实施例中，所述依照所述新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型之后，处理器701，还具体用于：将所述调整后的第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络。

可参考前述各个附图所对应的实施例中相关内容的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述一个以上的处理模块包括：人脸识别模块和活体检测模块，所述联合训练包括第一联合训练和第二联合训练，所述图像训练集包括第一图像训练集和第二图像训练集，所述基于图像训练集对所述质量模块和一个以上的所述处理模块进行联合训练，包括：

3.如权利要求2所述的方法，其特征在于，所述第一训练图像集包括多个用户各自对应的人脸训练图像，每个用户对应的人脸训练图像包括第一类质量的人脸训练图像和第二类质量的人脸训练图像，所述依照第一训练图像集对人脸识别模块和质量模块进行第一联合训练，包括：

4.如权利要求3所述的方法，其特征在于，所述得到第一图像处理模型之后，第二训练图像集包括多个用户各自对应的活体训练图像，每个用户对应的活体训练图像包括第一活体类别的活体训练图像和第二活体类别的活体训练图像，所述依照第二训练图像集对活体检测模块和质量模块进行第二联合训练，包括：

5.如权利要求4所述的方法，其特征在于，所述依照所述联合训练得到的质量模块确定图像质量评分模型，包括：

6.根据权利要求4所述的方法，其特征在于，所述得到第二图像处理模型之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述依照所述新的图像对所述第二图像处理模型中的质量模块进行调整，以得到调整后的第二图像处理模型之后，所述将所述第二图像处理模型中的质量模块和骨干模块，分别确定为经过所述第一联合训练和所述第二联合训练后得到的目标质量模块和目标骨干网络，包括：

8.一种图像模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、存储装置和通信接口，所述处理器、所述存储装置和所述通信接口相互连接，其中，所述存储装置用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的图像模型训练方法。