CN113901904A

CN113901904A - 图像处理方法、人脸识别模型训练方法、装置及设备

Info

Publication number: CN113901904A
Application number: CN202111157086.5A
Authority: CN
Inventors: 李建伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-07
Also published as: US20230103013A1; KR20220130630A; JP2022172362A

Abstract

本公开提供了一种图像处理方法、人脸识别模型训练方法、装置及设备，涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于图像处理、图像识别等场景。具体实现方案为：获取待处理人脸图像，并将待处理人脸图像切割为多个图像块；确定待处理人脸图像中各图像块的重要性信息；获取预设的视觉转换模型的剪枝率；将多个图像块输入至视觉转换模型，并根据剪枝率和各图像块的重要性信息，对视觉转换模型之中每层网络的输入进行剪枝处理，获得视觉转换模型的输出结果；根据视觉转换模型的输出结果，确定待处理人脸图像的特征向量。本公开的技术方案可以降低图像处理过程中的算力消耗，提高图像处理的效率。

Description

图像处理方法、人脸识别模型训练方法、装置及设备

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习技术领域，可应用于图像处理、图像识别等场景，尤其涉及一种图像处理方法、人脸识别模型训练方法、装置及设备。

背景技术

近期视觉转换(Vision Transformer,ViT)模型得到了极大的发展，转换模型(Transformer)在各项视觉领域竞争中取得优异结果。不过对比卷积神经网络模型，Transformer模型一般需要耗费巨大的算力进行推断和部署，迫切需要将Transformer模型进行小型化压缩处理。

发明内容

本公开提供了一种图像处理方法、人脸识别模型训练方法、装置及设备。

根据本公开的第一方面，提供了一种图像处理方法，包括：

获取待处理人脸图像，并将所述待处理人脸图像切割为多个图像块；

确定所述待处理人脸图像中各图像块的重要性信息；

获取预设的视觉转换模型的剪枝率；

将所述多个图像块输入至所述视觉转换模型，并根据所述剪枝率和所述各图像块的重要性信息，对所述视觉转换模型之中每层网络的输入进行剪枝处理，获得所述视觉转换模型的输出结果；

根据所述视觉转换模型的输出结果，确定所述待处理人脸图像的特征向量。

根据本公开的第二方面，提供了一种人脸识别模型的训练方法，包括：

获取人脸图像样本，并将所述人脸图像样本切割为多个图像块；

确定所述人脸图像样本中各图像块的重要性信息；

获取视觉转换模型的剪枝率；

根据所述视觉转换模型的输出结果，确定所述人脸图像样本的特征向量，并根据所述特征向量获取人脸识别结果；

根据所述人脸识别结果训练所述视觉转换模型。

根据本公开的第三方面，提供了一种图像处理装置，包括：

第一获取模块，用于获取待处理人脸图像，并将所述待处理人脸图像切割为多个图像块；

第一确定模块，用于确定所述待处理人脸图像中各图像块的重要性信息；

第二获取模块，用于获取视觉转换模型的剪枝率；

剪枝模块，用于将所述多个图像块输入至所述视觉转换模型，并根据所述剪枝率和所述各图像块的重要性信息，对所述视觉转换模型之中每层网络的输入进行剪枝处理，获得所述视觉转换模型的输出结果；

第二确定模块，用于根据所述视觉转换模型的输出结果，确定所述待处理人脸图像的特征向量。

根据本公开的第四方面，提供了一种人脸识别模型的训练装置，包括：

第一获取模块，用于获取人脸图像样本，并将所述人脸图像样本切割为多个图像块；

第一确定模块，用于确定所述人脸图像样本中各图像块的重要性信息；

第二获取模块，用于获取视觉转换模型的剪枝率；

第二确定模块，用于根据所述视觉转换模型的输出结果，确定所述人脸图像样本的特征向量，并根据所述特征向量获取人脸识别结果；

训练模块，用于根据所述人脸识别结果训练所述视觉转换模型。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法，和/或，执行上述第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述第一方面所述的方法，和/或，执行上述第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述第一方面所述的方法，和/或，实现上述第二方面所述的方法。

根据本公开的技术方案，将待处理人脸图像的多个图像块输入至预设的视觉转换模型，并根据模型的剪枝率及各图像块的重要信息，对视觉转换模型之中每层网络的输入进行剪枝处理，从而可以通过减少视觉转换模型之中每层网络的输入特征，在不影响人脸图像特征提取的同时，实现了降低视觉转换模型的算力消耗，从而可以提高图像处理的效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例中的视觉转换模型的结构示意图；

图2是根据本公开实施例提供的一种图像处理方法的流程图；

图3是根据本公开实施例中的一种针对每层网络输入的剪枝处理的流程图

图4是根据本公开实施例中的另一种针对每层网络输入的剪枝处理的流程图；

图5是根据本公开实施例提供的又一种针对每层网络输入的剪枝处理的流程图；

图6是根据本公开实施例中的针对每层网络输入的剪枝处理的示例图；

图7是根据本公开实施例提供的一种人脸识别模型的训练方法；

图8是根据本公开实施例提供的一种图像处理装置的结构框图；

图9是根据本公开实施例提供的另一种图像处理装置的结构框图；

图10是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。所涉及的用户个人信息是在争得用户同意的情况下获取、存储和应用的。

需要说明的是，在本公开的一些实施例中，视觉转换模型是指VisionTransformer(ViT)模型。近期视觉转换模型得到了极大的发展，转换模型(Transformer)在各项视觉领域竞争中取得优异结果。不过对比卷积神经网络模型，Transformer模型一般需要耗费巨大的算力进行推断和部署，迫切需要将Transformer模型进行小型化压缩处理。

其中，视觉转换模型结构如图1所示，在Transformer中一张图片被分成多个图像块(patch)，每个图像块分别对应网络的一个输入位置。Multitransformerencoder(多层转换模型中的编码器)堆叠了多层的TransformerEncoder(转换模型中的编码器)模块，该模块中有两个norm(标准化)模块，一个MHA(MultiHeadAttention，多头注意力)模块，一个MLP(Multilayer Perceptron，多层感知机)模块。

目前，相关的剪枝技术主要是针对视觉转换模型的层数、head(头)个数等进行剪枝，这些方案只是针对计算过程中的一部分维度进行剪枝。在计算过程中，可以看出影响模型计算量的还有图像块个数。

但是对于图像块剪枝，在普通分类任务上有很大局限性，图中的物体可能出现在任何位置，故在做图像块剪枝是可能需要经过特殊的聚合操作，使层与层的信息传递实现汇聚，但是做这样的操作虽然增加了计算量，但是不一定使信息获得整合和汇聚。

然而，对于人脸识别模型，在图像输入到模型中之前，都会对图像进行检测、对齐等操作，使精度达到最高。经过这些操作后，人脸图像大致具有相同的结构，这样人脸图像块的重要性也具有大致相同的排序。所以可以根据图像块的重要性来对图像块进行剪枝，以减少模型对于非重要的图像块的计算，从而可以降低模型的算力消耗。

基于上述问题及发现，本公开提供了一种图像处理方法，通过对模型之中每层网络的输入进行剪枝处理，来降低图像处理过程中的计算消耗。

图2是本公开实施例提供的一种图像处理方法的流程图。该图像处理方法主要应用于人脸图像的处理，且其处理过程中的人脸识别模型是经过训练之后的，该人脸识别模型中包括视觉转换模型，即视觉转换模型也已经过训练。需要说明的是，本公开实施例中的图像处理方法可以应用于本公开实施例中的图像处理装置，该装置可配置于电子设备中。如图2所示，该图像处理方法可以包括以下步骤：

步骤201，获取待处理人脸图像，并将待处理人脸图像切割为多个图像块。

可以理解，为了使模型可以充分提取待处理人脸图像的特征，可以将待处理人脸图像切割为多个图像块，且切割后的多个图像块的大小相等，切割后的图像块的数量与预设的视觉转换模型的图像块输入数量一致。

步骤202，确定待处理人脸图像中各图像块的重要性信息。

可以理解，待处理人脸图像中并不是所有的图像块均包含人脸的重要特征，有些图像块中可能仅仅是人脸图像的背景，对于人脸特征的提取并没有太大作用。所以若视觉转换模型对待处理人脸中各图像块均通过学习进行特征提取，则会在一些非重要的图像块上浪费一定的算力。

同时对于人脸识别模型，在图像输入至模型前，均会进行检测、对齐等操作，所以经过这些操作之后，每张人脸图像大致具有相同的模式，也就是说，每张人脸图像中各图像块的重要性分布大致相同，故可以基于大量人脸图像进行统计分析来确定各图像块的重要性信息。

在本公开的一些实施例中，可以预先获取多张人脸图像，并将每张人脸图像切割为预设数量的图像块，通过已训练好的人脸特征提取模型，来确定每个图像块中包含的特征信息。将每张图像中各图像块的特征信息进行组合，若每张人脸图像在位置1处的图像块均包含大量人脸特征信息，而位置3处的图像块均几乎不包含人脸特征信息，则可以确定位置1处的图像块的重要性高于位置1处的图像块，从而可以得到不同位置的各图像块的重要性信息，且该重要性信息可应用于所有人脸图像中，所以确定待处理人脸图像中各图像块的重要性信息。

作为一种实施方式，由于在视觉转换模型的TransformerEncoder层计算过程中，注意力矩阵反映的是图像块与图像块之间关系重要性。所以可以根据视觉转换模型每层网络输出的注意力矩阵来确定图像块间的重要性信息。其实现方式可以包括：将多张人脸图像样本输入至视觉转换模型，得到各层网络输出的每张人脸图像样本对应的注意力矩阵；将得到的所有注意力矩阵进行合并，获得各图像块样本的权重；根据各图像块样本的权重，确定待处理人脸图像中各图像块的重要性信息。其中，由于注意力矩阵中的值为softmax(最大归一化激活函数)处理后的结果，所以softmax结果是图像块的重要性概率，所以可以通过将多张图像样本中图像块的重要性概率进行合并来确定各图像块的权重。其合并方式可以为将每张图像样本的注意力矩阵按矩阵轴相加、或者是根据实际应用场景中每层网络的差异来进行加权求和，或者可以根据实际需要采用其他的合并方式。

步骤203，获取预设的视觉转换模型的剪枝率。

在本公开的一些实施例中，视觉转换模型的剪枝率是指在多层网络计算中预期减少的计算量占比。其可以通过交互界面的输入来获取，或者通过接口传参来获取，或者是根据实际应用场景的预设值，或者根据实际应用场景采用其他的方式来获取，本公开对此不作限定。

步骤204，将多个图像块输入至视觉转换模型，并根据剪枝率和各图像块的重要性信息，对视觉转换模型之中每层网络的输入进行剪枝处理，获得视觉转换模型的输出结果。

需要说明的是，本公开实施例中视觉转换模型的输出结果是人脸识别模型中的一个节点输出，且该输出结果作为人脸识别模型后续节点的输入信息。

也就是说，将待处理人脸图像中的多个图像块输入至视觉转换模型，并基于剪枝率及待处理人脸图像中各图像块的重要性信息，来对每层网络的输入进行剪枝处理，在不影响模型进行特征提取的同时，可以降低每层网络的计算量。

作为一种示例，可以基于剪枝率来确定每层网络的输入中，可以剪掉的图像块的数量，再根据各图像块的重要性信息，来逐层选择重要性较低的图像块的作为待剪枝图像块，从而可以将每层网络的输入中待剪枝图像块的特征信息进行剪枝处理，进而得到视觉转换模型的输出结果。

作为另一种示例，可以将待处理人脸图像之中的多个图像块根据各图像块的重要性信息来进行排序，比如按照重要性由高到低的顺序对各图像块进行排序；基于已确定的每层网络的输入中可以剪掉的图像块数量，将每层网络的输入中排序在最后的对应数量图像块的特征进行裁剪，从而实现对非重要图像块的剪枝处理，以不影响视觉转换模型对待处理人脸图像的特征提取。

需要说明的是，在本公开的一些实施例中，视觉转换模型之中的每层网络是指，视觉转换模型之中的每层TransformerEncoder层。

步骤205，根据视觉转换模型的输出结果，确定待处理人脸图像的特征向量。

在本公开的一些实施例中，在将待处理人脸图像的多个图像块输入至视觉转换模型时，视觉转换模型可以补充一个虚拟图像块，该虚拟图像块经过Transformer Encoder层后的结果作为待处理人脸图像的整体信息表达，所以可以将在视觉转换模型的输出结果中，将虚拟图像块中对应的特征向量来作待处理人脸图像的特征向量。此外，有些视觉转换模型并不会补充一个虚拟图像块来学习待处理人脸图像的整体信息，所以这种情况可以直接将视觉转换模型的输出结果来作为待处理人脸图像的特征向量。

根据本公开实施例的图像处理方法，将待处理人脸图像的多个图像块输入至视觉转换模型，并根据模型的剪枝率及各图像块的重要信息，对视觉转换模型之中每层网络的输入进行剪枝处理，从而可以通过减少视觉转换模型之中每层网络的输入特征，在不影响人脸图像特征提取的同时，从而可以提高图像处理的效率。

基于上述实施例，本公开针对视觉转换模型之中每层网络输入的剪枝处理方式提出了另一个实施例。

图3是本公开实施例中每层网络输入的剪枝处理的流程图。如图3所示，该剪枝处理过程包括以下步骤：

步骤301，根据剪枝率，确定每层网络的图像块剪枝数量。

由于视觉转换模型中包含多层网络，为了降低剪枝处理对特征提取的影响，可以将逐层进行剪枝处理，也就是在模型逐层运行时逐步进行剪枝处理，以避免由于某层网络的输入中裁剪的信息过多而影响该层网络及后续网络的特征提取。

在本公开的一些实施例中，每层网络的图像块剪枝数量是指基于该剪枝率，每层网络需要裁剪掉的图像块数量。每层网络的图像块剪枝数量可以为通过剪枝率来计算，且每层剪掉的图像块数量既可以相同也可以不同，可以根据实际情况来确定。作为一种示例，可以根据视觉转换模型输入的图像块数量及剪枝率，计算视觉转换模型一共的图像块剪枝数量。假如输入的图像块数量为120个，且视觉转换模型共有10层网络，说明在不进行剪枝处理时，每层网络输入都有120个图像块的特征，若剪枝率为10％，则该模型一共的图像块剪枝数量＝120*10*10％＝120个。这样，则每层网络实际裁剪掉的图像块数量的累计和为120个图像块。假如第一层的图像块剪枝数量为2，第二层的图像块剪枝数量也为2，则第二层图像块的实际剪枝数量为4，依次类推，直至该模型每层网络的实际剪枝数量累计和为120个图像块，则达到该剪枝率。需要说明的是，每层网络裁剪掉的图像块数量是相同的，也可以根据实际需要为设定不同的图像块剪枝数量。

步骤302，根据各图像块的重要性信息和每层网络的图像块剪枝数量，确定多个图像块中在每层网络的待剪枝图像块。

可以理解，根据各图像块的重要性信息可以确定哪些图像块可以进行剪枝操作，所以再基于每层网络的图像块剪枝数量，则可以确定每层网络的待剪枝图像块。

作为一种示例，假如输入的图像块数量为9个，每层网络的图像块剪枝数量为1个，且各图像块的重要性信息为位置3的图像块<位置9的图像块<位置2的图像块<位置1的图像块<位置4的图像块<位置5的图像块<位置6的图像块<位置7的图像块<位置8的图像块，则可以确定第一层网络输入中的待剪枝图像块为位置3的图像块，第二层网络输入中的待剪枝图像块为位置9的图像块，第三层网络输入中的待剪枝图像块为位置2的图像块，依此类推。为了便于描述，下文中将采用“图像块+标号”的形式来表示不同位置的图像块,比如图像块3表示位置3的图像块。

步骤303，针对每层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至当前层网络。

也就是说，每层网络的输入特征先进行裁剪处理后，再将裁剪后的特征输入至对应层网络，来通过减少每层网络的输入来降低视觉转换模型的计算量。

在本公开的一些实施例中，每层网络的输入特征相当于上一层网络的输出特征。比如针对第三层网络来说，第三层网络的输入特征相当于第二层网络的输出特征。也就是说，在本公开实施例中，在每层网络的输入特征输入至网络之前，先将该输入特征进行剪枝处理，再将裁剪后的得到的特征输入至对应层网络中。

举例而言，针对上述示例中的第三层网络的输入特征，先对该输入特征中位置2的图像块对应的特征进行裁剪，再将裁剪后得到的特征输入至第三层网络。

根据本公开实施例提供的图像处理方法，通过根据剪枝率来确定每层网络的图像块剪枝数量，并基于各图像块的重要性信息，来确定每层网络的待剪枝图像块，从而可以针对每层网络的输入特征，将待剪枝图像块对应的特征进行裁剪后再输入至当前层网络，也就是说，可以通过减少每层网络对非必要图像块的信息输入，来降低每层网络的计算量，从而可以在保证不损失特征信息的前提下，实现了减少视觉转换模型的算力的目的。

基于上述实施例，本公开针对每层网络的输入的剪枝处理提供了又一个实施例。

图4是本公开实施例中的另一种针对每层网络输入的剪枝处理的流程图。如图4所示，该剪枝处理过程包括以下步骤：

步骤401，根据各图像块的重要性信息，对各图像块进行排序。

也就是说，根据各图像块的重要性信息，将各图像块按照重要性来进行排序。

在本公开的一些实施例中，将待处理人脸图像切割为多个图像块后，各图像块是基于位于待处理人脸图像中的位置来排列的，也就是说，将待处理人脸图像切割为多个图像块，相当于将待处理人脸图像划分为不同的多行和不同的多列，各图像块是基于位于待处理人脸图像中的位置来排列的可以是，按照行列顺序，从上到下，从左到右的顺序排列。

而根据各图像块的重要性信息，对各图像块重新排序相当于打乱原来的位置排列顺序，可以是将重要性越高的图像块排列在前，依次类推，也可以是将重要性越高的图像块排列在后，依次类推。作为一种示例，切割后的图像块共120个，假如切割后的各图像块排序为{图像块1，图像块2，图像块3，图像块4，…，图像块120}；各图像块的重要性信息为图像块3<图像块10<图像块11<图像块34<图像块1<图像块2<图像块115<图像块13…<图像块44<图像块45<图像块47；则根据各图像块的重要性信息，将各图像块按照重要性来进行排序后的结果可以为：{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1，图像块34，图像块11，图像块10，图像块3}。

步骤402，将各图像块及各图像块的排序结果输入至视觉转换模型。

步骤403，根据剪枝率，确定每层网络的图像块剪枝数量。

步骤404，针对每层网络的输入特征，根据各图像块的排序结果，在输入特征中裁剪掉该图像块剪枝数量的图像块对应的特征，并将裁剪后得到的特征输入至当前层网络。

也就是说，每层网络的输入特征，在输入网络层之前，可以先根据各图像块的排序结果，在输入特征中裁剪掉图像块剪枝数量的图像块对应的特征后，再将裁剪后得到的特征输入至对应层网络。

举例而言，基于上述示例，各图像块按照重要性从高到低来进行排序后的结果为：{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1，图像块34，图像块11，图像块10，图像块3}，若第一层网络的图像块剪枝数量为1个，则在输入第一层网络之前的输入特征是{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1，图像块34，图像块11，图像块10图像块3}的初始特征；根据该排序结果，可以之间裁剪掉排序在最后的图像块对应的特征，则裁剪后的特征为{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1，图像块34，图像块11，图像块10}的初始特征，并将该处理后的特征输入至第一层网络；若第二层网络的图像块剪枝数量为3个，则在输入至第二层网络之前的输入特征{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1，图像块34，图像块11，图像块10}对应的第一特征，该第一特征是指由第一层网络经过学习计算输出后的特征；裁剪后的特征为{图像块47，图像块45，图像块44，…，图像块13，图像块115，图像块2，图像块1}对应的第一特征，则将该裁剪后的特征输入至第二层网络。

根据本公开实施例的图像处理方法，先将待处理人脸图像的各图像块根据各图像块的重要性信息来进行排序，并根据该排序在每层输入特征中裁剪掉对应数量的图像块对应的特征后，再将裁剪后得到的特征输入至对应的网络层，从而可以在裁剪时，直接基于排序裁剪掉前几个图像块的特征或者后几个图像块的特征，从而可以进一步降低裁剪过程的计算量，提高裁剪效率，进而可以进一步提高图像处理的效率。

为了进一步避免每层网络输入的裁剪处理对人脸图像的特征提取造成影响，本公开实施例对此提供了又一个实施例。

图5是本公开实施例提供的又一种针对每层网络输入的剪枝处理的流程图。为了便于描述，在本公开实施例中使用N来表示视觉转换模型中的网络层数，其中N为大于1的整数。如图5所示，该剪枝处理过程包括以下步骤：

步骤501，根据剪枝率，确定第i层网络的图像块剪枝数量；其中，所述i大于0且小于或等于N-1的整数。

也就是说，在本公开实施例中，只根据剪枝率来确定前N-1层网络的图像块剪枝数量，第N层网络的输入不进行剪枝处理。

步骤502，根据各图像块的重要性信息和第i层网络的图像块剪枝数量，确定多个图像块中在第i层网络的待剪枝图像块。

步骤503，针对第i层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至第i层网络。

其中，步骤502与步骤503中针对前N-1层网络输入的裁剪处理的实现方式与图3中的步骤302与步骤303中针对前N-1层网络输入的裁剪处理的实现方式一致，此处不再赘述。

步骤504，针对第N层网络的输入特征，将输入特征与所有被裁剪掉的图像块的特征进行拼接，并将拼接处理后得到的特征输入至第N层网络。

也就是说，将第N-1层网络的输出特征，与前N-1层网络的输入中所有被裁剪掉的图像块的特征拼接后得到的特征输入至第N层网络，这样不仅可以降低前N-1层网络的算力，也可以进一步降低裁剪处理对待处理人脸图像的特征提取的影响。

为了便于理解，本公开实施例的实现方式可以如图6所示，假如视觉转换模型共6层网络，且前5层网络的输入中每层均裁剪掉一个图像块对应的特征，则第6层网络的输入为第5层网络的输出特征与前5层网络裁剪掉的图像块对应的特征拼接后得到的特征。也就是说，在视觉转换模型运行的过程中，每次剪枝过程中裁剪掉的图像块对应的特征需要进行存储，在运行至最后一层时，再将裁剪掉的图像块特征调用。

可以理解，第N层网络的输入相当于整合了待处理人脸图像的所有特征，从而可以保证在降低计算量的同时，不丢失人脸图像的特征。

根据本公开实施例的图像处理方法，对于N层网络的视觉转换模型，将前N-1层网络的输入分别进行剪枝处理，而将第N-1层网络的输出特征与前N-1层网络的输入中被裁剪掉的图像块对应的特征进行拼接，并将拼接后的特征输入至第N层网络中，一方面可以进一步降低剪枝处理对人脸图像的特征提取的影响，另一方面也可以通过前N-1层网络的剪枝处理来降低模型的计算量，从而可以进一步提高剪枝处理对图像处理的效果。

本公开实施例还提供了一种人脸识别模型的训练方法。

图7是本公开实施例提供的一种人脸识别模型的训练方法，该人脸识别模型中包括视觉转换模型。需要说明的是，本公开实施例的人脸识别模型的训练方法可应用于本公开实施例的人脸识别模型的训练装置，且该装置可配置于电子设备中。如图7所示，该训练方法可以包括以下步骤：

步骤701，获取人脸图像样本，并将人脸图像样本切割为多个图像块。

可以理解，为了使模型可以充分提取待处理人脸图像样本的特征，可以将人脸图像样本中每张人脸图像切割为多个图像块，且切割后的多个图像块的大小相等，切割后的图像块的数量与视觉转换模型的图像块输入数量一致。

步骤702，确定人脸图像样本中各图像块的重要性信息。

可以理解，并不是每张人脸图像中的所有图像块均包含人脸的重要特征，有些图像块中可能仅仅是人脸图像的背景，对于人脸特征的提取并没有太大作用。所以若视觉转换模型对人脸图像样本中各图像块均通过学习进行特征提取，则会在一些非重要的图像块上浪费一定的算力。

在本公开的一些实施例中，可以预先获取多张人脸图像，并将每张人脸图像切割为预设数量的图像块，通过已训练好的视觉转换模型，来确定每个图像块中包含的特征信息。将每张图像中各图像块的特征信息进行组合，若每张人脸图像在位置1处的图像块均包含大量人脸特征信息，而位置3处的图像块均几乎不包含人脸特征信息，则可以确定位置1处的图像块的重要性高于位置1处的图像块，从而可以得到不同位置的各图像块的重要性信息，且该重要性信息可应用于所有人脸图像中，所以确定待处理人脸图像中各图像块的重要性信息。

作为一种实施方式，由于在视觉转换模型的TransformerEncoder层计算过程中，注意力矩阵反映的是图像块与图像块之间关系重要性。所以可以根据视觉转换模型每层网络输出的注意力矩阵来确定图像块间的重要性信息。其实现方式可以包括：将多张人脸图像输入至视觉转换模型，得到各层网络输出的每张人脸图像对应的注意力矩阵；将得到的所有注意力矩阵进行合并，获得人脸图像中图像块的权重；根据人脸图像中图像块的权重，确定人脸图像样本的每张人脸图像中各图像块的重要性信息。其中，由于注意力矩阵中的值为softmax后的结果，所以softmax结果是图像块的重要性概率，所以可以通过将多张图像样本中图像块的重要性概率进行合并来确定各图像块的权重。其合并方式可以为将每张图像样本的注意力矩阵按矩阵轴相加、或者是根据实际应用场景中每层网络的差异来进行加权求和，或者可以根据实际需要采用其他的合并方式。

步骤703，获取视觉转换模型的剪枝率。

本公开的一些实施例中，视觉转换模型的剪枝率是指在多层网络计算中预期减少的计算量占比。其可以通过交互界面的输入来获取，或者通过接口传参来获取，或者是根据实际应用场景的预设值，或者根据实际应用场景采用其他的方式来获取，本公开对此不作限定。

步骤704，将多个图像块输入至视觉转换模型，并根据剪枝率和各图像块的重要性信息，对视觉转换模型之中每层网络的输入进行剪枝处理，获得视觉转换模型的输出结果。

需要说明的是，本公开实施例中视觉转换模型的输出结果是人脸识别模型中的一个节点输出，且该输出结果作为人脸识别模型后续节点的输入信息。其中，人脸识别模型是已通过相关的训练方式训练后的模型，也就是说，视觉转换模型也是已通过相关的训练方式训练后的模型。

为了降低人脸识别模型应用时的计算量，保证剪枝处理后模型的精度，本公开实施例中的人脸识别模型训练方法相当于基于各网络层的输入剪枝处理的微调过程。

作为一种实现方式，对视觉转换模型中每层网络的输入进行剪枝处理的实现方式可以为：根据剪枝率，确定每层网络的图像块剪枝数量；根据各图像块的重要性信息和每层网络的图像块剪枝数量，确定多个图像块中在每层网络的待剪枝图像块；针对每层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至当前层网络。

作为另一种实现方式，对视觉转换模型中每层网络的输入进行剪枝处理的实现方式可以为：根据各图像块的重要性信息，对各图像块进行排序；将各图像块及各图像块的排序结果输入至视觉转换模型；根据剪枝率，确定每层网络的图像块剪枝数量；针对每层网络的输入特征，根据各图像块的排序结果，在输入特征中裁剪掉图像块剪枝数量的图像块对应的特征，并将裁剪后得到的特征输入至当前层网络。

作为又一种实现方式，为了便于描述，接下来使用N来表示视觉转换模型中的网络层数。针对每层网络输入的剪枝处理的实现方式可以为：根据剪枝率，确定第i层网络的图像块剪枝数量；其中，所述i大于0且小于或等于N-1的整数；根据各图像块的重要性信息和第i层网络的图像块剪枝数量，确定多个图像块中在第i层网络的待剪枝图像块；针对第i层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至第i层网络；针对第N层网络的输入特征，将输入特征与所有被裁剪掉的图像块的特征进行拼接，并将拼接处理后得到的特征输入至第N层网络。

基于上述剪枝处理，视觉转换的模型之中的最后一层网络的输出结果为视觉转换模型的输出结果。

步骤705，根据视觉转换模型的输出结果，确定人脸图像样本的特征向量，并根据特征向量获取人脸识别结果。

在本公开的一些实施例中，在将人脸图像样本的多个图像块输入至视觉转换模型时，视觉转换模型可以补充一个虚拟图像块，该虚拟图像块经过Transformer Encoder层后的结果作为人脸图像样本中对应图像的整体信息表达，所以可以将在视觉转换模型的输出结果中，将虚拟图像块中对应的特征向量来作人脸图像样本的特征向量。此外，有些视觉转换模型并不会补充一个虚拟图像块来学习人脸图像样本中对应图像的整体信息，所以这种情况可以直接将视觉转换模型的输出结果来作为人脸图像样本的特征向量。

此前，由于视觉转换模型得到的人脸图像样本的特征向量相当于人脸识别过程中的一个节点，该特征向量会继续由人脸识别模型中的后续节点继续学习，来根据该特征向量来获取人脸图像样本对应的人脸识别结果。

步骤706，根据人脸识别结果训练人脸识别模型。

也就是说，根据该人脸识别结果与人脸图像样本的真实结果计算得到对应的损失值，再根据损失值来对人脸识别模型的参数进行微调，以使该模型参数可以适用于对应的剪枝方式。

需要说明的是，本公开实施例中关于视觉转换模型的每层网络的剪枝处理的详细介绍已在上述图像处理方法的实施例中呈现，此处不再赘述。

根据本公开实施例提供的人脸识别模型的训练方法，根据将人脸图像样本的多个图像块输入至视觉转换模型，并根据模型的剪枝率及各图像块的重要信息，对视觉转换模型之中每层网络的输入进行剪枝处理，并基于剪枝处理后由视觉转换模型得到的特征向量来确定人脸识别结果，从而可以根据人脸识别结果来训练视觉转换模型，也就是说，可以根据人脸识别结果来训练人脸识别模型，使该模型的参数可以适用于该剪枝方式，也可以为使用视觉转换模型的人脸识别模型在使用时节省算力的消耗，提高人脸识别的效率。

为了实现上述实施例，本公开提供了一种图像处理装置。

图8是本公开实施例提供的一种图像处理装置的结构框图。如图8所示，该装置包括：

第一获取模块801，用于获取待处理人脸图像，并将待处理人脸图像切割为多个图像块；

第一确定模块802，用于确定待处理人脸图像中各图像块的重要性信息；

第二获取模块803，用于获取视觉转换模型的剪枝率；

剪枝模块804，用于将多个图像块输入至视觉转换模型，并根据剪枝率和各图像块的重要性信息，对视觉转换模型之中每层网络的输入进行剪枝处理，获得视觉转换模型的输出结果；

第二确定模块805，用于根据视觉转换模型的输出结果，确定待处理人脸图像的特征向量。

其中，第一确定模块802具体用于：

将多张人脸图像样本输入至视觉转换模型，得到各层网络输出的每张人脸图像样本对应的注意力矩阵；

将得到的所有注意力矩阵进行合并，获得各图像块样本的权重；

根据各图像块样本的权重，确定待处理人脸图像中各图像块的重要性信息。

在本公开的一些实施例中，剪枝模块804具体用于：

根据剪枝率，确定每层网络的图像块剪枝数量；

根据各图像块的重要性信息和每层网络的图像块剪枝数量，确定多个图像块中在每层网络的待剪枝图像块；

针对每层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至当前层网络。

在本公开的另一些实施例中，剪枝模块804具体用于：

根据各图像块的重要性信息，对各图像块进行排序；

将各图像块及各图像块的排序结果输入至视觉转换模型；

根据剪枝率，确定每层网络的图像块剪枝数量；

针对每层网络的输入特征，根据各图像块的排序结果，在输入特征中裁剪掉图像块剪枝数量的图像块对应的特征，并将裁剪后得到的特征输入至当前层网络。

在本公开的又一些实施例中，视觉转换模型包括N层网络，N为大于1的整数；剪枝模块804具体用于：

根据剪枝率，确定第i层网络的图像块剪枝数量；其中，i大于0且小于或等于N-1的整数；

根据各图像块的重要性信息和第i层网络的图像块剪枝数量，确定多个图像块中在第i层网络的待剪枝图像块；

针对第i层网络的输入特征，对输入特征中的待剪枝图像块的特征进行裁剪，并将裁剪后得到的特征输入至第i层网络；

针对第N层网络的输入特征，将输入特征与所有被裁剪掉的图像块的特征进行拼接，并将拼接处理后得到的特征输入至第N层网络。

根据本公开实施例提供的图像处理装置，将待处理人脸图像的多个图像块输入至视觉转换模型，并根据模型的剪枝率及各图像块的重要信息，对视觉转换模型之中每层网络的输入进行剪枝处理，从而可以通过减少视觉转换模型之中每层网络的输入特征，在不影响人脸图像特征提取的同时，实现了降低视觉转换模型的算力消耗，从而可以提高图像处理的效率。

为了实现上述实施例，本公开提供了一种人脸识别模型的训练装置。

图9是本公开实施例提供的一种人脸识别模型的训练装置的结构框图。其中，本公开实施例中的人脸识别模型中包括视觉转换模型。如图9所示，该装置包括：

第一获取模块901，用于获取人脸图像样本，并将人脸图像样本切割为多个图像块；

第一确定模块902，用于确定人脸图像样本中各图像块的重要性信息；

第二获取模块903，用于获取视觉转换模型的剪枝率；

剪枝模块904，用于将多个图像块输入至视觉转换模型，并根据剪枝率和各图像块的重要性信息，对视觉转换模型之中每层网络的输入进行剪枝处理，获得视觉转换模型的输出结果；

第二确定模块905，用于根据视觉转换模型的输出结果，确定人脸图像样本的特征向量，并根据特征向量获取人脸识别结果；

训练模块906，用于根据人脸识别结果训练人脸识别模型。

其中，第一确定模块902具体用于：

将多张人脸图像输入至视觉转换模型，得到各层网络输出的每张人脸图像对应的注意力矩阵；

将得到的所有注意力矩阵进行合并，获得人脸图像中图像块的权重；

根据人脸图像中图像块的权重，确定人脸图像样本的每张人脸图像中各图像块的重要性信息。

在本公开的一些实施例中，剪枝模块904具体用于：

根据剪枝率，确定每层网络的图像块剪枝数量；

根据各图像块的重要性信息和每层网络的图像块剪枝数量，确定每个人脸图像样本中多个图像块中在每层网络的待剪枝图像块；

在本公开的另一些实施例中，剪枝模块904具体用于：

根据各图像块的重要性信息，对各图像块进行排序；

将各图像块及各图像块的排序结果输入至视觉转换模型；

根据剪枝率，确定每层网络的图像块剪枝数量；

在本公开的又一些实施例中，视觉转换模型包括N层网络，N为大于1的整数；剪枝模块904具体用于：

根据本公开实施例的人脸识别模型的训练装置，通过将人脸图像样本的多个图像块输入至视觉转换模型，并根据模型的剪枝率及各图像块的重要信息，对视觉转换模型之中每层网络的输入进行剪枝处理，并基于剪枝处理后由视觉转换模型得到的特征向量来确定人脸识别结果，从而可以根据人脸识别结果来训练视觉转换模型，进而可以根据人脸识别结果来训练人脸识别模型，使该模型的参数可以适用于该剪枝方式，也可以为使用视觉转换模型的人脸识别模型在使用时节省算力的消耗，提高人脸识别的效率。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像处理方法，和/或，人脸识别模型的训练方法。例如，在一些实施例中，图像处理方法，和/或，人脸识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的图像处理方法，和/或，人脸识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法，和/或，人脸识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

确定所述待处理人脸图像中各图像块的重要性信息；

获取预设的视觉转换模型的剪枝率；

2.根据权利要求1所述的方法，其中，所述确定所述待处理人脸图像中各图像块的重要性信息，包括：

将多张人脸图像样本输入至所述视觉转换模型，得到各层网络输出的每张人脸图像样本对应的注意力矩阵；

根据所述各图像块样本的权重，确定所述待处理人脸图像中各图像块的重要性信息。

3.根据权利要求1所述的方法，其中，所述根据所述剪枝率和所述各图像块的重要性信息，对所述视觉转换模型之中每层网络的输入进行剪枝处理，包括：

根据所述剪枝率，确定每层网络的图像块剪枝数量；

根据所述各图像块的重要性信息和所述每层网络的图像块剪枝数量，确定所述多个图像块中在每层网络的待剪枝图像块；

针对每层网络的输入特征，对所述输入特征中的待剪枝图像块的特征进行裁剪，并将所述裁剪后得到的特征输入至当前层网络。

4.根据权利要求1所述的方法，其中，所述将所述多个图像块输入至所述视觉转换模型，并根据所述剪枝率和所述各图像块的重要性信息，对所述视觉转换模型之中每层网络的输入进行剪枝处理，包括：

根据所述各图像块的重要性信息，对所述各图像块进行排序；

将所述各图像块及所述各图像块的排序结果输入至所述视觉转换模型；

根据所述剪枝率，确定每层网络的图像块剪枝数量；

针对每层网络的输入特征，根据所述各图像块的排序结果，在所述输入特征中裁剪掉所述图像块剪枝数量的图像块对应的特征，并将所述裁剪后得到的特征输入至当前层网络。

5.根据权利要求1所述的方法，其中，所述视觉转换模型包括N层网络，所述N为大于1的整数；所述根据所述剪枝率和所述各图像块的重要性信息，对所述视觉转换模型之中每层网络的输入进行剪枝处理，包括：

根据所述剪枝率，确定第i层网络的图像块剪枝数量；其中，所述i大于0且小于或等于N-1的整数；

根据所述各图像块的重要性信息和所述第i层网络的图像块剪枝数量，确定所述多个图像块中在所述第i层网络的待剪枝图像块；

针对第i层网络的输入特征，对所述输入特征中的待剪枝图像块的特征进行裁剪，并将所述裁剪后得到的特征输入至第i层网络；

针对第N层网络的输入特征，将所述输入特征与所有被裁剪掉的图像块的特征进行拼接，并将拼接处理后得到的特征输入至第N层网络。

6.一种人脸识别模型训练方法，所述人脸识别模型中包括视觉转换模型，所述方法包括：

确定所述人脸图像样本中各图像块的重要性信息；

获取所述视觉转换模型的剪枝率；

根据所述人脸识别结果训练所述人脸识别模型。

7.一种图像处理装置，包括：

第二获取模块，用于获取视觉转换模型的剪枝率；

8.根据权利要求7所述的装置，其中，所述第一确定模块具体用于：

9.根据权利要求7所述的装置，其中，所述剪枝模块具体用于：

根据所述剪枝率，确定每层网络的图像块剪枝数量；

10.根据权利要求7所述的装置，其中，所述剪枝模块具体用于：

根据所述剪枝率，确定每层网络的图像块剪枝数量；

11.根据权利要求7所述的装置，其中，所述视觉转换模型包括N层网络，所述N为大于1的整数；所述剪枝模块具体用于：

针对第N层网络的输入特征，将所述输入特征与所有被裁剪掉的图像块的特征进行拼接，并将拼接处理后得到的特征输入至所述第N层网络。

12.一种人脸识别模型的训练装置，所述人脸识别模型包括视觉转换模型包括：

第二获取模块，用于获取所述视觉转换模型的剪枝率；

训练模块，用于根据所述人脸识别结果训练所述人脸识别模型。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法，和/或，执行权利要求6所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法，和/或，执行权利要求6所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法，和/或，实现权利要求6所述的方法。