CN115147669A

CN115147669A - 基于视觉转换器模型的图像处理方法、训练方法和设备

Info

Publication number: CN115147669A
Application number: CN202210727202.0A
Authority: CN
Inventors: 尉德利
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-10-04
Anticipated expiration: 2042-06-24
Also published as: CN115147669B

Abstract

本公开提供的基于视觉转换器模型的图像处理方法、训练方法和设备，涉及人工智能中的深度学习、图像处理、计算机视觉技术领域，可应用于人脸等场景。该图像处理方法包括：对待处理图像进行特征提取，得到第一初始特征信息，其中，所述第一初始特征信息包括所述待处理图像的多个局部特征；通过所述视觉转换器模型，从所述多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果。进而，通过采用上述方式，可以有效降低模型的计算量。

Description

基于视觉转换器模型的图像处理方法、训练方法和设备

技术领域

本公开涉及人工智能中的深度学习、图像处理、计算机视觉技术领域，可应用于人脸等场景；尤其涉及一种基于视觉转换器模型的图像处理方法、训练方法和设备。

背景技术

随着人工智能技术的发展，视觉转换器(Vision Transformer，简称ViT)模型可以应用到图像处理中。

然而，由于视觉转换器模型本身计算量较大，导致再采用视觉转换器模型进行图像处理时，耗时较长。因此，如何降低视觉转换器模型的计算量是一个急需解决的问题。

发明内容

本公开提供了一种用于降低视觉转换器模型计算量的基于视觉转换器模型的图像处理方法、训练方法和设备。

根据本公开的第一方面，提供了一种基于视觉转换器模型的图像处理方法，包括：

对待处理图像进行特征提取，得到第一初始特征信息，其中，所述第一初始特征信息包括所述待处理图像的多个局部特征；

通过所述视觉转换器模型，从所述多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，所述第二初始特征信息中包括所述多个局部特征中的与第二掩码对应的第二局部特征；所述视觉转换器模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为所述第一掩码或所述第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；

通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果。

根据本公开的第二方面，提供了一种应用于图像处理的视觉转换器模型的训练方法，包括：

对待训练图像进行特征提取，得到所述待训练图像的第一图像特征信息，其中，所述第一图像特征信息中包括所述待训练图像的多个局部特征；

根据所述第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，所述第一初始模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为第一掩码或第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；所述第一损失函数用于指示局部特征的重要性；

根据所述第一损失函数，确定所述第一图像特征信息中待剪除的局部特征；并将与所述待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，所述视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

根据本公开的第三方面，提供了一种基于视觉转换器模型的图像处理装置，包括：

第一提取单元，用于对待处理图像进行特征提取，得到第一初始特征信息，其中，所述第一初始特征信息包括所述待处理图像的多个局部特征；

去除单元，通过所述视觉转换器模型，从所述多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，所述第二初始特征信息中包括所述多个局部特征中的与第二掩码对应的第二局部特征；所述视觉转换器模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为所述第一掩码或所述第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；

处理单元，用于通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果。

根据本公开的第四方面，提供了一种应用于图像处理的视觉转换器模型的训练装置，包括：

第二提取单元，用于对待训练图像进行特征提取，得到所述待训练图像的第一图像特征信息，其中，所述第一图像特征信息中包括所述待训练图像的多个局部特征；

训练单元，用于根据所述第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，所述第一初始模型中包括与所述多个局部特征中的局部特征一一对应的掩码信息，所述掩码信息为第一掩码或第二掩码；所述第一掩码用于指示局部特征需剪除，所述第二掩码用于指示局部特征无需剪除；所述第一损失函数用于指示局部特征的重要性；

确定单元，用于根据所述第一损失函数，确定所述第一图像特征信息中待剪除的局部特征；

调整单元，用于将与所述待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，所述视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法，或者，以使所述至少一个处理器能够执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法，或者，所述计算机指令用于使所述计算机执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法，或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开提供的一种视觉转换器模型的结构示意图；

图2是根据本公开第一实施例的示意图；

图3是根据本公开第二实施例的示意图；

图4是本公开实施例提供的一种视觉转换器模型的示意图；

图5是根据本公开第三实施例的示意图；

图6是根据本公开第四实施例的示意图；

图7是根据本公开第五实施例的示意图；

图8是根据本公开第六实施例的示意图；

图9是根据本公开第七实施例的示意图；

图10是根据本公开第八实施例的示意图；

图11是根据本公开第九实施例的示意图；

图12是根据本公开第十实施例的示意图；

图13是可以实现本公开实施例的基于视觉转换器模型的图像处理方法、或者应用于图像处理的视觉转换器模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，随着人工智能技术的不断发展，图像处理技术已经应用到人类生活的各个方面，例如，拍照购物、机器翻译、自动驾驶等方面。当前，视觉转换器(VisionTransformer，简称ViT)模型也被应用于图像处理领域，相较于传统的卷积神经网络而言，视觉转换器模型在图像处理领域具有较高的性能。然而，由于视觉转换器模型本身的计算量较大，且运行耗时较长，因此如何降低视觉转换器模型的计算量是一个急需解决的问题。

图1是本公开提供的一种视觉转换器模型的结构示意图。如图1所示，在图1中，视觉转换器模型中包括有图像划分层，线性编码层、多个编码器以及预测层，其中，编码器中包括多头自注意力模块(Multi-Head Self-Attention，简称MHSA)和逐点前向网络模块(Position-wise Feed-Forward Networks，简称FFN)。其中，图像划分层用于将输入的图像划分为Q个区域，得到Q个区域对应的图像，其中Q为正整数。之后，线性编码层用于对Q个区域对应的图像进行图像特征提取，得到与每一区域的图像一一对应的局部特征。之后，将Q个局部特征输入多个依次串联的连接的首个编码器中，通过首个编码器中的MHSA模块以及FFN模块处理之后，得到与Q个局部特征一一对应的处理后的特征，之后再将处理后的特征输出至下一编码器，由下一编码器继续进行特征处理。预测层可以基于与其连接的编码器所输出的特征，进行预测，进而得到预测结果。需要说明的是，图中预测层的网络结构可根据视觉转换器模型的应用场景的不同来选择不同的网络结构，此处不做具体限制。

通过上述处理过程，视觉转换器模型中的每一编码器都需要对其接收到的Q个特征进行特征处理，导致视觉转换器模型的计算量较大。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：在进行图像处理时，对待处理图像进行特征提取处理，得到包括待处理图像的多个局部特征的第一初始特征信息，将第一初始特征信息中，第一掩码对应的第一局部特征去除，进而减少视觉转换器模型的计算量。

基于上述发明构思，本公开提供一种基于视觉转换器模型的图像处理方法、训练方法和设备，应用于人工智能中的深度学习、图像处理、计算机视觉等技术领域，可应用于人脸等场景，以达到可以降低视觉转换器模型的计算量的效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图2是根据本公开第一实施例的示意图。如图2所示，本公开实施例的基于视觉转换器模型的图像处理方法，包括：

S201、对待处理图像进行特征提取，得到第一初始特征信息，其中，第一初始特征信息包括待处理图像的多个局部特征。

示例性地，本实施例的执行主体可以为基于视觉转换器模型的图像处理装置，该装置可以为服务器(如云端服务器，或者，本地服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等，本实施例不做限定。

本实施例中，在基于视觉转换器模型进行图像处理时，首先会对所获取到的待处理图像进行特征提取。在特征提取过程中，会提取与待处理图像中的各个区域一一对应的局部图像区域的特征，进而将得到的多个局部特征，并将多个局部特征作为待处理图像对应的第一初始特征信息。也就是说，在获取待处理图像对应的第一初始特征信息时，首先会对待处理图像进行区域划分，进而将待处理图像划分为多个区域，之后，在对待处理图像中的每个区域中的图像进行特征提取，进而得到待处理图像对应的多个局部特征。

需要说明的是，本实施例中对于待处理图像的区域划分方式以及划分后的区域数量不做具体限制。并且，在实际应用中，视觉转化器模型中通常也包括有图像划分层以及线性编码层，进而得到待处理图像中各个区域中的图像所对应的局部特征。

S202、通过视觉转换器模型，从多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，第二初始特征信息中包括多个局部特征中的与第二掩码对应的第二局部特征；视觉转换器模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除。

示例性地，本实施例中，在获取到待处理图像对应的第一初始特征信息之后，会将初始特征信息输入至视觉转换器模型中，通过视觉转换器模型对输入的第一初始特征信息进行图像处理之后，得到待处理图像对应的第二初始特征信息。此外，本实施例中的视觉转换器模型中包括有与多个局部特征中所包含的局部特征一一对应的掩码信息，当局部特征对应的掩码信息为第一掩码时，此时，表征与该第一掩码对应的局部特征需要被剪除。当局部特征对应的掩码信息为第二掩码时，此时，表征与该第二掩码对应的局部特征无需被剪除。在通过视觉转换器模型对第一初始特征信息进行处理时，可以通过视觉转换器模型中所包含的掩码信息，将第一初始特征信息中的多个局部特征中的第一掩码对应的第一局部特征去除，剩余第二掩码对应的第二局部特征，并将第二掩码对应的第二局部特征作为第二初始特征信息。也就是说，可以将第一初始特征信息中的多个局部特征中，第一掩码对应的局部特征称为第一局部特征，第二掩码对应的局部特征称为第二局部特征，将第一局部特征剪除之后，剩余第二局部特征作为第二局部特征。

此外，本实施例中的视觉转换器模型中掩码信息为视觉转换器模型在训练过程中训练得到的，具体的视觉转换器模型的训练过程可以参见图5-图7所示的实施例，此处不再赘述。

S203、通过视觉转换器模型对第二初始特征信息进行图像处理，得到图像处理结果。

示例性地，在通过对第一初始特征信息进行特征变换处理得到第二初始特征信息之后，视觉转换器模型会基于第二初始特征信息进行图像处理，进而得到图像处理结果。

可以理解的是，本实施例中的视觉转换器模型中设置有与局部特征一一对应的掩码信息，并且视觉转换器模型还可以基于掩码信息，对待处理图像中所提取的第一初始特征信息中的第一掩码对应的第一局部特征进行剪除，进而减少视觉转换器模型在后续进行图像处理的过程中的模型计算量。

为使读者更深刻地理解本公开的实现原理，现结合以下图3和图4对图2所示的实施例进行进一步细化。

图3是根据本公开第二实施例的示意图。如图3所示，本公开实施例的基于视觉转换器模型的图像处理方法，包括：

S301、对待处理图像进行特征提取，得到第一初始特征信息，其中，第一初始特征信息包括待处理图像的多个局部特征。

示例性地，本步骤可参见步骤S201，此处不再赘述。

一个示例中，本实施例所提供的基于视觉转换器模型所进行的图像处理为以下的任意一种：图像分类、图像识别、图像分割。

示例性地，本实施例中所提供的视觉转换器模型在应用于图像处理时，具体的可以对输入的图像进行图像分类、或者图像识别、或者图像分割。

例如，当需要得到可以用于进行图像分类的视觉转换器模型时，可以在视觉转换器模型中设置分类器，通过分类器对剪除后剩余的局部特征进行分类预测，进而得到输入的图像的分类预测结果。此外，视觉转换器模型还可以用于进行图像识别，例如，人脸识别、图像中的文字识别等应用场景。并且，视觉转换器模型还可以用于进行图像分割处理，例如，医学图像诊断、自动驾驶等场景。在上述不同的应用场景中，为了使得训练得到的视觉转换器模型适用于不同的应用场景，可以在设置第一初始模型时，对第一初始模型中最终的预测层进行更改，例如，在文字识别时，预测层可以采用传统的条件随机场层(conditional random field，简称crf)。在图像分类时，可以采用传统的softmax分类器。需要说明的是，此处对于预测层的具体模型结构仅为举例说明，不做具体限制。

S302、通过视觉转换器模型，从多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，第二初始特征信息中包括多个局部特征中的与第二掩码对应的第二局部特征；第二初始特征信息还包括：占位符特征；占位符特征的维度与多个局部特征中的任一局部特征的维度相同；占位符特征用于指示零向量；视觉转换器模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除。

示例性地，本实施例中由于视觉转换器模型在训练过程中，仅通过改变局部特征所对应的掩码信息来表征该局部特征是否被剪除，并未对需要剪除的局部特征真正的剪除，因此，为了避免在通过视觉转换器模型对第一初始特征信息中的第一局部特征真正剪除之后，会影响视觉转换器模型输出结果的准确度，还会在第二初始特征中添加占位符特征，其中，占位符特征用于指示与第一初始特征信息中所包含的任一局部特征的维度相同的零向量。

可以理解的是，本实施例中通过添加一个占位符特征，通过占位符特征来代替之前被剪除的多个第一局部特征，相比于图2实施例中的第二初始特征信息，本实施例中虽然在第二初始特征信息中添加了一个占位符特征会增加视觉转换器模型的计算量，但是相比于图2所提供的实施例，可以提高模型输出结果的准确度，确保得到的视觉转换器模型中的第一局部特征被删除后，模型输出结果的准确度不会受到影响而降低。并且，相比于相关技术中直接利用待处理图像的第一初始特征信息进行图像处理，仍可以降低视觉转换器模型的计算量。

S303、对第二初始特征信息中的第i个第二局部特征进行自相关计算处理，得到第i个第二局部特征的相关性系数集合；其中，相关性系数集合包括第i个第二局部特征与第二初始特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为第二初始特征信息中的第二局部特征的数量。

示例性地，本实施例中，视觉转换器模型在基于第二初始特征信息进行图像处理时，首先视觉转换器模型中的编码器中的MHSA模块，会对接收到的第二初始特征信息中的每一个第二局部特征进行自相关计算处理，进而得到每一个第二局部特征对应的相关性系数集合。举例来说，在获取第i个第二局部特征对应的相关性系数集合时，需要确定第i个第二局部特征与第二初始特征信息中的每一第二局部特征之间的第一相关性系数，进而将该第i个第二局部特征与每一第二局部特征之间的第一相关性系数组成的集合作为第i个局部特征对应的相关性系数集合。

S304、对第i个第二局部特征与占位符特征进行相关性计算，得到第i个第二局部特征的第二相关性系数。

示例性地，本实施例中，还会通过对第i个第二局部特征与占位符特征进行相关性计算，进而得到该第二局部特征对应的第二相关性系数。需要说明的是，本实施例中的相关性计算处理可以参照相关技术中的处理过程，此处不再赘述。

S305、通过视觉转换器模型，并根据相关性系数集合、第二相关性系数、和第一掩码的第一数量，获取图像处理结果。

示例性地，在获取到每一第二局部特征对应的相关性系数集合以及每一第二局部特征对应的第二相关性系数之后，根据获取的相关性系数集合、第二相关性系数以及被剪除的第一局部特征的总个数，即视觉转换器模型中第一掩码的第一数量，进行图像处理，进而得到图像处理后的结果。

可以理解的是，本实施例中，在通过视觉转换模型对第二初始特征信息进行处理时，通过对第二初始特征信息中所包含的第二局部特征与占位符特征之间进行自相关计算，使得视觉转换器模型可以基于多个第二局部特征之间的相似性，从待处理图像的整体上考虑进行特征处理，进而提高视觉转换器模型最终得到的图像处理结果的准确性。

一个示例中，步骤S305包括以下步骤：

步骤S305的第一步骤；根据相关性系数集合、第二相关性系数、和第一数量进行系数求和，得到相关性信息。

步骤S305的第二步骤：对第一相关性系数、和相关性信息进行归一化处理，得到第一特征信息；其中，第一特征信息表征第二局部特征之间的归一化处理结果。

步骤S305的第三步骤：对第二相关性系数、和相关性信息进行归一化处理，得到第二特征信息；其中，第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果。

步骤S305的第四步骤：通过视觉转换器模型对第一特征信息和第二特征信息进行特征融合处理，得到图像处理结果。

示例性地，在基于所获取的相关性系数集合、第二相关性系数、以及视觉转换器模型中第一掩码的第一数量，在视觉转换器模型中进行图像处理，得到图像处理结果时，可以通过以下方式进行处理：首先，基于第i个第二局部特征对应的相关性系数集合、第i个第二局部特征对应的第二相关性系数、以及视觉转换器模型中第一掩码的第一数量进行求和处理，得到第i个第二局部特征对应的相关性信息。之后，基于第i个第二局部特征信息对应的相关性信息，对第i个第二局部特征信息的相关性系数集合中的每一第一相关性系数进行归一化处理，进而第i个第二局部特征对应的第一特征信息。即第一特征信息可以用于指示出第二局部特征之间的归一化结果。

同样地，基于第i个第二局部特征的相关性信息，对第i个第二局部特征的第二相关性系数进行归一化处理，得到可以表征第二局部特征与占位符特征之间的归一化处理结果的第i个局部特征的第二特征信息。

举例来说，在实际处理过程中，可以通过以下公式进行归一化处理：

其中，i用于指示第二初始特征信息中的第i个第二局部特征，且i为小于等于m的正整数，m为大于等于1的正整数，m为第二局部特征的总数量；t为第一初始特征信息中被剪除的第一局部特征的总个数(即第一掩码的第一数量)；n为小于等于m的正整数；

用于表示第i个第二局部特征与第n个第二局部特征之间的第一相关性系数的归一化后的第一特征信息；

用于表示第i个第二局部特征与第n个第二局部特征之间的第一相关性系数；

用于表示第i个第二局部特征与占位符特征之间的第二相关性系数；

用于表示第i个第二局部特征与占位符特征之间的第二相关性系数的归一化处理后的第二特征信息。

需要说明的是，上述公式适用于视觉转换器模型中仅包括一个编码器时的情况，当视觉转换器模型中包括多个编码器时，针对每一编码器中的归一化处理公式中的t用于表征输入该编码器的第二局部特征与第一初始特征中的局部特征数量的差值，m为输入该编码器的第二局部特征的总个数。i用于指示输入该编码器的第二局部特征的第i个第二局部特征。

进而，通过上述归一化处理，得到了第二初始特征信息中的每一第二局部特征对应的第一特征信息以及每一第二局部特征对应的第二特征信息。之后，视觉转换器模型在对各第二局特征对应的第一特征信息以及第二特征信息进行特征融合处理，最终得到图像的处理结果。

可以理解的是，本实施例中在对第二初始特征信息中的每一第二局部特征对应的相关性系数集合以及第二相关性系数进行归一化处理时，此时，会基于每一第二局部特征的相关性系数集合、每一第二局部特征的第二相关性系数、以及视觉转换器模型中第一掩码的第一数量，进而通过上述归一化处理的调整方式，可以确保在剪除第一局部特征后，第二局部特征的归一化处理结果相比于未剪除第一局部特征时第二局部特征的归一化处理结果，保持不变。进而可以确保剪除多个局部特征中的第一局部特征后，进而确保剪除第一局部特征后视觉转换器模型的输出保持不变，即确保视觉转换器模型的输出结果的准确度不会因为剪除第一局部特征而降低。

一个示例中，在执行步骤S305的第四步骤“通过视觉转换器模型对第一特征信息和第二特征信息进行特征融合处理，得到图像处理结果”时，可以通过以下过程实现：基于视觉转换器模型的全连接层对第一特征信息和第二特征信息进行非线性处理，得到特征组合；对特征组合进行特征处理，得到图像处理结果。

示例性地，在获取各第二局部特征的第一特征信息以及第二特征信息之后，可以基于视觉转换器模型中的FFN模块中的全连接层对各第二局部特征对应的第一特征信息以及第二特征信息进行非线性处理之后，得到各第二局部特征对应的特征组合。之后，在基于视觉转换器模型中的预测层对各第二局部特征对应的特征组合进行特征处理，进而得到待处理图像对应的图像处理结果。

可以理解的是，本实施例中，在获取到各个第二局部特征对应的第一特征信息以及第二特征信息之后，还会对第一特征信息以及第二特征信息进行特征进行非线性处理，进而提高视觉转换器模型的非线性处理能力，以及视觉转换器模型的适应性。

举例来说，图4是本公开实施例提供的一种视觉转换器模型的示意图。如图4所示，在图4中，视觉转换器模型中包括有图像划分层，线性编码层、变换器、编码器以及预测层，其中，编码器中包括多头自注意力模块(Multi-Head Self-Attention，简称MHSA)和逐点前向网络模块(Position-wise Feed-Forward Networks，简称FFN)。其中，图像划分层用于将输入的图像划分为Q个区域，得到Q个区域对应的图像，其中Q为正整数。之后，线性编码层用于对Q个区域对应的图像进行图像特征提取，得到与每一区域的图像一一对应的局部特征。之后，变换器会基于视觉转换器模型中所包含的掩码信息，对Q个局部特征进行特征变换处理，进而去除掉第一掩码所对应的局部特征，并且，变换器还会添加一个占位符特征，进而得到第二初始特征信息。之后，将处理后的特征信息输入至编码器中，由编码器中的MHSA模块进行自相关计算处理以及归一化处理，之后将归一化处理后的每一局部特征对应的第一特征信息以及第二特征信息输入至FFN模块中，由FFN模块进行非线性处理之后，将非线性处理后得到的特征组合输入至预测层中，进而由预测层输出图像处理结果。

需要说明的是，图4仅为本公开提供的视觉转换器模型的一个示例。在一些其它示例中，视觉转换器模型中也可以包括多个编码器，本公开中提供的方法也可以应用于对每一编码器输入的特征进行剪除。此时，在视觉转换器模型中，包括由于每一编码器一一对应的掩码组，每一掩码组中包括有与多个局部特征中的局部特征一一对应的掩码信息。举例来说，若对于待处理图像原本被划分为9个局部特征，在输入第一个编码器时，首先可以通过第一个编码器前连接的第一个变换器进行特征变换处理之后，再输入第一个编码器，得到第一个编码器的输出结果。假设，第一个变换器基于第一个编码器对应的掩码组中的掩码信息，对9个局部特征中的最后一个局部特征进行剪除，并添加了占位符特征，其中，此处的占位符特征为与任意一个局部特征维度相同的零向量。进而，第一个编码器输出的输出结果中包括有8个特征向量，这8个特征向量可以通过第二个编码器前连接的第二个变换器进行特征变换之后，再输入第二个编码器，得到第二个编码器的输出结果。假设，第二个变换器基于第二个编码器对应的掩码组中的掩码信息，对8个特征向量中的第一个特征进行剪除，并添加了占位符特征，其中该占位符特征与任意一个特征向量维度相同的零向量。进而，第二个编码器输出的输出结果中包括有8个特征向量，以此类推，直至最后一个编码器输出的结果，输入至预测层，由预测层输出图像处理结果。

图5是根据本公开第三实施例的示意图。如图5所示，本公开实施例的应用于图像处理的视觉转换器模型的训练方法，包括：

S501、对待训练图像进行特征提取，得到待训练图像的第一图像特征信息，其中，第一图像特征信息中包括待训练图像的多个局部特征。

示例性地，本实施例的执行主体可以为应用于图像处理的视觉转换器模型的训练装置(下文简称为训练装置)，训练装置可以为服务器(如本地服务器，或者，云端服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等，本实施例不做限定。训练装置可以与基于视觉转换器模型的图像处理装置为同一装置，也可以为不同装置，本实施例不做限定。

在对应用于图像处理的视觉转换器模型进行训练时，当获取到待训练图像之后，会将待训练图像划分成多个区域，并且，提取待训练图像的每一区域中的图像特征，即局部特征，并将待训练图像的多个局部特征作为待训练图像的第一图像特征信息。

S502、根据第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，第一初始模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；第一损失函数用于指示局部特征的重要性。

示例性地，在获取到待训练图像的第一图像特征信息之后，将待训练图像的第一图像特征信息输入至第一初始模型中，进行训练，进而得到第一初始模型对应的第一损失函数。并且，在第一初始模型中还设置有与第一图像特征信息中的多个局部特征的局部特征一一对应的掩码信息，当掩码信息为第一掩码时，此时表征该局部特征需要被剪除。当掩码信息为第二掩码时，此时表征该局部特征无需被剪除。

S503、根据第一损失函数，确定第一图像特征信息中待剪除的局部特征，并将与待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

示例性地，在获取到第一损失函数之后，由于第一损失函数可以指示出各个局部特征的重要性，则可以基于各个局部特征的重要性确定第一初始模型中待剪除的局部特征，并将第一初始模型中待剪除的局部特征对应的掩码调整为第一掩码，进而得到视觉转换器模型。

可以理解的是，本实施例中通过第一损失函数指示出各个局部特征的重要性来确定待剪除的局部特征，以便可以确定出对于模型的准确度影响较小的局部特征，在提高模型计算量的同时，对模型准确度的影响也较小。并且，通过上述方式得到视觉转换器模型之后，当通过该模型对待处理的图像进行图像处理时，基于训练好的视觉转换器模型中所包含的掩码信息将第一掩码对应的局部特征剪除，以便减少视觉转换器模型进行图像处理过程中的计算量。此外，本实施例中，在获取视觉转换器模型时，还会基于第一损失函数所指示的各个局部特征的重要性来确定需要剪除的局部特征，进而基于第一损失函数，可以剪去对于第一初始模型而言重要性较低，即对于第一初始模型的模型精度影响较小的局部特征，进而提高所得到的视觉转换器模型的准确性。

一个示例中，在上述视觉转换器模型的训练方法中，在执行完步骤S503之后，若此时得到的视觉转换器模型的计算量不满足预先设置的模型计算量的要求，则此时，可以将得到的视觉转换器模型作为第一初始模型，重新循环执行上述步骤S502-S503，直至得到最终的视觉转换器模型的计算量符合预先设置的模型计算量的要求。即，视觉转换器模型的计算复杂度符合预设计算量；其中，预设计算量为2n²d+12nd²，n为视觉转换器模型中第二掩码的总个数，d为多个局部特征中任一局部特征的维度。

示例性地，本实施例中，在训练第一初始模型以得到视觉转换器模型时，用户可以指定预设计算量，当训练后的第二初始模型的计算量满足预设计算量时，此时，将得到模型作为视觉转换器模型。

在确定模型的计算量，以模型中仅包括一个编码器为例，此时该模型的计算量可以用一个编码器对应的计算量表示，其中，一个编码器对应的计算量可以通过如下表达式计算，2n²d+12nd²，其中，n为初始模型中取值为第二掩码的总个数，d为输入编码器的任一局部特征的维度。

当模型中包括多个编码器时，每一编码器对应的计算量可以通过如下表达式计算，2n²d+12nd²，其中，n为即输入该编码器的局部特征中，第二掩码对应的第二局部特征的个数；d为输入该编码器的任一局部特征的维度。之后，将每一编码器对应的计算量进行求和处理后，得到该模型对应的计算量。

可以理解的是，本实施例中，在模型训练过程中，可以通过上述公式来确定模型所对应的计算量，以便最终所得到的视觉转换器模型的计算量可以满足预定计算量的要求。

图6是根据本公开第四实施例的示意图。如图6所示，本公开实施例的应用于图像处理的视觉转换器模型的训练方法，包括：

S601、对待训练图像进行特征提取，得到待训练图像的第一图像特征信息，其中，第一图像特征信息中包括待训练图像的多个局部特征。

示例性地，本步骤可以参见步骤S501，此处不再赘述。

S602、根据第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，第一初始模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；第一损失函数用于指示局部特征的重要性。

示例性地，本步骤可以参见步骤S502，此处不再赘述。

S603、根据第一损失函数，确定局部特征的重要性信息；其中，重要性信息表征局部特征对于图像处理的重要性。

示例性地，在训练第一初始模型以得到视觉转换器模型时，为了确定输入至第一初始模型中的待训练图像的第一图像特征信息中需要剪除的局部特征，在获取第一初始模型的第一损失函数之后，可以基于第一损失函数，确定与第一图像特征信息中的各个局部特征所对应的重要性信息。其中，每一局部特征对应的重要性信息用于表征该局部特征对于图像处理的重要性。

一个示例中，第一损失函数中包括多个局部特征中的局部特征一一对应的掩码信息，在执行步骤S603时，步骤S603的第一种实现方式如下：

步骤S603的第一步骤：针对第一损失函数中的第二掩码，在第二掩码不变、以及第一损失函数中的其他掩码信息不变时，对第一损失函数进行偏导计算处理，得到梯度信息；梯度信息用于指示局部特征的重要性。

步骤S603的第二步骤：根据梯度信息，确定多个局部特征中第二掩码对应的第二局部特征的重要性信息。

示例性地，本实施例中，在训练第一初始模型以获取视觉转换器模型的过程中，第一损失函数中包括有与局部特征一一对应的掩码信息。当基于第一损失函数确定待训练图像的图像特征信息中局部特征的重要性信息时，此时，可以通过以下过程实现：针对第一损失函数中的每一第二掩码，在第一损失函数中的每一掩码信息不变的情况下，对第一损失函数求偏导，进而得到第一损失函数中该第二掩码对应的梯度信息。重复上述步骤，直至计算出第一损失函数中的每一第二掩码所对应的梯度信息。其中，梯度信息可用于指示出第二掩码对应的第二局部特征的重要性。

在获取到每一第二掩码的梯度信息之后，针对每一第二掩码，基于该第二掩码的梯度信息，进一步确定出该第二掩码所对应的第二局部特征的重要性信息。

可以理解的是，本实施例中，为了确定出每一取值为第二数值的掩码所对应的局部特征的重要性信息，可以采用对第一损失函数进行偏导计算的方式，来获取每一取值为第二数值的掩码所对应的局部特征的梯度信息，其中，梯度信息可以反映出当该梯度信息对应的局部特征被剪除时，对于模型的第一损失函数的取值的变化，即可以确定出该局部特征信息的重要性信息。通过上述计算梯度信息的方式来确定局部特征的重要性信息的方式，计算方式较为简单，耗时较短，且得到的重要性信息较为准确，进而确保所确定出的待剪除的局部特征对模型输出的结果的准确性的影响较小。

一个示例中，步骤S603的第二步骤，可以通过以下方式实现：根据梯度信息、第一掩码以及第二掩码，确定第二局部特征的重要性信息。

示例性地，本实施例中，当训练第一初始模型以得到视觉转换器模型时，在根据梯度信息确定与第二掩码对应的第二局部特征的重要性信息时，具体地，可以根据该梯度信息、第一掩码以及第二掩码，来确定该第二掩码对应的第二局部特征的重要性信息。

举例来说，以第一掩码为0、第二掩码为1为例进行说明。由于第一损失函数为包含第一图像特征信息中的每一局部特征对应的掩码信息，因此，第一损失函数可以用第一损失函数在某一第二掩码处的偏导作系数构建一个多项式来近似表达第一损失函数，即将第一损失函数用一阶泰勒展开的形式来表示。如下面公式所示，

f(x)≈f(x₀)+f'(x₀)(x-x₀)

上述公式，为常用的一阶泰勒展开式的表达式，应用到本实施例中的场景时，f(x)用于表征第一损失函数；x用于表征任一掩码信息的变量符号；x₀的取值为第二掩码的取值(即x₀的取值为1)，为一个常数；f'(x₀)用于表征该第二掩码所对应的梯度信息；f(x₀)用于表征第一损失函数中的该第二掩码的变量符号的取值为1时，所对应的第一损失函数的值。为了确定该第二掩码所对应的重要性信息时，可以令上述公式中的x的取值为0，进而得到该第二掩码所对应的第二局部特征的重要性信息，可以用如下公式表示：

F＝f(0)-f(1)≈f'(1)(0-1)

其中，F该第二掩码所对应的第二局部特征的表征重要性信息，从上述公式中可以看出，重要性信息可以通过将第一掩码与第二掩码的差值与该第二掩码对应的梯度信息相乘后得到与该第二掩码所对应的局部特征的重要性信息。

可以理解的是，本实施例中，在基于梯度信息、第一掩码以及第二掩码确定第二掩码所对应的第二局部特征的重要性信息时，可以结合第一损失函数的一阶泰勒展开式来确定第二局部特征对应的重要性信息，通过上述方式确定重要性信息的方式，容易实现，且耗时较短，可以避免在确定待剪除的局部特征时，需要对第一初始模型进行不断训练的复杂过程。

一个示例中，步骤S603的第二种实现方式可以包括以下过程：

第一步、针对第一初始模型中的第二掩码，将第二掩码调整为第一掩码，以及保持第一初始模型的其他掩码信息不变，得到第二初始模型；根据第一图像特征信息对第二初始模型进行训练，得到第二损失函数；其中，第二损失函数用于指示局部特征的重要性。

第二步、根据第一损失函数和第二损失函数，确定多个局部特征中第二掩码对应的第二局部特征的重要性信息。

示例性地，本实施例中，当训练第一初始模型以获取视觉转换器模型时，在根据第一损失函数确定局部特征的重要性信息时，可以通过以下过程实现：为了确定第二掩码所对应的第二局部特征的重要性信息时，首先针对该第二掩码，将该第二掩码调整为第一掩码，同时保持第一初始模型中的其余掩码信息不变，进而得到第二初始模型。之后，将待训练图像对应的第一图像特征信息输入至第二初始模型中，进行训练之后，得到第二初始模型的第二损失函数。

再基于第一损失函数以及第二损失函数确定该第二局部特征对应的重要性信息。举例来说，可以将第一损失函数与第二损失函数之间的比值作为该第二局部特征对应的重要性信息。比值越大，则表明该第二掩码所对应的局部特征越重要，被剪除的可能性越小。

即，针对第一损失函数中的每一第二掩码，都通过上述方法得到每一第二局部特征对应的重要性信息。

可以理解的是，在本示例中，在确定第二局部特征对应的重要性信息时，首先会对第一初始模型中该第二掩码调整为第一掩码，得到第二初始模型以及第二初始模型的第二损失函数。之后基于第一损失函数以及第二损失函数确定该取值为第二数值的掩码对应的局部特征的重要性信息。相比于通过梯度信息确定重要性信息，由于在基于梯度信息确定重要性信息时，未考虑第一损失函数的一阶泰勒展开式对应的公式中的余项，导致获取到的重要性信息会存在一些误差，而本示例中，基于第二初始模型所得到的第二损失函数，与第一初始模型的第一损失函数确定的重要性信息准确度更高，但是由于每确定一个第二掩码对应的第二局部特征的重要性信息，都需要对第一初始模型进行调整训练，导致确定重要性信息的过程耗时较长。

一个示例中，在执行步骤S603的第二实现方式中的第二步时，可以通过以下过程实现：对第一损失函数与第二损失函数进行求差处理，得到差值信息；其中，差值信息表征局部特征的重要性信息；根据差值信息，确定第二局部特征的重要性信息。

示例性地，获取到第一初始模型对应的第一损失函数与第二初始模型对应的第二损失函数时，可以对第一损失函数以及第二损失函数，进行求差处理之后，将求差后得到的差值信息作为该第二掩码对应的第二局部特征对应的重要性信息。当第一损失函数与第二损失函数之间的差值信息所对应的值越大时，则表征该第二局部特征的重要性越高，对于模型的输出结果的影响性越大。

可以理解的是，本实施例中采用求差的方式确定重要性的方法易于实现，且耗时较短，可以提高模型训练的效率。

S604、根据重要性信息，确定第一图像特征信息中待剪除的局部特征。

示例性地，本实施例中，在得到每一局部特征的重要性信息之后，可以通过每一局部特征中的重要性信息所指示的重要性的高低确定待剪除的局部特征。例如，可以将重要性最低的局部特征确定为待剪除的局部特征。

可以理解的是，在训练第一初始模型时，为了第一图像特征信息中待剪除的局部特征，可以基于第一初始模型的第一损失函数，确定每一局部特征的重要性信息，并基于重要性信息所表征的对应图像处理的重要性的高低来确定待剪除的局部特征，进而通过上述第一损失函数确定待剪除的局部特征的方式，使得确定出的待剪除的局部特征对于模型最终的输出结果的准确度影响较小，进而在减少模型计算量的同时，确保了模型输出结果的准确性。

一个示例中，在执行步骤S604可以通过以下方式实现：确定重要性信息的取值小于第一阈值的局部特征，为第一图像特征信息中待剪除的局部特征。

示例性地，在获取到每一第二掩码对应的第二局部特征的重要性信息之后，当基于第二局部特征的重要性信息确定第一图像特征信息中待剪除的局部特征时，可以将重要性信息的取值小于第一阈值的第二局部特征，作为待剪除的局部特征。

可以理解的是，本实施例中通过将第二局部特征所对应的重要性信息与第一阈值进行比较，进而将小于第一阈值的重要性信息的第二局部特征作为待剪除的局部特征的方式，可以有效降低确定待剪除的局部特征过程所需时间，以便提高模型的训练效率，缩短模型训练时间。

一个示例中，在执行步骤S604可以通过以下方式实现：确定取值最小的重要性信息、各重要性信息中的每一其他的重要性信息两者之间的数值差值；确定取值小于第二阈值的数值差值所对应的各重要性信息以及取值最小的重要性信息，为待处理的重要性信息集合；确定待处理的重要性信息集合所对应的局部特征，为第一图像特征信息中待剪除的局部特征。

示例性地，本实施例中，在基于重要性信息确定待剪除的局部特征时，首先可以在多个局部特征中确定重要性信息取值最小的局部特征。之后，将第一图像特征信息中的其余局部特征对应的重要性信息分别与取值最小的重要性信息进行求差处理之后，得到多个数值差值。将取值小于第二阈值的数值差值对应的重要性信息所对应的局部特征以及取值最小的重要性信息对应的重要性信息所对应的局部特征均作为待剪除的局部特征。

可以理解的是，本实施例中，在确定待剪除的局部特征时，通过采用将每一局部特征对应的重要性信息与最小的重要性信息之间的数值差值与第二阈值进行比较之后，选择数值差值小于第二阈值的重要性信息对应的局部特征，以及最小的重要性信息对应的局部特征作为待剪除的局部特征。相比于直接将重要性信息与第一阈值进行比较所确定出的待剪除的局部特征，本实施例中所提供的方式所确定出的待剪除的局部特征更为准确，进而使得最终所得到的视觉转换器模型的准确度更高。

S605、将与待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

示例性地，本步骤可以参见步骤S503，此处不再赘述。

本实施例中，通过基于第一初始模型的第一损失函数，确定每一局部特征的重要性信息，并基于重要性信息所表征的对应图像处理的重要性的高低来确定待剪除的局部特征，进而通过上述第一损失函数确定待剪除的局部特征的方式，使得确定出的待剪除的局部特征对于模型最终的输出结果的准确度影响较小，进而在减少模型计算量的同时，确保了模型输出结果的准确性。

图7是根据本公开第五实施例的示意图。如图7所示，本公开实施例的应用于图像处理的视觉转换器模型的训练方法，包括：

S701、对待训练图像进行特征提取，得到待训练图像的第一图像特征信息，其中，第一图像特征信息中包括待训练图像的多个局部特征。

示例性地，本步骤可以参见步骤S501，此处不再赘述。

S702、从第一图像特征信息中去除与第一掩码所对应的第一局部特征，得到第二图像特征信息；其中，第二图像特征信息中包括多个局部特征中的与第二掩码所对应的第二局部特征、以及占位符特征；占位符特征的维度与多个局部特征中的任一个局部特征的维度相同；占位符特征用于指示零向量；其中，第一初始模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；第一损失函数用于指示局部特征的重要性。

示例性地，本实施例中，在训练第一初始模型以得到视觉转换器模型时，在将待训练图像对应的第一图像特征信息输入至第一初始模型时，首先可以基于第一初始模型中所包含的与局部特征一一对应的掩码信息，将第一掩码对应的第一局部特征去除，并添加一个与局部特征的维度相同的零向量作为占位符特征，进而将未被去除的局部特征以及占位符特征作为第二图像特征信息。

S703、根据第二图像特征信息对第一初始模型进行训练，得到第一损失函数。

示例性地，通过第二图像特征信息对第一初始模型进行训练，进而得到该模型的第一损失函数。

可以理解的是，本实施例中，在对第一初始模型训练以得到第一损失函数的过程中，为了减少训练过程中的模型计算量，可以将第一掩码对应的第一局部特征去除之后，再进行模型训练。并且，在第二图像特征信息中还包括有占位符特征，进而在确保减少模型计算量的同时，保证模型输出结果的准确度不受影响。

一个示例中，步骤S703包括以下步骤：

步骤S703的第一步骤：对第二图像特征信息中的第i个第二局部特征进行自相关计算处理，得到第i个第二局部特征的相关性系数集合；其中，相关性系数集合中包括第i个第二局部特征与第二图像特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为第二图像特征信息中的第二局部特征的数量。

步骤S703的第二步骤：对第i个第二局部特征与占位符特征进行相关性计算处理，得到第i个第二局部特征的第二相关性系数。

步骤S703的第三步骤：通过第一初始模型，并根据相关性系数集合、第二相关性系数、和第一掩码的第一数量，得到第一损失函数。

可以理解的是，本实施例中在训练视觉转换器模型的过程中，为了获取第一初始模型对应的第一损失函数，第一初始模型会对第二图像特征信息中的第二局部特征以及占位符特征之间进行自相关计算，并基于第二图像特征信息中的每一第二局部特征所对应的自相关处理结果以及被剪除的局部特征的总个数，得到第一损失函数。通过上述方法，也可以减少模型在训练过程中的计算量，以便提高视觉转换器模型的训练效率。

一个示例中，步骤S703的第三步骤可以通过以下过程实现：根据相关性系数集合、第二相关性系数、和第一数量进行系数求和处理，得到相关性信息；对第一相关性系数、和相关性信息进行归一化处理，得到第一特征信息；其中，第一特征信息表征第二局部特征之间的归一化处理结果；对第二相关性系数、和相关性信息进行归一化处理，得到第二特征信息；其中，第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；通过第一初始模型对第一特征信息和第二特征信息进行特征融合处理，得到第一损失函数。

示例性地，本实施例中，在训练得到视觉转换器模型的过程中，为了避免去除局部特征所导致模型的准确度降低，在对第二图像特征信息中的每一局部特征对应的相关性系数集合以及第二相关性系数进行归一化处理时，对归一化处理的具体过程改进，此处归一化处理的具体过程可以参见图3所示的实施例中的归一化处理公式，此处不再赘述。之后，在基于第一初始模型，对第一特征信息和第二特征信息进行处理，最终得到该第一初始模型的第一损失函数。

可以理解的是，通过上述对归一化处理公式的改进，可以在训练获取视觉转换器模型的过程中降低训练过程中模型的计算量，提高模型的训练效率，以及所得到的视觉转换器模型的准确性。

一个示例中，在执行步骤“通过第一初始模型对第一特征信息和第二特征信息进行特征融合处理，得到第一损失函数”，可以通过以下过程实现：基于第一初始模型的全连接层对第一特征信息和第二特征信息进行非线性处理，得到特征组合；对特征组合进行特征处理，输出第一损失函数。

示例性地，本示例可以参见图3所示的技术方法，此处不再赘述。可以理解的是，通过上述方法对模型进行训练，可以提高最终得到的视觉转换器模型的非线性处理能力，提高视觉转换器模型的准确度。

S704、根据第一损失函数，确定第一图像特征信息中待剪除的局部特征；并将与待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

示例性地，本步骤可以参见步骤S503，此处不再赘述。

本实施例中，在对第一初始模型进行训练的过程中，也可以通过对待训练图像的第一图像特征信息进行特征变换处理，得到第二图像特征信息，并基于第二图像特征信息对第一初始模型进行训练，进而得到第一初始模型的第一损失函数。进而通过上述特征变换处理，可以降低第一初始模型在训练过程中的计算量，提高视觉转换器模型的训练效率。

一个示例中，图像处理为以下的任意一种：图像分类、图像识别、图像分割。

示例性地，本实施例的方法，可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

图8是根据本公开第六实施例的示意图。如图8所示，本公开实施例的基于视觉转换器模型的图像处理装置800，包括：

第一提取单元801，用于对待处理图像进行特征提取，得到第一初始特征信息，其中，第一初始特征信息包括待处理图像的多个局部特征；

去除单元802，通过视觉转换器模型，从多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，第二初始特征信息中包括多个局部特征中的与第二掩码对应的第二局部特征；视觉转换器模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；

处理单元803，用于通过视觉转换器模型对第二初始特征信息进行图像处理，得到图像处理结果。

示例性地，本实施例的装置，可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

图9是根据本公开第七实施例的示意图。如图9所示，本公开实施例的基于视觉转换器模型的图像处理装置900，包括：

第一提取单元901，用于对待处理图像进行特征提取，得到第一初始特征信息，其中，第一初始特征信息包括待处理图像的多个局部特征；

去除单元902，通过视觉转换器模型，从多个局部特征中去除与第一掩码对应的第一局部特征，得到第二初始特征信息；其中，第二初始特征信息中包括多个局部特征中的与第二掩码对应的第二局部特征；视觉转换器模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；

处理单元903，用于通过视觉转换器模型对第二初始特征信息进行图像处理，得到图像处理结果。

一个示例中，第二初始特征信息还包括：占位符特征；占位符特征的维度与多个局部特征中的任一局部特征的维度相同；占位符特征用于指示零向量。

一个示例中，处理单元903，包括：

第一处理模块9031，用于对第二初始特征信息中的第i个第二局部特征进行自相关计算处理，得到第i个第二局部特征的相关性系数集合；其中，相关性系数集合包括第i个第二局部特征与第二初始特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为第二初始特征信息中的第二局部特征的数量；

第二处理模块9032，用于对第i个第二局部特征与占位符特征进行相关性计算，得到第i个第二局部特征的第二相关性系数；

第三处理模块9033，用于通过视觉转换器模型，并根据相关性系数集合、第二相关性系数、和第一掩码的第一数量，获取图像处理结果。

一个示例中，第三处理模块9033，包括：

第一处理子模块，用于根据相关性系数集合、第二相关性系数、和第一数量进行系数求和，得到相关性信息；

第二处理子模块，用于对第一相关性系数、和相关性信息进行归一化处理，得到第一特征信息；其中，第一特征信息表征第二局部特征之间的归一化处理结果；

第三处理子模块，用于对第二相关性系数、和相关性信息进行归一化处理，得到第二特征信息；其中，第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；

第四处理子模块，用于通过视觉转换器模型对第一特征信息和第二特征信息进行特征融合处理，得到图像处理结果。

一个示例中，第四处理子模块，具体用于：

基于视觉转换器模型的全连接层对第一特征信息和第二特征信息进行非线性处理，得到特征组合；

对特征组合进行特征处理，得到图像处理结果。

图10是根据本公开第八实施例的示意图。如图10所示，本公开实施例的基于视觉转换器模型的图像处理装置1000，包括：

第二提取单元1001，用于对待训练图像进行特征提取，得到待训练图像的第一图像特征信息，其中，第一图像特征信息中包括待训练图像的多个局部特征；

训练单元1002，用于根据第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，第一初始模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；第一损失函数用于指示局部特征的重要性；

确定单元1003，用于根据第一损失函数，确定第一图像特征信息中待剪除的局部特征；

调整单元1004，用于将与待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

图11是根据本公开第九实施例的示意图。如图11所示，本公开实施例的基于视觉转换器模型的图像处理装置1100，包括：

第二提取单元1101，用于对待训练图像进行特征提取，得到待训练图像的第一图像特征信息，其中，第一图像特征信息中包括待训练图像的多个局部特征。

训练单元1102，用于根据第一图像特征信息对第一初始模型进行训练，得到第一损失函数；其中，第一初始模型中包括与多个局部特征中的局部特征一一对应的掩码信息，掩码信息为第一掩码或第二掩码；第一掩码用于指示局部特征需剪除，第二掩码用于指示局部特征无需剪除；第一损失函数用于指示局部特征的重要性。

确定单元1103，用于根据第一损失函数，确定第一图像特征信息中待剪除的局部特征。

调整单元1104，用于将与待剪除的局部特征对应第二掩码调整为第一掩码，得到视觉转换器模型；其中，视觉转换器模型用于对待处理图像进行图像处理得到图像处理结果。

一个示例中，确定单元1103，包括：

第一确定模块11031，用于根据第一损失函数，确定局部特征的重要性信息；其中，重要性信息表征局部特征对于图像处理的重要性。

第二确定模块11032，用于根据重要性信息，确定第一图像特征信息中待剪除的局部特征。

一个示例中，第一损失函数中包括多个局部特征中的局部特征一一对应的掩码信息；第一确定模块11031，包括：

第四处理模块，用于针对第一损失函数中的第二掩码，在第二掩码不变、以及第一损失函数中的其他掩码信息不变时，对第一损失函数进行偏导计算处理，得到梯度信息；梯度信息用于指示局部特征的重要性。

第三确定模块，用于根据梯度信息，确定多个局部特征中第二掩码对应的第二局部特征的重要性信息。

一个示例中，第三确定模块，具体用于：

根据梯度信息、第一掩码以及第二掩码，确定第二局部特征的重要性信息。

一个示例中，确定单元1103，包括：

第五处理模块，用于针对第一初始模型中的第二掩码，将第二掩码调整为第一掩码，以及保持第一初始模型的其他掩码信息不变，得到第二初始模型；根据第一图像特征信息对第二初始模型进行训练，得到第二损失函数；其中，第二损失函数用于指示局部特征的重要性；

第四确定模块，用于根据第一损失函数和第二损失函数，确定多个局部特征中第二掩码对应的第二局部特征的重要性信息。

一个示例中，第四确定模块，包括：

第五处理子模块，用于对第一损失函数与第二损失函数进行求差处理，得到差值信息；其中，差值信息表征局部特征的重要性信息；

第一确定子模块，用于根据差值信息，确定第二局部特征的重要性信息。

一个示例中，第二确定模块11032，具体用于：

确定重要性信息的取值小于第一阈值的局部特征，为第一图像特征信息中待剪除的局部特征。

一个示例中，第二确定模块11032，包括：

第二确定子模块，用于确定取值最小的重要性信息、各重要性信息中的每一其他的重要性信息两者之间的数值差值；

第三确定子模块，用于确定取值小于第二阈值的数值差值所对应的各重要性信息以及取值最小的重要性信息，为待处理的重要性信息集合；

第四确定子模块，用于确定待处理的重要性信息集合所对应的局部特征，为第一图像特征信息中待剪除的局部特征。

一个示例中，视觉转换器模型的计算复杂度符合预设计算量；其中，预设计算量为2n²d+12nd²，n为视觉转换器模型中第二掩码的总个数，d为多个局部特征中任一局部特征的维度。

一个示例中，训练单元1102，包括：

去除模块11021，用于从第一图像特征信息中去除与第一掩码所对应的第一局部特征，得到第二图像特征信息；其中，第二图像特征信息中包括多个局部特征中的与第二掩码所对应的第二局部特征、以及占位符特征；占位符特征的维度与多个局部特征中的任一个局部特征的维度相同；占位符特征用于指示零向量；

训练模块11022，用于根据第二图像特征信息对第一初始模型进行训练，得到第一损失函数。

一个示例中，训练模块11022，包括：

第六处理子模块，用于对第二图像特征信息中的第i个第二局部特征进行自相关计算处理，得到第i个第二局部特征的相关性系数集合；其中，相关性系数集合中包括第i个第二局部特征与第二图像特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为第二图像特征信息中的第二局部特征的数量；

第七处理子模块，用于对第i个第二局部特征与占位符特征进行相关性计算处理，得到第i个第二局部特征的第二相关性系数；

第八处理子模块，用于通过第一初始模型，并根据相关性系数集合、第二相关性系数、和第一掩码的第一数量，得到第一损失函数。

一个示例中，第八处理子模块，具体用于：

根据相关性系数集合、第二相关性系数、和第一数量进行系数求和处理，得到相关性信息；

对第一相关性系数、和相关性信息进行归一化处理，得到第一特征信息；其中，第一特征信息表征第二局部特征之间的归一化处理结果；

对第二相关性系数、和相关性信息进行归一化处理，得到第二特征信息；其中，第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；

通过第一初始模型对第一特征信息和第二特征信息进行特征融合处理，得到第一损失函数。

一个示例中，第八处理子模块，具体用于：

基于第一初始模型的全连接层对第一特征信息和第二特征信息进行非线性处理，得到特征组合；

对特征组合进行特征处理，输出第一损失函数。

一个示例中，其中，图像处理为以下的任意一种：图像分类、图像识别、图像分割。

图12是根据本公开第十实施例的示意图，如图12所示，本公开中的电子设备1200可以包括：处理器1201和存储器1202。

存储器1202，用于存储程序；存储器1202，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器1202用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指令、数据等可以被处理器1201调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指据等可以被处理器1201调用。

处理器1201，用于执行存储器1202存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器1201和存储器1202可以是独立结构，也可以是集成在一起的集成结构。当处理器1201和存储器1202是独立结构时，存储器1202、处理器1201可以通过总线1203耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如基于视觉转换器模型的图像处理方法，或者，应用于图像处理的视觉转换器模型的训练方法。例如，在一些实施例中，基于视觉转换器模型的图像处理方法，或者，应用于图像处理的视觉转换器模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的基于视觉转换器模型的图像处理方法，或者，应用于图像处理的视觉转换器模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于视觉转换器模型的图像处理方法，或者，应用于图像处理的视觉转换器模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于视觉转换器模型的图像处理方法，包括：

2.根据权利要求1所述的方法，其中，所述第二初始特征信息还包括：占位符特征；所述占位符特征的维度与所述多个局部特征中的任一局部特征的维度相同；所述占位符特征用于指示零向量。

3.根据权利要求2所述的方法，其中，所述通过所述视觉转换器模型对所述第二初始特征信息进行图像处理，得到图像处理结果，包括：

对所述第二初始特征信息中的第i个第二局部特征进行自相关计算处理，得到所述第i个第二局部特征的相关性系数集合；其中，所述相关性系数集合包括所述第i个第二局部特征与所述第二初始特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为所述第二初始特征信息中的第二局部特征的数量；

对所述第i个第二局部特征与所述占位符特征进行相关性计算，得到所述第i个第二局部特征的第二相关性系数；

通过所述视觉转换器模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，获取所述图像处理结果。

4.根据权利要求3所述的方法，其中，所述通过所述视觉转换器模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，获取所述图像处理结果，包括：

根据所述相关性系数集合、所述第二相关性系数、和所述第一数量进行系数求和，得到相关性信息；

对所述第一相关性系数、和所述相关性信息进行归一化处理，得到第一特征信息；其中，所述第一特征信息表征第二局部特征之间的归一化处理结果；

对所述第二相关性系数、和所述相关性信息进行归一化处理，得到第二特征信息；其中，所述第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；

通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述图像处理结果。

5.根据权利要求4所述的方法，其中，通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述图像处理结果，包括：

基于所述视觉转换器模型的全连接层对所述第一特征信息和所述第二特征信息进行非线性处理，得到特征组合；

对所述特征组合进行特征处理，得到所述图像处理结果。

6.根据权利要求1-5任一项所述的方法，其中，所述图像处理为以下的任意一种：图像分类、图像识别、图像分割。

7.一种应用于图像处理的视觉转换器模型的训练方法，包括：

8.根据权利要求7所述的方法，其中，根据所述第一损失函数，确定所述第一图像特征信息中待剪除的局部特征，包括：

根据所述第一损失函数，确定局部特征的重要性信息；其中，所述重要性信息表征局部特征对于图像处理的重要性；

根据所述重要性信息，确定所述第一图像特征信息中待剪除的局部特征。

9.根据权利要求8所述的方法，其中，所述第一损失函数中包括所述多个局部特征中的局部特征一一对应的掩码信息；根据所述第一损失函数，确定局部特征的重要性信息，包括：

针对所述第一损失函数中的第二掩码，在所述第二掩码不变、以及所述第一损失函数中的其他掩码信息不变时，对所述第一损失函数进行偏导计算处理，得到梯度信息；所述梯度信息用于指示局部特征的重要性；

根据所述梯度信息，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。

10.根据权利要求9所述的方法，其中，根据所述梯度信息，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息，包括：

根据所述梯度信息、第一掩码以及第二掩码，确定第二局部特征的重要性信息。

11.根据权利要求8所述的方法，其中，根据所述第一损失函数，确定局部特征的重要性信息，包括：

针对所述第一初始模型中的第二掩码，将所述第二掩码调整为第一掩码，以及保持所述第一初始模型的其他掩码信息不变，得到第二初始模型；根据所述第一图像特征信息对所述第二初始模型进行训练，得到第二损失函数；其中，所述第二损失函数用于指示局部特征的重要性；

根据所述第一损失函数和所述第二损失函数，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。

12.根据权利要求11所述的方法，其中，根据所述第一损失函数和所述第二损失函数，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息，包括：

对所述第一损失函数与所述第二损失函数进行求差处理，得到差值信息；其中，所述差值信息表征局部特征的重要性信息；

根据所述差值信息，确定第二局部特征的重要性信息。

13.根据权利要求8-12任一项所述的方法，其中，根据所述重要性信息，确定所述第一图像特征信息中待剪除的局部特征，包括：

确定重要性信息的取值小于第一阈值的局部特征，为所述第一图像特征信息中待剪除的局部特征。

14.根据权利要求8-12任一项所述的方法，其中，根据所述重要性信息，确定所述第一图像特征信息中待剪除的局部特征，包括：

确定取值最小的重要性信息、各所述重要性信息中的每一其他的重要性信息两者之间的数值差值；

确定取值小于第二阈值的数值差值所对应的各重要性信息以及取值最小的重要性信息，为待处理的重要性信息集合；

确定所述待处理的重要性信息集合所对应的局部特征，为所述第一图像特征信息中待剪除的局部特征。

15.根据权利要求7-14任一项所述的方法，其中，所述视觉转换器模型的计算复杂度符合预设计算量；其中，所述预设计算量为2n²d+12nd²，n为所述视觉转换器模型中第二掩码的总个数，d为所述多个局部特征中任一局部特征的维度。

16.根据权利要求7-15任一项所述的方法，其中，根据所述第一图像特征信息对第一初始模型进行训练，得到第一损失函数，包括：

从所述第一图像特征信息中去除与第一掩码所对应的第一局部特征，得到第二图像特征信息；其中，所述第二图像特征信息中包括所述多个局部特征中的与第二掩码所对应的第二局部特征、以及占位符特征；所述占位符特征的维度与所述多个局部特征中的任一个局部特征的维度相同；所述占位符特征用于指示零向量；

根据所述第二图像特征信息对所述第一初始模型进行训练，得到所述第一损失函数。

17.根据权利要求16所述的方法，其中，根据所述第二图像特征信息对所述第一初始模型进行训练，得到所述第一损失函数，包括：

对所述第二图像特征信息中的第i个第二局部特征进行自相关计算处理，得到所述第i个第二局部特征的相关性系数集合；其中，所述相关性系数集合中包括所述第i个第二局部特征与所述第二图像特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为所述第二图像特征信息中的第二局部特征的数量；

对所述第i个第二局部特征与所述占位符特征进行相关性计算处理，得到所述第i个第二局部特征的第二相关性系数；

通过所述第一初始模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，得到所述第一损失函数。

18.根据权利要求17所述的方法，其中，通过所述第一初始模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，得到所述第一损失函数，包括：

根据所述相关性系数集合、所述第二相关性系数、和所述第一数量进行系数求和处理，得到相关性信息；

通过所述第一初始模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述第一损失函数。

19.根据权利要求18所述的方法，其中，通过所述第一初始模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述第一损失函数，包括：

基于所述第一初始模型的全连接层对所述第一特征信息和所述第二特征信息进行非线性处理，得到特征组合；

对所述特征组合进行特征处理，输出所述第一损失函数。

20.根据权利要求7-19任一项所述的方法，其中，所述图像处理为以下的任意一种：图像分类、图像识别、图像分割。

21.一种基于视觉转换器模型的图像处理装置，包括：

22.根据权利要求21所述的装置，其中，所述第二初始特征信息还包括：占位符特征；所述占位符特征的维度与所述多个局部特征中的任一局部特征的维度相同；所述占位符特征用于指示零向量。

23.根据权利要求22所述的装置，其中，所述处理单元，包括：

第一处理模块，用于对所述第二初始特征信息中的第i个第二局部特征进行自相关计算处理，得到所述第i个第二局部特征的相关性系数集合；其中，所述相关性系数集合包括所述第i个第二局部特征与所述第二初始特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为所述第二初始特征信息中的第二局部特征的数量；

第二处理模块，用于对所述第i个第二局部特征与所述占位符特征进行相关性计算，得到所述第i个第二局部特征的第二相关性系数；

第三处理模块，用于通过所述视觉转换器模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，获取所述图像处理结果。

24.根据权利要求23所述的装置，其中，所述第三处理模块，包括：

第一处理子模块，用于根据所述相关性系数集合、所述第二相关性系数、和所述第一数量进行系数求和，得到相关性信息；

第二处理子模块，用于对所述第一相关性系数、和所述相关性信息进行归一化处理，得到第一特征信息；其中，所述第一特征信息表征第二局部特征之间的归一化处理结果；

第三处理子模块，用于对所述第二相关性系数、和所述相关性信息进行归一化处理，得到第二特征信息；其中，所述第二特征信息表征第二局部特征与占位符特征之间的归一化处理结果；

第四处理子模块，用于通过所述视觉转换器模型对所述第一特征信息和所述第二特征信息进行特征融合处理，得到所述图像处理结果。

25.根据权利要求24所述的装置，其中，第四处理子模块，具体用于：

对所述特征组合进行特征处理，得到所述图像处理结果。

26.根据权利要求21-25任一项所述的装置，其中，所述图像处理为以下的任意一种：图像分类、图像识别、图像分割。

27.一种应用于图像处理的视觉转换器模型的训练装置，包括：

28.根据权利要求27所述的装置，其中，确定单元，包括：

第一确定模块，用于根据所述第一损失函数，确定局部特征的重要性信息；其中，所述重要性信息表征局部特征对于图像处理的重要性；

第二确定模块，用于根据所述重要性信息，确定所述第一图像特征信息中待剪除的局部特征。

29.根据权利要求28所述的装置，其中，所述第一损失函数中包括所述多个局部特征中的局部特征一一对应的掩码信息；第一确定模块，包括：

第四处理模块，用于针对所述第一损失函数中的第二掩码，在所述第二掩码不变、以及所述第一损失函数中的其他掩码信息不变时，对所述第一损失函数进行偏导计算处理，得到梯度信息；所述梯度信息用于指示局部特征的重要性；

第三确定模块，用于根据所述梯度信息，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。

30.根据权利要求29所述的装置，其中，第三确定模块，具体用于：

31.根据权利要求28所述的装置，其中，确定单元，包括：

第五处理模块，用于针对所述第一初始模型中的第二掩码，将所述第二掩码调整为第一掩码，以及保持所述第一初始模型的其他掩码信息不变，得到第二初始模型；根据所述第一图像特征信息对所述第二初始模型进行训练，得到第二损失函数；其中，所述第二损失函数用于指示局部特征的重要性；

第四确定模块，用于根据所述第一损失函数和所述第二损失函数，确定所述多个局部特征中第二掩码对应的第二局部特征的重要性信息。

32.根据权利要求31所述的装置，其中，第四确定模块，包括：

第五处理子模块，用于对所述第一损失函数与所述第二损失函数进行求差处理，得到差值信息；其中，所述差值信息表征局部特征的重要性信息；

第一确定子模块，用于根据所述差值信息，确定第二局部特征的重要性信息。

33.根据权利要求28-32任一项所述的装置，其中，第二确定模块，具体用于：

34.根据权利要求28-32任一项所述的装置，其中，第二确定模块，包括：

第二确定子模块，用于确定取值最小的重要性信息、各所述重要性信息中的每一其他的重要性信息两者之间的数值差值；

第四确定子模块，用于确定所述待处理的重要性信息集合所对应的局部特征，为所述第一图像特征信息中待剪除的局部特征。

35.根据权利要求27-34任一项所述的装置，其中，所述视觉转换器模型的计算复杂度符合预设计算量；其中，所述预设计算量为2n²d+12nd²，n为所述视觉转换器模型中第二掩码的总个数，d为所述多个局部特征中任一局部特征的维度。

36.根据权利要求27-35任一项所述的装置，其中，训练单元，包括：

去除模块，用于从所述第一图像特征信息中去除与第一掩码所对应的第一局部特征，得到第二图像特征信息；其中，所述第二图像特征信息中包括所述多个局部特征中的与第二掩码所对应的第二局部特征、以及占位符特征；所述占位符特征的维度与所述多个局部特征中的任一个局部特征的维度相同；所述占位符特征用于指示零向量；

训练模块，用于根据所述第二图像特征信息对所述第一初始模型进行训练，得到所述第一损失函数。

37.根据权利要求36所述的装置，其中，训练模块，包括：

第六处理子模块，用于对所述第二图像特征信息中的第i个第二局部特征进行自相关计算处理，得到所述第i个第二局部特征的相关性系数集合；其中，所述相关性系数集合中包括所述第i个第二局部特征与所述第二图像特征信息中的每一局部特征之间的第一相关性系数；i为正整数，且i的取值范围为[1，m]，m为正整数，m为所述第二图像特征信息中的第二局部特征的数量；

第七处理子模块，用于对所述第i个第二局部特征与所述占位符特征进行相关性计算处理，得到所述第i个第二局部特征的第二相关性系数；

第八处理子模块，用于通过所述第一初始模型，并根据所述相关性系数集合、所述第二相关性系数、和所述第一掩码的第一数量，得到所述第一损失函数。

38.根据权利要求37所述的装置，其中，第八处理子模块，具体用于：

39.根据权利要求38所述的装置，其中，第八处理子模块，具体用于：

对所述特征组合进行特征处理，输出所述第一损失函数。

40.根据权利要求27-39任一项所述的装置，其中，所述图像处理为以下的任意一种：图像分类、图像识别、图像分割。

41.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-20中任一项所述的方法。

42.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-20中任一项所述的方法。

43.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-20中任一项所述方法的步骤。