CN117036788B

CN117036788B - 图像分类方法、训练图像分类模型的方法及装置

Info

Publication number: CN117036788B
Application number: CN202310906877.6A
Authority: CN
Inventors: 周彦捷; 刘伟; 高远; 许静; 王宇; 吕乐
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2024-04-02
Anticipated expiration: 2043-07-21
Also published as: CN117036788A

Abstract

本申请实施例公开了一种图像分类方法、训练图像分类模型的方法及装置。主要技术方案包括：获取待分类的图像；对待分类的图像进行特征提取，得到图像中各Token(元素)的初始特征表示；对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；利用第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示；利用第一融合特征表示，预测待分类的图像所包含第一对象的类别。通过本申请能够提高图像分类的准确性。

Description

图像分类方法、训练图像分类模型的方法及装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种图像分类的方法、训练图像分类模型的方法及装置。

背景技术

图像分类是根据图像的语义信息对不同类别的图像进行区分，是计算机视觉中重要的基础问题。图像分类在很多领域都有着广泛的应用，例如：交通领域的交通场景识别、地质领域的矿产勘探，医学领域的图像识别等等。

在一些特殊领域中对于图像分类的准确率和召回率具有较高的要求。虽然目前已经存在利用深度学习模型来对图像进行分类的相关技术，但分类结果的准确率仍有待提高。

发明内容

有鉴于此，本申请提供了一种图像分类的方法、训练图像分类模型的方法及装置，以便于提高图像分类结果的准确率。

本申请提供了如下方案：

第一方面，提供了一种图像分类方法，所述方法包括：

获取待分类的图像；

对所述待分类的图像进行特征提取，得到所述图像中各Token的初始特征表示；

对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；

利用所述第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，所述第一互注意力权重体现Token对于所述待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；

利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；

利用所述第一融合特征表示，预测所述待分类的图像所包含第一对象的类别。

根据本申请实施例中一可实现的方式，利用所述第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重包括：

从所述注意力矩阵中获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；

利用获取的注意力权重向量的点积，确定各图块Token的第一互注意力权重。

根据本申请实施例中一可实现的方式，所述方法还包括：

对所述各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征；在进行所述第一融合处理时进一步结合所述第二全局特征；和/或，

对所述各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征；利用所述第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，所述第三互注意力权重体现Token对于所述待分类的图像所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征；在进行所述第一融合处理时，进一步结合所述第三全局特征和所述第三局部特征。

根据本申请实施例中一可实现的方式，所述方法还包括：

利用所述第二全局特征预测所述待分类的图像所包含第二对象的类别，所述第一对象位于所述第二对象的区域；和/或，

利用所述第三全局特征和所述第三局部特征进行第二融合处理，得到第二融合特征表示，利用所述第二融合特征表示预测第三对象的类别，所述第三对象为所述第一对象对应的属性。

根据本申请实施例中一可实现的方式，若所述第一融合处理进一步结合所述第二全局特征、所述第三全局特征和所述第三局部特征，则所述第一融合处理包括：

利用所述第一全局特征表示和第二全局特征表示进行交叉注意力处理，利用所述第一全局特征表示和所述第三全局特征表示进行交叉注意力处理，以及利用所述第一局部特征表示和所述第三局部特征表示进行交叉注意力处理；

利用各交叉注意力处理的结果，得到所述第一融合特征表示。

第二方面，提供了一种训练图像分类模型的方法，所述方法包括：

获取包含多个训练样本的训练数据，所述训练样本包括图像样本以及该图像样本所包含第一对象的类别标签；

利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；所述特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示；所述第一表征模块对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；所述第一定位模块利用所述第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，所述第一互注意力权重体现Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；所述第一融合模块利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；所述第一预测模块利用所述第一融合特征表示，预测图像样本所包含第一对象的类别；

所述训练的目标包括：最小化预测得到的所述图像样本所包含第一对象的类别与对应类别标签之间的差异。

根据本申请实施例中一可实现的方式，所述图像分类模型还包括第二表征模块，所述第二表征模块对所述各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征；所述第一融合模块在进行所述第一融合处理时进一步结合所述第二全局特征；和/或，

所述图像分类模型还包括第三表征模块和第三定位模块；所述第三表征模块对所述各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征；所述第三定位模块利用所述第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，所述第三互注意力权重体现Token对于所述图像样本所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征；所述第一融合模块在进行所述第一融合处理时，进一步结合所述第三全局特征和所述第三局部特征。

根据本申请实施例中一可实现的方式，所述训练样本还包括图像样本所包含第二对象的类别标签，所述图像分类模型还包括第二预测模块，所述第二预测模块利用所述第一全局特征预测图像样本所包含第二对象的类别，所述第一对象位于所述第二对象的区域，所述训练的目标还包括：最小化预测得到的所述图像样本所包含第二对象的类别与对应类别标签之间的差异；和/或，

所述训练样本还包括第三对象的类别标签，所述第三对象为所述第一对象的属性，所述图像分类模型还包括第三预测模块，所述第三预测模块利用第三全局特征和所述第三局部特征进行第二融合处理，得到第二融合特征表示，利用所述第二融合特征表示预测第三对象的类别，所述训练的目标还包括：最小化预测得到的第三对象的类别与对应类别标签之间的差异。

第三方面，提供了一种图像分类方法，由云端服务器执行，所述方法包括：

获取来自用户终端的待分类的图像；

利用所述第一融合特征表示，预测所述待分类的图像所包含第一对象的类别；

将包含所述第一对象的类别的预测结果返回给所述用户终端。

第四方面，提供了一种图像分类方法，由用户终端执行，所述方法包括：

向用户提供图像输入界面；

获取所述用户通过图像输入界面输入的图像作为待分类的图像；

将所述待分类的图像发送至服务器端，并获取所述服务器端执行如上第一方面所述方法后返回的预测结果，所述预测结果包括所述待分类的图像所包含第一对象的类别信息；

向所述用户展示所述预测结果。

第五方面，提供了一种图像分类装置，所述装置包括：

图像获取模块，被配置为获取待分类的图像；

特征提取模块，被配置为对所述待分类的图像进行特征提取，得到所述图像中各Token的初始特征表示；

第一表征模块，被配置为对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；

第一定位模块，被配置为利用所述第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，所述第一互注意力权重体现Token对于所述待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；

第一融合模块，被配置为利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；

第一预测模块，被配置为利用所述第一融合特征表示，预测所述待分类的图像所包含第一对象的类别。

第六方面，提供了一种训练图像分类模型的装置，所述装置包括：

样本获取单元，被配置为获取包含多个训练样本的训练数据，所述训练样本包括图像样本以及该图像样本所包含第一对象的类别标签；

模型训练单元，被配置为利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；所述特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示；所述第一表征模块对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；所述第一定位模块利用所述第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，所述第一互注意力权重体现Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；所述第一融合模块利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；所述第一预测模块利用所述第一融合特征表示，预测图像样本所包含第一对象的类别；所述训练的目标包括：最小化预测得到的所述图像样本所包含第一对象的类别与对应类别标签之间的差异。

根据第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面至第四方面中任一项所述的方法的步骤。

根据第八方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面至第四方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请一方面通过对图像中各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征，另一方面利用第一自注意力处理过程中的注意力矩阵，能够得到图像中各Token的第一注意力权重，并据此选择对图像所包含第一对象分类比较重要的Token的第一特征表示作为第一局部特征，使得在预测图像所包含第一对象的类别时能够同时考虑图像所表现的全局特征和局部特征，有效地从噪声背景中突出重要的局部特征，从而提高图像分类的准确性。

2)本申请通过与第一对象相关联的第二对象和/或第三对象所对应的特征提取，并将第一对象、第二对象和第三对象的全局特征、局部特征进行融合，基于融合得到的第一特征表示对第一对象的类别进行预测，更进一步提高图像分类的准确性。

3)本申请进一步利用第一对象相关联的第二对象和/或第三对象所对应的特征提取，对待分类图像所包含的第二对象和第三对象进行类别预测，为第一对象的类别分类提供可解释性。

4)本申请通过第一全局特征表示和第二全局特征表示之间的交叉注意力处理，利用第一全局特征表示和第三全局特征表示之间的交叉注意力处理，以及第一局部特征表示和第三局部特征表示之间的交叉注意力处理，充分对不同任务的特征进行交互，减少了梯度冲突，有效融合不同任务的视觉特征，更进一步提高图像分类的准确性。

5)本申请在图像分类模型的训练过程中，选择对图像样本所包含第一对象分类比较重要的Token的第一特征表示作为第一局部特征，使得在预测图像样本所包含第一对象的类别时能够同时学习图像所表现的全局特征和局部特征，有效地从噪声背景中突出重要的局部特征，从而提高模型的准确性。其中第一局部特征的提取使得在模型训练过程中无需额外针对第一对象的区域进行标注，也能够有效突出第一对象区域的重要性，降低了因被标注问题所带来的人工成本。

6)本申请在图像分类模型的训练过程中，额外结合对第二对象类别的预测任务和第三对象类别的预测任务，通过多任务学习的方式，学习第一对象、第二对象和第三对象特征之间的相关性，从而进一步提高图像分类模型的分类效果。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的图像分类方法的流程图；

图3为本申请实施例提供的一种图像分类模型的原理性结构示意图；

图4为本申请实施例提供的另一种图像分类模型的原理性结构示意图；

图5为本申请实施例提供的第一融合模块的一种原理性示意图；

图6为本申请实施例提供的训练图像分类模型的方法流程图；

图7为本申请实施例提供的应用于医疗场景下进行皮肤病灶的分类方法流程图；

图8为本申请实施例提供的图像分类装置的示意性框图；

图9为本申请实施例提供的训练图像分类模型的装置示意性框图；

图10为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括服务端的模型训练装置和图像分类装置，还可以包括用户终端。

其中，模型训练装置用以在离线阶段进行模型训练。即在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到图像分类模型。

图像分类装置用以在线上利用已经训练得到的图像分类模型，对待分类的图像进行分类，得到图像是否属于目标类别的分类结果。

模型训练装置和图像分类装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和图像分割装置还可以设置于具有较强计算能力的计算机终端。

作为其中一种可实现的方式，用户可以通过用户终端将待分类的图像通过网络发送给服务端的图像分类装置。由图像分类装置采用本申请实施例提供的方法对待分类的图像进行分类后，将分类结果返回给用户终端。

上述用户终端可以包括但不限于智能移动终端、智能家居设备、可穿戴式设备、智能医疗设备、PC(Personal Computer，个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(Personal DigitalAssistant，个人数字助理)、互联网汽车等。智能家居设备可以包括诸如智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、VR(Virtual Reality，虚拟现实)设备、AR(Augmented Reality，增强现实设备)、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。

需要说明的是，上述图像分类装置除了在线上进行图像分类之外，也可以采用离线的方式进行图像分类，例如针对批量的待分类图像分别进行图像分类。

应该理解，图1中的模型训练装置、图像分类装置、图像分类模型和用户终端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、图像分类装置、图像分类模型和用户终端。

图2为本申请实施例提供的图像分类方法的流程图，该方法可以由图1所示系统中的图像分类装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待分类的图像。

步骤204：对待分类的图像进行特征提取，得到图像中各Token(元素)的初始特征表示。

步骤206：对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征。

步骤208：利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征。

步骤210：利用第一全局特征和第一局部特征，进行第一融合处理，得到第一融合特征表示。

步骤212：利用第一融合特征表示，预测待分类的图像所包含第一对象的类别。

由上述流程可以看出，本申请一方面通过对图像中各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征，另一方面利用第一自注意力处理过程中的注意力矩阵，能够得到图像中各Token的第一注意力权重，并据此选择对图像所包含第一对象分类比较重要的Token的第一特征表示作为第一局部特征，使得在预测图像所包含第一对象的类别时能够同时考虑图像所表现的全局特征和局部特征，有效地从噪声背景中突出重要的局部特征，从而提高图像分类的准确性。

下面对上述各步骤进行详细描述。需要说明的是，本申请实施例中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分。例如“第一自注意力处理”、“第二自注意力处理”和“第三自注意力处理”用以在名称上区分三个自注意力处理过程。再例如，“第一特征表示”、“第二特征表示”和“第三特征表示”用以在名称上区分三个特征表示。再例如，“第一全局特征”、“第二全局特征”和“第三全局特征”用以在名称上区分三个全局特征。等等。

首先结合实施例对上述步骤202即“获取待分类的图像”进行详细描述。

在本申请中涉及的待分类的图像可以是二维图像，也可以是三维图像。可以是灰度图像，也可以是彩色图像。

在不同的应用领域待分类的图像可以包含不同的内容。例如，在地质领域，待分类的图像可以是遥感图像，通过对包含一些地表元素的遥感图像进行分类，目的是可以确定出图像中的矿产类别。再例如，在医学领域，图像通常为医学影像，例如针对动物体身体部位拍摄的照片、CT(ComputedTomography，断层扫描图像)、MRI(Magnetic ResonanceImaging，核磁共振图像)、超音波检查图像等，图像分类的目的可以是确定图像中病灶对应的疾病类别。等等。

上述流程中的步骤204～212可以由预先训练得到的图像分类模型实现。如图3中所示，本申请实施例提供的图像分类模型可以主要包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块。

其中，上述步骤204即“对待分类的图像进行特征提取，得到图像中各Token(元素)的初始特征表示”可以由上述特征提取模块执行。

上述特征提取模块主要由嵌入网络和主干网络构成。

在主干网络之前，可以首先由嵌入网络对待分类的图像进行基于Token的Embedding(嵌入)处理，得到各Token的嵌入表示，将各Token的嵌入表示提供给主干网络，由主管网络进一步对各Token的嵌入表示进行编码处理，得到图像的初始特征表示。

图像的各Token指的是构成图像的元素。对于图像而言，将图像切分成不重叠的图块(Patch)构成图块序列，则图像中的图块以及序列的起始符均为Token。对于二维图像而言，其中的图块可以由一个或多个像素构成。对于三维图像而言，其中的图块可以由一个或多个体素构成。例如，对于384×384大小的图像，可以将其划分为576个大小相同且不重叠的图块，每个图块的大小为16×16。

上述基于Token的Embedding处理至少包括：图像Embedding和位置Embedding。图像Embedding，即将各Token进行图向量编码，得到图向量表示。图向量表示包括起始符Token的图向量表示和各图块的各图向量表示。位置Embedding，即将各Token在图块序列中的位置进行编码，得到位置的表示。位置的表示包括起始符Token的图向量表示和各图块的各图向量表示。将图向量表示和位置的表示加在一起，得到图像中各Token的嵌入表示。

主干网络可以基于Transformer(转换)网络实现，作为其中一种可实现的方式，可以采用ViT(VisionTransformer，视觉转换)模型。例如通过10层串连的Transformer网络实现图像特征的提取，得到待分类的图像中各Token(元素)的特征表示，该特征表示称为初始特征表示。

上述步骤206即“对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征”可以由上述第一表征模块执行。第一表征模块可以由Transformer网络实现，例如通过两层串连的Transformer层，对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征，包括起始符Token的第一特征表示g_d和各图块Token的第一特征表示p_d，其中/>为第i个图块Token的第一特征表示，N为待分类的图像中的图块数量。

上述步骤208即“利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征”可以由上述第一定位模块执行。

作为其中一种可实现的方式，可以从第一自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用获取的注意力权重向量的点积，确定各图块Token的第一互注意力权重，第一互注意力权重体现的是Token对于待分类的图像所包含第一对象分类的重要程度。

例如，可以将第一表征模块中各层Transformer进行自注意力处理得到的注意力矩阵中的第一行的向量和第一列的向量提取出来。第一行的向量去掉第一个元素后，得到的向量中各元素为起始符Token对于各图块Token的注意力分数。如果各层Transformer采用的是多头自注意力处理，则可以将多头对应的注意力分数分别求平均。第一列的向量去掉第一个元素后，得到的向量中各元素为各图块Token对起始符Token的注意力分数。如果各层Transformer采用的是多头自注意力处理，则可以将多头对应的注意力分数分别求平均。对于一个图块Token而言，起始符Token对于该图块Token的注意力分数与该图块Token对起始符Token的注意力分数相乘，得到该图块Token的第一互注意力权重。第一互注意力权重越大，说明该图块Token对于待分类图像所包含第一对象的分类越重要。

由于第一互注意力权重体现的是Token对于待分类的图像所包含第一对象分类的重要程度，因此可以选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征，表示为例如选择第一互注意力权重排在前M个的图块Token，M为预设的正整数，诸如取24。再例如可以选择第一互注意力权重大于或等于预设权重阈值的图块Token，等等。

上述步骤210即“利用第一全局特征和第一局部特征，进行第一融合处理，得到第一融合特征表示”可以由上述第一融合模块执行。

作为其中一种可实现的方式，第一融合模块在进行第一融合处理时，可以将第一全局特征和第一局部特征进行拼接，得到第一融合特征表示。还可以采用其他融合方式。

上述步骤212即“利用第一融合特征表示，预测待分类的图像所包含第一对象的类别”可以由上述第一预测模块执行。上述第一预测模块用以实现从第一融合特征表示到第一对象的类别映射，可以采用诸如全连接层等来实现，输出针对第一对象的类别预测结果y_d。

由于第一预测模块是依据第一融合模块得到的第一融合特征表示对待分类的图像所包含第一对象的类别进行预测，因此为了提高预测准确性，本申请实施例提供了更进一步的优选实施方式。如图4中所示，图像分类模型还可以进一步包括第二表征模块。

第二表征模块用以对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征。第二表征模块也可以由Transformer网络实现，例如通过两层串连的Transformer层，对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征，包括起始符Token的第二特征表示g_b和各图块Token的第二特征表示p_b，其中/>为第i个图块Token的第二特征表示。

这种情况下，第一融合模块在进行第一融合处理时，进一步结合第二全局特征。例如将第一全局特征、第一局部特征和第二全局特征进行拼接，得到第一融合特征表示。还可以采用其他融合方式。

更进一步地，如图3中所示，图像分类模型还可以进一步包括第二预测模块。第二预测模块用以利用第一全局特征预测待分类的图像所包含第二对象的类别。作为其中一种可实现的方式，第二预测模块可以利用其中的起始符Token的第二特征表示g_b来预测第二对象的类别。在本申请实施例中，第二对象和第一对象均包含于待分类的图像中，且第二对象和第一对象之间存在一定的关联，例如，第一对象可以位于第二对象的区域，后续将以具体的实例进行举例说明。

上述第二预测模块用以实现从第二全局特征到第二对象的类别映射，可以采用诸如全连接层等来实现，输出针对第二对象的类别预测结果y_b。该预测结果可以为针对第一对象的类别预测结果提供可解释性。

如图4中所示，图像分类模型还可以进一步包括第三表征模块和第三定位模块。

第三表征模块用以对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征。第三表征模块可以由Transformer网络实现，例如通过两层串连的Transformer层，对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征，包括起始符Token的第三特征表示g_a和各图块Token的第三特征表示p_a，其中/>为第i个图块Token的第三特征表示，N为待分类的图像中的图块数量。

第三定位模块用以利用第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，第三互注意力权重体现Token对于待分类的图像所包含第三对象分类的重要程度，其中第三对象可以是第一对象的属性。选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征。

第三定位模块的处理与第一定位模块类似，作为其中一种可实现的方式，可以从第三自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用获取的注意力权重向量的点积，确定各图块Token的第三互注意力权重。

例如，可以将第三表征模块中各层Transformer进行自注意力处理得到的注意力矩阵中的第一行的向量和第一列的向量提取出来。第一行的向量去掉第一个元素后，得到的向量中各元素为起始符Token对于各图块Token的注意力分数。如果各层Transformer采用的是多头自注意力处理，则可以将多头对应的注意力分数分别求平均。第一列的向量去掉第一个元素后，得到的向量中各元素为各图块Token对起始符Token的注意力分数。如果各层Transformer采用的是多头自注意力处理，则可以将多头对应的注意力分数分别求平均。对于一个图块Token而言，起始符Token对于该图块Token的注意力分数与该图块Token对起始符Token的注意力分数相乘，得到该图块Token的第三互注意力权重。第三互注意力权重越大，说明该图块Token对于待分类图像所包含第三对象的分类越重要。

由于第三互注意力权重体现的是Token对于待分类的图像所包含第三对象分类的重要程度，因此可以选择第三互注意力权重满足第一预设要求的Token的第三特征表示作为第三局部特征，表示为例如选择第三互注意力权重排在前M个的图块Token，M为预设的正整数，诸如取24。再例如可以选择第三互注意力权重大于或等于预设权重阈值的图块Token，等等。

这种情况下，第一融合模块在进行第一融合处理时，进一步结合第三全局特征和第三局部特征。

更进一步地，图像分类模型还可以进一步包括第三融合模块和第三预测模块。

第三融合模块用以利用第三全局特征和第三局部特征进行第二融合处理，得到第二融合特征表示。第三预测模块利用第二融合特征表示预测第三对象的类别。

上述第三预测模块用以实现从第二融合特征表示到第三对象的类别映射，可以采用诸如全连接层等来实现，输出针对第三对象的类别预测结果y_a。该预测结果可以为针对第一对象的类别预测结果提供可解释性。

如图4中所示，主干网络是第一表征模块、第二表征模块和第三表征模块的共享网络，主干网络输出的初始特征表示并行经过三个分支的处理。其中，第一表征模块、第一定位模块、第一融合模块和第一预测模块对应的分支是必要的分支。另外两个分支即第二表征模块和第二预测模块对应的分支，以及第三表征模块、第三定位模块、第三融合模块和第三预测模块对应的分支。这两个分支是可选的分支，图像分类模型可以仅包括这两个分支中的一个，也可以都包含。图4中以同时包含三个分支为例。在这种情况下，第一融合模块实际上是对第一全局特征、第一局部特征、第二全局特征、第三全局特征和第三局部特征进行融合。

作为其中一种可实现的方式，第一融合模块可以直接将这些特征进行拼接，得到第一融合特征表示。

作为另一种更优的实现方式，第一融合模块可以利用第一全局特征表示和第二全局特征表示进行交叉注意力处理，利用第一全局特征表示和第三全局特征表示进行交叉注意力处理，以及利用第一局部特征表示和第三局部特征表示进行交叉注意力处理；利用各交叉注意力处理的结果，得到第一融合特征表示。

图5示出了第一融合模块的一种可实现的方式，可以将g_b和经过注意力处理块进行交叉注意力处理，得到/>将/>和g_d经过注意力处理块进

行交叉注意力处理，得到将/>和/>经过注意力模块进行交叉注意力处理，得到/>将g_a和/>经过注意力处理块进行交叉注意力处理，得到/>将l_a和/>经过注意力处理块进行交叉注意力处理，得到/>将和l_d经过注意力处理块进行交叉注意力处理，得到/>再将和/>进行相加，得到第一融合特征表示。

图6为本申请实施例提供的训练图像分类模型的方法流程图，该方法流程可以由图1所示系统中的模型训练装置执行。如图6中所示，该方法可以包括以下步骤：

步骤602：获取包含多个训练样本的训练数据，训练样本包括图像样本以及该图像样本所包含第一对象的类别标签。

可以获取一些已知第一对象的类别的图像作为图像样本，对这些图像样本进行归一化处理后，构成训练数据。也可以获取一些包含第一对象的图像作为图像样本，对这些图像样本进行归一化处理后人工进行第一对象的类别标签的标注，以构成训练数据。还可以采用其他方式获取图像样本，不做一一列举。

上述对图像样本进行的归一化处理可以包括同一图像样本的分辨率、缩放到统一尺寸，并进行像素值的归一化等等。

更进一步地，上述训练样本还可以包括图像样本所包含第二对象的类别标签，和/或，第三对象的类别标签。其中第二对象和第一对象存在一些特定关联，例如第一对象位于第二对象的区域，第三对象可以为第一对象的属性。

步骤604：利用训练数据训练图像分类模型，图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示；第一表征模块对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；第一定位模块利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；第一融合模块利用第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示；第一预测模块利用第一融合特征表示，预测图像样本所包含第一对象的类别；训练的目标包括：最小化预测得到的图像样本所包含第一对象的类别与对应类别标签之间的差异。

作为其中一种可实现的方式，第一定位模块可以从注意力矩阵中获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用获取的注意力权重向量的点积，确定各图块Token的第一互注意力权重。

若采用图3所示的图像分类模型，则可以针对上述训练目标(即最小化y_d与对应第一对象标签之间的差异)构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

在上述训练过程中，由于选择对图像样本所包含第一对象分类比较重要的Token的第一特征表示作为第一局部特征，使得在预测图像样本所包含第一对象的类别时能够同时学习图像所表现的全局特征和局部特征，有效地从噪声背景中突出重要的局部特征，从而提高模型的准确性。其中第一局部特征的提取使得在模型训练过程中无需额外针对第一对象的区域进行标注，也能够有效突出第一对象区域的重要性，降低了因被标注问题所带来的人工成本。

更进一步地，图像分类模型还可以包括第二表征模块，如图4中所示。第二表征模块用以对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征。这种情况下，第一融合模块在进行第一融合处理时进一步结合第二全局特征。

这种情况下，图像分类模型还可以包括第二预测模块，第二预测模块利用第一全局特征预测图像样本所包含第二对象的类别。训练的目标还可以包括：最小化预测得到的图像样本所包含第二对象的类别与对应类别标签之间的差异。在本申请实施例中，第二对象和第一对象均包含于待分类的图像中，且第二对象和第一对象之间存在一定的关联，例如，第一对象可以位于第二对象的区域。

第三表征模块对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征。第三定位模块利用第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重。第三互注意力权重体现Token对于图像样本所包含第三对象分类的重要程度。然后选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征。

这种情况下，第一融合模块在进行第一融合处理时，可以进一步结合第三全局特征和第三局部特征。

图像分类模型还可以包括第三预测模块，第三预测模块利用第三全局特征和第三局部特征进行第二融合处理，得到第二融合特征表示，利用第二融合特征表示预测第三对象的类别，训练的目标还可以包括：最小化预测得到的第三对象的类别与对应类别标签之间的差异。

如图4中所示，特征提取模块是第一表征模块、第二表征模块和第三表征模块的共享网络，主干网络输出的初始特征表示并行经过三个分支的处理。其中，第一表征模块、第一定位模块、第一融合模块和第一预测模块对应的分支是必要的分支。另外两个分支即第二表征模块和第二预测模块对应的分支，以及第三表征模块、第三定位模块、第三融合模块和第三预测模块对应的分支。这两个分支是可选的分支，图像分类模型可以仅包括这两个分支中的一个，也可以都包含。图4中以同时包含三个分支为例。在这种情况下，第一融合模块实际上是对第一全局特征、第一局部特征、第二全局特征、第三全局特征和第三局部特征进行融合。

以图4为例，当同时包含三个分支时，对于第二对象的类型和第三对象的类型的预测可以用以对第一对象的类型的预测进行辅助训练。此时可以设计一个总损失函数L：

L＝L_d+L_a+L_b

其中，L_d体现预测的第一对象的类别y_d与对应第一对象的类别标签之间的差异，L_b体现预测的第二对象的类别y_b与对应第二对象的类别标签之间的差异，L_a体现预测的第三对象的类别y_a与对应第三对象的类别标签之间的差异。上述L_d、L_b和L_a均可以采用交叉熵损失函数。

或者，采用L＝L_d+L_a+L_b+L_d'

其中，L_d'体现仅利用第一全局特征和第一局部特征对第一对象的类别进行预测得到的预测结果与对应第一对象的类别标签之间的差异，也可以采用交叉熵损失函数。

上述涉及到的模型结构和各模块的具体处理可以参见之前针对图像分类方法实施例中针对图3和图4的相关记载，在本实施例中不做赘述。

本申请实施例提供的上述方法可以应用于多种应用场景的图像分割。例如地质领域的矿产勘探场景，这种场景下，待分类图像可以为包含一些地表元素的遥感图像。对应的第一对象为矿产，即识别矿产类别。第二对象可以为地理区域的类型，第三对象为矿产的属性。还可以应用于其他场景，在此以医学场景为例对上述方法进行详细地举例描述。

皮肤是人体最大的器官，其直接同外界环境接触，对人体具有保护、排泄、调节体温和感受外界刺激等作用。由于理化因素、病原体感染、内分泌代谢及退行性改变等因素，会使皮肤功能出现障碍，导致出现各种皮肤病。目前，皮肤病是第四大非致死性疾病，影响着世界上近三分之一的人口，并能够广泛流行。然而，皮肤科医生仍然存在着巨大缺口，如果能够利用针对皮肤采集的图像对病灶进行分类，从而获得病灶对应类别的中间数据，以提供给皮肤科医师进行辅助诊疗，或者能够为患者提供参考以决定是否及时就医进行治疗，那将会极大降低医生的压力。

然而，目前基于图像对皮肤病灶进行分类的技术主要面临三个挑战：1)针对皮肤采集的图像通常会包含不相关的环境信息，从而造成针对皮肤病灶的分类准确性很低。2)皮肤病灶外观上的类内差异较大，类间差异较小，很容易误分类为外观相近的其他疾病。3)皮肤科医生的判断逻辑是经验性和复杂的，难以被模拟和建模。

传统基于图像对皮肤病灶进行分类的技术通常需要先进行皮肤病灶的区域定位，例如采用目标检测算法或分割算法预测皮肤病灶的bounding box(边缘框)或mask(掩膜)，然后基于卷积神经网路提取的特征和基于该特征定位的区域进行分类。但这种方式中分类准确率受到目标检测算法或分割算法的限制，并且在模型训练时需要额外针对皮肤病灶的区域进行标注，人工标注成本高。

有鉴于此，可以采用本申请实施例提供的上述方法来针对图像进行皮肤病灶的分类。图7为本申请实施例提供的应用于医疗场景下进行皮肤病灶的分类方法流程图，如图7中所示，该方法可以包括以下步骤：

步骤702：获取针对包含皮肤病灶的身体部位拍摄的图像。

本步骤中获取的图像指的是在获取患者授权后，针对身体部位的皮肤拍摄的图像，用以确定皮肤病灶的类别。例如患者胳膊皮肤上有疑似病灶，则可以对此胳膊部位进行拍摄，并上传至服务端。由服务端的图像分类装置将该图像输入图像分类模型进行分类。

后续步骤均可以由图像分类模型来实现。

步骤704：对图像进行特征提取，得到图像中各Token的初始特征表示。

本步骤由图4中所示的特征提取模块执行。在主干网络之前，可以首先由嵌入网络对待分类的图像进行基于Token的Embedding(嵌入)处理，得到各Token的嵌入表示，将各Token的嵌入表示提供给主干网络，由主干网络进一步对各Token的嵌入表示进行编码处理，得到图像的第一特征表示。

上述特征提取模块可以作为以下三个分支共享的特征提取模块，主干网络输出的初始特征表示分别输出给三个分支，包括：病灶分支、身体部位分支和病灶属性分支。其中，病灶分支是必要的分支，身体部位分支和病灶属性分支可以选择其中的一个分支或者同时包含。后续实施例中以同时包含上述三个分支为例进行描述。

为了方面理解和描述，首先对身体部位分支和病灶属性分支进行描述。身体部位分支对应步骤706～708：

步骤706：对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征。

本步骤可以由图4所示图像分类模型中的第二表征模块执行。这里的第二特征表示体现的是身体部位的特征。

步骤708：利用第二全局特征预测图像所包含身体部位的类别。

本步骤可以由图4所示图像分类模型中的第二预测模块执行。本实施例中，身体部位对应第二对象，通常是图像中包含的身体部位，也就是病灶所在的身体部位。身体部位可以是诸如脸部、头部、颈部、胳膊、腿、腹部等等具有皮肤的身体部位。病灶属性分支对应步骤710～714：

步骤710：对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征。

本步骤可以由图4所示图像分类模型中的第三表征模块执行。这里的第三特征表示体现的是病灶属性的特征。

步骤712：利用第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，第三互注意力权重体现Token对于图像所包含病灶属性的分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征。

本步骤可以由图4所示图像分类模型中第三定位模块执行。

步骤714：利用第三全局特征和第三局部特征进行第二融合处理，得到第二融合特征表示，利用第二融合特征表示预测病灶属性的类别。

本步骤可以由图4所示图像分类模型中的第三融合模块和第三预测模块执行。所谓病灶属性指的是病灶所具有的性质或表现。在本实施例中可以是诸如：斑疹、斑块、丘疹、风团、水疱、脓疱、结节、鳞屑、糜烂、溃疡、皴裂、囊肿等。

病灶分支对应步骤716～720。

步骤716：对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征。

本步骤可以由图4所示图像分类模型中第一表征模块执行。各Token的第一特征表示体现的是病灶的特征，本实施例中的病灶指的是皮肤病或皮肤损伤(简称皮损)。

步骤718：利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于图像所包含病灶分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征。

本步骤可以由图4所示图像分类模型中第一定位模块执行。

步骤720：利用三个分支得到的第一全局特征、第一局部特征、第二全局特征、第三全局特征和第三局部特征进行第一融合处理，得到第一融合特征表示；利用第一融合特征表示，预测图像所包含病灶的类别。

本步骤可以由图4所示图像分类模型中第一融合模块执行。作为其中一种可实现的方式，第一融合模块可以直接将这些特征进行拼接，得到第一融合特征表示。

本实施例以同时包含病灶分支、身体部位分支和病灶属性分支为例，若图像分类模型中仅包含病灶分支，则本步骤仅针对第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示。若图像分类模型中仅包含病灶分支和身体部位分支，则本步骤针对第一全局特征、第一局部特征和第二全局特征进行第一融合处理，得到第一融合特征表示。若图像分类模型中仅包含病灶分支和病灶属性分支，则本步骤针对第一全局特征、第一局部特征、第三全局特征和第三局部特征进行第一融合处理，得到第一融合特征表示。

身体部位分支用以从图像中提取体现身体部位的特征，以进行身体部位的预测。病灶属性分支用以从图像中提取体现病灶属性的特征，以进行病灶属性的预测。病灶分支用以从图像中提取体现病灶的特征，并结合身体部位的特征和病灶属性的特征，综合预测病灶类型。该过程更加符合皮肤病医生的逻辑，即结合病灶所在身体部位和病灶属性，以判断病灶的具体类型。例如，发生在腰部，具有丘疹、风团属性的病灶大概率为荨麻疹。也就是说，结合病灶特征、身体部位的特征和病灶属性的特征，综合预测病灶类型能够显著提高病灶分类的准确率。

经患者授权使用相机或手机拍摄患者的皮肤病灶部位进行拍摄得到图像后，对图像进行诸如统一分辨率、尺寸、像素值等归一化处理方式后得到图像样本构成的数据集。依据皮肤科医生对图像样本进行病灶类别的标注，还可以进一步进行身体部位类别和病灶属性类别的标注，得到病灶类别标签、身体部位类别标签和病灶属性类别标签。也可以采用一些已有数据集，例如Derm-49数据集、SD-198数据集、PAD-UFES-20数据集等，其中Derm-49数据集、SD-198数据集、PAD-UFES-20数据集等均是由患者数据和从智能手机收集的临床图像组成的皮肤病变数据集。将数据集按照4:1的比例划分为训练数据集和测试数据集。采用图6所示流程进行训练后，得到图像分类模型，然后利用该图像分类模型在测试数据集上进行测试。测试结果如下：

Derm-49数据集共包含图像57246张，其中训练数据集包含图像45796张，测试数据集包含图像11450张。测试得到的F1分数为78.8±0.5％，精确率为83.5±0.6％，召回率为74.6±1.1％，准确率为82.6±0.5％。

SD-198数据集，包括198种皮肤病，6584张图像。这些图像在颜色、外观、光照和规模上各不相同，涵盖了各种不同属性、皮肤病和皮肤病的不同阶段的患者。其中训练数据集包含图像5267张，测试数据集包含图像1317张。测试得到的F1分数为73.6±2.6％，精确率为76.1±2.6％，召回率为75.1±2.2％，准确率为74.5±2.6％。

PAD-UFES-20数据集共包含图像2298张，其中训练数据集包含图像1838张，测试数据集包含图像460张。测试得到的F1分数为74.5±2.5％，精确率为73.9±2.9％，召回率为75.0±2.1％，准确率为75.0±2.1％。

其中，F1分数(F1 Score)又称平衡F分数，被定义为精确率和召回率的调和平均数，精确率(Precision)为被预测为某第一对象类别的实例中实际为该类别的比例，召回率为预测为某第一对象类别的实例占实际该类别的实例的比例，准确率(Accuracy)为所有预测正确的第一对象类别占总实例的比重。

可见通过本申请实施例提供的方法能够在上述数据集上均取得较好的分类效果，能够作为中间数据提供给医生或患者，为医生或患者提供参考或提醒。

更进一步地，身体部位的类别预测结果和病灶属性的类别预测结果可以连同病灶类别预测结果一起输出，从而为病灶类别的预测结果提供可解释性。

在之前针对图1所示系统架构的描述中已经提及，本申请实施例提供的上述方法可以由云端服务器执行，也就是说在云端集成图像分类的功能。作为其中一种可实现的方式，云端服务器可以获取来自用户终端的待分类的图像；对待分类的图像进行特征提取，得到图像中各Token的初始特征表示；对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；利用第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示；利用第一融合特征表示，预测待分类的图像所包含第一对象的类别；将包含第一对象的类别的预测结果返回给用户终端。

相应地，对于用户终端而言，可以向用户提供图像输入界面；获取用户通过图像输入界面输入的图像作为待分类的图像；将待分类的图像发送至服务器端，并获取服务器端返回的预测结果，所述预测结果包括待分类的图像所包含第一对象的类别信息；向用户展现待分类的图像所包含第一对象的类别信息。

上述实现过程可以采用C(Client，客户端)/S(Server，服务器端)架构，也可以采用B(Browser，浏览器)/S架构，等等。

用户终端向用户提供的图像输入界面可以是图形用户界面，也可以是页面。其中页面也可以称为Web页面，可以是基于超文本标记语言(HyperText Markup Language，HTML)编写的网页(Web Page)，即HTML页面，或者还可以是基于HTML和Java语言编写的网页，即Java服务器页面(Java Server Page，JSP)，或者还可以为其他语言编写的网页，本实施例对此不进行特别限定。

页面可以包括由一个或者多个页面标签例如，HTML标签、JSP标签等，定义的一个显示区块，称为页面元素，例如，文字、图片、超链接、控件、输入框、下拉框等，本实施例对此不进行特别限定。用户可以通过触发特定的页面元素输入图像，该图像可以是通过与用户终端所连接的图像采集设备采集到的图像，也可以是用户终端本地的图像，还可以是其他设备传输给该用户终端的图像，等等。

本申请所涉及的展现操作，可以包括但不限于渲染操作与显示操作中至少一项操作，本实施例对此不进行特别限定。具体地，用户终端所展现的内容，就是渲染操作所输出的渲染结果，渲染操作可以由服务器中的渲染引擎根据目标页面(包含上述第一对象的类别信息)的页面源代码执行，进而将渲染结果以位图图像形式，或者矢量图像等其他形式，进行存储处理，并提供给用户终端输出该渲染结果，或者还可以由用户终端根据目标页面的页面源代码执行，进而直接输出渲染结果。

上述预测结果中除了包含第一对象的类别之外，还可以包含待分类的图像所包含第二对象的类别和/或第三对象的类别。其中，第一对象位于所述第二对象的区域，第三对象为第一对象对应的属性。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种图像分类装置。图8示出根据一个实施例的图像分类装置的示意性框图，该装置设置于图1所示架构中的图像分类装置。如图8所示，该装置800包括：图像获取模块801、特征提取模块802、第一表征模块803、第一定位模块804、第一融合模块805和第一预测模块806；还可以进一步包括第二表征模块807、第二预测模块808、第三表征模块809、第三定位模块810、第三融合模块811和第三预测模块812。其中各组成单元的主要功能如下：

图像获取模块801，被配置为获取待分类的图像。

特征提取模块802，被配置为对待分类的图像进行特征提取，得到图像中各Token的初始特征表示。

第一表征模块803，被配置为对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征。

第一定位模块804，被配置为利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征。

第一融合模块805，被配置为利用第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示。

第一预测模块806，被配置为利用第一融合特征表示，预测待分类的图像所包含第一对象的类别。

作为其中一种可实现的方式，上述特征提取模块802包括上述特征提取模块主要由嵌入网络和主干网络构成。

作为其中一种可实现的方式，第一定位模块804在利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重时，具体执行：

从注意力矩阵中获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；

作为其中一种可实现的方式，第二表征模块807，被配置为对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征。

相应地，第一融合模块805在进行第一融合处理时进一步结合第二全局特征。

更进一步地，第二预测模块808，被配置为利用第二全局特征预测待分类的图像所包含第二对象的类别，第一对象位于第二对象的区域。

作为另一种可实现的方式，第三表征模块809，被配置为对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征。

第三定位模块810，被配置为利用第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，第三互注意力权重体现Token对于待分类的图像所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征。

相应地，第一融合模块805在进行第一融合处理时，进一步结合第三全局特征和第三局部特征。

更进一步地，第三融合模块811，被配置为利用第三全局特征和第三局部特征进行第二融合处理，得到第二融合特征表示。

第三预测模块812，被配置为利用第二融合特征表示预测第三对象的类别，第三对象为第一对象对应的属性。

作为其中一种可实现的方式，第一融合处理进一步结合第二全局特征、第三全局特征和第三局部特征，则第一融合模块805可以具体被配置为：利用第一全局特征表示和第二全局特征表示进行交叉注意力处理，利用第一全局特征表示和第三全局特征表示进行交叉注意力处理，以及利用第一局部特征表示和第三局部特征表示进行交叉注意力处理；利用各交叉注意力处理的结果，得到第一融合特征表示。

根据再一方面的实施例，提供了一种训练图像分类模型的装置。图9示出根据一个实施例的训练图像分类模型的装置示意性框图，该装置设置于图1所示架构中的模型训练装置。如图9所示，该装置900包括：样本获取单元901和模型训练单元902。其中各组成单元的主要功能如下：

样本获取单元901，被配置为获取包含多个训练样本的训练数据，训练样本包括图像样本以及该图像样本所包含第一对象的类别标签。

模型训练单元902，被配置为利用训练数据训练图像分类模型，图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示；第一表征模块对各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；第一定位模块利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重，第一互注意力权重体现Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；第一融合模块利用第一全局特征和第一局部特征进行第一融合处理，得到第一融合特征表示；第一预测模块利用第一融合特征表示，预测图像样本所包含第一对象的类别；训练的目标包括：最小化预测得到的图像样本所包含第一对象的类别与对应类别标签之间的差异。

作为其中一种可实现的方式，第一定位模块在利用第一自注意力处理过程中得到的注意力矩阵，得到各Token的第一互注意力权重时，可以从注意力矩阵中获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用获取的注意力权重向量的点积，确定各图块Token的第一互注意力权重。

更进一步地，作为其中一种可实现的方式，图像分类模型还可以包括第二表征模块，第二表征模块对各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征。

相应地，第一融合模块在进行第一融合处理时进一步结合第二全局特征。

这种情况下，上述训练样本还可以包括图像样本所包含第二对象的类别标签，图像分类模型还包括第二预测模块，第二预测模块利用第一全局特征预测图像样本所包含第二对象的类别，第一对象位于第二对象的区域，训练的目标还包括：最小化预测得到的图像样本所包含第二对象的类别与对应类别标签之间的差异。

更进一步地，作为另一种可实现的方式，图像分类模型还可以包括第三表征模块和第三定位模块。

第三表征模块对各Token的初始特征表示进行第三自注意力处理，得到各Token的第三特征表示作为第三全局特征。

第三定位模块利用第三自注意力处理过程中得到的注意力矩阵，得到各Token的第三互注意力权重，第三互注意力权重体现Token对于图像样本所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征。

第一融合模块在进行第一融合处理时，进一步结合第三全局特征和第三局部特征。

这种情况下，训练样本还可以包括第三对象的类别标签，第三对象为第一对象的属性，图像分类模型还包括第三预测模块。

第三预测模块利用第三全局特征和第三局部特征进行第二融合处理，得到第二融合特征表示，利用第二融合特征表示预测第三对象的类别，训练的目标还包括：最小化预测得到的第三对象的类别与对应类别标签之间的差异。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图10示例性的展示出了电子设备的架构，具体可以包括处理器1010，视频显示适配器1011，磁盘驱动器1012，输入/输出接口1013，网络接口1014，以及存储器1020。上述处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020之间可以通过通信总线1030进行通信连接。

其中，处理器1010可以采用通用的CPU、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(RandomAccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储用于控制电子设备1000运行的操作系统1021，用于控制电子设备1000的低级别操作的基本输入输出系统(BIOS)1022。另外，还可以存储网页浏览器1023，数据存储管理系统1024，以及图像分类装置/模型训练装置1025等等。上述图像分类装置/模型训练装置1025就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1013用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1014用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1030包括一通路，在设备的各个组件(例如处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，存储器1020，总线1030等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

获取待分类的图像；

对所述待分类的图像进行特征提取，得到所述图像中各Token的初始特征表示，所述各Token包括图块Token和起始符Token，所述图块Token为对所述待分类的图像进行切分得到的图块，所述起始符Token为由切分得到的图块构成的图块序列的起始符；

从所述第一自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用所述起始符Token对各图块Token的注意力权重向量和所述各图块Token对起始符Token的注意力权重向量之间的点积，确定各图块Token的第一互注意力权重，其中，Token的第一互注意力权重体现该Token对于所述待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述各Token的初始特征表示进行第二自注意力处理，得到所述各Token的第二特征表示作为第二全局特征；在进行所述第一融合处理时进一步结合所述第二全局特征；和/或，

对所述各Token的初始特征表示进行第三自注意力处理，得到所述各Token的第三特征表示作为第三全局特征；从所述第三自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量之间的点积，得到各图块Token的第三互注意力权重，其中，Token的第三互注意力权重体现该Token对于所述待分类的图像所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征；在进行所述第一融合处理时，进一步结合所述第三全局特征和所述第三局部特征。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.一种训练图像分类模型的方法，其特征在于，所述方法包括：

利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；所述特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示，所述各Token包括图块Token和起始符Token，所述图块Token为对所述图像样本进行切分得到的图块，所述起始符Token为由切分得到的图块构成的图块序列的起始符；所述第一表征模块对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；所述第一定位模块从所述第一自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用所述起始符Token对各图块Token的注意力权重向量和所述各图块Token对起始符Token的注意力权重向量之间的点积，确定各图块Token的第一互注意力权重，其中，Token的第一互注意力权重体现该Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；所述第一融合模块利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；所述第一预测模块利用所述第一融合特征表示，预测图像样本所包含第一对象的类别；

5.根据权利要求4所述的方法，其特征在于，所述图像分类模型还包括第二表征模块，所述第二表征模块对所述各Token的初始特征表示进行第二自注意力处理，得到各Token的第二特征表示作为第二全局特征；所述第一融合模块在进行所述第一融合处理时进一步结合所述第二全局特征；和/或，

所述图像分类模型还包括第三表征模块和第三定位模块；所述第三表征模块对所述各Token的初始特征表示进行第三自注意力处理，得到所述各Token的第三特征表示作为第三全局特征；所述第三定位模块从所述第三自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量之间的点积，得到各图块Token的第三互注意力权重，其中，Token的第三互注意力权重体现该Token对于所述图像样本所包含第三对象分类的重要程度，选择第三互注意力权重满足第三预设要求的Token的第三特征表示作为第三局部特征；所述第一融合模块在进行所述第一融合处理时，进一步结合所述第三全局特征和所述第三局部特征。

6.根据权利要求5所述的方法，其特征在于，所述训练样本还包括图像样本所包含第二对象的类别标签，所述图像分类模型还包括第二预测模块，所述第二预测模块利用所述第一全局特征预测图像样本所包含第二对象的类别，所述第一对象位于所述第二对象的区域，所述训练的目标还包括：最小化预测得到的所述图像样本所包含第二对象的类别与对应类别标签之间的差异；和/或，

7.一种图像分类方法，由云端服务器执行，其特征在于，所述方法包括：

获取来自用户终端的待分类的图像；

8.一种图像分类方法，由用户终端执行，其特征在于，所述方法包括：

向用户展示图像输入界面；

将所述待分类的图像发送至服务器端，并获取所述服务器端执行如权利要求1至3中任一项所述方法后返回的预测结果，所述预测结果包括所述待分类的图像所包含第一对象的类别信息；

向所述用户展示所述预测结果。

9.一种图像分类装置，其特征在于，所述装置包括：

图像获取模块，被配置为获取待分类的图像；

特征提取模块，被配置为对所述待分类的图像进行特征提取，得到所述图像中各Token的初始特征表示，所述各Token包括图块Token和起始符Token，所述图块Token为对所述待分类的图像进行切分得到的图块，所述起始符Token为由切分得到的图块构成的图块序列的起始符；

第一定位模块，被配置为从所述第一自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用所述起始符Token对各图块Token的注意力权重向量和所述各图块Token对起始符Token的注意力权重向量之间的点积，确定各图块Token的第一互注意力权重，其中，Token的第一互注意力权重体现该Token对于所述待分类的图像所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；

10.一种训练图像分类模型的装置，其特征在于，所述装置包括：

模型训练单元，被配置为利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取模块、第一表征模块、第一定位模块、第一融合模块和第一预测模块；所述特征提取模块对输入的图像样本进行特征提取，得到图像样本中各Token的初始特征表示，所述各Token包括图块Token和起始符Token，所述图块Token为对所述图像样本进行切分得到的图块，所述起始符Token为由切分得到的图块构成的图块序列的起始符；所述第一表征模块对所述各Token的初始特征表示进行第一自注意力处理，得到各Token的第一特征表示作为第一全局特征；所述第一定位模块从所述第一自注意力处理过程中得到的注意力矩阵中，获取起始符Token对各图块Token的注意力权重向量以及各图块Token对起始符Token的注意力权重向量；利用所述起始符Token对各图块Token的注意力权重向量和所述各图块Token对起始符Token的注意力权重向量之间的点积，确定各图块Token的第一互注意力权重，其中，Token的第一互注意力权重体现该Token对于图像样本所包含第一对象分类的重要程度，选择第一互注意力权重满足第一预设要求的Token的第一特征表示作为第一局部特征；所述第一融合模块利用所述第一全局特征和所述第一局部特征进行第一融合处理，得到第一融合特征表示；所述第一预测模块利用所述第一融合特征表示，预测图像样本所包含第一对象的类别；所述训练的目标包括：最小化预测得到的所述图像样本所包含第一对象的类别与对应类别标签之间的差异。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8中任一项所述的方法的步骤。