CN116958659A

CN116958659A - 图像分类方法、训练图像分类模型的方法及装置

Info

Publication number: CN116958659A
Application number: CN202310822213.1A
Authority: CN
Inventors: 夏英达; 袁铭泽; 张灵; 姚佳文; 裘茗烟; 董和鑫; 周靖人; 吕乐
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-27
Anticipated expiration: 2043-07-04
Also published as: CN116958659B

Abstract

本申请实施例公开了一种图像分类方法、训练图像分类模型的方法及装置。主要技术方案包括：获取待分类的图像；对所述待分类的图像进行特征提取，得到所述图像的特征表示；利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；利用所述图像的特征表示和所述多个聚类中心表示进行解码处理，得到类别分配矩阵；利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述待分类的图像是否属于目标类别的分类结果。通过本申请能够使得图像分类结果具有更高的准确率。

Description

图像分类方法、训练图像分类模型的方法及装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种图像分类的方法、训练图像分类模型的方法及装置。

背景技术

图像分类是根据图像的语义信息对不同类别的图像进行区分，是计算机视觉中重要的基础问题。图像分类在很多领域都有着广泛的应用，例如：交通领域的交通场景识别、电商领域的商品图像自动分类，医学领域的图像识别等等。

在一些特殊领域中对于图像分类的准确率和召回率具有较高的要求。虽然目前已经存在利用深度学习模型来对图像进行分类的相关技术，但分类结果的准确率仍有待提高。

发明内容

有鉴于此，本申请提供了一种图像分类的方法、训练图像分类模型的方法及装置，以便于提高图像分类结果的准确率。

本申请提供了如下方案：

第一方面，提供了一种图像分类方法，所述方法包括：

获取待分类的图像；

对所述待分类的图像进行特征提取，得到所述图像的特征表示；

利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；

利用所述图像的特征表示和所述多个聚类中心表示进行解码处理，得到类别分配矩阵；

利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述待分类的图像是否属于目标类别的分类结果。

根据本申请实施例中一可实现的方式，所述方法还包括：

利用所述类别分配矩阵对所述待分类的图像进行分割，得到预设类别的图像区域，所述预设类别包括所述目标类别。

根据本申请实施例中一可实现的方式，对所述待分类的图像进行特征提取，得到所述图像的特征表示包括：

对所述待分类的图像进行特征提取，得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为所述图像的特征表示。

根据本申请实施例中一可实现的方式，利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理包括：

利用多个聚类中心的初始表示得到查询矩阵，将查询矩阵输入多层串连的转换Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；

利用最后一层Transformer网络输出的查询矩阵得到所述多个聚类中心表示。

根据本申请实施例中一可实现的方式，利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括：

对所述多个聚类中心表示进行求平均处理，得到聚类平均表示；

对所述类别分配矩阵进行池化处理，得到聚类池化特征；

将所述聚类平均表示和所述聚类池化表示进行整合，利用整合得到的特征表示进行分类，得到所述待分类的图像是否属于目标类别的分类结果。

第二方面，提供了一种训练图像分类模型的方法，所述方法包括：

获取包括多个训练样本的训练数据，所述训练样本包括图像样本以及所述图像样本是否属于目标类别的标签；

利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取网络、第一解码网络、第二解码网络和分类网络；所述特征提取网络对所述图像样本进行特征提取，得到所述图像样本的特征表示；所述第一解码网络利用所述图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；所述第二解码网络利用所述图像样本的特征表示和所述多个聚类中心表示进行解码处理，得到类别分配矩阵；所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述图像样本是否属于目标类别的分类结果；所述训练的目标包括：最小化所述分类结果与对应标签之间的差异。

根据本申请实施例中一可实现的方式，所述训练样本还包括对所述图像样本标注的预设类别的区域掩码；所述图像分类模型还包括分割网络；

所述分割网络利用所述类别分配矩阵对所述图像样本进行分割，得到预设类别的图像区域，所述预设类别包括所述目标类别；

所述训练的目标还包括：最小化所述预设类别的图像区域与对应区域掩码之间的差异。

根据本申请实施例中一可实现的方式，所述特征提取网络对所述图像样本进行特征提取，得到所述图像样本的特征表示包括：对所述图像样本进行特征提取，依次得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为所述图像样本的特征表示；

所述第一解码网络包括多层串连的Transformer网络，所述多个聚类中心的初始表示作为查询矩阵输入第一层Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；利用最后一层Transformer网络输出的查询矩阵得到所述多个聚类中心表示。

根据本申请实施例中一可实现的方式，所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括：

所述分类网络对所述多个聚类中心表示进行求平均处理，得到聚类平均表示；

对所述类别分配矩阵进行池化处理，得到聚类池化表示；

将所述聚类平均表示和所述聚类池化表示进行整合，利用整合得到的特征表示进行分类，得到所述图像样本是否属于目标类别的分类结果。

第三方面，提供了一种图像分类方法，由云端服务器执行，所述方法包括：

获取来自用户终端的待分类的图像；

利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述待分类的图像是否属于目标类别的分类结果；

将所述分类结果返回给所述用户终端。

第四方面，提供了一种图像分类装置，所述装置包括：

图像获取单元，被配置为获取待分类的图像；

特征提取单元，被配置为对所述待分类的图像进行特征提取，得到所述图像的特征表示；

第一解码单元，被配置为利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；

第二解码单元，被配置为利用所述图像的特征表示和所述多个聚类中心表示进行解码处理，得到类别分配矩阵；

图像分类单元，被配置为利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述待分类的图像是否属于目标类别的分类结果。

第五方面，提供了一种训练图像分类模型的装置，所述装置包括：

样本获取单元，被配置为获取包括多个训练样本的训练数据，所述训练样本包括图像样本以及所述图像样本是否属于目标类别的标签；

模型训练单元，被配置为利用所述训练数据训练图像分类模型，所述图像分类模型包括：特征提取网络、第一解码网络、第二解码网络和分类网络；所述特征提取网络对所述图像样本进行特征提取，得到所述图像样本的特征表示；所述第一解码网络利用所述图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；所述第二解码网络利用所述图像样本的特征表示和所述多个聚类中心表示进行解码处理，得到类别分配矩阵；所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类，得到所述图像样本是否属于目标类别的分类结果；所述训练的目标包括：最小化所述分类结果与对应标签之间的差异。

根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。

根据第七方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面至第三方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1)本申请通过预先训练得到的多个聚类中心所包含的高水平的语义，与图像的特征表示共同进行解码处理，得到类别分配矩阵，使得类别分配矩阵能够体现与聚类中心关联的图像特征，即将图像特征匹配到相应的聚类中心，进而使得依据聚类中心表示和类别分配矩阵得到的图像分类结果具有更高的准确率和召回率。

2)本申请能够进一步利用类别分配矩阵对待分类的图像进行分割，得到预设类别的图像区域，从而为图像分类提供可解释性的参考。

3)本申请中通过提取多分辨率的特征，并利用多分辨率的特征多个聚类中心的初始表示进行交叉注意力处理，使得在得到多个聚类中心表示的过程中能够从多尺度感知图像纹理，并将多个聚类中心的特征表示与图像的特征表示进行重新分配，使得分类过程和分割过程既对局部语义敏感，又具有全局意识，更进一步提高图像分类和图像分割的准确率和召回率。

4)在训练图像分类模型的过程中，能够利用分割网络对图像样本进行分割得到的预设类别的图像区域与针对图像样本标注的预设类别的区域掩码之间的差异，对图像分类模型进行辅助训练，从而进一步提高图像分类模型的效果和性能。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为是本申请实施例所适用的系统架构图；

图2为本申请实施例提供的图像分类方法的流程图；

图3为本申请实施例提供的图像分类模型的原理性示意图；

图4为本申请实施例提供的训练图像分类模型的方法流程图；

图5为本申请实施例提供的训练图像分类模型的原理性示意图；

图6为本申请实施例提供的应用于医学领域的图像分类方法的流程图；

图7为本申请实施例提供的图像分类装置的示意性框图；

图8为本申请实施例提供的训练图像分类模型的装置示意性框图；

图9为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

传统基于深度神经网络的图像分类方法大多是从图像中提取图像的特征表示后，利用提取的图像的特征表示直接进行分类。但这种方式在一些复杂场景下得到的图像分类结果的准确率和召回率较低，无法满足实际的场景需求。

有鉴于此，本申请提供了一种全新的图像分类思路。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括服务端的模型训练装置和图像分类装置，还可以包括用户终端。

其中，模型训练装置用以在离线阶段进行模型训练。即在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到图像分类模型。

图像分类装置用以在线上利用已经训练得到的图像分类模型，对待分类的图像进行分类，得到图像是否属于目标类别的分类结果。

模型训练装置和图像分类装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和图像分割装置还可以设置于具有较强计算能力的计算机终端。

作为其中一种可实现的方式，用户可以通过用户终端将待分类的图像通过网络发送给服务端的图像分类装置。由图像分类装置采用本申请实施例提供的方法对待分类的图像进行分类后，将分类结果返回给用户终端。

上述用户终端可以包括但不限于智能移动终端、智能家居设备、可穿戴式设备、智能医疗设备、PC(Personal Computer，个人计算机)等。其中智能移动设备可以包括诸如手机、平板电脑、笔记本电脑、PDA(Personal DigitalAssistant，个人数字助理)、互联网汽车等。智能家居设备可以包括诸如智能电视、智能冰箱等等。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、VR(Virtual Reality，虚拟现实)设备、AR(Augmented Reality，增强现实设备)、混合现实设备(即可以支持虚拟现实和增强现实的设备)等等。

需要说明的是，上述图像分类装置除了在线上进行图像分类之外，也可以采用离线的方式进行图像分类，例如针对批量的待分类图像分别进行图像分类。

应该理解，图1中的模型训练装置、图像分类装置、图像分类模型和用户终端的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、图像分类装置、图像分类模型和用户终端。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分。例如“第一图像分割模型”和“第二图像分割模型”用以在名称上区分两条语音。再例如“第一分割结果”和“第二分割结果”用以在名称上区分两个分割结果。再例如“第一目标”和“第二目标”用以在名称上区分两种目标。等等。

图2为本申请实施例提供的图像分类方法的流程图，该方法可以由图1所示系统中的图像分类装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取待分类图像。

步骤204：对待分类的图像进行特征提取，得到图像的特征表示。

步骤206：利用图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示。

步骤208：利用图像的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵。

步骤210：利用多个聚类中心表示和类别分配矩阵进行分类，得到待分类的图像是否属于目标类别的分类结果。

由上述流程可以看出，本申请通过预先训练得到的多个聚类中心所包含的高水平的语义，与图像的特征表示共同进行解码处理，得到类别分配矩阵，使得类别分配矩阵能够体现与聚类中心关联的图像特征，即将图像特征匹配到相应的聚类中心，进而使得依据聚类中心表示和类别分配矩阵得到的图像分类结果具有更高的准确率。

下面对上述各步骤进行详细描述。首先对上述步骤202即“获取待分类的图像”进行详细描述。

在本申请中涉及的待分类的图像可以是二维图像，也可以是三维图像。可以是灰度图像，也可以是彩色图像。

在不同的应用领域待分类的图像可以包含不同的内容。例如，在交通领域，待分类的图像通常为包含诸如车辆、行人、道路、交通设施等交通元素的图像，图像分类的目的可以是确定图像是否属于特定的交通场景。再例如，在电商领域，待分类的图像通常为包含商品信息的图像，图像分类的目的可以是确定图像是否属于特定的商品类目。再例如，在医学领域，图像通常为医学影像，例如CT(Computed Tomography，断层扫描图像)、MRI(MagneticResonance Imaging，核磁共振图像)、超音波检查图像等，包含肺、肝脏、胰腺、结肠等器官，图像分类的目的可以是确定图像是否属于特定类别的器官区域，或者是否存在某种特定类别的异常。

上述流程中的步骤204～210可以由预先训练得到的图像分类模型实现。如图3中所示，本申请实施例提供的图像分类模型可以包括：特征提取网络、第一解码网络、第二解码网络和分类网络。

其中，上述步骤204即“对待分类的图像进行特征提取，得到图像的特征表示”可以由上述的特征提取网络执行。

特征提取网络可以基于Transformer(转换)网络实现，实现图像特征的提取，得到待分类的图像中各Token(元素)的特征表示。例如特征提取网络可以采用诸如VIT(VisionTransformer，视觉转换器)、RAN(Residual Attention Network，残差注意力网络)、U-Net(U-Net是FCN(Fully Convolutional Network，全卷积神经网络)的一种变体，其提出是为了解决生物医学影像的问题，由于效果很好后来被广泛地应用于图像分割的各个领域)等。

图像的各Token指的是构成图像的元素。对于图像而言，将图像切分成不重叠的区块序列，则图像中的区块以及序列的起始符均为Token。对于二维图像而言，其中的区块可以由一个或多个像素构成。对于三维图像而言，其中的区块可以由一个或多个体素构成。

作为其中一种优选的实施方式，可以采用诸如U-Net作为特征提取网络，得到多种分辨率下的各Token的特征表示，通过这种多尺度特征来提高图像分类的准确性。具体地，U-Net采用的是Encoder(编码器)-Decoder(解码器)架构，Encoder进行下采样，Decoder进行上采样和特征拼接，得到多个不同分辨率的特征表示，即先得到低分辨率下各Token的特征表示，进而依次得到更高分辨率下各Token的特征表示。然后将最高分辨率下的各Token的特征表示作为图像的特征表示。

如图3中所示，假设输入的待分类图像表示为X，通过特征提取网络得到图像的特征表示F，F∈R^A×HWD。其中，A为特征维度，H、W和D分别表示三维图像(以输入的待分类图像为三维图像为例)的高、宽和长。

上述步骤206即“利用图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示”可以由图像分类模型中的第一解码网络执行。

本步骤中，第一解码网络实际上是将一组聚类中心的初始表示，通过图像的特征表示的交叉注意力，转化为融合了图像语义的聚类中心表示。

若特征提取网络得到多个不同分辨率的特征表示，则作为其中一种优选的实施方式，第一解码网络可以包括多层串连的Transformer网络。可以利用多个聚类中心的初始表示得到查询矩阵，将查询矩阵输入多层串连的转换Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；利用最后一层Transformer网络输出的查询矩阵得到多个聚类中心表示。

每一层Transformer网络执行的处理可以表示如下：

其中，C_n表示第n层Transformer网络输出的多个聚类中心表示对应的矩阵，C_n-1为第n-1层Transformer网络输出的多个聚类中心表示对应的矩阵，对于第一层Transformer网络，其输入的C_n-1为多个聚类中心的初始表示对应的矩阵C_initial。Q由C_n-1得到，K和V均由该层Transformer网络对应分辨率下的各Token的特征表示得到。T表示转置处理。N为聚类中心的数量。

从上述过程中可以看出，第一解码器相当于依据初始聚类中心对图像中的各Token进行分组，其中交叉注意力的处理与K-means聚类算法类似，使用argmax处理替代传统Transformer网络中的softmax处理。最终得到的多个聚类中心表示对应的矩阵表示为C∈R^N×A。

上述步骤208即“利用图像的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵”可以由上述的第二解码网络执行。

本步骤实际上是基于N个聚类中心对各Token的特征表示进行重新分配，分配到不同的聚类中，因此将本步骤得到的结果称为类别分配矩阵。

第二解码网络可以将多个聚类中心表示对应的矩阵C和图像的特征表示F进行矩阵相乘，然后进行Softmax得到类别分配矩阵对应的矩阵M，可以表示为：

M＝Softmax_N(CF) (2)

其中，Softmax_N()表示在N聚类中心维度上进行的Softmax(归一化指数函数)的处理。

上述步骤210即“利用多个聚类中心表示和类别分配矩阵进行分类，得到待分类的图像是否属于目标类别的分类结果”可以由图3所示的图像分类模型中的分类网络执行。

由于学习到的多个聚类中心表示具有高水平的语义，同时体现了聚类之间的差异和聚类内部的相似性，因此，将多个聚类中心表示和类别分配矩阵进行结合考虑进行分类，相比较直接利用图像的特征表示进行分类而言，能够显著提高分类的精确度和召回率。

作为其中一种可实现的方式，可以对多个聚类中心表示进行求平均处理，得到聚类平均表示；以及对类别分配矩阵进行池化处理，得到聚类池化表示；然后将聚类平均表示和所述聚类池化表示进行整合，利用整合得到的特征表示进行分类，得到待分类的图像是否属于目标类别的分类结果。

例如，聚类平均表示可以在通道维度上对多个聚类中心表示进行求平均处理后得到的。除了求平均处理之外，也可以采用其他处理方式将矩阵C转化成向量。在图3中，聚类平均表示为

对类别分配矩阵进行池化处理时，可以采用诸如全局最大池化等。在图3中，池化处理后得到的聚类池化表示为

将聚类平均表示和聚类池化表示进行的整合可以是进行拼接，如图3中所示，可以将和/>进行拼接后，经过若干层MLP(Multilayer Perceptron，多层感知机)，得到待分类的图像是否属于目标类别的分类结果/>

在本申请实施例中，分类结果可以是二分类，也可以是多分类。以二分类为例，输出的分类结果可以是属于目标类别，或者不属于目标类别。

更进一步地，在本申请实施例中，还可以由图像分类模型中的分割网络利用类别分配矩阵对待分类的图像进行分割，得到预设类别的图像区域。

类别分配矩阵是基于N个聚类中心对各Token的特征表示进行重新分配，以分配到不同的聚类中得到的，因此可以将属于同一聚类中的各Token作为一个整体来对待。因此，可以将类别分配矩阵投影到K个通道，从而得到K个类别的图像区域即分割结果K为预设的大于1的正整数。其中，上述K个类别中包括分类网络对应的目标类别。待分类图像的分割结果可以为分类结果提供可解释性，供用户参考并了解目标类别在待分类的图像中的区域。

下面对上述实施例采用的图像分类模型的训练过程进行详细描述。图4为本申请实施例提供的训练图像分类模型的方法流程图，该方法流程可以由图1所示系统中的模型训练装置执行。如图4中所示，该方法可以包括以下步骤：

步骤402：获取包括多个训练样本的训练数据，训练样本包括图像样本以及图像样本是否属于目标类别的标签。

在本申请实施例中，可以获取一些已知属于目标类别或者不属于目标类别的图像作为图像样本，并对图像样本标注是否属于目标类别的标签。或者，获取一些图像作为图像样本，人工对图像样本标注是否属于目标类别的标签。这些图像样本可以根据实际需求从具体应用领域中获取。

更进一步地，还可以对图像样本标注预设类别的区域掩码(Mask)，即对图像样本中预设类别的区域进行标注，形成特定类别的区域掩码。可以采用人工标注的方式，也可以获取已知预设类别的区域的图像样本，将其中预设类别的区域进行标注形成区域掩码。上述预设类别包括目标类别。

例如训练数据集S可以表示为：{(X_i,Y_i,P_i)|i＝1,2,...,m}，其中，X_i为图像样本，P_i可以表示为对X_i标注的是否属于目标类别的标签，Y_i为对X_i标注的预设类别的区域掩码，m为训练样本的数量。

步骤404：利用训练数据训练图像分类模型，图像分类模型包括：特征提取网络、第一解码网络、第二解码网络和分类网络；特征提取网络对图像样本进行特征提取，得到图像样本的特征表示；第一解码网络利用图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；第二解码网络利用图像样本的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵；分类网络利用多个聚类中心表示和类别分配矩阵进行分类，得到图像样本是否属于目标类别的分类结果；训练的目标包括：最小化分类结果与对应标签之间的差异。

如图5中所示，特征提取网络对图像样本X_i进行特征提取，得到图像样本的特征表示F_i。特征提取网络可以基于Transformer(转换)网络实现，实现图像特征的提取，得到图像样本中各Token(元素)的特征表示。

作为其中一种可实现的方式特征提取网络可以对图像样本进行特征提取，依次得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为图像样本的特征表示。例如可以采用诸如U-Net作为特征提取网络，得到多种分辨率下的各Token的特征表示，通过这种多尺度特征来提高图像分类的准确性。具体地，U-Net采用的是Encoder(编码器)-Decoder(解码器)架构，Encoder进行下采样，Decoder进行上采样和特征拼接，得到多个不同分辨率的特征表示，即先得到低分辨率下各Token的特征表示，进而依次得到更高分辨率下各Token的特征表示。然后将最高分辨率下的各Token的特征表示作为图像的特征表示。

第一解码网络利用图像样本的特征表示F_i对多个聚类中心的初始表示(对应矩阵表示为C_initial)进行交叉注意力处理，得到多个聚类中心表示(对应的矩阵表示为C_i)。

若特征提取网络得到多个不同分辨率的特征表示，则作为其中一种优选的实施方式，第一解码网络可以包括多层串连的Transformer网络，多个聚类中心的初始表示作为查询矩阵输入第一层Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；利用最后一层Transformer网络输出的查询矩阵得到多个聚类中心表示。

第二解码网络利用图像样本的特征表示F_i和多个聚类中心表示C_i进行解码处理，得到类别分配矩阵M_i。实际上是基于多个聚类中心对各Token的特征表示进行重新分配，分配到不同的聚类中，因此将第二解码网络得到的结果称为类别分配矩阵。

分类网络利用多个聚类中心表示C_i和类别分配矩阵M_i进行分类，得到图像样本是否属于目标类别的分类结果。

作为其中一种可实现的方式，分类网络可以对多个聚类中心表示进行求平均处理，得到聚类平均表示；对类别分配矩阵进行池化处理，得到聚类池化表示；将聚类平均表示和聚类池化表示进行整合，利用整合得到的特征表示进行分类，得到图像样本是否属于目标类别的分类结果。

例如，聚类平均表示可以在通道维度上对多个聚类中心表示进行求平均处理后得到的。除了求平均处理之外，也可以采用其他处理方式将矩阵C_i转化成向量。在图5中，聚类平均表示为

对类别分配矩阵进行池化处理时，可以采用诸如全局最大池化等。在图5中，池化处理后得到的聚类池化表示为

将聚类平均表示和聚类池化表示进行的整合可以是进行拼接，如图5中所示，可以将和/>进行拼接后，经过若干层MLP(Multilayer Perceptron，多层感知机)，得到待分类的图像是否属于目标类别的分类结果/>

上述训练过程中训练的目标包括最小化分类结果与训练样本中针对X_i标注的标签P_i之间的差异。

更进一步地，在本申请实施例中，还可以由图像分类模型中的分割网络利用类别分配矩阵对图像样本进行分割，得到预设类别的图像区域。

类别分配矩阵是基于多个聚类中心对各Token的特征表示进行重新分配，以分配到不同的聚类中得到的，因此可以将属于同一聚类中的各Token作为一个整体来对待。因此，可以将类别分配矩阵投影到K个通道，从而得到K个类别的图像区域即分割结果K为预设的大于1的正整数。其中，上述K个类别中包括分类网络对应的目标类别。

上述训练过程中训练的目标可以进一步包括：最小化预设类别的图像区域与对应区域掩码Y_i之间的差异。该训练的目标可以用以在模型训练过程中辅助对分类结果的学习。

作为其中一种可实现的方式，在本说明书实施例中，可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

若采用上述两个训练的目标，则可以构造总损失函数L，例如：

其中，b为一个批(batch)的训练样本的数量，体现/>和Y_i之间的差异，体现/>和P_i之间的差异。

本申请上述实施例提供的图像分类方法可以应用于多种场景。例如，可以将遥感图像作为待分类的图像进行矿物晶体检测、石油探测等，即采用本申请实施例提供的方法对遥感图像进行分类，以确定遥感图像是否属于特定矿物晶体类别，同时可以对遥感图像进行分割，得到各种类别的区域，其中包括特定矿物晶体区域，从而提供可解释性参考。再例如，可以用于一些恶劣环境下的设备异常检测，即可以采用无人机、巡检机器人等设备采集设备图像，将设备图像作为待分类图像，采用本申请实施例提供的方法对设备图像进行分类，以确定是否属于异常类别，即就是否存在异常。同时可以对设备图像进行分割，得到背景区域、设备区域、异常区域等来提供可解释性参考。

还可以应用于其他场景，但其中一个较为重要的场景是医学场景，可以利用本申请实施例提供的方法对医学影像进行分类，以确定是否存在特定病灶。下面以此应用场景进行举例描述。

图6为本申请实施例提供的应用于医学场景的图像分类方法流程图，如图6中所示，该方法可以具体包括以下步骤：

步骤602：获取针对目标器官采集的医学影像。

在此采集的医学影像是采用非侵入式的采集方式，例如CT(ComputedTomography，断层扫描)、MRI(Magnetic Resonance Imaging，核磁共振)、超音波检查等。目标器官可以是胃、肺、肝脏、胰腺、结肠等器官。例如，可以是包含胃部的平扫CT(Non-Contrast CT)图像等。

以胃部的平扫CT图像为例，通常平扫CT设备扫描一圈会产生多层图像，因此，平扫CT图像X∈R^H×W×D，其中H、W和D分别表示三维图像(以输入的待分类图像为三维图像为例)的高、宽和层数。

步骤604：对医学影像进行特征提取，得到医学影像的特征表示。

步骤606：利用医学影像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示。

上述步骤604和步骤606可以参见之前实施例中针对步骤204和步骤206的记载，在此不做赘述。

聚类中心的数量N为超参数，N的取值通常大于后续分割区域的类别数量K，因为诸如胃癌等病变可能存在多个亚种，例如胃癌的不同发展期体现出的特征是不同的，因此会取更多数量的聚类中心。N一般取经验值或实验值，例如取8。

步骤608：利用医学影像的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵。

步骤610：利用多个聚类中心表示和类别分配矩阵进行分类，得到医学影像是否属于目标病变的分类结果。

上述步骤608和步骤610可以参见之前实施例中针对步骤208和步骤210的记载，在此不做赘述。

以胃部的平扫CT图像为例，步骤610得到的分类结果可以是一个2分类，即正常或者胃癌。从而实现了基于胃部的平扫CT图像检测是否有胃癌嫌疑的结果以提供给医师进行提醒和参考。其中，基于多分辨率的各Token的特征表示对多个聚类中心的初始特征表示进行交叉注意力处理，并将多个聚类中心的特征表示与图像的特征表示进行重新分配，使得分类过程既能够对局部组织敏感，又对器官生理学具有全局意识。

更进一步地，在本申请实施例中，还可以由图像分类模型中的分割网络利用类别分配矩阵对医学影像进行分割，得到预设类别的图像区域。其中预设类别可以包括背景、器官和病灶。仍以胃部的平扫CT图像为例，可以分割得到背景区域、胃部区域和胃癌区域，从而提供给医师作为可解释性的参考。

在采用图4所示流程对检测胃癌的图像分类模型进行训练时，图像样本可以是已知正常或胃癌的胃部的平扫CT图像作为各X_i，对各平扫CT图像标注正常或胃癌的标签作为P_i。由于平扫CT的区域标注较为困难，因此，可以由医师对各X_i对应的增强CT(Contrast CT)图像进行背景区域、胃部区域和胃癌区域的标注后，将标注后的增强CT图像与平扫CT图像对齐，从而形相对粗糙但可靠性高的各区域掩码。

胃癌是全球范围内癌症相关死亡的第三大原因，5年生存率约为33％，如果能够在早期检测出相关症状则可以显著提高5年生存率。由于早期胃肿瘤可能只侵犯粘膜和肌层，如果没有进行胃部造影剂注射很难识别。目前诸如钡餐胃部造影、内镜检查、血清胃蛋白酶原水平检查等已有的检测方式都是侵入式的，成本高且副作用大，难以很好地应用于早期胃癌检测。采用本申请实施例提供的上述方式，能够利用诸如胃部平扫CT图像等无创、成本低的方式来获取图像，并利用本申请实施例提供的方式，由计算机设备进行图像分类来实现胃癌检测，即最终输出的分类结果为是否属于胃癌，例如输出正常、胃癌的二分类结果，从而作为中间数据给医师或患者提供参考依据或提醒，以方便后续可以采用更进一步地检查和诊断。同时，能够对胃部平扫CT图像进行图像分割，分割得到背景区域、胃部区域以及病灶区域(即胃癌所在区域)，从而作为中间数据给医师或患者提供可解释性地参考。显然，这是一种无创、低成本且易于推广的新型检测方法，并且在精度上也有很好的效果。

经过实验，本申请实施例提供的方法在100例胃癌患者和148例正常患者的胃部平扫CT图像的测试集上，分类得到胃癌的分类结果的灵敏度为85.0％，特异性为92.6％。而放射科医生人为对胃部平扫CT图像进行胃癌判别的平均灵敏度为73.5％，特异性为84.3％，显然通过本申请实施例提供的基于计算机视觉技术的图像分类方法效果更优。其中灵敏度又称为真阳性率，是指对于胃癌样本进行测试的分类结果为胃癌的概率。特异性又称为真阴性率，是指对于正常个样本进行测试的分类结果为正常的概率。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种图像分类装置。图7示出根据一个实施例的图像分类装置的示意性框图。如图7所示，该装置700包括：图像获取单元701、特征提取单元702、第一解码单元703、第二解码单元704和图像分类单元705，还可以进一步图像分割单元706。其中各组成单元的主要功能如下：

图像获取单元701，被配置为获取待分类的图像。

特征提取单元702，被配置为对待分类的图像进行特征提取，得到图像的特征表示。

第一解码单元703，被配置为利用图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示。

第二解码单元704，被配置为利用图像的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵。

图像分类单元705，被配置为利用多个聚类中心表示和类别分配矩阵进行分类，得到待分类的图像是否属于目标类别的分类结果。

更进一步地，图像分割单元706，被配置为利用类别分配矩阵对待分类的图像进行分割，得到预设类别的图像区域，预设类别包括目标类别。

作为其中一种可实现的方式，上述特征提取单元702可以具体被配置为：对待分类的图像进行特征提取，得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为图像的特征表示。

相应地，第一解码单元703可以利用多个聚类中心的初始表示得到查询矩阵，将查询矩阵输入多层串连的转换Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；利用最后一层Transformer网络输出的查询矩阵得到多个聚类中心表示。

作为其中一种可实现的方式，图像分类单元705，可以具体被配置为对多个聚类中心表示进行求平均处理，得到聚类平均表示；对类别分配矩阵进行池化处理，得到聚类池化特征；将聚类平均表示和聚类池化表示进行整合，利用整合得到的特征表示进行分类，得到待分类的图像是否属于目标类别的分类结果。

上述特征提取单元702、第一解码单元703、第二解码单元704、图像分类单元705和图像分割单元706分别对应于图3所示图像分类模型中的特征提取网络、第一解码网络、第二解码网络、分类网络和分割网络，具体细节可以参见上述方法实施例中针对图3的相关记载，在此不做赘述。

图8为本申请实施例提供的训练图像分类模型的装置的示意性框图，如图8中所示，该装置可以包括：样本获取单元801和模型训练单元802。其中各组成单元的主要功能如下：

样本获取单元801，被配置为获取包括多个训练样本的训练数据，训练样本包括图像样本以及图像样本是否属于目标类别的标签。

模型训练单元802，被配置为利用训练数据训练图像分类模型，图像分类模型包括：特征提取网络、第一解码网络、第二解码网络和分类网络；特征提取网络对图像样本进行特征提取，得到图像样本的特征表示；第一解码网络利用图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理，得到多个聚类中心表示；第二解码网络利用图像样本的特征表示和多个聚类中心表示进行解码处理，得到类别分配矩阵；分类网络利用多个聚类中心表示和类别分配矩阵进行分类，得到图像样本是否属于目标类别的分类结果；训练的目标包括：最小化分类结果与对应标签之间的差异。

作为其中一种可实现的方式，上述训练样本还可以包括对图像样本标注的预设类别的区域掩码。图像分类模型还包括可以分割网络。

分割网络利用类别分配矩阵对图像样本进行分割，得到预设类别的图像区域，预设类别包括目标类别。相应地，上述训练的目标还可以包括：最小化预设类别的图像区域与对应区域掩码之间的差异。

作为其中一种可实现的方式，特征提取网络可以对图像样本进行特征提取，依次得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为图像样本的特征表示。

相应地，第一解码网络可以包括多层串连的Transformer网络，多个聚类中心的初始表示作为查询矩阵输入第一层Transformer网络，各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应，各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵，对输入本层Transformer网络的查询矩阵进行交叉注意力处理，得到本层Transformer网络输出的查询矩阵；利用最后一层Transformer网络输出的查询矩阵得到多个聚类中心表示。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图9示例性的展示出了电子设备的架构，具体可以包括处理器910，视频显示适配器911，磁盘驱动器912，输入/输出接口913，网络接口914，以及存储器920。上述处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920之间可以通过通信总线930进行通信连接。

其中，处理器910可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器920可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器920可以存储用于控制电子设备900运行的操作系统921，用于控制电子设备900的低级别操作的基本输入输出系统(BIOS)922。另外，还可以存储网页浏览器923，数据存储管理系统924，以及图像分类装置/模型训练装置925等等。上述图像分类装置/模型训练装置925就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行。

输入/输出接口913用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口914用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线930包括一通路，在设备的各个组件(例如处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，与存储器920)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器910、视频显示适配器911、磁盘驱动器912、输入/输出接口913、网络接口914，存储器920，总线930等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

获取待分类的图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，对所述待分类的图像进行特征提取，得到所述图像的特征表示包括：

4.根据权利要求3所述的方法，其特征在于，利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括：

对所述类别分配矩阵进行池化处理，得到聚类池化特征；

6.一种训练图像分类模型的方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述训练样本还包括对所述图像样本标注的预设类别的区域掩码；所述图像分类模型还包括分割网络；

8.根据权利要求6所述的方法，其特征在于，所述特征提取网络对所述图像样本进行特征提取，得到所述图像样本的特征表示包括：对所述图像样本进行特征提取，依次得到多种分辨率下的各元素Token的特征表示，将最高分辨率下的各Token的特征表示作为所述图像样本的特征表示；

9.根据权利要求6至8中任一项所述的方法，其特征在于，所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括：

对所述类别分配矩阵进行池化处理，得到聚类池化表示；

10.一种图像分类方法，由云端服务器执行，其特征在于，所述方法包括：

获取来自用户终端的待分类的图像；

将所述分类结果返回给所述用户终端。

11.一种图像分类装置，其特征在于，所述装置包括：

图像获取单元，被配置为获取待分类的图像；

12.一种训练图像分类模型的装置，其特征在于，所述装置包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。