CN117611930B

CN117611930B - 一种基于clip的医学图像的细粒度分类方法

Info

Publication number: CN117611930B
Application number: CN202410089394.6A
Authority: CN
Inventors: 蔡青; 张朦幻; 李帅衡; 冯春梅; 刘治; 董军宇
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-04-26
Anticipated expiration: 2044-01-23
Also published as: CN117611930A

Abstract

本发明公开了一种基于CLIP的医学图像的细粒度分类方法，属于计算机视觉技术领域。本发明利用clip模型以及特征对齐的思想，搭建了医学图像细粒度图像分类的通用模型，可以通过先粗粒度后细粒度分类的方式，对于不同类型的医学图像数据集进行很好的分类，并进一步在各个医学图像数据集中实现细粒度分类。本发明能够成为医学图像细粒度分类领域中的通用模型，预测效果较好，具有广阔的应用前景。

Description

一种基于CLIP的医学图像的细粒度分类方法

技术领域

本发明涉及一种基于CLIP的医学图像的细粒度分类方法，属于计算机视觉技术领域。

背景技术

医学影像细粒度图像分类是医学影像分析领域中的核心任务之一。细粒度图像分类旨在识别和分类影像中的微小结构或特征，这些特征对不同疾病的诊断和预后至关重要。例如，在肿瘤诊断中，医生需要精确区分肿瘤的类型、分级以及其在不同组织中的定位。有些疾病的诊断可能取决于影像中的微小细节，如病变形态、纹理和边界等。传统图像分类方法可能无法充分捕捉这些细微特征，因此利用深度学习技术来进行医学影像细粒度图像分类变得至关重要。

目前，医学影像细粒度图像分类技术仍面临数项关键挑战：

第一，标注成本高昂。医学影像细粒度分类的数据集标注需要专业人士进行判断和标记，这耗费大量人力和物力资源，成本相当高昂。

第二，模型泛化能力差。医学影像的复杂性与多样性限制了模型的泛化能力。在处理来自不同医疗设备、扫描参数或部位的影像时，模型可能表现不佳，因此需要更强的泛化性能。

第三，类间差异性小和类内差异性大。数据集中数据通常都有类间差异性小和类内差异性大的问题。在医学影像领域内，由于医学影像的特殊性，使得这个问题被放大。

第四，需求个性化和实时性。与一般的图像细粒度分类相比，患者的个体差异和疾病的发展动态性需要对诊断和治疗进行个性化调整，而一般化的分类模型可能无法满足这种个性化需求和实时性要求。

第五，图片的位姿往往是混乱的，无法对齐的。由于医学影像的拍照姿势不一定是确定的，因此得到的图片数据的形态往往是复杂多变的。

发明内容

为解决医学影像内的细粒度分类遇到的问题，本发明的目的是提供一种基于CLIP的医学图像的细粒度分类方法，以弥补现有技术的不足。

为实现上述发明目的，本发明采取的具体技术方案如下所示：

一种基于CLIP的医学图像细粒度分类方法，包括如下步骤：

S1：采集医学影像类的细粒度图像数据，进行预处理，并划分训练集和测试集；

S2：首先基于CLIP（图像-文本对预训练模型）对于细粒度图像数据进行粗分类，得到粗分类后的图像数据集；

S3：再基于ResNet（残差网络模型）对粗分类后的图像数据集进行处理，进行细粒度分类；

S4: 引入一种基于标签平滑的软监督的课程训练策略；

S5：通过FPN模块生成不同空间大小的得分图金字塔；

S6：根据得分图的高低，将对应的局部区域从输入图片上裁剪下来并依次送入到具有共享权重的主干网络中；

S7：提出对比特征正则化的方式，对全局特征和局部特征进行对比学习，以此来过滤掉全局特征中的冗余信息；

S8：提出无监督图匹配方法，以统一的顺序对提取到的多个局部特征进行排序，即对局部特征进行对齐；

S9：通过训练集对CLIP和ResNet进行训练，分别得到训练好的模型之后，再进行测试，输出分类结果。

进一步地，所述S1中，所述预处理包括对图像进行裁切旋转等操作，并将图片大小和维度进行统一。

进一步地，所述S3中：在进行全局特征提取时，运用ResNet做为backbone，对全局特征进行提取，将大小为H×W×C的图片分别送入大小为H/8 × W/8 × D、H/16 ×W/16× 2D、H/32 × W/32 × 4D的卷积块中从而得到不同深度的特征块，分别记为, ，S表示采用了几个深度的卷积；在得到不同深度的特征块后，统一进入到全局最大池化层GMP中，来获取不同深度对应的全局图像向量表示，得到的图像表示会进入到MLP层中来获取分类预测，每张图片会有S+1个分类预测，然后在后续处理中将这S+1个分类预测整合起来。

进一步地，所述S4中：引入一个基于标签平滑的软监督方法，通过调整一个控制因子α来控制新目标标签真实类别的大小，α的大小在0-1之间；使课程监督与浅层到深层的特征编码器相结合，从而实现从易到难的训练目标； t 代表标签向量 y 的元素索引；在公式（1）中，t 被用来引用标签向量 y 的特定元素：

；

在训练期间，对来自不同层的表示或其组合的预测 {} 使用不同的标签进行监督，其损失函数见公式（2），该公式表示在第s个子网络中使用标签平滑的交叉熵损失，α(s) 是一个在[0,1]之间的平滑因子，y 是真实的类别标签：

；

其中表示真实标签，/>表示平滑的交叉熵损失，由于有S+1个预测，因此每个图像的整体分类损失函数写成：

；

进一步地，所述S5中：Backbone的最后一个特征提取块后连接一个FPN模块，FPN模块可以用来生成不同空间大小的分数图金字塔；分数图上的每个分数元素都对应着一个固定大小的预定义图像补丁；这些大小不一的补丁与其他补丁重叠。

进一步地，所述S6具体为：

根据得分金字塔得到N个最高分，应用非极大值抑制（NMS）方法来消除具有大的交并比（IoU）的部分，在目标检测或分割任务中减少重复的预测，从而提高模型性能；之后通过由高到低的分数，来选择和这些分数所对应的区域，并将这些区域从输入的图像中裁剪出来，这些局部区域是包含着具有检测到的显著区域的；这些裁剪出来的部分通过与全局对象表示之间的分布差异来正则化整个对象表示，从而提高对象表示，从而更好地实现对于特征的提取，因为有N个最高分，所以能获得N个有显著细节的局部区域，之后把这N个区域都裁剪成224×224的大小，并输入到具有共享权重的backbone中；

将局部的特征定义为：，n表示的是第几个分数对应的图像；第n部分的分类损失函数为：

；

总的局部分类损失函数为：

；

给定局部索引n和n’，如果，则索引为n的局部块应该比索引为n’的局部快有更高的分数；

；

如果n局部的分数高，那为1，反之，/>为0，如下所示：

；

上述函数的设计以提高局部位置检测的可靠性。

进一步地，所述S7中：提出一种特征正则化，以对比学习的方式约束对象表示学习；给定全局图像向量表示，和局部向量表示，用对比损失的方法对每一个阶段的向量表示进行正则化，损失函数如下所示：

；

是Kullback-Leibler散度函数（KL散度），KL散度是用来比较两个概率分布的接近程度；/>是一个待优化的近似函数，利用两个MLP对齐进行建模。通过计算正则化损失，可以强制对象表示学习分支专注于来自特定区域的判别细节。

进一步地，所述S8中：按照局部部分的关联矩阵对局部部分进行重排，用重排好的局部特征对全局特征进行正则化；局部部分的关联矩阵，通过维护一个相关矩阵来对局部部分之间的相关关系做出联系：

；

表示的是局部区域/>和/>之间的关系矩阵；再给定另一张新的图像，计算新的图像的相关矩阵记为M’ , 如果M’与M具有最好的匹配度，就认为此时能达到各个部分最好的对齐方式；

；

由公式（10）可知，匹配度A可以通过整合两个矩阵的向量化的元素乘积来得到；这是考虑关系相似性而不是部分相似的图匹配问题，选择匹配度最大的排列作为正确的顺序。

进一步地，所述的S9中，训练过程中确定最终的损失函数为：

；

表示对全局图像特征进行分类的损失；/>表示对有判别性的局部特征分类的损失；/>表示保持局部分数一致性的排名损失；/>表示对图像向量表示进行正则化的损失；再将多个具有相同权重的预测输出组合如下：

；

通过以上方法得到最终预测类，然后通过预测类和实际类的差值计算准确度。

本发明的优点和有益效果：

本发明利用CLIP模型以及特征对齐的思想，搭建了医学图像细粒度图像分类的通用模型，可以通过先粗粒度后细粒度分类的方式，对于不同类型的医学图像数据集进行很好的分类，并进一步在各个医学图像数据集中实现细粒度分类。

本发明能够成为医学图像细粒度分类领域中的通用模型，目前，虽然关于细粒度图像的分类模型有很多，但是在医学领域的细粒度分类中，该研究很少，对于通用模型的搭建还并不是很完善，本发明从通用模型的角度来看，预测效果较好，具有广阔的应用前景。

附图说明

图1是本发明的整体流程图。

图2是本发明的模块框架图。

图3是本发明实施例3的分类结果图。

具体实施方式

下面将结合附图1-3及与具体实施例对本发明做进一步说明。

实施例1：

一种基于CLIP的医学影像细粒度图像分类方法，整体流程如图1所示。

S1:采集数据集，对数据集进行训练集测试集的分类，并对图像进行裁切旋转等操作，且将图片大小和维度调为一致；

数据集可选择ISIC，是关于皮肤病是数据集，ISIC 2020 是由 InternationalSkin Imaging Collaboration (ISIC) 发布的一个大规模皮肤镜图像分类数据集。

对ISIC数据集的处理主要包括首先对ISIC数据集进行分类，根据ISIC数据集自带的csv文件，将ISIC数据集分成对应的类别。共七类包括NV（皮肤纤维化）、DF（瘤病变）、AKIEC（光化性角化病）、VASC（血管病变）、BKL（脂溢性角化病）、MEL（黑色素瘤）和BCC（基底细胞癌）。分出子类后，再对子类进行训练集和测试集的分类，在这里，将训练集和测试集的大小比例设置成8：2。从而帮助模型对ISIC数据集进行更好地训练。

除了ISIC数据集之外，还引入了血细胞图像数据集等多个细粒度图像分类数据集，用多个数据集通过对比学习的思想，来实现通用模型的建立。

S2:运用CLIP架构实现通用模型的粗分类，将ISIC皮肤病数据集和细胞核数据集、胃病数据集都放入CLIP中进行预训练，将各自的图像文件夹设上分类标签（例如：一张XX的照片）由于病变的图像，只看病变部位不是很相似，因此可以使用CLIP进行对于不同病变部位（不同数据集）一个粗分类。预训练多个不同部位病灶的数据集之后，就可以初步实现对于不同部位病灶数据集的一个粗分类。

在S2中，通过CLIP模型同时处理了多个不同数据集，比如说区分ISIC皮肤病数据集和血细胞图像数据集；通过输入ISIC数据集和血细胞数据集对CLIP模型进行预训练；

在测试过程中，输入的图片首先经过预训练好后的CLIP模型，由CLIP模型对该张图片进行预测，并输出这张图片可能对应的数据集是哪个数据集，得到对应的文本信息后，根据文本信息选择对应的细粒度图像分类模型。例如，输入一张血管病变的数据集，经过CLIP模型后，应该输出“来自ISIC数据集的图片”，根据这个文本信息，再去寻找已经训练好ISIC数据集的细粒度分类模型。

S3:对CLIP模型进行预训练后，每张图片在进行训练前都会进入CLIP模型中，事先判断出该张图像属于哪个数据集，再调用该数据集对应的细粒度图像分类模式。

S4:用ResNet（可以采用resnet50、resnet101、resnet34分别进行实验）作为细粒度图像分类的backbone用来实现对于全局特征的提取，将大小为H×W×C的图像分别送入大小为H/8 × W/8 × D、H/16 ×W/16 × 2D、H/32 × W/32 × 4D的卷积块中从而得到不同深度的特征块，在得到不同深度的全局图像特征块后，都会统一进入到全局最大池化层（GMP）中，来获取不同深度对应的全局图像向量表示，得到的图像表示会进入到MLP层中来获取分类预测（每张图片会有S+1个分类预测），然后在之后的过程中将这S+1个分类预测整合起来。

S5:采用一个课程监督训练模块，通过引入一个基于标签平滑的软监督方法，它通过调整一个控制因子 α 来控制新目标标签中真实类别的大小，α的大小在0-1之间。这使得课程监督可以与浅层到深层的特征编码器相结合，从而实现从易到难的训练目标；

；

在训练期间，对来自不同层的表示或其组合的预测 {y^((s))} 使用不同的标签进行监督，其损失函数可以写成以下形式：

；

其中表示平滑的交叉熵损失，由于有S+1个预测，因此每个图像的整体分类损失函数为：

；

S6: Backbone的最后一个特征提取块后连接一个FPN模块，FPN模块可以用来生成不同空间大小的分数图金字塔。分数图上的每个分数元素都对应着一个固定大小的预定义图像补丁，这些大小不一的补丁可以与其他补丁重叠。

S7: 根据得分金字塔可以得到N个最高分，应用非极大值抑制（NMS）方法来消除具有大的交并比（IoU）的部分。之后，通过由高到低的分数，来选择和这些分数所对应的区域，并将这些区域从输入的图像中裁剪出来，这些局部区域是包含着具有检测到的显著区域的。（这些裁剪下来的部分的用途：通过与全局对象表示之间的分布差异来正则化整个对象表示，从而提高对象表示，从而更好地实现对于特征的提取），因为有N个最高分，所以能获得N个有显著细节的局部区域，之后把这N个区域都裁剪成224×224的大小，并把他们输入到具有共享权重的Backbone中。

在这里将局部的特征定义为：, n表示的是第几个分数对应的图像。第n部分的分类损失可以写成：

；

总的局部分类损失可以写成：

；

如果n局部的分数高，那为1，反之，/>为0，如下所示：

；

S8: 提出了一种特征正则化，以对比学习的方式约束对象表示学习。给定全局图像向量表示，和局部向量表示，用对比损失的方法对每一个阶段的向量表示进行正则化，损失函数如下所示：

；

是Kullback-Leibler散度函数（KL散度），KL散度是用来比较两个概率分布的接近程度。在统计中，经常用一个简单的概率分布/>来描述，原分布为/>，需要一个量来衡量近似分布/>和原分布/>相比究竟损失了多少信息量，这就是KL散度所起的作用。通过KL散度函数来确定全局图像表示和局部表示的损失的信息量的数量。

是一个待优化的近似函数，利用两个MLP对齐进行建模。通过计算正则化损失，强制对象表示学习分支专注于来自特定区域的判别细节，可以更精准地捕获到需要观察的对象，从而实现忽视对象以外的嘈杂环境。也就是说，通过这种方式可以过滤掉每个全局图像向量表示中的冗余误导信息，从而提高对象表示的区分。

S9:由于挑选的N个局部区域上的特征间的联系有一定的相似性，所以可以依靠一个统一的顺序对挑选出的局部部分的特征进行一个排序（也就是对齐局部特征）；尽管按照一定的分数排序找到了特征最明显的N块区域，由于这些区域的相关性并不是连续的，所得到的局部特征并不是对齐的。举个例子来说，在对图像A中的黑色素瘤进行识别时，捕获到的特征顺序是病变上方-病变中心病变下方，而对图像B中的血管病变进行特征的提取时，捕获到的特征顺序可能是病变中心-病变上方-病变下方，也就是对于两张图片捕获到的特征并没有完全对齐，这可能会影响分类的准确性。

因为仅仅使用类别标签来监督选定的局部区域，而对于局部区域自身，又没有其他监督信息可以来监督这部分区域与其他区域间的关系。所以仅仅依靠以任意顺序排列的局部特征来进行正则化会导致特征不一致的问题。

因此提出一种无监督的图匹配的方法，由于挑选的N个局部区域上的特征间的联系有一定的相似性，所以可以依靠一个统一的顺序对挑选出的局部部分的特征进行一个排序（也就是对齐局部特征）：

；

按照局部部分的关联矩阵对局部部分进行重排，用重排好的局部特征对全局特征进行正则化。

实施例2：

一种基于CLIP的医学影像细粒度图像分类系统包括如下模块，如图2所示，包括：

数据预处理模块，用以进行数据预处理，以输入CLIP模块中。

CLIP模块（Contrastive Language-Image Pre-training）：按照图像-文本对的形式对图像进行分类的模块，以进行粗分类。

文本-模型选择模块：得到CLIP模型输出的文本后，会根据文本提示去进行下一步的模型选择，选择训练好对应数据库的模型。例如，若CLIP模型输出的文本信息是“皮肤病”，那么下一步就会去寻找对应皮肤病的数据库训练好的模型进行测试。

Resnet模块：作为细粒度图像分类的backbone用来实现对于全局特征的提取。

特征金字塔网络模块FPN（Feature Pyramid Network）：生成一个包含不同空间大小的分数图金字塔。分数图中的每个分数元素都对应着一个固定大小的预定义图像patch。

课程监督模块CS（Curriculum Supervision）：通过使用一种基于标签平滑的软监督的方法的课程监督模块。通过独立或者联合使用跨力度表示来做出更好的预测。设置一个平滑因子α，使它的值从0到1不等，α控制新目标中ground truth的维度，因此可以用来构建从易到难的课程目标以及浅层到深层的特征编码器。所以，在训练期间，对来自不同层的表示的预测使用不同的标签进行监督。

对比特征正则化FR（Feature Regularization）：以对比学习的方式约束对象表示学习。给定全局图像表示和局部向量表示，如下所示进行对每个阶段的表示的对比学习，并计算损失函数：

。

实施例3：

该实施例以上述方法为基础进行实例验证，为验证本发明模型的准确性，在ISIC2019（International Skin Imaging Collaboration）数据集上进行了实验，使用准确率Accuracy作为评价指标，通过使用resnet50作为backbone进行试验，得到如图3所示的结果，在训练Epoch=280的时刻，可以得到最好的测试准确度结果为87.80178%，最后的结果表明，本发明构建的模型可以取得不错的结果，细粒度分类的准确度较高。

最后，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于CLIP的医学图像细粒度分类方法，其特征在于，包括如下步骤：

S2：首先基于CLIP于细粒度图像数据进行粗分类，得到粗分类后的图像数据集；

S3：再基于ResNet对粗分类后的图像数据集进行处理，进行细粒度分类；所述S3中：在进行全局特征提取时，运用ResNet做为backbone，对全局特征进行提取，将大小为H×W×C的图片分别送入大小为H/8×W/8×D、H/16×W/16×2D、H/32×W/32×4D的卷积块中从而得到不同深度的特征块，分别记为F⁽¹⁾，F⁽²⁾，F⁽³⁾.....F^(s)，S表示采用了几个深度的卷积；

在得到不同深度的特征块后，统一进入到全局最大池化层GMP中，来获取不同深度对应的全局图像向量表示，得到的图像表示会进入到MLP层中来获取分类预测，每张图片会有S+1个分类预测，然后在后续处理中将这S+1个分类预测整合起来；

S4：引入一种基于标签平滑的软监督的课程训练策略；所述S4中：引入一个基于标签平滑的软监督方法，通过调整一个控制因子α来控制新目标标签y_α[t]真实类别的大小，α的大小在0-1之间；使课程监督与浅层到深层的特征编码器相结合，从而实现从易到难的训练目标；t代表标签向量y的元素索引；在公式(1)中，t被用来引用标签向量y的特定元素：

在训练期间，对来自不同层的表示或其组合的预测{y^(s)}使用不同的标签进行监督，其损失函数见公式(2)，该公式表示在第s个子网络中使用标签平滑的交叉熵损失，α(s)是一个在[0，1]之间的平滑因子，y是真实的类别标签：

l_sce(y^(s)，y，α^(s))＝l_ce(y^(s)，y_α(n)) (2)；

其中y_α(n)表示真实标签，l_sce(·)表示平滑的交叉熵损失，由于有S+1个预测，因此每个图像的整体分类损失函数写成：

S5：通过FPN模块生成不同空间大小的得分图金字塔；

S6：根据得分图的高低，将对应的局部区域从输入图片上裁剪下来并依次送入到具有共享权重的主干网络中；所述S6具体为：根据得分金字塔得到N个最高分，应用非极大值抑制NMS方法来消除具有大的交并比IoU的部分，在目标检测或分割任务中减少重复的预测，从而提高模型性能；之后通过由高到低的分数，来选择和这些分数所对应的区域，并将这些区域从输入的图像中裁剪出来，这些局部区域是包含着具有检测到的显著区域的；这些裁剪出来的部分通过与全局对象表示之间的分布差异来正则化整个对象表示；因为有N个最高分，所以能获得N个有显著细节的局部区域，之后把这N个区域都裁剪成224×224的大小，并输入到具有共享权重的backbone中；

将局部的特征定义为：n表示的是第几个分数对应的图像；第n部分的分类损失函数为：

总的局部分类损失函数为：

给定局部索引n和n’，如果L_pn＜L_pn′，则索引为n的局部块应该比索引为n’的局部快有更高的分数；

如果n局部的分数高，那c_nn′为1，反之，c_nn′为0，如下所示：

上述函数的设计以提高局部位置检测的可靠性；

S7：提出对比特征正则化的方式，对全局特征和局部特征进行对比学习，以此来过滤掉全局特征中的冗余信息；所述S7中：提出一种特征正则化，以对比学习的方式约束对象表示学习；给定全局图像向量表示和局部向量表示用对比损失的方法对每一个阶段的向量表示进行正则化，损失函数如下所示：

l_kl是Kullback-Leibler散度函数，KL散度是用来比较两个概率分布的接近程度；是一个待优化的近似函数，利用两个MLP对齐进行建模；通过计算正则化损失L^reg，强制对象表示学习分支专注于来自特定区域的判别细节；

S8：提出无监督图匹配方法，以统一的顺序对提取到的多个局部特征进行排序，即对局部特征进行对齐；所述S8中：按照局部部分的关联矩阵对局部部分进行重排，用重排好的局部特征对全局特征进行正则化；局部部分的关联矩阵，通过维护一个相关矩阵来对局部部分之间的相关关系做出联系：

M_ij表示的是局部区域p_i和p_j之间的关系矩阵；再给定另一张新的图像，计算新的图像的相关矩阵记为M’,如果M’与M具有最好的匹配度，就认为此时能达到各个部分最好的对齐方式；

A＝argmax vec(M′)T vec(M) (10)；

由公式(10)可知，匹配度A可以通过整合两个矩阵的向量化的元素乘积来得到，选择匹配度最大的排列作为正确的顺序；

S9：通过训练集对CLIP和ResNet进行训练，分别得到训练好的模型之后，再进行测试，输出分类结果；所述的S9中，训练过程中确定最终的损失函数为：

表示对全局图像特征进行分类的损失；/>表示对有判别性的局部特征分类的损失；L^rank表示保持局部分数一致性的排名损失；L^reg表示对图像向量表示进行正则化的损失；

再将多个具有相同权重的预测输出组合如下：

2.如权利要求1所述的基于CLIP的医学图像细粒度分类方法，其特征在于，所述S1中，所述预处理包括对图像进行裁切旋转操作，并将图片大小和维度进行统一。

3.如权利要求1所述的基于CLIP的医学图像细粒度分类方法，其特征在于，所述S5中：Backbone的最后一个特征提取块后连接一个FPN模块，FPN模块用来生成不同空间大小的分数图金字塔；分数图上的每个分数元素都对应着一个固定大小的预定义图像补丁；这些大小不一的补丁与其他补丁重叠。